JP2022102095A - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP2022102095A
JP2022102095A JP2020216626A JP2020216626A JP2022102095A JP 2022102095 A JP2022102095 A JP 2022102095A JP 2020216626 A JP2020216626 A JP 2020216626A JP 2020216626 A JP2020216626 A JP 2020216626A JP 2022102095 A JP2022102095 A JP 2022102095A
Authority
JP
Japan
Prior art keywords
sample
class
domain
pseudo
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020216626A
Other languages
English (en)
Other versions
JP7062747B1 (ja
Inventor
ムハマド アクマル
Akmal Muhammad
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rakuten Group Inc
Original Assignee
Rakuten Group Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rakuten Group Inc filed Critical Rakuten Group Inc
Priority to JP2020216626A priority Critical patent/JP7062747B1/ja
Priority to TW110134193A priority patent/TWI792560B/zh
Priority to EP21204690.8A priority patent/EP4020338A1/en
Priority to CN202111385356.8A priority patent/CN114757358A/zh
Priority to US17/548,743 priority patent/US12002488B2/en
Priority to JP2022069215A priority patent/JP7277645B2/ja
Application granted granted Critical
Publication of JP7062747B1 publication Critical patent/JP7062747B1/ja
Publication of JP2022102095A publication Critical patent/JP2022102095A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10009Improvement or modification of read or write signals
    • G11B20/10305Improvement or modification of read or write signals signal quality assessment
    • G11B20/10361Improvement or modification of read or write signals signal quality assessment digital demodulation process
    • G11B20/10379Improvement or modification of read or write signals signal quality assessment digital demodulation process based on soft decisions, e.g. confidence values, probability estimates, likelihoods values or path metrics of a statistical decoding algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/84Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Human Computer Interaction (AREA)
  • Computational Mathematics (AREA)
  • Signal Processing (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Hardware Redundancy (AREA)

Abstract

Figure 2022102095000001
【課題】ターゲットドメインのサンプルがソースドメインのサンプルに十分対応しない場合であっても高精度な処理結果を得る情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】学習装置1は、ソースドメインに含まれる第1のクラスのサンプル及びび第2のクラスのサンプルと、ターゲットドメインに含まれる第1のクラスのサンプルとから、夫々特徴を抽出する特徴抽出部と、特徴抽出部が抽出した特徴の、特徴空間におけるターゲットドメインに含まれる第1のクラスのサンプルの分布に基づいて、ターゲットドメインの第2のクラスの疑似サンプルを生成する疑似サンプル生成部と、特徴空間において、ソースドメインに含まれる第1のクラスのサンプル及び第2のクラスのサンプルの分布を、ターゲットドメインに含まれる第1のクラスのサンプル及び第2のクラスの疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換部とを備える。
【選択図】図1

Description

本発明は、情報処理装置、情報処理方法およびプログラムに関し、特に、学習モデルを機械学習させるための技術に関する。
教師あり機械学習においては、教師サンプル(標本)と教師ラベルからなる教師データセットを用いて、教師サンプルとラベルとの関係を学習モデルに反映させるように、学習モデルを機械学習させる。このような機械学習により得られた学習済みモデルを、推論フェーズにおいてラベルの付されていない未知のサンプルに適用することで、例えば、画像認識、分類等の所望の処理結果が得られる。
ある教師データセットを用いて学習させた学習済みモデルを、当該教師データセットとはドメインが異なるデータセットを対象とするタスクにそのまま適用すると、推論の精度が低下してしまう。ここで、ドメインとは、データセットにおけるデータの種類、範囲、分布等をいう。
そこで、対象となるデータセットと同一のドメインであるターゲットドメインのサンプルを用いて、学習済みモデルをさらに機械学習させることで、学習済みモデルをターゲットドメインに適用可能とする技術があり、これは転移学習(Transfer Learning)と称される。
この転移学習の1つに、ドメイン適応(Domain Adaptation)がある。このドメイン適応では、教師データセットのドメインと対象となるデータセットのドメインとでサンプルの分布が異なることを前提とし、適用元である教師データセットのドメイン(ソースドメイン)の分布を、適用先である対象のデータセットのドメイン(ターゲットドメイン)の分布に近づけるように、学習モデルを学習させる。
特許文献1は、カメラで撮影された車両画像を分類するタスクにおけるドメイン適応化手法を開示する。
具体的には、特許文献1のラベリングシステムにおいては、同じカメラにより取得された画像を表すラベル化特徴ベクトルを対象ドメイン訓練セットとし、他の複数のカメラによりそれぞれ取得された複数のソースドメイン訓練セットとして用いて、ドメイン間のずれが学習されるよう、ブースト分類器を訓練する。これにより、早期に導入されたカメラや他の位置に設置されたカメラで収集された画像を利用して車両画像を分類している。
特開2016-58079号公報
ところで、ドメイン適応においては、ソースドメインに含まれる教師サンプルにはラベルが付されているが、ターゲットドメインに含まれる対象データのサンプルにはラベルが付されているとは限らない。ターゲットドメインのサンプルにラベルが付されていない場合のドメイン適応は、教師なしドメイン適応とも呼ばれる。
いずれの場合であっても、ドメイン適応において、ターゲットドメインは、ソースドメインに属するサンプルに付されているすべてのラベルに対応するサンプルを含んでいることを想定している。
しかしながら、ターゲットドメインのサンプルとして、常にソースドメインのすべてのラベルに対応するサンプルが用意できるとは限らない。このように、ターゲットドメインが、ソースドメインに属するサンプルに付されている一部のラベルに対応するサンプルを欠くと、特許文献1の技術では、ソースドメインをターゲットドメインにドメイン適応させた際に、ソースドメインのサンプル分布をターゲットドメインのサンプル分布に十分に近づけることができない。
したがって、学習済みモデルに対するドメイン適応の精度が低下し、ひいては当該学習済みモデルを用いて推論する各種処理の精度もまた低下してしまうおそれがある。
本発明は上記課題を解決するためになされたものであり、その目的は、ターゲットドメインのサンプルがソースドメインのサンプルに十分対応しない場合であっても、高精度な処理結果を得ることが可能な情報処理装置、情報処理方法およびプログラムを提供することにある。
上記課題を解決するために、本発明に係る情報処理装置の一態様は、ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出する特徴抽出部と、前記特徴抽出部により抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成する疑似サンプル生成部と、前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換部と、を備える。
前記疑似サンプル生成部は、前記特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布の第1の信頼度を推定し、推定された前記第1の信頼度の勾配に基づいて、前記疑似サンプルを生成してよい。
前記疑似サンプル生成部は、推定された前記第1の信頼度が低い前記特徴空間の領域に、前記疑似サンプルを生成してよい。
前記疑似サンプル生成部は、前記特徴空間における前記ソースドメインに含まれる前記第2のクラスのサンプルの分布の第2の信頼度を推定し、推定された前記第2の信頼度の勾配に基づいて、前記疑似サンプルを生成してよい。
前記疑似サンプル生成部は、前記第1の信頼度と前記第2の信頼度とを結合し、結合された信頼度に基づいて、生成された前記疑似サンプルを、前記特徴空間において前記結合された信頼度がより高い領域に分布させるようリサンプリングしてよい。
前記疑似サンプル生成部は、前記特徴空間における前記ソースドメインに含まれる前記第1のクラスのサンプルの分布と前記第2のクラスのサンプルの分布との間の距離に基づいて、前記疑似サンプルを生成してよい。
サンプルを前記ソースドメインおよび前記ターゲットドメインのいずれかに分類するドメイン分類器をさらに備え、前記疑似サンプル生成部は、前記ドメイン分類器が前記ターゲットドメインに分類されたサンプルに対して、前記ソースドメインに分類されたサンプルより高い重みを付与するよう、前記ドメイン分類器を学習させてよい。
サンプルを前記第1のクラスおよび前記第2のクラスのいずれかに分類するクラス分類器をさらに備え、前記疑似サンプル生成部は、前記クラス分類器が前記第2のクラスに分類されたサンプルに対して、前記第1のクラスに分類されたサンプルより高い重みを付与するよう、前記クラス分類器を学習させてよい。
前記データ変換部は、前記ドメイン分類器および前記クラス分類器の少なくとも1つを、第1の損失関数を用いて算出される、前記特徴空間におけるクロスエントロピー損失がより小さくなるよう機械学習してよい。
前記データ変換部は、第2の損失関数を用いて算出される、前記特徴空間における前記ソースドメインと前記ターゲットドメインとの間のWasserstein距離がより小さくなるよう機械学習してよい。
本発明に係る情報処理方法の一態様は、情報処理装置が実行する情報処理方法であって、ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出するステップと、抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成するステップと、前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するステップと、を含む。
本発明に係る情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出する特徴抽出処理と、前記特徴抽出処理により抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成する疑似サンプル生成処理と、前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換処理とを含む処理を実行させるためのものである。
本発明によれば、ターゲットドメインのサンプルがソースドメインのサンプルに十分対応しない場合であっても、高精度な処理結果を得ることができる。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
図1は、本発明の実施形態に係る学習装置の機能構成の一例を示すブロック図である。 図2は、本実施形態に係るソースドメインとターゲットドメインのサンプル分布の非対称性(ドメインシフト)を説明する図である。 図3は、本実施形態に係る学習装置が実行する疑似サンプル生成処理を経てドメイン適応されたソースドメインとターゲットドメインを説明する図である。 図4は、本実施形態に係る学習装置を、機械学習に実装する場合の学習モデルのモジュール構成および概略処理手順の一例を示す概念図である。 図5は、本実施形態に係る学習装置の疑似サンプル生成部が実行する疑似サンプル生成処理の詳細処理手順の一例を示すフローチャートである。 図6は、特徴空間上で、ターゲットドメインおよびソースドメインのサンプルからターゲットドメインの疑似サンプルを生成する手順の一例を説明する模式図である。 図7は、特徴空間上で、ターゲットドメインおよびソースドメインのサンプルからターゲットドメインの疑似サンプルを生成する手順の他の一例を説明する模式図である。 図8は、本実施形態に係る学習装置のハードウエア構成の一例を示すブロック図である。
以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。
本実施形態に係る学習装置は、ソースドメインのサンプルおよびターゲットドメインのサンプルの特徴をそれぞれ抽出し、ソースドメインのサンプルに付与された複数のラベル(クラス)のうちターゲットドメインに十分に含まれていないラベル(クラス)のサンプルを、疑似サンプルとして、特徴空間におけるターゲットドメインの領域に生成し、生成された疑似サンプルでターゲットドメインのサンプルを補完する。
本実施形態に係る学習装置はまた、疑似サンプルが補完されたターゲットドメインに、ソースドメインがドメイン適応するよう機械学習する。
以下では、本実施形態が、例えば、画像を認識および分類する用途に適用される一例を説明するが、本実施形態はこれに限定されず、学習モデルが適用されるべきアプリケーションに応じて、あらゆる種類のデータやドメインに適用可能である。
<学習装置の機能構成>
図1は、本実施形態に係る学習装置1の機能構成の一例を示すブロック図である。
図1に示す学習装置1は、データ取得部11、特徴抽出部12、疑似サンプル生成部13、データ変換部14、および推論部15を備える。
学習装置1は、PC(Personal Computer)等で構成されるクライアント装置(不図示)とネットワークを介して通信可能に接続してよい。この場合、学習出装置1はサーバに実装され、クライアント装置は、学習装置1が外部と情報の入出力を実行する際のユーザインタフェースを提供してよく、また、学習装置1の各コンポーネント11~15の一部または全部を備えてもよい。
データ取得部11は、ソースデータセット2からソースドメインのサンプルを、ターゲットデータセット3からターゲットドメインのサンプルを、それぞれ取得して、取得されたソースドメインのサンプルおよびターゲットドメインのサンプルを特徴抽出部12へ供給する。
ソースデータセット2は、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性記憶装置で構成され、ドメイン適応元のソースドメインに属するサンプル(標本)を格納する。ソースドメインに属するサンプルを、ソースサンプルという。ソースサンプルは、学習モデルを事前学習させるための教師データであり、各ソースサンプルは、分類上の正解を示すクラスがラベル付けされている。
ターゲットデータセット3は、ソースデータセット2と同様、HDD、SSD等の不揮発性記憶装置で構成され、ドメイン適応先のターゲットドメインに属するサンプルを格納する。ターゲットドメインに属するサンプルを、ターゲットサンプルという。ターゲットサンプルは、学習モデルを適用すべきタスクが処理対象とするデータと同一のドメインに属するサンプルであり、各ターゲットサンプルは、クラスがラベル付けされていてよいが、必ずしもクラスでラベル付けされていなくてもよい。
なお、ドメインとは、ある1つの確率分布から発生するデータの所属領域をいい、例えば、データの種類、範囲、分布等の属性によりドメインが構成される。
データ取得部11は、ソースデータセット2およびターゲットデータセット3に予め格納されたソースサンプルおよびターゲットサンプルを読み出すことにより、ソースサンプルおよびターゲットサンプルを取得してもよく、あるいは、ソースサンプルおよびターゲットサンプルを記憶する同一のまたは異なる対向装置から通信I/Fを介して受信してもよい。
データ取得部11はまた、学習装置1においてドメイン適応の機械学習処理を実行するために必要な各種パラメータの入力を受け付ける。データ取得部11は、学習装置1と通信可能に接続されるクライアント装置のユーザインタフェースを介して、各種パラメータの入力を受け付けてよい。
特徴抽出部12は、データ取得部11から供給されるソースサンプルから、各ソースサンプルの特徴を抽出する。
特徴抽出部12はまた、データ取得部11から供給されるターゲットサンプルから、各ターゲットサンプルの特徴を抽出する。
特徴抽出部12は、抽出されたソースサンプルの特徴およびターゲットサンプルの特徴を、疑似サンプル生成部13へ供給する。
疑似サンプル生成部13は、特徴抽出部12から供給されるソースサンプルの特徴およびターゲットサンプルの特徴に基づいて、ターゲットドメインのターゲットサンプルにおいて、出現していない、または不足しているクラスのターゲットサンプルを、疑似サンプルとして生成する。
本実施形態では、疑似サンプル生成部13は、特徴抽出部12から供給されるソースサンプルの特徴およびターゲットサンプルの特徴を特徴空間上にマッピングし、特徴空間上のターゲットサンプルの分布の信頼度を推定し、推定された信頼度に基づいて疑似サンプルを生成することで、ターゲットドメインのターゲットサンプルを補完する。疑似サンプル生成部13はさらに、特徴空間上のソースサンプルの分布の信頼度を推定し、推定された信頼度に基づいて疑似サンプルを生成してよい。
疑似サンプル生成部13が実行する疑似サンプル生成処理の詳細は、図5を参照して後述する。
データ変換部14は、特徴抽出部12から供給されるソースドメインのソースサンプルの特徴の分布を、ターゲットドメインのターゲットサンプルの特徴の分布に一致させるようデータ変換を実行する。すなわち、データ変換部14は、ソースサンプルの特徴およびターゲットサンプルの特徴を入力として、学習モデルに学習させるべき教師データを、ソースドメインのデータからターゲットドメインのデータに変換する、ドメイン適応を実行する。
本実施形態において、データ変換部14は、疑似サンプル生成部13により生成された疑似サンプルでターゲットドメインを補完し、疑似サンプルが補完されたターゲットドメインのターゲットサンプルの特徴を入力として、ソースドメインからターゲットドメインへのドメイン適応を実行する。
データ変換部14は、変換された教師データ(学習データ)を用いて、学習モデルにおけるドメイン適応の関数のパラメータ値を機械学習する。
推論部15は、データ変換部14によりドメイン適応が適用された学習済みの学習モデルにより、入力データに対して各種処理結果を出力する。
このように機械学習された学習済みの学習モデルは、ターゲットドメインにおいて、疑似サンプルとして生成されたターゲットサンプルが未出現クラスのターゲットサンプルを補完しているため、各種推論処理における精度の低下が有効に防止される。
<ドメイン適応と疑似サンプル生成>
図2は、本実施形態に係るソースドメインとターゲットドメインのサンプル分布の非対称性(ドメインシフト)を説明する図である。
図2(a)は、ソースドメインに属するソースサンプルの特徴値P(x)の分布と、ターゲットドメインに属するターゲットサンプルの特徴値P(x)の分布とを示す。図2(a)に示されるように、ターゲットサンプルの特徴値の分布は、ソースサンプルの特徴値の分布と一致しておらず、ソースサンプルの特徴値の分布に対して、正方向に共変量(covariate)シフトしている(P(x)≠P(x))。
図2(b)は、ソースドメインに属するソースサンプルのクラス別の分布(P(y))と、ターゲットドメインに属するターゲットサンプルのクラス別の分布(P(y))とを示す。図2(b)では、ソースドメインおよびターゲットドメインはいずれも2つのクラス(-1、+1)を持つものとする。
図2(b)に示されるように、ソースドメインにおいては、クラス(-1)にラベル付けされたソースサンプル数とクラス(+1)にラベル付けされたソースサンプル数は、ほぼ同数である。一方、ターゲットドメインにおいては、クラス(-1)にラベル付けされたターゲットサンプル数は、クラス(-1)のソースサンプル数とほぼ同数なのに対して、クラス(+1)にラベル付けされたターゲットサンプル数は、クラス(+1)のソースサンプル数より著しく低く、ターゲットドメインはクラス分布においてもシフトを起こしている(P(y=+1)≠P(y=+1))。
非限定的一例として、ソースドメインがイラスト画像、ターゲットドメインが実写画像であり、入力画像を犬画像と猫画像とのいずれかのクラスに分類する学習モデルを得るため、学習モデルにドメイン適応を適用する場合を考える。
ソースドメインのソースサンプルは、犬を描いた犬のイラスト画像(P(y=-1))と、猫を描いた猫のイラスト画像(P(y=+1))との双方を含み、各ソースサンプルは、犬のクラス(-1)と猫のクラス(+1)とのいずれかがラベル付けされている。
一方、ターゲットドメインのターゲットサンプルは、図2(b)に示すように、犬が撮像された犬の実写画像(P(y=-1))がほぼ全てであり、猫が撮像された猫の実写画像(P(y=+1))は全く、あるいはごく僅かしか用意できなかったものとする。
実際に学習モデルを使用する推論フェーズ、すなわち入力画像をクラス分類するタスクのフェーズでは、犬の実写画像だけでなく猫の実写画像も入力されることが想定されるため、犬の実写画像と猫の実写画像とを高精度に区別することが要請される。
しかしながら、図2(b)に示すように、ターゲットドメインに猫の実写画像(P(y=+1))が不足しているため、学習モデルにドメイン適応を適用しても、猫の実写画像を犬の実写画像と区別して分類する精度が低下してしまう。
本実施形態は、これに対して、学習モデルをドメイン適応させるに際して、ターゲットドメインにおいて不足している猫の実写画像(P(y=+1))を疑似サンプルとして生成し、生成された疑似サンプルでターゲットドメインを補完する。
図3は、 本実施形態に係る学習装置1が実行する疑似サンプル生成処理を経てドメイン適応されたソースドメインとターゲットドメインを説明する図である。
図3(a)は、ドメイン適応後のソースドメインに属するソースサンプルの特徴値(P(x))の分布と、ターゲットドメインに属するターゲットサンプルの特徴値(P(x))の分布とを示す。図3(a)に示されるように、ターゲットサンプルの特徴値の分布は、ソースサンプルの特徴値の分布とほぼ一致している(P(x)≒P(x))。
図3(b)は、ソースドメインに属するソースサンプルのクラス(+1)の分布(P(y))と、ターゲットドメインに属するターゲットサンプル群のクラス(+1)の分布(P(y))とを示す。
ドメイン適応に際して、クラス(+1)について生成された疑似サンプルでターゲットドメインが補完されたため、図3(b)に示すように、ソースドメインにおけるクラス(+1)にラベル付けされたソースサンプル数と、ターゲットドメインにおけるクラス(+1)にラベル付けされたターゲットサンプル数とは、ほぼ同数となっている(P(y=+1)≒P(y=+1))。
図3(a)および図3(b)に示されるように、本実施形態によれば、ソースドメインとターゲットドメイン間で発生し得る、特徴値分布のシフトだけでなくクラス間のシフトも解消され得る。
<機械学習用学習モデルのモジュール構成>
図4は、本実施形態に係る学習装置1を機械学習モデルに実装する場合のモジュール構成および概略処理手順の一例を示す概念図である。
図4を参照して、学習装置1は、特徴抽出モジュール121、122、符号化モジュール141、疑似サンプル生成モジュール13、分類器モジュール142、およびデータ変換モジュール143から構成されてよい。図4に示す各モジュールのうち、符号化モジュール141、疑似サンプル生成モジュール13、分類器モジュール142、およびデータ変換モジュール143が、特徴抽出モジュール121、122の後段としてのドメイン適応モジュール14を構成する。
図4では、入力画像を認識および分類する学習モデルを学習させる例を説明する。
なお、図4の各特徴抽出モジュール121、122は、学習装置1の特徴抽出部12に、疑似サンプル生成モジュール13は、学習装置1の疑似サンプル生成部13に、符号化モジュール141、分類器モジュール142、およびデータ変換モジュール143を含むドメイン適用モジュール14は、学習装置1のデータ変換部14に、それぞれ対応する。
特徴抽出モジュール121は、ソースドメインのソース画像を入力とし、各ソース画像から特徴を抽出して、ソース画像の特徴を出力する。
特徴抽出モジュール122は、ターゲットドメインのターゲット画像を入力とし、各ターゲット画像から特徴を抽出して、ターゲット画像の特徴を出力する。
なお、学習モデルを学習させる際に、特徴抽出モジュール121、122を並行して実行してもよく、特徴抽出モジュール121、122のいずれかを先に他方を後に順に実行してもよい。
ソース画像およびターゲット画像の画像特徴を抽出する特徴抽出モジュール121、122は、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)により構成されてよい。
特徴抽出モジュール121、122はさらに、ソース画像およびターゲット画像に対してデータ拡張(data augmentation)のアルゴリズムを適用して、画像中の解析対象のオブジェクト(例えば、人間)を画像中央に適切なスケールで位置付けたり、背景を除去したりしてよい。
特徴抽出モジュール121、122はさらに、例えば、Attention Branch Network(ABN)等のアテンション機構を適用して、ソース画像およびターゲット画像から、画像中の注視領域のマップ(attention map)を生成、最適化して、抽出された画像特徴を重み付けしてもよい。
ドメイン適応モジュール14の符号化モジュール141は、特徴抽出モジュールが出力したソース画像の特徴およびターゲット画像の特徴を、共通の特徴空間に符号化(エンコーディング)する。
ここで、ソースドメインには、正(positive)クラスの特徴ベクタz と、負(negative)クラスの特徴ベクタz との双方が含まれているものとする(z ,z ∈R)。一方、ターゲットドメインには負クラスの特徴ベクタz のみが含まれているものとする(z ∈R)。すなわち、正クラスは、ターゲットドメインにおいて未出現(未観測)のクラスである。符号化モジュール141に入力されるこれらの特徴ベクタは、d次元の特徴ベクタであるとする。
符号化モジュール141は、ドメイン不変(domain invariant)である特徴空間のパラメータを学習し、例えば、学習可能なマッピング関数Gとしての全結合層(Fully Connected Layer)に実装されてよい。
符号化モジュール141は、符号化された特徴ベクタ^z 、^z 、^z を出力する。これらの符号化特徴ベクタは、m次元(m<d)の特徴ベクタであるとする(^z∈R)。
疑似サンプル生成モジュール13は、共通の特徴空間にマッピングされた、符号化された特徴ベクタ^z 、^z 、^z を入力として、ターゲットドメインにおいて未出現である正(positive)クラスの疑似サンプルを生成し、生成された正クラスの疑似サンプルを正クラスの特徴ベクタ^z と見做して、ターゲットドメインのサンプルを補完する。
なお、図4では、疑似サンプル生成モジュール13は、疑似サンプル生成処理を、符号化モジュール141による特徴ベクタの符号化の後に実行しているが、これに替えて、疑似サンプル生成処理を、符号化モジュール141による特徴ベクタの符号化の前に実行してもよい。
疑似サンプル生成モジュールによる疑似サンプル生成処理の詳細は、図5を参照して後述する。
S5で、ドメイン適応モジュールの分類器モジュール142(discriminator)は、符号化された特徴ベクタ^zを分類する(^z∈R)。
分類器モジュール142は、入力される符号化特徴ベクタをソースドメインおよびターゲットドメインのいずれかのドメインに分類するドメイン分類器(C_d)と、入力される符号化特徴ベクタを正クラスおよび負クラスのいずれかのクラスに分類するクラス分類器(C_c)とを備えてよい。
分類器モジュール142は、例えば、学習可能なマッピング関数Cとしての全結合層(Fully Connected Layer)に実装されてよく、RをRにマッピングすることで分類を実行する。上記のドメイン分類器およびクラス分類器において、c=2である。
分類器モジュール142は、例えば、以下の式1で示される損失を最小化するための損失関数Lcを用いて、ドメイン間やクラス間でのバイナリクロスエントロピー(binary cross entropy)損失がより小さくなるよう機械学習することで、分類性能を維持することができる。
Figure 2022102095000002
(式1)
ここで、
Figure 2022102095000003
は、i番目のソースサンプルのバイナリラベルを示し、
Figure 2022102095000004
は、指標関数である。なお、分類器モジュールは、上記式1で、バイナリクロスエントロピー損失に替えて、二乗誤差等、他の損失を算出してもよい。
ドメイン適応モジュール14のデータ変換モジュール143は、ソースドメインとターゲットドメインとの間のデータの不一致(discrepancy)が最小化されるよう、符号化された特徴ベクタ表現^z(^z∈R)を、実数z(z∈R)に変換する。すなわち、データ変換モジュール143は、ドメイン適応を評価するモジュール(domain critic)である。
データ変換モジュール143は、例えば、学習可能な変換関数Fとしての全結合層に実装されてよい。
具体的には、データ変換モジュール143は、符号化されたソースドメインの特徴ベクタ^z 、^z と、符号化されたターゲットドメインの特徴ベクタ^z および疑似サンプルである正クラスの特徴ベクタ^z とを入力として、ソースドメインの符号化特徴ベクタ^z 、^z とターゲットドメインの符号化特徴ベクタ^z 、^z との間の共通の特徴空間における距離を推定し、この距離が最小化するよう機械学習することで、ソースドメインの符号化特徴ベクタをターゲットドメインの符号化特徴ベクタにドメイン適応させる。
この距離は、例えば、距離空間上の確率分布間の距離としてのWasserstein距離であってよいが、データ変換モジュール143は、他の距離を用いてもよい。
データ変換モジュール143は、例えば、以下の式2で示される損失を最小化するための損失関数Lwを用いて、ソースドメインとターゲットドメインとの間でサンプル分布間の距離の損失がより小さくなるよう機械学習を実行することで、ドメイン適応を実行する。
Figure 2022102095000005
(式2)
ここで、nはソースドメインにおける正クラスおよび負クラスのサンプル数を示し、nはターゲットドメインにおける正クラスおよび負クラスのサンプル数を示す。
本実施形態では、疑似サンプル生成モジュール13により生成された疑似正サンプルの符号化特徴ベクタがターゲットドメインに追加されているため、データ変換モジュール143は、ターゲットドメインに追加された疑似正サンプルの符号化特徴ベクタを用いて、高精度にドメイン適応を実行することができる。
なお、学習モデルを機械学習させる際に、分類器モジュール142およびデータ変換モジュール143を並行して実行してもよく、分類器モジュール142およびデータ変換モジュール143のいずれかを先に他方を後に順に実行してもよい。分類器モジュール142による学習およびデータ変換モジュール143による学習は、敵対的学習として実行されてよい。
学習モデルを学習させるドメイン適応モジュール14は、マッピング関数G、マッピング関数C、および変換関数Fの各パラメータが最適化されて、上記損失関数のトータルでの損失が最小化されるよう、機械学習を繰り返していく。これにより、ドメイン不変である共通の特徴空間のパラメータが学習されて、ソースドメインの特徴空間における正サンプル分布および負サンプル分布が、ターゲットドメインの特徴空間における正サンプル分布および負サンプル分布へ高精度にドメイン適応される。
なお、図4に示す学習モデルのモジュール構成は一例であり、本実施形態に係る学習装置1は、他の特徴抽出やドメイン適応の手法を用いてよい。
<疑似サンプル生成処理の詳細処理手順>
図5は、本実施形態に係る学習装置1の疑似サンプル生成部13が実行する疑似サンプル生成処理の詳細処理手順の一例を示すフローチャートである。
なお、図5の各ステップは、学習装置1のHDD等の記憶装置に記憶されたプログラムをCPUが読み出し、実行することで実現される。また、図5に示すフローチャートの少なくとも一部をハードウエアにより実現してもよい。ハードウエアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA(Field Programmable Gate Array)上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
S51で、学習装置1の疑似サンプル生成部13は、サンプルをソースドメインおよびターゲットドメインのいずれかのドメインに分類するドメイン分類器を事前学習させる。ドメイン分類器は、ターゲットドメインに分類されるサンプルに対して、ソースドメインに分類されるサンプルより高い重みを付与するよう訓練される。
S51では、疑似サンプル生成部13はさらに、サンプルを正(positive)クラスおよび負(negative)クラスのいずれかのクラスに分類するクラス分類器を、事前学習させてよい。クラス分類器は、正クラスに分類されるサンプルに対して、負クラスに分類されるサンプルより高い重みを付与するよう訓練される。
S52で、学習装置1の疑似サンプル生成部13は、特徴空間上のターゲットドメインの負クラスサンプルの分布から、ターゲットドメインの負クラスサンプルの信頼度を推定する。
具体的には、疑似サンプル生成部13は、特徴空間上のターゲットドメインの負クラスサンプルの分布の平均ベクタ(mean vector)および共分散行列(covariance matrix)を推定し、ターゲットドメインの負クラスサンプルの分布に対する負クラスサンプル確率値(probability value)を、ターゲットドメインの負クラスサンプルの信頼度(confidence score)として推定する。ここで、負クラスサンプルの分布は、ガウス(Gaussian)分布(正規分布)と見做すことができる。
S53で、学習装置1の疑似サンプル生成部13は、特徴空間上のターゲットドメインの領域に疑似正クラスサンプルを生成する。
S52で推定された、特徴空間上のターゲットドメインの負クラスサンプルの信頼度スコアが、p(D |x)であるとすると、特徴空間上のターゲットドメインの疑似正クラスサンプルの信頼度は、以下の式3として推定できる。
p(D |x)=1-p(D |x) (式3)
具体的には、疑似サンプル生成部13は、ターゲットドメインの負クラスサンプルの信頼度の特徴空間上の勾配に基づいて、ターゲットドメインの負クラスサンプルの信頼度が低い領域周囲に均一にターゲットドメインの疑似正クラスサンプルを生成する。
疑似サンプル生成部13は、ソースドメインにおける正クラスサンプルおよび負クラスサンプルのクラス間距離の平均および標準偏差に基づき決定されるターゲットドメインの領域に、疑似正クラスサンプルを生成してよい。
すなわち、ソースドメインにおける正クラスサンプルおよび負クラスサンプルのクラス間距離は、ターゲットドメインにおける正クラスサンプルおよび負クラスサンプルのクラス間距離と等しいものと見做すことができる。このため、疑似サンプル生成部13は、ターゲットドメインの負クラスサンプルが分布する領域から上記クラス間距離の分だけ離隔した領域に、ターゲットドメインの疑似正クラスサンプルを生成してよい。
疑似サンプル生成部13はまた、ソースドメインの正クラスサンプルの数と同数の疑似正クラスサンプルを、ターゲットドメインの領域に生成してよい(N =N )。ドメイン分類器(C_d)は、生成された疑似正クラスサンプルを、ターゲットドメインに分類する。
S54で、学習装置1の疑似サンプル生成部13は、特徴空間上のソースドメインの正クラスサンプルの分布の平均ベクタおよび共分散行列を推定し、ソースドメインの正クラスサンプルの分布に対する正クラスサンプル確率値を、ソースドメインの正クラスサンプルの信頼度として推定する。ここで、正クラスサンプルの分布も、ガウス分布(正規分布)と見做すことができる。疑似サンプル生成部13は、S53と同様、ソースドメインの正クラスサンプルの信頼度の特徴空間上の勾配に基づいて、ソースドメインの正クラスサンプルの信頼度が低い領域周囲に均一にターゲットドメインの疑似正クラスサンプルを生成してよい。
クラス(コンテンツ)分類器(C_c)は、ソースドメインの正クラスサンプルの信頼度p(D |x)を用いて、疑似正クラスサンプルの信頼度を更新してよい。
S55で、学習装置1の疑似サンプル生成部13は、S51で学習させたドメイン分類器およびクラス分類器を用いて、ターゲットドメインの負クラスサンプルの信頼度およびソースドメインの正クラスサンプルの信頼度を結合して、サンプルの重みを更新する。ターゲットドメインの負クラスサンプルの信頼度は、式3に示すように、ターゲットドメインの正クラスサンプルの信頼度に変換される。
ここで、正クラス(y=+1)に分類されたサンプルは、より高い重みを持つ。また、以下の式4に示すように、ソースドメインの正サンプルの分布(D )とターゲットドメインの正サンプルの分布(D )とが条件付き独立であるものと推定される。
p(D ,D |x)=p(D |x)p(D |x) (式4)
S56で、学習装置1の疑似サンプル生成部13は、S55でより高い重みが付与されたサンプルのパラメータ分布を算出し、特徴空間上でターゲットドメインの疑似正クラスサンプルをリサンプリングする。
具体的には、疑似サンプル生成部13は、信頼度を重みとして、より高い信頼度を持つ疑似正クラスサンプルの領域におけるサンプル数を増大し(up-sample)、より低い信頼度を持つ疑似正クラスサンプルの領域におけるサンプル数を減少させる(down-sample)。
S57で、学習装置1の疑似サンプル生成部13は、所定の収束条件に到達するまで、S51~S56までの処理を繰り返す。
収束条件としては、例えば、S54~S55の処理をバイパスしてソースドメインの正クラスサンプルの情報を用いない場合には、図5に示す処理を所定回数繰り返したことで収束と見做してよい。
あるいは、ソースドメインの正クラスサンプルの情報を用いる場合には、繰り返しの回数で収束条件を設定してもよいが、例えば、距離の閾値を設定し、ソースドメインの正クラスサンプルと負クラスサンプルの分布の間の距離と、ターゲットドメインの正クラスサンプルと負クラスサンプルの分布の間の距離とが所定の閾値内に収束したことを収束条件として設定してもよい。また、サンプルの分布の間の距離に替えて、サンプルの信頼度の間の距離を用いてもよい。ここで、距離としては、例えば、Jensen-Shannonダイバージェンスを用いることができる。
図6は、特徴空間上で、ターゲットドメインおよびソースドメインのサンプルからターゲットドメインの疑似正クラスサンプルを生成する手順の一例を説明する模式図である。
図6(a)を参照して、特徴空間上、左側がソースドメインの領域、右側がターゲットドメインの領域を示す。垂直線61は、ドメイン分類器により画定される特徴空間上のソースドメインとターゲットドメインとの境界を示す。
ソースドメインの領域は、(-)で示される負クラスサンプルの分布と、負クラスサンプルの分布の上方に、(+)で示される正クラスサンプルの分布とを含む。一方、ターゲットドメインの領域は、(-)で示される負クラスサンプルの分布を含むが、正クラスサンプルの分布は出現していない。
図6(b)を参照して、学習装置1の疑似サンプル生成部13は、特徴空間上のターゲットドメインの領域に、疑似正クラスサンプルを生成する。境界61の右側のターゲットドメインの領域において、(-)で示される負クラスサンプルの分布は、ターゲットドメインの負クラスサンプルの信頼度が高い領域であることを示す。
疑似サンプル生成部13は、このターゲットドメインの(-)で示される負クラスサンプルの分布から離れるほど、ターゲットドメインの負クラスサンプルの信頼度が低い領域であり、したがって、ターゲットドメインの疑似正クラスサンプルの信頼度が高い領域であると判断し、ターゲットドメインの(-)で示される負クラスサンプルの分布の周囲に均一に疑似正クラスサンプルの領域63~67を複数生成する(図5のS53)。
図6(c)を参照して、学習装置1の疑似サンプル生成部13は、特徴空間上のターゲットドメインの領域において、疑似正クラスサンプルをリサンプリングする。水平線62は、クラス分類器により画定される正クラスと負クラスとの境界を示す。
疑似サンプル生成部13は、図6(b)でターゲットドメインに生成された複数の疑似正クラスサンプルの領域63~67のうち、ソースドメインの(+)で示される正クラスサンプルの分布に対して距離がより近い領域63を、疑似正クラスサンプルの信頼度が高い領域であると判断して、より高い重みを付与する。
一方、複数の疑似正クラスサンプルの領域63~67のうち、ソースドメインの(+)で示される正クラスサンプルの分布に対して距離がより遠い領域64~67は、疑似正クラスサンプルの信頼度が低い領域であると判断して、より低い重みを付与する。また、水平線62の下の疑似正クラスサンプルの領域65~67は、クラス分類器により負クラスの領域であると判断されるため、水平線62の上の疑似正クラスサンプルの領域よりさらに低い重みが付与されてもよく、疑似正クラスサンプルが削除されてもよい。
疑似サンプル生成部13は、最終的に、より高い信頼度が算出された疑似正クラスサンプルの領域63に疑似正クラスサンプルを生成すればよい。
図7は、特徴空間上で、ターゲットドメインおよびソースドメインのサンプルからターゲットドメインの疑似正クラスサンプルを生成する手順の他の一例を説明する模式図である。
図7(a)を参照して、特徴空間上、左側がソースドメインの領域、右側がターゲットドメインの領域を示す。垂直線71は、ドメイン分類器により画定される特徴空間上のソースドメインとターゲットドメインとの境界を示す。
ソースドメインの領域は、(-)で示される負クラスサンプルの分布と、負クラスサンプルの分布の上方に、(+)で示される正クラスサンプルの分布とを含む。一方、ターゲットドメインの領域は、(-)で示される負クラスサンプルの分布を含むが、正クラスサンプルの分布は出現していない。ただし、図6(a)と異なり、ターゲットドメインの(-)で示される負クラスサンプルの分布は、境界71を隔てて、ソースドメインの(-)で示される負クラスサンプルの分布より(+)で示される正クラスサンプルの分布により隣接している。
図7(b)を参照して、学習装置1の疑似サンプル生成部13は、特徴空間上のターゲットドメインの領域に、疑似正クラスサンプルを生成する。境界71の右側のターゲットドメインの領域において、(-)で示される負クラスサンプルの分布は、ターゲットドメインの負クラスサンプルの信頼度が高い領域であることを示す。
疑似サンプル生成部13は、このターゲットドメインの(-)で示される負クラスサンプルの分布から離れるほど、ターゲットドメインの負クラスサンプルの信頼度が低い領域であり、したがって、ターゲットドメインの疑似正クラスサンプルの信頼度が高い領域であると判断し、ターゲットドメインの(-)で示される負クラスサンプルの分布の周囲に均一に疑似正クラスサンプルの領域73~77を複数生成する(図5のS53)。
図7(c)を参照して、学習装置1の疑似サンプル生成部13は、特徴空間上のターゲットドメインの領域において、疑似正クラスサンプルをリサンプリングする。斜線72は、クラス分類器により画定される正クラスと負クラスとの境界を示す。
疑似サンプル生成部13は、図7(b)でターゲットドメインに生成された複数の疑似正クラスサンプルの領域73~77のうち、ソースドメインの(+)で示される正クラスサンプルの分布に対して距離がより近い領域73を、疑似正クラスサンプルの信頼度が高い領域であると判断して、より高い重みを付与する。
一方、複数の疑似正クラスサンプルの領域73~77のうち、ソースドメインの(+)で示される正クラスサンプルの分布に対して距離がより遠い領域74~77は、疑似正クラスサンプルの信頼度が低い領域であると判断して、より低い重みを付与する。また、斜線72の下の疑似正クラスサンプルの領域75~77は、クラス分類器により負クラスの領域であると判断されるため、斜線72の上の疑似正クラスサンプルの領域よりさらに低い重みが付与されてもよく、疑似正クラスサンプルが削除されてもよい。
疑似サンプル生成部13は、最終的に、より高い信頼度が算出された疑似正クラスサンプルの領域73に疑似正クラスサンプルを生成すればよい。
<学習装置のハードウエア構成>
図8は、本実施形態に係る学習装置1のハードウエア構成の非限定的一例を示す図である。
本実施形態に係る学習装置1は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図8を参照して、学習装置1は、単一のコンピュータに実装される例が示されているが、本実施形態に係る学習装置1は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
図8に示すように、学習装置1は、CPU81と、ROM82と、RAM83と、HDD84と、入力部85と、表示部86と、通信I/F87と、システムバス88とを備えてよい。学習装置1はまた、外部メモリを備えてよい。
CPU(Central Processing Unit)81は、学習装置1における動作を統括的に制御するものであり、データ伝送路であるシステムバス88を介して、各構成部(82~87)を制御する。
学習装置1はまた、GPU(Graphics Processing Unit)を備えてよい。GPUは、CPU81より高い計算機能を有し、複数または多数のGPUを並列して動作させることにより、特に、本実施形態のような機械学習を使用する画像処理等のアプリケーションに、より高い処理パフォーマンスを提供する。GPUは、通常、プロセッサと共有メモリを含む。それぞれのプロセッサが高速の共有メモリからデータを取得し、共通プログラムを実行することで、同種の計算処理を大量かつ高速に実行する。
ROM(Read Only Memory)82は、CPU81が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、HDD(Hard Disk Drive)84、SSD(Solid State Drive)等の不揮発性メモリや着脱可能な記憶媒体(不図示)等の外部メモリに記憶されていてもよい。
RAM(Random Access Memory)83は、揮発性メモリであり、CPU81の主メモリ、ワークエリア等として機能する。すなわち、CPU81は、処理の実行に際してROM82から必要なプログラム等をRAM83にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
HDD84は、例えば、CPU81がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、HDD84には、例えば、CPU81がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部85は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部86は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部86は、異常シーン検出処理で使用される各種パラメータや、他の装置との通信で使用される通信パラメータ等をパラメータ調整装置1へ指示入力するためのユーザインタフェースであるGUI(Graphical User Interface)を提供してよい。
通信I/F87は、学習装置1と外部装置との通信を制御するインタフェースである。
通信I/F87は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F87を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信I/F87は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
図1に示す学習装置1の各要素のうち少なくとも一部の機能は、CPU81がプログラムを実行することで実現することができる。ただし、図1に示す学習装置1の各要素のうち少なくとも一部の機能が専用のハードウエアとして動作するようにしてもよい。この場合、専用のハードウエアは、CPU81の制御に基づいて動作する。
以上説明したように、本実施形態によれば、学習装置は、ソースドメインのサンプルおよびターゲットドメインのサンプルの特徴をそれぞれ抽出し、ソースドメインのサンプルにラベル付けされた複数のクラスのうちターゲットドメインに十分に含まれていないクラスのサンプルを、疑似サンプルとして、特徴空間におけるターゲットドメインの領域に生成し、生成された疑似サンプルでターゲットドメインのサンプルを補完する。
本実施形態に係る学習装置はまた、疑似サンプルが補完されたターゲットドメインに、ソースドメインがドメイン適応するよう機械学習する。
したがって、ソースドメインのサンプルがターゲットドメインのサンプルと十分に対応しない場合であっても、高精度な処理結果を得ることができる。
例えば、映像中にごく僅かな頻度でしか出現しない異常シーン(anomaly scene)を検出するタスクにおいても、ターゲットドメインに、フィルタリングすべき異常シーンの疑似サンプルを生成し、生成された疑似サンプルでターゲットドメインを補完することで、ソースドメインおよびターゲットドメインのクラス間の非対称性が解消される。
これにより、ドメイン適応が高精度に実現され、機械学習モデルの可用性向上に資する。
なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。
1…学習装置、2…ソースデータセット、3…ターゲットデータセット、11…データ取得部、12…特徴抽出部、13…疑似サンプル生成部、14…データ変換部、15…推論部、81…CPU、82…ROM、83…RAM、84…HDD、85…入力部、86…表示部、87…通信I/F、88…バス、121…ソース特徴抽出モジュール、122…ターゲット特徴抽出モジュール、141…エンコーダ(符号化モジュール)、142…分類器、143…データ変換モジュール

Claims (12)

  1. ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、 ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出する特徴抽出部と、
    前記特徴抽出部により抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成する疑似サンプル生成部と、
    前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換部と
    を備えることを特徴とする情報処理装置。
  2. 前記疑似サンプル生成部は、前記特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布の第1の信頼度を推定し、推定された前記第1の信頼度の勾配に基づいて、前記疑似サンプルを生成する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記疑似サンプル生成部は、推定された前記第1の信頼度が低い前記特徴空間の領域に、前記疑似サンプルを生成する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記疑似サンプル生成部は、前記特徴空間における前記ソースドメインに含まれる前記第2のクラスのサンプルの分布の第2の信頼度を推定し、推定された前記第2の信頼度の勾配に基づいて、前記疑似サンプルを生成する
    ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記疑似サンプル生成部は、前記第1の信頼度と前記第2の信頼度とを結合し、結合された信頼度に基づいて、生成された前記疑似サンプルを、前記特徴空間において前記結合された信頼度がより高い領域に分布させるようリサンプリングする
    ことを特徴とする請求項4に記載の情報処理装置。
  6. 前記疑似サンプル生成部は、前記特徴空間における前記ソースドメインに含まれる前記第1のクラスのサンプルの分布と前記第2のクラスのサンプルの分布との間の距離に基づいて、前記疑似サンプルを生成する
    ことを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
  7. サンプルを前記ソースドメインおよび前記ターゲットドメインのいずれかに分類するドメイン分類器をさらに備え、
    前記疑似サンプル生成部は、前記ドメイン分類器が前記ターゲットドメインに分類されたサンプルに対して、前記ソースドメインに分類されたサンプルより高い重みを付与するよう、前記ドメイン分類器を学習させる
    ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  8. サンプルを前記第1のクラスおよび前記第2のクラスのいずれかに分類するクラス分類器をさらに備え、
    前記疑似サンプル生成部は、前記クラス分類器が前記第2のクラスに分類されたサンプルに対して、前記第1のクラスに分類されたサンプルより高い重みを付与するよう、前記クラス分類器を学習させる
    ことを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。
  9. 前記データ変換部は、前記ドメイン分類器および前記クラス分類器の少なくとも1つを、第1の損失関数を用いて算出される、前記特徴空間におけるクロスエントロピー損失がより小さくなるよう機械学習する
    ことを特徴とする請求項8に記載の情報処理装置。
  10. 前記データ変換部は、第2の損失関数を用いて算出される、前記特徴空間における前記ソースドメインと前記ターゲットドメインとの間のWasserstein距離がより小さくなるよう機械学習する
    ことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。
  11. 情報処理装置が実行する情報処理方法であって、
    ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出するステップと、
    抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成するステップと、
    前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するステップと
    を含むことを特徴とする情報処理方法。
  12. 情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
    ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出する特徴抽出処理と、
    前記特徴抽出処理により抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成する疑似サンプル生成処理と、
    前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換処理と
    を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。
JP2020216626A 2020-12-25 2020-12-25 情報処理装置、情報処理方法およびプログラム Active JP7062747B1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2020216626A JP7062747B1 (ja) 2020-12-25 2020-12-25 情報処理装置、情報処理方法およびプログラム
TW110134193A TWI792560B (zh) 2020-12-25 2021-09-14 資訊處理裝置及資訊處理方法
EP21204690.8A EP4020338A1 (en) 2020-12-25 2021-10-26 Information processing apparatus and information processing method
CN202111385356.8A CN114757358A (zh) 2020-12-25 2021-11-22 信息处理装置及信息处理方法
US17/548,743 US12002488B2 (en) 2020-12-25 2021-12-13 Information processing apparatus and information processing method
JP2022069215A JP7277645B2 (ja) 2020-12-25 2022-04-20 情報処理装置、情報処理方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020216626A JP7062747B1 (ja) 2020-12-25 2020-12-25 情報処理装置、情報処理方法およびプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022069215A Division JP7277645B2 (ja) 2020-12-25 2022-04-20 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP7062747B1 JP7062747B1 (ja) 2022-05-06
JP2022102095A true JP2022102095A (ja) 2022-07-07

Family

ID=78413632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020216626A Active JP7062747B1 (ja) 2020-12-25 2020-12-25 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US12002488B2 (ja)
EP (1) EP4020338A1 (ja)
JP (1) JP7062747B1 (ja)
CN (1) CN114757358A (ja)
TW (1) TWI792560B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220215393A1 (en) * 2021-01-04 2022-07-07 Capital One Services, Llc Real-time updating of a security model
JP2022151012A (ja) * 2021-03-26 2022-10-07 本田技研工業株式会社 地図生成装置
JP7463996B2 (ja) * 2021-03-26 2024-04-09 横河電機株式会社 装置、方法およびプログラム
TWI823817B (zh) * 2023-05-12 2023-11-21 和碩聯合科技股份有限公司 資料處理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017224156A (ja) * 2016-06-15 2017-12-21 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2019074945A (ja) * 2017-10-17 2019-05-16 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面
JP2020071694A (ja) * 2018-10-31 2020-05-07 株式会社日立製作所 計算機システム
JP2020198041A (ja) * 2019-06-05 2020-12-10 株式会社Preferred Networks 訓練装置、訓練方法、推定装置及びプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9710729B2 (en) 2014-09-04 2017-07-18 Xerox Corporation Domain adaptation for image classification with class priors
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
US20160253597A1 (en) * 2015-02-27 2016-09-01 Xerox Corporation Content-aware domain adaptation for cross-domain classification
US10296846B2 (en) * 2015-11-24 2019-05-21 Xerox Corporation Adapted domain specific class means classifier
US10354199B2 (en) * 2015-12-07 2019-07-16 Xerox Corporation Transductive adaptation of classifiers without source data
US10832161B2 (en) * 2016-08-05 2020-11-10 Conduent Business Services, Llc Method and system of processing data for training a target domain classifier
CA3046225A1 (en) * 2018-06-13 2019-12-13 Royal Bank Of Canada Correcting bias in supervised machine learning data
CN109325525A (zh) * 2018-08-31 2019-02-12 阿里巴巴集团控股有限公司 样本属性评估模型训练方法、装置及服务器
EP3874417A1 (en) * 2018-10-29 2021-09-08 HRL Laboratories, LLC Systems and methods for few-shot transfer learning
US11494597B2 (en) * 2019-03-22 2022-11-08 Sri International Generative memory for lifelong machine learning

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017224156A (ja) * 2016-06-15 2017-12-21 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
JP2019074945A (ja) * 2017-10-17 2019-05-16 株式会社日立製作所 オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面
JP2020071694A (ja) * 2018-10-31 2020-05-07 株式会社日立製作所 計算機システム
JP2020198041A (ja) * 2019-06-05 2020-12-10 株式会社Preferred Networks 訓練装置、訓練方法、推定装置及びプログラム

Also Published As

Publication number Publication date
EP4020338A1 (en) 2022-06-29
JP7062747B1 (ja) 2022-05-06
TWI792560B (zh) 2023-02-11
US20220207865A1 (en) 2022-06-30
US12002488B2 (en) 2024-06-04
CN114757358A (zh) 2022-07-15
TW202226077A (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
JP7062747B1 (ja) 情報処理装置、情報処理方法およびプログラム
US11068722B2 (en) Method for analysing media content to generate reconstructed media content
JP6781415B2 (ja) ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置
EP3767536A1 (en) Latent code for unsupervised domain adaptation
WO2018209894A1 (en) Semi-supervised regression with generative adversarial networks
US20210034968A1 (en) Neural network learning apparatus for deep learning and method thereof
CN116635866A (zh) 用于挖掘少数类数据样本以训练神经网络的方法和系统
KR102548732B1 (ko) 신경망 학습 방법 및 이를 적용한 장치
KR20190098106A (ko) 배치 정규화 레이어 트레이닝 방법
US11288567B2 (en) Method for training deep neural network (DNN) using auxiliary regression targets
CN113128478B (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
KR102370910B1 (ko) 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
KR20190004429A (ko) 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법 및 장치
JP7150918B2 (ja) 試料の検査のためのアルゴリズムモジュールの自動選択
Azevedo et al. Stochastic-yolo: Efficient probabilistic object detection under dataset shifts
Duman et al. Distance estimation from a monocular camera using face and body features
JPWO2017188048A1 (ja) 作成装置、作成プログラム、および作成方法
US20210133567A1 (en) Determining an output signal by aggregating parent instances
Wei et al. Task-oriented contrastive learning for unsupervised domain adaptation
JP7277645B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2022025392A (ja) 機械学習装置及び機械学習方法
Gan Language guided out-of-distribution detection
Huayhongthong et al. Incremental Object Detection Using Ensemble Modeling and Deep Transfer Learning
Li et al. A self-adjusting transformer network for detecting transmission line defects
KR102676919B1 (ko) 인공지능을 이용한 이미지 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220420

R150 Certificate of patent or registration of utility model

Ref document number: 7062747

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150