JP2022102095A - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JP2022102095A JP2022102095A JP2020216626A JP2020216626A JP2022102095A JP 2022102095 A JP2022102095 A JP 2022102095A JP 2020216626 A JP2020216626 A JP 2020216626A JP 2020216626 A JP2020216626 A JP 2020216626A JP 2022102095 A JP2022102095 A JP 2022102095A
- Authority
- JP
- Japan
- Prior art keywords
- sample
- class
- domain
- pseudo
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000009826 distribution Methods 0.000 claims abstract description 102
- 238000006243 chemical reaction Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 238000010801 machine learning Methods 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 20
- 238000013459 approach Methods 0.000 claims description 7
- 230000013016 learning Effects 0.000 abstract description 78
- 238000012545 processing Methods 0.000 abstract description 23
- 230000006978 adaptation Effects 0.000 description 29
- 239000013598 vector Substances 0.000 description 28
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 241000282326 Felis catus Species 0.000 description 11
- 238000012549 training Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013403 standard screening design Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
- G11B20/10009—Improvement or modification of read or write signals
- G11B20/10305—Improvement or modification of read or write signals signal quality assessment
- G11B20/10361—Improvement or modification of read or write signals signal quality assessment digital demodulation process
- G11B20/10379—Improvement or modification of read or write signals signal quality assessment digital demodulation process based on soft decisions, e.g. confidence values, probability estimates, likelihoods values or path metrics of a statistical decoding algorithm
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Human Computer Interaction (AREA)
- Computational Mathematics (AREA)
- Signal Processing (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Hardware Redundancy (AREA)
Abstract
【解決手段】学習装置1は、ソースドメインに含まれる第1のクラスのサンプル及びび第2のクラスのサンプルと、ターゲットドメインに含まれる第1のクラスのサンプルとから、夫々特徴を抽出する特徴抽出部と、特徴抽出部が抽出した特徴の、特徴空間におけるターゲットドメインに含まれる第1のクラスのサンプルの分布に基づいて、ターゲットドメインの第2のクラスの疑似サンプルを生成する疑似サンプル生成部と、特徴空間において、ソースドメインに含まれる第1のクラスのサンプル及び第2のクラスのサンプルの分布を、ターゲットドメインに含まれる第1のクラスのサンプル及び第2のクラスの疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換部とを備える。
【選択図】図1
Description
そこで、対象となるデータセットと同一のドメインであるターゲットドメインのサンプルを用いて、学習済みモデルをさらに機械学習させることで、学習済みモデルをターゲットドメインに適用可能とする技術があり、これは転移学習(Transfer Learning)と称される。
具体的には、特許文献1のラベリングシステムにおいては、同じカメラにより取得された画像を表すラベル化特徴ベクトルを対象ドメイン訓練セットとし、他の複数のカメラによりそれぞれ取得された複数のソースドメイン訓練セットとして用いて、ドメイン間のずれが学習されるよう、ブースト分類器を訓練する。これにより、早期に導入されたカメラや他の位置に設置されたカメラで収集された画像を利用して車両画像を分類している。
いずれの場合であっても、ドメイン適応において、ターゲットドメインは、ソースドメインに属するサンプルに付されているすべてのラベルに対応するサンプルを含んでいることを想定している。
したがって、学習済みモデルに対するドメイン適応の精度が低下し、ひいては当該学習済みモデルを用いて推論する各種処理の精度もまた低下してしまうおそれがある。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。
本実施形態に係る学習装置はまた、疑似サンプルが補完されたターゲットドメインに、ソースドメインがドメイン適応するよう機械学習する。
図1は、本実施形態に係る学習装置1の機能構成の一例を示すブロック図である。
図1に示す学習装置1は、データ取得部11、特徴抽出部12、疑似サンプル生成部13、データ変換部14、および推論部15を備える。
学習装置1は、PC(Personal Computer)等で構成されるクライアント装置(不図示)とネットワークを介して通信可能に接続してよい。この場合、学習出装置1はサーバに実装され、クライアント装置は、学習装置1が外部と情報の入出力を実行する際のユーザインタフェースを提供してよく、また、学習装置1の各コンポーネント11~15の一部または全部を備えてもよい。
なお、ドメインとは、ある1つの確率分布から発生するデータの所属領域をいい、例えば、データの種類、範囲、分布等の属性によりドメインが構成される。
特徴抽出部12はまた、データ取得部11から供給されるターゲットサンプルから、各ターゲットサンプルの特徴を抽出する。
特徴抽出部12は、抽出されたソースサンプルの特徴およびターゲットサンプルの特徴を、疑似サンプル生成部13へ供給する。
疑似サンプル生成部13が実行する疑似サンプル生成処理の詳細は、図5を参照して後述する。
データ変換部14は、変換された教師データ(学習データ)を用いて、学習モデルにおけるドメイン適応の関数のパラメータ値を機械学習する。
このように機械学習された学習済みの学習モデルは、ターゲットドメインにおいて、疑似サンプルとして生成されたターゲットサンプルが未出現クラスのターゲットサンプルを補完しているため、各種推論処理における精度の低下が有効に防止される。
図2は、本実施形態に係るソースドメインとターゲットドメインのサンプル分布の非対称性(ドメインシフト)を説明する図である。
図2(a)は、ソースドメインに属するソースサンプルの特徴値Ps(x)の分布と、ターゲットドメインに属するターゲットサンプルの特徴値Pt(x)の分布とを示す。図2(a)に示されるように、ターゲットサンプルの特徴値の分布は、ソースサンプルの特徴値の分布と一致しておらず、ソースサンプルの特徴値の分布に対して、正方向に共変量(covariate)シフトしている(Ps(x)≠Pt(x))。
図2(b)に示されるように、ソースドメインにおいては、クラス(-1)にラベル付けされたソースサンプル数とクラス(+1)にラベル付けされたソースサンプル数は、ほぼ同数である。一方、ターゲットドメインにおいては、クラス(-1)にラベル付けされたターゲットサンプル数は、クラス(-1)のソースサンプル数とほぼ同数なのに対して、クラス(+1)にラベル付けされたターゲットサンプル数は、クラス(+1)のソースサンプル数より著しく低く、ターゲットドメインはクラス分布においてもシフトを起こしている(Ps(y=+1)≠Pt(y=+1))。
ソースドメインのソースサンプルは、犬を描いた犬のイラスト画像(Ps(y=-1))と、猫を描いた猫のイラスト画像(Ps(y=+1))との双方を含み、各ソースサンプルは、犬のクラス(-1)と猫のクラス(+1)とのいずれかがラベル付けされている。
一方、ターゲットドメインのターゲットサンプルは、図2(b)に示すように、犬が撮像された犬の実写画像(Pt(y=-1))がほぼ全てであり、猫が撮像された猫の実写画像(Pt(y=+1))は全く、あるいはごく僅かしか用意できなかったものとする。
しかしながら、図2(b)に示すように、ターゲットドメインに猫の実写画像(Pt(y=+1))が不足しているため、学習モデルにドメイン適応を適用しても、猫の実写画像を犬の実写画像と区別して分類する精度が低下してしまう。
図3(a)は、ドメイン適応後のソースドメインに属するソースサンプルの特徴値(Ps(x))の分布と、ターゲットドメインに属するターゲットサンプルの特徴値(Pt(x))の分布とを示す。図3(a)に示されるように、ターゲットサンプルの特徴値の分布は、ソースサンプルの特徴値の分布とほぼ一致している(Ps(x)≒Pt(x))。
ドメイン適応に際して、クラス(+1)について生成された疑似サンプルでターゲットドメインが補完されたため、図3(b)に示すように、ソースドメインにおけるクラス(+1)にラベル付けされたソースサンプル数と、ターゲットドメインにおけるクラス(+1)にラベル付けされたターゲットサンプル数とは、ほぼ同数となっている(Ps(y=+1)≒Pt(y=+1))。
図3(a)および図3(b)に示されるように、本実施形態によれば、ソースドメインとターゲットドメイン間で発生し得る、特徴値分布のシフトだけでなくクラス間のシフトも解消され得る。
図4は、本実施形態に係る学習装置1を機械学習モデルに実装する場合のモジュール構成および概略処理手順の一例を示す概念図である。
図4を参照して、学習装置1は、特徴抽出モジュール121、122、符号化モジュール141、疑似サンプル生成モジュール13、分類器モジュール142、およびデータ変換モジュール143から構成されてよい。図4に示す各モジュールのうち、符号化モジュール141、疑似サンプル生成モジュール13、分類器モジュール142、およびデータ変換モジュール143が、特徴抽出モジュール121、122の後段としてのドメイン適応モジュール14を構成する。
なお、図4の各特徴抽出モジュール121、122は、学習装置1の特徴抽出部12に、疑似サンプル生成モジュール13は、学習装置1の疑似サンプル生成部13に、符号化モジュール141、分類器モジュール142、およびデータ変換モジュール143を含むドメイン適用モジュール14は、学習装置1のデータ変換部14に、それぞれ対応する。
特徴抽出モジュール122は、ターゲットドメインのターゲット画像を入力とし、各ターゲット画像から特徴を抽出して、ターゲット画像の特徴を出力する。
なお、学習モデルを学習させる際に、特徴抽出モジュール121、122を並行して実行してもよく、特徴抽出モジュール121、122のいずれかを先に他方を後に順に実行してもよい。
特徴抽出モジュール121、122はさらに、ソース画像およびターゲット画像に対してデータ拡張(data augmentation)のアルゴリズムを適用して、画像中の解析対象のオブジェクト(例えば、人間)を画像中央に適切なスケールで位置付けたり、背景を除去したりしてよい。
特徴抽出モジュール121、122はさらに、例えば、Attention Branch Network(ABN)等のアテンション機構を適用して、ソース画像およびターゲット画像から、画像中の注視領域のマップ(attention map)を生成、最適化して、抽出された画像特徴を重み付けしてもよい。
ここで、ソースドメインには、正(positive)クラスの特徴ベクタzs +と、負(negative)クラスの特徴ベクタzs -との双方が含まれているものとする(zs +,zs -∈Rd)。一方、ターゲットドメインには負クラスの特徴ベクタzt -のみが含まれているものとする(zt -∈Rd)。すなわち、正クラスは、ターゲットドメインにおいて未出現(未観測)のクラスである。符号化モジュール141に入力されるこれらの特徴ベクタは、d次元の特徴ベクタであるとする。
符号化モジュール141は、符号化された特徴ベクタ^zs -、^zs +、^zt -を出力する。これらの符号化特徴ベクタは、m次元(m<d)の特徴ベクタであるとする(^z∈Rm)。
なお、図4では、疑似サンプル生成モジュール13は、疑似サンプル生成処理を、符号化モジュール141による特徴ベクタの符号化の後に実行しているが、これに替えて、疑似サンプル生成処理を、符号化モジュール141による特徴ベクタの符号化の前に実行してもよい。
疑似サンプル生成モジュールによる疑似サンプル生成処理の詳細は、図5を参照して後述する。
分類器モジュール142は、入力される符号化特徴ベクタをソースドメインおよびターゲットドメインのいずれかのドメインに分類するドメイン分類器(C_d)と、入力される符号化特徴ベクタを正クラスおよび負クラスのいずれかのクラスに分類するクラス分類器(C_c)とを備えてよい。
分類器モジュール142は、例えば、以下の式1で示される損失を最小化するための損失関数Lcを用いて、ドメイン間やクラス間でのバイナリクロスエントロピー(binary cross entropy)損失がより小さくなるよう機械学習することで、分類性能を維持することができる。
データ変換モジュール143は、例えば、学習可能な変換関数Fとしての全結合層に実装されてよい。
この距離は、例えば、距離空間上の確率分布間の距離としてのWasserstein距離であってよいが、データ変換モジュール143は、他の距離を用いてもよい。
データ変換モジュール143は、例えば、以下の式2で示される損失を最小化するための損失関数Lwを用いて、ソースドメインとターゲットドメインとの間でサンプル分布間の距離の損失がより小さくなるよう機械学習を実行することで、ドメイン適応を実行する。
本実施形態では、疑似サンプル生成モジュール13により生成された疑似正サンプルの符号化特徴ベクタがターゲットドメインに追加されているため、データ変換モジュール143は、ターゲットドメインに追加された疑似正サンプルの符号化特徴ベクタを用いて、高精度にドメイン適応を実行することができる。
なお、図4に示す学習モデルのモジュール構成は一例であり、本実施形態に係る学習装置1は、他の特徴抽出やドメイン適応の手法を用いてよい。
図5は、本実施形態に係る学習装置1の疑似サンプル生成部13が実行する疑似サンプル生成処理の詳細処理手順の一例を示すフローチャートである。
なお、図5の各ステップは、学習装置1のHDD等の記憶装置に記憶されたプログラムをCPUが読み出し、実行することで実現される。また、図5に示すフローチャートの少なくとも一部をハードウエアにより実現してもよい。ハードウエアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからFPGA(Field Programmable Gate Array)上に自動的に専用回路を生成すればよい。また、FPGAと同様にしてGate Array回路を形成し、ハードウエアとして実現するようにしてもよい。また、ASIC(Application Specific Integrated Circuit)により実現するようにしてもよい。
S51では、疑似サンプル生成部13はさらに、サンプルを正(positive)クラスおよび負(negative)クラスのいずれかのクラスに分類するクラス分類器を、事前学習させてよい。クラス分類器は、正クラスに分類されるサンプルに対して、負クラスに分類されるサンプルより高い重みを付与するよう訓練される。
具体的には、疑似サンプル生成部13は、特徴空間上のターゲットドメインの負クラスサンプルの分布の平均ベクタ(mean vector)および共分散行列(covariance matrix)を推定し、ターゲットドメインの負クラスサンプルの分布に対する負クラスサンプル確率値(probability value)を、ターゲットドメインの負クラスサンプルの信頼度(confidence score)として推定する。ここで、負クラスサンプルの分布は、ガウス(Gaussian)分布(正規分布)と見做すことができる。
S52で推定された、特徴空間上のターゲットドメインの負クラスサンプルの信頼度スコアが、p(Dt -|x+)であるとすると、特徴空間上のターゲットドメインの疑似正クラスサンプルの信頼度は、以下の式3として推定できる。
p(Dt +|x+)=1-p(Dt -|x+) (式3)
すなわち、ソースドメインにおける正クラスサンプルおよび負クラスサンプルのクラス間距離は、ターゲットドメインにおける正クラスサンプルおよび負クラスサンプルのクラス間距離と等しいものと見做すことができる。このため、疑似サンプル生成部13は、ターゲットドメインの負クラスサンプルが分布する領域から上記クラス間距離の分だけ離隔した領域に、ターゲットドメインの疑似正クラスサンプルを生成してよい。
クラス(コンテンツ)分類器(C_c)は、ソースドメインの正クラスサンプルの信頼度p(Ds +|x+)を用いて、疑似正クラスサンプルの信頼度を更新してよい。
ここで、正クラス(y=+1)に分類されたサンプルは、より高い重みを持つ。また、以下の式4に示すように、ソースドメインの正サンプルの分布(Ds +)とターゲットドメインの正サンプルの分布(Dt +)とが条件付き独立であるものと推定される。
p(Ds +,Dt +|x+)=p(Ds +|x+)p(Dt +|x+) (式4)
具体的には、疑似サンプル生成部13は、信頼度を重みとして、より高い信頼度を持つ疑似正クラスサンプルの領域におけるサンプル数を増大し(up-sample)、より低い信頼度を持つ疑似正クラスサンプルの領域におけるサンプル数を減少させる(down-sample)。
収束条件としては、例えば、S54~S55の処理をバイパスしてソースドメインの正クラスサンプルの情報を用いない場合には、図5に示す処理を所定回数繰り返したことで収束と見做してよい。
あるいは、ソースドメインの正クラスサンプルの情報を用いる場合には、繰り返しの回数で収束条件を設定してもよいが、例えば、距離の閾値を設定し、ソースドメインの正クラスサンプルと負クラスサンプルの分布の間の距離と、ターゲットドメインの正クラスサンプルと負クラスサンプルの分布の間の距離とが所定の閾値内に収束したことを収束条件として設定してもよい。また、サンプルの分布の間の距離に替えて、サンプルの信頼度の間の距離を用いてもよい。ここで、距離としては、例えば、Jensen-Shannonダイバージェンスを用いることができる。
図6(a)を参照して、特徴空間上、左側がソースドメインの領域、右側がターゲットドメインの領域を示す。垂直線61は、ドメイン分類器により画定される特徴空間上のソースドメインとターゲットドメインとの境界を示す。
ソースドメインの領域は、(-)で示される負クラスサンプルの分布と、負クラスサンプルの分布の上方に、(+)で示される正クラスサンプルの分布とを含む。一方、ターゲットドメインの領域は、(-)で示される負クラスサンプルの分布を含むが、正クラスサンプルの分布は出現していない。
疑似サンプル生成部13は、このターゲットドメインの(-)で示される負クラスサンプルの分布から離れるほど、ターゲットドメインの負クラスサンプルの信頼度が低い領域であり、したがって、ターゲットドメインの疑似正クラスサンプルの信頼度が高い領域であると判断し、ターゲットドメインの(-)で示される負クラスサンプルの分布の周囲に均一に疑似正クラスサンプルの領域63~67を複数生成する(図5のS53)。
一方、複数の疑似正クラスサンプルの領域63~67のうち、ソースドメインの(+)で示される正クラスサンプルの分布に対して距離がより遠い領域64~67は、疑似正クラスサンプルの信頼度が低い領域であると判断して、より低い重みを付与する。また、水平線62の下の疑似正クラスサンプルの領域65~67は、クラス分類器により負クラスの領域であると判断されるため、水平線62の上の疑似正クラスサンプルの領域よりさらに低い重みが付与されてもよく、疑似正クラスサンプルが削除されてもよい。
疑似サンプル生成部13は、最終的に、より高い信頼度が算出された疑似正クラスサンプルの領域63に疑似正クラスサンプルを生成すればよい。
図7(a)を参照して、特徴空間上、左側がソースドメインの領域、右側がターゲットドメインの領域を示す。垂直線71は、ドメイン分類器により画定される特徴空間上のソースドメインとターゲットドメインとの境界を示す。
ソースドメインの領域は、(-)で示される負クラスサンプルの分布と、負クラスサンプルの分布の上方に、(+)で示される正クラスサンプルの分布とを含む。一方、ターゲットドメインの領域は、(-)で示される負クラスサンプルの分布を含むが、正クラスサンプルの分布は出現していない。ただし、図6(a)と異なり、ターゲットドメインの(-)で示される負クラスサンプルの分布は、境界71を隔てて、ソースドメインの(-)で示される負クラスサンプルの分布より(+)で示される正クラスサンプルの分布により隣接している。
疑似サンプル生成部13は、このターゲットドメインの(-)で示される負クラスサンプルの分布から離れるほど、ターゲットドメインの負クラスサンプルの信頼度が低い領域であり、したがって、ターゲットドメインの疑似正クラスサンプルの信頼度が高い領域であると判断し、ターゲットドメインの(-)で示される負クラスサンプルの分布の周囲に均一に疑似正クラスサンプルの領域73~77を複数生成する(図5のS53)。
一方、複数の疑似正クラスサンプルの領域73~77のうち、ソースドメインの(+)で示される正クラスサンプルの分布に対して距離がより遠い領域74~77は、疑似正クラスサンプルの信頼度が低い領域であると判断して、より低い重みを付与する。また、斜線72の下の疑似正クラスサンプルの領域75~77は、クラス分類器により負クラスの領域であると判断されるため、斜線72の上の疑似正クラスサンプルの領域よりさらに低い重みが付与されてもよく、疑似正クラスサンプルが削除されてもよい。
疑似サンプル生成部13は、最終的に、より高い信頼度が算出された疑似正クラスサンプルの領域73に疑似正クラスサンプルを生成すればよい。
図8は、本実施形態に係る学習装置1のハードウエア構成の非限定的一例を示す図である。
本実施形態に係る学習装置1は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図8を参照して、学習装置1は、単一のコンピュータに実装される例が示されているが、本実施形態に係る学習装置1は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。
CPU(Central Processing Unit)81は、学習装置1における動作を統括的に制御するものであり、データ伝送路であるシステムバス88を介して、各構成部(82~87)を制御する。
学習装置1はまた、GPU(Graphics Processing Unit)を備えてよい。GPUは、CPU81より高い計算機能を有し、複数または多数のGPUを並列して動作させることにより、特に、本実施形態のような機械学習を使用する画像処理等のアプリケーションに、より高い処理パフォーマンスを提供する。GPUは、通常、プロセッサと共有メモリを含む。それぞれのプロセッサが高速の共有メモリからデータを取得し、共通プログラムを実行することで、同種の計算処理を大量かつ高速に実行する。
RAM(Random Access Memory)83は、揮発性メモリであり、CPU81の主メモリ、ワークエリア等として機能する。すなわち、CPU81は、処理の実行に際してROM82から必要なプログラム等をRAM83にロードし、当該プログラム等を実行することで各種の機能動作を実現する。
入力部85は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部86は、液晶ディスプレイ(LCD)等のモニターにより構成される。表示部86は、異常シーン検出処理で使用される各種パラメータや、他の装置との通信で使用される通信パラメータ等をパラメータ調整装置1へ指示入力するためのユーザインタフェースであるGUI(Graphical User Interface)を提供してよい。
通信I/F87は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信I/F87を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信I/F87は、イーサネット(登録商標)等の通信規格に準拠する有線LAN(Local Area Network)や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Bluetooth(登録商標)、ZigBee(登録商標)、UWB(Ultra Wide Band)等の無線PAN(Personal Area Network)を含む。また、Wi-Fi(Wireless Fidelity)(登録商標)等の無線LAN(Local Area Network)や、WiMAX(登録商標)等の無線MAN(Metropolitan Area Network)を含む。さらに、LTE/3G、4G、5G等の無線WAN(Wide Area Network)を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。
本実施形態に係る学習装置はまた、疑似サンプルが補完されたターゲットドメインに、ソースドメインがドメイン適応するよう機械学習する。
例えば、映像中にごく僅かな頻度でしか出現しない異常シーン(anomaly scene)を検出するタスクにおいても、ターゲットドメインに、フィルタリングすべき異常シーンの疑似サンプルを生成し、生成された疑似サンプルでターゲットドメインを補完することで、ソースドメインおよびターゲットドメインのクラス間の非対称性が解消される。
これにより、ドメイン適応が高精度に実現され、機械学習モデルの可用性向上に資する。
Claims (12)
- ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、 ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出する特徴抽出部と、
前記特徴抽出部により抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成する疑似サンプル生成部と、
前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換部と
を備えることを特徴とする情報処理装置。 - 前記疑似サンプル生成部は、前記特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布の第1の信頼度を推定し、推定された前記第1の信頼度の勾配に基づいて、前記疑似サンプルを生成する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記疑似サンプル生成部は、推定された前記第1の信頼度が低い前記特徴空間の領域に、前記疑似サンプルを生成する
ことを特徴とする請求項2に記載の情報処理装置。 - 前記疑似サンプル生成部は、前記特徴空間における前記ソースドメインに含まれる前記第2のクラスのサンプルの分布の第2の信頼度を推定し、推定された前記第2の信頼度の勾配に基づいて、前記疑似サンプルを生成する
ことを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。 - 前記疑似サンプル生成部は、前記第1の信頼度と前記第2の信頼度とを結合し、結合された信頼度に基づいて、生成された前記疑似サンプルを、前記特徴空間において前記結合された信頼度がより高い領域に分布させるようリサンプリングする
ことを特徴とする請求項4に記載の情報処理装置。 - 前記疑似サンプル生成部は、前記特徴空間における前記ソースドメインに含まれる前記第1のクラスのサンプルの分布と前記第2のクラスのサンプルの分布との間の距離に基づいて、前記疑似サンプルを生成する
ことを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。 - サンプルを前記ソースドメインおよび前記ターゲットドメインのいずれかに分類するドメイン分類器をさらに備え、
前記疑似サンプル生成部は、前記ドメイン分類器が前記ターゲットドメインに分類されたサンプルに対して、前記ソースドメインに分類されたサンプルより高い重みを付与するよう、前記ドメイン分類器を学習させる
ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。 - サンプルを前記第1のクラスおよび前記第2のクラスのいずれかに分類するクラス分類器をさらに備え、
前記疑似サンプル生成部は、前記クラス分類器が前記第2のクラスに分類されたサンプルに対して、前記第1のクラスに分類されたサンプルより高い重みを付与するよう、前記クラス分類器を学習させる
ことを特徴とする請求項1から7のいずれか1項に記載の情報処理装置。 - 前記データ変換部は、前記ドメイン分類器および前記クラス分類器の少なくとも1つを、第1の損失関数を用いて算出される、前記特徴空間におけるクロスエントロピー損失がより小さくなるよう機械学習する
ことを特徴とする請求項8に記載の情報処理装置。 - 前記データ変換部は、第2の損失関数を用いて算出される、前記特徴空間における前記ソースドメインと前記ターゲットドメインとの間のWasserstein距離がより小さくなるよう機械学習する
ことを特徴とする請求項1から9のいずれか1項に記載の情報処理装置。 - 情報処理装置が実行する情報処理方法であって、
ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出するステップと、
抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成するステップと、
前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するステップと
を含むことを特徴とする情報処理方法。 - 情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
ソースドメインに含まれる第1のクラスのサンプルおよび第2のクラスのサンプルと、ターゲットドメインに含まれる前記第1のクラスのサンプルとから、それぞれ特徴を抽出する特徴抽出処理と、
前記特徴抽出処理により抽出された前記特徴の特徴空間における前記ターゲットドメインに含まれる前記第1のクラスのサンプルの分布に基づいて、前記ターゲットドメインの前記第2のクラスの疑似サンプルを生成する疑似サンプル生成処理と、
前記特徴空間において、前記ソースドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスのサンプルの分布を、前記ターゲットドメインに含まれる前記第1のクラスのサンプルおよび前記第2のクラスの前記疑似サンプルの分布に近づくよう機械学習によりデータ変換するデータ変換処理と
を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020216626A JP7062747B1 (ja) | 2020-12-25 | 2020-12-25 | 情報処理装置、情報処理方法およびプログラム |
TW110134193A TWI792560B (zh) | 2020-12-25 | 2021-09-14 | 資訊處理裝置及資訊處理方法 |
EP21204690.8A EP4020338A1 (en) | 2020-12-25 | 2021-10-26 | Information processing apparatus and information processing method |
CN202111385356.8A CN114757358A (zh) | 2020-12-25 | 2021-11-22 | 信息处理装置及信息处理方法 |
US17/548,743 US12002488B2 (en) | 2020-12-25 | 2021-12-13 | Information processing apparatus and information processing method |
JP2022069215A JP7277645B2 (ja) | 2020-12-25 | 2022-04-20 | 情報処理装置、情報処理方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020216626A JP7062747B1 (ja) | 2020-12-25 | 2020-12-25 | 情報処理装置、情報処理方法およびプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022069215A Division JP7277645B2 (ja) | 2020-12-25 | 2022-04-20 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7062747B1 JP7062747B1 (ja) | 2022-05-06 |
JP2022102095A true JP2022102095A (ja) | 2022-07-07 |
Family
ID=78413632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020216626A Active JP7062747B1 (ja) | 2020-12-25 | 2020-12-25 | 情報処理装置、情報処理方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US12002488B2 (ja) |
EP (1) | EP4020338A1 (ja) |
JP (1) | JP7062747B1 (ja) |
CN (1) | CN114757358A (ja) |
TW (1) | TWI792560B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220215393A1 (en) * | 2021-01-04 | 2022-07-07 | Capital One Services, Llc | Real-time updating of a security model |
JP2022151012A (ja) * | 2021-03-26 | 2022-10-07 | 本田技研工業株式会社 | 地図生成装置 |
JP7463996B2 (ja) * | 2021-03-26 | 2024-04-09 | 横河電機株式会社 | 装置、方法およびプログラム |
TWI823817B (zh) * | 2023-05-12 | 2023-11-21 | 和碩聯合科技股份有限公司 | 資料處理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017224156A (ja) * | 2016-06-15 | 2017-12-21 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2019074945A (ja) * | 2017-10-17 | 2019-05-16 | 株式会社日立製作所 | オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面 |
JP2020071694A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社日立製作所 | 計算機システム |
JP2020198041A (ja) * | 2019-06-05 | 2020-12-10 | 株式会社Preferred Networks | 訓練装置、訓練方法、推定装置及びプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9710729B2 (en) | 2014-09-04 | 2017-07-18 | Xerox Corporation | Domain adaptation for image classification with class priors |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
US10296846B2 (en) * | 2015-11-24 | 2019-05-21 | Xerox Corporation | Adapted domain specific class means classifier |
US10354199B2 (en) * | 2015-12-07 | 2019-07-16 | Xerox Corporation | Transductive adaptation of classifiers without source data |
US10832161B2 (en) * | 2016-08-05 | 2020-11-10 | Conduent Business Services, Llc | Method and system of processing data for training a target domain classifier |
CA3046225A1 (en) * | 2018-06-13 | 2019-12-13 | Royal Bank Of Canada | Correcting bias in supervised machine learning data |
CN109325525A (zh) * | 2018-08-31 | 2019-02-12 | 阿里巴巴集团控股有限公司 | 样本属性评估模型训练方法、装置及服务器 |
EP3874417A1 (en) * | 2018-10-29 | 2021-09-08 | HRL Laboratories, LLC | Systems and methods for few-shot transfer learning |
US11494597B2 (en) * | 2019-03-22 | 2022-11-08 | Sri International | Generative memory for lifelong machine learning |
-
2020
- 2020-12-25 JP JP2020216626A patent/JP7062747B1/ja active Active
-
2021
- 2021-09-14 TW TW110134193A patent/TWI792560B/zh active
- 2021-10-26 EP EP21204690.8A patent/EP4020338A1/en active Pending
- 2021-11-22 CN CN202111385356.8A patent/CN114757358A/zh active Pending
- 2021-12-13 US US17/548,743 patent/US12002488B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017224156A (ja) * | 2016-06-15 | 2017-12-21 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2019074945A (ja) * | 2017-10-17 | 2019-05-16 | 株式会社日立製作所 | オンライン認識装置、オンライン認識方法、及びそれに用いる設定画面 |
JP2020071694A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社日立製作所 | 計算機システム |
JP2020198041A (ja) * | 2019-06-05 | 2020-12-10 | 株式会社Preferred Networks | 訓練装置、訓練方法、推定装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP4020338A1 (en) | 2022-06-29 |
JP7062747B1 (ja) | 2022-05-06 |
TWI792560B (zh) | 2023-02-11 |
US20220207865A1 (en) | 2022-06-30 |
US12002488B2 (en) | 2024-06-04 |
CN114757358A (zh) | 2022-07-15 |
TW202226077A (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7062747B1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US11068722B2 (en) | Method for analysing media content to generate reconstructed media content | |
JP6781415B2 (ja) | ニューラルネットワーク学習装置、方法、プログラム、およびパターン認識装置 | |
EP3767536A1 (en) | Latent code for unsupervised domain adaptation | |
WO2018209894A1 (en) | Semi-supervised regression with generative adversarial networks | |
US20210034968A1 (en) | Neural network learning apparatus for deep learning and method thereof | |
CN116635866A (zh) | 用于挖掘少数类数据样本以训练神经网络的方法和系统 | |
KR102548732B1 (ko) | 신경망 학습 방법 및 이를 적용한 장치 | |
KR20190098106A (ko) | 배치 정규화 레이어 트레이닝 방법 | |
US11288567B2 (en) | Method for training deep neural network (DNN) using auxiliary regression targets | |
CN113128478B (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
KR102370910B1 (ko) | 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법 | |
KR20190004429A (ko) | 신경망 모델에서 입력값에 대한 재학습 여부 결정 방법 및 장치 | |
JP7150918B2 (ja) | 試料の検査のためのアルゴリズムモジュールの自動選択 | |
Azevedo et al. | Stochastic-yolo: Efficient probabilistic object detection under dataset shifts | |
Duman et al. | Distance estimation from a monocular camera using face and body features | |
JPWO2017188048A1 (ja) | 作成装置、作成プログラム、および作成方法 | |
US20210133567A1 (en) | Determining an output signal by aggregating parent instances | |
Wei et al. | Task-oriented contrastive learning for unsupervised domain adaptation | |
JP7277645B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP2022025392A (ja) | 機械学習装置及び機械学習方法 | |
Gan | Language guided out-of-distribution detection | |
Huayhongthong et al. | Incremental Object Detection Using Ensemble Modeling and Deep Transfer Learning | |
Li et al. | A self-adjusting transformer network for detecting transmission line defects | |
KR102676919B1 (ko) | 인공지능을 이용한 이미지 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220420 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7062747 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |