JP7485226B2 - 訓練装置、分類装置、訓練方法、分類方法、及びプログラム - Google Patents
訓練装置、分類装置、訓練方法、分類方法、及びプログラム Download PDFInfo
- Publication number
- JP7485226B2 JP7485226B2 JP2023541366A JP2023541366A JP7485226B2 JP 7485226 B2 JP7485226 B2 JP 7485226B2 JP 2023541366 A JP2023541366 A JP 2023541366A JP 2023541366 A JP2023541366 A JP 2023541366A JP 7485226 B2 JP7485226 B2 JP 7485226B2
- Authority
- JP
- Japan
- Prior art keywords
- feature values
- target domain
- source domain
- transformed
- domain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 195
- 238000000034 method Methods 0.000 title claims description 144
- 238000000605 extraction Methods 0.000 claims description 144
- 238000006243 chemical reaction Methods 0.000 claims description 135
- 238000004364 calculation method Methods 0.000 claims description 120
- 230000009466 transformation Effects 0.000 claims description 118
- 230000008569 process Effects 0.000 claims description 75
- 230000001131 transforming effect Effects 0.000 claims description 37
- 239000000284 extract Substances 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 39
- 239000013598 vector Substances 0.000 description 36
- 230000006870 function Effects 0.000 description 19
- 230000000694 effects Effects 0.000 description 17
- 238000012545 processing Methods 0.000 description 15
- 239000013256 coordination polymer Substances 0.000 description 11
- 238000013527 convolutional neural network Methods 0.000 description 10
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006978 adaptation Effects 0.000 description 4
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Description
を備える。
を備え、前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
1または複数のクラス予測手段によって、前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測することと、前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうち少なくとも1つを更新することと、を含む。
以下、本発明の第1の例示的実施形態について図面を用いて説明する。第1の例示的実施形態は、後続の例示的実施形態の基礎となる実施形態である。
本例示的実施形態に係る訓練装置は、当該訓練装置に入力されたデータから特徴値(特徴量とも呼ぶ)を抽出する特徴抽出部を訓練する(学習する、学習させるともいう)。また、訓練装置は、特徴抽出部により抽出された特徴値を参照して変換後の特徴値(変換された特徴値とも呼ぶ)を生成する角度変換部を訓練する。また、訓練装置は、特徴値と変換された特徴値とに基づいて分類を行うクラス予測部を訓練する。
第1の例示的実施形態に係る訓練装置10の構成について、図1を用いて説明する。図1は、訓練装置10の構成を示すブロック図である。図1に示すように、訓練装置10は、特徴抽出部11と、角度変換部12と、クラス予測部13と、更新部14とを備える。第1の例示的実施形態において、特徴抽出部11、角度変換部12、及びクラス予測部13の個数は1つであってもよいし、2つ以上であってもよい。
第1の例示的実施形態によれば、上述したように、更新部14はソースドメイン分類損失、ターゲットドメイン分類損失、及び変換損失に加えて、グループ損失を参照して、特徴抽出部11、角度変換部12、及びクラス予測部13の少なくとも1つを更新する。したがって、第1の例示的実施形態によれば、ソースドメインから取得された知見は、ターゲットドメインにおける訓練にも使用される。このように、第1の例示的実施形態によれば、ターゲットドメインのラベル付きデータが少量であっても、特徴抽出部11及びクラス予測部12の訓練を行うことができる。
次に、第1の例示的実施形態に係る訓練装置10の訓練方法について、図2を用いて説明する。図2は、訓練装置10による訓練方法S1の流れを示すフロー図である。図2に示すように、訓練装置10は、特徴抽出ステップS11、角度変換ステップS12、クラス予測ステップS13、及び更新ステップS14を実行する。
特徴抽出ステップS11において、特徴抽出部11は、入力されたソースドメイン画像データからソースドメイン特徴値を抽出する。また、特徴抽出部11は、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する。
クラス予測ステップS12において、角度変換部12は、変換されたソースドメイン特徴値が、入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値を変換することにより、当該変換されたソースドメイン特徴値を生成する。また、角度変換部12は、変換されたターゲットドメイン特徴値が、入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値を変換することにより、当該変換後のターゲットドメイン特徴値を生成する。
クラス予測ステップS13において、クラス予測部13は、ソースドメイン特徴値と変換されたソースドメイン特徴値とから、ソースドメインクラス予測値を予測する。また、クラス予測部13は、ターゲットドメイン特徴値と、変換後のターゲットドメイン特徴値とから、ターゲットドメインクラス予測値を予測する。
更新ステップS14において、更新部は、
ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
ソースドメイン特徴値、変換されたソースドメイン特徴値、ターゲットドメイン特徴値、及び変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
ソースドメイン特徴値、変換されたソースドメイン特徴値、ターゲットドメイン特徴値、及び変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、特徴抽出部11、角度変換部12、及びクラス予測部13のうち少なくとも1つを更新する。
第1の例示的実施形態によれば、訓練方法S10は撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供する。
以下、第1の例示的実施形態に係る分類装置20の構成について、図3を用いて説明する。図3は、分類装置20の構成を示すブロック図である。図3に示すように、分類装置20は、特徴抽出部21と、クラス予測部23とを備える。
第1の例示的実施形態によれば、分類装置20は、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、好適な分類プロセスを提供する。
また、分類装置20は、変換後の特徴値が、入力画像データとは角度の異なる画像データから抽出されたものであるかのように、特徴値を変換することによって当該変換後の特徴値を生成する角度変換部22をさらに備えてもよい。なお、角度変換部22は、訓練装置10が訓練した角度変換部12であってもよい。
また、分類装置20は、角度変換部22に加えて、ユーザ入力を受け付けるユーザ入力受付部をさらに備えていてもよい。ユーザ入力は、ユーザが角度変換部22を使用するか否かを示す入力であってもよい。
次に、第1の例示的実施形態に係る分類装置20の分類方法について、図4を用いて説明する。図4は、分類装置20が行う分類方法S2を示すフロー図である。図4に示すように、分類装置20は、特徴抽出ステップS21、クラス予測ステップS23を実行する。
特徴抽出ステップS21において、特徴抽出部21は、入力画像データから特徴値を抽出する。
クラス予測ステップS23において、クラス予測部23は、特徴値からクラス予測値を予測する。
分類方法S2は、変換後の特徴値が、入力画像データとは異なる角度を有する画像データから抽出されたものであるかのように、特徴値を変換することによって当該変換後の特徴値を生成する角度変換ステップS22をさらに備えてもよい。なお、角度変換ステップS22は、角度変換部22が行ってもよい。ここで、角度変換部22は、訓練装置10によって訓練された角度変換部12であってもよい。
角度変換ステップS22に加えて、分類方法S2は、ユーザ入力を受け付けるユーザ入力受付ステップをさらに含んでもよい。ユーザ入力は、ユーザが角度変換ステップS22を採用するか否かを示す入力であってもよい。
以下、本発明の第2の例示的実施形態について図面を用いて説明する。なお、第1の例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明を適宜省略する。また、第2の例示的実施形態の概要は、第1の例示的実施形態の概要と同じであるため、ここでは説明しない。
次に、第2の例示的実施形態に係る訓練装置の構成について、図5を用いて説明する。図5は、訓練装置の構成を示すブロック図である。図5に示すように、訓練装置10aは、第1の特徴抽出部11aと、第2の特徴抽出部11bと、第1の角度変換部12aと、第2の角度変換部12bと、第1のクラス予測部13aと、第2のクラス予測部13bと、更新部14aとを備える。
第1の特徴抽出部11aには、ソースドメインに属する入力画像データISが入力される。具体的には、一例として、入力画像データISは、複数の領域を有する画像であってもよい。別の例として、入力画像データISは、図6の左側に示されているような一群の画像(a batch of images)であってもよい。図6の左側の例において、入力画像データISは、オブジェクトを表す4つの画像(IS1、IS2、IS3、IS4)を含む。
第2の特徴抽出部11bには、ターゲットドメインに属する入力画像データITが入力される。具体的には、一例として、入力画像データITは、複数の領域を有する画像であってもよい。別の例として、入力画像データITは、図6の右側に示しているような一群の画像(a batch of images)であってもよい。図6の右側の例において、入力画像データITは、オブジェクトを表す4つの画像(IT1、IT2、IT3、IT4)を含む。
第1の角度変換部12aは、変換されたソースドメイン特徴値X’Sが、入力されたソースドメイン画像データISとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値XSを変換することにより、当該変換されたソースドメイン特徴値X’Sを生成する。
角度変換パラメータはベクトルとして表現され得るので、角度変換パラメータは、角度変換ベクトルとも呼ばれ得る。第1の角度変換部12aは、ΘSを参照して、変換後のソースドメイン特徴ベクトルX’Sを以下のように生成してもよい。
ここで、(Eq.4)のX’Sの第1の成分は、(Eq.1)のソースドメイン特徴ベクトルXSの第1の成分と、(Eq.3)のソースドメイン角度変換ベクトルΘSの第1の成分とを参照して、第1の角度変換部12aが生成する変換後の特徴値を示す。
第2の角度変換部12bは、変換後のターゲットドメイン特徴値X’Tが、入力されたターゲットドメイン画像データITとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値XTを変換することによって、当該変換後のターゲットドメイン特徴値X’Tを生成する。
ここで、(Eq.6)のX’Tの第1の成分は、(Eq.2)のターゲットドメイン特徴ベクトルXTの第1の成分と、(Eq.5)のターゲットドメイン角度変換ベクトルΘTの第1の成分とを参照して、第2の角度変換部12bで生成された変換後の特徴値を示す。
第1のクラス予測部13aは第1の特徴抽出部11aにより抽出されたソースドメイン特徴値と、第1の角度変換部12aにより生成された変換後のソースドメイン特徴値とから、ソースドメインクラス予測値を予測する。
ここで、PSは、特徴ベクトルXSの各成分に対応する4つの成分を有する。同様に、CPSは、変換された特徴ベクトルX’Sの各要素に対応する4つの要素を有する。予測値はベクトルとして表現され得るので、予測値は予測ベクトルとも呼ばれ得る。
第2のクラス予測部13bは、第2の特徴抽出部11bにより抽出されたターゲットドメイン特徴値XTからターゲットドメインクラス予測値PTを予測し、第2の角度変換部12bにより生成された変換後のターゲットドメイン特徴値X’Tから、変換後の特徴値のターゲットドメインクラス予測値CPTを予測する。
分類損失計算部141は、ソースドメインクラス予測値、及びソースドメインクラスラベルデータを参照して、ソースドメイン分類損失(loss_classification_S)を計算する。
例えば、分類損失計算部141は、PSとYSとの不一致の度合い、及びCPSとYSとの不一致の度合いに応じて、ソースドメイン分類損失を計算する。
分類損失計算部141は、以下のようにソースドメイン分類損失を計算する。PSの全ての要素がYSの対応する要素と一致し、CPSの全ての要素がYSの対応する要素と一致するためである。
分類損失計算部141は、以下のようにターゲットドメイン分類損失を計算する。PTの4番目の要素とYTの4番目の要素とが一致せず、CPTの1番目及び4番目の要素とYTの対応する要素とが一致しないためである。
グルーピング部142は、ソースドメイン特徴値XS、変換されたソースドメイン特徴値X’S、ターゲットドメイン特徴値XT、及び変換されたターゲットドメイン特徴値X’Tから、クラスグループを生成し出力する。ここで、各クラスグループは、同じクラスラベルを共有する特徴値を含む。
グループ損失計算部143は、グルーピング部142が生成したクラスグループを参照して、グループ損失(loss_grouping)を計算する。
変換損失計算部144は、ソースドメイン特徴値XS、変換後のソースドメイン特徴値X’S、ターゲットドメイン特徴値T、及び変換後のターゲットドメイン特徴値X’Tを参照して、変換損失を計算する。
マージ損失計算部145は、ソースドメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、及び変換損失(loss_conversion)を参照して、マージ損失(loss_merge)を計算する。
モデル更新部146は、マージ損失が収束したか否かを判定する。マージ損失が収束した場合、モデル更新部146は、収束したモデルパラメータを記録媒体に出力する。モデル更新部146は、マージ損失が収束していない場合、マージ損失計算部145が計算したマージ損失を参照して、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bのモデルパラメータを更新する。
第2の例示的実施形態によれば、上述したように、モデル更新部146は、ソースドメイン分類損失、ターゲットドメイン分類損失、及び変換損失に加えて、グループ損失を参照してモデルパラメータを更新する。
以下、第2の例示的実施形態に係る訓練装置10aの訓練方法について、図10を用いて説明する。図10は、訓練装置10aによる訓練方法S1aの流れを示すフロー図である。
ステップS100において、訓練装置10aは、初期モデルパラメータを受信する。初期モデルパラメータには、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、第2のクラス予測部13bの初期モデルパラメータが含まれる。本ステップで受信された初期モデルパラメータは、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bに供給される。
ステップS101aにおいて、訓練装置10aは、入力ソースドメインデータを受信する。より具体的には、訓練装置10aは、ソースドメイン画像データIS、及び当該画像データISに関連付けられたソースドメインクラスラベルデータYSを受信する。
ステップS101bにおいて、訓練装置10aは、入力ターゲットドメインデータを受信する。具体的には、訓練装置10aは、ターゲットドメイン画像データIT及び当該画像データITに関連付けられたターゲットドメインクラスラベルデータYTを受信する。
ステップS102aにおいて、第1の角度変換部12aは、ソースドメイン角度変換パラメータΘSを受信する。
ステップS102bにおいて、第2の角度変換部12bは、ターゲットドメイン角度変換パラメータΘTを受信する。
ステップS11aでは、第1の特徴抽出部11aがソースドメイン画像データISから特徴値XSを抽出する。なお、第1の特徴抽出部11aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS11bでは、第2の特徴抽出部11bがターゲットドメイン画像データITから特徴値XTを抽出する。なお、第2の特徴抽出部11bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS12aにおいて、第1の角度変換部12aは、変換されたソースドメイン特徴値X’Sが、入力されたソースドメイン画像データISとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値XSを変換することによって、当該変換されたソースドメイン特徴値X’Sを生成する。なお、第1の角度変換部12aによる具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS12bにおいて、第2の角度変換部12bは、変換されたターゲットドメイン特徴値X’Tが、入力されたターゲットドメイン画像データITとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値XTを変換することによって、当該変換されたターゲットドメイン特徴値X’Tを生成する。なお、第2の角度変換部12bによる具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS13aにおいて、第1のクラス予測部13aは、ソースドメイン特徴値XSからソースドメインクラス予測値PSを予測し、変換されたターゲットドメイン特徴値X’Sから、変換後のソースドメイン特徴値のソースドメインクラス予測値CPSを予測する。なお、第1のクラス予測部13aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS13bにおいて、第2のクラス予測部13bは、ターゲットドメイン特徴値XTからターゲットドメインクラス予測値PTを予測し、変換後のターゲットドメイン特徴値X’Tから、変換後のターゲットドメイン特徴値のターゲットドメインクラス予測値CPTを予測する。なお、第2のクラス予測部13bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS141では、分類損失計算部141は、ソースドメインクラス予測値PS、変換されたソースドメイン特徴値のソースドメインクラス予測値CPS、及びソースドメインクラスラベルデータYSを参照して、ソースドメイン分類損失(loss_classification_S)を計算する。また、分類損失計算部141は、ターゲットドメインクラス予測値PT、変換されたターゲットドメイン特徴値のターゲットドメインクラス予測値CPT、及びターゲットドメインクラスラベルデータYTを参照して、ターゲットドメイン分類損失(loss_classification_T)を計算する。なお、分類損失計算部141が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS142では、グルーピング部142が、ソースドメイン特徴値XS、変換されたソースドメイン特徴値X’S、ターゲットドメイン特徴値XT、及び変換されたターゲットドメイン特徴値X’Tから、クラスグループ生成し出力する。ここで各々のクラスグループは、同じクラスラベルを共有する特徴値を含む。なお、グルーピング部142が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS143において、グループ損失計算部143は、グルーピング部142が生成したクラスグループを参照して、グループ損失(loss_grouping)を計算する。なお、グループ損失計算部143が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS144において、変換損失計算部144は、ソースドメイン特徴値XS、変換後のソースドメイン特徴値X’S、ターゲットドメイン特徴値XT、及び変換後のターゲットドメイン特徴値X’Tを参照して、変換損失を計算する。なお、変換損失計算部144が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS145において、マージ損失計算部145は、ソースドメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、及び変換損失(loss_conversion)を参照して、マージ損失(loss_merge)を計算する。なお、マージ損失計算部145が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS146において、モデル更新部146は、マージ損失が収束したか否かを判定する。マージ損失が収束している場合(ステップS146でYES)、ステップS148に進む。マージ損失が収束していない場合(ステップS146でNO)、ステップS147に進む。
ステップS147において、モデル更新部146は、マージ損失計算部145が計算したマージ損失を参照して、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bのモデルパラメータを更新する。
ステップS148において、モデル更新部146は、マージ損失計算部145が計算したマージ損失を参照して、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bのモデルパラメータを記録媒体に記録する。
以上説明した訓練装置10aによる訓練方法S1aは、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供する。
次に、第2の例示的実施形態に係る分類装置20aの構成について、図11を用いて説明する。図11は、分類装置20aの構成を示すブロック図である。図11に示すように、分類装置20aは、特徴抽出部11bと、角度変換部12bと、クラス予測部13bとを備える。ここで、特徴抽出部11bは上述した第2の特徴抽出部11bと同様に構成され、角度変換部12bは上述した第2の角度変換部12bと同様に構成され、クラス予測部13bは上述した第2のクラス予測部13bと同様に構成される。
(備考1:特徴抽出部について)
例示的構成において、第1の特徴抽出部11aと第2の特徴抽出部11bとは、完全に独立していてもよい。すなわち、第1の特徴抽出部11aと第2の特徴抽出部11bとは、モデルパラメータも層も共有しない構成としてもよい。
例示的構成において、第1のクラス予測部13aと第2のクラス予測部13bとは、完全に独立していてもよい。すなわち、第1のクラス予測部13a、及び第2のクラス予測部13bは、モデルパラメータ、及び層を共用しない構成としてもよい。
例示的構成では、第1の角度変換部12a、及び第2の角度変換部12bは互いに完全に独立していてもよい。すなわち、第1の角度変換部12aと第2の角度変換部12bとは、モデルパラメータも層も共有しない構成としてもよい。
グループ損失の計算は、クラスグループ内の2つの特徴間の距離または類似性を計算するための任意の方法によって達成され得る。グループ損失は、L1ノルム、L2ノルム、コサイン類似性、または学習などを必要とする何らかの他の尺度であってもよい。
マージ損失は、ソースドメイン分類損失値(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、変換損失(loss_conversion)、及びグループ損失(loss_grouping)などのすべてのサブタスク損失の直接和であり得るか、またはサブタスク損失の加重和であり得る。
以下、本発明の第3の例示的実施形態について、図面を用いて詳しく説明する。なお、上記例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明は適宜省略する。さらに、第3の例示的実施形態の概要は、前述の例示的実施形態の概要と同じであるので、ここでは説明しない。
以下、第3の例示的実施形態に係る訓練装置10bの構成について、図13を用いて説明する。図13は、訓練装置10bの構成を示すブロック図である。図13に示すように、訓練装置10bは、第2の例示的実施形態に係る訓練装置10aに含まれる構成要素に加えて、ドメイン判別部15と、ドメイン損失計算部16とを備える。
ドメイン判別部15は、ターゲットドメインをソースドメインから判別する判別処理を行う。すなわち、ドメイン判別部15は、特徴がソースドメインからのものであるか、ターゲットドメインからのものであるかを示すドメイン予測を行う。
ドメイン損失計算部16は、ドメイン判別部15による判別処理の結果を参照して、ドメイン判別損失を計算して出力する。ドメイン判別損失は、単にドメイン損失と呼ばれることもある。
第3の例示的実施形態に係るマージ損失計算部145は、ソースメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、変換損失(loss_conversion)、及びドメイン損失(loss_domain)を参照して、マージ損失(loss_merge)を計算する。
訓練の観点から、訓練装置10bは以下の処理を行う。第1に、訓練装置10bは、ドメイン判別部15を訓練して、ドメイン判別部15が、特徴がソースドメインからのものか、ターゲットドメインからのものかを判別できるようにする。第2に、訓練装置10bは、第1の特徴抽出部11a及び第2の特徴抽出部11bを訓練して、第1の特徴抽出部11a及び第2の特徴抽出部11bが、訓練されたドメイン判別部15を混乱させ得る特徴を抽出できるようにする。
以上説明したように、第3の例示的実施形態によれば、訓練装置10bは、抽出された特徴XS及びXTのドメイン不変性を実現することができる。これは、好ましいターゲットドメインの特性をもたらす。
以下、第3の例示的実施形態に係る訓練装置10bの訓練方法について、図15を用いて説明する。図15は、訓練装置10bによる訓練方法S1bの流れを示すフロー図である。
ステップS15において、ドメイン判別部15は、ターゲットドメインをソースドメインから判別するドメイン判別処理を行う。ドメイン判別部15が行う具体的な処理については、上述したので、ここでは繰り返さない。
ステップS16において、ドメイン損失計算部16は、ドメイン判別部15による判別処理の結果を参照して、ドメイン判別損失を計算して出力する。ドメイン損失計算部16が行う具体的な処理については、上述したので、ここでは繰り返さない。
ステップS145では、第3の例示的実施形態に係るマージ損失計算部145が(i)ソースドメイン分類損失(loss_classification_S)、(ii)ターゲットドメイン分類損失(loss_classification_T)、(iii)グループ損失(loss_grouping)、(iv)変換損失(loss_conversion)、(v)ドメイン損失(loss_domain)を参照して、マージ損失(loss_merge)を計算する。なお、マージ損失計算部145が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
第3の例示的実施形態によれば、訓練方法S1bは、ターゲットドメインラベルデータが少量の場合であっても、効率的で安定した訓練プロセスを提供する。
以下、第3の例示的実施形態に係る分類装置の構成について説明する。第3の例示的実施形態に係る分類装置20aは、図11に示す分類装置20aと同様の構成を有する。
ドメイン損失を計算するために、クラスラベルは必要としない。したがって、訓練装置10bは、ラベル付けされたターゲットドメインデータのみを使用する代わりに、(クラスラベルの意味で)ラベル付けされていないターゲットデータを使用してもよい。データがターゲットデータセットからのものである限り、訓練装置10bは、データのドメインラベルがターゲットであることを知ることができる。
以下、本発明の第4の例示的実施形態について、図面を用いて詳しく説明する。なお、上記例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明は適宜省略する。さらに、第4の例示的実施形態の概要は、前述の例示的実施形態の概要と同じであるので、ここでは説明しない。
以下、第4の例示的実施形態に係る訓練装置10cの構成について、図16を用いて説明する。図16は、訓練装置10cの構成を示す図である。図16に示すように、訓練装置10cは、第2の例示的実施形態に係る訓練装置10aが備える構成要素に加えて、第1の補助タスク解決部17a、第2の補助タスク解決部17b、第1の補助損失計算部18a、及び第2の補助損失計算部18bを備える。
第1の例示的例示的では、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、特許請求の範囲に記載の1または複数の角度予測手段の一例である。第1の補助損失計算部18a、及び第2の補助損失計算部18bは、特許請求の範囲に記載の1または複数の角度予測損失計算手段の一例である。
第1の補助タスク解決部17a、第2の補助タスク解決部17b、第1の補助損失計算部18a、第2の補助損失計算部18bがない場合、訓練装置は、以下のような状況を引き起こす可能性がある。
第2の例示的構成では、第1の補助タスク解決部17aは、ソースドメイン角度予測値を正弦値、及び余弦値として出力するように構成され得る。
第3の例示的構成において、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、特許請求の範囲に記載の「1または複数の画像再構成手段」の一例である。第1の補助損失計算部18a、及び第2の補助損失計算部18bは、特許請求の範囲に記載の「1または複数の再構成損失計算手段」の一例である。
第4の例示的構成では、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、特許請求の範囲に記載の「1または複数の角度変換判別手段」の一例である。第1の補助損失計算部18a及び第2の補助損失計算部18bは、特許請求の範囲に記載の「1または複数の変換判別損失計算手段」の実施例である。
第1の補助タスク解決部17a、第2の補助タスク解決部17b、第1の補助損失計算部18a、第2の補助損失計算部18bがない場合、訓練装置は、以下のような状況を引き起こす可能性がある。
以下、第4の例示的実施形態に係る訓練装置10cの訓練方法について、図18を用いて説明する。図18は、訓練装置10cによる訓練方法S1cの流れを示すフロー図である。
ステップS17aにおいて、第1の補助タスク解決部17aは、ソースドメイン補助タスクを実行する。なお、第1の補助タスク解決部17aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS18aにおいて、第1の補助損失計算部18aは、ソースドメイン変換判別損失を出力する。なお、第1の補助損失計算部18aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS17bにおいて、第2の補助タスク解決部17bは、ターゲットドメイン補助タスクを実行する。なお、第2の補助タスク解決部17bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS18bにおいて、第2の補助損失計算部18bは、ターゲットドメイン変換判別損失を出力する。なお、第2の補助損失計算部18bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
ステップS145において、マージ損失計算部145は、マージ損失(loss_merge)を計算する。なお、マージ損失計算部145が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
第4の例示的実施形態によれば、訓練方法S1cは、訓練装置10cと同様の効果を奏する。
以下、第4の例示的実施形態に係る分類装置の構成について説明する。第4の例示的実施形態に係る分類装置20cは、図11に示す分類装置20aと同様の構成を有する。
以下、本発明の第5の例示的実施形態について、図面を用いて詳しく説明する。なお、上記例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明は適宜省略する。さらに、第5の例示的実施形態の概要は、前述の例示的実施形態の概要と同じであるので、ここでは説明しない。
次に、第5の例示的実施形態実施形態に係る訓練装置10dの構成について、図19を用いて説明する。図19は、訓練装置の構成を示す図である。図19に示すように、第5の例示的実施形態に係る訓練装置10dは、第3の例示的実施形態で説明した構成と、第4の例示的実施形態で説明した構成との両方を備える。
第5の例示的実施形態に係る分類装置20dは、図11に示す分類装置20aと同様の構成を有する。第5の例示的実施形態に係る訓練装置10dは、第3の実施形態で説明した構成と、第4の例示的実施形態で説明した構成との両方を備える。また、第5の例示的実施形態に係る分類装置20dは、訓練装置10dによって訓練された特徴抽出部11b、角度変換部12b、及びクラス予測部12bを備える。
訓練装置10、10a、10b、10c、10d及び分類装置20、20a、20b、20c、20dの機能の一部または全部はICチップ(integrated circuit)等のハードウエアで実現してもよいし、ソフトウェアで実現してもよい。
本発明は、前述の例示的実施形態に限定されず、特許請求の範囲内で当業者によって様々な方法で変更され得る。例えば、上記例示的実施形態に開示されている技術的手段を適宜組み合わせて得られる例示的実施形態についても、その技術的範囲に含まれる本発明である。
以上に開示された例示的実施形態の全部または一部は、以下のようにして説明することができる。ただし、本発明は以下の実施例の態様に限定されない。
本発明の態様は、以下のように表すこともできる:
(態様1)
訓練装置は、
入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出手段と、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換手段と、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測手段と、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換後のソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、
(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する更新手段と、
を備える。
態様1に記載の訓練装置において、
前記1または複数の角度変換手段は、
1または複数のソースドメイン角度変換パラメータを参照して、前記変換されたソースドメイン特徴値を生成し、
1または複数のターゲットドメイン角度変換パラメータを参照して、前記変換されたターゲットドメイン特徴値を生成する。
態様1または2に記載の訓練装置であって、
前記更新手段は
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からクラスグループを出力するためのグルーピング手段を備え、
クラスグループの各々は、同じクラスラベルを共有する特徴値を含む。
態様3に記載の訓練装置において、
前記更新手段は、前記クラスグループを参照して前記グループ損失を計算するグループ損失計算手段をさらに備える。
態様4に記載の訓練装置において、
前記グループ損失計算手段は、
同一クラス内の特徴値を参照して決定されたクラス内距離と、
異なるクラス内の特徴値量を参照して決定されたクラス間距離と
に基づいて、前記グループ損失を計算する。
態様1から5の何れかに記載の訓練装置において、
前記更新手段は、
前記ソースドメインクラス予測値、及びソースドメインクラスラベルデータを参照して前記ソースドメイン分類損失を計算し、
前記ターゲットドメインクラス予測値、及びターゲットドメインクラスラベルデータを参照して前記ターゲットドメイン分類損失を計算する、
1または複数の分類損失計算手段をさらに備える。
態様1から5の何れかに記載の訓練装置において、
前記更新手段は、
前記ソースドメイン特徴値と、前記変換されたソースドメイン特徴値と、前記ターゲットドメイン特徴値と、前記変換されたターゲットドメイン特徴値とを参照して、変換損失を計算する変換損失計算手段をさらに備える。
態様7に記載の訓練装置において、
前記更新手段は、
前記ソースドメイン分類損失、前記ターゲットドメイン分類損失、前記グループ損失、及び前記変換損失を参照してマージ損失を計算するマージ損失計算手段をさらに備え、
前記更新手段は、
前記マージ損失を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する。
態様1~8のいずれかに記載の訓練装置において、
ソースドメインからターゲットドメインを識別する識別処理を実行する1または複数のドメイン識別手段と、
前記識別処理の結果としてドメイン識別損失を出力する1つまたは複数のドメイン損失計算手段と
を更に備え、
前記更新手段はドメイン識別損失をさらに参照し、前記更新手段は、ドメイン識別手段をさらに更新する。
態様1~9のいずれかに記載の訓練装置において、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメイン角度予測値を予測し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメイン角度予測値を予測する1または複数の角度予測手段と、
ソースドメイン角度予測値、及びソースドメイン角度ラベルデータを参照してソースドメイン角度予測損失を出力し、ターゲットドメイン角度予測値、及びターゲットドメイン角度ラベルデータを参照してターゲットドメイン角度予測損失を出力する1または複数の角度予測損失計算手段と、
を備え、
前記更新手段はさらに、前記ソースドメイン角度予測損失、及び前記ターゲットドメイン角度予測損失を参照し、前記更新手段は、さらに前記角度予測手段を更新する。
態様1~9のいずれかに記載の訓練装置において、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメイン再構成画像を生成し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメイン再構成画像を生成する1または複数の画像再構成手段と、
ソースドメイン再構成画像、及びソースドメイン入力画像データを参照してソースドメイン再構成損失を出力し、ターゲットドメイン再構成画像、及びターゲットドメイン入力画像データを参照してターゲットドメイン再構成損失を出力する1または複数の再構成損失計算手段と
を備え、
前記更新手段は前記ソースドメイン再構成損失、及び前記ターゲットドメイン再構成損失をさらに参照し、前記更新手段は、前記画像再構成手段をさらに更新する。
変換判別処理を実行して、前記変換されたソースドメイン特徴値から前記ソースドメイン特徴値を判別し、前記変換されたターゲットドメイン特徴値から前記ターゲットドメイン特徴値を判別する1または複数の変換判別手段と、
前記変換判別処理の結果を参照して、ソースドメイン変換判別損失、及びターゲットドメイン変換判別損失を出力する1または複数の変換判別損失計算手段と
を備え、
前記更新手段は前記ソースドメイン変換判別損失、及び前記ターゲットドメイン変換判別損失のうちの少なくとも1つをさらに参照し、前記更新手段は、変換判別手段をさらに更新する。
分類装置は、
入力された画像データから特徴値を抽出する特徴抽出手段と
前記特徴値、及び変換された特徴値からクラス予測値を予測するクラス予測手段と
を備え、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
訓練方法は、
1または複数の特徴抽出手段によって、
入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出することと、
1または複数の角度変換手段によって、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成することと、
1または複数のクラス予測手段によって、前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測することと、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、
(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうち少なくとも1つを更新することと、
を含む。
分類方法であって:
特徴抽出手段により、入力された画像データから特徴値を抽出することと、
クラス予測手段により、前記特徴値、及び変換後の特徴値からクラス予測値を予測することと
を含み、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
プログラムは、分類装置としてコンピュータを機能させるためのプログラムであって、前記特徴抽出手段、前記変換手段、及び前記クラス予測手段のそれぞれとしてコンピュータを機能させる。
プログラムは、分類装置としてコンピュータを機能させるためのプログラムであって、 前記特徴抽出手段、前記変換手段、及び前記クラス予測手段のそれぞれとしてコンピュータを機能させる。
少なくとも1つのプロセッサを備える訓練装置であって、
前記プロセッサは、
1または複数の特徴抽出手段によって、
入力されたソースドメイン画像データからソースドメイン特徴値と、
入力されたターゲットドメイン画像データからターゲットドメイン特徴値と、
を抽出し、
1または複数の角度変換手段によって、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値と、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値と、
を生成し、
1または複数のクラス予測手段によって、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値と、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値と、
を予測し、
更新手段によって、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換後のソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、
(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する。
少なくとも1つのプロセッサを備える分類装置であって、
前記プロセッサは、
特徴抽出手段によって、入力された画像データから特徴値を抽出し
クラス予測手段によって、特徴値、及び変換された特徴値からクラス予測値を予測し、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
20、20a、20b、20c、20d 分類装置
11、11a、11b 特徴抽出部
12、12a、12b 角度変換部
13、13a、13b クラス予測部
14、14a 更新部
141 分類損失計算部
142 グルーピング部
143 グループ損失計算部
144 変換損失計算部
145 マージ損失計算部
146 モデル更新部
15 ドメイン判別部
16 ドメイン損失計算部
17a、17b 補助タスク解決部
18a、18b 補助損失計算部
Claims (10)
- 入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出手段と、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換手段と、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測手段と、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する更新手段と、
を備える訓練装置。 - 前記1または複数の角度変換手段は、
1または複数のソースドメイン角度変換パラメータを参照して、前記変換されたソースドメイン特徴値を生成し、
1または複数のターゲットドメイン角度変換パラメータを参照して、前記変換されたターゲットドメイン特徴値を生成する、
請求項1に記載の訓練装置。 - 前記更新手段は
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からクラスグループを出力するためのグルーピング手段と、
前記クラスグループを参照して前記グループ損失を計算するグループ損失計算手段と、
を備え、
クラスグループの各々は、同じクラスラベルを共有する特徴値を含み、
前記グループ損失計算手段は、
同一クラス内の特徴値を参照して決定されたクラス内距離と、
異なるクラス内の特徴値量を参照して決定されたクラス間距離と
に基づいて、前記グループ損失を計算する、
請求項1または2に記載の訓練装置。 - 前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメイン再構成画像を生成し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメイン再構成画像を生成する1または複数の画像再構成手段と、
ソースドメイン再構成画像、及びソースドメイン入力画像データを参照してソースドメイン再構成損失を出力し、ターゲットドメイン再構成画像、及びターゲットドメイン入力画像データを参照してターゲットドメイン再構成損失を出力する1または複数の再構成損失計算手段と
を備え、
前記更新手段は前記ソースドメイン再構成損失、及び前記ターゲットドメイン再構成損失をさらに参照し、前記更新手段は、前記画像再構成手段をさらに更新する、
請求項1から3のいずれか1項に記載の訓練装置。 - 変換判別処理を実行して、前記変換されたソースドメイン特徴値から前記ソースドメイン特徴値を判別し、前記変換されたターゲットドメイン特徴値から前記ターゲットドメイン特徴値を判別する1または複数の変換判別手段と、
前記変換判別処理の結果を参照して、ソースドメイン変換判別損失、及びターゲットドメイン変換判別損失を出力する1または複数の変換判別損失計算手段と
を備え、
前記更新手段は前記ソースドメイン変換判別損失、及び前記ターゲットドメイン変換判別損失のうちの少なくとも1つをさらに参照し、前記更新手段は、変換判別手段をさらに更新する、
請求項1から3のいずれか1項に記載の訓練装置。 - 入力された画像データから特徴値を抽出する特徴抽出手段と
前記特徴値からクラス予測値を予測するクラス予測手段と
を備え、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、
ソースドメイン画像データからソースドメイン特徴値を抽出し、ターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出処理と、
変換されたソースドメイン特徴値が、前記ソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記ターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換処理と、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測処理と、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して前記特徴抽出手段、及び前記クラス予測手段の前記少なくとも一方を更新する更新処理と
によって訓練されたものである
分類装置。 - 1または複数の特徴抽出手段によって、
入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、
入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する
ことと、
1または複数の角度変換手段によって、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成することと、
1または複数のクラス予測手段によって、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測することと、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうち少なくとも1つを更新することと、
を含む訓練方法。 - 特徴抽出手段により、入力された画像データから特徴値を抽出することと、
クラス予測手段により、前記特徴値、及び変換された特徴値からクラス予測値を予測することと
を含み、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、
ソースドメイン画像データからソースドメイン特徴値を抽出し、ターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出処理と、
変換されたソースドメイン特徴値が、前記ソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記ターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換処理と、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測処理と、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して前記特徴抽出手段、及び前記クラス予測手段の前記少なくとも一方を更新する更新処理と
によって訓練されたものである
分類方法。 - 請求項1に記載の訓練装置としてコンピュータを機能させるためのプログラムであって、前記特徴抽出手段、前記クラス予測手段、前記角度変換手段、及び前記更新手段のそれぞれとして前記コンピュータを機能させるためのプログラム。
- 請求項6に記載の分類装置としてコンピュータを機能させるためのプログラムであって、前記特徴抽出手段、及び前記クラス予測手段のそれぞれとしてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021003116 | 2021-01-12 | ||
JP2021003116 | 2021-01-12 | ||
PCT/JP2021/044389 WO2022153711A1 (en) | 2021-01-12 | 2021-12-03 | Training apparatus, classification apparatus, training method, classification method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024502154A JP2024502154A (ja) | 2024-01-17 |
JP7485226B2 true JP7485226B2 (ja) | 2024-05-16 |
Family
ID=82448367
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023541366A Active JP7485226B2 (ja) | 2021-01-12 | 2021-12-03 | 訓練装置、分類装置、訓練方法、分類方法、及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240062525A1 (ja) |
EP (1) | EP4278321A4 (ja) |
JP (1) | JP7485226B2 (ja) |
WO (1) | WO2022153711A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028876A (ja) | 2017-08-02 | 2019-02-21 | 株式会社ディジタルメディアプロフェッショナル | 機械学習用教師データ生成装置及び生成方法 |
JP2020046928A (ja) | 2018-09-19 | 2020-03-26 | キヤノン株式会社 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP2020144700A (ja) | 2019-03-07 | 2020-09-10 | 株式会社日立製作所 | 画像診断装置、画像処理方法及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9536177B2 (en) * | 2013-12-01 | 2017-01-03 | University Of Florida Research Foundation, Inc. | Distributive hierarchical model for object recognition in video |
US10497257B2 (en) * | 2017-08-31 | 2019-12-03 | Nec Corporation | Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation |
-
2021
- 2021-12-03 JP JP2023541366A patent/JP7485226B2/ja active Active
- 2021-12-03 US US18/270,764 patent/US20240062525A1/en active Pending
- 2021-12-03 WO PCT/JP2021/044389 patent/WO2022153711A1/en active Application Filing
- 2021-12-03 EP EP21919600.3A patent/EP4278321A4/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019028876A (ja) | 2017-08-02 | 2019-02-21 | 株式会社ディジタルメディアプロフェッショナル | 機械学習用教師データ生成装置及び生成方法 |
JP2020046928A (ja) | 2018-09-19 | 2020-03-26 | キヤノン株式会社 | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
JP2020144700A (ja) | 2019-03-07 | 2020-09-10 | 株式会社日立製作所 | 画像診断装置、画像処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2024502154A (ja) | 2024-01-17 |
EP4278321A4 (en) | 2024-05-29 |
EP4278321A1 (en) | 2023-11-22 |
WO2022153711A1 (en) | 2022-07-21 |
US20240062525A1 (en) | 2024-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7470476B2 (ja) | 蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合 | |
Çayır et al. | Random CapsNet forest model for imbalanced malware type classification task | |
Lin et al. | A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier | |
US20230281298A1 (en) | Using multimodal model consistency to detect adversarial attacks | |
CN111652290B (zh) | 一种对抗样本的检测方法及装置 | |
CN111695415A (zh) | 图像识别模型的构建方法、识别方法及相关设备 | |
WO2023051140A1 (zh) | 用于图像特征表示生成的方法、设备、装置和介质 | |
CN113139664B (zh) | 一种跨模态的迁移学习方法 | |
CN113112518B (zh) | 基于拼接图像的特征提取器生成方法、装置和计算机设备 | |
US20200143209A1 (en) | Task dependent adaptive metric for classifying pieces of data | |
CN113159013B (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
JP2018194974A (ja) | 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法 | |
JP2022161564A (ja) | テキスト画像の文字を認識する機械学習モデルを訓練するシステム | |
Zhou et al. | A worm detection system based on deep learning | |
Hassanat et al. | Magnetic force classifier: a Novel Method for Big Data classification | |
JP2019086979A (ja) | 情報処理装置、情報処理方法及びプログラム | |
Suratkar et al. | Deep-fake video detection approaches using convolutional–recurrent neural networks | |
Zhu et al. | Multiview latent space learning with progressively fine-tuned deep features for unsupervised domain adaptation | |
Hameed et al. | Content based image retrieval based on feature fusion and support vector machine | |
JP7485226B2 (ja) | 訓練装置、分類装置、訓練方法、分類方法、及びプログラム | |
US20210342642A1 (en) | Machine learning training dataset optimization | |
CN112766423B (zh) | 人脸识别模型的训练方法、装置、计算机设备及存储介质 | |
CN115374943A (zh) | 一种基于域对抗迁移网络的数据认知计算方法及其系统 | |
Bueno-Benito et al. | Leveraging triplet loss for unsupervised action segmentation | |
CN115082761A (zh) | 模型产生装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230706 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240321 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7485226 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |