JP7485226B2 - 訓練装置、分類装置、訓練方法、分類方法、及びプログラム - Google Patents

訓練装置、分類装置、訓練方法、分類方法、及びプログラム Download PDF

Info

Publication number
JP7485226B2
JP7485226B2 JP2023541366A JP2023541366A JP7485226B2 JP 7485226 B2 JP7485226 B2 JP 7485226B2 JP 2023541366 A JP2023541366 A JP 2023541366A JP 2023541366 A JP2023541366 A JP 2023541366A JP 7485226 B2 JP7485226 B2 JP 7485226B2
Authority
JP
Japan
Prior art keywords
feature values
target domain
source domain
transformed
domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023541366A
Other languages
English (en)
Other versions
JP2024502154A (ja
Inventor
岑容 戴
真人 戸田
瑛士 金子
和俊 鷺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2024502154A publication Critical patent/JP2024502154A/ja
Application granted granted Critical
Publication of JP7485226B2 publication Critical patent/JP7485226B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

本出願は、訓練装置、分類装置、訓練方法、分類方法、及びプログラムに関する。
ニューラルネットワークなどの機械学習技術は、パラメータを訓練するために、大量のラベル付きデータを必要とすることが多い。一方、少量のラベル付きデータしか利用できないことがしばしば生じる。
そのような場合に適用可能な、いわゆるドメイン適合技術(domain adaptation techniques)が提案されている(例えば、非特許文献1を参照)。ドメイン適応技術は、ターゲットデータセット(ターゲットドメインデータセットと呼ばれることが多い)に加えて、大量の代替的な代表データセット(ソースドメインデータセットと呼ばれることが多い)を利用する。
Xiang Xu etal.,"d-SNE: Domain Adaptation using Stochastic Neighborhood Embedding",Proceedings of IEEE conference on computer vision and pattern recognition. 2019
非特許文献1で開示されたドメイン適応技術は、撮影アングルのばらつきが限られた訓練用画像しか利用できない場合において、効率的な訓練プロセスを提供できないという問題がある。
本発明は上記課題に鑑みてなされたものであり、その目的の一例は、撮影アングルのばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供することにある。
上記の目的を達成するために、訓練装置は、入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出手段と、変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する、1または複数の角度変換手段と、前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する、1または複数のクラス予測手段と、前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、前記ソースドメイン特徴値、前記変換後のソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する更新手段と、
を備える。
上記目的を達成するために、分類装置は、入力された画像データから特徴値を抽出する特徴抽出手段と前記特徴値からクラス予測値を予測するクラス予測手段と
を備え、前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
上記の目的を達成するために、訓練方法は、1または複数の特徴抽出手段によって、入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出することと、1または複数の角度変換手段によって、変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成することと、
1または複数のクラス予測手段によって、前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測することと、前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうち少なくとも1つを更新することと、を含む。
上記目的を達成するために、分類方法は、特徴抽出手段により、入力された画像データから特徴値を抽出することと、クラス予測手段により、前記特徴値および変換後の特徴値からクラス予測値を予測することとを含み、前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
上記目的を達成するために、プログラムは、コンピュータを訓練装置として機能させるためのプログラムであって、コンピュータを特徴抽出手段、クラス予測手段、変換手段、更新手段のそれぞれとして機能させる。
上記目的を達成するために、プログラムは、コンピュータを分類装置として機能させるためのプログラムであって、特徴抽出手段、変換手段、及びクラス予測手段のそれぞれとして機能させる。
本発明の例示的な態様によれば、撮影アングルのばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供することができる。
図1は、第1の例示的実施形態に係る訓練装置の構成を示すブロック図である。 図2は、第1の例示的実施形態に係る訓練方法の流れを示すフロー図である。 図3は、第1の例示的実施形態に係る分類装置の構成を示すブロック図である。 図4は、第1の例示的実施形態に係る分類方法の流れを示すフロー図である。 図5は、第2の例示的実施形態に係る訓練装置の構成を示すブロック図である。 図6は、第2の例示的実施形態における入力データの例を示す図である。 図7は、第2の例示的実施形態における角度変換を模式的に示す図である。 図8は、第2の例示的実施形態におけるグループ損失の計算を模式的に示す図である。 図9は、第2の例示的実施形態で実現されるクロスドメインアラインメントを模式的に示す図である。 図10は、第2の例示的実施形態に係る訓練方法の流れを示すフロー図である。 図11は、第2の例示的実施形態に係る分類装置の構成を示すブロック図である。 図12は、第2の例示的実施形態の有利な効果を模式的に示す図である。 図13は、第3の例示的実施形態に係る訓練装置の構成を示すブロック図である。 図14は、第3の例示的実施形態におけるドメイン不変性を模式的に示す図である。 図15は、第3の例示的実施形態に係る訓練方法の流れを示すフロー図である。 図16は、第4の例示的実施形態に係る訓練装置の構成を示すブロック図である。 図17は、第4の例示的実施形態の構成におけるデータの例を示す図である。 図18は、第4の例示的実施形態に係る訓練方法の流れを示すフロー図である。 図19は、第5の例示的実施形態に係る訓練装置の構成を示すブロック図である。 図20は、各例示的実施形態に係るハードウエア構成を示すブロック図である。
<第1の例示的実施形態>
以下、本発明の第1の例示的実施形態について図面を用いて説明する。第1の例示的実施形態は、後続の例示的実施形態の基礎となる実施形態である。
(第1の例示的実施形態の概要)
本例示的実施形態に係る訓練装置は、当該訓練装置に入力されたデータから特徴値(特徴量とも呼ぶ)を抽出する特徴抽出部を訓練する(学習する、学習させるともいう)。また、訓練装置は、特徴抽出部により抽出された特徴値を参照して変換後の特徴値(変換された特徴値とも呼ぶ)を生成する角度変換部を訓練する。また、訓練装置は、特徴値と変換された特徴値とに基づいて分類を行うクラス予測部を訓練する。
第1の例示的実施形態に係る分類装置は、訓練された特徴抽出部と、訓練された角度変換部と、訓練されたクラス予測部とを備える。
第1の例示的実施形態において、ソースドメインに属するデータと、ターゲットドメインに属するデータとが用いられる。ここで、用語「ドメイン」は、データセットを概念的に区別するために用いられるに過ぎず、第1の例示的実施形態を限定するものではない。
第1の例示的実施形態において、ソースドメインに属するデータは、ターゲットドメインに属するデータよりも、データサイズが大きい。さらに、ソースドメインに属するデータは、ターゲットドメインに属するデータと比較して、より多くのラベル付きデータを含む。ここで、用語「ラベル付きデータ」は、「グラウンドトゥルース(ground truth)」でラベル付けされたデータを称する。ラベル付きデータは、教師付き学習または半教師付き学習のために、訓練装置によって用いることができる。
本発明の第1の例示的実施形態に係る分類装置は、ターゲットドメインに属するデータに対して分類を行うことを目指す。第1の例示的実施形態に係る学習装置は、ターゲットドメインに属するデータに対する分類の精度を向上させるために、ターゲットドメインに属するデータだけでなく、ソースドメインに属するデータを用いて、訓練プロセスを実行する。
(訓練装置の構成)
第1の例示的実施形態に係る訓練装置10の構成について、図1を用いて説明する。図1は、訓練装置10の構成を示すブロック図である。図1に示すように、訓練装置10は、特徴抽出部11と、角度変換部12と、クラス予測部13と、更新部14とを備える。第1の例示的実施形態において、特徴抽出部11、角度変換部12、及びクラス予測部13の個数は1つであってもよいし、2つ以上であってもよい。
特徴抽出部11は、特許請求の範囲に記載の特徴抽出手段の一例である。角度変換部12は、特許請求の範囲に記載の角度変換手段の一例である。クラス予測部13は、特許請求の範囲に記載の予測手段の一例である。更新部14は、特許請求の範囲に記載の更新手段の一例である。
特徴抽出部11には、ソースドメイン画像データ、及びターゲットドメイン画像データが入力される。ここで、ソースドメイン画像データは、ソースドメインに属する画像データであり、ターゲットドメイン画像データは、ターゲットドメインに属する画像データである。
特徴抽出部11は、入力されたソースドメイン画像データからソースドメイン特徴値(ソースドメイン特徴量とも呼ぶ)を抽出する。また、特徴抽出部11は、入力されたターゲットドメイン画像データからターゲットドメイン特徴値(ターゲットドメイン特徴量とも呼ぶ)を抽出する。
ここで、特徴抽出部11の数が1つである場合、ソースドメインデータとターゲットドメインデータとを判別するためのドメインラベルが特徴抽出部11に入力されて、特徴抽出部11が、ドメインラベルに基づいて、ソースドメインデータとターゲットドメインデータとを判別できる構成とすることが好ましい。
なお、特徴抽出部11の具体的な構成は、第1の例示的実施形態を限定するものではない。例えば、特徴抽出部11は、畳み込みニューラルネットワーク(CNN)であっても、リカレントニューラルネットワーク(RNN)であっても、他のニューラルネットワークや特徴抽出器であってもよい。
角度変換部12は、変換されたソースドメイン特徴値が、入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値を変換することにより、当該変換されたソースドメイン特徴値を生成する。また、角度変換部12は、変換されたターゲットドメイン特徴値が、入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値を変換することにより、当該変換されたターゲットドメイン特徴値を生成する。
なお、角度変換部12の具体的な構成は第1の例示的実施形態を限定するものではないが、以下の構成を採用することができる。
角度変換部12は、1つ以上のソースドメイン角度変換パラメータを参照して、前記変換されたソースドメイン特徴値を生成してもよい。また、角度変換部12は、1つ以上のターゲットドメイン角度変換パラメータを参照して、前記変換されたターゲットドメイン特徴値を生成してもよい。
例えば、角度変換部12は、ソースドメイン角度変換パラメータを参照して、変換されたソースドメイン特徴値を生成する。ここで、当該変換されたソースドメイン特徴値は、当該ソースドメイン角度変換パラメータに基づいて回転された回転後のソースドメイン画像データから抽出されたソースドメイン特徴値に類似したものである。同様に、例えば、角度変換部12は、ターゲットドメイン角度変換パラメータを参照して、変換されたターゲットドメイン特徴値を生成する。ここで、当該変換されたターゲットドメイン特徴値は、当該ターゲットドメイン角度変換パラメータに基づいて回転された回転後のターゲットドメイン画像データから抽出されたターゲットドメイン特徴値に類似したものである。
クラス予測部13はソースドメイン特徴値、及び変換後のソースドメイン特徴値から、ソースドメインクラス予測値を予測する。また、クラス予測部13はターゲットドメイン特徴値、及び変換後のターゲットドメイン特徴値とから、ターゲットドメインクラス予測値を予測する。
なお、クラス予測部13の具体的な構成は、第1の例示的実施形態を限定するものではない。例えば、クラス予測部13は(i)ソースドメイン特徴値をある閾値と比較することによりソースドメインクラス予測値を出力し、(ii)ターゲットドメイン特徴値を別の閾値と比較することによりターゲットドメインクラス予測値を出力するように構成することができる。
更新部14は、ソースドメイン分類損失(ソースドメイン分類ロスとも呼ぶ)、ターゲットドメイン分類損失(ターゲットドメイン分類ロスとも呼ぶ)、変換損失(変換ロスとも呼ぶ)、及びグループ損失(ブルーピングロスとも呼ぶ)を参照して、特徴抽出部11、角度変換部12、及びクラス予測部13の少なくとも1つを更新する。例えば、更新部14は、ソースドメイン分類損失、ターゲットドメイン分類損失、変換損失、及びグループ損失を参照してパラメータを更新し、更新されたパラメータを特徴抽出部11、角度変換部12、及びクラス予測部13に提供する。
ソースドメイン分類損失は、ソースドメインクラス予測値を参照して計算され得る。例えば、ソースドメイン分類損失は、ソースドメインクラス予測値、及びソースドメインクラスラベルデータを参照して計算され得る。
ターゲットドメイン分類損失は、ターゲットドメインクラス予測値を参照して計算され得る。例えば、ターゲットドメイン分類損失は、ターゲットドメインクラス予測値、及びターゲットドメインクラスラベルデータを参照して計算され得る。
ソースドメイン変換損失は、ソースドメイン特徴値、及び変換されたソースドメイン特徴値を参照して計算され得る。例えば、ソースドメイン変換損失は、ソースドメイン特徴値と変換されたソースドメイン特徴値との差分であり得る。
ターゲットドメイン変換損失は、ターゲットドメイン特徴値、及び変換されたターゲットドメイン特徴値を参照して計算され得る。例えば、ターゲットドメイン変換損失は、ターゲットドメイン特徴値と変換されたターゲットドメイン特徴値との差分であり得る。
変換損失は、ソースドメイン変換損失、及びターゲットドメイン変換損失を参照して計算され得る。
グループ損失は、ソースドメイン特徴値、変換されたソースドメイン特徴値、ターゲットドメイン特徴値、及び変換されたターゲットドメイン特徴値を参照して計算され得る。
(有利な効果)
第1の例示的実施形態によれば、上述したように、更新部14はソースドメイン分類損失、ターゲットドメイン分類損失、及び変換損失に加えて、グループ損失を参照して、特徴抽出部11、角度変換部12、及びクラス予測部13の少なくとも1つを更新する。したがって、第1の例示的実施形態によれば、ソースドメインから取得された知見は、ターゲットドメインにおける訓練にも使用される。このように、第1の例示的実施形態によれば、ターゲットドメインのラベル付きデータが少量であっても、特徴抽出部11及びクラス予測部12の訓練を行うことができる。
また、第1の例示的実施形態によれば、角度変換部12は、変換後のソースドメイン特徴値X’が、入力されたソースドメイン画像データIとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値Xを変換することにより、当該変換後のソースドメイン特徴値X’を生成する。また、角度変換部12は、変換後のターゲットドメイン特徴値X’が、入力されたターゲットドメイン画像データIとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値Xを変換することにより、当該変換後のターゲットドメイン特徴値X’を生成する。そして、変換後のソースドメイン特徴値X’及び変換後のターゲットドメイン特徴値X’は、クラス予測部13によって参照される。
したがって、第1の例示的実施形態によれば、クラス予測部13は、当該クラス予測部13が様々な撮影角度に対して適切なクラス予測を行うことができるように、訓練されることができる。
具体的には、クラス予測部13は、訓練用画像データとは撮影角度が異なるラベルなし入力画像データに対して適切なクラス予測を行うことができるように、訓練されることができる。
すなわち、第1の例示的実施形態によれば、訓練装置10は、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供することができる。
(訓練装置による訓練方法)
次に、第1の例示的実施形態に係る訓練装置10の訓練方法について、図2を用いて説明する。図2は、訓練装置10による訓練方法S1の流れを示すフロー図である。図2に示すように、訓練装置10は、特徴抽出ステップS11、角度変換ステップS12、クラス予測ステップS13、及び更新ステップS14を実行する。
(特徴抽出ステップS11)
特徴抽出ステップS11において、特徴抽出部11は、入力されたソースドメイン画像データからソースドメイン特徴値を抽出する。また、特徴抽出部11は、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する。
(角度変換ステップS12)
クラス予測ステップS12において、角度変換部12は、変換されたソースドメイン特徴値が、入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値を変換することにより、当該変換されたソースドメイン特徴値を生成する。また、角度変換部12は、変換されたターゲットドメイン特徴値が、入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値を変換することにより、当該変換後のターゲットドメイン特徴値を生成する。
(クラス予測ステップS13)
クラス予測ステップS13において、クラス予測部13は、ソースドメイン特徴値と変換されたソースドメイン特徴値とから、ソースドメインクラス予測値を予測する。また、クラス予測部13は、ターゲットドメイン特徴値と、変換後のターゲットドメイン特徴値とから、ターゲットドメインクラス予測値を予測する。
(更新ステップS14)
更新ステップS14において、更新部は、
ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
ソースドメイン特徴値、変換されたソースドメイン特徴値、ターゲットドメイン特徴値、及び変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
ソースドメイン特徴値、変換されたソースドメイン特徴値、ターゲットドメイン特徴値、及び変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、特徴抽出部11、角度変換部12、及びクラス予測部13のうち少なくとも1つを更新する。
(有利な効果)
第1の例示的実施形態によれば、訓練方法S10は撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供する。
(分類装置の構成)
以下、第1の例示的実施形態に係る分類装置20の構成について、図3を用いて説明する。図3は、分類装置20の構成を示すブロック図である。図3に示すように、分類装置20は、特徴抽出部21と、クラス予測部23とを備える。
特徴抽出部21は、入力された画像データから特徴値を抽出する。なお、特徴抽出部21は、訓練装置10によって訓練された特徴抽出部11である。
クラス予測部23は、特徴値からクラス予測値を予測する。なお、クラス予測部23は、訓練装置10によって訓練されたクラス予測部13である。
以上のように、第1の例示的実施形態によれば、特徴抽出部21及びクラス予測部23の少なくとも一方は、入力画像データとは異なった角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されたものである。
(有利な効果)
第1の例示的実施形態によれば、分類装置20は、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、好適な分類プロセスを提供する。
(分類装置20に関する第1の備考)
また、分類装置20は、変換後の特徴値が、入力画像データとは角度の異なる画像データから抽出されたものであるかのように、特徴値を変換することによって当該変換後の特徴値を生成する角度変換部22をさらに備えてもよい。なお、角度変換部22は、訓練装置10が訓練した角度変換部12であってもよい。
上記構成において、クラス予測部23は、特徴値、及び変換された特徴値からクラス予測値を予測してもよい。
以上の構成によれば、分類装置20は、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、より好適な分類プロセスを実行することができる。
(分類装置20に関する第2の備考)
また、分類装置20は、角度変換部22に加えて、ユーザ入力を受け付けるユーザ入力受付部をさらに備えていてもよい。ユーザ入力は、ユーザが角度変換部22を使用するか否かを示す入力であってもよい。
クラス予測部23は、ユーザが角度変換部22を使用することを選択したことをユーザ入力が示す場合、特徴値、及び変換された特徴値からクラス予測値を予測してもよい。
一方、クラス予測部23は、ユーザ入力が角度変換部22を使用しないことを示す場合、変換された特徴値からではなく、特徴値からクラス予測値を予測してもよい。
(分類装置による分類方法)
次に、第1の例示的実施形態に係る分類装置20の分類方法について、図4を用いて説明する。図4は、分類装置20が行う分類方法S2を示すフロー図である。図4に示すように、分類装置20は、特徴抽出ステップS21、クラス予測ステップS23を実行する。
(特徴抽出ステップS21)
特徴抽出ステップS21において、特徴抽出部21は、入力画像データから特徴値を抽出する。
(クラス予測ステップS23)
クラス予測ステップS23において、クラス予測部23は、特徴値からクラス予測値を予測する。
上述したように、第1の例示的実施形態によれば、特徴抽出部21及びクラス予測部23の少なくとも一方は、入力画像データとは異なった角度を有する画像データから抽出されたものであるかのように、前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されたものである。
第1の例示的実施形態によれば、分類方法S2は、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、好適な分類プロセスを提供する。
(分類方法S2に関する第1の備考)
分類方法S2は、変換後の特徴値が、入力画像データとは異なる角度を有する画像データから抽出されたものであるかのように、特徴値を変換することによって当該変換後の特徴値を生成する角度変換ステップS22をさらに備えてもよい。なお、角度変換ステップS22は、角度変換部22が行ってもよい。ここで、角度変換部22は、訓練装置10によって訓練された角度変換部12であってもよい。
上記構成において、クラス予測ステップS23は、特徴値及び変換された特徴値からクラス予測値を予測してもよい。
上記方法によれば、分類方法S2は、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、より好適な分類プロセスを提供する。
(分類方法S2に関する第2の備考)
角度変換ステップS22に加えて、分類方法S2は、ユーザ入力を受け付けるユーザ入力受付ステップをさらに含んでもよい。ユーザ入力は、ユーザが角度変換ステップS22を採用するか否かを示す入力であってもよい。
ユーザ入力が、ユーザが角度変換ステップS22を採用することを選択することを示す場合、クラス予測ステップS23は、特徴値、及び変換された特徴値からクラス予測値を予測してもよい。
一方、ユーザ入力が、角度変換ステップS22を採用しないことを示す場合、クラス予測ステップS23は、変換された特徴値からではなく、特徴値からクラス予測値を予測してもよい。
<第2の例示的実施形態>
以下、本発明の第2の例示的実施形態について図面を用いて説明する。なお、第1の例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明を適宜省略する。また、第2の例示的実施形態の概要は、第1の例示的実施形態の概要と同じであるため、ここでは説明しない。
(訓練装置の構成)
次に、第2の例示的実施形態に係る訓練装置の構成について、図5を用いて説明する。図5は、訓練装置の構成を示すブロック図である。図5に示すように、訓練装置10aは、第1の特徴抽出部11aと、第2の特徴抽出部11bと、第1の角度変換部12aと、第2の角度変換部12bと、第1のクラス予測部13aと、第2のクラス予測部13bと、更新部14aとを備える。
第1の特徴抽出部11a、及び第2の特徴抽出部11bは、特許請求の範囲に記載の特徴抽出手段の一例である。第1の角度変換部12a、及び第2の角度変換部12bは、特許請求の範囲に記載の角度変換手段の一例である。第1のクラス予測部13a、及び第2のクラス予測部13bは、特許請求の範囲に記載のクラス予測手段の一例である。更新部14aは、特許請求の範囲に記載の更新手段の一例である。
第1の特徴抽出部11aと第2の特徴抽出部11bとは、単一の部分(section)として構成することができる。第1の角度変換部12aと第2の角度変換部12bとは、単一の部分(section)として構成することができる。第1のクラス予測部13aと第2のクラス予測部13bとは、単一の部分(section)として構成することができる。
また、更新部14aは、図5に示すように、分類損失計算部141と、グルーピング部142と、グループ損失計算部143と、変換損失計算部144と、マージ損失計算部145と、モデル更新部146とを備える。
(第1の特徴抽出部)
第1の特徴抽出部11aには、ソースドメインに属する入力画像データIが入力される。具体的には、一例として、入力画像データIは、複数の領域を有する画像であってもよい。別の例として、入力画像データIは、図6の左側に示されているような一群の画像(a batch of images)であってもよい。図6の左側の例において、入力画像データIは、オブジェクトを表す4つの画像(IS1、IS2、IS3、IS4)を含む。
ここで、画像IS1とIS2との関係は、以下の通りである。画像IS2は、画像IS1とは別のアングルを有している。一例として、画像IS2は画像IS1と同じ被写体を含むが、画像IS1とは別の撮影アングル(角度)で撮影された画像であってもよい。画像IS1、及び画像IS2は同時に撮影されてもよいし、異なった時間に撮影されてもよい。具体例として、画像IS1は0度の角度を有し、画像IS2は図6の左側に示すように+30度の角度を有する。言い換えると、画像IS1は、画像IS2と比較して-30度の角度を有する。
同様に、画像IS3とIS4との関係は以下の通りである。画像IS4は、画像IS3とは別のアングルを有している。一例として、画像IS4は、画像IS3と同じ被写体を含むが、画像IS3とは別の撮影アングル(角度)で撮影された画像であってもよい。画像IS3、及び画像IS4は、同時に撮影されてもよいし、異なった時間に撮影されてもよい。具体例として、画像IS3は0度の角度を有し、画像IS4は、図6の左側に示すように、+30度の角度を有する。言い換えると、画像IS3は、画像IS4と比較して、-30度の角度を有する。
第1の特徴抽出部11aは、入力されたソースドメイン画像データIからソースドメイン特徴値Xを抽出する。第1の特徴抽出部11aにより抽出された特徴値Xは、第1の角度変換部12a、第1のクラス予測部13a、グルーピング部142、及び変換損失計算部144に供給される。
なお、第1の特徴抽出部11aの具体的な構成は、第2の例示的実施形態を限定するものではない。例えば、第1の特徴抽出部11aは、畳み込みニューラルネットワーク(CNN)であっても、リカレントニューラルネットワーク(RNN)であっても、他のニューラルネットワークまたは特徴抽出器のいずれであってもよい。
なお、特徴値Xのデータ構造は第2の例示的実施形態を限定するものではないが、特徴値Xはベクトルの形式で表現されてもよい。より具体的には、一例として、Xは以下のようなベクトルとして表現されてもよい。
Figure 0007485226000001

ここで、Xは、それぞれの入力画像(IS1、IS2、IS3、IS4)に対応する4つの要素を有する。特徴値はベクトルとして表現され得るので、特徴値は特徴ベクトルとも呼ばれ得る。
(第2の特徴抽出部)
第2の特徴抽出部11bには、ターゲットドメインに属する入力画像データIが入力される。具体的には、一例として、入力画像データIは、複数の領域を有する画像であってもよい。別の例として、入力画像データIは、図6の右側に示しているような一群の画像(a batch of images)であってもよい。図6の右側の例において、入力画像データIは、オブジェクトを表す4つの画像(IT1、IT2、IT3、IT4)を含む。
ここで、画像IT1と画像IT2との関係は、以下の通りである。画像IT2は、画像IT1とは別のアングルを有している。一例として、画像IT2は、画像IT1と同じ被写体を含むが、画像IT1とは別の撮影アングル(角度)で撮影された画像であってもよい。画像IT1、及び画像IT2は、同時に撮影されてもよいし、異なった時間に撮影されてもよい。具体例として、画像IT1は0度の角度を有し、画像IT2は、図6の右側に示されるように、+30度の角度を有する。言い換えると、画像IT1は、画像IT2と比較して、-30度の角度を有する。
同様に、画像IT3と画像IT4との関係は以下の通りである。画像IT4は、画像IT3とは別のアングルを有している。一例として、画像IT4は、画像IT3と同じ被写体を含むが、画像IT3とは別の撮影アングル(角度)で撮影された画像であってもよい。画像IT3、及び画像IT4は、同時に撮影されてもよいし、または、異なった時間に撮影されてもよい。具体例として、画像IT3は0度の角度を有し、画像IT4は、図6の右側に示されるように、+30度の角度を有する。言い換えると、画像IT3は、画像IT4と比較して、-30度の角度を有する。
第2の特徴抽出部11bは、入力されたターゲットドメイン画像データIから、ターゲットドメイン特徴値Xを抽出する。第2の特徴抽出部11bで抽出された特徴値Xは、第2の角度変換部12b、第2のクラス予測部13b、グルーピング部142、及び変換損失計算部144に供給される。
なお、第2の特徴抽出部11bの具体的な構成は、第2の例示的実施形態を限定するものではない。例えば、第2の特徴抽出部11bは、畳み込みニューラルネットワーク(CNN)であっても、リカレントニューラルネットワーク(RNN)であっても、他のニューラルネットワークや特徴抽出器であってもよい。
なお、特徴値Xのデータ構造は第2の例示的実施形態を限定するものではないが、特徴値Xはベクトルの形式で表現されてもよい。より具体的には、一例として、Xは以下のようなベクトルとして表現されてもよい。
Figure 0007485226000002

ここで、Xは、それぞれの入力画像(IT1、IT2、IT3、IT4)に対応する4つの要素を有する。
(第1の角度変換部)
第1の角度変換部12aは、変換されたソースドメイン特徴値X’が、入力されたソースドメイン画像データIとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値Xを変換することにより、当該変換されたソースドメイン特徴値X’を生成する。
すなわち、第1の角度変換部12aは、変換されたソースドメイン特徴値X’が、入力されたソースドメイン画像データIとは異なる角度を有する画像データから抽出されたソースドメイン特徴値に類似するように、ソースドメイン特徴値Xを変換することにより、当該変換されたソースドメイン特徴値X’を生成する。
第1の角度変換部12aで生成された変換後のソースドメインの特徴値X’は、第1のクラス予測部13a、グルーピング部142、及び変換損失計算部144に供給される。
なお、第1の角度変換部12aの具体的な構成は、第2の例示的実施形態を限定するものではない。例えば、第1の角度変換部12aは、畳み込みニューラルネットワーク(CNN)であっても、オートエンコーダであっても、他のニューラルネットワークのいずれであってもよいし、これらの組合せであってもよい。
第1の角度変換部12aの具体的な構成は第2の例示的実施形態を限定するものではないが、例えば、第1の角度変換部12aは、1または複数のソースドメイン角度変換パラメータΘを参照して、変換後のソースドメイン特徴値X’を生成してもよい。
より具体的な例として、第1の角度変換部12aは、以下のようなソースドメイン角度変換パラメータΘを参照してもよい。
Figure 0007485226000003

角度変換パラメータはベクトルとして表現され得るので、角度変換パラメータは、角度変換ベクトルとも呼ばれ得る。第1の角度変換部12aは、Θを参照して、変換後のソースドメイン特徴ベクトルX’を以下のように生成してもよい。
Figure 0007485226000004

ここで、(Eq.4)のX’の第1の成分は、(Eq.1)のソースドメイン特徴ベクトルXの第1の成分と、(Eq.3)のソースドメイン角度変換ベクトルΘの第1の成分とを参照して、第1の角度変換部12aが生成する変換後の特徴値を示す。
第1の角度変換部12aは、X’の第1の成分があたかもIS2から抽出されたものであるかのように、(Eq.1)のXの第1の成分を変換することにより、(Eq.4)のX’の第1の成分を生成する。すなわち、第1の角度変換部12aはX’の第1の要素が、(Eq.1)のXの第2の要素に類似するように、(Eq.1)のXの第1の要素を変換することによって、(Eq.4)のX’の第1の要素を生成する。
(Eq.4)のX’の第2の成分は、(Eq.1)のソースドメイン特徴ベクトルXの第2の成分と、(Eq.3)のソースドメイン角度変換ベクトルΘの第2の成分とを参照して、第1の角度変換部12aにより生成された変換後の特徴値を示す。
第1の角度変換部12aは、X’の第2の成分があたかもIS1から抽出されたものであるかのように、(Eq.1)のXの第2の成分を変換することにより、(Eq.4)のX’の第2の成分を生成する。すなわち、第1の角度変換部12aはX’の第2の成分が、(Eq.1)のXの第1の成分に類似するように、(Eq.1)のXの第2の成分を変換することによって、(Eq.4)のX’の第2の成分を生成する。
同様にして、(Eq.4)の変換後のソースドメイン特徴ベクトルX’の第3及び第4の成分は、X’の第3及び第4の成分がそれぞれIS4及びIS3から抽出されたものであるかのように生成される。すなわち、(Eq.4)の変換後のソースドメイン特徴ベクトルX’の第3、及び第4の成分は、X’の第3、及び第4の成分がそれぞれ(Eq.1)のXの第4、及び第3の成分に類似するように生成される。
図7の上段は、第1の角度変換部12aによる角度変換を模式的に示している。上述したように、第1の角度変換部12aは、X’の第1、第2、第3、及び第4の要素がそれぞれXの第2、第1、第4、及び第3の要素に類似するようなX’を生成する。
なお、後述するように、第1の角度変換部12aの訓練が進むにつれて、ソースドメイン特徴値と対応する変換後のソースドメイン特徴値との類似度が高くなるようにしてもよい。
(第2の角度変換部)
第2の角度変換部12bは、変換後のターゲットドメイン特徴値X’が、入力されたターゲットドメイン画像データIとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値Xを変換することによって、当該変換後のターゲットドメイン特徴値X’を生成する。
すなわち、第2の角度変換部12bは変換後のターゲットドメイン特徴値X’が、入力されたターゲットドメイン画像データIとは異なる角度を有する画像データから抽出されたターゲットドメイン特徴値に類似するように、ターゲットドメイン特徴値Xを変換することにより、当該変換後のターゲットドメイン特徴値X’を生成する。
第2の角度変換部12bで生成された変換後のターゲットドメイン特徴値X’は、第2のクラス予測部13b、グルーピング部142、及び変換損失計算部144に供給される。
なお、第2の角度変換部12bの具体的な構成は、第2の例示的実施形態を限定するものではない。例えば、第2の角度変換部12bは、畳み込みニューラルネットワーク(CNN)であって、オートエンコーダであっても、他のニューラルネットワークであってもよいし、これらの組合せであってもよい。
第2の角度変換部12bの具体的な構成は第2の例示的実施形態を限定するものではないが、例えば、第2の角度変換部12bは、1または複数のターゲットドメイン角度変換パラメータΘを参照して、変換後のターゲットドメイン特徴値X’を生成してもよい。
より具体的な例として、第2の角度変換部12bは、以下のようなターゲットドメイン角度変換パラメータΘを参照してもよい。
Figure 0007485226000005

第2の角度変換部12bは、Θを参照して、変換後のターゲットドメイン特徴ベクトルX’を、以下のように生成してもよい。
Figure 0007485226000006

ここで、(Eq.6)のX’の第1の成分は、(Eq.2)のターゲットドメイン特徴ベクトルXの第1の成分と、(Eq.5)のターゲットドメイン角度変換ベクトルΘの第1の成分とを参照して、第2の角度変換部12bで生成された変換後の特徴値を示す。
第2の角度変換部12bは、X’の第1の構成要素が、あたかもIT2から抽出されたものであるかのように、(Eq.2)のXの第1の要素を変換することにより、(Eq.6)のX’の第1の要素を生成する。すなわち、第2の角度変換部12bは、X’の第1の要素が(Eq.2)のXの第2の要素に類似するように、(Eq.2)のXの第1の要素を変換することによって、(Eq.6)のX’の第1の要素を生成する。
(Eq.6)のX’の第2の成分は、(Eq.2)のターゲットドメイン特徴ベクトルXの第2の成分と、(Eq.5)のターゲットドメイン角度変換ベクトルΘの第2の成分とを参照して、第2の角度変換部12bが生成した変換後の特徴値を示す。
第2の角度変換部12bは、X’の第2の構成要素が、あたかもIT1から抽出されたものであるかのように、(Eq.2)のXの第2の要素を変換することにより、(Eq.6)のX’の第2の要素を生成する。すなわち、第2の角度変換部12bは、X’の第2の要素が(Eq.2)のXの第1の要素に類似するように、(Eq.2)のXの第2の要素を変換することによって、(Eq.6)のX’の第2の要素を生成する。
同様にして、(Eq.6)の変換後のターゲットドメイン特徴ベクトルX’の第3の成分及び第4の成分は、当該X’の第3の成分及び第4の成分がそれぞれIT4及びIT3から抽出されたものであるかのように生成される。すなわち、(Eq.6)の変換後のターゲットドメイン特徴ベクトルX’の第3の要素及び第4の要素は、当該X’の第3の要素及び第4の要素がそれぞれ(Eq.2)のXの第4の要素及び第3の要素に類似するように生成される。
図7の中央は、第2の角度変換部12bによる角度変換を模式的に示している。上述したように、第2の角度変換部12bは、X’の第1、第2、第3、第4の成分がそれぞれXの第2、第1、第4、第3の成分に類似するようにX’を生成する。
なお、後述するように、第2の角度変換部12bの訓練が進むにつれて、ターゲットドメイン特徴値と対応する変換後のターゲットドメイン特徴値との類似度が高くなるようにしてもよい。
(第1のクラス予測部)
第1のクラス予測部13aは第1の特徴抽出部11aにより抽出されたソースドメイン特徴値と、第1の角度変換部12aにより生成された変換後のソースドメイン特徴値とから、ソースドメインクラス予測値を予測する。
具体的には、第1のクラス予測部13aは、第1の特徴抽出部11aにより抽出されたソースドメイン特徴値Xからソースドメインクラス予測値を予測し、第1の角度変換部12aにより生成された変換後のソースドメイン特徴値X’から、変換後の特徴値のソースドメインクラス予測値CPを予測する。
第1のクラス予測部13aにより出力されたソースドメインクラス予測値P及び変換後の特徴値のソースドメインクラス予測値CPは、分類損失計算部141に供給される。
なお、第1のクラス予測部13aの具体的な構成は、第2の例示的実施形態を限定しない。例えば、ソースドメイン特徴ベクトルXの各要素をある閾値と比較することでソースドメインクラス予測値Pの対応する要素を決定し、変換後のソースドメイン特徴ベクトルX’の各要素を別の閾値と比較することで変換後の特徴値のソースドメインクラス予測値CPの対応する要素を決定する構成を採用することができる。
具体例として、(Eq.1)に示すようなソースドメイン特徴ベクトルXと、(Eq.4)に示すような変換後のソースドメイン特徴ベクトルX’とから、第1のクラス予測部13aは、ソースドメインクラス予測値P、及び変換後の特徴値のソースドメインクラス予測値CPを次のように出力してもよい。
Figure 0007485226000007

ここで、Pは、特徴ベクトルXの各成分に対応する4つの成分を有する。同様に、CPは、変換された特徴ベクトルX’の各要素に対応する4つの要素を有する。予測値はベクトルとして表現され得るので、予測値は予測ベクトルとも呼ばれ得る。
(第2のクラス予測部)
第2のクラス予測部13bは、第2の特徴抽出部11bにより抽出されたターゲットドメイン特徴値Xからターゲットドメインクラス予測値Pを予測し、第2の角度変換部12bにより生成された変換後のターゲットドメイン特徴値X’から、変換後の特徴値のターゲットドメインクラス予測値CPを予測する。
第2のクラス予測部13bにより出力されたターゲットドメインクラス予測値P及び変換後の特徴値のターゲットドメインクラス予測値CPは、分類損失計算部141に供給される。
なお、第2のクラス予測部13bの具体的な構成は、第2の例示的実施形態を限定するものではない。例えば、ターゲットドメイン特徴ベクトルXの各要素をある閾値と比較することでターゲットドメインクラス予測値Pの対応する要素を決定し、変換後のターゲットドメイン特徴ベクトルX’の各要素を別の閾値と比較することで変換後の特徴値のターゲットドメインクラス予測値CPの対応する要素を決定する構成としてもよい。
具体例として、(Eq.2)に示すようなターゲットドメイン特徴ベクトルXと、(Eq.6)に示すような変換後のターゲットドメイン特徴ベクトルX’とから、第2のクラス予測部13bは、以下のように、ターゲットドメインクラス予測値Pと、変換後の特徴値のターゲットドメインクラス予測値量CPとを出力してもよい。
Figure 0007485226000008

ここで、Pは、特徴ベクトルXの各成分に対応する4つの成分を有する。同様に、CPは、変換された特徴ベクトルX’の各要素に対応する4つの要素を有する。
(分類損失計算部)
分類損失計算部141は、ソースドメインクラス予測値、及びソースドメインクラスラベルデータを参照して、ソースドメイン分類損失(loss_classification_S)を計算する。
より詳細には、分類損失計算部141は、ソースドメインクラス予測値P、変換された特徴値のソースドメインクラス予測値CP、及びソースドメインクラスラベルデータYを参照して、ソースドメイン分類損失(loss_classification_S)を計算する。
例えば、分類損失計算部141は、PとYとの不一致の度合い、及びCPとYとの不一致の度合いに応じて、ソースドメイン分類損失を計算する。
具体例として、(Eq.7)でPが与えられ、(Eq.9)でYが与えられた場合、
Figure 0007485226000009

分類損失計算部141は、以下のようにソースドメイン分類損失を計算する。Pの全ての要素がYの対応する要素と一致し、CPの全ての要素がYの対応する要素と一致するためである。
Figure 0007485226000010

また、分類損失計算部141は、ターゲットドメインクラス予測値及びターゲットドメインクラスラベルデータを参照して、ターゲットドメイン分類損失(loss_classification_T)を計算する。
具体的には、分類損失計算部141は、ターゲットドメインクラス予測値P、変換後の特徴値のターゲットドメインクラス予測値CP、及び、ターゲットドメインクラスラベルデータYを参照して、ターゲットドメイン分類損失(loss_classification_T)も計算する。
一例として、分類損失計算部141はPとYとの不一致の度合い、及びCPとYとの不一致の度合いに応じて、ターゲットドメイン分類損失を計算する。
具体例として、(Eq.8)でPが与えられ、(Eq.8.1)でCPが与えられ、(Eq.11)でYが与えられた場合
Figure 0007485226000011

分類損失計算部141は、以下のようにターゲットドメイン分類損失を計算する。Pの4番目の要素とYの4番目の要素とが一致せず、CPの1番目及び4番目の要素とYの対応する要素とが一致しないためである。
Figure 0007485226000012
(グルーピング部)
グルーピング部142は、ソースドメイン特徴値X、変換されたソースドメイン特徴値X’、ターゲットドメイン特徴値X、及び変換されたターゲットドメイン特徴値X’から、クラスグループを生成し出力する。ここで、各クラスグループは、同じクラスラベルを共有する特徴値を含む。
具体例として、(Eq.1)によりXが与えられ、(Eq.2)によりXが与えられ、(Eq.4)によりX’が与えられ、(Eq.6)によりX’が与えられた場合、グルーピング部142は、以下のクラスグループ(Gr0、Gr1)を出力する。
Figure 0007485226000013

ここで、Gr0は、同じクラスラベル0を共有する特徴値のクラスグループである。Gr1は、同じクラスラベル1を共有する特徴値のクラスグループである。
(グループ損失計算部)
グループ損失計算部143は、グルーピング部142が生成したクラスグループを参照して、グループ損失(loss_grouping)を計算する。
例えば、グループ損失計算部143は、(i)同一クラスの特徴値を参照して決定されたクラス内距離と、(ii)他クラスの特徴値を参照して決定されたクラス間距離とに基づいて、グループ損失を計算する。
具体例として、グループ損失計算部143は、以下の数式を用いてグループ損失を計算する。
Figure 0007485226000014
ここで、全てのソースドメイン特徴値と全てのターゲットドメイン特徴値との和集合における各特徴値xについて、その特徴値xの「特徴空間におけるクラス内距離の最大値(maximum of intra-class distance in the feature space)」を、特徴値xと同じクラスグループに由来する他の任意の特徴値との間の最大距離として計算し、「特徴空間におけるクラス間距離の最小値(minimum of inter-class distance in the feature space)」を、特徴値xとは異なるクラスグループに由来する他の任意の特徴値との間の最小距離として計算する。マージン(margin)は、特徴値の最小クラス間距離から特徴値の最大クラス内距離を差し引いた値の許容最小値を示す。以下、(特徴空間におけるクラス間距離の最大値-特徴空間におけるクラス間距離の最小値+マージン)によって特徴値ごとに計算される値を「個々のグループ損失(individual grouping loss)」と呼ぶ。全体的なグループ損失は、各ソースドメイン特徴値、及び各ターゲットドメイン特徴値に対する個々のグループ損失の平均として計算される。平均は、最初に、すべてのソースドメイン特徴値、及びすべてのターゲットドメイン特徴値についての個々のグループ損失の合計を計算し、次いで、その合計を、ソースドメイン特徴値の数とターゲットドメイン特徴値の数との和で除算することによって、計算される。
より具体的には、(Eq.14)によるグループ損失(Loss_grouping)の計算は次のように表すことができる。
グループ損失計算部143は、まず、特徴値xごとに、その特徴値xと同じクラスグループからの他の全ての特徴値のうち、特徴空間においてその特徴値xから最も遠い他の特徴値を求めてもよい。このタイプのペアは、クラス内ペアと呼ばれることがある。各特徴値のクラス内ペア間の距離は、(Eq.14)の「特徴空間におけるクラス内距離の最大値(maximum of intra-class distance in the feature space)」に相当する。
そして、グループ損失計算部143は、特徴値xごとに、その特徴値xとは異なるクラス群からの他の全ての特徴値のうち、特徴空間においてその特徴値xに最も近い他の特徴値を求めてもよい。このタイプのペアは、クラス間ペアと呼ばれることがある。各特徴値のクラス間ペア間の距離は、(Eq.10)の「特徴空間におけるクラス間距離の最小値(minimum of inter-class distance in the feature space)」に相当する。
そして、グループ損失計算部143は特徴値ごとに、(特徴空間におけるクラス間距離の最大値)から(特徴空間におけるクラス間距離の最小値)を減算してもよい。
そして、グループ損失計算部143は、マージンを加算してもよい。マージンを追加することは、(特徴空間におけるクラス間距離の最小値)よりも小さい(特徴空間におけるクラス間距離の最大値)量を少なくとも一定値にすることを意味する(例えば、マージン=1の場合、各特徴値について、(特徴空間におけるクラス間距離の最大値)が(特徴空間におけるクラス間距離の最小値)よりも少なくとも1単位小さいことを望む)。
以上の計算を特徴値毎に行った後、グループ損失計算部143は、XとXとの和集合に含まれる全ての特徴値の和を取り得る。
そして、グループ損失計算部143は、加算結果を、全ての特徴値の数で除算してもよい。全ての特徴値の数は、(Eq.14)においてnと表される。具体的な実施例として、(Eq.13)のクラスグループがある場合、n=16とすることができる。
(変換損失計算部)
変換損失計算部144は、ソースドメイン特徴値X、変換後のソースドメイン特徴値X’、ターゲットドメイン特徴値、及び変換後のターゲットドメイン特徴値X’を参照して、変換損失を計算する。
例えば、変換損失計算部144は、(i)ソースドメイン特徴値Xと、それに対応する変換後のソースドメイン特徴値X’との差分、及び(ii)ターゲットドメイン特徴値Xと、それに対応する変換後のターゲットドメイン特徴値X’との差分に基づいて、変換損失を計算してもよい。
具体例として、(EQ.1)でXが与えられ、(Eq.2)でXが与えられ、(Eq.4)でX’が与えられ、(Eq.6)でX’が与えられた場合、変換損失計算部144は、以下のように変換損失(loss_conversion)を計算してもよい。
Figure 0007485226000015
なお、上記の変換損失の表式は、第2の例示的実施形態を限定するものではない。例えば、変換損失は、ソースドメイン、及びターゲットドメインについて別々に取得され得る。
(マージ損失計算部)
マージ損失計算部145は、ソースドメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、及び変換損失(loss_conversion)を参照して、マージ損失(loss_merge)を計算する。
例えば、マージ損失計算部145は、以下のようにマージ損失を計算する。
Figure 0007485226000016
ここで、係数α、β、γ、δは、重み係数を表しているが、これらの具体的な値は第2の例示的実施形態を限定するものではない。
(モデル更新部146)
モデル更新部146は、マージ損失が収束したか否かを判定する。マージ損失が収束した場合、モデル更新部146は、収束したモデルパラメータを記録媒体に出力する。モデル更新部146は、マージ損失が収束していない場合、マージ損失計算部145が計算したマージ損失を参照して、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bのモデルパラメータを更新する。
例えば、モデル更新部146は、マージ損失が小さくなるようにモデルパラメータを更新する。なお、モデル更新部146が採用する更新方法は第2の例示的実施形態を限定するものではないが、モデル更新部146は逆伝播法(back propagation method)に従ってモデルパラメータを更新してもよい。
モデル更新部146により更新されたモデルパラメータは、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a及び第2のクラス予測部13bに供給される。
(有利な効果)
第2の例示的実施形態によれば、上述したように、モデル更新部146は、ソースドメイン分類損失、ターゲットドメイン分類損失、及び変換損失に加えて、グループ損失を参照してモデルパラメータを更新する。
したがって、第2の例示的実施形態によれば、特徴空間内のソースドメインの特徴、及びターゲットドメインの特徴が好適に互いに重複する一方で、異なるクラスに属する特徴が、クラスごとに好適に分離される。
図9は、第2の例示的実施形態によって達成されるクロスドメインアラインメント(cross domain alignment)を概略的に示す。訓練装置10aでは、グループ損失がマージ損失に含まれるため、訓練の進行に伴って、特徴空間において、ソースドメインの特徴とターゲットドメインの特徴とが好適に互いに重複するようになる一方で、図9に示すように、異なるクラスに属する特徴がクラス毎に好適に分離されるようになる。
すなわち、第2の例示的実施形態によれば、特徴空間におけるクロスドメインアラインメントが適切に実現される。
これにより、少量のターゲットドメインラベル付きデータしか利用できない場合であっても、第2の特徴抽出部11b及び第2のクラス予測部12bは適切に訓練される。
また、第2の例示的実施形態によれば、上述したように、第1の角度変換部12aは、変換後のソースドメイン特徴値X’が、入力されたソースドメイン画像データIとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値Xを変換することにより、当該変換後のソースドメイン特徴値X’を生成する。また、第2の角度変換部12bは、変換後のターゲットドメイン特徴値X’が、入力されたターゲットドメイン画像データIとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値Xを変換することにより、当該変換後のターゲットドメイン特徴値X’を生成する。そして、変換後のソースドメイン特徴値X’、及び変換後のターゲットドメイン特徴値X’は、それぞれ、第1のクラス予測部13a、及び第2のクラス予測部13bによって参照される。
したがって、第2の例示的実施形態によれば、第1のクラス予測部13a、及び第2のクラス予測部13bが、第1のクラス予測部13a、及び第2のクラス予測部13bが様々な撮影角度に対して適切なクラス予測を提供できるように、第1のクラス予測部13a、及び第2のクラス予測部13bは、訓練されることができる。
より詳細には、第2のクラス予測部13bが、当該第2のクラス予測部13bが訓練用画像データとは撮影角度が異なるラベルなし入力画像データに対して適切なクラス予測を行うことができるように、第2のクラス予測部13bは、訓練されることができる。
すなわち、第2の例示的実施形態によれば、訓練装置10aは、撮影アングルのばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供する。
(訓練装置による訓練方法)
以下、第2の例示的実施形態に係る訓練装置10aの訓練方法について、図10を用いて説明する。図10は、訓練装置10aによる訓練方法S1aの流れを示すフロー図である。
(ステップS100)
ステップS100において、訓練装置10aは、初期モデルパラメータを受信する。初期モデルパラメータには、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、第2のクラス予測部13bの初期モデルパラメータが含まれる。本ステップで受信された初期モデルパラメータは、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bに供給される。
(ステップS101a)
ステップS101aにおいて、訓練装置10aは、入力ソースドメインデータを受信する。より具体的には、訓練装置10aは、ソースドメイン画像データI、及び当該画像データIに関連付けられたソースドメインクラスラベルデータYを受信する。
(ステップS101b)
ステップS101bにおいて、訓練装置10aは、入力ターゲットドメインデータを受信する。具体的には、訓練装置10aは、ターゲットドメイン画像データI及び当該画像データIに関連付けられたターゲットドメインクラスラベルデータYを受信する。
(ステップS102a)
ステップS102aにおいて、第1の角度変換部12aは、ソースドメイン角度変換パラメータΘを受信する。
(ステップS102b)
ステップS102bにおいて、第2の角度変換部12bは、ターゲットドメイン角度変換パラメータΘを受信する。
(ステップS11a)
ステップS11aでは、第1の特徴抽出部11aがソースドメイン画像データIから特徴値Xを抽出する。なお、第1の特徴抽出部11aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS11b)
ステップS11bでは、第2の特徴抽出部11bがターゲットドメイン画像データIから特徴値Xを抽出する。なお、第2の特徴抽出部11bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS12a)
ステップS12aにおいて、第1の角度変換部12aは、変換されたソースドメイン特徴値X’が、入力されたソースドメイン画像データIとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、ソースドメイン特徴値Xを変換することによって、当該変換されたソースドメイン特徴値X’を生成する。なお、第1の角度変換部12aによる具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS12b)
ステップS12bにおいて、第2の角度変換部12bは、変換されたターゲットドメイン特徴値X’が、入力されたターゲットドメイン画像データIとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、ターゲットドメイン特徴値Xを変換することによって、当該変換されたターゲットドメイン特徴値X’を生成する。なお、第2の角度変換部12bによる具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップ工程S13a)
ステップS13aにおいて、第1のクラス予測部13aは、ソースドメイン特徴値Xからソースドメインクラス予測値Pを予測し、変換されたターゲットドメイン特徴値X’から、変換後のソースドメイン特徴値のソースドメインクラス予測値CPを予測する。なお、第1のクラス予測部13aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS13b)
ステップS13bにおいて、第2のクラス予測部13bは、ターゲットドメイン特徴値Xからターゲットドメインクラス予測値Pを予測し、変換後のターゲットドメイン特徴値X’から、変換後のターゲットドメイン特徴値のターゲットドメインクラス予測値CPを予測する。なお、第2のクラス予測部13bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS141)
ステップS141では、分類損失計算部141は、ソースドメインクラス予測値P、変換されたソースドメイン特徴値のソースドメインクラス予測値CP、及びソースドメインクラスラベルデータYを参照して、ソースドメイン分類損失(loss_classification_S)を計算する。また、分類損失計算部141は、ターゲットドメインクラス予測値P、変換されたターゲットドメイン特徴値のターゲットドメインクラス予測値CP、及びターゲットドメインクラスラベルデータYを参照して、ターゲットドメイン分類損失(loss_classification_T)を計算する。なお、分類損失計算部141が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS142)
ステップS142では、グルーピング部142が、ソースドメイン特徴値X、変換されたソースドメイン特徴値X’、ターゲットドメイン特徴値X、及び変換されたターゲットドメイン特徴値X’から、クラスグループ生成し出力する。ここで各々のクラスグループは、同じクラスラベルを共有する特徴値を含む。なお、グルーピング部142が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS143)
ステップS143において、グループ損失計算部143は、グルーピング部142が生成したクラスグループを参照して、グループ損失(loss_grouping)を計算する。なお、グループ損失計算部143が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS144)
ステップS144において、変換損失計算部144は、ソースドメイン特徴値X、変換後のソースドメイン特徴値X’、ターゲットドメイン特徴値X、及び変換後のターゲットドメイン特徴値X’を参照して、変換損失を計算する。なお、変換損失計算部144が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS145)
ステップS145において、マージ損失計算部145は、ソースドメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、及び変換損失(loss_conversion)を参照して、マージ損失(loss_merge)を計算する。なお、マージ損失計算部145が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS146)
ステップS146において、モデル更新部146は、マージ損失が収束したか否かを判定する。マージ損失が収束している場合(ステップS146でYES)、ステップS148に進む。マージ損失が収束していない場合(ステップS146でNO)、ステップS147に進む。
(ステップS147)
ステップS147において、モデル更新部146は、マージ損失計算部145が計算したマージ損失を参照して、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bのモデルパラメータを更新する。
(ステップS148)
ステップS148において、モデル更新部146は、マージ損失計算部145が計算したマージ損失を参照して、第1の特徴抽出部11a、第2の特徴抽出部11b、第1の角度変換部12a、第2の角度変換部12b、第1のクラス予測部13a、及び第2のクラス予測部13bのモデルパラメータを記録媒体に記録する。
なお、訓練方法S1aにおけるステップの順序は、第2の例示的実施形態を限定するものではない。例えば、訓練方法S1aでは、ステップS141、(S142、S143)、S144は任意の順序で実行することができる。
(有利な効果)
以上説明した訓練装置10aによる訓練方法S1aは、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供する。
(分類装置の構成)
次に、第2の例示的実施形態に係る分類装置20aの構成について、図11を用いて説明する。図11は、分類装置20aの構成を示すブロック図である。図11に示すように、分類装置20aは、特徴抽出部11bと、角度変換部12bと、クラス予測部13bとを備える。ここで、特徴抽出部11bは上述した第2の特徴抽出部11bと同様に構成され、角度変換部12bは上述した第2の角度変換部12bと同様に構成され、クラス予測部13bは上述した第2のクラス予測部13bと同様に構成される。
分類装置20aによれば、角度変換部12bは、特徴抽出部11bにより抽出された特徴値を、変換後の特徴値が入力画像データとは異なる角度を有する画像データから抽出されたものであるかのように変換することにより、当該変換後の特徴値を生成する。
そのため、第2の例示的実施形態に係る分類装置は、撮影角度のばらつきが限定された訓練用画像しか利用できない場合であっても、様々な撮影角度の入力画像に対して適切なクラス予測を行うことができる。
具体的には、一例として、分類装置20aは、第1の例示的実施形態で説明したように、ユーザ入力受付部を備えてもよい。この構成では、ユーザが角度変換部12bを分類装置20aで使用するか使用しないかを選択することができる。角度変換部12bを使用しない場合、特徴抽出部11bによって提供される特徴値はクラス予測部13bに直接的に供給される(そして、クラス予測部は、変換された未知の角度特徴についてのCPとYとの間の値も比較する分類損失を用いて訓練されているので、正確な予測が依然としてなされ得る。すなわち、予測部は、未知の入力データが見えるように、変換された特徴を用いて訓練されている。ここで、「未知(unseen)」とはテスト用セットの角度が訓練セットと異なっていることを意味する)。角度変換部を使用する場合、使用例として以下が挙げられる。ユーザが+0度の回転を表す角度変換パラメータを与え、これにより、ユーザは同じ入力テスト画像の2つの予測を得ることができ、一方は画像から直接的に抽出された元の特徴から予測され、他方は元の特徴を0度回転させることによって生成された変換された特徴から予測される。ここで、ユーザは2つの予測に基づいて、より良い判断を行うことができる。2つのクラスがあるとしよう。元の特徴からの予測は、当該特徴がクラス0に属する信頼度として0.4、クラス1に属する信頼度として0.6を有し、変換された特徴からの予測は、当該特徴がクラス0に属する信頼度として0.8、クラス1に属する信頼度として0.2を有するとする(この具体例では、元の特徴と変換された特徴とはクラスラベル上で互いに不一致である)。最も高い信頼度は、変換された特徴(それがクラス0に属することは0.8である)からの予測によって与えられ、したがって、予測部は、ラベル0をこのテスト画像に付与する。角度変換部12bを使用することによって、ユーザは追加の特徴を取得し、最終的な決定を行うことを支援する追加の予測を行うことができる。ユーザは、[+0、+20、-10など]のような2つ以上の変換パラメータを与え、変換された特徴の複数の予測を得ることができることに留意されたい。また、最終決定がどのようになされるかは、変化し得る。上記の例では、最高信頼度のクラスラベルが最終アウトプットとして選択される。ユーザはすべての信頼度の総和をとり、最も高い信頼度を出力してもよい。例えば、元の特徴に対する予測は[0.4、0.6]であり、変換された特徴に対する予測は[0.8、0.2]であり、合計を取ることによって、総信頼度は[1.2、0.8]であり、クラス0はより高い総信頼度スコアを受け取り、したがって、出力はラベル0となる。
(第2の例示的実施形態における留意点)
(備考1:特徴抽出部について)
例示的構成において、第1の特徴抽出部11aと第2の特徴抽出部11bとは、完全に独立していてもよい。すなわち、第1の特徴抽出部11aと第2の特徴抽出部11bとは、モデルパラメータも層も共有しない構成としてもよい。
別の例示的構成では、第1の特徴抽出部11a、及び第2の特徴抽出部11bはモデルパラメータのうちの1つまたはいくつかを共有しもてよい。すなわち、第1の特徴抽出部11aと第2の特徴抽出部11bとは、いずれかの層(layer)を共有していてもよい。
例えば、第1の特徴抽出部11a及び第2の特徴抽出部11bは、辺、角等の低レベル特徴が抽出される最初の幾つかの層を共有してもよい。あるいは、第1の特徴抽出部11aと第2の特徴抽出部11bとは、上位の特徴や意味論的な意味などの抽象的な特徴が抽出される最後の幾つかの層を共有してもよい。
なお、別の例示的構成では、第1の特徴抽出部11a、及び第2の特徴抽出部11bがモデルパラメータのすべてを共有してもよい。すなわち、第1の特徴抽出部11a及び第2の特徴抽出部11bは、全ての層を共有していてもよい。
(備考2:クラス予測部について)
例示的構成において、第1のクラス予測部13aと第2のクラス予測部13bとは、完全に独立していてもよい。すなわち、第1のクラス予測部13a、及び第2のクラス予測部13bは、モデルパラメータ、及び層を共用しない構成としてもよい。
別の例示的構成では、第1のクラス予測部13a、及び第2のクラス予測部13bはモデルパラメータのうちの1つ、またはいくつかを共有してもよい。すなわち、第1のクラス予測部13a、及び第2のクラス予測部13bは、1つ、またはいくつかの層を共有してもよい。
更に別の例示的構成では、第1のクラス予測部13a、及び第2のクラス予測部13bは、すべてのモデルパラメータを共有してもよい。すなわち、第1のクラス予測部13a、及び第2のクラス予測部13bは、全ての層を共有してもよい。
(備考3:角度変換部について)
例示的構成では、第1の角度変換部12a、及び第2の角度変換部12bは互いに完全に独立していてもよい。すなわち、第1の角度変換部12aと第2の角度変換部12bとは、モデルパラメータも層も共有しない構成としてもよい。
別の例示的構成では、第1の角度変換部12a、及び第2の角度変換部は、モデルパラメータのうちの1つ、またはいくつかを共有してもよい。すなわち、第1の角度変換部12a、及び第2の角度変換部12bは、モデルパラメータまたは層のうちの1つ、またはいくつかを共有してもよい。
さらに別の例示的構成では、第1の角度変換部12a、及び第2の角度変換部は、モデルパラメータのすべてを共有してもよい。すなわち、第1の角度変換部12a及び第2の角度変換部12bは、全ての層を共有してもよい。
図12は、第1の角度変換部12aと第2の角度変換部12bとが、少なくとも1つ、またはいくつかのモデルパラメータを共有する構成の効果を模式的に示している。
この構成では、第1の角度変換部12a、及び第2の角度変換部12bは、ラベル付けされたソースドメインデータを使用して訓練され得、第2の角度変換部12bは、ソースドメインから学習された知見をターゲットドメインに適用する。したがって、この構成によれば、第1の角度変換部12aと第2の角度変換部12bとが完全に独立している場合に比べて、第2の角度変換部12bは、より効率的に訓練されることができる。
(備考4:グループ損失について)
グループ損失の計算は、クラスグループ内の2つの特徴間の距離または類似性を計算するための任意の方法によって達成され得る。グループ損失は、L1ノルム、L2ノルム、コサイン類似性、または学習などを必要とする何らかの他の尺度であってもよい。
また、グループ損失計算部143は、グループ損失を計算した後、当該グループ損失が[0,1]以内等のより安全な範囲に再スケーリングされるようにグループ損失を再スケーリングする等の何らかの後処理操作を行ってもよい。具体例として、グループ損失計算部143はグループ損失(loss_grouping_pp)を以下のように再スケーリングすることにより、後処理されたグループ損失(loss_grouping_pp)を計算してもよい。
Figure 0007485226000017
この再スケーリングは、以下の問題に鑑みて行われる。すなわち、高品質の特徴の場合であっても、損失が計算される距離は依然として非常に大きくなり得、これは大きな損失をもたらす。安全な範囲内でグループ損失を再スケーリングするには、単純なクリッピング(loss_grouping>1の場合に、1を返し(return)、それ以外の場合には、loss_groupingを返す)、または重みλ(λloss_grouping)を使用した単純な線形再ウェイト付け(λloss_grouping)、またはより複雑な方法など、さまざまな方法がある。
なお、上記のグループ損失の表現は、第2の例示的実施形態を限定するものではない。例えば、グループ損失は、実際の特徴、及び変換された特徴について別々に取得され得る。ここで、「実際(real)」とは角度変換部12a、12bを介さない実際の特徴値を参照して計算されるグループ損失を指し、「変換された(converted)」とは実際の特徴値を入力として角度変換部12a、12bが生成する変換後の特徴値を参照して計算されるグループ損失を指す。
すなわち、グループ損失計算部143はXとXとの和集合(実際の特徴のみを含む)からの特徴に基づいて、実際の特徴のグループ損失を計算し、X’とX’との和集合(変換特徴のみを含む)からの特徴に基づいて、変換された特徴のグループ損失を計算してもよい。
あるいは、グループ損失は、望ましくない特徴が特定の条件に基づいてフィルタリングされた後に計算されてもよい。当該条件は、第1のクラス予測部13a、及び第2のクラス予測部13bが与える予測の正しさ、または第1のクラス予測部13a、及び第2のクラス予測部13bが与える予測の信頼度に依存する構成としてもよい。
(備考5:マージ損失について)
マージ損失は、ソースドメイン分類損失値(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、変換損失(loss_conversion)、及びグループ損失(loss_grouping)などのすべてのサブタスク損失の直接和であり得るか、またはサブタスク損失の加重和であり得る。
和における重みは、訓練の進行に従って変化し得る(例えば、初期の訓練反復において、分類損失の重みを高くし、次いで、訓練反復の数が増加することにつれて、重みが減衰する)。重みは、学習を必要とする重量であってもよい。
<第3の例示的実施形態>
以下、本発明の第3の例示的実施形態について、図面を用いて詳しく説明する。なお、上記例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明は適宜省略する。さらに、第3の例示的実施形態の概要は、前述の例示的実施形態の概要と同じであるので、ここでは説明しない。
(訓練装置の構成)
以下、第3の例示的実施形態に係る訓練装置10bの構成について、図13を用いて説明する。図13は、訓練装置10bの構成を示すブロック図である。図13に示すように、訓練装置10bは、第2の例示的実施形態に係る訓練装置10aに含まれる構成要素に加えて、ドメイン判別部15と、ドメイン損失計算部16とを備える。
(ドメイン判別部)
ドメイン判別部15は、ターゲットドメインをソースドメインから判別する判別処理を行う。すなわち、ドメイン判別部15は、特徴がソースドメインからのものであるか、ターゲットドメインからのものであるかを示すドメイン予測を行う。
例えば、ドメイン判別部15は、以下の処理を行う。ドメイン判別部15は、第1の特徴抽出部11aにより抽出されたソースドメイン特徴値Xと、第2の特徴抽出部11bにより抽出されたターゲットドメイン特徴値Xとを受け取る。そして、ドメイン判別部15は、当該特徴がどのドメインに属するかを示す情報を参照せずに、ソースドメイン特徴値Xとターゲットドメイン特徴値Xとを判別する判別処理を行う。そして、ドメイン判別部15は、判別処理の結果を出力する。
具体例として、(Eq.1)により特徴値Xが与えられた場合、ドメイン判別部15は、特徴値Xの判別処理の結果DPを次のように出力してもよい。
Figure 0007485226000018
また、具体例として、(Eq.2)により特徴値Xが与えられた場合、ドメイン判別部15は、特徴値Xの判別処理の結果DPを次のように出力してもよい。
Figure 0007485226000019
(ドメイン損失計算部)
ドメイン損失計算部16は、ドメイン判別部15による判別処理の結果を参照して、ドメイン判別損失を計算して出力する。ドメイン判別損失は、単にドメイン損失と呼ばれることもある。
例えば、ドメイン損失計算部16は、(i)ソースドメインのグランドトゥルースドメインラベルを示すソースドメインラベルデータDと、(ii)ターゲットドメインのグランドトゥルースドメインラベルを示すターゲットドメインラベルデータDとを受信する。具体例として、ソースドメインラベルデータD及びターゲットドメインラベルデータDは、以下のように表されてもよい。
Figure 0007485226000020

Figure 0007485226000021
ドメイン損失計算部16は、(i)DPとDとの不一致の度合い、(ii)DPとDとの不一致の度合いに応じて、ドメイン損失を計算する。
具体例として、(Eq.18)でDPが与えられ、(Eq.20)でDが与えられ、(Eq.19)でDPが与えられ、(Eq.21)でDが与えられた場合、ドメイン損失計算部16は以下のようにドメイン消失(loss_domain)を計算する。DPの2つの要素がDの対応する要素と異なり、DPの1つの要素がDの対応する要素と異なるためである。
Figure 0007485226000022
(マージ損失計算部)
第3の例示的実施形態に係るマージ損失計算部145は、ソースメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、変換損失(loss_conversion)、及びドメイン損失(loss_domain)を参照して、マージ損失(loss_merge)を計算する。
例えば、第3の例示的実施形態に係るマージ損失計算部145は、マージ損失を以下のように計算する。
Figure 0007485226000023
ここで、係数α、β、γ、δ、τは、重み係数を表しており、それらの具体的な値は第3の例示的実施形態を限定するものではない。ドメイン損失の前の符号はマイナスであることに留意されたい。これは、抽出された特徴がドメイン判別部による結果の正確性を低下させるように、モデル更新部146が、第1の特徴抽出部11a及び第2の特徴抽出部11bのモデルパラメータを更新することを意味する。すなわち、モデル更新部146は抽出された特徴がドメイン判別部15を混乱させるように、第1の特徴抽出部11a及び第2の特徴抽出部11bのモデルパラメータを更新する。なお、モデル更新部146は、上述したマージ損失を参照して、ドメイン判別部15を更新してもよい。
(訓練装置による訓練)
訓練の観点から、訓練装置10bは以下の処理を行う。第1に、訓練装置10bは、ドメイン判別部15を訓練して、ドメイン判別部15が、特徴がソースドメインからのものか、ターゲットドメインからのものかを判別できるようにする。第2に、訓練装置10bは、第1の特徴抽出部11a及び第2の特徴抽出部11bを訓練して、第1の特徴抽出部11a及び第2の特徴抽出部11bが、訓練されたドメイン判別部15を混乱させ得る特徴を抽出できるようにする。
上記の処理を反復することによって、訓練装置10bは、十分に訓練されたドメイン判別部15が、特徴がソースドメインからのものであるか、ターゲットドメインからのものであるかを判別することができない状況を達成することができる。これは、特徴が非常に良好なドメイン混同特性、すなわちドメイン不変性(domain invariant property)を有することを意味する。
図14は、第1の特徴抽出部11a及び第2の特徴抽出部11bが訓練装置10bによる学習によりドメイン不変性を実現する過程を模式的に示す図である。図14に見られるように、訓練の初期の特徴空間に別々に存在する特徴は、訓練の後期の特徴空間では別々には存在しない。このように、ドメイン不変性は、訓練装置10bによって実行される訓練によって達成される。
(有利な効果)
以上説明したように、第3の例示的実施形態によれば、訓練装置10bは、抽出された特徴X及びXのドメイン不変性を実現することができる。これは、好ましいターゲットドメインの特性をもたらす。
したがって、第3の例示的実施形態によれば、訓練装置10bは、少量のターゲットドメインラベルデータしか利用できない場合であっても、効率的で安定した訓練プロセスを提供する。
(訓練装置による訓練方法)
以下、第3の例示的実施形態に係る訓練装置10bの訓練方法について、図15を用いて説明する。図15は、訓練装置10bによる訓練方法S1bの流れを示すフロー図である。
図15に示すように、第3の例示的実施形態に係る訓練方法S1bは、第2の例示的実施形態に係る訓練方法S1aに含まれる各ステップに加えて、ステップS15及びステップS16をさらに含む。以下では、第3の例示的実施形態に係る訓練方法S1bと、第2の例示的実施形態に係る訓練方法S1aとの相違点についてのみ説明する。
(ステップS15)
ステップS15において、ドメイン判別部15は、ターゲットドメインをソースドメインから判別するドメイン判別処理を行う。ドメイン判別部15が行う具体的な処理については、上述したので、ここでは繰り返さない。
(ステップS16)
ステップS16において、ドメイン損失計算部16は、ドメイン判別部15による判別処理の結果を参照して、ドメイン判別損失を計算して出力する。ドメイン損失計算部16が行う具体的な処理については、上述したので、ここでは繰り返さない。
(ステップS145)
ステップS145では、第3の例示的実施形態に係るマージ損失計算部145が(i)ソースドメイン分類損失(loss_classification_S)、(ii)ターゲットドメイン分類損失(loss_classification_T)、(iii)グループ損失(loss_grouping)、(iv)変換損失(loss_conversion)、(v)ドメイン損失(loss_domain)を参照して、マージ損失(loss_merge)を計算する。なお、マージ損失計算部145が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
なお、訓練方法S1bにおけるステップの順序は、第3の例示的実施形態を限定するものではない。例えば、訓練方法S1bにおいて、ステップS141、(S142、S143)、及びS144は、任意の順序で実行することができる。
(有利な効果)
第3の例示的実施形態によれば、訓練方法S1bは、ターゲットドメインラベルデータが少量の場合であっても、効率的で安定した訓練プロセスを提供する。
(分類装置の構成)
以下、第3の例示的実施形態に係る分類装置の構成について説明する。第3の例示的実施形態に係る分類装置20aは、図11に示す分類装置20aと同様の構成を有する。
第3の例示的実施形態によれば、訓練装置10bは、抽出された特徴X、及びXのドメイン不変性を達成する。これにより、第3の例示的実施形態に係る分類装置においても、好適なターゲットドメインの特性を得ることができる。
したがって、第3の例示的実施形態に係る分類装置20aは、ターゲットドメインラベルデータが少量の場合であっても、好適な分類プロセスを提供する。
(第3の例示的実施形態における留意点)
ドメイン損失を計算するために、クラスラベルは必要としない。したがって、訓練装置10bは、ラベル付けされたターゲットドメインデータのみを使用する代わりに、(クラスラベルの意味で)ラベル付けされていないターゲットデータを使用してもよい。データがターゲットデータセットからのものである限り、訓練装置10bは、データのドメインラベルがターゲットであることを知ることができる。
(クラスラベルの意味で)ラベル付けされていないターゲットデータを含めることによって、上述のドメイン不変性をより一般化することができる。特徴は、ラベルデータのすべての部分に対してドメイン不変であるだけでなく、ラベル付けされていないターゲットデータのすべての部分に対してドメイン不変でありえる。
(クラスラベルの意味で)ラベル付けされていないターゲットデータを使用する上記の構成は、限られた量のクラスラベル付けされたターゲットデータしか利用できない場合であっても、ドメイン不変性性を適切に達成し得る。
<第4の例示的実施形態>
以下、本発明の第4の例示的実施形態について、図面を用いて詳しく説明する。なお、上記例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明は適宜省略する。さらに、第4の例示的実施形態の概要は、前述の例示的実施形態の概要と同じであるので、ここでは説明しない。
(訓練装置の構成)
以下、第4の例示的実施形態に係る訓練装置10cの構成について、図16を用いて説明する。図16は、訓練装置10cの構成を示す図である。図16に示すように、訓練装置10cは、第2の例示的実施形態に係る訓練装置10aが備える構成要素に加えて、第1の補助タスク解決部17a、第2の補助タスク解決部17b、第1の補助損失計算部18a、及び第2の補助損失計算部18bを備える。
第1の補助タスク解決部17aと第2の補助タスク解決部17bとは、単一の部分(section)として構成することができる。第1の補助損失計算部18aと第2の補助損失計算部18bとは、単一の部分(section)として構成することができる。
第1の補助タスク解決部17a、第2の補助タスク解決部17b、第1の補助損失計算部18a、及び第2の補助損失計算部18bは、以下に説明する例示的構成を有する。
(第1の例示的構成)
第1の例示的例示的では、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、特許請求の範囲に記載の1または複数の角度予測手段の一例である。第1の補助損失計算部18a、及び第2の補助損失計算部18bは、特許請求の範囲に記載の1または複数の角度予測損失計算手段の一例である。
第1の補助タスク解決部17aは、ソースドメイン特徴値Xと、変換後のソースドメイン特徴値X’とから、ソースドメイン角度予測値を予測する。
具体的には、0~359度が複数のビン(bin)に分割される。例えば、0~359度が36のビンに分割される(10度が1のビンと見なされる)。ある画像が5度の角度を有する場合、当該画像は第1のビンに入る。ある画像が247度の角度を有する場合、当該画像は、25番目のビン((247//10)+1)に入る。
より具体的には、ソースドメイン画像データI及びソースドメイン角度変換パラメータΘが以下のように与えられる例を挙げることができる。
Figure 0007485226000024

Figure 0007485226000025
具体的例として、第1の補助タスク解決部17aはソースドメインの特徴値X及び変換されたソースドメインの特徴値X’から、ソースドメイン角度予測値P’を以下のように予測してもよい。
Figure 0007485226000026
ここで、ソースドメイン角度予測値P’は、誤って予測された値を含むことに留意されたい。予測が正しく実行されると、第4の要素は28であるべきであるためである。
第1の補助損失計算部18aは、ソースドメイン角度予測値P’を参照してソースドメイン角度予測損失を出力する。また、第1の補助損失計算部18aはソースドメイン角度予測損失を出力する際に、ソースドメイン補助ラベルデータY’を参照してもよい。
より具体的には、第1の補助損失計算部18aは、グランドトゥルースラベルデータであるソースドメイン補助ラベルデータY’を参照してもよい。具体例として、ソースドメイン補助ラベルデータY’は、次のように与えられる。
Figure 0007485226000027
(Eq.26)でソースドメイン角度予測値P’が与えられ、(Eq.27)でソースドメイン補助ラベルデータY’が与えられた場合、第1の補助損失計算部18aは、ソースドメイン角度予測損失loss_angle_prediction_S)を次のように出力する。
Figure 0007485226000028
同様に、第2の補助タスク解決部17bは、ターゲットドメイン特徴値Xと、変換後のターゲットドメイン特徴値X’とから、ターゲットドメイン角度予測値を予測する。
第2の補助損失計算部18bは、ターゲットドメイン角度予測値P’を参照して、ターゲットドメイン角度予測損失(loss_angle_prediction_T)を出力する。また、第2の補助損失計算部18bは、ターゲットドメイン角度予測損失を出力する際に、ターゲットドメイン角度ラベルデータを参照してもよい。
マージ損失計算部145は、ソースドメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、変換損失(loss_conversion)、ソースドメイン角度予測損失loss_angle_prediction_S)、及びターゲットドメイン角度予測損失loss_angle_prediction_T)のうちの少なくとも1つを参照して、マージ損失(loss_merge)を計算する。
例えば、マージ損失計算部145は、マージ損失を以下のように計算してもよい。
Figure 0007485226000029
ここで、係数α、β、γ、δ、η、ξは、重み係数を表しているが、それらの具体的な値は第4の例示的実施形態を限定するものではない。なお、この第1の例示的構成において、モデル更新部146は、上述したマージ損失を参照して、第1の補助更新部17a(角度予測手段)及び第2の補助更新部17b(角度予測手段)を更新してもよい。
(有利な効果)
第1の補助タスク解決部17a、第2の補助タスク解決部17b、第1の補助損失計算部18a、第2の補助損失計算部18bがない場合、訓練装置は、以下のような状況を引き起こす可能性がある。
正しい変換関数を学習する代わりに、第1の角度変換部12aは、当該第1の角度変換部12aがアイデンティティマッピング(恒等写像)のみを学習するように、第1の特徴抽出部11aに角度不変な特徴を提供するように強制し得る。また、正しい変換関数を学習する代わりに、第2の角度変換部12bは、当該第2の角度変換部12bがアイデンティティマッピング(恒等写像)のみを学習するように、第2の特徴抽出部11bに角度不変な特徴を提供するように強制し得る。
このような状況は、第1の角度変換部12a及び第2の角度変換部12bのメリットを弱める可能性があるため、好ましくない。これにより、第1のクラス予測部13a及び第2のクラス予測部13bによる予測の精度が低下するおそれがある。
第1の例示的構成によれば、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、それぞれ第1の角度変換部12a、及び第2の角度変換部12bによる適切な角度変換を保証することができる。これにより、第1のクラス予測部13a、及び第2のクラス予測部13bによる予測の精度が確保される。
(第2の例示的構成)
第2の例示的構成では、第1の補助タスク解決部17aは、ソースドメイン角度予測値を正弦値、及び余弦値として出力するように構成され得る。
より具体的には、ソースドメイン画像データI及びソースドメイン角度変換パラメータΘがそれぞれ(Eq.24)及び式(Eq.25)で与えられるとき、第1の補助タスク解決部17aはソースドメイン特徴値X及び変換されたソースドメイン特徴値X’から、ソースドメイン角度予測値P’を以下のように予測してもよい。
Figure 0007485226000030
具体例として、ソースドメイン補助ラベルデータY’は、以下のように対応して与えられてもよい。
Figure 0007485226000031
第1の補助損失計算部18aは、(Eq.30)でソースドメイン角度予測値P’が与えられ、(Eq.31)でソースドメイン補助ラベルデータY’が与えられた場合、ソースドメイン角度予測損失loss_angle_prediction_S)を次のようにしてもよい。
Figure 0007485226000032
なお、第2の補助タスク解決部17b、及び第2の補助損失計算部18bについても、同様の構成を適用することができる。
第2の例示的構成によれば、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、それぞれ第1の角度変換部12a、及び第2の角度変換部12bによる適切な角度変換を確保することができる。これにより、第1のクラス予測部13a、及び第2のクラス予測部13bによる予測の精度が確保される。
(第3の例示的構成)
第3の例示的構成において、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、特許請求の範囲に記載の「1または複数の画像再構成手段」の一例である。第1の補助損失計算部18a、及び第2の補助損失計算部18bは、特許請求の範囲に記載の「1または複数の再構成損失計算手段」の一例である。
第1の補助タスク解決部17aは、ソースドメイン特徴値X及び変換されたソースドメイン特徴値X’からソースドメイン再構成画像を生成することができる。
具体例として、図17の左上に示すように、角度0度、角度30度の入力ソースドメイン画像データIが与えられると、第1の補助タスク解決部17aは、ソースドメイン特徴値X及び変換されたソースドメイン特徴値X’から、図17の右上に示すように、角度0度、角度30度、角度60度、角度90度のソースドメイン再構成画像を生成してもよい。
第1の補助損失計算部18aは、ソースドメイン再構成画像を参照して、ソースドメイン再構成損失を出力する。また、第1の補助損失計算部18aはソースドメイン再構成損失を出力する際に、ソースドメイン入力画像データを参照してもよい。
具体的には、第1の補助損失計算部18aは、ソースドメイン再構成画像とグランドトゥルースラベルデータである補助ラベルデータとを参照して、ソースドメイン再構成損失を出力する。
具体例として、(i)図17の右上に示されるような再構成画像、及び(ii)図17の左下に示されるような補助ラベルデータが与えられると仮定する。第1の補助損失計算部18aは、図17の右下に模式的に示すソースドメイン再構成画像と補助ラベルデータとの差分を計算することにより、ソースドメイン再構成損失(loss_reconstruction_S)を出力する。
同様に、第2の補助タスク解決部17bは、ターゲットドメイン特徴値Xと変換後のターゲットドメイン特徴値X’とから、ターゲットドメイン再構成画像を生成してもよい。
第2の補助損失計算部18bは、ターゲットドメイン再構成画像を参照して、ターゲットドメイン再構成損失(loss_reconstruction_T)を出力する。なお、第2の補助損失計算部18bは、ターゲットドメイン再構成損失を出力する際に、ターゲットドメイン入力画像データを参照してもよい。
マージ損失計算部145は、ソースドメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、変換損失(loss_conversion)、ソースドメイン再構成損失(loss_reconstruction_S)、及びターゲットドメイン再構成損失(loss_reconstruction_T)のうちの少なくとも1つを参照して、マージ損失(loss_merge)を計算する。
例えば、マージ損失計算部145は、以下のようにマージ損失を計算してもよい。
Figure 0007485226000033
ここで、係数α、β、γ、δ、η’、ξ’は、重み係数を表しており、それらの具体的な値は第4の例示的実施形態を限定するものではない。なお、この第3の例示的構成において、モデル更新部146は、上述したマージ損失を参照して、第1の補助更新部17a(再構成手段)及び第2の補助更新部17b(再構成手段)を更新してもよい。
第3の例示的構成によれば、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、それぞれ第1の角度変換部12a、及び第2の角度変換部12bによる適切な角度変換を確保することができる。これにより、第1のクラス予測部13a、及び第2のクラス予測部13bによる予測の精度が確保される。
(第4の例示的構成)
第4の例示的構成では、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、特許請求の範囲に記載の「1または複数の角度変換判別手段」の一例である。第1の補助損失計算部18a及び第2の補助損失計算部18bは、特許請求の範囲に記載の「1または複数の変換判別損失計算手段」の実施例である。
また、第1の補助タスク解決部17aは、変換後のソースドメイン特徴値X’からソースドメイン特徴値Xを判別する第1の変換判別処理を行ってもよい。
第1の補助損失計算部18aは、第1の変換判別処理の結果を参照して、ソースドメイン変換判別損失を出力してもよい。
具体的には、第1の補助損失計算部18aは、第1の変換判別処理の結果と、グランドトゥルースラベルデータである変換ラベルデータとを参照して、ソースドメイン変換判別損失を出力してもよい。
具体例として、第1の補助タスク解決部17aは、変換されたソースドメイン特徴値X’から、ソースドメイン特徴値Xを判別する第1の変換判別処理を行い、当該第1の変換判別処理の結果として、ソースドメイン変換判別予測値P’を出力してもよい。
Figure 0007485226000034
具体例として、ソースドメイン補助ラベルデータY’が、以下のように対応して与えられてもよい。
Figure 0007485226000035
(Eq.34)でソースドメイン変換判別予測値P’が与えられ、(Eq.35)でソースドメイン補助ラベルデータY’が与えられた場合、第1の補助損失計算部18aは、次のようにソースドメイン変換判別損失値(loss_conversion _discrimination_S)を出力する。
Figure 0007485226000036
第2の補助タスク解決部17bは、変換後のターゲットドメイン特徴値からターゲットドメイン特徴値を判別する第2の変換判別処理を行ってもよい。
第2の補助損失計算部18bは、第2の変換判別処理の結果として、ターゲットドメイン変換判別損失(loss_conversion_T)を出力してもよい。
マージ損失計算部145は、ソースドメイン分類損失(loss_classification_S)、ターゲットドメイン分類損失(loss_classification_T)、グループ損失(loss_grouping)、変換損失(loss_conversion)、ソースドメイン変換判別損失(loss_conversion _discrimination_S)、ターゲットドメイン変換判別損失(loss_conversion_T)のうちの少なくとも1つを参照して、マージ損失(loss_merge)を計算する。
例えば、マージ損失計算部145は、以下のようにマージ損失を計算してもよい。
Figure 0007485226000037
ここで、係数α、β、γ、δ、τ’、τ’’は、重み係数を表しており、それらの具体的な値は第4の例示的実施形態を限定するものではない。なお、ソースドメイン変換判別損失の前の符号はマイナスである。つまり、モデル更新部146は、変換後のソースドメイン特徴値X’が第1の補助タスク解決部17aによる変換判別結果の精度を低下させ得るように、第1の特徴抽出部11a、第1の角度変換部12a、及び第1の補助タスク解決部17aのモデルパラメータを更新する。すなわち、モデル更新部146は、変換された特徴X’が第1の補助タスク解決部17aを混乱させ得るように、第1の特徴抽出部11a、第1の角度変換部12a及び第1の補助タスク解決部17aのモデルパラメータを更新する。
また、ターゲットドメイン変換判別損失の前の符号はマイナスであることに留意されたい。つまり、モデル更新部146は、ターゲットドメイン変換特徴X’が第2の補助タスク解決部17bによる変換判別結果の精度を低下させ得るように、第2の特徴抽出部11b、第2の角度変換部12b及び第2の補助タスク解決部17bのモデルパラメータを更新する。すなわち、モデル更新部146は変換された特徴X’が第2の補助タスク解決部17bを混乱させ得るように、第2の特徴抽出部11b、第2の角度変換部12b、及び第2の補助タスク解決部17bのモデルパラメータを更新する。
(有利な効果)
第1の補助タスク解決部17a、第2の補助タスク解決部17b、第1の補助損失計算部18a、第2の補助損失計算部18bがない場合、訓練装置は、以下のような状況を引き起こす可能性がある。
変換されたターゲット特徴X’は、ソースドメイン特徴X’、及び、ターゲットドメイン特徴X’のいずれのようにも見えないことがある。これは、第1の角度変換部12a、及び第2の角度変換部12bの変換関数は、主にソースドメインから学習される一方で、角度変換部12a、及び12bが重みを共有するときには、ターゲットドメイン特徴に適用されるためである。
第1のクラス予測部13a及び第2のクラス予測部13bによる予測の精度を低下させる可能性があるため、このような状況は、好ましくない。
第4の例示的実施形態によれば、第1の補助タスク解決部17a、及び第2の補助タスク解決部17bは、それぞれ第1の角度変換部12a、及び第2の角度変換部12bによる適切な角度変換を保証することができる。これにより、第1のクラス予測部13a、及び第2のクラス予測部13bによる予測の精度が確保される。
(訓練装置による訓練方法)
以下、第4の例示的実施形態に係る訓練装置10cの訓練方法について、図18を用いて説明する。図18は、訓練装置10cによる訓練方法S1cの流れを示すフロー図である。
図18に示すように、第4の例示的実施形態に係る訓練方法S1cは、第2の例示的実施形態に係る訓練方法S1aに含まれる各ステップに加えて、ステップS17a、ステップS17b、ステップS18a、及びステップS18bをさらに含む。以下では、第4の例示的実施形態に係る訓練方法S1cと、第2の例示的実施形態に係る訓練方法S1aとの相違点についてのみ説明する。
(ステップS17a)
ステップS17aにおいて、第1の補助タスク解決部17aは、ソースドメイン補助タスクを実行する。なお、第1の補助タスク解決部17aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS18a)
ステップS18aにおいて、第1の補助損失計算部18aは、ソースドメイン変換判別損失を出力する。なお、第1の補助損失計算部18aが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS17b)
ステップS17bにおいて、第2の補助タスク解決部17bは、ターゲットドメイン補助タスクを実行する。なお、第2の補助タスク解決部17bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS18b)
ステップS18bにおいて、第2の補助損失計算部18bは、ターゲットドメイン変換判別損失を出力する。なお、第2の補助損失計算部18bが行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
(ステップS145)
ステップS145において、マージ損失計算部145は、マージ損失(loss_merge)を計算する。なお、マージ損失計算部145が行う具体的な処理については、上述したので、ここでは繰り返し説明しない。
なお、訓練方法S1cにおけるステップの順序は、第4の例示的実施形態を限定するものではない。例えば、訓練方法S1cにおいて、ステップ(S17a、S18a)及びステップS141~S144は、任意の順序で実行することができる。また、ステップ(S17b、S18b)及びステップS141~S144は、任意の順序で実行することができる。
(有利な効果)
第4の例示的実施形態によれば、訓練方法S1cは、訓練装置10cと同様の効果を奏する。
(分類装置の構成)
以下、第4の例示的実施形態に係る分類装置の構成について説明する。第4の例示的実施形態に係る分類装置20cは、図11に示す分類装置20aと同様の構成を有する。
第4の例示的実施形態によれば、訓練装置10cは、第1のクラス予測部13a及び第2のクラス予測部13bによって与えられる予測の精度を実現する。
したがって、第4の例示的実施形態に係る分類装置は、第2のクラス予測部13bによるターゲットドメインの正確な分類プロセスを提供する。
<第5の実施形態>
以下、本発明の第5の例示的実施形態について、図面を用いて詳しく説明する。なお、上記例示的実施形態で説明した要素と同一の機能を有する要素には同一の符号を付し、その説明は適宜省略する。さらに、第5の例示的実施形態の概要は、前述の例示的実施形態の概要と同じであるので、ここでは説明しない。
(訓練装置の構成)
次に、第5の例示的実施形態実施形態に係る訓練装置10dの構成について、図19を用いて説明する。図19は、訓練装置の構成を示す図である。図19に示すように、第5の例示的実施形態に係る訓練装置10dは、第3の例示的実施形態で説明した構成と、第4の例示的実施形態で説明した構成との両方を備える。
したがって、第5の例示的実施形態に係る訓練装置10dは、第3の例示的実施形態の構成による効果と、第4の例示的実施形態の構成による効果との両方を奏する。
(分類装置の構成)
第5の例示的実施形態に係る分類装置20dは、図11に示す分類装置20aと同様の構成を有する。第5の例示的実施形態に係る訓練装置10dは、第3の実施形態で説明した構成と、第4の例示的実施形態で説明した構成との両方を備える。また、第5の例示的実施形態に係る分類装置20dは、訓練装置10dによって訓練された特徴抽出部11b、角度変換部12b、及びクラス予測部12bを備える。
したがって、第5の例示的実施形態に係る分類装置20dは、第3の例示的実施形態に係る分類装置20bによる効果と、第4の例示的実施形態に係る分類装置20cによる効果との両方を奏する。
<ソフトウェアで実現する構成例>
訓練装置10、10a、10b、10c、10d及び分類装置20、20a、20b、20c、20dの機能の一部または全部はICチップ(integrated circuit)等のハードウエアで実現してもよいし、ソフトウェアで実現してもよい。
後者では、訓練装置10、10a、10b、10c、10d及び分類装置20、20a、20b、20c、20dが例えば、上述した機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。図20は、このようなコンピュータ(以下、「コンピュータC」という)の一例を示す。コンピュータCは、少なくとも1つのプロセッサC1、及び少なくとも1つのメモリC2を含む。メモリC2は、コンピュータCを訓練装置10、10a、10b、10c、10d及び分類装置20、20a、20b、20c、20dのいずれかとして機能させるためのプログラムPを記録する。コンピュータCでは、プロセッサC1がメモリC2からプログラムPを読み出して実行することにより、訓練装置10、10a、10b、10c、10d及び分類装置20、20a、20b、20c、20dの機能が実現される。
プロセッサC1としては、例えば、CPU(central processing unit)、GPU(graphic processing unit)、DSP(digital signal processor)、MPU(micro processing unit)、FPU(floating point number processing unit)、PPU(physics processing unit。メモリC2は、一例として、フラッシュメモリ、ハードディスクドライブ(HDD)、SSD(solid state drive)、またはこれらの組合せとすることができる。
なお、コンピュータCは、プログラムPの実行時にプログラムPがロードされ、各種のデータを一時的に記憶するRAM(random access memory)をさらに備えていてもよい。また、コンピュータCは、他の装置との間でデータの送受信を行うための通信インターフェースをさらに備えることができる。また、コンピュータCは、キーボード、マウス、ディスプレイ、プリンタ等の入出力装置を接続するための入出力インタフェースをさらに備えることができる。
プログラムPは、コンピュータCが読み取り可能な一時的でない有形の記録媒体Mに格納することができる。記録媒体Mが一例として、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などである。コンピュータCは、記録媒体Mを介してプログラムPを取得することができる。プログラムPが伝送媒体を介して伝送することができる。伝送媒体は、一例として、通信網、放送波等である。コンピュータCは、このような伝送媒体を介してもプログラムPを取得することができる。
[補足備考1]
本発明は、前述の例示的実施形態に限定されず、特許請求の範囲内で当業者によって様々な方法で変更され得る。例えば、上記例示的実施形態に開示されている技術的手段を適宜組み合わせて得られる例示的実施形態についても、その技術的範囲に含まれる本発明である。
[補足備考2]
以上に開示された例示的実施形態の全部または一部は、以下のようにして説明することができる。ただし、本発明は以下の実施例の態様に限定されない。
[補足]
本発明の態様は、以下のように表すこともできる:
(態様1)
訓練装置は、
入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出手段と、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換手段と、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測手段と、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換後のソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、
(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する更新手段と、
を備える。
上記構成によれば、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供することができる。
(態様2)
態様1に記載の訓練装置において、
前記1または複数の角度変換手段は、
1または複数のソースドメイン角度変換パラメータを参照して、前記変換されたソースドメイン特徴値を生成し、
1または複数のターゲットドメイン角度変換パラメータを参照して、前記変換されたターゲットドメイン特徴値を生成する。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様3)
態様1または2に記載の訓練装置であって、
前記更新手段は
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からクラスグループを出力するためのグルーピング手段を備え、
クラスグループの各々は、同じクラスラベルを共有する特徴値を含む。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様4)
態様3に記載の訓練装置において、
前記更新手段は、前記クラスグループを参照して前記グループ損失を計算するグループ損失計算手段をさらに備える。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様5)
態様4に記載の訓練装置において、
前記グループ損失計算手段は、
同一クラス内の特徴値を参照して決定されたクラス内距離と、
異なるクラス内の特徴値量を参照して決定されたクラス間距離と
に基づいて、前記グループ損失を計算する。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様6)
態様1から5の何れかに記載の訓練装置において、
前記更新手段は、
前記ソースドメインクラス予測値、及びソースドメインクラスラベルデータを参照して前記ソースドメイン分類損失を計算し、
前記ターゲットドメインクラス予測値、及びターゲットドメインクラスラベルデータを参照して前記ターゲットドメイン分類損失を計算する、
1または複数の分類損失計算手段をさらに備える。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様7)
態様1から5の何れかに記載の訓練装置において、
前記更新手段は、
前記ソースドメイン特徴値と、前記変換されたソースドメイン特徴値と、前記ターゲットドメイン特徴値と、前記変換されたターゲットドメイン特徴値とを参照して、変換損失を計算する変換損失計算手段をさらに備える。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様8)
態様7に記載の訓練装置において、
前記更新手段は、
前記ソースドメイン分類損失、前記ターゲットドメイン分類損失、前記グループ損失、及び前記変換損失を参照してマージ損失を計算するマージ損失計算手段をさらに備え、
前記更新手段は、
前記マージ損失を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様9)
態様1~8のいずれかに記載の訓練装置において、
ソースドメインからターゲットドメインを識別する識別処理を実行する1または複数のドメイン識別手段と、
前記識別処理の結果としてドメイン識別損失を出力する1つまたは複数のドメイン損失計算手段と
を更に備え、
前記更新手段はドメイン識別損失をさらに参照し、前記更新手段は、ドメイン識別手段をさらに更新する。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様10)
態様1~9のいずれかに記載の訓練装置において、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメイン角度予測値を予測し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメイン角度予測値を予測する1または複数の角度予測手段と、
ソースドメイン角度予測値、及びソースドメイン角度ラベルデータを参照してソースドメイン角度予測損失を出力し、ターゲットドメイン角度予測値、及びターゲットドメイン角度ラベルデータを参照してターゲットドメイン角度予測損失を出力する1または複数の角度予測損失計算手段と、
を備え、
前記更新手段はさらに、前記ソースドメイン角度予測損失、及び前記ターゲットドメイン角度予測損失を参照し、前記更新手段は、さらに前記角度予測手段を更新する。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様11)
態様1~9のいずれかに記載の訓練装置において、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメイン再構成画像を生成し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメイン再構成画像を生成する1または複数の画像再構成手段と、
ソースドメイン再構成画像、及びソースドメイン入力画像データを参照してソースドメイン再構成損失を出力し、ターゲットドメイン再構成画像、及びターゲットドメイン入力画像データを参照してターゲットドメイン再構成損失を出力する1または複数の再構成損失計算手段と
を備え、
前記更新手段は前記ソースドメイン再構成損失、及び前記ターゲットドメイン再構成損失をさらに参照し、前記更新手段は、前記画像再構成手段をさらに更新する。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様12)
変換判別処理を実行して、前記変換されたソースドメイン特徴値から前記ソースドメイン特徴値を判別し、前記変換されたターゲットドメイン特徴値から前記ターゲットドメイン特徴値を判別する1または複数の変換判別手段と、
前記変換判別処理の結果を参照して、ソースドメイン変換判別損失、及びターゲットドメイン変換判別損失を出力する1または複数の変換判別損失計算手段と
を備え、
前記更新手段は前記ソースドメイン変換判別損失、及び前記ターゲットドメイン変換判別損失のうちの少なくとも1つをさらに参照し、前記更新手段は、変換判別手段をさらに更新する。
上記構成によれば、より効率的な訓練プロセスを提供することができる。
(態様13)
分類装置は、
入力された画像データから特徴値を抽出する特徴抽出手段と
前記特徴値、及び変換された特徴値からクラス予測値を予測するクラス予測手段と
を備え、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
上記構成によれば、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、好適な分類プロセスを提供することができる。
(態様14)
訓練方法は、
1または複数の特徴抽出手段によって、
入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出することと、
1または複数の角度変換手段によって、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成することと、
1または複数のクラス予測手段によって、前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測することと、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、
(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうち少なくとも1つを更新することと、
を含む。
上記方法によれば、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、効率的な訓練プロセスを提供することができる。
(態様15)
分類方法であって:
特徴抽出手段により、入力された画像データから特徴値を抽出することと、
クラス予測手段により、前記特徴値、及び変換後の特徴値からクラス予測値を予測することと
を含み、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
上記方法によれば、撮影角度のばらつきが限られた訓練用画像しか利用できない場合であっても、好適な分類プロセスを提供することができる。
(態様16)
プログラムは、分類装置としてコンピュータを機能させるためのプログラムであって、前記特徴抽出手段、前記変換手段、及び前記クラス予測手段のそれぞれとしてコンピュータを機能させる。
(態様17)
プログラムは、分類装置としてコンピュータを機能させるためのプログラムであって、 前記特徴抽出手段、前記変換手段、及び前記クラス予測手段のそれぞれとしてコンピュータを機能させる。
(態様18)
少なくとも1つのプロセッサを備える訓練装置であって、
前記プロセッサは、
1または複数の特徴抽出手段によって、
入力されたソースドメイン画像データからソースドメイン特徴値と、
入力されたターゲットドメイン画像データからターゲットドメイン特徴値と、
を抽出し、
1または複数の角度変換手段によって、
変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値と、
変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値と、
を生成し、
1または複数のクラス予測手段によって、
前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値と、
前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値と、
を予測し、
更新手段によって、
前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
前記ソースドメイン特徴値、前記変換後のソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
を参照して、
(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する。
なお、訓練装置は、メモリをさらに備えていてもよい。メモリには、プロセッサに処理を実行させるためのプログラムを格納することができる。代替的に、プログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録され得る。
(態様19)
少なくとも1つのプロセッサを備える分類装置であって、
前記プロセッサは、
特徴抽出手段によって、入力された画像データから特徴値を抽出し
クラス予測手段によって、特徴値、及び変換された特徴値からクラス予測値を予測し、
前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、前記入力された画像データとは異なる角度を有する画像データから抽出されたものであるかのように前記特徴値を変換することによって得られた変換後の特徴値を参照して訓練されている。
なお、分類装置は、メモリをさらに備えていてもよい。メモリには、プロセッサに処理を実行させるためのプログラムを格納することができる。代替的に、プログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録され得る。
10、10a、10b、10c、10d 訓練装置
20、20a、20b、20c、20d 分類装置
11、11a、11b 特徴抽出部
12、12a、12b 角度変換部
13、13a、13b クラス予測部
14、14a 更新部
141 分類損失計算部
142 グルーピング部
143 グループ損失計算部
144 変換損失計算部
145 マージ損失計算部
146 モデル更新部
15 ドメイン判別部
16 ドメイン損失計算部
17a、17b 補助タスク解決部
18a、18b 補助損失計算部

Claims (10)

  1. 入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出手段と、
    変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
    変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換手段と、
    前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
    前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測手段と、
    前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
    前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
    を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうちの少なくとも1つを更新する更新手段と、
    を備える訓練装置。
  2. 前記1または複数の角度変換手段は、
    1または複数のソースドメイン角度変換パラメータを参照して、前記変換されたソースドメイン特徴値を生成し、
    1または複数のターゲットドメイン角度変換パラメータを参照して、前記変換されたターゲットドメイン特徴値を生成する、
    請求項1に記載の訓練装置。
  3. 前記更新手段は
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からクラスグループを出力するためのグルーピング手段と、
    前記クラスグループを参照して前記グループ損失を計算するグループ損失計算手段と、
    を備え、
    クラスグループの各々は、同じクラスラベルを共有する特徴値を含み、
    前記グループ損失計算手段は、
    同一クラス内の特徴値を参照して決定されたクラス内距離と、
    異なるクラス内の特徴値量を参照して決定されたクラス間距離と
    に基づいて、前記グループ損失を計算する、
    請求項1または2に記載の訓練装置。
  4. 前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメイン再構成画像を生成し、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメイン再構成画像を生成する1または複数の画像再構成手段と、
    ソースドメイン再構成画像、及びソースドメイン入力画像データを参照してソースドメイン再構成損失を出力し、ターゲットドメイン再構成画像、及びターゲットドメイン入力画像データを参照してターゲットドメイン再構成損失を出力する1または複数の再構成損失計算手段と
    を備え、
    前記更新手段は前記ソースドメイン再構成損失、及び前記ターゲットドメイン再構成損失をさらに参照し、前記更新手段は、前記画像再構成手段をさらに更新する、
    請求項1から3のいずれか1項に記載の訓練装置。
  5. 変換判別処理を実行して、前記変換されたソースドメイン特徴値から前記ソースドメイン特徴値を判別し、前記変換されたターゲットドメイン特徴値から前記ターゲットドメイン特徴値を判別する1または複数の変換判別手段と、
    前記変換判別処理の結果を参照して、ソースドメイン変換判別損失、及びターゲットドメイン変換判別損失を出力する1または複数の変換判別損失計算手段と
    を備え、
    前記更新手段は前記ソースドメイン変換判別損失、及び前記ターゲットドメイン変換判別損失のうちの少なくとも1つをさらに参照し、前記更新手段は、変換判別手段をさらに更新する、
    請求項1から3のいずれか1項に記載の訓練装置。
  6. 入力された画像データから特徴値を抽出する特徴抽出手段と
    前記特徴値からクラス予測値を予測するクラス予測手段と
    を備え、
    前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、
    ソースドメイン画像データからソースドメイン特徴値を抽出し、ターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出処理と、
    変換されたソースドメイン特徴値が、前記ソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
    変換されたターゲットドメイン特徴値が、前記ターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換処理と、
    前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
    前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測処理と、
    前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
    前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
    を参照して前記特徴抽出手段、及び前記クラス予測手段の前記少なくとも一方を更新する更新処理と
    によって訓練されたものである
    分類装置。
  7. 1または複数の特徴抽出手段によって、
    入力されたソースドメイン画像データからソースドメイン特徴値を抽出し、
    入力されたターゲットドメイン画像データからターゲットドメイン特徴値を抽出する
    ことと、
    1または複数の角度変換手段によって、
    変換されたソースドメイン特徴値が、前記入力されたソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
    変換されたターゲットドメイン特徴値が、前記入力されたターゲットドメイン画像データとは異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成することと、
    1または複数のクラス予測手段によって、
    前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
    前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測することと、
    前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
    前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
    を参照して、(i)前記1または複数の特徴抽出手段、(ii)前記1または複数の角度変換手段、及び(iii)前記1または複数のクラス予測手段のうち少なくとも1つを更新することと、
    を含む訓練方法。
  8. 特徴抽出手段により、入力された画像データから特徴値を抽出することと、
    クラス予測手段により、前記特徴値、及び変換された特徴値からクラス予測値を予測することと
    を含み、
    前記特徴抽出手段、及び前記クラス予測手段の少なくとも一方は、
    ソースドメイン画像データからソースドメイン特徴値を抽出し、ターゲットドメイン画像データからターゲットドメイン特徴値を抽出する1または複数の特徴抽出処理と、
    変換されたソースドメイン特徴値が、前記ソースドメイン画像データとは異なる角度を有するソースドメイン画像データから抽出されたものであるかのように、前記ソースドメイン特徴値を変換することによって当該変換されたソースドメイン特徴値を生成し、
    変換されたターゲットドメイン特徴値が、前記ターゲットドメイン画像データと異なる角度を有するターゲットドメイン画像データから抽出されたものであるかのように、前記ターゲットドメイン特徴値を変換することによって当該変換されたターゲットドメイン特徴値を生成する1または複数の角度変換処理と、
    前記ソースドメイン特徴値、及び前記変換されたソースドメイン特徴値からソースドメインクラス予測値を予測し、
    前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値からターゲットドメインクラス予測値を予測する1または複数のクラス予測処理と、
    前記ソースドメインクラス予測値を参照して計算されたソースドメイン分類損失、
    前記ターゲットドメインクラス予測値を参照して計算されたターゲットドメイン分類損失、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算された変換損失、及び、
    前記ソースドメイン特徴値、前記変換されたソースドメイン特徴値、前記ターゲットドメイン特徴値、及び前記変換されたターゲットドメイン特徴値を参照して計算されたグループ損失
    を参照して前記特徴抽出手段、及び前記クラス予測手段の前記少なくとも一方を更新する更新処理と
    によって訓練されたものである
    分類方法。
  9. 請求項1に記載の訓練装置としてコンピュータを機能させるためのプログラムであって、前記特徴抽出手段、前記クラス予測手段、前記角度変換手段、及び前記更新手段のそれぞれとして前記コンピュータを機能させるためのプログラム。
  10. 請求項6に記載の分類装置としてコンピュータを機能させるためのプログラムであって、前記特徴抽出手段、及び前記クラス予測手段のそれぞれとしてコンピュータを機能させるためのプログラム。
JP2023541366A 2021-01-12 2021-12-03 訓練装置、分類装置、訓練方法、分類方法、及びプログラム Active JP7485226B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021003116 2021-01-12
JP2021003116 2021-01-12
PCT/JP2021/044389 WO2022153711A1 (en) 2021-01-12 2021-12-03 Training apparatus, classification apparatus, training method, classification method, and program

Publications (2)

Publication Number Publication Date
JP2024502154A JP2024502154A (ja) 2024-01-17
JP7485226B2 true JP7485226B2 (ja) 2024-05-16

Family

ID=82448367

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023541366A Active JP7485226B2 (ja) 2021-01-12 2021-12-03 訓練装置、分類装置、訓練方法、分類方法、及びプログラム

Country Status (4)

Country Link
US (1) US20240062525A1 (ja)
EP (1) EP4278321A4 (ja)
JP (1) JP7485226B2 (ja)
WO (1) WO2022153711A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028876A (ja) 2017-08-02 2019-02-21 株式会社ディジタルメディアプロフェッショナル 機械学習用教師データ生成装置及び生成方法
JP2020046928A (ja) 2018-09-19 2020-03-26 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2020144700A (ja) 2019-03-07 2020-09-10 株式会社日立製作所 画像診断装置、画像処理方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9536177B2 (en) * 2013-12-01 2017-01-03 University Of Florida Research Foundation, Inc. Distributive hierarchical model for object recognition in video
US10497257B2 (en) * 2017-08-31 2019-12-03 Nec Corporation Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019028876A (ja) 2017-08-02 2019-02-21 株式会社ディジタルメディアプロフェッショナル 機械学習用教師データ生成装置及び生成方法
JP2020046928A (ja) 2018-09-19 2020-03-26 キヤノン株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム
JP2020144700A (ja) 2019-03-07 2020-09-10 株式会社日立製作所 画像診断装置、画像処理方法及びプログラム

Also Published As

Publication number Publication date
JP2024502154A (ja) 2024-01-17
EP4278321A4 (en) 2024-05-29
EP4278321A1 (en) 2023-11-22
WO2022153711A1 (en) 2022-07-21
US20240062525A1 (en) 2024-02-22

Similar Documents

Publication Publication Date Title
JP7470476B2 (ja) 蒸留を用いたそれぞれのターゲット・クラスを有するモデルの統合
Çayır et al. Random CapsNet forest model for imbalanced malware type classification task
Lin et al. A post-processing method for detecting unknown intent of dialogue system via pre-trained deep neural network classifier
US20230281298A1 (en) Using multimodal model consistency to detect adversarial attacks
CN111652290B (zh) 一种对抗样本的检测方法及装置
CN111695415A (zh) 图像识别模型的构建方法、识别方法及相关设备
WO2023051140A1 (zh) 用于图像特征表示生成的方法、设备、装置和介质
CN113139664B (zh) 一种跨模态的迁移学习方法
CN113112518B (zh) 基于拼接图像的特征提取器生成方法、装置和计算机设备
US20200143209A1 (en) Task dependent adaptive metric for classifying pieces of data
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
JP2018194974A (ja) 情報処理装置、情報処理システム、情報処理プログラムおよび情報処理方法
JP2022161564A (ja) テキスト画像の文字を認識する機械学習モデルを訓練するシステム
Zhou et al. A worm detection system based on deep learning
Hassanat et al. Magnetic force classifier: a Novel Method for Big Data classification
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
Suratkar et al. Deep-fake video detection approaches using convolutional–recurrent neural networks
Zhu et al. Multiview latent space learning with progressively fine-tuned deep features for unsupervised domain adaptation
Hameed et al. Content based image retrieval based on feature fusion and support vector machine
JP7485226B2 (ja) 訓練装置、分類装置、訓練方法、分類方法、及びプログラム
US20210342642A1 (en) Machine learning training dataset optimization
CN112766423B (zh) 人脸识别模型的训练方法、装置、计算机设备及存储介质
CN115374943A (zh) 一种基于域对抗迁移网络的数据认知计算方法及其系统
Bueno-Benito et al. Leveraging triplet loss for unsupervised action segmentation
CN115082761A (zh) 模型产生装置及方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7485226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150