JP7211501B2 - データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム - Google Patents

データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム Download PDF

Info

Publication number
JP7211501B2
JP7211501B2 JP2021519967A JP2021519967A JP7211501B2 JP 7211501 B2 JP7211501 B2 JP 7211501B2 JP 2021519967 A JP2021519967 A JP 2021519967A JP 2021519967 A JP2021519967 A JP 2021519967A JP 7211501 B2 JP7211501 B2 JP 7211501B2
Authority
JP
Japan
Prior art keywords
data
data conversion
domain
learning
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519967A
Other languages
English (en)
Other versions
JPWO2020235033A5 (ja
JPWO2020235033A1 (ja
Inventor
雅人 石井
高志 竹之内
将 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2020235033A1 publication Critical patent/JPWO2020235033A1/ja
Publication of JPWO2020235033A5 publication Critical patent/JPWO2020235033A5/ja
Application granted granted Critical
Publication of JP7211501B2 publication Critical patent/JP7211501B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、データ変換装置、パターン認識システム、データ変換方法及び非一時的なコンピュータ可読媒体に関する。
非特許文献1には、異なるドメインに属する複数のデータ集合の間のデータの分布を一致させるようにデータ変換を行うドメイン適応に関する技術が開示されている。また、非特許文献2には、不均衡データの学習に有効な識別評価指標であるAUC(Area Under the Curve)を効率的に最大化するために、AUCの下界となるような最適化しやすい関数を代理AUCとして用いて最大化する方法が開示されている。
Y. Ganin, E. Ustinova, H. Ajakan, P. Germain, H. Larochelle, F. Laviolette, M. Marchand, and V. Lempitsky, "Domain-Adversarial Training of Neural Networks," Journal of Machine Learning Research, vol. 17, num. 59, pp. 1-35, 2016. W. Gao, R. Jin, S. Zhu, and Z.-H. Zhou, "One-pass AUC Optimization,"International Conference on Machine Learning, 2013.
上述した非特許文献1では、クロスエントロピー損失が用いられることが圧倒的に多く、問題に応じて柔軟に損失関数を変更することが難しい。そのため、異なるドメインに属する複数のデータ集合の間のデータ分布を互いに近付けるためのデータ変換の精度が不十分であるという問題点があった。尚、非特許文献2の方法はAUCを最大化するための方法であり、当該問題点を解決することができない。
本開示は、このような問題点を解決するためになされたものであり、異なるドメインに属する複数のデータ集合の間のデータ分布を互いに近付けるためのデータ変換の精度を向上させるためのデータ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラムが格納された非一時的なコンピュータ可読媒体を提供することを目的とする。
本開示の第1の態様にかかるデータ変換装置は、
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、各データ集合に対してデータ変換を行うデータ変換手段と、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別手段によるクラスの識別結果から、クラス識別損失を算出する第1の算出手段と、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別手段によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出手段と、
前記上界が減少するように前記ドメイン識別手段のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換手段のパラメータを更新して第1の学習を行う第1の学習手段と、
を備える。
本開示の第2の態様にかかるパターン認識システムは、
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、各データ集合に対してデータ変換を行うデータ変換手段と、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別手段によるクラスの識別結果から、クラス識別損失を算出する第1の算出手段と、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別手段によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出手段と、
前記上界が減少するように前記ドメイン識別手段のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換手段のパラメータを更新して第1の学習を行う第1の学習手段と、
前記第1の学習後のパラメータが設定された前記データ変換手段により、前記複数のデータ集合のそれぞれに対して再度のデータ変換が行われた複数の第2の変換後データ集合を用いてパターン認識モデルの第2の学習を行う第2の学習手段と、
前記第2の学習後のパラメータが設定された前記パターン認識モデルを用いて入力されたデータ集合に対するパターン認識を行う認識手段と、
を備える。
本開示の第3の態様にかかるデータ変換方法は、
コンピュータが、
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、データ変換器を用いて各データ集合に対してデータ変換を行い、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別器によるクラスの識別結果から、クラス識別損失を算出し、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別器によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出し、
前記上界が減少するように前記ドメイン識別器のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換器のパラメータを更新して学習を行う。
本開示の第4の態様にかかるデータ変換プログラムが格納された非一時的なコンピュータ可読媒体は、
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、データ変換器を用いて各データ集合に対してデータ変換を行うデータ変換処理と、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別器によるクラスの識別結果から、クラス識別損失を算出する第1の算出処理と、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別器によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出処理と、
前記上界が減少するように前記ドメイン識別器のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換器のパラメータを更新して学習を行う学習処理と、
をコンピュータに実行させる。
上述の態様によれば、異なるドメインに属する複数のデータ集合の間のデータ分布を互いに近付けるためのデータ変換の精度を向上させるためのデータ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラムが格納された非一時的なコンピュータ可読媒体を提供することができる。
本実施形態1にかかるデータ変換装置の全体構成を示すブロック図である。 本実施形態1にかかるデータ変換方法の流れを示すフローチャートである。 本実施形態2にかかるデータ変換装置の構成を示すブロック図である。 本実施形態2にかかる損失関数の関係を説明するための図である。 本実施形態2にかかるデータ変換装置のハードウェア構成を示すブロック図である。 本実施形態2にかかるデータ変換方法の流れを示すフローチャートである。 本実施形態2にかかるソースデータ集合及びターゲットデータ集合とデータ変換器、クラス識別器及びドメイン識別器の関係を説明するための図である。 本実施形態3にかかるパターン認識システムの構成を示すブロック図である。 本実施形態3にかかるパターン認識装置のハードウェア構成を示すブロック図である。 本実施形態3にかかるパターン認識処理の流れを示すフローチャートである。 課題の発生を説明するための図である。 ドメイン適応後のクラス識別の概念を説明するための図である。
以下では、本開示の実施形態について、図面を参照しながら詳細に説明する。各図面において、同一又は対応する要素には同一の符号が付されており、説明の明確化のため、必要に応じて重複説明は省略される。
ここで、本開示の各実施形態により解決しようとする課題について補足する。まず、パターン認識技術とは、入力されたパターンがどのクラスに属するパターンであるかを推定する技術である。具体的なパターン認識の例としては、画像を入力として写っている物体を推定する物体認識や、音声を入力として発話内容を推定する音声認識などが挙げられる。
パターン認識を実現するために機械学習が広く利用されている。教師あり学習では、認識結果を示すラベルが付与された学習サンプル(学習データ)を事前に収集し、学習サンプルとラベルとに基づき、学習データとラベルとの関係性を表すモデルを作成する。作成したモデルを、ラベルの付されていない認識すべきテストサンプル(テストデータ)に適用することで、パターン認識の結果を得る。
多くの機械学習手法では、学習データの分布とテストデータの分布とが一致していることを仮定している。しかし、一般に学習データを取得する環境(ドメイン)とテストデータを取得する環境は異なることが多く、環境の違いに起因してデータの分布が変化してしまう。学習データとテストデータとでデータの分布が異なっていると、図11に示すように、異なりの度合に応じてパターン認識の性能が低下してしまうという問題が発生する。
図11において、ソースデータSDは、(後述するデータ変換前の)データ集合(学習データ)であり、黒丸及び黒×印の複数のデータが分布していることを示す。また、ターゲットデータTDは、(データ変換前の)データ集合(テストデータ)であり、白丸及び白×印の複数のデータが分布していることを示す。ここで、丸と×印とは、それぞれのクラスを示すものとする。たとえば、丸は、正のラベルが付与されたデータを表し、×は、負のラベルが付与されたデータを表す。そして、ソースデータSDが分布している範囲が、ターゲットデータTDが分布している範囲と異なっているということによって、ソースデータSDとターゲットデータTDとが、データ分布に乖離があることを示している。そして、クラス識別境界BLは、ソースデータSDを教師データとして所定のクラス識別器を学習したことに伴うクラス識別の境界線を示す。この場合、クラス識別境界BLに従いターゲットデータTDの各データ(サンプル)のクラスを判定する場合に、ターゲットデータTDの各データのうち一部の誤認識データMD(4つの白×印)が生じてしまうことを例示している。
この問題を回避するため、データの分布を一致させるようにデータ変換(data transformation)(例えば、特徴変換(feature transformation))を行うドメイン適応(domain adaptation)と呼ばれる技術が提案されている。例えば、学習データ(training data)とテストデータ(test data)の間で事前にドメイン適応(データ変換)を行うことにより、図12に示すように学習データのデータ分布とテストデータのデータ分布とを互いに近付ける。そして、適応後の学習データ(変換後ソースデータSDT)に対してクラス識別器を作成する。これにより、ターゲットデータTDの分布からの乖離が少ないソースデータSDを用いてクラス識別器が作成されるので、学習済みのクラス識別器(のクラス識別境界BLT)によって、適応後のテストデータ(変換後ターゲットデータTDT)に対して高い認識性能を達成することができる。ここで、ドメイン適応では、適応元をソースドメインと呼び、そのデータをソースデータと呼び、適応先をターゲットドメインと呼び、そのデータをターゲットデータと呼んでも良い。
近年のドメイン適応の多く(例えば、非特許文献1)は、敵対的学習の枠組みを採用している。この枠組みでは、データ変換を行った後のデータがどのドメインに属するデータであるかを識別するドメイン識別器を導入する。ドメイン適応の学習においては、ドメイン識別器の識別精度(precision accuracy)が高くなるようにドメイン識別器を学習し、同時に、ドメイン識別器の識別精度が低くなるようにデータ変換処理を行うデータ変換器(data transformer)を学習する。ドメイン識別器は、あるデータが、ソースドメインにあるのか、または、ターゲットドメインにあるのかを判定する識別器である。このように敵対的な学習を行うことにより、十分に学習した後のドメイン識別器でも識別できないようなデータへの変換を行うデータ変換器を得ることができる。すなわち、ソースドメインとターゲットドメインの間でそれぞれのデータ変換後のデータ分布が十分に一致している(すなわち、乖離が少ない)ようなデータ変換器を得ることができる。
ここで、敵対的学習にはクロスエントロピー損失を用いることが多い。これは、クロスエントロピー損失を用いると、ニューラルネットワークを効率的に学習できることが多いためである。この時、ドメイン識別器の学習ではクロスエントロピー損失が小さくなるようにドメイン識別器のパラメータを更新し、一方、データ変換器の学習ではクロスエントロピー損失が大きくなるようにデータ変換器のパラメータを更新する。
ここで、非特許文献1等の関連技術にかかる敵対的学習に基づくドメイン適応では、「単一の損失関数について、ドメイン識別器に関しては最小化し、データ変換器に関しては最大化する」というアプローチをとっているため、最大化及び最小化のどちらも効率的かつ効果的に行うことのできる損失関数しか用いることができない。これにより、関連技術ではクロスエントロピー損失が用いられることが圧倒的に多く、問題に応じて柔軟に損失関数(loss function)を変更することが難しかった。
例えばターゲットデータがソースデータよりも著しく少ない場合を考える。この時、ドメイン識別器は、どのようなデータが入力された場合でもソースデータであると識別(判定)することで、ドメイン識別に関して高い識別率を達成してしまう。しかし、実際には意味のある識別を行っていないため、このようなドメイン識別器に対して敵対的な学習を行っても、有効なドメイン適応を行うことはできない。そこで、ドメイン識別器の学習のために、不均衡データの学習に有効な識別評価指標であるAUC(Area Under the Curve)を損失の計算に用いることが考えられる。しかし、これを敵対的学習に用いることは難しい。なぜなら、データから計算されるAUCはパラメータについて不連続な関数であり、最大化及び最小化を効率的に行うことが難しいためである。一方で、例えば、上述した非特許文献2には、AUCを効率的に最大化するために、AUCの下界となるような最適化しやすい関数を代理AUCとして用いて最大化する方法が提案されている。しかし、非特許文献2はAUCを最大化するための方法であり、敵対的学習に必要な最小化を効果的に行うことができない。
本開示は、上述した課題の少なくとも一部を解決するためのものであり、以下に各実施形態について説明する。
<実施形態1>
図1は、本実施形態1にかかるデータ変換装置1の全体構成を示すブロック図である。データ変換装置1は、異なるドメインに属する複数のデータ集合を用いて、少なくともデータ変換手段及びドメイン識別手段の学習を行った上で、学習済みのデータ変換手段により各データ集合のデータ変換を行うコンピュータである。ここで、データ集合とは、例えば、特定の画像や音声データ等から抽出された特徴データの集合(特徴情報、特徴ベクトル)であり、何等かのドメインに属するものとする。特徴情報は、たとえば、SIFT(Scale-Invariant Feature Transform)特徴量、SURF(Speeded-Up Robust Feature)によって実現することができる。また、データ変換手段及びドメイン識別手段、並びに、後述するクラス識別手段は、例えばデータ変換器、ドメイン識別器及びクラス識別器であり、それぞれ1以上の設定値の集合(パラメータ)を用いて所定の処理を行うハードウェア又はソフトウェアモジュールである。データ変換装置1は、データ変換部11と、第1の算出部12と、第2の算出部13と、第1の学習部14とを備える。
データ変換部11は、異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、各データ集合に対してデータ変換を行うデータ変換手段の一例である。ここで、複数のデータ集合は、少なくとも2以上であり、例えば、ソースドメインに属するソースデータ集合と、ターゲットドメインに属するターゲットデータ集合を含むものであってもよい。そして、データ変換部11は、各データ集合からデータ変換後の複数の第1の変換後データ集合を生成する。つまり、データ変換部11は、複数のデータ集合のそれぞれについて個別に変換後データ集合に変換する(transform)。尚、データ変換部11は、複数のデータ集合についてまとめてデータ変換を行っても良い。また、データ変換部11は、複数のデータ集合のうち一部について残りのデータ集合へデータ分布を近付けるようにデータ変換を行っても良い。
第1の算出部12は、複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別手段によるクラスの識別結果から、クラス識別損失を算出する第1の算出手段の一例である。尚、第1の算出部12は、複数の第1の変換後データ集合の全てのデータに対するクラスの識別結果を用いても良い。また、クラス識別手段によるクラスの識別処理は、データ変換装置1の外部又は内部のいずれで実行されてもよい。
第2の算出部13は、複数の第1の変換後データ集合のそれぞれに対するドメイン識別手段によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出手段の一例である。ドメイン識別手段によるドメインの識別処理は、データ変換装置1の外部又は内部のいずれで実行されてもよい。
第1の学習部14は、上界が減少するよう(例えば、上界を最小化するよう)にドメイン識別手段のパラメータを更新する。また、第1の学習部14は、クラス識別損失が減少するよう(例えば、クラス識別損失を最小化するよう)に、かつ、下界が増大するよう(例えば、下界を最大化するよう)にデータ変換手段のパラメータを更新する。第1の学習部14は、少なくともドメイン識別手段及びデータ変換手段のパラメータのこのような更新をして第1の学習を行う第1の学習手段の一例である。
図2は、本実施形態1にかかるデータ変換方法の流れを示すフローチャートである。まず、データ変換装置1は、異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、データ変換器を用いて各データ集合に対してデータ変換を行う(S11)。
次に、データ変換装置1は、データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別器によるクラスの識別結果から、クラス識別損失を算出する(S12)。
また、データ変換装置1は、複数の第1の変換後データ集合のそれぞれに対するドメイン識別器によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する(S13)。
ステップS12及びS13の後、データ変換装置1は、上界が減少するようにドメイン識別器のパラメータを更新し、クラス識別損失が減少するように、かつ、下界が増大するようにデータ変換器のパラメータを更新して学習を行う(S14)。
このように、本実施形態にかかるデータ変換装置1は、複数のデータ集合のそれぞれをデータ変換し、データ変換後のデータ集合についてクラス識別損失、並びに、ドメイン識別損失の上界及び下界を算出する。そして、データ変換装置1は、クラス識別損失及びドメイン識別損失の上界が減少するようにデータ変換手段及びドメイン識別手段を学習する。併せて、データ変換装置1は、ドメイン識別損失の下界が増大するようにデータ変換手段を学習する。その後、データ変換装置1は、学習済みのデータ変換手段により複数のデータ集合のそれぞれをデータ変換することができる。つまり、データ変換部11は、複数のデータ集合のそれぞれに対して、第1の学習後のパラメータを用いて再度のデータ変換を行うことができる。言い換えると、データ変換装置1は、学習済みのパラメータが設定されたデータ変換器により、入力の複数のデータ集合のそれぞれに対してデータ変換を行うことができる。そのため、特定の損失関数に依存せず、問題に応じて柔軟に損失関数を変更することが容易となり、異なるドメインに属する複数のデータ集合の間のデータ分布を互いに近付けるためのデータ変換の精度を向上させることができる。
尚、データ変換装置1は、図示しない構成としてプロセッサ、メモリ及び記憶装置を備えるものである。また、当該記憶装置には、本実施形態にかかるデータ変換方法の処理が実装されたコンピュータプログラムが記憶されている。そして、当該プロセッサは、記憶装置からコンピュータプログラムを前記メモリへ読み込み、当該コンピュータプログラムを実行する。これにより、前記プロセッサは、データ変換部11、第1の算出部12、第2の算出部13及び第1の学習部14の機能を実現する。
または、データ変換部11、第1の算出部12、第2の算出部13及び第1の学習部14は、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry)、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。また、プロセッサとして、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、FPGA(field-programmable gate array)等を用いることができる。
また、データ変換装置1の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。また、データ変換装置1の機能がSaaS(Software as a Service)形式で提供されてもよい。
<実施形態2>
本実施形態2は、上述した実施形態1の改良例である。
図3は、本実施形態2にかかるデータ変換装置100の構成を示すブロック図である。データ変換装置100は、上述したデータ変換装置1の一実施例である。ここで、以下では、パターンをx、パターンが属するクラスをy、パターンが属するドメインをdと表記する。クラスはy=1、・・・、CのC個とし、ドメインはソースドメインとターゲットドメインの2つとする。ソースドメインについては(x,y)の組がN個与えられているとし、これをソースデータSDと呼ぶ。また、ターゲットドメインはラベル付けされていないxをM個含むものとし、これをターゲットデータTDと呼ぶ。尚、ソースデータSD及びターゲットデータTDのそれぞれは、上述したデータ集合の一例である。
データ変換器、クラス識別器及びドメイン識別器は、いずれもニューラルネットワークを用いて実現されているとし、それぞれのネットワークをNN、NN、NNと表記する。また、データ変換ニューラルネットワークNNのパラメータをθ、クラス識別ニューラルネットワークNNのパラメータをθ、ドメイン識別ニューラルネットワークNNのパラメータをθとする。本実施形態では、ソースデータSDとターゲットデータTDで同じデータ変換器を用いるが、ドメインごとに異なるデータ変換器を用いても良い。また、データ変換器、クラス識別器及びドメイン識別器はニューラルネットワークに限らず、一般的に機械学習で用いられる手法(例えば線形変換やカーネル識別器など)を用いても良い。
ここで、データ変換装置100は、ソースデータSD及びターゲットデータTDの入力を受け付け、後述する学習を行う。これにより、変換後において、ソースデータSDとターゲットデータTDの分布が十分に近く、かつ、ソースデータSDのクラス識別を高精度に行うことができる、という性質を満たすデータ変換を実現するNNを学習によって獲得する。そして、データ変換装置100は、学習済みのデータ変換器(NN)を用いてソースデータSD及びターゲットデータTDをデータ変換し、変換後ソースデータSDT及び変換後ターゲットデータTDTとして出力する。
ここで、本実施形態では、ターゲットデータTDの数がソースデータSDの数に比べて少ない状況(M<N)を仮定する。本実施形態によって、このような不均衡な状況でも効率的に学習できる損失(具体的にはAUC損失)をドメイン識別器の学習に用いることができ、前述のような好ましい性質をもったデータ変換を効果的に学習する。
データ変換装置100は、データ変換部101と、クラス識別部102と、クラス識別損失算出部103と、ドメイン識別部104と、ドメイン識別損失上界算出部105と、ドメイン識別損失下界算出部106と、損失最小化部107と、損失最大化部108と、出力部109とを備える。尚、データ変換部101は、上述したデータ変換部11の一例である。また、クラス識別損失算出部103は、上述した第1の算出部12の一例である。また、ドメイン識別損失上界算出部105及びドメイン識別損失下界算出部106は、上述した第2の算出部13の一例である。また、損失最小化部107及び損失最大化部108は、上述した第1の学習部14の一例である。
データ変換部101は、ソースデータSDとターゲットデータTDからランダムに抽出したサンプルに対してデータ変換ニューラルネットワークNNを用いてデータ変換を行う。つまり、データ変換部101は、ソースデータSDの少なくとも一部に対してデータ変換ニューラルネットワークNNを用いてデータ変換を行う。また、データ変換部101は、ターゲットデータTDの少なくとも一部に対してデータ変換ニューラルネットワークNNを用いてデータ変換を行う。そして、データ変換部101は、データ変換後のソースデータをクラス識別部102及びドメイン識別部104へ出力し、データ変換後のターゲットデータを少なくともドメイン識別部104へ出力する。ここで、データ変換後のデータをNN(x;θ)とする。
クラス識別部102は、データ変換部101によるデータ変換後のソースデータを入力とし、クラス識別ニューラルネットワークNNを用いて各データの属するクラスを識別する。尚、ターゲットデータのラベルが与えられる場合には、データ変換後のターゲットデータを入力としても良く、さらに、データ変換後のソースデータ及びターゲットデータの両方を入力としても良い。
ここで、クラス識別ニューラルネットワークNNは、クラスの識別を行うニューラルネットワークとして一般的によく用いられるように、クラスごとの事後確率p(y|x)を出力するものとする。ここで、クラス識別結果をNN(NN(x;θ);θ)とする。
クラス識別損失算出部103は、クラス識別部102で算出されたクラス識別結果を入力として、クラス識別結果に対する損失を算出する。本実施形態では、クラス識別の損失として一般的によく用いられているクロスエントロピー損失を用いる。クラス識別損失をLとすると、クロスエントロピー損失を用いた時のLは以下の式(1)のように定義される。
Figure 0007211501000001
但し、H(*)は引数が真であれば1、偽であれば0をとる指示関数、NN (i)はi番目のクラスに対応するNNの出力である。
ドメイン識別部104は、データ変換部101によるデータ変換後のソースデータ及びターゲットデータを入力とし、ドメイン識別ニューラルネットワークNNを用いてデータ集合の属するドメインを識別する。ここで、NNの出力をNN(NN(x;θ);θ)とする。ドメインはソースかターゲットの2種類であるため、NNは2クラス識別を行うニューラルネットワークとなる。本実施形態では、NNの出力は、入力データがターゲットドメインに属する可能性を表すスコアとする。すなわち、データがターゲットドメインに属する可能性が高ければ大きいスコアとなり、ソースドメインに属する可能性が高ければ小さいスコアとなる。
ドメイン識別損失上界算出部105は、ドメイン識別部104で算出されたドメイン識別結果を入力として、ドメイン識別結果に対する損失の上界を算出する。本実施形態では、ターゲットデータの数がソースデータの数より非常に少ないため、このような不均衡データ(imbalanced data)の学習に頑健なAUC損失をドメイン識別損失として用いる。ターゲットデータから抽出したサンプルをx、ソースデータから抽出したサンプルをx’とすると、AUC損失は以下の式(2)のように定義される。
Figure 0007211501000002
但し、k0-1(a)はa<0で1、a>=0で0となる0-1損失関数である。ドメイン識別損失の上界を算出するため、本実施形態ではヒンジ損失関数を用いてAUC損失の上界L を以下の式(3)のように定義する。
Figure 0007211501000003
但し、k(a)はa<1で1-a、a>=1で0となるヒンジ損失関数である。図4に示すように、ヒンジ損失関数は0-1損失関数よりも小さい値をとることはないため、L はAUC損失の上界となる。
ドメイン識別損失下界算出部106は、ドメイン識別部104で算出されたドメイン識別結果を入力として、ドメイン識別結果に対する損失の下界を算出する。本実施形態では、ヒンジ損失関数を用いてAUC損失の下界L を以下の式(4)のように定義する。
Figure 0007211501000004
図4に示すように、1-k(-a)は0-1損失関数よりも大きい値をとることはないため、L はAUC損失の下界となる。
損失の上界、及び、損失の下界は、必ずしも、ヒンジ関数を用いて表されていなくともよい。損失の上界は、たとえば、aの値が0のときの損失が1であり(すなわち、0-1損失関数の値と一致する)、aの値が大きくなるにつれて0に収束し、aの値が小さくなるにつれて値が大きくなるような関数であってもよい。また、損失の下界は、たとえば、aの値が0のときの損失が0であり(すなわち、0-1損失関数の値と一致する)、aの値が小さくなるにつれて1に収束し、aの値が大きくなるにつれて値が小さくなるような関数であってもよい。また、損失の上界、及び、損失の下界は、必ずしも、1つの関数(たとえば、ヒンジ損失関数)によって表されていなくともよい。たとえば、損失の上界を表す関数と、損失の下界を表す関数とが異なる関数を用いて表されていてもよい。式(3)、及び、式(4)に示されているように、損失の上界を表す関数と、損失の下界を表す関数を1つの関数(たとえば、ヒンジ損失関数)を用いて表すことによって、ドメイン識別損失下界算出部106と、ドメイン識別損失上界算出部105とにおける処理を、1つの機能(ヒンジ損失関数を算出する機能)を用いて実現することができるという効果を奏する。
損失最小化部107は、クラス識別損失算出部103で算出されたクラス識別損失と、ドメイン識別損失上界算出部105で算出されたドメイン識別損失上界値とを用いて、これらの損失を最小化するようにデータ変換器、クラス識別器及びドメイン識別器のパラメータを更新する。本実施形態では、パラメータの更新方法として、ニューラルネットワークの学習に一般的に良く用いられる確率的勾配降下法を用いる。この時、損失最小化部では、以下の式(5-1)から(5-3)のようにパラメータを更新する。
Figure 0007211501000005
但し、μは事前に設定した学習係数である。
損失最大化部108は、ドメイン識別損失下界算出部106で算出されたドメイン識別損失下界値を用いて、この値を最大化するようにデータ変換器のパラメータを更新する。損失最小化部107と同様に確率的勾配降下法を用いると、パラメータは以下の式(6)のように更新される。
Figure 0007211501000006
尚、損失最小化部107及び損失最大化部108は、上述した実施形態1の第1の学習において、クラス識別損失を最小化するようにクラス識別手段のパラメータをさらに更新したものといえる。
また、損失最小化部107及び損失最大化部108は、上述した実施形態1の第1の学習手段に対して、ドメイン識別手段の第1の学習において、AUC(Area Under the Curve)を用いるものといえる。
データ変換装置100は、データ変換からパラメータ更新までの処理を繰り返し行うことでパラメータの学習(第1の学習)を行う。学習により、データ変換部101、クラス識別部102、ドメイン識別部104のパラメータが更新される。
データ変換部101は、パラメータの学習が所定条件を満たした場合に、学習が収束したと判断し、再度、ソースデータSD及びターゲットデータTDのそれぞれに対してデータ変換を行う。このとき、データ変換部101のパラメータは、学習が収束した後のものが用いられる。尚、所定条件とは、例えば、繰り返し回数や処理時間の上限値等であるが、これらに限定されない。
出力部109は、データ変換部101により学習後のパラメータを用いて再度のデータ変換が行われた複数の第2の変換後データ集合を出力する第1の出力手段の一例である。本実施形態では、出力部109は、学習後のNNでデータ変換した変換後ソースデータSDT及び変換後ターゲットデータTDTを複数の第2の変換後データ集合として出力する。尚、出力部109は、学習後のデータ変換部101のパラメータを出力する第2の出力手段であってもよい。また、出力部109は、学習後のクラス識別部102のパラメータが設定されたクラス識別部102を出力する第3の出力手段であってもよい。また、出力部109は、第1の出力手段、第2の出力手段及び第3の出力手段の一部又は全ての機能を有するものであればよい。
図5は、本実施形態2にかかるデータ変換装置100のハードウェア構成を示すブロック図である。データ変換装置100は、記憶装置110と、制御部120と、メモリ130と、IF(InterFace)部140とを備える。記憶装置110は、ハードディスク、フラッシュメモリ等の不揮発性記憶装置である。記憶装置110は、データ変換器111と、クラス識別器112と、ドメイン識別器113と、データ変換プログラム114とを記憶する。
データ変換器111は、入力されたデータ集合から他のデータ集合へ各データを変換する処理が実装されたプログラムモジュールやモデル式である。例えば、データ変換器111は、ソースデータSDの中からランダムにサンプリングされた複数のデータを入力データとし、各入力データに所定のパラメータ1111(重み付け係数)を用いて演算される数学モデルである。尚、本実施形態の説明では、データ変換器111は、データ変換ニューラルネットワークNNに相当するが、これに限定されず、サポートベクターマシン等で表現されたものであってもよい。
クラス識別器112は、入力されたデータ集合の少なくとも一部のデータがいずれのクラスに属するかを識別する処理が実装されたプログラムモジュールやモデル式である。例えば、クラス識別器112は、ソースデータSDに対してデータ変換器111によるデータ変換後のデータ集合の各データを入力データとし、各入力データに所定のパラメータ1121を用いて演算される数学モデルである。尚、本実施形態の説明では、クラス識別器112は、クラス識別ニューラルネットワークNNに相当するが、これに限定されず、サポートベクターマシン等で表現されたものであってもよい。
ドメイン識別器113は、入力されたデータ集合がいずれのドメインに属するかを識別する処理が実装されたプログラムモジュールやモデル式である。例えば、ドメイン識別器113は、ソースデータSD及びターゲットデータTDに対してデータ変換器111によるデータ変換後のデータ集合の各データを入力データとし、各入力データに所定のパラメータ1131を用いて演算される数学モデルである。尚、本実施形態の説明では、ドメイン識別器113は、ドメイン識別ニューラルネットワークNNに相当するが、これに限定されず、サポートベクターマシン等で表現されたものであってもよい。
データ変換プログラム114は、本実施形態にかかるデータ変換方法の処理が実装されたコンピュータプログラムである。
メモリ130は、RAM(Random Access Memory)等の揮発性記憶装置であり、制御部120の動作時に一時的に情報を保持するための記憶領域である。IF部140は、データ変換装置100の外部との入出力を行うインタフェースである。例えば、IF部140は、外部からの入力データを制御部120へ出力し、制御部120から受け付けたデータを外部へ出力する。
制御部120は、データ変換装置100の各構成を制御するプロセッサつまり制御装置である。制御部120は、記憶装置110からデータ変換プログラム114をメモリ130へ読み込み、データ変換プログラム114を実行する。また、制御部120は、記憶装置110からデータ変換器111、クラス識別器112及びドメイン識別器113を適宜、メモリ130へ読み込み、実行する。これにより、制御部120は、データ変換部101、クラス識別部102、クラス識別損失算出部103、ドメイン識別部104、ドメイン識別損失上界算出部105、ドメイン識別損失下界算出部106、損失最小化部107、損失最大化部108及び出力部109の機能を実現する。また、制御部120は、学習に伴い、記憶装置110内のパラメータ1111、パラメータ1121及びパラメータ1131を更新する。
図6は、本実施形態2にかかるデータ変換方法の流れを示すフローチャートである。まず、データ変換装置100は、ソースデータSD及びターゲットデータTDの入力を受け付ける(S200)。そして、データ変換部101は、データ変換ニューラルネットワークNNによりソースデータSDのデータ変換を行う(S201)。また、データ変換部101は、データ変換ニューラルネットワークNNによりターゲットデータTDのデータ変換を行う(S202)。
ステップS201の後、クラス識別部102は、ソースデータSDのデータ変換後のデータ集合の各データについて、クラス識別ニューラルネットワークNNによりクラス識別を行う(S203)。
また、ステップS201及びS202の後、ドメイン識別部104は、ソースデータSD及びターゲットデータTDのデータ変換後の各データ集合について、ドメイン識別ニューラルネットワークNNによりドメイン識別を行う(S205)。
ここで、図7は、本実施形態2にかかるソースデータ及びターゲットデータとデータ変換器、クラス識別器及びドメイン識別器の関係を説明するための図である。上述した通り、ソースデータSDはデータ変換ニューラルネットワークNNに入力され、変換後データ集合がクラス識別ニューラルネットワークNN及びドメイン識別ニューラルネットワークNNへ出力される。その結果、クラス識別ニューラルネットワークNNは、クラス識別結果CRSを出力し、ドメイン識別ニューラルネットワークNNは、ドメイン識別結果DRSを出力する。また、ターゲットデータTDはデータ変換ニューラルネットワークNNに入力され、変換後データ集合がドメイン識別ニューラルネットワークNNへ出力される。その結果、ドメイン識別ニューラルネットワークNNは、ドメイン識別結果DRTを出力する。
図6に戻り説明を続ける。ステップS203の後、クラス識別損失算出部103は、クラス識別結果CRSからクラス識別損失を算出する(S204)。
また、ステップS205の後、ドメイン識別損失上界算出部105は、ドメイン識別結果DRS及びDRTから、ドメイン識別損失の上界を算出する(S206)。併せて、ドメイン識別損失下界算出部106は、ドメイン識別結果DRS及びDRTから、ドメイン識別損失の下界を算出する(S207)。
ステップS204及びS206の後、損失最小化部107は、クラス識別損失とドメイン識別損失の上界とを最小化する(S208)。つまり、損失最小化部107は、上述したように、データ変換器111、クラス識別器112及びドメイン識別器113のパラメータを更新する。
また、ステップS207の後、損失最大化部108は、ドメイン識別損失の下界を最大化する(S209)。つまり、損失最大化部108は、上述したように、データ変換器111のパラメータを更新する。
ステップS208及びS209の後、データ変換装置100は、損失最小化部107及び損失最大化部108の学習が収束したか否かを判定する(S210)。つまり、データ変換装置100は、学習が所定条件を満たすか否かを判定する。
学習が所定条件を満たさない場合、ステップS201及びS202へ戻り、学習が収束するまで処理を繰り返す。学習が所定条件を満たした場合、データ変換部101は、学習済みパラメータを用いてソースデータSDのデータ変換を行う。そして、出力部109は、変換後ソースデータSDTを出力する(S211)。併せて、データ変換部101は、学習済みパラメータを用いてターゲットデータTDのデータ変換を行う。そして、出力部109は、変換後ターゲットデータTDTを出力する(S212)。
このように、本実施形態では、データが属するドメインごとにデータの分布が異なる状況において、あるドメイン(ソースドメイン)のデータの分布が別のドメイン(ターゲットドメイン)のデータの分布に近くなるようにデータを変換する場合を対象としている。本実施形態では、この場合に、データ分布間の近さを測る指標として直接最適化することが困難な指標を用いる場合でも、適切かつ効率的なデータ変換を行うことができる。例えば、敵対的学習に基づくドメイン適応において、直接最適化することが難しい評価指標をドメイン識別損失として用いて、敵対的学習に導入できるようにすることで、問題に応じた柔軟な損失関数の変更を可能にすることができる。そのため、直接最適化することが難しい評価指標をドメイン識別損失として用いた場合でも、効率的に敵対的学習を行い、データ変換を学習することができる。言い換えると、本実施形態では、データ変換の敵対的学習において、単一の損失について最大化と最小化を行うのではなく、最小化を行う際には損失の上界値を最小化し、最大化を行う際には損失の下界値を最大化する。これにより、元の損失が直接最適化することが難しい場合でも、最適化を効率的に行うことのできる上界値・下界値を代わりに用いることで、効率的な敵対的学習を実現できる。
<実施形態3>
本実施形態3は、上述した実施形態2のデータ変換装置100を用いた具体的な実施例である。図8は、本実施形態3にかかるパターン認識システム1000の構成を示すブロック図である。パターン認識システム1000は、データ変換装置100と、パターン認識装置200とを備える情報システムである。尚、パターン認識システム1000は、データ変換装置100とパターン認識装置200とをまとめて1台のコンピュータで実現しても良く、これらを機能ごとに複数台のコンピュータに分散して実現してもよい。パターン認識システム1000は、例えば、画像認識や音声認識等の用途に用いられる。但し、パターン認識システム1000は、その他の用途にて用いられてもよい。ここで、データ変換装置100は、入力されたソースデータSD(学習データ)及びターゲットデータTD(テストデータ)に対して特徴変換(データ変換)を行う。そして、データ変換装置100は、変換後ソースデータSDTを後述する学習部201、変換後ターゲットデータTDTを後述する認識部202に出力する。その他、データ変換装置100は、上述した実施形態2と同様であるため、詳細な説明を省略する。
パターン認識装置200は、上述した実施形態2の出力部109により出力された複数の第2の変換後データ集合を用いて学習されたパターン認識モデルを備える装置である。パターン認識装置200は、学習部201と、認識部202とを備える。
学習部201は、データ変換装置100にてデータ変換が行われた学習データ(変換後ソースデータSDT)に基づいて、例えばサポートベクターマシン、ニューラルネットワーク等に基づく認識モデルを学習する。学習部201は、第1の学習後のパラメータが設定されたデータ変換手段により、複数のデータ集合のそれぞれに対して再度のデータ変換が行われた複数の第2の変換後データ集合を用いてパターン認識モデルの第2の学習を行う第2の学習手段の一例である。
認識部202は、学習部201にて学習された認識モデルを用いて、データ変換装置100にてデータ変換されたテストデータ(変換後ターゲットデータTDT)の認識を行う。認識部202は、認識結果Rを、例えば図示しない任意の種類の記憶手段、通信ネットワーク又は任意の種類の表示手段等に出力する。認識部202は、第2の学習後のパラメータが設定されたパターン認識モデルを用いて所定のデータに対するパターン認識を行う認識手段の一例である。
図9は、本実施形態3にかかるパターン認識装置200のハードウェア構成を示すブロック図である。パターン認識装置200は、記憶装置210と、制御部220と、メモリ230と、IF部240とを備える情報処理装置である。記憶装置210は、ハードディスク、フラッシュメモリ等の不揮発性記憶装置である。記憶装置210は、パターン認識モデル211と、パターン認識プログラム212を記憶する。
パターン認識モデル211は、入力されたデータ集合(特徴情報)から、パターンを認識して認識結果を出力する処理が実装されたプログラムモジュールやモデル式である。例えば、パターン認識モデル211は、変換後ターゲットデータTDTを入力データとし、各入力データに所定のパラメータ2111を用いて演算される数学モデルである。
パターン認識プログラム212は、本実施形態にかかるパターン認識を含む処理が実装されたコンピュータプログラムである。
メモリ230は、RAM(Random Access Memory)等の揮発性記憶装置であり、制御部220の動作時に一時的に情報を保持するための記憶領域である。IF部240は、パターン認識装置200の外部との入出力を行うインタフェースである。例えば、IF部240は、データ変換装置100からの入力データを制御部220へ出力し、制御部220から受け付けたデータを外部へ出力する。
制御部220は、パターン認識装置200の各構成を制御するプロセッサつまり制御装置である。制御部220は、記憶装置210からパターン認識プログラム212をメモリ230へ読み込み、パターン認識プログラム212を実行する。また、制御部220は、記憶装置210からパターン認識モデル211を適宜、メモリ230へ読み込み、実行する。これにより、制御部220は、学習部201及び認識部202の機能を実現する。また、制御部220は、学習に伴い、記憶装置210内のパラメータ2111を更新する。
図10は、本実施形態3にかかるパターン認識処理の流れを示すフローチャートである。尚、前提として、上述した図6のデータ変換処理が実行済みとする。まず、パターン認識装置200は、データ変換装置100から変換後ソースデータSDT及び変換後ターゲットデータTDTの入力を受け付ける(S31)。ソースデータ、及び、ターゲットデータは、たとえば、画像情報から抽出された特徴ベクトル、または、音声情報から抽出された特徴ベクトル等である。パターン認識装置200は、たとえば、画像情報が検出対象を含んでいるか否かを判定する装置、または、音声情報の話者を特定する装置等である。
次に、学習部201は、変換後ソースデータSDTを用いてパターン認識モデル211を学習する(S32)。その後、認識部202は、学習済みのパターン認識モデル211を用いて変換後ターゲットデータTDTをパターン認識する(S33)。そして、認識部202は、認識結果Rを出力する(S34)。
このように、本実施形態3にかかるパターン認識システム1000においては、学習部201は、データ変換装置100にてデータ変換が行われた学習データに基づいて、認識モデルの学習を行う。そのため、本実施形態におけるパターン認識装置200は、予め用意された学習データの分布がテストデータの分布と異なっている場合でも、精度の高い認識モデルを生成することができる。したがって、本実施形態におけるパターン認識システム1000は、例えば画像や音声の認識に用いられる場合に、予め用意された学習データに基づいて生成された認識モデルを実際のテストデータに適用する場合に、高い精度で認識等を行うことができる。
<その他の実施形態>
尚、実施形態2にかかる出力部109が学習済みのクラス識別器を出力する場合、実施形態3にかかるパターン認識装置200は、当該学習済みのクラス識別器をパターン認識モデルとして用いても良い。
なお、上記実施形態において、様々な処理を行う機能ブロックとして図面に記載される各要素は、ハードウェア的には、CPU(Central Processing Unit)、メモリ、その他の回路で構成することができ、ソフトウェア的には、CPUがメモリにロードして実行するプログラム等によって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、又はそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。
また、上記のプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Compact Disc-Read Only Memory)、CD-R(CD-Recordable)、CD-R/W(CD-ReWritable)、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されても良い。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
なお、本開示は上記実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。また、本開示は、それぞれの実施形態を適宜組み合わせて実施されてもよい。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記A1)
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、各データ集合に対してデータ変換を行うデータ変換手段と、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別手段によるクラスの識別結果から、クラス識別損失を算出する第1の算出手段と、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別手段によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出手段と、
前記上界が減少するように前記ドメイン識別手段のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換手段のパラメータを更新して第1の学習を行う第1の学習手段と、
を備えるデータ変換装置。
(付記A2)
前記データ変換装置は、
前記データ変換手段により前記第1の学習後のパラメータを用いて再度のデータ変換が行われた複数の第2の変換後データ集合を出力する第1の出力手段をさらに備える
付記A1に記載のデータ変換装置。
(付記A3)
前記データ変換装置は、
前記第1の学習後の前記データ変換手段のパラメータを出力する第2の出力手段をさらに備える
付記A1又はA2に記載のデータ変換装置。
(付記A4)
前記第1の学習手段は、
前記第1の学習において、前記クラス識別損失を最小化するように前記クラス識別手段のパラメータをさらに更新し、
前記データ変換装置は、
前記第1の学習後の前記クラス識別手段のパラメータが設定された前記クラス識別手段を出力する第3の出力手段をさらに備える
付記A1乃至A3のいずれか1項に記載のデータ変換装置。
(付記A5)
前記第1の学習手段は、
前記ドメイン識別手段の前記第1の学習において、AUC(Area Under the Curve)を用いる
付記A1乃至A4のいずれか1項に記載のデータ変換装置。
(付記A6)
前記複数のデータ集合は、ソースドメインに属するソースデータ集合と、ターゲットドメインに属するターゲットデータ集合とを含む
付記A1乃至A5のいずれか1項に記載のデータ変換装置。
(付記A7)
付記A2に記載の前記第1の出力手段により出力された前記複数の第2の変換後データ集合を用いて学習されたパターン認識モデルを備える
パターン認識装置。
(付記A8)
付記A2に記載の前記第1の出力手段により出力された前記複数の第2の変換後データ集合を用いてパターン認識モデルの第2の学習を行う第2の学習手段と、
前記第2の学習後のパラメータが設定された前記パターン認識モデルを用いて入力されたデータ集合に対するパターン認識を行う認識手段と、
を備えるパターン認識装置。
(付記A9)
付記A4に記載の前記第3の出力手段により出力された前記クラス識別手段をパターン認識モデルとして備える
パターン認識装置。
(付記B1)
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、各データ集合に対してデータ変換を行うデータ変換手段と、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別手段によるクラスの識別結果から、クラス識別損失を算出する第1の算出手段と、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別手段によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出手段と、
前記上界が減少するように前記ドメイン識別手段のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換手段のパラメータを更新して第1の学習を行う第1の学習手段と、
前記第1の学習後のパラメータが設定された前記データ変換手段により、前記複数のデータ集合のそれぞれに対して再度のデータ変換が行われた複数の第2の変換後データ集合を用いてパターン認識モデルの第2の学習を行う第2の学習手段と、
前記第2の学習後のパラメータが設定された前記パターン認識モデルを用いて入力されたデータ集合に対するパターン認識を行う認識手段と、
を備えるパターン認識システム。
(付記B2)
前記第1の学習手段は、
前記ドメイン識別手段の前記第1の学習において、AUC(Area Under the Curve)を用いる
付記B1に記載のパターン認識システム。
(付記C1)
コンピュータが、
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、データ変換器を用いて各データ集合に対してデータ変換を行い、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別器によるクラスの識別結果から、クラス識別損失を算出し、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別器によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出し、
前記上界が減少するように前記ドメイン識別器のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換器のパラメータを更新して学習を行う
データ変換方法。
(付記D1)
異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、データ変換器を用いて各データ集合に対してデータ変換を行うデータ変換処理と、
前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別器によるクラスの識別結果から、クラス識別損失を算出する第1の算出処理と、
前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別器によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出処理と、
前記上界が減少するように前記ドメイン識別器のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換器のパラメータを更新して学習を行う学習処理と、
をコンピュータに実行させるデータ変換プログラムが格納された非一時的なコンピュータ可読媒体。
以上、実施形態(及び実施例)を参照して本願発明を説明したが、本願発明は上記実施形態(及び実施例)に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
1 データ変換装置
11 データ変換部
12 第1の算出部
13 第2の算出部
14 第1の学習部
100 データ変換装置
101 データ変換部
102 クラス識別部
103 クラス識別損失算出部
104 ドメイン識別部
105 ドメイン識別損失上界算出部
106 ドメイン識別損失下界算出部
107 損失最小化部
108 損失最大化部
109 出力部
110 記憶装置
111 データ変換器
1111 パラメータ
112 クラス識別器
1121 パラメータ
113 ドメイン識別器
1131 パラメータ
114 データ変換プログラム
120 制御部
130 メモリ
140 IF部
1000 パターン認識システム
200 パターン認識装置
201 学習部
202 認識部
210 記憶装置
211 パターン認識モデル
2111 パラメータ
212 パターン認識プログラム
220 制御部
230 メモリ
240 IF部
SD ソースデータ
TD ターゲットデータ
BL クラス識別境界
MD 誤認識データ
SDT 変換後ソースデータ
TDT 変換後ターゲットデータ
BLT クラス識別境界
CRS クラス識別結果
DRS ドメイン識別結果
DRT ドメイン識別結果
NN データ変換ニューラルネットワーク
NN クラス識別ニューラルネットワーク
NN ドメイン識別ニューラルネットワーク
R 認識結果

Claims (10)

  1. 異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、各データ集合に対してデータ変換を行うデータ変換手段と、
    前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別手段によるクラスの識別結果から、クラス識別損失を算出する第1の算出手段と、
    前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別手段によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出手段と、
    前記上界が減少するように前記ドメイン識別手段のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換手段のパラメータを更新して第1の学習を行う第1の学習手段と、
    を備えるデータ変換装置。
  2. 前記データ変換装置は、
    前記データ変換手段により前記第1の学習後のパラメータを用いて再度のデータ変換が行われた複数の第2の変換後データ集合を出力する第1の出力手段をさらに備える
    請求項1に記載のデータ変換装置。
  3. 前記データ変換装置は、
    前記第1の学習後の前記データ変換手段のパラメータを出力する第2の出力手段をさらに備える
    請求項1又は2に記載のデータ変換装置。
  4. 前記第1の学習手段は、
    前記第1の学習において、前記クラス識別損失を最小化するように前記クラス識別手段のパラメータをさらに更新し、
    前記データ変換装置は、
    前記第1の学習後の前記クラス識別手段のパラメータが設定された前記クラス識別手段を出力する第3の出力手段をさらに備える
    請求項1乃至3のいずれか1項に記載のデータ変換装置。
  5. 前記第1の学習手段は、
    前記ドメイン識別手段の前記第1の学習において、AUC(Area Under the Curve)を用いる
    請求項1乃至4のいずれか1項に記載のデータ変換装置。
  6. 前記複数のデータ集合は、ソースドメインに属するソースデータ集合と、ターゲットドメインに属するターゲットデータ集合とを含む
    請求項1乃至5のいずれか1項に記載のデータ変換装置。
  7. 請求項2に記載の前記第1の出力手段により出力された前記複数の第2の変換後データ集合を用いて学習されたパターン認識モデルを備える
    パターン認識装置。
  8. 異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、各データ集合に対してデータ変換を行うデータ変換手段と、
    前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別手段によるクラスの識別結果から、クラス識別損失を算出する第1の算出手段と、
    前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別手段によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出手段と、
    前記上界が減少するように前記ドメイン識別手段のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換手段のパラメータを更新して第1の学習を行う第1の学習手段と、
    前記第1の学習後のパラメータが設定された前記データ変換手段により、前記複数のデータ集合のそれぞれに対して再度のデータ変換が行われた複数の第2の変換後データ集合を用いてパターン認識モデルの第2の学習を行う第2の学習手段と、
    前記第2の学習後のパラメータが設定された前記パターン認識モデルを用いて入力されたデータ集合に対するパターン認識を行う認識手段と、
    を備えるパターン認識システム。
  9. コンピュータが、
    異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、データ変換器を用いて各データ集合に対してデータ変換を行い、
    前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別器によるクラスの識別結果から、クラス識別損失を算出し、
    前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別器によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出し、
    前記上界が減少するように前記ドメイン識別器のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換器のパラメータを更新して学習を行う
    データ変換方法。
  10. 異なるドメインに属する複数のデータ集合のデータ分布を互いに近付けるように、データ変換器を用いて各データ集合に対してデータ変換を行うデータ変換処理と、
    前記データ変換後の複数の第1の変換後データ集合のうち少なくとも一部に対するクラス識別器によるクラスの識別結果から、クラス識別損失を算出する第1の算出処理と、
    前記複数の第1の変換後データ集合のそれぞれに対するドメイン識別器によるドメインの識別結果から、ドメイン識別損失の上界及び下界を算出する第2の算出処理と、
    前記上界が減少するように前記ドメイン識別器のパラメータを更新し、前記クラス識別損失が減少するように、かつ、前記下界が増大するように前記データ変換器のパラメータを更新して学習を行う学習処理と、
    をコンピュータに実行させるデータ変換プログラム
JP2021519967A 2019-05-22 2019-05-22 データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム Active JP7211501B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/020218 WO2020235033A1 (ja) 2019-05-22 2019-05-22 データ変換装置、パターン認識システム、データ変換方法及び非一時的なコンピュータ可読媒体

Publications (3)

Publication Number Publication Date
JPWO2020235033A1 JPWO2020235033A1 (ja) 2020-11-26
JPWO2020235033A5 JPWO2020235033A5 (ja) 2022-02-08
JP7211501B2 true JP7211501B2 (ja) 2023-01-24

Family

ID=73458979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519967A Active JP7211501B2 (ja) 2019-05-22 2019-05-22 データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム

Country Status (3)

Country Link
US (1) US20220245518A1 (ja)
JP (1) JP7211501B2 (ja)
WO (1) WO2020235033A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11928559B2 (en) * 2019-04-08 2024-03-12 Google Llc Transformation for machine learning pre-processing
WO2022190301A1 (ja) * 2021-03-10 2022-09-15 日本電気株式会社 学習装置、学習方法、及びコンピュータ可読媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CAI, Guanyu et al.,"Unsupervised Domain Adaptation with Adversarial Residual Transform Networks",arXiv.org [online],arXiv:1804.09578v1,Cornell University,2018年,pp.1-11,[検索日 2019.08.07], インターネット:<URL: https://arxiv.org/pdf/1804.09578v1.pdf>
岩澤 有祐 ほか,「敵対的訓練を利用したドメイン不変な表現の学習」,第31回 (2017) 人工知能学会全国大会論文集,一般社団法人 人工知能学会,2017年,セッションID:1A2-OS-05b-3, pp.1-4

Also Published As

Publication number Publication date
WO2020235033A1 (ja) 2020-11-26
US20220245518A1 (en) 2022-08-04
JPWO2020235033A1 (ja) 2020-11-26

Similar Documents

Publication Publication Date Title
JP7028345B2 (ja) パタン認識装置、パタン認識方法、及びプログラム
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
US10970313B2 (en) Clustering device, clustering method, and computer program product
JP6943291B2 (ja) 学習装置、学習方法、及び、プログラム
JP7095599B2 (ja) 辞書学習装置、辞書学習方法、データ認識方法およびコンピュータプログラム
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
JP7211501B2 (ja) データ変換装置、パターン認識システム、データ変換方法及びデータ変換プログラム
KR20220130565A (ko) 키워드 검출 방법 및 장치
JP6673226B2 (ja) 特徴変換装置、認識装置、特徴変換方法及びコンピュータ読み取り可能記録媒体
EP3501024B1 (en) Systems, apparatuses, and methods for speaker verification using artificial neural networks
KR101805437B1 (ko) 배경 화자 데이터를 이용한 화자 인증 방법 및 화자 인증 시스템
KR20170108339A (ko) 영상에서 다수의 객체를 인식하는 방법
JP2021081713A (ja) 音声信号を処理するための方法、装置、機器、および媒体
US11526691B2 (en) Learning device, learning method, and storage medium
WO2016181474A1 (ja) パターン認識装置、パターン認識方法およびプログラム
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
WO2020040312A1 (ja) 学習装置、学習方法および予測システム
US20240054349A1 (en) Training apparatus, classification apparatus, training method, classification method, and program
JP2020135485A (ja) 拡張装置、拡張方法及び拡張プログラム
JPWO2019123642A1 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
US20220028372A1 (en) Learning device and pattern recognition device
JP2018081294A (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
WO2019181675A1 (ja) 識別器修正装置、識別器修正方法、および記憶媒体
JP7396467B2 (ja) 学習装置、分類装置、学習方法、分類方法、および、プログラム
JP7485226B2 (ja) 訓練装置、分類装置、訓練方法、分類方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221226

R151 Written notification of patent or utility model registration

Ref document number: 7211501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151