JP2018529157A

JP2018529157A - ドメイン適応を用いたパターン認識装置、方法およびプログラム

Info

Publication number: JP2018529157A
Application number: JP2018507663A
Authority: JP
Inventors: チョンチョンワン; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2018-10-04
Anticipated expiration: 2035-09-16
Also published as: JP6620882B2; WO2017046828A1; US20180253628A1; US10614343B2

Abstract

ドメイン適応を用いたパターン認識装置１０は、推定部１１を備える。推定部１１は、第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する。

Description

本発明は、確率的線形判別分析（ＰＬＤＡ）に基づいて、パターン認識システムのパラメータを新たなドメインに適応させるためのドメイン適応に関する装置、方法、およびプログラムに関する。

科学、工学、農業、電子商取引、医学、医療用画像解析、軍事、国家安全保障等の多様な分野における実際の問題を解決するために、パターン認識システムが日常生活に広く適用されている。パターン認識における１つの重要な技術は、クラス内のばらつきを補償し、不適切な要素からクラス固有の要素を分離するための強力なデータドリブンの仕組みを提供する確率的線形判別分析（ＰＬＤＡ）である。ＰＬＤＡによって、１つの例から以前に見えなかったクラスのモデルを構築することができ、クラスをよりよく表現するために複数の例を結合することができる。ＰＬＤＡは、顔認識や話者認識において効力を発揮してきた。

ＰＬＤＡのパラメータを学習するために、一般的に、同様の条件での数千のクラスのそれぞれに対する複数の観測が要求される。しかし、そのような大量のリソース、すなわち、インドメイン（ＩＮＤ）データを、各アプリケーションでの着目している新たなドメインのために集めることは、高コストであり、さらに非現実的である。既に存在する、最も利用可能な豊富なデータは、着目しているドメインに適合せず、この種のデータは、アウトオブドメイン（ＯＯＤ）データと呼ばれる。ＯＯＤデータで学習されたＰＬＤＡは、ディベロップメントデータと評価データの間のミスマッチがＩＮＤ内のばらつきよりも非常に大きいときに、ＩＮＤで適切に表現されない。従って、ディベロップメントデータと評価データの間のドメインのミスマッチは、パターン認識システムのパフォーマンスを低下させる。

ディベロップメントデータと評価データの間のドメインミスマッチを扱うため、既に利用できるＯＯＤデータから展開されたＰＬＤＡパラメータを適応させるために、少ない量のインドメインデータだけが利用できる新たなドメインでよいパフォーマンスを達成できるように、ドメイン適応が適用される。

いくつかのドメイン適応の方法は、最尤推定の線形結合を利用している（非特許文献１を参照）。図９に示すように、まず、ＰＬＤＡパラメータ推定部１０４が、特徴抽出部１０３によってＯＯＤデータ１０１とＩＮＤデータ１０２からそれぞれ抽出された特徴を使って、２セットのＰＬＤＡパラメータを別々に学習する。ＯＯＤとＩＮＤのクラス内のばらつき

と、クラス間のばらつき

とが得られた後、線形結合部１０５は、ＰＬＤＡパラメータの２つのセットを、

となるように結合し、適応されたＰＬＤＡパラメータ１０６を生成する。ここで、

は、ＩＮＤデータがどの程度、寄与するかを定めるための重み係数である。評価フェーズでは、ＰＬＤＡ分類部１０７は、登録データとテストデータからそれぞれ抽出された特徴の、与えられたペアに対するスコアを計算する。この方法では、ＰＬＤＡパラメータ

は、

に偏るので、ＯＯＤがＩＮＤに近い場合にのみ作用する。しかし、常にそうなるとは限らない。ＯＯＤがＩＮＤから離れている場合に、結合されたＰＬＤＡパラメータが正しいパラメータに近いとは限らない。さらに、重み係数

を推定するために、追加の学習データが必要となる。そのため、ドメインのミスマッチを補償できない。図９は、ＯＯＤデータとＩＮＤデータによって学習されたＰＬＤＡパラメータの２つのセットに基づく線形結合を用いたパラメータ適応という関連技術１のブロック図である。

上述の方法は、パラメータ適応を重点的に扱っているが、方法の他のクラスは、図１０に示すデータ補償技術を重点的に扱う。図１０は、関連技術２、すなわちi-vector補償のブロック図である。ＯＯＤデータとＩＮＤデータの統計量の知識を用いて、特徴がシフトされることを示している。前述のものと同様に、これらの方法は、特徴抽出部２０３によって、ＯＯＤデータ２０１とＩＮＤデータ２０２から、２セットの特徴をそれぞれ抽出する。ドメインミスマッチのために、ディベロップメント（ＯＯＤ）データと評価（ＩＮＤ）データとの間にデータのシフトがあると仮定する。データセットのばらつきを特徴空間（２０４）の中でのシフトとして明示的にモデル化し、前処理のクリーンアップステップ（２０６）として、それを低減する。その後、ＰＬＤＡパラメータ推定部２０７は、データセットのばらつきが低減されたデータから、ＰＬＤＡパラメータ２０８を推定する（非特許文献２を参照）。評価フェーズでは、ＰＬＤＡ分類部２０９は、前述の方法におけるＰＬＤＡ分類部１０７と同様に、スコアを計算する。それらの方法では、変換は、ＰＬＤＡの枠組みでは最適化されない。システムパラメータ全体を最適化するための２以上の基準があり、最尤（ＭＬ）や最小距離等が挙げられる。従って、包括的な最適化に到達することができない。

D. Garcia-Romero and A. McCree, "Supervised domain adaptation for i-Vector based speaker recognition", ICASSP, 2014 H. Aronowits "Inter dataset variability compensation for speaker recognition", ICASSP, 2014

確率的線形判別分析（ＰＬＤＡ）は、パターン認識（顔認識、話者認識等）で広く受け入れられている。その機能は、クラス内のばらつきを補償することと、不適切な要素からクラス固有の特徴の要素を分離するための強力なデータドリブンの仕組みを提供することであり、それによって認識パフォーマンスが向上する。しかし、ＰＬＤＡの成果は、数千の観測を伴う大きなディベロップメントセットの利用性に依存する。さらに、ディベロップメントデータは、顔認識における照明条件や人種または話者認識における音響環境や伝送チャネル等のドメインの評価データに適合しなければならない。

大量のデータに対するＰＬＤＡの厳格な要求や、目標ドメインの十分なインドメイン（ＩＮＤ）データを得ることが難しくかつ高コストであるという現実的な問題によって、我々は、元ドメインの豊富なアウトオブドメイン（ＯＯＤ）データを使い、ドメイン適応を適用することに着目した。ＰＬＤＡにおけるドメイン適応は、少ない量のＩＮＤデータだけが利用できる新たなドメインで良い結果が得られるように、既に利用できるＯＯＤデータから展開されたＰＬＤＡパラメータを適応させることである。

ドメイン適応（非特許文献１、非特許文献２）への既存のアプローチがあり、ドメイン適応は問題を解決しようとするものであるが、それらのアプローチには以下のような欠点がある。
それらは、しばしば、ＯＯＤがＩＮＤに近いという非現実的な仮定を置く。そのため、データが近いドメイン内にない多くの実際のアプリケーションでは、ＰＬＤＡパラメータの適応は、適応されたＰＬＤＡパラメータ

が、ＯＯＤの

に偏るので、特定の用途がない。さらに、追加の重み係数を学習するために、追加のデータおよび学習が必要になる。そして、ＯＯＤデータとＩＮＤデータの間のアフィン変換のような明確な関係がない。しばしば、最尤（ＭＬ）や最小距離等のような、システムパラメータを最適化するための２以上の基準が存在する。従って、包括的な最適化に到達することができない。

本発明の目的は、変換パラメータとＰＬＤＡパラメータを適切に最適化することができる、ドメイン適応を用いたパターン認識装置、ドメイン適応を用いたパターン認識方法、および、ドメイン適応を用いたパターン認識プログラムを提供することである。

本発明によるドメイン適応を用いたパターン認識装置は、第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する推定部を備える。

本発明によるドメイン適応を用いたパターン認識方法は、第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する。

本発明によるドメイン適応を用いたパターン認識プログラムは、コンピュータに、第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する推定処理を実行させる。

この発明の効果は、変換パラメータとＰＬＤＡパラメータを適切に最適化できることである。

本発明の第１の実施形態のフローチャートである。本発明の第２の実施形態のフローチャートである。パターン認識のテストフェーズのフローチャートである。本発明の第１の実施形態のブロック図である。本発明の第２の実施形態のブロック図である。本発明の第３の実施形態のブロック図である。本発明の第４の実施形態のブロック図である。本発明の概要を示すブロック図である。ＯＯＤデータとＩＮＤデータによって学習されたＰＬＤＡパラメータの２つのセットに基づく線形結合を用いたパラメータ適応という関連技術１のブロック図である。関連技術２、すなわちi-vector補償のブロック図である。

以下、本発明の実施形態を詳細に説明する。実装は、非常に詳細に説明される。説明図とともにここで示される説明は、当業者にとって本発明を実施するためのしっかりとしたガイドを提供するようにしている。図面は、技術の応用を限定するものではない。

最初に、ここで全体的なアプローチを要約する。クラス間とクラス内の共分散がドメインに依存すると仮定し、さらに、１つのドメイン内の特徴はアフィン変換によって他のドメインに変換され得ると仮定する。従って、ＩＮＤデータの全ての特徴ベクトルは、変換パラメータを用いて、ＯＯＤデータのそれと同じドメインに変換される。変換後、ＩＮＤデータとＯＯＤデータは、同じクラス間とクラス内の共分散を共有する。最後に、ＰＬＤＡ分類器が、登録データとテストデータの尤度のスコアを与え、決定する。

本発明の利点は、ＰＬＤＡパラメータを用いた特徴変換によってドメインミスマッチが補償されるということである。本発明の他の利点は、ＰＬＤＡパラメータが特徴変換によって適応されるということである。ＰＬＤＡパラメータは、唯一の包括的な基準によるＩＮＤデータとＯＯＤデータの両方の知識によって、同時に変換パラメータを自動的に更新することで、反復的に学習される。そして、そのことにより、その基準で定められる目的関数を最大化または最小化することで、より良いパラメータが得られる。さらに、追加ステップで学習される必要がある重み係数はない。本発明を用いることで、パターン認識システムを、異なる音響環境で操作される話者照合システム、異なる照明条件に適用される顔認識システム等の、十分な量のＩＮＤデータを集めにくい、多くの実際のアプリケーションに適用することが、より低コストになり、より現実的になる。

本発明は、いくつかのステップと、それらのステップの他のそれぞれのステップに対する１以上の関係とを含み、そして、構成、要素の組合せ、および、それらのステップに割り当てられるように適合された部分の配置を具体化している装置が、以下の詳細な開示、すなわち、図面の説明と詳細な説明において、例示されている。

実施形態１．
図４は、本発明の第１の実施形態のブロック図である。本発明の第１の実施形態は、シングルステップのドメイン適応を示す。第１の実施形態は、ＰＬＤＡパラメータと変換パラメータを同じステップで推定する。図４によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部３０３と、パラメータ推定部３０４と、ＰＬＤＡパラメータ３０５の記憶装置と、変換パラメータ３０６の記憶装置と、特徴変換部３０７と、ＰＬＤＡ分類部３０８とを備える。

ディベロップメントパートでは、特徴抽出部３０３は、ＯＯＤデータ３０１とＩＮＤデータ３０２から、２セットの特徴をそれぞれ抽出する。パラメータ推定部３０４は、２セットの特徴から、ＰＬＤＡパラメータ３０５と、変換パラメータ３０６を推定する。評価パートでは、特徴抽出部３０３は、登録データとテストデータからそれぞれ特徴を抽出する。特徴変換部３０７は、変換パラメータ３０６によって、その特徴を元ドメイン内に変換する。最後に、ＰＬＤＡ分類部３０８は、テストデータと登録データが同じクラスからのものであるかどうかを分類する。

顔認証の場合、ＰＬＤＡディベロップメントにおける画像から、画像が、異なる照明条件で撮られたと認識されたならば、ドメインミスマッチが生じていることになる。ディベロップメントのための画像がＯＤＤデータであり、認識される画像がＩＮＤデータである。特徴抽出部３０３は、目の間隔、鼻の幅、頬骨の形、下あごの輪郭の長さ等の顔の特徴を抽出する。ＰＬＤＡ分類部３０８は、顔の登録画像の特徴と、顔のテスト画像の特徴が、同一人からのものであるか否かを分類する。話者認識の場合、システムは、特定のチャネル（ＩＮＤ）で記録された音声に適用され、他のチャネルで記録されたＰＬＤＡ学習のために利用可能な音声データは、ＯＤＤである。特徴抽出部３０３は、音声データから、メル周波数ケプストラル係数（ＭＥＣＣｓ）、知覚的線形予測（ＰＬＰ）等を抽出する。それらは、しばしば、i-vectorと呼ばれる固定次元のベクトル等の、他の形式の特徴に変換され、ＰＬＤＡ分類部３０８に与えられる。ＰＬＤＡ分類部３０８は、音声の登録データの特徴と、音声のテストデータの特徴と、音声のテストデータの特徴とが、同じ話者からのものであるか否かを分類する。

特徴抽出部３０３、パラメータ推定部３０４、特徴変換部３０７、および、ＰＬＤＡ分類部３０８は、例えば、パターン認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部３０３、パラメータ推定部３０４、特徴変換部３０７、および、ＰＬＤＡ分類部３０８として動作すればよい。また、上記の各要素３０３，３０４，３０７，３０８が別々のハードウェアによって実現されてもよい。

図１は、図４とともに説明された本発明の第１の実施形態のフローチャートである。これは、実施形態のディベロップメントパートを示している。最初に、特徴抽出部３０３は、記憶装置からＯＯＤデータを読み込む（ステップＡ０１）。２番目に、ＯＯＤデータから特徴を抽出する（ステップＡ０２）。次に、別の記憶装置からＩＮＤデータを読み込む（ステップＡ０３）。その後、ＩＮＤデータから特徴を抽出する（ステップＡ０４）。ステップＡ０１〜Ａ０４の順序は、図１に示される形式に限定されない。ここで、ＯＯＤの特徴とＩＮＤの特徴の両方は、学習に入力される。後のステップは、ＰＬＤＡパラメータと変換パラメータが、最尤（ＭＬ）、最大事後確率（ＭＡＰ）、ベイズ基準等のある特定の基準に基づいて、同時に推定されることを示す。例えば、ＭＬの場合、これらのパラメータの推定は、ＥＭ（expectation-maximization）アルゴリズムによって、反復的に行われ、補助関数が目的関数から導出される。パラメータ推定部３０４は、最初に、ＰＬＤＡパラメータと変換パラメータを初期化する（ステップＡ０５）。そして、パラメータ推定部３０４は、クラス隠れ変数の期待値を計算する（ステップＡ０６）。その期待値に基づいて、パラメータ推定部３０４は、ＰＬＤＡパラメータと変換パラメータを再推定する（ステップＡ０７）。最後に、パラメータ推定部３０４は、ＩＮＤとＯＯＤの両方の観測の尤度を計算し、それと、以前のパラメータの尤度とを比較する（ステップＡ０８）。収束したならば、すなわち、２つの尤度の差がある特定の閾値よりも小さければ、学習は終了し、ＰＬＤＡパラメータと変換パラメータは記憶される（ステップＡ０９）。そうでなければ、収束するまで、さらにＥＭアルゴリズムの反復が実行される。

図３は、本発明の第１の実施形態の他のフローチャートである。これは、実施形態の評価パートを示している。最初に、特徴変換部３０７が、記憶装置に記憶されている変換パラメータ３０６を読み込み（ステップＣ０１）、ＰＬＤＡ分類部３０８が、記憶装置からＰＬＤＡパラメータ３０５を読み込む（ステップＣ０２）。ステップＣ０１とステップＣ０２は、交換可能である。２番目に、登録データが特徴抽出部３０３に与えられる（ステップＣ０３）。そして、特徴抽出部３０３は、特徴を抽出する（ステップＣ０４）。同じことがテストデータに対して行われる。特徴抽出部３０３は、テストデータを読み込み（ステップＣ０５）、特徴を抽出する（ステップＣ０６）。ステップＣ０３〜Ｃ０６の順序も同様に、制限されない。そして、特徴変換部３０７は、登録データとテストデータの両方の特徴を変換する（ステップＣ０７）。最後に、ＰＬＤＡ分類部３０８は、変換された特徴が同じクラスからのものであるかどうか分類する（ステップＣ０８）。

本発明は、クラス間とクラス内の共分散

がドメインに依存していて、元ドメインの（ＯＯＤからの）共分散

と、目標ドメインの（ＩＮＤからの）共分散

とが異なるという仮定に基づいている。さらに、目標ドメインの特徴

は、元ドメイン

に変換され得るということを仮定し、ここで、この変換は、アフィン変換

を適用することによって行われ、また、元ドメインにおいて、

と

が同じ共分散と平均

を共有することとなるように、変換が行われると仮定する。ここで

は、ＩＮＤ（目標ドメイン）を表し、

は、ＯＯＤ（元ドメイン）を表し、

は、元ドメイン内の変換されたＩＮＤであり、

と称する。そのため、目標ドメイン内のＰＬＤＡパラメータは、

である。

図６と図１を用いて述べたように、ＰＬＤＡパラメータと変換パラメータ

を同時に最適化（３０４）するために、本発明は、ＩＮＤデータとＯＯＤデータ内の全ての観測の尤度を最大化してよい（図４）。与えられた

ＯＯＤ学習パターンと、

ＩＮＤ学習パターンは、

と

のそれぞれのクラスに分離され、対数尤度は、

となる。ここで、

は、同じクラスに属する

または

のパターンのセットの結合確率分布である。

ＰＬＤＡに基づく音響モデルのパラメータを更新するために、ＥＭアルゴリズムを用いてもよい。例えば、ＰＬＤＡパラメータ

と、変換パラメータ

を更新するための補助関数は、

である。以下の表現で、全ての

と、

は、元ドメイン

内のパラメータと、

を表す。

Ｅ−ステップ
隠れ変数

の事後確率が、ベイズの定理

を使って計算される。ここで、

である。

Ｍ−ステップ
各パラメータに関連する

の微分係数をゼロに設定することによって、以下の式によって解が得られる。

は、ＰＬＤＡパラメータ３０５として記憶され、

は、変換パラメータ３０６として記憶される。

実施形態２．
図５は、本発明の第２の実施形態のブロック図である。本発明の第２の実施形態は、２ステップのドメイン適応学習を示す。本発明の第２の実施形態は、ＰＬＤＡパラメータ推定と変換パラメータ推定の２つの学習ループを示す（図２を参照）。図５によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部４０３と、推定部４１１と、ＰＬＤＡパラメータ４０５の記憶装置と、変換パラメータ４０７の記憶装置と、特徴変換部４０８と、ＰＬＤＡ分類部４０９とを備える。推定部４１１は、ＰＬＤＡパラメータ推定部４０４と、変換パラメータ推定部４０６とを備える。

特徴抽出部４０３は、ＯＯＤデータ４０１とＩＮＤデータ４０２から、２セットの特徴をそれぞれ抽出する。ＰＬＤＡパラメータ推定部４０４は、ＯＯＤデータ３０１の特徴からＰＬＤＡパラメータ４０５を推定する。変換パラメータ推定部４０６は、ＰＬＤＡパラメータ４０５とＩＮＤデータ４０２の特徴とを使って、基準によって定められる目的関数を最大化または最小化することによって、変換パラメータ４０７を推定する。評価パートでは、特徴抽出部４０３は、登録データとテストデータからそれぞれ、特徴を抽出する。特徴変換部４０８は、変換パラメータ４０７によって、特徴を元ドメイン内に変換する。最後に、ＰＬＤＡ分類部４０９は、テストデータと登録データが同じクラスからのものかどうかを分類する。

特徴抽出部４０３、推定部４１１（ＰＬＤＡパラメータ推定部４０４および変換パラメータ推定部４０６）、特徴変換部４０８、および、ＰＬＤＡ分類部４０９は、例えば、パターン認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部４０３、推定部４１１（ＰＬＤＡパラメータ推定部４０４および変換パラメータ推定部４０６）、特徴変換部４０８、および、ＰＬＤＡ分類部４０９として動作すればよい。また、上記の各要素４０３，４０４，４０６，４０８，４０９が別々のハードウェアによって実現されてもよい。

図２は、図５とともに説明された本発明の第２の実施形態のフローチャートである。これは、実施形態のディベロップメントパートを示している。最初に、特徴抽出部４０３は、記憶装置からＯＯＤデータを読み込む（ステップＢ０１）。２番目に、ＯＯＤデータから特徴を抽出する（ステップＢ０２）。そして、後続のステップでＰＬＤＡパラメータが推定される。最初に、ＰＬＤＡパラメータ推定部４０４が、ＰＬＤＡパラメータを初期化する（ステップＢ０３）。そして、ＰＬＤＡパラメータ推定部４０４が、最尤（ＭＬ）、最大事後確率（ＭＡＰ）、ベイズ基準等のある特定の基準に基づいて、ＰＬＤＡパラメータを推定する。例えば、ＭＬの場合、そのパラメータの推定は、ＥＭ（expectation-maximization）アルゴリズムによって、反復的に行われる。ＰＬＤＡパラメータ推定部４０４は、クラス隠れ変数の期待値を計算する（ステップＢ０４）。その期待値に基づいて、ＰＬＤＡパラメータ推定部４０４は、ＰＬＤＡパラメータを再推定する（ステップＢ０５）。そして、ＰＬＤＡパラメータ推定部４０４は、再度、ＯＯＤに関する観測の尤度を計算し、それと、以前に推定されたパラメータの尤度とを比較する（ステップＢ０６）。収束したならば、すなわち、２つの尤度の差がある特定の閾値よりも小さければ、学習は終了し、ＰＬＤＡパラメータは記憶される（ステップＢ０７）。そうでなければ、収束するまで、さらにＥＭアルゴリズムの反復が実行される。

ＰＬＤＡパラメータ推定部４０４は、例えば、参考文献１に記載されている再推定式に従って、ＰＬＤＡパラメータを推定する。

参考文献１
S. Ioffe, “Probabilistic linear discriminant analysis”, In European Conference on Computer Vision, 2006

ＰＬＤＡパラメータが推定された後、次のように、変換パラメータが学習される。最初に、特徴抽出部４０３が、記憶装置からＩＮＤデータを読み込む（ステップＢ０８）。２番目に、ＩＮＤデータから特徴を抽出する（ステップＢ０９）。そして、変換パラメータ推定部４０６が、変換パラメータを初期化する（ステップＢ１０）。そして、変換パラメータ推定部４０６が、ＭＬ、ＭＡＰ、ベイズ基準等のある特定の基準に基づいて変換パラメータを推定する。その基準は、様々な基準のうちの１つである。ＭＬの場合、変換パラメータ推定部４０６は、クラス隠れ変数の期待値を計算する（ステップＢ１１）。その期待値に基づいて、変換パラメータ推定部４０６は、変換パラメータを再推定する（ステップＢ１２）。変換パラメータ推定部４０６は、再度、ＩＮＤの観測の尤度を計算し、それと、以前のパラメータの尤度とを比較する（ステップＢ１３）。収束したならば、すなわち、２つの尤度の差がある特定の閾値よりも小さければ、学習は終了し、変換パラメータは記憶される（ステップＢ１４）。そうでなければ、収束するまで、さらにＥＭアルゴリズムの反復が実行される。

第２の実施形態の評価パートは、第１の実施形態のそれと同様であり、図３のフローチャートに示されるフローと同じフローを辿る。

第２の実施形態は、クラス間とクラス内の共分散

がドメインに依存し、目標ドメインの特徴

は、元ドメイン

に変換され得ることという同じ仮定を、第１の実施形態と共有する。ここで、この変換は、アフィン変換

を適用することによって行われると仮定する。図５と図２を用いて述べたように、本実施形態は、ＯＯＤデータを用いてＰＬＤＡパラメータを最適化し（４０４）、ＩＮＤデータを用いて変換パラメータ

を最適化する（４０６）。そして、特徴変換部４０８は、全ての評価データを元ドメイン内に変換し、ＰＬＤＡ分類部４０９は、変換された特徴に適用される。変換パラメータ

の推定（４０６）において、元ドメインの共分散

と、平均

が与えられる（４０５）。ＭＬ基準では、各パラメータに関連する

の微分係数をゼロに設定することによって、以下の式からパラメータが推定される。

ここで、

は、クラスの数であり、

は、目標ドメイン内の観測の数である。

前の段落で示されてきたように、第２の実施形態は、ＰＬＤＡパラメータと変換パラメータを別々に２つのステップで推定し、そのことによって、評価処理は、簡略化され、唯一の包括的な基準が保たれる。第２の実施形態の利点は、第１の実施形態よりも、より高い計算効率と、より少ないメモリ消費で、パラメータを得ることができることである。

最初の２ステップ、すなわち、ＰＬＤＡパラメータ推定と変換パラメータ推定が完了した後、目標ドメイン内のＩＮＤディベロップメントデータと評価データを、全てのデータが適合するように元ドメイン内へ変換することができる変換パラメータを得られる。また、

データセットをＯＯＤデータセットに加えることによって、共分散を更新し続けることができる。これらのステップを繰り返すことによって、マージされたドメインのための変換パラメータとＰＬＤＡを最適化することができる。

実施形態３．
図６は、本発明の第３の実施形態のブロック図である。第３の実施形態は、ディベロップメントデータに変換を適用するもう一つの形態である。図６によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部５０３と、パラメータ推定部５０４と、ＰＬＤＡパラメータ５０５の記憶装置と、変換パラメータ５０６の記憶装置と、特徴変換部５０７と、ＰＬＤＡ分類部５０８とを備える。

第１の実施形態では、特徴変換部３０７は、評価パートにある。一方、第３の実施形態では、特徴変換部５０７は、ディベロップメントパートにある。特徴変換部５０７は、変換パラメータ５０６を用いて、ＯＯＤデータの特徴を、ＩＮＤドメインのドメインに変換する。ドメインミスマッチは、ディベロップメントパートで補償される。第３の実施形態の残りの部分（５０３，５０４，５０５，５０６）は、第１の実施形態におけるそれ（３０３，３０４，３０５，３０６）と同様に作用する。そのパラメータ推定では、前述の実施形態とは逆のアフィン変換、すなわち、元ドメインから目標ドメインへの変換を仮定して、非常に類似した再推定式が導出される。評価パートでは、ＰＬＤＡ分類部５０８が、ＰＬＤＡパラメータ５０５を用いて、テストデータが登録データと同じクラスに属するか否かを分類する。

特徴抽出部５０３、パラメータ推定部５０４、特徴変換部５０７、および、ＰＬＤＡ分類部５０８は、例えば、パターン認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部５０３、パラメータ推定部５０４、特徴変換部５０７、および、ＰＬＤＡ分類部５０８として動作すればよい。また、上記の各要素５０３，５０４，５０７，５０８が別々のハードウェアによって実現されてもよい。

実施形態４．
図７は、本発明の第４の実施形態のブロック図である。第４の実施形態は、シングルステップの教師なしドメイン適応学習を示す。図７によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部６０３と、クラスタリング部６０４と、パラメータ推定部６０５と、ＰＬＤＡパラメータ６０６の記憶装置と、変換パラメータ６０７の記憶装置と、特徴変換部６０８と、ＰＬＤＡ分類部６０９とを備える。

クラスタリング部６０４は、同じクラスからのデータのペアのそれぞれが同じクラスタに割り当てられ、異なるクラスからのデータのペアのそれぞれが異なるクラスタに割り当てられるように、ＩＮＤデータをクラスタリングする。パラメータ推定部６０５は、クラスタの情報を用いて、ＰＬＤＡパラメータ６０６と変換パラメータ６０７を推定する。第４の実施形態の残りの部分（６０３，６０８，６０９）は、第１の実施形態におけるそれ（３０３，３０７，３０８）と同様に作用する。

特徴抽出部６０３、クラスタリング部６０４、パラメータ推定部６０５、特徴変換部６０８、および、ＰＬＤＡ分類部６０９は、例えば、パターン認識プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部６０３、クラスタリング部６０４、パラメータ推定部６０５、特徴変換部６０８、および、ＰＬＤＡ分類部６０９として動作すればよい。また、上記の各要素６０３，６０４，６０５，６０８，６０９が別々のハードウェアによって実現されてもよい。

これまでに述べた実施形態は、参考文献１に示されたＰＬＤＡモデリングの特定のクラスを仮定している。本発明は、参考文献２やその変形である参考文献３等に示されているような他のＰＬＤＡモデリングにおいても実施可能である。

参考文献２
S.J.D. Prince, J.H. Elder, “Probabilistic linear discriminant analysis for inferences about identity”, In IEEE International Conference on Computer Vision, 2007

参考文献３
P. Kenny, “Bayesian speaker verification with heavy-tailed priors”, in Proc. Odyssey- The Speaker and Language Recognition Workshop, 2010

これまでに述べた実施形態の評価パートは、２つのデータ入力が同じクラスからのものであるかどうかの決定に注目していたが、マルチクラス分類等の他の種類の決定にも容易に拡張できる。マルチクラス分類は、参考文献２に示されている。そのような場合、複数のテストデータの特徴は、複数のテストデータのそれぞれが登録データと同じクラスに属するかどうかで分類され、登録データに最も類似するテストデータが選択される。

最後のポイントとして、ここで述べられた処理、技術および方法論は、特定の装置に限定されないことを明確にする。構成要素の組合せを用いて実装されてもよい。また、様々なタイプの一般的用途の装置が、ここで述べたことに従って用いられてもよい。本発明について、特定の例を用いて説明してきた。しかし、それらは、単に説明のためのものであり、制限的なものではない。例えば、説明されたソフトウェアは、Ｃ＋＋，Ｊａｖａ（登録商標），Ｐｙｔｈｏｎ，Ｐｅｒｌ等の幅広い種類の言語で実現されてよい。さらに、本発明の技術の実装は、当業者にとって明らかであろう。

本発明は、唯一の包括的な基準を用いて同時に変換パラメータとＰＬＤＡパラメータを最適化し、ＯＯＤがＩＮＤに近くない場合であっても、ＯＯＤデータとＩＮＤデータを同じドメインに変換する。

図８は、本発明の概要を示すブロック図である。ドメイン適応を用いたパターン認識装置１０は、推定部１１を備える。推定部１１（例えば、パラメータ推定部３０４、推定部４１１、パラメータ推定部５０４、パラメータ推定部６０５）は、第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡパラメータと変換パラメータとを推定する

実施形態の一部または全体は、以下の付記のようにも記載されるが、以下に限定されるわけではない。

（付記１）
第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する推定部を備える
ことを特徴とする、ドメイン適応を用いたパターン認識装置。

（付記２）
一方のドメインで観測された登録データおよびテストデータの特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
テストデータが登録データと同じクラスに属するかどうかを、ＰＬＤＡパラメータを用いて分類する分類部とを、さらに備える
付記１に記載のパターン認識装置。

（付記３）
第１ドメインデータおよび第２ドメインデータの一方の特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
テストデータが登録データと同じクラスに属するかどうかを、ＰＬＤＡパラメータを用いて分類する分類部とを、さらに備える
付記１に記載のパターン認識装置。

（付記４）
ＰＬＤＡパラメータが、第１ドメインデータの特徴から推定され、ＰＬＤＡパラメータおよび変換パラメータが目的関数を最大化／最小化するように、ＰＬＤＡパラメータを用いて、変換パラメータが、第２ドメインデータから推定される
付記１に記載のパターン認識装置。

（付記５）
複数のテストデータの特徴が、複数のテストデータのそれぞれが登録データと同じクラスに属するかどうかで分類され、登録データに最も類似するテストデータが選択される
付記２または付記３に記載のパターン認識装置。

（付記６）
同じクラスからのデータのペアのそれぞれが同じクラスタに割り当てられ、異なるクラスからのデータのペアのそれぞれが異なるクラスタに割り当てられるように、第１ドメインデータおよび第２ドメインデータの一方を、クラスタリングするクラスタリング部をさらに備え、ＰＬＤＡパラメータおよび変換パラメータは、クラスタの情報を用いて推定される
付記１に記載のパターン認識装置。

（付記７）
目的関数は、ＰＬＤＡと変換パラメータの尤度、事後確率、ベイズ確率のうちの少なくとも１つである
付記１に記載のパターン認識装置。

（付記８）
ＰＬＤＡパラメータと変換パラメータは、目的関数から導出される補助関数に従って、反復的に更新される
付記７に記載のパターン認識装置。

（付記９）
特徴変換は、第１ドメインデータと第２ドメインデータの間のアフィン変換として表される
付記１または付記４に記載のパターン認識装置。

（付記１０）
第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する
ことを特徴とする、ドメイン適応を用いたパターン認識方法。

（付記１１）
コンピュータに、
第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する推定処理
を実行させるための、ドメイン適応を用いたパターン認識プログラム。

３０３，４０３，５０３，６０３特徴抽出部
３０４，５０４，６０５パラメータ推定部
３０７，４０８，５０７，６０８特徴変換部
３０８，４０９，５０８，６０９ＰＬＤＡ分類部
４０４ＰＬＤＡパラメータ推定部
４０６変換パラメータ推定部

Claims

第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する推定部を備える
ことを特徴とする、ドメイン適応を用いたパターン認識装置。
一方のドメインで観測された登録データおよびテストデータの特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
テストデータが登録データと同じクラスに属するかどうかを、ＰＬＤＡパラメータを用いて分類する分類部とを、さらに備える
請求項１に記載のパターン認識装置。
第１ドメインデータおよび第２ドメインデータの一方の特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
テストデータが登録データと同じクラスに属するかどうかを、ＰＬＤＡパラメータを用いて分類する分類部とを、さらに備える
請求項１に記載のパターン認識装置。
ＰＬＤＡパラメータが、第１ドメインデータの特徴から推定され、ＰＬＤＡパラメータおよび変換パラメータが目的関数を最大化／最小化するように、ＰＬＤＡパラメータを用いて、変換パラメータが、第２ドメインデータから推定される
請求項１に記載のパターン認識装置。
複数のテストデータの特徴が、複数のテストデータのそれぞれが登録データと同じクラスに属するかどうかで分類され、登録データに最も類似するテストデータが選択される
請求項２または請求項３に記載のパターン認識装置。
同じクラスからのデータのペアのそれぞれが同じクラスタに割り当てられ、異なるクラスからのデータのペアのそれぞれが異なるクラスタに割り当てられるように、第１ドメインデータおよび第２ドメインデータの一方を、クラスタリングするクラスタリング部をさらに備え、ＰＬＤＡパラメータおよび変換パラメータは、クラスタの情報を用いて推定される
請求項１に記載のパターン認識装置。
目的関数は、ＰＬＤＡと変換パラメータの尤度、事後確率、ベイズ確率のうちの少なくとも１つである
請求項１に記載のパターン認識装置。
ＰＬＤＡパラメータと変換パラメータは、目的関数から導出される補助関数に従って、反復的に更新される
請求項７に記載のパターン認識装置。
第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する
ことを特徴とする、ドメイン適応を用いたパターン認識方法。
コンピュータに、
第１ドメインデータと第２ドメインデータの特徴から、その特徴に関する目的関数を最大化／最小化するように、ＰＬＤＡ（Probabilistic Linear Discriminant Analysis）パラメータと変換パラメータとを推定する推定処理
を実行させるための、ドメイン適応を用いたパターン認識プログラム。