JP6904483B2

JP6904483B2 - パターン認識装置、パターン認識方法、及びパターン認識プログラム

Info

Publication number: JP6904483B2
Application number: JP2020535336A
Authority: JP
Inventors: チョンチョンワン; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2021-07-14
Anticipated expiration: 2037-09-15
Also published as: US20200211567A1; JP2020533723A; JP2021165845A; WO2019053898A1; US11817103B2

Description

本発明は、画像、映像、音声及び音響などのパターンを一定のクラスの１つに分類するための、パターン認識装置、パターン認識方法及びプログラムに関する。

パターン認識技術は、その基礎を機械学習理論及び技術に置いている。当該技法は、科学、工学、農業、電子商取引、医学、医用画像分析、軍事、及び国家安全保障などの多様な領域における、現実の問題を解決するために我々の日常生活に広範囲に適用されている。

ディープラーニングは、多数の線形及び非線形変換からなる多数の処理層を備えた大規模なグラフを用いてデータの高レベルの抽象概念をモデリングしようと試みる、アルゴリズムの組み合わせに基づく機械学習の一分野である。そのような多層構造は、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）、又は、より一般的にはＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）と呼ばれる。ＮＮｓ（ＮｅｕｒａｌＮｅｔｗｏｒｋｓ）は、現在、現実世界のデータの有用な表現又は抽象概念を学習する手段として十分に確立されている。ＮＮは、サンプル間の複雑で非線形な関係を、事前の仮定を一切用いずに学習する能力によって、多くの既存の方法及びアルゴリズムを凌ぐことが証明されている。事前の仮定は、他の方法においてしばしば不正確さの原因となる。ＮＮは、例えばコンピュータビジョン、自動音声認識、自然言語処理、音認識、画像認識、及びバイオインフォマティックスなどのパターン認識の分野に適用され、それらの分野で、ニューラルネットワークは、様々なタスクについて最先端の結果を生むことが示されている。

ＮＮは、様々な分野に適用できるだけでなく、各分野の様々なフェーズにも適用できる。ＮＮは、例えば、特徴抽出（例えば、ボトルネック特徴量）、ノイズリダクション（例えば、ＤｅｎｏｉｓｉｎｇＡｕｔｏＥｎｃｏｄｅｒ；ＤＡＥ）、識別（例えば、ＭｕｌｔｉＬａｙｅｒＰｅｒｃｅｐｔｉｏｎ；ＭＬＰ）、検証（例えば、シャムネットワーク）などのパターン認識システムにおいて使用できる。これらのシステムの性能は、大量のデータがＮＮのトレーニングに利用可能な場合にのみ、非常に高くなる。

ただし、ＮＮベースのパターン認識は、ドメインの可変性に対して弱みがある。本明細書でいう「ドメイン」は、特定の概念的な（意味論の）カテゴリ又は領域における、データの様々な状態を指す。例えば、「話者認識」のドメインの場合、ドメインは、言語の差異、伝送チャネルの差異、ＳＮＲ（ＳｉｇｎａｌＮｏｉｓｅＲａｔｉｏ）の差異などに応じて異なる。同様に、ドメインが「顔認識」である場合、ドメインは、照明の差異、姿勢の差異、ＳＮＲの差異に応じて異なる。あるドメインにおいてよいＮＮのトレーニングには、そのドメイン（対象ドメイン）における大量のデータが必要である。本明細書における「対象ドメイン」は、パターン認識に適用されるデータの特定のドメインを指す。対象ドメインの中のデータは、ＩＮＤ（ｉｎ−ｄｏｍａｉｎ）データと呼ばれる。対象ドメインの外のデータは、ＯＯＤ（ｏｕｔ−ｏｆ−ｄｏｍａｉｎ）データと呼ばれる。例えば、広東語の電話データの認識のためのよいＮＮをトレーニングには、ＩＮＤデータとして、大量の広東語の電話データが必要である。北京語の電話データはこのトレーニングに不適当であるため、そのデータは、一種のＯＯＤデータであろう。広東語データを用いて充分にトレーニングされたＮＮを含むパターン認識システムは、高い性能となる。他方、北京語データを用いてトレーニングされたＮＮを含むシステムは、低い性能となる。

しかし、大量のＩＮＤデータを収集することは、通常、費用が掛かるか非現実的であり、また、ラベル付きＩＮＤデータではいっそう難しい。本明細書でいう「ラベル」は、クラスＩＤ、話者認識又は顔認識の場合にはパーソナルＩＤなどの、個人と、個人が属するクラス（ドメイン又は話者）とを識別するためのＩＤ（ｉｄｅｎｔｉｆｉｅｒ）を指す。ＯＯＤデータでトレーニングされたパターン認識システムは、正しく動作することは稀である。このように、トレーニングと評価データとの間のどのようなドメイン不整合も、システムのＮＮパターン認識の性能を大きく劣化させ得るという事実のために、そのようなＮＮの性能は、ほとんど最適化されない。

非特許文献１は、話者認識のために音声対（同一話者と異なる話者）を区別するため、シャムネットワークを用いる技術を開示する。この方法は、トレーニングデータが、充分であり、話者認識が適用されるデータ（評価データと呼ばれる）のドメインと同じドメインにある場合、非常に効果的である。これは、ＮＮが、そのドメインにおいて、両方のデータの間の複雑な非線形関係を学習できるからである。

図２０に示すように、非特許文献１のトレーニングフェーズでは、特徴抽出部４０２は、単一の入力から複数の出力へ値を伝えること以外何もしないパッシブノードである、ＮＮ（ＮＮの一例を示す図４を参照）の入力層として、ＤＢ４０１から１対の特徴ベクトルを抽出する。本明細書における「特徴ベクトル」は、対象オブジェクトを表す１組の数値（特定データ）を指す。出力層としての「対象」又は「非対象」は、対応する話者ラベルによって定まり、出力層として使用される。それらの話者ラベルが同一であれば、それは、それらは同じ話者からのものであり、出力は「対象」であることを意味する。そうでない場合、それらは異なる話者からのものであり、出力は「非対象」である。ＮＮトレーニング部４０３は、１対の特徴ベクトルが連結された長いベクトルと、それに対応する「対象／非対象」のラベルとを用いて、ＮＮをトレーニングする。トレーニングされたＮＮは、ＮＮパラメータ記憶部４０４に格納される。評価フェーズでは、特徴抽出部４０２が、登録音声データとテスト音声データとから、１対の特徴ベクトルを抽出する。ＮＮ検証部４０５は、ＮＮパラメータ記憶部４０４の中のトレーニングされたＮＮを用いて、その１対の特徴ベクトルのスコアを計算する。本明細書における「スコア」は、異なるクラスの１対のパターンに対する同じクラスの１対のパターンの尤度比に関する、一種の類似度を指す。

特許文献１は、複数の話者を検証するために、ＴＤＮＮ（ＴｉｍｅｄｅｌａｙＮｅｕｒａｌＮｅｔｗｏｒｋ）及びＭＬＰ（ＭｕｌｔｉＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）を、声量を考慮しながら用いる技術を開示する。パーセプトロンは、二項分類器（数のベクトルによって表される入力が、ある特定のクラスに属するか否かを決定する関数）の教師あり学習のためのアルゴリズムである。声量が所定の範囲を有するフレームのパターンが、所定の言語単位に従ってＴＤＮＮを用いて抽出される。登録された話者からの音声の各パターンの確率が、ＭＬＰを用いて算出され、平均されてスコアとなる。

非特許文献２は、特徴ベクトルをマイクロフォンドメイン（対象外ドメイン）から電話ドメイン（対象ドメイン）へ変換するためにＤＡＥ（ＤｅｎｏｉｓｉｎｇＡｕｔｏＥｎｃｏｄｅｒ）を使用し、古典的な分類器を適用する技術を開示する。このシステムは、異なるドメインにおける同じデータがトレーニングに利用可能である場合、ＤＡＥを良くトレーニングできる。この技術は、トレーニングにおいて、並列データを必要とする。

特許文献２は、音響の可変性の度合を計算し、短い音声の特徴ベクトルを、充分な長さの音声のそれと、信頼性において比較できるように補う。非特許文献２と同様に、この技術は、トレーニングにおいて並列データを必要とする。この技術は、長い音声長と短い音声長の両方で同じデータを必要とする。短い音声は、長い音声のサブセットである。

加えて、特許文献３、特許文献４、非特許文献３及び非特許文献４は、本発明の関連技術を開示する。

国際公開第０３／０１５０７８号米国特許出願公開第２０１６／００９８９９３号明細書特開２０１６−０７５７４０号公報特表２００４−５３８５２６号公報

Ｄ．Ｓｎｙｄｅｒ，Ｐ．Ｇｈａｈｒｅｍａｎｉ、Ｄ．Ｐｏｖｅｙ，Ｄ．Ｇａｒｃｉａ−Ｒｏｍｅｒｏ，Ｙ．Ｃａｒｍｉｅｌ，Ｓ．Ｋｈｕｄａｎｐｕｒ， "Ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ−ｂａｓｅｄｓｐｅａｋｅｒｅｍｂｅｄｄｉｎｇｓｆｏｒｅｎｄ−ｔｏ−ｅｎｄｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ"，ＳｐｏｋｅｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙＷｏｒｋｓｈｏｐ（ＳＬＴ），２０１６ＩＥＥＥＦ．Ｒｉｃｈａｒｄｓｏｎ，Ｂ．Ｎｅｍｓｉｃｋ，Ｄ．Ｒｅｙｎｏｌｄｓ， "ＣｈａｎｎｅｌｃｏｍｐｅｎｓａｔｉｏｎｆｏｒｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｍａｐａｄａｐｔｅｄＰＬＤＡａｎｄｄｅｎｏｉｓｉｎｇＤＮＮｓ"，Ｏｄｙｓｓｅｙ２０１６，Ｊｕｎｅ２１−２４，２０１６，Ｂｉｌｂａｏ，ＳｐａｉｎＷ．Ｃａｍｐｂｅｌｌｅｔａｌ．， "ＳｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓｕｓｉｎｇＧＭＭｓｕｐｅｒｖｅｃｔｏｒｓｆｏｒｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ，" ＩＥＥＥＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ，Ｖｏｌ．１３，３０８−３１１，２００６Ｎ．Ｄｅｈａｋ，Ｒ．Ｄｅｈａｋ，Ｐ．Ｋｅｎｎｙ，Ｎ．Ｂｒｕｍｍｅｒ，Ｐ．Ｏｕｅｌｌｅｔ，ａｎｄＰ．Ｄｕｍｏｕｃｈｅｌ， "Ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓｖｅｒｓｕｓｆａｓｔｓｃｏｒｉｎｇｉｎｔｈｅｌｏｗ−ｄｉｍｅｎｓｉｏｎａｌｔｏｔａｌｖａｒｉａｂｉｌｉｔｙｓｐａｃｅｆｏｒｓｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎ"，Ｉｎｔｅｒｓｐｅｅｃｈ，ｉｎｐｒｏｃｅｅｄｉｎｇｓ，Ｂｒｉｇｈｔｏｎ，２００９−０６−２２。

しかし、非特許文献１は、ドメイン不整合問題に対処できない。特許文献１は、声量を考慮するが、単に、フレームを選択するために声量を用いる。それも、ドメインの可変性に対処しない。実際、トレーニングと評価データとは、ドメインにおいて不整合があることが多い。その結果、ＮＮが正確に学習した関係は、もう評価データには適しておらず、そして低い性能をもたらす。非特許文献２と、特許文献２の拡張と、は、特徴ベクトルが別のドメインに含まれるように補償できるが、全ての多様なドメインに必ずしも適用できない。これらは、異なるドメイン（伝送チャネル、音声長）における音声データの並列な記録を利用できる場合にのみうまく働く。しかし、それは、例えば言語などの、多様なドメインの大半で現実的でない。したがって、そのような方法は、実際には、多様なドメインをうまく補償できない。

上記状況に鑑みて、本発明の目的は、任意の種類のドメイン可変性に対する分類の頑強性を提供することである。

上記問題を解決するために、本発明の第１の実施態様は、ＮＮに基づくパターン認識装置である。その装置は、少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、ＮＮトレーニング手段と、対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証するＮＮ検証手段と、を含む。

本発明の第２の実施態様は、ＮＮを使用するパターン認識方法である。その方法は、少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証する。

本発明の第３の実施態様は、コンピュータにパターンを認識させるための、ＮＮを使用するパターン認識プログラムである。そのプログラムは、少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証する。

そのプログラムは、コンピュータ読み取り可能な記憶媒体に格納されていてよい。

本発明によれば、本発明のパターン認識装置、パターン認識方法、及びプログラムは、任意の種類のドメインの可変性に対する分類の頑強性を提供できる。

これらの図面は、詳細な説明とともに、発明の適用方法の原理を説明するために役立つ。これらの図面は、説明を目的とし、この技術の応用を限定するものではない。
図１は、本発明による第１の実施形態のパターン認識装置のブロック図である。図２は、ＯＯＤデータ記憶部の内容の一例を示す図である。図３は、ＩＮＤデータ記憶部の内容の一例を示す図である。図４は、第１の実施形態におけるＮＮアーキテクチャの概念を示す図である。図５は、第１の実施形態のパターン認識装置の動作を示すフローチャートである。図６は、第１の実施形態のパターン認識装置のトレーニングフェーズの動作を示すフローチャートである。図７は、第１の実施形態のパターン認識装置の評価フェーズの動作を示すフローチャートである。図８は、本発明による第２の実施形態のパターン認識装置のブロック図である。図９は、第２の実施形態におけるＭＬＰアーキテクチャの概念を示す図である。図１０は、第２の実施形態のパターン認識装置の動作を示すフローチャートである。図１１は、第２の実施形態のパターン認識装置のトレーニングフェーズの動作を示すフローチャートである。図１２は、第２の実施形態のパターン認識装置の評価フェーズの動作を示すフローチャートである。図１３は、本発明による第３の実施形態のパターン認識装置のブロック図である。図１４は、第３の実施形態におけるＭＬＰ及び検証ＮＮの結合ネットワーク構造の概念を示す図である。図１５は、第３の実施形態のパターン認識装置の動作を示すフローチャートである。図１６は、第３の実施形態のパターン認識装置のトレーニングフェーズの動作を示すフローチャートである。図１７は、第３の実施形態のパターン認識装置の評価フェーズの動作を示すフローチャートである。図１８は、本発明による第４の実施形態の略図である。図１９は、本発明による実施形態で使用される例示的なコンピュータ構成を示す図である。図２０は、非特許文献１のパターン認識装置のブロック図である。

図中の要素は、簡単さと明確さのために図示されており、必ずしも一定の縮尺で描かれる必要はないことを当業者は認識するであろう。例えば、集積回路のアーキテクチャを示す図におけるいくつかの要素の大きさは、本実施形態と代わりの実施形態の理解の改善を促進ために、他の要素と比べて誇張されている場合がある。

本発明の各実施形態について、図面を参照しながら以下に説明する。以下の詳細な説明は、本質的に代表的であり、本発明、又は、本発明の応用および用途を限定することを意図しない。さらに、本発明の前述の背景技術又は以下の詳細な説明に示されるどのような理論であってもその理論によって拘束される意図はない。

ＮＮは、例えば顔認識、話者認識及び音声認識などのパターン認識において、その能力を示してきた。しかし、ＮＮベースのパターン認識は、ドメインの可変性に対して弱みがある。よいＮＮのトレーニングは、対象ドメインにおける大量のデータを必要とするが、一方、対象ドメインにおけるデータの収集は、特にラベル付きのデータの場合、困難である。したがって、対象ドメインからのラベル付きのデータなしで、ドメイン補償を行う必要がある。

上記観点から、我々の実施形態は、観測による特徴ベクトルの対に加えて検証に使用されるように、対象ドメインベクトルを予測するために様々なドメインの既存のデータを活用する。ドメイン情報効率を用いることによって、検証性能は、ドメインの可変性に対して頑強になることができる。

対象ドメインを表す対象ドメインベクトルは、対象ドメインを含む（実施形態１）、又は対象ドメインを含まない（実施形態２及び３）様々なドメインの既存のラベルなしデータを用いて、陽に（実施形態１及び２）又は暗に（実施形態３）予測される。本明細書における「ドメインベクトル」は、ドメインを表す数値の組み合わせを指す。したがって、ドメインの間の関係は、検証ＮＮのモデル化における特徴ベクトルに加えて、そのようなドメインベクトルを用いて学習することができる。その結果、新しいドメインにおいて、我々の実施形態は、良好で頑強な性能を達成することができる。加えて、ラベル付きのＩＮＤデータは、ＮＮのトレーニングに必須ではない。そのため、どの程度の量のＩＮＤデータが利用できるかによらず、どのような実際の分野にも適用が可能である。クラスラベルがないとしても、もしどのような量のＩＮＤデータでも利用可能であれば、システムの頑強性は向上するであろう。そのため、どのような種類のドメインの可変性においても、補償を提供できる。我々の実施形態について以下に説明する。

＜第１の実施形態＞
第１の実施形態のパターン認識装置は、ＮＮにおけるドメインラベルの要求及び予測されたドメインベクトルがなくても、対象ドメインを含む様々なドメインの既存のデータを用いて、任意の種類のドメインの可変性に対する分類の頑強性を提供できる。これは、ドメインの可変性が、同じドメインの特徴の主要な傾向において見られることが多い、特徴空間におけるシフトに帰着する前提に基づく。したがって、この実施形態において、「平均（アベレージ）」がドメインの可変性の単純で直接的な表現として使用される。

＜＜パターン認識装置の構成＞＞
本発明の第１の実施形態における、ＮＮ内のドメインベクトルとして平均特徴ベクトルを使用するパターン認識装置について説明する。

図１は、第１の実施形態のパターン認識装置１００のブロック図である。パターン認識装置１００はトレーニングパートと評価パートとを含む。

トレーニングパートは、ＯＯＤデータ記憶部１０１＿１、１０１＿２、・・・、１０１＿ｎ（以後、１０１＿１〜１０１＿ｎと表記する。ｎはドメインの数を表す）と、ＩＮＤデータ記憶部１０２と、特徴抽出部１０３ａ、１０３ｂと、平均抽出部１０４ａ、１０４ｂと、ＯＯＤドメインベクトル記憶部１０５と、ＩＮＤドメインベクトル記憶部１０６と、ＮＮトレーニング部１０７と、ＮＮパラメータ記憶部１０８とを含む。評価パートは、特徴抽出部１０３ｃ、１０３ｄとＮＮ検証部１０９とを含む。特徴抽出部１０３ａ、１０３ｂ、１０３ｃ、１０３ｄは、同じ機能を有する。平均抽出部１０４ａ、１０４ｂは、同じ機能を有する。

ＯＯＤデータ記憶部１０１＿１〜１０１＿ｎは、ｎ（ｎは１以上の整数）個のドメインからの、クラスラベル付きのＯＯＤデータを記憶する。ＯＯＤデータ記憶部１０１＿１〜１０１＿ｎの内容は、ドメインのタイプごとに分類されていてよい。例えば、図２に示すように、ドメインが「話し言葉」である場合、ＯＯＤデータ記憶部１０１＿１は、ドメインタイプ１（例えば、英語）の音声記録を記憶し、ＯＯＤデータ記憶部１０１＿ｎは、ドメインタイプｎ（例えば、日本語）の音声記録を記憶する。

ＩＮＤデータ記憶部１０２は、クラスラベル付きのＩＮＤデータを記憶する。ＩＮＤデータの内容は、検証が適用される対象ドメインと同じドメインに分類される。例えば、このドメインは「話し言葉」であり、ＩＮＤデータ記憶部１０２は、対象ドメイン（例えば、広東語）の音声記録を記憶する。

ＯＯＤドメインベクトル記憶部１０５は、ｎ個のＯＯＤデータ記憶部１０１＿１〜１０１＿ｎに対応する、ｎ個のドメインの特徴ベクトルの、ｎ個の平均ベクトルを記憶する。これらの特徴は、観測結果の、個別に測定可能な特性、例えば、音声認識における、例えばメル周波数ケプストラム係数（ＭＦＣＣ；Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）などの音響特徴である。平均ベクトルは、重心と表記され、分散−共分散行列は、分散又は分散行列と表記される。図２を参照すると、音声記録は、音響特徴（例えば話者１などの、グラフとして示される）を意味する。図２において、ＯＯＤデータ記憶部１０１＿１は、２人の話者からの４つの音声記録を含む。「話者１」は、話者ラベルであってもよい。

ＩＮＤドメインベクトル記憶部１０６は、ＩＮＤデータ記憶部１０２に対応する、対象ドメインの特徴ベクトルの平均ベクトルを記憶する。これらの特徴は、観測結果の、個別に測定可能な特性、例えば、ＭＦＣＣなどの音響特徴である。

ＮＮパラメータ記憶部１０８は、トレーニングされたＮＮパラメータを記憶する。

特徴抽出部１０３ａは、ＯＯＤデータ記憶部１０１＿１〜１０１＿ｎ内のデータから、ｎ組の特徴ベクトルを抽出する。特徴抽出部１０３ｂは、ＩＮＤデータ記憶部１０２内のデータから、特徴ベクトルを抽出する。例えば、上記のように、特徴抽出部１０３ａは、ＯＯＤデータ記憶部１０１＿１内のデータから、英語の音声の、一連の音響特徴のシーケンスを抽出する。同様に、特徴抽出部１０３ａは、ＯＯＤデータ記憶部１０１＿２、１０１＿３・・・１０１＿ｎ内の各言語の音声から音響特徴を抽出する。特徴抽出部１０３ｂは、ＩＮＤデータ記憶部１０２の各記録からの、対象言語（例えば、広東語）の音声から、音響特徴のシーケンスを抽出する。

平均抽出部１０４ａは、ｎ組のＯＯＤ特徴から平均特徴ベクトルを算出し、その結果をＯＯＤドメインベクトルとしてＯＯＤドメインベクトル記憶部１０５に格納する。例えば、平均抽出部１０４ａは、ＯＯＤ記憶部１０１＿１〜１０１＿ｎの各々において、記録からのＭＦＣＣの平均を計算する。これは、ドメインの可変性が、特徴ベクトルの成分が張る空間を指す特徴空間における、特徴ベクトル分布のシフトに帰着するという仮定に基づく。例えば、ＯＯＤ又はＩＮＤデータが言語に関するデータである場合、分布は、その言語において使用されるアクセント又は音素に従って、シフトするかもしれない。シフトへの帰着は、同じドメインにおける特徴の主要な傾向において現れることが多い。したがって、それらの平均は、ドメインの可変性のための単純で直接的な表現として使用できる。

平均抽出部１０４ｂは、抽出されたＩＮＤ特徴ベクトルから平均特徴ベクトルを計算し、その結果をＩＮＤドメインベクトルとしてＩＮＤドメインベクトル記憶部１０６に格納する。言い換えれば、計算された平均特徴ベクトルは、ＩＮＤドメインベクトルになる。例えば、平均抽出部１０４ｂは、ＩＮＤデータ記憶部１０２の記録からの複数のＭＦＣＣについての平均を算出する。

ＮＮトレーニング部１０７は、特徴抽出部１０３ａからＯＯＤ特徴ベクトルの組み合わせを受信し、ＯＯＤドメインベクトル記憶部１０５からＯＯＤドメインベクトルを受信する。ＮＮトレーニング部１０７は、受信したＯＯＤ特徴ベクトルとＯＯＤドメインベクトルとを用いて、対象（例えば、同じ話者からの音声セグメント）又は非対象（例えば、異なる話者からの音声セグメント）を決定するために、ＮＮをトレーニングする。このトレーニングにおいて、受信したＯＯＤ特徴ベクトル及びＯＯＤドメインベクトルは、入力層に与えられる。また、それらの話者ラベルから決定された「対象／非対象」は、出力層に与えられる。これらの層の詳細は、後述される。その目的のために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化技術が、適用できる。トレーニングの後に、ＮＮトレーニング部１０７は、ＮＮパラメータを出力し、それらをＮＮパラメータ記憶部１０８に格納する。

評価パートにおいて、特徴抽出部１０３ｃは、登録データから特徴ベクトルを抽出し、特徴抽出部１０３ｄは、テストデータから特徴ベクトルを抽出する。これらのデータと共に、ＮＮ検証部１０９は、ＩＮＤドメインベクトル記憶部１０６に格納されている対象ドメインのドメインベクトルと、ＮＮパラメータ記憶部１０８に格納されているＮＮパラメータとを受信する。ＮＮ検証部１０９は、検証スコアを計算し、所定のしきい値を比較することによって、計算結果が「対象」を示すか、又は、「非対象」を示すかを決定する。このしきい値は、エンジニアにより設定されてよい。典型的な場合、出力ニュートロンは０から１までで変動するため、しきい値は、０．５に設定される。例えば、検証スコアがしきい値よりも大きい場合、それは「対象」に属する。検証スコアがしきい値以下である場合、それは「非対象」に属する。この評価で、「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。

図４は、ＮＮアーキテクチャの概念（モデル）を示す図である。このモデルは、入力、隠れ、および、出力の、３つのタイプの層を含む。隠れ層は、複数であってよい。少なくとも、入力層と隠れ層との間と、隠れ層と出力層との間と、には線形変換及び／又は活性化（伝達）関数が存在する。

トレーニングパートにおいて、入力層（ベクトルを受け付ける）及び出力層（「対象／非対象」を出力する）の両方が与えられ、その結果、隠れ層（ＮＮパラメータ）が得られる。

評価パートにおいて、入力層及び隠れ層が与えられ、その結果、出力層が得られる。

このモデルにおいて、出力層は、２つのニューロンからなる。トレーニングパートにおいて、ニュートロンは、「対象／非対象」に対応する値「１」又は「０」をとることができる。

評価パートにおいて、各ニューロンは「対象」又は「非対象」の事後確率である。

トレーニングパート及び評価パートにおいて、入力層は、登録データから抽出された特徴ベクトルと、テストデータから抽出された特徴ベクトルと、ＩＮＤドメインベクトル記憶部１０６からの平均特徴ベクトルとの、３つのベクトルを受け取る。

評価パートにおいて、隠れ層の各々は、前の層（入力層又は直前の隠れ層）の出力を受信する。出力に基づいて、線形変換及び活性化関数（シグモイド関数などの）が算出される。活性化ベクトルは、以下のような活性化関数によって算出できる。

ここで、ｌは入力層から出力層までの層の深さを示す、ＮＮのレベルである。「ｌ＝０」は入力層を意味し、「ｌ＝Ｌ」は出力層を意味する。「０＜ｌ＜Ｌ」は、隠れ層を表す。ｖ^ｌ−１は、レベルｌ−１の活性化ベクトルであり、ｖ^ｌは、レベルｌの活性化ベクトルである。Ｗ^ｌ及びｂ^ｌは、それぞれ、レベルｌの重み行列及びバイアスベクトルである。ｆ（）は、活性化関数である。ある層の活性化ベクトルは、一般的に、前の層の活性化ベクトルに基づいて、線形変換と活性化関数との組み合わせによって得られる。計算結果は、次の層へ送信される。次の層は、取得したＮＮパラメータに基づいて、再度同じ計算を繰り返す。

最後に、評価パートにおいて、検証結果が、「対象」又は「非対象」を出力層において示す２つのニューロンの値として、得られる。「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。

＜＜パターン認識装置の動作＞＞
次に、パターン認識装置１００の動作について図面を参照しながら説明する。

パターン認識装置１００の動作全体を、図５を参照することによって説明する。図５は、トレーニングパートと評価パートとの動作を含む。しかし、これは、例を示しており、トレーニングと評価との動作は、連続的に実行されてもよく、また、時間間隔が挿入されてもよい。

ステップＡ０１（トレーニングパート１）において、ＮＮ検証部１０９は、ＯＯＤドメインベクトル記憶部１０５に格納されている各ＯＯＤドメインベクトルの平均に基づいてトレーニングされる。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用できる。トレーニングの結果、ＮＮパラメータが、生成され、ＮＮパラメータ記憶部１０８に格納される。

ステップＡ０２（トレーニングパート２）において、ＩＮＤドメインベクトルの平均が、ＩＮＤデータ特徴ベクトルに基づいて算出され、ＩＮＤドメインベクトル記憶部１０６に格納される。

ステップＡ０３（評価パート）において、ＮＮ検証部１０９は、出力層における「対象」及び「非対象」の２つのニューロンの、２つの入力データ（登録データ及びテストデータ）の事後確率を、ＮＮパラメータ記憶部１０８に格納されているＮＮパラメータを用いて、ＩＮＤドメインベクトル記憶部１０６に格納されているＩＮＤドメインベクトルに基づいて算出する。

図６は、検証ＮＮが、ドメインの全ての特徴ベクトルから平均されたドメインベクトルを用いてトレーニングされることを示すフローチャートである。図６は、図５におけるトレーニングパート１及び２を表す。

最初に、ステップＢ０１において、トレーニングパート１の最初として、特徴抽出部１０３ａは、ＯＯＤデータ記憶部１０１＿１〜１０１＿ｎの各々から、ドメインラベル（例えば、言語）及び話者ラベル（例えば、話者１）付きのＯＯＤデータを読み出す。

ステップＢ０２において、さらに、特徴抽出部１０３ａは、ＯＯＤデータ記憶部１０１＿１〜１０１＿ｎから、ｎ組の特徴ベクトルを抽出する。例えば、特徴抽出部１０３ａは、ＯＯＤデータ記憶部１０１＿１〜１０１＿ｎの音声記録の各々から、特徴ベクトルとして、ＭＦＣＣのシーケンスを抽出する。

ステップＢ０３において、平均抽出部１０４ａは、各ドメインに対応する特徴ベクトルから、平均ベクトルを計算する。上述のように、平均値抽出部１０４ａは、各ＯＯＤドメイン（例えば、英語音声、日本語音声）の音声記録のＭＦＣＣについて、平均を計算する。

ステップＢ０４において、平均抽出部１０４ａは、計算したＯＯＤ平均ベクトルを、ＯＯＤドメインベクトル記憶部１０５に格納する。

ステップＢ０５において、ＮＮトレーニング部１０７は、特徴抽出部１０３ａから送信されたＯＯＤ特徴ベクトルと、ＯＯＤドメインベクトル記憶部１０５から取得したＯＯＤドメインベクトルとを、話者ラベル（例えば、話者１）とともに用いて、検証ＮＮをトレーニングする。

ステップＢ０６において、トレーニングの結果として、ＮＮトレーニング部１０７は、ＮＮパラメータを生成し、それらをＮＮパラメータ記憶部１０８に格納する。これがトレーニングパート１の終わりである。

ステップＢ０７で、トレーニングパート２の開始処理として、特徴抽出部１０３ｂはＩＮＤデータ記憶部１０２からＩＮＤデータを読み出す。

ステップＢ０８において、特徴抽出部１０３ｂは、ＩＮＤデータから特徴ベクトルを抽出する。例えば、特徴抽出部１０３ｂは、ＩＮＤデータ記憶部１０２の音声記録の各々から、ＭＦＣＣのシーケンスを抽出する。

ステップＢ０９において、平均抽出部１０４ｂは、ＩＮＤデータに対応する特徴ベクトルから、平均ベクトルを計算する。例えば、平均抽出部１０４ｂは、ＩＮＤドメインの音声記録のＭＦＣＣについて、平均を計算する。

ステップＢ１０において、平均抽出部１０４ｂは、さらに、計算したＩＮＤドメインベクトルをＩＮＤドメインベクトル記憶部１０６に格納する。例えば、平均抽出部１０４ｂは、ＩＮＤドメインの音声記録のＭＦＣＣについて、平均を計算する。

Ｂ０１〜Ｂ０６及びＢ０７〜Ｂ１０の順序は、図６に提示した手形に限定されることなく、入れ替えられ得ることに注意する。

図７は、対象ドメインの全ての特徴ベクトルから平均されたドメインベクトルを用いたＮＮの検証の評価フェーズを示すフローチャートである。

最初に、ステップＣ０１において、特徴抽出部１０３ｃは、外部デバイス（図１において不図示）から入力された、登録データ（音声記録などの基本データ）を読み出す。

ステップＣ０２において、特徴抽出部１０３ｃは、登録データから特徴ベクトルを抽出する。例えば、登録データは、広東語の音声記録である。特徴抽出部１０３ｃは、広東語の音声記録のＭＦＣＣのシーケンスを抽出する。

ステップＣ０３において、特徴抽出部１０３ｄは、外部デバイス（図１において不図示）から入力された、テストデータ（例えば音声など）を読み出す。

ステップＣ０４において、特徴抽出部１０３ｄは、テストデータから特徴ベクトルを抽出する。例えば、テストデータは、広東語の音声記録である。特徴抽出部１０３ｄは、広東語の音声記録のＭＦＣＣのシーケンスを抽出し、抽出されたデータを固定次元特徴ベクトル、例えば、ｉベクトル（詳細については、非特許文献２を参照）に変換する。

Ｃ０１〜Ｃ０２及びＣ０３〜Ｃ０４の順序は、入れ替えられ得ることに注意する。

ステップＣ０５において、ＮＮ検証部１０９は、ＩＮＤドメインベクトル記憶部１０６に格納されている対象ドメインベクトルを読み出す。

ステップＣ０６において、ＮＮ検証部１０９は、ＮＮパラメータ記憶部１０８に格納されているＮＮパラメータを読み出す。

ステップＣ０７において、ＮＮ検証部１０９は、図４に示すＮＮモデルを用いること、及び、式（１）を適用することによって、検証スコアを計算し、検証スコアを所定のしきい値と比較することによって、答え、すなわち、「対象」又は「非対象」、を出す。

ドメインベクトルの表現は、特徴ベクトルの平均に限定されない。例えば、平均を一次統計値とみなすと、他の統計値（二次、三次・・・の統計値）が、使用され得る。統計値の別のオプションは、いわゆるＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）や、ＯＯＤデータ記憶部１０１＿１〜１０１＿ｎ及びＩＮＤデータ記憶部１０２から取得されたデータセットから推定された、ＧＭＭの重み、平均及び分散である、ＧＳＶ（ＧａｕｓｓｉａｎＳｕｐｅｒＶｅｃｔｏｒｓ）であってもよい。さらに別のオプションは、いわゆるｉベクトルであってもよい。

（第１の実施形態の効果）
上述のように、第１の実施形態は、検証ＮＮの頑強性を向上できる。その理由は、以下の通りである。ＮＮトレーニング部１０７は、少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングする。第１の特徴ベクトルは、サブセットの各々から抽出され、ドメインベクトルは、サブセットの各々に対応する識別子を示す。ＮＮ検証部１０９は、対象ドメインベクトルとＮＮパラメータとに基づいて、特定のドメイン内の１対の第２の特徴ベクトルを、その１対が同じ個人を示すか否かを出力するために、検証する。

この実施形態では、平均は、ドメインの可変性の単純で直接的な表現として使用される。これは、ドメインの可変性が、同じドメインの特徴ベクトルの主要な傾向において見られることが多い、特徴空間におけるシフトに帰着する前提に基づく。

＜第２の実施形態＞
第１の実施形態では、パターン認識装置１００は、検証ＮＮの頑強性を向上できる。しかし、ドメインラベルが不要であるが、ドメインベクトル（平均ベクトル）が抽出される対象ドメイン（ＩＮＤデータ）において、一定量のデータが必要である。したがって、それは対象ドメインデータが利用可能な場合にのみ適用できる。

本発明の第２の実施形態は、任意の種類のドメインの可変性に対する分類の頑強性を提供できる。第２の実施形態のパターン認識装置は、ＭＬＰを使用することによって、ＩＮＤデータがない様々なドメインの既存のデータを用いて、対象ドメインを表す対象ドメインベクトルを予想する。ＭＬＰは、複数の組の入力データを１組の適切な出力にマッピングする、フィードフォワード型人工ニューラルネットワークモデルであり、それは、カテゴリ変数のための数学的モデルを作成する能力が高い。したがって、この実施形態では、様々なドメインのデータを用いてトレーニングされたＭＬＰは、対象ドメインのドメインベクトルを予測できる。

＜＜パターン認識装置の構成＞＞
本発明の第２の実施形態において、パターン認識装置は、ＮＮにおいてＭＬＰによって抽出されるボトルネック特徴ベクトルを用いて、対象ドメインを予測する。ボトルネック特徴は、他の層よりも少数のノードの構成のＮＮ隠れ層によって生成される。ボトルネックの構造は、通常の特徴と、音素の本質的な特徴を表すボトルネック特徴とを抽出できる。したがって、この実施形態では、ＭＬＰから抽出されたボトルネック特徴は、対象ドメイン特徴として取り扱われる。

図８は、第２の実施形態のパターン認識装置２００のブロック図である。パターン認識装置２００は、トレーニングパートと評価パートとを含む。

トレーニングパートは、ＯＯＤデータ記憶部２０１＿１、２０１＿２、・・・、２０１＿ｎ（以後、２０１＿１〜２０１＿ｎと表記する）と、ＯＯＤデータ記憶部２０２と、特徴抽出部２０３ａ、２０３ｂと、ＭＬＰトレーニング部２０４と、ドメインベクトル抽出部２０５ａと、ＭＬＰパラメータ記憶部２０６と、ドメインベクトル記憶部２０７と、ＮＮトレーニング部２０８と、ＮＮパラメータ記憶部２０９とを含む。評価パートは、特徴抽出部２０３ｃ、２０３ｄと、ドメインベクトル抽出部２０５ｂと、ＮＮ検証部２１０とを含む。

ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎは、ｎ（ｎは１以上の整数）個のドメインからの、対応するドメインラベル付きのＯＯＤデータを記憶する。ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎの内容は、ドメインの種類ごとに分類できる。例えば、図２に示すように、ドメインが「話し言葉」の場合、ＯＯＤデータ記憶部２０１＿１はドメインタイプ１（例えば、英語）の音声記録を記憶し、ＯＯＤデータ記憶部２０１＿ｎはドメインタイプｎ（例えば、日本語）の音声記録を記憶する。

ＯＯＤデータ記憶部２０２は、話者ラベル付きのＯＯＤデータを記憶する。ＯＯＤデータ記憶部２０２の内容は、話者のドメインごとに分類できる。ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎ及びＯＯＤデータ記憶部２０２は、同じデータ（例えば同じドメインにおける同じ話者など）、又は、異なるデータ（例えば同じドメインにおける同じ話者など）を保持できる。話者ラベル及びドメインラベル付きの大規模データが利用可能である場合、それは、両方の記憶部のために使用できる。ただし、ＩＮＤデータは、必須ではない。この実施形態では、話を分かり易くするために、ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎの１つが、ＯＯＤデータ記憶部２０２と同じドメインデータを保持する必要があるが、その話者は、異なっていてよい。

ＭＬＰパラメータ記憶部２０６は、トレーニングされたＭＬＰパラメータを記憶する。

ドメインベクトル記憶部２０７は、ｎ個のＯＯＤデータ記憶部２０１＿１〜２０１＿ｎに対応する、ｎ個のドメインベクトル（ｎ個のＩＮＤベクトル）を記憶する。これらのドメインベクトルは、ＭＬＰパラメータ記憶部２０６に格納されているＭＬＰパラメータに基づいて計算される。

ＮＮパラメータ記憶部２０９は、トレーニングされたＮＮパラメータを記憶する。

特徴抽出２０３ａは、ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎにおけるデータから、ｎ組の特徴ベクトルを抽出する。特徴抽出部２０３ｂは、ＯＯＤデータ記憶部２０２における、話者ラベル付きの音声記録から、特徴ベクトルを抽出する。ＭＬＰトレーニング部２０４は、特徴抽出部２０３ａから、複数の組のＯＯＤ特徴ベクトルを受信し、ＭＬＰをトレーニングする。トレーニングの後に、ＭＬＰトレーニング部２０４はＭＬＰパラメータ（ドメインベクトル）を出力し、それらのパラメータをＭＬＰパラメータ記憶部２０６に格納する。

図９は、ＭＬＰアーキテクチャの概念（モデル）を示す図である。図９を参照すると、ＭＬＰは、一種のニューラルネットワークである、多層パーセプションを表す。ＭＬＰは入力層において特徴ベクトルを受信し、出力層からドメインＩＤ（ドメインベクトル）を出力する。ＭＬＰにおいて、出力層に最も近い最後の層が、ドメインを表すことができる特徴ベクトルとして期待される、すなわち、それがドメインベクトルを表す。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。

ドメインベクトル抽出部２０５ａは、ＭＬＰパラメータ記憶部２０６からＭＬＰパラメータを取得する。ドメインベクトル抽出部２０５ａは、ＭＬＰパラメータにおけるボトルネック特徴ベクトルからドメインベクトルを抽出する。ドメインベクトル抽出部２０５ａは、特徴抽出部２０３ｂから、話者ラベル付きの特徴抽出ベクトルを取得する。ドメインベクトル抽出部２０５ａは、ドメインラベル付きのドメインベクトルと、対応する話者ラベル、例えば「英語ドメイン」における「話者１」など、付きの特徴ベクトルとを、ドメインベクトル記憶部２０７に格納する。

ＮＮトレーニング部２０８は、特徴抽出部２０３ｂから、複数の組の、話者ラベル付きのＯＯＤ特徴ベクトルを受信し、対応するドメインベクトルをドメインベクトル記憶部２０７から検索する。ＮＮトレーニング部２０８は、特徴ベクトルとドメインベクトルとに基づいて、ＮＮをトレーニングする。トレーニングの後に、ＮＮトレーニング部２０８は、ＮＮパラメータを出力し、それらをＮＮパラメータ記憶部２０９に格納する。

評価パートにおいて、特徴抽出部２０３ｃは、登録データから特徴ベクトルを抽出し、特徴抽出部２０３ｄは、テストデータから特徴ベクトルベクトルを抽出する。ドメインベクトル抽出部２０５ｂは、特徴抽出部２０３ｃから登録データの特徴ベクトルを受け取り、ＭＬＰパラメータ記憶部２０６からＭＬＰパラメータを受け取る。ドメインベクトル抽出部２０５ｂは、特徴ベクトルとドメインベクトルとに基づいて、対象ドメインベクトルを抽出する。

ＮＮ検証部２１０は、特徴抽出部２０３ｃと２０３ｄとからの登録データとテストデータとの特徴ベクトルと共に、ドメインベクトル抽出部２０５ｂから対象ドメインベクトルを受け取り、ＮＮパラメータ記憶部２０９に格納されているＮＮパラメータを受け取る。ＮＮ検証部２１０は、図９に示すＮＮモデルを用いることと、式（１）を適用することとによって、検証スコアを計算する。ＮＮ検証部２１０は、所定のしきい値を比較することによって、計算の結果を決定し、結果が「対象」を示すか、又は、「非対象」を示すかを出力する。「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。

＜＜パターン認識装置の動作＞＞
次に、パターン認識装置２００の動作について図面を参照しながら説明する。

パターン認識装置２００の動作全体を、図１０を参照することによって説明する。図１０は、トレーニングパートと評価パートとの動作を含む。しかし、これは例を示すが、トレーニングと評価との動作は、連続的に実行されてよく、時間間隔が挿入されてもよい。

ステップＤ０１（トレーニングパート１）において、ＭＬＰトレーニング部２０４は、ドメインベクトルを取得するためのＭＬＰをトレーニングする。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの結果として、ＭＬＰパラメータが、生成され、ＭＬＰパラメータ記憶部２０６に格納される。

ステップＤ０２（トレーニングパート２）において、ＮＮトレーニング部２０８は、ｎ組のＯＯＤデータに対応する、ドメインベクトル記憶部２０７におけるドメインベクトルに基づいて、トレーニングされる。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの結果として、ＮＮパラメータが、生成され、ＮＮパラメータ記憶部２０９に格納される。

ステップＤ０３（評価パート）において、ドメインベクトル抽出部２０５ｂは、ＭＬＰパラメータ記憶部２０６のＭＬＰパラメータに基づいて、対象ドメインベクトルを計算する。ＮＮトレーニング部２０８は、対象ドメインベクトルと、ＮＮパラメータ記憶部２０９に格納されているＮＮパラメータと、に基づいて、２つの入力データ（登録データ及びテストデータ）を検証し、検証の結果、すなわち、テストデータが「対象」であるか「非対象」であるかを出力する。

図１１は、様々なドメインのデータによりトレーニングされたＭＬＰによって作られたドメインベクトルを用いて、検証ＮＮがトレーニングされることを表すフローチャートである。これは、図１０におけるトレーニングパート１及び２（ステップＤ０１及びＤ０２）を表す。

最初に、ステップＥ０１において、トレーニングパート１の最初として、特徴抽出部２０３ａは、ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎからドメインラベル（例えば、言語）付きのＯＯＤデータを読み出す。

ステップＥ０２において、特徴抽出部２０３ａは、ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎから、ｎ組の特徴ベクトルを抽出する。例えば、特徴抽出部２０３ａは、ＯＯＤデータ記憶部２０１＿１〜２０１＿ｎの音声記録の各々から、特徴ベクトルとして、ＭＦＣＣのシーケンスを抽出する。

ステップＥ０３において、ＭＬＰトレーニング部２０４は、これらの特徴ベクトルとドメインラベル（例えば、英語音声、日本語音声）とを用いて、ＭＬＰをトレーニングする。

ステップＥ０４において、トレーニングの結果として、ＭＬＰトレーニング部２０４は、ＭＬＰパラメータ（ドメインベクトル）を生成し、それらをＭＬＰパラメータ記憶部２０６に格納する。これがトレーニングパート１の終わりである。

ステップＥ０５において、トレーニングパート２の最初として、特徴抽出部２０３ｂは、ＯＯＤデータ記憶部２０２から、話者ラベル（例えば、話者１）付きのＯＯＤデータを読み出す。

ステップＥ０６において、特徴抽出部２０３ｂは、ＯＯＤデータから特徴ベクトルを抽出する。例えば、特徴抽出部２０３ｂは、ＯＯＤデータ記憶部２０２の音声記録の各々から、特徴ベクトルとして、ＭＦＣＣのシーケンスを抽出する。

ステップＥ０７において、ドメインベクトル抽出部２０５ａは、ＭＬＰパラメータ記憶部２０６からＭＬＰパラメータを読み出す。

ステップＥ０８において、ドメインベクトル抽出部２０５ａは、ＯＯＤデータ記憶部２０２のＯＯＤデータに対応する各ドメイン（例えば、英語音声、日本語音声）についてのドメインベクトルを抽出する。

ステップＥ０９において、ＮＮトレーニング部２０８は、特徴抽出部２０３ｂから送信された、話者ラベル付きのＯＯＤドメインベクトルと、話者ラベル（例えば、話者１）と共にドメインベクトル記憶部２０７から取得された、ドメインベクトルとに基づいて、検証ＮＮをトレーニングする。

ステップＥ１０において、トレーニングの結果として、ＮＮトレーニング部２０８は、ＮＮパラメータを生成し、それらをＮＮパラメータ記憶部２０９に格納する。

図１２は、図９に示すＭＬＰによって作成されるドメインベクトルを用いたＮＮ検証の評価パートを表すフローチャートである。

最初に、ステップＦ０１において、特徴抽出部２０３ｃは、外部デバイス（図８において不図示）から入力された登録データ（基本データ）を読み出す。

ステップＦ０２において、特徴抽出部２０３ｃは、登録データから特徴ベクトルを抽出する。例えば、エンロールメントデータは、広東語の音声記録である。特徴抽出部２０３ｃは、広東語の音声記録のＭＦＣＣのシーケンスを抽出する。

ステップＦ０３において、特徴抽出部２０３ｄは、外部デバイス（図８において不図示）から入力されたテストデータを読み出す。

ステップＦ０４において、特徴抽出部２０３ｄは、テストデータから特徴ベクトルを抽出する。例えば、テストデータは、広東語の音声記録である。特徴抽出部２０３ｄは、広東語の音声記録のＭＦＣＣのシーケンスを抽出する。

ここで、Ｆ０１〜Ｆ０２とＦ０３〜Ｆ０４との順序は、入れ替えられ得ることに注意する。

ステップＦ０５において、ドメインベクトル抽出部２０５ｂは、ＭＬＰパラメータ記憶部２０６に格納されているＭＬＰパラメータを読み出す。

ステップＦ０６において、ドメインベクトル抽出部２０５ｂは、登録データの特徴ベクトルから対象ドメインベクトルを抽出する。

ステップＦ０７において、ＮＮ検証部２１０は、２０９に格納されているＮＮパラメータを読み出す。

ステップＦ０８において、ＮＮ検証部２１０は、特徴抽出部２０３ｃ、２０３ｄからの登録データ及びテストデータの特徴ベクトルと共に、ドメインベクトル抽出部２０５ｂから対象ドメインベクトルを受け取り、ＮＮパラメータ記憶部２０９に格納されているＮＮパラメータを受け取る。ＮＮ検証部２１０は、式（１）を適用することによって、図９に示すＮＮモデル（ＭＬＰ）を用いて、検証スコアを算出する。ＮＮ検証部２１０は、所定のしきい値を比較することによって、「対象」又は「非対象」を示す、計算の結果を決定する。「対象」は、エンロールメントデータとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。

ボトルネック特徴ベクトルが抽出される層は、ＭＬＰの最後の層に限定されない。ボトルネック特徴ベクトルの使用において一般的になされているように、最後から２番目又はそれよりも前の層からボトルネックを抽出することが可能である。評価パートにおいて、テストデータも、ドメインデータ抽出に使用できる。

（第２の実施形態の効果）
上述のように、第２の実施形態は、トレーニングにおいて必要な対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証ＮＮの頑強性を向上できる。第２の実施形態は、実際の適用可能性がより高く、特に、ＩＮＤデータの収集が極端に困難な場合に有用である。その理由は、以下の通りである。ニューラルネットワークＭＬＰは、トレーニングされる。ニューラルネットワークＭＬＰは、１つ又は複数の特徴ベクトルからドメインベクトルを抽出できる。ドメインベクトルは、検証トレーニングにおいて加えられる。そのため、ドメインは分類において考慮され、そして、結果は、よりロバストである。
＜第３の実施形態＞

第２の実施形態は、トレーニングにおいて必要な対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証ＮＮの頑強性を向上できる。さらに、本発明の第３の実施形態は、対象ドメインの情報なしに様々なドメインの既存のデータを用いた、ＮＮにおけるドメイン情報に基づく、対象ドメインベクトルの予測とドメイン分類との統合プロセスによって、任意の種類のドメイン可変性に対する分類の頑強性を提供できる。ＭＬＰと検証ＮＮとの統合トレーニングによって、幅広い最適化を達成できる。

＜＜パターン認識装置の構成＞＞
本発明の第３の実施形態において、ドメインベクトル抽出ＭＬＰと検証ＮＮとを同時にトレーニングするパターン認識装置について説明する。この実施形態のパターン認識装置は、第１及び第２の実施形態と比較して、トレーニングのために、話者ラベルとドメインラベルとの両方を備えた大量のＯＯＤデータを必要とする。

図１３は、第３の実施形態のパターン認識装置３００のブロック図を表す。パターン認識装置３００は、トレーニングパートと評価パートとを含む。

トレーニングパートは、ＯＯＤデータ記憶部３０１＿１、３０１＿２、・・・、３０１＿ｎ（以後、３０１＿１〜３０１＿ｎと表記する）と、特徴抽出部３０２ａと、統合トレーニング部３０３と、ＭＬＰ−ＮＮパラメータ記憶部３０４とを含む。評価パートは、特徴抽出部３０２ｂ、３０２ｃと、ＭＬＰ−ＮＮ検証部３０５とを含む。

ＯＯＤデータ記憶部３０１＿１〜３０１＿ｎは、ｎ（ｎは１以上の整数）個のドメインからの話者ラベルとドメインラベルとを含む、ＯＯＤデータを記憶する。ＯＯＤデータ記憶部３０１＿１〜３０１＿ｎの内容は、ドメインのタイプごとに分類され得る。例えば、図２に示すように、ドメインが「話し言葉」である場合、ＯＯＤデータ記憶部３０１＿１は、ドメインタイプ１（例えば、英語）の音声記録を記憶し、ＯＯＤデータ記憶部３０１＿ｎ、はドメインタイプｎ（例えば、日本語）の音声記録を記憶する。

ＭＬＰ−ＮＮパラメータ記憶部３０４は、トレーニングされたＭＬＰ−ＮＮパラメータを記憶する。

特徴抽出部３０２ａは、話者ラベルとドメインラベルとを用いて、ＯＯＤデータ記憶部３０１＿１〜３０１＿ｎのデータから、ｎ組の特徴ベクトルを抽出する。

統合トレーニング部３０３は、特徴抽出部３０２ａから、複数の組のＯＯＤ特徴ベクトルを受け取る。統合トレーニング部３０３は、ＭＬＰと検証ＮＮとを同時にトレーニングする。このトレーニングにおいて、例えば、勾配降下法や、交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの後に、統合トレーニング部３０３は、ＭＬＰ−ＮＮパラメータを出力し、それらをＭＬＰ−ＮＮパラメータ記憶部３０４に格納する。

図１４は、ＭＬＰと検証ＮＮとの統合ネットワーク構造の概念（モデル）を表す図である。図１４を参照すると、共有層は、ＭＬＰの出力層に接続され、検証の最終決定のためのＮＮの最初の層１１に接続されている、最後の層１０を含む。ＭＬＰは、入力層としての特徴ベクトルの一種（登録特徴）と、出力層としてのドメインＩＤ（ラベル）と共に、共有層を含む部分と考えられる。検証ＮＮは、入力層としての２つの連結された特徴ベクトル（登録特徴及びテスト特徴）のベクトルと、出力層としての検証結果の「対象／非対象と共に、共有層と追加層とを含む部分と考えられる。ここで、最後の層１０は、潜在的なドメインベクトルと考えらえる。前述のように、ドメインベクトルは、最後の層だけではなく、その前の他の層から抽出され得る。

評価パートにおいて、特徴抽出部３０２ｂは、登録データから特徴ベクトルを抽出する。特徴抽出部３０２ｃは、テストデータから特徴ベクトルを抽出する。ＭＬＰ−ＮＮ検証部３０５は、抽出された特徴ベクトルの両方と、ＭＬＰ−ＮＮパラメータ記憶部３０４に格納されているＭＬＰ−ＮＮパラメータとを取得する。ＭＬＰ−ＮＮ検証部３０５は、図１４に示すＮＮモデルを用いることと、式（１）を適用することとによって、検証スコアを計算する。ＭＬＰ−ＮＮ検証部３０５は、所定のしきい値を比較することによって、「対象」又は「非対象」のいずれかを示す計算の結果を決定する。「対象」は、エンロールメントデータとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。

＜＜パターン認識装置の動作＞＞
次に、パターン認識装置３００の動作について図面を参照しながら説明する。

図１５を参照することによって、パターン認識装置３００の動作全体を説明する。図１５は、トレーニングパートと評価パートとの動作を含む。しかし、これは例を表しており、トレーニングと評価との動作は、連続的に実行されてよく、時間間隔が挿入されてもよい。

ステップＧ０１（トレーニングパート）において、統合トレーニング部３０３は、ＯＯＤに対応する特徴ベクトルに基づいてトレーニングされる。このトレーニングにおいて、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの結果として、ＭＬＰ−ＮＮパラメータが、生成され、ＭＬＰ−ＮＮパラメータ記憶部３０４に格納される。

ステップＧ０２（評価パート）において、ＭＬＰ−ＮＮ検証部３０５は、２つの入力データ（登録データ及びテストデータ）を検証し、検証結果（テストデータは「対象」又は「非対象」である）を出力する。

図１６は、検証ＮＮ及びＭＬＰが共有層を有し、同時に学習することを表すフローチャートである。ドメインベクトルは、共有層の最後の層１０（図１４参照）である。これは、この実施形態のトレーニングパートを示す。

最初に、ステップＨ０１において、トレーニングパートの最初として、特徴抽出部３０２ａは、ＯＯＤデータ記憶部３０１＿１〜３０１＿ｎから、ドメインラベル（例えば、言語）及び話者ラベル（例えば、話者１）付きの、ｎ組のＯＯＤデータを読み出す。

ステップＨ０２において、特徴抽出部３０２ａは、ＯＯＤデータ記憶部３０１＿１〜３０１＿ｎから、ｎ組の特徴ベクトルを抽出する。例えば、特徴抽出部３０２ａは、ＯＯＤデータ記憶部３０１＿１〜３０１＿ｎの音声記録の各々から、特徴ベクトルとしてＭＦＣＣのシーケンスを抽出する。

ステップＨ０３において、統合トレーニング部３０３は、特徴抽出部３０２ａから送信されたＯＯＤ特徴ベクトルを、それらのドメインラベル及び話者ラベルと共に用いて、ＭＬＰ及び検証ＮＮを統合的にトレーニングする。

ステップＨ０４において、トレーニングの結果として、ＭＬＰ−ＮＮ統合トレーニング部３０３は、ＭＬＰ−ＮＮパラメータを生成し、それらをＭＬＰ−ＮＮパラメータ記憶部３０４に格納する。これがトレーニングパートの終わりである。

図１７は、対象ドメインのドメインベクトルが同時に作成されるＭＬＰ−ＮＮ検証の、評価パートを表すフローチャートである。

最初に、ステップＩ０１において、特徴抽出部３０２ｂは、外部デバイス（図１３において不図示）から入力された検証データ（基本データ）を読み出す。

ステップＩ０２において、特徴抽出部３０２ｂは、検証データから特徴ベクトルを抽出する。例えば、登録データは、広東語の音声記録である。特徴抽出部３０２ｂは、広東語の音声記録のＭＦＣＣのシーケンスを抽出する。

ステップＩ０３において、特徴抽出部３０２ｃは、外部デバイス（図１３において不図示）から入力されたテストデータを読み出す。

ステップＩ０４において、特徴抽出部３０２ｃは、テストデータから特徴ベクトルを抽出する。例えば、テストデータは、広東語の音声記録である。特徴抽出部３０２ｃは、広東語の音声記録のＭＦＣＣのシーケンスを抽出する。

ここで、Ｉ０１〜Ｉ０２及びＩ０３〜Ｉ０４の順序は、入れ替えられ得ることに注意する。

ステップＩ０５において、ＭＬＰ−ＮＮ検証部３０５は、ＭＬＰ−ＮＮパラメータ記憶部３０４からＭＬＰ−ＮＮパラメータを読み出す。

最後に、ステップＩ０６において、ＭＬＰ−ＮＮ検証部３０５は、抽出された特徴ベクトルの両方と、ＭＬＰ−ＮＮパラメータ記憶部３０４に記憶されたＭＬＰ−ＮＮパラメータと、を取得する。ＭＬＰ−ＮＮ検証部３０５は、図１４に示すＮＮモデルを用いることと、式（１）を適用することとによって、検証スコアを計算する。ＭＬＰ−ＮＮ検証部３０５は、所定のしきい値を比較することによって、算出結果が「対象」を示すか又は「非対象」を示すかを決定する。「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。

（第３の実施形態の効果）
上述のように、第３の実施形態は、トレーニングにおいて必要な、対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証ＮＮの頑強性を向上できる。第３の実施形態は、ＭＬＰと検証ＮＮとのパラメータが同時に推定されるという、第２の実施形態に対する利点もある。これは、それらが、第２の実施形態のものもよりも、グローバルに最適である可能性が高いことを意味する。

３つの実施形態の全てで、検証プロセス（２クラス分類）を、一般的な識別（Ｎクラス識別）に置き換えることができる。

＜第４の実施形態＞
第４の実施形態のパターン認識装置を、図１８に示す。ニューラルネットワーク（ＮＮ）に基づくパターン認識装置５００は、少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、第１の特徴ベクトルはサブセットの各々から抽出され、ドメインベクトルはサブセットの各々に対応する識別子を示す、ＮＮトレーニング部５０１と、対象ドメインベクトルとＮＮパラメータとに基づいて、特定のドメインにおける１対の第２の特徴ベクトルを、その１対が同じ個人を示すか否かを出力するために検証するＮＮ検証部５０２と、を含む。

パターン認識装置５００は、任意の種類のドメイン可変性に対する分類の頑強性を提供できる。その理由は、全てのクラスのドメインベクトルが、対象ドメインからのラベル付きデータの補償として使用されるからである。様々なドメインの既存のデータを使用することによって、パターン認識装置５００は、検証フェーズにおいて使用されるように、対象ドメインベクトルを予測できる。

＜情報処理装置の構成＞
図１９は、本発明の実施形態と関係があるパターン認識装置を実施できる情報処理装置９００（コンピュータ）の構成を、例として表す図である。言い換えると、図１９は、上述の実施形態における個々の機能を実施できるハードウェア環境を表す、図１、８及び１３の装置を実施できるコンピュータ（情報処理装置）の構成を表す図である。

図１９に示す情報処理装置９００は、以下のコンポーネントを含む。
ＣＰＵ９０１（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）；
ＲＯＭ９０２（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）；
ＲＡＭ９０３（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）；
ハードディスク９０４（記憶デバイス）；
外部デバイスへの通信インタフェース９０５；
ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの記憶媒体９０７に格納されたデータの読み出し／書き込みが可能なリーダ／ライタ９０８；及び
入出力インタフェース９０９。

情報処理装置９００は、これらのコンポーネントがバス９０６（通信線）を介して接続されている汎用のコンピュータである。

例としての上記実施形態を用いて説明した本発明は、図１９に示すコンピュータに、実施形態の説明で参照されたブロック図（図１、８及び１３）又はフローチャート（図５〜７、図１０−１２及び図１５〜１７）において描かれている機能を実施できるプログラムを供給することと、そして、次に、そのようなハードウェアの中のＣＰＵ９０１にそのコンピュータプログラムを読み込み、それを解釈し、そしてそれを実行することと、によって成し遂げられる。装置に供給されるコンピュータプログラムは、読み書き可能な揮発性記憶メモリ（ＲＡＭ９０３）、又は、例えばハードディスク９０４などの不揮発性記憶デバイスに格納されていてよい。

加えて、上述の場合において、一般的な手順が、コンピュータプログラムをそのようなハードウェアに供給するために使用できる。これらの手順は、例えば、例えばＣＤ−ＲＯＭなどの様々な記憶媒体９０７のいずれかを介して、コンピュータプログラムを装置にインストールすること、又は、例えばインターネットなどの通信線を介して、外部ソースからそれをダウンロードすることを含む。これらの場合、本発明を、そのようなコンピュータプログラムを形成するコードからなるもの、又は、コードを記憶する記憶媒体９０７からなるものと考えることができる。

最後のポイントとして、ここに説明し図示したプロセス、記述及び方法は、特定の装置に限定されず、また、特定の装置に関連付けられないことは明らかとすべきである。これらのプロセス、技術及び方法は、構成要素の組み合わせを用いて実装できる。また、様々な種類の汎用デバイスを、ここに記載の命令に従って使用できる。本発明は、また、特定の組み合わせの例を用いて説明されている。しかし、これらは、単に例示的に過ぎず、限定的ではない。例えば、記述されたソフトウェアは、例えばＣ／Ｃ＋＋、Ｊａｖａ、ＭＡＴＬＡＢ及びＰｙｔｈｏｎなどの、幅広い言語によって実装され得る。さらに、本発明の技術の他の実装は、当業者には明らかであろう。

＜付記＞
上に開示した実施形態の全部又は一部は、以下の付記として記述として記述できるが、これらに限定されない。
（付記１）
ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づくパターン認識装置であって、
少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、ＮＮトレーニング手段と、
対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証するＮＮ検証手段と、
を備えるパターン認識装置。
（付記２）
前記ＮＮ検証手段は、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記１に記載のパターン認識装置。
（付記３）
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する平均抽出手段
をさらに備える付記１に記載のパターン認識装置。
（付記４）
前記第１の特徴ベクトルに基づいて、ＭＬＰ（Ｍｕｌｔｉ−ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）を、前記サブセットに対応する前記ドメインベクトルを抽出するためにＭＬＰパラメータを生成するようにトレーニングするＭＬＰトレーニング手段
をさらに備える付記１に記載のパターン認識装置。
（付記５）
前記ＮＮトレーニング手段は、複数の前記第１の特徴ベクトルに基づいて、ＭＬＰ−ＮＮパラメータを生成するように、前記ＮＮモデルトレーニングと共にＭＬＰをさらにトレーニングし、
前記ＮＮ検証手段は、前記ＭＬＰ−ＮＮパラメータに基づいて、前記１対の第２の特徴ベクトルを検証する、
付記１に記載のパターン認識装置。
（付記６）
ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いるパターン認識方法であって、
少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証する、
パターン認識方法。
（付記７）
前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記６に記載のパターン認識方法。
（付記８）
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
付記６に記載のパターン認識方法。
（付記９）
前記第１の特徴ベクトルに基づいて、ＭＬＰを、前記サブセットに対応する前記ドメインベクトルを抽出するためにＭＬＰパラメータを生成するようにトレーニングする
付記６に記載のパターン認識方法。
（付記１０）
前記ＮＮのトレーニングにおいて、複数の前記第１の特徴ベクトルに基づいて、ＭＬＰ−ＮＮパラメータを生成するように、前記ＮＮモデルトレーニングと共にＭＬＰをさらにトレーニングし、
前記ＮＮの検証において、前記ＭＬＰ−ＮＮパラメータに基づいて、前記１対の第２の特徴ベクトルを検証する、
付記６に記載のパターン認識方法。
（付記１１）
ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いたパターン認識プログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、
少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証する、
記憶媒体。
（付記１２）
前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記１１に記載の記憶媒体。
（付記１３）
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
付記１１に記載の記憶媒体。
（付記１４）
前記第１の特徴ベクトルに基づいて、ＭＬＰ（Ｍｕｌｔｉ−ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）を、前記サブセットに対応する前記ドメインベクトルを抽出するためにＭＬＰパラメータを生成するようにトレーニングする
付記１１に記載の記憶媒体。
（付記１５）
前記ＮＮのトレーニングにおいて、複数の前記第１の特徴ベクトルに基づいて、ＭＬＰ−ＮＮパラメータを生成するように、前記ＮＮモデルトレーニングと共にＭＬＰをさらにトレーニングし、
前記ＮＮの検証において、前記ＭＬＰ−ＮＮパラメータに基づいて、前記１対の第２の特徴ベクトルを検証する、
付記１１に記載の記憶媒体。

１００パターン認識装置
１０１＿１・・・１０１ｎＯＯＤデータ記憶部
１０２ＩＮＤデータ記憶部
１０３ａ、１０３ｂ、１０３ｃ、１０３ｄ特徴抽出部
１０４ａ、１０４ｂ平均抽出部
１０５ＯＯＤドメインベクトル記憶部
１０６ＩＮＤドメインベクトル記憶部
１０７ＮＮトレーニング部
１０８ＮＮパラメータ記憶部
１０９ＮＮ検証部
２００パラメータ認識装置
２０１＿１・・・１０１ｎＯＯＤデータ記憶部
２０２ＯＯＤデータ記憶部
２０３ａ、２０３ｂ、２０３ｃ、２０３ｄ特徴抽出部
２０４ＭＬＰトレーニング部
２０５ａ、２０５ｂドメインベクトル抽出部
２０６ＭＬＰパラメータ記憶部
２０７ドメインベクトル記憶部
２０８ＮＮトレーニング部
２０９ＮＮパラメータ記憶部
２１０ＮＮ検証部
３００パターン認識装置
３０１＿１・・・３０１ｎＯＯＤデータ記憶部
３０２ａ、３０２ｂ、３０２ｃ特徴抽出部
３０３統合トレーニング部
３０４ＭＬＰ−ＮＮパラメータ記憶部
３０５ＭＬＰ−ＮＮ検証部
４０１ＤＢ
４０２特徴抽出部
４０３ＮＮトレーニング部
４０４ＮＮパラメータ記憶部
４０５ＮＮ検証部
９００情報処理装置
９０１ＣＰＵ
９０２ＲＯＭ
９０３ＲＡＭ
９０４ハードディスク
９０５通信インタフェース
９０６バス
９０７記憶媒体
９０８リーダ／ライタ
９０９入出力インタフェース

Claims

ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）に基づくパターン認識装置であって、
少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、ＮＮトレーニング手段と、
対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証するＮＮ検証手段と、
を備えるパターン認識装置。
前記ＮＮ検証手段は、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
請求項１に記載のパターン認識装置。
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する平均抽出手段
をさらに備える請求項１又は２に記載のパターン認識装置。
前記第１の特徴ベクトルに基づいて、ＭＬＰ（Ｍｕｌｔｉ−ＬａｙｅｒＰｅｒｃｅｐｔｒｏｎ）を、前記サブセットに対応する前記ドメインベクトルを抽出するためにＭＬＰパラメータを生成するようにトレーニングするＭＬＰトレーニング手段
をさらに備える請求項１乃至３のいずれか１項に記載のパターン認識装置。
前記ＮＮトレーニング手段は、複数の前記第１の特徴ベクトルに基づいて、ＭＬＰ−ＮＮパラメータを生成するように、前記ＮＮモデルトレーニングと共にＭＬＰをさらにトレーニングし、
前記ＮＮ検証手段は、前記ＭＬＰ−ＮＮパラメータに基づいて、前記１対の第２の特徴ベクトルを検証する、
請求項１乃至３のいずれか１項に記載のパターン認識装置。
ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いるパターン認識方法であって、
少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証する、
パターン認識方法。
前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
請求項６に記載のパターン認識方法。
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
請求項６又は７に記載のパターン認識方法。
前記第１の特徴ベクトルに基づいて、ＭＬＰを、前記サブセットに対応する前記ドメインベクトルを抽出するためにＭＬＰパラメータを生成するようにトレーニングする
請求項６乃至８のいずれか１項に記載のパターン認識方法。
コンピュータにパターンを認識させるための、ＮＮ（ＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いたパターン認識プログラムであって、
少なくとも１つの第１の特徴ベクトルと、特定のドメインにおけるサブセットの１つを示す少なくとも１つのドメインベクトルと、に基づいて、ＮＮパラメータを生成するようにＮＮモデルをトレーニングし、前記第１の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記ＮＮパラメータとに基づいて、前記特定のドメインにおける１対の第２の特徴ベクトルを、前記１対が同じ個人を示すか否かを出力するために検証する、
処理をコンピュータに実行させるパターン認識プログラム。