JP5853029B2

JP5853029B2 - 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム

Info

Publication number: JP5853029B2
Application number: JP2013542330A
Authority: JP
Inventors: ロンマー; ハイフォンシェン; ビンチーチャン
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2010-12-10
Filing date: 2010-12-10
Publication date: 2016-02-09
Anticipated expiration: 2030-12-10
Also published as: US20130238334A1; CN103221996A; JP2014502375A; US9257121B2; WO2012075641A1; CN103221996B

Description

本開示は、音声（オーディオ）処理技術に関し、詳細には、話者認識および話者照合の技術に関する。

話者認識技術は、マン・マシン・インタラクティブ（Human-Machine Interactive）において有用である。（１）ある種の設備（家庭電化製品、自動車、ＰＣ端末など）へのオンサイト・アクセス制御、または（２）電話回線、携帯電話回線、またはコンピュータのデータ回線を通じてのデータベース、ウェブサイト、さらには銀行取引への安全なリモート・アクセスなど、多くのアプリケーションおよび製品を、話者認識技術に対応させるか、または話者認識技術を備えて機能強化することが可能である。

現実のシステムでは話者認識技術を使用するのに先立ち、目標話者に対する登録またはレジストレーション・プロセスが必要である。話者登録プロセスにおいて、目標話者からサンプル音声を収集し、これを使用して特定の話者の統計的テンプレートを生成する。生成された統計的テンプレートの品質は、話者認識システムの性能に対して大きな影響力を有する。

図１は、話者照合システムに対するパスフレーズ・モデリングのための従来のデバイスの図を示している。ユーザが登録プロセスにおいて自分のパスフレーズを登録したい場合、話者照合システムのフロント・エンド１０１によって目標ユーザからのパスフレーズの発話が要求される。ユーザの発話は毎回必ずしもまったく同じであるとは限らないので、モデリング・ユニット１０３でロバストな統計的テンプレート・モデルを得るために３〜５回パスフレーズを繰り返す必要がある。作成されたテンプレート・モデルは、後で確認するためにデータベース１０５内に格納される。

従来の方法の２つの主な欠点は、（１）利用可能な登録データが少ないか、または大きな話者内変動が存在する場合に、登録の効果が保証されないこと、および（２）ユーザが単純な登録手順を好むので、より多くの繰り返しが必要な場合にユーザ・エクスペリエンスがそれほどよくないことである。

本開示の一態様において、話者照合のためのパスフレーズ・モデリング・デバイスが実現され、前記パスフレーズ・モデリング・デバイスが備えるデータベースは、話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、前記パスフレーズ・モデリング・デバイスが備えるフロント・エンドは、目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、前記複数のフレームの各々から音響特性および／または内容を表す特徴パラメータを抽出し、前記パスフレーズ・モデリング・デバイスが備えるテンプレート生成ユニットは、前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、前記算出した尤度スコアの上位Ｎ（Ｎは自然数）個のガウス成分を、前記複数のフレーム毎に抽出し、同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する。

本開示の別の態様において、話者照合のためのパスフレーズ・モデリング方法が提供され、これは、話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、前記複数のフレームの各々から音響特性および／または内容を表す特徴パラメータを抽出し、前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、前記算出した尤度スコアの上位Ｎ（Ｎは自然数）個のガウス成分を、前記複数のフレーム毎に抽出し、同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する。

本開示のさらなる態様において、音声を用いて話者を照合する話者照合システムが実現され、これはテスト話者のテスト音声を受信するフロント・エンドと、前記テスト音声と、上述のパスフレーズ・モデリング方法によってパスフレーズ・テンプレートを生成し、前記パスフレーズ・テンプレートから選択されたデータとを比較して、前記テスト音声の尤度スコアを算出する動的照合ユニットとを備え、前記尤度スコアが所定の閾値以上である場合に、目標話者は申告話者として受理される。

本開示のデバイス、方法、およびシステムでは、一般話者モデルに含まれる豊富な変異を考慮することによって、登録データが不十分である場合に、また目標話者からの利用できるパスフレーズが１つだけであるとしても、ロバストなパスフレーズ・モデリングが確実なものとなる。

前記は、概要であり、したがって、当然のことながら、簡素化、一般化、および詳細の省略を含み、そのため、概要は単に例示しているだけであり、いかなる形でも制限する意図はないことを、当業者なら理解するであろう。本明細書に記載のデバイスおよび／またはプロセスおよび／または他の主題の他の態様、特徴、および利点は、本明細書で述べられている教示において明らかにされるであろう。この「発明の概要」は、以下の「発明を実施するための形態」でさらに説明される簡素化された形式の概念の選択を導入するために設けられている。この「発明の概要」は、特許請求されている主題の鍵となる特徴または本質的特徴を明示することを意図しておらず、また特許請求されている主題の範囲を決定する補助として使用されることも意図していない。

本開示の前記の特徴および他の特徴は、添付の図面を参照することで、以下の説明および付属の請求項からより完全に明らかになるであろう。これらの図面は本開示による複数の実施形態のみを示し、したがって本開示の範囲を制限するものであると考えるべきでないことを理解してもらいそのうえで、添付の図面を用いてさらに具体的に、詳細に本開示を説明する。

話者照合に対するパスフレーズ・モデリングのための従来のデバイスの図である。本開示の一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図である。登録音声の各フレームに対する一般話者モデルから選択された上位Ｎ個のガウス成分（分布）の略図である。登録音声を複数のセグメントに分割することを示す図である。１つの、または複数のＧＭＭ（ガウス混合モデル）にマージされる登録音声の１つのセグメント内のガウス成分の図である。マージされたＧＭＭからなるＨＭＭネットの図である。話者照合に対するパスフレーズ・モデリングの方法の流れ図である。本開示の一実施形態による話者照合システムの図である。本開示の別の実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図である。

以下の詳細な説明では、詳細な説明の一部をなす、添付の図面が参照される。図面中の類似の記号は、典型的には、文脈上別のものを示していない限り類似のコンポーネントを明示する。詳細な説明、図面、および請求項で説明されている例示的な実施形態は、制限することを意図されていない。他の実施形態も利用することができ、また本明細書に提示されている主題の精神または範囲から逸脱することなく、他の変更を加えることができる。本明細書で一般的に説明され、また図に例示されているような本開示の態様は、さまざまな異なる構成による配置、置換、組み合わせ、設計が可能であり、すべて明示的に考察され、本開示の一部をなすことは容易に理解されるであろう。

本開示は、とりわけ、話者照合に対するパスフレーズ・モデリングに関するデバイス、方法、およびシステムに関するものである。

図２は、本開示の一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図を示す。

図２に示されているように、本開示の一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイス２００は、フロント・エンド２０１と、テンプレート生成ユニット２０３と、適応ユニット２０７と、パスフレーズ・データベース２０５と、話者モデル・データベース２１３とを備える。上記構造では、テンプレート生成ユニット２０３は、フロント・エンド２０１、適応ユニット２０７、パスフレーズ・データベース２０５、および話者モデル・データベース２１３にそれぞれ、接続される。本開示の一実施形態によれば、デバイス２００は、外部ユニットまたはデバイスとしてフロント・エンド２０１、適応ユニット２０７、パスフレーズ・データベース２０５、および話者モデル・データベース２１３などの他のユニットに接続されるテンプレート生成ユニット２０３のみを備えることができる。

一実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイス２００は、目標話者から登録音声を受け取るフロント・エンド２０１と、登録音声に基づいて一般話者モデルによりパスフレーズ・テンプレートを生成するテンプレート生成ユニット２０３とを備える。

これ以降、本開示の一実施形態によるデバイス２００の上記それぞれのユニットのオペレーションについて説明する。

具体的には、デバイス２００は、本質的にＭ（例えば、Ｍ＝１０２４）個のガウス成分を持つ混合モデルである、一般話者モデル（ＨＭＭ（隠れマルコフ・モデル）またはＧＭＭ−ＵＢＭ（普遍背景モデル））の学習を行う必要がある。このようなガウス成分は、話者照合時に予測される話者の母集団を代表する多数の話者からの音声データのコレクションから抽出される。一般話者モデルは、例えば、以下のように表される、話者間および話者内差異によって引き起こされる豊富な変異を含むと予想される。

ここで、ｗ_ｊ、μ_ｊ、およびΣ_ｊは、それぞれＵＢＭのｊ番目の混合成分の重み、平均、および共分散である。

つまり、一般話者モデルは、話者照合時に予測される多数の話者から収集された音声データを表す複数のガウス成分からなる。学習済み一般話者モデルは、予め、話者モデル・データベース２１３内に格納されている。

図３は、登録音声の各フレームに対する一般話者モデルから選択された上位Ｎ個のガウス成分の略図を示す。

本開示の一実施形態によれば、フロント・エンド２０１は、目標話者から登録音声を受け取り、その登録音声を複数のフレームに分割し、複数のフレームのそれぞれから音響特性および／または内容を表す特徴パラメータを抽出する。

具体的には、フロント・エンド２０１では、目標話者からの登録音声は、それぞれのフレームに分割され、各フレームは、例えば、１０ｍｓであり、各フレームはＬＰＣＣ（線形予測ケプストラム係数）またはＭＦＣＣ（メル尺度周波数ケプストラム係数）などの特徴パラメータとともに抽出される。本開示の一実施形態によるパラメータ抽出の詳細なプロセスは、限定しないが、以下のように説明される。例えば、フロント・エンド２０１で、ＭＦＣＣパラメータをフレーム毎に抽出する。登録音声の各フレームに関して、０．９７などの係数で、プリエンファシス処理を実行し、音声データのサンプリング周波数を１６ｋＨｚとして与え、ハミング窓を２０ｍｓとし、５１２点ＦＦＴによって１０ｍｓ毎にパワー・スペクトルを計算する。ＤＣＴ（離散コサイン変換）変換を使用して、２４個のメル尺度三角フィルタ・バンクの対数エネルギーを１２個のケプストラム次数に変換する。さらに、各フレームの対数エネルギーも計算され、ケプストラムと組み合わせて１３次元ベクトルを形成する。次いで、元の静的特徴ベクトルの一次導関数と二次導関数を計算する。ケプストラム平均除去（ＣＭＳ）および分散正規化を含む特徴正規化を使用して、異なる状態で記録された信号の間の不整合を低減する。これにより、目標話者の登録音声の各フレームのＭＦＣＣパラメータなどの特徴パラメータを取得する。本開示によるパラメータ抽出は、上記プロセスに限定されず、特徴パラメータは、他の知られているプロセスを使って取得することができる。

本開示の一実施形態によれば、テンプレート生成ユニット２０３は、各フレームの特徴パラメータで一般話者モデルのガウス成分の各尤度スコアを計算し、各フレームについて最高の尤度スコアを有するＮ個のガウス成分を選択する。ここで、Ｎは、自然数である。

具体的には、テンプレート生成ユニット２０３は、フロント・エンド２０１から各フレームの特徴パラメータを受け取り、特徴パラメータに基づいて話者モデル・データベース２１３から受け取った一般話者モデルのガウス成分の尤度スコアを計算し、登録音声の各フレームに対する上位Ｎガウス成分リストを抽出する。ここで、Ｎは自然数であり、ある種の距離測定によって判断されうる。

テンプレート生成ユニット２０３において、各フレームのＭＦＣＣパラメータが一般話者モデルのガウス成分のそれぞれに適用される場合、各フレームの上位Ｎガウス成分リストは、以下の式で求めることが可能である。

ここで、パラメータＸ_ｔは、時刻ｔにおいて抽出されるＭＦＣＣパラメータなどの特徴パラメータであり、パラ−メータｗ_ｊ、μ_ｊ、およびΣ_ｊは、それぞれ一般話者モデルのｊ番目の混合成分の重み、平均、および共分散であり、φ_ｊ（Ｘ_ｔ，θ_ｊ）は、成分ｊの尤度スコアであり、φ（Ｘ_ｔ，θ）は、各フレーム（ｔ）の一般話者モデルの全尤度スコアである。

各フレームのガウス成分の尤度スコアは、ソートすることが可能であり、各フレームの最高の尤度スコアを有する上位Ｎ個のガウス成分を選択することが可能である。時刻ｔにおける上位Ｎ個のガウス成分のリストは、
ｊ_ｔ，ｓ（１≦ｓ≦Ｎ、０≦ｔ≦Ｔ）
と表すことが可能である。

ここで、Ｎは、定義済みの値であるか、または最高の事後確率を有するガウス成分を含むようにガウス成分の事後確率（以下の式（４）のｐ_ｔ，ｓ）に従って設定されうる。ここで、フレームのガウス成分の尤度スコアが高ければ高いほど、ガウス成分は登録音声のフレームの音響特性および／または内容に近くなる。

図３に示されているように、参照番号ｂ_ｔ１、ｂ_ｔ２、ｂ_ｔ３、ｂ_ｔ４、．．．は、それぞれ登録音声の各フレームを表し、参照番号１、２、３、４、５は、各フレームの抽出された５個のガウス成分を表す。ここで、Ｎは５である。参照番号ｂ_ｔ１、ｂ_ｔ２、ｂ_ｔ３、ｂ_ｔ４、．．．および参照番号１、２、３、４、５の接合点に配置されるすべてのドットは、一般話者モデルから選択された上位Ｎ個のガウス成分のリストを形成する。

図４は、登録音声を複数のセグメントに分割することを示す図である。本開示の一実施形態によれば、テンプレート生成ユニット２０３は、登録音声を、サイズが等しい、またはサイズが等しくない複数のセグメントに切り分け、各セグメントは複数のフレームを含む。

具体的には、テンプレート生成ユニット２０３では、登録音声を時間軸にそっていくつかのセグメントに切り分け、セグメントのそれぞれはいくつかの（複数の）フレームを含む。図４に示されているように、２つのオプションがありうる。オプション１は、登録音声を均等にＫ個のセグメントに切り分けるもので、各セグメントの持続時間（期間）は、固定された閾値を超えるべき、つまり、図４（ａ）に示されているように、Ｌ_Ｋ≧Ｌ_ｍｉｎである。オプション２については、これらのセグメントの個数および境界は、図４（ｂ）に示されているように、動的上位Ｎガウス成分リストによって決定される。

動的セグメント分割で使用される詳細なアルゴリズムを以下のように述べるが、それだけに限定しない。

（１）以下の式（４）により時刻ｔにおいて上位Ｎリスト内の各ガウス成分の事後確率を計算する。

（２）時刻ｔ−１およびｔにおいて２つの隣接するフレームの間の等しい成分インデックスを持つガウス成分の対を見つける。次いで、上位Ｎ個のガウス成分の事後確率に基づいて隣接する２つのフレームの間の類似度を計算する。

代替えとして、類似度距離は、式（６）のようにガウス成分の対の階数の積に基づいて計算することが可能である。

（３）定義済みの閾値を持つ隣接するフレームの間の距離を比較することによって登録音声をいくつかのセグメントに切り分ける。

ここで、式（５）および（６）において、ｊ_ｔ，ｉは、時刻ｔに選択され、ソートされた上位Ｎ個のガウス成分のリスト内のｉ番目のガウス成分である。これらのセグメントの境界は、ｂ_ｋ，１≦ｋ≦Ｋと表すことが可能である。その結果、登録音声は、上記の類似度定義式（５）または（６）に従ってＫ個のセグメントに分割することが可能である。

本開示の一実施形態によれば、テンプレート生成ユニット２０３は、各セグメント内のすべてのフレームの抽出されたガウス成分をソートし、マージして、隠れマルコフ・モデル・ネットをパスフレーズ・テンプレートとして取得する。上記ソートおよびマージを行うことは、テンプレート生成ユニット２０３が異なる成分インデックスを持つ各セグメント内のすべてのフレームのガウス成分をソートし、その事後確率を累算し、事後確率の距離測定内で最も近いガウス成分を見つけて、マージすることを意味する。

具体的には、テンプレート生成ユニット２０３では、セグメント毎に、上位Ｎガウス成分リスト内に存在するガウス成分は、１つのＧＭＭにマージされるか、またはＫ個のクラスにクラスタ化され、Ｋ個のＧＭＭにマージされうる。ガウス成分の一部は、成分出現頻度、上位Ｎにおける成分階数、各成分の事後確率の総和などの、いくつかの規則に従ってマージおよびクラスタ化を行う前に取り除くことが可能である。

図５は、１つの、または複数のＧＭＭにマージされる登録音声の１つのセグメント内のガウス成分を示す図である。

対応するセグメントの上位Ｎガウス成分リスト内のガウス成分をマージするプロセスについて以下で説明する。図５に示されているように、ｂ_ｔ−１からｂ_ｔまでの期間は、登録音声の１つのセグメントを表し、これはｂ_ｔ１、ｂ_ｔ２、ｂ_ｔ３、ｂ_ｔ４、．．．によって表される複数のフレームを含む。図５に示されているようなセグメントにおいて、異なる成分インデックスを持つガウス成分を選択し、以下の式によって対応する事後確率を累算する。

ここで、Ｉ_ｑは、ガウス成分のインデックスである。（７）の目標は、各セグメント内の上位Ｎガウス成分リスト内に出現するＩ_ｑの事後確率にわたって総和することである。累算された事後確率が定義済みの閾値より低いノード５０２などのいくつかのガウス成分は、取り除かれる。

選択されたガウス成分は、Ｋ−ｍｅａｎｓ法または凝集型クラスタリングなどの、モデル・ベースのクラスタリング法を使用することによってＫ個のＧＭＭに反復的にクラスタ化される。本開示の一実施形態によれば、マージのプロセスは、以下のように実行されうる。

（ａ）上記ステップから選択された各ガウス成分で各ガウス・クラスタを初期化し、クラスタ番号をＣに設定し、

（ｂ）式（８）のようにマハラノビス距離などのいくつかの距離測定の意味で最も近い成分を見つける。

あるいは、バッタチャリャ距離およびＫＬダイバージェンスも使用することが可能である。

（ｃ）２つの最も近いガウシアン［ｗ_１，θ_１（μ_１，Σ_１）］、［ｗ_２，θ_２（μ_２，Σ_２）］を以下の式（９）でマージする。

Ｐ１およびＰ２は、１．０と単純に設定することもできる。式（８）および（９）において、ｗ_ｊ、μ_ｊ、およびΣ_ｊは、それぞれ一般話者モデルのｊ番目の混合成分の重み、平均、および共分散である。

（ｄ）Ｃ＝Ｃ−１、もしＣ≦Ｋであれば、停止し、そうでない場合は、（ｂ）に移る。

図５に示されているように、参照番号５０４で表されるガウス成分は、１つのＧＭＭにマージされ、参照番号５０５で表されるガウス成分は、１つのＧＭＭにマージされ、参照番号５０６で表されるガウス成分は、１つのＧＭＭにマージされる。例えば、３つのＧＭＭは、最終的に、ｂ_ｔ−１からｂ_ｔのセグメントで得られる。参照番号５０２で表されるガウス成分は、それらが定義済みの閾値より相対的に低い累算された事後確率を有するので取り除かれる。

上記プロセスは、登録音声のすべてのセグメントについて繰り返され、ＨＭＭネットを構築するためにテンプレート生成ユニット２０３内ですべての上位Ｎガウス成分リスト内に存在するガウス成分が使用される。ＨＭＭネットの各ノードは、一般話者モデルから抽出されたガウス成分によって生成されるクラスタ化されたＧＭＭである。

図６は、マージされたＧＭＭからなるＨＭＭネットの図である。

マージ・プロセスの後、マージされたＧＭＭ同士を連接し、ＨＭＭネットを形成する。図６に示されているように、ＨＭＭネットの状態は、上記ガウス・マージ・プロセスによって得られるＧＭＭからなる。同じセグメント（ｂ_ｔ−１からｂ_ｔなどの期間）から得られたＧＭＭは、ＨＭＭネット内で並列状態にあり、連続するセグメント間のＧＭＭは完全にリンクしている。各状態の対の間の初期遷移確率は、１／Ｌとして割り当てることが可能であり、ただし、Ｌは、ＨＭＭネット内の現在状態のファンアウト弧（fan-out arcs）の総数である。

これにより、ＨＭＭネットは、一実施形態により話者照合のため作成され、目標話者のパスフレーズ・テンプレートとしてパスフレーズ・データベース２０５に格納される。ＧＭＭのそれぞれは、目標話者の登録音声の音響特性および／または内容を十分に表すことができる。

本開示の別の実施形態によれば、ＨＭＭネットは、ＭＡＰおよびＭＬＬＲなどの適応方法によって登録音声に従って適応され、適応されたＨＭＭネットワークは、パスフレーズ・テンプレートとしてデータベース２０５に格納される。

適応ユニット２０７において、バウム・ウェルチ・アルゴリズムを使用して、話者の登録音声によりＨＭＭネット上でＭＬＬＲ（最尤線形回帰）／ＭＡＰ（最大事後確率）ベースの適応を実行し、話者依存パスフレーズ・パターンを作成することができ、適応されたＨＭＭネットは、適応のないＨＭＭネットの代わりに目標話者のパスフレーズのテンプレートとしてパスフレーズ・データベース２０５に格納される。適応技術はありふれた手段なので、その詳細についてはこれ以降説明しない。

図７は、本開示の一実施形態による話者照合に対するパスフレーズ・モデリングの方法の流れ図を示す。

図７に示されているように、本開示の一実施形態による話者照合のためのパスフレーズ・モデリング方法は以下のステップを含む。ステップＳ７０１で、登録音声を目標話者から受け取る。ステップＳ７０２で、登録音声に基づいて一般話者モデルによりパスフレーズ・テンプレートを生成する。

本開示の一実施形態によれば、上記ステップＳ７０１は、フロント・エンド２０１によって実行され、上記ステップＳ７０２は、テンプレート生成ユニット２０３によって実行されうる。

本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、その登録音声を複数のフレームに分割するステップと、複数のフレームのそれぞれから音響特性および／または内容を表す特徴パラメータを抽出するステップとをさらに含む。上記ステップは、フロント・エンド２０１によって実行されうる。本開示では、一般話者モデルは、話者照合時に予測される多数の話者から収集された音声データを表す複数のガウス成分からなる。

本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、各フレームの特徴パラメータでガウス成分の各尤度スコアを計算するステップと、各フレームについて最高の尤度スコアを有するＮ個のガウス成分を選択するステップとをさらに含み、ただし、Ｎは自然数である。上記ステップは、テンプレート生成ユニット２０３によって実行されうる。

本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、登録音声を、各セグメントが複数のフレームを含む、サイズが等しい、または等しくない複数のセグメントに切り分けるステップをさらに含む。上記ステップは、フロント・エンド２０１またはテンプレート生成ユニット２０３によって実行されうる。

本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、各セグメント内のすべてのフレームのガウス成分をソートするステップと、ソートされたガウス成分をマージして、隠れマルコフ・モデル・ネットをパスフレーズ・テンプレートとして取得するステップとをさらに含む。上記ステップは、テンプレート生成ユニット２０３によって実行されうる。

本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、異なる成分インデックスを持つ各セグメント内のすべてのフレームのガウス成分をソートするステップと、ソートされたガウス成分の事後確率を累算するステップと、事後確率の距離測定において最も近いガウス成分をマージするステップとをさらに含む。上記ステップは、テンプレート生成ユニット２０３によって実行されうる。

本開示の別の実施形態によれば、パスフレーズ・モデリング方法は、ＭＡＰおよびＭＬＬＲなどの適応方法によって登録音声に従ってパスフレーズ・テンプレートを適応するステップをさらに含む。上記ステップは、適応ユニット２０７によって実行されうる。

この方法の上記のステップの実行は、上記の順序に限定されず、これらのステップは、逐次実行および／または並列実行することができる。図示されているステップのすべてが実行される必要があるとは限らない可能性もある。

図８は、本開示の一実施形態による話者照合システムの図である。

話者照合システム全体は２つのフェーズからなり、一方は登録フェーズであり、他方はテスト・フェーズである。登録フェーズの構造は、図２を参照しつつ説明されているものと同じであり、したがってその詳細は、これ以降省く。テスト・フェーズは、フロント・エンド８０１および動的照合ユニット８０４を含む。フロント・エンド８０１は、目標話者からテスト音声を受け取り、そのテスト音声を特徴パラメータに変換し、それらの特徴パラメータを動的照合ユニット８０４に送る。フロント・エンド８０１およびフロント・エンド２０１は、１つのユニットだけで実現されうるが、これは上記の構成に限定されない。動的照合ユニット８０４は、フロント・エンド８０１から特徴パラメータを受け取り、パスフレーズ・データベース２０５に格納されているＨＭＭネットから選択されたデータ（ＧＭＭ）上に特徴パラメータを適用することによって目標話者のテスト音声の尤度スコアを計算する。次いで、動的照合ユニット８０４は、計算された尤度スコアを定義済み閾値と比較する。計算された尤度スコアが定義済み閾値以上である場合に、テスト音声を提供した目標話者は、申告話者として受理される。計算された尤度スコアが定義済み閾値未満である場合に、テスト音声は拒絶され、目標話者は、申告話者としてみなされない。

これにより、本開示の一実施形態による話者照合システムは、目標話者から登録音声および／またはテスト音声を受け取るフロント・エンド２０１および／または８０１と、登録音声に基づいて一般話者モデルによりパスフレーズ・テンプレートを生成するテンプレート生成ユニット２０３と、目標話者からのテスト音声をパスフレーズ・テンプレートから選択されたデータと比較する動的照合ユニット８０４とを備え、比較の結果が閾値以上である場合に、目標話者は申告話者として受理される。

本開示の別の実施形態によれば、話者照合システムにおいて、フロント・エンド８０１は、目標話者から話者識別をさらに受け取り、動的照合ユニット８０４は、話者識別に基づいてパスフレーズ・データベース２０５から比較のためのパスフレーズ・テンプレートを選択する。

具体的には、動的照合ユニット８０４が、テスト音声をパスフレーズ・データベース２０５から選択されたデータと比較する前に、フロント・エンド８０１は、話者から話者識別情報を受け取ることができる。その一方で、定義済みの話者識別情報は、予め、パスフレーズ・データベース２０５内に格納しておくことができる。フロント・エンド８０１は、パスフレーズ・データベース２０５から対応する話者識別情報をロードし、それをフロント・エンド８０１から受け取った話者識別情報と比較する。パスフレーズ・テンプレート・データベース２０５からロードされた話者識別情報がフロント・エンド８０１から受け取った話者識別情報と一致する場合、動的照合ユニット８０４は、話者識別情報に基づいてパスフレーズ・データベース２０５からテスト音声の照合オペレーションのためのデータを選択し、上述のように照合オペレーションを実行する。パスフレーズ・データベース２０５からロードされた話者識別情報がフロント・エンド８０１から受け取った話者識別情報と一致しない場合、動的照合ユニット８０４は、テスト音声の照合オペレーションを実行しない。

つまり、テスト・フェーズにおいて、申告識別を有するテスト音声は、申告識別を有する話者からのテスト音声とパスフレーズ・テンプレート（つまり、ＨＭＭネット）との間で動的照合ユニット８０４によって照合される。申告識別が照合されるかどうかの判断は、照合スコアおよび定義済みの閾値に従って行うことが可能である。テスト・フェーズは、本開示の主眼点ではなく、当技術分野で一般に使用される手段であるため、その詳細な説明は省く。

本開示の一実施形態によれば、システムのフロント・エンド２０１は、その登録音声を複数のフレームに分割し、複数のフレームのそれぞれから音響特性および／または内容を表す特徴パラメータを抽出する。

本開示の一実施形態によれば、一般話者モデルは、話者照合時に予測される多数の話者から収集された音声データを表す複数のガウス成分からなる。

本開示の一実施形態によれば、システムのテンプレート生成ユニット２０３は、各フレームの特徴パラメータでガウス成分の各尤度スコアを計算し、各フレームについて最高の尤度スコアを有するＮ個のガウス成分を選択するが、ただし、Ｎは自然数である。

本開示の一実施形態によれば、システムのフロント・エンド２０１またはテンプレート・ユニット２０３は、登録音声を、サイズが等しい、または等しくない複数のセグメントに切り分け、各セグメントは複数のフレームを含む。

本開示の一実施形態によれば、システムのテンプレート生成ユニット２０３は、各セグメント内のすべてのフレームのガウス成分をソートし、ソートされたガウス成分をマージして、隠れマルコフ・モデル・ネットをパスフレーズ・テンプレートとして取得する。

本開示の一実施形態によれば、システムのテンプレート生成ユニット２０３は、異なる成分インデックスを持つ各セグメント内のすべてのフレームのガウス成分をソートし、ソートされたガウス成分の事後確率を累算し、事後確率の距離測定において最も近いガウス成分をマージする。

本開示の一実施形態によれば、ＭＡＰおよびＭＬＬＲなどの適応方法によって登録音声に従ってパスフレーズ・テンプレートが適応する。

図９は、本開示の別の実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイスの図である。

図９に示されているように、本開示の別の実施形態による話者照合に対するパスフレーズ・モデリングのためのデバイス９００は、フロント・エンド２０１と、テンプレート生成ユニット９０３と、適応ユニット９０７と、パスフレーズ・データベース９０５と、話者モデル・データベース９１３と、適応話者モデル・データベース９１４とを備える。本開示の一実施形態によれば、デバイス９００は、外部ユニットまたはデバイスとしてフロント・エンド２０１、適応ユニット９０７、パスフレーズ・データベース９０５、および適応話者モデル・データベース９１４などの他のユニットに接続されるテンプレート生成ユニット９０３のみを備えることができる。

図９に示されているように、ＭＡＰ適応は、ＭＡＰおよびＭＬＬＲなどの適応方法による登録音声に従って目標話者モデル内に一般話者モデルを適応させるために適応ユニット９０７において最初に使用することができ、適応目標話者モデルは、適応話者モデル・データベース９１４内に格納される。ＨＭＭネット、つまり、パスフレーズ・テンプレートは、テンプレート生成ユニット２０３によって適応目標話者モデルに基づいて作成することが可能である。

具体的には、デバイス９００は、話者照合時に予測される話者の母集団を代表する多数の話者からの音声データのコレクションにより一般話者モデル（ＨＭＭまたはＧＭＭ−ＵＢＭ）の学習を行う必要がある。一般話者モデルは、話者間および話者内差異によって引き起こされる豊富な変異を含むと予想される。学習済み一般話者モデルは、話者モデル・データベース９１３内に格納されている。

フロント・エンド２０１は、目標話者から登録音声を受け取り、その登録音声を特徴パラメータに変換する。適応ユニット９０７は、特徴パラメータを受け取り、適応のため話者モデル・データベース９１３に格納されている一般話者モデルのガウス成分のそれぞれに特徴パラメータを適用し、適応一般話者モデルは、適応話者モデル・データベース９１４内に格納される。

テンプレート生成ユニット９０３は、フロント・エンド２０１から特徴パラメータを受け取り、特徴パラメータに基づいて適応話者モデル・データベース９１４から受け取った適応一般話者モデルのガウス成分の尤度スコアを計算し、登録音声の各フレームに対する上位Ｎガウス成分リストを抽出する。テンプレート生成ユニット９０３は、ＨＭＭネットを構築するために上位Ｎガウス成分リスト内に存在するガウス成分を使用する。

構築されたＨＭＭネットは、目標話者のパスフレーズ・テンプレートとしてパスフレーズ・データベース９０５に格納される。

別の実施形態によれば、本開示のパスフレーズ・モデリング方法は、ＭＡＰおよびＭＬＬＲなどの適応方法によって登録音声に従って一般話者モデルを適応するステップと、適応一般話者モデルによりパスフレーズ・テンプレートを生成するステップとをさらに含む。上記ステップは、それぞれ、適応ユニット９０７とテンプレート生成ユニット９０３とによって実行されうる。

本開示の効果を確認するために、いくつかの予備的評価を行う。第１の実験は、従来のテキスト依存話者照合システムで登録発話の数の効果を評価することである。ここで、１０人の日本の若い成人の発話（男性５人と女性５人）のデータ集合が使用され、各話者は、デジタル文字列、住所、人名、および電子メール・アドレスなどを含む、１５のパターンのうちのすべての発話について１０回反復する。この実験では、各話者からのいくつかの発話を登録フェーズで使用し、パスフレーズ・テンプレートを構築した。同じ話者からの残された発話および他の話者からのすべての発話をテスト・フェーズで使用する。表１に示されているように、登録フェーズで使用される発話の数をチューニングすることによって、登録発話の数の効果を観察することが可能であった。

表１には、登録発話の数が増えるにつれ、システム性能も改善されることが示されている。登録時に１回の発話のみが利用可能である場合、性能は相対的に約６０％低下する。

第２の実験は、本開示の効果を評価することである。一般話者モデルは、４００人を超える日本語の母語話者による大規模な学習コーパスを使用して１０２４個のガウス成分のＵＢＭにより構築される。各話者は、約１０分間の連続的発話を行う。このときに、登録フェーズでは目標話者からの発話を１つだけ使用し、テスト・フェーズでは、上記実験の同じ発話を使用する。適応ユニット２０７およびブロック２０７で抽出されたガウス成分の数の効果を評価する。この実験結果、つまり、本開示の効果（適応＆上位Ｎガウス抽出）を以下の表２にまとめた。

実験結果から、本開示により、登録に発話を１つしか使用しない話者照合システムであっても、３回反復する従来の話者照合システムと似た結果をもたらすことが可能であったことがわかる。そして、適応ユニットは、さらなる改善をもたらすことが可能であった。

前記の詳細な説明は、ブロック図、流れ図、および／または実施例を使用することで、デバイスおよび／またはプロセスのさまざまな実施形態について述べている。このようなブロック図、流れ図、および／または実施例が、１つまたは複数の機能および／または演算を含んでいる限り、そのようなブロック図、流れ図、または実施例内の各機能および／またはオペレーションは、各種のハードウェア、ソフトウェア、ファームウェア、またはこれらの実質的に任意の組み合わせによって、個別におよび／またはまとめて実装することができることを、当業者なら理解するであろう。一実施形態では、本明細書に記載の主題のいくつかの部分は、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、デジタル・シグナル・プロセッサ（ＤＳＰ）、または他の集積回路形態を介して実装されうる。しかし、本明細書で開示されている実施形態のいくつかの態様は、全部または一部、１つまたは複数のコンピュータ上で実行される１つまたは複数のコンピュータ・プログラムとして（例えば、１つまたは複数のコンピュータ・システム上で実行される１つまたは複数のプログラムとして）、１つまたは複数のプロセッサ上で実行される１つまたは複数のプログラムとして（例えば、１つまたは複数のマイクロプロセッサ上で実行される１つまたは複数のプログラムとして）、ファームウェアとして、またはこれらの実質的に任意の組み合わせとして、集積回路内に等価な構成で実装されうること、またソフトウェアおよび／またはファームウェア用に回路を設計し、および／またはコードを書くことは、本開示に照らして十分に当業者の技能の範囲内にあることを、当業者なら理解するであろう。さらに、本明細書に記載の主題のメカニズムは、さまざまな形態のプログラム製品として配給することができること、また本明細書に記載の主題の例示的な一実施形態は、配給を実際に実行するために使用される特定の種類の信号伝送媒体に関係なく適用されることを、当業者なら理解するであろう。信号伝送媒体の例としては、限定はしないが、フロッピー（登録商標）・ディスク、ハードディスク・ドライブ、コンパクト・ディスク（ＣＤ）、デジタル・ビデオ・ディスク（ＤＶＤ）、デジタル・テープ、コンピュータ・メモリなど記録可能型の媒体、およびデジタルおよび／またはアナログ通信媒体など送信型の媒体（例えば、光ファイバ・ケーブル、導波管、有線通信リンク、ワイヤレス通信リンクなど）が挙げられる。

本明細書に記載の主題は、ときには、異なる他のコンポーネント内に収納されるか、または接続される異なるコンポーネントを例示する。このような示されているアーキテクチャは単に例示的であること、また実際に、同じ機能を達成する他の多くのアーキテクチャを実装できることは理解されるべきである。概念的な意味において、同じ機能を達成するためにコンポーネントをどのように配置しても、所望の機能が達成されるように実際に「関連付けられる」。したがって、特定の機能を達成するように組み合わされた本明細書の任意の２つのコンポーネントは、アーキテクチャまたは中間コンポーネントに関係なく所望の機能が達成されるように互いに「関連付けられている」ものとみなせる。同様に、そのように関連付けられている任意の２つのコンポーネントは、さらに、所望の機能を達成するように互いに「動作可能なように接続される」か、または「動作可能なように結合される」とみなせ、またそのように関連付けることができる任意の２つのコンポーネントは、さらに、所望の機能を達成するように互いに「動作可能なように結合可能である」とみなせる。動作可能なように結合可能であることの特定の例としては、限定はしないが、物理的に嵌合可能である、および／または物理的に相互にやり取りするコンポーネント、および／または無線で相互にやり取りすることが可能である、および／または無線で相互にやり取りするコンポーネント、および／または論理的に相互にやり取りする、および／または論理的に相互にやり取り可能なコンポーネントが挙げられる。

本明細書における実質的に複数形および／または単数形の語の使用に関して、当業者なら、背景状況および／または用途に応じて適切に、複数形を単数形に、および／または単数形を複数形に変えることができる。さまざまな単数形／複数形の置き換えは、本明細書ではわかりやすくするために明示的に述べる場合がある。

一般に、本明細書で使用されている、また特に付属の請求項(例えば、付属の請求項の本文)で使用されている言い回しは、「制約のない」言い回し(例えば、「含むこと」という言い回しは、「限定はしないが、含むこと」と解釈すべきであり、「有する」という言い回しは、「少なくとも有する」と解釈すべきであり、「含む」という言い回しは、「限定はしないが、含む」と解釈すべきである、など)として一般的に意図されていることを、当業者なら理解するであろう。さらに、導入される請求項列挙の特定の数が意図されている場合、そのような意図は、請求項内で明示的に記載され、そのような列挙がない場合は、そのような意図は存在しないことを、当業者なら理解するであろう。例えば、理解の助けとして、以下の付属の請求項に、導入句「少なくとも１つの」および「１つまたは複数の」を入れて請求項列挙を導入することができる。しかし、このような語句を使用したとしても、不定冠詞「ａ」または「ａｎ」による請求項列挙の導入によって、たとえその請求項が導入句「１つまたは複数の」または「少なくとも１つの」、および「ａ」または「ａｎ」などの不定冠詞を含むとしても、そのような導入される請求項列挙を含む特定の請求項がそのような列挙を１つしか含まない開示に制限されることを意味すると解釈すべきではなく（例えば、「ａ」および／または「ａｎ」は、典型的には、「少なくとも１つの」または「１つまたは複数の」を意味すると解釈されるべきである）、請求項列挙を導入するために使用される定冠詞の使用についても同じことが成り立つ。さらに、特定の数の導入される請求項列挙が明示的に記載されるとしても、そのような列挙は、典型的には、少なくとも記載されている数を意味するものと解釈すべきであることを、当業者なら理解するであろう（例えば、ほかに修飾語を付けない「２つの列挙」という飾りのない列挙は、典型的には、少なくとも２つの列挙、または２つ以上の列挙を意味する）。「Ａ、Ｂ、またはＣなどのうちの少なくとも１つ」に類似の慣例的言い回しが使用される場合、一般的に、このような構文は、当業者がこの慣例的言い回しを理解するという意味で意図されたものである（例えば、「Ａ、Ｂ、またはＣのうちの少なくとも１つを有するシステム」は、限定はしないが、Ａだけ、Ｂだけ、Ｃだけ、ＡおよびＢを一緒に、ＡおよびＣを一緒に、ＢおよびＣを一緒に、および／またはＡ、Ｂ、およびＣを一緒に、などを有するシステムを含む）。さらに、説明中であろうと、請求項中であろうと、図面中であろうと２つ以上の代替語を示す実質的に任意の離接語および／または語句は、複数の語のうちの１つ、複数の語のいずれか、または両方の語を含む可能性を考えるものと理解されるべきであることを、当業者なら理解するであろう。例えば、語句「ＡまたはＢ」は、「Ａ」または「Ｂ」または「ＡおよびＢ」の可能性を含むと理解されるであろう。

本明細書ではさまざまな態様および実施形態が開示されているが、他の態様および実施形態も当業者には明らかであろう。本明細書で開示されているさまざまな態様および実施形態は、例示することを目的としており、制限することを意図しておらず、真の範囲および精神は以下の請求項によって示される。

Claims

話者照合のためのパスフレーズ・モデリング・デバイスであって、
前記パスフレーズ・モデリング・デバイスが備えるデータベースは、
話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、
前記パスフレーズ・モデリング・デバイスが備えるフロント・エンドは、
目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、
前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、
前記複数のフレームの各々から音響特性および／または内容を表す特徴パラメータを抽出し、
前記パスフレーズ・モデリング・デバイスが備えるテンプレート生成ユニットは、
前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、
前記算出した尤度スコアの上位Ｎ（Ｎは自然数）個のガウス成分を、前記複数のフレーム毎に抽出し、
同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、
前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、
前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する、
パスフレーズ・モデリング・デバイス。
前記受信した登録音声は、サイズが等しい前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項１に記載のパスフレーズ・モデリング・デバイス。
前記受信した登録音声は、サイズの等しくない前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項１に記載のパスフレーズ・モデリング・デバイス。
同一セグメントから得られた前記一以上のガウス混合モデルは、前記隠れマルコフ・モデル・ネットにおいて、並列状態である、
請求項１に記載のパスフレーズ・モデリング・デバイス。
連続するセグメントから得られた前記一以上のガウス混合モデル同士は、前記隠れマルコフ・モデル・ネットにおいてリンクしている、
請求項１に記載のパスフレーズ・モデリング・デバイス。
前記生成されたパスフレーズ・テンプレートは、ＭＡＰまたはＭＬＬＲの適応方法によって前記登録音声に従って適応される、
請求項１に記載のパスフレーズ・モデリング・デバイス。
話者照合のためのパスフレーズ・モデリング方法であって、
話者照合時に予測される複数の話者から収集された音声データを表す複数のガウス成分を含む一般話者モデルを管理し、
目標話者の登録音声を受信し、前記受信した登録音声を所定時間長の複数のフレームに分割し、
前記受信した登録音声を、それぞれ前記複数のフレームの中の一以上のフレームを含む複数のセグメントに分割し、
前記複数のフレームの各々から音響特性および／または内容を表す特徴パラメータを抽出し、
前記複数のフレームの各々で、前記特徴パラメータについて前記一般話者モデルに含まれる複数のガウス成分との尤度スコアを算出し、
前記算出した尤度スコアの上位Ｎ（Ｎは自然数）個のガウス成分を、前記複数のフレーム毎に抽出し、
同一セグメント内に含まれるフレームについて抽出された複数のガウス成分をソートし、前記ソートされた複数のガウス成分の事後確率を累算し、
前記事後確率の距離測定において最も近い距離を有するガウス成分をマージして、前記複数のセグメント毎に一以上のガウス混合モデルを生成し、
前記生成したガウス混合モデルから、隠れマルコフ・モデル・ネットを、パスフレーズ・テンプレートとして生成する、
パスフレーズ・モデリング方法。
前記受信した登録音声は、サイズが等しい前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項７に記載のパスフレーズ・モデリング方法。
前記受信した登録音声は、サイズの等しくない前記複数のセグメントに分割され、
前記複数のセグメントの各々は、複数のフレームを含む、
請求項７に記載のパスフレーズ・モデリング方法。
同一セグメントから得られた前記一以上のガウス混合モデルは、前記隠れマルコフ・モデル・ネットにおいて、並列状態である、
請求項７に記載のパスフレーズ・モデリング方法。
連続するセグメントから得られた前記一以上のガウス混合モデル同士は、前記隠れマルコフ・モデル・ネットにおいてリンクしている、
請求項７に記載のパスフレーズ・モデリング方法。
前記生成されたパスフレーズ・テンプレートは、ＭＡＰまたはＭＬＬＲの適応方法によって前記登録音声に従って適応される、
請求項７に記載のパスフレーズ・モデリング方法。
音声を用いて話者を照合する話者照合システムであって、
テスト話者のテスト音声を受信する、フロント・エンドと、
前記テスト音声と、請求項７に記載のパスフレーズ・モデリング方法によってパスフレーズ・テンプレートを生成し、前記パスフレーズ・テンプレートから選択されたデータとを比較して、前記テスト音声の尤度スコアを算出する動的照合ユニットとを備え、
前記尤度スコアが所定の閾値以上である場合、前記テスト話者は申告話者として受理される、
話者照合システム。
前記フロント・エンドは、さらに、前記テスト話者の話者識別情報を受信し、
前記動的照合ユニットは、前記受信した話者識別情報に基づいて、前記パスフレーズ・テンプレートから比較のための前記データを選択する、
請求項１３に記載の話者照合システム。