JP3664739B2

JP3664739B2 - 話者の音声確認用の自動式時間的無相関変換装置

Info

Publication number: JP3664739B2
Application number: JP04361392A
Authority: JP
Inventors: ピー．ネットスクロリン; アール．ドディントンジョージ
Original assignee: テキサスインスツルメンツインコーポレイテツド
Priority date: 1991-02-28
Filing date: 1992-02-28
Publication date: 2005-06-29
Anticipated expiration: 2020-06-29
Also published as: EP0501631A2; EP0501631B1; JPH06175683A; US5167004A; EP0501631A3; DE69226796T2; DE69226796D1

Description

【０００１】
【産業上の利用分野】
本発明は、一般的には音声処理に関し、特に時間的無相関形（ｔｅｍｐｏｒａｌｄｅｃｏｒｒｅｌａｔｉｏｎ）の、強力な話者の確認装置および方法に関する。
【０００２】
【従来の技術】
話者の音声確認の現在の装置および方法は、実際の検査での使用の前に、音声登録を必要とする。この登録中においては、確認されるべきそれぞれの話者に特有の音声モデルが作られる。これは通常、あるきまった話者から生じることがわかっているいくつかの発音から音声データを収集し、次にそのデータを処理してその話者に特有のモデルを形成することによって行なわれる。これら特有のモデルは、これらのモデルの話者を識別する情報と共に記憶される。
【０００３】
実際の確認での使用においては、諸話者は、まず彼等のアイデンティティを請求する。装置は話者が発音することを要求し、その発音は次に、請求されたアイデンティティと共に記憶されているその話者の音声モデルと比較される。もし発音と音声モデルとが密接に一致すれば、その話者は請求されたアイデンティティと同一者であることが宣言される。
【０００４】
音声処理の現在の方法においては、フレームと呼ばれる、その中で音響信号が認めうるほどに変化しないものと仮定される、短い時間内に、発音から音声パラメータのベクトルが測定される。これらのパラメータベクトルは、直交化のための１次変換、または何らかの他の変換を受けることによって、音声特徴ベクトルとしても知られている、統計的に相関のない音声パラメータベクトルとされることが多い。これによって得られたパラメータまたは特徴ベクトルは、個人の音声のモデルを作るために使用されうる。
【０００５】
現在、ある話者確認装置は、あるきまった人物の音声の全フレームからの音声ベクトルをいっしょにグループ化し、それらのベクトルを用いて全発音にわたっての平均の統計的性質を決定している。時々、これらの装置は、送受器および通話路が異なることによる音声ベクトルのひずみの平均の統計的性質の評価を行なう。この平均の統計的性質は、後に、話者確認のために使用される。
【０００６】
他の話者確認装置は、アラインメント（ａｌｉｇｎｍｅｎｔ）と呼ばれる過程において同じ音声音に対応する音声ベクトルをグループ化する。動的時間歪曲（ＤｙｎａｍｉｃＴｉｍｅＷａｒｐｉｎｇ（ＤＴＷ））または隠れマルコフモデリング（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｉｎｇ（ＨＭＭ））は、アラインメントの周知の方法の１つである。装置は、それぞれのグループに別個に対応する音声ベクトルの統計的性質を評価する。音声ベクトルの諸グループの統計的性質の収集物が得られると、それは確認されるべき話者のための基準モデルを形成する。確認装置はしばしば、統計的性質のその収集物を、個々のワード、音節、または音を代表する多重モデルに分別する。
【０００７】
これらの現在技術の装置が全て、音声ベクトルレベルにおける話者のデータの統計的性質を利用していることに注意するのは重要である。従って、これらの装置は、音声ベクトルのそれぞれのグループに関連する統計的性質の独立性を暗黙のうちに仮定している。
【０００８】
話者確認の多くの応用が直面する問題の１つは、音声信号の避けられないひずみまたは変化である。ひずんだ音声信号は、ひずんだ音声ベクトルを生じる。現在の確認装置によって行なわれているように、ベクトルが個々に考察されるものとすれば、音声ベクトルのひずみのために、音声が仮定された真の話者から来たものであるか、または詐欺師から来たものであるかを決定するのは困難である。これにより、話者確認の性能は劣化する。
【０００９】
たとえば、電話での声の確認によってリソースへのアクセスを制御しようとする電気通信上の応用においては、異なる電話の送受器および通話路の使用により、人の音声はしばしばひずみを受け、変化せしめられる。銀行の自動金銭出納器のような他の応用においては、異なるマイクロホンの使用によって音声信号の変化が起こる。現在の話者確認装置においては、一時に１つのみの電話送受器またはマイクロホンしか使用されないので、音声信号の変化はその特定の送受器またはマイクロホンが使用される場合に限って固定されたものとなるのに注意することは重要である。
従って、これらの問題のいずれか、または全てを克服する改良が現在所望されている。
【００１０】
【発明が解決しようとする課題】
関連技術に係る以上の諸問題にかんがみ、本発明は、異なる電話送受器、電話通話路、またはマイクロホンの使用による音声信号のひずみまたは変化を補償する、強力な話者の確認装置および方法を提供することを目的とする。
【００１１】
本発明のもう１つの目的は、話者確認の性能を改善する装置および方法を提供することである。
【００１２】
本発明のもう１つの目的は、話者に特有な音声情報のために必要な記憶容量を減少せしめる装置および方法を提供することである。
【００１３】
【課題を解決するための手段】
これらの、およびその他の諸目的は、本発明の実施例に従い、話者のアイデンティティを確認するために全ワードにおいて測定された音声特徴間の十分に最適な相関を利用した、話者の声を確認する時間的無相関形装置および方法を提供することによって達成される。本発明は、発音内の個々のワードの諸音を代表する音声ベクトルの諸グループ間の相関を利用する。これらの相関は全ワードにわたるものであるから、全発音中に一定を保つひずみとは比較的に無関係な全ワードにわたる統計的特徴を見出すことが可能である。本発明において実施される、これらの統計的特徴を用いた無相関形処理は、発音中一貫して行なわれ、改善された話者確認の性能を実現する。
【００１４】
このような話者音声確認の自動化された時間的無相関形装置および方法は、特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器と、前記特有アイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、未知話者から受けたワードレベル音声特徴ベクトルと該ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器と、該相似度点数に基づき前記未知話者のアイデンティティが請求されたものと同じであるか否かを決定する話者確認判断回路と、を含む。ワードレベルベクトル採点器はさらに、連結回路と、ワード特有の直交化１次変換器と、を含む。
【００１５】
本発明の時間的無相関形装置および方法はまた、特定の話者の音声を表わすために記憶されなくてはならないパラメータの数を減少させ、それによって話者特有の音声情報のために必要な記憶容量を減少せしめる。この装置および方法は、話された発音からワードレベル音声特徴ベクトルを確立する段階と、該ワードレベル音声特徴ベクトルを採点する段階と、事前選択された全ワード音声特徴ベクトルを捨てる段階と、残余の全ワード音声特徴ベクトルを記憶する段階と、を含む。この記憶段階はさらに、話された発音内の全ワードにわたって統計的に相関のない全ワード特徴ベクトルを作り出すためのワード特有直交化１次変換を行なう段階を含む。
【００１６】
本発明のこれらの、およびその他の諸特徴および諸利点は、本技術分野に習熟した者にとっては、添付図面と共に与えられる実施例についての以下の詳細な説明から明らかになるはずである。
異なる諸図内の同じ番号および記号は、特に断わりのない限り同じ部品を指示している。
【００１７】
【実施例】
本発明の実施例は、一般的な話者確認装置を示す図１をまず考察することによって最もよく理解される。前述のように、話者音声の確認は、実際の確認を行なう前に音声の登録を要する。既知の話者の登録を行なうためには、既知の話者は、登録装置５において、マイクロホン、電話送受器、通話路、などにより音声コレクタ１０に対して発音を行なう。音声コレクタ１０は、それらの発音から音声パラメータベクトルを収集して、それらのベクトルをモデリングユニット１５へ供給する。モデリングユニット１５は、これらの音声パラメータベクトルに基づき、その既知話者に特有なモデルを形成する。これらの話者特有のモデルは、そのモデルの話者を識別する情報と共に記憶装置２０内に記憶される。
【００１８】
ある場合には、同じワードまたはフレーズの何回かの繰返しが収集され、音声の同じ部分に対応するパラメータベクトルがアラインメント（ベクトルのグループ形成）を受ける。得られたベクトルの諸グループは、次にモデリングユニット１５によって平均され、その話者特有の基準音声パラメータベクトルの良好な推定またはモデルを与える。得られたパラメータベクトルの集合は、確認されるべき話者のための基準モデルを形成する。これらのパラメータベクトルは、しばしば分割されて、個々のワード、音節、または音などの音声の諸部分を代表するいくつかの別個のモデルを形成する。
【００１９】
実際の話者確認においては、話者は最初に、該話者が請求するアイデンティティを確認装置２５の入力部分３０へ入力する。これは、電話のキーパッドを経ての（数字入力による）識別キー操作、記録情報を有するクレジットカードの使用、識別用フレーズの音声認識、または他の任意の適切な手段、などのさまざまな手段によって行なわれる。確認装置２５は、この請求されたアイデンティティを用いて、記憶装置２０から対応する音声モデルを検索する。確認装置２５がいったん請求されたアイデンティティに対する音声モデルを検索すれば、確認装置２５は、話者がある発音をなすことを要求するか、またはアイデンティティの請求のために行なわれた発音を使用することができる。
【００２０】
固定テキスト形確認装置においては、確認装置２５は、それぞれの話者の確認発音のテキストの知識を有する。話者から発音が収集された後、それは登録と同様にして入力音声ベクトルのシーケンスに変換される。これらの入力音声ベクトルは、次にＤＴＷ，ＨＭＭ，または他のアルゴリズムを用いての、請求されたアイデンティティを有する話者に対応する基準モデルベクトルとのアラインメントの結果、それぞれの入力音声ベクトルと基準モデル（パラメータ）ベクトルとの間の対応関係を生じる。この形式のアラインメントの例が図２に示されており、そこでは入力音声ベクトルｖ１−ｖ８と基準モデル（パラメータ）ベクトルｒ１−ｒ４とのアラインメントが行なわれている。基準パラメータベクトルｒ１およびｒ２は第１ワードに対応し、またｒ３およびｒ４は第２ワードに対応している。
【００２１】
アラインメントの後、確認装置２５は、話された発音の入力音声信号を、検索された音声モデルと、音声モデル比較器３５において比較する。この比較は、それぞれの入力音声ベクトルと、そのマップされた基準ベクトルとの間で行なわれ、それによって両ベクトル間の相似度の量が決定される。比較器３５は、図３に示されているように、入力音声信号と記憶装置２０から検索されたモデルとの近似度に基づいて全確認発音に対して計算された、相似度点数を確定する。この近似度は、入力音声ベクトルとマップされた基準ベクトルとの間の相似度測定値３１０の和である。ベクトルの相似度は、統計的最大確度計算またはベクトル量子化を含むいくつかの方法によって決定されうる。もし発音点数によって、基準ベクトルと入力ベクトルとが成功判断基準に適合するように全発音にわたって十分な相似度を有することが示されれば、（すなわち、話された発音と音声モデルとが密接に一致すれば）、確認装置２５は話者が真に請求されたアイデンティティと同一者であると判断する。ある装置においては、もし請求されたアイデンティティが確認された場合は、入力音声ベクトルはマップされた基準ベクトルと平均されて更新された音声基準モデルの集合を発生し、これによって記憶装置２０内に保持されていたモデルが置換される。
【００２２】
本発明の実施例においては、登録および確認は共に、入力音声パラメータベクトルと基準モデルパラメータベクトルとのＨＭＭアライメントを用いる。しかし、それぞれのワードを作り上げている諸ベクトルは後に連結されて、発音内の全ワードを代表する単一ベクトルを形成する。これらの全ワードベクトルは、（時間的無相関１次変換ＴＤＴを用いて）ワード特有の直交化１次変換を受けて、全ワードにおいて統計的に相関のない全ワードベクトルを作り出す。得られた全ワードベクトルは、入力音声発音と記憶されている音声パラメータとの間の相似度の測度を決定するために用いられる。
【００２３】
さらに詳述すると、図４ａには、登録中に話者の入力音声から既知話者の音声特徴ベクトルを決定する実施例のブロック図が示されている。ブロック１００から開始して、登録されるべき話者は既知の確認発音を行なう。この音声信号は線形予測係数（ＬＰＣ）計算を受けて、線形予測係数の諸ベクトルを発生する。実施例においては、これらのベクトルは、１０係数とエネルギーおよび音の高さを定める２要素とから成る。フレームパラメータベクトル計算器１１０は、非線形プロセスにおいてＬＰＣベクトルを用い、エネルギー、スペクトル、差エネルギー、および差スペクトル音声パラメータを決定する。これらの広域音声パラメータは、広域特徴ベクトル変換器１２０により既知話者に対する音声特徴ベクトルに変換される。広域特徴ベクトル変換は、登録前に計算される所定の１次変換である。それは、多数の話者を代表するデータベースからベクトル統計量を決定することによって構成される。それらのベクトル統計量は、話者間の最適の識別を行なう無相関特徴を決定する１次変換を設計するための固有ベクトル解析に用いられる。
【００２４】
上述の音声特徴ベクトルの形成は、音声特徴を作るための１つの方法に過ぎない。他にも、セプストラル（ｃｅｐｓｔｒａｌ）係数の計算、または、パーコールまたはログ領域比係数のようなＬＰＣ係数から直接導かれる特徴ベクトルの使用、などの特徴計算方法も存在する。本発明は、どのようにも特定の音声ベクトル計算方法に限定されるべきではない。
【００２５】
図４ｂには、音声特徴ベクトルから話者特有のワードレベル音声モデルを作ることにより、既知話者を登録する実施例のブロック図が示されている。特徴ベクトルアラインメントプロセッサ１４０は、広域特徴ベクトル変換器１２０から音声特徴ベクトルを受け、これらの特徴ベクトルを、確認発音のそれぞれのワードの音響的観察を表わす、以前に決定された話者にはよらない基準ワードモデル特徴ベクトル１３０とアラインメントさせる。基準ワードモデル特徴ベクトル１３０は、既知話者の登録入力音声内のそれぞれのワードの統計的表示であり、多数の話者を用いて以前に収集された音声データベースから作られる。実施例においては、アラインメントプロセッサ１４０は、Ｖｉｔｅｒｂｉの探索ＨＭＭアルゴリズムを用いて音声モデルと基準モデルとのアラインメントを行ない、それによって入力音声特徴ベクトルと基準音声特徴ベクトル１３０との間のマッピングを行なう。前述のように、動的時間歪曲（ＤＴＷ）のような他の周知のアルゴリズムも、アラインメントを行なうのに使用されうる。実施例においては、マッピングは、それぞれの基準ベクトル１３０に対して少なくとも１つの入力音声特徴ベクトルのマッピングが存在し、それぞれの入力音声ベクトルはただ１つのみの基準ベクトル１３０にマッピングされるように行なわれる。
【００２６】
実施例においては、特徴平均回路１５０は、同じ基準ベクトル１３０に対してマップされる入力音声特徴ベクトルを平均することにより、それぞれのワードに対する登録話者の音声の特徴を表わす平均基準モデルベクトルを発生する。これにより、話者にはよらない基準ワードモデルベクトルに対応する、既知話者からのベクトルの集合が作られる。これによって、基準ベクトルと同数の平均入力音声ベクトルが得られることに注意すべきである。それぞれの基準ベクトルと最もよく一致するそれぞれの個々の入力ベクトルを選択することを含む、平均する以外の入力音声特徴ベクトルの他の組合せ手段も行なわれうる。
【００２７】
この平均プロセスを、いくつかの登録発音を用いて繰返せば、それぞれのワードに対する平均基準モデルベクトルが、登録話者の音声の特徴をより良く表わすようにすることができる。それぞれのワードに対応する平均基準モデルベクトルは通常、後の確認処理のために装置内に記憶される。もし記憶容量をさらに減少させたい場合には、平均基準モデルベクトルの記憶の必要はない。
【００２８】
ワードレベルベクトル変換器１６０は、それぞれのワードに対応する、特徴平均回路１５０から受けた平均入力音声ベクトルの全てをまず連結して、それぞれのワードに対する単一のワードレベル平均入力音声ベクトルを発生する。ワードレベルベクトル変換器１６０は、時間的無相関１次変換ＴＤＴとしても知られるワードレベル１次変換を用いてワードレベルベクトルを変換する。ワードレベル１次変換は、登録以前に、多数の話者を代表するデータベースからのワードレベルベクトル統計量を用いて計算され、また話者間の最適識別を行なうための無相関ワードレベル音声特徴を発生するように設計される。登録の最後の段階として、ワードレベル音声特徴記憶装置１７０は、ワードレベルベクトル変換器１６０から受けた、既知話者を識別するデータと、既知話者に対する全てのワードレベル音声特徴ベクトルとを記憶する。
【００２９】
図５は、本発明の話者確認プロセッサの実施例のブロック図である。確認処理において、未知話者は、彼のアイデンティティが装置にすでに登録されている話者のそれであることの確認請求をする。確認装置の仕事は、これが真実であるか否かを決定することである。これを行なうために、確認装置は、話者を促して確認発音をさせる。その確認発音は収集され、確認プロセッサは、音声特徴ベクトル計算器２１０において音声特徴ベクトルを計算する。この計算は、図４ａに関連して前述した所と同じ処理を含む。ワードレベル音声特徴計算器２２０は、音声特徴ベクトル計算器２１０からの音声特徴出力を、請求話者のワードリストと共に用いて、未知話者に対するワードレベル音声特徴ベクトルを形成する。
【００３０】
ワードレベル音声特徴計算器２２０によって行なわれる処理は、ワードレベル音声特徴ベクトルが直接ワードレベル音声特徴記憶装置に記憶されないことを除外すれば、図４ｂに関連して前述された処理と同じである。その代りに、未知話者からのワードレベル音声特徴ベクトルは、ワードレベルベクトル採点器２３０へ入力される。このようにして、ワードレベル音声特徴計算器２２０は、ＨＭＭアラインメントを用いて、入力音声ベクトルを、請求されたアイデンティティを有する話者のための、それぞれのワードに対応する話者特有の基準モデルベクトルにマップする。図６に例が示されており、そこでは入力音声ベクトルｖ１ないしｖ８が、ワード１に対する基準ベクトルｒ１およびｒ２と、ワード２に対する基準ベクトルｒ３およびｒ４とにマップされている（段階３５０）。
【００３１】
ワードレベルベクトル採点器２３０は、ワードレベル音声特徴ベクトル計算器２２０から来た未知話者のワードレベル音声特徴ベクトルと、ワードレベル音声特徴記憶装置１７０に以前に記憶されたそれらとの間の相似度点数を計算する。実施例においては、相似度点数は、未知話者のワードレベル音声特徴ベクトルと、請求されたアイデンティティのために記憶されているそれらとの間のユークリッド距離の、全てのワードについての和である。他にも、Ｍａｈａｌａｎｏｂｉｓ距離などの、使用できる多くの相似度点数の測定がある。
【００３２】
本発明の相似度測定は、従来技術とはかなり異なっている。それぞれの入力音声ベクトルとマップされた基準モデルベクトルとの間の相似度比較を行なうのではなく、それぞれの基準モデルベクトルに対してマップされた入力音声ベクトルが平均されて（図６、段階３６０）、それぞれの基準モデルベクトルに対応する平均入力音声ベクトルを発生する（ａ１−ａ４）。それぞれのワードを作り上げる平均入力音声ベクトルは、連結されてそれぞれのワードに対する単一の全ワード入力音声ベクトルを形成する。図６の例においては、ａ１およびａ２は連結されてワード１に対する全ワードベクトルを形成し、ａ３およびａ４は連結されてワード２に対する全ワードベクトルを形成する。
【００３３】
図７には、全ワード入力音声ベクトル３９０，３９５および全ワード基準特徴ベクトル４１０，４１５の形成プロセスが示されている。それぞれの全ワード入力音声ベクトル３７０，３７５は、それぞれのワードに対し独特に決定された時間的無相関形変換（ＴＤＴ）３８０と呼ばれる所定の１次変換によって変換され、それぞれ無相関形全ワード入力音声特徴ベクトル３９０，３９５を発生する。同様にして、それぞれのワードに対する全ワード基準音声ベクトル４００，４０５（図６におけるｒ１−ｒ４）は連結されて、それぞれのワードに対する単一の全ワード基準ベクトルを発生する。全ワード基準音声ベクトル４００，４０５は、同じＴＤＴ３８０によって変換されて、それぞれ全ワード基準特徴ベクトル４１０，４１５を形成する。
【００３４】
図８に示されているように、全ワード入力音声特徴ベクトル３９０，３９５および全ワード基準特徴ベクトル４１０，４１５は次に比較されて（段階４２０）、個々の全ワード特徴ベクトル相似度点数４３０が決定される。発音点数は、相似度点数４３０の和である。相似度を示すために統計的最大確度計算の使用が選択されているが、ベクトル量子化などの他の周知の方法も使用されうる。ＴＤＴ３８０によって与えられる無相関により、全ワード特徴ベクトル４１０、４１５の多くの特徴が捨てられうる。本発明の実施例においては、ベクトル毎の全ワード特徴の約２０％のみが利用された。
【００３５】
図５に帰ると、ワードレベルベクトル採点器２３０から得られた相似度点数は、話者確認判断回路２４０へ入力され、この回路はその点数を所定スレッショルドと比較する。もし点数がスレッショルドより低ければ、装置はその未知話者が請求を行なった者であると判断する。一方、もし点数がスレッショルドより高ければ、装置はその未知話者にもう２回までの試行を許可した後、その未知話者のアイデンティティが請求されたアイデンティティと同一でないと判断する。
【００３６】
実施例においては、もし話者確認判断回路２４０が未知話者のアイデンティティが請求されたアイデンティティと同一であることを決定すれば、特徴更新平均回路２５０は、ワードレベル音声特徴計算器２２０からの入力音声と、ワードレベル音声特徴記憶装置１７０からのそれらとの、ワードレベル音声特徴の加重平均を行なう。得られた平均ワードレベル音声特徴は、請求された話者のアイデンティティのためのワードレベル音声特徴記憶装置１７０内に保持されているそれらを置換する。これにより、請求した話者に対するワードレベル音声特徴の改善されたモデルが与えられる。
【００３７】
本発明の実施例は、話者が発音するはずの用語範囲内のそれぞれのワードに対する、ワードに特有な時間的無相関形１次変換（ＴＤＴ）を作り出す。それぞれのＴＤＴのために決定されなくてはならないパラメータは多数存在するので、用語範囲内の諸ワードをそれぞれの話者が数回繰返す、多くの異なる話者の発音から成る音声データベースを用いると有益である。
【００３８】
ＴＤＴを作るためには、用語範囲内のそれぞれのワードに対する全ワードベクトルの共分散マトリックスが、それぞれの話者に対しデータベース内で計算される。これらの全ワードベクトルは、図２に示されている確認プロセスと同様のプロセスによって形成される。ＨＭＭアラインメントを用い、それぞれの話者からの発音パラメータベクトルと、用語範囲内のそれぞれのワードを代表する所定の基準モデルベクトルとのアラインメントが行なわれる。そのアラインメントの後、それぞれの基準ベクトルにマップされた発音ベクトルは平均されて、各基準ベクトルに対して１つずつの平均発音ベクトルを形成する。それぞれのワードに対する平均発音ベクトルは、連結されて全ワードベクトルを形成する。用語範囲内のそれぞれのワードに対応する全ワードベクトルは、それぞれの話者およびそれぞれのワードに対する共分散マトリックスの計算に用いられる。全ての話者に対する、同じワードに対応した共分散マトリックスは、次にプールされる。これによって、全ての話者に対する１つの共分散マトリックスが、用語範囲内のそれぞれのワードに対して得られる。それぞれの共分散マトリックスは、それぞれのワードに対する固有ベクトルマトリックスを発生するための、固有ベクトルの直交化の計算において用いられる。さらに、（話者にかかわりなく）それぞれのワードに対する全ての全ワードベクトルは、広域ワードレベルベクトルの共分散を表わす、それぞれのワードに対する共分散マトリックスを決定するのに用いられる。用語範囲内のそれぞれのワードに対しこのようにして形成された２つの共分散マトリックスは、話者間の最適の識別を行なう相関のないワードレベル特徴を定める１次変換を決定するための、固有ベクトル識別計算に用いられる。固有ベクトルマトリックスは無相関形全ワード変換を表わし、ＴＤＴとして知られている。
【００３９】
前述のように、本発明を用いると、話者特有のデータのための記憶容量は減少せしめられる。そうなる理由は、相似度計算を行なうのに必要な全ワード基準特徴のみが記憶されるからである。該特徴の約２０％のみが相似度計算に用いられるので、全ての基準ベクトルを記憶するのに比較すれば約８０％だけ記憶容量を減少させることができる。
【００４０】
本発明は、ワードレベルベクトルの採点を行なって記憶されている話者による基準モデルとの相似度を決定することを含む時間的無相関方式を用いている。前述のようなアラインメントを行なって、次に話者によるモデルとの相似度に基くワードレベル点数を決定すれば、この基本概念を音声認識技術へ簡単に拡張できる。この点数は、認識をワードレベルで行なうために用いられうる。
【００４１】
以上においては、本発明の特定の実施例を図示し、かつ説明してきたが、本技術分野に習熟した者ならば、さまざまな改変および別の実施例がありうることがわかるはずである。従って、本発明は、特許請求の範囲によってのみ限定されるものである。
【００４２】
以上の説明に関して更に以下の項を開示する。
（１）話者の音声確認用の自動式時間的無相関形装置であって、
特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、
該コレクタから受けた該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器と、
前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、
前記ワードレベル音声特徴計算器から受けた前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器と、
該ワードレベルベクトル採点器から受けた前記相似度点数に基づき前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する話者確認判断回路と、
を含む話者の音声確認用の自動式時間的無相関形装置。
【００４３】
（２）前記ワードレベル音声特徴計算器が、ＨＭＭアラインメントを用いて前記入力音声ベクトルを、前記請求されたアイデンティティを有する前記話者におけるそれぞれのワードに対応する話者特有の基準モデルベクトルにマップする、第１項記載の装置。
【００４４】
（３）前記ワードレベルベクトル採点器がさらに、単一ワードを作り上げる前記ベクトルを連結して前記音声入力内の全ワードを代表する単一ベクトルを形成する連結回路を含む、第１項記載の装置。
【００４５】
（４）前記ワードレベルベクトル採点器がさらに、前記音声入力内の全ワードにおいて統計的に無相関な全ワードベクトルを作るためのワード特有の直交化１次変換器を含む、第３項記載の装置。
【００４６】
（５）前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、第１項記載の装置。
【００４７】
（６）話者の音声確認用の自動式時間的無相関形方法であって、
特有のアイデンティティを請求する未知話者からの確認発音を収集する段階と、
該確認発音からワードレベル音声特徴ベクトルを確立する段階と、
以前に記憶された、前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを検索する段階と、
前記確立段階において発生せしめられた前記ワードレベル音声特徴ベクトルを、前記以前に記憶されたワードレベル音声特徴ベクトルによって採点する段階と、
前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する段階と、
を含む話者の音声確認用の自動式時間的無相関形方法。
【００４８】
（７）前記ワードレベル音声特徴ベクトル確立段階がさらに、ＨＭＭアラインメントを用いて前記入力音声ベクトルを、前記請求されたアイデンティティを有する前記話者におけるそれぞれのワードに対応する話者特有の基準モデルベクトルにマップする段階を含む、第６項記載の方法。
【００４９】
（８）前記採点段階がさらに、単一ワードを作り上げる前記ベクトルを連結して前記発音内の全ワードを代表する単一ベクトルを形成する段階を含む、第６項記載の方法。
【００５０】
（９）前記採点段階がさらに、前記発音内の全ワードにおいて統計的に無相関な全ワードベクトルを作るためのワード特有の直交化１次変換を行なう段階を含む、第８項記載の方法。
【００５１】
（１０）前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、第６項記載の方法。
【００５２】
（１１）話者特有の音声情報用として必要な記憶容量を減少せしめる時間的無相関形方法であって、
話された発音からワードレベル音声特徴ベクトルを確立する段階と、
該ワードレベル音声特徴ベクトルを採点する段階と、
事前選択された全ワード音声特徴ベクトルを捨てる段階と、
残余の全ワード音声特徴ベクトルを記憶する段階と、
を含む、話者特有の音声情報用として必要な記憶容量を減少せしめる時間的無相関形方法。
【００５３】
（１２）前記採点段階がさらに、前記発音内の全ワードにおいて統計的に無相関な全ワード特徴ベクトルを作るためのワード特有の直交化１次変換を行なう段階を含む、第１１項記載の方法。
【００５４】
（１３）話者の音声確認用の自動式時間的無相関形装置および方法が示され、該装置は、特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタ２１０と、該音声入力からワードレベル音声特徴ベクトルを発生するワードレベル音声特徴計算器２２０と、前記特有アイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置１７０と、未知話者から受けたワードレベル音声特徴ベクトルと該ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベルベクトル採点器２３０と、該相似度点数に基づき前記未知話者のアイデンティティが請求されたそれと同じであるか否かを決定する話者確認判断回路２４０と、を含む。ワードレベルベクトル採点器はさらに、連結回路と、ワード特有の直交化１次変換器（図４ｂの１６０、図７の３８０）とを含む。
他の装置および方法もまた開示されている。
【図面の簡単な説明】
【図１】一般的な話者確認装置の例のブロック図。
【図２】本発明によらないアラインメント処理を示すブロック図。
【図３】本発明によらない発音採点を示すブロック図。
【図４】本発明の実施例の登録プロセッサによって行なわれる諸段階のブロック図。
【図５】本発明の実施例の話者確認プロセッサのブロック図。
【図６】本発明の実施例によるアラインメント処理のブロック図。
【図７】本発明の実施例による全ワード変換を示すブロック図。
【図８】本発明の実施例による発音採点を示すブロック図。
【符号の説明】
１６０ワードレベルベクトル変換器
１７０ワードレベル音声特徴記憶装置
２１０コレクタ
２２０ワードレベル音声特徴計算器
２３０ワードレベルベクトル採点器
２４０話者確認判断回路

Claims

話者の音声確認のための自動式時間的無相関変換装置であって、
特有のアイデンティティを請求する未知話者からの音声入力を受けるコレクタと、
前記コレクタで受けた音声入力を表わす複数の音声特徴ベクトルを生成するように動作できる音声特徴ベクトル計算器と、
前記複数の音声特徴ベクトルの複数の基準ワードモデルへのマッピングを生成するように動作でき、前記複数の基準ワードモデルは話されたワードのモデルに対応するモデルを表す、音声特徴ベクトルアライメントプロセッサと、
前記マッピングと前記音声特徴ベクトルを使うよう動作でき、前記音声入力内の各話されたワード毎に単一のワードレベルベクトルを生成するワードレベルベクトル生成器と、
時間的無相関変換を使うよう動作でき、前記ワードレベルベクトル生成器で生成された前記ワードレベルベクトルからワードレベル音声特徴ベクトルを発生して、統計的に無相関でかつ話者を分離するために最適化された全ワード特徴ベクトルを生成するワードレベル音声特徴計算器と、
前記特有のアイデンティティを有する話者に属することが知られたワードレベル音声特徴ベクトルを記憶するワードレベル音声特徴記憶装置と、
前記ワードレベル音声特徴計算器から受けた前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置から受けたそれらとの間の相似度点数を計算するワードレベル特徴ベクトル採点器と、
該ワードレベル特徴ベクトル採点器から受けた前記相似度点数に基づき前記未知話者が前記特有アイデンティティを有する前記話者であるか否かを決定する話者確認判断回路と、
を含む話者の音声確認のための自動式時間的無相関変換装置。
前記音声特徴ベクトルアライメントプロセッサが、ＨＭＭ音声認識アラインメントを用いて前記入力音声ベクトルを話者によらない基準ＨＭＭモデルへマッピングし、各ＨＭＭ基準モデルは前記請求されたアイデンティティを有する前記話者によって話されたそれぞれのワードに対応する特許請求の範囲第１項記載の装置。
前記ワードレベルベクトル生成器がさらに、基準モデルにマッピングされる前記入力特徴ベクトルを平均化して、前記マッピングにおいて指定された各基準モデルに対応する平均化入力特徴ベクトルを生成する平均化回路を含む特許請求の範囲第１項記載の装置。
前記ワードレベルベクトル生成器がさらに、単一ワードを作り上げる各基準モデルにマッピングされる前記複数の平均化入力特徴ベクトルを連結して前記音声入力内の全ワードを代表する単一ワードレベルベクトルを形成する連結回路を含む、特許請求の範囲第３項記載の装置。
前記相似度点数が、前記ワードレベル音声特徴計算器からの前記ワードレベル音声特徴ベクトルと、前記ワードレベル音声特徴記憶装置内に記憶されたそれらとの間のユークリッド距離の、全てのワードについての和である、特許請求の範囲第１項記載の装置。