JP4802135B2

JP4802135B2 - 話者認証登録及び確認方法並びに装置

Info

Publication number: JP4802135B2
Application number: JP2007099947A
Authority: JP
Inventors: ジアン・ルアン; ペイ・ディン; レイ・ヘ; ジー・ハオ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-04-06
Filing date: 2007-04-06
Publication date: 2011-10-26
Anticipated expiration: 2027-04-06
Also published as: US20070239451A1; CN101051464A; US7877254B2; JP2007279743A

Description

本発明は、情報処理技術に関し、詳細には、話者認証に関する。

各話者が発話するときの発音特徴を使って、様々な話者を識別することによって、話者認証を行うことができる。K. Yu, J. Mason, J. Oglesbyによる論文“Speaker recognition using hidden Markov models, dynamic time warping and vector quantization” (Vision, Image and Signal Processing, TEE Proceedings, Vol. 142, Oct. 1995, pp. 313-18)には、ＨＭＭ（隠れマルコフモデル）、ＤＴＷ（動的時間伸縮）、ＶＱ（ベクトル量子化）という、３つの一般的な種類の話者識別エンジン技術が紹介されている。

普通、話者認証のプロセスは、登録と確認という２つの段階を含む。登録の段階では、話者の話者テンプレートが、同じ話者（ユーザ）によって発話されたパスワードを含む発声に基づいて生成される。確認の段階では、話者テンプレートに基づいて、試験発声が、同じ話者によって発話された同じパスワードを有する発声であるかどうかが判定される。

登録の段階では、一般に、雑音のない音声データによる訓練を通じて、話者テンプレートが取得され、確認の段階では、実際に入力される音声は、雑音を有する。よって、雑音のある入力データと雑音のないテンプレートの間で整合（マッチング）を行えば、明らかに、認証精度の低下がもたらされることになる。

実質的には、試験発声と登録テンプレートの間の整合は、試験発声の音響的特徴を、登録テンプレートの音響的特徴と比較するものである。したがって、登録の段階においてであれ、確認の段階においてであれ、話者認証のために、発声から音響的特徴を選択し、抽出することは、かなり重要である。

発声からの音響的特徴の抽出における最も重要な作業は、発声信号から話者を特徴付けることのできる基本特徴を抽出することである。発声の抽出される音響的特徴は、異なる話者を有効に区別することができると同時に、同じ話者からの複数の発声間の変化について相対的安定性を保つことができる必要がある。by J. W. Piconeによる文献“Signal Modeling Techniques in Speech Recognition” (Proceedings of the IEEE, 1993, 81(9): 1215-1247)には、音声および話者認識で広く使用されるＭＦＣＣ（メル周波数ケプストラム係数）という発声特徴が紹介されている。ＭＦＣＣは、人間の耳の聴覚特性を考慮に入れた、人間の聴覚系に関する研究結果の増進によって導き出された音響的特徴であり、スペクトルを、メル周波数尺度に基づく非線形スペクトルに変換し、次いでこれがケプストラム領域に変換され、これによって、人間の聴覚特性が適切にシミュレートされる。

ＭＦＣＣの抽出プロセスは以下の通りである。まず、発声が、時間領域から周波数領域に高速フーリエ変換され、次いで、これの対数エネルギースペクトルの畳み込みが、メル尺度と共に三角フィルタバンクを使用して取得され、最後に、個々のフィルタの出力によって形成されるエネルギーベクトルが離散コサイン変換され、これの最初のＮ個の係数が取得される。

しかしながら、ＭＦＣＣを使用する際の短所は、話者に依存する適応フィルタバンクではなく、固定式フィルタバンクが使用されることである。確認の段階では、試験発声と話者テンプレートの間の歪みの大きさが、しばしば、ユークリッド距離、マハラノビスの距離などのような、対称距離関数として想定される。固定式フィルタバンクも対称距離も、個々の信号またはテンプレートの固有の詳細なスペクトル構造を無視する。これは、特に、テキスト依存話者確認のような２分決定問題では、先験情報を無駄にするものである。

前述の従来技術における問題を解決するために、本発明は、話者認証の登録の方法および装置、話者認証の確認の方法および装置、並びに話者認証のシステムを提供する。

本発明の一態様によれば、話者認証の登録の方法であって、話者の登録発声から音響的特徴ベクトルシーケンスを抽出することと、音響的特徴ベクトルシーケンスを使って話者テンプレートを生成することとを備え、音響的特徴ベクトルシーケンスを抽出する上記ステップが、登録発声に基づいて、登録発声のスペクトルにおけるフォルマントの位置とエネルギーをフィルタリングする、話者の登録発声のためのフィルタバンクを生成することと、生成されたフィルタバンクによって登録発声のスペクトルをフィルタリングすることと、フィルタリングされた登録発声から音響的特徴ベクトルシーケンスを生成することとを備える話者認証登録方法が提供される。

本発明の別の態様によれば、話者認証の確認の方法であって、入力発声から音響的特徴ベクトルシーケンスを抽出することと、上記の話者認証の登録の方法を使って生成される話者テンプレートと抽出された音響的特徴ベクトルシーケンスに基づいて、入力発声が、話者によって発話された登録済みのパスワードの発声であるかどうか判定することとを備え、入力発声から音響的特徴ベクトルシーケンスを抽出する上記ステップは、登録時に話者の登録発声のために生成されるフィルタバンクを使って入力発声のスペクトルをフィルタリングすることと、上記フィルタリングされた入力発声から音響的特徴ベクトルシーケンスを生成することとを備える話者認証確認方法が提供される。

本発明の別の態様によれば、話者認証の登録の装置であって、話者によって発話されるパスワードを含む登録発声を入力するように構成された発声入力ユニットと、上記登録発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、音響的特徴ベクトルシーケンスを使って話者テンプレートを生成するように構成されたテンプレート生成器とを備え、音響的特徴抽出器が、登録発声に基づいて話者の登録発声のためのフィルタバンクを生成するように構成されたフィルタバンク生成器と、生成される登録発声のためのフィルタバンクを用いて、登録発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットとを備える話者認証登録装置が提供される。

本発明の別の態様によれば、話者認証の確認の装置であって、発声を入力するように構成された発声入力ユニットと、入力発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、前述の話者認証の登録の方法を使って生成される登録済みの話者テンプレートを、抽出される音響的特徴ベクトルシーケンスと比較することによって、入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定するように構成された判定ユニットとを備え、音響的特徴抽出器が、登録時に話者の登録発声のために生成されるフィルタバンクを使って入力発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットを備える話者認証確認装置が提供される。

本発明の別の態様によれば、話者認証のシステムであって、前述の話者認証登録装置及び
前述の話者認証確認装置とを備えるシステムが提供される。

次に、図面を参照して、本発明の好ましい実施形態ごとの詳細な説明を行う。

図１は、本発明の一実施形態による話者認証の登録の方法を示すフローチャートである。図１に示すように、まずステップ１０１で、話者によって発話されたパスワードを含む発声が入力される。ここで、パスワードは、登録の段階でユーザによって設定される、確認のための特定の句または発音シーケンスである。

ステップ１０５で、話者によって発話された上記登録発声が前処理される。

このステップでは、登録発声が、従来方式で前処理され、例えば、まず、登録発声が、アナログ／ディジタル変換され、次いで、フレーム化され、雑音のある登録発声信号として、フィルタリングされて、雑音のない信号になる。この後、登録発声は、事前重み付け技術を使って低周波数干渉が除去され、フィルタリングされた発声データから、これの短期エネルギーと、短期ゼロ交差率が算出され、発声データの短期エネルギーと短期ゼロ交差率を検出することによって、無音部、白色雑音、および無声音が除去され、有効な有声音が残る。発声信号の前処理については、by J. W. Piconeによる文献“Signal Modeling Techniques in Speech Recognition” (Proceedings of the IEEE, 1993, 81(9): 12 15-1247)を参照すると、発声信号の前処理の手順が詳細に記載されている。

ステップ１１０で、前処理された登録発声の各フレームが、線形予測符号化解析されて、フレームの線形予測符号化係数ベクトルが取得される。

また、線形予測符号化解析は、線形予測符号化とも呼ばれ、ＬＰＣと省略される。より厳密には、線形予測符号化は、最適な線形の１ステップ先を読む純粋予測を意味し、低情報速度を有する少数の時間変化パラメータによって発声信号の波形を表し、発声パラメータ（基本音周波数、フォルマント、パワースペクトルなど）を正確に推定することができる。

このステップでは、登録発声のスペクトルピークがＬＰＣ解析を用いて推定され、これによって、登録発声の発声パラメータ（本実施形態では主に、フォルマント）が推定される。特に、このステップでは、登録発声中の各フレーム（一般に、発声信号のサンプリング周波数は、８ｋＨｚであり、典型的なフレーム長は１０〜３０ミリ秒である）が、ＬＰＣ解析されて、フレームの発声パラメータを特徴付けるＬＰＣ係数ベクトルが取得される。

当業者には周知のように、発声の線形予測符号化解析は、一般に、以下を含む。すなわち、主要発声信号の各サンプリング値に関して、これが、いくつかの過去のサンプリング値の重み和（線形結合）によって表される。個々の重み付け係数の決定原理は、予測される最小誤りの二乗平均値を求める（すなわち、いわゆる最小二乗平均規則に従う）ものであり、予測される誤りは、実際のサンプリング値と予測値の差である。

線形予測符号化解析に関しては、例えば、by Fikret Gurgen, Shigeki Sagayama, Sadaoki Furuiによる文献“A Study of Line Spectrum Pair Frequency Representation for Speech Recognition” (IEICE Trans. Fundamentals, Vol. E75-A, No. 1, Jan. 1992, 98-102)を参照されたい。

次に、ステップ１１５で、上記登録発声のためにフィルタバンクが生成される。本実施形態では、上記で取得される登録発声中の各フレームの線形予測符号化係数ベクトルが、ＬＳＰ（線スペクトル対）解析されてフレームの線スペクトル対が取得され、かかる線スペクトル対が、登録発声のためのフィルタバンクとしての線スペクトル対グループへと形成される。

ＬＳＰは、発声データのＬＰＣスペクトルの代替表現とみなすこともできる。ＬＳＰ係数は、以下のように順方向と逆方向の予測多項式を組み合わせることによって、ＬＰＣ予測係数から取得できる。

Ｐ（ｚ）＝Ａ（ｚ）＋Ｂ（ｚ）、Ｑ（ｚ）＝Ａ（ｚ）−Ｂ（ｚ）
但し、結果多項式Ｐ（ｚ）と（ｚ）は、ｚ＝＋１におけるＰ（ｚ）の乗根、およびｚ＝−１におけるＱ（ｚ）の乗根と、それぞれ、対称と逆対称である。ＰとＱの残りの乗根は、すべて、Ｚ領域内の単位円上にあり、これらは、共役対として生じる。各乗根の角度、｛ｏｉ，ｉ＝１，２，．．．，Ｍ｝を線スペクトル対（ＬＳＰ）という。

ＬＳＰ解析に関しては、Fikret Gurgen, Shigeki Sagayama, Sadaoki Furuiによる文献“A Study of Line Spectrum Pair Frequency Representation for Speech Recognition” (IEICE Trans. Fundamentals, Vol. E75-A, No. 1, Jan. 1992, 98-102)もを参照されたい。

次いで、ステップ１２０で、上記前処理済み登録発声データのスペクトルが取得される。具体的には、このステップでは、ステップ１０５で前処理される登録発声データの各フレームが、高速フーリエ変換され、これによって、フレームのフレームスペクトルが取得される。各フレームのフレームスペクトルを組み合わせることにより、登録発声のスペクトルが形成される。

ステップ１２５で、登録発声の上記スペクトルがフィルタリングされる。具体的には、このステップでは、登録発声データ中の各フレームのフレームスペクトルが、ステップ１１５で取得されたフィルタバンク、すなわち、線スペクトル対グループによってフィルタリングされる。線スペクトル対グループは、登録発声の線形予測解析から導出され、この中の線スペクトル対は、登録発声データのスペクトルにおけるフォルマントの位置を正確に示し、線スペクトル対の間隔は、フォルマントの強度を示すため、このステップでは、フォルマントの「位置＋強度」の形の音響的特徴ベクトルが、かかる線スペクトル対グループを使ってフレームのフレームスペクトルをフィルタリングすることによって、登録発声中の各フレームから抽出される。全フレームの音響的特徴ベクトルが、登録発声の音響的特徴ベクトルシーケンスを形成する。

次に、ステップ１３０で、登録発声のための話者テンプレートが生成される。具体的には、この実施形態では、話者テンプレートは、上記抽出音響的特徴ベクトルシーケンスと、発声のために設定された識別閾値を備える。ここで、話者テンプレート生成方法は、本発明では特に限定されておらず、音響的特徴に基づいて話者テンプレートを生成することのできる、当分野で既知の任意の方法が適用できる。

以上が、本実施形態による話者認証登録方法の詳細な説明である。本実施形態では、ステップ１２０がステップ１１０と１１５の後に行われるものとされているが、本実施形態は、かかる実施方法だけに限定されるものではないことに留意すべきである。そうではなく、実際の実現形態では、ステップ１２０は、ステップ１１０と１１５の前に行われてもよく、ステップ１１０、１１５と同時に行われてもよい。かかる実現形態でも、本発明の目的を達成することができる。

また、上記話者認証登録プロセスは１つの登録発声のためのものであることも留意すべきである。実際の実現形態では、登録発声の抽出される音響的特徴をより正確にするために、しばしば、登録発声の訓練が必要とされる。すなわち、特徴抽出は、話者の複数の登録発声のそれぞれについて行われ、複数の抽出音響的特徴グループ（話者テンプレート）がマージされる。テンプレートをマージするときには、例えば、ＤＴＷベースのテンプレートマージ方法が適用されてもよく、この詳細な内容については、by W. H. Abdulla, D. Chow, and G. Sinによる文献“Cross-words reference template for DTW-based speech recognition systems” (IEEE TENCON 2003, pp. 1576-1579)で参照することができる。

複数の登録発声の場合、本実施形態によれば、音響的特徴（話者テンプレート）のマージに加えて、確認プロセスで使用するために、特徴抽出プロセスの後で、個々の特徴抽出プロセスによって個々に生成されるフィルタバンクもまたマージされ、保存される必要がある。本実施形態では、フィルタバンクのマージには、以下のような方法を用いることができる。すなわち、複数のフィルタバンクの平均を取る、そこで特徴付けられるフォルマントの位置範囲が、複数のフィルタバンクにおいて最も狭いフィルタバンクを取る、そこで特徴付けられるフォルマントの位置範囲が複数のフィルタバンクにおいて最も広いフィルタバンクを取る、などである。

図２は、本発明の別の実施形態による話者認証登録方法を示すフローチャートである。以下では、本実施形態を図２との関連で説明し、前述の実施形態と同じ部分については適宜省略する。

本実施形態と図１に示す実施形態の違いは、登録発声の特徴抽出時にフィルタバンクを生成する方法、よって、生成されるフィルタバンクが異なる点にある。

図２に示すように、ステップ２０１と２０５は、図１に示す実施形態のステップと実質的に同じである。次に、ステップ２１０で、上記登録発声の各フレームが、フォルマント予測解析されて、フレームのフォルマント位置ベクトルが取得される。フォルマント予測解析に関しては、by L Welling, H Ney による文献“Formant Estimation for Speech Recognition” (IEEE Transaction on Speech and Audio Processing, vol.6, NO.1, JANUARY 1998)及びby A Watanabeによる文献“Formant Estimation Method Using Inverse-Filter Control” (IEEE Transactions on Speech and Audio Processing, VOL.9, NO.4, MAY 2001)を参照されたい。本実施形態では、上記で取得される登録発声中の各フレームのフォルマント位置ベクトルが、登録発声のためのフィルタバンクとしての、フォルマント位置ベクトルグループへと形成される。

ステップ２１５は、図１に示す実施形態の上記ステップ１２０と同じであり、登録発声データ中の各フレームが高速フーリエ変換され、これによって、フレームのフレームスペクトルが取得される。

ステップ２２０で、登録発声中の各フレームのフレームスペクトルがフィルタリングされる。具体的には、登録発声中の各フレームのフレームスペクトルが、ステップ２１０で取得されたフィルタバンク（本実施形態ではフォルマント位置ベクトルグループ）によってフィルタリングされ、これによって、フォルマントの位置を示すフレームの音響的特徴ベクトルが取得される。そして、全フレームの音響的特徴ベクトルが、登録発声の音響的特徴ベクトルシーケンスへと形成される。

以下のステップ２２５は、図１に示す実施形態のステップ１３０と同じであり、登録発声のための話者テンプレートが生成される。

同様に、本実施形態では、ステップ２１５は、ステップ２１０の後で行われるものとされているが、本発明は、かかる実施方法だけに限定されるものではない。そうではなく、実際の実現形態では、ステップ２１５は、ステップ２１０の前に行われてもよく、ステップ２１０と同時に行われてもよい。

本実施形態によれば、登録発声の訓練を行ってもよい。すなわち、話者の複数の登録発声について、個々に、特徴抽出が行われ、複数の抽出音響的特徴グループ（話者テンプレート）がマージされる。この場合、本実施形態によれば、個々の音響的特徴シーケンス（話者テンプレート）のマージに加えて、確認プロセスで使用するために、特徴抽出プロセスの後で、個々の特徴抽出プロセスによって個々に生成されるフィルタバンクもまたマージされ、保存される必要がある。

図３は、本発明の一実施形態による話者認証確認方法を示すフローチャートである。以下では、本実施形態を図３と併せて説明する。

ステップ３０１で、確認すべき発声が入力される。

ステップ３０５で、入力発声が前処理される。このステップでの入力発声の前処理の方法は、上記図１に示す実施形態における登録発声の前処理の方法と同じであり、したがって、これ以上繰り返して説明しない。

ステップ３１０で、上記前処理された入力発声のスペクトルが取得される。具体的には、このステップでは、上記前処理された入力発声中の各フレームが高速フーリエ変換され、これによって、入力発声データ中の各フレームのフレームスペクトルが取得される。全フレームのフレームスペクトルを組み合わせることによって、入力発声のスペクトルが形成される。

ステップ３１５で、入力発声の上記スペクトルがフィルタリングされる。具体的には、このステップでは、入力発声データ中の各フレームのフレームスペクトルが、登録段階において話者自身からの登録発声のために生成されるフィルタバンク（図１に示す登録方法の場合には線スペクトル対グループであり、図２に示す登録方法の場合にはフォルマント位置ベクトルグループである）を利用してフィルタリングされる。フィルタリングによって、フォルマントの「位置＋強度」の形の音響的特徴ベクトルが、入力発声中の各フレームから抽出される。全フレームの音響的特徴ベクトルが、入力発声の音響的特徴ベクトルシーケンスを形成する。

次に、ステップ３２０で、音響的特徴ベクトルシーケンスと話者テンプレートのＤＴＷ整合が行われて、距離が計算される。従来方式の話者認証のプロセスとして、距離を計算するプロセスは、普通、以下の通りである。

（１）音響的特徴ベクトルシーケンス中のフレームと、話者テンプレート中のフレームの間の全ノード距離（局部距離）が計算される。図４に、本発明による音響的特徴で特徴付けられる例示的入力発声データと話者テンプレートの対応するフレーム対を示す。本発明による音響的特徴は、フォルマントの「位置＋強度」の形であるため、本発明による話者テンプレートと入力発声データの間の距離の計算は、これらの間の「強度（エネルギー）」の差について行われる。具体的には、このステップでは、ある帯域における話者テンプレートと入力発声データのエネルギー差が計算され、全帯域における計算されたエネルギー差が合計されて、フレームノード対の間の距離が取得される。

（２）上記計算されたノード距離に基づいて、音響的特徴ベクトルシーケンスと話者テンプレートのＤＴＷ整合が行われて、最適整合パスが取得される。

（３）音響的特徴ベクトルシーケンスと話者テンプレートの間のグローバル距離（最適整合パス上の全ノード距離の合計）が計算される。

ここで、音響的特徴ベクトルシーケンスと話者テンプレートの間の整合距離の計算は、本発明では特に限定されておらず、このため、現在と将来における様々な手段および改善された手段が適用されてもよく、例えば、ローカル距離（局部距離）とグローバル距離を計算するときに、様々な線形、非線形変換が適用され、これによって、認証の信頼性がさらに高められてもよいことに留意すべきである。

次に、ステップ３２５で、グローバル距離が事前設定閾値より小さいかどうかが判定される。事前設定閾値より小さい場合、ステップ３３０で、同じ話者によって発話された同じパスワードであると確認され、確認に成功する。そうでない場合、ステップ３３５で、確認に成功しなかったとみなされる。

本実施形態では、入力発声と登録発声の歪みの大きさが、登録発声を入力発声データに変更することによって生じる非対称歪みを計算することによって取得される。これは、従来の距離関数よりも、実際に正確であり、理論上は信頼性が高い。本実施形態による非対称歪みの大きさは、ある種の「カルバック識別情報量（Kullback discrimination information）」または「有向発散（directed divergence）」に等しい。提示される歪みの大きさに基づく最終決定は、最小判別情報理論と整合する。最小判別情報理論に関しては、X. L. Zhu による“Fundamentals of Applied Information Theory” (Chapter 7, Tsinghua University Press, Beijing, 2000)を参照されたい。

一般に、登録発声データは雑音が低く、通常は、複数回の訓練を通じて取得され、したがって、これは、雑音のない発声とみなされる可能性がある。また、確認プロセスにおいて、入力発声は、現実的な状況下で入力され、したがって、雑音による汚染が不可避的に生じる。本実施形態によれば、確認段階で使用されるフィルタバンクは、入力発声ではなく、登録発声に基づいて生成され、したがって、フィルタリングプロセスは、入力発声データに組み込まれている雑音による影響を受けない。すなわち、本実施形態では、雑音のある入力発声データが、雑音のない登録データの先験的スペクトル構造によって分解される。よって、本実施形態は、雑音のない登録データの先験的情報をうまく利用し、環境雑音に対する耐性を提供する。

さらに、本実施形態では、フォルマントピーク位置およびフォルマント強度を分解することによってスペクトル構造の正確な記述を提供することができる。

同じ発明概念の下で、図５は、本発明の一実施形態による話者認証登録装置を示すブロック図である。以下では、本実施形態を図５と併せて説明する。図５に示すように、本実施形態による話者認証登録装置５００は、話者によって発話されるパスワードを含む登録発声を入力するように構成された発声入力ユニット５０１と、発声入力ユニット５０１を介して入力される登録発声を従来方式で前処理するように構成された前処理ユニット５０２と、前処理ユニット５０２によって前処理される登録発声中の各フレームを高速フーリエ変換し、これによって、フレームのフレームスペクトルを取得し、全フレームのフレームスペクトルが組み合わさって登録発声のスペクトルが形成されるように構成されたスペクトル生成器５０３と、スペクトル生成器５０３によって取得されるスペクトルを特徴とする登録発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器５０４と、音響的特徴抽出器５０４によって抽出される音響的特徴ベクトルシーケンスを使って話者テンプレートを生成するように構成されたテンプレート生成器５０５とを備える。

図５に示すように、上記音響的特徴抽出器５０４は、前処理ユニット５０２によって処理される登録発声中の各フレームをＬＰＣ解析して、フレームの線形予測係数ベクトルを取得するように構成されたＬＰＣ解析器５０４１と、ＬＰＣ解析器５０４１によって生成されるフレームの線形予測係数ベクトルに基づいて、各フレームの線スペクトル対を計算し、全フレームの線スペクトル対が、登録発声のためのフィルタバンクとしての、線スペクトル対グループを形成するように構成されたＬＳＰ生成器５０４２と、ＬＳＰ生成器５０４２によって生成される登録発声のためのフィルタバンク（すなわち、線スペクトル対グループ）を用いて、スペクトル生成器５０３によって取得される登録発声のスペクトルをフィルタリングし、これによって、登録発声の音響的特徴を取得するように構成されたフィルタリングユニット５０４３とをさらに備える。

本実施形態では、抽出される音響的特徴は、フォルマントの「位置＋強度」の形を取る。登録発声を利用して話者テンプレートを生成するときには、登録発声の抽出される音響的特徴をより正確にするために、しばしば、登録発声の訓練が行われる。すなわち、話者の複数の登録発声について、個々に、特徴抽出が行われ、複数の抽出音響的特徴グループ（話者テンプレート）がマージされる。この場合、本実施形態によれば、個々の音響的特徴シーケンス（話者テンプレート）のマージに加えて、確認プロセスで使用するために、特徴抽出プロセスの後で、音響的特徴抽出器によって同じ話者からの異なる発声について個々に生成されるフィルタバンクも、マージされ、保存される必要がある。

本実施形態による話者認証の登録の装置５００およびこれの様々な構成要素は、専用の回路またはチップを用いて構築することもでき、コンピュータ（プロセッサ）を介して対応するプログラムを実行することによって実施することもできる。また、本実施形態の話者認証の登録の装置５００は、図１の実施形態の話者認証の登録の方法を実用化するものであってもよい。

図６は、本発明の別の実施形態による話者認証登録装置を示すブロック図である。本実施形態を図６と併せて説明する。上記の実施形態の部分と類似の部分の説明は、適宜省略する。

本実施形態による発声登録装置６００の構造は、音響的特徴抽出器６０４が音響的特徴抽出器５０４と異なることを除けば、図５の装置と同じである。本実施形態の音響的特徴抽出器６０４は、前処理ユニット６０２によって処理される登録発声中の各フレームを、フォルマント推定解析を使って解析することによってフレームのフォルマント位置ベクトルを取得し、全フレームのフォルマント位置ベクトルが、登録発声のためのフィルタバンクとしての、フォルマント位置ベクトルグループを形成するように構成されたフォルマント推定解析器６０４１と、フォルマント推定解析器６０４１によって生成される登録発声のためのフィルタバンク（フォルマント位置ベクトルグループ）を用いて、スペクトル生成器６０３によって取得される登録発声のスペクトルをフィルタリングし、これによって、登録発声の音響的特徴を取得するように構成されたフィルタリングユニット６０４２とを備える。

本実施形態では、抽出される音響的特徴もまた、「位置＋強度」の形を取る。本実施形態による話者認証登録装置６００およびこれの様々な構成要素は、専用の回路またはチップを用いて構築することもでき、コンピュータ（プロセッサ）を介して対応するプログラムを実行することによって実施することもできる。また、本実施形態の話者認証の登録の装置６００は、図２の実施形態の話者認証の登録の方法を実用化するものであってもよい。

同じ発明概念の下で、図７は、本発明の一実施形態による話者認証確認装置を示すブロック図である。本実施形態を、図７と併せて説明する。

図７に示すように、本実施形態による話者認証確認装置７００は、発声を入力するように構成された発声入力ユニット７０１と、発声入力ユニット７０１を介して入力される入力発声を従来方式で前処理するように構成された前処理ユニット７０２と、前処理ユニット７０２によって処理される入力発声の各フレームを高速フーリエ変換し、これによって、フレームのフレームスペクトルを取得し、全フレームのフレームスペクトルが入力発声のスペクトルを形成するように構成されたスペクトル生成器７０３と、上記スペクトル生成器７０３によって取得されるスペクトルを特徴とする入力発声に基づいて音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器７０４と、上記図１または図２に示す話者認証の登録の方法を利用して生成される登録済みの話者テンプレート７０７を、音響的特徴抽出器７０４によって抽出される発声特徴ベクトルシーケンスと比較することによって、上記入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定するように構成された判定ユニット７０５と備える。

図７に示すように、音響的特徴抽出器７０４は、登録時に話者自身の登録発声のために生成されるフィルタバンク７０６（線スペクトル対グループまたはフォルマント位置ベクトルグループ）を利用して音響的特徴を抽出することによって、上記入力発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットをさらに備える。

入力発声の音響的特徴を、登録時に登録発声に基づいて生成される話者テンプレートと比較するときに、本実施形態の判定ユニット７０５は、入力発声と登録発声の間の歪みを計算し、歪みが事前設定された閾値より小さいかどうか判定する。事前設定された閾値より小さい場合、同じ話者によって発話された同じパスワードであると確認され、確認に成功する。そうでない場合、確認に成功しなかったとみなされる。

本実施形態による話者認証確認装置７００およびこれの様々な構成要素は、専用の回路またはチップを用いて構築することもでき、コンピュータ（プロセッサ）を介して対応するプログラムを実行することによって実施することもできる。また、本実施形態の話者認証確認装置７００は、図３と併せて説明している実施形態の話者認証確認方法を実用化するものとすることもできる。

本実施形態によれば、確認段階で使用されるフィルタバンクは、入力発声ではなく、登録発声に基づいて生成され、したがって、フィルタリングプロセスは、入力発声データに組み込まれている雑音の影響を受けない。すなわち、本実施形態では、雑音のある入力発声データが、雑音のない登録データの先験的スペクトル構造によって分解される。

同じ発明概念の下で、図８は、本発明の一実施形態による話者認証のシステムを示すブロック図である。以下では、本実施形態を、図８と併せて説明する。

図８に示すように、本実施形態による話者認証のシステムは、上記実施形態で言及している話者認証の登録の装置５００とすることのできる登録の装置５００と、上記実施形態で言及している話者認証の確認の装置７００とすることのできる確認装置７００とを備える。登録装置５００によって生成される話者テンプレートとフィルタバンクは、ネットワーク、内部チャネル、ディスク他の記録媒体など、任意の通信手段によって確認装置７００に移される。確認装置７００は、フィルタバンクを用いて入力発声の音響的特徴を抽出し、入力発声の抽出音響的特徴に基づいて、話者テンプレートとの歪み測定を行い、これによって、入力発声と登録発声が、同じ話者によって発話された同じパスワードであるかどうか判定して、対応する認証を成し遂げる。

以上では、話者認証登録方法および装置、話者認証確認方法および装置、ならびに話者認証システムを、いくつかの例示的実施形態を用いて詳細に説明しているが、これらの実施形態は網羅的なものではない。当業者であれば、本発明の精神と範囲を超えずに、様々な変形および改変を行うことができよう。したがって、本発明は、これらの実施形態だけに限定されず、本発明の範囲は、もっぱら、添付の特許請求の範囲によって定義されるものである。

本発明の一実施形態による話者認証登録方法を示すフローチャートである。本発明の別の実施形態による話者認証登録方法を示すフローチャートである。本発明の一実施形態による話者認証確認方法を示すフローチャートである。本発明の音響的特徴で特徴付けられる、例示的登録発声と入力発声との比較図である。本発明の一実施形態による話者認証登録装置を示すフローチャートである。本発明の別の実施形態による話者認証登録装置を示すブロック図である。本発明の一実施形態による話者認証確認装置を示すブロック図である。本発明の一実施形態による話者認証システムを示すブロック図である。

Claims

話者認証の登録の方法であって、
話者の登録発声から音響的特徴ベクトルシーケンスを抽出することと、
前記音響的特徴ベクトルシーケンスを使って話者テンプレートを生成することと、
を備え、
音響的特徴ベクトルシーケンスを抽出する前記ステップは、
前記登録発声に基づいて、前記登録発声のスペクトルにおけるフォルマントの位置とエネルギーをフィルタリングする、前記話者の前記登録発声のためのフィルタバンクを生成することと、
前記生成されたフィルタバンクによって前記登録発声の前記スペクトルをフィルタリングすることと、
前記フィルタリングされた登録発声から前記音響的特徴ベクトルシーケンスを生成することと、
を備える話者認証登録方法。
前記登録発声のためのフィルタバンクを生成する前記ステップは、
前記登録発声中の各フレームをＬＰＣ解析して、前記フレームのＬＰＣ係数ベクトルを取得することと、
前記取得された各フレームのＬＰＣ係数ベクトルをＬＳＰ解析して、前記フレームの線スペクトル対（ＬＳＰ）を取得することと、
前記登録発声中の全フレームの前記ＬＳＰを、前記登録発声のための前記フィルタバンクとして組み合わせることと、
を備える、請求項１に記載の話者認証登録方法。
前記登録発声のためのフィルタバンクを生成する前記ステップは、
フォルマント推定法を使って前記登録発声中の各フレームを解析することによって、前記フレームのフォルマント位置ベクトルを取得することと、
前記登録発声中の全フレームの前記フォルマント位置ベクトルを、前記フィルタバンクとして組み合わせることと、
を備える、請求項１に記載の話者認証登録方法。
前記登録発声の前記スペクトルをフィルタリングする前記ステップは、
前記登録発声中の各フレームを高速フーリエ変換して、前記フレームのフレームスペクトルを取得することと、
前記フィルタバンクを用いて各フレームの前記フレームスペクトルをフィルタリングすることと、
を備える、請求項１に記載の話者認証登録方法。
話者の登録発声から音響的特徴ベクトルシーケンスを抽出する前記ステップは、
話者の複数の登録発声から複数の音響的特徴ベクトルシーケンスを抽出することを備え、
話者テンプレートを生成する前記ステップは、
抽出された前記複数の音響的特徴ベクトルシーケンスをマージして前記話者テンプレートを生成することを備える、請求項１に記載の話者認証登録方法。
前記各登録発声に関して、前記登録発声の前記スペクトルをフィルタリングするためにフィルタバンクが生成され、
前記方法は、前記話者の前記複数の登録発声のために個々に生成された複数のフィルタバンクをマージすることをさらに備える、請求項５に記載の話者認証登録方法。
話者認証の確認の方法であって、
入力発声から音響的特徴ベクトルシーケンスを抽出することと、
話者テンプレートと、前記抽出された音響的特徴ベクトルシーケンスに基づいて、前記入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定することと、
を備え、
前記話者テンプレートは、請求項１から６のいずれか１項に記載の話者認証登録方法を使って生成され、
入力発声から音響的特徴ベクトルシーケンスを抽出する前記ステップは、
登録時に前記話者の登録発声のために生成されるフィルタバンクを使って前記入力発声のスペクトルをフィルタリングすることと、
前記フィルタリングされた入力発声から前記音響的特徴ベクトルシーケンスを生成することと、
を備える方法。
話者認証の登録の装置であって、
話者によって発話されるパスワードを含む登録発声を入力するように構成された発声入力ユニットと、
前記登録発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、
前記音響的特徴ベクトルシーケンスを使って話者テンプレートを生成するように構成されたテンプレート生成器と、
を備え、
前記音響的特徴抽出器は、
前記登録発声の各フレームをＬＰＣ解析して、フレームの線形予測係数ベクトルを取得するように構成されたＬＰＣ解析器と、
前記ＬＰＣ解析器によって生成されるフレームの線形予測係数ベクトルに基づいて、各フレームの線スペクトル対を計算し、全フレームの線スペクトル対が、登録発声のためのフィルタバンクとしての、線スペクトル対グループを形成するように構成されたフィルタバンク生成器と、
前記登録発声のための前記生成されるフィルタバンクを用いて、前記登録発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットと、
を備える、話者認証登録装置。
話者認証の確認の装置であって、
発声を入力するように構成された発声入力ユニットと、
前記入力発声から音響的特徴ベクトルシーケンスを抽出するように構成された音響的特徴抽出器と、
請求項１から６のいずれか１項に記載の話者認証の登録の方法を使って生成される登録済みの話者テンプレートを、前記抽出される音響的特徴ベクトルシーケンスと比較することによって、前記入力発声が、話者によって発話された登録済みパスワードの発声であるかどうか判定するように構成された判定ユニットと、
を備え、
前記音響的特徴抽出器は、
登録時に前記話者の登録発声のために生成されるフィルタバンクを使って前記入力発声のスペクトルをフィルタリングするように構成されたフィルタリングユニットを備える話者認証確認装置。
話者認証のシステムであって、
請求項８項に記載の話者認証登録装置と、
請求項９に記載の話者認証確認装置と、
を備えるシステム。