JP3859884B2

JP3859884B2 - 話者認識方法および話者認識装置

Info

Publication number: JP3859884B2
Application number: JP29702698A
Authority: JP
Inventors: 豊出口; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-10-19
Filing date: 1998-10-19
Publication date: 2006-12-20
Anticipated expiration: 2018-10-19
Also published as: JP2000122693A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声を用いて個人の同定を行う話者認識方法およびそれを持ちた話者認識装置に関する。
【０００２】
【従来の技術】
従来、金融機関等や役所での個人の同定は、あらかじめ登録された印鑑や暗証番号を用いて行われている。しかし、このような従来方法では、印鑑の紛失や盗難、暗証番号の忘却や漏洩によって正確な個人の同定が行えなくなるのが現状である。そのため、当人の音声を用いて個人同定を行う方法が提案されている。
【０００３】
音声を用いて個人の同定を行う話者認識方式には、特定の言葉を発生して認識を行う発生内容依存手法と、任意の発生に対して認証を行う発生内容独立手法に大別される。発声内容依存手法を用いた方が一般的に高い認識率を得ることができるが、特定の言葉の発声を必要とする制約が加わる。発声内容独立手法は、発声長を長くすればするほど高い認識率を得られるという利点もある。特定の言葉を記憶する必要がなく、利用者に負担の少ない発声内容独立手法は、様々な分野への応用が可能である。
【０００４】
従来の発声内容独立手法を用いた話者認識方法の一例を次に説明する。学習時には、収集した複数の話者の音声データからそれぞれ特徴量（特徴ベクトル）を算出した後に、各話者ごとに話者モデルを作成して、それを記憶しておく。認識時には、認識対象の話者の音声データを特徴量に変換した後、その変換された特徴量と先に記憶しておいた複数の話者モデルとを照合して尤度を算出し、尤度がある一定値を越えるなどした場合は本人と同定する。
【０００５】
学習時に音声データを特徴量に変換する際には、例えば、音声データより１６ｍｓから４０ｍｓ程度の区間を、８ｍｓから１６ｍｓ毎に逐次取り出し、各区間に対して特徴量を算出する手法が一般的に用いられている。
【０００６】
認識時も同様に各区間に対して特徴量を算出し、その算出された特徴量に対して個別に話者モデルとの照合を行い、照合結果を統合して最終的な認識結果を算出するようになっている。
【０００７】
話者モデルの作成には、隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、以下ＨＭＭと言う）を用いて複数の特徴ベクトルの分布をクラスタリングした後、各クラスタの代表的な特徴ベクトルを保持し、保持した代表的な特徴ベクトルを羅列した符号帳を用いるものが、代表的なものとして挙げられる。
【０００８】
また、周囲の環境変化に対応するため、尤度を計算した後、本人の話者モデルに対する認識結果の他に本人以外の話者モデルなどに対する認識結果の値を用いて、認識結果を正規化する手法が一般的に用いられている。例えば、本人の話者モデル以外に、本人に似た他の５人の話者モデルと尤度（距離）を算出し、尤度の高い（距離の小さい）２つの値を使って認識結果の正規化を行う手法もよく使われている。
【０００９】
話者モデルの作成方法は、話者認識の性能に大きな影響を与える。話者認識では、誤認識を避けるため、本人の音声データとの尤度は大きく（もしくは距離は小さく）、本人以外の音声データとの尤度は小さく（もしくは距離は大きく）なるような話者モデルを作成する必要がある。また、話者認識を行う際の利用者の負担を考え、最小限の音声データで認識することが望まれるが、発声時間が短かければ、本人の特徴をつかむのは困難になる。このため、短い発声に対しても高い認識性能を保持するような話者モデルを作成する必要がある。
【００１０】
短い発声に対して高い認識性能を保持するためには、微細な話者モデルを作成する必要が生じる。すなわち、話者認識では、例えば、特徴ベクトルの分布を、いくつかのガウス分布を合成したもの（混合分布）で表現するＨＭＭを話者モデルに用いる場合には、混合分布に用いるガウス分布（ＨＭＭの分布）の数を多くする。また、特徴ベクトルの符号帳を話者モデルに用いる場合には、符号帳の大きさを大きくするなどの方法が取られている。
しかし、一般的に、ＨＭＭの分布の数や符号帳の大きさに比例する計算量が必要になるので、作成するモデルが微細であるほど認識に要する時間が長くなる。
【００１１】
【発明が解決しようとする課題】
以上説明したように、短い発声に対して認識性能を高めるために、微細な話者モデルを作成することは、一方で、入力音声と話者モデルを照合するための尤度（距離）算出の計算量が増大し、話者認識に要する時間が長くなるという問題点がある。
【００１２】
そこで本発明は、入力音声と話者モデルを照合する際に要する計算量を減らし、その結果として、作成するモデルの微細さはそのままに、すなわち、高い認識性能を保持したまま、話者認識に要する時間を短くできる話者認識方法およびそれを用いた話者認識装置を提供することを目的とする。
【００１３】
【課題を解決するための手段】
（１）本発明の話者認識方法は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶手段に記憶し、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶された話者モデルとを照合して、当該認識対象の話者を認識することを特徴とする。
【００１４】
本発明によれば、微細な話者モデルを作成しても、使用する話者モデルを木構造化することで、高い認識性能を保持したまま入力音声と話者モデルとの尤度（あるいは距離）算出の際の計算量を削減して、高速な話者認識が可能となる。
【００１５】
（２）本発明の話者認識方法は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶手段に記憶し、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶された複数の話者モデルとを照合して、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化するために用いる話者モデルを選択し、
この選択された話者モデルを用いて、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化して、当該認識対象の話者を認識することを特徴とする。
【００１６】
本発明によれば、尤度（あるいは距離）算出の際に得られた値を用いて、正規化にどの話者モデルを使用するかを決定することにより、照合結果の正規化に伴う計算量の増大を抑えることができる。
【００１７】
（３）本発明の話者認識装置は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶する記憶手段と、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶手段に記憶された話者モデルとを照合して、当該認識対象の話者を認識する認識手段と、
を具備したことを特徴とする。
【００１８】
本発明によれば、微細な話者モデルを作成しても、使用する話者モデルを木構造化することで、高い認識性能を保持したまま入力音声と話者モデルとの尤度（あるいは距離）算出の際の計算量を削減して、高速な話者認識が可能となる。
【００１９】
（４）本発明の話者認識装置は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶する記憶手段と、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶手段に記憶された複数の話者モデルとを照合して、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化するために用いる話者モデルを選択する選択手段と、
この選択手段で選択された話者モデルを用いて、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化して、当該認識対象の話者を認識する認識手段と、
を具備したことを特徴とする。
【００２０】
本発明によれば、尤度（あるいは距離）算出の際に得られた値を用いて、正規化にどの話者モデルを使用するかを決定することにより、照合結果の正規化に伴う計算量の増大を抑えることができる。
【００２１】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。
図１は、本実施形態に係る話者認識方法を用いた話者認識装置（発声内容独立手法を適用したもの）の構成例を示したもので、音声を入力する音声入力部１、入力された音声から区間を抽出し、その抽出した区間毎に特徴量（例えば、特徴ベクトル）を算出する特徴量算出部２、算出された特徴量から話者モデルを作成する話者モデル作成部３、作成された話者モデルを記憶する話者モデル記憶部４、話者認識時に音声入力部１に入力された音声から算出された特徴量と、話者モデル記憶部４に記憶された話者モデル（辞書）とを照合して尤度（あるいは、入力された話者モデルと辞書としての話者モデルとの隔たりを示す距離）を算出し、その算出された尤度が所定値を超えた場合（あるいは、距離が所定値より小さい場合）に、当該話者を本人と同定する照合部５とから構成されている。
【００２２】
図１に示したような構成の話者認識装置の処理動作の概略を図３に示すフローチャートを参照して説明する。学習時には（ステップＳ１）、音声入力部１より入力された複数の話者の音声データから特徴量算出部２で特徴ベクトルを算出した後に、話者モデル作成部３において各話者ごとに話者モデルを作成し、話者モデル記憶部４に記憶しておく（ステップＳ２〜ステップＳ５）。認識時には（ステップＳ１）、音声入力部１より入力された認識対象の話者の音声データから特徴量算出部２で特徴ベクトルを算出した後に、照合部５において、特徴量算出部２で算出された認識対象話者の特徴ベクトルと話者モデル記憶部４に記憶されているそれぞれの話者モデルとを照合して、尤度あるいは距離を算出する。例えば、尤度が所定値を越えるなどした場合は本人と同定する（ステップＳ６〜ステップＳ９）。
【００２３】
図２は、本実施形態に係る話者認識方法を用いた話者認識装置（発声内容独立手法を適用したもの）の他の構成例を示したものである。なお、図１と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図２では、図１に示した構成に、照合部５で算出された認識対象の話者の特徴量と当該話者の話者モデルとの尤度あるいは距離を正規化する正規化部６がさらに追加されている。
【００２４】
正規化部６では、周囲の環境変化に対応するため、図３のステップＳ８において、照合部５で尤度あるいは距離を計算した後、本人の話者モデルに対する認識結果の他に本人以外の話者モデルなどに対する認識結果の値を用いて、当該認識結果を正規化する。例えば、本人の話者モデル以外に、本人に似た他の５人の話者モデルとも尤度（もしくは距離）を算出し、尤度の高い（距離の小さい）２つの値を使って認識結果の正規化を行う。正規化された認識結果（尤度あるいは距離）に基づき、（尤度が所定値を超えた場合、あるいは距離が所定値より小さい場合に）当該話者を本人と同定する。
【００２５】
図１、図２の構成において、本発明の特徴的な部分は、図３のステップＳ４で、話者モデル作成部３において行われる話者モデルの作成方法である。すなわち、本発明では、図４、図５に示すような木構造で１人の話者の話者モデルを表現するようになっている。以下、この木構造を木構造型話者モデルと呼ぶ。
【００２６】
話者モデル作成部３は、学習時に入力された話者の音声データから算出された特徴ベクトル群を用いて、話者モデルを作成する。特徴ベクトルの符号帳を話者モデルとして用いる方法では、当該話者の特徴ベクトルを何らかの方法でクラスタリングし、各クラスタに関して代表ベクトルを１つ決定する。これらの代表ベクトルの集合を話者モデルとして使用している。本実施形態では、この特徴ベクトルの符号帳を話者モデルとして使用する。
【００２７】
図３のステップＳ４では、特徴量算出部２にて複数の話者の音声データから算出された特徴ベクトルを用いて木構造型話者モデルを作成する。
木構造型話者モデルの一例を図４に示す。図４に示す木構造型話者モデルは、ルートノードと末端のノード（ａ１〜ａ３２）の間に中間ノード（ｂ１〜ｂ８）を１段持つ２層の木構造を保持しているが、原理的には中間ノードを複数段保持する構造にしても全く問題ない。例えば、図５のように、ある末端のノード（図５におけるノードｃ１、ｃ２、ｃ４、ｃ５）に対しては中間ノード（図５におけるノードｂ２、ｂ３）が１段階、別の末端のノード（図５においてノードａ１〜ａ５）に対しては中間ノードが２段階ある構造（図５において、ノードａ１、ａ２に対してはノードｃ３、その上位ノードｂ２が中間ノードとなる。また、ノードａ３〜ａ５に対してはノードｃ３、その上位ノードはｂ３が中間ノードとなる）をとることも可能である。
【００２８】
次に、話者モデル作成部３における木構造型話者モデルの構築処理手順について、図６に示すフローチャートを参照して説明する。
本発明の木構造型話者モデルでは、特徴ベクトルを中間ノードの段数よりさらにもう１回多い回数だけ、逐次クラスタリングすることで作成する。また、各段のノードの数は、各回のクラスタリングでのクラスタの数であり、１つの特徴ベクトルに対して１つのノードを対応させる。図４に示したような木構造型話者モデルを作成する場合を例にとり説明すると、最初に特徴ベクトルを通常のクラスタリング手法を用いて８つにクラスタリングする（ステップＳ１１）。ここでは、各クラスタに属する特徴ベクトルは複数あるので、各クラスタに関して代表ベクトルを求め（ステップＳ１２〜ステップＳ１３）、それらをｂ１からｂ８のノードに対応させる（ステップＳ１４）。
【００２９】
次に、それぞれのクラスタに属する特徴ベクトルに関して、２回目のクラスタリングを行い、各クラスタに属する特徴ベクトルを再び４つにクラスタリングする（ステップＳ１５）。ここでは、各クラスタに属する特徴ベクトルはそれぞれ１つづつであるので、各特徴ベクトルをそれぞれ下位のノードに対応させる（ステップＳ１２、ステップＳ１６）。
【００３０】
本実施形態では、末端のノード（ａ１〜ａ３２までの３２個のノード）に最終的な詳細な特徴ベクトルが、中間ノード（ｂ１〜ｂ８までの８個のノード）に中間的な代表ベクトルが保持され、計４０個の代表ベクトルからなる１人の話者の話者モデルが構築されることになる。
【００３１】
従来は、末端のノードに対応する３２個の代表ベクトルのみを保持していたので、モデルのサイズとしては中間ノードの分だけ大きくなることになる。
ここでは、中間ノードが１段階であったので、２回のクラスタリングにより話者モデルを構築した。中間ノードの段階が増えても、末端ノードに特徴ベクトルが１つのみになるまで、このような操作を繰り返すことでモデルを構築できる。
【００３２】
なお、木構造型話者モデルでは、上位のノードでは、下位につながっている末端のノードの代表ベクトルの平均ベクトルを保持していることになる。すなわち、例えば、図４に示した木構造型話者モデルにおいて、ノードｂ１では、ノードａ１〜ノードａ４のそれぞれに保持されてる特徴ベクトルの平均ベクトルが保持されている。
【００３３】
本発明では、認識対象の話者の発声音から抽出された特徴量としての入力ベクトルと話者モデルとの距離は、図７のフローチャートに示す手順に従って算出される。
【００３４】
本発明では、クラスタリングの結果が表現された木構造型話者モデルをルートノードから末端のノードまで辿って、最も距離の近いノードを探し、入力ベクトルとそのノードの持つベクトルとの距離を、入力ベクトルと話者モデルの距離と定義し、木構造を辿っていく際、現在見ているノードのことを、注目ノードと呼ぶことにする。ここでは、図４に示すような木構造型話者モデルの場合を例にとり説明する。
【００３５】
注目ノードをルートノードとし（ステップＳ２１）、入力ベクトルと注目ノードにつながっているｂ１からｂ８までのノードの持つベクトルとの距離を計算する（ステップＳ２２）。このとき、例えばｂ１が距離最小であったとすると、注目ノードをノードｂ１へ移動する（ステップＳ２３）。次に、注目ノードに下位ノードが存在するかを確かめ（ステップＳ２４）、この場合のように下位ノードがある場合には、ステップＳ２２へ進み、入力ベクトルと注目ノードにつながっているａ１からａ４までのノードの持つベクトルとの距離を計算する。その距離計算を基に、注目ノードを距離最小のノードへ移動する（ステップＳ２３）。再び、注目ノードに下位ノードが存在するかを確かめ（ステップＳ２４）、この場合のように下位ノードがない場合には、ステップＳ２５へ進み、入力ベクトルと注目ノードの持つベクトルとの距離を入力ベクトルと話者モデルの距離として出力して、終了する。
【００３６】
図４に示す話者モデルのように、代表ベクトルを３２個保持する場合、距離計算にかかる計算は、従来の話者モデルを用いると３２回のベクトル距離計算となるのに対し、本実施形態では、１段目にある８ノード分と、２段目にある４ノード分に計１２回のベクトル距離計算で済み、話者モデルを木構造化することによって、距離計算が高速化されていることがわかる。
【００３７】
また、話者モデルを木構造化することで、本来選ばれるはずの代表ベクトルが選ばれず、その結果として、従来の話者モデルで算出した距離と照合して、より大きな距離が計算される可能性はありうる。距離計算の誤差が認識精度に影響を与える場合には、図６のステップＳ２３で、注目ノードを、距離が最小のものから数えてｓ個までのベクトルを持つノードに変更することで、誤差を小さくすることができる。
【００３８】
例えば、図４に示す木構造型話者モデルの場合、図７のステップＳ２３で、ｓ＝２、すなわち、注目ノードに距離が最小なものを２つ選ぶことにしたとき、計算量としては、１段目にある８ノード分と、２段目にある４＋４＝８ノード分との計１６回の距離計算が必要になる。それでも、従来の３２回の計算量と照合すると十分小さく、また最小なものを１つ選ぶ場合と照合すると、誤差を小さくすることができる。
【００３９】
次に、算出した尤度の正規化（距離の正規化）に関して説明する。一般的には、本人の話者モデルに対する距離以外に、他のｎ個の話者モデルに対する距離も計算し、以下のような計算式（１）を用いて距離の正規化を行う。
【００４０】
【数１】

【００４１】
式（１）では、入力ベクトルＸと話者モデルＳｉより得られた距離ｄ（Ｘ｜Ｓｉ）を、他の話者モデルＳｊ（１≦ｊ≦ｎ）を用いて、正規化距離ｄｎｅｗ（Ｘ｜Ｓｉ）を求めている。分母の関数ｆは、一般的には相乗平均などが良く使用されている。
【００４２】
ｎ個の話者モデルは、本人に似た声の話者、すなわち本人の発声に対して小さな距離を出力する話者モデルを、学習用音声よりあらかじめ特定しておく。通常は、ｎ個の話者モデルに対する距離を用いる代わりに、距離が小さかったｋ個の話者モデルを用いて計算することが多い。
【００４３】
従来の方法においては、話者正規化は、ｎ個の話者モデルとの距離を算出する必要がある。しかし、本発明では木構造型話者モデルを用いているので、ｎ個の話者モデルとの距離を求めることなく、近似的に距離が小さいｋ個の話者モデルを選択し、それらのモデルとの距離を求めることができる。
【００４４】
図８は、認識対象の話者の発声音から抽出された特徴ベクトルと当該話者の話者モデルとの照合結果を正規化する際の処理動作を説明するためのフローチャートである。図４の木構造型話者モデルを例にとり説明する。
【００４５】
ｎ個の話者モデルのそれぞれのルートノードを注目ノードとして（ステップＳ３１）、各話者モデル毎に、まず第一段目のノードｂ１〜ｂ８の８つの代表ベクトルに対して距離を計算し、８つのうちの最小値を求める（ステップＳ３２）。ｎ個の話者モデルのそれぞれから求められた最小値のノード（Ｎｏｄｅｘ’）の中で、値の小さいものｔ（＞ｋ）個を抽出して（ステップＳ２３）、それらを新たに注目ノードとする（ステップＳ３３）。
【００４６】
新たに注目ノードに設定されたｔ個のノードの中に、下位ノードの存在するノードがあるか確かめる（ステップＳ３４）。図４に示す木構造型話者モデルでは、下位ノードの存在するノードがあるので、ステップＳ３２に進み、新たに注目ノードの設定されたｔ個の話者モデルに対してのみ、第２段目の計算を行う。
【００４７】
ｔ個の話者モデルのそれぞれにおいて、第２段目で求めたｔ個の距離のうち、最も小いものから順にｔ個をとりだす（ステップＳ３３）。図４に示す木構造型話者モデルでは、今度は、下位ノード（３段目のノード）の存在するノードがないので、ステップＳ３５に進み、ｔ個のノードから、さらに距離の小さいものから順にｋ個を取り出して、そのｋ個のノードをそれぞれ含む話者モデルを用いて、式（１）から距離の正規化を行う（ステップＳ３５）。
【００４８】
正規化を行う場合の話者認識を、図４に示したような木構造型話者モデルで、ｎ＝１０、ｔ＝５、ｋ＝２とした場合を例にとり、その効果をより具体的に説明する。この場合、従来の話者モデルでは、３２本のベクトルからなる話者モデル１０人に対して距離を算出する必要があるので、３２０回のベクトル距離計算が必要になる。これに対して、本発明によれば、話者モデルを構造化したことで、各話者モデル毎の計算は、１段目の中間ノードに対する計算が８×１０＝８０回、２段目の末端のノードに対する計算が４×１０＝４０回の計１２０回で済む。
【００４９】
さらに、図８に示したように、ステップＳ３３でｔ＝５個の話者モデルに限定することにより、２段目での計算は、５個の話者モデルのそれぞれについての２段目の計算（４ノード分の計算）だけで済むので、４×５＝２０回で済ませることができる。図８に示すような手順で正規化を行えば、木構造型話者モデルを用いた話者認識において、全ての話者モデルとの距離を算出した場合と比較して２０回のベクトル距離計算を省略できたことになる。
【００５０】
また、話者モデルと入力ベクトルの距離を求める際に出力される、中間ノードでの途中結果を用いることで、明らかに距離正規化に使用しないであろうと思われる話者モデルに対しては、途中で計算を打ち切り、最終的に必要になるであろう話者モデルに関してのみ引続き計算を行うことで、尤度正規化の高速化をはかることができる。
【００５１】
なお、上記実施形態では、図４に示すような木構造型話者モデルを作成したが、木構造型であれば、どのような構造でも本発明を適用することは可能である。なお、本実施形態では、特徴ベクトルの符号帳を話者モデルに用いて木構造型話者モデルを作成したが、ＨＭＭの分布を話者モデルに用いて木構造型話者モデルを作成しても同様の効果がある。
【００５２】
話者認識において、認識性能を高めるため微細な話者モデルを作成することは、一方で認識の際の計算量を増大させるという欠点があるが、以上説明したように、上記実施形態によれば、微細な話者モデルを作成しても、使用する話者モデルを木構造化することで、高い認識性能を保持したまま入力音声と話者モデルとの尤度（あるいは距離）算出の際の計算量を削減して、高速な話者認識が可能となる。
【００５３】
また、照合結果の正規化を行う場合には、尤度（あるいは距離）算出の際に求められていない話者モデルとの尤度（あるいは距離）も必要となるため、正規化を行わない場合と比較した時の計算量の増大は、従来に比べて大きくなる。しかしながら、上記実施形態によれば、尤度（あるいは距離）算出の際に得られた値を用いて、正規化にどの話者モデルを使用するかを決定することにより、照合結果の正規化に伴う計算量の増大を抑えることが出来る。
【００５４】
【発明の効果】
以上説明したように、本発明によれば、入力音声と話者モデルを照合する際に要する計算量を減らして、高い認識性能を保持したまま、話者認識に要する時間を短縮できる。
【図面の簡単な説明】
【図１】本発明の実施形態に係る話者認識方法を適用した話者認識装置の構成例を示した図。
【図２】本発明の実施形態に係る話者認識方法を適用した話者認識装置の他の構成例を示した図。
【図３】話者認識装置の処理動作を概略的に示したフローチャート。
【図４】木構造型話者モデルの一例を示した図。
【図５】木構造型話者モデルの他の例を示した図。
【図６】木構造型話者モデルの構築処理手順を示したフローチャート。
【図７】認識対象の話者の発声音から抽出された特徴量としての入力ベクトルと話者モデルとの距離の算出手順を示したフローチャート。
【図８】認識対象の話者の発声音から抽出された特徴ベクトルと当該話者の話者モデルとの照合結果を正規化する際の処理動作を説明するためのフローチャート。
【符号の説明】
１…音声入力部
２…特徴量算出部
３…話者モデル作成部
４…話者モデル記憶部
５…照合部
６…正規化部

Claims

話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された第１の話者の第１の発声音の各区間から特徴量を抽出する第１のステップと、
前記第１の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも１つの前記特徴量を含む複数の集合を求める第２のステップと、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める第３のステップと、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記第１の話者を識別するための当該第１の話者に対応する木構造の話者モデルを作成して記憶手段に記憶する第４のステップと、
入力された認識対象の話者の第２の発声音の特徴量を抽出する第５のステップと、
前記話者モデルの前記複数の代表特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の代表特徴量を選択する第６のステップと、
前記第１の代表特徴量に接続されている特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の特徴量を選択する第７のステップと、
前記第１の特徴量と前記該第２の発声音の特徴量との間の照合結果の値と所定値とを比較して、前記認識対象の話者が前記第１の話者であるか否かを判定する第８のステップと、
を有することを特徴とする話者認識方法。
話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された話者の第１の発声音の各区間から特徴量を抽出する第１のステップと、
前記第１の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも１つの前記特徴量を含む複数の集合を求める第２のステップと、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める第３のステップと、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記話者を識別するための当該話者に対応する木構造の話者モデルを作成して記憶手段に記憶する第４のステップと、
入力された認識対象の話者の第２の発声音の特徴量を抽出する第５のステップと、
前記記憶手段に記憶された複数の前記話者モデルであって、前記認識対象の話者の話者モデルと当該認識対象の話者と類似する発声音をもつ話者の話者モデルを含む当該複数の話者モデルのそれぞれについて、当該話者モデルの前記複数の代表特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の代表特徴量を選択し、前記第１の代表特徴量に接続されている特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の特徴量を選択する第６のステップと、
前記複数の話者モデルのそれぞれから選択された複数の前記第１の特徴量のそれぞれについて求めた前記第２の発声音の特徴量との間の照合結果の値を用いて、前記複数の話者モデルのうち前記認識対象の話者の話者モデルから求めた前記第１の特徴量と前記第２の発声音の特徴量との間の照合結果の値を正規化する第７のステップと、
正規化された前記照合結果の値と所定値とを比較して、前記認識対象の話者が当該話者本人であるか否かを判定する第８のステップと、
を有することを特徴とする話者認識方法。
話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された第１の話者の第１の発声音の各区間から特徴量を抽出する手段と、
前記第１の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも１つの前記特徴量を含む複数の集合を求める手段と、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める手段と、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記第１の話者を識別するための当該第１の話者に対応する木構造の話者モデルを記憶する記憶手段と、
入力された認識対象の話者の第２の発声音の特徴量を抽出する手段と、
前記話者モデルの前記複数の代表特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の代表特徴量を選択する手段と、
前記第１の代表特徴量に接続されている特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の特徴量を選択する手段と、
前記第１の特徴量と前記該第２の発声音の特徴量との間の照合結果の値と所定値とを比較して、前記認識対象の話者が前記第１の話者であるか否かを判定する手段と、
を具備したことを特徴とする話者認識装置。
話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された話者の第１の発声音の各区間から特徴量を抽出する手段と、
前記第１の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも１つの前記特徴量を含む複数の集合を求める手段と、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める手段と、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記話者を識別するための当該話者に対応する木構造の話者モデルを記憶する記憶手段と、
入力された認識対象の話者の第２の発声音の特徴量を抽出する手段と、
前記記憶手段に記憶された複数の前記話者モデルであって、前記認識対象の話者の話者モデルと当該認識対象の話者と類似する発声音をもつ話者の話者モデルを含む当該複数の話者モデルのそれぞれについて、当該話者モデルの前記複数の代表特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の代表特徴量を選択し、前記第１の代表特徴量に接続されている特徴量のなかから前記第２の発声音の特徴量と最も類似する第１の特徴量を選択する手段と、
前記複数の話者モデルのそれぞれから選択された複数の前記第１の特徴量のそれぞれについて求めた前記第２の発声音の特徴量との間の照合結果の値を用いて、前記複数の話者モデルのうち前記認識対象の話者の話者モデルから求めた前記第１の特徴量と前記第２の発声音の特徴量との間の照合結果の値を正規化する手段と、
正規化された前記照合結果の値と所定値とを比較して、前記認識対象の話者が当該話者本人であるか否かを判定する手段と、
を具備したことを特徴とする話者認識装置。