JP3859884B2 - 話者認識方法および話者認識装置 - Google Patents
話者認識方法および話者認識装置 Download PDFInfo
- Publication number
- JP3859884B2 JP3859884B2 JP29702698A JP29702698A JP3859884B2 JP 3859884 B2 JP3859884 B2 JP 3859884B2 JP 29702698 A JP29702698 A JP 29702698A JP 29702698 A JP29702698 A JP 29702698A JP 3859884 B2 JP3859884 B2 JP 3859884B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- feature
- model
- representative
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、音声を用いて個人の同定を行う話者認識方法およびそれを持ちた話者認識装置に関する。
【0002】
【従来の技術】
従来、金融機関等や役所での個人の同定は、あらかじめ登録された印鑑や暗証番号を用いて行われている。しかし、このような従来方法では、印鑑の紛失や盗難、暗証番号の忘却や漏洩によって正確な個人の同定が行えなくなるのが現状である。そのため、当人の音声を用いて個人同定を行う方法が提案されている。
【0003】
音声を用いて個人の同定を行う話者認識方式には、特定の言葉を発生して認識を行う発生内容依存手法と、任意の発生に対して認証を行う発生内容独立手法に大別される。発声内容依存手法を用いた方が一般的に高い認識率を得ることができるが、特定の言葉の発声を必要とする制約が加わる。発声内容独立手法は、発声長を長くすればするほど高い認識率を得られるという利点もある。特定の言葉を記憶する必要がなく、利用者に負担の少ない発声内容独立手法は、様々な分野への応用が可能である。
【0004】
従来の発声内容独立手法を用いた話者認識方法の一例を次に説明する。学習時には、収集した複数の話者の音声データからそれぞれ特徴量(特徴ベクトル)を算出した後に、各話者ごとに話者モデルを作成して、それを記憶しておく。認識時には、認識対象の話者の音声データを特徴量に変換した後、その変換された特徴量と先に記憶しておいた複数の話者モデルとを照合して尤度を算出し、尤度がある一定値を越えるなどした場合は本人と同定する。
【0005】
学習時に音声データを特徴量に変換する際には、例えば、音声データより16msから40ms程度の区間を、8msから16ms毎に逐次取り出し、各区間に対して特徴量を算出する手法が一般的に用いられている。
【0006】
認識時も同様に各区間に対して特徴量を算出し、その算出された特徴量に対して個別に話者モデルとの照合を行い、照合結果を統合して最終的な認識結果を算出するようになっている。
【0007】
話者モデルの作成には、隠れマルコフモデル(Hidden Markov Model、以下HMMと言う)を用いて複数の特徴ベクトルの分布をクラスタリングした後、各クラスタの代表的な特徴ベクトルを保持し、保持した代表的な特徴ベクトルを羅列した符号帳を用いるものが、代表的なものとして挙げられる。
【0008】
また、周囲の環境変化に対応するため、尤度を計算した後、本人の話者モデルに対する認識結果の他に本人以外の話者モデルなどに対する認識結果の値を用いて、認識結果を正規化する手法が一般的に用いられている。例えば、本人の話者モデル以外に、本人に似た他の5人の話者モデルと尤度(距離)を算出し、尤度の高い(距離の小さい)2つの値を使って認識結果の正規化を行う手法もよく使われている。
【0009】
話者モデルの作成方法は、話者認識の性能に大きな影響を与える。話者認識では、誤認識を避けるため、本人の音声データとの尤度は大きく(もしくは距離は小さく)、本人以外の音声データとの尤度は小さく(もしくは距離は大きく)なるような話者モデルを作成する必要がある。また、話者認識を行う際の利用者の負担を考え、最小限の音声データで認識することが望まれるが、発声時間が短かければ、本人の特徴をつかむのは困難になる。このため、短い発声に対しても高い認識性能を保持するような話者モデルを作成する必要がある。
【0010】
短い発声に対して高い認識性能を保持するためには、微細な話者モデルを作成する必要が生じる。すなわち、話者認識では、例えば、特徴ベクトルの分布を、いくつかのガウス分布を合成したもの(混合分布)で表現するHMMを話者モデルに用いる場合には、混合分布に用いるガウス分布(HMMの分布)の数を多くする。また、特徴ベクトルの符号帳を話者モデルに用いる場合には、符号帳の大きさを大きくするなどの方法が取られている。
しかし、一般的に、HMMの分布の数や符号帳の大きさに比例する計算量が必要になるので、作成するモデルが微細であるほど認識に要する時間が長くなる。
【0011】
【発明が解決しようとする課題】
以上説明したように、短い発声に対して認識性能を高めるために、微細な話者モデルを作成することは、一方で、入力音声と話者モデルを照合するための尤度(距離)算出の計算量が増大し、話者認識に要する時間が長くなるという問題点がある。
【0012】
そこで本発明は、入力音声と話者モデルを照合する際に要する計算量を減らし、その結果として、作成するモデルの微細さはそのままに、すなわち、高い認識性能を保持したまま、話者認識に要する時間を短くできる話者認識方法およびそれを用いた話者認識装置を提供することを目的とする。
【0013】
【課題を解決するための手段】
(1)本発明の話者認識方法は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶手段に記憶し、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶された話者モデルとを照合して、当該認識対象の話者を認識することを特徴とする。
【0014】
本発明によれば、微細な話者モデルを作成しても、使用する話者モデルを木構造化することで、高い認識性能を保持したまま入力音声と話者モデルとの尤度(あるいは距離)算出の際の計算量を削減して、高速な話者認識が可能となる。
【0015】
(2)本発明の話者認識方法は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶手段に記憶し、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶された複数の話者モデルとを照合して、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化するために用いる話者モデルを選択し、
この選択された話者モデルを用いて、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化して、当該認識対象の話者を認識することを特徴とする。
【0016】
本発明によれば、尤度(あるいは距離)算出の際に得られた値を用いて、正規化にどの話者モデルを使用するかを決定することにより、照合結果の正規化に伴う計算量の増大を抑えることができる。
【0017】
(3)本発明の話者認識装置は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶する記憶手段と、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶手段に記憶された話者モデルとを照合して、当該認識対象の話者を認識する認識手段と、
を具備したことを特徴とする。
【0018】
本発明によれば、微細な話者モデルを作成しても、使用する話者モデルを木構造化することで、高い認識性能を保持したまま入力音声と話者モデルとの尤度(あるいは距離)算出の際の計算量を削減して、高速な話者認識が可能となる。
【0019】
(4)本発明の話者認識装置は、話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された話者の発声音から抽出された特徴量に基づき木構造の格納構造をもつ話者モデルを作成して記憶する記憶手段と、
入力された認識対象の話者の発声音から抽出された特徴量と前記記憶手段に記憶された複数の話者モデルとを照合して、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化するために用いる話者モデルを選択する選択手段と、
この選択手段で選択された話者モデルを用いて、前記入力された認識対象の話者の特徴量と当該認識対象の話者の話者モデルとの照合結果を正規化して、当該認識対象の話者を認識する認識手段と、
を具備したことを特徴とする。
【0020】
本発明によれば、尤度(あるいは距離)算出の際に得られた値を用いて、正規化にどの話者モデルを使用するかを決定することにより、照合結果の正規化に伴う計算量の増大を抑えることができる。
【0021】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。
図1は、本実施形態に係る話者認識方法を用いた話者認識装置(発声内容独立手法を適用したもの)の構成例を示したもので、音声を入力する音声入力部1、入力された音声から区間を抽出し、その抽出した区間毎に特徴量(例えば、特徴ベクトル)を算出する特徴量算出部2、算出された特徴量から話者モデルを作成する話者モデル作成部3、作成された話者モデルを記憶する話者モデル記憶部4、話者認識時に音声入力部1に入力された音声から算出された特徴量と、話者モデル記憶部4に記憶された話者モデル(辞書)とを照合して尤度(あるいは、入力された話者モデルと辞書としての話者モデルとの隔たりを示す距離)を算出し、その算出された尤度が所定値を超えた場合(あるいは、距離が所定値より小さい場合)に、当該話者を本人と同定する照合部5とから構成されている。
【0022】
図1に示したような構成の話者認識装置の処理動作の概略を図3に示すフローチャートを参照して説明する。学習時には(ステップS1)、音声入力部1より入力された複数の話者の音声データから特徴量算出部2で特徴ベクトルを算出した後に、話者モデル作成部3において各話者ごとに話者モデルを作成し、話者モデル記憶部4に記憶しておく(ステップS2〜ステップS5)。認識時には(ステップS1)、音声入力部1より入力された認識対象の話者の音声データから特徴量算出部2で特徴ベクトルを算出した後に、照合部5において、特徴量算出部2で算出された認識対象話者の特徴ベクトルと話者モデル記憶部4に記憶されているそれぞれの話者モデルとを照合して、尤度あるいは距離を算出する。例えば、尤度が所定値を越えるなどした場合は本人と同定する(ステップS6〜ステップS9)。
【0023】
図2は、本実施形態に係る話者認識方法を用いた話者認識装置(発声内容独立手法を適用したもの)の他の構成例を示したものである。なお、図1と同一部分には同一符号を付し、異なる部分についてのみ説明する。すなわち、図2では、図1に示した構成に、照合部5で算出された認識対象の話者の特徴量と当該話者の話者モデルとの尤度あるいは距離を正規化する正規化部6がさらに追加されている。
【0024】
正規化部6では、周囲の環境変化に対応するため、図3のステップS8において、照合部5で尤度あるいは距離を計算した後、本人の話者モデルに対する認識結果の他に本人以外の話者モデルなどに対する認識結果の値を用いて、当該認識結果を正規化する。例えば、本人の話者モデル以外に、本人に似た他の5人の話者モデルとも尤度(もしくは距離)を算出し、尤度の高い(距離の小さい)2つの値を使って認識結果の正規化を行う。正規化された認識結果(尤度あるいは距離)に基づき、(尤度が所定値を超えた場合、あるいは距離が所定値より小さい場合に)当該話者を本人と同定する。
【0025】
図1、図2の構成において、本発明の特徴的な部分は、図3のステップS4で、話者モデル作成部3において行われる話者モデルの作成方法である。すなわち、本発明では、図4、図5に示すような木構造で1人の話者の話者モデルを表現するようになっている。以下、この木構造を木構造型話者モデルと呼ぶ。
【0026】
話者モデル作成部3は、学習時に入力された話者の音声データから算出された特徴ベクトル群を用いて、話者モデルを作成する。特徴ベクトルの符号帳を話者モデルとして用いる方法では、当該話者の特徴ベクトルを何らかの方法でクラスタリングし、各クラスタに関して代表ベクトルを1つ決定する。これらの代表ベクトルの集合を話者モデルとして使用している。本実施形態では、この特徴ベクトルの符号帳を話者モデルとして使用する。
【0027】
図3のステップS4では、特徴量算出部2にて複数の話者の音声データから算出された特徴ベクトルを用いて木構造型話者モデルを作成する。
木構造型話者モデルの一例を図4に示す。図4に示す木構造型話者モデルは、ルートノードと末端のノード(a1〜a32)の間に中間ノード(b1〜b8)を1段持つ2層の木構造を保持しているが、原理的には中間ノードを複数段保持する構造にしても全く問題ない。例えば、図5のように、ある末端のノード(図5におけるノードc1、c2、c4、c5)に対しては中間ノード(図5におけるノードb2、b3)が1段階、別の末端のノード(図5においてノードa1〜a5)に対しては中間ノードが2段階ある構造(図5において、ノードa1、a2に対してはノードc3、その上位ノードb2が中間ノードとなる。また、ノードa3〜a5に対してはノードc3、その上位ノードはb3が中間ノードとなる)をとることも可能である。
【0028】
次に、話者モデル作成部3における木構造型話者モデルの構築処理手順について、図6に示すフローチャートを参照して説明する。
本発明の木構造型話者モデルでは、特徴ベクトルを中間ノードの段数よりさらにもう1回多い回数だけ、逐次クラスタリングすることで作成する。また、各段のノードの数は、各回のクラスタリングでのクラスタの数であり、1つの特徴ベクトルに対して1つのノードを対応させる。図4に示したような木構造型話者モデルを作成する場合を例にとり説明すると、最初に特徴ベクトルを通常のクラスタリング手法を用いて8つにクラスタリングする(ステップS11)。ここでは、各クラスタに属する特徴ベクトルは複数あるので、各クラスタに関して代表ベクトルを求め(ステップS12〜ステップS13)、それらをb1からb8のノードに対応させる(ステップS14)。
【0029】
次に、それぞれのクラスタに属する特徴ベクトルに関して、2回目のクラスタリングを行い、各クラスタに属する特徴ベクトルを再び4つにクラスタリングする(ステップS15)。ここでは、各クラスタに属する特徴ベクトルはそれぞれ1つづつであるので、各特徴ベクトルをそれぞれ下位のノードに対応させる(ステップS12、ステップS16)。
【0030】
本実施形態では、末端のノード(a1〜a32までの32個のノード)に最終的な詳細な特徴ベクトルが、中間ノード(b1〜b8までの8個のノード)に中間的な代表ベクトルが保持され、計40個の代表ベクトルからなる1人の話者の話者モデルが構築されることになる。
【0031】
従来は、末端のノードに対応する32個の代表ベクトルのみを保持していたので、モデルのサイズとしては中間ノードの分だけ大きくなることになる。
ここでは、中間ノードが1段階であったので、2回のクラスタリングにより話者モデルを構築した。中間ノードの段階が増えても、末端ノードに特徴ベクトルが1つのみになるまで、このような操作を繰り返すことでモデルを構築できる。
【0032】
なお、木構造型話者モデルでは、上位のノードでは、下位につながっている末端のノードの代表ベクトルの平均ベクトルを保持していることになる。すなわち、例えば、図4に示した木構造型話者モデルにおいて、ノードb1では、ノードa1〜ノードa4のそれぞれに保持されてる特徴ベクトルの平均ベクトルが保持されている。
【0033】
本発明では、認識対象の話者の発声音から抽出された特徴量としての入力ベクトルと話者モデルとの距離は、図7のフローチャートに示す手順に従って算出される。
【0034】
本発明では、クラスタリングの結果が表現された木構造型話者モデルをルートノードから末端のノードまで辿って、最も距離の近いノードを探し、入力ベクトルとそのノードの持つベクトルとの距離を、入力ベクトルと話者モデルの距離と定義し、木構造を辿っていく際、現在見ているノードのことを、注目ノードと呼ぶことにする。ここでは、図4に示すような木構造型話者モデルの場合を例にとり説明する。
【0035】
注目ノードをルートノードとし(ステップS21)、入力ベクトルと注目ノードにつながっているb1からb8までのノードの持つベクトルとの距離を計算する(ステップS22)。このとき、例えばb1が距離最小であったとすると、注目ノードをノードb1へ移動する(ステップS23)。次に、注目ノードに下位ノードが存在するかを確かめ(ステップS24)、この場合のように下位ノードがある場合には、ステップS22へ進み、入力ベクトルと注目ノードにつながっているa1からa4までのノードの持つベクトルとの距離を計算する。その距離計算を基に、注目ノードを距離最小のノードへ移動する(ステップS23)。再び、注目ノードに下位ノードが存在するかを確かめ(ステップS24)、この場合のように下位ノードがない場合には、ステップS25へ進み、入力ベクトルと注目ノードの持つベクトルとの距離を入力ベクトルと話者モデルの距離として出力して、終了する。
【0036】
図4に示す話者モデルのように、代表ベクトルを32個保持する場合、距離計算にかかる計算は、従来の話者モデルを用いると32回のベクトル距離計算となるのに対し、本実施形態では、1段目にある8ノード分と、2段目にある4ノード分に計12回のベクトル距離計算で済み、話者モデルを木構造化することによって、距離計算が高速化されていることがわかる。
【0037】
また、話者モデルを木構造化することで、本来選ばれるはずの代表ベクトルが選ばれず、その結果として、従来の話者モデルで算出した距離と照合して、より大きな距離が計算される可能性はありうる。距離計算の誤差が認識精度に影響を与える場合には、図6のステップS23で、注目ノードを、距離が最小のものから数えてs個までのベクトルを持つノードに変更することで、誤差を小さくすることができる。
【0038】
例えば、図4に示す木構造型話者モデルの場合、図7のステップS23で、s=2、すなわち、注目ノードに距離が最小なものを2つ選ぶことにしたとき、計算量としては、1段目にある8ノード分と、2段目にある4+4=8ノード分との計16回の距離計算が必要になる。それでも、従来の32回の計算量と照合すると十分小さく、また最小なものを1つ選ぶ場合と照合すると、誤差を小さくすることができる。
【0039】
次に、算出した尤度の正規化(距離の正規化)に関して説明する。一般的には、本人の話者モデルに対する距離以外に、他のn個の話者モデルに対する距離も計算し、以下のような計算式(1)を用いて距離の正規化を行う。
【0040】
【数1】
【0041】
式(1)では、入力ベクトルXと話者モデルSiより得られた距離d(X|Si)を、他の話者モデルSj(1≦j≦n)を用いて、正規化距離dnew(X|Si)を求めている。分母の関数fは、一般的には相乗平均などが良く使用されている。
【0042】
n個の話者モデルは、本人に似た声の話者、すなわち本人の発声に対して小さな距離を出力する話者モデルを、学習用音声よりあらかじめ特定しておく。通常は、n個の話者モデルに対する距離を用いる代わりに、距離が小さかったk個の話者モデルを用いて計算することが多い。
【0043】
従来の方法においては、話者正規化は、n個の話者モデルとの距離を算出する必要がある。しかし、本発明では木構造型話者モデルを用いているので、n個の話者モデルとの距離を求めることなく、近似的に距離が小さいk個の話者モデルを選択し、それらのモデルとの距離を求めることができる。
【0044】
図8は、認識対象の話者の発声音から抽出された特徴ベクトルと当該話者の話者モデルとの照合結果を正規化する際の処理動作を説明するためのフローチャートである。図4の木構造型話者モデルを例にとり説明する。
【0045】
n個の話者モデルのそれぞれのルートノードを注目ノードとして(ステップS31)、各話者モデル毎に、まず第一段目のノードb1〜b8の8つの代表ベクトルに対して距離を計算し、8つのうちの最小値を求める(ステップS32)。n個の話者モデルのそれぞれから求められた最小値のノード(Node x’)の中で、値の小さいものt(>k)個を抽出して(ステップS23)、それらを新たに注目ノードとする(ステップS33)。
【0046】
新たに注目ノードに設定されたt個のノードの中に、下位ノードの存在するノードがあるか確かめる(ステップS34)。図4に示す木構造型話者モデルでは、下位ノードの存在するノードがあるので、ステップS32に進み、新たに注目ノードの設定されたt個の話者モデルに対してのみ、第2段目の計算を行う。
【0047】
t個の話者モデルのそれぞれにおいて、第2段目で求めたt個の距離のうち、最も小いものから順にt個をとりだす(ステップS33)。図4に示す木構造型話者モデルでは、今度は、下位ノード(3段目のノード)の存在するノードがないので、ステップS35に進み、t個のノードから、さらに距離の小さいものから順にk個を取り出して、そのk個のノードをそれぞれ含む話者モデルを用いて、式(1)から距離の正規化を行う(ステップS35)。
【0048】
正規化を行う場合の話者認識を、図4に示したような木構造型話者モデルで、n=10、t=5、k=2とした場合を例にとり、その効果をより具体的に説明する。この場合、従来の話者モデルでは、32本のベクトルからなる話者モデル10人に対して距離を算出する必要があるので、320回のベクトル距離計算が必要になる。これに対して、本発明によれば、話者モデルを構造化したことで、各話者モデル毎の計算は、1段目の中間ノードに対する計算が8×10=80回、2段目の末端のノードに対する計算が4×10=40回の計120回で済む。
【0049】
さらに、図8に示したように、ステップS33でt=5個の話者モデルに限定することにより、2段目での計算は、5個の話者モデルのそれぞれについての2段目の計算(4ノード分の計算)だけで済むので、4×5=20回で済ませることができる。図8に示すような手順で正規化を行えば、木構造型話者モデルを用いた話者認識において、全ての話者モデルとの距離を算出した場合と比較して20回のベクトル距離計算を省略できたことになる。
【0050】
また、話者モデルと入力ベクトルの距離を求める際に出力される、中間ノードでの途中結果を用いることで、明らかに距離正規化に使用しないであろうと思われる話者モデルに対しては、途中で計算を打ち切り、最終的に必要になるであろう話者モデルに関してのみ引続き計算を行うことで、尤度正規化の高速化をはかることができる。
【0051】
なお、上記実施形態では、図4に示すような木構造型話者モデルを作成したが、木構造型であれば、どのような構造でも本発明を適用することは可能である。なお、本実施形態では、特徴ベクトルの符号帳を話者モデルに用いて木構造型話者モデルを作成したが、HMMの分布を話者モデルに用いて木構造型話者モデルを作成しても同様の効果がある。
【0052】
話者認識において、認識性能を高めるため微細な話者モデルを作成することは、一方で認識の際の計算量を増大させるという欠点があるが、以上説明したように、上記実施形態によれば、微細な話者モデルを作成しても、使用する話者モデルを木構造化することで、高い認識性能を保持したまま入力音声と話者モデルとの尤度(あるいは距離)算出の際の計算量を削減して、高速な話者認識が可能となる。
【0053】
また、照合結果の正規化を行う場合には、尤度(あるいは距離)算出の際に求められていない話者モデルとの尤度(あるいは距離)も必要となるため、正規化を行わない場合と比較した時の計算量の増大は、従来に比べて大きくなる。しかしながら、上記実施形態によれば、尤度(あるいは距離)算出の際に得られた値を用いて、正規化にどの話者モデルを使用するかを決定することにより、照合結果の正規化に伴う計算量の増大を抑えることが出来る。
【0054】
【発明の効果】
以上説明したように、本発明によれば、入力音声と話者モデルを照合する際に要する計算量を減らして、高い認識性能を保持したまま、話者認識に要する時間を短縮できる。
【図面の簡単な説明】
【図1】本発明の実施形態に係る話者認識方法を適用した話者認識装置の構成例を示した図。
【図2】本発明の実施形態に係る話者認識方法を適用した話者認識装置の他の構成例を示した図。
【図3】話者認識装置の処理動作を概略的に示したフローチャート。
【図4】木構造型話者モデルの一例を示した図。
【図5】木構造型話者モデルの他の例を示した図。
【図6】木構造型話者モデルの構築処理手順を示したフローチャート。
【図7】認識対象の話者の発声音から抽出された特徴量としての入力ベクトルと話者モデルとの距離の算出手順を示したフローチャート。
【図8】認識対象の話者の発声音から抽出された特徴ベクトルと当該話者の話者モデルとの照合結果を正規化する際の処理動作を説明するためのフローチャート。
【符号の説明】
1…音声入力部
2…特徴量算出部
3…話者モデル作成部
4…話者モデル記憶部
5…照合部
6…正規化部
Claims (4)
- 話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された第1の話者の第1の発声音の各区間から特徴量を抽出する第1のステップと、
前記第1の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも1つの前記特徴量を含む複数の集合を求める第2のステップと、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める第3のステップと、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記第1の話者を識別するための当該第1の話者に対応する木構造の話者モデルを作成して記憶手段に記憶する第4のステップと、
入力された認識対象の話者の第2の発声音の特徴量を抽出する第5のステップと、
前記話者モデルの前記複数の代表特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の代表特徴量を選択する第6のステップと、
前記第1の代表特徴量に接続されている特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の特徴量を選択する第7のステップと、
前記第1の特徴量と前記該第2の発声音の特徴量との間の照合結果の値と所定値とを比較して、前記認識対象の話者が前記第1の話者であるか否かを判定する第8のステップと、
を有することを特徴とする話者認識方法。 - 話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識方法において、
入力された話者の第1の発声音の各区間から特徴量を抽出する第1のステップと、
前記第1の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも1つの前記特徴量を含む複数の集合を求める第2のステップと、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める第3のステップと、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記話者を識別するための当該話者に対応する木構造の話者モデルを作成して記憶手段に記憶する第4のステップと、
入力された認識対象の話者の第2の発声音の特徴量を抽出する第5のステップと、
前記記憶手段に記憶された複数の前記話者モデルであって、前記認識対象の話者の話者モデルと当該認識対象の話者と類似する発声音をもつ話者の話者モデルを含む当該複数の話者モデルのそれぞれについて、当該話者モデルの前記複数の代表特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の代表特徴量を選択し、前記第1の代表特徴量に接続されている特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の特徴量を選択する第6のステップと、
前記複数の話者モデルのそれぞれから選択された複数の前記第1の特徴量のそれぞれについて求めた前記第2の発声音の特徴量との間の照合結果の値を用いて、前記複数の話者モデルのうち前記認識対象の話者の話者モデルから求めた前記第1の特徴量と前記第2の発声音の特徴量との間の照合結果の値を正規化する第7のステップと、
正規化された前記照合結果の値と所定値とを比較して、前記認識対象の話者が当該話者本人であるか否かを判定する第8のステップと、
を有することを特徴とする話者認識方法。 - 話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された第1の話者の第1の発声音の各区間から特徴量を抽出する手段と、
前記第1の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも1つの前記特徴量を含む複数の集合を求める手段と、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める手段と、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記第1の話者を識別するための当該第1の話者に対応する木構造の話者モデルを記憶する記憶手段と、
入力された認識対象の話者の第2の発声音の特徴量を抽出する手段と、
前記話者モデルの前記複数の代表特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の代表特徴量を選択する手段と、
前記第1の代表特徴量に接続されている特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の特徴量を選択する手段と、
前記第1の特徴量と前記該第2の発声音の特徴量との間の照合結果の値と所定値とを比較して、前記認識対象の話者が前記第1の話者であるか否かを判定する手段と、
を具備したことを特徴とする話者認識装置。 - 話者の発声音から抽出される特徴量から予め作成された話者モデルに基づき、その話者を認識する話者認識装置において、
入力された話者の第1の発声音の各区間から特徴量を抽出する手段と、
前記第1の発声音の各区間から抽出された複数の特徴量をクラスタリングして、それぞれが少なくとも1つの前記特徴量を含む複数の集合を求める手段と、
前記複数の集合のそれぞれに含まれる前記特徴量を基に、前記複数の集合のそれぞれに対応する代表特徴量を求める手段と、
少なくとも前記複数の代表特徴量と前記複数の特徴量とから、当該複数の代表特徴量のそれぞれに当該代表特徴量に対応する集合に含まれる特徴量を接続してなる前記話者を識別するための当該話者に対応する木構造の話者モデルを記憶する記憶手段と、
入力された認識対象の話者の第2の発声音の特徴量を抽出する手段と、
前記記憶手段に記憶された複数の前記話者モデルであって、前記認識対象の話者の話者モデルと当該認識対象の話者と類似する発声音をもつ話者の話者モデルを含む当該複数の話者モデルのそれぞれについて、当該話者モデルの前記複数の代表特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の代表特徴量を選択し、前記第1の代表特徴量に接続されている特徴量のなかから前記第2の発声音の特徴量と最も類似する第1の特徴量を選択する手段と、
前記複数の話者モデルのそれぞれから選択された複数の前記第1の特徴量のそれぞれについて求めた前記第2の発声音の特徴量との間の照合結果の値を用いて、前記複数の話者モデルのうち前記認識対象の話者の話者モデルから求めた前記第1の特徴量と前記第2の発声音の特徴量との間の照合結果の値を正規化する手段と、
正規化された前記照合結果の値と所定値とを比較して、前記認識対象の話者が当該話者本人であるか否かを判定する手段と、
を具備したことを特徴とする話者認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29702698A JP3859884B2 (ja) | 1998-10-19 | 1998-10-19 | 話者認識方法および話者認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP29702698A JP3859884B2 (ja) | 1998-10-19 | 1998-10-19 | 話者認識方法および話者認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000122693A JP2000122693A (ja) | 2000-04-28 |
JP3859884B2 true JP3859884B2 (ja) | 2006-12-20 |
Family
ID=17841272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP29702698A Expired - Fee Related JP3859884B2 (ja) | 1998-10-19 | 1998-10-19 | 話者認識方法および話者認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3859884B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9804822B2 (en) | 2014-07-29 | 2017-10-31 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010204274A (ja) * | 2009-03-02 | 2010-09-16 | Toshiba Corp | 音声認識装置、その方法及びそのプログラム |
JP6087542B2 (ja) * | 2012-08-31 | 2017-03-01 | 綜合警備保障株式会社 | 話者認識装置、話者認識方法及び話者認識プログラム |
-
1998
- 1998-10-19 JP JP29702698A patent/JP3859884B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9804822B2 (en) | 2014-07-29 | 2017-10-31 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2000122693A (ja) | 2000-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
EP1679694B1 (en) | Confidence score for a spoken dialog system | |
JP3683177B2 (ja) | 音声認識のための文脈依存モデルの作成方法 | |
CN102119412B (zh) | 例外语辞典制作装置、例外语辞典制作方法、和声音识别装置和声音识别方法 | |
KR100406604B1 (ko) | 음성인식방법및장치 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
JP5134751B2 (ja) | 連続音声認識における識別訓練された混合モデル | |
US8738378B2 (en) | Speech recognizer, speech recognition method, and speech recognition program | |
JPH10508392A (ja) | トリー構成確率密度に基づくパターン認識の方法及びシステム | |
US6499012B1 (en) | Method and apparatus for hierarchical training of speech models for use in speaker verification | |
JP3859884B2 (ja) | 話者認識方法および話者認識装置 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP3914709B2 (ja) | 音声認識方法およびシステム | |
Maxwell et al. | Training hidden Markov models using populationbased learning | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
JP3036509B2 (ja) | 話者照合における閾値決定方法及び装置 | |
JPH0823758B2 (ja) | 話者適応形音声認識装置 | |
JP2991288B2 (ja) | 話者認識装置 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
JPH11249688A (ja) | 音声認識装置およびその方法 | |
US20230317085A1 (en) | Audio processing device, audio processing method, recording medium, and audio authentication system | |
Burget | Measurement of complementarity of recognition systems | |
JP3412501B2 (ja) | タスク適応化装置及び音声認識装置 | |
JP2000122690A (ja) | パターン認識方法およびパターン認識装置 | |
KR100382473B1 (ko) | 음성 인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20040622 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050415 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060831 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060920 |
|
LAPS | Cancellation because of no payment of annual fees |