JP3927559B2

JP3927559B2 - 話者認識装置、プログラム及び話者認識方法

Info

Publication number: JP3927559B2
Application number: JP2004163071A
Authority: JP
Inventors: 友成柿野; 智則伊久美
Original assignee: Toshiba TEC Corp
Current assignee: Toshiba TEC Corp
Priority date: 2004-06-01
Filing date: 2004-06-01
Publication date: 2007-06-13
Anticipated expiration: 2024-06-01
Also published as: CN1914667A; WO2005119654A1; CN100593194C; JP2005345598A

Description

本発明は、音声波に含まれる個人性情報を用いて話者を認識する話者認識装置、プログラム及び話者認識方法に関する。

話者認識装置としては、既定内容の音声により話者の認識（同定）を行うテキスト依存型の話者認識装置が提案されており、特に音声から抽出した特徴パラメータ時系列を比較して話者を認識する話者認識装置が提案されている。

話者認識装置においては、一般的に、認識に使用する音声波を数ｍｓｅｃ毎のフレームに分割し、そのフレーム毎に各種音響パラメータ、例えばケプストラム係数を求めて特徴パラメータ（音声特徴パラメータ）とし、これを全音声区間に渡って時系列としたデータを用いて話者認識（話者同定）を行う。

特徴パラメータは、一般的に、第一義的に音韻性情報を含んでおり、第二義的に個人性情報を含んでいる。このような特徴パラメータを個人性情報に依存する話者認識に使用する場合には、特徴パラメータから音韻性情報をキャンセルしなければ安定した認識性能を確保することができない。

そこで、従来のテキスト依存型の話者認識装置では、音韻性情報をキャンセルするため、比較する特徴パラメータ時系列の時間軸を非線形に縮尺する時間正規化手法（ＤＰマッチング）を用いて同一音韻同士の距離を算出する（非特許文献１参照）。図６に示すように、ＤＰマッチングを行うＤＰマッチング部２００は、比較する２つの特徴パラメータ時系列Ａ，Ｂ間の距離が最小となるようにマッチングパターン（ＤＰパス）を求める。このとき、ＤＰマッチングのアルゴリズム上、ＤＰパスが求まると同時に最小化距離が算出される。この最小化距離に基づいて同定部２０１は話者の同定を行う。

古井貞熙著 "音声情報処理" 森北出版株式会社Ｐ．９１−９３第１版

しかしながら、従来のＤＰマッチングは、比較する２つの特徴パラメータ時系列間の距離の最小化を行うため、話者による音声の違いを求めることを目的する話者認識の手法としては適当でない。すなわち、話者に特有の単語内における時間構造を過剰な時間伸縮により破壊してしまい、結果として話者間の差異を距離に十分反映することができないという問題がある。これを解決するために時間伸縮に制限を設ける手法（整合窓）も行われているが、その手法では、逆に同一話者間で異音韻間の対応付けを行う危険性が発生してしまうという問題がある。これらの問題は、ＤＰパスの最適化に用いる距離と話者を判別するための距離とを同一の計算方法で求めることに起因しており、精度が高い話者認識を行うことを困難にしている。

本発明の目的は、精度が高い話者認識を実現することである。

本発明は、第１音声特徴パラメータ時系列と第２音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの第１音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第１距離を求め、その第１距離の総和を求める手段と、前記第１距離の総和が最小となるように最適マッチング系列を求める手段と、前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列のそれぞれの第２音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第２距離を求め、その第２距離の総和を求める手段と、求めた前記第２距離の総和に基づいて話者の同定を行う手段と、を備える。

したがって、第１音声特徴パラメータ時系列及び第２音声特徴パラメータ時系列のそれぞれの第１音声特徴パラメータ群を用いて第１距離の総和が最小となる最適マッチング系列が求められ、その最適マッチング系列に基づいて第１音声特徴パラメータ時系列及び第２音声特徴パラメータ時系列のそれぞれの第２音声特徴パラメータ群を用いて第２距離の総和が求められ、その第２距離の総和に基づいて話者の同定が行われる。これにより、音声特徴パラメータ時系列をマッチングする際の音韻分解性能と音声特徴パラメータ時系列間の距離を求める際の話者分解性能とが両立し、安定した認識性能を確保することが可能になる。

本発明によれば、精度が高い話者認識を実現することができる。

本発明の第一の実施の形態を図１及び図２に基づいて説明する。図１は本実施の形態の話者認識装置の構成を示すブロック図、図２は話者認識装置が備える話者同定部の構成を示すブロック図である。本実施の形態の話者認識装置は、テキスト依存型の話者認識装置の一例である。

図１に示すように、話者認識装置１００は、マイク１、低域通過フィルタ２、Ａ／Ｄ変換部３、特徴パラメータ生成部４、話者同定部５、話者モデル生成部６及び記憶部７から構成されている。

マイク１は、入力された音声を電気的アナログ信号に変換する変換部である。低域通過フィルタ２は、入力されたアナログ信号から所定の周波数以上の周波数をカットし出力するフィルタである。Ａ／Ｄ変換部３は、入力されたアナログ信号を所定のサンプリング周波数、量子化ビット数でデジタル信号に変換する変換部である。これらのマイク１、低域通過フィルタ２、Ａ／Ｄ変換部３により、音声を入力するための音声入力手段が構成されている。

特徴パラメータ生成部４は、入力されたデジタル信号から順次個人性情報を含む特徴パラメータを抽出し、特徴パラメータ時系列（特徴ベクトル列）を生成して出力する生成出力部である。本実施の形態では、特徴パラメータ生成部４は、有声区間の音声波をフレーム分析してΔピッチ及び１６次ケプストラム係数を求め、Δピッチ時系列及び１６次ケプストラム係数時系列からなる特徴パラメータ時系列を生成する。なお、ケプストラム係数時系列の次数は１６次に限定されるものではない。

話者モデル生成部６は、特徴パラメータ生成部４で生成された特徴パラメータ時系列と登録話者のＩＤから話者モデルを生成する生成部である。記憶部７は、話者モデル生成部６で生成された話者モデルを記憶（登録）する記憶部である。本実施の形態では、話者モデルは予め記憶部７に登録されている。

話者同定部５は、特徴パラメータ生成部４で生成された特徴パラメータ時系列と予め記憶部７に登録されている話者モデルの距離を計算し、その距離に基づいて話者の同定を行い、その同定結果を話者認識結果として出力する。

このような話者同定部５は、図２に示すように、ＤＰマッチング部１１、話者間距離計算部１２及び同定部１３から構成されている。これらの各部により各種の手段（又はステップ）が実行される。

ＤＰマッチング部１１及び話者間距離計算部１２には、それぞれ特徴パラメータ時系列Ａ，Ｂが入力される。特徴パラメータ時系列Ａ，ＢはΔピッチ時系列を含んでいる。なお、本実施の形態では、特徴パラメータ時系列Ａは、マイク１から入力された音声波から生成された特徴データであり、特徴パラメータ時系列Ｂは、記憶部７に登録されている話者モデルの特徴データである。ここで、特徴パラメータ時系列Ａが第１音声特徴パラメータ時系列であり、特徴パラメータ時系列Ｂが第２音声特徴パラメータ時系列である。このような特徴パラメータ時系列Ａ，Ｂを下記に示す。

特徴パラメータ時系列
Ａ＝α_１，α_２，…，α_ｉ，…，α_Ｉ
Ｂ＝β_１，β_２，…，β_ｊ，…，β_Ｊ
特徴パラメータ
α_ｉ＝ｐ_ｉ，α_ｉ１，α_ｉ２，…，α_ｉｋ，…，α_ｉ１６
β_ｊ＝ｑ_ｊ，β_ｊ１，β_ｊ２，…，β_ｊｋ，…，β_ｊ１６

特徴パラメータα_ｉ，β_ｊは、有声区間の音声波をフレーム分析して得たΔピッチ（ｐ_ｉ，ｑ_ｊ）と１６次ケプストラム係数（α_ｉ１〜α_ｉ１６，β_ｊ１〜β_ｊ１６）とから構成されている。したがって、特徴パラメータ時系列Ａ，Ｂは、Δピッチ時系列と１６次ケプストラム係数時系列とから構成されている。ここで、相対的にΔピッチは音韻性情報を多く含んでおり、ケプストラム係数は個人性情報を多く含んでいる。

ＤＰマッチング部１１は、２つの特徴パラメータ時系列Ａ，Ｂの音韻同士が対応するようにＤＰマッチング処理を行う。このとき、ＤＰマッチングアルゴリズムでは、第１距離である音韻性距離ｄ（ｉ，ｊ）の総和Ｄ（Ｆ）が最小となるように最適化を行い、最適マッチング系列Ｆを求める。

ここで、最適マッチング系列Ｆは時間対応因子ｃ_ｎの系列として式（１）のように定義されており、各特徴パラメータ間の音韻性距離ｄ（ｉ，ｊ）はΔピッチを用いて下記の式（１）のように定義されており、総和Ｄ（Ｆ）は下記の式（３）のように定義されている。すなわち、最適マッチング系列Ｆ、音韻性距離ｄ（ｉ，ｊ）及びその総和Ｄ（Ｆ）は、それぞれ下記の式（１）、式（２）及び式（３）から求められる。

詳述すると、ＤＰマッチング部１１は、２つの特徴パラメータ時系列Ａ，ＢのそれぞれのΔピッチ時系列を用いて式（２）により音韻性距離ｄ（ｉ，ｊ）を求め、その総和Ｄ（Ｆ）を式（３）により求まる。このとき、式（３）及び式（１）により総和Ｄ（Ｆ）が最小になるように最適化を行って最適マッチング系列Ｆを求める。ここで、Δピッチ時系列が第１音声特徴パラメータ群である。

話者間距離計算部１２は、ＤＰマッチング部１１で求めた最適マッチング系列Ｆを用いて、第２距離である個人性距離ｅ（ｉ，ｊ）の総和Ｅ（Ｆ）を計算する。ここで、個人性距離ｅ（ｉ，ｊ）は下記の式（４）のように定義されており、総和Ｅ（Ｆ）は下記の式（５）のように定義されている。すなわち、個人性距離ｅ（ｉ，ｊ）及びその総和Ｅ（Ｆ）は、それぞれ下記の式（４）及び式（５）から求められる。

詳述すると、話者間距離計算部１２は、２つの特徴パラメータ時系列Ａ，Ｂのそれぞれのケプストラム係数時系列を用いて式（４）により個人性距離ｅ（ｉ，ｊ）を求め、最適マッチング系列Ｆに基づいて式（５）によりその総和Ｅ（Ｆ）を求める。本実施の形態では、ケプストラム係数時系列としては、１〜１６次のケプストラム係数時系列が用いられる。なお、ケプストラム係数時系列が第２音声特徴パラメータ群である。

同定部１３は、話者間距離計算部１２で求めた個人性距離の総和Ｅ（Ｆ）に基づいて話者の同定を行い、その同定結果を話者認識結果として出力する。ここでは、例えば、総和Ｅ（Ｆ）を閾値と比較して、話者同定の判定（話者照合）を行う。

このように本実施の形態によれば、２つの特徴パラメータ時系列Ａ，ＢのそれぞれのΔピッチ時系列を用いて音韻性距離の総和Ｄ（Ｆ）が最小となる最適マッチング系列Ｆが求められ、その最適マッチング系列と２つの特徴パラメータ時系列Ａ，Ｂのそれぞれのケプストラム係数時系列とを用いて個人性距離の総和Ｅ（Ｆ）が求められ、その総和Ｅ（Ｆ）に基づいて話者の同定が行われる。これにより、音声特徴パラメータ時系列Ａ，Ｂをマッチングする際の音韻分解性能と音声特徴パラメータ時系列間の距離を求める際の話者分解性能とが両立し、安定した認識性能を確保することが可能になるため、精度が高い話者認識を実現することができる。また、ＤＰパスの最適化に用いる距離と話者を判別するための距離とが異なる方法で求められるため、話者間の差異を十分に距離に反映することが可能になり、加えて同一話者間で異音韻間の対応付けを抑えることが可能になるので、精度が高い話者認識を実現することができる。

ここで、音韻性距離と個人性距離で使用する特徴パラメータが互いに独立している場合、特徴パラメータの変化量が多い部位にてマッチズレ（時間ズレ）が発生する可能性が高まる。この場合には、個人性距離ｅ（ｉ，ｊ）を下記の式（６）に示すように変形して、多少の“ならし”作用を施すことによってマッチズレを改善することができる。

また、上記の“ならし”作用を相互に行うことで、より安定した個人性距離を得ることができる。この場合には、個人性距離ｅ（ｉ，ｊ）を下記の式（７）に示すように変形する。ならし距離は双方の相加平均として定義されている。

本実施の形態においては、第１音声特徴パラメータ時系列である特徴パラメータ時系列Ａ及び第２音声特徴パラメータ時系列である特徴パラメータ時系列Ｂは、音声の基本周波数から得られる基本周波数情報時系列と、声道の共鳴情報から得られる共鳴情報時系列とから構成されており、第１音声特徴パラメータ群は基本周波数情報時系列であり、第２音声特徴パラメータ群は共鳴情報時系列であることから、確実に精度が高い話者認識を実現することができる。

本実施の形態においては、特徴パラメータ時系列Ａ及び特徴パラメータ時系列Ｂは、音声の抑揚情報から得られるΔピッチ時系列と、声道の共鳴情報から得られるケプストラム係数時系列とから構成されており、第１距離である音韻性距離ｄ及び第２距離である個人性距離ｅは、

から求められることから、より確実に精度が高い話者認識を実現することができる。

本実施の形態においては、特徴パラメータ時系列Ａのｉ番目の特徴パラメータα_ｉと特徴パラメータ時系列Ｂのｊ番目の特徴パラメータβ_ｊとの個人性距離ｅ（ｉ，ｊ）は、

から求められることから、マッチズレを改善することができる。

また、特徴パラメータ時系列Ａのｉ番目の特徴パラメータα_ｉと特徴パラメータ時系列Ｂのｊ番目の特徴パラメータβ_ｊとの個人性距離ｅ（ｉ，ｊ）は、

から求められるようにすると、より安定した音韻性距離を得ることができる。

本発明の第二の実施の形態を図３及び図４に基づいて説明する。図３は本実施の形態の話者認識装置が備える話者同定部の構成を示すブロック図、図４は特徴パラメータの構成を示す模式図である。

本実施の形態は、第一の実施の形態で示した話者同定部５の変形例である。なお、前述した第一の実施の形態と同じ部分は同じ符号で示し、話者同定部５以外の説明は省略する。また、本実施の形態では、特徴パラメータ生成部４は、有声区間の音声波をフレーム分析して１６次ケプストラム係数を求め、１６次ケプストラム係数からなる特徴パラメータ時系列を生成する。なお、ケプストラム係数時系列の次数は１６次に限定されるものではない。

図３に示すように、話者同定部５は、基本的に第一の実施の形態と同様であり、ＤＰマッチング部１１、話者間距離計算部１２及び同定部１３から構成されている。これらの各部により各種の手段（又はステップ）が実行される。

ＤＰマッチング部１１及び話者間距離計算部１２には、それぞれ特徴パラメータ時系列Ａ，Ｂが入力される。なお、本実施の形態では、特徴パラメータ時系列Ａは、マイク１から入力された音声波から生成された特徴データであり、特徴パラメータ時系列Ｂは、記憶部７に登録されている話者モデルの特徴データである。ここで、特徴パラメータ時系列Ａが第１音声特徴パラメータ時系列であり、特徴パラメータ時系列Ｂが第２音声特徴パラメータ時系列である。このような特徴パラメータ時系列Ａ，Ｂを下記に示す。

特徴パラメータ時系列
Ａ＝α_１，α_２，…，α_ｉ，…，α_Ｉ
Ｂ＝β_１，β_２，…，β_ｊ，…，β_Ｊ
特徴パラメータ
α_ｉ＝α_ｉ１，α_ｉ２，…，α_ｉｋ，…，α_ｉ１６
β_ｊ＝β_ｊ１，β_ｊ２，…，β_ｊｋ，…，β_ｊ１６

特徴パラメータα_ｉ，β_ｊは、音声区間の音声波をフレーム分析して得た１６次ケプストラム係数（α_ｉ１〜α_ｉ１６，β_ｊ１〜β_ｊ１６）から構成されている。したがって、特徴パラメータ時系列Ａ，Ｂは、１６次ケプストラム係数の時系列である。なお、ここでは、１〜８次までのケプストラム係数時系列が、低次のケプストラム係数時系列であり、ｍ〜１６（ｍ＞８）次のケプストラム係数時系列が、高次のケプストラム係数時系列である。

ここで、最適マッチング系列Ｆは時間対応因子ｃ_ｎの系列として式（１）のように定義されており、各特徴パラメータ間の音韻性距離ｄ（ｉ，ｊ）は低次のケプストラム係数を用いて下記の式（８）のように定義されており、総和Ｄ（Ｆ）は下記の式（３）のように定義されている。すなわち、最適マッチング系列Ｆ、音韻性距離ｄ（ｉ，ｊ）及びその総和Ｄ（Ｆ）は、それぞれ下記の式（１）、式（８）及び式（３）から求められる。

詳述すると、ＤＰマッチング部１１は、２つの特徴パラメータ時系列Ａ，Ｂのそれぞれの低次のケプストラム係数時系列（１〜８次までのケプストラム係数時系列）を用いて式（８）により音韻性距離ｄ（ｉ，ｊ）を求め、その総和Ｄ（Ｆ）を式（３）により求まる。このとき、式（３）及び式（１）により総和Ｄ（Ｆ）が最小になるように最適化を行って最適マッチング系列Ｆを求める。ここで、低次のケプストラム係数時系列が第１音声特徴パラメータ群である。

話者間距離計算部１２は、ＤＰマッチング部１１で求めた最適マッチング系列Ｆを用いて、個人性距離ｅ（ｉ，ｊ）の総和Ｅ（Ｆ）を計算する。ここで、個人性距離ｅ（ｉ，ｊ）は下記の式（４）のように定義されており、総和Ｅ（Ｆ）は下記の式（５）のように定義されている。すなわち、個人性距離ｅ（ｉ，ｊ）及びその総和Ｅ（Ｆ）は、それぞれ下記の式（４）及び式（５）から求められる。

詳述すると、話者間距離計算部１２は、２つの特徴パラメータ時系列Ａ，Ｂのそれぞれの高次のケプストラム係数時系列（ｍ〜１６（ｍ＞８）次のケプストラム係数時系列）を含んだケプストラム係数時系列を用いて式（４）により個人性距離ｅ（ｉ，ｊ）を求め、最適マッチング系列Ｆに基づいて式（５）によりその総和Ｅ（Ｆ）を求める。本実施の形態では、ケプストラム係数時系列としては、１〜１６次のケプストラム係数時系列が用いられる。ここで、一般的に、高次のケプストラム係数は、低次のケプストラム係数より個人性情報を多く含んでいる。なお、ケプストラム係数時系列が第２音声特徴パラメータ群である。

ここで、高次のケプストラム係数とは、図４に示すように、１〜Ｎ次までのケプストラム係数を有する特徴パラメータにおいて、１〜ｎ次のまでのケプストラム係数を低次のケプストラム係数（図４（ａ）中斜線部）とした場合、ｍ〜Ｎ（ｍ＞ｎ）次までのケプストラム係数である。この高次のケプストラム係数が時系列化されたものが、高次のケプストラム係数時系列である。したがって、高次のケプストラム係数時系列を含むケプストラム係数時系列は、ｍ〜Ｎ（ｍ＞ｎ）次までのケプストラム係数（図４（ｂ）中網線部）だけからなる時系列であっても良いし、あるいは、ｍ〜Ｎ（ｍ＞ｎ）次までのケプストラム係数及び低次のケプストラム係数の一部（図４（ｃ）中網線部）からなる時系列であっても良いし、さらには、１〜Ｎ次までのケプストラム係数（図４（ｄ）中網線部）からなる時系列であっても良い。なお、本実施の形態では、Ｎ＝１６及びｎ＝８と設定されているが、これに限るものではない。

このように本実施の形態によれば、２つの特徴パラメータ時系列Ａ，Ｂのそれぞれの低次のケプストラム係数時系列を用いて音韻性距離の総和Ｄ（Ｆ）が最小となる最適マッチング系列Ｆが求められ、その最適マッチング系列Ｆと２つの特徴パラメータ時系列Ａ，Ｂのそれぞれの高次のケプストラム係数時系列を含むケプストラム係数時系列とを用いて個人性距離の総和Ｅ（Ｆ）が求められ、その総和Ｅ（Ｆ）に基づいて話者の同定が行われる。これにより、音声特徴パラメータ時系列Ａ，Ｂをマッチングする際の音韻分解性能と音声特徴パラメータ時系列間の距離を求める際の話者分解性能とが両立し、安定した認識性能を確保することが可能になるため、精度が高い話者認識を実現することができる。また、ＤＰパスの最適化に用いる距離と話者を判別するための距離とが異なる方法で求められるため、話者間の差異を十分に距離に反映することが可能になり、加えて同一話者間で異音韻間の対応付けを抑えることが可能になるので、精度が高い話者認識を実現することができる。

本実施の形態においては、第１音声特徴パラメータ時系列である特徴パラメータ時系列Ａ及び第２音声特徴パラメータ時系列である特徴パラメータ時系列Ｂは、声道の共鳴情報から得られるケプストラム係数時系列であり、第１音声特徴パラメータ群は、ケプストラム係数時系列における低次のケプストラム係数時系列であり、第２音声特徴パラメータ群は、ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列であることから、確実に精度が高い話者認識を実現することができる。

本実施の形態においては、第１音声特徴パラメータ時系列である特徴パラメータ時系列Ａ及び第２音声特徴パラメータ時系列である特徴パラメータ時系列Ｂは、声道の共鳴情報から得られるケプストラム係数時系列であり、第１距離である音韻性距離ｄ及び第２距離である個人性距離ｅは、

から求められることから、確実に精度が高い話者認識を実現することができる。

なお、本発明は前述したような実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。すなわち、話者同定部５の機能（話者認識機能）をソフトウェアで実現可能である。図５は、本発明をソフトウェアによって実現する場合の話者認識装置１００の構成例を示すブロック図である。

図５に示すように、話者認識装置１００は、この話者認識装置１００の各部を集中的に制御するＣＰＵ１０１を備えており、このＣＰＵ１０１には、ＢＩＯＳ等を記憶したＲＯＭや各種データを書換え可能に記憶するＲＡＭで構成されるメモリ１０２がバス接続されており、マイクロコンピュータを構成している。また、ＣＰＵ１０１には、ＨＤＤ（Hard Disk Drive）１０３と、コンピュータ読み取り可能な記憶媒体であるＣＤ（Compact Disc）−ＲＯＭ１０４を読み取るＣＤ−ＲＯＭドライブ１０５と、話者認識装置１００とインターネット等との通信を司る通信装置１０６と、キーボード１０７と、ＣＲＴやＬＣＤ等の表示装置１０８と、マイク１とが、図示しないＩ／Ｏを介してバス接続されている。

ＣＤ−ＲＯＭ１０４等のコンピュータ読み取り可能な記憶媒体には、本発明の話者認識機能を実現するプログラムが記憶されており、このプログラムを話者認識装置１００にインストールすることにより、ＣＰＵ１０１に本発明の話者認識機能を実行させることができる。また、マイク１から入力された音声は一時的にＨＤＤ１０３等に格納される。そして、プログラムが起動されると、ＨＤＤ１０３等に一時保存された音声データが読み込まれ、話者認識処理が実行される。この話者認識処理は特徴パラメータ生成部４や話者同定部５等の各部と同様な機能を実現する。これにより、前述したような実施の形態の効果と同様の効果を得ることができる。

なお、記憶媒体としては、ＣＤ−ＲＯＭ１０４のみならず、ＤＶＤ等の各種の光ディスク、各種光磁気ディスク、フレキシブルディスク等の各種磁気ディスク、半導体メモリ等、各種方式のメディアを用いることができる。また、インターネット等のネットワークからプログラムをダウンロードし、ＨＤＤ１０３にインストールするようにしても良い。この場合には、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体となる。なお、プログラムは、所定のＯＳ（Operating System）上で動作するプログラムであっても良いし、その場合に後述の各種処理の一部の実行をＯＳに肩代わりさせるプログラムであっても良いし、ワープロソフト等所定のアプリケーションソフトやＯＳ等を構成する一群のプログラムファイルの一部として含まれているプログラムであっても良い。

本発明の第一の実施の形態の話者認識装置の構成を示すブロック図である。本発明の第一の実施の形態の話者認識装置が備える話者同定部の構成を示すブロック図である。本発明の第二の実施の形態の話者認識装置が備える話者同定部の構成を示すブロック図である。特徴パラメータの構成を示す模式図である。本発明をソフトウェアによって実現する場合の話者認識装置の構成例を示すブロック図である。従来の話者認識装置の一部の構成を示すブロック図である。

符号の説明

１００話者認識装置

Claims

第１音声特徴パラメータ時系列と第２音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、
音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第１音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第１距離を求め、その第１距離の総和を求める手段と、
前記第１距離の総和が最小となるように最適マッチング系列を求める手段と、
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第２音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第２距離を求め、その第２距離の総和を求める手段と、
求めた前記第２距離の総和に基づいて話者の同定を行う手段と、
を備えることを特徴とする話者認識装置。
第１音声特徴パラメータ時系列と第２音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、
声道の共鳴情報から得られるケプストラム係数時系列である前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第１音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第１距離を求め、その第１距離の総和を求める手段と、
前記第１距離の総和が最小となるように最適マッチング系列を求める手段と、
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第２音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第２距離を求め、その第２距離の総和を求める手段と、
求めた前記第２距離の総和に基づいて話者の同定を行う手段と、
を備えることを特徴とする話者認識装置。
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列は、音声の抑揚情報から得られるΔピッチ時系列と、声道の共鳴情報から得られるケプストラム係数時系列とから構成されており、
前記第１距離ｄ及び前記第２距離ｅは、

から求められる、
ことを特徴とする請求項１記載の話者認識装置。
前記第１音声特徴パラメータ時系列のｉ番目の音声特徴パラメータと前記第２音声特徴パラメータ時系列のｊ番目の音声特徴パラメータとの前記第２距離ｅ（ｉ，ｊ）は、

から求められる、
ことを特徴とする請求項１記載の話者認識装置。
前記第１音声特徴パラメータ時系列のｉ番目の音声特徴パラメータと前記第２音声特徴パラメータ時系列のｊ番目の音声特徴パラメータとの前記第２距離ｅ（ｉ，ｊ）は、

から求められる、
ことを特徴とする請求項１記載の話者認識装置。
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列は、声道の共鳴情報から得られるケプストラム係数時系列であり、
前記第１距離ｄ及び前記第２距離は、

から求められる、
ことを特徴とする請求項１記載の話者認識装置。
第１音声特徴パラメータ時系列と第２音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識機能を実行するコンピュータに読取可能なプログラムであって、
音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第１音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第１距離を求め、その第１距離の総和を求める機能と、
前記第１距離の総和が最小となるように最適マッチング系列を求める機能と、
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第２音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第２距離を求め、その第２距離の総和を求める機能と、
求めた前記第２距離の総和に基づいて話者の同定を行う機能と、
を前記コンピュータに実行させることを特徴とするプログラム。
第１音声特徴パラメータ時系列と第２音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識機能を実行するコンピュータに読取可能なプログラムであって、
声道の共鳴情報から得られるケプストラム係数時系列である前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第１音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第１距離を求め、その第１距離の総和を求める機能と、
前記第１距離の総和が最小となるように最適マッチング系列を求める機能と、
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第２音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第２距離を求め、その第２距離の総和を求める機能と、
求めた前記第２距離の総和に基づいて話者の同定を行う機能と、
を前記コンピュータに実行させることを特徴とするプログラム。
第１音声特徴パラメータ時系列と第２音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識方法において、
音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第１音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第１距離を求め、その第１距離の総和を求めるステップと、
前記第１距離の総和が最小となるように最適マッチング系列を求めるステップと、
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第２音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第２距離を求め、その第２距離の総和を求めるステップと、
求めた前記第２距離の総和に基づいて話者の同定を行うステップと、
を備えることを特徴とする話者認識方法。
第１音声特徴パラメータ時系列と第２音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識方法において、
声道の共鳴情報から得られるケプストラム係数時系列である前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第１音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第１距離を求め、その第１距離の総和を求めるステップと、
前記第１距離の総和が最小となるように最適マッチング系列を求めるステップと、
前記第１音声特徴パラメータ時系列及び前記第２音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第２音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第２距離を求め、その第２距離の総和を求めるステップと、
求めた前記第２距離の総和に基づいて話者の同定を行うステップと、
を備えることを特徴とする話者認識方法。