JP3927559B2 - 話者認識装置、プログラム及び話者認識方法 - Google Patents

話者認識装置、プログラム及び話者認識方法 Download PDF

Info

Publication number
JP3927559B2
JP3927559B2 JP2004163071A JP2004163071A JP3927559B2 JP 3927559 B2 JP3927559 B2 JP 3927559B2 JP 2004163071 A JP2004163071 A JP 2004163071A JP 2004163071 A JP2004163071 A JP 2004163071A JP 3927559 B2 JP3927559 B2 JP 3927559B2
Authority
JP
Japan
Prior art keywords
time series
feature parameter
speech feature
distance
sum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004163071A
Other languages
English (en)
Other versions
JP2005345598A (ja
Inventor
友成 柿野
智則 伊久美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2004163071A priority Critical patent/JP3927559B2/ja
Priority to CN200580003955A priority patent/CN100593194C/zh
Priority to PCT/JP2005/009963 priority patent/WO2005119654A1/ja
Publication of JP2005345598A publication Critical patent/JP2005345598A/ja
Application granted granted Critical
Publication of JP3927559B2 publication Critical patent/JP3927559B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声波に含まれる個人性情報を用いて話者を認識する話者認識装置、プログラム及び話者認識方法に関する。
話者認識装置としては、既定内容の音声により話者の認識(同定)を行うテキスト依存型の話者認識装置が提案されており、特に音声から抽出した特徴パラメータ時系列を比較して話者を認識する話者認識装置が提案されている。
話者認識装置においては、一般的に、認識に使用する音声波を数msec毎のフレームに分割し、そのフレーム毎に各種音響パラメータ、例えばケプストラム係数を求めて特徴パラメータ(音声特徴パラメータ)とし、これを全音声区間に渡って時系列としたデータを用いて話者認識(話者同定)を行う。
特徴パラメータは、一般的に、第一義的に音韻性情報を含んでおり、第二義的に個人性情報を含んでいる。このような特徴パラメータを個人性情報に依存する話者認識に使用する場合には、特徴パラメータから音韻性情報をキャンセルしなければ安定した認識性能を確保することができない。
そこで、従来のテキスト依存型の話者認識装置では、音韻性情報をキャンセルするため、比較する特徴パラメータ時系列の時間軸を非線形に縮尺する時間正規化手法(DPマッチング)を用いて同一音韻同士の距離を算出する(非特許文献1参照)。図6に示すように、DPマッチングを行うDPマッチング部200は、比較する2つの特徴パラメータ時系列A,B間の距離が最小となるようにマッチングパターン(DPパス)を求める。このとき、DPマッチングのアルゴリズム上、DPパスが求まると同時に最小化距離が算出される。この最小化距離に基づいて同定部201は話者の同定を行う。
古井貞熙著 "音声情報処理" 森北出版株式会社 P.91−93 第1版
しかしながら、従来のDPマッチングは、比較する2つの特徴パラメータ時系列間の距離の最小化を行うため、話者による音声の違いを求めることを目的する話者認識の手法としては適当でない。すなわち、話者に特有の単語内における時間構造を過剰な時間伸縮により破壊してしまい、結果として話者間の差異を距離に十分反映することができないという問題がある。これを解決するために時間伸縮に制限を設ける手法(整合窓)も行われているが、その手法では、逆に同一話者間で異音韻間の対応付けを行う危険性が発生してしまうという問題がある。これらの問題は、DPパスの最適化に用いる距離と話者を判別するための距離とを同一の計算方法で求めることに起因しており、精度が高い話者認識を行うことを困難にしている。
本発明の目的は、精度が高い話者認識を実現することである。
本発明は、第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める手段と、前記第1距離の総和が最小となるように最適マッチング系列を求める手段と、前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める手段と、求めた前記第2距離の総和に基づいて話者の同定を行う手段と、を備える。
したがって、第1音声特徴パラメータ時系列及び第2音声特徴パラメータ時系列のそれぞれの第1音声特徴パラメータ群を用いて第1距離の総和が最小となる最適マッチング系列が求められ、その最適マッチング系列に基づいて第1音声特徴パラメータ時系列及び第2音声特徴パラメータ時系列のそれぞれの第2音声特徴パラメータ群を用いて第2距離の総和が求められ、その第2距離の総和に基づいて話者の同定が行われる。これにより、音声特徴パラメータ時系列をマッチングする際の音韻分解性能と音声特徴パラメータ時系列間の距離を求める際の話者分解性能とが両立し、安定した認識性能を確保することが可能になる。
本発明によれば、精度が高い話者認識を実現することができる。
本発明の第一の実施の形態を図1及び図2に基づいて説明する。図1は本実施の形態の話者認識装置の構成を示すブロック図、図2は話者認識装置が備える話者同定部の構成を示すブロック図である。本実施の形態の話者認識装置は、テキスト依存型の話者認識装置の一例である。
図1に示すように、話者認識装置100は、マイク1、低域通過フィルタ2、A/D変換部3、特徴パラメータ生成部4、話者同定部5、話者モデル生成部6及び記憶部7から構成されている。
マイク1は、入力された音声を電気的アナログ信号に変換する変換部である。低域通過フィルタ2は、入力されたアナログ信号から所定の周波数以上の周波数をカットし出力するフィルタである。A/D変換部3は、入力されたアナログ信号を所定のサンプリング周波数、量子化ビット数でデジタル信号に変換する変換部である。これらのマイク1、低域通過フィルタ2、A/D変換部3により、音声を入力するための音声入力手段が構成されている。
特徴パラメータ生成部4は、入力されたデジタル信号から順次個人性情報を含む特徴パラメータを抽出し、特徴パラメータ時系列(特徴ベクトル列)を生成して出力する生成出力部である。本実施の形態では、特徴パラメータ生成部4は、有声区間の音声波をフレーム分析してΔピッチ及び16次ケプストラム係数を求め、Δピッチ時系列及び16次ケプストラム係数時系列からなる特徴パラメータ時系列を生成する。なお、ケプストラム係数時系列の次数は16次に限定されるものではない。
話者モデル生成部6は、特徴パラメータ生成部4で生成された特徴パラメータ時系列と登録話者のIDから話者モデルを生成する生成部である。記憶部7は、話者モデル生成部6で生成された話者モデルを記憶(登録)する記憶部である。本実施の形態では、話者モデルは予め記憶部7に登録されている。
話者同定部5は、特徴パラメータ生成部4で生成された特徴パラメータ時系列と予め記憶部7に登録されている話者モデルの距離を計算し、その距離に基づいて話者の同定を行い、その同定結果を話者認識結果として出力する。
このような話者同定部5は、図2に示すように、DPマッチング部11、話者間距離計算部12及び同定部13から構成されている。これらの各部により各種の手段(又はステップ)が実行される。
DPマッチング部11及び話者間距離計算部12には、それぞれ特徴パラメータ時系列A,Bが入力される。特徴パラメータ時系列A,BはΔピッチ時系列を含んでいる。なお、本実施の形態では、特徴パラメータ時系列Aは、マイク1から入力された音声波から生成された特徴データであり、特徴パラメータ時系列Bは、記憶部7に登録されている話者モデルの特徴データである。ここで、特徴パラメータ時系列Aが第1音声特徴パラメータ時系列であり、特徴パラメータ時系列Bが第2音声特徴パラメータ時系列である。このような特徴パラメータ時系列A,Bを下記に示す。
特徴パラメータ時系列
A=α,α,…,α,…,α
B=β,β,…,β,…,β
特徴パラメータ
α=p,αi1,αi2,…,αik,…,αi16
β=q,βj1,βj2,…,βjk,…,βj16
特徴パラメータα,βは、有声区間の音声波をフレーム分析して得たΔピッチ(p,q)と16次ケプストラム係数(αi1〜αi16,βj1〜βj16)とから構成されている。したがって、特徴パラメータ時系列A,Bは、Δピッチ時系列と16次ケプストラム係数時系列とから構成されている。ここで、相対的にΔピッチは音韻性情報を多く含んでおり、ケプストラム係数は個人性情報を多く含んでいる。
DPマッチング部11は、2つの特徴パラメータ時系列A,Bの音韻同士が対応するようにDPマッチング処理を行う。このとき、DPマッチングアルゴリズムでは、第1距離である音韻性距離d(i,j)の総和D(F)が最小となるように最適化を行い、最適マッチング系列Fを求める。
ここで、最適マッチング系列Fは時間対応因子cの系列として式(1)のように定義されており、各特徴パラメータ間の音韻性距離d(i,j)はΔピッチを用いて下記の式(1)のように定義されており、総和D(F)は下記の式(3)のように定義されている。すなわち、最適マッチング系列F、音韻性距離d(i,j)及びその総和D(F)は、それぞれ下記の式(1)、式(2)及び式(3)から求められる。
Figure 0003927559
Figure 0003927559
Figure 0003927559
詳述すると、DPマッチング部11は、2つの特徴パラメータ時系列A,BのそれぞれのΔピッチ時系列を用いて式(2)により音韻性距離d(i,j)を求め、その総和D(F)を式(3)により求まる。このとき、式(3)及び式(1)により総和D(F)が最小になるように最適化を行って最適マッチング系列Fを求める。ここで、Δピッチ時系列が第1音声特徴パラメータ群である。
話者間距離計算部12は、DPマッチング部11で求めた最適マッチング系列Fを用いて、第2距離である個人性距離e(i,j)の総和E(F)を計算する。ここで、個人性距離e(i,j)は下記の式(4)のように定義されており、総和E(F)は下記の式(5)のように定義されている。すなわち、個人性距離e(i,j)及びその総和E(F)は、それぞれ下記の式(4)及び式(5)から求められる。
Figure 0003927559
Figure 0003927559
詳述すると、話者間距離計算部12は、2つの特徴パラメータ時系列A,Bのそれぞれのケプストラム係数時系列を用いて式(4)により個人性距離e(i,j)を求め、最適マッチング系列Fに基づいて式(5)によりその総和E(F)を求める。本実施の形態では、ケプストラム係数時系列としては、1〜16次のケプストラム係数時系列が用いられる。なお、ケプストラム係数時系列が第2音声特徴パラメータ群である。
同定部13は、話者間距離計算部12で求めた個人性距離の総和E(F)に基づいて話者の同定を行い、その同定結果を話者認識結果として出力する。ここでは、例えば、総和E(F)を閾値と比較して、話者同定の判定(話者照合)を行う。
このように本実施の形態によれば、2つの特徴パラメータ時系列A,BのそれぞれのΔピッチ時系列を用いて音韻性距離の総和D(F)が最小となる最適マッチング系列Fが求められ、その最適マッチング系列と2つの特徴パラメータ時系列A,Bのそれぞれのケプストラム係数時系列とを用いて個人性距離の総和E(F)が求められ、その総和E(F)に基づいて話者の同定が行われる。これにより、音声特徴パラメータ時系列A,Bをマッチングする際の音韻分解性能と音声特徴パラメータ時系列間の距離を求める際の話者分解性能とが両立し、安定した認識性能を確保することが可能になるため、精度が高い話者認識を実現することができる。また、DPパスの最適化に用いる距離と話者を判別するための距離とが異なる方法で求められるため、話者間の差異を十分に距離に反映することが可能になり、加えて同一話者間で異音韻間の対応付けを抑えることが可能になるので、精度が高い話者認識を実現することができる。
ここで、音韻性距離と個人性距離で使用する特徴パラメータが互いに独立している場合、特徴パラメータの変化量が多い部位にてマッチズレ(時間ズレ)が発生する可能性が高まる。この場合には、個人性距離e(i,j)を下記の式(6)に示すように変形して、多少の“ならし”作用を施すことによってマッチズレを改善することができる。
Figure 0003927559
また、上記の“ならし”作用を相互に行うことで、より安定した個人性距離を得ることができる。この場合には、個人性距離e(i,j)を下記の式(7)に示すように変形する。ならし距離は双方の相加平均として定義されている。
Figure 0003927559
本実施の形態においては、第1音声特徴パラメータ時系列である特徴パラメータ時系列A及び第2音声特徴パラメータ時系列である特徴パラメータ時系列Bは、音声の基本周波数から得られる基本周波数情報時系列と、声道の共鳴情報から得られる共鳴情報時系列とから構成されており、第1音声特徴パラメータ群は基本周波数情報時系列であり、第2音声特徴パラメータ群は共鳴情報時系列であることから、確実に精度が高い話者認識を実現することができる。
本実施の形態においては、特徴パラメータ時系列A及び特徴パラメータ時系列Bは、音声の抑揚情報から得られるΔピッチ時系列と、声道の共鳴情報から得られるケプストラム係数時系列とから構成されており、第1距離である音韻性距離d及び第2距離である個人性距離eは、
Figure 0003927559
から求められることから、より確実に精度が高い話者認識を実現することができる。
本実施の形態においては、特徴パラメータ時系列Aのi番目の特徴パラメータαと特徴パラメータ時系列Bのj番目の特徴パラメータβとの個人性距離e(i,j)は、
Figure 0003927559
から求められることから、マッチズレを改善することができる。
また、特徴パラメータ時系列Aのi番目の特徴パラメータαと特徴パラメータ時系列Bのj番目の特徴パラメータβとの個人性距離e(i,j)は、
Figure 0003927559
から求められるようにすると、より安定した音韻性距離を得ることができる。
本発明の第二の実施の形態を図3及び図4に基づいて説明する。図3は本実施の形態の話者認識装置が備える話者同定部の構成を示すブロック図、図4は特徴パラメータの構成を示す模式図である。
本実施の形態は、第一の実施の形態で示した話者同定部5の変形例である。なお、前述した第一の実施の形態と同じ部分は同じ符号で示し、話者同定部5以外の説明は省略する。また、本実施の形態では、特徴パラメータ生成部4は、有声区間の音声波をフレーム分析して16次ケプストラム係数を求め、16次ケプストラム係数からなる特徴パラメータ時系列を生成する。なお、ケプストラム係数時系列の次数は16次に限定されるものではない。
図3に示すように、話者同定部5は、基本的に第一の実施の形態と同様であり、DPマッチング部11、話者間距離計算部12及び同定部13から構成されている。これらの各部により各種の手段(又はステップ)が実行される。
DPマッチング部11及び話者間距離計算部12には、それぞれ特徴パラメータ時系列A,Bが入力される。なお、本実施の形態では、特徴パラメータ時系列Aは、マイク1から入力された音声波から生成された特徴データであり、特徴パラメータ時系列Bは、記憶部7に登録されている話者モデルの特徴データである。ここで、特徴パラメータ時系列Aが第1音声特徴パラメータ時系列であり、特徴パラメータ時系列Bが第2音声特徴パラメータ時系列である。このような特徴パラメータ時系列A,Bを下記に示す。
特徴パラメータ時系列
A=α,α,…,α,…,α
B=β,β,…,β,…,β
特徴パラメータ
α=αi1,αi2,…,αik,…,αi16
β=βj1,βj2,…,βjk,…,βj16
特徴パラメータα,βは、音声区間の音声波をフレーム分析して得た16次ケプストラム係数(αi1〜αi16,βj1〜βj16)から構成されている。したがって、特徴パラメータ時系列A,Bは、16次ケプストラム係数の時系列である。なお、ここでは、1〜8次までのケプストラム係数時系列が、低次のケプストラム係数時系列であり、m〜16(m>8)次のケプストラム係数時系列が、高次のケプストラム係数時系列である。
DPマッチング部11は、2つの特徴パラメータ時系列A,Bの音韻同士が対応するようにDPマッチング処理を行う。このとき、DPマッチングアルゴリズムでは、第1距離である音韻性距離d(i,j)の総和D(F)が最小となるように最適化を行い、最適マッチング系列Fを求める。
ここで、最適マッチング系列Fは時間対応因子cの系列として式(1)のように定義されており、各特徴パラメータ間の音韻性距離d(i,j)は低次のケプストラム係数を用いて下記の式(8)のように定義されており、総和D(F)は下記の式(3)のように定義されている。すなわち、最適マッチング系列F、音韻性距離d(i,j)及びその総和D(F)は、それぞれ下記の式(1)、式(8)及び式(3)から求められる。
Figure 0003927559
Figure 0003927559
Figure 0003927559
詳述すると、DPマッチング部11は、2つの特徴パラメータ時系列A,Bのそれぞれの低次のケプストラム係数時系列(1〜8次までのケプストラム係数時系列)を用いて式(8)により音韻性距離d(i,j)を求め、その総和D(F)を式(3)により求まる。このとき、式(3)及び式(1)により総和D(F)が最小になるように最適化を行って最適マッチング系列Fを求める。ここで、低次のケプストラム係数時系列が第1音声特徴パラメータ群である。
話者間距離計算部12は、DPマッチング部11で求めた最適マッチング系列Fを用いて、個人性距離e(i,j)の総和E(F)を計算する。ここで、個人性距離e(i,j)は下記の式(4)のように定義されており、総和E(F)は下記の式(5)のように定義されている。すなわち、個人性距離e(i,j)及びその総和E(F)は、それぞれ下記の式(4)及び式(5)から求められる。
Figure 0003927559
Figure 0003927559
詳述すると、話者間距離計算部12は、2つの特徴パラメータ時系列A,Bのそれぞれの高次のケプストラム係数時系列(m〜16(m>8)次のケプストラム係数時系列)を含んだケプストラム係数時系列を用いて式(4)により個人性距離e(i,j)を求め、最適マッチング系列Fに基づいて式(5)によりその総和E(F)を求める。本実施の形態では、ケプストラム係数時系列としては、1〜16次のケプストラム係数時系列が用いられる。ここで、一般的に、高次のケプストラム係数は、低次のケプストラム係数より個人性情報を多く含んでいる。なお、ケプストラム係数時系列が第2音声特徴パラメータ群である。
ここで、高次のケプストラム係数とは、図4に示すように、1〜N次までのケプストラム係数を有する特徴パラメータにおいて、1〜n次のまでのケプストラム係数を低次のケプストラム係数(図4(a)中斜線部)とした場合、m〜N(m>n)次までのケプストラム係数である。この高次のケプストラム係数が時系列化されたものが、高次のケプストラム係数時系列である。したがって、高次のケプストラム係数時系列を含むケプストラム係数時系列は、m〜N(m>n)次までのケプストラム係数(図4(b)中網線部)だけからなる時系列であっても良いし、あるいは、m〜N(m>n)次までのケプストラム係数及び低次のケプストラム係数の一部(図4(c)中網線部)からなる時系列であっても良いし、さらには、1〜N次までのケプストラム係数(図4(d)中網線部)からなる時系列であっても良い。なお、本実施の形態では、N=16及びn=8と設定されているが、これに限るものではない。
同定部13は、話者間距離計算部12で求めた個人性距離の総和E(F)に基づいて話者の同定を行い、その同定結果を話者認識結果として出力する。ここでは、例えば、総和E(F)を閾値と比較して、話者同定の判定(話者照合)を行う。
このように本実施の形態によれば、2つの特徴パラメータ時系列A,Bのそれぞれの低次のケプストラム係数時系列を用いて音韻性距離の総和D(F)が最小となる最適マッチング系列Fが求められ、その最適マッチング系列Fと2つの特徴パラメータ時系列A,Bのそれぞれの高次のケプストラム係数時系列を含むケプストラム係数時系列とを用いて個人性距離の総和E(F)が求められ、その総和E(F)に基づいて話者の同定が行われる。これにより、音声特徴パラメータ時系列A,Bをマッチングする際の音韻分解性能と音声特徴パラメータ時系列間の距離を求める際の話者分解性能とが両立し、安定した認識性能を確保することが可能になるため、精度が高い話者認識を実現することができる。また、DPパスの最適化に用いる距離と話者を判別するための距離とが異なる方法で求められるため、話者間の差異を十分に距離に反映することが可能になり、加えて同一話者間で異音韻間の対応付けを抑えることが可能になるので、精度が高い話者認識を実現することができる。
本実施の形態においては、第1音声特徴パラメータ時系列である特徴パラメータ時系列A及び第2音声特徴パラメータ時系列である特徴パラメータ時系列Bは、声道の共鳴情報から得られるケプストラム係数時系列であり、第1音声特徴パラメータ群は、ケプストラム係数時系列における低次のケプストラム係数時系列であり、第2音声特徴パラメータ群は、ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列であることから、確実に精度が高い話者認識を実現することができる。
本実施の形態においては、第1音声特徴パラメータ時系列である特徴パラメータ時系列A及び第2音声特徴パラメータ時系列である特徴パラメータ時系列Bは、声道の共鳴情報から得られるケプストラム係数時系列であり、第1距離である音韻性距離d及び第2距離である個人性距離eは、
Figure 0003927559
から求められることから、確実に精度が高い話者認識を実現することができる。
なお、本発明は前述したような実施の形態に示す特定のハードウェア構成に限定されるものではなく、ソフトウェアによっても実現可能である。すなわち、話者同定部5の機能(話者認識機能)をソフトウェアで実現可能である。図5は、本発明をソフトウェアによって実現する場合の話者認識装置100の構成例を示すブロック図である。
図5に示すように、話者認識装置100は、この話者認識装置100の各部を集中的に制御するCPU101を備えており、このCPU101には、BIOS等を記憶したROMや各種データを書換え可能に記憶するRAMで構成されるメモリ102がバス接続されており、マイクロコンピュータを構成している。また、CPU101には、HDD(Hard Disk Drive)103と、コンピュータ読み取り可能な記憶媒体であるCD(Compact Disc)−ROM104を読み取るCD−ROMドライブ105と、話者認識装置100とインターネット等との通信を司る通信装置106と、キーボード107と、CRTやLCD等の表示装置108と、マイク1とが、図示しないI/Oを介してバス接続されている。
CD−ROM104等のコンピュータ読み取り可能な記憶媒体には、本発明の話者認識機能を実現するプログラムが記憶されており、このプログラムを話者認識装置100にインストールすることにより、CPU101に本発明の話者認識機能を実行させることができる。また、マイク1から入力された音声は一時的にHDD103等に格納される。そして、プログラムが起動されると、HDD103等に一時保存された音声データが読み込まれ、話者認識処理が実行される。この話者認識処理は特徴パラメータ生成部4や話者同定部5等の各部と同様な機能を実現する。これにより、前述したような実施の形態の効果と同様の効果を得ることができる。
なお、記憶媒体としては、CD−ROM104のみならず、DVD等の各種の光ディスク、各種光磁気ディスク、フレキシブルディスク等の各種磁気ディスク、半導体メモリ等、各種方式のメディアを用いることができる。また、インターネット等のネットワークからプログラムをダウンロードし、HDD103にインストールするようにしても良い。この場合には、送信側のサーバでプログラムを記憶している記憶装置も、この発明の記憶媒体となる。なお、プログラムは、所定のOS(Operating System)上で動作するプログラムであっても良いし、その場合に後述の各種処理の一部の実行をOSに肩代わりさせるプログラムであっても良いし、ワープロソフト等所定のアプリケーションソフトやOS等を構成する一群のプログラムファイルの一部として含まれているプログラムであっても良い。
本発明の第一の実施の形態の話者認識装置の構成を示すブロック図である。 本発明の第一の実施の形態の話者認識装置が備える話者同定部の構成を示すブロック図である。 本発明の第二の実施の形態の話者認識装置が備える話者同定部の構成を示すブロック図である。 特徴パラメータの構成を示す模式図である。 本発明をソフトウェアによって実現する場合の話者認識装置の構成例を示すブロック図である。 従来の話者認識装置の一部の構成を示すブロック図である。
符号の説明
100 話者認識装置

Claims (10)

  1. 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、
    音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める手段と、
    前記第1距離の総和が最小となるように最適マッチング系列を求める手段と、
    前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める手段と、
    求めた前記第2距離の総和に基づいて話者の同定を行う手段と、
    を備えることを特徴とする話者認識装置。
  2. 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識装置において、
    声道の共鳴情報から得られるケプストラム係数時系列である前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める手段と、
    前記第1距離の総和が最小となるように最適マッチング系列を求める手段と、
    前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める手段と、
    求めた前記第2距離の総和に基づいて話者の同定を行う手段と、
    を備えることを特徴とする話者認識装置。
  3. 前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列は、音声の抑揚情報から得られるΔピッチ時系列と、声道の共鳴情報から得られるケプストラム係数時系列とから構成されており、
    前記第1距離d及び前記第2距離eは、
    Figure 0003927559
    から求められる、
    ことを特徴とする請求項1記載の話者認識装置。
  4. 前記第1音声特徴パラメータ時系列のi番目の音声特徴パラメータと前記第2音声特徴パラメータ時系列のj番目の音声特徴パラメータとの前記第2距離e(i,j)は、
    Figure 0003927559
    から求められる、
    ことを特徴とする請求項1記載の話者認識装置。
  5. 前記第1音声特徴パラメータ時系列のi番目の音声特徴パラメータと前記第2音声特徴パラメータ時系列のj番目の音声特徴パラメータとの前記第2距離e(i,j)は、
    Figure 0003927559
    から求められる、
    ことを特徴とする請求項1記載の話者認識装置。
  6. 前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列は、声道の共鳴情報から得られるケプストラム係数時系列であり、
    前記第1距離d及び前記第2距離は、
    Figure 0003927559
    から求められる、
    ことを特徴とする請求項1記載の話者認識装置。
  7. 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識機能を実行するコンピュータに読取可能なプログラムであって、
    音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める機能と、
    前記第1距離の総和が最小となるように最適マッチング系列を求める機能と、
    前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める機能と、
    求めた前記第2距離の総和に基づいて話者の同定を行う機能と、
    を前記コンピュータに実行させることを特徴とするプログラム。
  8. 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識機能を実行するコンピュータに読取可能なプログラムであって、
    声道の共鳴情報から得られるケプストラム係数時系列である前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求める機能と、
    前記第1距離の総和が最小となるように最適マッチング系列を求める機能と、
    前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求める機能と、
    求めた前記第2距離の総和に基づいて話者の同定を行う機能と、
    を前記コンピュータに実行させることを特徴とするプログラム。
  9. 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識方法において、
    音声の基本周波数から得られる基本周波数情報時系列と声道の共鳴情報から得られる共鳴情報時系列とからそれぞれ構成されている前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記基本周波数情報時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求めるステップと、
    前記第1距離の総和が最小となるように最適マッチング系列を求めるステップと、
    前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記共鳴情報時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求めるステップと、
    求めた前記第2距離の総和に基づいて話者の同定を行うステップと、
    を備えることを特徴とする話者認識方法。
  10. 第1音声特徴パラメータ時系列と第2音声特徴パラメータ時系列との時系列間の距離に基づいて話者の認識を行う話者認識方法において、
    声道の共鳴情報から得られるケプストラム係数時系列である前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列の各音声特徴パラメータを相互に対応付けるマッチング系列を設定し、それぞれの前記ケプストラム係数時系列における低次のケプストラム係数時系列である第1音声特徴パラメータ群を用いて前記マッチング系列に従い各音声特徴パラメータ間の第1距離を求め、その第1距離の総和を求めるステップと、
    前記第1距離の総和が最小となるように最適マッチング系列を求めるステップと、
    前記第1音声特徴パラメータ時系列及び前記第2音声特徴パラメータ時系列のそれぞれの前記ケプストラム係数時系列における高次のケプストラム係数時系列を含むケプストラム係数時系列である第2音声特徴パラメータ群を用いて前記最適マッチング系列に従い各音声特徴パラメータ間の第2距離を求め、その第2距離の総和を求めるステップと、
    求めた前記第2距離の総和に基づいて話者の同定を行うステップと、
    を備えることを特徴とする話者認識方法。
JP2004163071A 2004-06-01 2004-06-01 話者認識装置、プログラム及び話者認識方法 Expired - Lifetime JP3927559B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004163071A JP3927559B2 (ja) 2004-06-01 2004-06-01 話者認識装置、プログラム及び話者認識方法
CN200580003955A CN100593194C (zh) 2004-06-01 2005-05-31 说话人识别装置、及说话人识别方法
PCT/JP2005/009963 WO2005119654A1 (ja) 2004-06-01 2005-05-31 話者認識装置、プログラム及び話者認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004163071A JP3927559B2 (ja) 2004-06-01 2004-06-01 話者認識装置、プログラム及び話者認識方法

Publications (2)

Publication Number Publication Date
JP2005345598A JP2005345598A (ja) 2005-12-15
JP3927559B2 true JP3927559B2 (ja) 2007-06-13

Family

ID=35463096

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004163071A Expired - Lifetime JP3927559B2 (ja) 2004-06-01 2004-06-01 話者認識装置、プログラム及び話者認識方法

Country Status (3)

Country Link
JP (1) JP3927559B2 (ja)
CN (1) CN100593194C (ja)
WO (1) WO2005119654A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102354496B (zh) * 2011-07-01 2013-08-21 中山大学 一种基于psm变调的语音识别及其还原方法及其装置
CN103730121B (zh) * 2013-12-24 2016-08-24 中山大学 一种伪装声音的识别方法及装置
JP6946499B2 (ja) * 2020-03-06 2021-10-06 株式会社日立製作所 発話支援装置、発話支援方法、および発話支援プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792678B2 (ja) * 1985-12-17 1995-10-09 株式会社東芝 音声パタ−ンマツチング方式
JP2543528B2 (ja) * 1987-06-29 1996-10-16 沖電気工業株式会社 音声認識装置
US5522012A (en) * 1994-02-28 1996-05-28 Rutgers University Speaker identification and verification system
JPH0786759B2 (ja) * 1994-03-14 1995-09-20 株式会社東芝 音声認識用辞書学習方法
JPH1020883A (ja) * 1996-07-02 1998-01-23 Fujitsu Ltd ユーザ認証装置
JPH1097274A (ja) * 1996-09-24 1998-04-14 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
JP2001034294A (ja) * 1999-07-21 2001-02-09 Matsushita Electric Ind Co Ltd 話者照合装置

Also Published As

Publication number Publication date
CN1914667A (zh) 2007-02-14
WO2005119654A1 (ja) 2005-12-15
CN100593194C (zh) 2010-03-03
JP2005345598A (ja) 2005-12-15

Similar Documents

Publication Publication Date Title
JP6622505B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2010116549A1 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US20190392839A1 (en) System for creating speaker model, recognition system, computer program product, and controller
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JP2022516784A (ja) 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法
JP6680933B2 (ja) 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP2018084604A (ja) クロスリンガル音声合成用モデル学習装置、クロスリンガル音声合成装置、クロスリンガル音声合成用モデル学習方法、プログラム
Gutkin et al. Building statistical parametric multi-speaker synthesis for bangladeshi bangla
JP2009128490A (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
JP3927559B2 (ja) 話者認識装置、プログラム及び話者認識方法
KR102198597B1 (ko) 뉴럴 보코더 및 화자 적응형 모델을 구현하기 위한 뉴럴 보코더의 훈련 방법
KR102198598B1 (ko) 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP6367773B2 (ja) 音声強調装置、音声強調方法及び音声強調プログラム
JP2005345599A (ja) 話者認識装置、プログラム及び話者認識方法
JP6167063B2 (ja) 発話リズム変換行列生成装置、発話リズム変換装置、発話リズム変換行列生成方法、及びそのプログラム
JP6000326B2 (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP2017134321A (ja) 信号処理方法、信号処理装置及び信号処理プログラム
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP2021099454A (ja) 音声合成装置、音声合成プログラム及び音声合成方法
Shahnawazuddin et al. A fast adaptation approach for enhanced automatic recognition of children’s speech with mismatched acoustic models

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070302

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100309

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110309

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120309

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130309

Year of fee payment: 6