JP4847581B2 - 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム - Google Patents
話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム Download PDFInfo
- Publication number
- JP4847581B2 JP4847581B2 JP2009508804A JP2009508804A JP4847581B2 JP 4847581 B2 JP4847581 B2 JP 4847581B2 JP 2009508804 A JP2009508804 A JP 2009508804A JP 2009508804 A JP2009508804 A JP 2009508804A JP 4847581 B2 JP4847581 B2 JP 4847581B2
- Authority
- JP
- Japan
- Prior art keywords
- model
- speaker
- recognition
- feature data
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 38
- 238000013500 data storage Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 description 171
- 230000006978 adaptation Effects 0.000 description 51
- 238000000605 extraction Methods 0.000 description 25
- 239000000284 extract Substances 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Testing And Monitoring For Control Systems (AREA)
Description
【技術分野】
【0001】
本願は、発話された発話音声の音響的特徴を反映した音響モデルを用いて、発話した話者を認識する話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラムの技術分野に関する。
【背景技術】
【0002】
現在、音声を発した人間(話者)が誰であるかを認識する話者認識装置が開発されており、このような話者認識装置では、人間が所定の語句の音声を発すると、その音声をマイクロフォンにより電気信号に変換して得られる音声情報から話者を認識する構成となっている。
【0003】
また、このような話者認識処理を、その話者認識装置が組み込まれたユーザ適応型のシステムやセキュリティーシステム等に適応すれば、暗証番号の手入力を要することなく本人を特定したり、鍵を用いた施解錠を要することなく施設の安全性等を保つこと等が可能となる。
【0004】
ここで、このような話者認識装置に用いられる話者認識方法としては、例えば、HMM(Hidden Markov Model(隠れマルコフモデル))やGMM(Gaussian Mixture Model(ガウス混合モデル))等の確率モデルを利用して話者認識を行う方法(以下、単に「話者認識」という)がある。
【0005】
これらの話者認識では、初めに本人が発話した音声を学習用のデータとして、その音声特徴を示すスペクトルパターンの集合を音響モデル(以下、単に「モデル」ともいう)としてモデル化して話者の登録を行う(以下、登録されている話者を、「登録話者」という)。そして、話者認識装置を、音声を発した話者が、登録してある複数の話者のうち誰であるかを判定する話者識別装置として用いる場合には、各モデルと話者の発話音声の特徴との間における類似度(尤度)を夫々算出し、この算出された類似度が最も高いモデルの登録話者であると認定する。また、話者認識装置を、音声を発した話者が、登録話者本人であるか判定する話者照合装置として用いる場合には、登録されているモデルと話者の発話音声の特徴との間における類似度が所定の閾値以上であるときに登録話者本人であると認定する。
【0006】
このように、上述の話者認識においては、登録されているモデルと話者の発話音声の特徴とを比較することにより話者を認識するため、認識精度を高い水準で保つためには、如何にして質の良いモデルを構築するかが重要となる。
【0007】
また、人間の発話音声の特徴は発話の時期により変動するものであるため、同じモデルを使用し続けていると、時間の経過とともに話者の認識性能が低下するという問題がある。そこで、こうした発話音声の特徴の変化に対応するためには、モデルを話者に適応させて随時更新する方法が効果的である。
【0008】
例えば、特許文献1には、システムの管理者の手動またはシステム内の時計を利用し、2〜3ヶ月毎の周期で、発話されたそのときの音声の特徴パラメータを使用し、ベイズ推定に基づいてHMMを更新する技術が開示されている。
【特許文献1】
特開平9−198084号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、上述した特許文献1に記載の技術では、時間が経過するにつれて、発話時期が大きく異なる多くの発話音声を用いてモデルが構築されることとなり、これにより認識性能が劣化してしまうという問題が生じる。つまり、上述したように、人間の発話音声の特徴は発話の時期により変動することから、数ヶ月毎に、そのときに発せられた音声の特徴がモデルに反映されていくと、あらゆる特徴がモデルに盛り込まれ、話者本人の発話音声の特徴の分布が広がりすぎたモデルが構築されて、時間の経過とともに認識性能が劣化する事態に陥ることとなる。
【0010】
本願は、以上の点に鑑みてなされたものであり、その課題の一例は、時間の経過とともに変化していく話者本人の発話音声の特徴に対応して、精度良く話者を認識することができる話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラムを提供することを目的とする。
【課題を解決するための手段】
[0011]
上記課題を解決するために、本願の一つの観点では、話者の認識に用いられる音響モデルである認識用モデルと、当該認識用モデルの生成に用いられる音響モデルである生成用モデルと、を記憶するモデル記憶手段と、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、前記生成された特徴データと前記認識用モデルとを比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段と、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段と、を備え、前記モデル更新手段は、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段と、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段と、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段と、を備え、前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
[0012]
本願の他の観点では、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定工程と、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新工程と、を備え、前記モデル更新工程は、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御工程と、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成工程と、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御工程と、を備え、前記話者判定工程は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
[0013]
本願の更に他の観点では、コンピュータによって音響モデルを更新するための音響モデル更新処理プログラムであって、前記コンピュータを、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段、として機能させ、前記モデル更新手段として機能する前記コンピュータを、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段、として機能させ、前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
【図面の簡単な説明】
[0014]
[図1]第1実施形態に係る話者認識装置100の概要構成の一例を示すブロック図である。
[図2]第1実施形態に係る話者認識装置100の話者登録処理の流れの一例を示すフローチャートである。
【図3】第1実施形態に係る話者認識装置100の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【図4】第2実施形態に係る話者認識装置200の概要構成の一例を示すブロック図である。
【図5】第2実施形態に係る話者認識装置200の話者登録処理の流れの一例を示すフローチャートである。
【図6】第2実施形態に係る話者認識装置200の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【符号の説明】
【0015】
1 マイクロフォン
2 音声処理部
3 音声部分抽出部
4 音声特徴量変換部
5、6 スイッチ
7 処理選択制御部
8、8b 話者モデル作成部
9、9b 登録話者モデル記憶部
10、10b 話者認識部
11、11b 適応音声特徴量記憶部
12、12b モデル適応更新部
100、200 話者認識装置
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して本願の最良の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、話者認識装置に対して本願を適用した場合の実施形態である。
【0017】
[1.第1実施形態]
[1.1 話者認識装置の構成及び機能]
先ず、第1実施形態に係る話者認識装置100の構成及び機能について、図1を用いて説明する。
【0018】
図1は、第1実施形態に係る話者認識装置100の概要構成の一例を示すブロック図である。
【0019】
本実施形態に係る話者認識装置100は、話者の発した音声に基づいて、この話者が予め登録されている話者(登録話者)であるか否かを認識する装置である。
【0020】
話者認識装置100は、話者登録時においては、話者の発した音声を学習し、当該話者の発話音声の特徴を反映した音響モデルとして、初期話者モデル(生成用モデルの一例)と適応話者モデル(認識用モデルの一例)を作成するようになっている。ここで、話者登録時における初期話者モデルと適応話者モデルは同一のモデルである。
【0021】
その後、話者認識装置100は、話者認識時において、話者の発した音声に基づいて話者認識処理を行うとともに、話者が登録話者に該当する場合には、現時点から過去に遡って予め設定された個数分(以下、この予め設定された個数をKとする)の発話音声から抽出された音声特徴量(特徴データの一例)を用いて初期発話モデルに対して話者適応を施して、適応話者モデルを更新するようになっている。
【0022】
上述したように、人間の発話音声の特徴は発話の時期により変動するため、精度良く話者認識を行うためには、随時、話者が発した音声の音声特徴量を用いて話者認識用のモデルを適応更新する必要がある。しかしながら、古い時期に話者が発した音声の特徴が反映されたままのモデルでは、時間が経過するにつれて、話者認識の性能が劣化する。
【0023】
そこで、本実施形態に係る話者認識装置100においては、話者認識時に話者が発した音声の音声特徴量を、現時点から過去に遡ってK発話分(以下、「最新のK発話分」ともいう)までを記憶しておき、初期発話モデルの適応(適応話者モデルの作成)に用いる音声特徴量を、この最新のK発話分に限定することで、古い時期の音声特徴量が適応話者モデルに反映されることを排除し、話者認識の性能劣化を防止することとした。
【0024】
ここで、モデルの適応に用いられる音声特徴量の個数Kは任意であり、話者認識装置100の利用態様や外部環境等に応じて変わるものであるが、その最適値は、実験的に求めることができる。例えば、多数の話者の音声特徴量を用いて、Kの設定を変えながら、本人誤棄却率(登録話者本人を登録話者ではないと誤って認識する確率)と、他人誤受理率(登録話者本人ではない話者を登録話者であると誤って認識する確率)とを求め、これらの誤り率のバランスがとれたKを採用すれば良い。
【0025】
図1に示すように、話者認識装置100は、話者の発話音声を入力するマイクロフォン1と、マイクロフォン1から出力された音声信号に対して所定の音声処理を施し、デジタル信号に変換する音声処理部2と、音声処理部2から出力された音声信号から発話音声部分の音声信号を抽出し、予め設定された時間間隔毎にフレーム分割する音声部分抽出部3と、各フレーム毎に音声信号の音声特徴量を抽出する音声特徴量抽出部4と、スイッチ5及び6と、スイッチ5及び6のON/OFFを制御する処理選択制御部7と、音声特徴量抽出部4から出力された音声特徴量を用いて、初期話者モデル及び適応話者モデルを作成する話者モデル作成部8と、初期話者モデル及び適応話者モデルを記憶する登録話者モデル記憶部9と、音声特徴量抽出部4から出力された音声特徴量と登録話者モデル記憶部9に記憶された適応話者モデルとを用いて話者認識・モデル更新処理を行う話者認識部10と、話者認識部10から出力された音声特徴量を適応音声特徴量として記憶する適応音声特徴量記憶部11と、適応音声特徴量記憶部11に記憶された音声特徴量と登録話者モデル記憶部9に記憶された初期話者モデルを用いて適応話者モデルを更新するモデル適応更新部12と、を含んで構成されている。
【0026】
なお、音声特徴量抽出部4は、本願に係る特徴データ生成手段の一例を構成し、話者モデル作成部8は、本願に係る初期モデル生成手段の一例を構成し、登録話者モデル記憶部9は、本願に係るモデル記憶手段の一例を構成し、話者認識部10は、本願に係る話者判定手段及び特徴データ記憶制御手段の一例を構成し、適応音声特徴量記憶部11は、本願に係る特徴データ記憶手段の一例を構成し、モデル適応更新部12は、本願に係る認識用モデル生成手段及びモデル記憶制御手段の一例を構成する。
【0027】
上記構成において、音声処理部2には、マイクロフォン1により入力された話者の発話音声に対応する音声信号が入力されるようになっており、当該音声処理部2は、この音声信号の高周波数成分を除去するとともに、当該音声信号をアナログ信号からデジタル信号に変換し、デジタル信号に変換された音声信号を音声部分抽出部3に出力するようになっている。
【0028】
音声部分抽出部3には、デジタル信号に変換された音声信号が入力されるようになっており、当該音声部分抽出部3は、入力したデジタル信号の発話音声部分の音声区間を示す音声信号を抽出するとともに、この抽出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、音声特徴量抽出部4に出力するようになっている。
【0029】
音声特徴量抽出部4には、フレーム分割された音声信号が入力されるようになっており、当該音声特徴量抽出部4は、このフレーム分割された音声信号毎の音声特徴量を抽出するようになっている。具体的に、音声特徴量抽出部4は、フレーム分割された音声信号毎にこの信号のスペクトルを分析し、フレーム毎に音声信号の音声特徴量(例えば、MFCC(Mel-Frequency Cepstrum Coefficient)、LPC(Linear Predictive Coding)ケプストラム係数等)を算出するようになっている。そして、音声特徴量抽出部4は、スイッチ5がONである場合には、抽出した音声特徴量を話者モデル作成部8に出力し、スイッチ6がONである場合には、抽出した音声特徴量を話者認識部10に出力するようになっている。
【0030】
処理選択制御部7は、例えば、キースイッチ等の操作部を用いた話者の選択操作に基づいて、スイッチ5及び6のON/OFFを制御するようになっている。具体的に、処理選択制御部7は、話者登録が選択された場合には、スイッチ5をONに切り替えるとともに、スイッチ6をOFFに切り替えるようになっている。また、話者認識が選択された場合には、スイッチ5をOFFに切り替えるとともに、スイッチ6をONに切り替えるようになっている。
【0031】
話者モデル作成部8には、音声特徴量抽出部4から出力された各フレーム毎の音声特徴量が入力されるようになっており、当該話者モデル作成部8は、この音声特徴量を用いて話者の発話音声の特徴を反映した音響モデルとして初期話者モデルを作成するようになっている。
【0032】
具体的に、話者モデル作成部8は、話者の初期登録用の1発話分あるいは複数発話分に相当する音声特徴量を用いて学習を行い、例えば、HMMやGMM等の音響モデルを作成するようになっている。そして、話者モデル作成部8は、話者に固有のユーザID(識別情報)を割り当て、作成された音響モデルを初期話者モデルとして、このユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0033】
また、話者モデル作成部8は、初期話者モデルのコピーを作成し、このコピーを適応話者モデルとして、前述のユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0034】
登録話者モデル記憶部9は、例えば、ハードディスクドライブ等の記憶装置により構成され、話者モデル作成部8により作成された初期話者モデル及び適応話者モデルを記憶するようになっている。
【0035】
話者認識部10には、音声特徴量抽出部4から出力された各フレーム毎の音声特徴量が入力されるようになっており、当該話者認識部10は、この各フレーム毎の音声特徴量と登録話者モデル記憶部9に記憶されている適応話者モデルとを用いて話者認識を行うようになっている。
【0036】
具体的に、話者認識部10には、各フレーム毎の音声特徴量と登録話者モデル記憶部9に記憶されている全登録話者の適応話者モデルの特徴量とを比較して、音声特徴量と各適応話者モデルとの間における類似度を夫々算出するようになっている。次いで、話者認識部10は、算出された類似度のうち最も高い類似度が算出された適応話者モデルに対応する登録話者を、認識話者として選択するようになっている。そして、話者認識部10は、この認識結果を外部出力するようになっている。出力された認識結果は、話者認識装置100が組み込まれているシステムにより、例えば、話者に告知されたり(例えば、画面表示、音声出力等)、セキュリティーに対する制御が行われたり、認識された話者に適応した処理が行われるようになっている。また、話者認識部10は、音声を発した話者が何れかの登録話者であると認識した場合には、各フレームの音声特徴量を適応音声特徴量として、認識された登録話者のユーザIDに対応付けて適応音声特徴量記憶部11に記憶させるようになっている。
【0037】
適応音声特徴量記憶部11は、例えば、ハードディスクドライブ等の記憶装置により構成され、各登録話者の音声特徴量を、適応音声特徴量として記憶するようになっている。具体的に、適応音声特徴量記憶部11には、各登録話者毎に最大K発話分の適応音声特徴量(x(1)、x(2)・・・x(K))が、その記憶された順番あるいは記憶された時期が判別可能なようにして、ユーザIDに対応付けて記憶されるようになっている。なお、x(i)は(i=1、2・・・K)、i番目に記憶されている発話音声の全フレームの音声特徴量の系列データである。
【0038】
モデル適応更新部12は、音声を発した話者が登録話者であると話者認識部10により認識された場合に、登録話者モデル記憶部9に記憶されている適応話者モデルを更新するようになっている。
【0039】
具体的に、モデル適応更新部12は、認識された登録話者のユーザIDに対応して適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の数がK個存在する場合には、これらの適応音声特徴量のうち最も古い時期(以下、単に「最古」という)に記憶された適応音声特徴量を適応音声特徴量記憶部11から削除するようになっている。また、モデル適応更新部12は、認識された登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている初期話者モデルを読み出すとともに、話者認識部10により適応音声特徴量記憶部11に記憶された最新の適応音声特徴量を合わせた最大K個の適応音声特徴量を読み出し、例えば、最大事後確率推定(Maximum Aposteriori Probability estimation(MAP))法や最尤線形回帰(Maximum Likelihood Linear Regression(MLLR))法等により、読み出した最大K個の適応音声特徴量を用いて初期話者モデルを適応し(適応音声特徴量が示す音響的特徴を、読み出した初期話者モデルに反映させ)、更新用のモデルを作成するようになっている。そして、モデル適応更新部12は、作成された更新用のモデルを、認識された登録話者の新たな適応話者モデルとして、そのユーザIDに対応付けて登録話者モデル記憶部9に上書き記憶させ、適応話者モデルを更新するようになっている。
【0040】
なお、HMMやGMMを用いた話者認識において話者適応を行う場合には、話者が発した音声の音声特徴量とモデルの分布との対応関係を求めるために、例えば、ビタビ(Viterbi)アルゴリズム等を用いて、与えられた音声特徴量をモデルが出力する確率が最大となる状態系列の計算を行うこと等があるが、その際には、登録話者モデル記憶部9に記憶されている更新前の適応話者モデルを用いて計算を行うことで、初期話者モデルを用いる場合よりも、精度良く適応を行うことができる。
【0041】
[1.2 話者認識装置の動作]
次に、話者認識装置100の動作について、図2及び図3を用いて説明する。
【0042】
図2は、第1実施形態に係る話者認識装置100の話者登録処理の流れの一例を示すフローチャートである。また、図3は、第1実施形態に係る話者認識装置100の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【0043】
初めに、話者登録処理について説明する。なお、話者登録時においては、処理選択制御部7の制御により、スイッチ5がON、スイッチ6がOFFとなっている。
【0044】
図2に示すように、マイクロフォン1により話者が発した1発話分の音声が入力され、この音声に対応する音声信号が出力されると(ステップS1)、音声処理部2が、この音声信号をデジタル信号に変換し、音声部分抽出部3が、音声部分を抽出して、フレーム分割された音声信号を出力する(ステップS2)。
【0045】
次いで、音声特徴量抽出部4は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を話者モデル作成部8に出力する(ステップS3)。
【0046】
次いで、話者モデル作成部8は、モデルを学習するのに十分な数(例えば所定数分)の発話音声が入力されたか否かを判定する(ステップS4)。このとき、モデルを学習するのに十分な数の発話音声が入力されていない場合には(ステップS4:NO)、ステップS1に移行する。つまり、モデルを学習するのに十分な数の発話音声が入力されるまでは、ステップS1〜S3の処理を繰り返すのである。
【0047】
一方、モデルを学習するのに十分な数の発話音声が入力された場合には(ステップS4:YES)、話者モデル作成部8は、音声特徴量抽出部4から出力された音声特徴量を用いて初期話者モデルの学習を行うと(ステップS5)、ユーザIDを新たに割り当て、作成された初期話者モデルをこのユーザIDに対応付けて登録話者モデル記憶部9に記憶させる(ステップS6)。
【0048】
次いで、話者モデル作成部8は、初期話者モデルのコピーを作成し(ステップS7)、このコピーを適応話者モデルとして、新たに割り当てられたユーザIDに対応付けて登録話者モデル記憶部9に記憶させると(ステップS8)、話者登録処理を終了させる。
【0049】
次に、話者認識・モデル更新処理について説明する。なお、話者認識・モデル更新処理時においては、処理選択制御部7の制御により、スイッチ5がOFF、スイッチ6がONとなっている。
【0050】
図3に示すように、マイクロフォン1により話者が発した1発話分の音声が入力され、この音声に対応する音声信号が出力されると(ステップS11)、音声処理部2が、この音声信号をデジタル信号に変換し、音声部分抽出部3が、音声部分を抽出して、フレーム分割された音声信号を出力する(ステップS12)。
【0051】
次いで、音声特徴量抽出部4は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を話者認識部10に出力する(ステップS13)。
【0052】
次いで、話者認識部10は、音声特徴量抽出部4から出力された音声特徴量と登録話者モデル記憶部9に記憶されている各適応話者モデルとの間における類似度を夫々求め、発話した話者が登録話者のうち誰であるかの認識処理を行うと(ステップS14)、その認識結果を外部出力する(ステップS15)。
【0053】
次いで、話者認識部10は、発話した話者が何れかの登録話者に該当するか否かを判定し(ステップS16)、発話した話者が何れの登録話者にも該当しない場合には(ステップS16:NO)、話者認識・モデル更新処理を終了させる。
【0054】
一方、発話した話者が何れかの登録話者に該当する場合には(ステップS16:YES)、次いで、モデル適応更新部12は、該当する登録話者のユーザIDに対応して適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の個数がK個以上であるか否かを判定する(ステップS17)。
【0055】
このとき、適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の個数がK以上である場合には(ステップS17:YES)、モデル適応更新部12は、この記憶されている適応音声特徴量のうち最古の適応音声特徴量を削除した上で(ステップS18)、ステップS19に移行する。
【0056】
一方、適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の個数がK個未満である場合には(ステップS17:NO)、ステップS19に移行する。
【0057】
ステップS19において、話者認識部10は、抽出された音声特徴量を適応音声特徴量として、該当する登録話者のユーザIDに対応付けて適応音声特徴量記憶部11に記憶させる。
【0058】
次いで、モデル適応更新部12は、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている初期話者モデルを読み出すとともに、当該ユーザIDに対応して適応音声特徴量記憶部11に登録されている適応音声特徴量を全て読み出し、これらの適応音声特徴量で初期話者モデルの適応を行い、更新用のモデルを作成する(ステップS20)。
【0059】
次いで、モデル適応更新部12は、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている適応話者モデルを、作成された更新用のモデルで更新すると(ステップS21)、話者認識・モデル更新処理を終了させる。
【0060】
以上説明したように、本実施形態によれば、発話音声の音響的特徴を示す音声特徴量を音声特徴量抽出部4が抽出し、話者認識部10が、この抽出された音声特徴量と登録話者モデル記憶部9に記憶された適応話者モデルとを比較することによって、発話した話者が当該適応話者モデルに対応する登録話者であるか否かを判定し、モデル適応更新部12が、発話した話者が当該適応話者モデルに対応する登録話者であると判定された場合には、適応話者モデルを更新する。このとき、話者認識部10は、抽出された音声特徴量を適応音声特徴量記憶部11に記憶させ、適応音声特徴量記憶部11に記憶された音声特徴量のうち、現時点から過去に遡ってK個の音声特徴量で初期話者モデルを適応処理を行うことによって、新たな適応話者モデルを作成し、この新たな適応話者モデルを登録話者モデル記憶部9に記憶させる。そして、話者認識部10は、登録話者モデル記憶部9に記憶された新たな適応話者モデルを用いて、発話した話者が当該適応話者モデルに対応する登録話者であるか否かを判定する。
【0061】
従って、適応話者モデルの更新に用いられる音声特徴量が、現時点から過去に遡ってK個に制限されるので、話者本人の発話音声の特徴の分布が広がりすぎた適応話者モデルが構築されることによる話者認識の性能劣化を防止することができる。
【0062】
[2.第2実施形態]
次に、第2実施形態について説明する。
【0063】
上記説明した第1実施形態においては、最新のK個の適応音声特徴量を用いて初期話者モデルの適応を行い、これにより、適応話者モデルを更新していたが、このように毎回K個の適応音声特徴量で適応処理を行うと、演算量が増加し、処理遅延が生じる虞がある。
【0064】
そこで、以下に説明する第2実施形態においては、各発話音声に対応するモデル適応量(詳細は後述する)を記憶しておき、登録話者の発話数がK回を越えた場合には、適応話者モデルから最古の発話に対応するモデル適応量を除去するとともに、最新の発話に対応するモデル適応量で適応話者モデルの適応を行うこととした。
【0065】
なお、本実施形態においては、音響モデルとして、混合数が1のHMMを用い、MAP適応を用いて適応を行う場合について説明するが、これに限定されるものではない。
【0066】
[2.1 第2実施形態の原理]
話者認識のために登録話者が発話した回数の発話回数をI、初期話者モデルの状態n(初期状態を0、終状態をNとした場合において、n=1、2・・・N−1)における音声特徴量の平均ベクトル(認証用モデルを構成するパラメータの一例)をμn(0)、I回目の発話に対応して更新された適応話者モデルの、状態nにおける平均ベクトルをμn(I)とする。
【0067】
ここで、第1実施形態の場合と同様にして、I=iからI=i+K−1までの発話に対応するK個分の音声特徴量を用い、μn(0)を適応してμn(i+K−1)を求める場合には、このμn(i+K−1)は、以下の式(1)により算出される。
【0068】
【数1】
【0069】
上記式(1)において、cn(j)は、j回目(j=i、i+1・・・i+K−1)の発話音声における状態nに対応するフレーム数であり、on(j)は、j回目の発話音声における状態nに対応する各フレームの音声特徴量の平均値をとった平均ベクトルであり、τは、予め設定されている定数である。
【0070】
ここで、式(1)の分子と分母とを夫々pn(i+K−1)、qn(i+K−1)とすると、式(1)は、以下の式(2)で表すことができる。
【0071】
【数2】
【0072】
また、式(1)と同様に、i+1からi+Kまでの発話に対応するK個分の音声特徴量を用いて適応を行う場合、μn(i+K)は、以下の式(3)により算出される。
【0073】
【数3】
【0074】
ここで、式(2)より、μn(i+K)は、以下の式(4)で表すことができる。
【0075】
【数4】
【0076】
ここで、μn(i+K)=pn(i+K)/qn(i+K)であるから、pn(i+K)は、以下の式(5)で表すことができる。
【0077】
【数5】
【0078】
つまり、発話回数がK個を越えた場合にpn(i+K)を求めるには、直前のpn(i+K−1)から、最古の適応成分であるcn(i)on(i)を減算するとともに、最新の適応成分であるcn(i+K)on(i+K)を加算すれば良い。
また、qn(i+K)も同様にして、以下の式(6)
【0079】
【数6】
【0080】
で表すことができることから、qn(i+K)を求めるには、直前のqn(i+K−1)から、最古の適応成分であるcn(i)を減算するとともに、最新の適応成分であるcn(i+K)を加算すれば良い。
【0081】
そして、pn(i+K)/qn(i+K)を計算することにより、μn(i+K)を求めることができる。
【0082】
つまり、上述したことは、直前の適応話者モデルに対して、最古の発話に対応する適応成分を除去する処理と、最新の発話に対応する適応成分で適応する処理との2回の処理で、第1実施形態の場合と同様の効果を得ることができることを示している。
【0083】
従って、本実施形態においては、初期話者モデルに変えて、pn及びqnを適応話者モデル中間データ(生成用モデルの他の一例)として記憶するととともに、cn及びonをモデル適応量(サブパラメータの一例)として記憶しておき、話者認識が行われたら、pn、qnから夫々最古のcn、cnonを減算した後、最新のcn、cnonを夫々加算してpn、qnを更新し、この更新されたpnからqnを除算してμnを求めることにより適応話者モデルを更新することとした。
【0084】
[2.2 話者認識装置の構成及び機能]
上述した原理を踏まえた第2実施形態に係る話者認識装置200の構成及び機能について、図4を用いて説明する。
【0085】
図4は、第2実施形態に係る話者認識装置200の概要構成の一例を示すブロック図であり、同図において、図1と同様の要素については同様の符号を付し、細部の説明は省略する。
【0086】
図4に示すように、話者認識装置200は、マイクロフォン1と、音声処理部2と、音声部分抽出部3と、音声特徴量抽出部4と、スイッチ5及び6と、処理選択制御部7と、話者モデル作成部8bと、登録話者モデル記憶部9bと、話者認識部10bと、適応音声特徴量記憶部11bと、モデル適応更新部12bと、を含んで構成されている。
【0087】
上記構成において、話者モデル作成部8bは、音声特徴量抽出部4から出力された各フレーム毎の音声特徴量を用いてpn(0)及びqn(0)を算出(作成)するようになっている。そして、話者モデル作成部8bは、ユーザIDを割り当て、算出されたpn(0)及びqn(0)を適応話者モデル中間データとして、このユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0088】
また、話者モデル作成部8bは、pn(0)及びqn(0)からμn(0)を算出し、このμn(0)を適応話者モデルとして、前述のユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0089】
登録話者モデル記憶部9bは、話者モデル作成部8bにより作成された適応話者モデル中間データ及び適応話者モデルを記憶するようになっている。
【0090】
話者認識部10bは、第1実施形態において説明した話者認識部10と同様に話者認識を行った後、音声を発した話者が何れかの登録話者であると認識した場合には、各フレームの音声特徴量からモデル適応量を算出し、このモデル適応量を、認識された登録話者のユーザIDに対応付けて適応音声特徴量記憶部11bに記憶させるようになっている。
【0091】
適応音声特徴量記憶部11bは、各登録話者のモデル適応量を記憶するようになっている。具体的に、適応音声特徴量記憶部11bには、各登録話者毎に最大K発話分のモデル適応量が、その記憶された順番あるいは記憶された時期が判別可能なようにして、ユーザIDに対応付けて記憶されるようになっている。
【0092】
モデル適応更新部12bは、音声を発した話者が登録話者であると話者認識部10bにより認識された場合に、登録話者モデル記憶部9bに記憶されている適応話者モデル中間データを更新するとともに、この更新された適応話者モデル中間データを用いて適応話者モデルを更新するようになっている。
【0093】
具体的に、モデル適応更新部12bは、認識された登録話者のユーザIDに対応付して登録話者モデル記憶部9に記憶されている適応話者モデル中間データを読み出すようになっている。そして、モデル適応更新部12bは、当該ユーザIDに対応付して適応音声特徴量記憶部11bに既に記憶されているモデル適応量の数がK個存在する場合には、これらのモデル適応量のうち最古のモデル適応量を、読み出した適応話者モデル中間データから除去(p’n=pn(i+K−1)−cn(i)on(i)、q’n=qn(i+K−1)−cn(i)を計算)した後、最新のモデル適応量を適応(pn(i+K)=p’n+cn(i+K)on(i+K)、qn(i+K)=q’n+cn(i+K)を計算)するようになっている。
【0094】
一方、モデル適応更新部12bは、適応音声特徴量記憶部11bに既に記憶されているモデル適応量の数がK個未満である場合には、最新のモデル適応量で適応話者モデル中間データを適応(pn(i+K)=pn(i+K−1)+cn(i+K)on(i+K)、qn(i+K−1)=q’n+cn(i+K)を計算)するようになっている。
【0095】
次いで、モデル適応更新部12bは、適応を行った適応話者モデル中間データを、そのユーザIDに対応付けて登録話者モデル記憶部9bに上書き記憶させ、適応話者モデル中間データを更新するようになっている。
【0096】
そして、モデル適応更新部12bは、更新された適応話者モデル中間データを用いて適応話者モデルを算出し(μn=pn(i+K)/qn(i+K)を計算)、この算出された適応話者モデルを、そのユーザIDに対応付けて登録話者モデル記憶部9bに上書き記憶させ、適応話者モデルを更新するようになっている。
【0097】
[2.3 話者認識装置の動作]
次に、話者認識装置200の動作について、図5及び図6を用いて説明する。
【0098】
図5は、第2実施形態に係る話者認識装置200の話者登録処理の流れの一例を示すフローチャートであり、同図において、図2と同様の要素については同様の符号を付し、細部の説明は省略する。また、図6は、第1実施形態に係る話者認識装置200の話者認識・モデル更新処理の流れの一例を示すフローチャートであり、同図において、図3と同様の要素については同様の符号を付し、細部の説明は省略する。
【0099】
初めに、話者登録処理について説明する。
【0100】
図5に示すように、先ず、ステップS1〜S5において、所定数分の発話音声に基づいてモデル学習が行われる。このとき、ステップS5のモデル学習においては、適応話者中間モデルが作成される。
【0101】
次いで、話者モデル作成部8bは、ユーザIDを新たに割り当て、作成された適応話者モデル中間データをこのユーザIDに対応付けて登録話者モデル記憶部9bに記憶させる(ステップS31)。
【0102】
次いで、話者モデル作成部8bは、適応話者モデル中間データを用いて適応話者モデルを作成し(ステップS32)、この適応話者モデルを、新たに割り当てられたユーザIDに対応付けて登録話者モデル記憶部9bに記憶させると(ステップS33)、話者登録処理を終了させる。
【0103】
次に、話者認識・モデル更新処理について説明する。
【0104】
図6に示すように、先ず、ステップS11〜S15において、話者認識処理が行われ、ステップS16において、発話した話者が何れかの登録話者に該当すると判定された場合には(ステップS16:YES)、次いで、モデル適応更新部12bは、該当する登録話者のユーザIDに対応して適応音声特徴量記憶部11bに既に記憶されているモデル適応量の個数がK個以上であるか否かを判定する(ステップS41)。
【0105】
このとき、適応音声特徴量記憶部11bに既に記憶されているモデル適応量の個数がK以上である場合には(ステップS41:YES)、モデル適応更新部12bは、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9bに記憶されている初期話者モデルを読み出して、適応音声特徴量記憶部11bに記憶されているモデル適応量のうち最古のモデル適応量を、読み出した適応話者モデル中間データから除去した後(ステップS42)、この最古の適応音声特徴量を適応音声特徴量記憶部11bから削除すると(ステップS43)、ステップS44に移行する。
【0106】
一方、適応音声特徴量記憶部11bに既に記憶されている適応音声特徴量の個数がK個未満である場合には(ステップS41:NO)、ステップS44に移行する。
【0107】
ステップS44において、話者認識部10bは、抽出された音声特徴量からモデル適応量を算出し(ステップS44)、このモデル適応量を、該当する登録話者のユーザIDに対応付けて適応音声特徴量記憶部11bに記憶させる(ステップS45)。
【0108】
次いで、モデル適応更新部12bは、該当する登録話者のユーザIDに対応して適応音声特徴量記憶部11bに登録されている最新のモデル適応量(すなわち、直前のステップS45で記憶されたモデル適応量)で、読み出された適応話者モデル中間データの適応を行い、この適応された適応話者モデル中間データを、当該ユーザIDに対応付けて登録話者モデル記憶部9bに上書き記憶させ、適応話者モデル中間データを更新する(ステップS46)。
【0109】
次いで、モデル適応更新部12bは、適応話者モデル中間データで更新用のモデルを算出し、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている適応話者モデルを、算出された更新用のモデルで更新すると(ステップS47)、話者認識・モデル更新処理を終了させる。
【0110】
以上説明したように、本実施形態によれば、適応話者モデル中間データは、現時点から過去に遡ってK個のモデル適応量で適応されており、更に適応話者モデル中間データは、適応話者モデルのパラメータである平均ベクトルμnの算出に用いられ且つモデル適応量が示す音響的特徴の除去が可能なpn及びqnにより構成されている。そして、モデル適応更新部12bは、適応話者モデル中間データから最古のモデル適応量を除去し、且つ、最新のモデル適応量で当該適応話者モデル中間データを適応して、当該適応話者モデル中間データを更新し、この更新された適応話者モデル中間データのpn及びqn同士を演算して平均ベクトルμnを求めることによって、新たな適応話者モデルを生成する。
【0111】
従って、第1実施形態の場合と比較して少ない演算量で、第1実施形態による効果と同様の効果を得ることができる。
【0112】
なお、上記各実施形態においては、毎回の話者認識時において、発せられた音声に対応して抽出された音声特徴量(または、適応量)を常に記憶し、且つ、この音声特徴量で常に適応を行って、適応話者モデルを更新していたが、条件によっては、更新を行わずに、抽出された音声特徴量を破棄しても良い。
【0113】
例えば、話者認識が行われた際に、認識された登録話者のユーザIDに対応して既に記憶されている音声特徴量のうち、最新の音声特徴量が記憶された時期と、現在との時期差が、所定の時期差以下(例えば、直前に記憶された音声特徴量の記憶日と今日とが同日である場合等)には、適応話者モデルの更新を行わず、抽出された音声特徴量を破棄しても良い。
【0114】
つまり、短い期間内においては、人間の発話音声の特徴はそれほど変動しないため、この短い期間において複数回発話が行われても、各発話に対応する音声特徴量にそれほど変化は見られない。そうすると、このような音声特徴量を用いて次々に適応を行って適応話者モデルを更新したとしても、更新前の適応話者モデルと更新後の適応話者モデルでは、それほどの違いはなく、更新前の適応話者モデルが、現在の話者の発話音声の特徴を十分反映しているといえる。そうであるならば、このような場合においては、抽出された音声特徴量は必ずしも必要ではないのであるから、適応を行うよりは、この音声特徴量を破棄した方が、演算コストの削減という点では有利である。
【0115】
また、例えば、既に記憶されているK個の音声特徴量夫々と、抽出された音声特徴量との間における類似度を、例えば、DP(Dynamic Programming)マッチング等により夫々算出し、この算出された類似度のうち少なくとも一の類似度が所定の類似度以上である場合、すなわち、抽出された音声特徴量との類似度が高い音声特徴量が既に記憶されている場合には、適応話者モデルの更新を行わず、抽出された音声特徴量を破棄しても良い。
【0116】
つまり、抽出された音声特徴量との類似度が高い音声特徴量が既に記憶されているということは、既に記憶されている音声特徴量を用いて作成されている現在の適応話者モデルが現在の話者の発話音声の特徴を反映しているといえるので、この抽出された音声特徴量は必ずしも必要なデータではないのである。
【0117】
また、話者認識時において発話音声を適応話者モデルに反映させないためのキースイッチ等の操作部を設け、話者の操作により発話音声を適応話者モデルに反映させないことが指示されたら、抽出された音声特徴量では適応を行わず、この音声特徴量を破棄しても良い。この場合であれば、例えば、話者が風邪を引くなどの特殊な事情により、本来の話者発話音声の特徴を示しているとはいえない音声特徴量が適応話者モデルに反映されることを回避することができる。
【0118】
また、上記各実施形態においては、音声を発した話者が、複数の登録話者のうち誰であるかを判別するようにしているが、例えば、音声を発した話者が、登録してある一の登録話者であるか否かを判別する場合であれば、話者認識部10は、算出された類似度が所定の閾値以上であるときには、音声を発した話者は登録話者であると判別し、算出された類似度が当該閾値未満であるときには、音声を発した話者は登録話者ではないと判別し、この判別結果を認識結果として外部出力すれば良い。
【0119】
また、この場合には、適応音声特徴量記憶部11に記憶されている適応音声特徴量の個数に応じて、上記閾値を変更しても良い。
【0120】
つまり、記憶されている適応音声特徴量が少ない場合には、この少ない適応音声特徴量を用いて適応話者モデルが作成されているのであるから、この適応話者モデルは、登録話者の発話音声の特徴をそれほど反映していない可能性がある。従って、この適応話者モデルと登録話者本人の適応音声特徴量との間における類似度は比較的低い値を示すこととなる。そして、適応音声特徴量記憶部11に記憶されている適応音声特徴量が増加するにつれて、適応話者モデルには登録話者の発話音声の特徴が反映されていくので、適応話者モデルと登録話者本人の適応音声特徴量との間における類似度は徐々に高くなる傾向にある。そして、適応音声特徴量の個数がK個に達した後は、適応話者モデルには登録話者の発話音声の特徴が十分に反映されているといえるのであるから、適応話者モデルと登録話者本人の適応音声特徴量との間の類似度に、以前のような変化は見られなくなる。
【0121】
そうすると、適応話者モデルが登録話者の発話音声の特徴を十分に反映している場合に合わせて、閾値を高く設定して登録話者本人か否かを判定していると、登録話者本人であっても発話の回数が少ない頃には、その登録話者と認識されないという事態が生じる。その逆に、閾値を低く設定して登録話者本人か否かを判定していると、発話の回数が増えて、適応話者モデルが登録話者の発話音声の特徴を十分反映するようになっても、登録話者以外の話者が登録話者と認識されてしまう。
【0122】
そこで、閾値の初期値を低い値に設定しておき、適応音声特徴量記憶部11に記憶されている適応音声特徴量の個数が増えるに従って閾値を上げていき、この個数がK個になった後は、閾値を一定にすれば、このような事態を回避することができる。
【0123】
また、上記各実施形態においては、上述の話者認識装置によって話者認識処理及びモデル更新処理等を行うようになっているが、話者認識装置にコンピュータ及び記録媒体を備え、この記録媒体に上述の話者認識処理及びモデル更新処理等を行うプログラム(音響モデル更新処理プログラムの一例)を格納し、このコンピュータによってプログラムを読み込むことによって上述と同様の話者認識処理及びモデル更新処理等を行うようにしても良い。
【0124】
また、この場合に、この記録媒体は、DVDやCDなどの記録媒体により構成し、話者認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようにしても良い。
【0125】
また、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、如何にしてものであっても本発明の技術的範囲に包含される。
【0001】
本願は、発話された発話音声の音響的特徴を反映した音響モデルを用いて、発話した話者を認識する話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラムの技術分野に関する。
【背景技術】
【0002】
現在、音声を発した人間(話者)が誰であるかを認識する話者認識装置が開発されており、このような話者認識装置では、人間が所定の語句の音声を発すると、その音声をマイクロフォンにより電気信号に変換して得られる音声情報から話者を認識する構成となっている。
【0003】
また、このような話者認識処理を、その話者認識装置が組み込まれたユーザ適応型のシステムやセキュリティーシステム等に適応すれば、暗証番号の手入力を要することなく本人を特定したり、鍵を用いた施解錠を要することなく施設の安全性等を保つこと等が可能となる。
【0004】
ここで、このような話者認識装置に用いられる話者認識方法としては、例えば、HMM(Hidden Markov Model(隠れマルコフモデル))やGMM(Gaussian Mixture Model(ガウス混合モデル))等の確率モデルを利用して話者認識を行う方法(以下、単に「話者認識」という)がある。
【0005】
これらの話者認識では、初めに本人が発話した音声を学習用のデータとして、その音声特徴を示すスペクトルパターンの集合を音響モデル(以下、単に「モデル」ともいう)としてモデル化して話者の登録を行う(以下、登録されている話者を、「登録話者」という)。そして、話者認識装置を、音声を発した話者が、登録してある複数の話者のうち誰であるかを判定する話者識別装置として用いる場合には、各モデルと話者の発話音声の特徴との間における類似度(尤度)を夫々算出し、この算出された類似度が最も高いモデルの登録話者であると認定する。また、話者認識装置を、音声を発した話者が、登録話者本人であるか判定する話者照合装置として用いる場合には、登録されているモデルと話者の発話音声の特徴との間における類似度が所定の閾値以上であるときに登録話者本人であると認定する。
【0006】
このように、上述の話者認識においては、登録されているモデルと話者の発話音声の特徴とを比較することにより話者を認識するため、認識精度を高い水準で保つためには、如何にして質の良いモデルを構築するかが重要となる。
【0007】
また、人間の発話音声の特徴は発話の時期により変動するものであるため、同じモデルを使用し続けていると、時間の経過とともに話者の認識性能が低下するという問題がある。そこで、こうした発話音声の特徴の変化に対応するためには、モデルを話者に適応させて随時更新する方法が効果的である。
【0008】
例えば、特許文献1には、システムの管理者の手動またはシステム内の時計を利用し、2〜3ヶ月毎の周期で、発話されたそのときの音声の特徴パラメータを使用し、ベイズ推定に基づいてHMMを更新する技術が開示されている。
【特許文献1】
特開平9−198084号公報
【発明の開示】
【発明が解決しようとする課題】
【0009】
しかしながら、上述した特許文献1に記載の技術では、時間が経過するにつれて、発話時期が大きく異なる多くの発話音声を用いてモデルが構築されることとなり、これにより認識性能が劣化してしまうという問題が生じる。つまり、上述したように、人間の発話音声の特徴は発話の時期により変動することから、数ヶ月毎に、そのときに発せられた音声の特徴がモデルに反映されていくと、あらゆる特徴がモデルに盛り込まれ、話者本人の発話音声の特徴の分布が広がりすぎたモデルが構築されて、時間の経過とともに認識性能が劣化する事態に陥ることとなる。
【0010】
本願は、以上の点に鑑みてなされたものであり、その課題の一例は、時間の経過とともに変化していく話者本人の発話音声の特徴に対応して、精度良く話者を認識することができる話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラムを提供することを目的とする。
【課題を解決するための手段】
[0011]
上記課題を解決するために、本願の一つの観点では、話者の認識に用いられる音響モデルである認識用モデルと、当該認識用モデルの生成に用いられる音響モデルである生成用モデルと、を記憶するモデル記憶手段と、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、前記生成された特徴データと前記認識用モデルとを比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段と、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段と、を備え、前記モデル更新手段は、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段と、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段と、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段と、を備え、前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
[0012]
本願の他の観点では、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定工程と、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新工程と、を備え、前記モデル更新工程は、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御工程と、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成工程と、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御工程と、を備え、前記話者判定工程は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
[0013]
本願の更に他の観点では、コンピュータによって音響モデルを更新するための音響モデル更新処理プログラムであって、前記コンピュータを、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段、として機能させ、前記モデル更新手段として機能する前記コンピュータを、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段、として機能させ、前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
【図面の簡単な説明】
[0014]
[図1]第1実施形態に係る話者認識装置100の概要構成の一例を示すブロック図である。
[図2]第1実施形態に係る話者認識装置100の話者登録処理の流れの一例を示すフローチャートである。
【図3】第1実施形態に係る話者認識装置100の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【図4】第2実施形態に係る話者認識装置200の概要構成の一例を示すブロック図である。
【図5】第2実施形態に係る話者認識装置200の話者登録処理の流れの一例を示すフローチャートである。
【図6】第2実施形態に係る話者認識装置200の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【符号の説明】
【0015】
1 マイクロフォン
2 音声処理部
3 音声部分抽出部
4 音声特徴量変換部
5、6 スイッチ
7 処理選択制御部
8、8b 話者モデル作成部
9、9b 登録話者モデル記憶部
10、10b 話者認識部
11、11b 適応音声特徴量記憶部
12、12b モデル適応更新部
100、200 話者認識装置
【発明を実施するための最良の形態】
【0016】
以下、図面を参照して本願の最良の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、話者認識装置に対して本願を適用した場合の実施形態である。
【0017】
[1.第1実施形態]
[1.1 話者認識装置の構成及び機能]
先ず、第1実施形態に係る話者認識装置100の構成及び機能について、図1を用いて説明する。
【0018】
図1は、第1実施形態に係る話者認識装置100の概要構成の一例を示すブロック図である。
【0019】
本実施形態に係る話者認識装置100は、話者の発した音声に基づいて、この話者が予め登録されている話者(登録話者)であるか否かを認識する装置である。
【0020】
話者認識装置100は、話者登録時においては、話者の発した音声を学習し、当該話者の発話音声の特徴を反映した音響モデルとして、初期話者モデル(生成用モデルの一例)と適応話者モデル(認識用モデルの一例)を作成するようになっている。ここで、話者登録時における初期話者モデルと適応話者モデルは同一のモデルである。
【0021】
その後、話者認識装置100は、話者認識時において、話者の発した音声に基づいて話者認識処理を行うとともに、話者が登録話者に該当する場合には、現時点から過去に遡って予め設定された個数分(以下、この予め設定された個数をKとする)の発話音声から抽出された音声特徴量(特徴データの一例)を用いて初期発話モデルに対して話者適応を施して、適応話者モデルを更新するようになっている。
【0022】
上述したように、人間の発話音声の特徴は発話の時期により変動するため、精度良く話者認識を行うためには、随時、話者が発した音声の音声特徴量を用いて話者認識用のモデルを適応更新する必要がある。しかしながら、古い時期に話者が発した音声の特徴が反映されたままのモデルでは、時間が経過するにつれて、話者認識の性能が劣化する。
【0023】
そこで、本実施形態に係る話者認識装置100においては、話者認識時に話者が発した音声の音声特徴量を、現時点から過去に遡ってK発話分(以下、「最新のK発話分」ともいう)までを記憶しておき、初期発話モデルの適応(適応話者モデルの作成)に用いる音声特徴量を、この最新のK発話分に限定することで、古い時期の音声特徴量が適応話者モデルに反映されることを排除し、話者認識の性能劣化を防止することとした。
【0024】
ここで、モデルの適応に用いられる音声特徴量の個数Kは任意であり、話者認識装置100の利用態様や外部環境等に応じて変わるものであるが、その最適値は、実験的に求めることができる。例えば、多数の話者の音声特徴量を用いて、Kの設定を変えながら、本人誤棄却率(登録話者本人を登録話者ではないと誤って認識する確率)と、他人誤受理率(登録話者本人ではない話者を登録話者であると誤って認識する確率)とを求め、これらの誤り率のバランスがとれたKを採用すれば良い。
【0025】
図1に示すように、話者認識装置100は、話者の発話音声を入力するマイクロフォン1と、マイクロフォン1から出力された音声信号に対して所定の音声処理を施し、デジタル信号に変換する音声処理部2と、音声処理部2から出力された音声信号から発話音声部分の音声信号を抽出し、予め設定された時間間隔毎にフレーム分割する音声部分抽出部3と、各フレーム毎に音声信号の音声特徴量を抽出する音声特徴量抽出部4と、スイッチ5及び6と、スイッチ5及び6のON/OFFを制御する処理選択制御部7と、音声特徴量抽出部4から出力された音声特徴量を用いて、初期話者モデル及び適応話者モデルを作成する話者モデル作成部8と、初期話者モデル及び適応話者モデルを記憶する登録話者モデル記憶部9と、音声特徴量抽出部4から出力された音声特徴量と登録話者モデル記憶部9に記憶された適応話者モデルとを用いて話者認識・モデル更新処理を行う話者認識部10と、話者認識部10から出力された音声特徴量を適応音声特徴量として記憶する適応音声特徴量記憶部11と、適応音声特徴量記憶部11に記憶された音声特徴量と登録話者モデル記憶部9に記憶された初期話者モデルを用いて適応話者モデルを更新するモデル適応更新部12と、を含んで構成されている。
【0026】
なお、音声特徴量抽出部4は、本願に係る特徴データ生成手段の一例を構成し、話者モデル作成部8は、本願に係る初期モデル生成手段の一例を構成し、登録話者モデル記憶部9は、本願に係るモデル記憶手段の一例を構成し、話者認識部10は、本願に係る話者判定手段及び特徴データ記憶制御手段の一例を構成し、適応音声特徴量記憶部11は、本願に係る特徴データ記憶手段の一例を構成し、モデル適応更新部12は、本願に係る認識用モデル生成手段及びモデル記憶制御手段の一例を構成する。
【0027】
上記構成において、音声処理部2には、マイクロフォン1により入力された話者の発話音声に対応する音声信号が入力されるようになっており、当該音声処理部2は、この音声信号の高周波数成分を除去するとともに、当該音声信号をアナログ信号からデジタル信号に変換し、デジタル信号に変換された音声信号を音声部分抽出部3に出力するようになっている。
【0028】
音声部分抽出部3には、デジタル信号に変換された音声信号が入力されるようになっており、当該音声部分抽出部3は、入力したデジタル信号の発話音声部分の音声区間を示す音声信号を抽出するとともに、この抽出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、音声特徴量抽出部4に出力するようになっている。
【0029】
音声特徴量抽出部4には、フレーム分割された音声信号が入力されるようになっており、当該音声特徴量抽出部4は、このフレーム分割された音声信号毎の音声特徴量を抽出するようになっている。具体的に、音声特徴量抽出部4は、フレーム分割された音声信号毎にこの信号のスペクトルを分析し、フレーム毎に音声信号の音声特徴量(例えば、MFCC(Mel-Frequency Cepstrum Coefficient)、LPC(Linear Predictive Coding)ケプストラム係数等)を算出するようになっている。そして、音声特徴量抽出部4は、スイッチ5がONである場合には、抽出した音声特徴量を話者モデル作成部8に出力し、スイッチ6がONである場合には、抽出した音声特徴量を話者認識部10に出力するようになっている。
【0030】
処理選択制御部7は、例えば、キースイッチ等の操作部を用いた話者の選択操作に基づいて、スイッチ5及び6のON/OFFを制御するようになっている。具体的に、処理選択制御部7は、話者登録が選択された場合には、スイッチ5をONに切り替えるとともに、スイッチ6をOFFに切り替えるようになっている。また、話者認識が選択された場合には、スイッチ5をOFFに切り替えるとともに、スイッチ6をONに切り替えるようになっている。
【0031】
話者モデル作成部8には、音声特徴量抽出部4から出力された各フレーム毎の音声特徴量が入力されるようになっており、当該話者モデル作成部8は、この音声特徴量を用いて話者の発話音声の特徴を反映した音響モデルとして初期話者モデルを作成するようになっている。
【0032】
具体的に、話者モデル作成部8は、話者の初期登録用の1発話分あるいは複数発話分に相当する音声特徴量を用いて学習を行い、例えば、HMMやGMM等の音響モデルを作成するようになっている。そして、話者モデル作成部8は、話者に固有のユーザID(識別情報)を割り当て、作成された音響モデルを初期話者モデルとして、このユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0033】
また、話者モデル作成部8は、初期話者モデルのコピーを作成し、このコピーを適応話者モデルとして、前述のユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0034】
登録話者モデル記憶部9は、例えば、ハードディスクドライブ等の記憶装置により構成され、話者モデル作成部8により作成された初期話者モデル及び適応話者モデルを記憶するようになっている。
【0035】
話者認識部10には、音声特徴量抽出部4から出力された各フレーム毎の音声特徴量が入力されるようになっており、当該話者認識部10は、この各フレーム毎の音声特徴量と登録話者モデル記憶部9に記憶されている適応話者モデルとを用いて話者認識を行うようになっている。
【0036】
具体的に、話者認識部10には、各フレーム毎の音声特徴量と登録話者モデル記憶部9に記憶されている全登録話者の適応話者モデルの特徴量とを比較して、音声特徴量と各適応話者モデルとの間における類似度を夫々算出するようになっている。次いで、話者認識部10は、算出された類似度のうち最も高い類似度が算出された適応話者モデルに対応する登録話者を、認識話者として選択するようになっている。そして、話者認識部10は、この認識結果を外部出力するようになっている。出力された認識結果は、話者認識装置100が組み込まれているシステムにより、例えば、話者に告知されたり(例えば、画面表示、音声出力等)、セキュリティーに対する制御が行われたり、認識された話者に適応した処理が行われるようになっている。また、話者認識部10は、音声を発した話者が何れかの登録話者であると認識した場合には、各フレームの音声特徴量を適応音声特徴量として、認識された登録話者のユーザIDに対応付けて適応音声特徴量記憶部11に記憶させるようになっている。
【0037】
適応音声特徴量記憶部11は、例えば、ハードディスクドライブ等の記憶装置により構成され、各登録話者の音声特徴量を、適応音声特徴量として記憶するようになっている。具体的に、適応音声特徴量記憶部11には、各登録話者毎に最大K発話分の適応音声特徴量(x(1)、x(2)・・・x(K))が、その記憶された順番あるいは記憶された時期が判別可能なようにして、ユーザIDに対応付けて記憶されるようになっている。なお、x(i)は(i=1、2・・・K)、i番目に記憶されている発話音声の全フレームの音声特徴量の系列データである。
【0038】
モデル適応更新部12は、音声を発した話者が登録話者であると話者認識部10により認識された場合に、登録話者モデル記憶部9に記憶されている適応話者モデルを更新するようになっている。
【0039】
具体的に、モデル適応更新部12は、認識された登録話者のユーザIDに対応して適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の数がK個存在する場合には、これらの適応音声特徴量のうち最も古い時期(以下、単に「最古」という)に記憶された適応音声特徴量を適応音声特徴量記憶部11から削除するようになっている。また、モデル適応更新部12は、認識された登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている初期話者モデルを読み出すとともに、話者認識部10により適応音声特徴量記憶部11に記憶された最新の適応音声特徴量を合わせた最大K個の適応音声特徴量を読み出し、例えば、最大事後確率推定(Maximum Aposteriori Probability estimation(MAP))法や最尤線形回帰(Maximum Likelihood Linear Regression(MLLR))法等により、読み出した最大K個の適応音声特徴量を用いて初期話者モデルを適応し(適応音声特徴量が示す音響的特徴を、読み出した初期話者モデルに反映させ)、更新用のモデルを作成するようになっている。そして、モデル適応更新部12は、作成された更新用のモデルを、認識された登録話者の新たな適応話者モデルとして、そのユーザIDに対応付けて登録話者モデル記憶部9に上書き記憶させ、適応話者モデルを更新するようになっている。
【0040】
なお、HMMやGMMを用いた話者認識において話者適応を行う場合には、話者が発した音声の音声特徴量とモデルの分布との対応関係を求めるために、例えば、ビタビ(Viterbi)アルゴリズム等を用いて、与えられた音声特徴量をモデルが出力する確率が最大となる状態系列の計算を行うこと等があるが、その際には、登録話者モデル記憶部9に記憶されている更新前の適応話者モデルを用いて計算を行うことで、初期話者モデルを用いる場合よりも、精度良く適応を行うことができる。
【0041】
[1.2 話者認識装置の動作]
次に、話者認識装置100の動作について、図2及び図3を用いて説明する。
【0042】
図2は、第1実施形態に係る話者認識装置100の話者登録処理の流れの一例を示すフローチャートである。また、図3は、第1実施形態に係る話者認識装置100の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【0043】
初めに、話者登録処理について説明する。なお、話者登録時においては、処理選択制御部7の制御により、スイッチ5がON、スイッチ6がOFFとなっている。
【0044】
図2に示すように、マイクロフォン1により話者が発した1発話分の音声が入力され、この音声に対応する音声信号が出力されると(ステップS1)、音声処理部2が、この音声信号をデジタル信号に変換し、音声部分抽出部3が、音声部分を抽出して、フレーム分割された音声信号を出力する(ステップS2)。
【0045】
次いで、音声特徴量抽出部4は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を話者モデル作成部8に出力する(ステップS3)。
【0046】
次いで、話者モデル作成部8は、モデルを学習するのに十分な数(例えば所定数分)の発話音声が入力されたか否かを判定する(ステップS4)。このとき、モデルを学習するのに十分な数の発話音声が入力されていない場合には(ステップS4:NO)、ステップS1に移行する。つまり、モデルを学習するのに十分な数の発話音声が入力されるまでは、ステップS1〜S3の処理を繰り返すのである。
【0047】
一方、モデルを学習するのに十分な数の発話音声が入力された場合には(ステップS4:YES)、話者モデル作成部8は、音声特徴量抽出部4から出力された音声特徴量を用いて初期話者モデルの学習を行うと(ステップS5)、ユーザIDを新たに割り当て、作成された初期話者モデルをこのユーザIDに対応付けて登録話者モデル記憶部9に記憶させる(ステップS6)。
【0048】
次いで、話者モデル作成部8は、初期話者モデルのコピーを作成し(ステップS7)、このコピーを適応話者モデルとして、新たに割り当てられたユーザIDに対応付けて登録話者モデル記憶部9に記憶させると(ステップS8)、話者登録処理を終了させる。
【0049】
次に、話者認識・モデル更新処理について説明する。なお、話者認識・モデル更新処理時においては、処理選択制御部7の制御により、スイッチ5がOFF、スイッチ6がONとなっている。
【0050】
図3に示すように、マイクロフォン1により話者が発した1発話分の音声が入力され、この音声に対応する音声信号が出力されると(ステップS11)、音声処理部2が、この音声信号をデジタル信号に変換し、音声部分抽出部3が、音声部分を抽出して、フレーム分割された音声信号を出力する(ステップS12)。
【0051】
次いで、音声特徴量抽出部4は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を話者認識部10に出力する(ステップS13)。
【0052】
次いで、話者認識部10は、音声特徴量抽出部4から出力された音声特徴量と登録話者モデル記憶部9に記憶されている各適応話者モデルとの間における類似度を夫々求め、発話した話者が登録話者のうち誰であるかの認識処理を行うと(ステップS14)、その認識結果を外部出力する(ステップS15)。
【0053】
次いで、話者認識部10は、発話した話者が何れかの登録話者に該当するか否かを判定し(ステップS16)、発話した話者が何れの登録話者にも該当しない場合には(ステップS16:NO)、話者認識・モデル更新処理を終了させる。
【0054】
一方、発話した話者が何れかの登録話者に該当する場合には(ステップS16:YES)、次いで、モデル適応更新部12は、該当する登録話者のユーザIDに対応して適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の個数がK個以上であるか否かを判定する(ステップS17)。
【0055】
このとき、適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の個数がK以上である場合には(ステップS17:YES)、モデル適応更新部12は、この記憶されている適応音声特徴量のうち最古の適応音声特徴量を削除した上で(ステップS18)、ステップS19に移行する。
【0056】
一方、適応音声特徴量記憶部11に既に記憶されている適応音声特徴量の個数がK個未満である場合には(ステップS17:NO)、ステップS19に移行する。
【0057】
ステップS19において、話者認識部10は、抽出された音声特徴量を適応音声特徴量として、該当する登録話者のユーザIDに対応付けて適応音声特徴量記憶部11に記憶させる。
【0058】
次いで、モデル適応更新部12は、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている初期話者モデルを読み出すとともに、当該ユーザIDに対応して適応音声特徴量記憶部11に登録されている適応音声特徴量を全て読み出し、これらの適応音声特徴量で初期話者モデルの適応を行い、更新用のモデルを作成する(ステップS20)。
【0059】
次いで、モデル適応更新部12は、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている適応話者モデルを、作成された更新用のモデルで更新すると(ステップS21)、話者認識・モデル更新処理を終了させる。
【0060】
以上説明したように、本実施形態によれば、発話音声の音響的特徴を示す音声特徴量を音声特徴量抽出部4が抽出し、話者認識部10が、この抽出された音声特徴量と登録話者モデル記憶部9に記憶された適応話者モデルとを比較することによって、発話した話者が当該適応話者モデルに対応する登録話者であるか否かを判定し、モデル適応更新部12が、発話した話者が当該適応話者モデルに対応する登録話者であると判定された場合には、適応話者モデルを更新する。このとき、話者認識部10は、抽出された音声特徴量を適応音声特徴量記憶部11に記憶させ、適応音声特徴量記憶部11に記憶された音声特徴量のうち、現時点から過去に遡ってK個の音声特徴量で初期話者モデルを適応処理を行うことによって、新たな適応話者モデルを作成し、この新たな適応話者モデルを登録話者モデル記憶部9に記憶させる。そして、話者認識部10は、登録話者モデル記憶部9に記憶された新たな適応話者モデルを用いて、発話した話者が当該適応話者モデルに対応する登録話者であるか否かを判定する。
【0061】
従って、適応話者モデルの更新に用いられる音声特徴量が、現時点から過去に遡ってK個に制限されるので、話者本人の発話音声の特徴の分布が広がりすぎた適応話者モデルが構築されることによる話者認識の性能劣化を防止することができる。
【0062】
[2.第2実施形態]
次に、第2実施形態について説明する。
【0063】
上記説明した第1実施形態においては、最新のK個の適応音声特徴量を用いて初期話者モデルの適応を行い、これにより、適応話者モデルを更新していたが、このように毎回K個の適応音声特徴量で適応処理を行うと、演算量が増加し、処理遅延が生じる虞がある。
【0064】
そこで、以下に説明する第2実施形態においては、各発話音声に対応するモデル適応量(詳細は後述する)を記憶しておき、登録話者の発話数がK回を越えた場合には、適応話者モデルから最古の発話に対応するモデル適応量を除去するとともに、最新の発話に対応するモデル適応量で適応話者モデルの適応を行うこととした。
【0065】
なお、本実施形態においては、音響モデルとして、混合数が1のHMMを用い、MAP適応を用いて適応を行う場合について説明するが、これに限定されるものではない。
【0066】
[2.1 第2実施形態の原理]
話者認識のために登録話者が発話した回数の発話回数をI、初期話者モデルの状態n(初期状態を0、終状態をNとした場合において、n=1、2・・・N−1)における音声特徴量の平均ベクトル(認証用モデルを構成するパラメータの一例)をμn(0)、I回目の発話に対応して更新された適応話者モデルの、状態nにおける平均ベクトルをμn(I)とする。
【0067】
ここで、第1実施形態の場合と同様にして、I=iからI=i+K−1までの発話に対応するK個分の音声特徴量を用い、μn(0)を適応してμn(i+K−1)を求める場合には、このμn(i+K−1)は、以下の式(1)により算出される。
【0068】
【数1】
【0069】
上記式(1)において、cn(j)は、j回目(j=i、i+1・・・i+K−1)の発話音声における状態nに対応するフレーム数であり、on(j)は、j回目の発話音声における状態nに対応する各フレームの音声特徴量の平均値をとった平均ベクトルであり、τは、予め設定されている定数である。
【0070】
ここで、式(1)の分子と分母とを夫々pn(i+K−1)、qn(i+K−1)とすると、式(1)は、以下の式(2)で表すことができる。
【0071】
【数2】
【0072】
また、式(1)と同様に、i+1からi+Kまでの発話に対応するK個分の音声特徴量を用いて適応を行う場合、μn(i+K)は、以下の式(3)により算出される。
【0073】
【数3】
【0074】
ここで、式(2)より、μn(i+K)は、以下の式(4)で表すことができる。
【0075】
【数4】
【0076】
ここで、μn(i+K)=pn(i+K)/qn(i+K)であるから、pn(i+K)は、以下の式(5)で表すことができる。
【0077】
【数5】
【0078】
つまり、発話回数がK個を越えた場合にpn(i+K)を求めるには、直前のpn(i+K−1)から、最古の適応成分であるcn(i)on(i)を減算するとともに、最新の適応成分であるcn(i+K)on(i+K)を加算すれば良い。
また、qn(i+K)も同様にして、以下の式(6)
【0079】
【数6】
【0080】
で表すことができることから、qn(i+K)を求めるには、直前のqn(i+K−1)から、最古の適応成分であるcn(i)を減算するとともに、最新の適応成分であるcn(i+K)を加算すれば良い。
【0081】
そして、pn(i+K)/qn(i+K)を計算することにより、μn(i+K)を求めることができる。
【0082】
つまり、上述したことは、直前の適応話者モデルに対して、最古の発話に対応する適応成分を除去する処理と、最新の発話に対応する適応成分で適応する処理との2回の処理で、第1実施形態の場合と同様の効果を得ることができることを示している。
【0083】
従って、本実施形態においては、初期話者モデルに変えて、pn及びqnを適応話者モデル中間データ(生成用モデルの他の一例)として記憶するととともに、cn及びonをモデル適応量(サブパラメータの一例)として記憶しておき、話者認識が行われたら、pn、qnから夫々最古のcn、cnonを減算した後、最新のcn、cnonを夫々加算してpn、qnを更新し、この更新されたpnからqnを除算してμnを求めることにより適応話者モデルを更新することとした。
【0084】
[2.2 話者認識装置の構成及び機能]
上述した原理を踏まえた第2実施形態に係る話者認識装置200の構成及び機能について、図4を用いて説明する。
【0085】
図4は、第2実施形態に係る話者認識装置200の概要構成の一例を示すブロック図であり、同図において、図1と同様の要素については同様の符号を付し、細部の説明は省略する。
【0086】
図4に示すように、話者認識装置200は、マイクロフォン1と、音声処理部2と、音声部分抽出部3と、音声特徴量抽出部4と、スイッチ5及び6と、処理選択制御部7と、話者モデル作成部8bと、登録話者モデル記憶部9bと、話者認識部10bと、適応音声特徴量記憶部11bと、モデル適応更新部12bと、を含んで構成されている。
【0087】
上記構成において、話者モデル作成部8bは、音声特徴量抽出部4から出力された各フレーム毎の音声特徴量を用いてpn(0)及びqn(0)を算出(作成)するようになっている。そして、話者モデル作成部8bは、ユーザIDを割り当て、算出されたpn(0)及びqn(0)を適応話者モデル中間データとして、このユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0088】
また、話者モデル作成部8bは、pn(0)及びqn(0)からμn(0)を算出し、このμn(0)を適応話者モデルとして、前述のユーザIDに対応付けて登録話者モデル記憶部9に記憶させるようになっている。
【0089】
登録話者モデル記憶部9bは、話者モデル作成部8bにより作成された適応話者モデル中間データ及び適応話者モデルを記憶するようになっている。
【0090】
話者認識部10bは、第1実施形態において説明した話者認識部10と同様に話者認識を行った後、音声を発した話者が何れかの登録話者であると認識した場合には、各フレームの音声特徴量からモデル適応量を算出し、このモデル適応量を、認識された登録話者のユーザIDに対応付けて適応音声特徴量記憶部11bに記憶させるようになっている。
【0091】
適応音声特徴量記憶部11bは、各登録話者のモデル適応量を記憶するようになっている。具体的に、適応音声特徴量記憶部11bには、各登録話者毎に最大K発話分のモデル適応量が、その記憶された順番あるいは記憶された時期が判別可能なようにして、ユーザIDに対応付けて記憶されるようになっている。
【0092】
モデル適応更新部12bは、音声を発した話者が登録話者であると話者認識部10bにより認識された場合に、登録話者モデル記憶部9bに記憶されている適応話者モデル中間データを更新するとともに、この更新された適応話者モデル中間データを用いて適応話者モデルを更新するようになっている。
【0093】
具体的に、モデル適応更新部12bは、認識された登録話者のユーザIDに対応付して登録話者モデル記憶部9に記憶されている適応話者モデル中間データを読み出すようになっている。そして、モデル適応更新部12bは、当該ユーザIDに対応付して適応音声特徴量記憶部11bに既に記憶されているモデル適応量の数がK個存在する場合には、これらのモデル適応量のうち最古のモデル適応量を、読み出した適応話者モデル中間データから除去(p’n=pn(i+K−1)−cn(i)on(i)、q’n=qn(i+K−1)−cn(i)を計算)した後、最新のモデル適応量を適応(pn(i+K)=p’n+cn(i+K)on(i+K)、qn(i+K)=q’n+cn(i+K)を計算)するようになっている。
【0094】
一方、モデル適応更新部12bは、適応音声特徴量記憶部11bに既に記憶されているモデル適応量の数がK個未満である場合には、最新のモデル適応量で適応話者モデル中間データを適応(pn(i+K)=pn(i+K−1)+cn(i+K)on(i+K)、qn(i+K−1)=q’n+cn(i+K)を計算)するようになっている。
【0095】
次いで、モデル適応更新部12bは、適応を行った適応話者モデル中間データを、そのユーザIDに対応付けて登録話者モデル記憶部9bに上書き記憶させ、適応話者モデル中間データを更新するようになっている。
【0096】
そして、モデル適応更新部12bは、更新された適応話者モデル中間データを用いて適応話者モデルを算出し(μn=pn(i+K)/qn(i+K)を計算)、この算出された適応話者モデルを、そのユーザIDに対応付けて登録話者モデル記憶部9bに上書き記憶させ、適応話者モデルを更新するようになっている。
【0097】
[2.3 話者認識装置の動作]
次に、話者認識装置200の動作について、図5及び図6を用いて説明する。
【0098】
図5は、第2実施形態に係る話者認識装置200の話者登録処理の流れの一例を示すフローチャートであり、同図において、図2と同様の要素については同様の符号を付し、細部の説明は省略する。また、図6は、第1実施形態に係る話者認識装置200の話者認識・モデル更新処理の流れの一例を示すフローチャートであり、同図において、図3と同様の要素については同様の符号を付し、細部の説明は省略する。
【0099】
初めに、話者登録処理について説明する。
【0100】
図5に示すように、先ず、ステップS1〜S5において、所定数分の発話音声に基づいてモデル学習が行われる。このとき、ステップS5のモデル学習においては、適応話者中間モデルが作成される。
【0101】
次いで、話者モデル作成部8bは、ユーザIDを新たに割り当て、作成された適応話者モデル中間データをこのユーザIDに対応付けて登録話者モデル記憶部9bに記憶させる(ステップS31)。
【0102】
次いで、話者モデル作成部8bは、適応話者モデル中間データを用いて適応話者モデルを作成し(ステップS32)、この適応話者モデルを、新たに割り当てられたユーザIDに対応付けて登録話者モデル記憶部9bに記憶させると(ステップS33)、話者登録処理を終了させる。
【0103】
次に、話者認識・モデル更新処理について説明する。
【0104】
図6に示すように、先ず、ステップS11〜S15において、話者認識処理が行われ、ステップS16において、発話した話者が何れかの登録話者に該当すると判定された場合には(ステップS16:YES)、次いで、モデル適応更新部12bは、該当する登録話者のユーザIDに対応して適応音声特徴量記憶部11bに既に記憶されているモデル適応量の個数がK個以上であるか否かを判定する(ステップS41)。
【0105】
このとき、適応音声特徴量記憶部11bに既に記憶されているモデル適応量の個数がK以上である場合には(ステップS41:YES)、モデル適応更新部12bは、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9bに記憶されている初期話者モデルを読み出して、適応音声特徴量記憶部11bに記憶されているモデル適応量のうち最古のモデル適応量を、読み出した適応話者モデル中間データから除去した後(ステップS42)、この最古の適応音声特徴量を適応音声特徴量記憶部11bから削除すると(ステップS43)、ステップS44に移行する。
【0106】
一方、適応音声特徴量記憶部11bに既に記憶されている適応音声特徴量の個数がK個未満である場合には(ステップS41:NO)、ステップS44に移行する。
【0107】
ステップS44において、話者認識部10bは、抽出された音声特徴量からモデル適応量を算出し(ステップS44)、このモデル適応量を、該当する登録話者のユーザIDに対応付けて適応音声特徴量記憶部11bに記憶させる(ステップS45)。
【0108】
次いで、モデル適応更新部12bは、該当する登録話者のユーザIDに対応して適応音声特徴量記憶部11bに登録されている最新のモデル適応量(すなわち、直前のステップS45で記憶されたモデル適応量)で、読み出された適応話者モデル中間データの適応を行い、この適応された適応話者モデル中間データを、当該ユーザIDに対応付けて登録話者モデル記憶部9bに上書き記憶させ、適応話者モデル中間データを更新する(ステップS46)。
【0109】
次いで、モデル適応更新部12bは、適応話者モデル中間データで更新用のモデルを算出し、該当する登録話者のユーザIDに対応して登録話者モデル記憶部9に記憶されている適応話者モデルを、算出された更新用のモデルで更新すると(ステップS47)、話者認識・モデル更新処理を終了させる。
【0110】
以上説明したように、本実施形態によれば、適応話者モデル中間データは、現時点から過去に遡ってK個のモデル適応量で適応されており、更に適応話者モデル中間データは、適応話者モデルのパラメータである平均ベクトルμnの算出に用いられ且つモデル適応量が示す音響的特徴の除去が可能なpn及びqnにより構成されている。そして、モデル適応更新部12bは、適応話者モデル中間データから最古のモデル適応量を除去し、且つ、最新のモデル適応量で当該適応話者モデル中間データを適応して、当該適応話者モデル中間データを更新し、この更新された適応話者モデル中間データのpn及びqn同士を演算して平均ベクトルμnを求めることによって、新たな適応話者モデルを生成する。
【0111】
従って、第1実施形態の場合と比較して少ない演算量で、第1実施形態による効果と同様の効果を得ることができる。
【0112】
なお、上記各実施形態においては、毎回の話者認識時において、発せられた音声に対応して抽出された音声特徴量(または、適応量)を常に記憶し、且つ、この音声特徴量で常に適応を行って、適応話者モデルを更新していたが、条件によっては、更新を行わずに、抽出された音声特徴量を破棄しても良い。
【0113】
例えば、話者認識が行われた際に、認識された登録話者のユーザIDに対応して既に記憶されている音声特徴量のうち、最新の音声特徴量が記憶された時期と、現在との時期差が、所定の時期差以下(例えば、直前に記憶された音声特徴量の記憶日と今日とが同日である場合等)には、適応話者モデルの更新を行わず、抽出された音声特徴量を破棄しても良い。
【0114】
つまり、短い期間内においては、人間の発話音声の特徴はそれほど変動しないため、この短い期間において複数回発話が行われても、各発話に対応する音声特徴量にそれほど変化は見られない。そうすると、このような音声特徴量を用いて次々に適応を行って適応話者モデルを更新したとしても、更新前の適応話者モデルと更新後の適応話者モデルでは、それほどの違いはなく、更新前の適応話者モデルが、現在の話者の発話音声の特徴を十分反映しているといえる。そうであるならば、このような場合においては、抽出された音声特徴量は必ずしも必要ではないのであるから、適応を行うよりは、この音声特徴量を破棄した方が、演算コストの削減という点では有利である。
【0115】
また、例えば、既に記憶されているK個の音声特徴量夫々と、抽出された音声特徴量との間における類似度を、例えば、DP(Dynamic Programming)マッチング等により夫々算出し、この算出された類似度のうち少なくとも一の類似度が所定の類似度以上である場合、すなわち、抽出された音声特徴量との類似度が高い音声特徴量が既に記憶されている場合には、適応話者モデルの更新を行わず、抽出された音声特徴量を破棄しても良い。
【0116】
つまり、抽出された音声特徴量との類似度が高い音声特徴量が既に記憶されているということは、既に記憶されている音声特徴量を用いて作成されている現在の適応話者モデルが現在の話者の発話音声の特徴を反映しているといえるので、この抽出された音声特徴量は必ずしも必要なデータではないのである。
【0117】
また、話者認識時において発話音声を適応話者モデルに反映させないためのキースイッチ等の操作部を設け、話者の操作により発話音声を適応話者モデルに反映させないことが指示されたら、抽出された音声特徴量では適応を行わず、この音声特徴量を破棄しても良い。この場合であれば、例えば、話者が風邪を引くなどの特殊な事情により、本来の話者発話音声の特徴を示しているとはいえない音声特徴量が適応話者モデルに反映されることを回避することができる。
【0118】
また、上記各実施形態においては、音声を発した話者が、複数の登録話者のうち誰であるかを判別するようにしているが、例えば、音声を発した話者が、登録してある一の登録話者であるか否かを判別する場合であれば、話者認識部10は、算出された類似度が所定の閾値以上であるときには、音声を発した話者は登録話者であると判別し、算出された類似度が当該閾値未満であるときには、音声を発した話者は登録話者ではないと判別し、この判別結果を認識結果として外部出力すれば良い。
【0119】
また、この場合には、適応音声特徴量記憶部11に記憶されている適応音声特徴量の個数に応じて、上記閾値を変更しても良い。
【0120】
つまり、記憶されている適応音声特徴量が少ない場合には、この少ない適応音声特徴量を用いて適応話者モデルが作成されているのであるから、この適応話者モデルは、登録話者の発話音声の特徴をそれほど反映していない可能性がある。従って、この適応話者モデルと登録話者本人の適応音声特徴量との間における類似度は比較的低い値を示すこととなる。そして、適応音声特徴量記憶部11に記憶されている適応音声特徴量が増加するにつれて、適応話者モデルには登録話者の発話音声の特徴が反映されていくので、適応話者モデルと登録話者本人の適応音声特徴量との間における類似度は徐々に高くなる傾向にある。そして、適応音声特徴量の個数がK個に達した後は、適応話者モデルには登録話者の発話音声の特徴が十分に反映されているといえるのであるから、適応話者モデルと登録話者本人の適応音声特徴量との間の類似度に、以前のような変化は見られなくなる。
【0121】
そうすると、適応話者モデルが登録話者の発話音声の特徴を十分に反映している場合に合わせて、閾値を高く設定して登録話者本人か否かを判定していると、登録話者本人であっても発話の回数が少ない頃には、その登録話者と認識されないという事態が生じる。その逆に、閾値を低く設定して登録話者本人か否かを判定していると、発話の回数が増えて、適応話者モデルが登録話者の発話音声の特徴を十分反映するようになっても、登録話者以外の話者が登録話者と認識されてしまう。
【0122】
そこで、閾値の初期値を低い値に設定しておき、適応音声特徴量記憶部11に記憶されている適応音声特徴量の個数が増えるに従って閾値を上げていき、この個数がK個になった後は、閾値を一定にすれば、このような事態を回避することができる。
【0123】
また、上記各実施形態においては、上述の話者認識装置によって話者認識処理及びモデル更新処理等を行うようになっているが、話者認識装置にコンピュータ及び記録媒体を備え、この記録媒体に上述の話者認識処理及びモデル更新処理等を行うプログラム(音響モデル更新処理プログラムの一例)を格納し、このコンピュータによってプログラムを読み込むことによって上述と同様の話者認識処理及びモデル更新処理等を行うようにしても良い。
【0124】
また、この場合に、この記録媒体は、DVDやCDなどの記録媒体により構成し、話者認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようにしても良い。
【0125】
また、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、如何にしてものであっても本発明の技術的範囲に包含される。
Claims (7)
- 話者の認識に用いられる音響モデルである認識用モデルと、当該認識用モデルの生成に用いられる音響モデルである生成用モデルと、を記憶するモデル記憶手段と、
発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、
前記生成された特徴データと前記認識用モデルとを比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段と、
前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段と、を備え、
前記モデル更新手段は、
前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段と、
前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段と、
前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段と、を備え、
前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする話者認識装置。 - 請求項1に記載の話者認識装置において、
前記生成用モデルは、前記予め設定された個数の前記特徴データが夫々示す音響的特徴が反映されている音響モデルであり、
更に前記生成用モデルは、前記認識用モデルを構成するパラメータの算出に用いられ且つ前記特徴データが示す音響的特徴の除去が可能な複数のサブパラメータによって構成されており、
前記認識用モデル生成手段は、
前記生成用モデルから最古の前記特徴データが示す音響的特徴を除去し、且つ、前記特徴データ記憶手段に記憶された最新の前記特徴データが示す音響的特徴を当該生成用モデルに対して付加して、当該生成用モデルを更新する生成用モデル更新手段と、
前記更新された生成用モデルを構成する前記サブパラメータ同士を演算して前記認識用モデルを構成するパラメータを求めることによって、前記新たな認識用モデルを生成する演算手段と、
を備えることを特徴とする話者認識装置。 - 請求項1に記載の話者認識装置において、
前記認識用モデルの初期生成時においては、前記特徴データ生成手段により生成された少なくとも一の前記特徴データに基づいて前記生成用モデルを生成し、当該生成用モデルのコピーを前記認識用モデルとして前記モデル記憶手段に記憶させる初期モデル生成手段を更に備えることを特徴とする話者認識装置。 - 請求項1に記載の話者認識装置において、
前記モデル更新手段は、前記特徴データ記憶手段に既に記憶されている最新の前記特徴データの記憶時期と現在との差が、予め定められた時期差以下である場合には、前記認識用モデルを更新しないことを特徴とする話者認識装置。 - 請求項1に記載の話者認識装置において、
前記特徴データ記憶手段に既に記憶されている前記特徴データ夫々と、前記特徴データ生成手段により生成された前記特徴データと、の間における類似度を夫々算出する類似度算出手段を更に備え、
前記モデル更新手段は、前記算出された類似度のうち少なくとも一の類似度が予め設定された類似度以上である場合には、前記認識用モデルを更新しないことを特徴とする話者認識装置。 - 発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、
前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定工程と、
前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新工程と、を備え、
前記モデル更新工程は、
前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御工程と、
前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成工程と、
前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御工程と、を備え、
前記話者判定工程は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする音響モデル更新方法。 - コンピュータによって音響モデルを更新するための音響モデル更新処理プログラムであって、
前記コンピュータを、
発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、
前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段、
前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段、として機能させ、
前記モデル更新手段として機能する前記コンピュータを、
前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段、
前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段、
前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段、として機能させ、
前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする音響モデル更新処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2007/057113 WO2008126254A1 (ja) | 2007-03-30 | 2007-03-30 | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2008126254A1 JPWO2008126254A1 (ja) | 2010-07-22 |
JP4847581B2 true JP4847581B2 (ja) | 2011-12-28 |
Family
ID=39863434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009508804A Expired - Fee Related JP4847581B2 (ja) | 2007-03-30 | 2007-03-30 | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4847581B2 (ja) |
WO (1) | WO2008126254A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020523643A (ja) * | 2017-06-16 | 2020-08-06 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9343068B2 (en) * | 2013-09-16 | 2016-05-17 | Qualcomm Incorporated | Method and apparatus for controlling access to applications having different security levels |
CN109155128B (zh) * | 2016-05-20 | 2022-12-27 | 三菱电机株式会社 | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 |
US11664033B2 (en) * | 2020-06-15 | 2023-05-30 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
CN114387635A (zh) * | 2020-10-20 | 2022-04-22 | 杭州海康威视数字技术股份有限公司 | 更新生物特征库的方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249681A (ja) * | 1999-12-28 | 2001-09-14 | Sony Corp | モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置 |
JP2002196786A (ja) * | 2000-12-26 | 2002-07-12 | Mitsubishi Electric Corp | 音声認識装置 |
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6789062B1 (en) * | 2000-02-25 | 2004-09-07 | Speechworks International, Inc. | Automatically retraining a speech recognition system |
JP2007057714A (ja) * | 2005-08-23 | 2007-03-08 | Nec Corp | 話者識別器更新データを生成する装置、方法、プログラムおよび話者識別器を更新する装置、方法、プログラム |
-
2007
- 2007-03-30 WO PCT/JP2007/057113 patent/WO2008126254A1/ja active Search and Examination
- 2007-03-30 JP JP2009508804A patent/JP4847581B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001249681A (ja) * | 1999-12-28 | 2001-09-14 | Sony Corp | モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置 |
JP2002196786A (ja) * | 2000-12-26 | 2002-07-12 | Mitsubishi Electric Corp | 音声認識装置 |
JP2003076390A (ja) * | 2001-08-31 | 2003-03-14 | Fujitsu Ltd | 話者認証システム及び方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020523643A (ja) * | 2017-06-16 | 2020-08-06 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ |
US11011177B2 (en) | 2017-06-16 | 2021-05-18 | Alibaba Group Holding Limited | Voice identification feature optimization and dynamic registration methods, client, and server |
Also Published As
Publication number | Publication date |
---|---|
JPWO2008126254A1 (ja) | 2010-07-22 |
WO2008126254A1 (ja) | 2008-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP4897040B2 (ja) | 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
US8332222B2 (en) | Viterbi decoder and speech recognition method using same using non-linear filter for observation probabilities | |
WO2014025682A2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
JPH075892A (ja) | 音声認識方法 | |
US20040006470A1 (en) | Word-spotting apparatus, word-spotting method, and word-spotting program | |
JP4847581B2 (ja) | 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム | |
WO2005096271A1 (ja) | 音声認識装置及び音声認識方法 | |
Herbig et al. | Self-learning speaker identification for enhanced speech recognition | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
JP2004325635A (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
CN109155128B (zh) | 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法 | |
KR102098956B1 (ko) | 음성인식장치 및 음성인식방법 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP2000194392A (ja) | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 | |
WO2014014478A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP4577543B2 (ja) | モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置 | |
JP2003044078A (ja) | 発声速度正規化分析を用いた音声認識装置 | |
US8768695B2 (en) | Channel normalization using recognition feedback | |
JP4244524B2 (ja) | 音声認証装置、音声認証方法、及びプログラム | |
WO2000052682A1 (fr) | Dispositif et procede permettant la reconnaissance de parole et support fournisseur |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111004 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111013 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141021 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |