JP4847581B2

JP4847581B2 - 話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラム

Info

Publication number: JP4847581B2
Application number: JP2009508804A
Authority: JP
Inventors: 聡一外山; 育雄藤田; 幸生鴨志田
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2007-03-30
Filing date: 2007-03-30
Publication date: 2011-12-28
Anticipated expiration: 2027-03-30
Also published as: JPWO2008126254A1; WO2008126254A1

Description

【技術分野】
【０００１】
本願は、発話された発話音声の音響的特徴を反映した音響モデルを用いて、発話した話者を認識する話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラムの技術分野に関する。
【背景技術】
【０００２】
現在、音声を発した人間（話者）が誰であるかを認識する話者認識装置が開発されており、このような話者認識装置では、人間が所定の語句の音声を発すると、その音声をマイクロフォンにより電気信号に変換して得られる音声情報から話者を認識する構成となっている。
【０００３】
また、このような話者認識処理を、その話者認識装置が組み込まれたユーザ適応型のシステムやセキュリティーシステム等に適応すれば、暗証番号の手入力を要することなく本人を特定したり、鍵を用いた施解錠を要することなく施設の安全性等を保つこと等が可能となる。
【０００４】
ここで、このような話者認識装置に用いられる話者認識方法としては、例えば、ＨＭＭ（Hidden Markov Model（隠れマルコフモデル））やＧＭＭ（Gaussian Mixture Model（ガウス混合モデル））等の確率モデルを利用して話者認識を行う方法（以下、単に「話者認識」という）がある。
【０００５】
これらの話者認識では、初めに本人が発話した音声を学習用のデータとして、その音声特徴を示すスペクトルパターンの集合を音響モデル（以下、単に「モデル」ともいう）としてモデル化して話者の登録を行う（以下、登録されている話者を、「登録話者」という）。そして、話者認識装置を、音声を発した話者が、登録してある複数の話者のうち誰であるかを判定する話者識別装置として用いる場合には、各モデルと話者の発話音声の特徴との間における類似度（尤度）を夫々算出し、この算出された類似度が最も高いモデルの登録話者であると認定する。また、話者認識装置を、音声を発した話者が、登録話者本人であるか判定する話者照合装置として用いる場合には、登録されているモデルと話者の発話音声の特徴との間における類似度が所定の閾値以上であるときに登録話者本人であると認定する。
【０００６】
このように、上述の話者認識においては、登録されているモデルと話者の発話音声の特徴とを比較することにより話者を認識するため、認識精度を高い水準で保つためには、如何にして質の良いモデルを構築するかが重要となる。
【０００７】
また、人間の発話音声の特徴は発話の時期により変動するものであるため、同じモデルを使用し続けていると、時間の経過とともに話者の認識性能が低下するという問題がある。そこで、こうした発話音声の特徴の変化に対応するためには、モデルを話者に適応させて随時更新する方法が効果的である。
【０００８】
例えば、特許文献１には、システムの管理者の手動またはシステム内の時計を利用し、２〜３ヶ月毎の周期で、発話されたそのときの音声の特徴パラメータを使用し、ベイズ推定に基づいてＨＭＭを更新する技術が開示されている。
【特許文献１】
特開平９−１９８０８４号公報
【発明の開示】
【発明が解決しようとする課題】
【０００９】
しかしながら、上述した特許文献１に記載の技術では、時間が経過するにつれて、発話時期が大きく異なる多くの発話音声を用いてモデルが構築されることとなり、これにより認識性能が劣化してしまうという問題が生じる。つまり、上述したように、人間の発話音声の特徴は発話の時期により変動することから、数ヶ月毎に、そのときに発せられた音声の特徴がモデルに反映されていくと、あらゆる特徴がモデルに盛り込まれ、話者本人の発話音声の特徴の分布が広がりすぎたモデルが構築されて、時間の経過とともに認識性能が劣化する事態に陥ることとなる。
【００１０】
本願は、以上の点に鑑みてなされたものであり、その課題の一例は、時間の経過とともに変化していく話者本人の発話音声の特徴に対応して、精度良く話者を認識することができる話者認識装置、音響モデル更新方法及び音響モデル更新処理プログラムを提供することを目的とする。
【課題を解決するための手段】
［００１１］
上記課題を解決するために、本願の一つの観点では、話者の認識に用いられる音響モデルである認識用モデルと、当該認識用モデルの生成に用いられる音響モデルである生成用モデルと、を記憶するモデル記憶手段と、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、前記生成された特徴データと前記認識用モデルとを比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段と、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段と、を備え、前記モデル更新手段は、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段と、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段と、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段と、を備え、前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
［００１２］
本願の他の観点では、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定工程と、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新工程と、を備え、前記モデル更新工程は、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御工程と、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成工程と、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御工程と、を備え、前記話者判定工程は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
［００１３］
本願の更に他の観点では、コンピュータによって音響モデルを更新するための音響モデル更新処理プログラムであって、前記コンピュータを、発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段、前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段、として機能させ、前記モデル更新手段として機能する前記コンピュータを、前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段、前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段、前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段、として機能させ、前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする。
【図面の簡単な説明】
［００１４］
［図１］第１実施形態に係る話者認識装置１００の概要構成の一例を示すブロック図である。
［図２］第１実施形態に係る話者認識装置１００の話者登録処理の流れの一例を示すフローチャートである。
【図３】第１実施形態に係る話者認識装置１００の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【図４】第２実施形態に係る話者認識装置２００の概要構成の一例を示すブロック図である。
【図５】第２実施形態に係る話者認識装置２００の話者登録処理の流れの一例を示すフローチャートである。
【図６】第２実施形態に係る話者認識装置２００の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【符号の説明】
【００１５】
１マイクロフォン
２音声処理部
３音声部分抽出部
４音声特徴量変換部
５、６スイッチ
７処理選択制御部
８、８ｂ話者モデル作成部
９、９ｂ登録話者モデル記憶部
１０、１０ｂ話者認識部
１１、１１ｂ適応音声特徴量記憶部
１２、１２ｂモデル適応更新部
１００、２００話者認識装置
【発明を実施するための最良の形態】
【００１６】
以下、図面を参照して本願の最良の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、話者認識装置に対して本願を適用した場合の実施形態である。
【００１７】
［１．第１実施形態］
［１．１話者認識装置の構成及び機能］
先ず、第１実施形態に係る話者認識装置１００の構成及び機能について、図１を用いて説明する。
【００１８】
図１は、第１実施形態に係る話者認識装置１００の概要構成の一例を示すブロック図である。
【００１９】
本実施形態に係る話者認識装置１００は、話者の発した音声に基づいて、この話者が予め登録されている話者（登録話者）であるか否かを認識する装置である。
【００２０】
話者認識装置１００は、話者登録時においては、話者の発した音声を学習し、当該話者の発話音声の特徴を反映した音響モデルとして、初期話者モデル（生成用モデルの一例）と適応話者モデル（認識用モデルの一例）を作成するようになっている。ここで、話者登録時における初期話者モデルと適応話者モデルは同一のモデルである。
【００２１】
その後、話者認識装置１００は、話者認識時において、話者の発した音声に基づいて話者認識処理を行うとともに、話者が登録話者に該当する場合には、現時点から過去に遡って予め設定された個数分（以下、この予め設定された個数をＫとする）の発話音声から抽出された音声特徴量（特徴データの一例）を用いて初期発話モデルに対して話者適応を施して、適応話者モデルを更新するようになっている。
【００２２】
上述したように、人間の発話音声の特徴は発話の時期により変動するため、精度良く話者認識を行うためには、随時、話者が発した音声の音声特徴量を用いて話者認識用のモデルを適応更新する必要がある。しかしながら、古い時期に話者が発した音声の特徴が反映されたままのモデルでは、時間が経過するにつれて、話者認識の性能が劣化する。
【００２３】
そこで、本実施形態に係る話者認識装置１００においては、話者認識時に話者が発した音声の音声特徴量を、現時点から過去に遡ってＫ発話分（以下、「最新のＫ発話分」ともいう）までを記憶しておき、初期発話モデルの適応（適応話者モデルの作成）に用いる音声特徴量を、この最新のＫ発話分に限定することで、古い時期の音声特徴量が適応話者モデルに反映されることを排除し、話者認識の性能劣化を防止することとした。
【００２４】
ここで、モデルの適応に用いられる音声特徴量の個数Ｋは任意であり、話者認識装置１００の利用態様や外部環境等に応じて変わるものであるが、その最適値は、実験的に求めることができる。例えば、多数の話者の音声特徴量を用いて、Ｋの設定を変えながら、本人誤棄却率（登録話者本人を登録話者ではないと誤って認識する確率）と、他人誤受理率（登録話者本人ではない話者を登録話者であると誤って認識する確率）とを求め、これらの誤り率のバランスがとれたＫを採用すれば良い。
【００２５】
図１に示すように、話者認識装置１００は、話者の発話音声を入力するマイクロフォン１と、マイクロフォン１から出力された音声信号に対して所定の音声処理を施し、デジタル信号に変換する音声処理部２と、音声処理部２から出力された音声信号から発話音声部分の音声信号を抽出し、予め設定された時間間隔毎にフレーム分割する音声部分抽出部３と、各フレーム毎に音声信号の音声特徴量を抽出する音声特徴量抽出部４と、スイッチ５及び６と、スイッチ５及び６のＯＮ／ＯＦＦを制御する処理選択制御部７と、音声特徴量抽出部４から出力された音声特徴量を用いて、初期話者モデル及び適応話者モデルを作成する話者モデル作成部８と、初期話者モデル及び適応話者モデルを記憶する登録話者モデル記憶部９と、音声特徴量抽出部４から出力された音声特徴量と登録話者モデル記憶部９に記憶された適応話者モデルとを用いて話者認識・モデル更新処理を行う話者認識部１０と、話者認識部１０から出力された音声特徴量を適応音声特徴量として記憶する適応音声特徴量記憶部１１と、適応音声特徴量記憶部１１に記憶された音声特徴量と登録話者モデル記憶部９に記憶された初期話者モデルを用いて適応話者モデルを更新するモデル適応更新部１２と、を含んで構成されている。
【００２６】
なお、音声特徴量抽出部４は、本願に係る特徴データ生成手段の一例を構成し、話者モデル作成部８は、本願に係る初期モデル生成手段の一例を構成し、登録話者モデル記憶部９は、本願に係るモデル記憶手段の一例を構成し、話者認識部１０は、本願に係る話者判定手段及び特徴データ記憶制御手段の一例を構成し、適応音声特徴量記憶部１１は、本願に係る特徴データ記憶手段の一例を構成し、モデル適応更新部１２は、本願に係る認識用モデル生成手段及びモデル記憶制御手段の一例を構成する。
【００２７】
上記構成において、音声処理部２には、マイクロフォン１により入力された話者の発話音声に対応する音声信号が入力されるようになっており、当該音声処理部２は、この音声信号の高周波数成分を除去するとともに、当該音声信号をアナログ信号からデジタル信号に変換し、デジタル信号に変換された音声信号を音声部分抽出部３に出力するようになっている。
【００２８】
音声部分抽出部３には、デジタル信号に変換された音声信号が入力されるようになっており、当該音声部分抽出部３は、入力したデジタル信号の発話音声部分の音声区間を示す音声信号を抽出するとともに、この抽出された音声区間の音声信号を予め設定された時間間隔毎のフレームに分割し、音声特徴量抽出部４に出力するようになっている。
【００２９】
音声特徴量抽出部４には、フレーム分割された音声信号が入力されるようになっており、当該音声特徴量抽出部４は、このフレーム分割された音声信号毎の音声特徴量を抽出するようになっている。具体的に、音声特徴量抽出部４は、フレーム分割された音声信号毎にこの信号のスペクトルを分析し、フレーム毎に音声信号の音声特徴量（例えば、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）、ＬＰＣ（Linear Predictive Coding）ケプストラム係数等）を算出するようになっている。そして、音声特徴量抽出部４は、スイッチ５がＯＮである場合には、抽出した音声特徴量を話者モデル作成部８に出力し、スイッチ６がＯＮである場合には、抽出した音声特徴量を話者認識部１０に出力するようになっている。
【００３０】
処理選択制御部７は、例えば、キースイッチ等の操作部を用いた話者の選択操作に基づいて、スイッチ５及び６のＯＮ／ＯＦＦを制御するようになっている。具体的に、処理選択制御部７は、話者登録が選択された場合には、スイッチ５をＯＮに切り替えるとともに、スイッチ６をＯＦＦに切り替えるようになっている。また、話者認識が選択された場合には、スイッチ５をＯＦＦに切り替えるとともに、スイッチ６をＯＮに切り替えるようになっている。
【００３１】
話者モデル作成部８には、音声特徴量抽出部４から出力された各フレーム毎の音声特徴量が入力されるようになっており、当該話者モデル作成部８は、この音声特徴量を用いて話者の発話音声の特徴を反映した音響モデルとして初期話者モデルを作成するようになっている。
【００３２】
具体的に、話者モデル作成部８は、話者の初期登録用の１発話分あるいは複数発話分に相当する音声特徴量を用いて学習を行い、例えば、ＨＭＭやＧＭＭ等の音響モデルを作成するようになっている。そして、話者モデル作成部８は、話者に固有のユーザＩＤ（識別情報）を割り当て、作成された音響モデルを初期話者モデルとして、このユーザＩＤに対応付けて登録話者モデル記憶部９に記憶させるようになっている。
【００３３】
また、話者モデル作成部８は、初期話者モデルのコピーを作成し、このコピーを適応話者モデルとして、前述のユーザＩＤに対応付けて登録話者モデル記憶部９に記憶させるようになっている。
【００３４】
登録話者モデル記憶部９は、例えば、ハードディスクドライブ等の記憶装置により構成され、話者モデル作成部８により作成された初期話者モデル及び適応話者モデルを記憶するようになっている。
【００３５】
話者認識部１０には、音声特徴量抽出部４から出力された各フレーム毎の音声特徴量が入力されるようになっており、当該話者認識部１０は、この各フレーム毎の音声特徴量と登録話者モデル記憶部９に記憶されている適応話者モデルとを用いて話者認識を行うようになっている。
【００３６】
具体的に、話者認識部１０には、各フレーム毎の音声特徴量と登録話者モデル記憶部９に記憶されている全登録話者の適応話者モデルの特徴量とを比較して、音声特徴量と各適応話者モデルとの間における類似度を夫々算出するようになっている。次いで、話者認識部１０は、算出された類似度のうち最も高い類似度が算出された適応話者モデルに対応する登録話者を、認識話者として選択するようになっている。そして、話者認識部１０は、この認識結果を外部出力するようになっている。出力された認識結果は、話者認識装置１００が組み込まれているシステムにより、例えば、話者に告知されたり（例えば、画面表示、音声出力等）、セキュリティーに対する制御が行われたり、認識された話者に適応した処理が行われるようになっている。また、話者認識部１０は、音声を発した話者が何れかの登録話者であると認識した場合には、各フレームの音声特徴量を適応音声特徴量として、認識された登録話者のユーザＩＤに対応付けて適応音声特徴量記憶部１１に記憶させるようになっている。
【００３７】
適応音声特徴量記憶部１１は、例えば、ハードディスクドライブ等の記憶装置により構成され、各登録話者の音声特徴量を、適応音声特徴量として記憶するようになっている。具体的に、適応音声特徴量記憶部１１には、各登録話者毎に最大Ｋ発話分の適応音声特徴量（ｘ（１）、ｘ（２）・・・ｘ（Ｋ））が、その記憶された順番あるいは記憶された時期が判別可能なようにして、ユーザＩＤに対応付けて記憶されるようになっている。なお、ｘ（ｉ）は（ｉ＝１、２・・・Ｋ）、ｉ番目に記憶されている発話音声の全フレームの音声特徴量の系列データである。
【００３８】
モデル適応更新部１２は、音声を発した話者が登録話者であると話者認識部１０により認識された場合に、登録話者モデル記憶部９に記憶されている適応話者モデルを更新するようになっている。
【００３９】
具体的に、モデル適応更新部１２は、認識された登録話者のユーザＩＤに対応して適応音声特徴量記憶部１１に既に記憶されている適応音声特徴量の数がＫ個存在する場合には、これらの適応音声特徴量のうち最も古い時期（以下、単に「最古」という）に記憶された適応音声特徴量を適応音声特徴量記憶部１１から削除するようになっている。また、モデル適応更新部１２は、認識された登録話者のユーザＩＤに対応して登録話者モデル記憶部９に記憶されている初期話者モデルを読み出すとともに、話者認識部１０により適応音声特徴量記憶部１１に記憶された最新の適応音声特徴量を合わせた最大Ｋ個の適応音声特徴量を読み出し、例えば、最大事後確率推定（Maximum Aposteriori Probability estimation（MAP））法や最尤線形回帰（Maximum Likelihood Linear Regression（MLLR））法等により、読み出した最大Ｋ個の適応音声特徴量を用いて初期話者モデルを適応し（適応音声特徴量が示す音響的特徴を、読み出した初期話者モデルに反映させ）、更新用のモデルを作成するようになっている。そして、モデル適応更新部１２は、作成された更新用のモデルを、認識された登録話者の新たな適応話者モデルとして、そのユーザＩＤに対応付けて登録話者モデル記憶部９に上書き記憶させ、適応話者モデルを更新するようになっている。
【００４０】
なお、ＨＭＭやＧＭＭを用いた話者認識において話者適応を行う場合には、話者が発した音声の音声特徴量とモデルの分布との対応関係を求めるために、例えば、ビタビ（Viterbi）アルゴリズム等を用いて、与えられた音声特徴量をモデルが出力する確率が最大となる状態系列の計算を行うこと等があるが、その際には、登録話者モデル記憶部９に記憶されている更新前の適応話者モデルを用いて計算を行うことで、初期話者モデルを用いる場合よりも、精度良く適応を行うことができる。
【００４１】
［１．２話者認識装置の動作］
次に、話者認識装置１００の動作について、図２及び図３を用いて説明する。
【００４２】
図２は、第１実施形態に係る話者認識装置１００の話者登録処理の流れの一例を示すフローチャートである。また、図３は、第１実施形態に係る話者認識装置１００の話者認識・モデル更新処理の流れの一例を示すフローチャートである。
【００４３】
初めに、話者登録処理について説明する。なお、話者登録時においては、処理選択制御部７の制御により、スイッチ５がＯＮ、スイッチ６がＯＦＦとなっている。
【００４４】
図２に示すように、マイクロフォン１により話者が発した１発話分の音声が入力され、この音声に対応する音声信号が出力されると（ステップＳ１）、音声処理部２が、この音声信号をデジタル信号に変換し、音声部分抽出部３が、音声部分を抽出して、フレーム分割された音声信号を出力する（ステップＳ２）。
【００４５】
次いで、音声特徴量抽出部４は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を話者モデル作成部８に出力する（ステップＳ３）。
【００４６】
次いで、話者モデル作成部８は、モデルを学習するのに十分な数（例えば所定数分）の発話音声が入力されたか否かを判定する（ステップＳ４）。このとき、モデルを学習するのに十分な数の発話音声が入力されていない場合には（ステップＳ４：ＮＯ）、ステップＳ１に移行する。つまり、モデルを学習するのに十分な数の発話音声が入力されるまでは、ステップＳ１〜Ｓ３の処理を繰り返すのである。
【００４７】
一方、モデルを学習するのに十分な数の発話音声が入力された場合には（ステップＳ４：ＹＥＳ）、話者モデル作成部８は、音声特徴量抽出部４から出力された音声特徴量を用いて初期話者モデルの学習を行うと（ステップＳ５）、ユーザＩＤを新たに割り当て、作成された初期話者モデルをこのユーザＩＤに対応付けて登録話者モデル記憶部９に記憶させる（ステップＳ６）。
【００４８】
次いで、話者モデル作成部８は、初期話者モデルのコピーを作成し（ステップＳ７）、このコピーを適応話者モデルとして、新たに割り当てられたユーザＩＤに対応付けて登録話者モデル記憶部９に記憶させると（ステップＳ８）、話者登録処理を終了させる。
【００４９】
次に、話者認識・モデル更新処理について説明する。なお、話者認識・モデル更新処理時においては、処理選択制御部７の制御により、スイッチ５がＯＦＦ、スイッチ６がＯＮとなっている。
【００５０】
図３に示すように、マイクロフォン１により話者が発した１発話分の音声が入力され、この音声に対応する音声信号が出力されると（ステップＳ１１）、音声処理部２が、この音声信号をデジタル信号に変換し、音声部分抽出部３が、音声部分を抽出して、フレーム分割された音声信号を出力する（ステップＳ１２）。
【００５１】
次いで、音声特徴量抽出部４は、フレーム分割された音声信号毎の音声特徴量を抽出し、この音声特徴量を話者認識部１０に出力する（ステップＳ１３）。
【００５２】
次いで、話者認識部１０は、音声特徴量抽出部４から出力された音声特徴量と登録話者モデル記憶部９に記憶されている各適応話者モデルとの間における類似度を夫々求め、発話した話者が登録話者のうち誰であるかの認識処理を行うと（ステップＳ１４）、その認識結果を外部出力する（ステップＳ１５）。
【００５３】
次いで、話者認識部１０は、発話した話者が何れかの登録話者に該当するか否かを判定し（ステップＳ１６）、発話した話者が何れの登録話者にも該当しない場合には（ステップＳ１６：ＮＯ）、話者認識・モデル更新処理を終了させる。
【００５４】
一方、発話した話者が何れかの登録話者に該当する場合には（ステップＳ１６：ＹＥＳ）、次いで、モデル適応更新部１２は、該当する登録話者のユーザＩＤに対応して適応音声特徴量記憶部１１に既に記憶されている適応音声特徴量の個数がＫ個以上であるか否かを判定する（ステップＳ１７）。
【００５５】
このとき、適応音声特徴量記憶部１１に既に記憶されている適応音声特徴量の個数がＫ以上である場合には（ステップＳ１７：ＹＥＳ）、モデル適応更新部１２は、この記憶されている適応音声特徴量のうち最古の適応音声特徴量を削除した上で（ステップＳ１８）、ステップＳ１９に移行する。
【００５６】
一方、適応音声特徴量記憶部１１に既に記憶されている適応音声特徴量の個数がＫ個未満である場合には（ステップＳ１７：ＮＯ）、ステップＳ１９に移行する。
【００５７】
ステップＳ１９において、話者認識部１０は、抽出された音声特徴量を適応音声特徴量として、該当する登録話者のユーザＩＤに対応付けて適応音声特徴量記憶部１１に記憶させる。
【００５８】
次いで、モデル適応更新部１２は、該当する登録話者のユーザＩＤに対応して登録話者モデル記憶部９に記憶されている初期話者モデルを読み出すとともに、当該ユーザＩＤに対応して適応音声特徴量記憶部１１に登録されている適応音声特徴量を全て読み出し、これらの適応音声特徴量で初期話者モデルの適応を行い、更新用のモデルを作成する（ステップＳ２０）。
【００５９】
次いで、モデル適応更新部１２は、該当する登録話者のユーザＩＤに対応して登録話者モデル記憶部９に記憶されている適応話者モデルを、作成された更新用のモデルで更新すると（ステップＳ２１）、話者認識・モデル更新処理を終了させる。
【００６０】
以上説明したように、本実施形態によれば、発話音声の音響的特徴を示す音声特徴量を音声特徴量抽出部４が抽出し、話者認識部１０が、この抽出された音声特徴量と登録話者モデル記憶部９に記憶された適応話者モデルとを比較することによって、発話した話者が当該適応話者モデルに対応する登録話者であるか否かを判定し、モデル適応更新部１２が、発話した話者が当該適応話者モデルに対応する登録話者であると判定された場合には、適応話者モデルを更新する。このとき、話者認識部１０は、抽出された音声特徴量を適応音声特徴量記憶部１１に記憶させ、適応音声特徴量記憶部１１に記憶された音声特徴量のうち、現時点から過去に遡ってＫ個の音声特徴量で初期話者モデルを適応処理を行うことによって、新たな適応話者モデルを作成し、この新たな適応話者モデルを登録話者モデル記憶部９に記憶させる。そして、話者認識部１０は、登録話者モデル記憶部９に記憶された新たな適応話者モデルを用いて、発話した話者が当該適応話者モデルに対応する登録話者であるか否かを判定する。
【００６１】
従って、適応話者モデルの更新に用いられる音声特徴量が、現時点から過去に遡ってＫ個に制限されるので、話者本人の発話音声の特徴の分布が広がりすぎた適応話者モデルが構築されることによる話者認識の性能劣化を防止することができる。
【００６２】
［２．第２実施形態］
次に、第２実施形態について説明する。
【００６３】
上記説明した第１実施形態においては、最新のＫ個の適応音声特徴量を用いて初期話者モデルの適応を行い、これにより、適応話者モデルを更新していたが、このように毎回Ｋ個の適応音声特徴量で適応処理を行うと、演算量が増加し、処理遅延が生じる虞がある。
【００６４】
そこで、以下に説明する第２実施形態においては、各発話音声に対応するモデル適応量（詳細は後述する）を記憶しておき、登録話者の発話数がＫ回を越えた場合には、適応話者モデルから最古の発話に対応するモデル適応量を除去するとともに、最新の発話に対応するモデル適応量で適応話者モデルの適応を行うこととした。
【００６５】
なお、本実施形態においては、音響モデルとして、混合数が１のＨＭＭを用い、ＭＡＰ適応を用いて適応を行う場合について説明するが、これに限定されるものではない。
【００６６】
［２．１第２実施形態の原理］
話者認識のために登録話者が発話した回数の発話回数をＩ、初期話者モデルの状態ｎ（初期状態を０、終状態をＮとした場合において、ｎ＝１、２・・・Ｎ−１）における音声特徴量の平均ベクトル（認証用モデルを構成するパラメータの一例）をμ_n（０）、Ｉ回目の発話に対応して更新された適応話者モデルの、状態ｎにおける平均ベクトルをμ_n（Ｉ）とする。
【００６７】
ここで、第１実施形態の場合と同様にして、Ｉ＝ｉからＩ＝ｉ＋Ｋ−１までの発話に対応するＫ個分の音声特徴量を用い、μ_n（０）を適応してμ_n（ｉ＋Ｋ−１）を求める場合には、このμ_n（ｉ＋Ｋ−１）は、以下の式（１）により算出される。
【００６８】
【数１】

【００６９】
上記式（１）において、ｃ_n（ｊ）は、ｊ回目（ｊ＝ｉ、ｉ＋１・・・ｉ＋Ｋ−１）の発話音声における状態ｎに対応するフレーム数であり、ｏ_n（ｊ）は、ｊ回目の発話音声における状態ｎに対応する各フレームの音声特徴量の平均値をとった平均ベクトルであり、τは、予め設定されている定数である。
【００７０】
ここで、式（１）の分子と分母とを夫々ｐ_n（ｉ＋Ｋ−１）、ｑ_n（ｉ＋Ｋ−１）とすると、式（１）は、以下の式（２）で表すことができる。
【００７１】
【数２】

【００７２】
また、式（１）と同様に、ｉ＋１からｉ＋Ｋまでの発話に対応するＫ個分の音声特徴量を用いて適応を行う場合、μ_n（ｉ＋Ｋ）は、以下の式（３）により算出される。
【００７３】
【数３】

【００７４】
ここで、式（２）より、μ_n（ｉ＋Ｋ）は、以下の式（４）で表すことができる。
【００７５】
【数４】

【００７６】
ここで、μ_n（ｉ＋Ｋ）＝ｐ_n（ｉ＋Ｋ）／ｑ_n（ｉ＋Ｋ）であるから、ｐ_n（ｉ＋Ｋ）は、以下の式（５）で表すことができる。
【００７７】
【数５】

【００７８】
つまり、発話回数がＫ個を越えた場合にｐ_n（ｉ＋Ｋ）を求めるには、直前のｐ_n（ｉ＋Ｋ−１）から、最古の適応成分であるｃ_n（ｉ）ｏ_n（ｉ）を減算するとともに、最新の適応成分であるｃ_n（ｉ＋Ｋ）ｏ_n（ｉ＋Ｋ）を加算すれば良い。
また、ｑ_n（ｉ＋Ｋ）も同様にして、以下の式（６）
【００７９】
【数６】

【００８０】
で表すことができることから、ｑ_n（ｉ＋Ｋ）を求めるには、直前のｑ_n（ｉ＋Ｋ−１）から、最古の適応成分であるｃ_n（ｉ）を減算するとともに、最新の適応成分であるｃ_n（ｉ＋Ｋ）を加算すれば良い。
【００８１】
そして、ｐ_n（ｉ＋Ｋ）／ｑ_n（ｉ＋Ｋ）を計算することにより、μ_n（ｉ＋Ｋ）を求めることができる。
【００８２】
つまり、上述したことは、直前の適応話者モデルに対して、最古の発話に対応する適応成分を除去する処理と、最新の発話に対応する適応成分で適応する処理との２回の処理で、第１実施形態の場合と同様の効果を得ることができることを示している。
【００８３】
従って、本実施形態においては、初期話者モデルに変えて、ｐ_n及びｑ_nを適応話者モデル中間データ（生成用モデルの他の一例）として記憶するととともに、ｃ_n及びｏ_nをモデル適応量（サブパラメータの一例）として記憶しておき、話者認識が行われたら、ｐ_n、ｑ_nから夫々最古のｃ_n、ｃ_nｏ_nを減算した後、最新のｃ_n、ｃ_nｏ_nを夫々加算してｐ_n、ｑ_nを更新し、この更新されたｐ_nからｑ_nを除算してμ_nを求めることにより適応話者モデルを更新することとした。
【００８４】
［２．２話者認識装置の構成及び機能］
上述した原理を踏まえた第２実施形態に係る話者認識装置２００の構成及び機能について、図４を用いて説明する。
【００８５】
図４は、第２実施形態に係る話者認識装置２００の概要構成の一例を示すブロック図であり、同図において、図１と同様の要素については同様の符号を付し、細部の説明は省略する。
【００８６】
図４に示すように、話者認識装置２００は、マイクロフォン１と、音声処理部２と、音声部分抽出部３と、音声特徴量抽出部４と、スイッチ５及び６と、処理選択制御部７と、話者モデル作成部８ｂと、登録話者モデル記憶部９ｂと、話者認識部１０ｂと、適応音声特徴量記憶部１１ｂと、モデル適応更新部１２ｂと、を含んで構成されている。
【００８７】
上記構成において、話者モデル作成部８ｂは、音声特徴量抽出部４から出力された各フレーム毎の音声特徴量を用いてｐ_n（０）及びｑ_n（０）を算出（作成）するようになっている。そして、話者モデル作成部８ｂは、ユーザＩＤを割り当て、算出されたｐ_n（０）及びｑ_n（０）を適応話者モデル中間データとして、このユーザＩＤに対応付けて登録話者モデル記憶部９に記憶させるようになっている。
【００８８】
また、話者モデル作成部８ｂは、ｐ_n（０）及びｑ_n（０）からμ_n（０）を算出し、このμ_n（０）を適応話者モデルとして、前述のユーザＩＤに対応付けて登録話者モデル記憶部９に記憶させるようになっている。
【００８９】
登録話者モデル記憶部９ｂは、話者モデル作成部８ｂにより作成された適応話者モデル中間データ及び適応話者モデルを記憶するようになっている。
【００９０】
話者認識部１０ｂは、第１実施形態において説明した話者認識部１０と同様に話者認識を行った後、音声を発した話者が何れかの登録話者であると認識した場合には、各フレームの音声特徴量からモデル適応量を算出し、このモデル適応量を、認識された登録話者のユーザＩＤに対応付けて適応音声特徴量記憶部１１ｂに記憶させるようになっている。
【００９１】
適応音声特徴量記憶部１１ｂは、各登録話者のモデル適応量を記憶するようになっている。具体的に、適応音声特徴量記憶部１１ｂには、各登録話者毎に最大Ｋ発話分のモデル適応量が、その記憶された順番あるいは記憶された時期が判別可能なようにして、ユーザＩＤに対応付けて記憶されるようになっている。
【００９２】
モデル適応更新部１２ｂは、音声を発した話者が登録話者であると話者認識部１０ｂにより認識された場合に、登録話者モデル記憶部９ｂに記憶されている適応話者モデル中間データを更新するとともに、この更新された適応話者モデル中間データを用いて適応話者モデルを更新するようになっている。
【００９３】
具体的に、モデル適応更新部１２ｂは、認識された登録話者のユーザＩＤに対応付して登録話者モデル記憶部９に記憶されている適応話者モデル中間データを読み出すようになっている。そして、モデル適応更新部１２ｂは、当該ユーザＩＤに対応付して適応音声特徴量記憶部１１ｂに既に記憶されているモデル適応量の数がＫ個存在する場合には、これらのモデル適応量のうち最古のモデル適応量を、読み出した適応話者モデル中間データから除去（ｐ’_n＝ｐ_n（ｉ＋Ｋ−１）−ｃ_n（ｉ）ｏ_n（ｉ）、ｑ’_n＝ｑ_n（ｉ＋Ｋ−１）−ｃ_n（ｉ）を計算）した後、最新のモデル適応量を適応（ｐ_n（ｉ＋Ｋ）＝ｐ’_n＋ｃ_n（ｉ＋Ｋ）ｏ_n（ｉ＋Ｋ）、ｑ_n（ｉ＋Ｋ）＝ｑ’_n＋ｃ_n（ｉ＋Ｋ）を計算）するようになっている。
【００９４】
一方、モデル適応更新部１２ｂは、適応音声特徴量記憶部１１ｂに既に記憶されているモデル適応量の数がＫ個未満である場合には、最新のモデル適応量で適応話者モデル中間データを適応（ｐ_n（ｉ＋Ｋ）＝ｐ_n（ｉ＋Ｋ−１）＋ｃ_n（ｉ＋Ｋ）ｏ_n（ｉ＋Ｋ）、ｑ_n（ｉ＋Ｋ−１）＝ｑ’_n＋ｃ_n（ｉ＋Ｋ）を計算）するようになっている。
【００９５】
次いで、モデル適応更新部１２ｂは、適応を行った適応話者モデル中間データを、そのユーザＩＤに対応付けて登録話者モデル記憶部９ｂに上書き記憶させ、適応話者モデル中間データを更新するようになっている。
【００９６】
そして、モデル適応更新部１２ｂは、更新された適応話者モデル中間データを用いて適応話者モデルを算出し（μ_n＝ｐ_n（ｉ＋Ｋ）／ｑ_n（ｉ＋Ｋ）を計算）、この算出された適応話者モデルを、そのユーザＩＤに対応付けて登録話者モデル記憶部９ｂに上書き記憶させ、適応話者モデルを更新するようになっている。
【００９７】
［２．３話者認識装置の動作］
次に、話者認識装置２００の動作について、図５及び図６を用いて説明する。
【００９８】
図５は、第２実施形態に係る話者認識装置２００の話者登録処理の流れの一例を示すフローチャートであり、同図において、図２と同様の要素については同様の符号を付し、細部の説明は省略する。また、図６は、第１実施形態に係る話者認識装置２００の話者認識・モデル更新処理の流れの一例を示すフローチャートであり、同図において、図３と同様の要素については同様の符号を付し、細部の説明は省略する。
【００９９】
初めに、話者登録処理について説明する。
【０１００】
図５に示すように、先ず、ステップＳ１〜Ｓ５において、所定数分の発話音声に基づいてモデル学習が行われる。このとき、ステップＳ５のモデル学習においては、適応話者中間モデルが作成される。
【０１０１】
次いで、話者モデル作成部８ｂは、ユーザＩＤを新たに割り当て、作成された適応話者モデル中間データをこのユーザＩＤに対応付けて登録話者モデル記憶部９ｂに記憶させる（ステップＳ３１）。
【０１０２】
次いで、話者モデル作成部８ｂは、適応話者モデル中間データを用いて適応話者モデルを作成し（ステップＳ３２）、この適応話者モデルを、新たに割り当てられたユーザＩＤに対応付けて登録話者モデル記憶部９ｂに記憶させると（ステップＳ３３）、話者登録処理を終了させる。
【０１０３】
次に、話者認識・モデル更新処理について説明する。
【０１０４】
図６に示すように、先ず、ステップＳ１１〜Ｓ１５において、話者認識処理が行われ、ステップＳ１６において、発話した話者が何れかの登録話者に該当すると判定された場合には（ステップＳ１６：ＹＥＳ）、次いで、モデル適応更新部１２ｂは、該当する登録話者のユーザＩＤに対応して適応音声特徴量記憶部１１ｂに既に記憶されているモデル適応量の個数がＫ個以上であるか否かを判定する（ステップＳ４１）。
【０１０５】
このとき、適応音声特徴量記憶部１１ｂに既に記憶されているモデル適応量の個数がＫ以上である場合には（ステップＳ４１：ＹＥＳ）、モデル適応更新部１２ｂは、該当する登録話者のユーザＩＤに対応して登録話者モデル記憶部９ｂに記憶されている初期話者モデルを読み出して、適応音声特徴量記憶部１１ｂに記憶されているモデル適応量のうち最古のモデル適応量を、読み出した適応話者モデル中間データから除去した後（ステップＳ４２）、この最古の適応音声特徴量を適応音声特徴量記憶部１１ｂから削除すると（ステップＳ４３）、ステップＳ４４に移行する。
【０１０６】
一方、適応音声特徴量記憶部１１ｂに既に記憶されている適応音声特徴量の個数がＫ個未満である場合には（ステップＳ４１：ＮＯ）、ステップＳ４４に移行する。
【０１０７】
ステップＳ４４において、話者認識部１０ｂは、抽出された音声特徴量からモデル適応量を算出し（ステップＳ４４）、このモデル適応量を、該当する登録話者のユーザＩＤに対応付けて適応音声特徴量記憶部１１ｂに記憶させる（ステップＳ４５）。
【０１０８】
次いで、モデル適応更新部１２ｂは、該当する登録話者のユーザＩＤに対応して適応音声特徴量記憶部１１ｂに登録されている最新のモデル適応量（すなわち、直前のステップＳ４５で記憶されたモデル適応量）で、読み出された適応話者モデル中間データの適応を行い、この適応された適応話者モデル中間データを、当該ユーザＩＤに対応付けて登録話者モデル記憶部９ｂに上書き記憶させ、適応話者モデル中間データを更新する（ステップＳ４６）。
【０１０９】
次いで、モデル適応更新部１２ｂは、適応話者モデル中間データで更新用のモデルを算出し、該当する登録話者のユーザＩＤに対応して登録話者モデル記憶部９に記憶されている適応話者モデルを、算出された更新用のモデルで更新すると（ステップＳ４７）、話者認識・モデル更新処理を終了させる。
【０１１０】
以上説明したように、本実施形態によれば、適応話者モデル中間データは、現時点から過去に遡ってＫ個のモデル適応量で適応されており、更に適応話者モデル中間データは、適応話者モデルのパラメータである平均ベクトルμ_nの算出に用いられ且つモデル適応量が示す音響的特徴の除去が可能なｐ_n及びｑ_nにより構成されている。そして、モデル適応更新部１２ｂは、適応話者モデル中間データから最古のモデル適応量を除去し、且つ、最新のモデル適応量で当該適応話者モデル中間データを適応して、当該適応話者モデル中間データを更新し、この更新された適応話者モデル中間データのｐ_n及びｑ_n同士を演算して平均ベクトルμ_nを求めることによって、新たな適応話者モデルを生成する。
【０１１１】
従って、第１実施形態の場合と比較して少ない演算量で、第１実施形態による効果と同様の効果を得ることができる。
【０１１２】
なお、上記各実施形態においては、毎回の話者認識時において、発せられた音声に対応して抽出された音声特徴量（または、適応量）を常に記憶し、且つ、この音声特徴量で常に適応を行って、適応話者モデルを更新していたが、条件によっては、更新を行わずに、抽出された音声特徴量を破棄しても良い。
【０１１３】
例えば、話者認識が行われた際に、認識された登録話者のユーザＩＤに対応して既に記憶されている音声特徴量のうち、最新の音声特徴量が記憶された時期と、現在との時期差が、所定の時期差以下（例えば、直前に記憶された音声特徴量の記憶日と今日とが同日である場合等）には、適応話者モデルの更新を行わず、抽出された音声特徴量を破棄しても良い。
【０１１４】
つまり、短い期間内においては、人間の発話音声の特徴はそれほど変動しないため、この短い期間において複数回発話が行われても、各発話に対応する音声特徴量にそれほど変化は見られない。そうすると、このような音声特徴量を用いて次々に適応を行って適応話者モデルを更新したとしても、更新前の適応話者モデルと更新後の適応話者モデルでは、それほどの違いはなく、更新前の適応話者モデルが、現在の話者の発話音声の特徴を十分反映しているといえる。そうであるならば、このような場合においては、抽出された音声特徴量は必ずしも必要ではないのであるから、適応を行うよりは、この音声特徴量を破棄した方が、演算コストの削減という点では有利である。
【０１１５】
また、例えば、既に記憶されているＫ個の音声特徴量夫々と、抽出された音声特徴量との間における類似度を、例えば、ＤＰ（Dynamic Programming）マッチング等により夫々算出し、この算出された類似度のうち少なくとも一の類似度が所定の類似度以上である場合、すなわち、抽出された音声特徴量との類似度が高い音声特徴量が既に記憶されている場合には、適応話者モデルの更新を行わず、抽出された音声特徴量を破棄しても良い。
【０１１６】
つまり、抽出された音声特徴量との類似度が高い音声特徴量が既に記憶されているということは、既に記憶されている音声特徴量を用いて作成されている現在の適応話者モデルが現在の話者の発話音声の特徴を反映しているといえるので、この抽出された音声特徴量は必ずしも必要なデータではないのである。
【０１１７】
また、話者認識時において発話音声を適応話者モデルに反映させないためのキースイッチ等の操作部を設け、話者の操作により発話音声を適応話者モデルに反映させないことが指示されたら、抽出された音声特徴量では適応を行わず、この音声特徴量を破棄しても良い。この場合であれば、例えば、話者が風邪を引くなどの特殊な事情により、本来の話者発話音声の特徴を示しているとはいえない音声特徴量が適応話者モデルに反映されることを回避することができる。
【０１１８】
また、上記各実施形態においては、音声を発した話者が、複数の登録話者のうち誰であるかを判別するようにしているが、例えば、音声を発した話者が、登録してある一の登録話者であるか否かを判別する場合であれば、話者認識部１０は、算出された類似度が所定の閾値以上であるときには、音声を発した話者は登録話者であると判別し、算出された類似度が当該閾値未満であるときには、音声を発した話者は登録話者ではないと判別し、この判別結果を認識結果として外部出力すれば良い。
【０１１９】
また、この場合には、適応音声特徴量記憶部１１に記憶されている適応音声特徴量の個数に応じて、上記閾値を変更しても良い。
【０１２０】
つまり、記憶されている適応音声特徴量が少ない場合には、この少ない適応音声特徴量を用いて適応話者モデルが作成されているのであるから、この適応話者モデルは、登録話者の発話音声の特徴をそれほど反映していない可能性がある。従って、この適応話者モデルと登録話者本人の適応音声特徴量との間における類似度は比較的低い値を示すこととなる。そして、適応音声特徴量記憶部１１に記憶されている適応音声特徴量が増加するにつれて、適応話者モデルには登録話者の発話音声の特徴が反映されていくので、適応話者モデルと登録話者本人の適応音声特徴量との間における類似度は徐々に高くなる傾向にある。そして、適応音声特徴量の個数がＫ個に達した後は、適応話者モデルには登録話者の発話音声の特徴が十分に反映されているといえるのであるから、適応話者モデルと登録話者本人の適応音声特徴量との間の類似度に、以前のような変化は見られなくなる。
【０１２１】
そうすると、適応話者モデルが登録話者の発話音声の特徴を十分に反映している場合に合わせて、閾値を高く設定して登録話者本人か否かを判定していると、登録話者本人であっても発話の回数が少ない頃には、その登録話者と認識されないという事態が生じる。その逆に、閾値を低く設定して登録話者本人か否かを判定していると、発話の回数が増えて、適応話者モデルが登録話者の発話音声の特徴を十分反映するようになっても、登録話者以外の話者が登録話者と認識されてしまう。
【０１２２】
そこで、閾値の初期値を低い値に設定しておき、適応音声特徴量記憶部１１に記憶されている適応音声特徴量の個数が増えるに従って閾値を上げていき、この個数がＫ個になった後は、閾値を一定にすれば、このような事態を回避することができる。
【０１２３】
また、上記各実施形態においては、上述の話者認識装置によって話者認識処理及びモデル更新処理等を行うようになっているが、話者認識装置にコンピュータ及び記録媒体を備え、この記録媒体に上述の話者認識処理及びモデル更新処理等を行うプログラム（音響モデル更新処理プログラムの一例）を格納し、このコンピュータによってプログラムを読み込むことによって上述と同様の話者認識処理及びモデル更新処理等を行うようにしても良い。
【０１２４】
また、この場合に、この記録媒体は、ＤＶＤやＣＤなどの記録媒体により構成し、話者認識装置には、記録媒体からプログラムを読み出す読出装置を備えるようにしても良い。
【０１２５】
また、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、如何にしてものであっても本発明の技術的範囲に包含される。

Claims

話者の認識に用いられる音響モデルである認識用モデルと、当該認識用モデルの生成に用いられる音響モデルである生成用モデルと、を記憶するモデル記憶手段と、
発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段と、
前記生成された特徴データと前記認識用モデルとを比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段と、
前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段と、を備え、
前記モデル更新手段は、
前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段と、
前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段と、
前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段と、を備え、
前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする話者認識装置。
請求項１に記載の話者認識装置において、
前記生成用モデルは、前記予め設定された個数の前記特徴データが夫々示す音響的特徴が反映されている音響モデルであり、
更に前記生成用モデルは、前記認識用モデルを構成するパラメータの算出に用いられ且つ前記特徴データが示す音響的特徴の除去が可能な複数のサブパラメータによって構成されており、
前記認識用モデル生成手段は、
前記生成用モデルから最古の前記特徴データが示す音響的特徴を除去し、且つ、前記特徴データ記憶手段に記憶された最新の前記特徴データが示す音響的特徴を当該生成用モデルに対して付加して、当該生成用モデルを更新する生成用モデル更新手段と、
前記更新された生成用モデルを構成する前記サブパラメータ同士を演算して前記認識用モデルを構成するパラメータを求めることによって、前記新たな認識用モデルを生成する演算手段と、
を備えることを特徴とする話者認識装置。
請求項１に記載の話者認識装置において、
前記認識用モデルの初期生成時においては、前記特徴データ生成手段により生成された少なくとも一の前記特徴データに基づいて前記生成用モデルを生成し、当該生成用モデルのコピーを前記認識用モデルとして前記モデル記憶手段に記憶させる初期モデル生成手段を更に備えることを特徴とする話者認識装置。
請求項１に記載の話者認識装置において、
前記モデル更新手段は、前記特徴データ記憶手段に既に記憶されている最新の前記特徴データの記憶時期と現在との差が、予め定められた時期差以下である場合には、前記認識用モデルを更新しないことを特徴とする話者認識装置。
請求項１に記載の話者認識装置において、
前記特徴データ記憶手段に既に記憶されている前記特徴データ夫々と、前記特徴データ生成手段により生成された前記特徴データと、の間における類似度を夫々算出する類似度算出手段を更に備え、
前記モデル更新手段は、前記算出された類似度のうち少なくとも一の類似度が予め設定された類似度以上である場合には、前記認識用モデルを更新しないことを特徴とする話者認識装置。
発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成工程と、
前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定工程と、
前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新工程と、を備え、
前記モデル更新工程は、
前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御工程と、
前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成工程と、
前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御工程と、を備え、
前記話者判定工程は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする音響モデル更新方法。
コンピュータによって音響モデルを更新するための音響モデル更新処理プログラムであって、
前記コンピュータを、
発話された発話音声に基づいて、当該発話音声の音響的特徴を示す特徴データを生成する特徴データ生成手段、
前記生成された特徴データと、話者の認識に用いられ且つモデル記憶手段に記憶された音響モデルである認識用モデルと、を比較することによって、発話した話者が当該認識用モデルに対応する話者であるか否かを判定する話者判定手段、
前記発話した話者が前記認識用モデルに対応する話者であると判定された場合に、当該認識用モデルを更新するモデル更新手段、として機能させ、
前記モデル更新手段として機能する前記コンピュータを、
前記発話した話者が前記認識用モデルに対応する話者であると判定されたときの比較に用いられた前記特徴データを特徴データ記憶手段に記憶させる特徴データ記憶制御手段、
前記特徴データ記憶手段に記憶された前記特徴データのうち、現時点から過去に遡って予め設定された個数の前記特徴データが夫々示す音響的特徴を、前記認識用モデルの生成に用いられ且つ前記モデル記憶手段に記憶された音響モデルである生成用モデルに対して反映することによって、新たな前記認識用モデルを生成する認識用モデル生成手段、
前記生成された新たな前記認識用モデルを前記モデル記憶手段に記憶させるモデル記憶制御手段、として機能させ、
前記話者判定手段は、前記モデル記憶手段に記憶された前記新たな認識用モデルを用いて、発話した話者が当該認識用モデルに対応する話者であるか否かを判定することを特徴とする音響モデル更新処理プログラム。