JP2012137680A

JP2012137680A - 状態検出装置、状態検出方法および状態検出のためのプログラム

Info

Publication number: JP2012137680A
Application number: JP2010291190A
Authority: JP
Inventors: Shoji Hayakawa; 昭二早川; Naoji Matsuo; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-12-27
Filing date: 2010-12-27
Publication date: 2012-07-19
Anticipated expiration: 2030-12-27
Also published as: US20120166195A1; JP5494468B2; US8996373B2

Abstract

【課題】負荷を抑えつつ、特定の話者の状態を精度よく検出する状態検出装置を提供する。
【解決手段】音声に含まれる情報を利用して特定の話者の状態を精度よく検出するために、状態検出装置に、非抑圧状態における特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する第１のモデル生成手段と、対応関係情報に基づいて、第１の不特定話者モデルに対する第２の不特定話者モデルへの変位量を、第１の特定話者モデルに反映することにより、抑圧状態における特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する第２のモデル生成手段と、入力音声の特徴に対する第１の特定話者モデルの尤度である第１の尤度と、入力音声に対する第２の特定話者モデルの尤度である第２の尤度と、を算出する尤度算出手段と、第１の尤度および第２の尤度に基づいて、入力音声の話者の状態を判別する状態判別手段と、を備える。
【選択図】図３

Description

本発明は、音声に含まれる情報を利用して音声の話者の状態を検出する状態検出装置、状態検出方法および状態検出のためのプログラムに関する。

従来、話者の音声から、話者の感情などを認識する技術がある。
上記技術に関連して、発声変形モデルの学習に用いる音声データが少量の場合でも高い認識性能をもつ発声変形音声認識装置が知られている。この発声変形音声認識装置は、発声変形が生じた音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習する。そして、発声変形音声認識装置は、発声変形のない発声変形なし音声標準モデルに対し、発声変形モデルを用いてスペクトルの変形処理を施して変形音声標準モデルを出力する。そして、発声変形音声認識装置は、変形音声標準モデルと発声変形なし音声標準モデルとを用いて、入力音声信号に対し音響分析を行って得た発声変形音声特徴ベクトル時系列に対し認識処理を行う。

また、話者の感情のレベルを認識する音声認識システムが知られている。この音声認識システムは、例えば、音声分析部と、単語辞書部と、音響モデル部と、発声変形感情モデル部と、音声感情認識部と、を備える。そして、単語辞書部は、音声認識の対象となる単語を記憶する。音響モデル部は、音声認識に用いられるモデル、具体的には、単語辞書部に用いられている文字と音素との対応を示す音響モデルを記憶する。発声変形感情モデル部は、感情が変化したときの単語辞書部に用いられている文字と音素との対応を示す発声変形感情モデルを記憶する。音声感情認識部は、音素単位の単語および感情の度合いを示すレベルを記憶する。

そして、音声認識システムは、音声分析部で分析された入力音声の音声分析結果に対して、音響モデルと単語辞書をモデル連結部によって連結された音素単位で照合して、単語辞書部に登録した単語辞書の中で一番近い単語をピックアップする。さらに、音声認識システムは、ピックアップされた単語の入力音声が持っている感情の度合いを示すレベルを音声感情認識部から選択する。

また、雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列と、を照合して音声認識を行う音声認識装置において、初期音声モデルに対して雑音適応および話者適応等を行う際の処理量を低減できる音声認識装置が知られている。

特開平０８−２１１８８７号公報特開平１１−１１９７９１号公報特開２００４−１０９４６４号公報

鹿野清宏／伊藤克亘／河原達也／武田一哉／山本幹雄著、「音声認識システム」オーム社宮本定明著、「クラスタ分析入門」森北出版ＤｏｕｇｌａｓＡ．Ｒｅｙｎｏｌｄｓ／ＲｉｃｈａｒｄＣ．Ｒｏｓｅ，"Ｒｏｂｕｓｔｔｅｘｔ−ｉｎｄｅｐｅｎｄｅｎｔｓｐｅａｋｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｕｓｉｎｇＧａｕｓｓｉａｎｍｉｘｔｕｒｅｓｐｅａｄｅｒｍｏｄｅｌｓ"，ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓ．，ｖｏｌ．３，ｎｏ．１，ｐｐ．７２−８３１９９５ＤｏｕｇｌａｓＡ．Ｒｅｙｎｏｌｄｓ／ＴｈｏｍａｓＦ．Ｑｕａｔｉｅｒｉ／ＲｏｂｅｒｔＢ．Ｄｕｎｎ，"ＳｐｅａｋｅｒｖｅｒｉｆｉｃａｔｉｏｎｕｓｉｎｇａｄａｐｔｅｄＧａｕｓｓｉａｎＭｉｘｔｕｒｅｍｏｄｅｌｓ"，ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ｖｏｌ．１０，ｐｐ．１９−４１２０００

しかし、例えば、上述した発声変形音声認識装置では、変形音声標準モデルと発声変形なし音声標準モデルとを用いて認識処理を行っているが、発声変形なし音声標準モデルは特定の話者に特化したモデルではない。したがって、発声変形なし音声標準モデルから作成される変形音声標準モデルも十分に特定の話者に特化したモデルとは言い難い。そのため、特定の話者に特化した変形音声標準モデルおよび発声変形なし音声標準モデルを使用する場合と比較すると認識率が低かった。

また、上述した音声認識システムでは、発声変形感情モデルや音素単位の単語および感情の度合いを示すレベルなどが、特定の話者に特化したものではないため、特定の話者についての感情のレベルの認識性能が低かった。

本状態検出装置は、上述した問題に鑑みてなされたものであり、その解決しようとする課題は、本状態検出装置にかかる負荷を抑えつつ、特定の話者の状態を精度よく検出することである。

本状態検出装置の１つの観点によれば、本状態検出装置は、以下の構成要素を備える。
基本モデル記憶手段は、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段である。

対応関係情報記憶手段は、第１の不特定話者モデルと第２の不特定話者モデルとの対応関係を示す対応関係情報を記憶するための記憶手段である。前記第１の不特定話者モデルは、非抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。前記第２の不特定話者モデルは、抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。

第１のモデル生成手段は、前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する。

第２のモデル生成手段は、前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映する。これにより、第２のモデル生成手段は、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する。

尤度算出手段は、入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出する。

状態判別手段は、前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する。

本状態検出装置によると、本状態検出装置にかかる負荷を抑えつつ、特定の話者の状態を精度よく検出することができる。

発明者が検討した状態検出装置の概要を説明する図である。発明者が検討した状態検出装置の概要を説明する図である。状態検出装置３００を説明する図である。状態検出装置４００を説明する図である。対応関係表４３１の具体例を示す図である。特定話者向け平静状態モデルおよび特定話者向け異常状態モデルの作成について説明する図である。話者の登録時の処理を示すフローチャートである。話者の状態検出の処理を示すフローチャートである。事前準備の概要を説明する図である。図９に示した事前準備で行われる処理の概要を説明する図である。事前準備の処理を示すフローチャートである。状態検出装置１２００を説明する図である。状態検出装置１２００の動作を示すフローチャートである。状態検出装置１２００の動作を示すフローチャートである。実施例で説明した状態検出装置の構成例を示す図である。実施例で説明した状態検出装置を含む携帯電話１６００の構成例を示す図である。

１．発明者による考察
図１および図２は、発明者が検討した状態検出装置の概要を説明する図である。
図１に示す状態検出装置１００は、基本モデルを記憶する記憶部１１０と、特定話者向け平静状態モデルを記憶する記憶部１２０と、特定話者向け異常状態モデルを記憶する記憶部１３０と、音声分析部１４０と、尤度計算部１５０と、尤度比較部１６０と、を備える。

なお、図１では、状態検出装置１００の理解を容易にするために、「事前準備」、「話者の登録」および「話者の状態検出」の処理毎に、使用する装置を記載しているが、状態検出装置１００の構成、例えば、装置の配置や装置間の接続などを限定する趣旨ではない。図２も同様の趣旨である。

記憶部１１０に記憶される基本モデルは、標準的な話者の音声の特徴を表す情報である。この基本モデルは、不特定話者から採取した大量の音声データから抽出した特徴パラメータをＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ（ガウス混合モデル、以下「ＧＭＭ」という）を用いて定量化したモデルで表される。基本モデルは、あらかじめ作成されて記憶部１１０に保持される。なお、特徴パラメータの詳細については、図７で後述する。

また、記憶部１２０に記憶される特定話者向け平静状態モデルは、平静状態にある特定話者から採取した音声データから抽出できる特徴パラメータをＧＭＭを用いて定量化した情報である。

また、記憶部１３０に記憶される特定話者向け異常状態モデルは、異常状態にある特定話者から採取した音声データから抽出できる特徴パラメータをＧＭＭを用いて定量化した情報である。

状態検出装置１００は、状態検出を行うために、状態検出の対象となる話者の登録が必要となる。この話者の登録によって、状態検出装置１００は、特定話者向け平静状態モデルと特定話者向け異常状態モデルを作成する。

例えば、状態検出装置１００の利用者が、平静状態時における話者Ｆの発話データ１０１と、異常状態時における話者Ｆの発話データ１０２と、を状態検出装置１００に登録する。すると、状態検出装置１００は、平静状態時における話者Ｆの発話データ１０１に、基本モデルを適応させて、話者Ｆについての特定話者向け平静状態モデルを作成する。そして、状態検出装置１００は、作成した特定話者向け平静状態モデルを記憶部１２０に記憶する。

なお、「適応」するとは、基本モデルに含まれるパラメータを、平静状態時における話者Ｆの発話データ１０１から抽出される特徴パラメータから求められるパラメータで調整することをいう。

さらに、状態検出装置１００は、異常状態における話者Ｆの発話データ１０２に、話者Ｆについての特定話者向け平静状態モデルを適応させて、話者Ｆについての特定話者向け異常状態モデルを作成する。そして、状態検出装置１００は、作成した特定話者向け異常状態モデルを記憶部１３０に記憶する。

話者の登録が完了すると、状態検出装置１００は、以下のようにして、話者Ｆの状態を検出する。
例えば、話者Ｆの発話データが入力されると、音声解析部１４０は、話者Ｆの発話データから特徴パラメータを抽出する。すると、尤度計算部１５０は、抽出した特徴パラメータに対する、話者Ｆについての特定話者向け平静状態モデルの尤度を算出する。さらに、尤度計算部１５０は、抽出した特徴パラメータに対する、話者Ｆについての特定話者向け異常状態モデルの尤度を算出する。

尤度比較部１６０では、尤度計算部１５０で算出した２つの尤度を比較して、話者Ｆの状態、すなわち、話者Ｆが平静状態か異常状態か、を判別する。尤度比較部１６０は、判別結果を所定の装置等に出力する。

以上のように、状態検出装置１００では、話者の登録時に、特定話者向け平静状態モデルと特定話者向け異常状態モデルとを作成するため、状態検出機能を使用するための事前準備を必要としない。なお、事前準備とは、状態検出装置１００が状態検出を行うために、例えば、状態検出装置１００または状態検出装置１００を含む装置を製品として出荷する前に必要となる準備である。

また、状態検出装置１００は、特定話者向け平静状態モデルおよび特定話者向け異常状態モデルを用いて話者の状態検出を行うので、特定話者の状態を高い精度で検出することができる。

しかし、異常状態における特定の話者の音声を登録するのは、利用者にとって大きな負荷となる。
図２に示す状態検出装置２００は、不特定話者向け平静状態モデルを記憶する記憶部２１０と、不特定話者向け異常状態モデルを記憶する記憶部２２０と、音声分析部１４０と、尤度計算部２３０と、尤度比較部１６０と、を備える。

記憶部２１０に記憶される不特定話者向け平静状態モデルは、平静状態にある多数の不特定の話者から採取した音声データから抽出できる特徴パラメータをＧＭＭを用いて定量化した情報である。

また、記憶部２２０に記憶される不特定話者向け異常状態モデルは、異常状態にある多数の不特定話者から採取した音声データから抽出できる特徴パラメータをＧＭＭを用いて定量化した情報である。

状態検出装置２００は、状態検出を行うために、事前準備が必要となる。この事前準備では、状態検出に使用する不特定話者向け平静状態モデルおよび不特定話者向け異常状態モデルが作成される。

事前準備は、状態検出装置２００と直接または間接的にデータの授受が可能な情報処理装置２５０によって行うことができる。ただし、状態検出装置２００自身が事前準備を行ってもよい。

情報処理装置２５０は、基本モデルを記憶する記憶部２５１と、不特定話者向け平静状態モデルを記憶する記憶部２５２と、不特定話者向け異常状態モデルを記憶する記憶部２５３と、を備える。

そして、情報処理装置２５０は、多数の平静状態話者データ２５４に、基本モデルを適応させることにより不特定話者向け平静状態モデルを作成する。情報処理装置２５０は、作成した不特定話者向け平静状態モデルを記憶部２５２に記憶する。また、情報処理装置２５０は、多数の異常状態発話データ２５５に、不特定話者向け平静状態モデルを適応させることにより不特定話者向け異常状態モデルを作成する。情報処理装置２５０は、作成した不特定話者向け異常状態モデルを記憶部２５３に記憶する。

なお、平静状態話者データ２５４は、平静状態にある不特定の話者から採取した音声データである。異常状態発話データ２５５は、異常状態にある不特定の話者から採取した音声データである。

不特定話者向け平静状態モデルと不特定話者向け異常状態モデルを作成すると、情報処理装置２５０は、記憶部２５２に記憶されている不特定話者向け平静状態モデルを、状態検出装置２００に備わる記憶部２１０に記憶する。また、情報処理装置２５０は、記憶部２５３に記憶されている不特定話者向け異常状態モデルを、状態検出装置２００に備わる記憶部２２０に記憶する。

以上の事前準備が完了すると、状態検出装置２００は、状態検出が可能になる。状態検出装置２００は、以下のようにして、話者の状態を検出する。
例えば、話者Ｆの発話データが入力されると、音声分析部１４０は、話者Ｆの発話データから特徴パラメータを抽出する。すると、尤度計算部２３０は、抽出した特徴パラメータに対する、不特定話者向け平静状態モデルの尤度を算出する。さらに、尤度計算部２３０は、抽出した特徴パラメータに対する、不特定話者向け異常状態モデルの尤度を算出する。

尤度比較部１６０では、尤度計算部２３０で算出した２つの尤度を比較して、話者Ｆの状態、すなわち、話者Ｆが平静状態か異常状態か、を判別する。尤度比較部１６０は、判定結果を所定の装置等に出力する。

以上のように、状態検出装置２００では、事前に、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを作成しておく。そして、状態検出装置２００は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルを用いて話者の状態を検出する。そのため、状態検出装置２００は、状態検出装置１００で必要となる話者の登録が不要となる。その結果、話者の登録によって状態検出装置２００に大きな負荷がかかることがなくなる。

しかし、状態検出装置２００は、話者の状態検出に、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを使用するため、状態検出装置１００と比較して、特定話者の状態を検出する精度が非常に低くなってしまう。

以上に説明した考察から、発明者は、話者の登録など話者の状態検出に必要な処理にかかる負荷を抑えつつ、音声に含まれる情報を利用して特定の話者の状態を精度よく検出できる状態検出装置の提供を課題として抽出した。

２．実施例の説明
以下、本実施形態の一例について、図３〜図１６に基づいて説明する。なお、以下に説明する実施形態はあくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図ではない。すなわち、本実施形態は、その趣旨を逸脱しない範囲で、種々変形して実施することができる。

図３は、本実施例に係る状態検出装置３００を説明する図である。
状態検出装置３００は、基本モデル記憶手段３０１と、対応関係情報記憶手段３０２と、第１のモデル生成手段３０３と、第２のモデル生成手段３０４と、尤度算出手段３０５と、状態判別手段３０６と、を備える。

基本モデル記憶手段３０１は、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶装置である。基本モデルは、例えば、ＧＭＭなどを用いて定義することができる情報である。

対応関係情報記憶手段３０２は、第１の不特定話者モデルと第２の不特定話者モデルとの対応関係を示す対応関係情報を記憶するための記憶装置である。第１の不特定話者モデルは、非抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。また、第２の不特定話者モデルは、抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。第１の不特定話者モデルおよび第２の不特定話者モデルは、例えば、ＧＭＭなどを用いて定義することができる情報である。したがって、第１の不特定話者モデルと第２の不特定話者モデルとの対応関係は、例えば、ＧＭＭに含まれるパラメータによって表すことができる。第１のモデル生成手段３０３は、非抑圧状態における特定の話者の音声の特徴を抽出し、抽出した特徴を示すように基本モデルを調整することにより、非抑圧状態における特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する。例えば、第１のモデル生成手段３０３は、非抑圧状態における特定の話者の音声の特徴を示すように、基本モデルに含まれるパラメータを調整する。

第２のモデル生成手段３０４は、対応関係情報に基づいて、第１の不特定話者モデルに対する第２の不特定話者モデルへの変位量を、第１の特定話者モデルに反映する。これにより、第２のモデル生成手段３０４は、抑圧状態における特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する。例えば、第２のモデル生成手段３０４は、第１の不特定話者モデルに含まれるパラメータ対する、第２の不特定話者モデルに含まれるパラメータへの変位量を、第１の特定話者モデルに含まれるパラメータに反映する。

尤度算出手段３０５は、入力音声の特徴に対する第１の特定話者モデルの尤度である第１の尤度と、入力音声に対する第２の特定話者モデルの尤度である第２の尤度と、を算出する。

状態判別手段３０６は、第１の尤度および第２の尤度に基づいて、入力音声の話者の状態を判別する。
以上のように、状態検出装置３００は、非抑圧状態における特定の話者の音声から、非抑圧状態における特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する。そして、状態検出装置３００は、対応関係情報に基づいて、第１の特定話者モデルから、抑圧状態における特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する。

このように、状態検出装置３００は、特定の話者に特化した第１の特定話者モデルと、その第１の特定話者モデルから生成した特定話者向け異常状態モデルと、を使用して、入力音声の状態を判別する。その結果、状態検出装置３００は、特定の話者についての状態検出を高い精度で行うことができる。

また、状態検出装置３００は、対応関係情報に基づいて、第１の特定話者モデルから第２の特定話者モデルを生成するので、抑圧状態における特定の話者の音声から第２の特定話者モデルを生成する必要がなくなる。その結果、状態検出装置３００は、利用者の音声登録時にかかる負荷を抑えることができる。

その他の実施例１

図４は、本実施例に係る状態検出装置４００を説明する図である。
状態検出装置４００は、記憶部４１０〜４４０と、平静状態モデル作成部４５０と、異常状態モデル作成部４６０と、特徴パラメータ抽出部４７０と、尤度計算部４８０と、尤度比較部４９０と、を備える。

なお、図４では、状態検出装置４００が行う処理の理解を容易にするために、「話者の登録」および「話者の状態検出」の処理毎に、使用する装置を記載しているが、状態検出装置４００の構成を、例えば、装置の配置や装置間の接続などを限定する趣旨ではない。また、図４では、記憶部４１０〜４４０を異なる記憶部として記載しているが、記憶部４１０〜４４０を１つの記憶部で実現してもよいのは当然である。

記憶部４１０は、あらかじめ作成された基本モデルを記憶する記憶装置である。基本モデルは、不特定の話者から採取した大量の発声データから抽出した特徴パラメータをＧＭＭを用いて定量化したモデルである。

本実施例では、特徴パラメータとして、音声波形に含まれる非言語情報を用いる。非言語情報とは、音声波形に含まれる言語認識に必要な情報以外の情報をいう。例えば、話者が音声を発する時に生じるパルス信号に関連する情報や、話者が音声を発する時に生じるパルス信号の時間変化に関連する情報、などを特徴パラメータとして使用することができる。ただし、特徴パラメータとして、音声波形に含まれる言語認識に必要な情報を使用することを排除する趣旨ではない。

話者が音声を発する時に生じるパルス信号に関連する情報として、話者の音声データについてのＬＰＣ残差信号から求まる対数ＬＰＣ残差パワーを使用することができる。また、話者が音声を発する時に生じるパルス信号の時間変化に関連する情報として、話者の音声データについてのＬＰＣ残差信号から求まるΔ対数ＬＰＣ残差パワーを使用することができる。

なお、本実施例では、特徴パラメータとして、対数ＬＰＣ残差パワーとΔＬＰＣ残差パワーを使用するが、特徴パラメータを対数ＬＰＣ残差パワーとΔＬＰＣ残差パワーに限定する趣旨ではない。特徴パラメータは、話者の音声波形に含まれる非言語情報であればよい。

例えば、特徴パラメータとして、音声の抑揚に関連する情報を使用することもできる。これは、話者は、リラックスした状態では抑揚をつけて発話するが、ストレスを感じた状態では無意識に抑揚を抑えて発話する、という傾向を特徴として利用するものである。音声の抑揚に関連する情報として、話者の音声データから求められるピッチ周波数幅を使用することができる。

また、特徴パラメータとして、音声の大きさに関する情報を使用することもできる。これは、話者にストレスがかかると声帯へのエネルギー供給が弱くなる傾向を特徴として利用するものである。音声の大きさに関する情報として、高周波数域におけるＬＰＣ残差スペクトルについての平坦さを数値化した値、例えば、幾何平均や算術平均を使用することができる。

記憶部４２０は、特定の話者の平静状態での音声の特徴を表す特定話者向け平静状態モデルを記憶する記憶装置である。また、記憶部４４０は、特定の話者の異常状態での音声の特徴を表す特定話者向け異常状態モデルを記憶する記憶装置である。

なお、平静状態とは、異常状態を判別するための基準の状態である。例えば、平静状態の音声には、状態検出装置４００の利用者等が平静状態と判断した状態で発した音声を利用することができる。したがって、異常状態の音声には、状態検出装置４００の利用者等が平静状態と判断した状態と異なる状態で発した音声を利用することができる。

記憶部４３０は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとの対応関係を示す対応関係表４３１を記憶する記憶装置である。本実施例に係る対応関係表４３１には、ＧＭＭに含まれるパラメータのうち、平均値と分散を使用する。したがって、対応関係表４３１には、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを対比した場合における、平均値の移動量と、分散値の変化量と、を分布毎に記憶した情報が含まれる。

ここで、対応関係表４３１は、不特定話者向け平静状態モデルから不特定話者向け異常状態モデルへの変位量を示す情報である。したがって、対応関係表４３１に示す変位量を利用して、特定話者向け平静状態モデルから特定話者向け異常状態モデルを簡単に類推することができる。

例えば、対応関係表４３１を利用し、特定話者向け平静状態モデルにおける、分布番号＃１、＃２、・・・の分布の平均値をμ_１’、μ_２’、・・・だけ調整し、分布の分散をσ_１’^２、σ_２’^２、・・・だけ調整すると、特定話者向け異常状態モデルを得ることができる。

なお、本実施例では、対応関係表４３１に、ＧＭＭに含まれるパラメータのうち、平均値と分散を使用しているが、例えば、対応関係表４３１には、ＧＭＭに含まれるパラメータの一つである分布の重みの変化量を含むこともできる。

（話者の登録）
以下、話者の登録時の状態検出装置４００の動作の概要を説明する。
例えば、話者Ｆの平静状態時の発話データが入力されると、平静状態モデル作成部４５０は、話者Ｆの平静状態時の発話データに、基本モデルを適応させて話者Ｆについての特定話者向け平静状態モデルを作成する。そして、平静状態モデル作成部４５０は、作成した特定話者向け平静状態モデルを記憶部４２０に記憶する。

さらに、異常状態モデル作成部４６０は、話者Ｆについての特定話者向け平静状態モデルに含まれるパラメータのうち、平均値と分散を、対応関係表４３１にしたがって調整することにより、話者Ｆについての特定話者向け異常状態モデルを作成する。そして、異常状態モデル作成部４６０は、作成した特定話者向け異常状態モデルを記憶部４４０に記憶する。以上で、話者Ｆの登録が完了する。

（話者の状態検出）
以下、話者の状態検出時の状態検出装置４００の動作を説明する。
例えば、話者Ｆの発話データが入力されると、特徴パラメータ抽出部４７０は、入力された話者Ｆの発話データから特徴パラメータを抽出する。すると、尤度計算部４８０は、記憶部４２０から話者Ｆについての特定話者向け平静状態モデルを読み出す。そして、尤度計算部４８０は、特徴パラメータ抽出部４７０が抽出した特徴パラメータに対する、話者Ｆについての特定話者向け平静状態モデルの尤度を計算する。同様に、尤度計算部４８０は、記憶部４４０から話者Ｆについての特定話者向け異常状態モデルを読み出す。そして、尤度計算部４８０は、特徴パラメータ抽出部４７０が抽出した特徴パラメータに対する、話者Ｆについての特定話者向け異常状態モデルの尤度を計算する。

尤度比較部４９０は、尤度計算部４８０が算出した２つの尤度を比較して、話者Ｆの状態、すなわち、話者Ｆが平静状態か異常状態か、を判別する。そして、尤度比較部４９０は、判別結果を所定の装置等に出力する。以上で、話者Ｆの状態検出が完了する。

図５は、本実施例に係る対応関係表４３１の具体例を示す図である。
対応関係表４３１は、ＧＭＭに含まれる分布毎の、平均値の移動量と、分散値の変化量と、を含んでいる。なお、図５に示す対応関係表４３１は、平均値と分散値が２次元の場合について例示しているが、平均値や分散値が２次元である場合に対応関係表４３１を限定する趣旨ではない
平均値の移動量は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを比較した場合における、不特定話者向け平静状態モデルの平均値から、不特定話者向け異常状態の平均値への移動量を示している。また、分散の変化量は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを比較した場合における、不特定話者向け平静状態モデルの分散から、不特定話者向け異常状態の分散への変化量を示している。

図６は、本実施例に係る特定話者向け平静状態モデルおよび特定話者向け異常状態モデルの作成について説明する図である。なお、図６に記載の（１）および（２）は、下記（１）および（２）に対応する。また、座標６０１および６０２の＃１〜＃３は、分布番号を示す。

（１）特定話者向け平静状態モデルの作成
例えば、基本モデルが、座標６０１に示す点線で囲われた分布ａで表されるものとする。話者Ｆの平静状態発話データが入力されると、平静状態モデル作成部４５０は、話者Ｆの平静状態発話データから特徴パラメータを抽出する。抽出した特徴パラメータに含まれる特徴量ベクトルは、例えば、座標６０１に示す●印のような分布を示す。なお、特徴量ベクトルの詳細については、図７で後述する。

平静状態モデル作成部４５０は、話者Ｆの平静状態発話データから抽出した特徴パラメータを用いて基本モデルにＢaｙｅｓｉａｎ適応を行うことにより、話者Ｆについての特定話者向け平静状態モデルを推定する。このＢaｙｅｓｉａｎ適応については、例えば、非特許文献３などで公知となっている。Ｂａｙｅｓｉａｎ適応により、基本モデルの分布ａから、話者Ｆについての特定話者向け平静状態モデルの分布、例えば、座標６０１に示す実線で囲われた分布ｂがモデルとして推定される。

（２）特定話者向け異常状態モデルの作成
話者Ｆについての特定話者向け平静状態モデルの推定が完了すると、異常状態モデル作成部４６０は、対応関係表４３１にしたがって、話者Ｆについての特定話者向け平静状態モデルを表すＧＭＭに含まれるパラメータのうち、平均値と分散を調整する。これにより、話者Ｆについての特定話者向け平静状態モデルから、話者Ｆについての特定話者向け異常状態モデルの分布、例えば、座標６０２に示す一点破線で囲われた分布ｃが推定される。

例えば、座標６０２の分布＃１を見ると、分布ｂの平均値が、対応関係表４３１にしたがって、ｘ１方向に−０．５だけ調整され、ｘ２方向に０．１だけ調整される。また、分布ｂの分散が、対応関係表４３１にしたがって、ｘ１方向に−０．０２だけ調整される。その結果、分布ｂから分布ｃのような分布が得られる。

なお、図６では、説明を簡単にするために、特徴量ベクトルが２次元の場合について説明したが、特徴量ベクトルを２次元の場合に限定する趣旨ではない。また、図６では、分布＃１〜＃３の３つの分布だけを示しているが、これは例示であって、分布が３つの場合に限定する趣旨ではない。

（話者の登録時の具体的な処理）
図７は、本実施例に係る話者の登録時の処理を示すフローチャートである。
利用者が、状態検出装置４００に備わる入力装置等を介して所定の操作を行うと、状態検出装置４００は、以下の処理を開始する（ステップＳ７００）。

ステップＳ７０１において、状態検出装置４００は、利用者の指示にしたがって、状態検出装置４００に備わるマイク等から取得した話者の音声をデジタル化して発話データを生成する。そして、状態検出装置４００は、生成した発話データをストレージ等に記憶する。

ステップＳ７０２において、状態検出装置４００は、ステップＳ７０１で生成した発話データから特徴パラメータＸを抽出する。特徴パラメータＸは、例えば、非特許文献１の１．２節にしたがって、以下のようにして抽出することができる。

まず、状態検出装置４００は、ステップＳ７０１で生成した発話データをフレーム化する。このフレーム化の処理において、状態検出装置４００は、発話データの信号系列から、あらかじめ決められたフレーム長Ｎの区間毎に信号を取り出す。このとき、状態検出装置４００は、ある区間と次の区間とが一定期間だけオーバーラップするように、フレームシフト長Ｔだけシフトして次の区間を決定する。例えば、フレーム長Ｎには２０〜４０ｍｓ程度の値が、フレームシフト長Ｔには１０〜２０ｍｓ程度の値を用いることができる。

次に、状態検出装置４００は、次式にしたがって、フレーム化した発話データの信号系列Ｓ（ｎ）と、分析窓と呼ばれる重みと、の積を算出して、信号系列Ｓ_ｗ（ｍ；ｌ）を求める。分析窓としては、ハミング窓ｗ（ｌ）を用いることができる。

なお、状態検出装置４００が式にしたがって演算を行うという場合、例えば、後述するＤＳＰ１５０１が、その式に応じたアルゴリズムを含むプログラム命令にしたがって、メモリ上に展開されたデータを操作・変更して所定の演算結果を生成することを意味する。

・・・（１）

ここで、ハミング窓ｗ（ｎ）は、次式で表すことができる。

・・・（２）

上記式（１）において、添え字ｌは、信号の取り出し位置に対応している。したがって、ｌをフレームシフト長Ｔの間隔で増加させることにより、フレーム長Ｎのフレーム化された信号系列Ｓ_ｗ（ｎ）（ｎ＝０，１，．．．，Ｎ−１）が得られる。

次に、状態検出装置４００は、フレーム化された信号系列列Ｓ_ｗ（ｎ）から、特徴パラメータを抽出する。本実施例では、話者が発声する時に検出されるパルス信号の強さと、話者が発声する時に検出されるパルス信号の時間変化と、に関連する関連するパラメータを、特徴パラメータとして抽出する。

以下では、話者が発声する時に検出されるパルス信号の強さに関連するパラメータとして対数ＬＰＣ残差パワー、話者が発声する時に検出されるパルス信号の時間変化と関連するパラメータとしてΔ対数ＬＰＣ残差パワーを使用する場合について説明する。なお、ＬＰＣ残差信号は、非特許文献１の１．２．２節の記載を利用して求めることができる。

今、音声を全極型の伝達関数で規定する場合の線形予測係数をａ_ｉ（ｉ＝１，２，・・・，ｐ）とする。この線形予測計数ａ_ｉは、Ｌｅｖｉｎｓｏｎ−Ｄｕｒｂｉｎ法などの公知の手法により求めることができる。

線形予測係数ａ_ｉの計算が完了すると、状態検出装置４００は、次式にしたがって、過去のp個のサンプルからＳ_ｗ（ｎ）の推定値を算出する。

・・・（３）

ＬＰＣ残差信号ｅ（ｎ）は、式（３）で求めた推定値と、実際に観測された音声から求めたＳ_ｗ（ｎ）と、の差によって求めることができる。したがって、状態検出装置４００は、次式にしたがって、ＬＰＣ残差信号ｅ（ｎ）を算出する。

・・・（４）

そして、状態検出装置４００は、フレームｌにおけるＬＰＣ残差信号の対数パワー、すなわち、フレームｌにおける対数ＬＰＣ残差パワーを、次式にしたがって算出する。

・・・（５）

また、状態検出装置４００は、Δ対数ＬＰＣ残差パワーを、次式にしたがって算出する。

・・・（６）

なお、Δは動的特徴と呼ばれ、対数パワーの時間軸に沿った変化の回帰係数として求めることができる。例えば、非特許文献1の１．３．１節の（１・２１）では、回帰係数としてケプストラム係数を求める例が記載されている。なお、本実施例に係る特徴パラメータには、対数ＬＰＣ残差パワーの変化量の大きさを使用するために、右辺の分子では絶対値をとっている。

以上のようにして求めた２つのパラメータ、すなわち、フレームｌにおける対数ＬＰＣ残差パワーおよびΔ対数ＬＰＣ残差パワーは、２次元ベクトルＸ_ｌを用いて表すことができる。このベクトルＸ_ｌを「特徴量ベクトル」という。また、特徴量ベクトルの系列全体を指して「特徴パラメータＸ」という。

特徴パラメータＸの抽出が完了すると、状態検出装置４００は、処理をステップＳ７０３に移行する。
ステップＳ７０３において、状態検出装置４００は、話者Ｆについての特定話者向け平静状態モデルを作成する。本実施例に係る特定話者向け平静状態モデルは、ＧＭＭを用いて表すことができる。したがって、ステップＳ７０３では、話者Ｆについての特定話者向け平静状態モデルに含まれるモデルパラメータλcalm_userを、以下のように求める。

ステップＳ７０２において、話者Ｆの平静状態の発話データからＴcalm_user個のフレームを生成したとする。この場合、状態検出装置４００は、次式にしたがって、ステップＳ７０２で求めた特徴パラメータに対する、Ｂａｙｅｓｉａｎ適用に対応する確率的な意味でのフレーム数を算出する。λgenは後述するＧＭＭの基本パラメータである。またＫはＧＭＭを構成する正規分布の個数を表す。

・・・（７）

また、状態検出装置４００は、次式にしたがって、一次モーメントを算出する。

・・・（８）

また、状態検出装置４００は、次式にしたがって、二次モーメントを算出する。

・・・（９）

ここで、データ依存の適応係数α_１，ｉ ^ρ、ρ＝｛ｗ，ｍ，ｖ｝は、「Ｂａｙｅｓｉａｎｆａｃｔｏｒ」と呼ばれる適応の度合いを調整するパラメータγを用いて、次式で求められる。なお、ρは、ガウス密度関数の重み(ｗ)、平均値(ｍ)または分散(ｖ)を表すインデックス（添え字）であり、数値ではない。

・・・（１０）

そこで、状態検出装置４００は、次式にしたがって、ＧＭＭに含まれるモデルパラメータ、すなわち、ＧＭＭに含まれる各ガウス密度関数の重みｐ_１，ｉ，平均値μ_１，ｉおよび分散σ_１，ｉ ^２を算出する。

・・・（１１）

・・・（１２）

・・・（１３）

なお、γ_１は、ＧＭＭに含まれる全てのガウス密度関数の重みｐ_１，ｉの総和が１．０となるように補正するスケールファクタ定数である。このスケールファクタ定数γ_１は、次式で求めることができる。

・・・（１４）

状態検出装置４００は、以上の計算を１度だけ行うことで、話者Ｆについての特定話者向け平静状態モデルのモデルパラメータλcalm_userを算出することができる。

・・・（１５）

以上の処理によって、話者Ｆについての特定話者向け平静状態モデルが作成される。
話者Ｆについての特定話者向け平静状態モデルの作成が完了すると、状態検出装置４００は、話者Ｆについての特定話者向け平静状態モデルのモデルパラメータλcalm_userを記憶部４２０に記憶する。そして、状態検出装置４００は、処理をステップＳ７０４に移行する。

ステップＳ７０４において、状態検出装置４００は、対応関係表４３１にしたがって、ステップＳ７０３で求めた話者Ｆについての特定話者向け平静状態モデルのモデルパラメータλcalm_userを補正して、話者Ｆについての特定話者向け異常状態モデルを作成する。状態検出装置４００は、次式にしたがって、話者Ｆについての特定話者向け異常状態モデルのモデルパラメータλabn_userに含まれる平均値‘μ_１，ｉおよび分散‘σ_１，ｉ ^２を算出する。なお、本実施例では、モデルパラメータλabn_userに含まれる重み‘ｐ_１，ｉには、ステップＳ７０３で求めたモデルパラメータλcalm_userに含まれるｐ_１，ｉを使用する。

状態検出装置４００は、次式にしたがって、平均値‘μ_１，ｉを算出する。

・・・（１６）

また、状態検出装置４００は、
・・・（１７）
ならば、次式にしたがって、分散‘σ_１，ｉ ^２を算出する。

・・・（１８）

また、状態検出装置４００は、
・・・（１９）
ならば、次式にしたがって、分散‘σ_１，ｉ ^２を算出する。

・・・（２０）

ここで、例えば、β＝０．１とすることができる。これは、特定話者向け正常状態モデルの分散に対する特定話者向け異常状態モデルの分散の減少幅を、特定話者向け平静状態モデルの分散の１０分の１程度にまでに抑えるためである。これにより、特定の数値に対して非常に確率が高くなる過学習の状態になるのを防ぐことができる。

以上の処理によって、状態検出装置４００は、話者Ｆについての特定話者向け異常状態モデルのモデルパラメータλabn_userを求める。したがって、話者Ｆについての特定話者向け異常状態モデルが作成されたことになる。

・・・（２１）

なお、本実施例では、特定話者向け異常状態モデルの分布の重み‘ｐ_ｉには、特定話者向け平静状態モデルの分散の重みをそのまま使用する。ただし、特定話者向け異常状態モデルの分布の重み‘ｐ_ｉは、次式のように、不特定話者向け平静状態モデルの分布の重みｐ_２，ｉから不特定話者向け異常状態モデルの分布の重みｐ_３，ｉへの変化量を使って補正することもできる。不特定話者向け平静状態モデルの分布の重みｐ_２，ｉおよび不特定話者向け異常状態モデルの分布の重みｐ_３，ｉについては、図１１で後述する。

・・・（２２）
この場合、負の重みは意味がないので、‘ｐ_ｉ≦０のときは‘ｐ_ｉ＝０とする。

以上の処理が終了すると、状態検出装置４００は、話者Ｆの特定話者向け異常状態モデルのモデルパラメータλabn_userを記憶部４４０に記憶する。そして、状態検出装置４００は、話者の登録時の処理を終了する（ステップＳ７０５）。

（話者の状態検出時の具体的な処理）
図８は、本実施例に係る話者の状態検出の処理を示すフローチャートである。
ステップＳ８０１において、状態検出装置４００は、利用者の指示にしたがって、状態検出装置４００に備わるマイク等から取得した話者Ｆの音声をデジタル化して発話データを生成する。そして、状態検出装置４００は、生成した発話データをストレージ等に記憶する。

ステップＳ８０２において、状態検出装置４００は、ステップＳ８０１で生成した発話データから特徴パラメータＸを抽出する。特徴パラメータＸの抽出は、図７のステップＳ７０２で説明した処理と同様の処理によって行うことができる。したがって、特徴パラメータＸの抽出についての説明は省略する。

ステップＳ８０３において、状態検出装置４００は、次式にしたがって、ステップＳ８０２で抽出した特徴パラメータＸの、ユーザＦの特定話者向け平静状態モデルに対する平均対数尤度Ｌ（Ｘ｜λcalm_user）を算出する。

・・・（２３）

ステップＳ８０４において、状態検出装置４００は、次式にしたがって、ステップＳ８０２で抽出した特徴パラメータＸの、ユーザＦの特定話者向け異常状態モデルに対する平均対数尤度Ｌ（Ｘ｜λabn_user）を算出する。

・・・（２４）

ステップＳ８０５において、状態検出装置４００は、次式にしたがって、ステップＳ８０３で算出した平均対数尤度Ｌ（Ｘ｜λcalm_user）と、ステップＳ８０４で算出した平均対数尤度Ｌ（Ｘ｜λabn_user）と、の比、すなわち、尤度比Λ（Ｘ）を算出する。

・・・（２５）

ステップＳ８０５で算出した尤度比Λ（Ｘ）が閾値ＴＨ１未満の場合（ステップＳ８０６ＮＯ）、状態検出装置４００は、話者Ｆが異常状態にあると判定する（ステップＳ８０７）。この場合、状態検出装置４００は、話者Ｆが異常状態にある旨の判定結果を所定の装置に出力する。また、ステップＳ８０５で算出した尤度比Λ（Ｘ）が閾値ＴＨ１以上の場合（ステップＳ８０６ＹＥＳ）、状態検出装置４００は、話者Ｆが平静状態にあると判定する（ステップＳ８０８）。この場合、状態検出装置４００は、話者Ｆが正常状態にある旨の判定結果を所定の装置に出力する。
以上の処理が終了すると、状態検出装置４００は、話者の状態検出の処理を終了する（ステップＳ８０９）。

（事前準備）
本実施例に係る状態検出装置４００を用いて話者の状態検出を行うには、所定の事前準備を行う必要がある。この事前準備では、状態検出に使用する対応関係表４３１が作成される。

事前準備は、状態検出装置４００とデータの授受が可能な情報処理装置９００によって行うことができる。この場合、情報処理装置９００は、ネットワークや専用回線で装置間を接続して直接データの授受を行ってもよいし、記憶媒体を介してデータの授受を行ってもよい。ただし、状態検出装置２００自身が事前準備を行ってもよい。

以下では、事前準備について、図９および図１０を参照しながら説明する。
図９は、本実施例に係る事前準備の概要を説明する図である。また、図１０は、図９に示す事前準備で行われる処理の概要を説明する図である。なお、以下に記載する（１）〜（５）は、図９に記載の（１）〜（５）に対応する。

（１）クラスタリング
事前準備では、基本モデルを作成するために、あらかじめ用意された学習用データ９０１を使用する。学習データ９０１には、音声認識に使用する音響モデルの作成に使用される音声データベースをを使用する用いることができる。音響モデルには、様々な音声の波形データから抽出した特徴を含むことができる。

学習用データ９０１が与えられると、情報処理装置９００は、学習用データ９０１から特徴パラメータを抽出する。そして、抽出した特徴パラメータに対してクラスタリングを行って、図９のａに例示するように、特徴パラメータに含まれる特徴量ベクトルを複数のクラスタに分割する。

このクラスタリングには、例えば、図１０の（Ａ）に記載すように、Ｋ平均（Ｋ−ｍｅａｎｓ）法を用いることができる。図９および図１０のａにおいて、×印は特徴パラメータに含まれる特徴量ベクトルを示し、◇印はコードブックベクトルを示している。また、破線はクラスタの境界を示している。特徴パラメータに含まれる特徴量ベクトルは、Ｋ平均法を使用したクラスタリングによって、複数のクラスタに分割される。各クラスタは、コードブックベクトルを中心とした複数の特徴量ベクトルを含む。なお、図９および図１０のａでは、図の簡単のために、３つのクラスタに特徴量ベクトルを分割した例を示しているが、分割するクラスタの数を限定する趣旨ではないのでは当然である。

（２）基本モデル作成
特徴パラメータのクラスタリングが完了すると、情報処理装置９００は、複数のクラスタに分割された特徴パラメータから、ＧＭＭのモデルパラメータλ_ｇｅｎを算出する。この算出したモデルパラメータλ_ｇｅｎで特定されるＧＭＭが基本モデルとなる。具体的には、以下のような処理が行われる。

まず、情報処理装置９００は、複数のクラスタに分割された特徴パラメータからモデルパラメータλ_ｉｎｉｔを算出する。すると、例えば、図１０の（Ａ）に示した特徴パラメータから図１０の（Ｂ１）に示す、分布ｂ１〜ｂ３を含む初期ＧＭＭが作成される。

そして、情報処理装置９００は、ＥＭアルゴリズムを用いて、初期ＧＭＭのモデルパラメータλ_ｉｎｉｔを一定の値に集束するまで更新する。この一定の値に集束したモデルパラメータλ_ｉｎｉｔが、基本モデルのモデルパラメータλ_ｇｅｎとなる。その結果、例えば、図１０の（Ｂ１）に示した初期ＧＭＭから図１０の（Ｂ２）に示す、分布ｃ１〜ｃ３を含む基本モデルが推定される。

（３）モデル適応
基本モデルの作成が完了すると、情報処理装置９００は、あらかじめ用意された、多数の平静状態発話データ９０２に基本モデルを適応させて、不特定話者向け平静状態モデルのモデルパラメータλcalmを算出する。

本実施例では、多数の平静状態発話データ９０２に基本モデルを適応させる処理に、Ｂａｙｅｓｉａｎ適応を利用する。多数の平静状態発話データ９０２から抽出した特徴パラメータを用いたＢａｙｅｓｉａｎ適応により、例えば、図１０の（Ｂ２）に示した基本モデルから図１０の（Ｃ）に示す、分布ｄ１〜ｄ３を含む不特定話者向け平静状態モデルが推定される。なお、図１０の（Ｃ）に記載の○印は、学習用話者セットの平静状態発話データから抽出した特徴パラメータに含まれる特徴量ベクトルを示している。

（４）モデル適応
不特定話者向け平静状態モデルの作成が完了すると、情報処理装置９００は、あらかじめ用意された、多数の異常状態発話データ９０３に不特定話者向け平静状態モデルを適応させて、不特定話者向け異常状態モデルのモデルパラメータλabnを算出する。

本実施例では、多数の異常状態発話データ９０３に不特定話者向け平静状態モデルを適応させる処理にも、Ｂａｙｅｓｉａｎ適応を利用する。多数の異常状態発話データ９０３の特徴パラメータを用いたＢａｙｅｓｉａｎ適応により、例えば、図１０の（Ｃ）に示した不特定話者向け平静状態モデルから図１０の（Ｄ）に示す、分布ｅ１〜ｅ３を含む不特定話者向け異常状態モデルが推定される。なお、図１０の（Ｄ）に記載の△印は、学習用話者セットの異常状態発話データから抽出した特徴パラメータに含まれる特徴量ベクトルを示している。

（５）変化量の算出
不特定話者向け平静状態モデルと不特定話者向け異常状態モデルの作成が完了すると、情報処理装置９００は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとの変化量を算出する。なお、本実施例では、不特定話者向け平静状態モデルも不特定話者向け異常状態モデルもＧＭＭで表される。そこで、本実施例では、情報処理装置９００は、ＧＭＭに含まれるモデルパラメータのうち、平均値および分散についての分布毎の変化量を算出する。算出の結果、対応関係表４３１が得られる。

（事前準備での具体的な処理）
図１１は、本実施例に係る事前準備の処理を示すフローチャートである。
以下の処理は、非特許文献２の２．１節および２．２節の記載を利用して行うことができる。

ステップＳ１１０１において、情報処理装置９００は、クラスタに初期値を割当てる。具体的には、情報処理装置９００は、クラスタの中心を規定するコードブックベクトルｍ_ｉ（ｌ）（ｉ＝１，２，・・・、Ｋ）の初期値をランダムに決定し、コードブックベクトルｍ_ｉ（ｌ）を作成する。

本実施例では、Ｋ＝１０２４とする。この場合、情報処理装置９００は、学習用データから抽出した特徴パラメータに含まれるＴ個の特徴量ベクトルからランダムに１０２４個を選択する。そして、情報処理装置９００は、選んだ１０２４個の特徴量ベクトルをコードブックベクトルの初期値として設定する。ただし、ＫをＫ＝１０２４に限定する趣旨ではない。

ステップＳ１１０２において、情報処理装置９００は、特徴量ベクトルを各クラスタに割当てる。具体的には、情報処理装置９００は、学習用データから抽出した特徴パラメータに含まれるＴ個の特徴量ベクトルのうち、コードブックベクトルｍ_ｉ（ｌ）の初期値として使用したもの以外の特徴量ベクトルを、最も近いクラスタの中心を示すコードベクトルｍ_ｉ（ｌ）に割当てる。なお、特徴量ベクトルＸ_ｉに対して最も近いクラスタの中心を示すコードベクトルｍ_ｉ（ｌ）は、次式で算出することができる。

・・・（２６）

ステップＳ１１０３において、情報処理装置９００は、クラスタ毎に、ステップＳ１１０２でクラスタに割当てた特徴量ベクトルの重心を算出する。そして、情報処理装置９００は、算出した重心によって、クラスタの中心を示すコードベクトルｍ_ｉ（ｌ）を更新する。

ステップＳ１１０３でのコードベクトルｍ_ｉ（ｌ）の更新量が閾値以上の場合、情報処理装置９００は、クラスタの中心が変化したと判断する（ステップＳ１１０４ＮＯ）。この場合、情報処理装置９００は、処理をステップＳ１１０２に移行する。

また、ステップＳ１１０３でのコードベクトルｍ_ｉ（ｌ）の更新量が閾値未満の場合、情報処理装置９００は、クラスタの中心に変化がないと判断する（ステップＳ１１０４ＹＥＳ）。この場合、情報処理装置９００は、処理をステップＳ１１０５に移行する。

ステップＳ１１０５において、情報処理装置９００は、ステップＳ１１０１〜Ｓ１１０４の処理によって各クラスタに割り当たられた特徴量ベクトルから、初期ＧＭＭのモデルパラメータλ_ｉｎｉｔを算出する。

例えば、情報処理装置９００は、クラスタｉに割当てられた特徴量ベクトルの平均値μ_ｉを算出する。また、情報処理装置９００は、クラスタｉに割当てられた特徴量ベクトルの分散σ_ｉ ^２を算出する。また、情報処理装置９００は、学習用データから算出した特徴量ベクトルＴ個のうち、クラスタｉに割当てられた特徴量ベクトルの数の総特徴ベクトル数に対する割合を算出する。この算出した割合が、混合分布の重みｐ_ｉとして使用される。

ステップＳ１１０６において、情報処理装置９００は、以下の演算を行って、基本モデルのモデルパラメータλ_ｇｅｎを算出する。

なお、以下に説明する演算は、例えば、非特許文献３などに記載されているＥＭアルゴリズムを利用して行うことができる。ただし、本実施例の説明に一貫性を持たせるために、非特許文献３ではフレーム番号を表すインデックスにiを使用しているが、本実施例ではフレーム番号を表すインデックスにiではなくlを使用する。そして、本実施例ではクラスタ番号を表すインデックスにｉを使用する。また、非特許文献３では混合数にＭを使用しているが、本実施例では混合数にＫを使用する。また、非特許文献３では次元数としてＮを使用しているが、本実施例では次元数にＤを使用する。

例えば、フレームｌにおけるＤ次元の特徴量ベクトルＸ_ｌに対する混合数ＫのＧＭＭは次式で表すことができる。

・・・（２７）

ここで、Ｄ次元の特徴パラメータＸ_ｌに対するi番目のガウス関数の確率密度は次式で表すことができる。

・・・（２８）

上記式（２９）において、ΣはＤ×Ｄの共分散行列を表す。共分散行列の対角成分のみ成分を持つと仮定すると、Σは次式で表すことができる。

・・・（２９）

したがって、Ｄ次元の特徴パラメータＸ_ｌに対するi番目のガウス関数の確率密度は次式で表すことができる。

・・・（３０）

また、モデルパラメータλは
・・・（３１）
と表すことができる。

そこで、情報処理装置９００は、初期ＧＭＭのモデルパラメータλ_ｉｎｉｔを代入した次式にしたがって、Ｔ個の特徴量ベクトルを含む特徴パラメータ｛Ｘ｝に対する初期ＧＭＭの対数尤度Ｌ_０（Ｘ｜λ_ｉｎｉｔ）を算出する。

・・・（３２）

次に、情報処理装置９００は、次式にしたがって、式（２８）に示したＧＭＭに含まれるi番目のガウス密度関数の平均値μ_０，ｉと分散σ_０，ｉ ^２および重みｐ_０，ｉを算出する。

・・・（３３）

・・・（３４）

・・・（３５）

ただし、i番目のガウス関数に対する事後確率は次式で与えられる。

・・・（３６）

以上の計算が終了すると、情報処理装置９００は、算出したモデルパラメータλ＝｛μ_０，ｉ，σ_０，ｉ ^２，ｐ_０，ｉ｝を代入した式（３３）にしたがって、Ｔ個の特徴量ベクトルを含む特徴パラメータ｛Ｘ｝に対するＧＭＭの対数尤度Ｌ_１（Ｘ｜λ）を算出する。

前回算出した対数尤度Ｌ_０（Ｘ｜λ_ｉｎｉｔ）に対する対数尤度Ｌ_１（Ｘ｜λ）の増加度合いが閾値以上の場合、情報処理装置９００は、式（３４）〜（３７）に基づいた演算を行ってモデルパラメータλを算出する。同様に、ｎ回目に算出した対数尤度Ｌ_ｎ（Ｘ｜λ）に対する、ｎ＋１回目に算出した対数尤度Ｌ_ｎ＋１（Ｘ｜λ）の増加度合いが閾値未満となるまで、式（３４）〜（３７）に基づいた演算を行ってモデルパラメータλを算出する。

また、ｎ回目に算出した対数尤度Ｌ_ｎ（Ｘ｜λ）に対する、ｎ＋１回目に算出した対数尤度Ｌ_ｎ＋１（Ｘ｜λ）の増加度合いが閾値未満の場合、情報処理装置９００は、ＥＭアルゴリズムによるＧＭＭの算出処理を終了する。

以上の処理によって、情報処理装置９００は、基本モデルのモデルパラメータλ_ｇｅｎを算出することができる。モデルパラメータλ_ｇｅｎは、次式で表すことができる。

・・・（３７）

以上の処理によって、基本モデルが推定される。

基本モデルのモデルパラメータλ_ｇｅｎを算出すると、情報処理装置９００は、処理をステップＳ１１０７に移行する。

ステップＳ１１０７において、情報処理装置９００は、以下の演算を行って、多数の平静状態話者データ９０２に、基本モデルを適応させることにより不特定話者向け平静状態モデルのモデルパラメータλcalmを算出する。

なお、以下に説明する演算には、特許文献４などに開示されているＢａｙｅｓｉａｎ適応を用いることができる。Ｂａｙｅｓｉａｎ適応を用いる場合、Ｂａｙｅｓｉａｎ適応前の分布と、Ｂａｙｅｓｉａｎ適応後の分布との対応関係が把握しやすい。例えば、ある分布番号の分布におけるＢａｙｅｓｉａｎ適応前後の変化量は、同じ分布番号の分布の数値を比較することで得ることができる。ただし、本実施例の説明に一貫性を持たせるために、非特許文献４では、フレーム番号のインデックスにＴを使用しているが、本実施例ではフレーム番号のインデックスにＬを使用する。また、非特許文献４ではｉ番目のガウス密度関数の重みをｗ_ｉで表しているが、本実施例ではｉ番目のガウス密度関数の重みをｐ_ｉで表す。また、非特許文献４ではｉ番目のガウス密度関数をｐ_ｉ（ｘ_ｔ）で表しているが、本実施例ではｂ_ｉ（ｘ_ｌ）で表す。また、非特許文献４ではｉ番目の事後確率をＰｒ（ｉ｜ｘ_ｔ）で表しているが、本実施例ではｐ（ｉ｜ｘ_ｌ，λ）と表している。

まず、情報処理装置９００は、多数の平静状態発話データ９０２から特徴パラメータを抽出する。そして、情報処理装置９００は、抽出した特徴パラメータに含まれる特徴量ベクトルのうちＴ_ｃａｌｍ個の特徴量ベクトルに対してＢａｙｅｓｉａｎ適応を実施する。

例えば、Ｂａｙｅｓｉａｎ適応における確率的な意味でのフレーム数は、次式で表すことができる。

・・・（３８）

また、一次モーメントは、次式で表すことができる。

・・・（３９）

また、二次モーメントは、次式でで表すことができる。

・・・（４０）

データ依存の適応係数α_２，ｉ ^ρ，ρ＝｛ｗ，ｍ，ｖ｝は、「Ｂａｙｅｓｉａｎｆａｃｔｏｒ」と呼ばれる適応の度合いを調整するパラメータγを用いて、次式で表すことができる。なお、ρは、ガウス密度関数の重み(ｗ)、平均値(ｍ)または分散(ｖ)を表すインデックス（添え字）であり、数値ではない。

・・・（４１）

そこで、情報処理装置９００は、上記式（４２）に示した適応係数α_２，ｉ ^ρを用いてＧＭＭに含まれるモデルパラメータ、すなわち、ＧＭＭに含まれる各ガウス密度関数の重みｐ_２，ｉ，平均値μ_２，ｉおよび分散σ_２，ｉ ^２を、次式にしたがって算出する。

・・・（４２）

・・・（４３）

・・・（４４）

なお、γ_２は、ＧＭＭに含まれる全てのガウス密度関数の重みｐ_２，ｉの総和が１．０となるように補正するスケールファクタ定数である。このスケールファクタ定数γ_２は、次式で求めることができる。

・・・（４５）

情報処理装置９００は、上記式（４２）〜（４４）にしたがって演算を１度だけ行うことで、不特定話者向け平静状態モデルのモデルパラメータλcalmを求めることができる。モデルパラメータλcalmは、次式で表すことができる。

・・・（４６）

以上の処理によって、不特定話者向け平静状態モデルが推定される。

不特定話者向け平静状態モデルのモデルパラメータλcalmを算出すると、情報処理装置９００は、処理をステップＳ１１０８に移行する。

ステップＳ１１０８において、情報処理装置９００は、以下の演算を行って、多数の異常状態話者データ９０３に、不特定話者向け平静状態モデルを適応させることにより不特定話者向け異常状態モデルのモデルパラメータλabnを算出する。なお、以下に説明する演算は、ステップＳ１１０７と同様に、特許文献４などに開示されているＢａｙｅｓｉａｎ適応を用いることができる。

まず、情報処理装置９００は、多数の異常状態発話データ９０３から特徴パラメータを抽出する。そして、情報処理装置９００は、抽出した特徴パラメータに含まれる特徴量ベクトルのうちＴabn個の特徴量ベクトルに対してＢａｙｅｓｉａｎ適応を実施する。

・・・（４７）

また、一次モーメントは、次式で表すことができる。

・・・（４８）

また、二次モーメントは、次式で表すことができる。

・・・（４９）

データ依存の適応係数α_３，ｉ ^ρ，ρ＝｛ｗ，ｍ，ｖ｝は、「Ｂａｙｅｓｉａｎｆａｃｔｏｒ」と呼ばれる適応の度合いを調整するパラメータγを用いて、次式で表すことができる。なお、ρは、ガウス密度関数の重み(ｗ)、平均値(ｍ)または分散(ｖ)を表すインデックス（添え字）であり、数値ではない。

・・・（５０）

そこで、情報処理装置９００は、上記式（５０）に示した適応係数α_３，ｉ ^ρを用いてＧＭＭに含まれるモデルパラメータ、すなわち、ＧＭＭに含まれる各ガウス密度関数の重みｐ_３，ｉ，平均値μ_３，ｉおよび分散σ_３，ｉ ^２を、次式にしたがって算出する。

・・・（５１）

・・・（５２）

・・・（５３）

なお、γ_３は、ＧＭＭに含まれる全てのガウス密度関数の重みｐ_３，ｉの総和が１．０となるように補正するスケールファクタ定数である。このスケールファクタ定数γ_３は、次式で求めることができる。

・・・（５４）

情報処理装置９００は、上記式（５１）〜（５３）にしたがって演算を実行することで、不特定話者向け異常状態モデルのモデルパラメータλabnが求めることができる。モデルパラメータλabnは、次式で表すことができる。

・・・（５５）

以上の処理によって、不特定話者向け異常状態モデルが推定される。

不特定話者向け異常状態モデルのモデルパラメータλabnを算出すると、情報処理装置９００は、処理をステップＳ１１０９に移行する。

ステップＳ１１０９において、情報処理装置９００は、以下の演算を全ての分布に対して行って、ステップＳ１１０７で算出したモデルパラメータλcalmと、ステップＳ１１０８で算出したモデルパラメータλabnと、の差分を算出する。

情報処理装置９００は、次式にしたがって、不特定話者向け平静状態モデルのモデルパラメータλcalmに含まれる平均値から、不特定話者向け異常状態モデルのモデルパラメータλabnに含まれる平均値への、分布ｉにおける変化量を算出する。

・・・（５６）

情報処理装置９００は、次式にしたがって、不特定話者向け平静状態モデルのモデルパラメータλcalmに含まれる分散から、不特定話者向け異常状態モデルのモデルパラメータλabnに含まれる分散への、分布ｉにおける変化量を算出する。

・・・（５７）

以上の演算が終了すると、情報処理装置９００は、演算結果を、対応関係表４３１として、情報処理装置９００に備わる記憶部等に記憶する。そして、情報処理装置９００は、処理を事前準備の処理を終了する（ステップＳ１１１０）。

なお、本実施例では、モデルパラメータに含まれる平均値と分散を対応関係表４３１に使用したが、モデルパラメータに含まれる分布の重みを使用することもできる。この場合、情報処理装置９００は、次式にしたがって、分布ｉにおける分布の重みの変化量を算出する。

・・・（５８）

その他の実施例２

図１２は、本実施例に係る状態検出装置１２００を説明する図である。
なお、図１２に示す状態検出装置１２００は、図４に示した記憶部４１０〜４４０、平静状態モデル作成部４５０および異常状態モデル作成部４６０を含むが、図面の簡単のために省略する。

状態検出装置１２００は、ＡＤＣ（ＡｎａｌｏｇＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ）１２０２と、音声記憶処理部１２０３と、音声データ読込部１２０４と、尤度計算部４８０と、尤度比較部４９０と、を備える。また、状態検出装置１２００は、更新判定部１２０５と、更新データ構築部１２０６と、を備える。また、状態検出装置１２００は、平静状態モデル更新用リングバッファ１２０７と、異常状態モデル更新用リングバッファ１２０８と、を備える。また、状態検出装置１２００は、更新処理制御部１２０９と、平静状態モデル更新部１２１０と、異常状態モデル作成部１２１１と、異常状態モデル更新部１２１２と、を備える。

ＡＤＣ１２０２は、マイク１２０１を介して採取した話者の音声信号をアナログ信号からデジタル信号に変換し、変換した音声データを音声記憶処理部１２０３に出力する。音声記憶処理部１２０３は、ＡＤＣ１２０２から音声データを受信すると、受信した音声データを記憶媒体１２１３に記憶する。記憶媒体１２１３には、ＵＳＢメモリやＳＤカードなど様々な記憶媒体を使用することができる。

モデル更新の命令を受信すると、音声データ読込部１２０４は、記憶媒体１２１３に記憶されている音声データを読み出し、読み出した音声データを尤度計算部４８０に出力する。

尤度計算部４８０は、音声データ読込部１２０４から受信した音声データについて、特定話者向け平静状態モデルとの尤度と、特定話者向け異常状態モデルとの尤度を算出する。そして、尤度計算部４８０は、算出した尤度を、尤度比較部４９０と、更新判定部１２０５に出力する。

尤度比較部４９０は、尤度計算部４８０が算出した２つの尤度に基づいて、マイク１２０１に入力された音声を発した話者の状態、例えば、話者が平静状態にあるのか異常状態にあるのかを判定する。そして、尤度比較部４９０は、判定結果を所定の装置等に出力する。

更新判定部１２０５は、尤度計算部４８０から受信した尤度に応じて、特定話者向け平静状態モデルまたは特定話者向け異常状態モデルの更新を行うか否かを判定する。なお、本実施例では、特定話者向け平静状態モデルを更新する場合、同時に特定話者向け異常状態モデルも更新するが、特定話者向け平静状態モデルのみを更新してもよい。更新判定部１２０５は、判定結果をデータ構築部１２０６に出力する。

更新データ構築部１２０６は、更新判定部１２０５から受信した判定結果を更新処理制御部１２０９に出力する。そして、更新判定部１２０５から受信した判定結果が、特定話者向け平静状態モデルの更新であった場合、記憶媒体１２１３から読み出した音声データから特徴パラメータを抽出する。そして、更新データ構築部１２０６は、抽出した特徴パラメータを平静状態モデル更新用リングバッファ１２０７に記憶する。

また、更新データ構築部１２０６は、更新判定部１２０５から受信した判定結果が、特定話者向け異常状態モデルの更新であった場合、記憶媒体１２１３から読み出した音声データから特徴パラメータを抽出する。そして、更新データ構築部１２０６は、抽出した特徴パラメータを、異常状態モデル更新用リングバッファ１２０８に記憶する。

平静状態モデル更新用リングバッファ１２０７および異常状態モデル更新用リングバッファ１２０８は、一定の記憶容量を備えるリングバッファである。平静状態モデル更新用リングバッファ１２０７および異常状態モデル更新用リングバッファ１２０８は、記憶容量がいっぱいになると、古いデータが記憶されている領域から順に、新しいデータを上書きして記憶する。

更新処理制御部１２０９は、更新データ構築部１２０６から受信した判定結果にしたがって、平静状態モデル更新部１２１０または異常状態モデル更新部１２１２に対して更新処理の実行を指示する。

例えば、更新判定部１２０５から受信した判定結果が、特定話者向け平静状態モデルの更新であった場合、更新処理制御部１２０９は、平静状態モデル更新部１２１０に対して、不特定話者向け平静状態モデルの更新を指示する。また、更新判定部１２０５から受信した判定結果が、特定話者向け異常状態モデルの更新であった場合、更新処理制御部１２０９は、異常状態モデル更新部１２１２に対して、不特定話者向け異常状態モデルの更新を指示する。

平静状態モデル更新部１２１０は、平静状態モデル更新用リングバッファ１２０７から特徴パラメータを読み出す。そして、平静状態モデル更新部１２１０は、読み出した特徴パラメータを用いたＢａｙｅｓｉａｎ適応により、記憶部４２０に記憶されている特定話者向け平静状態モデルから、新たな特定話者向け平静状態モデルを推定する。そして、平静状態モデル更新部１２１０は、記憶部４２０に記憶されている特定話者向け平静状態モデルを、新たに推定した特定話者向け平静状態モデルに更新する。

なお、本実施例では、記憶部４２０に記憶されている特定話者向け平静状態モデルから、新たな特定話者向け平静状態モデルを推定しているが、基本モデルから新たな特定話者向け平静状態モデルを推定してもよい。

異常状態モデル作成部１２１１は、平静状態モデル更新部１２１０が推定した特定話者向け平静状態モデルのモデルパラメータを、対応関係表４３１にしたがって調整し、新たな特定話者向け異常状態モデルを作成する。そして、異常状態モデル作成部１２１１は、記憶部４４０に記憶されている特定話者向け異常状態モデルを、新たに作成した特定話者向け異常状態モデルに更新する。

異常状態モデル更新部１２１２は、異常状態モデル更新用リングバッファ１２０８から特徴パラメータを読み出す。そして、異常状態モデル更新部１２１２は、読み出した特徴パラメータを用いたＢａｙｅｓｉａｎ適応により、記憶部４４０に記憶されている特定話者向け異常状態モデルから、新たな特定話者向け異常状態モデルを推定する。そして、異常状態モデル更新部１２１２は、記憶部４４０に記憶されている特定話者向け異常状態モデルを、新たに推定した特定話者向け異常状態モデルに更新する。

なお、本実施例では、記憶部４４０に記憶されている特定話者向け異常状態モデルから、新たな特定話者向け異常状態モデルを推定しているが、基本モデルから新たな特定話者向け異常状態モデルを推定してもよい。

図１３および図１４は、本実施例に係る状態検出装置１２００の動作を示すフローチャートである。
マイク１２０１を介して話者Ｆの音声が入力されると、状態検出装置１２００は、以下の処理を開始する（ステップＳ１３００）。

ステップＳ１３０１において、状態検出装置１２００は、入力された話者Ｆの音声をデジタルデータに変換する。そして、状態検出装置１２００は、デジタル化した話者Ｆの音声データを記憶媒体１２１３に記憶する。

状態検出装置１２００は、状態検出装置１２００に備わる入力手段、または、状態検出装置１２００を含む装置、例えば、携帯電話に備わるＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などからモデル更新の命令を受信する（ステップＳ１３０２）。この場合、状態検出装置１２００は、記憶媒体１２１３から話者Ｆの音声データを読み出す（ステップＳ１３０３）。

状態検出装置１２００は、ステップＳ１３０４〜Ｓ１３１０の処理を実行し、尤度比Λ（Ｘ）を算出する。なお、ステップＳ１３０４〜Ｓ１３１０の処理は、図８のステップＳ８０２〜Ｓ８０８と同様なので、説明を省略する。

尤度比Λ（Ｘ）の絶対値｜Λ（Ｘ）｜が閾値ＴＨ２未満の場合（ステップＳ１３１１ＮＯ）、状態検出装置１２００は、処理を終了する（ステップＳ１３１８）。なお、閾値ＴＨ２は、尤度比Λが明らかに平静状態または異常状態を示すと判断できると思われる値を使用する。

尤度比Λ（Ｘ）の絶対値｜Λ（Ｘ）｜が閾値ＴＨ２以上の場合（ステップＳ１３１１ＹＥＳ）、状態検出装置１２００は、状態検出装置１２００は、話者Ｆが明らかな平静状態または異常状態にあるのでモデル更新可能と判断してステップＳ１３１２に移行する。

そして、尤度比Λ（Ｘ）が閾値ＴＨ１以上の場合（ステップＳ１３１２ＹＥＳ）、状態検出装置１２００は、話者Ｆが明らかな平静状態にあるので特定話者向け平静状態モデルを更新すると決定し、処理をステップＳ１３１３に移行する。この場合、状態検出装置１２００は、記憶媒体１２１３に記憶された音声データから特徴パラメータを抽出する。そして、状態検出装置１２００は、抽出した特徴パラメータを平静状態モデル更新用リングバッファ１２０７に書き込む（ステップＳ１３１３）。

ステップＳ１３１４において、状態検出装置１２００は、平静状態モデル更新用リングバッファ１２０７から特徴パラメータを読み出す。そして、状態検出装置１２００は、読み出した特徴パラメータを用いたＢａｙｅｓｉａｎ適応により、記憶部４２０に記憶されている特定話者向け平静状態モデルから、新たな特定話者向け平静状態モデルを推定する。なお、この推定処理は、図７に示したステップＳ７０３と同様の処理を、状態検出装置１２００が実行することによって実現することができる。状態検出装置１２００は、記憶部４２０に記憶されている特定話者向け平静状態モデルを、新たに推定した特定話者向け平静状態モデルに更新する。

ステップＳ１３１５において、状態検出装置１２００は、ステップＳ１３１４で更新した特定話者向け平静状態モデルのモデルパラメータを、対応関係表４３１にしたがって調整し、新たな特定話者向け異常状態モデルを作成する。なお、この作成処理は、図７に示したステップＳ７０４ど同様の処理を、状態検出装置１２００が実行することによって実現することができる。状態検出装置１２００は、記憶部４４０に記憶されている特定話者向け異常状態モデルを、新たに作成した特定話者向け異常状態モデルに更新する。そして、状態検出装置１２００は、処理を終了する（ステップＳ１３１８）。

一方、尤度比Λ（Ｘ）が閾値ＴＨ１未満の場合（ステップＳ１３１２ＮＯ）、状態検出装置１２００は、話者Ｆが明らかな異常状態にあるので特定話者向け異常状態モデルを更新すると決定し、処理をステップＳ１３１６に移行する。この場合、状態検出装置１２００は、記憶媒体１２１３に記憶された音声データから特徴パラメータを抽出する。そして、状態検出装置１２００は、抽出した特徴パラメータを異常状態モデル更新用リングバッファ１２０８に書き込む（ステップＳ１３１６）。

ステップＳ１３１７において、状態検出装置１２００は、異常状態モデル更新用リングバッファ１２０８から特徴パラメータを読み出す。そして、状態検出装置１２００は、読み出した特徴パラメータを用いたＢａｙｅｓｉａｎ適応により、記憶部４４０に記憶されている特定話者向け異常状態モデルから、新たな特定話者向け異常状態モデルを推定する。なお、この推定処理は、図７に示したステップＳ７０３と同様の処理を、状態検出装置１２００が実行することによって実現することができる。状態検出装置１２００は、記憶部４４０に記憶されている特定話者向け異常状態モデルを、新たに推定した特定話者向け異常状態モデルに更新する。そして、状態検出装置１２００は、処理を終了する（ステップＳ１３１８）。

図１５は、上記実施例で説明した状態検出装置の構成例を示す図である。図１５に示す構成は、状態検出装置３００、状態検出装置４００および状態検出装置１２００のいずれにも適用できる。以下では、状態検出装置４００を例に説明する。

図１５に示す状態検出装置は、ＤＳＰ１５０１と、ＲＡＭ１５０２と、フラッシュメモリ１５０３と、ＡＤＣ１５０４と、ストレージ１５０５と、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）ユニット１５０６と、を備える。そして、これらの装置がバスに接続されて相互にデータの受け渡しが行える構成となっている。

ＤＳＰ１５０１は、本実施例に係る状態検出を実現するプログラムなどをＲＡＭ１５０２から読み出して実行する演算装置である。例えば、ＤＳＰ１５０１に所定のプログラム命令を実行させることで、図４に示した平静状態モデル作成部４５０、異常状態モデル作成部４６０、特徴パラメータ抽出部４７０、尤度計算部４８０および尤度比較部４９０などを実現することができる。

また、例えば、ＤＳＰ１５０１に所定のプログラムを実行させることで、図１２に示した音声記憶処理部１２０３、音声データ読込部１２０４、更新判定部１２０５、更新データ構築部１２０６、更新処理制御部１２０９、平静状態モデル更新部１２１０、異常状態モデル作成部１２１１および異常状態モデル更新部１２１２などを実現することができる。

ＲＡＭ１５０２は、本実施例に係る状態検出を実現するプログラムを実行するためなどに使用される揮発性の記憶装置である。
フラッシュメモリ１５０３は、本実施例に係る状態検出を実現するプログラムを記憶する不揮発性の記憶装置である。

ＡＤＣ１５０４は、アナログ信号をデジタル変換する装置である。例えば、ＡＤＣ１５０４は、音声信号などのアナログ信号をデジタル化して音声データを生成する。
ストレージ１５０５は、大量のデータ、例えば、音声データなどを記憶する不揮発性の記憶装置である。ストレージ１５０５には、例えば、磁気ディスク記憶装置などを使用することができる。ストレージ１５０５は、記憶部４１０〜４４０や、平静状態モデル更新用リングバッファ１２０７、異常状態モデル更新用リングバッファ１２０８などに使用することができる。

Ｉ／Ｏユニット１５０６は、外部装置とのデータの入出力を制御する装置である。例えば、本実施例に係る状態検出の結果を、状態検出装置４００と接続される所定の装置に出力する。

なお、ＲＡＭ１５０２、フラッシュメモリ１５０３およびストレージ１５０５などの情報処理装置に読取り可能な記憶媒体には、非一時的（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）な媒体を使用することができる。

図１６は、上記実施例で説明した状態検出装置を含む携帯電話１６００の構成例を示す図である。
携帯電話１６００は、状態検出装置１６０１と、制御部１６０２と、通信制御部１６０３と、スピーカ１６０４と、マイク１６０５と、表示部１６０６と、を備える。

状態検出装置１６０１には、状態検出装置３００、状態検出装置４００または状態検出装置１２００を使用することができる。
制御部１６０２は、携帯電話１６００全体を制御する。例えば、マイク１６０５から入力される音声をデジタル化して通信制御部１６０３に出力する。また、通信制御部１６０３から送られる音声データをスピーカ１６０５に出力する。

また、制御部１６０２は、マイク１６０５から送られる音声データを状態検出装置１６０１に出力する。そして、制御部１６０２は、状態検出装置１６０１が出力する判定結果を表示部１６０６に表示する。

また、制御部１６０２は、通信制御部１６０３から送られる音声データを状態検出装置１６０１に出力する。そして、制御部１６０２は、状態検出装置１６０１に対して、話者の登録やモデル更新の命令を行う。

通信制御部１６０３は、所定のプロトコルにしたがった通信制御を行い、制御部１６０２から送られる音声データを通信先の携帯電話に送信する。また、通信制御部１６０３は、通信先の携帯電話から送られる音声データを制御部１６０２に出力する。

以上の実施例で説明した状態検出装置において、記憶部４１０は、基本モデル記憶手段の一例として挙げることができる。
また、非抑圧状態を平静状態とすると、抑圧状態は異常状態ということができる。この場合、不特定話者向け平静状態モデルは、第１の不特定話者モデルの一例として挙げることができる。不特定話者向け異常状態モデルは、第２の不特定話者モデルの一例として挙げることができる。話者Ｆの平静状態モデルは、第１の特定話者モデルの一例として挙げることができる。平静状態モデル作成部４５０は、第１のモデル生成手段の一例として挙げることができる。話者Ｆの異常状態モデルは、第２の特定話者モデルの一例として挙げることができる。異常状態モデル作成部４６０は、第２のモデル生成手段の一例として挙げることができる。

また、対応関係表４３１は、対応関係情報の一例として挙げることができる。記憶部４３０は、対応関係情報記憶手段の一例として挙げることができる。また、尤度計算部４８０は、尤度算出手段の一例として挙げることができる。尤度比較部４９０は、状態判別手段の一例として挙げることができる。

また、更新判定部１２０５は、更新判定手段の一例として挙げることができる。更新データ構築部１２０６、更新処理制御部１２０９、平静状態モデル更新部１２１０、異常状態モデル作成部１２１１および異常状態モデル更新部１２１２を含む構成要素は、モデル更新手段の一例として挙げることができる。

以上に説明したように、状態検出装置４００は、特定の話者、例えば話者Ｆの平静状態発話データから、特定の話者Ｆについての特定話者向け平静状態モデルを推定する。そして、状態検出装置４００は、対応関係表４３１にしたがって、特定の話者Ｆについての特定話者向け平静状態モデルに含まれるパラメータを調整することで、特定の話者Ｆについての特定話者向け異常状態モデルを推定する。

このように、状態検出装置４００は、特定の話者Ｆの平静状態発話データから作成した、特定の話者Ｆに特化した特定話者向け平静状態モデルと、その特定話者向け平静状態モデルから推定した特定話者向け異常状態モデルと、を使用して状態検出を行う。そのため、状態検出装置４００は、特定の話者Ｆについての状態検出を高い精度で行うことができる。

また、状態検出装置４００は、対応関係表４３１にしたがって、特定の話者Ｆについての特定話者向け平静状態モデルから、特定の話者Ｆについての特定話者向け異常状態モデルを推定する。そのため、状態検出装置４００は、特定の話者Ｆの異常状態発話データをから特定の話者Ｆについての特定話者向け異常状態モデルを推定するという高い負荷の処理を行う必要がなくなる。その結果、状態検出装置４００は、話者の登録時にかかる負荷を抑えることができる。

また、特定の話者Ｆについての特定話者向け平静状態モデルおよび特定話者向け異常状態モデルの推定には、特定の話者Ｆの平静状態発話データのみを使用する。そのため、利用者は、特定の話者Ｆの平静状態発話データのみ状態検出装置４００に登録すれば、状態検出装置４００に状態検出を行わせることができる。その結果、状態検出装置４００は、利用者に簡単に状態検出を行わせることができる。また、利用者は、採取が難しい異常状態における特定の話者Ｆの発話データではなく、採取が容易な平静状態における特定の話者Ｆの発話データを登録すればよいので、状態検出装置４００は、利用者により簡単に状態検出を行わせることができる。

また、状態検出装置１２００は、明らかに平静状態または異常状態を示すと思われる音声データが入力された場合には、その音声データを使用して、特定話者向け平静状態モデルまたは特定話者向け異常状態モデルを更新する。その結果、状態検出装置１２００は、より高い精度で、特定の話者Ｆについての状態検出を行うことができるようになる。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段と、
非抑圧状態における不特定の話者の音声の特徴をモデル化した第１の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第２の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する第１のモデル生成手段と、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する第２のモデル生成手段と、
入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出する尤度算出手段と、
前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える状態検出装置。
（付記２）
前記第１のモデル生成手段は、
前記非抑圧状態における特定の話者の音声の特徴を示す特徴パラメータを抽出し、該特徴パラメータから前記基本モデルに含まれるパラメータを生成し、該パラメータを前記基本モデルに反映することにより、前記第１の特定話者モデルを生成する、
ことを特徴とする付記１に記載の状態検出装置。
（付記３）
前記第２のモデル生成手段は、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに含まれる第１のパラメータに対する、前記第２の不特定話者モデルに含まれる第２のパラメータへの変位量を、前記第１の特定話者モデルに含まれるパラメータに反映することにより、前記第２の特定話者モデルを生成する、
ことを特徴とする付記１に記載の状態検出装置。
（付記４）
前記第１の尤度および前記第２の尤度に基づいて、前記第１の特定話者モデルまたは前記第２の特定話者モデルを更新するか否かを判定する更新判定手段と、
前記更新判定手段の判定にしたがって、前記第１の特定話者モデルまたは前記第２の特定話者モデルを更新するモデル更新手段と、
をさらに備える付記１に記載の状態検出装置。
（付記５）
前記モデル更新手段は、
前記入力音声の特徴を抽出し、該抽出した特徴を示すように前記第１の特定話者モデルを調整することにより、前記第１の特定話者モデルを更新する第１のモデル更新手段と、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１のモデル更新手段が更新した前記第１の特定話者モデルに反映することにより、前記第２の特定話者モデルを更新する第２のモデル更新手段と、
を備える付記４に記載の状態検出装置。
（付記６）
前記モデル更新手段は、
前記入力音声の特徴を抽出し、該抽出した特徴を示すように前記第２の特定話者モデルを調整することにより、前記第２の特定話者モデルを更新する第２のモデル更新手段、
を備える付記４に記載の状態検出装置。
（付記７）
前記特徴パラメータには、話者が発声する時に検出されるパルス信号に関連するパラメータと、前記パルス信号の時間変化量に関連するパラメータと、話者が発声する音声の抑揚に関連するパラメータと、話者が発声する音声の大きさに関するパラメータと、の少なくとも一方が含まれる、
ことを特徴とする付記２に記載の状態検出装置。
（付記８）
話者が発声する時に検出されるパルス信号に関連するパラメータには、対数ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）残差パワーが含まれる、
ことを特徴とする付記７に記載の状態検出装置。
（付記９）
前記パルスの強さの時間変化量に関連するパラメータには、Δ対数ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）残差パワーが含まれる、
ことを特徴とする付記７に記載の状態検出装置。
（付記１０）
話者が発声する音声の抑揚に関連するパラメータには、前記音声のピッチ周波数が含まれる、
ことを特徴とする付記７に記載の状態検出装置。
（付記１１）
話者が発声する音声の大きさに関するパラメータには、前記音声の高域におけるＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）残差スペクトルの平坦さを数値化した値が含まれる、
ことを特徴とする付記７に記載の状態検出装置。
（付記１２）
前記状態判別手段は、前記第１の尤度に対する前記第２の尤度の比が閾値以上の場合、前記入力音声の話者の状態が前記非抑圧状態にあると判別する、
ことを特徴とする付記１に記載の状態検出装置。
（付記１３）
前記状態判別手段は、前記第１の尤度に対する前記第２の尤度の比が閾値未満の場合、前記入力音声の話者の状態が前記抑圧状態にあると判別する、
ことを特徴とする付記１に記載の状態検出装置。
（付記１４）
非抑圧状態における不特定の話者の音声の特徴をモデル化した第１の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第２の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段から読み出した前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する第１のモデル生成手段と、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する第２のモデル生成手段と、
入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出する尤度算出手段と、
前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える携帯電話。
（付記１５）
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出し、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成し、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第１の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第２の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出し、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成し、
入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出し、
前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する、
処理を情報処理装置が行う状態検出方法。
（付記１６）
情報処理装置に、
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出す処理と、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する処理と、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第１の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第２の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出す処理と、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する処理と、
入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出する処理と、
前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する処理と、
を実行させるためのプログラム。

３００状態検出装置
３０１基本モデル記憶手段
３０２対応関係情報記憶手段
３０３第１のモデル生成手段
３０４第２のモデル生成手段
３０５尤度算出手段
３０６状態判別手段
４００状態検出装置
４１０〜４４０記憶部
４３１対応関係表
４５０平静状態モデル作成部
４６０異常状態モデル作成部
４７０特徴パラメータ抽出部
４８０尤度計算部
４９０尤度比較部

Claims

複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段と、
非抑圧状態における不特定の話者の音声の特徴をモデル化した第１の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第２の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する第１のモデル生成手段と、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する第２のモデル生成手段と、
入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出する尤度算出手段と、
前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える状態検出装置。
前記第１のモデル生成手段は、
前記非抑圧状態における特定の話者の音声の特徴を示す特徴パラメータを抽出し、該特徴パラメータから前記基本モデルに含まれるパラメータを生成し、該パラメータを前記基本モデルに反映することにより、前記第１の特定話者モデルを生成する、
ことを特徴とする請求項１に記載の状態検出装置。
前記第２のモデル生成手段は、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに含まれる第１のパラメータに対する、前記第２の不特定話者モデルに含まれる第２のパラメータへの変位量を、前記第１の特定話者モデルに含まれるパラメータに反映することにより、前記第２の特定話者モデルを生成する、
ことを特徴とする請求項１に記載の状態検出装置。
前記第１の尤度および前記第２の尤度に基づいて、前記第１の特定話者モデルまたは前記第２の特定話者モデルを更新するか否かを判定する更新判定手段と、
前記更新判定手段の判定にしたがって、前記第１の特定話者モデルまたは前記第２の特定話者モデルを更新するモデル更新手段と、
をさらに備える請求項１に記載の状態検出装置。
非抑圧状態における不特定の話者の音声の特徴をモデル化した第１の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第２の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段から読み出した前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成する第１のモデル生成手段と、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成する第２のモデル生成手段と、
入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出する尤度算出手段と、
前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える携帯電話。
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出し、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第１の特定話者モデルを生成し、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第１の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第２の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出し、
前記対応関係情報に基づいて、前記第１の不特定話者モデルに対する前記第２の不特定話者モデルへの変位量を、前記第１の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第２の特定話者モデルを生成し、
入力音声の特徴に対する前記第１の特定話者モデルの尤度である第１の尤度と、前記入力音声に対する前記第２の特定話者モデルの尤度である第２の尤度と、を算出し、
前記第１の尤度および前記第２の尤度に基づいて、前記入力音声の話者の状態を判別する、
処理を情報処理装置が行う状態検出方法。