JP5672175B2

JP5672175B2 - 話者判別装置、話者判別プログラム及び話者判別方法

Info

Publication number: JP5672175B2
Application number: JP2011143215A
Authority: JP
Inventors: 霓張; 一穂前田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-28
Filing date: 2011-06-28
Publication date: 2015-02-18
Anticipated expiration: 2031-06-28
Also published as: JP2013011680A

Description

本発明は、話者判別装置、話者判別プログラム及び話者判別方法に関する。

複数の話者によってなされる会話の各場面において各話者のうち誰が発話しているのかを判別する技術が知られている。

かかる話者の判別を閾値判定により実現する技術の一例として、音声認識装置が挙げられる。この音声認識装置には、各参加者に対応してマイクロホンが接続される。このような構成の下、音声認識装置は、マイクロホンによって出力される音声信号のパワーがパワー閾値を超えてから下回るまでの区間の音声信号を音声認識の対象として記憶部の所定のエリアへ記録する。その上で、音声認識装置は、記憶部に記録した音声信号を音声認識した後に、発言者を特定するためのデータとしてマイクロホンの識別情報を紐付けて音声認識の結果を記憶部の議事録エリアへ記録する。

また、話者の判別を音源定位により実現する技術の一例としては、発話イベント分離システムが挙げられる。この発話イベント分離システムでは、それぞれ異なる方向に放射状に向けた複数のマイクロホンを有するマイクロホンアレイが用いられる。発話イベント分離システムは、音源定位のアルゴリズムを用いて、マイクロホンアレイによって収録された多チャネルの音声データを解析して時刻毎に音の到来方向を推定する。また、発話イベント分離システムは、音源となる話者の存在範囲を推定する。その上で、発話イベント分離システムは、音源定位の結果と、話者の存在範囲の推定結果から、時刻毎にどの話者が発話しているかを同定する。

特開２００８−３０９８５６号公報特開２００７−２３３２３９号公報

しかしながら、上記の従来技術では、以下に説明するように、話者の判別を簡易かつ正確に行うことができないという問題がある。

例えば、上記の音声認識装置は、音声信号のパワーがパワー閾値を超過するか否かによって話者が発話しているか否かを判定するものである。このため、上記の音声認識装置では、話者を判別する精度はパワー閾値に依存するが、人間が発話する音声には個人差があるので、パワー閾値に適切な値を設定することは困難である。それゆえ、上記の音声認識装置では、話者の判別を正確に行うことができない。

また、上記の発話イベント分離システムでは、話者の存在範囲を推定するために、会議に参加する人数等を予め学習させておく必要もある。さらに、上記の発話イベント分離システムでは、音源定位により音の到来方向を推定するのに複雑なアルゴリズムを使用する必要がある。よって、上記の発話イベント分離システムでは、話者の判別を簡易に行うことはできない。

開示の技術は、上記に鑑みてなされたものであって、話者の判別を簡易かつ正確に行うことができる話者判別装置、話者判別プログラム及び話者判別方法を提供することを目的とする。

本願の開示する話者判別装置は、２人の話者にそれぞれ配置されるマイクから２つの音声データを取得する取得部を有する。さらに、前記話者判別装置は、前記取得部によって取得された２つの音声データの各々を所定の区間のフレームにフレーム化するフレーム化部を有する。さらに、前記話者判別装置は、第１の確率モデルに基づいて、前記フレーム化部によってフレーム化されたフレームが有声音領域または無声音領域のいずれであるかを識別する第１の識別部を有する。さらに、前記話者判別装置は、前記第１の識別部によって有声音領域であると識別されたフレームの識別結果を有効または無効とするかを決定する決定部を有する。前記決定部は、２つの音声データのエネルギー比を複数の確率分布が混合するモデルにモデル化した上で、前記フレーム間のエネルギー比が複数の確率分布のうちいずれの確率分布に属するかに応じて前記フレームの識別結果を有効または無効とするかを決定する。さらに、前記話者判別装置は、第２の確率モデルに基づいて、前記決定部によって有効または無効が決定された後のフレームの識別結果から２つの音声データにおける発話領域および沈黙領域を識別する第２の識別部を有する。

本願の開示する話者判別装置の一つの態様によれば、話者の判別を簡易かつ正確に行うことができるという効果を奏する。

図１は、実施例１に係る会話分析装置の機能的構成を示すブロック図である。図２は、有声音および無声音の一例を示す図である。図３は、発話領域および沈黙領域の一例を示す図である。図４は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図５Ａは、音声データ別のエネルギーの一例を示す図である。図５Ｂは、音声データ別の有声音Ｖまたは無声音Ｕの識別結果の一例を示す図である。図５Ｃは、フレーム間のエネルギー比の一例を示す図である。図５Ｄは、フレーム間のエネルギー比が所属する分布を示す図である。図５Ｅは、置換後の音声データ別の有声音Ｖまたは無声音Ｕの識別結果の一例を示す図である。図６は、事後確率ρ_ｉｊを用いた話者の推定結果の一例を示す図である。図７は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図８は、実施例１に係る会話分析処理の手順を示すフローチャートである。図９は、実施例１に係る会話分析処理の手順を示すフローチャートである。図１０は、実施例１に係る決定処理の手順を示すフローチャートである。図１１は、実施例１及び実施例２に係る話者判別プログラムを実行するコンピュータの一例について説明するための図である。

以下に、本願の開示する話者判別装置、話者判別プログラム及び話者判別方法の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

まず、本実施例に係る話者判別装置を含む会話分析装置の機能的構成について説明する。図１は、実施例１に係る会話分析装置の機能的構成を示すブロック図である。図１に示す会話分析装置１０は、話者Ａおよび話者Ｂにそれぞれ対応して設けられた接話マイク３０Ａ及び３０Ｂを介して集音した２つの音声データから、話者Ａおよび話者Ｂの会話に関する特性を抽出して会話スタイルを分析するものである。

この会話分析装置１０には、接話マイク３０Ａ及び３０Ｂの２つのマイクが接続される。これら接話マイク３０Ａ及び３０Ｂは、話者によって装着される接話型マイクロホン（close‐talking microphone）である。かかる接話マイクの一態様としては、ラペルマイクやヘッドセットマイクなどが挙げられる。以下では、接話マイク３０Ａ及び３０Ｂのことを区別なく総称する場合には「接話マイク３０」と記載する場合がある。

なお、図１の例では、接話型マイクロホンを用いる場合を例示したが、必ずしもマイクを装着する話者以外の他の話者をマイクから遠ざける必要はない。例えば、指向性を持つマイクを適用することができる。この場合には、話者Ａが発話する方向の感度が他の方向の感度よりも強くなるように指向性マイクを配置し、また、話者Ｂについても同様にして指向性マイクを用いればよい。

登録部３１は、接話マイク３０によって集音された音声信号を会話分析装置１０の音声記憶部１１へ登録する処理部である。一態様としては、登録部３１は、接話マイク３０から音声入力されたアナログ信号にＡ／Ｄ（Analog/Digital）変換を実行することによりデジタル信号に変換した上で音声記憶部１１へ登録する。なお、以下では、接話マイク３０Ａから音声入力されたアナログ信号がＡ／Ｄ変換されたデジタル信号のことを「第１の音声データ」と記載する場合がある。また、接話マイク３０Ｂから音声入力されたアナログ信号がＡ／Ｄ変換されたデジタル信号のことを「第２の音声データ」と記載する場合がある。

図１に示すように、会話分析装置１０は、音声記憶部１１と、抽出部１３と、分析部１４とを有する。なお、会話分析装置１０は、図１に示した機能部以外にも既知のコンピュータが有する各種の機能部、例えば各種の入力デバイスや音声出力デバイスなどを始め、他の装置との通信を制御する通信インターフェースなどの機能部を有することとしてもかまわない。

音声記憶部１１は、音声データを記憶する記憶部である。この音声記憶部１１は、第１の音声データ１２Ａと、第２の音声データ１２Ｂとを記憶する。なお、上記の音声記憶部１１などの記憶部には、半導体メモリ素子や記憶装置を採用できる。例えば、半導体メモリ素子としては、ＶＲＡＭ（Video Random Access Memory）、ＲＡＭ（Random Access Memory)、ＲＯＭ（Read Only Memory）やフラッシュメモリ（flash memory）などが挙げられる。また、記憶装置としては、ハードディスク、光ディスクなどの記憶装置が挙げられる。

これら第１の音声データ１２Ａ及び第２の音声データ１２Ｂは、話者Ａ及び話者Ｂが装着する接話マイク３０によって集音された音声信号がＡ／Ｄ変換されたデジタルデータである。このうち、第１の音声データ１２Ａには、話者Ａの音声だけでなく、話者Ｂの音声も含み得るが、話者Ａから接話マイク３０Ａまでの距離が話者Ｂや話者Ｃに比べて接近している。よって、第１の音声データ１２Ａに含まれる音声は、話者Ａと話者Ｂとの間で同時に発話がなされていた場合でも、話者Ａによって発話された音声のエネルギーが最も高くなる。同様に、第２の音声データ１２Ｂに含まれる音声は、話者Ｂによって発話された音声のエネルギーが最も高くなる。

ここで、話者によって発話される有声音および無声音について説明する。図２は、有声音および無声音の一例を示す図である。図２の例では、サンプリング周波数が１６ｋＨｚである接話マイクを用いて集音した場合の音声データが示されている。図２の例では、横軸は時間を示し、縦軸は周波数を示し、図中の濃淡はスペクトルエントロピーの大小を表す。

図２に示すように、有声音Ｖ（Voiced）は、スペクトルエントロピーの変化が大きく、無声音Ｕ（Unvoiced）よりも低い周波数の音である。有声音の一例としては、母音「ａ」、「ｉ」、「ｕ」、「ｅ」、「ｏ」などが挙げられる。また、無声音Ｕは、有声音Ｖよりも高い周波数の音である。無声音の一例としては、母音以外の音、例えば「ｓ」、「ｐ」、「ｈ」などが挙げられる。これら有声音および無声音の特徴は、話者によって発話される言語に依存せず、日本語、英語や中国語などの任意の言語において共通する。

次に、有声音および無声音と発話領域および沈黙領域との関係について説明する。ここで言う「発話領域」は、話者によって発話がなされている領域を指し、無声音領域および有声音領域を含む。また、「沈黙領域」は、話者によって発話がなされていない領域を指し、音声データにおいて発話領域以外の領域に相当する。

図３は、発話領域および沈黙領域の一例を示す図である。この図３の例では、話者によって「ＷａＴａＳｈｉＷａＣｈｏｕＤｅＳｕ」と発話された場合を示す。図３に示す例では、「ＷａＴａＳｈｉＷａ」の発話領域４０と、「Ｃｈｏｕ」の発話領域４１と、「ＤｅＳｕ」の発話領域４２との間に、沈黙領域４３および沈黙領域４４が存在することを示す。このうち、発話領域４０には、無声音「Ｗ」、有声音「ａ」、無声音「Ｔ」、有声音「ａ」、無声音「Ｓｈ」、有声音「ｉ」、無声音「Ｗ」、有声音「ａ」が含まれる。また、発話領域４１には、無声音「Ｃｈ」、有声音「ｏｕ」が含まれる。さらに、発話領域４２には、無声音「Ｄ」、有声音「ｅ」、無声音「Ｓ」、有声音「ｕ」が含まれる。

図１の説明に戻り、会話分析装置１０は、複数の話者によってなされる会話の各場面において各話者のうち誰が発話しているのかを判別する話者判別装置５０を有する。この話者判別装置５０は、図１に示すように、取得部５１と、フレーム化部５２と、第１の識別部５３と、決定部５４と、第２の識別部５５とを有する。

取得部５１は、第１の音声データおよび第２の音声データを取得する処理部である。一態様としては、取得部５１は、音声記憶部１１に記憶された第１の音声データ１２Ａおよび第２の音声データ１２Ｂを読み出す。他の一態様としては、取得部５１は、登録部３１によってＡ／Ｄ変換された第１の音声データおよび第２の音声データをストリームデータとして取得することもできる。更なる一態様としては、取得部５１は、ネットワークを介して図示しない外部装置から第１の音声データおよび第２の音声データを取得することもできる。

フレーム化部５２は、取得部５１によって取得された第１の音声データ１２Ａおよび第２の音声データ１２Ｂを所定の区間のフレームにフレーム化する処理部である。一態様としては、フレーム化部５２は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂそれぞれの長さを比較する。このとき、フレーム化部５２は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂの長さの差が許容誤差範囲内でない場合には、図示しない表示部等にエラーメッセージを出力し、以降の処理を中止する。一方、フレーム化部５２は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂの長さが同一であるか、あるいは許容誤差範囲内である場合には、次のような処理を実行する。すなわち、フレーム化部５２は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂをフレーム化する。

一例を挙げれば、フレーム化部５２は、下記の式Ａ、式Ｂを用いて、各々の音声データを、長さを２５６ｍｓとするフレーム化を実行する。このとき、フレーム化部５２は、前後のフレームの重複部分の長さが１２８ｍｓとなるようにする。なお、上記のフレームの長さ、前後のフレームの重複部分の長さは、あくまでも一例であり、任意の値を採用できる。
Ｓ＝ｆｌｏｏｒ（Ｙ／Ｘ）・・・・・・・・・・・・・・・・式Ａ
ｍ＝ｆｌｏｏｒ（（Ｓ−２５６）／１２８）＋１・・・・・・・・式Ｂ
なお、「ｆｌｏｏｒ（ｘ）」は、ｘ以下の最大の整数を算出するための関数であり、Ｙは、第１の音声データ１２Ａおよび第２の音声データ１２Ｂそれぞれのデータ量（byte）であり、Ｘは、１（byte）のデータに対応する長さ（ms）である。

このような処理によって、第１の音声データ１２Ａおよび第２の音声データ１２ＢそれぞれについてＮ個のフレームが得られたものとして以下の説明を行う。なお、以下では、第１の音声データ１２Ａから得られたＮ個のフレームの各々を、「第１フレーム（１）」、「第１フレーム（２）」・・・「第１フレーム（Ｎ）」と記載する場合がある。同様に、第２の音声データ１２Ｂから得られたＮ個のフレームの各々を、「第２フレーム（１）」、「第２フレーム（２）」・・・「第２フレーム（Ｎ）」と記載する場合がある。

第１の識別部５３は、第１の確率モデルに基づいて、フレーム化部５２によってフレーム化されたフレームが有声音領域または無声音領域のいずれであるかを識別する処理部である。一態様としては、第１の識別部５３は、第１フレーム（１）〜第１フレーム（Ｎ）、第２フレーム（１）〜第２フレーム（Ｎ）の各々の音声データごとに、下記の処理を実行する。すなわち、第１の識別部５３は、自己相関係数のピークの数、自己相関係数のピークの最大値及びスペクトルエントロピーの３つの特徴量を抽出する。さらに、第１の識別部５３は、先に抽出した３つの特徴量それぞれの平均値および標準偏差を各々の音声データごとに算出する。その上で、第１の識別部５３は、確率モデルである隠れマルコフモデル（Hidden Markov Model；HMM）を用いて、有声音領域および無声音領域を各々の音声データのフレームごとに識別する。

ここで、有声音領域および無声音領域の識別方法について説明する。図４は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図４に示すように、第１の識別部５３は、上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果（observation）とし、ＥＭ法（Expectation-Maximization algorithm）を用いて、状態遷移確率（transition possibility）Ｐ_tを算出する。

かかる状態遷移確率Ｐ_tは、例えば、有声音の状態のままでいる確率、有声音の状態から無声音の状態に遷移する確率、無声音の状態のままでいる確率、無声音の状態から有声音の状態に遷移する確率を指す。図４に示す例で言えば、発話は、有声音および無声音の両方とも同一の確率で開始すると仮定して、発話の開始における有声音および無声音の状態の確率がいずれも「０．５」に設定されている。さらに、初期の状態遷移確率Ｐ_tとして、有声音の状態のままでいる確率が「０．９５」に設定されるとともに、有声音の状態から無声音の状態に遷移する確率が「０．０５」に設定されている。さらに、初期の状態遷移確率Ｐ_tとして、無声音の状態のままでいる確率が「０．９５」に設定されるとともに、無声音の状態から有声音の状態に遷移する確率が「０．０５」に設定されている。このような設定の下、第１の識別部５３は、状態遷移確率Ｐ_tを算出することを所定回数にわたって繰り返す。これによって、状態遷移確率Ｐ_tを精度よく算出することができる。

さらに、第１の識別部５３は、上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果とし、ビタビアルゴリズム（Viterbi algorithm）により、観測確率（observation possibility）Ｐ_ｏを各々の音声データごとに算出する。ここで、観測確率Ｐ_ｏは、例えば、有声音の状態から観測（observed）を出力する確率、有声音の状態から非観測（not observed）を出力する確率、無声音の状態から観測を出力する確率および無声音の状態から非観測を出力する確率である。なお、観測確率は、出力確率（emission possibility）とも称される。

これら状態遷移確率Ｐ_tおよび観測確率Ｐ_ｏを算出した後に、第１の識別部５３は、上記の３つの特徴量に基づいて、ビタビアルゴリズムを用いて、各フレームにおいて発話されている場合にその音が有声音Ｖであるか、あるいは無声音Ｕであるかを識別する。その上で、第１の識別部５３は、有声音と識別された領域を有声音領域とし、無声音と識別された領域を無声音領域とする。

このように、第１の識別部５３は、自己相関係数のピークの数、自己相関係数のピークの最大値及びスペクトルエントロピーなどの特徴量を用いて、有声音領域および無声音領域を識別する。したがって、第１の識別部５３では、周囲のノイズの影響によって有声音領域および無声音領域を識別する精度が低下することを抑制できる。また、第１の識別部５３は、周囲のノイズに強い特徴量を用いるため、第１の音声データ１２Ａおよび第２の音声データ１２Ｂをフレーム化する場合に、フレームの個数をより少なくすることもできる。それゆえ、第１の識別部５３では、より簡易な処理で有声音領域および無声音領域を識別できる。

決定部５４は、第１の識別部５３によって有声音領域であると識別されたフレームの識別結果を有効または無効とするかを決定する処理部である。一態様としては、決定部５４は、２つの音声データのエネルギー比を複数の確率分布が混合するモデルにモデル化した上で、フレーム間のエネルギー比が複数の確率分布のうちいずれの確率分布に属するかに応じてフレームの識別結果を有効化または無効化する。

すなわち、本実施例に係る話者判別装置５０では、２つの音声データから得られるエネルギー比の大きさに応じて３つのガウス分布の混合が仮定される。ここでは、一例として、第２の音声データ１２Ｂに対する第１の音声データ１２Ａのエネルギー比、すなわち話者Ｂに対する話者Ａのエネルギー比を用いる場合を例示するが、第１の音声データ１２Ａに対する第２の音声データ１２Ｂを用いることとしてもよい。この場合には、話者Ｂに対する話者Ａのエネルギー比を用いる場合とは逆の仮定がなされる。なお、上記の３つのガウス分布は、第１の音声データ１２Ａに含まれる音声のうち話者Ａによって発話された音声のエネルギーが話者Ｂのものよりも高いという前提の下に仮定される。

かかる混合ガウス分布の一態様としては、話者Ｂが発話している「第１の分布」、話者Ａおよび話者Ｂの両者が発話している「第２の分布」、話者Ａが発話している「第３の分布」の３つにモデル化する態様が挙げられる。このうち、話者Ｂが発話している場合には、話者Ａの音声のエネルギーは話者Ｂの音声のエネルギーよりも低いと推定できる。このため、「第１の分布」には、エネルギー比が低い帯域に確率分布が割り当てられる。また、話者Ａおよび話者Ｂの両者が発話している場合には、両者の音声のエネルギー比はほぼ同等であると推定できる。よって、「第２の分布」には、エネルギー比が中間である帯域に確率分布が割り当てられる。また、話者Ａが発話している場合には、話者Ａの音声のエネルギーは話者Ｂの音声のエネルギーよりも高いと推定できる。したがって、「第３の分布」には、エネルギー比が高い帯域に確率分布が割り当てられる。

このような仮定の下、決定部５４は、既存の期待値最大化法、いわゆるＥＭ法を用いて、各フレーム間のエネルギー比が「第１の分布」、「第２の分布」または「第３の分布」に属している確率をそれぞれ推定する。

かかるＥＭ法の一態様としては、決定部５４は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂのフレーム間のエネルギー比を計算する。このとき、話者Ａおよび話者Ｂがともに沈黙している場合には、両者の音声のエネルギー比はほぼ同等となり、誤って第２の分布に属すると推定されるおそれもある。それゆえ、決定部５４は、発話領域と推定される可能性が高い有声音領域だけを推定に使用する観点から、２つの音声データの各フレーム間で少なくともいずれか一方が有声音Ｖと識別されたフレームを対象に、エネルギー比を算出する。なお、上記のエネルギーは、各々の音声データのフレームに高速フーリエ変換、いわゆるＦＦＴ（Fast Fourier Transform）を実行して周波数解析を行った上で周波数成分ごとの振幅値を平均化することにより算出できる。さらに、上記のエネルギー比は、第１フレーム（ｊ）のエネルギーを第２フレーム（ｊ）のエネルギーで除算することによって算出できる。なお、ここで言う「ｊ」は、１〜Ｎの自然数であり、Ｎ個のフレームのうちｊ番目のフレームであることを示す。

そして、決定部５４は、下記の式（１）に示すように、先に算出したエネルギー比の対数Ｘ_ｊをさらに計算する。このようにエネルギー比の対数を取るのは、割合そのままでは逆数となるエネルギー比を正負の符号を反対に対称にできるからである。

さらに、決定部５４は、ＥＭ法に用いる各種の項目の初期値を設定する。例えば、決定部５４は、上記のようにフレームごとに算出したエネルギー比の対数Ｘ_ｊを昇順に並べ替える。これによって並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}を得る。さらに、決定部５４は、並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}からマトリクスを生成することによって事後確率ρ_ｉｊの初期値を得る。かかる事後確率ρ_ｉｊは、後述の最大化ステップ、すなわちＭ（Maximization）ステップおよび期待値ステップ、すなわちＥ（Expectation）ステップの繰り返し演算によって最尤推定される。このため、必ずしも昇順に並べ替えられたエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}を使用せずともランダムな値を使用することとしてもかまわない。ここで言う「ｉ」は、第１の分布〜第３の分布を指し、例えば、ρ_ｉｊは、ｊ番目のフレームのエネルギー比がｉ番目の分布に含まれる確率を指す。このようにして設定された並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}および事後確率ρ_ｉｊの初期値が後述のＭステップに供給される。

その後、決定部５４は、上記の第１の分布、第２の分布および第３の分布を含んでなるモデルを計算するＭステップを実行する。一態様としては、決定部５４は、下記の式（２）〜式（４）を用いて、第１の分布、第２の分布または第３の分布を定義するパラメータρ_ｉ、μ_ｉおよびσ_ｉを計算することによってパラメータρ_ｉ、μ_ｉおよびσ_ｉをアップデートする。このとき、初期値が算出された初回には、並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}および事後確率ρ_ｉｊの初期値が計算に用いられる。一方、Ｅステップの実行後には、後述のＥステップでアップデートされた事後確率ρ_ｉｊ及びエネルギー比の対数Ｘ_ｊが用いられる。

続いて、決定部５４は、Ｍステップで算出されたモデルを用いて、モデルの尤度の期待値を計算するＥステップを実行する。一態様としては、決定部５４は、Ｍステップで算出されたパラメータρ_ｉ、μ_ｉおよびσ_ｉを下記の式（５）〜式（７）へ代入することによって、確率密度Ｎ（ｘ_ｊ：μ_ｉ，σ_ｉ）、事後混合物の尤度ｆ（ｘ_ｊ）および事後確率ρ_ｉｊを算出する。そして、決定部５４は、Ｍステップ及びＥステップを所定の回数、例えば５回にわたって繰り返し実行する。

このようにしてＭステップ及びＥステップを所定の回数実行後に、決定部５４は、ＥＭ法によって算出された事後確率ρ_ｉｊを用いて、第１の識別部５３によって有声音Ｖであると識別されたフレームの識別結果を有効または無効とするかを決定する。

かかる識別結果の有効化または無効化の一態様としては、決定部５４は、ＥＭ法によって算出されたρ_１ｊとρ_２ｊ及びρ_３ｊとを比較し、ρ_２ｊ＞ρ_１ｊまたはρ_３ｊ＞ρ_１ｊであるか否かを判定する。このとき、ρ_２ｊ＞ρ_１ｊである場合には、ｊ番目のフレームのエネルギー比が第１の分布よりも第２の分布に属している可能性が高いので、話者Ｂが単独で発話している可能性よりも話者Ａおよび話者Ｂの両者が発話している可能性の方が高いと推定できる。また、ρ_３ｊ＞ρ_１ｊである場合には、ｊ番目のフレームのエネルギー比が第１の分布よりも第３の分布に属している可能性が高いので、話者Ｂが単独で発話している可能性よりも話者Ａが単独で発話している可能性の方が高いと推定できる。このため、決定部５４は、第１フレーム（ｊ）及び第２フレーム（ｊ）の識別結果がともに有声音Ｖである場合に、第２フレーム（ｊ）の識別結果を有声音Ｖから無声音Ｕに置換する。これによって、第１の識別部５３によって有声音Ｖと識別された第２フレームの識別結果を無効化する。

一方、ρ_２ｊ＞ρ_１ｊまたはρ_３ｊ＞ρ_１ｊでない場合、すなわちρ_２ｊ＜ρ_１ｊかつρ_３ｊ＜ρ_１ｊである場合には、ｊ番目のフレームのエネルギー比が第２の分布及び第３の分布よりも第１の分布に属している可能性が高い。この場合には、話者Ａが単独で発話している可能性並びに話者Ａおよび話者Ｂの両者が発話している可能性よりも話者Ｂが単独で発話している可能性の方が高いと推定できる。よって、決定部５４は、第１フレーム（ｊ）及び第２フレーム（ｊ）の識別結果がともに有声音Ｖである場合に、第１フレーム（ｊ）の識別結果を有声音Ｖから無声音Ｕに置換する。これによって、第１の識別部５３によって有声音Ｖと識別された第１フレームの識別結果を無効化する。

ここで、図５Ａ〜図５Ｅを用いて、識別結果の有効化または無効化の一例を説明する。図５Ａは、音声データ別のエネルギーの一例を示す図である。図５Ｂは、音声データ別の有声音Ｖまたは無声音Ｕの識別結果の一例を示す図である。図５Ｃは、フレーム間のエネルギー比の一例を示す図である。図５Ｄは、フレーム間のエネルギー比が所属する分布を示す図である。図５Ｅは、置換後の音声データ別の有声音Ｖまたは無声音Ｕの識別結果の一例を示す図である。

一例として、各音声データにおける同一区間のフレームのエネルギーがそれぞれ図５Ａに示す値を取り、第１フレームおよび第２フレームの識別結果がそれぞれ図５Ｂに示す識別結果を取る場合を想定する。この場合には、決定部５４によってフレーム間のエネルギー比が算出される。このとき、図５Ｃに示すように、第１フレームまたは第２フレームのうち少なくともいずれか１つの識別結果が有声音Ｖと識別されたフレーム、すなわち図中の値がブランクであるフレームを除くフレームを対象にフレーム間のエネルギー比が算出される。

その後、フレーム間のエネルギーの比が第１の分布、第２の分布または第３の分布のうちいずれの分布に属するかがＥＭ法を用いて算出される。図５Ｄの例では、第１の分布に属するフレームが濃い塗りつぶしによって図示され、第２の分布に属するフレームが薄い塗りつぶしによって図示され、さらに、第３の分布に属するフレームが斜線の塗りつぶしによって図示されている。この場合には、図５Ｅに示すように、有声音Ｖと識別されている第２フレームのうち第３の分布に属すると推定された第２フレーム（２）、第２フレーム（６）及び第２フレーム（８）の識別結果が無声音Ｕに置換される。さらに、有声音Ｖと識別されている第１フレームのうち第１の分布に属すると推定された第１フレーム（１３）、第１フレーム（１５）、第１フレーム（１６）、第１フレーム（１８）及び第１フレーム（２０）の識別結果が無声音Ｕに置換される。

このように、決定部５４では、２人の話者の音声データのエネルギー比を混合ガウス分布でモデル化した上でフレーム間のエネルギー比が属する分布に応じて有声音Ｖの識別結果を有効又は無効とする。その上で、後段の第２の識別部５５によって各々の音声データの発話領域および沈黙領域が識別される。このため、各音声データを構成する同一区間のフレーム間で閾値を用いて判定せずとも、話者を判別することができる。また、上記の従来技術のように、事前に学習を行う必要もなく、話者の判別に複雑なアルゴリズムを用いる必要もない。

さらに、決定部５４では、フレーム間のエネルギー比が第２の分布に属すると推定された場合に、有声音Ｖと識別されたフレームの識別結果を維持する。例えば、図５Ｅの例で言えば、仮に話者Ｂの発話の音量が話者Ａの発話の音量よりも低かったとしても、１０番目〜１２番目のフレームまでの第１フレーム及び第２フレームの識別結果は有声音Ｖのまま維持される。それゆえ、２人の話者が発話する音量に開きがある場合でも、同時発話を判別することもできる。

なお、ここでは、フレームごとの話者Ｂに対する話者Ａのエネルギー比を用いる場合を説明したが、フレームごとの話者Ｂに対する話者Ａのエネルギー比を併せて用いることとしてもよい。例えば、話者Ｂに対する話者Ａのエネルギー比を用いて事後確率ρ_ｉｊを算出した場合には、ρ_２ｊ＞ρ_１ｊまたはρ_３ｊ＞ρ_１ｊであるならば決定部５４に第２フレーム（ｊ）の識別結果を有声音Ｖから無声音Ｕに置換させる。さらに、話者Ａに対する話者Ｂのエネルギー比を用いて事後確率ρ_ｉｊを算出した場合には、ρ_２ｊ＞ρ_１ｊまたはρ_３ｊ＞ρ_１ｊであるならば決定部５４によって第１フレーム（ｊ）の識別結果を有声音Ｖから無声音Ｕに置換させればよい。このとき、初期値として与えられる事後確率ρ_ｉｊが話者Ｂに対する話者Ａのエネルギー比を用いる場合と話者Ａに対する話者Ｂのエネルギー比を用いる場合とで異なると、ＥＭ法によって算出された事後確率ρ_ｉｊも変わる。この場合には、事後確率ρ_ｉｊを用いた話者の推定結果も変わってくる。

図６は、事後確率ρ_ｉｊを用いた話者の推定結果の一例を示す図である。図６の例では、話者Ａによって発話されていると推定されたフレームが濃い塗りつぶしによって図示され、話者Ｂによって発話されていると推定されたフレームが斜線の塗りつぶしによって図示されている。また、図６の例では、発話されていると推定されたフレームが薄い塗りつぶしによって図示されている。この場合にも、図５Ｅに示す例と同様に、有声音Ｖと識別されている第２フレームのうち第３の分布に属すると推定された第２フレーム（２）、第２フレーム（６）及び第２フレーム（８）の識別結果が無声音Ｕに置換される。さらに、有声音Ｖと識別されている第１フレームのうち第１の分布に属すると推定された第１フレーム（１３）、第１フレーム（１５）、第１フレーム（１６）、第１フレーム（１８）及び第１フレーム（２０）の識別結果が無声音Ｕに置換される。

このように、話者Ｂに対する話者Ａのエネルギー比および話者Ｂに対する話者Ａのエネルギー比の両方を用いて識別結果の有効化または無効化を実行した場合にも、図５Ｅに示した場合と同様の結果を得ることができる。

第２の識別部５５は、第２の確率モデルに基づいて、決定部５４によって有効または無効が決定された後のフレームの識別結果から２つの音声データにおける発話領域および沈黙領域を識別する処理部である。

ここで、発話領域および沈黙領域の識別方法について説明する。図７は、隠れマルコフモデルにおける状態遷移図の一例を示す図である。図７に示す状態遷移確率Ｐ_tおよび観測確率Ｐ_ｏは、予め定められた値である。かかる状態遷移確率Ｐ_tは、例えば、沈黙の状態である沈黙状態のままでいる確率、沈黙状態から発話の状態である発話状態に遷移する確率、発話状態のままでいる確率および発話状態から沈黙状態に遷移する確率を示す。図７に示す例で言えば、発話は、有声音および無声音の両方とも同一の確率で開始すると仮定して、発話の開始における沈黙状態および発話状態の確率がいずれも「０．５」に設定されている。また、状態遷移確率Ｐ_tとして、沈黙状態のままでいる確率が「０．９９９」に設定されるとともに、沈黙状態から発話状態に遷移する確率が「０．００１」に設定されている。さらに、状態遷移確率Ｐ_tとして、発話状態のままでいる確率が「０．９９９」に設定されるとともに、発話状態から沈黙状態に遷移する確率が「０．００１」に設定されている。

また、観測確率Ｐ_ｏは、例えば、沈黙状態において無声音が検出される確率、沈黙状態において有声音が検出される確率、発話状態において無声音が検出される確率、および発話状態において有声音が検出される確率を指す。図７の例で言えば、観測確率Ｐ_ｏとして、沈黙状態において無声音が検出される確率が「０．９９」に設定されるとともに、沈黙状態において有声音が検出される確率が「０．０１」に設定されている。また、観測確率Ｐ_ｏとして、発話状態において無声音が検出される確率が「０．５」に設定されるとともに、発話状態において有声音が検出される確率が「０．５」に設定されている。

なお、図７の例では、発話状態において無声音が検出される確率および発話状態において有声音が検出される確率をともに「０．５」に設定する場合を例示したが、同時発話の場合には他の話者よりも音量が小さい発話を行う話者の無声音が増加することも想定される。よって、発話状態において無声音が検出される確率を「０．５」よりも大きく設定することにより、他の話者よりも音量が小さい発話を行う話者の無声音の増加を抑制することもできる。

このような設定の下、第２の識別部５５は、ビタビアルゴリズムを用いて、決定部５４による有効化または無効化がなされた後の有声音および無声音から、各々の音声データにおける沈黙領域および発話領域であるかを識別する。これによって、第１の音声データにおける話者Ａの発話領域および沈黙領域、第２の音声データにおける話者Ｂの発話領域および沈黙領域が識別される。

会話分析装置１０の説明に戻り、抽出部１３は、各々の音声データから会話特性を抽出する処理部である。一態様としては、抽出部１３は、第２の識別部５５によって識別された第１の音声データにおける話者Ａの発話領域をもとに有声音領域の数、有声音領域の長さの平均値および有声音領域の長さの標準偏差を算出する。また、抽出部１３は、第２の識別部５５によって識別された第１の音声データにおける話者Ａの発話領域をもとに発話領域の数、発話領域の長さの平均値および発話領域の長さの標準偏差を算出する。さらに、抽出部１３は、第２の識別部５５によって識別された第１の音声データにおける話者Ａの沈黙領域をもとに、沈黙領域の数、沈黙領域の長さの平均値および沈黙領域の長さの標準偏差を算出する。

また、抽出部１３は、会話全体の時間の長さに対する話者Ａの発話時間の長さの割合を算出する。このとき、抽出部１３は、話者Ａの発話領域の長さの合計を、話者Ａの発話時間の長さとして、上記の割合を算出する。また、抽出部１３は、話者Ｂの発話時間に対する話者Ａの発話時間の割合を算出する。さらに、抽出部１３は、話者Ｃの発話時間に対する話者Ａの発話時間の割合も算出する。また、抽出部１３は、話者Ａの発話領域をもとに、音量の標準偏差およびスペクトルエントロピーの標準偏差を算出する。さらに、抽出部１３は、話者Ａの発話領域をもとに算出した音量の標準偏差と、スペクトルエントロピーの標準偏差との和を、変化の度合いとして算出する。なお、ここでは、話者Ａの会話特性を抽出する場合を例示したが、話者Ｂについても、上記の話者Ａと同様にして、会話特性を抽出する。

このようにして算出された有声音領域の数、有声音領域の長さの平均値および有声音領域の長さの標準偏差の各会話特性は、有声音の長さがどの位長いのかを示す指標となる。また、発話領域の数、発話領域の長さの平均値、および発話領域の長さの標準偏差の各会話特性は、対応する人物が、常に会話において長く続けて話すのか、あるいは少ししか話さないのかを示す指標となる。また、沈黙領域の数、沈黙領域の長さの平均値および沈黙領域の長さの標準偏差の各会話特性は、話者の話し方が、長く続けて話すのか、あるいは中断（沈黙）を多くはさみながら話すのかを示す指標となる。また、会話全体の時間の長さに対するある人物の発話時間の長さの割合および他の人物の発話時間に対するある人物の発話時間の割合Ｒ_ｔの各会話特性は、会話の参加状態を示す指標となる。また、音量の標準偏差、スペクトルエントロピーの標準偏差および変化の度合いの各会話特性は、感情の変化が激しい情熱的な話者であるのか、あるいは感情の変化が小さい静かな話者であるのかを示す指標となる。

分析部１４は、抽出部１３によって抽出された会話特性に基づいて、会話スタイルを分析する処理部である。一態様としては、分析部１４は、他の人物の発話時間に対するある人物の発話時間の割合Ｒ_ｔが、所定値、例えば１．５以上である場合には、この「ある人物」は、会話においてよく話す人物であると分析する。また、分析部１４は、割合Ｒ_ｔが所定値、例えば０．６６以下である場合には、この「ある人物」は、会話においてあまり話さない、いわゆる聞き役の人物であると分析する。なお、分析部１４は、割合Ｒ_ｔが、所定値、例えば０．６６より大きく、１．５未満である場合には、会話に対する参加状況において両者は対等であると分析する。

他の一態様としては、分析部１４は、ある人物の発話領域の数に対する有声音領域の数の割合および発話領域の長さの平均値が、他の人物の発話領域の数に対する有声音領域の数の割合および発話領域の長さの平均値よりも大きい場合には、次のように分析する。すなわち、分析部１４は、「ある人物」は会話において長く続けて話しがちな人物であると分析する。また、分析部１４は、ある人物の沈黙領域の長さの平均値が他の人物の沈黙領域の長さの平均値よりも大きく、かつある人物の沈黙領域の長さの標準偏差が所定値、例えば、６．０以上である場合には、次のように分析する。すなわち、分析部１４は、「ある人物」は、相手の話を聞いて、相手の内容に合わせて自分の発話を中断するため、発話の長さが一定しない人物であると分析する。

更なる一態様としては、分析部１４は、ある人物の音量の標準偏差、スペクトルエントロピーの標準偏差または変化の度合いが、それぞれに対応する基準値以上である場合には、「ある人物」は感情の変化が激しい情熱的な話者であると分析する。また、分析部１４は、ある人物の音量の標準偏差、スペクトルエントロピーの標準偏差または変化の度合いが、それぞれに対応する基準値未満である場合には、「ある人物」は感情の変化が小さい静かな話者であると分析する。

他の一態様としては、分析部１４は、ある人物と他の人物との関係を分析することもできる。例えば、分析部１４は、他の人物の発話時間に対するある人物の発話時間の割合Ｒ_ｔが所定値、例えば１．０以上である場合には、「ある人物」は「他の人物」に対してよく話しかけているため、ある人物と他の人物との関係が友達や家族であると分析できる。一方、割合Ｒ_ｔが所定値、例えば１．０未満である場合には、この「ある人物」は「他の人物」の話を聞こうとしているため、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

更なる一態様としては、分析部１４は、ある人物と他の人物との会話においてある人物の発話領域の長さの平均値が所定値、例えば、１．８５（ｓ）以上である場合には、ある人物と他の人物との関係が友達や家族であると分析できる。これは、「ある人物」が「他の人物」に対してよく話しかけているためである。一方、分析部１４は、ある人物と他の人物との会話においてある人物の発話領域の長さの平均値が所定値、例えば、１．８５（ｓ）未満である場合には、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

他の一態様としては、分析部１４は、ある人物と他の人物との会話においてある人物の沈黙領域の長さの平均値が所定値、例えば、３．００（ｓ）以下である場合には、同様の理由で、ある人物と他の人物との関係が友達や家族であると分析できる。一方、分析部１４は、ある人物の沈黙領域の長さの平均値が所定値、例えば、３．００（ｓ）より大きい場合には、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

更なる一態様としては、分析部１４は、ある人物と他の人物との会話においてある人物の変化の度合いが所定値、例えば、０．３３以上である場合には、同様の理由で、ある人物と他の人物との関係が友達や家族であると分析できる。一方、分析部１４は、ある人物の変化の度合いが所定値、例えば、０．３３未満である場合には、ある人物と他の人物との関係が会社の同僚やビジネスパートナーであると分析できる。

これらの分析を行った後に、分析部１４は、分析結果を所定の出力先の装置、例えば会話分析装置１０が有する表示部や話者Ａおよび話者Ｂが利用する情報処理装置などに出力することができる。

なお、話者判別装置５０、抽出部１３及び分析部１４には、各種の集積回路や電子回路を採用できる。また、話者判別装置５０に含まれる機能部の一部を別の集積回路や電子回路とすることもできる。例えば、集積回路としては、ＡＳＩＣ（Application Specific Integrated Circuit）が挙げられる。また、電子回路としては、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などが挙げられる。

続いて、本実施例に係る会話分析装置の処理の流れについて説明する。なお、ここでは、会話分析装置１０によって実行される（１）会話分析処理を説明した後に、話者判別装置５０によって実行される（２）実行処理を説明する。

（１）会話分析処理
図８及び図９は、実施例１に係る会話分析処理の手順を示すフローチャートである。この会話分析処理は、一例として、図示しない入力部から会話分析処理を実行する指示を受け付けた場合に処理が起動する。

図８に示すように、取得部５１は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂを取得する（ステップＳ１０１）。そして、フレーム化部５２は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂそれぞれの長さが同一であるか否かを判定する（ステップＳ１０２）。なお、ここで言う「同一」は、長さの差が許容誤差範囲内である場合も含む。

このとき、各々の音声データの長さが同一でない場合（ステップＳ１０２否定）には、フレーム化部５２は、エラーメッセージを図示しない表示部に出力し（ステップＳ１０３）、処理を終了する。

一方、各々の音声データの長さが同一である場合（ステップＳ１０２肯定）には、フレーム化部５２は、第１の音声データ１２Ａおよび第２の音声データ１２Ｂをフレーム化する（ステップＳ１０４）。

その後、第１の識別部５３は、自己相関係数のピークの数、自己相関係数のピークの最大値およびスペクトルエントロピーの３つの特徴量を各々の音声データごとに抽出する（ステップＳ１０５）。そして、第１の識別部５３は、各々の音声データごとに抽出した３つの特徴量それぞれの平均値および標準偏差を算出する（ステップＳ１０６）。

続いて、第１の識別部５３は、変数Ｎに０を設定し（ステップＳ１０７）、隠れマルコフモデルにおける有声音および無声音の状態遷移について初期の状態遷移確率Ｐ_tを設定する（ステップＳ１０８）。

そして、第１の識別部５３は、変数Ｎの値を１つインクリメントする（ステップＳ１０９）。このとき、変数Ｎの値が５以上でない場合（ステップＳ１１０否定）には、第１の識別部５３は、各々の音声データごとに抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果とし、ＥＭ法を用いて、状態遷移確率Ｐ_tを算出し（ステップＳ１１１）、変数Ｎの値をさらに１つインクリメントする。

一方、変数Ｎの値が５以上である場合（ステップＳ１１０肯定）には、第１の識別部５３は、次のような処理を実行する。すなわち、第１の識別部５３は、各々の音声データごとに抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果とし、ＥＭ法を用いて、状態遷移確率Ｐ_tを算出する（ステップＳ１１２）。

そして、第１の識別部５３は、各々の音声データごとに抽出した上記の３つの特徴量、並びに、各特徴量の平均値および標準偏差を観測結果とし、ビタビアルゴリズムを用いて、観測確率Ｐ_ｏを算出する（ステップＳ１１３）。

その後、第１の識別部５３は、各々の音声データごとに抽出した上記の３つの特徴量に基づいて、ビタビアルゴリズムを用いて、次のような処理を行う。すなわち、第１の識別部５３は、発話が行われている各フレームにおいて、発話されている音が有声音であるか、あるいは無声音であるかを識別する。そして、第１の識別部５３は、有声音が検出された領域を有声音領域とし、無声音が検出された領域を無声音領域とする（ステップＳ１１４）。

ここで、決定部５４は、２人の話者の音声データのエネルギー比を混合ガウス分布でモデル化した上でフレーム間のエネルギー比が属する分布に応じて有声音Ｖの識別結果を有効または無効とするかを決定する「決定処理」を実行する（ステップＳ１１５）。

その後、第２の識別部５５は、ビタビアルゴリズムを用いて、決定部５４による有効化または無効化がなされた有声音および無声音の識別結果から、沈黙状態または発話状態であるかを検出することにより沈黙領域および発話領域を識別する（ステップＳ１１６）。

続いて、抽出部１３は、図９に示すように、ある話者が発話したと特定されたフレームから、有声音領域の数、有声音領域の長さの平均値および有声音領域の長さの標準偏差を算出する（ステップＳ１１７）。

さらに、抽出部１３は、ある話者が発話したと特定されたフレームから、発話領域の数、発話領域の長さの平均値および発話領域の長さの標準偏差を算出する（ステップＳ１１８）。その後、抽出部１３は、ある話者の沈黙領域のフレームから、沈黙領域の数、沈黙領域の長さの平均値および沈黙領域の長さの標準偏差を算出する（ステップＳ１１９）。

そして、抽出部１３は、会話全体の時間の長さに対するある話者の発話時間の長さの割合を算出する（ステップＳ１２０）。さらに、抽出部１３は、他の話者の発話時間に対するある話者の発話時間の割合を算出する（ステップＳ１２１）。

続いて、抽出部１３は、ある話者が発話したと特定されたフレームから、音量の標準偏差およびスペクトルエントロピーの標準偏差を算出する（ステップＳ１２２）。抽出部１３は、ある話者が発話したと特定されたフレームから算出した音量の標準偏差と、スペクトルエントロピーの標準偏差との和を、変化の度合いとして算出する（ステップＳ１２３）。

そして、全ての話者、すなわち話者Ａおよび話者Ｂの会話特性を抽出するまで（ステップＳ１２４否定）、上記のステップＳ１１７〜ステップＳ１２３までの処理を繰り返し実行する。その後、全ての話者の会話特性を抽出すると（ステップＳ１２４肯定）、分析部１４は、抽出部１３によって抽出された会話特性に基づいて、会話スタイルを分析する（ステップＳ１２５）。最後に、分析部１４は、分析結果を所定の出力先の装置へ出力し（ステップＳ１２６）、処理を終了する。

（２）決定処理
図１０は、実施例１に係る決定処理の手順を示すフローチャートである。この決定処理は、図８に示したステップＳ１１５に対応する処理であり、有声音領域および無声音領域が識別された後に処理が起動する。

図１０に示すように、決定部５４は、２つの音声データの各フレーム間で少なくともいずれか一方が有声音Ｖと識別されたフレームを対象に、第１の音声データ１２Ａおよび第２の音声データ１２Ｂのフレーム間のエネルギー比を計算する（ステップＳ３０１）。続いて、決定部５４は、ステップＳ３０１で算出したエネルギー比の対数Ｘ_ｊをさらに計算する（ステップＳ３０２）。

そして、決定部５４は、ＥＭ法に用いる各種の項目の初期値を設定する（ステップＳ３０３）。例えば、決定部５４は、上記のようにフレームごとに算出したエネルギー比の対数Ｘ_ｊを昇順に並べ替える。これによって並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}を得る。さらに、決定部５４は、並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}からマトリクスを生成することによって事後確率ρ_ｉｊの初期値を得る。

続いて、決定部５４は、ステップＳ３０３で設定された並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}および事後確率ρ_ｉｊの初期値を後述のＭステップに供給する（ステップＳ３０４）。

そして、決定部５４は、上記の式（２）〜式（４）を用いて、第１の分布、第２の分布または第３の分布を定義するパラメータρ_ｉ、μ_ｉ及びσ_ｉを計算することによってパラメータρ_ｉ、μ_ｉ及びσ_ｉをアップデートするＭステップを実行する（ステップＳ３０５）。このとき、初期値が算出された初回には、並べ替え後のエネルギー比の対数Ｘ_{ｊ＿ｓｏｒｔｅｄ}および事後確率ρ_ｉｊの初期値が計算に用いられる。

続いて、決定部５４は、Ｍステップで算出されたパラメータρ_ｉ、μ_ｉ及びσ_ｉを上記の式（５）〜式（７）へ代入することで、確率密度Ｎ（ｘ_ｊ：μ_ｉ，σ_ｉ）、事後混合物の尤度ｆ（ｘ_ｊ）及び事後確率ρ_ｉｊを算出するＥステップを実行する（ステップＳ３０６）。

そして、Ｍステップ及びＥステップを所定の回数にわたって繰り返し実行するまで（ステップＳ３０７否定）、決定部５４は、次のような処理を実行する。すなわち、決定部５４は、後述のＥステップでアップデートされた事後確率ρ_ｉｊ及びエネルギー比の対数Ｘ_ｊをＭステップへ供給した上で（ステップＳ３０８）、上記のＭステップ及びＥステップを実行する。

その後、Ｍステップ及びＥステップを所定の回数実行した場合（ステップＳ３０７肯定）に、決定部５４は、次のような処理を実行する。すなわち、決定部５４は、ＥＭ法によって算出された事後確率ρ_ｉｊを用いて、第１の識別部５３によって有声音Ｖであると識別されたフレームの識別結果を有効または無効とするかを決定し（ステップＳ３０９）、処理を終了する。

上述してきたように、本実施例に係る話者判別装置５０では、２人の話者の音声データのエネルギー比を混合ガウス分布でモデル化した上でフレーム間のエネルギー比が属する分布に応じて有声音Ｖの識別結果を有効又は無効とする。その上で、本実施例に係る話者判別装置５０では、有効化または無効化が実行されたフレームの識別結果から２つの音声データの発話領域および沈黙領域を識別する。このため、本実施例に係る話者判別装置５０では、各音声データを構成する同一区間のフレーム間で閾値を用いて判定せずとも、話者を判別することができる。また、本実施例に係る話者判別装置５０では、上記の従来技術のように、事前に学習を行う必要もなく、話者の判別に複雑なアルゴリズムを用いる必要もない。したがって、本実施例に係る話者判別装置５０によれば、話者の判別を簡易かつ正確に行うことが可能である。

さらに、本実施例に係る話者判別装置５０では、フレーム間のエネルギー比が第２の分布に属すると推定された場合に、有声音Ｖと識別されたフレームの識別結果を維持する。それゆえ、本実施例に係る話者判別装置５０によれば、２人の話者が発話する音量に開きがある場合でも、同時発話を判別することもできる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［分散および統合］
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、話者判別装置５０、抽出部１３または分析部１４を会話分析装置１０の外部装置としてネットワーク経由で接続するようにしてもよい。また、話者判別装置５０、抽出部１３または分析部１４を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の話者判別装置の機能を実現するようにしてもよい。

［話者判別プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１１を用いて、上記の実施例と同様の機能を有する話者判別プログラムを実行するコンピュータの一例について説明する。

図１１は、実施例１及び実施例２に係る話者判別プログラムを実行するコンピュータの一例について説明するための図である。図１１に示すように、コンピュータ１００は、操作部１１０ａと、スピーカ１１０ｂと、マイク１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ１７０と、ＲＡＭ１８０と有する。これら１１０〜１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１１に示すように、上記の実施例１で示した取得部５１と、フレーム化部５２と、第１の識別部５３と、決定部５４と、第２の識別部５５と同様の機能を発揮する話者判別プログラム１７０ａが予め記憶される。この話者判別プログラム１７０ａについては、図１に示した各々の取得部５１、フレーム化部５２、第１の識別部５３、決定部５４及び第２の識別部５５の各構成要素と同様、適宜統合又は分離しても良い。すなわち、ＨＤＤ１７０に格納される各データは、常に全てのデータがＨＤＤ１７０に格納される必要はなく、処理に必要なデータのみがＨＤＤ１７０に格納されれば良い。

そして、ＣＰＵ１５０が、話者判別プログラム１７０ａをＨＤＤ１７０から読み出してＲＡＭ１８０に展開する。これによって、図１１に示すように、話者判別プログラム１７０ａは、話者判別プロセス１８０ａとして機能する。この話者判別プロセス１８０ａは、ＨＤＤ１７０から読み出した各種データを適宜ＲＡＭ１８０上の自身に割り当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。なお、話者判別プロセス１８０ａは、図１に示した取得部５１、フレーム化部５２、第１の識別部５３、決定部５４及び第２の識別部５５にて実行される処理、例えば図１０に示す処理を含む。また、ＣＰＵ１５０上で仮想的に実現される各処理部は、常に全ての処理部がＣＰＵ１５０上で動作する必要はなく、処理に必要な処理部のみが仮想的に実現されれば良い。

なお、上記の話者判別プログラム１７０ａについては、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶させておく必要はない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ１００がこれらから各プログラムを取得して実行するようにしてもよい。

１０会話分析装置
１１音声記憶部
１２Ａ第１の音声データ
１２Ｂ第２の音声データ
３０Ａ，３０Ｂ接話マイク
３１登録部
５０話者判別装置
５１取得部
５２フレーム化部
５３第１の識別部
５４決定部
５５第２の識別部

Claims

２人の話者にそれぞれ配置されるマイクから２つの音声データを取得する取得部と、
前記取得部によって取得された２つの音声データの各々を所定の区間のフレームにフレーム化するフレーム化部と、
第１の確率モデルに基づいて、前記フレーム化部によってフレーム化されたフレームが有声音領域または無声音領域のいずれであるかを識別する第１の識別部と、
２つの音声データのエネルギー比を複数の確率分布が混合するモデルにモデル化した上で、前記フレーム間のエネルギー比が複数の確率分布のうちいずれの確率分布に属するかに応じて前記第１の識別部によって有声音領域であると識別されたフレームの識別結果を有効または無効とするかを決定する決定部と、
第２の確率モデルに基づいて、前記決定部によって有効または無効が決定された後のフレームの識別結果から２つの音声データにおける発話領域および沈黙領域を識別する第２の識別部と
を有することを特徴とする話者判別装置。
前記決定部は、
２つの音声データのエネルギー比の大きさに応じて前記２人の話者のうち第１の話者が発話した第１の分布、第１の話者と前記第１の話者とは異なる第２の話者とが同時に発話した第２の分布および前記第２の話者が発話した第３の分布の３つの分布にモデル化した上で、前記フレーム間のエネルギー比が前記第１の分布に属するか、もしくは前記第２の分布又は前記第３の分布に属するかに応じて前記有声音領域であると識別されたフレームの識別結果を有効または無効とするかを決定することを特徴とする請求項１に記載の話者判別装置。
コンピュータに、
２人の話者にそれぞれ配置されるマイクから２つの音声データを取得し、
取得された２つの音声データの各々を所定の区間のフレームにフレーム化し、
第１の確率モデルに基づいて、前記フレームが有声音領域または無声音領域のいずれであるかを識別し、
２つの音声データのエネルギー比を複数の確率分布が混合するモデルにモデル化した上で、前記フレーム間のエネルギー比が複数の確率分布のうちいずれの確率分布に属するかに応じて前記有声音領域であると識別されたフレームの識別結果を有効または無効とするかを決定し、
第２の確率モデルに基づいて、有効または無効が決定された後のフレームの識別結果から２つの音声データにおける発話領域および沈黙領域を識別する
各処理を実行させることを特徴とする話者判別プログラム。
コンピュータが、
２人の話者にそれぞれ配置されるマイクから２つの音声データを取得し、
取得された２つの音声データの各々を所定の区間のフレームにフレーム化し、
第１の確率モデルに基づいて、前記フレームが有声音領域または無声音領域のいずれであるかを識別し、
２つの音声データのエネルギー比を複数の確率分布が混合するモデルにモデル化した上で、前記フレーム間のエネルギー比が複数の確率分布のうちいずれの確率分布に属するかに応じて前記有声音領域であると識別されたフレームの識別結果を有効または無効とするかを決定し、
第２の確率モデルに基づいて、有効または無効が決定された後のフレームの識別結果から２つの音声データにおける発話領域および沈黙領域を識別する
各処理を実行することを特徴とする話者判別方法。