JP5803617B2

JP5803617B2 - 音声情報解析装置および音声情報解析プログラム

Info

Publication number: JP5803617B2
Application number: JP2011260262A
Authority: JP
Inventors: 真路堀田; 一穂前田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-11-29
Filing date: 2011-11-29
Publication date: 2015-11-04
Anticipated expiration: 2031-11-29
Also published as: JP2013115622A

Description

本件開示は、複数の人物によって発話された音声情報を解析する音声情報解析装置および音声情報解析プログラムに関する。

展示会場内やオフィス内に滞在する複数の人物が、それぞれどのようなグループを形成して会話しているのかを特定することにより、コミュニケーションの活性化や効率的な人事管理が可能となる場合がある。

複数の人物が会話に参加しているグループを特定する手法としては、互いに近接していて少なくとも一方が発話している場合に、当該人物同士が対話していると判断する技法が提案されている(特許文献１参照)。この技法では、各人物に会話音声の取得と近接した人物の識別情報を取得するための端末を所持させ、この端末で収集した情報を対話している人物の特定に利用している。また、同様の機能を有する端末を各人物に所持させ、互いに近接している人物の端末を介して収集した音声情報を解析することによって求めた発話期間の重複率に基づき、個々のグループに参加している人物を特定する技法も提案されている(特許文献２参照)。

また、個々の人物が所持する端末を介して収集した所定以上の音圧を持つ音声が相互に類似しており、かつ、互いの発話期間に重複が少ない人物同士が対話していると判断する技法も提案されている(特許文献３参照)。

特開２００９−２２４９０９号公報再公表ＷＯ２００７／１０５４３６号公報特開２００８−２４２３１８号公報

特許文献１や特許文献２の技法は、展示会場などに滞在する個々の人物に、近接する他の人物を特定する機能を持つ端末を配布し、装着してもらう必要がある。多数の人物が滞在する場所において、このような特定の用途に利用される端末を配布して装着させることは、情報を収集する側にとっても、また、端末を装着させられる側にとっても負担になる。

一方、特許文献３の技法は、展示会場などを訪れた人物が所持している携帯端末などの機能を利用して音声情報を収集することができる反面、混雑した状態などでは、背景ノイズの影響により、音声情報の類似性を正確に判断できない可能性がある。

また、例えば、複数のグループが互いに近接している場合などには、発話期間の重複率のみに基づいて、各人物がどのグループに参加しているかを判断することは困難である。

本件開示は、大まかな位置情報と音声情報とに基づいて、複数の人物がそれぞれ参加している会話グループを特定することが可能な音声情報解析装置および音声情報解析プログラムを提供することを目的とする。

一つの観点による音声情報解析装置は、複数の人物それぞれが発話した音声を表す音声情報を取得する取得部と、前記複数の人物それぞれの位置を示す位置情報を収集する収集部と、前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成する生成部と、前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物による複数の発話音声を時系列に従って配列する配列部と、前記配列部によって会話グループごとに配列された前記複数の発話音声において連続する２つの発話音声として特定される発話ペアごとに、前記発話ペアに対応する音声情報から、韻律的な特徴を示す韻律情報とパラ言語的な特徴に対応するパラ言語情報との少なくとも一方を含む特徴情報を抽出する抽出部と、前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部であることの尤もらしさを示す第１尤度を算出する第１算出部と、前記第１算出部で前記各発話ペアについて得られた前記第１尤度に基づいて、前記配列部によって会話グループごとに配列された前記複数の発話音声の全てが、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する第２算出部と、前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する第３算出部とを備え、前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する発話音声のパワーを示す発話パワーと２つの発話相互の時間間隔を示す発話間隔とを含む韻律情報を抽出し、前記第１算出部は、前記発話パワーが大きいほど、小さい前記発話間隔の確率が高くなる特性を有する確率分布に基づいて、前記韻律情報に含まれる前記発話パワーを持つ発話音声が前記発話間隔で出現することの尤もらしさを反映する前記第１尤度を算出する。

また、別の観点による音声情報解析プログラムは、複数の人物それぞれが発話した音声を表す音声情報および前記複数の人物それぞれの位置を示す位置情報を取得する工程と、前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成する工程と、前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物の発話音声を時系列に従って並べ替えることにより、前記各会話グループにおける発話音声の出現順序を示す発話音声の配列を生成する工程と、前記各会話グループに対応する前記発話音声の配列に含まれる各発話音声と当該発話音声に連続する発話音声とを含む発話ペアごとに、前記発話ペアに含まれる２つの発話音声に対応する音声情報から、韻律情報とパラ言語情報との少なくとも一方を含む特徴情報を抽出する工程と、前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部である確率を示す第１尤度を算出する工程と、前記各会話グループに対応する発話音声の配列に含まれる前記発話ペアについて算出した前記第１尤度に基づいて、前記発話音声の配列に含まれる全ての発話音声が、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する工程と、前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する工程とを含む処理をコンピュータに実行させ、前記特徴情報を抽出する工程は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する発話音声のパワーを示す発話パワーと２つの発話相互の時間間隔を示す発話間隔とを含む韻律情報を抽出し、前記第１尤度を算出する工程は、前記発話パワーが大きいほど、小さい前記発話間隔の確率が高くなる特性を有する確率分布に基づいて、前記韻律情報に含まれる前記発話パワーを持つ発話音声が前記発話間隔で出現することの尤もらしさを反映する前記第１尤度を算出する。

本件開示の音声情報解析装置および音声情報解析プログラムによれば、大まかな位置情報と音声情報とに基づいて、複数の人物がそれぞれ参加している会話グループを特定することが可能である。

音声情報解析装置の一実施形態を示す図である。位置情報の収集手法を説明する図である。発話期間の重複を説明する図である。会話グループの組み合わせ候補の絞込み例を示す図である。会話グループごとに配列された発話音声の例を示す図である。生成部および配列部の一実施形態を示す図である。発話リストおよび近接人物リストの一例を示す図である。発話配列リストの一例を示す図である。抽出部の一実施形態を示す図である。発話間隔を示す情報の一例を示す図である。第１算出部の一実施形態を示す図である。確率分布モデルの一例を示す図である。確率テーブルの例を示す図である。音声情報解析装置のハードウェア構成例を示す図である。音声情報解析処理のフローチャートの一例を示す図である。会話グループを特定する処理のフローチャートの一例を示す図である。各組み合わせ候補の尤度を算出する処理のフローチャートの例を示す図である。

以下、図面に基づいて、本発明の実施形態について詳細に説明する。
図１は、音声情報解析装置の一実施形態を示している。

図１に例示した音声情報解析装置１０は、取得部１１と、収集部１２と、生成部１３と、配列部１４と、抽出部１５と、第１算出部１６と、第２算出部１７と、第３算出部１８とを含んでいる。

図１に例示した取得部１１は、複数の人物Ｃ１〜Ｃｎそれぞれが発話した音声を表す音声情報を取得する。例えば、取得部１１は、複数の人物Ｃ１〜Ｃｎそれぞれが所持する携帯端末Ｔ１〜Ｔｎを介して、各人物Ｃ１〜Ｃｎの音声情報を取得してもよい。

また、図１に例示した収集部１２は、各人物Ｃ１〜Ｃｎの位置を少なくとも一つの基準位置からの距離を用いて示す位置情報を収集する。例えば、収集部１２は、各人物Ｃ１〜Ｃｎが所持する携帯端末Ｔ１〜Ｔｎの位置を示す情報を、各人物Ｃ１〜Ｃｎの位置情報として収集してもよい。なお、各携帯端末Ｔ１〜Ｔｎの位置を示す情報は、個々の携帯端末Ｔ１〜Ｔｎに含まれるＧＰＳ(Global Positioning System)機能によって得られる位置情報でもよい。

また、収集部１２は、図２に示すように、例えば、人物Ｃ１〜Ｃｎが滞在する室内に配置された中継装置Ｓ１，Ｓ２を介して、各携帯端末Ｔ１〜Ｔｎとの距離を示す情報を収集することによって、各携帯端末Ｔ１〜Ｔｎの位置を示す情報を得てもよい。

図２は、位置情報の収集手法を説明する図である。図２において、符号Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇは、人物Ｃ１〜Ｃｎの例である。また、図２において、符号Ｒ１は、人物Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇが滞在している展示会場などの場所を示している。また、図２において、符号Ｓ１，Ｓ２は、それぞれ、上述した展示会場Ｒ１に設置された中継装置を示している。

図２に例示した中継装置Ｓ１，Ｓ２は、展示会場Ｒ１内に滞在している人物Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇがそれぞれ所持している携帯端末に、ネットワークへの無線アクセスを提供する機能を有している。このような中継装置Ｓ１，Ｓ２は、展示会場Ｒ１内の人物Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇが所持している携帯端末をネットワークに接続させる過程で、これらの携帯端末と中継装置Ｓ１，Ｓ２との間の距離を示す情報を収集している。例えば、中継装置Ｓ１，Ｓ２は、これらの携帯端末から到来する無線信号の強度や遅延の大きさなどに基づいて、自装置に近接している携帯端末をそれぞれ判別している。

図２の例では、人物Ａの携帯端末から経路ｒａ１を介して中継装置Ｓ１に到達した無線信号と人物Ｇの携帯端末から経路ｒｇ１を介して中継装置Ｓ１に到達した無線信号とを比較することにより、人物Ａの方が人物Ｇよりも中継装置Ｓ１に近いことが分かる。同様に、人物Ａの携帯端末から経路ｒａ２を介して中継装置Ｓ２に到達した無線信号と人物Ｇの携帯端末から経路ｒｇ２を介して中継装置Ｓ２に到達した無線信号とを比較することにより、人物Ｇの方が人物Ａよりも中継装置Ｓ２に近いことが分かる。このようにして、２つの中継装置Ｓ１、Ｓ２がそれぞれ各人物Ａ〜Ｈの携帯端末について収集した情報に基づいて、図１に例示した収集部１２は、人物Ａ〜Ｈがそれぞれ中継装置Ｓ１、Ｓ２のどちらに近いかを判別してもよい。そして、この判別結果を、収集部１２は、２つの中継装置Ｓ１，Ｓ２からの距離を用いて示す位置情報として、図１に例示した生成部１３に渡してもよい。

生成部１３は、各人物Ｃ１〜Ｃｎの音声情報から得られる各人物Ｃ１〜Ｃｎが発話している期間と各人物Ｃ１〜Ｃｎの位置情報とに基づいて、人物Ｃ１〜Ｃｎによって形成される複数の会話グループの組み合わせについての組み合わせ候補を生成する。

生成部１３は、まず、上述した収集部１２で得られた人物Ｃ１〜Ｃｎの位置情報に基づいて、各人物Ｃ１〜Ｃｎを互いに近い位置にいる人物をそれぞれ含む複数のグループに分ける。例えば、生成部１３は、中継装置Ｓ１，Ｓ２からの距離を示す位置情報に基づいて、図２に例示した人物Ａ〜Ｈを、中継装置Ｓ１の近くにいる人物Ａ〜Ｅを含むグループｇｒ１と、中継装置Ｓ２の近くにいる人物Ｆ，Ｇを含むグループｇｒ１とに分けてもよい。

このようにして、生成部１３は、対話している人物は互いに近い位置にいるという位置情報に基づく制約を満たすように、人物Ｃ１〜Ｃｎを複数のグループに分けることができる。

次に、生成部１３は、次に述べるようにして、人物Ｃ１〜Ｃｎの音声情報に基づいて、位置情報に基づいて形成した複数のグループそれぞれについて、会話している可能性のある人物を含む会話グループを生成する。

まず、生成部１３は、音声情報に基づいて、各人物が発話している期間である発話期間をそれぞれ特定する。次いで、生成部１３は、位置情報に基づいて形成したグループそれぞれに含まれる人物の中から、発話期間が重複している人物のペアを検出する。

図３は、発話期間の重複を説明する図である。図３に示した横軸は、時間ｔを示す。また、図３に示した符号Ａ，Ｂ，Ｃ，Ｄ，Ｅは、図２に例示したグループｇｒ１に含まれる人物Ａ，Ｂ，Ｃ，Ｄ，Ｅに対応している。

図３において、各人物Ａ，Ｂ，Ｃ，Ｄ，Ｅに対応する横軸上に示した矩形は、それぞれの人物の発話音声を示している。また、各矩形の横方向の長さは、それぞれの発話音声に対応する発話期間の長さを示し、各矩形の位置は、時間軸上の位置を示している。なお、図３において、各発話音声を、符号「Ｖ」と話者を示す符号と時系列を示す番号とを組み合わせた符号で示した。例えば、人物Ａのｊ番目の発話音声を符号ＶＡｊで示した。

図３に例示した人物Ａの発話音声ＶＡ１，ＶＡ２の発話期間と人物Ｃの発話音声ＶＣ１の発話期間とを比べると、これらが、それぞれ符号τａｃ１，τａｃ２で示した期間に亘って重複していることが分かる。そして、この重複している期間τａｃ１，τａｃ２が、人物Ａの２つの発話音声に対応する発話期間に占める割合を示す発話重複率が、値１に近い、高い値となることも分かる。また、図３に例示した人物Ｂの発話音声ＶＢ１，ＶＢ２の発話期間と人物Ｃの発話音声ＶＣ１の発話期間とを比べると、これらが、それぞれ符号τｂｃ１，τｂｃ２で示した期間に亘って重複していることが分かる。また、同様に、この重複している期間τｂｃ１，τｂｃ２が、人物Ｂの２つの発話音声に対応する発話期間に占める発話重複率が、値１に近い、高い値となることも分かる。

図１に例示した生成部１３は、例えば、人物Ｃ１〜Ｃｎに含まれる二人の組み合わせごとに求めた発話重複率が所定の閾値を超えるか否かに基づいて、発話期間が互いに重複している人物のペアを検出することができる。

ここで、互いの発話期間についての発話重複率が高い値となっている人物のペアが互いに会話している可能性が低い。つまり、上述したようにして検出した発話期間が互いに重複している人物のペアは、互いに対話していない人物のペアである。例えば、図３に例示した人物Ａ，Ｃおよび人物Ｂ，Ｃのペアのように、互いの発話期間の大部分が重複している人物のペアは、対話していない人物のペアの例である。

したがって、生成部１３は、対話していない人物のペア、すなわち、発話が互いに重複する人物のペアを会話グループが含まないという発話期間の重複に基づく制約を満たすように、会話グループの組み合わせ候補を生成することが望ましい。

生成部１３は、次に述べるようにして、位置情報に基づく制約と発話期間の重複に基づく制約との両方を満たす会話グループの組み合わせ候補を生成する。

例えば、生成部１３は、まず、位置情報に基づいて形成した各グループに含まれる複数の人物の中で発話している人物を複数含む会話グループについて、全ての組み合わせを列挙する。そして、生成部１３は、列挙された全ての会話グループの組み合わせを、発話期間の重複に基づく制約を満たすか否かによって絞り込むことにより、少なくとも一つの組み合わせ候補を生成してもよい。

図４は、会話グループの組み合わせ候補の絞込み例を示している。図４(Ａ)は、図２に例示した人物Ａ〜Ｇについて、生成部１３が、位置情報の制約を考慮して生成する会話グループの全ての組み合わせを示す。また、図４(Ｂ)は、図３に例示した発話期間の重複に基づく制約を考慮して、生成部１３が、図４(Ａ)に例示した全ての組み合わせを絞り込むことによって得られた会話グループの組み合わせ候補を示す。

図４(Ａ)に例示した全ての組み合わせに含まれる組み合わせ１は、図２に例示したグループｇｒ１に含まれる全ての人物Ａ〜Ｅを含む会話グループ１と、図２に例示したグループｇｒ２に含まれる人物Ｆ，Ｇを含む会話グループ２とを含んでいる。一方、図４(Ａ)に例示した組み合わせ２〜組み合わせ１１は、いずれも、上述した人物Ｆ，Ｇを含む会話グループ３を含んでいる。そして、これらの組み合わせ２〜組み合わせ１１に含まれる会話グループ１，２は、上述した人物Ａ〜Ｅを二人のグループと三人のグループに分ける際に考えられる組み合わせに相当している。

図４(Ａ)に例示した組み合わせ３，７，８は、発話期間が重複している人物Ａと人物Ｃのペアを含む会話グループを含んでいる。また、図４(Ａ)に例示した組み合わせ４〜６は、発話期間が重複しているあるいは人物Ｂと人物Ｃのペアを含む会話グループを含んでいる。更に、図４(Ａ)に例示した組み合わせ１，１１は、上述した人物Ａと人物Ｃのペアおよび人物Ｂと人物Ｃのペアとの両方を含む会話グループを含んでいる。つまり、これらの組み合わせ１と組み合わせ３〜８および組み合わせ１１は、発話期間の重複に基づく制約を満たさない組み合わせである。

生成部13は、図４(Ａ)に例示した１１通りの組み合わせから、上述した発話期間の重複に基づく制約を満たさない組み合わせを排除することにより、図４(Ｂ)に例示した３通りの会話グループの組み合わせ候補１，２，３に絞り込む。なお、図４(Ｂ)においては、組み合わせ候補１，２，３をそれぞれ「候補１」、「候補２」、「候補３」として示している。

なお、会話グループの数に限定はなく、例えば、図２に例示した以上の数の人物について会話グループを特定する処理を行う場合などに、生成部１３は、４以上の会話グループを含む組み合わせ候補を生成することもできる。

このようにして生成された会話グループの組み合わせ候補について、図１に例示した配列部１４は、各組み合わせ候補に含まれる会話グループそれぞれに属する複数の人物の発話音声を時系列に従って配列する。

図５は、会話グループごとに配列された発話音声の例を示している。図５に示した横軸は、時間ｔを示している。なお、図５に含まれる要素のうち、図３に示した要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図５(Ａ)は、図４(Ｂ)に例示した組み合わせ候補１に含まれる会話グループ１に相当する会話グループＧ１１と会話グループ２に相当する会話グループ１２にそれぞれ属する各人物による発話音声が出現する順序を示している。また、図５(Ｂ)は、図４(Ｂ)に例示した組み合わせ候補２に含まれる会話グループ１に相当する会話グループＧ２１と会話グループ２に相当する会話グループ２２にそれぞれ属する各人物による発話音声が出現する順序を示している。同様に、図５(Ｃ)は、図４(Ｂ)に例示した組み合わせ候補３に含まれる会話グループ１に相当する会話グループＧ３１と会話グループ２に相当する会話グループ３２にそれぞれ属する各人物による発話音声が出現する順序を示している。なお、図４(Ｂ)に例示した３つの組み合わせ候補１〜３に共通して含まれている会話グループ３に含まれる人物Ｆ，Ｇによる各発話音声は、組み合わせ候補ごとに出現順序が変化しないので、図５では図示を省略している。

図５(Ａ)〜図５(Ｃ)を互いに比較すれば、各組み合わせ候補に含まれる会話グループに属している人物の組み合わせの違いに応じて、各会話グループにそれぞれ属する各人物による発話音声に後続する発話音声が異なっている場合があることが分かる。例えば、会話グループＧ１２においては、人物Ｃによる発話音声ＶＣ１に人物Ｅによる発話音声ＶＥ２が後続しているのに対して、会話グループＧ２２においては、発話音声ＶＣ１には人物Ｄによる発話音声ＶＤ１が後続している。

ここで、例えば、図５(Ａ)に会話グループＧ１１に対応して示した発話音声ＶＡ１，ＶＢ１，ＶＡ２，ＶＢ２が、二人の人物Ａ，Ｂによる会話である場合に、出現順序に従って連続する発話音声それぞれの特徴には、当該会話の特徴が反映される。

例えば、盛んに発話がなされることによって会話が盛り上がっている場合に、連続する発話音声間の間隔である発話間隔は短い場合が多い。また、会話が盛り上がっている場合に、各発話音声はパワーが大きいことが多く、また、当該会話に含まれる各発話音声の発話速度は速くなる場合が多く、更に、各発話音声の音声基本周波数は高くなる場合が多い。このように、会話に含まれる各発話音声が有するパワーや発話速度および音声基本周波数を含む個々の発話音声の韻律的な特徴と、発話間隔などの会話全体としての韻律的な特徴との間には相関関係がある。そして、このような相関関係は、会話において連続する２つの発話音声それぞれの韻律的な特徴と、この二つの発話音声についての発話間隔との関係に反映される。つまり、会話グループごとに配列された複数の発話音声に含まれる連続する２つの発話音声がそれぞれ有する韻律的な特徴と発話間隔との間に相関関係があることは、これらの発話音声が会話の一部である場合に満たす韻律的な特徴についての条件の一つである。なお、以下の説明では、会話グループごとに配列された複数の発話音声に含まれる連続する２つの発話音声を、発話ペアと称する。

また一方、会話に含まれる各発話音声には、この会話に参加している人物それぞれの感情や意図および態度を含む話者の意識的な表現が、声の高さや抑揚などを含むパラ言語的な特徴として反映されている。以下の説明では、発話音声に反映されたパラ言語的な特徴から推測される話者の感情や意図および態度を含む話者の意識的な表現を示す情報をパラ言語情報と称する。

複数の人物の間で会話が成立している場合に、会話に参加している人物が発話音声に反映させるパラ言語情報の組み合わせの中には、連続して現れる可能性の高い組み合わせと連続して現れる可能性の低い組み合わせとがある。例えば、会話に参加している人物の一方による発話音声に反映された感情が「怒り」である場合に、この発話音声に連続して「喜び」が反映された発話音声が現れる可能性は、自然な会話の中においては非常に低い。このように、発話音声に反映されるパラ言語情報の一つである話者の感情を示す発話感情には、会話の中で連続して現れる可能性が高い組み合わせと、逆に、連続して現れる可能性が低い組み合わせとが存在する。同様に、それぞれパラ言語情報の一つである話者の意図を示す発話意図および話者の態度を示す発話態度についても、連続する発話音声に対応する組み合わせとして出現する可能性が高い組み合わせと、出現する可能性の低い組み合わせとが存在する。このように、会話に含まれる各発話音声に反映されたパラ言語情報の種別が特定された場合に、当該発話音声に後続する発話音声に反映される可能性の高いパラ言語情報の種別が限定される場合が多い。つまり、発話ペアに含まれる個々の発話音声に反映されたパラ言語情報の種別の組み合わせが会話内で出現する可能性の高い組み合わせであることは、当該発話ペアが会話の一部である場合に満たすパラ言語的な特徴についての条件の一つである。

したがって、各発話ペアが、上述した韻律的な特徴についての条件とパラ言語的な特徴についての条件との少なくとも一方を満たしている度合いを調べることで、この発話ペアが会話の一部であることの尤もらしさを評価することができる。

図１に例示した抽出部１５は、会話グループごとに配列された複数の発話音声に含まれる発話ペアごとに、対応する音声情報から、韻律的な特徴を示す韻律情報とパラ言語的な特徴に対応するパラ言語情報との少なくとも一方を含む特徴情報を抽出する。

また、図１に例示した第１算出部１６は、抽出部１５によって得られた特徴情報と、発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、当該発話ペアが会話の一部であることの尤もらしさを示す第１尤度を算出する。例えば、第１算出部１６は、発話ペアに対応する音声情報から抽出された韻律情報と韻律的な特徴についての条件を示す確率分布とに基づいて、当該発話ペアが会話の一部である可能性の高さを示す韻律尤度を評価する。また、第１算出部１６は、発話ペアに対応する音声情報から抽出されたパラ言語情報と上述したパラ言語的な特徴についての条件を示す確率分布とに基づいて、当該発話ペアが会話の一部である可能性の高さを示すパラ言語尤度を評価する。そして、第１算出部１６は、例えば、上述したようにして求めた韻律尤度とパラ言語尤度との積を第１尤度として算出してもよい。

このようにして、図１に例示した第１算出部１６は、各発話ペアに対応する音声情報から抽出された特徴情報が、韻律的な特徴についての条件およびパラ言語的な特徴についての条件をそれぞれ満たしている度合いを反映した第１尤度を算出することができる。

なお、第１算出部１６において、上述した韻律尤度およびパラ言語尤度をそれぞれ算出する処理については、それぞれの処理において用いる確率分布の説明と併せて、図９〜図１３を用いて改めて述べる。

図１に例示した第２算出部１７は、第１算出部１６で各発話ペアについて得られた第１尤度に基づいて、会話グループごとに配列された全ての発話音声が、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する。

第２算出部１７は、例えば、配列部１４が会話グループごとに発話音声を配列した順序に従って、第１算出部１６で得られた各発話ペアについての第１尤度の相乗平均を算出することにより、当該会話グループについての第２尤度を求めてもよい。

そして、図１に例示した第３算出部１８は、各組み合わせ候補に含まれる各会話グループについて算出された第２尤度に基づいて、当該組み合わせ候補が、複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する。

第３算出部１８は、例えば、各組み合わせ候補に含まれる複数の会話グループについて第２算出部１７で得られた第２尤度の相乗平均を算出することにより、当該組み合わせ候補についての第３尤度を求めてもよい。

このようにして得られた第３尤度は、生成部１３で生成された複数の組み合わせ候補それぞれが、人物Ｃ１〜Ｃｎが形成している会話グループの組み合わせを反映している可能性の高さを示している。すなわち、第３尤度が最も高い値となった会話グループの組み合わせが、最も尤もらしい会話グループの組み合わせを示している。つまり、各組み合わせ候補について得られた第３尤度に基づいて、人物Ｃ１〜Ｃｎが形成している会話グループの組み合わせを特定することができる。

このように、本件開示の音声情報解析装置１０によれば、大まかな位置情報と音声情報とに基づいて、複数の人物がそれぞれ参加している会話グループを特定することが可能である。

次に、図１に例示した音声情報解析装置１０に含まれる各部の実施形態について説明する。
図６は、生成部１３および配列部１４の一実施形態を示している。なお、図６に示した構成要素のうち、図１に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図６に例示した取得部１１は、図１に例示した人物Ｃ１〜Ｃｎが所持する携帯端末Ｔ１〜Ｔｎを介して収集した人物Ｃ１〜Ｃｎの発話音声を示す音声情報を蓄積する音声情報蓄積部１１１を含んでいる。音声情報蓄積部１１１は、各人物Ｃ１〜Ｃｎに対応する音声情報として、例えば、携帯端末Ｔ１〜Ｔｎのマイクロホンなどを介して得られる音声信号を所定のサンプリング間隔ごとに蓄積してもよい。なお、図６に例示した取得部１１は、携帯端末Ｔ１〜Ｔｎのマイクロホンで得られた音声信号のサンプリング結果を、例えば、図２に例示した中継装置Ｓ１，Ｓ２を介して受け取ることができる。

また、図６に例示した収集部１２は、図１に例示した人物Ｃ１〜Ｃｎが所持する携帯端末Ｔ１〜Ｔｎを介して収集した人物Ｃ１〜Ｃｎの位置を示す位置情報を蓄積する位置情報蓄積部１２１を含んでいる。位置情報蓄積部１２１は、各人物Ｃ１〜Ｃｎに対応する位置情報として、例えば、図２に例示した中継装置Ｓ１，Ｓ２それぞれが無線アクセスを提供している携帯端末を示す情報を、所定のサンプリング間隔ごとに蓄積してもよい。なお、図６に例示した収集部１２は、図２に例示した中継装置Ｓ１，Ｓ２を介して、それぞれが無線アクセスを提供している携帯端末を示す情報を受け取ることができる。

また、図６に例示した生成部１３は、発話判定部１３１と、発話リスト１３２と、位置分類部１３３と、近接人物リスト１３４と、組み合わせ列挙部１３５と、重複率算出部１３６と、絞込み部１３７とを含んでいる。

発話判定部１３１は、上述した音声情報蓄積部１１１に蓄積された各人物に対応する音声情報に基づいて、各サンプリングタイミングにおいて各人物が発話しているか否かを判定する。発話判定部１３１は、例えば、各サンプリングタイミングについての判定処理を、当該サンプリングタイミングを含む所定の時間内における音声信号の強度の平均値に基づいて行ってもよい。そして、発話判定部１３１は、各人物についてサンプリングタイミングごとに得られた判定結果を、発話リスト１３２に格納する。

なお、発話判定部１３１は、音声情報解析装置１０によって、会話グループの特定処理を行う対象となる期間Ｔｄにおいて得られた音声情報について、上述した判定処理を行ってもよい。この会話グループの特定を行う対象となる期間Ｔｄとしては、所望の期間を指定することができる。

図７(Ａ)は、図２に例示した人物Ａ〜Ｇについて、発話判定部１３１の処理によって得られる発話リスト１３２の一例を示している。図７(Ａ)の時刻欄に示した符号ｔは、会話グループの特定処理を行う対象となる期間Ｔｄの終了時刻を示す。また、符号ｔ−Ｔは、終了時刻ｔから会話グループの特定を行う対象となる期間Ｔｄの長さＴを遡った時刻、すなわち、会話グループの特定を行う対象となる期間Ｔｄの開始時刻を示す。また、図７(Ａ)の時刻欄に示した符号ｈは、サンプリング間隔を示す。

図７(Ａ)に例示した人物Ａ〜Ｇについて、各サンプリングタイミングに対応して示した数値「１」は、発話判定部１３１により当該人物が発話している旨の判定結果が得られたことを示している。一方、各サンプリングタイミングに対応して示した数値「０」は、発話判定部１３１により、当該人物が発話していない旨の判定結果が得られたことを示している。

また、図６に例示した位置分類部１３３は、上述した位置情報蓄積部１２１に蓄積された位置情報に基づいて、図１に例示した人物Ｃ１〜Ｃｎを会話が可能な程度に近接している複数のグループに分類する。位置分類部１３３は、上述した発話判定部１３１と同様に、会話グループの特定を行う対象となる期間Ｔｄにおいて得られた位置情報に基づいて、後述する分類処理を行ってもよい。

図２に例示した各中継装置Ｓ１，Ｓ２が無線アクセスを提供している携帯端末の識別情報が、位置情報蓄積部１２１に蓄積されている場合に、位置分類部１３３は、次のようにして各携帯端末を保持している人物Ｃ１〜Ｃｎを複数のグループに分類してもよい。位置分類部１３３は、例えば、上述した期間Ｔｄに亘って同一の中継装置から無線アクセスの提供を受けた複数の携帯端末の識別情報にそれぞれ対応付けられた人物を互いに近接している人物として判別する。そして、この判別結果に基づいて、位置分類部１３３は、各中継装置が無線アクセスを提供可能な範囲内に、上述した期間Ｔｄに亘って滞在していた複数の人物を、当該中継装置に対応するグループに分類する。

図７(Ｂ)は、図２に例示した人物Ａ〜Ｇについて、位置分類部１３３の処理によって得られる近接人物リスト１３４の一例を示している。

図７(Ｂ)に例示した近接人物リスト１３４は、図２に例示した中継装置Ｓ１に近接する範囲に滞在している人物として、この中継装置Ｓ１が無線アクセスを提供している携帯端末をそれぞれ所持している人物Ａ，Ｂ，Ｃ，Ｄ，Ｅを含んでいる。また、図７(Ｂ)に例示した近接人物リスト１３４は、図２に例示した中継装置Ｓ２に近接する範囲に滞在している人物として、この中継装置Ｓ２が無線アクセスを提供している携帯端末をそれぞれ所持している人物Ｆ，Ｇを含んでいる。

このようにして得られた近接人物リスト１３４と上述した発話リスト１３２とに基づいて、組み合わせ列挙部１３５は、図１に例示した人物Ｃ１〜Ｃｎが形成している可能性のある会話グループの全ての組み合わせを列挙する。

組み合わせ列挙部１３５は、例えば、上述した期間Ｔｄの指定を受けたときに、発話リスト１３２に含まれるこの期間Ｔｄに対応する判定結果に基づいて、この期間Ｔｄにおいて発話があった人物を抽出する。次いで、組み合わせ列挙部１３５は、近接人物リスト１３４を参照することにより、上述した期間Ｔｄにおいて発話があった人物それぞれが位置情報に基づいて分類されたグループを示す情報を取得する。そして、位置情報に基づいて分類された各グループに属する人物が４人以上であった場合に、組み合わせ列挙部１３５は、そのグループに含まれる人物を更にそれぞれ複数の人物を含む会話グループに振り分ける組み合わせの全てを数え上げる処理を行う。

例えば、時刻ｔから時間Ｔを遡った時刻ｔ−Ｔを開始時刻とする期間Ｔｄが指定された場合に、組み合わせ列挙部１３５は、図７(Ａ)に例示した発話リスト１３２の時刻ｔ−Ｔから時刻ｔまでに対応して保持された情報に基づいて、発話があった人物を抽出する。なお、図７(Ａ)において、各サンプリングタイミングを示す時刻は、上述した時刻ｔと時間Ｔとサンプリング間隔ｈを用いて表すことができる。この期間Ｔｄにおいて、全ての人物Ａ〜Ｇが発話していることを発話リスト１３２が示す場合に、図７(Ｂ)に例示した近接人物リスト１３４で示されたグループ分けは、そのまま発話している人物についての位置情報に基づくグループ分けを示す。この場合に、組み合わせ列挙部１３５は、人物Ａ〜Ｅを含む人物のグループと、人物Ｆ，Ｇを含む人物のグループとについて、図４(Ａ)に例示したような組み合わせを列挙すればよい。

このようにして組み合わせ列挙部１３５によって生成された全ての組み合わせから、図６に例示した絞込み部１３７は、重複率算出部１３６によって算出された発話重複率に基づいて、会話が成立している可能性の低い組み合わせを排除する。これにより、絞込み部１３７は、会話が成立している可能性を持つ会話グループの組み合わせ候補を絞り込む。

図６に例示した重複率算出部１３６は、発話重複率を算出するために、例えば、まず、発話リスト１３２に含まれる人物のペアごとに、上述した期間Ｔｄにおいて同一の時刻に対応して発話があった旨の判定結果が保持されている回数を計数する。そして、この計数結果で示される重複回数を、当該ペアに含まれる各人物について発話があった旨の判定結果が保持されている回数で除算することにより、重複率算出部１３６は、当該ペアの互いに対する発話重複率を求めてもよい。

絞込み部１３７は、例えば、少なくとも一方の人物について算出された発話重複率が所定の閾値を超えているペアを含む会話グループが含まれている組み合わせを、会話が成立している可能性の低い組み合わせとして排除してもよい。

なお、上述した閾値は、例えば、複数の人物が会話している際の音声情報に基づいて、この会話に参加している人物のペアそれぞれについて発話重複率を算出する実験を行った結果に基づいて設定してもよい。例えば、上述した閾値は、この実験の過程で算出された発話重複率の最大値よりも大きい値に設定することができる。

上述した処理を行うことにより、絞込み部１３７は、図４(Ａ)のように列挙された多数の組み合わせから、会話が成立している可能性を持つ会話グループの組み合わせ候補に絞り込むことができる。そして、絞込み部１３７は、このようにして絞り込まれた組み合わせ候補を、配列部１４に渡す。

図６に例示した配列部１４は、整列処理部１４１と発話配列リスト１４２とを含んでいる。整列処理部１４１は、絞込み部１３７から受け取った組み合わせ候補ごとに、発話リスト１３２とに基づいて、当該組み合わせ候補に含まれる各会話グループに属する人物の発話音声を時系列に従って整列させる。そして、この整列処理結果に基づいて、整列処理部１４１は、各会話グループに対応する会話において各発話音声が出現する順序を示す情報を発話配列リスト１４２に格納する。

例えば、整列処理部１４１は、組み合わせ候補に含まれる会話グループごとに、当該会話グループに含まれる人物について発話リスト１３２を参照することにより、各人物の発話音声が連続して取得されている期間を示す個々の発話期間をそれぞれ特定する。このとき、整列処理部１４１は、各人物について特定された個々の発話期間に対応する発話音声に、当該人物を示す識別情報と個々の発話音声の出現順序を示す番号とを組み合わせた識別情報を付与してもよい。そして、整列処理部１４１は、例えば、各組み合わせ候補に含まれる会話グループごとに、当該会話グループに属する各人物の発話音声に対応する発話期間の開始時刻に基づいて、これらの発話音声を時系列に従って整列させてもよい。また、整列処理部１４１は、各発話音声に付与した識別情報を用いて、発話配列リスト１４２に格納する情報を表してもよい。

図８は、発話配列リスト１４２の一例を示している。なお、図８に示した要素のうち、図５に示した要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図８(Ａ)は、図４(Ｂ)に例示した３つの組み合わせ候補それぞれに含まれる会話グループごとに、当該会話グループに属する人物の発話音声が出現する順序を示している。なお、図８において、符号ＶＦ１，ＶＦ２は、人物Ｆの発話音声を示し、符号ＶＧ１，ＶＧ２は、人物Ｇの発話音声を示す。

例えば、図８(Ａ)において、組み合わせ候補１に含まれる会話グループ１に対応する各欄に示した符号ＶＡ１，ＶＢ１，ＶＡ２，ＶＢ２は、図５(Ａ)に当該会話グループを示す符号Ｇ１１に対応して示した発話音声の出現順序を示している。同様に、図８(Ａ)において、各組み合わせ候補１〜３に含まれる会話グループ３に対応する会話において、対応する各欄に示した符号ＶＦ１，ＶＧ１，ＶＦ２，ＶＧ２は、人物Ｆの発話音声と人物Ｇの発話音声とが交互に出現している様子を示している。

このような発話配列リスト１４２によれば、各組み合わせ候補に含まれる会話グループそれぞれにおける発話音声の出現順で示される発話ペアを、当該会話グループに対応する隣接する欄に示された符号の組み合わせに基づいて特定することができる。

なお、発話配列リスト１４２は、上述した整列処理部１４１が各発話音声を整列させる処理の過程で特定した各発話音声の開始時刻および終了時刻を示す情報を含んでもよい。

図８(Ｂ)は、発話配列リスト１４２に含まれる各発話音声の開始時刻および終了時刻を示す情報の一例として、図２に例示した人物Ａ〜Ｇによってなされた各発話音声の開始時刻および終了時刻を示している。

図８(Ｂ)において、人物Ａ〜Ｇによってなされた各発話音声の開始時刻を、符号「ｔ」に人物およびその人物についての発話音声の順序を示す番号とを組み合わせた添え字を付加するとともに、符号「ｓ」とを組み合わせて示した。同様に、図８(Ｂ)において、人物Ａ〜Ｇによってなされた各発話音声の終了時刻を、符号「ｔ」に人物およびその人物についての発話音声の順序を示す番号とを組み合わせた添え字を付加するとともに、符号「ｅ」とを組み合わせて示した。

例えば、図８(Ｂ)において、符号「ｔＡ１−ｓ」は、人物Ａの第１の発話音声の開始時刻を示し、符号「ｔＡ１−ｅ」は、人物Ａの第１の発話音声の終了時刻を示す。

次に、このようにして得られた発話配列リスト１４２を用いて、抽出部１５が、音声情報蓄積部１１１に蓄積された音声情報から、各発話音声の特徴情報を抽出する処理について説明する。

図９は、抽出部１５の一実施形態を示している。なお、図９に示した構成要素のうち、図１あるいは図６に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図９に例示した抽出部１５は、韻律情報抽出部１５１とパラ言語情報抽出部１５２と、発話特徴蓄積部１５３と、間隔情報蓄積部１５４とを含んでいる。発話特徴蓄積部１５３は、韻律情報抽出部１５１およびパラ言語情報抽出部１５２が、各発話音声を表す音声情報からそれぞれ抽出した韻律情報およびパラ言語情報を、当該発話音声を示す識別情報に対応して蓄積する。また、間隔情報蓄積部１５４は、韻律情報抽出部１５１が、発話配列リスト１４２に含まれる各会話グループにおける発話音声の出現順序を示す情報で示される発話ペアごとに抽出した発話間隔を示す情報を蓄積する。

図９に例示した韻律情報抽出部１５１は、発話パワー算出部１５１−ｐと、発話速度算出部１５１―ｖと、基本周波数算出部１５１−ｆと、持続時間抽出部１５１−ｓと、発話間隔算出部１５１−ｄを含んでいる。

図９に例示した発話パワー算出部１５１−ｐは、音声情報蓄積部１１１に各人物に対応して蓄積された音声情報に含まれる個々の発話音声を表す音声信号の強度に基づいて、各発話音声について発話パワーを算出する。そして、発話パワー算出部１５１−ｐは、各発話音声について算出した発話パワーを、例えば、当該発話音声を示す識別情報に対応して、発話特徴蓄積部１５３に蓄積してもよい。

また、図９に例示した発話速度算出部１５１−ｖは、音声情報蓄積部１１１に各人物に対応して蓄積された音声情報に含まれる個々の発話音声を表す音声信号の強度の変化に基づいて、各発話音声について発話速度を算出する。そして、発話速度算出部１５１−ｖは、各発話音声について算出した発話速度を、例えば、当該発話音声を示す識別情報に対応して、発話特徴蓄積部１５３に蓄積してもよい。

また、図９に例示した基本周波数算出部１５１−ｆは、音声情報蓄積部１１１に各人物に対応して蓄積された音声情報に含まれる個々の発話音声を表す音声信号に基づいて、各発話音声の声の高さを示す基本周波数を算出する。そして、基本周波数算出部１５１−ｆは、各発話音声について算出した基本周波数を、例えば、当該発話音声を示す識別情報に対応して、発話特徴蓄積部１５３に蓄積してもよい。

一方、図９に例示した持続時間算出部１５１−ｓは、上述した発話配列リスト１４２に含まれる各発話音声の開始時刻および終了時刻を示す情報に基づいて、各発話音声の持続時間を算出する。そして、持続時間算出部１５１−ｓは、各発話音声について算出した持続時間を、例えば、当該発話音声を示す識別情報に対応して、発話特徴蓄積部１５３に蓄積してもよい。

また、図９に例示した発話間隔算出部１５１−ｄは、上述した発話配列リスト１４２にに基づいて、各組み合わせ候補に含まれる会話グループごとに、各発話ペアの発話間隔を算出する。例えば、発話間隔算出部１５１−ｄは、まず、発話配列リスト１４２によって示される発話音声の出現順に基づいて、各組み合わせ候補に含まれる会話グループごとに、各発話音声を含む発話ペアを特定する。そして、発話間隔算出部１５１−ｄは、発話配列リスト１４２に含まれる各発話音声の開始時刻および終了時刻を示す情報を参照することにより、当該発話ペアの前側の発話音声の終了時刻と後側の発話音声の開始時刻とをそれぞれ取得する。このようにして得られた前側の発話音声の終了時刻から後側の発話音声の開始時刻を差し引くことにより、発話間隔算出部１５１−ｄは、当該発話ペアの発話間隔を求めてもよい。そして、発話間隔算出部１５１−ｄは、各発話ペアについて算出した発話間隔を、例えば、各組み合わせ候補に含まれる会話グループそれぞれに対応して、発話間隔蓄積部１５４に蓄積してもよい。

図１０は、発話間隔蓄積部１５４に蓄積された発話間隔を示す情報の一例を示している。図１０に例示した発話間隔を示す情報は、図８(Ａ)に例示した各会話グループに対応する各発話音声を含む発話ペアについて得られた発話間隔を示している。

なお、図１０において、各発話ペアの発話間隔を、符号「ｔ」に組み合わせ候補を特定する番号と会話グループを特定する番号とを組み合わせた添え字を付加するとともに、当該発話ペアの出現順序を示す番号を組み合わせて示した。

例えば、図１０において、組み合わせ候補１に含まれる会話グループ１に対応して示された符号「ｔ１１−１」は、図８(Ａ)に例示した符号「ＶＡ１」，「ＶＢ１」で示される第１の発話ペアについて得られた発話間隔を示す。

このようにして、図９に例示した韻律情報抽出部１５１は、各発話音声に対応する発話パワー、発話速度、基本周波数および持続時間とともに、各発話ペアに対応する発話間隔を含む韻律情報を抽出することができる。

なお、韻律情報抽出部１５１は、図９の例示に限られず、発話パワー算出部１５１−ｐと、発話速度算出部１５１―ｖと、基本周波数算出部１５１−ｆと、持続時間抽出部１５１−ｓと、発話間隔算出部１５１−ｄを様々な組み合わせで含んでもよい。例えば、韻律情報抽出部１５１は、発話間隔算出部１５１−ｄと、発話パワー算出部１５１−ｐ、発話速度算出部１５１−ｖおよび基本周波数算出部１５１−ｆの少なくとも一つを組み合わせて含んでいることが望ましい。

一方、図９に例示したパラ言語情報抽出部１５２は、感情推定部１５２−ｅと、意図推定部１５２−ｐと、態度推定部１５２−ａとを含んでいる。感情推定部１５２−ｅ、意図推定部１５２−ｐおよび態度推定部１５２−ａは、それぞれ各人物に対応して音声情報蓄積部１１１に蓄積された音声情報に基づいて、各発話音声について発話感情、発話意図および発話態度を推定する。

感情推定部１５２−ｅ、意図推定部１５２−ｐおよび態度推定部１５２−ａは、音声情報蓄積部１１１から各発話音声を表す音声情報を切り出す際に、上述した発話配列リスト１４２に含まれる各発話音声の開始時刻および終了時刻を示す情報を利用してもよい。なお、感情推定部１５２−ｅ、意図推定部１５２−ｐおよび態度推定部１５２−ａが、各発話音声からそれぞれ発話感情、発話意図および発話態度を推定する処理には、公知技術を利用することができる。

例えば、感情推定部１５２−ｅは、各発話音声に対応する音声情報の基本周波数を含む音声の特徴に基づいて、発話音声に反映された感情が「怒り」、「悲しみ」、「嫌悪」、「驚き」、「喜び」のいずれに分類されるかを推定してもよい。例えば、感情推定部１５２−ｅは、上述した各種の感情が反映された標準的な音声の基本周波数を示す基準周波数を用いて、各発話音声にどの種類の感情が反映されているかを推定してもよい。つまり、感情推定部１５２−ｅは、各発話音声の基本周波数に最も近い基準周波数に対応する感情の種類が、当該発話音声に反映されていると推定してもよい。また、感情推定部１５２−ｅは、発話感情についての正解付きデータを用いた学習によって、上述した５種類の感情を含む発話感情の種別それぞれに対応する基準周波数を含む音声情報の特徴を集積することにより、発話感情の推定精度を向上することもできる。なお、感情推定部１５２−ｅは、上述した基本周波数算出部１５１−ｆあるいは発話特徴蓄積部１５３から各発話音声の基本周波数を示す情報を受け取り、この情報を発話感情の推定に利用してもよい。

また、意図推定部１５２−ｐは、各発話音声に対応する音声情報で表される抑揚を含む特徴に基づいて、発話音声に反映された話者の意図が「勧誘」、「疑問」、「同意」、「断定」のいずれに分類されるかを推定してもよい。また、意図推定部１５２−ｐは、発話意図についての正解付きデータを用いた学習によって、上述した４種類の発話意図を含む発話意図の種別それぞれに対応する音声情報の特徴を集積することにより、発話意図の推定精度を向上することもできる。

また、態度推定部１５２−ａは、各発話音声に対応する音声情報で表される抑揚を含む特徴に基づいて、発話音声に反映された話者の態度が「丁寧」、「改まった」、「くだけた」、「ぞんざい」のいずれに分類されるかを推定してもよい。また、態度推定部１５２−ａは、発話態度についての正解付きデータを用いた学習によって、上述した４種類の発話態度を含む発話態度の種別それぞれに対応する音声情報の特徴を集積することにより、発話態度の推定精度を向上することもできる。

感情推定部１５２−ｅ、意図推定部１５２−ｐおよび態度推定部１５２−ａは、それぞれによる推定処理で得られた推定結果を、推定対象の発話音声を示す識別情報に対応して、発話特徴蓄積部１５３に蓄積してもよい。

このようにして、図９に例示したパラ言語情報抽出部１５２により、各発話音声に対応して、発話感情、発話意図および発話態度を含むパラ言語情報を抽出し、発話特徴蓄積部１５３に蓄積することができる。

なお、パラ言語情報抽出部１５２は、図９の例示に限らず、感情推定部１５２−ｅ、意図推定部１５２−ｐおよび態度推定部１５２−ａの少なくとも一つを含んでいれば、どのような組み合わせで含んでいてもよい。

次に、上述したようにして抽出された韻律情報およびパラ言語情報に基づいて、各発話ペアについて第１尤度を算出する方法について説明する。

図１１は、図６に示した第１算出部１６の一実施形態を示している。なお、図１１に示した構成要素のうち、図１および図９に示した構成要素と同等のものについては、同一の符号を付して示し、その説明は省略する。

図１１に例示した第１算出部１６は、確率演算部１６１と、パラメータ保持部１６２と、韻律尤度算出部１６３とを含んでいる。また、第１算出部１６は、上述した３種類のパラ言語情報にそれぞれ対応する３つの確率テーブル１６５ｅ，１６５ｐ，１６５ａと、テーブル参照部１６４と、パラ言語尤度算出部１６６とを含んでいる。また、第１算出部１６は、韻律尤度算出部１６３によって後述するようにして算出される韻律尤度と、パラ言語尤度算出部１６６によって後述するようにして算出されるパラ言語尤度とを乗算することにより、第１尤度を算出する乗算部１６７を有する。

図１１に例示した確率演算部１６１は、発話特徴蓄積部１５３および発話間隔蓄積部１５４に蓄積された韻律情報に基づいて、韻律的な特徴についての条件ごとに、発話配列リスト１４２で示される各発話ペアが当該条件を満たしている確率を算出する。確率演算部１６１は、発話配列リスト１４２に基づいて、注目する発話音声を含む発話ペアを特定する。そして、確率演算部１６１は、この発話ペアに含まれる２つの発話音声に対応して発話特徴蓄積部１５３に蓄積された韻律情報を取得する。このようにして取得した韻律情報に基づいて、確率演算部１６１は、各条件に対応する確率分布モデルを用いて、韻律的な特徴についての条件それぞれを当該発話ペアが満たしている確率を算出する。

図１２は、確率分布モデルの一例を示している。図１２(Ａ)において、横軸は、発話ペアについて抽出された韻律情報の一つである発話間隔ｔを示し、縦軸は、確率Ｐ(ｔ)を示す。

例えば、韻律的な特徴についての条件の一つである発話パワーと発話間隔との相関関係は、次のような確率モデルによって表すことができる。確率モデルは、例えば、ある発話音声に後続する発話音声の発話パワーが大きい場合に、図１２(Ａ)に例示したグラフＱ１のように、発話間隔ｔが小さい値τ１において確率Ｐがピークを持つことが望ましい。同時に、ある発話音声に後続する発話音声の発話パワーが小さい場合に、図１２(Ａ)に例示したグラフＱ２のように、値τ１よりも大きい値τ２において確率Ｐがピークを持つ確率モデルが望ましい。

このような確率モデルに基づく確率分布は、発話パワーをハイパーパラメータとした正規分布を用いて表すことができる。例えば、注目する会話グループにおけるｊ番目の発話音声とｊ＋１番目の発話音声とについての発話間隔ｔ(ｊ)が、ｊ＋１番目の発話音声が発話パワーｓ(ｊ＋１)を持つ場合に出現する確率Ｐ(ｔ(ｊ)｜ｓ(ｊ＋１))は、式(１)のように表される。

なお、式(１)に示した確率分布において、発話パワーｓ(ｊ)を反映した正規分布の平均値μ(ｓ(ｊ))について、発話パワーｓ(ｊ)が正の範囲において平均値μ(ｓ(ｊ))が正の値を持ち、発話パワーｓ(ｊ)が大きいほど値が小さくなるモデルを用いた。平均値μ(ｓ(ｊ))についてのこのモデルは、パラメータμｓとパラメータαｓとで示される指数関数を用いて、式(２)のように表される。また、図１２(Ｂ)は、平均値μ(ｓ(ｊ))についてのモデルの一例を示している。
μ(ｓ(ｊ))＝μｓ・ｅｘｐ(−αｓ・ｓ(ｊ)) ・・・(２)
上述したパラメータμｓおよびパラメータαｓの値と正規分布の標準偏差σｓの値は、例えば、発話パワーと発話間隔についての正解付き学習データを用いた学習によって、それぞれ適切な値に設定することができる。また、これらのパラメータμｓ、パラメータαｓおよび標準偏差σｓの値は、例えば、発話パワーと発話間隔との相関関係についての確率モデルを示す情報として、図１１に例示したパラメータ保持部１６２に保持しておくことができる。

そして、確率演算部１６１は、パラメータ保持部１６２に上述した確率モデルに対応して保持された各パラメータの値を用いることにより、上述した式(１)に基づいて、注目する発話ペアについて上述した確率Ｐ(ｔ(ｊ)｜ｓ(ｊ＋１))を算出することができる。

なお、発話パワーと発話間隔との相関関係についての確率モデルは、上述した確率モデルに限らず、例えば、前側の発話音声の発話パワーあるいは発話ペアの平均の発話パワーと発話間隔との相関関係を示す確率モデルでもよい。

同様に、発話音声の発話速度と発話間隔ｔとの相関関係も、発話速度が速い場合に確率Ｐ(ｔ)がピークを持つ発話間隔値が、発話速度が遅い場合に確率Ｐ(ｔ)がピークを持つ発話間隔値よりも小さくなる確率モデルで表すことが望ましい。そして、このような確率モデルに基づく確率分布もまた、発話速度をハイパーパラメータとした正規分布を用いて表すことができる。

例えば、注目する会話グループにおけるｊ番目の発話音声とｊ＋１番目の発話音声とについての発話間隔ｔ(ｊ)が、ｊ＋１番目の発話音声が発話速度ｖ(ｊ＋１)を持つ場合に出現する確率Ｐ(ｔ(ｊ)｜ｖ(ｊ＋１))は、式(３)のように表される。

なお、式(３)において、発話速度ｖ(ｊ)を反映した正規分布の平均値μ(ｖ(ｊ))は、上述した発話パワーと同様のモデルを用いて、式(４)のように、パラメータμｖとパラメータαｖとで示される指数関数を用いて表すことができる。
μ(ｖ(ｊ))＝μｖ・ｅｘｐ(−αｖ・ｖ(ｊ)) ・・・(４)
上述したパラメータμｖおよびパラメータαｖの値と正規分布の標準偏差σｖの値は、例えば、発話速度と発話間隔についての正解付き学習データを用いた学習によって、それぞれ適切な値に設定することができる。また、これらのパラメータμｖ、パラメータαｖおよび標準偏差σｖの値は、例えば、発話速度と発話間隔との相関関係についての確率モデルを示す情報として、図１１に例示したパラメータ保持部１６２に保持しておくことができる。

そして、確率演算部１６１は、パラメータ保持部１６２に上述した確率モデルに対応して保持された各パラメータの値を用いることにより、上述した式(３)に基づいて、注目する発話ペアについて上述した確率Ｐ(ｔ(ｊ)｜ｖ(ｊ＋１))を算出することができる。

なお、発話速度と発話間隔との相関関係についての確率モデルは、上述した確率モデルに限らず、例えば、前側の発話音声の発話速度あるいは発話ペアの平均の発話速度と発話間隔との相関関係を示す確率モデルでもよい。

同様に、発話音声の基本周波数と発話間隔ｔとの相関関係も、基本周波数が高い場合に確率Ｐ(ｔ)がピークを持つ発話間隔値が、基本周波数が低い場合に確率Ｐ(ｔ)がピークを持つ発話間隔値よりも小さくなる確率モデルで表すことが望ましい。そして、このような確率モデルに基づく確率分布もまた、基本周波数をハイパーパラメータとした正規分布を用いて表すことができる。

例えば、注目する会話グループにおけるｊ番目の発話音声とｊ＋１番目の発話音声とについての発話間隔ｔ(ｊ)が、ｊ＋１番目の発話音声が基本周波数ｆ(ｊ＋１)を持つ場合に出現する確率Ｐ(ｔ(ｊ)｜ｆ(ｊ＋１))は、式(５)のように表される。

なお、式(５)において、基本周波数ｆ(ｊ)を反映した正規分布の平均値μ(ｆ(ｊ))は、上述した発話パワーと同様のモデルを用いて、式(６)のように、パラメータμｆとパラメータαｆとで示される指数関数を用いて表すことができる。
μ(ｆ(ｊ))＝μｆ・ｅｘｐ(−αｆ・ｆ(ｊ)) ・・・(６)
上述したパラメータμｆおよびパラメータαｆの値と正規分布の標準偏差σｆの値は、例えば、基本周波数と発話間隔についての正解付き学習データを用いた学習によって、それぞれ適切な値に設定することができる。また、これらのパラメータμｆ、パラメータαｆおよび標準偏差σｆの値は、例えば、基本周波数と発話間隔との相関関係についての確率モデルを示す情報として、図１１に例示したパラメータ保持部１６２に保持しておくことができる。

そして、確率演算部１６１は、パラメータ保持部１６２に上述した確率モデルに対応して保持された各パラメータの値を用いることにより、上述した式(５)に基づいて、注目する発話ペアについて上述した確率Ｐ(ｔ(ｊ)｜ｆ(ｊ＋１))を算出することができる。

なお、基本周波数と発話間隔との相関関係についての確率モデルは、上述した確率モデルに限らず、例えば、前側の発話音声の基本周波数あるいは発話ペアの平均の基本周波数と発話間隔との相関関係を示す確率モデルでもよい。

一方、連続する発話音声それぞれの持続時間の組み合わせについても、自然な会話において頻繁に現れる尤もらしい組み合わせと、自然な会話においてほとんど現れない尤もらしくない組み合わせがある。したがって、この持続時間の組み合わせもまた、韻律的な特徴についての条件の一つとして、各発話ペアが会話の一部として出現する確率の算出に利用することができる。

発話音声の持続時間についての確率モデルは、持続時間が短い発話音声同士の組み合わせと、持続時間が長い発話音声と持続時間が短い発話音声との組み合わせについて、持続時間が長い発話音声同士の組み合わせに比べて高い確率を与えることが望ましい。

このような確率モデルに基づく確率分布は、シグモイド関数などを用いて表すことができる。例えば、注目する会話グループにおけるｊ番目の発話音声とｊ＋１番目の発話音声に対応する持続時間として、持続時間ｄ(ｊ)と持続時間ｄ(ｊ＋１)の組み合わせが出現する確率Ｐ(ｄ(ｊ)｜ｄ(ｊ＋１))は、式(７)のように表される。なお、式(７)において、パラメータβは、確率分布の滑らかさを示し、パラメータγは、持続時間の長短を判別する基準を示す。また、係数Ｃは、正規化係数である。

上述したパラメータβおよびパラメータγの値は、例えば、発話音声の持続時間の組み合わせについての正解付き学習データを用いた学習によって、それぞれ適切な値に設定することができる。また、これらのパラメータβおよびパラメータγの値は、例えば、発話音声の持続時間の組み合わせについての確率モデルを示す情報として、図１１に例示したパラメータ保持部１６２に保持しておくことができる。

そして、確率演算部１６１は、パラメータ保持部１６２に保持されたこれらのパラメータβおよびパラメータγの値を用いることにより、上述した式(７)により、注目する発話ペアについて上述した確率Ｐ(ｄ(ｊ)｜ｄ(ｊ＋１))を算出することができる。

上述したようにして、図１１に例示した確率演算部１６１は、韻律的な特徴についての条件それぞれに基づいて、各発話ペアが会話の一部として出現する確率をそれぞれ求めることができる。

図１１に例示した韻律尤度算出部１６３は、確率演算部１６１によって算出された韻律的な特徴についての条件それぞれに基づく確率から、各発話ペアの韻律的な特徴が、会話に含まれる発話音声の特徴に合致している度合いを示す韻律尤度を算出する。

韻律尤度算出部１６３は、例えば、上述した式(１)、(３)、(５)、(７)を用いてそれぞれ算出される確率に、個別の重みを乗じた上で相乗平均を算出することにより、韻律尤度を求めてもよい。このようにして、韻律的な特徴についての各条件に基づいて、確率演算部１６１によって算出された確率Ｐ(ｔ(ｊ)｜ｓ(ｊ＋１))、確率Ｐ(ｔ(ｊ)｜ｖ(ｊ＋１))、確率Ｐ(ｔ(ｊ)｜ｆ(ｊ＋１))および確率Ｐ(ｄ(ｊ)｜ｄ(ｊ＋１))を反映した韻律尤度を求めることができる。

なお、図１１に例示した確率演算部１６１は、発話特徴蓄積部１５３に蓄積された韻律情報の種類に応じて、上述した４つの条件を含む韻律的な特徴についての条件の少なくとも一つに基づいて、各発話ペアが会話の一部として出現する確率を算出すればよい。また、図１１に例示した韻律尤度算出部１６３は、確率算出部１６１が各発話ペアについて算出した少なくとも一つの条件に基づく確率を、重みつきで相乗平均することにより、韻律尤度を算出すればよい。また、発話特徴蓄積部１５３に蓄積された韻律情報の種類が１種類である場合は、この韻律情報に基づいて確率演算部１６１で得られた確率がそのまま韻律尤度となるので、韻律尤度算出部１６３を省略してもよい。

次に、各発話ペアについて抽出されたパラ言語的な特徴が、会話に含まれる発話音声の特徴に合致している度合いを示すパラ言語尤度を算出する方法について説明する。

図１１に例示した３つの確率テーブル１６５ｅ，１６５ｐ，１６５ａは、発話ペアに含まれる各発話音声について得られるパラ言語情報に含まれる発話感情、発話意図および発話態度の組み合わせについての条件付確率分布を示す情報を保持している。

図１３は、３つの確率テーブル１６５ｅ，１６５ｐ，１６５ａそれぞれの一例を示している。

図１３(Ａ)は、５種類の発話感情「怒り」、「悲しみ」、「嫌悪」、「驚き」および「喜び」の組み合わせが、発話ペアに含まれる２つの発話音声に対応するパラ言語情報として抽出される条件付確率分布を示している。

図１３(Ａ)に例示した確率テーブル１６５ｅにおいて、注目する会話グループにおけるｊ番目の発話音声の発話感情を列方向に示し、ｊ＋１番目の発話音声の発話感情を行方向に示した。また、ｊ番目の発話音声の発話感情とｊ＋１番目の発話音声の発話感情との組み合わせについての条件付確率を、符号「Ｐ」に２つの発話音声に対応する発話感情をそれぞれ示す符号を組み合わせた添え字をつけて示した。なお、図１３(Ａ)に例示した確率テーブル１６５ｅにおいて、発話感情「怒り」、「悲しみ」、「嫌悪」、「驚き」および「喜び」を示す符号として、それぞれ符号「ａ」、「ｓ」、「ｈ」、「ｗ」および「ｊ」を用いた。

確率テーブル１６５ｅに含まれる各組み合わせについての条件付確率は、例えば、発話感情の組み合わせについての正解付き学習データを用いた学習によって、それぞれ適切な値に設定することができる。なお、正解付き学習データとして、例えば、音声認識技術を用いることによって音声情報から文字で表現される情報を抽出した結果を用いて発話感情を推定した結果を用いてもよい。このような学習データを用いた学習を行うことにより、各組み合わせについての条件付確率の値を高い精度で決定することができる。

図１３(Ｂ)は、４種類の発話意図「勧誘」、「疑問」、「同意」および「断定」の組み合わせが、発話ペアに含まれる２つの発話音声に対応するパラ言語情報として抽出される条件付確率分布を示している。

図１３(Ｂ)に例示した確率テーブル１６５ｐにおいて、注目する会話グループにおけるｊ番目の発話音声の発話意図を列方向に示し、ｊ＋１番目の発話音声の発話意図を行方向に示した。また、ｊ番目の発話音声の発話意図とｊ＋１番目の発話音声の発話意図との組み合わせについての条件付確率を、符号「Ｐ」に２つの発話音声に対応する発話意図をそれぞれ示す符号を組み合わせた添え字をつけて示した。なお、図１３(Ｂ)に例示した確率テーブル１６５ｐにおいて、発話意図「勧誘」、「疑問」、「同意」および「断定」を示す符号として、それぞれ符号「ｉ」、「ｑ」、「ｃ」、および「ｄ」を用いた。

確率テーブル１６５ｐに含まれる各組み合わせについての条件付確率は、例えば、発話意図の組み合わせについての正解付き学習データを用いた学習によって、それぞれ適切な値に設定することができる。なお、正解付き学習データとして、例えば、音声認識技術を用いることによって音声情報から文字で表現される情報を抽出した結果を用いて発話意図を推定した結果を用いてもよい。このような学習データを用いた学習を行うことにより、各組み合わせについての条件付確率の値を高い精度で決定することができる。

図１３(Ｃ)は、４種類の発話態度「丁寧」、「改まった」、「くだけた」および「ぞんざい」の組み合わせが、発話ペアに含まれる２つの発話音声に対応するパラ言語情報として抽出される条件付確率分布を示している。

図１３(Ｃ)に例示した確率テーブル１６５ａにおいて、注目する会話グループにおけるｊ番目の発話音声の発話態度を列方向に示し、ｊ＋１番目の発話音声の発話態度を行方向に示した。また、ｊ番目の発話音声の発話態度とｊ＋１番目の発話音声の発話態度との組み合わせについての条件付確率を、符号「Ｐ」に２つの発話音声に対応する発話態度をそれぞれ示す符号を組み合わせた添え字をつけて示した。なお、図１３(Ｃ)に例示した確率テーブル１６５ａにおいて、発話態度「丁寧」、「改まった」、「くだけた」および「ぞんざい」を示す符号として、それぞれ符号「ｐ」、「ｆ」、「ｕ」、および「ｒ」を用いた。

確率テーブル１６５ａに含まれる各組み合わせについての条件付確率は、例えば、発話態度の組み合わせについての正解付き学習データを用いた学習によって、それぞれ適切な値に設定することができる。なお、正解付き学習データとして、例えば、音声認識技術を用いることによって音声情報から文字で表現される情報を抽出した結果を用いて発話態度を推定した結果を用いてもよい。このような学習データを用いた学習を行うことにより、各組み合わせについての条件付確率の値を高い精度で決定することができる。

図１１に例示したテーブル参照部１６４は、上述した確率テーブル１６５ｅ，１６５ｐ，１６５ａを参照することにより、発話配列リスト１４２で示される各発話ペアに対応するパラ言語情報の組み合わせが会話において出現する確率を取得する。

テーブル参照部１６４は、例えば、まず、発話特徴蓄積部１５３から、各発話ペアに含まれる二つの発話音声に対応してそれぞれ蓄積されたパラ言語情報を取得する。そして、テーブル参照部１６４は、取得したパラ言語情報に含まれる発話感情、発話意図および発話態度の組み合わせに対応して確率テーブル１６５ｅ，１６５ｐ，１６５ａにそれぞれ保持された確率を読み出せばよい。このようにして、テーブル参照部１６４は、各発話ペアに含まれる二つの発話音声からそれぞれ抽出された発話感情、発話意図および発話態度の組み合わせが会話において出現する確率をそれぞれ得ることができる。

例えば、発話ペアの一方の発話音声から発話感情「喜び」を含むパラ言語情報が抽出され、他方の発話音声から発話感情「驚き」を含むパラ言語情報が抽出された場合に、上述したテーブル参照部１６４は、確率テーブル１６５ｅから確率Ｐｊｗを取得する。

また、発話ペアの一方の発話音声から発話意図「同意」を含むパラ言語情報が抽出され、他方の発話音声から発話意図「疑問」を含むパラ言語情報が抽出された場合に、上述したテーブル参照部１６４は、確率テーブル１６５ｐから確率Ｐｃｑを取得する。

同様に、発話ペアの一方の発話音声から発話態度「丁寧」を含むパラ言語情報が抽出され、他方の発話音声から発話態度「くだけた」を含むパラ言語情報が抽出された場合に、上述したテーブル参照部１６４は、確率テーブル１６５ａから確率Ｐｐｕを取得する。

図１１に例示したパラ言語尤度算出部１６６は、テーブル参照部１６４で得られた発話感情、発話意図、発話態度についての確率に基づいて、各発話ペアのパラ言語的な特徴が、会話に含まれる発話音声の特徴に合致している度合いを示すパラ言語尤度を算出する。

パラ言語尤度算出部１６６は、例えば、上述したテーブル参照部１６４が確率テーブル１６５ｅ，１６５ｐ，１６５ａから取得した確率に、個別の重みを乗じた上で相乗平均を算出することにより、パラ言語尤度を求めてもよい。このようにして、発話感情、発話意図および発話態度の組み合わせについてのパラ言語的な特徴についての各条件が反映された確率テーブル１６５ｅ，１６５ｐ，１６５ａから取得した各確率を反映したパラ言語尤度を求めることができる。

なお、図１１に例示したテーブル参照部１６４は、発話特徴蓄積部１５３に蓄積されたパラ言語情報の種類に応じて、パラ言語的な特徴についての条件の少なくとも一つに基づいて、各発話ペアが会話の一部として出現する確率を算出すればよい。また、図１１に例示したパラ言語尤度算出部１６６は、テーブル参照部１６４が各発話ペアについて取得した少なくとも一つの条件に基づく確率を、重みつきで相乗平均することにより、パラ言語尤度を算出すればよい。また、発話特徴蓄積部１５３に蓄積されたパラ言語情報の種類が１種類である場合は、このパラ言語情報に基づいてテーブル参照部１６４で得られた確率がそのままパラ言語尤度となるので、パラ言語尤度算出部１６６を省略してもよい。

図１１に例示した第１算出部１６は、このようにして求められた韻律尤度とパラ言語尤度とを、乗算部１６７が乗算することにより、各発話ペアが会話の一部であることの尤もらしさを示す第１尤度を求める。

このようにして得られた第１尤度Ｌ１は、韻律尤度Ｌｒとパラ言語尤度Ｌｐとを用いて、式(９)のように表すことができる。
Ｌ１＝Ｌｒ・Ｌｐ・・・(９)
この第１尤度Ｌ１は、各発話ペアが会話の一部であることの尤もらしさを、当該発話ペアに含まれる二つの発話音声の韻律的な特徴とパラ言語的な特徴との双方に注目して評価した結果を示している。つまり、各発話ペアについて得られた第１尤度Ｌ１は、当該発話ペアに含まれる２つの発話音声が、韻律的につながっている可能性が高く、しかも、パラ言語的にもつながっている可能性が高い場合にのみ、高い値を示す。

したがって、上述したようにして、韻律尤度とパラ言語尤度とを反映した第１尤度Ｌ１を算出することにより、より、高い確度で、各発話ペアが会話の一部であることの尤もらしさを評価することができる。

そして、各組み合わせ候補に含まれる会話グループにおける発話順に並べられた発話音声をそれぞれ含む発話ペアについて、上述したようにして得られた第１尤度Ｌ１に基づいて、図６に例示した第２算出部１７は次のようにして第２尤度を算出する。

第２算出部１７は、例えば、発話配列リスト１４２において、各会話グループに対応して配列されたＭ個の発話音声それぞれを含む発話ペアに対応する第１尤度Ｌ１の相乗平均として、第２尤度Ｌ２を算出してもよい。例えば、図８に例示した発話配列リスト１４２で示された組み合わせ候補１の会話グループ１に対応する第２尤度は、この会話グループ１に対応して配列された４つの発話音声から特定される３つの発話ペアのそれぞれの第１尤度を相乗平均した値である。発話順に並べられたＭ個の発話音声のうち、ｊ番目の発話音声を含む発話ペアについて得られた第１尤度Ｌ１(ｊ)を用いれば、第２算出部１７によって算出される第２尤度Ｌ２は、式(１０)のように表すことができる。

このようにして、第２算出部１７によって各組み合わせ候補に含まれる会話グループごとに算出された第２尤度Ｌ２は、当該会話グループに属する人物による発話音声の全てが会話を形成している可能性の高さを示している。

したがって、図６に例示した第３算出部１８は、絞込み部１３７で得られた各組み合わせ候補に含まれる会話グループごとに第２算出部１７で得られた第２尤度Ｌ２を相乗平均することにより、当該組み合わせ候補についての第３尤度Ｌ３を算出することができる。

注目する組み合わせ候補に含まれるＮ個の会話グループのうち、ｋ番目の会話グループについて得られた第２尤度Ｌ２(ｋ)を用いれば、第３算出部１８によって当該組み合わせ候補について求められる第３尤度Ｌ３は、式(１１)のように表すことができる。

このようにして第３算出部１８によって各組み合わせ候補について算出された第３尤度Ｌ３は、各組み合わせ候補が、図１に例示した複数の人物Ｃ１〜Ｃｎが形成している複数の会話グループの組み合わせを反映している確率を示している。したがって、第３算出部１８によって得られた第３尤度Ｌ３の高さに基づいて、複数の人物Ｃ１〜Ｃｎが形成している複数の会話グループの組み合わせを特定することができる。

上述したように、図１１に例示した第１算出部１６を有する音声情報解析装置１０によれば、確度の高い第１尤度Ｌ１に基づいて、個々の会話グループについての第２尤度Ｌ２および各組み合わせ候補についての第３尤度Ｌ３を求めることができる。これにより、第３尤度Ｌ３に基づいて特定した会話グループの組み合わせが正しい組み合わせである確率を高めることができる。

また、以上に説明した本件開示の音声情報解析装置１０は、音声情報に含まれる音韻情報に基づく意味解析技術を用いることなく、複数の人物が形成している会話グループを特定することができる。したがって、本件開示の音声情報解析装置１０の実現には、多数の人物の音声に対して意味解析技術を適用する場合に必要とされるような膨大な処理能力を必要としない。また、意味解析技術を用いないことにより、本件開示の音声情報解析装置１０は、会話グループを特定する対象となる多数の人物の発言内容に含まれるプライヴァシーの保護にも配慮することができる。

本件開示の音声情報解析装置１０は、例えば、パーソナルコンピュータなどのコンピュータ装置を用いて実現することができる。
図１４は、音声情報解析装置のハードウェア構成例を示している。

図１４に例示したコンピュータ装置２０は、プロセッサ２１と、メモリ２２と、ハードディスク装置２３と、表示装置２４と、入力装置２５と、光学ドライブ装置２６と、ネットワークインタフェース２８とを含んでいる。図１４に例示したプロセッサ２１と、メモリ２２と、ハードディスク装置２３と、表示装置２４と、入力装置２５と、光学ドライブ装置２６と、ネットワークインタフェース２８とは、バスを介して互いに接続されている。図１４に例示した光学ドライブ装置２６は、光ディスクなどのリムーバブルディスク２７を装着可能であり、装着したリムーバブルディスク２７に記録された情報の読出および記録を行う。また、図１４に例示した音声情報解析装置１０は、プロセッサ２１と、メモリ２２と、ハードディスク装置２３と、表示装置２４と、ネットワークインタフェース２８とを含んでいる。

図１４に例示した入力装置２５は、例えば、キーボードやマウスなどである。音声情報解析装置１０の操作者は、入力装置２５を操作することにより、音声情報解析装置１０に含まれる各部に対して、例えば、会話グループを特定する処理を開始させる指示などを入力することができる。

また、図１４に例示したネットワークインタフェース２８は、それぞれ異なる位置に設置されたｍ個の中継装置Ｓ１〜Ｓｍに接続されている。

メモリ２２は、コンピュータ装置２０のオペレーティングシステムとともに、プロセッサ２１が上述した音声情報解析処理を実行するためのアプリケーションプログラムを格納している。なお、上述した音声情報解析処理を実行するためのアプリケーションプログラムは、例えば、光ディスクなどのリムーバブルディスク２７に記録して頒布することができる。そして、このリムーバブルディスク２７を光学ドライブ装置２６に装着して読み込み処理を行うことにより、音声情報解析処理を実行するためのアプリケーションプログラムを、メモリ２２およびハードディスク装置２３に格納させてもよい。また、ネットワークインタフェース２８を介してインターネットなどのネットワークに接続することで、ネットワーク経由で、音声情報解析処理のためのアプリケーションプログラムをメモリ２２およびハードディスク装置２３に読み込ませることもできる。

また、図１４に例示したハードディスク装置２３は、音声情報解析処理のためのアプリケーションプログラムに含まれる各種のデータを格納する。例えば、ハードディスク装置２３は、音声情報から発話感情、発話意図および発話態度を推定するために利用する基準を示す情報を格納してもよい。また、ハードディスク装置２３が、上述した式(１)、(３)、(５)、(７)に含まれる各パラメータを保持することにより、図１１に例示したパラメータ保持部１６２の機能を実現してもよい。更に、ハードディスク装置２３が、各種のパラ言語情報の組み合わせについての条件付確率分布を示す情報を保持することにより、図１１に例示した確率テーブル１６５ｅ、１６５ｐ、１６５ａを実現してもよい。

また、プロセッサ２１は、メモリ２２に格納されたアプリケーションプログラムを実行することにより、図１に例示した取得部１１、収集部１２、生成部１３、配列部１４の機能を果たしてもよい。また、プロセッサ２１は、メモリ２２に格納されたアプリケーションプログラムを実行することにより、図１に例示した抽出部１５、第１算出部１６、第２算出部１７および第３算出部１８の機能を果たしてもよい。

図１５は、音声情報解析処理のフローチャートの一例を示している。図１５に示したステップＳ１〜ステップＳ６の各処理は、上述した音声情報解析処理のためのアプリケーションプログラムに含まれる処理の一例である。また、これらのステップＳ１〜ステップＳ６の各処理は、図１４に例示したプロセッサ２１によって実行される。

プロセッサ２１は、図１４に例示したネットワークインタフェース２８と、中継装置Ｓ１〜Ｓｍおよび携帯端末Ｔ１〜Ｔｎを介して、これらの携帯端末Ｔ１〜Ｔｎを所持する各人物の発話音声を示す音声情報を取得する(ステップＳ１)。

また、プロセッサ２１は、図１４に例示したネットワークインタフェース２８を介して、中継装置Ｓ１〜Ｓｍから、それぞれが無線アクセスを提供している携帯端末を示す情報を、携帯端末Ｔ１〜Ｔｎの所持者の位置を示す位置情報として収集する(ステップＳ２)。

次いで、プロセッサ２１は、ステップＳ１およびステップＳ２で得られた音声情報および位置情報を、例えば、ハードディスク装置２３に設けた音声情報蓄積部１１１および位置情報蓄積部１２１にそれぞれ蓄積する(ステップＳ３)。

このように、プロセッサ２１が、ステップＳ１〜ステップＳ３の処理を実行することにより、図６に例示した音声情報蓄積部１１１と位置情報蓄積部１２１とをそれぞれ含む取得部１１および収集部１２の機能を実現することができる。

次いで、プロセッサ１２は、図１４に例示した入力装置２５を介して、会話グループを特定する処理を開始する旨の指示が入力されたか否かを判定する(ステップＳ４)。

例えば、会話グループを特定する処理の開始を指示するメッセージが、入力装置２５を介してプロセッサ２１に渡されたときに、プロセッサ２１は、ステップＳ４の肯定判定ルートに進む。そして、上述したメッセージを受け取った時刻ｔから後述する会話グループを特定する処理を実行することにより、会話グループを特定する(ステップＳ５)。その後、プロセッサ２１は、ステップＳ６の処理に進む。

一方、会話グループを特定する処理の開始を指示するメッセージが入力装置２５から渡されなかった場合に、プロセッサ２１は、ステップＳ４の否定判定ルートに進む。ステップＳ４の否定判定ルートにおいて、プロセッサ２１は、音声情報解析処理を継続するか否かを判定する(ステップＳ６)。

例えば、入力装置２５を介して、音声情報解析処理の終了が指示された場合に、プロセッサ２１は、ステップＳ６の否定判定ルートに従って、音声情報解析処理を終了する。一方、音声情報解析処理の終了が指示されていない場合に、プロセッサ２１は、ステップＳ６の肯定判定ルートに従って、ステップＳ１の処理に戻り、音声情報解析処理を続行する。

次に、音声情報解析処理に含まれる会話グループを特定する処理を、図１４に例示した音声情報解析装置１０によって実現する方法について説明する。

図１６は、会話グループを特定する処理のフローチャートの一例を示している。図１６に示したステップＳ３０１〜ステップＳ３１０の各処理は、上述した音声情報解析処理のフローチャートに例示したステップＳ５の処理の一例である。また、これらのステップＳ３０１〜ステップＳ３１０の各処理は、図１４に例示したプロセッサ２１によって実行される。

プロセッサ２１は、会話グループを特定する処理を、会話グループを特定する処理を開始する旨のメッセージを受け取った時刻ｔから時間Ｔを遡った時刻ｔ−Ｔを開始時刻とする期間Ｔｄに対応して蓄積された音声情報および位置情報に基づいて実行する。

まず、プロセッサ２１は、上述した期間Ｔｄに含まれる各サンプリング時刻に対応して音声情報蓄積部１１１に蓄積された音声信号の強度に基づいて、当該サンプリング時刻において各人物が発話中であるか否かを判定する(ステップＳ３０１)。そして、プロセッサ２１は、ステップＳ３０１の処理で得られた判定結果を、例えば、ハードディスク装置２３に設けた発話リスト１３２に集積する(ステップＳ３０２)。このように、プロセッサ２１が、ステップＳ３０１，Ｓ３０２の処理を実行することにより、図６に例示した発話判定部１３１の機能を実現してもよい。

また、プロセッサ２１は、上述した期間Ｔｄに含まれる各サンプリング時刻に対応して位置情報蓄積部１２１に蓄積された位置情報に基づいて、当該サンプリング時刻において各人物に近接する中継装置Ｓｘを特定する(ステップＳ３０３)。なお、中継装置Ｓｘは、図１４に例示した中継装置Ｓ１〜Ｓｍのいずれかである。そして、プロセッサ２１は、ステップＳ３０３の処理で得られた結果に基づいて、各中継装置Ｓ１〜Ｓｍに近接する人物の集合を、例えば、ハードディスク装置２３に設けた近接人物リスト１３４に集積する(ステップＳ３０４)。このように、プロセッサ２１が、ステップＳ３０３，Ｓ３０４の処理を実行することにより、図６に例示した位置分類部１３３の機能を実現してもよい。

次いで、プロセッサ２１は、上述したステップＳ３０１の処理において、期間Ｔｄにおける発話が検出された人物を、近接人物リスト１３４に基づいて、近接している中継装置Ｓｘごとにグループ分けする(ステップＳ３０５)。そして、プロセッサ２１は、各中継装置Ｓ１〜Ｓｍに対応する各グループに属する人物が形成している可能性のある会話グループについての組み合わせを列挙する(ステップＳ３０６)。このように、プロセッサ２１が、ステップＳ３０５，Ｓ３０６の処理を実行することにより、図６に例示した組み合わせ列挙部１３５の機能を実現してもよい。

次に、プロセッサ２１は、上述した発話リスト１３２に含まれる情報に基づいて、発話期間が重複している人物の組み合わせを検出する(ステップＳ３０７)。プロセッサ２１は、例えば、発話リスト１３２に含まれる人物のペアごとに、上述した期間Ｔｄにおいて同一の時刻に対応して発話中である旨の判定結果が保持されている回数を計数した結果に基づいて、発話重複率を算出してもよい。このようにして得られた発話重複率が上述した所定の閾値を超える組み合わせを、プロセッサ２１は、発話期間が重複している人物の組み合わせとして検出してもよい。そして、プロセッサ２１は、ステップＳ３０６の処理で列挙した会話グループの組み合わせから、ステップＳ３０７の処理で検出した人物の組み合わせを含む会話グループが属する組み合わせを排除することにより、組み合わせ候補を絞り込む(ステップＳ３０８)。このように、プロセッサ２１が、ステップＳ３０７，Ｓ３０８の処理を実行することにより、図６に例示した重複率算出部１３６および絞込み部１３７の機能を実現してもよい。

このようにして得られた会話グループの組み合わせ候補について、プロセッサ２１は、後述するようにして、図１４に例示した携帯端末Ｔ１〜Ｔｎを所持する人物が形成している会話グループの組み合わせとしての尤もらしさを評価する(ステップＳ３０９)。

そして、ステップＳ３０９の処理による評価結果に基づいて、プロセッサ２１は、最尤の組み合わせ候補を、図１４に例示した携帯端末Ｔ１〜Ｔｎを所持する人物が形成している会話グループの組み合わせとして特定する。

次に、会話グループを特定する処理に含まれる各組み合わせ候補の尤もらしさを評価する処理を、図１４に例示した音声情報解析装置１０によって実現する方法について説明する。

図１７は、各組み合わせ候補の尤もらしさを評価する処理のフローチャートの一例を示している。図１７に示したステップＳ３１１〜ステップＳ３２５の各処理は、上述した会話グループを特定する処理のフローチャートに例示したステップＳ３０９の処理の一例である。また、これらのステップＳ３１１〜ステップＳ３２５の各処理は、図１４に例示したプロセッサ２１によって実行される。

まず、プロセッサ２１は、評価対象の組み合わせ候補の中で注目する組み合わせ候補を示す組み合わせ候補番号ｋに初期値１を設定する(ステップＳ３１１)。なお、以下の説明において、組み合わせ候補番号ｋで示される組み合わせ候補を組み合わせ候補ｋと称する。

次いで、プロセッサ２１は、評価対象の組み合わせ候補に含まれる会話グループの中で注目する会話グループを示す会話グループ番号ｉに初期値１を設定する(ステップＳ３１２)。なお、以下の説明において、会話グループ番号ｉで示される会話グループを会話グループｉと称する。

次に、プロセッサ２１は、組み合わせ候補ｋに含まれる会話グループｉに属する各人物による発話音声を時系列に従ってソートする(ステップＳ３１３)。例えば、プロセッサ２１は、発話リスト１３２に基づいて、各人物による個々の発話音声の開始時刻を特定し、特定した開始時刻が早い順に各発話音声を並べることによって、上述したソート処理を実行してもよい。

次いで、プロセッサ２１は、会話グループｉについてソートされた発話音声の中で注目する発話音声を示す発話番号ｊに初期値１を設定する(ステップＳ３１４)。なお、以下の説明において、発話番号ｊの発話音声を発話音声Ｍ(ｊ)で示す。

次に、プロセッサ２１は、音声情報蓄積部１１１から、発話音声Ｍ(ｊ)に対応する特徴情報を抽出する(ステップＳ３１５)。ステップＳ３１５の処理において、プロセッサ２１は、例えば、発話音声Ｍ(ｊ)に対応する音声情報に基づいて、発話パワー、発話速度、基本周波数および持続時間を含む韻律情報を、発話音声Ｍ(ｊ)に対応する特徴情報の一部として抽出してもよい。また、プロセッサ２１は、ステップＳ３１５の処理において、発話感情、発話意図および発話態度を含むパラ言語情報を、発話音声Ｍ(ｊ)に対応する特徴情報の一部として抽出してもよい。更に、発話番号ｊが値２以上である場合に、プロセッサ２１は、ステップＳ３１５の処理において、発話音声Ｍ(ｊ)の開始時刻と発話音声Ｍ（ｊ−１）の終了時刻との差で示される発話間隔を、発話音声Ｍ(ｊ)に対応する特徴情報の一部として抽出してもよい。このようなステップＳ３１５の処理をプロセッサ２１が実行することは、図１に例示した抽出部１５を実現する手法の一例である。

なお、プロセッサ２１は、ステップＳ３１５の処理において抽出した特徴情報を、他の組み合わせ候補に含まれる会話グループについての処理において利用できるように、メモリ２２あるいはハードディスク装置２３内に保持しておいてもよい。例えば、プロセッサ２１は、組み合わせ候補１についての処理の過程で、ハードディスク装置２３に設けた発話特徴蓄積部１５３に、個々の発話音声を識別する識別情報に対応して、個々の発話音声に対応する音声情報から抽出した特徴情報を蓄積してもよい。そして、候補番号２以降の組み合わせ候補ｋについての処理では、ステップＳ３１３の処理において、プロセッサ２１が、発話音声の識別情報と、組み合わせ候補ｋの会話グループｉにおける発話番号ｊとを対応付ければよい。これにより、プロセッサ２１は、ステップＳ３１５の処理において、改めて音声情報から韻律情報およびパラ言語情報を抽出する代わりに、発話特徴蓄積部１５３に蓄積された抽出済みの特徴情報を利用することができる。

次いで、プロセッサ２１は、発話番号ｊが初期値１であるか否かを判定する(ステップＳ３１６)。発話番号ｊが値２以上である場合に(ステップＳ３１６の否定判定)、プロセッサ２１は、ステップＳ３１７において、発話音声Ｍ(ｊ)と発話音声Ｍ(ｊ−１)とを含む発話ペアについて、この発話ペアが会話の一部である可能性の高さを示す第１尤度を算出する。

ステップＳ３１７において、プロセッサ２１は、次のようにして、発話音声Ｍ(ｊ)を含む発話ペアについての第１尤度Ｌ１(ｊ)を求める。まず、プロセッサ２１は、ステップＳ３１５の処理で抽出した特徴情報に含まれる韻律情報と、上述した式(１)、(３)、(５)、(７)および式(８)とを用いて、この発話ペアの韻律尤度Ｌｒを算出する。また、プロセッサ２１は、ステップＳ３１５の処理で抽出した特徴情報に含まれるパラ言語情報と、上述した確率テーブル１６５ｅ，１６５ｐ，１６５ａおよび式(９)とを用いて、この発話ペアのパラ言語尤度Ｌｐを算出する。そして、プロセッサ２１は、このようにして得られた韻律尤度Ｌｒとパラ言語尤度Ｌｐとを乗算することにより、この発話ペアについての第１尤度Ｌ１(ｊ)を算出する。このように、プロセッサ２１が、ステップＳ３１７の処理を実行することにより、図１１に例示した第１算出部１６の機能を実現することができる。

ステップＳ３１６の肯定判定ルートにおいて、プロセッサ２１は、上述したステップＳ３１７の処理の終了後に、ステップＳ３１８の処理に進む。一方、ステップＳ３１６の肯定判定の場合に、プロセッサ２１は、ステップＳ３１７の処理をスキップして、ステップＳ３１８の処理に進む。

ステップＳ３１８において、プロセッサ２１は、ステップＳ３１３で並べられた全ての発話音声についての処理が終了したか否かを判定する。未処理の発話音声がある場合に、プロセッサ２１は、ステップＳ３１８の否定判定ルートに従って処理を進め、ステップＳ３１９において、発話番号ｊに値１を加算してから、ステップＳ３１５の処理に戻る。そして、プロセッサ２１は、新たな発話音声Ｍ(ｊ)についての処理を開始する。

このようにして、ステップＳ３１５〜ステップＳ３１９の処理を繰り返し実行することにより、プロセッサ２１は、ステップＳ３１３で並べられた各発話音声Ｍ(ｊ)を含む発話ペアについて第１尤度Ｌ１(ｊ)を算出する。そして、ステップＳ３１３で並べられた全ての発話音声についての処理が終了したときに、プロセッサ２１は、ステップＳ３１８の肯定判定ルートに従って、ステップＳ３２０の処理に進む。

ステップＳ３２０において、プロセッサ２１は、上述した式(１０)を用いて、各発話音声Ｍ(ｊ)を含む発話ペアについて算出した第１尤度Ｌ１(ｊ)から、組み合わせ候補ｋに含まれる会話グループｉについての第２尤度Ｌ２(ｉ)を算出する。このように、プロセッサ２１が、ステップＳ３２０の処理を実行することにより、図１に例示した第２算出部１７の機能を実現することができる。

その後、プロセッサ２１は、組み合わせ候補ｋに含まれる全ての会話グループについての処理が終了したか否かを判定する(ステップＳ３２１)。未処理の会話グループがある場合に、プロセッサ２１は、ステップＳ３２１の否定判定ルートに従って処理を進め、ステップＳ３２２において、グループ番号ｉに値１を加算してから、ステップＳ３１４の処理に戻る。そして、プロセッサ２１は、新たな会話グループｉについての処理を開始する。

このようにして、ステップＳ３１４〜ステップＳ３２２の処理を繰り返し実行することにより、プロセッサ２１は、組み合わせ候補ｋに含まれる各会話グループｉについて第２尤度Ｌ２(ｉ)を算出する。そして、組み合わせ候補ｋに含まれる全ての会話グループについての処理が終了したときに、プロセッサ２１は、ステップＳ３２１の肯定判定ルートに従って、ステップＳ３２３の処理に進む。

ステップＳ３２３において、プロセッサ２１は、上述した式(１１)に示したように、各会話グループについて算出した第２尤度Ｌ２(ｉ)を相乗平均することにより、組み合わせ候補ｋについての第３尤度Ｌ３(ｋ)を算出する。このように、プロセッサ２１が、ステップＳ３２３の処理を実行することにより、図１に例示した第３算出部１８の機能を実現することができる。

その後、プロセッサ２１は、全ての組み合わせ候補についての処理が終了したか否かを判定する(ステップＳ３２４)。未処理の組み合わせ候補がある場合に、プロセッサ２１は、ステップＳ３２４の否定判定ルートに従って処理を進め、ステップＳ３２５において、候補番号ｋに値１を加算してから、ステップＳ３１２の処理に戻る。そして、プロセッサ２１は、組み合わせ候補ｋについての処理を開始する。

このようにして、ステップＳ３１２〜ステップＳ３２５の処理を繰り返し実行することにより、プロセッサ２１は、各組み合わせ候補について第３尤度Ｌ３(ｋ)を算出する。そして、全ての組み合わせ候補についての処理が終了したときに、プロセッサ２１は、ステップＳ３２４の肯定判定ルートに従って、各組み合わせ候補の尤もらしさを評価する処理を終了する。

このように、図１４に例示したコンピュータ装置２０のプロセッサ２１が、音声情報処理のためのアプリケーションプログラムを実行することによって、本件開示の音声情報解析装置１０を実現することができる。

以上に説明したように、本件開示の音声情報解析装置１０は、会話グループの特定処理の対象となる複数の人物が所持している携帯端末などの汎用の情報機器を介して収集可能な音声情報と概略の位置情報とに基づいて会話グループの特定が可能である。このため、本件開示の音声情報解析装置１０は、会話グループの特定処理の対象となる複数の人物それぞれについて厳密な位置情報を取得するための専用の情報端末などを必要としない。したがって、音声情報を収集する側の負担および会話グループの特定処理の対象となる複数の人物側の負担を、ともに軽減することができる。

以上の説明に関して、更に、以下の各項を開示する。
(付記１) 複数の人物それぞれが発話した音声を表す音声情報を取得する取得部と、
前記複数の人物それぞれの位置を示す位置情報を収集する収集部と、
前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成する生成部と、
前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物による複数の発話音声を時系列に従って配列する配列部と、
前記前記配列部によって会話グループごとに配列された前記複数の発話音声において連続する２つの発話音声として特定される発話ペアごとに、前記発話ペアに対応する音声情報から、韻律的な特徴を示す韻律情報とパラ言語的な特徴に対応するパラ言語情報との少なくとも一方を含む特徴情報を抽出する抽出部と、
前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部であることの尤もらしさを示す第１尤度を算出する第１算出部と、
前記第１算出部で前記各発話ペアについて得られた前記第１尤度に基づいて、前記配列部によって会話グループごとに配列された前記複数の発話音声の全てが、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する第２算出部と
前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する第３算出部と
を備えたことを特徴とする音声解析装置。
(付記２) 付記１に記載の音声解析装置において、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する発話音声のパワーを示す発話パワーと２つの発話相互の時間間隔を示す発話間隔とを含む韻律情報を抽出し、
前記第１算出部は、
前記発話パワーが大きいほど、小さい前記発話間隔の確率が高くなる特性を有する確率分布に基づいて、前記韻律情報に含まれる前記発話パワーを持つ発話音声が前記発話間隔で出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声解析装置。
(付記３) 付記１に記載の音声解析装置において、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する発話音声における発話速度と２つの発話音声相互の時間間隔を示す発話間隔とを含む韻律情報を抽出し、
前記第１算出部は、前記発話速度が速いほど、小さい前記発話間隔の確率が高くなる特性を有する確率分布に基づいて、前記韻律情報に含まれる前記前側の発話音声の発話速度と前記発話間隔との組み合わせが出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声解析装置。
(付記４) 付記１に記載の音声解析装置において、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する発話音声の基本周波数と２つの発話音声相互の時間間隔を示す発話間隔とを含む韻律情報を抽出し、
前記第１算出部は、前記基本周波数が高いほど、小さい前記発話間隔の確率が高くなる特性を有する確率分布に基づいて、前記韻律情報に含まれる前記前側の発話音声の発話速度と前記発話間隔との組み合わせが出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声解析装置。
(付記５) 付記１に記載の音声解析装置において、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する２つの発話音声の持続時間を含む韻律情報を抽出し、
前記第１算出部は、会話中に連続して現れる２つの発話音声の持続時間についての学習によって得られた確率分布モデルに基づいて、前記韻律情報に含まれる２つの持続時間を持つ発話音声が連続していることの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声解析装置。
(付記６) 付記１に記載の音声解析装置において、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話音声に付随する感情の種別を推定する感情推定部を有し、
前記感情推定部によって、前記発話ペアに属する２つの発話音声について推定された前記感情の種別をそれぞれ示す感情情報を含むパラ言語情報を抽出し、
前記第１算出部は、会話に含まれる発話音声に付随する可能性を有する複数種別の感情の組み合わせが会話中で連続して現れる事象についての条件付確率分布に基づいて、前記パラ言語情報に含まれる前記２つの感情情報でそれぞれ示される種別の感情を伴う発話音声が連続して出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声解析装置。
(付記７) 付記１に記載の音声解析装置において、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話音声が発話された際の話者の意図を推定する意図推定部を有し、
前記意図推定部によって、前記発話ペアに属する２つの発話音声に対応して推定された前記話者の意図の種別をそれぞれ示す意図情報を含むパラ言語情報を抽出し、
前記第１算出部は、会話における話者の意図として出現する可能性を有する複数種別の意図の組み合わせが会話中で連続して現れる事象についての条件付確率分布に基づいて、前記パラ言語情報に含まれる２つの意図情報でそれぞれ示される種別の意図を伴う発話音声が連続して出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声解析装置。
(付記８) 付記１に記載の音声解析装置において、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話音声が発話された際の話者の態度を推定する態度推定部を有し、
前記態度推定部によって、前記発話ペアに属する２つの発話音声に対応する前記話者の態度の種別をそれぞれ示す態度情報を含むパラ言語情報を抽出し、
前記第１算出部は、会話における話者の態度として出現する可能性を有する複数種別の態度の組み合わせが会話中で連続して現れる事象についての条件付確率分布に基づいて、前記パラ言語情報に含まれる２つの態度情報でそれぞれ示される種別の態度を伴う発話音声が連続して出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声解析装置。
(付記９) 複数の人物それぞれが発話した音声を表す音声情報および前記複数の人物それぞれの位置を示す位置情報を取得し、
前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成し、
前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物の発話音声を時系列に従って並べ替えることにより、前記各会話グループにおける発話音声の出現順序を示す発話音声の配列を生成し、
前記各会話グループに対応する前記発話音声の配列に含まれる各発話音声と当該発話音声に連続する発話音声とを含む発話ペアごとに、前記発話ペアに含まれる２つの発話音声に対応する音声情報から、韻律情報とパラ言語情報との少なくとも一方を含む特徴情報を抽出し、
前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部である確率を示す第１尤度を算出し、
前記各会話グループに対応する発話音声の配列に含まれる前記発話ペアについて算出した前記第１尤度に基づいて、前記発話音声の配列に含まれる全ての発話音声が、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出し、
前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する
処理をコンピュータに実行させることを特徴とする音声解析プログラム。

１０…音声情報解析装置；１１…取得部；１２…収集部；１３…生成部；１４…配列部；１５…抽出部；１６…第１算出部；１７…第２算出部；１８…第３算出部；１１１…音声情報蓄積部；１２１…位置情報蓄積部；１３１…発話判定部；１３２…発話リスト；１３３…位置分類部；１３４…近接人物リスト；１３５…組み合わせ列挙部；１３６…重複率算出部；１３７…絞込み部；１４１…整列処理部；１４２…発話配列リスト；１５１−ｐ…発話パワー算出部；１５１−ｖ…発話速度算出部；１５１−ｆ…基本周波数算出部；１５１−ｓ…持続時間抽出部；１５１−ｄ…発話間隔算出部；１５２−ｅ…感情推定部；１５２−ｐ…意図推定部；１５２−ａ…態度推定部；１５３…発話特徴蓄積部；１５４…間隔情報蓄積部；１６１…確率演算部；１６２…パラメータ保持部；１６３…韻律尤度算出部；１６４…テーブル参照部；１６５ｅ，１６５ｐ，１６５ａ…確率テーブル；１６６…パラ言語尤度算出部；１６７…乗算部；２１…プロセッサ；２２…メモリ；２３…ハードディスク装置(ＨＤＤ)；２４…表示装置；２５…入力装置；２６…光学ドライブ装置；２７…リムーバブルディスク；２８…ネットワークインタフェース；Ｓ１，Ｓ２…中継装置；Ｃ１〜Ｃｎ、Ａ，Ｂ，Ｃ，Ｄ，Ｅ，Ｆ，Ｇ…人物；Ｔ１〜Ｔｎ…携帯端末

Claims

複数の人物それぞれが発話した音声を表す音声情報を取得する取得部と、
前記複数の人物それぞれの位置を示す位置情報を収集する収集部と、
前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成する生成部と、
前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物による複数の発話音声を時系列に従って配列する配列部と、
前記配列部によって会話グループごとに配列された前記複数の発話音声において連続する２つの発話音声として特定される発話ペアごとに、前記発話ペアに対応する音声情報から、韻律的な特徴を示す韻律情報とパラ言語的な特徴に対応するパラ言語情報との少なくとも一方を含む特徴情報を抽出する抽出部と、
前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部であることの尤もらしさを示す第１尤度を算出する第１算出部と、
前記第１算出部で前記各発話ペアについて得られた前記第１尤度に基づいて、前記配列部によって会話グループごとに配列された前記複数の発話音声の全てが、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する第２算出部と、
前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する第３算出部と
を備え、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する発話音声のパワーを示す発話パワーと２つの発話相互の時間間隔を示す発話間隔とを含む韻律情報を抽出し、
前記第１算出部は、前記発話パワーが大きいほど、小さい前記発話間隔の確率が高くなる特性を有する確率分布に基づいて、前記韻律情報に含まれる前記発話パワーを持つ発話音声が前記発話間隔で出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声情報解析装置。
複数の人物それぞれが発話した音声を表す音声情報を取得する取得部と、
前記複数の人物それぞれの位置を示す位置情報を収集する収集部と、
前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成する生成部と、
前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物による複数の発話音声を時系列に従って配列する配列部と、
前記配列部によって会話グループごとに配列された前記複数の発話音声において連続する２つの発話音声として特定される発話ペアごとに、前記発話ペアに対応する音声情報から、韻律的な特徴を示す韻律情報とパラ言語的な特徴に対応するパラ言語情報との少なくとも一方を含む特徴情報を抽出する抽出部と、
前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部であることの尤もらしさを示す第１尤度を算出する第１算出部と、
前記第１算出部で前記各発話ペアについて得られた前記第１尤度に基づいて、前記配列部によって会話グループごとに配列された前記複数の発話音声の全てが、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する第２算出部と、
前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する第３算出部と
を備え、
前記抽出部は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話音声に付随する感情の種別を推定する感情推定部を有し、前記感情推定部によって、前記発話ペアに属する２つの発話音声について推定された前記感情の種別をそれぞれ示す感情情報を含むパラ言語情報を抽出し、
前記第１算出部は、会話に含まれる発話音声に付随する可能性を有する複数種別の感情の組み合わせが会話中で連続して現れる事象についての条件付確率分布に基づいて、前記パラ言語情報に含まれる前記２つの感情情報でそれぞれ示される種別の感情を伴う発話音声が連続して出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声情報解析装置。
複数の人物それぞれが発話した音声を表す音声情報および前記複数の人物それぞれの位置を示す位置情報を取得する工程と、
前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成する工程と、
前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物の発話音声を時系列に従って並べ替えることにより、前記各会話グループにおける発話音声の出現順序を示す発話音声の配列を生成する工程と、
前記各会話グループに対応する前記発話音声の配列に含まれる各発話音声と当該発話音声に連続する発話音声とを含む発話ペアごとに、前記発話ペアに含まれる２つの発話音声に対応する音声情報から、韻律情報とパラ言語情報との少なくとも一方を含む特徴情報を抽出する工程と、
前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部である確率を示す第１尤度を算出する工程と、
前記各会話グループに対応する発話音声の配列に含まれる前記発話ペアについて算出した前記第１尤度に基づいて、前記発話音声の配列に含まれる全ての発話音声が、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する工程と、
前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する工程と
を含む処理をコンピュータに実行させ、
前記特徴情報を抽出する工程は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話ペアに属する発話音声のパワーを示す発話パワーと２つの発話相互の時間間隔を示す発話間隔とを含む韻律情報を抽出し、
前記第１尤度を算出する工程は、前記発話パワーが大きいほど、小さい前記発話間隔の確率が高くなる特性を有する確率分布に基づいて、前記韻律情報に含まれる前記発話パワーを持つ発話音声が前記発話間隔で出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声情報解析プログラム。
複数の人物それぞれが発話した音声を表す音声情報および前記複数の人物それぞれの位置を示す位置情報を取得する工程と、
前記各人物の音声情報と前記各人物の位置情報とに基づいて、会話をしている可能性がある複数の人物を含む複数の会話グループを求め、求めた会話グループの組み合わせから会話をしている可能性の高い会話グループの組み合わせを組み合わせ候補として生成する工程と、
前記組み合わせ候補に含まれる各会話グループに属する前記複数の人物の発話音声を時系列に従って並べ替えることにより、前記各会話グループにおける発話音声の出現順序を示す発話音声の配列を生成する工程と、
前記各会話グループに対応する前記発話音声の配列に含まれる各発話音声と当該発話音声に連続する発話音声とを含む発話ペアごとに、前記発話ペアに含まれる２つの発話音声に対応する音声情報から、韻律情報とパラ言語情報との少なくとも一方を含む特徴情報を抽出する工程と、
前記特徴情報と、前記発話ペアが会話の一部である場合に当該特徴情報が従う確率分布とに基づいて、前記各発話ペアが会話の一部である確率を示す第１尤度を算出する工程と、
前記各会話グループに対応する発話音声の配列に含まれる前記発話ペアについて算出した前記第１尤度に基づいて、前記発話音声の配列に含まれる全ての発話音声が、当該会話グループに属する各人物による会話に含まれている確率を示す第２尤度を算出する工程と、
前記各組み合わせ候補に含まれる各会話グループについて算出した前記第２尤度に基づいて、当該組み合わせ候補が、前記複数の人物が形成している複数の会話グループの組み合わせを反映している確率を示す第３尤度を算出する工程と
を含む処理をコンピュータに実行させ、
前記特徴情報を抽出する工程は、前記各発話ペアにそれぞれ対応する音声情報から、当該発話音声に付随する感情の種別を推定する工程を含み、当該工程によって、前記発話ペアに属する２つの発話音声について推定された前記感情の種別をそれぞれ示す感情情報を含むパラ言語情報を抽出し、
前記第１尤度を算出する工程は、会話に含まれる発話音声に付随する可能性を有する複数種別の感情の組み合わせが会話中で連続して現れる事象についての条件付確率分布に基づいて、前記パラ言語情報に含まれる前記２つの感情情報でそれぞれ示される種別の感情を伴う発話音声が連続して出現することの尤もらしさを反映する前記第１尤度を算出する
ことを特徴とする音声情報解析プログラム。