JP2010266522A

JP2010266522A - 対話状態分割装置とその方法、そのプログラムと記録媒体

Info

Publication number: JP2010266522A
Application number: JP2009115499A
Authority: JP
Inventors: Narihisa Nomoto; 済央野本; Satoshi Takahashi; 敏高橋; Osamu Yoshioka; 理吉岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-05-12
Filing date: 2009-05-12
Publication date: 2010-11-25
Anticipated expiration: 2029-05-12
Also published as: JP5385677B2

Abstract

【課題】二者が会話する音声データを複数の対話状態に分割する。
【解決手段】この発明の対話状態分割装置は、発話区間検出部と、フレーム抽出部と、フレーム内発話時間比計算部と、対話状態分類部とを具備する。発話区間検出部は、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する。フレーム抽出部は、それぞれの発話区間を経過時間順に並べて所定数の発話区間を１フレームとして出力する。フレーム内発話時間比計算部は、フレーム毎のそれぞれの発話区間の時間比を計算する。フレーム代表スコア計算部は、発話区間の時間比から１フレーム内の代表スコアを発話区間の単位で決定する。対話状態分割部は、発話区間の時間比を少なくとも２個の閾値と比較することでフレームを少なくとも３つの対話状態にそれぞれ分割する。
【選択図】図２

Description

この発明は、二人の話者が対話する状況下の音声データを、対話の状態に応じて分類する装置とその方法と、そのプログラムと記録媒体に関する。

近年、大量に蓄積されたデータから知見を獲得するマイニング技術が注目されている。例えばＷｅｂ上にある不特定話者によって書かれたブログや商品に対する自由記述アンケートから商品に対する世間一般の評判やその傾向を調べる目的でテキストマイニングといった手法が用いられる。

テキストマイニング技術の一つとして、単語ランキングや話題分類などがある。例えば、商品に対する自由記述アンケートやブログ記事などのテキストで書かれた文書を複数集めて、それらの話題傾向を調べる際、その中でどのような話題がどの程度あるかを調べる目的で文書頻度（Document Frequency、以下ＤＦと称する）による単語ランキングが用いられる。ＤＦとはある単語を含む文書がいくつあるかを表した値である。

このようなマイニング技術は、ＣＲＭ（Customer Relationship Management）の分野において注目されており、顧客との応対記録を分析し、顧客のニーズ開拓やＣＳ（Customer Satisfactin）向上などを目指す試みがなされている。ＣＲＭ分析データとしてコールセンタにおけるオペレータと顧客との電話応対を録音したもの（以下、応対音声）などがある。

そこで応対音声を音声認識や人手で書き起こした文書に対し、単語ランキングなどを用いて分析する場合、単純に応対音声の開始から終了までの全範囲を対象として分析を行っても意図どおりの通話内容を得ることは難しい。一言で応対音声と言っても、顧客が電話をかけて来た用件をオペレータに説明したり、顧客の本人確認をしたり、顧客の用件に対しオペレータが説明をしたりなど、一つの会話の中をいくつかの状態に分割することが出来る。そのため、会話をいくつかの状態に分割し、その分割された各状態について分析することで、データマイニングの精度の向上が期待出来る。つまり、顧客が用件を述べている状態なのか、又は、オペレータが顧客から情報を聞きだしている状態なのか、或いは、オペレータが回答している状態なのか、について対話状態を分割することでデータ分析の精度の向上が期待できる。

関連する従来技術としては、例えば非特許文献１に開示された単語の出現傾向からテキストを分割するテキストセグメンテーション技術が知られている。テキストセグメンテーション技術とは、新聞記事や小説などといった文書を意味のまとまり毎に分割して行く技術である。しかし、応対音声のような二者の間で交わされる会話の対応状態を分割・類別するような技術はこれまでに報告されていない。

Marti A. Hearst. Multi-Paragraph Segmentation of Expository Text. 32ndAnnual Meeting of the Association for Computational Linguistics. Pp.9-16. 1994

従来のテキストセグメンテーション技術を利用する場合、応対音声を一旦テキストに書き起こす必要がある。応対音声を人手によって書き起こすと大きなコストがかかる。また、応対音声を音声認識して自動でテキスト化すると、認識結果に含まれる誤認識の影響から分割精度が悪化する心配がある。

この発明は、このような点に鑑みてなされたものであり、テキストの書き起こしにかかるコストを削減し、誤認識による分割精度の低下を回避することが可能な対話状態分割装置とその方法と、そのプログラムと記録媒体を提供することを目的とする。

この発明の対話状態分割装置は、発話区間検出部と、フレーム抽出部と、フレーム内発話時間比計算部と、フレーム代表スコア計算部と、対話状態分類部とを具備する。発話区間検出部は、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する。フレーム抽出部は、それぞれの発話区間を経過時間順に並べて所定数の発話区間を１フレームとして出力する。フレーム内発話時間比計算部は、フレーム毎のそれぞれの発話区間の時間比を計算する。フレーム代表スコア計算部は、発話区間の時間比から１フレーム内の代表スコアを、発話区間の単位で決定する。対話状態分類部は、発話区間の時間比を少なくとも２個の閾値と比較することで各フレームを、少なくとも３つの対話状態にそれぞれ分類する。

この発明の対話状態分割装置によれば、テキスト情報を用いることなく対話状態を少なくとも、「顧客が用件を述べている状態」、「オペレータが顧客から情報を聞きだしている状態」、「オペレータが回答している状態」の３つの状態に分割することができる。会話者の発話時間比を用いて対話状態を分割するので、会話情報をテキスト情報に変換するコストがかからない。また、テキストの書き起こしに音声認識を用いた場合の認識結果誤りの影響を受けない。

コールセンターにおける顧客対応状態の会話の一例を示す図。この発明の対話状態分割装置１００の機能構成例を示す図。対話状態分割装置１００の動作フローを示す図。発話区間検出部１０の機能構成例を示す図。発話分離部２０の機能構成例を示す図。フレーム抽出部１１，１１′の機能構成例を示す図。二者の発話区間を発話時間順に配列した一例を示す図。フレーム内発話時間比計算部１２の機能構成例を示す図。フレーム代表スコア計算部１３の出力信号の一例を概念的に示す図。フレーム代表スコア計算部１３′の動作フローを示す図。フレーム代表スコア計算部１３′の出力信号の一例を概念的に示す図。対話状態分割部１４の動作フローを示す図。対話状態分割部１４が動作した結果の一例を示す図。相槌の発話区間から成るフレームの例を示す図。

この発明の実施例の説明をする前に、この発明の考えについて説明する。
〔この発明の考え〕
この発明の対話状態分割方法は、二者の話者のどちらが会話の主導権を握っているか、に着目して対話状態を分割する考えである。図１に、例えばコールセンターにおける顧客とオペレータの対話状態の一例を示す。図１の横方向は経過時間であり、その経過時間を表す中心線の上側にオペレータの発話区間、下側に顧客の発話区間を示す。

コールセンター等における顧客とオペレータの会話の流れは、顧客が用件を述べている状態：Ｕ_Ｒ（以下、状態Ｕ_Ｒと称する）、オペレータが顧客情報を聞き出している状態：Ｏ_Ｈ（以下、状態Ｏ_Ｈと称する）、オペレータが回答している状態：Ｏ_Ａ（以下、状態Ｏ_Ａと称する）、の順番に推移するのが一般的である。この一連の会話の流れは、どちらの話者がどれだけ話をしているか、について着目することで分割することができる。

この発明の対話状態分割方法は、それぞれの話者の発話時間の比を求め、その比によって、顧客がオペレータより長く発話している区間を状態Ｕ_Ｒ、オペレータと顧客が同程度の時間発話している区間を状態Ｏ_Ｈ、オペレータが顧客より長く発話している区間を状態Ｏ_Ａ、の３つの状態に分割するものである。この方法によれば、会話情報をテキスト情報に変換する必要がない。したがって、テキスト情報に変換するコストが不要であり、テキスト情報に変換する際の変換誤差の影響も受けずに対話状態を分割することが可能である。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図２にこの発明の対話状態分割装置１００の機能構成例を示す。その動作フローを図３に示す。対話状態分割装置１００は、発話区間検出部１０と、フレーム抽出部１１と、フレーム内発話時間比計算部１２と、フレーム代表スコア計算部１３と、対話状態分割部１４と、制御部１５とを具備する。対話状態分割装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

発話区間検出部１０は、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する（ステップＳ１０）。フレーム抽出部１１は、発話区間検出部１０が出力する一方の話者の発話区間と他方の話者の発話区間を入力として、それぞれの発話区間を経過時間順に並べて所定数の発話区間をまとめて１フレームとして出力する（ステップＳ１１）。

フレーム内発話時間比計算部１２は、フレーム内のそれぞれの発話区間の時間比をフレーム毎に計算する（ステップＳ１２）。フレーム代表スコア計算部１３は、その発話区間の時間比から１フレーム内の代表スコアＲ_ｊ＾（＾の表記は図中の表記が正しい）を発話区間の単位で決定する（ステップＳ１３）。対話状態分割部１４は、その代表スコアＲ_ｊ＾を２個の閾値と比較することで、各フレームを３つの対話状態にそれぞれ分類する（ステップＳ１４）。制御部１５は、全てのフレームの分類が終わるまでステップＳ１０〜Ｓ１４の処理を繰り返すように、各部の動作を制御する（ステップＳ１５）。

この対話状態分割装置１００によれば、二者の発話区間を経過時間順に所定の数並べて１フレームとし、各フレーム毎に二者の発話区間の時間比を求める。そして、各フレームの発話区間の時間比から各フレームの代表スコアＲ_ｊ＾を発話区間を単位として決定する。その代表スコアＲ_ｊ＾の値を２個の閾値と比較することで、二者が会話する音声データを状態Ｕ_Ｒと状態Ｏ_Ｈと状態Ｏ_Ａの３つの対話状態に分割することができる。

従来技術のようにテキスト情報を用いる必要が無いのでコストを安く、また、音声データをテキスト情報に変換する際に発生する変換誤差の影響を受けること無く対話状態を分割・類別することを可能にする。

以下、対話状態分割装置１００の各部の機能構成例を示してその動作を更に詳しく説明する。

〔発話区間検出部〕
図４に発話区間検出部１０の機能構成例を示す。図４に示す例は、二者が会話する音声データが、それぞれ分離された２チャネルの（ステレオ信号）信号で与えられる場合の例である。

発話区間検出部１０は、パワー計算手段１０１ａと１０１ｂ、音声区間検出手段１０２ａと１０２ｂとを備える。パワー計算手段１０１ａと１０１ｂは、一方の話者の発話音声データと、他方の話者の発話音声データとをそれぞれ入力としてそれぞれの音声パワーを計算する。音声区間検出手段１０２ａと１０２ｂは、それぞれの発話の音声パワーを入力として、音声パワーと所定の閾値とを比較し音声パワーが一定時間以上続く区間をそれぞれの発話区間として出力する。発話区間検出部１０は、従来から知られているいわゆる音声スイッチと呼ばれるものと同じ構成で実現できる。

二者の会話する音声データが１つのチャネルで与えられる場合、二者の発話を分離する必要がある。図５に二者の発話を分離するための発話分離部２０の機能構成例を示す。発話分離部２０は、音声データを音声認識して話者を分類するものである。

発話分離部２０は、ＡＤ変換手段２１と、特徴量抽出手段２２と、話者分類手段２３と、モデルパラメータ記録部２４と、ＤＡ変換手段２５，２６とを備える。ＡＤ変換手段２１は、二者が会話する１チャネルのアナログ信号である音声データをディジタル信号に変換する。特徴量抽出部２２は、ディジタル信号に変換された音声データを例えば短時間フーリエ変換等で周波数領域の信号に変換して音声データの特徴量を抽出する。

話者分類部２３は、その特徴量をモデルパラメータ記録部２４に記録されている音響モデルと言語モデルと比較することで話者を認識してその発話を分離する。分離された音声データは、ＤＡ変換手段２５，２６で話者毎にアナログ信号に変換される。

話者毎の音声データがアナログ信号に変換された後の動作は、上記した発話区間検出部１０（図４）の動作と同じである。なお、発話分離部２０を、二者の会話を音声認識する例で説明したが、話者の声の音響的な特徴を音響モデルのみを用いて分類するようにしても良い。また、話者の声の周波数に一定の差があれば、簡単な周波数フィルタで話者を分類することも可能である。

〔フレーム抽出部〕
図６にフレーム抽出部１１の機能構成例を示す。フレーム抽出部１１は、発話時間順配列手段１１１と、フレーム生成手段１１２とを備える。発話時間順配列手段１１１は、二者のそれぞれの発話区間を発話開始時間順に配列する。

図７に二者の発話区間を発話時間順に配列した一例を示す。図７に楕円で囲ったＯＰＥ１は、オペレータの１番目の発話区間を意味する。同じくＵＳＲ１は、顧客の１番目の発話区間を意味する。図７に示すオペレータの「本日はどのようなご用件でしょうか？」で始まる会話の発話区間は、発話区間検出部１０と発話時間順配列手段１１１の動作によって、経過時間順に並べられる。

フレーム生成手段１１２は、経過時間順に並べられた発話区間を予め定めた発話の数ｋ、例えばｋ＝３ずつまとめて１フレームＦ_ｊ（１≦ｊ≦Ｎ−ｋ＋１）として出力する。ここでＮは、会話におけるオペレータの発話数と顧客の発話数の合計である。フレーム生成手段１１２は、そのＮを一定間隔毎、例えば１発話毎スライドして通話全体に対してフレームを生成する。図７に示す例では、２個の発話区間を共有してフレームが形成される。このようにフレームを重ねることで発話区間に時間比の値が安定する効果が期待できる。なお、全く発話区間が重ならないようにしてフレームを構成しても構わない。

〔フレーム内発話時間比計算部〕
図８にフレーム内発話時間比計算部１２の機能構成例を示す。フレーム内発話時間比計算部１２は、発話者発話時間集計手段１２１と、発話時間比計算手段１２２とを備える。発話者発話時間集計手段１２１は、発話者毎に発話時間を集計する。図７に示したフレームＦ_１の例では、オペレータの発話時間ＯＰＥ１＋ＯＰＥ２を計算して、顧客の発話時間ＵＳＲ１と切り分ける動作を行う。

発話時間比計算手段１２２は、フレームＦ_ｊ毎にフレーム中に含まれるオペレータと顧客の発話時間比であるフレーム内発話時間比Ｒ_ｊを式（１）で計算する。

図７に示したフレームＦ_１の例では、Ｒ_ｊ＝（ＯＰＥ１＋ＯＰＥ２）/（ＯＰＥ１＋ＵＳ
Ｒ１＋ＯＰＥ２）である。

フレーム内発話時間比Ｒ_ｊが１に近い値であれば、そのフレーム内ではオペレータが顧
客に対して長く話をしていることを意味する。０に近い値であれば顧客がオペレータに対
して長く話をしていることを意味する。０．５に近い値であればオペレータと顧客がほぼ
同じ時間話をしていることを意味する。

〔フレーム代表スコア計算部〕
フレーム代表スコア計算部１３は、１フレーム内の代表スコアを発話区間の単位で決定
する。図９にフレーム代表スコア計算部１３の出力信号の一例を概念的に示す。図９の横
方向には発話区間Ｕ_ｉが経過時間順に並べられ、縦方向はフレームＦ_ｊが経過時間順に並べられている。図９は１フレームが３個の発話区間から成る例である。

そして図９では、１フレームの代表スコアをフレームの真中の発話区間の値として決定している。フレーム内のどの発話区間を代表スコアとするかは任意である。フレーム代表スコア計算部１３は、フレームの先頭の発話区間、若しくは最後の発話区間を代表スコアとして決定しても良い。

また、代表スコアの変動を抑制する目的で複数フレームの発話区間の時間比の平均値を求め、その平均値を代表スコアとしても良い。図１０に複数フレームの発話区間の時間比の平均値を代表スコアとするフレーム代表スコア計算部１３′の動作フローを示す。

フレーム代表スコア計算部１３′は、例えば３個の発話区間の時間比を、経過時間順に記憶する記憶手段を備える。この記憶手段は、最も古い発話区間の時間比を、新しい発話区間の時間比が入力される度に消去する。よって、常時最新の３個の発話区間の時間比を記憶する。この記憶手段は一般的なメモリ回路で構成できる物なので機能構成例を図示した説明は省略する。

ステップＳ１３０でその記憶手段に３フレーム分の時間比が記憶されたか否かを判断する。まだ、３フレーム分の時間比が記憶されていない間（ステップＳ１３０のＮ）は、そのフレーム毎の時間比を代表スコアとして決定する（ステップＳ１３１）。

３フレーム分の時間比が記憶手段に記憶されると（ステップＳ１３０のＹ）、その３個の時間比の平均値を計算する（ステップＳ１３２）。その平均値を真中のフレームの代表スコアとして決定する（ステップＳ１３３）。ステップＳ１３０〜Ｓ１３３までの動作を全てのフレームについて行う（ステップＳ１５０のＮ）。

以上の動作の結果、図９に示した各フレームの代表スコアは、図１１に示すように変化する。フレームＦ_ｊ＋１が０.２から０.３に、フレームＦ_ｊ＋２が０.４から０.３に、フレームＦ_ｊ＋３が０．３から０．４に、それぞれ変化する。フレームＦ_ｊ＋４の値は、図の表記の関係から移動平均前の値である。このように複数のフレームの発話区間の時間比を移動平均して代表スコアとしても良い。代表スコアを平均値とすることで、代表スコアの局所的な変動を抑制できる。

〔対話状態分割部〕
図１２に対話状態分割部１４の動作フローを示す。対話状態分割部１４は、フレーム代表スコア計算部１３が出力する代表スコアを、少なくとも２個の閾値Ｘ，Ｙと比較することで、各フレームを少なくとも３つの対話状態に分類する。

対話状態分割部１４は、フレーム代表スコア計算部１３が出力するフレーム毎の代表スコアＲ_ｊ＾を、まず閾値Ｘと比較する。閾値Ｘは０．５より小さな例えば０．４と、予め定められた値である。代表スコアＲ_ｊ＾が０．４未満であると（ステップＳ１４０のＹ）、そのフレームは顧客が用件を述べている状態：Ｕ_Ｒに分類される（ステップＳ１４１）。

代表スコアＲ_ｊ＾が閾値Ｘよりも大であると、次に代表スコアＲ_ｊ＾は閾値Ｙと比較される。閾値Ｙは、０．５より大きな例えば０．６といった値である。代表スコアＲ_ｊ＾が閾値Ｙよりも大きいと（ステップＳ１４２のＹ）、そのフレームはオペレータが回答している状態：Ｏ_Ａに分類される（ステップＳ１４３）。

代表スコアＲ_ｊ＾が閾値Ｙよりも小さいと（ステップＳ１４２のＮ）、そのフレームはオペレータが顧客情報を聞き出している状態：Ｏ_Ｈに分類される。このフレームを分類する動作は、それぞれのフレームをメモリ回路に記憶させる方法でも良いし、各フレームに各状態Ｕ_Ｒ，Ｏ_Ａ，Ｏ_Ｈのラベルを付す動作でも良い。

以上のように対話状態分割部１４が動作することで、各フレームを発話区間の単位で３つの対話状態に分割することができる。図１３にその分割した一例を示す。その横軸は経過時間順に配列された発話区間Ｕ_ｉ、縦軸は各フレームの代表スコアＲ_ｊ＾である。

発話区間Ｕ_５までが状態Ｕ_Ｒ、発話区間Ｕ_６〜Ｕ_１１までが状態Ｏ_Ｈ、発話区間Ｕ_１２以降が状態Ｏ_Ａに分割されている。このように、各フレームの代表スコアが発話区間の単位で決定されているので、発話区間を単位として対話状態の分割が行える。状態Ｕ_Ｒから状態Ｏ_Ｈに変化する発話区間Ｕ_５は、１フレームが３個の発話区間から成るとすると、図１３の原点から２個目のフレームの真中の発話区間に当たる。このフレーム内のどの発話区間を代表スコアとするかは上記したように任意である。

以上説明したように対話状態分割装置１００によれば、二者の会話する音声データをテキスト情報に変換すること無く、その対話状態の分割を可能にする。

〔変形例１〕
対話状態分割装置１００は、発話区間検出部１０で検出した発話区間を、フレーム抽出部１１が経過時間順に所定数並べて１フレームとする。発話区間としては、「はい」や「えー」等の相槌も含まれる。

図１４に相槌の発話区間から成るフレームの例を示す。図１４の横方向は経過時間を表す。顧客の「先日引越しをしたので、住所変更の手続きを行ったんですね。」で始まり、オペレータが相槌を返す会話部分を表している。その発話を経過時間順に並べるとオペレータの相槌であるＯＰＥ１とＯＰＥ２とＯＰＥ３の発話区間が１フレームとみなされ、オペレータが長く話しているように判定されてしまうことが考えられる。このようなフレームが生成されると誤判定の原因になるので相槌の発話区間を削除するようにしても良い。

図６に相槌を削除するようにしたフレーム抽出部１１′の機能構成例を破線で示す。フレーム抽出部１１′のフレーム生成手段１１２′は、相槌発話区間削除手段１１２０を備える。

相槌発話区間削除手段１１２０は、例えば短い発話区間を相槌として削除する。例えば１秒未満の発話区間は相槌とみなしても良い。また、一方が発話中に他方が発話を開始して短時間で終了したような発話区間は相槌とみなしても良い。また、「はい」や「えー」を音声認識してその発話区間を削除するようにしても良い。

以上述べたように、この発明の対話状態分割装置１００によれば、テキスト情報を用い
ることなく対話状態を少なくとも、「顧客が用件を述べている状態」、「オペレータが顧
客から情報を聞きだしている状態」、「オペレータが回答している状態」の３つの状態に
分割することができる。会話者の発話時間比を用いて対話状態を分割するので、会話情報
をテキスト情報に変換するコストがかからない。また、テキスト書き起こしに音声認識を
用いた場合の認識結果誤りの影響を受けない等の効果を奏する。

この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、対話状態分割部１４は、代表スコアを２個の閾値と比較することで３つの対話状態に分割する例で説明を行ったが、代表スコアと比較する閾値をＮ個として、分割する状態数をＮ＋１個の状態に分割するようにしても良い。

なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する発話区間検出部と、
上記それぞれの発話区間を経過時間順に並べて所定数の発話区間を１フレームとして出力するフレーム抽出部と、
上記１フレーム内のそれぞれの発話区間の時間比を上記１フレーム毎に計算するフレーム内発話時間比計算部と、
上記発話区間の時間比から上記１フレーム内の代表スコアを上記発話区間の単位で決定するフレーム代表スコア計算部と、
上記代表スコアを少なくとも２個の閾値と比較することで、各フレームを少なくとも３つの対話状態にそれぞれ分類する対話状態分割部と、
を具備する対話状態分割装置。
請求項１に記載の対話状態分割装置において、
上記発話区間検出部は、
上記二者が会話する音声データのそれぞれの音声パワーを計算するパワー計算手段と、
上記音声パワーを所定の閾値と比較し、その閾値以上の音声パワーが続いた区間を発話区間として出力する音声区間検出手段と、
を備えることを特徴とする対話状態分割装置。
請求項１又は２に記載した対話状態分割装置において、
上記フレーム抽出部は、
上記発話区間を入力として、その発話区間を経過時間順に配列する発話時間順配列手段と、
上記経過時間順に配列された発話区間を予め定めた数毎にまとめて１フレームとして出力するフレーム生成手段と、
を備えることを特徴とする対話状態分割装置。
請求項３に記載した対話状態分割装置において、
上記フレーム生成手段は、
所定時間幅に満たない上記発話単位を削除する相槌発話単位削除手段を更に備えること、
を特徴とする対話状態分割装置。
請求項１乃至４の何れかに記載した対話状態分割装置において、
上記フレーム内発話時間比計算部は、
上記１フレーム内の発話区間を二者の発話者毎に集計する発話者発話時間集計手段と、
上記集計した一方の発話者の発話時間を上記１フレーム全体の時間長で除した発話時間比を計算する発話時間比計算手段と、
を備えることを特徴とする対話状態分割装置。
請求項１乃至５の何れかに記載した対話状態分割装置において、
上記フレーム代表スコア計算部は、複数のフレームの発話区間の時間比の平均値を、上記代表スコアとして出力するものであること、
を特徴とする対話状態分割装置。
請求項１乃至６の何れかに記載した対話状態分割装置において、
上記対話状態分割部の上記２個の閾値の一方は０．５より小であり、他方の閾値は０．５より大であること、
を特徴とする対話状態分割装置。
発話区間検出部が、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する発話区間検出過程と、
フレーム抽出部が、上記それぞれの発話区間を経過時間順に並べて所定数の発話区間を１フレームとして出力するフレーム抽出過程と、
フレーム内発話時間比計算部が、上記フレーム毎の上記それぞれの発話区間の時間比を計算するフレーム内発話時間比計算過程と、
フレーム代表スコア計算部が、上記発話区間の時間比から上記１フレーム内の代表スコアを上記発話区間の単位で決定するフレーム代表スコア計算過程と、
対話状態分類部が、上記代表スコアを少なくとも２個の閾値と比較することで、各フレームを少なくとも３つの対話状態にそれぞれ分類する対話状態分類過程と、
を含む対話状態分割方法。
請求項１乃至７の何れかに記載した対話状態分割装置としてコンピュータを機能させるための装置プログラム。
請求項９に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。