JP2010266522A - 対話状態分割装置とその方法、そのプログラムと記録媒体 - Google Patents

対話状態分割装置とその方法、そのプログラムと記録媒体 Download PDF

Info

Publication number
JP2010266522A
JP2010266522A JP2009115499A JP2009115499A JP2010266522A JP 2010266522 A JP2010266522 A JP 2010266522A JP 2009115499 A JP2009115499 A JP 2009115499A JP 2009115499 A JP2009115499 A JP 2009115499A JP 2010266522 A JP2010266522 A JP 2010266522A
Authority
JP
Japan
Prior art keywords
utterance
frame
unit
dialog state
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009115499A
Other languages
English (en)
Other versions
JP5385677B2 (ja
Inventor
Narihisa Nomoto
済央 野本
Satoshi Takahashi
敏 高橋
Osamu Yoshioka
理 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009115499A priority Critical patent/JP5385677B2/ja
Publication of JP2010266522A publication Critical patent/JP2010266522A/ja
Application granted granted Critical
Publication of JP5385677B2 publication Critical patent/JP5385677B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】二者が会話する音声データを複数の対話状態に分割する。
【解決手段】 この発明の対話状態分割装置は、発話区間検出部と、フレーム抽出部と、フレーム内発話時間比計算部と、対話状態分類部とを具備する。発話区間検出部は、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する。フレーム抽出部は、それぞれの発話区間を経過時間順に並べて所定数の発話区間を1フレームとして出力する。フレーム内発話時間比計算部は、フレーム毎のそれぞれの発話区間の時間比を計算する。フレーム代表スコア計算部は、発話区間の時間比から1フレーム内の代表スコアを発話区間の単位で決定する。対話状態分割部は、発話区間の時間比を少なくとも2個の閾値と比較することでフレームを少なくとも3つの対話状態にそれぞれ分割する。
【選択図】図2

Description

この発明は、二人の話者が対話する状況下の音声データを、対話の状態に応じて分類する装置とその方法と、そのプログラムと記録媒体に関する。
近年、大量に蓄積されたデータから知見を獲得するマイニング技術が注目されている。例えばWeb上にある不特定話者によって書かれたブログや商品に対する自由記述アンケートから商品に対する世間一般の評判やその傾向を調べる目的でテキストマイニングといった手法が用いられる。
テキストマイニング技術の一つとして、単語ランキングや話題分類などがある。例えば、商品に対する自由記述アンケートやブログ記事などのテキストで書かれた文書を複数集めて、それらの話題傾向を調べる際、その中でどのような話題がどの程度あるかを調べる目的で文書頻度(Document Frequency、以下DFと称する)による単語ランキングが用いられる。DFとはある単語を含む文書がいくつあるかを表した値である。
このようなマイニング技術は、CRM(Customer Relationship Management)の分野において注目されており、顧客との応対記録を分析し、顧客のニーズ開拓やCS(Customer Satisfactin)向上などを目指す試みがなされている。CRM分析データとしてコールセンタにおけるオペレータと顧客との電話応対を録音したもの(以下、応対音声)などがある。
そこで応対音声を音声認識や人手で書き起こした文書に対し、単語ランキングなどを用いて分析する場合、単純に応対音声の開始から終了までの全範囲を対象として分析を行っても意図どおりの通話内容を得ることは難しい。一言で応対音声と言っても、顧客が電話をかけて来た用件をオペレータに説明したり、顧客の本人確認をしたり、顧客の用件に対しオペレータが説明をしたりなど、一つの会話の中をいくつかの状態に分割することが出来る。そのため、会話をいくつかの状態に分割し、その分割された各状態について分析することで、データマイニングの精度の向上が期待出来る。つまり、顧客が用件を述べている状態なのか、又は、オペレータが顧客から情報を聞きだしている状態なのか、或いは、オペレータが回答している状態なのか、について対話状態を分割することでデータ分析の精度の向上が期待できる。
関連する従来技術としては、例えば非特許文献1に開示された単語の出現傾向からテキストを分割するテキストセグメンテーション技術が知られている。テキストセグメンテーション技術とは、新聞記事や小説などといった文書を意味のまとまり毎に分割して行く技術である。しかし、応対音声のような二者の間で交わされる会話の対応状態を分割・類別するような技術はこれまでに報告されていない。
Marti A. Hearst. Multi-Paragraph Segmentation of Expository Text. 32ndAnnual Meeting of the Association for Computational Linguistics. Pp.9-16. 1994
従来のテキストセグメンテーション技術を利用する場合、応対音声を一旦テキストに書き起こす必要がある。応対音声を人手によって書き起こすと大きなコストがかかる。また、応対音声を音声認識して自動でテキスト化すると、認識結果に含まれる誤認識の影響から分割精度が悪化する心配がある。
この発明は、このような点に鑑みてなされたものであり、テキストの書き起こしにかかるコストを削減し、誤認識による分割精度の低下を回避することが可能な対話状態分割装置とその方法と、そのプログラムと記録媒体を提供することを目的とする。
この発明の対話状態分割装置は、発話区間検出部と、フレーム抽出部と、フレーム内発話時間比計算部と、フレーム代表スコア計算部と、対話状態分類部とを具備する。発話区間検出部は、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する。フレーム抽出部は、それぞれの発話区間を経過時間順に並べて所定数の発話区間を1フレームとして出力する。フレーム内発話時間比計算部は、フレーム毎のそれぞれの発話区間の時間比を計算する。フレーム代表スコア計算部は、発話区間の時間比から1フレーム内の代表スコアを、発話区間の単位で決定する。対話状態分類部は、発話区間の時間比を少なくとも2個の閾値と比較することで各フレームを、少なくとも3つの対話状態にそれぞれ分類する。
この発明の対話状態分割装置によれば、テキスト情報を用いることなく対話状態を少なくとも、「顧客が用件を述べている状態」、「オペレータが顧客から情報を聞きだしている状態」、「オペレータが回答している状態」の3つの状態に分割することができる。会話者の発話時間比を用いて対話状態を分割するので、会話情報をテキスト情報に変換するコストがかからない。また、テキストの書き起こしに音声認識を用いた場合の認識結果誤りの影響を受けない。
コールセンターにおける顧客対応状態の会話の一例を示す図。 この発明の対話状態分割装置100の機能構成例を示す図。 対話状態分割装置100の動作フローを示す図。 発話区間検出部10の機能構成例を示す図。 発話分離部20の機能構成例を示す図。 フレーム抽出部11,11′の機能構成例を示す図。 二者の発話区間を発話時間順に配列した一例を示す図。 フレーム内発話時間比計算部12の機能構成例を示す図。 フレーム代表スコア計算部13の出力信号の一例を概念的に示す図。 フレーム代表スコア計算部13′の動作フローを示す図。 フレーム代表スコア計算部13′の出力信号の一例を概念的に示す図。 対話状態分割部14の動作フローを示す図。 対話状態分割部14が動作した結果の一例を示す図。 相槌の発話区間から成るフレームの例を示す図。
この発明の実施例の説明をする前に、この発明の考えについて説明する。
〔この発明の考え〕
この発明の対話状態分割方法は、二者の話者のどちらが会話の主導権を握っているか、に着目して対話状態を分割する考えである。図1に、例えばコールセンターにおける顧客とオペレータの対話状態の一例を示す。図1の横方向は経過時間であり、その経過時間を表す中心線の上側にオペレータの発話区間、下側に顧客の発話区間を示す。
コールセンター等における顧客とオペレータの会話の流れは、顧客が用件を述べている状態:U(以下、状態Uと称する)、オペレータが顧客情報を聞き出している状態:O(以下、状態Oと称する)、オペレータが回答している状態:O(以下、状態Oと称する)、の順番に推移するのが一般的である。この一連の会話の流れは、どちらの話者がどれだけ話をしているか、について着目することで分割することができる。
この発明の対話状態分割方法は、それぞれの話者の発話時間の比を求め、その比によって、顧客がオペレータより長く発話している区間を状態U、オペレータと顧客が同程度の時間発話している区間を状態O、オペレータが顧客より長く発話している区間を状態O、の3つの状態に分割するものである。この方法によれば、会話情報をテキスト情報に変換する必要がない。したがって、テキスト情報に変換するコストが不要であり、テキスト情報に変換する際の変換誤差の影響も受けずに対話状態を分割することが可能である。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図2にこの発明の対話状態分割装置100の機能構成例を示す。その動作フローを図3に示す。対話状態分割装置100は、発話区間検出部10と、フレーム抽出部11と、フレーム内発話時間比計算部12と、フレーム代表スコア計算部13と、対話状態分割部14と、制御部15とを具備する。対話状態分割装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
発話区間検出部10は、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する(ステップS10)。フレーム抽出部11は、発話区間検出部10が出力する一方の話者の発話区間と他方の話者の発話区間を入力として、それぞれの発話区間を経過時間順に並べて所定数の発話区間をまとめて1フレームとして出力する(ステップS11)。
フレーム内発話時間比計算部12は、フレーム内のそれぞれの発話区間の時間比をフレーム毎に計算する(ステップS12)。フレーム代表スコア計算部13は、その発話区間の時間比から1フレーム内の代表スコアR^(^の表記は図中の表記が正しい)を発話区間の単位で決定する(ステップS13)。対話状態分割部14は、その代表スコアR^を2個の閾値と比較することで、各フレームを3つの対話状態にそれぞれ分類する(ステップS14)。制御部15は、全てのフレームの分類が終わるまでステップS10〜S14の処理を繰り返すように、各部の動作を制御する(ステップS15)。
この対話状態分割装置100によれば、二者の発話区間を経過時間順に所定の数並べて1フレームとし、各フレーム毎に二者の発話区間の時間比を求める。そして、各フレームの発話区間の時間比から各フレームの代表スコアR^を発話区間を単位として決定する。その代表スコアR^の値を2個の閾値と比較することで、二者が会話する音声データを状態Uと状態Oと状態Oの3つの対話状態に分割することができる。
従来技術のようにテキスト情報を用いる必要が無いのでコストを安く、また、音声データをテキスト情報に変換する際に発生する変換誤差の影響を受けること無く対話状態を分割・類別することを可能にする。
以下、対話状態分割装置100の各部の機能構成例を示してその動作を更に詳しく説明する。
〔発話区間検出部〕
図4に発話区間検出部10の機能構成例を示す。図4に示す例は、二者が会話する音声データが、それぞれ分離された2チャネルの(ステレオ信号)信号で与えられる場合の例である。
発話区間検出部10は、パワー計算手段101aと101b、音声区間検出手段102aと102bとを備える。パワー計算手段101aと101bは、一方の話者の発話音声データと、他方の話者の発話音声データとをそれぞれ入力としてそれぞれの音声パワーを計算する。音声区間検出手段102aと102bは、それぞれの発話の音声パワーを入力として、音声パワーと所定の閾値とを比較し音声パワーが一定時間以上続く区間をそれぞれの発話区間として出力する。発話区間検出部10は、従来から知られているいわゆる音声スイッチと呼ばれるものと同じ構成で実現できる。
二者の会話する音声データが1つのチャネルで与えられる場合、二者の発話を分離する必要がある。図5に二者の発話を分離するための発話分離部20の機能構成例を示す。発話分離部20は、音声データを音声認識して話者を分類するものである。
発話分離部20は、AD変換手段21と、特徴量抽出手段22と、話者分類手段23と、モデルパラメータ記録部24と、DA変換手段25,26とを備える。AD変換手段21は、二者が会話する1チャネルのアナログ信号である音声データをディジタル信号に変換する。特徴量抽出部22は、ディジタル信号に変換された音声データを例えば短時間フーリエ変換等で周波数領域の信号に変換して音声データの特徴量を抽出する。
話者分類部23は、その特徴量をモデルパラメータ記録部24に記録されている音響モデルと言語モデルと比較することで話者を認識してその発話を分離する。分離された音声データは、DA変換手段25,26で話者毎にアナログ信号に変換される。
話者毎の音声データがアナログ信号に変換された後の動作は、上記した発話区間検出部10(図4)の動作と同じである。なお、発話分離部20を、二者の会話を音声認識する例で説明したが、話者の声の音響的な特徴を音響モデルのみを用いて分類するようにしても良い。また、話者の声の周波数に一定の差があれば、簡単な周波数フィルタで話者を分類することも可能である。
〔フレーム抽出部〕
図6にフレーム抽出部11の機能構成例を示す。フレーム抽出部11は、発話時間順配列手段111と、フレーム生成手段112とを備える。発話時間順配列手段111は、二者のそれぞれの発話区間を発話開始時間順に配列する。
図7に二者の発話区間を発話時間順に配列した一例を示す。図7に楕円で囲ったOPE1は、オペレータの1番目の発話区間を意味する。同じくUSR1は、顧客の1番目の発話区間を意味する。図7に示すオペレータの「本日はどのようなご用件でしょうか?」で始まる会話の発話区間は、発話区間検出部10と発話時間順配列手段111の動作によって、経過時間順に並べられる。
フレーム生成手段112は、経過時間順に並べられた発話区間を予め定めた発話の数k、例えばk=3ずつまとめて1フレームF(1≦j≦N−k+1)として出力する。ここでNは、会話におけるオペレータの発話数と顧客の発話数の合計である。フレーム生成手段112は、そのNを一定間隔毎、例えば1発話毎スライドして通話全体に対してフレームを生成する。図7に示す例では、2個の発話区間を共有してフレームが形成される。このようにフレームを重ねることで発話区間に時間比の値が安定する効果が期待できる。なお、全く発話区間が重ならないようにしてフレームを構成しても構わない。
〔フレーム内発話時間比計算部〕
図8にフレーム内発話時間比計算部12の機能構成例を示す。フレーム内発話時間比計算部12は、発話者発話時間集計手段121と、発話時間比計算手段122とを備える。発話者発話時間集計手段121は、発話者毎に発話時間を集計する。図7に示したフレームFの例では、オペレータの発話時間OPE1+OPE2を計算して、顧客の発話時間USR1と切り分ける動作を行う。
発話時間比計算手段122は、フレームF毎にフレーム中に含まれるオペレータと顧客の発話時間比であるフレーム内発話時間比Rを式(1)で計算する。
図7に示したフレームFの例では、R=(OPE1+OPE2)/(OPE1+US
R1+OPE2)である。
フレーム内発話時間比Rが1に近い値であれば、そのフレーム内ではオペレータが顧
客に対して長く話をしていることを意味する。0に近い値であれば顧客がオペレータに対
して長く話をしていることを意味する。0.5に近い値であればオペレータと顧客がほぼ
同じ時間話をしていることを意味する。
〔フレーム代表スコア計算部〕
フレーム代表スコア計算部13は、1フレーム内の代表スコアを発話区間の単位で決定
する。図9にフレーム代表スコア計算部13の出力信号の一例を概念的に示す。図9の横
方向には発話区間Uが経過時間順に並べられ、縦方向はフレームFが経過時間順に並べられている。図9は1フレームが3個の発話区間から成る例である。
そして図9では、1フレームの代表スコアをフレームの真中の発話区間の値として決定している。フレーム内のどの発話区間を代表スコアとするかは任意である。フレーム代表スコア計算部13は、フレームの先頭の発話区間、若しくは最後の発話区間を代表スコアとして決定しても良い。
また、代表スコアの変動を抑制する目的で複数フレームの発話区間の時間比の平均値を求め、その平均値を代表スコアとしても良い。 図10に複数フレームの発話区間の時間比の平均値を代表スコアとするフレーム代表スコア計算部13′の動作フローを示す。
フレーム代表スコア計算部13′は、例えば3個の発話区間の時間比を、経過時間順に記憶する記憶手段を備える。この記憶手段は、最も古い発話区間の時間比を、新しい発話区間の時間比が入力される度に消去する。よって、常時最新の3個の発話区間の時間比を記憶する。この記憶手段は一般的なメモリ回路で構成できる物なので機能構成例を図示した説明は省略する。
ステップS130でその記憶手段に3フレーム分の時間比が記憶されたか否かを判断する。まだ、3フレーム分の時間比が記憶されていない間(ステップS130のN)は、そのフレーム毎の時間比を代表スコアとして決定する(ステップS131)。
3フレーム分の時間比が記憶手段に記憶されると(ステップS130のY)、その3個の時間比の平均値を計算する(ステップS132)。その平均値を真中のフレームの代表スコアとして決定する(ステップS133)。ステップS130〜S133までの動作を全てのフレームについて行う(ステップS150のN)。
以上の動作の結果、図9に示した各フレームの代表スコアは、図11に示すように変化する。フレームFj+1が0.2から0.3に、フレームFj+2が0.4から0.3に、フレームFj+3が0.3から0.4に、それぞれ変化する。フレームFj+4の値は、図の表記の関係から移動平均前の値である。このように複数のフレームの発話区間の時間比を移動平均して代表スコアとしても良い。代表スコアを平均値とすることで、代表スコアの局所的な変動を抑制できる。
〔対話状態分割部〕
図12に対話状態分割部14の動作フローを示す。対話状態分割部14は、フレーム代表スコア計算部13が出力する代表スコアを、少なくとも2個の閾値X,Yと比較することで、各フレームを少なくとも3つの対話状態に分類する。
対話状態分割部14は、フレーム代表スコア計算部13が出力するフレーム毎の代表スコアR^を、まず閾値Xと比較する。閾値Xは0.5より小さな例えば0.4と、予め定められた値である。代表スコアR^が0.4未満であると(ステップS140のY)、そのフレームは顧客が用件を述べている状態:Uに分類される(ステップS141)。
代表スコアR^が閾値Xよりも大であると、次に代表スコアR^は閾値Yと比較される。閾値Yは、0.5より大きな例えば0.6といった値である。代表スコアR^が閾値Yよりも大きいと(ステップS142のY)、そのフレームはオペレータが回答している状態:Oに分類される(ステップS143)。
代表スコアR^が閾値Yよりも小さいと(ステップS142のN)、そのフレームはオペレータが顧客情報を聞き出している状態:Oに分類される。このフレームを分類する動作は、それぞれのフレームをメモリ回路に記憶させる方法でも良いし、各フレームに各状態U,O,Oのラベルを付す動作でも良い。
以上のように対話状態分割部14が動作することで、各フレームを発話区間の単位で3つの対話状態に分割することができる。図13にその分割した一例を示す。その横軸は経過時間順に配列された発話区間U、縦軸は各フレームの代表スコアR^である。
発話区間Uまでが状態U、発話区間U〜U11までが状態O、発話区間U12以降が状態Oに分割されている。このように、各フレームの代表スコアが発話区間の単位で決定されているので、発話区間を単位として対話状態の分割が行える。状態Uから状態Oに変化する発話区間Uは、1フレームが3個の発話区間から成るとすると、図13の原点から2個目のフレームの真中の発話区間に当たる。このフレーム内のどの発話区間を代表スコアとするかは上記したように任意である。
以上説明したように対話状態分割装置100によれば、二者の会話する音声データをテキスト情報に変換すること無く、その対話状態の分割を可能にする。
〔変形例1〕
対話状態分割装置100は、発話区間検出部10で検出した発話区間を、フレーム抽出部11が経過時間順に所定数並べて1フレームとする。発話区間としては、「はい」や「えー」等の相槌も含まれる。
図14に相槌の発話区間から成るフレームの例を示す。図14の横方向は経過時間を表す。顧客の「先日引越しをしたので、住所変更の手続きを行ったんですね。」で始まり、オペレータが相槌を返す会話部分を表している。その発話を経過時間順に並べるとオペレータの相槌であるOPE1とOPE2とOPE3の発話区間が1フレームとみなされ、オペレータが長く話しているように判定されてしまうことが考えられる。このようなフレームが生成されると誤判定の原因になるので相槌の発話区間を削除するようにしても良い。
図6に相槌を削除するようにしたフレーム抽出部11′の機能構成例を破線で示す。フレーム抽出部11′のフレーム生成手段112′は、相槌発話区間削除手段1120を備える。
相槌発話区間削除手段1120は、例えば短い発話区間を相槌として削除する。例えば1秒未満の発話区間は相槌とみなしても良い。また、一方が発話中に他方が発話を開始して短時間で終了したような発話区間は相槌とみなしても良い。また、「はい」や「えー」を音声認識してその発話区間を削除するようにしても良い。
以上述べたように、この発明の対話状態分割装置100によれば、テキスト情報を用い
ることなく対話状態を少なくとも、「顧客が用件を述べている状態」、「オペレータが顧
客から情報を聞きだしている状態」、「オペレータが回答している状態」の3つの状態に
分割することができる。会話者の発話時間比を用いて対話状態を分割するので、会話情報
をテキスト情報に変換するコストがかからない。また、テキスト書き起こしに音声認識を
用いた場合の認識結果誤りの影響を受けない等の効果を奏する。
この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、対話状態分割部14は、代表スコアを2個の閾値と比較することで3つの対話状態に分割する例で説明を行ったが、代表スコアと比較する閾値をN個として、分割する状態数をN+1個の状態に分割するようにしても良い。
なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (10)

  1. 二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する発話区間検出部と、
    上記それぞれの発話区間を経過時間順に並べて所定数の発話区間を1フレームとして出力するフレーム抽出部と、
    上記1フレーム内のそれぞれの発話区間の時間比を上記1フレーム毎に計算するフレーム内発話時間比計算部と、
    上記発話区間の時間比から上記1フレーム内の代表スコアを上記発話区間の単位で決定するフレーム代表スコア計算部と、
    上記代表スコアを少なくとも2個の閾値と比較することで、各フレームを少なくとも3つの対話状態にそれぞれ分類する対話状態分割部と、
    を具備する対話状態分割装置。
  2. 請求項1に記載の対話状態分割装置において、
    上記発話区間検出部は、
    上記二者が会話する音声データのそれぞれの音声パワーを計算するパワー計算手段と、
    上記音声パワーを所定の閾値と比較し、その閾値以上の音声パワーが続いた区間を発話区間として出力する音声区間検出手段と、
    を備えることを特徴とする対話状態分割装置。
  3. 請求項1又は2に記載した対話状態分割装置において、
    上記フレーム抽出部は、
    上記発話区間を入力として、その発話区間を経過時間順に配列する発話時間順配列手段と、
    上記経過時間順に配列された発話区間を予め定めた数毎にまとめて1フレームとして出力するフレーム生成手段と、
    を備えることを特徴とする対話状態分割装置。
  4. 請求項3に記載した対話状態分割装置において、
    上記フレーム生成手段は、
    所定時間幅に満たない上記発話単位を削除する相槌発話単位削除手段を更に備えること、
    を特徴とする対話状態分割装置。
  5. 請求項1乃至4の何れかに記載した対話状態分割装置において、
    上記フレーム内発話時間比計算部は、
    上記1フレーム内の発話区間を二者の発話者毎に集計する発話者発話時間集計手段と、
    上記集計した一方の発話者の発話時間を上記1フレーム全体の時間長で除した発話時間比を計算する発話時間比計算手段と、
    を備えることを特徴とする対話状態分割装置。
  6. 請求項1乃至5の何れかに記載した対話状態分割装置において、
    上記フレーム代表スコア計算部は、複数のフレームの発話区間の時間比の平均値を、上記代表スコアとして出力するものであること、
    を特徴とする対話状態分割装置。
  7. 請求項1乃至6の何れかに記載した対話状態分割装置において、
    上記対話状態分割部の上記2個の閾値の一方は0.5より小であり、他方の閾値は0.5より大であること、
    を特徴とする対話状態分割装置。
  8. 発話区間検出部が、二者が会話する音声データを入力として、その二者のそれぞれの発話区間を検出する発話区間検出過程と、
    フレーム抽出部が、上記それぞれの発話区間を経過時間順に並べて所定数の発話区間を1フレームとして出力するフレーム抽出過程と、
    フレーム内発話時間比計算部が、上記フレーム毎の上記それぞれの発話区間の時間比を計算するフレーム内発話時間比計算過程と、
    フレーム代表スコア計算部が、上記発話区間の時間比から上記1フレーム内の代表スコアを上記発話区間の単位で決定するフレーム代表スコア計算過程と、
    対話状態分類部が、上記代表スコアを少なくとも2個の閾値と比較することで、各フレームを少なくとも3つの対話状態にそれぞれ分類する対話状態分類過程と、
    を含む対話状態分割方法。
  9. 請求項1乃至7の何れかに記載した対話状態分割装置としてコンピュータを機能させるための装置プログラム。
  10. 請求項9に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2009115499A 2009-05-12 2009-05-12 対話状態分割装置とその方法、そのプログラムと記録媒体 Expired - Fee Related JP5385677B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009115499A JP5385677B2 (ja) 2009-05-12 2009-05-12 対話状態分割装置とその方法、そのプログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009115499A JP5385677B2 (ja) 2009-05-12 2009-05-12 対話状態分割装置とその方法、そのプログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2010266522A true JP2010266522A (ja) 2010-11-25
JP5385677B2 JP5385677B2 (ja) 2014-01-08

Family

ID=43363568

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009115499A Expired - Fee Related JP5385677B2 (ja) 2009-05-12 2009-05-12 対話状態分割装置とその方法、そのプログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP5385677B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
WO2015019662A1 (ja) * 2013-08-07 2015-02-12 日本電気株式会社 分析対象決定装置及び分析対象決定方法
US9031841B2 (en) 2011-12-28 2015-05-12 Fujitsu Limited Speech recognition apparatus, speech recognition method, and speech recognition program
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
US9536526B2 (en) 2014-09-22 2017-01-03 Kabushiki Kaisha Toshiba Electronic device with speaker identification, method and storage medium
EP3147903A2 (en) 2015-09-24 2017-03-29 Fujitsu Limited Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium
WO2019130816A1 (ja) * 2017-12-25 2019-07-04 京セラドキュメントソリューションズ株式会社 情報処理装置及び評価方法
WO2019139101A1 (ja) * 2018-01-12 2019-07-18 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005252595A (ja) * 2004-03-03 2005-09-15 Hisatoku Ito 会話支援システム
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP2007033754A (ja) * 2005-07-26 2007-02-08 Nec Corp 音声監視システムと方法並びにプログラム
JP2007184699A (ja) * 2006-01-05 2007-07-19 Fujitsu Ltd 音声データの聞き出し部分特定処理プログラムおよび処理装置
WO2009107211A1 (ja) * 2008-02-28 2009-09-03 富士通株式会社 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
JP2009216840A (ja) * 2008-03-07 2009-09-24 Internatl Business Mach Corp <Ibm> 2者間の対話の音声データを処理するシステム、方法およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005252595A (ja) * 2004-03-03 2005-09-15 Hisatoku Ito 会話支援システム
JP2006267465A (ja) * 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
JP2007033754A (ja) * 2005-07-26 2007-02-08 Nec Corp 音声監視システムと方法並びにプログラム
JP2007184699A (ja) * 2006-01-05 2007-07-19 Fujitsu Ltd 音声データの聞き出し部分特定処理プログラムおよび処理装置
WO2009107211A1 (ja) * 2008-02-28 2009-09-03 富士通株式会社 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
JP2009216840A (ja) * 2008-03-07 2009-09-24 Internatl Business Mach Corp <Ibm> 2者間の対話の音声データを処理するシステム、方法およびプログラム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9031841B2 (en) 2011-12-28 2015-05-12 Fujitsu Limited Speech recognition apparatus, speech recognition method, and speech recognition program
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JPWO2015019662A1 (ja) * 2013-08-07 2017-03-02 日本電気株式会社 分析対象決定装置及び分析対象決定方法
WO2015019662A1 (ja) * 2013-08-07 2015-02-12 日本電気株式会社 分析対象決定装置及び分析対象決定方法
US9875236B2 (en) 2013-08-07 2018-01-23 Nec Corporation Analysis object determination device and analysis object determination method
JP2015219480A (ja) * 2014-05-21 2015-12-07 日本電信電話株式会社 対話状況特徴計算装置、文末記号推定装置、これらの方法及びプログラム
US9536526B2 (en) 2014-09-22 2017-01-03 Kabushiki Kaisha Toshiba Electronic device with speaker identification, method and storage medium
EP3147903A2 (en) 2015-09-24 2017-03-29 Fujitsu Limited Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium
US9916843B2 (en) 2015-09-24 2018-03-13 Fujitsu Limited Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium to determine whether voice signals are in a conversation state
WO2019130816A1 (ja) * 2017-12-25 2019-07-04 京セラドキュメントソリューションズ株式会社 情報処理装置及び評価方法
WO2019139101A1 (ja) * 2018-01-12 2019-07-18 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
CN111542876A (zh) * 2018-01-12 2020-08-14 索尼公司 信息处理装置、信息处理方法以及程序
JPWO2019139101A1 (ja) * 2018-01-12 2021-01-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP7276158B2 (ja) 2018-01-12 2023-05-18 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
US11837233B2 (en) 2018-01-12 2023-12-05 Sony Corporation Information processing device to automatically detect a conversation

Also Published As

Publication number Publication date
JP5385677B2 (ja) 2014-01-08

Similar Documents

Publication Publication Date Title
JP5385677B2 (ja) 対話状態分割装置とその方法、そのプログラムと記録媒体
US8676586B2 (en) Method and apparatus for interaction or discourse analytics
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US8412530B2 (en) Method and apparatus for detection of sentiment in automated transcriptions
US20180218738A1 (en) Word-level blind diarization of recorded calls with arbitrary number of speakers
US8306814B2 (en) Method for speaker source classification
US7716048B2 (en) Method and apparatus for segmentation of audio interactions
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
US8165874B2 (en) System, method, and program product for processing speech ratio difference data variations in a conversation between two persons
WO2014069076A1 (ja) 会話分析装置及び会話分析方法
JP4972107B2 (ja) 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
US20210306457A1 (en) Method and apparatus for behavioral analysis of a conversation
US11270691B2 (en) Voice interaction system, its processing method, and program therefor
JP6213476B2 (ja) 不満会話判定装置及び不満会話判定方法
JP6208794B2 (ja) 会話分析装置、方法及びコンピュータプログラム
JP6365304B2 (ja) 会話分析装置及び会話分析方法
US9875236B2 (en) Analysis object determination device and analysis object determination method
US11398239B1 (en) ASR-enhanced speech compression
WO2014069443A1 (ja) 不満通話判定装置及び不満通話判定方法
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
WO2014069444A1 (ja) 不満会話判定装置及び不満会話判定方法
Zhang et al. An advanced entropy-based feature with a frame-level vocal effort likelihood space modeling for distant whisper-island detection
Zhang et al. Frame-level vocal effort likelihood space modeling for improved whisper-island detection

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110720

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130826

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131004

R150 Certificate of patent or registration of utility model

Ref document number: 5385677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees