JP5088741B2

JP5088741B2 - ２者間の対話の音声データを処理するシステム、方法およびプログラム

Info

Publication number: JP5088741B2
Application number: JP2008058745A
Authority: JP
Inventors: 岳人倉田; 雅史西村
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2008-03-07
Filing date: 2008-03-07
Publication date: 2012-12-05
Anticipated expiration: 2028-03-07
Also published as: US8165874B2; JP2009216840A; US20090228268A1

Description

本発明は、２者間の対話の音声データを処理するシステム、方法およびプログラムに関する。本発明は、例えばコールセンター等におけるエージェントと顧客との対話を分類するシステム、方法およびプログラムに関する。

コールセンターにおいては、コールセンターエージェント（以下、単にエージェントと呼ぶ。）と顧客との間で、電話による複数の対話が発生する。コールセンターの管理者は、これら複数の対話のうちから、例えば顧客が怒ってしまった対話、エージェントが不適切な発言をしてしまった対話等の、特徴のある会話を含む対話を抽出して顧客サービスの向上を図る。

コールセンターの管理者は、一例として、エージェントと顧客との間の対話における音声を録音し、録音した音声を聞くことにより、特徴のある会話を含む対話を抽出することができる。また、コールセンターの管理者は、一例として、音声認識装置を用いて対話における音声をテキストに変換し、変換したテキストを読むことによっても、特徴のある会話を含む対話を抽出することができる。

しかし、コールセンターにおいては膨大な量の対話が発生する。従って、コールセンターの管理者は、録音された多数の対話の音声を全て聞くことは難しい。また、音声認識装置は、電話の音声に対して、それほど精度良く動作しない。従って、コールセンターの管理者は、音声認識装置に全ての対話の音声を正確にテキストに変換させることは難しい。

以上のように、録音された音声を聞く方法および音声認識させたテキストを読む方法により、全ての対話を確認することは非常に困難である。このことから、コールセンターにおいては、特徴のある会話を含む可能性の高い対話を、全ての対話の中から簡易に抽出できていない。

コールセンターのエージェントと顧客との間の対話を、音声認識を用いずに解析等する方法として、例えば特許文献１〜３に記載の技術が知られている。特許文献１には、オペレータおよび顧客のうち一方の発声区間の長さと他方の無音区間の長さとの比が、予め定められた値よりも大きい場合に、フラグをセットする技術が記載されている（段落００５８）。この技術によれば、オペレータと顧客との発声期間の比に顕著な差がある場合に、警告を発することができる。

特許文献２には、音圧レベルが基準値以下となっている状態が所定時間以上継続した状態を検出して、発話の適正さを定量評価する技術が記載されている。特許文献３には、無音の割合、保留回数から顧客の心理状態を推定する技術が記載されている。しかしながら、以上のような特許文献１〜３に記載された技術によっても、コールセンターのエージェントと顧客との間の対話の全体を観察して、特徴のある会話を含む可能性の高い対話を抽出することはできない。

特開２００７−３３７５４号公報特開２００６−２６７４６５号公報特開２００２−５１１５３号公報 Etienne Marcheret et al.， "The IBM RT06s Evaluation System for Speech Activity Detection in CHIL Seminars" ， In Proc. MLMI， Springer Berlin/Heidelbelg， 2006

そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。

上記課題を解決するために、本発明の第１の形態においては、２者間の対話の音声データを処理するシステムであって、２者間の対話における音声データから第１話者の発話割合の推移を算出する第１推移算出部と、２者間の対話における音声データから第２話者の発話割合の推移を算出する第２推移算出部と、第１話者の発話割合と第２話者の発話割合との差分の推移を表す差分データ列を算出する差分算出部と、差分データ列を平滑化した平滑差分データ列を生成する平滑化部と、平滑差分データ列を用いて表わされた、第１話者および第２話者の発話割合の推移を提示する提示部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させる方法およびプログラムを提供する。なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、本実施形態に係るコールセンターシステム１０の構成を電話回線１００とともに示す。コールセンターシステム１０は、顧客に対する電話による商品等の販売、顧客からの商品等に対する質問の対応等の、顧客との間で電話対応する部署（コールセンター）において用いられる。コールセンターシステム１０は、コールセンターに配属された電話対応者（エージェント）により用いられる電話機を、顧客により用いられる電話機に電話回線１００を介して接続して、エージェントと顧客とを通話させる（エージェントと顧客とを電話により対話させる）。

コールセンターシステム１０は、複数の端末１２（１２−１〜１２−Ｎ）と、中継装置１４と、対話音声データ処理システム２０とを備える。複数の端末１２のそれぞれは、エージェントにより用いられる。複数の端末１２のそれぞれは、電話機と、データ入出力用のコンピュータ装置とを有する。

中継装置１４は、端末１２と電話回線１００と接続する。中継装置１４は、一例として、一のエージェントが一の顧客に電話をかけた場合には（アウトバウンドコールの場合には）、当該一のエージェントの端末１２を電話回線１００に接続して、当該一のエージェントと当該一の顧客とを通話させる。また、中継装置１４は、一例として、一の顧客が当該コールセンターに電話をかけた場合には（インバウンドコールの場合には）、一の顧客からの着信を複数の端末１２のうちいずれか一つに転送して、当該一の顧客といずれかのエージェントとを通話させる。

対話音声データ処理システム２０は、２者間（第１話者と第２話者との間）の対話の音声データを処理する。本実施形態においては、対話音声データ処理システム２０は、２者間の対話の音声データを処理して、話者の発話割合を提示する。より具体的には、本実施形態において、対話音声データ処理システム２０は、当該コールセンターシステム１０において行なわれる通話における話者の発話割合を提示するばかりでなく分類も行う。すなわち、対話音声データ処理システム２０は、エージェント（第１話者）と顧客（第２話者）との間での電話による対話を、話者の発話割合に基づいて分類も行う。

対話音声データ処理システム２０は、一例として、当該コールセンターシステム１０において行なわれた複数の通話を、特徴毎に分類してよい。また、対話音声データ処理システム２０は、当該コールセンターシステム１０において行なわれた一の通話が、所定の特徴を有する通話か否かを検出してもよい。例えば、対話音声データ処理システム２０は、当該コールセンターシステム１０において行なわれた一の通話が、例えば特徴のある会話が含まれる可能性の高い対話か否か、例えば商品等の販売が成功した可能性の高い対話か否か等を検出してもよい。

なお、対話音声データ処理システム２０は、コールセンターシステム１０において行なわれるものに限らず、２者間の対話を分類してよい。対話音声データ処理システム２０は、一例として、例えば機器を介さない２者間の直接の対話を分類してもよいし、電話以外の通信機器による対話等を分類してもよい。

図２は、本実施形態に係る対話音声データ処理システム２０の構成を示す。対話音声データ処理システム２０は、記録部２２と、第１推移算出部２４と、第２推移算出部２６と、差分算出部２８と、平滑化部３０と、提示部３１とを有する。

記録部２２は、当該コールセンターシステム１０において行なわれた２者間の対話（エージェント（第１話者）と顧客（第２話者）との間の電話による対話）における声を表す音声信号を、対話毎に記録する。記録部２２は、一例として、複数の対話のそれぞれの音声信号を、当該対話を識別するためのＩＤと対応付けて記録してよい。ここで、記録部２２は、エージェントの声を表す音声信号および顧客の声を表す音声信号をそれぞれ別個に記録する。さらに、記録部２２は、一例として、音声信号とともに、当該対話をしたエージェントを識別する情報および当該対話の日時等を記録してもよい。

第１推移算出部２４は、エージェントと顧客との間の対話における音声データから、エージェントの発話割合の推移を算出する。第１推移算出部２４は、一例として、分類対象となる対話におけるエージェントの音声信号を記録部２２から読み出してよい。そして、第１推移算出部２４は、一例として、読み出した音声信号に基づき、分類対象となる対話におけるエージェントの発話割合の推移を表わす第１発話割合データ列を算出してよい。

第１推移算出部２４は、一例として、発話区間検出部４２と、発話割合算出部４４とを含んでよい。発話区間検出部４２および発話割合算出部４４の詳細な構成については、図３〜図７において説明する。

第２推移算出部２６は、エージェントと顧客との間の対話における音声データから、顧客の発話割合の推移を算出する。第２推移算出部２６は、一例として、分類対象となる対話における顧客の音声信号を記録部２２から読み出してよい。そして、第２推移算出部２６は、一例として、読み出した音声信号に基づき、分類対象となる対話における顧客の発話割合の推移を表わす第２発話割合データ列を算出してよい。

第２推移算出部２６は、一例として、発話区間検出部４２と、発話割合算出部４４とを含んでよい。発話区間検出部４２および発話割合算出部４４は、第１推移算出部２４に含まれる発話区間検出部４２および発話割合算出部４４と同一の構成であり、その詳細な構成については図３〜図７において説明する。

差分算出部２８は、エージェントの発話割合と顧客の発話割合との差分の推移を表す差分データ列を算出する。差分算出部２８は、一例として、第１推移算出部２４により算出された第１発話割合データ列と、第２推移算出部２６により算出された第２発話割合データ列との差分を表わす差分データ列を算出してよい。

平滑化部３０は、差分データ列を平滑化した平滑差分データ列を生成する。平滑化部３０は、一例として、詳細を図９および図１０において説明するベジェ曲線および近傍ｎ点の平均フィルタ等を用いて、平滑差分データ列を生成してよい。

提示部３１は、平滑差分データ列を用いて表わされた、エージェントおよび顧客の発話割合の推移を提示する。提示部３１は、分類部３２を含む。分類部３２は、平滑化部３０により生成された平滑差分データ列に基づき、エージェントと顧客との対話を分類する。分類部３２は、一例として、データパターンが類似するもの同士に複数の平滑差分データ列をグループ分けすることによって、対話を分類してよい。また、分類部３２は、一例として、一の平滑差分データ列が所定のパターンに類似又は一致するか否かを検出することによって、対話を分類してもよい。

例えば、分類部３２は、平滑差分データ列のパターンが類似する対話同士をグループ化して複数の対話を分類し、分類された複数の対話をグループ毎に表示してよい。また、例えば、分類部３２は、エージェント毎に複数の対話を分類し、分類された複数の対話をエージェント毎に表示してもよい。

また、例えば、分類部３２は、分類された複数の対話をグループ毎に表示する。そして、分類部３２は、グループ毎に表示された複数の対話のうちの一のグループが選択された場合、選択されたグループに含まれる対話を時間順に並べて表示してもよい。

また、例えば、分類部３２は、抽出すべき対象パターンにマッチングする平滑差分データ列を抽出し、抽出した平滑差分データ列に対応する対話の音声信号を記録部２２から再生させてよい。この場合において、分類部３２は、一例として、エージェントが電話をかけたか（アウトバウンドコール）、または、顧客が電話をかけたか（インバウンドコール）に応じて、対象パターンを変更してよい。

なお、分類部３２の更なる詳細な構成については、図１１において説明する。

図３は、音声信号および当該音声信号の発話区間の一例を示す。より詳しくは、図３の（Ａ）は、一の対話におけるエージェントの音声信号および発話区間の一例を示す。図３の（Ｂ）は、当該一の対話における顧客の音声信号および発話区間の一例を示す。

発話区間検出部４２は、分類対象となる対話のエージェント（または顧客）の音声信号を、記録部２２から読み出す。そして、発話区間検出部４２は、読み出した音声信号を解析して、エージェント（または顧客）が言葉を音声で出力している区間（発話区間）を検出する。発話区間検出部４２は、一例として、エージェント（または顧客）が発話している開始時刻および終了時刻を、発話区間として出力してよい。

発話区間検出部４２は、一例として、ＶＡＤ（ＶｏｉｃｅＡｃｔｉｖｉｔｙＤｅｔｅｃｔｉｏｎ）技術を用いて、音声信号から発話区間を検出してよい。なお、ＶＡＤについては、非特許文献１に、一例が記載されている。

図４は、図３の（Ａ）に示されたエージェントの音声信号および発話区間、並びに、発話割合算出部４４が発話割合を算出するために設定するフレームの一例を示す。図５は、図３の（Ｂ）に示された顧客の音声信号および発話区間、並びに、発話割合算出部４４が発話割合を算出するために設定するフレームの一例を示す。

発話割合算出部４４は、音声信号の一部分の期間を指定するフレームを、音声信号の開始部分から終了部分まで所定時間ずつ順次にシフトさせて設定する。発話割合算出部４４は、一例として、ｓ秒（例えば１５秒）間隔で順次にシフトした、期間がｗ秒（例えば３０ｓｅｃ）のフレームを設定してよい。

そして、発話割合算出部４４は、フレームにより指定された各期間に含まれる発話区間の割合を、発話割合として算出する。すなわち、発話割合算出部４４は、順次に設定された複数のフレームのそれぞれについて、当該フレームの全時間長に対する当該フレームに含まれる発話区間の時間長の割合を発話割合として算出する。発話割合算出部４４は、一例として、フレーム中に発話区間を含まない場合には０、フレーム中の全期間にわたって発話区間が含まれる場合には１となる値を、発話割合として出力してよい。

なお、発話割合算出部４４は、一例として、対話全体の時間長よりも十分に短い期間を指定するフレームを設定してよい。また、発話割合算出部４４は、一例として、フレームのシフト量をフレームの時間長よりも短い時間長に設定してよい。これにより、発話割合算出部４４は、対話全体にわたる発話割合を隙間なく算出することができる。

また、発話割合算出部４４は、一例として、エージェントの音声信号および顧客の音声信号に対して、同一の時間長、同一シフト量および同一タイミングのフレームを設定してよい。これにより、発話割合算出部４４は、互いに同期した位相により音声信号の発話割合を算出することができる。

図６は、図４に示された音声信号から算出されたエージェントの発話割合の推移の一例を示す。図７は、図５に示された音声信号から算出された顧客の音声信号の発話割合の推移の一例を示す。特に、本実施形態では、音声データから発話区間を検出して発話割合を算出する処理が行われるので、発話をテキスト化して音声認識処理により発話割合を算出する場合に比べて、圧倒的に短い計算時間、例えば１０００分の１以下の計算時間で、２者間の対話における発話割合の推移を提示することができる。すなわち、より大量の対話の音声データを処理することができる。

発話割合算出部４４は、フレームを順次にシフトさせながら算出された発話割合を表わすデータを、順次に出力する。発話割合算出部４４は、一例として、図６および図７に示されるように、０以上１以下の値で表わされた発話割合のデータ列を出力してよい。このようにして、発話割合算出部４４は、エージェントと顧客との間の対話におけるエージェントの発話割合の推移を表わす第１発話割合データ列、および、エージェントと顧客との間の対話における顧客の発話割合の推移を表わす第２発話割合データ列を生成することができる。

図８は、図６に示されたエージェントの発話割合と、図７に示された顧客の発話割合との差分の推移の一例を示す。差分算出部２８は、第１推移算出部２４により算出された第１発話割合データ列の各値から、第２発話割合データ列の対応する値（例えば同一タイミングでサンプルされた音声信号に基づき生成された値）を減じた差分値を、順次に算出する。そして、差分算出部２８は、算出した差分値を順次に出力する。

差分算出部２８は、一例として、図８に示されるように、エージェントの発話割合から顧客の発話割合を減じた差分値（例えば−１以上１以下で表わされた値）の時系列データである差分データ列を出力してよい。この場合、差分データ列の各値は、エージェントが主に発話している場合には１に近い値となり、顧客が主に発話している場合には−１に近い値となり、エージェントと顧客とが同程度に発話している場合には０に近い値となる。このようにして、差分算出部２８は、エージェントの発話割合と顧客の発話割合との差分の推移を表す差分データ列を算出することができる。

図９は、図８に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、ベジェ曲線を用いて平滑化した曲線を示す。図１０は、図８に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、近傍５点を平均するフィルタ処理を用いて平滑化した曲線を示す。

平滑化部３０は、一例として、ベジェ曲線を用いた平滑化処理により、差分算出部２８により生成された差分データ列を平滑化してよい。すなわち、平滑化部３０は、一例として、図８に示された曲線を表わすデータ列から、ベジェ曲線を利用して、図９に示されるような曲線を表わすデータ列を生成してよい。

また、平滑化部３０は、一例として、近傍ｎ点（ｎは自然数）を平均するフィルタ処理により、差分算出部２８により生成された差分データ列を平滑化してよい。すなわち、平滑化部３０は、一例として、図８に示された曲線を表わすデータ列から、近傍ｎ点（本例においては５点）を平均するフィルタ処理を利用して、図１０に示されるような曲線を表わすデータ列を生成してよい。

このようにして、平滑化部３０は、差分データ列を平滑化した平滑差分データ列を生成することができる。これにより、平滑化部３０は、例えば単にうなづいているような発話成分を差分データ列から除くことができる。なお、平滑化部３０は、ベジェ曲線および近傍ｎ点の平均化フィルタに代えて、他の平滑化フィルタを用いてもよい。

図１１は、本実施形態に係る分類部３２の構成の一例を示す。分類部３２は、一例として、除去部５２と、変換部５４と、圧縮部５６と、グループ化部５８と、表示部６０と、抽出部６２と、出力部６４とを含んでよい。

除去部５２は、分類対象となる対話毎に、平滑化部３０から平滑差分データ列が与えられる。本例において、平滑差分データ列の各値は、−１以上１以下で表わされる。

除去部５２は、与えられた平滑差分データ列から、２者間の対話における先頭部分および終端部分の少なくとも一方を除く。除去部５２は、一例として、平滑差分データ列における、先頭の所定数個のフレーム分のデータを除いてよい。さらに、除去部５２は、一例として、平滑差分データ列における、終端の所定数個のフレーム分のデータを除いてよい。これにより、除去部５２は、対話における冗長部分の音声（例えば、電話の呼び出し音、対話における定型の挨拶等）を除くことができる。なお、分類部３２は、除去部５２を備えない構成であってもよい。

変換部５４は、除去部５２により先頭部分および終端部分の少なくとも一方が除かれた平滑差分データ列が与えられる。変換部５４は、与えられた平滑差分データ列を、エージェントが主に話している状態、顧客が主に話している状態、または、エージェントおよび顧客が共に話している状態を識別する値の推移を表わす分類用データ列に変換する。

変換部５４は、一例として、平滑差分データ列に含まれる各値が、第１閾値（例えば、０．４）より大きければ、当該値をエージェントが主に話している状態を表わす値（例えば、１）に変換してよい。さらに、変換部５４は、一例として、平滑差分データ列に含まれる各値が、第１閾値より小さい第２閾値（例えば、−０．３）より小さければ、当該値を顧客が主に話している状態を表わす値（例えば、−１）に変換してよい。さらに、変換部５４は、一例として、平滑差分データ列に含まれる各値が、第１閾値以下第２閾値以上（例えば、０．４以下−０．３以上）であれば、当該値をエージェントおよび顧客が共に話している状態を表わす値（例えば、０）に変換してよい。これにより、変換部５４は、エージェントが主に話している状態（例えば、１）、顧客が主に話している状態（例えば、−１）、エージェントおよび顧客が共に話している状態（例えば、０）を識別する値の推移を表わす分類用データ列を出力することができる。

また、この場合において、変換部５４は、一例として、エージェントが顧客に対して行なう電話の内容および顧客からコールセンターへの問い合わせの内容等に応じて、第１閾値および第２閾値を変更してよい。また、変換部５４は、一例として、インバウンドコールかアウトバウンドコールかに応じて、第１閾値および第２閾値を変更してもよい。

圧縮部５６は、変換部５４により生成された分類用データ列が与えられる。圧縮部５６は、分類用データ列中における同一値が複数個連続するパターンを、同一値が１個のパターンに置き換える。圧縮部５６は、一例として、分類用データ列に"１、１、−１、−１"というパターンが含まれていれば、当該パターンを"１、−１"に置き換えてよい。これにより、圧縮部５６は、分類用データ列を、対話の特徴を保持しつつ他のデータ列と比較形式のデータ列に変換することができる。

また、圧縮部５６は、一例として、連続する同一値の個数に上限を設定してもよい。上限として３個が設定されている場合、圧縮部５６は、一例として、分類用データ列に"１、１、１、１、１、１、−１、−１、−１、−１"というパターンが含まれていれば、当該パターンを"１、１、−１、−１"に置き換えてよい。なお、分類部３２は、圧縮部５６を備えない構成であってもよい。

グループ化部５８は、圧縮された分類用データ列（圧縮分類用データ列）が、圧縮部５６から与えられる。グループ化部５８は、複数の対話についての圧縮分類用データ列をグループ化する。グループ化部５８は、一例として、複数の対話についての圧縮分類用データ列を、一致または類似するパターン毎にグループ化する。また、グループ化部５８は、一例として、複数の対話についての圧縮分類用データ列を、エージェント毎に分類した後にグループ化してもよい。

表示部６０は、グループ化した後の複数の圧縮分類用データ列を表示する。表示部６０は、一例として、圧縮分類用データ列とともに、対応する対話のＩＤを表示してもよい。また、表示部６０は、一例として、複数のエージェントのそれぞれ毎に、グループ化された複数の圧縮分類用データ列を表示してもよい。

これにより、グループ化部５８および表示部６０は、対話の特徴毎にグループ化された圧縮分類用データ列を、ユーザに提示することができる。グループ化部５８および表示部６０は、例えば、エージェントが一方的に発話した対話、顧客が一方的に発話した対話、両者が同じくらい発話した対話、前半はエージェントが一方的に発話して後半は顧客が一方的に発話した対話、といったように、対話を特徴毎にグループ化してユーザに提示することができる。

抽出部６２は、圧縮部５６から圧縮分類用データ列が与えられる。抽出部６２は、与えられた圧縮分類用データ列が、抽出すべき対象パターンに一致するかを抽出する。これに代えて、抽出部６２は、抽出すべき対象パターンに対応するグループに含まれる圧縮分類用データ列を、グループ化部５８から抽出してもよい。

また、対話は、アウトバウンドコールかインバウンドコールかによって、発話割合の傾向が異なる。従って、抽出部６２は、一例として、アウトバウンドコールかインバウンドコールかに応じて対象パターンを変更してよい。出力部６４は、抽出部６２により抽出された圧縮分類用データに対応する対話の音声信号を記録部２２から読み出して、ユーザに対して出力する。

これにより、抽出部６２および出力部６４は、所定の特徴を有する対話を抽出して、ユーザに出力することができる。抽出部６２および出力部６４は、一例として、エージェントが一方的に発話している対話の音声を出力することができる。

なお、分類部３２は、以上の構成に代えて、平滑差分データ列のデータの変化割合（傾き）に応じて、対話においてエージェントまたは顧客のいずれが主に発話しているかを表わす値の推移を算出する構成であってもよい。これにより、分類部３２は、会話の主導権がどのように変化していったかに応じて、対話を分類することができる。これにより、分類部３２は、一例として、最初はエージェントが会話の主導権を有していたが徐々に会話の主導権が顧客に変化していった対話、急激に顧客が発話を始めた対話等を分類することができる。

図１２は、グループ化部５８による分類結果を表示部６０が表示した表示画面の一例を示す。表示部６０は、図１２に示されるように、一例として、圧縮分類用データ列の値のパターンのそれぞれと、当該パターンとなる対話の数とを表示してよい。これにより、表示部６０は、比較的に数の多いパターンと、比較的に数の少ない特異なパターンとをユーザに提示することができる。

さらに、表示部６０は、一例として、図１２に示された画面上の一のパターンが選択されたことに応じて、選択されたパターンに対応する対話のＩＤを時間順に並べて表示してもよい。また、表示部６０は、一例として、図１２に示される画面を、エージェント毎に表示してもよい。また、例えば、表示部６０に表示されたＩＤまたはパターンをユーザが選択したことに応じて、出力部６４は、対話の音声信号を記録部２２から読み出して、ユーザに対して出力してもよい。

図１３は、対話音声データ処理システム２０の処理フローの一例を示す。対話音声データ処理システム２０は、記録部２２に記録された対話のそれぞれに対して、図１３に示すステップＳ１０１からステップＳ１０５までの処理を実行する。

まず、ステップ１０１において、発話区間検出部４２は、エージェントの音声データの系列（Ａ_Ａ（ｔ）からエージェントの発話区間を表わすデータ系列を算出する。さらに、ステップＳ１０１において、発話区間検出部４２は、顧客の音声データの系列（Ａ_Ｃ（ｔ））から、顧客の発話区間を表わすデータ系列を算出する。

発話区間検出部４２は、発話区間を表わすデータ系列として、一例として、発話していると判断した時刻において"１"、発話していないと判断した時刻において"０"を表わす２値のデータ系列を出力してよい。これに代えて、発話区間検出部４２は、対話の先頭から末尾までに含まれる１以上の発話区間のそれぞれについて、当該発話区間の開始時刻と終了時刻を表わした情報を出力してもよい。

音声データの系列から発話区間（非発話区間）を検出する方法としては、例えば、非特許文献１に記載されたＶＡＤの技術を用いた例が挙げられる。また、その他の方法としては、例えば、音声のパワーの推移に基づき発話区間を判断してもよい。

続いて、ステップＳ１０２において、発話割合算出部４４は、エージェントおよび顧客の発話区間を表わすデータ系列に対して、それぞれ、ｗ秒（例えば３０秒）のフレームをｓ秒（例えば１５秒）ずつシフトさせて、フレーム内における発話区間の割合を表わすデータ系列（Ｐ_Ａ（ｔ）、Ｐ_Ｃ（ｔ））を算出する。例えば、発話割合算出部４４は、次のような処理（または演算）をすることにより、発話区間の割合を表わすデータ系列（Ｐ_Ａ（ｔ）、Ｐ_Ｃ（ｔ））を算出することができる。

例えば、ステップＳ１０１において、以下の発話区間が算出されたとする。
発話区間１（開始時刻−終了時刻）：３秒−５秒
発話区間２：１０秒−２０秒
発話区間３：２８秒−３５秒

この場合、時刻０秒から開始されるフレームにおいては、（５−３）＋（２０−１０）＋（３０−２８）＝１４秒が、合計の発話区間となる。従って、発話割合算出部４４は、このフレームについて、１４秒／３０秒＝０．４７を発話区間の割合として算出する。

続いて、ステップＳ１０３において、差分算出部２８は、エージェントの発話割合を表わすデータ系列（Ｐ_Ａ（ｔ））と、顧客の発話割合を表わすデータ系列（Ｐ_Ｃ（ｔ））との差分を表わす差分データ列（Ｄ（ｔ））を算出する。差分算出部２８は、一例として、サンプル毎に、下記の演算を行うことにより、差分データ列Ｄ（ｔ）を算出する。
Ｄ（ｔ）＝Ｐ_Ａ（ｔ）−Ｐ_Ｃ（ｔ）

続いて、ステップＳ１０４において、平滑化部３０は、差分データ列Ｄ（ｔ）を平滑化した平滑差分データ列（Ｄｓ（ｔ））を算出する。平滑化部３０は、一例として、差分データ列（Ｄ（ｔ））を平均化フィルタによりフィルタリングすることにより、平滑差分データ列（Ｄｓ（ｔ））を算出してよい。

より具体的には、例えば、平滑化部３０は、次の式（１）の演算をすることにより、平滑差分データ列（Ｄｓ（ｔ））を算出してもよい。なお、式（１）において、差分データ列Ｄ（ｔ）は、Ｄ_ｉ（ｉ＝０，１，２，…，Ｎ）と表わされ、平滑差分データ列Ｄｓ（ｔ）は、Ｄｓ_ｉ（ｉ＝０，１，２，…，Ｎ）と表わされている。

なお、平滑化部３０は、データ系列の先頭部分（ｉ＜ｋ）および終端部分（ｉ＞Ｎ−ｋ）については、別途修正した演算を実行してよい。平滑化部３０は、一例として、当該差分データ列Ｄｉの先頭データより前または最終データより後ろのデータ値を補間して上記の演算をしてよい。

続いて、ステップＳ１０５において、提示部３１は、ステップＳ１０４において算出された平滑差分データ列（Ｄ（ｔ））をユーザに提示する。提示部３１は、一例として、平滑差分データ列をグループ毎に分類してユーザに表示等をしてよい。

図１４は、図１３のステップＳ１０１の発話区間の検出フローの一例を示す。図１５は、図１４に示した各ステップにおいて算出されるデータの一例を示す。

まず、ステップＳ１１１において、発話区間検出部４２は、音声データの系列を読み出す。発話区間検出部４２は、一例として、図１５の（Ａ）に示されるような音声データを読み出してよい。

続いて、ステップＳ１１２において、発話区間検出部４２は、音声データの系列を微小時間（ウィンドウ）毎に分割する。発話区間検出部４２は、一例として、図１５の（Ｂ）に示されるように分割してよい。ウィンドウは、ステップＳ１０２のフレームよりも十分に短い期間（例えば、数十ｍ秒）であることが好ましい。

続いて、ステップＳ１１３において、発話区間検出部４２は、ウィンドウ毎に、当該ウィンドウにおける音声データのパワーを算出する。発話区間検出部４２は、一例として、図１５の（Ｃ）に示されるように、ウィンドウ毎のパワーを算出してよい。

続いて、ステップＳ１１４において、発話区間検出部４２は、ウィンドウ毎に、パワーを予め定められた閾値と比較する。続いて、ステップＳ１１５において、発話区間検出部４２は、パワーが、所定数のウィンドウ以上連続して閾値以上であるか否かを判断する。そして、発話区間検出部４２は、パワーが、所定数のウィンドウ以上連続して閾値以上である部分を発話区間と判断し（Ｓ１１６）、発話区間以外の部分を非発話区間と判断する（Ｓ１１７）。

続いて、ステップＳ１１８において、発話区間検出部４２は、音声データの発話区間と判断された各部分のそれぞれについて、開始時刻および終了時刻を表わす情報を生成する。発話区間検出部４２は、一例として、図１５の（Ｄ）に示されるような情報を生成してよい。

図１６は、図１３のステップＳ１０５において、提示部３１内の分類部３２が実行する分類処理のフローの一例を示す。まず、ステップＳ１３１において、分類部３２は、平滑差分データ列（Ｄｓ（ｔ））を読み出す。

続いて、分類部３２は、平滑差分データ列（Ｄｓ（ｔ））の先頭サンプル（Ｄｓ（０））から最終サンプル（Ｄｓ（Ｎ））まで、１サンプルずつ順次に、ステップＳ１３３からステップＳ１３７までの処理を繰返し実行して分類用データ列（Ｐ（ｔ））を生成する（Ｓ１３２、Ｓ１３８）。まず、ステップＳ１３３において、分類部３２は、選択されたサンプルの値が第１閾値（例えば、０．４）より大きいか否かを判断する。分類部３２は、選択されたサンプルの値が第１閾値（例えば、０．４）より大きい場合（ステップＳ１３３のＹｅｓ）、続いて、ステップＳ１３４において、分類用データ列（Ｐ（ｔ））の対応するサンプルの値を"１"とする。

分類部３２は、選択されたサンプルの値が第１閾値（例えば、０．４）以下の場合（ステップＳ１３３のＮｏ）、続いて、ステップＳ１３５において、分類部３２は、選択されたサンプルの値が第２閾値（例えば、−０．３）より小さいか否かを判断する。分類部３２は、選択されたサンプルの値が第２閾値（例えば、−０．３）より小さい場合（ステップＳ１３５のＹｅｓ）、続いて、ステップＳ１３６において、分類用データ列（Ｐ（ｔ））の対応するサンプルの値を"−１"とする。分類部３２は、選択されたサンプルの値が第２閾値（例えば、−０．３）以上の場合（ステップＳ１３５のＮｏ）、続いて、ステップＳ１３７において、分類用データ列（Ｐ（ｔ））の対応するサンプルの値を"０"とする。

続いて、ステップＳ１３９において、分類部３２は、分類用データ列（Ｐ（ｔ））の先頭および末尾の所定個のサンプルを除去する。続いて、ステップＳ１４０において、分類部３２は、同一値が複数個連続するパターンを同一値が１個のパターンに置き換えて、圧縮した分類用データ列（Ｐ（ｔ））を生成する。

続いて、ステップＳ１４１において、分類部３２は、圧縮した分類用データ列（Ｐ（ｔ））が、登録済みのパターンと一致するか否かを判断する。圧縮した分類用データ列（Ｐ（ｔ））が登録済みのパターンと一致しない場合（Ｓ１４１のＮｏ）、ステップＳ１４２において、分類部３２は、当該圧縮した分類用データ列（Ｐ（ｔ））のデータパターンを、新規パターンとして登録する。これとともに、ステップＳ１４２において、分類部３２は、登録したパターンの対話数を１回に設定する。一方、圧縮した分類用データ列（Ｐ（ｔ））が登録済みのパターンと一致した場合（Ｓ１４１のＹｅｓ）、ステップＳ１４３において、分類部３２は、当該登録済みのパターンの対話数をインクリメントする。

続いて、ステップＳ１４４において、分類部３２は、ステップＳ１４２において新規登録したパターンまたはステップＳ１４３において対話数をインクリメントした登録済みのパターンに対応付けて、当該対話のＩＤを登録する。対話音声データ処理システム２０は、以上のような処理を実行することにより、コールセンターにおけるエージェントと顧客との間の対話を分類することができる。

図１７は、本実施形態に係るコンピュータ１９００のハードウェア構成の一例を示す。本実施形態に係るコンピュータ１９００は、ホスト・コントローラ２０８２により相互に接続されるＣＰＵ２０００、ＲＡＭ２０２０、グラフィック・コントローラ２０７５、及び表示装置２０８０を有するＣＰＵ周辺部と、入出力コントローラ２０８４によりホスト・コントローラ２０８２に接続される通信インターフェイス２０３０、ハードディスクドライブ２０４０、及びＣＤ−ＲＯＭドライブ２０６０を有する入出力部と、入出力コントローラ２０８４に接続されるＲＯＭ２０１０、フレキシブルディスク・ドライブ２０５０、及び入出力チップ２０７０を有するレガシー入出力部とを備える。

ホスト・コントローラ２０８２は、ＲＡＭ２０２０と、高い転送レートでＲＡＭ２０２０をアクセスするＣＰＵ２０００及びグラフィック・コントローラ２０７５とを接続する。ＣＰＵ２０００は、ＲＯＭ２０１０及びＲＡＭ２０２０に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ２０７５は、ＣＰＵ２０００等がＲＡＭ２０２０内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置２０８０上に表示させる。これに代えて、グラフィック・コントローラ２０７５は、ＣＰＵ２０００等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。

入出力コントローラ２０８４は、ホスト・コントローラ２０８２と、比較的高速な入出力装置である通信インターフェイス２０３０、ハードディスクドライブ２０４０、ＣＤ−ＲＯＭドライブ２０６０を接続する。通信インターフェイス２０３０は、ネットワークを介して他の装置と通信する。ハードディスクドライブ２０４０は、コンピュータ１９００内のＣＰＵ２０００が使用するプログラム及びデータを格納する。ＣＤ−ＲＯＭドライブ２０６０は、ＣＤ−ＲＯＭ２０９５からプログラム又はデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。

また、入出力コントローラ２０８４には、ＲＯＭ２０１０と、フレキシブルディスク・ドライブ２０５０、及び入出力チップ２０７０の比較的低速な入出力装置とが接続される。ＲＯＭ２０１０は、コンピュータ１９００が起動時に実行するブート・プログラム、及び／又は、コンピュータ１９００のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ２０５０は、フレキシブルディスク２０９０からプログラム又はデータを読み取り、ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供する。入出力チップ２０７０は、フレキシブルディスク・ドライブ２０５０を入出力コントローラ２０８４へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ２０８４へと接続する。

ＲＡＭ２０２０を介してハードディスクドライブ２０４０に提供されるプログラムは、フレキシブルディスク２０９０、ＣＤ−ＲＯＭ２０９５、又はＩＣカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、ＲＡＭ２０２０を介してコンピュータ１９００内のハードディスクドライブ２０４０にインストールされ、ＣＰＵ２０００において実行される。

コンピュータ１９００にインストールされ、コンピュータ１９００を対話音声データ処理システム２０として機能させるプログラムは、記録モジュールと、第１推移算出モジュールと、第２推移算出モジュールと、差分算出モジュールと、平滑化モジュールと、分類モジュールとを備える。これらのプログラム又はモジュールは、ＣＰＵ２０００等に働きかけて、コンピュータ１９００を、記録部２２、第１推移算出部２４、第２推移算出部２６、差分算出部２８、平滑化部３０、分類部３２としてそれぞれ機能させる。

これらのプログラムに記述された情報処理は、コンピュータ１９００に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である記録部２２、第１推移算出部２４、第２推移算出部２６、差分算出部２８、平滑化部３０、分類部３２として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ１９００の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の対話音声データ処理システム２０が構築される。

一例として、コンピュータ１９００と外部の装置等との間で通信を行う場合には、ＣＰＵ２０００は、ＲＡＭ２０２０上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス２０３０に対して通信処理を指示する。通信インターフェイス２０３０は、ＣＰＵ２０００の制御を受けて、ＲＡＭ２０２０、ハードディスクドライブ２０４０、フレキシブルディスク２０９０、又はＣＤ−ＲＯＭ２０９５等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス２０３０は、ＤＭＡ（ダイレクト・メモリ・アクセス）方式により記憶装置との間で送受信データを転送してもよく、これに代えて、ＣＰＵ２０００が転送元の記憶装置又は通信インターフェイス２０３０からデータを読み出し、転送先の通信インターフェイス２０３０又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。

また、ＣＰＵ２０００は、ハードディスクドライブ２０４０、ＣＤ−ＲＯＭドライブ２０６０（ＣＤ−ＲＯＭ２０９５）、フレキシブルディスク・ドライブ２０５０（フレキシブルディスク２０９０）等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をＤＭＡ転送等によりＲＡＭ２０２０へと読み込ませ、ＲＡＭ２０２０上のデータに対して各種の処理を行う。そして、ＣＰＵ２０００は、処理を終えたデータを、ＤＭＡ転送等により外部記憶装置へと書き戻す。このような処理において、ＲＡＭ２０２０は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはＲＡＭ２０２０および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、ＣＰＵ２０００は、ＲＡＭ２０２０の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはＲＡＭ２０２０の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもＲＡＭ２０２０、メモリ、及び／又は記憶装置に含まれるものとする。

また、ＣＰＵ２０００は、ＲＡＭ２０２０から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、ＲＡＭ２０２０へと書き戻す。例えば、ＣＰＵ２０００は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合（又は不成立であった場合）に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。

また、ＣＰＵ２０００は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第１属性の属性値に対し第２属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、ＣＰＵ２０００は、記憶装置に格納されている複数のエントリの中から第１属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第２属性の属性値を読み出すことにより、所定の条件を満たす第１属性に対応付けられた第２属性の属性値を得ることができる。

以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク２０９０、ＣＤ−ＲＯＭ２０９５の他に、ＤＶＤ又はＣＤ等の光学記録媒体、ＭＯ等の光磁気記録媒体、テープ媒体、ＩＣカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はＲＡＭ等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ１９００に提供してもよい。

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。

図１は、本実施形態に係るコールセンターシステム１０の構成を電話回線１００とともに示す。図２は、本実施形態に係る対話音声データ処理システム２０の構成を示す。図３は、音声信号および当該音声信号の発話区間の一例を示す。図４は、図３の（Ａ）に示されたエージェントの音声信号および発話区間、並びに、発話割合算出部４４が発話割合を算出するために設定するフレームの一例を示す。図５は、図３の（Ｂ）に示された顧客の音声信号および発話区間、並びに、発話割合算出部４４が発話割合を算出するために設定するフレームの一例を示す。図６は、図４に示された音声信号から算出されたエージェントの発話割合の推移の一例を示す。図７は、図５に示された音声信号から算出された顧客の音声信号の発話割合の推移の一例を示す。図８は、図６に示されたエージェントの発話割合と、図７に示された顧客の発話割合との差分の推移の一例を示す。図９は、図８に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、ベジェ曲線を用いて平滑化した曲線を示す。図１０は、図８に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、近傍５点を平均するフィルタ処理を用いて平滑化した曲線を示す。図１１は、本実施形態に係る分類部３２の構成の一例を示す。図１２は、グループ化部５８による分類結果を表示部６０が表示した表示画面の一例を示す。図１３は、対話音声データ処理システム２０の処理フローの一例を示す。図１４は、図１３のステップＳ１０１の発話区間の検出フローの一例を示す。図１５は、図１４に示した各ステップにおいて算出されるデータの一例を示す。図１６は、図１３のステップＳ１０５において、提示部３１内の分類部３２が実行する分類処理のフローの一例を示す。図１７は、本発明の実施形態に係るコンピュータ１９００のハードウェア構成の一例を示す。

符号の説明

１０コールセンターシステム
１２端末
１４中継装置
２０対話音声データ処理システム
２２記録部
２４第１推移算出部
２６第２推移算出部
２８差分算出部
３０平滑化部
３１提示部
３２分類部
４２発話区間検出部
４４発話割合算出部
５２除去部
５４変換部
５６圧縮部
５８グループ化部
６０表示部
６２抽出部
６４出力部
１００電話回線
１９００コンピュータ
２０００ＣＰＵ
２０１０ＲＯＭ
２０２０ＲＡＭ
２０３０通信インターフェイス
２０４０ハードディスクドライブ
２０５０フレキシブルディスク・ドライブ
２０６０ＣＤ−ＲＯＭドライブ
２０７０入出力チップ
２０７５グラフィック・コントローラ
２０８０表示装置
２０８２ホスト・コントローラ
２０８４入出力コントローラ
２０９０フレキシブルディスク
２０９５ＣＤ−ＲＯＭ

Claims

２者間の対話の音声データを処理するシステムであって、
前記２者間の対話における音声データから第１話者の発話割合の推移を算出する第１推移算出部と、
前記２者間の対話における音声データから第２話者の発話割合の推移を算出する第２推移算出部と、
前記第１話者の発話割合と前記第２話者の発話割合との差分の推移を表す差分データ列を算出する差分算出部と、
前記差分データ列を平滑化した平滑差分データ列を生成する平滑化部と、
前記平滑差分データ列を用いて表された、前記第１話者および前記第２話者の発話割合の推移を提示する提示部と
を備え、
前記提示部は、前記平滑差分データ列のパターンが所定のパターンに類似又は一致するか否かを検出することによって、前記第１話者と前記第２話者との対話を分類して、分類結果を出力する分類部を有する
システム。
前記分類部は、前記平滑差分データ列のパターンが類似する対話同士をグループ化して、複数の対話を分類する
請求項１に記載のシステム。
前記分類部は、前記平滑差分データ列を、前記第１話者が主に話している状態、前記第２話者が主に話している状態、または、前記第１話者および前記第２話者が共に話している状態を識別する値の推移を表わす分類用データ列に変換し、前記分類用データ列のパターンに基づき複数の対話を分類する
請求項２に記載のシステム。
前記分類部は、前記分類用データ列中における同一値が複数個連続するパターンを、前記同一値が１個のパターンに置き換える
請求項３に記載のシステム。
第１推移算出部は、前記第１話者および前記第２話者の間の電話による対話における前記第１話者の声を表す音声信号から、前記第１話者の発話割合の推移を算出し、
第２推移算出部は、前記第１話者および前記第２話者の間の電話による対話における前記第２話者の声を表す音声信号から、前記第２話者の発話割合の推移を算出する
請求項１に記載のシステム。
前記分類部は、前記２者間の対話における先頭部分および終端部分の少なくとも一方を除いた前記平滑差分データ列に基づき、前記第１話者と前記第２話者との対話を分類する
請求項５に記載のシステム。
前記第１話者および前記第２話者の声を表す音声信号を、対話毎に記録する記録部を更に備え、
前記分類部は、抽出すべき対象パターンにマッチングする前記平滑差分データ列を抽出し、抽出した前記平滑差分データ列に対応する対話の前記音声信号を前記記録部から再生させる
請求項５に記載のシステム。
前記分類部は、前記第１話者が電話をかけたか、または、前記第２話者が電話をかけたかに応じて、前記対象パターンを変更する
請求項７に記載のシステム。
前記分類部は、前記平滑差分データ列のデータの変化割合に応じて、前記対話において前記第１話者または前記第２話者のいずれが主に発話しているかを表わす値の推移を算出する
請求項１に記載のシステム。
前記分類部は、前記平滑差分データ列のパターンが類似する対話同士をグループ化して、複数の対話を分類し、分類された複数の対話をグループ毎に表示し、一のグループが選択された場合、選択されたグループに含まれる対話を時間順に並べて表示する
請求項１に記載のシステム。
前記分類部は、前記第１話者毎に複数の対話を分類し、分類された複数の対話を前記第１話者毎に表示する
請求項１に記載のシステム。
２者間の対話の音声データを処理する方法であって、
前記２者間の対話における音声データから第１話者の発話割合の推移を算出する第１推移算出ステップと、
前記２者間の対話における音声データから第２話者の発話割合の推移を算出する第２推移算出ステップと、
前記第１話者の発話割合と前記第２話者の発話割合との差分の推移を表す差分データ列を算出する差分算出ステップと、
前記差分データ列を平滑化した平滑差分データ列を生成する平滑化ステップと、
前記平滑差分データ列を用いて表された、前記第１話者および前記第２話者の発話割合の推移を提示する提示ステップと、
前記平滑差分データ列のパターンが所定のパターンに類似又は一致するか否かを検出することによって、前記第１話者と第前記２話者との対話を分類して、分類結果を出力する分類ステップと、
を備える方法。
２者間の対話の音声データを処理するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
前記２者間の対話における音声データから第１話者の発話割合の推移を算出する第１推移算出部と、
前記２者間の対話における音声データから第２話者の発話割合の推移を算出する第２推移算出部と、
前記第１話者の発話割合と前記第２話者の発話割合との差分の推移を表す差分データ列を算出する差分算出部と、
前記差分データ列を平滑化した平滑差分データ列を生成する平滑化部と、
前記平滑差分データ列のパターンが所定のパターンに類似又は一致するか否かを検出することによって、前記第１話者と前記第２話者との対話を分類して、分類結果を出力する分類部を有し、前記平滑差分データ列を用いて表された、前記第１話者および前記第２話者の発話割合の推移を提示する提示部と
して機能させるプログラム。