JP5088741B2 - 2者間の対話の音声データを処理するシステム、方法およびプログラム - Google Patents

2者間の対話の音声データを処理するシステム、方法およびプログラム Download PDF

Info

Publication number
JP5088741B2
JP5088741B2 JP2008058745A JP2008058745A JP5088741B2 JP 5088741 B2 JP5088741 B2 JP 5088741B2 JP 2008058745 A JP2008058745 A JP 2008058745A JP 2008058745 A JP2008058745 A JP 2008058745A JP 5088741 B2 JP5088741 B2 JP 5088741B2
Authority
JP
Japan
Prior art keywords
speaker
unit
transition
dialogue
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008058745A
Other languages
English (en)
Other versions
JP2009216840A (ja
Inventor
岳人 倉田
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008058745A priority Critical patent/JP5088741B2/ja
Priority to US12/399,560 priority patent/US8165874B2/en
Publication of JP2009216840A publication Critical patent/JP2009216840A/ja
Application granted granted Critical
Publication of JP5088741B2 publication Critical patent/JP5088741B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • H04M3/5175Call or contact centers supervision arrangements

Description

本発明は、2者間の対話の音声データを処理するシステム、方法およびプログラムに関する。本発明は、例えばコールセンター等におけるエージェントと顧客との対話を分類するシステム、方法およびプログラムに関する。
コールセンターにおいては、コールセンターエージェント(以下、単にエージェントと呼ぶ。)と顧客との間で、電話による複数の対話が発生する。コールセンターの管理者は、これら複数の対話のうちから、例えば顧客が怒ってしまった対話、エージェントが不適切な発言をしてしまった対話等の、特徴のある会話を含む対話を抽出して顧客サービスの向上を図る。
コールセンターの管理者は、一例として、エージェントと顧客との間の対話における音声を録音し、録音した音声を聞くことにより、特徴のある会話を含む対話を抽出することができる。また、コールセンターの管理者は、一例として、音声認識装置を用いて対話における音声をテキストに変換し、変換したテキストを読むことによっても、特徴のある会話を含む対話を抽出することができる。
しかし、コールセンターにおいては膨大な量の対話が発生する。従って、コールセンターの管理者は、録音された多数の対話の音声を全て聞くことは難しい。また、音声認識装置は、電話の音声に対して、それほど精度良く動作しない。従って、コールセンターの管理者は、音声認識装置に全ての対話の音声を正確にテキストに変換させることは難しい。
以上のように、録音された音声を聞く方法および音声認識させたテキストを読む方法により、全ての対話を確認することは非常に困難である。このことから、コールセンターにおいては、特徴のある会話を含む可能性の高い対話を、全ての対話の中から簡易に抽出できていない。
コールセンターのエージェントと顧客との間の対話を、音声認識を用いずに解析等する方法として、例えば特許文献1〜3に記載の技術が知られている。特許文献1には、オペレータおよび顧客のうち一方の発声区間の長さと他方の無音区間の長さとの比が、予め定められた値よりも大きい場合に、フラグをセットする技術が記載されている(段落0058)。この技術によれば、オペレータと顧客との発声期間の比に顕著な差がある場合に、警告を発することができる。
特許文献2には、音圧レベルが基準値以下となっている状態が所定時間以上継続した状態を検出して、発話の適正さを定量評価する技術が記載されている。特許文献3には、無音の割合、保留回数から顧客の心理状態を推定する技術が記載されている。しかしながら、以上のような特許文献1〜3に記載された技術によっても、コールセンターのエージェントと顧客との間の対話の全体を観察して、特徴のある会話を含む可能性の高い対話を抽出することはできない。
特開2007−33754号公報 特開2006−267465号公報 特開2002−51153号公報 Etienne Marcheret et al., "The IBM RT06s Evaluation System for Speech Activity Detection in CHIL Seminars" , In Proc. MLMI, Springer Berlin/Heidelbelg, 2006
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。
上記課題を解決するために、本発明の第1の形態においては、2者間の対話の音声データを処理するシステムであって、2者間の対話における音声データから第1話者の発話割合の推移を算出する第1推移算出部と、2者間の対話における音声データから第2話者の発話割合の推移を算出する第2推移算出部と、第1話者の発話割合と第2話者の発話割合との差分の推移を表す差分データ列を算出する差分算出部と、差分データ列を平滑化した平滑差分データ列を生成する平滑化部と、平滑差分データ列を用いて表わされた、第1話者および第2話者の発話割合の推移を提示する提示部とを備えるシステムを提供する。また、当該システムとしてコンピュータを機能させる方法およびプログラムを提供する。なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、本実施形態に係るコールセンターシステム10の構成を電話回線100とともに示す。コールセンターシステム10は、顧客に対する電話による商品等の販売、顧客からの商品等に対する質問の対応等の、顧客との間で電話対応する部署(コールセンター)において用いられる。コールセンターシステム10は、コールセンターに配属された電話対応者(エージェント)により用いられる電話機を、顧客により用いられる電話機に電話回線100を介して接続して、エージェントと顧客とを通話させる(エージェントと顧客とを電話により対話させる)。
コールセンターシステム10は、複数の端末12(12−1〜12−N)と、中継装置14と、対話音声データ処理システム20とを備える。複数の端末12のそれぞれは、エージェントにより用いられる。複数の端末12のそれぞれは、電話機と、データ入出力用のコンピュータ装置とを有する。
中継装置14は、端末12と電話回線100と接続する。中継装置14は、一例として、一のエージェントが一の顧客に電話をかけた場合には(アウトバウンドコールの場合には)、当該一のエージェントの端末12を電話回線100に接続して、当該一のエージェントと当該一の顧客とを通話させる。また、中継装置14は、一例として、一の顧客が当該コールセンターに電話をかけた場合には(インバウンドコールの場合には)、一の顧客からの着信を複数の端末12のうちいずれか一つに転送して、当該一の顧客といずれかのエージェントとを通話させる。
対話音声データ処理システム20は、2者間(第1話者と第2話者との間)の対話の音声データを処理する。本実施形態においては、対話音声データ処理システム20は、2者間の対話の音声データを処理して、話者の発話割合を提示する。より具体的には、本実施形態において、対話音声データ処理システム20は、当該コールセンターシステム10において行なわれる通話における話者の発話割合を提示するばかりでなく分類も行う。すなわち、対話音声データ処理システム20は、エージェント(第1話者)と顧客(第2話者)との間での電話による対話を、話者の発話割合に基づいて分類も行う。
対話音声データ処理システム20は、一例として、当該コールセンターシステム10において行なわれた複数の通話を、特徴毎に分類してよい。また、対話音声データ処理システム20は、当該コールセンターシステム10において行なわれた一の通話が、所定の特徴を有する通話か否かを検出してもよい。例えば、対話音声データ処理システム20は、当該コールセンターシステム10において行なわれた一の通話が、例えば特徴のある会話が含まれる可能性の高い対話か否か、例えば商品等の販売が成功した可能性の高い対話か否か等を検出してもよい。
なお、対話音声データ処理システム20は、コールセンターシステム10において行なわれるものに限らず、2者間の対話を分類してよい。対話音声データ処理システム20は、一例として、例えば機器を介さない2者間の直接の対話を分類してもよいし、電話以外の通信機器による対話等を分類してもよい。
図2は、本実施形態に係る対話音声データ処理システム20の構成を示す。対話音声データ処理システム20は、記録部22と、第1推移算出部24と、第2推移算出部26と、差分算出部28と、平滑化部30と、提示部31とを有する。
記録部22は、当該コールセンターシステム10において行なわれた2者間の対話(エージェント(第1話者)と顧客(第2話者)との間の電話による対話)における声を表す音声信号を、対話毎に記録する。記録部22は、一例として、複数の対話のそれぞれの音声信号を、当該対話を識別するためのIDと対応付けて記録してよい。ここで、記録部22は、エージェントの声を表す音声信号および顧客の声を表す音声信号をそれぞれ別個に記録する。さらに、記録部22は、一例として、音声信号とともに、当該対話をしたエージェントを識別する情報および当該対話の日時等を記録してもよい。
第1推移算出部24は、エージェントと顧客との間の対話における音声データから、エージェントの発話割合の推移を算出する。第1推移算出部24は、一例として、分類対象となる対話におけるエージェントの音声信号を記録部22から読み出してよい。そして、第1推移算出部24は、一例として、読み出した音声信号に基づき、分類対象となる対話におけるエージェントの発話割合の推移を表わす第1発話割合データ列を算出してよい。
第1推移算出部24は、一例として、発話区間検出部42と、発話割合算出部44とを含んでよい。発話区間検出部42および発話割合算出部44の詳細な構成については、図3〜図7において説明する。
第2推移算出部26は、エージェントと顧客との間の対話における音声データから、顧客の発話割合の推移を算出する。第2推移算出部26は、一例として、分類対象となる対話における顧客の音声信号を記録部22から読み出してよい。そして、第2推移算出部26は、一例として、読み出した音声信号に基づき、分類対象となる対話における顧客の発話割合の推移を表わす第2発話割合データ列を算出してよい。
第2推移算出部26は、一例として、発話区間検出部42と、発話割合算出部44とを含んでよい。発話区間検出部42および発話割合算出部44は、第1推移算出部24に含まれる発話区間検出部42および発話割合算出部44と同一の構成であり、その詳細な構成については図3〜図7において説明する。
差分算出部28は、エージェントの発話割合と顧客の発話割合との差分の推移を表す差分データ列を算出する。差分算出部28は、一例として、第1推移算出部24により算出された第1発話割合データ列と、第2推移算出部26により算出された第2発話割合データ列との差分を表わす差分データ列を算出してよい。
平滑化部30は、差分データ列を平滑化した平滑差分データ列を生成する。平滑化部30は、一例として、詳細を図9および図10において説明するベジェ曲線および近傍n点の平均フィルタ等を用いて、平滑差分データ列を生成してよい。
提示部31は、平滑差分データ列を用いて表わされた、エージェントおよび顧客の発話割合の推移を提示する。提示部31は、分類部32を含む。分類部32は、平滑化部30により生成された平滑差分データ列に基づき、エージェントと顧客との対話を分類する。分類部32は、一例として、データパターンが類似するもの同士に複数の平滑差分データ列をグループ分けすることによって、対話を分類してよい。また、分類部32は、一例として、一の平滑差分データ列が所定のパターンに類似又は一致するか否かを検出することによって、対話を分類してもよい。
例えば、分類部32は、平滑差分データ列のパターンが類似する対話同士をグループ化して複数の対話を分類し、分類された複数の対話をグループ毎に表示してよい。また、例えば、分類部32は、エージェント毎に複数の対話を分類し、分類された複数の対話をエージェント毎に表示してもよい。
また、例えば、分類部32は、分類された複数の対話をグループ毎に表示する。そして、分類部32は、グループ毎に表示された複数の対話のうちの一のグループが選択された場合、選択されたグループに含まれる対話を時間順に並べて表示してもよい。
また、例えば、分類部32は、抽出すべき対象パターンにマッチングする平滑差分データ列を抽出し、抽出した平滑差分データ列に対応する対話の音声信号を記録部22から再生させてよい。この場合において、分類部32は、一例として、エージェントが電話をかけたか(アウトバウンドコール)、または、顧客が電話をかけたか(インバウンドコール)に応じて、対象パターンを変更してよい。
なお、分類部32の更なる詳細な構成については、図11において説明する。
図3は、音声信号および当該音声信号の発話区間の一例を示す。より詳しくは、図3の(A)は、一の対話におけるエージェントの音声信号および発話区間の一例を示す。図3の(B)は、当該一の対話における顧客の音声信号および発話区間の一例を示す。
発話区間検出部42は、分類対象となる対話のエージェント(または顧客)の音声信号を、記録部22から読み出す。そして、発話区間検出部42は、読み出した音声信号を解析して、エージェント(または顧客)が言葉を音声で出力している区間(発話区間)を検出する。発話区間検出部42は、一例として、エージェント(または顧客)が発話している開始時刻および終了時刻を、発話区間として出力してよい。
発話区間検出部42は、一例として、VAD(Voice Activity Detection)技術を用いて、音声信号から発話区間を検出してよい。なお、VADについては、非特許文献1に、一例が記載されている。
図4は、図3の(A)に示されたエージェントの音声信号および発話区間、並びに、発話割合算出部44が発話割合を算出するために設定するフレームの一例を示す。図5は、図3の(B)に示された顧客の音声信号および発話区間、並びに、発話割合算出部44が発話割合を算出するために設定するフレームの一例を示す。
発話割合算出部44は、音声信号の一部分の期間を指定するフレームを、音声信号の開始部分から終了部分まで所定時間ずつ順次にシフトさせて設定する。発話割合算出部44は、一例として、s秒(例えば15秒)間隔で順次にシフトした、期間がw秒(例えば30sec)のフレームを設定してよい。
そして、発話割合算出部44は、フレームにより指定された各期間に含まれる発話区間の割合を、発話割合として算出する。すなわち、発話割合算出部44は、順次に設定された複数のフレームのそれぞれについて、当該フレームの全時間長に対する当該フレームに含まれる発話区間の時間長の割合を発話割合として算出する。発話割合算出部44は、一例として、フレーム中に発話区間を含まない場合には0、フレーム中の全期間にわたって発話区間が含まれる場合には1となる値を、発話割合として出力してよい。
なお、発話割合算出部44は、一例として、対話全体の時間長よりも十分に短い期間を指定するフレームを設定してよい。また、発話割合算出部44は、一例として、フレームのシフト量をフレームの時間長よりも短い時間長に設定してよい。これにより、発話割合算出部44は、対話全体にわたる発話割合を隙間なく算出することができる。
また、発話割合算出部44は、一例として、エージェントの音声信号および顧客の音声信号に対して、同一の時間長、同一シフト量および同一タイミングのフレームを設定してよい。これにより、発話割合算出部44は、互いに同期した位相により音声信号の発話割合を算出することができる。
図6は、図4に示された音声信号から算出されたエージェントの発話割合の推移の一例を示す。図7は、図5に示された音声信号から算出された顧客の音声信号の発話割合の推移の一例を示す。特に、本実施形態では、音声データから発話区間を検出して発話割合を算出する処理が行われるので、発話をテキスト化して音声認識処理により発話割合を算出する場合に比べて、圧倒的に短い計算時間、例えば1000分の1以下の計算時間で、2者間の対話における発話割合の推移を提示することができる。すなわち、より大量の対話の音声データを処理することができる。
発話割合算出部44は、フレームを順次にシフトさせながら算出された発話割合を表わすデータを、順次に出力する。発話割合算出部44は、一例として、図6および図7に示されるように、0以上1以下の値で表わされた発話割合のデータ列を出力してよい。このようにして、発話割合算出部44は、エージェントと顧客との間の対話におけるエージェントの発話割合の推移を表わす第1発話割合データ列、および、エージェントと顧客との間の対話における顧客の発話割合の推移を表わす第2発話割合データ列を生成することができる。
図8は、図6に示されたエージェントの発話割合と、図7に示された顧客の発話割合との差分の推移の一例を示す。差分算出部28は、第1推移算出部24により算出された第1発話割合データ列の各値から、第2発話割合データ列の対応する値(例えば同一タイミングでサンプルされた音声信号に基づき生成された値)を減じた差分値を、順次に算出する。そして、差分算出部28は、算出した差分値を順次に出力する。
差分算出部28は、一例として、図8に示されるように、エージェントの発話割合から顧客の発話割合を減じた差分値(例えば−1以上1以下で表わされた値)の時系列データである差分データ列を出力してよい。この場合、差分データ列の各値は、エージェントが主に発話している場合には1に近い値となり、顧客が主に発話している場合には−1に近い値となり、エージェントと顧客とが同程度に発話している場合には0に近い値となる。このようにして、差分算出部28は、エージェントの発話割合と顧客の発話割合との差分の推移を表す差分データ列を算出することができる。
図9は、図8に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、ベジェ曲線を用いて平滑化した曲線を示す。図10は、図8に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、近傍5点を平均するフィルタ処理を用いて平滑化した曲線を示す。
平滑化部30は、一例として、ベジェ曲線を用いた平滑化処理により、差分算出部28により生成された差分データ列を平滑化してよい。すなわち、平滑化部30は、一例として、図8に示された曲線を表わすデータ列から、ベジェ曲線を利用して、図9に示されるような曲線を表わすデータ列を生成してよい。
また、平滑化部30は、一例として、近傍n点(nは自然数)を平均するフィルタ処理により、差分算出部28により生成された差分データ列を平滑化してよい。すなわち、平滑化部30は、一例として、図8に示された曲線を表わすデータ列から、近傍n点(本例においては5点)を平均するフィルタ処理を利用して、図10に示されるような曲線を表わすデータ列を生成してよい。
このようにして、平滑化部30は、差分データ列を平滑化した平滑差分データ列を生成することができる。これにより、平滑化部30は、例えば単にうなづいているような発話成分を差分データ列から除くことができる。なお、平滑化部30は、ベジェ曲線および近傍n点の平均化フィルタに代えて、他の平滑化フィルタを用いてもよい。
図11は、本実施形態に係る分類部32の構成の一例を示す。分類部32は、一例として、除去部52と、変換部54と、圧縮部56と、グループ化部58と、表示部60と、抽出部62と、出力部64とを含んでよい。
除去部52は、分類対象となる対話毎に、平滑化部30から平滑差分データ列が与えられる。本例において、平滑差分データ列の各値は、−1以上1以下で表わされる。
除去部52は、与えられた平滑差分データ列から、2者間の対話における先頭部分および終端部分の少なくとも一方を除く。除去部52は、一例として、平滑差分データ列における、先頭の所定数個のフレーム分のデータを除いてよい。さらに、除去部52は、一例として、平滑差分データ列における、終端の所定数個のフレーム分のデータを除いてよい。これにより、除去部52は、対話における冗長部分の音声(例えば、電話の呼び出し音、対話における定型の挨拶等)を除くことができる。なお、分類部32は、除去部52を備えない構成であってもよい。
変換部54は、除去部52により先頭部分および終端部分の少なくとも一方が除かれた平滑差分データ列が与えられる。変換部54は、与えられた平滑差分データ列を、エージェントが主に話している状態、顧客が主に話している状態、または、エージェントおよび顧客が共に話している状態を識別する値の推移を表わす分類用データ列に変換する。
変換部54は、一例として、平滑差分データ列に含まれる各値が、第1閾値(例えば、0.4)より大きければ、当該値をエージェントが主に話している状態を表わす値(例えば、1)に変換してよい。さらに、変換部54は、一例として、平滑差分データ列に含まれる各値が、第1閾値より小さい第2閾値(例えば、−0.3)より小さければ、当該値を顧客が主に話している状態を表わす値(例えば、−1)に変換してよい。さらに、変換部54は、一例として、平滑差分データ列に含まれる各値が、第1閾値以下第2閾値以上(例えば、0.4以下−0.3以上)であれば、当該値をエージェントおよび顧客が共に話している状態を表わす値(例えば、0)に変換してよい。これにより、変換部54は、エージェントが主に話している状態(例えば、1)、顧客が主に話している状態(例えば、−1)、エージェントおよび顧客が共に話している状態(例えば、0)を識別する値の推移を表わす分類用データ列を出力することができる。
また、この場合において、変換部54は、一例として、エージェントが顧客に対して行なう電話の内容および顧客からコールセンターへの問い合わせの内容等に応じて、第1閾値および第2閾値を変更してよい。また、変換部54は、一例として、インバウンドコールかアウトバウンドコールかに応じて、第1閾値および第2閾値を変更してもよい。
圧縮部56は、変換部54により生成された分類用データ列が与えられる。圧縮部56は、分類用データ列中における同一値が複数個連続するパターンを、同一値が1個のパターンに置き換える。圧縮部56は、一例として、分類用データ列に"1、1、−1、−1"というパターンが含まれていれば、当該パターンを"1、−1"に置き換えてよい。これにより、圧縮部56は、分類用データ列を、対話の特徴を保持しつつ他のデータ列と比較形式のデータ列に変換することができる。
また、圧縮部56は、一例として、連続する同一値の個数に上限を設定してもよい。上限として3個が設定されている場合、圧縮部56は、一例として、分類用データ列に"1、1、1、1、1、1、−1、−1、−1、−1"というパターンが含まれていれば、当該パターンを"1、1、−1、−1"に置き換えてよい。なお、分類部32は、圧縮部56を備えない構成であってもよい。
グループ化部58は、圧縮された分類用データ列(圧縮分類用データ列)が、圧縮部56から与えられる。グループ化部58は、複数の対話についての圧縮分類用データ列をグループ化する。グループ化部58は、一例として、複数の対話についての圧縮分類用データ列を、一致または類似するパターン毎にグループ化する。また、グループ化部58は、一例として、複数の対話についての圧縮分類用データ列を、エージェント毎に分類した後にグループ化してもよい。
表示部60は、グループ化した後の複数の圧縮分類用データ列を表示する。表示部60は、一例として、圧縮分類用データ列とともに、対応する対話のIDを表示してもよい。また、表示部60は、一例として、複数のエージェントのそれぞれ毎に、グループ化された複数の圧縮分類用データ列を表示してもよい。
これにより、グループ化部58および表示部60は、対話の特徴毎にグループ化された圧縮分類用データ列を、ユーザに提示することができる。グループ化部58および表示部60は、例えば、エージェントが一方的に発話した対話、顧客が一方的に発話した対話、両者が同じくらい発話した対話、前半はエージェントが一方的に発話して後半は顧客が一方的に発話した対話、といったように、対話を特徴毎にグループ化してユーザに提示することができる。
抽出部62は、圧縮部56から圧縮分類用データ列が与えられる。抽出部62は、与えられた圧縮分類用データ列が、抽出すべき対象パターンに一致するかを抽出する。これに代えて、抽出部62は、抽出すべき対象パターンに対応するグループに含まれる圧縮分類用データ列を、グループ化部58から抽出してもよい。
また、対話は、アウトバウンドコールかインバウンドコールかによって、発話割合の傾向が異なる。従って、抽出部62は、一例として、アウトバウンドコールかインバウンドコールかに応じて対象パターンを変更してよい。出力部64は、抽出部62により抽出された圧縮分類用データに対応する対話の音声信号を記録部22から読み出して、ユーザに対して出力する。
これにより、抽出部62および出力部64は、所定の特徴を有する対話を抽出して、ユーザに出力することができる。抽出部62および出力部64は、一例として、エージェントが一方的に発話している対話の音声を出力することができる。
なお、分類部32は、以上の構成に代えて、平滑差分データ列のデータの変化割合(傾き)に応じて、対話においてエージェントまたは顧客のいずれが主に発話しているかを表わす値の推移を算出する構成であってもよい。これにより、分類部32は、会話の主導権がどのように変化していったかに応じて、対話を分類することができる。これにより、分類部32は、一例として、最初はエージェントが会話の主導権を有していたが徐々に会話の主導権が顧客に変化していった対話、急激に顧客が発話を始めた対話等を分類することができる。
図12は、グループ化部58による分類結果を表示部60が表示した表示画面の一例を示す。表示部60は、図12に示されるように、一例として、圧縮分類用データ列の値のパターンのそれぞれと、当該パターンとなる対話の数とを表示してよい。これにより、表示部60は、比較的に数の多いパターンと、比較的に数の少ない特異なパターンとをユーザに提示することができる。
さらに、表示部60は、一例として、図12に示された画面上の一のパターンが選択されたことに応じて、選択されたパターンに対応する対話のIDを時間順に並べて表示してもよい。また、表示部60は、一例として、図12に示される画面を、エージェント毎に表示してもよい。また、例えば、表示部60に表示されたIDまたはパターンをユーザが選択したことに応じて、出力部64は、対話の音声信号を記録部22から読み出して、ユーザに対して出力してもよい。
図13は、対話音声データ処理システム20の処理フローの一例を示す。対話音声データ処理システム20は、記録部22に記録された対話のそれぞれに対して、図13に示すステップS101からステップS105までの処理を実行する。
まず、ステップ101において、発話区間検出部42は、エージェントの音声データの系列(A(t)からエージェントの発話区間を表わすデータ系列を算出する。さらに、ステップS101において、発話区間検出部42は、顧客の音声データの系列(A(t))から、顧客の発話区間を表わすデータ系列を算出する。
発話区間検出部42は、発話区間を表わすデータ系列として、一例として、発話していると判断した時刻において"1"、発話していないと判断した時刻において"0"を表わす2値のデータ系列を出力してよい。これに代えて、発話区間検出部42は、対話の先頭から末尾までに含まれる1以上の発話区間のそれぞれについて、当該発話区間の開始時刻と終了時刻を表わした情報を出力してもよい。
音声データの系列から発話区間(非発話区間)を検出する方法としては、例えば、非特許文献1に記載されたVADの技術を用いた例が挙げられる。また、その他の方法としては、例えば、音声のパワーの推移に基づき発話区間を判断してもよい。
続いて、ステップS102において、発話割合算出部44は、エージェントおよび顧客の発話区間を表わすデータ系列に対して、それぞれ、w秒(例えば30秒)のフレームをs秒(例えば15秒)ずつシフトさせて、フレーム内における発話区間の割合を表わすデータ系列(P(t)、P(t))を算出する。例えば、発話割合算出部44は、次のような処理(または演算)をすることにより、発話区間の割合を表わすデータ系列(P(t)、P(t))を算出することができる。
例えば、ステップS101において、以下の発話区間が算出されたとする。
発話区間1(開始時刻−終了時刻):3秒−5秒
発話区間2:10秒−20秒
発話区間3:28秒−35秒
この場合、時刻0秒から開始されるフレームにおいては、(5−3)+(20−10)+(30−28)=14秒が、合計の発話区間となる。従って、発話割合算出部44は、このフレームについて、14秒/30秒=0.47を発話区間の割合として算出する。
続いて、ステップS103において、差分算出部28は、エージェントの発話割合を表わすデータ系列(P(t))と、顧客の発話割合を表わすデータ系列(P(t))との差分を表わす差分データ列(D(t))を算出する。差分算出部28は、一例として、サンプル毎に、下記の演算を行うことにより、差分データ列D(t)を算出する。
D(t)=P(t)−P(t)
続いて、ステップS104において、平滑化部30は、差分データ列D(t)を平滑化した平滑差分データ列(Ds(t))を算出する。平滑化部30は、一例として、差分データ列(D(t))を平均化フィルタによりフィルタリングすることにより、平滑差分データ列(Ds(t))を算出してよい。
より具体的には、例えば、平滑化部30は、次の式(1)の演算をすることにより、平滑差分データ列(Ds(t))を算出してもよい。なお、式(1)において、差分データ列D(t)は、D(i=0,1,2,…,N)と表わされ、平滑差分データ列Ds(t)は、Ds(i=0,1,2,…,N)と表わされている。
Figure 0005088741
なお、平滑化部30は、データ系列の先頭部分(i<k)および終端部分(i>N−k)については、別途修正した演算を実行してよい。平滑化部30は、一例として、当該差分データ列Diの先頭データより前または最終データより後ろのデータ値を補間して上記の演算をしてよい。
続いて、ステップS105において、提示部31は、ステップS104において算出された平滑差分データ列(D(t))をユーザに提示する。提示部31は、一例として、平滑差分データ列をグループ毎に分類してユーザに表示等をしてよい。
図14は、図13のステップS101の発話区間の検出フローの一例を示す。図15は、図14に示した各ステップにおいて算出されるデータの一例を示す。
まず、ステップS111において、発話区間検出部42は、音声データの系列を読み出す。発話区間検出部42は、一例として、図15の(A)に示されるような音声データを読み出してよい。
続いて、ステップS112において、発話区間検出部42は、音声データの系列を微小時間(ウィンドウ)毎に分割する。発話区間検出部42は、一例として、図15の(B)に示されるように分割してよい。ウィンドウは、ステップS102のフレームよりも十分に短い期間(例えば、数十m秒)であることが好ましい。
続いて、ステップS113において、発話区間検出部42は、ウィンドウ毎に、当該ウィンドウにおける音声データのパワーを算出する。発話区間検出部42は、一例として、図15の(C)に示されるように、ウィンドウ毎のパワーを算出してよい。
続いて、ステップS114において、発話区間検出部42は、ウィンドウ毎に、パワーを予め定められた閾値と比較する。続いて、ステップS115において、発話区間検出部42は、パワーが、所定数のウィンドウ以上連続して閾値以上であるか否かを判断する。そして、発話区間検出部42は、パワーが、所定数のウィンドウ以上連続して閾値以上である部分を発話区間と判断し(S116)、発話区間以外の部分を非発話区間と判断する(S117)。
続いて、ステップS118において、発話区間検出部42は、音声データの発話区間と判断された各部分のそれぞれについて、開始時刻および終了時刻を表わす情報を生成する。発話区間検出部42は、一例として、図15の(D)に示されるような情報を生成してよい。
図16は、図13のステップS105において、提示部31内の分類部32が実行する分類処理のフローの一例を示す。まず、ステップS131において、分類部32は、平滑差分データ列(Ds(t))を読み出す。
続いて、分類部32は、平滑差分データ列(Ds(t))の先頭サンプル(Ds(0))から最終サンプル(Ds(N))まで、1サンプルずつ順次に、ステップS133からステップS137までの処理を繰返し実行して分類用データ列(P(t))を生成する(S132、S138)。まず、ステップS133において、分類部32は、選択されたサンプルの値が第1閾値(例えば、0.4)より大きいか否かを判断する。分類部32は、選択されたサンプルの値が第1閾値(例えば、0.4)より大きい場合(ステップS133のYes)、続いて、ステップS134において、分類用データ列(P(t))の対応するサンプルの値を"1"とする。
分類部32は、選択されたサンプルの値が第1閾値(例えば、0.4)以下の場合(ステップS133のNo)、続いて、ステップS135において、分類部32は、選択されたサンプルの値が第2閾値(例えば、−0.3)より小さいか否かを判断する。分類部32は、選択されたサンプルの値が第2閾値(例えば、−0.3)より小さい場合(ステップS135のYes)、続いて、ステップS136において、分類用データ列(P(t))の対応するサンプルの値を"−1"とする。分類部32は、選択されたサンプルの値が第2閾値(例えば、−0.3)以上の場合(ステップS135のNo)、続いて、ステップS137において、分類用データ列(P(t))の対応するサンプルの値を"0"とする。
続いて、ステップS139において、分類部32は、分類用データ列(P(t))の先頭および末尾の所定個のサンプルを除去する。続いて、ステップS140において、分類部32は、同一値が複数個連続するパターンを同一値が1個のパターンに置き換えて、圧縮した分類用データ列(P(t))を生成する。
続いて、ステップS141において、分類部32は、圧縮した分類用データ列(P(t))が、登録済みのパターンと一致するか否かを判断する。圧縮した分類用データ列(P(t))が登録済みのパターンと一致しない場合(S141のNo)、ステップS142において、分類部32は、当該圧縮した分類用データ列(P(t))のデータパターンを、新規パターンとして登録する。これとともに、ステップS142において、分類部32は、登録したパターンの対話数を1回に設定する。一方、圧縮した分類用データ列(P(t))が登録済みのパターンと一致した場合(S141のYes)、ステップS143において、分類部32は、当該登録済みのパターンの対話数をインクリメントする。
続いて、ステップS144において、分類部32は、ステップS142において新規登録したパターンまたはステップS143において対話数をインクリメントした登録済みのパターンに対応付けて、当該対話のIDを登録する。対話音声データ処理システム20は、以上のような処理を実行することにより、コールセンターにおけるエージェントと顧客との間の対話を分類することができる。
図17は、本実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。本実施形態に係るコンピュータ1900は、ホスト・コントローラ2082により相互に接続されるCPU2000、RAM2020、グラフィック・コントローラ2075、及び表示装置2080を有するCPU周辺部と、入出力コントローラ2084によりホスト・コントローラ2082に接続される通信インターフェイス2030、ハードディスクドライブ2040、及びCD−ROMドライブ2060を有する入出力部と、入出力コントローラ2084に接続されるROM2010、フレキシブルディスク・ドライブ2050、及び入出力チップ2070を有するレガシー入出力部とを備える。
ホスト・コントローラ2082は、RAM2020と、高い転送レートでRAM2020をアクセスするCPU2000及びグラフィック・コントローラ2075とを接続する。CPU2000は、ROM2010及びRAM2020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィック・コントローラ2075は、CPU2000等がRAM2020内に設けたフレーム・バッファ上に生成する画像データを取得し、表示装置2080上に表示させる。これに代えて、グラフィック・コントローラ2075は、CPU2000等が生成する画像データを格納するフレーム・バッファを、内部に含んでもよい。
入出力コントローラ2084は、ホスト・コントローラ2082と、比較的高速な入出力装置である通信インターフェイス2030、ハードディスクドライブ2040、CD−ROMドライブ2060を接続する。通信インターフェイス2030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ2040は、コンピュータ1900内のCPU2000が使用するプログラム及びデータを格納する。CD−ROMドライブ2060は、CD−ROM2095からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。
また、入出力コントローラ2084には、ROM2010と、フレキシブルディスク・ドライブ2050、及び入出力チップ2070の比較的低速な入出力装置とが接続される。ROM2010は、コンピュータ1900が起動時に実行するブート・プログラム、及び/又は、コンピュータ1900のハードウェアに依存するプログラム等を格納する。フレキシブルディスク・ドライブ2050は、フレキシブルディスク2090からプログラム又はデータを読み取り、RAM2020を介してハードディスクドライブ2040に提供する。入出力チップ2070は、フレキシブルディスク・ドライブ2050を入出力コントローラ2084へと接続すると共に、例えばパラレル・ポート、シリアル・ポート、キーボード・ポート、マウス・ポート等を介して各種の入出力装置を入出力コントローラ2084へと接続する。
RAM2020を介してハードディスクドライブ2040に提供されるプログラムは、フレキシブルディスク2090、CD−ROM2095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、RAM2020を介してコンピュータ1900内のハードディスクドライブ2040にインストールされ、CPU2000において実行される。
コンピュータ1900にインストールされ、コンピュータ1900を対話音声データ処理システム20として機能させるプログラムは、記録モジュールと、第1推移算出モジュールと、第2推移算出モジュールと、差分算出モジュールと、平滑化モジュールと、分類モジュールとを備える。これらのプログラム又はモジュールは、CPU2000等に働きかけて、コンピュータ1900を、記録部22、第1推移算出部24、第2推移算出部26、差分算出部28、平滑化部30、分類部32としてそれぞれ機能させる。
これらのプログラムに記述された情報処理は、コンピュータ1900に読込まれることにより、ソフトウェアと上述した各種のハードウェア資源とが協働した具体的手段である記録部22、第1推移算出部24、第2推移算出部26、差分算出部28、平滑化部30、分類部32として機能する。そして、これらの具体的手段によって、本実施形態におけるコンピュータ1900の使用目的に応じた情報の演算又は加工を実現することにより、使用目的に応じた特有の対話音声データ処理システム20が構築される。
一例として、コンピュータ1900と外部の装置等との間で通信を行う場合には、CPU2000は、RAM2020上にロードされた通信プログラムを実行し、通信プログラムに記述された処理内容に基づいて、通信インターフェイス2030に対して通信処理を指示する。通信インターフェイス2030は、CPU2000の制御を受けて、RAM2020、ハードディスクドライブ2040、フレキシブルディスク2090、又はCD−ROM2095等の記憶装置上に設けた送信バッファ領域等に記憶された送信データを読み出してネットワークへと送信し、もしくは、ネットワークから受信した受信データを記憶装置上に設けた受信バッファ領域等へと書き込む。このように、通信インターフェイス2030は、DMA(ダイレクト・メモリ・アクセス)方式により記憶装置との間で送受信データを転送してもよく、これに代えて、CPU2000が転送元の記憶装置又は通信インターフェイス2030からデータを読み出し、転送先の通信インターフェイス2030又は記憶装置へとデータを書き込むことにより送受信データを転送してもよい。
また、CPU2000は、ハードディスクドライブ2040、CD−ROMドライブ2060(CD−ROM2095)、フレキシブルディスク・ドライブ2050(フレキシブルディスク2090)等の外部記憶装置に格納されたファイルまたはデータベース等の中から、全部または必要な部分をDMA転送等によりRAM2020へと読み込ませ、RAM2020上のデータに対して各種の処理を行う。そして、CPU2000は、処理を終えたデータを、DMA転送等により外部記憶装置へと書き戻す。このような処理において、RAM2020は、外部記憶装置の内容を一時的に保持するものとみなせるから、本実施形態においてはRAM2020および外部記憶装置等をメモリ、記憶部、または記憶装置等と総称する。本実施形態における各種のプログラム、データ、テーブル、データベース等の各種の情報は、このような記憶装置上に格納されて、情報処理の対象となる。なお、CPU2000は、RAM2020の一部をキャッシュメモリに保持し、キャッシュメモリ上で読み書きを行うこともできる。このような形態においても、キャッシュメモリはRAM2020の機能の一部を担うから、本実施形態においては、区別して示す場合を除き、キャッシュメモリもRAM2020、メモリ、及び/又は記憶装置に含まれるものとする。
また、CPU2000は、RAM2020から読み出したデータに対して、プログラムの命令列により指定された、本実施形態中に記載した各種の演算、情報の加工、条件判断、情報の検索・置換等を含む各種の処理を行い、RAM2020へと書き戻す。例えば、CPU2000は、条件判断を行う場合においては、本実施形態において示した各種の変数が、他の変数または定数と比較して、大きい、小さい、以上、以下、等しい等の条件を満たすかどうかを判断し、条件が成立した場合(又は不成立であった場合)に、異なる命令列へと分岐し、またはサブルーチンを呼び出す。
また、CPU2000は、記憶装置内のファイルまたはデータベース等に格納された情報を検索することができる。例えば、第1属性の属性値に対し第2属性の属性値がそれぞれ対応付けられた複数のエントリが記憶装置に格納されている場合において、CPU2000は、記憶装置に格納されている複数のエントリの中から第1属性の属性値が指定された条件と一致するエントリを検索し、そのエントリに格納されている第2属性の属性値を読み出すことにより、所定の条件を満たす第1属性に対応付けられた第2属性の属性値を得ることができる。
以上に示したプログラム又はモジュールは、外部の記録媒体に格納されてもよい。記録媒体としては、フレキシブルディスク2090、CD−ROM2095の他に、DVD又はCD等の光学記録媒体、MO等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワーク又はインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムをコンピュータ1900に提供してもよい。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、本実施形態に係るコールセンターシステム10の構成を電話回線100とともに示す。 図2は、本実施形態に係る対話音声データ処理システム20の構成を示す。 図3は、音声信号および当該音声信号の発話区間の一例を示す。 図4は、図3の(A)に示されたエージェントの音声信号および発話区間、並びに、発話割合算出部44が発話割合を算出するために設定するフレームの一例を示す。 図5は、図3の(B)に示された顧客の音声信号および発話区間、並びに、発話割合算出部44が発話割合を算出するために設定するフレームの一例を示す。 図6は、図4に示された音声信号から算出されたエージェントの発話割合の推移の一例を示す。 図7は、図5に示された音声信号から算出された顧客の音声信号の発話割合の推移の一例を示す。 図8は、図6に示されたエージェントの発話割合と、図7に示された顧客の発話割合との差分の推移の一例を示す。 図9は、図8に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、ベジェ曲線を用いて平滑化した曲線を示す。 図10は、図8に示されたエージェントの発話割合と顧客の発話割合との差分の推移を表わす曲線を、近傍5点を平均するフィルタ処理を用いて平滑化した曲線を示す。 図11は、本実施形態に係る分類部32の構成の一例を示す。 図12は、グループ化部58による分類結果を表示部60が表示した表示画面の一例を示す。 図13は、対話音声データ処理システム20の処理フローの一例を示す。 図14は、図13のステップS101の発話区間の検出フローの一例を示す。 図15は、図14に示した各ステップにおいて算出されるデータの一例を示す。 図16は、図13のステップS105において、提示部31内の分類部32が実行する分類処理のフローの一例を示す。 図17は、本発明の実施形態に係るコンピュータ1900のハードウェア構成の一例を示す。
符号の説明
10 コールセンターシステム
12 端末
14 中継装置
20 対話音声データ処理システム
22 記録部
24 第1推移算出部
26 第2推移算出部
28 差分算出部
30 平滑化部
31 提示部
32 分類部
42 発話区間検出部
44 発話割合算出部
52 除去部
54 変換部
56 圧縮部
58 グループ化部
60 表示部
62 抽出部
64 出力部
100 電話回線
1900 コンピュータ
2000 CPU
2010 ROM
2020 RAM
2030 通信インターフェイス
2040 ハードディスクドライブ
2050 フレキシブルディスク・ドライブ
2060 CD−ROMドライブ
2070 入出力チップ
2075 グラフィック・コントローラ
2080 表示装置
2082 ホスト・コントローラ
2084 入出力コントローラ
2090 フレキシブルディスク
2095 CD−ROM

Claims (13)

  1. 2者間の対話の音声データを処理するシステムであって、
    前記2者間の対話における音声データから第1話者の発話割合の推移を算出する第1推移算出部と、
    前記2者間の対話における音声データから第2話者の発話割合の推移を算出する第2推移算出部と、
    前記第1話者の発話割合と前記第2話者の発話割合との差分の推移を表す差分データ列を算出する差分算出部と、
    前記差分データ列を平滑化した平滑差分データ列を生成する平滑化部と、
    前記平滑差分データ列を用いて表された、前記第1話者および前記第2話者の発話割合の推移を提示する提示部と
    を備え、
    前記提示部は、前記平滑差分データ列のパターンが所定のパターンに類似又は一致するか否かを検出することによって、前記第1話者と前記第2話者との対話を分類して、分類結果を出力する分類部を有する
    システム。
  2. 前記分類部は、前記平滑差分データ列のパターンが類似する対話同士をグループ化して、複数の対話を分類する
    請求項に記載のシステム。
  3. 前記分類部は、前記平滑差分データ列を、前記第1話者が主に話している状態、前記第2話者が主に話している状態、または、前記第1話者および前記第2話者が共に話している状態を識別する値の推移を表わす分類用データ列に変換し、前記分類用データ列のパターンに基づき複数の対話を分類する
    請求項に記載のシステム。
  4. 前記分類部は、前記分類用データ列中における同一値が複数個連続するパターンを、前記同一値が1個のパターンに置き換える
    請求項に記載のシステム。
  5. 第1推移算出部は、前記第1話者および前記第2話者の間の電話による対話における前記第1話者の声を表す音声信号から、前記第1話者の発話割合の推移を算出し、
    第2推移算出部は、前記第1話者および前記第2話者の間の電話による対話における前記第2話者の声を表す音声信号から、前記第2話者の発話割合の推移を算出する
    請求項に記載のシステム。
  6. 前記分類部は、前記2者間の対話における先頭部分および終端部分の少なくとも一方を除いた前記平滑差分データ列に基づき、前記第1話者と前記第2話者との対話を分類する
    請求項に記載のシステム。
  7. 前記第1話者および前記第2話者の声を表す音声信号を、対話毎に記録する記録部を更に備え、
    前記分類部は、抽出すべき対象パターンにマッチングする前記平滑差分データ列を抽出し、抽出した前記平滑差分データ列に対応する対話の前記音声信号を前記記録部から再生させる
    請求項に記載のシステム。
  8. 前記分類部は、前記第1話者が電話をかけたか、または、前記第2話者が電話をかけたかに応じて、前記対象パターンを変更する
    請求項に記載のシステム。
  9. 前記分類部は、前記平滑差分データ列のデータの変化割合に応じて、前記対話において前記第1話者または前記第2話者のいずれが主に発話しているかを表わす値の推移を算出する
    請求項に記載のシステム。
  10. 前記分類部は、前記平滑差分データ列のパターンが類似する対話同士をグループ化して、複数の対話を分類し、分類された複数の対話をグループ毎に表示し、一のグループが選択された場合、選択されたグループに含まれる対話を時間順に並べて表示する
    請求項に記載のシステム。
  11. 前記分類部は、前記第1話者毎に複数の対話を分類し、分類された複数の対話を前記第1話者毎に表示する
    請求項に記載のシステム。
  12. 2者間の対話の音声データを処理する方法であって、
    前記2者間の対話における音声データから第1話者の発話割合の推移を算出する第1推移算出ステップと、
    前記2者間の対話における音声データから第2話者の発話割合の推移を算出する第2推移算出ステップと、
    前記第1話者の発話割合と前記第2話者の発話割合との差分の推移を表す差分データ列を算出する差分算出ステップと、
    前記差分データ列を平滑化した平滑差分データ列を生成する平滑化ステップと、
    前記平滑差分データ列を用いて表された、前記第1話者および前記第2話者の発話割合の推移を提示する提示ステップと、
    前記平滑差分データ列のパターンが所定のパターンに類似又は一致するか否かを検出することによって、前記第1話者と第前記2話者との対話を分類して、分類結果を出力する分類ステップと、
    を備える方法。
  13. 2者間の対話の音声データを処理するシステムとして、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    前記2者間の対話における音声データから第1話者の発話割合の推移を算出する第1推移算出部と、
    前記2者間の対話における音声データから第2話者の発話割合の推移を算出する第2推移算出部と、
    前記第1話者の発話割合と前記第2話者の発話割合との差分の推移を表す差分データ列を算出する差分算出部と、
    前記差分データ列を平滑化した平滑差分データ列を生成する平滑化部と、
    前記平滑差分データ列のパターンが所定のパターンに類似又は一致するか否かを検出することによって、前記第1話者と前記第2話者との対話を分類して、分類結果を出力する分類部を有し、前記平滑差分データ列を用いて表された、前記第1話者および前記第2話者の発話割合の推移を提示する提示部と
    して機能させるプログラム。
JP2008058745A 2008-03-07 2008-03-07 2者間の対話の音声データを処理するシステム、方法およびプログラム Expired - Fee Related JP5088741B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008058745A JP5088741B2 (ja) 2008-03-07 2008-03-07 2者間の対話の音声データを処理するシステム、方法およびプログラム
US12/399,560 US8165874B2 (en) 2008-03-07 2009-03-06 System, method, and program product for processing speech ratio difference data variations in a conversation between two persons

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008058745A JP5088741B2 (ja) 2008-03-07 2008-03-07 2者間の対話の音声データを処理するシステム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009216840A JP2009216840A (ja) 2009-09-24
JP5088741B2 true JP5088741B2 (ja) 2012-12-05

Family

ID=41054549

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008058745A Expired - Fee Related JP5088741B2 (ja) 2008-03-07 2008-03-07 2者間の対話の音声データを処理するシステム、方法およびプログラム

Country Status (2)

Country Link
US (1) US8165874B2 (ja)
JP (1) JP5088741B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5385677B2 (ja) * 2009-05-12 2014-01-08 日本電信電話株式会社 対話状態分割装置とその方法、そのプログラムと記録媒体
JP5477153B2 (ja) * 2010-05-11 2014-04-23 セイコーエプソン株式会社 接客データ記録装置、接客データ記録方法およびプログラム
JP5549506B2 (ja) * 2010-09-28 2014-07-16 富士通株式会社 音声認識装置及び音声認識方法
WO2012127592A1 (ja) 2011-03-18 2012-09-27 富士通株式会社 通話評価装置、通話評価方法
JP5810946B2 (ja) 2012-01-31 2015-11-11 富士通株式会社 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム
IE86378B1 (en) * 2012-02-13 2014-04-09 Tata Consultancy Services Ltd A system for conversation quality monitoring of call center conversation and a method thereof
US9711167B2 (en) * 2012-03-13 2017-07-18 Nice Ltd. System and method for real-time speaker segmentation of audio interactions
CN103701999B (zh) * 2012-09-27 2017-03-01 中国电信股份有限公司 呼叫中心语音通话的监控方法与系统
CN103795876A (zh) * 2012-10-29 2014-05-14 殷程 智能语音脚本
US9178998B2 (en) * 2013-03-12 2015-11-03 Avaya Inc. System and method for recording calls in a WebRTC contact center
JP6327252B2 (ja) * 2013-08-07 2018-05-23 日本電気株式会社 分析対象決定装置及び分析対象決定方法
US9870765B2 (en) * 2016-06-03 2018-01-16 International Business Machines Corporation Detecting customers with low speech recognition accuracy by investigating consistency of conversation in call-center
US20180158462A1 (en) * 2016-12-02 2018-06-07 Cirrus Logic International Semiconductor Ltd. Speaker identification
US10332545B2 (en) * 2017-11-28 2019-06-25 Nuance Communications, Inc. System and method for temporal and power based zone detection in speaker dependent microphone environments
CN108986844B (zh) * 2018-08-06 2020-08-28 东北大学 一种基于说话人语音特征的语音端点检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5854832A (en) * 1995-06-26 1998-12-29 Rockwell International Corp. Monitoring system and method used in automatic call distributor for timing incoming telephone calls
US5737405A (en) * 1995-07-25 1998-04-07 Rockwell International Corporation Apparatus and method for detecting conversation interruptions in a telephonic switch
US6363145B1 (en) * 1998-08-17 2002-03-26 Siemens Information And Communication Networks, Inc. Apparatus and method for automated voice analysis in ACD silent call monitoring
JP3872263B2 (ja) 2000-08-07 2007-01-24 富士通株式会社 Ctiサーバ及びプログラム記録媒体
JP2006208482A (ja) * 2005-01-25 2006-08-10 Sony Corp 会議の活性化を支援する装置,方法,プログラム及び記録媒体
JP2006267465A (ja) 2005-03-23 2006-10-05 Tokyo Electric Power Co Inc:The 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
DE102005014524B3 (de) * 2005-03-30 2006-12-07 Siemens Ag Verfahren zur Abwehr unerwünschter Telefonwerbung für Kommunikationsnetze
US7995717B2 (en) * 2005-05-18 2011-08-09 Mattersight Corporation Method and system for analyzing separated voice data of a telephonic communication between a customer and a contact center by applying a psychological behavioral model thereto
JP2007033754A (ja) * 2005-07-26 2007-02-08 Nec Corp 音声監視システムと方法並びにプログラム
JP2007288242A (ja) * 2006-04-12 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> オペレータ評価方法、装置、オペレータ評価プログラム、記録媒体
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法
US7881234B2 (en) * 2006-10-19 2011-02-01 International Business Machines Corporation Detecting interruptions in audio conversations and conferences, and using a conversation marker indicative of the interrupted conversation
US7869586B2 (en) * 2007-03-30 2011-01-11 Eloyalty Corporation Method and system for aggregating and analyzing data relating to a plurality of interactions between a customer and a contact center and generating business process analytics

Also Published As

Publication number Publication date
US8165874B2 (en) 2012-04-24
JP2009216840A (ja) 2009-09-24
US20090228268A1 (en) 2009-09-10

Similar Documents

Publication Publication Date Title
JP5088741B2 (ja) 2者間の対話の音声データを処理するシステム、方法およびプログラム
US11776547B2 (en) System and method of video capture and search optimization for creating an acoustic voiceprint
US11037553B2 (en) Learning-type interactive device
CN107154257B (zh) 基于客户语音情感的客服服务质量评价方法及系统
US9014363B2 (en) System and method for automatically generating adaptive interaction logs from customer interaction text
US8583434B2 (en) Methods for statistical analysis of speech
US8145486B2 (en) Indexing apparatus, indexing method, and computer program product
US20100070276A1 (en) Method and apparatus for interaction or discourse analytics
US8761373B1 (en) System and method for determining IVR application flow from customer-service call recordings
JP5385677B2 (ja) 対話状態分割装置とその方法、そのプログラムと記録媒体
JPWO2005069171A1 (ja) 文書対応付け装置、および文書対応付け方法
JP5099211B2 (ja) 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置
JP2017199254A (ja) 会話分析装置、会話分析方法および会話分析プログラム
US8442831B2 (en) Sound envelope deconstruction to identify words in continuous speech
JP6208794B2 (ja) 会話分析装置、方法及びコンピュータプログラム
US20110119052A1 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
JP2005321530A (ja) 発話識別装置および発話識別方法
US11398239B1 (en) ASR-enhanced speech compression
JP5713782B2 (ja) 情報処理装置、情報処理方法及びプログラム
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质
JP7156084B2 (ja) 音信号処理プログラム、音信号処理方法及び音信号処理装置
JP6537996B2 (ja) 未知語検出装置、未知語検出方法、プログラム
CN116935895A (zh) 信息处理方法、装置、电子设备以及存储介质
CN117219118A (zh) 音频质检的方法及系统
JP2010008764A (ja) 音声認識方法、音声認識システム、および音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120814

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20120815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120904

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5088741

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees