JP2017199254A - 会話分析装置、会話分析方法および会話分析プログラム - Google Patents
会話分析装置、会話分析方法および会話分析プログラム Download PDFInfo
- Publication number
- JP2017199254A JP2017199254A JP2016090804A JP2016090804A JP2017199254A JP 2017199254 A JP2017199254 A JP 2017199254A JP 2016090804 A JP2016090804 A JP 2016090804A JP 2016090804 A JP2016090804 A JP 2016090804A JP 2017199254 A JP2017199254 A JP 2017199254A
- Authority
- JP
- Japan
- Prior art keywords
- conversation
- emotion
- utterance
- classification target
- target text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】会話の話者が切実に訴えている重要意見を効率よく発見すること。【解決手段】会話分析装置であって、会話音声から話者の感情情報を推定する感情推定部と、会話音声から会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出部と、推定した感情情報を分類対象テキストに付与する感情付与部と、部類対象テキストの意味に応じて、分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて分類対象テキストをクラスタに分類する分類部と、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、複数のクラスタを順位付けする順位付け部と、を備えた。【選択図】 図1
Description
本発明は、会話分析装置、会話分析方法および会話分析プログラムに関する。
上記技術分野において、特許文献1には、会話内容に基づいて会話を分類する技術が開示されている。また、特許文献2には、感情情報の因子ごとに数値により表現したその感情の度合いを通話開始から通話終了にかけて継続的に推定する技術が開示されている(段落[0067]等)。なお、教師なしテキスト分類の手法として、特許文献3には、クラスタに含まれる複数の分類対象テキスト間の含意関係に基づいて、代表となる分類対象テキストを選択することで、代表テキストを生成する手法が開示されている。
しかしながら、上記文献に記載の技術では、会話の話者が切実に訴えている重要意見を効率よく発見することが困難であった。
本発明の目的は、上述の課題を解決する技術を提供することにある。
上記目的を達成するため、本発明に係る会話分析装置は、
会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた。
会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた。
上記目的を達成するため、本発明に係る会話分析方法は、
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む。
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む。
上記目的を達成するため、本発明に係る会話分析プログラムは、
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる。
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる。
本発明によれば、会話の話者が切実に訴えている重要意見を効率よく発見することができる。
以下に、本発明を実施するための形態について、図面を参照して、例示的に詳しく説明記載する。ただし、以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、その変形や変更は自由であって、本発明の技術範囲を以下の記載に限定する趣旨のものではない。
以下に例示される各実施形態における会話分析装置および会話分析方法は、会話音声を処理する。会話音声において発話している話者は一人であっても、複数であってもよい。以下の各実施形態では、一続きの発声を「発話」と表記し、複数の発話から構成される会話全体の音声を「会話音声」と表記する。一つの発話は、概ね一つの文に相当するが、必ずしも完成文であるとは限らない。また、以下の各実施形態では、分析対象となる会話音声としてコールセンタの会話が例示され、顧客の用件(コールリーズン)の分析を行う。ただし、各実施形態は、コールセンタへの適用や顧客の用件の分析のみに制限されず、様々な場面における会話の様々な目的の分析に適用されてもよい。なお、以下の各実施形態では、「会話音声」のことを「通話音声」と表記する場合もある。
[第1実施形態]
本発明の第1実施形態としての会話分析装置100について、図1を用いて説明する。会話分析装置100は、会話音声を処理し、分析する装置である。
本発明の第1実施形態としての会話分析装置100について、図1を用いて説明する。会話分析装置100は、会話音声を処理し、分析する装置である。
図1に示すように、会話分析装置100は、感情推定部101と、分類対象テキスト抽出部102と、感情付与部103と、分類部104と、順位付け部105とを備える。感情推定部101は、会話音声から話者の感情情報を推定する。分類対象テキスト抽出部102は、会話音声から会話音声の一部区間の発話内容を表す分類対象テキストを抽出する。感情付与部103は、推定した感情情報を分類対象テキストに付与する。分類部104は、分類対象テキストの意味に応じて、分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて分類対象テキストをクラスタに分類する。順位付け部105は、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、複数のクラスタを順位付けする。
本実施形態によれば、会話の話者が切実に訴えている重要意見を効率よく発見することができる。
[第2実施形態]
次に本発明の第2実施形態に係る会話分析装置について、図2A乃至図18を用いて説明する。
次に本発明の第2実施形態に係る会話分析装置について、図2A乃至図18を用いて説明する。
<前提技術>
近年、情報処理システムによる会話音声の分析が注目されている。例えば、コールセンタの通話音声を分析して顧客の声を効率的に把握することで、製品・サービスに対するニーズの把握や問題発生の早期発見などへの活用が期待されている。
近年、情報処理システムによる会話音声の分析が注目されている。例えば、コールセンタの通話音声を分析して顧客の声を効率的に把握することで、製品・サービスに対するニーズの把握や問題発生の早期発見などへの活用が期待されている。
会話音声を分析する技術の一例が特許文献1に記載されている。特許文献1では、会話音声を会話の内容に基づいて分類する手法が提案されている。この手法は、分析対象となる会話音声をテキスト化した文章から、会話の分類に寄与する区間を、手がかり文を基礎に抽出し、抽出した区間のテキストを用いて会話音声を分類する。この手法を、大量の会話音声に適用することで、大量の会話音声を会話内容に基づいて分類することができる。例えば、この手法をコールセンタの通話音声に適用すれば、通話音声に含まれる様々な顧客の意見を内容に基づいて分類することができ、その結果、通話内容を効率良く把握することができる。
しかしながら、特許文献1の手法では、会話の話者が切実に訴えている重要意見を発見することが難しい。上記提案手法によれば、大量の会話音声の中に含まれる各意見の件数を把握することができるが、必ずしも件数が多い意見が話者の切実なニーズや問題を伴っているとは限らないからである。例えば、コールセンタの通話音声を分類した結果、「製品Aを注文したい(2320件)」「製品Bが壊れた(64件)」であり、前者の意見では顧客は怒っておらず、後者の意見では顧客の大半が怒っていたとする。このとき、意見の件数の大小に基づいて顧客の声を分析すると、後者の意見が見落とされてしまう可能性が高い。しかし、顧客の大半が怒っている後者の意見の方が顧客の切実な訴えであり、重視すべき意見である可能性が高い。
<本実施形態の技術>
本実施形態の技術は、このような事情に鑑みてなされたものであり、会話の話者が切実に訴えている重要意見を効率良く発見することができる会話分析装置を提供する。ここで、切実に訴えている意見としては、ネガティブな内容の意見に限られるものではなく、ポジティブな内容の意見も含まれる。
本実施形態の技術は、このような事情に鑑みてなされたものであり、会話の話者が切実に訴えている重要意見を効率良く発見することができる会話分析装置を提供する。ここで、切実に訴えている意見としては、ネガティブな内容の意見に限られるものではなく、ポジティブな内容の意見も含まれる。
[ハードウェア構成]
図2Aは、本実施形態に係る会話分析装置200のハードウェア構成を説明するためのブロック図である。会話分析装置200は、いわゆるコンピュータであり、図2Aに示されるように、CPU(Central Processing Unit)210、メモリ220、入出力インタフェース(I/F:Interface)230および通信ユニット240を有する。
図2Aは、本実施形態に係る会話分析装置200のハードウェア構成を説明するためのブロック図である。会話分析装置200は、いわゆるコンピュータであり、図2Aに示されるように、CPU(Central Processing Unit)210、メモリ220、入出力インタフェース(I/F:Interface)230および通信ユニット240を有する。
CPU210には、一般的なCPUに加えて、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等も含まれる。メモリ220は、RAM(Random Access Memory)や、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)である。
入出力I/F230は、表示装置250、入力装置260等のユーザインタフェース装置と接続可能である。表示装置250は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)ディスプレイのような、CPU210等により処理された描画データに対応する画面を表示する装置である。入力装置260は、キーボードやマウス等のようなユーザ操作の入力を受け付ける装置である。表示装置250および入力装置260は一体化され、タッチパネルとして実現されてもよい。
通信ユニット240は、他のコンピュータとの通信網(図示せず)を介した通信や、他の機器との信号のやりとり等を行う。通信ユニット240には、可搬型記録媒体等も接続され得る。
図2Aに示される各ハードウェア構成はそれぞれ一例であり、会話分析装置200のハードウェア構成は、図2Aに示される例に制限されない。会話分析装置200は、図示されていない他のハードウェア要素を含み得る。また、各ハードウェア要素の数も、図2Aの例に制限されない。例えば、会話分析装置200は、複数のCPU210を有していてもよい。
[処理構成]
図2Bは、本実施形態に係る会話分析装置200の構成を説明するためのブロック図である。会話分析装置200は、会話音声取得部201と、会話音声テキスト化部202と、分類対象テキスト抽出部203と、感情推定部204と、感情付与部205と、分類部206と、順位付け部207と、出力部208とを備える。感情推定部204は、さらに、発話区間検出部241と、発話感情推定部242とを有する。
図2Bは、本実施形態に係る会話分析装置200の構成を説明するためのブロック図である。会話分析装置200は、会話音声取得部201と、会話音声テキスト化部202と、分類対象テキスト抽出部203と、感情推定部204と、感情付与部205と、分類部206と、順位付け部207と、出力部208とを備える。感情推定部204は、さらに、発話区間検出部241と、発話感情推定部242とを有する。
これら各処理モジュールは、CPU210によりメモリ220に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから通信ユニット240を介してインストールされ、メモリ220に格納されてもよい。
会話音声取得部201は、分析対象とする会話音声として、コールセンタにおける通話音声を取得する。通話音声は、通話録音装置で録音したり、電話機に接続したコンバージャ―を介して計算機に録音したりすることで取得することができる。通話音声は、オペレータと顧客の2話者の音声から構成され、本実施形態では、オペレータと顧客とが分離された音声データを取得する。なお、分析対象とする会話音声は通話音声に限られるものではない。また、会話音声に含まれる話者は2名に限るものではなく、1名であっても3名以上であってもよい。
会話音声テキスト化部202は、会話音声取得部201により取得された会話音声に対して音声認識処理を適用することで、会話音声をテキスト化する。また、オペレータ音声と顧客音声の両方に対して音声認識処理を適用する。これは、顧客のみならず、オペレータも顧客の用件の分析に有用な情報を発話していることがあるためである。ただし、分析の目的によっては、特定話者の音声に対してのみ音声認識処理を適用しても構わない。音声認識処理には、既存の様々な音声認識手法を利用可能である。
なお、会話音声取得部201は、音声認識処理を適用することで会話音声に含まれる発話の内容をテキスト化し、発話内容テキストとして出力してもよい。会話音声テキスト化部202は、まず音声データから一続きの発声に相当する発話の区間(開始時刻と終了時刻)を検出し、次に各発話の内容をテキスト化する。
図3は、本実施形態に係る会話分析装置200による通話音声のテキスト化の一例を示す図である。図4は、本実施形態に係る会話分析装置200による他の通話音声のテキスト化の一例を示す図である。図5は、本実施形態に係る会話分析装置200によるさらに他の通話音声のテキスト化の一例を示す図である。
図3は、会話音声テキスト化部202による会話ID(Idetifier1)=1の通話音声のテキスト化の例を示す図である。図3において、話者列のOP(オペレーター:Operator)はオペレータを表し、CU(カスタマー:Customer)は顧客を表す(以下、同様とする)。また、一つの行が会話音声テキスト化部202により検出された一つの発話区間を表す。図3の例によれば、時刻0分01秒から0分03秒の間にオペレータが「お電話有難うございます」と発話し、時刻0分07秒から0分09秒の間に顧客が「ディスプレイが壊れたから何とかして欲しいんだけど」と発話したことなどが示される。なお、図3では、会話ID=1の通話音声の一部の発話のみが図示されている。
会話IDは、会話音声を一意に特定するためのIDである。本実施形態においては、一つの通話音声が一つの会話音声である。すなわち、通話開始から通話終了までの全体が、一つの会話音声に相当する。一つの会話音声には、通常、複数の発話が含まれる。図3に例示した発話は、全て会話ID=1の通話音声に属する。同様に、図4は会話ID=2の通話音声のテキスト化の例を示す図であり、図5は会話ID=3の通話音声のテキスト化の例を示す図である。
分類対象テキスト抽出部203は、会話音声テキスト化部202により得られた会話音声テキストから、分類対象とする一部区間の発話内容を表す分類対象テキストを抽出する。コールセンタの会話音声には様々な内容が含まれているため、分析に不要な区間を除外して分析対象区間を抽出しておくことが有効である。本実施形態では、顧客の用件を分析するために、分類対象テキスト抽出部203は、顧客やオペレータが顧客の用件を述べている区間のテキストを抽出するが、分類対象テキスト抽出部203が抽出するテキストはこれには限定されない。
分類対象テキストを抽出する方法としては、発話内容テキストに含まれる会話の構造を決定する手がかり文を基礎にする方法が考えられる。例えば、顧客の用件は、通話の冒頭でオペレータが名乗ってから、オペレータが御礼または謝罪を述べるまでの区間に含まれる確率が高い。そこで、オペレータの名乗りに相当する手がかり文から、オペレータの御礼または謝罪に相当する手がかり文までの区間のテキストを顧客の要件を表す分類対象テキストとして抽出することができる。例えば、「担当○○でございます」から「ありがとうございます」または「申し訳ございませんでした」までの区間のテキストを分類対象テキストとして抽出する。また、他の例として、オペレータが用件を尋ねる手がかり文「どのような症状でしょうか」から、オペレータの謝罪に相当する手がかり文「申し訳ございませんでした」までの区間のテキストを、顧客の用件を表す分類対象テキストとして抽出することができる。
図6は、本実施形態に係る会話分析装置200による手がかり文を用いたテキスト抽出の例を示す図であり、図3で示した会話ID=1の通話音声に対する、手がかり文を基礎にした分類対象テキスト抽出の例を示す図である。手がかり文が下線で示され、抽出されたテキストは表の「分析対象区間」の列に○印で示されている。図6に示したように、開始時刻0分03秒のオペレータ発話「担当○○でございます」から、開始時刻0分12秒のオペレータ発話「申し訳ございませんでした」の間の区間に含まれる3つの発話が抽出されたことが示される。これら3つの発話は、「あのさ」、「ディスプレイが壊れたから何とかして欲しいんだけど」および「ディスプレイの故障でございますね」である。この例のように、本実施形態においては、抽出対象として抽出するテキストに顧客発話だけでなくオペレータ発話も含まれている。これは、開始時刻0分10秒のオペレータ発話「ディスプレイの故障でございますね」のように、オペレータが顧客の用件を復唱したり言い換えて説明したりすることがあるためである。ただし、分析の目的によっては、特定話者のみからテキストを抽出しても構わない。また、同様に、開始時刻0分14秒のオペレータ発話「具体的にどのような症状でしょうか」から、開始時刻0分23秒のオペレータ発話「申し訳ございませんでした」の間の区間に含まれる2つの発話も抽出されたことが示される。これら2つの発話は、「突然ディスプレイに黒い線が出てきて」および「画面見にくいし、映画見ててもすごい邪魔なんですけど」である。なお、図6では、会話ID=1の通話音声の一部の発話のみが図示されている。
同様に、図7は、本実施形態に係る会話分析装置200による手がかり文を用いたテキスト抽出の他の例を示す図であり、図4で示した会話ID=2の通話音声に対する分類対象テキスト抽出の例を示す図である。また、図8は、本実施形態に係る会話分析装置200による手がかり文を用いたテキスト抽出のさらに他の例を示す図であり、図5で示した会話ID=3の通話音声に対する分類対象テキスト抽出の例を示す図である。いずれも手がかり文が下線で示され、抽出されたテキストは表の「分析対象区間」の列に○印で示されている。
図9は、本実施形態に係る会話分析装置200による複数の通話音声のテキスト化の一例を示す図であり、複数の通話音声から抽出された複数の分類対象テキストの例をまとめて示した図である。すなわち、図6で示した会話ID=1の通話音声から抽出された5つの発話、図7で示した会話ID=2の通話音声から抽出された3つの発話、図8で示した会話ID=3の通話音声から抽出された3つの発話、をそれぞれ1発話1要素としてまとめたものである。なお、図9は、本実施形態で処理する会話音声のごく一部から抽出された分類対象テキストのみを示した図であり、図示した以外にも多くの発話、および、会話の結果が抽出される。
分類対象テキスト抽出部203は、時間的に連続する、あるいは、時間的に近い複数の発話を一つの要素としてまとめて分類対象テキストを抽出してもよい。時間的に連続する、あるいは、時間的に近い複数の発話は同内容である可能性が高いため、一つの要素としてまとめた方が後述の分類部で精度良く分類できることがある。
図10は、本実施形態に係る会話分析装置200により複数の発話を一つの要素としてまとめあげて分類対象テキストを抽出した例を示す図である。例えば、図6で示した会話ID=1の通話音声から抽出された5つの発話のうち、開始時刻0分06秒の顧客発話、開始時刻0分07秒の顧客発話、および、開始時刻0分10秒のオペレータ発話の3つの発話が時間的に連続している。そのため、これらの発話が、1つの要素にまとめあげられていることが示される。これを具体的に示せば、「あのさ ディスプレイが壊れたから何とかして欲しいんだけど ディスプレイの故障でございますね」である。また、開始時刻0分17秒の顧客発話および開始時刻0分19秒の顧客発話の2つの発話も時間的に連続しているため、1つの要素にまとめあげられていることが示される。これを具体的に示せば、「突然ディスプレイに黒い線が出てきて画面見にくいし、映画見ててもすごい邪魔なんですけど」である。
分類対象テキスト抽出部203は、分類対象テキストを抽出する方法として、抽出対象となるテキストか否かを判定する統計モデルを用いた判定手法を用いてもよい。統計モデルは、抽出対象となるテキストおよび抽出対象とならないテキストの事例に基づいて学習することができる。統計モデルとしては、ナイーブベイズ分類器やSVM(Support Vector Machine)などの既存のモデルを利用可能である。
感情推定部204は、会話音声取得部201により取得された会話音声に対して、感情認識処理を適用することで、話者の感情情報を推定する。感情推定部204は、発話区間検出部241と発話感情推定部242とをさらに有する。
発話区間検出部241は、会話音声取得部201により取得された会話音声から、一続きの発声に相当する発話の区間(開始時刻と終了時刻)を検出する。発話区間検出には、既存の様々な発話検出手法を利用可能である。例えば、音声の音量(パワー)の大小に基づいて検出するパワーベースの手法や、音声と非音声のモデルを用いて検出するモデルベースの手法などがある。なお、発話区間検出部241が出力する発話区間と、会話音声テキスト化部202が出力する発話区間とは、始終端時刻が異なることもあり得る。また、発話区間検出部241による発話区間検出処理を、会話音声テキスト化部202が内蔵する発話区間検出処理と共通化してもよい。本実施形態においては、発話区間検出部241による発話区間検出と会話音声テキスト化部202による発話区間検出とは独立に実行される。
発話感情推定部242は、発話区間検出部241が検出した発話区間の各々に対して、当該発話における話者の感情情報を推定する。本実施形態においては、発話における話者の怒り感情の度合いを「怒りの発話感情スコア(数値)」として推定する。ただし、推定する感情は怒りに限られるものではなく、例えば、嬉しさ・悲しさ・楽しさ・不満などの感情を推定することもできる。また、感情の度合いを数値として推定するのではなく、感情の有無を推定してもよい。例えば、怒り感情があるか否かを推定してもよい。
発話における話者の感情情報の推定には、既存の様々な感情推定手法を利用可能である。例えば、音声の音量(パワー)、音声の高さ(ピッチ)、MFCC(Mel-Frequency Cepstrum Coefficients)や、それらの時間差分などの発話内の統計量を特徴とした統計モデルを用いた判定手法を利用可能である。統計モデルは、推定対象の感情を含む音声データおよび推定対象の感情を含まない音声データの事例に基づいて学習することができる。統計モデルとしては、GMM(Gaussian Mixture models)、SVM(Support Vector Machine)、ニューラルネットワーク、ロジスティック回帰モデル、決定木などの既存のモデルを利用可能である。推定結果を数値として出力する場合は、例えば、ニューラルネットワークや、GMMのモデル間尤度比や、SVMの識別面からの距離などを用いることができる。なお、感情推定に用いる特徴やモデルはこれらに限られるものではない。
図11は、本実施形態に係る会話分析装置200による通話音声に対する発話感情情報の推定結果を示す図であり、会話ID=1の通話音声に対する、発話感情推定部242による発話感情情報の推定結果の例を示す図である。本実施形態においては、顧客音声に対してのみ、怒りの感情推定を実行する。これは、本実施形態では、顧客が怒っているときの顧客の用件を分析するためである。ただし、分析の目的によっては、顧客音声とオペレータ音声の両方に対して感情推定を実行しても構わない。発話区間検出部241により検出された一つの発話区間が一つの行に対応する。また、発話感情推定部242により推定された各発話の怒りの発話感情スコアが示されている。本実施形態においては、発話感情スコアとして事後確率を用いることで、スコアの値域は0.0〜1.0である。図11に示したよう、例えば、発話区間検出部241により、0分06秒〜0分09秒の発話区間が検出され、その発話に対して、発話感情推定部242により怒りの発話感情スコアとして0.80が推定されたことが示される。同様に、0分17秒〜0分20秒の発話区間が検出され、その発話に対して、怒りの発話感情スコアとして0.86が推定されたことなどが示される。なお、図11においては、会話ID=1の通話音声の一部の発話のみが図示されている。
なお、本実施形態においては、発話区間検出部241は会話音声テキスト化部202と独立であるため、図3に示される会話音声テキスト化部202の出力と、図11に示される感情推定部204の出力とでは、発話区間が異なっている。例えば、図3の会話音声テキスト化部202の出力では、顧客発話として0分06秒〜0分07秒、および、0分07秒〜0分09秒の2区間が検出されている。これに対して、図11の発話感情推定部242の出力では顧客発話として0分06秒〜0分09秒の1区間が検出されている。
図12は、本実施形態に係る会話分析装置200による他の通話音声に対する発話感情情報の推定結果を示す図であり、会話ID=2の通話音声に対する発話感情情報の推定結果の例を示す図である。また、図13は、本実施形態に係る会話分析装置200によるさらに他の通話音声に対する発話感情情報の推定結果を示す図であり、会話ID=3の通話音声に対する発話感情情報の推定結果の例を示す図である。いずれも顧客音声に対してのみ、怒りの感情推定を実行している。
感情付与部205は、分類対象テキスト抽出部203により抽出された、会話音声の一部区間の発話内容を表す分類対象テキストの各々に対して、発話感情推定部242により推定された話者の発話感情情報を付与する。本実施形態においては、図11〜図13で示されるように、発話感情推定部242は、各々の発話の時刻情報(開始時刻・終了時刻)および怒りの発話感情スコアを出力する。感情付与部205は、発話感情推定部242が出力したこれら複数の発話のうち、分類対象テキストの区間と時間的に重なっている発話の発話感情スコアを、当該分類対象テキストに付与する。
図14は、本実施形態に係る会話分析装置200により分類対象テキストに発話感情スコアを付与した例を示す図であり、図9で示した分類対象テキストの抽出結果の各々に対して、図11〜図13で示した怒りの発話感情スコアを付与した例である。例えば、図9で示した会話ID=1から抽出された0分06秒〜0分07秒の分類対象テキスト「あのさ」と時間的に重なっている感情推定部の出力発話は、図11を参照すると0分06秒〜0分09秒の発話であり、その怒りの発話感情スコアは0.80である。したがって、分類対象テキスト「あのさ」には怒りの発話感情スコアとして0.80が付与される(図14参照)。同様に、会話ID=1から抽出された0分07秒〜0分09秒の分類対象テキスト「ディスプレイが壊れたから何とかして欲しいんだけど」については、怒りの発話感情スコアとして0.80が付与される(図14参照)。なお、図14は、本実施形態で処理する会話音声のごく一部から抽出された分類対象テキストのみを示した図であり、図示した以外にも多くの発話、および、会話の結果が抽出される。
また、図9で示した会話ID=1から抽出された0分19秒〜0分22秒の分類対象テキスト「画面見にくいし、映画見ててもすごい邪魔なんですけど」と時間的に重なっている感情推定部204の出力発話は、図11を参照すると次のようになる。すなわち、感情推定部204の出力発話は、0分17秒〜0分20秒(怒りの発話感情スコア=0.86)と、0分20秒〜0分22秒(怒りの発話感情スコア=0.96)との2発話である。本実施形態では、この2発話のスコアの平均値である0.91が、0分19秒〜0分22秒の当該分類対象テキストに付与される(図14参照)。他の分類対象テキストについても同様である。なお、このように複数の発話が一つの分類対象テキストと重なっている場合に、重なり時間の大小に応じて重み付き平均を付与したり、最大のスコアを付与したりしてもよい。
図14に示したように、感情付与部205によって、分類対象テキスト抽出部203により抽出された分類対象テキストの各々がどの程度の怒りを伴って発話されたのかが分かる。なお、分類対象テキストと時間的に重なっている感情推定部204の出力発話がない場合は、怒りの発話感情スコアを付与しない。図14では、例えば、会話ID=1の通音声の0分10秒〜0分12秒のオペレータ発話「ディスプレイの故障でございますね」には、発話感情スコアが付与されない(表ではN/Aと記述)。
図15は、本実施形態に係る会話分析装置200により分類対象テキストに発話感情スコアを付与した他の例を示す図であり、図10で示した分類対象テキストの抽出結果の各々に対して、図11〜図13で示した怒りの発話感情スコアを付与した例である。例えば、図10で示した会話ID=1から抽出された0分06秒〜0分12秒の分類対象テキスト「あのさ ディスプレイが壊れたから何とかして欲しいんだけど ディスプレイの故障でございますね」について検討する。そうすると、この分類対象テキストと時間的に重なっている感情推定部の出力発話は、図11を参照すると0分06秒〜0分09秒の発話であり、その怒りの発話感情スコアは0.80である。したがって、当該分類対象テキストには怒りの発話感情スコアとして0.80が付与される(図15参照)。
分類部206は、分類対象テキスト抽出部203により抽出された複数の分類対象テキストを、意味が異なる複数のクラスタに分類する。本実施形態においては、分類部206による処理の前に、感情推定部204および感情付与部205による処理が実行され、分類対象となる分類対象テキストには、すでに発話感情情報が付与されている。ただし、感情推定部204および感情付与部205の処理を実行する前に、分類部206の処理を実行しても構わない。この場合は、分類部206による分類を実行した後で、感情推定部204および感情付与部205の処理を実行する。
分類部206は、分類対象テキストの分類に、ナイーブベイズなどの既存の教師あり分類手法を用いて実現可能である。例えば、顧客の用件として抽出された分類対象テキストを「解約したい」「住所変更したい」「サービスAに申し込みたい」「その他」の4つのクラスへと分類するには、これら4クラスに対応する事例テキストを収集し、分類モデルを学習すればよい。
分類部206は、分類対象テキストの分類に、k−means法などの既存の教師なし分類手法を用いることもできる。教師なし分類手法を用いれば、あらかじめ分類すべきクラスを定めたり、学習用の事例テキストを収集したりすることなく、分類対象テキストを複数のクラスタへと分類することができる。また、分類部206は、特許文献3に記載の分類手法を用いることで、分類対象テキストを教師なしで複数のクラスタへと分類した上で、各クラスタに対してクラスタの内容を表す代表テキストを自動的に生成することができる。特許文献3では、クラスタに含まれる複数の分類対象テキスト間の含意関係に基づいて、代表となる分類対象テキストを選択することで、代表テキストを生成する。
以下では、教師あり分類手法により得られた分類対象テキストのまとまり(クラス)、および、教師なし分類手法により得られた分類対象テキストのまとまり(クラスタ)の両方をクラスタと呼ぶ。分類部206による分類では、一つの分類対象テキストが一つのクラスタのみに属するように分類してもよいし、一つの分類対象テキストが複数のクラスタに属することもあるように分類してもよい。
図16は、本実施形態に係る会話分析装置200により分類対象テキストを分類した例を示す図であり、図14または図15で示した分類対象テキストを入力としたときの、分類部206による分類結果の例を示す図である。一つの行が一つのクラスタを表している。「プリンタのインクを注文したい」などのクラスタの名前は、教師あり分類手法を用いる場合には、分類モデルで学習したクラスに人手で付与された名前である。教師なし分類手法を用いる場合には、例えば、前述の特許文献3の分類手法を用いれば、クラスタの名前を代表テキストとして自動的に生成することができる。あるいは、一つのクラスタに含まれる複数の分類対象テキストの内容を人手で確認することで、適切な名前を付与することもできる。なお、図16は、本実施形態において分類されたクラスタの一部のみを示した図であり、図示した以外にも多くのクラスタが存在する。
クラスタの要素数は、当該クラスタに分類された分類対象テキストの数を表している。図16の例によれば、例えば、クラスタ「プリンタのインクを注文したい」には2320個の分類対象テキストが分類されていることが示されている。クラスタ「プリンタのインクを注文したい」の要素としては、例えば、図14に示した会話ID=2の通話音声の0分09秒〜0分12秒の顧客発話「インクを注文したくてお電話したんですけども」が含まれる。また、この要素としては、0分13秒〜0分15秒のオペレータ発話「インクのご注文でございますね」などの分類対象テキストが含まれる。
図16においては、要素数が多い順に、各クラスタをソートして順位付けして並べている。例えば、クラスタ「プリンタのインクを注文したい」は要素数2320で、最も多くの分類対象テキストを含むことが示されている。これは、分析対象とした会話音声の中で「プリンタのインクを注文したい」という用件が最も多かったことを表している。同様に、クラスタ「新製品情報を知りたい」は要素数2150で、2番目に多い用件であることを表している。一方で、クラスタ「ディスプレイが壊れた」は要素数64で281位、クラスタ「ディスプレイに黒い線が出る」は要素数25で420位と下位の用件であることが分かる。
順位付け部207は、分類部206により分類された複数のクラスタを、感情付与部205により分類対象テキストに付与された感情情報に基づいて、順位付けする。まず、順位付け部207は、各クラスタについて、当該クラスタに含まれる分類対象テキストのうち、怒り感情を伴う分類対象テキストの数を数える。怒り感情を伴うか否かは、分類対象テキストに付与された怒りの発話感情スコアが所定の閾値以上か否かに基づき判定することができる。例えば、所定の閾値を0.50として、図14に示した分類対象テキストを処理する場合には、以下の分類対象テキストを怒り感情を伴う分類対象テキストとして数える対象とする。
・会話ID=1、0分06秒〜0分07秒「あのさ」
・会話ID=1、0分07秒〜0分09秒「ディスプレイが壊れたから何とかして欲しいんだけど」
・会話ID=1、0分17秒〜0分19秒「突然ディスプレイに黒い線が出てきて」
・会話ID=1、0分19秒〜0分22秒「画面見にくいし、映画見ててもすごい邪魔なんですけど」
なお、図14は本実施形態で処理する会話音声のごく一部のみを示した図であるため、上記以外にも多くの怒り感情を伴う分類対象テキストが存在する。
・会話ID=1、0分06秒〜0分07秒「あのさ」
・会話ID=1、0分07秒〜0分09秒「ディスプレイが壊れたから何とかして欲しいんだけど」
・会話ID=1、0分17秒〜0分19秒「突然ディスプレイに黒い線が出てきて」
・会話ID=1、0分19秒〜0分22秒「画面見にくいし、映画見ててもすごい邪魔なんですけど」
なお、図14は本実施形態で処理する会話音声のごく一部のみを示した図であるため、上記以外にも多くの怒り感情を伴う分類対象テキストが存在する。
なお、発話感情スコアまたは感情有無の判定結果が付与されていない分類対象テキストは、感情を伴わないものとして処理する。例えば、図14に示された、会話ID=1の通話音声の0分10秒〜0分12秒の発話「ディスプレイの故障でございますね」には怒りの発話感情スコアが付与されていない(図ではN/Aと表示)ため、怒り感情を伴わないものとして処理する。
次に、順位付け部207は、各クラスタについて、当該クラスタに含まれる分類対象テキストのうち、怒り感情を伴う分類対象テキストがクラスタに占める割合を計算し、その割合が大きい順に複数のクラスタを順位付けする。
図17は、本実施形態に係る会話分析装置200によりクラスタを分類した例を示す図であり、図16で示した複数のクラスタに対する、順位付け部207よる順位付けの例を示す図である。図17に示したように、例えば、クラスタ「ディスプレイに黒い線が出る」に含まれる25個の分類対象テキストのうち、23個が怒り感情を伴う分類対象テキストである。また、当該クラスタにおける怒り感情を伴う分類対象テキストの割合(以降は「怒り率」と表記)は、約92%(=100×23/25)でその順位が1位あること、が示される。同様に、クラスタ「ディスプレイが壊れた」の怒り率は88%で2位であることが示される。一方で、クラスタ「プリンタのインクを注文したい」の怒り率は0.3%で486位、「新製品情報を知りたい」の怒り率は0.0%で487位とそれぞれ下位の用件であること、などが示される。
したがって、図17に示したように、「ディスプレイに黒い線が出る」や「ディスプレイが壊れた」という用件について顧客またはオペレータが述べているときに、顧客が怒っている割合が大きいことが分かる。また、「プリンタのインクを注文したい」や「新製品情報を知りたい」という用件について顧客またはオペレータが述べているときに、顧客が怒っている割合が小さいことが分かる。なお、図17は、本実施形態において分類されたクラスタの一部のみを示した図であり、図示した以外にも多くのクラスタが存在する。
順位付け部207は、怒り感情を伴う分類対象テキストがクラスタに占める割合が小さい順に、複数のクラスタを順位付けしてもよい。これにより、怒っている割合が小さい用件が上位に順位付けされる。
また、順位付け部207は、クラスタに含まれる怒り感情を伴う分類対象テキストの数が多い順に、複数のクラスタを順位付けしてもよい。その場合、図17に示したように、クラスタ「ディスプレイが壊れた」に含まれる怒り感情を伴う分類対象テキストの数が56件で最も多いため、順位1位となる。また、クラスタ「ディスプレイの配線方法が分からない」に含まれる怒り感情を伴う分類対象テキストの数が54件で2番目に多いため、順位2位となる。
順位付け部207は、クラスタに含まれる分類対象テキストのうち、怒りの発話感情スコアが所定の範囲内にある分類対象テキストがクラスタに占める割合または数に基づいて、クラスタを分類してもよい。所定の範囲として、例えば、0.50〜0.80を採用することができる。これにより、中程度の怒り感情を伴う顧客の用件を上位に順位付けすることができる。また、順位付け部207は、怒りの発話感情スコアが所定の閾値以下(または所定の閾値以上)である分類対象テキストがクラスタに占める割合または数に基づいて、クラスタを分類してもよい。所定の閾値として、例えば、0.30を採用することがでkる。これにより、ほとんど怒り感情を伴わない顧客の用件を上位に順位付けすることができる。
出力部208は、順位付け部207によるクラスタの順位付け結果の情報を出力する。出力部28による出力の具体的形態は制限されない。出力部208は、当該情報の表示を入出力I/F230を介して表示装置250に出力させてもよいし、当該情報を入出力I/F230を介して印刷装置(図示せず)に印刷させてもよい。また、出力部208は、当該情報を通信ユニット240を介して他の装置に出力してもよいし、当該情報を通信ユニット240を介して可搬型記録媒体等に電子ファイルとして出力してもよい。
出力部208は、例えば、図17に示したような表形式で、クラスタの順位付け結果を出力してもよい。表には、各クラスタが順位付け部207で順位付けされた順番にクラスタを並べる。クラスタの情報として、クラスタの名前、含まれる分類対象テキスト(要素)の数、怒りを伴う分類対象テキストの数、怒りを伴う分類対象テキスト(要素)の割合などを出力する。ただし、出力する情報はこれらに限られるものではなく、他の情報を出力してもよい。また、出力情報の配置は図17の表形式に限られるものではなく、他の形式でもよい。
本実施形態では、感情推定部204が顧客の怒り感情を推定したが、推定する感情は怒りに限られるものではない。例えば、嬉しさ・悲しさ・楽しさ・不満などの感情を推定することもできる。例えば、感情推定部204が、顧客の嬉しさ感情を推定し、他の各部が上述の処理を行うことで、顧客の嬉しいという感情を伴う用件を上位に順位付けして出力することができる。また、推定する話者も顧客に限られるものではない。例えば、感情推定部204が、オペレータの深い謝罪感情を推定し、他の各部が上述の処理を行うことで、顧客に対して深くお詫びしなければならない顧客の用件を上位に順位付けして出力することができる。
[動作例/会話分析方法]
図18は、本実施形態に係る会話分析装置200の処理手順を説明するフローチャートである。このフローチャートは、図2AのCPU210がメモリ220を使用して実行し、図2Bの会話分析装置200の機能構成部を実現する。例えば、図示される各ステップは、会話分析装置200が有する上述の各処理モジュールにより実行される。各ステップは、会話分析装置200が有する上述の各処理モジュールの処理内容と同様であるため、各ステップの詳細は、適宜省略される。
図18は、本実施形態に係る会話分析装置200の処理手順を説明するフローチャートである。このフローチャートは、図2AのCPU210がメモリ220を使用して実行し、図2Bの会話分析装置200の機能構成部を実現する。例えば、図示される各ステップは、会話分析装置200が有する上述の各処理モジュールにより実行される。各ステップは、会話分析装置200が有する上述の各処理モジュールの処理内容と同様であるため、各ステップの詳細は、適宜省略される。
ステップS1801において、会話分析装置200は、会話音声の音声データを取得する。本実施形態においては、音声データとして、コールセンタにおける通話音声を取得する。通話音声は、通話録音装置やコンバージャなどを用いて取得する。通話音声は、オペレータ音声と顧客音声とから構成される。ただし、音声データは通話音声に限られるものではなく、音声の取得方法も制限されない。
ステップS1802において、会話分析装置200は、ステップS1801で取得された通話音声に対して、音声認識処理を適用することで、通話音声に含まれる発話の内容をテキスト化し、会話音声をテキスト(発話内容テキスト)として出力する。本実施形態においては、会話分析装置200は、会話音声テキストに含まれる発話内容テキストに対して、各発話の時刻情報を付与してもよい。また、オペレータ音声と顧客音声の両方に対して音声認識処理を適用し、テキスト化する。図3は、通話音声に含まれる各発話の発話内容テキストおよび時刻情報の一例である。
ステップS1803において、会話分析装置200は、ステップS1802でテキスト化された会話音声のテキストから、分類対象となる一部区間の発話内容を表す分類対象テキストを抽出する。本実施形態では、顧客やオペレータが顧客の用件を述べている区間のテキストを分類対象テキストとして抽出する。図9は、通話音声から抽出した分類対象テキストの一例である。各分類対象テキストには、通話音声を特定する会話IDと通話音声における時刻情報が付与されている。分類対象テキストの抽出方法については、上述した通りである。
ステップS1804において、会話分析装置200は、ステップS301で取得された通話音声から、一続きの発声に相当する発話の区間を検出する。さらに、ステップS1805において、会話分析装置200は、ステップS1804で検出された発話区間の各々に対して、当該発話区間における話者の感情情報を推定する。本実施形態においては、会話分析装置200は、発話における話者の怒り感情の度合いを怒りの発話感情スコア(数値)として推定する。図11は、通話音声から発話区間を検出し、各発話区間に対して怒りの発話感情スコアを推定した一例である。発話の検出方法および感情の推定方法については、上述した通りである。
ステップS1806において、会話分析装置200は、ステップS1803で抽出された分類対象テキストの各々に対して、ステップS1805で推定された話者の感情情報を付与する。具体的には、ステップS1804で検出された複数の発話のうち、分類対象テキストの区間と時間的に重なっている発話の発話感情スコアを、当該分類対象テキストに付与する。図14は、怒りの発話感情スコアが付与された分類対象テキストの一例である。
ステップS1807において、会話分析装置200は、全ての通話音声に対してステップS1801〜ステップS1806の処理が完了したか否かを判定する。未処理の通話音声が残っている場合は、未処理の通話音声に対して上述したステップS1801〜ステップS1806の処理を実行する。
ステップS1808において、会話分析装置200は、ステップS1803で抽出され、ステップS1806で感情情報が付与された複数の分類対象テキストを、意味が異なる複数のクラスタに分類する。分類には、既存の教師あり分類手法や教師なし分類手法を用いることができる。分類方法の詳細については、上述した通りである。図16は、分類対象テキストの分類結果の一例である。クラスタに含まれる分類対象テキストの数の大小によって、クラスタが順位付けされている。また、クラスタの名前は、上述した方法によって自動的に付与してもよいし、クラスタに含まれる分類対象テキストの内容を人手で確認して付与してもよい。
ステップS1809において、会話分析装置200は、ステップS1808で分類された複数のクラスタを、ステップS1806で各分類対象テキストに付与された感情情報に基づいて、順位付けする。会話分析装置200は、各クラスタについて、当該クラスタに含まれる分類対象テキストのうち、怒り感情を伴う分類対象テキストがクラスタに占める割合を計算し、その割合が大きいまたは小さい順に複数のクラスタを順位付けする。また、会話分析装置200は、クラスタに含まれる怒り感情を伴う分類対象テキストの数が多いまたは少ない順に複数のクラスタを順位付けしてもよい。図17は、怒り感情を伴う分類対象テキストがクラスタに占める割合が大きい順にクラスタを順位付けした一例である。
ステップS1810において、会話分析装置200は、ステップS1809で感情情報に基づいてクラスタが順位付けされた分類結果を出力する。この出力の具体的形態は制限されない。例えば、会話分析装置200は、図17に示される表をディスプレイに表示する。
本実施形態における会話分析装置200による各ステップの実行順序は、図18に示される例に限定されない。各ステップの実行順序は、内容的に支障のない範囲で変更することができる。例えば、ステップS1801〜ステップS1806の各処理は、それぞれが複数の会話音声を処理してから次の処理に移ってもよい。また、ステップS1802およびステップS1803の処理と、ステップS1804およびステップS1805の処理とは、逆の順番で実行してもよい。
また、本実施形態における会話分析装置200による処理は、次の順序で実行されてもよい。まず、ステップS1801において、会話分析装置200は、全ての会話音声を取得し、ステップS1802において、取得した会話音声をテキスト化し、ステップS1803において、分類対象テキストを抽出する。ステップS1808において、会話分析装置200は、ステップS1803で抽出した分類対象テキストをクラスタに分類する。次に、ステップS1801において、会話分析装置200は、全ての会話音声を取得し、ステップS1804において、取得した会話音声から発話区間を検出し、ステップS1805において、検出した発話区間における話者の感情情報を推定する。そして、ステップS1806において、会話分析装置200は、推定した感情情報をステップS1803で抽出した分類対象テキストに付与する。最後に、ステップ1809において、会話分析装置200は、ステップS1808で分類したクラスタを、ステップS1806で分類対象テキストに付与した感情情報に基づいて順位付けする。
[本実施形態の効果]
本実施形態では、上述した処理構成によって、会話の話者が切実に訴えている重要意見を効率よく発見することができる。なぜならば、本実施形態の会話分析装置200は、顧客の怒りを多く伴う用件を上位に順位付けして出力することができるからである。怒りを伴う用件は、顧客の切実なニーズや重要な問題の指摘である可能性が高く、優先的に分析すべき重要な意見である。本実施形態によれば、上位に順位付けされた用件を優先的に分析することで、それら重要意見を効率良く分析することができる。
本実施形態では、上述した処理構成によって、会話の話者が切実に訴えている重要意見を効率よく発見することができる。なぜならば、本実施形態の会話分析装置200は、顧客の怒りを多く伴う用件を上位に順位付けして出力することができるからである。怒りを伴う用件は、顧客の切実なニーズや重要な問題の指摘である可能性が高く、優先的に分析すべき重要な意見である。本実施形態によれば、上位に順位付けされた用件を優先的に分析することで、それら重要意見を効率良く分析することができる。
本実施形態の効果を図16および図17を参照して具体的に説明する。分類部206の出力例を示す図16を参照すると、「プリンタのインクを注文したい(2320件)」や「新製品情報を知りたい(2150件)」などの意見は件数が多く、順位が高い。一方、「ディスプレイが壊れた(64件)」や「ディスプレイに黒い線が出る(25件)」などの意見は件数が少なく、順位が低い。したがって、件数の大小に基づく分析では、「ディスプレイが壊れた」や「ディスプレイに黒い線が出る」などの件数が少ない顧客の意見は見落とされる可能性が高い。
一方で、本実施形態を特徴づける処理である感情推定部204、感情付与部205および順位付け部207を実行した出力例を示す図17を参照する。そうすると、「ディスプレイに黒い線が出る(100×23/25=92%が怒り)」や「ディスプレイが壊れた(100×56/64=88%が怒り)」などの意見は、顧客の怒りを多く含み、順位が高いことが新たに分かる。一方、「プリンタのインクを注文したい(100×8/2320=0.3%が怒り)」や「新製品情報を知りたい(100×0/2150=0.0%が怒り)」などの意見は、顧客の怒りをほとんど含まず、順位が低いことが新たに分かる。したがって、怒りの割合に基づく分析では、単純な件数に基づく分析では見落とされていた「ディスプレイが壊れた」などの顧客の怒りを伴う意見を容易に発見することができる。
上述した効果は、会話音声に表れる話者の感情を分析し、分析対象テキストに感情情報を付与する本実施形態に固有の効果である。音声に表れる感情を分析することで、テキスト分析だけでは捉えることのできない、話者の切実な訴えを捉えることができる。
また、本実施形態では怒りを感情推定の対象としたが、怒り以外の感情を推定対象としても、同様の効果が得られる。例えば、顧客の嬉しさ感情を推定して同様の処理を実行することで、顧客の喜びを多く伴う用件を上位に順位付けして出力することができる。これにより、顧客の満足を強く満たしている要因等を効率よく分析することができる。あるいは、顧客の驚き感情を推定して同様の処理を実行することで、顧客に強い印象を残した施策等について効率よく分析することができる。また、オペレータの深い謝罪感情を推定して同様の処理を実行することで、顧客に強い不快感を与えた現象等を効率よく分析することができる。また、本実施形態では、顧客やオペレータが顧客の用件を述べている区間を分析対象テキストとして抽出したが、分析対象テキストは用件に限られるものではない。
[第3実施形態]
次に本発明の第3実施形態に係る会話分析装置について、図19乃至図23を用いて説明する。図19は、本実施形態に係る会話分析装置の構成を説明するための図である。本実施形態に係る会話分析装置は、上記第2実施形態と比べると、会話推定部が会話感情推定部を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
次に本発明の第3実施形態に係る会話分析装置について、図19乃至図23を用いて説明する。図19は、本実施形態に係る会話分析装置の構成を説明するための図である。本実施形態に係る会話分析装置は、上記第2実施形態と比べると、会話推定部が会話感情推定部を有する点で異なる。その他の構成および動作は、第2実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。
上述の第2実施形態では、顧客の各発話区間に対して顧客の発話感情情報を推定し、分析対象テキストと時間的に重なっている発話の発話感情情報を、当該分類対象テキストに付与した。しかしながら、分類対象テキストの区間と、顧客が感情を表している区間とは必ずしも一致しているとは限らない。例えば、顧客が用件を述べている場面では顧客は怒っていなくても、その後の会話の中でその用件に関連して怒り始めることがある。このような通話に第2実施形態を適用した場合、顧客の怒り区間と用件を述べている区間とが時間的に一致していないため、当該用件に対して怒り感情情報が付与されない。
そこで、本実施形態は、顧客の発話感情情報を用いて、通話全体における顧客の通話感情情報を推定する。そして、分類対象テキストが属する通話音声に対して推定された通話感情情報を、当該分類対象テキストに付与する。これにより、本実施形態は、顧客の怒り区間と用件区間とが時間的に一致していない場合でも、分類対象テキストに適切な感情情報を付与することができる。
[処理構成]
感情推定部1904が、会話感情推定部1943をさらに有する点が第2実施形態と異なる。それ以外の処理構成は第2実施形態と同様である。以下では、第2実施形態と異なる処理内容について示す。
感情推定部1904が、会話感情推定部1943をさらに有する点が第2実施形態と異なる。それ以外の処理構成は第2実施形態と同様である。以下では、第2実施形態と異なる処理内容について示す。
会話感情推定部1943は、会話音声取得部201により取得された会話音声の各々に対して、当該会話音声に含まれる各発話区間に対して発話感情推定部242により推定された発話感情情報を用いて、話者の会話感情情報を推定する。会話感情情報とは、当該会話における話者の感情を表す。本実施形態においては、当該会話における話者の怒り感情の強さを「怒りの会話感情スコア(数値)」として推定する。ただし、推定する感情は怒りに限られるものではなく、例えば、嬉しさ・悲しさ・楽しさ・不満などの感情を推定することもできる。また、感情の強さを数値として推定するのではなく、感情の有無を推定してもよい。例えば、当該会話において、怒り感情があるか否かを推定してもよい。
図20は、本実施形態に係る会話分析装置1900により計算した会話感情スコアの一例を示す図である。会話感情推定部1943は、ある会話音声の怒りの会話感情スコアを、当該会話音声に含まれる複数の発話の怒りの発話感情スコアを用いて推定するには、当該会話において所定の閾値以上の怒りの発話感情スコアを持つ発話の数を会話感情スコアとすればよい。例えば、所定の閾値を0.5とした場合、会話ID=1の会話音声に含まれる発話のうち、怒りの発話感情スコアが0.5以上である発話の数を、会話ID=1の会話音声の会話感情スコアとする。図20は、このようにして計算した各会話音声の怒りの会話感情スコアの例を示す図である。図20に示したように、会話ID=1の会話音声においては、怒りの会話感情スコアが36であることが示される。これはすなわち、図11の例に示した会話ID=1に含まれる発話のうち、怒りの発話感情スコアが所定の閾値以上である発話が36個であることを意味している。同様に、図20に示したように、会話ID=2の会話音声においては、怒りの発話感情スコアが所定の閾値以上の発話が一つもなく、会話感情スコアが0であることが示される。
会話感情推定部1943は、会話感情スコアとして、当該会話において所定の閾値以上の怒りの発話感情スコアを持つ発話の割合を用いてもよい。例えば、会話に含まれる発話の総数が100個で、閾値以上の怒りの発話感情スコアを持つ発話の数が70個だった場合、会話感情スコアを70/100=0.70とする。
会話感情推定部1943は、別の会話感情スコアの推定方法として、当該会話に含まれる複数の発話の怒りの発話感情スコアの統計量を会話感情スコアとしてもよい。統計量としては、当該会話に含まれる発話の発話感情スコアの平均値、最大値、95パーセンタイル、第3四分位など様々考えられる。当該会話に含まれる発話の怒り発話感情スコアの大きさを表す統計量であればどのような統計量を用いてもよい。
また、発話感情推定部242が、発話における怒り感情の有無を推定している場合には、会話感情推定部1943は、当該会話において怒りを持つと判定された発話の数、または、割合を会話感情スコアとすればよい。
感情付与部205は、分類対象テキスト抽出部203により抽出された、会話音声の一部区間の発話内容を表す分類対象テキストの各々に対して、会話感情情報を付与する。具体的には、当該分類対象テキストが属する通話音声に対して会話感情推定部1943により推定された話者の会話感情情報を付与する。
図21は、本実施形態に係る会話分析装置1900による感情付与の一例を示す図である。感情付与部205の処理内容を、分類対象テキスト抽出部203の抽出例を示す図9、会話感情推定部1943の推定例を示す図20、および、本実施形態の感情付与部205の感情付与例を示す図21を用いて説明する。図20を参照すると、会話ID=1の会話音声の会話感情スコアは36である。そのため、感情付与部205は、図9に示された分類対象テキストのうち会話ID=1である分類対象テキストの全てに対して、会話感情スコア36を付与する。同様に、会話ID=2である分類対象テキストの全てに対して、会話ID=2の会話感情スコア0を付与し、会話ID=3である分類対象テキストの全てに対して、会話ID=3の会話感情スコア24を付与する(図21参照)。
図14と図21とを比較すると、会話ID=3の通話音声において、第2実施形態と本実施形態とで、感情付与部205の結果に違いがあることが示される。図13を参照すると、会話ID=3の通話音声においては、通話の最初の用件を述べている区間では怒りの発話感情スコアが小さく顧客が怒っていないが、通話の途中(5分以降)から怒りの発話感情スコアが大きく怒り始めていることが分かる。
このような通話に対して、第2実施形態の処理を実行すると、用件区間(0分06秒〜0分15秒)と怒っている区間(5分08秒〜)とが時間的に重なっていないために、抽出された分類対象テキストに付与される感情スコアが小さくなる。図14を参照すると、会話ID=3の分類対象テキストの感情スコアは0.02と0.04である。
一方で、本実施形態の処理を実行すると、会話ID=3の通話音声では、通話の途中から顧客が怒り始めているため、会話感情推定部1943が会話ID=3の通話音声の怒りの会話感情スコアを24と高く推定する。本実施形態の感情付与部205は会話感情スコアを付与するため、会話ID=3の通話から抽出された分類対象テキストに付与される感情スコアは大きくなる。図21を参照すると、会話ID=3の分類対象テキストの感情スコアは24である。
図22は、本実施形態に係る会話分析装置1900による通話感情スコアの付与の一例を示す図であり、図10で示した分類対象テキストの抽出結果の各々に対して、図20で示した怒りの通話感情スコアを付与した例である。図22に示したように、会話ID=3の通話音声から抽出された分類対象テキストには大きな感情スコア値=24が付与されていることが示される。
順位付け部207は、分類部206により分類された複数のクラスタを、感情付与部205により分類対象テキストに付与された感情スコアに基づいて、順位付けする。順位付けの方法は第2実施形態と同様であるため、その詳細は省略する。第2実施形態との違いは、第2実施形態では発話感情スコアが分類対象テキストに付与されているのに対して、本実施形態では会話感情スコアが分類対象テキストに対して付与されている点である。
[動作例/会話分析方法]
図23は、本実施形態に係る会話分析装置1900の処理手順を説明するフローチャートである。本実施形態では、図18に示される第2実施形態のフローチャートに、ステップS2311の処理方法が加わった点が第2実施形態と異なる。また、本実施形態では、ステップS1806の感情情報の付与処理、および、ステップS1809の順位付け処理を、上述の方法で実行する。
図23は、本実施形態に係る会話分析装置1900の処理手順を説明するフローチャートである。本実施形態では、図18に示される第2実施形態のフローチャートに、ステップS2311の処理方法が加わった点が第2実施形態と異なる。また、本実施形態では、ステップS1806の感情情報の付与処理、および、ステップS1809の順位付け処理を、上述の方法で実行する。
ステップS2311において、会話分析装置1900は、ステップS1801で取得された会話音声に対して、当該会話音声に含まれる各発話区間に対してステップS1805で推定された発話感情情報を用いて、当該会話音声における話者の感情情報を推定する。本実施形態における会話分析装置1900における各ステップの実行順序は、図23に示される例に限定されない。各ステップの順序は、第2実施形態と同様に、内容的に支障のない範囲で変更することができる。
[本実施形態の効果]
本実施形態によれば、顧客が怒っている区間と、分類対象テキストを抽出した用件区間とが時間的に一致していない場合でも、当該分類対象テキストが怒りを伴う用件であるとしてクラスタの順位付けを行うことができる。なぜならば、本実施形態においては、まず、会話に含まれる発話の感情情報に基づいて当該会話の全体における話者の会話感情情報を推定し、次に、推定した会話感情情報を当該会話から抽出した分類対象テキストに付与するからである。
本実施形態によれば、顧客が怒っている区間と、分類対象テキストを抽出した用件区間とが時間的に一致していない場合でも、当該分類対象テキストが怒りを伴う用件であるとしてクラスタの順位付けを行うことができる。なぜならば、本実施形態においては、まず、会話に含まれる発話の感情情報に基づいて当該会話の全体における話者の会話感情情報を推定し、次に、推定した会話感情情報を当該会話から抽出した分類対象テキストに付与するからである。
会話の一部区間で表出した感情の原因が、同じ会話の他の区間に存在することはよくある現象のため、上述の処理方法は会話の分析方法として妥当かつ非常に有効である。例えば、顧客が用件を述べている区間とは別の区間で顧客が怒っている場合であっても、その怒りの原因は顧客の用件と関連していることが多い。図8および図13で示した会話ID=3の通話音声がそのような会話の例である。本実施形態によれば、このような通話音声から抽出された用件も怒りを伴うと判定することで、感情情報に基づく用件クラスタの順位付けをより正確に行うことができる。
さらに、本実施形態によれば、発話感情推定部による発話感情の推定精度が低くても、感情情報に基づくクラスタの順位付けに悪影響を与えにくい、という効果がある。これに対して、第2実施形態では、怒っていても、小さな怒りの感情スコアが付与されることがある。例えば、図6において、会話ID=1の0分6秒〜0分09秒や0分17秒〜0分22秒において顧客が用件を述べている数発話の怒り推定に失敗すると、会話ID=1から抽出されるこれらの分類対象テキストには小さな怒りの感情スコアが付与される。その結果、これらの用件は怒りを伴わないものとして扱われてしまう。
一方で、一般に、用件を述べている区間以外でも顧客は怒っている可能性が高く、かつ、少なくともそれらの一部を正しく怒り推定できると考えられる。したがって、本実施形態によれば、顧客が用件を述べている数発話の怒り推定に失敗したとしても、当該用件を怒りを伴う用件として処理することができる。
[第4実施形態]
次に本発明の第4実施形態に係る会話分析装置について、図24および図25を用いて説明する。図24は、本実施形態に係る会話分析装置の構成を説明するための図である。
次に本発明の第4実施形態に係る会話分析装置について、図24および図25を用いて説明する。図24は、本実施形態に係る会話分析装置の構成を説明するための図である。
以下、本実施形態における会話分析装置および会話分析方法について図24および図25を用いて説明する。また、本実施形態は、この会話分析方法を少なくとも1つのコンピュータ(CPU)に実行させるプログラムであってもよいし、このようなプログラムを記録した少なくとも1つのコンピュータが読み取り可能な記録媒体であってもよい。
図24に示したように、会話分析装置2400は、感情推定部2401、感情付与部2402、分類部2403および順位付け部2404を有する。会話分析装置2400は、例えば、図2Aに示される上述の会話分析装置200と同様のハードウェア構成を有し、会話分析装置200と同様にCPU210によりプログラムが処理されることで、上述の各処理モジュールが実現される。ただし、会話分析装置200のハードウェア構成は制限されず、例えば、会話分析装置200には、表示装置250および入力装置260が接続されていなくてもよい。
感情推定部2401は、会話音声から話者の感情情報を推定する。会話音声の一具体例は、コールセンタの通話音声である。会話音声の形式、内容、および、話者の数は、制限されない。推定される感情情報の具体例は、怒り・嬉しさ・悲しさ・楽しさ・不満などである。感情情報の種別は、制限されない。感情の推定は、会話音声に含まれる発話の感情を推定してもよいし、発話の感情推定結果に基づいて会話全体の感情を推定してもよい。感情推定部2401による話者の感情情報の推定方法は、第2実施形態または第3実施形態における感情推定部204と同様である。
感情付与部2402は、会話音声の一部区間の発話内容を表す分類対象テキストに対して、感情推定部2401で推定された感情情報を付与する。会話音声の一部区間の一具体例は、顧客やオペレータが顧客の用件を述べている区間である。一部区間の内容は、制限されない。一部区間は、上述の音声認識と分類対象テキスト抽出とを組合せて実現してもよいし、会話音声の書き起こしテキストから人手であらかじめ抽出してもよい。感情推定部2401による感情情報の付与方法は、第2実施形態または第3実施形態における感情付与部205と同様である。
分類部2403は、複数の分類対象テキストを意味が異なる複数のクラスタに分類する。クラスタの具体例は、「プリンタのインクを注文したい」や「ディスプレイが壊れた」などの顧客の用件の内容である。クラスタの内容は、制限されない。分類部2403による分類対象テキストを複数のクラスタへと分類する方法は、第2実施形態または第3実施形態における分類部206と同様である。
順位付け部2404は、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、分類部2403で分類された複数のクラスタを順位付けする。順位付け部2404は、特定の感情を伴う分類対象テキストがクラスタ内にどの程度含まれるかを尺度として、クラスタの順位付けをすることが望ましい。順位付け部2404による複数のクラスタの順位付け方法は、第2実施形態または第3実施形態における順位付け部207と同様である。
図25は、本実施形態に係る会話分析装置2400の処理手順を説明するフローチャートである。このフローチャートは、会話分析装置200のような少なくとも1つのコンピュータにより実行される。例えば、図示される各ステップは、会話分析装置2400が有する各処理モジュールにより実行される。各ステップは、会話分析装置2400が有する上述の各処理モジュールの処理内容と同様であるため、各ステップの詳細は、適宜省略される。
ステップS2501において、会話分析装置2400は、会話音声から話者の感情情報を推定する。ステップS2502において、会話分析装置2400は、会話音声の一部区間の発話内容を表す分類対象テキストに対して、ステップS2501で推定された感情情報を付与する。
ステップS2503において、会話分析装置2400は、全ての会話音声に対してステップS2501およびステップS2502の処理が完了したか否かを判定する。未処理の会話音声が残っている場合は、未処理の会話音声に対して上述したステップS2501およびステップS2502の処理を実行する。
ステップS2504において、会話分析装置2400は、複数の分類対象テキストを意味が異なる複数のクラスタに分類する。
ステップS2505において、会話分析装置2400は、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、ステップS2504で分類された複数のクラスタを順位付けする。順位付けされた結果は、会話分析装置2400内に格納されてもよいし、他の装置に送られてもよいし、可搬型記録媒体に格納されてもよい。
なお、会話分析装置2400による処理は、まずステップS2504を実行し、その後でステップS2501〜ステップS2503を実行し、最後にステップS2505を実行してもよい。
[本実施形態の効果]
本実施形態によれば、上述の各実施形態と同様に、会話の話者が切実に訴えている重要意見を効率よく発見することができる。なぜならば、本実施形態の会話分析装置2400は、話者の特定の感情を多く伴う意見のクラスタを、上位に順位付けして出力することができるからである。
本実施形態によれば、上述の各実施形態と同様に、会話の話者が切実に訴えている重要意見を効率よく発見することができる。なぜならば、本実施形態の会話分析装置2400は、話者の特定の感情を多く伴う意見のクラスタを、上位に順位付けして出力することができるからである。
[他の実施形態]
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体(non-transitory computer readable medium)は本発明の範疇に含まれる。
[実施形態の他の表現]
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた会話分析装置。
(付記2)
会話音声を取得する会話音声取得手段と、
音声認識に基づいて、取得した前記会話音声をテキスト化して会話音声テキストを生成する会話音声テキスト化手段と、
をさらに備えた付記1に記載の会話分析装置。
(付記3)
前記感情推定手段は、
前記会話音声から発話区間を検出する発話区間検出手段と、
検出した発話区間に対して、発話感情情報を推定する発話感情推定手段と、
をさらに備え、
前記感情付与手段は、前記分類対象テキストの区間と時間的に重なる前記発話区間の前記発話感情情報を、前記分類対象テキストに付与する、付記1または2に記載の会話分析装置。
(付記4)
前記感情推定手段は、
前記会話音声に含まれる複数の前記発話区間の前記発話感情情報を用いて、前記会話音声の話者の会話感情情報を推定する会話感情推定手段をさらに備え、
前記感情付与手段は、前記分類対象テキストが属する会話音声の前記会話感情情報を、前記分類対象テキストに付与する、付記3に記載の会話分析装置。
(付記5)
前記会話感情推定手段は、前記会話音声における話者の特定感情の強さを表す会話感情スコアを推定し、
前記感情付与手段は、前記会話感情スコアを前記分類対象テキストに付与し、
前記順位付け手段は、所定の値の範囲の会話感情スコアが付与された分類対象テキストの前記クラスタに占める数または割合によって、前記複数のクラスタを順位付けする、付記4に記載の会話分析装置。
(付記6)
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声において、所定の閾値以上の前記発話感情スコアを持つ発話の数、または、割合を前記会話感情スコアとする、付記5に記載の会話分析装置。
(付記7)
前記発話感情推定手段は、
前記発話区間において話者が前記特定感情を有するか否かの判定結果を推定し、
前記会話感情推定手段は、
前記会話音声において、前記特定感情を有すると判定された発話の数、または、割合を前記会話感情スコアとする、付記5に記載の会話分析装置。
(付記8)
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声に含まれる複数の発話の前記発話感情スコアの統計量を前記会話感情スコアとする、付記5に記載の会話分析装置。
(付記9)
前記会話音声は、複数の話者の発話から構成され、
前記分類対象テキスト抽出手段は、前記会話音声に含まれる全ての話者の発話テキストから前記分類対象テキストを抽出し、
前記感情推定手段は、特定の話者の感情情報を推定する、付記1乃至8のいずれか1項に記載の会話分析装置。
(付記10)
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む会話分析方法。
(付記11)
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる会話分析プログラム。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた会話分析装置。
(付記2)
会話音声を取得する会話音声取得手段と、
音声認識に基づいて、取得した前記会話音声をテキスト化して会話音声テキストを生成する会話音声テキスト化手段と、
をさらに備えた付記1に記載の会話分析装置。
(付記3)
前記感情推定手段は、
前記会話音声から発話区間を検出する発話区間検出手段と、
検出した発話区間に対して、発話感情情報を推定する発話感情推定手段と、
をさらに備え、
前記感情付与手段は、前記分類対象テキストの区間と時間的に重なる前記発話区間の前記発話感情情報を、前記分類対象テキストに付与する、付記1または2に記載の会話分析装置。
(付記4)
前記感情推定手段は、
前記会話音声に含まれる複数の前記発話区間の前記発話感情情報を用いて、前記会話音声の話者の会話感情情報を推定する会話感情推定手段をさらに備え、
前記感情付与手段は、前記分類対象テキストが属する会話音声の前記会話感情情報を、前記分類対象テキストに付与する、付記3に記載の会話分析装置。
(付記5)
前記会話感情推定手段は、前記会話音声における話者の特定感情の強さを表す会話感情スコアを推定し、
前記感情付与手段は、前記会話感情スコアを前記分類対象テキストに付与し、
前記順位付け手段は、所定の値の範囲の会話感情スコアが付与された分類対象テキストの前記クラスタに占める数または割合によって、前記複数のクラスタを順位付けする、付記4に記載の会話分析装置。
(付記6)
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声において、所定の閾値以上の前記発話感情スコアを持つ発話の数、または、割合を前記会話感情スコアとする、付記5に記載の会話分析装置。
(付記7)
前記発話感情推定手段は、
前記発話区間において話者が前記特定感情を有するか否かの判定結果を推定し、
前記会話感情推定手段は、
前記会話音声において、前記特定感情を有すると判定された発話の数、または、割合を前記会話感情スコアとする、付記5に記載の会話分析装置。
(付記8)
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声に含まれる複数の発話の前記発話感情スコアの統計量を前記会話感情スコアとする、付記5に記載の会話分析装置。
(付記9)
前記会話音声は、複数の話者の発話から構成され、
前記分類対象テキスト抽出手段は、前記会話音声に含まれる全ての話者の発話テキストから前記分類対象テキストを抽出し、
前記感情推定手段は、特定の話者の感情情報を推定する、付記1乃至8のいずれか1項に記載の会話分析装置。
(付記10)
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む会話分析方法。
(付記11)
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる会話分析プログラム。
Claims (10)
- 会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた会話分析装置。 - 会話音声を取得する会話音声取得手段と、
音声認識に基づいて、取得した前記会話音声をテキスト化して会話音声テキストを生成する会話音声テキスト化手段と、
をさらに備えた請求項1に記載の会話分析装置。 - 前記感情推定手段は、
前記会話音声から発話区間を検出する発話区間検出手段と、
検出した発話区間に対して、発話感情情報を推定する発話感情推定手段と、
をさらに備え、
前記感情付与手段は、前記分類対象テキストの区間と時間的に重なる前記発話区間の前記発話感情情報を、前記分類対象テキストに付与する、請求項1または2に記載の会話分析装置。 - 前記感情推定手段は、
前記会話音声に含まれる複数の前記発話区間の前記発話感情情報を用いて、前記会話音声の話者の会話感情情報を推定する会話感情推定手段をさらに備え、
前記感情付与手段は、前記分類対象テキストが属する会話音声の前記会話感情情報を、前記分類対象テキストに付与する、請求項3に記載の会話分析装置。 - 前記会話感情推定手段は、前記会話音声における話者の特定感情の強さを表す会話感情スコアを推定し、
前記感情付与手段は、前記会話感情スコアを前記分類対象テキストに付与し、
前記順位付け手段は、所定の値の範囲の会話感情スコアが付与された分類対象テキストの前記クラスタに占める数または割合によって、前記複数のクラスタを順位付けする、請求項4に記載の会話分析装置。 - 前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声において、所定の閾値以上の前記発話感情スコアを持つ発話の数、または、割合を前記会話感情スコアとする、請求項5に記載の会話分析装置。 - 前記発話感情推定手段は、
前記発話区間において話者が前記特定感情を有するか否かの判定結果を推定し、
前記会話感情推定手段は、
前記会話音声において、前記特定感情を有すると判定された発話の数、または、割合を前記会話感情スコアとする、請求項5に記載の会話分析装置。 - 前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声に含まれる複数の発話の前記発話感情スコアの統計量を前記会話感情スコアとする、請求項5に記載の会話分析装置。 - 会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む会話分析方法。 - 会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる会話分析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016090804A JP2017199254A (ja) | 2016-04-28 | 2016-04-28 | 会話分析装置、会話分析方法および会話分析プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016090804A JP2017199254A (ja) | 2016-04-28 | 2016-04-28 | 会話分析装置、会話分析方法および会話分析プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017199254A true JP2017199254A (ja) | 2017-11-02 |
Family
ID=60238029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016090804A Pending JP2017199254A (ja) | 2016-04-28 | 2016-04-28 | 会話分析装置、会話分析方法および会話分析プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017199254A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019219830A (ja) * | 2018-06-18 | 2019-12-26 | 株式会社コミチ | 感情評価方法 |
JP2020071676A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
CN111199732A (zh) * | 2018-11-16 | 2020-05-26 | 深圳Tcl新技术有限公司 | 一种基于情感的语音交互方法、存储介质及终端设备 |
US20220335928A1 (en) * | 2019-08-19 | 2022-10-20 | Nippon Telegraph And Telephone Corporation | Estimation device, estimation method, and estimation program |
WO2023032016A1 (ja) * | 2021-08-30 | 2023-03-09 | 日本電信電話株式会社 | 推定方法、推定装置および推定プログラム |
WO2023144949A1 (ja) * | 2022-01-27 | 2023-08-03 | 日本電気株式会社 | リスク対処支援装置、学習装置、リスク対処支援方法、学習方法及びプログラム |
-
2016
- 2016-04-28 JP JP2016090804A patent/JP2017199254A/ja active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019219830A (ja) * | 2018-06-18 | 2019-12-26 | 株式会社コミチ | 感情評価方法 |
JP2020071676A (ja) * | 2018-10-31 | 2020-05-07 | 株式会社eVOICE | 対話要約生成装置、対話要約生成方法およびプログラム |
CN111199732A (zh) * | 2018-11-16 | 2020-05-26 | 深圳Tcl新技术有限公司 | 一种基于情感的语音交互方法、存储介质及终端设备 |
CN111199732B (zh) * | 2018-11-16 | 2022-11-15 | 深圳Tcl新技术有限公司 | 一种基于情感的语音交互方法、存储介质及终端设备 |
US20220335928A1 (en) * | 2019-08-19 | 2022-10-20 | Nippon Telegraph And Telephone Corporation | Estimation device, estimation method, and estimation program |
WO2023032016A1 (ja) * | 2021-08-30 | 2023-03-09 | 日本電信電話株式会社 | 推定方法、推定装置および推定プログラム |
WO2023144949A1 (ja) * | 2022-01-27 | 2023-08-03 | 日本電気株式会社 | リスク対処支援装置、学習装置、リスク対処支援方法、学習方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11227603B2 (en) | System and method of video capture and search optimization for creating an acoustic voiceprint | |
JP2017199254A (ja) | 会話分析装置、会話分析方法および会話分析プログラム | |
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
US10878824B2 (en) | Speech-to-text generation using video-speech matching from a primary speaker | |
US9881617B2 (en) | Blind diarization of recorded calls with arbitrary number of speakers | |
US9875742B2 (en) | Word-level blind diarization of recorded calls with arbitrary number of speakers | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
Polzehl et al. | Anger recognition in speech using acoustic and linguistic cues | |
US8676586B2 (en) | Method and apparatus for interaction or discourse analytics | |
US7805300B2 (en) | Apparatus and method for analysis of language model changes | |
US20150350438A1 (en) | Speech analytics system and methodology with accurate statistics | |
US8165874B2 (en) | System, method, and program product for processing speech ratio difference data variations in a conversation between two persons | |
CN105427869A (zh) | 一种基于深度学习的会话情感自动分析方法 | |
JP6440967B2 (ja) | 文末記号推定装置、この方法及びプログラム | |
JP6208794B2 (ja) | 会話分析装置、方法及びコンピュータプログラム | |
Blumentals et al. | Emotion recognition in real-world support call center data for latvian language | |
Jia et al. | A deep learning system for sentiment analysis of service calls | |
Chakraborty et al. | Mining call center conversations exhibiting similar affective states | |
CN114974294A (zh) | 一种多模态语音通话信息抽取方法及系统 | |
Fennir et al. | Acoustic scene classification for speaker diarization | |
US20230169981A1 (en) | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals | |
US11943392B2 (en) | System and method for providing personalized customer experience in interactive communications | |
McMurtry | Information Retrieval for Call Center Quality Assurance | |
Kulkarni et al. | Project Vāc: Can a Text-to-Speech Engine Generate Human Sentiments? | |
Wells | ASAP AND DEEP ASAP: END-TO-END AUDIO SENTIMENT ANALYSIS PIPELINES |