JP2017199254A

JP2017199254A - 会話分析装置、会話分析方法および会話分析プログラム

Info

Publication number: JP2017199254A
Application number: JP2016090804A
Authority: JP
Inventors: 真寺尾; Makoto Terao; 祥史大西; Yoshifumi Onishi
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-04-28
Filing date: 2016-04-28
Publication date: 2017-11-02

Abstract

【課題】会話の話者が切実に訴えている重要意見を効率よく発見すること。【解決手段】会話分析装置であって、会話音声から話者の感情情報を推定する感情推定部と、会話音声から会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出部と、推定した感情情報を分類対象テキストに付与する感情付与部と、部類対象テキストの意味に応じて、分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて分類対象テキストをクラスタに分類する分類部と、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、複数のクラスタを順位付けする順位付け部と、を備えた。【選択図】図１

Description

本発明は、会話分析装置、会話分析方法および会話分析プログラムに関する。

上記技術分野において、特許文献１には、会話内容に基づいて会話を分類する技術が開示されている。また、特許文献２には、感情情報の因子ごとに数値により表現したその感情の度合いを通話開始から通話終了にかけて継続的に推定する技術が開示されている（段落［００６７］等）。なお、教師なしテキスト分類の手法として、特許文献３には、クラスタに含まれる複数の分類対象テキスト間の含意関係に基づいて、代表となる分類対象テキストを選択することで、代表テキストを生成する手法が開示されている。

国際公開第２０１４／２０８２９８号公報特開２００６−１０６７１１号公報国際公開第２０１６／０１３１７５号公報

しかしながら、上記文献に記載の技術では、会話の話者が切実に訴えている重要意見を効率よく発見することが困難であった。

本発明の目的は、上述の課題を解決する技術を提供することにある。

上記目的を達成するため、本発明に係る会話分析装置は、
会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた。

上記目的を達成するため、本発明に係る会話分析方法は、
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む。

上記目的を達成するため、本発明に係る会話分析プログラムは、
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる。

本発明によれば、会話の話者が切実に訴えている重要意見を効率よく発見することができる。

本発明の第１実施形態に係る会話分析装置の構成を示すブロック図である。本発明の第２実施形態に係る会話分析装置のハードウェア構成を説明するブロック図である。本発明の第２実施形態に係る会話分析装置の構成を説明するブロック図である。本発明の第２実施形態に係る会話分析装置による通話音声のテキスト化の一例を示す図である。本発明の第２実施形態に係る会話分析装置による他の通話音声のテキスト化の一例を示す図である。本発明の第２実施形態に係る会話分析装置によるさらに他の通話音声のテキスト化の一例を示す図である。本発明の第２実施形態に係る会話分析装置による手がかり文を用いたテキスト抽出の例を示す図である。本発明の第２実施形態に係る会話分析装置による手がかり文を用いたテキスト抽出の他の例を示す図である。本発明の第２実施形態に係る会話分析装置による手がかり文を用いたテキスト抽出のさらに他の例を示す図である。本発明の第２実施形態に係る会話分析装置による複数の通話音声のテキスト化の一例を示す図である。本発明の第２実施形態に係る会話分析装置により複数の発話を一つの要素としてまとめあげて分類対象テキストを抽出した例を示す図である。本発明の第２実施形態に係る会話分析装置による通話音声に対する発話感情情報の推定結果を示す図である。本発明の第２実施形態に係る会話分析装置による他の通話音声に対する発話感情情報の推定結果を示す図である。本発明の第２実施形態に係る会話分析装置によるさらに他の通話音声に対する発話感情情報の推定結果を示す図である。本発明の第２実施形態に係る会話分析装置により発話感情スコアを付与した例を示す図である。本発明の第２実施形態に係る会話分析装置により発話感情スコアを付与した他の例を示す図である。本発明の第２実施形態に係る会話分析装置により分類対象テキストを分類した例を示す図である。本発明の第２実施形態に係る会話分析装置によりクラスタを順位付けした例を示す図である。本発明の第２実施形態に係る会話分析装置の処理手順を説明するフローチャートである。本発明の第３実施形態に係る会話分析装置の構成を説明するブロック図である。本発明の第３実施形態に係る会話分析装置により計算した会話感情スコアの一例を示す図である。本発明の第３実施形態に係る会話分析装置による感情付与の一例を示す図である。本発明の第３実施形態に係る会話分析装置による通話感情スコアの付与の一例を示す図である。本発明の第３実施形態に係る会話分析装置の処理手順を説明するフローチャートである。本発明の第４実施形態に係る会話分析装置の構成を説明するブロック図である。本発明の第４実施形態に係る会話分析装置の処理手順を説明するフローチャートである。

以下に、本発明を実施するための形態について、図面を参照して、例示的に詳しく説明記載する。ただし、以下の実施の形態に記載されている、構成、数値、処理の流れ、機能要素などは一例に過ぎず、その変形や変更は自由であって、本発明の技術範囲を以下の記載に限定する趣旨のものではない。

以下に例示される各実施形態における会話分析装置および会話分析方法は、会話音声を処理する。会話音声において発話している話者は一人であっても、複数であってもよい。以下の各実施形態では、一続きの発声を「発話」と表記し、複数の発話から構成される会話全体の音声を「会話音声」と表記する。一つの発話は、概ね一つの文に相当するが、必ずしも完成文であるとは限らない。また、以下の各実施形態では、分析対象となる会話音声としてコールセンタの会話が例示され、顧客の用件（コールリーズン）の分析を行う。ただし、各実施形態は、コールセンタへの適用や顧客の用件の分析のみに制限されず、様々な場面における会話の様々な目的の分析に適用されてもよい。なお、以下の各実施形態では、「会話音声」のことを「通話音声」と表記する場合もある。

［第１実施形態］
本発明の第１実施形態としての会話分析装置１００について、図１を用いて説明する。会話分析装置１００は、会話音声を処理し、分析する装置である。

図１に示すように、会話分析装置１００は、感情推定部１０１と、分類対象テキスト抽出部１０２と、感情付与部１０３と、分類部１０４と、順位付け部１０５とを備える。感情推定部１０１は、会話音声から話者の感情情報を推定する。分類対象テキスト抽出部１０２は、会話音声から会話音声の一部区間の発話内容を表す分類対象テキストを抽出する。感情付与部１０３は、推定した感情情報を分類対象テキストに付与する。分類部１０４は、分類対象テキストの意味に応じて、分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて分類対象テキストをクラスタに分類する。順位付け部１０５は、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、複数のクラスタを順位付けする。

本実施形態によれば、会話の話者が切実に訴えている重要意見を効率よく発見することができる。

［第２実施形態］
次に本発明の第２実施形態に係る会話分析装置について、図２Ａ乃至図１８を用いて説明する。

＜前提技術＞
近年、情報処理システムによる会話音声の分析が注目されている。例えば、コールセンタの通話音声を分析して顧客の声を効率的に把握することで、製品・サービスに対するニーズの把握や問題発生の早期発見などへの活用が期待されている。

会話音声を分析する技術の一例が特許文献１に記載されている。特許文献１では、会話音声を会話の内容に基づいて分類する手法が提案されている。この手法は、分析対象となる会話音声をテキスト化した文章から、会話の分類に寄与する区間を、手がかり文を基礎に抽出し、抽出した区間のテキストを用いて会話音声を分類する。この手法を、大量の会話音声に適用することで、大量の会話音声を会話内容に基づいて分類することができる。例えば、この手法をコールセンタの通話音声に適用すれば、通話音声に含まれる様々な顧客の意見を内容に基づいて分類することができ、その結果、通話内容を効率良く把握することができる。

しかしながら、特許文献１の手法では、会話の話者が切実に訴えている重要意見を発見することが難しい。上記提案手法によれば、大量の会話音声の中に含まれる各意見の件数を把握することができるが、必ずしも件数が多い意見が話者の切実なニーズや問題を伴っているとは限らないからである。例えば、コールセンタの通話音声を分類した結果、「製品Ａを注文したい（２３２０件）」「製品Ｂが壊れた（６４件）」であり、前者の意見では顧客は怒っておらず、後者の意見では顧客の大半が怒っていたとする。このとき、意見の件数の大小に基づいて顧客の声を分析すると、後者の意見が見落とされてしまう可能性が高い。しかし、顧客の大半が怒っている後者の意見の方が顧客の切実な訴えであり、重視すべき意見である可能性が高い。

＜本実施形態の技術＞
本実施形態の技術は、このような事情に鑑みてなされたものであり、会話の話者が切実に訴えている重要意見を効率良く発見することができる会話分析装置を提供する。ここで、切実に訴えている意見としては、ネガティブな内容の意見に限られるものではなく、ポジティブな内容の意見も含まれる。

[ハードウェア構成］
図２Ａは、本実施形態に係る会話分析装置２００のハードウェア構成を説明するためのブロック図である。会話分析装置２００は、いわゆるコンピュータであり、図２Ａに示されるように、ＣＰＵ（Central Processing Unit）２１０、メモリ２２０、入出力インタフェース（Ｉ／Ｆ：Interface）２３０および通信ユニット２４０を有する。

ＣＰＵ２１０には、一般的なＣＰＵに加えて、特定用途向け集積回路（ＡＳＩＣ：Application Specific Integrated Circuit）、ＤＳＰ（Digital Signal Processor）、ＧＰＵ（Graphics Processing Unit）等も含まれる。メモリ２２０は、ＲＡＭ（Random Access Memory）や、ＲＯＭ（Read Only Memory）、補助記憶装置（ハードディスク等）である。

入出力Ｉ／Ｆ２３０は、表示装置２５０、入力装置２６０等のユーザインタフェース装置と接続可能である。表示装置２５０は、ＬＣＤ（Liquid Crystal Display）やＣＲＴ（Cathode Ray Tube）ディスプレイのような、ＣＰＵ２１０等により処理された描画データに対応する画面を表示する装置である。入力装置２６０は、キーボードやマウス等のようなユーザ操作の入力を受け付ける装置である。表示装置２５０および入力装置２６０は一体化され、タッチパネルとして実現されてもよい。

通信ユニット２４０は、他のコンピュータとの通信網（図示せず）を介した通信や、他の機器との信号のやりとり等を行う。通信ユニット２４０には、可搬型記録媒体等も接続され得る。

図２Ａに示される各ハードウェア構成はそれぞれ一例であり、会話分析装置２００のハードウェア構成は、図２Ａに示される例に制限されない。会話分析装置２００は、図示されていない他のハードウェア要素を含み得る。また、各ハードウェア要素の数も、図２Ａの例に制限されない。例えば、会話分析装置２００は、複数のＣＰＵ２１０を有していてもよい。

[処理構成]
図２Ｂは、本実施形態に係る会話分析装置２００の構成を説明するためのブロック図である。会話分析装置２００は、会話音声取得部２０１と、会話音声テキスト化部２０２と、分類対象テキスト抽出部２０３と、感情推定部２０４と、感情付与部２０５と、分類部２０６と、順位付け部２０７と、出力部２０８とを備える。感情推定部２０４は、さらに、発話区間検出部２４１と、発話感情推定部２４２とを有する。

これら各処理モジュールは、ＣＰＵ２１０によりメモリ２２０に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、ＣＤ（Compact Disc）、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから通信ユニット２４０を介してインストールされ、メモリ２２０に格納されてもよい。

会話音声取得部２０１は、分析対象とする会話音声として、コールセンタにおける通話音声を取得する。通話音声は、通話録音装置で録音したり、電話機に接続したコンバージャ―を介して計算機に録音したりすることで取得することができる。通話音声は、オペレータと顧客の２話者の音声から構成され、本実施形態では、オペレータと顧客とが分離された音声データを取得する。なお、分析対象とする会話音声は通話音声に限られるものではない。また、会話音声に含まれる話者は２名に限るものではなく、１名であっても３名以上であってもよい。

会話音声テキスト化部２０２は、会話音声取得部２０１により取得された会話音声に対して音声認識処理を適用することで、会話音声をテキスト化する。また、オペレータ音声と顧客音声の両方に対して音声認識処理を適用する。これは、顧客のみならず、オペレータも顧客の用件の分析に有用な情報を発話していることがあるためである。ただし、分析の目的によっては、特定話者の音声に対してのみ音声認識処理を適用しても構わない。音声認識処理には、既存の様々な音声認識手法を利用可能である。

なお、会話音声取得部２０１は、音声認識処理を適用することで会話音声に含まれる発話の内容をテキスト化し、発話内容テキストとして出力してもよい。会話音声テキスト化部２０２は、まず音声データから一続きの発声に相当する発話の区間（開始時刻と終了時刻）を検出し、次に各発話の内容をテキスト化する。

図３は、本実施形態に係る会話分析装置２００による通話音声のテキスト化の一例を示す図である。図４は、本実施形態に係る会話分析装置２００による他の通話音声のテキスト化の一例を示す図である。図５は、本実施形態に係る会話分析装置２００によるさらに他の通話音声のテキスト化の一例を示す図である。

図３は、会話音声テキスト化部２０２による会話ＩＤ（Idetifier1）＝１の通話音声のテキスト化の例を示す図である。図３において、話者列のＯＰ（オペレーター：Operator）はオペレータを表し、ＣＵ（カスタマー：Customer）は顧客を表す（以下、同様とする）。また、一つの行が会話音声テキスト化部２０２により検出された一つの発話区間を表す。図３の例によれば、時刻０分０１秒から０分０３秒の間にオペレータが「お電話有難うございます」と発話し、時刻０分０７秒から０分０９秒の間に顧客が「ディスプレイが壊れたから何とかして欲しいんだけど」と発話したことなどが示される。なお、図３では、会話ＩＤ＝１の通話音声の一部の発話のみが図示されている。

会話ＩＤは、会話音声を一意に特定するためのＩＤである。本実施形態においては、一つの通話音声が一つの会話音声である。すなわち、通話開始から通話終了までの全体が、一つの会話音声に相当する。一つの会話音声には、通常、複数の発話が含まれる。図３に例示した発話は、全て会話ＩＤ＝１の通話音声に属する。同様に、図４は会話ＩＤ＝２の通話音声のテキスト化の例を示す図であり、図５は会話ＩＤ＝３の通話音声のテキスト化の例を示す図である。

分類対象テキスト抽出部２０３は、会話音声テキスト化部２０２により得られた会話音声テキストから、分類対象とする一部区間の発話内容を表す分類対象テキストを抽出する。コールセンタの会話音声には様々な内容が含まれているため、分析に不要な区間を除外して分析対象区間を抽出しておくことが有効である。本実施形態では、顧客の用件を分析するために、分類対象テキスト抽出部２０３は、顧客やオペレータが顧客の用件を述べている区間のテキストを抽出するが、分類対象テキスト抽出部２０３が抽出するテキストはこれには限定されない。

分類対象テキストを抽出する方法としては、発話内容テキストに含まれる会話の構造を決定する手がかり文を基礎にする方法が考えられる。例えば、顧客の用件は、通話の冒頭でオペレータが名乗ってから、オペレータが御礼または謝罪を述べるまでの区間に含まれる確率が高い。そこで、オペレータの名乗りに相当する手がかり文から、オペレータの御礼または謝罪に相当する手がかり文までの区間のテキストを顧客の要件を表す分類対象テキストとして抽出することができる。例えば、「担当○○でございます」から「ありがとうございます」または「申し訳ございませんでした」までの区間のテキストを分類対象テキストとして抽出する。また、他の例として、オペレータが用件を尋ねる手がかり文「どのような症状でしょうか」から、オペレータの謝罪に相当する手がかり文「申し訳ございませんでした」までの区間のテキストを、顧客の用件を表す分類対象テキストとして抽出することができる。

図６は、本実施形態に係る会話分析装置２００による手がかり文を用いたテキスト抽出の例を示す図であり、図３で示した会話ＩＤ＝１の通話音声に対する、手がかり文を基礎にした分類対象テキスト抽出の例を示す図である。手がかり文が下線で示され、抽出されたテキストは表の「分析対象区間」の列に○印で示されている。図６に示したように、開始時刻０分０３秒のオペレータ発話「担当○○でございます」から、開始時刻０分１２秒のオペレータ発話「申し訳ございませんでした」の間の区間に含まれる３つの発話が抽出されたことが示される。これら３つの発話は、「あのさ」、「ディスプレイが壊れたから何とかして欲しいんだけど」および「ディスプレイの故障でございますね」である。この例のように、本実施形態においては、抽出対象として抽出するテキストに顧客発話だけでなくオペレータ発話も含まれている。これは、開始時刻０分１０秒のオペレータ発話「ディスプレイの故障でございますね」のように、オペレータが顧客の用件を復唱したり言い換えて説明したりすることがあるためである。ただし、分析の目的によっては、特定話者のみからテキストを抽出しても構わない。また、同様に、開始時刻０分１４秒のオペレータ発話「具体的にどのような症状でしょうか」から、開始時刻０分２３秒のオペレータ発話「申し訳ございませんでした」の間の区間に含まれる２つの発話も抽出されたことが示される。これら２つの発話は、「突然ディスプレイに黒い線が出てきて」および「画面見にくいし、映画見ててもすごい邪魔なんですけど」である。なお、図６では、会話ＩＤ＝１の通話音声の一部の発話のみが図示されている。

同様に、図７は、本実施形態に係る会話分析装置２００による手がかり文を用いたテキスト抽出の他の例を示す図であり、図４で示した会話ＩＤ＝２の通話音声に対する分類対象テキスト抽出の例を示す図である。また、図８は、本実施形態に係る会話分析装置２００による手がかり文を用いたテキスト抽出のさらに他の例を示す図であり、図５で示した会話ＩＤ＝３の通話音声に対する分類対象テキスト抽出の例を示す図である。いずれも手がかり文が下線で示され、抽出されたテキストは表の「分析対象区間」の列に○印で示されている。

図９は、本実施形態に係る会話分析装置２００による複数の通話音声のテキスト化の一例を示す図であり、複数の通話音声から抽出された複数の分類対象テキストの例をまとめて示した図である。すなわち、図６で示した会話ＩＤ＝１の通話音声から抽出された５つの発話、図７で示した会話ＩＤ＝２の通話音声から抽出された３つの発話、図８で示した会話ＩＤ＝３の通話音声から抽出された３つの発話、をそれぞれ１発話１要素としてまとめたものである。なお、図９は、本実施形態で処理する会話音声のごく一部から抽出された分類対象テキストのみを示した図であり、図示した以外にも多くの発話、および、会話の結果が抽出される。

分類対象テキスト抽出部２０３は、時間的に連続する、あるいは、時間的に近い複数の発話を一つの要素としてまとめて分類対象テキストを抽出してもよい。時間的に連続する、あるいは、時間的に近い複数の発話は同内容である可能性が高いため、一つの要素としてまとめた方が後述の分類部で精度良く分類できることがある。

図１０は、本実施形態に係る会話分析装置２００により複数の発話を一つの要素としてまとめあげて分類対象テキストを抽出した例を示す図である。例えば、図６で示した会話ＩＤ＝１の通話音声から抽出された５つの発話のうち、開始時刻０分０６秒の顧客発話、開始時刻０分０７秒の顧客発話、および、開始時刻０分１０秒のオペレータ発話の３つの発話が時間的に連続している。そのため、これらの発話が、１つの要素にまとめあげられていることが示される。これを具体的に示せば、「あのさディスプレイが壊れたから何とかして欲しいんだけどディスプレイの故障でございますね」である。また、開始時刻０分１７秒の顧客発話および開始時刻０分１９秒の顧客発話の２つの発話も時間的に連続しているため、１つの要素にまとめあげられていることが示される。これを具体的に示せば、「突然ディスプレイに黒い線が出てきて画面見にくいし、映画見ててもすごい邪魔なんですけど」である。

分類対象テキスト抽出部２０３は、分類対象テキストを抽出する方法として、抽出対象となるテキストか否かを判定する統計モデルを用いた判定手法を用いてもよい。統計モデルは、抽出対象となるテキストおよび抽出対象とならないテキストの事例に基づいて学習することができる。統計モデルとしては、ナイーブベイズ分類器やＳＶＭ（Support Vector Machine）などの既存のモデルを利用可能である。

感情推定部２０４は、会話音声取得部２０１により取得された会話音声に対して、感情認識処理を適用することで、話者の感情情報を推定する。感情推定部２０４は、発話区間検出部２４１と発話感情推定部２４２とをさらに有する。

発話区間検出部２４１は、会話音声取得部２０１により取得された会話音声から、一続きの発声に相当する発話の区間（開始時刻と終了時刻）を検出する。発話区間検出には、既存の様々な発話検出手法を利用可能である。例えば、音声の音量（パワー）の大小に基づいて検出するパワーベースの手法や、音声と非音声のモデルを用いて検出するモデルベースの手法などがある。なお、発話区間検出部２４１が出力する発話区間と、会話音声テキスト化部２０２が出力する発話区間とは、始終端時刻が異なることもあり得る。また、発話区間検出部２４１による発話区間検出処理を、会話音声テキスト化部２０２が内蔵する発話区間検出処理と共通化してもよい。本実施形態においては、発話区間検出部２４１による発話区間検出と会話音声テキスト化部２０２による発話区間検出とは独立に実行される。

発話感情推定部２４２は、発話区間検出部２４１が検出した発話区間の各々に対して、当該発話における話者の感情情報を推定する。本実施形態においては、発話における話者の怒り感情の度合いを「怒りの発話感情スコア（数値）」として推定する。ただし、推定する感情は怒りに限られるものではなく、例えば、嬉しさ・悲しさ・楽しさ・不満などの感情を推定することもできる。また、感情の度合いを数値として推定するのではなく、感情の有無を推定してもよい。例えば、怒り感情があるか否かを推定してもよい。

発話における話者の感情情報の推定には、既存の様々な感情推定手法を利用可能である。例えば、音声の音量（パワー）、音声の高さ（ピッチ）、ＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）や、それらの時間差分などの発話内の統計量を特徴とした統計モデルを用いた判定手法を利用可能である。統計モデルは、推定対象の感情を含む音声データおよび推定対象の感情を含まない音声データの事例に基づいて学習することができる。統計モデルとしては、ＧＭＭ（Gaussian Mixture models）、ＳＶＭ（Support Vector Machine）、ニューラルネットワーク、ロジスティック回帰モデル、決定木などの既存のモデルを利用可能である。推定結果を数値として出力する場合は、例えば、ニューラルネットワークや、ＧＭＭのモデル間尤度比や、ＳＶＭの識別面からの距離などを用いることができる。なお、感情推定に用いる特徴やモデルはこれらに限られるものではない。

図１１は、本実施形態に係る会話分析装置２００による通話音声に対する発話感情情報の推定結果を示す図であり、会話ＩＤ＝１の通話音声に対する、発話感情推定部２４２による発話感情情報の推定結果の例を示す図である。本実施形態においては、顧客音声に対してのみ、怒りの感情推定を実行する。これは、本実施形態では、顧客が怒っているときの顧客の用件を分析するためである。ただし、分析の目的によっては、顧客音声とオペレータ音声の両方に対して感情推定を実行しても構わない。発話区間検出部２４１により検出された一つの発話区間が一つの行に対応する。また、発話感情推定部２４２により推定された各発話の怒りの発話感情スコアが示されている。本実施形態においては、発話感情スコアとして事後確率を用いることで、スコアの値域は０．０〜１．０である。図１１に示したよう、例えば、発話区間検出部２４１により、０分０６秒〜０分０９秒の発話区間が検出され、その発話に対して、発話感情推定部２４２により怒りの発話感情スコアとして０．８０が推定されたことが示される。同様に、０分１７秒〜０分２０秒の発話区間が検出され、その発話に対して、怒りの発話感情スコアとして０．８６が推定されたことなどが示される。なお、図１１においては、会話ＩＤ＝１の通話音声の一部の発話のみが図示されている。

なお、本実施形態においては、発話区間検出部２４１は会話音声テキスト化部２０２と独立であるため、図３に示される会話音声テキスト化部２０２の出力と、図１１に示される感情推定部２０４の出力とでは、発話区間が異なっている。例えば、図３の会話音声テキスト化部２０２の出力では、顧客発話として０分０６秒〜０分０７秒、および、０分０７秒〜０分０９秒の２区間が検出されている。これに対して、図１１の発話感情推定部２４２の出力では顧客発話として０分０６秒〜０分０９秒の１区間が検出されている。

図１２は、本実施形態に係る会話分析装置２００による他の通話音声に対する発話感情情報の推定結果を示す図であり、会話ＩＤ＝２の通話音声に対する発話感情情報の推定結果の例を示す図である。また、図１３は、本実施形態に係る会話分析装置２００によるさらに他の通話音声に対する発話感情情報の推定結果を示す図であり、会話ＩＤ＝３の通話音声に対する発話感情情報の推定結果の例を示す図である。いずれも顧客音声に対してのみ、怒りの感情推定を実行している。

感情付与部２０５は、分類対象テキスト抽出部２０３により抽出された、会話音声の一部区間の発話内容を表す分類対象テキストの各々に対して、発話感情推定部２４２により推定された話者の発話感情情報を付与する。本実施形態においては、図１１〜図１３で示されるように、発話感情推定部２４２は、各々の発話の時刻情報（開始時刻・終了時刻）および怒りの発話感情スコアを出力する。感情付与部２０５は、発話感情推定部２４２が出力したこれら複数の発話のうち、分類対象テキストの区間と時間的に重なっている発話の発話感情スコアを、当該分類対象テキストに付与する。

図１４は、本実施形態に係る会話分析装置２００により分類対象テキストに発話感情スコアを付与した例を示す図であり、図９で示した分類対象テキストの抽出結果の各々に対して、図１１〜図１３で示した怒りの発話感情スコアを付与した例である。例えば、図９で示した会話ＩＤ＝１から抽出された０分０６秒〜０分０７秒の分類対象テキスト「あのさ」と時間的に重なっている感情推定部の出力発話は、図１１を参照すると０分０６秒〜０分０９秒の発話であり、その怒りの発話感情スコアは０．８０である。したがって、分類対象テキスト「あのさ」には怒りの発話感情スコアとして０．８０が付与される（図１４参照）。同様に、会話ＩＤ＝１から抽出された０分０７秒〜０分０９秒の分類対象テキスト「ディスプレイが壊れたから何とかして欲しいんだけど」については、怒りの発話感情スコアとして０．８０が付与される（図１４参照）。なお、図１４は、本実施形態で処理する会話音声のごく一部から抽出された分類対象テキストのみを示した図であり、図示した以外にも多くの発話、および、会話の結果が抽出される。

また、図９で示した会話ＩＤ＝１から抽出された０分１９秒〜０分２２秒の分類対象テキスト「画面見にくいし、映画見ててもすごい邪魔なんですけど」と時間的に重なっている感情推定部２０４の出力発話は、図１１を参照すると次のようになる。すなわち、感情推定部２０４の出力発話は、０分１７秒〜０分２０秒（怒りの発話感情スコア＝０．８６）と、０分２０秒〜０分２２秒（怒りの発話感情スコア＝０．９６）との２発話である。本実施形態では、この２発話のスコアの平均値である０．９１が、０分１９秒〜０分２２秒の当該分類対象テキストに付与される（図１４参照）。他の分類対象テキストについても同様である。なお、このように複数の発話が一つの分類対象テキストと重なっている場合に、重なり時間の大小に応じて重み付き平均を付与したり、最大のスコアを付与したりしてもよい。

図１４に示したように、感情付与部２０５によって、分類対象テキスト抽出部２０３により抽出された分類対象テキストの各々がどの程度の怒りを伴って発話されたのかが分かる。なお、分類対象テキストと時間的に重なっている感情推定部２０４の出力発話がない場合は、怒りの発話感情スコアを付与しない。図１４では、例えば、会話ＩＤ＝１の通音声の０分１０秒〜０分１２秒のオペレータ発話「ディスプレイの故障でございますね」には、発話感情スコアが付与されない（表ではＮ／Ａと記述）。

図１５は、本実施形態に係る会話分析装置２００により分類対象テキストに発話感情スコアを付与した他の例を示す図であり、図１０で示した分類対象テキストの抽出結果の各々に対して、図１１〜図１３で示した怒りの発話感情スコアを付与した例である。例えば、図１０で示した会話ＩＤ＝１から抽出された０分０６秒〜０分１２秒の分類対象テキスト「あのさディスプレイが壊れたから何とかして欲しいんだけどディスプレイの故障でございますね」について検討する。そうすると、この分類対象テキストと時間的に重なっている感情推定部の出力発話は、図１１を参照すると０分０６秒〜０分０９秒の発話であり、その怒りの発話感情スコアは０．８０である。したがって、当該分類対象テキストには怒りの発話感情スコアとして０．８０が付与される（図１５参照）。

分類部２０６は、分類対象テキスト抽出部２０３により抽出された複数の分類対象テキストを、意味が異なる複数のクラスタに分類する。本実施形態においては、分類部２０６による処理の前に、感情推定部２０４および感情付与部２０５による処理が実行され、分類対象となる分類対象テキストには、すでに発話感情情報が付与されている。ただし、感情推定部２０４および感情付与部２０５の処理を実行する前に、分類部２０６の処理を実行しても構わない。この場合は、分類部２０６による分類を実行した後で、感情推定部２０４および感情付与部２０５の処理を実行する。

分類部２０６は、分類対象テキストの分類に、ナイーブベイズなどの既存の教師あり分類手法を用いて実現可能である。例えば、顧客の用件として抽出された分類対象テキストを「解約したい」「住所変更したい」「サービスＡに申し込みたい」「その他」の４つのクラスへと分類するには、これら４クラスに対応する事例テキストを収集し、分類モデルを学習すればよい。

分類部２０６は、分類対象テキストの分類に、ｋ−ｍｅａｎｓ法などの既存の教師なし分類手法を用いることもできる。教師なし分類手法を用いれば、あらかじめ分類すべきクラスを定めたり、学習用の事例テキストを収集したりすることなく、分類対象テキストを複数のクラスタへと分類することができる。また、分類部２０６は、特許文献３に記載の分類手法を用いることで、分類対象テキストを教師なしで複数のクラスタへと分類した上で、各クラスタに対してクラスタの内容を表す代表テキストを自動的に生成することができる。特許文献３では、クラスタに含まれる複数の分類対象テキスト間の含意関係に基づいて、代表となる分類対象テキストを選択することで、代表テキストを生成する。

以下では、教師あり分類手法により得られた分類対象テキストのまとまり（クラス）、および、教師なし分類手法により得られた分類対象テキストのまとまり（クラスタ）の両方をクラスタと呼ぶ。分類部２０６による分類では、一つの分類対象テキストが一つのクラスタのみに属するように分類してもよいし、一つの分類対象テキストが複数のクラスタに属することもあるように分類してもよい。

図１６は、本実施形態に係る会話分析装置２００により分類対象テキストを分類した例を示す図であり、図１４または図１５で示した分類対象テキストを入力としたときの、分類部２０６による分類結果の例を示す図である。一つの行が一つのクラスタを表している。「プリンタのインクを注文したい」などのクラスタの名前は、教師あり分類手法を用いる場合には、分類モデルで学習したクラスに人手で付与された名前である。教師なし分類手法を用いる場合には、例えば、前述の特許文献３の分類手法を用いれば、クラスタの名前を代表テキストとして自動的に生成することができる。あるいは、一つのクラスタに含まれる複数の分類対象テキストの内容を人手で確認することで、適切な名前を付与することもできる。なお、図１６は、本実施形態において分類されたクラスタの一部のみを示した図であり、図示した以外にも多くのクラスタが存在する。

クラスタの要素数は、当該クラスタに分類された分類対象テキストの数を表している。図１６の例によれば、例えば、クラスタ「プリンタのインクを注文したい」には２３２０個の分類対象テキストが分類されていることが示されている。クラスタ「プリンタのインクを注文したい」の要素としては、例えば、図１４に示した会話ＩＤ＝２の通話音声の０分０９秒〜０分１２秒の顧客発話「インクを注文したくてお電話したんですけども」が含まれる。また、この要素としては、０分１３秒〜０分１５秒のオペレータ発話「インクのご注文でございますね」などの分類対象テキストが含まれる。

図１６においては、要素数が多い順に、各クラスタをソートして順位付けして並べている。例えば、クラスタ「プリンタのインクを注文したい」は要素数２３２０で、最も多くの分類対象テキストを含むことが示されている。これは、分析対象とした会話音声の中で「プリンタのインクを注文したい」という用件が最も多かったことを表している。同様に、クラスタ「新製品情報を知りたい」は要素数２１５０で、２番目に多い用件であることを表している。一方で、クラスタ「ディスプレイが壊れた」は要素数６４で２８１位、クラスタ「ディスプレイに黒い線が出る」は要素数２５で４２０位と下位の用件であることが分かる。

順位付け部２０７は、分類部２０６により分類された複数のクラスタを、感情付与部２０５により分類対象テキストに付与された感情情報に基づいて、順位付けする。まず、順位付け部２０７は、各クラスタについて、当該クラスタに含まれる分類対象テキストのうち、怒り感情を伴う分類対象テキストの数を数える。怒り感情を伴うか否かは、分類対象テキストに付与された怒りの発話感情スコアが所定の閾値以上か否かに基づき判定することができる。例えば、所定の閾値を０．５０として、図１４に示した分類対象テキストを処理する場合には、以下の分類対象テキストを怒り感情を伴う分類対象テキストとして数える対象とする。
・会話ＩＤ＝１、０分０６秒〜０分０７秒「あのさ」
・会話ＩＤ＝１、０分０７秒〜０分０９秒「ディスプレイが壊れたから何とかして欲しいんだけど」
・会話ＩＤ＝１、０分１７秒〜０分１９秒「突然ディスプレイに黒い線が出てきて」
・会話ＩＤ＝１、０分１９秒〜０分２２秒「画面見にくいし、映画見ててもすごい邪魔なんですけど」
なお、図１４は本実施形態で処理する会話音声のごく一部のみを示した図であるため、上記以外にも多くの怒り感情を伴う分類対象テキストが存在する。

なお、発話感情スコアまたは感情有無の判定結果が付与されていない分類対象テキストは、感情を伴わないものとして処理する。例えば、図１４に示された、会話ＩＤ＝１の通話音声の０分１０秒〜０分１２秒の発話「ディスプレイの故障でございますね」には怒りの発話感情スコアが付与されていない（図ではＮ／Ａと表示）ため、怒り感情を伴わないものとして処理する。

次に、順位付け部２０７は、各クラスタについて、当該クラスタに含まれる分類対象テキストのうち、怒り感情を伴う分類対象テキストがクラスタに占める割合を計算し、その割合が大きい順に複数のクラスタを順位付けする。

図１７は、本実施形態に係る会話分析装置２００によりクラスタを分類した例を示す図であり、図１６で示した複数のクラスタに対する、順位付け部２０７よる順位付けの例を示す図である。図１７に示したように、例えば、クラスタ「ディスプレイに黒い線が出る」に含まれる２５個の分類対象テキストのうち、２３個が怒り感情を伴う分類対象テキストである。また、当該クラスタにおける怒り感情を伴う分類対象テキストの割合（以降は「怒り率」と表記）は、約９２％（＝１００×２３／２５）でその順位が１位あること、が示される。同様に、クラスタ「ディスプレイが壊れた」の怒り率は８８％で２位であることが示される。一方で、クラスタ「プリンタのインクを注文したい」の怒り率は０．３％で４８６位、「新製品情報を知りたい」の怒り率は０．０％で４８７位とそれぞれ下位の用件であること、などが示される。

したがって、図１７に示したように、「ディスプレイに黒い線が出る」や「ディスプレイが壊れた」という用件について顧客またはオペレータが述べているときに、顧客が怒っている割合が大きいことが分かる。また、「プリンタのインクを注文したい」や「新製品情報を知りたい」という用件について顧客またはオペレータが述べているときに、顧客が怒っている割合が小さいことが分かる。なお、図１７は、本実施形態において分類されたクラスタの一部のみを示した図であり、図示した以外にも多くのクラスタが存在する。

順位付け部２０７は、怒り感情を伴う分類対象テキストがクラスタに占める割合が小さい順に、複数のクラスタを順位付けしてもよい。これにより、怒っている割合が小さい用件が上位に順位付けされる。

また、順位付け部２０７は、クラスタに含まれる怒り感情を伴う分類対象テキストの数が多い順に、複数のクラスタを順位付けしてもよい。その場合、図１７に示したように、クラスタ「ディスプレイが壊れた」に含まれる怒り感情を伴う分類対象テキストの数が５６件で最も多いため、順位１位となる。また、クラスタ「ディスプレイの配線方法が分からない」に含まれる怒り感情を伴う分類対象テキストの数が５４件で２番目に多いため、順位２位となる。

順位付け部２０７は、クラスタに含まれる分類対象テキストのうち、怒りの発話感情スコアが所定の範囲内にある分類対象テキストがクラスタに占める割合または数に基づいて、クラスタを分類してもよい。所定の範囲として、例えば、０．５０〜０．８０を採用することができる。これにより、中程度の怒り感情を伴う顧客の用件を上位に順位付けすることができる。また、順位付け部２０７は、怒りの発話感情スコアが所定の閾値以下（または所定の閾値以上）である分類対象テキストがクラスタに占める割合または数に基づいて、クラスタを分類してもよい。所定の閾値として、例えば、０．３０を採用することがでｋる。これにより、ほとんど怒り感情を伴わない顧客の用件を上位に順位付けすることができる。

出力部２０８は、順位付け部２０７によるクラスタの順位付け結果の情報を出力する。出力部２８による出力の具体的形態は制限されない。出力部２０８は、当該情報の表示を入出力Ｉ／Ｆ２３０を介して表示装置２５０に出力させてもよいし、当該情報を入出力Ｉ／Ｆ２３０を介して印刷装置（図示せず）に印刷させてもよい。また、出力部２０８は、当該情報を通信ユニット２４０を介して他の装置に出力してもよいし、当該情報を通信ユニット２４０を介して可搬型記録媒体等に電子ファイルとして出力してもよい。

出力部２０８は、例えば、図１７に示したような表形式で、クラスタの順位付け結果を出力してもよい。表には、各クラスタが順位付け部２０７で順位付けされた順番にクラスタを並べる。クラスタの情報として、クラスタの名前、含まれる分類対象テキスト（要素）の数、怒りを伴う分類対象テキストの数、怒りを伴う分類対象テキスト（要素）の割合などを出力する。ただし、出力する情報はこれらに限られるものではなく、他の情報を出力してもよい。また、出力情報の配置は図１７の表形式に限られるものではなく、他の形式でもよい。

本実施形態では、感情推定部２０４が顧客の怒り感情を推定したが、推定する感情は怒りに限られるものではない。例えば、嬉しさ・悲しさ・楽しさ・不満などの感情を推定することもできる。例えば、感情推定部２０４が、顧客の嬉しさ感情を推定し、他の各部が上述の処理を行うことで、顧客の嬉しいという感情を伴う用件を上位に順位付けして出力することができる。また、推定する話者も顧客に限られるものではない。例えば、感情推定部２０４が、オペレータの深い謝罪感情を推定し、他の各部が上述の処理を行うことで、顧客に対して深くお詫びしなければならない顧客の用件を上位に順位付けして出力することができる。

[動作例／会話分析方法]
図１８は、本実施形態に係る会話分析装置２００の処理手順を説明するフローチャートである。このフローチャートは、図２ＡのＣＰＵ２１０がメモリ２２０を使用して実行し、図２Ｂの会話分析装置２００の機能構成部を実現する。例えば、図示される各ステップは、会話分析装置２００が有する上述の各処理モジュールにより実行される。各ステップは、会話分析装置２００が有する上述の各処理モジュールの処理内容と同様であるため、各ステップの詳細は、適宜省略される。

ステップＳ１８０１において、会話分析装置２００は、会話音声の音声データを取得する。本実施形態においては、音声データとして、コールセンタにおける通話音声を取得する。通話音声は、通話録音装置やコンバージャなどを用いて取得する。通話音声は、オペレータ音声と顧客音声とから構成される。ただし、音声データは通話音声に限られるものではなく、音声の取得方法も制限されない。

ステップＳ１８０２において、会話分析装置２００は、ステップＳ１８０１で取得された通話音声に対して、音声認識処理を適用することで、通話音声に含まれる発話の内容をテキスト化し、会話音声をテキスト（発話内容テキスト）として出力する。本実施形態においては、会話分析装置２００は、会話音声テキストに含まれる発話内容テキストに対して、各発話の時刻情報を付与してもよい。また、オペレータ音声と顧客音声の両方に対して音声認識処理を適用し、テキスト化する。図３は、通話音声に含まれる各発話の発話内容テキストおよび時刻情報の一例である。

ステップＳ１８０３において、会話分析装置２００は、ステップＳ１８０２でテキスト化された会話音声のテキストから、分類対象となる一部区間の発話内容を表す分類対象テキストを抽出する。本実施形態では、顧客やオペレータが顧客の用件を述べている区間のテキストを分類対象テキストとして抽出する。図９は、通話音声から抽出した分類対象テキストの一例である。各分類対象テキストには、通話音声を特定する会話ＩＤと通話音声における時刻情報が付与されている。分類対象テキストの抽出方法については、上述した通りである。

ステップＳ１８０４において、会話分析装置２００は、ステップＳ３０１で取得された通話音声から、一続きの発声に相当する発話の区間を検出する。さらに、ステップＳ１８０５において、会話分析装置２００は、ステップＳ１８０４で検出された発話区間の各々に対して、当該発話区間における話者の感情情報を推定する。本実施形態においては、会話分析装置２００は、発話における話者の怒り感情の度合いを怒りの発話感情スコア（数値）として推定する。図１１は、通話音声から発話区間を検出し、各発話区間に対して怒りの発話感情スコアを推定した一例である。発話の検出方法および感情の推定方法については、上述した通りである。

ステップＳ１８０６において、会話分析装置２００は、ステップＳ１８０３で抽出された分類対象テキストの各々に対して、ステップＳ１８０５で推定された話者の感情情報を付与する。具体的には、ステップＳ１８０４で検出された複数の発話のうち、分類対象テキストの区間と時間的に重なっている発話の発話感情スコアを、当該分類対象テキストに付与する。図１４は、怒りの発話感情スコアが付与された分類対象テキストの一例である。

ステップＳ１８０７において、会話分析装置２００は、全ての通話音声に対してステップＳ１８０１〜ステップＳ１８０６の処理が完了したか否かを判定する。未処理の通話音声が残っている場合は、未処理の通話音声に対して上述したステップＳ１８０１〜ステップＳ１８０６の処理を実行する。

ステップＳ１８０８において、会話分析装置２００は、ステップＳ１８０３で抽出され、ステップＳ１８０６で感情情報が付与された複数の分類対象テキストを、意味が異なる複数のクラスタに分類する。分類には、既存の教師あり分類手法や教師なし分類手法を用いることができる。分類方法の詳細については、上述した通りである。図１６は、分類対象テキストの分類結果の一例である。クラスタに含まれる分類対象テキストの数の大小によって、クラスタが順位付けされている。また、クラスタの名前は、上述した方法によって自動的に付与してもよいし、クラスタに含まれる分類対象テキストの内容を人手で確認して付与してもよい。

ステップＳ１８０９において、会話分析装置２００は、ステップＳ１８０８で分類された複数のクラスタを、ステップＳ１８０６で各分類対象テキストに付与された感情情報に基づいて、順位付けする。会話分析装置２００は、各クラスタについて、当該クラスタに含まれる分類対象テキストのうち、怒り感情を伴う分類対象テキストがクラスタに占める割合を計算し、その割合が大きいまたは小さい順に複数のクラスタを順位付けする。また、会話分析装置２００は、クラスタに含まれる怒り感情を伴う分類対象テキストの数が多いまたは少ない順に複数のクラスタを順位付けしてもよい。図１７は、怒り感情を伴う分類対象テキストがクラスタに占める割合が大きい順にクラスタを順位付けした一例である。

ステップＳ１８１０において、会話分析装置２００は、ステップＳ１８０９で感情情報に基づいてクラスタが順位付けされた分類結果を出力する。この出力の具体的形態は制限されない。例えば、会話分析装置２００は、図１７に示される表をディスプレイに表示する。

本実施形態における会話分析装置２００による各ステップの実行順序は、図１８に示される例に限定されない。各ステップの実行順序は、内容的に支障のない範囲で変更することができる。例えば、ステップＳ１８０１〜ステップＳ１８０６の各処理は、それぞれが複数の会話音声を処理してから次の処理に移ってもよい。また、ステップＳ１８０２およびステップＳ１８０３の処理と、ステップＳ１８０４およびステップＳ１８０５の処理とは、逆の順番で実行してもよい。

また、本実施形態における会話分析装置２００による処理は、次の順序で実行されてもよい。まず、ステップＳ１８０１において、会話分析装置２００は、全ての会話音声を取得し、ステップＳ１８０２において、取得した会話音声をテキスト化し、ステップＳ１８０３において、分類対象テキストを抽出する。ステップＳ１８０８において、会話分析装置２００は、ステップＳ１８０３で抽出した分類対象テキストをクラスタに分類する。次に、ステップＳ１８０１において、会話分析装置２００は、全ての会話音声を取得し、ステップＳ１８０４において、取得した会話音声から発話区間を検出し、ステップＳ１８０５において、検出した発話区間における話者の感情情報を推定する。そして、ステップＳ１８０６において、会話分析装置２００は、推定した感情情報をステップＳ１８０３で抽出した分類対象テキストに付与する。最後に、ステップ１８０９において、会話分析装置２００は、ステップＳ１８０８で分類したクラスタを、ステップＳ１８０６で分類対象テキストに付与した感情情報に基づいて順位付けする。

[本実施形態の効果]
本実施形態では、上述した処理構成によって、会話の話者が切実に訴えている重要意見を効率よく発見することができる。なぜならば、本実施形態の会話分析装置２００は、顧客の怒りを多く伴う用件を上位に順位付けして出力することができるからである。怒りを伴う用件は、顧客の切実なニーズや重要な問題の指摘である可能性が高く、優先的に分析すべき重要な意見である。本実施形態によれば、上位に順位付けされた用件を優先的に分析することで、それら重要意見を効率良く分析することができる。

本実施形態の効果を図１６および図１７を参照して具体的に説明する。分類部２０６の出力例を示す図１６を参照すると、「プリンタのインクを注文したい（２３２０件）」や「新製品情報を知りたい（２１５０件）」などの意見は件数が多く、順位が高い。一方、「ディスプレイが壊れた（６４件）」や「ディスプレイに黒い線が出る（２５件）」などの意見は件数が少なく、順位が低い。したがって、件数の大小に基づく分析では、「ディスプレイが壊れた」や「ディスプレイに黒い線が出る」などの件数が少ない顧客の意見は見落とされる可能性が高い。

一方で、本実施形態を特徴づける処理である感情推定部２０４、感情付与部２０５および順位付け部２０７を実行した出力例を示す図１７を参照する。そうすると、「ディスプレイに黒い線が出る（１００×２３／２５＝９２％が怒り）」や「ディスプレイが壊れた（１００×５６／６４＝８８％が怒り）」などの意見は、顧客の怒りを多く含み、順位が高いことが新たに分かる。一方、「プリンタのインクを注文したい（１００×８／２３２０＝０．３％が怒り）」や「新製品情報を知りたい（１００×０／２１５０＝０．０％が怒り）」などの意見は、顧客の怒りをほとんど含まず、順位が低いことが新たに分かる。したがって、怒りの割合に基づく分析では、単純な件数に基づく分析では見落とされていた「ディスプレイが壊れた」などの顧客の怒りを伴う意見を容易に発見することができる。

上述した効果は、会話音声に表れる話者の感情を分析し、分析対象テキストに感情情報を付与する本実施形態に固有の効果である。音声に表れる感情を分析することで、テキスト分析だけでは捉えることのできない、話者の切実な訴えを捉えることができる。

また、本実施形態では怒りを感情推定の対象としたが、怒り以外の感情を推定対象としても、同様の効果が得られる。例えば、顧客の嬉しさ感情を推定して同様の処理を実行することで、顧客の喜びを多く伴う用件を上位に順位付けして出力することができる。これにより、顧客の満足を強く満たしている要因等を効率よく分析することができる。あるいは、顧客の驚き感情を推定して同様の処理を実行することで、顧客に強い印象を残した施策等について効率よく分析することができる。また、オペレータの深い謝罪感情を推定して同様の処理を実行することで、顧客に強い不快感を与えた現象等を効率よく分析することができる。また、本実施形態では、顧客やオペレータが顧客の用件を述べている区間を分析対象テキストとして抽出したが、分析対象テキストは用件に限られるものではない。

［第３実施形態］
次に本発明の第３実施形態に係る会話分析装置について、図１９乃至図２３を用いて説明する。図１９は、本実施形態に係る会話分析装置の構成を説明するための図である。本実施形態に係る会話分析装置は、上記第２実施形態と比べると、会話推定部が会話感情推定部を有する点で異なる。その他の構成および動作は、第２実施形態と同様であるため、同じ構成および動作については同じ符号を付してその詳しい説明を省略する。

上述の第２実施形態では、顧客の各発話区間に対して顧客の発話感情情報を推定し、分析対象テキストと時間的に重なっている発話の発話感情情報を、当該分類対象テキストに付与した。しかしながら、分類対象テキストの区間と、顧客が感情を表している区間とは必ずしも一致しているとは限らない。例えば、顧客が用件を述べている場面では顧客は怒っていなくても、その後の会話の中でその用件に関連して怒り始めることがある。このような通話に第２実施形態を適用した場合、顧客の怒り区間と用件を述べている区間とが時間的に一致していないため、当該用件に対して怒り感情情報が付与されない。

そこで、本実施形態は、顧客の発話感情情報を用いて、通話全体における顧客の通話感情情報を推定する。そして、分類対象テキストが属する通話音声に対して推定された通話感情情報を、当該分類対象テキストに付与する。これにより、本実施形態は、顧客の怒り区間と用件区間とが時間的に一致していない場合でも、分類対象テキストに適切な感情情報を付与することができる。

[処理構成]
感情推定部１９０４が、会話感情推定部１９４３をさらに有する点が第２実施形態と異なる。それ以外の処理構成は第２実施形態と同様である。以下では、第２実施形態と異なる処理内容について示す。

会話感情推定部１９４３は、会話音声取得部２０１により取得された会話音声の各々に対して、当該会話音声に含まれる各発話区間に対して発話感情推定部２４２により推定された発話感情情報を用いて、話者の会話感情情報を推定する。会話感情情報とは、当該会話における話者の感情を表す。本実施形態においては、当該会話における話者の怒り感情の強さを「怒りの会話感情スコア（数値）」として推定する。ただし、推定する感情は怒りに限られるものではなく、例えば、嬉しさ・悲しさ・楽しさ・不満などの感情を推定することもできる。また、感情の強さを数値として推定するのではなく、感情の有無を推定してもよい。例えば、当該会話において、怒り感情があるか否かを推定してもよい。

図２０は、本実施形態に係る会話分析装置１９００により計算した会話感情スコアの一例を示す図である。会話感情推定部１９４３は、ある会話音声の怒りの会話感情スコアを、当該会話音声に含まれる複数の発話の怒りの発話感情スコアを用いて推定するには、当該会話において所定の閾値以上の怒りの発話感情スコアを持つ発話の数を会話感情スコアとすればよい。例えば、所定の閾値を０．５とした場合、会話ＩＤ＝１の会話音声に含まれる発話のうち、怒りの発話感情スコアが０．５以上である発話の数を、会話ＩＤ＝１の会話音声の会話感情スコアとする。図２０は、このようにして計算した各会話音声の怒りの会話感情スコアの例を示す図である。図２０に示したように、会話ＩＤ＝１の会話音声においては、怒りの会話感情スコアが３６であることが示される。これはすなわち、図１１の例に示した会話ＩＤ＝１に含まれる発話のうち、怒りの発話感情スコアが所定の閾値以上である発話が３６個であることを意味している。同様に、図２０に示したように、会話ＩＤ＝２の会話音声においては、怒りの発話感情スコアが所定の閾値以上の発話が一つもなく、会話感情スコアが０であることが示される。

会話感情推定部１９４３は、会話感情スコアとして、当該会話において所定の閾値以上の怒りの発話感情スコアを持つ発話の割合を用いてもよい。例えば、会話に含まれる発話の総数が１００個で、閾値以上の怒りの発話感情スコアを持つ発話の数が７０個だった場合、会話感情スコアを７０／１００＝０．７０とする。

会話感情推定部１９４３は、別の会話感情スコアの推定方法として、当該会話に含まれる複数の発話の怒りの発話感情スコアの統計量を会話感情スコアとしてもよい。統計量としては、当該会話に含まれる発話の発話感情スコアの平均値、最大値、９５パーセンタイル、第３四分位など様々考えられる。当該会話に含まれる発話の怒り発話感情スコアの大きさを表す統計量であればどのような統計量を用いてもよい。

また、発話感情推定部２４２が、発話における怒り感情の有無を推定している場合には、会話感情推定部１９４３は、当該会話において怒りを持つと判定された発話の数、または、割合を会話感情スコアとすればよい。

感情付与部２０５は、分類対象テキスト抽出部２０３により抽出された、会話音声の一部区間の発話内容を表す分類対象テキストの各々に対して、会話感情情報を付与する。具体的には、当該分類対象テキストが属する通話音声に対して会話感情推定部１９４３により推定された話者の会話感情情報を付与する。

図２１は、本実施形態に係る会話分析装置１９００による感情付与の一例を示す図である。感情付与部２０５の処理内容を、分類対象テキスト抽出部２０３の抽出例を示す図９、会話感情推定部１９４３の推定例を示す図２０、および、本実施形態の感情付与部２０５の感情付与例を示す図２１を用いて説明する。図２０を参照すると、会話ＩＤ＝１の会話音声の会話感情スコアは３６である。そのため、感情付与部２０５は、図９に示された分類対象テキストのうち会話ＩＤ＝１である分類対象テキストの全てに対して、会話感情スコア３６を付与する。同様に、会話ＩＤ＝２である分類対象テキストの全てに対して、会話ＩＤ＝２の会話感情スコア０を付与し、会話ＩＤ＝３である分類対象テキストの全てに対して、会話ＩＤ＝３の会話感情スコア２４を付与する（図２１参照）。

図１４と図２１とを比較すると、会話ＩＤ＝３の通話音声において、第２実施形態と本実施形態とで、感情付与部２０５の結果に違いがあることが示される。図１３を参照すると、会話ＩＤ＝３の通話音声においては、通話の最初の用件を述べている区間では怒りの発話感情スコアが小さく顧客が怒っていないが、通話の途中（５分以降）から怒りの発話感情スコアが大きく怒り始めていることが分かる。

このような通話に対して、第２実施形態の処理を実行すると、用件区間（０分０６秒〜０分１５秒）と怒っている区間（５分０８秒〜）とが時間的に重なっていないために、抽出された分類対象テキストに付与される感情スコアが小さくなる。図１４を参照すると、会話ＩＤ＝３の分類対象テキストの感情スコアは０．０２と０．０４である。

一方で、本実施形態の処理を実行すると、会話ＩＤ＝３の通話音声では、通話の途中から顧客が怒り始めているため、会話感情推定部１９４３が会話ＩＤ＝３の通話音声の怒りの会話感情スコアを２４と高く推定する。本実施形態の感情付与部２０５は会話感情スコアを付与するため、会話ＩＤ＝３の通話から抽出された分類対象テキストに付与される感情スコアは大きくなる。図２１を参照すると、会話ＩＤ＝３の分類対象テキストの感情スコアは２４である。

図２２は、本実施形態に係る会話分析装置１９００による通話感情スコアの付与の一例を示す図であり、図１０で示した分類対象テキストの抽出結果の各々に対して、図２０で示した怒りの通話感情スコアを付与した例である。図２２に示したように、会話ＩＤ＝３の通話音声から抽出された分類対象テキストには大きな感情スコア値＝２４が付与されていることが示される。

順位付け部２０７は、分類部２０６により分類された複数のクラスタを、感情付与部２０５により分類対象テキストに付与された感情スコアに基づいて、順位付けする。順位付けの方法は第２実施形態と同様であるため、その詳細は省略する。第２実施形態との違いは、第２実施形態では発話感情スコアが分類対象テキストに付与されているのに対して、本実施形態では会話感情スコアが分類対象テキストに対して付与されている点である。

[動作例／会話分析方法]
図２３は、本実施形態に係る会話分析装置１９００の処理手順を説明するフローチャートである。本実施形態では、図１８に示される第２実施形態のフローチャートに、ステップＳ２３１１の処理方法が加わった点が第２実施形態と異なる。また、本実施形態では、ステップＳ１８０６の感情情報の付与処理、および、ステップＳ１８０９の順位付け処理を、上述の方法で実行する。

ステップＳ２３１１において、会話分析装置１９００は、ステップＳ１８０１で取得された会話音声に対して、当該会話音声に含まれる各発話区間に対してステップＳ１８０５で推定された発話感情情報を用いて、当該会話音声における話者の感情情報を推定する。本実施形態における会話分析装置１９００における各ステップの実行順序は、図２３に示される例に限定されない。各ステップの順序は、第２実施形態と同様に、内容的に支障のない範囲で変更することができる。

[本実施形態の効果]
本実施形態によれば、顧客が怒っている区間と、分類対象テキストを抽出した用件区間とが時間的に一致していない場合でも、当該分類対象テキストが怒りを伴う用件であるとしてクラスタの順位付けを行うことができる。なぜならば、本実施形態においては、まず、会話に含まれる発話の感情情報に基づいて当該会話の全体における話者の会話感情情報を推定し、次に、推定した会話感情情報を当該会話から抽出した分類対象テキストに付与するからである。

会話の一部区間で表出した感情の原因が、同じ会話の他の区間に存在することはよくある現象のため、上述の処理方法は会話の分析方法として妥当かつ非常に有効である。例えば、顧客が用件を述べている区間とは別の区間で顧客が怒っている場合であっても、その怒りの原因は顧客の用件と関連していることが多い。図８および図１３で示した会話ＩＤ＝３の通話音声がそのような会話の例である。本実施形態によれば、このような通話音声から抽出された用件も怒りを伴うと判定することで、感情情報に基づく用件クラスタの順位付けをより正確に行うことができる。

さらに、本実施形態によれば、発話感情推定部による発話感情の推定精度が低くても、感情情報に基づくクラスタの順位付けに悪影響を与えにくい、という効果がある。これに対して、第２実施形態では、怒っていても、小さな怒りの感情スコアが付与されることがある。例えば、図６において、会話ＩＤ＝１の０分６秒〜０分０９秒や０分１７秒〜０分２２秒において顧客が用件を述べている数発話の怒り推定に失敗すると、会話ＩＤ＝１から抽出されるこれらの分類対象テキストには小さな怒りの感情スコアが付与される。その結果、これらの用件は怒りを伴わないものとして扱われてしまう。

一方で、一般に、用件を述べている区間以外でも顧客は怒っている可能性が高く、かつ、少なくともそれらの一部を正しく怒り推定できると考えられる。したがって、本実施形態によれば、顧客が用件を述べている数発話の怒り推定に失敗したとしても、当該用件を怒りを伴う用件として処理することができる。

［第４実施形態］
次に本発明の第４実施形態に係る会話分析装置について、図２４および図２５を用いて説明する。図２４は、本実施形態に係る会話分析装置の構成を説明するための図である。

以下、本実施形態における会話分析装置および会話分析方法について図２４および図２５を用いて説明する。また、本実施形態は、この会話分析方法を少なくとも１つのコンピュータ（ＣＰＵ）に実行させるプログラムであってもよいし、このようなプログラムを記録した少なくとも１つのコンピュータが読み取り可能な記録媒体であってもよい。

図２４に示したように、会話分析装置２４００は、感情推定部２４０１、感情付与部２４０２、分類部２４０３および順位付け部２４０４を有する。会話分析装置２４００は、例えば、図２Ａに示される上述の会話分析装置２００と同様のハードウェア構成を有し、会話分析装置２００と同様にＣＰＵ２１０によりプログラムが処理されることで、上述の各処理モジュールが実現される。ただし、会話分析装置２００のハードウェア構成は制限されず、例えば、会話分析装置２００には、表示装置２５０および入力装置２６０が接続されていなくてもよい。

感情推定部２４０１は、会話音声から話者の感情情報を推定する。会話音声の一具体例は、コールセンタの通話音声である。会話音声の形式、内容、および、話者の数は、制限されない。推定される感情情報の具体例は、怒り・嬉しさ・悲しさ・楽しさ・不満などである。感情情報の種別は、制限されない。感情の推定は、会話音声に含まれる発話の感情を推定してもよいし、発話の感情推定結果に基づいて会話全体の感情を推定してもよい。感情推定部２４０１による話者の感情情報の推定方法は、第２実施形態または第３実施形態における感情推定部２０４と同様である。

感情付与部２４０２は、会話音声の一部区間の発話内容を表す分類対象テキストに対して、感情推定部２４０１で推定された感情情報を付与する。会話音声の一部区間の一具体例は、顧客やオペレータが顧客の用件を述べている区間である。一部区間の内容は、制限されない。一部区間は、上述の音声認識と分類対象テキスト抽出とを組合せて実現してもよいし、会話音声の書き起こしテキストから人手であらかじめ抽出してもよい。感情推定部２４０１による感情情報の付与方法は、第２実施形態または第３実施形態における感情付与部２０５と同様である。

分類部２４０３は、複数の分類対象テキストを意味が異なる複数のクラスタに分類する。クラスタの具体例は、「プリンタのインクを注文したい」や「ディスプレイが壊れた」などの顧客の用件の内容である。クラスタの内容は、制限されない。分類部２４０３による分類対象テキストを複数のクラスタへと分類する方法は、第２実施形態または第３実施形態における分類部２０６と同様である。

順位付け部２４０４は、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、分類部２４０３で分類された複数のクラスタを順位付けする。順位付け部２４０４は、特定の感情を伴う分類対象テキストがクラスタ内にどの程度含まれるかを尺度として、クラスタの順位付けをすることが望ましい。順位付け部２４０４による複数のクラスタの順位付け方法は、第２実施形態または第３実施形態における順位付け部２０７と同様である。

図２５は、本実施形態に係る会話分析装置２４００の処理手順を説明するフローチャートである。このフローチャートは、会話分析装置２００のような少なくとも１つのコンピュータにより実行される。例えば、図示される各ステップは、会話分析装置２４００が有する各処理モジュールにより実行される。各ステップは、会話分析装置２４００が有する上述の各処理モジュールの処理内容と同様であるため、各ステップの詳細は、適宜省略される。

ステップＳ２５０１において、会話分析装置２４００は、会話音声から話者の感情情報を推定する。ステップＳ２５０２において、会話分析装置２４００は、会話音声の一部区間の発話内容を表す分類対象テキストに対して、ステップＳ２５０１で推定された感情情報を付与する。

ステップＳ２５０３において、会話分析装置２４００は、全ての会話音声に対してステップＳ２５０１およびステップＳ２５０２の処理が完了したか否かを判定する。未処理の会話音声が残っている場合は、未処理の会話音声に対して上述したステップＳ２５０１およびステップＳ２５０２の処理を実行する。

ステップＳ２５０４において、会話分析装置２４００は、複数の分類対象テキストを意味が異なる複数のクラスタに分類する。

ステップＳ２５０５において、会話分析装置２４００は、クラスタに含まれる分類対象テキストに付与された感情情報に基づいて、ステップＳ２５０４で分類された複数のクラスタを順位付けする。順位付けされた結果は、会話分析装置２４００内に格納されてもよいし、他の装置に送られてもよいし、可搬型記録媒体に格納されてもよい。

なお、会話分析装置２４００による処理は、まずステップＳ２５０４を実行し、その後でステップＳ２５０１〜ステップＳ２５０３を実行し、最後にステップＳ２５０５を実行してもよい。

[本実施形態の効果]
本実施形態によれば、上述の各実施形態と同様に、会話の話者が切実に訴えている重要意見を効率よく発見することができる。なぜならば、本実施形態の会話分析装置２４００は、話者の特定の感情を多く伴う意見のクラスタを、上位に順位付けして出力することができるからである。

［他の実施形態］
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ(World Wide Web)サーバも、本発明の範疇に含まれる。特に、少なくとも、上述した実施形態に含まれる処理ステップをコンピュータに実行させるプログラムを格納した非一時的コンピュータ可読媒体（non-transitory computer readable medium）は本発明の範疇に含まれる。

［実施形態の他の表現］
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた会話分析装置。
（付記２）
会話音声を取得する会話音声取得手段と、
音声認識に基づいて、取得した前記会話音声をテキスト化して会話音声テキストを生成する会話音声テキスト化手段と、
をさらに備えた付記１に記載の会話分析装置。
（付記３）
前記感情推定手段は、
前記会話音声から発話区間を検出する発話区間検出手段と、
検出した発話区間に対して、発話感情情報を推定する発話感情推定手段と、
をさらに備え、
前記感情付与手段は、前記分類対象テキストの区間と時間的に重なる前記発話区間の前記発話感情情報を、前記分類対象テキストに付与する、付記１または２に記載の会話分析装置。
（付記４）
前記感情推定手段は、
前記会話音声に含まれる複数の前記発話区間の前記発話感情情報を用いて、前記会話音声の話者の会話感情情報を推定する会話感情推定手段をさらに備え、
前記感情付与手段は、前記分類対象テキストが属する会話音声の前記会話感情情報を、前記分類対象テキストに付与する、付記３に記載の会話分析装置。
（付記５）
前記会話感情推定手段は、前記会話音声における話者の特定感情の強さを表す会話感情スコアを推定し、
前記感情付与手段は、前記会話感情スコアを前記分類対象テキストに付与し、
前記順位付け手段は、所定の値の範囲の会話感情スコアが付与された分類対象テキストの前記クラスタに占める数または割合によって、前記複数のクラスタを順位付けする、付記４に記載の会話分析装置。
（付記６）
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声において、所定の閾値以上の前記発話感情スコアを持つ発話の数、または、割合を前記会話感情スコアとする、付記５に記載の会話分析装置。
（付記７）
前記発話感情推定手段は、
前記発話区間において話者が前記特定感情を有するか否かの判定結果を推定し、
前記会話感情推定手段は、
前記会話音声において、前記特定感情を有すると判定された発話の数、または、割合を前記会話感情スコアとする、付記５に記載の会話分析装置。
（付記８）
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声に含まれる複数の発話の前記発話感情スコアの統計量を前記会話感情スコアとする、付記５に記載の会話分析装置。
（付記９）
前記会話音声は、複数の話者の発話から構成され、
前記分類対象テキスト抽出手段は、前記会話音声に含まれる全ての話者の発話テキストから前記分類対象テキストを抽出し、
前記感情推定手段は、特定の話者の感情情報を推定する、付記１乃至８のいずれか１項に記載の会話分析装置。
（付記１０）
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む会話分析方法。
（付記１１）
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる会話分析プログラム。

Claims

会話音声から話者の感情情報を推定する感情推定手段と、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出手段と、
推定した前記感情情報を前記分類対象テキストに付与する感情付与手段と、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類手段と、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付け手段と、
を備えた会話分析装置。
会話音声を取得する会話音声取得手段と、
音声認識に基づいて、取得した前記会話音声をテキスト化して会話音声テキストを生成する会話音声テキスト化手段と、
をさらに備えた請求項１に記載の会話分析装置。
前記感情推定手段は、
前記会話音声から発話区間を検出する発話区間検出手段と、
検出した発話区間に対して、発話感情情報を推定する発話感情推定手段と、
をさらに備え、
前記感情付与手段は、前記分類対象テキストの区間と時間的に重なる前記発話区間の前記発話感情情報を、前記分類対象テキストに付与する、請求項１または２に記載の会話分析装置。
前記感情推定手段は、
前記会話音声に含まれる複数の前記発話区間の前記発話感情情報を用いて、前記会話音声の話者の会話感情情報を推定する会話感情推定手段をさらに備え、
前記感情付与手段は、前記分類対象テキストが属する会話音声の前記会話感情情報を、前記分類対象テキストに付与する、請求項３に記載の会話分析装置。
前記会話感情推定手段は、前記会話音声における話者の特定感情の強さを表す会話感情スコアを推定し、
前記感情付与手段は、前記会話感情スコアを前記分類対象テキストに付与し、
前記順位付け手段は、所定の値の範囲の会話感情スコアが付与された分類対象テキストの前記クラスタに占める数または割合によって、前記複数のクラスタを順位付けする、請求項４に記載の会話分析装置。
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声において、所定の閾値以上の前記発話感情スコアを持つ発話の数、または、割合を前記会話感情スコアとする、請求項５に記載の会話分析装置。
前記発話感情推定手段は、
前記発話区間において話者が前記特定感情を有するか否かの判定結果を推定し、
前記会話感情推定手段は、
前記会話音声において、前記特定感情を有すると判定された発話の数、または、割合を前記会話感情スコアとする、請求項５に記載の会話分析装置。
前記発話感情推定手段は、
前記発話区間における話者の前記特定感情の強さを表す発話感情スコアを推定し、
前記会話感情推定手段は、
前記会話音声に含まれる複数の発話の前記発話感情スコアの統計量を前記会話感情スコアとする、請求項５に記載の会話分析装置。
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
を含む会話分析方法。
会話音声から話者の感情情報を推定する感情推定ステップと、
前記会話音声から前記会話音声の一部区間の発話内容を表す分類対象テキストを抽出する分類対象テキスト抽出ステップと、
推定した前記感情情報を前記分類対象テキストに付与する感情付与ステップと、
前記分類対象テキストの意味に応じて、前記分類対象テキストが複数のクラスタのうちどのクラスタに属するかを判定し、判定結果に基づいて前記分類対象テキストをクラスタに分類する分類ステップと、
前記クラスタに含まれる分類対象テキストに付与された前記感情情報に基づいて、前記複数のクラスタを順位付けする順位付けステップと、
をコンピュータに実行させる会話分析プログラム。