JP6365304B2

JP6365304B2 - 会話分析装置及び会話分析方法

Info

Publication number: JP6365304B2
Application number: JP2014544379A
Authority: JP
Inventors: 真寺尾; 祥史大西; 真宏谷; 岡部　浩司; 浩司岡部
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-10-31
Filing date: 2013-09-19
Publication date: 2018-08-01
Anticipated expiration: 2033-09-19
Also published as: WO2014069121A1; JPWO2014069121A1

Description

本発明は、会話の分析技術に関する。

会話を分析する技術の一例として、通話データを分析する技術がある。例えば、コールセンタ、コンタクトセンタなどと呼ばれる部署で行われる通話のデータが分析される。以降、このような、商品やサービスに関する問い合わせや苦情や注文といった顧客からの電話に応対する業務を専門的に行う部署をコンタクトセンタと表記する。

コンタクトセンタに寄せられる顧客の声には、顧客ニーズや満足度などが反映されている場合が多く、顧客との通話からそのような顧客の感情やニーズを抽出することは、リピータ顧客を増加させるために企業にとって大変重要である。そこで、音声を分析することで、顧客の感情（怒り、苛立ち、不快感など）等を抽出する各種手法が提案されている。下記特許文献１には、顧客とオペレータとの通話内容に対して音声認識を行うことによりその通話にクレーム時に発せられるキーワードが含まれるかどうかを判定し、この判定結果により顧客のＣＳ（顧客満足度）レベルを判断する手法が提案されている。

特開２００５−２５２８４５号公報

しかしながら、上記提案手法では、会話に参加する者（以降、会話参加者と表記する）、即ち、顧客の満足度又は不満度を適切に判断できない可能性がある。例えば、満足感を表し得る表現（キーワード）であっても、満足感とは無関係に発声される場合があるからである。「ありがとうございます」というお礼表現は、満足感を表し得る。しかしながら、その表現は、以下のような対話で用いられる場合、必ずしも満足感を表しているわけではない。
オペレータ「その症状でしたら、まずそのＰＣを再起動して頂いて、〜」
顧客「ありがとうございます。ただ、それはもう試しました。」

また、上記提案手法で用いられる音声認識では、挿入誤り、脱落誤りといった誤認識が生じ得る。その誤認識によれば、その会話（通話）で実際には発声されていない表現が認識されたり、その会話で実際に発声されている表現が認識されなかったりする。これにより、抽出すべきキーワードが誤検出されたり脱落したりしてしまい、ひいては、そのキーワードに基づく顧客の満足度又は不満度の推定精度が低下することになる。

本発明は、このような事情に鑑みてなされたものであり、会話参加者の満足度又は不満度を高精度に推定する技術を提供する。ここで、会話参加者の満足度又は不満度とは、会話において少なくとも一方の会話参加者が感じたであろう満足感又は不満感の程度を意味する。また、満足感の程度は、満足感有り又は満足感なしのみを示すことも含み、不満感の程度は、不満感有り又は不満感なしのみを示すことも含む。

本発明の各態様では、上述した課題を解決するために、それぞれ以下の構成を採用する。

第１の態様は、会話分析装置に関する。第１態様に係る会話分析装置は、第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第１会話参加者により発声されたお礼表現データ及び第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、特定表現データの検出結果に応じて、当該会話における第１会話参加者の満足度又は不満度を推定する推定部と、前記第１会話参加者と前記第２会話参加者の間の通話の通話データを取得する通話データ取得部と、前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出するクロージング検出部と、を有し、
前記通話データは切断時間データを含み、
前記クロージング検出部は、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する。
さらに、第１の態様の別の態様は、会話分析装置に関する。第１態様の別の態様に係る会話分析装置は、第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第１会話参加者により発声されたお礼表現データ及び第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、特定表現データの検出結果に応じて、当該会話における第１会話参加者の満足度又は不満度を推定する推定部と、前記会話の前記クロージング区間を検出するクロージング検出部と、を有し、前記クロージング検出部は、前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか１つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する。

第２の態様は、少なくとも１つのコンピュータにより実行される会話分析方法に関する。第２態様に係る会話分析方法は、第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第１会話参加者により発声されたお礼表現データ及び第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、特定表現データの検出結果に応じて、当該会話における第１会話参加者の満足度又は不満度を推定し、前記第１会話参加者と前記第２会話参加者の間の通話の通話データを取得し、前記通話データは切断時間データを含み、前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出する際、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、ことを含む。
さらに、第２の態様の別の態様は、少なくとも１つのコンピュータにより実行される会話分析方法に関する。第２態様の別の態様に係る会話分析方法は、第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第１会話参加者により発声されたお礼表現データ及び第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、特定表現データの検出結果に応じて、当該会話における第１会話参加者の満足度又は不満度を推定し、前記会話の前記クロージング区間を検出する際、前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか１つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、ことを含む。

なお、本発明の他の態様としては、上記第１の態様における各構成を少なくとも１つのコンピュータに実現させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。

上記各態様によれば、会話参加者の満足度又は不満度を高精度に推定する技術を提供することができる。

上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。

第１実施形態におけるコンタクトセンタシステムの構成例を示す概念図である。第１実施形態における通話分析サーバの処理構成例を概念的に示す図である。第１実施形態における通話分析サーバの動作例を示すフローチャートである。第２実施形態における通話分析サーバの処理構成例を概念的に示す図である。第２実施形態における通話分析サーバの動作例を示すフローチャートである。第１変形例における通話分析サーバの処理構成例を概念的に示す図である。第２変形例における通話分析サーバの処理構成例を概念的に示す図である。

以下、本発明の実施の形態について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。

本実施形態に係る会話分析装置は、第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第１会話参加者により発声されたお礼表現データ及び第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、特定表現データの検出結果に応じて、当該会話における第１会話参加者の満足度又は不満度を推定する推定部と、を有する。

本実施形態に係る会話分析方法は、少なくとも１つのコンピュータにより実行され、第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第１会話参加者により発声されたお礼表現データ及び第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、特定表現データの検出結果に応じて、当該会話における第１会話参加者の満足度又は不満度を推定する、ことを含む。

ここで、会話とは、２以上の話者が、言語の発声などによる意思表示によって、話をすることを意味する。会話には、銀行の窓口や店舗のレジ等のように、会話参加者が直接、話をする形態もあれば、通話機を用いた通話やテレビ会議等のように、離れた位置にいる会話参加者同士が話をする形態もあり得る。本実施形態では、対象会話の内容や形態は制限されないが、友達同士の会話など私的な会話よりは、公的な会話のほうが対象会話として望ましい。

また、上述のお礼表現データ、謝罪表現データ及び特定表現データとは、単語、複数単語の並びである単語列、又は、会話内の或る発話において散在する単語の集合である。以降、お礼表現データとお礼表現、謝罪表現データと謝罪表現、特定表現データと特定表現とは、区別されず用いられる場合がある。お礼表現データとしては、単語の「ありがとう」、単語列の「ありがとう」、「ござい」及び「ます」、単語集合の「本当」及び「ありがとう」などがあり得る。また、謝罪表現データとしては、単語の「申し訳」、単語列の「申し訳」、「ござい」、「ませ」及び「ん」などがあり得る。

会話参加者は、その会話において満足感を得ると、お礼表現を発する場合が多い。一方、会話参加者は、自身の側の非により会話相手が不満を感じていることを察すると、謝罪表現を発する場合が多い。しかしながら、上述したように、お礼表現でも、会話参加者の満足感とは無関係に発声される場合がある。同様に、謝罪表現についても、会話相手の不満とは無関係に発声される場合がある。例えば、会話参加者が、その会話の場から離れる際に、「申し訳ございませんが、少しお待ち下さい。」というように定型的に謝罪表現を発する場合がある。この場合、その会話参加者は、会話相手の感情とは直接関係なく、その謝罪表現を発している。

本発明者らは、会話の終了過程において、その会話全体に関する会話参加者の感情、特に、満足感及び不満感が表出し易いことを見出し、この知見から更に、会話の終了過程で発声されたお礼表現及び謝罪表現は、会話参加者の感情を表す可能性が高いことを見出した。

そこで、本実施形態は、会話の終了過程を意味するクロージング区間という概念を設け、このクロージング区間のみの音声に対応するデータから、第１会話参加者により発声されたお礼及び第２会話参加者により発声された謝罪の少なくとも一方を表す特定表現データが検出される。例えば、クロージング区間の終端時間は会話の終了時間に設定される。会話の終了は、例えば、通話の場合には通話の切断で表され、通話以外の会話の場合には会話参加者の解散により表される。クロージング区間の始端時間の決定方法は様々である。また、会話参加者の止むを得ない事情などの特定突発原因で会話が終了される場合には、その会話にはクロージング区間が存在しない場合もあり得る。

このように、当該特定表現データの検出対象をクロージング区間の音声に対応するデータに絞ることで、本実施形態では、第１会話参加者の満足感及び不満感とは無関係に発声されるお礼表現及び謝罪表現を、第１会話参加者の満足度又は不満度の推定材料から排除する。

更に、上述のように、当該特定表現データの検出対象をクロージング区間の音声に対応するデータに絞ることで、本実施形態によれば、クロージング区間外の音声に対する音声認識の誤認識に伴う雑音情報も、第１会話参加者の満足度又は不満度の推定材料から除外することができる。具体的には、クロージング区間外で会話参加者から実際には発声されていないお礼表現又は謝罪表現が誤認識されている場合に、その誤認識されたお礼表現及び謝罪表現が当該推定材料から除外される。

結果、本実施形態では、会話参加者の満足度又は不満度を表す可能性が高い特定表現データのみを対象に、第１会話参加者の満足度又は不満度が推定される。従って、本実施形態によれば、第１会話参加者の満足感又は不満感を反映していない特定表現及び音声認識の誤認識に基づく雑音データを除いた純度の高い当該特定表現データにより、会話参加者の満足度又は不満度を高精度に推定することができる。

以下、上述の実施形態について更に詳細を説明する。以下には、詳細実施形態として、第１実施形態及び第２実施形態を例示する。以下の各実施形態は、上述の会話分析装置及び会話分析方法をコンタクトセンタシステムに適用した場合の例である。なお、上述の会話分析装置及び会話分析方法は、通話データを扱うコンタクトセンタシステムへの適用に限定されるものではなく、会話データを扱う様々な態様に適用可能である。例えば、それらは、コンタクトセンタ以外の社内の通話管理システムや、個人が所有する、ＰＣ（Personal Computer）、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末などに適用することも可能である。更に、会話データとしては、例えば、銀行の窓口や店舗のレジにおける、担当者と顧客の会話を示すデータなどが例示できる。

以下、各実施形態で扱われる通話とは、或る通話者と或る通話者とがそれぞれ持つ通話端末間が呼接続されてから呼切断されるまでの間の呼を意味する。また、通話の音声中、一人の通話者が声を発している連続領域を発話又は発話区間と表記する。例えば、発話区間は、通話者の音声波形において所定値以上の振幅が継続している区間として検出される。通常の通話は、各通話者の発話区間、無声区間などから形成される。

［第１実施形態］
〔システム構成〕
図１は、第１実施形態におけるコンタクトセンタシステム１の構成例を示す概念図である。第１実施形態におけるコンタクトセンタシステム１は、交換機（ＰＢＸ）５、複数のオペレータ電話機６、複数のオペレータ端末７、ファイルサーバ９、通話分析サーバ１０等を有する。通話分析サーバ１０は、上述の実施形態における会話分析装置に相当する構成を含む。第１実施形態では、顧客が上述の第１会話参加者に相当し、オペレータが上述の第２会話参加者に相当する。

交換機５は、通信網２を介して、顧客により利用される、ＰＣ、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末（顧客電話機）３と通信可能に接続されている。通信網２は、インターネットやＰＳＴＮ（Public Switched Telephone Network）等のような公衆網、無線通信ネットワーク等である。更に、交換機５は、コンタクトセンタの各オペレータが用いる各オペレータ電話機６とそれぞれ接続される。交換機５は、顧客からの呼を受け、その呼に応じたオペレータのオペレータ電話機６にその呼を接続する。

各オペレータは、オペレータ端末７をそれぞれ用いる。各オペレータ端末７は、コンタクトセンタシステム１内の通信網８（ＬＡＮ（Local Area Network）等）に接続される、ＰＣ等のような汎用コンピュータである。例えば、各オペレータ端末７は、各オペレータと顧客との間の通話における顧客の音声データ及びオペレータの音声データをそれぞれ録音する。顧客の音声データとオペレータの音声データとは、混合状態から所定の音声処理により分離されて生成されてもよい。なお、本実施形態は、このような音声データの録音手法及び録音主体を限定しない。各音声データの生成は、オペレータ端末７以外の他の装置（図示せず）により行われてもよい。

ファイルサーバ９は、一般的なサーバコンピュータにより実現される。ファイルサーバ９は、顧客とオペレータとの間の各通話の通話データを、各通話の識別情報と共にそれぞれ格納する。各通話データには、顧客の音声データとオペレータの音声データとのペア、及び、その通話が切断された時間を示す切断時間データがそれぞれ含まれる。ファイルサーバ９は、顧客及びオペレータの各音声を録音する他の装置（各オペレータ端末７等）から、顧客の音声データとオペレータの音声データとを取得する。また、ファイルサーバ９は、切断時間データを、各オペレータ電話機６、交換機５等から取得する。

通話分析サーバ１０は、ファイルサーバ９に格納される各通話データに関し、顧客の満足度又は不満度を推定する。
通話分析サーバ１０は、図１に示されるように、ハードウェア構成として、ＣＰＵ（Central Processing Unit）１１、メモリ１２、入出力インタフェース（Ｉ／Ｆ）１３、通信装置１４等を有する。メモリ１２は、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ハードディスク、可搬型記憶媒体等である。入出力Ｉ／Ｆ１３は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置、ディスプレイ装置やプリンタ等のようなユーザに情報を提供する装置などと接続される。通信装置１４は、通信網８を介して、ファイルサーバ９などと通信を行う。なお、通話分析サーバ１０のハードウェア構成は制限されない。

〔処理構成〕
図２は、第１実施形態における通話分析サーバ１０の処理構成例を概念的に示す図である。第１実施形態における通話分析サーバ１０は、通話データ取得部２０、音声認識部２１、クロージング検出部２３、特定表現テーブル２５、表現検出部２６、推定部２７等を有する。これら各処理部は、例えば、ＣＰＵ１１によりメモリ１２に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、ＣＤ（Compact Disc）、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力Ｉ／Ｆ１３を介してインストールされ、メモリ１２に格納されてもよい。

通話データ取得部２０は、ファイルサーバ９から、分析対象となる通話の通話データをその通話の識別情報と共に取得する。通話データには、上述したように、切断時間データが含まれる。当該通話データは、通話分析サーバ１０とファイルサーバ９との間の通信により取得されてもよいし、可搬型記録媒体を介して取得されてもよい。

音声認識部２１は、通話データに含まれるオペレータ及び顧客の各音声データに対して音声認識処理をそれぞれ行う。これにより、音声認識部２１は、当該通話データから、オペレータ音声及び顧客音声に対応する各音声テキストデータ及び各発声時間データをそれぞれ取得する。ここで、音声テキストデータとは、顧客又はオペレータにより発された声がテキスト化された文字データである。各音声テキストデータは、単語（品詞）ごとにそれぞれ区分けされている。各発声時間データには、各音声テキストデータの単語毎の発声時間データが含まれる。

音声認識部２１は、オペレータ及び顧客の各音声データから、オペレータ及び顧客の各発話区間をそれぞれ検出し、各発話区間の始端時間及び終端時間を取得するようにしてもよい。この場合、音声認識部２１は、各音声テキストデータにおける、各発話区間に相当する単語列ごとに発声時間を決定し、各発話区間に相当する単語列ごとの発声時間を上記発声時間データとするようにしてもよい。

音声認識処理では、コンタクトセンタにおける通話用に適合された音声認識パラメータ（以降、基準音声認識パラメータと表記する）が用いられる。この音声認識パラメータとしては、例えば、複数の音声サンプルから学習された、音響モデルと言語モデルとが用いられる。なお、本実施形態では、この音声認識処理には、周知な手法が利用されればよく、その音声認識処理自体及びその音声認識処理で利用される各種音声認識パラメータを制限しない。また、本実施形態では、発話区間の検出手法についても制限しない。

音声認識部２１は、クロージング検出部２３及び表現検出部２６の各処理内容に応じて、顧客及びオペレータのいずれか一方の音声データに対してのみ音声認識処理を行うようにしてもよい。例えば、後述するような所定のクロージング文句の検索によりクロージング区間を検出する場合には、クロージング検出部２３は、オペレータの音声テキストデータを必要とする。また、表現検出部２６は、お礼表現データの検出を行う場合には、顧客の音声テキストデータを必要とする。表現検出部２６は、謝罪表現データの検出を行う場合には、オペレータの音声テキストデータを必要とする。

クロージング検出部２３は、通話データに含まれる切断時間データと、音声認識部２１により取得されたオペレータ又は顧客の音声テキストデータ及びその発声時間データとに基づいて、対象通話のクロージング区間を検出する。クロージング検出部２３は、検出されたクロージング区間の始端時間と終端時間とを含むクロージング区間データを生成する。クロージング区間の終端時間は、切断時間データにより示される切断時間に設定される。

クロージング区間の始端時間は、例えば、次のように設定される。クロージング検出部２３は、通話の切断時間から所定数分の発話区間の始端時間を、クロージング区間の始端時間に決定する。また、クロージング検出部２３は、通話の切断時間から所定時間遡った時点を、クロージング区間の始端時間に決定してもよい。これらクロージング区間の始端時間の決定方法によれば、表現検出部２６で用いられる、オペレータ及び顧客のいずれか一方の音声テキストデータのみに基づいて、クロージング区間の始端時間を決定することができる。クロージング区間の幅を決めるための所定発話数及び所定時間は、オペレータマニュアル等に記載されるクロージングの定型文や、コンタクトセンタでの音声データの検聴結果等により、予め決定される。

更に、クロージング検出部２３は、オペレータの音声テキストデータの中で、最前の所定のクロージング文句の発声時間を、クロージング区間の始端時間に決定してもよい。ここで、クロージング文句とは、最終挨拶文句のような、通話の終了過程でオペレータが発するフレーズである。コンタクトセンタでは、通話の終了過程でオペレータが発すべきフレーズがマニュアルにより決められている場合が多い。また、コンタクトセンタのような専門部署に属さない一般的な通話者においても、通話の終了過程で発声されるフレーズには或る程度決まったフレーズが存在する。そこで、クロージング検出部２３は、そのような複数の所定のクロージング文句のデータを予め調整可能に保持するようにしてもよい。このような所定クロージング文句のデータは、入力画面等に基づいてユーザにより入力されてもよいし、可搬型記録媒体、他のコンピュータ等から入出力Ｉ／Ｆ１３を経由して取得されてもよい。

特定表現テーブル２５は、お礼表現データ及び謝罪表現データを特定表現データとして保持する。具体的には、特定表現テーブル２５は、表現検出部２６による検出対象となる特定表現データをお礼表現データと謝罪表現データとに区別可能に保持する。特定表現テーブル２５は、表現検出部２６の処理に応じて、お礼表現データ及び謝罪表現データのいずれか一方のみを保持するようにしてもよい。

表現検出部２６は、検出対象となる特定表現データに応じて次のような３タイプの処理のいずれか１つを実行する。第１の処理タイプは、お礼表現データのみを検出対象とし、第２の処理タイプは、謝罪表現データのみを検出対象とし、第３の処理タイプは、お礼表現データ及び謝罪表現データの両方を検出対象とする。

第１の処理タイプでは、表現検出部２６は、音声認識部２１により取得された顧客の音声テキストデータから、クロージング検出部２３により生成されたクロージング区間データで示される時間範囲内の発声時間を持つ音声テキストデータを抽出する。表現検出部２６は、この抽出されたクロージング区間に対応する顧客の音声テキストデータの中から、特定表現テーブル２５に保持されるお礼表現データを検出する。この検出と共に、表現検出部２６は、お礼表現データの検出数をカウントする。

第２の処理タイプでは、表現検出部２６は、音声認識部２１により取得されたオペレータの音声テキストデータから、クロージング検出部２３により生成されたクロージング区間データで示される時間範囲内の発声時間を持つ音声テキストデータを抽出する。表現検出部２６は、この抽出されたクロージング区間に対応するオペレータの音声テキストデータの中から、特定表現テーブル２５に保持される謝罪表現データを検出する。この検出と共に、表現検出部２６は、謝罪表現データの検出数をカウントする。

第３の処理タイプでは、表現検出部２６は、音声認識部２１により取得された顧客及びオペレータの各音声テキストデータから、クロージング検出部２３により生成されたクロージング区間データで示される時間範囲内の発声時間を持つ各音声テキストデータをそれぞれ抽出する。表現検出部２６は、この抽出されたクロージング区間に対応するオペレータの音声テキストデータの中から、特定表現テーブル２５に保持される謝罪表現データを検出し、当該抽出されたクロージング区間に対応する顧客の音声テキストデータの中から、特定表現テーブル２５に保持されるお礼表現データを検出する。表現検出部２６は、これら検出と共に、お礼表現データの検出数及び謝罪表現データの検出数を区別してそれぞれカウントする。

推定部２７は、表現検出部２６によりカウントされたお礼表現データの検出数に応じて、対象通話における顧客の満足度及び不満度の少なくとも一方を推定する。例えば、推定部２７は、お礼表現データの検出数が所定閾値以上の場合、満足感有りと推定する。また、お礼表現データの検出数が所定閾値以上の場合、不満感無しと推定しても良い。さらに、推定部２７は、お礼表現データの検出数が所定閾値より小さい場合、満足感無しと推定しても良い。満足感や不満感の有無を推定するための上記所定閾値は、コンタクトセンタでの音声データの検聴結果等により、予め決定される。

下表は、コンタクトセンタの通話のクロージング区間において顧客がお礼を述べた回数と、顧客の満足感および不満感の有無との関係を調べた結果である。表中の「中立」は、顧客が満足感も不満感も感じていないことを示す。下表より、クロージング区間にてお礼を述べた回数が多くなるほど顧客が満足感を感じている確率が大きくなり、不満感を感じている確率が小さくなることがわかる。満足感や不満感の有無を推定するための上記閾値は、このような調査結果に基づいて予め決定される。例えば、下表に基づくと、お礼回数３回以上とすれば満足感有りを８０％程度の精度で推定できると期待できる。また、お礼回数１回未満（すなわちゼロ）とすれば満足感なしを８８％程度の精度で推定できると期待できる。

また、推定部２７は、表現検出部２６によりカウントされた謝罪表現データの検出数に応じて、対象通話における顧客の不満度及び満足度の少なくとも一方を推定する。例えば、推定部２７は、謝罪表現データの検出数が所定閾値以上の場合、不満感有りと推定する。また、推定部２７は、お礼表現データの検出数に応じた満足度レベル値や不満度レベル値を決定しても良い。同様に、推定部２７は、謝罪表現データの検出数に応じた不満度レベル値や満足度レベル値を決定するようにしてもよい。

更に、推定部２７は、お礼表現データ及び謝罪表現データの両方の検出数がカウントされた場合には、その両方の検出数に応じて、対象通話における顧客の満足度及び不満度の少なくとも一方を推定するようにしてもよい。例えば、推定部２７は、お礼表現データの検出数が他方より大きい場合には、満足感有りと推定し、謝罪表現データの検出数が他方より大きい場合には、不満感有りと推定する。また、推定部２７は、各検出数に応じた満足度レベル値及び不満度レベル値を決定してもよいし、両者の差分値により満足度レベル値又は不満度レベル値を決定するようにしてもよい。

推定部２７は、推定結果を示す情報を含む出力データを生成し、入出力Ｉ／Ｆ１３を介して表示部や他の出力装置にその判定結果を出力する。本実施形態は、この判定結果の出力の具体的形態を制限しない。

〔動作例〕
以下、第１実施形態における通話分析方法について図３を用いて説明する。図３は、第１実施形態における通話分析サーバ１０の動作例を示すフローチャートである。

まず、お礼表現のみが用いられる場合の通話分析方法について説明する。
通話分析サーバ１０は、通話データを取得する（Ｓ３０）。第１実施形態では、通話分析サーバ１０は、ファイルサーバ９に格納される複数の通話データの中から、分析対象となる通話データを取得する。

通話分析サーバ１０は、（Ｓ３０）で取得された通話データに含まれる顧客の音声データに対して音声認識処理を行う（Ｓ３１）。これにより、通話分析サーバ１０は、顧客の音声テキストデータ及び発声時間データを取得する。顧客の音声テキストデータは、単語（品詞）ごとにそれぞれ区分けされている。また、発声時間データには、単語毎又は各発話区間に相当する単語列毎の発声時間データが含まれる。

通話分析サーバ１０は、（Ｓ３０）で取得された通話データに含まれる切断時間データ、及び、（Ｓ３１）で取得された発声時間データに基づいて、対象通話のクロージング区間を検出する（Ｓ３２）。例えば、通話分析サーバ１０は、切断時間データにより示される通話切断時間から所定時間遡った時点を、クロージング区間の始端時間に決定する。他の例としては、通話分析サーバ１０は、当該通話切断時間から、顧客の所定数分の発話区間の始端時間を、クロージング区間の始端時間に決定する。通話分析サーバ１０は、検出されたクロージング区間の始端時間及び終端時間を示すクロージング区間データを生成する。

通話分析サーバ１０は、（Ｓ３１）で取得された顧客の音声テキストデータの中から、（Ｓ３２）で生成されたクロージング区間データで示される時間範囲内の発声時間に対応する音声テキストデータを抽出し、この抽出された音声テキストデータの中から、特定表現データとしてのお礼表現データを検出する（Ｓ３３）。この検出に伴い、通話分析サーバ１０は、お礼表現データの検出数をカウントする（Ｓ３４）。

通話分析サーバ１０は、（Ｓ３４）でカウントされたお礼表現データの検出数に基づいて、対象通話の顧客の満足度を推定する（Ｓ３５）。例えば、通話分析サーバ１０は、お礼表現データの検出数が所定閾値より大きい場合、満足感有り、かつ、不満感なしと推定する。また、お礼表現データの検出数が所定閾値より小さい場合、通話分析サーバ１０は、満足感なしと推定する。通話分析サーバ１０は、推定された満足度や不満度の有無、又は、レベル値を示す出力データを生成する。

次に、謝罪表現のみを用いる場合の通話分析方法について説明する。
この場合、（Ｓ３１）では、通話分析サーバ１０は、当該通話データに含まれるオペレータの音声データに対して音声認識処理を行う。これにより、通話分析サーバ１０は、オペレータの音声テキストデータ及び発声時間データを取得する。

（Ｓ３２）では、通話分析サーバ１０は、（Ｓ３０）で取得された通話データに含まれる切断時間データ、及び、（Ｓ３１）で取得されたオペレータの音声テキストデータに基づいて、対象通話のクロージング区間を検出する。この場合、通話分析サーバ１０は、オペレータの音声テキストデータの中で、最前の所定のクロージング文句の発声時間を、クロージング区間の始端時間に決定する。

（Ｓ３３）では、通話分析サーバ１０は、（Ｓ３１）で取得されたオペレータの音声テキストデータの中から、（Ｓ３２）で生成されたクロージング区間データで示される時間範囲内の発声時間に対応する音声テキストデータを抽出し、この抽出された音声テキストデータの中から、特定表現データとしての謝罪表現データを検出する。（Ｓ３４）では、通話分析サーバ１０は、謝罪表現データの検出数をカウントする（Ｓ３４）。

（Ｓ３５）では、通話分析サーバ１０は、（Ｓ３４）でカウントされた謝罪表現データの検出数に基づいて、対象通話の顧客の不満度を推定する（Ｓ３５）。通話分析サーバ１０は、謝罪表現データの検出数が所定閾値より大きい場合、不満感有りと推定し、それ以外の場合、不満感なしと推定する。

以下、お礼表現及び謝罪表現の両方を特定表現として用いる場合の通話分析方法について説明する。この場合、（Ｓ３１）では、通話分析サーバ１０は、顧客及びオペレータの各音声データに対してそれぞれ音声認識処理を行う。これにより、通話分析サーバ１０は、顧客及びオペレータに関する音声テキストデータ及び発声時間データをそれぞれ取得する。

（Ｓ３３）及び（Ｓ３４）では、通話分析サーバ１０は、上述の２つの場合の（Ｓ３３）及び（Ｓ３４）をそれぞれ実行する。これにより、お礼表現データの検出数及び謝罪表現データの検出数がそれぞれカウントされる。

（Ｓ３５）では、通話分析サーバ１０は、（Ｓ３４）でカウントされたお礼表現データの検出数及び謝罪表現データの検出数に基づいて、対象通話の顧客の満足度及び不満度の少なくとも一方を推定する。

〔第１実施形態の作用及び効果〕
上述したように第１実施形態では、対象通話のクロージング区間の音声に対応するデータから検出される、顧客により発声されるお礼表現データの検出数及びオペレータにより発声される謝罪表現データの検出数の少なくとも一方に基づいて、対象通話の顧客の満足度及び不満度の少なくとも一方が推定される。本実施形態によれば、クロージング区間のみからお礼表現や謝罪表現を検出しているため、これら特定表現は顧客の満足感または不満感を反映している可能性が高く、かつ、クロージング区間以外で誤認識された特定表現の悪影響を受けなくなるため、顧客の満足度または不満度を高精度に推定することができる。

更に、本実施形態によれば、顧客及びオペレータのいずれか一方のみの音声テキストデータがあれば、上述の実施形態で述べたように、高精度に、顧客の満足度又は不満度を推定することができる。従って、本実施形態によれば、顧客及びオペレータの両方の音声データに対して音声認識処理を行う形態に比べて、音声認識処理の負荷を軽減することもできる。

また、第１実施形態では、顧客により発声されるお礼表現データの検出数及びオペレータにより発声される謝罪表現データの検出数の両方に基づいて、対象通話の顧客の満足度及び不満度の少なくとも一方を推定することもできる。このようにすれば、顧客の満足度及び不満度と強い相関を持つ、顧客によるお礼表現及びオペレータによる謝罪表現の両方が加味されるため、顧客の満足度又は不満度の推定精度を更に向上させることができる。

［第２実施形態］
第２実施形態では、お礼表現及び謝罪表現を認識し易いように重み付けされた音声認識パラメータを用いて、クロージング区間の音声データに対する音声認識処理が行われる。以下、第２実施形態におけるコンタクトセンタシステム１について、第１実施形態と異なる内容を中心に説明する。以下の説明では、第１実施形態と同様の内容については適宜省略する。

〔処理構成〕
図４は、第２実施形態における通話分析サーバ１０の処理構成例を概念的に示す図である。第２実施形態における通話分析サーバ１０は、第１実施形態の構成に加えて、音声認識部４１を更に有する。音声認識部４１は、他の処理部と同様に、例えば、ＣＰＵ１１によりメモリ１２に格納されるプログラムが実行されることにより実現される。

音声認識部２１は、通話データに含まれるオペレータの音声データに対して、基準音声認識パラメータＬＭ−１を用いて、音声認識処理を行う。この音声認識処理で取得される音声テキストデータは、クロージング検出部２３のみにより利用されるため、音声認識処理は、オペレータの音声データのみに対して行われればよい。なお、音声認識部２１は、オペレータ及び顧客の両方の音声データに対して音声認識処理を行うようにしてもよい。音声認識部２１は、コンタクトセンタにおける通話全般用に予め学習された基準音声認識パラメータＬＭ−１を予め保持する。

音声認識部４１は、音声認識部２１により用いられる基準音声認識パラメータＬＭ−１が、表現検出部２６で検出される特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータ（以降、加重音声認識パラメータと表記）ＬＭ−２を用いて、対象通話のクロージング区間の音声データに対して音声認識処理を行う。図４では、音声認識部２１と音声認識部４１とが区別されて示されるが、両者は１つの処理部として実現され、用いられる音声認識パラメータが切り替えられるようにしてもよい。

加重音声認識パラメータＬＭ−２は、例えば、基準音声認識パラメータＬＭ−１に基づいて所定手法により算出され、予め、音声認識部４１により保持される。下記式は、音声認識パラメータとしてＮ−ｇｒａｍ言語モデルが利用される場合における、加重音声認識パラメータＬＭ−２の算出例を示す図である。

上記式の左辺Ｐ_ｎｅｗ（ｗ_ｉ｜ｗ_{ｉ−ｎ＋１} ^ｉ−１）は、加重音声認識パラメータＬＭ−２に相当するＮ−ｇｒａｍ言語モデルを示し、（ｉ−ｎ＋１）番目から（ｉ−１）番目までの単語列ｗ_{ｉ−ｎ＋１} ^ｉ−１の条件下におけるｉ番目の単語ｗ_ｉの出現確率を示す。上記式の右辺のＰ_ｏｌｄ（ｗ_ｉ｜ｗ_{ｉ−ｎ＋１} ^ｉ−１）は、基準音声認識パラメータＬＭ−１に相当するＮ−ｇｒａｍ言語モデルを示す。上記式の右辺のＰ_ｎｅｗ（ｗ_ｉ）は、お礼表現及び謝罪表現の出現確率を大きくしたユニグラム言語モデルであり、上記式の右辺のＰ_ｏｌｄ（ｗ_ｉ）は、基準音声認識パラメータＬＭ−１に相当するユニグラム言語モデルである。上記式によれば、コンタクトセンタにおける通話全般用に予め学習されたＮ−ｇｒａｍ言語モデルが、お礼表現及び謝罪表現の出現確率が大きくなるように、（Ｐ_ｎｅｗ（ｗ_ｉ）／Ｐ_ｏｌｄ（ｗ_ｉ））で重み付けされたＮ−ｇｒａｍ言語モデルが、加重音声認識パラメータＬＭ−２として算出される。

音声認識部４１は、クロージング検出部２３により生成されるクロージング区間データにより示される時間範囲内の音声データに対してのみ音声認識処理を行う。また、音声認識部４１は、表現検出部２６の処理内容に応じて、顧客及びオペレータの両方の音声データを音声認識処理の対象としてもよいし、顧客及びオペレータのいずれか一方の音声データのみを音声認識処理の対象としてもよい。

表現検出部２６は、音声認識部４１により取得された音声テキストデータの中から、特定表現テーブル２５に保持されるお礼表現データ及び謝罪表現データの少なくとも一方を検出する。

〔動作例〕
以下、第２実施形態における通話分析方法について図５を用いて説明する。図５は、第２実施形態における通話分析サーバ１０の動作例を示すフローチャートである。図５では、図３と同じ工程については、図３と同じ符号が付されている。

通話分析サーバ１０は、（Ｓ３０）で取得された通話データに含まれる音声データの中の、（Ｓ３２）で生成されたクロージング区間データで示される時間範囲の音声データに対して、加重音声認識パラメータＬＭ−２を用いた音声認識を行う（Ｓ５１）。
通話分析サーバ１０は、（Ｓ５１）で取得された音声テキストデータの中から、特定表現データとしてのお礼表現データ及び謝罪表現データの少なくとも一方を検出する（Ｓ３３）。

〔第２実施形態の作用及び効果〕
上述のように、第２実施形態では、お礼表現及び謝罪表現を認識し易いように重み付けされた加重音声認識パラメータを用いて、クロージング区間の音声データに対する音声認識処理が行われる。そして、この音声認識処理で取得される音声テキストデータから、お礼表現データ及び謝罪表現データの少なくとも一方が検出され、この検出結果に基づいて対象通話の顧客の満足度又は不満度が推定される。

通話の終了過程では、お礼表現及び謝罪表現が発声されている可能性が、他の区間よりも高い。これにより、クロージング区間の音声データに対して行われる音声認識処理では、お礼表現及び謝罪表現を認識し易いように重み付けされた加重音声認識パラメータが用いられる。従って、第２実施形態によれば、クロージング区間の音声データから確実にお礼表現データ及び謝罪表現データを検出することができる。

一方、このような加重音声認識パラメータを用いた音声認識処理が、クロージング区間以外の区間の音声データに対して行われた場合、お礼表現及び謝罪表現の認識誤り率が増加する可能性が高まり、ひいては、顧客の満足度又は不満度の推定精度が低下する可能性がある。これに対して、第２実施形態では、上述のように、加重音声認識パラメータを用いた音声認識処理を、お礼表現及び謝罪表現の出現確率の高いクロージング区間の音声データに絞って行っているため、そのような推定精度の低下を避けることができる。

第２実施形態では、このようにお礼表現及び謝罪表現の検出率を上げているため、それでもお礼表現が検出されなかった場合には、その検出結果に応じた顧客の満足感なしとの推定は、極めて高い精度（純度）を示すことになる。よって、第２実施形態によれば、お礼表現の検出数が０の場合に満足感なしと推定することで、その推定精度が非常に高いことを期待できる。また、第２実施形態においてはお礼表現を認識し易いように重み付けした言語モデルを用いているため、お礼表現の検出数が０の場合、顧客が全くお礼を述べなかった可能性が特に高いため、その通話に関し不満有りとの推定をすることも可能である。

［第１変形例］
以下、第１実施形態における通話分析サーバ１０の変形例を第１変形例として説明する。図６は、第１変形例における通話分析サーバ１０の処理構成例を概念的に示す図である。第１変形例では、クロージング検出部２３は、通話データ取得部２０により取得された通話データに含まれる音声データ及び切断時間データの少なくとも一方を用いてクロージング区間を検出する。

クロージング検出部２３は、切断時間データが示す通話切断時間をクロージング区間の終端時間に設定し、その通話切断時間から所定時間幅をクロージング区間の始端時間と決定してもよい。また、クロージング検出部２３は、各クロージング文句の音声データから得られる各音声信号波形を保持し、当該各音声信号波形と通話データに含まれる音声データの波形とをそれぞれ照合することにより、クロージング文句の発声時間を取得するようにしてもよい。

第１変形例では、音声認識部２１は、対象通話のクロージング区間の音声データに対して音声認識処理を行えばよい。
第１変形例における通話分析方法では、図３に示される工程（Ｓ３１）が、工程（Ｓ３２）の後で工程（Ｓ３３）の前に実行されればよい。

［第２変形例］
以下、第２実施形態における通話分析サーバ１０の変形例を第２変形例として説明する。図７は、第２変形例における通話分析サーバ１０の処理構成例を概念的に示す図である。第２変形例では、通話分析サーバ１０は、音声認識部２１を持たなくてもよい。クロージング検出部２３は、通話データ取得部２０により取得された通話データに含まれる音声データ及び切断時間データの少なくとも一方を用いてクロージング区間を検出する。第２変形例におけるクロージング検出部２３の処理内容は、第１変形例と同様でよいため、ここでは説明を省略する。

第２変形例における通話分析方法では、図５に示される工程（Ｓ３１）が省かれる。第１変形例および第２変形例によれば、クロージング検出部によって検出された区間のみに音声認識を適用するため、顧客の満足度や不満度の推定に要する計算時間が少なくて済むという利点がある。

［その他の変形例］
上述の各実施形態及び各変形例では、お礼表現データの検出数及び謝罪表現データの検出数により顧客の満足度又は不満度が推定された。しかしながら、顧客の満足度又は不満度は、検出数以外から推定されるようにしてもよい。例えば、特定表現テーブル２５において、お礼表現データ毎に満足度ポイントを、謝罪表現毎に不満度ポイントをそれぞれ予め付与しておき、検出されたお礼表現データの満足度ポイントの合計値、及び、検出された謝罪表現データの不満度ポイントの合計値から、顧客の満足度レベル値及び不満度レベル値が推定されるようにしてもよい。

上述の各実施形態及び各変形例は、コンタクトセンタシステム１を例示するため、基準音声認識パラメータが、コンタクトセンタにおける通話全般用に適合（学習）されている例が示された。基準音声認識パラメータは、扱われる通話の形態に適合されればよい。例えば、通話端末による一般的な通話が扱われる場合には、そのような一般的な通話用に適合された基準音声認識パラメータが利用されればよい。

上述の各実施形態及び各変形例では、通話データには切断時間データが含まれ、その切断時間データが各オペレータ電話機６や交換機５等により生成される例が示されたが、切断時間データは、顧客の音声データから切断音を検出することにより、生成されるようにしてもよい。この場合、切断時間データは、ファイルサーバ９が生成してもよいし、通話分析サーバ１０が生成してもよい。

また、上述の通話分析サーバ１０は、複数のコンピュータとして実現されてもよい。この場合、例えば、通話分析サーバ１０は、表現検出部２６及び推定部２７のみを有し、他のコンピュータが他の処理部を有するように構成される。更に、クロージング検出部２３は、クロージング区間データを、入力画面等に基づいて入力装置をユーザが操作することにより取得してもよいし、可搬型記録媒体、他のコンピュータ等から入出力Ｉ／Ｆ１３を経由して取得してもよい。

［他の実施形態］
上述の各実施形態及び各変形例では、通話データが扱われたが、上述の会話分析装置及び会話分析方法は、通話以外の会話データを扱う装置やシステムに適用されてもよい。この場合、例えば、分析対象となる会話を録音する録音装置がその会話が行われる場所（会議室、銀行の窓口、店舗のレジなど）に設置される。また、会話データが複数の会話参加者の声が混合された状態で録音される場合には、その混合状態から所定の音声処理により会話参加者毎の音声データに分離される。

また、上述の各実施形態及び各変形例では、会話の終了時点を示すデータとして通話の切断時間データが用いられたが、通話データ以外の会話データが扱われる形態では、会話の終了を示す事象が自動又は手動で検出され、この検出時点が会話の終了時間データとして扱われるようにすればよい。自動検出では、会話参加者全員の発声の終了が検出されてもよいし、会話参加者の解散を示す人の動きがセンサ等で検出されてもよい。また、手動検出では、会話参加者による会話終了を通知するための入力操作が検出されてもよい。

また、通話データ以外の会話データが扱われる形態では、クロージング検出部２３は、会話データに含まれる会話終了時間データと、音声認識部２１により取得された会話参加者の音声テキストデータ及びその発声時間データとに基づいて、対象会話のクロージング区間を検出すればよい。この場合、クロージング区間の幅を決めるための所定発話数及び所定時間は、銀行の窓口で行われる会話、店舗のレジで行われる会話、施設のインフォメーションセンタで行われる会話などのようなその会話種に応じて決められる。また、所定のクロージング文句についても同様に、会話種に応じてそれぞれ決められる。

なお、上述の説明で用いた複数のフローチャートでは、複数の工程（処理）が順番に記載されているが、本実施形態で実行される工程の実行順序は、その記載の順番に制限されない。本実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び各変形例は、内容が相反しない範囲で組み合わせることができる。

上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。

（付記１）
第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第１会話参加者により発声されたお礼表現データ及び該第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、
前記特定表現データの検出結果に応じて、前記会話における前記第１会話参加者の満足度又は不満度を推定する推定部と、
を備える会話分析装置。

（付記２）
前記表現検出部は、
前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う音声認識部、
を含み、
前記音声認識部の前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する
付記１に記載の会話分析装置。

（付記３）
前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データおよび前記謝罪表現データの少なくとも一方の検出数をカウントし、
前記推定部は、前記お礼表現データの検出数または前記謝罪表現データの検出数に基づいて、前記会話における前記第１会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記１又は２に記載の会話分析装置。

（付記４）
前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントし、
前記推定部は、前記お礼表現データの検出数及び前記謝罪表現データの検出数に基づいて、前記会話における前記第１会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記１又は２に記載の会話分析装置。

（付記５）
少なくとも１つのコンピュータにより実行される会話分析方法において、
第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第１会話参加者により発声されたお礼表現データ及び該第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、
前記特定表現データの検出結果に応じて、前記会話における前記第１会話参加者の満足度又は不満度を推定する、
ことを含む会話分析方法。

（付記６）
前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う、
ことを更に含み、
前記特定表現データの検出は、前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する、
付記５に記載の会話分析方法。

（付記７）
前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データおよび前記謝罪表現データの少なくとも一方の検出数をカウントする、
ことを更に含み、
前記推定は、前記お礼表現データの検出数又は前記謝罪表現データの検出数に基づいて、前記会話における前記第１会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記５又は６に記載の会話分析方法。

（付記８）
前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントする、
ことを更に含み、
前記推定は、前記お礼表現データの検出数及び前記謝罪表現データの検出数に基づいて、前記会話における前記第１会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記５又は６に記載の会話分析方法。

（付記９）
少なくとも１つのコンピュータに、付記５から８のいずれか１つに記載の会話分析方法を実行させるプログラム。

（付記１０）付記９に記載のプログラムを記録したコンピュータが読み取り可能な記録媒体。

この出願は、２０１２年１０月３１日に出願された日本出願特願２０１２−２４０７５０号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第１会話参加者により発声されたお礼表現データ及び該第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、
前記特定表現データの検出結果に応じて、前記会話における前記第１会話参加者の満足度又は不満度を推定する推定部と、
前記第１会話参加者と前記第２会話参加者の間の通話の通話データを取得する通話データ取得部と、
前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出するクロージング検出部と、
を備え、
前記通話データは切断時間データを含み、
前記クロージング検出部は、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する会話分析装置。
第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第１会話参加者により発声されたお礼表現データ及び該第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、
前記特定表現データの検出結果に応じて、前記会話における前記第１会話参加者の満足度又は不満度を推定する推定部と、
前記会話の前記クロージング区間を検出するクロージング検出部と、
を備え、
前記クロージング検出部は、
前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか１つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する会話分析装置。
請求項１又は２に記載の会話分析装置において、
前記表現検出部は、
前記第１会話参加者及び前記第２会話参加者の音声データに対して音声認識処理を行い音声テキストデータ及びその発声時間データを取得する音声認識部を備え、
前記クロージング検出部は、
前記音声テキストデータ及びその発声時間データに基づいて、前記終端時間から所定数分の発話区間の始端時間を前記クロージング区間の前記始端時間に設定する、会話分析装置。
請求項３に記載の会話分析装置において、
前記クロージング検出部は、
前記第１会話参加者及び前記第２会話参加者のいずれか一方の前記音声テキストデータのみに基づいて、前記クロージング区間の始端時間を設定する会話分析装置。
請求項３又は４に記載の会話分析装置において、
前記クロージング検出部は、前記所定数を前記会話の会話種に応じて決める、会話分析装置。
請求項１又は２に記載の会話分析装置において、
前記クロージング検出部は、前記終端時間から所定時間遡った時点を前記クロージング区間の前記始端時間に設定する、会話分析装置。
請求項６に記載の会話分析装置において、
前記クロージング検出部は、前記所定時間を前記会話の会話種に応じて決める、会話分析装置。
請求項１から７のいずれか１項に記載の会話分析装置において、
前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントし、
前記推定部は、前記お礼表現データの前記検出数が前記謝罪表現データの前記検出数より大きい場合には、前記第１会話参加者の満足感有りと推定し、前記謝罪表現データの前記検出数が前記お礼表現データの前記検出数より大きい場合には、前記第１会話参加者の不満足感有りと推定する、会話分析装置。
請求項１から７のいずれか１項に記載の会話分析装置において、
前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントし、
前記推定部は、前記お礼表現データの検出数と前記謝罪表現データの検出数の差分値に基づいて、前記第１会話参加者の満足度レベル又は不満足度レベルを推定する、会話分析装置。
請求項１から９いずれかの１項に記載の会話分析装置において、
前記表現検出部は、
前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う音声認識部、
を含み、
前記音声認識部の前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する、会話分析装置。
少なくとも１つのコンピュータにより実行される会話分析方法において、
第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第１会話参加者により発声されたお礼表現データ及び該第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、
前記特定表現データの検出結果に応じて、前記会話における前記第１会話参加者の満足度又は不満度を推定し、
前記第１会話参加者と前記第２会話参加者の間の通話の通話データを取得し、
前記通話データは切断時間データを含み、
前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出する際、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、
ことを含む会話分析方法。
少なくとも１つのコンピュータにより実行される会話分析方法において、
第１会話参加者と第２会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第１会話参加者により発声されたお礼表現データ及び該第２会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、
前記特定表現データの検出結果に応じて、前記会話における前記第１会話参加者の満足度又は不満度を推定し、
前記会話の前記クロージング区間を検出する際、前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか１つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、
ことを含む会話分析方法。
請求項１１又は１２に記載の会話分析方法において、
前記第１会話参加者及び前記第２会話参加者の音声データに対して音声認識処理を行い音声テキストデータ及びその発声時間データを取得し、
前記音声テキストデータ及びその発声時間データに基づいて、前記終端時間から所定数分の発話区間の始端時間を前記クロージング区間の前記始端時間に設定する、会話分析方法。
請求項１３に記載の会話分析方法において、
前記第１会話参加者及び前記第２会話参加者のいずれか一方の前記音声テキストデータのみに基づいて、前記クロージング区間の始端時間を設定する会話分析方法。
請求項１３又は１４に記載の会話分析方法において、
前記所定数を前記会話の会話種に応じて決める、会話分析方法。
請求項１１又は１２に記載の会話分析方法において、
前記終端時間から所定時間遡った時点を前記クロージング区間の前記始端時間に設定する、会話分析方法。
請求項１６に記載の会話分析方法において、
前記所定時間を前記会話の会話種に応じて決める、会話分析方法。
請求項１１から１７のいずれか１項に記載の会話分析方法において、
前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントする、
ことを更に含み、
前記推定は、前記お礼表現データの前記検出数が前記謝罪表現データの前記検出数より大きい場合には、前記会話における前記第１会話参加者の満足感有りと推定し、前記謝罪表現データの前記検出数が前記お礼表現データの前記検出数より大きい場合には、前記第１会話参加者の不満足感有りと推定する、会話分析方法。
請求項１１から１７のいずれか１項に記載の会話分析方法において、
前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントする、
ことを更に含み、
前記推定は、前記お礼表現データの検出数と前記謝罪表現データの検出数の差分値に基づいて、前記会話における前記第１会話参加者の満足度レベル又は不満足度レベルを推定する、会話分析方法。
請求項１１から１９のいずれか１項に記載の会話分析方法において、
前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う、
ことを更に含み、
前記特定表現データの検出は、前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する、会話分析方法。
少なくとも１つのコンピュータに、請求項１１から２０のいずれか１項に記載の会話分析方法を実行させるプログラム。