JP6365304B2 - 会話分析装置及び会話分析方法 - Google Patents

会話分析装置及び会話分析方法 Download PDF

Info

Publication number
JP6365304B2
JP6365304B2 JP2014544379A JP2014544379A JP6365304B2 JP 6365304 B2 JP6365304 B2 JP 6365304B2 JP 2014544379 A JP2014544379 A JP 2014544379A JP 2014544379 A JP2014544379 A JP 2014544379A JP 6365304 B2 JP6365304 B2 JP 6365304B2
Authority
JP
Japan
Prior art keywords
conversation
data
expression data
participant
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014544379A
Other languages
English (en)
Other versions
JPWO2014069121A1 (ja
Inventor
真 寺尾
真 寺尾
祥史 大西
祥史 大西
真宏 谷
真宏 谷
岡部 浩司
浩司 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014069121A1 publication Critical patent/JPWO2014069121A1/ja
Application granted granted Critical
Publication of JP6365304B2 publication Critical patent/JP6365304B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/20Aspects of automatic or semi-automatic exchanges related to features of supplementary services
    • H04M2203/2038Call context notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明は、会話の分析技術に関する。
会話を分析する技術の一例として、通話データを分析する技術がある。例えば、コールセンタ、コンタクトセンタなどと呼ばれる部署で行われる通話のデータが分析される。以降、このような、商品やサービスに関する問い合わせや苦情や注文といった顧客からの電話に応対する業務を専門的に行う部署をコンタクトセンタと表記する。
コンタクトセンタに寄せられる顧客の声には、顧客ニーズや満足度などが反映されている場合が多く、顧客との通話からそのような顧客の感情やニーズを抽出することは、リピータ顧客を増加させるために企業にとって大変重要である。そこで、音声を分析することで、顧客の感情(怒り、苛立ち、不快感など)等を抽出する各種手法が提案されている。下記特許文献1には、顧客とオペレータとの通話内容に対して音声認識を行うことによりその通話にクレーム時に発せられるキーワードが含まれるかどうかを判定し、この判定結果により顧客のCS(顧客満足度)レベルを判断する手法が提案されている。
特開2005−252845号公報
しかしながら、上記提案手法では、会話に参加する者(以降、会話参加者と表記する)、即ち、顧客の満足度又は不満度を適切に判断できない可能性がある。例えば、満足感を表し得る表現(キーワード)であっても、満足感とは無関係に発声される場合があるからである。「ありがとうございます」というお礼表現は、満足感を表し得る。しかしながら、その表現は、以下のような対話で用いられる場合、必ずしも満足感を表しているわけではない。
オペレータ「その症状でしたら、まずそのPCを再起動して頂いて、〜」
顧客「ありがとうございます。ただ、それはもう試しました。」
また、上記提案手法で用いられる音声認識では、挿入誤り、脱落誤りといった誤認識が生じ得る。その誤認識によれば、その会話(通話)で実際には発声されていない表現が認識されたり、その会話で実際に発声されている表現が認識されなかったりする。これにより、抽出すべきキーワードが誤検出されたり脱落したりしてしまい、ひいては、そのキーワードに基づく顧客の満足度又は不満度の推定精度が低下することになる。
本発明は、このような事情に鑑みてなされたものであり、会話参加者の満足度又は不満度を高精度に推定する技術を提供する。ここで、会話参加者の満足度又は不満度とは、会話において少なくとも一方の会話参加者が感じたであろう満足感又は不満感の程度を意味する。また、満足感の程度は、満足感有り又は満足感なしのみを示すことも含み、不満感の程度は、不満感有り又は不満感なしのみを示すことも含む。
本発明の各態様では、上述した課題を解決するために、それぞれ以下の構成を採用する。
第1の態様は、会話分析装置に関する。第1態様に係る会話分析装置は、第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第1会話参加者により発声されたお礼表現データ及び第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、特定表現データの検出結果に応じて、当該会話における第1会話参加者の満足度又は不満度を推定する推定部と、前記第1会話参加者と前記第2会話参加者の間の通話の通話データを取得する通話データ取得部と、前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出するクロージング検出部と、を有し、
前記通話データは切断時間データを含み、
前記クロージング検出部は、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する。
さらに、第1の態様の別の態様は、会話分析装置に関する。第1態様の別の態様に係る会話分析装置は、第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第1会話参加者により発声されたお礼表現データ及び第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、特定表現データの検出結果に応じて、当該会話における第1会話参加者の満足度又は不満度を推定する推定部と、前記会話の前記クロージング区間を検出するクロージング検出部と、を有し、前記クロージング検出部は、前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか1つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する。
第2の態様は、少なくとも1つのコンピュータにより実行される会話分析方法に関する。第2態様に係る会話分析方法は、第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第1会話参加者により発声されたお礼表現データ及び第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、特定表現データの検出結果に応じて、当該会話における第1会話参加者の満足度又は不満度を推定し、前記第1会話参加者と前記第2会話参加者の間の通話の通話データを取得し、前記通話データは切断時間データを含み、前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出する際、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、ことを含む。
さらに、第2の態様の別の態様は、少なくとも1つのコンピュータにより実行される会話分析方法に関する。第2態様の別の態様に係る会話分析方法は、第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第1会話参加者により発声されたお礼表現データ及び第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、特定表現データの検出結果に応じて、当該会話における第1会話参加者の満足度又は不満度を推定し、前記会話の前記クロージング区間を検出する際、前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか1つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、ことを含む。
なお、本発明の他の態様としては、上記第1の態様における各構成を少なくとも1つのコンピュータに実現させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
上記各態様によれば、会話参加者の満足度又は不満度を高精度に推定する技術を提供することができる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態におけるコンタクトセンタシステムの構成例を示す概念図である。 第1実施形態における通話分析サーバの処理構成例を概念的に示す図である。 第1実施形態における通話分析サーバの動作例を示すフローチャートである。 第2実施形態における通話分析サーバの処理構成例を概念的に示す図である。 第2実施形態における通話分析サーバの動作例を示すフローチャートである。 第1変形例における通話分析サーバの処理構成例を概念的に示す図である。 第2変形例における通話分析サーバの処理構成例を概念的に示す図である。
以下、本発明の実施の形態について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。
本実施形態に係る会話分析装置は、第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第1会話参加者により発声されたお礼表現データ及び第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、特定表現データの検出結果に応じて、当該会話における第1会話参加者の満足度又は不満度を推定する推定部と、を有する。
本実施形態に係る会話分析方法は、少なくとも1つのコンピュータにより実行され、第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、第1会話参加者により発声されたお礼表現データ及び第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、特定表現データの検出結果に応じて、当該会話における第1会話参加者の満足度又は不満度を推定する、ことを含む。
ここで、会話とは、2以上の話者が、言語の発声などによる意思表示によって、話をすることを意味する。会話には、銀行の窓口や店舗のレジ等のように、会話参加者が直接、話をする形態もあれば、通話機を用いた通話やテレビ会議等のように、離れた位置にいる会話参加者同士が話をする形態もあり得る。本実施形態では、対象会話の内容や形態は制限されないが、友達同士の会話など私的な会話よりは、公的な会話のほうが対象会話として望ましい。
また、上述のお礼表現データ、謝罪表現データ及び特定表現データとは、単語、複数単語の並びである単語列、又は、会話内の或る発話において散在する単語の集合である。以降、お礼表現データとお礼表現、謝罪表現データと謝罪表現、特定表現データと特定表現とは、区別されず用いられる場合がある。お礼表現データとしては、単語の「ありがとう」、単語列の「ありがとう」、「ござい」及び「ます」、単語集合の「本当」及び「ありがとう」などがあり得る。また、謝罪表現データとしては、単語の「申し訳」、単語列の「申し訳」、「ござい」、「ませ」及び「ん」などがあり得る。
会話参加者は、その会話において満足感を得ると、お礼表現を発する場合が多い。一方、会話参加者は、自身の側の非により会話相手が不満を感じていることを察すると、謝罪表現を発する場合が多い。しかしながら、上述したように、お礼表現でも、会話参加者の満足感とは無関係に発声される場合がある。同様に、謝罪表現についても、会話相手の不満とは無関係に発声される場合がある。例えば、会話参加者が、その会話の場から離れる際に、「申し訳ございませんが、少しお待ち下さい。」というように定型的に謝罪表現を発する場合がある。この場合、その会話参加者は、会話相手の感情とは直接関係なく、その謝罪表現を発している。
本発明者らは、会話の終了過程において、その会話全体に関する会話参加者の感情、特に、満足感及び不満感が表出し易いことを見出し、この知見から更に、会話の終了過程で発声されたお礼表現及び謝罪表現は、会話参加者の感情を表す可能性が高いことを見出した。
そこで、本実施形態は、会話の終了過程を意味するクロージング区間という概念を設け、このクロージング区間のみの音声に対応するデータから、第1会話参加者により発声されたお礼及び第2会話参加者により発声された謝罪の少なくとも一方を表す特定表現データが検出される。例えば、クロージング区間の終端時間は会話の終了時間に設定される。会話の終了は、例えば、通話の場合には通話の切断で表され、通話以外の会話の場合には会話参加者の解散により表される。クロージング区間の始端時間の決定方法は様々である。また、会話参加者の止むを得ない事情などの特定突発原因で会話が終了される場合には、その会話にはクロージング区間が存在しない場合もあり得る。
このように、当該特定表現データの検出対象をクロージング区間の音声に対応するデータに絞ることで、本実施形態では、第1会話参加者の満足感及び不満感とは無関係に発声されるお礼表現及び謝罪表現を、第1会話参加者の満足度又は不満度の推定材料から排除する。
更に、上述のように、当該特定表現データの検出対象をクロージング区間の音声に対応するデータに絞ることで、本実施形態によれば、クロージング区間外の音声に対する音声認識の誤認識に伴う雑音情報も、第1会話参加者の満足度又は不満度の推定材料から除外することができる。具体的には、クロージング区間外で会話参加者から実際には発声されていないお礼表現又は謝罪表現が誤認識されている場合に、その誤認識されたお礼表現及び謝罪表現が当該推定材料から除外される。
結果、本実施形態では、会話参加者の満足度又は不満度を表す可能性が高い特定表現データのみを対象に、第1会話参加者の満足度又は不満度が推定される。従って、本実施形態によれば、第1会話参加者の満足感又は不満感を反映していない特定表現及び音声認識の誤認識に基づく雑音データを除いた純度の高い当該特定表現データにより、会話参加者の満足度又は不満度を高精度に推定することができる。
以下、上述の実施形態について更に詳細を説明する。以下には、詳細実施形態として、第1実施形態及び第2実施形態を例示する。以下の各実施形態は、上述の会話分析装置及び会話分析方法をコンタクトセンタシステムに適用した場合の例である。なお、上述の会話分析装置及び会話分析方法は、通話データを扱うコンタクトセンタシステムへの適用に限定されるものではなく、会話データを扱う様々な態様に適用可能である。例えば、それらは、コンタクトセンタ以外の社内の通話管理システムや、個人が所有する、PC(Personal Computer)、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末などに適用することも可能である。更に、会話データとしては、例えば、銀行の窓口や店舗のレジにおける、担当者と顧客の会話を示すデータなどが例示できる。
以下、各実施形態で扱われる通話とは、或る通話者と或る通話者とがそれぞれ持つ通話端末間が呼接続されてから呼切断されるまでの間の呼を意味する。また、通話の音声中、一人の通話者が声を発している連続領域を発話又は発話区間と表記する。例えば、発話区間は、通話者の音声波形において所定値以上の振幅が継続している区間として検出される。通常の通話は、各通話者の発話区間、無声区間などから形成される。
[第1実施形態]
〔システム構成〕
図1は、第1実施形態におけるコンタクトセンタシステム1の構成例を示す概念図である。第1実施形態におけるコンタクトセンタシステム1は、交換機(PBX)5、複数のオペレータ電話機6、複数のオペレータ端末7、ファイルサーバ9、通話分析サーバ10等を有する。通話分析サーバ10は、上述の実施形態における会話分析装置に相当する構成を含む。第1実施形態では、顧客が上述の第1会話参加者に相当し、オペレータが上述の第2会話参加者に相当する。
交換機5は、通信網2を介して、顧客により利用される、PC、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末(顧客電話機)3と通信可能に接続されている。通信網2は、インターネットやPSTN(Public Switched Telephone Network)等のような公衆網、無線通信ネットワーク等である。更に、交換機5は、コンタクトセンタの各オペレータが用いる各オペレータ電話機6とそれぞれ接続される。交換機5は、顧客からの呼を受け、その呼に応じたオペレータのオペレータ電話機6にその呼を接続する。
各オペレータは、オペレータ端末7をそれぞれ用いる。各オペレータ端末7は、コンタクトセンタシステム1内の通信網8(LAN(Local Area Network)等)に接続される、PC等のような汎用コンピュータである。例えば、各オペレータ端末7は、各オペレータと顧客との間の通話における顧客の音声データ及びオペレータの音声データをそれぞれ録音する。顧客の音声データとオペレータの音声データとは、混合状態から所定の音声処理により分離されて生成されてもよい。なお、本実施形態は、このような音声データの録音手法及び録音主体を限定しない。各音声データの生成は、オペレータ端末7以外の他の装置(図示せず)により行われてもよい。
ファイルサーバ9は、一般的なサーバコンピュータにより実現される。ファイルサーバ9は、顧客とオペレータとの間の各通話の通話データを、各通話の識別情報と共にそれぞれ格納する。各通話データには、顧客の音声データとオペレータの音声データとのペア、及び、その通話が切断された時間を示す切断時間データがそれぞれ含まれる。ファイルサーバ9は、顧客及びオペレータの各音声を録音する他の装置(各オペレータ端末7等)から、顧客の音声データとオペレータの音声データとを取得する。また、ファイルサーバ9は、切断時間データを、各オペレータ電話機6、交換機5等から取得する。
通話分析サーバ10は、ファイルサーバ9に格納される各通話データに関し、顧客の満足度又は不満度を推定する。
通話分析サーバ10は、図1に示されるように、ハードウェア構成として、CPU(Central Processing Unit)11、メモリ12、入出力インタフェース(I/F)13、通信装置14等を有する。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク、可搬型記憶媒体等である。入出力I/F13は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置、ディスプレイ装置やプリンタ等のようなユーザに情報を提供する装置などと接続される。通信装置14は、通信網8を介して、ファイルサーバ9などと通信を行う。なお、通話分析サーバ10のハードウェア構成は制限されない。
〔処理構成〕
図2は、第1実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第1実施形態における通話分析サーバ10は、通話データ取得部20、音声認識部21、クロージング検出部23、特定表現テーブル25、表現検出部26、推定部27等を有する。これら各処理部は、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F13を介してインストールされ、メモリ12に格納されてもよい。
通話データ取得部20は、ファイルサーバ9から、分析対象となる通話の通話データをその通話の識別情報と共に取得する。通話データには、上述したように、切断時間データが含まれる。当該通話データは、通話分析サーバ10とファイルサーバ9との間の通信により取得されてもよいし、可搬型記録媒体を介して取得されてもよい。
音声認識部21は、通話データに含まれるオペレータ及び顧客の各音声データに対して音声認識処理をそれぞれ行う。これにより、音声認識部21は、当該通話データから、オペレータ音声及び顧客音声に対応する各音声テキストデータ及び各発声時間データをそれぞれ取得する。ここで、音声テキストデータとは、顧客又はオペレータにより発された声がテキスト化された文字データである。各音声テキストデータは、単語(品詞)ごとにそれぞれ区分けされている。各発声時間データには、各音声テキストデータの単語毎の発声時間データが含まれる。
音声認識部21は、オペレータ及び顧客の各音声データから、オペレータ及び顧客の各発話区間をそれぞれ検出し、各発話区間の始端時間及び終端時間を取得するようにしてもよい。この場合、音声認識部21は、各音声テキストデータにおける、各発話区間に相当する単語列ごとに発声時間を決定し、各発話区間に相当する単語列ごとの発声時間を上記発声時間データとするようにしてもよい。
音声認識処理では、コンタクトセンタにおける通話用に適合された音声認識パラメータ(以降、基準音声認識パラメータと表記する)が用いられる。この音声認識パラメータとしては、例えば、複数の音声サンプルから学習された、音響モデルと言語モデルとが用いられる。なお、本実施形態では、この音声認識処理には、周知な手法が利用されればよく、その音声認識処理自体及びその音声認識処理で利用される各種音声認識パラメータを制限しない。また、本実施形態では、発話区間の検出手法についても制限しない。
音声認識部21は、クロージング検出部23及び表現検出部26の各処理内容に応じて、顧客及びオペレータのいずれか一方の音声データに対してのみ音声認識処理を行うようにしてもよい。例えば、後述するような所定のクロージング文句の検索によりクロージング区間を検出する場合には、クロージング検出部23は、オペレータの音声テキストデータを必要とする。また、表現検出部26は、お礼表現データの検出を行う場合には、顧客の音声テキストデータを必要とする。表現検出部26は、謝罪表現データの検出を行う場合には、オペレータの音声テキストデータを必要とする。
クロージング検出部23は、通話データに含まれる切断時間データと、音声認識部21により取得されたオペレータ又は顧客の音声テキストデータ及びその発声時間データとに基づいて、対象通話のクロージング区間を検出する。クロージング検出部23は、検出されたクロージング区間の始端時間と終端時間とを含むクロージング区間データを生成する。クロージング区間の終端時間は、切断時間データにより示される切断時間に設定される。
クロージング区間の始端時間は、例えば、次のように設定される。クロージング検出部23は、通話の切断時間から所定数分の発話区間の始端時間を、クロージング区間の始端時間に決定する。また、クロージング検出部23は、通話の切断時間から所定時間遡った時点を、クロージング区間の始端時間に決定してもよい。これらクロージング区間の始端時間の決定方法によれば、表現検出部26で用いられる、オペレータ及び顧客のいずれか一方の音声テキストデータのみに基づいて、クロージング区間の始端時間を決定することができる。クロージング区間の幅を決めるための所定発話数及び所定時間は、オペレータマニュアル等に記載されるクロージングの定型文や、コンタクトセンタでの音声データの検聴結果等により、予め決定される。
更に、クロージング検出部23は、オペレータの音声テキストデータの中で、最前の所定のクロージング文句の発声時間を、クロージング区間の始端時間に決定してもよい。ここで、クロージング文句とは、最終挨拶文句のような、通話の終了過程でオペレータが発するフレーズである。コンタクトセンタでは、通話の終了過程でオペレータが発すべきフレーズがマニュアルにより決められている場合が多い。また、コンタクトセンタのような専門部署に属さない一般的な通話者においても、通話の終了過程で発声されるフレーズには或る程度決まったフレーズが存在する。そこで、クロージング検出部23は、そのような複数の所定のクロージング文句のデータを予め調整可能に保持するようにしてもよい。このような所定クロージング文句のデータは、入力画面等に基づいてユーザにより入力されてもよいし、可搬型記録媒体、他のコンピュータ等から入出力I/F13を経由して取得されてもよい。
特定表現テーブル25は、お礼表現データ及び謝罪表現データを特定表現データとして保持する。具体的には、特定表現テーブル25は、表現検出部26による検出対象となる特定表現データをお礼表現データと謝罪表現データとに区別可能に保持する。特定表現テーブル25は、表現検出部26の処理に応じて、お礼表現データ及び謝罪表現データのいずれか一方のみを保持するようにしてもよい。
表現検出部26は、検出対象となる特定表現データに応じて次のような3タイプの処理のいずれか1つを実行する。第1の処理タイプは、お礼表現データのみを検出対象とし、第2の処理タイプは、謝罪表現データのみを検出対象とし、第3の処理タイプは、お礼表現データ及び謝罪表現データの両方を検出対象とする。
第1の処理タイプでは、表現検出部26は、音声認識部21により取得された顧客の音声テキストデータから、クロージング検出部23により生成されたクロージング区間データで示される時間範囲内の発声時間を持つ音声テキストデータを抽出する。表現検出部26は、この抽出されたクロージング区間に対応する顧客の音声テキストデータの中から、特定表現テーブル25に保持されるお礼表現データを検出する。この検出と共に、表現検出部26は、お礼表現データの検出数をカウントする。
第2の処理タイプでは、表現検出部26は、音声認識部21により取得されたオペレータの音声テキストデータから、クロージング検出部23により生成されたクロージング区間データで示される時間範囲内の発声時間を持つ音声テキストデータを抽出する。表現検出部26は、この抽出されたクロージング区間に対応するオペレータの音声テキストデータの中から、特定表現テーブル25に保持される謝罪表現データを検出する。この検出と共に、表現検出部26は、謝罪表現データの検出数をカウントする。
第3の処理タイプでは、表現検出部26は、音声認識部21により取得された顧客及びオペレータの各音声テキストデータから、クロージング検出部23により生成されたクロージング区間データで示される時間範囲内の発声時間を持つ各音声テキストデータをそれぞれ抽出する。表現検出部26は、この抽出されたクロージング区間に対応するオペレータの音声テキストデータの中から、特定表現テーブル25に保持される謝罪表現データを検出し、当該抽出されたクロージング区間に対応する顧客の音声テキストデータの中から、特定表現テーブル25に保持されるお礼表現データを検出する。表現検出部26は、これら検出と共に、お礼表現データの検出数及び謝罪表現データの検出数を区別してそれぞれカウントする。
推定部27は、表現検出部26によりカウントされたお礼表現データの検出数に応じて、対象通話における顧客の満足度及び不満度の少なくとも一方を推定する。例えば、推定部27は、お礼表現データの検出数が所定閾値以上の場合、満足感有りと推定する。また、お礼表現データの検出数が所定閾値以上の場合、不満感無しと推定しても良い。さらに、推定部27は、お礼表現データの検出数が所定閾値より小さい場合、満足感無しと推定しても良い。満足感や不満感の有無を推定するための上記所定閾値は、コンタクトセンタでの音声データの検聴結果等により、予め決定される。
下表は、コンタクトセンタの通話のクロージング区間において顧客がお礼を述べた回数と、顧客の満足感および不満感の有無との関係を調べた結果である。表中の「中立」は、顧客が満足感も不満感も感じていないことを示す。下表より、クロージング区間にてお礼を述べた回数が多くなるほど顧客が満足感を感じている確率が大きくなり、不満感を感じている確率が小さくなることがわかる。満足感や不満感の有無を推定するための上記閾値は、このような調査結果に基づいて予め決定される。例えば、下表に基づくと、お礼回数3回以上とすれば満足感有りを80%程度の精度で推定できると期待できる。また、お礼回数1回未満(すなわちゼロ)とすれば満足感なしを88%程度の精度で推定できると期待できる。
Figure 0006365304
また、推定部27は、表現検出部26によりカウントされた謝罪表現データの検出数に応じて、対象通話における顧客の不満度及び満足度の少なくとも一方を推定する。例えば、推定部27は、謝罪表現データの検出数が所定閾値以上の場合、不満感有りと推定する。また、推定部27は、お礼表現データの検出数に応じた満足度レベル値や不満度レベル値を決定しても良い。同様に、推定部27は、謝罪表現データの検出数に応じた不満度レベル値や満足度レベル値を決定するようにしてもよい。
更に、推定部27は、お礼表現データ及び謝罪表現データの両方の検出数がカウントされた場合には、その両方の検出数に応じて、対象通話における顧客の満足度及び不満度の少なくとも一方を推定するようにしてもよい。例えば、推定部27は、お礼表現データの検出数が他方より大きい場合には、満足感有りと推定し、謝罪表現データの検出数が他方より大きい場合には、不満感有りと推定する。また、推定部27は、各検出数に応じた満足度レベル値及び不満度レベル値を決定してもよいし、両者の差分値により満足度レベル値又は不満度レベル値を決定するようにしてもよい。
推定部27は、推定結果を示す情報を含む出力データを生成し、入出力I/F13を介して表示部や他の出力装置にその判定結果を出力する。本実施形態は、この判定結果の出力の具体的形態を制限しない。
〔動作例〕
以下、第1実施形態における通話分析方法について図3を用いて説明する。図3は、第1実施形態における通話分析サーバ10の動作例を示すフローチャートである。
まず、お礼表現のみが用いられる場合の通話分析方法について説明する。
通話分析サーバ10は、通話データを取得する(S30)。第1実施形態では、通話分析サーバ10は、ファイルサーバ9に格納される複数の通話データの中から、分析対象となる通話データを取得する。
通話分析サーバ10は、(S30)で取得された通話データに含まれる顧客の音声データに対して音声認識処理を行う(S31)。これにより、通話分析サーバ10は、顧客の音声テキストデータ及び発声時間データを取得する。顧客の音声テキストデータは、単語(品詞)ごとにそれぞれ区分けされている。また、発声時間データには、単語毎又は各発話区間に相当する単語列毎の発声時間データが含まれる。
通話分析サーバ10は、(S30)で取得された通話データに含まれる切断時間データ、及び、(S31)で取得された発声時間データに基づいて、対象通話のクロージング区間を検出する(S32)。例えば、通話分析サーバ10は、切断時間データにより示される通話切断時間から所定時間遡った時点を、クロージング区間の始端時間に決定する。他の例としては、通話分析サーバ10は、当該通話切断時間から、顧客の所定数分の発話区間の始端時間を、クロージング区間の始端時間に決定する。通話分析サーバ10は、検出されたクロージング区間の始端時間及び終端時間を示すクロージング区間データを生成する。
通話分析サーバ10は、(S31)で取得された顧客の音声テキストデータの中から、(S32)で生成されたクロージング区間データで示される時間範囲内の発声時間に対応する音声テキストデータを抽出し、この抽出された音声テキストデータの中から、特定表現データとしてのお礼表現データを検出する(S33)。この検出に伴い、通話分析サーバ10は、お礼表現データの検出数をカウントする(S34)。
通話分析サーバ10は、(S34)でカウントされたお礼表現データの検出数に基づいて、対象通話の顧客の満足度を推定する(S35)。例えば、通話分析サーバ10は、お礼表現データの検出数が所定閾値より大きい場合、満足感有り、かつ、不満感なしと推定する。また、お礼表現データの検出数が所定閾値より小さい場合、通話分析サーバ10は、満足感なしと推定する。通話分析サーバ10は、推定された満足度や不満度の有無、又は、レベル値を示す出力データを生成する。
次に、謝罪表現のみを用いる場合の通話分析方法について説明する。
この場合、(S31)では、通話分析サーバ10は、当該通話データに含まれるオペレータの音声データに対して音声認識処理を行う。これにより、通話分析サーバ10は、オペレータの音声テキストデータ及び発声時間データを取得する。
(S32)では、通話分析サーバ10は、(S30)で取得された通話データに含まれる切断時間データ、及び、(S31)で取得されたオペレータの音声テキストデータに基づいて、対象通話のクロージング区間を検出する。この場合、通話分析サーバ10は、オペレータの音声テキストデータの中で、最前の所定のクロージング文句の発声時間を、クロージング区間の始端時間に決定する。
(S33)では、通話分析サーバ10は、(S31)で取得されたオペレータの音声テキストデータの中から、(S32)で生成されたクロージング区間データで示される時間範囲内の発声時間に対応する音声テキストデータを抽出し、この抽出された音声テキストデータの中から、特定表現データとしての謝罪表現データを検出する。(S34)では、通話分析サーバ10は、謝罪表現データの検出数をカウントする(S34)。
(S35)では、通話分析サーバ10は、(S34)でカウントされた謝罪表現データの検出数に基づいて、対象通話の顧客の不満度を推定する(S35)。通話分析サーバ10は、謝罪表現データの検出数が所定閾値より大きい場合、不満感有りと推定し、それ以外の場合、不満感なしと推定する。
以下、お礼表現及び謝罪表現の両方を特定表現として用いる場合の通話分析方法について説明する。この場合、(S31)では、通話分析サーバ10は、顧客及びオペレータの各音声データに対してそれぞれ音声認識処理を行う。これにより、通話分析サーバ10は、顧客及びオペレータに関する音声テキストデータ及び発声時間データをそれぞれ取得する。
(S33)及び(S34)では、通話分析サーバ10は、上述の2つの場合の(S33)及び(S34)をそれぞれ実行する。これにより、お礼表現データの検出数及び謝罪表現データの検出数がそれぞれカウントされる。
(S35)では、通話分析サーバ10は、(S34)でカウントされたお礼表現データの検出数及び謝罪表現データの検出数に基づいて、対象通話の顧客の満足度及び不満度の少なくとも一方を推定する。
〔第1実施形態の作用及び効果〕
上述したように第1実施形態では、対象通話のクロージング区間の音声に対応するデータから検出される、顧客により発声されるお礼表現データの検出数及びオペレータにより発声される謝罪表現データの検出数の少なくとも一方に基づいて、対象通話の顧客の満足度及び不満度の少なくとも一方が推定される。本実施形態によれば、クロージング区間のみからお礼表現や謝罪表現を検出しているため、これら特定表現は顧客の満足感または不満感を反映している可能性が高く、かつ、クロージング区間以外で誤認識された特定表現の悪影響を受けなくなるため、顧客の満足度または不満度を高精度に推定することができる。
更に、本実施形態によれば、顧客及びオペレータのいずれか一方のみの音声テキストデータがあれば、上述の実施形態で述べたように、高精度に、顧客の満足度又は不満度を推定することができる。従って、本実施形態によれば、顧客及びオペレータの両方の音声データに対して音声認識処理を行う形態に比べて、音声認識処理の負荷を軽減することもできる。
また、第1実施形態では、顧客により発声されるお礼表現データの検出数及びオペレータにより発声される謝罪表現データの検出数の両方に基づいて、対象通話の顧客の満足度及び不満度の少なくとも一方を推定することもできる。このようにすれば、顧客の満足度及び不満度と強い相関を持つ、顧客によるお礼表現及びオペレータによる謝罪表現の両方が加味されるため、顧客の満足度又は不満度の推定精度を更に向上させることができる。
[第2実施形態]
第2実施形態では、お礼表現及び謝罪表現を認識し易いように重み付けされた音声認識パラメータを用いて、クロージング区間の音声データに対する音声認識処理が行われる。以下、第2実施形態におけるコンタクトセンタシステム1について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
〔処理構成〕
図4は、第2実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第2実施形態における通話分析サーバ10は、第1実施形態の構成に加えて、音声認識部41を更に有する。音声認識部41は、他の処理部と同様に、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。
音声認識部21は、通話データに含まれるオペレータの音声データに対して、基準音声認識パラメータLM−1を用いて、音声認識処理を行う。この音声認識処理で取得される音声テキストデータは、クロージング検出部23のみにより利用されるため、音声認識処理は、オペレータの音声データのみに対して行われればよい。なお、音声認識部21は、オペレータ及び顧客の両方の音声データに対して音声認識処理を行うようにしてもよい。音声認識部21は、コンタクトセンタにおける通話全般用に予め学習された基準音声認識パラメータLM−1を予め保持する。
音声認識部41は、音声認識部21により用いられる基準音声認識パラメータLM−1が、表現検出部26で検出される特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータ(以降、加重音声認識パラメータと表記)LM−2を用いて、対象通話のクロージング区間の音声データに対して音声認識処理を行う。図4では、音声認識部21と音声認識部41とが区別されて示されるが、両者は1つの処理部として実現され、用いられる音声認識パラメータが切り替えられるようにしてもよい。
加重音声認識パラメータLM−2は、例えば、基準音声認識パラメータLM−1に基づいて所定手法により算出され、予め、音声認識部41により保持される。下記式は、音声認識パラメータとしてN−gram言語モデルが利用される場合における、加重音声認識パラメータLM−2の算出例を示す図である。
Figure 0006365304
上記式の左辺Pnew(w|wi−n+1 i−1)は、加重音声認識パラメータLM−2に相当するN−gram言語モデルを示し、(i−n+1)番目から(i−1)番目までの単語列wi−n+1 i−1の条件下におけるi番目の単語wの出現確率を示す。上記式の右辺のPold(w|wi−n+1 i−1)は、基準音声認識パラメータLM−1に相当するN−gram言語モデルを示す。上記式の右辺のPnew(w)は、お礼表現及び謝罪表現の出現確率を大きくしたユニグラム言語モデルであり、上記式の右辺のPold(w)は、基準音声認識パラメータLM−1に相当するユニグラム言語モデルである。上記式によれば、コンタクトセンタにおける通話全般用に予め学習されたN−gram言語モデルが、お礼表現及び謝罪表現の出現確率が大きくなるように、(Pnew(w)/Pold(w))で重み付けされたN−gram言語モデルが、加重音声認識パラメータLM−2として算出される。
音声認識部41は、クロージング検出部23により生成されるクロージング区間データにより示される時間範囲内の音声データに対してのみ音声認識処理を行う。また、音声認識部41は、表現検出部26の処理内容に応じて、顧客及びオペレータの両方の音声データを音声認識処理の対象としてもよいし、顧客及びオペレータのいずれか一方の音声データのみを音声認識処理の対象としてもよい。
表現検出部26は、音声認識部41により取得された音声テキストデータの中から、特定表現テーブル25に保持されるお礼表現データ及び謝罪表現データの少なくとも一方を検出する。
〔動作例〕
以下、第2実施形態における通話分析方法について図5を用いて説明する。図5は、第2実施形態における通話分析サーバ10の動作例を示すフローチャートである。図5では、図3と同じ工程については、図3と同じ符号が付されている。
通話分析サーバ10は、(S30)で取得された通話データに含まれる音声データの中の、(S32)で生成されたクロージング区間データで示される時間範囲の音声データに対して、加重音声認識パラメータLM−2を用いた音声認識を行う(S51)。
通話分析サーバ10は、(S51)で取得された音声テキストデータの中から、特定表現データとしてのお礼表現データ及び謝罪表現データの少なくとも一方を検出する(S33)。
〔第2実施形態の作用及び効果〕
上述のように、第2実施形態では、お礼表現及び謝罪表現を認識し易いように重み付けされた加重音声認識パラメータを用いて、クロージング区間の音声データに対する音声認識処理が行われる。そして、この音声認識処理で取得される音声テキストデータから、お礼表現データ及び謝罪表現データの少なくとも一方が検出され、この検出結果に基づいて対象通話の顧客の満足度又は不満度が推定される。
通話の終了過程では、お礼表現及び謝罪表現が発声されている可能性が、他の区間よりも高い。これにより、クロージング区間の音声データに対して行われる音声認識処理では、お礼表現及び謝罪表現を認識し易いように重み付けされた加重音声認識パラメータが用いられる。従って、第2実施形態によれば、クロージング区間の音声データから確実にお礼表現データ及び謝罪表現データを検出することができる。
一方、このような加重音声認識パラメータを用いた音声認識処理が、クロージング区間以外の区間の音声データに対して行われた場合、お礼表現及び謝罪表現の認識誤り率が増加する可能性が高まり、ひいては、顧客の満足度又は不満度の推定精度が低下する可能性がある。これに対して、第2実施形態では、上述のように、加重音声認識パラメータを用いた音声認識処理を、お礼表現及び謝罪表現の出現確率の高いクロージング区間の音声データに絞って行っているため、そのような推定精度の低下を避けることができる。
第2実施形態では、このようにお礼表現及び謝罪表現の検出率を上げているため、それでもお礼表現が検出されなかった場合には、その検出結果に応じた顧客の満足感なしとの推定は、極めて高い精度(純度)を示すことになる。よって、第2実施形態によれば、お礼表現の検出数が0の場合に満足感なしと推定することで、その推定精度が非常に高いことを期待できる。また、第2実施形態においてはお礼表現を認識し易いように重み付けした言語モデルを用いているため、お礼表現の検出数が0の場合、顧客が全くお礼を述べなかった可能性が特に高いため、その通話に関し不満有りとの推定をすることも可能である。
[第1変形例]
以下、第1実施形態における通話分析サーバ10の変形例を第1変形例として説明する。図6は、第1変形例における通話分析サーバ10の処理構成例を概念的に示す図である。第1変形例では、クロージング検出部23は、通話データ取得部20により取得された通話データに含まれる音声データ及び切断時間データの少なくとも一方を用いてクロージング区間を検出する。
クロージング検出部23は、切断時間データが示す通話切断時間をクロージング区間の終端時間に設定し、その通話切断時間から所定時間幅をクロージング区間の始端時間と決定してもよい。また、クロージング検出部23は、各クロージング文句の音声データから得られる各音声信号波形を保持し、当該各音声信号波形と通話データに含まれる音声データの波形とをそれぞれ照合することにより、クロージング文句の発声時間を取得するようにしてもよい。
第1変形例では、音声認識部21は、対象通話のクロージング区間の音声データに対して音声認識処理を行えばよい。
第1変形例における通話分析方法では、図3に示される工程(S31)が、工程(S32)の後で工程(S33)の前に実行されればよい。
[第2変形例]
以下、第2実施形態における通話分析サーバ10の変形例を第2変形例として説明する。図7は、第2変形例における通話分析サーバ10の処理構成例を概念的に示す図である。第2変形例では、通話分析サーバ10は、音声認識部21を持たなくてもよい。クロージング検出部23は、通話データ取得部20により取得された通話データに含まれる音声データ及び切断時間データの少なくとも一方を用いてクロージング区間を検出する。第2変形例におけるクロージング検出部23の処理内容は、第1変形例と同様でよいため、ここでは説明を省略する。
第2変形例における通話分析方法では、図5に示される工程(S31)が省かれる。第1変形例および第2変形例によれば、クロージング検出部によって検出された区間のみに音声認識を適用するため、顧客の満足度や不満度の推定に要する計算時間が少なくて済むという利点がある。
[その他の変形例]
上述の各実施形態及び各変形例では、お礼表現データの検出数及び謝罪表現データの検出数により顧客の満足度又は不満度が推定された。しかしながら、顧客の満足度又は不満度は、検出数以外から推定されるようにしてもよい。例えば、特定表現テーブル25において、お礼表現データ毎に満足度ポイントを、謝罪表現毎に不満度ポイントをそれぞれ予め付与しておき、検出されたお礼表現データの満足度ポイントの合計値、及び、検出された謝罪表現データの不満度ポイントの合計値から、顧客の満足度レベル値及び不満度レベル値が推定されるようにしてもよい。
上述の各実施形態及び各変形例は、コンタクトセンタシステム1を例示するため、基準音声認識パラメータが、コンタクトセンタにおける通話全般用に適合(学習)されている例が示された。基準音声認識パラメータは、扱われる通話の形態に適合されればよい。例えば、通話端末による一般的な通話が扱われる場合には、そのような一般的な通話用に適合された基準音声認識パラメータが利用されればよい。
上述の各実施形態及び各変形例では、通話データには切断時間データが含まれ、その切断時間データが各オペレータ電話機6や交換機5等により生成される例が示されたが、切断時間データは、顧客の音声データから切断音を検出することにより、生成されるようにしてもよい。この場合、切断時間データは、ファイルサーバ9が生成してもよいし、通話分析サーバ10が生成してもよい。
また、上述の通話分析サーバ10は、複数のコンピュータとして実現されてもよい。この場合、例えば、通話分析サーバ10は、表現検出部26及び推定部27のみを有し、他のコンピュータが他の処理部を有するように構成される。更に、クロージング検出部23は、クロージング区間データを、入力画面等に基づいて入力装置をユーザが操作することにより取得してもよいし、可搬型記録媒体、他のコンピュータ等から入出力I/F13を経由して取得してもよい。
[他の実施形態]
上述の各実施形態及び各変形例では、通話データが扱われたが、上述の会話分析装置及び会話分析方法は、通話以外の会話データを扱う装置やシステムに適用されてもよい。この場合、例えば、分析対象となる会話を録音する録音装置がその会話が行われる場所(会議室、銀行の窓口、店舗のレジなど)に設置される。また、会話データが複数の会話参加者の声が混合された状態で録音される場合には、その混合状態から所定の音声処理により会話参加者毎の音声データに分離される。
また、上述の各実施形態及び各変形例では、会話の終了時点を示すデータとして通話の切断時間データが用いられたが、通話データ以外の会話データが扱われる形態では、会話の終了を示す事象が自動又は手動で検出され、この検出時点が会話の終了時間データとして扱われるようにすればよい。自動検出では、会話参加者全員の発声の終了が検出されてもよいし、会話参加者の解散を示す人の動きがセンサ等で検出されてもよい。また、手動検出では、会話参加者による会話終了を通知するための入力操作が検出されてもよい。
また、通話データ以外の会話データが扱われる形態では、クロージング検出部23は、会話データに含まれる会話終了時間データと、音声認識部21により取得された会話参加者の音声テキストデータ及びその発声時間データとに基づいて、対象会話のクロージング区間を検出すればよい。この場合、クロージング区間の幅を決めるための所定発話数及び所定時間は、銀行の窓口で行われる会話、店舗のレジで行われる会話、施設のインフォメーションセンタで行われる会話などのようなその会話種に応じて決められる。また、所定のクロージング文句についても同様に、会話種に応じてそれぞれ決められる。
なお、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、本実施形態で実行される工程の実行順序は、その記載の順番に制限されない。本実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び各変形例は、内容が相反しない範囲で組み合わせることができる。
上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。
(付記1)
第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第1会話参加者により発声されたお礼表現データ及び該第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、
前記特定表現データの検出結果に応じて、前記会話における前記第1会話参加者の満足度又は不満度を推定する推定部と、
を備える会話分析装置。
(付記2)
前記表現検出部は、
前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う音声認識部、
を含み、
前記音声認識部の前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する
付記1に記載の会話分析装置。
(付記3)
前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データおよび前記謝罪表現データの少なくとも一方の検出数をカウントし、
前記推定部は、前記お礼表現データの検出数または前記謝罪表現データの検出数に基づいて、前記会話における前記第1会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記1又は2に記載の会話分析装置。
(付記4)
前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントし、
前記推定部は、前記お礼表現データの検出数及び前記謝罪表現データの検出数に基づいて、前記会話における前記第1会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記1又は2に記載の会話分析装置。
(付記5)
少なくとも1つのコンピュータにより実行される会話分析方法において、
第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第1会話参加者により発声されたお礼表現データ及び該第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、
前記特定表現データの検出結果に応じて、前記会話における前記第1会話参加者の満足度又は不満度を推定する、
ことを含む会話分析方法。
(付記6)
前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う、
ことを更に含み、
前記特定表現データの検出は、前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する、
付記5に記載の会話分析方法。
(付記7)
前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データおよび前記謝罪表現データの少なくとも一方の検出数をカウントする、
ことを更に含み、
前記推定は、前記お礼表現データの検出数又は前記謝罪表現データの検出数に基づいて、前記会話における前記第1会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記5又は6に記載の会話分析方法。
(付記8)
前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントする、
ことを更に含み、
前記推定は、前記お礼表現データの検出数及び前記謝罪表現データの検出数に基づいて、前記会話における前記第1会話参加者の満足度及び不満度の少なくとも一方を推定する、
付記5又は6に記載の会話分析方法。
(付記9)
少なくとも1つのコンピュータに、付記5から8のいずれか1つに記載の会話分析方法を実行させるプログラム。
(付記10)付記9に記載のプログラムを記録したコンピュータが読み取り可能な記録媒体。
この出願は、2012年10月31日に出願された日本出願特願2012−240750号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (21)

  1. 第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第1会話参加者により発声されたお礼表現データ及び該第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、
    前記特定表現データの検出結果に応じて、前記会話における前記第1会話参加者の満足度又は不満度を推定する推定部と、
    前記第1会話参加者と前記第2会話参加者の間の通話の通話データを取得する通話データ取得部と、
    前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出するクロージング検出部と、
    を備え
    前記通話データは切断時間データを含み、
    前記クロージング検出部は、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する会話分析装置。
  2. 第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第1会話参加者により発声されたお礼表現データ及び該第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出する表現検出部と、
    前記特定表現データの検出結果に応じて、前記会話における前記第1会話参加者の満足度又は不満度を推定する推定部と、
    前記会話の前記クロージング区間を検出するクロージング検出部と、
    を備え
    前記クロージング検出部は、
    前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか1つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する会話分析装置。
  3. 請求項1又は2に記載の会話分析装置において、
    前記表現検出部は、
    前記第1会話参加者及び前記第2会話参加者の音声データに対して音声認識処理を行い音声テキストデータ及びその発声時間データを取得する音声認識部を備え、
    前記クロージング検出部は、
    前記音声テキストデータ及びその発声時間データに基づいて、前記終端時間から所定数分の発話区間の始端時間を前記クロージング区間の前記始端時間に設定する、会話分析装置。
  4. 請求項3に記載の会話分析装置において、
    前記クロージング検出部は、
    前記第1会話参加者及び前記第2会話参加者のいずれか一方の前記音声テキストデータのみに基づいて、前記クロージング区間の始端時間を設定する会話分析装置。
  5. 請求項3又は4に記載の会話分析装置において、
    前記クロージング検出部は、前記所定数を前記会話の会話種に応じて決める、会話分析装置。
  6. 請求項1又は2に記載の会話分析装置において、
    前記クロージング検出部は、前記終端時間から所定時間遡った時点を前記クロージング区間の前記始端時間に設定する、会話分析装置。
  7. 請求項6に記載の会話分析装置において、
    前記クロージング検出部は、前記所定時間を前記会話の会話種に応じて決める、会話分析装置。
  8. 請求項1から7のいずれか1項に記載の会話分析装置において、
    前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントし、
    前記推定部は、前記お礼表現データの前記検出数前記謝罪表現データの前記検出数より大きい場合には、前記第1会話参加者の満足感有りと推定し、前記謝罪表現データの前記検出数が前記お礼表現データの前記検出数より大きい場合には、前記第1会話参加者の不満足感有りと推定する、会話分析装置。
  9. 請求項1から7のいずれか1項に記載の会話分析装置において、
    前記表現検出部は、前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントし、
    前記推定部は、前記お礼表現データの検出数前記謝罪表現データの検出数の差分値に基づいて、記第1会話参加者の満足度レベル又は不満足度レベルを推定する、会話分析装置。
  10. 請求項1から9いずれかの1項に記載の会話分析装置において、
    前記表現検出部は、
    前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う音声認識部、
    を含み、
    前記音声認識部の前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する、会話分析装置。
  11. 少なくとも1つのコンピュータにより実行される会話分析方法において、
    第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第1会話参加者により発声されたお礼表現データ及び該第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、
    前記特定表現データの検出結果に応じて、前記会話における前記第1会話参加者の満足度又は不満度を推定し、
    前記第1会話参加者と前記第2会話参加者の間の通話の通話データを取得し、
    前記通話データは切断時間データを含み、
    前記通話の前記クロージング区間を前記会話の前記クロージング区間として検出する際、前記切断時間データが示す切断時間を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、
    ことを含む会話分析方法。
  12. 少なくとも1つのコンピュータにより実行される会話分析方法において、
    第1会話参加者と第2会話参加者との間の会話のクロージング区間のみの音声に対応するデータから、該第1会話参加者により発声されたお礼表現データ及び該第2会話参加者により発声された謝罪表現データの少なくとも一方を特定表現データとして検出し、
    前記特定表現データの検出結果に応じて、前記会話における前記第1会話参加者の満足度又は不満度を推定し、
    前記会話の前記クロージング区間を検出する際、前記会話の参加者全員の発声の終了、前記会話の参加者の解散を示す人の動き、および、前記会話の参加者による会話終了を通知するための入力操作、の少なくともいずれか1つが検出された時点を前記クロージング区間の終端時間に設定し、前記終端時間から当該クロージング区間の始端時間を設定する、
    ことを含む会話分析方法。
  13. 請求項11又は12に記載の会話分析方法において、
    前記第1会話参加者及び前記第2会話参加者の音声データに対して音声認識処理を行い音声テキストデータ及びその発声時間データを取得し、
    前記音声テキストデータ及びその発声時間データに基づいて、前記終端時間から所定数分の発話区間の始端時間を前記クロージング区間の前記始端時間に設定する、会話分析方法。
  14. 請求項13に記載の会話分析方法において、
    前記第1会話参加者及び前記第2会話参加者のいずれか一方の前記音声テキストデータのみに基づいて、前記クロージング区間の始端時間を設定する会話分析方法。
  15. 請求項13又は14に記載の会話分析方法において、
    前記所定数を前記会話の会話種に応じて決める、会話分析方法。
  16. 請求項11又は12に記載の会話分析方法において、
    前記終端時間から所定時間遡った時点を前記クロージング区間の前記始端時間に設定する、会話分析方法。
  17. 請求項16に記載の会話分析方法において、
    前記所定時間を前記会話の会話種に応じて決める、会話分析方法。
  18. 請求項11から17のいずれか1項に記載の会話分析方法において、
    前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントする、
    ことを更に含み、
    前記推定は、前記お礼表現データの前記検出数が前記謝罪表現データの前記検出数より大きい場合には、前記会話における前記第1会話参加者の満足感有りと推定し、前記謝罪表現データの前記検出数が前記お礼表現データの前記検出数より大きい場合には、前記第1会話参加者の不満足感有りと推定する、会話分析方法。
  19. 請求項11から17のいずれか1項に記載の会話分析方法において、
    前記特定表現データを前記お礼表現データと前記謝罪表現データとに区別可能に保持する特定表現テーブルに基づいて、前記特定表現データを検出することにより、前記お礼表現データの検出数及び前記謝罪表現データの検出数をそれぞれカウントする、
    ことを更に含み、
    前記推定は、前記お礼表現データの検出数前記謝罪表現データの検出数の差分値に基づいて、前記会話における前記第1会話参加者の満足度レベル又は不満足度レベルを推定する、会話分析方法。
  20. 請求項11から19のいずれか1項に記載の会話分析方法において、
    前記会話を含む所定形態の会話の音声認識に適合された基準音声認識パラメータが、前記特定表現データが他の単語データよりも認識され易くなるように重み付けされた音声認識パラメータを用いて、前記会話の前記クロージング区間の音声データに対して音声認識処理を行う、
    ことを更に含み、
    前記特定表現データの検出は、前記音声認識処理により得られる、前記会話の前記クロージング区間の音声テキストデータの中から、前記特定表現データを検出する、会話分析方法。
  21. 少なくとも1つのコンピュータに、請求項11から20のいずれか1項に記載の会話分析方法を実行させるプログラム。
JP2014544379A 2012-10-31 2013-09-19 会話分析装置及び会話分析方法 Active JP6365304B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012240750 2012-10-31
JP2012240750 2012-10-31
PCT/JP2013/075243 WO2014069121A1 (ja) 2012-10-31 2013-09-19 会話分析装置及び会話分析方法

Publications (2)

Publication Number Publication Date
JPWO2014069121A1 JPWO2014069121A1 (ja) 2016-09-08
JP6365304B2 true JP6365304B2 (ja) 2018-08-01

Family

ID=50627037

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014544379A Active JP6365304B2 (ja) 2012-10-31 2013-09-19 会話分析装置及び会話分析方法

Country Status (2)

Country Link
JP (1) JP6365304B2 (ja)
WO (1) WO2014069121A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750674B (zh) * 2015-02-17 2018-12-21 北京京东尚科信息技术有限公司 一种人机会话满意度预测方法及系统
JP6859283B2 (ja) * 2017-11-30 2021-04-14 日本電信電話株式会社 好感度推定装置、好感度推定方法、プログラム
JP7177348B2 (ja) * 2019-02-06 2022-11-24 日本電信電話株式会社 音声認識装置、音声認識方法およびプログラム
WO2023119992A1 (ja) * 2021-12-24 2023-06-29 ソニーグループ株式会社 情報処理装置、および情報処理方法、並びにプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010041507A1 (ja) * 2008-10-10 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 会話における特定状況を抽出するシステムおよび方法
JP4972107B2 (ja) * 2009-01-28 2012-07-11 日本電信電話株式会社 通話状態判定装置、通話状態判定方法、プログラム、記録媒体
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
JP5533219B2 (ja) * 2010-05-11 2014-06-25 セイコーエプソン株式会社 接客データ記録装置
JP5406806B2 (ja) * 2010-08-25 2014-02-05 日本電信電話株式会社 用件区間抽出方法、装置、及びそのプログラム
JP5810946B2 (ja) * 2012-01-31 2015-11-11 富士通株式会社 特定通話検出装置、特定通話検出方法及び特定通話検出用コンピュータプログラム

Also Published As

Publication number Publication date
WO2014069121A1 (ja) 2014-05-08
JPWO2014069121A1 (ja) 2016-09-08

Similar Documents

Publication Publication Date Title
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
WO2014069076A1 (ja) 会話分析装置及び会話分析方法
US9672825B2 (en) Speech analytics system and methodology with accurate statistics
US10083686B2 (en) Analysis object determination device, analysis object determination method and computer-readable medium
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
EP2717258B1 (en) Phrase spotting systems and methods
CN111128223B (zh) 一种基于文本信息的辅助说话人分离方法及相关装置
US9711167B2 (en) System and method for real-time speaker segmentation of audio interactions
JP2017508188A (ja) 適応型音声対話のための方法
JP6213476B2 (ja) 不満会話判定装置及び不満会話判定方法
JP5385677B2 (ja) 対話状態分割装置とその方法、そのプログラムと記録媒体
CN110570853A (zh) 基于语音数据的意图识别方法和装置
JP6365304B2 (ja) 会話分析装置及び会話分析方法
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP7287006B2 (ja) 話者決定装置、話者決定方法、および話者決定装置の制御プログラム
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
WO2014069443A1 (ja) 不満通話判定装置及び不満通話判定方法
WO2014069444A1 (ja) 不満会話判定装置及び不満会話判定方法
JP7370521B2 (ja) 音声分析装置、音声分析方法、オンラインコミュニケーションシステム、およびコンピュータプログラム
CN112151070B (zh) 一种语音检测的方法、装置及电子设备
CN116975242A (zh) 语音播报打断处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160803

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180618

R150 Certificate of patent or registration of utility model

Ref document number: 6365304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150