JP6341092B2 - 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 - Google Patents

表現分類装置、表現分類方法、不満検出装置及び不満検出方法 Download PDF

Info

Publication number
JP6341092B2
JP6341092B2 JP2014544380A JP2014544380A JP6341092B2 JP 6341092 B2 JP6341092 B2 JP 6341092B2 JP 2014544380 A JP2014544380 A JP 2014544380A JP 2014544380 A JP2014544380 A JP 2014544380A JP 6341092 B2 JP6341092 B2 JP 6341092B2
Authority
JP
Japan
Prior art keywords
expression
apology
specific
classification
specific expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014544380A
Other languages
English (en)
Other versions
JPWO2014069122A1 (ja
Inventor
真 寺尾
真 寺尾
祥史 大西
祥史 大西
岡部 浩司
浩司 岡部
真宏 谷
真宏 谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2014069122A1 publication Critical patent/JPWO2014069122A1/ja
Application granted granted Critical
Publication of JP6341092B2 publication Critical patent/JP6341092B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/51Centralised call answering arrangements requiring operator intervention, e.g. call or contact centers for telemarketing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/40Aspects of automatic or semi-automatic exchanges related to call centers
    • H04M2203/401Performance feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/55Aspects of automatic or semi-automatic exchanges related to network data storage and management
    • H04M2203/559Sorting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、会話の分析技術に関する。
会話を分析する技術の一例として、通話データを分析する技術がある。例えば、コールセンタ、コンタクトセンタなどと呼ばれる部署で行われる通話のデータが分析される。以降、このような、商品やサービスに関する問い合わせや苦情や注文といった顧客からの電話に応対する業務を専門的に行う部署をコンタクトセンタと表記する。
コンタクトセンタに寄せられる顧客の声には、顧客ニーズや満足度などが反映されている場合が多く、顧客との通話からそのような顧客の感情やニーズを抽出することは、リピータ顧客を増加させるために企業にとって大変重要である。そこで、通話の音声を分析することで、顧客の感情(怒り、苛立ち、不快感など)等を抽出する各種手法が提案されている。
下記特許文献1には、顧客の興奮(クレーム)の検出性能を向上させるために、オペレータの相槌発話開始時刻と受話開始時刻の差から得られる応答時間をクレーム検出評価値として検出し、クレーム検出評価値が閾値以下であればクレームの応対と判定する手法が提案されている。下記特許文献2には、電話対応によるお客に対するオペレータの受付内容をコンピュータによりモニタリングし、お客の声の大きさの条件、お客が話す言葉にクレーム用語の出現頻度が高いか否かの条件、オペレータの話す言葉に謝罪用語の出現頻度が高いか否かの条件、オペレータが言葉に詰まっているか否かの条件により、クレームかどうかの判断をする手法が提案されている。下記特許文献3には、基本周波数分析、変調周波数分析などにより力み音声を検出する手法が提案されている。
特開2007−286097号公報 特開2008−167226号公報 特開2009−3162号公報
しかしながら、上記各提案手法では、会話に参加する者(以降、会話参加者と表記する)の感情状態を適切に抽出できない可能性がある。上記各提案手法は、会話参加者により発声された特定表現におけるニュアンスを全く考慮していないからである。
例えば、上記特許文献1及び2の提案手法は、オペレータの相槌や謝罪用語、顧客のクレーム用語を検出し、これら言葉表現から、顧客のクレーム状況を推定している。ところが、相槌表現、謝罪表現及びクレーム表現は、全く同じ言葉であっても、複数のニュアンスで使用される場合がある。例えば、「申し訳ございません」という謝罪表現は、顧客に不満を感じさせたことに対する謝罪の念が込められて発声される場合の他、「申し訳ございませんが、少々お待ちください」というように形式的に発声される場合もある。また、「はい」、「ええ」といった相槌表現については、不満を表す場合、謝罪を表す場合など、複数の全く異なる意味合いで使われる場合がある。上記特許文献3の提案手法は、個々の表現自体に着目していない。
本発明は、このような事情に鑑みてなされたものであり、会話内で発声された特定表現を使用場面に対応するニュアンスで適切に分類する技術を提供する。ここで、特定表現とは、複数のニュアンスで使用され得る表現(言葉)の少なくとも一部を意味し、ニュアンスとは、その特定表現に込められた感情状態や意味合い、その特定表現の使用意図などの微細な差違を意味する。
本発明の各態様では、上述した課題を解決するために、それぞれ以下の構成を採用する。
第1の態様は、表現分類装置に関する。第1態様に係る表現分類装置は、会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出する区間検出部と、区間検出部により検出される特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出する特徴抽出部と、特徴抽出部により抽出される特徴情報を用いて、上記特定表現区間に含まれる特定表現を、上記会話での使用場面に対応するニュアンスで分類する分類部と、を有する。
第2の態様は、少なくとも1つのコンピュータにより実行される表現分類方法に関する。第2態様に係る表現分類方法は、会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出し、検出された特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出し、抽出される特徴情報を用いて、上記特定表現区間に含まれる特定表現を、上記会話での使用場面に対応するニュアンスで分類する、ことを含む。
本発明の他の態様としては、上記第1態様に係る表現分類装置と、この表現分類装置の分類部により、謝罪表現が深謝に分類された、又は、相槌表現が不満感情又は謝罪感情を含むと分類された場合に、謝罪表現又は相槌表現を含む会話を不満会話と判定する不満判定部と、を有する不満検出装置であってもよい。また、少なくとも1つのコンピュータが、上記第2態様に係る表現分類方法を実行し、更に、謝罪表現が深謝に分類された、又は、相槌表現が不満感情又は謝罪感情を含むと分類された場合に、謝罪表現又は相槌表現を含む会話を不満会話と判定することを含む、不満検出方法であってもよい。更に、本発明の他の態様として、上記第1態様における各構成を少なくとも1つのコンピュータに実現させるプログラムであってもよいし、このようなプログラムを記録したコンピュータが読み取り可能な記録媒体であってもよい。この記録媒体は、非一時的な有形の媒体を含む。
上記各態様によれば、会話内で発声された特定表現を使用場面に対応するニュアンスで適切に分類する技術を提供することができる。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態におけるコンタクトセンタシステムの構成例を示す概念図である。 第1実施形態における通話分析サーバの処理構成例を概念的に示す図である。 発話タイミング特徴の例を概念的に示す図である。 発話タイミング特徴の例を概念的に示す図である。 第1実施形態における通話分析サーバの動作例を示すフローチャートである。 第2実施形態における通話分析サーバの処理構成例を概念的に示す図である。 第2実施形態における通話分析サーバの動作例を示すフローチャートである。
以下、本発明の実施の形態について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。
本実施形態に係る表現分類装置は、会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出する区間検出部と、区間検出部により検出される特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出する特徴抽出部と、特徴抽出部により抽出される特徴情報を用いて、上記特定表現区間に含まれる特定表現を、上記会話での使用場面に対応するニュアンスで分類する分類部と、を有する。
本実施形態に係る表現分類方法は、少なくとも1つのコンピュータにより実行され、会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出し、検出された特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出し、抽出された特徴情報を用いて、上記特定表現区間に含まれる特定表現を、上記会話での使用場面に対応するニュアンスで分類する、ことを含む。
ここで、会話とは、2以上の話者が、言語の発声などによる意思表示によって、話をすることを意味する。会話には、銀行の窓口や店舗のレジ等のように、会話参加者が直接、話をする形態もあれば、通話機を用いた通話やテレビ会議等のように、離れた位置にいる会話参加者同士が話をする形態もあり得る。本実施形態は、対象会話の内容や形態を制限しない。
本実施形態では、会話の音声に対応するデータから特定表現区間が検出される。音声に対応するデータには、音声データ、音声データに対する処理により得られる音声以外のデータなどが含まれる。特定表現区間に含まれる特定表現は、上述したとおり、複数のニュアンスで使用され得る表現(言葉)の少なくとも一部を意味し、そのような言葉には、例えば、謝罪表現、お礼表現、相槌表現、感動詞など様々な言葉が存在する。例えば、「何を言う」というフレーズも、その特定表現に含まれ、その言い回しによって、怒り、恥じらい、呆れなど、複数のニュアンスで使い分けられる。また、1つの単語でも複数のニュアンスで使い分けられるものもある。また、特定表現は、このような言葉表現の少なくとも一部であるため、単語の「ありがとう」、単語列の「ありがとう」、「ござい」及び「ます」、又は、単語集合の「本当」及び「ありがとう」であってもよい。
本実施形態では、当該特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報が抽出される。韻律特徴は、会話内の特定表現区間の音声に関する特徴情報であり、韻律情報として、例えば、基本周波数や音声パワーや話速などが利用される。発話タイミング特徴とは、会話内におけるその特定表現区間の発声タイミングに関する情報である。発話タイミング特徴には、例えば、その特定表現区間の直前の、他の会話参加者の発話から、その特定表現区間までの経過時間が利用される。
同じ「申し訳ありません」という表現であっても、通話相手の不満に対して謝罪の念を込めて発声される場合と、形式的に発声される場合とでは、声の韻律やその変化具合、さらには発話のタイミング等が異なる。例えば、通話相手の不満に対して謝罪している場合、声の高さの変化が乏しくなったり(韻律特徴)、顧客の発話直後ですぐに謝罪表現を述べたり(発話タイミング特徴)といった現象が観察される。
そこで、本実施形態では、韻律特徴及び発話タイミング特徴の少なくとも一方を特徴情報として用いることにより、当該特定表現区間に含まれる特定表現が、会話における使用場面に対応するニュアンスで分類される。特徴情報を素性とした特定表現の分類は、分類器と呼ばれる様々な統計的分類手法により実現可能である。この手法の例については、後の詳細実施形態により詳述するが、線形識別モデル、ロジスティック回帰モデル、SVM(Support Vector Machine)等の周知の統計的分類手法により実現することもできる。
このように、本実施形態では、会話内に含まれる複数の表現の中でも、複数のニュアンスで使用され得る特定表現に対象を絞り、更に、分類に用いる素性をその特定表現を含む特定表現区間から得られる特徴情報に絞っているため、当該分類精度を向上させることができる。従って、本実施形態によれば、会話内で発声された特定表現を使用場面に対応するニュアンスで適切に分類することができる。更に、本実施形態によれば、特定表現のニュアンスに基づく分類結果を用いることにより、その特定表現に込められた感情状態や意味合い、その特定表現の使用意図を考慮することができるため、対象会話における会話参加者の感情状態を高精度に推定することができる。
以下、上述の実施形態について更に詳細を説明する。以下には、詳細実施形態として、第1実施形態及び第2実施形態を例示する。以下の各実施形態は、上述の表現分類装置及び表現分類方法をコンタクトセンタシステムに適用した場合の例である。なお、上述の表現分類装置及び表現分類方法は、通話データを扱うコンタクトセンタシステムへの適用に限定されるものではなく、会話データを扱う様々な態様に適用可能である。例えば、それらは、コンタクトセンタ以外の社内の通話管理システムや、個人が所有する、PC(Personal Computer)、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末などに適用することも可能である。更に、会話データとしては、例えば、銀行の窓口や店舗のレジにおける、担当者と顧客の会話のデータなどが例示できる。
以下、各実施形態で扱われる通話とは、或る通話者と或る通話者とがそれぞれ持つ通話端末間が呼接続されてから呼切断されるまでの間の呼を意味する。また、通話の音声中、一人の通話者が声を発している連続領域を発話又は発話区間と表記する。例えば、発話区間は、通話者の音声波形において所定値以上の振幅が継続している区間として検出される。通常の通話は、各通話者の発話区間、無声区間などから形成される。
[第1実施形態]
〔システム構成〕
図1は、第1実施形態におけるコンタクトセンタシステム1の構成例を示す概念図である。第1実施形態におけるコンタクトセンタシステム1は、交換機(PBX)5、複数のオペレータ電話機6、複数のオペレータ端末7、ファイルサーバ9、通話分析サーバ10等を有する。通話分析サーバ10は、上述の実施形態における表現分類装置に相当する構成を含む。
交換機5は、通信網2を介して、顧客により利用される、PC、固定電話機、携帯電話機、タブレット端末、スマートフォン等の通話端末(顧客電話機)3と通信可能に接続されている。通信網2は、インターネットやPSTN(Public Switched Telephone Network)等のような公衆網、無線通信ネットワーク等である。更に、交換機5は、コンタクトセンタの各オペレータが用いる各オペレータ電話機6とそれぞれ接続される。交換機5は、顧客からの呼を受け、その呼に応じたオペレータのオペレータ電話機6にその呼を接続する。
各オペレータは、オペレータ端末7をそれぞれ用いる。各オペレータ端末7は、コンタクトセンタシステム1内の通信網8(LAN(Local Area Network)等)に接続される、PC等のような汎用コンピュータである。例えば、各オペレータ端末7は、各オペレータと顧客との間の通話における顧客の音声データ及びオペレータの音声データをそれぞれ録音する。顧客の音声データとオペレータの音声データとは、混合状態から所定の音声処理により分離されて生成されてもよい。なお、本実施形態は、このような音声データの録音手法及び録音主体を限定しない。各音声データの生成は、オペレータ端末7以外の他の装置(図示せず)により行われてもよい。
ファイルサーバ9は、一般的なサーバコンピュータにより実現される。ファイルサーバ9は、顧客とオペレータとの間の各通話の通話データを、各通話の識別情報と共にそれぞれ格納する。各通話データには、顧客の音声データとオペレータの音声データとのペア、及び、その通話が切断された時間を示す切断時間データがそれぞれ含まれる。ファイルサーバ9は、顧客及びオペレータの各音声を録音する他の装置(各オペレータ端末7等)から、顧客の音声データとオペレータの音声データとを取得する。
通話分析サーバ10は、ファイルサーバ9に格納される各通話データをそれぞれ分析する。通話者の感情状態をそれぞれ推定する。
通話分析サーバ10は、図1に示されるように、ハードウェア構成として、CPU(Central Processing Unit)11、メモリ12、入出力インタフェース(I/F)13、通信装置14等を有する。メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク、可搬型記憶媒体等である。入出力I/F13は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置、ディスプレイ装置やプリンタ等のようなユーザに情報を提供する装置などと接続される。通信装置14は、通信網8を介して、ファイルサーバ9などと通信を行う。なお、通話分析サーバ10のハードウェア構成は制限されない。
〔処理構成〕
図2は、第1実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第1実施形態における通話分析サーバ10は、通話データ取得部20、音声認識部21、区間検出部23、特定表現テーブル24、特徴抽出部26、分類部27等を有する。これら各処理部は、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。また、当該プログラムは、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F13を介してインストールされ、メモリ12に格納されてもよい。
通話データ取得部20は、ファイルサーバ9から、分析対象となる通話の通話データをその通話の識別情報と共に取得する。当該通話データは、通話分析サーバ10とファイルサーバ9との間の通信により取得されてもよいし、可搬型記録媒体を介して取得されてもよい。
音声認識部21は、通話データに含まれるオペレータ及び顧客の各音声データに対して音声認識処理をそれぞれ行う。これにより、音声認識部21は、当該通話データから、オペレータ音声及び顧客音声に対応する各音声テキストデータ及び各発声時間データをそれぞれ取得する。ここで、音声テキストデータとは、顧客又はオペレータにより発された声がテキスト化された文字データである。各音声テキストデータは、単語(品詞)ごとにそれぞれ区分けされている。各発声時間データには、各音声テキストデータの単語毎の発声時間データが含まれる。
音声認識部21は、オペレータ及び顧客の各音声データから、オペレータ及び顧客の各発話区間をそれぞれ検出し、各発話区間の始端時間及び終端時間を取得するようにしてもよい。この場合、音声認識部21は、各音声テキストデータにおける、各発話区間に相当する単語列ごとに発声時間を決定し、各発話区間に相当する単語列ごとの発声時間を上記発声時間データとするようにしてもよい。なお、本実施形態では、音声認識部21の音声認識処理には、周知な手法が利用されればよく、その音声認識処理自体及びその音声認識処理で利用される音声認識パラメータを制限しない。また、本実施形態では、発話区間の検出手法についても制限しない。
音声認識部21は、分類部27での分類対象となる特定表現に応じて、顧客及びオペレータのいずれか一方の音声データに対してのみ音声認識処理を行うようにしてもよい。例えば、オペレータの謝罪表現を分類対象とする場合には、音声認識部21は、オペレータの音声データに対してのみ音声認識処理を行うようにすればよい。
特定表現テーブル24は、分類部27での分類対象となる特定表現を保持する。具体的には、特定表現テーブル24は、同じ概念を持つ少なくとも1つの特定表現を保持する。ここで、同じ概念とは、各特定表現が持つ概略的意味合いが同じであることを意味する。例えば、特定表現テーブル24は、「申し訳」、「すみません」、「ごめんなさい」といった謝罪の意味を持つ特定表現を保持する。以降、このように同じ概念を持つ特定表現の集合を特定表現セットと表記する場合もある。但し、特定表現セットは、1つの特定表現のみで構成される場合もある。
さらに、特定表現テーブル24は、異なる概念を持つ複数の特定表現セットを、それらを区別可能な状態で保持する場合もある。例えば、既に述べた謝罪を示す特定表現セットに加えて、お礼を示す特定表現セット、相槌を示す特定表現セット、怒りなどの感情や感動を示す特定表現セットなどを保持してもよい。この場合、各特定表現は、謝罪表現、お礼表現、相槌表現、感動表現といった単位で、それぞれが区別可能な状態で保持される。お礼を示す特定表現セットは、例えば、「ありがとう」という特定表現を含む。相槌表現を示す特定表現セットは、「ええ」、「はい」といった特定表現を含む。
区間検出部23は、音声認識部21により得られる音声テキストデータの中から、特定表現テーブル24に保持される特定表現を検出し、この検出された特定表現を含む特定表現区間を検出する。例えば、特定表現が「申し訳」であり、発話区間が「申し訳ございません」である場合には、その発話区間内の「申し訳」に相当する区間が特定表現区間として検出される。但し、検出される特定表現区間は、発話区間と一致する場合もあり得る。区間検出部23は、この検出により、特定表現区間の始端時間及び終端時間を得る。
特徴抽出部26は、区間検出部23により検出される特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出する。韻律特徴は、特定表現区間の音声データから抽出される。韻律特徴としては、例えば、基本周波数(F0)、パワー、話速等が利用される。具体的には、所定時間幅のフレーム毎に、基本周波数やパワーやそれらの変化量(Δ)が計算され、特定表現区間内における、それらの最大値、最小値、平均値、分散値、レンジ等が韻律特徴として算出される。また、特定表現区間内における各音素の継続時間長、特定表現区間全体の継続時間長等が、話速に関する韻律特徴として算出される。なお、音声データからこのような韻律特徴を抽出する手法は、周知の手法が利用されればよい。
特徴抽出部26は、特定表現区間の直前の、他の通話者の発話の終了時点から、その特定表現区間の開始時点までの経過時間を発話タイミング特徴として抽出する。当該経過時間は、例えば、音声認識部21により得られる発声時間データを用いて算出される。
図3A及び図3Bは、発話タイミング特徴の例を概念的に示す図である。図3Aに示されるように、顧客の不満に対して謝罪の念を込めてオペレータにより発声される謝罪表現「申し訳ございません」は、その顧客が不満を表出させた発話から直ちに発声される傾向にある。図3Aの場合、短い時間を示す発話タイミング特徴が抽出される。一方、図3Bに示されるように、形式的にオペレータにより発声された謝罪表現「申し訳ありません」は、その前の顧客の発話から或る程度の時間間隔を持って発声される傾向にある。図3Bの場合、長い時間を示す発話タイミング特徴が抽出される。このように、発話タイミング特徴によれば、形式的な意味合いを持つ特定表現と、不満に対する謝罪の意味合いを持つ特定表現とを区別することができる。
分類部27は、特徴抽出部26により抽出される特徴情報を用いて、上記特定表現区間に含まれる特定表現を、対象通話での使用場面に対応するニュアンスで分類する。具体的には、分類部27は、特定表現セットに対して設けられる分類器に特徴抽出部26により抽出された特徴情報を素性として与えることにより、その特定表現を分類する。例えば、特定表現テーブル24が謝罪を示す特定表現セットを保持し、区間検出部23が謝罪表現を含む特定表現区間を検出する場合は、分類部27は、謝罪表現を分類する分類器を用いる。この場合、分類器群28は1つの分類器から構成される。
さらに、特定表現テーブル24が異なる概念を持つ複数の特定表現セットを保持する場合は、分類部27は、特定表現セット毎に設けられる分類器群28の中から、区間検出部23により検出された特定表現区間に含まれる特定表現に対応する分類器を選択し、選択された分類器に特徴抽出部26により抽出された特徴情報を素性として与えることにより、その特定表現を分類する。例えば、区間検出部23が相槌表現を検出した場合、分類部27は、分類器群28の中から相槌表現を分類する分類器を選択して、相槌表現を分類する。
本実施形態では、分類部27は、分類器群28を持つ。分類器群28は、特定表現セット毎に設けられた分類器の集合である。即ち、各分類器は、対応する特定表現セットにそれぞれ特化する。但し、上述のように、分類器群28は、1つの分類器で構成される場合もある。各分類器は、CPU11によりメモリ12に格納されるプログラムが実行されることにより、関数などのようなソフトウェア要素としてそれぞれ実現される。本実施形態は、各分類器のアルゴリズム自体を制限しないが、第1実施形態では、特定表現セット毎に機械学習する分類器が例示される。分類器として用いることができるモデルには、例えば、ロジスティック回帰モデルやサポートベクトルマシンなどが挙げられる。
第1実施形態の分類器は、特定表現を含む学習用会話音声を用いて、次のように学習する。各分類器は、学習用会話音声における、その分類器に対応する特定表現の周辺の他の発話から得られるニュアンス、及び、その特定表現の聞こえ方の主観評価により得られるニュアンスの少なくとも一方により、その特定表現を分類する分類情報と、学習用会話音声からその特定表現に関し抽出される特徴情報とを学習データとして用いてそれぞれ学習する。このように、各分類器の学習には、各分類器に対応する特定表現セットに特化した学習データがそれぞれ用いられるため、このように学習した各分類器は、少量のデータで高精度な分類を可能とする。
但し、各分類器の学習は、通話分析サーバ10で行われてもよいし、他の装置で行われてもよい。学習データに用いられる特徴情報は、通話分析サーバ10に当該学習用会話の音声データを与え、音声認識部21、区間検出部23、及び特徴抽出部26が実行されることにより、取得されてもよい。
〈分類器の学習の実施例〉
謝罪表現を示す特定表現セットに対応する分類器は、以降、謝罪表現の分類器と表記される。謝罪表現の分類器は、謝罪表現を、深謝か否かに分類する。ここで、深謝とは、通話相手の不満に対して謝罪の念を込めて発声される謝罪表現を意味する。謝罪表現の分類器の学習には、オペレータの謝罪表現「申し訳ございません」等を含む複数の学習用通話データが準備され、各学習用通話データから、その謝罪表現を含む特定表現区間の特徴情報がそれぞれ抽出される。更に、その謝罪表現の前に顧客の不満が存在するか否かが主観評価(官能評価)又は客観評価(周知の自動評価手法による評価)により判定され、その判定結果を示すデータが分類情報として作成される。そして、当該分類器は、その特徴情報と分類情報とを学習データとして学習する。
分類情報は、その謝罪表現の音声が申し訳なさそうに聞こえるか否かを主観評価(官能評価)により判定し、その判定結果を示すデータで作成されてもよい。更に、分類情報は、謝罪表現の前に顧客の不満が存在するか否かを示すデータ、及び、謝罪表現の音声が申し訳なさそうに聞こえるか否かを示すデータを両方考慮して作成されてもよい。
相槌表現を示す特定表現セットに対応する分類器は、以降、相槌表現の分類器と表記される。相槌表現の分類器は、相槌表現を、不満感情を含むか否か、謝罪感情を含むか否か、及び、不満感情を含むか謝罪感情を含むかそれ以外かのいずれか1つに分類する。相槌表現の分類器の学習には、オペレータ及び顧客の相槌表現「はい」「ええ」等を含む複数の学習用通話データが準備され、各学習用通話データから、その相槌表現を含む特定表現区間の特徴情報がそれぞれ抽出される。更に、オペレータ及び顧客の相槌表現の周辺に顧客の不満が存在するか否かが主観評価(官能評価)又は客観評価(周知の自動評価手法による評価)により判定され、その判定結果を示すデータが分類情報として作成される。そして、当該分類器は、その特徴情報と分類情報とを学習データとして学習する。この場合、顧客の相槌表現は、顧客が不満を持っているか否かのニュアンスで分類され、オペレータの相槌表現は、オペレータが顧客の不満に対して謝罪の念を込めているか否かのニュアンスで分類される。これにより、この分類器の出力(2値)と、その分類器に入力された特徴情報に対応する相槌表現の発声者との関係から、その相槌表現が、不満感情を含むか、謝罪感情を含むか、それ以外かに分類される。
分類情報は、その相槌表現の音声が、不満そうに聞こえるか、申し訳なさそうに聞こえるか、それ以外かを主観評価(官能評価)により判定し、その判定結果を示すデータで作成されてもよい。この分類情報により学習した分類器は、相槌表現を、不満感情を含むか、謝罪感情を含むか、それ以外かに分類することができる。更に、分類情報は、相槌表現の前に顧客の不満が存在するか否かを示すデータ、及び、相槌表現の音声の主観評価により得られるデータを両方考慮して作成されてもよい。
なお、分類部27の出力は必ずしも2値である必要はない。分類器は、分類結果を分類の信頼度を表す連続値として出力しても良い。例えば、分類器としてロジスティック回帰モデルを用いた場合、分類結果は事後確率として得られる。従って、謝罪表現を深謝か否かに分類した結果として、深謝である確率が0.9、深謝ではない(形式的な謝罪表現)である確率が0.1のような連続値が得られる。本実施形態では、このような連続値による出力も謝罪の分類結果と呼ぶ。また、分類器としてサポートベクトルマシンを用いた場合は、識別平面からの距離等を分類結果としてもよい。
分類部27は、各通話に含まれる各特定表現の分類結果をそれぞれ示す出力データを生成し、入出力I/F13を介して表示部や他の出力装置にその判定結果を出力する。例えば、分類部27は、各通話に関し、発話区間と、特定表現区間と、特定表現区間に関する特定表現の分類結果(ニュアンス)とをそれぞれ表す出力データを生成するようにしてもよい。本実施形態は、具体的出力形態を制限しない。
〔動作例〕
以下、第1実施形態における表現分類方法について図4を用いて説明する。図4は、第1実施形態における通話分析サーバ10の動作例を示すフローチャートである。
通話分析サーバ10は、通話データを取得する(S40)。第1実施形態では、通話分析サーバ10は、ファイルサーバ9に格納される複数の通話データの中から、分析対象となる通話データを取得する。
通話分析サーバ10は、(S40)で取得された通話データに含まれる音声データに対して音声認識処理を行う(S41)。これにより、通話分析サーバ10は、顧客及びオペレータの音声テキストデータ及び発声時間データを取得する。音声テキストデータは、単語(品詞)ごとにそれぞれ区分けされている。また、発声時間データには、単語毎又は各発話区間に相当する単語列毎の発声時間データが含まれる。
通話分析サーバ10は、(S41)で取得された音声テキストデータの中から、特定表現テーブル24に保持される特定表現を検出し、この検出された特定表現を含む特定表現区間を検出する(S42)。この検出に伴い、例えば、通話分析サーバ10は、各特定表現区間に関し始端時間及び終端時間をそれぞれ取得する。
通話分析サーバ10は、(S42)で検出された各特定表現区間に関する特徴情報をそれぞれ抽出する(S43)。通話分析サーバ10は、韻律特徴及び発話タイミング特徴の少なくとも一方を当該特徴情報として抽出する。韻律特徴は、特定表現区間に相当する音声データから抽出される。発話タイミング特徴は、例えば、(S41)で取得された音声テキストデータ及び発生時間データに基づいて抽出される。
通話分析サーバ10は、(S42)で検出された全ての特定表現区間について、(S44)及び(S45)をそれぞれ実行する。(S44)では、通話分析サーバ10は、分類器群28の中から、対象の特定表現区間に含まれる特定表現セットに対応する分類器を選択する。(S45)では、通話分析サーバ10は、その分類器に、その対象の特定表現区間から(S43)で抽出された特徴情報を素性として与えることにより、その対象の特定表現区間に含まれる特定表現を分類する。なお、分類器群28が1つの分類器のみで構成される場合は、(S44)は省略できる。
通話分析サーバ10は、全ての特定表現区間について(S44)及び(S45)が実行されると(S46;NO)、各特定表現区間における特定表現の分類結果をそれぞれ示す出力データを生成する(S47)。この出力データは、表示部に表示させるための画面データであってもよいし、印刷装置に印刷させるための印刷データであってもよいし、編集可能なデータファイルであってもよい。
〔第1実施形態の作用及び効果〕
上述したように第1実施形態では、同じ概念を持つ少なくとも1つの特定表現(特定表現セット)に対して分類器が設けられ、その分類器を用いて特定表現が分類される。さらに、複数の概念を扱う場合には、同じ概念を持つ少なくとも1つの特定表現(特定表現セット)毎に分類器がそれぞれ設けられ、そのような分類器群28の中から、対象となる特定表現に対応する分類器が選択され、その特定表現が分類される。従って、第1実施形態によれば、特定表現単位で特化した分類器が用いられるため、全発話や全表現を分類対象とする形態と比べ、少ないデータ(特徴情報)で高精度な分類を実現することができる。
更に、第1実施形態では、各分類器の学習データには、対応する特定表現の周辺の他の発話から得られるニュアンス、及び、対応する特定表現の音声の聞こえ方の主観評価により得られるニュアンスの少なくとも一方により、特定表現を分類する分類情報、及び、その特定表現に関し抽出される特徴情報が用いられる。このような学習データを用いた学習により、使用場面に対応するニュアンスで正確に特定表現を分類する分類器を実現することができる。例えば、謝罪表現の分類器は、謝罪表現を、的確に、深謝かそれ以外(形式的な謝罪など)かに分類することができる。
また、第1実施形態では、相槌表現の分類器は、相槌表現が申し訳なさそうに聞こえるか否か、相槌表現が不満そうに聞こえるか否か、及び、相槌表現周辺に不満が表出しているか否かの少なくとも1つにより、相槌表現を分類する分類情報を用いて学習する。これにより、相槌表現が、不満感情を含むか否か、謝罪感情を含むか否か、及び、不満感情を含むか謝罪感情を含むかそれ以外かのいずれか1つに分類される。このように、第1実施形態によれば、様々な意味合いで利用される相槌表現をそのニュアンスにより的確に分類することができる。
[第2実施形態]
第2実施形態は、第1実施形態における特定表現の分類結果を用いて、対象通話が不満通話か否かを判定する。以下、第2実施形態におけるコンタクトセンタシステム1について、第1実施形態と異なる内容を中心に説明する。以下の説明では、第1実施形態と同様の内容については適宜省略する。
〔処理構成〕
図5は、第2実施形態における通話分析サーバ10の処理構成例を概念的に示す図である。第2実施形態における通話分析サーバ10は、第1実施形態の構成に加えて、不満判定部29を更に有する。不満判定部29は、他の処理部と同様に、例えば、CPU11によりメモリ12に格納されるプログラムが実行されることにより実現される。
不満判定部29は、謝罪表現が深謝に分類された、又は、相槌表現が不満感情又は謝罪感情を含むと分類された場合に、そのような謝罪表現又は相槌表現を含む通話を不満通話と判定する。オペレータが深謝を示す謝罪表現又は謝罪感情を含む相槌表現を発声するのは、その通話で顧客が不満を表したからであり、顧客が不満感情を含む相槌表現を発声するのは、その通話で顧客が不満を感じたからである。
不満判定部29は、特定表現の分類結果が連続値で得られる場合は、検出結果を不満の有無としてではなく、不満の度合いを表す連続値として出力しても良い。
不満判定部29は、各通話データが示す各通話に関する不満通話か否かの判定結果を表す出力データを生成し、入出力I/F13を介して表示部や他の出力装置にその判定結果を出力する。例えば、不満判定部29は、各通話に関し、発話区間と、特定表現区間と、特定表現区間に関する特定表現の分類結果(ニュアンス)と、その通話が不満通話か否かを示すデータとをそれぞれ表す出力データを生成するようにしてもよい。本実施形態は、具体的出力形態を制限しない。
〔動作例〕
以下、第2実施形態における不満検出方法について図6を用いて説明する。図6は、第2実施形態における通話分析サーバ10の動作例を示すフローチャートである。図6では、図4と同じ工程については、図4と同じ符号が付されている。
通話分析サーバ10は、各特定表現区間に関し(S45)で分類された結果に基づいて、(S40)で取得された通話データにより示される通話が不満通話か否かを判定する(S61)。具体的には、通話分析サーバ10は、上述したように、謝罪表現が深謝に分類された、又は、相槌表現が不満感情又は謝罪感情を含むと分類された場合に、そのような謝罪表現又は相槌表現を含む通話を不満通話と判定する。
通話分析サーバ10は、(S40)で取得された通話データにより示される通話が不満通話と判定した結果を示す出力データを生成する(S62)。なお、上述したように、分類器群28が1つの分類器のみで構成される場合は、(S44)は省略できる。
〔第2実施形態の作用及び効果〕
上述のように、第2実施形態では、第1実施形態における特定表現のニュアンスによる分類の結果に基づいて、対象通話が不満通話か否かが判定される。従って、第2実施形態によれば、深謝と形式的謝罪のように複数の意味合いで使われる謝罪表現が含まれている通話であっても、その通話データから表現のニュアンスを汲み取ることにより、通話者の感情状態(不満状態)を高精度に抽出することができる。更に、第2実施形態によれば、それ自体特別な意味合いを持たない相槌表現についても、不満感情が含まれるか、謝罪感情が含まれるかといったニュアンスを汲み取ることができるため、その相槌表現から不満通話か否かを的確に判定することができる。
[変形例]
上述の通話分析サーバ10は、複数のコンピュータとして実現されてもよい。この場合、例えば、通話分析サーバ10は、分類部27及び不満判定部29のみを有し、他のコンピュータが他の処理部を有するように構成される。また、上述の通話分析サーバ10は、分類器群28を有していたが、分類器群28は、他のコンピュータ上で実現されてもよい。この場合、分類部27は、他のコンピュータ上で実現される分類器群28に特徴情報を送り、分類器群28の分類結果を取得するようにすればよい。
また、図4及び図6では、(S43)で全ての特定表現区間から特徴情報が抽出された後、以降の工程が実行されているように示されるが、特定表現区間毎に、(S43)、(S44)及び(S45)が実行されるようにしてもよい。
[他の実施形態]
上述の各実施形態及び各変形例では、通話データが扱われたが、上述の表現分類装置及び表現分類方法は、通話以外の会話データを扱う装置やシステムに適用されてもよい。この場合、例えば、分析対象となる会話を録音する録音装置がその会話が行われる場所(会議室、銀行の窓口、店舗のレジなど)に設置される。また、会話データが複数の会話参加者の声が混合された状態で録音される場合には、その混合状態から所定の音声処理により会話参加者毎の音声データに分離される。
上記の各実施形態及び各変形例の一部又は全部は、以下の付記のようにも特定され得る。但し、各実施形態及び各変形例が以下の記載に限定されるものではない。
(付記1)
会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出する区間検出部と、
前記区間検出部により検出される特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出する特徴抽出部と、
前記特徴抽出部により抽出される特徴情報を用いて、前記特定表現区間に含まれる特定表現を、前記会話での使用場面に対応するニュアンスで分類する分類部と、
を備える表現分類装置。
(付記2)
前記分類部は、同じ概念を持つ複数の特定表現を前記ニュアンスで分類する分類器に対して、前記特徴抽出部により抽出される特徴情報を与えることにより、前記特定表現区間に含まれる特定表現を分類する、
付記1に記載の表現分類装置。
(付記3)
前記分類器は、学習用会話音声における、該分類器に対応する前記特定表現の周辺の他の発話から得られるニュアンス、及び、該特定表現の聞こえ方の主観評価により得られるニュアンスの少なくとも一方により、該特定表現を分類する分類情報と、該学習用会話音声から該特定表現に関し抽出される前記特徴情報とを学習データとして用いて学習する、
付記2に記載の表現分類装置。
(付記4)
前記分類部は、同じ概念を持つ少なくとも1つの前記特定表現毎に設けられる複数の分類器の中から、前記特定表現区間に含まれる特定表現に対応する分類器を選択し、該選択された分類器に前記特徴抽出部により抽出される特徴情報を与えることにより、該特定表現を分類する、
付記1から3のいずれか1つに記載の表現分類装置。
(付記5)
前記特定表現は、謝罪表現であり、
前記分類部は、前記謝罪表現を、深謝か否かに分類し、
前記謝罪表現に対応する前記分類器は、学習用会話音声における前記謝罪表現が申し訳なさそうに聞こえるか否か、及び、前記謝罪表現より前に不満が表出しているか否かの少なくとも一方により、前記謝罪表現を分類する分類情報と、該学習用会話音声から前記謝罪表現に関し抽出される前記特徴情報とを学習データとして用いて学習する、
付記2から4のいずれか1つに記載の表現分類装置。
(付記6)
前記特定表現は、相槌表現であり、
前記分類部は、前記相槌表現を、不満感情を含むか否か、謝罪感情を含むか否か、及び、不満感情を含むか謝罪感情を含むかそれ以外か、のいずれか1つに分類し、
前記相槌表現に対応する前記分類器は、学習用会話音声における、前記相槌表現が申し訳なさそうに聞こえるか否か、前記相槌表現が不満そうに聞こえるか否か、及び、前記相槌表現周辺に不満が表出しているか否かの少なくとも1つにより、前記相槌表現を分類する分類情報と、該学習用会話音声から前記相槌表現に関し抽出される前記特徴情報とを学習データとして用いて学習する、
付記2から5のいずれか1つに記載の表現分類装置。
(付記7)
付記5又は6に記載の表現分類装置と、
前記表現分類装置の前記分類部により、前記謝罪表現が深謝に分類された、又は、前記相槌表現が不満感情又は謝罪感情を含むと分類された場合に、前記謝罪表現又は前記相槌表現を含む前記会話を不満会話と判定する不満判定部と、
を備える不満検出装置。
(付記8)
少なくとも1つのコンピュータにより実行される表現分類方法において、
会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出し、
前記検出される特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出し、
前記抽出される特徴情報を用いて、前記特定表現区間に含まれる特定表現を、前記会話での使用場面に対応するニュアンスで分類する、
ことを含む表現分類方法。
(付記9)
前記分類は、同じ概念を持つ複数の特定表現を前記ニュアンスで分類する分類器に対して、前記抽出される特徴情報を与えることにより、前記特定表現区間に含まれる特定表現を分類する、
付記8に記載の表現分類方法。
(付記10)
学習用会話音声における、該分類器に対応する前記特定表現の周辺の他の発話から得られるニュアンス、及び、該特定表現の聞こえ方の主観評価により得られるニュアンスの少なくとも一方により、該特定表現を分類する分類情報と、該学習用会話音声から該特定表現に関し抽出される前記特徴情報とを学習データとして用いて、前記分類器に学習させる、
ことを更に含む付記9に記載の表現分類方法。
(付記11)
同じ概念を持つ少なくとも1つの前記特定表現毎に設けられる複数の分類器の中から、前記特定表現区間に含まれる特定表現に対応する分類器を選択する、
ことを更に含み、
前記分類は、前記選択された分類器に、前記抽出された特徴情報を与えることにより、前記特定表現を分類する、
付記8から10のいずれか1つに記載の表現分類方法。
(付記12)
前記特定表現は、謝罪表現であり、
前記分類は、前記謝罪表現を、深謝か否かに分類し、
学習用会話音声における前記謝罪表現が申し訳なさそうに聞こえるか否か、及び、前記謝罪表現より前に不満が表出しているか否かの少なくとも一方により、前記謝罪表現を分類する分類情報と、該学習用会話音声から前記謝罪表現に関し抽出される前記特徴情報とを学習データとして用いて、前記謝罪表現に対応する前記分類器に学習させる、
ことを更に含む付記9から11のいずれか1つに記載の表現分類方法。
(付記13)
前記特定表現は、相槌表現であり、
前記分類は、前記相槌表現を、不満感情を含むか否か、謝罪感情を含むか否か、及び、不満感情を含むか謝罪感情を含むかそれ以外か、のいずれか1つに分類し、
学習用会話音声における、前記相槌表現が申し訳なさそうに聞こえるか否か、前記相槌表現が不満そうに聞こえるか否か、及び、前記相槌表現周辺に不満が表出しているか否かの少なくとも1つにより、前記相槌表現を分類する分類情報と、該学習用会話音声から前記相槌表現に関し抽出される前記特徴情報とを学習データとして用いて、前記相槌表現に対応する前記分類器に学習させる、
ことを更に含む付記9から12のいずれか1つに記載の表現分類方法。
(付記14)
付記12又は13に記載の表現分類方法を含み、かつ、前記少なくとも1つのコンピュータにより実行される、不満検出方法において、
前記謝罪表現が深謝に分類された、又は、前記相槌表現が不満感情又は謝罪感情を含むと分類された場合に、前記謝罪表現又は前記相槌表現を含む前記会話を不満会話と判定する、
ことを更に含む不満検出方法。
(付記15)
少なくとも1つのコンピュータに、付記8から13のいずれか1つに記載の表現分類方法、又は、付記14に記載の不満検出方法を実行させるプログラム。
(付記16)
付記15に記載のプログラムを記録したコンピュータが読み取り可能な記録媒体。
この出願は、2012年10月31日に出願された日本出願特願2012−240765号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (11)

  1. 会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出する区間検出部と、
    前記区間検出部により検出される特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出する特徴抽出部と、
    前記特徴抽出部により抽出される特徴情報を用いて、前記特定表現区間に含まれる特定表現を、前記会話での使用場面に対応するニュアンスで分類する分類部と、
    を備え、
    前記分類部は、同じ概念を持つ少なくとも1つの特定表現を前記ニュアンスで分類する分類器に対して、前記特徴抽出部により抽出される特徴情報を与えることにより、前記特定表現区間に含まれる特定表現を分類し、
    前記特定表現は、謝罪表現であり、
    前記分類部は、前記謝罪表現を、深謝か否かに分類し、
    前記謝罪表現に対応する前記分類器は、学習用会話音声における前記謝罪表現が申し訳なさそうに聞こえるか否か、及び、前記謝罪表現より前に不満が表出しているか否かの少なくとも一方により、前記謝罪表現を分類する分類情報と、該学習用会話音声から前記謝罪表現に関し抽出される前記特徴情報とを学習データとして用いて学習する、
    表現分類装置。
  2. 前記分類器は、学習用会話音声における、該分類器に対応する前記特定表現の周辺の他の発話から得られるニュアンス、及び、該特定表現の聞こえ方の主観評価により得られるニュアンスの少なくとも一方により、該特定表現を分類する分類情報と、該学習用会話音声から該特定表現に関し抽出される前記特徴情報とを学習データとして用いて学習する、
    請求項1に記載の表現分類装置。
  3. 前記分類部は、同じ概念を持つ少なくとも1つの前記特定表現毎に設けられる複数の分類器の中から、前記特定表現区間に含まれる特定表現に対応する分類器を選択し、該選択された分類器に前記特徴抽出部により抽出される特徴情報を与えることにより、該特定表現を分類する、
    請求項1又は2に記載の表現分類装置。
  4. 前記特定表現は、さらに相槌表現を含み
    前記分類部は、前記相槌表現を、不満感情を含むか否か、謝罪感情を含むか否か、及び、不満感情を含むか謝罪感情を含むかそれ以外か、のいずれか1つに分類し、
    前記相槌表現に対応する前記分類器は、学習用会話音声における、前記相槌表現が申し訳なさそうに聞こえるか否か、前記相槌表現が不満そうに聞こえるか否か、及び、前記相槌表現周辺に不満が表出しているか否かの少なくとも1つにより、前記相槌表現を分類する分類情報と、該学習用会話音声から前記相槌表現に関し抽出される前記特徴情報とを学習データとして用いて学習する、
    請求項1から3のいずれか1項に記載の表現分類装置。
  5. 請求項4に記載の表現分類装置と、
    前記表現分類装置の前記分類部により、前記謝罪表現が深謝に分類された、又は、前記相槌表現が不満感情又は謝罪感情を含むと分類された場合に、前記謝罪表現又は前記相槌表現を含む前記会話を不満会話と判定する不満判定部と、
    を備える不満検出装置。
  6. 少なくとも1つのコンピュータにより実行される表現分類方法において、
    会話の音声に対応するデータから、複数のニュアンスで使用され得る特定表現を含む特定表現区間を検出し、
    前記検出される特定表現区間に関する、韻律特徴及び発話タイミング特徴の少なくとも一方を含む特徴情報を抽出し、
    前記抽出される特徴情報を用いて、前記特定表現区間に含まれる特定表現を、前記会話での使用場面に対応するニュアンスで分類し、
    前記分類は、同じ概念を持つ複数の特定表現を前記ニュアンスで分類する分類器に対して、前記抽出される特徴情報を与えることにより、前記特定表現区間に含まれる特定表現を分類し、
    前記特定表現は、謝罪表現であり、
    前記分類は、前記謝罪表現を、深謝か否かに分類し、
    学習用会話音声における前記謝罪表現が申し訳なさそうに聞こえるか否か、及び、前記謝罪表現より前に不満が表出しているか否かの少なくとも一方により、前記謝罪表現を分類する分類情報と、該学習用会話音声から前記謝罪表現に関し抽出される前記特徴情報とを学習データとして用いて、前記謝罪表現に対応する前記分類器に学習させる、
    ことを含む表現分類方法。
  7. 学習用会話音声における、前記分類器に対応する前記特定表現の周辺の他の発話から得られるニュアンス、及び、該特定表現の聞こえ方の主観評価により得られるニュアンスの少なくとも一方により、該特定表現を分類する分類情報と、該学習用会話音声から該特定表現に関し抽出される前記特徴情報とを学習データとして用いて、前記分類器に学習させる、
    ことを更に含む請求項6に記載の表現分類方法。
  8. 同じ概念を持つ少なくとも1つの前記特定表現毎に設けられる複数の分類器の中から、前記特定表現区間に含まれる特定表現に対応する分類器を選択する、
    ことを更に含み、
    前記分類は、前記選択された分類器に、前記抽出された特徴情報を与えることにより、前記特定表現を分類する、
    請求項6又は7に記載の表現分類方法。
  9. 前記特定表現は、さらに相槌表現を含み
    前記分類は、前記相槌表現を、不満感情を含むか否か、謝罪感情を含むか否か、及び、不満感情を含むか謝罪感情を含むかそれ以外か、のいずれか1つに分類し、
    学習用会話音声における、前記相槌表現が申し訳なさそうに聞こえるか否か、前記相槌表現が不満そうに聞こえるか否か、及び、前記相槌表現周辺に不満が表出しているか否かの少なくとも1つにより、前記相槌表現を分類する分類情報と、該学習用会話音声から前記相槌表現に関し抽出される前記特徴情報とを学習データとして用いて、前記相槌表現に対応する前記分類器に学習させる、
    ことを更に含む請求項6から8のいずれか1項に記載の表現分類方法。
  10. 請求項9に記載の表現分類方法を含み、かつ、前記少なくとも1つのコンピュータにより実行される、不満検出方法において、
    前記謝罪表現が深謝に分類された、又は、前記相槌表現が不満感情又は謝罪感情を含むと分類された場合に、前記謝罪表現又は前記相槌表現を含む前記会話を不満会話と判定する、
    ことを更に含む不満検出方法。
  11. 少なくとも1つのコンピュータに、請求項6から9のいずれか1項に記載の表現分類方法、又は、請求項10に記載の不満検出方法を実行させるプログラム。
JP2014544380A 2012-10-31 2013-09-19 表現分類装置、表現分類方法、不満検出装置及び不満検出方法 Active JP6341092B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012240765 2012-10-31
JP2012240765 2012-10-31
PCT/JP2013/075244 WO2014069122A1 (ja) 2012-10-31 2013-09-19 表現分類装置、表現分類方法、不満検出装置及び不満検出方法

Publications (2)

Publication Number Publication Date
JPWO2014069122A1 JPWO2014069122A1 (ja) 2016-09-08
JP6341092B2 true JP6341092B2 (ja) 2018-06-13

Family

ID=50627038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014544380A Active JP6341092B2 (ja) 2012-10-31 2013-09-19 表現分類装置、表現分類方法、不満検出装置及び不満検出方法

Country Status (3)

Country Link
US (1) US20150262574A1 (ja)
JP (1) JP6341092B2 (ja)
WO (1) WO2014069122A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014069076A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法
US20150279391A1 (en) * 2012-10-31 2015-10-01 Nec Corporation Dissatisfying conversation determination device and dissatisfying conversation determination method
JP5769904B2 (ja) * 2013-04-25 2015-08-26 三菱電機株式会社 評価情報投稿装置および評価情報投稿方法
WO2015019662A1 (ja) * 2013-08-07 2015-02-12 日本電気株式会社 分析対象決定装置及び分析対象決定方法
JP6394103B2 (ja) * 2014-06-20 2018-09-26 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP6122816B2 (ja) * 2014-08-07 2017-04-26 シャープ株式会社 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム
US9953661B2 (en) * 2014-09-26 2018-04-24 Cirrus Logic Inc. Neural network voice activity detection employing running range normalization
US10127919B2 (en) * 2014-11-12 2018-11-13 Cirrus Logic, Inc. Determining noise and sound power level differences between primary and reference channels
US9965685B2 (en) 2015-06-12 2018-05-08 Google Llc Method and system for detecting an audio event for smart home devices
JP6565500B2 (ja) * 2015-08-31 2019-08-28 富士通株式会社 発話状態判定装置、発話状態判定方法、及び判定プログラム
US10929611B2 (en) 2017-12-05 2021-02-23 discourse.ai, Inc. Computer-based interlocutor understanding using classifying conversation segments
US11107006B2 (en) 2017-12-05 2021-08-31 discourse.ai, Inc. Visualization, exploration and shaping conversation data for artificial intelligence-based automated interlocutor training
US10896670B2 (en) 2017-12-05 2021-01-19 discourse.ai, Inc. System and method for a computer user interface for exploring conversational flow with selectable details
US11004013B2 (en) 2017-12-05 2021-05-11 discourse.ai, Inc. Training of chatbots from corpus of human-to-human chats
US11282518B2 (en) * 2018-03-29 2022-03-22 Kyocera Document Solutions Inc. Information processing apparatus that determines whether utterance of person is simple response or statement
CN108922564B (zh) * 2018-06-29 2021-05-07 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN110062117B (zh) * 2019-04-08 2021-01-08 商客通尚景科技(上海)股份有限公司 一种声波检测与预警方法
CN110660385A (zh) * 2019-09-30 2020-01-07 出门问问信息科技有限公司 一种命令词检测方法及电子设备
US12080272B2 (en) * 2019-12-10 2024-09-03 Google Llc Attention-based clockwork hierarchical variational encoder
JPWO2023100377A1 (ja) * 2021-12-03 2023-06-08
JPWO2023162107A1 (ja) * 2022-02-24 2023-08-31

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
US7043008B1 (en) * 2001-12-20 2006-05-09 Cisco Technology, Inc. Selective conversation recording using speech heuristics
US20050165604A1 (en) * 2002-06-12 2005-07-28 Toshiyuki Hanazawa Speech recognizing method and device thereof
US9300790B2 (en) * 2005-06-24 2016-03-29 Securus Technologies, Inc. Multi-party conversation analyzer and logger
JP2007286097A (ja) * 2006-04-12 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 音声受付クレーム検出方法、装置、音声受付クレーム検出プログラム、記録媒体
US8706487B2 (en) * 2006-12-08 2014-04-22 Nec Corporation Audio recognition apparatus and speech recognition method using acoustic models and language models
KR100905744B1 (ko) * 2007-12-04 2009-07-01 엔에이치엔(주) 사용자 제작 문답 데이터에 기반한 회화 사전 서비스 제공방법 및 시스템
WO2010041507A1 (ja) * 2008-10-10 2010-04-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 会話における特定状況を抽出するシステムおよび方法
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
US8412530B2 (en) * 2010-02-21 2013-04-02 Nice Systems Ltd. Method and apparatus for detection of sentiment in automated transcriptions
JP5708155B2 (ja) * 2011-03-31 2015-04-30 富士通株式会社 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム
US8930187B2 (en) * 2012-01-03 2015-01-06 Nokia Corporation Methods, apparatuses and computer program products for implementing automatic speech recognition and sentiment detection on a device
US20150279391A1 (en) * 2012-10-31 2015-10-01 Nec Corporation Dissatisfying conversation determination device and dissatisfying conversation determination method
WO2014069076A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 会話分析装置及び会話分析方法
WO2014069120A1 (ja) * 2012-10-31 2014-05-08 日本電気株式会社 分析対象決定装置及び分析対象決定方法

Also Published As

Publication number Publication date
US20150262574A1 (en) 2015-09-17
WO2014069122A1 (ja) 2014-05-08
JPWO2014069122A1 (ja) 2016-09-08

Similar Documents

Publication Publication Date Title
JP6341092B2 (ja) 表現分類装置、表現分類方法、不満検出装置及び不満検出方法
JP6358093B2 (ja) 分析対象決定装置及び分析対象決定方法
WO2014069076A1 (ja) 会話分析装置及び会話分析方法
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US11133025B2 (en) Method and system for speech emotion recognition
CN107818798A (zh) 客服服务质量评价方法、装置、设备及存储介质
JP6213476B2 (ja) 不満会話判定装置及び不満会話判定方法
EP4006903A1 (en) System with post-conversation representation, electronic device, and related methods
JP2010266522A (ja) 対話状態分割装置とその方法、そのプログラムと記録媒体
CN114138960A (zh) 用户意图识别方法、装置、设备及介质
JP6327252B2 (ja) 分析対象決定装置及び分析対象決定方法
JP6365304B2 (ja) 会話分析装置及び会話分析方法
JP7304627B2 (ja) 留守番電話判定装置、方法及びプログラム
KR102193656B1 (ko) 상담 내용 분석을 지원하는 녹취 서비스 제공 시스템 및 방법
EP4093005A1 (en) System method and apparatus for combining words and behaviors
CN115831125A (zh) 语音识别方法、装置、设备、存储介质及产品
WO2014069443A1 (ja) 不満通話判定装置及び不満通話判定方法
WO2014069444A1 (ja) 不満会話判定装置及び不満会話判定方法
EP4006900A1 (en) System with speaker representation, electronic device and related methods
US20240312466A1 (en) Systems and Methods for Distinguishing Between Human Speech and Machine Generated Speech

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180430

R150 Certificate of patent or registration of utility model

Ref document number: 6341092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150