JP2012108262A

JP2012108262A - 対話内容抽出装置、対話内容抽出方法、そのプログラム及び記録媒体

Info

Publication number: JP2012108262A
Application number: JP2010256158A
Authority: JP
Inventors: Tasuku Shinozaki; 翼篠崎; Takaaki Fukutomi; 隆朗福冨; Taichi Asami; 太一浅見; Osamu Yoshioka; 理吉岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-11-16
Filing date: 2010-11-16
Publication date: 2012-06-07

Abstract

【課題】コンタクトセンタ等における対話内容の検索・分析・視聴の効率化を図る。
【解決手段】音声認識部は、対話音声信号が入力され、認識辞書を参照して音声認識処理を行うことにより、テキスト文書に変換して出力する。個人情報検出部は、認識辞書を参照してテキスト文書を構成する各単語について個人情報にあたるか否かを判断し、個人情報にあたる各単語のテキスト文書内での位置情報を出力する。本人確認発話位置特定部は、各単語の位置情報に基づき、個人情報にあたる単語が集中して現れている部分を特定する。挨拶発話位置特定部は、テキスト文書が入力され、定型辞書を参照して開始定型文と一致する文字列を含む部分及び終了定型文と一致する文字列を含む部分をそれぞれ特定する。対話内容抽出部は、本人確認発話位置特定部及び挨拶発話位置特定部でそれぞれ特定された部分以外の残りの部分をテキスト文書から時系列に抽出する。
【選択図】図１

Description

本発明は、コンタクトセンタ等におけるオペレータと顧客との対話内容を効率的に検索・分析・視聴を行えるようにするための対話内容抽出装置、対話内容抽出方法、そのプログラム及び記録媒体に関する。

コンタクトセンタ等におけるオペレータと顧客との対話内容を分析する取り組みが、近年活発になっている。分析対象とする対話内容を含む通話音声には、分析に不要な部分も含まれているため、効率的に検索・分析・視聴を行えるようにすべく、不要な部分を除去し、必要な部分を抽出する技術の開発が進められている。代表的なものとして、例えば次の２つの方式が挙げられる。
１．対話開始時や対話終了時にされる、挨拶などの定型文を予め登録しておき、それと一致する発話を除去する。
２．顧客の要望把握に重要な区間（用件フェーズ）を、対話分析に重要な発話区間として特定して抽出する。区間の特定は、用件フェーズの終端において典型的なオペレータ発話が現れるという特徴を利用として行う（非特許文献１参照）。

福冨隆朗、小橋川哲、浅見太一、篠崎翼、政瀧浩和、吉岡理、高橋敏、「コンタクトセンタ対話における用件フェーズ境界表現の獲得」、日本音響学会全国大会、2010年9月

背景技術に挙げた１．の方式の場合、本人確認のための個人情報の確認（住所、氏名、電話番号、生年月日などの口頭での確認）など、非定型な発話を除去できない。また、２．の方式の場合、用件フェーズが離れて複数ある場合に、いずれか１つしか抽出できず、また、用件フェーズ以外（応対の結論や、応対の過程でのやり取りの分析など）の区間を抽出できない。

本発明の目的は、コンタクトセンタ等における対話内容から、定型的な挨拶の部分だけでなく非定型な本人確認発話の部分も除去することで、複数の用件フェーズを抽出可能で、かつ、用件フェーズ以外の発話内容も抽出可能な、対話内容抽出装置、対話内容抽出方法、そのプログラム及び記録媒体を提供することにある。

本発明の対話内容抽出装置は、認識辞書記録部と定型辞書記録部と音声認識部と個人情報検出部と本人確認発話位置特定部と挨拶発話位置特定部と対話内容抽出部とを備える。
認識辞書記録部は、単語と当該単語の読みと当該単語が個人情報にあたるか否かが予め記録される。

定型辞書記録部は、対話開始時にされる開始定型文と対話終了時にされる終了定型文が予め記録される。
音声認識部は、対話音声信号が入力され、前記認識辞書記録部を参照して音声認識処理を行うことにより、テキスト文書に変換して出力する。

個人情報検出部は、前記テキスト文書が入力され、前記認識辞書記録部を参照して、前記テキスト文書を構成する各単語について個人情報にあたるか否かを判断し、個人情報にあたる各単語の前記テキスト文書内での位置情報を出力する。
本人確認発話位置特定部は、前記位置情報に基づき、個人情報にあたる単語が集中して現れている部分を特定する。

挨拶発話位置特定部は、前記テキスト文書が入力され、前記定型辞書記録部を参照して、前記開始定型文と一致する文字列を含む部分及び前記終了定型文と一致する文字列を含む部分をそれぞれ特定する。
対話内容抽出部は、本人確認発話位置特定部及び挨拶発話位置特定部でそれぞれ特定された部分以外の残りの部分を前記テキスト文書から時系列に抽出する。

本発明の対話内容抽出装置によれば、コンタクトセンタ等における対話内容から、定型的な挨拶の部分だけでなく非定型な本人確認発話の部分も除去することで、複数の用件フェーズを抽出でき、かつ、用件フェーズ以外の発話内容も抽出できる。そのため、コンタクトセンタ等における対話内容の効率的な検索・分析・視聴が可能となる。

本発明の対話内容抽出装置の機能構成例を示す図。本発明の対話内容抽出装置の処理フロー例を示す図。認識辞書記録部に予め記録されるデータの例及び音声認識部から出力されるデータの例を示す図。本人確認発話部分の特定イメージを示す図。挨拶発話部分の特定イメージを示す図。

図１に本発明の対話内容抽出装置１００の機能構成例を、図２にその処理フロー例をそれぞれ示す。対話内容抽出装置１００は、認識辞書記録部１１０、定型辞書記録部１２０、音声認識部１３０、個人情報検出部１４０、本人確認発話位置特定部１５０、挨拶発話位置特定部１６０、及び対話内容抽出部１７０を備える。

認識辞書記録部１１０には、単語と当該単語の読みと当該単語が個人情報にあたるか否かが予め記録される。図３(a)は、認識辞書記録部１１０に記録されるデータ例を示す。個人情報マークは、各単語が個人情報か否かを表し、「○」になっている単語が個人情報である。更に、認識辞書記録部１１０は、従来の音声認識で用いる音声認識辞書の構成を有してもよく、例えば、その単語を一意に特定する単語ＩＤ、その単語の品詞等が記録されていてもよいものとする。個人情報マークを付与する方法としては、人手で付与する方法、特定の品詞の単語に自動的にマークを付与する方法、人名辞典や地名辞典等の記載されている氏、名、地名に自動的にマークを付与する方法等が考えられる。なお、認識辞書記録部１１０は、音声認識を行うために用いる単語とその単語の読みが記録される音声認識辞書記録部と個人情報認識を行うために用いる単語とその単語が個人情報か否かが記録される個人情報認識辞書記録部の２つの記録部とから構成してもよい。また、認識辞書記録部１１０は、図示していない単語入力部を有してもよく、この場合、単語とその読みとその単語が個人情報か否かを追加入力したり、記録された情報の変更、削除をしたりして、記録データを更新することができる。

定型辞書記録部１２０には、対話開始時にされる開始定型文と対話終了時にされる終了定型文が予め記録される。開始定型文としては、例えば「お電話ありがとうございます」、「ＮＴＴコールセンター、カスタマーサポート担当」などが挙げられ、終了定型文としては、例えば「本日は、お電話ありがとうございました」などが挙げられる。

音声認識部１３０は、入力された対話音声信号に対し、認識辞書記録部１１０を参照して、音声認識処理を行うことにより、テキスト文書に変換して出力する（Ｓ１）。テキスト文書は単語列として出力され、例えば図３(b)に示すように、その単語列の各単語について始端時刻と終端時刻があわせて出力される。音声認識処理は任意の方法を適用することができるが、例えば次のような方法が考えられる。まず、入力された音声信号の特徴量を抽出する処理を行い、図示していない音響モデルを用いて音声信号の特徴と音響モデルの各音素の特徴とを照合してスコア化する。音響モデルとは、音響特徴量（例えば音韻的特徴パラメータ等）を統計的に表現したモデルであり、例えば音素単位にモデル化されたものである。また、音声信号の特徴と音響モデルの各音素の特徴との照合は、短時間毎に区切ったフレーム単位で行う。次に、認識辞書記録部１１０のデータを用いて、音響モデルにより得られる音素列を単語に変換する。次に、図示していない言語モデルを用いて、認識辞書記録部１１０を用いて得られる単語列に対して言語的妥当性のスコアを加味して再評価し、最もスコアの高い単語列を認識結果として出力する。言語モデルとは、単語のつながりを統計的に表現したモデルである。このようにして単語列が確定すると、音声信号の特徴と音響モデルの各音素の特徴とを照合する際に用いたフレームから、各単語の始端時刻と終端時刻がわかる。図３(b)は、音声信号の先頭を時刻０としたときの単語列、並びにその単語列の各単語の始端時刻及び終端時刻の出力データ例である。

個人情報検出部１４０は、音声認識部１３０で得られたテキスト文書が入力され、認識辞書記録部１１０を参照して、入力されたテキスト文書を構成する各単語について個人情報にあたるか否かを判断し、個人情報にあたる各単語のテキスト文書内での位置情報を出力する（Ｓ２）。各単語のテキスト文書内での位置情報は、始端時刻と終端時刻の組で表される。図３(a),(b)のデータ例を用いた場合、単語列「はい、横浜の鈴木です」のうち、図３(a)のデータ例を参照すると「横浜」、「鈴木」が個人情報として判断され、図３(b)より「横浜」、「鈴木」それぞれに対応する始端時間「１３５」、「１４５」、及び終端時間「１４０」、「１５０」が特定される。

本人確認発話位置特定部１５０は、個人情報検出部１４０で得られた、個人情報にあたる各単語のテキスト文書内での位置情報に基づき、個人情報にあたる単語が集中して現れている部分を特定する（Ｓ３）。個人情報にあたる単語が集中して現れている部分の特定は、例えば、対話者間交互の発話（１発話には同じ発話者による連続した複数の発話を含む）の中で、ｎ個（ｎは２以上の整数）の連続した発話対（オペレータと顧客の発話のペア）のうち、個人情報にあたる単語が含まれている発話対の個数がｍ個（ｍは１以上ｎ以下の整数）以上である部分を特定することが考えられる。具体的には、発話対をｎ個含む幅の検出窓を用意し、この検出窓を１発話対ごとに時系列にシフトさせる。そして、検出窓に個人情報にあたる単語が含まれている発話対がｍ個以上検出されたとき、その検出窓に含まれる部分を個人情報にあたる単語が集中して現れている部分であると特定する。そして、その特定された部分以降の発話対についても、同様の処理を繰り返し、検出窓に個人情報にあたる単語が含まれている発話対がｍ個以上検出される都度、その部分を特定対象に加える。

図４に示すコールセンタにおけるオペレータと顧客との対話を例にとって説明する。下線部分が個人情報にあたる単語である。ここでは、幅が４発話対の検出窓をシフトさせ、個人情報にあたる単語が含まれている発話対が３個以上検知されたときに、その部分を個人情報にあたる単語が集中して現れている部分であると特定する。図４に示す対話においては、検出窓が点線で示す位置に来たときに、個人情報にあたる単語が含まれている発話対（○印）が３個になるため、この検出窓に含まれる部分が、個人情報にあたる単語が集中して現れている部分として特定される。

挨拶発話位置特定部１６０は、音声認識部１３０で得られたテキスト文書が入力され、定型辞書記録部１２０を参照して、開始定型文と一致する文字列を含む部分及び終了定型文と一致する文字列を含む部分をそれぞれ特定する（Ｓ４）。開始定型文と一致する文字列を含む部分の特定は、例えば、対話者間交互の発話の中で、開始定型文と一致する文字列を含む発話を特定することが考えられる。終了定型文と一致する文字列を含む部分の特定は、例えば、終了定型文と一致する文字列を含む発話を特定することが考えられる。また、終了定型文が現れた場合、それ以降は用件フェーズは現れないことから、終了定型文と一致する文字列を含む発話以降対話終了までを特定することも考えられる。

図５に示すコールセンタにおけるオペレータと顧客との対話を例にとって説明する。下線部分が、開始定型文又は終了定型文と一致する文字列である。この例では、オペレータによる最初の発話に開始定型文「お電話ありがとうございます。」が含まれるため、この発話を開始時の挨拶発話として特定し、続いて、オペレータによる終盤の発話に終了定型文「本日は、お電話ありがとうございました。」が含まれるため、この発話を終了時の挨拶発話として特定する。また、終了時の挨拶発話については、それ以降の発話と一体的に特定しても構わない。

対話内容抽出部１７０は、本人確認発話位置特定部１５０及び挨拶発話位置特定部１６０でそれぞれ特定された部分の情報が入力され、当該特定された各部分以外の残りの部分を前記テキスト文書から時系列に抽出する（Ｓ５）。対話内容抽出部１７０は、抽出した対話内容の用途により、以下のように構成することができる。検索データとして蓄積したい場合には、抽出した対話内容を検索エンジンに登録すればよい。また、テキストマイニングの分析対象データとして利用したい場合には、抽出した対話内容をテキストマイニングの入力にすればよい。また、通話を視聴したい場合は、本人確認発話位置特定部１５０及び挨拶発話位置特定部１６０でそれぞれ特定された部分の情報を用いて、対話全体から特定した部分を視聴者の必要に応じ、除いて表示したり、飛ばして音声再生したりすることが考えられる。

以上のように、本発明の対話内容抽出装置及び対話内容抽出方法によれば、コンタクトセンタ等における対話内容から、定型的な挨拶の部分だけでなく非定型な本人確認発話部分を除去することで、複数の用件フェーズを抽出でき、かつ、用件フェーズ以外の発話内容も抽出できる。そのため、コンタクトセンタ等における対話内容の効率的な検索・分析・視聴が可能となる。

上記の対話内容抽出装置、対話内容抽出方法における各処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本発明の対話内容抽出装置の各機能は必要に応じ、併合・分割しても構わない。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

本発明の対話内容抽出装置をコンピュータによって実現する場合、装置及びその各部が有す機能の処理内容はプログラムによって記述される。そのプログラムは、例えば、ハードディスク装置に格納されており、実行時には必要なプログラムやデータがＲＡＭ(Random Access Memory)に読み込まれる。その読み込まれたプログラムがＣＰＵにより実行されることにより、コンピュータ上で各処理内容が実現される。なお、処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、上述した実施形態とは別の実行形態として、コンピュータが可搬型記録媒体から直接このプログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

Claims

単語と当該単語の読みと当該単語が個人情報にあたるか否かが予め記録された認識辞書記録部と、
対話開始時にされる開始定型文と対話終了時にされる終了定型文が予め記録された定型辞書記録部と、
対話音声信号が入力され、前記認識辞書記録部を参照して音声認識処理を行うことにより、テキスト文書に変換して出力する音声認識部と、
前記テキスト文書が入力され、前記認識辞書記録部を参照して前記テキスト文書を構成する各単語について個人情報にあたるか否かを判断し、個人情報にあたる各単語の前記テキスト文書内での位置情報を出力する個人情報検出部と、
前記位置情報に基づき、個人情報にあたる単語が集中して現れている部分を特定する本人確認発話位置特定部と、
前記テキスト文書が入力され、前記定型辞書記録部を参照して、前記開始定型文と一致する文字列を含む部分及び前記終了定型文と一致する文字列を含む部分をそれぞれ特定する挨拶発話位置特定部と、
本人確認発話位置特定部及び挨拶発話位置特定部でそれぞれ特定された部分以外の残りの部分を、前記テキスト文書から時系列に抽出する対話内容抽出部と、
を備える対話内容抽出装置。
請求項１に記載の対話内容抽出装置であって、
前記本人確認発話位置特定部における、個人情報にあたる単語が集中して現れている部分の特定は、対話者間交互の発話の中で、ｎ個（ｎは２以上の整数）の連続した発話対のうち、個人情報にあたる単語が含まれている発話対の個数がｍ個（ｍは１以上ｎ以下の整数）以上である部分を特定する
ことを特徴とする対話内容抽出装置。
請求項１又は２に記載の対話内容抽出装置であって、
前記挨拶発話位置特定部における前記開始定型文と一致する文字列を含む部分の特定は、対話者間交互の発話の中で、前記開始定型文と一致する文字列を含む発話を特定する
ことを特徴とする対話内容抽出装置。
請求項１乃至３のいずれかに記載の対話内容抽出装置であって、
前記挨拶発話位置特定部における前記終了定型文と一致する文字列を含む部分の特定は、対話者間交互の発話の中で、前記終了定型文と一致する文字列を含む発話を特定する
ことを特徴とする対話内容抽出装置。
請求項１乃至３のいずれかに記載の対話内容抽出装置であって、
前記挨拶発話位置特定部における前記終了定型文と一致する文字列を含む部分の特定は、対話者間交互の発話の中で、前記終了定型文と一致する文字列を含む発話以降対話終了までを特定する
ことを特徴とする対話内容抽出装置。
単語と当該単語の読みと当該単語が個人情報にあたるか否かが予め記録された認識辞書記録部と、
対話開始時にされる開始定型文と対話終了時にされる終了定型文が予め記録された定型辞書記録部と、
を用い、
入力された対話音声信号について、前記認識辞書記録部を参照して音声認識処理を行うことにより、テキスト文書に変換する音声認識ステップと、
前記認識辞書記録部を参照して、前記テキスト文書を構成する各単語について個人情報にあたるか否かを判断し、個人情報にあたる各単語の前記テキスト文書内での位置情報を出力する個人情報検出ステップと、
前記位置情報に基づき、個人情報にあたる単語が集中して現れている部分を特定する本人確認発話位置特定ステップと、
前記テキスト文書について、前記定型辞書記録部を参照して、前記開始定型文と一致する文字列を含む部分及び前記終了定型文と一致する文字列を含む部分をそれぞれ特定する挨拶発話位置特定ステップと、
本人確認発話位置特定ステップ及び挨拶発話位置特定ステップでそれぞれ特定された部分以外の残りの部分を、前記テキスト文書から時系列に抽出する対話内容抽出ステップと、
を実行する対話内容抽出方法。
請求項６に記載の対話内容抽出方法であって、
前記本人確認発話位置特定ステップにおける、個人情報にあたる単語が集中して現れている部分の特定は、対話者間交互の発話の中で、ｎ個（ｎは２以上の整数）の連続した発話対のうち、個人情報にあたる単語が含まれている発話対の個数がｍ個（ｍは１以上ｎ以下の整数）以上である部分を特定する
ことを特徴とする対話内容抽出方法。
請求項６又は７に記載の対話内容抽出方法であって、
前記挨拶発話位置特定ステップにおける前記開始定型文と一致する文字列を含む部分の特定は、対話者間交互の発話の中で、前記開始定型文と一致する文字列を含む発話を特定する
ことを特徴とする対話内容抽出方法。
請求項６乃至８のいずれかに記載の対話内容抽出方法であって、
前記挨拶発話位置特定ステップにおける前記終了定型文と一致する文字列を含む部分の特定は、対話者間交互の発話の中で、前記終了定型文と一致する文字列を含む発話を特定する
ことを特徴とする対話内容抽出方法。
請求項６乃至８のいずれかに記載の対話内容抽出方法であって、
前記挨拶発話位置特定ステップにおける前記終了定型文と一致する文字列を含む部分の特定は、対話者間交互の発話の中で、前記終了定型文と一致する文字列を含む発話以降対話終了までを特定する
ことを特徴とする対話内容抽出方法。
請求項１乃至５のいずれかに記載した対話内容抽出装置としてコンピュータを機能させるためのプログラム。
請求項１１に記載したプログラムを記録したコンピュータが読み取り可能な記録媒体。