JP2016062333A - 検索サーバ、及び検索方法 - Google Patents

検索サーバ、及び検索方法 Download PDF

Info

Publication number
JP2016062333A
JP2016062333A JP2014190183A JP2014190183A JP2016062333A JP 2016062333 A JP2016062333 A JP 2016062333A JP 2014190183 A JP2014190183 A JP 2014190183A JP 2014190183 A JP2014190183 A JP 2014190183A JP 2016062333 A JP2016062333 A JP 2016062333A
Authority
JP
Japan
Prior art keywords
keyword
search
processor
call
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014190183A
Other languages
English (en)
Other versions
JP6254504B2 (ja
Inventor
藤田 雄介
Yusuke Fujita
雄介 藤田
龍 武田
Ryu Takeda
龍 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2014190183A priority Critical patent/JP6254504B2/ja
Publication of JP2016062333A publication Critical patent/JP2016062333A/ja
Application granted granted Critical
Publication of JP6254504B2 publication Critical patent/JP6254504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】対話の目的を絞り込むために有効なキーワードを自動的に抽出し、そのキーワードを用いた検索を可能とするための技術を提供する。
【解決手段】本発明による検索サーバは、対話データから所定文字数の文字列を抽出し、抽出された文字列が含まれる対話データを取得し、取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出し、抽出された非言語特徴量の分布の偏りを示す統計量を算出し、少なくとも統計量が最小の文字列を検索用キーワードとして出力する処理を実行する。このように、対話の非言語特徴量の分散値が小さくなるキーワードを用いることにより、対話の目的が共通する可能性の高い複数の対話を検索することが可能となる。
【選択図】図1

Description

本発明は、検索サーバ、及び検索方法に関する。
現在、多くのコールセンタにおいて、オペレータと顧客が話している内容は通話録音装置で録音されており、通話録音データベースのサイズは年々増加を続けている。このような通話録音データベースから特定のキーワードを含む通話を自動的に抽出することができれば、コールセンタ業務の品質や効率の向上やマーケティングへの活用に繋がると期待される。
通話録音データベースから特定のキーワードを含む通話録音を抽出するためには、検索サーバが用いられる。検索サーバは、あらかじめ音声認識技術を用いて、通話録音の内容をテキストに変換し、データベースに蓄積しておく。その後、検索サーバは、利用者のキーワード入力に基づいて、データベースに蓄積されたテキストを検索することにより、通話録音にキーワードが含まれるかを判定し、キーワードを含む通話録音のリストを表示する(例えば、特許文献1)。
ところで、通話録音データには様々な目的をもったものが混在する。例えば、受付担当者が顧客の新規の問合せを受け付けるための通話、専門担当者が顧客へ調査内容を回答するための通話、問合せ内容についてコールセンタの担当者間で引き継ぐための通話などがある。担当者が通話終了後にこれら通話の目的についてタグ付けを行えば通話目的の分類は容易になるが、担当者の作業量を増やすことになり望ましくない。
従って、検索サーバにはこれら通話の目的を考慮して検索が行える機能を備えることが望まれる。しかしながら、キーワードによって通話の目的を限定することは容易ではない。例えば、受付担当者が顧客の新規の問合せを受け付けるための通話を抽出するために、「新規の問合せ」といったキーワードで検索することが考えられる。ところが、同様のキーワードは問合せ内容について担当者間で引き継ぐための通話にも用いられる場合がある。従って、このキーワードだけでは特定の目的に合致する通話を絞り込めない。実際の利用場面では、コールセンタでの通話内容をよく知るスーパーバイザが、経験や勘に基づいて、いくつかのキーワードを試行錯誤することが必要となっている。
特開2000−222425号公報
通話検索のための技術は、特許文献1に示されるように確立されているが、利用者がどのようなキーワードを入力すれば所望のデータが得られるのか判断することは非常に困難である。
従って、検索サーバにおいて、どのようなキーワードを入力すれば対話の目的を絞り込むために有効であるかを知ることは、利用者にとって有用である。
本発明はこのような点に鑑みてなされたものであり、対話の目的を絞り込むために有効なキーワードを自動的に抽出し、そのキーワードを用いた検索を可能とするための技術を提供するものである。
上記課題を解決するために、本発明では、検索サーバは、対話データから所定文字数の文字列を抽出し、抽出された文字列が含まれる対話データを取得し、取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出し、抽出された非言語特徴量の分布の偏りを示す統計量を算出し、少なくとも統計量が最小の文字列を検索用キーワードとして出力する処理を実行する。
本発明に関連する更なる特徴(課題、構成及び効果)は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明によれば、対話の目的を絞り込むために有効なキーワードを自動的に抽出し、そのキーワードを用いて、効率的に対話データを検索することができるようになる。
本発明の第1の実施形態による通話録音検索サーバの概略構成を示すブロック図である。 通話録音検索サーバのハードウェア構成例を示す図である。 本発明の実施形態における通話登録処理を説明するためのフローチャートである。 本発明の実施形態による通話音声データベースの構成例を示す図である。 本発明の実施形態におけるキーワードリスト生成処理を説明するためのフローチャートである。 本発明の実施形態によるキーワードリストの構成例を示す図である。 本発明の第1の実施形態における通話検索処理を説明するためのフローチャートである。 本発明の第1の実施形態による検索画面の構成例を示す図である。 本発明の第2の実施形態による通話録音検索サーバの概略構成を示すブロック図である。 本発明の第2の実施形態における通話検索処理を説明するためのフローチャートである。
以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。
本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以下では、各処理部(通話検索部や非言語特徴量分散算出部等)で表現されている「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはCPU(プロセッサ)によって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
本発明の実施形態は、対話目的に沿った対話をデータベースから抽出するために有益なキーワード候補を提示する技術に関するものであり、トレンドワードや使用頻度が高いワードを提示したり、音声検索によく使われ、検索しやすいワードを提示したりする技術とは、通話目的指向の検索を提供するという点で、一線を画すものである。
(1)第1の実施形態
本発明の実施形態では、通話録音検索サーバを例にして説明することとする。
<通話録音検索サーバの構成>
図1は、本発明の第1の実施形態による通話録音検索サーバ1の概略構成を示すブロック図である。
通話録音検索サーバ1は、通話取得部2と、音声区間検出部3と、音声認識部4と、非言語特徴量抽出部5と、通話音声データベース6と、キーワード候補生成部7と、キーワードリスト8と、通話検索部9と、非言語特徴量分散算出部10と、キーワード提示部11と、キーワード入力部12と、検索結果提示部13と、を有している。各部の具体的処理内容については詳細に後述する。
図2は、第1の実施形態による通話録音検索サーバ1のハードウェア構成例を示す図である。通話録音検索サーバ1は、CPU201と、メモリ202と、HDD203と、ネットワークアダプタ204と、を有している。ネットワークアダプタ204は、LAN205に接続される。メモリ202は、通話取得部2、音声区間検出部3、音声認識部4、非言語特徴量抽出部5、キーワード候補生成部7、通話検索部9、非言語特徴量分散算出部10、キーワード提示部11、キーワード入力部12、及び検索結果提示部13のそれぞれの処理を行うためのプログラムを格納している。HDD203は、通話音声データベース6と、キーワードリスト8とを格納している。CPU201がメモリ202に格納された各プログラムを実行することによって、各部の機能が実現される。
また、通話録音検索サーバ1は、LAN205を介して利用者端末210と接続される。利用者端末210は、画面211と、キーボード212と、マウス213と、を有している。利用者端末210は、キーボード212で入力した情報やマウス213で画面211上の領域を選択した情報を通話録音検索サーバ1に送信し、通話録音検索サーバ1から受信した情報を画面211に表示する機能を備える。
なお、各処理部2乃至5、7、9乃至13、通話音声データベース6、及びキーワードリスト8の少なくとも1つが、ネットワークを介して遠隔的に設置されるようにしても良い。この場合、通話録音検索サーバ1が遠隔的に設置されたデータベース等から必要に応じてデータを取得したり、遠隔的に設置された各処理部で処理されたデータを取得したりすることとなる。
以上の構成による通話録音検索サーバ1が実行する処理には、通話登録処理、キーワードリスト生成処理、及び通話検索処理が含まれる。以下、それぞれについて詳細に説明する。
<通話登録処理>
図3は、本発明の実施形態による通話登録処理を説明するためのフローチャートである。
(i)S301
通話取得部2は、ネットワークアダプタ204を介してLAN205上を流れるパケットを取得し、通話毎に音声ファイルを作成する。ここで、通話とは、顧客からオペレータに電話がつながった時点から当該電話が切られて終了する時点までをいうものとする。また、ここでは、IP電話に基づく公知の録音システムが利用でき、音声ファイルに録音時刻や内線番号、相手先番号などを紐づけて管理することができる。さらに、一つの通話からは、送信側と受信側の2つの音声ファイルが作成される。
(ii)S302
音声区間検出部3は、通話取得部2が取得した音声ファイルから音声区間を検出する。ここで、音声区間とは、音声ファイル中で発話が存在する区間、或いは音声ファイルから沈黙や保留区間を除いた区間である。音声区間を検出する方法は公知の技術により実現できる。例えば、音声パワーの閾値に基づく方法、または、音響特徴量のパタン識別に基づく方法などがある。通話音声中には、人間の発声のほか、無音区間、保留音などがあるが、音声区間検出によって、人間の発声部分のみを取り出す。そして、音声区間検出部3は、音声区間の開始時刻と終了時刻の系列を出力する。
(iii)S303
音声認識部4は、通話取得部2が取得した通話音声ファイルの内容をテキスト情報に変換する。ここでは、公知の音声認識技術を用いることができるため、その内容についての説明は省略する。なお、認識誤りを低減するために、音声区間検出部3の出力を用いて、音声区間のみを音声認識の対象とすることが望ましい。また、音声認識結果として、単語単位の情報に加え、音節単位の情報を出力することができることが、後述する非言語特徴量抽出部5の処理を実行する上では望ましい。
(iv)S304
非言語特徴量抽出部5は、通話取得部2が取得した通話音声ファイルから非言語特徴量を抽出する。抽出する非言語情報としては、例えば、録音時間、発言時間、発言回数、音量、テンポ、フィラー数を挙げることができる。ここで、録音時間は、音声ファイルにおけるサンプル数から算出できる。発言時間は、音声区間の長さから算出できる。発言回数は、音声区間検出部3の出力を用いて、音声区間の数から算出できる。音量は、音声区間における音声サンプルのパワーの平均に基づいて算出できる。テンポは、音声認識結果の音節数を音声区間の長さで割ることにより算出できる。フィラー数は、音声認識結果に含まれる「えー」や「あのー」といった言語的意味の小さな単語の数から算出できる。
また、非言語特徴量抽出部5は、発言時間、発言回数、音量、テンポ、フィラー数に関し、録音IDごとに、送信側音声ファイルと受信側音声ファイルの双方から算出した結果に基づき、その比率を算出した結果を非言語特徴量として追加する。さらに、非言語特徴量抽出部5は、音声区間検出部3の出力を用いて、送信側と受信側が同時に発話している回数および時間をかぶり回数及びかぶり時間(これらは顧客のイライラの程度や会話の盛り上がり度合いを示す指標として用いられる:かぶり時間が長ければ長いほど、顧客はイライラしていたり、会話が盛り上がっていると判断することができる)として出力する。また、非言語特徴量抽出部5は、送信側と受信側がともに発話していない区間が所定の秒数(例えば3秒)を超える回数を沈黙回数、その沈黙区間における継続時間の合計を沈黙時間として出力する。なお、本明細書では、録音IDは1つの通話に対応して付与される識別子の意味である。
<通話音声データベースの内容>
ここでは、上述の通話登録処理(図3)によって生成される通話音声データベース6の内容について説明する。通話音声データベース6は、通話取得部2が取得した通話音声と、音声区間検出部3の出力結果と、音声認識部4の出力結果と非言語特徴量抽出部5の出力結果を格納する。つまり、通話音声データベース6は、通話テーブルと、音声区間検出テーブルと、音声認識テーブルと、非言語特徴テーブルと、対話非言語特徴テーブルと、を含んでいる。図4は、通話音声データベース6の構成例を示す図である。
通話テーブル401は、通話を一意に特定するための録音IDと、オペレータの内線番号と、相手先番号(顧客電話番号)と、録音時刻と、送信音声及び受信音声のそれぞれのファイルパスと、を構成情報として含んでいる。内線番号から音声ファイルのデータは、通話取得部2によって取得されたものである。
音声区間検出テーブル402は、音声ファイルごとに、音声区間検出部3が検出した音声区間の開始時刻と終了時刻の系列を格納している。ここでは、音声ファイル中の相対秒数の数値をスペースで区切った文字列として表現している。当該テーブル402において、1234_send.wavはオペレータの発言音声を示し、1234_recv.wavは顧客の発言音声を示している。
音声認識テーブル403は、音声ファイルごとに、音声認識部4が出力するテキスト情報を格納している。ここでは、音声区間ごとの音声認識結果のテキストをスペースで区切った文字列として表現している。
非言語特徴テーブル404は、音声ファイルごとに、非言語特徴量抽出部5が抽出した非言語特徴量を格納する。
対話非言語特徴テーブル405には、録音IDごとに、非言語特徴量抽出部5が出力した非言語特徴量を保存している。ここで、録音時間=オペレータ及び顧客の発言時間合計+沈黙時間−かぶり時間という関係が成立する。
<キーワードリスト生成処理>
図5は、本発明の実施形態によるキーワードリスト生成処理を説明するためのフローチャートである。
(i)S501
キーワード候補生成部7は、通話音声データベース6の音声認識テーブル403に蓄積された認識結果系列から、キーワード候補を生成する。ここでは、認識結果系列に含まれる所定の文字数(例えば8文字)からなる文字列を抽出し、その各文字列が含まれる通話の出現回数を算出する。そのうち所定の件数(例えば10)以上現れる文字列をキーワード候補として出力する。キーワードリスト8は、キーワード候補生成部7が出力するキーワード候補を出現回数とともに格納する。なお、S501におけるキーワード候補生成処理は、全ての通話音声データにおける全ての認識結果系列に対して実行される。また、認識結果系列から抽出される文字列としては、例えば、「引き継ぎの連絡を」等、切りの良い文字列だけでなく、「らの引き継ぎの連」等、単語の途中から始まる(切りの良くない)文字列も含まれることになる。
(ii)S502
通話検索部9は、入力されたキーワード(S501で抽出されたキーワード候補のそれぞれについて)に基づいて通話音声データベース6の音声認識テーブル403を検索し、キーワードが含まれる通話音声のリストを出力する。ここでは、公知のテキスト全文検索技術を用いることで、効率的に検索することができる。
(iii)S503
非言語特徴量分散算出部10は、通話検索部9が出力した通話音声のリストについて、通話音声データベース6の非言語特徴テーブル404および対話非言語特徴テーブル405を用いて非言語特徴を取得し、取得されたそれぞれの非言語特徴について分散値を算出する。また、非言語特徴量分散算出部10は、キーワードリスト8に、算出された非言語特徴の分散値を格納する。なお、ここでは、少なくとも分散値を算出するが、通話音声のリストにおける非言語特徴量の分布をより詳細に表現する値として、平均値やヒストグラムなどを加えてもよい。本実施形態では、平均値を算出することにする。
<キーワードリストの構成例>
図6は、キーワードリスト8の構成例を示す図である。キーワードリスト8は、キーワードが含まれる通話の件数を示す出現回数と、キーワードごとに算出された非言語特徴量の録音時間平均値と、その分散値と、を構成情報として有している。なお、キーワードによる通話検索を行わない場合を「(絞り込みなし)」として、全通話の出現回数、全通話での非言語特徴量の平均値と分散値が格納される。なお、図6では、非言語特徴量として録音時間の分散の小さいものを抽出する例を挙げている。
図6において、例えば、8文字からなるキーワード候補として「申し訳ありません」「引き継ぎの連絡を」「HT製作所ですが」などが挙げられていると仮定する。これらを、単純に出現回数に基づいて並べ替えると、「申し訳ありません」が良く出てくるキーワードとして抽出される。しかし、「申し訳ありません」を含む音声を検索したところで、結果となる通話音声のリストは、あらゆる目的の通話が混在している可能性が高い。一方、録音時間の分散値を小さい順に並べ替えると、「引き継ぎの連絡を」というキーワードが抽出される。これは、「引き継ぎの連絡を」というキーワードを含む通話は、同じような録音時間で終了することが多いことを意味している。さらに、録音時間の平均値を見ると、絞り込みなしの場合と比べて小さい。これは、このキーワードによって絞り込まれる通話が、録音時間の短いところに集中していることを示すが、このような偏りが通話の目的を限定していると考えられる。受付担当者が顧客の新規の問合せを受け付けるための通話や、専門担当者が顧客へ調査内容を回答するための通話には、このキーワードが含まれないが、問合せ内容についてコールセンタの担当者間で引き継ぐための通話には、このキーワードが含まれる。
このように、録音時間の分散値が小さいキーワードを選ぶことは、通話の目的の限定に繋がる。他にも、専門担当者が顧客へ調査内容を回答するための通話は、オペレータの発言時間が多く、顧客は相槌が中心となるため、発言比率の平均値の分散が小さくなる。
また、かぶり回数・かぶり時間・沈黙時間・送信側のフィラー数といった非言語特徴量の分散値が小さくなるキーワードは、顧客の満足度が低い通話を限定することに繋がる。
ここでは例として、一つの非言語特徴量の分散値を見ることで、通話の目的を限定するキーワードを抽出する例を示したが、より一般的には、絞り込み後の分布の偏りを評価し、その偏りの大きなものを選択することが考えられる。例えば、分散値の代わりにヒストグラムを算出しておけば、ヒストグラムのエントロピーを用いて、エントロピーが小さいものを選ぶようにすることができる。この方法は、分散値のように、非言語特徴量の分布が正規分布であることを仮定する必要がないため、非言語情報の偏りが大きいものを選択することができるようになる。
また、別の例としては、絞り込み前の分布と絞り込み後の分布の間で、カルバック・ライブラー情報量を算出し、情報量が大きいものを選択するようにしてもよい。この方法では、絞り込み前の分布からの差異を評価するため、平均値のずれが大きいことなども考慮したキーワードの選択が可能となる。
さらに、別の例としては、複数の非言語特徴量からなる多変量に関する分散値を算出するようにしてもよい。実際には、複数の非言語特徴量が同時に偏る場合も考えられる、この方法を用いれば、複数の観点で分布の偏りが大きくなるキーワードの選択が可能となる。
なお、分散値、ヒストグラムのエントロピー、及びカルバック・ライブラー情報量等を総称して、「分布の偏りを示す統計量」とすることができる。
<通話検索処理>
図7は、本発明の実施形態による通話検索処理を説明するためのフローチャートである。
(i)S701
キーワード提示部11は、非言語特徴量分散算出部10が算出し、キーワードリスト8に格納した分散値に基づき、分散値の小さいキーワードのリスト(分散値が最小のキーワードから所定個数のキーワード)を利用者端末210の画面211に提示する。なお、分散値が小さい所定数のキーワードを、さらに、以前に選択された回数が多い順に並べ替えて提示するようにしても良い。
利用者は、画面211に提示されたキーワードを選択することによって、キーボード212を用いてキーワードを入力する場合と同等の処理が行われるように構成する。
図8は、検索画面の構成例を示す図である。検索画面801は、検索キーワード入力ボックス802と、検索実行ボタン803と、を有する。利用者がマウス213で検索実行ボタン803を選択すると、利用者端末210は、キーボード212により検索キーワード入力ボックス802に入力されたキーワードを通話録音検索サーバ1へ送信する。さらに、検索画面801は、キーワード選択ボタン804を含み、非言語特徴量の分散値の小さいキーワードを提示(分散値が最小となるキーワードは少なくとも提示、或いは、分散値が小さい順に所定個数のキーワードを提示)し、利用者が提示されたキーワードを選択できるようにしている。提示されたキーワードを見た利用者は、経験により、どのキーワードがどのような目的で使われているか認識できるため、通話目的に合致した通話データを検索するために効果的なキーワードを入力することができるようになる。
(ii)S702
キーワード入力部12は、利用者端末210から受信したキーワードを受け付ける。
(iii)S703
通話検索部9は、入力されたキーワードに基づいて通話音声データベース6の音声認識テーブル403中を検索し、キーワードが含まれる通話音声のリストを出力する。
(iv)S704
検索結果提示部13は、通話検索部9が出力した通話音声のリストを利用者端末210の画面211に提示する。
図8の検索結果805は、出力された通話音声のリストの提示例を示す。この例のように、通話に関する情報に合わせて、再生ボタンなどを表示し、特定の通話録音を再生できるようにしてもよい。また、録音時刻や内線番号を表示する他、通話音声データベース6に格納された情報にアクセスして、内容を表示するようにしてもよい。
<第1の実施形態のまとめ>
以上のように、第1の実施形態によれば、通話録音(対話)から抽出した非言語特徴量(発話時間など)の分散値(分布の偏りを示す統計量)を算出し、分散値の小さいキーワードを提示することにより、通話の内容に依らず、通話の目的が共通する可能性の高い、複数の通話を検索するキーワードを抽出することができ、このキーワードにより特定の目的をもった通話のみを抽出することができる。
(2)第2の実施形態
第1の実施形態では、生成したキーワードリストを画面に提示し、選択させることによって、通話の検索をさせる例について説明した。第2の実施形態では、利用者が検索キーワード入力ボックス802に入力したキーワードに基づいて、通話の目的が共通する可能性の高い通話を絞り込めるようにする通話音声検索サーバの動作について説明する。
<通話録音検索サーバの構成>
図9は、本発明の第2の実施形態による通話録音検索サーバ1の概略構成を示すブロック図である。第2の実施形態の通話録音検索サーバ1は、第1の実施形態の通話録音検索サーバ1の構成に加えて、利用者が入力したキーワードを変換するキーワード変換部91を備える。例えば、利用者が「引き継ぎ」と入力した場合、キーワード変換部91は、「引き継ぎの連絡を」と変換する。「引き継ぎ」だけで通話録音検索を実行すると通話目的が異なる通話まで抽出されてしまうが、変換された「引き継ぎの連絡を」というキーワードを用いて検索すると、より通話目的に合致した通話を抽出することができるようになる。これにより、利用者は、より正確なキーワードを入力することを意識せずに、検索で用いるキーワードを入力することが可能となる。なお、検索結果提示と共に、変換されて実際の検索に用いたキーワードを提示するようにしても良い。これにより、利用者の注意を喚起し、次回の検索の際に、より適切なキーワードの入力が可能となるようにサポートできるようになる。
<通話検索処理>
図10は、本発明の第2の実施形態による通話検索処理を説明するためのフローチャートである。
(i)S1001
キーワード入力部12は、利用者端末210から受信したキーワードを受け付ける。ここでは、例えば「引き継ぎ」というテキストが入力されたものと仮定する。
(ii)S1002
キーワード変換部91は、入力されたキーワードをキーワードリスト8に存在する非言語特徴量の分散値が小さいキーワードに変換する。例えば、入力されたキーワード「引き継ぎ」を含んでいるキーワードをキーワードリスト8から検索することで、「引き継ぎの連絡を」というキーワードに変換する。キーワードリスト8中の複数のキーワードが該当するときは、最も分散値の小さなキーワードに変換する。
(iii)S1003
通話検索部9は、変換されたキーワードに基づいて通話音声データベース6の音声認識テーブル403を検索し、当該キーワードが含まれる通話音声のリストを出力する。
(iv)S1004
検索結果提示部13は、通話検索部9が出力した通話音声のリストを利用者端末210の画面211に提示する。
このようにすることで、入力されたキーワードを、通話の目的の絞り込みに適したキーワードに変換した上で、検索結果が得られる。実際、キーワードは形態論上の単語で入力される場合が多いが、実際の通話音声に対しては、複数単語からなる長いフレーズに拡張した方が、有効な絞り込みができることが多い。第2の実施形態はこのような特性を考慮したものであり、通常のキーワード検索の画面を用いながら、自動的に検索キーワードの変換を行うことを可能とする。
<第2の実施形態のまとめ>
以上のように、第2の実施形態によれば、利用者が入力したキーワードを含む文字列であって、非言語特徴量の小さい文字列に入力キーワードを自動的に変換してから通話音声を検索するので、利用者はどのキーワードが通話目的検索に適するかということを意識せずに、検索で用いるキーワードを入力することが可能となる。
(3)変形例
上述した実施形態では、通話音声データの検索サーバとしての例を示したが、本発明は、音声に限らず対話を含んだデータの検索に広く適用できる。例えば、テキストチャットなどにおいても、テキスト内容およびメッセージの送信時刻の系列から、発言回数、発言時間(文字数)、音量(文字サイズ)、フィラー数といった非言語特徴量を抽出することが可能である。また、対象を動画データに拡げると音声を分析して得られる非言語特徴量に加えて、画像処理結果から人物の存在割合、輝度のダイナミックレンジ、動き検出ベクトルの大きさなどを非言語特徴量として加えることができる。
本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施形態では、コールセンタにおける通話録音装置と連携した通話録音検索システムを想定したが、例えば、対話を想定したものであれば、多拠点ビデオ会議における議事録検索システムや、テキストチャットを用いるソーシャルネットワークサービスにおける検索システムなど、様々なシステムに適用することが出来る。
本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できる。更に、汎用目的の多様なタイプのデバイスが使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益である場合もある。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。つまり、通話録音検索の各種機能の一部又は全部が、例えば集積回路等の電子部品を用いたハードウェアにより実現されてもよい。本分野における当業者であれば、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが理解される。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
1・・・通話録音検索サーバ
2・・・通話取得部
3・・・音声区間検出部
4・・・音声認識部
5・・・非言語特徴量抽出部
6・・・通話音声データベース
7・・・キーワード候補生成部
8・・・キーワードリスト
9・・・通話検索部
10・・・非言語特徴量分散算出部
11・・・キーワード提示部
91・・・キーワード変換部

Claims (15)

  1. 入力されたキーワードに従って、該当する対話データを検索する検索サーバであって、
    各種プログラムを格納するメモリと、
    前記メモリから前記各種プログラムを読み込み、対話が記録された対話データからキーワード文字列を抽出して出力するプロセッサと、を有し、
    前記プロセッサは、
    前記対話データから所定文字数の文字列を抽出し、
    前記抽出された文字列が含まれる対話データを取得し、
    前記取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出し、
    前記抽出された非言語特徴量の分布の偏りを示す統計量を算出し、
    少なくとも前記統計量が最小の文字列を検索用キーワードとして出力するように構成されることを特徴とする検索サーバ。
  2. 請求項1において、
    前記対話データは通話音声データであり、
    前記プロセッサは、前記通話音声データに対して音声認識処理を実行して認識結果を取得し、当該認識結果から前記所定文字数の文字列を抽出するように構成されることを特徴とする検索サーバ。
  3. 請求項1において、
    前記プロセッサは、対話における発言の時刻および継続時間に基づいて算出して得られる、対話の継続時間、発言量、発言回数、及び無発言時間の少なくとも1つを前記非言語特徴量とするように構成されることを特徴とする検索サーバ。
  4. 請求項1において、
    前記プロセッサは、言語的意味の小さな単語であるフィラーの出現回数から前記非言語特徴量を算出するように構成されることを特徴とする検索サーバ。
  5. 請求項1において、
    前記プロセッサは、前記所定文字数の文字列のうち、前記対話データにおいて出現回数が所定回数以上の文字列をキーワード候補として生成し、当該キーワード候補が含まれる対話データを検索するように構成されることを特徴とする検索サーバ。
  6. 請求項1において、
    前記プロセッサは、キーワードの入力を受け付け、当該入力されたキーワードを含む文字列であって、前記統計量が最小の文字列を前記検索用キーワードとし、前記対話データを検索して検索結果を出力するように構成されることを特徴とする検索サーバ。
  7. 請求項1において、
    前記統計量は、前記非言語特徴量の分散値、前記非言語特徴量のヒストグラムのエントロピー、或いは、前記非言語特徴量のヒストグラムと全対話から抽出した非言語特徴量のヒストグラムとの間のカルバック・ライブラー情報量であることを特徴とする検索サーバ。
  8. 請求項1において、
    前記プロセッサは、前記出力した検索用キーワードの中から指定されたキーワードを用いて前記対話データを検索して検索結果を提示するように構成されることを特徴とする検索サーバ。
  9. 検索サーバにおいて、入力されたキーワードに従って、該当する対話データを検索する検索方法であって、
    前記検索サーバは、各種プログラムを格納するメモリと、前記メモリから前記各種プログラムを読み込み、対話が記録された対話データからキーワード文字列を抽出して出力するプロセッサと、を有し、
    前記プロセッサが、前記対話データから所定文字数の文字列を抽出するステップと、
    前記プロセッサが、前記抽出された文字列が含まれる対話データを取得するステップと、
    前記プロセッサが、前記取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出するステップと、
    前記プロセッサが、前記抽出された非言語特徴量の分布の偏りを示す統計量を算出するステップと、
    前記プロセッサが、少なくとも前記統計量が最小の文字列を検索用キーワードとして出力するステップと、
    前記プロセッサが、前記出力した検索用キーワードの中から指定されたキーワードを用いて前記対話データを検索して検索結果を取得するステップと、
    前記プロセッサが、前記検索結果を提示するステップと、
    を含むことを特徴とする検索方法。
  10. 請求項9において、
    前記対話データは通話音声データであり、
    さらに、前記プロセッサが、前記通話音声データに対して音声認識処理を実行して認識結果を取得するステップを含み、
    前記所定文字数の文字列を抽出するステップにおいて、前記プロセッサは、前記認識結果から前記所定文字数の文字列を抽出することを特徴とする検索方法。
  11. 請求項9において、
    前記非言語特徴量を抽出するステップにおいて、前記プロセッサは、対話における発言の時刻および継続時間に基づいて算出して得られる、対話の継続時間、発言量、発言回数、及び無発言時間の少なくとも1つを前記非言語特徴量とすることを特徴とする検索方法。
  12. 請求項9において、
    前記非言語特徴量を抽出するステップにおいて、前記プロセッサは、言語的意味の小さな単語であるフィラーの出現回数から前記非言語特徴量を算出することを特徴とする検索方法。
  13. 請求項9において、
    前記対話データを取得するステップにおいて、前記プロセッサは、前記所定文字数の文字列のうち、前記対話データにおいて出現回数が所定回数以上の文字列をキーワード候補として生成し、当該キーワード候補が含まれる対話データを取得することを特徴とする検索方法。
  14. 請求項9において、
    前記検索結果を取得するステップにおいて、前記プロセッサは、キーワードの入力を受け付け、当該入力されたキーワードを含む文字列であって、前記統計量が最小の文字列を前記検索用キーワードとし、前記対話データを検索することを特徴とする検索方法。
  15. 請求項9において、
    前記統計量は、前記非言語特徴量の分散値、前記非言語特徴量のヒストグラムのエントロピー、或いは、前記非言語特徴量のヒストグラムと全対話から抽出した非言語特徴量のヒストグラムとの間のカルバック・ライブラー情報量であることを特徴とする検索方法。
JP2014190183A 2014-09-18 2014-09-18 検索サーバ、及び検索方法 Active JP6254504B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014190183A JP6254504B2 (ja) 2014-09-18 2014-09-18 検索サーバ、及び検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014190183A JP6254504B2 (ja) 2014-09-18 2014-09-18 検索サーバ、及び検索方法

Publications (2)

Publication Number Publication Date
JP2016062333A true JP2016062333A (ja) 2016-04-25
JP6254504B2 JP6254504B2 (ja) 2017-12-27

Family

ID=55796038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014190183A Active JP6254504B2 (ja) 2014-09-18 2014-09-18 検索サーバ、及び検索方法

Country Status (1)

Country Link
JP (1) JP6254504B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139625A (ja) * 2018-02-14 2019-08-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2020126185A (ja) * 2019-02-06 2020-08-20 日本電信電話株式会社 音声認識装置、検索装置、音声認識方法、検索方法およびプログラム
JP2021039537A (ja) * 2019-09-03 2021-03-11 Kddi株式会社 応対評価装置、応対評価方法及びコンピュータプログラム
WO2023120737A1 (ja) * 2021-12-24 2023-06-29 ダイキン工業株式会社 コンテンツ提案装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003036271A (ja) * 2001-07-23 2003-02-07 Fujitsu Ltd 対話型情報検索装置
JP2005242891A (ja) * 2004-02-27 2005-09-08 Fujitsu Ltd 事例検索プログラム
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US20070019793A1 (en) * 2005-06-30 2007-01-25 Cheng Yan M Method and apparatus for generating and updating a voice tag
JP2009216986A (ja) * 2008-03-11 2009-09-24 Hitachi Ltd 音声データ検索システム及び音声データの検索方法
JP2012159596A (ja) * 2011-01-31 2012-08-23 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003036271A (ja) * 2001-07-23 2003-02-07 Fujitsu Ltd 対話型情報検索装置
JP2005242891A (ja) * 2004-02-27 2005-09-08 Fujitsu Ltd 事例検索プログラム
JP2006227628A (ja) * 2005-02-18 2006-08-31 Samsung Electronics Co Ltd フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US20070019793A1 (en) * 2005-06-30 2007-01-25 Cheng Yan M Method and apparatus for generating and updating a voice tag
JP2009216986A (ja) * 2008-03-11 2009-09-24 Hitachi Ltd 音声データ検索システム及び音声データの検索方法
JP2012159596A (ja) * 2011-01-31 2012-08-23 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法、情報処理システム、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019139625A (ja) * 2018-02-14 2019-08-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP7098949B2 (ja) 2018-02-14 2022-07-12 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
JP2020126185A (ja) * 2019-02-06 2020-08-20 日本電信電話株式会社 音声認識装置、検索装置、音声認識方法、検索方法およびプログラム
JP7177348B2 (ja) 2019-02-06 2022-11-24 日本電信電話株式会社 音声認識装置、音声認識方法およびプログラム
US11990136B2 (en) 2019-02-06 2024-05-21 Nippon Telegraph And Telephone Corporation Speech recognition device, search device, speech recognition method, search method, and program
JP2021039537A (ja) * 2019-09-03 2021-03-11 Kddi株式会社 応対評価装置、応対評価方法及びコンピュータプログラム
JP7195236B2 (ja) 2019-09-03 2022-12-23 Kddi株式会社 応対評価装置、応対評価方法及びコンピュータプログラム
WO2023120737A1 (ja) * 2021-12-24 2023-06-29 ダイキン工業株式会社 コンテンツ提案装置

Also Published As

Publication number Publication date
JP6254504B2 (ja) 2017-12-27

Similar Documents

Publication Publication Date Title
US7788095B2 (en) Method and apparatus for fast search in call-center monitoring
US10592611B2 (en) System for automatic extraction of structure from spoken conversation using lexical and acoustic features
US10489451B2 (en) Voice search system, voice search method, and computer-readable storage medium
JP6210239B2 (ja) 会話解析装置、会話解析方法及びプログラム
JP6604836B2 (ja) 対話テキスト要約装置及び方法
US10229676B2 (en) Phrase spotting systems and methods
US8145482B2 (en) Enhancing analysis of test key phrases from acoustic sources with key phrase training models
KR101615848B1 (ko) 유사상황 검색을 통한 대화 스티커 추천방법 및 컴퓨터 프로그램
KR20120038000A (ko) 대화의 주제를 결정하고 관련 콘텐트를 획득 및 제시하는 방법 및 시스템
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
US20130253932A1 (en) Conversation supporting device, conversation supporting method and conversation supporting program
US20200013389A1 (en) Word extraction device, related conference extraction system, and word extraction method
JP6254504B2 (ja) 検索サーバ、及び検索方法
JP2018197924A (ja) 情報処理装置、対話処理方法、及び対話処理プログラム
CN114760387A (zh) 管理保持的方法和装置
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
JP5574842B2 (ja) Faq候補抽出システムおよびfaq候補抽出プログラム
JP6183841B2 (ja) Ngワードの兆候を把握するコールセンタ用語管理システム及びその方法
JPWO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP5691174B2 (ja) オペレータ選定装置、オペレータ選定プログラム、オペレータ評価装置、オペレータ評価プログラム及びオペレータ評価方法
US10824520B2 (en) Restoring automated assistant sessions
JP2023173036A (ja) 対話情報抽出装置及び対話情報抽出方法
US10657202B2 (en) Cognitive presentation system and method
CN111859006A (zh) 建立语音词条树的方法、系统、电子设备、存储介质
JP7103681B2 (ja) 音声認識プログラム、音声認識方法、音声認識装置および音声認識システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171130

R151 Written notification of patent or utility model registration

Ref document number: 6254504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151