JP2016062333A

JP2016062333A - 検索サーバ、及び検索方法

Info

Publication number: JP2016062333A
Application number: JP2014190183A
Authority: JP
Inventors: 藤田　雄介; Yusuke Fujita; 雄介藤田; 龍武田; Ryu Takeda
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2014-09-18
Filing date: 2014-09-18
Publication date: 2016-04-25
Anticipated expiration: 2034-09-18
Also published as: JP6254504B2

Abstract

【課題】対話の目的を絞り込むために有効なキーワードを自動的に抽出し、そのキーワードを用いた検索を可能とするための技術を提供する。
【解決手段】本発明による検索サーバは、対話データから所定文字数の文字列を抽出し、抽出された文字列が含まれる対話データを取得し、取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出し、抽出された非言語特徴量の分布の偏りを示す統計量を算出し、少なくとも統計量が最小の文字列を検索用キーワードとして出力する処理を実行する。このように、対話の非言語特徴量の分散値が小さくなるキーワードを用いることにより、対話の目的が共通する可能性の高い複数の対話を検索することが可能となる。
【選択図】図１

Description

本発明は、検索サーバ、及び検索方法に関する。

現在、多くのコールセンタにおいて、オペレータと顧客が話している内容は通話録音装置で録音されており、通話録音データベースのサイズは年々増加を続けている。このような通話録音データベースから特定のキーワードを含む通話を自動的に抽出することができれば、コールセンタ業務の品質や効率の向上やマーケティングへの活用に繋がると期待される。

通話録音データベースから特定のキーワードを含む通話録音を抽出するためには、検索サーバが用いられる。検索サーバは、あらかじめ音声認識技術を用いて、通話録音の内容をテキストに変換し、データベースに蓄積しておく。その後、検索サーバは、利用者のキーワード入力に基づいて、データベースに蓄積されたテキストを検索することにより、通話録音にキーワードが含まれるかを判定し、キーワードを含む通話録音のリストを表示する（例えば、特許文献１）。

ところで、通話録音データには様々な目的をもったものが混在する。例えば、受付担当者が顧客の新規の問合せを受け付けるための通話、専門担当者が顧客へ調査内容を回答するための通話、問合せ内容についてコールセンタの担当者間で引き継ぐための通話などがある。担当者が通話終了後にこれら通話の目的についてタグ付けを行えば通話目的の分類は容易になるが、担当者の作業量を増やすことになり望ましくない。

従って、検索サーバにはこれら通話の目的を考慮して検索が行える機能を備えることが望まれる。しかしながら、キーワードによって通話の目的を限定することは容易ではない。例えば、受付担当者が顧客の新規の問合せを受け付けるための通話を抽出するために、「新規の問合せ」といったキーワードで検索することが考えられる。ところが、同様のキーワードは問合せ内容について担当者間で引き継ぐための通話にも用いられる場合がある。従って、このキーワードだけでは特定の目的に合致する通話を絞り込めない。実際の利用場面では、コールセンタでの通話内容をよく知るスーパーバイザが、経験や勘に基づいて、いくつかのキーワードを試行錯誤することが必要となっている。

特開２０００−２２２４２５号公報

通話検索のための技術は、特許文献１に示されるように確立されているが、利用者がどのようなキーワードを入力すれば所望のデータが得られるのか判断することは非常に困難である。

従って、検索サーバにおいて、どのようなキーワードを入力すれば対話の目的を絞り込むために有効であるかを知ることは、利用者にとって有用である。

本発明はこのような点に鑑みてなされたものであり、対話の目的を絞り込むために有効なキーワードを自動的に抽出し、そのキーワードを用いた検索を可能とするための技術を提供するものである。

上記課題を解決するために、本発明では、検索サーバは、対話データから所定文字数の文字列を抽出し、抽出された文字列が含まれる対話データを取得し、取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出し、抽出された非言語特徴量の分布の偏りを示す統計量を算出し、少なくとも統計量が最小の文字列を検索用キーワードとして出力する処理を実行する。

本発明に関連する更なる特徴（課題、構成及び効果）は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。

本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

本発明によれば、対話の目的を絞り込むために有効なキーワードを自動的に抽出し、そのキーワードを用いて、効率的に対話データを検索することができるようになる。

本発明の第１の実施形態による通話録音検索サーバの概略構成を示すブロック図である。通話録音検索サーバのハードウェア構成例を示す図である。本発明の実施形態における通話登録処理を説明するためのフローチャートである。本発明の実施形態による通話音声データベースの構成例を示す図である。本発明の実施形態におけるキーワードリスト生成処理を説明するためのフローチャートである。本発明の実施形態によるキーワードリストの構成例を示す図である。本発明の第１の実施形態における通話検索処理を説明するためのフローチャートである。本発明の第１の実施形態による検索画面の構成例を示す図である。本発明の第２の実施形態による通話録音検索サーバの概略構成を示すブロック図である。本発明の第２の実施形態における通話検索処理を説明するためのフローチャートである。

以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

以下では、各処理部（通話検索部や非言語特徴量分散算出部等）で表現されている「プログラム」を主語（動作主体）として本発明の実施形態における各処理について説明を行うが、プログラムはＣＰＵ（プロセッサ）によって実行されることで定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。

本発明の実施形態は、対話目的に沿った対話をデータベースから抽出するために有益なキーワード候補を提示する技術に関するものであり、トレンドワードや使用頻度が高いワードを提示したり、音声検索によく使われ、検索しやすいワードを提示したりする技術とは、通話目的指向の検索を提供するという点で、一線を画すものである。

（１）第１の実施形態
本発明の実施形態では、通話録音検索サーバを例にして説明することとする。

＜通話録音検索サーバの構成＞
図１は、本発明の第１の実施形態による通話録音検索サーバ１の概略構成を示すブロック図である。
通話録音検索サーバ１は、通話取得部２と、音声区間検出部３と、音声認識部４と、非言語特徴量抽出部５と、通話音声データベース６と、キーワード候補生成部７と、キーワードリスト８と、通話検索部９と、非言語特徴量分散算出部１０と、キーワード提示部１１と、キーワード入力部１２と、検索結果提示部１３と、を有している。各部の具体的処理内容については詳細に後述する。

図２は、第１の実施形態による通話録音検索サーバ１のハードウェア構成例を示す図である。通話録音検索サーバ１は、ＣＰＵ２０１と、メモリ２０２と、ＨＤＤ２０３と、ネットワークアダプタ２０４と、を有している。ネットワークアダプタ２０４は、ＬＡＮ２０５に接続される。メモリ２０２は、通話取得部２、音声区間検出部３、音声認識部４、非言語特徴量抽出部５、キーワード候補生成部７、通話検索部９、非言語特徴量分散算出部１０、キーワード提示部１１、キーワード入力部１２、及び検索結果提示部１３のそれぞれの処理を行うためのプログラムを格納している。ＨＤＤ２０３は、通話音声データベース６と、キーワードリスト８とを格納している。ＣＰＵ２０１がメモリ２０２に格納された各プログラムを実行することによって、各部の機能が実現される。

また、通話録音検索サーバ１は、ＬＡＮ２０５を介して利用者端末２１０と接続される。利用者端末２１０は、画面２１１と、キーボード２１２と、マウス２１３と、を有している。利用者端末２１０は、キーボード２１２で入力した情報やマウス２１３で画面２１１上の領域を選択した情報を通話録音検索サーバ１に送信し、通話録音検索サーバ１から受信した情報を画面２１１に表示する機能を備える。

なお、各処理部２乃至５、７、９乃至１３、通話音声データベース６、及びキーワードリスト８の少なくとも１つが、ネットワークを介して遠隔的に設置されるようにしても良い。この場合、通話録音検索サーバ１が遠隔的に設置されたデータベース等から必要に応じてデータを取得したり、遠隔的に設置された各処理部で処理されたデータを取得したりすることとなる。

以上の構成による通話録音検索サーバ１が実行する処理には、通話登録処理、キーワードリスト生成処理、及び通話検索処理が含まれる。以下、それぞれについて詳細に説明する。

＜通話登録処理＞
図３は、本発明の実施形態による通話登録処理を説明するためのフローチャートである。

（i）Ｓ３０１
通話取得部２は、ネットワークアダプタ２０４を介してＬＡＮ２０５上を流れるパケットを取得し、通話毎に音声ファイルを作成する。ここで、通話とは、顧客からオペレータに電話がつながった時点から当該電話が切られて終了する時点までをいうものとする。また、ここでは、ＩＰ電話に基づく公知の録音システムが利用でき、音声ファイルに録音時刻や内線番号、相手先番号などを紐づけて管理することができる。さらに、一つの通話からは、送信側と受信側の２つの音声ファイルが作成される。

（ii）Ｓ３０２
音声区間検出部３は、通話取得部２が取得した音声ファイルから音声区間を検出する。ここで、音声区間とは、音声ファイル中で発話が存在する区間、或いは音声ファイルから沈黙や保留区間を除いた区間である。音声区間を検出する方法は公知の技術により実現できる。例えば、音声パワーの閾値に基づく方法、または、音響特徴量のパタン識別に基づく方法などがある。通話音声中には、人間の発声のほか、無音区間、保留音などがあるが、音声区間検出によって、人間の発声部分のみを取り出す。そして、音声区間検出部３は、音声区間の開始時刻と終了時刻の系列を出力する。

（iii）Ｓ３０３
音声認識部４は、通話取得部２が取得した通話音声ファイルの内容をテキスト情報に変換する。ここでは、公知の音声認識技術を用いることができるため、その内容についての説明は省略する。なお、認識誤りを低減するために、音声区間検出部３の出力を用いて、音声区間のみを音声認識の対象とすることが望ましい。また、音声認識結果として、単語単位の情報に加え、音節単位の情報を出力することができることが、後述する非言語特徴量抽出部５の処理を実行する上では望ましい。

（iv）Ｓ３０４
非言語特徴量抽出部５は、通話取得部２が取得した通話音声ファイルから非言語特徴量を抽出する。抽出する非言語情報としては、例えば、録音時間、発言時間、発言回数、音量、テンポ、フィラー数を挙げることができる。ここで、録音時間は、音声ファイルにおけるサンプル数から算出できる。発言時間は、音声区間の長さから算出できる。発言回数は、音声区間検出部３の出力を用いて、音声区間の数から算出できる。音量は、音声区間における音声サンプルのパワーの平均に基づいて算出できる。テンポは、音声認識結果の音節数を音声区間の長さで割ることにより算出できる。フィラー数は、音声認識結果に含まれる「えー」や「あのー」といった言語的意味の小さな単語の数から算出できる。

また、非言語特徴量抽出部５は、発言時間、発言回数、音量、テンポ、フィラー数に関し、録音ＩＤごとに、送信側音声ファイルと受信側音声ファイルの双方から算出した結果に基づき、その比率を算出した結果を非言語特徴量として追加する。さらに、非言語特徴量抽出部５は、音声区間検出部３の出力を用いて、送信側と受信側が同時に発話している回数および時間をかぶり回数及びかぶり時間（これらは顧客のイライラの程度や会話の盛り上がり度合いを示す指標として用いられる：かぶり時間が長ければ長いほど、顧客はイライラしていたり、会話が盛り上がっていると判断することができる）として出力する。また、非言語特徴量抽出部５は、送信側と受信側がともに発話していない区間が所定の秒数（例えば３秒）を超える回数を沈黙回数、その沈黙区間における継続時間の合計を沈黙時間として出力する。なお、本明細書では、録音ＩＤは１つの通話に対応して付与される識別子の意味である。

＜通話音声データベースの内容＞
ここでは、上述の通話登録処理（図３）によって生成される通話音声データベース６の内容について説明する。通話音声データベース６は、通話取得部２が取得した通話音声と、音声区間検出部３の出力結果と、音声認識部４の出力結果と非言語特徴量抽出部５の出力結果を格納する。つまり、通話音声データベース６は、通話テーブルと、音声区間検出テーブルと、音声認識テーブルと、非言語特徴テーブルと、対話非言語特徴テーブルと、を含んでいる。図４は、通話音声データベース６の構成例を示す図である。

通話テーブル４０１は、通話を一意に特定するための録音ＩＤと、オペレータの内線番号と、相手先番号（顧客電話番号）と、録音時刻と、送信音声及び受信音声のそれぞれのファイルパスと、を構成情報として含んでいる。内線番号から音声ファイルのデータは、通話取得部２によって取得されたものである。

音声区間検出テーブル４０２は、音声ファイルごとに、音声区間検出部３が検出した音声区間の開始時刻と終了時刻の系列を格納している。ここでは、音声ファイル中の相対秒数の数値をスペースで区切った文字列として表現している。当該テーブル４０２において、1234_send.wavはオペレータの発言音声を示し、1234_recv.wavは顧客の発言音声を示している。

音声認識テーブル４０３は、音声ファイルごとに、音声認識部４が出力するテキスト情報を格納している。ここでは、音声区間ごとの音声認識結果のテキストをスペースで区切った文字列として表現している。

非言語特徴テーブル４０４は、音声ファイルごとに、非言語特徴量抽出部５が抽出した非言語特徴量を格納する。

対話非言語特徴テーブル４０５には、録音ＩＤごとに、非言語特徴量抽出部５が出力した非言語特徴量を保存している。ここで、録音時間＝オペレータ及び顧客の発言時間合計＋沈黙時間−かぶり時間という関係が成立する。

＜キーワードリスト生成処理＞
図５は、本発明の実施形態によるキーワードリスト生成処理を説明するためのフローチャートである。

（i）Ｓ５０１
キーワード候補生成部７は、通話音声データベース６の音声認識テーブル４０３に蓄積された認識結果系列から、キーワード候補を生成する。ここでは、認識結果系列に含まれる所定の文字数（例えば８文字）からなる文字列を抽出し、その各文字列が含まれる通話の出現回数を算出する。そのうち所定の件数（例えば１０）以上現れる文字列をキーワード候補として出力する。キーワードリスト８は、キーワード候補生成部７が出力するキーワード候補を出現回数とともに格納する。なお、Ｓ５０１におけるキーワード候補生成処理は、全ての通話音声データにおける全ての認識結果系列に対して実行される。また、認識結果系列から抽出される文字列としては、例えば、「引き継ぎの連絡を」等、切りの良い文字列だけでなく、「らの引き継ぎの連」等、単語の途中から始まる（切りの良くない）文字列も含まれることになる。

（ii）Ｓ５０２
通話検索部９は、入力されたキーワード（Ｓ５０１で抽出されたキーワード候補のそれぞれについて）に基づいて通話音声データベース６の音声認識テーブル４０３を検索し、キーワードが含まれる通話音声のリストを出力する。ここでは、公知のテキスト全文検索技術を用いることで、効率的に検索することができる。

（iii）Ｓ５０３
非言語特徴量分散算出部１０は、通話検索部９が出力した通話音声のリストについて、通話音声データベース６の非言語特徴テーブル４０４および対話非言語特徴テーブル４０５を用いて非言語特徴を取得し、取得されたそれぞれの非言語特徴について分散値を算出する。また、非言語特徴量分散算出部１０は、キーワードリスト８に、算出された非言語特徴の分散値を格納する。なお、ここでは、少なくとも分散値を算出するが、通話音声のリストにおける非言語特徴量の分布をより詳細に表現する値として、平均値やヒストグラムなどを加えてもよい。本実施形態では、平均値を算出することにする。

＜キーワードリストの構成例＞
図６は、キーワードリスト８の構成例を示す図である。キーワードリスト８は、キーワードが含まれる通話の件数を示す出現回数と、キーワードごとに算出された非言語特徴量の録音時間平均値と、その分散値と、を構成情報として有している。なお、キーワードによる通話検索を行わない場合を「（絞り込みなし）」として、全通話の出現回数、全通話での非言語特徴量の平均値と分散値が格納される。なお、図６では、非言語特徴量として録音時間の分散の小さいものを抽出する例を挙げている。

図６において、例えば、８文字からなるキーワード候補として「申し訳ありません」「引き継ぎの連絡を」「ＨＴ製作所ですが」などが挙げられていると仮定する。これらを、単純に出現回数に基づいて並べ替えると、「申し訳ありません」が良く出てくるキーワードとして抽出される。しかし、「申し訳ありません」を含む音声を検索したところで、結果となる通話音声のリストは、あらゆる目的の通話が混在している可能性が高い。一方、録音時間の分散値を小さい順に並べ替えると、「引き継ぎの連絡を」というキーワードが抽出される。これは、「引き継ぎの連絡を」というキーワードを含む通話は、同じような録音時間で終了することが多いことを意味している。さらに、録音時間の平均値を見ると、絞り込みなしの場合と比べて小さい。これは、このキーワードによって絞り込まれる通話が、録音時間の短いところに集中していることを示すが、このような偏りが通話の目的を限定していると考えられる。受付担当者が顧客の新規の問合せを受け付けるための通話や、専門担当者が顧客へ調査内容を回答するための通話には、このキーワードが含まれないが、問合せ内容についてコールセンタの担当者間で引き継ぐための通話には、このキーワードが含まれる。

このように、録音時間の分散値が小さいキーワードを選ぶことは、通話の目的の限定に繋がる。他にも、専門担当者が顧客へ調査内容を回答するための通話は、オペレータの発言時間が多く、顧客は相槌が中心となるため、発言比率の平均値の分散が小さくなる。

また、かぶり回数・かぶり時間・沈黙時間・送信側のフィラー数といった非言語特徴量の分散値が小さくなるキーワードは、顧客の満足度が低い通話を限定することに繋がる。

ここでは例として、一つの非言語特徴量の分散値を見ることで、通話の目的を限定するキーワードを抽出する例を示したが、より一般的には、絞り込み後の分布の偏りを評価し、その偏りの大きなものを選択することが考えられる。例えば、分散値の代わりにヒストグラムを算出しておけば、ヒストグラムのエントロピーを用いて、エントロピーが小さいものを選ぶようにすることができる。この方法は、分散値のように、非言語特徴量の分布が正規分布であることを仮定する必要がないため、非言語情報の偏りが大きいものを選択することができるようになる。

また、別の例としては、絞り込み前の分布と絞り込み後の分布の間で、カルバック・ライブラー情報量を算出し、情報量が大きいものを選択するようにしてもよい。この方法では、絞り込み前の分布からの差異を評価するため、平均値のずれが大きいことなども考慮したキーワードの選択が可能となる。

さらに、別の例としては、複数の非言語特徴量からなる多変量に関する分散値を算出するようにしてもよい。実際には、複数の非言語特徴量が同時に偏る場合も考えられる、この方法を用いれば、複数の観点で分布の偏りが大きくなるキーワードの選択が可能となる。

なお、分散値、ヒストグラムのエントロピー、及びカルバック・ライブラー情報量等を総称して、「分布の偏りを示す統計量」とすることができる。

＜通話検索処理＞
図７は、本発明の実施形態による通話検索処理を説明するためのフローチャートである。

（i）Ｓ７０１
キーワード提示部１１は、非言語特徴量分散算出部１０が算出し、キーワードリスト８に格納した分散値に基づき、分散値の小さいキーワードのリスト（分散値が最小のキーワードから所定個数のキーワード）を利用者端末２１０の画面２１１に提示する。なお、分散値が小さい所定数のキーワードを、さらに、以前に選択された回数が多い順に並べ替えて提示するようにしても良い。

利用者は、画面２１１に提示されたキーワードを選択することによって、キーボード２１２を用いてキーワードを入力する場合と同等の処理が行われるように構成する。

図８は、検索画面の構成例を示す図である。検索画面８０１は、検索キーワード入力ボックス８０２と、検索実行ボタン８０３と、を有する。利用者がマウス２１３で検索実行ボタン８０３を選択すると、利用者端末２１０は、キーボード２１２により検索キーワード入力ボックス８０２に入力されたキーワードを通話録音検索サーバ１へ送信する。さらに、検索画面８０１は、キーワード選択ボタン８０４を含み、非言語特徴量の分散値の小さいキーワードを提示（分散値が最小となるキーワードは少なくとも提示、或いは、分散値が小さい順に所定個数のキーワードを提示）し、利用者が提示されたキーワードを選択できるようにしている。提示されたキーワードを見た利用者は、経験により、どのキーワードがどのような目的で使われているか認識できるため、通話目的に合致した通話データを検索するために効果的なキーワードを入力することができるようになる。

（ii）Ｓ７０２
キーワード入力部１２は、利用者端末２１０から受信したキーワードを受け付ける。

（iii）Ｓ７０３
通話検索部９は、入力されたキーワードに基づいて通話音声データベース６の音声認識テーブル４０３中を検索し、キーワードが含まれる通話音声のリストを出力する。

（iv）Ｓ７０４
検索結果提示部１３は、通話検索部９が出力した通話音声のリストを利用者端末２１０の画面２１１に提示する。

図８の検索結果８０５は、出力された通話音声のリストの提示例を示す。この例のように、通話に関する情報に合わせて、再生ボタンなどを表示し、特定の通話録音を再生できるようにしてもよい。また、録音時刻や内線番号を表示する他、通話音声データベース６に格納された情報にアクセスして、内容を表示するようにしてもよい。

＜第１の実施形態のまとめ＞
以上のように、第１の実施形態によれば、通話録音（対話）から抽出した非言語特徴量（発話時間など）の分散値（分布の偏りを示す統計量）を算出し、分散値の小さいキーワードを提示することにより、通話の内容に依らず、通話の目的が共通する可能性の高い、複数の通話を検索するキーワードを抽出することができ、このキーワードにより特定の目的をもった通話のみを抽出することができる。

（２）第２の実施形態
第１の実施形態では、生成したキーワードリストを画面に提示し、選択させることによって、通話の検索をさせる例について説明した。第２の実施形態では、利用者が検索キーワード入力ボックス８０２に入力したキーワードに基づいて、通話の目的が共通する可能性の高い通話を絞り込めるようにする通話音声検索サーバの動作について説明する。

＜通話録音検索サーバの構成＞
図９は、本発明の第２の実施形態による通話録音検索サーバ１の概略構成を示すブロック図である。第２の実施形態の通話録音検索サーバ１は、第１の実施形態の通話録音検索サーバ１の構成に加えて、利用者が入力したキーワードを変換するキーワード変換部９１を備える。例えば、利用者が「引き継ぎ」と入力した場合、キーワード変換部９１は、「引き継ぎの連絡を」と変換する。「引き継ぎ」だけで通話録音検索を実行すると通話目的が異なる通話まで抽出されてしまうが、変換された「引き継ぎの連絡を」というキーワードを用いて検索すると、より通話目的に合致した通話を抽出することができるようになる。これにより、利用者は、より正確なキーワードを入力することを意識せずに、検索で用いるキーワードを入力することが可能となる。なお、検索結果提示と共に、変換されて実際の検索に用いたキーワードを提示するようにしても良い。これにより、利用者の注意を喚起し、次回の検索の際に、より適切なキーワードの入力が可能となるようにサポートできるようになる。

＜通話検索処理＞
図１０は、本発明の第２の実施形態による通話検索処理を説明するためのフローチャートである。

（i）Ｓ１００１
キーワード入力部１２は、利用者端末２１０から受信したキーワードを受け付ける。ここでは、例えば「引き継ぎ」というテキストが入力されたものと仮定する。

（ii）Ｓ１００２
キーワード変換部９１は、入力されたキーワードをキーワードリスト８に存在する非言語特徴量の分散値が小さいキーワードに変換する。例えば、入力されたキーワード「引き継ぎ」を含んでいるキーワードをキーワードリスト８から検索することで、「引き継ぎの連絡を」というキーワードに変換する。キーワードリスト８中の複数のキーワードが該当するときは、最も分散値の小さなキーワードに変換する。

（iii）Ｓ１００３
通話検索部９は、変換されたキーワードに基づいて通話音声データベース６の音声認識テーブル４０３を検索し、当該キーワードが含まれる通話音声のリストを出力する。

（iv）Ｓ１００４
検索結果提示部１３は、通話検索部９が出力した通話音声のリストを利用者端末２１０の画面２１１に提示する。

このようにすることで、入力されたキーワードを、通話の目的の絞り込みに適したキーワードに変換した上で、検索結果が得られる。実際、キーワードは形態論上の単語で入力される場合が多いが、実際の通話音声に対しては、複数単語からなる長いフレーズに拡張した方が、有効な絞り込みができることが多い。第２の実施形態はこのような特性を考慮したものであり、通常のキーワード検索の画面を用いながら、自動的に検索キーワードの変換を行うことを可能とする。

＜第２の実施形態のまとめ＞
以上のように、第２の実施形態によれば、利用者が入力したキーワードを含む文字列であって、非言語特徴量の小さい文字列に入力キーワードを自動的に変換してから通話音声を検索するので、利用者はどのキーワードが通話目的検索に適するかということを意識せずに、検索で用いるキーワードを入力することが可能となる。

（３）変形例
上述した実施形態では、通話音声データの検索サーバとしての例を示したが、本発明は、音声に限らず対話を含んだデータの検索に広く適用できる。例えば、テキストチャットなどにおいても、テキスト内容およびメッセージの送信時刻の系列から、発言回数、発言時間（文字数）、音量（文字サイズ）、フィラー数といった非言語特徴量を抽出することが可能である。また、対象を動画データに拡げると音声を分析して得られる非言語特徴量に加えて、画像処理結果から人物の存在割合、輝度のダイナミックレンジ、動き検出ベクトルの大きさなどを非言語特徴量として加えることができる。

本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施形態では、コールセンタにおける通話録音装置と連携した通話録音検索システムを想定したが、例えば、対話を想定したものであれば、多拠点ビデオ会議における議事録検索システムや、テキストチャットを用いるソーシャルネットワークサービスにおける検索システムなど、様々なシステムに適用することが出来る。

本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できる。更に、汎用目的の多様なタイプのデバイスが使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益である場合もある。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。つまり、通話録音検索の各種機能の一部又は全部が、例えば集積回路等の電子部品を用いたハードウェアにより実現されてもよい。本分野における当業者であれば、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが理解される。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

１・・・通話録音検索サーバ
２・・・通話取得部
３・・・音声区間検出部
４・・・音声認識部
５・・・非言語特徴量抽出部
６・・・通話音声データベース
７・・・キーワード候補生成部
８・・・キーワードリスト
９・・・通話検索部
１０・・・非言語特徴量分散算出部
１１・・・キーワード提示部
９１・・・キーワード変換部

Claims

入力されたキーワードに従って、該当する対話データを検索する検索サーバであって、
各種プログラムを格納するメモリと、
前記メモリから前記各種プログラムを読み込み、対話が記録された対話データからキーワード文字列を抽出して出力するプロセッサと、を有し、
前記プロセッサは、
前記対話データから所定文字数の文字列を抽出し、
前記抽出された文字列が含まれる対話データを取得し、
前記取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出し、
前記抽出された非言語特徴量の分布の偏りを示す統計量を算出し、
少なくとも前記統計量が最小の文字列を検索用キーワードとして出力するように構成されることを特徴とする検索サーバ。
請求項１において、
前記対話データは通話音声データであり、
前記プロセッサは、前記通話音声データに対して音声認識処理を実行して認識結果を取得し、当該認識結果から前記所定文字数の文字列を抽出するように構成されることを特徴とする検索サーバ。
請求項１において、
前記プロセッサは、対話における発言の時刻および継続時間に基づいて算出して得られる、対話の継続時間、発言量、発言回数、及び無発言時間の少なくとも１つを前記非言語特徴量とするように構成されることを特徴とする検索サーバ。
請求項１において、
前記プロセッサは、言語的意味の小さな単語であるフィラーの出現回数から前記非言語特徴量を算出するように構成されることを特徴とする検索サーバ。
請求項１において、
前記プロセッサは、前記所定文字数の文字列のうち、前記対話データにおいて出現回数が所定回数以上の文字列をキーワード候補として生成し、当該キーワード候補が含まれる対話データを検索するように構成されることを特徴とする検索サーバ。
請求項１において、
前記プロセッサは、キーワードの入力を受け付け、当該入力されたキーワードを含む文字列であって、前記統計量が最小の文字列を前記検索用キーワードとし、前記対話データを検索して検索結果を出力するように構成されることを特徴とする検索サーバ。
請求項１において、
前記統計量は、前記非言語特徴量の分散値、前記非言語特徴量のヒストグラムのエントロピー、或いは、前記非言語特徴量のヒストグラムと全対話から抽出した非言語特徴量のヒストグラムとの間のカルバック・ライブラー情報量であることを特徴とする検索サーバ。
請求項１において、
前記プロセッサは、前記出力した検索用キーワードの中から指定されたキーワードを用いて前記対話データを検索して検索結果を提示するように構成されることを特徴とする検索サーバ。
検索サーバにおいて、入力されたキーワードに従って、該当する対話データを検索する検索方法であって、
前記検索サーバは、各種プログラムを格納するメモリと、前記メモリから前記各種プログラムを読み込み、対話が記録された対話データからキーワード文字列を抽出して出力するプロセッサと、を有し、
前記プロセッサが、前記対話データから所定文字数の文字列を抽出するステップと、
前記プロセッサが、前記抽出された文字列が含まれる対話データを取得するステップと、
前記プロセッサが、前記取得した対話データについて、言語情報以外の特徴量を示す非言語特徴量を抽出するステップと、
前記プロセッサが、前記抽出された非言語特徴量の分布の偏りを示す統計量を算出するステップと、
前記プロセッサが、少なくとも前記統計量が最小の文字列を検索用キーワードとして出力するステップと、
前記プロセッサが、前記出力した検索用キーワードの中から指定されたキーワードを用いて前記対話データを検索して検索結果を取得するステップと、
前記プロセッサが、前記検索結果を提示するステップと、
を含むことを特徴とする検索方法。
請求項９において、
前記対話データは通話音声データであり、
さらに、前記プロセッサが、前記通話音声データに対して音声認識処理を実行して認識結果を取得するステップを含み、
前記所定文字数の文字列を抽出するステップにおいて、前記プロセッサは、前記認識結果から前記所定文字数の文字列を抽出することを特徴とする検索方法。
請求項９において、
前記非言語特徴量を抽出するステップにおいて、前記プロセッサは、対話における発言の時刻および継続時間に基づいて算出して得られる、対話の継続時間、発言量、発言回数、及び無発言時間の少なくとも１つを前記非言語特徴量とすることを特徴とする検索方法。
請求項９において、
前記非言語特徴量を抽出するステップにおいて、前記プロセッサは、言語的意味の小さな単語であるフィラーの出現回数から前記非言語特徴量を算出することを特徴とする検索方法。
請求項９において、
前記対話データを取得するステップにおいて、前記プロセッサは、前記所定文字数の文字列のうち、前記対話データにおいて出現回数が所定回数以上の文字列をキーワード候補として生成し、当該キーワード候補が含まれる対話データを取得することを特徴とする検索方法。
請求項９において、
前記検索結果を取得するステップにおいて、前記プロセッサは、キーワードの入力を受け付け、当該入力されたキーワードを含む文字列であって、前記統計量が最小の文字列を前記検索用キーワードとし、前記対話データを検索することを特徴とする検索方法。
請求項９において、
前記統計量は、前記非言語特徴量の分散値、前記非言語特徴量のヒストグラムのエントロピー、或いは、前記非言語特徴量のヒストグラムと全対話から抽出した非言語特徴量のヒストグラムとの間のカルバック・ライブラー情報量であることを特徴とする検索方法。