JP6074050B2

JP6074050B2 - 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体

Info

Publication number: JP6074050B2
Application number: JP2015536346A
Authority: JP
Inventors: 藤田　雄介; 雄介藤田; 龍武田; 直之神田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-09-11
Filing date: 2013-09-11
Publication date: 2017-02-01
Anticipated expiration: 2033-09-11
Also published as: JPWO2015037073A1; US10489451B2; US20160171100A1; WO2015037073A1

Description

本発明は、音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体に関し、例えば、記憶装置に格納される音声データの内容を検索し、検索結果を表示するための技術に関する。

近年、コールセンタを運営し、大量の音声データを抱える企業においては、音声データからの情報抽出作業を自動化することが求められている。特に、コールセンタのオペレータを管理するスーパーバイザは、大量の通話音声データの中から、問題通話（クレーム）を効率的に発見・確認することで、オペレータの教育や、迅速なクレーム対応に活かすことを狙っている。

問題通話を効率的に発見・確認する方法としては、通話内容からクレームを特定する方法と、通話内容の要聴取箇所を特定する方法が挙げられる。

通話内容からクレームを特定する方法としては、例えば、特許文献１に示されるように、利用者とオペレータとの会話が録音された録音音声データにおける音声の抑揚、強弱の変化や間から話し手の感情表現を特徴量とし、音声データ内のキーワードと感情表現による特徴量を用いて音声データをスコアリングし、そのスコア値に基づいて、どの音声通話がクレームとして対処すべきものであるかを判断するものがある。

また、通話内容の要聴取箇所を特定する方法としては、例えば、特許文献２に示されるように、発話時間というパラメータを用いてオペレータ側の発話から顧客側の発話に変わった箇所を要聴取箇所として特定し、その箇所を頭出し点（聞き出し部分）とするものがある。

特開２０１１−８２８３９号公報特開２００７−１８４６９９号公報

しかしながら、特許文献１による方法のみでは、特定されたクレームの通話全体を聴取しなければ、顧客がどこで怒っているか、なぜ顧客が怒っているのかを確認することが出来ない。また、特許文献２の方法を組み合わせたとしても、聞き出し部分が沢山あるような場合に、全ての聞き出し部分を聞かなければ、顧客がどこで怒っているかを確認することが出来ない。すなわち、従来の方法では、問題通話を発見し、通話の一部のみを聞いて問題の内容を効率的に確認する手段はなかった。

本発明はこのような状況に鑑みてなされたものであり、問題通話を効率的に確認・発見することを可能にする音声検索技術を提供するものである。

上記課題を解決するために、本発明による音声検索システムは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースを有し、入力された検索用キーワードに基づいて通話検索データベースを検索し、検索用キーワードを含む音声区間系列を取得する。より詳細には、複数の録音通話音声データのうち、検索用キーワードを含む音声区間系列とその出現時刻がキーワード検索結果として取得される。また、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻が取得され、当該開始時刻が音声再生の頭出し位置として決定される。そして、頭出し位置が音声検索結果として出力される。

本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。

本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

本発明によれば、録音された通話における問題通話を効率的に確認・発見することができるようになる。

本発明の実施形態による音声検索システムのハードウェア構成例を示す図である。本発明の実施形態による音声検索システム内における処理概要を説明するための機能ブロック図である。本発明の実施形態による通話録音ＤＢの構成例を示す図である。本発明の実施形態による音声検索システムで実行される通話検索ＤＢ作成処理の詳細について説明するためのフローチャートである。本発明の実施形態による通話検索ＤＢの構成例を示す図である。本発明の実施形態による音声検索システムで実行される通話検索処理の詳細について説明するためのフローチャートである。本発明の実施形態による検索画面の構成例を示す図である。本発明の実施形態によるキーワード検索結果の例を示す図である。本発明の実施形態による検索結果表示画面の基本的構成例を示す図である。本発明の実施形態による検索結果表示画面の変形構成例を示す図である。

以下、添付図面を参照して本発明の実施形態について説明する。添付図面では、機能的に同じ要素は同じ番号で表示される場合もある。なお、添付図面は本発明の原理に則った具体的な実施形態と実装例を示しているが、これらは本発明の理解のためのものであり、決して本発明を限定的に解釈するために用いられるものではない。

本実施形態では、当業者が本発明を実施するのに十分詳細にその説明がなされているが、他の実装・形態も可能で、本発明の技術的思想の範囲と精神を逸脱することなく構成・構造の変更や多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述をこれに限定して解釈してはならない。

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ＩＤ」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。

以下では、頭出し決定部等の各処理部を主語（動作主体）として本発明の実施形態における各処理について説明を行うが、各処理部による処理は、プログラム化され、このプログラムをプロセッサによって実行することにより実現されるため、プロセッサを主語とした説明としてもよい。また、プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって計算機にインストールされてもよい。

＜音声検索システムのハードウェア構成＞
図１は、本発明の実施形態による音声検索システムのハードウェア構成例を示す図である。

音声検索システム１は、ＶｏＩＰゲートウェイ２０１と、ＩＰ交換機２０２と、複数のＩＰ電話機２０３と、ＩＰネットワーク中継装置２０４と、通話録音装置２と、通話検索装置３と、通話検索端末装置４と、を有している。複数のＩＰ電話機２０３は、コールセンタ内に設置されており、複数のオペレータが、公衆電話回線網２００の先の電話機を用いる顧客からの電話に対応できるようになっている。また、通話録音装置２、通話検索装置３、及び通話検索端末装置４はそれぞれ、通常のコンピュータによって実現されるようにしても良い。

通話録音装置２は、ＣＰＵ２０５−１と、メモリ２０６−１と、ＨＤＤ２０７−１と、ＩＰネットワーク中継装置２０４と接続する通信部２０８−１と、を有している。メモリ２０６−１は、通話録音部２１と、送受信種別取得部２２と、通話録音ＤＢ管理部２４の処理を行うためのプログラムを格納している。また、ＨＤＤ２０７−１は、通話録音ＤＢ２３を含んでいる。

通話検索装置３は、ＣＰＵ２０５−２と、メモリ２０６−２と、ＨＤＤ２０７−２と、ＩＰネットワーク中継装置２０４と接続する通信部２０８−２と、を有する。メモリ２０６−２は、通話録音取得部３１と、キーワード検出部３２と、音声区間検出部３３と、感情検出部３４と、キーワード受付部３６と、キーワード検索部３７と、頭出し位置決定部３８と、優先順位決定部３９と、検索結果送信部４０の処理を行うためのプログラムを格納している。また、ＨＤＤ２０７−２は、通話検索ＤＢ３５を含んでいる。

通話検索端末装置４は、ＣＰＵ２０５−３と、メモリ２０６−３と、ＨＤＤ２０７−３と、ＩＰネットワーク中継装置２０４と接続する通信部２０８−３と、キーボード２０９と、ディスプレイ２１０と、マウス２１１と、スピーカ２１２と、を有している。メモリ２０６−３は、キーワード問合せ部４１と検索結果表示部４２の処理を実現するためのプログラムを格納している。

＜音声検索システムの動作（処理概要）＞
図２は、音声検索システム１内における処理概要を説明するための機能ブロック図である。

音声検索システム１は、コールセンタにおける顧客とオペレータの間の通話音声を、通話録音装置２により録音し、その通話録音の内容をキーワードにより検索可能とする通話検索装置３、及び通話検索端末装置４を用いて、スーパーバイザが問題発話の検索に利用できるように構成されている。

通話録音装置２において、通話録音部２１は、顧客とオペレータの通話をそれぞれ録音する。また、送受信種別取得部２２は、通話録音がオペレータの発話（送信）であるか顧客の発話（受信）であるかを決定する。そして、取得した通話録音データは、決定された送受信種別と紐づけけられて通話録音ＤＢ２３に格納され、管理される。通話録音ＤＢ管理部２４は、外部（通話録音取得部３１）からの要求（例えば、特定時刻における通話データの送信要求）を受け付けて通話録音ＤＢ２３の情報を要求元に送信する。

通話検索装置３において、通話録音取得部３１は、通話録音ＤＢ管理部２４に対して通話データの送信要求を送信し、通話録音装置２の通話録音ＤＢ２３に保存された通話録音を取得する。そして、キーワード検出部３２は、取得した通話録音中に存在するキーワードを検出する。検出すべきキーワードは例えば、予め決められていたり、外部から入力されたりするものとする。また、音声区間検出部３３は、取得した通話録音中の音声区間を検出する。さらに、感情検出部３４は、取得した通話録音中の感情を検出する。取得した通話録音からキーワード、音声区間、及び感情が検出されると、それらの各検出結果が、音声中の出現時刻と紐づけられて通話検索ＤＢ３５に格納され、管理される。一方、キーワード受付部３６は、外部（スーパーバイザが操作する通話検索端末装置４）からキーワードを受け付ける。キーワード検索部３７は、受け付けたキーワードに基づいて通話検索ＤＢ３５からキーワードの出現時刻を検索する。そして、頭出し位置決定部３８は、キーワード検索結果８０１から送受信種別（チャンネル）が異なる直前の音声区間の出現時刻を検索する。また、優先順位決定部３９は、頭出し位置決定結果８０２から感情を検索した結果に基づいて、キーワード検索結果（例えば、図８の８０１参照）の優先順位を決定する。最後に、検索結果送信部４０は、優先順位に基づく検索結果を通話検索端末装置４に対して送信する。

通話検索端末装置４において、キーワード問合せ部４１は、スーパーバイザの指示に応答して、入力されたキーワードを通話検索装置３へ問い合わせる。また、検索結果表示部４２は、通話検索装置３から検索結果を受信し、ディスプレイ２１０に表示する。

＜通話録音ＤＢ＞
図３は、通話録音ＤＢ２３の構成例を示す図である。通話録音ＤＢ２３は、公知のリレーショナルデータベースを用いて構築することができる。

通話録音ＤＢ２３は、録音された通話を一意に識別・特定するための録音ＩＤ３０１と、当該録音通話において顧客に対応したオペレータを一意に識別・特定するためのオペレータＩＤ３０２と、当該録音通話における顧客の電話番号を示す電話番号３０３と、当該録音通話を録音した時刻を示す録音時刻３０４と、当該録音通話におけるオペレータの音声データである送信音声３０５と、当該録音通話における顧客の音声データである受信音声３０６と、を構成項目として有する。なお、送信音声３０５及び受信音声３０６には、実際の音声ファイルの保存場所を示すファイルパスが保存される。

＜音声検索システム１の動作＞
音声検索システム１は、通話検索ＤＢ作成処理と通話検索ＤＢ検索処理を実行する。以下、これらについて詳細に説明する。

（i）通話検索ＤＢ作成処理
図４は、音声検索システム１で実行される通話検索ＤＢ作成処理の詳細について説明するためのフローチャートである。

まず、通話録音取得部３１は、通話録音装置２の通話録音ＤＢ管理部２４に対して新規の通話録音が存在するか問い合わせる（ステップＳ４０１）。このとき、通話録音ＤＢ管理部２４は、新規の通話録音が存在するかの問い合わせを受け付け、所定の時刻よりあとに録音された通話録音があれば、その録音ＩＤを通話録音取得部３１に返す。通話録音がない場合は、通話録音取得部３１は、所定の時間待機する（ステップＳ４０２）。

通話録音が存在する場合、通話録音取得部３１は、通話録音装置２から新規の録音ＩＤに対応する通話録音の送信音声と受信音声を取得する（ステップＳ４０３）。

次に、キーワード検出部３２は、音声中の所定のキーワードを検出する（ステップＳ４０４）。音声中のキーワードを検出する処理としては、いくつかの公知の方法がある。例えば、大語彙連続音声認識技術を用いて音声を文章に変換し、文章を構成する単語（形態素）と出現時刻の組をデータベース化しておく方法である。この方法では、既知の単語で構成されるフレーズを高速に検索できるが、未知の単語は別の単語に誤って認識されるため、未知の単語を含む検索は不可能となる。また、別の方法として、サブワード認識技術を用いて音声を音素系列に変換し、音素と出現時刻の組をデータベース化しておく方法がある。この方法では、検索時にキーワードを音素系列に変換して探索することで、未知の単語も検索できるが、音素の認識誤りを許容するよう検索する必要があるため、検索に多少時間がかかる。さらに別の方法として、音響特徴量をデータベースしておく方法がある。検索時には、キーワードに対応する音響モデルと音響特徴量系列とを照合して、キーワードの出現箇所を検出することで、未知の単語も高精度に検索できるが、音響特徴量を短いフレーム単位で照合する必要から、検索に時間がかかる。ここでは、未知の単語を高速に検索することを想定して、サブワード認識技術を用いた構成を例に説明する。キーワード検出部３２は、送信音声と受信音声をそれぞれ音素認識し、音素系列を音素出現時刻とともに通話検索ＤＢ３５の音素系列テーブル５０１（図５参照）に保存する。

そして、音声区間検出部３３は、通話音声中の音声区間を検出する（ステップＳ４０５）。音声区間を検出する処理は公知の技術により実現できる。例えば、音声パワーの閾値に基づく方法や、音響特徴量のパタン識別に基づく方法などである。通話音声中には、人間の発声のほか、無音区間、保留音などがあるが、音声区間検出により、人間の発声部分のみを取り出す。音声区間検出部３３は、送信音声と受信音声をそれぞれから検出した音声区間の開始時刻と終了時刻から、音声開始時刻系列、音声終了時刻系列を構成し、音声区間系列テーブル５０２（図５参照）に追加する。

次に、感情検出部３４は、通話音声中の感情を検出する（ステップＳ４０６）。音声中の感情を検出する処理は、公知の技術により実現できる。例えば、音声から抽出した、音響特徴量および音声ピッチや発話速度の平均値とその変化量に基づいて、怒りと平静の感情を識別する方法である。事前に怒り音声と平静音声のデータベースから、怒りと平静の識別器をサポートベクターマシン等の技術により学習しておくと、識別境界からの距離に基づいて怒り感情のスコアが計算できる。ここでは、音声区間ごとに、怒りと平静の感情（非言語情報：用いることのできる非言語情報は感情に限られず、発声の滑らかさ、聞きやすさといった別の観点でスコアを計算したものでも良く、または、声の高さ、声の大きさ、発話速度、周囲の無音区間の長さといった非言語情報であっても良い）を識別し、識別境界からの距離を感情スコア（非言語情報スコア）として求める。感情検出部３４は、送信音声と受信音声をそれぞれから、感情スコア系列と、対応する音声区間の開始時刻系列を構成し、感情スコア系列テーブル５０３（図５参照）に追加する。

以上の通話検索ＤＢ作成処理により、通話録音をキーワードに基づいて検索し、時刻から音声区間、感情スコアの対応関係を検索することが可能となる。

（ii）通話検索ＤＢの構成例
図５は、通話検索ＤＢ３５の構成例を示す図である。通話検索ＤＢ３５は、公知のリレーショナルデータベースを用いて構築することができる。

通話検索ＤＢ３５は、音素系列テーブル５０１と、音声区間系列テーブル５０２と、感情スコア系列テーブル５０３とによって構成される。

音素系列テーブル５０１は、録音された通話を一意に識別・特定するための録音ＩＤ５０１１と、該当する音素系列が属するチャンネルの種類（送信チャンネルか受信チャンネルか）を示す種別５０１２、管理すべき少なくとも１つの音素系列を保持する音素系列５０１３と、通話開始時刻からの各音素が出現する相対時刻（音素時刻系列内では絶対時刻として表現されている）を示す音素時刻系列５０１４と、を構成項目として有している。各種別５０１２において、音素系列５０１３は、複数の音素系列を保持する場合、並列して当該複数の音素系列を管理する。例えば、各音素系列は、（「ＭＯＯＳＨＩＷＡＫＥＧＯＺＡＩＭＡＳＥＮＮ（申し訳ございません）」，「ＫＡＳＨＩＫＯＭＡＲＩＭＡＳＨＩＴＡ（かしこまりました）」，・・・）というように管理される。また、音素系列では各構成音素が空白で区切られている。音素時刻系列５０１４では、各音素が音声ファイル中の絶対時刻で表現されていることから、例えば、「ＭＯＯＳＨＩＷＡＫＥＧＯＺＡＩＭＡＳＥＮＮ（申し訳ございません）」における先頭の音素「Ｍ」が発せられている時間は０．０２秒（時刻２．１３−時刻２．１１）となることが分かる。音素時刻系列５０１４においても、各音素出現時刻は空白で区切られて管理されている。

音声区間系列テーブル５０２は、録音された通話を一意に識別・特定するための録音ＩＤ５０２１と、該当する音素系列が属するチャンネルの種類（送信チャンネルか受信チャンネルか）を示す種別５０２２と、音素系列テーブルで管理される各音素系列を含む音声区間系列の開始時刻を保持する音声開始時刻系列５０２３と、音素系列テーブル５０１で管理される各音素系列を含む音声区間系列の終了時刻を保持する音声終了時刻系列５０２４と、を構成項目として有している。当該テーブルからは、例えば、録音（通話）ＩＤ＝１２３４の送信側（オペレータ）の音素系列「ＭＯＯＳＨＩＷＡＫＥＧＯＺＡＩＭＡＳＥＮＮ（申し訳ございません）」を含む音声区間が時刻２．１１に開始し、時刻４．５０に終了し、同録音ＩＤの受信側（顧客）の音素系列「ＫＯＭＡＲＵＮＮＤＥＳＵＹＯＮＥ（困るんですよね）」を含む音声区間が時刻０．０５に開始し、時刻１．９０に終了することが分かる。当該音声区間系列テーブル５０２を用いれば、録音通話を構成する各音素系列の出現順序を特定することができる。

感情スコア系列テーブル５０３は、録音された通話を一意に識別・特定するための録音ＩＤ５０３１と、該当する音素系列が属するチャンネルの種類（送信チャンネルか受信チャンネルか）を示す種別５０３２、各音素系列について算出された感情スコア値を保持する感情スコア系列５０３３と、音素系列テーブル５０１で管理される各音素系列の開始時刻を保持する音声開始時刻系列５０３４と、を構成項目として有している。

（iii）通話ＤＢ検索処理
図６は、音声検索システム１で実行される通話検索処理の詳細について説明するためのフローチャートである。

まず、キーワード問合せ部４１は、利用者が入力したキーワードを取得する（ステップＳ６０１）。ここでキーワード問合せ部４１は、利用者（スーパーバイザー）にキーワードの入力を促すために、図７のような検索画面７０１をディスプレイ２１０に表示してもよい。図７に示されるように、利用者は、ディスプレイ２１０上に表示される検索キーワード入力ボックス７０２をマウス２１１で選択し、キーボード２０９を用いて検索キーワードを入力する。最後に検索実行ボタン７０３をマウス２１１でクリックすると、通話検索装置３に対してキーワードを送信する。

次に、キーワード受付部３６は、キーワードを受信する（ステップＳ６０２）。

また、キーワード検索部３７は、受け付けたキーワードから通話検索ＤＢ３５の音素系列テーブル５０１を検索する（ステップＳ６０３）。ここで、受け付けたキーワードは、例えば、公知の書記素音素変換技術を用いて音素系列に変換される。キーワードとして、例えば「申し訳ありません」を受け付けた場合、音素系列は「ＭＯＯＳＨＩＷＡＫＥＡＲＩＭＡＳＥＮＮ」となる。そして、キーワード検索部３７は、変換された音素系列が、音素系列テーブル５０１内の音素系列に部分系列として含まれる箇所を検索する。このとき編集距離が所定の値未満のものを検索するようにすれば、音素認識の誤りを許容する検索が可能となる。また、キーワード検索部３７は、検索された音素系列の開始点と終了点にそれぞれ対応する時刻を音素時刻系列から求める。図８は、キーワード検索結果８０１の例を示している。キーワード検索結果８０１は、キーワード検索によって得られた結果のスコア順位を示す順位８０１１と、キーワード検索によって得られた結果のそれぞれのスコア値を示すスコア８０１２と、録音された通話を一意に識別・特定するための録音ＩＤ８０１３と、該当する音素系列が属するチャンネルの種類（送信チャンネルか受信チャンネルか）を示す種別８０１４と、当該キーワード検索結果を含む音素系列の開始時刻８０１５及び終了時刻８０１６と、を構成項目として含んでいる。なお、順位８０１１は、キーワード検索によって得られた結果をスコア順にソートすることによって決定される。ここで、スコアには編集距離を用いることができる。

続いて、頭出し位置決定部３８は、キーワード検索結果８０１に対応して音声再生の開始時刻を決定する（ステップＳ６０４）。つまり、頭出し位置決定部３８は、通話検索ＤＢ３５を参照し、キーワード検索結果８０１の各レコードに対して録音ＩＤが同一で種別が異なる音声区間系列テーブル５０２中の複数のレコード（キーワード検索結果の種別が「送信」であれば「受信」の音素系列、逆に「受信」であれば「送信」の音素系列）を頭出し候補として選択する。また、頭出し位置決定部３８は、選択したレコードの音声開始時刻系列を参照し、キーワード検索結果８０１における開始時刻の直前の音声開始時刻を特定し、対応する音声終了時刻とともに、頭出し位置決定結果８０２とする。これにより、キーワード検索結果８０１の音声開始時刻に対して、直前の相手方通話の開始時刻に頭出しすることができる。こうして、「申し訳ありません」のような謝罪表現をキーワードとして検索する際に、謝罪を行う理由となる相手方の通話から聞き始めることができる。このようにして得られたのが、図８に示される頭出し位置決定結果８０２である。頭出し位置決定結果８０２は、キーワード検索結果の順位８０１１に対応する順位が記入される順位８０２１と、録音された通話を一意に識別・特定するための録音ＩＤ８０２２と、該当する頭出し位置の音素系列が属するチャンネルの種類（送信チャンネルか受信チャンネルか）を示す種別８０２３と、キーワード検索結果８０１に基づいて求めた、頭出しすべき音素系列の開始時刻８０２４及び終了時刻８０２５と、を構成項目として含んでいる。

次に、優先順位決定部３９は、頭出し位置決定結果８０２に対応する感情スコアを検索し、その結果に応じて検索結果を並べ替える（ステップＳ６０５）。つまり、優先順位決定部３９は、通話検索ＤＢ３５を参照し、頭出し位置検索結果８０２の各レコードに対して、録音ＩＤ８０２２と種別８０２３が同一の感情スコア系列テーブル５０３中のレコードを選択する。また、優先順位決定部３９は、選択したレコードの音声開始時刻系列から、頭出し位置決定結果８０２における音声開始時刻と一致する箇所を検索し、対応する感情スコアを感情スコア列から取得する。さらに、優先順位決定部３９は、検索結果を感情スコアに基づいて並べ換える。このようにすると、「申し訳ありません」のような謝罪表現をキーワードとして検索する際に、編集距離に基づいて並べ替えを行っていた場合は、単純にキーワードの確からしさしか考慮されなかったが、直前の相手方発話の怒りの程度に応じた並べ替えが可能となり、問題（クレーム）の大きさに基づいた並べ替えが可能となる。以上のようにして得られたのが、図８に示される優先順位決定結果８０３である。優先順位決定結果８０３は、キーワード検索結果の順位８０１１に対応する順位が記入される順位８０３１と、録音された通話を一意に識別・特定するための録音ＩＤ８０３２と、該当する頭出し位置の音素系列が属するチャンネルの種類（送信チャンネルか受信チャンネルか）を示す種別８０３３と、頭出しすべき音素系列の感情スコア値を示すスコア８０３４と、キーワード検索結果８０１に基づいて求めた、頭出しすべき音素系列の開始時刻８０３５及び終了時刻８０３６と、を構成項目として含んでいる。

検索結果送信部４０は、優先順位決定結果８０３を通話検索端末装置４に送信する（ステップＳ６０６）。

最後に、検索結果表示部４２は、受信した優先順位決定結果８０３に基づいて、検索結果をディスプレイ２１０に表示する（ステップＳ６０７）。検索結果表示画面例については図９を参照して後述する。

＜検索結果表示画面の構成例＞
図９は、検索結果表示画面９０１の基本的構成例を示す図である。

検索結果表示部４２は、通話録音ＤＢ２３への問合せによりオペレータ・電話番号・録音日時を検索した結果を同時に検索結果表示画面９０１表示する。図９に示されるように、検索結果は、優先順位決定結果８０３に基づいて順番に表示される。

例えば利用者（スーパーバイザー）が頭出しキーワードボタン９０２をマウス２１１でクリックすると、通話検索装置３の通話録音取得部３１は、通話録音ＤＢ２３へ問合せを行うことにより通話録音を取得し、優先順位決定結果８０３に基づく開始時刻から再生する。これにより、利用者は、キーワード検索の結果、問題（クレーム）のあった箇所に遡って音声（この場合、キーワードを含むチャンネルの音声（オペレータの音声）に対応する別のチャンネルの音声（顧客の音声））を頭から聞くことができる。また、問題（クレーム）の大きさに応じて優先度を決めて並べ換えているため、効率的に問題の把握が可能となる。

＜変形例＞
上述の実施形態では、頭出し位置を、キーワード検索によって特定された音声区間系列（例えば、オペレータの音声区間）の直前の相手方（例えば、顧客）の音声区間系列の開始時刻にしているが、利用者が複数の頭出し位置候補から選択できるようにしても良い。

ここでは、感情スコアを利用して頭出し位置を決定する例（変形例）について説明する。頭出し位置決定部３８は、通話検索ＤＢ３５を参照し、キーワード検索結果８０１の各レコードに対して録音ＩＤが同一で種別が異なる音声区間系列テーブル５０２中のレコードを選択する。

また、頭出し位置決定部３８は、選択したレコードの音声開始時刻系列を参照し、キーワード検索結果８０１における開始時刻の前の音声開始時刻を複数件（例えば３件）抽出し、頭出し位置候補として選択する。

次に、頭出し位置決定部３８は、録音ＩＤと種別が同一の感情スコア系列テーブル５０３中のレコードを選択する。

続いて、頭出し位置決定部３８は、選択したレコードの音声開始時刻系列から、頭出し位置候補の音声開始時刻と一致する箇所を検索し、対応する感情スコアを感情スコア列から検索する。その結果得られる複数件の感情スコアから最大のものを選択し、対応する音声開始時刻を頭出し位置決定結果８０２とする。このようにすると、謝罪を行う理由となる相手方の通話において、直前に怒り感情が大きくなった発話までさかのぼることができる。なお、感情スコアから最大のものを選択するだけでなく、キーワード検索結果８０１の音声開始時刻と頭出し位置候補の音声開始時刻の差を考慮して計算してもよい。このようにすることにより、できるだけキーワードに近い範囲で怒り感情が大きくなった発話までさかのぼることができる。

以上のような利用者による頭出し位置の選択を可能にするための検索結果表示画面１００１の構成例を図１０に示す。

検索結果表示画面１００１は、少なくとも１つの検索結果のそれぞれについて、頭出しキーワードボタン１００２と、当該先頭頭出しボタン１００３と、相手方先頭頭出しボタン１００４と、相手方後方頭出しボタン１００５と、を頭出し位置選択用のボタンとして有している。頭出しキーワードボタン１００２は、キーワード検索によって特定された音素系列の先頭音素の開始時刻を頭出し位置とするためのボタンである。当該先頭頭出しボタン１００３は、キーワード検索によって特定された音声区間系列の開始時刻を頭出し位置とするためのボタンである。相手方先頭頭出しボタン１００４は、図９の頭出しキーワードボタン９０２と同様に、キーワード検索によって特定された音声区間系列（例えば、オペレータの音声区間）の直前の相手方（例えば、顧客）の音声区間系列の開始時刻を頭出し位置とするためのボタンである。相手方後方頭出しボタン１００５は、キーワード検索によって特定された音声区間系列（例えば、オペレータの音声区間）の直後の相手方（例えば、顧客）の音声区間系列の開始時刻を頭出し位置とするためのボタンである。

＜まとめ＞
（１）本発明の実施形態では、通話検索装置は、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースから、検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得する。また、通話検索装置は、キーワード検索結果における出現時刻に基づいて、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定し、この頭出し位置を音声検索結果として出力する。このように、キーワード検索結果に対し、問題位置に遡って頭出しすることで、利用者は、問題通話の内容を効率的に確認できるようになる。なお、キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の頭出しを行う以外に、キーワード検索結果として取得した音声区間系列そのものの開始位置を頭出し位置としても良いし、その直後の別チャンネルの音声区間系列の開始位置を頭出し位置としても良い。また、これら複数の頭出し位置を利用者が選択できるようにしても良い。

さらに、本実施形態では、通話検索データベースが、音声区間系列のそれぞれの非言語情報スコア（感情スコア：問題の大きさに相当）を記憶し、非言語情報スコア（感情スコア）に基づいて、頭出し位置が決定された音声検索結果の優先順位を決定するようにしても良い。検索結果表示画面（ＧＵＩ）では、複数の音声検索結果がこの優先順位順に表示される。このように、キーワード検索結果を問題の大きさに応じて並べ替えるようにしているので、問題通話を効率的に発見できるようになる。

（２）本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのＣＰＵなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はＣＤ−ＲＷ、ＣＤ−Ｒ等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ（又はＣＰＵやＭＰＵ）が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益であることが判るかもしれない。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。

また、本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施例では、コールセンタにおける通話録音装置と連携した問題発話検索システムを想定したが、例えば、多拠点ビデオ会議における議事録検索システムや、放送録画における番組検索システムなど、様々なシステムに適用することが出来る。

１・・・音声検索システム、２・・・通話録音装置、３・・・通話検索装置、４・・・通話検索端末装置、２０５−１〜２０５−３・・・ＣＰＵ、２０６−１〜２０６−３・・・メモリ、２０７−１〜２０７−３・・・ＨＤＤ、２０８−１〜２０８−３・・・通信部、２０９・・・キーボード、２１０・・・ディスプレイ、２１１・・・マウス、２１２・・・スピーカ

Claims

複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶する通話検索データベースと、
入力された検索用キーワードに基づいて前記通話検索データベースを検索し、前記検索用キーワードを含む音声区間系列を取得するプロセッサと、を有し、
前記プロセッサは、
前記複数の録音通話音声データのうち、前記検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得し、
前記キーワード検索結果における出現時刻に基づいて、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定し、
前記頭出し位置を音声検索結果として出力する、
ことを特徴とする音声検索システム。
請求項１において、
前記通話検索データベースは、さらに、前記音声区間系列のそれぞれの非言語情報スコアを記憶し、
前記プロセッサは、前記非言語情報スコアに基づいて、前記頭出し位置が決定された前記音声検索結果の優先順位を決定することを特徴とする音声検索システム。
請求項２において、
前記プロセッサは、前記音声検索結果を前記優先順位順に並べて利用者に提示するための検索結果表示画面を生成し、表示デバイスに表示することを特徴とする音声検索システム。
請求項３において、
前記プロセッサは、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻の他に、前記キーワード検索結果として取得した音声区間系列及び前記キーワード検索結果として取得した音声区間系列の直後の別のチャンネルの音声区間系列の開始時刻を音声再生の頭出し位置として選択可能とするように前記検索結果表示画面を生成し、前記表示デバイスに表示することを特徴とする音声検索システム。
請求項２において、
前記非言語情報スコアは前記音声区間系列中の感情を判定して得られる感情スコアであり、当該感情スコアは前記音声区間系列の開始時刻と関連付けられていることを特徴とする音声検索システム。
入力された検索用キーワードに基づいて通話検索データベースを検索し、前記検索用キーワードを含む音声区間系列を取得する音声検索方法であって、
前記通話検索データベースは、複数の録音通話音声データのそれぞれについて、受信チャンネル及び送信チャンネル毎に、音声区間系列を所定のキーワード及び時刻情報と関連付けて記憶しており、
プロセッサが、前記複数の録音通話音声データのうち、前記検索用キーワードを含む音声区間系列とその出現時刻をキーワード検索結果として取得するステップと、
前記プロセッサが、前記キーワード検索結果における出現時刻に基づいて、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻を取得し、当該開始時刻を音声再生の頭出し位置として決定するステップと、
前記プロセッサが、前記頭出し位置を音声検索結果として出力するステップと、
を有することを特徴とする音声検索方法。
請求項６において、
前記通話検索データベースは、さらに、前記音声区間系列のそれぞれの非言語情報スコアを記憶し、
さらに、前記プロセッサが、前記非言語情報スコアに基づいて、前記頭出し位置が決定された前記音声検索結果の優先順位を決定するステップを有することを特徴とする音声検索方法。
請求項７において、
さらに、前記プロセッサが、前記音声検索結果を前記優先順位順に並べて利用者に提示するための検索結果表示画面を生成し、表示デバイスに表示するステップを有することを特徴とする音声検索方法。
請求項８において、
前記表示するステップにおいて、前記プロセッサは、前記キーワード検索結果として取得した音声区間系列の直前の別のチャンネルの音声区間系列の開始時刻の他に、前記キーワード検索結果として取得した音声区間系列及び前記キーワード検索結果として取得した音声区間系列の直後の別のチャンネルの音声区間系列の開始時刻を音声再生の頭出し位置として選択可能とするように前記検索結果表示画面を生成し、前記表示デバイスに表示することを特徴とする音声検索方法。
請求項７において、
前記非言語情報スコアは前記音声区間系列中の感情を判定して得られる感情スコアであり、当該感情スコアは前記音声区間系列の開始時刻と関連付けられていることを特徴とする音声検索方法。
コンピュータに請求項６に記載の音声検索方法を実行させるためのプログラムを記憶するコンピュータ読み取り可能な記憶媒体。