JP2009237353A

JP2009237353A - 関連付け装置、関連付け方法及びコンピュータプログラム

Info

Publication number: JP2009237353A
Application number: JP2008084569A
Authority: JP
Inventors: Nobuyuki Washio; 信之鷲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-03-27
Filing date: 2008-03-27
Publication date: 2009-10-15
Anticipated expiration: 2028-03-27
Also published as: CN101547261B; CN101547261A; JP5024154B2; US20090248412A1

Abstract

【課題】夫々の通話に基づく複数の音声データの内で、要件が継続する音声データを一連の音声データとして関連付ける関連付け装置、関連付け方法及びコンピュータプログラムを提供する。
【解決手段】関連付け装置１は、選択した複数の音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通し、かつ要件の内容に関する要件語句の出現率に係る数値を、要件類似度として導出する（Ｓ１０２）。また関連付け装置１は、複数の音声データから抽出した夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出する（Ｓ１０３）。そして関連付け装置１は、要件類似度及び話者類似度に基づいて、選択した複数の音声データが関連している可能性を示す関連度を導出し（Ｓ１０４）、関連度が予め設定されている閾値以上となる場合に、選択した複数の音声データを関連付ける（Ｓ１０５）。
【選択図】図４

Description

話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置、該関連付け装置を用いた関連付け方法、及び前記関連付け装置を実現するコンピュータプログラムに関する。

電話により顧客と対話するコールセンタ等の業務において、対話に係る要件が一度の通話で完了せずに、複数回の通話を要する場合がある。例えば顧客からの問い合わせに対し、顧客に何らかの確認を依頼する場合、顧客と応答する応答者（オペレータ）が他の者への確認等の調査を要する場合である。

また業務の遂行状況を把握するために、通話内容を録音した音声データを分析する場合がある。通話内容の分析に際し、一の要件の対応に複数回の通話を要した場合、複数回分の音声データを一連の通話として関連付ける必要が生じる。

そこで顧客の発信者番号を取得し、取得した発信者番号を基準として個人情報を管理し、また通話内容に対する音声認識処理にて抽出したキーワードに基づいて要件を管理する技術が提案されている（例えば特許文献１参照。）。
特許第３４５０２５０号公報

しかしながら特許文献１に開示された装置では、発信者番号の取得を前提としているため、番号非通知等の通話に対して適用することができず、また同じ発信者番号でも異なる話者からの着信に適用することができないという問題がある。

本発明は斯かる事情に鑑みてなされたものであり、音声データに対する音声認識処理の結果に基づき音声データ間で共通する共通語句の出現率に基づく語句類似度を導出し、また音声データから抽出される音声の特徴に基づき音声データ間の話者類似度を導出する。そして導出した語句類似度及び話者類似度に基づいて関連度を導出し、導出した関連度に基づいて複数の音声データを一連の通話として関連付けるか否かを判定する。これにより本発明は、発信者番号に拘わらず一連の通話である音声データを推定して関連付けることが可能な関連付け装置、該関連付け装置を用いた関連付け方法、及び前記関連付け装置を実現するコンピュータプログラムを提供することを目的とする。

本願は、話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置において、各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出する語句類似度導出部と、各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出する話者類似度導出部と、導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出する関連度導出部と、導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付ける関連付け部とを備える関連付け装置、関連付け方法及びコンピュータプログラムを開示する。

本願に開示された内容では、共通語句の出現率に基づく語句類似度及び音声の特徴に基づき導出する話者類似度から関連度を導出し、関連度に基づいて音声データの関連付けの可否を判定することにより、要件及び話者に基づく一連の音声データの関連付けを行うことが可能である。また話者の特定に際し、発信者番号の通知を必要とせず、しかも同じ発信者番号に係る複数人を区別することが可能である。

本願は、各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出し、話者が発声した音声をデータ化した複数の音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出し、導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出し、導出した関連度を設定されている閾値と比較して、関連度が閾値以上となる複数の音声データを関連付ける内容を開示する。

この構成により、語句及び話者に基づき要件が継続する一連の音声データを関連付けることが可能である等、優れた効果を奏する。また話者の特定に際し、発信者番号の通知を必要とせず、しかも同じ発信者番号に係る複数人を区別することが可能である等、優れた効果を奏する。

以下、本発明をその実施の形態を示す図面に基づいて詳述する。本発明の実施例に係る関連付け装置は、話者が発声した音声をデータ化した複数の音声データの関連性を検出し、更には関連付けを行った上で、記録及び出力を行う装置である。関連付けを行うべき複数の音声データとは、例えばオペレータが電話により顧客と対話するコールセンタ等の業務において、対話に係る要件が一度の通話で完了せずに、複数回の通話を要した場合に、各通話に係る夫々の音声データである。即ち本発明の関連付け装置は、同一の顧客との同一の要件での通話を一連通話として関連付けを行う。

図１は、本発明の関連付け装置のハードウェアの構成例を示すブロック図である。図１に示す関連付け装置１は、パーソナルコンピュータ等のコンピュータを用いて構成される。関連付け装置１は、制御機構１０、補助記憶機構１１、記録機構１２及び記憶機構１３を備えている。制御機構１０は、装置全体を制御するＣＰＵ等の機構である。補助記憶機構１１は、本発明のコンピュータプログラムＰＲＧ等のプログラム及びデータ等の各種情報を記録するＣＤ−ＲＯＭ等の記録媒体から各種情報を読み取るＣＤ−ＲＯＭドライブ等の機構である。記録機構１２は、補助記憶機構１１により読み取った各種情報を記録するハードディスク等の機構である。記憶機構１３は、一時的に発生する情報を記憶するＲＡＭ等の機構である。そして記録機構１２に記録したコンピュータプログラムＰＲＧを記憶機構１３に記憶させ、制御機構１０の制御にて実行することにより、コンピュータは、本発明の関連付け装置１として作動する。

さらに関連付け装置１は、マウス、キーボード等の入力機構１４、及びモニタ、プリンタ等の出力機構１５を備えている。

また関連付け装置１の記録機構１２の記録領域の一部は、音声データを記録する音声データベース（音声ＤＢ）１２ａとして用いられる。なお記録機構１２の記録領域の一部を、音声データベース１２ａとして用いるのではなく、関連付け装置１に接続する他の装置を音声データベース１２ａとして用いてもよい。

音声データベース１２ａには、様々な形式で音声データを記録することが可能である。例えば各通話に係る音声データを夫々単独のファイルとして記録することが可能である。また例えば複数の通話を含む音声データ及び該音声データに含まれる各通話を特定するデータとして記録することが可能である。複数の通話を含む音声データとは、例えば一の電話機を用いて録音した一日分の音声データである。音声データに含まれる各通話を特定するデータとは、通話毎の開始時刻及び終了時刻を示すデータである。図２は、本発明の関連付け装置１が備える音声データベース１２ａの記録内容の一例を概念的に示す説明図である。図２は、電話毎の音声データ及び該音声データに含まれる各通話を特定するデータとして、音声データベース１２ａを構成した場合の通話を特定するデータの記録形式の一例を示している。記録されている電話毎の音声データに含まれる各通話を特定するデータとして、通話ＩＤが付与されており、通話ＩＤに対応付けて、開始時刻、終了時刻、関連通話ＩＤ等の様々な項目がレコード単位で記録されている。開始時刻及び終了時刻とは、元の音声データにおいて、当該通話に該当する区間の開始時刻及び終了時刻を示している。なお各時刻は、絶対的な実際の時刻であっても、元の音声データの最初の時刻を「０：００」とする相対的な時刻であっても良い。関連通話ＩＤとは、関連付け装置１の処理により、当該通話ＩＤと関連付けられた通話を特定するＩＤである。図２に示す例では、通話ＩＤが、「０００１」、「０００５」及び「０００７」である通話は一連の会話を示す通話として関連付けられている。なお前述した様に夫々の通話を例えばＷＡＶファイル等の形式の音声データとして記録する様にしても良く、例えばその場合、通話ＩＤ「０００１」に対応する音声データは「０００１．ｗａｖ」等のファイル名を付与する様にしてもよい。

図３は、本発明の関連付け装置１の機能構成例を示す機能ブロック図である。関連付け装置１は、記録機構１２に記録している本発明のコンピュータプログラムＰＲＧを制御機構１０の制御に基づいて実行することにより、通話組選択部１００、要件類似度導出部１０１、話者類似度導出部１０２、関連度導出部１０３、関連付け部１０４、語句リスト１０５等の各種機能を作動させる。

通話組選択部１００は、音声データベース１２ａに記録されている音声データから関連性を判定する複数の通話に係る音声データの選択等の処理を実行するプログラムモジュールである。

要件類似度導出部１０１は、通話組選択部１００が選択した複数の通話に係る音声データにおける通話内容の要件の類似度を示す要件類似度（語句類似度）の導出等の処理を実行するプログラムモジュールである。

話者類似度導出部１０２は、通話組選択部１００が選択した複数の通話に係る音声データにおける話者の類似度を示す話者類似度の導出等の処理を実行するプログラムモジュールである。

関連度導出部１０３は、要件類似度導出部１０１が導出した要件類似度及び話者類似度導出部１０２が導出した話者類似度に基づいて、通話組選択部１００が選択した複数の通話に係る音声データが関連している可能性を示す関連度を導出する処理を実行するプログラムモジュールである。

関連付け部１０４は、関連度導出部１０３が導出した関連度に基づいて通話に係る音声データを関連付けて記録、出力等の処理を実行するプログラムモジュールである。

語句リスト１０５は、要件類似度導出部１０１による要件類似度の判定、関連度導出部１０３による関連度の導出等の処理において、夫々の処理に影響する語句を記録している。なお語句リスト１０５に記録されている語句の例及び使用方法については以降の処理の説明において都度説明する。

次に本発明の関連付け装置１の処理について説明する。図４は、本発明の関連付け装置１の基幹処理の一例を示すフローチャートである。関連付け装置１は、コンピュータプログラムＰＲＧを実行する制御機構１０の制御に基づく通話組選択部１００の処理により、音声データベース１２ａから複数の音声データを選択する（Ｓ１０１）。以降の説明において、音声データとは、通話単位での音声を示す音声データをいう。従って例えば音声データベース１２ａに複数分の通話を含む音声データが記録されている場合、以降の説明における音声データとは、個々の通話に係る音声データを示すものとする。ステップＳ１０１において、選択された複数の音声データは、以降の処理で、その関連性の検出がなされる。例えば通話ＩＤが「０００１」である音声データと、通話ＩＤが「０００２」である音声データとを選択して関連性を検出し、次に通話ＩＤが「０００１」である音声データと、通話ＩＤが「０００３」である音声データとを選択して関連性を検出するという処理を繰り返すことにより、通話ＩＤが「０００１」である音声データと他の音声データとの関連性を検出することができる。更に通話ＩＤが「０００２」である音声データと他の音声データとの関連性を検出し、通話ＩＤが「０００３」である音声データと他の音声データとの関連性を検出しという処理を繰り返すことにより、全ての音声データの関連性を検出することができる。なお一度に三以上の音声データを選択し、夫々の関連性を検出する様にしてもよい。

関連付け装置１は、制御機構１０の制御に基づく要件類似度導出部１０１の処理により、通話組選択部１００が選択した複数の音声データに対する音声認識処理を行い、音声認識処理の結果に基づいて、各音声データ間で共通し、かつ要件の内容に関する要件語句の出現率に係る数値を、要件類似度として導出する（Ｓ１０２）。ステップＳ１０２において、要件の内容に関する要件語句は、語句リスト１０５に示されている語句である。

関連付け装置１は、制御機構１０の制御に基づく話者類似度導出部１０２の処理により、通話組選択部１００が選択した複数の音声データから夫々音声の特徴を抽出し、抽出した特徴の比較結果を示す類似度を、話者類似度として導出する（Ｓ１０３）。

関連付け装置１は、制御機構１０の制御に基づく関連度導出部１０３の処理により、要件類似度導出部１０１が導出した要件類似度及び話者類似度導出部１０２が導出した話者類似度に基づいて、選択した複数の音声データが関連している可能性を示す関連度を導出する（Ｓ１０４）。

関連付け装置１は、制御機構１０の制御に基づく関連付け部１０４の処理により、関連度導出部１０３が導出した関連度が予め設定されている閾値以上となる場合に、選択した複数の音声データを関連付けて（Ｓ１０５）、音声データベース１２ａへの記録等の関連付け結果の出力を実行する（Ｓ１０６）。ステップＳ１０５において、関連度が閾値未満である場合、選択した複数の音声データに対する関連付けは行わない。ステップＳ１０６における記録は、図２に示した様に関連通話ＩＤとして記録することにより行われる。なおステップＳ１０６では、関連付けた音声データを音声データベース１２ａに記録することにより、関連付けた結果を出力する形態を示したが、モニタである出力機構１５への表示等の他の方法にて出力する等、様々な出力を行うことが可能である。そして関連付け装置１は、関連付けの候補となる全ての音声データの組についてステップＳ１０１〜Ｓ１０６の処理を実行する。

音声データベース１２ａに記録した関連付けの結果は様々な形式で出力することが可能である。図５は、本発明の関連付け装置１が出力する関連付けの結果の一例を示す説明図である。図５では、横軸に時間の経過をとり、縦軸に関連付けた内容をとってその関係をグラフ形式で示している。図５のグラフ中の長方形が音声データに係る通話を示しており、長方形の上方に示した数字が音声データの通話ＩＤを示している。長方形の横方向の長さ及び位置が、通話に係る時間及び時刻を示している。長方形を結ぶ破線は、夫々の通話が関連付けられていることを示している。縦軸側に示された語句は、要件類似度の導出に用いた要件語句に対応する要件の内容を示している。例えば通話ＩＤが「０００１」、「０００５」及び「０００７」である音声データは、「パスワード再発行」という要件の内容に基づき関連付けられている。図５に示す検出結果を、例えばモニタである出力機構１５に表示することで、出力結果を視認したユーザは、各音声データの関連性及び内容を把握することが可能となる。なお音声データ毎に通話方向、即ち顧客側からの発呼に係る通話であるのか、オペレータ側の発呼に係る通話であるのかを判定することができるのであれば、そのことを明示する表示方法で出力する様にしてもよい。

上述した基幹処理は、本発明の関連付け装置１を、複数の音声データを適宜関連付けた上での分類等の用途に用いられるが、この様な形態に限るものではなく、様々な形態に展開することが可能である。例えば一の音声データに対して、予め記録されている複数の音声データの中から関連付けることが可能な音声データを選択するという様な用途、更には通話中の音声に関連付けられる音声データを抽出するという様な用途に用いる等、様々な形態に展開することが可能である。

次に基幹処理中に実行される各処理について説明する。先ず基幹処理のステップＳ１０２として実行される要件類似度算出処理について説明する。なお基幹処理のステップＳ１０１にて、通話Ａの音声データ及び通話Ｂの音声データが選択されたものとし、通話Ａの音声データ及び通話Ｂの音声データの要件類似度を導出するものとして以降の説明を行う。

関連付け装置１は、要件類似度算出部１０２の処理により、音声データに対する音声認識処理を行い、音声認識処理の結果に基づいて、通話Ａの音声データ及び通話Ｂの音声データ間で共通し、かつ要件の内容に関する要件語句の出現率に係る数値を、要件類似度として導出する。

音声認識処理は、一般に普及しているキーワードスポッティング方式が用いられる。但し、キーワードスポッティング法に限らず、ディクテーションと呼ばれる全文書き起こし方式の認識結果である文字列に対してキーワード検索を行い、キーワードを抽出する等、様々な方法を用いることが可能である。キーワードスポッティング法にて検出されるキーワード、全文書き起こし方式に係るキーワードは、予め語句リスト１０５に記録されている要件語句を用いる。要件語句とは、「パソコン」、「ハードディスク」、「故障」等の要件に関連する語句、「昨日」、「先ほど」等の要件の説明に関連する語句等の語句である。なお要件に関連する語句のみを要件語句として扱う様にしても良い。

要件類似度は、通話Ａの音声データ及び通話Ｂの音声データの両方に出現する語句の数を示す共通語句数Ｋｃと、通話Ａの音声データ及び通話Ｂの音声データの少なくとも一方に出現する語句の数を示す総語句数Ｋｎとを用いた下記の式（１）により導出される。なお共通語句数Ｋｃ及び総語句数Ｋｎの計数に際し、同一の語句が複数回出現した場合、出現する都度、１回として計数する。この様にして導出される要件類似度Ｒｙは、０以上１以下の値となる。

Ｒｙ＝２×Ｋｃ／Ｋｎ …（１）
但し、Ｒｙ：要件類似度
Ｋｃ：共通語句数
Ｋｎ：総語句数

なお式（１）は、総語句数Ｋｎが自然数である場合に成立する。総語句数Ｋｎが０である場合、要件類似度Ｒｙは０として扱う。

上述した要件類似度導出処理に対し、更に様々な調整を行うことにより、導出される要件類似度Ｒｙの信頼性を高めることが可能となる。要件類似度Ｒｙの信頼性を高める調整について説明する。要件類似度Ｒｙの導出に係る要件語句とは、音声認識処理により認識した結果であるため、認識結果に誤りが含まれる可能性がある。従って要件類似度Ｒｙを、音声認識処理の信頼度に基づいて調整した下記の式（２）を用いて導出することにより、要件類似度Ｒｙの信頼性を高めることができる。

なお式（２）は、総語句数Ｋｎが自然数である場合に成立する。総語句数Ｋｎが０である場合、要件類似度Ｒｙは０として扱う。また一の通話に同じ共通語句が何度も出現する場合、最も高い信頼度を用いて要件類似度Ｒｙを導出する様にしてもよく、更には出現回数に応じて信頼度が高くなる様に調整してもよい。

また音声データは、コールセンタにおける対話をデータ化したものであるため、本来の要件に関係の深い語句は、通話の最初、例えば通話開始から３０秒以内に出現する可能性が高い。従って要件類似度Ｒｙを、対話の開始から出現するまでの時間ｔに基づく重みＷ（ｔ）を出現する要件語句に乗じて調整した下記の式（３）を用いて導出することにより、要件類似度Ｒｙの信頼性を高めることができる。

図６は、本発明の関連付け装置１の要件類似度導出処理における重みＷ（ｔ）を導出する一例を示すグラフである。図６は、横軸に経過時間ｔをとり、縦軸に重みＷ（ｔ）をとって、その関係を示している。式（３）にて用いる重みＷ（ｔ）は、例えば図６に示すグラフを用いることにより、経過時間ｔから導出することができる。図６から明らかな様に、経過時間ｔが３０秒に到達するまでに出現した要件語句に対しては大きな重みが付与され、以降付与される重みは急激に低下する。この様に対話の開始から早い段階で、例えば３０秒以内に出現した要件語句は、本来の要件に関係が深いとの前提に基づき、要件語句が出現するまでの時間に応じて要件類似度Ｒｙを調整することにより、要件類似度Ｒｙの信頼性を高めることができる。

また要件類似度Ｒｙの導出に係る要件語句とは、音声認識処理により認識した結果であるため、「ピーシー」、「パソコン」、「パーソナルコンピュータ」等の関係にある要件語句、即ち異音同義語については異なる要件語句と判定する。従って要件類似度Ｒｙを、異音同義語に基づいて調整することにより、要件類似度Ｒｙの信頼性を高めることができる。

図７は、本発明の関連付け装置１の要件類似度導出処理における異音同義語を示すリストの一例を示す説明図である。図７に示す様に、例えば「ピーシー」、「パソコン」、「パーソナルコンピュータ」は、いずれも「ＰＣ」として表記することが可能な同じ要件語句と見なして共通語句数Ｋｃを計数することにより、要件類似度Ｒｙの信頼性を高めることができる。この様な異音同義語を示すリストは、語句リスト１０５の一部として関連付け装置１に実装される。

図８は、本発明の関連付け装置１の要件類似度導出処理の一例を示すフローチャートである。上述した様に様々な要因に基づいて調整した要件類似度を算出する処理について説明する。関連付け装置１は、制御機構１０の制御に基づく要件類似度導出部１０１の処理により、通話Ａの音声データ及び通話Ｂの音声データに対する認識処理の結果に対し、異音同義語の変換処理を行う（Ｓ２０１）。異音同義語の変換処理は、図７に示したリストを用いて行われる。例えば「ピーシー」、「パソコン」、「パーソナルコンピュータ」を「ＰＣ」に変換する。なお同一の話者は、一の対象に対しては同じ語句を使用する可能性が高いとの観点から、異音同義語による要件類似度が高い場合、最終的に導出された関連度を小さくする調整を行う様にしても良い。

関連付け装置１は、制御機構１０の制御に基づく要件類似度導出部１０１の処理により、各要件語句の信頼度を導出し（Ｓ２０２）、更に各要件語句の重みを導出する（Ｓ２０３）。ステップＳ２０２の信頼度は、音声認識に対する信頼度であり、既に提案されている一般的な技術を用いて、音声認識処理時に導出された値を用いる。ステップＳ２０３の重みは、要件語句の出現時間に基づいて導出する。

そして関連付け装置１は、制御部１０の制御に基づく要件類似度導出部１０１の処理により、要件類似度Ｒｙを導出する（Ｓ２０４）。ステップＳ２０４では、前述した式（３）を用いて要件類似度Ｒｙを導出する。この様にして導出した要件類似度Ｒｙは、出現時刻による重みが大きい区間で、一致する要件語句が多く、またその要件語句に対する音声認識処理時の信頼度が高い程、１に近い値をとる。なお要件語句同士の類似度を導出するのではなく、要件語句と要件の内容とを関連付けたテーブルを予め準備し、要件語句から関連付けられる要件の内容の類似度を導出する様にしても良い。

図９は、本発明の関連付け装置１の要件類似度導出処理の具体例を示す図表である。図９（ａ）は、通話Ａの音声データに対する音声認識処理の結果に基づく要件語句に関する情報をレコード形式で示している。要件語句に関する情報は、語句番号ｉ、要件語句、変換後の要件語句、出現時刻Ｔ_Ai、重みＷ（Ｔ_Ai）、信頼度Ｃ_Ai、Ｗ（Ｔ_Ai）×Ｃ_Ai、対応する通話Ｂの語句番号ｊ等の項目毎に示している。図９（ｂ）は、通話Ｂの音声データに対する音声認識処理の結果に基づく要件語句に関する情報をレコード形式で示している。要件語句に関する情報は、語句番号ｉ、要件語句、変換後の要件語句、出現時刻Ｔ_Bj、重みＷ（Ｔ_Bj）、信頼度Ｃ_Bj、Ｗ（Ｔ_Bj）×Ｃ_Bj等の項目毎に示している。

図９に示した例において、上述した式（３）を用いて算出した要件類似度Ｒｙは以下の様になる。なお総語句数Ｋｎ＝９＋８＝１７、即ちＫｎ＞０である。

Ｒｙ＝２×｛（１×０．８３×１×０．８２）＋（１×０．８２×１×０．９１）
＋（１×０．８６×１×０．８８）＋（０．９７×０．８８×１×０．７７）｝
／（６．２９＋５．０６）
＝０．６２２

この様にして要件類似度算出処理が実行される。

次に基幹処理のステップＳ１０３として実行される話者類似度算出処理について説明する。図１０は、本発明の関連付け装置１の話者類似度導出処理の一例を示すフローチャートである。なお基幹処理のステップＳ１０１にて、通話Ａの音声データ及び通話Ｂの音声データが選択されたものとし、通話Ａの音声データ及び通話Ｂの音声データの話者類似度を導出するものとして以降の説明を行う。

関連付け装置１は、制御機構１０の制御に基づく話者類似度導出部１０２の処理により、通話Ａの音声データ及び通話Ｂの音声データの物理特徴を数値化した特徴量を導出する（Ｓ３０１）。ステップＳ３０１の特徴量とは、特徴パラメータ、音声パラメータ、feature parameter 等とも言われ、ベクトル、マトリックス等の形態で利用される。ステップＳ３０１にて導出される特徴量としては、例えばＭＦＣＣ（Mel-Frequency Cepstrum Coefficient ）、ＢＦＣＣ（Bark Frequency Cepstrum Coefficient ）、ＬＰＣ（Linear Prediction filter Coefficients ）、ＬＰＣケプストラム（LPC cepstral）、ＰＬＰ（Perceptual Linear Prediction）ケプストラム、パワー、及びこれらの特徴量の一次、二次の回帰係数を組み合わせたものが一般的に用いられる。また、ＲＡＳＴＡ（RelAtive SpecTrA）、ＤＭＦＣＣ（Differential Mel Frequency Cepstrum Coefficient ），ＣＭＮ（Cepstrum Mean Normalization ）、ＳＳ（Spectral Subtraction）などの正規化処理や雑音除去処理と組み合わせてもよい。

関連付け装置１は、制御機構１０の制御に基づく話者類似度導出部１０２の処理により、導出した通話Ａの音声データの特徴量及び通話Ｂの音声データの特徴量に基づく最尤推定等のモデル推定により、通話Ａの話者モデル及び通話Ｂの話者モデルを生成する（Ｓ３０２）。ステップＳ３０２の話者モデルの生成は、一般的な話者認識、話者照合等の技術に用いられるモデル推定技術を用いることが可能である。話者モデルとしては、ベクトル量子化（ＶＱ）、ＨＭＭ(Hidden Markov Model )等のモデルを適用する様にしても良く、更には音韻認識用不特定話者モデルを話者適応した特定話者音韻ＨＭＭでも良い。

関連付け装置１は、制御機構１０の制御に基づく話者類似度導出部１０２の処理により、通話Ａの話者モデルにおける通話Ｂの音声データの尤度Ｐ（Ｂ｜Ａ）と、通話Ｂの話者モデルにおける通話Ａの音声データの尤度Ｐ（Ａ｜Ｂ）とを算出する（Ｓ３０３）。ステップＳ３０３の尤度Ｐ（Ｂ｜Ａ）及び尤度Ｐ（Ａ｜Ｂ）の算出に際しては、予め音声認識処理を行い、同一の語句を発声していると認識された区間のデータに基づいて、語句毎に夫々の話者モデルを作成し、夫々の尤度を算出する様にしてもよい。そして語句毎の夫々の尤度に対して例えば平均を取ることにより、ステップＳ３０３の処理の結果としての尤度Ｐ（Ｂ｜Ａ）及び尤度Ｐ（Ａ｜Ｂ）を算出する。

関連付け装置１は、制御機構１０の制御に基づく話者類似度導出部１０２の処理により、尤度Ｐ（Ｂ｜Ａ）及び尤度Ｐ（Ａ｜Ｂ）の平均値を話者類似度Ｒｓとして導出する（Ｓ３０４）。ここで、話者類似度Ｒｓを０以上１以下の範囲に収まるようにレンジ調整（正規化）するのが望ましい。また、演算精度の問題から、尤度の対数値をとった、対数尤度を利用しても良い。なおステップＳ３０４では、話者類似度Ｒｓを尤度Ｐ（Ｂ｜Ａ）及び尤度Ｐ（Ａ｜Ｂ）の平均値以外の値として算出する様にしてもよい。例えば通話Ｂの音声データが短い場合、通話Ｂの音声データから生成される通話Ｂの話者モデルの信頼性は低いと見なし、尤度Ｐ（Ｂ｜Ａ）の値を話者類似度Ｒｓとする様にしても良い。

なお３以上の音声データの話者類似度Ｒｓを一度に導出することも可能である。例えば通話Ａ、通話Ｂ及び通話Ｃについての話者類似度Ｒｓは、下記の様にして算出される。

Ｒｓ＝｛Ｐ（Ｂ｜Ａ）＋Ｐ（Ｃ｜Ａ）＋Ｐ（Ａ｜Ｂ）
＋Ｐ（Ｃ｜Ｂ）＋Ｐ（Ａ｜Ｃ）＋Ｐ（Ｂ｜Ｃ）｝／６

上述した話者類似度導出処理は、一の音声データには、一人の話者が発声した音声のみが含まれていることを前提としている。しかしながら実際の音声データでは、複数の話者が発声した音声が一の音声データに含まれる場合がある。例えばコールセンタのオペレータと顧客との音声が含まれる場合、顧客が複数人で立ち替わり通話する場合等である。従って話者類似度導出処理においては、一の音声データに複数人の音声が含まれていることによる話者類似度Ｒｓの信頼性の低下を防止する処置を取ることが好ましい。信頼性の低下を防止する処置とは、一の音声データから、話者類似度の導出に用いる一の話者の音声の特定を容易にする処置である。

複数の話者の音声が含まれる音声データから、目的とする一の話者の音声を特定する方法の一つを説明する。先ず音声データに対する話者クラスタリング処理及び話者ラベリング処理を実行して、話者別に発話区間を分類する。具体的には、音声データ中で、非音声区間にて区切られる音声区間毎に、話者の特徴ベクトルを作成し、作成した話者の特徴ベクトルをクラスタリングする。そしてクラスタリングした各クラスタについて話者モデルを作成し、識別子を付与する話者ラベリングを行う。話者ラベリングに際しては、夫々の音声区間に係る音声データ同士での最大尤度を求めて、最適な話者モデルを決定することにより、ラベリングする話者を決定する。

そして各音声区間に係る音声データをラベリングした話者毎に通話時間を算出し、算出した通話時間が予め設定されている下限時間以下、又は通話時間全体に対する当該話者に係る通話時間の割合が予め設定されている下限率以下となる話者に係る音声データを、話者類似度の算出に用いる音声データから除外する。この様にして音声データに対する話者の絞り込みを行うことができる。

上述した話者の絞り込みを行っても一の音声データに複数の話者が発声した音声が含まれている場合、話者毎に話者類似度を導出する。即ち通話Ａの音声データに話者ＳＡ１，ＳＡ２，…の音声が含まれており、通話Ｂの音声データに話者ＳＢ１，ＳＢ２，…の音声が含まれている場合、夫々の話者の組み合わせについて話者類似度Ｒｓ（ＳＡｉ，ＳＢｊ）：ｉ＝１，２，…，ｊ＝１，２，…を導出する。そして全ての話者類似度Ｒｓ（ＳＡｉ，ＳＢｊ）最大値又は平均値を話者類似度Ｒｓとして導出する。

なおここで導出する話者類似度Ｒｓとは、顧客についての話者類似度を示している。従って複数の話者の音声の中で、オペレータが発声した音声を特定することにより、その区間を除外することができる。オペレータが発声した音声を特定する方法の例について説明する。前述した様に音声データに対する話者クラスタリング処理及び話者ラベリング処理を実行して、話者別に発話区間を分類する。そしてオペレータが着呼時に高い確率で発声する語句、例えば「はい、こちら富士通サポートセンターです」等の決まり文句が含まれている音声区間を音声認識処理により検出する。そしてその決まり文句が含まれている音声区間の音声データについてラベリングされた話者の発話区間を話者類似度の算出に用いる音声データから除外する。なお決まり文句となる語句は、例えば語句リスト１０５に予め記録しておいたものを用いる。

オペレータが発声した音声を特定する他の例について説明する。先ず、音声データベース１２ａに記録している全ての音声データに対して、話者クラスタリング処理及び話者ラベリング処理を実行して、話者別に発話区間を分類する。そして予め設定している所定の頻度以上で複数の音声データに発声が含まれる話者をオペレータと見なし、当該話者についてラベリングされた音声区間を話者類似度の算出に用いる音声データから除外する。

なおオペレータの除外は、オペレータ側の音声と、顧客側の音声とを別チャネルの音声データとすることにより、容易に除外することができる。但し、顧客側の音声を受話側のチャネルとして、オペレータ側の音声と区分して録音するシステムであっても、録音の方法によっては、顧客側の音声を示す受話側のチャネルに、オペレータ側の音声がエコーとして含まれる場合がある。この様なエコーについては、オペレータ側の音声を参照信号とし、顧客側の音声を観測信号として、エコーキャンセラ処理を実行することにより除去することが可能となる。

また予めオペレータが発声した音声に基づく話者モデルを作成しておき、オペレータに係る音声区間を除去する様にしてもよい。さらに通話時刻及び電話機台によりオペレータを特定することができるのであれば、そのことを加味することで更に高精度にオペレータに係る音声区間を除去することが可能になる。

関連付け装置１が実行する話者類似度算出処理では、上述した様々な方法を併用することにより、一の音声データに複数の話者の音声が含まれている場合、一の音声データについては、選択された一の話者の音声に基づいて話者類似度を導出する。例えば音声データにオペレータと顧客との音声が含まれる場合に、顧客である話者の音声を選択し、話者類似度を導出することにより、関連付けの精度を向上させることが可能となる。この様にして話者類似度算出処理が実行される。

次に基幹処理のステップＳ１０４として実行される関連度導出処理及びステップＳ１０５として実行される関連付け処理について説明する。関連度導出処理は、要件類似度Ｒｙ及び話者類似度Ｒｓに基づいて、複数の音声データ、ここでは通話Ａの音声データ及び通話Ｂの音声データが関連している可能性を示す関連度Ｒｃを導出する処理である。また関連付け処理とは、導出した関連度Ｒｃを予め設定されている閾値Ｔｃと比較し、関連度Ｒｃが閾値以上である場合に、通話Ａの音声データ及び通話Ｂの音声データを関連付ける処理である。

関連度Ｒｃは、下記の式（４）に示す様に要件類似度Ｒｙ及び話者類似度Ｒｓの積として導出される。

Ｒｃ＝Ｒｙ×Ｒｓ …（４）
但し、Ｒｃ：関連度
Ｒｙ：要件類似度
Ｒｓ：話者類似度

式（４）にて用いられる要件類似度Ｒｙ及び話者類似度Ｒｓは、０以上１以下の値を取るため、式（４）にて導出される関連度Ｒｃも０以上１以下の値となる。なお関連度Ｒｃと比較する閾値Ｔｃとしては、例えば０．５等の値が設定される。

なお関連度Ｒｃは、下記の式（５）に示す様に要件類似度Ｒｙ及び話者類似度Ｒｓの加重平均値として導出する様にしてもよい。

Ｒｃ＝Ｗｙ×Ｒｙ＋Ｗｓ×Ｒｓ …（５）
但し、Ｗｙ，Ｗｓ：Ｗｙ＋Ｗｓ＝１となる重み係数

重み係数Ｗｙ，Ｗｓは、それらの和が１であるので、式（５）にて導出される関連度Ｒｃも０以上１以下の値となる。要件類似度Ｒｙ及び話者類似度Ｒｓの信頼度に応じて重み係数Ｗｙ，Ｗｓを設定することにより、信頼度の高い関連度Ｒｃを導出することが可能となる。

重み係数Ｗｙ，Ｗｓは、例えば音声データの時間長に応じて設定される。音声データの時間長が長い場合、話者類似度Ｒｓの信頼度が高くなる。従って通話Ａの音声データ及び通話Ｂの音声データの短い方の通話時間Ｔ（分）に応じて、下記の様に重み係数Ｗｙ，Ｗｓを設定することにより、関連度Ｒｃの信頼性を向上させることが可能である。

Ｗｓ＝０．３（Ｔ＜１０）
＝０．３＋（Ｔ−１０）×０．０２（１０≦Ｔ＜３０）
＝０．７（Ｔ≧３０）
Ｗｙ＝１−Ｗｓ

なお重み係数Ｗｙ，Ｗｓは、その他の要因、例えば話者類似度Ｒｓ導出時の音声認識処理の信頼度等の様々な要因に基づいて適宜設定することが可能である。

また要件類似度Ｒｙ及び話者類似度Ｒｓの一方の値が低い場合に、式（４）又は式（５）による導出結果に拘わらず、関連度Ｒｃを導出する様にしても良い。即ち要件及び話者の一方のみが類似していたとしても、他方が類似していなければ一連通話である可能性は低いと見なし、計算式による関連度Ｒｃの導出により関連付けがなされることを防止するのである。具体的には要件類似度Ｒｙが予め設定される閾値Ｔｙ未満である場合、又は話者類似度Ｒｓが予め設定される閾値Ｔｓ未満である場合、関連度Ｒｃ＝０として導出する。この場合、式（４）又は式（５）による関連度Ｒｃの導出を省略することで、関連付け装置１の処理負荷を軽減することができる。

さらに要件類似度導出処理における音声認識処理と連携させて、音声データの特定の語句が含まれている場合に、関連度Ｒｃを調整する様にしても良い。例えば音声データに「先程電話した」、「昨日電話した」、「先程の件」、「お電話頂きました件」等の話題の継続を示す特定語句が含まれている場合、当該音声データの以前の音声データに、関連付けるべき音声データが存在する可能性が高い。従ってこの様な継続を示す特定語句が含まれている場合、関連度Ｒｃを例えば０．９等の所定値で除して、関連度Ｒｃが大きくなる様に調整することにより、関連付けの信頼性を向上させることが可能である。なお関連度Ｒｃが大きくなる様に調整するのではなく、閾値Ｔｃに０．９等の所定値を乗じて、閾値Ｔｃが小さくなる様に調整してもよい。但し、この様な調整は、音声データに係る時刻を検出し、特定語句を含む音声データ以前の音声データに対して関連付けを判定する場合に行う。なお「一度切らして頂きます」、「後ほどお電話をかけ直します」等の後方への話題の継続を示す特定語句が含まれている場合、特定語句を含む音声データ以後の音声データに対して関連付けを判定する場合に、関連度Ｒｃが大きくなる様に又は閾値Ｔｃが小さくなる様に調整する。この様な特定語句は、語句リスト１０５の一部として関連付け装置１に実装される。

また音声データに「再発行しました」、「確認が終了しました」、「手続完了です」、「解決しました」等の話題の完了を示す特定語句が含まれている場合、当該音声データの以後の音声データに関連付けるべき音声データが存在する可能性は低い。従ってこの様な話題の完了を示す特定語句が含まれている場合、関連度Ｒｃが小さくなる様に又は関連度Ｒｃが０になる様に調整することにより、関連付けの信頼性を向上させることが可能である。なお関連度Ｒｃが小さくなる様に調整するのではなく、閾値Ｔｃが大きくなる様に調整してもよい。但し、この様な調整は、音声データに係る時刻を検出し、特定語句を含む音声データ以後の音声データに対して関連付けを判定する場合に行う。なお話題の開始を示す特定語句が含まれている場合、特定語句を含む音声データ以前の音声データに対して、関連付けを判定する場合に、関連度Ｒｃが小さくなる様に又は閾値Ｔｃが大きくなる様に調整する。

さらに音声データに、後方への継続を示す特定語句が含まれている場合であって、特定語句の内容から、どの程度の時間が経過した時点で、関連付けるべき音声データが出現する可能性が高いかを予測できるときがある。この様な場合、下記の式（６）に示す様に、時間の関数として変化するペナルティ関数を乗じて、関連度Ｒｃを調整することにより、関連度Ｒｃの信頼性を向上させることが可能である。

Ｒｃ’＝Ｒｃ×Ｐｅｎａｌｔｙ（ｔ） …（６）
但し、Ｒｃ’：調整された関連度Ｒｃ
ｔ：特定語句を含む音声データ後の時間
Ｐｅｎａｌｔｙ（ｔ）：ペナルティ関数

なおペナルティ関数に基づく関連度Ｒｃの調整は、式（６）に示した調整に限るものではない。例えば下記の式（７）の様にしてペナルティ関数に基づく関連度Ｒｃの調整を実行する様にしてもよい。

Ｒｃ’＝ｍａｘ［｛Ｒｃ−（１−Ｐｅｎａｌｔｙ（ｔ）），０｝ …（７）

図１１は、本発明の関連付け装置１の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフであり、図１２は、本発明の関連付け装置１の関連度導出処理におけるペナルティ関数に用いる時間の具体例を示す図表である。図１１は、横軸に特定語句を含む音声データに係る通話が終了した後の経過時間ｔをとり、縦軸にペナルティ関数をとって、その関係を示している。図１１に示す様に、ペナルティ関数は、経過時間Ｔ１、Ｔ２、Ｔ３及びＴ４を基準として傾きが変化する。即ち特定語句を含む音声データに係る通話が終了後、関連付けるべき通話は、Ｔ２〜Ｔ３の時間帯に出現するが、最短でＴ１、最長でＴ４となる可能性もあることを示している。この様なペナルティ関数の時間変化は、下記の様に示すことができる。

Ｐｅｎａｌｔｙ（ｔ）＝０（ｔ≦Ｔ１）
＝（ｔ−Ｔ１）／（Ｔ２−Ｔ１）（Ｔ１＜ｔ＜Ｔ２）
＝１（Ｔ２≦ｔ≦Ｔ３）
＝１−（ｔ−Ｔ３）／（Ｔ４−Ｔ３）（Ｔ３＜ｔ＜Ｔ４）
＝０（Ｔ４≦ｔ）

図１２は、特定語句と、図１１に示すＴ１，Ｔ２，Ｔ３及びＴ４の具体例を示している。例えば音声データに特定語句「パスワードを再発行します」が含まれる場合、当該音声データに係る通話の終了から、６０〜１８０秒後に関連付けるべき通話が行われる可能性が高く、３０秒以前又は３００秒後には関連付けるべき通話が行われる可能性は極めて低いという前提に基づいて、各数値が設定されている。なお特定語句とＴ１，Ｔ２，Ｔ３及びＴ４の数値とを対応付けるのでは無く、特定語句と、要件とを関連付け、更に要件と数値とを関連付けて、特定語句からＴ１，Ｔ２，Ｔ３及びＴ４を導出する様にしても良い。またＴ１〜Ｔ２及びＴ３〜Ｔ４の様な緩衝期間を設けず、特定語句から関連付けられる時間の範囲を外れた場合には、Ｒｃ＝０とする様にしても良い。

また特定語句を含む音声データに係る通話が終了してからの相対的な時間ではなく、絶対的な日時を関数として変化するペナルティ関数を設定する様にしても良い。例えば「３時頃にご連絡致します」、「明日、折り返しご連絡します」等の次回の通話の時期を示す特定語句を含む場合、日時を関数として変化するペナルティ関数を用いる。

図１３は、本発明の関連付け装置１の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフである。図１３は、横軸に通話の開始時刻ｔｂをとり、縦軸にペナルティ関数をとって、その関係を示している。図１３は、「３時頃にご連絡致します」という特定語句に基づいて設定されるペナルティ関数の値を示している。なおペナルティ関数に基づく関連度Ｒｃの調整は、上述した式（６）、式（７）等が用いられる。

さらに通話Ａと通話Ｂとが時間的に重なっている場合、関連度Ｒｃを０にする等、様々な調整が行われる。

前記実施の形態は、本発明の無限にある実施の形態の一部を例示したに過ぎず、各種ハードウェア及びソフトウェア等の構成は、適宜設定することが可能である。また本発明による関連付けの精度を向上させるため実装形態に応じて様々な設定を行うことも可能である。

例えば過去の複数話者の通話に係る複数の音声データからグローバルモデルを作成しておき、グローバルモデルとの尤度比を用いて、話者類似度を正規化することで、話者類似度の精度、ひいては、関連付けの精度を向上させる様にしてもよい。

また過去の複数話者の通話に係る複数の音声データを話者別に階層クラスタリングしておき、通話中の話者ベクトルと近い話者のモデルをコホートモデルとし、コホートモデルとの尤度比を用いて、話者類似度を正規化することで、話者類似度の精度、ひいては、関連付けの精度を向上させる様にしてもよい。

また過去の複数話者の通話に係る複数の音声データを話者別に階層クラスタリングしておき、現在通話中の話者ベクトルが、どのクラスタに近いかを算出することにより、話者類似度の導出対象を絞り込む様にしても良い。

また話者の引き継ぎを示す要件語句が音声データに含まれる場合、要件類似度のみで関連度を導出する様にしても良い。

また通話時又は通話終了時に、「未完（後でかけ直し）」、「継続（以降の通話に継続）」、「単独（他の音声データと関連付けられない）」等の継続性を示す情報を所定の装置に対して入力し、継続性を示す情報を音声データに対応付けて記録することにより、関連付けの精度を向上させる様にしてもよい。また通話終了毎に話者モデルを作成して記録しておく様にしても良い。但し、「単独」を示す情報が対応付けられた場合には、話者モデルを破棄する様に運用することが、リソース削減の観点から望ましい。

本発明の関連付け装置のハードウェアの構成例を示すブロック図である。本発明の関連付け装置が備える音声データベースの記録内容の一例を概念的に示す説明図である。本発明の関連付け装置の機能構成例を示す機能ブロック図である。本発明の関連付け装置の基幹処理の一例を示すフローチャートである。本発明の関連付け装置が出力する関連付けの結果の一例を示す説明図である。本発明の関連付け装置の要件類似度導出処理における重みを導出する一例を示すグラフである。本発明の関連付け装置の要件類似度導出処理における異音同義語を示すリストの一例を示す説明図である。本発明の関連付け装置の要件類似度導出処理の一例を示すフローチャートである。本発明の関連付け装置の要件類似度導出処理の具体例を示す図表である。本発明の関連付け装置の話者類似度導出処理の一例を示すフローチャートである。本発明の関連付け装置の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフである。本発明の関連付け装置の関連度導出処理におけるペナルティ関数に用いる時間の具体例を示す図表である。本発明の関連付け装置の関連度導出処理におけるペナルティ関数の時間変化の一例を示すグラフである。

符号の説明

１関連付け装置
１０制御機構
１１補助記憶機構
１２記録機構
１２ａ音声データベース
１３記憶機構
１４入力機構
１５出力機構
１００通話組選択部
１０１要件類似度導出部
１０２話者類似度導出部
１０３関連度導出部
１０４関連付け部
１０５語句リスト
ＰＲＧコンピュータプログラム

Claims

話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置において、
各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する語句の出現率に係る数値を、語句類似度として導出する語句類似度導出部と、
各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出する話者類似度導出部と、
導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出する関連度導出部と、
導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付ける関連付け部と
を備えることを特徴とする関連付け装置。
前記語句類似度導出部は、
音声認識処理の信頼度、及び音声データに係る音声区間の開始から共通語句が出現するまでの時間の少なくとも一方に基づいて語句類似度を調整する様にしてある
ことを特徴とする請求項１に記載の関連付け装置。
前記話者類似度導出部は、
前記音声データに複数の話者の音声が含まれている場合に、一の話者の音声に基づいて話者類似度を導出する様にしてある
ことを特徴とする請求項１又は請求項２に記載の関連付け装置。
前記関連度導出部は、
語句類似度及び話者類似度を加重平均することで導出する様にしてあり、
更に前記音声データに係る音声の時間長に基づいて重み係数を変更する様にしてある
ことを特徴とする請求項１乃至請求項３のいずれかに記載の関連付け装置。
前記関連付け部は、
前記音声データに対する音声認識処理の結果に基づいて、前記音声データに、話題の開始、完了又は継続を示す特定語句が含まれているか否かを判定し、
特定語句が含まれていると判定した場合に、関連度又は閾値を調整する様にしてある
ことを特徴とする請求項１乃至請求項４のいずれかに記載の関連付け装置。
前記音声データは、時刻を示す時刻データを含み、
前記関連度導出部又は前記関連付け部は、関連付けの対象となる複数の音声データに係る時間が重複している場合に、関連付けの対象から除外する様にしてある
ことを特徴とする請求項１乃至請求項５のいずれかに記載の関連付け装置。
話者が発声した音声をデータ化した複数の音声データを関連付ける関連付け装置を用いた関連付け方法において、
前記関連付け装置は、
各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出するステップと、
各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出するステップと、
導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出するステップと、
導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付けるステップと
を実行することを特徴とする関連付け方法。
コンピュータに、話者が発声した音声をデータ化した複数の音声データを関連付けさせるコンピュータプログラムにおいて、
コンピュータに、
各音声データに対する音声認識処理の結果に基づいて、各音声データ間で共通する共通語句の出現率に係る数値を、語句類似度として導出させる手順と、
各音声データから抽出される夫々の音声の特徴の比較結果を示す類似度を、話者類似度として導出させる手順と、
導出した語句類似度及び話者類似度に基づいて、複数の音声データが関連している可能性を示す関連度を導出させる手順と、
導出した関連度が予め設定されている閾値以上となる複数の音声データを関連付けさせる手順と
を実行させることを特徴とするコンピュータプログラム。