JP5326169B2

JP5326169B2 - 音声データ検索システム及び音声データ検索方法

Info

Publication number: JP5326169B2
Application number: JP2009116784A
Authority: JP
Inventors: 直之神田; 貴志住吉; 浩明小窪
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2009-05-13
Filing date: 2009-05-13
Publication date: 2013-10-30
Anticipated expiration: 2029-05-13
Also published as: JP2010267012A

Description

本発明は、音声データから特定のキーワードを検索する技術に関する。

近年のストレージデバイスの大容量化に伴い、大量の音声データが音声データベースに蓄積されている。従来の多くの音声データベースでは、音声データには音声が録音された時刻の情報が付与され、その時刻情報に基づいて、所望の音声データが検索される。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻をあらかじめ知っている必要があるので、特定の発話がなされた音声を検索するような用途には不向きであった。特定の発話がなされた音声を検索する場合、従来の方法では、音声データを始めから終わりまで聴取する必要があった。

そのため、音声データベースにおいて、特定のキーワードが発話された位置を検出する技術が開発されている。代表的な方法の一つであるサブワード検索法では、まず、音声データをサブワード認識処理によってサブワード列へと変換する。ここで、サブワードとは、音素、音節など、単語よりも細かい単位系一般を指す名称である。

サブワード検索法として、入力されたキーワードのサブワード表現と音声データのサブワード認識結果とを比較し、サブワード同士が多く一致する割当て（検索結果）を取得し、当該サブワード列上で当該キーワードが発話された確率を示す検索スコアを算出し、算出された検索スコアの順に検索結果をソートすることによって、音声データ上でキーワードが発話された時刻を検出する技術が提案されている（例えば、特許文献１参照）。

しかしながら、発話の変動（イントネーション、なまり）、雑音の影響などによって、音声データのサブワード認識結果には誤りが含まれる。サブワード認識結果に誤りが多い場合、音声データ上でキーワードが発話されているにも関わらず、キーワードのサブワード表現が音声データのサブワード認識結果と一致しないので、そのキーワードが発話された時刻が検出できない問題がある。

そこで、検索結果の正誤傾向を表すテーブルを用意し、キーワードを検出した時に当該テーブルを参照することによって、検索の精度を向上させる技術が提案されている（例えば、特許文献２、非特許文献１参照）。

特開２００２−２２１９８４号公報特開２００５−２５７９５４号公報

岩田耕平他、「語彙フリー音声文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証」、情報処理学会論文誌、２００７年、Ｖｏｌ．４８、Ｎｏ．５

前述した特許文献２、非特許文献１に記載された技術では、検索結果の正誤傾向は検索対象とする音声データの特徴によって変化するので、高精度な検索を実現するためには音声データごとに正誤傾向テーブルを用意しなければならない。

ところで、文書検索の技術では、ユーザが検索結果に正解／不正解のラベルを付与することによって、逐次的に検索の精度を向上させることが広く知られている。よって、文書検索と同様に、音声データ検索においても、ユーザが音声データのサブワード認識結果に正解／不正解ラベルを付与することによって、サブワード認識結果の正誤傾向を推定することができれば、検索の精度が向上することが考えられる。

しかし、サブワード検索法において、サブワード認識結果に正解／不正解ラベルを付与する場合、以下のような問題が生じるので、これまでは、ユーザが正解／不正解ラベルを付与することによって検索の精度を向上させるサブワード検索法は実現されなかった。

まず、サブワード検索法では、同音異義語（例えば、ＰＣの「プリウス」と自動車の「プリウス」）が検索結果に表れる場合、及びキーワードが包含された語（例えば、キーワード「なかい」が包含される「となかい」）が検索結果に表れる場合がある。これらの場合、サブワード認識に誤りがないにも関わらず、ユーザから検索結果としては不正解とみなされるので、これらの不正解ラベルからサブワード認識結果の正誤傾向を推定すると、間違った傾向が導かれる問題がある。

また、キーワードに「の」などの短い語が挿入された場合、例えば、キーワード「音声検索」に対して検索結果「音声の検索」である場合、ユーザによって検索結果は正解と判定されることがある。この場合、音声データのサブワード認識結果とキーワードのサブワード表現とが一致しないにも関わらず、ユーザによって検索結果は正解と判定されるので、ユーザによって付与された正解ラベルからサブワード認識結果の正誤傾向を推定すると、間違った正誤傾向が導かれる可能性がある。

さらに、サブワード認識結果の正誤傾向は、話者及び話者が置かれている状況（背景音、感情などを含む）によって変化するので、ある話者及び状況から推定されたサブワード認識結果の正誤傾向が、必ずしも他の話者及び状況において有効に当てはまるとは限らない。このため、場合によっては誤った正誤傾向が導かれる可能性がある。

これらの問題は、特許文献２及び非特許文献１に記載された技術によっては解決することができない。なお、検索対象となる音声を実際に書き起こし、書き起こされたサブワード表現とサブワード認識結果とを比較することによって、サブワード認識結果の正誤傾向を推定する方法がある。しかし、音声データからサブワード列を書き起こすことは、ユーザの負担が大きいので、この方法は実用的ではない。

以上説明したように、サブワード検索法において、ユーザが検索結果の正誤判定をすることによって、音声データ検索の検索精度を向上させる方法は提供されていない。

本発明は、前述した問題に鑑みてなされたものであって、ユーザが検索結果の正誤を判定することによって、音声データ検索の検索精度を向上させることができるシステムを提供することを目的とする。

本発明の代表的な一例を示せば以下のとおりである。すなわち、音声データを検索するためのシステムであって、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、前記プロセッサは、サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第１サブワード列に変換し、ユーザによって入力された検索キーワードを、音素を単位とする第２サブワード列に変換し、前記第１サブワード列において、前記第２サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第２サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とする。

本発明の一実施形態によれば、ユーザが検索結果の正誤を判定することによって、音声データ検索の検索精度を向上させることができる。

本発明の第１の実施形態の音声データ検索システムの構成を示すブロック図である。本発明の第１の実施形態の音声データの登録処理を示すフローチャートである。本発明の第１の実施形態のサブワード認識結果の例を示す説明図である。本発明の第１の実施形態のキーワードの検索処理を示すフローチャートである。本発明の第１の実施形態の音声データのサブワード認識結果とキーワードのサブワード表現との割当ての関係の例を示す説明図である。本発明の第１の実施形態のキーワード検索結果の例を示す説明図である。本発明の第１の実施形態のサブワード認識結果の正誤傾向推定処理を示すフローチャートである。本発明の第１の実施形態の正解／不正解ラベルが付与される場合のキーワード検索結果の例を示す説明図である。本発明の第１の実施形態の音声情報抽出結果の例を示す説明図である。本発明の第１の実施形態のサブワード認識正誤傾向推定結果の例を示す説明図である。本発明の第１の実施形態のサブワード認識正誤傾向推定結果を利用したキーワード検索処理のフローチャートである。本発明の第２の実施形態のシステムの構成を示すブロック図である。

はじめに、本発明の概要について説明する。

本発明の音声データ検索装置は、検索結果に付与された正解／不正解ラベルに基づいて、検索結果（サブワード認識結果）の誤りが、特定の状況（同音異義語誤りや、話者、感情などの特有の誤り）でのみ見られる傾向であるのか、普遍的な傾向であるのかを判定し、後者の場合のみ正誤傾向を推定する。

そのために、音声データ検索装置は、検索結果に対し、イントネーション、前後の音素（組）、挿入／削除された音素（組）とその位置、話者、感情、背景音などの音声情報を関係付ける。ユーザが検索結果に対して正誤判定をした際に、前述した音声情報の中で、正解／不正解ラベルと相関を持つものがあるか否かを調べる。そして、正解ラベル及び不正解ラベルのいずれにも相関を持たないグループについては、サブワード認識結果の正誤傾向を推定する。

また、例えば、同音異義語又は包含語に関する検索誤り、話者及び状況に依存する検索誤りについては、音声情報と正解／不正解ラベルとの相関を計算すると、不正解ラベルとの相関が高くなる。また、挿入後などに依存する検索誤りについては、正解ラベルとの相関が高くなる。これらの正解／不正解ラベルとの相関が高い検索結果については、正誤傾向を推定する計算から除外する。また、正解ラベルとの相関が高い音声情報を持つ検索結果のグループの検索スコアを上げ、不正解ラベルとの相関が高い音声情報を持つ検索結果のグループの検索スコアを下げることによって、同音異義語、包含語などに対して適切な検索スコアを付ける。

＜実施形態１＞
以下、本発明の第１の実施形態について図面を参照して説明する。

図１は、本発明の第１の実施形態の音声データ検索装置の構成を示すブロック図である。

第１の実施形態の音声データ検索装置は、音声データ記憶部１０１、サブワード認識部１０２、サブワード列記憶部１０３、キーワード入力部１０４、キーワード・サブワード変換部１０５、キーワード検索部１０６、検索結果表示部１０７、正誤入力部１０８、音声情報抽出部１０９、音声・正誤傾向相関計算部１１０、サブワード認識正誤傾向推定部１１１及びサブワード認識正誤傾向保持部１１２を備える。

音声データ記憶部１０１は、検索対象となる音声データ、例えば、ＴＶから抽出した音声トラック、会議の録音などを格納する。音声データは、種類別に複数のファイルに記録されてもよい。サブワード認識部１０２は、音声データをサブワード列に変換し、変換されたサブワード列をサブワード列記憶部１０３に格納する。

キーワード入力部１０４は、ユーザによって入力されたキーワードを受け付ける。キーワード・サブワード変換部１０５は、キーワード入力部１０４によって受け付けられたキーワードをサブワード列に変換し、変換されたサブワード列をキーワード検索部１０６に出力する。

キーワード検索部１０６は、キーワード・サブワード変換部１０５から出力されたキーワードのサブワード列に基づいて、サブワード列記憶部１０３に格納された音声データのサブワード列を検索する。キーワードのサブワード列に一致する確率の高いサブワード列がある場合、当該サブワード列（検索結果）の位置を当該キーワードが発話された時刻として検出する。検索結果表示部１０７は、検索結果を表示する。正誤入力部１０８は、ユーザによって選択された正解／不正解ラベルを検索結果に付与する。

音声情報抽出部１０９は、検索結果の前後のサブワード、挿入／削除されたサブワードとその位置及び検索結果が含まれる音声区間の話者、感情、背景音の情報を抽出する。音声・正誤傾向相関計算部１１０は、音声情報抽出部１０９によって抽出された音声情報と正誤入力部１０８によって付与された正解／不正解ラベルとの間の相関を計算する。

サブワード認識正誤傾向推定部１１１は、音声・正誤傾向相関計算部１１０によって正解／不正解ラベルとの相関を持たないと判定された検索結果について、正誤入力部１０８によって付与された正解／不正解ラベルに基づいて、サブワード認識結果の正誤傾向を推定する。サブワード認識正誤傾向保持部１１２は、サブワード認識正誤傾向推定部１１１によって推定されたサブワード認識結果の正誤傾向を保持する。

なお、本実施形態では、音声データ検索装置を単体の装置として説明したが、端末（ブラウザ）と計算機（サーバ）とを備えたシステムによって構成してもよい。この場合、例えば、端末（ブラウザ）は、キーワード入力部１０４、検索結果表示部１０７及び正誤入力部１０８の処理を実行し、計算機（サーバ）は、その他の各処理部の処理を実行する。

以下、各処理部によって実行される処理について説明する。

第１の実施形態の音声データ検索装置では、まず音声データを検索可能にするための登録処理が実行される。

図２は、本発明の第１の実施形態の音声データの登録処理を示すフローチャートである。

音声データの登録処理では、サブワード認識部１０２は、まず、音声データ記憶部１０１に格納された複数のファイルの音声データを適当な長さに分割する（ステップ２０１）。例えば、音声パワーが所定の閾値θp以下である時間が所定の閾値θt以上連続した場合、その位置で音声データを分割してもよい。分割された音声データのそれぞれ（音声区間）には、元のファイルを示す情報及び分割された区間の開始時刻、終了時刻の情報が付与される。

なお、音声データを分割する方法には、音声パワーで区切る方法の他に、例えば、ゼロ交差数を用いる方法、ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）を用いる方法、音声認識技術を用いる方法など、さまざまな方法が広く知られている。本実施形態では、これらのどの方法を用いてもよい。

続いて、サブワード認識部１０２は、すべての音声区間に対してサブワード認識処理を実行する（ステップ２０２、２０３）。具体的には、音声データをサブワードの単位に変換する。サブワード認識部１０２は、変換されたサブワード列（サブワード認識結果）をサブワード列記憶部１０３に格納する。なお、音声データの登録処理は初回動作時の１回だけでもよい。この音声データの登録処理が完了すると、キーワード検索が可能となる。

図３は、本発明の第１の実施形態のサブワード認識結果の例を示す説明図である。

例えば、実際の発話（音声データ）３０１は、「京都に行きたいんですけど」である。実際の発話を正しくサブワード列に変換したサブワード表現３０２は、「ｋｙ／ｏ：／ｔ／ｏ／ｎ／ｉ／ｉ／ｋ／ｉ／ｔ／ａ／ｉ／Ｎ／ｄ／ｅ／ｓ／ｕ／ｋ／ｅ／ｄ／ｏ」である。これに対し、サブワード認識部１０２が音声データをサブワード列に変換したサブワード認識結果３０３は、「ｋｙ／ｏ：／ｔ／ａ／ｎ／ｉ／ｋ／ｉ／ｔ／ａ／ｉ／Ｎ／ｄ／ａ／ｓ／ｕ／ｔ／ｅ／ｔ／ｏ」である。サブワード認識結果３０３において、○で囲った部分はサブワード認識の誤りである。このように、サブワード認識結果３０３には、発話の変動及び雑音の影響によって、発話どおりに正しく認識されない誤りが含まれる。

なお、音声データの音声波形をＸとし、サブワード列をＷとすると、サブワード認識は、例えば、以下の式で示される事後確率最大化探索問題に帰着する。

上記の事後確率最大化探索問題では、音声認識によって大量の学習データから学習された音響モデル及び言語モデルに基づいて解が求められる。なお、音声認識の方法については、広く知られた技術であるので、ここでは説明を省略する。また、サブワード認識の方法には、音声をサブワード列に直接変換する方法、及び、連続単語認識技術を用いて一旦単語列へと変換した後、単語とサブワードとの変換辞書をもとにサブワード列に変換する方法などがある。これらは、例えば、「鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、「音声認識システム」、オーム社、２００１年」に記載されているように、広く知られた技術であるので、ここでは説明を省略する。

音声データの登録処理が終わると、ユーザがキーワードを検索可能な状態になる。

図４は、本発明の第１の実施形態のキーワードの検索処理を示すフローチャートである。

まず、キーワード入力部１０４は、ユーザによって入力されたキーワードを受け付ける（ステップ４０１）。キーワードが受け付けられると、次に、キーワード・サブワード変換部１０５は、受け付けたキーワードをサブワード表現（サブワード列）に変換する（ステップ４０２）。

なお、キーワードは、キーボード、タッチパッドなどの入力デバイスによって入力されてもよい。また、音声で入力され、音声認識を用いてキーワード文字列へ変換されてもよい。以下では、ユーザがキーワード「京都（きょうと）」を入力した場合について説明する。

サブワード表現への変換は、あらかじめ定めておいた変換ルールに基づく。例えば、「きょう」は「ｋｙ／ｏ：」へ変換され、「と」は「ｔ／ｏ」へ変換されるとすると、「きょうと」は「ｋｙ／ｏ：／ｔ／ｏ」へ変換される。この変換ルールは、発話を表現するためのかな文字について用意しておけばよい。

続いて、キーワード検索部１０６は、サブワード認識部１０２から出力された音声データのサブワード認識結果と、キーワード・サブワード変換部１０５から出力されたキーワードのサブワード表現とを比較し、サブワード認識結果とキーワードのサブワード表現との間の編集距離が最も小さくなる割当てを求める（ステップ４０３、４０４）。

ここで、編集距離とは、一方の語句を他方の語句に一致させるために、文字の挿入、削除、置換が何回必要かを表すものである。なお、編集距離を計算するため、動的計画法を利用してもよい。動的計画法を用いると、サブワード認識結果とキーワードのサブワード表現との間の編集距離を効率よく求めることができる。動的計画法については、広く知られた技術であるので、ここでは説明を省略する。

図５は、本発明の第１の実施形態の音声データのサブワード認識結果とキーワードのサブワード表現との割当ての関係の例を示す説明図である。

図５に示した例では、音声データのサブワード認識結果５０１とキーワードのサブワード表現５０２との編集距離が最も小さくなる割当てが矢印で示されている。例えば、キーワードのサブワード表現「ｋｙｏ：ｔｏ」に対して、サブワード認識結果のうちの「ｋｙｏ：ａｔａ」の部分が割り当てられている。つまり、この割当て「ｋｙｏ：ａｔａ」がキーワード「京都（きょうと）」の検索結果５０３となる。この場合、「ｋｙｏ：ａｔａ」を「ｋｙｏ：ｔｏ」に一致させるために、「ａ」の削除が１回、「ａ」から「ｏ」への置換が１回必要であるので、編集距離は「２」である。

キーワード検索部１０６は、サブワード列記憶部１０３に格納されている音声データのサブワード認識結果のすべてに対して、編集距離に基づく割当てを実行した後、その編集距離が小さい順に当該割当て（検索結果）をソートする（ステップ４０５）。検索結果表示部１０７は、その検索結果がファイル中でどの位置にあるかを示す情報（例えば、開始時刻など）を表示する（ステップ４０６）。

図６は、本発明の第１の実施形態のキーワード検索結果の例を示す説明図である。

ステップ４０６において、検索結果表示部１０７は、例えば、図６に示すキーワード検索結果６００をユーザに提示する。キーワード検索結果６００は、ファイル名６０１、開始時刻６０２、再生ボタン６０３及び正解／不正解ラベルのボタン６０４を含む。

ファイル名６０１は、ステップ４０５において、検索結果が含まれるファイルの名称である。開始時刻６０２は、検索結果が含まれる音声区間（分割された音声データの区間）の開始時刻である。なお、音声区間の終了時刻を合わせて表示してもよい。再生ボタン６０３は、検索結果が含まれる音声区間を再生するためのボタンである。ユーザは、再生ボタン６０３を操作することによって、当該時刻から始まる音声データを再生し、音声データの内容を聴取することできる。正解／不正解ラベルのボタン６０４は、検索結果（音声データのサブワード認識結果）が正解であるか不正解であるかを示すラベルを付与するためのボタンである。

キーワード検索処理の後、検索結果（サブワード認識結果）の正誤傾向を推定する処理が実行される。

図７は、本発明の第１の実施形態のサブワード認識結果の正誤傾向推定処理を示すフローチャートである。

まず、正誤入力部１０８は、ユーザによって選択された正解／不正解ラベルを検索結果に付与する（ステップ７０１、７０２）。

図８は、本発明の第１の実施形態の正解／不正解ラベルが付与される場合のキーワード検索結果の例を示す説明図である。

ステップ７０２において、正解／不正解ラベルを付与するために、検索結果表示部１０７は、例えば、図８に示すキーワード検索結果８００をユーザに提示する。キーワード検索結果８００は、ファイル名８０１、開始時刻８０２、再生ボタン８０３及び正解／不正解ラベルのボタン８０４を含む。ファイル名８０１、開始時刻８０２、再生ボタン８０３は、図６のファイル名６０１、開始時刻６０２、再生ボタン６０３と同じである。正解／不正解ラベルのボタン８０４は、例えば、プルダウンメニューでもよい。

再生ボタン８０３が操作され、音声データが再生されると、ユーザによって音声データが聴取され、音声データの内容が所望の検索結果であるか否かが確認される。再生された音声データが正しい検索結果だった場合、ユーザによって正解／不正解ラベルのボタン８０４の正解が選択される。一方、再生された音声データが誤った検索結果だった場合、ユーザによって不正解が選択される。正誤入力部１０８は、ユーザによって選択された正解／不正解ラベルを検索結果に付与する。

図７のステップ７０３の説明に戻る。

音声情報抽出部１０９は、正解／不正解ラベルが付与された検索結果が含まれる音声区間に対して、音声情報を抽出する処理を実行する（ステップ７０３、７０４）。具体的には、音声情報抽出部１０９は、キーワードのサブワード表現と音声データのサブワード認識結果とを比較することによって、検索結果の前後のサブワード、及び、検索結果において挿入／削除されているサブワードを抽出する。

また、韻律、背景音、話者、感情に関する音声情報を抽出する。さらに、音声情報抽出部１０９は、これらの抽出された音声情報を検索結果に関係付け、例えば、音声情報抽出結果９００（図９参照）を作成する。なお、音声情報抽出部１０９は、これらの音声情報を抽出するために、図示しない韻律情報抽出部、背景音抽出部、話者情報特徴量抽出部及び感情情報抽出部を備えてもよい。

韻律情報抽出部は、まず、当該音声区間の基本周波数成分を抽出する。次に、キーワード検索処理によって求められた検索結果が含まれる音声区間において、周波数が基本周波数から最も大きく変化する時刻を求める。この時刻に相当する検索結果のサブワードの位置を検出することによって、韻律情報を抽出する。なお、基本周波数成分の抽出処理については、広く知られた技術であるので、詳細な説明は省略する。

なお、ここでは、周波数が変化する時刻が検索結果のうちの何番目のサブワードに相当するかによって韻律情報を抽出したが、その他にも、所定の時間幅で離散化された区間のうちどの位置で基本周波数成分が最も変化するかによって韻律情報を抽出してもよい。

背景音抽出部は、当該検索結果が含まれる音声区間の背景音情報を抽出する。ここで、背景音情報とは、当該話者の発話のほかに録音されている拍手音、歓声、音楽などである。背景音抽出部は、背景音の存在を判定するために、まず、背景音のモデル、例えば、混合ガウス分布モデル（ＧＭＭ：ＧａｕｓｓｉａｎＭｉｘｕｔｕｒｅＭｏｄｅｌ）を作成する。具体的には、背景音抽出部は、あらかじめ用意された複数（Ｎ個）の背景音（例えば、拍手音、歓声、音楽など）のＧＭＭｉ（ｉ＝１、………、Ｎ）を作成する。

次に、背景音抽出部は、背景音Ｘが入力されると、周波数解析によって当該背景音ＸをＭＦＣＣ（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）特徴量に変換した後、変換されたＭＦＣＣ特徴量に基づいて、それぞれのＧＭＭｉ（ｉ＝１、………、Ｎ）から当該背景音Ｘが生成される確率Ｐ（Ｘ｜ＧＭＭｉ）を求める。背景音抽出部は、確率Ｐが所定の閾値を超えた場合、対応する背景音が存在すると判定する。背景音抽出部は、背景音の種類を示す情報（例えば、拍手音、歓声、音楽）を出力する。

話者情報特徴量抽出部は、あらかじめ収集された複数（Ｎ人）の話者の音声のＧＭＭｉ（ｉ＝１、………、Ｎ）を作成する。話者情報特徴量抽出部は、音声Ｘが入力されると、周波数解析によって当該音声ＸをＭＦＣＣ特徴量に変換し、変換されたＭＦＣＣ特徴量に基づいて、それぞれのＧＭＭｉから音声Ｘが生成される確率Ｐ（Ｘ｜ＧＭＭｉ）を求める。そして、最も確率Ｐが大きくなるＧＭＭｉの音声を、当該検索結果の話者情報として出力する。

なお、背景音及び話者の音声をモデル化する場合、ＧＭＭのパラメータを推定する必要があるが、ＧＭＭのパラメータ推定方法については広く知られた技術であるので、説明は省略する。また、本実施形態では、ＭＦＣＣ特徴量に基づいてＧＭＭを作成したが、その他の特徴量に基づいてＧＭＭを作成してもよい。ＭＦＣＣ特徴量の抽出方法、ＧＭＭの作成方法については、広く知られた技術であるので、説明は省略する。

感情情報抽出部は、話者の感情を抽出する。ここで、感情情報とは、当該発話についての話者の感情を表す情報であり、例えば、平静、怒り、喜びなどである。感情情報抽出部は、感情（平静、怒り、喜びなど）を判定するために、まず、あらかじめ用意された各感情が含まれるＮ個の音声のＧＭＭｉ（ｉ＝１、………、Ｎ）を作成する。

次に、感情情報抽出部は、音声Ｘが入力されると、周波数解析によって当該音声ＸをＭＦＣＣ特徴量へと変換した後、変換されたＭＦＣＣ特徴量に基づいて、それぞれのＧＭＭｉ（ｉ＝１、………、Ｎ）から当該音声Ｘが生成される確率Ｐ（Ｘ｜ＧＭＭｉ）を求める。そして、最も確率Ｐが大きくなるＧＭＭｉの音声を、話者の感情情報として出力する。

音声情報抽出部１０９は、前述した音声情報を抽出する処理によって、正解／不正解ラベルが付与された検索結果が含まれる音声区間の音声情報などを取得する。なお、本実施形態では、音声情報抽出部１０９は、正解／不正解ラベルが付与された検索結果が含まれる音声区間のみの音声情報を抽出したが、正解／不正解ラベルが付与されていない検索結果が含まる他の音声区間の音声情報を抽出してもよい。また、音声データ記憶部１０１に格納されたファイルの音声データすべてに対して、あらかじめ音声情報を抽出しておいてもよい。この場合、前後のサブワード及び挿入／削除されたサブワードの情報は除く。

図９Ａは、本発明の第１の実施形態の音声情報抽出結果９００の例を示す説明図である。

音声情報抽出結果９００は、検索結果９０１、前サブワード９０２、後サブワード９０３、挿入９０４、削除９０５、韻律変化位置９０６、背景音９０７、話者９０８及び感情９０９を含む。音声情報抽出結果９００は、ステップ７０４において、音声情報抽出部１０９によって作成される。

検索結果９０１は、キーワード検索処理によって求められた検索結果を含むファイルの名称、及び、そのファイル中において検索結果が含まれる音声区間の位置（開始時刻）の情報である。前サブワード９０２は、当該検索結果の前にあるサブワードである。後サブワード９０３は、当該検索結果の後にあるサブワードである。

挿入９０４は、キーワードのサブワード表現と当該検索結果（音声データのサブワード認識結果）とを互いに交差を許さずに比較した場合、当該検索結果のみに含まれるサブワードである。削除９０５は、当該検索結果のみに含まれないサブワードである。韻律変化位置９０６は、音声情報抽出部１０９によって抽出された韻律の変化位置である。背景音９０７は、音声情報抽出部１０９によって抽出された背景音であり、例えば、拍手音、歓声、音楽である。話者９０８は、音声情報抽出部１０９によって判定された当該音声を発話した話者、又は、当該話者の特徴に最も近いと考えられる話者モデルである。感情９０９は、音声情報抽出部１０９によって抽出された感情の情報であり、例えば、平静、怒り、喜びである。

なお、音声情報抽出結果９００は、正誤入力部１０８によって当該検索結果に付与された正解／不正解ラベルの情報（図示省略）を含んでもよい。

ここで、図７のステップ７０５の説明に戻る。

音声・正誤傾向相関計算部１１０は、音声情報抽出部１０９によって検索結果に関係付けられた音声情報と、正誤入力部１０８によって検索結果に付与された正解／不正解ラベルと、の間の相関を計算する。具体的には、まず、音声情報のうちＮ個の情報を選択する。例えば、図９において、前サブワード９０２と後サブワード９０３と挿入９０４と削除９０５との４個の音声情報を選択する。

次に、例えば、図９の各検索結果９０１毎に、各検索結果９０１に関係付けられたＮ個の音声情報の値を比較する。各検索結果９０１に関係付けられたＮ個の音声情報が同じである場合、そのＮ個の音声情報が関係付けられた検索結果９０１のグループを作成し、作成されたグループの各検索結果９０１に付与された「正解／不正解ラベルの総数」（正解ラベルの数＋不正解ラベルの数）を求める。

次に、音声・正誤傾向相関計算部１１０は、「正解／不正解ラベルの総数」が所定の閾値θnumを超えるか否か判定する。

「正解／不正解ラベルの総数」が所定の閾値θnumを超えると判定された場合、次に、「正解ラベルの数／（正解ラベルの数＋不正解ラベルの数）」の割合を求める。この割合が所定の閾値θmax以上である場合、音声・正誤傾向相関計算部１１０は、当該音声情報は正解ラベルと相関を持つと判定する。一方、この割合が所定の閾値θmin以下の場合、音声・正誤傾向相関計算部１１０は、当該音声情報は不正解ラベルと相関を持つと判定する。

音声・正誤傾向相関計算部１１０は、この正解ラベル及び不正解ラベルのいずれかと相関を持つと判定された検索結果を保持する。一方、正解ラベル及び不正解ラベルのいずれとも相関を持たないと判定された検索結果をサブワード認識正誤傾向推定部１１１に出力する。つまり、正解ラベル及び不正解ラベルのいずれかと相関を持つと判定された検索結果（サブワード認識結果）については、正誤傾向を推定しない。これらの検索結果（サブワード認識結果）はある特殊な状況（同音意義、「の」の挿入、話者の話し方、周囲の雑音など）に依存するものであるので、これらについて正誤傾向を推定すると誤った方向に学習が進む恐れがあるからである。

なお、そのほかに、音声・正誤傾向相関計算部１１０は、音声情報抽出部１０９によって取得された音声情報（音声の特徴量）に基づいて、正解／不正解ラベルを予測する決定木を学習し、当該決定木の各葉ノードに対して割り当てられた検索結果から、「正解ラベルの数／（正解ラベルの数＋不正解ラベルの数）」を求めることによって、音声情報（音声の特徴量）と正解ラベルとの相関を計算してもよい。

次に、サブワード認識正誤傾向推定部１１１は、検索結果に付与された正解／不正解ラベルに基づいて、サブワード認識結果の正誤傾向を推定する（ステップ７０６）。

本実施形態では、サブワード認識結果の正誤傾向をサブワード置換確率Ｐ（Ｒ｜Ｈ）で表現し、最尤推定に基づいて推定する。ここで、Ｈは、サブワード認識によって得られたサブワード列の中のあるサブワードを表す確率変数、Ｒは、実際にその音声で発話されているあるサブワードを表す確率変数である。例えば、サブワード認識によって、あるサブワードａが認識された場合、実際にはそれがサブワードｂである確率は、Ｐ（Ｒ＝ｂ｜Ｈ＝ａ）と表現される。このサブワード置換確率Ｐ（Ｒ＝ｂ｜Ｈ＝ａ）が正誤傾向の推定の対象である。

サブワード認識正誤傾向推定部１１１は、まず、音声・正誤傾向相関計算部１１０において正解ラベル及び不正解ラベルのいずれとも相関を持たない検索結果のうち、正解ラベルが付与されているグループを抽出する。

当該検索結果のグループにおいて、キーワード検索時にキーワードのサブワード表現に含まれるあるサブワードａがサブワード認識結果のサブワードｂと対応付けられた回数をＮabとし、すべての割当てのなかでキーワードのサブワード表現中にサブワードａが出現する回数をＮaとすると、最尤推定に基づいて求められるサブワード置換確率は下記の式で表現される。

Ｐ（Ｒ＝ｂ｜Ｈ＝ａ）＝Ｎab／Ｎa
サブワード認識正誤傾向推定部１１１は、サブワード置換確率をサブワード認識正誤傾向保持部１１２に出力する。サブワード認識正誤傾向保持部１１２は、サブワード置換確率を含むサブワード認識正誤傾向推定結果を保持する。

図９Ｂは、本発明の第１の実施形態のサブワード認識正誤傾向推定結果９５０の例を示す説明図である。

図９Ｂの縦軸は、キーワードのサブワード表現（正解）の各音素である。横軸は、実際に発話された音声データのサブワード認識結果の各音素である。各項目が交わったセルに記録されている値は、サブワード認識正誤傾向推定部１１１によって求められたサブワード置換確率である。例えば、キーワードのサブワード表現（正解）「ａ」がサブワード認識結果「ａ」に正しく認識され、置換される確率は、「０．８７」であり、キーワードのサブワード表現（正解）「ａ」がサブワード認識結果「ｂ」に誤って認識され、置換される確率は「０．０１」であることを示す。

音声・正誤傾向相関計算部１１０及びサブワード認識正誤傾向推定部１１１が動作した後に、再びユーザがキーワードを入力すると、キーワード検索部１０６は、図４に示したキーワード検索処理とは一部異なる処理を実行する。

図１０は、本発明の第１の実施形態のサブワード認識正誤傾向推定結果９５０を利用したキーワード検索処理のフローチャートである。

ステップ１００１から１００３は、図４に示したステップ４０１から４０３と同じである。次に、キーワード検索部１０６は、キーワードが発話された確率が最も高くなるようなキーワードのサブワード表現とサブワード認識結果との割当てを求める（ステップ１００４）。この場合、キーワード検索部１０６は、サブワード認識正誤傾向保持部１１２に保持されたサブワード認識正誤傾向推定結果９５０を利用する。

具体的には、まず、キーワード検索部１０６は、サブワード認識部１０２によって出力されたサブワード認識結果と、キーワードのサブワード表現との編集距離が最も小さくなり、互いに交差しない割当てを求める。次に、キーワード検索部１０６は、サブワード認識正誤傾向保持部１１２が保持するサブワード認識正誤傾向推定結果９５０を参照し、当該割当て（検索結果）に含まれるサブワードのそれぞれのサブワード置換確率を取得し、取得したそれぞれの確率を乗算することによって、当該キーワードと当該検索結果とが一致する確率（検索スコア、当該キーワードが発話された確率）を算出する。このステップ１００４では、動的計画法を利用すると、一致する確率を効率よく求めることができる。

ステップ１００４によって、キーワード検索部１０６はサブワード認識正誤傾向推定結果に基づいてキーワード検索の処理を実行するので、精度の高い音声データ検索が可能となる。

次に、音声情報抽出部１０９は、当該検索結果が検出された音声区間の音声情報を抽出する（ステップ１００５）。次に、音声・正誤傾向相関計算部１１０は、当該検索結果に関係付けられた、例えば、Ｎ個の音声情報と当該検索結果に付与された正解／不正解ラベルとの間の相関を計算する。そして、キーワード検索部１０６は、当該検索結果が不正解ラベルと相関を持つ場合、当該キーワードと当該検索結果とが一致する確率（検索スコア）から所定の値を差し引く（ステップ１００７）。

なお、音声情報抽出部１０９は、所定の値を差し引くほかに、音声・正誤傾向相関計算部１１０によって求められた「正解ラベルの数／（正解ラベルの数＋不正解ラベルの数）」の割合と、当該キーワードと当該検索結果とが一致する確率とを掛け合わせてもよい。さらに、キーワード検索部１０６は、当該検索結果が正解ラベルと相関を持つ場合、当該キーワードと当該検索結果とが一致する確率（検索スコア）に所定の値を加えてもよい。

このステップ１００７によって、同音異義語などの検索結果についても、正解／不正解ラベルとの相関に基づいて検索スコアが修正されるので、正しい検索結果を得ることができる。

次に、キーワード検索部１０６は、検索スコアが高い順に検索結果をソートする（ステップ１００６）。検索結果表示部１０７は、ソートされた検索結果を表示する（ステップ１００８）。

なお、本実施形態では、サブワード認識正誤傾向推定部１１１は、最尤推定によって正誤傾向を推定した。しかし、検索結果及び検索結果に付与された正解／不正解ラベルの情報を多く取得できない場合、サブワード認識正誤傾向推定部１１１は、統計的に正しい正誤傾向を推定することができない。

つまり、図９に示したサブワード認識正誤傾向推定結果９５０は十分な精度を持たない。このため、サブワード認識正誤傾向推定部１１１は、あらかじめ収集され、サブワードに書き起こされた音声コーパスを利用して、サブワード認識結果の大まかな正誤傾向（事前確率）を推定し、その後、最大事後確率推定を用いることによって、正誤傾向を修正してもよい。以下に、最大事後確率推定による方法について説明する。

サブワード認識正誤傾向推定部１１１は、あらかじめ収集され、音声コーパスから書き起こされたサブワード列を利用して、サブワード認識結果の正誤傾向を推定する。具体的には、サブワード認識正誤傾向推定部１１１は、サブワード認識によってサブワード列に変換された、音声コーパスのサブワード認識結果と、音声コーパスから書き起こされたサブワード列とが最もよく一致する割当てを求める。このように大量に取得された割当てにおいて、音声コーパスから書き起こされたサブワード列に含まれるあるサブワードａが出現する回数をＸ回とし、そのうち、そのサブワードａがサブワード認識結果のサブワードｂに割り当てられる回数をＹ回とすると、最尤推定によって、サブワード置換確率は、下記の式によって算出される。

Ｐ（ｈ＝ｂ｜ｒ＝ａ）＝Ｙ／Ｘ
なお、当該音声コーパスのサブワード列のサブワードａがサブワード認識結果のサブワードｂに一度も割り当てられない場合、確率の平滑化をすることによって、サブワードａからサブワードｂへのサブワード置換確率を算出することができる。簡単な方法としては、出現しなかった割当てに対して、一定の確率値を与えた後、下記の式を満たすように確率値の正規化を行なうとよい。

Σ_hＰ（ｈ｜ｒ＝ａ）＝１
次に、算出されたサブワード置換確率及び正誤入力部１０８によって付与された正解／不正解ラベルに基づき、最大事後確率推定によって、サブワード認識結果の正誤傾向を推定する。ここで、サブワード認識結果の正誤傾向は、あるサブワード認識結果ｒに対して、実際にその音声がサブワードｈである確率Ｐ（ｈ｜ｒ）として表現される。

まず、サブワード認識正誤傾向推定部１１１は、音声・正誤傾向相関計算部１１０によって求められた正解ラベル及び不正解ラベルのいずれとも相関を持たない検索結果の集合のうち、正解ラベルが付与されている検索結果を抽出する。

当該検索結果の集合において、キーワード検索時にキーワードのサブワード表現に含まれるあるサブワードａがサブワード認識結果のサブワードｂに割り当てられる回数をＮabとし、すべての割当ての中でキーワードのサブワード表現中にサブワードａが出現する回数をＮaとすると、最大事後確率推定によって、修正後のサブワード置換確率は、先にサブワード認識正誤傾向として求められた事前確率Ｐ（ｈ＝ｂ｜ｒ＝ａ）を用いて、下記の式で表現される。

Ｐ（Ｒ＝ｂ｜Ｈ＝ａ）＝（Ｎab＋Ｙ）／（Ｎa＋Ｘ）
これによって、Ｎａが非常に小さい場合にＰ（Ｒ＝ｂ｜Ｈ＝ａ）の推定値の分散が大きくなる問題を避けることができる。

以上説明したように、第１の実施形態によると、検索結果に付与された正解／不正解ラベルに基づいて、正解／不正解ラベルと相関を持つ検索結果、すなわち、特定の状況でのみ見られる検索結果を正誤傾向の推定から除くことができるので、検索結果の正誤傾向を正しく推定することができる。また、検索結果が正解／不正解ラベルと相関を持つ場合、推定された正誤傾向に基づいて算出された検索スコアが修正されるので、検索精度を向上させることができる。

＜実施形態２＞
以下、本発明の第２の実施形態について図面を参照して説明する。

第２の実施形態の音声データ検索装置は、所定のルールに従って作成された検索キーワードのリストを用い、当該キーワードのリストに対して検索を実行し、検索結果に付与された正解／不正解ラベルに基づいて、初期適応（チューニング）を実行することができる。

図１１は、本発明の第２の実施形態のシステムの構成を示すブロック図である。

第２の実施形態の音声データ検索装置は、音声データ記憶部１１０１、サブワード認識部１１０２、サブワード列記憶部１１０３、キーワード入力部１１０４、キーワード・サブワード変換部１１０５、キーワード検索部１１０６、検索結果表示部１１０７、正誤入力部１１０８、音声情報抽出部１１０９、音声・正誤傾向相関計算部１１１０、サブワード認識正誤傾向推定部１１１１、サブワード認識正誤傾向保持部１１１２、キーワード選択部１１１３、キーワードリスト入力部１１１４及び検索結果選択部１１１５を備える。

キーワード選択部１１１３は、所定のルールに従って、キーワードを選択する。キーワードリスト入力部１１１４は、当該キーワードリストに対して音声データ検索装置が検索を実行するため、キーワード選択部１１１３によって作成されたキーワードリストをキーワード・サブワード変換部１１０５に出力する。検索結果選択部１１１５は、ユーザによって選択された正解／不正解ラベルを当該キーワード検索結果に付与する。

音声データ記憶部１１０１、サブワード認識部１１０２、サブワード列記憶部１１０３、キーワード入力部１１０４、キーワード・サブワード変換部１１０５、キーワード検索部１１０６、検索結果表示部１１０７、正誤入力部１１０８、音声情報抽出部１１０９、音声・正誤傾向相関計算部１１１０、サブワード認識正誤傾向推定部１１１１、サブワード認識正誤傾向保持部１１１２は、各々、図１に示した第１の実施形態の音声データ検索装置の音声データ記憶部１０１、サブワード認識部１０２、サブワード列記憶部１０３、キーワード入力部１０４、キーワード・サブワード変換部１０５、キーワード検索部１０６、検索結果表示部１０７、正誤入力部１０８、音声情報抽出部１０９、音声・正誤傾向相関計算部１１０、サブワード認識正誤傾向推定部１１１、サブワード認識正誤傾向保持部１１２と同じである。

音声データの登録処理については、第１の実施形態と同じであるので説明を省略する。

音声データの登録処理が終了すると、音声データ検索装置の初期適応において、キーワード選択部１１１３は、所定のルールに従って、複数のキーワードを選択する。本実施形態では、適当なテキストコーパス中で出現頻度が所定の閾値以上の単語のうち、そのサブワード表現に含まれるサブワードの分布のエントロピーが最大となるＮ個の単語を求める。なお、単純にテキストコーパスに頻出する単語をＮ個選択してもよい。

次に、キーワードリスト入力部１１１４は、キーワード選択部１１１３によって選択されたキーワードのそれぞれをキーワード・サブワード変換部１１０５に出力する。キーワード・サブワード変換部１１０５は、キーワードリスト入力部１１１４から出力されたキーワードに対して、キーワード・サブワード変換を実行する。キーワード検索部１１０６は、サブワード列記憶部１１０３に格納された音声データのサブワード認識結果から、キーワードのサブワード表現と一致する割当てを求める。

検索結果選択部１１１５は、所定のルールに従って検索結果を選択し、選択された検索結果をユーザに提示する。ここで、所定のルールとは、例えば、検索結果のスコアが所定の閾値θscoreを超えた場合、当該検索結果を選択する、などである。正誤入力部１１０８は、ユーザによって選択された正解／不正解ラベルを検索結果に付与する。これによって、無駄な正解／不正解ラベルの付与を減らすことができるので、効率的にサブワード認識結果の正誤傾向を推定することができる。

その他の処理部については、第１の実施形態と同じであるので、説明を省略する。なお、第２の実施形態では、音声データ検索装置の初回動作時に初期適応（チューニング）が実行されたが、必ずしも初回動作時でなくてもよい。音声データの登録処理の後であれば、どの時点でも初期適応（チューニング）を実行することができる。

以上説明したように、第２の実施形態によれば、初めて音声データ検索装置が利用される場合、初回動作時に音声データ検索装置によって適宜選択された複数のキーワードの検索結果に正解／不正解ラベルが付与されるので、音声データ検索装置を最適な状態へチューニングすることができる。

１０１音声データ記憶部
１０２サブワード認識部
１０３サブワード列記憶部
１０４キーワード入力部
１０５サブワード変換部
１０６キーワード検索部
１０７検索結果表示部
１０８正誤入力部
１０９音声情報抽出部
１１０正誤傾向相関計算部
１１１サブワード認識正誤傾向推定部
１１２サブワード認識正誤傾向保持部
１１０１音声データ記憶部
１１０２サブワード認識部
１１０３サブワード列記憶部
１１０４キーワード入力部
１１０５サブワード変換部
１１０６キーワード検索部
１１０７検索結果表示部
１１０８正誤入力部
１１０９音声情報抽出部
１１１０正誤傾向相関計算部
１１１１サブワード認識正誤傾向推定部
１１１２サブワード認識正誤傾向保持部

Claims

音声データを検索するためのシステムであって、
プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記プロセッサは、
サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第１サブワード列に変換し、
ユーザによって入力された検索キーワードを、音素を単位とする第２サブワード列に変換し、
前記第１サブワード列において、前記第２サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、
前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、
前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、
前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第２サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とするシステム。
前記プロセッサは、前記算出されたサブワード置換確率に基づいて、前記検索結果の検索スコアを算出することを特徴とする請求項１に記載のシステム。
前記プロセッサは、
前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
さらに、前記検索結果と前記第２サブワード列とを音素毎に比較した場合、前記第２サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第２サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出しないことを特徴とする請求項１又は２に記載のシステム。
前記プロセッサは、
前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
さらに、前記検索結果と前記第２サブワード列とを音素毎に比較した場合、前記第２サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第２サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出せず、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された不正解のデータとの間の相関が高いと判定された場合、前記検索結果の検索スコアを所定の値だけ下げることを特徴とする請求項２に記載のシステム。
前記プロセッサは、
複数の検索キーワードを選択し、
前記第１サブワード列において、前記選択された複数の検索キーワードの各第２サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記複数の検索キーワードの検索結果に決定し、
前記算出されたサブワード置換確率に基づいて、前記複数の検索結果の検索スコアを算出し、
前記算出された検索スコアが所定の閾値以上である場合、前記検索結果をユーザに表示し、
前記表示された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与することを特徴とする請求項１に記載のシステム。
前記プロセッサは、あるテキストコーパスの中で頻出する単語を前記複数の検索キーワードとして選択することを特徴とする請求項５に記載のシステム。
前記プロセッサは、あるテキストコーパスの中で頻出する単語のうち、前記頻出する単語のサブワード列に含まれるサブワードの分布のエントロピーが最大となる所定の数の単語を、前記複数の検索キーワードとして選択することを特徴とする請求項５に記載のシステム。
音声データを検索するためのシステムにおいて実行される音声データ検索方法であって、
前記システムは、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記音声データ検索方法は、前記プロセッサが、
サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第１サブワード列に変換し、
ユーザによって入力された検索キーワードを、音素を単位とする第２サブワード列に変換し、
前記第１サブワード列において、前記第２サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、
前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、
前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、
前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第２サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とする音声データ検索方法。
前記プロセッサが、前記算出されたサブワード置換確率に基づいて、前記検索結果の検索スコアを算出することを特徴とする請求項８に記載の音声データ検索方法。
前記プロセッサが、
前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
さらに、前記検索結果と前記第２サブワード列とを音素毎に比較した場合、前記第２サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第２サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出しないことを特徴とする請求項８又は９に記載の音声データ検索方法。
前記プロセッサが、
前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
さらに、前記検索結果と前記第２サブワード列とを音素毎に比較した場合、前記第２サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第２サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出せず、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された不正解のデータとの間の相関が高いと判定された場合、前記検索結果の検索スコアを所定の値だけ下げることを特徴とする請求項９に記載の音声データ検索方法。
前記プロセッサが、
複数の検索キーワードを選択し、
前記第１サブワード列において、前記選択された複数の検索キーワードの各第２サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記複数の検索キーワードの検索結果に決定し、
前記算出されたサブワード置換確率に基づいて、前記複数の検索結果の検索スコアを算出し、
前記算出された検索スコアが所定の閾値以上である場合、前記検索結果をユーザに表示し、
前記表示された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与することを特徴とする請求項８に記載の音声データ検索方法。
前記プロセッサが、あるテキストコーパスの中で頻出する単語を前記複数の検索キーワードとして選択することを特徴とする請求項１２に記載の音声データ検索方法。
前記プロセッサが、あるテキストコーパスの中で頻出する単語のうち、前記頻出する単語のサブワード列に含まれるサブワードの分布のエントロピーが最大となる所定の数の単語を、前記複数の検索キーワードとして選択することを特徴とする請求項１２に記載の音声データ検索方法。