JP5326169B2 - 音声データ検索システム及び音声データ検索方法 - Google Patents

音声データ検索システム及び音声データ検索方法 Download PDF

Info

Publication number
JP5326169B2
JP5326169B2 JP2009116784A JP2009116784A JP5326169B2 JP 5326169 B2 JP5326169 B2 JP 5326169B2 JP 2009116784 A JP2009116784 A JP 2009116784A JP 2009116784 A JP2009116784 A JP 2009116784A JP 5326169 B2 JP5326169 B2 JP 5326169B2
Authority
JP
Japan
Prior art keywords
search result
subword
search
correct
incorrect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009116784A
Other languages
English (en)
Other versions
JP2010267012A (ja
Inventor
直之 神田
貴志 住吉
浩明 小窪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009116784A priority Critical patent/JP5326169B2/ja
Publication of JP2010267012A publication Critical patent/JP2010267012A/ja
Application granted granted Critical
Publication of JP5326169B2 publication Critical patent/JP5326169B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声データから特定のキーワードを検索する技術に関する。
近年のストレージデバイスの大容量化に伴い、大量の音声データが音声データベースに蓄積されている。従来の多くの音声データベースでは、音声データには音声が録音された時刻の情報が付与され、その時刻情報に基づいて、所望の音声データが検索される。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻をあらかじめ知っている必要があるので、特定の発話がなされた音声を検索するような用途には不向きであった。特定の発話がなされた音声を検索する場合、従来の方法では、音声データを始めから終わりまで聴取する必要があった。
そのため、音声データベースにおいて、特定のキーワードが発話された位置を検出する技術が開発されている。代表的な方法の一つであるサブワード検索法では、まず、音声データをサブワード認識処理によってサブワード列へと変換する。ここで、サブワードとは、音素、音節など、単語よりも細かい単位系一般を指す名称である。
サブワード検索法として、入力されたキーワードのサブワード表現と音声データのサブワード認識結果とを比較し、サブワード同士が多く一致する割当て(検索結果)を取得し、当該サブワード列上で当該キーワードが発話された確率を示す検索スコアを算出し、算出された検索スコアの順に検索結果をソートすることによって、音声データ上でキーワードが発話された時刻を検出する技術が提案されている(例えば、特許文献1参照)。
しかしながら、発話の変動(イントネーション、なまり)、雑音の影響などによって、音声データのサブワード認識結果には誤りが含まれる。サブワード認識結果に誤りが多い場合、音声データ上でキーワードが発話されているにも関わらず、キーワードのサブワード表現が音声データのサブワード認識結果と一致しないので、そのキーワードが発話された時刻が検出できない問題がある。
そこで、検索結果の正誤傾向を表すテーブルを用意し、キーワードを検出した時に当該テーブルを参照することによって、検索の精度を向上させる技術が提案されている(例えば、特許文献2、非特許文献1参照)。
特開2002−221984号公報 特開2005−257954号公報
岩田耕平他、「語彙フリー音声文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証」、情報処理学会論文誌、2007年、Vol.48、No.5
前述した特許文献2、非特許文献1に記載された技術では、検索結果の正誤傾向は検索対象とする音声データの特徴によって変化するので、高精度な検索を実現するためには音声データごとに正誤傾向テーブルを用意しなければならない。
ところで、文書検索の技術では、ユーザが検索結果に正解/不正解のラベルを付与することによって、逐次的に検索の精度を向上させることが広く知られている。よって、文書検索と同様に、音声データ検索においても、ユーザが音声データのサブワード認識結果に正解/不正解ラベルを付与することによって、サブワード認識結果の正誤傾向を推定することができれば、検索の精度が向上することが考えられる。
しかし、サブワード検索法において、サブワード認識結果に正解/不正解ラベルを付与する場合、以下のような問題が生じるので、これまでは、ユーザが正解/不正解ラベルを付与することによって検索の精度を向上させるサブワード検索法は実現されなかった。
まず、サブワード検索法では、同音異義語(例えば、PCの「プリウス」と自動車の「プリウス」)が検索結果に表れる場合、及びキーワードが包含された語(例えば、キーワード「なかい」が包含される「となかい」)が検索結果に表れる場合がある。これらの場合、サブワード認識に誤りがないにも関わらず、ユーザから検索結果としては不正解とみなされるので、これらの不正解ラベルからサブワード認識結果の正誤傾向を推定すると、間違った傾向が導かれる問題がある。
また、キーワードに「の」などの短い語が挿入された場合、例えば、キーワード「音声検索」に対して検索結果「音声の検索」である場合、ユーザによって検索結果は正解と判定されることがある。この場合、音声データのサブワード認識結果とキーワードのサブワード表現とが一致しないにも関わらず、ユーザによって検索結果は正解と判定されるので、ユーザによって付与された正解ラベルからサブワード認識結果の正誤傾向を推定すると、間違った正誤傾向が導かれる可能性がある。
さらに、サブワード認識結果の正誤傾向は、話者及び話者が置かれている状況(背景音、感情などを含む)によって変化するので、ある話者及び状況から推定されたサブワード認識結果の正誤傾向が、必ずしも他の話者及び状況において有効に当てはまるとは限らない。このため、場合によっては誤った正誤傾向が導かれる可能性がある。
これらの問題は、特許文献2及び非特許文献1に記載された技術によっては解決することができない。なお、検索対象となる音声を実際に書き起こし、書き起こされたサブワード表現とサブワード認識結果とを比較することによって、サブワード認識結果の正誤傾向を推定する方法がある。しかし、音声データからサブワード列を書き起こすことは、ユーザの負担が大きいので、この方法は実用的ではない。
以上説明したように、サブワード検索法において、ユーザが検索結果の正誤判定をすることによって、音声データ検索の検索精度を向上させる方法は提供されていない。
本発明は、前述した問題に鑑みてなされたものであって、ユーザが検索結果の正誤を判定することによって、音声データ検索の検索精度を向上させることができるシステムを提供することを目的とする。
本発明の代表的な一例を示せば以下のとおりである。すなわち、音声データを検索するためのシステムであって、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、前記プロセッサは、サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第1サブワード列に変換し、ユーザによって入力された検索キーワードを、音素を単位とする第2サブワード列に変換し、前記第1サブワード列において、前記第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第2サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とする。
本発明の一実施形態によれば、ユーザが検索結果の正誤を判定することによって、音声データ検索の検索精度を向上させることができる。
本発明の第1の実施形態の音声データ検索システムの構成を示すブロック図である。 本発明の第1の実施形態の音声データの登録処理を示すフローチャートである。 本発明の第1の実施形態のサブワード認識結果の例を示す説明図である。 本発明の第1の実施形態のキーワードの検索処理を示すフローチャートである。 本発明の第1の実施形態の音声データのサブワード認識結果とキーワードのサブワード表現との割当ての関係の例を示す説明図である。 本発明の第1の実施形態のキーワード検索結果の例を示す説明図である。 本発明の第1の実施形態のサブワード認識結果の正誤傾向推定処理を示すフローチャートである。 本発明の第1の実施形態の正解/不正解ラベルが付与される場合のキーワード検索結果の例を示す説明図である。 本発明の第1の実施形態の音声情報抽出結果の例を示す説明図である。 本発明の第1の実施形態のサブワード認識正誤傾向推定結果の例を示す説明図である。 本発明の第1の実施形態のサブワード認識正誤傾向推定結果を利用したキーワード検索処理のフローチャートである。 本発明の第2の実施形態のシステムの構成を示すブロック図である。
はじめに、本発明の概要について説明する。
本発明の音声データ検索装置は、検索結果に付与された正解/不正解ラベルに基づいて、検索結果(サブワード認識結果)の誤りが、特定の状況(同音異義語誤りや、話者、感情などの特有の誤り)でのみ見られる傾向であるのか、普遍的な傾向であるのかを判定し、後者の場合のみ正誤傾向を推定する。
そのために、音声データ検索装置は、検索結果に対し、イントネーション、前後の音素(組)、挿入/削除された音素(組)とその位置、話者、感情、背景音などの音声情報を関係付ける。ユーザが検索結果に対して正誤判定をした際に、前述した音声情報の中で、正解/不正解ラベルと相関を持つものがあるか否かを調べる。そして、正解ラベル及び不正解ラベルのいずれにも相関を持たないグループについては、サブワード認識結果の正誤傾向を推定する。
また、例えば、同音異義語又は包含語に関する検索誤り、話者及び状況に依存する検索誤りについては、音声情報と正解/不正解ラベルとの相関を計算すると、不正解ラベルとの相関が高くなる。また、挿入後などに依存する検索誤りについては、正解ラベルとの相関が高くなる。これらの正解/不正解ラベルとの相関が高い検索結果については、正誤傾向を推定する計算から除外する。また、正解ラベルとの相関が高い音声情報を持つ検索結果のグループの検索スコアを上げ、不正解ラベルとの相関が高い音声情報を持つ検索結果のグループの検索スコアを下げることによって、同音異義語、包含語などに対して適切な検索スコアを付ける。
<実施形態1>
以下、本発明の第1の実施形態について図面を参照して説明する。
図1は、本発明の第1の実施形態の音声データ検索装置の構成を示すブロック図である。
第1の実施形態の音声データ検索装置は、音声データ記憶部101、サブワード認識部102、サブワード列記憶部103、キーワード入力部104、キーワード・サブワード変換部105、キーワード検索部106、検索結果表示部107、正誤入力部108、音声情報抽出部109、音声・正誤傾向相関計算部110、サブワード認識正誤傾向推定部111及びサブワード認識正誤傾向保持部112を備える。
音声データ記憶部101は、検索対象となる音声データ、例えば、TVから抽出した音声トラック、会議の録音などを格納する。音声データは、種類別に複数のファイルに記録されてもよい。サブワード認識部102は、音声データをサブワード列に変換し、変換されたサブワード列をサブワード列記憶部103に格納する。
キーワード入力部104は、ユーザによって入力されたキーワードを受け付ける。キーワード・サブワード変換部105は、キーワード入力部104によって受け付けられたキーワードをサブワード列に変換し、変換されたサブワード列をキーワード検索部106に出力する。
キーワード検索部106は、キーワード・サブワード変換部105から出力されたキーワードのサブワード列に基づいて、サブワード列記憶部103に格納された音声データのサブワード列を検索する。キーワードのサブワード列に一致する確率の高いサブワード列がある場合、当該サブワード列(検索結果)の位置を当該キーワードが発話された時刻として検出する。検索結果表示部107は、検索結果を表示する。正誤入力部108は、ユーザによって選択された正解/不正解ラベルを検索結果に付与する。
音声情報抽出部109は、検索結果の前後のサブワード、挿入/削除されたサブワードとその位置及び検索結果が含まれる音声区間の話者、感情、背景音の情報を抽出する。音声・正誤傾向相関計算部110は、音声情報抽出部109によって抽出された音声情報と正誤入力部108によって付与された正解/不正解ラベルとの間の相関を計算する。
サブワード認識正誤傾向推定部111は、音声・正誤傾向相関計算部110によって正解/不正解ラベルとの相関を持たないと判定された検索結果について、正誤入力部108によって付与された正解/不正解ラベルに基づいて、サブワード認識結果の正誤傾向を推定する。サブワード認識正誤傾向保持部112は、サブワード認識正誤傾向推定部111によって推定されたサブワード認識結果の正誤傾向を保持する。
なお、本実施形態では、音声データ検索装置を単体の装置として説明したが、端末(ブラウザ)と計算機(サーバ)とを備えたシステムによって構成してもよい。この場合、例えば、端末(ブラウザ)は、キーワード入力部104、検索結果表示部107及び正誤入力部108の処理を実行し、計算機(サーバ)は、その他の各処理部の処理を実行する。
以下、各処理部によって実行される処理について説明する。
第1の実施形態の音声データ検索装置では、まず音声データを検索可能にするための登録処理が実行される。
図2は、本発明の第1の実施形態の音声データの登録処理を示すフローチャートである。
音声データの登録処理では、サブワード認識部102は、まず、音声データ記憶部101に格納された複数のファイルの音声データを適当な長さに分割する(ステップ201)。例えば、音声パワーが所定の閾値θp以下である時間が所定の閾値θt以上連続した場合、その位置で音声データを分割してもよい。分割された音声データのそれぞれ(音声区間)には、元のファイルを示す情報及び分割された区間の開始時刻、終了時刻の情報が付与される。
なお、音声データを分割する方法には、音声パワーで区切る方法の他に、例えば、ゼロ交差数を用いる方法、GMM(Gaussian Mixture Model)を用いる方法、音声認識技術を用いる方法など、さまざまな方法が広く知られている。本実施形態では、これらのどの方法を用いてもよい。
続いて、サブワード認識部102は、すべての音声区間に対してサブワード認識処理を実行する(ステップ202、203)。具体的には、音声データをサブワードの単位に変換する。サブワード認識部102は、変換されたサブワード列(サブワード認識結果)をサブワード列記憶部103に格納する。なお、音声データの登録処理は初回動作時の1回だけでもよい。この音声データの登録処理が完了すると、キーワード検索が可能となる。
図3は、本発明の第1の実施形態のサブワード認識結果の例を示す説明図である。
例えば、実際の発話(音声データ)301は、「京都に行きたいんですけど」である。実際の発話を正しくサブワード列に変換したサブワード表現302は、「ky/o:/t/o/n/i/i/k/i/t/a/i/N/d/e/s/u/k/e/d/o」である。これに対し、サブワード認識部102が音声データをサブワード列に変換したサブワード認識結果303は、「ky/o:/t/a/n/i/k/i/t/a/i/N/d/a/s/u/t/e/t/o」である。サブワード認識結果303において、○で囲った部分はサブワード認識の誤りである。このように、サブワード認識結果303には、発話の変動及び雑音の影響によって、発話どおりに正しく認識されない誤りが含まれる。
なお、音声データの音声波形をXとし、サブワード列をWとすると、サブワード認識は、例えば、以下の式で示される事後確率最大化探索問題に帰着する。
Figure 0005326169
上記の事後確率最大化探索問題では、音声認識によって大量の学習データから学習された音響モデル及び言語モデルに基づいて解が求められる。なお、音声認識の方法については、広く知られた技術であるので、ここでは説明を省略する。また、サブワード認識の方法には、音声をサブワード列に直接変換する方法、及び、連続単語認識技術を用いて一旦単語列へと変換した後、単語とサブワードとの変換辞書をもとにサブワード列に変換する方法などがある。これらは、例えば、「鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、「音声認識システム」、オーム社、2001年」に記載されているように、広く知られた技術であるので、ここでは説明を省略する。
音声データの登録処理が終わると、ユーザがキーワードを検索可能な状態になる。
図4は、本発明の第1の実施形態のキーワードの検索処理を示すフローチャートである。
まず、キーワード入力部104は、ユーザによって入力されたキーワードを受け付ける(ステップ401)。キーワードが受け付けられると、次に、キーワード・サブワード変換部105は、受け付けたキーワードをサブワード表現(サブワード列)に変換する(ステップ402)。
なお、キーワードは、キーボード、タッチパッドなどの入力デバイスによって入力されてもよい。また、音声で入力され、音声認識を用いてキーワード文字列へ変換されてもよい。以下では、ユーザがキーワード「京都(きょうと)」を入力した場合について説明する。
サブワード表現への変換は、あらかじめ定めておいた変換ルールに基づく。例えば、「きょう」は「ky/o:」へ変換され、「と」は「t/o」へ変換されるとすると、「きょうと」は「ky/o:/t/o」へ変換される。この変換ルールは、発話を表現するためのかな文字について用意しておけばよい。
続いて、キーワード検索部106は、サブワード認識部102から出力された音声データのサブワード認識結果と、キーワード・サブワード変換部105から出力されたキーワードのサブワード表現とを比較し、サブワード認識結果とキーワードのサブワード表現との間の編集距離が最も小さくなる割当てを求める(ステップ403、404)。
ここで、編集距離とは、一方の語句を他方の語句に一致させるために、文字の挿入、削除、置換が何回必要かを表すものである。なお、編集距離を計算するため、動的計画法を利用してもよい。動的計画法を用いると、サブワード認識結果とキーワードのサブワード表現との間の編集距離を効率よく求めることができる。動的計画法については、広く知られた技術であるので、ここでは説明を省略する。
図5は、本発明の第1の実施形態の音声データのサブワード認識結果とキーワードのサブワード表現との割当ての関係の例を示す説明図である。
図5に示した例では、音声データのサブワード認識結果501とキーワードのサブワード表現502との編集距離が最も小さくなる割当てが矢印で示されている。例えば、キーワードのサブワード表現「kyo:to」に対して、サブワード認識結果のうちの「kyo:ata」の部分が割り当てられている。つまり、この割当て「kyo:ata」がキーワード「京都(きょうと)」の検索結果503となる。この場合、「kyo:ata」を「kyo:to」に一致させるために、「a」の削除が1回、「a」から「o」への置換が1回必要であるので、編集距離は「2」である。
キーワード検索部106は、サブワード列記憶部103に格納されている音声データのサブワード認識結果のすべてに対して、編集距離に基づく割当てを実行した後、その編集距離が小さい順に当該割当て(検索結果)をソートする(ステップ405)。検索結果表示部107は、その検索結果がファイル中でどの位置にあるかを示す情報(例えば、開始時刻など)を表示する(ステップ406)。
図6は、本発明の第1の実施形態のキーワード検索結果の例を示す説明図である。
ステップ406において、検索結果表示部107は、例えば、図6に示すキーワード検索結果600をユーザに提示する。キーワード検索結果600は、ファイル名601、開始時刻602、再生ボタン603及び正解/不正解ラベルのボタン604を含む。
ファイル名601は、ステップ405において、検索結果が含まれるファイルの名称である。開始時刻602は、検索結果が含まれる音声区間(分割された音声データの区間)の開始時刻である。なお、音声区間の終了時刻を合わせて表示してもよい。再生ボタン603は、検索結果が含まれる音声区間を再生するためのボタンである。ユーザは、再生ボタン603を操作することによって、当該時刻から始まる音声データを再生し、音声データの内容を聴取することできる。正解/不正解ラベルのボタン604は、検索結果(音声データのサブワード認識結果)が正解であるか不正解であるかを示すラベルを付与するためのボタンである。
キーワード検索処理の後、検索結果(サブワード認識結果)の正誤傾向を推定する処理が実行される。
図7は、本発明の第1の実施形態のサブワード認識結果の正誤傾向推定処理を示すフローチャートである。
まず、正誤入力部108は、ユーザによって選択された正解/不正解ラベルを検索結果に付与する(ステップ701、702)。
図8は、本発明の第1の実施形態の正解/不正解ラベルが付与される場合のキーワード検索結果の例を示す説明図である。
ステップ702において、正解/不正解ラベルを付与するために、検索結果表示部107は、例えば、図8に示すキーワード検索結果800をユーザに提示する。キーワード検索結果800は、ファイル名801、開始時刻802、再生ボタン803及び正解/不正解ラベルのボタン804を含む。ファイル名801、開始時刻802、再生ボタン803は、図6のファイル名601、開始時刻602、再生ボタン603と同じである。正解/不正解ラベルのボタン804は、例えば、プルダウンメニューでもよい。
再生ボタン803が操作され、音声データが再生されると、ユーザによって音声データが聴取され、音声データの内容が所望の検索結果であるか否かが確認される。再生された音声データが正しい検索結果だった場合、ユーザによって正解/不正解ラベルのボタン804の正解が選択される。一方、再生された音声データが誤った検索結果だった場合、ユーザによって不正解が選択される。正誤入力部108は、ユーザによって選択された正解/不正解ラベルを検索結果に付与する。
図7のステップ703の説明に戻る。
音声情報抽出部109は、正解/不正解ラベルが付与された検索結果が含まれる音声区間に対して、音声情報を抽出する処理を実行する(ステップ703、704)。具体的には、音声情報抽出部109は、キーワードのサブワード表現と音声データのサブワード認識結果とを比較することによって、検索結果の前後のサブワード、及び、検索結果において挿入/削除されているサブワードを抽出する。
また、韻律、背景音、話者、感情に関する音声情報を抽出する。さらに、音声情報抽出部109は、これらの抽出された音声情報を検索結果に関係付け、例えば、音声情報抽出結果900(図9参照)を作成する。なお、音声情報抽出部109は、これらの音声情報を抽出するために、図示しない韻律情報抽出部、背景音抽出部、話者情報特徴量抽出部及び感情情報抽出部を備えてもよい。
韻律情報抽出部は、まず、当該音声区間の基本周波数成分を抽出する。次に、キーワード検索処理によって求められた検索結果が含まれる音声区間において、周波数が基本周波数から最も大きく変化する時刻を求める。この時刻に相当する検索結果のサブワードの位置を検出することによって、韻律情報を抽出する。なお、基本周波数成分の抽出処理については、広く知られた技術であるので、詳細な説明は省略する。
なお、ここでは、周波数が変化する時刻が検索結果のうちの何番目のサブワードに相当するかによって韻律情報を抽出したが、その他にも、所定の時間幅で離散化された区間のうちどの位置で基本周波数成分が最も変化するかによって韻律情報を抽出してもよい。
背景音抽出部は、当該検索結果が含まれる音声区間の背景音情報を抽出する。ここで、背景音情報とは、当該話者の発話のほかに録音されている拍手音、歓声、音楽などである。背景音抽出部は、背景音の存在を判定するために、まず、背景音のモデル、例えば、混合ガウス分布モデル(GMM:Gaussian Mixuture Model)を作成する。具体的には、背景音抽出部は、あらかじめ用意された複数(N個)の背景音(例えば、拍手音、歓声、音楽など)のGMMi(i=1、………、N)を作成する。
次に、背景音抽出部は、背景音Xが入力されると、周波数解析によって当該背景音XをMFCC(Mel Frequency Cepstrum Coefficient)特徴量に変換した後、変換されたMFCC特徴量に基づいて、それぞれのGMMi(i=1、………、N)から当該背景音Xが生成される確率P(X|GMMi)を求める。背景音抽出部は、確率Pが所定の閾値を超えた場合、対応する背景音が存在すると判定する。背景音抽出部は、背景音の種類を示す情報(例えば、拍手音、歓声、音楽)を出力する。
話者情報特徴量抽出部は、あらかじめ収集された複数(N人)の話者の音声のGMMi(i=1、………、N)を作成する。話者情報特徴量抽出部は、音声Xが入力されると、周波数解析によって当該音声XをMFCC特徴量に変換し、変換されたMFCC特徴量に基づいて、それぞれのGMMiから音声Xが生成される確率P(X|GMMi)を求める。そして、最も確率Pが大きくなるGMMiの音声を、当該検索結果の話者情報として出力する。
なお、背景音及び話者の音声をモデル化する場合、GMMのパラメータを推定する必要があるが、GMMのパラメータ推定方法については広く知られた技術であるので、説明は省略する。また、本実施形態では、MFCC特徴量に基づいてGMMを作成したが、その他の特徴量に基づいてGMMを作成してもよい。MFCC特徴量の抽出方法、GMMの作成方法については、広く知られた技術であるので、説明は省略する。
感情情報抽出部は、話者の感情を抽出する。ここで、感情情報とは、当該発話についての話者の感情を表す情報であり、例えば、平静、怒り、喜びなどである。感情情報抽出部は、感情(平静、怒り、喜びなど)を判定するために、まず、あらかじめ用意された各感情が含まれるN個の音声のGMMi(i=1、………、N)を作成する。
次に、感情情報抽出部は、音声Xが入力されると、周波数解析によって当該音声XをMFCC特徴量へと変換した後、変換されたMFCC特徴量に基づいて、それぞれのGMMi(i=1、………、N)から当該音声Xが生成される確率P(X|GMMi)を求める。そして、最も確率Pが大きくなるGMMiの音声を、話者の感情情報として出力する。
音声情報抽出部109は、前述した音声情報を抽出する処理によって、正解/不正解ラベルが付与された検索結果が含まれる音声区間の音声情報などを取得する。なお、本実施形態では、音声情報抽出部109は、正解/不正解ラベルが付与された検索結果が含まれる音声区間のみの音声情報を抽出したが、正解/不正解ラベルが付与されていない検索結果が含まる他の音声区間の音声情報を抽出してもよい。また、音声データ記憶部101に格納されたファイルの音声データすべてに対して、あらかじめ音声情報を抽出しておいてもよい。この場合、前後のサブワード及び挿入/削除されたサブワードの情報は除く。
図9Aは、本発明の第1の実施形態の音声情報抽出結果900の例を示す説明図である。
音声情報抽出結果900は、検索結果901、前サブワード902、後サブワード903、挿入904、削除905、韻律変化位置906、背景音907、話者908及び感情909を含む。音声情報抽出結果900は、ステップ704において、音声情報抽出部109によって作成される。
検索結果901は、キーワード検索処理によって求められた検索結果を含むファイルの名称、及び、そのファイル中において検索結果が含まれる音声区間の位置(開始時刻)の情報である。前サブワード902は、当該検索結果の前にあるサブワードである。後サブワード903は、当該検索結果の後にあるサブワードである。
挿入904は、キーワードのサブワード表現と当該検索結果(音声データのサブワード認識結果)とを互いに交差を許さずに比較した場合、当該検索結果のみに含まれるサブワードである。削除905は、当該検索結果のみに含まれないサブワードである。韻律変化位置906は、音声情報抽出部109によって抽出された韻律の変化位置である。背景音907は、音声情報抽出部109によって抽出された背景音であり、例えば、拍手音、歓声、音楽である。話者908は、音声情報抽出部109によって判定された当該音声を発話した話者、又は、当該話者の特徴に最も近いと考えられる話者モデルである。感情909は、音声情報抽出部109によって抽出された感情の情報であり、例えば、平静、怒り、喜びである。
なお、音声情報抽出結果900は、正誤入力部108によって当該検索結果に付与された正解/不正解ラベルの情報(図示省略)を含んでもよい。
ここで、図7のステップ705の説明に戻る。
音声・正誤傾向相関計算部110は、音声情報抽出部109によって検索結果に関係付けられた音声情報と、正誤入力部108によって検索結果に付与された正解/不正解ラベルと、の間の相関を計算する。具体的には、まず、音声情報のうちN個の情報を選択する。例えば、図9において、前サブワード902と後サブワード903と挿入904と削除905との4個の音声情報を選択する。
次に、例えば、図9の各検索結果901毎に、各検索結果901に関係付けられたN個の音声情報の値を比較する。各検索結果901に関係付けられたN個の音声情報が同じである場合、そのN個の音声情報が関係付けられた検索結果901のグループを作成し、作成されたグループの各検索結果901に付与された「正解/不正解ラベルの総数」(正解ラベルの数+不正解ラベルの数)を求める。
次に、音声・正誤傾向相関計算部110は、「正解/不正解ラベルの総数」が所定の閾値θnumを超えるか否か判定する。
「正解/不正解ラベルの総数」が所定の閾値θnumを超えると判定された場合、次に、「正解ラベルの数/(正解ラベルの数+不正解ラベルの数)」の割合を求める。この割合が所定の閾値θmax以上である場合、音声・正誤傾向相関計算部110は、当該音声情報は正解ラベルと相関を持つと判定する。一方、この割合が所定の閾値θmin以下の場合、音声・正誤傾向相関計算部110は、当該音声情報は不正解ラベルと相関を持つと判定する。
音声・正誤傾向相関計算部110は、この正解ラベル及び不正解ラベルのいずれかと相関を持つと判定された検索結果を保持する。一方、正解ラベル及び不正解ラベルのいずれとも相関を持たないと判定された検索結果をサブワード認識正誤傾向推定部111に出力する。つまり、正解ラベル及び不正解ラベルのいずれかと相関を持つと判定された検索結果(サブワード認識結果)については、正誤傾向を推定しない。これらの検索結果(サブワード認識結果)はある特殊な状況(同音意義、「の」の挿入、話者の話し方、周囲の雑音など)に依存するものであるので、これらについて正誤傾向を推定すると誤った方向に学習が進む恐れがあるからである。
なお、そのほかに、音声・正誤傾向相関計算部110は、音声情報抽出部109によって取得された音声情報(音声の特徴量)に基づいて、正解/不正解ラベルを予測する決定木を学習し、当該決定木の各葉ノードに対して割り当てられた検索結果から、「正解ラベルの数/(正解ラベルの数+不正解ラベルの数)」を求めることによって、音声情報(音声の特徴量)と正解ラベルとの相関を計算してもよい。
次に、サブワード認識正誤傾向推定部111は、検索結果に付与された正解/不正解ラベルに基づいて、サブワード認識結果の正誤傾向を推定する(ステップ706)。
本実施形態では、サブワード認識結果の正誤傾向をサブワード置換確率P(R|H)で表現し、最尤推定に基づいて推定する。ここで、Hは、サブワード認識によって得られたサブワード列の中のあるサブワードを表す確率変数、Rは、実際にその音声で発話されているあるサブワードを表す確率変数である。例えば、サブワード認識によって、あるサブワードaが認識された場合、実際にはそれがサブワードbである確率は、P(R=b|H=a)と表現される。このサブワード置換確率P(R=b|H=a)が正誤傾向の推定の対象である。
サブワード認識正誤傾向推定部111は、まず、音声・正誤傾向相関計算部110において正解ラベル及び不正解ラベルのいずれとも相関を持たない検索結果のうち、正解ラベルが付与されているグループを抽出する。
当該検索結果のグループにおいて、キーワード検索時にキーワードのサブワード表現に含まれるあるサブワードaがサブワード認識結果のサブワードbと対応付けられた回数をNabとし、すべての割当てのなかでキーワードのサブワード表現中にサブワードaが出現する回数をNaとすると、最尤推定に基づいて求められるサブワード置換確率は下記の式で表現される。
P(R=b|H=a)=Nab/Na
サブワード認識正誤傾向推定部111は、サブワード置換確率をサブワード認識正誤傾向保持部112に出力する。サブワード認識正誤傾向保持部112は、サブワード置換確率を含むサブワード認識正誤傾向推定結果を保持する。
図9Bは、本発明の第1の実施形態のサブワード認識正誤傾向推定結果950の例を示す説明図である。
図9Bの縦軸は、キーワードのサブワード表現(正解)の各音素である。横軸は、実際に発話された音声データのサブワード認識結果の各音素である。各項目が交わったセルに記録されている値は、サブワード認識正誤傾向推定部111によって求められたサブワード置換確率である。例えば、キーワードのサブワード表現(正解)「a」がサブワード認識結果「a」に正しく認識され、置換される確率は、「0.87」であり、キーワードのサブワード表現(正解)「a」がサブワード認識結果「b」に誤って認識され、置換される確率は「0.01」であることを示す。
音声・正誤傾向相関計算部110及びサブワード認識正誤傾向推定部111が動作した後に、再びユーザがキーワードを入力すると、キーワード検索部106は、図4に示したキーワード検索処理とは一部異なる処理を実行する。
図10は、本発明の第1の実施形態のサブワード認識正誤傾向推定結果950を利用したキーワード検索処理のフローチャートである。
ステップ1001から1003は、図4に示したステップ401から403と同じである。次に、キーワード検索部106は、キーワードが発話された確率が最も高くなるようなキーワードのサブワード表現とサブワード認識結果との割当てを求める(ステップ1004)。この場合、キーワード検索部106は、サブワード認識正誤傾向保持部112に保持されたサブワード認識正誤傾向推定結果950を利用する。
具体的には、まず、キーワード検索部106は、サブワード認識部102によって出力されたサブワード認識結果と、キーワードのサブワード表現との編集距離が最も小さくなり、互いに交差しない割当てを求める。次に、キーワード検索部106は、サブワード認識正誤傾向保持部112が保持するサブワード認識正誤傾向推定結果950を参照し、当該割当て(検索結果)に含まれるサブワードのそれぞれのサブワード置換確率を取得し、取得したそれぞれの確率を乗算することによって、当該キーワードと当該検索結果とが一致する確率(検索スコア、当該キーワードが発話された確率)を算出する。このステップ1004では、動的計画法を利用すると、一致する確率を効率よく求めることができる。
ステップ1004によって、キーワード検索部106はサブワード認識正誤傾向推定結果に基づいてキーワード検索の処理を実行するので、精度の高い音声データ検索が可能となる。
次に、音声情報抽出部109は、当該検索結果が検出された音声区間の音声情報を抽出する(ステップ1005)。次に、音声・正誤傾向相関計算部110は、当該検索結果に関係付けられた、例えば、N個の音声情報と当該検索結果に付与された正解/不正解ラベルとの間の相関を計算する。そして、キーワード検索部106は、当該検索結果が不正解ラベルと相関を持つ場合、当該キーワードと当該検索結果とが一致する確率(検索スコア)から所定の値を差し引く(ステップ1007)。
なお、音声情報抽出部109は、所定の値を差し引くほかに、音声・正誤傾向相関計算部110によって求められた「正解ラベルの数/(正解ラベルの数+不正解ラベルの数)」の割合と、当該キーワードと当該検索結果とが一致する確率とを掛け合わせてもよい。さらに、キーワード検索部106は、当該検索結果が正解ラベルと相関を持つ場合、当該キーワードと当該検索結果とが一致する確率(検索スコア)に所定の値を加えてもよい。
このステップ1007によって、同音異義語などの検索結果についても、正解/不正解ラベルとの相関に基づいて検索スコアが修正されるので、正しい検索結果を得ることができる。
次に、キーワード検索部106は、検索スコアが高い順に検索結果をソートする(ステップ1006)。検索結果表示部107は、ソートされた検索結果を表示する(ステップ1008)。
なお、本実施形態では、サブワード認識正誤傾向推定部111は、最尤推定によって正誤傾向を推定した。しかし、検索結果及び検索結果に付与された正解/不正解ラベルの情報を多く取得できない場合、サブワード認識正誤傾向推定部111は、統計的に正しい正誤傾向を推定することができない。
つまり、図9に示したサブワード認識正誤傾向推定結果950は十分な精度を持たない。このため、サブワード認識正誤傾向推定部111は、あらかじめ収集され、サブワードに書き起こされた音声コーパスを利用して、サブワード認識結果の大まかな正誤傾向(事前確率)を推定し、その後、最大事後確率推定を用いることによって、正誤傾向を修正してもよい。以下に、最大事後確率推定による方法について説明する。
サブワード認識正誤傾向推定部111は、あらかじめ収集され、音声コーパスから書き起こされたサブワード列を利用して、サブワード認識結果の正誤傾向を推定する。具体的には、サブワード認識正誤傾向推定部111は、サブワード認識によってサブワード列に変換された、音声コーパスのサブワード認識結果と、音声コーパスから書き起こされたサブワード列とが最もよく一致する割当てを求める。このように大量に取得された割当てにおいて、音声コーパスから書き起こされたサブワード列に含まれるあるサブワードaが出現する回数をX回とし、そのうち、そのサブワードaがサブワード認識結果のサブワードbに割り当てられる回数をY回とすると、最尤推定によって、サブワード置換確率は、下記の式によって算出される。
P(h=b|r=a)=Y/X
なお、当該音声コーパスのサブワード列のサブワードaがサブワード認識結果のサブワードbに一度も割り当てられない場合、確率の平滑化をすることによって、サブワードaからサブワードbへのサブワード置換確率を算出することができる。簡単な方法としては、出現しなかった割当てに対して、一定の確率値を与えた後、下記の式を満たすように確率値の正規化を行なうとよい。
ΣhP(h|r=a)=1
次に、算出されたサブワード置換確率及び正誤入力部108によって付与された正解/不正解ラベルに基づき、最大事後確率推定によって、サブワード認識結果の正誤傾向を推定する。ここで、サブワード認識結果の正誤傾向は、あるサブワード認識結果rに対して、実際にその音声がサブワードhである確率P(h|r)として表現される。
まず、サブワード認識正誤傾向推定部111は、音声・正誤傾向相関計算部110によって求められた正解ラベル及び不正解ラベルのいずれとも相関を持たない検索結果の集合のうち、正解ラベルが付与されている検索結果を抽出する。
当該検索結果の集合において、キーワード検索時にキーワードのサブワード表現に含まれるあるサブワードaがサブワード認識結果のサブワードbに割り当てられる回数をNabとし、すべての割当ての中でキーワードのサブワード表現中にサブワードaが出現する回数をNaとすると、最大事後確率推定によって、修正後のサブワード置換確率は、先にサブワード認識正誤傾向として求められた事前確率P(h=b|r=a)を用いて、下記の式で表現される。
P(R=b|H=a)=(Nab+Y)/(Na+X)
これによって、Naが非常に小さい場合にP(R=b|H=a)の推定値の分散が大きくなる問題を避けることができる。
以上説明したように、第1の実施形態によると、検索結果に付与された正解/不正解ラベルに基づいて、正解/不正解ラベルと相関を持つ検索結果、すなわち、特定の状況でのみ見られる検索結果を正誤傾向の推定から除くことができるので、検索結果の正誤傾向を正しく推定することができる。また、検索結果が正解/不正解ラベルと相関を持つ場合、推定された正誤傾向に基づいて算出された検索スコアが修正されるので、検索精度を向上させることができる。
<実施形態2>
以下、本発明の第2の実施形態について図面を参照して説明する。
第2の実施形態の音声データ検索装置は、所定のルールに従って作成された検索キーワードのリストを用い、当該キーワードのリストに対して検索を実行し、検索結果に付与された正解/不正解ラベルに基づいて、初期適応(チューニング)を実行することができる。
図11は、本発明の第2の実施形態のシステムの構成を示すブロック図である。
第2の実施形態の音声データ検索装置は、音声データ記憶部1101、サブワード認識部1102、サブワード列記憶部1103、キーワード入力部1104、キーワード・サブワード変換部1105、キーワード検索部1106、検索結果表示部1107、正誤入力部1108、音声情報抽出部1109、音声・正誤傾向相関計算部1110、サブワード認識正誤傾向推定部1111、サブワード認識正誤傾向保持部1112、キーワード選択部1113、キーワードリスト入力部1114及び検索結果選択部1115を備える。
キーワード選択部1113は、所定のルールに従って、キーワードを選択する。キーワードリスト入力部1114は、当該キーワードリストに対して音声データ検索装置が検索を実行するため、キーワード選択部1113によって作成されたキーワードリストをキーワード・サブワード変換部1105に出力する。検索結果選択部1115は、ユーザによって選択された正解/不正解ラベルを当該キーワード検索結果に付与する。
音声データ記憶部1101、サブワード認識部1102、サブワード列記憶部1103、キーワード入力部1104、キーワード・サブワード変換部1105、キーワード検索部1106、検索結果表示部1107、正誤入力部1108、音声情報抽出部1109、音声・正誤傾向相関計算部1110、サブワード認識正誤傾向推定部1111、サブワード認識正誤傾向保持部1112は、各々、図1に示した第1の実施形態の音声データ検索装置の音声データ記憶部101、サブワード認識部102、サブワード列記憶部103、キーワード入力部104、キーワード・サブワード変換部105、キーワード検索部106、検索結果表示部107、正誤入力部108、音声情報抽出部109、音声・正誤傾向相関計算部110、サブワード認識正誤傾向推定部111、サブワード認識正誤傾向保持部112と同じである。
音声データの登録処理については、第1の実施形態と同じであるので説明を省略する。
音声データの登録処理が終了すると、音声データ検索装置の初期適応において、キーワード選択部1113は、所定のルールに従って、複数のキーワードを選択する。本実施形態では、適当なテキストコーパス中で出現頻度が所定の閾値以上の単語のうち、そのサブワード表現に含まれるサブワードの分布のエントロピーが最大となるN個の単語を求める。なお、単純にテキストコーパスに頻出する単語をN個選択してもよい。
次に、キーワードリスト入力部1114は、キーワード選択部1113によって選択されたキーワードのそれぞれをキーワード・サブワード変換部1105に出力する。キーワード・サブワード変換部1105は、キーワードリスト入力部1114から出力されたキーワードに対して、キーワード・サブワード変換を実行する。キーワード検索部1106は、サブワード列記憶部1103に格納された音声データのサブワード認識結果から、キーワードのサブワード表現と一致する割当てを求める。
検索結果選択部1115は、所定のルールに従って検索結果を選択し、選択された検索結果をユーザに提示する。ここで、所定のルールとは、例えば、検索結果のスコアが所定の閾値θscoreを超えた場合、当該検索結果を選択する、などである。正誤入力部1108は、ユーザによって選択された正解/不正解ラベルを検索結果に付与する。これによって、無駄な正解/不正解ラベルの付与を減らすことができるので、効率的にサブワード認識結果の正誤傾向を推定することができる。
その他の処理部については、第1の実施形態と同じであるので、説明を省略する。なお、第2の実施形態では、音声データ検索装置の初回動作時に初期適応(チューニング)が実行されたが、必ずしも初回動作時でなくてもよい。音声データの登録処理の後であれば、どの時点でも初期適応(チューニング)を実行することができる。
以上説明したように、第2の実施形態によれば、初めて音声データ検索装置が利用される場合、初回動作時に音声データ検索装置によって適宜選択された複数のキーワードの検索結果に正解/不正解ラベルが付与されるので、音声データ検索装置を最適な状態へチューニングすることができる。
101 音声データ記憶部
102 サブワード認識部
103 サブワード列記憶部
104 キーワード入力部
105 サブワード変換部
106 キーワード検索部
107 検索結果表示部
108 正誤入力部
109 音声情報抽出部
110 正誤傾向相関計算部
111 サブワード認識正誤傾向推定部
112 サブワード認識正誤傾向保持部
1101 音声データ記憶部
1102 サブワード認識部
1103 サブワード列記憶部
1104 キーワード入力部
1105 サブワード変換部
1106 キーワード検索部
1107 検索結果表示部
1108 正誤入力部
1109 音声情報抽出部
1110 正誤傾向相関計算部
1111 サブワード認識正誤傾向推定部
1112 サブワード認識正誤傾向保持部

Claims (14)

  1. 音声データを検索するためのシステムであって、
    プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
    前記プロセッサは、
    サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第1サブワード列に変換し、
    ユーザによって入力された検索キーワードを、音素を単位とする第2サブワード列に変換し、
    前記第1サブワード列において、前記第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、
    前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、
    前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、
    前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第2サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とするシステム。
  2. 前記プロセッサは、前記算出されたサブワード置換確率に基づいて、前記検索結果の検索スコアを算出することを特徴とする請求項1に記載のシステム。
  3. 前記プロセッサは、
    前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
    さらに、前記検索結果と前記第2サブワード列とを音素毎に比較した場合、前記第2サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第2サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
    前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
    前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出しないことを特徴とする請求項1又は2に記載のシステム。
  4. 前記プロセッサは、
    前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
    さらに、前記検索結果と前記第2サブワード列とを音素毎に比較した場合、前記第2サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第2サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
    前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
    前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出せず、
    前記検索結果の少なくとも一の音声情報と前記検索結果に付与された不正解のデータとの間の相関が高いと判定された場合、前記検索結果の検索スコアを所定の値だけ下げることを特徴とする請求項に記載のシステム。
  5. 前記プロセッサは、
    複数の検索キーワードを選択し、
    前記第1サブワード列において、前記選択された複数の検索キーワードの各第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記複数の検索キーワードの検索結果に決定し、
    前記算出されたサブワード置換確率に基づいて、前記複数の検索結果の検索スコアを算出し、
    前記算出された検索スコアが所定の閾値以上である場合、前記検索結果をユーザに表示し、
    前記表示された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与することを特徴とする請求項1に記載のシステム。
  6. 前記プロセッサは、あるテキストコーパスの中で頻出する単語を前記複数の検索キーワードとして選択することを特徴とする請求項5に記載のシステム。
  7. 前記プロセッサは、あるテキストコーパスの中で頻出する単語のうち、前記頻出する単語のサブワード列に含まれるサブワードの分布のエントロピーが最大となる所定の数の単語を、前記複数の検索キーワードとして選択することを特徴とする請求項5に記載のシステム。
  8. 音声データを検索するためのシステムにおいて実行される音声データ検索方法であって、
    前記システムは、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
    前記音声データ検索方法は、前記プロセッサが、
    サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第1サブワード列に変換し、
    ユーザによって入力された検索キーワードを、音素を単位とする第2サブワード列に変換し、
    前記第1サブワード列において、前記第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、
    前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、
    前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、
    前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第2サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とする音声データ検索方法。
  9. 前記プロセッサが、前記算出されたサブワード置換確率に基づいて、前記検索結果の検索スコアを算出することを特徴とする請求項8に記載の音声データ検索方法。
  10. 前記プロセッサが、
    前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
    さらに、前記検索結果と前記第2サブワード列とを音素毎に比較した場合、前記第2サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第2サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
    前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
    前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出しないことを特徴とする請求項8又は9に記載の音声データ検索方法。
  11. 前記プロセッサが、
    前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
    さらに、前記検索結果と前記第2サブワード列とを音素毎に比較した場合、前記第2サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第2サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
    前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
    前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出せず、
    前記検索結果の少なくとも一の音声情報と前記検索結果に付与された不正解のデータとの間の相関が高いと判定された場合、前記検索結果の検索スコアを所定の値だけ下げることを特徴とする請求項に記載の音声データ検索方法。
  12. 前記プロセッサが、
    複数の検索キーワードを選択し、
    前記第1サブワード列において、前記選択された複数の検索キーワードの各第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記複数の検索キーワードの検索結果に決定し、
    前記算出されたサブワード置換確率に基づいて、前記複数の検索結果の検索スコアを算出し、
    前記算出された検索スコアが所定の閾値以上である場合、前記検索結果をユーザに表示し、
    前記表示された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与することを特徴とする請求項8に記載の音声データ検索方法。
  13. 前記プロセッサが、あるテキストコーパスの中で頻出する単語を前記複数の検索キーワードとして選択することを特徴とする請求項12に記載の音声データ検索方法。
  14. 前記プロセッサが、あるテキストコーパスの中で頻出する単語のうち、前記頻出する単語のサブワード列に含まれるサブワードの分布のエントロピーが最大となる所定の数の単語を、前記複数の検索キーワードとして選択することを特徴とする請求項12に記載の音声データ検索方法。
JP2009116784A 2009-05-13 2009-05-13 音声データ検索システム及び音声データ検索方法 Expired - Fee Related JP5326169B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009116784A JP5326169B2 (ja) 2009-05-13 2009-05-13 音声データ検索システム及び音声データ検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009116784A JP5326169B2 (ja) 2009-05-13 2009-05-13 音声データ検索システム及び音声データ検索方法

Publications (2)

Publication Number Publication Date
JP2010267012A JP2010267012A (ja) 2010-11-25
JP5326169B2 true JP5326169B2 (ja) 2013-10-30

Family

ID=43363948

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009116784A Expired - Fee Related JP5326169B2 (ja) 2009-05-13 2009-05-13 音声データ検索システム及び音声データ検索方法

Country Status (1)

Country Link
JP (1) JP5326169B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5491372B2 (ja) * 2010-12-03 2014-05-14 日本電信電話株式会社 情報検索システム、情報検索方法、情報検索プログラム
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
JP5897718B2 (ja) * 2012-08-29 2016-03-30 株式会社日立製作所 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
WO2014203328A1 (ja) * 2013-06-18 2014-12-24 株式会社日立製作所 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
JP6599219B2 (ja) * 2015-11-19 2019-10-30 日本電信電話株式会社 読み付与装置、読み付与方法、およびプログラム
CN112634870B (zh) * 2020-12-11 2023-05-30 平安科技(深圳)有限公司 关键词检测方法、装置、设备和存储介质
KR102486120B1 (ko) 2022-10-13 2023-01-09 (주)액션파워 음성 신호와 연관된 컨텐츠를 결정하는 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4595415B2 (ja) * 2004-07-14 2010-12-08 日本電気株式会社 音声検索システムおよび方法ならびにプログラム
JP4738847B2 (ja) * 2005-03-07 2011-08-03 キヤノン株式会社 データ検索装置および方法
JPWO2007043679A1 (ja) * 2005-10-14 2009-04-23 シャープ株式会社 情報処理装置およびプログラム

Also Published As

Publication number Publication date
JP2010267012A (ja) 2010-11-25

Similar Documents

Publication Publication Date Title
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
US9418152B2 (en) System and method for flexible speech to text search mechanism
JP5100089B2 (ja) 3d検索アルゴリズムを用いる楽曲情報検索
JP6013951B2 (ja) 環境音検索装置、環境音検索方法
US9640175B2 (en) Pronunciation learning from user correction
US8380505B2 (en) System for recognizing speech for searching a database
JP5377430B2 (ja) 質問応答データベース拡張装置および質問応答データベース拡張方法
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP4887264B2 (ja) 音声データ検索システム
JP2003036093A (ja) 音声入力検索システム
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
EP1933302A1 (en) Speech recognition method
WO2014203328A1 (ja) 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP5590549B2 (ja) 音声検索装置および音声検索方法
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
Kruspe et al. Retrieval of song lyrics from sung queries
JP4986301B2 (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法
JPWO2013125203A1 (ja) 音声認識装置、音声認識方法およびコンピュータプログラム
JP4313267B2 (ja) 対話理解結果の信頼度算出処理方法
Hosier et al. Disambiguation and Error Resolution in Call Transcripts
JP5585111B2 (ja) 発話内容推定装置、言語モデル作成装置、それに用いる方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130423

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130705

R150 Certificate of patent or registration of utility model

Ref document number: 5326169

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees