JP5561123B2

JP5561123B2 - 音声検索装置と音声検索方法

Info

Publication number: JP5561123B2
Application number: JP2010263940A
Authority: JP
Inventors: ユエイエヌイヌ; ヤオジエルゥ; ダフェイシ; ジィチョアヌジォン; リジュヌジャオ
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-11-27
Filing date: 2010-11-26
Publication date: 2014-07-30
Anticipated expiration: 2030-11-26
Also published as: EP2348427B1; JP2011113570A; CN102081634B; EP2348427A1; US20110131236A1; CN102081634A; US8316004B2

Description

本発明は音声検索に関し、特に関連ドキュメントを用いた音声検索に関する。

近年、音声検索システムに関する研究開発は益々人の目を引いている。

ユーザによれば、文字から興味のある音声ファイルを検索するニーズがあるが、文字形式と音声形式とは完全に異なるフォーマットであるので、直接検索ができない。

既存の音声検索システムでは、文字と検索目標としての音声ファイルとを同じ形式に変換させるのが多い。例えば、検索用文字を音声形式に変換するか、目標としての音声をテキスト形式に変換するか、あるいは異なる二種類の形式を同じ第三種の形式に変換する。しかし、音声の多変性によって、変換による情報の流失が大きな問題となっている。

具体的には、既存の検索方法は以下の三種類がある。

第一、自動音声識別により、音声をテキストに変換して、テキスト検索システムを用いて検索する方法である。即ち、グーグルとSpeechBotのような音声検索システムに使われる方法である。この方法はテキストを読んで音声ファイルの内容を理解することに有用であるが、以下の不足もある。まず、識別率が低い。音声識別により得られたテキストに間違いが多いので、検索結果の正解率が低い。次に、このような方法では音声ファイル自身の情報が多く失われ、例えばスピーチをする人の気持ち、話す速度、リズムなどの上下文に関する情報が失われる。更に、中国語式の英語のようなある特殊な発音に対して、大量のトレーニングデータにより適切な音響学モデルをトレーニングしない限り、この方法は正常に働かない。

第二、テキストと音声とを音素コード、音節、字などの同じ第三種の形式に翻訳（変換）し、翻訳されたテキストにより、翻訳された音声を検索する方法である。この方法は以下の問題がある。まず、翻訳の正解率が高くない。例えば、「information」を検索したいが、「attention」、「detection」のような結果が得られる可能性がある。なぜならば、これらに共通した発音「-tion」があるからである。それに、上記方法と同じような不足もこの方法にある。

第三、音声の関連ドキュメントのみを用いて一般的な情報検索を行う方法である。この方法は音楽の検索に良く使われる。しかし、通常では、音声の関連ドキュメントは音声自身より少ない情報を含み、かつ音声自身の内容もこの方法により使用され難いので、この方法に利用される情報量は少ない。

本発明は、上記の既存技術における欠点を解決することを目的とする。

本発明の一側面によれば、検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索装置が提供される。この音声検索装置は、前記音声ファイルデータベースの音声ファイルと関連するテキスト情報を記憶する関連テキストデータベースと、前記検索用文字により関連テキストデータベースから関連ドキュメントを検索する関連ドキュメント検索部と、前記関連ドキュメント検索部により検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得部と、前記対応音声ファイル取得部により取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う音声から音声への検索部と、を含む。

本発明の他の側面によれば、検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索方法が提供される。この音声検索方法は、前記検索用文字により、前記音声ファイルデータベースの音声ファイルと相関するテキスト情報を記憶する関連テキストデータベースから関連ドキュメントを検索する第一検索ステップと、前記第一検索ステップにより検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得ステップと、前記対応音声ファイル取得ステップにより取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う第二検索ステップと、を含む。

本発明の各実施例により説明した音声検索装置と音声検索方法によれば、翻訳せずにテキスト形式の検索条件を音声形式の検索条件に変換でき、翻訳による情報の喪失と想定外の損失を回避できる。いかなる音声識別をしなくてもよいから、低い識別率による影響を回避できる。かつ、最後には音声から音声への検索を行うので、この方法では、できるだけ多くの音声特徴を保留して利用でき、かつ、テキストからテキストへの検索、および音声から音声への検索のような高正確率の特徴を十分に利用できる。そして、音声から音声への検索を行う場合は、任意の既存する音声から音声への検索システムの持つ高いリコール率の特徴も利用できる。

本発明の一実施例における音声検索装置の機能配置を示す図である。本発明の一実施例における上記の音声検索装置の音声から音声への検索部の機能配置を示す図である。本発明の一実施例における音声検索システムの動作フローを示す図である。本発明の一実施例における音声検索方法のフローチャートを示す図である。

以下、図面を参照して本発明の実施例を詳細に説明する。なお、本願の明細書と図面においては、機能と構造が基本的に同じである構成要素について同じ記号を使い、かつこれらの構成要素の重複した説明を省略する。

これから、（１）音声検索装置の機能配置、（２）音声検索システムの動作フロー、及び（３）音声検索方法のプロセスの順で説明を行う。

（１）音声検索装置の機能配置
図１は、本発明の一実施例に係わる音声検索装置１００の機能配置を示す図である。

図１に示すように、音声検索装置１００は、関連ドキュメント検索部１１０と、対応音声ファイル取得部１２０と、音声から音声への検索部１３０とを含む。音声検索装置１００は、さらに、関連テキストデータベース１４０と、音声ファイルデータベース１５０とを含んでも良い。あるいは、音声検索装置１００は、関連テキストデータベース１４０と音声ファイルデータベース１５０とに離れて配置され、有線LAN、または無線LANによって関連テキストデータベース１４０と音声ファイルデータベース１５０とに接続されても良い。

音声ファイルデータベース１５０には、「.wav」、「.mp3」、「.rm」のような形式の音声ファイル（以下便宜を図って記憶された音声ファイルを目標音声あるいは目標音声ファイルと称する）が記憶されている。各音声ファイルは、ひとつまたは複数の関連テキスト情報を含むことができる。ここでの関連テキスト情報は、音声ファイルのタイトルか、その講演原稿か、関連音声内容などの、いかなる音声に関係あるテキストデータであるが、これらに限られない。これらの関連テキスト情報は、上記の関連テキストデータベース１４０に記憶される。関連テキスト情報から対応する目標音声を参考し、あるいは目標音声から対応する関連テキスト情報を参考するために、目標音声と関連テキスト情報との対応関係が保存されるべきである。上記の対応関係は、ポインターでもよく、リファレンスでもよく、かつ音声ファイルデータベース１５０、関連テキストデータベース１４０、又は他のデータベースのいずれかのひとつまたはその組み合わせに保存されることができる。

関連ドキュメント検索部１１０は、検索用文字によって関連テキストデータベース１４０から関連ドキュメントを検索する。前記検索用文字は、GoogleやBaiduなどの検索エンジンを用いてドキュメントを検索するように、ユーザにより各種の方法で入力され、または、指定されてもよく、あるいは供給された選択肢から選択されてもよい。検索用文字は、ひとつまたは複数のキーワードでもよく、ひとつまたは複数のセンテンスでもよく、或いはひとつまたは複数のドキュメントでもよい。いかなる既存のテキスト検索方法により関連ドキュメントを検索できる。関連ドキュメント検索部１１０の検索結果は、関連テキストデータベースより検索された、検索に用いられた文字との間の相関度がトップNに入ったドキュメントでもよい。あるいは、検索結果は、検索に用いられた文字との間の相関度が所定の閾値より大きいドキュメントでもよい。ここで、検索に用いられた文字と目標テキストとの間の相関度は、BM25やベクトルモデルなどの既存の相関度計算方法で計算することができる。

対応音声ファイル取得部１２０は、音声ファイルと関連ドキュメントとの間の対応関係を用いて、音声ファイルデータベース１５０から、検索された関連ドキュメントと対応する音声ファイルを見つけ出す。ここで、以下のことを注意すべきである。つまり、ひとつの音声ファイルには複数の関連ドキュメントが存在できるので、検索された複数の関連ドキュメントが全でひとつの音声ファイルにポイントすることが可能である。この場合、後述のように、複数回にポイントされた音声ファイルに高いウェート（または点数）を付与すればよい。

音声から音声への検索部１３０は、取得された音声ファイルにより音声ファイルデータベースに対して検索する際に使われる。ここで、各音声ファイル全体を用いて、音声ファイルデータベースにある各音声ファイルとの相関性を計算してから検索してもよいし、後述のように、各音声ファイルを分割して音声セグメントの集合を得て、当該集合にある音声セグメントによって音声ファイルデータベースに対して検索してもよい。音声セグメントで音声ファイルを検索する任意の検索方法としては、例えば、特許文献１に記載のような検索方法を用いても良い。

図２は、本発明の一実施例における図１に示した音声から音声への検索部１３０の機能ブロック図である。

図２に示すように、音声から音声の検索部１３０は、取得された音声ファイルにある各音声ファイルを音声セグメントに分割して音声セグメントの集合を得る音声セグメント分割部２１０と、検索に用いられた文字により前記音声セグメントの集合からノイズ（検索に用いられた文字と関連のない音声セグメントのこと）を除去するノイズ除去部２２０と、ノイズが除去された音声セグメントにより音声ファイルデータベースに対して検索を行う音声セグメントから音声への検索部２３０と、より構成される。

音声セグメント分割部２１０は、いかなら既存の分割方法によって音声ファイルを分割することができる。例えば、中断による分割法がある。即ち、人が話す時に、センテンスとセンテンスの間、あるいはフレーズとフレーズの間には、一般的に中断があるので、この中断を識別して音声を分割することができる。また、人による分割法がある。例えば、複数の人の対話による番組の場合では、異なる人の話しが異なる特徴を持つので、その人による特徴を用いて音声ファイルを分割することもできる。さらに、中断による分割法と人による分割法とを組み合わせて使用してもよい。例えば、まず、人による分割法により分割して、その得た結果をさらに中断による分割法により分割できる。また、分割が細かすぎる場合、分割後のセグメントを合併することもできる。上記の音声分割方法は、説明に用いられるのみであり、いかなる可能な音声分割方法が本発明に使える。

ノイズ除去部２２０は、検索に用いられた文字により音声セグメントの集合からノイズを除去する。前記ノイズは、検索に用いられた文字と関連のない音声セグメントである。例えば、検索に用いられた文字との間の相関度が所定の閾値より小さい音声セグメントである。検索に用いられた文字と音声セグメントとの間の相関度の計算は、既存の音声検索方法に使用されている方法を使ってよい。例えば、任意の自動音声識別エンジンにより音声セグメントの集合にあるすべての音声セグメントをテキストに翻訳して、翻訳されたテキストと検索に用いられた文字との間の相関性を計算すればよい。もちろん、代替としては、検索に用いられた文字を音声に翻訳して、この翻訳された音声と上記の音声セグメントの集合にある各音声セグメントとの間の相関性を計算してもよい。あるいは、代替として、検索に用いられた文字と音声セグメントの集合にあるすべての音声セグメントをほかの第３の形式に翻訳してから、両者の相関性を計算してもよい。ほかの第３の形式としては、例えば音素コード、音節、サブワード、ワードなどがある。検索に用いられた文字と各音声セグメントとの間の相関性を計算した後、得られた相関性を所定の閾値と比較し、もしある音声セグメントとの相関性が所定の閾値より大きければ、この音声セグメントを保存し、さもなければ、この音声セグメントをノイズと判断して除去する。もちろん、代替としては、音声セグメントと検索に用いられた文字との間の相関度を標準にして各音声セグメントをランキングし、トップＮ（Ｎは所定数）に入った音声セグメントを選択して最後の検索用音声セグメントとして用いることもできる。

（２）音声検索システムの動作フロー
本発明をより十分に説明するために、以下、図３を参照して本発明の一実施例に基づいて音声検索システムの動作フローを説明する。図３は、より直感的に本発明の一実施例における音声検索システムの動作フローを示す図である。

図３の矢印が示した順序では、まず、ユーザより入力された検索用テキストを用いて関連テキストを検索する。これによって、テキストでテキストを検索する技術の高い正確率を持つメリットを利用できる。これによってランクされたテキスト結果を取得し、当該結果から相関度がトップN内のテキスト結果を取り、対応する音声を取得する。対応音声を取得してから入力されたテキストにより、取得された対応音声を縮減することで、たとえば、音声にある関連のない音声セグメントを除去することで、後続音声から音声への検索の効率を向上し、ノイズによる影響を無くし、検索の正確率を向上することができる。このような処理によって、検索用音声が得られる。続いて、得られた検索用音声を用いて音声ファイルデータベースを直接検索し、検索された音声結果を取得して出力することができる。

図３の点線および「X」は、背景技術に述べたように、検索用テキストによって音声ファイルデータベースを直接検索できないことを意味する。検索用テキストで関連テキストデータベースを検索し、および音声で音声ファイルデータベースを検索することについては、すでに多くの公知技術を持ち、かつ高い正確率を有する。それに対して、本発明の実施例では、まず、検索用テキストで関連テキストデータベースを検索して対応する関連ドキュメントを取得し、取得された関連ドキュメントにより対応する音声ファイルを直接取得し、次に、この音声ファイルを用いて音声ファイルデータベースに対して検索を行う。これによって、テキストと音声との間の翻訳しあいによる情報の喪失、識別率が低いなどの欠点を回避できる。

なお、図３は、本発明をより理解するために示された動作フローの一例であり、本発明を制限するものではない。また、図３に示した多くの具体的な部分は省略あるいはほかの手段により代替されることができる。例えば、図３の点線３１０により囲まれた部分は、音声からノイズを除去する部分であり、省略できる。また、図３の点線３２０により囲まれた部分は、ほかの手段により代替できる。たとえば、ランキングを必要とせず、検索に用いられた文字との間の相関度が所定の閾値（例えば５０%）より大きいドキュメントのみを関連ドキュメントとすることができる。

（３）音声検索方法のフローチャート
以下、図４を参照して本発明の一実施例に係る音声検索方法を説明する。次に、さらに詳しく本発明の一実施例に係る、音声からノイズ除去するプロセスを含む音声検索方法を説明する。

図４に示すように、ステップS410において、上記の検索用文字により関連テキストデータベースから関連ドキュメントを検索する。当該関連データベースは、音声テキストデータベースにある音声ファイルと相関するドキュメントを記憶する。ステップS420において、音声ファイルデータベースから検索された関連ドキュメントに対応する音声ファイルを見つけ出す。ステップS430において、取得された音声ファイルから音声ファイルデータベースを検索する。

本発明の一実施例によれば、ステップS430において、取得された音声ファイルから音声ファイルデータベースを検索することは、取得された音声ファイルにおける各音声ファイルを音声セグメントに分割して音声セグメントの集合を得ることと、検索用文字により当該音声セグメントの集合からノイズ（検索用文字と関連のない音声セグメントのこと）を除去することと、ノイズを除去した音声セグメントの集合により音声ファイルデータベースに対して検索を行うことと、を含む。

以下、さらに具体的に本発明の一実施例に係る、音声からノイズ除去するプロセスを含む音声検索方法を説明する。

例示として、以下、ステップS410において、検索された目標テキストをランキングしかつ点数付け、ステップS420において、対応する音声ファイルに対して点数付け、ステップS430において、音声ファイルの音声セグメントに対して点数付け、かつノイズ除去を行うとのような例について具体的にその動作フローを説明する。

上記のステップS410において、ランキングされた関連ドキュメントを見つける。いかなる既存のテキスト検索方法によりランキングされた関連テキストドキュメントの結果を得ても良い。該テキスト検索方法は、テキスト検索を使用でき、目標テキストを検索して相関性でランキングされたトップn個のドキュメントを得ることができる。検索テキストと結果テキストとの間の相関度に関する計算は、該テキスト検索方法より提供でき、例示として、BM25方法を用いて相関度を計算する。これによって得点でランキングされたテキストリスト（集合）Rが得られる。

R＝[(Textid1,score1), (Textid2,score2), ・・・, (Textidn,scoren)]
ここで、Textidiは、目標テキストの唯一の標識であり、scoreiは、目標テキストの計算後の得点である。

上記のステップS420において、当該トップn個の関連ドキュメントの関連音声ファイルを見つけ、かつ関連音声ファイルに対して点数を付ける。なお、ひとつの関連音声ファイルに対応する関連ドキュメントが複数存在する可能性があるので、最終的に得られた関連音声ファイルの数がnより小さい場合もありうる。ここで、関連音声ファイルの数をｍと設定すると、ｍ≦nである。下記のサブステップにより関連音声ファイルに対して点数を付けても良い。

１）すべての関連音声ファイルSpeechidjに初期点数を付与し、即ち、SpeechScorej=0.0である。

２）上記の集合Rの各テキストTextidiに対して、それに関連する唯一の音声ファイルSpeechidjを見つけ、当該音声ファイルSpeechidjの点数SpeechScorejに当該テキストが付与した点数vを加え、即ち、v＝scorei*relationij、SpeechScorej=SpeechScorej＋vである。

ここで、relationijは、パラメータであり、テキストTextidiと、対応する音声ファイルSpeechidjとの間の関係の緊密度合いを表す。両者の関係が緊密であればあるほど、このパラメータ値が高い。そして、このパラメータ値は、経験から確定されてもよいし、実験より自己適応学習により得られても良い。

３）各音声ファイルの点数に基づいてランキングする。

Rs＝[(Speechid1, SpeechScore1), (Speechid 2, SpeechScore2),・・・, (Speechidm, SpeechScorem)]
ここで、Speechidjは、音声ファイルの唯一の識別標識であり、Speechscorejは、音声ファイルの得点である。

上記のステップS430では、音声セグメントの集合のノイズ除去を行う。具体的には、ステップS420より得た音声集合Rsの各音声ファイルに対して分割を行って音声セグメントにすることで、音声セグメントの集合を取得する。分割方法は、いかなる既存の方法であってよい。例えば、前記の中断による分割法、人による分割法などであってもよい。例示としては、中断による分割法を用いて、即ち、中断した時間が所定の閾値を超えたところで、当該音声ファイルを分割する。各音声セグメントSSIdkに初期点数SSScorekを付与し、その値が、当該音声セグメントが所属する音声ファイルの点数である。そのため、以下のリストが得られる。

SSL＝[(SSId1,SSScore1), (SSId2,SSScore2), ・・・, (SSIdx,SSScorex)]
ここで、SSIdkは、音声セグメントの唯一の標識であり、SSScorekは、音声セグメントの初期点数であり、当該音声セグメントと検索用文字との間の相関度を表す。

相関性得点を確定する例示的な方法としては、自動音声識別エンジンにより、得られた音声セグメントSSIdkをテキストに翻訳する。いかなるテキスト検索方法で、得られた検索用テキストと翻訳された音声セグメントSSIdkとの間の現段階での相関性得点TRScorekを計算することができる。

ASRS＝[(SSId1,TRScore1), (SSId2,TRScore2), ・・・, (SSIdx,TRScorex)]
ここで、TRScorekは、当該テキスト検索方法が音声セグメントSSIdkに付与した点数である。

次に、下式により各音声セグメントの最終点数SSSkを計算できる。

SSSk＝SSScorek＊TRScorek
最後、閾値trを設定し、ある音声セグメントの点数がこの閾値より大きければ、当該音声セグメントを保留する。さもなければ当該音声セグメントをノイズとして音声セグメントの集合から除去する。この閾値は、経験から設定してもよいし、学習トレーニングより得ても良い。

音声セグメントの集合を取得した後、音声セグメントにあるすべての音声セグメントを検索条件とし、いかなる既存の音声で音声を検索する方法によって音声ファイルデータベースに対して検索を行うことができる。

上記より具体的に音声からノイズを除去するプロセスを含んだ音声検索方法は、関連ドキュメントを検索時の検索用文字と目標ドキュメントとの間の相関度を利用したほか、関連ドキュメントと対応音声との間の関係の緊密性を考慮し、さらに各音声セグメント自身と検索用文字との間の相関度を考慮した。従って、最後に得られた検索用音声セグメントは、ユーザの検索目的をより反映できる。また、得られた音声セグメントにより音声ファイルデータベースに対して検索を行う場合でも、最終的に音声ファイルデータベースから検索された、結果としての各音声ファイルの相関性を評価する時に各音声セグメントの点数を考慮しても良い。

本発明の各実施例より説明した音声検索装置と音声検索方法によれば、翻訳せずにテキスト形式の検索条件を音声形式の検索条件に変換でき、翻訳による情報の喪失と想定外の損失を回避できる。いかなる音声識別をしなくてもよいから、低い識別率による影響を回避できる。また、最後には音声から音声への検索を行うので、この方法では、できるだけ多くの音声特徴を保留して利用することができ、また、テキストからテキストへの検索、および音声から音声への検索のような高正確率の特徴を十分に利用することができる。更に、音声から音声への検索を行う場合は、任意の既存する音声から音声への検索するシステムが持つ高いリコール率の特徴を利用することもできる。

なお、音声からノイズを除去するプロセスを含んだ上記の音声検索方法では、音声セグメントと検索用文字との間の相関性を評価する場合、音声セグメントを文字に変換、あるいは文字を音声に変換する操作に及ぶことがあるが、当該変換の規模が小さいので、既存の技術によっても当該問題を解決でき、本発明に不利な影響をもたらすことがない。

また、本発明の実施例は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組合せにより実現できる。例えば、本発明の実施例をコンピューター又はコンピュータープログラムより実現できる。なお、そのような実現方式は、本発明の技術範囲を制限することがない。

また、本発明の実施例における各ユニットの間の接続関係は、本発明の技術範囲を制限せず、そのひとつあるいは複数のユニットは、ほかの任意のユニットを有し又はそれに接続してもよい。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。

米国特許第US7542996B2号明細書

Claims

検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索装置であって、
前記音声ファイルデータベースの前記音声ファイルと関連するテキスト情報を記憶する関連テキストデータベースと、
前記検索用文字により関連テキストデータベースから関連ドキュメントを検索する関連ドキュメント検索部と、
前記関連ドキュメント検索部により検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得部と、
前記対応音声ファイル取得部により取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う音声から音声への検索部と、
を含むことを特徴とする音声検索装置。
前記関連ドキュメントは、音声の標題と、音声に付随するデモドキュメントと、音声の文字内容とのうち一つ又はいくつかである、
ことを特徴とする請求項１に記載する音声検索装置。
前記検索用文字は、一つ又は複数のキーワード、一つ又は複数のセンテンス、或いは、一つ又は複数のドキュメントである、
ことを特徴とする請求項１に記載する音声検索装置。
前記音声から音声への検索部は、
前記対応音声ファイル取得部により取得された前記音声ファイルの各々に対して、音声セグメントに分割し、前記音声セグメントの集合を得る音声セグメント分割部と、
音声セグメント分割部により分割した前記音声セグメントの集合から、前記検索用文字と関連のない音声セグメントであるノイズを除去するノイズ除去部と、
前記ノイズ除去部によりノイズが除去された音声セグメントの集合を用いて、前記音声ファイルデータベースに対して検索を行う音声セグメントから音声への検索部と、
を含むことを特徴とする請求項１に記載する音声検索装置。
前記関連ドキュメント検索部は、前記関連テキストデータベースから、前記検索用文字との間の相関度がトップNに入ったドキュメント、又は、前記検索用文字との間の相関度が所定の閾値より大きいドキュメントを前記関連ドキュメントとする、
ことを特徴とする請求項１に記載する音声検索装置。
検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索方法であって、
前記検索用文字により、前記音声ファイルデータベースの前記音声ファイルと相関するテキスト情報を記憶する関連テキストデータベースから関連ドキュメントを検索する第一検索ステップと、
前記第一検索ステップにより検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得ステップと、
前記対応音声ファイル取得ステップにより取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う第二検索ステップと、
を含むことを特徴とする音声検索方法。
前記関連ドキュメントは、音声の標題と、音声に付随するデモドキュメントと、音声の文字内容とのうち一つ又はいくつかである、
ことを特徴とする請求項６に記載する音声検索方法。
前記検索用文字は、一つ又は複数のキーワード、一つ又は複数のセンテンス、或いは、一つ又は複数のドキュメントである、
ことを特徴とする請求項６に記載する音声検索方法。
前記第二検索ステップは、
前記対応音声ファイル取得ステップにより取得された前記音声ファイルの各々に対して、音声セグメントに分割し、前記音声セグメントの集合を得る音声セグメント分割ステップと、
前記音声セグメント分割ステップにより分割した前記音声セグメントの集合から、前記検索用文字と関連のない音声セグメントであるノイズを除去するノイズ除去ステップと、
前記ノイズ除去ステップによりノイズが除去された音声セグメントの集合を用いて、前記音声ファイルデータベースに対して検索を行うステップと、
を含むことを特徴とする請求項６に記載する音声検索方法。
前記第一検索ステップは、前記関連テキストデータベースから、前記検索用文字との間の相関度がトップNに入ったドキュメント、又は、前記検索用文字との間の相関度が所定の閾値より大きいドキュメントを前記関連ドキュメントとする、
ことを特徴とする請求項６に記載する音声検索方法。