JP5561123B2 - 音声検索装置と音声検索方法 - Google Patents

音声検索装置と音声検索方法 Download PDF

Info

Publication number
JP5561123B2
JP5561123B2 JP2010263940A JP2010263940A JP5561123B2 JP 5561123 B2 JP5561123 B2 JP 5561123B2 JP 2010263940 A JP2010263940 A JP 2010263940A JP 2010263940 A JP2010263940 A JP 2010263940A JP 5561123 B2 JP5561123 B2 JP 5561123B2
Authority
JP
Japan
Prior art keywords
voice
search
speech
file
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010263940A
Other languages
English (en)
Other versions
JP2011113570A (ja
Inventor
ユエイエヌ イヌ
ヤオジエ ルゥ
ダフェイ シ
ジィチョアヌ ジォン
リジュヌ ジャオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2011113570A publication Critical patent/JP2011113570A/ja
Application granted granted Critical
Publication of JP5561123B2 publication Critical patent/JP5561123B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set

Description

本発明は音声検索に関し、特に関連ドキュメントを用いた音声検索に関する。
近年、音声検索システムに関する研究開発は益々人の目を引いている。
ユーザによれば、文字から興味のある音声ファイルを検索するニーズがあるが、文字形式と音声形式とは完全に異なるフォーマットであるので、直接検索ができない。
既存の音声検索システムでは、文字と検索目標としての音声ファイルとを同じ形式に変換させるのが多い。例えば、検索用文字を音声形式に変換するか、目標としての音声をテキスト形式に変換するか、あるいは異なる二種類の形式を同じ第三種の形式に変換する。しかし、音声の多変性によって、変換による情報の流失が大きな問題となっている。
具体的には、既存の検索方法は以下の三種類がある。
第一、自動音声識別により、音声をテキストに変換して、テキスト検索システムを用いて検索する方法である。即ち、グーグルとSpeechBotのような音声検索システムに使われる方法である。この方法はテキストを読んで音声ファイルの内容を理解することに有用であるが、以下の不足もある。まず、識別率が低い。音声識別により得られたテキストに間違いが多いので、検索結果の正解率が低い。次に、このような方法では音声ファイル自身の情報が多く失われ、例えばスピーチをする人の気持ち、話す速度、リズムなどの上下文に関する情報が失われる。更に、中国語式の英語のようなある特殊な発音に対して、大量のトレーニングデータにより適切な音響学モデルをトレーニングしない限り、この方法は正常に働かない。
第二、テキストと音声とを音素コード、音節、字などの同じ第三種の形式に翻訳(変換)し、翻訳されたテキストにより、翻訳された音声を検索する方法である。この方法は以下の問題がある。まず、翻訳の正解率が高くない。例えば、「information」を検索したいが、「attention」、「detection」のような結果が得られる可能性がある。なぜならば、これらに共通した発音「-tion」があるからである。それに、上記方法と同じような不足もこの方法にある。
第三、音声の関連ドキュメントのみを用いて一般的な情報検索を行う方法である。この方法は音楽の検索に良く使われる。しかし、通常では、音声の関連ドキュメントは音声自身より少ない情報を含み、かつ音声自身の内容もこの方法により使用され難いので、この方法に利用される情報量は少ない。
本発明は、上記の既存技術における欠点を解決することを目的とする。
本発明の一側面によれば、検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索装置が提供される。この音声検索装置は、前記音声ファイルデータベースの音声ファイルと関連するテキスト情報を記憶する関連テキストデータベースと、前記検索用文字により関連テキストデータベースから関連ドキュメントを検索する関連ドキュメント検索部と、前記関連ドキュメント検索部により検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得部と、前記対応音声ファイル取得部により取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う音声から音声への検索部と、を含む。
本発明の他の側面によれば、検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索方法が提供される。この音声検索方法は、前記検索用文字により、前記音声ファイルデータベースの音声ファイルと相関するテキスト情報を記憶する関連テキストデータベースから関連ドキュメントを検索する第一検索ステップと、前記第一検索ステップにより検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得ステップと、前記対応音声ファイル取得ステップにより取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う第二検索ステップと、を含む。
本発明の各実施例により説明した音声検索装置と音声検索方法によれば、翻訳せずにテキスト形式の検索条件を音声形式の検索条件に変換でき、翻訳による情報の喪失と想定外の損失を回避できる。いかなる音声識別をしなくてもよいから、低い識別率による影響を回避できる。かつ、最後には音声から音声への検索を行うので、この方法では、できるだけ多くの音声特徴を保留して利用でき、かつ、テキストからテキストへの検索、および音声から音声への検索のような高正確率の特徴を十分に利用できる。そして、音声から音声への検索を行う場合は、任意の既存する音声から音声への検索システムの持つ高いリコール率の特徴も利用できる。
本発明の一実施例における音声検索装置の機能配置を示す図である。 本発明の一実施例における上記の音声検索装置の音声から音声への検索部の機能配置を示す図である。 本発明の一実施例における音声検索システムの動作フローを示す図である。 本発明の一実施例における音声検索方法のフローチャートを示す図である。
以下、図面を参照して本発明の実施例を詳細に説明する。なお、本願の明細書と図面においては、機能と構造が基本的に同じである構成要素について同じ記号を使い、かつこれらの構成要素の重複した説明を省略する。
これから、(1)音声検索装置の機能配置、(2)音声検索システムの動作フロー、及び(3)音声検索方法のプロセスの順で説明を行う。
(1)音声検索装置の機能配置
図1は、本発明の一実施例に係わる音声検索装置100の機能配置を示す図である。
図1に示すように、音声検索装置100は、関連ドキュメント検索部110と、対応音声ファイル取得部120と、音声から音声への検索部130とを含む。音声検索装置100は、さらに、関連テキストデータベース140と、音声ファイルデータベース150とを含んでも良い。あるいは、音声検索装置100は、関連テキストデータベース140と音声ファイルデータベース150とに離れて配置され、有線LAN、または無線LANによって関連テキストデータベース140と音声ファイルデータベース150とに接続されても良い。
音声ファイルデータベース150には、「.wav」、「.mp3」、「.rm」のような形式の音声ファイル(以下便宜を図って記憶された音声ファイルを目標音声あるいは目標音声ファイルと称する)が記憶されている。各音声ファイルは、ひとつまたは複数の関連テキスト情報を含むことができる。ここでの関連テキスト情報は、音声ファイルのタイトルか、その講演原稿か、関連音声内容などの、いかなる音声に関係あるテキストデータであるが、これらに限られない。これらの関連テキスト情報は、上記の関連テキストデータベース140に記憶される。関連テキスト情報から対応する目標音声を参考し、あるいは目標音声から対応する関連テキスト情報を参考するために、目標音声と関連テキスト情報との対応関係が保存されるべきである。上記の対応関係は、ポインターでもよく、リファレンスでもよく、かつ音声ファイルデータベース150、関連テキストデータベース140、又は他のデータベースのいずれかのひとつまたはその組み合わせに保存されることができる。
関連ドキュメント検索部110は、検索用文字によって関連テキストデータベース140から関連ドキュメントを検索する。前記検索用文字は、GoogleやBaiduなどの検索エンジンを用いてドキュメントを検索するように、ユーザにより各種の方法で入力され、または、指定されてもよく、あるいは供給された選択肢から選択されてもよい。検索用文字は、ひとつまたは複数のキーワードでもよく、ひとつまたは複数のセンテンスでもよく、或いはひとつまたは複数のドキュメントでもよい。いかなる既存のテキスト検索方法により関連ドキュメントを検索できる。関連ドキュメント検索部110の検索結果は、関連テキストデータベースより検索された、検索に用いられた文字との間の相関度がトップNに入ったドキュメントでもよい。あるいは、検索結果は、検索に用いられた文字との間の相関度が所定の閾値より大きいドキュメントでもよい。ここで、検索に用いられた文字と目標テキストとの間の相関度は、BM25やベクトルモデルなどの既存の相関度計算方法で計算することができる。
対応音声ファイル取得部120は、音声ファイルと関連ドキュメントとの間の対応関係を用いて、音声ファイルデータベース150から、検索された関連ドキュメントと対応する音声ファイルを見つけ出す。ここで、以下のことを注意すべきである。つまり、ひとつの音声ファイルには複数の関連ドキュメントが存在できるので、検索された複数の関連ドキュメントが全でひとつの音声ファイルにポイントすることが可能である。この場合、後述のように、複数回にポイントされた音声ファイルに高いウェート(または点数)を付与すればよい。
音声から音声への検索部130は、取得された音声ファイルにより音声ファイルデータベースに対して検索する際に使われる。ここで、各音声ファイル全体を用いて、音声ファイルデータベースにある各音声ファイルとの相関性を計算してから検索してもよいし、後述のように、各音声ファイルを分割して音声セグメントの集合を得て、当該集合にある音声セグメントによって音声ファイルデータベースに対して検索してもよい。音声セグメントで音声ファイルを検索する任意の検索方法としては、例えば、特許文献1に記載のような検索方法を用いても良い。
図2は、本発明の一実施例における図1に示した音声から音声への検索部130の機能ブロック図である。
図2に示すように、音声から音声の検索部130は、取得された音声ファイルにある各音声ファイルを音声セグメントに分割して音声セグメントの集合を得る音声セグメント分割部210と、検索に用いられた文字により前記音声セグメントの集合からノイズ(検索に用いられた文字と関連のない音声セグメントのこと)を除去するノイズ除去部220と、ノイズが除去された音声セグメントにより音声ファイルデータベースに対して検索を行う音声セグメントから音声への検索部230と、より構成される。
音声セグメント分割部210は、いかなら既存の分割方法によって音声ファイルを分割することができる。例えば、中断による分割法がある。即ち、人が話す時に、センテンスとセンテンスの間、あるいはフレーズとフレーズの間には、一般的に中断があるので、この中断を識別して音声を分割することができる。また、人による分割法がある。例えば、複数の人の対話による番組の場合では、異なる人の話しが異なる特徴を持つので、その人による特徴を用いて音声ファイルを分割することもできる。さらに、中断による分割法と人による分割法とを組み合わせて使用してもよい。例えば、まず、人による分割法により分割して、その得た結果をさらに中断による分割法により分割できる。また、分割が細かすぎる場合、分割後のセグメントを合併することもできる。上記の音声分割方法は、説明に用いられるのみであり、いかなる可能な音声分割方法が本発明に使える。
ノイズ除去部220は、検索に用いられた文字により音声セグメントの集合からノイズを除去する。前記ノイズは、検索に用いられた文字と関連のない音声セグメントである。例えば、検索に用いられた文字との間の相関度が所定の閾値より小さい音声セグメントである。検索に用いられた文字と音声セグメントとの間の相関度の計算は、既存の音声検索方法に使用されている方法を使ってよい。例えば、任意の自動音声識別エンジンにより音声セグメントの集合にあるすべての音声セグメントをテキストに翻訳して、翻訳されたテキストと検索に用いられた文字との間の相関性を計算すればよい。もちろん、代替としては、検索に用いられた文字を音声に翻訳して、この翻訳された音声と上記の音声セグメントの集合にある各音声セグメントとの間の相関性を計算してもよい。あるいは、代替として、検索に用いられた文字と音声セグメントの集合にあるすべての音声セグメントをほかの第3の形式に翻訳してから、両者の相関性を計算してもよい。ほかの第3の形式としては、例えば音素コード、音節、サブワード、ワードなどがある。検索に用いられた文字と各音声セグメントとの間の相関性を計算した後、得られた相関性を所定の閾値と比較し、もしある音声セグメントとの相関性が所定の閾値より大きければ、この音声セグメントを保存し、さもなければ、この音声セグメントをノイズと判断して除去する。もちろん、代替としては、音声セグメントと検索に用いられた文字との間の相関度を標準にして各音声セグメントをランキングし、トップN(Nは所定数)に入った音声セグメントを選択して最後の検索用音声セグメントとして用いることもできる。
(2)音声検索システムの動作フロー
本発明をより十分に説明するために、以下、図3を参照して本発明の一実施例に基づいて音声検索システムの動作フローを説明する。図3は、より直感的に本発明の一実施例における音声検索システムの動作フローを示す図である。
図3の矢印が示した順序では、まず、ユーザより入力された検索用テキストを用いて関連テキストを検索する。これによって、テキストでテキストを検索する技術の高い正確率を持つメリットを利用できる。これによってランクされたテキスト結果を取得し、当該結果から相関度がトップN内のテキスト結果を取り、対応する音声を取得する。対応音声を取得してから入力されたテキストにより、取得された対応音声を縮減することで、たとえば、音声にある関連のない音声セグメントを除去することで、後続音声から音声への検索の効率を向上し、ノイズによる影響を無くし、検索の正確率を向上することができる。このような処理によって、検索用音声が得られる。続いて、得られた検索用音声を用いて音声ファイルデータベースを直接検索し、検索された音声結果を取得して出力することができる。
図3の点線および「X」は、背景技術に述べたように、検索用テキストによって音声ファイルデータベースを直接検索できないことを意味する。検索用テキストで関連テキストデータベースを検索し、および音声で音声ファイルデータベースを検索することについては、すでに多くの公知技術を持ち、かつ高い正確率を有する。それに対して、本発明の実施例では、まず、検索用テキストで関連テキストデータベースを検索して対応する関連ドキュメントを取得し、取得された関連ドキュメントにより対応する音声ファイルを直接取得し、次に、この音声ファイルを用いて音声ファイルデータベースに対して検索を行う。これによって、テキストと音声との間の翻訳しあいによる情報の喪失、識別率が低いなどの欠点を回避できる。
なお、図3は、本発明をより理解するために示された動作フローの一例であり、本発明を制限するものではない。また、図3に示した多くの具体的な部分は省略あるいはほかの手段により代替されることができる。例えば、図3の点線310により囲まれた部分は、音声からノイズを除去する部分であり、省略できる。また、図3の点線320により囲まれた部分は、ほかの手段により代替できる。たとえば、ランキングを必要とせず、検索に用いられた文字との間の相関度が所定の閾値(例えば50%)より大きいドキュメントのみを関連ドキュメントとすることができる。
(3)音声検索方法のフローチャート
以下、図4を参照して本発明の一実施例に係る音声検索方法を説明する。次に、さらに詳しく本発明の一実施例に係る、音声からノイズ除去するプロセスを含む音声検索方法を説明する。
図4に示すように、ステップS410において、上記の検索用文字により関連テキストデータベースから関連ドキュメントを検索する。当該関連データベースは、音声テキストデータベースにある音声ファイルと相関するドキュメントを記憶する。ステップS420において、音声ファイルデータベースから検索された関連ドキュメントに対応する音声ファイルを見つけ出す。ステップS430において、取得された音声ファイルから音声ファイルデータベースを検索する。
本発明の一実施例によれば、ステップS430において、取得された音声ファイルから音声ファイルデータベースを検索することは、取得された音声ファイルにおける各音声ファイルを音声セグメントに分割して音声セグメントの集合を得ることと、検索用文字により当該音声セグメントの集合からノイズ(検索用文字と関連のない音声セグメントのこと)を除去することと、ノイズを除去した音声セグメントの集合により音声ファイルデータベースに対して検索を行うことと、を含む。
以下、さらに具体的に本発明の一実施例に係る、音声からノイズ除去するプロセスを含む音声検索方法を説明する。
例示として、以下、ステップS410において、検索された目標テキストをランキングしかつ点数付け、ステップS420において、対応する音声ファイルに対して点数付け、ステップS430において、音声ファイルの音声セグメントに対して点数付け、かつノイズ除去を行うとのような例について具体的にその動作フローを説明する。
上記のステップS410において、ランキングされた関連ドキュメントを見つける。いかなる既存のテキスト検索方法によりランキングされた関連テキストドキュメントの結果を得ても良い。該テキスト検索方法は、テキスト検索を使用でき、目標テキストを検索して相関性でランキングされたトップn個のドキュメントを得ることができる。検索テキストと結果テキストとの間の相関度に関する計算は、該テキスト検索方法より提供でき、例示として、BM25方法を用いて相関度を計算する。これによって得点でランキングされたテキストリスト(集合)Rが得られる。
R=[(Textid1,score1), (Textid2,score2), ・・・, (Textidn,scoren)]
ここで、Textidiは、目標テキストの唯一の標識であり、scoreiは、目標テキストの計算後の得点である。
上記のステップS420において、当該トップn個の関連ドキュメントの関連音声ファイルを見つけ、かつ関連音声ファイルに対して点数を付ける。なお、ひとつの関連音声ファイルに対応する関連ドキュメントが複数存在する可能性があるので、最終的に得られた関連音声ファイルの数がnより小さい場合もありうる。ここで、関連音声ファイルの数をmと設定すると、m≦nである。下記のサブステップにより関連音声ファイルに対して点数を付けても良い。
1)すべての関連音声ファイルSpeechidjに初期点数を付与し、即ち、SpeechScorej=0.0である。
2)上記の集合Rの各テキストTextidiに対して、それに関連する唯一の音声ファイルSpeechidjを見つけ、当該音声ファイルSpeechidjの点数SpeechScorejに当該テキストが付与した点数vを加え、即ち、v=scorei*relationij、SpeechScorej=SpeechScorej+vである。
ここで、relationijは、パラメータであり、テキストTextidiと、対応する音声ファイルSpeechidjとの間の関係の緊密度合いを表す。両者の関係が緊密であればあるほど、このパラメータ値が高い。そして、このパラメータ値は、経験から確定されてもよいし、実験より自己適応学習により得られても良い。
3)各音声ファイルの点数に基づいてランキングする。
Rs=[(Speechid1, SpeechScore1), (Speechid 2, SpeechScore2),・・・, (Speechidm, SpeechScorem)]
ここで、Speechidjは、音声ファイルの唯一の識別標識であり、Speechscorejは、音声ファイルの得点である。
上記のステップS430では、音声セグメントの集合のノイズ除去を行う。具体的には、ステップS420より得た音声集合Rsの各音声ファイルに対して分割を行って音声セグメントにすることで、音声セグメントの集合を取得する。分割方法は、いかなる既存の方法であってよい。例えば、前記の中断による分割法、人による分割法などであってもよい。例示としては、中断による分割法を用いて、即ち、中断した時間が所定の閾値を超えたところで、当該音声ファイルを分割する。各音声セグメントSSIdkに初期点数SSScorekを付与し、その値が、当該音声セグメントが所属する音声ファイルの点数である。そのため、以下のリストが得られる。
SSL=[(SSId1,SSScore1), (SSId2,SSScore2), ・・・, (SSIdx,SSScorex)]
ここで、SSIdkは、音声セグメントの唯一の標識であり、SSScorekは、音声セグメントの初期点数であり、当該音声セグメントと検索用文字との間の相関度を表す。
相関性得点を確定する例示的な方法としては、自動音声識別エンジンにより、得られた音声セグメントSSIdkをテキストに翻訳する。いかなるテキスト検索方法で、得られた検索用テキストと翻訳された音声セグメントSSIdkとの間の現段階での相関性得点TRScorekを計算することができる。
ASRS=[(SSId1,TRScore1), (SSId2,TRScore2), ・・・, (SSIdx,TRScorex)]
ここで、TRScorekは、当該テキスト検索方法が音声セグメントSSIdkに付与した点数である。
次に、下式により各音声セグメントの最終点数SSSkを計算できる。
SSSk=SSScorek*TRScorek
最後、閾値trを設定し、ある音声セグメントの点数がこの閾値より大きければ、当該音声セグメントを保留する。さもなければ当該音声セグメントをノイズとして音声セグメントの集合から除去する。この閾値は、経験から設定してもよいし、学習トレーニングより得ても良い。
音声セグメントの集合を取得した後、音声セグメントにあるすべての音声セグメントを検索条件とし、いかなる既存の音声で音声を検索する方法によって音声ファイルデータベースに対して検索を行うことができる。
上記より具体的に音声からノイズを除去するプロセスを含んだ音声検索方法は、関連ドキュメントを検索時の検索用文字と目標ドキュメントとの間の相関度を利用したほか、関連ドキュメントと対応音声との間の関係の緊密性を考慮し、さらに各音声セグメント自身と検索用文字との間の相関度を考慮した。従って、最後に得られた検索用音声セグメントは、ユーザの検索目的をより反映できる。また、得られた音声セグメントにより音声ファイルデータベースに対して検索を行う場合でも、最終的に音声ファイルデータベースから検索された、結果としての各音声ファイルの相関性を評価する時に各音声セグメントの点数を考慮しても良い。
本発明の各実施例より説明した音声検索装置と音声検索方法によれば、翻訳せずにテキスト形式の検索条件を音声形式の検索条件に変換でき、翻訳による情報の喪失と想定外の損失を回避できる。いかなる音声識別をしなくてもよいから、低い識別率による影響を回避できる。また、最後には音声から音声への検索を行うので、この方法では、できるだけ多くの音声特徴を保留して利用することができ、また、テキストからテキストへの検索、および音声から音声への検索のような高正確率の特徴を十分に利用することができる。更に、音声から音声への検索を行う場合は、任意の既存する音声から音声への検索するシステムが持つ高いリコール率の特徴を利用することもできる。
なお、音声からノイズを除去するプロセスを含んだ上記の音声検索方法では、音声セグメントと検索用文字との間の相関性を評価する場合、音声セグメントを文字に変換、あるいは文字を音声に変換する操作に及ぶことがあるが、当該変換の規模が小さいので、既存の技術によっても当該問題を解決でき、本発明に不利な影響をもたらすことがない。
また、本発明の実施例は、ハードウェア、ソフトウェア、ファームウェア又はこれらの組合せにより実現できる。例えば、本発明の実施例をコンピューター又はコンピュータープログラムより実現できる。なお、そのような実現方式は、本発明の技術範囲を制限することがない。
また、本発明の実施例における各ユニットの間の接続関係は、本発明の技術範囲を制限せず、そのひとつあるいは複数のユニットは、ほかの任意のユニットを有し又はそれに接続してもよい。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の範囲に属する。
米国特許第US7542996B2号明細書

Claims (10)

  1. 検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索装置であって、
    前記音声ファイルデータベースの前記音声ファイルと関連するテキスト情報を記憶する関連テキストデータベースと、
    前記検索用文字により関連テキストデータベースから関連ドキュメントを検索する関連ドキュメント検索部と、
    前記関連ドキュメント検索部により検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得部と、
    前記対応音声ファイル取得部により取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う音声から音声への検索部と、
    を含むことを特徴とする音声検索装置。
  2. 前記関連ドキュメントは、音声の標題と、音声に付随するデモドキュメントと、音声の文字内容とのうち一つ又はいくつかである、
    ことを特徴とする請求項1に記載する音声検索装置。
  3. 前記検索用文字は、一つ又は複数のキーワード、一つ又は複数のセンテンス、或いは、一つ又は複数のドキュメントである、
    ことを特徴とする請求項1に記載する音声検索装置。
  4. 前記音声から音声への検索部は、
    前記対応音声ファイル取得部により取得された前記音声ファイルの各々に対して、音声セグメントに分割し、前記音声セグメントの集合を得る音声セグメント分割部と、
    音声セグメント分割部により分割した前記音声セグメントの集合から、前記検索用文字と関連のない音声セグメントであるノイズを除去するノイズ除去部と、
    前記ノイズ除去部によりノイズが除去された音声セグメントの集合を用いて、前記音声ファイルデータベースに対して検索を行う音声セグメントから音声への検索部と、
    を含むことを特徴とする請求項1に記載する音声検索装置。
  5. 前記関連ドキュメント検索部は、前記関連テキストデータベースから、前記検索用文字との間の相関度がトップNに入ったドキュメント、又は、前記検索用文字との間の相関度が所定の閾値より大きいドキュメントを前記関連ドキュメントとする、
    ことを特徴とする請求項1に記載する音声検索装置。
  6. 検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索方法であって、
    前記検索用文字により、前記音声ファイルデータベースの前記音声ファイルと相関するテキスト情報を記憶する関連テキストデータベースから関連ドキュメントを検索する第一検索ステップと、
    前記第一検索ステップにより検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得ステップと、
    前記対応音声ファイル取得ステップにより取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う第二検索ステップと、
    を含むことを特徴とする音声検索方法。
  7. 前記関連ドキュメントは、音声の標題と、音声に付随するデモドキュメントと、音声の文字内容とのうち一つ又はいくつかである、
    ことを特徴とする請求項6に記載する音声検索方法。
  8. 前記検索用文字は、一つ又は複数のキーワード、一つ又は複数のセンテンス、或いは、一つ又は複数のドキュメントである、
    ことを特徴とする請求項6に記載する音声検索方法。
  9. 前記第二検索ステップは、
    前記対応音声ファイル取得ステップにより取得された前記音声ファイルの各々に対して、音声セグメントに分割し、前記音声セグメントの集合を得る音声セグメント分割ステップと、
    前記音声セグメント分割ステップにより分割した前記音声セグメントの集合から、前記検索用文字と関連のない音声セグメントであるノイズを除去するノイズ除去ステップと、
    前記ノイズ除去ステップによりノイズが除去された音声セグメントの集合を用いて、前記音声ファイルデータベースに対して検索を行うステップと、
    を含むことを特徴とする請求項6に記載する音声検索方法。
  10. 前記第一検索ステップは、前記関連テキストデータベースから、前記検索用文字との間の相関度がトップNに入ったドキュメント、又は、前記検索用文字との間の相関度が所定の閾値より大きいドキュメントを前記関連ドキュメントとする、
    ことを特徴とする請求項6に記載する音声検索方法。
JP2010263940A 2009-11-27 2010-11-26 音声検索装置と音声検索方法 Expired - Fee Related JP5561123B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN200910249847.2A CN102081634B (zh) 2009-11-27 2009-11-27 语音检索装置和语音检索方法
CN200910249847.2 2009-11-27

Publications (2)

Publication Number Publication Date
JP2011113570A JP2011113570A (ja) 2011-06-09
JP5561123B2 true JP5561123B2 (ja) 2014-07-30

Family

ID=43661866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010263940A Expired - Fee Related JP5561123B2 (ja) 2009-11-27 2010-11-26 音声検索装置と音声検索方法

Country Status (4)

Country Link
US (1) US8316004B2 (ja)
EP (1) EP2348427B1 (ja)
JP (1) JP5561123B2 (ja)
CN (1) CN102081634B (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365849B (zh) * 2012-03-27 2016-06-15 富士通株式会社 关键词检索方法和设备
CA2823835C (en) * 2012-08-15 2018-04-24 Homer Tlc, Inc. Voice search and response based on relevancy
CN102999639B (zh) * 2013-01-04 2015-12-09 努比亚技术有限公司 一种基于语音识别字符索引的查找方法及系统
JP6003972B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
CN106021249A (zh) * 2015-09-16 2016-10-12 展视网(北京)科技有限公司 一种基于内容的语音文件检索方法和系统
CN106504773B (zh) * 2016-11-08 2023-08-01 上海贝生医疗设备有限公司 一种可穿戴装置及语音与活动监测系统
CN106683669A (zh) * 2016-11-23 2017-05-17 河池学院 一种机器人语音控制系统
CN108345679B (zh) * 2018-02-26 2021-03-23 科大讯飞股份有限公司 一种音视频检索方法、装置、设备及可读存储介质
CN109684096A (zh) * 2018-12-29 2019-04-26 北京超图软件股份有限公司 一种软件程序资源化处理方法及装置
CN109920409B (zh) * 2019-02-19 2021-07-09 标贝(深圳)科技有限公司 一种声音检索方法、装置、系统及存储介质
CN116013296B (zh) * 2023-03-28 2023-05-30 国网浙江省电力有限公司营销服务中心 基于计算机自然语言处理的搜索方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1125112A (ja) * 1997-07-04 1999-01-29 N T T Data:Kk 対話音声処理方法及び装置、記録媒体
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
US6366907B1 (en) 1999-12-15 2002-04-02 Napster, Inc. Real-time search engine
JP2002312369A (ja) * 2001-04-17 2002-10-25 Canon Inc 音声コンテンツ検索システム及び情報処理装置とそれらの方法
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
JP4595415B2 (ja) * 2004-07-14 2010-12-08 日本電気株式会社 音声検索システムおよび方法ならびにプログラム
US8694317B2 (en) * 2005-02-05 2014-04-08 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7680853B2 (en) * 2006-04-10 2010-03-16 Microsoft Corporation Clickable snippets in audio/video search results
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
WO2009032672A1 (en) * 2007-08-28 2009-03-12 Nexidia Inc. Keyword spotting using a phoneme-sequence index
CN101364222B (zh) * 2008-09-02 2010-07-28 浙江大学 一种两阶段的音频检索方法

Also Published As

Publication number Publication date
EP2348427B1 (en) 2012-11-21
JP2011113570A (ja) 2011-06-09
CN102081634B (zh) 2015-07-08
EP2348427A1 (en) 2011-07-27
US20110131236A1 (en) 2011-06-02
CN102081634A (zh) 2011-06-01
US8316004B2 (en) 2012-11-20

Similar Documents

Publication Publication Date Title
JP5561123B2 (ja) 音声検索装置と音声検索方法
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP6493866B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10037758B2 (en) Device and method for understanding user intent
US9330661B2 (en) Accuracy improvement of spoken queries transcription using co-occurrence information
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
JP5541035B2 (ja) 音声検索装置及び音声検索方法
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
JP2003036093A (ja) 音声入力検索システム
US20120239390A1 (en) Apparatus and method for supporting reading of document, and computer readable medium
US11443734B2 (en) System and method for combining phonetic and automatic speech recognition search
US7921014B2 (en) System and method for supporting text-to-speech
WO2014187096A1 (en) Method and system for adding punctuation to voice files
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2004523004A (ja) 階層言語モデル
JP5221768B2 (ja) 翻訳装置、及びプログラム
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP2010277036A (ja) 音声データ検索装置
KR101069534B1 (ko) 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치
Hussain et al. Dactor: A data collection tool for the relater project
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2009129405A (ja) 感情推定装置、事例感情情報生成装置、及び感情推定プログラム
JP2009204732A (ja) 音声認識装置、音声認識辞書作成方法およびプログラム
JP2008181537A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Zhou et al. Predicting and tagging dialog-act using MDP and SVM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140513

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140526

R151 Written notification of patent or utility model registration

Ref document number: 5561123

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees