JP5408631B2 - 音声検索装置および音声検索方法 - Google Patents

音声検索装置および音声検索方法 Download PDF

Info

Publication number
JP5408631B2
JP5408631B2 JP2011501548A JP2011501548A JP5408631B2 JP 5408631 B2 JP5408631 B2 JP 5408631B2 JP 2011501548 A JP2011501548 A JP 2011501548A JP 2011501548 A JP2011501548 A JP 2011501548A JP 5408631 B2 JP5408631 B2 JP 5408631B2
Authority
JP
Japan
Prior art keywords
search
voice
keyword
speech
searching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011501548A
Other languages
English (en)
Other versions
JPWO2010098209A1 (ja
Inventor
浩一 桂田
恒雄 新田
茂樹 手島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyohashi University of Technology NUC
Original Assignee
Toyohashi University of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyohashi University of Technology NUC filed Critical Toyohashi University of Technology NUC
Priority to JP2011501548A priority Critical patent/JP5408631B2/ja
Publication of JPWO2010098209A1 publication Critical patent/JPWO2010098209A1/ja
Application granted granted Critical
Publication of JP5408631B2 publication Critical patent/JP5408631B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Description

本発明は、音声検索装置および音声検索方法に関する。より詳細には、音声に対する検索を高速かつ効率的に行う装置ならびに方法に関するものである。
ブロードバンド回線の普及など情報通信技術の発展により、Web上で音声や動画像のコンテンツを利用する機会が増え、コンテンツの数も急激に増加している。このため、Web上の音声データや動画データを効率的に探索し、利用するには、音声検索技術が必要不可欠である。特に高速に検索するシステムが求められている。
このようなニーズを満たすために、非特許文献1および2に記載の先行技術では、音声データベースから索引データを作成し、これを用いて高速な音声検索を実現する手法が提案されている。
また、特許文献1に記載の先行技術では、接尾辞配列と動的計画法を組み合わせて、文書検索において表記揺れの解消と高速化について記述がある。
国際公開2005/122002号
上記特許文献1に記載の先行技術では、文書検索を対象としており、本発明の係る音声認識による音素列に対するあいまい検索ではない。とくに単純な接尾辞配列と動的計画法を組み合わせるだけでは計算時間が著しく増大することは自明である。
一方、上述した先行技術(非特許文献1ならびに2)では、音声データベースが大規模になると、従来の音声検索高速化手法ではデータベースに見合う規模の索引データを作成しなければならない。このため高速な二次記憶装置が必要となり、コスト面からは望ましくない。
また、主記憶装置と比較して二次記憶装置はアクセスに時間がかかるため、検索速度も低下するデメリットも存在する。
さらに、索引データを単語、あるいはサブワードから作成することが一般的であるが、
その場合、検索キーワード(あるいはサブキーワード)と単語、あるいはサブワードとの完全一致が前提になるため、誤認識の多い現状の音声認識では十分な検索性能が得られない可能性がある。
本発明は、上記の課題に対し、二次記憶装置を必要とせず、検索速度が高速であり、かつ、検索に要するコストが低コストであり、さらに、良好な検索性能を発揮する、あいまい検索を行う音声検索装置および音声検索方法を提供することを目的とする。
本発明に係る音声検索において、あいまい検索を行う音声検索装置および音声検索方法は、具体的には以下のように構成される。
請求項1に係る発明は、音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索装置であって、音声データベースに記録される音声を認識するデータベース用音声認識器と、前記データベース用音声認識器によって認識された単語列から音素列を生成する音声用音素列生成部と、前記音声用音素列生成部によって生成された音素列から接尾辞配列を生成するSuffix Array生成部と、検索キーワードを入力する入力装置と、前記入力装置により入力された検索キーワードから音素列を生成する入力音素生成部と、前記接尾辞配列上で検索キーワードを動的計画法により検索する音声検索部と、前記音声検索部により検索された結果を出力する出力装置とを備え、前記音声検索部は、検索で用いる第1の閾値を設定する手段と、前記第1の閾値を用いて動的計画法により検索対象を検索する手段と、前記第1の閾値を逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整手段とを備えた音声検索部であることを特徴とする音声検索装置を要旨としている。
この音声検索装置は、音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索装置であって、接尾辞配列と、動的計画法をともに用いてあいまい検索を行うものである。音素単位で検索キーワードとのマッチングを行うため、索引に登録された単語、あるいはサブワードに完全一致しなくとも検索を可能としている。
また、上記構成は、前記検索の第1の閾値をiterative lengthening search(一種の反復深化探索)によって逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整機能を備えたものである。装置の利用者が初期に提示された検索結果を確認している間に、閾値を更新しつつ新たな検索結果を逐次的に提示することにより、体感的な検索速度の向上を実現している。
請求項2に係る発明は、請求項1に記載の音声検索装置であって、前記音声検索部は、さらに、検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割する手段と、前記検索キーワードの分割手段によって分割されたキーワードに対する検索に用いる第2の閾値を前記第1の閾値から決定する手段とを備え、前記検索対象を検索する手段は、前記第2の閾値を用いて動的計画法により検索対象を検索する手段であることを特徴とする音声検索装置を要旨とする。
上記構成の音声検索装置は、請求項1に係る発明に加えて、処理時間の指数爆発を防ぐために、検索キーワードの分割、2箇所以上マッチするための検索第1の閾値の変更、キーワードの長さに応じた分割音素数、分割/非分割の決定を行い、高速な検索を実現するものである。前記2箇所以上マッチするための検索第1の閾値の変更は、次の式1(すなわち数1)に従って行う。
Figure 0005408631
ただし、pは分割数、tは上記複数の分割された検索キーワードに対する検索の閾値を決定する手段により求められる元の第1の閾値、t′は前記閾値変更手段による変更後の第2の閾値である。
請求項4に係る発明は、請求項1または2に記載の音声検索装置であって、前記音声検索部は、さらに、検索キーワードの長さによりキーワード分割の有無を判定する手段と、前記キーワード分割後の音素数の決定を行うキーワード分割手段とを備えた音声検索部であることを特徴とする音声検索装置を要旨としている。
上記構成の装置は、検索キーワードの長さによりキーワード分割の有無を判定し、前記キーワード分割後の音素数の決定を行うことができる。
請求項5に係る発明は、請求項1ないし4のいずれかに記載の音声検索装置であって、前記動的計画法により検索対象を検索する手段は、さらに、動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出する手段を備えた検索対象を検索する手段であることを特徴とする音声検索装置を要旨としている。
上記の音素間距離には、例えば、音素弁別特徴の差異のハミング距離がある。そこで、上記構成では、このハミング距離を用いることによって音素間の類似性を算出するものである。
請求項6に係る発明は、音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索方法であって、音声データを音素列に変換し、接尾辞配列を作成するステップと、検索キーワードを受け付け、音素列に変換するステップと、検索で用いる第1の閾値を設定するステップと、前記第1の閾値を用いて動的計画法により検索対象を検索するステップと、前記第1の閾値を逐次的に増加させながら繰り返し検索する閾値調整ステップと、前記検索のステップにより検索された結果を出力するステップとを含むことを特徴とする音声検索方法を要旨としている。
上記構成の音声検索方法は、接尾辞配列(以下、Suffix Arrayと記述する場合がある)と動的計画法(以下、DP(Dynamic Programming)マッチングと記述する場合がある)をともに用いてあいまい検索を行うものである。音素単位で検索キーワードとのマッチングを行うため、索引に登録された単語、あるいはサブワードに完全一致しなくとも検索を可能としている。
また、上記構成の音声検索方法は、前記検索の第1の閾値をiterative lengthening search(一種の反復深化探索)によって逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整機能を備えたものである。第1の閾値が小さい初期の探索ではSuffix Arrayの特徴により二分探索に近い検索になることから、非常に高速な検索が可能である。
請求項7に係る発明は、請求項6に記載の音声検索方法であって、さらに、検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割するステップと、前記検索キーワードの分割ステップによって分割されたキーワードに対する検索に用いる第2の閾値を前記第1の閾値から決定するステップとを備え、前記検索対象を検索するステップは、前記第2の閾値を用いて動的計画法により検索対象を検索するステップであることを特徴とする音声検索方法を要旨とする。
上記構成の音声検索方法は、処理時間の指数爆発を防ぐために、検索キーワードの分割、2箇所以上マッチする手法、検索第1の閾値の変更、キーワードの長さに応じた分割音素数、分割/非分割の決定を行い、高速な検索を実現するものである。なお、分割されたキーワードに対する検索の第2の閾値は数1に示す式1に基づいて決定することができる。
請求項9に係る発明は、請求項6または7に記載の音声検索方法であって、さらに、前記検索キーワードの長さによりキーワード分割の有無を判定するステップと、前記キーワード分割後の音素数の決定を行うキーワード分割ステップとを含むことを特徴とする音声検索方法を要旨としている。
上記構成の音声検索方法は、検索キーワードの長さによりキーワード分割の有無を判定し、前記キーワード分割後の音素数の決定を行うことができるように処理される。
請求項10に係る発明は、請求項6ないし9のいずれかに記載の音声検索方法であって、前記検索対象を検索するステップは、前記動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出するステップを有することを特徴とする音声検索方法を要旨としている。
上記構成の音声検索方法は、前記動的計画法において音素弁別特徴に基づく音素間距離(例えば、音素弁別特徴の差異のハミング距離)を用いて音素間の類似性を算出するような処理が可能となっている。
本発明によれば、データ領域を多く必要としないため高速な二次記憶装置を必要とせず、二次記憶の準備に必要なコストを低減できる。つまり、検索速度が高速かつ低コストであり、かつ、良好な検索性能も備えた音声検索装置ならびに音声検索方法を提供することが可能となる。
本発明に係る音声検索のフローチャートである。 本発明に係る音声検索の内部構成ブロック図である。 本発明に係る音声データベースからの接尾辞配列(Suffix Array)の作成の説明図である。 本発明に係る接尾辞配列(Suffix Array)上での動的計画法(DPマッチング)によるあいまい検索の説明図である。 本発明に係るキーワードの分割と音声検索の説明図である。 本発明の実施例に係る6音素の検索キーワードを対象に第1の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表す。 本発明の実施例に係る12音素の検索キーワードを対象に第1の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表す。 本発明の実施例に係る18音素の検索キーワードを対象に第1の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表す。 本発明の実施例に係る24音素の検索キーワードを対象に第1の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間の図である。グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表す。 本発明の実施例に係る6音素の検索キーワードを対象に半分の正解キーワードを検出するまでの時間の図である。グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表す。 本発明の実施例に係る12音素の検索キーワードを対象に半分の正解キーワードを検出するまでの時間の図である。グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表す。 本発明の実施例に係る第1の閾値を初期値0.0に設定して6音素から24音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース(毎日新聞コーパス)の音声換算の時間(単位:時間)、縦軸は検索の処理時間(単位:ミリ秒)である。 本発明の実施例に係る第1の閾値を図12の状態から0.2に更新し、改めて6音素から24音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース(毎日新聞コーパス)の音声換算の時間(単位:時間)、縦軸は検索の処理時間(単位:ミリ秒)である。 本発明の実施例に係る第1の閾値を図13の状態からさらに0.4に更新し、改めて6音素から24音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース(毎日新聞コーパス)の音声換算の時間(単位:時間)、縦軸は検索の処理時間(単位:ミリ秒)である。 本発明の実施例に係る図12とは異なる実施環境において、第1の閾値を初期値0.0に設定して6音素から24音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース(毎日新聞コーパス)の音声換算の時間(単位:時間)、縦軸は検索の処理時間(単位:ミリ秒)である。 本発明の実施例に係る第1の閾値を図15の状態から0.2に更新し、改めて6音素から24音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース(毎日新聞コーパス)の音声換算の時間(単位:時間)、縦軸は検索の処理時間(単位:ミリ秒)である。 本発明の実施例に係る第1の閾値を図16の状態からさらに0.4に更新し、改めて6音素から24音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース(毎日新聞コーパス)の音声換算の時間(単位:時間)、縦軸は検索の処理時間(単位:ミリ秒)である。 本発明の実施例に係る第1の閾値を図17の状態からさらに1.0に更新し、改めて6音素から24音素の検索キーワードを検索し、検索結果群がユーザに提示されるまでの時間の図である。グラフの横軸は擬似音声データベース(毎日新聞コーパス)の音声換算の時間(単位:時間)、縦軸は検索の処理時間(単位:ミリ秒)である。
以下、本発明の実施の形態における音声検索装置および音声検索方法について、図面を参照して説明する。なおこれらの図面は、本発明が採用し得る技術的特徴を説明するために用いられるものであり、記載されている装置の構成、各種処理のフローチャートなどは、特に特定的な記載がない限り、それのみに限定する趣旨ではなく、単なる説明例である。
本発明に係る音声検索方法の実施形態について、図1のフローチャートに従って説明する。本実施形態は、スタート時に音声を入力として、前記入力された音声をサンプリング(例えば、サンプリングビット数16bit、サンプリング周波数44.1kHz)して得られる音声データをSuffix ArrayとDPマッチングをともに用いてあいまい検索を行うものである。
まず、音声データベースに記録される音声データを音素列(a)に変換し、この音素列(a)からSuffix Arrayを作成する(S11)。次に、検索キーワードを受け付け、その検索キーワードを音素列に変換する(S12)。この処理と同時に、検索で用いる第1の閾値(図1において閾値1と表記)を設定する(S12)。上記処理において、音素列に変換した検索キーワードの長さが所定以上(例えば、音素の数で9以上)である場合には、これを分割するが、それ以下である場合には分割しないものとし、当該分割/非分割を判断する(S13)。分割すべきと判断された場合は、当該検索キーワードを所定の音素数に分割する(S14)。このとき、分割後の音素の数を予め決定しておくことができる。例えば、分割後の音素の数を3とすることにより、検索キーワードの音素数が9である場合に、3個の音素ごとに3分割することができる。そして、検索キーワードの音素数が10〜12では、4分割することができる。
分割されたキーワードは、音声データに含まれる音素弁別特徴間の距離を算出して類似性が判断される。すなわち、数1に示した数式によって第1の閾値から第2の閾値(図1において閾値2と表記)を決定するとともに、この第2の閾値を用いて分割されたキーワードをSuffix Array上でDPマッチングするのである(S15)。この結果は第1段階候補(b)として一時保存し(S15)、この第1段階候補(b)の位置関係から最終候補(c)を決定するのである(S16)。また、この最終候補(c)の結果について、第1の閾値を用いてSuffix Array(a)上でDPマッチングし、その結果を出力(ユーザに提示)するのである(S16)。これにより、第1次的な検索を終了する。
本実施形態では、第1次的な検索の終了後に、第1の閾値を少し高い値に更新(例えば、0.2を加算)して、再度検索ステップを繰り返すように処理される(S17,S18)。第1の閾値が少し高い値に変更されていることから、当該第1の閾値に基づいて算出される第2の閾値も少し高い値となる。これにより、音素弁別特徴間の距離がやや離れた類似語(類似する音素列の語)の検索が実施されることとなる。なお、上記検索ステップの繰り返しは、第1の閾値が所定の値に到達する場合、または、検索結果の総数が所定の数に達した場合に終了するように処理することができる(S18)。例えば、第1の閾値が1.4に達するか、検索結果が100に達する場合に処理を終了するように構築することができる。
次に、検索キーワードが短い(例えば、音素の数が8以下となる)場合には、検索キーワードを分割せず、Suffix Array(a)上において、第1の閾値を用いてDPマッチングする(S19)。このとき、使用される閾値は第1の閾値のみである。そして、ここで得られた結果はそのまま出力(ユーザに提示)されるのである(S19)。検索キーワードが分割されていないことから、マッチングされた結果の位置関係を参照する必要はないのである。
なお、検索キーワードを分割しない場合であっても、第1の閾値を少し高い値に更新(例えば、0.2を加算)して(S20)、再度検索ステップを繰り返すものである(S21)。音素弁別特徴間の距離が離れた類似語(類似する音素列の語)を検索するためである。そして、上記検索の繰り返しは、更新した閾値が所定の値に達する場合、または、検索結果数が所定数に達した場合に処理を終了させるように構築することができる。
上記のような検索方法によれば、第1の閾値を小さくした初期の検索では、二分探索に近い検索条件となるため、検索キーワードに非常に近い音素列を高速に検索できることとなる。そして、この第1の閾値を徐々に大きくすることにより、一種の反復深化探索を可能にする。さらに、第1の閾値を更新する前に逐次出力(ユーザに提示)することにより、検索キーワードに近似する音素列から順次出力することができる。キーワードの分割について、上記実施形態では、検索キーワードの長短を判断する際の音素数について9以上を例示したが、分割された後の音素数を6とする場合には、検索キーワードの長短の境界を18とすることができる。分割後の音素数が少ない場合には、第1段階候補(b)の数が膨大となり、処理速度が遅くなる可能性もあり得るからである。そこで、分割後の音素数を調整することによって、検索時間のさらに高速化することも可能である。
なお、上記に示した検索方法において、第1の閾値を更新せずに処理を終了するような構成とすることもできる。この場合、検索により得られる音素列は検索キーワードに近似するものに限定されるが、予め第1の閾値を少し大きめに設定することにより、一度の検索ステップによって多くの音素列を検索することができる。
また、キーワードの分割について、当該分割の有無を判定するステップ(S13)が設けられているが、このようなステップを割愛し、予め定めた音素数に分割するように処理するか、または、分割しないものとして処理することも可能である。所定の音素数に分割するような処理を選択する場合には、第1の閾値から第2の閾値を数1に示す数式に従って算出するには、3以上に分割すべきであるから、所定の音素数に分割した際の分割数が3未満となるか、3以上となるかを判断するステップが必要となる。
一方、本発明に係る音声検索装置の実施形態は、図2の内部構成ブロック図のように構成される。本実施形態は、予めサンプリング(例えば、サンプリングビット数16bit、サンプリング周波数44.1kHz)された大規模音声データを音声データベース25に格納して、Suffix Array作成部28とDPマッチングを行う音声検索部29ともに用いてあいまい検索を行う手段を実現するものである。
本実施形態の音声検索装置31は、音声データからSuffix Arrayを作成するために、音声データベース25、データベース用音声認識器26、音声用音素列生成部27およびSuffix Array作成部28が設けられている。他方、入力される検索キーワードの音素列を作成するために、入力装置21,24および音素列生成部23が設けられている。入力装置21,24は、一方が音声入力装置(例えば、マイク)21であり、他方が文字入力装置(例えば、キーボード)24である。両者は異なる入力手段であるが、両者をともに備える構成でもよいが、いずれか一方のみを備える構成でもよい。ただし、音声入力装置(例えば、マイク)21を備える場合には、音声認識器22を備える必要がある。そして、単語列として入力または音声を単語列に変換されたキーワードは、音素列生成部23によって音素列に変換されるのである。図2の「音声/文字用音素列生成部」との記載は、音声入力の場合または文字入力の場合のいずれについても対応することを意味する。
図2に示しているように、音声データから作成されたSuffix Arrayの情報
と、入力された検索キーワードの音素列の情報は、音声検索部29において検索処理される構成となっている。この音声検索部29には、検索で用いる第1の閾値を設定する手段と、検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割する手段と、検索キーワードの分割手段によって分割されたキーワードに対する検索に用いる第2の閾値を第1の閾値から決定する手段と、第1および第2の閾値の少なくともいずれか一方を用いて動的計画法により検索対象を検索する手段とが備えられている。
従って、音声データに含まれる音素弁別特徴間の距離を算出して類似性を判定する手段は、音声検索部29で実現される。一方、入力された検索キーワードを音素により分割する手段と、分割した検索キーワードを必ず2箇所以上マッチするために、上記式1(数1)に従って第1の閾値を変更し、第2の閾値を求める手段と、前記第1の閾値および前記第2の閾値により決定される検索対象を検索する手段は、いずれも図2における音声検索部29で実現される。
また、検索の第1の閾値を逐次的に増加させながら繰り返し検索する手段は、音声検索部29によって実現されることとなり、検索結果を逐次的に閾値調整手段についても音声検索部29において実現される。これと同時に、検索結果を逐次的に出力(ユーザに提示)する手段は、表示装置(例えば、ディスプレイ)30または音声出力装置(例えば、スピーカ)31によって実現される。
さらに、検索キーワードの長さによりキーワード分割の有無を判定する手段は、音声検索部29において実現され、また、キーワード分割後の音素数の決定を行うキーワード分割手段は、音声/文字用音素列生成部23および音声検索部29より実現される。
本実施形態の音声検索装置は、図2に示しているように、音声検索結果は、表示装置30(例えば、ディスプレイ)により検索に関する文字や画像等の情報が表示され、かつ、音声情報は、音声出力装置31(例えば、スピーカ)から音として再生される。これらは、いずれか一方のみ備えた構成としてもよい。
図2に示された音声処理装置32は、ROM、RAM(以下、メモリ)、CPU、HDD、音声入出力インターフェイス(例えば、サンプリングビット数16bit、サンプリング周波数44.1kHzが処理可能なインターフェイス)がシステムバスにより電気的に有意に接続されているパーソナルコンピュータを用いて実現してもよい。音声データベースをHDDに格納し、音声入力装置21と音声出力装置31を音声入出力インターフェイスに接続し、前記以外の手段をC#言語もしくはC++言語によりソフトウェアとして構成しHDDに格納して、前記ソフトウェアは起動時にメモリへ読み込まれ、システムバスを介して、おもにメモリとCPUを連動させ、必要な手段を実現することができる。
次に、音声検索の具体的手法について、図3から図5を参照して説明する。
図3は、音声データベースからの接尾辞配列(Suffix Array)の作成の説明図である。データベース用音声認識器26を用いて音声データベース25に格納されている音声データを単語列に変換し、音声用音素列生成部27により更に単語列を音素列(a)に変換する。次に、前記音素列からSuffix Array生成部28によりSuffix Arrayを作成し、メモリもしくはHDD上に保存する。
検索キーワードを音声で受け付けた場合(音声入力装置21により入力される)には、音声認識器22を用いて単語列に変換し、音声/文字用音素列生成部23により音素列に変換する。テキスト(文字列)で受け付けた場合(文字入力装置24により入力される)にも音声/文字用音素列生成部23により音素列に変換する。音声検索部29により検索
で用いる音素あたりの平均第1の閾値を低い値(例えば0.0)に設定する。
前記Suffix Array上でのDPマッチングによるあいまい検索の説明を図4に示す。最適の音素数に分割、あるいは非分割した後に、Suffix Array上でDPマッチングにより検索を行う。DPマッチングの閾値として、キーワードが非分割の場合には第1の閾値を用い、分割した場合には第1の閾値を上記式1(数1)で変更した値(第2の閾値)を用いる。これにより検索結果の第1段階候補(b)が得られる。非分割の場合には、(b)を結果としてユーザに表示装置30および音声出力装置31により提示する。
キーワードの分割と音声検索の説明を図5に示す。音素を分割した場合には、分割されたキーワードのうち2つ以上が検索されるため、検索結果の位置関係から検索結果の最終候補(c)を求める。
最終候補(c)を音素列(a)と第1の閾値を用いてDPマッチングし、検索結果をユーザに表示装置30および音声出力装置31により提示する。検索結果の提示後に、第1の閾値を少し高い値に更新(例えば0.2を加算する)した後、第1の閾値を用いたDPマッチングへ戻る。
CSJ(Corpus of Spontaneous Japanese)コーパス(男性話者、390時間)の音声データを対象に、パーソナルコンピュータ(Intel(登録商標) Pentium(登録商標)D 2.8GHz、メモリ4GB)上で図2の音声検索装置32を、C#言語で構築し、検索実験を行った結果、第1の閾値を最も低くした場合(0.0)に最初の検索結果が出力されるまでの時間を図6から図9に示す。図6から図9では、グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表している。検索キーワード6音素(図6を参照)、12音素(図7を参照)、18音素(図8を参照)、24音素(図9を参照)で、前記第1の閾値を最も低くした場合に最初の検索結果が出力されるまでの時間は、それぞれ数ミリ秒であった。
上記コーパス中に含まれる半分の正解キーワードを検出するまでの時間を図10と図11に示す。図10と図11では、グラフの横軸は第1の閾値、縦軸は検索の再現率、適合率および処理時間を表している。検索キーワード6音素(図10を参照)、12音素(図11を参照)で、前記半分の正解キーワードを検出するまでの時間は、それぞれ1秒以下であった。
音声に換算して10000時間相当の時間数の新聞記事データを対象に、パーソナルコンピュータ(Intel(登録商標) Pentium(登録商標)D 2.8GHz、メモリ4GB)上で図2の音声検索装置32をC#言語で構築し、検索実験を行った結果を図12から図14に示す.非特許文献1には2031時間の音声データベースから5.2モーラ(5から11音素の範囲内)の検索キーワードを検索するのに2.17秒を要すると記載されている。一方、本発明では図12に示すように、第1の閾値を0.0にして6音素から24音素の検索キーワードを検索し、最初の検索結果群をユーザに提示するまでの時間は数ミリ秒から120ミリ秒である。また、第1の閾値を0.2に更新して改めて6音素から24音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は図13に示すように、数ミリ秒から130ミリ秒である。さらに、第1の閾値を0.4に更新して改めて6音素から24音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は図14に示すように、数十ミリ
秒から600ミリ秒である。以上から、高速に音声検索を行うことができていることが分かる。
音声に換算して10000時間相当の時間数の新聞記事データを対象に、パーソナルコンピュータ(Intel(登録商標) Core2Duo E8600 3.3GHz、メモリ8GB)上で図2の音声検索装置32をC++言語で構築し、検索実験を行った結果を図15から図18に示す。図15に示すように、第1の閾値を0.0にして6音素から24音素の検索キーワードを検索し、最初の検索結果群をユーザに提示するまでの時間は数ミリ秒である。また、図16に示すように、第1の閾値を0.2に更新して改めて6音素から24音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は数ミリ秒である。さらに、図17に示すように、第1の閾値を0.4に更新して改めて6音素から24音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は数ミリ秒から27ミリ秒である。さらに、図18に示すように、第1の閾値を1.0に更新して改めて6音素から24音素の検索キーワードを検索し、新たに得られた検索結果群をユーザに提示するまでの時間は十数ミリ秒から約1秒である。以上から、高速に音声検索を行うことができていることが分かる。
21 音声入力装置
22 音声認識器
23 音声/文字用音素列生成部
24 文字入力装置
25 音声データベース
26 データベース用音声認識器
27 音声用音素列生成部
28 Suffix Array生成部
29 音声検索部
30 表示装置
31 音声出力装置
32 音声検索装置

Claims (8)

  1. 音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索装置であって、
    音声データベースに記録される音声を認識するデータベース用音声認識器と、
    前記データベース用音声認識器によって認識された単語列から音素列を生成する音声用音素列生成部と、
    前記音声用音素列生成部によって生成された音素列から接尾辞配列を生成するSuffix Array生成部と、
    検索キーワードを入力する入力装置と、
    前記入力装置により入力された検索キーワードから音素列を生成する入力音素生成部と、前記接尾辞配列上で検索キーワードを動的計画法により検索する音声検索部と、
    前記音声検索部により検索された結果を出力する出力装置とを備え、
    前記音声検索部は、検索で用いる第1の閾値を設定する手段と、
    前記第1の閾値を用いて動的計画法により検索対象を検索する手段と、
    前記第1の閾値を逐次的に増加させながら繰り返し検索し、検索結果を逐次的に提示する閾値調整手段と
    を備えた音声検索部であることを特徴とする音声検索装置。
  2. 請求項1に記載の音声検索装置であって、
    前記音声検索部は、さらに、
    検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割する手段と、
    前記検索キーワードの分割手段によって分割されたキーワードに対する検索に用いる第2の閾値を前記第1の閾値から決定する手段とを備え、
    前記検索対象を検索する手段は、前記第2の閾値を用いて動的計画法により検索対象を検索する手段である
    ことを特徴とする音声検索装置。
  3. 請求項1または2に記載の音声検索装置であって、
    前記音声検索部は、さらに、
    検索キーワードの長さによりキーワード分割の有無を判定する手段と、
    前記キーワード分割後の音素数の決定を行うキーワード分割手段と
    を備えた音声検索部であることを特徴とする音声検索装置。
  4. 請求項1ないし4のいずれかに記載の音声検索装置であって、
    前記動的計画法により検索対象を検索する手段は、さらに、
    動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出する手段を備えた検索対象を検索する手段であることを特徴とする音声検索装置。
  5. 音声を入力として、前記入力された音声をサンプリングして得られる音声データを検索する音声検索方法であって、
    音声データを音素列に変換し、接尾辞配列を作成するステップと、
    検索キーワードを受け付け、音素列に変換するステップと、
    検索で用いる第1の閾値を設定するステップと、
    前記第1の閾値を用いて動的計画法により検索対象を検索するステップと、
    前記第1の閾値を逐次的に増加させながら繰り返し検索する閾値調整ステップと、
    前記検索のステップにより検索された結果を出力するステップと
    を含むことを特徴とする音声検索方法。
  6. 請求項6に記載の音声検索方法であって、さらに、
    検索キーワードが所定長さ以上であるとき、該検索キーワードを音素により分割するステップと、
    前記検索キーワードの分割ステップによって分割されたキーワードに対する検索に用いる第2の閾値を前記第1の閾値から決定するステップとを備え、
    前記検索対象を検索するステップは、前記第2の閾値を用いて動的計画法により検索対象を検索するステップである
    ことを特徴とする音声検索方法。
  7. 請求項6または7に記載の音声検索方法であって、さらに、
    前記検索キーワードの長さによりキーワード分割の有無を判定するステップと、
    前記キーワード分割後の音素数の決定を行うキーワード分割ステップと
    を含むことを特徴とする音声検索方法。
  8. 請求項6ないし9のいずれかに記載の音声検索方法であって、
    前記検索対象を検索するステップは、前記動的計画法において音素弁別特徴に基づく音素間距離を用いて音素間の類似性を算出するステップを有することを特徴とする音声検索方法。
JP2011501548A 2009-02-26 2010-02-10 音声検索装置および音声検索方法 Expired - Fee Related JP5408631B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011501548A JP5408631B2 (ja) 2009-02-26 2010-02-10 音声検索装置および音声検索方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009044842 2009-02-26
JP2009044842 2009-02-26
PCT/JP2010/051937 WO2010098209A1 (ja) 2009-02-26 2010-02-10 音声検索装置および音声検索方法
JP2011501548A JP5408631B2 (ja) 2009-02-26 2010-02-10 音声検索装置および音声検索方法

Publications (2)

Publication Number Publication Date
JPWO2010098209A1 JPWO2010098209A1 (ja) 2012-08-30
JP5408631B2 true JP5408631B2 (ja) 2014-02-05

Family

ID=42665420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011501548A Expired - Fee Related JP5408631B2 (ja) 2009-02-26 2010-02-10 音声検索装置および音声検索方法

Country Status (5)

Country Link
US (1) US8626508B2 (ja)
EP (1) EP2402868A4 (ja)
JP (1) JP5408631B2 (ja)
CN (1) CN102334119B (ja)
WO (1) WO2010098209A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019013385A1 (ko) * 2017-07-14 2019-01-17 (주)인터버드 마지막 알파벳 제거 알고리즘을 이용한 반도체 부품 검색 방법

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US8745061B2 (en) * 2010-11-09 2014-06-03 Tibco Software Inc. Suffix array candidate selection and index data structure
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
KR101537370B1 (ko) * 2013-11-06 2015-07-16 주식회사 시스트란인터내셔널 녹취된 음성 데이터에 대한 핵심어 추출 기반 발화 내용 파악 시스템과, 이 시스템을 이용한 인덱싱 방법 및 발화 내용 파악 방법
CN105264522A (zh) * 2014-03-28 2016-01-20 华为技术有限公司 后缀数组的构造方法及装置
JP6400936B2 (ja) * 2014-04-21 2018-10-03 シノイースト・コンセプト・リミテッド 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP6003971B2 (ja) * 2014-12-22 2016-10-05 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
CN110970022B (zh) * 2019-10-14 2022-06-10 珠海格力电器股份有限公司 一种终端控制方法、装置、设备以及可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535292A (ja) * 1991-07-26 1993-02-12 Fujitsu Ltd 動的計画法照合装置
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
DE69613556T2 (de) * 1996-04-01 2001-10-04 Hewlett Packard Co Schlüsselworterkennung
CN1604185B (zh) * 2003-09-29 2010-05-26 摩托罗拉公司 利用可变长子字的语音合成系统和方法
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
JP4649405B2 (ja) 2004-06-07 2011-03-09 株式会社日立メディコ 構造化文書作成方法ならびに装置
KR100664960B1 (ko) * 2005-10-06 2007-01-04 삼성전자주식회사 음성 인식 장치 및 방법
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
KR100735820B1 (ko) * 2006-03-02 2007-07-06 삼성전자주식회사 휴대 단말기에서 음성 인식에 의한 멀티미디어 데이터 검색방법 및 그 장치
JP4786384B2 (ja) * 2006-03-27 2011-10-05 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
WO2007142102A1 (ja) * 2006-05-31 2007-12-13 Nec Corporation 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム
JP4791984B2 (ja) * 2007-02-27 2011-10-12 株式会社東芝 入力された音声を処理する装置、方法およびプログラム
US8457959B2 (en) * 2007-03-01 2013-06-04 Edward C. Kaiser Systems and methods for implicitly interpreting semantically redundant communication modes
JP5072415B2 (ja) 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
WO2010067118A1 (en) * 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0535292A (ja) * 1991-07-26 1993-02-12 Fujitsu Ltd 動的計画法照合装置
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG199801053004; 山下 達雄 外1名: 'Suffix Arrayを用いたフルテキスト類似用例検索' 情報処理学会研究報告 第97巻第86号, 19970912, p.23-30, 社団法人情報処理学会 *
CSNG200800711008; 栗城 吾央 外5名: '連続単語音声認識結果の読み系列を利用した辞書未登録語の音声文書検索' 電子情報通信学会技術研究報告 第108巻第142号, 20080710, p.61-66, 社団法人電子情報通信学会 *
JPN6013047817; 山下 達雄 外1名: 'Suffix Arrayを用いたフルテキスト類似用例検索' 情報処理学会研究報告 第97巻第86号, 19970912, p.23-30, 社団法人情報処理学会 *
JPN6013047818; 栗城 吾央 外5名: '連続単語音声認識結果の読み系列を利用した辞書未登録語の音声文書検索' 電子情報通信学会技術研究報告 第108巻第142号, 20080710, p.61-66, 社団法人電子情報通信学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019013385A1 (ko) * 2017-07-14 2019-01-17 (주)인터버드 마지막 알파벳 제거 알고리즘을 이용한 반도체 부품 검색 방법
KR101945234B1 (ko) * 2017-07-14 2019-02-08 (주)인터버드 마지막 알파벳 제거 알고리즘을 이용한 반도체 부품 검색 방법
JP2019523461A (ja) * 2017-07-14 2019-08-22 インターバード カンパニー,リミテッド 最後のアルファベット除去アルゴリズムを利用した半導体部品検索方法
US10789245B2 (en) 2017-07-14 2020-09-29 Interbird Co., Ltd. Semiconductor parts search method using last alphabet deletion algorithm

Also Published As

Publication number Publication date
JPWO2010098209A1 (ja) 2012-08-30
EP2402868A4 (en) 2013-07-03
EP2402868A1 (en) 2012-01-04
US8626508B2 (en) 2014-01-07
CN102334119B (zh) 2014-05-21
US20120036159A1 (en) 2012-02-09
WO2010098209A1 (ja) 2010-09-02
CN102334119A (zh) 2012-01-25

Similar Documents

Publication Publication Date Title
JP5408631B2 (ja) 音声検索装置および音声検索方法
JP5059115B2 (ja) 音声キーワードの特定方法、装置及び音声識別システム
US8332205B2 (en) Mining transliterations for out-of-vocabulary query terms
US8959014B2 (en) Training acoustic models using distributed computing techniques
WO2011096015A1 (ja) 認識辞書作成装置及び音声認識装置
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
KR20090130028A (ko) 분산 음성 검색을 위한 방법 및 장치
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
JP2011185997A (ja) 音声検索装置、音声検索方法、プログラム及び記録媒体
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
US20160232892A1 (en) Method and apparatus of expanding speech recognition database
KR102167157B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
Xu et al. Language independent query-by-example spoken term detection using n-best phone sequences and partial matching
JP5436307B2 (ja) 類似文書検索装置
JP5542559B2 (ja) 音声検索インタフェース装置及び音声入力検索方法
JP2021157145A (ja) 推論器および推論器の学習方法
JP4270732B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2012014042A (ja) 音声入力インタフェース装置及び音声入力方法
JP2011128903A (ja) 系列信号検索装置および系列信号検索方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP5669707B2 (ja) 類似文書検索装置
JP2938865B1 (ja) 音声認識装置
Trung et al. An image based approach for speech perception
JP2008181537A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
Viana-Cámara et al. Evolutionary optimization of contexts for phonetic correction in speech recognition systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120227

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131029

LAPS Cancellation because of no payment of annual fees