JP2011185997A - 音声検索装置、音声検索方法、プログラム及び記録媒体 - Google Patents

音声検索装置、音声検索方法、プログラム及び記録媒体 Download PDF

Info

Publication number
JP2011185997A
JP2011185997A JP2010048179A JP2010048179A JP2011185997A JP 2011185997 A JP2011185997 A JP 2011185997A JP 2010048179 A JP2010048179 A JP 2010048179A JP 2010048179 A JP2010048179 A JP 2010048179A JP 2011185997 A JP2011185997 A JP 2011185997A
Authority
JP
Japan
Prior art keywords
keyword
acoustic
stored
similarity
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010048179A
Other languages
English (en)
Other versions
JP5533042B2 (ja
Inventor
Nobuyuki Washio
信之 鷲尾
Masaharu Harada
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010048179A priority Critical patent/JP5533042B2/ja
Priority to US13/039,495 priority patent/US8731926B2/en
Publication of JP2011185997A publication Critical patent/JP2011185997A/ja
Application granted granted Critical
Publication of JP5533042B2 publication Critical patent/JP5533042B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】高速、かつ精度よく音声を検索することができる音声検索装置、音声検索方法、プログラム及び記録媒体を提供する。
【解決手段】蓄積された音声データの特徴量と、音響モデルとから基準スコアを予め算出し、記憶する。キーワードを受け付けた場合、キーワードに係る音声データの特徴量を抽出し、その特徴量と音響モデルとからKWスコアRを算出する。算出したKWスコアRと、予め算出し、記憶した基準スコアに基づいて、蓄積された音声データから、キーワードを含む音声データを検索する。
【選択図】図2

Description

本発明は、蓄積された音声データからキーワードが発音されている音声データを検索する音声検索装置、音声検索方法、プログラム及び記録媒体に関する。
ビデオ、音声メール又は留守番電話等、記録された音声データから、キーワードが発音されている箇所を検索する音声検索技術がある。斯かる技術において、音声データに長時間の音声が記録されている場合であっても、短時間で、精度よく目的の箇所を検索することが重要となる。そこで、検索対象となる音声データを、予め音響モデルを用いて音素系列に変換して保存し、音声によるキーワード検出時には、キーワードを音素系列に変換し、検索対象の音素系列とのDynamic Programming(DP)マッチングにより比較して、キーワードに対応する音声データを検出する方法がある(特許文献1参照)。
特開2002−221984号公報
しかしながら、特許文献1のように、予め音響モデルを用いて音素系列に変換する場合、一旦、最尤音素系列など認識単位符号列にまで落とし込むために情報の縮退が起こり、一部分の認識ミスにより誤検出あるいは検出漏れなどが発生し易く、精度のよい検索が行えないといった問題が生じる。また、より多くの音素について定めた音響モデルを用いた場合、処理量が膨大となり、検索時間に時間を要するといった問題も生じる。
本発明はかかる事情に鑑みてなされたものであり、その目的とするところは、高速、かつ精度よく音声を検索することができる音声検索装置、音声検索方法、プログラム及び記録媒体を提供することにある。
本願に開示する音声検索装置は、複数の音声データを蓄積する蓄積手段と、認識単位毎の音響特徴量空間での特性を保持している音響モデル記憶手段と、前記蓄積手段に蓄積された音声データから音響特徴量を抽出する抽出手段と、該抽出手段が抽出した音響特徴量を記憶する音響特徴量記憶手段と、該音響特徴量記憶手段に記憶された音響特徴量と、前記音響モデルとの類似度を算出する第1算出手段と、該第1算出手段が算出した類似度を記憶する類似度記憶手段と、キーワードを受け付ける手段と、キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第2算出手段と、該第2算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段とを備える。
本願に開示する音声検索装置の一観点によれば、検索対象の音声データと音響モデルとの類似度を算出して記憶しておき、その類似度を用いて、キーワードを検索する。すなわち、記憶する類似度は、キーワードに依存しないため、キーワードを検索する前に、予め算出し記憶しておくことができる。この結果、キーワードを検索する際の処理量を軽減できるため、より高速なキーワードの検索が可能となる。また、検索精度を高くする類似度を算出する場合、処理量が多くなり、検索速度に影響を及ぼすが、事前に類似度を算出することで、検索速度を低下させることなく、より精度の高いキーワードの検索が可能となる。
実施の形態に係る音声検索装置のハードウェア構成例を示すブロック図である。 音声検索装置が備える機能を示すブロック図である。 特徴量ベクトル列を模式的に示す図である。 基準スコアを模式的に示す図である。 特徴量及び基準スコアを参照するための対応リストを模式的に示す図である。 最良スコアS(Fs)、及び正規化基準スコアSb(Fs)を比較した場合の模式図である。 音声検索装置において実行される処理手順を示すフローチャートである。 音声検索装置において実行される処理手順を示すフローチャートである。 音声検索装置が備える機能を示すブロック図である。 音声検索装置が備える機能を示すブロック図である。 言語別に算出した基準スコアの一例を示す図である。 音声検索装置において実行される処理手順を示すフローチャートである。 音声検索装置において実行される処理手順を示すフローチャートである。 音声検索装置において実行される処理手順を示すフローチャートである。
以下に、本願に開示する音声検索装置、音声検索方法、プログラム及び記録媒体について、各実施形態を示す図面に基づいて詳述する。以下、音声検索装置は、パーソナルコンピュータ(以下、パソコンと言う)として説明するが、Personal Digital Assistant(PDA)又は携帯電話機等であってもよい。
(実施形態1)
図1は、実施の形態に係る音声検索装置のハードウェア構成例を示すブロック図である。
音声検索装置10は、蓄積された音声データから、入力されたキーワードが発音されている音声データを検索する装置である。音声検索装置10は、Central Processing Unit(CPU)1、Read Only Memory(ROM)2、Random Access Memory(RAM)3、ハードディスクドライブ(以下、HDDという)4、出力部5及び入力部6等のハードウェア各部を備える。これらのハードウェア各部はバスを介して相互に接続されている。出力部5は、例えばモニタ又はスピーカ等である。入力部6は、キーボード、マウス、及びマイク等である。
CPU1は、ROM2又はHDD4に予め格納されているプログラムを適宜RAM3に読み出して実行すると共に、上述したハードウェア各部の動作を制御する。ROM2は、音声検索装置10として必要な処理を実行させるためのプログラム2aを予め格納している。なお、プログラム2a及び各種のデータ等は、HDD4に格納されていてもよい。また、プログラム2aは、CD−ROM又はDVD−ROM等の外部の記録媒体7よりHDD4にインストールされ、CPU1により実行される形態でもよい。
RAM3は、例えばStatic RAM(SRAM)、Dynamic RAM(DRAM)、フラッシュメモリ等である。RAM3は、CPU1によるプログラムの実行時に発生する種々のデータを一時的に記憶する。HDD4は大容量の記憶装置である。HDD4は、音声データベース(以下、音声DBと言う)41及び音響モデル42などを格納している。音声DB41は、入力部6のマイクから入力され、検索対象となる音声データを蓄積している。音声DB41は、蓄積された時系列順に音声データに対して音声ID(0001,0002,0003,,,)を付与して管理している。音響モデル42は、音素等の音声認識の最小単位毎に、平均的(標準的)な発音データを基に作られた周波数特性の音響特徴量(以下、特徴量と言う)を示すものであり、HDD4に予め格納される。音響モデル42は、環境独立音素(monophone)、片側環境依存音素(biphone)、又は両側環境依存音素(triphone)の何れが用いられていてもよい。
以下に、音声検索装置10において、CPU1がROM2に格納されているプログラム2aを実行することによって実現される機能について説明する。
図2は音声検索装置10が備える機能を示すブロック図である。
音声検索装置10は、特徴量抽出部11及び特徴量記憶部12の機能を備えている。特徴量抽出部11は、音声DB41の音声データを分析して、時間T(例えば10msec)毎に特徴量を抽出する。以下、特徴量を抽出する時間単位をフレームと言う。特徴量抽出部11は、抽出した特徴量を特徴量記憶部12へ記憶する。このとき、特徴量抽出部11は、抽出した特徴量を特徴量ベクトル列として特徴量記憶部12に記憶する。
図3は、特徴量ベクトル列を模式的に示す図である。特徴量ベクトル列とは、各音声ID(0001,0002,0003,,,)のフレーム毎の特徴量を多次元ベクトル量で表し、それを時系列に並べたものである。各フレームの特徴量には、その特徴量を参照するためのポインタが付され、後述の対応リストにより管理される。
音声検索装置10は、基準スコア算出部13及び基準スコア記憶部14の機能をさらに備えている。基準スコア算出部13は、特徴量記憶部12に記憶された特徴量と、音響モデル42とのマッチング(照合)によって基準スコアを算出し、基準スコア記憶部14へ記憶する。基準スコアは、Hidden Markov Model(HMM)、DPマッチング法、又はニューラルネット等を用いて算出される、特徴量と音響モデル42との類似度を示す値である。基準スコア算出部13は、図3に示す特徴量ベクトル列を、先頭から順にマッチングを行う。基準スコア算出部13が算出した基準スコアは、例えば、音声データに雑音又は曖昧な音声が含まれる場合、音響モデル42と学習した音との相違が大きくなっていくため低くなる。また、音声データが明確に発音された音声である場合、音響モデル42に近い音となるため、基準スコアは高くなる。特徴量抽出部11及び特徴量記憶部12は、所定のタイミング、例えば音声検索装置10の電源が投入された場合に、上述の処理を一度実行する。
図4は、基準スコアを模式的に示す図である。基準スコア記憶部14は、各音声ID(0001,0002,0003,,,)のフレーム毎の基準スコアを時系列に並べて記憶している。各フレームの基準スコアには、その基準スコアを参照するためのポインタが付され、後述の対応リストにより管理される。
特徴量記憶部12及び基準スコア記憶部14に記憶される特徴量及び基準スコアは、対応リストにより管理される。図5は、特徴量及び基準スコアを参照するための対応リストを模式的に示す図である。図5に示す対応リストは、音声IDが開始する位置を示すポインタとフレーム数とを、音声IDに対応付けている。例えば、音声ID「0001」の音声データの特徴量及び基準スコアを参照する場合、図3及び図4のポインタ「1」を参照し、ポインタ「1」のデータから「1127622」個のフレームを参照する。本実施の形態では、図3から図5に示すように、音声ID、フレーム、特徴量、基準スコアの対応関係をリストにより管理しているが、ツリー構造など他のデータ構造でもよい。
音声検索装置10は、キーワード入力部(以下、KW入力部と言う)15、キーワード照合部(以下、KW照合部と言う)16、及び検索結果出力部17の機能を備えている。KW入力部15は、ユーザが検索したいキーワードの読み情報をキーボードなどを用いて、入力部6より入力する。
KW照合部16は、KW入力部15により入力されたキーワードが含まれる区間を、音声DB41内の音声データから検索する。以下の説明では、斯かる検索をキーワード検索と言う。KW照合部16は、音声ID毎にフレーム単位でキーワード検索を行う。例えば、KW照合部16は、音声ID「0001」の音声データの1フレームからキーワード検索のための照合処理を開始し、続けて、2フレーム、3フレームと照合処理を進める。音声ID「0001」の音声データの全フレームについてキーワード検索を行った後、音声ID「0002」、「0003」と全ての音声データに対する検索処理を進める。KW照合部16は、キーワードを含む音声データを検索できた場合には、音声データの音声ID及びフレームを、検索結果出力部17に出力する。検索結果出力部17は、KW照合部16からの出力に基づいて、キーワード検出の結果を出力する。例えば、音声検索装置10のモニタに、検索対象の音声データの記憶場所を表示し、又は、スピーカから音声データを出力する。
以下、KW照合部16が行うキーワード検索の処理について具体的に説明する。
例えば検索するキーワードの読みを「あいち」とした場合、KW照合部16は、キーワードの読みから対応する音素列「a/i/ch/i」を抽出する。KW照合部16は、音声データ中のキーワードの存在を仮定したフレーム区間の特徴量と、音響モデル42内の音素列「a/i/ch/i」に対応するモデルとを照合して、キーワードスコア(以下、KWスコアという)Rを算出する。KWスコアRは、その区間にキーワードが発声されている尤もらしさを表すものであり、例えば、音響モデル42にHMMを用いた場合、ビタビ(Viterbi)アルゴリズムにより算出した尤度を用いることが可能である。以下、キーワードに係る音声データの開始フレームをフレームFsとし、終了フレームをフレームFeとする。また、例えばフレームA及びフレームB間のKWスコアRをKWスコアR(A,B)とする。
なお、日本語のように表音文字である仮名を持つ言語では、読みは表音文字列で入力して、表音文字列から音素列へは既定のルールに従い変換するのが通常である。一方、英語のように表音文字がない場合は、二通りの対応が考えられる。1つ目は、キーワードはスペル入力して、その発音は単語毎の発音辞書を参照して音素列に変換する。2つ目は、キーワードの読みをSAMPA又はIPAなどの音声記号を用いて入力し、音声列を音素列に変換する。ただし、SAMPA、IPAなどの音声記号をそのまま音素記号として採用した場合は、変換が不要となる。
KW照合部16は、キーワードに係る音声データのフレームFs及びフレームFe’(Fe’≦Fe)間のKWスコアR(Fs,Fe’)を算出する。フレームFe’は、初期値として「Fs+1」が与えられ、KW照合部16は、フレームFe’をフレームFeまで順次インクリメントし、その都度、KWスコアR(Fs,Fe’)を算出する。具体的には、KW照合部16は、最初にフレームFs及びフレーム(Fs+1)間のKWスコアRを算出し、次に、フレームFsからフレーム(Fs+2)間のKWスコアRを算出する。
また、KW照合部16は、算出したKWスコアR(Fs,Fe’)を、フレームFs及びフレームFe’間のフレーム数(Fe’−Fs+1)で割ることでフレーム正規化スコアS(Fs,Fe’)を算出する。KW照合部16は、フレームFe’がフレームFeとなるまでフレーム正規化スコアS(Fs,Fe’)を算出した場合、算出したフレーム正規化スコアS(Fs,Fe’)から、フレーム正規化スコアが最良となる区間のS(Fs,Fe’’)を最良スコアS(Fs)とする。
KW照合部16は、例えば音声IDが「0001」の音声データから順に、基準スコア記憶部14から基準スコアを取得する。このとき、KW照合部16は、フレームFs及びフレームFe’’間と同じフレーム数の基準スコアをそれぞれ取得する。例えば、フレームFs=1、及びフレームFe’’=14の場合、KW照合部16は、音声IDが「0001」の音声データの1フレーム目から14フレーム目までのそれぞれの基準スコアを取得する。そして、KW照合部16は、取得した各基準スコアを加算した合計Sa(Fs,Fe’’)を算出する。KW照合部16は、算出した合計Sa(Fs,Fe’’)を、フレーム数(Fe’’−Fs+1)で割って正規化した正規化基準スコアSb(Fs)を算出する。
図6は、最良スコアS(Fs)、及び正規化基準スコアSb(Fs)を比較した場合の模式図である。図6では、キーワード「あいち」とした場合を示しており、横軸は音声データの時間軸とし、縦軸は基準スコア及びKWスコアの値としている。また、図中の実線は基準スコアの軌跡を示し、点線はKWスコアの軌跡を示している。基準スコアは、音響モデル42と音響特徴量との類似度であり、雑音又は曖昧な音声データの場合には低く、明瞭な音声データの場合には高くなるものである。本実施の形態では、基準スコアとして最尤音素系列のスコアを用いる。このため、図6に示すように、基本的にKWスコアは、基準スコアより下となる。
KW照合部16は、それぞれ算出した正規化基準スコアSb(Fs)、及び最良スコアS(Fs)を比較し、二つの差が閾値Tより大きいか否かを判定する。上述のように、基準スコアは最尤音素系列から算出されるような、音響モデルと音響特徴量との類似度であるため、正規化基準スコアSb(Fs)と最良スコアS(Fs)との差Sb(Fs)−S(Fs)が閾値(所定値)Tより小さければ、基準スコアを取得したフレーム間で、キーワードの「あいち」が存在する可能性が高いといえるので、基準スコアを取得したフレーム間で、キーワードの「あいち」の音声データが存在すると判定する。キーワードが存在すると判定した場合、KW照合部16は、音声データの音声ID、及び基準スコア取得したフレーム位置を、検索結果出力部17に出力する。KW照合部は、開始フレームFsをインクリメントしながら、同様の処理を続ける。ただし、キーワードをFsからFe’’の区間で検出した場合、その区間を飛ばして、次のフレームFsの値をFe’’+1とする。
なお、閾値Tは、用いる音響モデル42、算出する特徴量、及びKWスコア等の算出方法によって適宜変更可能である。例えば、音素毎に閾値を決定して記憶しておき、算出に関係する音素に対応する閾値を加算した値を、閾値Tとしてもよい。具体的には、実際に発した音声の音素の特徴量が、基準スコアと一致し易いか、又は一致し難いかという傾向を予備実験により調査して、音素毎に基準値d(x)(xは音素)を設定し、記憶しておく。音素「a」、「i」、「u」の基準値をそれぞれ、d(a)=2、d(i)=4、d(u)=3とした場合、音素「i」が基準スコアと最も一致し難いことになる。そして、キーワード検索時には、KW照合部16が取得したあるフレーム間の基準スコアに対応する音素の基準値d(x)を、それぞれ加算し、閾値Tとする。あるいは、キーワード検索時には、キーワードを構成する音素それぞれに対応する基準値d(x)の和を閾値とする。このように音素によって閾値Tを決定した場合には、より精度の高いキーワード検索が可能となる。
次に、音声検索装置10において実行される処理について説明する。図7及び図8は、音声検索装置10において実行される処理手順を示すフローチャートである。
CPU1は、例えば音声検索装置10の電源が投入された場合、HDD4に格納された音声DB41の音声データを分析して、時間T(例えば10msec)毎に特徴量を抽出し、HDD4等に記憶する(S10)。CPU1は、記憶された特徴量と、HDD4に記憶された音響モデル42とのマッチングによって基準スコアを算出し、HDD4等に記憶する(S11)。基準スコアの算出は、HMM、DPマッチング法、又はニューラルネットなどの何れを用いてもよい。基準スコアを、キーワード検索を行う前に予め算出し、記憶しておくことで、キーワード検索時に行う処理量を軽減し、より高速なキーワード検索を可能にできる。
CPU1は、キーワードが入力されたか否かを判定する(S12)。入力されていない場合(S12:NO)、CPU1は、S30の処理を実行する。キーワードが入力された場合(S12:YES)、CPU1は、入力されたキーワードに対応する音素列を抽出する(S13)。CPU1は、音声IDを「0」とする(S14)。次に、CPU1は、初期値として、開始フレームFsを「0」とし、フレームFe’に「Fs+1」を設定し、フレームFeに音声ID(最初は「0」)の終了フレームの値を設定する(S15)。
次に、CPU1は、キーワードに係る音声データのフレームFs及びフレームFe’間の特徴量と、音響モデル42の特徴量とを照合して、KWスコアR(Fs,Fe’)を算出し(S16)、さらにフレーム正規化スコアS(Fs,Fe’)を算出する(S17)。CPU1は、フレームFe’をインクリメントし(S18)、フレームFe’がフレームFeより大きくなったか否かを判定する(S19)。フレームFe’がフレームFeより大きくなっていない場合(S19:NO)、CPU1は、S16に処理を戻す。フレームFe’がフレームFeより大きくなった場合(S19:YES)、CPU1は、算出したフレーム正規化スコアS(Fs,Fe’)から、最良スコアS(Fs)を抽出する(S20)。
CPU1は、フレームFs及びフレームFe’’間に対応する基準スコアを取得し、各基準スコアを加算した合計Sa(Fs,Fe’’)を算出し、算出したSa(Fs,Fe’’)を、フレームFs及びフレームFe’’間のフレーム数(Fe’’−Fs+1)で割って正規化したSb(Fs)を算出する(S21)。CPU1は、算出したS(Fs)、及びSb(Fs)を比較し、Sb(Fs)−S(Fs)が閾値T未満であるか否かを判定する(S22)。
閾値T未満でない場合(S22:NO)、CPU1は、フレームFs及びフレームFe’’間にキーワードが存在しないと判定し、フレームFsの値をインクリメントし(S25)、S26の処理を実行する。閾値T未満である場合(S22:YES)、CPU1は、フレームFs及びフレームFe’’間にキーワードが存在する可能性が高いと判定し、音声データの音声ID、及びフレームFs、Fe’’等に基づいて、結果を出力する(S23)。出力方法は、例えば音声による出力であってもよいし、ディスプレイ等に画面出力であってもよい。CPU1は、キーワードを検出したフレームFs及びフレームFe’’間の区間を飛ばすため、次のフレームFsとして「Fe’’+1」を設定し(S24)、S26の処理に移る。
CPU1は、開始フレームFsが終了フレームFe未満であるか、すなわち、開始フレームFsが終了フレームFeとなっていないか否かを判定する(S26)。開始フレームFsが終了フレームFe未満である場合(S26:YES)、CPU1は、フレームFe’にFs+1を設定し(S28)、S16の処理に戻り、次の区間に関してKWスコアRを算出する。
開始フレームFsが終了フレームFe未満でない場合(S26:NO)、音声IDの値をインクリメントし(S27)、次の音声IDに対応する音声データがあるか否かを判定する(S29)。音声データがある場合(S29:YES)、CPU1は、S15の処理の戻り、次の音声IDに対し同様の処理を行う。音声データがない場合(S29:NO)、CPU1は、電源がオフされるなど音声検索装置10の起動を終了するか否かを判定する(S30)。終了しない場合(S30:NO)、CPU1は、S12を実行する。終了する場合(S30:YES)、CPU1は、本処理を終了する。
以上説明したように、本実施の形態では、キーワード検索を行う場合、事前に算出した基準スコアとキーワードとを用いて、キーワードの検索を行っている。基準スコアは、キーワードに依存しないため、キーワード検索を開始する前に予め算出しておくことができる。基準スコアを算出する場合、音声DB41の音声データの特徴量を抽出し、全音素モデルを用いた最尤音素系列を探索する必要があるなど、処理量は多い。このため、基準スコアを事前に算出しておくことで、キーワード検索時には、キーワードに係る音素のみを用いてキーワード検索が行える。例えば、上述したようなキーワード「あいち」とした場合、対応する音素列が「a/i/ch/i」となり、キーワード検索には3音素のみを使用すればよく、キーワード検索時の計算量を削減することができる。その結果、音声検索装置10におけるキーワード検索に要する処理をより高速にすることができる。
また、最尤音素系列のスコアとしての基準スコアを基準として、キーワード検索を行うため、背景雑音環境又はユーザの話し方によって変動するキーワードに係る最良スコアS(Fs)だけで検出する場合より、安定して精度良くキーワード検出が行える。
さらに、基本的にKWスコアRは、基準スコアより下となるとしたが、基準スコア及びKWスコアRを異なるモデルで算出する場合、例えば基準スコアをmonophoneのHMMや、音素という単位を持たないGMMで算出し,KWスコアRをtriphoneのHMMを用いて算出する場合、キーワードに係る最良スコアS(Fs)は、基準スコアに係る正規化基準スコアSb(Fs)を上回る場合がある。しかし、本実施の形態では、最良スコアS(Fs)及び正規化基準スコアSb(Fs)の比較(差)によりキーワード検索を行うため、安定したキーワード検索を行える。また、図7及び図8では、キーワードの存在を仮定している区間の開始フレームFs,終端フレームFe’を全探索しているが、適切な枝狩り処理などをいれ、同探索空間を、より小さい処理量で探索するアルゴリズムに変更してもよい。
なお、本実施の形態では、事前に算出及び記憶した基準スコアを用いてキーワード検索を行っているが、音声DB41内にキーワード検索時に該当する基準スコアがない音声データが含まれる場合、キーワード検索時に該当音声データの基準スコアを算出するようにしてもよい。さらに音声DB41に音声データが新たに追加された場合には、その都度、基準スコアを算出するようにしてもよい。また、本実施の形態では、事前に算出した特徴量及び基準スコアをそれぞれ別に記憶しているが、例えば各情報を音声DB41の音声データに追記して記憶するようにしてもよい。
(実施形態2)
以下、実施の形態2について説明する。実施の形態1では、音声検索装置10は、音響モデル42を一つのみ有しているが、本実施の形態では、2つの音響モデルを有している点で相違する。以下、相違点について説明する。
図9は、音声検索装置10が備える機能を示すブロック図である。
本実施の形態に係る音声検索装置10は、実施の形態1と同様の機能を備えており、HDD4には、基準スコア用音響モデル43と、照合用音響モデル44とを有している。基準スコア用音響モデル43は、biphone又はtriphoneが用いられ、基準スコア算出部13が基準スコアを算出する際に参照される。基準スコア用音響モデル43をbiphone又はtriphoneとすることで、基準スコアの精度が向上し、その結果、より高精度のキーワード検索を行える。なお、基準スコアはキーワード検索の前に行うため、基準スコア用音響モデル43にbiphone又はtriphoneを用いた場合であっても、キーワード検索に影響が及ぶことがない。また、基準スコアの精度が向上のために、モデルの持つ混合分布数を増やす等、別の観点での高精細化を行ってもよい。
照合用音響モデル44は、monophoneが用いられ、KW照合部16が、KW入力部15で入力されたKWスコアRを抽出する際に参照される。照合用音響モデル44をmonophoneとすることで、KW照合部16による処理量を抑え、処理時間が長くならないようにすることができる。その結果、キーワード検索の処理速度が低下することを防ぐことができる。リソース的に処理速度が問題ない場合には、照合用音響モデルに、biphone、triphoneなど高精細なモデルを用いてもよい。
なお、本実施の形態に係る音声検索装置10における処理は、実施の形態1と同様であるため説明は省略する。
以上説明したように、本実施の形態では、基準スコアの算出、及び、キーワード検索には、それぞれ異なる音響モデルを用いている。これにより、処理量が多くなってもキーワード検索に影響が及ばない基準スコア用音響モデル43にはbiphone又はtriphone等を用いて、キーワード検索の精度を高くすることができる。また処理速度が要求されるキーワード検索に用いる照合用音響モデル44にはmonophoneを用いて、キーワード検索の処理速度をより高速にすることができる。
(実施形態3)
以下、実施の形態3について説明する。本実施の形態では、日本語と英語の二ヶ国語をキーワード検索の対象としている。以下、相違点について説明する。
図10は、音声検索装置10が備える機能を示すブロック図である。
音声検索装置10は、特徴量抽出部11、特徴量記憶部12、基準スコア記憶部14、KW入力部15、KW照合部16、検索結果出力部17、基準スコア算出部18、基準スコア選択部19、言語判定部20、並びにモデル選択部21などの機能を備えている。また、音声検索装置10は、HDD4に日本語音響モデル45及び英語音響モデル46を格納している。
基準スコア算出部18は、音声DB41の音声データにおいて、言語別に基準スコアを算出する。図11は、言語別に算出した基準スコアの一例を示す図である。図11では、横軸は音声データの時間軸とし、縦軸は基準スコアの値としている。また、図11では、実線は、日本語音響モデル45を用いて算出した基準スコア、点線は、英語音響モデル46を用いて算出した基準スコアの軌跡をそれぞれ示している。図11に示すように、基準スコア算出部18が言語別に基準スコアを算出することで、どのフレーム間において、何れの言語の基準スコアが高い(良い)かを判定することができる。その結果、音声データのフレーム毎に、何れの言語が話されているかを把握することができる。
基準スコア選択部19は、基準スコア算出部18が算出した結果に基づいて、どの区間で、何れの言語の基準スコアが最良であるかを選択し、選択した言語を基準スコアと共に基準スコア記憶部14に記憶する。これにより、どの音声区間で何れの言語が話されているかを記憶することができる。
言語判定部20は、KW入力部15により入力されたキーワードが英語又は日本語かを判定する。言語判定部20は、例えばアルファベットだけであれば英語、漢字又は仮名混じりであれば日本語であると判定する。言語判定部20は、自動で判定するようにしてもよいし、ユーザの選択操作を受け付けて判定するようにしてもよい。モデル選択部21は、言語判定部20の判定結果に従って、日本語音響モデル45又は英語音響モデル46を選択し、使用する音響モデルとする。
KW照合部16は、言語判定部20による判定結果と、基準スコア記憶部14に記憶されている言語とを比較して、言語が一致する区間のみを検索対象とし、モデル選択部21により選択された音響モデルを用いてキーワード検索の処理を行う。KW照合部16が行うキーワード検索の処理は、実施の形態1と同様である。
以下、音声検索装置10において実行される処理について説明する。図12、図13及び図14は、音声検索装置10において実行される処理手順を示すフローチャートである。
CPU1は、例えば音声検索装置10の電源が投入された場合、HDD4に格納された音声DB41の音声データを分析して、時間T(例えば10msec)毎に特徴量を抽出し、HDD4等に記憶する(S40)。CPU1は、記憶された特徴量と、HDD4に記憶された日本語音響モデル45又は英語音響モデル46とのマッチング(照合)によって、言語別に基準スコアを算出する(S41)。CPU1は、基準スコアの算出結果に基づいて、どの区間で、何れの言語の基準スコアが最良であるかを選択し、選択した言語を基準スコアと共にHDD4に記憶する(S42)。
CPU1は、キーワードが入力されたか否かを判定する(S43)。入力されていない場合(S43:NO)、CPU1は、S66の処理を実行する。キーワードが入力された場合(S43:YES)、CPU1は、キーワードが英語又は日本語かを判定し(S44)、判定結果から日本語音響モデル45又は英語音響モデル46を選択し、使用する音響モデルとする(S45)。
次に、CPU1は、入力されたキーワードに対応する音素列を抽出する(S46)。CPU1は、音声IDを「0」とする(S47)。次に、CPU1は、初期値として、開始フレームFsを「0」とし、フレームFe’に「Fs+1」を設定し、フレームFeに音声ID(最初は「0」)の終了フレームの値を設定する(S48)。
次に、CPU1は、フレームFsからフレームFe’の区間に、言語判定結果と、算出し、記憶した基準スコアの言語とが不一致な区間を含むか否かを判定する(S49)。不一致な区間を含む場合(S49:YES)、CPU1は、KWスコアR(Fs,Fe’)、及びフレーム正規化スコアS(Fs,Fe’)をスコアなし、又は既定の最低値に設定する(S50)。これにより、言語が一致しない区間を検索対象外と見做すことができる。その後、CPU1は、フレームFsからフレームFe’の区間の処理を行っても言語が不一致のため、KWスコアR等の値に変化はないことから、フレームFe’の値をフレームFeの値にし(S51)、S56の処理に移る。
一方、S49において、不一致な区間を含まない場合(S49:NO)、CPU1は、キーワードに係る音声データのフレームFs及びフレームFe’間の特徴量と、音響モデル42の特徴量とを照合して、KWスコアR(Fs,Fe’)を算出し(S52)、さらにフレーム正規化スコアS(Fs,Fe’)を算出する(S53)。CPU1は、フレームFe’をインクリメントし(S54)、フレームFe’がフレームFeより大きくなったか否かを判定する(S55)。フレームFe’がフレームFeより大きくなっていない場合(S55:NO)、CPU1は、S52に処理を戻す。フレームFe’がフレームFeより大きくなった場合(S55:YES)、CPU1は、算出したフレーム正規化スコアS(Fs,Fe’)から、最良スコアS(Fs)を抽出する(S56)。
次にCPU1は、フレームFs及びフレームFe’’間に対応する基準スコアを取得し、各基準スコアを加算した合計Sa(Fs,Fe’’)を算出し、算出したSa(Fs,Fe’’)を、フレームFs及びフレームFe’’間のフレーム数(Fe’’−Fs+1)で割って正規化したSb(Fs)を算出する(S57)。CPU1は、算出したS(Fs)、及びSb(Fs)を比較し、Sb(Fs)−S(Fs)が閾値T未満であるか否かを判定する(S58)。
閾値T未満でない場合(S58:NO)、CPU1は、フレームFs及びフレームFe’’間にキーワードが存在しないと判定し、フレームFsの値をインクリメントし(S59)、S62の処理を実行する。閾値T未満である場合(S58:YES)、CPU1は、フレームFs及びフレームFe’’間にキーワードが存在する可能性が高いと判定し、音声データの音声ID、及びフレームFs、Fe’’等に基づいて、結果を出力する(S60)。出力方法は、例えば音声による出力であってもよいし、ディスプレイ等に画面出力であってもよい。CPU1は、キーワードを検出したフレームFs及びフレームFe’’間の区間を飛ばすため、次のフレームFsとして「Fe’’+1」を設定し(S61)、S62の処理に移る。
CPU1は、開始フレームFsが終了フレームFe未満であるか、すなわち、開始フレームFsが終了フレームFeとなっていないか否かを判定する(S62)。開始フレームFsが終了フレームFe未満である場合(S62:YES)、CPU1は、フレームFe’にFs+1を設定し(S64)、S49の処理に戻り、次の区間に関して同様の処理を行う。
開始フレームFsが終了フレームFe未満でない場合(S62:NO)、音声IDの値をインクリメントし(S63)、次の音声IDに対応する音声データがあるか否かを判定する(S65)。音声データがある場合(S65:YES)、CPU1は、S48の処理の戻り、次の音声IDに対し同様の処理を行う。音声データがない場合(S65:NO)、CPU1は、電源がオフされるなど音声検索装置10の起動を終了するか否かを判定する(S66)。終了しない場合(S66:NO)、CPU1は、S43を実行する。終了する場合(S66:YES)、CPU1は、本処理を終了する。
以上説明したように、本実施の形態では、複数言語に対応していても、キーワード検索時には1言語の音響モデルだけを用いて、該当言語が話されている区間だけを対象にしてキーワード検索の処理を行う。複数の音響モデルを用いたキーワード検索を行うことで、高速かつ高精度にキーワード検索を行える。
なお、本実施の形態では、日本語と英語の二ヶ国語をキーワード検索の対象として説明したが、言語の種類及び言語の数は特に限定されない。また、記憶する基準スコアは、必ずしも1言語である必要はなく、上位複数(Nベスト)の基準スコアを選択し、記憶するようにしてもよい。この場合、言語判定部20による判定結果と、基準スコア記憶部14に記憶されている複数言語の何れか一致する区間で、KWスコアR(Fs,Fe’)を算出し、さらにフレーム正規化スコアS(Fs,Fe’)を算出する。これにより、検索対象となる音声区間の選択肢が広がり、音声データが発声しているであろう言語の判定誤りの確率を低減できるので、より精度の高いキーワード検索を行うことができる。さらに、実施の形態2と同様に、基準スコアの算出に用いる音響モデルと、キーワード検索時に用いる音響モデルとは、異なる音響モデルとしてもよい。
以上、本発明の実施の形態について、具体的に説明したが、各構成及び動作等は適宜変更可能であって、上述の実施形態に限定されることはない。
以下に、上述の実施形態を含む実施形態に関し、更に付記を開示する。
(付記1)
複数の音声データを蓄積する蓄積手段と、
認識単位毎の音響特徴量空間での特性を保持している音響モデル記憶手段と、
前記蓄積手段に蓄積された音声データから音響特徴量を抽出する抽出手段と、
該抽出手段が抽出した音響特徴量を記憶する音響特徴量記憶手段と、
該音響特徴量記憶手段に記憶された音響特徴量と、前記音響モデルとの類似度を算出する第1算出手段と、
該第1算出手段が算出した類似度を記憶する類似度記憶手段と、
キーワードを受け付ける手段と、
キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第2算出手段と、
該第2算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段と
を備える音声検索装置。
(付記2)
前記抽出手段は、
音声データを所定時間Tで区切り、前記時間T毎に音声データの音響特徴量を抽出し、
前記第1算出手段は、
時間T毎に類似度を算出し、
前記類似度記憶手段は、
前記第1算出手段が算出した類似度を時間T毎に記憶し、
前記検索手段は、
前記第2算出手段が算出した類似度を、前記類似度記憶手段に記憶した類似度と時間T単位で対比して、音声データを検索するようにしてある
付記1に記載の音声検索装置。
(付記3)
前記音響モデル記憶手段は、
複数の音響モデルを記憶しており、
前記第1及び第2算出手段は、
それぞれ異なる音響モデルを用いるようにしてある
付記1又は2に記載の音声検索装置。
(付記4)
受け付けたキーワードの言語を判定する言語判定手段
をさらに備えており、
前記蓄積手段は、
複数の言語を含む音声データを蓄積し、
前記音響モデル記憶手段は、
複数の言語それぞれに対応する音響モデルを記憶し、
前記抽出手段は、
言語毎に音声データの音響特徴量を抽出し、
前記第1算出手段は、
各音響モデルを用いて、前記音声データに係る類似度を言語毎に算出し、
前記類似度記憶手段は、
前記第1算出手段が言語毎に算出した類似度のなかで、上位N(N≧1)番目までに高い類似度を記憶し、
前記検索手段は、
前記類似度記憶手段に記憶され、前記言語判定手段が判定した言語に対応する類似度を用いて検索するようにしてある
付記1から3の何れか一つに記載の音声検索装置。
(付記5)
前記検索手段は、
前記第2算出手段が算出したキーワードのスコアと、音声データの任意の区間における前記類似度記憶手段に記憶された類似度の総和との差が所定値以下又は未満となる場合に、前記区間をキーワード存在区間として検索するようにしてある
付記1から4の何れか一つに記載の音声検索装置。
(付記6)
記憶された類似度に係る音素に応じて、前記所定値を調整する手段
をさらに備える付記5に記載の音声検索装置。
(付記7)
前記第2算出手段が算出した類似度に係る音素に応じて、前記所定値を調整する手段
をさらに備える付記5又は6に記載の音声検索装置。
(付記8)
前記抽出手段は、
新たな音声データが前記蓄積手段に蓄積される都度、新たに蓄積された音声データから音響特徴量を抽出するようにしてある
付記1から7の何れか一つに記載の音声検索装置。
(付記9)
前記検索手段が検索する場合、前記抽出手段が音響特徴量を抽出していない音声データが前記蓄積手段に蓄積されているか否かを判定する手段と、
蓄積されていないと判定した場合、前記抽出手段に音響特徴量の抽出を要求する手段と
をさらに備える付記1から8の何れか一つに記載の音声検索装置。
(付記10)
記憶された認識単位毎の音響特徴量空間での特性を保持している音響モデルを用いて、蓄積された音声データから、受け付けたキーワードを含む音声データを検索する音声検索方法において、
蓄積された音声データから音響特徴量を抽出し、
抽出した音響特徴量を記憶し、
記憶した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出し、
算出した類似度を記憶し、
キーワードを受け付け、
キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出し、
算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する
音声検索方法。
(付記11)
音声データを蓄積しており、認識単位毎の音響特徴量空間での特性を保持している音響モデルを記憶しているコンピュータで実行させるプログラムにおいて、
コンピュータを、
蓄積された音声データから音響特徴量を抽出する手段、
抽出した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出する第1算出手段、
受け付けたキーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第2算出手段、及び、
該第2算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段
として機能させるプログラム。
(付記12)
付記11に記載のプログラムが記録されており、コンピュータでの読取り可能な記録媒体。
10 音声検索装置
11 特徴量抽出部(抽出手段)
12 特徴量記憶部
13 基準スコア算出部(第1算出手段)
14 基準スコア記憶部(類似度記憶手段)
15 KW入力部
16 KW照合部(第2算出手段、検索手段)
17 検索結果出力部
41 音声DB
42 音響モデル

Claims (7)

  1. 複数の音声データを蓄積する蓄積手段と、
    認識単位毎の音響特徴量空間での特性を保持している音響モデル記憶手段と、
    前記蓄積手段に蓄積された音声データから音響特徴量を抽出する抽出手段と、
    該抽出手段が抽出した音響特徴量を記憶する音響特徴量記憶手段と、
    該音響特徴量記憶手段に記憶された音響特徴量と、前記音響モデルとの類似度を算出する第1算出手段と、
    該第1算出手段が算出した類似度を記憶する類似度記憶手段と、
    キーワードを受け付ける手段と、
    キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第2算出手段と、
    該第2算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段と
    を備える音声検索装置。
  2. 前記音響モデル記憶手段は、
    複数の音響モデルを記憶しており、
    前記第1及び第2算出手段は、
    それぞれ異なる音響モデルを用いるようにしてある
    請求項1に記載の音声検索装置。
  3. 受け付けたキーワードの言語を判定する言語判定手段
    をさらに備えており、
    前記蓄積手段は、
    複数の言語を含む音声データを蓄積し、
    前記音響モデル記憶手段は、
    複数の言語それぞれに対応する音響モデルを記憶し、
    前記抽出手段は、
    言語毎に音声データの音響特徴量を抽出し、
    前記第1算出手段は、
    各音響モデルを用いて、前記音声データに係る類似度を言語毎に算出し、
    前記類似度記憶手段は、
    前記第1算出手段が言語毎に算出した類似度のなかで、上位N(N≧1)番目までに高い類似度を記憶し、
    前記検索手段は、
    前記類似度記憶手段に記憶され、前記言語判定手段が判定した言語に対応する類似度を用いて検索するようにしてある
    請求項1又は2に記載の音声検索装置。
  4. 前記検索手段は、
    前記第2算出手段が算出したキーワードのスコアと、音声データの任意の区間における前記類似度記憶手段に記憶された類似度の総和との差が所定値以下又は未満となる場合に、前記区間をキーワード存在区間として検索するようにしてある
    請求項1から3の何れか一つに記載の音声検索装置。
  5. 記憶された認識単位毎の音響特徴量空間での特性を保持している音響モデルを用いて、蓄積された音声データから、受け付けたキーワードを含む音声データを検索する音声検索方法において、
    蓄積された音声データから音響特徴量を抽出し、
    抽出した音響特徴量を記憶し、
    記憶した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出し、
    算出した類似度を記憶し、
    キーワードを受け付け、
    キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出し、
    算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する
    音声検索方法。
  6. 音声データを蓄積しており、認識単位毎の音響特徴量空間での特性を保持している音響モデルを記憶しているコンピュータで実行させるプログラムにおいて、
    コンピュータを、
    蓄積された音声データから音響特徴量を抽出する手段、
    抽出した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出する第1算出手段、
    受け付けたキーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第2算出手段、及び、
    該第2算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段
    として機能させるプログラム。
  7. 請求項6に記載のプログラムが記録されており、コンピュータでの読取り可能な記録媒体。
JP2010048179A 2010-03-04 2010-03-04 音声検索装置、音声検索方法、プログラム及び記録媒体 Expired - Fee Related JP5533042B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010048179A JP5533042B2 (ja) 2010-03-04 2010-03-04 音声検索装置、音声検索方法、プログラム及び記録媒体
US13/039,495 US8731926B2 (en) 2010-03-04 2011-03-03 Spoken term detection apparatus, method, program, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010048179A JP5533042B2 (ja) 2010-03-04 2010-03-04 音声検索装置、音声検索方法、プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP2011185997A true JP2011185997A (ja) 2011-09-22
JP5533042B2 JP5533042B2 (ja) 2014-06-25

Family

ID=44532073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010048179A Expired - Fee Related JP5533042B2 (ja) 2010-03-04 2010-03-04 音声検索装置、音声検索方法、プログラム及び記録媒体

Country Status (2)

Country Link
US (1) US8731926B2 (ja)
JP (1) JP5533042B2 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015075789A1 (ja) * 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
JP2015169698A (ja) * 2014-03-05 2015-09-28 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP2016119000A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP2016118999A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
US20160284345A1 (en) 2013-11-06 2016-09-29 Systran International Co., Ltd. System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content
JP2017021196A (ja) * 2015-07-10 2017-01-26 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP2017097162A (ja) * 2015-11-24 2017-06-01 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
KR20190139774A (ko) * 2018-06-08 2019-12-18 성신여자대학교 연구 산학협력단 음향 데이터 탐색 방법 및 장치
JP2021015137A (ja) * 2019-07-10 2021-02-12 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US20150206539A1 (en) * 2013-06-04 2015-07-23 Ims Solutions, Inc. Enhanced human machine interface through hybrid word recognition and dynamic speech synthesis tuning
US9177547B2 (en) * 2013-06-25 2015-11-03 The Johns Hopkins University System and method for processing speech to identify keywords or other information
US9508345B1 (en) 2013-09-24 2016-11-29 Knowles Electronics, Llc Continuous voice sensing
US9953634B1 (en) 2013-12-17 2018-04-24 Knowles Electronics, Llc Passive training for automatic speech recognition
US9899021B1 (en) * 2013-12-20 2018-02-20 Amazon Technologies, Inc. Stochastic modeling of user interactions with a detection system
US9437188B1 (en) 2014-03-28 2016-09-06 Knowles Electronics, Llc Buffered reprocessing for multi-microphone automatic speech recognition assist
US10045140B2 (en) 2015-01-07 2018-08-07 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
US9875743B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Acoustic signature building for a speaker from multiple sessions
US11721329B2 (en) * 2017-09-11 2023-08-08 Indian Institute Of Technology, Delhi Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
CN107886968B (zh) * 2017-12-28 2021-08-24 广州讯飞易听说网络科技有限公司 语音评测方法及系统
CN114596840B (zh) * 2022-03-04 2024-06-18 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
JP2002221984A (ja) * 2001-01-25 2002-08-09 National Institute Of Advanced Industrial & Technology 異種環境音声データの音声検索方法及び装置

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5218668A (en) * 1984-09-28 1993-06-08 Itt Corporation Keyword recognition system and method using template concantenation model
JP2964518B2 (ja) * 1990-01-30 1999-10-18 日本電気株式会社 音声制御方式
JP2808906B2 (ja) 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
JPH05334861A (ja) 1992-06-03 1993-12-17 Japan Radio Co Ltd 音声検索装置
JPH06175698A (ja) 1992-12-09 1994-06-24 Ricoh Co Ltd 音声検索装置
US5566272A (en) * 1993-10-27 1996-10-15 Lucent Technologies Inc. Automatic speech recognition (ASR) processing using confidence measures
TW323364B (ja) * 1993-11-24 1997-12-21 At & T Corp
US5625748A (en) * 1994-04-18 1997-04-29 Bbn Corporation Topic discriminator using posterior probability or confidence scores
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5842163A (en) * 1995-06-21 1998-11-24 Sri International Method and apparatus for computing likelihood and hypothesizing keyword appearance in speech
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5774858A (en) * 1995-10-23 1998-06-30 Taubkin; Vladimir L. Speech analysis method of protecting a vehicle from unauthorized accessing and controlling
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
WO1999016051A1 (en) * 1997-09-24 1999-04-01 Lernout & Hauspie Speech Products N.V Apparatus and method for distinguishing similar-sounding utterances in speech recognition
US6233555B1 (en) * 1997-11-25 2001-05-15 At&T Corporation Method and apparatus for speaker identification using mixture discriminant analysis to develop speaker models
JPH11202890A (ja) 1998-01-20 1999-07-30 Ricoh Co Ltd 音声検索装置
US6321195B1 (en) * 1998-04-28 2001-11-20 Lg Electronics Inc. Speech recognition method
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
US6571210B2 (en) * 1998-11-13 2003-05-27 Microsoft Corporation Confidence measure system using a near-miss pattern
US6230129B1 (en) * 1998-11-25 2001-05-08 Matsushita Electric Industrial Co., Ltd. Segment-based similarity method for low complexity speech recognizer
JP2000259645A (ja) 1999-03-05 2000-09-22 Fuji Xerox Co Ltd 音声処理装置及び音声データ検索装置
US6434520B1 (en) * 1999-04-16 2002-08-13 International Business Machines Corporation System and method for indexing and querying audio archives
US6434521B1 (en) * 1999-06-24 2002-08-13 Speechworks International, Inc. Automatically determining words for updating in a pronunciation dictionary in a speech recognition system
US8060906B2 (en) * 2001-04-06 2011-11-15 At&T Intellectual Property Ii, L.P. Method and apparatus for interactively retrieving content related to previous query results
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
JP2003036093A (ja) * 2001-07-23 2003-02-07 Japan Science & Technology Corp 音声入力検索システム
TWI223791B (en) * 2003-04-14 2004-11-11 Ind Tech Res Inst Method and system for utterance verification
TWI220511B (en) * 2003-09-12 2004-08-21 Ind Tech Res Inst An automatic speech segmentation and verification system and its method
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
KR100679044B1 (ko) * 2005-03-07 2007-02-06 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
US7957972B2 (en) * 2006-09-05 2011-06-07 Fortemedia, Inc. Voice recognition system and method thereof
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
JP4973731B2 (ja) * 2007-07-09 2012-07-11 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
US8831946B2 (en) * 2007-07-23 2014-09-09 Nuance Communications, Inc. Method and system of indexing speech data
US8209171B2 (en) * 2007-08-07 2012-06-26 Aurix Limited Methods and apparatus relating to searching of spoken audio data
US8311828B2 (en) * 2007-08-28 2012-11-13 Nexidia Inc. Keyword spotting using a phoneme-sequence index
EP2058800B1 (en) * 2007-10-24 2010-09-01 Harman Becker Automotive Systems GmbH Method and system for recognizing speech for searching a database
JP5098613B2 (ja) * 2007-12-10 2012-12-12 富士通株式会社 音声認識装置及びコンピュータプログラム
JP5440177B2 (ja) * 2007-12-21 2014-03-12 日本電気株式会社 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11282857A (ja) * 1998-03-27 1999-10-15 Animo:Kk 音声検索装置および記録媒体
JP2002221984A (ja) * 2001-01-25 2002-08-09 National Institute Of Advanced Industrial & Technology 異種環境音声データの音声検索方法及び装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160284345A1 (en) 2013-11-06 2016-09-29 Systran International Co., Ltd. System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content
US10304441B2 (en) 2013-11-06 2019-05-28 Systran International Co., Ltd. System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content
JP2016539364A (ja) * 2013-11-06 2016-12-15 シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. 録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法
JP6080978B2 (ja) * 2013-11-20 2017-02-15 三菱電機株式会社 音声認識装置および音声認識方法
WO2015075789A1 (ja) * 2013-11-20 2015-05-28 三菱電機株式会社 音声認識装置および音声認識方法
JPWO2015075789A1 (ja) * 2013-11-20 2017-03-16 三菱電機株式会社 音声認識装置および音声認識方法
US9711136B2 (en) 2013-11-20 2017-07-18 Mitsubishi Electric Corporation Speech recognition device and speech recognition method
JP2015169698A (ja) * 2014-03-05 2015-09-28 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
JP2016119000A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP2016118999A (ja) * 2014-12-22 2016-06-30 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP2017021196A (ja) * 2015-07-10 2017-01-26 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP2017097162A (ja) * 2015-11-24 2017-06-01 富士通株式会社 キーワード検出装置、キーワード検出方法及びキーワード検出用コンピュータプログラム
KR20190139774A (ko) * 2018-06-08 2019-12-18 성신여자대학교 연구 산학협력단 음향 데이터 탐색 방법 및 장치
KR102185784B1 (ko) * 2018-06-08 2020-12-02 성신여자대학교 연구 산학협력단 음향 데이터 탐색 방법 및 장치
JP2021015137A (ja) * 2019-07-10 2021-02-12 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法
JP7278161B2 (ja) 2019-07-10 2023-05-19 三菱電機株式会社 情報処理装置、プログラム及び情報処理方法

Also Published As

Publication number Publication date
JP5533042B2 (ja) 2014-06-25
US8731926B2 (en) 2014-05-20
US20110218805A1 (en) 2011-09-08

Similar Documents

Publication Publication Date Title
JP5533042B2 (ja) 音声検索装置、音声検索方法、プログラム及び記録媒体
CN105723449B (zh) 言语内容分析系统和言语内容分析方法
US9466289B2 (en) Keyword detection with international phonetic alphabet by foreground model and background model
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
US8380505B2 (en) System for recognizing speech for searching a database
US10019514B2 (en) System and method for phonetic search over speech recordings
US20070094007A1 (en) Conversation controller
JP2005010691A (ja) 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JPWO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
Lugosch et al. Donut: Ctc-based query-by-example keyword spotting
EP2545547A1 (en) Fast partial pattern matching system and method
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JPWO2010050414A1 (ja) モデル適応装置、その方法及びそのプログラム
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP2010164918A (ja) 音声翻訳装置、および方法
JP5004863B2 (ja) 音声検索装置および音声検索方法
JP2011007862A (ja) 音声認識装置、音声認識プログラム、および音声認識方法
Norouzian et al. An approach for efficient open vocabulary spoken term detection
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
JP2015118354A (ja) 音声認識装置および音声認識方法
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131003

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140401

R150 Certificate of patent or registration of utility model

Ref document number: 5533042

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414

LAPS Cancellation because of no payment of annual fees