JP2011185997A

JP2011185997A - 音声検索装置、音声検索方法、プログラム及び記録媒体

Info

Publication number: JP2011185997A
Application number: JP2010048179A
Authority: JP
Inventors: Nobuyuki Washio; 信之鷲尾; Masaharu Harada; 将治原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-03-04
Filing date: 2010-03-04
Publication date: 2011-09-22
Anticipated expiration: 2030-03-04
Also published as: JP5533042B2; US8731926B2; US20110218805A1

Abstract

【課題】高速、かつ精度よく音声を検索することができる音声検索装置、音声検索方法、プログラム及び記録媒体を提供する。
【解決手段】蓄積された音声データの特徴量と、音響モデルとから基準スコアを予め算出し、記憶する。キーワードを受け付けた場合、キーワードに係る音声データの特徴量を抽出し、その特徴量と音響モデルとからＫＷスコアＲを算出する。算出したＫＷスコアＲと、予め算出し、記憶した基準スコアに基づいて、蓄積された音声データから、キーワードを含む音声データを検索する。
【選択図】図２

Description

本発明は、蓄積された音声データからキーワードが発音されている音声データを検索する音声検索装置、音声検索方法、プログラム及び記録媒体に関する。

ビデオ、音声メール又は留守番電話等、記録された音声データから、キーワードが発音されている箇所を検索する音声検索技術がある。斯かる技術において、音声データに長時間の音声が記録されている場合であっても、短時間で、精度よく目的の箇所を検索することが重要となる。そこで、検索対象となる音声データを、予め音響モデルを用いて音素系列に変換して保存し、音声によるキーワード検出時には、キーワードを音素系列に変換し、検索対象の音素系列とのDynamic Programming（ＤＰ）マッチングにより比較して、キーワードに対応する音声データを検出する方法がある（特許文献１参照）。

特開２００２−２２１９８４号公報

しかしながら、特許文献１のように、予め音響モデルを用いて音素系列に変換する場合、一旦、最尤音素系列など認識単位符号列にまで落とし込むために情報の縮退が起こり、一部分の認識ミスにより誤検出あるいは検出漏れなどが発生し易く、精度のよい検索が行えないといった問題が生じる。また、より多くの音素について定めた音響モデルを用いた場合、処理量が膨大となり、検索時間に時間を要するといった問題も生じる。

本発明はかかる事情に鑑みてなされたものであり、その目的とするところは、高速、かつ精度よく音声を検索することができる音声検索装置、音声検索方法、プログラム及び記録媒体を提供することにある。

本願に開示する音声検索装置は、複数の音声データを蓄積する蓄積手段と、認識単位毎の音響特徴量空間での特性を保持している音響モデル記憶手段と、前記蓄積手段に蓄積された音声データから音響特徴量を抽出する抽出手段と、該抽出手段が抽出した音響特徴量を記憶する音響特徴量記憶手段と、該音響特徴量記憶手段に記憶された音響特徴量と、前記音響モデルとの類似度を算出する第１算出手段と、該第１算出手段が算出した類似度を記憶する類似度記憶手段と、キーワードを受け付ける手段と、キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第２算出手段と、該第２算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段とを備える。

本願に開示する音声検索装置の一観点によれば、検索対象の音声データと音響モデルとの類似度を算出して記憶しておき、その類似度を用いて、キーワードを検索する。すなわち、記憶する類似度は、キーワードに依存しないため、キーワードを検索する前に、予め算出し記憶しておくことができる。この結果、キーワードを検索する際の処理量を軽減できるため、より高速なキーワードの検索が可能となる。また、検索精度を高くする類似度を算出する場合、処理量が多くなり、検索速度に影響を及ぼすが、事前に類似度を算出することで、検索速度を低下させることなく、より精度の高いキーワードの検索が可能となる。

実施の形態に係る音声検索装置のハードウェア構成例を示すブロック図である。音声検索装置が備える機能を示すブロック図である。特徴量ベクトル列を模式的に示す図である。基準スコアを模式的に示す図である。特徴量及び基準スコアを参照するための対応リストを模式的に示す図である。最良スコアＳ（Ｆｓ）、及び正規化基準スコアＳｂ（Ｆｓ）を比較した場合の模式図である。音声検索装置において実行される処理手順を示すフローチャートである。音声検索装置において実行される処理手順を示すフローチャートである。音声検索装置が備える機能を示すブロック図である。音声検索装置が備える機能を示すブロック図である。言語別に算出した基準スコアの一例を示す図である。音声検索装置において実行される処理手順を示すフローチャートである。音声検索装置において実行される処理手順を示すフローチャートである。音声検索装置において実行される処理手順を示すフローチャートである。

以下に、本願に開示する音声検索装置、音声検索方法、プログラム及び記録媒体について、各実施形態を示す図面に基づいて詳述する。以下、音声検索装置は、パーソナルコンピュータ（以下、パソコンと言う）として説明するが、Personal Digital Assistant（ＰＤＡ）又は携帯電話機等であってもよい。

（実施形態１）
図１は、実施の形態に係る音声検索装置のハードウェア構成例を示すブロック図である。

音声検索装置１０は、蓄積された音声データから、入力されたキーワードが発音されている音声データを検索する装置である。音声検索装置１０は、Central Processing Unit（ＣＰＵ）１、Read Only Memory（ＲＯＭ）２、Random Access Memory（ＲＡＭ）３、ハードディスクドライブ（以下、ＨＤＤという）４、出力部５及び入力部６等のハードウェア各部を備える。これらのハードウェア各部はバスを介して相互に接続されている。出力部５は、例えばモニタ又はスピーカ等である。入力部６は、キーボード、マウス、及びマイク等である。

ＣＰＵ１は、ＲＯＭ２又はＨＤＤ４に予め格納されているプログラムを適宜ＲＡＭ３に読み出して実行すると共に、上述したハードウェア各部の動作を制御する。ＲＯＭ２は、音声検索装置１０として必要な処理を実行させるためのプログラム２ａを予め格納している。なお、プログラム２ａ及び各種のデータ等は、ＨＤＤ４に格納されていてもよい。また、プログラム２ａは、ＣＤ−ＲＯＭ又はＤＶＤ−ＲＯＭ等の外部の記録媒体７よりＨＤＤ４にインストールされ、ＣＰＵ１により実行される形態でもよい。

ＲＡＭ３は、例えばStatic ＲＡＭ（ＳＲＡＭ）、Dynamic ＲＡＭ（ＤＲＡＭ）、フラッシュメモリ等である。ＲＡＭ３は、ＣＰＵ１によるプログラムの実行時に発生する種々のデータを一時的に記憶する。ＨＤＤ４は大容量の記憶装置である。ＨＤＤ４は、音声データベース（以下、音声ＤＢと言う）４１及び音響モデル４２などを格納している。音声ＤＢ４１は、入力部６のマイクから入力され、検索対象となる音声データを蓄積している。音声ＤＢ４１は、蓄積された時系列順に音声データに対して音声ＩＤ（０００１，０００２，０００３，，，）を付与して管理している。音響モデル４２は、音素等の音声認識の最小単位毎に、平均的（標準的）な発音データを基に作られた周波数特性の音響特徴量（以下、特徴量と言う）を示すものであり、ＨＤＤ４に予め格納される。音響モデル４２は、環境独立音素（monophone）、片側環境依存音素（biphone）、又は両側環境依存音素（triphone）の何れが用いられていてもよい。

以下に、音声検索装置１０において、ＣＰＵ１がＲＯＭ２に格納されているプログラム２ａを実行することによって実現される機能について説明する。

図２は音声検索装置１０が備える機能を示すブロック図である。

音声検索装置１０は、特徴量抽出部１１及び特徴量記憶部１２の機能を備えている。特徴量抽出部１１は、音声ＤＢ４１の音声データを分析して、時間Ｔ（例えば１０msec）毎に特徴量を抽出する。以下、特徴量を抽出する時間単位をフレームと言う。特徴量抽出部１１は、抽出した特徴量を特徴量記憶部１２へ記憶する。このとき、特徴量抽出部１１は、抽出した特徴量を特徴量ベクトル列として特徴量記憶部１２に記憶する。

図３は、特徴量ベクトル列を模式的に示す図である。特徴量ベクトル列とは、各音声ＩＤ（０００１，０００２，０００３，，，）のフレーム毎の特徴量を多次元ベクトル量で表し、それを時系列に並べたものである。各フレームの特徴量には、その特徴量を参照するためのポインタが付され、後述の対応リストにより管理される。

音声検索装置１０は、基準スコア算出部１３及び基準スコア記憶部１４の機能をさらに備えている。基準スコア算出部１３は、特徴量記憶部１２に記憶された特徴量と、音響モデル４２とのマッチング（照合）によって基準スコアを算出し、基準スコア記憶部１４へ記憶する。基準スコアは、Hidden Markov Model(ＨＭＭ)、ＤＰマッチング法、又はニューラルネット等を用いて算出される、特徴量と音響モデル４２との類似度を示す値である。基準スコア算出部１３は、図３に示す特徴量ベクトル列を、先頭から順にマッチングを行う。基準スコア算出部１３が算出した基準スコアは、例えば、音声データに雑音又は曖昧な音声が含まれる場合、音響モデル４２と学習した音との相違が大きくなっていくため低くなる。また、音声データが明確に発音された音声である場合、音響モデル４２に近い音となるため、基準スコアは高くなる。特徴量抽出部１１及び特徴量記憶部１２は、所定のタイミング、例えば音声検索装置１０の電源が投入された場合に、上述の処理を一度実行する。

図４は、基準スコアを模式的に示す図である。基準スコア記憶部１４は、各音声ＩＤ（０００１，０００２，０００３，，，）のフレーム毎の基準スコアを時系列に並べて記憶している。各フレームの基準スコアには、その基準スコアを参照するためのポインタが付され、後述の対応リストにより管理される。

特徴量記憶部１２及び基準スコア記憶部１４に記憶される特徴量及び基準スコアは、対応リストにより管理される。図５は、特徴量及び基準スコアを参照するための対応リストを模式的に示す図である。図５に示す対応リストは、音声ＩＤが開始する位置を示すポインタとフレーム数とを、音声ＩＤに対応付けている。例えば、音声ＩＤ「０００１」の音声データの特徴量及び基準スコアを参照する場合、図３及び図４のポインタ「１」を参照し、ポインタ「１」のデータから「１１２７６２２」個のフレームを参照する。本実施の形態では、図３から図５に示すように、音声ＩＤ、フレーム、特徴量、基準スコアの対応関係をリストにより管理しているが、ツリー構造など他のデータ構造でもよい。

音声検索装置１０は、キーワード入力部（以下、ＫＷ入力部と言う）１５、キーワード照合部（以下、ＫＷ照合部と言う）１６、及び検索結果出力部１７の機能を備えている。ＫＷ入力部１５は、ユーザが検索したいキーワードの読み情報をキーボードなどを用いて、入力部６より入力する。

ＫＷ照合部１６は、ＫＷ入力部１５により入力されたキーワードが含まれる区間を、音声ＤＢ４１内の音声データから検索する。以下の説明では、斯かる検索をキーワード検索と言う。ＫＷ照合部１６は、音声ＩＤ毎にフレーム単位でキーワード検索を行う。例えば、ＫＷ照合部１６は、音声ＩＤ「０００１」の音声データの１フレームからキーワード検索のための照合処理を開始し、続けて、２フレーム、３フレームと照合処理を進める。音声ＩＤ「０００１」の音声データの全フレームについてキーワード検索を行った後、音声ＩＤ「０００２」、「０００３」と全ての音声データに対する検索処理を進める。ＫＷ照合部１６は、キーワードを含む音声データを検索できた場合には、音声データの音声ＩＤ及びフレームを、検索結果出力部１７に出力する。検索結果出力部１７は、ＫＷ照合部１６からの出力に基づいて、キーワード検出の結果を出力する。例えば、音声検索装置１０のモニタに、検索対象の音声データの記憶場所を表示し、又は、スピーカから音声データを出力する。

以下、ＫＷ照合部１６が行うキーワード検索の処理について具体的に説明する。

例えば検索するキーワードの読みを「あいち」とした場合、ＫＷ照合部１６は、キーワードの読みから対応する音素列「ａ／ｉ／ｃｈ／ｉ」を抽出する。ＫＷ照合部１６は、音声データ中のキーワードの存在を仮定したフレーム区間の特徴量と、音響モデル４２内の音素列「ａ／ｉ／ｃｈ／ｉ」に対応するモデルとを照合して、キーワードスコア（以下、ＫＷスコアという）Ｒを算出する。ＫＷスコアＲは、その区間にキーワードが発声されている尤もらしさを表すものであり、例えば、音響モデル４２にＨＭＭを用いた場合、ビタビ(Viterbi)アルゴリズムにより算出した尤度を用いることが可能である。以下、キーワードに係る音声データの開始フレームをフレームＦｓとし、終了フレームをフレームＦｅとする。また、例えばフレームＡ及びフレームＢ間のＫＷスコアＲをＫＷスコアＲ（Ａ，Ｂ）とする。

なお、日本語のように表音文字である仮名を持つ言語では、読みは表音文字列で入力して、表音文字列から音素列へは既定のルールに従い変換するのが通常である。一方、英語のように表音文字がない場合は、二通りの対応が考えられる。１つ目は、キーワードはスペル入力して、その発音は単語毎の発音辞書を参照して音素列に変換する。２つ目は、キーワードの読みをＳＡＭＰＡ又はＩＰＡなどの音声記号を用いて入力し、音声列を音素列に変換する。ただし、ＳＡＭＰＡ、ＩＰＡなどの音声記号をそのまま音素記号として採用した場合は、変換が不要となる。

ＫＷ照合部１６は、キーワードに係る音声データのフレームＦｓ及びフレームＦｅ’（Ｆｅ’≦Ｆｅ）間のＫＷスコアＲ（Ｆｓ，Ｆｅ’）を算出する。フレームＦｅ’は、初期値として「Ｆｓ＋１」が与えられ、ＫＷ照合部１６は、フレームＦｅ’をフレームＦｅまで順次インクリメントし、その都度、ＫＷスコアＲ（Ｆｓ，Ｆｅ’）を算出する。具体的には、ＫＷ照合部１６は、最初にフレームＦｓ及びフレーム（Ｆｓ＋１）間のＫＷスコアＲを算出し、次に、フレームＦｓからフレーム（Ｆｓ＋２）間のＫＷスコアＲを算出する。

また、ＫＷ照合部１６は、算出したＫＷスコアＲ（Ｆｓ，Ｆｅ’）を、フレームＦｓ及びフレームＦｅ’間のフレーム数（Ｆｅ’−Ｆｓ＋１）で割ることでフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）を算出する。ＫＷ照合部１６は、フレームＦｅ’がフレームＦｅとなるまでフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）を算出した場合、算出したフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）から、フレーム正規化スコアが最良となる区間のＳ（Ｆｓ，Ｆｅ’’）を最良スコアＳ（Ｆｓ）とする。

ＫＷ照合部１６は、例えば音声ＩＤが「０００１」の音声データから順に、基準スコア記憶部１４から基準スコアを取得する。このとき、ＫＷ照合部１６は、フレームＦｓ及びフレームＦｅ’’間と同じフレーム数の基準スコアをそれぞれ取得する。例えば、フレームＦｓ＝１、及びフレームＦｅ’’＝１４の場合、ＫＷ照合部１６は、音声ＩＤが「０００１」の音声データの１フレーム目から１４フレーム目までのそれぞれの基準スコアを取得する。そして、ＫＷ照合部１６は、取得した各基準スコアを加算した合計Ｓａ（Ｆｓ，Ｆｅ’’）を算出する。ＫＷ照合部１６は、算出した合計Ｓａ（Ｆｓ，Ｆｅ’’）を、フレーム数（Ｆｅ’’−Ｆｓ＋１）で割って正規化した正規化基準スコアＳｂ（Ｆｓ）を算出する。

図６は、最良スコアＳ（Ｆｓ）、及び正規化基準スコアＳｂ（Ｆｓ）を比較した場合の模式図である。図６では、キーワード「あいち」とした場合を示しており、横軸は音声データの時間軸とし、縦軸は基準スコア及びＫＷスコアの値としている。また、図中の実線は基準スコアの軌跡を示し、点線はＫＷスコアの軌跡を示している。基準スコアは、音響モデル４２と音響特徴量との類似度であり、雑音又は曖昧な音声データの場合には低く、明瞭な音声データの場合には高くなるものである。本実施の形態では、基準スコアとして最尤音素系列のスコアを用いる。このため、図６に示すように、基本的にＫＷスコアは、基準スコアより下となる。

ＫＷ照合部１６は、それぞれ算出した正規化基準スコアＳｂ（Ｆｓ）、及び最良スコアＳ（Ｆｓ）を比較し、二つの差が閾値Ｔより大きいか否かを判定する。上述のように、基準スコアは最尤音素系列から算出されるような、音響モデルと音響特徴量との類似度であるため、正規化基準スコアＳｂ（Ｆｓ）と最良スコアＳ（Ｆｓ）との差Ｓｂ（Ｆｓ）−Ｓ（Ｆｓ）が閾値（所定値）Ｔより小さければ、基準スコアを取得したフレーム間で、キーワードの「あいち」が存在する可能性が高いといえるので、基準スコアを取得したフレーム間で、キーワードの「あいち」の音声データが存在すると判定する。キーワードが存在すると判定した場合、ＫＷ照合部１６は、音声データの音声ＩＤ、及び基準スコア取得したフレーム位置を、検索結果出力部１７に出力する。ＫＷ照合部は、開始フレームＦｓをインクリメントしながら、同様の処理を続ける。ただし、キーワードをＦｓからＦｅ’’の区間で検出した場合、その区間を飛ばして、次のフレームＦｓの値をＦｅ’’＋１とする。

なお、閾値Ｔは、用いる音響モデル４２、算出する特徴量、及びＫＷスコア等の算出方法によって適宜変更可能である。例えば、音素毎に閾値を決定して記憶しておき、算出に関係する音素に対応する閾値を加算した値を、閾値Ｔとしてもよい。具体的には、実際に発した音声の音素の特徴量が、基準スコアと一致し易いか、又は一致し難いかという傾向を予備実験により調査して、音素毎に基準値ｄ（ｘ）（ｘは音素）を設定し、記憶しておく。音素「ａ」、「ｉ」、「ｕ」の基準値をそれぞれ、ｄ（ａ）＝２、ｄ（ｉ）＝４、ｄ（ｕ）＝３とした場合、音素「ｉ」が基準スコアと最も一致し難いことになる。そして、キーワード検索時には、ＫＷ照合部１６が取得したあるフレーム間の基準スコアに対応する音素の基準値ｄ（ｘ）を、それぞれ加算し、閾値Ｔとする。あるいは、キーワード検索時には、キーワードを構成する音素それぞれに対応する基準値ｄ（ｘ）の和を閾値とする。このように音素によって閾値Ｔを決定した場合には、より精度の高いキーワード検索が可能となる。

次に、音声検索装置１０において実行される処理について説明する。図７及び図８は、音声検索装置１０において実行される処理手順を示すフローチャートである。

ＣＰＵ１は、例えば音声検索装置１０の電源が投入された場合、ＨＤＤ４に格納された音声ＤＢ４１の音声データを分析して、時間Ｔ（例えば１０msec）毎に特徴量を抽出し、ＨＤＤ４等に記憶する（Ｓ１０）。ＣＰＵ１は、記憶された特徴量と、ＨＤＤ４に記憶された音響モデル４２とのマッチングによって基準スコアを算出し、ＨＤＤ４等に記憶する（Ｓ１１）。基準スコアの算出は、ＨＭＭ、ＤＰマッチング法、又はニューラルネットなどの何れを用いてもよい。基準スコアを、キーワード検索を行う前に予め算出し、記憶しておくことで、キーワード検索時に行う処理量を軽減し、より高速なキーワード検索を可能にできる。

ＣＰＵ１は、キーワードが入力されたか否かを判定する（Ｓ１２）。入力されていない場合（Ｓ１２：ＮＯ）、ＣＰＵ１は、Ｓ３０の処理を実行する。キーワードが入力された場合（Ｓ１２：ＹＥＳ）、ＣＰＵ１は、入力されたキーワードに対応する音素列を抽出する（Ｓ１３）。ＣＰＵ１は、音声ＩＤを「０」とする（Ｓ１４）。次に、ＣＰＵ１は、初期値として、開始フレームＦｓを「０」とし、フレームＦｅ’に「Ｆｓ＋１」を設定し、フレームＦｅに音声ＩＤ（最初は「０」）の終了フレームの値を設定する（Ｓ１５）。

次に、ＣＰＵ１は、キーワードに係る音声データのフレームＦｓ及びフレームＦｅ’間の特徴量と、音響モデル４２の特徴量とを照合して、ＫＷスコアＲ（Ｆｓ，Ｆｅ’）を算出し（Ｓ１６）、さらにフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）を算出する（Ｓ１７）。ＣＰＵ１は、フレームＦｅ’をインクリメントし（Ｓ１８）、フレームＦｅ’がフレームＦｅより大きくなったか否かを判定する（Ｓ１９）。フレームＦｅ’がフレームＦｅより大きくなっていない場合（Ｓ１９：ＮＯ）、ＣＰＵ１は、Ｓ１６に処理を戻す。フレームＦｅ’がフレームＦｅより大きくなった場合（Ｓ１９：ＹＥＳ）、ＣＰＵ１は、算出したフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）から、最良スコアＳ（Ｆｓ）を抽出する（Ｓ２０）。

ＣＰＵ１は、フレームＦｓ及びフレームＦｅ’’間に対応する基準スコアを取得し、各基準スコアを加算した合計Ｓａ（Ｆｓ，Ｆｅ’’）を算出し、算出したＳａ（Ｆｓ，Ｆｅ’’）を、フレームＦｓ及びフレームＦｅ’’間のフレーム数（Ｆｅ’’−Ｆｓ＋１）で割って正規化したＳｂ（Ｆｓ）を算出する（Ｓ２１）。ＣＰＵ１は、算出したＳ（Ｆｓ）、及びＳｂ（Ｆｓ）を比較し、Ｓｂ（Ｆｓ）−Ｓ（Ｆｓ）が閾値Ｔ未満であるか否かを判定する（Ｓ２２）。

閾値Ｔ未満でない場合（Ｓ２２：ＮＯ）、ＣＰＵ１は、フレームＦｓ及びフレームＦｅ’’間にキーワードが存在しないと判定し、フレームＦｓの値をインクリメントし（Ｓ２５）、Ｓ２６の処理を実行する。閾値Ｔ未満である場合（Ｓ２２：ＹＥＳ）、ＣＰＵ１は、フレームＦｓ及びフレームＦｅ’’間にキーワードが存在する可能性が高いと判定し、音声データの音声ＩＤ、及びフレームＦｓ、Ｆｅ’’等に基づいて、結果を出力する（Ｓ２３）。出力方法は、例えば音声による出力であってもよいし、ディスプレイ等に画面出力であってもよい。ＣＰＵ１は、キーワードを検出したフレームＦｓ及びフレームＦｅ’’間の区間を飛ばすため、次のフレームＦｓとして「Ｆｅ’’＋１」を設定し（Ｓ２４）、Ｓ２６の処理に移る。

ＣＰＵ１は、開始フレームＦｓが終了フレームＦｅ未満であるか、すなわち、開始フレームＦｓが終了フレームＦｅとなっていないか否かを判定する（Ｓ２６）。開始フレームＦｓが終了フレームＦｅ未満である場合（Ｓ２６：ＹＥＳ）、ＣＰＵ１は、フレームＦｅ’にＦｓ＋１を設定し（Ｓ２８）、Ｓ１６の処理に戻り、次の区間に関してＫＷスコアＲを算出する。

開始フレームＦｓが終了フレームＦｅ未満でない場合（Ｓ２６：ＮＯ）、音声ＩＤの値をインクリメントし（Ｓ２７）、次の音声ＩＤに対応する音声データがあるか否かを判定する（Ｓ２９）。音声データがある場合（Ｓ２９：ＹＥＳ）、ＣＰＵ１は、Ｓ１５の処理の戻り、次の音声ＩＤに対し同様の処理を行う。音声データがない場合（Ｓ２９：ＮＯ）、ＣＰＵ１は、電源がオフされるなど音声検索装置１０の起動を終了するか否かを判定する（Ｓ３０）。終了しない場合（Ｓ３０：ＮＯ）、ＣＰＵ１は、Ｓ１２を実行する。終了する場合（Ｓ３０：ＹＥＳ）、ＣＰＵ１は、本処理を終了する。

以上説明したように、本実施の形態では、キーワード検索を行う場合、事前に算出した基準スコアとキーワードとを用いて、キーワードの検索を行っている。基準スコアは、キーワードに依存しないため、キーワード検索を開始する前に予め算出しておくことができる。基準スコアを算出する場合、音声ＤＢ４１の音声データの特徴量を抽出し、全音素モデルを用いた最尤音素系列を探索する必要があるなど、処理量は多い。このため、基準スコアを事前に算出しておくことで、キーワード検索時には、キーワードに係る音素のみを用いてキーワード検索が行える。例えば、上述したようなキーワード「あいち」とした場合、対応する音素列が「ａ／ｉ／ｃｈ／ｉ」となり、キーワード検索には３音素のみを使用すればよく、キーワード検索時の計算量を削減することができる。その結果、音声検索装置１０におけるキーワード検索に要する処理をより高速にすることができる。

また、最尤音素系列のスコアとしての基準スコアを基準として、キーワード検索を行うため、背景雑音環境又はユーザの話し方によって変動するキーワードに係る最良スコアＳ（Ｆｓ）だけで検出する場合より、安定して精度良くキーワード検出が行える。

さらに、基本的にＫＷスコアＲは、基準スコアより下となるとしたが、基準スコア及びＫＷスコアＲを異なるモデルで算出する場合、例えば基準スコアをmonophoneのＨＭＭや、音素という単位を持たないＧＭＭで算出し，ＫＷスコアＲをtriphoneのＨＭＭを用いて算出する場合、キーワードに係る最良スコアＳ（Ｆｓ）は、基準スコアに係る正規化基準スコアＳｂ（Ｆｓ）を上回る場合がある。しかし、本実施の形態では、最良スコアＳ（Ｆｓ）及び正規化基準スコアＳｂ（Ｆｓ）の比較（差）によりキーワード検索を行うため、安定したキーワード検索を行える。また、図７及び図８では、キーワードの存在を仮定している区間の開始フレームＦｓ，終端フレームＦｅ’を全探索しているが、適切な枝狩り処理などをいれ、同探索空間を、より小さい処理量で探索するアルゴリズムに変更してもよい。

なお、本実施の形態では、事前に算出及び記憶した基準スコアを用いてキーワード検索を行っているが、音声ＤＢ４１内にキーワード検索時に該当する基準スコアがない音声データが含まれる場合、キーワード検索時に該当音声データの基準スコアを算出するようにしてもよい。さらに音声ＤＢ４１に音声データが新たに追加された場合には、その都度、基準スコアを算出するようにしてもよい。また、本実施の形態では、事前に算出した特徴量及び基準スコアをそれぞれ別に記憶しているが、例えば各情報を音声ＤＢ４１の音声データに追記して記憶するようにしてもよい。

（実施形態２）
以下、実施の形態２について説明する。実施の形態１では、音声検索装置１０は、音響モデル４２を一つのみ有しているが、本実施の形態では、２つの音響モデルを有している点で相違する。以下、相違点について説明する。

図９は、音声検索装置１０が備える機能を示すブロック図である。

本実施の形態に係る音声検索装置１０は、実施の形態１と同様の機能を備えており、ＨＤＤ４には、基準スコア用音響モデル４３と、照合用音響モデル４４とを有している。基準スコア用音響モデル４３は、biphone又はtriphoneが用いられ、基準スコア算出部１３が基準スコアを算出する際に参照される。基準スコア用音響モデル４３をbiphone又はtriphoneとすることで、基準スコアの精度が向上し、その結果、より高精度のキーワード検索を行える。なお、基準スコアはキーワード検索の前に行うため、基準スコア用音響モデル４３にbiphone又はtriphoneを用いた場合であっても、キーワード検索に影響が及ぶことがない。また、基準スコアの精度が向上のために、モデルの持つ混合分布数を増やす等、別の観点での高精細化を行ってもよい。

照合用音響モデル４４は、monophoneが用いられ、ＫＷ照合部１６が、ＫＷ入力部１５で入力されたＫＷスコアＲを抽出する際に参照される。照合用音響モデル４４をmonophoneとすることで、ＫＷ照合部１６による処理量を抑え、処理時間が長くならないようにすることができる。その結果、キーワード検索の処理速度が低下することを防ぐことができる。リソース的に処理速度が問題ない場合には、照合用音響モデルに、biphone、triphoneなど高精細なモデルを用いてもよい。

なお、本実施の形態に係る音声検索装置１０における処理は、実施の形態１と同様であるため説明は省略する。

以上説明したように、本実施の形態では、基準スコアの算出、及び、キーワード検索には、それぞれ異なる音響モデルを用いている。これにより、処理量が多くなってもキーワード検索に影響が及ばない基準スコア用音響モデル４３にはbiphone又はtriphone等を用いて、キーワード検索の精度を高くすることができる。また処理速度が要求されるキーワード検索に用いる照合用音響モデル４４にはmonophoneを用いて、キーワード検索の処理速度をより高速にすることができる。

（実施形態３）
以下、実施の形態３について説明する。本実施の形態では、日本語と英語の二ヶ国語をキーワード検索の対象としている。以下、相違点について説明する。

図１０は、音声検索装置１０が備える機能を示すブロック図である。

音声検索装置１０は、特徴量抽出部１１、特徴量記憶部１２、基準スコア記憶部１４、ＫＷ入力部１５、ＫＷ照合部１６、検索結果出力部１７、基準スコア算出部１８、基準スコア選択部１９、言語判定部２０、並びにモデル選択部２１などの機能を備えている。また、音声検索装置１０は、ＨＤＤ４に日本語音響モデル４５及び英語音響モデル４６を格納している。

基準スコア算出部１８は、音声ＤＢ４１の音声データにおいて、言語別に基準スコアを算出する。図１１は、言語別に算出した基準スコアの一例を示す図である。図１１では、横軸は音声データの時間軸とし、縦軸は基準スコアの値としている。また、図１１では、実線は、日本語音響モデル４５を用いて算出した基準スコア、点線は、英語音響モデル４６を用いて算出した基準スコアの軌跡をそれぞれ示している。図１１に示すように、基準スコア算出部１８が言語別に基準スコアを算出することで、どのフレーム間において、何れの言語の基準スコアが高い（良い）かを判定することができる。その結果、音声データのフレーム毎に、何れの言語が話されているかを把握することができる。

基準スコア選択部１９は、基準スコア算出部１８が算出した結果に基づいて、どの区間で、何れの言語の基準スコアが最良であるかを選択し、選択した言語を基準スコアと共に基準スコア記憶部１４に記憶する。これにより、どの音声区間で何れの言語が話されているかを記憶することができる。

言語判定部２０は、ＫＷ入力部１５により入力されたキーワードが英語又は日本語かを判定する。言語判定部２０は、例えばアルファベットだけであれば英語、漢字又は仮名混じりであれば日本語であると判定する。言語判定部２０は、自動で判定するようにしてもよいし、ユーザの選択操作を受け付けて判定するようにしてもよい。モデル選択部２１は、言語判定部２０の判定結果に従って、日本語音響モデル４５又は英語音響モデル４６を選択し、使用する音響モデルとする。

ＫＷ照合部１６は、言語判定部２０による判定結果と、基準スコア記憶部１４に記憶されている言語とを比較して、言語が一致する区間のみを検索対象とし、モデル選択部２１により選択された音響モデルを用いてキーワード検索の処理を行う。ＫＷ照合部１６が行うキーワード検索の処理は、実施の形態１と同様である。

以下、音声検索装置１０において実行される処理について説明する。図１２、図１３及び図１４は、音声検索装置１０において実行される処理手順を示すフローチャートである。

ＣＰＵ１は、例えば音声検索装置１０の電源が投入された場合、ＨＤＤ４に格納された音声ＤＢ４１の音声データを分析して、時間Ｔ（例えば１０msec）毎に特徴量を抽出し、ＨＤＤ４等に記憶する（Ｓ４０）。ＣＰＵ１は、記憶された特徴量と、ＨＤＤ４に記憶された日本語音響モデル４５又は英語音響モデル４６とのマッチング（照合）によって、言語別に基準スコアを算出する（Ｓ４１）。ＣＰＵ１は、基準スコアの算出結果に基づいて、どの区間で、何れの言語の基準スコアが最良であるかを選択し、選択した言語を基準スコアと共にＨＤＤ４に記憶する（Ｓ４２）。

ＣＰＵ１は、キーワードが入力されたか否かを判定する（Ｓ４３）。入力されていない場合（Ｓ４３：ＮＯ）、ＣＰＵ１は、Ｓ６６の処理を実行する。キーワードが入力された場合（Ｓ４３：ＹＥＳ）、ＣＰＵ１は、キーワードが英語又は日本語かを判定し（Ｓ４４）、判定結果から日本語音響モデル４５又は英語音響モデル４６を選択し、使用する音響モデルとする（Ｓ４５）。

次に、ＣＰＵ１は、入力されたキーワードに対応する音素列を抽出する（Ｓ４６）。ＣＰＵ１は、音声ＩＤを「０」とする（Ｓ４７）。次に、ＣＰＵ１は、初期値として、開始フレームＦｓを「０」とし、フレームＦｅ’に「Ｆｓ＋１」を設定し、フレームＦｅに音声ＩＤ（最初は「０」）の終了フレームの値を設定する（Ｓ４８）。

次に、ＣＰＵ１は、フレームＦｓからフレームＦｅ’の区間に、言語判定結果と、算出し、記憶した基準スコアの言語とが不一致な区間を含むか否かを判定する（Ｓ４９）。不一致な区間を含む場合（Ｓ４９：ＹＥＳ）、ＣＰＵ１は、ＫＷスコアＲ（Ｆｓ，Ｆｅ’）、及びフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）をスコアなし、又は既定の最低値に設定する（Ｓ５０）。これにより、言語が一致しない区間を検索対象外と見做すことができる。その後、ＣＰＵ１は、フレームＦｓからフレームＦｅ’の区間の処理を行っても言語が不一致のため、ＫＷスコアＲ等の値に変化はないことから、フレームＦｅ’の値をフレームＦｅの値にし（Ｓ５１）、Ｓ５６の処理に移る。

一方、Ｓ４９において、不一致な区間を含まない場合（Ｓ４９：ＮＯ）、ＣＰＵ１は、キーワードに係る音声データのフレームＦｓ及びフレームＦｅ’間の特徴量と、音響モデル４２の特徴量とを照合して、ＫＷスコアＲ（Ｆｓ，Ｆｅ’）を算出し（Ｓ５２）、さらにフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）を算出する（Ｓ５３）。ＣＰＵ１は、フレームＦｅ’をインクリメントし（Ｓ５４）、フレームＦｅ’がフレームＦｅより大きくなったか否かを判定する（Ｓ５５）。フレームＦｅ’がフレームＦｅより大きくなっていない場合（Ｓ５５：ＮＯ）、ＣＰＵ１は、Ｓ５２に処理を戻す。フレームＦｅ’がフレームＦｅより大きくなった場合（Ｓ５５：ＹＥＳ）、ＣＰＵ１は、算出したフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）から、最良スコアＳ（Ｆｓ）を抽出する（Ｓ５６）。

次にＣＰＵ１は、フレームＦｓ及びフレームＦｅ’’間に対応する基準スコアを取得し、各基準スコアを加算した合計Ｓａ（Ｆｓ，Ｆｅ’’）を算出し、算出したＳａ（Ｆｓ，Ｆｅ’’）を、フレームＦｓ及びフレームＦｅ’’間のフレーム数（Ｆｅ’’−Ｆｓ＋１）で割って正規化したＳｂ（Ｆｓ）を算出する（Ｓ５７）。ＣＰＵ１は、算出したＳ（Ｆｓ）、及びＳｂ（Ｆｓ）を比較し、Ｓｂ（Ｆｓ）−Ｓ（Ｆｓ）が閾値Ｔ未満であるか否かを判定する（Ｓ５８）。

閾値Ｔ未満でない場合（Ｓ５８：ＮＯ）、ＣＰＵ１は、フレームＦｓ及びフレームＦｅ’’間にキーワードが存在しないと判定し、フレームＦｓの値をインクリメントし（Ｓ５９）、Ｓ６２の処理を実行する。閾値Ｔ未満である場合（Ｓ５８：ＹＥＳ）、ＣＰＵ１は、フレームＦｓ及びフレームＦｅ’’間にキーワードが存在する可能性が高いと判定し、音声データの音声ＩＤ、及びフレームＦｓ、Ｆｅ’’等に基づいて、結果を出力する（Ｓ６０）。出力方法は、例えば音声による出力であってもよいし、ディスプレイ等に画面出力であってもよい。ＣＰＵ１は、キーワードを検出したフレームＦｓ及びフレームＦｅ’’間の区間を飛ばすため、次のフレームＦｓとして「Ｆｅ’’＋１」を設定し（Ｓ６１）、Ｓ６２の処理に移る。

ＣＰＵ１は、開始フレームＦｓが終了フレームＦｅ未満であるか、すなわち、開始フレームＦｓが終了フレームＦｅとなっていないか否かを判定する（Ｓ６２）。開始フレームＦｓが終了フレームＦｅ未満である場合（Ｓ６２：ＹＥＳ）、ＣＰＵ１は、フレームＦｅ’にＦｓ＋１を設定し（Ｓ６４）、Ｓ４９の処理に戻り、次の区間に関して同様の処理を行う。

開始フレームＦｓが終了フレームＦｅ未満でない場合（Ｓ６２：ＮＯ）、音声ＩＤの値をインクリメントし（Ｓ６３）、次の音声ＩＤに対応する音声データがあるか否かを判定する（Ｓ６５）。音声データがある場合（Ｓ６５：ＹＥＳ）、ＣＰＵ１は、Ｓ４８の処理の戻り、次の音声ＩＤに対し同様の処理を行う。音声データがない場合（Ｓ６５：ＮＯ）、ＣＰＵ１は、電源がオフされるなど音声検索装置１０の起動を終了するか否かを判定する（Ｓ６６）。終了しない場合（Ｓ６６：ＮＯ）、ＣＰＵ１は、Ｓ４３を実行する。終了する場合（Ｓ６６：ＹＥＳ）、ＣＰＵ１は、本処理を終了する。

以上説明したように、本実施の形態では、複数言語に対応していても、キーワード検索時には１言語の音響モデルだけを用いて、該当言語が話されている区間だけを対象にしてキーワード検索の処理を行う。複数の音響モデルを用いたキーワード検索を行うことで、高速かつ高精度にキーワード検索を行える。

なお、本実施の形態では、日本語と英語の二ヶ国語をキーワード検索の対象として説明したが、言語の種類及び言語の数は特に限定されない。また、記憶する基準スコアは、必ずしも１言語である必要はなく、上位複数（Ｎベスト）の基準スコアを選択し、記憶するようにしてもよい。この場合、言語判定部２０による判定結果と、基準スコア記憶部１４に記憶されている複数言語の何れか一致する区間で、ＫＷスコアＲ（Ｆｓ，Ｆｅ’）を算出し、さらにフレーム正規化スコアＳ（Ｆｓ，Ｆｅ’）を算出する。これにより、検索対象となる音声区間の選択肢が広がり、音声データが発声しているであろう言語の判定誤りの確率を低減できるので、より精度の高いキーワード検索を行うことができる。さらに、実施の形態２と同様に、基準スコアの算出に用いる音響モデルと、キーワード検索時に用いる音響モデルとは、異なる音響モデルとしてもよい。

以上、本発明の実施の形態について、具体的に説明したが、各構成及び動作等は適宜変更可能であって、上述の実施形態に限定されることはない。

以下に、上述の実施形態を含む実施形態に関し、更に付記を開示する。

（付記１）
複数の音声データを蓄積する蓄積手段と、
認識単位毎の音響特徴量空間での特性を保持している音響モデル記憶手段と、
前記蓄積手段に蓄積された音声データから音響特徴量を抽出する抽出手段と、
該抽出手段が抽出した音響特徴量を記憶する音響特徴量記憶手段と、
該音響特徴量記憶手段に記憶された音響特徴量と、前記音響モデルとの類似度を算出する第１算出手段と、
該第１算出手段が算出した類似度を記憶する類似度記憶手段と、
キーワードを受け付ける手段と、
キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第２算出手段と、
該第２算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段と
を備える音声検索装置。

（付記２）
前記抽出手段は、
音声データを所定時間Ｔで区切り、前記時間Ｔ毎に音声データの音響特徴量を抽出し、
前記第１算出手段は、
時間Ｔ毎に類似度を算出し、
前記類似度記憶手段は、
前記第１算出手段が算出した類似度を時間Ｔ毎に記憶し、
前記検索手段は、
前記第２算出手段が算出した類似度を、前記類似度記憶手段に記憶した類似度と時間Ｔ単位で対比して、音声データを検索するようにしてある
付記１に記載の音声検索装置。

（付記３）
前記音響モデル記憶手段は、
複数の音響モデルを記憶しており、
前記第１及び第２算出手段は、
それぞれ異なる音響モデルを用いるようにしてある
付記１又は２に記載の音声検索装置。

（付記４）
受け付けたキーワードの言語を判定する言語判定手段
をさらに備えており、
前記蓄積手段は、
複数の言語を含む音声データを蓄積し、
前記音響モデル記憶手段は、
複数の言語それぞれに対応する音響モデルを記憶し、
前記抽出手段は、
言語毎に音声データの音響特徴量を抽出し、
前記第１算出手段は、
各音響モデルを用いて、前記音声データに係る類似度を言語毎に算出し、
前記類似度記憶手段は、
前記第１算出手段が言語毎に算出した類似度のなかで、上位Ｎ（Ｎ≧１）番目までに高い類似度を記憶し、
前記検索手段は、
前記類似度記憶手段に記憶され、前記言語判定手段が判定した言語に対応する類似度を用いて検索するようにしてある
付記１から３の何れか一つに記載の音声検索装置。

（付記５）
前記検索手段は、
前記第２算出手段が算出したキーワードのスコアと、音声データの任意の区間における前記類似度記憶手段に記憶された類似度の総和との差が所定値以下又は未満となる場合に、前記区間をキーワード存在区間として検索するようにしてある
付記１から４の何れか一つに記載の音声検索装置。

（付記６）
記憶された類似度に係る音素に応じて、前記所定値を調整する手段
をさらに備える付記５に記載の音声検索装置。

（付記７）
前記第２算出手段が算出した類似度に係る音素に応じて、前記所定値を調整する手段
をさらに備える付記５又は６に記載の音声検索装置。

（付記８）
前記抽出手段は、
新たな音声データが前記蓄積手段に蓄積される都度、新たに蓄積された音声データから音響特徴量を抽出するようにしてある
付記１から７の何れか一つに記載の音声検索装置。

（付記９）
前記検索手段が検索する場合、前記抽出手段が音響特徴量を抽出していない音声データが前記蓄積手段に蓄積されているか否かを判定する手段と、
蓄積されていないと判定した場合、前記抽出手段に音響特徴量の抽出を要求する手段と
をさらに備える付記１から８の何れか一つに記載の音声検索装置。

（付記１０）
記憶された認識単位毎の音響特徴量空間での特性を保持している音響モデルを用いて、蓄積された音声データから、受け付けたキーワードを含む音声データを検索する音声検索方法において、
蓄積された音声データから音響特徴量を抽出し、
抽出した音響特徴量を記憶し、
記憶した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出し、
算出した類似度を記憶し、
キーワードを受け付け、
キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出し、
算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する
音声検索方法。

（付記１１）
音声データを蓄積しており、認識単位毎の音響特徴量空間での特性を保持している音響モデルを記憶しているコンピュータで実行させるプログラムにおいて、
コンピュータを、
蓄積された音声データから音響特徴量を抽出する手段、
抽出した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出する第１算出手段、
受け付けたキーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第２算出手段、及び、
該第２算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段
として機能させるプログラム。

（付記１２）
付記１１に記載のプログラムが記録されており、コンピュータでの読取り可能な記録媒体。

１０音声検索装置
１１特徴量抽出部（抽出手段）
１２特徴量記憶部
１３基準スコア算出部（第１算出手段）
１４基準スコア記憶部（類似度記憶手段）
１５ＫＷ入力部
１６ＫＷ照合部（第２算出手段、検索手段）
１７検索結果出力部
４１音声ＤＢ
４２音響モデル

Claims

複数の音声データを蓄積する蓄積手段と、
認識単位毎の音響特徴量空間での特性を保持している音響モデル記憶手段と、
前記蓄積手段に蓄積された音声データから音響特徴量を抽出する抽出手段と、
該抽出手段が抽出した音響特徴量を記憶する音響特徴量記憶手段と、
該音響特徴量記憶手段に記憶された音響特徴量と、前記音響モデルとの類似度を算出する第１算出手段と、
該第１算出手段が算出した類似度を記憶する類似度記憶手段と、
キーワードを受け付ける手段と、
キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第２算出手段と、
該第２算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段と
を備える音声検索装置。
前記音響モデル記憶手段は、
複数の音響モデルを記憶しており、
前記第１及び第２算出手段は、
それぞれ異なる音響モデルを用いるようにしてある
請求項１に記載の音声検索装置。
受け付けたキーワードの言語を判定する言語判定手段
をさらに備えており、
前記蓄積手段は、
複数の言語を含む音声データを蓄積し、
前記音響モデル記憶手段は、
複数の言語それぞれに対応する音響モデルを記憶し、
前記抽出手段は、
言語毎に音声データの音響特徴量を抽出し、
前記第１算出手段は、
各音響モデルを用いて、前記音声データに係る類似度を言語毎に算出し、
前記類似度記憶手段は、
前記第１算出手段が言語毎に算出した類似度のなかで、上位Ｎ（Ｎ≧１）番目までに高い類似度を記憶し、
前記検索手段は、
前記類似度記憶手段に記憶され、前記言語判定手段が判定した言語に対応する類似度を用いて検索するようにしてある
請求項１又は２に記載の音声検索装置。
前記検索手段は、
前記第２算出手段が算出したキーワードのスコアと、音声データの任意の区間における前記類似度記憶手段に記憶された類似度の総和との差が所定値以下又は未満となる場合に、前記区間をキーワード存在区間として検索するようにしてある
請求項１から３の何れか一つに記載の音声検索装置。
記憶された認識単位毎の音響特徴量空間での特性を保持している音響モデルを用いて、蓄積された音声データから、受け付けたキーワードを含む音声データを検索する音声検索方法において、
蓄積された音声データから音響特徴量を抽出し、
抽出した音響特徴量を記憶し、
記憶した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出し、
算出した類似度を記憶し、
キーワードを受け付け、
キーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出し、
算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する
音声検索方法。
音声データを蓄積しており、認識単位毎の音響特徴量空間での特性を保持している音響モデルを記憶しているコンピュータで実行させるプログラムにおいて、
コンピュータを、
蓄積された音声データから音響特徴量を抽出する手段、
抽出した音響特徴量と、記憶された音響モデルで定められた音響特徴量との類似度を算出する第１算出手段、
受け付けたキーワードに対応する音響モデルと、前記音響特徴量記憶手段に記憶された音響特徴量との照合により、キーワードのスコアを算出する第２算出手段、及び、
該第２算出手段が算出したキーワードのスコアと、前記類似度記憶手段に記憶された類似度とに基づいて、前記蓄積手段に蓄積された音声データからキーワードを含む音声データを検索する検索手段
として機能させるプログラム。
請求項６に記載のプログラムが記録されており、コンピュータでの読取り可能な記録媒体。