JP2017167265A

JP2017167265A - 検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラム

Info

Publication number: JP2017167265A
Application number: JP2016051031A
Authority: JP
Inventors: 寛基富田; Hiroki Tomita
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2017-09-21
Anticipated expiration: 2036-03-15
Also published as: JP6680009B2

Abstract

【課題】音声検索の精度を維持しながら、検索インデックスのデータサイズを縮小する。【解決手段】検索インデックス生成部１１０は、検索対象の音声信号を取得する音声信号取得部１１１と、取得した音声信号の特徴量を解析する単位であるフレーム区間を設定するフレーム設定部１１２と、フレーム区間ごとに検索対象の音声信号の特徴量を取得する特徴量取得部１１３と、検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率をフレーム区間ごとに取得する出力確率取得部１１４と、出力確率取得部１１４が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定部１２０と、を備える。【選択図】図３

Description

本発明は、検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラムに関する。

音声検索では、検索対象とする検索語（クエリ）に対応する音声が発話されている箇所を音声信号の中から特定する検索技術を使用する。この音声検索技術では、高速かつ正確な音声検索を実現することが重要となる。

上記音声検索技術の１つとして、非特許文献１は、検索対象の音声信号と検索するクエリ音声信号とを高速に比較する技術を開示している。非特許文献１が開示する技術では、検索対象の音声信号の特徴量とクエリ音声信号の特徴量とを比較する。

Ｙ．ＺｈａｎｇａｎｄＪ．Ｇｌａｓｓ． "Ａｎｉｎｎｅｒ−ｐｒｏｄｕｃｔｌｏｗｅｒ−ｂｏｕｎｄｅｓｔｉｍａｔｅｆｏｒｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ，" ｉｎＰｒｏｃ．ＩＣＡＳＳＰ，２０１１，ｐｐ．５６６０−５６６３．

クエリ音声信号を検索する場合、非特許文献１が開示する技術では、検索対象の音声信号に複数のフレームを設定し、そのフレームごとの音声の特徴量と音響モデルの音素の各状態の特徴量とが一致する確率をテーブルにした検索インデックスを作成する。そして、この検索インデックスを利用して、クエリ音声信号の位置を検索することにより、検索を高速化している。非特許文献１が開示する技術では、音声の特徴を解析する時間単位であるフレーム長を音素を構成する状態の時間長としている。検索精度を上げるためには、音素を構成する状態の数を増やし、より短い時間に細分して音声信号の特徴を比較解析することが望ましい。しかしながら、音素を構成する状態の数が多くなると音声検索処理量が膨大と成り、検索時間が長くなるという問題がある。また、検索インデックスのデータサイズが大きくなってしまうという問題もある。一方、音素を構成する状態の数を減らすと、抽出した特徴量は長い時間内での平均値となってしまうため、音声の瞬時的な特徴を喪失することとなり、音声検索の精度が低下する場合がある。つまり、非特許文献１が開示する技術では、検索インデックスのデータサイズと検索精度とはトレードオフの関係にある。

本発明は、以上のような状況を鑑みてなされたものであり、音声検索の精度を維持しながら、検索インデックスのデータサイズを縮小することが可能な検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明に係る検索インデックス生成装置は、
検索対象の音声信号を取得する取得手段と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段と、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を対応付けた検索インデックスを生成する検索インデックス生成手段と、
を備えることを特徴とする。

本発明によれば、音声検索の精度を維持しながら、検索インデックスのデータサイズを縮小することができる。

本発明の実施形態１に係る音声検索装置の物理構成を示す図である。本発明の実施形態１に係る音声検索装置の機能構成を示す図である。本発明の実施形態１に係る検索インデックス生成部の機能構成を示す図である。音素の状態について説明するための図である。代表確率置換処理前の検索インデクスについて説明するための図である。（ａ）は、検索対象の音声信号の波形図である。（ｂ）は、検索対象の音声信号において設定されるフレームを示す図である。（ｃ）は、検索対象の音声信号において指定される尤度取得区間を示す図である。代表確率置換処理後の検索インデクスについて説明するための図である。本発明の実施形態１に係る音声検索部の機能構成を示す図である。クエリ音素列に設定するフレームについて説明するための図である。（ａ）は、クエリ音素列を示す図である。（ｂ）は、クエリ音素列において設定されるフレームを示す図である。クエリ音素列の出力確率について説明するための図である。Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理について説明するための図である。本発明の実施形態１に係る音声検索装置が実行する検索インデックス生成処理の流れを示すフローチャートである。本発明の実施形態１に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。本発明の実施形態１に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。本発明の実施形態２に係る音声検索部の機能構成を示す図である。クエリを音声信号として取得する場合について説明するための図である。（ａ）は、クエリ音声信号の波形図である。（ｂ）は、クエリ音声信号において設定されるフレームを示す図である。本発明の実施形態３に係る音声検索部の機能構成を示す図である。代表確率置換処理後のクエリ出力確率について説明するための図である。

以下、本発明の実施形態に係る検索インデクス生成装置、検索インデックス生成方法、音声検索装置、音声検索方法及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。

（実施形態１）
実施形態１に係る音声検索装置１００は、物理的には、図１に示すように、ＲＯＭ（Read Only Memory）１と、ＲＡＭ（Random Access Memory）２と、外部記憶装置３と、入力装置４と、出力装置５と、ＣＰＵ（Central Processing Unit）６と、バス７と、を備える。

ＲＯＭ１は、検索インデックス生成プログラム、音声検索プログラムを記憶する。ＲＡＭ２は、ＣＰＵ６のワークエリアとして使用される。

外部記憶装置３は、例えば、ハードディスクから構成され、解析対象である音声信号、音響モデル等をデータとして記憶する。また、音声検索装置１００が解析対象の音声信号から生成した検索インデックスを記憶する。

入力装置４は、クエリをテキスト入力するキーボード、クエリを音声信号として入力するマイク等から構成される。出力装置５は、例えば、液晶ディスプレイの画面、スピーカ等を備える。出力装置５は、ＣＰＵ６によって出力された音声データをスピーカから出力し、検索した検索語の音声信号における位置等を画面に表示する。

バス７は、ＲＯＭ１、ＲＡＭ２、外部記憶装置３、入力装置４、出力装置５、ＣＰＵ６、を接続する。ＣＰＵ６は、ＲＯＭ１に記憶された検索インデックス生成プログラム、音声検索プログラムをＲＡＭ２に読み出して、そのプログラムを実行することにより、以下に示す機能を実現する。

音声検索装置１００は、機能的には、図２に示すように、検索インデックス生成部１１０と、音声検索部１３０と、を備える。

最初に、検索インデックス生成部１１０の構成について説明する。検索インデックス生成部１１０は、図３に示すように、音声信号記憶部１０１と、音響モデル記憶部１０２と、出力確率記憶部１０３と、音声信号取得部１１１と、フレーム設定部１１２と、特徴量取得部１１３と、出力確率取得部１１４と、代表確率設定部１２０と、を備える。代表確率設定部１２０は、圧縮インデックス生成部１２１を備える。音声信号記憶部１０１、音響モデル記憶部１０２、出力確率記憶部１０３は、外部記憶装置３の記憶領域に構築されている。

音声信号記憶部１０１は、検索対象とする音声信号を記憶する。検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、録音された講演の音声、映画の音声等に係る音声信号である。

音響モデル記憶部１０２は、モノフォンモデルの音響モデルを記憶する。モノフォンモデルは、１音素毎に生成された音響モデルであり、隣接する音素に依存しない音響モデルである。音声検索装置１００は、モノフォンモデルを一般的な方法で学習して、音響モデル記憶部１０２に予め記憶しておく。

モノフォンモデルとして、例えば、一般的な音声認識で利用される音響モデルであるＨＭＭ（Hidden Markov Model；隠れマルコフモデル）を利用できる。ＨＭＭは、統計的な手法により音声信号からその音声信号を構成する音素を確率的に推定するためのモデルである。ＨＭＭには、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量と一致する確率（出力確率）と、をパラメータとした標準パターンを用いる。

音素とは、話者により発話された音声を構成する成分の単位である。例えば、「キゾクセイド」という単語は、「ｋ，ｉ，ｚ，ｏ，ｋ，ｕ，ｓ，ｅ，ｉ，ｄ，ｏ」という１１個の音素から構成される。音素は、さらに、複数の状態に分割される。

状態とは、音素を構成する最小の時間単位である。各音素に定められた状態数が「３」である場合を例にとって説明する。例えば、音声「あ」の音素「ａ」は、図４に示すように、この音素の発声開始時を含む第１の状態「ａ１」と、中間状態である第２の状態「ａ２」と、発声終了時を含む第３の状態「ａ３」と、の３つの状態に分けられる。すなわち、１音素は３つの状態から構成される。全ての音素が３つの状態から構成されている場合、音響モデルで利用される全音素の数をｍとすると、（ｍ×３）個の状態が存在する。

音素の各状態の特徴量は、音素の状態ごとに音声信号から抽出した音声の特徴を表す数値である。この特徴量は、音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギーの２乗和やその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。

例えば周知のように、特徴量は、周波数軸系特徴パラメータ１２成分（１２次元）とパワー系特徴パラメータ１成分（１次元）、直前の時間窓の各成分との差分を取った周波数軸系特徴パラメータ１２成分（１２次元）とパワー系特徴パラメータ１成分（１次元）、及び、直前の時間窓の各成分との差分の差分を取った周波数軸系特徴パラメータ１２成分（１２次元）の、合計３８成分を有する３８次元ベクトル量として構成される。

図３に戻って、出力確率記憶部１０３は、検索インデックス生成部１１０が生成した図５に示すような代表確率置換処理前の検索インデックスを記憶する。また、後述する代表確率置換処理後の検索インデックスを記憶する。検索インデックスとは、検索対象の音声信号に複数のフレームを設定し、そのフレームごとの音声の特徴量と音響モデルの音素の各状態の特徴量とが一致する確率である出力確率を記憶したテーブルである。

音声信号取得部１１１は、音声信号記憶部１０１から検索対象とする音声信号を取得する。

フレーム設定部１１２は、音声信号の特徴量を取得する音声信号における区間の単位であるフレームを設定する。フレームとは、検索対象の音声信号とクエリ音声信号とを比較する時間窓である。本実施形態では、音素の状態ごとに検索対象の音声信号とクエリ音声信号とを比較して音声検出を行う。フレームの時間長には、例えば、４０ｍｓを用いる。

検索対象の音声信号にフレームごとの区間を設定する方法について、図６を参照して説明する。図６（ａ）は、先頭から末尾までの時間長Ｔの検索対象の音声信号の波形図である。縦軸は音声信号の強度を示し、横軸は時間を示す。図６（ｂ）は、図６（ａ）に示す音声信号において設定されるフレームを示す。フレーム設定部１１２は、図６（ｂ）に示すように、フレーム長ｔの区間を１シフト長Ｓずつシフトして、検索対象の音声信号にフレーム番号ｆ_１からｆ_Ｎの区間を設定する。フレーム番号ｆ_１の区間は、音声信号の先頭から始まる時間長ｔの区間である。フレーム番号ｆ_２の区間は、音声信号の先頭から１シフト長Ｓだけシフトした位置から始まる時間長ｔの区間である。フレーム設定部１１２は、以下同様に、シフト長Ｓずつシフトしてフレーム番号ｆ_Ｎまで設定する。

シフト長Ｓは、検索の精度を決める長さである。シフト長Ｓは、フレーム長ｔより短い値に設定される固定値である。例えば、フレーム長をｔ＝４０ｍｓとした場合は、シフト長をＳ＝１０ｍｓのように設定する。

特徴量取得部１１３は、フレーム区間ごとに検索対象の音声信号の特徴量を取得する。具体的には、特徴量取得部１１３は、検索対象の音声信号の特徴量をフレーム番号ｆ_１からｆ_Ｎのフレーム毎に取得する。

出力確率取得部１１４は、検索対象の音声信号の特徴量が音響モデルに含まれる音素の各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得し、音響モデルの音素の各状態と対応付けて記憶する。

具体的には、出力確率取得部１１４は、取得した特徴量と音響モデルの音素の各状態の特徴量とを比較することにより、フレーム番号ｆ_１からｆ_Ｎのフレームに含まれる音声信号の特徴量が音響モデルの音素の各状態の特徴量と一致する確率である出力確率をフレーム毎に取得し、音素の各状態と対応付けた検索インデックスとして出力確率記憶部１０３に記憶する。この出力確率を記憶したテーブルを検索インデックスという。図５に示す検索インデックスは、後述する代表確率置換処理前の検索インデックスである。

図５は、音素の種類がｍ種類であり、音素の状態数が３である検索インデックスの例である。図５の１列目は、シフト長Ｓずつシフトして作成したフレームのフレーム番号を示す。フレームごとの特徴量が音素の各状態の特徴量と一致する確率をｆ（ｘ，ｙ，ｚ）で表す。ｘ（ｘ＝１〜Ｎ）はフレーム番号を示し、ｙ（ｙ＝１〜ｍ）は音素番号を示し、ｚ（ｚ＝１〜３）は状態番号を示す。ｆ（１，１，１）は、フレーム番号ｆ_１のフレームに含まれる音声信号の特徴量が、音響モデルに含まれる音素１の状態１の特徴量と一致する確率を表す。フレーム番号ｆ_Ｘのフレームに含まれる音声信号の特徴量が、音響モデルに含まれる音素番号ｙの状態ｚの特徴量と一致する確率をｆ（ｘ，ｙ，ｚ）で表す。

図３に戻って、代表確率設定部１２０は、出力確率取得部１１４が取得した出力確率について、それぞれの音素を構成する状態の中で最も出力確率が高い状態の出力確率を、その音素の代表出力確率として設定する。例えば、代表確率設定部１２０は、図５のフレーム番号ｆ１の音素１に含まれる状態１の出力確率ｆ（１，１，１）、状態２の出力確率ｆ（１，１，２）、状態３の出力確率ｆ（１，１，３）を比較して、最も大きい出力確率を抽出する。例えば、代表確率設定部１２０は、状態２の出力確率ｆ（１，１，２）が最も大きい場合、状態１の出力確率ｆ（１，１，１）、状態２の出力確率ｆ（１，１，２）、状態３の出力確率ｆ（１，１，３）の値を、状態２の出力確率ｆ（１，１，２）で置換する。つまり、音素１を代表する出力確率としてｆ（１，１，２）の値を設定する。

代表確率設定部１２０は、フレームｆ１の音素２から音素ｍについても、同様にして、最も出力確率が大きい状態の出力確率をその音素の代表出力確率として設定する置換処理を行う。代表確率設定部１２０は、全てのフレームについて同様の置換処理を行う。

圧縮インデックス生成部１２１は、検索対象とする音声信号の図５に示す検索インデックスの各音素の出力確率を代表出力確率に置換処理して、圧縮された図７に示す検索インデックスを生成する。つまり、１つの音素を構成する３つの状態の出力確率が同じ値に置換されているので、検索インデックスのデータサイズを１／「音素の状態の数」に圧縮することができる。圧縮インデックス生成部１２１は、生成した図７に示す置換処理後の圧縮された検索インデックスを出力確率記憶部１０３に記憶する。

置換処理前の図５に示す検索インデックスの出力確率を、状態１から状態３の出力確率で平均する処理の場合、例えば、状態２の出力確率が極めて大きいという特徴があった場合でも、状態１と状態３の出力確率が小さい場合には、平均化されることによってその音素の中に極めて大きい出力確率を有する状態があるという情報が喪失されてしまうことになる。

これに対して、代表確率設定部１２０による置換処理後の図７に示す検索インデックスは、図５に示す置換処理前の検索インデックスに含まれていた極めて大きい出力確率の値が残っているので、その音素の中に極めて大きい出力確率を有する状態があるという情報が喪失されることはない。

次に、音声検索部１３０の構成について説明する。音声検索部１３０は、図８に示すように、音響モデル記憶部１０２と、出力確率記憶部１０３と、時間長記憶部１０４と、クエリ出力確率記憶部１０５と、トライフォンモデル記憶部１０６と、検索文字列取得部１３１と、変換部１３２と、フレーム列作成部１３３と、クエリ出力確率取得部１３４と、区間指定部１３５と、第２出力確率取得部１３６と、置換部１３７と、尤度取得部１３８と、繰り返し部１３９と、特定部１４０と、を備える。音響モデル記憶部１０２、出力確率記憶部１０３、時間長記憶部１０４、クエリ出力確率記憶部１０５、トライフォンモデル記憶部１０６は、外部記憶装置３の記憶領域に構築されている。

音響モデル記憶部１０２は、検索インデックス生成時と同じモノフォンモデルの音響モデルを記憶する。出力確率記憶部１０３は、検索インデックス生成部１１０が生成した図７に示す置換処理後の検索インデックスを記憶する。時間長記憶部１０４は、大量の音声データから算出した平均継続時間長を音素を構成する状態ごとに記憶する。クエリ出力確率記憶部１０５は、音声検索部１３０が生成するクエリの音素列に含まれる音素が音響モデルに含まれる音素の各状態の特徴量と一致する確率（第２の確率）を記憶する。トライフォンモデル記憶部１０６は、トライフォンモデルの音響モデルを記憶する。

検索文字列取得部１３１は、検索文字列を取得する。検索文字列取得部１３１は、例えば入力装置４を介してユーザが入力した検索文字列を取得する。つまり、ユーザは、音声検索装置１００に対して、検索語（クエリ）を文字列としてテキスト入力する。

変換部１３２は、音響モデル記憶部１０２に記憶されているモノフォンモデルの音素を、検索文字列取得部１３１が取得した検索文字列にしたがって並べて、検索文字列を音素列に変換する。すなわち、変換部１３２は、検索文字列に含まれる文字と同順で、各文字を発声したときの音素（モノフォン）を並べることにより、検索文字列をモノフォン音素列に変換する。

例えば、変換部１３２は、検索文字列として日本語「キゾクセイド」が入力された場合、「ｋ，ｉ，ｚ，ｏ，ｋ，ｕ，ｓ，ｅ，ｉ，ｄ，ｏ」という１１個のモノフォン音素から構成されるモノフォン音素列に変換する。ここで、各音素は、３つの状態で構成されている。したがって、変換部１３２は、検索文字列「キゾクセイド」を３３個の状態で構成される状態列に変換する。

さらに、変換部１３２は、変換した状態列を構成する３３個の状態のそれぞれの時間長を、時間長記憶部１０４から取得する。そして、変換部１３２は、それぞれの状態ごとに取得した時間長をそれぞれの状態の時間長として、クエリ音素列を作成する。

変換部１３２は、時間長記憶部１０４から取得した３３個の状態の時間長を合計した時間長を、検索文字列「キゾクセイド」が発話される発話時間長Ｌとして導出する。この発話時間長Ｌは、後述する尤度取得において、尤度を計算するための尤度取得区間の時間長として使用する。

ところで、検索対象の音声信号は必ずしも平均的な速度で発話された音声信号に限定されず、様々な速度で発話された音声信号が検索対象となる。しかし、時間長記憶部１０４に記憶されている時間長は大量の音声データから計算した音素の各状態の平均時間長である。したがって、変換部１３２は、時間長記憶部１０４から取得した時間長を補正して使用することが望ましい。例えば、ユーザが検索対象の音声信号の発話速度に応じた補正係数を入力装置４から入力し、変換部１３２は、ユーザが入力した補正係数に基づいて、時間長記憶部１０４から取得した時間長を補正してモノフォンモデルの音素を並べることが望ましい。また、音声検索装置１００が、音声信号に含まれる単位時間あたりの音素数をカウントすることにより、検索対象の音声信号の発話速度を測定し、音声検索装置１００が補正係数を設定するようにしてもよい。

フレーム列作成部１３３は、変換部１３２が作成したクエリ音素列について、フレーム長ごとの区間に分割したフレーム列を作成する。クエリ音素列に設定するフレーム列について図９を参照して説明する。図９（ａ）は、取得した時間長の長さに対応して音素の状態を並べたクエリ音素列である。つまり、クエリの音素列「ｋ，ｉ，ｚ，ｏ，ｋ，ｕ，ｓ，ｅ，ｉ，ｄ，ｏ」の最初の音素「ｋ」の状態１の音響モデルを、時間長記憶部１０４に記憶されている音素「ｋ」の状態１の時間長の長さで並べる。次に、音素「ｋ」の状態２の音響モデルを、時間長記憶部１０４に記憶されている音素「ｋ」の状態２の時間長の長さで並べる。以下同様にして、音素「ｏ」の状態３の音響モデルを、時間長記憶部１０４に記憶されている音素「ｏ」の状態３の時間長の長さで並べる。このように並べられたクエリ音素列の合計時間長Ｌが発話時間長Ｌである。

図９（ｂ）は、図９（ａ）に示すクエリ音素列において設定されるフレームを示す。フレーム列作成部１３３は、図９（ｂ）に示すように、フレーム長ｔの区間を１シフト長Ｓずつシフトして、クエリ音素列にフレーム番号ｇ_１からｇ_ｋの区間を設定する。フレーム長ｔは、検索インデックスを生成した際に用いたフレーム長ｔ（例えば、４０ｍｓ）と同じにする。シフト長Ｓも検索インデックス生成時と同じシフト長Ｓ（例えば、１０ｍｓ）とする。フレーム番号ｇ_１の区間は、クエリ音素列の先頭から始まる時間長ｔの区間である。フレーム番号ｇ_２の区間は、クエリ音素列の先頭から１シフト長Ｓだけシフトした位置から始まる時間長ｔの区間である。フレーム列作成部１３３は、以下同様に、シフト長Ｓずつシフトしてフレーム番号ｇ_ｋまでフレームを設定する。

図８に戻って、クエリ出力確率取得部１３４は、クエリ音素列の各状態が音響モデルに含まれる音素の各状態の特徴量と一致する確率（第２の確率）をフレーム（ｇ_１〜ｇ_ｋ）ごとに取得し、音素の各状態と対応付けてクエリ出力確率記憶部１０５に記憶する。図１０は、音素の種類がｍ種類であり、音素の状態数が３の場合の例である。音素の種類数「ｍ」と状態数「３」は、検索インデックスの作成時と同じ数とする。図１０の１列目は、フレーム列作成部１３３が作成したフレーム列を構成するフレームのフレーム番号を示す。そして、フレーム列を構成するフレーム（ｇ_１〜ｇ_ｋ）の特徴量が、音素の各状態の特徴量と一致する確率をｇ（ａ，ｙ，ｚ）で表す。ａ（ａ＝１〜ｋ）はクエリ音素列のフレーム番号を示し、ｙ（ｙ＝１〜ｍ）は音素番号を示し、ｚ（ｚ＝１〜３）は状態番号を示す。

クエリ音素列のフレーム数ｋは、クエリ音素列の発話時間長Ｌとシフト長Ｓを用いて、ｋ＝Ｌ／Ｓで求めた値の小数点以下を切り捨てた自然数である。

図８に戻って、区間指定部１３５は、音声信号からクエリ音素列の発話時間長Ｌの区間を尤度取得区間として複数指定する。尤度取得区間は、その区間からクエリ音素列が発せられている尤度を取得する区間である。尤度とは、検索対象の音声とクエリ音素列との類似の度合いを示す指標である。図６（ｃ）を参照して説明する。区間指定部１３５は、まず、検索対象の音声信号の先頭フレームｆ_１から始まるクエリ音素列の発話時間長Ｌの区間を第１尤度取得区間として指定する。本実施形態では、クエリ音素列を構成するフレームのフレーム数をｋ個としているので、第１フレームｆ_１から第ｋフレームｆ_ｋの区間を第１尤度取得区間として指定する。

次に、区間指定部１３５は、音声信号の第２フレームｆ_２から第（ｋ＋１）フレームｆ_ｋ＋１の区間を第２尤度取得区間として指定する。以下同様に、第Ｐ尤度取得区間まで指定する。なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Ｐは、音声信号の時間長Ｔと尤度取得区間の時間長（クエリ音素列の発話時間長）Ｌとシフト長Ｓとを用いて、Ｐ＝（Ｔ−Ｌ＋Ｓ）／Ｓで求めた値の小数点以下を切り捨てた自然数である。

図８に戻って、第２出力確率取得部１３６は、クエリ音素列を構成する各フレームが検索対象の音声信号を構成する各フレームと一致する確率（第３の確率）を取得する。具体的には、第２出力確率取得部１３６は、クエリ音素列の各フレームが音素の各状態である確率（第２の確率）と、検索対象の音声信号の検索インデックスに記憶した確率（第１の確率）とを掛け合わせることにより、クエリ音素列の各フレーム（ｇ_１〜ｇ_ｋ）が検索対象の音声信号の各フレーム（ｆ_１〜ｆ_Ｎ）と一致する確率（第３の確率）を求める。

図７と図１０を参照して具体的に説明する。区間指定部１３５が、音声信号の先頭フレームｆ_１から始まる第１尤度取得区間を指定すると、第２出力確率取得部１３６は、クエリ音素列の先頭フレームｇ_１と音声信号の先頭フレームｆ_１について音素の各状態の出力確率を掛け合わせることにより、クエリ音素列の第１フレームｇ_１が検索対象の音声信号の第１フレームｆ_１と一致する確率を取得する。

具体的には、第２出力確率取得部１３６は、クエリ音素列の第１フレームｇ_１の状態１が音声信号の第１フレームｆ_１の音素１である確率Ｐ（１，１，１）を式（１）から求める。クエリ音素列の第１フレームｇ_１の状態１が音声信号の第１フレームｆ_１の音素２である確率Ｐ（１，２，１）を式（２）から求める。以下同様にして、第２出力確率取得部１３６は、クエリ音素列の第１フレームｇ_１の状態３が音声信号の第１フレームｆ_１の音素ｍである確率Ｐ（１，ｍ，３）を式（３）から求める。
Ｐ（１，１，１）＝ｆ（１，１）×ｇ（１，１，１）・・・式（１）
Ｐ（１，２，１）＝ｆ（１，２）×ｇ（１，２，１）・・・式（２）
Ｐ（１，ｍ，３）＝ｆ（１，ｍ）×ｇ（１，ｍ，３）・・・式（３）

このように、第２出力確率取得部１３６は、クエリ音素列の第１フレームｇ_１について（ｍ×３）個の確率（第３の確率）を取得する。そして、（ｍ×３）個の確率を掛け合わせることにより、クエリ音素列の第１フレームｇ_１が検索対象の音声信号の第１フレームｆ_１と一致する確率である出力確率Ｐ（１，１）を式（４）により取得する。

次に、第２出力確率取得部１３６は、クエリ音素列の第２フレームｇ_２と音声信号の第２フレームｆ_２に対応する音素の各状態の出力確率を掛け合わせることにより、クエリ音素列の第２フレームｇ_２が検索対象の音声信号の第２フレームｆ_２と一致する確率を取得する。具体的には、第２出力確率取得部１３６は、クエリ音素列の第２フレームｇ_２について（ｍ×３）個の出力確率を取得する。そして、（ｍ×３）個の出力確率を掛け合わせることにより、クエリ音素列の第２フレームｇ_２が検索対象の音声信号の第２フレームｆ_２と一致する確率である出力確率Ｐ（１，２）を式（５）により取得する。

以下同様にして、第２出力確率取得部１３６は、クエリ音素列の第ｋフレームｇ_ｋまでの出力確率Ｐ（１，ｋ）を式（６）により取得する。

クエリ音素列が検索対象の音声信号の先頭フレームｆ_１から始まる場合について出力確率の取得が終わると、区間指定部１３５は、音声信号の第２フレームｆ_２から始まる第２尤度取得区間を指定する。第２出力確率取得部１３６は、クエリ音素列の先頭フレームｇ_１を検索対象の音声信号の第２フレームｆ_２に合わせて同様の計算を行う。

以下同様にして、第２出力確率取得部１３６は、第Ｐ尤度取得区間までの出力確率を求める。第２出力確率取得部１３６は、クエリ音素列の先頭フレームｇ_１を検索対象の音声信号の第ｓフレームｆ_ｓに合わせた場合（第ｓ尤度取得区間）のクエリ音素列の第ｊフレームｇ_ｊの出力確率を式（８）にて求める。

図８に戻って、置換部１３７は、第２出力確率取得部１３６が取得した出力確率のそれぞれを、そのフレームと隣接する前後数フレームの中で最大の出力確率に置換する。この置換処理は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理と呼ばれる。

具体的に図１１を参照して、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理について説明する。図１１において、実線はフレーム毎に取得された出力確率を示す。縦軸は出力確率の高さを下になるほど高くなるように示し、横軸は時間を示す。置換部１３７は、各フレームの出力確率を、そのフレームと、そのフレームの前のＮ１個のフレームと、そのフレームの後のＮ２個のフレームの中で最大の出力確率に置き換える。Ｎ１とＮ２は０を含む自然数であるが、Ｎ１とＮ２のいずれかは０ではないものとする。

クエリ音素列の先頭フレームｇ_１を音声信号の先頭フレームｆ_１に合わせた場合で、Ｎ１＝２、Ｎ２＝２として説明する。置換部１３７は、クエリ音素列の第１フレームｇ_１の出力確率Ｐ（１，１）を、その前にフレームが無いので、自身の第１フレームｇ_１のＰ（１，１）とその後の第２フレームｇ_２のＰ（１，２）と第３フレームｇ_３のＰ（１，３）の中で最大の出力確率と置換する。置換部１３７は、クエリ音素列の第２フレームｇ_２の出力確率Ｐ（１，２）を、その前の第１フレームｇ_１のＰ（１，１）と自身の第２フレームｇ_２のＰ（１，２）とその後の第３フレームｇ_３のＰ（１，３）と第４フレームｇ_４のＰ（１，４）の中で最大の出力確率と置換する。置換部１３７は、クエリ音素列の第３フレームｇ_３の出力確率Ｐ（１，３）を、その前の第１フレームｇ_１のＰ（１，１）と第２フレームｇ_２のＰ（１，２）と、自身の第３フレームｇ_３のＰ（１，３）と、その後の第４フレームｇ_４のＰ（１，４）と第５フレームｇ_５のＰ（１，５）の中で最大の出力確率と置換する。このように、置換部１３７は、第ｋフレームまで置換処理を行う。置換の結果、図１１に実線で示した出力確率は、破線で示したＬｏｗｅｒ−Ｂｏｕｎｄ化処理後の出力確率のように、時間方向において値の変化が小さくなった出力確率に変換される。

図８に戻って、尤度取得部１３８は、置換部１３７による置換処理後の出力確率に基づいて、区間指定部１３５が指定した尤度取得区間がクエリ音素列が発せられている区間であることの尤もらしさを示す尤度を取得する。具体的には、尤度取得部１３８は、置換処理後の出力確率の対数をとって得られる値を、尤度取得区間の先頭から末尾までの全フレーム、この例ではｋフレームにわたって加算することにより、この尤度取得区間の尤度を取得する。すなわち、出力確率が高いフレームを多く含む尤度取得区間ほど、尤度取得部１３８が取得する尤度は高くなる。

繰り返し部１３９は、区間指定部１３５が指定する尤度取得区間の音声信号における指定区間を変えて、区間指定部１３５、第２出力確率取得部１３６、置換部１３７、及び尤度取得部１３８の処理を繰り返すように各部を制御する。１回目の処理では、検索対象の音声信号の第１フレームｆ_１から始まる第１尤度取得区間の尤度を求めたので、２回目は、検索対象の音声信号の第２フレームｆ_２から始まる第２尤度取得区間の尤度を求める。以後１フレームずつシフトして、第Ｐ尤度取得区間までの尤度を求める。

特定部１４０は、尤度取得部１３８が取得したＰ個の尤度に基づいて、検索対象の音声信号の中からクエリ音素列が発せられていると推定される推定区間を特定する。そのために、特定部１４０は、尤度取得部１３８が取得した尤度に基づいて、区間指定部１３５が指定した尤度取得区間の中から、検索文字列に対応する音声が発せられていることが推定される推定区間の候補を尤度が高い順にｘ個の区間を予備的に選択し、残りの尤度取得区間を候補から除外する。

このとき、区間指定部１３５が指定した尤度取得区間は多くの重なりを有するため、尤度が大きい区間は時系列的に連続して存在することが多い。そのため、特定部１４０が、尤度取得区間の中で単純に尤度が大きい区間から順に推定区間の候補を選択すると、選択される区間が検索対象の音声信号における一部に集中する可能性が大きくなる。これを避けるために、特定部１４０は、所定の選択時間長を設け、選択時間長ごとに、この所定の選択時間長の区間の中から開始する尤度取得区間の中で尤度が最大の尤度取得区間を１つずつ選択する。この所定の選択時間長は、例えば尤度取得区間の発話時間長Ｌの１／ｍ（例えばｍ＝２）に相当する時間長のように、尤度取得区間の発話時間長Ｌよりも短い時間に設定する。例えば、検索語「カテゴリ」の発話時間長が２秒以上（Ｌ≧２秒）であると仮定した場合、ｍ＝２とし、選択時間長を１秒に設定する。選択時間長（Ｌ／ｍ）毎に１個ずつ尤度取得区間が候補として選択され、残りは候補から除外される。これにより、特定部１４０は、推定区間の候補を、検索対象の音声信号全体にわたって満遍なく選択できる。特定部１４０は、この選択時間長（Ｌ／ｍ）毎に行う尤度取得区間の選択の中から、尤度が高い尤度取得区間をｘ個選択する。

次に、特定部１４０は、選択したｘ個の区間に対して、トライフォンモデル及び動的計画法（ＤＰ（Dynamic Programming）マッチング）に基づくより精度の高い尤度取得処理を実行する。ＤＰマッチングは、解析区間の尤度が最大になるように状態遷移を選択する手法である。トライフォンモデルでは、前後の音素との状態遷移を考慮する必要があるので、ＤＰマッチングにより、尤度取得区間の尤度が最大となるように、前後の音素の状態遷移を決める。

特定部１４０は、音声信号の特徴量とトライフォン音素列に含まれるトライフォンモデルとの対応を、ＤＰマッチングにより探索する。そして、特定部１４０は、トライフォンモデルに対する尤度に基づいて、特定部１４０が予備選択したx個の区間の中から、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。例えば、特定部１４０は、トライフォンモデルに基づく尤度が大きい順に、所定の数の区間を推定区間として特定する。もしくは、尤度が所定の値以上の区間を推定区間として特定する。特定部１４０が特定した区間の位置情報は、最終的な検索結果として、出力装置５が備える画面を介して外部に表示される。

以上のような物理的構成及び機能的構成を有する音声検索装置１００が実行する検索インデックス生成処置について、図１２に示すフローチャートを参照しながら説明する。

検索対象の音声データは予め音声信号記憶部１０１に記憶されており、音響モデルは音響モデル記憶部１０２に記憶されているものとする。ＣＰＵ６が、ＲＯＭ１から検索インデックス生成プログラムを読み出して、検索インデックス生成プログラムを実行することにより、図１２に示すフローチャートは開始する。

検索インデックス生成プログラムが実行されると、音声信号取得部１１１は、音声信号記憶部１０１から検索対象とする音声信号を読み出す（ステップＳ１１）。次に、フレーム設定部１１２は、図６を用いて説明したように、音声信号をフレーム長ごとに区分したフレームを設定する（ステップＳ１２）。次に、特徴量取得部１１３は、検索対象の音声信号の特徴量をフレーム番号ｆ_１からｆ_Ｎのフレーム毎に取得する（ステップＳ１３）。

次に、出力確率取得部１１４は、検索対象の音声信号に設定したフレーム番号ｆ_１からｆ_Ｎの区間が、音響モデルの音素の各状態と一致する確率である出力確率を取得し、図５に示すような置換処理前の検索インデックスを生成し、出力確率記憶部１０３に記憶する（ステップＳ１４）。

次に、代表確率設定部１２０は、出力確率取得部１１４が取得した図５に示す置換処理前の検索インデックスについて、音素を構成する状態の中で最も出力確率が高い状態の出力確率を、その音素の代表出力確率として設定する。そして、代表確率設定部１２０は、その音素の出力確率を、抽出した代表出力確率に置換することにより、図７に示すような代表出力確率に置換処理後の検索インデックスを作成する（ステップＳ１５）。

次に、音声検索装置１００が実行する音声検索処理について、図１３と図１４に示すフローチャートを参照しながら説明する。

ユーザは、予め、モノフォン音響モデルを音響モデル記憶部１０２に、音素の状態ごとの平均時間長を時間長記憶部１０４に、トライフォン音響モデルをトライフォンモデル記憶部１０６に記憶しておく。また、検索対象の音声信号から作成した図７に示す代表出力確率に置換処理後の検索インデックス（第１の確率）を予め作成し、出力確率記憶部１０３に記憶しておく。

ＣＰＵ６が、ＲＯＭ１から音声検索プログラムを読み出して、音声検索プログラムを実行し、ユーザが検索語（クエリ）をテキストデータとして入力装置４から入力することにより、図１３に示すフローチャートは開始する。

最初に、図１３を参照しながら、音声検索装置１００が、検索語（クエリ）の出力確率を求める処理について説明する。

ユーザが、検索語（クエリ）を入力装置４から入力すると、検索文字列取得部１３１は、クエリを取得する。そして、変換部１３２は、テキストデータとして取得したクエリを、モノフォン音素列に変換する（ステップＳ３１）。例えば、変換部１３２は、検索文字列として日本語「キゾクセイド」が入力された場合、「ｋ，ｉ，ｚ，ｏ，ｋ，ｕ，ｓ，ｅ，ｉ，ｄ，ｏ」という１１個のモノフォン音素から構成されるモノフォン音素列に変換する。ここで、各音素は、３つの状態で構成されているので、変換部１３２は、検索文字列「キゾクセイド」を３３個の状態から構成される状態列に変換することになる。

次に、変換部１３２は、音響モデル記憶部１０２に記憶されているモノフォンモデルの音素を、検索文字列取得部１３１が取得した検索文字列にしたがって並べる（ステップＳ３２）。

さらに、変換部１３２は、変換した３３個の状態のそれぞれの時間長を、時間長記憶部１０４から取得する（ステップＳ３３）。そして、変換部１３２は、３３個の状態のモノフォンモデルを取得した時間長の長さで並べたクエリ音素列を作成する。

このとき、ユーザが検索対象の音声信号の話速に適合するように、時間長を補正する補正係数を入力した場合、変換部１３２は、時間長記憶部１０４から取得した時間長を補正して、クエリ音素列を作成する。

次に、変換部１３２は、時間長記憶部１０４から取得した３３個の状態の時間長を合計した時間長を、検索文字列「キゾクセイド」が発話される発話時間長Ｌ（尤度取得区間の長さ）として導出する（ステップＳ３４）。

次に、フレーム列作成部１３３は、図９に示すように、変換部１３２が作成したクエリ音素列にフレームｇ_１からｇ_ｋを設定する（ステップＳ３５）。

次に、クエリ出力確率取得部１３４は、クエリ音素列の各状態が音響モデルの音素の各状態と一致するクエリ音素列の出力確率（第２の確率）を取得し、図１０に示すように、取得した出力確率を音素の各状態と対応付けてクエリ出力確率記憶部１０５に記憶する（ステップＳ３６）。以上の処理により、クエリ音素列の出力確率の生成処理は完了する。

次に、図１４を参照しながら、クエリの検索処理について説明する。クエリ音素列の出力確率（第２の確率）の取得が終わると、区間指定部１３５は、クエリ音素列が検索対象の音声信号と一致する確率（第３の確率）を取得する尤度取得区間を複数設定し、尤度取得部１３８は、それぞれの尤度取得区間からクエリ音素列が発せられている尤度を取得する。

そのために、区間指定部１３５は、まず、検索インデックスの先頭フレームｆ_１から始まる第１尤度取得区間を指定する（ステップＳ４１）。そして、第２出力確率取得部１３６は、式（４）によりクエリ音声信号の第１フレームｇ_１が検索対象の音声信号の第１フレームｆ_１と一致する確率（第３の確率）を求める。同様にして、第２出力確率取得部１３６は、第１尤度取得区間に含まれるクエリ音素列の第ｋフレームｇ_ｋまでの出力確率（第３の確率）を式（６）により求める（ステップＳ４２）。

第２出力確率取得部１３６が出力確率を取得すると、置換部１３７は、フレーム毎に取得した出力確率を、そのフレームとそのフレーム前のＮ１個のフレームとそのフレーム後のＮ２個のフレームの、合計（１＋Ｎ１＋Ｎ２）個のフレームの中で最大の出力確率に置き換えることにより、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を実行する（ステップＳ４３）。

尤度取得部１３８は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理後の出力確率をフレームごとに対数をとって加算することにより、区間指定部１３５が指定した第１尤度取得区間の尤度を取得する（ステップＳ４４）。尤度取得部１３８が尤度を取得すると、繰り返し部１３９は、検索対象の音声信号における全区間の尤度取得が終了したか否かを判別する（ステップＳ４５）。

全区間の尤度取得が終了していない場合（ステップＳ４５：Ｎｏ）、繰り返し部１３９は、検索インデックスの位置を１フレーム進めた次の尤度取得区間を指定する（ステップＳ４６）。そして、区間指定部１３５が新たに指定した尤度取得区間に対して上述したステップＳ４２〜Ｓ４５の処理を繰り返す。

区間指定部１３５が第ｓ尤度取得区間を指定すると、第２出力確率取得部１３６は、第ｓ尤度取得区間に含まれるｋ個のフレームのそれぞれについて、式（８）により出力確率を求める（ステップＳ４２）。そして、求めたフレーム毎の出力確率をＬｏｗｅｒ−Ｂｏｕｎｄ化処理を実行する（ステップＳ４３）。尤度取得部１３８は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理後の出力確率をフレームごとに対数をとって加算することにより、区間指定部１３５が指定した尤度取得区間の尤度を取得する（ステップＳ４４）。

このように、繰り返し部１３９は、第Ｐ尤度取得区間までの尤度を順次取得するように、区間指定部１３５、第２出力確率取得部１３６、置換部１３７、尤度取得部１３８を制御する。最終的に、全区間の尤度取得が終了すると（ステップＳ４５：ＹＥＳ）、音声検索装置１００は、取得した尤度に基づいてクエリ音声信号に対応する区間を特定する処理に移行する。

特定部１４０は、区間指定部１３５が指定したＰ個の尤度取得区間の中から、所定の選択時間長（例えば、１秒）毎に最も尤度が高い尤度取得区間を選択する（ステップＳ４７）。すなわち、特定部１４０は、最終的な検索結果として特定する区間の候補を、検索対象の音声信号の全体から満遍なく候補が残るように、予備選択する。

次に、特定部１４０は、トライフォン音響モデルを用いた詳細な音声検索処理を行う（ステップＳ４８）。すなわち、特定部１４０が予備選択した尤度取得区間について、トライフォンモデル及びＤＰマッチングに基づいて、第２出力確率取得部１３６及び尤度取得部１３８に比べて精度の高い第２の尤度取得処理を実行する。

そして、特定部１４０は、第２の尤度取得処理で取得した尤度に基づいて、検索文字列に対応する区間を特定する（ステップＳ４９）。例えば、特定部１４０は、第２の尤度取得処理で取得した第２の尤度が大きい順にソートし、上位の所定の数の区間を、検索文字列に対応する音声が発せられていることが推定される区間として特定する。そして、特定部１４０がクエリに対応する区間を特定すると、特定部１４０は、出力装置５を介して特定結果を出力する。以上で、音声検索処理の説明を終了する。

以上に説明したように、実施形態１に係る音声検索装置１００は、解析対象の音声信号をフレーム区間に分割し、分割したフレーム区間ごとに音声の特徴量を取得する。そして、フレーム区間ごとに音響モデルの特徴量と一致する出力確率を求め、代表出力確率に置換処理前の検索インデックスを生成する。音声検索装置１００は、この置換処理前の検索インデックスにおいて、音素を構成する複数の状態の中で最も高い出力確率を、その音素の代表出力確率とする置換処理を行う。この置換処理により、置換処理後の検索インデックスは、置換処理前の検索インデックスに比べると、「１／音素の状態の数」にデータサイズを小さくすることができる。この置換処理後の検索インデックスには、置換処理前の検索インデックスの各音素に存在していた、最も高い出力確率がそのままの値で残っている。つまり、置換処理後の検索インデックスは、音声の瞬時的な特徴を喪失していない。この置換処理後の検索インデックスを用いて音声検索を行うことにより、検索精度の低下を低減することができる。

（実施形態２）
上記の説明では、音声検索装置１００が、検索語（クエリ）をテキストデータとして入力する場合について説明した。しかし、クエリの入力方法はこれに限定する必要は無い。例えば、クエリを音声データとして入力することもできる。実施形態２に係る音声検索装置１００は、図２に示すように、検索インデックス生成部１１０と音声検索部１３０とから構成される。検索インデックス生成部１１０の構成は、実施形態１と同じである。音声検索部１３０の構成について、図１５を参照して説明する。

実施形態２に係る音声検索部１３０は、図１５に示すように、音響モデル記憶部１０２と、出力確率記憶部１０３と、クエリ出力確率記憶部１０５と、トライフォンモデル記憶部１０６と、クエリ音声信号取得部１５１と、フレーム列作成部１５２と、クエリ特徴量取得部１５３と、クエリ出力確率取得部１３４と、区間指定部１３５と、第２出力確率取得部１３６と、置換部１３７と、尤度取得部１３８と、繰り返し部１３９と、特定部１４０と、を備える。

クエリ音声信号取得部１５１は、入力装置４を介してユーザが入力したクエリ音声信号を音声データとして取得する。

フレーム列作成部１５２は、取得したクエリ音声信号について、フレーム長ごとの区間に分割したフレーム列を作成する。クエリ音声信号のフレーム列について図１６を参照して説明する。図１６（ａ）は、先頭から末尾までの時間長Ｌのクエリ音声信号の波形図である。時間長Ｌはクエリ音声信号が発話される時間長（発話時間長）である。縦軸はクエリ音声信号の強度を示し、横軸は時間を示す。図１６（ｂ）は、図１６（ａ）に示すクエリ音声信号において設定されるフレームを示す。フレーム列作成部１５２は、図１６（ｂ）に示すように、フレーム長ｔの区間を１シフト長Ｓずつシフトして、クエリ音声信号にフレーム番号ｇ_１からｇ_ｋの区間を設定する。フレームの設定方法は、実施形態１の説明と同じである。

図１５に戻って、クエリ特徴量取得部１５３は、フレーム列作成部１５２が作成したフレーム列を構成するフレーム（ｇ_１〜ｇ_ｋ）ごとにクエリ音声信号の特徴量を取得する。

クエリ出力確率取得部１３４は、クエリ特徴量取得部１５３が取得した特徴量に基づいて、この特徴量が音響モデルに含まれる音素の各状態の特徴量と一致する確率（第２の確率）をフレーム（ｇ_１〜ｇ_ｋ）ごとに取得し、音素の各状態と対応付けてクエリ出力確率記憶部１０５に記憶する。このクエリ音声信号について作成した出力確率のテーブルは、図１０に示すような出力確率のテーブルとなる。他の構成及び代表確率設定処理と音声検索処理については、実施形態１の説明と同じである。

以上説明したように、実施形態２に係る音声検索装置１００は、クエリを音声信号として入力した場合でも、音声検索をすることができる。

（実施形態３）
実施形態１と２では、検索対象の音声信号の検索インデックスのデータサイズを縮小する場合について説明した。実施形態３では、クエリの出力確率についてもデータサイズを縮小し、検索時の処理負荷を低減する場合について説明する。

実施形態３に係る音声検索装置１００は、図２に示すように、検索インデックス生成部１１０と音声検索部１３０とから構成される。検索インデックス生成部１１０の構成は、実施形態１と同じである。音声検索部１３０の構成は、図１７に示すように、クエリの出力確率についても代表確率を設定する代表確率設定部１２０を設ける。他の構成については、実施形態１の構成と同じである。

音声検索部１３０内に備えられた代表確率設定部１２０は、クエリの出力確率についても、音素を構成する状態の中で最も高い出力確率をその音素の代表確率で置換する処理をする。この置換処理により、図１０に示すクエリの出力確率は、図１８に示すような出力確率と成り、データサイズが縮小される。

このように検索対象の音声信号の検索インデックスに加えて、クエリの出力確率についても縮小処理を行うことにより、音声検索時の出力確率の計算式が、実施形態１で説明した式（８）から下記に示す式（９）とすることができる。つまり状態数ｚに関する計算処理を削減でき、状態数が３であれば計算量を１／３に、状態数が５であれば計算量を１／５に削減できる。

以上に説明したように、実施形態３に係る音声検索装置１００は、検索対象の検索インデックスに加えて、クエリの出力確率についても圧縮処理を行うので、データサイズを小さくすることができる。また、音声検索時の計算処理を１／「音素の状態の数」に軽減することができる。この置換処理後のクエリの出力確率には、置換処理前のその音素ごとの大きな出力確率の値が残っているので、その音素の中に極めて大きい出力確率を有する状態があるという情報が喪失されることはない。つまり、置換処理後の検索インデックスは、音声の瞬時的な特徴を喪失していない。したがって、この置換処理後のクエリの出力確率を用いて音声検索を行うことにより、検索精度の低下を低減しつつ、データサイズを縮小し、計算処理を軽くすることができる。

なお、実施形態２の音声検索部１３０の構成に、代表確率設定部１２０を設けるようにしてもよい。

なお、上記の説明では、音声検索装置１００が、検索インデックス生成部１１０を備える場合について説明したが、検索インデックス生成部１１０と音声検索部１３０とが別々の装置に実装されていてもよい。

また、上記の説明では、特定部１４０が、トライフォンモデルを用いた精度の高い検索を行う説明をした。トライフォンモデルを用いた検索を行うことにより検索精度は向上するが、処理時間が長くなる。したがって、トライフォンモデルを用いた検索を行うか否かは任意である。

また、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置１００による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するＣＰＵ等が実行できるように適用することで、本発明に係る音声検索装置１００として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。

また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体（ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＭＯ（Magneto Optical disc）等）に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
検索対象の音声信号を取得する取得手段と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段と、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を対応付けた検索インデックスを生成する検索インデックス生成手段と、
を備える検索インデックス生成装置。

（付記２）
検索対象の音声信号を取得する取得工程と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定工程と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得工程と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得工程と、
前記出力確率取得工程で取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定工程と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を対応付けた検索インデックスを生成する検索インデックス生成工程と、
を含む検索インデックス生成方法。

（付記３）
コンピュータを、
検索対象の音声信号を取得する取得手段、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を対応付けた検索インデックスを生成する検索インデックス生成手段、
として機能させるためのプログラム。

（付記４）
検索インデックス生成部と、音声検索部と、を備える音声検索装置であって、
前記検索インデックス生成部は、
検索対象の音声信号を取得する取得手段と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段と、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成手段と、
を備え、
前記音声検索部は、
前記第１の確率を記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記出力確率記憶手段が記憶する前記第１の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。

（付記５）
前記検索対象の音声信号と前記クエリ音声信号とを比較する区間であるフレーム毎に、前記クエリ音声信号の特徴量を取得するクエリ特徴量取得手段と、
前記クエリ特徴量取得手段が取得したクエリ音声信号の特徴量に基づき、前記第２の確率を、音響モデルの音素の各状態と対応付けてフレーム毎に取得するクエリ出力確率取得手段と、
をさらに備えることを特徴とする付記４に記載の音声検索装置。

（付記６）
前記検索対象の音声信号におけるクエリ音声信号の発話時間長を有する区間である尤度取得区間を複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記クエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を、前記第１の確率と前記第２の確率とに基づいて取得する尤度取得手段と、
をさらに備え、
前記区間指定手段は、前記検索対象の音声信号における前記尤度取得区間の先頭位置を変えて複数の尤度取得区間を指定し、
前記尤度取得手段は、前記複数の尤度取得区間のそれぞれについて尤度を取得し、
前記特定手段は、前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する、
ことを特徴とする付記４または５に記載の音声検索装置。

（付記７）
前記複数の尤度取得区間のそれぞれについて、前記第１の確率と前記第２の確率とを前記尤度取得区間に含まれるフレーム毎に掛け合わせた第３の確率を取得する第２出力確率取得手段をさらに設け、
前記尤度取得手段は、前記第２出力確率取得手段がフレーム毎に取得した第３の確率の対数をとった値を加算して前記尤度取得区間の尤度を取得する、
ことを特徴とする付記６に記載の音声検索装置。

（付記８）
前記クエリ出力確率取得手段が取得した第２の確率について、音素を構成する状態の中で最も出力確率が高い状態の出力確率を、その音素の代表出力確率として抽出し、抽出した出力確率をその音素の代表出力確率として設定する第２の代表確率設定手段をさらに設けたことを特徴とする付記５に記載の音声検索装置。

（付記９）
検索対象の音声信号を取得する取得工程と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定工程と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得工程と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得工程と、
前記出力確率取得工程で取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定工程と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成工程と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記第１の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定工程と、
を含む音声検索方法。

（付記１０）
コンピュータを、
検索対象の音声信号を取得する取得手段、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段、
前記出力確率取得工程で取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成手段、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記第１の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段、
として機能させるためのプログラム。

（付記１１）
検索インデックス生成部と、音声検索部と、を備える音声検索装置であって、
前記検索インデックス生成部は、
検索対象の音声信号を取得する取得手段と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段と、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成手段と、
を備え、
前記音声検索部は、
前記第１の確率を記憶する出力確率記憶手段と、
検索文字列を取得する検索文字列取得手段と、
前記検索文字列取得手段が取得した検索文字列を音素列に変換し、時間長記憶部から取得した音素の時間長の長さで音響モデルを並べたクエリ音素列を作成する変換手段と、
全クエリ音素列に含まれるフレーム毎に取得され、前記クエリ音素列の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記出力確率記憶手段が記憶する前記第１の確率とに基づいて、前記検索対象の音声信号の中からクエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。

１…ＲＯＭ、２…ＲＡＭ、３…外部記憶装置、４…入力装置、５…出力装置、６…ＣＰＵ、７…バス、１００…音声検索装置、１０１…音声信号記憶部、１０２…音響モデル記憶部、１０３…出力確率記憶部、１０４…時間長記憶部、１０５…クエリ出力確率記憶部、１０６…トライフォンモデル記憶部、１１０…検索インデックス生成部、１１１…音声信号取得部、１１２…フレーム設定部、１１３…特徴量取得部、１１４…出力確率取得部、１２０…代表確率設定部、１２１…圧縮インデックス生成部、１３０…音声検索部、１３１…検索文字列取得部、１３２…変換部、１３３…フレーム列作成部、１３４…クエリ出力確率取得部、１３５…区間指定部、１３６…第２出力確率取得部、１３７…置換部、１３８…尤度取得部、１３９…繰り返し部、１４０…特定部、１５１…クエリ音声信号取得部、１５２…フレーム列作成部、１５３…クエリ特徴量取得部

Claims

検索対象の音声信号を取得する取得手段と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段と、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を対応付けた検索インデックスを生成する検索インデックス生成手段と、
を備える検索インデックス生成装置。
検索対象の音声信号を取得する取得工程と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定工程と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得工程と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得工程と、
前記出力確率取得工程で取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定工程と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を対応付けた検索インデックスを生成する検索インデックス生成工程と、
を含む検索インデックス生成方法。
コンピュータを、
検索対象の音声信号を取得する取得手段、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を対応付けた検索インデックスを生成する検索インデックス生成手段、
として機能させるためのプログラム。
検索インデックス生成部と、音声検索部と、を備える音声検索装置であって、
前記検索インデックス生成部は、
検索対象の音声信号を取得する取得手段と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段と、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成手段と、
を備え、
前記音声検索部は、
前記第１の確率を記憶する出力確率記憶手段と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記出力確率記憶手段が記憶する前記第１の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
前記検索対象の音声信号と前記クエリ音声信号とを比較する区間であるフレーム毎に、前記クエリ音声信号の特徴量を取得するクエリ特徴量取得手段と、
前記クエリ特徴量取得手段が取得したクエリ音声信号の特徴量に基づき、前記第２の確率を、音響モデルの音素の各状態と対応付けてフレーム毎に取得するクエリ出力確率取得手段と、
をさらに備えることを特徴とする請求項４に記載の音声検索装置。
前記検索対象の音声信号におけるクエリ音声信号の発話時間長を有する区間である尤度取得区間を複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記クエリ音声信号が発せられている区間であることの尤もらしさを示す尤度を、前記第１の確率と前記第２の確率とに基づいて取得する尤度取得手段と、
をさらに備え、
前記区間指定手段は、前記検索対象の音声信号における前記尤度取得区間の先頭位置を変えて複数の尤度取得区間を指定し、
前記尤度取得手段は、前記複数の尤度取得区間のそれぞれについて尤度を取得し、
前記特定手段は、前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する、
ことを特徴とする請求項４または５に記載の音声検索装置。
前記複数の尤度取得区間のそれぞれについて、前記第１の確率と前記第２の確率とを前記尤度取得区間に含まれるフレーム毎に掛け合わせた第３の確率を取得する第２出力確率取得手段をさらに設け、
前記尤度取得手段は、前記第２出力確率取得手段がフレーム毎に取得した第３の確率の対数をとった値を加算して前記尤度取得区間の尤度を取得する、
ことを特徴とする請求項６に記載の音声検索装置。
前記クエリ出力確率取得手段が取得した第２の確率について、音素を構成する状態の中で最も出力確率が高い状態の出力確率を、その音素の代表出力確率として抽出し、抽出した出力確率をその音素の代表出力確率として設定する第２の代表確率設定手段をさらに設けたことを特徴とする請求項５に記載の音声検索装置。
検索対象の音声信号を取得する取得工程と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定工程と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得工程と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得工程と、
前記出力確率取得工程で取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定工程と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成工程と、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記第１の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定工程と、
を含む音声検索方法。
コンピュータを、
検索対象の音声信号を取得する取得手段、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段、
前記出力確率取得工程で取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成手段、
クエリ音声信号に含まれるフレーム毎に取得され、前記クエリ音声信号の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記第１の確率とに基づいて、前記検索対象の音声信号の中から前記クエリ音声信号が発せられていると推定される推定区間を特定する特定手段、
として機能させるためのプログラム。
検索インデックス生成部と、音声検索部と、を備える音声検索装置であって、
前記検索インデックス生成部は、
検索対象の音声信号を取得する取得手段と、
取得した音声信号の特徴量を解析する単位であるフレーム区間を設定する区間設定手段と、
前記フレーム区間ごとに前記検索対象の音声信号の特徴量を取得する特徴量取得手段と、
前記検索対象の音声信号の特徴量が音響モデルの音素を構成する各状態の特徴量と一致する確率である出力確率を前記フレーム区間ごとに取得する出力確率取得手段と、
前記出力確率取得手段が取得したそれぞれの音素を構成する各状態の出力確率の中で最も高い出力確率を、その音素の代表出力確率として設定する代表確率設定手段と、
前記検索対象とする音声信号のフレームごとに、前記それぞれの音素に前記代表出力確率を第１の確率として対応付けた検索インデックスを生成する検索インデックス生成手段と、
を備え、
前記音声検索部は、
前記第１の確率を記憶する出力確率記憶手段と、
検索文字列を取得する検索文字列取得手段と、
前記検索文字列取得手段が取得した検索文字列を音素列に変換し、時間長記憶部から取得した音素の時間長の長さで音響モデルを並べたクエリ音素列を作成する変換手段と、
全クエリ音素列に含まれるフレーム毎に取得され、前記クエリ音素列の特徴量が前記音響モデルに含まれる音素の各状態の特徴量と一致する確率であって、前記音響モデルの音素の各状態と対応付けられた第２の確率と、前記出力確率記憶手段が記憶する前記第１の確率とに基づいて、前記検索対象の音声信号の中からクエリ音声信号が発せられていると推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。