JP2016119000A

JP2016119000A - 音声検索装置、音声検索方法及びプログラム

Info

Publication number: JP2016119000A
Application number: JP2014259419A
Authority: JP
Inventors: 寛基富田; Hiroki Tomita
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2016-06-30
Anticipated expiration: 2034-12-22
Also published as: US9767790B2; CN105719643B; US20160180839A1; CN105719643A; JP6003972B2

Abstract

【課題】異なる話速の音声信号の中から検索語を高精度に検索することができる音声検索装置、音声検索方法及びプログラムを提供する。【解決手段】変換部１１２は、検索文字列を音素列に変換する。時間長導出部１１４は、話速の異なる複数の音素の継続時間長を使用して、検索文字列に対応する音声の発話時間長を複数導出する。区間指定部１１５は、検索対象の音声信号における尤度取得区間を指定する。尤度取得部１１９は、尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する。選択部１２１は、尤度が高くなる話速に対応する継続時間長を用いた尤度取得区間を選択する。特定部１２５は、選択された尤度取得区間のそれぞれについて取得した尤度に基づいて、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。【選択図】図２

Description

本発明は、音声検索装置、音声検索方法及びプログラムに関する。

音声や動画等のマルチメディアコンテンツの拡大・普及に伴い、高精度なマルチメディア検索技術が求められている。その中で検索対象とする検索語（クエリ）に対応する音声が発話されている箇所を音声信号の中から特定する音声検索の技術が研究されている。音声検索では、画像認識を用いた文字列検索の技術に比べて、十分な性能の検索手法が未だ確立されていない。そのため、十分な性能の音声検索を実現するための技術が様々に研究されている。

例えば非特許文献１は、音声信号同士を高速に比較する方法を開示している。これにより、音声で入力されたクエリに対応する箇所を、検索対象の音声信号の中から高速に特定することができる。

Ｙ．ＺｈａｎｇａｎｄＪ．Ｇｌａｓｓ． "Ａｎｉｎｎｅｒ−ｐｒｏｄｕｃｔｌｏｗｅｒ−ｂｏｕｎｄｅｓｔｉｍａｔｅｆｏｒｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ，" ｉｎＰｒｏｃ．ＩＣＡＳＳＰ，２０１１，ｐｐ．５６６０−５６６３．

非特許文献１が開示する技術では、検索対象の音声の話速とクエリ入力者の話速とが異なる場合には検索精度が低くなるという問題がある。

本発明は、以上のような課題を解決するためのものであり、異なる話速の音声信号の中から検索語を高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明に係る音声検索装置は、
検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。

本発明によれば、異なる話速の音声信号の中から検索語を高精度に検索することができる。

本発明の実施形態１に係る音声検索装置の物理構成を示す図である。本発明の実施形態１に係る音声検索装置の機能構成を示す図である。音素の状態について説明するための図である。話速に対応する発話時間長の導出について説明するための図である。（ａ）は、検索対象の音声信号の波形図である。（ｂ）は、検索対象の音声信号において設定されるフレームを示す図である。（ｃ）は、検索対象の音声信号において指定される尤度取得区間を示す図である。出力確率をＬｏｗｅｒ−Ｂｏｕｎｄ化する例を示す図である。選択部による候補区間の選択方法について説明するための図である。本発明の実施形態１に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。検索文字列に対応する区間を特定する処理の流れを示すフローチャートである。本発明の実施形態２に係る音声検索装置の機能構成を示す図である。選択部による候補区間の選択方法について説明するための図であり、（ａ）は取得した尤度の重み係数を掛けた後で候補区間を選択する方法を説明するための図であり、（ｂ）は重み係数の例を示す図である。選択部による候補区間の選択方法について説明するための図である。選択部による候補区間の選択方法について説明するための図であり、（ａ）は音声信号を分割した区分の最大の尤度を話速毎に記載した例であり、（ｂ）は音声信号を分割した区分毎に話速に対応する尤度の順位を示した例である。

以下、本発明の実施形態に係る音声検索装置、音声検索方法及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。

（実施形態１）
実施形態１に係る音声検索装置１００は、物理的には、図１に示すように、ＲＯＭ（Read Only Memory）１と、ＲＡＭ（Random Access Memory）２と、外部記憶装置３と、入力装置４と、出力装置５と、ＣＰＵ（Central Processing Unit）６と、バス７と、を備える。

ＲＯＭ１は、音声検索プログラムを記憶する。ＲＡＭ２は、ＣＰＵ６のワークエリアとして使用される。

外部記憶装置３は、例えば、ハードディスクから構成され、解析対象である音声信号、後述するモノフォンモデル、トライフォンモデル及び音素の時間長をデータとして記憶する。

入力装置４は、例えば、キーボードや音声認識装置から構成される。入力装置４は、ユーザが入力した検索語をテキストデータもしくは音声データとしてＣＰＵ６に供給する。出力装置５は、例えば、液晶ディスプレイの画面、スピーカを備える。出力装置５は、ＣＰＵ６によって出力されたテキストデータを画面に表示し、音声データをスピーカから出力する。

ＣＰＵ６は、ＲＯＭ１に記憶された音声検索プログラムをＲＡＭ２に読み出して、その音声検索プログラムを実行することにより、以下に示す機能を実現する。バス７は、ＲＯＭ１、ＲＡＭ２、外部記憶装置３、入力装置４、出力装置５、ＣＰＵ６、を接続する。

音声検索装置１００は、機能的には、図２に示すように、音声信号記憶部１０１と、モノフォンモデル記憶部１０２と、トライフォンモデル記憶部１０３と、時間長記憶部１０４と、検索文字列取得部１１１と、変換部１１２と、時間長取得部１１３と、時間長導出部１１４と、区間指定部１１５と、特徴量算出部１１６と、出力確率取得部１１７と、置換部１１８と、尤度取得部１１９と、繰り返し部１２０と、選択部１２１と、第２の変換部１２２と、第２の出力確率取得部１２３と、第２の尤度取得部１２４と、特定部１２５と、を備える。音声信号記憶部１０１、モノフォンモデル記憶部１０２、トライフォンモデル記憶部１０３、及び時間長記憶部１０４は、外部記憶装置３の記憶領域に構築されている。

音声信号記憶部１０１は、検索対象の音声信号を記憶する。検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、録音された講演の音声、映画の音声等に係る音声信号である。

モノフォンモデル記憶部１０２及びトライフォンモデル記憶部１０３は、音響モデルを記憶する。音響モデルは、検索文字列として取得可能な文字列を構成する各音素の周波数特性等をモデル化したものである。具体的には、モノフォンモデル記憶部１０２は、モノフォン（１音素）による音響モデル（モノフォンモデル）を記憶し、トライフォンモデル記憶部１０３は、トライフォン（３音素）による音響モデル（トライフォンモデル）を記憶する。

音素とは、話者により発話された音声を構成する成分の単位である。例えば、「カテゴリ」という単語は、「ｋ」、「ａ」、「ｔ」、「ｅ」、「ｇ」、「ｏ」、「ｒ」、「ｉ」という８個の音素から構成される。

モノフォンモデルは、１音素毎に生成された音響モデルであり、隣接する音素に依存しない、すなわち前後の音素状態との状態遷移を固定化した音響モデルである。トライフォンモデルは、３音素毎に生成された音響モデルであり、隣接する音素に依存する、すなわち前後の音素状態との状態遷移を考慮した音響モデルであり、モノフォンモデルに比べると多くの情報を有している。音声検索装置１００は、モノフォンモデル及びトライフォンモデルを一般的な方法で学習して、それぞれモノフォンモデル記憶部１０２及びトライフォンモデル記憶部１０３に予め記憶しておく。

モノフォンモデル及びトライフォンモデルとして、例えば、一般的な音声認識で利用される音響モデルであるＨＭＭ（Hidden Markov Model；隠れマルコフモデル）を利用できる。ＨＭＭは、統計的な手法により音声信号からその音声信号を構成する音素を確率的に推定するためのモデルである。ＨＭＭには、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量を出力する確率（出力確率）と、をパラメータとした標準パターンを用いる。

時間長記憶部１０４は、音響モデルで利用される各音素の継続時間長を、話速や性別や年齢層毎や発話環境等のグループに分けて、各音素の状態単位で記憶する。各音素の継続時間長とは、各音素が発せられるときの平均的な時間長である。各音素の状態とは、各音素を時間方向に細分化した単位であり、音響モデルの最小単位に相当する。各音素には予め状態数が定められている。例えば、各音素に定められた状態数が「３」である場合を例にとって説明する。例えば、音声「あ」の音素「ａ」は、図３に示すように、この音素の発声開始時を含む第１の状態「ａ１」と、中間状態である第２の状態「ａ２」と、発声終了時を含む第３の状態「ａ３」と、の３つの状態に分けられる。すなわち、１音素は３つの状態から構成される。音響モデルで利用される全音素の数をＱとした場合、（３×Ｑ）個の状態が存在する。音声検索装置１００は、（３×Ｑ）個の状態のそれぞれについて、大量の音声信号のデータから継続時間長の平均値を算出し、時間長記憶部１０４に予め記憶しておく。

本実施形態では、音素の継続時間長のグループを「早め」、「やや早め」、「普通」、「やや遅め」、「遅め」の５段階の話速に対応するグループに分ける。時間長記憶部１０４は、大量の音声データを「早め」、「やや早め」、「普通」、「やや遅め」、「遅め」の５段階の話速のグループに分け、各話速のグループごとに音素の継続時間長の平均を求め、話速に対応するグループごとに継続時間長を記憶しておく。

検索文字列取得部１１１は、入力装置４を介してユーザが入力した検索文字列を取得する。すなわち、ユーザは、音声検索装置１００に対して、検索対象の音声信号から目的の音声が発話されている部分を検索するための検索語（クエリ）を、文字列（テキスト）で与える。

変換部１１２は、隣接する音素に依存しない音響モデルであるモノフォンモデルの音素を、検索文字列取得部１１１が取得した検索文字列に従って並べて、検索文字列を音素列に変換する。すなわち、変換部１１２は、検索文字列に含まれる文字と同順で、各文字を発声したときの音素（モノフォン）を並べることにより、検索文字列をモノフォン音素列に変換する。

本実施形態では、日本語の「カテゴリ」を検索する場合について説明する。検索文字列として日本語「カテゴリ」が入力された場合、「カテゴリ」は「ｋ」と「ａ」と「ｔ」と「ｅ」と「ｇ」と「ｏ」と「ｒ」と「ｉ」との８つの音素（モノフォン）を含むため、変換部１１２は、音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」を生成する。

時間長取得部１１３は、時間長記憶部１０４から５段階の話速に対応した音素の状態毎の継続時間長を取得する。時間長導出部１１４は、変換部１１２が出力した音素列に含まれる各音素の状態毎の継続時間長を時間長取得部１１３から取得する。そして、取得した継続時間長に基づいて、検索文字列に対応する音声の時間長（以下、発話時間長）を導出する。

具体的には、時間長導出部１１４は、まず、「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」の８個の音素に対応する継続時間長を「早め」用の音素の継続時間長のグループから取得する。正確には、各音素は、３つの状態を有しており、状態毎に継続時間長のデータが蓄積されているので、２４個の継続時間長のデータを取得する。そして、取得した継続時間長を加算して音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」の話速「早め」用の発話時間長を導出する。次に、「やや早め」用の音素の継続時間長のグループから、同様にして２４個の継続時間長のデータを取得して、話速「やや早め」用の発話時間長を導出する。以下、同様にして、「普通」用の音素の継続時間長のグループ、「やや遅め」用の音素の継続時間長のグループ、「遅め」用の音素の継続時間長のグループから各々２４個の継続時間長のデータを取得して、発話時間長を導出する。

図４を用いて、より詳しく説明する。図４の１列目は、検索語「カテゴリ」の８音素の２４状態を記載している。２列目は、各音素の状態に対応する継続時間長を、時間長記憶部１０４の話速「早め」用の継続時間長のグループから取得した値である。そして、継続時間長を２４個合計した値（５１５ｍｓ）が、話速「早め」用の発話時間長である。３列目は、各音素の状態に対応する継続時間長を、時間長記憶部１０４の話速「やや早め」用の継続時間長のグループから取得した値である。そして、継続時間長を２４個合計した値（６３５ｍｓ）が、話速「やや早め」用の発話時間長である。以下同様にして、話速「普通」用の発話時間長（７５５ｍｓ）、話速「やや遅め」用の発話時間長（８７５ｍｓ）、話速「遅め」用の発話時間長（９９５ｍｓ）を取得する。

すなわち、音声検索装置１００は、音素の状態毎に発話の際の典型的な５種類の継続時間長を予め時間長記憶部１０４に用意しておき、検索語について話速に対応する５つの音声の発話時間長を導出する。

図２に戻って、区間指定部１１５は、音声信号記憶部１０１から検索対象の音声信号を取得して、検索対象の音声信号における先頭から順に、時間長導出部１１４が導出した発話時間長の区間を尤度取得区間として指定する。尤度とは、検索対象の音声と音響モデルから作成した検索文字列に対応する音素列との類似の度合を示す指標である。区間指定部１１５は、検索文字列から変換された音素列と音声信号とを比較するため、指定した尤度取得区間内の音声信号を切り出して、切り出した音声信号を音素列に含まれる各音素の状態に対応するフレームに分割する。区間指定部１１５は、時間長導出部１１４が導出した５つの時間長のそれぞれについて、切り出した音声信号に含まれる各フレームと音素列に含まれる各音素の状態とを対応付ける。

フレームとは、音素の１状態の時間長を有する時間窓である。具体的に図５を参照して、検索対象の音声信号に設定されるフレームについて説明する。図５（ａ）は、先頭から末尾までの時間長Ｔの検索対象の音声信号の波形図である。縦軸は波形の振幅を示し、横軸は時間ｔを示す。図５（ｂ）は、図５（ａ）に示す音声信号において設定されるフレームを示す。１行目は、音声信号の先頭から始まる第０フレーム列である。「カテゴリ」の音素数は８音素で、２４状態あるので、第０フレーム列に含まれるフレーム数は２４個である。話速に対応して音素の継続時間長が異なるので、フレーム長Ｆも話速に対応して異なることになる。したがって、音声信号の先頭から始まる第０フレーム列も、「早め」、「やや早め」、「普通」、「やや遅め」、「遅め」の５段階の話速に対応して５つのフレーム列を設定する。２行目の第１フレーム列は、音声信号の先頭から所定のシフト長Ｓだけシフトして設定する。第１フレーム列もフレーム数は２４個であり、話速に対応して５つのフレーム列を設定する。以後、同様にしてフレーム列の先頭位置を１シフト長Ｓずつシフトして第（Ｐ−１）フレーム列まで、それぞれ５つのフレーム列を設定する。

シフト長Ｓは、音声信号のどの位置に検索対象の検査語が存在するかを検索する検索位置の精度を決める長さである。シフト長Ｓは、最も短いフレーム長よりも短い値に設定される固定値である。本実施形態においては、図４に示す音素の状態の最短が１５ｍｓであるので、それより短い５ｍｓに設定する。

図５（ｃ）は、検索対象の音声信号において区間指定部１１５により指定される尤度取得区間を示す。区間指定部１１５は、まず始めに、音声信号の先頭から始まる２４個のフレームを含む第０フレーム列の区間を時間長Ｌの第０尤度取得区間に指定する。第０フレーム列が話速に対応して５つあるので、第０尤度取得区間も話速に対応して５つ指定する。次に、音声信号の先頭から１シフト長Ｓだけシフトした位置から始まる第１フレーム列の区間を第１尤度所得区間に指定する。第１尤度指定区間についても５つ指定する。以下、同様にして、第（Ｐ−１）フレーム列の区間に対応する第（Ｐ−１）尤度取得区間までを５つずつ指定する。

図２に戻って、特徴量算出部１１６は、区間指定部１１５が指定した尤度取得区間における検索対象の音声信号の特徴量を、フレーム毎に算出する。この特徴量は、音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギーの２乗和やその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。

例えば周知のように、特徴量は、周波数軸系特徴パラメータ１２成分（１２次元）とパワー系特徴パラメータ１成分（１次元）、直前の時間窓の各成分との差分を取ったもの、すなわち△周波数軸系特徴パラメータ１２成分（１２次元）と△パワー系特徴パラメータ１成分（１次元）、及び直前の時間窓の各成分との差分の差分を取ったもの、すなわち△△周波数軸系特徴パラメータ１２成分（１２次元）の、合計３８成分を有する３８次元ベクトル量として構成される。

図２に戻って、出力確率取得部１１７は、特徴量算出部１１６が算出した特徴量に基づいて、この特徴量が音素列に含まれる各音素から出力される確率（出力確率）を、フレーム毎に取得する。具体的には、出力確率取得部１１７は、モノフォンモデル記憶部１０２からモノフォンモデルを取得して、特徴量算出部１１６が算出した各フレームにおける特徴量と、音素列に含まれる音素の状態の中でこのフレームに対応する状態のモノフォンモデルとを比較する。そして、各フレームにおける特徴量が対応する状態から出力される確率を計算する。
出力確率取得部１１７は、この出力確率を区間指定部１１５が指定した話速に対応する５つの尤度取得区間について、尤度取得区間に含まれる２４個のフレームのそれぞれに対して出力確率を計算する。

置換部１１８は、出力確率取得部１１７が取得した出力確率のそれぞれを、隣接する前後数フレームの中で最大の出力確率に置換する。この置換処理は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化と呼ばれる。この処理も５つの尤度取得区間のそれぞれについて行う。

具体的に図６を参照して、Ｌｏｗｅｒ−Ｂｏｕｎｄ化を説明する。図６において、実線はフレーム毎に取得された出力確率を示す。縦軸は出力確率の高さを下になるほど高くなるように示し、横軸は時間ｔを示す。置換部１１８は、各フレームの出力確率を、そのフレームと、そのフレームの前のＮ１個のフレームと、そのフレームの後のＮ２個のフレームの中で最大の出力確率に置き換える。Ｎ１とＮ２は０を含む自然数であるが、Ｎ１とＮ２のいずれかは０ではないものとする。Ｎ１＝Ｎ２＝２として説明する。フレーム列内の第１フレームの出力確率は、その前にフレームが無いので、自身の第１フレームとその後の第２フレームと第３フレームの中で最大の出力確率と置換する。第２フレームの出力確率は、その前の第１フレームと自身の第２フレームとその後の第３フレームと第４フレームの中で最大の出力確率と置換する。第３フレームの出力確率は、その前の第１フレームと第２フレームと、自身の第３フレームと、その後の第４フレームと第５フレームの中で最大の出力確率と置換する。このように、第２４フレームまで置換処理を行う。置換の結果、実線で示した出力確率は、破線で示したＬＢ（Ｌｏｗｅｒ−Ｂｏｕｎｄ）化出力確率のように、時間方向において値の変化が小さくなった出力確率に変換される。

このようなＬｏｗｅｒ−Ｂｏｕｎｄ化により、時間長記憶部１０４に記憶された各音素の継続時間長と実際の音声信号の継続時間長との誤差、及び、時間長導出部１１４が導出した検索文字列に対応する音声の発話時間長と実際の音声信号の発話時間長との誤差を、前後数フレームの範囲内で小さくすることができる。

尤度取得部１１９は、置換部１１８による置換後の出力確率に基づいて、区間指定部１１５が指定した尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する。具体的には、尤度取得部１１９は、置換後の出力確率の対数をとって得られる値を、尤度取得区間の先頭から末尾までの全フレーム、この例では２４フレームにわたって加算することにより、この尤度取得区間の尤度を取得する。すなわち、出力確率が高いフレームを多く含む尤度取得区間ほど、尤度取得部１１９が取得する尤度は大きくなる。これを話速に対応する５つの尤度取得区間について行う。
なお、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。

繰り返し部１２０は、区間指定部１１５が指定する尤度取得区間の音声信号における指定区間を変えて、区間指定部１１５、特徴量算出部１１６、出力確率取得部１１７、置換部１１８、及び尤度取得部１１９の処理を繰り返すように各部を制御する。

具体的に図５（ｂ）と（ｃ）を参照して説明すると、繰り返し部１２０の制御を受けて、区間指定部１１５はフレーム列の先頭位置を１シフト長（Ｓ＝１０ｍｓ）分シフトさせて第１フレーム列を指定し、第１フレーム列の区間を第１尤度取得区間として新たに指定する。第１尤度取得区間についても話速に対応する５つの尤度取得区間を指定する。そして、繰り返し部１２０は、新たに指定した第１尤度取得区間において、上述した特徴量算出部１１６から尤度取得部１１９までの処理と同様の処理を各部に実行させて、第１尤度取得区間の尤度を取得するように各部を制御する。

同様に、繰り返し部１２０は、第２尤度取得区間から第（Ｐ−１）尤度取得区間まで、区間指定部１１５が指定する尤度取得区間を１シフト長（Ｓ＝１０ｍｓ）ずつシフトさせて、シフト後の尤度取得区間のそれぞれについて尤度を取得するように各部を制御する。その結果、検索対象の音声信号を１シフト長Ｓずつシフトした尤度取得区間のそれぞれに対して、モノフォンモデルから作成した音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」に対する尤度が取得される。
なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Ｐは、音声信号の時間長Ｔと尤度取得区間の時間長Ｌとシフト長Ｓとを用いて、Ｐ＝（Ｔ−Ｌ＋Ｓ）／Ｓと定められる。話速に対応して５つずつ設定されるので、尤度取得区間は、全部で５Ｐ個の尤度取得区間のそれぞれに対して尤度を求めることになる。

選択部１２１は、尤度取得部１１９が取得した尤度に基づいて、区間指定部１１５が指定した尤度取得区間の中から、検索文字列に対応する音声が発せられていることが推定される推定区間の候補を尤度が高い順にｘ個を選択する。すなわち、選択部１２１は、後段のトライフォンモデルに基づくより精度の高い尤度取得の計算量を抑えるため、尤度を取得した５Ｐ個の尤度取得区間の中から最終的な検索結果の候補となる区間ｘ個を予備的に選択し、残りの尤度取得区間を候補から除外する。

このとき、区間指定部１１５が指定した尤度取得区間は多くの重なりを有するため、尤度が大きい区間は時系列的に連続して存在することが多い。そのため、選択部１２１が、尤度取得区間の中で単純に尤度が大きい区間から順に推定区間の候補を選択すると、選択される区間が検索対象の音声信号における一部に集中する可能性が大きくなる。

これを避けるために、選択部１２１は、所定の選択時間長を設け、選択時間長ごとに、この所定の選択時間長の区間の中から開始する尤度取得区間の中で尤度が最大の尤度取得区間を１つずつ選択する。この所定の選択時間長は、例えば尤度取得区間の時間長Ｌの１／ｍ（例えば１／２）に相当する時間長のように、尤度取得区間の時間長Ｌよりも短い時間に設定する。例えば、検索語「カテゴリ」の発話時間長が２秒以上（Ｌ≧２秒）であると仮定した場合、ｍ＝２とし、選択時間長を１秒に設定する。選択時間長（Ｌ／ｍ）毎に１個ずつ尤度取得区間が候補として選択され、残りは候補から除外される。これにより、選択部１２１は、推定区間の候補を、検索対象の音声信号全体にわたって満遍なく選択できる。
選択部１２１は、この選択時間長（Ｌ／ｍ）毎に行う尤度取得区間の選択の中から、尤度が高い尤度取得区間をｘ個選択する。この選択を５つの話速に対応する尤度取得区間ごとに行う。つまり、５つの話速のそれぞれについて、選択された尤度取得区間の中から尤度が高いｘ個（合計５ｘ個）の尤度取得区間を選択する。

次に、選択部１２１は、候補となる区間をさらに限定するために、どの話速に対応する尤度取得区間の尤度が良いかを比較し、尤度が高くなる話速に対応するｘ個の尤度取得区間のみを最終候補とし、残りの尤度取得区間を候補から除外する。

選択する個数ｘ個を１０個（ｘ＝１０）とした例を図７を用いて説明する。「カテゴリ」の発話時間長は２秒以上かかると仮定して、ここでは選択時間長を１秒に設定する。まず、選択部１２１は、話速「早め」に対応するＰ個の尤度取得区間の中から、選択時間長（１秒）毎に尤度が最も高い尤度取得区間を１つずつ選択する。そして、１秒ごとに選択した尤度取得区間の中から尤度が高い順に１０個の尤度取得区間を選択し、図７に示すように話速「早め」の尤度の欄に記憶する。そして、選択部１２１は、この１０個の尤度を合計する（０．９３）。次に、話速「やや早め」に対応するＰ個の尤度取得区間の中から、選択時間長（１秒）毎に尤度が最も高い尤度取得区間を１つずつ選択する。そして、選択した尤度取得区間の中から尤度が高い順に１０個の尤度取得区間を選択し、図７に示すように話速「やや早め」の尤度の欄に記憶する。そして、選択部１２１は、この１０個の尤度を合計する（１．３９）。以下同様にして、話速「普通」に対応する合計値は（２．１２）であり、話速「やや遅め」に対応する合計は（２．５１）であり、話速「遅め」に対応する合計は（１．３３）である。

次に、選択部１２１は、以上の合計値を比較して、合計値が最も大きい（２．５１）である「やや遅め」に対応する尤度取得区間１０個のみを最終候補として選択する。

選択部１２１による選択結果は、出力装置５が備える画面を介して外部に表示される。その後、音声検索装置１００は、選択したｘ個の区間に対して、トライフォンモデル及び動的計画法（ＤＰ（Dynamic Programming）マッチング）に基づくより精度の高い尤度取得処理を実行する。ＤＰマッチングは、解析区間の尤度が最大になるように状態遷移を選択する手法である。トライフォンモデルでは、前後の音素との状態遷移を考慮する必要があるので、ＤＰマッチングにより、尤度取得区間の尤度が最大となるように、前後の音素の状態遷移を決める。

第２の変換部１２２は、隣接する音素に依存する第２の音響モデルであるトライフォンモデルの音素を、検索文字列取得部１１１が取得した検索文字列に従って並べて、検索文字列を第２の音素列であるトライフォン音素列に変換する。例えば、検索文字列として日本語「カテゴリ」が入力された場合、「カテゴリ」は「ｋ−ａ＋ｔ」と「ａ−ｔ＋ｅ」と「ｔ−ｅ＋ｇ」と「ｅ−ｇ＋ｏ」と「ｇ−ｏ＋ｒ」と［ｏ−ｒ＋ｉ」との６つのトライフォンを含むため、第２の変換部１２２は、これら６つのトライフォンを並べたトライフォン音素列を生成する。さらに、始端と終端には２音素からなるバイフォン「ｋ＋ａ」と「ｒ−ｉ」を割り当てることもある。この場合には、予めバイフォンモデルを外部記憶装置３に記憶しておく。なお、「−」記号の左側にある音素は中心音素よりも前にあり、「＋」記号の右側にある音素は中心音素よりも後にあることを示す。

第２の出力確率取得部１２３は、選択部１２１が推定区間の候補として選択した話速「やや遅め」に対応する１０個の尤度取得区間における検索対象の音声信号の特徴量が、第２の変換部１２２が変換した第２の音素列（トライフォン音素列）に含まれる各音素から出力される出力確率を、フレーム毎に取得する。具体的には、第２の出力確率取得部１２３は、トライフォンモデル記憶部１０３からトライフォンモデルを取得して、特徴量算出部１１６が算出した各フレームにおける特徴量と、トライフォン音素列に含まれる各トライフォンのモデルとを比較する。そして、各フレームにおける特徴量が各トライフォンから出力される確率を計算する。

第２の尤度取得部１２４は、選択部１２１が推定区間の候補として選択した話速「やや遅め」の１０個の尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第２の尤度を、選択部１２１がｘ個（１０個）に限定した区間の候補のそれぞれについて取得する。第２の尤度は、第２の音素列であるトライフォン音素列に基づいて取得されるため、モノフォン音素列に基づいて尤度取得部１１９が取得した尤度に比べて、より精度が高い指標である。

第２の尤度取得部１２４は、第２の出力確率取得部１２３が取得した出力確率に基づいて、選択部１２１が限定した尤度取得区間に含まれる各フレームについて、音声信号の特徴量とトライフォン音素列に含まれるトライフォンモデルとの対応を、ＤＰマッチングにより探索する。そして、選択部１２１が選択した尤度取得区間における各フレームのそれぞれについて取得された出力確率の対数をとって得られる値を加算することにより、その区間における第２の尤度を得る。

特定部１２５は、第２の尤度取得部１２４が取得した第２の尤度に基づいて、選択部１２１が選択した話速「やや遅め」の１０個の区間の候補の中から、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。例えば、特定部１２５は、第２の尤度取得部１２４が取得した第２の尤度が大きい順に所定の数の区間を、推定区間として特定する。もしくは、尤度が所定の値以上の区間を推定区間として特定する。特定部１２５が特定した区間の位置情報は、最終的な検索結果として、出力装置５が備える画面を介して外部に表示される。

以上のような物理的構成及び機能的構成を有する音声検索装置１００が実行する音声検索処理について、図８に示すフローチャートを参照して説明する。

ユーザは、予め、「早め」、「やや早め」、「普通」、「やや遅め」、「遅め」の５段階の話速に対応する大量の音声データから、各話速に対応する音素の状態毎の継続時間長を求め、時間長記憶部１０４に記憶しておく。解析対象の音声信号は、例えば、１時間の講演の録音された音声とし、音声信号記憶部１０１に記憶しておく。ここでは、検索対象のクエリは、「カテゴリ」とする。

ＣＰＵ６が、ＲＯＭ１から音声検索プログラムを読み出して、音声検索プログラムを実行することにより、図８に示すフローチャートは開始する。ユーザが、検索対象のクエリ「カテゴリ」を入力装置４から入力し、検索文字列取得部１１１が検索文字列を取得する（ステップＳ１１）。検索文字列取得部１１１が検索文字列を取得すると、変換部１１２及び第２の変換部１２２は、検索文字列を音素列に変換し（ステップＳ１２）、音素列の音素順に音響モデルの音素を並べる（ステップＳ１３）。具体的には、変換部１１２は、検索文字列をモノフォンモデルによるモノフォン音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」に変換し、第２の変換部１２２は、検索文字列をトライフォンモデルによるトライフォン音素列「ｋ−ａ＋ｔ」と「ａ−ｔ＋ｅ」と「ｔ−ｅ＋ｇ」と「ｅ−ｇ＋ｏ」と「ｇ−ｏ＋ｒ」と［ｏ−ｒ＋ｉ」に変換する。また、バイフォンモデル「ｋ＋ａ」と「ｒ−ｉ」を追加しても良い。

検索文字列を音素列に変換すると、時間長導出部１１４は、検索文字列に対応する音声の発話時間長を導出する（ステップＳ１４）。具体的には、時間長導出部１１４は、時間長記憶部１０４において音素の状態毎に記憶された継続時間長を加算することにより、検索文字列に対応する音声の発話時間長を導出する。時間長記憶部１０４は、「早め」、「やや早め」、「普通」、「やや遅め」、「遅め」の５段階の音素の継続時間長のグループを記憶している。従って、時間長導出部１１４は、音素の継続時間長のグループのそれぞれに対して時間長を導出するので、発話時間長として５種類の時間長を導出する。

具体的には、図４を用いて説明したように、時間長導出部１１４は、検索語「カテゴリ」の発話時間長として、話速「早め」用の発話時間長（５１５ｍｓ）、話速「やや早め」用の発話時間長（６３５ｍｓ）、話速「普通」用の発話時間長（７５５ｍｓ）、話速「やや遅め」用の発話時間長（８７５ｍｓ）、話速「遅め」用の発話時間長（９９５ｍｓ）、を導出する。

図８に戻って、時間長導出部１１４が５つの時間長を導出すると、区間指定部１１５は、フレーム列の先頭位置から始まる第０フレーム列を指定する（ステップＳ１５）。最初に、話速「早め」用に図４の２列目に示す話速「早め」用の「ｋ１」から「ｉ３」までの２４状態の継続時間長をフレーム長とする第０フレーム列を指定する。そして、音声信号の先頭から（０ｍｓ〜５１５ｍｓ）の区間を話速「早め」用の第０尤度取得区間に指定する。次に、話速「やや早め」用に図４の３列目に示す話速「やや早め」用の「ｋ１」から「ｉ３」までの２４状態の継続時間長をフレーム長とする第０フレーム列を指定する。そして、音声信号の先頭から（０ｍｓ〜６３５ｍｓ）の区間を話速「やや早め」用の第０尤度取得区間に指定する。以下、同様にして、話速「普通」に対して音声信号の先頭から（０ｍｓ〜７５５ｍｓ）までの第０尤度取得区間を指定し、話速「やや遅め」に対して音声信号の先頭から（０ｍｓ〜８７５ｍｓ）までの第０尤度取得区間を指定し、話速「遅め」に対して音声信号の先頭から（０ｍｓ〜９９５ｍｓ）までの区間を第０尤度取得区間として指定する。５つの尤度取得区間の先頭位置は同じであるが、時間長が異なるので終了位置は異なった位置となる。

区間指定部１１５が尤度取得区間を指定すると、特徴量算出部１１６は、指定した尤度取得区間の音声信号の特徴量を、フレーム毎に算出する（ステップＳ１６）。
具体的には、まず、話速「早め」用の第０フレーム列の第１フレームについて、図４に示す音素「ｋ１」に対する特徴量を計算する。次に、第０フレーム列の第２フレームについて、音素「ｋ２」に対する特徴量を計算する。以下、同様にして、第０フレーム列の第２４フレームについて、「ｉ３」までの話速「早め」用の特徴量を計算する。
話速「早め」用の第０フレーム列について特徴量の計算が終わったら、次に、話速「やや早め」用の第０フレーム列について、同様にして２４フレーム分の特徴量の計算を行う。以下、同様にして、話速「普通」「やや遅め」「遅め」用の第０フレーム列について、それぞれ２４フレーム分の特徴量の計算を行う。

そして、出力確率取得部１１７は、特徴量算出部１１６が算出した特徴量と対応するモノフォンモデルとに基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する（ステップＳ１７）。すなわち、（話速５種類×フレーム数２４フレーム）分の出力確率を求める。

出力確率取得部１１７が出力確率を取得すると、置換部１１８は、フレーム毎に取得した出力確率を、そのフレームとそのフレーム前のＮ１個のフレームとそのフレーム後のＮ２個のフレームの、合計（１＋Ｎ１＋Ｎ２）個のフレームの中で最大の出力確率に置き換えることにより、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を実行する（ステップＳ１８）。これにより、時間長導出部１１４が導出した発話時間長と実際の音声信号の発話時間長との誤差を縮小する。

尤度取得部１１９は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部１１５が指定した尤度取得区間の尤度を取得する（ステップＳ１９）。尤度取得部１１９は、区間指定部１１５が指定した５つの尤度取得区間に対してこの処理を行う。尤度取得部１１９が尤度を取得すると、繰り返し部１２０は、検索対象の音声信号における全区間の尤度取得が終了したか否かを判定する（ステップＳ２０）。

全区間の尤度取得が終了していない場合（ステップＳ２０；ＮＯ）、区間指定部１１５が直前に指定した第０フレーム列を１シフト長（Ｓ＝１０ｍｓ）だけシフトした第１フレーム列を指定し、その区間を第１尤度取得区間として指定して（ステップＳ２１）、音声検索処理はステップＳ１６に戻る。つまり、区間指定部１１５は、第１フレーム列の開始位置を音声信号の先頭から１シフト長Ｓ（１０ｍｓ）だけシフトした位置から指定する。したがって、話速「早め」に対する第１フレーム列として、音声信号の先頭から（１０ｍｓ〜５２５ｍｓ）までの区間を指定し、この区間を話速「早め」に対応する第１尤度取得区間に指定する。次に、話速「やや早め」に対する第１フレーム列を指定し、音声信号の先頭から（１０ｍｓ〜６４５ｍｓ）までの区間を話速「やや早め」用の第１尤度取得区間に指定する。以下、同様にして、話速「普通」に対して音声信号の先頭から（１０ｍｓ〜７６５ｍｓ）までの第１尤度取得区間を指定し、話速「やや遅め」に対して、音声信号の先頭から（１０ｍｓ〜８８５ｍｓ）までの第１尤度取得区間を指定し、話速「遅め」に対して、音声信号の先頭から（１０ｍｓ〜１００５ｍｓ）までの区間を第１尤度取得区間として指定する。

そして、繰り返し部１２０は、区間指定部１１５が新たに指定した尤度取得区間に対して上述したステップＳ１６〜Ｓ２０の処理を繰り返して、特徴量算出、出力確率取得、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を行って、尤度を取得するように各部を制御する。このように、繰り返し部１２０は、検索対象の音声信号の末尾に達するまで、尤度取得区間を１シフト長（Ｓ＝１０ｍｓ）ずつシフトさせて順次尤度を取得するように、区間指定部１１５、特徴量算出部１１６、出力確率取得部１１７、置換部１１８、尤度取得部１１９を制御する。

最終的に、全区間の尤度取得が終了すると（ステップＳ２０；ＹＥＳ）、音声検索処理は、取得した尤度に基づいて検索文字列に対応する区間を特定する処理（ステップＳ２２）に移行する。この特定処理の詳細については、図９に示すフローチャートを参照して説明する。

尤度取得処理が終了した状態において、選択部１２１は、区間指定部１１５が指定した話速毎にＰ個指定した尤度取得区間の中から、所定の選択時間長（１秒）毎に各話速について１つずつ尤度取得区間を選択する（ステップＳ１０１）。つまり、１秒ごとに５つの尤度取得区間が選択される。さらに選択部１２１は、このように選択した区間の中から、尤度が高い順にｘ個の尤度取得区間を各話速毎に選択する（ステップＳ１０２）。すなわち、選択部１２１は、最終的な検索結果として特定する区間の候補を、検索対象の音声信号の全体から満遍なく候補が残るように、予備選択する。

選択部１２１は、さらに最終候補を限定するために、５つの話速の中から最も尤度が高い話速に対応する尤度取得区間のみを最終候補として選択する（ステップＳ１０３）。具体的には、５つの話速のそれぞれについて、選択したｘ個の区間に対応する尤度を加算した値が最も大きい話速に対応するｘ個の尤度取得区間のみを最終候補として選択する。つまり、５ｘ個の候補をｘ個に限定する。

選択する個数ｘ個を１０個とした場合について、図７を用いて説明したように、まず、選択部１２１は、話速「早め」に対応するＰ個の尤度取得区間を、選択時間長（１秒）毎に１つずつ選択した尤度取得区間の中から尤度が高い順に１０個の尤度取得区間を選択し、この１０個の尤度を合計する（０．９３）。同様にして、話速「やや早め」に対応する合計値（１．３９）、話速「普通」に対応する合計値（２．１２）、話速「やや遅め」に対応する合計値（２．５１）、話速「遅め」に対応する合計値（１．３３）を取得する。次に、選択部１２１は、以上の合計値を比較して、合計値が最も大きい（２．５１）である「やや遅め」に対応する尤度取得区間１０個のみを予備選択として残す。

選択部１２１による予備選択の後、第２の出力確率取得部１２３は、トライフォン音素列に基づいて、選択部１２１が選択したｘ個（１０個）の区間における出力確率を、フレーム毎に取得する（ステップＳ１０４）。そして、第２の尤度取得部１２４は、選択部１２１が選択した区間の尤度をＤＰマッチングにより取得する（ステップＳ１０５）。すなわち、第２の出力確率取得部１２３及び第２の尤度取得部１２４は、トライフォンモデル及びＤＰマッチングに基づいて、出力確率取得部１１７及び尤度取得部１１９に比べて精度の高い尤度取得処理を実行する。

第２の尤度取得部１２４が第２の尤度を取得すると、特定部１２５は、取得した第２の尤度に基づいて、検索文字列に対応する区間を特定する（ステップＳ１０６）。例えば、特定部１２５は、第２の尤度取得部１２４が取得した第２の尤度が大きい順に所定の数の区間を、検索文字列に対応する音声が発せられていることが推定される区間として特定する。ステップＳ１０６の処理が終了すると、図９に示すフローチャートの処理は、図８に示すフローチャートのステップＳ２３に遷移する。

図８に示すフローチャートの説明に戻って、検索文字列に対応する区間を特定すると、特定部１２５は、出力装置５を介して特定結果を出力する（ステップＳ２３）。以上により、音声検索装置１００が実行する音声検索処理は終了する。

以上説明したように、実施形態１に係る音声検索装置１００は、異なる話速に対応した複数の音素の継続時間長を使用して、検索対象の音声信号の中からクエリに対応する音声が発せられていることが推定される区間を特定するので、検索対象の話速が異なる場合でも、検索対象の音声信号の中から、クエリに対応する音声区間を特定できる。

また、実施形態１に係る音声検索装置１００は、計算処理負荷が軽い予備選択において異なる話速に対応する多くの継続時間長を使用した計算処理を行うことにより、高い検索精度を確保している。そして、予備選択で候補の区間数を限定することにより、情報量が多いトライフォンモデルを用いた高精度ではあるが計算処理が重たい処理を減らしている。その結果、音声検索装置１００は、計算量を抑えつつ、高精度に音声検索できる。

なお、実施形態１の説明では、区間指定部１１７が１シフト長Ｓずつフレーム列の先頭位置をシフトさせ、シフトさせる毎に特徴量の算出と出力確率の取得と尤度の取得を行う処理をＰ回繰り返す説明をした。しかし、区間指定部１１７が、最初に第０フレーム列から第（Ｐ−１）フレーム列の指定と、第０尤度取得区間から第（Ｐ−１）尤度取得区間の指定を行った後で、特徴量の計算と出力確率の取得と尤度の取得をするようにしてもよい。

また、バイフォンモデルを併用する場合には、モノフォンモデルでの予備選択をした後で、バイフォンモデルを用いた２次選択を行い、その後でトライフォンモデルを用いた３次選択（最終選択）をすることもできる。また、モノフォンモデルを用いた予備検索においてモノフォンモデルとバイフォンモデルを組み合わせた１次選択とすることも、トライフォンモデルを用いた最終選択においてバイフォンモデルとトライフォンモデルとを組み合わせた最終選択とすることもできる。

（実施形態２）
次に、本発明の実施形態２について説明する。

実施形態１に係る音声検索装置１００は、尤度の取得に用いる出力確率の算出を、検索文字列取得部１１１が検索文字列を取得してから実行した。しかし、本発明はこれに限定されるものではない。実施形態２に係る音声検索装置は、検索文字列に対応する区間の候補を予備選択する際のモノフォンモデルを用いた計算量の多い出力確率の算出を予めしておくことにより、検索時の高速化を図る。つまり、検索対象とする音声信号の全区間に対して、検索語に対応する出力確率を予め求めておき、検索インデックスとして格納しておく。そして、検索時には、後で入力される検索語の音素列に対応する出力確率を検索インデックスから取得して加算するだけで尤度取得区間の尤度を取得するようにし、検索時の処理を軽くする。以下、説明する。

実施形態２に係る音声検索装置３００は、実施形態１に係る音声検索装置１００と同様、物理的には図１０に示したように構成される。

実施形態２に係る音声検索装置３００は、機能的には図１０に示すように構成される。音声検索装置３００は、実施形態１に係る音声検索装置１００が備えていたモノフォンモデル記憶部１０２を備えず、その代わりに出力確率記憶部１０５を備える。出力確率を取得する際にはモノフォンモデルは必要であるが、この出力確率の取得は別装置で取得し、取得した結果を音声検索装置３００の出力確率記憶部１０５に記憶するので、音声検索装置３００はモノフォンモデル記憶部１０２を備えていない。出力確率記憶部１０５は、外部記憶装置３の記憶領域に構築されている。以下、実施形態１と異なるところについて説明する。

出力確率記憶部１０５は、検索対象の音声信号に含まれるフレーム毎に、音響モデルの各音素と、該各音素から検索対象の音声信号の特徴量が出力される出力確率と、を対応付けて記憶する。別装置で出力確率を取得する際に用いる音響モデルは、予備選択時に使用するモノフォンモデルである。例えば日本語のモノフォンは、全部で約４０種類の音素を有する。出力確率記憶部１０５は、これら４０種類の音素に無音１音素を加え、これらに対して、「早め」、「やや早め」、「普通」、「やや遅め」、「遅め」の５段階の話速のグループを有するので、２０５種類の音素６１５状態に対して、予め検索対象の音声信号の先頭から末尾までの検索語に対応する出力確率を計算した結果を、検索インデックスとして出力確率記憶部１０５に格納する。

なお、モノフォンモデルを用いた出力確率を予め算出する処理は、他の情報処理装置が出力確率を算出し、その結果を音声検索装置３００が取得して、出力確率記憶部１０５に記憶する。

検索文字列取得部１１１、変換部１１２については、実施形態１で行った説明と同じである。

出力確率取得部１１７は、変換部１１２が検索文字列をモノフォン音素列に変換すると、この音素列に含まれる各音素とフレームとを対応付けて記憶された出力確率を、出力確率記憶部１０５に記憶された出力確率の中から取得する。具体的には、出力確率取得部１１７は、フレーム毎に記憶されたモノフォンモデルの全音素の出力確率の中から、検索に必要となる音素の出力確率を、検索対象の音声信号の全フレームについて取得する。

置換部１１８、時間長導出部１１４、尤度取得部の説明も実施形態１で行った説明と同じである。繰り返し部１２０は、区間指定部１１５が指定する尤度取得区間を１シフト長Ｓずつシフトさせて、区間指定部１１５、尤度取得部１１９の処理を繰り返すように制御する。そして、検索対象の音声信号において指定可能な尤度取得区間のそれぞれについて尤度を取得するように各部を制御する。

選択部１２１、特徴量算出部１１６、第２の変換部１２２、第２の出力確率取得部１２３、第２の尤度取得部１２４、特定部１２５の説明も実施形態１で行った説明と同じである。

以上説明したように、実施形態２に係る音声検索装置３００は、予備選択の尤度取得の際は出力確率を算出せず、予め検索対象の音声信号全体の出力確率を算出しておき、検索インデックスとして保持しておく。そして、検索時には、音声検索装置３００は、その検索インデックスを利用して尤度取得区間の尤度を求める。そして、その尤度を求めた尤度取得区間の中から最終候補を予備選択し、候補として残った区間に対してのみ、検索文字列に含まれるトライフォン音素を使用して出力確率を算出する。その結果、高速に音声検索できる。

（変形例１）
実施形態１において図７を用いて説明したように、選択部１２１は、最も尤度が高くなる時間長を選択する際に、時間長毎に尤度が高い順にｘ個（１０個）の尤度を加算して、尤度の加算値が最も大きくなる時間長に基づく尤度取得区間を選択した。しかし、選択方法はこれに限定する必要はない。本変形例１では、図１１に例示するように、尤度が高いほど大きな重み係数を掛けた補正後の尤度の加算値を用いて、どの話速に基づく尤度取得区間の尤度が良いかを比較する。
図１１（ｂ）は、重み係数の例であり、尤度の順位が高いほど大きな重み係数を設定する。図１１（ａ）は、どの話速に対応する尤度取得区間の尤度が良いかを比較する際に、尤度に重み係数を掛けた後の値で比較する例である。
図１１（ａ）の補正前尤度の欄には、選択部１２１が選択した１０個の尤度が尤度の高い順にソートされている。図１１（ａ）の補正後尤度の欄は、補正前尤度に重み係数を掛けた値を記載する。
具体的には、話速「早め」の尤度順位１の補正前尤度（０．２０）に、図１１（ｂ）の尤度順位１用の重み係数（１０）を掛け、補正後尤度（２．００）を求める。話速「早め」の尤度順位２の補正前尤度（０．１７）に、図１１（ｂ）の尤度順位２用の重み係数（９）を掛け、補正後尤度（１．５３）を取得する。以下同様にして、尤度順位１０の補正前尤度（０．０３）に、図１１（ｂ）の尤度順位１０用の重み係数（１）を掛け、補正後尤度（０．０３）までを取得する。話速「やや早め」「普通」「やや遅め」「遅め」についても同様にして補正後尤度を求める。
そして、重み係数を掛けた補正後の尤度１０個を加算した値を比較し、合計値が最も大きい話速に対応する尤度取得区間のグループを最終候補の区間として残す。図１１に示す場合では、「やや遅め」のグループの補正後の尤度の合計（１７．０）が最も大きいので、「やや遅め」の尤度取得区間のグループを最終候補の区間として残す。
この処理によって、尤度の順位が上位である区間に適した発話時間長を選択することになるので、尤度の順位が高い区間の検索精度を上げることができる。例えば、検索対象の音声信号の全体に渡って漏れなく検索対象のクエリを検索するのではなく、ノイズの多い音声信号の中に検索対象とするクエリが含まれているか否かを判断する場合などに好適である。

（変形例２）
選択部１２１が最終候補の区間を選択する方法として、以上の実施形態１と２及び変形例１で説明したように、尤度の加算値で時間長を選択した場合、飛びぬけて尤度の高い区間があった場合に尤度の加算値も大きくなるので、音声信号の全体に対して最適な発話時間長を選択することについて誤判定を生じる場合がある。特に選択部１２１が選択するx個の数が小さい場合には誤った判定を生じやすくなる。そこで、尤度の絶対値を用いるのではなく、５つの時間長に基づく尤度取得区間の相対的な順位比較をすることによって、発話時間長に基づく尤度取得区間のグループを選択する。

図１２を用いて具体例を説明する。図１２は、図７における尤度が高い順に話速に対応する５つのグループ間の順位をつけている。図７の順位１の行では、「やや遅め」の尤度が（０．５５）と一番高いので１位とする。次いで、「普通」の尤度が（０．４）で２番目に高いので２位とする。この様に、各グループの順位１の中でグループ間の尤度を比較して順位をつける。順位２の２行目では、「普通」の尤度が（０．３５）と最も高いので１位とし、「やや遅め」が（０．３２）と２番目に高いので２位とする。このよに、尤度の順位１から１０までのそれぞれの行について、尤度が高い順にグループ間の順位付けを行う。そして、その順位の合計を比較して、合計値が小さいグループを選択する。図１２に示す例では、「やや遅め」の順位の合計が最も小さいので、「やや遅め」に対応する時間長に基づく尤度取得区間１０個を最終候補の区間として選択する。
この処理により、飛びぬけて尤度が高い区間があった場合などの発話時間長の選択誤りを防止することができる。したがって、検索対象とする音声信号の全体において、検索精度を良くすることができる。

（変形例３）
変形例２では、尤度の順位が同じ順位の尤度を話速間で比較し、どの話速に基づく尤度が相対的に良いかを比較した。しかし、この手法では、例えば、１時間の音声信号の中の短い区間（例えば１０分間）に尤度の高い区間が集中する場合がある。この場合、長い音声信号の全区間で平均的に良い話速を選択できたとは言えない。
そこで、選択部１２１が最終候補の区間を選択する方法として、以下の選択方法を採用することもできる。すなわち、音声信号を所定数Ｎ個の区分に分割する。分割の仕方は、例えば、音声信号を１００の区分に分割するとか、所定の時間長（例えば、１分ごとの時間長）の区分に分割する。分割した各区分の中で、どの時間長を発話時間長とした尤度取得区間の尤度が高いかを順位付ける。そして、Ｎ個の区分における平均順位が最も高い時間長に基づく尤度取得区間を最終候補の尤度取得区間として選択する。

図１３を用いて具体例を説明する。図１３は、音声信号の時間長Ｔ（例えば、１０分）を１分ずつの１０個の区分に分割している。図１３（ａ）は、１０個の区分の中で最も高い尤度を話速毎に記載してある。図１３（ｂ）は、区分ごとに、どの話速に基づく尤度が高いかを順位付けする。
図１３（ａ）では、区分１（最初の１分間）では、「やや遅め」の尤度（０．５５）が一番高いので１位とし、「普通」の尤度（０．４０）が２番目に高いので２位とし、「やや早め」が３位（０．３５）、「遅め」が４位（０．３０）、「早め」が５位（０．２０）の順位である。区分２（２分目）では、「普通」の尤度が一番高いので１位（０．３５）、「やや遅め」の尤度が２番目に高いので２位（０．３２）、「やや早め」が３位（０．２１）、「遅め」が４位（０．１８）、「早め」が５位（０．１７）の順位である。このように、各区分の中で話速に対応する尤度を比較して順位付けを行い、区分１から区分１０まで順位をつける。そして、その順位の合計を比較して、合計値が小さいものを選択する。図１３（ｂ）に示す例では、「やや遅め」の順位の合計が最も小さいので、「やや遅め」に対応する時間長に基づく尤度取得区間を最終候補の区間として選択する。
この処理により、飛びぬけて尤度が高い区分があった場合などの発話時間長の選択誤りを防止することができる。したがって、検索対象とする音声信号の全区分において、検索精度を良くすることができる。

なお、以上の実施形態１と２の説明では、音素の継続時間長の話速を５段階のグループに分類した場合について説明したが、本発明の用途はこれには限定されない。音素の継続時間長を細かく分類するほど検索精度は上がるが、処理負荷が大きくなり処理時間は長くなる。しかし、モノフォンモデルを用いた予備検索は、トライフォンモデルを用いた検索に対して処理負荷が軽い。そのため、モノフォンモデルの継続時間長のグループ数を１０倍にしても、音声検索処理の全体時間はあまり増加しない。この傾向を踏まえて、装置仕様の要求にあった継続時間長のグループ数を決めることが望ましい。

また、以上の説明では、検索語を入力装置４からテキストデータとして入力する場合について説明したが、検索語を音声認識装置のマイクに音声データとして入力し、音声認識装置で検索語を認識するようにしてもよい。

また、以上の説明では、話速情報（継続時間長の変更率）を入力装置４から入力する場合について説明した。しかし、音声信号の一部を解析し、単位時間あたりに含まれる音声のピッチ情報から話速を推定し、その推定に基づいて継続時間長に対する変更率を決めるようにしてもよい。

また、実施形態１及び２における図８を用いた検索処理のフローチャート図の説明では、予備選択の工程において、音素の５種類の継続時間長のグループを並列的に同一処理ループの中で処理する方法について説明した。しかし、予備選択の工程で候補とする尤度取得区間を絞り込むようなフローチャートであればこれに限定されることはない。例えば、まず１つの話速（例えば、早め）に対応する継続時間長に基づいて、予備選択の候補としてｘ個の区間を選択する。その後、異なる話速（例えば、やや早め）に対応する継続時間長に基づいて、予備選択の候補区間をｘ個選択する。そして、話速毎に予備選択をした後で、どの話速に基づく尤度取得区間を選択するかを決めてもよい。

また、以上の実施形態の説明では、選択部１２１は話速に対応した５つの時間長に基づくそれぞれＰ個の尤度取得区間の中から、尤度の高い順に各ｘ個を選択する場合について説明した。しかし、選択の仕方はこれに限定されることはない。例えば、特定の尤度の値を閾値として、その値以上の尤度取得区間を選択してもよい。特定部１２５が行う最終的な推定区間の特定においても、第２の尤度が大きい順に所定の数の区間を推定区間として特定するのではなく、尤度が所定の値以上である区間を推定区間として特定してもよい。

また、選択部１２１は、５つの時間長の中から尤度の高い１つの時間長を選択した後で、トライフォンモデルを用いた最終処理を行う場合について説明したが、処理時間に余裕がある場合には、時間長の選択を省略してもよい。

また、検索精度を要求されない場合には、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を省略することもできる。検索精度を要求される場合においても、多くの話速に対応する継続時間長を用いて検索する場合には、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を省略できる場合がある。

また、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置１００，３００による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するＣＰＵ等が実行できるように適用することで、本発明に係る音声検索装置として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。

また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体（ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＭＯ（Magneto Optical disc）等）に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。

（付記２）
前記尤度取得手段が取得した尤度に基づいて、前記複数の時間長の中から１つの時間長を選択する選択手段を更に備え、
前記特定手段は、前記選択された時間長を有する尤度取得区間について取得した尤度に基づいて、前記選択された時間長の尤度取得区間の中から前記推定区間を特定する、
ことを特徴とする付記１に記載の音声検索装置。

（付記３）
前記選択手段は、同じ時間長の尤度取得区間について取得した尤度を尤度が高い順に所定個加算した加算値を、前記複数の時間長のそれぞれについて取得し、取得した加算値を比較して、前記複数の時間長の中から加算値が最大となる時間長を選択する、
ことを特徴とする付記２に記載の音声検索装置。

（付記４）
前記選択手段は、前記加算値を、同じ時間長の尤度取得区間について取得した尤度を、尤度が高いほど大きな重み係数を乗じて加算することによって取得する、
ことを特徴とする付記３に記載の音声検索装置。

（付記５）
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする付記１から４のいずれかに記載の音声検索装置。

（付記６）
前記検索対象の音声信号に含まれるフレーム毎に、音響モデルの音素の各状態と、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態から出力される出力確率と、を対応付けて記憶する出力確率記憶手段をさらに備え、
前記出力確率取得手段は、前記変換手段が前記検索文字列を前記音素列に変換すると、該音素列に含まれる音素の各状態に対応付けて記憶された出力確率を、前記出力確率記憶手段に記憶された出力確率の中から前記尤度取得区間に含まれるフレーム毎に取得する、
ことを特徴とする付記５に記載の音声検索装置。

（付記７）
前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のＮ１個のフレームとそのフレームの後のＮ２個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記Ｎ１とＮ２は０を含む自然数であって、Ｎ１とＮ２のいずれかは０ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記６に記載の音声検索装置。

（付記８）
前記変換手段は、隣接する音素に依存しない音響モデルの音素を並べて、前記検索文字列を前記音素列に変換し、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記選択手段は、前記尤度取得手段が取得した尤度に基づいて、前記区間指定手段が指定した尤度取得区間の中から前記推定区間の複数の候補を選択し、
隣接する音素に依存する第２の音響モデルの音素を並べて、前記検索文字列を第２の音素列に変換する第２の変換手段と、
前記第２の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第２の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第２の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第２の尤度取得手段が取得した第２の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする付記２に記載の音声検索装置。

（付記９）
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を１つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする付記８に記載の音声検索装置。

（付記１０）
検索文字列を音素列に変換する変換ステップと、
前記変換ステップにおいて変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
前記時間長取得ステップにおいて取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出ステップと、
検索対象の音声信号における前記時間長導出ステップにおいて導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定ステップと、
前記区間指定ステップにおいて指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップにおいて指定した尤度取得区間のそれぞれについて前記尤度取得ステップにおいて取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。

（付記１１）
コンピュータを、
検索文字列を音素列に変換する変換手段、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。

１…ＲＯＭ、２…ＲＡＭ、３…外部記憶装置、４…入力装置、５…出力装置、６…ＣＰＵ、７…バス、１００，３００…音声検索装置、１０１…音声信号記憶部、１０２…モノフォンモデル記憶部、１０３…トライフォンモデル記憶部、１０４…時間長記憶部、１０５…出力確率記憶部、１１１…検索文字列取得部、１１２…変換部、１１３…時間長取得部、１１４…時間長導出部、１１５…区間指定部、１１６…特徴量算出部、１１７…出力確率取得部、１１８…置換部、１１９…尤度取得部、１２０…繰り返し部、１２１…選択部、１２２…第２の変換部、１２３…第２の出力確率取得部、１２４…第２の尤度取得部、１２５…特定部

Claims

検索文字列を音素列に変換する変換手段と、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段と、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
前記尤度取得手段が取得した尤度に基づいて、前記複数の時間長の中から１つの時間長を選択する選択手段を更に備え、
前記特定手段は、前記選択された時間長を有する尤度取得区間について取得した尤度に基づいて、前記選択された時間長の尤度取得区間の中から前記推定区間を特定する、
ことを特徴とする請求項１に記載の音声検索装置。
前記選択手段は、同じ時間長の尤度取得区間について取得した尤度を尤度が高い順に所定個加算した加算値を、前記複数の時間長のそれぞれについて取得し、取得した加算値を比較して、前記複数の時間長の中から加算値が最大となる時間長を選択する、
ことを特徴とする請求項２に記載の音声検索装置。
前記選択手段は、前記加算値を、同じ時間長の尤度取得区間について取得した尤度を、尤度が高いほど大きな重み係数を乗じて加算することによって取得する、
ことを特徴とする請求項３に記載の音声検索装置。
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項１から４のいずれか１項に記載の音声検索装置。
前記検索対象の音声信号に含まれるフレーム毎に、音響モデルの音素の各状態と、前記検索対象の音声信号の特徴量が音響モデルから作成した音素の各状態から出力される出力確率と、を対応付けて記憶する出力確率記憶手段をさらに備え、
前記出力確率取得手段は、前記変換手段が前記検索文字列を前記音素列に変換すると、該音素列に含まれる音素の各状態に対応付けて記憶された出力確率を、前記出力確率記憶手段に記憶された出力確率の中から前記尤度取得区間に含まれるフレーム毎に取得する、
ことを特徴とする請求項５に記載の音声検索装置。
前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のＮ１個のフレームとそのフレームの後のＮ２個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記Ｎ１とＮ２は０を含む自然数であって、Ｎ１とＮ２のいずれかは０ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項６に記載の音声検索装置。
前記変換手段は、隣接する音素に依存しない音響モデルの音素を並べて、前記検索文字列を前記音素列に変換し、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記選択手段は、前記尤度取得手段が取得した尤度に基づいて、前記区間指定手段が指定した尤度取得区間の中から前記推定区間の複数の候補を選択し、
隣接する音素に依存する第２の音響モデルの音素を並べて、前記検索文字列を第２の音素列に変換する第２の変換手段と、
前記第２の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第２の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第２の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第２の尤度取得手段が取得した第２の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする請求項２に記載の音声検索装置。
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を１つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする請求項８に記載の音声検索装置。
検索文字列を音素列に変換する変換ステップと、
前記変換ステップにおいて変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
前記時間長取得ステップにおいて取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出ステップと、
検索対象の音声信号における前記時間長導出ステップにおいて導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定ステップと、
前記区間指定ステップにおいて指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップにおいて指定した尤度取得区間のそれぞれについて前記尤度取得ステップにおいて取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
コンピュータを、
検索文字列を音素列に変換する変換手段、
前記変換手段が変換した音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
前記時間長取得手段が取得した継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長の候補として、複数の異なる話速に対応した複数の時間長を導出する時間長導出手段、
検索対象の音声信号における前記時間長導出手段が導出した時間長を有する区間である尤度取得区間を、前記複数の時間長のそれぞれについて複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。