JP2016118999A

JP2016118999A - 音声検索装置、音声検索方法及びプログラム

Info

Publication number: JP2016118999A
Application number: JP2014259418A
Authority: JP
Inventors: 寛基富田; Hiroki Tomita
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2014-12-22
Filing date: 2014-12-22
Publication date: 2016-06-30
Anticipated expiration: 2034-12-22
Also published as: JP6003971B2; CN105718503A; CN105718503B; US20160180834A1; US9754024B2

Abstract

【課題】異なる話速の音声信号の中から検索語を高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供する。【解決手段】変換部１１２は検索文字列を音素列に変換し、話速情報取得部１１４は検索対象の音声信号の話速に応じた話速情報を取得する。時間長変更部１１５は話速情報に応じて音素の平均継続時間長を変更し、時間長導出部１１６は変更された継続時間長を使用して検索文字列に対応する音声の発話時間長を導出する。区間指定部１１７は検索対象の音声信号における尤度取得区間を複数指定し、尤度取得部１２１は尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する。特定部１２７は、選択された尤度取得区間のそれぞれについて取得した尤度に基づいて、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。【選択図】図２

Description

本発明は、音声検索装置、音声検索方法及びプログラムに関する。

音声や動画等のマルチメディアコンテンツの拡大・普及に伴い、高精度なマルチメディア検索技術が求められている。その中で、検索対象とする検索語（クエリ）に対応する音声が発話されている箇所を音声信号の中から特定する音声検索の技術が研究されている。音声検索では、画像認識を用いた文字列検索の技術に比べて、十分な性能の検索手法が未だ確立されていない。そのため、十分な性能の音声検索を実現するための技術が様々に研究されている。

例えば非特許文献１は、音声信号同士を高速に比較する方法を開示している。これにより、音声で入力されたクエリに対応する箇所を、検索対象の音声信号の中から高速に特定することができる。

Ｙ．ＺｈａｎｇａｎｄＪ．Ｇｌａｓｓ． "Ａｎｉｎｎｅｒ−ｐｒｏｄｕｃｔｌｏｗｅｒ−ｂｏｕｎｄｅｓｔｉｍａｔｅｆｏｒｄｙｎａｍｉｃｔｉｍｅｗａｒｐｉｎｇ，" ｉｎＰｒｏｃ．ＩＣＡＳＳＰ，２０１１，ｐｐ．５６６０−５６６３．

非特許文献１が開示する技術では、検索対象の音声の話速とクエリ入力者の話速とが異なる場合には検索精度が低くなるという問題がある。

本発明は、以上のような課題を解決するためのものであり、異なる話速の音声信号の中から検索語を高精度に検索することが可能な音声検索装置、音声検索方法及びプログラムを提供することを目的とする。

上記目的を達成するため、本発明に係る音声検索装置は、
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする。

本発明によれば、異なる話速の音声信号の中から検索語を高精度に検索することができる。

本発明の実施形態１に係る音声検索装置の物理構成を示す図である。本発明の実施形態１に係る音声検索装置の機能構成を示す図である。音素の状態について説明するための図である。音素の各状態の継続時間長を伸縮するための話速情報の例を示す図である。音素の状態の継続時間長を伸縮する計算例を示す図である。（ａ）は、検索対象の音声信号の波形図である。（ｂ）は、検索対象の音声信号において設定されるフレームを示す図である。（ｃ）は、検索対象の音声信号において指定される尤度取得区間を示す図である。出力確率をＬｏｗｅｒ−Ｂｏｕｎｄ化する例を示す図である。本発明の実施形態１に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。検索文字列に対応する区間を特定する処理の流れを示すフローチャートである。継続時間長を伸縮する変更率を母音の継続時間長のみに設定する例を示す図である。本発明の実施形態２に係る音声検索装置が実行する音声検索処理の流れを示すフローチャートである。継続時間長を伸縮する変更率を音素の状態ごとに設定する例を示す図である。継続時間長を伸縮する変更率を音素の特定の状態のみに設定する例を示す図である。

以下、本発明の実施形態に係る音声検索装置、音声検索方法及びプログラムについて、図面を参照しながら説明する。なお、図中同一又は相当する部分には同一符号を付す。

（実施形態１）
実施形態１に係る音声検索装置１００は、物理的には、図１に示すように、ＲＯＭ（Read Only Memory）１と、ＲＡＭ（Random Access Memory）２と、外部記憶装置３と、入力装置４と、出力装置５と、ＣＰＵ（Central Processing Unit）６と、バス７と、を備える。

ＲＯＭ１は、音声検索プログラムを記憶する。ＲＡＭ２は、ＣＰＵ６のワークエリアとして使用される。

外部記憶装置３は、例えば、ハードディスクから構成され、検索対象である音声信号、後述するモノフォンモデル、トライフォンモデル及び音素の時間長をデータとして記憶する。

入力装置４は、例えば、キーボードや音声認識装置から構成される。入力装置４は、ユーザが入力した検索語をテキストデータとしてＣＰＵ６に供給する。出力装置５は、例えば、液晶ディスプレイの画面、スピーカを備える。出力装置５は、ＣＰＵ６によって出力されたテキストデータを画面に表示し、音声データをスピーカから出力する。

ＣＰＵ６は、ＲＯＭ１に記憶された音声検索プログラムをＲＡＭ２に読み出して、その音声検索プログラムを実行することにより、以下に示す機能を実現する。バス７は、ＲＯＭ１、ＲＡＭ２、外部記憶装置３、入力装置４、出力装置５、ＣＰＵ６、を接続する。

音声検索装置１００は、機能的には図２に示すように、音声信号記憶部１０１と、モノフォンモデル記憶部１０２と、トライフォンモデル記憶部１０３と、時間長記憶部１０４と、検索文字列取得部１１１と、変換部１１２と、時間長取得部１１３と、話速情報取得部１１４と、時間長変更部１１５と、時間長導出部１１６と、区間指定部１１７と、特徴量算出部１１８と、出力確率取得部１１９と、置換部１２０と、尤度取得部１２１と、繰り返し部１２２と、選択部１２３と、第２の変換部１２４と、第２の出力確率取得部１２５と、第２の尤度取得部１２６と、特定部１２７と、を備える。音声信号記憶部１０１、モノフォンモデル記憶部１０２、トライフォンモデル記憶部１０３、及び時間長記憶部１０４は、外部記憶装置３の記憶領域に構築されている。

音声信号記憶部１０１は、検索対象の音声信号を記憶する。検索対象の音声信号は、例えばニュース放送等の音声、録音された会議の音声、録音された講演会の音声、映画の音声等に係る音声信号である。

モノフォンモデル記憶部１０２及びトライフォンモデル記憶部１０３は、音響モデルを記憶する。音響モデルは、検索文字列として取得可能な文字列を構成する各音素の周波数特性等をモデル化したものである。具体的には、モノフォンモデル記憶部１０２は、モノフォン（１音素）による音響モデル（モノフォンモデル）を記憶し、トライフォンモデル記憶部１０３は、トライフォン（３音素）による音響モデル（トライフォンモデル）を記憶する。

音素とは、話者により発話された音声を構成する成分の単位である。例えば、「カテゴリ」という単語は、「ｋ」、「ａ」、「ｔ」、「ｅ」、「ｇ」、「ｏ」、「ｒ」、「ｉ」という８個の音素から構成される。

モノフォンモデルは、１音素毎に生成された音響モデルであり、隣接する音素に依存しない、すなわち前後の音素状態との状態遷移を固定化した音響モデルである。トライフォンモデルは、３音素毎に生成された音響モデルであり、隣接する音素に依存する、すなわち前後の音素状態との状態遷移を考慮した音響モデルであり、モノフォンモデルに比べると多くの情報を有している。音声検索装置１００は、モノフォンモデル及びトライフォンモデルを一般的な方法で学習して、それぞれモノフォンモデル記憶部１０２及びトライフォンモデル記憶部１０３に予め記憶しておく。

モノフォンモデル及びトライフォンモデルとして、例えば、一般的な音声認識で利用される音響モデルであるＨＭＭ（Hidden Markov Model；隠れマルコフモデル）を利用できる。ＨＭＭは、統計的な手法により音声信号からその音声信号を構成する音素を確率的に推定するためのモデルである。ＨＭＭには、時間的な状態の揺らぎを示す遷移確率と、各状態から入力された特徴量を出力する確率（出力確率）と、をパラメータとした標準パターンを用いる。

時間長記憶部１０４は、音響モデルで利用される各音素の平均継続時間長を、各音素の状態単位で記憶する。各音素の平均継続時間長とは、各音素が発せられるときの平均的な時間長である。各音素の状態とは、各音素を時間方向に細分化した単位であり、音響モデルの最小単位に相当する。各音素には予め状態数が定められている。

本実施形態では、各音素に定められた状態数が「３」である場合を例にとって説明する。例えば、音声「あ」は、図３に示すように、この音素の発声開始時を含む第１の状態「ａ１」と、中間状態である第２の状態「ａ２」と、発声終了時を含む第３の状態「ａ３」と、の３つの状態に分けられる。すなわち、１音素は３つの状態から構成される。音響モデルで利用される全音素の数をＱとした場合、（３×Ｑ）個の状態が存在する。音声検索装置１００は、音素の状態のそれぞれについて、大量の音声信号のデータから継続時間長の平均値を算出し、時間長記憶部１０４に予め記憶しておく。

検索文字列取得部１１１は、入力装置４を介してユーザが入力した検索文字列を取得する。すなわち、ユーザは、音声検索装置１００に対して、検索対象の音声信号から目的の音声が発話されている部分を検索するための検索語（クエリ）を、文字列（テキスト）で与える。

変換部１１２は、隣接する音素に依存しない音響モデルであるモノフォンモデルの音素を、検索文字列取得部１１１が取得した検索文字列に従って並べて、検索文字列を音素列に変換する。すなわち、変換部１１２は、検索文字列に含まれる文字と同順で、各文字を発声したときの音素（モノフォン）を並べることにより、検索文字列をモノフォン音素列に変換する。

本実施形態では、日本語「カテゴリ」を検索する場合について説明する。検索文字列として日本語「カテゴリ」が入力された場合、「カテゴリ」は「ｋ」と「ａ」と「ｔ」と「ｅ」と「ｇ」と「ｏ」と「ｒ」と「ｉ」との８つの音素（モノフォン）を含むため、変換部１１２は、音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」を生成する。

時間長取得部１１３は、変更部１１２が生成した音素列に対応する音素の状態毎の平均継続時間長を時間長記憶部１０４から取得する。

話速情報取得部１１４は、入力装置４を介してユーザが入力した話速情報を取得する。話速情報は、時間長記憶部１０４が記憶する音素の各状態の平均継続時間長を検索対象の音声信号の話速に応じて伸縮するための変更率を示す情報である。ユーザは、検索対象の音声信号が平均的な話速よりも遅い場合には、時間長記憶部１０４に記憶されている音素の各状態の平均継続時間長を伸張するために、検索対象の音声信号の話速が遅い旨の情報を入力する。例えば、時間長記憶部１０４に記憶した継続時間長を作成する元となった音声データの平均継続時間長の話速で発話すると１００秒の時間を要する原稿を約１４０秒で発話している場合には、平均継続時間長を１．４倍する話速情報（変更率）を入力する。

本実施形態では、音素の各状態の平均継続時間長を変更する変更率を話速情報として用いる。図４を用いて、具体的に説明する。１音素は状態１から状態３の３つの状態を有している。そして、状態１の継続時間長をＴ１、状態２の継続時間長をＴ２、状態３の継続時間長をＴ３で表している。αは、継続時間長を伸縮する変更率である。

時間長記憶部１０４に記憶した継続時間長を作成する元となった音声信号の話速に対して、約１．４倍遅い（原稿を読む時間が長い）話速に対応する継続時間長を作成する場合について、図４の伸張倍率を用いて説明する。検索する音声信号の話速が、継続時間長を作成する元となった音声信号の話速に対して約１．４倍遅い話速であるので、検索に使用する音素の状態の継続時間長を約１．４倍に伸張する。一方、話速の変化に対する継続時間長の変化が、子音よりも母音の方が大きく変化する傾向がある。この傾向を考慮して、母音の継続時間長に対する伸張倍率を１．６倍、子音の伸張倍率を１．１倍と設定することにより、継続時間長の平均を約１．４倍に伸張する話速情報を設定する。本実施形態では、各状態の変更率は一律に設定した場合について説明する。

また、時間長記憶部１０４に記憶した継続時間長を作成する元となった音声信号の話速に対して、約０．７倍速い（原稿を読む時間が短い）話速に対応する継続時間長を作成するための話速情報として、母音の継続時間長に対する縮小倍率を０．６倍、子音の縮小倍率を０．９倍に縮小する話速情報（変更率）の例を図４の縮小倍率の欄に示す。

時間長変更部１１５は、時間長取得部１１３が取得した音素の各状態の平均継続時間長を、話速情報取得部１１４が取得した話速情報に応じて、その時間長を変更する。

時間長記憶部１０４に記憶された音素の各状態の平均継続時間長を図４に示す話速情報を用いて変更する例について、図５を用いて説明する。日本語の「カテゴリ」は、「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」の音素から構成され、各音素は状態１から状態３の３状態を有している。図５の１列目は、音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」に対する２４状態を記載している。時間長記憶部１０４から取得した音素の状態毎の平均継続時間長を２列目に変更前継続時間長として記載する。３列目は、継続時間長を作成する元となった音声データの話速に対して、約１．４倍遅い話速に使用するための継続時間長を作成した結果である。この継続時間長を作成するために、２列目に記載する子音の平均継続時間長を１．１倍に伸張し、母音の平均継続時間長を１．６倍に伸張する。４列目は、継続時間長を作成する元となった音声データの話速に対して、話す時間が約０．７倍と短い、早い話速に使用する継続時間長を作成した結果である。この場合は、２列目の子音の平均継続時間長を０．９倍に縮小し、母音の平均継続時間長を０．６倍に縮小する。このように、時間長変更部１１５は、取得した話速情報に応じて、時間長記憶部１０４から取得した平均継続時間長を伸縮する。この伸縮した継続時間長は、ＲＡＭ２もしくは外部記憶装置３に格納する。

時間長導出部１１６は、変換部１１２が出力した音素列に含まれる各音素の状態ごとの継続時間長を時間長変更部１１５から取得する。そして、取得した継続時間長に基づいて、検索文字列に対応する音声の時間長（以下、発話時間長）を導出する。

すなわち、音声検索装置１００は、話速の異なる音声信号の中から検索対象のクエリを検索するために、検索対象とする音声信号の話速に応じた話速情報を入力することによって、時間長記憶部１０４に記憶した平均的な継続時間長を話速に適応した継続時間長に変更する。そして、音素の状態毎の変更後の継続時間長を用いて、検索文字列取得部１１１が取得した検索文字列に対応する音声の発話時間長を導出する。

具体的には、時間長導出部１１６は、まず、検索対象である「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」の８個の音素の計２４個の状態について、時間長変更部１１５から変更後の継続時間長を取得する。取得した２４個の変更後の継続時間長を加算して得られた時間長を、検索文字列に対応する音声の発話時間長として導出する。検索対象の音声信号の話速が、継続時間長を作成した音声データの話速に対して約１．４倍遅いという話速情報を取得した場合、図５の３列目の下段に示す合計（８５２ｍｓ）が、約１．４倍遅い話速に対応する発話時間長に該当する。

図２に戻って、区間指定部１１７は、音声信号記憶部１０１から検索対象の音声信号を取得して、検索対象の音声信号における先頭から順に、時間長導出部１１６が導出した発話時間長の区間を尤度取得区間として指定する。尤度とは、検索対象の音声と音響モデルから作成した検索文字列に対応する音素列との類似の度合を示す指標である。区間指定部１１７は、検索文字列から変換された音素列と音声信号とを比較するため、指定した尤度取得区間内の音声信号を切り出して、切り出した音声信号に含まれる各フレームと音素列に含まれる各音素の状態とを対応付ける。具体的には、図５に示す「ｋ１」から「ｉ３」までの２４状態について、切り出した音声信号に含まれる２４個のフレームと音素列を構成する２４の状態とを対応付ける。

フレームとは、音素の１状態の時間長を有する時間窓である。具体的に図６を参照して、検索対象の音声信号に設定されるフレームについて説明する。図６（ａ）は、先頭から末尾までの時間長Ｔの検索対象の音声信号の波形図である。縦軸は波形の振幅を示し、横軸は時間ｔを示す。図６（ｂ）は、図６（ａ）に示す音声信号において設定されるフレームを示す。１行目は、音声信号の先頭から始まる第０フレーム列である。「カテゴリ」の音素数は８音素で、２４状態あるので、第０フレーム列に含まれるフレーム数は２４個である。２行目の第１フレーム列は、音声信号の先頭から所定のシフト長Ｓだけシフトして設定する。第１フレーム列もフレーム数は２４個である。以後、同様にしてフレーム列の先頭位置を１シフト長Ｓずつシフトして第（Ｐ−１）フレーム列まで設定する。

音素の状態ごとに継続時間長は異なり、また、継続時間長が話速情報に基づいて変更されているので話速によっても継続時間長は異なる。フレームは音素の状態に対応する時間窓であるので、話速や音素の状態毎にフレーム長は異なる。
シフト長Ｓは、音声信号のどの位置に検索対象の検査語が存在するかを検索する検索位置の精度を決める長さである。シフト長Ｓは、フレーム長よりも短い値に固定して設定される。本実施形態においては、要求精度は１０ｍｓ以下であるとする。また、図５に記載する継続時間長の最短が９ｍｓであるので、シフト長Ｓは２つの数値よりも短い５ｍｓとする。

図６（ｃ）は、検索対象の音声信号において区間指定部１１７により指定される尤度取得区間を示す。区間指定部１１７は、まず始めに、音声信号の先頭から始まる２４個のフレームを含む第０フレーム列の区間を時間長Ｌの第０尤度取得区間に指定する。次に、音声信号の先頭から１シフト長（Ｓ＝１０ｍｓ）だけシフトした位置から始まる第１フレーム列の区間を第１尤度取得区間に指定する。以下、同様にして、１シフト長（Ｓ＝１０ｍｓ）ずつシフトさせて、第（Ｐ−１）尤度取得区間までを順次指定する。

図２に戻って、特徴量算出部１１８は、区間指定部１１７が指定した尤度取得区間における検索対象の音声信号の特徴量を、フレーム毎に算出する。この特徴量は、音声データを周波数軸上に変換して得られる周波数軸系特徴パラメータと、音声データのエネルギーの２乗和やその対数を計算することにより得られるパワー系特徴パラメータと、を組み合わせることによって得られる。

例えば周知のように、特徴量は、周波数軸系特徴パラメータ１２成分（１２次元）とパワー系特徴パラメータ１成分（１次元）、直前の時間窓の各成分との差分を取ったもの、すなわち△周波数軸系特徴パラメータ１２成分（１２次元）と△パワー系特徴パラメータ１成分（１次元）、及び直前の時間窓の各成分との差分の差分を取ったもの、すなわち△△周波数軸系特徴パラメータ１２成分（１２次元）の、合計３８成分を有する３８次元ベクトル量として構成される。

出力確率取得部１１９は、特徴量算出部１１８が算出した特徴量に基づいて、この特徴量が音素列に含まれる各音素から出力される確率（出力確率）を、フレーム毎に取得する。具体的には、出力確率取得部１１９は、モノフォンモデル記憶部１０２からモノフォンモデルを取得して、特徴量算出部１１８が算出した各フレームにおける特徴量と、音素列に含まれる音素の状態の中でこのフレームに対応する状態のモノフォンモデルとを比較する。そして、各フレームにおける特徴量が対応する状態から出力される確率を計算する。出力確率取得部１１９は、尤度取得区間に含まれる２４個のフレームのそれぞれに対して出力確率を計算する。

置換部１２０は、出力確率取得部１１９が取得した出力確率のそれぞれを、隣接する前後数フレームの中で最大の出力確率の値に置換する。この置換処理は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化と呼ばれる。

具体的に図７を参照して、Ｌｏｗｅｒ−Ｂｏｕｎｄ化を説明する。図７において、実線はフレーム毎に取得された出力確率を示す。縦軸は出力確率の高さを下になるほど高くなるように示し、横軸は時間ｔを示す。置換部１２０は、各フレームの出力確率を、そのフレームと、そのフレームの前のＮ１個のフレームと、そのフレームの後のＮ２個のフレームの中で最大の出力確率に置き換える。Ｎ１とＮ２は、０を含む自然数であるが、Ｎ１とＮ２のいずれかは０ではないものとする。Ｎ１＝Ｎ２＝２として説明する。フレーム列内の第１フレームの出力確率は、その前にフレームが無いので、自身の第１フレームとその後の第２フレームと第３フレームの中で最大の出力確率と置換する。第２フレームの出力確率は、その前の第１フレームと自身の第２フレームとその後の第３フレームと第４フレームの中で最大の出力確率と置換する。第３フレームの出力確率は、その前の第１フレームと第２フレームと、自身の第３フレームと、その後の第４フレームと第５フレームの中で最大の出力確率と置換する。このように、第２４フレームまで置換処理を行う。置換の結果、実線で示した出力確率は、破線で示したＬＢ（Ｌｏｗｅｒ−Ｂｏｕｎｄ）化出力確率のように、時間方向において値の変化が小さくなった出力確率に変換される。

このようなＬｏｗｅｒ−Ｂｏｕｎｄ化により、時間長変更部１１５から取得した各音素の継続時間長と実際の音声信号の継続時間長との誤差、及び、時間長導出部１１６が導出した検索文字列に対応する音声の発話時間長と実際の音声信号の発話時間長との誤差を、前後数フレームの範囲内で小さくすることができる。

尤度取得部１２１は、置換部１２０による置換後の出力確率に基づいて、区間指定部１１７が指定した尤度取得区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する。具体的には、尤度取得部１２１は、置換後の出力確率の対数をとって得られる値を、尤度取得区間の先頭から末尾までの２４フレームにわたって加算することにより、一連の出力確率の積を求め、この尤度取得区間の尤度を取得する。すなわち、出力確率が高いフレームを多く含む尤度取得区間ほど、尤度取得部１２１が取得する尤度は大きくなる。
なお、各フレームの出力確率をかけ算する処理であるので、対数をとらずにそのまま出力確率のかけ算をしてもよいし、対数の代わりに近似式を用いてもよい。

繰り返し部１２２は、区間指定部１１７が指定する尤度取得区間の音声信号における指定区間を変えて、区間指定部１１７、特徴量算出部１１８、出力確率取得部１１９、置換部１２０、及び尤度取得部１２１の処理を繰り返すように各部を制御する。

具体的に図６（ｂ）と（ｃ）を参照して説明すると、繰り返し部１２２の制御を受けて、区間指定部１１７はフレームの先頭位置を１シフト長（Ｓ＝１０ｍｓ）分シフトさせて第１フレーム列を指定し、第１フレーム列の区間を第１尤度取得区間として新たに指定する。そして、繰り返し部１２２は、新たに指定した第１尤度取得区間において、上述した特徴量算出部１１８から尤度取得部１２１までの処理と同様の処理を各部に実行させて、第１尤度取得区間の尤度を取得するように各部を制御する。

同様に、繰り返し部１２２は、第２尤度取得区間から第（Ｐ−１）尤度取得区間まで、区間指定部１１７が指定する尤度取得区間を１シフト長（Ｓ＝１０ｍｓ）ずつシフトさせて尤度取得区間のそれぞれについて尤度を取得するように各部を制御する。その結果、検索対象の音声信号を１シフト長ずつシフトした尤度取得区間のそれぞれに対して、モノフォンモデルから作成した音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」に対する尤度が取得される。なお、検索対象の音声信号の中で指定可能な尤度取得区間の数Ｐは、音声信号の時間長Ｔと尤度取得区間の時間長Ｌとシフト長Ｓとを用いて、Ｐ＝（Ｔ−Ｌ＋Ｓ）／Ｓと定められる。

選択部１２３は、尤度取得部１２１が取得した尤度に基づいて、区間指定部１１７が指定した尤度取得区間の中から、検索文字列に対応する音声が発せられていることが推定される推定区間の候補を尤度が高い順にｘ個を選択する。すなわち、選択部１２３は、後段のトライフォンモデルに基づくより精度の高い尤度取得の計算量を抑えるため、尤度を取得したＰ個の尤度取得区間の中から最終的な検索結果の候補となる区間ｘ個を予備的に選択し、残りの尤度取得区間を候補から除外する。

このとき、区間指定部１１７が指定した尤度取得区間は多くの重なりを有するため、尤度が大きい区間は時系列的に連続して存在することが多い。そのため、選択部１２３が、Ｐ個の尤度取得区間の中で単純に尤度が大きい区間から順に推定区間の候補を選択すると、選択される区間が検索対象の音声信号における一部に集中する可能性が大きくなる。

これを避けるために、選択部１２３は、所定の選択時間長を設け、選択時間長ごとに、この所定の選択時間長の区間の中から開始する尤度取得区間の中で尤度が最大の尤度取得区間を１つずつ選択する。この所定の選択時間長は、例えば尤度取得区間の時間長Ｌの１／ｍ（例えば１／２）に相当する時間長のように、尤度取得区間の時間長Ｌよりも短い時間に設定する。例えば、「カテゴリ」の発話時間長が２秒以上（Ｌ≧２秒）であると仮定した場合、ｍ＝２として、選択時間長を１秒に設定する。選択時間長（Ｌ／ｍ）毎に１個ずつ尤度取得区間が候補として選択され、残りは候補から除外される。これにより、選択部１２３は、推定区間の候補を、検索対象の音声信号全体にわたって満遍なく選択できる。

選択部１２３による選択結果は、出力装置５が備える画面を介して外部に表示される。その後、音声検索装置１００は、選択したｘ個の区間に対して、トライフォンモデル及び動的計画法（ＤＰ（Dynamic Programming）マッチング）に基づくより精度の高い尤度取得処理を実行する。ＤＰマッチングは、解析区間の尤度が最大になるように状態遷移を選択する手法である。トライフォンモデルでは、前後の音素との状態遷移を考慮する必要があるので、ＤＰマッチングにより、尤度取得区間の尤度が最大となるように、前後の音素の状態遷移を決める。

第２の変換部１２４は、隣接する音素に依存する第２の音響モデルであるトライフォンモデルの音素を、検索文字列取得部１１１が取得した検索文字列に従って並べて、検索文字列を第２の音素列であるトライフォン音素列に変換する。例えば、検索文字列として日本語「カテゴリ」が入力された場合、「カテゴリ」は「ｋ−ａ＋ｔ」と「ａ−ｔ＋ｅ」と「ｔ−ｅ＋ｇ」と「ｅ−ｇ＋ｏ」と「ｇ−ｏ＋ｒ」と［ｏ−ｒ＋ｉ」との６つのトライフォンを含むため、第２の変換部１２４は、これら６つのトライフォンを並べたトライフォン音素列を生成する。さらに、始端と終端には２音素からなるバイフォン「ｋ＋ａ」と「ｒ−ｉ」を割り当てることもある。この場合には、予めバイフォンモデルを外部記憶装置３に記憶しておく。なお、「−」記号の左側にある音素は中心音素よりも前にあり、「＋」記号の右側にある音素は中心音素よりも後にあることを示す。

第２の出力確率取得部１２５は、選択部１２３が推定区間の候補として選択した区間における検索対象の音声信号の特徴量が、第２の変換部１２４が変換した第２の音素列（トライフォン音素列）に含まれる各音素から出力される出力確率を、フレーム毎に取得する。具体的には、第２の出力確率取得部１２５は、トライフォンモデル記憶部１０３からトライフォンモデルを取得して、特徴量算出部１１８が算出した各フレームにおける特徴量と、トライフォン音素列に含まれる各トライフォンのモデルとを比較する。そして、各フレームにおける特徴量が各トライフォンから出力される確率を計算する。

第２の尤度取得部１２６は、選択部１２３が推定区間の候補として選択した区間が検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第２の尤度を、選択部１２３がｘ個に限定した区間の候補のそれぞれについて取得する。第２の尤度は、第２の音素列であるトライフォン音素列に基づいて取得されるため、モノフォン音素列に基づいて尤度取得部１２１が取得した尤度に比べて、より精度が高い指標である。

第２の尤度取得部１２６は、第２の出力確率取得部１２５が取得した出力確率に基づいて、選択部１２３が限定した第２の尤度取得区間に含まれる各フレームについて、音声信号の特徴量とトライフォン音素列に含まれる各トライフォンモデルとの対応を、ＤＰマッチングにより探索する。そして、選択部１２３が選択した区間（第２の尤度取得区間）における各フレームのそれぞれについて取得された出力確率の対数をとって得られる値を加算することにより、その区間における第２の尤度を得る。

特定部１２７は、第２の尤度取得部１２６が取得した第２の尤度に基づいて、選択部１２３が選択したｘ個の区間の候補の中から、検索対象の音声信号の中から検索文字列に対応する音声が発せられていることが推定される推定区間を特定する。例えば、特定部１２７は、第２の尤度取得部１２６が取得した第２の尤度が大きい順に所定の数の区間を、推定区間として特定する。もしくは、尤度が所定の値以上の区間を推定区間として特定する。特定部１２７が特定した区間の位置情報は、最終的な検索結果として、出力装置５が備える画面を介して外部に表示される。

以上のような物理的構成及び機能的構成を有する音声検索装置１００が実行する音声検索処理について、図８に示すフローチャートを参照して説明する。

ユーザは、予め、音素の状態ごとの継続時間長を時間長記憶部１０４に記憶し、検索対象である音声信号を音声信号記憶部１０１に格納しておく。検索対象の音声信号は、例えば、１時間の講演の録音された音声とする。ここでは、検索対象のクエリは「カテゴリ」とする。また、ユーザは、検索対象の音声信号の話速が、継続時間長を作成した音声データの話速に対してどの程度早いのかを話速情報として準備する。ここでは、継続時間長を作成する元となる音声データの話速に対して、約１．４倍遅い話速の音声信号の中から検索対象のクエリ「カテゴリ」を検出する処理について説明する。また、継続時間長を伸縮する際の母音と子音の変更率の比を決めておく。ここでは、話速情報として、図４に示す伸張倍率を準備する。

ＣＰＵ６が、ＲＯＭ１から音声検索プログラムを読み出して、音声検索プログラムを実行することにより図８に示すフローチャートは開始する。ユーザが、検索対象の検索文字列「カテゴリ」を入力装置４からテキストデータとして入力し、検索文字列取得部１１１が検索文字列を取得する（ステップＳ１１）。検索文字列取得部１１１が検索文字列を取得すると、変換部１１２及び第２の変換部１２４は、検索文字列を音素列に変換し（ステップＳ１２）、音素列の音素順に音響モデルの音素を並べる（ステップＳ１３）。具体的には、変換部１１２は、検索文字列をモノフォンモデルによるモノフォン音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」に変換し、第２の変換部１２４は、検索文字列をトライフォンモデルによるトライフォン音素列「ｋ−ａ＋ｔ」と「ａ−ｔ＋ｅ」と「ｔ−ｅ＋ｇ」と「ｅ−ｇ＋ｏ」と「ｇ−ｏ＋ｒ」と［ｏ−ｒ＋ｉ」に変換する。また、バイフォンモデル「ｋ＋ａ」と「ｒ−ｉ」を追加しても良い。

話速情報取得部１１４は、ユーザが入力した音声信号の話速に応じた話速情報を取得する（ステップＳ１４）。継続時間長を作成する元となる音声データの話速に対して、約１．４倍遅い話速の音声信号の中から検索対象のクエリ「カテゴリ」を検出するので、ユーザは、継続時間長を１．４倍に伸張する話速情報として、図４に示す伸張倍率を入力する。すなわち、母音については１．６倍とし、子音については１．１倍とする変更率をそれぞれ入力して、継続時間長の平均を約１．４倍に伸張する。

時間長変更部１１５は、時間長取得部１１３を介して時間長記憶部１０４から取得した平均継続時間長を話速情報に応じて変更する（ステップＳ１５）。具体的には、時間長変更部１１５は、図５の２列目に示す平均話速用の継続時間長に図４に示す伸張倍率（変更率）を掛けて、１．４倍遅い話速用の継続時間長として図５の３列目に示す継続時間長を作成する。

図８に戻って、変換部１１２が検索文字列を音素列に変換すると、時間長導出部１１６は、検索文字列に対応する音声の発話時間長を導出する（ステップＳ１６）。具体的には、時間長導出部１１６は、時間長変更部１１５が時間長を変更した継続時間長を取得して、取得した継続時間長を加算することにより、検索文字列に対応する音声の発話時間長を導出する。具体的には、遅い話速に対応する発話時間長を作成するために、図５の３列目に示す伸張後の継続時間長を加算した合計値（８５２ｍｓ）を発話時間長として導出する。

時間長導出部１１６が発話時間長を導出すると、区間指定部１１７は、検索対象の音声信号の先頭から末尾まで、導出した発話時間長の区間である尤度取得区間を１シフト長Ｓずつシフトしながら順に指定して、尤度を取得する処理に移行する。まず、区間指定部１１７は、検索対象の音声信号の先頭から開始する第０フレーム列を指定し、第０フレーム列の２４フレーム分の区間（０ｍｓ〜８５２ｍｓ）を平均話速よりも１．４倍遅い話速用の第０尤度取得区間として指定する（ステップＳ１７）。

区間指定部１１７が尤度取得区間を指定すると、特徴量算出部１１８は、指定した尤度取得区間の音声信号の特徴量を、フレーム毎に算出する（ステップＳ１８）。そして、出力確率取得部１１９は、特徴量算出部１１８が算出した特徴量と対応するモノフォンモデルとに基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する（ステップＳ１９）。すなわち、図５に示す「ｋ１」から「ｉ３」までの２４状態のそれぞれについて出力確率を取得する。

出力確率取得部１１９が出力確率を取得すると、置換部１２０は、フレーム毎に取得した出力確率を、そのフレームとそのフレーム前のＮ１個のフレームとそのフレーム後のＮ２個のフレームの、合計（１＋Ｎ１＋Ｎ２）個のフレームの中で最大の出力確率に置き換えることにより、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を実行する（ステップＳ２０）。これにより、時間長導出部１１６が導出した発話時間長と実際の音声信号の発話時間長との誤差を縮小する。

尤度取得部１２１は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部１１７が指定した尤度取得区間の尤度を取得する（ステップＳ２１）。尤度取得部１２１が尤度を取得すると、繰り返し部１２２は、検索対象の音声信号における全区間の尤度取得が終了したか否かを判定する（ステップＳ２２）。

全区間の尤度取得が終了していない場合（ステップＳ２２；ＮＯ）、区間指定部１１７が直前に指定した第０フレーム列を１シフト長（Ｓ＝１０ｍｓ）だけシフトした第１フレーム列を指定し、その区間を第１尤度取得区間として指定して（ステップＳ２３）、音声検索処理はステップＳ１８に戻る。そして、繰り返し部１２２は、区間指定部１１７が新たに指定した尤度取得区間に対して上述したステップＳ１８〜Ｓ２２の処理を繰り返して尤度を取得するように各部を制御する。具体的には、区間指定部１１７は、音声信号の先頭から１シフト長（Ｓ＝１０ｍｓ）シフトした位置から第１フレーム列を指定し、その区間を第１尤度取得区間として指定する。特徴量算出部１１８は、第１フレーム列のフレーム毎に特徴量を計算する。出力確率取得部１１９は第１フレーム列のフレーム毎に出力確率を取得し、置換部１２０はＬｏｗｅｒ−Ｂｏｕｎｄ化処理を行う。そして、尤度取得部１２１は、第１フレーム列の各フレームの出力確率の対数をとって計２４フレーム分加算することにより、第１尤度取得区間の尤度を取得する。
このように、繰り返し部１２２は、検索対象の音声信号の末尾に達するまで尤度取得区間を１シフト長ずつシフトさせて順次尤度を取得するように区間指定部１１７、特徴量算出部１１８、出力確率取得部１１９、置換部１２０、尤度取得部１２１を制御する。

最終的に、全区間の尤度取得が終了すると（ステップＳ２２；ＹＥＳ）、音声検索処理は、取得した尤度に基づいて検索文字列に対応する区間を特定する処理（ステップＳ２４）に移行する。この特定処理の詳細については、図９に示すフローチャートを参照して説明する。

尤度取得処理が終了した状態において、選択部１２３は、区間指定部１１７が指定した尤度取得区間の中から、所定の選択時間長毎に１つずつ区間を選択する（ステップＳ１０１）。「カテゴリ」の発話時間長が２秒以上（Ｌ≧２）であると仮定し、選択時間長はその半分（ｍ＝２）の１秒に設定する。したがって、選択部１２１は、１秒の選択時間長ごとに尤度が最も高い尤度取得区間を選択する。
さらに選択部１２３は、このように選択した区間の中から、尤度が高い順にｘ個の区間を選択する（ステップＳ１０２）。すなわち、選択部１２３は、最終的な検索結果として特定する区間の候補を、検索対象の音声信号の全体から満遍なく候補が残るように、予備選択する。

選択部１２３による予備選択の後、第２の出力確率取得部１２５は、トライフォン音素列に基づいて、選択部１２３が選択したｘ個の区間における出力確率を、フレーム毎に取得する（ステップＳ１０３）。そして、第２の尤度取得部１２６は、選択部１２３が選択した区間の尤度をＤＰマッチングにより取得する（ステップＳ１０４）。すなわち、第２の出力確率取得部１２５及び第２の尤度取得部１２６は、トライフォンモデル及びＤＰマッチングに基づいて、出力確率取得部１１９及び尤度取得部１２１に比べて精度の高い尤度取得処理を実行する。

第２の尤度取得部１２６が第２の尤度を取得すると、特定部１２７は、取得した第２の尤度に基づいて、検索文字列に対応する区間を特定する（ステップＳ１０５）。例えば、特定部１２７は、第２の尤度取得部１２６が取得した第２の尤度が大きい順に所定の数の区間を、検索文字列に対応する音声が発せられていることが推定される区間として特定する。ステップＳ１０５の処理が終了すると、図９に示すフローチャートの処理は図８に示すフローチャートのステップＳ２５に遷移する。

図８に示すフローチャートの説明に戻って、検索文字列に対応する区間を特定すると、特定部１２７は、出力装置５を介して特定結果を出力する（ステップＳ２５）。以上により、音声検索装置１００が実行する音声検索処理は終了する。

以上説明したように、実施形態１に係る音声検索装置１００は、検索対象の音声信号の話速に対応した話速情報を用いて、音素の平均継続時間長を話速に対応した継続時間長に変更している。そして、話速に対応した継続時間長を使用して、検索対象の音声信号の中から、クエリに対応する音声が発せられていることが推定される区間を特定する。この処理により、検索対象の音声信号の話速が異なる場合でも、正確に検索対象の音声信号の中からクエリに対応する音声区間を特定できる。

なお、以上の説明では、母音と子音の継続時間長の変更率をそれぞれ変更する場合について説明したが、図１０に示すように、子音の変更率を１に固定して母音の継続時間長のみを変更するようにしてもよい。

また、以上の説明では、母音と子音の変更率をそれぞれ設定する場合について説明したが、母音と子音の変更率の比を予め音声検索プログラムの中で設定しておき、ある変更率を入力すると自動的に母音と子音の変更率が決定されるようにしてもよい。

なお、実施形態１の説明では、区間指定部１１７が１シフト長Ｓずつフレーム列の先頭位置をシフトさせ、シフトさせる毎に特徴量の算出と出力確率の取得と尤度の取得を行う処理をＰ回繰り返す説明をした。しかし、区間指定部１１７が、最初に第０フレームから第（Ｐ−１）フレーム列の指定と、第０尤度取得区間から第（Ｐ−１）尤度取得区間の指定を行った後で、特徴量の計算と出力確率の取得と尤度の取得をするようにしてもよい。

また、バイフォンモデルを併用する場合には、モノフォンモデルでの予備選択をした後で、バイフォンモデルを用いた２次選択を行い、その後でトライフォンモデルを用いた３次選択（最終選択）をすることもできる。また、モノフォンモデルを用いた予備検索においてモノフォンモデルとバイフォンモデルを組み合わせた１次選択とすることも、トライフォンモデルを用いた最終選択においてバイフォンモデルとトライフォンモデルとを組み合わせた最終選択とすることもできる。

（実施形態２）
実施形態１では、話速が一定であると仮定して話速情報を１個のみ設定する場合について説明した。したがって、話速情報も１種類のみで対応可能であるとしていた。しかし、実際のスピーチでは、同じ単語を必ずしも同じ話速で発話するとは限られない。例えば、「カテゴリ」という単語も、平均的な話速で発話する場合もあれば、強調する場合のようにゆっくり発話される場合もある。これに対応するために、実施形態２では、複数の話速情報を用いることにより複数の発話時間長を導出する。実施形態２では、話速情報として、０．７（早め）、１．０（普通）、１．４（遅め）の３種類の話速情報（継続時間長の変更率）を用いる場合について説明する。

実施形態２に係る音声検索装置は、実施形態１に係る音声検索装置１００と同様、物理的には図１に示したように構成される。また、機能構成についても図２に示す構成と同様である。

実施形態２に係る音声検索装置１００が実行する音声検索処理について図１１に示すフローチャートを参照して説明する。

検索対象の音声信号は、１時間の講話の録音された音声であり、予め音声信号記憶部１０１に記憶されているものとする。ここでは、検索文字列は「カテゴリ」とする。話速情報としては、図４に示す変更率を準備しているものとする。
ＣＰＵ６が、ＲＯＭ１から音声検索プログラムを読み出して、音声検索プログラムを実行することにより図１１に示すフローチャートは開始する。ユーザが、検索対象の検索文字列「カテゴリ」を入力装置４からテキストデータとして入力し、検索文字列取得部１１１が検索文字列を取得する（ステップＳ３１）。検索文字列取得部１１１が検索文字列を取得すると、変換部１１２及び第２の変換部１２２は、検索文字列を音素列に変換し（ステップＳ３２）、音素列の音素順に音響モデルの音素を並べる（ステップＳ３３）。具体的には、変換部１１２は、検索文字列をモノフォンによるモノフォン音素列に変換し、第２の変換部１２２は、検索文字列をトライフォンによるトライフォン音素列に変換する。

話速情報取得部１１４は、ユーザが供給した０．７（早め）、１．０（普通）、１．４（遅め）の３種類の話速情報を取得する（ステップＳ３４）。具体的には、図４に示す変更率（伸張倍率と縮小倍率）を取得する。「普通」の話速に対応する変更率は、母音も子音も変更率が１．０であるので記載を省略する。
時間長変更部１１５は、時間長記憶部１０４から取得した音素の各状態の平均継続時間長から３種類の話速情報に対応する３種類の継続時間長を作成する（ステップＳ３５）。

具体的には、音素列「ｋ，ａ，ｔ，ｅ，ｇ，ｏ，ｒ，ｉ」の２４状態に対応する時間長として、時間長取得部１１３を介して時間長記憶部１０４から取得した平均継続時間長を話速「普通」に対応した継続時間長として取得する。時間長変更部１１５は、取得した継続時間長に１．０を掛けて、話速「普通」に対する継続時間長とする。これを図５の２列目に記載する。時間長変更部１１５は、話速「遅め」に対応する継続時間長として、図５の２列目に記載する平均継続時間長に図４に示す伸張倍率を掛けて、図５の３列目に記載する値を話速「遅め」用の継続時間長として作成する。話速「早め」に対応する継続時間長として、図５の２列目に記載する平均継続時間長に図４に示す縮小倍率を掛けて、図５の４列目に記載する値を話速「早め」用の継続時間長として作成する。

次に、変換部１１２が検索文字列を音素列に変換すると、時間長導出部１１６は、検索文字列に対応する音声の発話時間長として、３個の時間長を導出する（ステップＳ３６）。具体的には、図５の２列目に記載する継続時間長を２４個合計した値（６２０ｍｓ）を話速「普通」に対する発話時間長として導出する。図５の３列目に記載する継続時間長を２４個合計した値（８５２ｍｓ）を話速「遅め」に対する発話時間長として導出する。図５の４列目に記載する継続時間長を２４個合計した値（４５６ｍｓ）を話速「早め」に対する発話時間長として導出する。

図１１に戻って、時間長導出部１１６が発話時間長として３個の時間長を導出すると、音声検索処理は、検索対象の音声信号の先頭から末尾まで、導出した各時間長の区間である尤度取得区間を順に指定して、尤度を取得する処理に移行する。
まず、区間指定部１１７は、時間長導出部１１６が導出した３個の時間長のそれぞれについて、検索対象の音声信号の先頭から開始する第０フレーム列を指定し、その２４フレーム分の区間を第０尤度取得区間として指定する（ステップＳ３７）。具体的には、話速「普通」用の継続時間長を用いて第０フレーム列を指定し、その２４フレーム分の区間（０ｍｓ〜６２０ｍｓ）を話速「普通」用の第０尤度取得区間として指定する。話速「遅め」用の継続時間長を用いて第０フレーム列を指定し、音声信号の先頭から（０ｍｓ〜８５２ｍｓ）の区間を話速「遅め」用の第０尤度取得区間として指定する。同様にして、音声信号の先頭から（０ｍｓ〜４５６ｍｓ）の区間を話速「早め」用の第０尤度取得区間として指定する。

区間指定部１１７が各時間長（６２０ｍｓ、８５２ｍｓ、４５６ｍｓ）について尤度取得区間を指定すると、特徴量算出部１１８は、指定した尤度取得区間の音声信号の特徴量を、フレーム毎に算出する（ステップＳ３８）。具体的には、まず、音声信号から話速「普通」に対する尤度取得区間（６２０ｍｓ）を切り出し、話速「普通」に対応する図５の２列目に記載する各音素の状態毎のフレーム長ごとに音声信号の特徴量を２４フレーム分計算する。次に、音声信号から話速「遅め」に対する尤度取得区間（８５２ｍｓ）を切り出し、話速「遅め」に対応する図５の３列目に記載する各音素の状態毎のフレーム長ごとに音声信号の特徴量を２４フレーム分計算する。次に、音声信号から話速「早め」に対する尤度取得区間（４５６ｍｓ）を切り出し、話速「早め」に対応する図５の４列目に記載する各音素の状態毎のフレーム長ごとに音声信号の特徴量を２４フレーム分計算する。

そして、出力確率取得部１１９は、特徴量算出部１１８が算出した特徴量と対応するモノフォンモデルとに基づいて、この特徴量が音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する（ステップＳ３９）。ここでは、（話速３種類×フレーム数２４フレーム）分の出力確率を取得する。

出力確率取得部１１９が出力確率を取得すると、置換部１２０は、フレーム毎に取得した出力確率を、その前後数フレーム（前２フレームと自身のフレームと後２フレーム）の中で最大の出力確率に置き換えることにより、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を実行する（ステップＳ４０）。これにより、時間長導出部１１６が導出した発話時間長と実際の発話時間長との誤差を縮小する。

尤度取得部１２１は、Ｌｏｗｅｒ−Ｂｏｕｎｄ化後の出力確率をフレームごとに対数をとって加算することにより、区間指定部１１７が３個の話速のそれぞれについて指定した尤度取得区間の尤度を取得する（ステップＳ４１）。尤度取得部１２１が尤度を取得すると、繰り返し部１２２は、時間長導出部１１６が導出した発話時間長の各時間長について、検索対象の音声信号における全区間の尤度取得が終了したか否かを判定する（ステップＳ４２）。

全区間の尤度取得が終了していない場合（ステップＳ４２；ＮＯ）、時間長導出部１１６が発話時間長として導出した３個の時間長のそれぞれについて、区間指定部１１７が直前に指定した第０フレーム列を１シフト長（Ｓ＝１０ｍｓ）だけシフトした第１フレーム列を指定し、その区間を第１尤度取得区間として指定して（ステップＳ４３）、音声検索処理はステップＳ３８に戻る。具体的には、音声信号の先頭から１０ｍｓシフトした位置から、話速「普通」用の第１フレーム列を指定し、そのフレーム列の区間（１０ｍｓ〜６３０ｍｓ）を話速「普通」用の第１尤度取得区間として指定する。同様にして、話速「遅め」の第１フレーム列を指定し、そのフレーム列の区間（１０ｍｓ〜８６２ｍｓ）を話速「遅め」用の第１尤度取得区間として指定する。同様にして、話速「早め」の第１フレーム列を指定し、（１０ｍｓ〜４６６ｍｓ）の区間を話速「早め」用の第１尤度取得区間として指定する。

そして、繰り返し部１２２は、各時間長について新たに指定した尤度取得区間に対して上述したステップＳ３８〜Ｓ４２の処理を繰り返して尤度を取得するように各部を制御する。このように、繰り返し部１２２は、検索対象の音声信号の末尾に達するまで、区間指定部１１７が指定する尤度取得区間を１シフト長（Ｓ＝１０ｍｓ）ずつシフトさせて、順次尤度を取得するように各部を制御する。

最終的に、３種類の話速に対応するそれぞれＰ個の区間の尤度取得が終了すると（ステップＳ４２；ＹＥＳ）、音声検索処理は、取得した尤度に基づいて検索文字列に対応する区間を特定する処理（ステップＳ４４）に移行する。この特定処理は、図９のフローチャートを参照して説明した処理と同様である。

すなわち、選択部１２３は、区間指定部１１７が３個の話速に対応する尤度取得区間（それぞれＰ個）の中から、所定の選択時間長（１秒）毎に１つずつ区間を選択する（ステップＳ１０１）。この選択時間長の中には、３つの話速に対応する尤度取得区間が含まれるが、その中で最も尤度が高い尤度取得区間を１つ選択する。したがって、選択部１２３は、１時間の講話の音声信号の中の話速に応じて、話速「早め」に対応する尤度取得区間を選択することもあれば、話速「遅め」に対応する尤度取得区間を選択する場合もある。
さらに選択部１２３は、このように選択した区間の中から、尤度が高い順にｘ個の区間を選択する（ステップＳ１０２）。
第２の出力確率取得部１２５は、トライフォン音素列に基づいて、選択部１２３が選択した区間における出力確率を、フレーム毎に取得する（ステップＳ１０３）。第２の尤度取得部１２６は、選択部１２３が選択した区間の尤度をＤＰマッチングにより取得する（ステップＳ１０４）。そして、特定部１２７は、取得した第２の尤度に基づいて、検索文字列に対応する音声が発せられていることが推定される区間を特定する（ステップＳ１０５）。そして、図１１のステップＳ４５に遷移する。

検索文字列に対応する区間を特定すると、特定部１２７は、出力装置５を介して特定結果を出力する（ステップＳ４５）。以上により、音声検索装置１００が実行する音声検索処理は終了する。

以上説明したように、実施形態２に係る音声検索装置１００は、検索文字列に対応する音声の発話時間長として、３個の話速情報を設定することにより、発話時間長として話速に対応した３個の時間長を導出する。そして、導出した３個の時間長のそれぞれに相当する時間長の区間を尤度取得区間として指定して、指定した尤度取得区間の中から検索文字列に対応する音声が発せられていることが推定される区間を特定する。その結果、話速の違いにより尤度が悪化して候補から漏れることを減少させ、平均的な話速とずれがある音声信号に対する音声検索においても、検索精度を向上させることができる。

本実施形態２に係る音声検索装置１００は、複数の話速情報を設定することにより複数の継続時間長に基づいて複数の発話時間長を導出して予備選択を行うので、予備選択の処理量は増加する。しかし、予備選択の処理はモノフォンモデルに対して尤度の計算を行うので、情報量が多いトライフォンモデルを用いて尤度の計算を行う最終的な区間の特定処理に比べると、計算処理負荷が軽い。したがって、本実施形態で説明したように話速情報を３個設定しても、検索処理時間の全体に対する増加は少ない。
このように、本実施形態に係る検索装置は、予備選択において異なる話速に対応する多くの発話時間長を導出して区間の候補を検索することにより、途中で話速が変化する音声信号に対しても、高い検索精度を確保している。そして、予備選択で候補の区間数を限定することにより、情報量の多いトライフォンモデルを用いた高精度ではあるが計算処理が重たい処理を減らしている。その結果、音声検索装置１００は、計算量を抑えつつ、高精度に音声検索できる。

なお、実施形態２の説明では、継続時間長を話速情報に基づいて伸縮した後で、変更後の継続時間長をモノフォン音素列に対応して加算して、複数の発話時間長を導出する場合について説明した。しかし、母音と子音の継続時間長の変更率を一律にする場合は、時間長記憶部１０４に記憶されている平均継続時間長から１つの発話時間長を求め、その発話時間長を１．４倍もしくは０．７倍する話速情報に基づいて変更してもよい。

また、実施形態２の説明では、３種類の話速情報を入力する場合について説明したが、話速情報の数を限定するものではない。また、３個の話速情報を予め音声検索プログラムの中で設定しておき、自動的に３種類の継続時間長を作成するようにしてもよい。

また、実施形態２の説明では、話速に対応して継続時間長のみを変更する説明をした。しかし、音響モデルも話速に対応した分類がなされており、話速に応じて使用する音響モデルも選択できることが望ましい。

（変形例１）
実施形態１と２に係る音声検索装置１００は、音素の各状態の継続時間長に一律に変更率を掛ける場合について説明した。しかし、本発明はこれには限定されない。例えば、音素の状態ごとに変更率を変える場合について説明する。

音素の状態ごとに変更率を変える場合について、図１２を用いて説明する。音素の状態１の継続時間長Ｔ１に対する変更率をα１とし、状態２の継続時間長Ｔ２に対する変更率をα２とし、状態３の継続時間長Ｔ３に対する変更率をα３とする。
本変形例において、継続時間長を伸張する場合では、母音については、状態１の変更利を１．３とし、状態２の変更率を１．６とし、状態３の変更率を１．３としている。子音については、状態１の変更率を１．１とし、状態２の変更率を１．２とし、状態３の変更率を１．１としている。継続時間長を縮小する場合では、母音については、状態１の変更利を０．８とし、状態２の変更率を０．６とし、状態３の変更率を０．８としている。子音については、状態１の変更率を０．９とし、状態２の変更率を０．８とし、状態３の変更率を０．９としている。

一般の会話では、音素の両端の状態（図１２では、状態１と状態３）よりも音素の中央の状態（図１２では、状態２）のほうが、話速の変化に対して継続時間長が大きく変化する傾向がある。この傾向を利用して、図１２に示す例では、状態１と状態３に対する変更率α１とα３に対して状態２に対する変更率α２を、大きく設定している。

また、歌唱の音声の場合は、図１２における状態１よりも状態３の方が、歌唱の速度によって大きく変化する場合がある。このような場合には、図１２に示す状態３に対する変更率α３を状態１に対する変更率α１よりも大きく設定する。

このように、音素の状態毎に変更率を設定することにより、音素の状態毎の継続時間長の比率を話速に応じた実際の継続時間長に近似することができる。これにより、より正確な音声検索を実現することができる。

なお、変形例１の説明では、図１２を用いて、音素の状態毎の変更率を設定する場合について説明したが、各状態の変更率を予め音声検索プログラムの中で設定しておき、自動的に１つの継続時間長から複数の継続時間長を作成するようにしてもよい。

また、変形例１の説明では、状態１、状態２、状態３のそれぞれの継続時間長を変更する場合について説明した。しかし、２つの状態もしくは１つの状態のみの継続時間長を変更してもよい。例えば、発声開始時もしくは発声終了時を含む状態（状態１と状態３）の継続時間長を変更せずに、発声開始時もしくは発声終了時を含まない状態（状態２）の継続時間長のみを変更するようにしてもよい。状態１と状態３の変更率を１とし、状態２の継続時間長のみを変更するように変更率を設定する例を図１３に示す。

また、以上の実施形態１と２の説明では、尤度の高い順にｘ個の尤度取得区間を選択する場合について説明した。しかし、選択の仕方はこれに限定されることはない。例えば、特定の尤度の値を閾値として、その値以上の尤度取得区間を選択してもよい。

また、検索精度を要求されない場合には、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を省略することもできる。検索精度を要求される場合においても、実施形態２のように多くの話速に対応する継続時間長を用いて検索する場合には、Ｌｏｗｅｒ−Ｂｏｕｎｄ化処理を省略できる場合がある。

また、以上の説明では、検索語を入力装置４からテキストデータとして入力する場合について説明したが、検索語を音声認識装置のマイクに音声データとして入力し、音声認識装置で検索語を認識するようにしてもよい。

また、以上の説明では、話速情報（継続時間長の変更率）を入力装置４から入力する場合について説明した。しかし、音声信号の一部を解析し、単位時間あたりに含まれる音声のピッチ情報（もしくは音素の数）から話速を推定し、その推定に基づいて継続時間長に対する変更率を決めるようにしてもよい。

また、本発明に係る機能を実現するための構成を予め備えた音声検索装置として提供できることはもとより、プログラムの適用により、既存のパーソナルコンピュータや情報端末機器等を、本発明に係る音声検索装置として機能させることもできる。すなわち、上記実施形態で例示した音声検索装置１００による各機能構成を実現させるためのプログラムを、既存のパーソナルコンピュータや情報端末機器等を制御するＣＰＵ等が実行できるように適用することで、本発明に係る音声検索装置として機能させることができる。また、本発明に係る音声検索方法は、音声検索装置を用いて実施できる。

また、このようなプログラムの適用方法は任意である。プログラムを、例えば、コンピュータが読取可能な記録媒体（ＣＤ−ＲＯＭ（Compact Disc Read-Only Memory）、ＤＶＤ（Digital Versatile Disc）、ＭＯ（Magneto Optical disc）等）に格納して適用できる他、インターネット等のネットワーク上のストレージにプログラムを格納しておき、これをダウンロードさせることにより適用することもできる。

以上、本発明の好ましい実施形態について説明したが、本発明は係る特定の実施形態に限定されるものではなく、本発明には、特許請求の範囲に記載された発明とその均等の範囲とが含まれる。以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。

（付記１）
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。

（付記２）
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長と子音の音素の継続時間長とを、個別に定められた変更率で変更する、
ことを特徴とする付記１に記載の音声検索装置。

（付記３）
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長を、子音の音素の継続時間長の変更率より大きい変更率で変更する、
ことを特徴とする付記１または２に記載の音声検索装置。

（付記４）
前記時間長変更手段は、前記時間長取得手段が取得した母音と子音の音素の継続時間長のうちの母音の音素の継続時間長のみを変更する、
ことを特徴とする付記１に記載の音声検索装置。

（付記５）
前記時間長取得手段は、前記音素列に含まれる各音素の継続時間長を、各音素の状態毎に取得し、
前記時間長変更手段は、前記時間長取得手段が各音素の状態毎に取得した継続時間長を、状態毎に定められた変更率で変更する、
ことを特徴とする付記１から４のいずれかに記載の音声検索装置。

（付記６）
前記時間長変更手段は、各音素の状態のうち、音素の発声開始時もしくは発声終了時を含む状態の継続時間長を、音素の発声開始時もしくは発声終了時を含まない状態の継続時間長の変更率より小さい変更率で変更する、
ことを特徴とする付記５に記載の音声検索装置。

（付記７）
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする付記１から６のいずれかに記載の音声検索装置。

（付記８）
前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のＮ１個のフレームとそのフレームの後のＮ２個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記Ｎ１とＮ２は０を含む自然数であって、Ｎ１とＮ２のいずれかは０ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする付記７に記載の音声検索装置。

（付記９）
前記検索文字列を隣接する音素に依存しない音響モデルの音素を並べた音素列に変換する変換手段を備え、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記尤度取得手段が取得した尤度に基づいて、前記指定された複数の尤度取得区間の中から前記推定区間の候補を選択する選択手段と、
隣接する音素に依存する第２の音響モデルの音素を並べて、前記検索文字列を第２の音素列に変換する第２の変換手段と、
前記第２の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第２の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第２の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第２の尤度取得手段が取得した第２の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする付記１から８のいずれかに記載の音声検索装置。

（付記１０）
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を１つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする付記９に記載の音声検索装置。

（付記１１）
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
検索対象の音声信号の話速に係る情報を取得する話速情報取得ステップと、
前記話速情報取得ステップで取得した話速に係る情報に応じて、前記時間長取得ステップで取得した各音素の継続時間長を変更する時間長変更ステップと、
前記時間長変更ステップで変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出ステップと、
前記時間長導出ステップで導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。

（付記１２）
コンピュータを、
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。

１…ＲＯＭ、２…ＲＡＭ、３…外部記憶装置、４…入力装置、５…出力装置、６…ＣＰＵ、７…バス、１００…音声検索装置、１０１…音声信号記憶部、１０２…モノフォンモデル記憶部、１０３…トライフォンモデル記憶部、１０４…時間長記憶部、１１１…検索文字列取得部、１１２…変換部、１１３…時間長取得部、１１４…話速情報取得部、１１５…時間長変更部、１１６…時間長導出部、１１７…区間指定部、１１８…特徴量算出部、１１９…出力確率取得部、１２０…置換部、１２１…尤度取得部、１２２…繰り返し部、１２３…選択部、１２４…第２の変換部、１２５…第２の出力確率取得部、１２６…第２の尤度取得部、１２７…特定部

Claims

検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段と、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段と、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段と、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段と、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段と、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段と、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段と、
を備えることを特徴とする音声検索装置。
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長と子音の音素の継続時間長とを、個別に定められた変更率で変更する、
ことを特徴とする請求項１に記載の音声検索装置。
前記時間長変更手段は、前記時間長取得手段が取得した各音素の継続時間長のうちの母音の音素の継続時間長を、子音の音素の継続時間長の変更率より大きい変更率で変更する、
ことを特徴とする請求項１または２に記載の音声検索装置。
前記時間長変更手段は、前記時間長取得手段が取得した母音と子音の音素の継続時間長のうちの母音の音素の継続時間長のみを変更する、
ことを特徴とする請求項１に記載の音声検索装置。
前記時間長取得手段は、前記音素列に含まれる各音素の継続時間長を、各音素の状態毎に取得し、
前記時間長変更手段は、前記時間長取得手段が各音素の状態毎に取得した継続時間長を、状態毎に定められた変更率で変更する、
ことを特徴とする請求項１から４のいずれか１項に記載の音声検索装置。
前記時間長変更手段は、各音素の状態のうち、音素の発声開始時もしくは発声終了時を含む状態の継続時間長を、音素の発声開始時もしくは発声終了時を含まない状態の継続時間長の変更率より小さい変更率で変更する、
ことを特徴とする請求項５に記載の音声検索装置。
前記区間指定手段が指定した尤度取得区間における前記検索対象の音声信号の特徴量を、音声信号と音素モデルとを比較する区間であるフレーム毎に算出する特徴量算出手段と、
前記検索対象の音声信号の特徴量が前記音素列に含まれる各音素から出力される出力確率を、フレーム毎に取得する出力確率取得手段と、
をさらに備え、
前記尤度取得手段は、前記区間指定手段が指定した尤度取得区間に含まれるフレーム毎に取得された出力確率の対数をとった値を加算して該尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項１から６のいずれか１項に記載の音声検索装置。
前記出力確率取得手段がフレーム毎に取得した出力確率のそれぞれを、そのフレームとそのフレームの前のＮ１個のフレームとそのフレームの後のＮ２個のフレームの中で最大の出力確率に置換する置換手段をさらに備え、
前記Ｎ１とＮ２は０を含む自然数であって、Ｎ１とＮ２のいずれかは０ではなく、
前記尤度取得手段は、前記置換手段による置換後の出力確率に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得する、
ことを特徴とする請求項７に記載の音声検索装置。
前記検索文字列を隣接する音素に依存しない音響モデルの音素を並べた音素列に変換する変換手段を備え、
前記尤度取得手段は、前記音素列に基づいて、前記区間指定手段が指定した尤度取得区間の前記尤度を取得し、
前記尤度取得手段が取得した尤度に基づいて、前記指定された複数の尤度取得区間の中から前記推定区間の候補を選択する選択手段と、
隣接する音素に依存する第２の音響モデルの音素を並べて、前記検索文字列を第２の音素列に変換する第２の変換手段と、
前記第２の音素列に基づいて、前記選択手段が前記推定区間の候補として選択した区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す第２の尤度を、前記選択手段が選択した複数の候補のそれぞれについて取得する第２の尤度取得手段と、
をさらに備え、
前記特定手段は、前記第２の尤度取得手段が取得した第２の尤度に基づいて、前記選択手段が選択した複数の候補の中から前記推定区間を特定する、
ことを特徴とする請求項１から８のいずれか１項に記載の音声検索装置。
前記選択手段は、前記区間指定手段が指定した尤度取得区間の中から、所定の選択時間長毎に、該所定の選択時間長の区間の中から開始する尤度取得区間の中で前記尤度が最大の尤度取得区間を１つずつ選択することにより、前記推定区間の複数の候補を選択する、
ことを特徴とする請求項９に記載の音声検索装置。
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得ステップと、
検索対象の音声信号の話速に係る情報を取得する話速情報取得ステップと、
前記話速情報取得ステップで取得した話速に係る情報に応じて、前記時間長取得ステップで取得した各音素の継続時間長を変更する時間長変更ステップと、
前記時間長変更ステップで変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出ステップと、
前記時間長導出ステップで導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定ステップと、
前記区間指定ステップで指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得ステップと、
前記区間指定ステップで指定した尤度取得区間のそれぞれについて前記尤度取得ステップで取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定ステップと、
を含む音声検索方法。
コンピュータを、
検索文字列の音素列に含まれる各音素の継続時間長を、音素に関する継続時間長データを記憶しているデータベースから取得する時間長取得手段、
検索対象の音声信号の話速に係る情報を取得する話速情報取得手段、
前記話速情報取得手段が取得した話速に係る情報に応じて、前記時間長取得手段が取得した各音素の継続時間長を変更する時間長変更手段、
前記時間長変更手段が変更した各音素の継続時間長に基づいて、前記検索文字列に対応する音声の発話時間長を導出する時間長導出手段、
前記時間長導出手段が導出した発話時間長の区間を、前記検索対象の音声信号における尤度取得区間として複数指定する区間指定手段、
前記区間指定手段が指定した尤度取得区間が前記検索文字列に対応する音声が発せられている区間であることの尤もらしさを示す尤度を取得する尤度取得手段、
前記区間指定手段が指定した尤度取得区間のそれぞれについて前記尤度取得手段が取得した尤度に基づいて、前記検索対象の音声信号の中から前記検索文字列に対応する音声が発せられていることが推定される推定区間を特定する特定手段、
として機能させるためのプログラム。