JP6176055B2

JP6176055B2 - 音声検索装置及び音声検索方法

Info

Publication number: JP6176055B2
Application number: JP2013218422A
Authority: JP
Inventors: 田中　正清; 正清田中; 岩見田　均; 均岩見田; 鷲尾　信之; 信之鷲尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-10-21
Filing date: 2013-10-21
Publication date: 2017-08-09
Anticipated expiration: 2033-10-21
Also published as: JP2015082138A; US20150112681A1; US9466291B2

Description

本発明は、例えば、音声データから検索語を検出する音声検索装置及び音声検索方法に関する。

電話による通話を録音したり、講演または会議における音声を録音することにより得られる音声データから、所望の内容に関する部分を抽出するために、特定の検索語を検出する技術が研究されている。このような音声検索技術において、検索処理を高速化する技術が提案されている（例えば、特許文献１を参照）。例えば、特許文献１に開示された音声データ検索装置は、音声波形データを音声シンボル列に変換し、その音声シンボル列中で検索語の音声シンボルと一致する区間を検出する。そしてその音声データ検索装置は、その検出された区間に検索語が含まれているか否かをその区間の音声波形データを用いて判定する。

特開２００２−２７８５７９号公報

特許文献１の技術は、検索処理の高速化を図るために、音声波形レベルで検索語と音声波形データのマッチングを行う前に、音声波形データのうちで検索語が含まれている可能性がある候補区間をシンボルレベルで絞り込んでいる。そのため、その技術を採用した音声検索装置は、検索語が含まれる区間の検出に失敗すると、その検出されなかった区間では検索語が探索されないので、検索語の検出に失敗してしまう。

そこで本明細書は、一つの側面では、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減できる音声検索装置を提供することを目的とする。

一つの実施形態によれば、音声検索装置が提供される。この音声検索装置は、検索語の特徴に基づいて、検索語の検出精度が高いほど、検索語の発音難易度が低いほど、あるいは検索語の出現確率が低いほど厳しくなるように、検索語の検出基準を設定する検出基準設定部と、音声データに対して検出基準に従って第１の音声検索処理を行うことにより、音声データから検索語が含まれる可能性がある区間を候補区間として検出する第１の照合部と、候補区間のそれぞれに対して第１の音声検索処理と異なる第２の音声検索処理を行うことにより、候補区間のそれぞれについて検索語が含まれるか否か判定する第２の照合部とを有する。

本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。

本明細書に開示された音声検索装置は、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減できる。

第１の実施形態による音声検索装置が実装された電話機の概略構成図である。第１の実施形態による音声検索装置が実装された電話機が有する処理部の機能ブロック図である。検索語のモーラ数と発音類似単語数の関係を示す図である。第１の実施形態による音声検索処理の動作フローチャートである。第３の実施形態による音声検索処理の動作フローチャートである。第４の実施形態による音声検索処理の動作フローチャートである。

以下、図を参照しつつ、様々な実施形態による音声検索装置について説明する。
この音声検索装置は、音声データから、相対的に検出精度が低いものの、相対的に処理量が少ない簡易音声検索処理（第１の音声検索処理）により、検索対象となる検索語が含まれている可能性がある候補区間を検出する。そしてこの音声検索装置は、その候補区間に対して、相対的に処理量が多いものの、相対的に検出精度が高い精密音声検索処理（第２の音声検索処理）を適用することにより、その候補区間に検索語が含まれているか否か判定する。ここで、この音声検索装置は、検索語自身の特徴に基づいて、検索精度が高いか、出現する確率が低い検索語ほど、簡易音声検索処理による候補区間の検出基準を厳しく、すなわち、候補区間が検出され難くなるように設定する。逆に、この音声検索装置は、検索精度が低いか、出現する確率が高い検索語ほど、候補区間の検出基準を緩く、すなわち、候補区間が検出され易くなるように設定する。これにより、この音声検索装置は、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減する。

本実施形態において、音声検索装置は、電話機に組み込まれ、電話回線を通じて取得した音声データまたはマイクロホンにより集音された音声データ、もしくはメモリに記憶されたそれらの音声データから、ユーザが指定した検索語が含まれる区間を検出する。
しかし、音声検索装置は、電話機に組み込まれるものに限られず、音声データを扱う様々な装置、例えば、ＩＣレコーダまたはコンピュータに実装されてもよい。

図１は、第１の実施形態による音声検索装置が実装された電話機の概略構成図である。本実施形態では、電話機１は、マイクロホン２と、通信部３と、記憶媒体アクセス装置４と、記憶部５と、ユーザインターフェース部６と、処理部７と、スピーカ８とを有する。なお、電話機１は、固定電話機または携帯電話機の何れであってもよい。

マイクロホン２は、音声入力部の一例であり、一方の話者であるユーザが発した音声のデータを取得する。マイクロホン２は、マイクロホン２の周囲にいるユーザが発する音声を集音してアナログ音声信号を生成し、そのアナログ音声信号をアナログ−デジタル変換器（図示せず）へ出力する。アナログ−デジタル変換器は、アナログ音声信号を所定のサンプリング周期でサンプリングしてデジタル化することにより上り音声データを生成する。そしてアナログ−デジタル変換器は、上り音声データをアナログ−デジタル変換器と接続された処理部７へ出力する。

通信部３は、音声入力部の他の一例であり、電話機１を電話回線に接続するためのインターフェース回路を有する。そして通信部３は、電話回線を介して、他方の話者が発した音声を電気信号化した下り音声データを含むデータストリームを受信する。そして通信部３は、そのデータストリームから下り音声データを抽出する。なお、下り音声データが所定の通信路符号化方式にて符号化されている場合には、通信部３は、符号化された下り音声データをその通信路符号化方式に従って復号する。そして通信部３は、下り音声データを処理部７へ出力する。

記憶媒体アクセス装置４は、例えば、半導体メモリカードといった記憶媒体９にアクセスする装置である。記憶媒体アクセス装置４は、例えば、記憶媒体９に記憶された処理部７上で実行されるコンピュータプログラムを読み込み、処理部７に渡す。また記憶媒体アクセス装置４は、記憶媒体９から音声検索用コンピュータプログラムを読み込んで、処理部７に渡してもよい。

記憶部５は、例えば、読み書き可能な不揮発性の半導体メモリと、読み書き可能な揮発性の半導体メモリとを有する。そして記憶部５は、処理部７上で実行される各種のアプリケーションプログラム及び各種のデータを記憶する。また記憶部５は、音声検索処理を実行するためのコンピュータプログラム及び音声検索処理に用いられる各種のデータを記憶してもよい。さらに記憶部５は、マイクロホン２または通信部３を介して取得された音声データを記憶してもよい。

ユーザインターフェース部６は、入力部の一例であり、例えば、複数の操作キーといった入力装置と液晶ディスプレイといった表示装置とを有する。あるいは、ユーザインターフェース部６は、タッチパネルディスプレイのように、入力装置と表示装置とが一体化された装置を有してもよい。そしてユーザインターフェース部６は、ユーザによる入力装置の操作に応じた操作信号を生成し、その操作信号を処理部７へ出力する。またユーザインターフェース部６は、処理部７から受け取った各種の情報を表示装置上に表示する。さらに、ユーザは、例えば、ユーザインターフェース部６を介して音声データから検出したい検索語を、テキストデータとして入力してもよい。

処理部７は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。処理部７は、電話機１の各部と信号線を介して接続されており、電話機１の各部を制御する。また処理部７は、ユーザによる操作、あるいは呼び出し信号の着信に応じて呼設定を行ったり、通信を維持するための各種の処理を実行する。また処理部７は、マイクロホン２から受け取った上り音声データを通信部３を介して電話回線へ送信するための各種の処理、及び電話回線から受け取った下り音声データをスピーカ８を介して再生するための各種の処理を実行する。

また処理部７は、音声検索装置の一例であり、上り音声データ及び下り音声データの少なくとも一方から、検索語を含む区間を検出する。以下の説明では、検索語の検出対象となる音声データを、他方の話者の声を含む下り音声データとする。なお、検索語の検出対象となる音声データは、ユーザの声を含む上り音声データであってもよく、あるいは、上り音声データと下り音声データが合成された一つの音声データであってもよい。

図２は、音声検索処理に関する処理部７の機能ブロック図である。処理部７は、発話区間検出部１１と、閾値設定部１２と、簡易照合部１３と、精密照合部１４とを有する。
処理部７が有するこれらの各部は、例えば、処理部７が有するプロセッサ上で動作するコンピュータプログラムにより実現される機能モジュールである。あるいは、処理部７が有するこれらの各部は、それぞれ、別個の回路として、電話機１に実装されてもよく、あるいはこれらの各部の機能を実現する一つの集積回路として、処理部７とは別個に電話機１に実装されてもよい。

発話区間検出部１１は、音声データを所定長を持つフレームごとに分割する。フレーム長は、例えば、10msec〜100msecに設定される。そして発話区間検出部１１は、音声データの各フレームのうち、話者が声を発しているフレームを検出することで、話者が話している区間である発話区間を検出する。

一般に、話者が声を発しているフレームにおける上り音声データのパワーは、話者が声を発していないフレームにおける音声データのパワーよりも大きい。そこで発話区間検出部１１は、例えば、フレームごとに、音声データを、時間周波数変換を用いて時間領域から周波数領域のスペクトル信号に変換する。なお、発話区間検出部１１は、時間周波数変換として、例えば、高速フーリエ変換(Fast Fourier Transform,FFT)または修正離散コサイン変換（Modified Discrete Cosign Transform, MDCT）を用いることができる。そして発話区間検出部１１は、各周波数帯域のスペクトル信号を２乗することにより周波数帯域ごとのパワーを求め、全周波数帯域にわたってパワーの平均値を算出する。そして発話区間検出部１１は、その平均値が所定のパワー閾値よりも大きいフレームを、話者が声を発しているフレームとして検出する。パワー閾値は、例えば、背景雑音のパワーに所定のオフセットを加算した値に設定される。その背景雑音のパワーは、例えば、予め設定されてもよく、あるいは、フレーム単位で更新されてもよい。例えば、発話区間検出部１１は、パワーの平均値がパワー閾値以下となったフレームのパワー平均値に忘却係数α（例えば、α=0.01）を乗じた値を、その時点の背景雑音のパワーに(1-α)を乗じた値に加えることで、背景雑音のパワーを更新する。

なお、発話区間検出部１１は、発話区間を検出する他の方法に従って、各フレームが話者が声を発しているフレームであるか否かを判定してもよい。例えば、発話区間検出部１１は、パワーの平均値がパワー閾値より大きいフレームについて、自己相関関数または変形自己相関関数のピーク値のうちの最大値（ただし、時間差0のピーク値を除く）を求めてもよい。人の声に相当するフレームについては、比較的自己相関の度合いが高いのに対し、背景雑音に相当するフレームの自己相関の度合いは低い。そこで発話区間検出部１１は、そのピーク値の最大値が所定の閾値よりも大きいフレームに限り、そのフレームを話者が声を発しているフレームと判定してもよい。なお、自己相関関数は、各周波数帯域のパワー（パワースペクトル密度）を逆フーリエ変換することにより求められる。また、変形自己相関関数は、パワースペクトル密度に対して線形予測符号化フィルタを用いてフィルタリングしたものを逆フーリエ変換することにより求められる。

発話区間検出部１１は、音声データから、話者が声を発していると判定されたフレームが連続する有音区間を検出する。そして発話区間検出部１１は、その有音区間が検出される度に、その有音区間を一つの発話区間とする。
発話区間検出部１１は、発話区間が検出される度に、その発話区間の開始時刻と終了時刻とを簡易照合部１３に通知する。

閾値設定部１２は、検出基準設定部の一例であり、ユーザインターフェース部６を介して指定された検索語の特徴に応じて、検索精度が高い検索語ほど、簡易照合部１３による候補区間の検出基準を厳しく、すなわち、候補区間が検出され難くなるように設定する。本実施形態では、閾値設定部１２は、簡易照合部１３により算出される、簡易照合部１３により検出される候補区間の数を表す順位閾値を、検索精度が高い検索語ほど小さく設定する。この閾値は、候補区間の検出基準の一例である。

本実施形態では、閾値設定部１２は、検索語の特徴として、検索語に含まれるモーラ数に着目して順位閾値を決定する。なお、モーラとは、一定の時間的長さを持った音の文節単位である。例えば、日本語では、単語が仮名文字表記された場合に、拗音（「ゃ」「ゅ」「ょ」）でない一つの仮名のそれぞれが、一つのモーラとなる。

図３は、単語に含まれるモーラ数と、その単語の発音と類似する発音を持つ単語の数の関係を示す図である。図３において、横軸はモーラ数を表し、縦軸は、単語の数を表す。そしてグラフ３００は、単語に含まれるモーラ数と、その単語の発音と類似する発音を持つ単語の数の関係を示す。グラフ３００に示されるように、一般的に、モーラ数が少ない単語ほど、その単語の発音と類似する発音を持つ単語の数は多くなり、逆に、モーラ数が多い単語ほど、その単語の発音と類似する発音を持つ単語の数は少なくなる。したがって、検索語の発音と類似する発音を持つ単語の数が多いと、音声データ中で検索語と類似する発音となる箇所の数も多くなる可能性がある。一方、検索語の発音と類似する発音を持つ単語の数が少ないほど、音声データ中で検索語と類似する発音となる箇所の数も少なくなる傾向がある。すなわち、モーラ数が多い検索語ほど、検出精度が高くなると推定される。

そこで本実施形態では、閾値設定部１２は、検索語に含まれるモーラ数が多いほど、順位閾値を低くする。そのために、閾値設定部１２は、例えば、記憶部５に予め記憶された、複数の単語のそれぞれごとに、その単語のテキストデータとその単語に含まれるモーラ数を記録したモーラ数データベースを参照する。そして閾値設定部１２は、モーラ数データベースに登録されている単語のうちで、ユーザインターフェース部６を介して指定された検索語のテキストデータと一致する単語を検出し、その検出された単語に対応するモーラ数を、検索語のモーラ数とする。また、検索語に複数の単語が含まれている場合には、閾値設定部１２は、モーラ数データベースに登録されている単語のなかから、検索語に含まれる各単語を検出する。そして閾値設定部１２は、検出された各単語に対応するモーラ数の合計を検索語のモーラ数としてもよい。

あるいは、閾値設定部１２は、検索語に対して言語解析を行うことにより、検索語に含まれるモーラ数を算出してもよい。この場合、例えば、閾値設定部１２は、記憶部５に予め記憶された単語の読みを表す単語辞書を参照して、検索語のテキストデータに対して言語解析の一種である形態素解析を行うことにより、検索語に含まれる各音節を特定する。これにより、閾値設定部１２は、検索語のモーラ数を求めることができる。閾値設定部１２は、形態素解析として、例えば、動的計画法を用いる方法を利用できる。

閾値設定部１２は、以下の式に従って、順位閾値n_kを設定する。

ここでkはモーラ数である。またNは定数であり、対象となる音声データが長いほど、大きな値に設定される。例えば、Nは、対象となる音声データに含まれる単語の総数の1/10に相当する数に設定される。例えば、一つの単語の長さの平均値が0.75秒であり、対象となる音声データが100分であり、発話時間が全体の50%であれば、対象データ中に単語は約4000語含まれると推定される。そこでNは400に設定される。f_mora(k)は、モーラ数kが大きいほど小さい値を出力し、かつその出力値が0〜1の範囲内の値となる単調減少関数である。f_mora(k)は、例えば、以下の式となる。しかしf_mora(k)は、２次関数、３次関数あるいは指数関数といった非線形の単調減少関数であってもよい。

あるいは、閾値設定部１２は、モーラ数kが大きくなるほど出力値も大きくなる単調増加関数によって得られる値を定数Nから減じることによって順位閾値n_kを算出してもよい。
閾値設定部１２は、順位閾値n_kを簡易照合部１３に通知する。

簡易照合部１３は、精密照合部１４による精密音声検索処理の処理量よりも少ない処理量の簡易音声検索処理を用いて、音声データ中の発話区間から検索語が含まれている可能性がある候補区間を検出する。

本実施形態では、簡易照合部１３は、検索語の音節列を求め、検索語の音節列と音声データ中の各発話区間の最尤音節列間の編集距離を算出する。そして簡易照合部１３は、編集距離が小さいほど大きくなる簡易照合スコアを算出し、簡易照合スコアが高い方の区間から順に、順位閾値n_k以下の順位となる区間を候補区間として検出する。なお、発話区間の最尤音節列は、時系列に沿って発話区間の先頭から順に音響的に最も近い音節を求め、その音節を時系列順に並べることによって生成されるテキストデータである。処理部７は、検索対象となる音声データ全体に対して、音声検索処理の実行前に、予め最尤音節列を求めておいてもよい。

簡易照合部１３は、検索語の音節列を求めるために、例えば、検索語に対して言語解析を実行する。例えば、簡易照合部１３は、記憶部５に予め記憶された単語の読みを表す単語辞書を参照して、検索語のテキストデータに対して言語解析の一種である形態素解析を行うことにより、検索語に含まれる各音節を特定することで、検索語の音節列を求める。

また、簡易照合部１３は、例えば、動的計画法を用いて検索語の音節列と発話区間の最尤音節列間の編集距離を算出する。なお、検索語の音節列よりも発話区間の最尤音節列の方が長いことがある。この場合、発話区間の最尤音節列に含まれる全ての音節が編集距離の算出に利用されるように、簡易照合部１３は、発話区間の最尤音節列において１音節ずつずらしながら検索語の音節列と同じ長さの区間を設定し、区間ごとに編集距離を算出する。動的計画法を用いることにより、編集距離の算出に要する演算量は、発話区間の最尤音節列に含まれる音節の数がmであり、検索語の音節列に含まれる音節の数がnであるとすると、たかだかo(mn)程度となる。

なお、編集距離は、二つの文字列の違いを定量化した尺度であり、一方の文字列に対して文字の挿入、置換、または削除といった編集作業を行って、他方の文字列と一致させるのに必要なその編集作業の最小回数に相当する。例えば、文字列「当局（とうきょく）」を文字列「皇居（こうきょ）」に変換する場合、以下の二つの編集作業が必要となる。
（１）「と」を「こ」に置換（とうきょく）→（こうきょく）
（２）「く」を削除（こうきょく）→（こうきょ）
したがって、編集距離は２となる。

なお、置換には、削除と挿入の二つの編集作業が含まれるので、簡易照合部１３は、１回の置換を２回の編集作業として、編集距離を算出してもよい。また簡易照合部１３は、置換作業を実行する際、置換対象となる音節と音響的に類似する音節でその置換対象となる音節を置換する場合には、編集作業回数を１回〜２回の間、例えば、1.5回としてもよい。なお、簡易照合部１３は、二つの音節の子音か母音の何れかが同じ場合、その二つの音節は音響的に類似していると判断してもよい。
なお、簡易照合部１３は、音節単位で編集距離を算出する代わりに、音素単位で編集距離を算出してもよい。

簡易照合部１３は、編集距離を算出した区間ごとに、その区間の編集距離を次式に代入することにより、その区間についての簡易照合スコアSを算出する。

ここで、dは編集距離であり、lは検索語の音節列の長さ（すなわち、検索語の音節列に含まれる音節の数）である。（３）式から明らかなように、編集距離が小さいほど、簡易照合スコアSは高くなり、その最大値は100である。そして簡易照合スコアSが高いほど、対応する区間の音節列が検索語と一致する可能性が高い。

簡易照合部１３は、簡易照合スコアが高い方の区間から順に、順位閾値n_k以下の順位となる区間を、検索語が含まれる可能性がある候補区間とする。そして簡易照合部１３は、各候補区間の開始時間と終了時間を精密照合部１４に通知する。

精密照合部１４は、各候補区間に対して、簡易照合部１３による簡易音声検索処理よりも相対的に処理量が多いものの、検出精度が高い精密音声検索処理を適用することにより、その候補区間に検索語が含まれているか否かを判定する。

本実施形態では、精密照合部１４は、予め作成された音響モデルを用いて候補区間に検索語が含まれているか否かを判定する。なお、音響モデルは、予め記憶部５に記憶される。
音響モデルは、例えば、単語の発音を音素または音節といった単位音ごとに区分し、その単位音の順序に従って、その単位音に対応する単位音響モデルを連結することにより生成される。この単位音響モデル及び音響モデルは、例えば、それぞれ、隠れマルコフモデル(Hidden Markov Model, HMM)により表される。

精密照合部１４は、例えば、候補区間から、音声認識に用いられる特徴量を抽出する。そのために、精密照合部１４は、例えば、特徴量として、メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficient、MFCC)を求める。または、精密照合部１４は、候補区間に含まれる、連続するフレーム間のパワーの差分値を求める。精密照合部１４は、特徴量としてMFCCを算出する場合、例えば、各周波数のパワースペクトルをメル尺度のパワー値に変換した後、そのパワー値の対数に対してMDCTなどの周波数変換を行うことによりMFCCを算出する。また精密照合部１４は、特徴量としてフレーム間のパワーの差分値を求める場合、例えば、連続する二つのフレーム間で周波数帯域全体にわたるパワースペクトルの積算値の差を求めることによりその差分値を求める。

なお、精密照合部１４は、特徴量として、音響モデルを用いた音声認識で用いられる他の様々な特徴量（例えば、基本周波数）の何れかを抽出してもよい。また精密照合部１４は、候補区間から複数の種類の特徴量を抽出してもよい。

精密照合部１４は、候補区間から抽出される１以上の特徴量を時間軸に沿って並べた特徴量の系列と、単位音響モデルを表すHMMを連結して生成した検索語の音響モデルとの類似度を求める。そして精密照合部１４は、その類似度が所定の閾値以上となる場合、候補区間に検索語が含まれていると判定する。そして精密照合部１４は、検索語が含まれていると判定した候補区間を表す情報、例えば、その候補区間の開始時間と終了時間を記憶部５に記憶する。あるいは、精密照合部１４は、検索語が含まれていると判定した候補区間を表す情報をユーザインターフェース部６へ出力してもよい。

なお、精密照合部１４は、動的時間伸縮法など、他の音声認識の手法に従って候補区間に検索語が含まれているか否かを判定してもよい。

図４は、第１の実施形態による音声検索処理の動作フローチャートである。
発話区間検出部１１は、検索対象となる音声データから、何れかの話者が発話している発話区間を検出する（ステップＳ１０１）。一方、閾値設定部１２は、ユーザインターフェース部６を介して指定された検索語の特徴に基づいて、検索精度が高い検索語ほど順位閾値n_kが小さくなるように、順位閾値n_kを設定する（ステップＳ１０２）。

簡易照合部１３は、音声データから検出された各発話区間に含まれる、検索語の長さを持つ区間ごとに簡易音声検索処理を行って、検索語が含まれている可能性が高いほど高くなる照合スコアSを算出する（ステップＳ１０３）。そして簡易照合部１３は、照合スコアSの順位が高い方から順に、順位閾値n_k以下の順位となる区間を、検索語が含まれている可能性がある候補区間として検出する（ステップＳ１０４）。

精密照合部１４は、候補区間ごとに、精密音声検索処理を行って、検索語が含まれているか否か判定する（ステップＳ１０５）。そして精密照合部１４は、検索語が含まれていると判定された候補区間を表す情報を出力し、音声検索処理を終了する。なお、ステップＳ１０１の処理とステップＳ１０２の処理の順序は入れ替わってもよい。

以上に説明してきたように、この音声検索装置は、検索語の特徴に基づいて、検索精度が高い検索語ほど、簡易照合部による候補区間の検出基準を厳しく設定し、逆に、検索精度が低い検索語ほど、簡易照合部による候補区間の検出基準を緩やかに設定する。これにより、この音声検索装置は、精密な音声検索処理の適用を要する区間が多い場合ほど多数の候補区間を検出し、精密な音声検索処理の適用を要する区間が少ない場合ほど少数の候補区間を検出する。そのため、この音声検索装置は、音声データに含まれる検索語の検出精度の低下を抑制しつつ、検索語の検出に要する処理量を軽減できる。さらに、この音声検索装置は、話者が話していると推定される発話区間のみから候補区間を検出するので、簡易照合部の処理が実行される区間も短くできるので、検索語の検出に要する処理量をさらに軽減できる。

次に、第２の実施形態による音声検索装置について説明する。第２の実施形態による音声検索装置は、順位閾値を、検索語の出現確率に基づいて決定する。
第２の実施形態による音声検索装置は、第１の実施形態による音声検索装置と比較して、処理部７の閾値設定部１２の処理だけが異なる。そこで以下では、閾値設定部１２及びその関連部分について説明する。

本実施形態では、閾値設定部１２は、記憶部５に予め記憶されている単語ごとの出現確率を記録した出現確率データベースを参照することで、検索語の出現確率を求める。例えば、閾値設定部１２は、出現確率データベースに登録されている単語のうちで、ユーザインターフェース部６を介して指定された検索語のテキストデータと一致する単語を検出し、その検出された単語に対応する出現確率を、検索語の出現確率とする。なお、出現確率は、例えば、0〜1の範囲内の値で表される。検索語に複数の単語が含まれる場合、閾値設定部１２は、出現確率データベースを参照して、検索語に含まれる単語ごとに出現確率を求め、その出現確率の最小値を検索語の出現確率としてもよい。あるいは、閾値設定部１２は、検索語に含まれる単語ごとの出現確率同士の積を、検索語の出現確率としてもよい。

一般的に、単語の出現確率が低いほど、音声データ中にその単語が出現する数は少なくなる。逆に、単語の出現確率が高いほど、音声データ中にその単語が出現する数は増える。そこで、本実施形態では、閾値設定部１２は、検索語の出現確率が低いほど検出基準を厳しく、すなわち、順位閾値を小さくすることで、候補区間の数を少なくする。これにより、精密照合部１４により処理される候補区間の数が減るので、音声検索処理全体の処理量が削減される。またこのように候補区間の数が少なくても、検索語の出現確率が低いので、検索語を含む区間が候補区間から外れる可能性も低い。
一方、閾値設定部１２は、検索語の出現確率が高いほど、順位閾値を大きくすることで、候補区間の数を多くして、検索語を含む区間が候補区間から外れる可能性を低減させる。

例えば、閾値設定部１２は、以下の式に従って、順位閾値n_wを設定する。

ここでwは出現確率である。またNは定数であり、対象となる音声データが長いほど、大きな値に設定される。例えば、Nは、対象となる音声データに含まれる単語の総数の1/10に相当する数に設定される。f_freq(w)は、出現確率wが大きいほど大きい値を出力し、かつその出力値が0〜1の値となる単調増加関数である。f_freq(w)は、例えば、以下の式となる。しかしf_freq(w)は、２次関数、３次関数あるいは指数関数といった非線形の単調増加関数であってもよい。

あるいは、閾値設定部１２は、出現確率wが大きくなるほど出力値も小さくなる単調減少関数によって得られる値を定数Nから減じることによって順位閾値n_kを算出してもよい。

この実施形態によれば、音声検索装置は、検索語の出現確率が高いほど多くの候補区間を検出するので、検索語が候補区間に含まれずに検索語の検出に失敗することを抑制できる。またこの音声検索装置は、検索語の出現確率が低い場合には、候補区間を少なくするので、音声検索処理の処理量を低減できる。

次に、第３の実施形態による音声検索装置について説明する。第３の実施形態による音声検索装置は、検索語の発音難易度に基づいて、照合スコアに対する閾値であるスコア閾値を決定する。
第３の実施形態による音声検索装置は、第１の実施形態による音声検索装置と比較して、処理部７の閾値設定部１２及び簡易照合部１３の処理が異なる。そこで以下では、閾値設定部１２、簡易照合部１３及びその関連部分について説明する。

本実施形態では、閾値設定部１２は、記憶部５に予め記憶されている単語ごとの発音難易度を記録した発音難易度データベースを参照することで、検索語の発音難易度を求める。例えば、閾値設定部１２は、発音難易度データベースに登録されている単語のうちで、ユーザインターフェース部６を介して指定された検索語のテキストデータと一致する単語を検出し、その検出された単語に対応する発音難易度を、検索語の発音難易度とする。なお、発音難易度は、例えば、単語の音節数に対する、発音が難しいポイントの数の比で表され、例えば、0〜1の範囲内の値を持つ。検索語に複数の単語が含まれる場合、閾値設定部１２は、発音難易度データベースを参照して、検索語に含まれる単語ごとに発音難易度を求め、その最大値を検索語の発音難易度としてもよい。あるいは、閾値設定部１２は、検索語に含まれる単語ごとの発音難易度の平均値を、検索語の発音難易度としてもよい。

あるいは、閾値設定部１２は、検索語を言語解析することによって検索語の音節列を求め、その音節列に含まれる音節の並びから発音が難しいポイントの数を計数する。そして閾値設定部１２は、発音が難しいポイントの合計を検索語の音節数で除することで、発音難易度を求めてもよい。なお、発音が難しいポイントの合計が検索語の音節数よりも多い場合には、閾値設定部１２は、発音難易度を1に設定する。

発音が難しいポイントは、例えば、n音節内に複数の拗音があるポイント、及び、m音節内に同一または類似の子音を持つ複数の音節があるポイントである。なお、m、nは、それぞれ2以上の整数である。例えば、単語「手術（しゅじゅつ）」について、m=n=2とした場合、「しゅ」と「じゅ」が拗音であり、かつ、互いに類似しているので、拗音に関するポイントと同一または類似の子音に関するポイントが、それぞれ、一つずつ存在する。また、単語「手術」の音節の数は３である。したがって、発音難易度は、(1+1)/3=0.67となる。

なお、発音が難しいポイントとして、閾値設定部１２は、上記の例以外のポイントをカウントしてもよい。また閾値設定部１２は、発音が難しいポイントの拗音または子音の種類によって異なる重みを設定し、検索語中で検出された発音が難しいポイントの重みの合計を検索語の音節数で除することにより、発音難易度を算出してもよい。

一般的に、単語の発音難易度が低いほど、話者はその単語を正確に発音できる。そのため、検索語の発音難易度が低いほど、音声データで検索語が含まれる区間の照合スコアは高くなる。逆に、検索語の発音難易度が高いほど、音声データで検索語が含まれる区間であっても、その区間の照合スコアは低くなる傾向がある。したがって、発音難易度が低い検索語ほど、その検索語の検出精度は高くなると推定される。そこで、本実施形態では、閾値設定部１２は、検索語の発音難易度が低いほど、照合スコアに対する閾値であるスコア閾値を高くする。これにより、検索語の発音難易度が低ければ、精密照合部１４により処理される候補区間の数が減るので、音声検索処理全体の処理量が削減される。一方、閾値設定部１２は、検索語の発音難易度が高いほど、スコア閾値を低くすることで、検索語が正確に発音されていなくても、検索語を含む区間を候補区間として検出できる。

例えば、閾値設定部１２は、以下の式に従って、スコア閾値x_pを設定する。

ここでpは発音難易度である。またXは定数であり、例えば、照合スコアの取り得る最大値に0.8〜0.9を乗じた値に設定される。例えば、本実施形態では、照合スコアの取り得る最大値は100なので、Xは90に設定される。f_pd(p)は、発音難易度pが高いほど低い値を出力し、かつその出力値が0〜1の範囲内の値となる単調減少関数である。f_pd(p)は、例えば、以下の式となる。しかしf_pd(p)は、２次関数、３次関数あるいは指数関数といった非線形の単調減少関数であってもよい。

あるいは、閾値設定部１２は、発音難易度pが高くなるほど出力値も大きくなる単調増加関数によって得られる値を定数Xから減じることによってスコア閾値x_pを算出してもよい。
閾値設定部１２は、スコア閾値x_pを簡易照合部１３へ通知する。

簡易照合部１３は、第１の実施形態における簡易照合部と同様に、音声データ中の発話区間内の検索語と同じ長さの区間ごとに照合スコアSを算出する。そして簡易照合部１３は、照合スコアSがスコア閾値x_p以上となる区間を候補区間として検出する。

図５は、第３の実施形態による音声検索処理の動作フローチャートである。
発話区間検出部１１は、検索対象となる音声データから、何れかの話者が発話している発話区間を検出する（ステップＳ２０１）。一方、閾値設定部１２は、ユーザインターフェース部６を介して指定された検索語の発音難易度に基づいて、発音難易度が低い検索語ほどスコア閾値x_pが高くなるように、スコア閾値x_pを設定する（ステップＳ２０２）。

簡易照合部１３は、音声データから検出された各発話区間に含まれる、検索語と同じ長さの区間ごとに簡易音声検索処理を行って、検索語が含まれている可能性が高いほど高くなる照合スコアSを算出する（ステップＳ２０３）。そして簡易照合部１３は、照合スコアSがスコア閾値x_p以上の区間を、検索語が含まれている可能性がある候補区間として検出する（ステップＳ２０４）。

精密照合部１４は、候補区間ごとに、精密音声検索処理を行って、検索語が含まれているか否か判定する（ステップＳ２０５）。そして精密照合部１４は、検索語が含まれていると判定された区間を出力し、音声検索処理を終了する。なお、ステップＳ２０１の処理とステップＳ２０２の処理の順序は入れ替わってもよい。

この実施形態によれば、音声検索装置は、検索語の発音難易度が低いほど、候補区間の検出基準を厳しくするので、話者が正確に発音できる検索語については候補区間の数を減らして、音声検索処理の処理量を低減できる。またこの音声検索装置は、検索語の発音難易度が高いほど、候補区間の検出基準を緩やかにするので、検索語が含まれる区間が候補区間から外れる失敗を抑制できる。

次に、第４の実施形態による音声検索装置について説明する。第４の実施形態による音声検索装置は、検索語に含まれるモーラ数及び出現確率に基づいて順位閾値を決定し、かつ、検索語の発音難易度に基づいて、スコア閾値を決定する。そしてこの音声検索装置は、順位閾値とスコア閾値の両方を用いて候補区間を検出する。
第４の実施形態による音声検索装置は、第１の実施形態による音声検索装置と比較して、処理部７の閾値設定部１２及び簡易照合部１３の処理が異なる。そこで以下では、閾値設定部１２、簡易照合部１３及びその関連部分について説明する。

閾値設定部１２は、第１の実施形態による音声検索装置の閾値設定部と同様の処理を行って、検索語に含まれるモーラ数kを求める。また閾値設定部１２は、第２の実施形態による音声検索装置の閾値設定部と同様の処理を行って、検索語の出現確率wを求める。そして閾値設定部１２は、モーラ数kと出現確率wに基づいて、例えば、以下の式に従って順位閾値N_k,wを決定する。

なお、関数f_mora(k)は、モーラ数kが増えるほど小さな値を出力する単調減少関数とすることができ、例えば（２）式で表される。また関数f_freq(w)は、出現確率wが高くなるほど、大きな値を出力する単調増加関数とすることができ、例えば（５）式で表される。

さらに、閾値設定部１２は、第３の実施形態による音声検索装置の閾値設定部と同様の処理を行って、検索語の発音難易度が高いほど低くなるようにスコア閾値x_pを決定する。
閾値設定部１２は、順位閾値N_k,w及びスコア閾値x_pを簡易照合部１３へ通知する。

簡易照合部１３は、順位閾値N_k,w及びスコア閾値x_pの両方を用いて候補区間を検出する。
例えば、簡易照合部１３は、第１の実施形態における簡易照合部と同様に、音声データ中の発話区間内の検索語と同じ長さの区間ごとに照合スコアSを算出する。そして簡易照合部１３は、例えば、照合スコアSがスコア閾値x_p以上となり、かつ、照合スコアが高い方から順にN_k,w個以内となる区間を候補区間として検出する。
あるいは、簡易照合部１３は、照合スコアSがスコア閾値x_p以上となるか、または、照合スコアSが高い方から順にN_k,w個以内となる区間を候補区間として検出してもよい。
あるいはまた、簡易照合部１３は、照合スコアSがスコア閾値(αx_p)以上となる区間を候補区間として検出する。また、簡易照合部１３は、照合スコアSが高い方から順に(βN_k,w)個以内となる区間を候補区間として検出する。さらに、簡易照合部１３は、照合スコアSがスコア閾値x_p以上となり、かつ、照合スコアが高い方から順にN_k,w個以内となる区間を候補区間としてもよい。なお、α、βは定数であり、例えば、それぞれ、1.1〜1.2、0.8〜0.9に設定される。

図６は、第４の実施形態による音声検索処理の動作フローチャートである。
発話区間検出部１１は、検索対象となる音声データから、何れかの話者が発話している発話区間を検出する（ステップＳ３０１）。一方、閾値設定部１２は、ユーザインターフェース部６を介して指定された検索語のモーラ数が多いほど、あるいは、検索語の出現確率が低いほど、順位閾値n_kが小さくなるように、順位閾値n_kを設定する（ステップＳ３０２）。さらに、閾値設定部１２は、発音難易度が低い検索語ほどスコア閾値x_pが高くなるように、スコア閾値x_pを設定する（ステップＳ３０３）。

簡易照合部１３は、音声データから検出された各発話区間に含まれる、検索語の長さを持つ区間ごとに簡易音声検索処理を行って、検索語が含まれている可能性が高いほど高くなる照合スコアSを算出する（ステップＳ３０４）。そして簡易照合部１３は、照合スコアS及び照合スコアSの順位が、順位閾値n_k及びスコア閾値x_pによって決まる基準を満たす区間を、検索語が含まれている可能性がある候補区間として検出する（ステップＳ３０５）。

精密照合部１４は、候補区間ごとに、精密音声検索処理を行って、検索語が含まれているか否か判定する（ステップＳ３０６）。そして精密照合部１４は、検索語が含まれていると判定された候補区間を表す情報を出力し、音声検索処理を終了する。なお、ステップＳ３０１の処理〜ステップＳ３０３の処理の順序は入れ替わってもよい。

この実施形態によれば、音声検索装置は、検索語の複数の特徴に基づいて候補区間の検出基準を設定するので、一つの特徴だけで候補区間の検出基準を設定するよりも適切な検出基準を設定できる。

なお、変形例によれば、閾値設定部１２は、検索語のモーラ数または出現確率に基づいて、スコア閾値を決定してもよい。この場合、閾値設定部１２は、検索語のモーラ数が多いほど、スコア閾値を高くする。あるいは、閾値設定部１２は、検索語の出現確率が低いほど、スコア閾値を高くしてもよい。さらにまた、閾値設定部１２は、検索語の発音難易度に基づいて、順位閾値を決定してもよい。この場合、閾値設定部１２は、検索語の発音難易度が低いほど、順位閾値を低くする。

また他の変形例によれば、発話区間検出部１１は省略されてもよい。この場合、簡易照合部１３は、検索対象となる音声データ全体に対して簡易照合部１３の処理を実行すればよい。

さらに他の変形例によれば、検索語は、例えば、マイクロホン２を介して音声データとして入力されてもよい。この場合、処理部７は、検索語の音声データに対して、例えば、音声認識処理を実行することで、検索語のテキストデータをもとめる。そして処理部７は、そのテキストデータを利用して、上記の各実施形態または何れかの変形例に従って、音声データ中で検索語が含まれる区間を検出すればよい。

上記の各実施形態または変形例による状態推定装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体または光記録媒体といったコンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。

ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。

以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
（付記１）
検索語の特徴に基づいて、該検索語の検出精度が高いほど、該検索語の発音難易度が低いほど、あるいは該検索語の出現確率が低いほど厳しくなるように、該検索語の検出基準を設定する検出基準設定部と、
音声データに対して前記検出基準に従って第１の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を候補区間として検出する第１の照合部と、
前記候補区間のそれぞれに対して前記第１の音声検索処理と異なる第２の音声検索処理を行うことにより、前記候補区間のそれぞれについて前記検索語が含まれるか否か判定する第２の照合部と、
を有する音声検索装置。
（付記２）
前記第１の音声検索処理の処理量は、前記第２の音声検索処理の処理量よりも少ない、付記１に記載の音声検索装置。
（付記３）
前記第１の照合部は、前記音声データに含まれる複数の区間のそれぞれごとに、前記第１の音声検索処理に従って前記検索語が含まれる可能性を表す照合スコアを算出し、前記照合スコアが前記検出基準を満たす区間を前記候補区間として検出する、付記１または２に記載の音声検索装置。
（付記４）
前記検出基準設定部は、前記検索語に含まれるモーラ数を前記検索語の特徴として算出し、該モーラ数が多いほど、前記検出基準を厳しく設定する、付記３に記載の音声検索装置。
（付記５）
前記検出基準設定部は、前記検索語の出現確率を前記検索語の特徴として算出し、該出現確率が低いほど、前記検出基準を厳しく設定する、付記３に記載の音声検索装置。
（付記６）
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど前記順位閾値を小さくし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、付記３〜５のいずれかに記載の音声検索装置。
（付記７）
前記検出基準は、前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど、前記スコア閾値を高くし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となる区間を前記候補区間として検出する、付記３〜５のいずれかに記載の音声検索装置。
（付記８）
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となり、かつ、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、付記３〜５のいずれかに記載の音声検索装置。
（付記９）
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記検出基準が厳しいほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となるか、または、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、付記３〜５のいずれかに記載の音声検索装置。
（付記１０）
前記検索語を指定する入力部をさらに有する、付記１〜９のいずれかに記載の音声検索装置。
（付記１１）
検索語の特徴に基づいて、該検索語の検出精度が高いほど、該検索語の発音難易度が低いほど、あるいは該検索語の出現確率が低いほど厳しくなるように、該検索語の検出基準を設定し、
音声データに対して前記検出基準に従って第１の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を候補区間として検出し、
前記候補区間のそれぞれに対して前記第１の音声検索処理と異なる第２の音声検索処理を行うことにより、前記候補区間のそれぞれについて検索語が含まれるか否か判定する、
ことを含む音声検索方法。

１電話機
２マイクロホン
３通信部
４記憶媒体アクセス装置
５記憶部
６ユーザインターフェース部
７処理部
８スピーカ
９記憶媒体
１１発話区間検出部
１２閾値設定部（検出基準設定部）
１３簡易照合部（第１の照合部）
１４精密照合部（第２の照合部）

Claims

検索語に含まれるモーラ数が多いほど、あるいは、該検索語の発音難易度が低いほど、該検索語が含まれるか否かの判定対象となる候補区間が検出され難くなるように、該候補区間の検出基準を設定する検出基準設定部と、
音声データに対して前記検出基準に従って第１の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を前記候補区間として検出する第１の照合部と、
前記候補区間のそれぞれに対して前記第１の音声検索処理と異なる第２の音声検索処理を行うことにより、前記候補区間のそれぞれについて前記検索語が含まれるか否か判定する第２の照合部と、
を有する音声検索装置。
前記第１の照合部は、前記音声データに含まれる複数の区間のそれぞれごとに、前記第１の音声検索処理に従って前記検索語が含まれる可能性を表す照合スコアを算出し、前記照合スコアが前記検出基準を満たす区間を前記候補区間として検出する、請求項１に記載の音声検索装置。
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値であり、
前記検出基準設定部は、前記候補区間が検出され難くなるほど前記順位閾値を小さくし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、請求項２に記載の音声検索装置。
前記検出基準は、前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記候補区間が検出され難くなるほど、前記スコア閾値を高くし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となる区間を前記候補区間として検出する、請求項２に記載の音声検索装置。
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記候補区間が検出され難くなるほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となり、かつ、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、請求項２に記載の音声検索装置。
前記検出基準は、前記照合スコアが高い方からの順序に対する順位閾値及び前記照合スコアに対するスコア閾値であり、
前記検出基準設定部は、前記候補区間が検出され難くなるほど、前記順位閾値を小さくするとともに前記スコア閾値を高くし、
前記第１の照合部は、前記複数の区間のうち、対応する前記照合スコアが前記スコア閾値以上となるか、または、前記照合スコアの順位が高い方から順に前記順位閾値以下となる区間を前記候補区間として検出する、請求項２に記載の音声検索装置。
処理部により、検索語に含まれるモーラ数が多いほど、あるいは、該検索語の発音難易度が低いほど、該検索語が含まれるか否かの判定対象となる候補区間が検出され難くなるように、該候補区間の検出基準を設定し、
前記処理部により、音声データに対して前記検出基準に従って第１の音声検索処理を行うことにより、前記音声データから前記検索語が含まれる可能性がある区間を前記候補区間として検出し、
前記処理部により、前記候補区間のそれぞれに対して前記第１の音声検索処理と異なる第２の音声検索処理を行うことにより、前記候補区間のそれぞれについて検索語が含まれるか否か判定する、
ことを含む音声検索方法。