JP6024180B2

JP6024180B2 - 音声認識装置、音声認識方法、及びプログラム

Info

Publication number: JP6024180B2
Application number: JP2012102942A
Authority: JP
Inventors: 原田　将治; 将治原田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-04-27
Filing date: 2012-04-27
Publication date: 2016-11-09
Anticipated expiration: 2032-04-27
Also published as: US20130289992A1; US9196247B2; JP2013231797A

Description

本明細書で議論される実施態様は、音声認識技術に関するものである。

認識対象者の発声音から音声認識の対象となる発声区間を検出し、その発声区間内で発声されている単語を認識する音声認識技術において、雑音による影響を抑制する技術が幾つか知られている。

例えば、第一の技術として、発声区間の判定に用いる音声パワーの閾値を適応的に変動させることで雑音を誤って発声区間と検出しないようにして、認識対象者の発声音だけが発声区間として検出されるようにするという技術が知られている。

また、例えば、第二の技術として、認識対象者の発声音の正規化パワーを用いて単語の照合を行うようにして、雑音に起因する誤認識を抑制するという技術が知られている。

また、例えば、第三の技術として、発声区間における母音や子音の比率を用いて単語の照合を行うようにして、雑音に起因する誤認識を抑制するという技術が知られている。

この他の関連技術として、信号における雑音レベルを、当該信号のパワー分布における最大頻度パワーに応じて当該パワー分布から取り出した部分分布に係るパワーの情報に基づき推定することで、非定常雑音の推定への影響を排除するという技術が知られている。

また、発声区間の検出に用いられるパラメータを入力信号から求めるときの閾値のセットを複数用意しておき、入力信号の信号対雑音比に応じて最適な閾値のセットを選択するようにして、最適な音声区間の検出を可能にするという技術が知られている。

特開平２−２９３７９７号公報特開平９−１６０５９２号公報特開２００３−５０５９５号公報特開平１０−２８８９９４号公報特開２０００−３５２９８７号公報

音声認識を行うためにマイクロフォンで認識対象者の発声音を取得する場合に、周囲にいる他の人の発声音が取得音声に混入していることがあり、この混入した発声音が単語の誤認識を生じさせることがある。

ここで、前述の第一の技術のように音声パワーの閾値を用いて発声区間の検出を行う場合には、認識対象者の発声音のパワーの最小値が他の人の発声音のパワーの最大値より常に大きいことが必要である。この条件が満たされない場合には、他の人の発声音の発声区間への混入や、認識対象者の発声音の発声区間からの除外が生じてしてしまうことがある。また、前述の第二及び第三の技術を用いて他の人の発声音に起因する誤認識の抑制を試みると、他の人の発声音も人の声ではあるために、ある程度高い音声パワーで他の人の発声音が混入すると、特徴量が類似してしまい、結果として誤認識を生じることがある。つまり、これらの技術では、認識対象者の発声音の音声パワーが他の人の発声音の音声パワーに比べて顕著に大きいものでなければ、誤認識の抑制は難しい。

上述した問題に鑑み、本明細書で後述する音声認識装置は、発声区間内に他の人の発声音が含まれていても、認識対象者の発声音の音声認識結果を適切に提供するようにする。

本明細書で後述するプログラムのひとつは、以下の処理をコンピュータに行わせる。この処理は、まず、入力された音声信号の特徴量を用いて、当該音声信号が表している音声に発声音が含まれている発声区間を当該音声信号から検出する。そして、検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出する。そして、検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、当該検出した発声区間についての発声音が表現している単語を特定する。そして、検出した発声区間内における、特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出する。そして、単語区間に関してのＳＮＲについての、検出した発声区間に関してのＳＮＲとの比較結果に基づいて、当該特定した単語を音声認識の結果として選出するか否かを判定する。そして、この判定により音声認識の結果として選出した単語を出力する。

また、本明細書で後述する音声認識装置のひとつに、検出部と、第一算出部と、照合部と、第二算出部と、選出部と、出力部とを備えるというものがある。ここで、検出部は、入力された音声信号の特徴量を用いて、当該音声信号が表している音声に発声音が含まれている発声区間を当該音声信号から検出する。第一算出部は、検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出する。照合部は、検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、当該検出した発声区間についての発声音が表現している単語を特定する。第二算出部は、検出した発声区間内における、特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出する。選出部は、単語区間に関してのＳＮＲについての、検出した発声区間に関してのＳＮＲとの比較結果に基づいて、当該特定した単語を音声認識の結果として選出するか否かを判定する。そして、出力部は、この判定により音声認識の結果として選出した単語を出力する。

また、本明細書で後述する音声認識方法のひとつは、まず、入力された音声信号の特徴量を用いて、当該音声信号が表している音声に発声音が含まれている発声区間を当該音声信号から検出する。そして、検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出する。そして、検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、当該検出した発声区間についての発声音が表現している単語を特定する。そして、検出した発声区間内における、特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出する。そして、単語区間に関してのＳＮＲについての、検出した発声区間に関してのＳＮＲとの比較結果に基づいて、当該特定した単語を音声認識の結果として選出するか否かを判定する。そして、この判定により音声認識の結果として選出した単語を出力する。

本明細書で後述する音声認識装置によれば、発声区間内に他の人の発声音が含まれていても、認識対象者の発声音の音声認識結果が適切に提供されるという効果を奏する。

音声認識装置の一実施例の機能構成図である。コンピュータのハードウェア構成図である。図１の音声認識装置で行われる制御処理の手順を図解したフローチャートである。音声認識装置の別の一実施例の機能構成図である。照合スコアに基づいた単語の選出の説明図である。図４の音声認識装置で行われる制御処理の手順を図解したフローチャートである。音声認識装置の更なる別の一実施例の機能構成図である。図７の音声認識装置が奏する効果の説明図である。図７の音声認識装置で行われる制御処理の手順を図解したフローチャートである。音節閾値テーブルの例である。単語辞書の一例である。音素閾値テーブルの例である。

まず図１について説明する。図１は音声認識装置の一実施例の機能構成図である。
図１の音声認識装置１０は、入力部１１、検出部１２、第一算出部１３、照合部１４、単語辞書１５、音響モデル１６、第二算出部１７、選出部１８、及び出力部１９を備えている。

入力部１１は、音声を表している音声信号を受理して、当該音声信号から当該音声の特徴量を算出する。なお、本実施例においては、入力部１１は、当該音声信号から当該音声のパワーを特徴量として算出するものとする。なお、入力部１１に入力される音声信号は、例えば、音声を収音した不図示のマイクロフォンから出力されるアナログ信号をデジタルデータに変換したものでもよく、また、不図示の記憶装置で保存されていた音声信号のデータファイルでもよい。

検出部１２は、入力部１１が算出した音声信号の特徴量を用いて、当該音声信号が表している音声に発声音が含まれている発声区間を当該音声信号から検出する。本実施例においては、検出部１２は、入力部１１が算出した音声パワーの平均値を求め、当該平均値を用いて発声区間の検出を行う。より具体的には、検出部１２は、音声パワーがこの平均値よりも所定の閾値α以上の大きさとなったときを検出して発声区間の始まりとする。また、検出部１２は、発声区間の始まりの検出後に、この平均値よりも所定の閾値β以下である音声パワーが所定時間（例えば１秒）継続した場合を検出して、その期間の先頭を発声区間の終わりとする。

第一算出部１３は、検出部１２が検出した発声区間に関しての信号対雑音比（ＳＮＲ：Signal to Noise Ratio）を算出する。このＳＮＲの算出の手法として、様々な手法を用いることができる。本実施例では、第一算出部１３は、下記の［Ａ］又は［Ｂ］のどちらかの手法を用いて、このＳＮＲの算出を行う。

［Ａ］第一算出部１３は、まず、雑音Ｎの値として、入力された音声信号についての音声パワーの最低値、若しくは、発声区間内の音声信号についての音声パワーの最低値を求め、信号Ｓの値として、発声区間内の音声信号についての音声パワーの最大値を求める。ここで、第一算出部１３は、下記の数式（１）の計算を行ってＳＮＲの値を算出し、算出された値を、検出部１２が検出した発声区間に関してのＳＮＲの算出結果とする。

SNR[dB] = 10log₁₀(S/N)・・・・・・・・・・（１）
［Ｂ］第一算出部１３は、検出部１２が検出した検出された発声区間を含む所定の区間における音声信号に関してのＳＮＲを算出する。すなわち、第一算出部１３は、まず、検出部１２が検出した検出された発声区間に、当該発声区間の前及び後の所定期間（例えば５分間）の区間を加えた区間を算出対象区間に設定する。なお、検出部１２は、この算出対象区間の設定において、検出部１２が検出した検出された発声区間に、当該発声区間の前の所定期間（例えば５分間）の区間のみを加えた区間を算出対象区間に設定するようにしてもよい。算出対象区間の設定をこのようにすると、音声認識装置１０を、認識結果を直ちに発声者に提示する用途に用いる場合に好適である。次に、第一算出部１３は、算出対象区間内の音声信号についての音声パワーの平均値と標準偏差とを求める。ここで、第一算出部１３は、算出対象区間内の音声信号の音声パワーのうちで、当該音声パワーの平均値から当該音声パワーの標準偏差を減算した値よりも小さいものの平均値を算出し、算出された平均値を雑音Ｎの値とする。また、第一算出部１３は、算出対象区間内の音声信号の音声パワーのうちで、当該音声パワーの平均値に当該音声パワーの標準偏差を加算した値よりも大きいものの平均値を算出し、算出された平均値を信号Ｓの値とする。そして、第一算出部１３は、前掲した数式（１）の計算を行ってＳＮＲの値を算出し、算出された値を、検出部１２が検出した発声区間に関してのＳＮＲの算出結果とする。

照合部１４は、検出部１２が検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、当該検出した発声区間についての発声音が表現している単語を特定する。本実施例では、照合部１４は、単語辞書１５と音響モデル１６とから単語のモデルを生成し、発声区間の音声信号の特徴量と、生成された単語のモデルとの類似度の高さを表す照合スコアを求め、この照合スコアが所定の閾値以上となる単語を特定する。ここで、単語のモデルは、例えば、単語辞書１５に格納されている単語の読みである音節列や音素列に対応する、音節毎や音素毎の音響モデル１６（例えばＨＭＭ（Hidden Markov Model、隠れマルコフモデル））を連結することによって生成される。また、音声信号の特徴量としては、例えば、ＭＦＣＣ（Mel Frequency Cepstral Coefficient）や、パワー差分が用いられる。その後、照合部１４は、この単語のモデルと音声信号の特徴量とを照合して、両者が一致するとみなすことの確からしさを表す確率を、照合スコアとして算出する。そして、照合部１４は、算出された確率値が最高の単語若しくは単語列を特定する。なお、照合部１４は、算出された確率値が、一定の基準、例えば、１フレームあたりの確率値が所定確率値以上といった基準を充足する単語若しくは単語列を、複数特定するようにしてもよい。

第二算出部１７は、検出部１２が検出した発声区間内における、照合部１４が特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出する。このＳＮＲの算出の手法としては、第一算出部１３と同様に、様々な手法を用いることができる。本実施例では、第一算出部１３が用いた手法に応じ、下記の［Ｃ］又は［Ｄ］のどちらかの手法を用いて、このＳＮＲの算出を行う。

［Ｃ］第一算出部１３が前述した手法［Ａ］を用いる場合には、第二算出部１７は、雑音Ｎの値として、第一算出部１３が用いた雑音Ｎの値と同一の値とし、信号Ｓの値として、単語区間内の音声信号についての音声パワーの最大値を求める。そして、第二算出部１７は、前掲した数式（１）の計算を行ってＳＮＲの値を算出し、算出された値を、単語区間に関してのＳＮＲの算出結果とする。

［Ｄ］第一算出部１３が前述した手法［Ｂ］を用いる場合には、第二算出部１７は、雑音Ｎの値として、第一算出部１３が用いた雑音Ｎの値と同一の値とする。また、第二算出部１７は、単語区間内の音声信号の音声パワーのうちで、算出対象区間内の音声信号の音声パワーの平均値に当該音声パワーの標準偏差を加算した値よりも大きいものの平均値を算出し、算出された平均値を信号Ｓの値とする。そして、そして、第二算出部１７は、前掲した数式（１）の計算を行ってＳＮＲの値を算出し、算出された値を、単語区間に関してのＳＮＲの算出結果とする。

選出部１８は、単語区間に関してのＳＮＲについての、検出部１２が検出した発声区間に関してのＳＮＲとの比較結果に基づいて、当該単語区間の発声音が表している単語を選出する。本実施例では、選出部１８は、発声区間に関してのＳＮＲに対して所定の下限閾値以上のＳＮＲである単語区間の発声音が表している単語、例えば、発声区間に関してのＳＮＲよりも１２ｄＢ低い値以上のＳＮＲである単語区間の発声音が表している単語を選出する。

出力部１９は、選出部１８が選出した単語を出力する。出力部１９により出力される単語が、入力部１１に入力される音声信号についての音声認識の結果である。なお、出力部１９は、例えば、単語の表記となる文字列を表示装置に表示させることによって単語の出力を行ってもよく、また、単語が表されているデータファイルの形式で出力を行ってもよい。また、出力部１９は、単語が選出部１８により選出されなかった場合には、何も出力しないようにしてもよく、また、音声認識の結果が得られなかった旨の通知を出力するようにしてもよい。

図１の音声認識装置１０は以上の構成を備えている。この構成によれば、照合部１４によって特定された単語についての発声音を表している単語区間に関してのＳＮＲが算出され、算出されたＳＮＲが発声区間に関してのＳＮＲと比較される。そして、この単語の選出が、その比較結果に基づいて行われる。従って、認識対象者の発声音が含まれているものとして検出した発声区間の音声信号に、他の人の発声音が含まれていても、認識対象者の発声音のみを対象とした音声認識の結果を適切に提供することができる。

入力される音声信号において認識対象者の発声音についての音声パワーが例えば３ｄＢから１２ｄＢまでの間で変動している場合において、認識対象者についての単語区間での音声パワーは、その上限である１２ｄＢに近い大きさである可能性が高い。その一方、その音声信号においての他の人の音声パワーは、認識対象者のものに比べて相対的に低く、例えば０ｄＢから６ｄＢまでの間である。従って、特に単語区間内においては、他の人についての音声パワーが認識対象者についてのものよりも高いものが含まれる可能性は極めて低い。これは、他の人はマイクロフォンからの距離が認識対象者よりも離れていたり、あるいは、他の人はマイクロフォンに向かって発声していなかったりするからである。つまり、認識対象者の発声音と共に他の人の発声音をマイクロフォンで収音したときの当該他の人の発声音の音声パワーは認識対象者のものよりも減衰している。従って、図１の音声認識装置１０が前述したようにして単語の選出を行うことで、他の人の発声音の音声認識の結果を、認識対象者の音声認識の結果として出力してしまう誤りが抑制されるのである。

なお、選出部１８は、発声区間に関してのＳＮＲに対して所定の下限閾値以上であって且つ所定の上限閾値以下のＳＮＲである単語区間の発声音が表している単語を選出するようにしてもよい。すなわち、例えば、選出部１８は、発声区間に関してのＳＮＲに対して−１２ｄＢから＋１２ｄＢの範囲内のＳＮＲである単語区間の発声音が表している単語を選出するようにしてもよい。このようにして、単語の選出の基準とする単語区間の発声音のＳＮＲの条件に上限を追加すると、単語認識の対象とは本来なり得ない大音量の騒音、例えば、咳やくしゃみ、あるいはドアが閉まったときの音などに基づく音声認識の結果が選出対象から除外される。従って、このような騒音の音声認識の結果を、認識対象者の音声認識の結果として出力してしまう誤りが抑制される。なお、この手法は、例えば、前述した［Ａ］及び［Ｃ］の手法をそれぞれ第一算出部１３及び第二算出部１７が用いた場合に採用するよりも、前述した［Ｂ］及び［Ｄ］の手法を用いた場合に採用した方が、より効果的である。

本実施例では、以上のような機能構成を備える図１の音声認識装置１０を、コンピュータを用いて実現する。

図２について説明する。図２はコンピュータのハードウェア構成図である。
図２のコンピュータ２０は、ＭＰＵ２１、ＲＯＭ２２、ＲＡＭ２３、ハードディスク装置２４、入力装置２５、表示装置２６、インタフェース装置２７、及び記録媒体駆動装置２８を備えている。なお、これらの各構成要素はバスライン２９を介して接続されており、ＭＰＵ２１の管理の下で各種のデータを相互に授受することができる。

ＭＰＵ（Micro Processing Unit）２１は、コンピュータ２０全体の動作を制御する演算処理装置である。

ＲＯＭ（Read Only Memory）２２は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。ＭＰＵ２１は、この基本制御プログラムを音声認識装置１０の起動時に読み出して実行することにより、コンピュータ２０の各構成要素の動作制御が可能になる。なお、ＲＯＭ２２として、フラッシュメモリ等の、記憶データが不揮発性であるメモリを使用してもよい。

ＲＡＭ（Random Access Memory）２３は、ＭＰＵ２１が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。

ハードディスク装置２４は、ＭＰＵ２１によって実行される各種の制御プログラムや、各種のデータを記憶しておく記憶装置である。ＭＰＵ２１は、ハードディスク装置２４に記憶されている所定の制御プログラムを読み出して実行することにより、各種の制御処理を行えるようになる。

入力装置２５は、例えばキーボード装置やマウス装置であり、例えばコンピュータ２０の使用者により操作されると、その操作内容に対応付けられている使用者からの各種情報の入力を取得し、取得した入力情報をＭＰＵ２１に送付する。

表示装置２６は例えば液晶ディスプレイであり、ＭＰＵ２１から送付される出力データに応じ、各種のテキストや画像の表示を行う。

インタフェース装置２７は、外部機器との間での各種のデータの授受の管理を行う。
記録媒体駆動装置２８は、可搬型記録媒体３０に記録されている各種の制御プログラムやデータの読み出しを行う装置である。ＭＰＵ２１は、可搬型記録媒体３０に記録されている所定の制御プログラムを、記録媒体駆動装置２８を介して読み出して実行することによって、各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体３０としては、例えばＣＤ−ＲＯＭ（Compact Disc Read Only Memory）やＤＶＤ−ＲＯＭ（Digital Versatile Disc Read Only Memory）、ＵＳＢ（Universal Serial Bus）規格のコネクタが備えられているフラッシュメモリなどがある。

このように、コンピュータ２０は標準的なハードウェア構成を備えている。このコンピュータ２０を用いて音声認識装置１０を構成するには、例えば、音声認識装置１０で行われる後述の制御処理をＭＰＵ２１に行わせるための制御プログラムを作成して、例えばハードディスク装置２４若しくは可搬型記録媒体３０に予め格納しておく。そして、ＭＰＵ２１に所定の指示を与えてこの制御プログラムを読み出させて実行させる。なお、単語辞書１５及び音響モデル１６は、例えばハードディスク装置２４に予め格納しておく。あるいは、インタフェース装置２７を介して接続されている外部記憶装置に単語辞書１５及び音響モデル１６を格納しておいてもよい。このようにすることで、図２の各構成要素を、図１の音声認識装置１０を構成する各機能ブロックとして機能させることが可能となる。

なお、音声信号の入力としては、例えば、発声音を収音した不図示のマイクロフォンから出力されるアナログ信号をインタフェース装置２７に入力して、インタフェース装置２７でデジタルデータに変換したものを用いる。また、例えば、不図示の記憶装置で保存されている音声信号のデータを、インタフェース装置２７を介して取得したものを、音声信号の入力として用いてもよい。

次に図３について説明する。図３は、図１の音声認識装置１０で行われる制御処理の手順を図解したフローチャートである。

図３の処理が開始されると、まず、Ｓ１０１において、音声を表している音声信号を受理して、当該音声信号から当該音声の特徴量を算出する処理を入力部１１が行う。

次に、Ｓ１０２では、Ｓ１０１の処理により算出された音声信号の特徴量を用いて、当該音声信号が表している音声に発声音が含まれている発声区間を当該音声信号から検出する処理を、検出部１２が前述のようにして行う。

次に、Ｓ１０３では、Ｓ１０２の処理により検出された発声区間に関してのＳＮＲを算出する処理を、第一算出部１３が前述の［Ａ］若しくは［Ｃ］のどちらかの手法を用いて行う。

次に、Ｓ１０４では、Ｓ１０２の処理で検出された発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとの照合によって、当該検出された発声区間についての発声音が表現している単語を１つ特定する処理を、照合部１４が前述のようにして行う。前述したように、照合部１４は、単語辞書１５と音響モデル１６とを使用して、このＳ１０４の処理を行う。

次に、Ｓ１０５では、Ｓ１０２の処理により検出された発声区間についての発声音が表現している単語を、Ｓ１０４の処理により特定することができたか否かを判定する処理を照合部１４が行う。照合部１４は、ここで、単語の特定ができたと判定したとき（判定結果がＹｅｓのとき）にはＳ１０６に処理を進め、単語の特定ができなかったと判定したとき（判定結果がＮｏのとき）にはＳ１０９に処理を進める。

Ｓ１０６では、Ｓ１０２の処理により検出された発声区間内における、Ｓ１０４の処理により特定された単語についての発声音を表している単語区間に関してのＳＮＲを算出する処理を、第二算出部１７が前述のようにして行う。なお、このＳ１０６の処理において、第二算出部１７は、Ｓ１０３の処理において第一算出部１３が用いた手法に応じ、前述した［Ｃ］又は［Ｄ］のどちらかの手法を用いて、このＳＮＲの算出を行う。

Ｓ１０７では、Ｓ１０６の処理により算出された単語区間に関してのＳＮＲが所定の条件に合致するかどうかを検証する処理を選出部１８が行う。すなわち、選出部１８は、単語区間に関してのＳＮＲが、Ｓ１０３の処理により算出された発声区間に関してのＳＮＲに対して所定の下限閾値以上であるか否か、例えば、発声区間に関してのＳＮＲから１２ｄＢ低い値以上であるか否かを検証する処理を行う。

なお、このＳ１０７の処理において、選出部１８は、前述したように、単語区間に関してのＳＮＲが、発声区間に関してのＳＮＲに対して所定の下限閾値以上であって且つ所定の上限閾値以下であるか否かを検証する処理を行うようにしてもよい。すなわち、例えば、第一算出部１３及び第二算出部１７が［Ｂ］及び［Ｄ］の手法をそれぞれ用いた場合に、選出部１８は、単語区間に関してのＳＮＲが、発声区間に関してのＳＮＲに対してＪ倍からＫ倍の範囲内であるかを検証する処理を行うようにしてもよい。なお、この場合における定数Ｊの値は例えば０．８であり、定数Ｋの値は例えば１．２である。

次に、Ｓ１０８では、Ｓ１０７の処理による検証の結果、Ｓ１０６の処理により算出された単語区間に関してのＳＮＲが所定の条件に合致したか否かを判定する処理を選出部１８が行う。選出部１８は、ここで、単語区間に関してのＳＮＲが所定の条件に合致したと判定したとき（判定結果がＹｅｓのとき）には、Ｓ１０４の処理により特定された単語を選出結果とし、その後はＳ１０９に処理を進める。一方、選出部１８は、ここで、単語区間に関してのＳＮＲが所定の条件に合致しないと判定したとき（判定結果がＮｏのとき）には、Ｓ１０４に処理を戻して、他の単語を特定する処理を照合部１４に行わせる。

Ｓ１０９では、図３の処理の結果を出力する処理を出力部１９が行い、その後はこの図３の処理が終了する。このＳ１０９の処理がＳ１０８の処理に続いて行われる場合には、出力部１９は、Ｓ１０８の処理により選出部１８が選出した単語を、前述のようにして出力する。また、このＳ１０９の処理がＳ１０５の処理に続いて行われる場合には、出力部１９は、音声認識の結果が得られなかった旨の通知を出力するか、若しくは、何も出力しないようにする。

図１の音声認識装置１０は、以上の制御処理を行うことで、他の人の発声音が含まれても、認識対象者の発声音のみを対象とした音声認識の結果の提供が適切なものとなる。

なお、図３の制御処理では、Ｓ１０４の処理により単語を１つずつ特定した上で、Ｓ１０５からＳ１０８にかけての処理を行うようにしている。この代わりに、Ｓ１０４の処理により単語を複数特定した上で、それらの複数の単語の各々について、Ｓ１０５からＳ１０８にかけての処理を並行して行うようにしてもよい。

次に図４について説明する。図４は音声認識装置の別の一実施例の機能構成図である。
図４に図解した音声認識装置１０の構成において、図１に表したものと同名の機能ブロックについては同一の符号を付している。以下の説明において特に説明を行わない機能ブロックについては図１に表したものと同様の機能を提供するものとする。

図４の音声認識装置１０は、図１と同様の各機能ブロックに加えて、変更部３１を更に備えている。この変更部３１は、第二算出部１７が算出した単語区間に関してのＳＮＲと第一算出部１３が算出した発声区間に関してのＳＮＲとの比較結果に基づいて、当該単語区間の発声音が表している単語について照合部１４が取得した照合スコアを変更する。

なお、変更部３１を備えている図４の構成においては、選出部１８は、単語区間の発声音が表している単語の選出を、当該単語についての照合スコアに基づいて行う。

ここで、変更部３１による照合スコアの変更と、選出部１８による、照合スコアに基づいた単語の選出とについて、図５を用いて説明する。

図５に図解した［ａ］及び［ｂ］のグラフは、発声区間の発声音について照合部１４が単語の特定を行ったときの、当該単語について得られた照合スコアと、単語区間についての発声区間に対するＳＮＲの比率との関係の一般的な傾向を表したものである。

一般に、発声音の音声パワーが十分に得られなければ、発声区間の発声音の特徴量と単語の音響モデルとの類似度は低いものとなる。また、発声区間における認識対象者以外の他の人の発声音は、認識対象者の発声音よりも一般的には音声パワーが小さいことは既に説明した。これらのことから、認識対象者以外の他の人の発声音について照合部１４が単語の特定を行ったときに得られる照合スコアは、認識対象者の発声音について得られる照合スコアよりも小さくなる傾向を一般的には呈する。図５のグラフはこの傾向を表したものであり、照合スコアが同一の場合においての認識対象者以外の他の人の発声音についての認識対象者の発声音に対する割合は、照合スコアが低くなるほど大きくなることが分かる。

図５の［ａ］は、選出部１８による単語の選出を、照合スコアとは無関係に、ＳＮＲの比率と所定の検出閾値との比較によって行う場合を表現している。なお、この［ａ］の例では、その検出閾値を、照合スコアが『８０』の場合において最適と思われる『０．６』と設定した場合を表している。しかしながら、この設定では、照合スコアが『７０』の場合においては、認識対象者以外の他の人の発声音について照合部１４が特定した単語を、選出部１８が誤って選出してしまう確率が高くなってしまう。また、照合スコアが『９０』の場合においては、認識対象者の発声音について照合部１４が特定した単語を、選出部１８が誤って選出から除外してしまう確率が高くなってしまう。

そこで、図４の音声認識装置１０における変更部３１は、単語区間に関してのＳＮＲと発声区間に関してのＳＮＲとの比較結果に基づいて、単語区間の発声音が表している単語について照合部１４が取得した照合スコアを変更する。より具体的には、単語区間に関してのＳＮＲと発声区間に関してのＳＮＲとの比率が所定の閾値未満である場合には、単語区間の発声音が表している単語について照合部１４が取得した照合スコアを減点してペナルティを課す。そして、選出部１８は、単語区間の発声音が表している単語の選出を、この単語についての照合スコアに基づいて行う。

図５の［ｂ］は、変更部３１が、単語区間に関してのＳＮＲと発声区間に関してのＳＮＲとの比率が０．７未満である場合に、比率が０．１少ない毎にペナルティとして値１０を照合スコアから減点する場合の例である。従って、ＳＮＲの比率が０．６から０．７までの単語に対しては照合スコアにペナルティ１０が課せられ、ＳＮＲの比率が０．５から０．６までの単語に対しては照合スコアにペナルティ２０が課せられる。

なお、図５の［ｂ］の例では、選出部１８は、照合スコアが７０以上の単語を、単語区間の発声音が表している単語として選出するものとする。すると、照合スコアが『８０』の場合においては、ＳＮＲの比率が『０．６』以上の単語が選出される。この場合に選出される単語は、図５の［ａ］と同様である。一方、図５の［ｂ］の例では、照合スコアが『７０』の場合においてはＳＮＲの比率が『０．７』以上の単語が選出されることになり、照合スコアが『９０』の場合においてはＳＮＲの比率が『０．５』以上の単語が選出されることになる。従って、図５の［ｂ］のようにして単語の選出を行うことで、図５の［ａ］のようにする場合よりも、単語選出をより適切に行えるようになる。

本実施例では、以上のような機能構成を備える図４の音声認識装置１０を、図２に図解したハードウェア構成を備えるコンピュータ２０を用いて実現する。このためには、例えば、音声認識装置１０で行われる後述の制御処理をＭＰＵ２１に行わせるための制御プログラムを作成して、例えばハードディスク装置２４若しくは可搬型記録媒体３０に予め格納しておく。そして、ＭＰＵ２１に所定の指示を与えてこの制御プログラムを読み出させて実行させる。なお、単語辞書１５及び音響モデル１６は、例えばハードディスク装置２４に予め格納しておく。あるいは、インタフェース装置２７を介して接続されている外部記憶装置に単語辞書１５及び音響モデル１６を格納しておいてもよい。このようにすることで、図２の各構成要素を、図４の音声認識装置１０を構成する各機能ブロックとして機能させることが可能となる。

次に図６について説明する。図６は、図４の音声認識装置１０で行われる制御処理の手順を図解したフローチャートである。

まず、図６におけるＳ１０１からＳ１０３にかけての処理は、図３に図解したフローチャートにおけるものと同一の処理内容であるので、ここではその説明を省略する。

Ｓ１０３に続くＳ２０１では、図３のＳ１０４と同様の照合の処理を照合部１４が行う。但し、このＳ２０１では、照合部１４は、単語の特定を行うと共に、この単語の特定のために算出した照合スコアを、特定された単語と対応付けて出力する処理を行う。

Ｓ２０１に続くＳ１０５からＳ１０７にかけての処理は、図３に図解したフローチャートにおけるものと同一の処理内容であるので、ここではその説明を省略する。

Ｓ１０７に続くＳ２０２では、Ｓ１０６の処理で算出された単語区間に関してのＳＮＲがＳ１０７の検証処理における所定の条件に合致しない場合には、Ｓ２０１の処理で特定された単語についての照合スコアを減点してペナルティを課す処理を変更部３１が行う。このときの減点は、本実施例においては一律とするが、図５の［ｂ］の例のように、単語区間に関してのＳＮＲについての所定の条件からの乖離の程度に応じて減点幅を大きくしてもよい。

なお、照合部１４が、照合スコアとして、例えば、この単語のモデルと音声信号の特徴量との距離を算出する場合には、照合スコアは、その値が小さいほど両者の類似度が高いことを表すことになる。従って、この場合には、変更部３１は、Ｓ２０１の処理で特定された単語についての照合スコアにペナルティを課すために、当該照合スコアを加点する処理を行うことになる。

Ｓ２０３では、図６の処理の結果を出力する処理を出力部１９が行い、その後はこの図６の処理が終了する。このＳ２０３の処理がＳ２０２の処理に続いて行われる場合には、出力部１９は、Ｓ２０１の処理で特定された単語を出力する。なお、出力部１９は、この単語の出力と共に、その単語についての照合スコアを出力するようにしてもよい。また、出力部１９は、複数の単語を出力する場合には、照合スコア順に並び替えて各単語を出力するようにしてもよく、更には、照合スコアの上位の所定数個の単語のみを出力するようにしてもよい。なお、このＳ２０３の処理がＳ１０５の処理に続いて行われる場合には、出力部１９は、図３のＳ１０９の処理と同様に、音声認識の結果が得られなかった旨の通知を出力するか、若しくは、何も出力しないようにする。

図４の音声認識装置１０は、以上の制御処理を行うことで、他の人の発声音が含まれても、認識対象者の発声音のみを対象とした音声認識の結果がより適切に提供される。

次に図７について説明する。図７は音声認識装置の更なる別の一実施例の機能構成図である。

図７に図解した音声認識装置１０の構成において、図１に表したものと同名の機能ブロックについては同一の符号を付している。以下の説明において特に説明を行わない機能ブロックについては図１に表したものと同様の機能を提供するものとする。

図７の音声認識装置１０は、図１と同様の各機能ブロックに加えて、閾値算出部４１を更に備えている。

図７の構成において、選出部１８は、発声区間に関してのＳＮＲに対して所定の下限閾値以上のＳＮＲである単語区間の発声音が表している単語を選出する。但し、選出部１８は、この単語の選出に用いる下限閾値として、選出の対象である単語毎に対応付けられている下限閾値を用いて行う。閾値算出部４１は、この選出部１８による選出の対象である単語についての下限閾値を、当該単語の読みの情報に基づいて算出する。より具体的には、本実施例における閾値算出部４１は、選出部１８による選出の対象である単語についての下限閾値の算出を、当該単語の読みの各音節について予め用意されている閾値の平均値を算出することによって行う。

ここで、図７の音声認識装置１０が奏する効果について、図８を用いて説明する。
図８の２つのグラフは、ある発声区間における発声音についての音声パワーの時間変化の様子の一例を表しており、認識対象者が『えー、ふくやまのてんき』と発声している傍らで他の人が『こう』と発声した場合の様子を表している。このグラフにおいて、横軸は時間の経過を表しており、縦軸は音声パワーを表している。ここで、この発声区間内におけるノイズレベルは一定であるとすれば、この音声パワーの時間変化は、発声区間のＳＮＲの変化をそのまま表していると見ることができる。

まず、図８の［ａ］は、選出部１８が単語の選出に用いる検出閾値を高くして、他の人の発声音『こう』についての照合部１４による照合結果が選出部１８での選出における選出対象から除外されるように設定した場合を表している。この検出閾値は、前述した下限閾値に相当するものである。検出閾値をこのように設定した場合には、認識対象者の発声音において音声パワーが相対的に低い、例えば発声音『ふく』の発声区間の音声パワーが検出閾値を下回るため、発声音『ふく』についての照合部１４による照合結果も選出対象から除外されてしまう。

その一方で、図８の［ａ］は、選出部１８が単語の選出に用いる検出閾値を低くして、上述した認識対象者の発声音『ふく』についての照合部１４による照合結果が選出されるように設定した場合を表している。このように設定した場合には、今度は他の人の発声音『こう』の発声区間の音声パワーが検出閾値を上回ってしまうため、発声音『こう』についての照合部１４による照合結果が選出対象とされてしまう。

このように、選出部１８が単語の選出に用いる下限閾値を常に一定の値とすると、認識対象者の発声音についての単語を選出して他の人の発声音についての単語を選出から除外する選出部１８の動作が不適切になる場合がある。そこで、閾値算出部４１は、この選出部１８による選出の対象である単語についての下限閾値を、当該単語の読みの情報に基づいて算出するようにする。このようにすることで、選出部１８の上述した動作がより適切なものとなり、発声区間内に他の人の発声音が含まれていても、認識対象者の発声音の音声認識の結果の提供がより適切なものとなる。

本実施例では、以上のような機能構成を備える図７の音声認識装置１０を、図２に図解したハードウェア構成を備えるコンピュータ２０を用いて実現する。このためには、例えば、音声認識装置１０で行われる後述の制御処理をＭＰＵ２１に行わせるための制御プログラムを作成して、例えばハードディスク装置２４若しくは可搬型記録媒体３０に予め格納しておく。そして、ＭＰＵ２１に所定の指示を与えてこの制御プログラムを読み出させて実行させる。なお、単語辞書１５及び音響モデル１６は、例えばハードディスク装置２４に予め格納しておく。あるいは、インタフェース装置２７を介して接続されている外部記憶装置に単語辞書１５及び音響モデル１６を格納しておいてもよい。このようにすることで、図２の各構成要素を、図７の音声認識装置１０を構成する各機能ブロックとして機能させることが可能となる。

次に図９について説明する。図９は、図７の音声認識装置１０で行われる制御処理の手順を図解したフローチャートである。

図９の処理が開始されると、まず、Ｓ３０１において、単語辞書１５に格納されている各単語について、選出部１８による単語の選出に用いる下限閾値を、その単語の読みの情報に基づいて算出する処理を閾値算出部４１が行う。

ここで、この下限閾値の算出の手法について、図１０から図１２の各図を用いて説明する。

まず図１０について説明する。図１０は、閾値算出部４１が前述の下限閾値の算出のために使用する音節閾値テーブルの例である。このテーブルは、日本語の音節の各々に、その音節についての閾値を対応付けたものである。この音節毎の閾値は、例えば、事前に収録した音声データを用いて、音節毎の音声パワーを計測してその計測値の対数値を算出し、得られた値を、その音声データ中の音声パワーの対数値の最大値で除算することによって正規化した値を用いる。

なお、音節閾値テーブルとしては、この代わりに、例えば、音節の母音毎に、母音のパワー差に基づいた値を閾値として対応付けたテーブルを用いるようにしてもよい。すなわち、例えば、五十音におけるア段に属する音節は閾値を『０．９０』とし、イ段に属する音節は『０．６０』とし、ウ段に属する音節は例えば『０．７０』とし、エ段に属する音節は『０．８０』とし、オ段に属する音節は例えば『０．８５』としてもよい。

なお、図２に図解したハードウェア構成を備えるコンピュータ２０を用いて図７の音声認識装置１０を実現する場合には、この音節閾値テーブルは例えばハードディスク装置２４に予め格納しておくようにする。

閾値算出部４１は、この音節閾値テーブルを参照して、単語の読みを表している音節列を構成している各音節についての閾値を取得し、音節毎に得られた閾値の平均値を算出し、算出された平均値を、当該単語についての下限閾値とする。

例えば、単語『福山』についての下限閾値を算出する場合、まず、閾値算出部４１は、まず、単語辞書１５を参照して、この単語『福山』の読み『ふくやま』を取得する。次に、閾値算出部４１は、読み『ふくやま』を音節『ふ』、『く』、『や』、及び『ま』に分解し、音節閾値テーブルを参照して、各音節についての閾値を参照する。ここでは、音節『ふ』、『く』、『や』、及び『ま』について、それぞれ閾値『０．７５』、『０．７０』、『０．９０』、及び『０．８５』が音節閾値テーブルから得られたものとする。ここで、閾値算出部４１は、この４つの閾値の平均値を算出し、算出結果として、平均値『０．８０』が得られる。閾値算出部４１は、算出された平均値『０．８０』を、単語『福山』についての下限閾値として、単語辞書１５に格納する。図１１のテーブルは、各単語について、このようにして算出された下限閾値が格納された単語辞書１５の一例を表している。

なお、図７の音声認識装置１０により英単語の認識を行う場合には、閾値算出部４１は、音素閾値テーブルを用いて、前述の下限閾値の算出を行う。図１２は、音素閾値テーブルの例である。このテーブルは、音素を表している発音記号の各々に、その音素についての閾値を対応付けたものである。この音素毎の閾値は、例えば、事前に収録した音声データを用いて、音素毎の音声パワーを計測してその計測値の対数値を算出し、得られた値を、その音声データ中の音声パワーの対数値の最大値で除算することによって正規化した値を用いる。

例えば、単語『sky』についての下限閾値を算出する場合、まず、閾値算出部４１は、まず、単語辞書１５を参照して、この単語『sky』の発音『skai』を取得する。次に、閾値算出部４１は、発音『skai』を音素『s』、『k』、『a』、及び『i』に分解し、音節閾値テーブルを参照して、各音節についての閾値を参照する。ここでは、音素『s』、『k』、『a』、及び『i』について、それぞれ閾値『０．７』、『０．８』、『０．９』、及び『０．７５』が音節閾値テーブルから得られたものとする。ここで、閾値算出部４１は、この４つの閾値の平均値を算出し、算出結果として、平均値『０．７９』が得られ、この値が、単語『sky』についての下限閾値となる。

また、例えば、単語『throw』についての下限閾値を算出する場合、まず、閾値算出部４１は、まず、単語辞書１５を参照して、この単語『throw』の発音『θrou』を取得する。次に、閾値算出部４１は、発音『θrou』を音素『θ』、『r』、『o』、及び『u』に分解し、音節閾値テーブルを参照して、各音節についての閾値を参照する。ここでは、音素『θ』、『r』、『o』、及び『u』について、それぞれ閾値『０．７』、『０．７』、『０．９』、及び『０．８』が音節閾値テーブルから得られたものとする。ここで、閾値算出部４１は、この４つの閾値の平均値を算出し、算出結果として、平均値『０．７８』が得られ、この値が、単語『throw』についての下限閾値となる。

なお、図２に図解したハードウェア構成を備えるコンピュータ２０を用いて図７の音声認識装置１０を実現する場合には、この音素閾値テーブルは例えばハードディスク装置２４に予め格納しておくようにする。

図７の音声認識装置１０により英単語の認識を行う場合には、閾値算出部４１は、この音素閾値テーブルを参照して、英単語の読みを表している音素列を構成している各音素についての閾値をまず取得する。そして、音素毎に得られた閾値の平均値を算出し、算出された平均値を、当該英単語についての下限閾値とする。

図９の説明に戻る。Ｓ３０１に続くＳ１０１からＳ１０６にかけての処理は、図３に図解したフローチャートにおけるものと同一の処理内容であるので、ここではその説明を省略する。

Ｓ１０６に続くＳ３０２では、図３のＳ１０７の処理と同様に、Ｓ１０６の処理により算出された単語区間に関してのＳＮＲが所定の条件に合致するかどうかを検証する処理を選出部１８が行う。但し、Ｓ３０２では、選出部１８は、単語区間に関してのＳＮＲが、Ｓ１０３の処理で算出された発声区間に関してのＳＮＲに、Ｓ１０４の処理で特定された単語についてＳ３０１の処理で算出された下限閾値を乗算した値以上であるか否かを検証する処理を行う。例えば、発声区間のＳＮＲが『７．００』であって、特定された単語が『福山』であった場合には、選出部１８は、Ｓ３０２において、図１１に基づき、単語『福山』の単語区間のＳＮＲが７．００×０．８０＝５．６０以上であるか否かを検証する処理を行う。

次に、Ｓ３０３では、Ｓ３０２の処理による検証の結果、Ｓ１０６の処理により算出された単語区間に関してのＳＮＲが所定の条件に合致したか否かを判定する処理を選出部１８が行う。選出部１８は、ここで、単語区間に関してのＳＮＲが所定の条件に合致したと判定したとき（判定結果がＹｅｓのとき）には、Ｓ１０４の処理により特定された単語を選出結果とし、その後はＳ１０９に処理を進める。一方、選出部１８は、ここで、単語区間に関してのＳＮＲが所定の条件に合致しないと判定したとき（判定結果がＮｏのとき）には、Ｓ１０４に処理を戻して、他の単語を特定する処理を照合部１４に行わせる。

Ｓ１０９では、図９の処理の結果を出力する処理を出力部１９が行い、その後はこの図９の処理が終了する。このＳ１０９の処理がＳ１０８の処理に続いて行われる場合には、出力部１９は、Ｓ１０８の処理により選出部１８が選出した単語を、前述のようにして出力する。また、このＳ１０９の処理がＳ１０５の処理に続いて行われる場合には、出力部１９は、音声認識の結果が得られなかった旨の通知を出力するか、若しくは、何も出力しないようにする。

図７の音声認識装置１０は、以上の制御処理を行うことで、他の人の発声音が含まれても、認識対象者の発声音のみを対象とした音声認識の結果がより適切に提供される。

なお、図１、図４、及び図７の各々の音声認識装置１０において、第一算出部１３は発声区間に関してのＳＮＲを算出し、第二算出部１７は単語区間に関してのＳＮＲを算出している。この代わりに、第一算出部１３が、発声区間の音声信号の平均パワーを算出するようにし、第二算出部１７が、単語区間の音声信号の平均パワーを算出するようにしてもよい。なお、この場合には、選出部１８は、単語区間に関しての音声信号の平均パワーについての、発声区間に関しての音声信号の平均パワーとの比較結果に基づいて、当該単語区間の発声音が表している単語を選出するようにする。図１、図４、及び図７の各々の音声認識装置１０をこのように構成しても、他の人の発声音が含まれても、認識対象者の発声音のみを対象とした音声認識の結果の提供が適切なものとなる。

なお、第一算出部１３は、発声区間の音声信号の平均パワーの算出を、例えば下記のようにして行ってもよい。

すなわち、第一算出部１３は、まず、発声区間を一定時間間隔のフレームに分割して各フレームの音声パワーを求める。そして、音声パワーの高い順に所定数のフレームを特定し、特定された所定数のフレームについての音声パワーの平均値を算出し、その平均値を、発声区間の音声信号の平均パワーとする。なお、この代わりに、音声パワーの高い順に各フレームを並べたときの上位の所定の割合（例えば上位１０パーセント）に含まれるフレームについての音声パワーの平均値を算出し、その平均値を、発声区間の音声信号の平均パワーとするようにしてもよい。

なお、以上までに説明した各実施形態に関し、更に以下の付記を開示する。
（付記１）
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出し、
前記単語区間に関してのＳＮＲについての前記検出した発声区間に関してのＳＮＲとの比較結果に基づいて、該単語区間の発声音が表している単語を選出し、
前記選出した単語を出力する、
処理をコンピュータに実行させることを特徴とするプログラム。
（付記２）
前記単語区間の発声音が表している単語を選出する処理は、前記発声区間に関してのＳＮＲに対して所定の下限閾値以上のＳＮＲである単語区間の発声音が表している単語を選出することを特徴とする付記１に記載のプログラム。
（付記３）
前記単語区間の発声音が表している単語を選出する処理は、前記発声区間に関してのＳＮＲに対して所定の下限閾値以上であって且つ所定の上限閾値以下のＳＮＲである単語区間の発声音が表している単語を選出することを特徴とする付記１に記載のプログラム。
（付記４）
前記検出した発声区間についての発声音が表現している単語を特定する処理は、前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとの類似度の高さを表す照合スコアを取得し、
前記プログラムは、前記単語区間に関してのＳＮＲと前記発声区間に関してのＳＮＲとの比較結果に基づいて該単語区間の発声音が表している単語について前記照合スコアを取得する処理により取得した照合スコアを変更する処理を前記コンピュータに更に実行させ、
前記単語区間の発声音が表している単語を選出する処理は、該単語区間の発声音が表している単語の選出を、該単語についての照合スコアに基づいて行う、
ことを特徴とする付記１に記載のプログラム。
（付記５）
前記照合スコアを変更する処理は、前記発声区間に関してのＳＮＲに対してＳＮＲが所定の下限閾値に満たない単語区間の発声音が表している単語について前記照合スコアを取得する処理により取得した照合スコアを変更して、該照合スコアが表している類似度の高さを低下させることを特徴とする付記４に記載のプログラム。
（付記６）
前記単語区間の発声音が表している単語を選出する処理は、前記単語の選出に用いる下限閾値として、選出の対象である単語毎に対応付けられている下限閾値を用いて行うことを特徴とする付記２に記載のプログラム。
（付記７）
前記単語区間の発声音が表している単語を選出する処理による選出の対象である単語についての下限閾値を、該単語の読みの情報に基づいて算出する処理を前記コンピュータに更に実行させることを特徴とする付記６に記載のプログラム。
（付記８）
前記下限閾値を算出する処理は、前記単語区間の発声音が表している単語を選出する処理による選出の対象である単語についての下限閾値の算出を、該単語の読みの各音節について各々対応付けられている閾値の平均値を算出することによって行うことを特徴とする付記７に記載のプログラム。
（付記９）
前記検出した発声区間に関してのＳＮＲを算出する処理は、前記検出した発声区間に関してのＳＮＲの算出を、前記検出した発声区間を含む所定の区間における音声信号に関してのＳＮＲを算出することによって行うことを特徴とする付記１から８のうちのいずれか一項に記載のプログラム。
（付記１０）
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間の音声信号の平均パワーを算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間の音声信号の平均パワーを算出し、
前記単語区間に関しての音声信号の平均パワーについての前記検出した発声区間に関しての音声信号の平均パワーとの比較結果に基づいて、該単語区間の発声音が表している単語を選出し、
前記選出した単語を出力する、
処理をコンピュータに実行させることを特徴とするプログラム。
（付記１１）
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出する検出部と、
前記検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出する第一算出部と、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定する照合部と、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出する第二算出部と、
前記単語区間に関してのＳＮＲについての前記検出した発声区間に関してのＳＮＲとの比較結果に基づいて、該単語区間の発声音が表している単語を選出する選出部と、
前記選出した単語を出力する出力部と、
を備えることを特徴とする音声認識装置。
（付記１２）
前記選出部は、前記発声区間に関してのＳＮＲに対して所定の下限閾値以上のＳＮＲである単語区間の発声音が表している単語を選出することを特徴とする付記１１に記載の音声認識装置。
（付記１３）
前記選出部は、前記発声区間に関してのＳＮＲに対して所定の下限閾値以上であって且つ所定の上限閾値以下のＳＮＲである単語区間の発声音が表している単語を選出することを特徴とする付記１１に記載の音声認識装置。
（付記１４）
前記照合部は、前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとの類似度の高さを表す照合スコアを取得し、
前記音声認識装置は、前記単語区間に関してのＳＮＲと前記発声区間に関してのＳＮＲとの比較結果に基づいて該単語区間の発声音が表している単語について前記照合部が取得した照合スコアを変更する変更部を更に備え、
前記選出部は、該単語区間の発声音が表している単語の選出を、該単語についての照合スコアに基づいて行う、
ことを特徴とする付記１１に記載の音声認識装置。
（付記１５）
前記変更部は、前記発声区間に関してのＳＮＲに対してＳＮＲが所定の下限閾値に満たない単語区間の発声音が表している単語について前記照合部が取得した照合スコアを変更して、該照合スコアが表している類似度の高さを低下させることを特徴とする付記１４に記載の音声認識装置。
（付記１６）
前記選出部は、前記単語の選出に用いる下限閾値として、選出の対象である単語毎に対応付けられている下限閾値を用いて行うことを特徴とする付記１２に記載の音声認識装置。
（付記１７）
前記選出部による選出の対象である単語についての下限閾値を、該単語の読みの情報に基づいて算出する閾値算出部を更に備えることを特徴とする付記１６に記載の音声認識装置。
（付記１８）
前記閾値算出部は、前記選出部による選出の対象である単語についての下限閾値の算出を、該単語の読みの各音節について各々対応付けられている閾値の平均値を算出することによって行うことを特徴とする付記１７に記載の音声認識装置。
（付記１９）
前記第一算出部は、前記検出した発声区間に関してのＳＮＲの算出を、前記検出した発声区間を含む所定の区間における音声信号に関してのＳＮＲを算出することによって行うことを特徴とする付記１１から１８のうちのいずれか一項に記載の音声認識装置。
（付記２０）
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出する検出部と、
前記検出した発声区間の音声信号の平均パワーを算出する第一算出部と、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定する照合部と、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間の音声信号の平均パワーを算出する第二算出部と、
前記単語区間に関しての音声信号の平均パワーについての前記検出した発声区間に関しての音声信号の平均パワーとの比較結果に基づいて、該単語区間の発声音が表している単語を選出する選出部と、
前記選出した単語を出力する出力部と、
を備えることを特徴とする音声認識装置。
（付記２１）
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出し、
前記単語区間に関してのＳＮＲについての前記検出した発声区間に関してのＳＮＲとの比較結果に基づいて、該単語区間の発声音が表している単語を選出し、
前記選出した単語を出力する、
ことを特徴とする音声認識方法。
（付記２２）
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間の音声信号の平均パワーを算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間の音声信号の平均パワーを算出し、
前記単語区間に関しての音声信号の平均パワーについての前記検出した発声区間に関しての音声信号の平均パワーとの比較結果に基づいて、該単語区間の発声音が表している単語を選出し、
前記選出した単語を出力する、
ことを特徴とする音声認識方法。

１０音声認識装置
１１入力部
１２検出部
１３第一算出部
１４照合部
１５単語辞書
１６音響モデル
１７第二算出部
１８選出部
１９出力部
２０コンピュータ
２１ＭＰＵ
２２ＲＯＭ
２３ＲＡＭ２３
２４ハードディスク装置
２５入力装置
２６表示装置
２７インタフェース装置
２８記録媒体駆動装置
２９バスライン
３０可搬型記録媒体
３１変更部
４１閾値算出部

Claims

入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出し、
前記単語区間に関してのＳＮＲについての前記検出した発声区間に関してのＳＮＲとの比較結果に基づいて、前記特定した単語を音声認識の結果として選出するか否かを判定し、
前記判定により音声認識の結果として選出した単語を出力する、
処理をコンピュータに実行させることを特徴とするプログラム。
前記特定した単語を音声認識の結果として選出するか否かを判定する処理は、前記単語区間に関してのＳＮＲが前記発声区間に関してのＳＮＲに基づき定められる下限閾値以上のＳＮＲである場合に、前記特定した単語を音声認識の結果として選出するとの判定を下すことを特徴とする請求項１に記載のプログラム。
前記特定した単語を音声認識の結果として選出するか否かを判定する処理は、前記単語区間に関してのＳＮＲが、前記発声区間に関してのＳＮＲに基づき定められる下限閾値以上であって且つ前記発声区間に関してのＳＮＲに基づき定められる上限閾値以下のＳＮＲである場合に、前記特定した単語を音声認識の結果として選出するとの判定を下すことを特徴とする請求項１に記載のプログラム。
前記検出した発声区間についての発声音が表現している単語を特定する処理は、前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとの類似度の高さを表す照合スコアを取得し、
前記プログラムは、前記単語区間に関してのＳＮＲと前記発声区間に関してのＳＮＲとの比較結果に基づいて該単語区間の発声音が表している単語について前記照合スコアを取得する処理により取得した照合スコアを変更する処理を前記コンピュータに更に実行させ、
前記特定した単語を音声認識の結果として選出するか否かを判定する処理は、該単語についての照合スコアに基づいて行う、
ことを特徴とする請求項１に記載のプログラム。
前記照合スコアを変更する処理は、ＳＮＲが前記発声区間に関してのＳＮＲに基づき定められる下限閾値に満たない単語区間の発声音が表している単語について前記照合スコアを取得する処理により取得した照合スコアを変更して、該照合スコアが表している類似度の高さを低下させることを特徴とする請求項４に記載のプログラム。
前記下限閾値は、前記特定した単語の読みにも更に基づいて定められることを特徴とする請求項２に記載のプログラム。
前記下限閾値を、前記特定した単語の読みの情報に基づいて算出する処理を前記コンピュータに更に実行させることを特徴とする請求項６に記載のプログラム。
前記下限閾値を算出する処理は、前記下限閾値の算出を、前記特定した単語の読みの各音節について各々対応付けられている閾値の平均値を算出することによって行うことを特徴とする請求項７に記載のプログラム。
前記検出した発声区間に関してのＳＮＲを算出する処理は、前記検出した発声区間に関してのＳＮＲの算出を、前記検出した発声区間を含む所定の区間における音声信号に関してのＳＮＲを算出することによって行うことを特徴とする請求項１から８のうちのいずれか一項に記載のプログラム。
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間の音声信号の平均パワーを算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間の音声信号の平均パワーを算出し、
前記単語区間に関しての音声信号の平均パワーについての前記検出した発声区間に関しての音声信号の平均パワーとの比較結果に基づいて、前記特定した単語を音声認識の結果として選出するか否かを判定し、
前記判定により音声認識の結果として選出した単語を出力する、
処理をコンピュータに実行させることを特徴とするプログラム。
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出する検出部と、
前記検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出する第一算出部と、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定する照合部と、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出する第二算出部と、
前記単語区間に関してのＳＮＲについての前記検出した発声区間に関してのＳＮＲとの比較結果に基づいて、前記特定した単語を音声認識の結果として選出するか否かを判定する選出部と、
前記判定により音声認識の結果として選出した単語を出力する出力部と、
を備えることを特徴とする音声認識装置。
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出する検出部と、
前記検出した発声区間の音声信号の平均パワーを算出する第一算出部と、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定する照合部と、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間の音声信号の平均パワーを算出する第二算出部と、
前記単語区間に関しての音声信号の平均パワーについての前記検出した発声区間に関しての音声信号の平均パワーとの比較結果に基づいて、前記特定した単語を音声認識の結果として選出するか否かを判定する選出部と、
前記判定により音声認識の結果として選出した単語を出力する出力部と、
を備えることを特徴とする音声認識装置。
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間に関しての信号対雑音比（ＳＮＲ）を算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間に関してのＳＮＲを算出し、
前記単語区間に関してのＳＮＲについての前記検出した発声区間に関してのＳＮＲとの比較結果に基づいて、前記特定した単語を音声認識の結果として選出するか否かを判定し、
前記判定により音声認識の結果として選出した単語を出力する、
ことを特徴とする音声認識方法。
入力された音声信号の特徴量を用いて、該音声信号が表している音声に発声音が含まれている発声区間を該音声信号から検出し、
前記検出した発声区間の音声信号の平均パワーを算出し、
前記検出した発声区間の音声信号の特徴量と複数の単語の各々についての音響モデルとを照合することによって、前記検出した発声区間についての発声音が表現している単語を特定し、
前記検出した発声区間内における、前記特定した単語についての発声音を表している単語区間の音声信号の平均パワーを算出し、
前記単語区間に関しての音声信号の平均パワーについての前記検出した発声区間に関しての音声信号の平均パワーとの比較結果に基づいて、前記特定した単語を音声認識の結果として選出するか否かを判定し、
前記判定により音声認識の結果として選出した単語を出力する、
ことを特徴とする音声認識方法。