JP2011154341A

JP2011154341A - 音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number: JP2011154341A
Application number: JP2010178952A
Authority: JP
Inventors: Toshitomo Kaneoka; 利知金岡; Keiju Okabayashi; 桂樹岡林
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2009-12-28
Filing date: 2010-08-09
Publication date: 2011-08-11

Abstract

【課題】音声認識処理に要するコストおよび処理時間を抑えつつ、音声の認識率を向上させることを課題とする。
【解決手段】音声認識装置１は、音声取得部２、蓄積部３、音声認識部４、判定部５および生成部６を有する。音声認識部４は、音声取得部２により取得された音声データを認識して第１の認識率を取得する。判定部５は、第１の認識率が所定の閾値以上である場合には音声データの認識結果を出力すべきものと判定する。生成部６は、第１の認識率が前記所定の閾値よりも小さい場合には、蓄積部３内の音声データを分析した結果に基づいて、蓄積部３内の音声データを補正した補正音声信号データを生成する。音声認識部４は、さらに、補正音声データを認識して第２の認識率を取得する。判定部５は、さらに、第２の認識率と第１の認識率とを比較し、高い側の認識率が得られたときの音声データの認識結果を出力すべきものと判定する。
【選択図】図１

Description

本願の開示する技術は、音声認識装置、音声認識方法および音声認識プログラムに関する。

従来、例えば、ユーザの発話音声に関する音声データの認識処理を実行する音声認識装置が存在する。一般的にユーザは、発話音声を音声認識装置に認識させる最適な発話条件が分からない。発話条件とは、例えば、発話の速度や発話音声の大きさ等が該当する。このため、ユーザは、音声認識装置により認識されなかった音声を再度発話する場合には、意識的に細切れの発話や長音発話を行うことが多い。仮に、「トマト」という発話音声が音声認識装置により認識されなかった時には、ユーザは再度、「ト・マ・ト」と細切れの発話を行ったり、「トーマート」と長音発話を行ったりする。

しかしながら、上述した音声認識装置は、細切れの発話を一語発声した時点で発話終了と認識してしまうことがあり、発話音声を正確に認識できない場合がある。例えば、「ト・マ・ト」と細切れの発話をした場合に、「ト」を一語発生した時点で発話終了と認識してしまうことがある。また、上述した音声認識装置は、長音発話の長音を母音で補間して別の単語「トオマアトオ」として誤認識してしまうことがあり、発話音声を正確に認識できない場合がある。

上述した状況を鑑み、発話音声の認識精度向上を目的とした音声認識装置が種々提案されている。例えば、ある従来技術に開示された音声認識装置は、入力音声データから発話形態を分析し、分析結果に応じて発話音声の復号処理を複数並列に実行する。例えば、この音声認識装置は、発話形態が、音節単位、単語単位あるいは文章単位のいずれで発声された発話音声であるのかを分析する。そして、この音声認識装置は、標準パタンと復号処理の結果とを照合してスコア付けを行い、このスコアに基づいて認識結果を出力する。

特開平７−５６５９５号公報

しかしながら、上述した従来技術の音声認識装置は、発話形態ごとに発話音声の復号処理を行うための複数の処理部を有する。このように、従来技術の音声認識装置は、多くの音声処理資源を必要とする点が問題である。

さらに、従来技術の音声認識装置が有する複数の処理部のうち、ある１つの処理部から出力された最先の処理結果が最終的な認識結果となる場合もある。このような場合には、従来技術の音声認識装置が有する残りの処理部から出力される処理結果は無駄となる。にもかかわらず、従来技術の音声認識装置は、毎回複数の処理部を並列に動作させるので、最終的な処理結果が出力されるまでに時間がかかってしまう場合も少なくないという点が問題である。同様に、従来技術の音声認識装置は、並列に動作する複数の処理部で演算処理部を共有する場合にも同様に、演算処理部における音声認識処理の負荷が多くなる結果、認識結果が出力されるまでの時間がかかってしまう恐れがある。

開示の技術は、上記に鑑みてなされたものであって、音声認識処理に要するコストおよび処理時間を抑えつつ、音声の認識率を向上させることが可能な音声認識装置、音声認識方法および音声認識プログラムを提供することを目的とする。

本願の開示する技術は、一つの態様において、ユーザの発話音声を取得する音声取得部と、前記音声取得部により取得された発話音声の音声データを蓄積する蓄積部と、前記音声取得部により取得された発話音声の音声データを認識し、当該認識の結果に応じた第１の信頼度を取得する音声認識部と、前記音声認識部により取得された第１の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する判定部と、前記第１の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成部とを有し、前記音声認識部は、さらに、前記補正音声データを認識し、当該認識の結果に応じた第２の信頼度を取得し、前記判定部は、さらに、前記第２の信頼度と前記第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する。

本願の開示する技術の一つの態様によれば、音声認識処理に要するコストおよび処理時間を抑えつつ、音声の認識率を向上できる。

図１は、実施例１に係る音声認識装置を示す図である。図２は、実施例２に係る音声認識装置の構成を示す図である。図３は、実施例２に係るデータバッファを説明する図である。図４は、実施例２に係る音声波形分析器の構成を示す図である。図５は、実施例２に係る音声波形図である。図６は、実施例２に係るスペクトログラムの一例を示す図である。図７は、実施例２に係るスペクトログラムの一例を示す図である。図８は、実施例２に係るスペクトログラムの一例を示す図である。図９は、実施例２に係る音声波形補正器の構成を示す図である。図１０は、実施例２に係る音声認識結果についての処理を説明する図である。図１１は、実施例２に係る音声認識装置による処理の流れを示す図である。図１２は、実施例２に係る音声認識装置による処理の流れを示す図である。図１３は、実施例３に係る音声認識装置の構成を示す図である。図１４は、実施例３に係るゲイン検出器の構成を示す図である。図１５は、実施例４に係る音声認識装置の構成を示す図である。図１６は、実施例４に係るゲイン検出器の構成を示す図である。図１７は、実施例４に係るゲイン補正について説明するための図である。図１８は、実施例４に係るゲイン補正結果と従来の補正との比較例を示す図である。図１９は、実施例４に係るゲイン補正結果と従来の補正との比較例を示す図である。図２０は、実施例５に係るゲイン検出器の構成を示す図である。図２１は、音声認識プログラムを実行するコンピュータの一例を示す図である。

以下に、図面を参照しつつ、本願の開示する音声認識装置、音声認識方法および音声認識プログラムの一実施形態について詳細に説明する。なお、以下では、本願の開示する音声認識装置、音声認識方法および音声認識プログラムの一実施形態として後述する実施例により、本願が開示する技術が限定されるものではない。

図１は、実施例１に係る音声認識装置を示す図である。同図に示すように、実施例１に係る音声認識装置１は、音声取得部２、蓄積部３、音声認識部４、判定部５および生成部６を有する。

音声取得部２は、ユーザの発話音声を取得する。蓄積部３は、音声取得部２により取得された発話音声の音声データを蓄積する。音声認識部４は、音声取得部２により取得された発話音声の音声データを認識し、当該認識の結果に応じた第１の信頼度を取得する。判定部５は、音声認識部４により取得された第１の信頼度が所定の閾値以上である場合には音声データの認識結果を出力すべきものと判定する。生成部６は、第１の信頼度が所定の閾値よりも小さい場合には、蓄積部３に蓄積されている音声データを分析し、当該分析した結果に基づいて、蓄積部３に蓄積されている音声データを補正した補正音声データを生成する。

音声認識部４は、さらに、補正音声データを認識し、当該認識の結果に応じた第２の信頼度を取得する。判定部５は、さらに、第２の信頼度と第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する。

実施例１に係る音声認識装置１は、音声データの最初の認識結果を出力できない場合には、蓄積しておいた音声信号データを補正し、補正した音声信号データの再認識結果を取得する。そして、音声認識装置１は、最初の認識処理で得られた信頼度と再認識処理で得られた信頼度とを比較して、信頼度が高い方の認識結果を出力する。このように、実施例１に係る音声認識装置１は、１つの音声認識部による音声認識処理を実現するので、多くの音声処理資源が必要なく、音声認識処理に要するコストを抑えられる。また、実施例１に係る音声認識装置１は、１回目の音声信号データの認識処理で所定の信頼度が得られなかった場合にのみ、補正を施した音声信号データの再認識処理を実行するので、音声認識処理に要する処理時間を抑えられる。また、実施例１に係る音声認識装置１は、音声信号データの分析結果に応じて補正した音声信号データを再認識するので、音声の認識率を向上できる。

［音声認識装置の構成（実施例２）］
図２は、実施例２に係る音声認識装置の構成を示す図である。図２に示すように、音声認識装置１００は、音声取得用マイクロホン１１０、アナログデジタル変換器１２０、スイッチ１３０および音声認識部１４０を有する。さらに、音声認識装置１００は、図２に示すように、認識結果判定器１５０、データバッファ１６０、音声波形分析器１７０、音声波形補正器１８０および音声認識用パラメータ制御器１９０を有する。

なお、図２において、アナログデジタル変換器１２０とスイッチ１３０およびデータバッファ１６０とを接続する矢印は音声信号データの入力経路を表す。また、図２において、音声区間検出器１４３とデータバッファ１６０とを接続する矢印は音声区間情報の入力経路を表す。また、図２において、データバッファ１６０と音声波形分析器１７０とを接続する矢印は音声区間情報の入力経路を表す。また、図２において、データバッファ１６０と音声波形分析器１７０とを接続する矢印は音声信号データの入力経路を表す。また、図２において、音声波形分析器１７０と音声波形補正器１８０とを接続する矢印は音声信号データの入力経路を表す。

また、図２において、音声波形分析器１７０と音声波形補正器１８０とを接続する矢印はノイズレベルおよびゲイン倍率の入力経路を表す。また、図２において、音声波形分析器１７０と音声認識用パラメータ制御器１９０とを接続する矢印は発話特徴情報の入力経路を表す。また、図２において、音声波形補正器１８０とスイッチ１３０と接続する矢印は補正音声信号データの入力経路を表す。

また、図２において、認識結果判定器１５０とデータバッファ１６０とを接続する矢印は音声検出フラグの入力経路を表す。

音声取得用マイクロホン１１０は、例えば、ユーザにより発せられた発話音声を取得する。音声取得用マイクロホン１１０として、指向性を有するビームフォーミングマイクなどを適用してもよい。

アナログデジタル変換器１２０は、音声取得用マイクロホン１１０から入力されたアナログの音声信号データをデジタルの音声信号データに変換する。そして、アナログデジタル変換器１２０は、スイッチ１３０およびデータバッファ１６０に、デジタルデータに変換した音声信号データを入力する。

スイッチ１３０は、後述する音声認識部１４０に入力するデータを切り替える。例えば、スイッチ１３０は、後述する音声認識部１４０に入力させるデータを、アナログデジタル変換器１２０から取得する音声信号データあるいは後述する音声波形補正器１８０から取得する補正音声信号データのいずれか一方へ切り替える。

音声認識部１４０は、既存技術を用いて、スイッチ１３０を介して入力された音声信号データを認識する。例えば、音声認識部１４０が音声信号データの認識に用いる既存技術としては、古井貞熙、酒井善則他「ねっとテクノロジー解体新書５画像・音声信号処理技術」、株式会社「電波新聞社」、２００４年１月２５日第１版を参照されたい。

音声認識部１４０は、図２に示すように、音素モデル１４１、単語辞書１４２、音声区間検出器１４３、音声特徴抽出器１４４および言語復号器１４５を有する。

音素モデル１４１は、発話音声ごとに、発話音声の響き、いわゆる音韻を一般化したモデルである。音素モデル１４１は、後述する言語復号部１４５の音声照合に用いられる。単語辞書１４２は、発話音声の照合に用いられる単語データのデータベースである。単語辞書１４２は、後述する言語復号部１４５の音声照合に用いられる。

音声区間検出器１４３は、スイッチ１３０から取得した音声信号データから音声区間を検出する。例えば、音声区間検出器１４３は、音声信号のパワーや周波数などに基づいて、音声信号データの音声区間開始位置および音声区間終了位置を検出する。そして、音声区間検出器１４３は、検出した音声区間開始位置および音声区間終了位置を含む音声区間情報を後述するデータバッファ１６０に入力する。

音声特徴抽出器１４４は、既存技術を用いて、音声区間検出器１４３により検出された音声区間に含まれる音声特徴を抽出する。音声特徴とは、例えば、発話音声に含まれる母音や子音、音韻、発話音声のパワーや周波数などが該当する。

言語復号器１４５は、音素モデル１４１および単語辞書１４２を用いて、音声特徴抽出器１４４により抽出された音声特徴を言語に復号する。例えば、言語復号器１４５は、隠れマルコフモデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に基づいて、音素モデル１４１と音声特徴とを照合する。言語復号器１４５は、単語辞書１４２の中から、音素モデル１４１と音声特徴との照合の結果得られる文字列に最も近い言語の候補を複数検索する。そして、言語復号器１４５は、検索した複数の言語の候補を音声特徴の言語への復号結果とする。なお、以下の説明では、音声特徴の言語への復号結果を認識結果ラベルと記述する。

また、音声特徴を言語に復号する処理の過程で、言語復号部１４５は、音声特徴の言語への復号結果の信頼度を表すスコアを取得する。音声認識部１４０は、認識結果ラベルとスコアとをそれぞれ対応付ける。

なお、音声認識部１４０は、例えば、認識結果ラベルをスコアの高い順に並べた音声認識結果を後述する認識結果判定器１５０に入力する。

また、音声認識部１４０は、スイッチ１３０から補正音声信号データが入力されると、後述する音声認識用パラメータ制御器１９０により変更がなされた音素モデルおよび単語辞書を用いて、補正音声信号データの再認識処理、つまり２回目の音声認識処理を行う。なお、再認識処理の詳細は、上述した音声区間検出器１４３、音声特徴抽出器１４４および言語復号器１４５の処理と同様である。そして、音声認識部１４０は、再認識処理の音声認識結果、つまり２回目の音声認識結果を認識結果判定器１５０に入力する。

認識結果判定器１５０は、所定の条件に従って、音声認識部１４０から入力された音声認識結果を出力するか否かを判定する。例えば、認識結果判定器１５０は、認識結果ラベルを出力する条件である閾値Ａと、認識結果ラベルを棄却する条件である閾値Ｂとを予め有する。なお、閾値Ａは、閾値Ｂよりも大きいものとする。そして、認識結果判定器１５０は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアと、閾値Ａおよび閾値Ｂとの比較結果に基づいて、認識結果ラベルを出力するか否かを判定する。以下に、スコアと閾値との比較結果と、比較結果に応じた処理内容とを示す。

（１）スコア≧閾値Ａ認識結果出力
（２）閾値Ｂ≦スコア＜閾値Ａ遅延イベント出力
（３）スコア＜閾値Ｂ認識結果棄却

例えば、上述の（１）に示すように、認識結果判定器１５０は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが閾値Ａ以上であった場合には、スコアの高いものから順に列挙した認識結果ラベルを認識結果として出力する。また、上述の（２）に示すように、認識結果判定器１５０は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが、閾値Ｂ以上かつ閾値Ａ未満であった場合には、ディスプレイやモニタなどのインターフェースなどに遅延イベントを出力する。なお、遅延イベントとは、認識結果の出力が遅延する旨を通知するイベントである。また、上述の（３）に示すように、認識結果判定器１５０は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが閾値Ｂ未満であった場合には、認識結果ラベルを棄却する。そして、認識結果判定器１５０は、再度音声認識結果が入力されるのを待機する。

また、認識結果判定器１５０は、言語復号器１４５から複数の認識結果ラベルが入力された時点で、音声検出フラグを後述するデータバッファ１６０に入力する。

また、認識結果判定器１５０は、音声認識部１４０から再認識処理結果が入力されると、音声認識部１４０による１回目の音声認識結果と共に評価する。なお、再認識処理結果とは、１回目の音声認識処理が行われた音声信号データについての２回目の認識処理結果を意味する。なお、認識結果判定器１５０は、遅延イベントを出力する場合に、２回目の音声認識結果が入力されるまで１回目の音声認識結果を一時的に記憶しておいてもよいし、２回目の音声認識結果が入力された時に、一回目の音声認識結果を改めて取得してもよい。再認識処理結果の入力に伴う認識結果判定器１５０による認識結果の判定処理については後述する。

データバッファ１６０は、アナログデジタル変換器１２０から入力された音声信号データを蓄積する。図３は、実施例２に係るデータバッファを説明する図である。図３の左図に示す３Ｄは、アナログデジタル変換器１２０から入力される音声信号データを表す。図３の左図に示す３Ｄは、データバッファ１６０によるデータの最大蓄積量を表す。

図３の左図に示すように、データバッファ１６０は、アナログデジタル変換器１２０から入力された音声信号データを逐次蓄積する。図３の左図に示すデータバッファ１６０内の下のブロックほど、データバッファ１６０に蓄積された順番が早い音声信号データを示す。新たな音声信号データが入力された時に、データの蓄積量が最大蓄積量に到達している場合には、データバッファ１６０は、最も蓄積された順番が早い音声信号データを排出する。そして、データバッファ１６０は、入力された新たな音声信号データを蓄積する。

また、データバッファ１６０は、後述する認識結果判定器１５０から音声検出フラグが入力されると、音声信号データの蓄積を停止する。そして、データバッファ１６０は、後述する認識結果判定器１５０から遅延イベントが出力されると、既に蓄積された音声信号データの中から再認識処理の対象となる音声信号データを切り出して、後述する音声波形分析器１７０に入力する。なお、遅延イベントとは、認識結果の出力が遅延する旨を通知するイベントであり、音声信号データの再認識処理の開始トリガとなる。

一方、データバッファ１６０は、認識結果判定器１５０から音声認識結果が出力された時点で、蓄積している音声信号データを全て破棄して、音声信号データの蓄積を再開する。

図３の右図に示す３Ｓ_Ｓは音声区間開始位置を表し、図３の右図に示す３Ｓ_Ｅは音声区間終了位置を表す。また、図３の右図に示す３Ｓ_ＳＥＣは音声区間範囲を表す。また、図３の右図に示す３Ｘは、音声の再認識処理に必要となるリード区間を表し、図３の右図に示す３Ｙは、音声の再認識処理に必要となるポスト区間を表す。なお、リード区間とは、音声区間の音声信号データよりも先に蓄積されたデータに設定される時間的な余裕である。また、ポスト区間とは、音声区間の音声信号データよりも後に蓄積されたデータに設定される時間的な余裕である。リード区間およびポスト区間は、音声の再認識処理が行われる音声区間の音声信号データのスムーズな切り出しを、後述する音声波形分析器１７０に行わせるために必要な区間である。なお、リード区間およびポスト区間として設定する時間の長さは、例えば、５００ミリ秒とする。

図３の右図に示すように、データバッファ１６０は、音声区間検出器１４３から入力された音声区間情報を元に、蓄積されている音声信号データの中から、音声の再認識処理の対象となる音声区間範囲を検出する。また、データバッファ１６０は、蓄積されている音声信号データに対して、リード区間およびポスト区間を設定する。そして、データバッファ１６０は、音声区間範囲の音声信号データ、リード区間の音声信号データ、ポスト区間の音声信号データ、および音声区間範囲を示す音声区間情報を後述する音声波形分析器１７０に入力する。

図４は、実施例２に係る音声波形分析器の構成を示す図である。同図に示すように、音声波形分析器１７０は、ノイズレベル検出器１７１と、最適信号振幅演算器１７２と、スペクトログラム計算機１７３と、発話特徴検出器１７４とを有する。音声波形分析器１７０は音声品質と発話特徴の分析を行う。

図５は、実施例２に係る音声波形図である。図５に示す５Ａ_１区間および５Ａ_２区間は雑音区間を表し、図５に示す５Ｂ区間は音声区間を表す。なお、上述したリード区間は５Ａ_１区間に対応し、上述したポスト区間は上述した５Ａ_２区間に対応する。また、図５に示す音声波形の垂直方向の値は、音声信号データの振幅（電圧）を１６ビットでデジタルサンプリングした場合のデジタルサンプリング値であり、最大値は３２７６７、最小値は−３２７６７である。また、図５に示す音声波形の水平方向の値は時間のデジタルサンプリング値である。

ノイズレベル検出器１７１は、図５に示すように、データバッファ１６０から入力された音声区間情報に基づいて、データバッファ１６０から入力された音声信号データを雑音区間５Ａ_１，５Ａ_２と、音声区間５Ｂとに分割する。そして、ノイズレベル検出器１７１は、雑音区間５Ａ_１，５Ａ_２の電力値と、予め定められた雑音閾値とを比較することにより、雑音区間のノイズレベルを判定する。例えば、ノイズレベル検出器１７１は、雑音区間の電力値の二乗平均値を算出する。そして、ノイズレベル検出器１７１は、算出した二乗平均値と雑音閾値と比較することにより雑音区間のノイズレベルを判定する。この判定結果として、ノイズレベル検出器１７１は雑音区間のノイズレベルを取得する。なお、ノイズレベル検出器１７１は、雑音閾値を任意に設定することができ、例えば、１〜４つの閾値を用いることができる。

最適信号振幅演算器１７２は、データバッファ１６０から入力された音声信号データの音声振幅レベルを適正な振幅レベルに調整するためのゲイン倍率を算出する。例えば、最適信号振幅演算器１７２は、データバッファ１６０から入力された音声区間情報に基づいて、データバッファ１６０から入力された音声信号データを、例えば、図５に示すように、雑音区間５Ａ_１，５Ａ_２と、音声区間５Ｂとに分割する。雑音区間、音声区間の分割後、最適信号振幅演算器１７２は、音声区間について、音声信号データの信号振幅の絶対値の中から最大値を検出する。信号振幅の最大値を検出後、最適信号振幅演算器１７２は、検出した信号振幅を用いて、音声信号データの音声レベルを適正な音声レベルに調整するためのゲイン倍率を取得する。ここで、適正な音声レベルとは、音声認識部１４０における音声処理において推奨される音声信号データの振幅レベルをいう。

スペクトログラム計算器１７３は、データバッファ１６０から入力された音声信号データの周波数の時間変化を表すスペクトログラムを算出する。例えば、スペクトログラム計算器１７３は、データバッファ１６０から入力された音声信号データを、例えば、１２８サンプルごとにフレーム分割する。なお、ここでいう音声信号データとは、例えば、上述した図５の音声波形で示される音声信号データである。そして、スペクトログラム計算器１７３は、各フレームをフーリエ変換し、周波数の時間変化を表すスペクトログラムを算出する。

図６〜図８は、実施例２に係るスペクトログラムの一例を示す図である。図６〜図８に示すグラフの縦軸は周波数（ヘルツ）であり、横軸は時間（秒）である。また、図６〜図８に示すスペクトログラムの右側に描かれた帯状の軸は振幅（デシベル）を表す。図６は、例えば、単音節発話や長音発話ではなく、「トマト」と通常発話した場合のスペクトログラムの一例を示す。図７は、「ト・マ・ト」と単音節発話した場合のスペクトログラムの一例を示す。図８は、「トーマート」と長音発話した場合のスペクトログラムの一例を示す。なお、図６〜図８に示すスペクトログラムの模様は、図６〜図８の右側に示す振幅ごとの模様にあわせて区分けされている。

発話特徴検出器１７４は、スペクトログラム計算器１７３から入力されたスペクトログラムを元に、データバッファ１６０から入力された音声信号データに含まれる音声区間に対して発話特徴情報を設定する。例えば、発話特徴検出器１７４は、音声の特徴を表す周波数における振幅について、以下に示す式（１）〜（３）の要領で、所定の閾値を用いた判定を行う。なお、音声の特徴を表す周波数としては、例えば、フォルマント周波数が該当する。
Ｖ_ｆ０（ｔ）＞Ｔｈ_ｆ０⇒Ｓ_ｆ０（ｔ）・・・（１）
Ｖ_ｆ１（ｔ）＞Ｔｈ_ｆ１⇒Ｓ_ｆ１（ｔ）・・・（２）
・・・
Ｖ_ｆ７（ｔ）＞Ｔｈ_ｆ７⇒Ｓ_ｆ７（ｔ）・・・（３）

Ｖ_ｆｘ（ｔ）は、サンプル時刻ｔ、周波数ｆｘにおける振幅である。Ｔｈ_ｆｘは、各周波数ｆｘにおける振幅の閾値である。Ｓ_ｆｘ（ｔ）は、閾値による判定の結果とする。なお、ｘは正の整数であり、閾値による判定の結果は、“１”または“０”の２値とする。

発話特徴検出器１７４は、閾値による判定の結果、音声区間が細切れに発生する場合、例えば、一定間隔置きにＳ_ｆｘが生起する場合には、単音節発話の可能性が高いと判定する。そして、発話特徴検出器１７４は、発話特徴情報として、単音節発話を有する音声信号データである旨の情報を設定する。

また、発話特徴検出器１７４は、閾値による判定の結果、同じ周波数が既定より長く連続する場合、例えば、複数のＳ_ｆｘが同時に一定時間連続する場合には、長音発話の可能性が高いと判定する。そして、発話特徴検出器１７４は、発話特徴情報として、長音発話を有する音声信号データである旨の情報を設定する。

そして、音声波形分析器１７０は、ノイズレベル検出器１７１により取得されたノイズレベル、および最適信号振幅演算器１７２により取得されたゲイン倍率を後述する音声波形補正器１８０に入力する。また、音声波形分析器１７０は、発話特徴検出器１７４による発話特徴情報を後述する音声認識用パラメータ制御器１９０に入力する。

図９は、実施例２に係る音声波形補正器の構成を示す図である。同図に示すように、音声波形補正器１８０は、スペクトルサブトラクション部１８１およびゲイン調整器１８２を有する。音声波形補正器１８０は、音声波形分析器１７０による音声品質の分析結果に従ってノイズ抑制およびゲイン調整を行う。なお、音声品質の分析結果とは、音声波形分析器１７０による音声信号データの分析により得られるノイズレベルおよびゲイン倍率を意味する。

スペクトルサブトラクション部１８１は、予め推定した雑音成分をスペクトルから減算するスペクトルサブトラクション手法を用いて、音声波形分析器１７０から入力されたノイズレベルに従い、音声信号データの減算量を調整する。

ゲイン調整器１８２は、スペクトルサブトラクション部１８１にて減算量が調整された音声信号データに、音声波形分析器１７０から入力されたゲイン倍率に従ってゲインを掛ける。

音声波形補正器１８０は、スペクトルサブトラクション部１８１およびゲイン調整器１８２の処理を経た音声信号データを補正音声信号データとして、スイッチ１３０に入力する。

音声認識用パラメータ制御器１９０は、音声波形分析部１７０から入力された発話特徴情報に従って、音声認識部１４０で用いる音声認識用パラメータを調整する。なお、音声認識用パラメータとは、例えば、音声区間検出パラメータ、音素モデル、単語辞書を意味する。なお、音素モデルは、一般的に音響モデルと呼称されるモデルのうち、音素単位のモデルをいう。音声認識用パラメータ制御器１９０は、図２に示すように、単音節用単語辞書１９１、長音用単語辞書１９２および音素モデル１９３を有する。

例えば、音声認識用パラメータ制御器１９０は、音声波形分析部１７０から入力された発話特徴情報が単音節発話である場合には、音声認識部１４０における音声区間検出において、音声区間の終了判定を行う長さを通常より長くするパラメータに変更する。なお、音声区間の終了判定を長くする変更長は予め定めておくものとする。

さらに、音声認識用パラメータ制御器１９０は、単音節発話を認識するためのモデルを音素モデル１９３から取得し、音声認識部１４０で用いられる音素モデルを変更する。あるいは、音声認識用パラメータ制御器１９０は、音声認識部１４０で用いる単語辞書を、単音節発話を表現する発音が登録された単音節用単語辞書１９１に変更する。なお、単音節発話を表現する発音とは、例えば、“ト・マ・ト”のように一語置きに発話のない箇所を作った発音を意味する。

また、音声認識用パラメータ制御器１９０は、音声波形分析部１７０から入力された発話特徴情報が長音発話である場合には、音声認識部１４０で用いる単語辞書を、長音発話を表現する発音が登録された長音用単語辞書１９２に変更する。なお、長音発話を表現する発音とは、例えば、“トーマート”のように１語置きに長音を作った発音を意味する。

ここで、再認識処理結果の入力に伴う認識結果判定器１５０による認識結果の判定処理について説明する。図１０は、実施例２に係る音声認識結果についての処理を説明する図である。

図１０の左上には、音声認識部１４０による１回目の音声認識結果の一例を示す。例えば、１回目の音声認識結果は、スコアの高い上位３つのラベルが上から順に並べられており、「順位：１、スコア：７０、ラベル：カート」、「順位：２、スコア：６０、ラベル：トマト」、「順位：３、スコア：５０、ラベル：アート」となっている。なお、図１０には、音声認識結果として３つのラベルが存在する場合を例示するが、これに限定されるものではなく、音声認識部１４０の認識結果によっては３つ以上のラベルが存在してもよい。

また、図１０の左下には、音声認識部１４０による再認識処理結果、つまり２回目の音声認識結果の一例を示す。例えば、２回目の音声認識結果は、スコアの高い上位３つのラベルが上から順に並べられており、「順位：１、スコア：９０、ラベル：トマト」、「順位：２、スコア：５５、ラベル：トイレ」、「順位：３、スコア：４０、ラベル：トレイ」となっている。

また、図１０の右には、認識結果判定器１５０による音声認識結果のソート結果を示す。認識結果判定器１５０による音声認識結果のソート結果は、スコアの高い上位３つのラベルが上から順に並べられている。例えば、「順位：１、スコア：１００、ラベル：トマト、「順位：２、スコア：７０、ラベル：カート」、「順位：３、スコア：５５、ラベル：トイレ」となっている。

認識結果判定器１５０は、１回目の音声認識結果と２回目の音声認識結果をスコアによりソートする。このとき、認識結果判定器１５０は、同一のラベルが存在する場合は、同一のラベルのスコアを合算する。あるいは、認識結果判定器１５０は、同一のラベルに対応付けられているスコアのうち、高い方のスコアに重み付けする。例えば、認識結果判定器１５０は、スコアを１．２倍や１．３倍などして重み付けする。

図１０に示す例では、１回目の音声認識結果と２回目の音声認識結果とに同一のラベル「トマト」が存在する。そこで、認識結果判定器１５０は、１回目の音声認識結果の「トマト」に対応付けられたスコア「６０」と、２回目の音声認識結果の「トマト」に対応付けられたスコア「９０」とを合算する。合算の結果、「トマト」のスコアは「１５０」となる。ここで、例えば、スコアが「１００」を上回る値を切り捨ててスコアの上限を「１００」とする。よって、認識結果判定器１５０は、「トマト」のスコアを「１００」とする。そして、認識結果判定器１５０は、１回目の音声認識結果と２回目の音声認識結果をスコアによりソートする。ソートの結果は、図１０の右に示すように、スコアの高いものから「トマト」、「カート」、「トイレ」の順になる。

そして、認識結果判定器１５０は、スコア順にソートしたラベルを音声認識結果として出力する。例えば、図１０に示すように、認識結果判定器１５０は、スコアが高いものから順にラベルをソートし、スコアの高いほうから３つのラベルを音声認識結果として出力する場合を示している。

［音声認識装置の処理（実施例２）］
図１１および図１２は、実施例２に係る音声認識装置による処理の流れを示す図である。

まず、図１１を用いて、音声認識装置１００による全体処理の流れを説明する。図１１に示すように、音声取得用マイクロホン１１０は、ユーザにより発せられた発話音声を取得する（ステップＳ１０１）。アナログデジタル変換器１２０は、音声取得用マイクロホン１１０から入力されたアナログの音声信号データをデジタルの音声信号データに変換する（ステップＳ１０２）。

音声認識部１４０は、既存技術を用いて、スイッチ１３０を介して入力された音声信号データの音声認識処理を実行する（ステップＳ１０３）。認識結果判定器１５０は、音声認識部１４０から音声認識結果が入力されると、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが閾値Ｂ以上であるか否かを判定する（ステップＳ１０４）。判定の結果、スコアが閾値Ｂ以上ではない場合には（ステップＳ１０４，Ｆａｌｓｅ）、認識結果判定器１５０は、音声認識結果が入力されるのを待機し、音声認識結果が入力されると、上述したステップＳ１０２の処理に移行する。

一方、判定の結果、スコアが閾値Ｂ以上である場合には（ステップＳ１０４，Ｔｒｕｅ）、認識結果判定器１５０は、スコアが閾値Ａ以上であるか否かを判定する（ステップＳ１０５）。判定の結果、スコアが閾値Ａ以上である場合には（ステップＳ１０５，Ｔｒｕｅ）、認識結果判定器１５０は、認識結果を出力して（ステップＳ１０６）、処理を終了する。

これとは反対に、判定の結果、スコアが閾値Ａ以上ではない場合には（ステップＳ１０５，Ｆａｌｓｅ）、認識結果判定器１５０は、遅延イベントを出力する（ステップＳ１０７）。そして、音声認識装置１００は、以下に説明する補正音声信号データの再認識処理を実行する（ステップＳ１０８）。

認識結果判定器１５０は、補正音声信号データについての再認識処理結果が入力されると、１回目の認識処理結果および再認識処理結果をスコア順にソートした後、認識結果を出力して処理を終了する（ステップＳ１０９）。例えば、認識結果判定器１５０は、図１０に示すように、スコアの高いほうから３つのラベルを音声認識結果として出力する。

続いて、図１２を用いて、音声認識装置１００による補正音声信号データの再認識処理の流れを説明する。図１２に示すように、データバッファ１６０は、認識結果判定器１５０による遅延イベントの出力を待機する（ステップＳ２０１）。そして、データバッファ１６０は、認識結果判定器１５０から遅延イベントが出力されると（ステップＳ２０１，ＹＥＳ）、既に蓄積された音声信号データの中から再認識処理の対象となる音声信号データを切り出す（ステップＳ２０２）。なお、認識結果判定器１５０から遅延イベントが出力されていない場合には（ステップＳ２０１，ＮＯ）、データバッファ１６０は、認識結果判定器１５０から遅延イベントの出力されるまで待機を継続する。

そして、ノイズレベル検出器１７１は、データバッファ１６０から入力された音声信号データに含まれる雑音区間のノイズレベルを取得する（ステップＳ２０３）。最適信号振幅演算器１７２は、データバッファ１６０から入力された音声信号データの音声レベルを適正なレベルに調整するためのゲイン倍率を算出する（ステップＳ２０４）。スペクトログラム計算器１７３は、データバッファ１６０から入力された音声信号データの周波数の時間変化を表すスペクトログラムを算出する（ステップＳ２０５）。発話特徴検出器１７４は、スペクトログラム計算器１７３から入力されたスペクトログラムを元に、データバッファ１６０から入力された音声信号データに含まれる音声区間に対して発話特徴情報を設定する（ステップＳ２０６）。

音声波形補正器１８０は、音声波形分析器１７０による音声品質の分析結果に従ってノイズ抑制およびゲイン調整を行う（ステップＳ２０７）。音声認識用パラメータ制御器１９０は、音声波形分析部１７０から入力された発話特徴情報に従って、音声認識部１４０で用いる音声認識用パラメータを調整する（ステップＳ２０８）。音声認識部１４０は、音声認識用パラメータ制御器１９０により調整された音声認識用パラメータを用いて、補正音声信号データの再認識処理を実行する（ステップＳ２０９）。音声認識部１４０による補正音声信号データの再認識処理が完了すると、音声認識装置１００の処理は、上述した図１１のステップＳ１０９の処理に移行する。

［実施例２による効果］
上述してきたように、実施例２によれば、音声認識装置１００は、１回目の音声信号データの信頼度を示すスコアが所定の閾値を超えていない場合には、音声信号データの認識結果を出力せず、音声信号データの再認識処理を行う。このように、音声認識装置１００は、複数の処理部を並列に動作させるのではなく、１つの音声認識部１４０で音声認識処理を行うので、音声認識処理に要するコストを抑えられる。また、１回目の音声信号データの認識処理で所定の信頼度が得られなかった場合にのみ、補正を施した音声信号データの再認識処理を実行するので、音声認識処理に要する処理時間を抑えられる。

また、音声認識装置１００は、データバッファ１６０に音声信号データを蓄えておくので、ノイズレベルおよびゲイン倍率に応じた音声信号データの補正が可能となる。そして、音声認識装置１００は、補正した音声信号データについて再認識処理を実行する。このようなことから、音声認識装置１００は、再認識処理における音声信号データの認識率の向上を図ることができる。なお、実験データでは、発話レベルが低く４０％程度であった音声認識率を、実施例２の音声認識装置１００により８５％程度に改善できた。

また、音声認識装置１００は、音声信号データを分析することにより、音声信号データの発話形態が、単音節発話あるいは長音発話のどちらの可能性が高いかを特定する。そして、音声認識装置１００は、特定した発話形態に応じて音声信号データの再認識処理に用いるパラメータを制御する。このようなことから、音声認識装置１００は、再認識処理における音声信号データの認識率をより向上させることができる。

また、音声認識装置１００は、データバッファ１６０に蓄えられた音声信号データから、再認識処理の対象となる音声区間を切り出すので、音声信号データの再認識処理に要する時間をより短縮することができる。

図１３は、実施例３に係る音声認識装置の構成を示す図である。図１３に示すように、音声認識装置２００は、実施例１に係る音声認識装置１００と同様に、音声取得用マイクロホン２１０、アナログデジタル変換器２２０、スイッチ２３０、音声認識部２４０、認識結果判定器２５０およびデータバッファ２６０を有する。さらに、音声認識装置２００は、図１３に示すように、ゲイン補正器２７０、ゲイン検出器２８０およびゲイン補正器２９０を有する。

また、図１３において、アナログデジタル変換器２２０とデータバッファ２６０およびゲイン補正器２７０とを接続する矢印は音声信号データの入力経路を表す。また、図１３において、データバッファ２６０とゲイン検出器２８０およびゲイン補正器２９０とを接続する矢印は音声信号データの入力経路を表す。

また、図１３において、ゲイン補正器２７０とスイッチ２３０と接続する矢印は第１補正音声信号データの入力経路を表す。また、図１３において、音声区間検出器２４３とデータバッファ２６０とを接続する矢印は音声区間情報の入力経路を表す。また、図１３において、ゲイン検出器２８０とゲイン補正器２７０とを接続する矢印は第１のゲイン値の入力経路を表す。また、図１３において、ゲイン検出器２８０とゲイン補正器２９０とを接続する矢印は第２のゲイン値の入力経路を表す。また、図１３において、ゲイン補正器２９０とスイッチ２３０とを接続する矢印は第２補正音声信号データの入力経路を表す。

また、図１３において、認識結果判定器２５０とデータバッファ２６０とを接続する矢印は音声検出フラグの入力経路を表す。また、図１３において、ゲイン検出器２８０とスイッチ２３０および認識結果判定器２５０とを接続する矢印は再音声認識フラグの入力経路を表す。

ゲイン補正器２７０は、アナログデジタル変換器２２０から入力された音声信号データにデジタルゲインαを乗算することにより、第１補正音声信号データを生成する。ゲイン補正器２７０は、第１補正音声信号データをスイッチ２３０に入力する。

音声認識部２４０は、上述した実施例２と同様に、既存技術を用いて、スイッチ２３０を介して入力された第１補正音声信号データを認識する。認識結果判定器２５０は、上述した実施例２と同様に、音声認識部２４０による音声認識結果の出力判定を行う。

データバッファ２６０は、上述した実施例２と同様に、音声検出フラグが入力されると、音声信号データの蓄積を停止する。データバッファ２６０は、音声区間情報を元に、既に蓄積された音声信号データの中から音声の再認識処理の対象となるデータを切り出してゲイン検出器２８０に入力する。

図１４は、実施例３に係るゲイン検出器の構成を示す図である。図１４に示すように、ゲイン検出器２８０は、最大値検出器２８１、ゲイン補正器２８２、閾値判定器２８３、最適ゲイン計算器２８４、ゲイン更新器２８５、ゲインメモリ２８６および補正用ゲイン計算器２８７を有する。

最大値検出器２８１は、音声信号データの音声区間における振幅値の絶対値の中から最大値を検出する。例えば、１サンプルの音声データをｘとすると、ｘ_ｍａｘ＝ｍａｘ｛｜ｘ_０｜、・・・、｜ｘ_ｎ−１｜｝となる。但し、ｎは保持サンプル数を示す。

ゲインメモリ２８６は、ゲイン補正器２７０と同じゲイン値α_ｋを記憶する。

次に、ゲイン補正器２８２は、最大値検出器２８１により検出された最大値ｘ_ｍａｘに、ゲインメモリ２８６に記憶されているゲイン値α_ｋを乗算することにより、最大値ｘ_ｍａｘをゲイン補正した値α_ｋｘ_ｍａｘを算出する。

閾値判定器２８３は、ゲイン補正器２８２によりゲイン補正された最大値Ｘ_ｍａｘ（＝α_ｋｘ_ｍａｘ）について閾値による判定を行う。判定の結果、規定範囲外となる音声信号データである場合は、閾値判定器２８３は、再音声認識フラグを有効とする。一方、判定の結果、規定範囲内となる音声信号データである場合は、再音声認識フラグを無効とする。そして、閾値判定器２８３は、再音声認識フラグを後述する補正用ゲイン計算器２８７に入力する。

例えば、閾値判定器２８３は、音声信号データが１６ビットでアナログデジタル変換されている場合には、以下に示すように、Ｘ_ｍａｘがどの数値範囲に属するかに基づいて、再音声認識フラグの有効、無効を決定する。
８１９２≦Ｘ_ｍａｘ＜３２７６７の場合・・・再音声認識フラグ無効
８１９２＞Ｘ_ｍａｘ，Ｘ_ｍａｘ≧３２７６７の場合・・・再音声認識フラグ有効

なお、認識結果判定器２５０は、ゲイン検出器２８０から入力される再音声認識フラグが有効である場合には、音声信号データの再認識処理結果の判定を行う。一方、ゲイン検出器２８０から入力される再音声認識フラグが無効である場合には、認識結果判定器２５０は、音声信号データの再認識処理結果の判定を行なわない。

最適ゲイン計算器２８４は、最大値検出器２８１により検出された最大値ｘ_ｍａｘを用いて、最適ゲインに対する最適ゲイン値βを計算する。最適ゲイン計算器２８４は、例えば、最適ゲインを２４５７６とした場合、以下の数式を計算することにより、最適ゲインに対するゲイン値βを求める。
β＝２４５７６／ｘ_ｍａｘ

ゲイン更新器２８５は、最適ゲイン計算器２８４により算出された最適ゲインに対するゲイン値βと、ゲインメモリ２８６に記憶されているゲイン値α_ｋとを用いて、次の音声認識に用いるゲイン値α_ｋ＋１を次式により計算する。
α_ｋ＋１＝α_ｋ＋（β―α_ｋ）×μ
ここで、μはステップサイズを示し、例えば０．１とする。なお、ステップサイズとは、ループゲインを意味する。

ゲイン更新器２８５は、ゲイン値α_ｋ＋１をゲインメモリ２８６に格納する。さらに、ゲイン更新器２８５は、ゲイン値α_ｋ＋１を第１のゲイン値としてゲイン補正器２７０に入力する。

補正用ゲイン計算器２８７は、再音声認識用のゲインを決定する。例えば、閾値判定器２８３により再音声認識フラグが有効とされた場合には、補正用ゲイン計算器２８７は、以下に示すように、Ｘ_ｍａｘが属する数値範囲に応じて第２のゲイン値γを算出する。
２０４８≦Ｘ_ｍａｘ＜８１９２の場合 γ＝８１９２／ｘ_ｍａｘ
Ｘ_ｍａｘ＞３２７６７の場合 γ＝３２７６７／ｘ_ｍａｘ

そして、補正用ゲイン計算器２８７は、第２のゲイン値γをゲイン補正器２９０に入力する。

ゲイン補正器２９０は、データバッファ２６０から入力された音声信号データに第２のゲイン値γを乗算することにより、第２補正音声信号データを算出する。そして、ゲイン補正器２９０は、第２補正音声信号データをスイッチ２３０に入力する。

スイッチ２３０は、ゲイン補正器２９０から入力された再音声認識フラグが有効である場合には、第２補正音声信号データを音声認識部２４０に入力する。

音声認識部２４０は、上述した実施例２における音声認識部１４０と同じ要領で、第２補正音声信号データについて音声認識処理を再度実行し、認識結果を認識結果判定器２５０に入力する。

認識結果判定器２５０は、上述した実施例２における認識結果判定器１５０と同じ要領で、音声認識部２４０から入力された音声認識結果について認識結果判定処理を実行し、音声認識結果を出力する。

［実施例３による効果］
上述してきたように、実施例３によれば、音声認識装置２００は、データバッファ２６０に蓄えられている音声信号データを用いて、次の音声認識に用いるゲイン値を更新する。このようなことから、実施例３によれば、次に音声認識の対象となる音声信号データの認識率をより向上させることができる。

また、実施例３によれば、音声認識装置２００は、データバッファ２６０に蓄えられている音声信号データを用いて、再音声認識用のゲインを決定する。そして、再音声認識用のゲインを用いて再音声認識対象となる音声信号データを補正するので、音声信号データの再認識処理の精度をより向上させることができる。

上述した実施例３では、音声認識装置２００は、再音声認識用のゲインを用いて、データバッファ２６０に蓄えられている音声信号データのゲインを目標レベルに調整するが、音声信号データの非音声区間の雑音レベルの変動が大きくなる場合がある。音声認識装置２００は、音声信号データの非音声区間の雑音レベルに基づいて、音声信号データの音声区間を検出するための検出レベルの推定、音響モデルの選択、スペクトルサブトラクションなどの処理を行っている。したがって、非音声区間の雑音レベルの変動が大きくなると、これらの処理に影響を与え、音声認識率の低下を招く恐れがある。そこで、以下の実施例４では、音声信号データのゲインを目標レベルに調整する場合に、非音声区間の雑音レベルの変動を抑制し、音声認識率を低下させないようにするための一実施形態を説明する。

［音声認識装置の構成（実施例４）］
図１５は、実施例４に係る音声認識装置の構成を示す図である。図１５に示すように、実施例４に係る音声認識装置３００は、実施例３に係る音声認識装置２００と基本的に同様の構成を有する。すなわち、音声取得用マイクロホン３１０は音声取得用マイクロホン２１０と同様に動作する。また、アナログデジタル変換器３２０はアナログデジタル変換器２２０と同様に動作する。また、スイッチ３３０はスイッチ２３０と同様に動作する。また、音声認識部３４０は音声認識部２４０と同様に動作する。また、認識結果判定器３５０は認識結果判定器２５０と同様に動作する。これに対して、音声認識装置３００のゲイン検出器３８０およびゲイン補正器３９０は、音声認識装置２００のゲイン検出器２８０およびゲイン補正器２９０とは異なる動作を実行する。以下、図１６を参照しつつ、まず、ゲイン検出器３８０について説明する。

図１６は、実施例４に係るゲイン検出器の構成を示す図である。図１６に示すように、ゲイン検出器３８０は、最大値検出器３８１と、ゲイン補正器３８２、閾値判定器３８３、最適ゲイン計算器３８４、ゲイン更新器３８５およびゲインメモリ３８６を有する。

最大値検出器３８１は、実施例３に係る音声認識装置２００の最大値検出器２８１と同様の動作を行う。すなわち、最大値検出器３８１は、データバッファ３６０に蓄積された音声信号データの音声区間における振幅値（振幅レベル）の絶対値の中から最大値を検出する。

ゲイン補正器３８２は、実施例３に係る音声認識装置２００のゲイン補正器２８２と同様の動作を行う。すなわち、ゲイン補正器３８２は、最大値検出器３８１により検出された最大値に、ゲインメモリ３８６に記憶されているゲイン値を乗算することにより、最大値をゲイン補正した値を算出する。例えば、ゲイン補正器３８２は、最大値検出器３８１により検出された最大値「ｓ_ｍａｘ」に、ゲインメモリ３８６に記憶されているゲイン値「α」を乗算することにより、最大値ｓ_ｍａｘをゲイン補正した値「ｇ_ｍａｘ＝αｓ_ｍａｘ」を算出する。なお、最大値「ｓ_ｍａｘ」は、上述した実施例３における「ｘ_ｍａｘ」に対応し、ゲイン値「α」は上述した実施例３における「α_ｋ」に対応し、最大値ｓ_ｍａｘをゲイン補正した値「ｇ_ｍａｘ＝αｓ_ｍａｘ」は、上述した実施例３における「α_ｋｘ_ｍａｘ」に対応する。

閾値判定器３８３は、ゲイン補正器３８２によりゲイン補正された最大値「ｇ_ｍａｘ＝αｓ_ｍａｘ」について閾値による判定を行う。例えば、閾値判定器３８３は、以下の（Ａ）〜（Ｅ）に示すように閾値による判定を行う。
（Ａ）ｇ_ｍａｘ＜ｃ_ｒｅｊ
→再音声認識フラグ無効、データバッファを棄却
（Ｂ）ｃ_ｒｅｊ≦ｇ_ｍａｘ＜ｃ_ｍｉｎ
→再音声認識フラグ有効、補正式（１）によりデータバッファを補正
（Ｃ）ｃ_ｍｉｎ≦ｇ_ｍａｘ＜ｃ_ｍａｘ
→再音声認識フラグ無効、データバッファの補正なし
（Ｄ）ｃ_ｍａｘ≦ｇ_ｍａｘ
→再音声認識フラグ有効、補正式（２）によりデータバッファを補正
（Ｅ）ｃ_ｓａｔ≦ｓ_ｍａｘ・・・
→再音声認識フラグ無効、データバッファを棄却

ここで、（Ａ）および（Ｂ）に示すｃ_ｒｅｊは、再音声認識フラグを無効とし、データバッファ（データバッファに保存された音声信号データ）を棄却するという判定結果を導出するための閾値であり、振幅レベルの最小値に相当する。また、（Ｅ）に示すｃ_ｓａｔも、再音声認識フラグを無効とし、データバッファを棄却するという判定結果を導出するための閾値であり、振幅レベルの最大値に相当する。また、（Ｂ）および（Ｃ）に示すｃ_ｍｉｎは、再音声認識フラグを有効とし、補正式（１）によりデータバッファを補正するという判定結果を導出するための閾値であり、補正後の振幅レベルの最小値に相当する。また、（Ｃ）および（Ｄ）に示すｃ_ｍａｘは、再音声認識フラグを有効とし、補正式（２）によりデータバッファを補正するという判定結果を導出するための閾値であり、補正後の振幅レベルの最大値に相当する。

そして、閾値判定器３８３は、閾値による判定の結果、上述した（Ｂ）あるいは（Ｄ）に示す「再音声認識フラグ有効、データバッファを補正」という判定結果を導出した場合には、ｇ_ｍａｘおよびｓ_ｍａｘを図１５に示すゲイン補正器３９０に送る。

なお、図１６に示す最適ゲイン計算器３８４およびゲイン更新器３８５は、実施例３に係る音声認識装置２００の最適ゲイン計算器２８４およびゲイン更新器２８５と同様に動作するので、説明は省略する。

続いて、図１５に示すゲイン補正器３９０について説明する。ゲイン補正器３９０は、ゲイン検出器３８０からｇ_ｍａｘおよびｓ_ｍａｘを取得すると、例えば、ｇ_ｍａｘの振幅レベルに応じて、データバッファ３６０に蓄積されている音声信号データの振幅レベルをゲイン補正することにより第２補正音声信号データを生成する。以下、図１７を用いて、ゲイン補正器３９０によるゲイン補正について説明する。なお、図１７に示すｃ_ｍｉｄは、補正後の振幅レベルの中間値を表す。

図１７は、実施例４に係るゲイン補正について説明するための図である。図１７には、ゲイン補正器３９０によるゲイン補正の概念を示す。なお、例えば、音声信号データが１６ビットでアナログデジタル変換されている場合には、図１７に示すαｃ_ｓａｔは３２７６８αとなり、ｃ_ｍａｘは３２７６８となり、ｃ_ｍｉｄは１６３８４となり、ｃ_ｍｉｎは８１９２となり、ｃ_ｒｅｊは４０９６となる。

図１７に示すように、ゲイン補正器３９０は、ゲイン検出器３８０から取得したｇ_ｍａｘが、ｃ_ｍａｘ≦ｇ_ｍａｘの範囲にある場合には、ゲインを下げるゲイン補正、いわゆる負ゲイン補正を行う。図１７の１７−１に示す１Ａは従来の負ゲイン補正の方法に対応し、図１７の１７−１に示す１Ｂは実施例４に係る負ゲイン補正の方法に対応する。１Ａに示すように、従来は、補正前の音声レベルを一様に小さく調整するように負ゲイン補正を行う。これに対して、実施例４に係るゲイン補正器３９０は、１Ｂに示すように、補正前の音声レベルのうち、ｃ_ｍａｘ以上の値をｃ_ｍａｘに調整するように負ゲイン補正を行う。なお、ゲイン補正器３９０は、以下の式（１）を用いて負ゲイン補正を行う。

また、ゲイン補正器３９０は、ゲイン検出器３８０から取得したｇ_ｍａｘが、ｃ_ｒｅｊ≦ｇ_ｍａｘ＜ｃ_ｍｉｎの範囲にある場合には、ゲインを上げるゲイン補正、いわゆる正ゲイン補正を行う。図１７の１７−２に示す２Ａは従来の正ゲイン補正の方法に対応し、図１７の１７−２に示す２Ｂは実施例４に係る正ゲイン補正の方法に対応する。２Ａに示すように、従来は、補正前の音声レベルを一様に大きく調整するように正ゲイン補正を行う。これに対して、実施例４に係るゲイン補正器３９０は、２Ｂに示すように、補正前の音声レベルのうち、ｇ_ｍａｘの値をｃ_ｍｉｎに調整するように正ゲイン補正を行う。なお、ゲイン補正器３９０は、以下の式（２）を用いて負ゲイン補正を行う。

上述した式（１）に示すｓ（ｘ）はデータバッファ３６０からの出力を表し、式（１）および式（２）に示すｇ（ｘ）はｓ（ｘ）にゲイン値αを乗算した値を表す。また、式（１）および式（２）に示すその他の定数または変数は、上述した（Ａ）〜（Ｅ）で記した定数または変数と同一である。

続いて、図１８および図１９を参照しつつ、ゲイン補正器３９０によるゲイン補正結果について説明する。図１８および図１９は、実施例４に係るゲイン補正結果と従来の補正との比較例を示す図である。

まず、図１８を用いて、ゲイン補正器３９０により行われる、いわゆる負ゲイン補正の結果と従来の補正とを比較結果について説明する。図１８に示す１８−１は、データバッファ３６０に蓄積されている音声信号データにゲインαを掛けてゲイン補正した結果を表し、音声区間の振幅が飽和している。

図１８に示す１８−２は、従来のゲイン補正の結果を表している。従来のゲイン補正結果では、振幅レベルが飽和しないように音声区間の補正が適正に行われている。また、従来のゲイン補正結果では、全データに対して一律のゲイン値を掛けて補正を行っているので、非音声区間の振幅レベルは小さくなってしまっている。

図１８に示す１８−３は、実施例４に係るゲイン補正の結果を表している。実施例４に係るゲイン補正結果では、振幅レベルが飽和しないように音声区間の補正が適正に行われている。また、実施例４に係るゲイン補正結果では、非音声区間の振幅レベルの変動が抑えられている。

続いて、図１９を用いて、ゲイン補正器３９０により行われる、いわゆる正ゲイン補正の結果と従来の補正とを比較結果について説明する。図１９に示す１９−１は、データバッファ３６０に蓄積されている音声信号データにゲインαを掛けてゲイン補正した結果を表し、音声区間の振幅レベルが音声認識処理を行うための推奨レベルに達していない。

図１９に示す１９−２は、従来のゲイン補正の結果を表している。従来のゲイン補正結果では、音声区間の振幅レベルの補正が適正に行われている。また、従来のゲイン補正結果では、全データに対して一律のゲイン値を掛けて補正を行っているので、非音声区間の振幅レベルは大きくなってしまっている。

図１９に示す１９−３は、実施例４に係るゲイン補正の結果を表している。実施例４に係るゲイン補正結果では、音声区間の振幅レベルの補正が適正に行われているだけでなく、非音声区間の振幅レベルの変動が抑えられている。

［実施例４による効果］
上述してきたように、実施例４では、音声信号データのゲインを目標レベルに調整する場合に、非音声区間の雑音レベルの変動を抑制するので、音声認識率を低下させないようにすることができる。

上述した実施例４において、再音声認識フラグを無効とし、データバッファを棄却するという判定結果を導出するために閾値判定器３８３にて用いられる閾値「ｃ_ｒｅｊ」を非音声区間の雑音の振幅レベルに応じて動的に設定してもよい。

［音声認識装置の構成（実施例５）］
図２０は、実施例５に係るゲイン検出器の構成を示す図である。図２０に示すように、実施例５に係るゲイン検出器３８０は、雑音レベル推定器３８８を有する点が、実施例４に係るゲイン検出器３８０とは異なる。

雑音レベル推定器３８８は、非音声区間の雑音の振幅レベルに応じて「ｃ_ｒｅｊ」を動的に設定する。雑音レベル推定器３８８は、音声信号データの非音声区間について、以下に示す式（３）〜（５）を用いてステップ１〜ステップ３までの計算を順に行い、以下の式（６）に示すような「ｃ_ｒｅｊ」を設定する。

［実施例５による効果］
上述してきたように、実施例５では、非音声区間の雑音の振幅レベルに応じて「ｃ_ｒｅｊ」を動的に設定するので、入力される雑音の程度に応じて、音声信号を再認識するか否か、データバッファを棄却するか否かを適切に導出できる。

上述した実施例４においてゲイン補正器３９０にて、振幅レベルが「ｃ_ｒｅｊ」以下の音声信号データの負ゲイン補正を行わないようにしてもよい。例えば、ゲイン補正器３９０は、以下に示す式（７）を用いて音声信号データのゲイン補正を行う。

［実施例６による効果］
上述してきたように、実施例６では、振幅レベルが「ｃ_ｒｅｊ」以下のデータについて負ゲイン補正を行わない。例えば、上述した図１７の１７−２では、振幅レベルが「ｃ_ｒｅｊ」以下のデータについて負ゲイン補正を行わない。よって、実施例６によれば、非音声区間の振幅レベルの変動をより抑えることができる。

以下、本願の開示する音声認識装置、音声認識方法および音声認識プログラムの他の実施形態を説明する。

（１）装置構成等
例えば、図２に示した音声認識装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、音声認識装置１００の分散・統合の具体的形態は図示のものに限られず、例えば、音声波形分析器１７０と音声波形補正器１８０とを機能的または物理的に統合する。このように、音声認識装置１００の全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

また、図１３に示した音声認識装置２００の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、音声認識装置２００の分散・統合の具体的形態は図示のものに限られず、例えば、ゲイン補正器２７０を有しない構成としてもよい。なお、上記実施例では、日本語の認識を例に挙げて説明したが、例えば英語などの外国語の認識においても、同様に適用することができる。つまり、日本語以外の外国語においても、認識エンジンは日本語と同様のものが用いられ、音響モデルや単語辞書が外国語用のものに変更するだけで同様に適用することができる。

また、図１５に示した音声認識装置３００の各構成要素についても機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。

（２）音声認識プログラム
また、例えば、上述の実施例で説明した音声認識装置１００〜３００の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。なお、音声認識装置１００の各種の処理については、例えば、図１１や図１２、図１７等を参照されたい。

そこで、以下では、図２１を用いて、上述の実施例で説明した音声認識装置による処理と同様の機能を実現する音声認識プログラムを実行するコンピュータの一例を説明する。図２１は、音声認識プログラムを実行するコンピュータの一例を示す図である。

図２１に示すように、音声認識装置として機能するコンピュータ４００は、入力装置４０１、モニタ４０２、ＲＡＭ（Random Access Memory）４０３、ＲＯＭ（Read Only Memory）４０４を有する。また、コンピュータ４００は、ＣＰＵ（Central Processing Unit）４０５、ＨＤＤ（Hard Disk Drive）４０６を有する。

なお、ＣＰＵ４０５の代わりに、例えば、ＭＰＵ（Micro Processing Unit）などの電子回路、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの集積回路を用いることもできる。また、ＲＡＭ４０３やＲＯＭ４０４の代わりに、フラッシュメモリ（flash memory）などの半導体メモリ素子を用いることもできる。

また、コンピュータ４００は、入力装置４０１、モニタ４０２、ＲＡＭ４０３、ＲＯＭ４０４、ＣＰＵ４０５およびＨＤＤ４０６をバス４０７で相互に接続する。

ＨＤＤ４０６には、上述した音声認識装置の機能と同様の機能を発揮する音声認識プログラム４０６ａが記憶されている。なお、この音声認識プログラム４０６ａを適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。

そして、ＣＰＵ４０５が、音声認識プログラム４０６ａをＨＤＤ４０６から読み出してＲＡＭ４０３に展開することにより、図２１に示すように、音声認識プログラム４０６ａは音声認識プロセス４０５ａとして機能する。

すなわち、音声認識プロセス４０５ａは、各種データ４０３ａをＲＡＭ４０３において身に割り当てられた領域に展開し、この展開した各種データ４０３ａに基づいて各種処理を実行する。

なお、音声認識プロセス４０５ａは、上述の実施例で説明した音声認識装置が有する各種処理機能部にて実行される処理に対応する。例えば、図２に示したスイッチ１３０、音声認識部１４０、認識結果判定器１５０、データバッファ１６０、音声波形分析器１７０、音声波形補正器１８０および音声認識用パラメータ制御器１９０にて実行される処理に対応する。

なお、音声認識プログラム４０６ａについては、必ずしも最初からＨＤＤ４０６に記憶させておく必要はない。例えば、コンピュータ４００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に音声認識プログラム４０６ａを記憶させておく。そして、コンピュータ４００がこれらから音声認識プログラム４０６ａを読み出して実行するようにしてもよい。また、例えば、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ４００に接続される「他のコンピュータ（またはサーバ）」などに音声認識プログラム４０６ａを記憶させておく。そして、コンピュータ４００がこれらから音声認識プログラム４０６ａを読み出して実行するようにしてもよい。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）ユーザの発話音声を取得する音声取得部と、
前記音声取得部により取得された発話音声の音声データを蓄積する蓄積部と、
前記音声取得部により取得された発話音声の音声データを認識し、当該認識の結果に応じた第１の信頼度を取得する音声認識部と、
前記音声認識部により取得された第１の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する判定部と、
前記第１の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成部と
を有し、
前記音声認識部は、さらに、前記補正音声データを認識し、当該認識の結果に応じた第２の信頼度を取得し、
前記判定部は、さらに、前記第２の信頼度と前記第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定することを特徴とする音声認識装置。

（付記２）前記蓄積部に蓄積されている音声データの周波数の時間変化に基づいて、当該音声データが単音節発話または長音発話のいずれの発話特徴を取得する発話特徴取得部と、
前記発話特徴取得部により取得された発話特徴に応じて、前記音声認識部が前記補正音声データの認識に用いる認識パラメータを制御するパラメータ制御部と
をさらに有することを特徴とする付記１に記載の音声認識装置。

（付記３）前記音声認識部は、前記音声データに含まれる音声区間を検出し、
前記蓄積部は、前記検出された音声区間に基づいて前記音声データを音声区間と雑音区間とに分割し、
前記生成部は、前記音声データの音声区間および雑音区間をそれぞれ分析することにより、前記音声区間のパワーレベルおよび雑音区間のノイズレベルを取得し、当該取得したパワーレベルに応じたゲイン倍率および当該取得したノイズレベルに応じた減算率を用いて前記音声データを補正することにより前記補正音声データを生成することを特徴とする付記２に記載の音声認識装置。

（付記４）前記音声取得部により取得された音声データをゲイン補正するゲイン補正部と、
前記蓄積部により蓄積された音声データの振幅の絶対値の中から当該振幅の最大値を検出し、当該検出した最大値を用いて、前記音声取得部により次に取得される音声データを補正するためのゲイン値を算出するゲイン値算出部と、
前記ゲイン値算出部により算出されたゲイン値に応じて、前記音声取得部により取得された音声データのゲイン補正に用いるゲイン値を更新するゲイン更新部と
を有することを特徴とする付記１に記載の音声認識装置。

（付記５）前記蓄積部により蓄積された音声データを再認識する場合に、再認識対象となる音声データのゲイン補正に用いる再認識用ゲイン値を算出する再認識用ゲイン値算出部をさらに有し、
前記生成部は、前記蓄積部により蓄積された音声データの振幅の絶対値の中から検出された当該振幅の最大値と前記再認識用ゲイン値とを用いて、前記蓄積部により蓄積された音声データを補正することにより前記補正音声データを生成することを特徴とする付記１に記載の音声認識装置。

（付記６）前記生成部は、前記音声データの振幅に応じて、該振幅の小さい箇所よりも該振幅の大きい箇所の方が該振幅の調整が行われるようにゲインを上げる補正または下げる補正を行うことにより、前記補正音声データを生成することを特徴とする付記５に記載の音声認識装置。

（付記７）音声認識エンジンを用いて音声認識装置が音声データの認識を行う音声認識方法であって、
ユーザの発話音声を取得する音声取得ステップと、
前記音声取得ステップにより取得された発話音声の音声データを蓄積部に蓄積する蓄積ステップと、
前記音声取得ステップにより取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第１の信頼度を取得する第１の音声認識ステップと、
前記第１の音声認識ステップにより取得された第１の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第１の判定ステップと、
前記第１の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積ステップにより蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成ステップと、
前記生成ステップにより生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第２の信頼度を取得する第２の音声認識ステップと、
前記第２の音声認識ステップにより取得された前記第２の信頼度と、前記第１の音声認識ステップにより取得された前記第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第２の判定ステップと
を含んだことを特徴とする音声認識方法。

（付記８）音声認識エンジンを用いた音声データの認識処理をコンピュータに実行させる音声認識プログラムであって、
ユーザの発話音声を取得する音声取得手順と、
前記音声取得手順により取得された発話音声の音声データを蓄積部に蓄積する蓄積手順と、
前記音声取得手順により取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第１の信頼度を取得する第１の音声認識手順と、
前記第１の音声認識手順により取得された第１の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第１の判定手順と、
前記第１の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積手順により蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成手順と、
前記生成手順により生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第２の信頼度を取得する第２の音声認識手順と、
前記第２の音声認識手順により取得された前記第２の信頼度と、前記第１の音声認識手順により取得された前記第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第２の判定手順と
をコンピュータに実行させることを特徴とする音声認識プログラム。

１音声認識装置
２音声取得部
３蓄積部
４音声認識部
５判定部
６生成部
１００音声認識装置
１１０音声取得用マイクロホン
１２０アナログデジタル変換器
１３０スイッチ
１４０音声認識部
１５０認識結果判定器
１６０データバッファ
１７０音声波形分析器
１７１ノイズレベル検出器
１７２最適信号振幅演算器
１７３スペクトログラム計算器
１７４発話特徴検出器
１８０音声波形補正器
１９０音声認識用パラメータ制御器
１９１単音節用単語辞書
１９２長音用単語辞書
１９３音素モデル
２００音声認識装置
２１０音声取得用マイクロホン
２２０アナログデジタル変換器
２３０スイッチ
２４０音声認識部
２５０認識結果判定器
２６０データバッファ
２７０ゲイン補正器
２８０ゲイン検出器
２８１最大値検出器
２８２ゲイン補正器
２８３閾値判定器
２８４最適ゲイン計算器
２８５ゲイン更新器
２８６ゲインメモリ
２８７補正用ゲイン計算器
２９０ゲイン補正器
３００音声認識装置
３１０音声取得用マイクロホン
３２０アナログデジタル変換器
３３０スイッチ
３４０音声認識部
３５０認識結果判定器
３６０データバッファ
３７０ゲイン補正器
３８０ゲイン検出器
３８１最大値検出器
３８２ゲイン補正器
３８３閾値判定器
３８４最適ゲイン計算器
３８５ゲイン更新器
３８６ゲインメモリ
３８７補正用ゲイン計算器
３８８雑音レベル推定器
３９０ゲイン補正器
４００コンピュータ
４０１入力装置
４０２モニタ
４０３ＲＡＭ
４０３ａ各種データ
４０４ＲＯＭ
４０５ＣＰＵ
４０５ａ音声認識プロセス
４０６ＨＤＤ
４０６ａ音声認識プログラム

Claims

ユーザの発話音声を取得する音声取得部と、
前記音声取得部により取得された発話音声の音声データを蓄積する蓄積部と、
前記音声取得部により取得された発話音声の音声データを認識し、当該認識の結果に応じた第１の信頼度を取得する音声認識部と、
前記音声認識部により取得された第１の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する判定部と、
前記第１の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成部と
を有し、
前記音声認識部は、さらに、前記補正音声データを認識し、当該認識の結果に応じた第２の信頼度を取得し、
前記判定部は、さらに、前記第２の信頼度と前記第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定することを特徴とする音声認識装置。
前記蓄積部に蓄積されている音声データの周波数の時間変化に基づいて、当該音声データが単音節発話または長音発話のいずれの発話特徴を取得する発話特徴取得部と、
前記発話特徴取得部により取得された発話特徴に応じて、前記音声認識部が前記補正音声データの認識に用いる認識パラメータを制御するパラメータ制御部と
をさらに有することを特徴とする請求項１に記載の音声認識装置。
前記音声取得部により取得された音声データをゲイン補正するゲイン補正部と、
前記蓄積部により蓄積された音声データの振幅の絶対値の中から当該振幅の最大値を検出し、当該検出した最大値を用いて、前記音声取得部により次に取得される音声データを補正するためのゲイン値を算出するゲイン値算出部と、
前記ゲイン値算出部により算出されたゲイン値に応じて、前記音声取得部により取得された音声データのゲイン補正に用いるゲイン値を更新するゲイン更新部と
を有することを特徴とする請求項１に記載の音声認識装置。
前記蓄積部により蓄積された音声データを再認識する場合に、再認識対象となる音声データのゲイン補正に用いる再認識用ゲイン値を算出する再認識用ゲイン値算出部をさらに有し、
前記生成部は、前記蓄積部により蓄積された音声データの振幅の絶対値の中から検出された当該振幅の最大値と前記再認識用ゲイン値とを用いて、該蓄積部により蓄積された音声データを補正することにより前記補正音声データを生成することを特徴とする請求項１に記載の音声認識装置。
前記生成部は、前記音声データの振幅に応じて、該振幅の小さい箇所よりも該振幅の大きい箇所の方が該振幅の調整が行われるようにゲインを上げる補正または下げる補正を行うことにより、前記補正音声データを生成することを特徴とする請求項４に記載の音声認識装置。
音声認識エンジンを用いて音声認識装置が音声データの認識を行う音声認識方法であって、
ユーザの発話音声を取得する音声取得ステップと、
前記音声取得ステップにより取得された発話音声の音声データを蓄積部に蓄積する蓄積ステップと、
前記音声取得ステップにより取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第１の信頼度を取得する第１の音声認識ステップと、
前記第１の音声認識ステップにより取得された第１の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第１の判定ステップと、
前記第１の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積ステップにより蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成ステップと、
前記生成ステップにより生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第２の信頼度を取得する第２の音声認識ステップと、
前記第２の音声認識ステップにより取得された前記第２の信頼度と、前記第１の音声認識ステップにより取得された前記第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第２の判定ステップと
を含んだことを特徴とする音声認識方法。
音声認識エンジンを用いた音声データの認識処理をコンピュータに実行させる音声認識プログラムであって、
ユーザの発話音声を取得する音声取得手順と、
前記音声取得手順により取得された発話音声の音声データを蓄積部に蓄積する蓄積手順と、
前記音声取得手順により取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第１の信頼度を取得する第１の音声認識手順と、
前記第１の音声認識手順により取得された第１の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第１の判定手順と、
前記第１の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積手順により蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成手順と、
前記生成手順により生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第２の信頼度を取得する第２の音声認識手順と、
前記第２の音声認識手順により取得された前記第２の信頼度と、前記第１の音声認識手順により取得された前記第１の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第２の判定手順と
をコンピュータに実行させることを特徴とする音声認識プログラム。