JP2011154341A - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム Download PDF

Info

Publication number
JP2011154341A
JP2011154341A JP2010178952A JP2010178952A JP2011154341A JP 2011154341 A JP2011154341 A JP 2011154341A JP 2010178952 A JP2010178952 A JP 2010178952A JP 2010178952 A JP2010178952 A JP 2010178952A JP 2011154341 A JP2011154341 A JP 2011154341A
Authority
JP
Japan
Prior art keywords
speech
recognition
voice
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2010178952A
Other languages
English (en)
Inventor
Toshitomo Kaneoka
利知 金岡
Keiju Okabayashi
桂樹 岡林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010178952A priority Critical patent/JP2011154341A/ja
Publication of JP2011154341A publication Critical patent/JP2011154341A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識処理に要するコストおよび処理時間を抑えつつ、音声の認識率を向上させることを課題とする。
【解決手段】音声認識装置1は、音声取得部2、蓄積部3、音声認識部4、判定部5および生成部6を有する。音声認識部4は、音声取得部2により取得された音声データを認識して第1の認識率を取得する。判定部5は、第1の認識率が所定の閾値以上である場合には音声データの認識結果を出力すべきものと判定する。生成部6は、第1の認識率が前記所定の閾値よりも小さい場合には、蓄積部3内の音声データを分析した結果に基づいて、蓄積部3内の音声データを補正した補正音声信号データを生成する。音声認識部4は、さらに、補正音声データを認識して第2の認識率を取得する。判定部5は、さらに、第2の認識率と第1の認識率とを比較し、高い側の認識率が得られたときの音声データの認識結果を出力すべきものと判定する。
【選択図】図1

Description

本願の開示する技術は、音声認識装置、音声認識方法および音声認識プログラムに関する。
従来、例えば、ユーザの発話音声に関する音声データの認識処理を実行する音声認識装置が存在する。一般的にユーザは、発話音声を音声認識装置に認識させる最適な発話条件が分からない。発話条件とは、例えば、発話の速度や発話音声の大きさ等が該当する。このため、ユーザは、音声認識装置により認識されなかった音声を再度発話する場合には、意識的に細切れの発話や長音発話を行うことが多い。仮に、「トマト」という発話音声が音声認識装置により認識されなかった時には、ユーザは再度、「ト・マ・ト」と細切れの発話を行ったり、「トーマート」と長音発話を行ったりする。
しかしながら、上述した音声認識装置は、細切れの発話を一語発声した時点で発話終了と認識してしまうことがあり、発話音声を正確に認識できない場合がある。例えば、「ト・マ・ト」と細切れの発話をした場合に、「ト」を一語発生した時点で発話終了と認識してしまうことがある。また、上述した音声認識装置は、長音発話の長音を母音で補間して別の単語「トオマアトオ」として誤認識してしまうことがあり、発話音声を正確に認識できない場合がある。
上述した状況を鑑み、発話音声の認識精度向上を目的とした音声認識装置が種々提案されている。例えば、ある従来技術に開示された音声認識装置は、入力音声データから発話形態を分析し、分析結果に応じて発話音声の復号処理を複数並列に実行する。例えば、この音声認識装置は、発話形態が、音節単位、単語単位あるいは文章単位のいずれで発声された発話音声であるのかを分析する。そして、この音声認識装置は、標準パタンと復号処理の結果とを照合してスコア付けを行い、このスコアに基づいて認識結果を出力する。
特開平7−56595号公報
しかしながら、上述した従来技術の音声認識装置は、発話形態ごとに発話音声の復号処理を行うための複数の処理部を有する。このように、従来技術の音声認識装置は、多くの音声処理資源を必要とする点が問題である。
さらに、従来技術の音声認識装置が有する複数の処理部のうち、ある1つの処理部から出力された最先の処理結果が最終的な認識結果となる場合もある。このような場合には、従来技術の音声認識装置が有する残りの処理部から出力される処理結果は無駄となる。にもかかわらず、従来技術の音声認識装置は、毎回複数の処理部を並列に動作させるので、最終的な処理結果が出力されるまでに時間がかかってしまう場合も少なくないという点が問題である。同様に、従来技術の音声認識装置は、並列に動作する複数の処理部で演算処理部を共有する場合にも同様に、演算処理部における音声認識処理の負荷が多くなる結果、認識結果が出力されるまでの時間がかかってしまう恐れがある。
開示の技術は、上記に鑑みてなされたものであって、音声認識処理に要するコストおよび処理時間を抑えつつ、音声の認識率を向上させることが可能な音声認識装置、音声認識方法および音声認識プログラムを提供することを目的とする。
本願の開示する技術は、一つの態様において、ユーザの発話音声を取得する音声取得部と、前記音声取得部により取得された発話音声の音声データを蓄積する蓄積部と、前記音声取得部により取得された発話音声の音声データを認識し、当該認識の結果に応じた第1の信頼度を取得する音声認識部と、前記音声認識部により取得された第1の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する判定部と、前記第1の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成部とを有し、前記音声認識部は、さらに、前記補正音声データを認識し、当該認識の結果に応じた第2の信頼度を取得し、前記判定部は、さらに、前記第2の信頼度と前記第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する。
本願の開示する技術の一つの態様によれば、音声認識処理に要するコストおよび処理時間を抑えつつ、音声の認識率を向上できる。
図1は、実施例1に係る音声認識装置を示す図である。 図2は、実施例2に係る音声認識装置の構成を示す図である。 図3は、実施例2に係るデータバッファを説明する図である。 図4は、実施例2に係る音声波形分析器の構成を示す図である。 図5は、実施例2に係る音声波形図である。 図6は、実施例2に係るスペクトログラムの一例を示す図である。 図7は、実施例2に係るスペクトログラムの一例を示す図である。 図8は、実施例2に係るスペクトログラムの一例を示す図である。 図9は、実施例2に係る音声波形補正器の構成を示す図である。 図10は、実施例2に係る音声認識結果についての処理を説明する図である。 図11は、実施例2に係る音声認識装置による処理の流れを示す図である。 図12は、実施例2に係る音声認識装置による処理の流れを示す図である。 図13は、実施例3に係る音声認識装置の構成を示す図である。 図14は、実施例3に係るゲイン検出器の構成を示す図である。 図15は、実施例4に係る音声認識装置の構成を示す図である。 図16は、実施例4に係るゲイン検出器の構成を示す図である。 図17は、実施例4に係るゲイン補正について説明するための図である。 図18は、実施例4に係るゲイン補正結果と従来の補正との比較例を示す図である。 図19は、実施例4に係るゲイン補正結果と従来の補正との比較例を示す図である。 図20は、実施例5に係るゲイン検出器の構成を示す図である。 図21は、音声認識プログラムを実行するコンピュータの一例を示す図である。
以下に、図面を参照しつつ、本願の開示する音声認識装置、音声認識方法および音声認識プログラムの一実施形態について詳細に説明する。なお、以下では、本願の開示する音声認識装置、音声認識方法および音声認識プログラムの一実施形態として後述する実施例により、本願が開示する技術が限定されるものではない。
図1は、実施例1に係る音声認識装置を示す図である。同図に示すように、実施例1に係る音声認識装置1は、音声取得部2、蓄積部3、音声認識部4、判定部5および生成部6を有する。
音声取得部2は、ユーザの発話音声を取得する。蓄積部3は、音声取得部2により取得された発話音声の音声データを蓄積する。音声認識部4は、音声取得部2により取得された発話音声の音声データを認識し、当該認識の結果に応じた第1の信頼度を取得する。判定部5は、音声認識部4により取得された第1の信頼度が所定の閾値以上である場合には音声データの認識結果を出力すべきものと判定する。生成部6は、第1の信頼度が所定の閾値よりも小さい場合には、蓄積部3に蓄積されている音声データを分析し、当該分析した結果に基づいて、蓄積部3に蓄積されている音声データを補正した補正音声データを生成する。
音声認識部4は、さらに、補正音声データを認識し、当該認識の結果に応じた第2の信頼度を取得する。判定部5は、さらに、第2の信頼度と第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する。
実施例1に係る音声認識装置1は、音声データの最初の認識結果を出力できない場合には、蓄積しておいた音声信号データを補正し、補正した音声信号データの再認識結果を取得する。そして、音声認識装置1は、最初の認識処理で得られた信頼度と再認識処理で得られた信頼度とを比較して、信頼度が高い方の認識結果を出力する。このように、実施例1に係る音声認識装置1は、1つの音声認識部による音声認識処理を実現するので、多くの音声処理資源が必要なく、音声認識処理に要するコストを抑えられる。また、実施例1に係る音声認識装置1は、1回目の音声信号データの認識処理で所定の信頼度が得られなかった場合にのみ、補正を施した音声信号データの再認識処理を実行するので、音声認識処理に要する処理時間を抑えられる。また、実施例1に係る音声認識装置1は、音声信号データの分析結果に応じて補正した音声信号データを再認識するので、音声の認識率を向上できる。
[音声認識装置の構成(実施例2)]
図2は、実施例2に係る音声認識装置の構成を示す図である。図2に示すように、音声認識装置100は、音声取得用マイクロホン110、アナログデジタル変換器120、スイッチ130および音声認識部140を有する。さらに、音声認識装置100は、図2に示すように、認識結果判定器150、データバッファ160、音声波形分析器170、音声波形補正器180および音声認識用パラメータ制御器190を有する。
なお、図2において、アナログデジタル変換器120とスイッチ130およびデータバッファ160とを接続する矢印は音声信号データの入力経路を表す。また、図2において、音声区間検出器143とデータバッファ160とを接続する矢印は音声区間情報の入力経路を表す。また、図2において、データバッファ160と音声波形分析器170とを接続する矢印は音声区間情報の入力経路を表す。また、図2において、データバッファ160と音声波形分析器170とを接続する矢印は音声信号データの入力経路を表す。また、図2において、音声波形分析器170と音声波形補正器180とを接続する矢印は音声信号データの入力経路を表す。
また、図2において、音声波形分析器170と音声波形補正器180とを接続する矢印はノイズレベルおよびゲイン倍率の入力経路を表す。また、図2において、音声波形分析器170と音声認識用パラメータ制御器190とを接続する矢印は発話特徴情報の入力経路を表す。また、図2において、音声波形補正器180とスイッチ130と接続する矢印は補正音声信号データの入力経路を表す。
また、図2において、認識結果判定器150とデータバッファ160とを接続する矢印は音声検出フラグの入力経路を表す。
音声取得用マイクロホン110は、例えば、ユーザにより発せられた発話音声を取得する。音声取得用マイクロホン110として、指向性を有するビームフォーミングマイクなどを適用してもよい。
アナログデジタル変換器120は、音声取得用マイクロホン110から入力されたアナログの音声信号データをデジタルの音声信号データに変換する。そして、アナログデジタル変換器120は、スイッチ130およびデータバッファ160に、デジタルデータに変換した音声信号データを入力する。
スイッチ130は、後述する音声認識部140に入力するデータを切り替える。例えば、スイッチ130は、後述する音声認識部140に入力させるデータを、アナログデジタル変換器120から取得する音声信号データあるいは後述する音声波形補正器180から取得する補正音声信号データのいずれか一方へ切り替える。
音声認識部140は、既存技術を用いて、スイッチ130を介して入力された音声信号データを認識する。例えば、音声認識部140が音声信号データの認識に用いる既存技術としては、古井貞熙、酒井善則他「ねっとテクノロジー解体新書5 画像・音声信号処理技術」、株式会社「電波新聞社」、2004年1月25日第1版を参照されたい。
音声認識部140は、図2に示すように、音素モデル141、単語辞書142、音声区間検出器143、音声特徴抽出器144および言語復号器145を有する。
音素モデル141は、発話音声ごとに、発話音声の響き、いわゆる音韻を一般化したモデルである。音素モデル141は、後述する言語復号部145の音声照合に用いられる。単語辞書142は、発話音声の照合に用いられる単語データのデータベースである。単語辞書142は、後述する言語復号部145の音声照合に用いられる。
音声区間検出器143は、スイッチ130から取得した音声信号データから音声区間を検出する。例えば、音声区間検出器143は、音声信号のパワーや周波数などに基づいて、音声信号データの音声区間開始位置および音声区間終了位置を検出する。そして、音声区間検出器143は、検出した音声区間開始位置および音声区間終了位置を含む音声区間情報を後述するデータバッファ160に入力する。
音声特徴抽出器144は、既存技術を用いて、音声区間検出器143により検出された音声区間に含まれる音声特徴を抽出する。音声特徴とは、例えば、発話音声に含まれる母音や子音、音韻、発話音声のパワーや周波数などが該当する。
言語復号器145は、音素モデル141および単語辞書142を用いて、音声特徴抽出器144により抽出された音声特徴を言語に復号する。例えば、言語復号器145は、隠れマルコフモデル(HMM:Hidden Markov Model)に基づいて、音素モデル141と音声特徴とを照合する。言語復号器145は、単語辞書142の中から、音素モデル141と音声特徴との照合の結果得られる文字列に最も近い言語の候補を複数検索する。そして、言語復号器145は、検索した複数の言語の候補を音声特徴の言語への復号結果とする。なお、以下の説明では、音声特徴の言語への復号結果を認識結果ラベルと記述する。
また、音声特徴を言語に復号する処理の過程で、言語復号部145は、音声特徴の言語への復号結果の信頼度を表すスコアを取得する。音声認識部140は、認識結果ラベルとスコアとをそれぞれ対応付ける。
なお、音声認識部140は、例えば、認識結果ラベルをスコアの高い順に並べた音声認識結果を後述する認識結果判定器150に入力する。
また、音声認識部140は、スイッチ130から補正音声信号データが入力されると、後述する音声認識用パラメータ制御器190により変更がなされた音素モデルおよび単語辞書を用いて、補正音声信号データの再認識処理、つまり2回目の音声認識処理を行う。なお、再認識処理の詳細は、上述した音声区間検出器143、音声特徴抽出器144および言語復号器145の処理と同様である。そして、音声認識部140は、再認識処理の音声認識結果、つまり2回目の音声認識結果を認識結果判定器150に入力する。
認識結果判定器150は、所定の条件に従って、音声認識部140から入力された音声認識結果を出力するか否かを判定する。例えば、認識結果判定器150は、認識結果ラベルを出力する条件である閾値Aと、認識結果ラベルを棄却する条件である閾値Bとを予め有する。なお、閾値Aは、閾値Bよりも大きいものとする。そして、認識結果判定器150は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアと、閾値Aおよび閾値Bとの比較結果に基づいて、認識結果ラベルを出力するか否かを判定する。以下に、スコアと閾値との比較結果と、比較結果に応じた処理内容とを示す。
(1)スコア≧閾値A 認識結果出力
(2)閾値B≦スコア<閾値A 遅延イベント出力
(3)スコア<閾値B 認識結果棄却
例えば、上述の(1)に示すように、認識結果判定器150は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが閾値A以上であった場合には、スコアの高いものから順に列挙した認識結果ラベルを認識結果として出力する。また、上述の(2)に示すように、認識結果判定器150は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが、閾値B以上かつ閾値A未満であった場合には、ディスプレイやモニタなどのインターフェースなどに遅延イベントを出力する。なお、遅延イベントとは、認識結果の出力が遅延する旨を通知するイベントである。また、上述の(3)に示すように、認識結果判定器150は、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが閾値B未満であった場合には、認識結果ラベルを棄却する。そして、認識結果判定器150は、再度音声認識結果が入力されるのを待機する。
また、認識結果判定器150は、言語復号器145から複数の認識結果ラベルが入力された時点で、音声検出フラグを後述するデータバッファ160に入力する。
また、認識結果判定器150は、音声認識部140から再認識処理結果が入力されると、音声認識部140による1回目の音声認識結果と共に評価する。なお、再認識処理結果とは、1回目の音声認識処理が行われた音声信号データについての2回目の認識処理結果を意味する。なお、認識結果判定器150は、遅延イベントを出力する場合に、2回目の音声認識結果が入力されるまで1回目の音声認識結果を一時的に記憶しておいてもよいし、2回目の音声認識結果が入力された時に、一回目の音声認識結果を改めて取得してもよい。再認識処理結果の入力に伴う認識結果判定器150による認識結果の判定処理については後述する。
データバッファ160は、アナログデジタル変換器120から入力された音声信号データを蓄積する。図3は、実施例2に係るデータバッファを説明する図である。図3の左図に示す3Dは、アナログデジタル変換器120から入力される音声信号データを表す。図3の左図に示す3Dは、データバッファ160によるデータの最大蓄積量を表す。
図3の左図に示すように、データバッファ160は、アナログデジタル変換器120から入力された音声信号データを逐次蓄積する。図3の左図に示すデータバッファ160内の下のブロックほど、データバッファ160に蓄積された順番が早い音声信号データを示す。新たな音声信号データが入力された時に、データの蓄積量が最大蓄積量に到達している場合には、データバッファ160は、最も蓄積された順番が早い音声信号データを排出する。そして、データバッファ160は、入力された新たな音声信号データを蓄積する。
また、データバッファ160は、後述する認識結果判定器150から音声検出フラグが入力されると、音声信号データの蓄積を停止する。そして、データバッファ160は、後述する認識結果判定器150から遅延イベントが出力されると、既に蓄積された音声信号データの中から再認識処理の対象となる音声信号データを切り出して、後述する音声波形分析器170に入力する。なお、遅延イベントとは、認識結果の出力が遅延する旨を通知するイベントであり、音声信号データの再認識処理の開始トリガとなる。
一方、データバッファ160は、認識結果判定器150から音声認識結果が出力された時点で、蓄積している音声信号データを全て破棄して、音声信号データの蓄積を再開する。
図3の右図に示す3Sは音声区間開始位置を表し、図3の右図に示す3Sは音声区間終了位置を表す。また、図3の右図に示す3SSECは音声区間範囲を表す。また、図3の右図に示す3Xは、音声の再認識処理に必要となるリード区間を表し、図3の右図に示す3Yは、音声の再認識処理に必要となるポスト区間を表す。なお、リード区間とは、音声区間の音声信号データよりも先に蓄積されたデータに設定される時間的な余裕である。また、ポスト区間とは、音声区間の音声信号データよりも後に蓄積されたデータに設定される時間的な余裕である。リード区間およびポスト区間は、音声の再認識処理が行われる音声区間の音声信号データのスムーズな切り出しを、後述する音声波形分析器170に行わせるために必要な区間である。なお、リード区間およびポスト区間として設定する時間の長さは、例えば、500ミリ秒とする。
図3の右図に示すように、データバッファ160は、音声区間検出器143から入力された音声区間情報を元に、蓄積されている音声信号データの中から、音声の再認識処理の対象となる音声区間範囲を検出する。また、データバッファ160は、蓄積されている音声信号データに対して、リード区間およびポスト区間を設定する。そして、データバッファ160は、音声区間範囲の音声信号データ、リード区間の音声信号データ、ポスト区間の音声信号データ、および音声区間範囲を示す音声区間情報を後述する音声波形分析器170に入力する。
図4は、実施例2に係る音声波形分析器の構成を示す図である。同図に示すように、音声波形分析器170は、ノイズレベル検出器171と、最適信号振幅演算器172と、スペクトログラム計算機173と、発話特徴検出器174とを有する。音声波形分析器170は音声品質と発話特徴の分析を行う。
図5は、実施例2に係る音声波形図である。図5に示す5A区間および5A区間は雑音区間を表し、図5に示す5B区間は音声区間を表す。なお、上述したリード区間は5A区間に対応し、上述したポスト区間は上述した5A区間に対応する。また、図5に示す音声波形の垂直方向の値は、音声信号データの振幅(電圧)を16ビットでデジタルサンプリングした場合のデジタルサンプリング値であり、最大値は32767、最小値は−32767である。また、図5に示す音声波形の水平方向の値は時間のデジタルサンプリング値である。
ノイズレベル検出器171は、図5に示すように、データバッファ160から入力された音声区間情報に基づいて、データバッファ160から入力された音声信号データを雑音区間5A,5Aと、音声区間5Bとに分割する。そして、ノイズレベル検出器171は、雑音区間5A,5Aの電力値と、予め定められた雑音閾値とを比較することにより、雑音区間のノイズレベルを判定する。例えば、ノイズレベル検出器171は、雑音区間の電力値の二乗平均値を算出する。そして、ノイズレベル検出器171は、算出した二乗平均値と雑音閾値と比較することにより雑音区間のノイズレベルを判定する。この判定結果として、ノイズレベル検出器171は雑音区間のノイズレベルを取得する。なお、ノイズレベル検出器171は、雑音閾値を任意に設定することができ、例えば、1〜4つの閾値を用いることができる。
最適信号振幅演算器172は、データバッファ160から入力された音声信号データの音声振幅レベルを適正な振幅レベルに調整するためのゲイン倍率を算出する。例えば、最適信号振幅演算器172は、データバッファ160から入力された音声区間情報に基づいて、データバッファ160から入力された音声信号データを、例えば、図5に示すように、雑音区間5A,5Aと、音声区間5Bとに分割する。雑音区間、音声区間の分割後、最適信号振幅演算器172は、音声区間について、音声信号データの信号振幅の絶対値の中から最大値を検出する。信号振幅の最大値を検出後、最適信号振幅演算器172は、検出した信号振幅を用いて、音声信号データの音声レベルを適正な音声レベルに調整するためのゲイン倍率を取得する。ここで、適正な音声レベルとは、音声認識部140における音声処理において推奨される音声信号データの振幅レベルをいう。
スペクトログラム計算器173は、データバッファ160から入力された音声信号データの周波数の時間変化を表すスペクトログラムを算出する。例えば、スペクトログラム計算器173は、データバッファ160から入力された音声信号データを、例えば、128サンプルごとにフレーム分割する。なお、ここでいう音声信号データとは、例えば、上述した図5の音声波形で示される音声信号データである。そして、スペクトログラム計算器173は、各フレームをフーリエ変換し、周波数の時間変化を表すスペクトログラムを算出する。
図6〜図8は、実施例2に係るスペクトログラムの一例を示す図である。図6〜図8に示すグラフの縦軸は周波数(ヘルツ)であり、横軸は時間(秒)である。また、図6〜図8に示すスペクトログラムの右側に描かれた帯状の軸は振幅(デシベル)を表す。図6は、例えば、単音節発話や長音発話ではなく、「トマト」と通常発話した場合のスペクトログラムの一例を示す。図7は、「ト・マ・ト」と単音節発話した場合のスペクトログラムの一例を示す。図8は、「トーマート」と長音発話した場合のスペクトログラムの一例を示す。なお、図6〜図8に示すスペクトログラムの模様は、図6〜図8の右側に示す振幅ごとの模様にあわせて区分けされている。
発話特徴検出器174は、スペクトログラム計算器173から入力されたスペクトログラムを元に、データバッファ160から入力された音声信号データに含まれる音声区間に対して発話特徴情報を設定する。例えば、発話特徴検出器174は、音声の特徴を表す周波数における振幅について、以下に示す式(1)〜(3)の要領で、所定の閾値を用いた判定を行う。なお、音声の特徴を表す周波数としては、例えば、フォルマント周波数が該当する。
f0(t)>Thf0⇒Sf0(t)・・・(1)
f1(t)>Thf1⇒Sf1(t)・・・(2)
・・・
f7(t)>Thf7⇒Sf7(t)・・・(3)
fx(t)は、サンプル時刻t、周波数fxにおける振幅である。Thfxは、各周波数fxにおける振幅の閾値である。Sfx(t)は、閾値による判定の結果とする。なお、xは正の整数であり、閾値による判定の結果は、“1”または“0”の2値とする。
発話特徴検出器174は、閾値による判定の結果、音声区間が細切れに発生する場合、例えば、一定間隔置きにSfxが生起する場合には、単音節発話の可能性が高いと判定する。そして、発話特徴検出器174は、発話特徴情報として、単音節発話を有する音声信号データである旨の情報を設定する。
また、発話特徴検出器174は、閾値による判定の結果、同じ周波数が既定より長く連続する場合、例えば、複数のSfxが同時に一定時間連続する場合には、長音発話の可能性が高いと判定する。そして、発話特徴検出器174は、発話特徴情報として、長音発話を有する音声信号データである旨の情報を設定する。
そして、音声波形分析器170は、ノイズレベル検出器171により取得されたノイズレベル、および最適信号振幅演算器172により取得されたゲイン倍率を後述する音声波形補正器180に入力する。また、音声波形分析器170は、発話特徴検出器174による発話特徴情報を後述する音声認識用パラメータ制御器190に入力する。
図9は、実施例2に係る音声波形補正器の構成を示す図である。同図に示すように、音声波形補正器180は、スペクトルサブトラクション部181およびゲイン調整器182を有する。音声波形補正器180は、音声波形分析器170による音声品質の分析結果に従ってノイズ抑制およびゲイン調整を行う。なお、音声品質の分析結果とは、音声波形分析器170による音声信号データの分析により得られるノイズレベルおよびゲイン倍率を意味する。
スペクトルサブトラクション部181は、予め推定した雑音成分をスペクトルから減算するスペクトルサブトラクション手法を用いて、音声波形分析器170から入力されたノイズレベルに従い、音声信号データの減算量を調整する。
ゲイン調整器182は、スペクトルサブトラクション部181にて減算量が調整された音声信号データに、音声波形分析器170から入力されたゲイン倍率に従ってゲインを掛ける。
音声波形補正器180は、スペクトルサブトラクション部181およびゲイン調整器182の処理を経た音声信号データを補正音声信号データとして、スイッチ130に入力する。
音声認識用パラメータ制御器190は、音声波形分析部170から入力された発話特徴情報に従って、音声認識部140で用いる音声認識用パラメータを調整する。なお、音声認識用パラメータとは、例えば、音声区間検出パラメータ、音素モデル、単語辞書を意味する。なお、音素モデルは、一般的に音響モデルと呼称されるモデルのうち、音素単位のモデルをいう。音声認識用パラメータ制御器190は、図2に示すように、単音節用単語辞書191、長音用単語辞書192および音素モデル193を有する。
例えば、音声認識用パラメータ制御器190は、音声波形分析部170から入力された発話特徴情報が単音節発話である場合には、音声認識部140における音声区間検出において、音声区間の終了判定を行う長さを通常より長くするパラメータに変更する。なお、音声区間の終了判定を長くする変更長は予め定めておくものとする。
さらに、音声認識用パラメータ制御器190は、単音節発話を認識するためのモデルを音素モデル193から取得し、音声認識部140で用いられる音素モデルを変更する。あるいは、音声認識用パラメータ制御器190は、音声認識部140で用いる単語辞書を、単音節発話を表現する発音が登録された単音節用単語辞書191に変更する。なお、単音節発話を表現する発音とは、例えば、“ト・マ・ト”のように一語置きに発話のない箇所を作った発音を意味する。
また、音声認識用パラメータ制御器190は、音声波形分析部170から入力された発話特徴情報が長音発話である場合には、音声認識部140で用いる単語辞書を、長音発話を表現する発音が登録された長音用単語辞書192に変更する。なお、長音発話を表現する発音とは、例えば、“トーマート”のように1語置きに長音を作った発音を意味する。
ここで、再認識処理結果の入力に伴う認識結果判定器150による認識結果の判定処理について説明する。図10は、実施例2に係る音声認識結果についての処理を説明する図である。
図10の左上には、音声認識部140による1回目の音声認識結果の一例を示す。例えば、1回目の音声認識結果は、スコアの高い上位3つのラベルが上から順に並べられており、「順位:1、スコア:70、ラベル:カート」、「順位:2、スコア:60、ラベル:トマト」、「順位:3、スコア:50、ラベル:アート」となっている。なお、図10には、音声認識結果として3つのラベルが存在する場合を例示するが、これに限定されるものではなく、音声認識部140の認識結果によっては3つ以上のラベルが存在してもよい。
また、図10の左下には、音声認識部140による再認識処理結果、つまり2回目の音声認識結果の一例を示す。例えば、2回目の音声認識結果は、スコアの高い上位3つのラベルが上から順に並べられており、「順位:1、スコア:90、ラベル:トマト」、「順位:2、スコア:55、ラベル:トイレ」、「順位:3、スコア:40、ラベル:トレイ」となっている。
また、図10の右には、認識結果判定器150による音声認識結果のソート結果を示す。認識結果判定器150による音声認識結果のソート結果は、スコアの高い上位3つのラベルが上から順に並べられている。例えば、「順位:1、スコア:100、ラベル:トマト、「順位:2、スコア:70、ラベル:カート」、「順位:3、スコア:55、ラベル:トイレ」となっている。
認識結果判定器150は、1回目の音声認識結果と2回目の音声認識結果をスコアによりソートする。このとき、認識結果判定器150は、同一のラベルが存在する場合は、同一のラベルのスコアを合算する。あるいは、認識結果判定器150は、同一のラベルに対応付けられているスコアのうち、高い方のスコアに重み付けする。例えば、認識結果判定器150は、スコアを1.2倍や1.3倍などして重み付けする。
図10に示す例では、1回目の音声認識結果と2回目の音声認識結果とに同一のラベル「トマト」が存在する。そこで、認識結果判定器150は、1回目の音声認識結果の「トマト」に対応付けられたスコア「60」と、2回目の音声認識結果の「トマト」に対応付けられたスコア「90」とを合算する。合算の結果、「トマト」のスコアは「150」となる。ここで、例えば、スコアが「100」を上回る値を切り捨ててスコアの上限を「100」とする。よって、認識結果判定器150は、「トマト」のスコアを「100」とする。そして、認識結果判定器150は、1回目の音声認識結果と2回目の音声認識結果をスコアによりソートする。ソートの結果は、図10の右に示すように、スコアの高いものから「トマト」、「カート」、「トイレ」の順になる。
そして、認識結果判定器150は、スコア順にソートしたラベルを音声認識結果として出力する。例えば、図10に示すように、認識結果判定器150は、スコアが高いものから順にラベルをソートし、スコアの高いほうから3つのラベルを音声認識結果として出力する場合を示している。
[音声認識装置の処理(実施例2)]
図11および図12は、実施例2に係る音声認識装置による処理の流れを示す図である。
まず、図11を用いて、音声認識装置100による全体処理の流れを説明する。図11に示すように、音声取得用マイクロホン110は、ユーザにより発せられた発話音声を取得する(ステップS101)。アナログデジタル変換器120は、音声取得用マイクロホン110から入力されたアナログの音声信号データをデジタルの音声信号データに変換する(ステップS102)。
音声認識部140は、既存技術を用いて、スイッチ130を介して入力された音声信号データの音声認識処理を実行する(ステップS103)。認識結果判定器150は、音声認識部140から音声認識結果が入力されると、各認識結果ラベルに対応付けられたスコアの中で最大のスコアが閾値B以上であるか否かを判定する(ステップS104)。判定の結果、スコアが閾値B以上ではない場合には(ステップS104,False)、認識結果判定器150は、音声認識結果が入力されるのを待機し、音声認識結果が入力されると、上述したステップS102の処理に移行する。
一方、判定の結果、スコアが閾値B以上である場合には(ステップS104,True)、認識結果判定器150は、スコアが閾値A以上であるか否かを判定する(ステップS105)。判定の結果、スコアが閾値A以上である場合には(ステップS105,True)、認識結果判定器150は、認識結果を出力して(ステップS106)、処理を終了する。
これとは反対に、判定の結果、スコアが閾値A以上ではない場合には(ステップS105,False)、認識結果判定器150は、遅延イベントを出力する(ステップS107)。そして、音声認識装置100は、以下に説明する補正音声信号データの再認識処理を実行する(ステップS108)。
認識結果判定器150は、補正音声信号データについての再認識処理結果が入力されると、1回目の認識処理結果および再認識処理結果をスコア順にソートした後、認識結果を出力して処理を終了する(ステップS109)。例えば、認識結果判定器150は、図10に示すように、スコアの高いほうから3つのラベルを音声認識結果として出力する。
続いて、図12を用いて、音声認識装置100による補正音声信号データの再認識処理の流れを説明する。図12に示すように、データバッファ160は、認識結果判定器150による遅延イベントの出力を待機する(ステップS201)。そして、データバッファ160は、認識結果判定器150から遅延イベントが出力されると(ステップS201,YES)、既に蓄積された音声信号データの中から再認識処理の対象となる音声信号データを切り出す(ステップS202)。なお、認識結果判定器150から遅延イベントが出力されていない場合には(ステップS201,NO)、データバッファ160は、認識結果判定器150から遅延イベントの出力されるまで待機を継続する。
そして、ノイズレベル検出器171は、データバッファ160から入力された音声信号データに含まれる雑音区間のノイズレベルを取得する(ステップS203)。最適信号振幅演算器172は、データバッファ160から入力された音声信号データの音声レベルを適正なレベルに調整するためのゲイン倍率を算出する(ステップS204)。スペクトログラム計算器173は、データバッファ160から入力された音声信号データの周波数の時間変化を表すスペクトログラムを算出する(ステップS205)。発話特徴検出器174は、スペクトログラム計算器173から入力されたスペクトログラムを元に、データバッファ160から入力された音声信号データに含まれる音声区間に対して発話特徴情報を設定する(ステップS206)。
音声波形補正器180は、音声波形分析器170による音声品質の分析結果に従ってノイズ抑制およびゲイン調整を行う(ステップS207)。音声認識用パラメータ制御器190は、音声波形分析部170から入力された発話特徴情報に従って、音声認識部140で用いる音声認識用パラメータを調整する(ステップS208)。音声認識部140は、音声認識用パラメータ制御器190により調整された音声認識用パラメータを用いて、補正音声信号データの再認識処理を実行する(ステップS209)。音声認識部140による補正音声信号データの再認識処理が完了すると、音声認識装置100の処理は、上述した図11のステップS109の処理に移行する。
[実施例2による効果]
上述してきたように、実施例2によれば、音声認識装置100は、1回目の音声信号データの信頼度を示すスコアが所定の閾値を超えていない場合には、音声信号データの認識結果を出力せず、音声信号データの再認識処理を行う。このように、音声認識装置100は、複数の処理部を並列に動作させるのではなく、1つの音声認識部140で音声認識処理を行うので、音声認識処理に要するコストを抑えられる。また、1回目の音声信号データの認識処理で所定の信頼度が得られなかった場合にのみ、補正を施した音声信号データの再認識処理を実行するので、音声認識処理に要する処理時間を抑えられる。
また、音声認識装置100は、データバッファ160に音声信号データを蓄えておくので、ノイズレベルおよびゲイン倍率に応じた音声信号データの補正が可能となる。そして、音声認識装置100は、補正した音声信号データについて再認識処理を実行する。このようなことから、音声認識装置100は、再認識処理における音声信号データの認識率の向上を図ることができる。なお、実験データでは、発話レベルが低く40%程度であった音声認識率を、実施例2の音声認識装置100により85%程度に改善できた。
また、音声認識装置100は、音声信号データを分析することにより、音声信号データの発話形態が、単音節発話あるいは長音発話のどちらの可能性が高いかを特定する。そして、音声認識装置100は、特定した発話形態に応じて音声信号データの再認識処理に用いるパラメータを制御する。このようなことから、音声認識装置100は、再認識処理における音声信号データの認識率をより向上させることができる。
また、音声認識装置100は、データバッファ160に蓄えられた音声信号データから、再認識処理の対象となる音声区間を切り出すので、音声信号データの再認識処理に要する時間をより短縮することができる。
図13は、実施例3に係る音声認識装置の構成を示す図である。図13に示すように、音声認識装置200は、実施例1に係る音声認識装置100と同様に、音声取得用マイクロホン210、アナログデジタル変換器220、スイッチ230、音声認識部240、認識結果判定器250およびデータバッファ260を有する。さらに、音声認識装置200は、図13に示すように、ゲイン補正器270、ゲイン検出器280およびゲイン補正器290を有する。
また、図13において、アナログデジタル変換器220とデータバッファ260およびゲイン補正器270とを接続する矢印は音声信号データの入力経路を表す。また、図13において、データバッファ260とゲイン検出器280およびゲイン補正器290とを接続する矢印は音声信号データの入力経路を表す。
また、図13において、ゲイン補正器270とスイッチ230と接続する矢印は第1補正音声信号データの入力経路を表す。また、図13において、音声区間検出器243とデータバッファ260とを接続する矢印は音声区間情報の入力経路を表す。また、図13において、ゲイン検出器280とゲイン補正器270とを接続する矢印は第1のゲイン値の入力経路を表す。また、図13において、ゲイン検出器280とゲイン補正器290とを接続する矢印は第2のゲイン値の入力経路を表す。また、図13において、ゲイン補正器290とスイッチ230とを接続する矢印は第2補正音声信号データの入力経路を表す。
また、図13において、認識結果判定器250とデータバッファ260とを接続する矢印は音声検出フラグの入力経路を表す。また、図13において、ゲイン検出器280とスイッチ230および認識結果判定器250とを接続する矢印は再音声認識フラグの入力経路を表す。
ゲイン補正器270は、アナログデジタル変換器220から入力された音声信号データにデジタルゲインαを乗算することにより、第1補正音声信号データを生成する。ゲイン補正器270は、第1補正音声信号データをスイッチ230に入力する。
音声認識部240は、上述した実施例2と同様に、既存技術を用いて、スイッチ230を介して入力された第1補正音声信号データを認識する。認識結果判定器250は、上述した実施例2と同様に、音声認識部240による音声認識結果の出力判定を行う。
データバッファ260は、上述した実施例2と同様に、音声検出フラグが入力されると、音声信号データの蓄積を停止する。データバッファ260は、音声区間情報を元に、既に蓄積された音声信号データの中から音声の再認識処理の対象となるデータを切り出してゲイン検出器280に入力する。
図14は、実施例3に係るゲイン検出器の構成を示す図である。図14に示すように、ゲイン検出器280は、最大値検出器281、ゲイン補正器282、閾値判定器283、最適ゲイン計算器284、ゲイン更新器285、ゲインメモリ286および補正用ゲイン計算器287を有する。
最大値検出器281は、音声信号データの音声区間における振幅値の絶対値の中から最大値を検出する。例えば、1サンプルの音声データをxとすると、xmax=max{|x|、・・・、|xn−1|}となる。但し、nは保持サンプル数を示す。
ゲインメモリ286は、ゲイン補正器270と同じゲイン値αを記憶する。
次に、ゲイン補正器282は、最大値検出器281により検出された最大値xmaxに、ゲインメモリ286に記憶されているゲイン値αを乗算することにより、最大値xmaxをゲイン補正した値αmaxを算出する。
閾値判定器283は、ゲイン補正器282によりゲイン補正された最大値Xmax(=αmax)について閾値による判定を行う。判定の結果、規定範囲外となる音声信号データである場合は、閾値判定器283は、再音声認識フラグを有効とする。一方、判定の結果、規定範囲内となる音声信号データである場合は、再音声認識フラグを無効とする。そして、閾値判定器283は、再音声認識フラグを後述する補正用ゲイン計算器287に入力する。
例えば、閾値判定器283は、音声信号データが16ビットでアナログデジタル変換されている場合には、以下に示すように、Xmaxがどの数値範囲に属するかに基づいて、再音声認識フラグの有効、無効を決定する。
8192≦Xmax<32767の場合 ・・・ 再音声認識フラグ無効
8192>Xmax,Xmax≧32767の場合 ・・・ 再音声認識フラグ有効
なお、認識結果判定器250は、ゲイン検出器280から入力される再音声認識フラグが有効である場合には、音声信号データの再認識処理結果の判定を行う。一方、ゲイン検出器280から入力される再音声認識フラグが無効である場合には、認識結果判定器250は、音声信号データの再認識処理結果の判定を行なわない。
最適ゲイン計算器284は、最大値検出器281により検出された最大値xmaxを用いて、最適ゲインに対する最適ゲイン値βを計算する。最適ゲイン計算器284は、例えば、最適ゲインを24576とした場合、以下の数式を計算することにより、最適ゲインに対するゲイン値βを求める。
β=24576/xmax
ゲイン更新器285は、最適ゲイン計算器284により算出された最適ゲインに対するゲイン値βと、ゲインメモリ286に記憶されているゲイン値αとを用いて、次の音声認識に用いるゲイン値αk+1を次式により計算する。
αk+1=α+(β―α)×μ
ここで、μはステップサイズを示し、例えば0.1とする。なお、ステップサイズとは、ループゲインを意味する。
ゲイン更新器285は、ゲイン値αk+1をゲインメモリ286に格納する。さらに、ゲイン更新器285は、ゲイン値αk+1を第1のゲイン値としてゲイン補正器270に入力する。
補正用ゲイン計算器287は、再音声認識用のゲインを決定する。例えば、閾値判定器283により再音声認識フラグが有効とされた場合には、補正用ゲイン計算器287は、以下に示すように、Xmaxが属する数値範囲に応じて第2のゲイン値γを算出する。
2048≦Xmax<8192の場合 γ=8192/xmax
max>32767の場合 γ=32767/xmax
そして、補正用ゲイン計算器287は、第2のゲイン値γをゲイン補正器290に入力する。
ゲイン補正器290は、データバッファ260から入力された音声信号データに第2のゲイン値γを乗算することにより、第2補正音声信号データを算出する。そして、ゲイン補正器290は、第2補正音声信号データをスイッチ230に入力する。
スイッチ230は、ゲイン補正器290から入力された再音声認識フラグが有効である場合には、第2補正音声信号データを音声認識部240に入力する。
音声認識部240は、上述した実施例2における音声認識部140と同じ要領で、第2補正音声信号データについて音声認識処理を再度実行し、認識結果を認識結果判定器250に入力する。
認識結果判定器250は、上述した実施例2における認識結果判定器150と同じ要領で、音声認識部240から入力された音声認識結果について認識結果判定処理を実行し、音声認識結果を出力する。
[実施例3による効果]
上述してきたように、実施例3によれば、音声認識装置200は、データバッファ260に蓄えられている音声信号データを用いて、次の音声認識に用いるゲイン値を更新する。このようなことから、実施例3によれば、次に音声認識の対象となる音声信号データの認識率をより向上させることができる。
また、実施例3によれば、音声認識装置200は、データバッファ260に蓄えられている音声信号データを用いて、再音声認識用のゲインを決定する。そして、再音声認識用のゲインを用いて再音声認識対象となる音声信号データを補正するので、音声信号データの再認識処理の精度をより向上させることができる。
上述した実施例3では、音声認識装置200は、再音声認識用のゲインを用いて、データバッファ260に蓄えられている音声信号データのゲインを目標レベルに調整するが、音声信号データの非音声区間の雑音レベルの変動が大きくなる場合がある。音声認識装置200は、音声信号データの非音声区間の雑音レベルに基づいて、音声信号データの音声区間を検出するための検出レベルの推定、音響モデルの選択、スペクトルサブトラクションなどの処理を行っている。したがって、非音声区間の雑音レベルの変動が大きくなると、これらの処理に影響を与え、音声認識率の低下を招く恐れがある。そこで、以下の実施例4では、音声信号データのゲインを目標レベルに調整する場合に、非音声区間の雑音レベルの変動を抑制し、音声認識率を低下させないようにするための一実施形態を説明する。
[音声認識装置の構成(実施例4)]
図15は、実施例4に係る音声認識装置の構成を示す図である。図15に示すように、実施例4に係る音声認識装置300は、実施例3に係る音声認識装置200と基本的に同様の構成を有する。すなわち、音声取得用マイクロホン310は音声取得用マイクロホン210と同様に動作する。また、アナログデジタル変換器320はアナログデジタル変換器220と同様に動作する。また、スイッチ330はスイッチ230と同様に動作する。また、音声認識部340は音声認識部240と同様に動作する。また、認識結果判定器350は認識結果判定器250と同様に動作する。これに対して、音声認識装置300のゲイン検出器380およびゲイン補正器390は、音声認識装置200のゲイン検出器280およびゲイン補正器290とは異なる動作を実行する。以下、図16を参照しつつ、まず、ゲイン検出器380について説明する。
図16は、実施例4に係るゲイン検出器の構成を示す図である。図16に示すように、ゲイン検出器380は、最大値検出器381と、ゲイン補正器382、閾値判定器383、最適ゲイン計算器384、ゲイン更新器385およびゲインメモリ386を有する。
最大値検出器381は、実施例3に係る音声認識装置200の最大値検出器281と同様の動作を行う。すなわち、最大値検出器381は、データバッファ360に蓄積された音声信号データの音声区間における振幅値(振幅レベル)の絶対値の中から最大値を検出する。
ゲイン補正器382は、実施例3に係る音声認識装置200のゲイン補正器282と同様の動作を行う。すなわち、ゲイン補正器382は、最大値検出器381により検出された最大値に、ゲインメモリ386に記憶されているゲイン値を乗算することにより、最大値をゲイン補正した値を算出する。例えば、ゲイン補正器382は、最大値検出器381により検出された最大値「smax」に、ゲインメモリ386に記憶されているゲイン値「α」を乗算することにより、最大値smaxをゲイン補正した値「gmax=αsmax」を算出する。なお、最大値「smax」は、上述した実施例3における「xmax」に対応し、ゲイン値「α」は上述した実施例3における「α」に対応し、最大値smaxをゲイン補正した値「gmax=αsmax」は、上述した実施例3における「αmax」に対応する。
閾値判定器383は、ゲイン補正器382によりゲイン補正された最大値「gmax=αsmax」について閾値による判定を行う。例えば、閾値判定器383は、以下の(A)〜(E)に示すように閾値による判定を行う。
(A)gmax<crej
→再音声認識フラグ無効、データバッファを棄却
(B)crej≦gmax<cmin
→再音声認識フラグ有効、補正式(1)によりデータバッファを補正
(C)cmin≦gmax<cmax
→再音声認識フラグ無効、データバッファの補正なし
(D)cmax≦gmax
→再音声認識フラグ有効、補正式(2)によりデータバッファを補正
(E)csat≦smax・・・
→再音声認識フラグ無効、データバッファを棄却
ここで、(A)および(B)に示すcrejは、再音声認識フラグを無効とし、データバッファ(データバッファに保存された音声信号データ)を棄却するという判定結果を導出するための閾値であり、振幅レベルの最小値に相当する。また、(E)に示すcsatも、再音声認識フラグを無効とし、データバッファを棄却するという判定結果を導出するための閾値であり、振幅レベルの最大値に相当する。また、(B)および(C)に示すcminは、再音声認識フラグを有効とし、補正式(1)によりデータバッファを補正するという判定結果を導出するための閾値であり、補正後の振幅レベルの最小値に相当する。また、(C)および(D)に示すcmaxは、再音声認識フラグを有効とし、補正式(2)によりデータバッファを補正するという判定結果を導出するための閾値であり、補正後の振幅レベルの最大値に相当する。
そして、閾値判定器383は、閾値による判定の結果、上述した(B)あるいは(D)に示す「再音声認識フラグ有効、データバッファを補正」という判定結果を導出した場合には、gmaxおよびsmaxを図15に示すゲイン補正器390に送る。
なお、図16に示す最適ゲイン計算器384およびゲイン更新器385は、実施例3に係る音声認識装置200の最適ゲイン計算器284およびゲイン更新器285と同様に動作するので、説明は省略する。
続いて、図15に示すゲイン補正器390について説明する。ゲイン補正器390は、ゲイン検出器380からgmaxおよびsmaxを取得すると、例えば、gmaxの振幅レベルに応じて、データバッファ360に蓄積されている音声信号データの振幅レベルをゲイン補正することにより第2補正音声信号データを生成する。以下、図17を用いて、ゲイン補正器390によるゲイン補正について説明する。なお、図17に示すcmidは、補正後の振幅レベルの中間値を表す。
図17は、実施例4に係るゲイン補正について説明するための図である。図17には、ゲイン補正器390によるゲイン補正の概念を示す。なお、例えば、音声信号データが16ビットでアナログデジタル変換されている場合には、図17に示すαcsatは32768αとなり、cmaxは32768となり、cmidは16384となり、cminは8192となり、crejは4096となる。
図17に示すように、ゲイン補正器390は、ゲイン検出器380から取得したgmaxが、cmax≦gmaxの範囲にある場合には、ゲインを下げるゲイン補正、いわゆる負ゲイン補正を行う。図17の17−1に示す1Aは従来の負ゲイン補正の方法に対応し、図17の17−1に示す1Bは実施例4に係る負ゲイン補正の方法に対応する。1Aに示すように、従来は、補正前の音声レベルを一様に小さく調整するように負ゲイン補正を行う。これに対して、実施例4に係るゲイン補正器390は、1Bに示すように、補正前の音声レベルのうち、cmax以上の値をcmaxに調整するように負ゲイン補正を行う。なお、ゲイン補正器390は、以下の式(1)を用いて負ゲイン補正を行う。
Figure 2011154341
また、ゲイン補正器390は、ゲイン検出器380から取得したgmaxが、crej≦gmax<cminの範囲にある場合には、ゲインを上げるゲイン補正、いわゆる正ゲイン補正を行う。図17の17−2に示す2Aは従来の正ゲイン補正の方法に対応し、図17の17−2に示す2Bは実施例4に係る正ゲイン補正の方法に対応する。2Aに示すように、従来は、補正前の音声レベルを一様に大きく調整するように正ゲイン補正を行う。これに対して、実施例4に係るゲイン補正器390は、2Bに示すように、補正前の音声レベルのうち、gmaxの値をcminに調整するように正ゲイン補正を行う。なお、ゲイン補正器390は、以下の式(2)を用いて負ゲイン補正を行う。
Figure 2011154341
上述した式(1)に示すs(x)はデータバッファ360からの出力を表し、式(1)および式(2)に示すg(x)はs(x)にゲイン値αを乗算した値を表す。また、式(1)および式(2)に示すその他の定数または変数は、上述した(A)〜(E)で記した定数または変数と同一である。
続いて、図18および図19を参照しつつ、ゲイン補正器390によるゲイン補正結果について説明する。図18および図19は、実施例4に係るゲイン補正結果と従来の補正との比較例を示す図である。
まず、図18を用いて、ゲイン補正器390により行われる、いわゆる負ゲイン補正の結果と従来の補正とを比較結果について説明する。図18に示す18−1は、データバッファ360に蓄積されている音声信号データにゲインαを掛けてゲイン補正した結果を表し、音声区間の振幅が飽和している。
図18に示す18−2は、従来のゲイン補正の結果を表している。従来のゲイン補正結果では、振幅レベルが飽和しないように音声区間の補正が適正に行われている。また、従来のゲイン補正結果では、全データに対して一律のゲイン値を掛けて補正を行っているので、非音声区間の振幅レベルは小さくなってしまっている。
図18に示す18−3は、実施例4に係るゲイン補正の結果を表している。実施例4に係るゲイン補正結果では、振幅レベルが飽和しないように音声区間の補正が適正に行われている。また、実施例4に係るゲイン補正結果では、非音声区間の振幅レベルの変動が抑えられている。
続いて、図19を用いて、ゲイン補正器390により行われる、いわゆる正ゲイン補正の結果と従来の補正とを比較結果について説明する。図19に示す19−1は、データバッファ360に蓄積されている音声信号データにゲインαを掛けてゲイン補正した結果を表し、音声区間の振幅レベルが音声認識処理を行うための推奨レベルに達していない。
図19に示す19−2は、従来のゲイン補正の結果を表している。従来のゲイン補正結果では、音声区間の振幅レベルの補正が適正に行われている。また、従来のゲイン補正結果では、全データに対して一律のゲイン値を掛けて補正を行っているので、非音声区間の振幅レベルは大きくなってしまっている。
図19に示す19−3は、実施例4に係るゲイン補正の結果を表している。実施例4に係るゲイン補正結果では、音声区間の振幅レベルの補正が適正に行われているだけでなく、非音声区間の振幅レベルの変動が抑えられている。
[実施例4による効果]
上述してきたように、実施例4では、音声信号データのゲインを目標レベルに調整する場合に、非音声区間の雑音レベルの変動を抑制するので、音声認識率を低下させないようにすることができる。
上述した実施例4において、再音声認識フラグを無効とし、データバッファを棄却するという判定結果を導出するために閾値判定器383にて用いられる閾値「crej」を非音声区間の雑音の振幅レベルに応じて動的に設定してもよい。
[音声認識装置の構成(実施例5)]
図20は、実施例5に係るゲイン検出器の構成を示す図である。図20に示すように、実施例5に係るゲイン検出器380は、雑音レベル推定器388を有する点が、実施例4に係るゲイン検出器380とは異なる。
雑音レベル推定器388は、非音声区間の雑音の振幅レベルに応じて「crej」を動的に設定する。雑音レベル推定器388は、音声信号データの非音声区間について、以下に示す式(3)〜(5)を用いてステップ1〜ステップ3までの計算を順に行い、以下の式(6)に示すような「crej」を設定する。
Figure 2011154341
Figure 2011154341
Figure 2011154341
Figure 2011154341
[実施例5による効果]
上述してきたように、実施例5では、非音声区間の雑音の振幅レベルに応じて「crej」を動的に設定するので、入力される雑音の程度に応じて、音声信号を再認識するか否か、データバッファを棄却するか否かを適切に導出できる。
上述した実施例4においてゲイン補正器390にて、振幅レベルが「crej」以下の音声信号データの負ゲイン補正を行わないようにしてもよい。例えば、ゲイン補正器390は、以下に示す式(7)を用いて音声信号データのゲイン補正を行う。
Figure 2011154341
[実施例6による効果]
上述してきたように、実施例6では、振幅レベルが「crej」以下のデータについて負ゲイン補正を行わない。例えば、上述した図17の17−2では、振幅レベルが「crej」以下のデータについて負ゲイン補正を行わない。よって、実施例6によれば、非音声区間の振幅レベルの変動をより抑えることができる。
以下、本願の開示する音声認識装置、音声認識方法および音声認識プログラムの他の実施形態を説明する。
(1)装置構成等
例えば、図2に示した音声認識装置100の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、音声認識装置100の分散・統合の具体的形態は図示のものに限られず、例えば、音声波形分析器170と音声波形補正器180とを機能的または物理的に統合する。このように、音声認識装置100の全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、図13に示した音声認識装置200の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、音声認識装置200の分散・統合の具体的形態は図示のものに限られず、例えば、ゲイン補正器270を有しない構成としてもよい。なお、上記実施例では、日本語の認識を例に挙げて説明したが、例えば英語などの外国語の認識においても、同様に適用することができる。つまり、日本語以外の外国語においても、認識エンジンは日本語と同様のものが用いられ、音響モデルや単語辞書が外国語用のものに変更するだけで同様に適用することができる。
また、図15に示した音声認識装置300の各構成要素についても機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。
(2)音声認識プログラム
また、例えば、上述の実施例で説明した音声認識装置100〜300の各種の処理は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することもできる。なお、音声認識装置100の各種の処理については、例えば、図11や図12、図17等を参照されたい。
そこで、以下では、図21を用いて、上述の実施例で説明した音声認識装置による処理と同様の機能を実現する音声認識プログラムを実行するコンピュータの一例を説明する。図21は、音声認識プログラムを実行するコンピュータの一例を示す図である。
図21に示すように、音声認識装置として機能するコンピュータ400は、入力装置401、モニタ402、RAM(Random Access Memory)403、ROM(Read Only Memory)404を有する。また、コンピュータ400は、CPU(Central Processing Unit)405、HDD(Hard Disk Drive)406を有する。
なお、CPU405の代わりに、例えば、MPU(Micro Processing Unit)などの電子回路、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路を用いることもできる。また、RAM403やROM404の代わりに、フラッシュメモリ(flash memory)などの半導体メモリ素子を用いることもできる。
また、コンピュータ400は、入力装置401、モニタ402、RAM403、ROM404、CPU405およびHDD406をバス407で相互に接続する。
HDD406には、上述した音声認識装置の機能と同様の機能を発揮する音声認識プログラム406aが記憶されている。なお、この音声認識プログラム406aを適宜分散させて、ネットワークを介して通信可能に接続された他のコンピュータの記憶部に記憶させておくこともできる。
そして、CPU405が、音声認識プログラム406aをHDD406から読み出してRAM403に展開することにより、図21に示すように、音声認識プログラム406aは音声認識プロセス405aとして機能する。
すなわち、音声認識プロセス405aは、各種データ403aをRAM403において身に割り当てられた領域に展開し、この展開した各種データ403aに基づいて各種処理を実行する。
なお、音声認識プロセス405aは、上述の実施例で説明した音声認識装置が有する各種処理機能部にて実行される処理に対応する。例えば、図2に示したスイッチ130、音声認識部140、認識結果判定器150、データバッファ160、音声波形分析器170、音声波形補正器180および音声認識用パラメータ制御器190にて実行される処理に対応する。
なお、音声認識プログラム406aについては、必ずしも最初からHDD406に記憶させておく必要はない。例えば、コンピュータ400に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に音声認識プログラム406aを記憶させておく。そして、コンピュータ400がこれらから音声認識プログラム406aを読み出して実行するようにしてもよい。また、例えば、公衆回線、インターネット、LAN、WANなどを介してコンピュータ400に接続される「他のコンピュータ(またはサーバ)」などに音声認識プログラム406aを記憶させておく。そして、コンピュータ400がこれらから音声認識プログラム406aを読み出して実行するようにしてもよい。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)ユーザの発話音声を取得する音声取得部と、
前記音声取得部により取得された発話音声の音声データを蓄積する蓄積部と、
前記音声取得部により取得された発話音声の音声データを認識し、当該認識の結果に応じた第1の信頼度を取得する音声認識部と、
前記音声認識部により取得された第1の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する判定部と、
前記第1の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成部と
を有し、
前記音声認識部は、さらに、前記補正音声データを認識し、当該認識の結果に応じた第2の信頼度を取得し、
前記判定部は、さらに、前記第2の信頼度と前記第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定することを特徴とする音声認識装置。
(付記2)前記蓄積部に蓄積されている音声データの周波数の時間変化に基づいて、当該音声データが単音節発話または長音発話のいずれの発話特徴を取得する発話特徴取得部と、
前記発話特徴取得部により取得された発話特徴に応じて、前記音声認識部が前記補正音声データの認識に用いる認識パラメータを制御するパラメータ制御部と
をさらに有することを特徴とする付記1に記載の音声認識装置。
(付記3)前記音声認識部は、前記音声データに含まれる音声区間を検出し、
前記蓄積部は、前記検出された音声区間に基づいて前記音声データを音声区間と雑音区間とに分割し、
前記生成部は、前記音声データの音声区間および雑音区間をそれぞれ分析することにより、前記音声区間のパワーレベルおよび雑音区間のノイズレベルを取得し、当該取得したパワーレベルに応じたゲイン倍率および当該取得したノイズレベルに応じた減算率を用いて前記音声データを補正することにより前記補正音声データを生成することを特徴とする付記2に記載の音声認識装置。
(付記4)前記音声取得部により取得された音声データをゲイン補正するゲイン補正部と、
前記蓄積部により蓄積された音声データの振幅の絶対値の中から当該振幅の最大値を検出し、当該検出した最大値を用いて、前記音声取得部により次に取得される音声データを補正するためのゲイン値を算出するゲイン値算出部と、
前記ゲイン値算出部により算出されたゲイン値に応じて、前記音声取得部により取得された音声データのゲイン補正に用いるゲイン値を更新するゲイン更新部と
を有することを特徴とする付記1に記載の音声認識装置。
(付記5)前記蓄積部により蓄積された音声データを再認識する場合に、再認識対象となる音声データのゲイン補正に用いる再認識用ゲイン値を算出する再認識用ゲイン値算出部をさらに有し、
前記生成部は、前記蓄積部により蓄積された音声データの振幅の絶対値の中から検出された当該振幅の最大値と前記再認識用ゲイン値とを用いて、前記蓄積部により蓄積された音声データを補正することにより前記補正音声データを生成することを特徴とする付記1に記載の音声認識装置。
(付記6)前記生成部は、前記音声データの振幅に応じて、該振幅の小さい箇所よりも該振幅の大きい箇所の方が該振幅の調整が行われるようにゲインを上げる補正または下げる補正を行うことにより、前記補正音声データを生成することを特徴とする付記5に記載の音声認識装置。
(付記7)音声認識エンジンを用いて音声認識装置が音声データの認識を行う音声認識方法であって、
ユーザの発話音声を取得する音声取得ステップと、
前記音声取得ステップにより取得された発話音声の音声データを蓄積部に蓄積する蓄積ステップと、
前記音声取得ステップにより取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第1の信頼度を取得する第1の音声認識ステップと、
前記第1の音声認識ステップにより取得された第1の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第1の判定ステップと、
前記第1の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積ステップにより蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成ステップと、
前記生成ステップにより生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第2の信頼度を取得する第2の音声認識ステップと、
前記第2の音声認識ステップにより取得された前記第2の信頼度と、前記第1の音声認識ステップにより取得された前記第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第2の判定ステップと
を含んだことを特徴とする音声認識方法。
(付記8)音声認識エンジンを用いた音声データの認識処理をコンピュータに実行させる音声認識プログラムであって、
ユーザの発話音声を取得する音声取得手順と、
前記音声取得手順により取得された発話音声の音声データを蓄積部に蓄積する蓄積手順と、
前記音声取得手順により取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第1の信頼度を取得する第1の音声認識手順と、
前記第1の音声認識手順により取得された第1の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第1の判定手順と、
前記第1の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積手順により蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成手順と、
前記生成手順により生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第2の信頼度を取得する第2の音声認識手順と、
前記第2の音声認識手順により取得された前記第2の信頼度と、前記第1の音声認識手順により取得された前記第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第2の判定手順と
をコンピュータに実行させることを特徴とする音声認識プログラム。
1 音声認識装置
2 音声取得部
3 蓄積部
4 音声認識部
5 判定部
6 生成部
100 音声認識装置
110 音声取得用マイクロホン
120 アナログデジタル変換器
130 スイッチ
140 音声認識部
150 認識結果判定器
160 データバッファ
170 音声波形分析器
171 ノイズレベル検出器
172 最適信号振幅演算器
173 スペクトログラム計算器
174 発話特徴検出器
180 音声波形補正器
190 音声認識用パラメータ制御器
191 単音節用単語辞書
192 長音用単語辞書
193 音素モデル
200 音声認識装置
210 音声取得用マイクロホン
220 アナログデジタル変換器
230 スイッチ
240 音声認識部
250 認識結果判定器
260 データバッファ
270 ゲイン補正器
280 ゲイン検出器
281 最大値検出器
282 ゲイン補正器
283 閾値判定器
284 最適ゲイン計算器
285 ゲイン更新器
286 ゲインメモリ
287 補正用ゲイン計算器
290 ゲイン補正器
300 音声認識装置
310 音声取得用マイクロホン
320 アナログデジタル変換器
330 スイッチ
340 音声認識部
350 認識結果判定器
360 データバッファ
370 ゲイン補正器
380 ゲイン検出器
381 最大値検出器
382 ゲイン補正器
383 閾値判定器
384 最適ゲイン計算器
385 ゲイン更新器
386 ゲインメモリ
387 補正用ゲイン計算器
388 雑音レベル推定器
390 ゲイン補正器
400 コンピュータ
401 入力装置
402 モニタ
403 RAM
403a 各種データ
404 ROM
405 CPU
405a 音声認識プロセス
406 HDD
406a 音声認識プログラム

Claims (7)

  1. ユーザの発話音声を取得する音声取得部と、
    前記音声取得部により取得された発話音声の音声データを蓄積する蓄積部と、
    前記音声取得部により取得された発話音声の音声データを認識し、当該認識の結果に応じた第1の信頼度を取得する音声認識部と、
    前記音声認識部により取得された第1の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する判定部と、
    前記第1の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成部と
    を有し、
    前記音声認識部は、さらに、前記補正音声データを認識し、当該認識の結果に応じた第2の信頼度を取得し、
    前記判定部は、さらに、前記第2の信頼度と前記第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定することを特徴とする音声認識装置。
  2. 前記蓄積部に蓄積されている音声データの周波数の時間変化に基づいて、当該音声データが単音節発話または長音発話のいずれの発話特徴を取得する発話特徴取得部と、
    前記発話特徴取得部により取得された発話特徴に応じて、前記音声認識部が前記補正音声データの認識に用いる認識パラメータを制御するパラメータ制御部と
    をさらに有することを特徴とする請求項1に記載の音声認識装置。
  3. 前記音声取得部により取得された音声データをゲイン補正するゲイン補正部と、
    前記蓄積部により蓄積された音声データの振幅の絶対値の中から当該振幅の最大値を検出し、当該検出した最大値を用いて、前記音声取得部により次に取得される音声データを補正するためのゲイン値を算出するゲイン値算出部と、
    前記ゲイン値算出部により算出されたゲイン値に応じて、前記音声取得部により取得された音声データのゲイン補正に用いるゲイン値を更新するゲイン更新部と
    を有することを特徴とする請求項1に記載の音声認識装置。
  4. 前記蓄積部により蓄積された音声データを再認識する場合に、再認識対象となる音声データのゲイン補正に用いる再認識用ゲイン値を算出する再認識用ゲイン値算出部をさらに有し、
    前記生成部は、前記蓄積部により蓄積された音声データの振幅の絶対値の中から検出された当該振幅の最大値と前記再認識用ゲイン値とを用いて、該蓄積部により蓄積された音声データを補正することにより前記補正音声データを生成することを特徴とする請求項1に記載の音声認識装置。
  5. 前記生成部は、前記音声データの振幅に応じて、該振幅の小さい箇所よりも該振幅の大きい箇所の方が該振幅の調整が行われるようにゲインを上げる補正または下げる補正を行うことにより、前記補正音声データを生成することを特徴とする請求項4に記載の音声認識装置。
  6. 音声認識エンジンを用いて音声認識装置が音声データの認識を行う音声認識方法であって、
    ユーザの発話音声を取得する音声取得ステップと、
    前記音声取得ステップにより取得された発話音声の音声データを蓄積部に蓄積する蓄積ステップと、
    前記音声取得ステップにより取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第1の信頼度を取得する第1の音声認識ステップと、
    前記第1の音声認識ステップにより取得された第1の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第1の判定ステップと、
    前記第1の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積ステップにより蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成ステップと、
    前記生成ステップにより生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第2の信頼度を取得する第2の音声認識ステップと、
    前記第2の音声認識ステップにより取得された前記第2の信頼度と、前記第1の音声認識ステップにより取得された前記第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第2の判定ステップと
    を含んだことを特徴とする音声認識方法。
  7. 音声認識エンジンを用いた音声データの認識処理をコンピュータに実行させる音声認識プログラムであって、
    ユーザの発話音声を取得する音声取得手順と、
    前記音声取得手順により取得された発話音声の音声データを蓄積部に蓄積する蓄積手順と、
    前記音声取得手順により取得された発話音声の音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる音声データの認識結果に応じた第1の信頼度を取得する第1の音声認識手順と、
    前記第1の音声認識手順により取得された第1の信頼度が所定の閾値以上である場合には前記音声データの認識結果を出力すべきものと判定する第1の判定手順と、
    前記第1の信頼度が前記所定の閾値よりも小さい場合に、前記蓄積手順により蓄積部に蓄積されている音声データを分析し、当該分析した結果に基づいて前記蓄積されている音声データを補正することにより補正音声データを生成する生成手順と、
    前記生成手順により生成された前記補正音声データを前記音声認識エンジンに入力することにより、当該音声認識エンジンによる補正音声データの認識結果に応じた第2の信頼度を取得する第2の音声認識手順と、
    前記第2の音声認識手順により取得された前記第2の信頼度と、前記第1の音声認識手順により取得された前記第1の信頼度とを比較し、高い側の信頼度が得られたときの音声データの認識結果を出力すべきものと判定する第2の判定手順と
    をコンピュータに実行させることを特徴とする音声認識プログラム。
JP2010178952A 2009-12-28 2010-08-09 音声認識装置、音声認識方法および音声認識プログラム Pending JP2011154341A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010178952A JP2011154341A (ja) 2009-12-28 2010-08-09 音声認識装置、音声認識方法および音声認識プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009298882 2009-12-28
JP2009298882 2009-12-28
JP2010178952A JP2011154341A (ja) 2009-12-28 2010-08-09 音声認識装置、音声認識方法および音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2011154341A true JP2011154341A (ja) 2011-08-11

Family

ID=44540325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010178952A Pending JP2011154341A (ja) 2009-12-28 2010-08-09 音声認識装置、音声認識方法および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2011154341A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069600A (ja) * 2013-09-30 2015-04-13 株式会社東芝 音声翻訳システム、方法およびプログラム
CN105590624A (zh) * 2014-11-10 2016-05-18 现代自动车株式会社 车辆中的语音识别系统及其方法
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2021019775A1 (ja) * 2019-08-01 2021-11-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
JP7446900B2 (ja) 2020-04-16 2024-03-11 株式会社日立製作所 対話装置、対話システム及び対話方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215996A (ja) * 2000-01-31 2001-08-10 Sumitomo Electric Ind Ltd 音声認識装置
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001215996A (ja) * 2000-01-31 2001-08-10 Sumitomo Electric Ind Ltd 音声認識装置
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015069600A (ja) * 2013-09-30 2015-04-13 株式会社東芝 音声翻訳システム、方法およびプログラム
CN105590624A (zh) * 2014-11-10 2016-05-18 现代自动车株式会社 车辆中的语音识别系统及其方法
CN105590624B (zh) * 2014-11-10 2020-11-03 现代自动车株式会社 车辆中的语音识别系统及其方法
WO2017068826A1 (ja) * 2015-10-23 2017-04-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2021019775A1 (ja) * 2019-08-01 2021-11-04 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
JP7038919B2 (ja) 2019-08-01 2022-03-18 三菱電機株式会社 多言語音声認識装置および多言語音声認識方法
JP7446900B2 (ja) 2020-04-16 2024-03-11 株式会社日立製作所 対話装置、対話システム及び対話方法

Similar Documents

Publication Publication Date Title
US20180114525A1 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6553342B1 (en) Tone based speech recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
EP2083417B1 (en) Sound processing device and program
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP2011154341A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPH10133693A (ja) 音声認識装置
JP2015068897A (ja) 発話の評価方法及び装置、発話を評価するためのコンピュータプログラム
JP5647455B2 (ja) 音声に含まれる吸気音を検出する装置、方法、及びプログラム
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
JP6996185B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP5621786B2 (ja) 音声検出装置、音声検出方法、および音声検出プログラム
JPH06110488A (ja) 音声検出方法および音声検出装置
US20090063149A1 (en) Speech retrieval apparatus
JP4349415B2 (ja) 音信号処理装置およびプログラム
KR20100111544A (ko) 음성인식을 이용한 발음 교정 시스템 및 그 방법
JP5157474B2 (ja) 音処理装置およびプログラム
JP4749990B2 (ja) 音声認識装置
Khalifa et al. Statistical modeling for speech recognition
JP2001005483A (ja) 単語音声認識方法及び単語音声認識装置
JP2001083978A (ja) 音声認識装置
JP2011180308A (ja) 音声認識装置及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140402

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150106