JP2005091568A - 音声認識装置および方法、記録媒体、並びにプログラム - Google Patents

音声認識装置および方法、記録媒体、並びにプログラム Download PDF

Info

Publication number
JP2005091568A
JP2005091568A JP2003322858A JP2003322858A JP2005091568A JP 2005091568 A JP2005091568 A JP 2005091568A JP 2003322858 A JP2003322858 A JP 2003322858A JP 2003322858 A JP2003322858 A JP 2003322858A JP 2005091568 A JP2005091568 A JP 2005091568A
Authority
JP
Japan
Prior art keywords
processing
recognition result
unit
speaker adaptation
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003322858A
Other languages
English (en)
Inventor
Satoko Tanaka
聡子 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2003322858A priority Critical patent/JP2005091568A/ja
Publication of JP2005091568A publication Critical patent/JP2005091568A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】より的確なタイミングで話者適応処理を実行させる。
【解決手段】ノイズ測定部105は、マイク101により集音された、ユーザが発話する前の周囲のノイズレベルを測定し、測定結果を適応判定部113に供給する。一方、探索部108は、音声の特徴量に基づいて生成された特徴ベクトルに対応する単語を音声認識結果として外部に出力するとともに、候補となった単語毎の最終スコアをCM値算出部112に供給する。CM値算出部112は、候補となった単語毎の最終スコアに基づいて、CM値を算出し、適応判定部113に供給する。適応判定部113は、周囲のノイズレベルとCM値に基づいて、音響モデルの適応処理を実行するか否かを判定する。本発明は、例えば、ゲーム機に適用することができる。
【選択図】図1

Description

本発明は、音声認識装置および方法、記録媒体、並びにプログラムに関し、特に、より的確に話者適応処理を実行することができるようにした音声認識装置および方法、記録媒体、並びにプログラムに関する。
従来、音声認識において、個々のユーザの発話の特徴に基づいて、音響モデルを適応させる話者適応技術が知られている(例えば、非特許文献1参照)。これにより、ユーザ毎の音声の認識率をより向上させることができる。
非特許文献1には、話者適応技術としてMLLR(Maximum Likelihood Linear Regression)法が提案されている。
"C. J. Leggetter et al, "Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models", Computer Speech and Language,1995,vol.9, pp171-185"
しかしながら、従来、話者適応処理を実行する条件については、あまり検討されてこなかった。
そのため、例えば、周囲の雑音が多い環境で、話者適応処理を実行した結果、話者適応処理前より音声認識の認識率が低下する(誤認識率が増加する)ことがあるという課題があった。
本発明の音声認識装置は、ノイズレベルを取得する取得手段と、音声を認識する音声認識手段と、音声認識手段による第1の認識結果の信頼度を算出する算出手段と、取得手段により取得されたノイズレベル、および算出手段により算出された第1の認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定手段と、判定手段により話者適応処理を実行すると判定された場合、話者適応処理を実行する実行手段とを備えることを特徴とする。
前記認識結果の信頼度は、CM値であるようにすることができる。
前記話者適応処理が実行された場合、前記音声認識手段には、同一の前記音声を再度認識するようにさせ、前記算出手段には、前記音声認識手段により再度認識された第2の認識結果の信頼度を算出するようにさせ、前記判定手段には、前記算出手段により算出された前記第2の認識結果の信頼度に基づいて、前記音声認識に利用するデータを、前記話者適応処理前の状態に戻すか否かを判定するようにさせ、前記実行手段には、前記判定手段により、前記データを前記話者適応処理前の状態に戻すと判定された場合、前記データを前記話者適応処理前の状態に戻すようにさせることができる。
前記判定手段により前記話者適応処理前の状態に戻すと判定された場合、前記第1の認識結果を外部に出力し、前記判定手段により前記話者適応処理前の状態に戻さないと判定された場合、前記第2の認識結果を外部に出力する出力手段をさらに設けるようにすることができる。
本発明の音声認識方法は、ノイズレベルを取得する取得ステップと、音声を認識する音声認識ステップと、音声認識ステップの処理による認識結果の信頼度を算出する算出ステップと、取得ステップの処理により取得されたノイズレベル、および算出ステップの処理により算出された認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定ステップと、判定ステップの処理により話者適応処理を実行すると判定された場合、話者適応処理を実行する実行ステップとを含むことを特徴とする。
本発明の記録媒体のプログラムは、ノイズレベルを取得する取得ステップと、音声を認識する音声認識ステップと、音声認識ステップの処理による認識結果の信頼度を算出する算出ステップと、取得ステップの処理により取得されたノイズレベル、および算出ステップの処理により算出された認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定ステップと、判定ステップの処理により話者適応処理を実行すると判定された場合、話者適応処理を実行する実行ステップとを含むことを特徴とする。
本発明のプログラムは、ノイズレベルを取得する取得ステップと、音声を認識する音声認識ステップと、音声認識ステップの処理による認識結果の信頼度を算出する算出ステップと、取得ステップの処理により取得されたノイズレベル、および算出ステップの処理により算出された認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定ステップと、判定ステップの処理により話者適応処理を実行すると判定された場合、話者適応処理を実行する実行ステップとをコンピュータに実行させることを特徴とする。
本発明の音声認識装置および方法、記録媒体、並びにプログラムにおいては、ノイズレベルが取得され、音声が認識され、認識結果の信頼度が算出され、取得されたノイズレベル、および算出された認識結果の信頼度に基づいて、話者適応処理を実行するか否かが判定され、話者適応処理を実行すると判定された場合、話者適応処理が実行される。
本発明は、例えば、ゲーム機に適用することができる。
本発明によれば、話者適応処理を実行することができる。特に、より的確な条件下で話者適応処理を実行させることが可能となる。
以下に本発明の最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。明細書中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。
さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加されたりする発明の存在を否定するものではない。
本発明によれば、音声認識装置が提供される。この音声認識装置は、ノイズレベルを取得する取得手段(例えば、図1のノイズ測定部105)と、音声を認識する音声認識手段(例えば、図1の探索部108)と、音声認識手段による第1の認識結果の信頼度を算出する算出手段(例えば、図1のCM値算出部112)と、取得手段により取得されたノイズレベル、および算出手段により算出された第1の認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定手段(例えば、図1の適応判定部113)と、判定手段により話者適応処理を実行すると判定された場合、話者適応処理を実行する実行手段(例えば、図1の適応部114)とを備える。
本発明によれば、音声認識装置が提供される。この音声認識装置では、前記認識結果の信頼度は、CM値(例えば、図1のCM値算出部112により算出されるCM(Confidence measure)値であるようにすることができる。
本発明によれば、音声認識装置が提供される。この音声認識装置では、前記話者適応処理(例えば、図3のステップS109の処理)が実行された場合、前記音声認識手段には、同一の前記音声を再度認識する(例えば、図3のステップS110の処理)ようにさせ、前記算出手段には、前記音声認識手段により再度認識された第2の認識結果の信頼度を算出する(例えば、図3のステップS111の処理)ようにさせ、前記判定手段には、前記算出手段により算出された前記第2の認識結果の信頼度に基づいて、前記音声認識に利用するデータを、前記話者適応処理前の状態に戻すか否かを判定する(例えば、図3のステップS112の処理)ようにさせ、前記実行手段には、前記判定手段により、前記データを前記話者適応処理前の状態に戻すと判定された場合、前記データを前記話者適応処理前の状態に戻す(例えば、図3のステップS113の処理)ようにさせることができる。
本発明によれば、音声認識装置が提供される。この音声認識装置では、前記判定手段により前記話者適応処理前の状態に戻すと判定された場合(例えば、図6のステップS211でYES)、前記第1の認識結果を外部に出力し、前記判定手段により前記話者適応処理前の状態に戻さないと判定された場合(例えば、図6のステップS211でNO)、前記第2の認識結果を外部に出力する出力手段(例えば、図4の認識結果選択部151)をさらに設けるようにすることができる。
本発明によれば、音声認識方法が提供される。この音声認識方法は、ノイズレベルを取得する取得ステップ(例えば、図2のステップS102)と、音声を認識する音声認識ステップ(例えば、図2のステップS104)と、音声認識ステップの処理による認識結果の信頼度を算出する算出ステップ(例えば、図2のステップS106)と、取得ステップの処理により取得されたノイズレベル、および算出ステップの処理により算出された認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定ステップ(例えば、図2のステップS107およびステップS108)と、判定ステップの処理により話者適応処理を実行すると判定された場合、話者適応処理を実行する実行ステップ(例えば、図3のステップS109)とを含む。
本発明によれば、音声認識方法と同様のプログラムが提供される。
以下、図を参照して、本発明の実施の形態について説明する。
図1は、本発明を適用した音声認識装置の構成例を示すブロック図である。
図1において、マイク101は、周囲の音声を集音して、アナログの音声信号をA/D変換部102に供給する。
A/D変換部102は、マイク101から供給されたアナログの音声信号をA/D(Analog to Digital)変換して、デジタル信号としての音声信号を生成し、これを音声区間特定部103、無音時音声用バッファ104、および音響分析部106に出力する。
音声区間検出部103は、A/D変換部102の出力に基づいて、音声区間を検出し、その検出結果を表すメッセージを、ノイズ測定部105および音響分析部106に供給する。ここで、音声区間を検出する方法としては、例えば、所定のフレームごとに、A/D変換部102の出力のパワーを計算し、そのパワーが所定の閾値以上であるかどうかを判定する方法がある。
無音時音声バッファ104は、A/D変換部102から供給された音声信号を所定の時間分だけ記憶する。なお、無音時音声バッファ104の記憶容量の上限まで音声信号が記憶された場合、無音時音声バッファ104に記憶されている1番古い音声信号の上に、新たに供給された音声信号が上書き記憶されてゆく。これにより、無音時音声バッファ104には、常に最新の音声信号が保持される。無音時音声バッファ104に記憶された音声信号は、適宜、ノイズ測定部105により読み出される。
ノイズ測定部105は、音声区間検出部103から、音声区間が検出された旨のメッセージが通知された場合、音声区間の直前の区間の音声信号を、所定の時間長分だけ無音時音声バッファ104より読み出し、読み出した音声信号に含まれている定常ノイズを算出する。これにより、ユーザの発話直前にあたる無音時のノイズレベルが算出される。このノイズレベルは、周囲の環境による雑音と考えられる。ノイズ測定部105は、算出したノイズレベルの値を適応判定部113に通知する。
音響分析部106は、音声区間検出部103からのメッセージに基づいて、A/D変換部102からの音声信号のうち、音声区間検出部103により音声区間として検出された音声信号について、適当なフレームごとに音響分析処理を施し、これにより、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴量としての特徴ベクトルを抽出する。なお、音響分析部106では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴ベクトル(特徴パラメータ)を抽出することが可能である。
音響分析部106においてフレームごとに得られる特徴ベクトルは、特徴ベクトルバッファ107に順次供給されて記憶される。従って、特徴ベクトルバッファ107では、フレームごとの特徴ベクトルが時系列に記憶されていく。
なお、特徴ベクトルバッファ107は、例えば、ある発話の開始から終了まで(音声区間)に得られる時系列の特徴ベクトルを記憶する。
探索部108は、特徴ベクトルバッファ107に記憶された特徴ベクトルを用いて、辞書データベース(DB)109、文法データベース(DB)110、および音響データベース(DB)111を必要に応じて参照しながら、マイク101に入力された音声(入力音声)を、例えば、連続分布HMM法等に基づいて、音声認識する。
すなわち、音響データベース111は、音声認識する音声の言語における個々の音素や音節などの所定の単位(PLU(Phonetic-Linguistic-Units))ごとの音響的な特徴を表す音響モデルのセットを記憶している。ここでは、連続分布HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、ガウス分布等の確率密度関数を用いたHMM(Hidden Markov Model)が用いられる。辞書データベース109は、認識対象の各単語(語彙)について、その発音に関する情報(音韻情報)が記述された単語辞書を記憶している。文法データベース110は、辞書データベース109の単語辞書に登録されている各単語が、どのように連鎖するか(つながるか)を記述した文法規則(言語モデル)を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)や、正規文法(RG)、統計的な単語連鎖確率(N−gram)などに基づく規則を用いることができる。
探索部108は、辞書データベース109の単語辞書を参照することにより、音響データベース111に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、探索部108は、幾つかの単語モデルを、文法データベース110に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、時系列の特徴ベクトルとのマッチングを、連続分布HMM法によって行い、マイク101に入力された音声を認識する。即ち、探索部108は、上述したようにして構成された各単語モデルの系列から、特徴ベクトルバッファ107に記憶された時系列の特徴ベクトルが観測される尤度を表すスコアを計算する。そして、探索部108は、例えば、そのスコアが最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
なお、ここでは、HMM法により音声認識が行われるため、探索部108は、音響的には、接続された単語モデルに対応する単語列について、各特徴ベクトルの出現確率を累積し、その累積値をスコアとする。
すなわち、探索部108におけるスコア計算は、音響データベース111に記憶された音響モデルによって与えられる音響的なスコア(以下、適宜、音響スコアという)と、文法データベース110に記憶された文法規則によって与えられる言語的なスコア(以下、適宜、言語スコアという)とを総合評価することで行われる。
具体的には、音響スコアは、例えば、HMM法による場合には、単語モデルを構成する音響モデルから、音響分析部106が出力する特徴ベクトルの系列が観測される確率(出現する確率)に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖(連接)する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア(以下、適宜、最終スコアという)に基づいて、音声認識結果が確定される。
ここで、音声認識装置は、文法データベース110を設けずに構成することも可能である。但し、文法データベース110に記憶された規則によれば、接続する単語モデルが制限され、その結果、探索部108における音響スコアの計算の対象とする単語数が限定されるので、探索部108の計算量を低減し、処理速度を向上させることができる。
探索部108は、最終スコアが最も高い単語を音声認識結果の単語列として、後段の図示せぬ処理部に出力する。また、探索部108は、音声認識結果として決定した単語の最終スコア(1番高い値の最終スコア)、および候補となった他の単語の最終スコアをCM値算出部112に供給する。
CM値算出部112は、探索部108から供給された音声認識結果の単語の最終スコア、および候補となった他の単語の最終スコアと比較することにより、認識結果のCM値を算出する。すなわち、音声認識結果としての単語の最終スコアが、他の候補の最終スコアからかけ離れて大きな値であれば、その音声認識結果はより正確である可能性が高いと考えられ、音声認識結果としての単語の最終スコアが、他の候補の最終スコアと近い値であれば、その音声認識結果はあまり正確ではない可能性があると考えられる。そこで、例えば、CM値算出部112は、音声認識結果の単語の最終スコアと、他の単語候補のうち1番高い最終スコアの単語の最終スコアとの差を、CM値として求める。CM値算出部112は、算出したCM値を適応判定部113に供給する。
なお、上記のCM値の算出方法は一例であり、もちろん、上記以外の方法により、CM値を算出しても良い。例えば、ニューラルネットワーク理論に基づいて、CM値を算出しても良い。
適応判定部113は、ノイズ測定部105から供給される無音時のノイズレベル、およびCM値算出部112から供給されるCM値に基づいて、音響モデルの適応処理(話者適応処理)を実行するか否かを判定し、音響モデルの適応処理を実行すると判定した場合、適応部114に、音響モデルの適応処理を実行するように通知する。また、適応判定部113は、同一の特徴ベクトルについて、再度、探索部108によりマッチング処理が実行された後、CM値算出部112からCM値が供給された場合、そのCM値に基づいて、モデルの適応を成立させるか否かを判定し、判定結果のメッセージを適応部114に通知する。
適応部114は、適応判定部113より、音響モデルの適応処理を実行するように通知された場合、CM値が算出された単語列に対応する特徴ベクトルを特徴ベクトルバッファ107から読み出し、この特徴ベクトルを利用して話者適応処理を実行し、音響データベース111に記憶された音響モデルを更新する。なお、更新する際、適応部114は、更新前の音響モデルを一時的に保持しておく。その後、適応判定部113より、更新された音響モデルを成立させる旨のメッセージが通知された場合、適応部114は、保持していた更新前の音響モデルを破棄する。一方、適応判定部113より、更新された音響モデルを、更新前の音響モデルに戻す旨のメッセージが通知された場合、適応部114は、音響データベース111に記憶された、更新後の音響モデルを消去し、保持していた更新前の音響モデルを再度音響データベース111に記憶させる。
次に、図2および図3のフローチャートを参照して、図1の音声認識装置の音声認識処理を説明する。
A/D変換部102は、マイク101により集音された音声を順次A/D変換し、生成したデジタル信号としての音声信号を音声区間検出部103、音響分析部106、および無音時音声バッファ104に供給している。ステップS101において、音声区間検出部103は、A/D変換部102から供給された音声信号に基づいて、ユーザから音声入力があったか否かを判定する。すなわち、音声区間検出部103は、音声区間か否かを判定し、音声区間であると判定するまで、ステップS101の処理を繰り返して待機する。そして、音声区間検出部103が音声区間であると判定した場合、音声区間検出部103は、音声区間である旨のメッセージをノイズ測定部105および音響分析部106に通知する。
音声区間検出部103から音声区間である旨のメッセージを受信したノイズ測定部105は、ステップS102において、無音時音声バッファ104に記憶された、音声区間の直前の所定の時間長分の音声信号を読み出し、ユーザが発話する前の周囲のノイズレベルを算出し、算出したノイズレベルの値を適応判定部113に供給する。
また、音声区間検出部103から音声区間である旨のメッセージを受信した音響分析部106は、ステップS103において、A/D変換部102から供給された音声信号からの特徴ベクトルの抽出を開始する。すなわち、音響分析部106は、A/D変換部102から供給された音声信号について、適当な時間間隔で音響分析処理を施し、音声の音響的特徴を表すパラメータ(特徴ベクトル)に変換し、特徴量として抽出する。抽出された特徴ベクトルは、特徴ベクトルバッファ107に順次供給され、記憶される。
ステップS104において、探索部108は、特徴ベクトルバッファ107に記憶された、音声区間の音声信号から抽出された特徴ベクトルを用い、辞書データベース109に記憶された単語辞書、文法データベース110に記憶された文法規則、および音響データベース111に記憶された音響モデルを参照することにより、音声認識結果の候補としての複数の単語列(単語)に対する言語スコアおよび音響スコアを計算し、さらに、最終スコアを求め、最終スコアの最も大きい単語列(単語)を、音声認識結果として確定する。
そして、ステップS105において、探索部108は、確定した音声認識結果としての単語列(単語)を図示せぬ後段の処理部に出力するとともに、音声認識結果としての単語列(単語)の最終スコア、および候補となった他の単語列の最終スコアを、CM値算出部112に供給する。
ステップS106において、CM値算出部112は、探索部108より供給された、音声認識結果の単語列(単語)の最終スコアと、候補となった他の単語列(単語)の最終スコアを比較することにより、CM値を算出し、算出したCM値を適応判定部113に供給する。
適応判定部113は、音響モデルの適応を行うか否かの判定の基準となるノイズレベルの値(以下、基準ノイズ値と称する)を、予め保持している。そして、ステップS107において、適応判定部113は、ステップS102でノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値より低いか否かを判定し、ノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値より低くなかった(ノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値以上だった)場合、処理はステップS101に戻り、上述したステップS101以降の処理が繰り返される。
ステップS107において、適応判定部113が、ステップS102でノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値より低いと判定した場合、処理はステップS108に進む。
適応判定部113は、音響モデルの適応を行うか否かの判定の基準となるCM値(以下、基準CM値と称する)を、予め保持している。そして、ステップS108において、適応判定部113は、ステップS106でCM値算出部112から供給されたCM値が基準CM値より高いか否かを判定し、CM値算出部112から供給されたCM値が基準CM値より高くなかった(CM値算出部112から供給されたCM値が基準CM値以下上だった)場合、処理はステップS101に戻り、上述したステップS101以降の処理が繰り返される。
ステップS108において、適応判定部113が、ステップS106でCM値算出部112から供給されたCM値が基準CM値より高いと判定した場合、適応判定部113は、適応部114に、音響モデルの適応処理(話者適応処理)を実行するように要求する。その後、処理は図3のステップS109に進む。
適応判定部113から音響モデルの適応処理(話者適応処理)を実行するように要求された適応部114は、ステップS109において、特徴ベクトルバッファ107より、ステップS104で単語列(単語)が探索された特徴ベクトルを読み出し、この特徴ベクトルと、探索部108により探索された単語列(単語)を利用して、例えば、MLLR法などにより、音響データベース111に記憶された音響モデルを適応処理(話者適応処理)する。これにより、音響データベース111に記憶されている音響モデルが更新される。なお、適応部114は、更新前の音響モデルを保持しておく。
ステップS110において、探索部108は、ステップS104で1度使用した特長ベクトルを、再び、特徴ベクトルバッファ107より読み出し、辞書データベース109、文法データベース110、およびステップS109で更新された音響データベース111を参照して、読み出した特徴ベクトルに対応する単語列(単語)を再び検索する。すなわち、探索部108は、読み出した特徴ベクトルに対して、音声認識結果の候補としての複数の単語列(単語)に対する言語スコアおよび音響スコアを計算し、さらに、最終スコアを求め、最終スコアの最も大きい単語列(単語)を、音声認識結果として確定する。そして、探索部108は、音声認識結果としての単語列(単語)の最終スコア、および候補となった他の単語列の最終スコアを、CM値算出部112に供給する。
ステップS111において、CM値算出部112は、探索部108より供給された、音声認識結果の単語列(単語)の最終スコアと、他の候補となった単語列(単語)の最終スコアを比較することにより、更新された音響データベース111を利用した場合のCM値を算出し、算出したCM値を適応判定部113に供給する。
ステップS112において、適応判定部113は、ステップS111でCM値算出部112から供給されたCM値が基準CM値より高いか否かを判定し、CM値算出部112から供給されたCM値が基準CM値より高くなかった(CM値算出部112から供給されたCM値が基準CM値以下だった)場合、適応部114に対して、音響データベース111を適応前の状態に戻すように要求する。その後、処理はステップS113に進む。
適応判定部113から、音響データベース111を適応前の状態に戻すように要求された適応部114は、ステップS113において、音響データベース111に記憶されている、更新された音響モデルを削除するとともに、保持していた適応前(更新前)の音響モデルを再び音響データベース111に記憶させる。これにより、音響データベース111は、更新前の状態に戻る。ステップS113の処理の後、処理は図2のステップS101に戻り、上述したステップS101以降の処理が繰り返される。
ステップS112において、適応判定部113が、ステップS111でCM値算出部112から供給されたCM値が基準CM値より高いと判定した場合、適応部114に対して、音響モデルの適応を成立させるように要求する。その後、処理はステップS114に進む。
適応判定部113から、音響モデルの適応を成立させるように要求された適応部114は、ステップS114において、ステップS109で更新した音響データベース111を維持し、保持していた更新前の音響モデルを破棄(消去)する。これにより、ステップS109で更新された音響データベース111が確定され、以降の音声認識処理に利用される。その後、処理は図2のステップS101に戻り、上述したステップS101以降の処理が繰り返される。
以上のようにして、音声認識処理が実行される。
以上のように、周囲のノイズレベルが基準ノイズ値より低く、音声認識結果の確からしさ(CM値)が基準CM値より高い場合のみ、音響データベース111の音響モデルを適応させる(話者適応処理を行う)ようにすることにより、話者適応処理を行う最適な条件下でのみ話者適応処理を実行させることができるようになる。従って、話者適応処理を実行したがゆえに音声認識率が低下する(誤認識率が増加する)ことを防止することができる。
また、音響データベース111の音響モデルを適応処理(話者適応処理)した後、再び、同じ特徴ベクトルについて音声認識処理を実行し(ステップS110)、そのCM値を評価し(ステップS112)、再評価したCM値に基づいて、音響モデルの適応を成立させる(ステップS114)か、適応前の状態に戻すか(ステップS113)を決定することにより、話者適応処理により音声認識の性能が低下しないように維持することができ、話者適応処理の信頼性をさらに向上させることができる。
なお、以上の音声認識処理は、1発話毎に実行しても良いし、1単語毎に実行しても良い。すなわち、例えば、ユーザが「今日は良い天気ですね」と発話した場合に、「今日は良い天気ですね」全体に対応する特徴ベクトルについて単語列を探索し、CM値を求めるようにしても良いし、「今日」、「は」、「良い」、「天気」、および「ですね」のそれぞれに対して、対応する特徴ベクトルについて単語列を検索し、CM値を求めるようにしても良い。
以上の音声認識処理においては、ステップS104およびステップS110において、それぞれ音声認識結果の単語列(単語)が求められるが、そのうち、先に求められた音声認識結果の単語列(単語)を、図示せぬ後段の処理部に出力することにより、より迅速に音声認識結果を出力することができる。従って、音声認識結果を早急に次の処理に利用する必要がある場合に、上記の音声認識処理は適している。しかしながら、音声認識結果を早急に次の処理に利用する必要が無い場合、1回目の音声認識結果と2回目の音声認識結果の両方、またはいずれか一方を選択して出力するようにしても良い。図4は、このようにした場合の音声認識装置の構成例を示している。
図4の音声認識装置において、図1の音声認識装置と同一の部位には同一の符号を付しており、同一の部位についての説明は、適宜、省略する。
図4の音声認識装置は、図1の音声認識装置に、さらに認識結果選択部151が付加された構成になっている。
探索部108は、単語列(単語)の探索を実行し、その結果求められた音声認識結果を認識結果選択部151に供給する。
また、適応判定部113は、音響データベース111の音響モデルの適応処理を実行するか否かを判定した後、判定結果を認識結果選択部151にも通知する。また、適応判定部113は、音響データベース111の更新を成立させるか否かを判定した後、判定結果を認識結果選択部151にも通知する。
認識結果選択部151は、探索部108から音声認識結果の単語列(単語)が供給された場合、それを1回目の音声認識結果として記憶しておく。そして、次に適応判定部113から、音響モデルの適応処理を実行しない旨の判定結果が通知された場合、認識結果選択部151は、記憶していた1回目の音声認識結果を図示せぬ後段の処理部に出力する。一方、適応判定部113から、音響モデルの適応処理を実行する旨の判定結果が通知された場合、認識結果選択部151は、1回目の音声認識結果を保持しつつ、さらに待機する。そして、次に探索部108から音声認識結果の単語列(単語)が供給された場合、それを2回目の音声認識結果として記憶しておく。次に適応判定部113から音響データベース111の更新を成立させる旨の判定結果が通知された場合、認識結果選択部151は、2回目の音声認識結果を後段の図示せぬ処理部に出力する。一方、適応判定部113から音響データベース111を更新前の状態に戻す旨の判定結果が通知された場合、認識結果選択部151は、1回目の音声認識結果を後段の図示せぬ処理部に出力する。
次に、図5および図6のフローチャートを参照して、図4の音声認識装置の音声認識処理について説明する。なお、図5のステップS201乃至ステップS204の処理は、図2のステップS101乃至ステップS104の処理と同様であるため、簡略化して説明する。
ステップS201において、音声区間検出部103は、A/D変換部102から供給された音声信号に基づいて、ユーザから音声入力があったか否かを判定して待機し、音声区間検出部103が音声区間であると判定した場合、音声区間検出部103は、音声区間である旨のメッセージをノイズ測定部105および音響分析部106に通知する。
音声区間検出部103から音声区間である旨のメッセージを受信したノイズ測定部105は、ステップS202において、無音時音声バッファ104に記憶された、音声区間の直前の所定の時間長分の音声信号を読み出し、ユーザが発話する前の周囲のノイズレベルを算出し、算出したノイズレベルの値を適応判定部113に供給する。
また、音声区間検出部103から音声区間である旨のメッセージを受信した音響分析部106は、ステップS203において、A/D変換部102から供給された音声信号からの特徴ベクトルの抽出を開始する。抽出された特徴ベクトルは、特徴ベクトルバッファ107に順次供給され、記憶される。
ステップS204において、探索部108は、特徴ベクトルバッファ107に記憶された、音声区間の音声信号から抽出された特徴ベクトルを用い、辞書データベース109に記憶された単語辞書、文法データベース110に記憶された文法規則、および音響データベース111に記憶された音響モデルを参照することにより、音声認識結果の候補としての複数の単語列(単語)に対する言語スコアおよび音響スコアを計算し、さらに、最終スコアを求め、最終スコアの最も大きい単語列(単語)を、音声認識結果として確定する。
そして、探索部108は、確定した音声認識結果としての単語列(単語)を認識結果選択部151に供給するとともに、音声認識結果としての単語列(単語)の最終スコア、および候補となった他の単語列の最終スコアを、CM値算出部112に供給する。認識結果選択部151は、探索部108から供給された音声認識結果の単語列(単語)を1回目の音声認識結果として記憶する。
ステップS205において、CM値算出部112は、探索部108より供給された、音声認識結果の単語列(単語)の最終スコアと、他の候補となった単語列(単語)の最終スコアを比較することにより、CM値を算出し、算出したCM値を適応判定部113に供給する。
ステップS206において、適応判定部113は、ステップS202でノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値より低いか否かを判定し、ノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値より低くなかった(ノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値以上だった)場合、音響モデルの適応処理を実行しないと判定し、その判定結果を認識結果選択部151に通知する。その後、処理はステップS208に進む。
ステップS206において、適応判定部113が、ステップS202でノイズ測定部105から供給されたノイズレベルの値が基準ノイズ値より低いと判定した場合、処理はステップS207に進む。
ステップS207において、適応判定部113は、ステップS205でCM値算出部112から供給されたCM値が基準CM値より高いか否かを判定し、CM値算出部112から供給されたCM値が基準CM値より高くなかった(CM値算出部112から供給されたCM値が基準CM値以下だった)場合、音響モデルの適応処理を実行しないと判定し、その判定結果を認識結果選択部151に通知する。その後、処理はステップS208に進む。
適応判定部113から音響モデルの適応処理を実行しない旨の判定結果が通知された認識結果選択部151は、ステップS208において、記憶していた1回目の音声認識結果を図示せぬ後段の処理部に出力する。その後、処理はステップS201に戻り、上述したステップS201以降の処理が繰り返される。
ステップS207において、適応判定部113が、ステップS205でCM値算出部112から供給されたCM値が基準CM値より高いと判定した場合、適応判定部113は、適応部114に、音響モデルの適応処理を実行するように要求する。その後、処理は図6のステップS209に進む。
適応判定部113から音響モデルの適応処理を実行するように要求された適応部114は、ステップS209において、特徴ベクトルバッファ107より、ステップS204で単語列(単語)が探索された特徴ベクトルを読み出し、この特徴ベクトルと、探索部108により探索された単語列(単語)を利用して、例えば、MLLR法などにより、音響データベース111に記憶された音響モデルを適応処理(話者適応処理)する。これにより、音響データベース111に記憶されている音響モデルが更新される。なお、適応部114は、更新前の音響モデルを保持しておく。
ステップS210において、探索部108は、ステップS204で1度使用した特長ベクトルを、再び、特徴ベクトルバッファ107より読み出し、辞書データベース109、文法データベース110、およびステップS209で更新された音響データベース111を参照して、読み出した特徴ベクトルに対応する単語列(単語)を再び探索する。すなわち、探索部108は、読み出した特徴ベクトルに対して、音声認識結果の候補としての複数の単語列(単語)に対する言語スコアおよび音響スコアを計算し、さらに、最終スコアを求め、最終スコアの最も大きい単語列(単語)を、音声認識結果として確定する。そして、探索部108は、音声認識結果の単語列(単語)を認識結果選択部151に供給するとともに、音声認識結果としての単語列(単語)の最終スコア、および候補となった他の単語列の最終スコアを、CM値算出部112に供給する。認識結果選択部151は、探索部108から供給された音声認識結果の単語列(単語)を2回目の音声認識結果として記憶する。なお、認識結果選択部151は、この時点で、1回目の音声認識結果も継続して保持している。
ステップS211において、CM値算出部112は、探索部108より供給された、音声認識結果の単語列(単語)の最終スコアと、他の候補となった単語列(単語)の最終スコアを比較することにより、更新された音響データベース111を利用した場合のCM値を算出し、算出したCM値を適応判定部113に供給する。
ステップS212において、適応判定部113は、ステップS211でCM値算出部112から供給されたCM値が基準CM値より高いか否かを判定し、CM値算出部112から供給されたCM値が基準CM値より高くなかった(CM値算出部112から供給されたCM値が基準CM値以下だった)場合、適応部114に対して、音響データベース111を適応前の状態に戻すように要求するとともに、認識結果選択部151に対して、音響データベース111を適応前の状態に戻す旨のメッセージを通知する。その後、処理はステップS213に進む。
適応判定部113から、音響データベース111を適応前の状態に戻すように要求された適応部114は、ステップS213において、音響データベース111に記憶されている、ステップS209で更新された音響モデルを削除するとともに、保持していた適応前(更新前)の音響モデルを再び音響データベース111に記憶させる。これにより、音響データベース111は、更新前の状態に戻る。
適応判定部113から、音響データベース111を適応前の状態に戻す旨のメッセージが通知された認識結果選択部151は、ステップS214において、1回目の音声認識結果を、図示せぬ後段の処理部に出力する。ステップS214の処理の後、処理は図5のステップS201に戻り、上述したステップS201以降の処理が繰り返される。
ステップS212において、適応判定部113が、ステップS211でCM値算出部112から供給されたCM値が基準CM値より高いと判定した場合、適応部114に対して、音響モデルの適応を成立させるように要求するとともに、認識結果選択部151に対して、音響モデルの適応を成立させる旨のメッセージを通知する。その後、処理はステップS215に進む。
適応判定部113から、音響モデルの適応を成立させるように要求された適応部114は、ステップS215において、ステップS209で更新した音響データベース111を維持し、保持していた更新前の音響モデルを破棄(消去)する。これにより、ステップS209で更新された音響データベース111が確定され、以降の音声認識処理に利用される。
適応判定部113から、音響モデルの適応を成立させる旨のメッセージが通知された認識結果選択部151は、ステップS216において、2回目の音声認識結果を、図示せぬ後段の処理部に出力する。その後、処理は図5のステップS201に戻り、上述したステップS201以降の処理が繰り返される。
以上のようにして、音声認識処理が実行される。
以上のように、ステップS204およびステップS210において、それぞれ得られた音声認識結果のうち、いずれか一方を選択して出力することにより、より最適化された音響モデルに基づいて音声認識された音声認識結果を出力することが可能となる。
なお、以上の音声認識処理は、1発話毎に実行しても良いし、1単語毎に実行しても良い。すなわち、例えば、ユーザが「今日は良い天気ですね」と発話した場合に、「今日は良い天気ですね」全体に対応する特徴ベクトルについて単語列を探索し、CM値を求めるようにしても良いし、「今日」、「は」、「良い」、「天気」、および「ですね」のそれぞれに対して、対応する特徴ベクトルについて単語列を検索し、CM値を求めるようにしても良い。
なお、本発明は、例えば、家庭用あるいは業務用のゲーム機、携帯電話機、携帯端末装置、その他、あらゆる電化機器に適用することが可能である。
上述した一連の処理は、ハードウェアにより実行させることもできるし、上述したようにソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体等からインストールされる。
図7は、このような処理を実行するパーソナルコンピュータ500の内部構成例を示す図である。パーソナルコンピュータのCPU(Central Processing Unit)501は、ROM(Read Only Memory)502に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)503には、CPU501が各種の処理を実行する上において必要なデータやプログラムなどが適宜記憶される。入出力インタフェース505には、マウス、キーボード、マイクロフォン、AD変換器などから構成される入力部506が接続され、入力部506に入力された信号をCPU501に出力する。また、入出力インタフェース505は、ディスプレイ、スピーカ、およびDA変換器などから構成される出力部507も接続されている。
さらに、入出力インタフェース505には、ハードディスクなどから構成される記憶部508、および、インターネットなどのネットワークを介して他の装置とデータの通信を行う通信部509も接続されている。ドライブ510は、磁気ディスク521、光ディスク522、光磁気ディスク523、半導体メモリ534などの記録媒体からデータを読み出したり、データを書き込んだりするときに用いられる。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム格納媒体は、図7に示すように、磁気ディスク521(フレキシブルディスクを含む)、光ディスク522(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク523(MD(Mini-Disk)を含む)、もしくは半導体メモリ524などよりなるパッケージメディア、または、プログラムが一時的もしくは永続的に格納されるROM502や、記憶部508を構成するハードディスクなどにより構成される。プログラム格納媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースを介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
本発明を適用した音声認識装置の構成例を示すブロック図である。 図1の音声認識装置の音声認識処理を説明するフローチャートである。 図1の音声認識装置の音声認識処理を説明する、図2に続くフローチャートである。 本発明を適用した音声認識装置の構成例を示すブロック図である。 図4の音声認識装置の音声認識処理を説明するフローチャートである。 図4の音声認識装置の音声認識処理を説明する、図2に続くフローチャートである。 本発明を適用したパーソナルコンピュータの構成例を示すブロック図である。
符号の説明
101 マイク, 102 A/D変換部, 103 音声区間検出部, 104 無音時音声バッファ, 105 ノイズ測定部, 106 音響分析部, 107 特徴ベクトルバッファ, 108 探索部, 109 辞書データベース(DB), 110 文法データベース(DB), 111 音響データベース(DB), 112 CM値算出部, 113 適応判定部, 114 適応部, 151 認識結果選択部

Claims (7)

  1. ノイズレベルを取得する取得手段と、
    音声を認識する音声認識手段と、
    前記音声認識手段による第1の認識結果の信頼度を算出する算出手段と、
    前記取得手段により取得された前記ノイズレベル、および前記算出手段により算出された前記第1の認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定手段と、
    前記判定手段により前記話者適応処理を実行すると判定された場合、前記話者適応処理を実行する実行手段と
    を備えることを特徴とする音声認識装置。
  2. 前記認識結果の信頼度は、CM値である
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記話者適応処理が実行された場合、
    前記音声認識手段は、同一の前記音声を再度認識し、
    前記算出手段は、前記音声認識手段により再度認識された第2の認識結果の信頼度を算出し、
    前記判定手段は、前記算出手段により算出された前記第2の認識結果の信頼度に基づいて、前記音声認識に利用するデータを、前記話者適応処理前の状態に戻すか否かを判定し、
    前記実行手段は、前記判定手段により、前記データを前記話者適応処理前の状態に戻すと判定された場合、前記データを前記話者適応処理前の状態に戻す
    ことを特徴とする請求項1に記載の音声認識装置。
  4. 前記判定手段により前記話者適応処理前の状態に戻すと判定された場合、前記第1の認識結果を外部に出力し、前記判定手段により前記話者適応処理前の状態に戻さないと判定された場合、前記第2の認識結果を外部に出力する出力手段をさらに備える
    ことを特徴とする請求項3に記載の音声認識装置。
  5. ノイズレベルを取得する取得ステップと、
    音声を認識する音声認識ステップと、
    前記音声認識ステップの処理による認識結果の信頼度を算出する算出ステップと、
    前記取得ステップの処理により取得された前記ノイズレベル、および前記算出ステップの処理により算出された前記認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定ステップと、
    前記判定ステップの処理により前記話者適応処理を実行すると判定された場合、前記話者適応処理を実行する実行ステップと
    を含むことを特徴とする音声認識方法。
  6. ノイズレベルを取得する取得ステップと、
    音声を認識する音声認識ステップと、
    前記音声認識ステップの処理による認識結果の信頼度を算出する算出ステップと、
    前記取得ステップの処理により取得された前記ノイズレベル、および前記算出ステップの処理により算出された前記認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定ステップと、
    前記判定ステップの処理により前記話者適応処理を実行すると判定された場合、前記話者適応処理を実行する実行ステップと
    を含むことを特徴とするコンピュータが読み取り可能なプログラムが記録されている記録媒体。
  7. ノイズレベルを取得する取得ステップと、
    音声を認識する音声認識ステップと、
    前記音声認識ステップの処理による認識結果の信頼度を算出する算出ステップと、
    前記取得ステップの処理により取得された前記ノイズレベル、および前記算出ステップの処理により算出された前記認識結果の信頼度に基づいて、話者適応処理を実行するか否かを判定する判定ステップと、
    前記判定ステップの処理により前記話者適応処理を実行すると判定された場合、前記話者適応処理を実行する実行ステップと
    をコンピュータに実行させることを特徴とするプログラム。
JP2003322858A 2003-09-16 2003-09-16 音声認識装置および方法、記録媒体、並びにプログラム Withdrawn JP2005091568A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003322858A JP2005091568A (ja) 2003-09-16 2003-09-16 音声認識装置および方法、記録媒体、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003322858A JP2005091568A (ja) 2003-09-16 2003-09-16 音声認識装置および方法、記録媒体、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2005091568A true JP2005091568A (ja) 2005-04-07

Family

ID=34454091

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003322858A Withdrawn JP2005091568A (ja) 2003-09-16 2003-09-16 音声認識装置および方法、記録媒体、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2005091568A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014109698A (ja) * 2012-12-03 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 話者適応化装置、話者適応化方法、プログラム
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014109698A (ja) * 2012-12-03 2014-06-12 Nippon Telegr & Teleph Corp <Ntt> 話者適応化装置、話者適応化方法、プログラム
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP4351385B2 (ja) 連続および分離音声を認識するための音声認識システム
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US7219055B2 (en) Speech recognition apparatus and method adapting best transformation function to transform one of the input speech and acoustic model
EP1199708B1 (en) Noise robust pattern recognition
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
KR100897554B1 (ko) 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
JP6699748B2 (ja) 対話装置、対話方法及び対話用コンピュータプログラム
JP6759898B2 (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
Liu et al. Dialect identification: Impact of differences between read versus spontaneous speech
JP7191792B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
Saxena et al. Hindi digits recognition system on speech data collected in different natural noise environments
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
JP2012053218A (ja) 音響処理装置および音響処理プログラム
JP2005091568A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
JP4749990B2 (ja) 音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061205