JP3826032B2 - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP3826032B2
JP3826032B2 JP2001401615A JP2001401615A JP3826032B2 JP 3826032 B2 JP3826032 B2 JP 3826032B2 JP 2001401615 A JP2001401615 A JP 2001401615A JP 2001401615 A JP2001401615 A JP 2001401615A JP 3826032 B2 JP3826032 B2 JP 3826032B2
Authority
JP
Japan
Prior art keywords
unit
recognition
likelihood
noise
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001401615A
Other languages
English (en)
Other versions
JP2003202887A (ja
Inventor
亮典 小柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001401615A priority Critical patent/JP3826032B2/ja
Priority to US10/329,553 priority patent/US7260527B2/en
Priority to EP02258990A priority patent/EP1326233A3/en
Publication of JP2003202887A publication Critical patent/JP2003202887A/ja
Application granted granted Critical
Publication of JP3826032B2 publication Critical patent/JP3826032B2/ja
Priority to US11/760,912 priority patent/US7415408B2/en
Priority to US11/760,909 priority patent/US7409341B2/en
Priority to US11/760,902 priority patent/US7447634B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、認識対象語彙以外の環境雑音をリジェクトするものに好適な音声認識装置、音声認識方法及び音声認識プログラムに関する。
【0002】
【従来の技術】
近年、音声認識技術の性能向上に伴い、実環境における音声認識エンジンの実用が活発になってきている。特に、カーナビゲーションシステムやモバイル機器など入力装置が限定されるような状況において、音声認識への期待は大きい。このような環境で音声認識に強く望まれる機能のひとつとして、音声を常時取り込み、予め登録されている語彙が入力された場合にのみ所定の処理に移行するハンズフリー機能が挙げられる。
【0003】
実環境における音声の常時取り込みを行う場合、例えばカーナビゲーションシステムでは、走行雑音、クラクション、他の車の走行音など、さまざまな環境雑音が認識エンジンに入力される。このため音声認識エンジンには、利用者の発声を正しく認識すると同時に、さまざまな環境雑音などの非音声をリジェクトする機能が要求されることになる。
【0004】
従来の音声認識装置においては、音素モデルを基に作成した認識対象語彙と入力音声から抽出した特徴量とを比較し、比較結果の数値(以下、尤度という)が最も高い値の語彙を音声認識結果として出力する。このとき、認識対象語彙が入力された時の尤度と環境雑音が入力された時の尤度を比較すると、環境雑音等の入力に対しては、尤度が比較的小さな値となる。従って、所定の閾値を設定することで、非音声をリジェクトすることができる。しかしながら、その一方で、実環境が認識対象語彙を作成した環境と異なる場合には、認識対象語彙が入力された場合にも尤度が小さくなることがあり、認識対象語彙までリジェクトしてしまうことがある。
【0005】
そこで、音声認識エンジンへの非登録語彙の入力をリジェクトする手法として、電子情報通信学会論文誌、D−II、Vol.J75−D−II、No.12、pp.2002−2009に掲載された「音節認識を用いた尤度補正による未知発話のリジェクション」(以下、文献1と称す)に述べられて方法が採用されることがある。
【0006】
この文献1の方法は、入力音声を認識対象語彙と照合して尤度を計算するのと同時に、予め記憶されている認識単位に対して音素モデルの全てを用いて、最適音素系列を求め尤度を得る。
【0007】
この場合、実環境が認識対象語彙及び予め記憶されている認識単位である音素モデルを作成した環境と異なる場合であっても、入力音声に生じた環境の影響は最適音素系列の尤度にも認識対象語彙の尤度にもどちらにも現れるので、最適音素系列の尤度から認識対象語彙との照合によって求めた尤度を引いた値は、殆ど変化しないものと考えることができ、確実なリジェクションが可能である。
【0008】
しかしながら、入力される音声が未知発話の場合には問題ないが、音素モデルにない例えばクラクションの音等の場合には、最適音素系列の尤度も認識語彙の尤度も極めて小さな値となってしまう。この場合、最適音素系列の尤度と認識語彙の尤度の差が相対的に小さくなることがある、このような場合には、閾値判定ではリジェクトすることはできない。
【0009】
更に、特開平11−288295号公報にて開示された「音声認識雑音除去方式」(以下、文献2と称す)が採用されることがある。この提案では、予め認識対象となる単語群を認識対象語彙として記憶するのと同時に、雑音と誤認識されやすい単語群をも環境雑音を考慮した認識対象語彙として記憶するようになっている。
【0010】
そして、文献2の方法では、入力された音声と記憶されたこれらの認識対象語彙との照合の結果、照合尤度が最大となる単語が認識対象語彙内の単語であればそのまま認識結果を出力し、逆に、環境雑音を考慮した認識対象語彙内の単語であれば入力された音声を雑音と判断してリジェクト判定するようになっている。
【0011】
しかしながら、この提案では、認識対象となる単語群に加えて雑音と誤認識されやすい単語群を環境雑音を考慮した認識対象語彙として記憶させる必要がある。音声認識が使用される環境が不特定である場合には、全ての雑音環境に対して雑音と誤認識されやすい単語を準備することは実質的に不可能である。
【0012】
【発明が解決しようとする課題】
このように、上述した従来の音声認識装置においては、不特定の雑音下で使用される場合には、音声を含まない環境雑音のみの入力に対して十分なリジェクト性能が得られないという問題点があった。
【0013】
本発明はこのような事情を考慮してなされたもので、雑音環境によらず高い精度で雑音による誤動作を防止することができる音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
【0014】
【課題を解決するための手段】
本発明に係る音声認識装置は、入力される信号から音声区間を検出する音声区間検出部と、入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出部と、予め定めた認識対象語彙を記憶する認識対象語彙記憶部と、前記認識対象語彙記憶部に記憶された認識対象語彙毎に前記特徴量抽出部で求まる特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合部と、認識単位標準パターンを記憶する認識単位標準パターン記憶部と、前記認識単位標準パターン記憶部に記憶された前記認識単位標準パターンのうち環境雑音に適応した1つ以上の認識単位標準パターンを選択する環境適応認識単位選択部と、前記環境適応認識単位選択部で選択された前記1つ以上の認識単位標準パターンを連結させて前記特徴量抽出部で求まる特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合部と、前記認識対象語彙照合部で求めた登録語彙尤度と前記環境適応雑音モデル照合部で得られた環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定部とを具備し、前記環境適応認識単位選択部は、前記リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおすことを特徴とする。
【0015】
本発明の請求項1において、入力された信号は、音声区間検出部によって音声区間が検出される。特徴量抽出部は、入力音声を分析して音声の特徴を表す特徴量時系列を抽出する。認識対象語彙照合部は、認識対象語彙記憶部に記憶された認識対象語彙毎に特徴量時系列と比較照合し、登録語彙尤度を求める。一方、環境適応雑音モデル記憶部は、環境雑音に適応した環境適応雑音モデルを記憶している。環境適応雑音モデル照合部は、環境適応雑音モデルを特徴量時系列と比較照合して環境雑音尤度を求める。登録語彙尤度と環境雑音尤度とはリジェクト判定部において比較されて、これにより、入力が雑音であるか否かが判定される。雑音モデル適応部は、リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して環境適応雑音モデルを更新する。これにより、環境適応雑音モデルは実環境に即したものとなる。
【0016】
本発明の請求項3において入力された信号は、音声区間検出部によって音声区間が検出される。特徴量抽出部は、入力音声を分析して音声の特徴を表す特徴量時系列を抽出する。認識対象語彙照合部は、認識対象語彙記憶部に記憶された認識対象語彙毎に特徴量時系列と比較照合し、登録語彙尤度を求める。一方、認識単位標準パターン記憶部は、認識単位標準パターンを記憶する。環境適応認識単位選択部は、記憶されている認識単位標準パターンのうち環境雑音に適応した1つ以上の認識単位標準パターンを選択する。選択された1つ以上の認識単位標準パターンは連結され、環境適応雑音モデル照合部において、特徴量時系列と比較照合されて環境雑音尤度が得られる。登録語彙尤度と環境雑音尤度とはリジェクト判定部において比較されて、これにより、入力が雑音であるか否かが判定される。環境適応認識単位選択部は、リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して、認識単位標準パターン記憶部に記憶された標準パターンを選択しなおす。これにより、選択されて連結された認識単位標準パターンは実環境に即したものとなる。
【0017】
なお、装置に係る本発明は方法に係る発明としても成立する。
【0018】
また、装置に係る本発明は、コンピュータに当該発明に相当する処理を実行させるためのプログラムとしても成立する。
【0019】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明の一実施の形態に係る音声認識装置を概略的に示すブロック図である。
【0020】
本実施の形態は認識対象となる単語群を認識対象語彙として記憶するのと共に、環境に適応した雑音のモデル(以下、環境適応雑音モデルという)を記憶するようになっている。そして、環境適応雑音モデルをリジェクト判定結果に基づいて適応的に更新することにより、全ての実環境における環境雑音を考慮したリジェクト性能を得るようにしたものである。
【0021】
図1において、音声区間検出部101は、入力された信号を分析して音声区間を検出し、検出した音声区間の信号を特徴量抽出部102に出力する。特徴量抽出部102は、入力された音声区間の信号を音響分析することにより、特徴量の時系列を抽出する。
【0022】
例えば、特徴量抽出部102は、入力音声を予め定められた複数の周波数帯域毎に周波数分析し、各周波数帯毎の分析結果を特徴ベクトル(特徴パラメータ)として得る。特徴ベクトル(特徴パラメータ)はフレームと呼ばれる固定の時間長を単位に求められ、特徴量抽出部102は音声区間の特徴ベクトル系列(特徴ベクトル時系列)を得る。特徴量抽出部102によって抽出された特徴量の時系列は、認識対象語彙照合部104及び環境適応雑音モデル照合部106に供給される。
【0023】
なお、音声認識に使用される代表的な特徴ベクトルとしては、バンドパスフィルタ又はフーリエ変換によって得られるパワースペクトラムや、LPC(線形予測)分析によって求められるケプストラム計数等が良く知られている。ただし、本実施の形態では、使用する特徴ベクトルの種類は問わない。
【0024】
認識対象語彙記憶部103は、認識対象となる単語群である認識対象語彙を記憶する。この認識対象語彙は音素モデルを基にして作成されたものである。認識対象語彙照合部104は、認識対象語彙記憶部103から認識対象語彙を読出し、認識対象語彙毎に特徴量抽出部102で得られた特徴量の時系列とを照合して尤度(以下、登録語彙尤度という)を求める。認識対象語彙照合部104は求めた登録語彙尤度をリジェクト判定部107に出力する。
【0025】
なお、照合尤度の計算方法としては、電子情報通信学会、中川聖一著「確率モデルによる音声認識」(以下、文献3と称す)に詳細に記載されているようなHMMに基づく方法や、DPマッチングに基づく方法等を用いることができる。
【0026】
一方、環境適応雑音モデル記憶部105は、予め環境に適応した雑音モデル(環境適応雑音モデル)を記憶している。環境雑音モデルとしては種々のものが考えられる。例えば、環境雑音モデルとして単語(語彙)の集合であってもよく、上述した文献3のHMMであってもよく、平均μと分散σとで表されるガウス分布であってもよく、GMMであってもよく、また、離散モデルであってもよい。
【0027】
環境適応雑音モデル照合部106は、環境適応雑音モデル記憶部105から読出した環境適応雑音モデルと特徴量抽出部102で得られた特徴量の時系列とを照合して尤度(以下、環境雑音尤度という)を求める。環境適応雑音モデル照合部106は求めた環境雑音尤度をリジェクト判定部107に出力する。
【0028】
リジェクト判定部107は、認識対象語彙照合部104からの登録語彙尤度と環境適応雑音モデル照合部106からの環境雑音尤度とを比較して、入力音声のリジェクト判定を行う。例えば、リジェクト判定部107は、登録語彙尤度と環境雑音尤度とを大小比較し、登録語彙尤度の方が大きい場合には選択された認識対象語彙を音声認識結果として出力し、環境雑音尤度の方が大きい場合には入力音声は雑音であるものと判断してリジェクトする。
【0029】
本実施の形態においては、リジェクト判定部107は、判定結果を雑音モデル適応部108に出力するようになっている。雑音モデル適応部108は、入力音声が雑音であると判定された場合には、環境適応雑音モデル記憶部105に記憶された環境適応雑音モデルを入力に応じて適応的に更新するようになっている。
【0030】
例えば、リジェクト判定部107は、環境適応雑音モデル記憶部105に記憶されている環境雑音モデルを、入力音声の特徴量の時系列(特徴ベクトル時系列)に一致させる。
【0031】
次に、このように構成された実施の形態の動作について図2の説明図を参照して説明する。図2は環境適応雑音モデルをガウス分布によって表した例を示している。
【0032】
音声区間検出部101において検出された音声区間の信号は、特徴量抽出部102に与えられて、予め定められた複数の周波数帯域毎に周波数分析される。これにより、特徴量抽出部102は、入力音声を特徴ベクトル系列(特徴ベクトル時系列)に変換して、認識対象語彙照合部104及び環境適応雑音モデル106に供給する。
【0033】
認識対象語彙照合部104は、認識対象語彙記憶部103に記憶された認識対象語彙毎に入力された特徴ベクトル時系列との間で照合を行い、登録語彙尤度を算出する。
【0034】
一方、環境適応雑音モデル照合部106は、環境適応雑音モデル記憶部105に記憶されている環境適応雑音モデルを読出して、入力された特徴ベクトル時系列との間で環境雑音尤度を計算する。
【0035】
認識対象語彙照合部104及び環境適応雑音モデル照合部106において算出された照合尤度はリジェクト判定部107に供給される。リジェクト判定部107は、例えば登録語彙尤度と環境雑音尤度との大小関係を比較することでリジェクト判定を行う。
【0036】
例えば、上記文献3に示されるHMMを基づく方法を採用した場合には、認識対象語彙 i の登録語彙尤度をSi、環境適応雑音モデルを用いた環境雑音尤度をSnsとし、登録語彙尤度Siのうち最大値max(Si)(最大登録語彙尤度)を与える認識対象語彙を選択し、選択した登録対象語彙の登録語彙尤度Siが環境雑音尤度 Sns よりも大きい場合には、入力音声は雑音ではないものと判定し、選択した認識対象語彙を音声認識結果として出力する。
【0037】
逆に、リジェクト判定部107は、環境雑音尤度Snsが最大登録語彙尤度Siよりも大きい場合には、入力音声は雑音であるものと判定して、入力音声をリジェクトする。
【0038】
本実施の形態においては、リジェクト判定部107の判定結果は雑音モデル適応部108に供給される。雑音モデル適応部108は、環境雑音モデルが環境雑音に対して適応するように更新する。
【0039】
いま、環境適応雑音モデルが例えば図2に示すガウス分布(平均μ、分散σ)で表されるものとする。図2の細線は環境適応雑音モデルの分布を示し、太線は入力音声の分布をしている。図2の細線にて示す環境適応雑音モデルに対して太線で示す入力音声が入力されたことによって、リジェクト判定部107が入力音声は雑音であることを判定するものとする。図2の状態では、図2の斜線領域に分布する入力音声については、環境雑音尤度Snsは小さな値となり、本来リジェクトされるべきものであるにも拘わらず、リジェクト判定部107においてリジェクトされない。
【0040】
しかし、本実施の形態においては、雑音モデル適応部108が環境適応雑音モデルを適応的に変化させている。例えば、雑音モデル適応部108は、環境適応雑音モデルを入力音声に一致させる。即ち、雑音モデル適応部108は、リジェクト判定部107によって雑音と判定された入力音声に対して、特徴量時系列の平均と分散を計算し、環境適応雑音モデル記憶部105に記憶されている環境適応雑音モデルの平均と分散の値を計算した値に置き換える。つまり、この場合には、図2の細線の分布は太線の分布に一致することになる。
【0041】
そうすると、以後、図2の太線内の斜線部に分布する入力音声についても、リジェクト判定部107によってリジェクト判定されることとなる。
【0042】
このように、本実施の形態においては、所定の雑音モデルを判定結果に基づいて適応的に更新しており、実環境に即した雑音モデルを用いたリジェクト判定を可能にすることができる。音声信号が雑音であると判定された場合には、雑音モデルを環境に適応させることにより、予め雑音モデルを学習した環境と異なる不特定の環境下でも、高い精度で雑音入力をリジェクトすることが可能になる。これにより、雑音環境によらず高い精度で雑音による誤動作を防止することができる。
【0043】
なお、本実施の形態においては、環境適応雑音モデル及び環境適応の方法について限定されるものではない。
【0044】
図3は本発明の第2の実施形態に係る音声認識装置を概略的に示すブロック図である。図3において図1と同一の構成要素には同一符号を付して説明を省略する。
【0045】
第1の実施の形態においては、雑音モデル適応部108は、予め記憶された雑音モデルを入力雑音に応じて更新することにより環境雑音に適応させるようになっている。これに対し、本実施の形態は、予め認識単位標準パターンを記憶しておき、この認識単位標準パターンの中から環境雑音に一致するパターンを選択することで環境適応するようになっている。
【0046】
本実施の形態は、図1における環境適応雑音モデル記憶部105及び雑音モデル適応部108に代えて、認識単位標準パターン記憶部205及び環境適応雑音モデル選択部208を設けた点が第1の実施の形態と異なる。
【0047】
認識単位標準パターン記憶部205には、音素モデルの集合であり、予め認識の単位となる標準パターンが登録されている。認識単位となる標準パターンを表すモデルとしては、文献3に示されたHMMを用いることができる。
【0048】
環境適応雑音モデル選択部208は、リジェクト判定部107によって入力音声が雑音であるものと判定された場合には、認識単位標準パターン記憶部205から読出す標準パターンの選択を変更して、以後環境適応雑音モデル照合部106に与えるようになっている。
【0049】
例えば、環境適応雑音モデル選択部208は、リジェクト判定部107において入力音声が雑音であると判定された場合には、特徴量抽出部102で求まる特徴量時系列と認識単位標準パターン記憶部205に記憶された認識単位標準パターンとの間で照合を行って尤度を計算し、尤度の大小関係に応じて認識単位標準パターンを順位付け、順位が上位のパターンから予め定められた個数だけ選択するようになっている。
【0050】
なお、環境適応雑音モデル照合部106は、環境適応雑音モデル選択部208で選択された複数の認識単位標準パターンを連結させて、新たな入力に対して環境雑音尤度を算出するようになっている。
【0051】
次に、このように構成された実施の形態の動作について説明する。
【0052】
いま、リジェクト判定部107において、入力音声が雑音であると判定されるものとする。この判定結果は環境適応雑音モデル選択部208に与えられる。環境適応雑音モデル選択部208は、認識単位標準パターン記憶部207から選択するパターンを変更する。
【0053】
例えば、環境適応雑音モデル選択部208は、入力音声の特徴量時系列と認識単位標準パターン記憶部205に記憶された認識単位標準パターンとの間で照合を行って尤度を計算する。そして、尤度の大小関係に応じて認識単位標準パターンを順位付け、順位が上位のパターンから予め定められた個数だけ選択する。これにより、環境適応雑音モデルは、入力音声の特徴量時系列に近似したパターンに変化する。
【0054】
こうして、以後、環境適応雑音モデルは、実環境に即したものとなる。環境適応雑音モデル照合部106は、選択された複数の認識単位標準パターンを連結させて、環境雑音尤度を算出する。これにより、リジェクト判定部107によって入力雑音を確実にリジェクトすることが可能となる。
【0055】
このように、本実施の形態においては、認識単位標準パターンから所定個数のパターンを選択することで環境適応雑音モデルを作成し、リジェクト判定された場合には、認識単位標準パターンの選択を適応的に変更することで、実環境に即した環境適応雑音モデルを得ている。これにより、雑音環境によらず高い精度で雑音による誤動作を防止することができる。
【0056】
なお、本実施の形態においては、第1の実施の形態と異なり、認識単位標準パターンは音素モデルを基に作成しており、雑音モデルを新たに作成する必要はない。また、本実施の形態においては、音素モデルに基づく認識単位標準パターンの一部を選択することにより雑音モデルを作成しており、入力音声に拘わらず環境雑音尤度が登録語彙尤度よりも常に高い値になってしまうことはなく、確実なリジェクト判定が可能であるという利点を有する。
【0057】
図4は本発明の第3の実施形態に係る音声認識装置を概略的に示すブロック図である。図4において図3と同一の構成要素には同一符号を付して説明を省略する。
【0058】
本実施の形態は登録語彙尤度及び環境雑音尤度だけでなく、最適音素系列の照合によって求めた尤度(以下、最適尤度という)も用いることにより、リジェクト判定を一層確実に行うようにしたものである。
【0059】
本実施の形態においては、特徴量抽出部102によって音声区間の信号から抽出された特徴ベクトル時系列は、認識対象語彙照合部303及び環境適応雑音モデル照合部305に与えられると共に、最適音素系列照合部304にも与えられる。
【0060】
認識単位標準パターン記憶部205は、音素モデルの集合であり、認識単位となる標準パターンを記憶する。認識単位標準パターン記憶部205に記憶される認識単位標準パターンとしては、モノフォン、ダイフォンあるいはトライフォン等毎に予め学習された隠れマルコフモデル等を用いるのが代表的である。なお、本実施の形態では、使用する認識単位や認識単位標準パターンの種類は問わない。認識対象語彙記憶部103は、認識対象となる認識対象語彙を記憶するようになっている。
【0061】
最適音素系列照合部304は、認識単位標準パターン記憶部205に記憶された認識単位標準パターンを語彙制約なしで連結させて、特徴量抽出部102から入力された特徴ベクトル時系列との間で照合尤度を求め、最大尤度(最適尤度)を与える認識単位標準パターンの連結結果とその最適尤度を出力する。最適音素系列照合部304の出力は登録語彙尤度補正/正規化部309、環境雑音尤度補正/正規化部311及び環境適応認識単位選択部308に供給される。
【0062】
環境適応認識単位選択部308は、認識単位標準パターン記憶部205から、予め、実雑音環境において頻繁に出現する認識単位標準パターンを選択して環境適応雑音モデル照合部305に出力するようになっている。また、環境適応認識単位選択部308は、最適音素系列照合部304の出力、照合尤度によるリジェクト判定部312の判定結果及び環境適応雑音モデルによるリジェクト判定部313の出力に基づいて、選択する認識単位標準パターンを適応的に選択しなおすようになっている。
【0063】
認識対象語彙照合部303は、認識対象語彙記憶部306に記憶された認識対象語彙毎に、認識単位標準パターン記憶部205に記憶された認識単位標準パターンを連結させて、最適音素系列照合部304から入力される最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部102から入力される特徴ベクトル時系列との間で照合して尤度(登録語彙尤度)を求め、登録語彙尤度及びスポッティングによって得られた認識語彙の継続時間長を出力する。
【0064】
図5は単語スポッティングの概念を示す説明図である。通常の会話等においては、登録語彙の前後に例えば無意味な音素列が付加されることがある。単位スポッティングは、入力音声から登録語彙を抽出する処理である。図5に示すように、認識対象語彙照合と同時及び前後のタイミングで最適音素系列照合を行うことで、登録語彙を抽出することができる。なお、単語スポッティングの手法としては、電子情報通信学会、中川聖一著「確率モデルによる音声認識」等に詳述されている方法を用いることができる。
【0065】
登録語彙尤度補正/正規化部309は、認識対象語彙照合部303からの認識対象語彙毎の登録語彙尤度を、最適音素系列照合部304からの最適尤度及び認識対象語彙照合部303からの認識対象語彙毎の継続時間長を用いて補正及び正規化する。
【0066】
図6は照合尤度補正/正規化の概念を説明するための説明図である。
【0067】
図6では認識単位標準パターンとして音節を用いている。認識対象語彙照合部303では、最適音素系列照合部304の照合の途中経過を用いて、単語スポッティングにより登録語彙尤度を計算していることから、最適尤度Soptと登録語彙尤度Si との差を計算することにより、検出された発声区間の中で認識対象語彙に最もよくマッチする部分の照合スコアを求めることができる。
【0068】
これをスポッティングされた認識対象語彙の継続時間長Tiで正規化することにより、発声区間中の認識対象語彙にマッチする区間の単位時間当たりの平均照合尤度(補正/正規化後の登録語彙尤度 Pi=(Sopt−Si)/Ti)を計算することができる。
【0069】
ここで、補正/正規化尤度Piの値が小さいほど認識対象語彙のマッチング結果が、最適音素系列照合部のマッチング結果に近いと考えられるので、認識語彙らしいということになる。
【0070】
認識結果決定部310は、登録語彙尤度補正/正規化部309からの認識対象語彙毎の補正/正規化された平均照合尤度同士を比較し、尤度の大小関係から認識対象語彙を決定する。照合尤度によるリジェクト判定部312は、認識結果決定部310によって決定された認識対象語彙についての補正/正規化照合尤度を、予め定めた閾値と比較し、その大小関係から入力された発声が雑音であるか否かを判定する。リジェクト判定部312は入力が音声であるものと判定した場合には決定された認識対象語彙を環境適応雑音モデルによるリジェクト判定部313に出力する。リジェクト判定部312からの判定結果は環境適応認識単位選択部308にも供給される。また、リジェクト判定部312は入力が雑音であるものと判定した場合には、リジェクト結果を出力する。
【0071】
一方、環境適応雑音モデル照合部305は、環境適応認識単位選択部308によって選択された認識単位標準パターンを連結させて、最適音素系列照合部304から入力される最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部102から入力された特徴ベクトル時系列との間で照合して尤度を求め、最大尤度となる認識単位標準パターンの連結結果の照合尤度(環境雑音尤度)及びその継続時間長を出力する。
【0072】
環境雑音尤度補正/正規化部311は、環境適応雑音モデル照合部305からの環境雑音尤度を、最適音素系列照合部304からの最適尤度と環境適応雑音モデル照合部305からの環境適応雑音モデルの継続時間長とを用いて、図6と同様の手法によって補正/正規化する。環境雑音尤度補正/正規化部311は、補正/正規化後の環境雑音尤度を環境適応雑音モデルによるリジェクト判定部313に出力する。
【0073】
環境適応雑音モデルによるリジェクト判定部313は、照合尤度によるリジェクト判定部312によって入力音声が雑音ではないと判断された場合に、補正/正規化後の登録語彙尤度と、補正/正規化後の環境雑音尤度とを比較し、両者の大小関係から入力された音声が認識対象語彙であるか雑音であるかを判定し、判定結果を環境適応認識単位選択部308に出力するようになっている。また、環境適応雑音モデルによるリジェクト判定部313は、登録語彙尤度の方が小さい場合には決定された認識対象語彙を音声認識結果として出力する。
【0074】
環境適応認識単位選択部308は、照合尤度によるリジェクト判定部312又は環境適応雑音モデルによるリジェクト判定部313により入力音声が雑音であると判定された場合には、判定結果を受け取り、最適音素系列照合に基づく認識単位標準パターンの連結結果を用いて、環境適応認識単位選択部308によって選択された認識単位標準パターンの出現頻度を更新し、新たに認識単位標準パターンを選択しなおすようになっている。
【0075】
次に、このように構成された実施の形態の動作について図7乃至図10を参照して説明する。図7はリジェクト判定までの動作を説明するためのフローチャートであり、図8は環境適応雑音モデルによるリジェクト判定部の動作を説明するための説明図である。
【0076】
図7のステップ400において音声が入力される。音声区間の信号は、特徴量抽出部102において特徴ベクトル系列(特徴ベクトル時系列)に変換される。音声区間の特徴ベクトル時系列は、認識対象語彙照合部303、最適音素系列照合部304及び環境適応雑音モデル照合部305に供給される。
【0077】
各照合部303,304,305において、予め認識単位標準パターン記憶部205に記憶されている認識単位標準パターンを連結したものと比較照合され、夫々尤度が計算される。
【0078】
最適音素系列照合部304は、認識単位標準パターン記憶部205に記憶された認識単位標準パターンを語彙制約なしで連結し、特徴量抽出部102からの特徴ベクトル時系列との間で尤度を計算し、最大尤度を与える標準パターン連結結果及びその尤度(最適尤度)を出力する。なお、尤度計算の方法としては、上述したように認識単位標準パターンに隠れマルコフモデルを用いる場合には、Viterbiアルゴリズム等が用いられる。
【0079】
認識対象語彙照合部303は、認識単位標準パターン記憶部205に記憶された認識単位標準パターンを認識対象語彙記憶部103に記憶された認識対象語彙に基づいて連結し、最適音素系列照合部304から入力される最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部102からの特徴ベクトル時系列との間で尤度を計算する。認識対象語彙毎の単語スポッティングによる照合尤度は、スポッティングによって求まる継続時間長と共に認識対象語彙補正/正規化部309に与えられる。
【0080】
一方、環境適応雑音モデル照合部305は、認識単位標準パターン記憶部205に記憶された認識単位標準パターンのうち、予め環境適応認識単位選択部308において雑音環境に適応して選択された標準パターンのみを連結し、最適音素系列照合部304からの最適音素系列照合の途中経過を用いて単語スポッティングを行い、特徴量抽出部102の特徴ベクトル時系列との間で尤度を計算する。求められた最大尤度を与える連結結果の尤度及びスポッティングによる環境適応雑音モデルの継続時間長は、環境雑音尤度補正/正規化部311に与えられる。
【0081】
ステップ401において、登録語彙尤度補正/正規化部309は、認識対象語彙毎の登録語彙尤度Si、継続時間長Ti及び最適音素系列照合部304からの最適尤度Soptを用いて、補正/正規化後の登録語彙尤度Pi=(Sopt−Si)/Tiを算出する。
【0082】
次のステップ402において、認識結果決定部310は、補正/正規化された認識対象語彙の尤度(登録語彙尤度)を認識対象語彙相互間で比較して、最小となる補正/正規化尤度を持つ認識対象語彙を決定する。
【0083】
次に、ステップ403において、照合尤度によるリジェクト判定部312は、認識結果決定部310で選択された認識対象語彙の補正/正規化後の登録語彙尤度と予め定められた閾値とを比較し、入力音声が雑音であるか否かを判定する。即ち、補正/正規化後の尤度Piが閾値に比較して大きい場合には、入力音声は雑音であると判定され、リジェクト結果が出力される(ステップ407)。逆に、補正/正規化後の尤度Piが閾値に比較して小さい場合には、入力音声は雑音ではないと判定され、環境適応雑音モデルによるリジェクト判定部313に与えられる。
【0084】
一方、環境雑音尤度補正/正規化部311では、ステップ404において、登録語彙尤度補正/正規化部309と同様に、環境適応雑音モデルの照合尤度(環境雑音尤度)Sns、継続時間長Tns及び最適音素系列照合部304からの最適尤度Soptを用いて、補正/正規化後の環境雑音尤度Pns=(Sopt−Sns)/Tnsが計算される。
【0085】
環境適応雑音モデルによるリジェクト判定部313は、次のステップ405において、照合尤度によるリジェクト判定部312で雑音でないと判定された入力音声に対して、認識結果決定部310で選択された認識対象語彙についての補正/正規化後の登録語彙尤度Pi と、補正/正規化後の環境雑音尤度Pnsとの大小比較を行う。Pi>Pnsとなる場合には、環境適応雑音モデルの方が最適音素系列照合尤度に近いと考えられるので、リジェクト判定部313は、入力音声は雑音であると判定する(ステップ407)。逆に、Pi<=Pnsとなる場合には、リジェクト判定部313は、入力音声は雑音ではなく、認識結果決定部310で選択された認識対象語彙の発声であると判定し、ステップ406において選択された認識対象語彙を音声認識結果として出力する。
【0086】
次に、図8を参照して、認識対象語彙入力があった場合と環境雑音が入力された場合とにおける環境適応雑音モデルによるリジェクト判定部313の動作について具体例を用いて説明する。
【0087】
図8(a)は認識対象語彙として「こうべ」が入力された場合を示している。認識対象語彙が入力された場合には、認識対象語彙から補正/正規化後の登録語彙尤度が最小となる認識対象語彙「こうべ」が選択される。いま、その補正/正規化尤度をPwとする。
【0088】
一方、環境適応雑音モデルの照合については、環境に適応して選択された認識単位を組み合わせて補正/正規化後の環境雑音尤度が最小となる組み合わせが決定される。例えば、選択されている音素が「う」,「す」,「ふ」で、補正/正規化後の環境雑音尤度が最小となる組み合わせの結果が「ふすす」で、その時の補正/正規化尤度がPnsであるものとする。
【0089】
入力が「こうべ」である場合には、認識対象語彙「こうべ」の補正/正規化尤度Pwは、環境適応雑音モデル「ふすす」の補正/正規化尤度Pnsよりも小さくなるので、認識結果として「こうべ」が出力される。
【0090】
一方、図8(b)に示すように、雑音が入力された場合には、上記の例と同様に認識対象語彙から補正/正規化後の登録語彙尤度が最小となる語彙「こうべ」が選択されたとしても、環境雑音に対して適応的に選択された音素モデル「う」,「す」,「ふ」の組み合わせ(ここでは「ふすす」とする)の補正/正規化後の環境雑音尤度よりも大きくなり、結果としてリジェクトすることができる。
【0091】
次に、リジェクト判定結果に基づいて環境適応雑音モデルを選択する動作について説明する。
【0092】
入力音声が照合尤度によるリジェクト判定部312又は環境適応雑音モデルによるリジェクト判定部313において雑音であると判定された場合には、最適音素系列照合部304で求まる認識単位標準パターンの連結結果は、認識単位標準パターンを、入力された環境雑音に対して最大尤度となるようにパターンマッチングしたものになる。つまり、予め学習された認識単位標準パターン記憶部205の中で、入力された雑音環境の音響特性を最も模擬したパターンが選択されることになる。
【0093】
そこで、最適音素系列照合部304の結果を用いて、新たに環境適応認識単位選択部308において認識単位標準パターンを選択しなおすことで、音声認識装置が使用されている雑音環境に適応した雑音モデルを作成することができる。
【0094】
図9は入力音声が雑音と判定された場合の環境適応の様子を簡単な例で説明するための説明図である。
【0095】
入力音声が雑音であると判定された場合には、環境適応認識単位選択部308は、最適音素系列照合部304で用いられた認識単位標準パターンの統計と過去の履歴を用いて、各認識単位標準パターンの雑音環境における出現頻度を更新し、この結果出現頻度が上位となった標準パターンを次回の雑音モデルとして用いる。このように、入力音声が雑音であると判定された場合に雑音にマッチした標準パターンを選択することにより、雑音モデルは常に環境雑音に適応させることができる。
【0096】
図9の例では初期の認識単位標準パターンとして、出現割合が上位の3つのパターンす,ふ,あが用いられている例を示している。また、図9では、リジェクト判定の結果出現割合が変化し、雑音判定1の結果として、認識単位標準パターンす,ふ,ずを用いたことを示している。更に、雑音判定2の結果として、認識単位標準パターンふ,す,うが用いられることを示している。
【0097】
なお、環境適応認識単位選択部308は、最適音素系列照合部304で用いられた認識単位標準パターンの統計と過去の履歴を用いることなく、最適音素系列照合部304から得られた認識単位標準パターンをそのまま次回の雑音モデルとして設定してもよい。
【0098】
本実施の形態は補正/正規化後の登録語彙尤度によるリジェクト判定と補正/正規化後の環境雑音尤度によるリジェクト判定を行っている。図10はこれらの2つのリジェクト判定による効果を説明するための説明図である。
【0099】
図10は縦軸に照合結果の尤度をとり、実環境として考えられる3つの状況(a),(b),(c)について、最適音素系列照合による尤度(最適尤度)、認識対象語彙の最大尤度(登録語彙尤度)及び環境適応雑音モデルの尤度(環境雑音尤度)を示している。なお、図10では、説明を簡略化するため、認識対象語彙の単語スポッティングによる継続時間長と環境適応雑音モデルの単語スポッティングによる継続時間長は相互に等しいものとする。この場合には、環境適応雑音モデルによるリジェクト判定は、登録語彙尤度及び環境雑音尤度の補正尤度で行えばよい。
【0100】
発声が入力された場合には、図10(a)に示すように、標準パターンの連結に最も自由度が高い最適音素系列照合の最適尤度が最大になる。入力された発声が認識対象語彙に含まれている場合には、該当する認識対象語彙の登録語彙尤度が、最適尤度とほぼ等しくなることが期待される。逆に、環境適応した雑音モデルでは、雑音にマッチした標準パターンしか持たないため、その環境雑音尤度は、正解語彙が発声された場合には小さくなる。
【0101】
この結果、認識対象語彙の補正/正規化後の登録語彙尤度と補正/正規化後の環境雑音尤度との大小比較では、補正/正規化後の登録語彙尤度の方が小さくなり、環境適応雑音モデルによるリジェクト判定ではリジェクトされることはなく、リジェクトの判定は、登録語彙尤度によるリジェクト判定に依存する。
【0102】
次に雑音が入力された場合のうち、認識単位標準パターンが環境雑音を音響的にモデル化したパターンを持つ場合について説明する。
【0103】
この場合には、認識単位標準パターンが環境雑音にマッチしたモデルを持つことから、図10(b)に示すように、人の発声が入力された場合と同様に、最適音素系列照合の最適尤度は大きな値をとることが期待される。一方、認識対象語彙は、入力が環境雑音であるため、認識対象語彙が入力された場合に比べて小さな登録語彙尤度となり、その結果補正/正規化後の登録語彙尤度は大きくなるため、照合尤度によるリジェクト判定によってリジェクト判定される。
【0104】
また、照合尤度によるリジェクト判定によりリジェクト判定されない場合にも、環境適応雑音モデルによる環境雑音尤度は、最適尤度とほぼ等しい値を取ることが期待されるので、環境適応雑音モデルによるリジェクト判定によりリジェクトすることができる。
【0105】
次に雑音が入力された場合のうち、認識単位標準パターンが環境雑音を音響的にモデル化したパターンを持たない場合について説明する。
【0106】
この場合には、認識単位標準パターンは雑音環境にマッチしたモデルを持たないことから、図10(c)に示すように、最適尤度も認識対象語彙の登録語彙尤度も小さな値となり、その結果、補正/正規化後の登録語彙尤度が小さくなり、照合尤度によるリジェクト判定ではリジェクト判定できない場合がある。
【0107】
しかし、環境雑音適応モデルによる照合結果を用いる場合には、入力が雑音と判定されると、認識単位標準パターンから現在の雑音環境で頻出する標準パターンが選択され、これを用いて環境雑音尤度を求めることから、環境雑音尤度は最適尤度と近い値となる。従って、この場合には、環境適応雑音モデルによるリジェクト判定により、入力を雑音と判定することが可能となる。
【0108】
このように、本実施の形態においては、第1及び第2の実施の形態と同様の効果が得られると共に、環境適応雑音モデルによるリジェクト判定と認識対象語彙の登録語彙尤度によるリジェクト判定とを同時に用いており、高い精度で環境雑音の入力をリジェクト判定することができる。
【0109】
【発明の効果】
以上説明したように本発明によれば、雑音環境によらず高い精度で雑音による誤動作を防止することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る音声認識装置を示すブロック図。
【図2】第1の実施の形態の作用を説明するための説明図。
【図3】本発明の第2の実施の形態を示すブロック図
【図4】本発明の第3の実施の形態を示すブロック図。
【図5】単語スポッティングの概念を説明するための説明図。
【図6】照合尤度補正/正規化の概念を説明するための説明図。
【図7】第3の実施の形態の動作を説明するためのフローチャート。
【図8】第3の実施の形態の動作を説明するための説明図。
【図9】雑音判定時の雑音モデル選択(環境適応)の様子を説明するための説明図。
【図10】第3の実施の形態の効果を説明するための説明図。
【符号の説明】
101…音声区間検出部
102…特徴量抽出部
103…認識対象語彙記憶部
104…認識対象語彙照合部
105…環境適応雑音モデル記憶部
106…環境適応雑音モデル照合部
107…リジェクト判定部
108…雑音モデル適応部

Claims (7)

  1. 入力される信号から音声区間を検出する音声区間検出部と、
    入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出部と、
    予め定めた認識対象語彙を記憶する認識対象語彙記憶部と、
    前記認識対象語彙記憶部に記憶された認識対象語彙毎に前記特徴量抽出部で求まる特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合部と、
    認識単位標準パターンを記憶する認識単位標準パターン記憶部と、
    前記認識単位標準パターン記憶部に記憶された前記認識単位標準パターンのうち環境雑音に適応した1つ以上の認識単位標準パターンを選択する環境適応認識単位選択部と、
    前記環境適応認識単位選択部で選択された前記1つ以上の認識単位標準パターンを連結させて前記特徴量抽出部で求まる特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合部と、
    前記認識対象語彙照合部で求めた登録語彙尤度と前記環境適応雑音モデル照合部で得られた環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定部とを具備し、
    前記環境適応認識単位選択部は、前記リジェクト判定部により入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおすことを特徴とする音声認識装置。
  2. 前記認識単位標準パターンは、音素モデルであることを特徴とする請求項1に記載の音声認識装置。
  3. 前記リジェクト判定部は、前記認識対象語彙照合部で求めた登録語彙尤度と前記環境適応雑音モデル照合部で得られた環境雑音尤度とを比較することで、入力が雑音であるか否かを判定することを特徴とする請求項1に記載の音声認識装置。
  4. 前記リジェクト判定部は、前記認識対象語彙照合部で求められた登録語彙尤度を用いてリジェクト判定する第1の判定部と、
    前記環境適応雑音モデル照合部で求められた環境雑音尤度を用いてリジェクト判定する第2の判定部とを具備したことを特徴とする請求項1に記載の音声認識装置。
  5. 前記第1の判定部は、前記認識対象語彙照合部で求められた登録語彙尤度を所定の閾値と大小比較することでリジェクト判定し、
    前記第2の判定部は、前記第1の判定部によって音声であると判定された入力について、前記環境適応雑音モデル照合部で求められた環境雑音尤度を用いてリジェクト判定することを特徴とする請求項4に記載の音声認識装置。
  6. 入力される信号から音声区間を検出する音声区間検出ステップと、
    入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出ステップと、
    予め定めた認識対象語彙を記憶する認識対象語彙記憶部から読出した前記認識対象語彙毎に抽出された前記特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合ステップと、
    認識単位標準パターンを記憶する認識単位標準パターン記憶部から前記認識単位標準パターンのうち環境雑音に適応した1つ以上の認識単位標準パターンを選択する環境適応認識単位選択ステップと、
    選択された前記1つ以上の認識単位標準パターンを連結させて前記特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合ステップと、
    求められた前記登録語彙尤度と前記環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定ステップと、
    入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおすステップとを具備したことを特徴とする音声認識方法。
  7. コンピュータに、
    入力される信号から音声区間を検出する音声区間検出処理と、
    入力音声を分析して音声の特徴を表す特徴量時系列を抽出する特徴量抽出処理と、
    予め定めた認識対象語彙を記憶する認識対象語彙記憶部から読出した前記認識対象語彙毎に抽出された前記特徴量時系列と比較照合し登録語彙尤度を求める認識対象語彙照合処理と、
    認識単位標準パターンを記憶する認識単位標準パターン記憶部から前記認識単位標準パターンのうち環境雑音に適応した1つ以上の認識単位標準パターンを選択する環境適応認識単位選択処理と、
    選択された前記1つ以上の認識単位標準パターンを連結させて前記特徴量時系列と比較照合し環境雑音尤度を求める環境適応雑音モデル照合処理と、
    求められた前記登録語彙尤度と前記環境雑音尤度とに基づいて、入力が雑音であるか否かを判定するリジェクト判定処理と、
    入力された信号が雑音であると判定された場合には、入力信号に適応して前記認識単位標準パターン記憶部に記憶された標準パターンを選択しなおす処理とを実行させるための音声認識プログラム。
JP2001401615A 2001-12-28 2001-12-28 音声認識装置、音声認識方法及び音声認識プログラム Expired - Fee Related JP3826032B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2001401615A JP3826032B2 (ja) 2001-12-28 2001-12-28 音声認識装置、音声認識方法及び音声認識プログラム
US10/329,553 US7260527B2 (en) 2001-12-28 2002-12-27 Speech recognizing apparatus and speech recognizing method
EP02258990A EP1326233A3 (en) 2001-12-28 2002-12-27 Apparatus and method for speech recognition in noise
US11/760,912 US7415408B2 (en) 2001-12-28 2007-06-11 Speech recognizing apparatus with noise model adapting processing unit and speech recognizing method
US11/760,909 US7409341B2 (en) 2001-12-28 2007-06-11 Speech recognizing apparatus with noise model adapting processing unit, speech recognizing method and computer-readable medium
US11/760,902 US7447634B2 (en) 2001-12-28 2007-06-11 Speech recognizing apparatus having optimal phoneme series comparing unit and speech recognizing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001401615A JP3826032B2 (ja) 2001-12-28 2001-12-28 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2003202887A JP2003202887A (ja) 2003-07-18
JP3826032B2 true JP3826032B2 (ja) 2006-09-27

Family

ID=19189794

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001401615A Expired - Fee Related JP3826032B2 (ja) 2001-12-28 2001-12-28 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (3)

Country Link
US (4) US7260527B2 (ja)
EP (1) EP1326233A3 (ja)
JP (1) JP3826032B2 (ja)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
JP4348970B2 (ja) * 2003-03-06 2009-10-21 ソニー株式会社 情報検出装置及び方法、並びにプログラム
KR100745976B1 (ko) 2005-01-12 2007-08-06 삼성전자주식회사 음향 모델을 이용한 음성과 비음성의 구분 방법 및 장치
US7797156B2 (en) * 2005-02-15 2010-09-14 Raytheon Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
US7826945B2 (en) * 2005-07-01 2010-11-02 You Zhang Automobile speech-recognition interface
US7872574B2 (en) * 2006-02-01 2011-01-18 Innovation Specialists, Llc Sensory enhancement systems and methods in personal electronic devices
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
KR100925479B1 (ko) * 2007-09-19 2009-11-06 한국전자통신연구원 음성 인식 방법 및 장치
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US8234111B2 (en) * 2010-06-14 2012-07-31 Google Inc. Speech and noise models for speech recognition
US8639508B2 (en) * 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
JP5799586B2 (ja) * 2011-05-27 2015-10-28 富士通株式会社 生体認証装置、生体認証方法及び生体認証用コンピュータプログラム
US8438023B1 (en) * 2011-09-30 2013-05-07 Google Inc. Warning a user when voice input to a device is likely to fail because of background or other noise
JP5962036B2 (ja) * 2012-01-31 2016-08-03 株式会社島津製作所 磁気検知システム
US20130257780A1 (en) * 2012-03-30 2013-10-03 Charles Baron Voice-Enabled Touchscreen User Interface
US8515746B1 (en) * 2012-06-20 2013-08-20 Google Inc. Selecting speech data for speech recognition vocabulary
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9384738B2 (en) * 2014-06-24 2016-07-05 Google Inc. Dynamic threshold for speaker verification
US10283138B2 (en) 2016-10-03 2019-05-07 Google Llc Noise mitigation for a voice interface device
WO2018173270A1 (ja) * 2017-03-24 2018-09-27 三菱電機株式会社 音声認識装置および音声認識方法
US10468032B2 (en) * 2017-04-10 2019-11-05 Intel Corporation Method and system of speaker recognition using context aware confidence modeling
US10818296B2 (en) 2018-06-21 2020-10-27 Intel Corporation Method and system of robust speaker recognition activation
CN109637525B (zh) * 2019-01-25 2020-06-09 百度在线网络技术(北京)有限公司 用于生成车载声学模型的方法和装置
JP7191792B2 (ja) * 2019-08-23 2022-12-19 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN110808030B (zh) * 2019-11-22 2021-01-22 珠海格力电器股份有限公司 语音唤醒方法、系统、存储介质及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2139052A (en) * 1983-04-20 1984-10-31 Philips Electronic Associated Apparatus for distinguishing between speech and certain other signals
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
US5134658A (en) * 1990-09-27 1992-07-28 Advanced Micro Devices, Inc. Apparatus for discriminating information signals from noise signals in a communication signal
JP2808906B2 (ja) 1991-02-07 1998-10-08 日本電気株式会社 音声認識装置
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
CA2153170C (en) * 1993-11-30 2000-12-19 At&T Corp. Transmitted noise reduction in communications systems
US5604839A (en) * 1994-07-29 1997-02-18 Microsoft Corporation Method and system for improving speech recognition through front-end normalization of feature vectors
JP3533773B2 (ja) 1995-08-24 2004-05-31 株式会社日立製作所 時系列パターン認識処理におけるリジェクト方法およびそれを実装した時系列パターン認識装置
JP2886117B2 (ja) 1995-09-11 1999-04-26 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識装置
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
JP3397568B2 (ja) * 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
JP3428309B2 (ja) 1996-09-24 2003-07-22 松下電器産業株式会社 音声認識装置
JP3069531B2 (ja) 1997-03-14 2000-07-24 日本電信電話株式会社 音声認識方法
JP3105863B2 (ja) 1998-04-02 2000-11-06 日本電気ロボットエンジニアリング株式会社 音声認識雑音除去方式
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
JP3826032B2 (ja) * 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
US7392188B2 (en) * 2003-07-31 2008-06-24 Telefonaktiebolaget Lm Ericsson (Publ) System and method enabling acoustic barge-in

Also Published As

Publication number Publication date
US7447634B2 (en) 2008-11-04
EP1326233A2 (en) 2003-07-09
US7260527B2 (en) 2007-08-21
US20030125943A1 (en) 2003-07-03
US7415408B2 (en) 2008-08-19
EP1326233A3 (en) 2004-07-28
JP2003202887A (ja) 2003-07-18
US20070233476A1 (en) 2007-10-04
US20070233475A1 (en) 2007-10-04
US7409341B2 (en) 2008-08-05
US20070233480A1 (en) 2007-10-04

Similar Documents

Publication Publication Date Title
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US7529665B2 (en) Two stage utterance verification device and method thereof in speech recognition system
EP2048655B1 (en) Context sensitive multi-stage speech recognition
EP1628289B1 (en) Speech recognition system using implicit speaker adaptation
US6029124A (en) Sequential, nonparametric speech recognition and speaker identification
US6125345A (en) Method and apparatus for discriminative utterance verification using multiple confidence measures
US8612235B2 (en) Method and system for considering information about an expected response when performing speech recognition
JP2768274B2 (ja) 音声認識装置
US6922668B1 (en) Speaker recognition
US9245526B2 (en) Dynamic clustering of nametags in an automated speech recognition system
US20020091522A1 (en) System and method for hybrid voice recognition
Li et al. Verbal information verification
US20030200090A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
EP1734509A1 (en) Method and system for speech recognition
US6868381B1 (en) Method and apparatus providing hypothesis driven speech modelling for use in speech recognition
JP2003535366A (ja) パターン分類のためのランクに基づく拒否
US6999929B2 (en) Recognizing speech by selectively canceling model function mixture components
JPH11184491A (ja) 音声認識装置
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JP4749990B2 (ja) 音声認識装置
JP3615088B2 (ja) 音声認識方法及び装置
Herbig et al. Detection of unknown speakers in an unsupervised speech controlled system
JPH0997095A (ja) 音声認識装置
JP2002323899A (ja) 音声認識装置、プログラムおよび記録媒体
Rose et al. A user-configurable system for voice label recognition

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060703

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100707

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees