JP2005534983A - 自動音声認識の方法 - Google Patents

自動音声認識の方法 Download PDF

Info

Publication number
JP2005534983A
JP2005534983A JP2004526650A JP2004526650A JP2005534983A JP 2005534983 A JP2005534983 A JP 2005534983A JP 2004526650 A JP2004526650 A JP 2004526650A JP 2004526650 A JP2004526650 A JP 2004526650A JP 2005534983 A JP2005534983 A JP 2005534983A
Authority
JP
Japan
Prior art keywords
garbage
model
keyword
models
input speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004526650A
Other languages
English (en)
Other versions
JP4246703B2 (ja
JP2005534983A5 (ja
Inventor
シュライフェル、ラルフ
キースリンク、アンドレアス
− ギーンテル ハーシュ、ハンス
Original Assignee
テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフォンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2005534983A publication Critical patent/JP2005534983A/ja
Publication of JP2005534983A5 publication Critical patent/JP2005534983A5/ja
Application granted granted Critical
Publication of JP4246703B2 publication Critical patent/JP4246703B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

入力音声からキーワードを認識する方法は、少なくとも1つのキーワード・モデルと複数のガーベイジ・モデルに基づく。入力音声の一部がキーワード・モデルまたはガーベイジ・シーケンス・モデルのいずれかと最も良く一致すると、その入力音声のその一部は、認識されるべきキーワードとして査定される。ここでガーベイジ・シーケンス・モデルは、その複数のガーベイジ・モデルからの一連の連続ガーベイジ・モデルである。

Description

本発明は、自動音声認識の方法に関する。本発明は特に入力音声(spoken utterance)からキーワードを認識する方法に関する。
入力音声の中の1つまたは複数のキーワードが認識される自動音声認識の方法はキーワード・スポッティングと呼ばれることが多い。認識されるキーワードごとにキーワード・モデルが訓練され格納される。各キーワード・モデルは、話者に依存する音声認識または話者に依存しない音声認識のいずれかに対して訓練される。例えば、単語または句を表す。入力音声自体または入力音声の一部が、以前に生成され格納されているキーワード・モデルのいずれかと最も良く一致する場合は、入力音声からキーワードが抽出される。
近年は、例えば、移動電話機のような移動機器の中でこのような音声認識の方法が使用されている。その上、移動機器は、キーボードを使用する代わりに、音声による命令によって部分的にまたは完全に制御されうる。この方法は、キーボードで移動電話機を操作することが禁止されている車内で使われるハンズフリー機器で使用可能であることが望ましい。このため、移動電話機は、ユーザの入力音声からキーワードが決定されると直ちに起動する。次に移動電話機はさらなる入力音声を注意深く聴取して、入力音声の一部が格納されているキーワード・モデルのいずれかと最も良く一致する場合は、その一部が認識されるべきキーワードであると査定(assess)する。
キーワードは、移動機器が使用される音響環境に依存して、または、例えば、発音のようなユーザの挙動に依存してほぼ正しいと認識される。例えば、入力音声の一部が格納されているキーワードの1つと一致しているが、そのキーワードが認識されるべき所望のキーワードではない場合、査定は誤りでありうる。結果として、発話されたキーワードの総数に対する正しく認識されたキーワードの数であるヒット率は、音響環境とユーザの挙動に強く依存する。
従来の技術とは区別できる自動音声認識の方法は、キーワード・モデルに加えていわゆるガーベイジ・モデルを使用することが多い(参考文献:キーワード・スポッティングのための新しい方法(A new approach towards Keyword Spotting)、Jean-Marc Boite、EUROSPEECH Berlin,1993,1273-1276ページ)。このために複数のガーベイジ・モデルが生成される。いくつかのガーベイジ・モデルは、例えば、唇から出る音(lip smacks)、呼吸、または「ああ(aeh)」とか「うむ(em)」のような時間つなぎの意味のない単語のようなキーワードではない音声を表している。他のガーベイジ・モデルは背景雑音を表すために生成される。ガーベイジ・モデルは、例えば、音素(phoneme)、音素でカバされるクラス(phoneme cover classes)または完全な単語である。これらのガーベイジ・モデルを使用することによって、単位時間当たりの誤って認識されたキーワードの数である誤り警報率(false alarm rate)は低下する。その理由は、キーワードではない音声を含む入力音声の複数部分が、格納されているキーワード・モデルの1つに直接写像される(mapped)からである。しかし、このような方法を使用するとヒット率は低下する。何故ならば、入力音声の一部が、キーワード・モデル自体に対するよりも、複数のガーベイジ・モデルの1つまたは複数とよりよく一致するからである。例えば、認識段階中の音響環境が悪いと、入力音声の一部が、このような音響環境を表すガーベイジ・モデルと一致するからである。結果として、その部分はキーワードの音声ではないと査定されるが、これが所望の結果でないことは勿論である。
したがって、本発明の目的は、ヒット率を向上させ、既知の従来の技術の欠点を回避する音声認識方法を提供することである。
これは、請求項1に記載の方法によって解決される。本発明によれば、少なくとも1つのキーワード・モデルと複数のガーベイジ・モデルにより入力音声からキーワードを認識する方法が提供され、この中で、入力音声の一部がキーワード・モデルまたはガーベイジ・シーケンス・モデルのいずれかと最もよく一致する場合は、その一部が認識されるべきキーワードとして査定され、ガーベイジ・シーケンス・モデルは、その複数ガーベイジ・モデルからの一連の連続したガーベイジ・モデルである。
また本発明の方法は、入力音声の一部がガーベイジ・シーケンス・モデルと最も良く一致する場合は、本質的に入力音声のその一部を認識されるべきキーワードとして査定した。すると、本発明の利点としてヒット率が上がる。その理由は、入力音声からキーワードを認識するために、キーワード・モデルとガーベイジ・シーケンス・モデルの2つのモデルが使用されることである。ここで本発明の文脈における入力音声の一部は、着信音声(incoming utterance)の何らかの時間間隔である。時間間隔の長さは完全な音声か、または音声の短い連続であってもよい。
都合の良いことに、キーワード・モデル自体よりもより良く入力音声と一致するガーベイジ・モデルが連続して存在している場合、本発明による方法はヒット率が低下することを回避する。したがって、本発明の自動音声認識方法は、既存の従来の技術による音声認識方法よりも強靱である。
ガーベイジ・シーケンス・モデルは、認識されるべきキーワードを表すキーワードの音声と複数のガーベイジ・モデルを比較するとともに、該キーワードと最も良く一致するその一連の連続ガーベイジ・モデルを検出することによって決定されることが望ましい。その上、ガーベイジ・シーケンス・モデルは、従来の技術による音声認識方法に使用されている既存のガーベイジ・モデルに基づいて容易に生成される。このような従来の技術は、例えば、何らかの着信音声からキーワードを認識するために1つまたは複数のキーワード・モデルと複数のガーベイジ・モデルが使用される有限状態シンタックス(finite state syntax)に基づいている。本発明によれば、有限状態シンタックスを用いてガーベイジ・シーケンス・モデルが生成されると、このガーベイジ・シーケンス・モデルは複数のガーベイジ・モデルだけを含むが、キーワード・モデルを含まない。キーワードの音声であって、キーワードを表す着信音声は、複数の格納されているガーベイジ・モデルと比較される。この複数のガーベイジ・モデルからの一連の連続ガーベイジ・モデルが、キーワードを最も良く表すガーベイジ・シーケンス・モデルとして決定される。本発明によれば、入力音声の一部がキーワード・モデル、または、その決定されたガーベイジ・シーケンス・モデルのいずれかと一致する場合は、入力音声からキーワードを認識するためにこのガーベイジ・シーケンス・モデルが使用される。
本発明の方法によれば、決定されたガーベイジ・シーケンス・モデルは、複数のガーベイジ・モデルを通る他の経路に対して特権が与えられる。特に決定されたガーベイジ・シーケンス・モデルは、同じ一連の連続ガーベイジ・モデルを含むいかなる経路に対しても特権が与えられる。これにより、入力音声の一部が認識されるべきキーワードとして査定されるが、複数のガーベイジ・モデルを通る同様な経路も存在する。したがって、ヒット率が上がる。何故ならば、入力音声のその一部が認識されるべきキーワードとして査定されることが望ましいからである。
本発明の第1の態様によれば、そのキーワードを表すいくつかのさらなるガーベイジ・シーケンス・モデルが決定されると、入力音声の一部が、そのいくつかのガーベイジ・シーケンス・モデルのどれかと最も良く一致する場合は、入力音声のその一部が、認識されるべきキーワードとして査定される。次にガーベイジ・シーケンス・モデルの総数とキーワード・モデルは、キーワードを認識するために使用される。その上、ヒット率が上がる。何故ならば、わずかに悪い入力音声も、さらなるガーベイジ・シーケンス・モデルのいずどれかと一致することがあるので、キーワードとして査定されるからである。
ガーベイジ・シーケンス・モデルの総数は、ガーベイジ・シーケンス・モデルごとに確率の値を計算するとともに、ガーベイジ・シーケンス・モデル総数として、確率の値が所定の値よりも上にあるそれらガーベイジ・シーケンス・モデルを選択することによって決定されることが望ましい。モデルに対するこのような確率値の計算は、一般に使用される。したがって、キーワードを表すか表さないモデルとして、ガーベイジ・シーケンス・モデルを分類するために使用される所定の確率値が経験的に決定される。
本発明の第2の態様によれば、
−複数のガーベイジ・モデルを通り、入力音声の一部と最も良く一致する経路が検出され、
−ガーベイジ・シーケンス・モデルがその経路に含まれている場合は、その経路に対して尤度が計算され、
−尤度が閾値より上にある場合は、入力音声の一部を認識されるべきキーワードとして査定するため、複数のガーベイジ・モデルを通るその経路が、ガーベイジ・シーケンス・モデルとして仮定される。
このためには、最も良くキーワードを表す1つのガーベイジ・シーケンス・モデルが必要である。このガーベイジ・シーケンス・モデルは、認識段階の前に決定され即座に格納される。認識段階中に複数のガーベイジ・モデルを通り、入力音声と最も良く一致する経路が検出されると、次に続く後処理ステップが適用される。その後処理において、その経路に所定のガーベイジ・シーケンス・モデルが含まれている場合は、尤度が決定される。この尤度が閾値より上にあると、その経路またはその経路の一部はガーベイジ・シーケンス・モデルとして仮定される。その仮定を用いると、入力音声の一部は、認識されるべきキーワードとして査定される。1つだけのガーベイジ・シーケンス・モデルが格納されなければならないので、本発明の第2の態様による認識方法は、メモリの消費がより少ない。したがって、例えば、移動電話機の中のようにメモリの大きさが制限される場合には、この方法を有利に利用することができる。都合の良いことに、閾値は必要に応じていつでも調整されるので、第2の態様による認識方法の融通性は高い。
望ましくは、決定されたガーベイジ・シーケンス・モデル、複数のガーベイジ・モデルを通る検出された経路およびガーベイジ・モデル・コンフュージョン・マトリックスに基づいて尤度が計算されるが、ここでガーベイジ・モデル・コンフュージョン・マトリックスは、ガーベイジ・モデルiが認識され、仮定されたガーベイジ・モデルjが与えられている確率P(i|j)を含む。
都合の良いことに、認識されるべき新しいキーワードのためにキーワード・モデルが生成される場合、少なくとも1つのガーベイジ・シーケンス・モデルが決定される。これによって、本発明の第1と第2の態様による音声認識方法は融通性に富むことになる。何故ならば、ガーベイジ・モデル・シーケンスが、新しいキーワードが生成されると直ちに決定されるからである。これは、話者に依存する認識方法にとっては利点である。この場合、キーワード・モデルは、一般にユーザである一人の話者からの1つまたは複数の入力音声から生成される。この方法は、ユーザからの新しいキーワードが生成されると直ちに適用される。
本発明のさらなる態様は、コンピュータプログラム製品が計算装置の中で実行される場合に、本発明による認識方法を実行するプログラムコード手段を備えたコンピュータプログラム製品に関連する。
望ましくは、このコンピュータプログラム製品は、コンピュータ可読記録用媒体上に格納される。
添付の図とともに以下に記載する好適実施例の詳細な説明を読むと、本発明の利点が明らかになるであろう。
自動音声認識は、入力音声から1つまたは複数のキーワードを認識するために使用される。したがって、適用される認識方法は、有限状態シンタックス(finite state syntax)として描かれる。図4は、1つのキーワードを認識するための従来の技術による有限状態シンタックスを示している。このような有限状態シンタックスは、着信音声(incoming utterance)のあらゆる部分と、認識されるべきキーワードを表すモデルを比較する。図4の中に、認識されるべきキーワードのために生成されたキーワード・モデルが1つの経路として示されている。s更にiを整数とする複数のガーベイジ・モデル、gが示されている。例えば、いくつかのガーベイジ・モデルは、例えば埋め込まれた休止「うむ(em)」または唇から出る音のような発話事象を表す。さらなるガーベイジ・モデルは、背景雑音のような、非発話事象を表している。ガーベイジ・モデルgを予め決めておくためには、キーワードの集合、音声認識が使用される音響環境およびガーベイジ・モデルによってカバーされる発話事象に関する知識を有することが重要である。それだけでなく、有限状態シンタックスの中には、SILモデルと呼ばれる代表的な無音時間を表すさらなる経路が含まれる。認識が活性化すると直ちに、有限状態シンタックスの中の格納されているモデルと各着信音声またはその一部が比較される。そのため、有限状態シンタックスの中で所定のキーワード・モデル、SILモデルおよびガーベイジ・モデルのいずれかを通る経路が決定されると、この経路は、着信音声と最も良く一致する。ここで、経路はモデルの1つだけ、または一連のモデルだけを含むことができる。キーワード・モデル自体が経路の中に含まれている場合は、キーワードが認識される。
本発明の原理的概念によれば、ガーベイジ・シーケンス・モデルが生成されると、そのガーベイジ・シーケンス・モデルはキーワードを表す。ガーベイジ・シーケンス・モデルが着信音声またはその一部と最も良く一致する場合は、このガーベイジ・シーケンス・モデルは着信音声またはそれの一部を、認識されるべきキーワードとして査定するために使用される。本発明におけるガーベイジ・シーケンス・モデルは、一連の連続ガーベイジ・モデルgとして定義される。このようなガーベイジ・モデルは、図2に描かれた有限状態シンタックスに基づいて生成されることが望ましい。ここでガーベイジ・シーケンス・モデルを決定する有限状態シンタックスは、SILモデルと複数のガーベイジ・モデルgだけを含む。SILモデルはオプションである。ガーベイジ・モデルgは、正規の認識段階中に有限状態シンタックスの中で使用されるガーベイジ・モデルと同じである。ガーベイジ・シーケンス・モデルを決定する場合、認識されるべきキーワードの入力音声に、図2に示す有限状態シンタックスが適用される。次に複数のガーベイジ・モデルgを通る経路が選択されると、その経路はキーワードの音声と最も良く一致する。一連の連続ガーベイジ・モデルgであるこの決定された経路は、音声認識段階中に使用され、音声の任意の部分を認識されるべきキーワードとして査定する。本発明によるガーベイジ・シーケンス・モデルの生成は、話者に依存する音声認識と話者に依存しない音声認識とに対して使用されうる。話者に依存する音声認識の場合、所望のキーワードを表すキーワードの音声は、一人の話者から収集された音声である。通常、その話者は、音声認識方法が実施される移動機器のユーザである。話者に依存しない音声認識の場合、キーワードの音声は、複数の話者の抽出標本から収集された音声である。代替方法として、キーワードの音声は、既に訓練され格納されている参照モデルである。
本発明の第1の態様による方法を図1に示す例によって説明する。ここで、有限状態シンタックスは、1つのキーワード・モデル、1つのSILモデルおよび複数のガーベイジ・モデルgを有する。その上、本発明に従って生成された正確に1つのガーベイジ・シーケンス・モデルが使用される。この例におけるガーベイジ・シーケンス・モデルは、図2に示すシンタックスに基づいて決定される連続ガーベイジ・モデルg−g−g−g−g−gから構成される。次に図1に示す有限状態シンタックスが着信音声に適用される。その上、ヒット率が上がる。何故ならば、入力音声の一部がキーワード・モデルか決定されたガーベイジ・シーケンス・モデルのいずれかと最も良く一致する場合は、キーワードが認識されるからである。図1に示す有限状態シンタックスに基づいて本発明の第1の態様による方法が説明され、正確に1つのガーベイジ・シーケンス・モデルが使用されているとしても、本発明はその例に限定されない。認識されるべきキーワードごとにN個のさらなるガーベイジ・シーケンス・モデルが存在することができる。最初に決定されたガーベイジ・シーケンス・モデルに追加されるこれらのN個のガーベイジ・シーケンス・モデルにより、ヒット率は更に上がる。総数Nは、N+1個のガーベイジ・シーケンス・モデルのそれぞれがキーワードを表す確率に基づいて限定される。したがって、決定されたガーベイジ・シーケンス・モデルごとに確率値が計算される。次にこれらのガーベイジ・シーケンス・モデルは、確率値がある閾値以上である総数N+1個のガーベイジ・シーケンス・モデルとして選択される。代表的な閾値は、最大の使用可能な確率値の90%である確率値として仮定されるが、ここで最大の使用可能な確率値とは最良のガーベイジ・シーケンス・モデルの確率値である。ガーベイジ・シーケンス・モデルの総数N+1個を動作可能な量に限定するため、使用されるガーベイジ・シーケンス・モデルの総数N+1個は最大10に限定されなければならない。
都合の良いことに、決定されたガーベイジ・シーケンス・モデルは、複数のガーベイジ・モデルを通るどの経路に対しても特権が与えられる。特にガーベイジ・シーケンス・モデルを決定したその一連の連続ガーベイジ・モデルは、複数のガーベイジ・モデルからの同じ一連の連続ガーベイジ・モデルよりも常に高く重み付けされる。そのためヒット率が上がる。何故ならば、一連の連続ガーベイジ・モデルが入力音声と最も良く一致すると直ちに、ガーベイジ・シーケンス・モデルが選択され、入力音声の一部が、認識されるべきキーワードとして査定されるからである。本発明が、1つのキーワードに対する有限状態シンタックスに基づいて説明されているとしても、本発明は2つ以上のキーワードに対しても使用可能である。そのガーベイジ・シーケンス・モデルに特権を与えるため、複数のガーベイジ・モデルからのガーベイジ・モデルに対してペナルティが定義される。これによって、複数のガーベイジ・モデルを通る同一の一連のガーベイジ・モデルに比較して、ガーベイジ・シーケンス・モデルの確率がより高くなる。
複数のガーベイジ・モデルを通る経路から所定のガーベイジ・シーケンス・モデルに対するマッピングが図3に示されている。キーワード・モデルと最も良く一致する決定されたガーベイジ・シーケンス・モデルg−g−g−g−g−gが横座標に示されている。着信入力音声の一部と最も良く一致し、複数のガーベイジ・モデルを通る検出された経路がt軸に示されている。例えば、図2に示す有限状態シンタックスに従って実行される決定されたガーベイジ・シーケンス・モデルは既に定義されている。しかし、第1の態様による方法とは反対に、そのガーベイジ・シーケンス・モデルを直接使用せずに入力音声の一部を認識されるべきキーワードとして査定する。むしろ認識のためには、図4に示す従来の技術による有限状態シンタックスが使用される。第1のステップで、複数のガーベイジ・モデルを通る経路が検出されると、その経路は入力音声と最も良く一致する。次に後処理において、その検出された経路は所定のガーベイジ・シーケンス・モデルと比較される。したがって、所定のガーベイジ・シーケンス・モデルが検出された経路の中に含まれる尤度が計算される。この尤度がある閾値以上の場合、最終的にその経路がガーベイジ・シーケンス・モデルとして仮定される。その経路がガーベイジ・シーケンス・モデルと仮定される場合、入力音声の一部は、認識されるべきキーワードとして査定される。また本発明の第2の態様による方法は、ヒット率を上げる。第1の態様による方法とは反対に、この方法はより融通性に富んでいるが、より多くの計算量を必要とする。ここでは、キーワード・モデルごとに1つだけのガーベイジ・シーケンス・モデルが格納されなければならず、認識処理は後処理計算である。図3に基づいて、キーワードが査定される後処理計算を詳細に説明する。複数のガーベイジ・モデルを通る検出された経路の中にガーベイジ・シーケンス・モデルが含まれる尤度を計算することによって、ソフト比較(soft comparison)が適用される。この尤度は、例えば、ダイナミックプログラミング(参考文献:ダイナミックプログラミング、Bellman. R.E.、プリンストン大学出版局、1972)とガーベイジ・モデル・コンフュージョン・マトリックスを使用することによって計算される。図3に示されている格子の各点において、所定のガーベイジ・シーケンス・モデルと、決定された経路が一致する尤度を説明する確率が計算される。したがって、ガーベイジ・モデル・コンフュージョン・マトリックスから知られているi≠jでi、jを整数とする確率P(gi|gj)が、放出(emission)の確率として使用される。代替方法として、同様により高いオーダの統計的モデルを使用しても良い。時間tにおけるガーベイジ・モデルgから離散時間t+1におけるガーベイジ・モデルgへ移行する遷移確率は、すべてのi、j、tに対して一定であるので、検索において考慮されなくても良い。またtからt+1までの間にガーベイジ・シーケンス・モデルの同じガーベイジ・モデルの中にとどまるか、次のガーベイジ・モデルに移行するか、ガーベイジ・モデルをスキップするかのいずれかが許される。したがって、図3に示すように、ガーベイジ・シーケンス・モデルが経路の中で正確に発見されない場合は、ダイナミックプログラミングによる検索は、tから(t+M)までの時間間隔内のガーベイジ・シーケンスに対して最良の確率を与える。後処理ステップにおいては、格子回路を通るすべての可能な経路が計算され、確率が最高の経路が、査定するステップのために使用される。最終ステップにおいてはダイナミックプログラミングにより所定の閾値より高い確率が与えられる場合は、認識されるべきキーワードとして入力音声の一部が査定される。この場合も本発明の第2の態様による方法は、1つだけのキーワードの認識に限定されない。2つ以上のキーワードの場合、この方法は、複数のキーワードのそれぞれに対して適用される。
本発明の原理的概念による方法は、ヒット率を上げる。ヒット率は、説明した本発明の両態様によって更に上がる。本発明の第1の態様による方法は、実施が容易であるとともに、あまり計算量を必要としない。本発明の第2の態様による方法の融通性はより大きい。本発明の第1と第2の態様の特徴を組み合わせる方法を適用すると、ヒット率を更に上げることができる。したがって、本発明の第1の態様に従って経路が1つまたは複数の所定のガーベイジ・シーケンス・モデルと直接最も良く一致する場合、または、本発明の第2の態様に従って経路がガーベイジ・シーケンス・モデルとして仮定される場合、入力音声の一部はキーワードとして査定される。その上、本発明の音声認識方法は融通性があるとともに、本発明が実施される移動機器内の、例えば、メモリサイズが限定されているような移動機器の限界に十分適応する。
図5は、例えば、移動電話機のような移動機器内の自動音声認識装置100のブロック図を示している。(図示のように)いくつかの部分として、または1つの中央部分として構成される音声認識装置100の中央部分は、パターン整合器120、メモリ部分130およびコントローラ部分140である。パターン整合器120は、キーワード・モデル、ガーベイジ・モデル、SILモデルおよびガーベイジ・シーケンス・モデルを格納することができるメモリ部分130と接続される。キーワード・モデル、SILモデルおよびガーベイジ・モデルは、周知の従来の技術による手法に従って生成される。ガーベイジ・シーケンス・モデルは、上記説明のように、本発明に従って決定される。コントローラ部分140は、パターン整合器120とメモリ部分130に接続される。コントローラ部分140、パターン整合器120およびメモリ部分130は、本発明の自動音声認識方法のいずれかを実行する中央部分である。移動機器のユーザから発話される音声は、マイクロフォン210からアナログ信号に変換される。このアナログ信号は、AD変換器220からデジタル信号に変換される。そのデジタル信号は、プリプロセッサ部分110からパラメトリック記述(parametric description)に変換される。プリプロセッサ部分110は、コントローラ部分140とパターン整合器120に接続される。パターン整合器120は本発明による有限状態シンタックスに基づいて、入力音声のパラメトリック記述と、メモリ部分130の中に格納されている各種モデルを比較する。入力音声の少なくとも一部からのパラメトリック記述がメモリ部分130の中に格納されたモデルの1つと一致すると、何が認識されると査定されるかの表示がユーザに与えられる。表示された認識結果は、移動機器の拡声器によって、またはディスプレイ(図示されず)上でユーザに伝えられる。
従来の技術から周知されている音声認識装置とは反対に、本発明による自動音声認識装置は、入力音声のいずれかの部分が、決定されメモリ部分に格納されたガーベイジ・シーケンス・モデルの少なくとも1つと最も良く一致する場合は、入力音声のその部分を認識されるべきキーワードとして査定する。その上、ヒット率が上がる。
本発明の第1の態様によるキーワード・スポッティング用有限状態シンタックスを示す図である。 本発明に従ってガーベイジ・シーケンス・モデルを決定するための有限状態シンタックスを示す図である。 本発明の第2の態様に従って複数のガーベイジ・モデルを通る経路をガーベイジ・シーケンス・モデルにマッピングすることを示す図である。 従来の技術によるキーワード・スポッティング用有限状態シンタックスを示す図である。 移動機器内の自動音声認識装置のブロック図を示す図である。

Claims (16)

  1. 少なくとも1つのキーワード・モデルと複数のガーベイジ・モデルとにより入力音声からキーワードを認識する方法において、
    入力音声の一部が前記キーワードまたはガーベイジ・シーケンス・モデルと最も良く一致する場合は、前記入力音声の一部は認識されるべきキーワードとして査定され、
    前記ガーベイジ・シーケンス・モデルは、前記複数のガーベイジ・モデルからの一連の連続ガーベイジ・モデルである方法。
  2. 請求項1に記載の方法において、前記ガーベイジ・シーケンス・モデルは、
    −認識されるべきキーワードを表すキーワードの音声と、前記複数のガーベイジ・モデルを比較するとともに、
    −前記複数のガーベイジ・モデルから、認識されるべきキーワードと最も良く一致する一連の連続ガーベイジ・モデルを検出することによって、
    決定される前記方法。
  3. 請求項1または請求項2に記載の方法において、
    −前記決定されたガーベイジ・シーケンス・モデルは、前記複数のガーベイジ・モデルを通るいずれの経路に対しても特権が与えられる前記方法。
  4. 請求項1から請求項3のいずれかに記載の方法であって、更に、
    −認識されるべき前記キーワードを表すいくつか(N個)のさらなるガーベイジ・シーケンス・モデルを決定し、
    −前記入力音声の前記一部が前記個数(N個)のガーベイジ・シーケンス・モデルのいずれかと最も良く一致する場合は、前記入力音声の前記一部を、認識されるべき前記キーワードとして査定する、
    前記方法。
  5. 請求項4に記載の方法において、総数(N+1個)のガーベイジ・シーケンス・モデルは、
    −ガーベイジ・シーケンス・モデルごとに確率値を計算するとともに、
    −これらのガーベイジ・シーケンス・モデルを、前記確率値が所定の値より上の総数(N+1個)のガーベイジ・シーケンス・モデルとして選択することによって、
    決定される前記方法。
  6. 請求項1から請求項5のいずれかに記載の方法であって、更に、
    −前記複数のガーベイジ・モデルを通るとともに前記入力音声と最も良く一致する経路を決定し、
    −前記ガーベイジ・シーケンス・モデルが前記経路の中に含まれている場合は、前記経路の尤度を計算する、
    前記方法において、
    −前記尤度が閾値より上の場合、前記入力音声の一部を認識されるべきキーワードとして査定するために、前記複数のガーベイジ・モデルを通る前記経路は前記ガーベイジ・シーケンス・モデルと仮定される、
    前記方法。
  7. 請求項6に記載の方法において、
    −前記尤度は、前記決定されたガーベイジ・シーケンス・モデル、前記複数のガーベイジ・モデルを通る前記検出された経路およびガーベイジ・モデル・コンフュージョン・マトリックスに基づいて計算され、
    −前記ガーベイジ・モデル・コンフュージョン・マトリックスは、ガーベイジ・モデルiが認識され、仮定されたガーベイジ・モデルjが与えられている確率P(i|j)を含む、
    前記方法。
  8. 請求項7に記載の方法において、前記尤度は、ダイナミックプログラミングの手法を用いて計算される前記方法。
  9. 請求項1から請求項8のいずれかに記載の方法において、少なくとも1つのガーベイジ・シーケンス・モデルは、認識されるべき新しいキーワードのためにキーワード・モデルが生成される場合に決定される前記方法。
  10. 請求項1から請求項9のいずれかに記載の方法において、キーワード入力音声は、一人の話者から収集された音声である前記方法。
  11. 請求項1から請求項9のいずれかに記載の方法において、キーワード入力音声は、複数の話者の抽出標本から収集された音声である前記方法。
  12. 請求項1から請求項9のいずれかに記載の方法において、キーワード入力音声は、参照モデルである前記方法。
  13. コンピュータプログラム製品が計算装置内で実行される場合、請求項1から請求項12の1つに記載のステップを実行するプログラムコード手段を備えたコンピュータプログラム製品。
  14. コンピュータ可読記録媒体上に格納され、請求項13に記載のプログラムコード手段を備えたコンピュータプログラム製品。
  15. 請求項1から請求項12のいずれかに記載の方法が実施される自動音声認識装置100であって、
    −マイクロフォン(210)に向かって発話され、AD変換器の中で変換されるデジタル信号を、パラメトリック記述に変換することができる前処理部分(110)と、
    −キーワード・モデル、SILモデル、ガーベイジ・モデルおよびガーベイジ・シーケンス・モデルを格納可能なメモリ部分(130)と、
    −前記入力音声の前記パラメトリック記述が、前記格納されたキーワード・モデル、SILモデル、ガーベイジ・モデルおよびガーベイジ・シーケンス・モデルと比較可能であるパターン整合器(120)と、
    前記パターン整合器(120)と前記メモリ部分(130)の組み合わせで自動音声認識が実行可能であるコントローラ部分(140)と、
    を含む自動音声認識装置。
  16. 請求項15に記載の自動音声認識装置を備えた移動機器において、該移動機器は、移動電話機である移動機器。
JP2004526650A 2002-08-01 2002-08-01 自動音声認識の方法 Expired - Fee Related JP4246703B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2002/008585 WO2004015686A1 (en) 2002-08-01 2002-08-01 Method for automatic speech recognition

Publications (3)

Publication Number Publication Date
JP2005534983A true JP2005534983A (ja) 2005-11-17
JP2005534983A5 JP2005534983A5 (ja) 2008-05-22
JP4246703B2 JP4246703B2 (ja) 2009-04-02

Family

ID=31502672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004526650A Expired - Fee Related JP4246703B2 (ja) 2002-08-01 2002-08-01 自動音声認識の方法

Country Status (7)

Country Link
US (1) US20050273334A1 (ja)
EP (1) EP1525577B1 (ja)
JP (1) JP4246703B2 (ja)
CN (1) CN1639768B (ja)
AU (1) AU2002325930A1 (ja)
DE (1) DE60212725T2 (ja)
WO (1) WO2004015686A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2010044171A (ja) * 2008-08-11 2010-02-25 Asahi Kasei Corp 字幕出力装置、字幕出力方法及びプログラム

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7617094B2 (en) 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US7698141B2 (en) * 2003-02-28 2010-04-13 Palo Alto Research Center Incorporated Methods, apparatus, and products for automatically managing conversational floors in computer-mediated communications
KR100883652B1 (ko) * 2006-08-03 2009-02-18 삼성전자주식회사 음성 구간 검출 방법 및 장치, 및 이를 이용한 음성 인식시스템
CN101166159B (zh) 2006-10-18 2010-07-28 阿里巴巴集团控股有限公司 一种确定垃圾信息的方法及系统
DE102007033472A1 (de) * 2007-07-18 2009-01-29 Siemens Ag Verfahren zur Spracherkennung
US8527263B2 (en) * 2008-07-01 2013-09-03 International Business Machines Corporation Method and system for automatically generating reminders in response to detecting key terms within a communication
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
CN101447185B (zh) * 2008-12-08 2012-08-08 深圳市北科瑞声科技有限公司 一种基于内容的音频快速分类方法
KR101122590B1 (ko) 2011-06-22 2012-03-16 (주)지앤넷 음성 데이터 분할에 의한 음성 인식 장치 및 방법
KR101330671B1 (ko) * 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
CN103971685B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 语音命令识别方法和系统
WO2015171154A1 (en) * 2014-05-09 2015-11-12 Nuance Communications, Inc. Methods and apparatus for speech recognition using a garbage model
GB201408302D0 (en) * 2014-05-12 2014-06-25 Jpy Plc Unifying text and audio
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105161096B (zh) * 2015-09-22 2017-05-10 百度在线网络技术(北京)有限公司 基于垃圾模型的语音识别处理方法及装置
CN106653022B (zh) * 2016-12-29 2020-06-23 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN108564941B (zh) 2018-03-22 2020-06-02 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
US11132990B1 (en) * 2019-06-26 2021-09-28 Amazon Technologies, Inc. Wakeword and acoustic event detection
US11043218B1 (en) * 2019-06-26 2021-06-22 Amazon Technologies, Inc. Wakeword and acoustic event detection

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5613037A (en) * 1993-12-21 1997-03-18 Lucent Technologies Inc. Rejection of non-digit strings for connected digit speech recognition
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
US6778959B1 (en) * 1999-10-21 2004-08-17 Sony Corporation System and method for speech verification using out-of-vocabulary models
US6654733B1 (en) * 2000-01-18 2003-11-25 Microsoft Corporation Fuzzy keyboard
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US6438519B1 (en) * 2000-05-31 2002-08-20 Motorola, Inc. Apparatus and method for rejecting out-of-class inputs for pattern classification
EP1215654B1 (en) * 2000-12-13 2006-05-24 Sony Deutschland GmbH Method for recognizing speech
ATE261607T1 (de) * 2000-12-14 2004-03-15 Ericsson Telefon Ab L M Sprachgesteuertes tragbares endgerät
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003205A (ja) * 2007-06-22 2009-01-08 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2010044171A (ja) * 2008-08-11 2010-02-25 Asahi Kasei Corp 字幕出力装置、字幕出力方法及びプログラム

Also Published As

Publication number Publication date
AU2002325930A1 (en) 2004-02-25
US20050273334A1 (en) 2005-12-08
CN1639768B (zh) 2010-05-26
JP4246703B2 (ja) 2009-04-02
DE60212725D1 (de) 2006-08-03
EP1525577A1 (en) 2005-04-27
EP1525577B1 (en) 2006-06-21
WO2004015686A1 (en) 2004-02-19
DE60212725T2 (de) 2007-06-28
CN1639768A (zh) 2005-07-13

Similar Documents

Publication Publication Date Title
JP4246703B2 (ja) 自動音声認識の方法
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
US8694316B2 (en) Methods, apparatus and computer programs for automatic speech recognition
US7272561B2 (en) Speech recognition device and speech recognition method
EP1936606A1 (en) Multi-stage speech recognition
US20220343895A1 (en) User-defined keyword spotting
JPH07210190A (ja) 音声認識方法及びシステム
JPH0394299A (ja) 音声認識方法と音声認識装置訓練方法
JPH08234788A (ja) 音声認識のバイアス等化方法および装置
US20080154596A1 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
JPH07334184A (ja) 音響カテゴリ平均値計算装置及び適応化装置
KR20080107376A (ko) 화자 독립 음성 인식을 구비한 통신 장치
JP2011170087A (ja) 音声認識装置
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템
JP2004251998A (ja) 対話理解装置
JP2003177788A (ja) 音声対話システムおよびその方法
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JPH11202895A (ja) 音声認識システムと方法およびそのプログラムを記録した記録媒体
JP2003058184A (ja) 機器制御システム、音声認識装置及び方法、並びにプログラム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
KR20050021583A (ko) 자동 음성 인식을 위한 방법
JP2008107408A (ja) 音声認識装置
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050620

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060331

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20060331

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071112

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20080312

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20080313

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20080319

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20080313

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081212

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090108

R150 Certificate of patent or registration of utility model

Ref document number: 4246703

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees