JP4638970B2

JP4638970B2 - 音声認識装置の適応化方法

Info

Publication number: JP4638970B2
Application number: JP2000014227A
Authority: JP
Inventors: ゴロンジーシルケ; コンペラルフ; ブフナーペーター
Original assignee: ソニーインターナショナル（ヨーロッパ）ゲゼルシャフトミットベシュレンクテルハフツング
Priority date: 1999-01-20
Filing date: 2000-01-20
Publication date: 2011-02-23
Anticipated expiration: 2020-01-20
Also published as: EP1022724A1; EP1022724B1; DE69939151D1; EP1022724B8; JP2000214879A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置の適応化方法に関し、特に音声認識装置におけるモデルに対する不適切な単語の適応化を回避する音声認識装置の適応化方法に関する。
【０００２】
【従来の技術】
従来の音声認識装置は、任意の音声セグメント（speech segment）の音響特性（acoustic properties）をモデル化した統計的な分布（statistical distribution）を利用している。これらの音響特性は、特徴ベクトル（feature vectors）にエンコードされる。例えば、各音素（phoneme）に対して１つのガウス分布を得ることができる。これらの分布は、それぞれ１つの状態と対応付けられる。（確率的な）状態遷移ネットワーク、例えば隠れマルコフモデル（Hidden MarkovModel：以下、ＨＭＭｓという。）は、状態の連続及び特徴ベクトルの連続の確率を定義する。状態を進める毎に、音声信号のフレーム、例えば音声信号の１０ｍｓ分をカバーする１つの特徴ベクトルが生成される。
【０００３】
このような音声認識装置の確率パラメータは、特定話者（Speaker Dependent：以下、ＳＤという。）方式では単一話者が発した多量の音声データを用い、又は不特定話者（Speaker Independent：以下、ＳIという。）方式では多くの話者が発した多量の音声データを用いて学習される。
【０００４】
話者適応化手法（Speaker Adaptation：以下、ＳＡという。）は、不特定話者（ＳＩ）方式の認識率を高める目的で広く利用されている。従来の特定話者（ＳＤ）方式は、不特定話者（ＳＩ）方式に比べてはるかに高い認識率が得られる。しかし、多くの場合、単一話者から音声認識装置が学習するのに十分なデータを得ることは容易でない。民生用機器においては、十分なデータを得ることは更に困難である。この認識率の差を解決するために、話者適応化アルゴリズムが広く用いられている。この話者適応化アルゴリズムを用いることによって、特定話者（ＳＤ）方式における特定話者データと比べると少量の特定話者データを使用するだけで、不特定話者（ＳＩ）方式において、特定話者（ＳＤ）方式に近い認識率を得ることができる。このような話者適応化手法では、最初は話者不特定モデルを用い、その後、より話者の音響特性に一致するように適応化が行われる。
【０００５】
適応化は、一般的には、教示（supervised）によって行われる。すなわち、音声認識装置は、発せられた単語（words）が分かると、それらを認識する。これによって、セグメント単位の分布（segment-specific distributions）の時間的な配列（time alignment）が得られる。適応化は、実際の特徴ベクトルと対応する分布のパラメータの違い（mismatch）を基礎として行われる。教示による適応化（supervised adaptation）では、新しい話者が音声認識装置を実際に使用する前に、新しい話者毎の適応授業（セッション）が必要とされる。
【０００６】
話者適応化の技術では、一般的に、隠れマルコフモデルのパラメータを、新しい話者の音響特性に適合するように変更する。この処理は、一般的には、バッチ処理（batch）又はオフライン処理（off-line）で行われる。すなわち、話者は、音声認識装置を用いて認識を行わせる前に、所定の文章（text）を読み上げる必要があり、読み上げられた文章は、適応化を行うために処理される。そして、この処理が終了した後、話者は、この音声認識装置を認識のために用いることができる。文章が音声認識装置にとって既知のものであり、音声信号を文章に対応するモデルに強制配列して、この強制配列が認識に用いられるので、このモードは教示適応（supervised adaptation）と呼ばれる。
【０００７】
しかしながら、殆どの種類の民生用機器に対しては、非教示又はオンライン方式（unsupervised or on-line method）の方がより適している。この場合、適応化は、音声認識装置が使用されている最中に行われる。認識された発話（utterance）は、適応化のために用いられ、また、変更されたモデルは、次の発話の認識のために用いられる。この場合、読み上げられる文章は、音声認識装置には未知のものであるので、認識された単語が代わりに用いられる。
【０００８】
特定の話者の発話の認識をより向上させるために、１つの話者適応モデルのセットに対する適応化が繰り返し行われる。話者適応化の方法が幾つかあり、例えば帰納的最大確率（maximum a posteriori probability：ＭＡＰ）適応化や、最尤線形回帰（maximum likelihood linear regression：ＭＬＬＲ）適応化がある。
【０００９】
【発明が解決しようとする課題】
音声認識装置には、辞書に互いに類似音を持つ単語が多数存在するという問題がある。すなわち、これらの互いに類似音を持つ単語間での識別が困難で、これはしばしば誤認識の原因となる。音声認識装置が特定の話者に対するモデルを改善するために、非教示による話者適応化を行う場合、こういった誤認識によって、不適切な適応化が行われ、認識率が低下してしまう。その結果、その特定の話者に対するモデルは、不適切なモデルに変更されてしまう。
【００１０】
従来の音声認識装置では、正しい文章の構成を定義する文法及び言語モデルを用いて、互いに類似音を持つ単語間での識別の際に問題となる単語間の音の紛らわしさの処理が試みられ、成功する場合もある。
【００１１】
別の方法として、ヨーロッパ特許出願公開番号０７６３８１２Ａ１号には、ある単語の（他の単語との）紛らわしさの度合いを低くするための確認方法が開示されている。これは数学的アプローチで、尤度尺度が、最もよく認識されたn個の単語列（word strings）を検証するために用いられる。検証処理の解、すなわちロス関数（loss function）の微分（derivation）は、音声認識装置を使用するに先立って行われるＨＭＭｓ学習のための最適化規準として用いられる。この場合、全ての発話は学習のために用いられ、この方法は、紛らわしい単語の尤度（likelihood）の差を最大にするために用いられる。
【００１２】
ところが、教示による音声認識装置、特に非教示による音声認識装置において誤認識は起こり、不適切なＨＭＭｓが適応化に用いられてしまう。このようなことが繰り返し起こると、認識性能は大幅に低下する。
【００１３】
本発明は、上述した実情に鑑みてなされたものであり、本発明の目的は、音声認識装置におけるモデルに対する不適切な単語の適応化を回避できる音声認識装置の適応化方法を提供することである。
【００１４】
【課題を解決するための手段】
誤認識された単語が紛らわしい、例えば他の単語との紛らわしさの度合いが高い場合、誤認識された単語に基づいて適応化が行われることを回避することによって、上述した問題点は解決できる。
【００１５】
本発明に係る音声認識装置の適応化方法では、音声認識装置の単語登録辞書に登録された単語に他の単語との紛らわしさの情報を付加しておき、音声認識装置が、紛らわしいとしてマークが付けられた単語を認識する場合には、ユーザにその認識結果の適否を確認させることにより認識結果を二重に確かめる。音声認識装置が確実に単語を正しく認識する時だけ、その単語は適応化に用いられる。一方、紛らわしいとしてマークが付けられていない単語に関しては、音声認識装置は、他の検証方法を用いてその単語の認識結果を検証し、その後、検証された単語は適応化に用いられる。または、他の検証方法を用いずに、そのままその紛らわしいとしてマークが付けられていない単語を適応化に用いてもよい。
【００１６】
認識処理の前において、辞書においてどの単語が他の単語と紛らわしいかを決定する。例えばこれを、単語の総音素数と他の単語の音素とは異なる音素の数とを比較及び演算処理することによって行ってもよい。または、辞書における全単語を表すテンプレート音声信号（template speech signal）のセットを使って各単語間の距離を算出して行ってもよい。そのようなテンプレート音声信号のセットは隠れマルコフモデルが望ましいが、別のものでもよい。
【００１７】
また、辞書に含まれるある単語と他の単語の紛らわしさの度合いを等級を付けて区別してもよい。その紛らわしさの度合いの等級を音素列（phoneme strings）間及び／又はＨＭＭｓ間の類似度を測定するという既知の類似測定法を用いて、手動又は自動的に決定してもよい。この場合、紛らわしさの度合いの高い単語だけでなく、ともかく紛らわしい単語の認識結果も同様にユーザによって確認される必要がある。尚、それは別の技法で検証されてもよい。
【００１８】
辞書における各単語には、その単語が紛らわしいものなのかに関する情報と、どの単語と紛らわしいのかに関する情報と、その紛らわしさの度合いに関する情報とが付加されている。認識の最中に、予め紛らわしいとしてマークが付けられた単語が、例えば、紛らわしさの度合いが高いと区別された単語が認識される場合、ユーザに対し認識結果の適否を確認し、それが誤認識の場合は、ユーザに要求して発話を繰り返させる。あるいは、ユーザに誤認識された単語を綴らせてもよい。ユーザ・インターフェース（user interface）としてのキーボードがある場合は、ユーザにその単語を入力させてもよいし、この訂正には他の入力方法を用いてもよい。訂正された後は、音声認識装置は、はじめに誤認識された単語の音声信号に対応する適切な単語を正しく認識することができ、この正しく認識された単語は適応化に用いられる。単語が紛らわしいものでない場合は、ユーザに対し確認する必要はないが、認識結果の信頼度を別の方法により検証してもよい。尚、音声認識装置における適応化は、例えば話者不特定隠れマルコフモデルの話者適応マルコフモデルに対する適応化であり、その適応化の方法には、帰納的最大確率（maximum a posteriori probability：ＭＡＰ）適応化や、最尤線形回帰（maximum likelihood linear regression：ＭＬＬＲ）適応化がある。
【００１９】
本発明に係る音声認識装置の適応化方法により、紛らわしさの高い単語の識別が容易になり、紛らわしいとされる単語の誤認識を減らすことができるので、常に正しいモデルが適応化に用いられる。
【００２０】
【発明の実施の形態】
以下、本発明に係る音声認識装置の適応化方法について、図面を参照しながら説明する。
【００２１】
図１は、認識処理の前において、辞書における単語間の紛らわしさを決定する方法を示す。辞書においてどの単語が他の単語との紛らわしさが高いのかがここで決定される。
【００２２】
ステップＳ０において処理が開始し、ステップＳ１において、他の単語を処理するかどうかが確認される。追加処理する単語がない場合は（ＮＯ）、ステップＳ６へ進み処理は終わる。追加処理する単語がある場合は（ＹＥＳ）、ステップＳ２へ進み、そこで辞書に新しい単語が追加される。その後ステップＳ３において、既に登録されている全単語とこの新しい単語との紛らわしさが算出される。
【００２３】
上述したように、紛らわしさを算出する方法が幾つかあり、またその解、すなわち紛らわしさの度合いを分類する方法も幾つかある。例えば、単語は、その単語の総音素数と他の単語の音素とは異なる音素の数とを比較及び演算処理することによって紛らわしいとしてマークが付けられてもよい。あるいは、辞書における各単語間の距離をそれら全単語を表すテンプレート音声信号のセットを用いて算出することよって、紛らわしいとしてマークが付けられてもよい。尚、このテンプレート音声信号のセットは、隠れマルコフモデルであるのが望ましい。
【００２４】
ステップＳ４において、この新しい単語と他の単語との紛らわしさの度合いが高いかどうかが決定される。尚、本発明において、単語と他の単語との紛らわしさの度合いが高いかどうかを判断する方法は、これに限らない。例えば、ステップＳ４において、単語がともかく他の単語と紛らわしいのかどうかが確かめられ、紛らわしさの度合いは、次のステップで判断されてもよい。しかし、この実施例では紛らわしさの度合いは、ステップＳ４において既に分類されている。
【００２５】
新しい単語と他の単語との紛らわしさの度合いが高い場合には（ＹＥＳ）、ステップＳ５において、この新しい単語は紛らわしさの度合いが高いと区別される。その後、ステップＳ１の処理へ戻り、別の単語の処理が必要かどうかが確かめられる。ステップＳ４において、単語の紛らわしさの度合いが高いと見なされない場合には（ＮＯ）、直接ステップＳ１の処理へ戻る。
【００２６】
図２は、本発明を適用した音声認識装置の適応化方法を示す無限ループ（endless loop）である。
【００２７】
ステップＳ９において、ユーザが音声認識装置に発話した後、ステップＳ１０において、この発話が認識される。ステップＳ１１において、認識された発話の単語と他の単語との紛らわしさの度合いが高いかどうかが確かめられる。
【００２８】
ステップＳ１１において、認識された単語が辞書に登録済みの単語のうちの少なくとも１単語との紛らわしさの度合いが高いと見なされる場合には（ＹＥＳ）、ステップＳ１２において、ユーザに認識結果の適否を確認させる。認識結果が不適切である時には、ユーザに要求して誤認識した単語を繰り返し発話させる。あるいはユーザに要求して誤認識した単語を綴らせる。ユーザ・インターフェース（user interface）としてのキーボードがある場合は、ユーザに要求して誤認識した単語を入力させる。ユーザの確認後、ステップＳ１３においてモデルに対するこの単語の適応化が行われ、次の発話がステップＳ９において受信される。
【００２９】
ステップＳ１１において、認識された単語と他の単語との紛らわしさの度合いが高いと見なされない場合には（ＮＯ）、ステップＳ１４において、単語の認識結果を検証するための別の検証方法を適用してもよい。その後、ステップＳ１５において、単語の認識結果の適否が確かめられる。ステップＳ１５において、認識結果が適切である場合には（ＹＥＳ）、ステップＳ１３において適応化が行われ、その後ステップＳ９において、次の発話が受信される。誤認識の場合には（ＮＯ）、ステップＳ１３において適応化は行われずに、次の発話は直接ステップＳ９において受信される。尚、音声認識装置における適応化は、例えば話者不特定隠れマルコフモデルの話者適応マルコフモデルに対する適応化であり、その適応化の方法には、帰納的最大確率（maximum a posteriori probability：ＭＡＰ）適応化や、最尤線形回帰（maximum likelihood linear regression：ＭＬＬＲ）適応化がある。
【００３０】
【発明の効果】
本発明に係る音声認識装置の適応化方法では、認識段階に先立って、音声認識装置の辞書において単語間の紛らわしさが決定され、音声認識装置が、紛らわしいとしてマークが付けられた単語を認識する場合は、認識処理の際に認識結果の適否をユーザに要求して確認させ、適切であると確認された単語を用いて適応化が行われる。したがって、紛らわしさの高い単語の識別が容易になり、紛らわしいとされる単語の誤認識が減るので、常に正しいモデルを適応化に用いることができる。
【図面の簡単な説明】
【図１】本発明を適用した単語間の紛らわしさの決定方法を説明するためのフローチャートである。
【図２】本発明を適用した音声認識装置の適応化方法を説明するためのフローチャートである。
【符号の説明】
Ｓ９発話の取り込み、Ｓ１０発話認識、Ｓ１１紛らわしさの度合い判定、Ｓ１２ユーザによる確認、Ｓ１３適応化、Ｓ１４別の検証方法適用、Ｓ１５単語の認識結果検証

Claims

音声認識装置の適応化を実行する音声認識装置の適応化方法において、
認識処理の前に、上記音声認識装置の辞書内の他の単語と紛らわしい単語にマークを付けるステップと、
上記認識処理において、認識された単語が、上記紛らわしいとしてマークが付けられた単語の一つである場合には、該認識された単語を確認することをユーザに要求するステップと、
上記紛らわしいとしてマークが付けられ、適切であると確認された単語によって、上記音声認識装置の適応化を行うステップと、
紛らわしいとしてマークが付けられていない認識された単語を、ユーザの確認とは別の方法により検証するステップとを有し、
適切でないと単語が確認された場合、該誤認識した単語を繰り返し発話させるようにユーザに要求することを特徴とする音声認識装置の適応化方法。
上記別の方法により検証された単語によって、上記音声認識装置の適応化を行うステップを有する請求項１記載の音声認識装置の適応化方法。
紛らわしいとしてマークが付けられていない単語によって、上記音声認識装置の適応化を行うステップを有する請求項１記載の音声認識装置の適応化方法。
上記音声認識装置の辞書内の単語は、該単語の総音素数と他の単語の音素とは異なる音素の数とを比較及び計算することによって、紛らわしいとしてマークが付けられることを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置の適応化方法。
上記音声認識装置の辞書内の単語は、該辞書における各単語間の距離を、全単語を表すテンプレート音声信号のセットを用いて計算することによって、紛らわしいとしてマークが付けられることを特徴とする請求項１乃至３のいずれか１項に記載の音声認識装置の適応化方法。
上記テンプレート音声信号のセットは、隠れマルコフモデルであることを特徴とする請求項５記載の音声認識装置の適応化方法。
上記誤認識した単語は、ユーザにより繰り返された発話に基づいて正しく認識された後に、上記音声認識装置の適応化のために用いられることを特徴とする請求項１乃至６のいずれか１項に記載の音声認識装置の適応化方法。
上記音声認識装置の適応化は、話者不特定隠れマルコフモデルの話者適応マルコフモデルに対する適応化であることを特徴とする請求項１乃至７のいずれか１項に記載の音声認識装置の適応化方法。
当該音声認識装置の適応化方法は、帰納的最大確率（maximum a posteriori probability：ＭＡＰ）適応化又は最尤線形回帰（maximum likelihood linear regression：ＭＬＬＲ）適応化であることを特徴とする請求項８記載の音声認識装置の適応化方法。
音声認識装置の適応化を実行する音声認識装置の適応化方法において、
認識処理の前に、上記音声認識装置の辞書内の他の単語と紛らわしい単語にマークを付けるステップと、
上記認識処理において、認識された単語が、上記紛らわしいとしてマークが付けられた単語の一つである場合には、該認識された単語を確認することをユーザに要求するステップと、
上記紛らわしいとしてマークが付けられ、適切であると確認された単語によって、上記音声認識装置の適応化を行うステップと、
紛らわしいとしてマークが付けられていない認識された単語を、ユーザの確認とは別の方法により検証するステップとを有し、
適切でないと単語が確認された場合、該誤認識した単語を綴らせるようにユーザに要求することを特徴する音声認識装置の適応化方法。
音声認識装置の適応化を実行する音声認識装置の適応化方法において、
認識処理の前に、上記音声認識装置の辞書内の他の単語と紛らわしい単語にマークを付けるステップと、
上記認識処理において、認識された単語が、上記紛らわしいとしてマークが付けられた単語の一つである場合には、該認識された単語を確認することをユーザに要求するステップと、
上記紛らわしいとしてマークが付けられ、適切であると確認された単語によって、上記音声認識装置の適応化を行うステップと、
紛らわしいとしてマークが付けられていない認識された単語を、ユーザの確認とは別の方法により検証するステップとを有し、
適切でないと単語が確認された場合、該誤認識した単語を入力させるようにユーザに要求することを特徴する音声認識装置の適応化方法。