JP2009211103A

JP2009211103A - 話者に依存して音声を認識する方法および音声認識システム

Info

Publication number: JP2009211103A
Application number: JP2009149711A
Authority: JP
Inventors: Roland Aubauer; アウバウアーローラント
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2003-03-25
Filing date: 2009-06-24
Publication date: 2009-09-17
Also published as: CN1764943A; EP1606794B1; KR20060014369A; JP2006514753A; DE10313310A1; US7835913B2; DE502004002300D1; WO2004086360A1; CN100559464C; US20070100632A1; KR100742408B1; ES2278308T3; EP1606794A1; JP4437119B2

Abstract

【課題】話者に依存する音声認識方法ならびに該方法のための音声認識システムにおいて、新しい命令のトレーニングを、時間を節約し実施できるようにする。
【解決手段】音声認識システムは音声認識モードにあり、ユーザの発話を記録し、この発話から第１の音声パターンを生成する。音声認識システム内で、第１の音声パターンに対応する命令が見つけ出されると、その命令が実行される。音声認識システム内で類似した音声パターンを見つけ出せず、または十分な類似度をもつ音声パターンを見つけ出せず、音声認識システムによっても発話が認識されないとき、音声認識システムは、その発話を新しい命令に即座に割り当てるためのトレーニングモードへの切り替えをユーザに提示する。
【選択図】図１

Description

本発明は、ユーザの発話ないしは発話がトレーニングされ、トレーニングされた発話に命令が割り当てられる音声認識システムを用い話者に依存して音声を認識する方法、ならびにこの方法を実施するための音声認識システムに関する。

この種の方法は、従来技術によれば音声認識モジュールとトレーニングモジュールとに分けられている。この場合、音声認識モジュールによりユーザの発話ないしは発話が捕捉され、それに基づきデータベースにおいてその発話に割り当てられた命令が見つけ出され、これはその発話がその命令に属しており先行する時点で記録され格納されていた発話と十分な一致がみられたときに行われる。この音声認識モジュールの場合、新しい発話と新しい命令との対応づけは不可能である。そうではなくこのようなプロセスはトレーニングモジュールにおいて行われ、そこにおいてユーザは発話を自身によって与えておき、個々の発話に対しそれらの記録後に各々１つの命令を割り当てる。取得された割り当てはデータベース内に格納される。割り当てられた命令はたとえば、通信ネットワークの加入者に対する選択プロセスや音声制御命令とすることができる。

従来技術による方法の欠点は、音声認識モジュールからトレーニングモジュールへユーザが毎回能動的に切り替えなければならならず、新しい命令のトレーニングが煩雑なことである。このことは、市場での音声認識システムの受け入れに対し思わしくない影響も及ぼしている。

このことから出発して本発明の基礎とする課題は、話者に依存する音声認識方法ならびに該方法のための音声認識システムにおいて、新しい命令のトレーニングを、時間を節約し実施できるようにすることである。

本発明によればこの課題は、音声認識システムは音声認識モードにあり、該音声認識システムはユーザの発話を記録し、該発話から第１の音声パターンを生成し、該音声認識システム内で、第１の音声パターンに対応する命令が見つけ出されると、前記音声認識システムにより該命令が実行され、該音声認識システム内で類似した音声パターンを見つけ出せず、または十分な類似度をもつ音声パターンを見つけ出せず、該音声認識システムによっても発話が認識されないとき、該音声認識システムは、該発話を新しい命令に即座に割り当てるためのトレーニングモードへの切り替えをユーザに提示することによって解決される。

本発明による方法の実施にあたり音声認識システムは常に音声認識モードにあるが、これによればオプションが設けられていて、発話が認識されないときには即座に新しい命令の割り当てが行われる。このようにして、新たな命令のトレーニングが音声認識自体に組み込まれ、発話が認識されなかった場合にはトレーニングを行うことができる。たとえばユーザが現在、音声認識システムのために新しい命令をトレーニングしたい状況にあるならば、これまで利用されていなかった発話を明瞭に発音すれば十分であり、それに応じて音声認識システムはこの新たな発話が認識されないことを確認し、ついでこの新たな発話を新しい命令に割り当てるというオプションを提示する。割り当てが行われた後、その命令を即座に実行させることができる。

１つの有利な実施形態によれば、音声認識システムによっても発話が認識されないとき、オプションとしてユーザはその発話を繰り返すことができるし、あるいはその発話に新しい命令を割り当てることができる。この実施形態によって考慮されるのは、ある発話が現在のところ、すでに所望の命令が割り当てられている発話に対する類似範囲外にある可能性がある点である。このような事例では、新しい命令に対する新たな発話の割り当ては意図されない。むしろ、すでにトレーニングされた命令と結び付けるためにその発話を繰り返す必要がある。

音声認識システムの初期状態に関して本発明による方法にとって有利であるのは、まだいかなる発話にも新しい命令が割り当てられていないとき、音声認識システムはその起動後、新しい命令のトレーニングの実施を即座に提示することである。音声認識システムが最初の発話をそのままでは認識せず、新しい命令をトレーニングするオプションを提示するようにすれば、このことは自動的に行われる。

別の有利な実施形態によれば、すでにトレーニング済みの命令に対する発話が音声認識システムによっても認識されないとき、ユーザはその命令を選択し、それを上述の発話に割り当てることができる。このことが該当するのは、発話とそれらに属するトレーニングされた命令との対応づけが格納されているデータベース内に、その発話の「悪い」バージョンが存在していて、音声認識が頻繁に失敗するケースである。そのようなケースでは、すでにトレーニング済みの命令に対し新たな発話を割り当てることができる。

有利には、発話の認識のために、発話に割り当てられている音声パターンが生成される。この場合、発話の基本的な音声特徴抽出の基礎を成すこの種の音声パターンもデータベースにおいて利用され、このケースではそのデータベース内に、音声パターンとトレーニングされた命令との対応づけが格納されている。それらが記録された後、発話各々が音声パターンに変換され、ついでこの音声パターンが引き続き処理され、たとえばそれが認識可能であるか否かの判定すなわちデータベース内における音声パターンの類似範囲内にすでにあるか否かの判定を行うために処理される。

これに関連して有利であるとみなされるのは、命令の割り当て前に、発話が事前に記憶されている発話と類似しているか否かをチェックすることである。このようにすれば、それぞれ対応する発話が互いに類似しすぎている理由から音声認識にあたり様々な命令が存在する中で取り違いが発生してしまうのが回避される。この目的で、たとえば音声パターンに対する抽出特徴を利用して、信頼性の高い類似範囲を定義することができる。

上述の課題は音声認識システムに関しては、話者に依存して音声を認識するための以下の構成を備えた音声認識システムによって解決される。すなわち、音声認識システムのユーザによる発話を記録するための音声記録装置と、発話に割り当てられる命令を見つけ出すために発話と命令との対応づけが格納されているデータベースへのアクセスを行うサーチマシンと、上記の発話に基づき見つけ出された命令を変換する変換装置が設けられていて、この音声認識システムによっても発話が認識されないとき、発話を新しい命令に即座に割り当てることがユーザに提示される。

このように構成された音声認識システムにより上述の方法を実施することができ、公知の音声認識システムとは異なり、音声認識モード中に新しい命令のトレーニングを行うことができる点で優れている。

音声記録装置は記憶装置と接続されているのが有利であって、この記憶装置内に発話が一時的に記憶され、この記憶装置はデータベースへ発話を書き込むためにデータベースと接続されている。これは公知の音声認識システムにはあてはまらないことであって、それというのも公知のシステムの場合にはトレーニングモードにあればデータベースにそのままアクセスされるのに対し、音声認識モード中はサーチマシンを機能させるために発話が一時的に記憶されるとはいえ、その場合に利用される記憶装置は発話をデータベースに書き込むようには構成されていないし、あるいはそれと接続されていないからである。

有利であるのは、発話から音声パターンを生成するための特徴抽出装置を音声記録装置と記憶装置との間に設けることであって、これにより発話が音声パターンと置き換えられる。

音声認識システムのさらに別の利点ならびに特徴は、話者に依存する音声認識方法に関する上述の記載のところですでに説明されている。

本発明による音声認識システムを用いた話者に依存する音声認方法の流れを示すフローチャート

次に、音声認識システムを用いた話者に依存する音声認識方法について図１を参照しながら説明する。たとえば表示装置を備えたコンピュータシステムとして実現されている音声認識システムのスタート後、ユーザに対しまずは適切なユーザインタフェースが表示され、これには発話記録用の起動手段（"Push-to-Talk"起動手段）も含まれている。第１のステップ１においてユーザ／話者の発話ないしは音声表現が記録され、これは適切な音声記録装置を用いて行われる。特徴抽出装置を用いることで第２のステップ２において発話の音声パターンが生成され、その際、音声パターンは特性を表す抽出された音声特徴の組み合わせによって定義されている。音声パターンは記憶装置に一時的に記憶される。

第３のステップ３においてサーチマシンを用いることで、音声パターンと命令との対応づけが収容されているデータベース内に生成された音声パターンが含まれているか否かの問い合わせが行われる。このデータベースには音声認識システムのトレーニングモード中に内容が与えられ、この場合、トレーニングモードは音声認識のプロセスと一体化されている。生成された音声パターンがデータベース内にすでに存在しているものと識別されて、対応する命令が見つけ出されると、第４のステップ４においてその命令が実行され、その後、音声認識システムのオペレーションプロセスが終了する。この実施例の場合、ステップ１からステップ４までの流れは自動的に行われる。

第３のステップ３において、生成された音声パターンが認識されないのであれば、ユーザはコンピュータシステムのユーザインタフェースを介して、認識されない音声パターンもしくは認識されない発話に対し新しい命令を割り当てるオプションを受け取る。これはこの方法の第５のステップ５において行われる。新しい命令の割り当てが望まれるならば、あるいはそれが自動的に実施されるならば、この個所で音声認識システムはトレーニングモードに切り替えられる。第５のステップ５に対する代案として、ユーザはユーザインタフェースを用いて新たな発話の記録をトリガすることもでき、これによれば発話を繰り返す目的でこの方法は第１のステップ１へ戻る。

認識されなかった音声パターンに対する新しい命令の割り当てが選択された場合には第６のステップ６において、第１のステップによる認識されなかった発話に対応する発話の記録が行われる。これに続いて第７のステップ７において、第６のステップ６において記録された発話から音声パターンが生成され、これは上述の第２のステップ２と同じやり方で行われる。

第８のステップ８において、第７のステップ７による新たな音声パターンと第２のステップ２による音声パターンとの類似性チェックが実行される。

これら両方の音声パターンの間に望ましい程度に一致がみられないのであれば、第２のステップ２と第７のステップ７とにおいて生成された音声パターンの類似性について満足できる結果が得られるまで、この方法が新たに始められる。この場合、第３のステップ３と第５のステップ５は飛び越えることができる。

第８のステップ８においても、新たに記録された発話の音声パターンがすでにデータベース内に存在している音声パターンに対し十分な距離を維持しているか否かについて、類似性チェックを行うことができる。このチェックの結果が否定であれば、新しい命令に対する割り当てのために別の発話を使用するようユーザに求めることができる。この新たな発話に対して、この方法が最初から始められる。

これに続いて第９のステップ９において、第２のステップ２で生成された音声パターンに１つの命令が割り当てられ、これは音声認識システムのユーザインタフェースを用いてユーザが適切な選択を行うことによって実施される。この目的で、第２のステップで一時的に記憶されていた音声パターンが記憶装置から読み出され、ステップ７で生成された音声パターンと適切に結合され、これはたとえば両方の音声パターンの個々の特性の平均値形成などにより行われ、新しい命令とともにデータベースに書き込まれる。

最後のステップ１０において、新たに割り当てられた命令が実行され、その後、トレーニングモードと一体化された音声認識プロセスが終了する。

ここで強調しておくと、第４のステップと最後のステップとで行われる命令の実行は、命令変換用の命令変換装置を用いて実行される。ここで命令をたとえば、通信ネットワークにおける加入者番号の選択とすることができるし、あるいはネットワークに接続された機器を制御する音声命令とすることができる。

当然ながら、本発明による方法の簡略化された１つの実施形態において、命令の割り当てに際し先行するステップ６〜８の実行を省くことができる。このようにすると、命令の割り当てが第５のステップ５の問い合わせに応答してただちに行われる。また、本発明による方法の実施にあたり、新たにトレーニングされた命令の即座の実行（第１０のステップ）を行わないようにすることも可能である。

Claims

ユーザの発話がトレーニングされ、トレーニングされた発話に命令が割り当てられる形式の、音声認識システムを用いた話者に依存する音声認識方法において、
前記音声認識システムは音声認識モードにあり、
該音声認識システムはユーザの発話を記録し、該発話から第１の音声パターンを生成し、
該音声認識システム内で、第１の音声パターンに対応する命令が見つけ出されると、前記音声認識システムにより該命令が実行され、
該音声認識システム内で類似した音声パターンを見つけ出せず、または十分な類似度をもつ音声パターンを見つけ出せず、該音声認識システムによっても発話が認識されないとき、該音声認識システムは、該発話を新しい命令に即座に割り当てるためのトレーニングモードへの切り替えをユーザに提示することを特徴とする、
音声認識方法。
請求項１記載の方法において、
前記トレーニングモードにおいて前記音声認識システムは、
認識されなかった発話の新たな記録を行い、
該新たな記録に基づき第２の音声パターンを新たに生成することを特徴とする、
音声認識方法。
請求項２記載の方法において、
前記トレーニングモードにおいて前記音声認識システムは、前記第１の音声パターンと前記第２の音声パターンとの類似性をチェックし、類似性があれば認識されなかった発話に新たな命令を割り当て、該新たな命令を実行することを特徴とする、
音声認識方法。
請求項１記載の方法において、
前記音声認識システムによっても発話が認識されないとき、該音声認識システムはオプションとしてユーザに対し該発話の反復を指示し、または該発話に新しい命令を割り当てることを特徴とする方法。
請求項１から４のいずれか１項記載の方法において、
まだいかなる発話にも新しい命令が割り当てられていないとき、音声認識システムは該システムの起動後、新しい命令のトレーニングの実施を提示することを特徴とする方法。
請求項１から５のいずれか１項記載の方法において、
すでにトレーニングされている命令に対する発話が音声認識システムによっても認識されないとき、該音声認識システムは、ユーザに対し該すでにトレーニングされている命令を提示し、ユーザにより選択された命令に前記発話を割り当てることを特徴とする方法。
請求項１から６のいずれか１項記載の方法において、
前記音声認識システムが発話を認識するために、該音声認識システムは前記発話から、音声特徴の組み合わせから成る音声パターンを生成することを特徴とする方法。
音声認識システムのユーザが発話したときに該発話を記録するための音声記録装置と、
前記発話に割り当てられる命令を見つけ出すために発話と命令との対応づけが格納されているデータベースへのアクセスを行うサーチマシンと、
前記発話に基づき見つけ出された命令を実行可能な命令に変換する変換装置が設けられている、
話者に依存して音声を認識するための音声認識システムにおいて、
該音声認識システムは音声認識モードにあり、
該音声認識システムは、ユーザの発話を記録し、該発話から第１の音声パターンを生成し、
該音声認識システム内で、第１の音声パターンに対応する命令が見つけ出されると、前記音声認識システムは該命令を実行し、
該音声認識システム内で類似した音声パターンを見つけ出せず、または十分な類似度をもつ音声パターンを見つけ出せず、該音声認識システムによっても発話が認識されないとき、該音声認識システムは、該発話を新しい命令に即座に割り当てるためのトレーニングモードへの切り替えをユーザに提示することを特徴とする、
音声認識システム。
請求項８記載の音声認識システムにおいて、
前記トレーニングモードにおいて前記音声認識システムは、
認識されなかった発話の新たな記録を行い、
該新たな記録に基づき第２の音声パターンを新たに生成することを特徴とする、
音声認識システム
請求項９記載の音声認識システムにおいて、
前記トレーニングモードにおいて前記音声認識システムは、前記第１の音声パターンと前記第２の音声パターンとの類似性をチェックし、類似性があれば認識されなかった発話に新たな命令を割り当て、該新たな命令を実行することを特徴とする、
音声認識システム。
請求項８記載の音声認識システムにおいて、
前記音声記録装置は記憶装置と接続されており、音声認識システムのユーザが発話したとき前記記憶装置内に該発話が一時的に記憶され、該記憶装置はデータベースへ前記発話を読み込ませるためにデータベースと接続されていることを特徴とする音声認識システム。
請求項１１記載の音声認識システムにおいて、
音声認識システムのユーザが発話したとき、該発話から音声パターンを生成するため、前記音声記録装置と前記記憶装置との間に特徴抽出装置が設けられており、該特徴抽出装置は前記発話を音声パターンと置き換えることを特徴とする音声認識システム。