JP2005524859A

JP2005524859A - 多重レベル分散型音声認識のための方法および装置

Info

Publication number: JP2005524859A
Application number: JP2003558836A
Authority: JP
Inventors: バラスリヤ、セナカ
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2001-12-29
Filing date: 2002-12-20
Publication date: 2005-08-18
Anticipated expiration: 2022-12-20
Also published as: US20030139924A1; FI125330B; WO2003058604B1; FI20040872A; AU2002367354A1; CN1320519C; CN1633679A; KR100632912B1; JP4509566B2; FI20145179L; KR20040072691A; WO2003058604A1; US6898567B2; FI20040872A0

Abstract

マイクロホン（１３０）に結合している端末音声認識装置（１３６）を有している端末（１２２）を含む多重レベル分散型音声認識のためのシステムおよび方法。上記端末音声認識装置（１３６）は、オーディオ・コマンド（３７）を受信し、端末信頼値を有する少なくとも１つの端末認識オーディオ・コマンドを生成する。少なくとも１つのネットワーク音声認識装置（１５０）を有するネットワーク要素（１２４）は、また、オーディオ・コマンド（１４９）を受信し、ネットワーク信頼値を有する少なくとも１つのネットワーク認識オーディオ・コマンドを生成する。コンパレータ（１５２）は、認識オーディオ・コマンドを受信し、音声認識信頼値を比較する。コンパレータ（１５２）は、出力（１６２）を少なくとも１つの認識オーディオ・コマンドのダイアログ・マネージャ（１６０）に供給する。次に、ダイアログ・マネージャは、少なくとも１つの認識オーディオ・コマンドに基づいて、確認のためにユーザへの少なくとも１つの認識オーディオ・コマンドの提示したり、コンテンツ・サーバにアクセスするといった操作を実行する。

Description

本発明は、概して、通信装置および方法に関し、特に音声認識を用いる通信装置および方法に関する。

ハンドヘルド・装置、携帯電話、ラップトップ、ＰＤＡ、インターネット装置、デスク・トップ・コンピュータまたは適当な装置のような端末装置を含む技術の新規な分野は、複数の入力および出力フォーマットによる情報転送が行われる場である。通常、ユーザが特定の情報の要求のような情報を入力することができる入力システムは、端末装置上に常駐している。例えば、ユーザは、特定の都市に関する気象情報を入手する目的で気象データベースにアクセスするために、端末装置を使用することができる。通常、ユーザは、「シカゴの気象」のような特定の場所の気象情報を要求するボイスコマンドを入力する。端末装置の処理は制限されているので、ボイスコマンドは、ネットワーク要素がネットワーク内の複数のネットワーク要素の中の１つである通信リンクを通してネットワーク要素に転送される。ネットワーク要素は、ボイスコマンドを認識し、ユーザが要求した情報を実行し、検索する音声認識エンジンを含む。さらに、音声認識エンジンをネットワーク内に設置することができ、ネットワーク要素内に常駐させる代わりに、複数のネットワーク要素が音声認識エンジンにアクセスできるように、ネットワーク要素に作用可能に結合することができる。

無線技術の進歩と共に、無線装置用のユーザ・アプリケーションの数が増大してきている。これらの装置の多くは、ますますインタラクティブになり、ユーザはコマンド要求を入力し、情報にアクセスすることができるようになった。同時に、無線技術の進歩と共に、ユーザが特定の情報要求を行うことができる形式も増大してきている。通常、ユーザは、端末装置が入力をコード化し、それをネットワーク要素に送るキーパッドを通して、コマンド要求を入力することができる。このシステムの一般的な例としては、ユーザが、口座情報にアクセスするために、口座番号および個人識別番号（ＰＩＮ）を入力するテレフォン・バンキング・システムがある。端末装置またはネットワーク要素は、キーパッドを通して入力を受信すると、入力をデュアル・トーン多周波数信号（ＤＴＭＦ）に変換し、ＤＴＭＦ信号をバンキング・サーバに送信する。

さらに、ユーザは、音声入力により情報要求のようなコマンドを入力することができる。音声認識技術の改善により、多くの処理およびメモリ記憶要求が必要になり、これにより端末装置内の音声認識機能が制限を受けることになる。通常、音声認識エンジンは、音声モデルのライブラリを含み、このライブラリと入力ボイスコマンドとを照合する。信頼性の高い音声認識を行うためには、多くの場合、大規模ライブラリを必要とするので、かなりの容量のメモリが必要になる。さらに、音声認識機能が進歩するにつれて、消費電力要件も増大し、そのため端末装置のバッテリーの寿命も短くなる。

端末音声認識エンジンは、適応性のあるシステムであり得る。音声認識エンジンは、小規模な認識コマンドのライブラリを有するが、より適合応性が高く、トーン、抑揚、アクセント等のようなユーザ特有の音声パターンを理解することができる。それ故、端末内の限られた音声認識ライブラリは、より高い確率の正しい音声認識によって相殺される。このシステムは、通常、ユーザがある名前を言うと、システムが予め端末内にプログラムされている関連する番号を自動的にダイヤルするというプログラムされた音声作動ダイヤル機能のような、最も一般的なボイスコマンドに限られている。

音声認識のもう１つの方法は、ネットワーク要素にフルボイスコマンドを提供する方法である。ネットワーク音声認識エンジンは、使用できるメモリの容量が大きく、消費電力のことをあまり考えなくてもすむので音声認識効率を高めることができる。ネットワーク要素上においては、複数のネットワーク要素にアクセスする複数のユーザが音声認識エンジンにアクセス可能でなければならないが、ネットワーク音声認識エンジンは、アクセント等のような特有な音声パターンを認識できないことによって制限される。そのため、ネットワーク音声認識エンジンは、音声認識コマンドのより豊富な語彙を供給することができるが、個々のユーザの音声パターンの固有の制限により、正しい認識の確率は低下する。

また、最近の開発により、端末装置がボイスコマンドの認識を行って端末内で認識できない場合には、ボイスコマンドをコード化し、第２の音声認識を行うためにネットワーク音声認識エンジンに送るという多重レベル分散型音声認識が行えるようになった。ヘディン（Ｈｅｄｉｎ）らによる特許文献１は、サービス・アプリケーションへのユーザ・インタフェースの音声制御のためのシステムおよび方法を開示している。このシステムは、端末装置がボイスコマンドを認識できない場合、少なくとも１つのネットワーク音声認識エンジンのみが使用される段階的音声認識を行う。特許文献２は、オーディオ・コマンドが端末音声認識エンジンまたはネットワーク音声認識エンジンから正しく認識されたということについて、１レベルの保証のみを提供する。
米国特許第６，１８５，５３５Ｂ１号米国特許第６，１８５，５３５号

そのため、音声認識エンジンを使用する改善された通信装置の開発が待望されている。

添付の図面を参照すれば、本発明をより容易に理解することができるだろう。
概して、本システムおよび方法は、端末装置のオーディオ・サブシステム内のマイクロホンに作用可能に結合している端末音声認識エンジンを通して多重レベル分散型音声認識を行う。該端末音声認識エンジンは、例えば、「シカゴの気象」のようなユーザからのボイスコマンドのようなオーディオ・コマンドを受信し、少なくとも１つの端末認識オーディオ・コマンドが対応する端末の信頼値を有する少なくとも１つの端末認識オーディオ・コマンドを生成する。

上記システムおよび方法は、さらに、ネットワーク内に、端末内のマイクロホンに作用可能に結合している少なくとも１つのネットワーク音声認識エンジンを有するネットワーク要素を含む。前記ネットワーク音声認識エンジンは、オーディオ・コマンドを受信し、少なくとも１つのネットワーク認識オーディオ・コマンドが対応するネットワークの信頼値を有する少なくとも１つのネットワーク認識オーディオ・コマンドを生成する。

さらに上記システムおよび方法は、コンパレータ、すなわち複数の認識オーディオ・コマンドおよび信頼値を比較するハードウェアまたはソフトウェアのかたちで実施されるモジュールを含む。コンパレータは、端末認識オーディオ・コマンドおよび端末音声認識の信頼値を受信するための端末音声認識エンジンに作用可能に結合されている。コンパレータは、さらに、ネットワーク認識オーディオ・コマンドおよびネットワーク音声認識の信頼値を受信するためのネットワーク音声認識エンジンに結合している。コンパレータは、端末音声認識の信頼値とネットワーク音声認識の信頼値とを比較して、その対応する信頼値により認識コマンドをコンパイルし、ソートする。１つの実施形態において、コンパレータは、特定の音声認識エンジンに基づいて信頼値に加重係数を供給して、特定の音声認
識エンジンからの信頼値に、他の信頼値より大きな加重が加えられるようにする。

ダイアログ・マネージャは、操作可能にコンパレータに結合している。ダイアログ・マネージャとしては、音声ブラウザ、対話型音声応答ユニット（ＩＶＲ）、グラフィカル・ブラウザ、ＪＡＶＡ（登録商標）をベースとするアプリケーション、ソフトウェア・プログラム・アプリケーション、または当業者であれば周知の他のソフトウェア／ハードウェア・アプリケーションを使用することができる。ダイアログ・マネージャは、認識オーディオ・コマンドを受信した場合に、コマンドを受信し、解釈し、実行する、ハードウェアまたはソフトウェア内で実施されたモジュールである。ダイアログ・マネージャは、ダイアログ・マネージャに供給される最高の信頼値を有する認識コマンドの数を表示するＮ個の最良指標を備えるコンパレータを供給することができる。コンパレータは、ダイアログ・マネージャに、認識オーディオ・コマンドおよびその信頼値、すなわち、Ｎ個の最良の認識オーディオ・コマンドおよびその信頼値の関連リストを供給する。さらに、コンパレータが、ダイアログ・マネージャに任意の認識オーディオ・コマンドを供給できない場合には、コンパレータは、ダイアログ・マネージャにエラー通知を送る。

ダイアログ・マネージャが、１つまたはそれ以上の認識オーディオ・コマンドおよび対応する信頼値を受信した場合には、ダイアログ・マネージャは、リストをさらに限定するために、付加的なステップを使用することができる。例えば、ダイアログ・マネージャは、最高の信頼値を含むオーディオ・コマンドを実行することができるし、またはユーザがオーディオ・コマンドを検証することができるように、ユーザに関連リストを提示することができる。また、ダイアログ・マネージャがエラー通知を受信した場合、または認識オーディオ・コマンドのどれもが所定の最低のしきい値より高い信頼値を有さない場合には、ダイアログ・マネージャはユーザにエラー・メッセージを送る。

オーディオ・コマンドがコンテンツ・サーバからの情報の要求であった場合には、ダイアログ・マネージャは、コンテンツ・サーバにアクセスし、コード化された情報を検索する。少なくとも１つのコンテンツ・サーバが、ダイアログ・マネージャに作用可能に結合している。コンテンツ・サーバとしては、インターネットを通して結合している市販のサーバ、イントラネットを通して結合しているローカル常駐サーバ、バンキング・システムのような商用アプリケーション・サーバ、または任意の他の適当なコンテンツ・サーバ等がある。

検索されたコード化情報は、ダイアログ・マネージャに返信される。上記情報は、通常、ハイパーテキスト・マークアップ言語（ＨＴＭＬ）、無線マークアップ言語（ＷＭＬ）、拡張マークアップ言語（ＸＭＬ）、音声拡張可能マークアップ言語（ＶｏｉｃｅＸＭＬ）、拡張可能なハイパーテキスト・マークアップ言語（ＸＨＴＭＬ）または他のこのようなマークアップ言語のような、復号を行なうダイアログ・マネージャのためのマークアップ言語としてコード化される。この場合、コード化された情報はダイアログ・マネージャにより復号され、ユーザに供給される。

それにより、オーディオ・コマンドは、端末装置上に配置されている第１の音声認識エンジン、およびネットワーク上に配置されている第２の音声認識エンジンのような複数のレベル上に配置され得る少なくとも２つの音声認識エンジン間で配信される。

図１は、端末１０８とネットワーク要素１１０との間の通信リンク１０６を通して、ユーザ１０２が少なくとも１つのコンテンツ・サーバ１０４にアクセスすることができるようにする従来技術の無線通信システム１００である。ネットワーク要素１１０は、ネットワーク１１２内の複数のネットワーク要素１１０の中の１つである。ユーザ１０２は、例
えば、「シカゴの気象」のようなボイスコマンドのような入力コマンド１１４を端末１０８に供給する。端末１０８は、このコマンドを解釈し、標準無線接続のような通信リンク１０６を通して、ネットワーク要素１１０にこのコマンドを供給する。

ネットワーク要素１１０はコマンドを受信し、このコマンドを処理する、すなわち、音声認識装置（図示せず）を使用して、入力コマンド１１４を認識して、解釈する。次いで、ネットワーク要素１１０は、複数のコンテンツ・サーバ１０４の中の少なくとも１つにアクセスして、要求した情報を検索する。情報を検索すると、ネットワーク要素１１０は、その情報をネットワーク要素１１０に返信する。その結果、要求された情報は通信リンク１０６を通して端末１０８に供給され、端末１０８は、可聴メッセージのような出力１１６をユーザに供給する。

図１の従来技術のシステムの場合には、入力コマンド１１４は、端末１０８に供給されたボイスコマンドであってもよい。端末１０８は、ボイスコマンドをコード化し、コード化したボイスコマンドを通信リンク１０６を通してネットワーク要素１１０に供給する。通常、ネットワーク要素１１０内の音声認識エンジン（図示せず）は、ボイスコマンドを認識するように試行し、その結果、要求された情報を検索する。すでに説明したように、ボイスコマンド１１４は、また、端末１０８内で解釈され、その場合、端末はネットワーク要素１１０に要求された情報に対する要求を提供する。

また、端末１０８にオーディオ・コマンド１１４を供給し、それにより、端末１０８は、このコマンドの解釈を試行することも当業において周知である。端末１０８がコマンド１１４を解釈できない場合には、オーディオ・コマンド１１４は、通信リンク１０６を通して、少なくとも１つのネットワーク音声認識エンジン（図示せず）により認識されるネットワーク要素１１０に供給される。この従来技術のシステムは、端末音声認識エンジンがボイスコマンドを認識できない場合に、少なくとも１つのネットワーク音声認識エンジンのみにアクセスが行われる段階的な音声認識システムを供給する。

図２は、本発明の１つの実施形態による多重レベル分散型音声認識のための装置である。オーディオ・サブシステム１２０は、第１の音声認識エンジン１２２と、米国０２１１１マサチューセッツ州ボストン、アトランティック・アベニュー６９５所在のスピーチワークスインターナショナルインコーポレテッド（ＳｐｅｅｃｈＷｏｒｋｓＩｎｔｅｒｎａｔｉｏｎａｌ，Ｉｎｃ．）製のオープンスピーチ認識エンジン１．０（ＯｐｅｎＳｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｅｎｇｉｎｅ１．０）のような少なくとも１つの第２の音声認識エンジン１２４との双方に作用可能に結合している。当業者であれば理解することができると思うが、任意の他の適当な音声認識エンジンを本発明で使用することができる。オーディオ・サブシステム１２０は、接続１２６を通して音声認識エンジン１２２，１２４に結合している。第１の音声認識エンジン１２２は、接続１３０を通してコンパレータ１２８に作用可能に結合しており、第２の音声認識エンジン１２４も、接続１３２を通してコンパレータ１２８に作用可能に結合している。

コンパレータ１２８は、接続１３６を通してダイアログ・マネージャ１３４に結合している。このダイアログ・マネージャは、接続１４０を通してコンテンツ・サーバ１３８に結合していて、接続１４４を通して音声合成エンジン１４２に結合している。さらに、音声合成エンジンは、接続１４６を通してオーディオ・サブシステム１２０に作用可能に結合している。

本発明の１つの実施形態による多重レベル分散型音声認識のための方法を示す図３を参照しながら、図２の装置の動作について説明する。この方法は、ステップ１５０で開始し、ステップ１５２において、装置はオーディオ・コマンドを受信する。通常、オーディオ
・コマンドは、オーディオ・サブシステム１２０に送られる。より詳細に説明すると、オーディオ・コマンドは、オーディオ・サブシステム１２０内に位置するマイクロホン（図示せず）を通して供給される。当業者であれば理解することができると思うが、オーディオ・コマンドは、アプリケーションから供給されるメモリ位置からの読出しのような任意の他の適当な手段から供給されてもよい。

オーディオ・コマンドを受信すると、オーディオ・サブシステムは、ステップ１５４に示すように、第１の音声認識エンジン１２２および少なくとも１つの第２の音声認識エンジン１２４にオーディオ・コマンドを供給する。オーディオ・コマンドは接続１２６を通して供給される。次に、第１の音声認識エンジン１２２は、ステップ１５６に示すように、そのオーディオ・コマンドを認識して、少なくとも１つの第１の認識されたオーディオ・コマンド（「以下、第１の認識オーディオ・コマンド」とする）を生成する。その少なくとも１つの第１の認識オーディオ・コマンドは、対応する第１の信頼値を有する。また、少なくとも１つの第２の音声認識エンジンは、ステップ１５８に示すように、前記オーディオ・コマンドを認識して、少なくとも１つの第２の認識されたオーディオ・コマンド（以下、「第２の認識オーディオ・コマンド」とする）を生成する。その少なくとも１つの第２の認識オーディオ・コマンドは対応する第２の信頼値を有する。少なくとも１つの第２の音声認識エンジンは、第１の音声認識エンジンと同じオーディオ・コマンドを認識するが、第１の音声認識エンジンとは無関係なオーディオ・コマンドを認識する。

次に、第１の音声認識エンジン１２２は、接続１３０を通してコンパレータ１２８に少なくとも１つの第１の認識オーディオ・コマンドを供給し、少なくとも１つの第２の音声認識エンジン１２４は、接続１３２を通してコンパレータ１２８に、少なくとも１つの第２の音声認識オーディオ・コマンドを供給する。本発明の１つの実施形態の場合には、コンパレータは、第１の加重係数によって少なくとも１つの第１の信頼値を加重（重み付け）し、第２の加重係数によって少なくとも１つの第２の信頼値を加重する。例えば、コンパレータは、ステップ１６０において、第１の音声認識エンジンの認識を優先することができる。よって、第１の信頼値に０．９５のスケーリング係数を掛け、第２の信頼値に０．９０のスケーリング係数を掛けてもよい。

次に、コンパレータは、ステップ１６２に示すように、少なくとも１つの第１の信頼値および少なくとも１つの第２の信頼値に基づいて、少なくとも１つの第１の認識オーディオ・コマンドおよび少なくとも１つの第２の認識オーディオ・コマンドから、認識オーディオ・コマンド信頼値を有する少なくとも１つの認識オーディオ・コマンドを選択する。本発明の１つの実施形態の場合には、ダイアログ・マネージャは、コンパレータに、Ｎ個の最良指標を提供する。Ｎ個の最良指標は、５つの最良の認識コマンドのような要求された認識コマンドの数を示し、その場合、Ｎ個の最良指標は５である。

ダイアログ・マネージャ１３４は、接続１３６を通して、コンパレータ１２８からＮ個の最良の認識オーディオ・コマンドのような認識オーディオ・コマンドを受信する。次に、ダイアログ・マネージャは、ステップ１６４に示すように、少なくとも１つの認識オーディオ・コマンドに基づいて、少なくとも１つの操作を実行する。例えば、ダイアログ・マネージャは、ステップ１６６に示すように、ユーザの確認のためにユーザに認識オーディオ・コマンドのＮ個の最良リストを供給することにより、少なくとも１つの認識オーディオ・コマンドの確認を求めることができる。本発明の１つの実施形態の場合には、ダイアログ・マネージャ１３４は、接続１４４を通して音声合成エンジン１４２に、認識オーディオ・コマンドのＮ個の最良リストを供給する。音声合成エンジン１４２は、Ｎ個の最良の認識オーディオ・コマンドを合成し、それを接続１４６を通してオーディオ・サブシステム１２０に供給する。その場合、オーディオ・サブシステムは、Ｎ個の最良の認識リストをユーザに供給する。

さらに、ダイアログ・マネージャは、少なくとも１つの認識オーディオ・コマンドの信頼値と、０．６５のような最低信頼性レベルとを比較するなどの、Ｎ個の最良リストに関して更なるフィルタリング操作を行う。次に、ダイアログ・マネージャは、適当な認識オーディオ・コマンドとして、最も高い信頼値を有する認識オーディオ・コマンドを単に指定することができる。その場合、ダイアログ・マネージャは、次に、特定の都市の気象情報のような要求された情報を検索するために、接続１４０を通してのコンテンツ・サーバ１３８へアクセスするなどのそのコマンドを実行する。

さらに、コンパレータは、ステップ１６８に示すように、少なくとも１つの第１の信頼値および少なくとも１つの第２の信頼値が最低信頼性レベルより低い場合にはエラー通知を生成する。例えば、図２を参照して、コンパレータ１２８は、０．５５のような内部最低信頼性レベルを有し得、その最低信頼性レベルと、第１の信頼値および第２の信頼値が比較される。第１の信頼値および第２の信頼値のうち最低信頼性レベルより高いものがない場合には、コンパレータは、接続１７６を通してダイアログ・マネージャ１３４にエラー通知を発行する。

さらに、ダイアログ・マネージャは、Ｎ個の最良の認識オーディオ・コマンド内でのように、認識オーディオ・コマンドが、ダイアログ・マネージャの最低信頼性レベルより高い認識信頼値を含んでいない場合には、エラー通知を発行することができる。また、第１の音声認識エンジンおよび少なくとも１つの第２の音声認識エンジンが、任意のオーディオ・コマンドを認識できなかった場合、または認識オーディオ・コマンドが第１の音声認識エンジン、第２の音声認識エンジン、またはコンパレータが指定した最低信頼性レベルより低い場合には、コンパレータがエラー通知を生成する。

エラー通知が、コンパレータ１２８を通して、またはダイアログ・マネージャ１３４を通して発行された場合には、ダイアログ・マネージャはエラー・コマンドを実行し、そのエラー・コマンドは、接続１４４を通して音声合成エンジン１４２に供給され、さらに、接続１４６を通してまたオーディオ・サブシステム１２０を通してエンド・ユーザに供給される。当業者であれば理解することができると思うが、エラー・コマンドは、表示装置のような任意の他の適当な手段によりユーザに表示することができる。

よって、図２の装置は、多重レベル分散型音声認識を行う。ステップ１７０に示すように、ダイアログ・マネージャが、少なくとも１つの認識コマンドに応答して操作を実行するとこの方法は完了する。

図４は、本発明の１つの実施形態による多重レベル分散型音声認識システムを示す。システム２００は、端末２０２およびネットワーク要素２０４を含む。当業者であれば理解することができると思うが、ネットワーク要素２０４は、ネットワーク２０６内の複数のネットワーク要素２０４の中の１つである。

端末２０２は、スピーカ２０８およびマイクロホン２１０等を含むオーディオ・サブシステム２０６を有する。オーディオ・サブシステム２０６は、端末の音声転送インタフェース２１２に作用可能に結合している。さらに、端末セッション制御２１４が端末２０２内に配置されている。

端末２０２は、また接続２１８を通してオーディオ・サブシステム２０６に作用可能に結合している、米国６０１９６イリノイ州シャンバーグイーストアルゴンクインロード１３０１所在のモトローラインコーポレテッド（Ｍｏｔｏｒｏｌａ，Ｉｎｃ．）製の音声作動ダイヤルを提供するＭｏｔｏｒｏｌａｉ９０ｃ（商標）で使用されている
ような端末音声認識エンジン２１６を有する。当業者であれば理解することができると思うが、本発明においては、他の適当な音声認識エンジンも使用することができる。端末音声認識エンジン２１６は、オーディ・サブシステム２０６のマイクロホン２１０を通して、元来ユーザ２２２が供給したオーディオ・コマンド２２０を受信する。

端末セッション制御２１４は、ネットワーク要素２０４内に位置するネットワーク要素セッション制御２２２に作用可能に結合している。当業者であれば理解することができると思うが、端末セッション制御２１４およびネットワーク要素セッション制御２２２は、通信セッションの初期化の際、セッションの期間中、および通信セッションの終了の際に通信する。例えば、端末２０２およびネットワーク要素２０４内に位置する種々の要素に対して、初期化始動中にアドレス指定を提供する。

端末音声転送インタフェース２１２は、ネットワーク要素２０４内に位置するネットワーク要素音声転送インタフェース２２４に作用可能に結合している。ネットワーク要素音声転送インタフェース２２４は、さらに、米国０２１１１マサチューセッツ州ボストン、アトランティック・アベニュー６９５所在のスピーチワークスインターナショナルインコーポレイテッド（ＳｐｅｅｃｈＷｏｒｋｓＩｎｔｅｒｎａｔｉｏｎａｌ，Ｉｎｃ．）製のＯｐｅｎＳｐｅｅｃｈ認識エンジン１．０のような、少なくとも１つのネットワーク音声認識エンジン２２６に作用可能に結合している。当業者であれば理解できると思うが、任意の他の適当な音声認識エンジンも本発明で使用することができる。少なくとも１つのネットワーク音声認識エンジン２２６は、さらに、接続２３０を通してコンパレータ２２８に結合していて、コンパレータは、他のものでも実施することができるが、ハードウェアまたはソフトウェアで実施することができ、端末音声認識エンジン２１６およびネットワーク音声認識エンジン２２６から受信した認識オーディオ・コマンドから少なくとも１つの認識オーディオ・コマンドを選択する。

コンパレータ２２８は、さらに、接続２３２を通して、端末２０２内に位置する端末音声認識エンジン２１６に結合している。コンパレータ２２８は、接続２３６を通してダイアログ・マネージャ２３４に結合している。ダイアログ・マネージャ２３４は、接続２４０を通して音声合成エンジン２３８に結合している複数のモジュールに作用可能に結合していて、また少なくとも１つのコンテンツ・サーバ１４０に結合している。当業者であれば理解することができると思うが、ダイアログ・マネージャは、図面を分かり易くするために、図４には示していない複数の他の構成要素に結合することができる。

図５は、本発明のある実施形態による多重レベル分散型音声認識のための方法である。図４について説明したように、図５の方法はステップ３００から開始し、端末２０２内でオーディオ・コマンドを受信する。通常、オーディオ・コマンドは、ユーザーがオーディオ・サブシステム２０６のマイクロホン２１０に音声をオーディオ入力を提供することによって、ユーザ１０２から端末２０２に送られる。オーディオ入力は、ステップ３０４に示すように、標準コード化形式でコード化され、端末音声認識エンジン２１６に送られ、さらに端末音声転送インタフェース２１２および少なくとも１つのネットワーク要素音声転送インタフェース２２４を通して、少なくとも１つのネットワーク音声認識エンジン２２６に送られる。

図２の装置と同様に、ステップ３０６に示すように、オーディオ・コマンドを認識して、端末音声認識エンジンは、少なくとも１つの端末認識オーディオ・コマンドを生成する。その少なくとも１つの端末認識オーディオ・コマンドは対応する端末の信頼値を有する。さらに少なくとも１つのネットワーク音声認識エンジン２２６は、ステップ３０８に示すように、オーディオ・コマンドを認識して、少なくとも１つのネットワーク認識オーディオ・コマンドを生成する。その少なくとも１つのネットワーク認識オーディオ・コマン
ドは対応するネットワークの信頼値を有する。少なくとも１つのネットワーク音声認識エンジン２２６は、端末音声認識と同じオーディオ・コマンドを認識するが、端末音声認識エンジンとは無関係なオーディオ・コマンドも認識する。

端末音声認識エンジン２１６がオーディオ・コマンドを認識すると、少なくとも１つの端末認識オーディオ・コマンドが、接続２３２を通してコンパレータ２２８に送られる。また、少なくとも１つのネットワーク音声認識エンジン２２６がオーディオ・コマンドを認識すると、少なくとも１つのネットワーク認識オーディオ・コマンドが、接続２３０を通してコンパレータ２２８に送られる。

本発明の１つの実施形態の場合には、コンパレータ２２８は、ステップ３１０に示すように、端末加重係数によって少なくとも１つの端末の信頼値を加重し、ネットワーク加重係数によって、少なくとも１つのネットワークの信頼値を加重する。例えば、コンパレータは、少なくとも１つのネットワーク音声認識エンジン２２６の認識機能を優先させ、そのためネットワークの信頼値を増大するために、ネットワークの信頼値をスケーリング係数で調整、すなわち、ネットワークの信頼値にスケーリング係数を掛け、また端末の信頼値を低減するために、端末の信頼値をスケーリング係数で調整する、すなわち、端末の信頼値にスケーリング係数を掛ける。

さらに、本発明の方法は、ステップ３１２に示すように、少なくとも１つの端末認識オーディオ・コマンドおよび少なくとも１つのネットワーク認識オーディオ・コマンドから、認識オーディオ・コマンドの信頼値を有する少なくとも１つの認識オーディオ・コマンドを選択する。より詳細に説明すると、コンパレータ２２８は、認識オーディオ・コマンドの信頼値に基づいて、複数の認識オーディオ・コマンドを選択する。本発明の１つの実施形態の場合には、ダイアログ・マネージャ２３４は、Ｎ個の認識オーディオ・コマンドを示すＮ個の最良指標をコンパレータ２２８に供給する。ダイアログ・マネージャ２３４に供給する。コンパレータ２２８は、少なくとも１つの端末認識オーディオ・コマンドおよび少なくとも１つのネットワーク認識オーディオ・コマンドをその対応する信頼値によりソートし、そこから一番上のＮ個の最良のコマンドを抽出する。

本発明の１つの実施形態の場合には、コンパレータ２２８は、信頼値に対応する認識オーディオ・コマンドに基づいて、少なくとも１つの端末認識オーディオ・コマンドおよび少なくとも１つのネットワーク認識オーディオ・コマンドをフィルタリングすることができる。例えば、コンパレータは、それにより認識オーディオ・コマンドの信頼値が比較され、最低信頼性レベルより低い信頼値を有するすべての認識オーディオ・コマンドが除去される最低信頼性レベルを有することができる。その場合、コンパレータは、ダイアログ・マネージャにＮ個の最良のコマンドを供給する。

さらに、コンパレータは、最低信頼性レベルより上の信頼値を有するコマンドがＮ個より少ない場合には、ダイアログ・マネージャにＮ個より少ないコマンドを供給することができる。コンパレータが最低信頼性レベルより上の信頼値を有する任意の認識コマンドを受信することができなかった場合には、コンパレータはエラー通知を生成し、このエラー通知を接続２３６を通してダイアログ・マネージャに供給する。さらに、ステップ３１４に示すように、少なくとも１つの端末信頼値および少なくとも１つのネットワーク信頼値が、０．５未満の信頼性のレベルのような最低信頼性レベルより低い場合には、エラー通知が生成される。

本発明の１つの実施形態の場合には、ステップ３１６に示すように、ダイアログ・マネージャは、少なくとも１つの認識オーディオ・コマンドを検証して、検証済み認識オーディオ・コマンドを生成し、検証済み認識オーディオ・コマンドに基づいて操作を実行する
ために、。例えば、ダイアログ・マネージャは、スピーカ２０８を通して、また音声転送インタフェース２１２，２１４および音声合成エンジン２３８を通して、ユーザにＮ個の最良の認識オーディオ・コマンドのリストを供給することができる。その場合、ユーザは、Ｎ個の最良のコマンドの中で元のオーディオ・コマンドを正確に反映しているものを選択し、検証済み認識オーディオ・コマンドを生成することができる。

この検証済み認識オーディオ・コマンドは、次に、元のオーディオ・コマンドが供給されたのと同じ方法で、ダイアログ・マネージャ２３４に返送される。例えば、Ｎ個の最良リストの第４番目の認識オーディオ・コマンドが正しいコマンドである場合で、ユーザがこのコマンドを検証し、検証済み認識オーディオ・コマンドを生成した場合には、ユーザは、語４をマイクロホン２０６に発音し、この語は、端末音声認識エンジン２１６および少なくとも１つのネットワーク音声認識エンジン２２６の両方に供給され、さらにコンパレータ２２８に供給され、コンパレータ２２８において、その語はダイアログ・マネージャ２３４に供給される。ダイアログ・マネージャ２３４は、検証済み認識オーディオ・コマンドを受信した場合には、この検証済み認識オーディオ・コマンドに基づいて操作を実行する。

ダイアログ・マネージャ２３４は、少なくとも１つの認識オーディオ・コマンド、または検証済みオーディオ・コマンドに基づいて、複数の操作を実行することができる。例えば、ダイアログ・マネージャは、要求された情報を検索するために、商用データベースのようなコンテンツ・サーバ１０４にアクセスすることができる。さらにダイアログ・マネージャは、プログラムされたアプリケーションの次のステップへ行くというような、プログラム内で１つの操作を実行することができる。また、ダイアログ・マネージャは、認識オーディオ・コマンドをある形式に書き込み、またその上に、ユーザからの要求をこの形式用の次のエントリまたは入力を書き込むことができる。当業者であれば理解することができると思うが、ダイアログ・マネージャは、命令された場合または少なくとも１つの認識オーディオ・コマンドを受信した場合に、任意の適当な動作を行うことができる。

本発明の１つの実施形態の場合には、ダイアログ・マネージャは、ステップ３１８に示すように、少なくとも１つの認識オーディオ・コマンドを受信した場合、少なくとも１つの認識オーディオ・コマンド信頼値に基づいて少なくとも１つの認識コマンドをフィルタリングし、最高の認識オーディオ・コマンド信頼値を有する認識オーディオ・コマンドに基づいて操作を実行することができる。例えば、ダイアログ・マネージャは、０．６未満のような所定の設定値より低い信頼値を有するすべての認識オーディオ・コマンドを除去し、残りの認識オーディオ・コマンドに基づいて操作を実行することができる。すでに説明したように、ダイアログ・マネージャは、少なくとも１つの認識オーディオ・コマンドに応答して任意の適当な実行可能な操作を実行することができる。

さらに、ダイアログ・マネージャは、フィルタリングに基づいて、コンパレータ２３６が実行した操作のように、所定の信頼性のレベルより低い信頼値を有するすべての認識オーディオ・コマンドを除去するよう求めることができる。例えば、ダイアログ・マネージャは、コンパレータよりも高い最低信頼値を設定することができる。これは、この最低信頼性レベルは、システム２００の残りの部分とは無関係にダイアログ・マネージャ２３４によって設定され得るためである。ダイアログ・マネージャが、フィルタリングの後で、ダイアログ・マネージャの最低信頼性レベルより上の任意の認識オーディオ・コマンドを含むことができなかった場合には、ダイアログ・マネージャ２３４は、コンパレータ２２８のようにエラー通知を生成する。

エラー通知が生成されると、ダイアログ・マネージャは、ユーザ１０２にオーディオ・コマンドが正しく受信されなかったことを通知するために、エラー・コマンド２３４を実
行する。当業者であれば理解することができると思うが、ダイアログ・マネージャは、コンパレータ２２８が行ったように、エラー通知を生成する代わりに、単にエラー・コマンドだけを実行することができる。

ダイアログ・マネージャが上記動作を完全に実行すると、ステップ３２０に示すように、多重レベル分散型認識のための本発明の方法は終了する。
本発明は、第１の音声認識エンジンおよび少なくとも１つの第２の音声認識エンジンによる多重レベル分散型音声認識に関する。本発明の１つの実施形態の場合、第１の音声認識は端末内に配置されていて、少なくとも１つの第２の音声認識エンジンはネットワーク内に配置されている。当業者であれば理解することができると思うが、音声認識エンジンは、端末、ネットワーク要素内に配置することもできるし、音声認識エンジンがオーディオ・コマンドを受信し、比較され、供給される少なくとも１つの認識オーディオ・コマンドを、ダイアログ・マネージャに供給するネットワーク要素等に作用可能に結合しているネットワーク上の独立しているサーバ内に配置することもできる。さらに、本発明は、第１の音声認識エンジンに供給されている同じコマンドとは無関係にオーディオ・コマンドを第２の音声認識エンジンに供給することにより従来技術を改善する。それ故、第１の音声認識エンジンの認識機能とは無関係に、同じオーディオ・コマンドがさらに第２の音声認識に供給される。それ故、本発明は、受信し、本発明のシステムおよび方法の音声認識機能の精度をさらに改善するコンパレータおよびダイアログ・マネージャと一緒に複数の音声認識エンジンを使用することにより、音声認識機能の信頼性を改善する。

本発明およびその種々の態様の他の変更および修正は、通常の当業者であれば容易に思い付くことができること、および本発明は本明細書に記載する特定の実施形態により制限されないことを理解されたい。例えば、図４のコンパレータおよびダイアログ・マネージャを、ネットワーク要素内に常駐させないで、ネットワーク要素に結合しているサーバ上に配置することができる。それ故、本明細書に開示し、特許請求する基本的で根底的な原理の精神および範囲に入るすべての修正、変形または均等物は本発明に含まれる。

従来技術の無線システム。本発明の１つの実施形態による多重レベル分散型音声認識のための装置のブロック図。本発明の１つの実施形態による多重レベル分散型音声認識のための方法のフローチャート。本発明の１つの実施形態による多重レベル分散型音声認識のためのシステムのブロック図。本発明の１つの実施形態による多重レベル分散型音声認識のための方法のフローチャート。

Claims

多重レベル分散型音声認識のための方法であって、
オーディオ・コマンドを第１の音声認識エンジンおよび少なくとも１つの第２の音声認識エンジンに供給するステップと、
前記第１の音声認識エンジン内で前記オーディオ・コマンドを認識して、少なくとも１つの第１の認識オーディオ・コマンドを生成するステップであって、前記少なくとも１つの第１の認識オーディオ・コマンドが、対応する第１の信頼値を有するステップと、
前記第１の音声認識エンジンによる前記オーディオ・コマンドの認識とは独立して、前記少なくとも１つの第２の音声認識エンジン内で前記オーディオ・コマンドを認識して、少なくとも１つの第２の認識オーディオ・コマンドを生成するステップであって、前記少なくとも１つの第２の認識オーディオ・コマンドが、対応する第２の信頼値を有するステップとを含む方法。
前記少なくとも１つの第１の信頼値および前記少なくとも１つの第２の信頼値に基づいて、前記少なくとも１つの第１の認識オーディオ・コマンドおよび前記少なくとも１つの第２の認識オーディオ・コマンドから認識オーディオ・コマンド信頼値を有する少なくとも１つの認識オーディオ・コマンドを選択するステップをさらに含む、請求項１に記載の方法。
少なくとも１つの認識オーディオ・コマンドを選択する前に、前記少なくとも１つの第１の信頼値を第１の加重係数で加重し、前記少なくとも１つの第２の信頼値を第２の加重係数で加重するステップをさらに含む、請求項２に記載の方法。
前記少なくとも１つの認識オーディオ・コマンドに基づいて、少なくとも１つの操作を実行するステップをさらに含む、請求項２に記載の方法。
前記少なくとも１つの認識オーディオ・コマンドを検証するステップをさらに含む、請求項２に記載の方法。
前記少なくとも１つの第１の信頼値および前記少なくとも１つの第２の信頼値が最低信頼性レベルよりも低い場合に、エラー通知を生成するステップをさらに含む、請求項１に記載の方法。
多重レベル分散型音声認識のための装置であって、
オーディオ・コマンドを受信し、少なくとも１つの第１の認識オーディオ・コマンドを生成するために、オーディオ・サブシステムに作用可能に結合している第１の音声認識手段であって、前記少なくとも１つの第１の認識オーディオ・コマンドが第１の信頼値を有する手段と、
前記オーディオ・コマンドを受信し、前記第１の音声認識手段とは独立して、少なくとも１つの第２の認識オーディオ・コマンドを生成するために、前記オーディオ・サブシステムに作用可能に結合している第２の音声認識手段であって、前記少なくとも１つの第２の認識オーディオ・コマンドのそれぞれが、第２の信頼値を有する手段と、
前記少なくとも１つの第１の認識オーディオ・コマンドおよび前記少なくとも１つの第２の認識オーディオ・コマンドを受信するために、前記第１の音声認識手段および前記第２の音声認識手段に作用可能に結合している手段とを備える装置。
前記受信手段に作用可能に結合しているダイアログ・マネージャをさらに備え、前記受信手段が、前記少なくとも１つの第１の信頼値および前記少なくとも１つの第２の信頼値に基づいて、前記少なくとも１つの第１の認識オーディオ・コマンドおよび前記少なくと
も１つの第２の認識オーディオ・コマンドから認識信頼値を有する少なくとも１つの認識オーディオ・コマンドを選択し、その選択された少なくとも１つの認識オーディオ・コマンドが、前記ダイアログ・マネージャに供給される、請求項７に記載の装置。
前記ダイアログ・マネージャが、前記少なくとも１つの認識オーディオ・コマンド信頼性のレベルに基づいて、前記少なくとも１つの認識オーディオ・コマンドからダイアログ・マネージャ・オーディオ・コマンドを決定し、前記ダイアログ・マネージャが、前記ダイアログ・マネージャ・オーディオ・コマンドに応答して操作を実行する、請求項７に記載の装置。
前記ダイアログ・マネージャが、前記ダイアログ・マネージャ・オーディオ・コマンドに応答して、コンテンツ・サーバにアクセスし、コード化された情報を検索する、請求項９に記載の装置。
前記ダイアログ・マネージャに作用可能に結合している音声合成エンジンをさらに備え、前記音声合成エンジンが前記ダイアログ・マネージャから音声のコード化した情報を受信し、音声フォーマット情報を生成する、請求項１０に記載の装置。
前記オーディオ・サブシステムが、前記音声合成エンジンに作用可能に結合し、前記オーディオ・サブシステムが、前記音声フォーマット情報を受信し、出力メッセージを供給する、請求項１１に記載の装置。
コンパレータが前記ダイアログ・マネージャにエラー通知を供給した場合に、前記出力メッセージがエラー・ステートメントである、請求項１２に記載の装置。