JP4509566B2

JP4509566B2 - 多重レベル分散型音声認識のための方法および装置

Info

Publication number: JP4509566B2
Application number: JP2003558836A
Authority: JP
Inventors: バラスリヤ、セナカ
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 2001-12-29
Filing date: 2002-12-20
Publication date: 2010-07-21
Anticipated expiration: 2022-12-20
Also published as: WO2003058604A1; FI20145179L; FI20040872A; JP2005524859A; CN1320519C; AU2002367354A1; US20030139924A1; FI125330B; WO2003058604B1; US6898567B2; KR20040072691A; CN1633679A; KR100632912B1; FI20040872A0

Description

本発明は、概して、通信装置および方法に関し、特に音声認識を用いる通信装置および方法に関する。

ハンドヘルド・装置、携帯電話、ラップトップ、ＰＤＡ、インターネット装置、デスク・トップ・コンピュータまたは適当な装置のような端末装置を含む技術の新規な分野は、複数の入力および出力フォーマットによる情報転送が行われる場である。通常、ユーザが特定の情報の要求のような情報を入力することができる入力システムは、端末装置上に常駐している。例えば、ユーザは、特定の都市に関する気象情報を入手する目的で気象データベースにアクセスするために、端末装置を使用することができる。通常、ユーザは、「シカゴの気象」のような特定の場所の気象情報を要求するボイスコマンドを入力する。端末装置の処理は制限されているので、ボイスコマンドは、ネットワーク要素がネットワーク内の複数のネットワーク要素の中の１つである通信リンクを通して、ネットワーク要素に転送される。ネットワーク要素は、ボイスコマンドを認識し、ユーザが要求した情報を実行し、検索する音声認識エンジンを含む。さらに、音声認識エンジンをネットワーク内に設置することができ、ネットワーク要素内に常駐させる代わりに、複数のネットワーク要素が音声認識エンジンにアクセスできるように、ネットワーク要素に作用可能に結合することができる。

無線技術の進歩と共に、無線装置用のユーザ・アプリケーションの数が増大してきている。これらの装置の多くは、ますますインタラクティブになり、ユーザはコマンド要求を入力し、情報にアクセスすることができるようになった。同時に、無線技術の進歩と共に、ユーザが特定の情報要求を行うことができる形式も増大してきている。通常、ユーザは、端末装置が入力をコード化し、それをネットワーク要素に送るキーパッドを通して、コマンド要求を入力することができる。このシステムの一般的な例としては、ユーザが、口座情報にアクセスするために、口座番号および個人識別番号（ＰＩＮ）を入力するテレフォン・バンキング・システムがある。端末装置またはネットワーク要素は、キーパッドを通して入力を受信すると、入力をデュアル・トーン多周波数信号（ＤＴＭＦ）に変換し、ＤＴＭＦ信号をバンキング・サーバに送信する。

さらに、ユーザは、音声入力により情報要求のようなコマンドを入力することができる。音声認識技術の改善により、多くの処理およびメモリ記憶要求が必要になり、これにより端末装置内の音声認識機能が制限を受けることになる。通常、音声認識エンジンは、音声モデルのライブラリを含み、このライブラリと入力ボイスコマンドとを照合する。信頼性の高い音声認識を行うためには、多くの場合、大規模ライブラリを必要とするので、かなりの容量のメモリが必要になる。さらに、音声認識機能が進歩するにつれて、消費電力要件も増大し、そのため端末装置のバッテリーの寿命も短くなる。

端末音声認識エンジンは、適応性のあるシステムであり得る。音声認識エンジンは、小規模な認識コマンドのライブラリを有するが、より適合性が高く、トーン、抑揚、アクセント等のようなユーザ特有の音声パターンを理解することができる。それ故、端末内の限られた音声認識ライブラリは、より高い確率の正しい音声認識によって補われる。このシステムは、通常、ユーザがある名前を言うと、システムが予め端末内にプログラムされている関連する番号を自動的にダイヤルするというプログラムされた音声作動ダイヤル機能のような、最も一般的なボイスコマンドに限られている。

音声認識のもう１つの方法は、ネットワーク要素にフルボイスコマンドを提供する方法である。ネットワーク音声認識エンジンは、使用できるメモリの容量が大きく、消費電力のことをあまり考えなくてもすむので音声認識効率を高めることができる。ネットワーク要素上においては、複数のネットワーク要素にアクセスする複数のユーザが音声認識エンジンにアクセス可能でなければならないが、ネットワーク音声認識エンジンは、アクセント等のような特有な音声パターンを認識できないことによって制限される。そのため、ネットワーク音声認識エンジンは、音声認識コマンドのより豊富な語彙を供給することができるが、個々のユーザの音声パターンの固有の制限により、正しい認識の確率は低下する。

また、最近の開発により、端末装置がボイスコマンドの認識を行って端末内で認識できない場合には、ボイスコマンドをコード化し、第２の音声認識を行うためにネットワーク音声認識エンジンに送るという多重レベル分散型音声認識が行えるようになった。ヘディン（Ｈｅｄｉｎ）らによる特許文献１は、サービス・アプリケーションへのユーザ・インタフェースの音声制御のためのシステムおよび方法を開示している。このシステムは、端末装置がボイスコマンドを認識できない場合、少なくとも１つのネットワーク音声認識エンジンのみが使用される段階的音声認識を行う。特許文献１は、オーディオ・コマンドが端末音声認識エンジンまたはネットワーク音声認識エンジンから正しく認識されたということについて、１レベルの保証のみを提供する。
米国特許第６，１８５，５３５号

そのため、音声認識エンジンを使用する改善された通信装置の開発が待望されている。

添付の図面を参照すれば、本発明をより容易に理解することができるだろう。
概して、本システムおよび方法は、端末装置のオーディオ・サブシステム内のマイクロホンに作用可能に結合している端末音声認識エンジンを通して多重レベル分散型音声認識を行う。該端末音声認識エンジンは、例えば、「シカゴの気象」のようなユーザからのボイスコマンドのようなオーディオ・コマンドを受信し、少なくとも１つの端末認識オーディオ・コマンドが対応する端末の信頼値を有する少なくとも１つの端末認識オーディオ・コマンドを生成する。

上記システムおよび方法は、さらに、ネットワーク内に、端末内のマイクロホンに作用可能に結合している少なくとも１つのネットワーク音声認識エンジンを有するネットワーク要素を含む。前記ネットワーク音声認識エンジンは、オーディオ・コマンドを受信し、少なくとも１つのネットワーク認識オーディオ・コマンドが対応するネットワークの信頼値を有する少なくとも１つのネットワーク認識オーディオ・コマンドを生成する。

さらに上記システムおよび方法は、コンパレータ、すなわち複数の認識オーディオ・コマンドおよび信頼値を比較するハードウェアまたはソフトウェアのかたちで実施されるモジュールを含む。コンパレータは、端末認識オーディオ・コマンドおよび端末音声認識の信頼値を受信するための端末音声認識エンジンに作用可能に結合されている。コンパレータは、さらに、ネットワーク認識オーディオ・コマンドおよびネットワーク音声認識の信頼値を受信するためのネットワーク音声認識エンジンに結合している。コンパレータは、端末音声認識の信頼値とネットワーク音声認識の信頼値とを比較して、その対応する信頼値により認識コマンドをコンパイルし、ソートする。１つの実施形態において、コンパレータは、特定の音声認識エンジンに基づいて信頼値に加重係数を供給して、特定の音声認
識エンジンからの信頼値に、他の信頼値より大きな加重が加えられるようにする。

ダイアログ・マネージャは、操作可能にコンパレータに結合している。ダイアログ・マネージャとしては、音声ブラウザ、対話型音声応答ユニット（ＩＶＲ）、グラフィカル・ブラウザ、ＪＡＶＡ（登録商標）をベースとするアプリケーション、ソフトウェア・プログラム・アプリケーション、または当業者であれば周知の他のソフトウェア／ハードウェア・アプリケーションを使用することができる。ダイアログ・マネージャは、認識オーディオ・コマンドを受信した場合に、コマンドを受信し、解釈し、実行する、ハードウェアまたはソフトウェア内で実施されたモジュールである。ダイアログ・マネージャは、最良のＮ個の認識コマンドを示す指標を、コンパレータに供給することができる。これらの認識コマンドは、ダイアログ・マネージャに供給されるべき最高の信頼値を有する。コンパレータは、ダイアログ・マネージャに認識オーディオ・コマンドおよびその信頼値、すなわち、最良のＮ個の認識オーディオ・コマンドおよびその信頼値の関連リストを供給する。さらに、コンパレータが、ダイアログ・マネージャに任意の認識オーディオ・コマンドを供給できない場合には、コンパレータは、ダイアログ・マネージャにエラー通知を送る。

ダイアログ・マネージャが、１つまたはそれ以上の認識オーディオ・コマンドおよび対応する信頼値を受信した場合には、ダイアログ・マネージャは、リストをさらに限定するために、付加的なステップを使用することができる。例えば、ダイアログ・マネージャは、最高の信頼値を含むオーディオ・コマンドを実行することができるし、またはユーザがオーディオ・コマンドを検証することができるように、ユーザに関連リストを提示することができる。また、ダイアログ・マネージャがエラー通知を受信した場合、または認識オーディオ・コマンドのどれもが所定の最低のしきい値より高い信頼値を有さない場合には、ダイアログ・マネージャはユーザにエラー・メッセージを送る。

オーディオ・コマンドがコンテンツ・サーバからの情報の要求であった場合には、ダイアログ・マネージャは、コンテンツ・サーバにアクセスし、コード化された情報を検索する。少なくとも１つのコンテンツ・サーバが、ダイアログ・マネージャに作用可能に結合している。コンテンツ・サーバとしては、インターネットを通して結合している市販のサーバ、イントラネットを通して結合しているローカル常駐サーバ、バンキング・システムのような商用アプリケーション・サーバ、または任意の他の適当なコンテンツ・サーバ等がある。

検索されたコード化情報は、ダイアログ・マネージャに返信される。上記情報は、通常、ハイパーテキスト・マークアップ言語（ＨＴＭＬ）、無線マークアップ言語（ＷＭＬ）、拡張マークアップ言語（ＸＭＬ）、音声拡張可能マークアップ言語（ＶｏｉｃｅＸＭＬ）、拡張可能なハイパーテキスト・マークアップ言語（ＸＨＴＭＬ）または他のこのようなマークアップ言語のような、復号を行なうダイアログ・マネージャのためのマークアップ言語としてコード化される。この場合、コード化された情報はダイアログ・マネージャにより復号され、ユーザに供給される。

それにより、オーディオ・コマンドは、端末装置上に配置されている第１の音声認識エンジン、およびネットワーク上に配置されている第２の音声認識エンジンのような複数のレベル上に配置され得る少なくとも２つの音声認識エンジン間で配信される。

図１は、端末１０８とネットワーク要素１１０との間の通信リンク１０６を通して、ユーザ１０２が少なくとも１つのコンテンツ・サーバ１０４にアクセスすることができるようにする従来技術の無線通信システム１００である。ネットワーク要素１１０は、ネットワーク１１２内の複数のネットワーク要素１１０の中の１つである。ユーザ１０２は、例
えば、「シカゴの気象」のようなボイスコマンドのような入力コマンド１１４を端末１０８に供給する。端末１０８は、このコマンドを解釈し、標準無線接続のような通信リンク１０６を通して、ネットワーク要素１１０にこのコマンドを供給する。

ネットワーク要素１１０はコマンドを受信し、このコマンドを処理する、すなわち、音声認識装置（図示せず）を使用して、入力コマンド１１４を認識して、解釈する。次いで、ネットワーク要素１１０は、複数のコンテンツ・サーバ１０４の中の少なくとも１つにアクセスして、要求した情報を検索する。情報を検索すると、コンテンツ・サーバ１０４によって、その情報はネットワーク要素１１０に返信される。その結果、要求された情報は通信リンク１０６を通して端末１０８に供給され、端末１０８は、音声メッセージのような出力１１６をユーザに供給する。

図１の従来技術のシステムの場合には、入力コマンド１１４は、端末１０８に供給されたボイスコマンドであってもよい。端末１０８は、ボイスコマンドをコード化し、コード化したボイスコマンドを通信リンク１０６を通してネットワーク要素１１０に供給する。通常、ネットワーク要素１１０内の音声認識エンジン（図示せず）は、ボイスコマンドを認識するように試行し、その結果、要求された情報を検索する。すでに説明したように、ボイスコマンド１１４は、また、端末１０８内で解釈され、その場合、端末はネットワーク要素１１０に要求された情報に対する要求を提供する。

また、端末１０８にオーディオ・コマンド１１４を供給し、それにより、端末１０８は、このコマンドの解釈を試行することも当業において周知である。端末１０８がコマンド１１４を解釈できない場合には、オーディオ・コマンド１１４は、通信リンク１０６を通して、少なくとも１つのネットワーク音声認識エンジン（図示せず）により認識されるネットワーク要素１１０に供給される。この従来技術のシステムは、端末音声認識エンジンがボイスコマンドを認識できない場合に、少なくとも１つのネットワーク音声認識エンジンのみにアクセスが行われる段階的な音声認識システムを供給する。

図２は、本発明の１つの実施形態による多重レベル分散型音声認識のための装置である。オーディオ・サブシステム１２０は、第１の音声認識エンジン１２２と、米国０２１１１マサチューセッツ州ボストン、アトランティック・アベニュー６９５所在のスピーチワークスインターナショナルインコーポレテッド（ＳｐｅｅｃｈＷｏｒｋｓＩｎｔｅｒｎａｔｉｏｎａｌ，Ｉｎｃ．）製のオープンスピーチ認識エンジン１．０（ＯｐｅｎＳｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎｅｎｇｉｎｅ１．０）のような少なくとも１つの第２の音声認識エンジン１２４との双方に作用可能に結合している。当業者であれば理解することができると思うが、任意の他の適当な音声認識エンジンを本発明で使用することができる。オーディオ・サブシステム１２０は、接続１２６を通して音声認識エンジン１２２，１２４に結合している。第１の音声認識エンジン１２２は、接続１３０を通してコンパレータ１２８に作用可能に結合しており、第２の音声認識エンジン１２４も、接続１３２を通してコンパレータ１２８に作用可能に結合している。

コンパレータ１２８は、接続１３６を通してダイアログ・マネージャ１３４に結合している。このダイアログ・マネージャは、接続１４０を通してコンテンツ・サーバ１３８に結合していて、接続１４４を通して音声合成エンジン１４２に結合している。さらに、音声合成エンジンは、接続１４６を通してオーディオ・サブシステム１２０に作用可能に結合している。

本発明の１つの実施形態による多重レベル分散型音声認識のための方法を示す図３を参照しながら、図２の装置の動作について説明する。この方法は、ステップ１５０で開始し、ステップ１５２において、装置はオーディオ・コマンドを受信する。通常、オーディオ
・コマンドは、オーディオ・サブシステム１２０に送られる。より詳細に説明すると、オーディオ・コマンドは、オーディオ・サブシステム１２０内に位置するマイクロホン（図示せず）を通して供給される。当業者であれば理解することができると思うが、オーディオ・コマンドは、アプリケーションから供給されるメモリ位置からの読出しのような任意の他の適当な手段から供給されてもよい。

オーディオ・コマンドを受信すると、オーディオ・サブシステム１２０は、ステップ１５４に示すように、第１の音声認識エンジン１２２および少なくとも１つの第２の音声認識エンジン１２４にオーディオ・コマンドを供給する。オーディオ・コマンドは接続１２６を通して供給される。次に、第１の音声認識エンジン１２２は、ステップ１５６に示すように、そのオーディオ・コマンドを認識して、少なくとも１つの第１の認識されたオーディオ・コマンド（「以下、第１の認識オーディオ・コマンド」とする）を生成する。その少なくとも１つの第１の認識オーディオ・コマンドは、対応する第１の信頼値を有する。また、少なくとも１つの第２の音声認識エンジンは、ステップ１５８に示すように、前記オーディオ・コマンドを認識して、少なくとも１つの第２の認識されたオーディオ・コマンド（以下、「第２の認識オーディオ・コマンド」とする）を生成する。その少なくとも１つの第２の認識オーディオ・コマンドは対応する第２の信頼値を有する。少なくとも１つの第２の音声認識エンジンは、第１の音声認識エンジンと同じオーディオ・コマンドを認識するが、第１の音声認識エンジンとは無関係にオーディオ・コマンドを認識する。

次に、第１の音声認識エンジン１２２は、接続１３０を通してコンパレータ１２８に少なくとも１つの第１の認識オーディオ・コマンドを供給し、少なくとも１つの第２の音声認識エンジン１２４は、接続１３２を通してコンパレータ１２８に、少なくとも１つの第２の音声認識オーディオ・コマンドを供給する。本発明の１つの実施形態の場合には、コンパレータは、第１の加重係数によって少なくとも１つの第１の信頼値を加重（重み付け）し、第２の加重係数によって少なくとも１つの第２の信頼値を加重する。例えば、コンパレータ１２８は、ステップ１６０において、第１の音声認識エンジン１２２の認識を優先することができる。よって、第１の信頼値に０．９５のスケーリング係数を掛け、第２の信頼値に０．９０のスケーリング係数を掛けてもよい。

次に、コンパレータ１２８は、ステップ１６２に示すように、少なくとも１つの第１の信頼値および少なくとも１つの第２の信頼値に基づいて、少なくとも１つの第１の認識オーディオ・コマンドおよび少なくとも１つの第２の認識オーディオ・コマンドから、認識オーディオ・コマンド信頼値を有する少なくとも１つの認識オーディオ・コマンドを選択する。本発明の１つの実施形態の場合には、ダイアログ・マネージャ１３４は、コンパレータ１２８に、最良のＮ個の認識コマンドを示す指標を提供する。最良のＮ個の認識コマンドを示す指標は、最良の５つの認識コマンドのように、要求された認識コマンドの数を示し、その場合、指標が示す認識コマンド数は５である。

ダイアログ・マネージャ１３４は、接続１３６を通して、コンパレータ１２８から最良のＮ個の認識オーディオ・コマンドのような認識オーディオ・コマンドを受信する。次に、ダイアログ・マネージャ１３４は、ステップ１６４に示すように、少なくとも１つの認識オーディオ・コマンドに基づいて、少なくとも１つの操作を実行する。例えば、ダイアログ・マネージャ１３４は、ステップ１６６に示すように、ユーザの確認のためにユーザに最良のＮ個の認識オーディオ・コマンドを示すリストを供給することにより、少なくとも１つの認識オーディオ・コマンドの確認を求めることができる。本発明の１つの実施形態の場合には、ダイアログ・マネージャ１３４は、接続１４４を通して音声合成エンジン１４２に、最良のＮ個の認識オーディオ・コマンドを示すリストを供給する。音声合成エンジン１４２は、最良のＮ個の認識オーディオ・コマンドを合成し、それを接続１４６を通してオーディオ・サブシステム１２０に供給する。その場合、オーディオ・サブシステム１２０は、最良のＮ個の認識オーディオ・コマンドを示すリストをユーザに供給する。

さらに、ダイアログ・マネージャ１３４は、少なくとも１つの認識オーディオ・コマンドの信頼値と、０．６５のような最低信頼性レベルとを比較するなどの、最良のＮ個の認識オーディオ・コマンドを示すリストに関して更なるフィルタリング操作を行う。次に、ダイアログ・マネージャ１３４は、適当な認識オーディオ・コマンドとして、最も高い信頼値を有する認識オーディオ・コマンドを単に指定することができる。その場合、ダイアログ・マネージャ１３４は、次に、特定の都市の気象情報のような要求された情報を検索するために、接続１４０を通してのコンテンツ・サーバ１３８へアクセスするなどのそのコマンドを実行する。

さらに、コンパレータ１２８は、ステップ１６８に示すように、少なくとも１つの第１の信頼値および少なくとも１つの第２の信頼値が最低信頼性レベルより低い場合にはエラー通知を生成する。例えば、図２を参照して、コンパレータ１２８は、０．５５のような内部最低信頼性レベルを有し得、その最低信頼性レベルと、第１の信頼値および第２の信頼値が比較される。第１の信頼値および第２の信頼値のうち最低信頼性レベルより高いものがない場合には、コンパレータ１２８は、接続１３６を通してダイアログ・マネージャ１３４にエラー通知を発行する。

さらに、ダイアログ・マネージャ１３４は、最良のＮ個の認識オーディオ・コマンド内でのように、認識オーディオ・コマンドが、ダイアログ・マネージャ１３４の最低信頼性レベルより高い認識信頼値を含んでいない場合には、エラー通知を発行することができる。また、第１の音声認識エンジン１２２および少なくとも１つの第２の音声認識エンジン１２４が、任意のオーディオ・コマンドを認識できなかった場合、または認識オーディオ・コマンドが第１の音声認識エンジン１２２、第２の音声認識エンジン１２４、またはコンパレータ１２８が指定した最低信頼性レベルより低い場合には、コンパレータ１２８がエラー通知を生成する。

エラー通知が、コンパレータ１２８を通して、またはダイアログ・マネージャ１３４を通して発行された場合には、ダイアログ・マネージャ１３４はエラー・コマンドを実行し、そのエラー・コマンドは、接続１４４を通して音声合成エンジン１４２に供給され、さらに、接続１４６を通してまたオーディオ・サブシステム１２０を通してエンド・ユーザに供給される。当業者であれば理解することができると思うが、エラー・コマンドは、表示装置のような任意の他の適当な手段によりユーザに表示することができる。

よって、図２の装置は、多重レベル分散型音声認識を行う。ステップ１７０に示すように、ダイアログ・マネージャ１３４が、少なくとも１つの認識コマンドに応答して操作を実行するとこの方法は完了する。

図４は、本発明の１つの実施形態による多重レベル分散型音声認識システムを示す。システム２００は、端末２０２およびネットワーク要素２０４を含む。当業者であれば理解することができると思うが、ネットワーク要素２０４は、ネットワーク１１２内の複数のネットワーク要素２０４の中の１つである。

端末２０２は、スピーカ２０８およびマイクロホン２１０等を含むオーディオ・サブシステム２０６を有する。オーディオ・サブシステム２０６は、端末の音声転送インタフェース２１２に作用可能に結合している。さらに、端末セッション制御２１４が端末２０２内に配置されている。

端末２０２は、また接続２１８を通してオーディオ・サブシステム２０６に作用可能に結合している、米国６０１９６イリノイ州シャンバーグイーストアルゴンクインロード１３０１所在のモトローラインコーポレテッド（Ｍｏｔｏｒｏｌａ，Ｉｎｃ．）製の音声作動ダイヤルを提供するＭｏｔｏｒｏｌａｉ９０ｃ（商標）で使用されているような端末音声認識エンジン２１６を有する。当業者であれば理解することができると思うが、本発明においては、他の適当な音声認識エンジンも使用することができる。端末音声認識エンジン２１６は、オーディ・サブシステム２０６のマイクロホン２１０を通して、元来ユーザ１０２が供給したオーディオ・コマンドを受信する。

端末セッション制御２１４は、ネットワーク要素２０４内に位置するネットワーク要素セッション制御２２２に作用可能に結合している。当業者であれば理解することができると思うが、端末セッション制御２１４およびネットワーク要素セッション制御２２２は、通信セッションの初期化の際、セッションの期間中、および通信セッションの終了の際に通信する。例えば、端末２０２およびネットワーク要素２０４内に位置する種々の要素に対して、初期化始動中にアドレス指定を提供する。

端末音声転送インタフェース２１２は、ネットワーク要素２０４内に位置するネットワーク要素音声転送インタフェース２２４に作用可能に結合している。ネットワーク要素音声転送インタフェース２２４は、さらに、米国０２１１１マサチューセッツ州ボストン、アトランティック・アベニュー６９５所在のスピーチワークスインターナショナルインコーポレイテッド（ＳｐｅｅｃｈＷｏｒｋｓＩｎｔｅｒｎａｔｉｏｎａｌ，Ｉｎｃ．）製のＯｐｅｎＳｐｅｅｃｈ認識エンジン１．０のような、少なくとも１つのネットワーク音声認識エンジン２２６に作用可能に結合している。当業者であれば理解できると思うが、任意の他の適当な音声認識エンジンも本発明で使用することができる。少なくとも１つのネットワーク音声認識エンジン２２６は、さらに、接続２３０を通してコンパレータ２２８に結合していて、コンパレータ２２８は、他のものでも実施することができるが、ハードウェアまたはソフトウェアで実施することができ、端末音声認識エンジン２１６およびネットワーク音声認識エンジン２２６から受信した認識オーディオ・コマンドから少なくとも１つの認識オーディオ・コマンドを選択する。

コンパレータ２２８は、さらに、接続２３２を通して、端末２０２内に位置する端末音声認識エンジン２１６に結合している。コンパレータ２２８は、接続２３６を通してダイアログ・マネージャ２３４に結合している。ダイアログ・マネージャ２３４は、接続２４０を通して音声合成エンジン２３８に結合している複数のモジュールに作用可能に結合していて、また少なくとも１つのコンテンツ・サーバ１０４に結合している。当業者であれば理解することができると思うが、ダイアログ・マネージャ２３４は、図面を分かり易くするために、図４には示していない複数の他の構成要素に結合することができる。

図５は、本発明のある実施形態による多重レベル分散型音声認識のための方法である。図４について説明したように、図５の方法はステップ３００から開始し、端末２０２内でオーディオ・コマンドを受信する。通常、オーディオ・コマンドは、ユーザーがオーディオ・サブシステム２０６のマイクロホン２１０に音声をオーディオ入力を提供することによって、ユーザ１０２から端末２０２に送られる。オーディオ入力は、ステップ３０４に示すように、標準コード化形式でコード化され、端末音声認識エンジン２１６に送られ、さらに端末音声転送インタフェース２１２および少なくとも１つのネットワーク要素音声転送インタフェース２２４を通して、少なくとも１つのネットワーク音声認識エンジン２２６に送られる。

図２の装置と同様に、ステップ３０６に示すように、オーディオ・コマンドを認識して、端末音声認識エンジン２１６は、少なくとも１つの端末認識オーディオ・コマンドを生成する。その少なくとも１つの端末認識オーディオ・コマンドは対応する端末２０２の信頼値を有する。さらに少なくとも１つのネットワーク音声認識エンジン２２６は、ステップ３０８に示すように、オーディオ・コマンドを認識して、少なくとも１つのネットワーク認識オーディオ・コマンドを生成する。その少なくとも１つのネットワーク認識オーディオ・コマンドは対応するネットワーク２０４の信頼値を有する。少なくとも１つのネットワーク音声認識エンジン２２６は、端末音声認識と同じオーディオ・コマンドを認識するが、端末音声認識エンジン２１６とは無関係にオーディオ・コマンドも認識する。

端末音声認識エンジン２１６がオーディオ・コマンドを認識すると、少なくとも１つの端末認識オーディオ・コマンドが、接続２３２を通してコンパレータ２２８に送られる。また、少なくとも１つのネットワーク音声認識エンジン２２６がオーディオ・コマンドを認識すると、少なくとも１つのネットワーク認識オーディオ・コマンドが、接続２３０を通してコンパレータ２２８に送られる。

本発明の１つの実施形態の場合には、コンパレータ２２８は、ステップ３１０に示すように、端末加重係数によって少なくとも１つの端末の信頼値を加重し、ネットワーク加重係数によって、少なくとも１つのネットワークの信頼値を加重する。例えば、コンパレータ２２８は、少なくとも１つのネットワーク音声認識エンジン２２６の認識機能を優先させ、そのためネットワークの信頼値を増大するために、ネットワークの信頼値をスケーリング係数で調整、すなわち、ネットワークの信頼値にスケーリング係数を掛け、また端末の信頼値を低減するために、端末の信頼値をスケーリング係数で調整する、すなわち、端末の信頼値にスケーリング係数を掛ける。

さらに、本発明の方法は、ステップ３１２に示すように、少なくとも１つの端末認識オーディオ・コマンドおよび少なくとも１つのネットワーク認識オーディオ・コマンドから、認識オーディオ・コマンドの信頼値を有する少なくとも１つの認識オーディオ・コマンドを選択する。より詳細に説明すると、コンパレータ２２８は、認識オーディオ・コマンドの信頼値に基づいて、複数の認識オーディオ・コマンドを選択する。本発明の１つの実施形態の場合には、ダイアログ・マネージャ２３４は、コンパレータ２２８に、最良のＮ個の認識オーディオ・コマンドを示す指標を提供する。その指標は、ダイアログ・マネージャ２３４に提供するためのＮ個の認識オーディオ・コマンドを示す。コンパレータ２２８は、少なくとも１つの端末認識オーディオ・コマンドおよび少なくとも１つのネットワーク認識オーディオ・コマンドをその対応する信頼値によりソートし、そこから一番上の最良のＮ個のコマンドを抽出する。

本発明の１つの実施形態の場合には、コンパレータ２２８は、信頼値に対応する認識オーディオ・コマンドに基づいて、少なくとも１つの端末認識オーディオ・コマンドおよび少なくとも１つのネットワーク認識オーディオ・コマンドをフィルタリングすることができる。例えば、コンパレータ２２８は、それにより認識オーディオ・コマンドの信頼値が比較され、最低信頼性レベルより低い信頼値を有するすべての認識オーディオ・コマンドが除去される最低信頼性レベルを有することができる。その場合、コンパレータ２２８は、ダイアログ・マネージャ２３４に最良のＮ個のコマンドを供給する。

さらに、コンパレータ２２８は、最低信頼性レベルより上の信頼値を有するコマンドがＮ個より少ない場合には、ダイアログ・マネージャ２３４にＮ個より少ないコマンドを供給することができる。コンパレータ２２８が最低信頼性レベルより上の信頼値を有する任意の認識コマンドを受信することができなかった場合には、コンパレータ２２８はエラー通知を生成し、このエラー通知を接続２３６を通してダイアログ・マネージャ２３４に供給する。さらに、ステップ３１４に示すように、少なくとも１つの端末信頼値および少なくとも１つのネットワーク信頼値が、０．５未満の信頼性のレベルのような最低信頼性レベルより低い場合には、エラー通知が生成される。

本発明の１つの実施形態の場合には、ステップ３１６に示すように、ダイアログ・マネージャ２３４は、少なくとも１つの認識オーディオ・コマンドを検証して、検証済み認識オーディオ・コマンドを生成し、検証済み認識オーディオ・コマンドに基づいて操作を実行する。例えば、ダイアログ・マネージャは、スピーカ２０８を通して、また音声転送インタフェース２１２，２２４および音声合成エンジン２３８を通して、ユーザ１０２に最良のＮ個の認識オーディオ・コマンドを示すリストを供給することができる。その場合、ユーザ１０２は、最良のＮ個のコマンドの中で元のオーディオ・コマンドを正確に反映しているものを選択し、検証済み認識オーディオ・コマンドを生成することができる。

この検証済み認識オーディオ・コマンドは、次に、元のオーディオ・コマンドが供給されたのと同じ方法で、ダイアログ・マネージャ２３４に返送される。例えば、最良のＮ個の認識オーディオ・コマンドを示すリストのうちの第４番目の認識オーディオ・コマンドが正しいコマンドである場合で、ユーザ１０２がこのコマンドを検証し、検証済み認識オーディオ・コマンドを生成した場合には、ユーザ１０２は、語４をマイクロホン２１０に発音し、この語は、端末音声認識エンジン２１６および少なくとも１つのネットワーク音声認識エンジン２２６の両方に供給され、さらにコンパレータ２２８に供給され、コンパレータ２２８において、その語はダイアログ・マネージャ２３４に供給される。ダイアログ・マネージャ２３４は、検証済み認識オーディオ・コマンドを受信した場合には、この検証済み認識オーディオ・コマンドに基づいて操作を実行する。

ダイアログ・マネージャ２３４は、少なくとも１つの認識オーディオ・コマンド、または検証済みオーディオ・コマンドに基づいて、複数の操作を実行することができる。例えば、ダイアログ・マネージャ２３４は、要求された情報を検索するために、商用データベースのようなコンテンツ・サーバ１０４にアクセスすることができる。さらにダイアログ・マネージャ２３４は、プログラムされたアプリケーションの次のステップへ行くというような、プログラム内で１つの操作を実行することができる。また、ダイアログ・マネージャ２３４は、認識オーディオ・コマンドをある形式に書き込み、またその上に、ユーザからの要求をこの形式用の次のエントリまたは入力を書き込むことができる。当業者であれば理解することができると思うが、ダイアログ・マネージャ２３４は、命令された場合または少なくとも１つの認識オーディオ・コマンドを受信した場合に、任意の適当な動作を行うことができる。

本発明の１つの実施形態の場合には、ダイアログ・マネージャ２３４は、ステップ３１８に示すように、少なくとも１つの認識オーディオ・コマンドを受信した場合、少なくとも１つの認識オーディオ・コマンド信頼値に基づいて少なくとも１つの認識コマンドをフィルタリングし、最高の認識オーディオ・コマンド信頼値を有する認識オーディオ・コマンドに基づいて操作を実行することができる。例えば、ダイアログ・マネージャ２３４は、０．６未満のような所定の設定値より低い信頼値を有するすべての認識オーディオ・コマンドを除去し、残りの認識オーディオ・コマンドに基づいて操作を実行することができる。すでに説明したように、ダイアログ・マネージャ２３４は、少なくとも１つの認識オーディオ・コマンドに応答して任意の適当な実行可能な操作を実行することができる。

さらに、ダイアログ・マネージャ２３４は、フィルタリングに基づいて、コンパレータ２２８が実行した操作のように、所定の信頼性のレベルより低い信頼値を有するすべての認識オーディオ・コマンドを除去するよう求めることができる。例えば、ダイアログ・マネージャ２３４は、コンパレータよりも高い最低信頼値を設定することができる。これは、この最低信頼性レベルは、システム２００の残りの部分とは無関係にダイアログ・マネージャ２３４によって設定され得るためである。ダイアログ・マネージャ２３４が、フィルタリングの後で、ダイアログ・マネージャ２３４の最低信頼性レベルより上の任意の認識オーディオ・コマンドを含むことができなかった場合には、ダイアログ・マネージャ２３４は、コンパレータ２２８のようにエラー通知を生成する。

エラー通知が生成されると、ダイアログ・マネージャ２３４は、ユーザ１０２にオーディオ・コマンドが正しく受信されなかったことを通知するために、エラー・コマンドを実行する。当業者であれば理解することができると思うが、ダイアログ・マネージャは、コンパレータ２２８が行ったように、エラー通知を生成する代わりに、単にエラー・コマンドだけを実行することができる。

ダイアログ・マネージャが上記動作を完全に実行すると、ステップ３２０に示すように、多重レベル分散型認識のための本発明の方法は終了する。
本発明は、第１の音声認識エンジンおよび少なくとも１つの第２の音声認識エンジンによる多重レベル分散型音声認識に関する。本発明の１つの実施形態の場合、第１の音声認識は端末内に配置されていて、少なくとも１つの第２の音声認識エンジンはネットワーク内に配置されている。当業者であれば理解することができると思うが、音声認識エンジンは、端末、ネットワーク要素内に配置することもできるし、音声認識エンジンがオーディオ・コマンドを受信し、比較され、供給される少なくとも１つの認識オーディオ・コマンドを、ダイアログ・マネージャに供給するネットワーク要素等に作用可能に結合しているネットワーク上の独立しているサーバ内に配置することもできる。さらに、本発明は、第１の音声認識エンジンに供給されている同じコマンドとは無関係にオーディオ・コマンドを第２の音声認識エンジンに供給することにより従来技術を改善する。それ故、第１の音声認識エンジンの認識機能とは無関係に、同じオーディオ・コマンドがさらに第２の音声認識に供給される。それ故、本発明は、受信し、本発明のシステムおよび方法の音声認識機能の精度をさらに改善するコンパレータおよびダイアログ・マネージャと一緒に複数の音声認識エンジンを使用することにより、音声認識機能の信頼性を改善する。

本発明およびその種々の態様の他の変更および修正は、通常の当業者であれば容易に思い付くことができること、および本発明は本明細書に記載する特定の実施形態により制限されないことを理解されたい。例えば、図４のコンパレータおよびダイアログ・マネージャを、ネットワーク要素内に常駐させないで、ネットワーク要素に結合しているサーバ上に配置することができる。それ故、本明細書に開示し、特許請求する基本的で根底的な原理の精神および範囲に入るすべての修正、変形または均等物は本発明に含まれる。

従来技術の無線システム。本発明の１つの実施形態による多重レベル分散型音声認識のための装置のブロック図。本発明の１つの実施形態による多重レベル分散型音声認識のための方法のフローチャート。本発明の１つの実施形態による多重レベル分散型音声認識のためのシステムのブロック図。本発明の１つの実施形態による多重レベル分散型音声認識のための方法のフローチャート。

Claims

端末装置（２０２）と、前記端末装置（２０２）に無線通信で接続されるネットワーク装置（２０４）とを備える多重レベル分散型の音声認識システム（２００）における音声認証方法であって、
前記端末装置はマイクロホン（２１０）と端末音声認識エンジン（２１６）を有し、
前記ネットワーク装置（２０４）はネットワーク音声認識エンジン（２２６）、コンパレータ（２２８）、およびダイアログマネージャ（２３４）を有し、
前記音声認識方法は、
前記端末音声認識エンジン（２１６）がオーディオコマンドを受信し、そして対応する端末信頼値を有する端末認識オーディオコマンドを生成することと（３０６）；
前記ネットワーク音声認識エンジンが前記端末音声認識エンジン（２１６）とは独立して前記オーディオコマンドを受信し、そして対応するネットワーク信頼値を有するネットワーク認識オーディオコマンドを生成することと（３０８）；
前記コンパレータ（２２８）は、前記端末信頼値と前記ネットワーク信頼値に基づき、前記端末認識オーディオコマンドと前記ネットワーク認識オーディオコマンドのうちから、最も高い信頼値を有する認識オーディオコマンドを選択し、選択した認識オーディオコマンドである選択済コマンドを前記ダイアログマネージャ（２３４）に供給することと（３１２）
を有することを特徴とする、音声認識方法。
前記コンパレータ（２２８）は、端末加重係数によって前記端末信頼値を加重し、ネットワーク加重係数によって前記ネットワーク信頼値を加重する（３１０）、請求項１記載の音声認識方法。
前記音声認証方法は更に、前記端末信頼値と前記ネットワーク信頼値が最小信頼レベル未満の場合に、前記コンパレータ（２２８）がエラー通知を生成することを有する（３１４）、請求項１記載の音声認識方法。
前記音声認証方法は更に、前記ダイアログマネージャ（２３４）が、
前記選択済コマンドを検証することによって検証済コマンドを生成することと（３１６）；
前記検証済コマンドに基づき操作を実行することと
を有する、請求項１記載の音声認識方法。
前記音声認証方法は更に、前記ダイアログマネージャ（２３４）が、
前記端末信頼値と前記ネットワーク信頼値のうちの少なくとも１つに基づき前記選択済コマンドをフィルタリングすることと；
フィルタリングした後の前記選択済コマンドに基づき操作を実行することと（３１８）
を有する、請求項１記載の音声認識方法。
前記ダイアログマネージャ（２３４）は、コンテンツサーバ（１０４）にアクセスする、請求項１記載の音声認識方法。
端末装置（２０２）と、前記端末装置（２０２）に無線通信で接続されるネットワーク装置（２０４）とを備える多重レベル分散型の音声認識システム（２００）であって、
前記端末装置はマイクロホン（２１０）と端末音声認識エンジン（２１６）を有し、
前記ネットワーク装置（２０４）はネットワーク音声認識エンジン（２２６）、コンパレータ（２２８）、およびダイアログマネージャ（２３４）を有し、
前記端末音声認識エンジン（２１６）は、前記マイクロホン（２１０）からオーディオコマンドを受信し、そして対応する端末信頼値を有する端末認識オーディオコマンドを生成し、
前記ネットワーク音声認識エンジン（２２６）は、前記端末音声認識エンジン（２１６）とは独立して前記マイクロホン（２１０）から前記オーディオコマンドを受信し、そして対応するネットワーク信頼値を有するネットワーク認識オーディオコマンドを生成し、
前記コンパレータ（２２８）は前記端末信頼値と前記ネットワーク信頼値に基づき、前記端末認識オーディオコマンドと前記ネットワーク認識オーディオコマンドのうちから、最も高い信頼値を有する認識オーディオコマンドを選択し、選択した認識オーディオコマンドである選択済コマンドを前記ダイアログマネージャ（２３４）に供給することを特徴とする、音声認識システム。
前記ネットワーク装置（２０４）は更に、
前記ダイアログマネージャ（２３４）に作用可能に結合された音声合成エンジン（２３８）を有する、請求項７記載の音声認識システム。