JP2005524859A - 多重レベル分散型音声認識のための方法および装置 - Google Patents

多重レベル分散型音声認識のための方法および装置 Download PDF

Info

Publication number
JP2005524859A
JP2005524859A JP2003558836A JP2003558836A JP2005524859A JP 2005524859 A JP2005524859 A JP 2005524859A JP 2003558836 A JP2003558836 A JP 2003558836A JP 2003558836 A JP2003558836 A JP 2003558836A JP 2005524859 A JP2005524859 A JP 2005524859A
Authority
JP
Japan
Prior art keywords
audio command
command
speech recognition
recognized
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003558836A
Other languages
English (en)
Other versions
JP4509566B2 (ja
JP2005524859A5 (ja
Inventor
バラスリヤ、セナカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2005524859A publication Critical patent/JP2005524859A/ja
Publication of JP2005524859A5 publication Critical patent/JP2005524859A5/ja
Application granted granted Critical
Publication of JP4509566B2 publication Critical patent/JP4509566B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

マイクロホン(130)に結合している端末音声認識装置(136)を有している端末(122)を含む多重レベル分散型音声認識のためのシステムおよび方法。上記端末音声認識装置(136)は、オーディオ・コマンド(37)を受信し、端末信頼値を有する少なくとも1つの端末認識オーディオ・コマンドを生成する。少なくとも1つのネットワーク音声認識装置(150)を有するネットワーク要素(124)は、また、オーディオ・コマンド(149)を受信し、ネットワーク信頼値を有する少なくとも1つのネットワーク認識オーディオ・コマンドを生成する。コンパレータ(152)は、認識オーディオ・コマンドを受信し、音声認識信頼値を比較する。コンパレータ(152)は、出力(162)を少なくとも1つの認識オーディオ・コマンドのダイアログ・マネージャ(160)に供給する。次に、ダイアログ・マネージャは、少なくとも1つの認識オーディオ・コマンドに基づいて、確認のためにユーザへの少なくとも1つの認識オーディオ・コマンドの提示したり、コンテンツ・サーバにアクセスするといった操作を実行する。

Description

本発明は、概して、通信装置および方法に関し、特に音声認識を用いる通信装置および方法に関する。
ハンドヘルド・装置、携帯電話、ラップトップ、PDA、インターネット装置、デスク・トップ・コンピュータまたは適当な装置のような端末装置を含む技術の新規な分野は、複数の入力および出力フォーマットによる情報転送が行われる場である。通常、ユーザが特定の情報の要求のような情報を入力することができる入力システムは、端末装置上に常駐している。例えば、ユーザは、特定の都市に関する気象情報を入手する目的で気象データベースにアクセスするために、端末装置を使用することができる。通常、ユーザは、「シカゴの気象」のような特定の場所の気象情報を要求するボイスコマンドを入力する。端末装置の処理は制限されているので、ボイスコマンドは、ネットワーク要素がネットワーク内の複数のネットワーク要素の中の1つである通信リンクを通してネットワーク要素に転送される。ネットワーク要素は、ボイスコマンドを認識し、ユーザが要求した情報を実行し、検索する音声認識エンジンを含む。さらに、音声認識エンジンをネットワーク内に設置することができ、ネットワーク要素内に常駐させる代わりに、複数のネットワーク要素が音声認識エンジンにアクセスできるように、ネットワーク要素に作用可能に結合することができる。
無線技術の進歩と共に、無線装置用のユーザ・アプリケーションの数が増大してきている。これらの装置の多くは、ますますインタラクティブになり、ユーザはコマンド要求を入力し、情報にアクセスすることができるようになった。同時に、無線技術の進歩と共に、ユーザが特定の情報要求を行うことができる形式も増大してきている。通常、ユーザは、端末装置が入力をコード化し、それをネットワーク要素に送るキーパッドを通して、コマンド要求を入力することができる。このシステムの一般的な例としては、ユーザが、口座情報にアクセスするために、口座番号および個人識別番号(PIN)を入力するテレフォン・バンキング・システムがある。端末装置またはネットワーク要素は、キーパッドを通して入力を受信すると、入力をデュアル・トーン多周波数信号(DTMF)に変換し、DTMF信号をバンキング・サーバに送信する。
さらに、ユーザは、音声入力により情報要求のようなコマンドを入力することができる。音声認識技術の改善により、多くの処理およびメモリ記憶要求が必要になり、これにより端末装置内の音声認識機能が制限を受けることになる。通常、音声認識エンジンは、音声モデルのライブラリを含み、このライブラリと入力ボイスコマンドとを照合する。信頼性の高い音声認識を行うためには、多くの場合、大規模ライブラリを必要とするので、かなりの容量のメモリが必要になる。さらに、音声認識機能が進歩するにつれて、消費電力要件も増大し、そのため端末装置のバッテリーの寿命も短くなる。
端末音声認識エンジンは、適応性のあるシステムであり得る。音声認識エンジンは、小規模な認識コマンドのライブラリを有するが、より適合応性が高く、トーン、抑揚、アクセント等のようなユーザ特有の音声パターンを理解することができる。それ故、端末内の限られた音声認識ライブラリは、より高い確率の正しい音声認識によって相殺される。このシステムは、通常、ユーザがある名前を言うと、システムが予め端末内にプログラムされている関連する番号を自動的にダイヤルするというプログラムされた音声作動ダイヤル機能のような、最も一般的なボイスコマンドに限られている。
音声認識のもう1つの方法は、ネットワーク要素にフルボイスコマンドを提供する方法である。ネットワーク音声認識エンジンは、使用できるメモリの容量が大きく、消費電力のことをあまり考えなくてもすむので音声認識効率を高めることができる。ネットワーク要素上においては、複数のネットワーク要素にアクセスする複数のユーザが音声認識エンジンにアクセス可能でなければならないが、ネットワーク音声認識エンジンは、アクセント等のような特有な音声パターンを認識できないことによって制限される。そのため、ネットワーク音声認識エンジンは、音声認識コマンドのより豊富な語彙を供給することができるが、個々のユーザの音声パターンの固有の制限により、正しい認識の確率は低下する。
また、最近の開発により、端末装置がボイスコマンドの認識を行って端末内で認識できない場合には、ボイスコマンドをコード化し、第2の音声認識を行うためにネットワーク音声認識エンジンに送るという多重レベル分散型音声認識が行えるようになった。ヘディン(Hedin)らによる特許文献1は、サービス・アプリケーションへのユーザ・インタフェースの音声制御のためのシステムおよび方法を開示している。このシステムは、端末装置がボイスコマンドを認識できない場合、少なくとも1つのネットワーク音声認識エンジンのみが使用される段階的音声認識を行う。特許文献2は、オーディオ・コマンドが端末音声認識エンジンまたはネットワーク音声認識エンジンから正しく認識されたということについて、1レベルの保証のみを提供する。
米国特許第6,185,535 B1号 米国特許第6,185,535号
そのため、音声認識エンジンを使用する改善された通信装置の開発が待望されている。
添付の図面を参照すれば、本発明をより容易に理解することができるだろう。
概して、本システムおよび方法は、端末装置のオーディオ・サブシステム内のマイクロホンに作用可能に結合している端末音声認識エンジンを通して多重レベル分散型音声認識を行う。該端末音声認識エンジンは、例えば、「シカゴの気象」のようなユーザからのボイスコマンドのようなオーディオ・コマンドを受信し、少なくとも1つの端末認識オーディオ・コマンドが対応する端末の信頼値を有する少なくとも1つの端末認識オーディオ・コマンドを生成する。
上記システムおよび方法は、さらに、ネットワーク内に、端末内のマイクロホンに作用可能に結合している少なくとも1つのネットワーク音声認識エンジンを有するネットワーク要素を含む。前記ネットワーク音声認識エンジンは、オーディオ・コマンドを受信し、少なくとも1つのネットワーク認識オーディオ・コマンドが対応するネットワークの信頼値を有する少なくとも1つのネットワーク認識オーディオ・コマンドを生成する。
さらに上記システムおよび方法は、コンパレータ、すなわち複数の認識オーディオ・コマンドおよび信頼値を比較するハードウェアまたはソフトウェアのかたちで実施されるモジュールを含む。コンパレータは、端末認識オーディオ・コマンドおよび端末音声認識の信頼値を受信するための端末音声認識エンジンに作用可能に結合されている。コンパレータは、さらに、ネットワーク認識オーディオ・コマンドおよびネットワーク音声認識の信頼値を受信するためのネットワーク音声認識エンジンに結合している。コンパレータは、端末音声認識の信頼値とネットワーク音声認識の信頼値とを比較して、その対応する信頼値により認識コマンドをコンパイルし、ソートする。1つの実施形態において、コンパレータは、特定の音声認識エンジンに基づいて信頼値に加重係数を供給して、特定の音声認
識エンジンからの信頼値に、他の信頼値より大きな加重が加えられるようにする。
ダイアログ・マネージャは、操作可能にコンパレータに結合している。ダイアログ・マネージャとしては、音声ブラウザ、対話型音声応答ユニット(IVR)、グラフィカル・ブラウザ、JAVA(登録商標)をベースとするアプリケーション、ソフトウェア・プログラム・アプリケーション、または当業者であれば周知の他のソフトウェア/ハードウェア・アプリケーションを使用することができる。ダイアログ・マネージャは、認識オーディオ・コマンドを受信した場合に、コマンドを受信し、解釈し、実行する、ハードウェアまたはソフトウェア内で実施されたモジュールである。ダイアログ・マネージャは、ダイアログ・マネージャに供給される最高の信頼値を有する認識コマンドの数を表示するN個の最良指標を備えるコンパレータを供給することができる。コンパレータは、ダイアログ・マネージャに、認識オーディオ・コマンドおよびその信頼値、すなわち、N個の最良の認識オーディオ・コマンドおよびその信頼値の関連リストを供給する。さらに、コンパレータが、ダイアログ・マネージャに任意の認識オーディオ・コマンドを供給できない場合には、コンパレータは、ダイアログ・マネージャにエラー通知を送る。
ダイアログ・マネージャが、1つまたはそれ以上の認識オーディオ・コマンドおよび対応する信頼値を受信した場合には、ダイアログ・マネージャは、リストをさらに限定するために、付加的なステップを使用することができる。例えば、ダイアログ・マネージャは、最高の信頼値を含むオーディオ・コマンドを実行することができるし、またはユーザがオーディオ・コマンドを検証することができるように、ユーザに関連リストを提示することができる。また、ダイアログ・マネージャがエラー通知を受信した場合、または認識オーディオ・コマンドのどれもが所定の最低のしきい値より高い信頼値を有さない場合には、ダイアログ・マネージャはユーザにエラー・メッセージを送る。
オーディオ・コマンドがコンテンツ・サーバからの情報の要求であった場合には、ダイアログ・マネージャは、コンテンツ・サーバにアクセスし、コード化された情報を検索する。少なくとも1つのコンテンツ・サーバが、ダイアログ・マネージャに作用可能に結合している。コンテンツ・サーバとしては、インターネットを通して結合している市販のサーバ、イントラネットを通して結合しているローカル常駐サーバ、バンキング・システムのような商用アプリケーション・サーバ、または任意の他の適当なコンテンツ・サーバ等がある。
検索されたコード化情報は、ダイアログ・マネージャに返信される。上記情報は、通常、ハイパーテキスト・マークアップ言語(HTML)、無線マークアップ言語(WML)、拡張マークアップ言語(XML)、音声拡張可能マークアップ言語(VoiceXML)、拡張可能なハイパーテキスト・マークアップ言語(XHTML)または他のこのようなマークアップ言語のような、復号を行なうダイアログ・マネージャのためのマークアップ言語としてコード化される。この場合、コード化された情報はダイアログ・マネージャにより復号され、ユーザに供給される。
それにより、オーディオ・コマンドは、端末装置上に配置されている第1の音声認識エンジン、およびネットワーク上に配置されている第2の音声認識エンジンのような複数のレベル上に配置され得る少なくとも2つの音声認識エンジン間で配信される。
図1は、端末108とネットワーク要素110との間の通信リンク106を通して、ユーザ102が少なくとも1つのコンテンツ・サーバ104にアクセスすることができるようにする従来技術の無線通信システム100である。ネットワーク要素110は、ネットワーク112内の複数のネットワーク要素110の中の1つである。ユーザ102は、例
えば、「シカゴの気象」のようなボイスコマンドのような入力コマンド114を端末108に供給する。端末108は、このコマンドを解釈し、標準無線接続のような通信リンク106を通して、ネットワーク要素110にこのコマンドを供給する。
ネットワーク要素110はコマンドを受信し、このコマンドを処理する、すなわち、音声認識装置(図示せず)を使用して、入力コマンド114を認識して、解釈する。次いで、ネットワーク要素110は、複数のコンテンツ・サーバ104の中の少なくとも1つにアクセスして、要求した情報を検索する。情報を検索すると、ネットワーク要素110は、その情報をネットワーク要素110に返信する。その結果、要求された情報は通信リンク106を通して端末108に供給され、端末108は、可聴メッセージのような出力116をユーザに供給する。
図1の従来技術のシステムの場合には、入力コマンド114は、端末108に供給されたボイスコマンドであってもよい。端末108は、ボイスコマンドをコード化し、コード化したボイスコマンドを通信リンク106を通してネットワーク要素110に供給する。通常、ネットワーク要素110内の音声認識エンジン(図示せず)は、ボイスコマンドを認識するように試行し、その結果、要求された情報を検索する。すでに説明したように、ボイスコマンド114は、また、端末108内で解釈され、その場合、端末はネットワーク要素110に要求された情報に対する要求を提供する。
また、端末108にオーディオ・コマンド114を供給し、それにより、端末108は、このコマンドの解釈を試行することも当業において周知である。端末108がコマンド114を解釈できない場合には、オーディオ・コマンド114は、通信リンク106を通して、少なくとも1つのネットワーク音声認識エンジン(図示せず)により認識されるネットワーク要素110に供給される。この従来技術のシステムは、端末音声認識エンジンがボイスコマンドを認識できない場合に、少なくとも1つのネットワーク音声認識エンジンのみにアクセスが行われる段階的な音声認識システムを供給する。
図2は、本発明の1つの実施形態による多重レベル分散型音声認識のための装置である。オーディオ・サブシステム120は、第1の音声認識エンジン122と、米国02111マサチューセッツ州ボストン、アトランティック・アベニュー695所在のスピーチワークス インターナショナル インコーポレテッド(SpeechWorks International,Inc.)製のオープンスピーチ認識エンジン1.0(OpenSpeech recognition engine 1.0)のような少なくとも1つの第2の音声認識エンジン124との双方に作用可能に結合している。当業者であれば理解することができると思うが、任意の他の適当な音声認識エンジンを本発明で使用することができる。オーディオ・サブシステム120は、接続126を通して音声認識エンジン122,124に結合している。第1の音声認識エンジン122は、接続130を通してコンパレータ128に作用可能に結合しており、第2の音声認識エンジン124も、接続132を通してコンパレータ128に作用可能に結合している。
コンパレータ128は、接続136を通してダイアログ・マネージャ134に結合している。このダイアログ・マネージャは、接続140を通してコンテンツ・サーバ138に結合していて、接続144を通して音声合成エンジン142に結合している。さらに、音声合成エンジンは、接続146を通してオーディオ・サブシステム120に作用可能に結合している。
本発明の1つの実施形態による多重レベル分散型音声認識のための方法を示す図3を参照しながら、図2の装置の動作について説明する。この方法は、ステップ150で開始し、ステップ152において、装置はオーディオ・コマンドを受信する。通常、オーディオ
・コマンドは、オーディオ・サブシステム120に送られる。より詳細に説明すると、オーディオ・コマンドは、オーディオ・サブシステム120内に位置するマイクロホン(図示せず)を通して供給される。当業者であれば理解することができると思うが、オーディオ・コマンドは、アプリケーションから供給されるメモリ位置からの読出しのような任意の他の適当な手段から供給されてもよい。
オーディオ・コマンドを受信すると、オーディオ・サブシステムは、ステップ154に示すように、第1の音声認識エンジン122および少なくとも1つの第2の音声認識エンジン124にオーディオ・コマンドを供給する。オーディオ・コマンドは接続126を通して供給される。次に、第1の音声認識エンジン122は、ステップ156に示すように、そのオーディオ・コマンドを認識して、少なくとも1つの第1の認識されたオーディオ・コマンド(「以下、第1の認識オーディオ・コマンド」とする)を生成する。その少なくとも1つの第1の認識オーディオ・コマンドは、対応する第1の信頼値を有する。また、少なくとも1つの第2の音声認識エンジンは、ステップ158に示すように、前記オーディオ・コマンドを認識して、少なくとも1つの第2の認識されたオーディオ・コマンド(以下、「第2の認識オーディオ・コマンド」とする)を生成する。その少なくとも1つの第2の認識オーディオ・コマンドは対応する第2の信頼値を有する。少なくとも1つの第2の音声認識エンジンは、第1の音声認識エンジンと同じオーディオ・コマンドを認識するが、第1の音声認識エンジンとは無関係なオーディオ・コマンドを認識する。
次に、第1の音声認識エンジン122は、接続130を通してコンパレータ128に少なくとも1つの第1の認識オーディオ・コマンドを供給し、少なくとも1つの第2の音声認識エンジン124は、接続132を通してコンパレータ128に、少なくとも1つの第2の音声認識オーディオ・コマンドを供給する。本発明の1つの実施形態の場合には、コンパレータは、第1の加重係数によって少なくとも1つの第1の信頼値を加重(重み付け)し、第2の加重係数によって少なくとも1つの第2の信頼値を加重する。例えば、コンパレータは、ステップ160において、第1の音声認識エンジンの認識を優先することができる。よって、第1の信頼値に0.95のスケーリング係数を掛け、第2の信頼値に0.90のスケーリング係数を掛けてもよい。
次に、コンパレータは、ステップ162に示すように、少なくとも1つの第1の信頼値および少なくとも1つの第2の信頼値に基づいて、少なくとも1つの第1の認識オーディオ・コマンドおよび少なくとも1つの第2の認識オーディオ・コマンドから、認識オーディオ・コマンド信頼値を有する少なくとも1つの認識オーディオ・コマンドを選択する。本発明の1つの実施形態の場合には、ダイアログ・マネージャは、コンパレータに、N個の最良指標を提供する。N個の最良指標は、5つの最良の認識コマンドのような要求された認識コマンドの数を示し、その場合、N個の最良指標は5である。
ダイアログ・マネージャ134は、接続136を通して、コンパレータ128からN個の最良の認識オーディオ・コマンドのような認識オーディオ・コマンドを受信する。次に、ダイアログ・マネージャは、ステップ164に示すように、少なくとも1つの認識オーディオ・コマンドに基づいて、少なくとも1つの操作を実行する。例えば、ダイアログ・マネージャは、ステップ166に示すように、ユーザの確認のためにユーザに認識オーディオ・コマンドのN個の最良リストを供給することにより、少なくとも1つの認識オーディオ・コマンドの確認を求めることができる。本発明の1つの実施形態の場合には、ダイアログ・マネージャ134は、接続144を通して音声合成エンジン142に、認識オーディオ・コマンドのN個の最良リストを供給する。音声合成エンジン142は、N個の最良の認識オーディオ・コマンドを合成し、それを接続146を通してオーディオ・サブシステム120に供給する。その場合、オーディオ・サブシステムは、N個の最良の認識リストをユーザに供給する。
さらに、ダイアログ・マネージャは、少なくとも1つの認識オーディオ・コマンドの信頼値と、0.65のような最低信頼性レベルとを比較するなどの、N個の最良リストに関して更なるフィルタリング操作を行う。次に、ダイアログ・マネージャは、適当な認識オーディオ・コマンドとして、最も高い信頼値を有する認識オーディオ・コマンドを単に指定することができる。その場合、ダイアログ・マネージャは、次に、特定の都市の気象情報のような要求された情報を検索するために、接続140を通してのコンテンツ・サーバ138へアクセスするなどのそのコマンドを実行する。
さらに、コンパレータは、ステップ168に示すように、少なくとも1つの第1の信頼値および少なくとも1つの第2の信頼値が最低信頼性レベルより低い場合にはエラー通知を生成する。例えば、図2を参照して、コンパレータ128は、0.55のような内部最低信頼性レベルを有し得、その最低信頼性レベルと、第1の信頼値および第2の信頼値が比較される。第1の信頼値および第2の信頼値のうち最低信頼性レベルより高いものがない場合には、コンパレータは、接続176を通してダイアログ・マネージャ134にエラー通知を発行する。
さらに、ダイアログ・マネージャは、N個の最良の認識オーディオ・コマンド内でのように、認識オーディオ・コマンドが、ダイアログ・マネージャの最低信頼性レベルより高い認識信頼値を含んでいない場合には、エラー通知を発行することができる。また、第1の音声認識エンジンおよび少なくとも1つの第2の音声認識エンジンが、任意のオーディオ・コマンドを認識できなかった場合、または認識オーディオ・コマンドが第1の音声認識エンジン、第2の音声認識エンジン、またはコンパレータが指定した最低信頼性レベルより低い場合には、コンパレータがエラー通知を生成する。
エラー通知が、コンパレータ128を通して、またはダイアログ・マネージャ134を通して発行された場合には、ダイアログ・マネージャはエラー・コマンドを実行し、そのエラー・コマンドは、接続144を通して音声合成エンジン142に供給され、さらに、接続146を通してまたオーディオ・サブシステム120を通してエンド・ユーザに供給される。当業者であれば理解することができると思うが、エラー・コマンドは、表示装置のような任意の他の適当な手段によりユーザに表示することができる。
よって、図2の装置は、多重レベル分散型音声認識を行う。ステップ170に示すように、ダイアログ・マネージャが、少なくとも1つの認識コマンドに応答して操作を実行するとこの方法は完了する。
図4は、本発明の1つの実施形態による多重レベル分散型音声認識システムを示す。システム200は、端末202およびネットワーク要素204を含む。当業者であれば理解することができると思うが、ネットワーク要素204は、ネットワーク206内の複数のネットワーク要素204の中の1つである。
端末202は、スピーカ208およびマイクロホン210等を含むオーディオ・サブシステム206を有する。オーディオ・サブシステム206は、端末の音声転送インタフェース212に作用可能に結合している。さらに、端末セッション制御214が端末202内に配置されている。
端末202は、また接続218を通してオーディオ・サブシステム206に作用可能に結合している、米国60196イリノイ州シャンバーグ イースト アルゴンクイン ロード 1301所在のモトローラ インコーポレテッド(Motorola,Inc.)製の音声作動ダイヤルを提供するMotorola i90c(商標)で使用されている
ような端末音声認識エンジン216を有する。当業者であれば理解することができると思うが、本発明においては、他の適当な音声認識エンジンも使用することができる。端末音声認識エンジン216は、オーディ・サブシステム206のマイクロホン210を通して、元来ユーザ222が供給したオーディオ・コマンド220を受信する。
端末セッション制御214は、ネットワーク要素204内に位置するネットワーク要素セッション制御222に作用可能に結合している。当業者であれば理解することができると思うが、端末セッション制御214およびネットワーク要素セッション制御222は、通信セッションの初期化の際、セッションの期間中、および通信セッションの終了の際に通信する。例えば、端末202およびネットワーク要素204内に位置する種々の要素に対して、初期化始動中にアドレス指定を提供する。
端末音声転送インタフェース212は、ネットワーク要素204内に位置するネットワーク要素音声転送インタフェース224に作用可能に結合している。ネットワーク要素音声転送インタフェース224は、さらに、米国02111マサチューセッツ州ボストン、アトランティック・アベニュー695所在のスピーチワークス インターナショナル インコーポレイテッド(SpeechWorks International,Inc.)製のOpenSpeech認識エンジン1.0のような、少なくとも1つのネットワーク音声認識エンジン226に作用可能に結合している。当業者であれば理解できると思うが、任意の他の適当な音声認識エンジンも本発明で使用することができる。少なくとも1つのネットワーク音声認識エンジン226は、さらに、接続230を通してコンパレータ228に結合していて、コンパレータは、他のものでも実施することができるが、ハードウェアまたはソフトウェアで実施することができ、端末音声認識エンジン216およびネットワーク音声認識エンジン226から受信した認識オーディオ・コマンドから少なくとも1つの認識オーディオ・コマンドを選択する。
コンパレータ228は、さらに、接続232を通して、端末202内に位置する端末音声認識エンジン216に結合している。コンパレータ228は、接続236を通してダイアログ・マネージャ234に結合している。ダイアログ・マネージャ234は、接続240を通して音声合成エンジン238に結合している複数のモジュールに作用可能に結合していて、また少なくとも1つのコンテンツ・サーバ140に結合している。当業者であれば理解することができると思うが、ダイアログ・マネージャは、図面を分かり易くするために、図4には示していない複数の他の構成要素に結合することができる。
図5は、本発明のある実施形態による多重レベル分散型音声認識のための方法である。図4について説明したように、図5の方法はステップ300から開始し、端末202内でオーディオ・コマンドを受信する。通常、オーディオ・コマンドは、ユーザーがオーディオ・サブシステム206のマイクロホン210に音声をオーディオ入力を提供することによって、ユーザ102から端末202に送られる。オーディオ入力は、ステップ304に示すように、標準コード化形式でコード化され、端末音声認識エンジン216に送られ、さらに端末音声転送インタフェース212および少なくとも1つのネットワーク要素音声転送インタフェース224を通して、少なくとも1つのネットワーク音声認識エンジン226に送られる。
図2の装置と同様に、ステップ306に示すように、オーディオ・コマンドを認識して、端末音声認識エンジンは、少なくとも1つの端末認識オーディオ・コマンドを生成する。その少なくとも1つの端末認識オーディオ・コマンドは対応する端末の信頼値を有する。さらに少なくとも1つのネットワーク音声認識エンジン226は、ステップ308に示すように、オーディオ・コマンドを認識して、少なくとも1つのネットワーク認識オーディオ・コマンドを生成する。その少なくとも1つのネットワーク認識オーディオ・コマン
ドは対応するネットワークの信頼値を有する。少なくとも1つのネットワーク音声認識エンジン226は、端末音声認識と同じオーディオ・コマンドを認識するが、端末音声認識エンジンとは無関係なオーディオ・コマンドも認識する。
端末音声認識エンジン216がオーディオ・コマンドを認識すると、少なくとも1つの端末認識オーディオ・コマンドが、接続232を通してコンパレータ228に送られる。また、少なくとも1つのネットワーク音声認識エンジン226がオーディオ・コマンドを認識すると、少なくとも1つのネットワーク認識オーディオ・コマンドが、接続230を通してコンパレータ228に送られる。
本発明の1つの実施形態の場合には、コンパレータ228は、ステップ310に示すように、端末加重係数によって少なくとも1つの端末の信頼値を加重し、ネットワーク加重係数によって、少なくとも1つのネットワークの信頼値を加重する。例えば、コンパレータは、少なくとも1つのネットワーク音声認識エンジン226の認識機能を優先させ、そのためネットワークの信頼値を増大するために、ネットワークの信頼値をスケーリング係数で調整、すなわち、ネットワークの信頼値にスケーリング係数を掛け、また端末の信頼値を低減するために、端末の信頼値をスケーリング係数で調整する、すなわち、端末の信頼値にスケーリング係数を掛ける。
さらに、本発明の方法は、ステップ312に示すように、少なくとも1つの端末認識オーディオ・コマンドおよび少なくとも1つのネットワーク認識オーディオ・コマンドから、認識オーディオ・コマンドの信頼値を有する少なくとも1つの認識オーディオ・コマンドを選択する。より詳細に説明すると、コンパレータ228は、認識オーディオ・コマンドの信頼値に基づいて、複数の認識オーディオ・コマンドを選択する。本発明の1つの実施形態の場合には、ダイアログ・マネージャ234は、N個の認識オーディオ・コマンドを示すN個の最良指標をコンパレータ228に供給する。ダイアログ・マネージャ234に供給する。コンパレータ228は、少なくとも1つの端末認識オーディオ・コマンドおよび少なくとも1つのネットワーク認識オーディオ・コマンドをその対応する信頼値によりソートし、そこから一番上のN個の最良のコマンドを抽出する。
本発明の1つの実施形態の場合には、コンパレータ228は、信頼値に対応する認識オーディオ・コマンドに基づいて、少なくとも1つの端末認識オーディオ・コマンドおよび少なくとも1つのネットワーク認識オーディオ・コマンドをフィルタリングすることができる。例えば、コンパレータは、それにより認識オーディオ・コマンドの信頼値が比較され、最低信頼性レベルより低い信頼値を有するすべての認識オーディオ・コマンドが除去される最低信頼性レベルを有することができる。その場合、コンパレータは、ダイアログ・マネージャにN個の最良のコマンドを供給する。
さらに、コンパレータは、最低信頼性レベルより上の信頼値を有するコマンドがN個より少ない場合には、ダイアログ・マネージャにN個より少ないコマンドを供給することができる。コンパレータが最低信頼性レベルより上の信頼値を有する任意の認識コマンドを受信することができなかった場合には、コンパレータはエラー通知を生成し、このエラー通知を接続236を通してダイアログ・マネージャに供給する。さらに、ステップ314に示すように、少なくとも1つの端末信頼値および少なくとも1つのネットワーク信頼値が、0.5未満の信頼性のレベルのような最低信頼性レベルより低い場合には、エラー通知が生成される。
本発明の1つの実施形態の場合には、ステップ316に示すように、ダイアログ・マネージャは、少なくとも1つの認識オーディオ・コマンドを検証して、検証済み認識オーディオ・コマンドを生成し、検証済み認識オーディオ・コマンドに基づいて操作を実行する
ために、。例えば、ダイアログ・マネージャは、スピーカ208を通して、また音声転送インタフェース212,214および音声合成エンジン238を通して、ユーザにN個の最良の認識オーディオ・コマンドのリストを供給することができる。その場合、ユーザは、N個の最良のコマンドの中で元のオーディオ・コマンドを正確に反映しているものを選択し、検証済み認識オーディオ・コマンドを生成することができる。
この検証済み認識オーディオ・コマンドは、次に、元のオーディオ・コマンドが供給されたのと同じ方法で、ダイアログ・マネージャ234に返送される。例えば、N個の最良リストの第4番目の認識オーディオ・コマンドが正しいコマンドである場合で、ユーザがこのコマンドを検証し、検証済み認識オーディオ・コマンドを生成した場合には、ユーザは、語4をマイクロホン206に発音し、この語は、端末音声認識エンジン216および少なくとも1つのネットワーク音声認識エンジン226の両方に供給され、さらにコンパレータ228に供給され、コンパレータ228において、その語はダイアログ・マネージャ234に供給される。ダイアログ・マネージャ234は、検証済み認識オーディオ・コマンドを受信した場合には、この検証済み認識オーディオ・コマンドに基づいて操作を実行する。
ダイアログ・マネージャ234は、少なくとも1つの認識オーディオ・コマンド、または検証済みオーディオ・コマンドに基づいて、複数の操作を実行することができる。例えば、ダイアログ・マネージャは、要求された情報を検索するために、商用データベースのようなコンテンツ・サーバ104にアクセスすることができる。さらにダイアログ・マネージャは、プログラムされたアプリケーションの次のステップへ行くというような、プログラム内で1つの操作を実行することができる。また、ダイアログ・マネージャは、認識オーディオ・コマンドをある形式に書き込み、またその上に、ユーザからの要求をこの形式用の次のエントリまたは入力を書き込むことができる。当業者であれば理解することができると思うが、ダイアログ・マネージャは、命令された場合または少なくとも1つの認識オーディオ・コマンドを受信した場合に、任意の適当な動作を行うことができる。
本発明の1つの実施形態の場合には、ダイアログ・マネージャは、ステップ318に示すように、少なくとも1つの認識オーディオ・コマンドを受信した場合、少なくとも1つの認識オーディオ・コマンド信頼値に基づいて少なくとも1つの認識コマンドをフィルタリングし、最高の認識オーディオ・コマンド信頼値を有する認識オーディオ・コマンドに基づいて操作を実行することができる。例えば、ダイアログ・マネージャは、0.6未満のような所定の設定値より低い信頼値を有するすべての認識オーディオ・コマンドを除去し、残りの認識オーディオ・コマンドに基づいて操作を実行することができる。すでに説明したように、ダイアログ・マネージャは、少なくとも1つの認識オーディオ・コマンドに応答して任意の適当な実行可能な操作を実行することができる。
さらに、ダイアログ・マネージャは、フィルタリングに基づいて、コンパレータ236が実行した操作のように、所定の信頼性のレベルより低い信頼値を有するすべての認識オーディオ・コマンドを除去するよう求めることができる。例えば、ダイアログ・マネージャは、コンパレータよりも高い最低信頼値を設定することができる。これは、この最低信頼性レベルは、システム200の残りの部分とは無関係にダイアログ・マネージャ234によって設定され得るためである。ダイアログ・マネージャが、フィルタリングの後で、ダイアログ・マネージャの最低信頼性レベルより上の任意の認識オーディオ・コマンドを含むことができなかった場合には、ダイアログ・マネージャ234は、コンパレータ228のようにエラー通知を生成する。
エラー通知が生成されると、ダイアログ・マネージャは、ユーザ102にオーディオ・コマンドが正しく受信されなかったことを通知するために、エラー・コマンド234を実
行する。当業者であれば理解することができると思うが、ダイアログ・マネージャは、コンパレータ228が行ったように、エラー通知を生成する代わりに、単にエラー・コマンドだけを実行することができる。
ダイアログ・マネージャが上記動作を完全に実行すると、ステップ320に示すように、多重レベル分散型認識のための本発明の方法は終了する。
本発明は、第1の音声認識エンジンおよび少なくとも1つの第2の音声認識エンジンによる多重レベル分散型音声認識に関する。本発明の1つの実施形態の場合、第1の音声認識は端末内に配置されていて、少なくとも1つの第2の音声認識エンジンはネットワーク内に配置されている。当業者であれば理解することができると思うが、音声認識エンジンは、端末、ネットワーク要素内に配置することもできるし、音声認識エンジンがオーディオ・コマンドを受信し、比較され、供給される少なくとも1つの認識オーディオ・コマンドを、ダイアログ・マネージャに供給するネットワーク要素等に作用可能に結合しているネットワーク上の独立しているサーバ内に配置することもできる。さらに、本発明は、第1の音声認識エンジンに供給されている同じコマンドとは無関係にオーディオ・コマンドを第2の音声認識エンジンに供給することにより従来技術を改善する。それ故、第1の音声認識エンジンの認識機能とは無関係に、同じオーディオ・コマンドがさらに第2の音声認識に供給される。それ故、本発明は、受信し、本発明のシステムおよび方法の音声認識機能の精度をさらに改善するコンパレータおよびダイアログ・マネージャと一緒に複数の音声認識エンジンを使用することにより、音声認識機能の信頼性を改善する。
本発明およびその種々の態様の他の変更および修正は、通常の当業者であれば容易に思い付くことができること、および本発明は本明細書に記載する特定の実施形態により制限されないことを理解されたい。例えば、図4のコンパレータおよびダイアログ・マネージャを、ネットワーク要素内に常駐させないで、ネットワーク要素に結合しているサーバ上に配置することができる。それ故、本明細書に開示し、特許請求する基本的で根底的な原理の精神および範囲に入るすべての修正、変形または均等物は本発明に含まれる。
従来技術の無線システム。 本発明の1つの実施形態による多重レベル分散型音声認識のための装置のブロック図。 本発明の1つの実施形態による多重レベル分散型音声認識のための方法のフローチャート。 本発明の1つの実施形態による多重レベル分散型音声認識のためのシステムのブロック図。 本発明の1つの実施形態による多重レベル分散型音声認識のための方法のフローチャート。

Claims (13)

  1. 多重レベル分散型音声認識のための方法であって、
    オーディオ・コマンドを第1の音声認識エンジンおよび少なくとも1つの第2の音声認識エンジンに供給するステップと、
    前記第1の音声認識エンジン内で前記オーディオ・コマンドを認識して、少なくとも1つの第1の認識オーディオ・コマンドを生成するステップであって、前記少なくとも1つの第1の認識オーディオ・コマンドが、対応する第1の信頼値を有するステップと、
    前記第1の音声認識エンジンによる前記オーディオ・コマンドの認識とは独立して、前記少なくとも1つの第2の音声認識エンジン内で前記オーディオ・コマンドを認識して、少なくとも1つの第2の認識オーディオ・コマンドを生成するステップであって、前記少なくとも1つの第2の認識オーディオ・コマンドが、対応する第2の信頼値を有するステップとを含む方法。
  2. 前記少なくとも1つの第1の信頼値および前記少なくとも1つの第2の信頼値に基づいて、前記少なくとも1つの第1の認識オーディオ・コマンドおよび前記少なくとも1つの第2の認識オーディオ・コマンドから認識オーディオ・コマンド信頼値を有する少なくとも1つの認識オーディオ・コマンドを選択するステップをさらに含む、請求項1に記載の方法。
  3. 少なくとも1つの認識オーディオ・コマンドを選択する前に、前記少なくとも1つの第1の信頼値を第1の加重係数で加重し、前記少なくとも1つの第2の信頼値を第2の加重係数で加重するステップをさらに含む、請求項2に記載の方法。
  4. 前記少なくとも1つの認識オーディオ・コマンドに基づいて、少なくとも1つの操作を実行するステップをさらに含む、請求項2に記載の方法。
  5. 前記少なくとも1つの認識オーディオ・コマンドを検証するステップをさらに含む、請求項2に記載の方法。
  6. 前記少なくとも1つの第1の信頼値および前記少なくとも1つの第2の信頼値が最低信頼性レベルよりも低い場合に、エラー通知を生成するステップをさらに含む、請求項1に記載の方法。
  7. 多重レベル分散型音声認識のための装置であって、
    オーディオ・コマンドを受信し、少なくとも1つの第1の認識オーディオ・コマンドを生成するために、オーディオ・サブシステムに作用可能に結合している第1の音声認識手段であって、前記少なくとも1つの第1の認識オーディオ・コマンドが第1の信頼値を有する手段と、
    前記オーディオ・コマンドを受信し、前記第1の音声認識手段とは独立して、少なくとも1つの第2の認識オーディオ・コマンドを生成するために、前記オーディオ・サブシステムに作用可能に結合している第2の音声認識手段であって、前記少なくとも1つの第2の認識オーディオ・コマンドのそれぞれが、第2の信頼値を有する手段と、
    前記少なくとも1つの第1の認識オーディオ・コマンドおよび前記少なくとも1つの第2の認識オーディオ・コマンドを受信するために、前記第1の音声認識手段および前記第2の音声認識手段に作用可能に結合している手段とを備える装置。
  8. 前記受信手段に作用可能に結合しているダイアログ・マネージャをさらに備え、前記受信手段が、前記少なくとも1つの第1の信頼値および前記少なくとも1つの第2の信頼値に基づいて、前記少なくとも1つの第1の認識オーディオ・コマンドおよび前記少なくと
    も1つの第2の認識オーディオ・コマンドから認識信頼値を有する少なくとも1つの認識オーディオ・コマンドを選択し、その選択された少なくとも1つの認識オーディオ・コマンドが、前記ダイアログ・マネージャに供給される、請求項7に記載の装置。
  9. 前記ダイアログ・マネージャが、前記少なくとも1つの認識オーディオ・コマンド信頼性のレベルに基づいて、前記少なくとも1つの認識オーディオ・コマンドからダイアログ・マネージャ・オーディオ・コマンドを決定し、前記ダイアログ・マネージャが、前記ダイアログ・マネージャ・オーディオ・コマンドに応答して操作を実行する、請求項7に記載の装置。
  10. 前記ダイアログ・マネージャが、前記ダイアログ・マネージャ・オーディオ・コマンドに応答して、コンテンツ・サーバにアクセスし、コード化された情報を検索する、請求項9に記載の装置。
  11. 前記ダイアログ・マネージャに作用可能に結合している音声合成エンジンをさらに備え、前記音声合成エンジンが前記ダイアログ・マネージャから音声のコード化した情報を受信し、音声フォーマット情報を生成する、請求項10に記載の装置。
  12. 前記オーディオ・サブシステムが、前記音声合成エンジンに作用可能に結合し、前記オーディオ・サブシステムが、前記音声フォーマット情報を受信し、出力メッセージを供給する、請求項11に記載の装置。
  13. コンパレータが前記ダイアログ・マネージャにエラー通知を供給した場合に、前記出力メッセージがエラー・ステートメントである、請求項12に記載の装置。
JP2003558836A 2001-12-29 2002-12-20 多重レベル分散型音声認識のための方法および装置 Expired - Lifetime JP4509566B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/034,542 US6898567B2 (en) 2001-12-29 2001-12-29 Method and apparatus for multi-level distributed speech recognition
PCT/US2002/040794 WO2003058604A1 (en) 2001-12-29 2002-12-20 Method and apparatus for multi-level distributed speech recognition

Publications (3)

Publication Number Publication Date
JP2005524859A true JP2005524859A (ja) 2005-08-18
JP2005524859A5 JP2005524859A5 (ja) 2009-12-03
JP4509566B2 JP4509566B2 (ja) 2010-07-21

Family

ID=21877069

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003558836A Expired - Lifetime JP4509566B2 (ja) 2001-12-29 2002-12-20 多重レベル分散型音声認識のための方法および装置

Country Status (7)

Country Link
US (1) US6898567B2 (ja)
JP (1) JP4509566B2 (ja)
KR (1) KR100632912B1 (ja)
CN (1) CN1320519C (ja)
AU (1) AU2002367354A1 (ja)
FI (2) FI125330B (ja)
WO (1) WO2003058604A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2013232001A (ja) * 2008-08-29 2013-11-14 Multimodal Technologies Inc ハイブリッド型音声認識
JP2014056278A (ja) * 2008-07-02 2014-03-27 Google Inc 並列認識タスクを用いた音声認識
JP2014191246A (ja) * 2013-03-28 2014-10-06 Nec Corp 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置
WO2016157352A1 (ja) * 2015-03-30 2016-10-06 富士通株式会社 音声認識装置、音声認識システム、及び、プログラム

Families Citing this family (129)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US7366673B2 (en) 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
GB2383459B (en) * 2001-12-20 2005-05-18 Hewlett Packard Co Speech recognition system and method
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US20030145062A1 (en) * 2002-01-14 2003-07-31 Dipanshu Sharma Data conversion server for voice browsing system
US7324942B1 (en) * 2002-01-29 2008-01-29 Microstrategy, Incorporated System and method for interactive voice services using markup language with N-best filter element
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
US7809565B2 (en) * 2003-03-01 2010-10-05 Coifman Robert E Method and apparatus for improving the transcription accuracy of speech recognition software
FR2853126A1 (fr) * 2003-03-25 2004-10-01 France Telecom Procede de reconnaissance de parole distribuee
JP4000095B2 (ja) * 2003-07-30 2007-10-31 株式会社東芝 音声認識方法、装置及びプログラム
US20050209859A1 (en) * 2004-01-22 2005-09-22 Porto Ranelli, Sa Method for aiding and enhancing verbal communication
US20050177371A1 (en) * 2004-02-06 2005-08-11 Sherif Yacoub Automated speech recognition
US7421387B2 (en) * 2004-02-24 2008-09-02 General Motors Corporation Dynamic N-best algorithm to reduce recognition errors
US20050187767A1 (en) * 2004-02-24 2005-08-25 Godden Kurt S. Dynamic N-best algorithm to reduce speech recognition errors
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
GB2412997A (en) * 2004-04-07 2005-10-12 Mitel Networks Corp Method and apparatus for hands-free speech recognition using a microphone array
TWI237991B (en) * 2004-06-28 2005-08-11 Delta Electronics Inc Integrated dialogue system and method thereof
US20060009974A1 (en) * 2004-07-09 2006-01-12 Matsushita Electric Industrial Co., Ltd. Hands-free voice dialing for portable and remote devices
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US8221126B2 (en) * 2004-11-22 2012-07-17 Bravobrava L.L.C. System and method for performing programmatic language learning tests and evaluations
US8033831B2 (en) * 2004-11-22 2011-10-11 Bravobrava L.L.C. System and method for programmatically evaluating and aiding a person learning a new language
WO2006057896A2 (en) * 2004-11-22 2006-06-01 Bravobrava, L.L.C. System and method for assisting language learning
US8272874B2 (en) * 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
KR100655489B1 (ko) * 2004-12-06 2006-12-08 한국전자통신연구원 잡음환경하의 음성인식엔진 평가 시스템 및 자동화 방법
KR100728620B1 (ko) * 2005-02-07 2007-06-14 한국정보통신대학교 산학협력단 집합적 음성인식 시스템 및 그 시스템에서의 음성인식 방법
KR100693284B1 (ko) * 2005-04-14 2007-03-13 학교법인 포항공과대학교 음성 인식 장치
US20060235684A1 (en) * 2005-04-14 2006-10-19 Sbc Knowledge Ventures, Lp Wireless device to access network-based voice-activated services using distributed speech recognition
US20060287863A1 (en) * 2005-06-16 2006-12-21 International Business Machines Corporation Speaker identification and voice verification for voice applications
GB0513820D0 (en) * 2005-07-06 2005-08-10 Ibm Distributed voice recognition system and method
JP5320064B2 (ja) * 2005-08-09 2013-10-23 モバイル・ヴォイス・コントロール・エルエルシー 音声制御型ワイヤレス通信デバイス・システム
US7953603B2 (en) * 2005-12-21 2011-05-31 International Business Machines Corporation Load balancing based upon speech processing specific factors
US8380506B2 (en) * 2006-01-27 2013-02-19 Georgia Tech Research Corporation Automatic pattern recognition using category dependent feature selection
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
TWI342010B (en) * 2006-12-13 2011-05-11 Delta Electronics Inc Speech recognition method and system with intelligent classification and adjustment
WO2008096582A1 (ja) * 2007-02-06 2008-08-14 Nec Corporation 認識器重み学習装置および音声認識装置、ならびに、システム
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8856002B2 (en) * 2007-04-12 2014-10-07 International Business Machines Corporation Distance metrics for universal pattern processing tasks
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US8837465B2 (en) 2008-04-02 2014-09-16 Twilio, Inc. System and method for processing telephony sessions
CN102027721B (zh) * 2008-04-02 2015-05-13 特维里奥公司 处理电话会话的系统和方法
WO2010040010A1 (en) 2008-10-01 2010-04-08 Twilio Inc Telephony web event system and method
US8509415B2 (en) 2009-03-02 2013-08-13 Twilio, Inc. Method and system for a multitenancy telephony network
CA2789942C (en) 2009-03-02 2017-05-23 Jeffrey Lawson Method and system for a multitenancy telephone network
US9210275B2 (en) 2009-10-07 2015-12-08 Twilio, Inc. System and method for running a multi-module telephony application
US20110083179A1 (en) * 2009-10-07 2011-04-07 Jeffrey Lawson System and method for mitigating a denial of service attack using cloud computing
US8582737B2 (en) * 2009-10-07 2013-11-12 Twilio, Inc. System and method for running a multi-module telephony application
KR20110065095A (ko) * 2009-12-09 2011-06-15 삼성전자주식회사 디바이스를 제어하는 방법 및 그 장치
CN102804700B (zh) * 2010-01-19 2015-04-15 特维里奥公司 用于保持通话会话状态的方法和系统
US20110184740A1 (en) * 2010-01-26 2011-07-28 Google Inc. Integration of Embedded and Network Speech Recognizers
DE102010012622B4 (de) * 2010-03-24 2015-04-30 Siemens Medical Instruments Pte. Ltd. Binaurales Verfahren und binaurale Anordnung zur Sprachsteuerung von Hörgeräten
US9338064B2 (en) 2010-06-23 2016-05-10 Twilio, Inc. System and method for managing a computing cluster
US20120208495A1 (en) 2010-06-23 2012-08-16 Twilio, Inc. System and method for monitoring account usage on a platform
US9459926B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US9590849B2 (en) 2010-06-23 2017-03-07 Twilio, Inc. System and method for managing a computing cluster
US9459925B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US8416923B2 (en) 2010-06-23 2013-04-09 Twilio, Inc. Method for providing clean endpoint addresses
US8838707B2 (en) 2010-06-25 2014-09-16 Twilio, Inc. System and method for enabling real-time eventing
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
US8649268B2 (en) 2011-02-04 2014-02-11 Twilio, Inc. Method for processing telephony sessions of a network
US20140044123A1 (en) 2011-05-23 2014-02-13 Twilio, Inc. System and method for real time communicating with a client application
US9648006B2 (en) 2011-05-23 2017-05-09 Twilio, Inc. System and method for communicating with a client application
US9398622B2 (en) 2011-05-23 2016-07-19 Twilio, Inc. System and method for connecting a communication to a client
US9336500B2 (en) 2011-09-21 2016-05-10 Twilio, Inc. System and method for authorizing and connecting application developers and users
US10182147B2 (en) 2011-09-21 2019-01-15 Twilio Inc. System and method for determining and communicating presence information
US9495227B2 (en) 2012-02-10 2016-11-15 Twilio, Inc. System and method for managing concurrent events
US9093076B2 (en) * 2012-04-30 2015-07-28 2236008 Ontario Inc. Multipass ASR controlling multiple applications
US9431012B2 (en) 2012-04-30 2016-08-30 2236008 Ontario Inc. Post processing of natural language automatic speech recognition
US9602586B2 (en) 2012-05-09 2017-03-21 Twilio, Inc. System and method for managing media in a distributed communication network
US9240941B2 (en) 2012-05-09 2016-01-19 Twilio, Inc. System and method for managing media in a distributed communication network
US20130304928A1 (en) 2012-05-09 2013-11-14 Twilio, Inc. System and method for managing latency in a distributed telephony network
US8849041B2 (en) 2012-06-04 2014-09-30 Comcast Cable Communications, Llc Data recognition in content
US9247062B2 (en) 2012-06-19 2016-01-26 Twilio, Inc. System and method for queuing a communication session
US8737962B2 (en) 2012-07-24 2014-05-27 Twilio, Inc. Method and system for preventing illicit use of a telephony platform
US8738051B2 (en) 2012-07-26 2014-05-27 Twilio, Inc. Method and system for controlling message routing
JP5706384B2 (ja) * 2012-09-24 2015-04-22 株式会社東芝 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
CN104769668B (zh) 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US8938053B2 (en) 2012-10-15 2015-01-20 Twilio, Inc. System and method for triggering on platform usage
US8948356B2 (en) 2012-10-15 2015-02-03 Twilio, Inc. System and method for routing communications
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
CN103117058B (zh) * 2012-12-20 2015-12-09 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
KR20140089863A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
US9253254B2 (en) 2013-01-14 2016-02-02 Twilio, Inc. System and method for offering a multi-partner delegated platform
US9734819B2 (en) 2013-02-21 2017-08-15 Google Technology Holdings LLC Recognizing accented speech
US9282124B2 (en) 2013-03-14 2016-03-08 Twilio, Inc. System and method for integrating session initiation protocol communication in a telecommunications platform
US9001666B2 (en) 2013-03-15 2015-04-07 Twilio, Inc. System and method for improving routing in a distributed communication platform
CN104143330A (zh) * 2013-05-07 2014-11-12 佳能株式会社 语音识别方法和语音识别系统
US9160696B2 (en) 2013-06-19 2015-10-13 Twilio, Inc. System for transforming media resource into destination device compatible messaging format
US9225840B2 (en) 2013-06-19 2015-12-29 Twilio, Inc. System and method for providing a communication endpoint information service
US9338280B2 (en) 2013-06-19 2016-05-10 Twilio, Inc. System and method for managing telephony endpoint inventory
US9483328B2 (en) 2013-07-19 2016-11-01 Twilio, Inc. System and method for delivering application content
KR102394485B1 (ko) * 2013-08-26 2022-05-06 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
US9274858B2 (en) 2013-09-17 2016-03-01 Twilio, Inc. System and method for tagging and tracking events of an application platform
US9137127B2 (en) 2013-09-17 2015-09-15 Twilio, Inc. System and method for providing communication platform metadata
US9338018B2 (en) 2013-09-17 2016-05-10 Twilio, Inc. System and method for pricing communication of a telecommunication platform
US10885918B2 (en) 2013-09-19 2021-01-05 Microsoft Technology Licensing, Llc Speech recognition using phoneme matching
CN104517609A (zh) * 2013-09-27 2015-04-15 华为技术有限公司 一种语音识别方法及装置
US9325624B2 (en) 2013-11-12 2016-04-26 Twilio, Inc. System and method for enabling dynamic multi-modal communication
US9553799B2 (en) 2013-11-12 2017-01-24 Twilio, Inc. System and method for client communication in a distributed telephony network
CN103700368B (zh) * 2014-01-13 2017-01-18 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
US9601108B2 (en) * 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
KR102215579B1 (ko) 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
US9344573B2 (en) 2014-03-14 2016-05-17 Twilio, Inc. System and method for a work distribution service
US9226217B2 (en) 2014-04-17 2015-12-29 Twilio, Inc. System and method for enabling multi-modal communication
WO2015184186A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9251371B2 (en) 2014-07-07 2016-02-02 Twilio, Inc. Method and system for applying data retention policies in a computing platform
US9246694B1 (en) 2014-07-07 2016-01-26 Twilio, Inc. System and method for managing conferencing in a distributed communication network
US9774687B2 (en) 2014-07-07 2017-09-26 Twilio, Inc. System and method for managing media and signaling in a communication platform
US9516101B2 (en) 2014-07-07 2016-12-06 Twilio, Inc. System and method for collecting feedback in a multi-tenant communication platform
WO2016065080A1 (en) 2014-10-21 2016-04-28 Twilio, Inc. System and method for providing a miro-services communication platform
US9477975B2 (en) 2015-02-03 2016-10-25 Twilio, Inc. System and method for a media intelligence platform
US10395555B2 (en) * 2015-03-30 2019-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing optimal braille output based on spoken and sign language
US10419891B2 (en) 2015-05-14 2019-09-17 Twilio, Inc. System and method for communicating through multiple endpoints
US9948703B2 (en) 2015-05-14 2018-04-17 Twilio, Inc. System and method for signaling through data storage
CN106782546A (zh) * 2015-11-17 2017-05-31 深圳市北科瑞声科技有限公司 语音识别方法与装置
CN105374357B (zh) * 2015-11-23 2022-03-29 青岛海尔智能技术研发有限公司 一种语音识别方法、装置及语音控制系统
CN105551494A (zh) * 2015-12-11 2016-05-04 奇瑞汽车股份有限公司 一种基于手机互联的车载语音识别系统及识别方法
US10659349B2 (en) 2016-02-04 2020-05-19 Twilio Inc. Systems and methods for providing secure network exchanged for a multitenant virtual private cloud
US10063713B2 (en) 2016-05-23 2018-08-28 Twilio Inc. System and method for programmatic device connectivity
US10686902B2 (en) 2016-05-23 2020-06-16 Twilio Inc. System and method for a multi-channel notification service
CN106340297A (zh) * 2016-09-21 2017-01-18 广东工业大学 一种基于云计算与置信度计算的语音识别方法与系统
CN106601257B (zh) * 2016-12-31 2020-05-26 联想(北京)有限公司 一种声音识别方法、设备和第一电子设备
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10354642B2 (en) * 2017-03-03 2019-07-16 Microsoft Technology Licensing, Llc Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
CN109741743B (zh) * 2019-01-10 2021-03-05 深圳市江波龙电子股份有限公司 一种设备的控制方法及装置、非易失性存储介质
CN112896048A (zh) * 2021-03-15 2021-06-04 中电科创智联(武汉)有限责任公司 一种基于手机互联和语音识别的车载环视显示系统及方法
CN113889102A (zh) * 2021-09-23 2022-01-04 达闼科技(北京)有限公司 指令接收方法、系统、电子设备、云端服务器和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03167600A (ja) * 1989-11-28 1991-07-19 Toshiba Corp 音声認識装置
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
JPH09326856A (ja) * 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JPH10116093A (ja) * 1996-10-09 1998-05-06 Nec Corp 音声認識装置
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5101375A (en) * 1989-03-31 1992-03-31 Kurzweil Applied Intelligence, Inc. Method and apparatus for providing binding and capitalization in structured report generation
US5365574A (en) * 1990-05-15 1994-11-15 Vcs Industries, Inc. Telephone network voice recognition and verification using selectively-adjustable signal thresholds
ZA948426B (en) 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6101473A (en) * 1997-08-08 2000-08-08 Board Of Trustees, Leland Stanford Jr., University Using speech recognition to access the internet, including access via a telephone
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
US6006183A (en) * 1997-12-16 1999-12-21 International Business Machines Corp. Speech recognition confidence level display
US6119087A (en) 1998-03-13 2000-09-12 Nuance Communications System architecture for and method of voice processing
US6229880B1 (en) * 1998-05-21 2001-05-08 Bell Atlantic Network Services, Inc. Methods and apparatus for efficiently providing a communication system with speech recognition capabilities
US6185535B1 (en) 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6377922B2 (en) * 1998-12-29 2002-04-23 At&T Corp. Distributed recognition system having multiple prompt-specific and response-specific speech recognizers
US6292781B1 (en) 1999-05-28 2001-09-18 Motorola Method and apparatus for facilitating distributed speech processing in a communication system
US7203651B2 (en) * 2000-12-07 2007-04-10 Art-Advanced Recognition Technologies, Ltd. Voice control system with multiple voice recognition engines
US6701293B2 (en) * 2001-06-13 2004-03-02 Intel Corporation Combining N-best lists from multiple speech recognizers

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03167600A (ja) * 1989-11-28 1991-07-19 Toshiba Corp 音声認識装置
JPH0683388A (ja) * 1992-09-04 1994-03-25 Fujitsu Ten Ltd 音声認識装置
JPH09326856A (ja) * 1996-06-03 1997-12-16 Mitsubishi Electric Corp 音声認識応答装置
JPH10116093A (ja) * 1996-10-09 1998-05-06 Nec Corp 音声認識装置
JPH10133686A (ja) * 1996-10-31 1998-05-22 Nec Corp 非母国語音声認識装置
JP2000148185A (ja) * 1998-11-13 2000-05-26 Matsushita Electric Ind Co Ltd 認識装置及び認識方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014056278A (ja) * 2008-07-02 2014-03-27 Google Inc 並列認識タスクを用いた音声認識
US9373329B2 (en) 2008-07-02 2016-06-21 Google Inc. Speech recognition with parallel recognition tasks
US10049672B2 (en) 2008-07-02 2018-08-14 Google Llc Speech recognition with parallel recognition tasks
US11527248B2 (en) 2008-07-02 2022-12-13 Google Llc Speech recognition with parallel recognition tasks
JP2013232001A (ja) * 2008-08-29 2013-11-14 Multimodal Technologies Inc ハイブリッド型音声認識
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2014191246A (ja) * 2013-03-28 2014-10-06 Nec Corp 認識処理制御装置、認識処理制御方法および認識処理制御プログラム
JP2015141226A (ja) * 2014-01-27 2015-08-03 パイオニア株式会社 情報処理装置
WO2016157352A1 (ja) * 2015-03-30 2016-10-06 富士通株式会社 音声認識装置、音声認識システム、及び、プログラム
JPWO2016157352A1 (ja) * 2015-03-30 2017-09-21 富士通株式会社 音声認識装置、音声認識システム、及び、プログラム

Also Published As

Publication number Publication date
US20030139924A1 (en) 2003-07-24
FI125330B (fi) 2015-08-31
WO2003058604B1 (en) 2004-04-08
FI20040872A (fi) 2004-08-25
AU2002367354A1 (en) 2003-07-24
CN1320519C (zh) 2007-06-06
CN1633679A (zh) 2005-06-29
KR100632912B1 (ko) 2006-10-13
JP4509566B2 (ja) 2010-07-21
FI20145179L (fi) 2014-02-25
KR20040072691A (ko) 2004-08-18
WO2003058604A1 (en) 2003-07-17
US6898567B2 (en) 2005-05-24
FI20040872A0 (fi) 2004-06-23

Similar Documents

Publication Publication Date Title
JP4509566B2 (ja) 多重レベル分散型音声認識のための方法および装置
JP2005524859A5 (ja)
US9058810B2 (en) System and method of performing user-specific automatic speech recognition
US7689417B2 (en) Method, system and apparatus for improved voice recognition
US7668710B2 (en) Determining voice recognition accuracy in a voice recognition system
US6766295B1 (en) Adaptation of a speech recognition system across multiple remote sessions with a speaker
US7421390B2 (en) Method and system for voice control of software applications
US20070276651A1 (en) Grammar adaptation through cooperative client and server based speech recognition
US7881938B2 (en) Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms
US20020198714A1 (en) Statistical spoken dialog system
US20060215821A1 (en) Voice nametag audio feedback for dialing a telephone call
US20030120493A1 (en) Method and system for updating and customizing recognition vocabulary
WO2014096506A1 (en) Method, apparatus, and computer program product for personalizing speech recognition
US20030195751A1 (en) Distributed automatic speech recognition with persistent user parameters
JPH09205478A (ja) 音声認識データベースにアドレスを登録する方法とシステム
US20050060156A1 (en) Speech synthesis
EP1635328B1 (en) Speech recognition method constrained with a grammar received from a remote system.
KR20050088013A (ko) 전화를 이용한 보이스 엑스엠엘 문서 수정 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090707

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090714

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20091007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100428

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4509566

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term