JP5542156B2 - 発話処理のための認識器のマークアップ言語ベースの選択及び利用 - Google Patents

発話処理のための認識器のマークアップ言語ベースの選択及び利用 Download PDF

Info

Publication number
JP5542156B2
JP5542156B2 JP2011547931A JP2011547931A JP5542156B2 JP 5542156 B2 JP5542156 B2 JP 5542156B2 JP 2011547931 A JP2011547931 A JP 2011547931A JP 2011547931 A JP2011547931 A JP 2011547931A JP 5542156 B2 JP5542156 B2 JP 5542156B2
Authority
JP
Japan
Prior art keywords
markup language
computing device
recognizers
utterance
client computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011547931A
Other languages
English (en)
Other versions
JP2012515946A (ja
Inventor
ケー.クリュメル アンドリュー
エフ.マッセ ピエール−アレクサンダー
エー.ルフ ジョセフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012515946A publication Critical patent/JP2012515946A/ja
Application granted granted Critical
Publication of JP5542156B2 publication Critical patent/JP5542156B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Description

<著作権表示>
本願明細書の内容の一部は著作権保護に従う要素を含む。著作権者は、特許文献又は特許開示の如何なる者による複製が米国特許商標局内で公的に入手可能なファイル又は記録を生じる場合、これに異議を申し立てないが、その他の場合の全ての著作権は如何なる場合にも保護される。
モバイルコンピューティングデバイスは、音声認識技術を利用して、ダイヤリングや情報クエリ等の様々な音声起動機能を実行する。モバイルコンピューティングデバイスの記憶装置の限界に帰属して、総合的な音声認識を実行するために、(単純なコマンド及び単純なクエリを処理する)ローカル認識器又はデバイスベースの認識器並びに(オンラインサービスへのアクセスを必要とするより複雑なクエリを処理する)ネットワーク認識器を含む複数の「認識器」が必要とされ得る。しかしながら、現在のモバイルコンピューティングデバイスは、単一の認識器のみを使用することによって、又は、シリアル形式のローカル認識器及びネットワーク認識器を使用することによって、クエリを処理することが制限されている。当該シリアル形式において、結果の処理のためにネットワーク認識器に対して発信される前に、結果がローカル認識器によって処理されなければならない。ローカル認識器のみを使用する関連する欠点としては、結果が、(記憶装置限界に帰属して)単純な命令及び制御の要求に制限されてしまうことである。ネットワーク認識器のみを使用することに関連する欠点としては、単純な命令及び制御の要求に対する結果を受信するための過度の待ち時間である。ローカル認識器及びネットワーク認識器をシリアルに使用することに関連する欠点としては、ローカル認識器が十分な結果処理を提供することができないときでさえも、ローカル認識器が、ネットワーク認識器に先立って利用されなければならないということである。これら問題及び他の問題に関し、本願発明の様々な実施形態が構成されている。
本概要は、発明の詳細な説明においてさらに後述する単純化した形態で概念の選択を導くために与えられている。この発明の概要は、特許請求の範囲に記載された発明の重要な特徴若しくは本質的な特徴を特定することを目的とはしておらず、また、特許請求の範囲に記載された発明を決定することを目的とはしていない。
マークアップ言語ドキュメントに基づいて複数の認識器を選択し且つ利用して、発話を処理する実施形態が提供されている。マークアップ言語ドキュメント及び発話は、コンピューティングデバイスにおいて受信される。1つ以上の認識器は、前記マークアップ言語ドキュメントにおけるマークアップ言語に基づいて前記発話に対する結果セットを戻す複数の認識器の中から選択され得る。結果セットは、選択された認識器から又は前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定された形態の認識器から受信され得る。そして、前記結果セットを受信することに応答して、イベントがコンピューティングデバイスにおいて実行される。
これら及び他の特徴及び利点が、下記の詳細な説明を読み、関連する図面を検討することにより、明らかになるであろう。上述の一般的な説明及び以下の詳細な説明の双方は、例示的であるに過ぎず、特許請求の範囲に記載された本発明を制限するものではないと理解されるべきである。
様々な実施形態に係るマークアップ言語ドキュメントに基づいて複数の認識器を選択し且つ利用して、発話を処理するネットワークアーキテクチャを図示するブロック図である。 様々な実施形態に係るマークアップ言語ドキュメントに基づいて複数の認識器を選択し且つ利用して発話を処理するために利用され得るクライアントコンピューティング環境を図示するブロック図である。 様々な実施形態に係るマークアップ言語ドキュメントに基づいて複数の認識器を選択し且つ利用して、発話を処理するルーチンを図示するフロー図である。 様々な実施形態に係るマークアップ言語ドキュメントに基づいて発話を処理する更新後の認識器を利用するルーチンを図示するフロー図である。 様々な実施形態に係る発話を処理し且つ発話に対する結果セットを処理する複数の認識器から選択するのに利用され得るタグを含むマークアップ言語ドキュメントを示す図である。
マークアップ言語ドキュメントに基づいて、複数の認識器を選択し且つ利用して発話を処理する実施形態を提供する。マークアップ言語ドキュメント及び発話は、コンピューティングデバイスにおいて受信される。当該マークアップ言語ドキュメントにおけるマークアップ言語に基づいて、1つ以上の認識器は、発話に対する結果セットを戻す複数の認識器の中から選択され得る。結果セットは、選択された認識器から、又は、前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定された形態の認識器から受信され得る。そして、結果セットを受信することに応答して、イベントがコンピューティングデバイスにおいて実行される。
以下の詳細な説明において、本明細書の一部を形成し、例示として特定の実施形態又は実施例が示されている添付図面を参照する。これら実施形態は、組み合わせられ得るし、他の実施形態が利用され得るし、構造的な変更が、本願発明の趣旨及び範囲から逸脱しないで行われ得る。したがって、以下の詳細な説明は、限定的な意味では捉えられるべきではないし、本発明の範囲は、添付した特許請求の範囲及びそれら均等物によって画定される。
いくつかの図面を介して同様の番号が同様の要素を表す図面を参照すると、本発明の様々な態様が記載されているであろう。図1は、様々な実施形態に係るマークアップ言語ドキュメントに基づいて複数の認識器を選択し且つ利用して、発話を処理するネットワークアーキテクチャを図示するブロック図である。ネットワークアーキテクチャは、ネットワーク4上のファイルサーバー70と通信するクライアントコンピューティングデバイス2を含む。クライアントコンピューティングデバイス2は、音声認識サーバアプリケーション30、イベントハンドラアプリケーション38、認識器40、発話42、マークアップ言語ドキュメント44、結果セット46、デバイスインタフェースアプリケーション50、及び、同期サービスアプリケーション60を含み得る。様々な実施形態によれば、認識器40は1つ以上の認識器を含むと理解されるべきである。様々な実施形態によれば、クライアントコンピューティングデバイス2は、モバイル若しくはポータブルコンピュータ、又は、1つ以上のアプリケーションプログラムを実行することができる他のタイプのコンピュータを含み得る。当該他のタイプのコンピュータは、ラップトップコンピュータ、「スマートフォン」(すなわち、コンピュータの機能性を有し、そして/又は、アプリケーション開発者に対して標準化インタフェース及びプラットフォームを提供するためにオペレーティングシステムソフトウエアを駆動することができる)、及び、自動車ベースのコンピューティングデバイスを含むもののこれらに限定されない。
クライアントコンピューティングデバイス2の音声認識サーバアプリケーション30は、音声認識を利用し得る様々な生産性ソフトウェアアプリケーションを含み得る。当該音声認識は、検索エンジン(例えば、事業検索、株価検索、スポーツのスコア、映画の時間、気象データ、星占い、ドキュメントの検索)、ナビゲーション、音声ダイヤル(「VAD」)、自動車ベースのソフトウェア(すなわち、無線通信をオンし又はオフし、クルーズコントロール機能を始動せしめ、温度を制御し、ビデオ表示ファンクションを制御し、「DVD」を再生する)、デバイス制御機能(例えば、クライアントコンピューティングデバイス2をオフにし、ノートを記録する、ファイルを削除、作成、又は移動する)、メッセージング(例えば、テキスト及びMMS)、媒体(例えば、写真を撮る)、及び、コンテンツを含むものの、これらに限定されない。(図2ー3の説明においてさらに詳細に説明する)様々な実施形態によれば、イベントハンドラアプリケーション38は、発話42をクライアントコンピューティングデバイス2から受信し、文法に対する発話42を処理するよう利用され得る。発話42が、(住所録からコンタクトにダイヤルする等の)コマンドを含み得るし、又は、クライアントコンピューティングデバイス2上の音声認識サービスアプリケーション30のユーザによる情報のクエリを含み得ることが十分理解されるだろう。イベントハンドラアプリケーション38は、発話42に用いられた文法に基づいて認識器(すなわち、認識器40又は認識器72)を指定して、発話42に応答して1つ以上の結果(すなわち、1つ以上の結果セット46又は結果セット76)を返信するタグに対するマークアップ言語ドキュメント44を解析するのにさらに利用され得る。実施形態によれば、認識器40は、発話42に対する結果を処理するクライアントコンピューティングデバイス2に対して実行され得る別々のアプリケーションを含み得る。別の実施形態によれば、認識器40は、クライアントコンピューティングデバイス2のオペレーティングシステムに組み込まれ得る。
クライアントコンピューティングデバイス2のデバイスインタフェースアプリケーション50は、クライアントコンピューティングデバイス2によって実行され得る様々な機能に対するアプリケーションプログラムインターフェイス(「API」)を含み得る。当該様々な機能は、ユーザインタフェースを作成すること、ネットワーキング、オーディオキャプチャ、音声認識、オーディオの再生、カメラ、住所録、及び、全地球位置発見システム(「GPS」)機能を含むものの、これらに限定されない。クライアントコンピューティングデバイス2の同期サービスアプリケーション60は、クライアントコンピューティングデバイス2とファイルサーバー70との同期を円滑にする。
クライアントコンピューティングデバイス2は、ネットワーク4上でファイルサーバー70と通信し得る。ネットワーク4は、ローカルネットワーク又は広域ネットワーク(例えば、インターネット)を含み得る。ファイルサーバー70は、認識器72,マークアップ言語ドキュメント74,及び結果セット76を含み得る。様々な実施形態によれば、認識器72は1つ以上の認識器を含むものと理解されるべきである。実施形態によれば、ファイルサーバー70は、データセンターにおいて複数のコンピューティングデバイスを含み得る。当該データセンターは、発話42をクライアントコンピューティングデバイス2から受信し且つ(前記イベントハンドラアプリケーション38からの要求に応答して)認識器72を使用して、発話42に応答して結果セット76を決定してクライアントコンピューティングデバイス2に返信する。
様々な実施形態によれば、図4に関して以下でさらに詳細に説明するように、マークアップ言語ドキュメント74は、マークアップ言語ドキュメント44の1のバージョンを含み得る。イベントハンドラアプリケーション38は、クライアントコンピューティングデバイス2におけるマークアップ言語ドキュメント44をマークアップ言語ドキュメント74と比較するよう構成され得る。そして、マークアップ言語ドキュメント74が更新されたバージョンである場合(例えば、マークアップ言語ドキュメント74が、認識器40によって利用され得る新たに付加された特徴を操作する付加的マークアップ言語を含み得る場合)、マークアップ言語ドキュメント44は、付加的マークアップ言語を用いて更新される。
ファイルサーバー70を含む複数のコンピューティングデバイス(図示せず)は、アプリケーションゲートウェイ、アプリケーションサーバ、同期ゲートウェイ及び認識POD、又は、複製デバイスを含み得るものの、これらに限定されない。当業者であれば、ファイルサーバー70を含む複数のコンピューティングデバイスとクライアントコンピューティングデバイス2との間での通信が多くのネットワークプロトコールの使用によって円滑にされ得ると容易に理解できるであろう。例えば、クライアントコンピューティングデバイス2とアプリケーションゲートウェイとの間の保護データ通信は、トランスミッションコントロールプロトコル(「TCP」)及び「HTTPS」(HyperText Transfer Protocol over Secure Socket Layer protocol)の使用によって円滑にされ得る。アプリケーションゲートウェイ、アプリケーションサーバ、認識PODの間の通信は、ハイパーテキストトランスファプロトコル(「HTTP」)の使用によって円滑にされ得る。前述のプロトコルは、当業者にとって周知であり、本明細書においてさらに議論しない。実施形態によれば、ファイルサーバー70によって受信された発話42と結果セット76とは、(例えば、認識POD及びアプリケーションサーバに送信される前にアプリケーションゲートウェイによって)、(音声を用いた)HTTP POST方法を使用して処理され得る。(例えば、アプリケーションサーバを介した)ファイルサーバー70は、結果セット76をクライアントコンピューティングデバイス2に送信する前に、結果セット76をマークアップ言語ドキュメント(すなわち、マークアップ言語ドキュメント44及び74とは無関係のマークアップ言語ドキュメント)に変換もし得る(この実施形態によれば、イベントハンドラアプリケーション38は、結果セット76を含むマークアップ言語ドキュメントを処理するマークアップ言語インタープリタ(図示せず)を含み得る)。実施形態によれば、クライアントコンピューティングデバイス2に通信する前に、結果セット76は、1つ以上の圧縮方法を使用して圧縮され得る。種々の実施形態で利用され得る圧縮方法の実施例は、周知のワイヤレス・アプリケーション・プロトコル・バイナリ拡張マークアップ言語(「WBXML」)及びGNUジップ(「GZIP」)圧縮法である。
<例示的なオペレーティング環境>
図2を参照して、以下の説明は、様々な例示的実施形態が実装され得る好適なコンピューティング環境について簡潔で且つ一般的な説明を提供することを目的としている。種々の実施形態は、コンピューティングデバイス上のオペレーティングシステムで駆動するプログラムモジュールと連結して実行するプログラムモジュールに関する一般的な内容で記載されるであろうが、当業者であれば、様々な実施形態が他のタイプのコンピュータシステム及びプログラムモジュールと組み合わせて実装され得ると認識するであろう。
一般に、プログラムモジュールは、ルーチン、プログラム、要素、データ構造及び特定のタスクを実行するか又は特定の抽象型データを実装する他のタイプの構造を含む。その上、当業者であれば、様々な実施形態が多くのコンピュータシステム構成により実施され得ることを十分理解するだろう。当該多くのコンピュータシステム構成は、携帯端末、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電化製品若しくはプログラム可能な家庭用電化製品、ミニコンピュータ、メインフレームコンピュータ等を含む。本発明の様々な実施形態は、分散コンピュータ環境においても実施され得る。当該分散コンピュータ環境において、タスクは通信ネットワークを介してリンクされた遠隔処理デバイスによって実行される。分散コンピュータ環境においては、プログラムモジュールはローカル記憶デバイス及びリモートメモリ記憶デバイスの双方に設けられ得る。
図2は、1つ以上のアプリケーションプログラムを実行することができるモバイルコンピュータ若しくはポータブルコンピュータ又は他のタイプのコンピュータを含み得るクライアントコンピューティングデバイス2を示している。当該他のタイプのコンピュータは、ラップトップコンピュータ、「スマートフォン」(すなわち、コンピュータの機能性を有し、そして/又は、アプリケーション開発者に対して標準化インタフェース及びプラットフォームを提供するためにオペレーティングシステムソフトウエアを駆動することができる携帯電話)、及び、自動車ベースのコンピューティングデバイスを含む。クライアントコンピューティングデバイス2は、少なくとも1つの中央演算処理装置8(「CPU」)、ランダムアクセスメモリ18(「RAM」)及びリードオンリーメモリ(「ROM」)20を含むシステムメモリ12並びにメモリをCPU8に連結するシステムバス10を含む。例えばスタートアップ中にコンピュータ内の要素間の情報を転送するのに有益な基本ルーチンを含む基本入出力システムは、ROM20において記憶される。
クライアントコンピューティングデバイス2は、オペレーティングシステム32を記憶する大容量記憶装置14、音声認識サービスアプリケーション30、イベントハンドラアプリケーション38は、認識器40、発話42、マークアップ言語ドキュメント44、結果セット46、デバイスインタフェースアプリケーション50及び同期アプリケーション60をさらに含む。当業者であれば、認識器40が、大容量記憶装置14上に常駐するソフトウェアとして実装されることに加えて、ハードウェアにおいて完全に実装され得ることを容易に理解できるであろう。例えば、認識器40は、音声分析、認識過程及びシステム制御機能を有するシングルチップCMOS音声認識LSI回路として実装され得る。
様々な実施形態によれば、ワシントン州レッドモンドのマイクロソフト社のWINDOWSオペレーティングシステム等のオペレーティングシステム32が、ネットワークでつながれたパーソナルコンピュータの動作を制御するのに適切であり得る。大容量記憶装置14は、バス12に接続された大容量記憶コントローラ(図示せず)を介してCPU8に接続されている。大容量記憶装置14及びその関連コンピュータ読取可能媒体は、コンピューティングデバイス2に対して非揮発性記憶を提供する。本明細書に含まれるコンピュータ読取可能媒体に関する説明はハードディスク又はCD−ROMドライブ等の大容量記憶装置を意味しているものの、当業者であれば、コンピュータ読取可能媒体はクライアントコンピューティングデバイス2によりアクセスされ得るし、クライアントコンピューティングデバイス2によって利用され得るいかなる媒体であり得ると容易に理解できるであろう。限定ではなく、例示として、コンピュータ読取可能媒体はコンピュータ記憶媒体及び通信媒体を含み得る。
コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、若しくは他のデータ等の情報を記憶する全ての方法若しくは技術において実装された揮発性であり且つ不揮発性である脱着可能媒体及び脱着不可能媒体を含み得る。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリ若しくは他の固体メモリ技術、CD−ROM、デジタル多用途ディスク(「DVD」)若しくは他の光学記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置又は所望の情報を記憶するのに使用され且つクライアントコンピューティングデバイス2によってアクセスされ得る他の磁気記憶装置を含むものの、これらに限定されない。通信媒体は、コンピュータ可読命令、データ構造、プログラムモジュール又は伝送波若しくは他の転送機構等の変調されたデータ信号における他のデータを通常具現化し、いかなる情報配信媒体をも含む。「変調されたデータ信号」という用語は、信号の情報をエンコードするような方法で設定され又は変化された特性のうち1つ以上を有する信号を意味している。限定ではなく、例示として、通信媒体は、有線ネットワーク又は直接有線接続等の有線媒体、音響媒体、RF媒体、赤外線媒体及び他の無線媒体等の無線媒体とを含む。上記のあらゆる組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。コンピュータ読取可能媒体は、コンピュータプログラム製品としても参照され得る。
本発明の様々な実施形態によれば、クライアントコンピューティングデバイス2は、ネットワーク4を介したリモートコンピュータに対する論理接続を使用してネットワーク化された環境において動作し得る。当該ネットワーク4は、上述したように、ローカルネットワーク又は広域ネットワーク(例えば、インターネット)を含み得る。クライアントコンピューティングデバイス2は、バス10に接続されたネットワークネットワークインタフェースユニット16を介してネットワーク4に接続し得る。また、ネットワークインタフェースユニット16は、他のタイプのネットワーク及びリモートコンピュータシステムに接続することにも利用され得ることが十分理解されるべきである。クライアントコンピューティングデバイス2は、マイクロホン80並びにキーボード、マウス、ペン、スタイラス、指及び/又は他の手段(図示せず)を含む多くの入力タイプから入力を受信し且つ処理する入出力コントローラ22をも含み得る。同様に、入出力コントローラ22は、表示装置82及びプリンタ又は他のタイプの出力装置(図示せず)に出力を供給し得る。
図3は、様々な実施形態に係るマークアップ言語ドキュメントに基づいて複数の認識器を選択し且つ利用して、発話を処理するルーチン300を図示するフロー図である。本明細書に提示されたルーチンに関する説明を読む時に、本発明の様々な実施形態の論理動作が、(1)コンピュータによって実装される動作若しくはコンピュータシステム上で動作するプログラムモジュールのシーケンスとして、そして/又は、(2)相互接続された機械論理回路若しくはコンピュータシステム内の回路モジュールとして、実装され得ることが十分理解されるべきである。実装は、本発明を実装するコンピュータシステムの性能の要求に依存した選択の問題である。従って、図3−4において図示され、且つ、本明細書において説明された種々の実施形態を形成する論理演算は、オペレーション、構造デバイス、動作又はモジュールとして、様々に参照される。添付された特許請求の範囲において画定された本発明の趣旨と範囲から逸脱することなく、当業者であれば、これらオペレーション、構造デバイス、動作、及びモジュールは、ソフトウェア、ファームウェア、専用デジタル論理回路、及びそれらのあらゆる組合せにおいて、実装され得ると容易に理解できるであろう。
ルーチン400は動作305において開始する。当該動作305において、マークアップ言語ドキュメント(例えば、マークアップ言語ドキュメント44)が、クライアントコンピューティングデバイス2によって受信され得る。1つの実施形態において、マークアップ言語ドキュメントは、イベントハンドラアプリケーション38によってファイルサーバー70に対してなされた要求を介して受信され得る。
動作305から、ルーチン300は動作307に継続する。当該動作307において、イベントハンドラアプリケーション38は、受信されたマークアップ言語ドキュメント44において指定された認識器が、更新されたかどうかを決定する。更新された認識器を決定するルーチンが、図4に関する説明の以下においてさらに詳細に説明されている。
動作307から、ルーチン300は動作310に継続する。動作310において、クライアントコンピューティングデバイス2において実行するイベントハンドラアプリケーション38は、ユーザからのストリームとして発話(例えば、発話42)を受信し始める。様々な実施形態によれば、全体の発話42は、ユーザから受信される必要はないと理解されるべきである。特に、発話42は、ユーザがクライアントコンピューティングデバイス2に対して話しかけると、文法認識のためにイベントハンドラアプリケーション38に流され得る。例えば、クライアントコンピューティングデバイス2は、イベントハンドラアプリケーション38と連動して音声認識サービスアプリケーション40の内の1つ以上を利用して、(図2に示された)マイクロホン80に話すことによって、音声ダイヤルを介した呼出しのクエリ、又は、企業、道路交通情報、方向、気象情報若しくは映画の情報の位置に対するクエリを含む発話をし得る。
動作310から、ルーチン300は動作315に継続する。当該動作315において、イベントハンドラアプリケーション38は、動作310で受信された発話42に使用される文法を認識する。特に、イベントハンドラアプリケーション38は、発話において話された文法(すなわち、単語)を認識するために音声処理を実行するように構成され得る。1つの実施形態によれば、イベントハンドラアプリケーション38は、マークアップ言語ドキュメント44に関連して認識された文法を利用して、発話に対する結果を提供する認識器(すなわち、ローカル認識器又はネットワーク認識器)を決定し得る。
動作315から、ルーチン300は動作320に継続する。当該動作320において、イベントハンドラアプリケーション38は、動作315において認識された文法に基づいて、発話を処理する認識器を特定するマークアップ言語タグに対するマークアップ言語ドキュメント44を解析する。特に、イベントハンドラアプリケーション38は、<grammar>というマークアップ言語タグに対するマークアップ言語ドキュメント44を解析するよう構成され得る。当該<grammar>というマークアップ言語タグは、ローカル又はネットワーク(例えば、ユニフォームリソースロケータ(「URL」))を特定し得る。当該ローカル又はネットワークから、動作315において認識された文法と比較するために記憶された文法が発話42から取り出され得る。
動作320から、ルーチン300は動作325に継続する。当該動作325において、イベントハンドラアプリケーション38は、マークアップ言語ドキュメント44におけるマークアップ言語タグによって特定されたローカル認識器(すなわち、認識器40)又はネットワーク認識器(すなわち、認識器72)のうち一方を選択する。特に、イベントハンドラアプリケーション38は、当該受信された発話42に対する結果を戻す文法に関連づけられた認識器を選択し得る。例えば、発話42がクライアントコンピューティングデバイス2に記憶された住所録に含まれるコンタクトの音声ダイヤルの要求を含む場合、イベントハンドラアプリケーション38は、クライアントコンピューティングデバイス2に対する住所録のコンタクトを含む文法と関連づけられるようにマークアップ言語ドキュメント44において特定される(ローカル)認識器40を選択し得る。他方では、発話42がローカルな事業検索の要求を含む場合、イベントハンドラアプリケーション38は、ファイルサーバー70からリモートインターネット検索エンジンまでクエリを介して取り出され得る事業検索情報を含む文法と関連づけられるようにマークアップ言語ドキュメント44において特定された(ネットワーク)認識器72を選択し得る。
動作325から、ルーチン300は動作330に継続する。当該動作330において、イベントハンドラアプリケーション38は、発話42を選択された認識器(例えば、認識器40又は認識器72)に送信し又は流す。一度、発話42が選択された認識器によって受信される場合、発話が結果に対して処理され得る。
動作330から、ルーチン300は、動作335に継続する。動作335において、イベントハンドラアプリケーション38は、マークアップ言語ドキュメント44において指定されたフォーマットに応じて、1つ以上の結果セットを前記選択された認識器から受信する。特に、認識器40及び72は、様々な実施形態によれば、未処理のフォーマットの若しくは「生」のフォーマットの又は処理されたフォーマットの発話42に対する結果セットを返信するよう構成され得る。未処理の認識器の結果は、認識器40又は認識器72による発話42の音声認識を含む1つ以上の用語を含み得る。他方では、処理された認識器の結果は、発話42に関連付けられた1つ以上の用語の音声認識を含み得る。例えば、「コーヒー」という用語を含む発話に対する未処理の結果は、認識器によって割り当てられた信頼スコアと共にコーヒーという用語を含み得る。当該信頼スコアは、発話に対する音声認識の精度(例えば、80%)を示す。他方では、「コーヒー」という用語を含む発話に対する処理された結果は、コーヒーを販売する地元企業の名前及びアドレスを含む事業の検索結果を含み得る。マークアップ言語ドキュメント44は、マークアップ言語タグを含み得る。当該マークアップ言語タグは、発話に対する結果セットが返信されるフォーマットを特定する。
動作335から、ルーチン300は動作340に継続する。当該動作340において、イベントハンドラアプリケーション38は、1つ以上の結果セットを前記選択された認識器から受信することに応答して、イベントを実行する。イベントは、多くの動作を含み得る。当該動作は、(例えば、表示装置82における)クライアントコンピューティングデバイス2のユーザに1つ以上の結果セットを表示するステップ、結果セットに基づいて音声ダイヤル機能を実行するステップ、結果セットを無視するステップ及びクライアントコンピューティングデバイス2に対する表示のために結果セットを先に受信された結果セットと結合するステップを含むものの、これらに限定されない。1つの実施形態によれば、複数の結果セットは、各タブが結果セットに関連づけられているタブ付けユーザインタフェース(図示せず)に表示され得る。また、ユーザインタフェースは、各々の結果セット又は結果のタイプによってソートされたリストと関連付けられた表示カテゴリを有するドリルダウンリストを含み得る。イベントハンドラアプリケーション38は、多くの基準に基づいて、受信された結果がどのように処理されるかを決定する(すなわち、取るべき動作を決定する)よう構成され得る。当該基準は、結果セットにおける多くの結果、結果セットの信頼スコア、結果セットに対する戻りコード(すなわち、戻りコードは、ファイルサーバー70がダウンしていることを示すエラーコードを含み得る)及び結果セットに対する特定の(すなわち、所定の)値の存在を含むものの、これらに限定されない。例えば、イベントハンドラアプリケーション38は、発話を認識する信頼スコアが低い(例えば、50%未満)場合、結果セットを無視して、結果セットがクライアントコンピューティングデバイス2のユーザに対して表示されることを防止し得る。別の例として、イベントハンドラアプリケーション38は、結果を処理するサーバがダウンしていることを示す結果セットに対する戻りコードを受信することに応答して、エラーダイアログをクライアントコンピューティングデバイス2のユーザに対して作成し且つ表示し得る。別の例として、イベントハンドラアプリケーション38は、結果セットとともに戻された所定の値を処理し得る。当該値は、会社のロゴ又は広告を用いて結果セットを提示する等結果のプレゼンテーションをユーザに表す。動作340から、ルーチン300は終了する。
図4は、様々な実施形態に係るマークアップ言語ドキュメントに基づいて発話を処理する更新された認識器を利用するルーチン400を図示するフロー図である。(上述した)図3の動作305から、ルーチン400は動作405において開始する。当該動作405において、イベントハンドラアプリケーション38は、(ローカルな)認識器40に対するバージョンデータをクライアントコンピューティングデバイス2からファイルサーバー70に送信する。図1の説明において先に説明したように、認識器40は、クライアントコンピューティングデバイス2のオペレーティングシステム(すなわち、オペレーティングシステム32)内に存在し得る。認識器がオペレーティングシステムに組み込まれているとき、イベントハンドラアプリケーション38は、オペレーティングシステムのバージョンをファイルサーバー70に送信するように構成され得ることが十分理解されるだろう。
動作405から、ルーチン400は、動作410に継続する。当該動作410において、イベントハンドラアプリケーション38は、バージョンデータに基づいて認識器40がクライアントコンピューティングデバイス2上で更新されたかどうかを決定する。例えば、組み込まれた認識器に対して、認識器40は、クライアントコンピューティングデバイス2上のオペレーティングシステムの更新後に更新され得る。
動作410において、(受信されたバージョンデータに基づいて、ファイルサーバー70によって決定された際に)認識器40が更新された場合、ルーチン400は動作415において継続する。当該動作415において、イベントハンドラアプリケーション38は、付加的マークアップ言語(すなわち、マークアップ言語ドキュメント74)をファイルサーバー70から受信する。マークアップ言語ドキュメント74は、認識器40の更新後のバージョンにおいて新たに付加された特徴(例えば、音声ダイヤル等)を利用する付加的マークアップ言語タグを含み得る。ルーチン400は、図3の動作310に戻る。動作410において、(受信されたバージョンデータに基づいてファイルサーバー70によって決定されるように)認識器40が更新されていない場合、ルーチン400は、図3の動作310にまた戻る。
図5は、タグを含むマークアップ言語ドキュメントを示している。当該タグは、様々な実施形態に係る発話を処理し且つ発話に対する結果セットを処理する複数の認識器から選択するのに利用され得る。特に、図5は、クライアントコンピューティングデバイス2上のマークアップ言語ドキュメント44を示している。マークアップ言語ドキュメント44は、<listener>タグ90、<recognize>タグ92、<grammar>タグ94、<recognize>タグ96、<grammar>タグ98、<listener>タグ100、<if>タグ102、<assign>タグ104、<if>タグ106、<throw event>タグ108、<else/>タグ109、<if>タグ110、<assign>タグ111、及び<throw event>タグ112を含む。
<listener>タグ90は、発話42をクライアントコンピューティングデバイス2のユーザから受信するイベントハンドラアプリケーション38によって利用され得る。<recognize>タグ92は、「ローカル」認識器を特定する「タイプ」属性を含む。<grammar>タグ94は、ローカル認識器によって用いられた文法にアクセスするための「http」アドレス(すなわち、ウェブサイトアドレス)を特定する「url」属性を含む。<recognize>タグ96は、「ネットワーク」認識器を特定する「タイプ」属性を含む。<grammar>タグ98は、ネットワーク認識器によって用いられた文法にアクセスするための「http」アドレス(すなわち、ウェブサイトアドレス)を特定する「url」属性を含む。図3に関して上述したように、イベントハンドラアプリケーション38は、マークアップ言語ドキュメントにおけるタグを解析して、発話に使用される文法を認識し得るし、かつ、認識された文法に基づいて認識器を選択して発話を処理し得る。
図3に関して上述したように、イベントハンドラアプリケーション38は、選択された認識器から1つ以上の結果セットを受信して、信頼スコアに基づいて1つ以上の結果セットを処理し得る。<リスナ>タグ100は、前記発話に応答して、選択された認識器から結果セットを受信するイベントハンドラアプリケーション38によって利用され得る。タグ102,104,106,108,109,110,及び111は、イベントハンドラアプリケーション38によって利用されて、発話を認識するための信頼スコアが高い場合(例えば、50%より大−「gSelectedresult.confidence>0.5」)、クライアントコンピューティングデバイス2において動作を実行するために1つ以上の結果セットを使用するかどうかを決定し得るし(例えば、<throw event=”process_selectedresult”/>)、又は、発話を認識する信頼スコアが低い場合(例えば、<if expr=”event.result>gSelectedresult.confience”>、event.resultは「ヌル結果」である)、「ヌル」の結果セットを使用するかどうかを決定し得るし、その結果、クライアントコンピューティングデバイス2における結果セットに関する動作の実行を防止する。
本発明について様々な例示的実施形態を参照して説明してきたものの、当業者であれば、多くの変形例が、以下の特許請求の範囲内においてなされ得ることを理解するであろう。従って、本発明の範囲は、いかなる場合においても、上記明細書によって限定されるべきでないことを意図しておらず、代わって、完全に以下の特許請求の範囲を参照して、決められるべきである。

Claims (13)

  1. 複数の認識器を利用してマークアップ言語ドキュメントに基づいて発話を処理するコンピュータ実行方法であって、
    クライアントコンピューティングデバイスが、前記マークアップ言語ドキュメントを受信するステップと、
    前記クライアントコンピューティングデバイスが、前記発話を受信するステップと、
    前記クライアントコンピューティングデバイスが、前記マークアップ言語ドキュメントに基づいて前記発話に対する結果セットを戻す前記複数の認識器のうちの少なくとも1つを選択するステップであって、前記選択するステップは、
    前記発話に使用される文法を認識するステップと、
    前記文法に基づいて前記発話に対する前記結果セットを戻す前記複数の認識器のうちの少なくとも1つを特定させる少なくとも1つのマークアップ言語タグについて前記マークアップ言語ドキュメントを解析するステップと、
    前記少なくとも1つのマークアップ言語タグによって特定された前記複数の認識器のうちの前記少なくとも1つを選択するステップであって、前記複数の認識器のうちの前記選択された少なくとも1つは、前記文法が前記クライアントコンピューティングデバイス上に記憶されたデータを含む場合、前記クライアントコンピューティングデバイス上に組み込まれたローカル認識器であり、前記文法がネットワークサーバからリモートサーチエンジンへのクエリを介して取得されたデータを含む場合、前記ネットワークサーバ上のネットワーク認識器である、選択するステップと
    を含む、選択するステップと、
    前記クライアントコンピューティングデバイスが、前記結果セットを、前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定されたフォーマットにおける前記複数の認識器のうちの前記選択された少なくとも1つから受信するステップと、
    前記クライアントコンピューティングデバイスが、前記結果セットを受信することに応答してイベントを実行するステップと
    を含むコンピュータ実行方法。
  2. 前記クライアントコンピューティングデバイスが、前記複数の認識器のうちの前記少なくとも1つに対するバージョンデータを、第1のコンピューティングデバイスへ送信するステップと、
    前記クライアントコンピューティングデバイスが、前記バージョンデータが前記複数の認識器のうちの前記少なくとも1つに対する更新後のバージョンを特定する場合、更新されたマークアップ言語ドキュメントを、前記第1のコンピューティングデバイスから受信するステップと
    をさらに含み、前記更新されたマークアップ言語ドキュメントは、前記更新後のバージョンにおいて新たに付加された特徴を利用するための命令に関する記述を含むことを特徴とする請求項1に記載の方法。
  3. 前記イベントは、前記結果セットを受信することに応答して、前記発話に対する音声認識の精度を示す信頼スコアに少なくとも基づいて、実行すべき動作を判定することを含み、前記動作は、前記結果セットが前記発話に対する未処理の結果を含み、かつ前記信頼スコアが、所定の閾値より低い場合、前記結果セットを無視し、前記結果セットを前記クライアントコンピューティングデバイスに表示することを防止することを含むことを特徴とする請求項1に記載の方法。
  4. 前記結果セットを、前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定されたフォーマットの前記複数の認識器のうちの前記選択された少なくとも1つから受信する前記ステップは、未処理の結果フォーマット及び処理された結果フォーマットのうちの少なくとも1つにおける前記結果セットを受信するステップを含み、前記未処理の結果フォーマットは、前記発話の音声認識を含む1つ以上の用語を含み、前記処理された結果フォーマットは、前記発話に関連付けられた1つ以上の用語の音声認識を含むことを特徴とする請求項1に記載の方法。
  5. マークアップ言語ドキュメントに基づいて複数の認識器を利用して発話を処理するシステムであって、前記システムは、クライアントコンピューティングデバイスを含み、前記クライアントコンピューティングデバイスは、
    実行可能なプログラムコードを記憶するメモリと、
    前記メモリに機能的に接続されたプロセッサと
    を含み、前記プロセッサは、前記プログラムコードに含まれたコンピュータ実行可能命令に応答し、かつ
    前記マークアップ言語ドキュメントを受信し、
    前記発話を受信し、
    前記マークアップ言語ドキュメントにおけるマークアップ言語に基づいて前記発話に対する結果セットを戻す前記複数の認識器のうちの少なくとも1つを選択し、前記マークアップ言語に基づいて選択することは、
    前記発話に使用される文法を認識し、
    前記文法に基づいて前記発話に対する前記結果セットを戻す前記複数の認識器のうちの少なくとも1つを特定させる少なくとも1つのマークアップ言語タグについて前記マークアップ言語ドキュメントを解析し、
    前記少なくとも1つのマークアップ言語タグによって特定された前記複数の認識器のうちの前記少なくとも1つを選択し、前記複数の認識器のうちの前記選択された少なくとも1つは、前記文法が前記クライアントコンピューティングデバイス上に記憶されたデータを含む場合、前記クライアントコンピューティングデバイス上に組み込まれたローカル認識器であり、前記文法がネットワークサーバからリモートサーチエンジンへのクエリを介して取得されたデータを含む場合、前記ネットワークサーバ上のネットワーク認識器であり、
    前記結果セットを、前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定されたフォーマットにおける前記複数の認識器のうちの前記選択された少なくとも1つから受信し、および、
    前記結果セットを受信することに応答して、イベントを実行するよう動作する
    ことを特徴とするシステム。
  6. 前記プロセッサは、
    更新後のバージョンが前記複数の認識器のうちの少なくとも1つに対して利用可能であるかどうかを決定し、
    更新後のバージョンが前記複数の認識器のうちの前記少なくとも1つに対して利用可能である場合、前記更新後のバージョンにおいて新たに付加された特徴を操作するための命令に関する記述を含む更新されたマークアップ言語ドキュメントを受信する
    ようにさらに動作することを特徴とする請求項5に記載のシステム。
  7. 前記イベントは、前記結果セットを受信することに応答して、前記発話に対する音声認識の精度を示す信頼スコアに少なくとも基づいて、実行すべき動作を判定することを含み、前記動作は、前記結果セットが前記発話に対する未処理の結果を含み、かつ前記信頼スコアが、所定の閾値より低い場合、前記結果セットを無視し、前記結果セットを前記クライアントコンピューティングデバイスに表示することを防止することを含むことを特徴とする請求項5に記載のシステム。
  8. 前記プロセッサは、前記発話を前記複数の認識器のうちの前記選択された少なくとも1つに送信するようさらに動作することを特徴とする請求項5に記載のシステム。
  9. 前記複数の認識器のうちの前記選択された少なくとも1つからの前記結果セットは、前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定されたフォーマットにおいて、受信され、前記フォーマットは、未処理の結果フォーマット及び処理された結果フォーマットのうちの少なくとも1つを含み、前記未処理の結果フォーマットは、前記発話の音声認識を含む1つ以上の用語を含み、前記処理された結果フォーマットは、前記発話の音声認識と関連付けられた1つ以上の用語を含むことを特徴とする請求項5に記載のシステム。
  10. コンピュータ実行可能命令を含むコンピュータ可読記憶媒体であって、前記コンピュータ実行可能命令がクライアントコンピューティングデバイス上で実行されると、前記クライアントコンピューティングデバイスに、マークアップ言語ドキュメントに基づいて複数の認識器を利用して発話を処理する方法を実行させ、前記方法は、
    前記クライアントコンピューティングデバイスが、前記マークアップ言語ドキュメントを受信するステップと、
    前記クライアントコンピューティングデバイスが、前記発話を受信するステップと、
    前記クライアントコンピューティングデバイスが、前記マークアップ言語ドキュメントにおけるマークアップ言語に基づいて前記発話に対する結果セットを戻す前記複数の認識器のうちの少なくとも1つを選択するステップと、
    前記クライアントコンピューティングデバイスが、前記発話を、前記複数の認識器のうちの前記選択された少なくとも1つに流すステップと、
    前記クライアントコンピューティングデバイスが、前記結果セットを、前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定されたフォーマットにおける前記複数の認識器のうちの前記選択された少なくとも1つから受信するステップと、
    前記クライアントコンピューティングデバイスが、前記結果セットを受信することに応答してイベントを実行するステップと
    を備え、前記マークアップ言語ドキュメントを受信する前記ステップは、
    前記クライアントコンピューティングデバイス上のローカルに記憶されたマークアップ言語ドキュメントを受信するステップ、及び、
    遠隔的に記憶されたマークアップ言語ドキュメントをネットワークサーバから受信するステップ、のうち少なくとも1つを含み、
    前記マークアップ言語ドキュメントにおけるマークアップ言語に基づいて前記発話に対する結果セットを戻す前記複数の認識器のうちの少なくとも1つを選択する前記ステップは、
    前記発話に使用される文法を認識するステップと、
    少なくとも1つのマークアップ言語タグについて前記マークアップ言語ドキュメントを解析するステップと、
    前記文法に基づいて前記発話に対する結果セットを戻す前記複数の認識器のうちの少なくとも1つを特定するステップと、
    少なくとも1つのマークアップ言語タグによって特定された前記複数の認識器のうちの少なくとも1つを選択するステップと
    を含み、前記複数の認識器のうちの前記選択された少なくとも1つは、前記文法が前記クライアントコンピューティングデバイス上に記憶されたデータを含む場合、前記クライアントコンピューティングデバイス上に組み込まれたローカル認識器であり、前記文法がネットワークサーバからリモートサーチエンジンへのクエリを介して取得されたデータを含む場合、前記ネットワークサーバ上のネットワーク認識器である
    ことを特徴とするコンピュータ可読記憶媒体。
  11. 前記方法は、
    前記クライアントコンピューティングデバイスが、更新後のバージョンが前記複数の認識器のうちの少なくとも1つに対して利用可能であるかどうかを決定するステップと、
    前記クライアントコンピューティングデバイスが、更新後のバージョンが前記複数の認識器のうちの前記少なくとも1つに対して利用可能である場合、前記更新後のバージョンにおいて新たに付加された特徴を操作する付加的マークアップ言語を含む更新されたマークアップ言語ドキュメントを受信するステップと
    をさらに含む請求項10に記載のコンピュータ可読記憶媒体。
  12. 前記結果セットを、前記マークアップ言語ドキュメントにおいて指定された処理方法によって決定されたフォーマットの前記複数の認識器のうちの前記選択された少なくとも1つから受信する前記ステップは、未処理の結果フォーマット及び処理された結果フォーマットのうち少なくとも1つにおける前記結果セットを受信するステップを含み、前記未処理の結果フォーマットは、前記発話の音声認識を含む1つ以上の用語を含み、前記処理された結果フォーマットは、前記発話に関連付けられた1つ以上の用語の音声認識を含むことを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  13. 前記イベントは、前記結果セットを受信することに応答して、前記発話に対する音声認識の精度を示す信頼スコアに少なくとも基づいて、実行すべき動作を判定することを含み、前記動作は、前記結果セットが前記発話に対する未処理の結果を含み、かつ前記信頼スコアが、所定の閾値より低い場合、前記結果セットを無視し、前記結果セットを前記クライアントコンピューティングデバイスに表示することを防止することを含むことを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
JP2011547931A 2009-01-22 2009-12-11 発話処理のための認識器のマークアップ言語ベースの選択及び利用 Expired - Fee Related JP5542156B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/357,773 US8515762B2 (en) 2009-01-22 2009-01-22 Markup language-based selection and utilization of recognizers for utterance processing
US12/357,773 2009-01-22
PCT/US2009/067788 WO2010090679A1 (en) 2009-01-22 2009-12-11 Markup language-based selection and utilization of recognizers for utterance processing

Publications (2)

Publication Number Publication Date
JP2012515946A JP2012515946A (ja) 2012-07-12
JP5542156B2 true JP5542156B2 (ja) 2014-07-09

Family

ID=42337638

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011547931A Expired - Fee Related JP5542156B2 (ja) 2009-01-22 2009-12-11 発話処理のための認識器のマークアップ言語ベースの選択及び利用

Country Status (10)

Country Link
US (1) US8515762B2 (ja)
EP (1) EP2380166B1 (ja)
JP (1) JP5542156B2 (ja)
KR (1) KR101649771B1 (ja)
CN (1) CN102292765B (ja)
AU (1) AU2009339294B2 (ja)
BR (1) BRPI0922906A8 (ja)
CA (1) CA2747791C (ja)
RU (1) RU2525440C2 (ja)
WO (1) WO2010090679A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103038818B (zh) 2010-06-24 2016-10-12 本田技研工业株式会社 在车载语音识别系统与车外语音识别系统之间的通信系统和方法
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
DE102014109122A1 (de) * 2013-07-12 2015-01-15 Gm Global Technology Operations, Llc Systeme und Verfahren für ergebnisbezogene Arbitrierung in Sprachdialogsystemen
US9715878B2 (en) 2013-07-12 2017-07-25 GM Global Technology Operations LLC Systems and methods for result arbitration in spoken dialog systems
CN103475712B (zh) * 2013-09-10 2016-05-11 北京思特奇信息技术股份有限公司 基于云计算实现多企业多通讯录自动关联的方法及系统
CN103474069B (zh) * 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10445356B1 (en) * 2016-06-24 2019-10-15 Pulselight Holdings, Inc. Method and system for analyzing entities
US11087766B2 (en) * 2018-01-05 2021-08-10 Uniphore Software Systems System and method for dynamic speech recognition selection based on speech rate or business domain
US10147428B1 (en) * 2018-05-30 2018-12-04 Green Key Technologies Llc Computer systems exhibiting improved computer speed and transcription accuracy of automatic speech transcription (AST) based on a multiple speech-to-text engines and methods of use thereof
CN108846069B (zh) * 2018-06-07 2022-07-19 创新先进技术有限公司 一种基于标记语言的文档执行方法及装置
US11423215B2 (en) 2018-12-13 2022-08-23 Zebra Technologies Corporation Method and apparatus for providing multimodal input data to client applications
US11551681B1 (en) * 2019-12-13 2023-01-10 Amazon Technologies, Inc. Natural language processing routing
CN113763943A (zh) * 2020-06-04 2021-12-07 微软技术许可有限责任公司 在语音识别结果中实时地提供提示

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
DE19910236A1 (de) 1999-03-09 2000-09-21 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
FI20001918A (fi) * 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US20050234727A1 (en) 2001-07-03 2005-10-20 Leo Chiu Method and apparatus for adapting a voice extensible markup language-enabled voice system for natural speech recognition and system response
US6999930B1 (en) * 2002-03-27 2006-02-14 Extended Systems, Inc. Voice dialog server method and system
US7032169B2 (en) * 2002-05-22 2006-04-18 International Business Machines Corporation Method and system for distributed coordination of multiple modalities of computer-user interaction
KR100636909B1 (ko) 2002-11-14 2006-10-19 엘지전자 주식회사 확장성 표기 언어 기반의 전자문서 버전 매김 및 버전을이용한 갱신 문서 제공 방법
US7571100B2 (en) 2002-12-03 2009-08-04 Speechworks International, Inc. Speech recognition and speaker verification using distributed speech processing
US6834265B2 (en) 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US7076428B2 (en) 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7606714B2 (en) * 2003-02-11 2009-10-20 Microsoft Corporation Natural language classification within an automated response system
KR100504841B1 (ko) 2003-07-11 2005-07-29 엘지전자 주식회사 이동 통신 단말기의 메시지 관리 방법
US7158779B2 (en) * 2003-11-11 2007-01-02 Microsoft Corporation Sequential multimodal input
US20050131872A1 (en) * 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
KR100989500B1 (ko) * 2004-01-28 2010-10-22 주식회사 케이티 음성인식 파라미터 공유 방법
KR100695127B1 (ko) * 2004-10-08 2007-03-14 삼성전자주식회사 다 단계 음성 인식 장치 및 방법
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
EP1846850A2 (en) * 2005-02-09 2007-10-24 Pixalert Memory based content display interception
US20060235694A1 (en) 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
CA2620931A1 (en) 2005-09-01 2007-03-08 Vishal Dhawan Voice application network platform
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8326629B2 (en) * 2005-11-22 2012-12-04 Nuance Communications, Inc. Dynamically changing voice attributes during speech synthesis based upon parameter differentiation for dialog contexts
US20070239453A1 (en) 2006-04-06 2007-10-11 Microsoft Corporation Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
US7840409B2 (en) 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8374983B1 (en) * 2009-11-23 2013-02-12 Google Inc. Distributed object classification
US8755610B2 (en) * 2011-06-10 2014-06-17 Apple Inc. Auto-recognition for noteworthy objects

Also Published As

Publication number Publication date
RU2525440C2 (ru) 2014-08-10
EP2380166A4 (en) 2013-09-18
AU2009339294B2 (en) 2014-04-24
CA2747791C (en) 2016-11-08
RU2011130550A (ru) 2013-01-27
AU2009339294A1 (en) 2011-07-14
WO2010090679A1 (en) 2010-08-12
CN102292765B (zh) 2013-08-14
CN102292765A (zh) 2011-12-21
BRPI0922906A2 (pt) 2017-10-31
CA2747791A1 (en) 2010-08-12
EP2380166A1 (en) 2011-10-26
US8515762B2 (en) 2013-08-20
KR20110117086A (ko) 2011-10-26
BRPI0922906A8 (pt) 2017-12-12
KR101649771B1 (ko) 2016-08-19
EP2380166B1 (en) 2018-07-04
US20100185447A1 (en) 2010-07-22
JP2012515946A (ja) 2012-07-12

Similar Documents

Publication Publication Date Title
JP5542156B2 (ja) 発話処理のための認識器のマークアップ言語ベースの選択及び利用
US20220262365A1 (en) Mixed model speech recognition
US10249301B2 (en) Method and system for speech recognition processing
US9530415B2 (en) System and method of providing speech processing in user interface
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
JP6373985B2 (ja) 音声動作式機能にキーワードモデルを割り当てるための方法および装置
US8868428B2 (en) Integration of embedded and network speech recognizers
AU2017425675B2 (en) Extracting domain-specific actions and entities in natural language commands
US8224644B2 (en) Utterance processing for network-based speech recognition utilizing a client-side cache
CN110085222B (zh) 用于支持语音对话服务的交互装置和方法
TW201440037A (zh) 語音操控方法、行動終端裝置及語音操控系統
KR102364401B1 (ko) 문맥형 음성-구동 딥 북마킹
US20190027134A1 (en) Extracting domain-specific actions and entities in natural language commands
JP2014513828A (ja) 自動会話支援
KR102536944B1 (ko) 음성 신호 처리 방법 및 장치
US7197494B2 (en) Method and architecture for consolidated database search for input recognition systems
US9495965B2 (en) Synthesis and display of speech commands method and system
KR20230075386A (ko) 음성 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130404

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130709

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131216

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140502

R150 Certificate of patent or registration of utility model

Ref document number: 5542156

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees