JP4768969B2 - 高度対話型インターフェースに対する理解同期意味オブジェクト - Google Patents

高度対話型インターフェースに対する理解同期意味オブジェクト

Info

Publication number
JP4768969B2
JP4768969B2 JP2004158359A JP2004158359A JP4768969B2 JP 4768969 B2 JP4768969 B2 JP 4768969B2 JP 2004158359 A JP2004158359 A JP 2004158359A JP 2004158359 A JP2004158359 A JP 2004158359A JP 4768969 B2 JP4768969 B2 JP 4768969B2
Authority
JP
Japan
Prior art keywords
input
user
semantic
phrase portion
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2004158359A
Other languages
English (en)
Other versions
JP2004355629A (ja
Inventor
クァンサン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004355629A publication Critical patent/JP2004355629A/ja
Application granted granted Critical
Publication of JP4768969B2 publication Critical patent/JP4768969B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Description

本発明は、コンピュータシステムにおける情報のアクセスおよび表現に関する。より具体的には、本発明は認知および理解を利用した情報へのアクセスに関するものである。
近年、技術が発展したことにより、ユーザは、音声コマンドを与えることによってコンピュータシステム上の情報にアクセスできるようになった。コンピュータシステムは、ユーザコマンドを受信すると、ユーザ入力に対し音声認識を実行し、さらに、ユーザの意思を確認するため、コンピュータシステムが所望の動作を実行する順序で、その入力を処理する。
状況によっては、ユーザが与えた入力が不完全か又は不明確であるため、コンピュータシステムは、視覚的プロンプトまたは音声プロンプト(visual or audible prompts)のどちらかかの形式で、ユーザに対し、追加の情報を要求しなければならない。このようにして、ユーザとコンピュータシステムとの間で対話が確立し、ユーザの意思が確認され動作が実行できるまで、各々は、交代で質問、回答、および/または確認応答を与える。その他の状況においては、このような対話生成は、コンピュータシステムと情報をやりとりするために最もよく使われる方法である。
スピーチ・アプリケーション・ラングエッジ・タグ(Speech Application Language Tags(SALT))を現代的なユーザインターフェースデザインの発展可能な入出力形態として導入することにより、発話を容易化する。SALTの設計目標は、共通の音声タスクを、プログラムしやすいように単純化すること、直接的な認識をそなえた高度な機能を与えることにある。SALTは、多くのアプリケーションのために設計された。例えば、電話ベースの音声のみのアプリケーションがあるが、これは、もっぱら会話でユーザとやり取りをするだけである。
SALTは、音声入力および出力オブジェクト(「聴く」と「プロンプト」)を含み、ユーザの番の始まりと終わりを検出する技術を組み込むモード設計となっている。したがって、多くの音声アプリケーションは、ユーザの番の始まりをユーザに合図させるユーザインターフェースを採用している。コンピュータシステムとしては、ウェアラブルコンピュータ、音声対応モーダルまたはマルチモーダル、(マウスなどの入力装置により選択されたフィールドに対して提供される音声入力)装置、およびその他のアイズフリー(eyes-free)のアプリケーションがある。これらの環境の各々においては、対話におけるユーザの番とコンピュータシステムの番に関するはっきりとした定義が存在している。
しかし、一般的に、人間の会話は、参加者間の明確で交代になされる対話に従って行われない。むしろ、会話には、確認応答、確認、一方の参加者からの質問などが含まれる一方、残りは、話し手側の情報の与え方に大きな影響を及ぼしたり、わずかな影響を及ぼしたり、または影響を及ぼさない情報を与えている。人間の話し手は、この自然な会話形式を楽しむ。同様に、電話システムは、そのような会話を行えるようにするために、全二重技術を採用している。
それとは対照的に、対話ベースのインターフェースは、厳格な交代モード(turn-taking mode)の操作をユーザとコンピュータシステムとの間で採用し、このことは、コンピュータシステムが処理を行い後続の動作にとりかかる前に、コンピュータシステムにユーザ対話の終了を待たせることになる。コンピュータ画面上を進むドット列のような視覚的表示等の単純なフィードバックは、ユーザの番が終わり、コンピュータシステムが応答するまでの間、コンピュータシステムが少なくとも何らかの処理を行っていることをユーザに確信させるが、コンピュータシステムがどの程度理解しているかは不明である。
したがって、認識と理解に基づいたコンピュータシステムを改良する必要がある。そのような改良によって、ユーザにとって一層自然な方法で使用し易い情報にアクセスするシステムまたは方法が提供されるであろう。
欧州特許出願公開第1199630A2号明細書 K. Wang, "Semantic modeling for dialog systems in a pattern recognition framework," in Proc. ASRU-2001, Trento Italy, 2001 H. Ney, S. Ortmanns, "Dynamic programming search for continuous speech recognition," IEEE Signal Processing Magazine, pp. 64-83, 1999 K. Wang, "A plan based dialog system with probabilistic inferences", in Proc. ICSLP-2000, Beijing China, 2000
オーディオキャプショニング(audio captioning)がまだ進行している間に部分的意味構文解析(partial semantic parses)を動的に報告する音声入力モードを実現する方法とシステムを提示する。意味構文解析は、ユーザに即座に報告される結果により評価することができる。最終的には、従来はシステムの番に実行されるタスクが、ユーザの番の最中に実行され、その結果、会話が有する交代の特質から大幅に離脱することができるという結果が得られる。
一般に、本発明の一態様は、コンピュータシステムと相互作用するコンピュータ実行方法を含む。この方法は、ユーザから入力を受け取ることと、処理のため入力を捕捉すること(capturing)とを含む。その後、入力に対する認識が実行され、それと順次又は同時に、入力の第1の部分に関係する意味情報を確認し、意味オブジェクト(semantic object)を出力する。意味オブジェクトは、認識されている入力に基づく、コンピュータアプリケーションにより処理される形式のデータ(例えば、テキスト、暗号化テキスト、圧縮テキストなど)と、第1の部分に関する意味情報とを含む。上記のように、捕捉することが入力の後続部分に対し引き続いて行われている間に、認識が実行され、意味オブジェクトが出力される。この方法は、音声等の可聴音入力だけでなく、例えば、視覚的入力または手書き文字認識のための非可聴音入力のためにも実行することができる。
上記の方法は、コンピューティング装置に情報を処理させ前記方法を実行させる、コンピューティング装置が読み取り可能な命令を格納するコンピュータ可読媒体に実装することができる。他の実施形態では、コンピュータ可読媒体は、認識および理解を実行する言語モデルを設定する命令を格納することができる。言語モデルは、認識された入力に基づいた形式のデータを提供し、受け取った入力に関する意味情報を提供するために適応化されている。
図1は、音声入力に基づいてデータを表現するデータ表示システムのブロック図である。システム10は、音声インターフェースモジュール12、音声認識および理解モジュール14、およびデータ表現モジュール16を含む。ユーザは、音声インターフェースモジュール12に音声クエリの形で入力を与える。音声インターフェースモジュール12は、ユーザから音声情報を収集し、その情報を表す信号を出力する。入力音声が音声インターフェースモジュール12によって収集された後、音声認識および理解モジュール14は、音声認識器(speech recognizer)を使用して音声を認識し、音声理解を実行する。本発明の一態様では、そこで、音声入力がとらえられている間に、それまでに受け取った入力の部分的意味構文解析を提供する。
部分的意味解析は、通常、受け取った入力に対するテキスト(または入力のテキストを表す他のデータ)と、判明した意味情報とを含み、さまざまな形をなすアプリケーションモジュール16に提供される。例えば、一実施形態では、アプリケーションモジュール16は、電子メールの送信、受信、および返信、会合の手配などのために使用される個人情報マネージャであり得る。このようにして、ユーザは、音声コマンドを与え、これらのタスクを実行することができる。アプリケーションモジュール16は、対話型フィードバックを提供し、かつ/または、部分的意味構文解析情報を受け取ったときに、その部分的意味構文解析情報を処置することができる。これにより、アプリケーションモジュール16用の高度な対話型インターフェースをユーザに提供することができる。例えば、音声専用動作モードでは、出力20は、場合によってはアプリケーションに関係する他のタスクを実行しながら、ユーザに戻される音声メッセージ(audible statements)を含むことができる。部分的意味構文解析または意味的オブジェクトを使用して、アプリケーションの対話ロジックを実行することができる。例えば、対話ロジックは、1つまたは複数の意味オブジェクトに基づいて、1つのオプション、または複数のオプション、またはオプションのリストをユーザに提示することができる。
これにより、システム10は、部分的な発話に基いて、すなわち、ユーザの番が終わる前にすぐに結果を報告することができる。つまり、バックチャネル通信を使用して報告してシステムの番と通常関連するタスクを実行することによって、ユーザの番とシステムの番が不鮮明になる。大半の従来型の対話の研究、特に人間対人間の対話に基づいた研究においては、多くの場合、バックチャネル通信は、肯定的確認応答、否定的確認応答、または中間確認応答等の単純な信号のみを伝達する音声かん入的でない(non-intrusive)フィードバックとみなされる。しかし、出力20が出力するフィードバックは、進行中のユーザ発話にいくらか音声かん入的になるために、多くの情報を伝達する可能性があり、このことは、ユーザにユーザの意思を明確にさせる場合もあれば、明確にさせない場合もある。しかしながら、このアプローチは、ユーザとシステム10との間に、一層現実的な人間的対話を提供し、それは、多くの場合において、わずらわしいものとは考えられず、むしろユーザにとってより快適であり、ユーザの望みが満たされるという自信を植え付ける。
本発明は、音声のみの動作環境に限られるわけではなく、部分的意味構文解析またはオブジェクトの処理に基づいてその他の形式でユーザにフィードバックすることを含むことができることに留意されたい。例えば、アプリケーションモジュール16が電子メールタスクを実行する上記のアプリケーションでは、出力20は、ユーザから受け取った「Send e−mail to Bob」という途切れのないコマンド内の「Send e−mail」等のフレーズを受信しただけで、電子メールモジュールを起動する等の視覚的フィードバックを備えることができ、その場合、フレーズ「to Bob」が処理された結果、アプリケーションモジュールは、データ記憶18内のさらなる情報にアクセスし、ファーストネームが「Bob」である人名リストを表示する。ユーザは、リストを確認した後、単に、所望の受信者を、「Bob Green」として識別し、それを選択することができる。その理由は、システムが部分的発話である「Bob Green」に対する別の意味オブジェクトを提供し、アプリケーションにより受信され処理され次第、「Bob Green」が選択されることを招くからである。
上記のように、アプリケーションモジュール16は、後述する本発明の態様を有益なものとする多くの形態をとることができる。制限を受けることなく、アプリケーションモジュール16を、ユーザの発話入力を原文出力(textual output)するディクテーションモジュールとすることもできる。しかし、部分的入力または入力フレーズの意味情報を処理することによって、より一層正確なトランスクリプション(transcription)が得られる。
音声コマンド等のユーザ入力に関して上述したが、本発明の態様を、手書き、DTMF、ジェスチャー、または視覚的指示などの他の入力形態にも適用できる。
部分的意味構文解析またはオブジェクトの処理には様々な応用があるが、上述のシステム10において機能することができるコンピューティング装置の概要を説明するのが有益であろう。当業者であれば、システム10のコンポーネントは、単一のコンピュータ内に配置することも、ネットワーク接続およびプロトコルを使用して分散コンピューティング環境内に分散させることもできることを理解するであろう。
そこで図2を参照すると、データ管理装置(PIM、PDAのようなもの)などのモバイル装置の形態例が30に示されている。しかし、本発明は、後述の他のコンピューティング装置を使用して実施することもできることに注意されたい。例えば、電話および/またはデータ管理装置もまた本発明から利益を得るであろう。このような装置は、既存の携帯型個人情報管理装置および他の携帯型電子装置と比較して高い有用性を持つであろう。
図2に示されたデータ管理モバイル装置30の形態例において、モバイル装置30は、筐体32を備え、また、スタイラスペン33と連動させて接触感知表示画面を使用する、表示34を含むユーザインターフェースを備える。スタイラスペン33を使用して、指定された座標で表示34を押すか、又はタッチをして、フィールドを選択し、選択的にカーソルの開始位置を移動し、または、さもなければ、例えばジェスチャーまたは手書きなどによりコマンド情報を与える。それとは別に、またはそれに加えて、ナビゲーションのために1つまたは複数のボタン35を装置30に備えることができる。さらに、回転可能なホイール、ローラなどの他の入力メカニズムを備えることもできる。しかし、本発明をこれらの形態の入力メカニズムにより限定する意図はないことに注意されたい。例えば、他の形態の入力として、コンピュータビジョンなどによる視覚的入力も考えられる。
次に図3を参照すると、ブロック図は、モバイル装置30を備える機能的な構成要素を示す。中央処理装置(CPU)50は、ソフトウェア制御機能を実装する。CPU50が表示画面34に接続されるため、制御ソフトウェアに従って生成されたテキストおよび図形アイコンは、表示画面34に表示される。スピーカ43は、通常、デジタルアナログコンバータ59を介してCPU50に結合し、可聴音出力を供給することができる。ユーザによりモバイル装置30にダウンロードまたは入力されたデータは、CPU50に双方向で接続されている不揮発性読み書きランダムアクセスメモリ記憶54に格納される。ランダムアクセスメモリ(RAM)は、CPU50により実行される命令の揮発性記憶と、レジスタ値などの一時的データの記憶を行う。構成オプションおよびその他の変数の初期値は、読み取り専用メモリ(ROM)58に格納される。またROM58は、モバイル装置30の基本機能およびその他のオペレーティングシステムのカーネル機能(例えば、ソフトウェアコンポーネントをRAM54にロードする機能)を制御する装置のオペレーティングシステムソフトウェアを格納するために使用することもできる。
RAM54は、アプリケーションプログラムを格納するために使用されるPC上のハードドライブの機能と類似した方法でコードを格納する記憶装置としても使用される。不揮発性メモリはコードを格納するために使用されるが、それとは別に、コードの実行のために使用されない揮発性メモリに格納できることに注意されたい。
無線信号は、CPU50に結合されている無線トランシーバ52を介して、モバイル装置により送受信することができる。さらに、コンピュータ(例えば、デスクトップコンピュータ)から直接、または必要ならば有線ネットワークからデータをダウンロードするためのオプションの通信インターフェース60を備えることもできる。したがって、インターフェース60は、様々な形態の通信装置、例えば、赤外線リンク、モデム、ネットワークカードなどを備えることができる。
モバイル装置30は、マイク29、およびアナログデジタル(A/D)コンバータ37、およびストア54に格納されているオプションの認識プログラム(音声、DTMF、手書き、ジェスチャー、またはコンピュータビジョン)を備える。例えば、モバイル装置30のユーザからの音声情報、命令、またはコマンドに応答して、マイクロフォーン29は、音声信号を出力し、それは、A/Dコンバータ37によって2値化される。音声認識プログラムは、2値化された音声信号に対して正規化および/または特徴抽出機能を実行することにより、中間音声認識結果を得ることができる。無線トランシーバ52または通信インターフェース60を使用することで、音声データを、後述の図6のアーキテクチャで示されているリモート認識サーバ204に送信することができる。認識結果は、(例えば、表示および/または音声で)表現するモバイル装置30に返され、最終的な送信がWebサーバ202(図6)にされ、そこで、Webサーバ202とモバイル装置30はクライアント/サーバ関係により動作する。
同様な処理を他の入力形態のために使用することができる。例えば、手書き入力を、モバイル装置30上で前処理を行い、あるいは行わずに、2値化することができる。音声データと同様に、この形式の入力は、認識を行う認識サーバ204に送信され、そこで、認識結果が、装置30および/またはWebサーバ202のうちの少なくとも一方に戻される。同様に、DTMFデータ、ジェスチャーデータ、および視覚的データを、同じように処理することができる。入力形態に応じて、装置30(および後述のその他の形態のクライアント)は、視覚的入力用のカメラなどの必要なハードウェアを備える。
図4は、携帯電話80の一実施形態の平面図である。電話80は、表示82およびキーパッド84を備える。他の機能を実行するためには追加回路が必要となる場合があるが、一般的に、図3のブロック図は、図4の電話に適用される。例えば、電話として動作させるために必要なトランシーバは、図3の実施形態にとって必要であろう。しかし、そのような回路は、本発明とは関係ない。
上述の携帯型またはモバイルコンピューティング装置に加えて、本発明は、一般的なデスクトップコンピュータなどの他の様々なコンピューティング装置とともに使用できることにも留意されたい。例えば、本発明を使用すると、身体能力に制約のあるユーザは、英数字フルキーボードなどの他の従来の入力装置が難しすぎて操作できない場合でも、コンピュータまたは他のコンピューティング装置にテキストを入力することができる。
本発明は、さらに、他の数多くの汎用または専用コンピューティングシステム環境または構成で動作する。本発明とともに使用するのに適していると思われるよく知られているコンピューティングシステム、環境、および/または構成の例として、通常の電話(画面なし)、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップ装置、タブレットコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたは装置を含む分散コンピューティング環境などがあるが、それらに限定されるものではない。
図5に例示されている汎用コンピュータ120について以下で簡単に説明する。コンピュータ120は、この場合も、適当なコンピューティング環境の一例にすぎず、本発明の用途または機能性の範囲に関する制限を示唆する意図はない。コンピュータ120は、例示されているコンポーネントの1つまたは組合せに関係する依存性または要求条件があると解釈すべきではない。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的文脈において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本発明は、通信ネットワークを通じてリンクされているリモート処理装置によりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールをメモリ記憶装置などのローカルとリモートの両方のコンピュータ記憶媒体内に配置できる。以下では、図を使って、プログラムおよびモジュールにより実行されるタスクについて説明する。当業者であれば、説明および図を、コンピュータ可読媒体の形態で書くことができるプロセッサ実行可能命令として実装することができる。
図5を参照すると、コンピュータ120が備える構成要素としては、処理ユニット140、システムメモリ150、およびシステムメモリを備える様々なシステムコンポーネントを処理ユニット140に結合するシステムバス141などがあるが、それらに限定されるものではない。システムバス141は、メモリバスまたはメモリコントローラ、周辺機器バス、および各種バスアーキテクチャを採用するローカルバスを含む数種類のバス構造のどれでもよい。例えば、このようなアーキテクチャとしては、Industry Standard Architecture(ISA)バス、Universal Serial Bus(USB)、Micro Channel Architecture(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカルバス、およびMezzanineバスとも呼ばれるPeripheral Component Interconnect(PCI)バスがある。コンピュータ120は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ120によってアクセスできる媒体であればどのような媒体でも使用でき、揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体を含む。例えば、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実装される揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体としては、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多目的ディスク(DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶装置、または目的の情報を格納するために使用することができコンピュータ120によりアクセスできるその他の媒体がある。
通信媒体は、通常、コンピュータ可読命令、データ構造体、プログラムモジュール、または搬送波またはその他のトランスポートメカニズムなどの変調データ信号によるその他のデータを実現し、さらに情報配信媒体を含む。「変調データ信号」という用語は、信号内の情報を符号化する方法によりその特性のうち1つまたは複数が設定または変更された信号を意味する。例えば、通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、および、音響、FR、赤外線、およびその他の無線媒体などの無線媒体があるが、それらに限定されるものではない。上記のいずれの組合せもコンピュータ可読媒体の範囲に収まらなければならない。
システムメモリ150は、読み取り専用メモリ(ROM)151およびランダムアクセスメモリ(RAM)152などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ120内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム153(BIOS)は通常、ROM 151に格納される。通常、RAM 152には、処理ユニット140に直接アクセス可能な、かつ/または処理ユニット140により現在操作されているデータおよび/またはプログラムモジュールを格納する。例えば、図5は、オペレーティングシステム154、アプリケーションプログラム155、その他のプログラムモジュール156、およびプログラムデータ157を示しているが、それらに限定されるものではない。
コンピュータ120は、その他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例えば、図5は、取り外し不可能な不揮発性磁気媒体の読み書きを行うハードディスクドライブ161、取り外し可能な不揮発性磁気ディスク172の読み書きを行う磁気ディスクドライブ171、およびCD−ROMまたはその他の光媒体などの取り外し可能な不揮発性光ディスク176の読み書きを行う光ディスクドライブ175を示している。オペレーティング環境例で使用できる他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体としては、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどがあるが、それらに限定されるものではない。ハードディスクドライブ161は、通常、インターフェース160などの取り外し不可能なメモリインターフェースを介してシステムバス141に接続され、磁気ディスクドライブ171および光ディスクドライブ175は、通常、インターフェース170などの取り外し可能なメモリインターフェースによりシステムバス141に接続される。
図5に例示されている上記のドライブおよび関連するコンピュータ記憶媒体は、コンピュータ120用のコンピュータ可読命令、データ構造体、プログラムモジュール、およびその他のデータを格納する機能を備える。例えば、図5では、ハードディスクドライブ161は、オペレーティングシステム164、アプリケーションプログラム165、その他のプログラムモジュール166、およびプログラムデータ167を格納するものとして示されている。これらのコンポーネントは、オペレーティングシステム154、アプリケーションプログラム155、その他のプログラムモジュール156、およびプログラムデータ157と同じである場合もあれば異なる場合もあることに注意されたい。オペレーティングシステム164、アプリケーションプログラム165、その他のプログラムモジュール166、およびプログラムデータ167に対しては、ここで、異なる番号を割り当てて、最低でも、それが異なるコピーであることを示している。
ユーザは、キーボード182、マイク183、およびマウス、トラックボール、タッチパッドなどのポインティング装置181などの入力装置を介してコンピュータ120にコマンドおよび情報を入力できる。他の入力装置(図に示されていない)としては、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどがある。これらの入力装置やその他の入力装置は、システムバスに結合されているユーザ入力インターフェース180を介して処理ユニット140に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造により接続することもできる。モニタ184またはその他の種類の表示装置も、ビデオインターフェース185などのインターフェースを介してシステムバス141に接続される。モニタのほかに、コンピュータはさらにスピーカ187およびプリンタ186などの他の周辺出力装置も備えることができ、これらは出力周辺インターフェース188を介して接続することができる。
コンピュータ120は、リモートコンピュータ194などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク環境で動作することも可能である。リモートコンピュータ194は、パーソナルコンピュータ、ハンドヘルド装置、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の共通ネットワークノードでもよく、通常は、コンピュータ120に関係する上述の要素の多くまたはすべてを含む。図5に示されている論理接続は、ローカルエリアネットワーク(LAN)191とワイドエリアネットワーク(WAN)193を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的なものである。
LANネットワーキング環境で使用する場合、コンピュータ120はネットワークインターフェースまたはアダプタ190を介してLAN191に接続される。WANネットワーキング環境で使用する場合、コンピュータ120は通常、モデム192またはインターネットなどのWAN193上で通信を確立するための他の手段を備える。モデム192は、内蔵でも外付けでもよいが、ユーザ入力インターフェース180またはその他の適切なメカニズムを介してシステムバス141に接続できる。ネットワーク環境では、コンピュータ120またはその一部に関して述べたプログラムモジュールは、リモートメモリ記憶装置に格納できる。例えば、図5には、リモートアプリケーションプログラム195がリモートコンピュータ194に常駐しているように示されているが、それらに限定されるものではない。図に示されているネットワーク接続は例であり、コンピュータ間に通信リンクを確立するための他の手段を使用できることは理解されるであろう。
図6は、Webベースの認識およびデータ表現のアーキテクチャ200を示しており、これは、本発明の一環境例である。一般的に、Webサーバ202に格納されている情報は、モバイル装置30またはコンピュータ120(ここでは、入力形態に基づき必要に応じて表示画面、マイク、カメラ、タッチパネルなどを備える他の形態のコンピューティング装置を表している)等のクライアント100を通じてアクセスされるか、または情報が音声で要求されるか、キーの押下に反応して電話80が発生するトーンを通じて要求され、さらにWebサーバ202からの情報が音声でのみユーザに返される電話80を通じてアクセスされる。
この実施形態では、アーキテクチャ200は、情報が音声認識を使用してクライアント100を通じて取得されようと電話80を通じて取得されようと、単一の認識サーバ204がいずれかの動作モードをサポートできる、という点で統一されている。さらに、アーキテクチャ200は、よく知られたマークアップ言語(例えば、HTML、XHTML、cHTML、XML、WMLなど)の拡張を使って動作する。したがって、Webサーバ202に格納されている情報を、これらのマークアップ言語に含まれているよく知られたGUIメソッドを使用してアクセスすることもできる。よく知られたマークアップ言語の拡張を使用することによって、Webサーバ202上のオーサリングは比較的容易となり、現在使用されている従来のアプリケーションも、音声認識機能を備えるように容易に修正することができる。
一般に、クライアント100は、Webサーバ202によって提供され、一般には206で示されるHTMLページ、スクリプト等を、ブラウザを使用して実行する。一例として、音声認識が必要な場合、音声データは、クライアント100が提供することができる、音声認識時に使用する文法又は言語モデル220の指示とともに認識サーバ204に供給される。その音声データは、2値化されたオーディオ信号又は音声特徴とすることができ、そのオーディオ信号は、上述の通り、クライアント100によって前処理されている。代替案として、音声サーバ204は、言語モデル220を備えることができる。認識サーバ204は、様々な形態の実装をとることができ、そのうちの1つが例示されているが、一般に、認識器211を備える。認識の結果は、必要であれば、または適切ならばローカルで表現するために、クライアント100に戻される。必要ならば、テキストから音声への変換モジュール222を使用して、発話テキストをクライアント100に提供することができる。認識と、グラフィカルユーザインターフェースとをつかって情報を編集した後に、クライアント100は、必要におうじて、さらなる処理と、さらなるHTMLページ/スクリプトの受け取りをするWebサーバ202に、その情報を送信する。
図6に示されているように、クライアント100、Webサーバ202、および認識サーバ204は、通常、ネットワーク205、すなわち、ここではインターネットなどのワイドエリアネットワークを通じて接続され、別々にアドレス指定ができる。したがって、これらの装置を物理的に互いに隣り合わせて配置する必要はない。特に、Webサーバ202は、認識サーバ204を備える必要はない。このようにして、Webサーバ202でのオーサリングを、作者が認識サーバ204の細かな仕組みを知らなくても、対象となるアプリケーションに集中させることができる。むしろ、認識サーバ204を、独立に設計することができ、またネットワーク205に接続することができるため、Webサーバ202で必要とされる変更なしで、更新および改善が可能である。Webサーバ202は、動的にクライアントサイドマークアップ(client-side markup)およびスクリプトを生成できるオーサリングメカニズムを備えることもできる。他の実施形態では、実装マシンの能力に応じてWebサーバ202、認識サーバ204、およびクライアント100を組み合わせることができる。例えば、クライアント100は、パーソナルコンピュータ等の汎用コンピュータを備える場合、認識サーバ204を備えることができる。同様に、必要におうじて、Webサーバ202および認識サーバ204を単一マシンに組み込むことができる。
電話80を介してのWebサーバ202へのアクセスは、電話80を第3者のゲートウェイ210に次々と接続する有線または無線電話ネットワーク208に、電話80を接続することを含む。ゲートウェイ210は、電話80を電話音声ブラウザ(telephony voice browser)212に接続する。電話音声ブラウザ212は、電話インターフェースおよび音声ブラウザ216を備えるメディアサーバ214を含む。クライアント100のように、電話音声ブラウザ212は、Webサーバ202から、HTMLページ/スクリプトなどを受け取る。一実施形態では、そのHTMLページ/スクリプトは、クライアント100に送られるHTMLページ/スクリプトと似た形式のものである。こうして、Webサーバ202は、クライアント100および電話80を別々にサポートする必要はなく、あるいは標準GUIクライアントを別々にサポートすることすら必要ない。むしろ、共通のマークアップ言語を使用することができる。さらに、クライアント100のように、電話80から送信された可聴音信号の音声認識が、例えばTCP/IPを使用して、ネットワーク205を通じて、又は、専用回線207を通じて音声ブラウザ216から認識サーバ204に送られる。Webサーバ202、認識サーバ204、および電話音声ブラウザ212は、図5に示されている汎用デスクトップコンピュータなどの適切なコンピューティング環境で実現することができる。
様々な実施形態及びシステム10で機能しているアーキテクチャについて説明したが、システム10の様々な構成要素および機能についてさらに詳しく説明する。図7は、音声認識および理解モジュール14のブロック図を示している。音声インターフェースモジュール12から受け取った入力音声は、音声認識および理解モジュール14に送られる。音声認識および理解モジュール14は、関連する言語モデル310をもった認識エンジン306を備える。認識エンジン306は、言語モデル310を使用して、入力を形成する各フレーズを表すと考えられる表層意味構造を識別し、入力が受信されたときに部分的意味構文解析またはオブジェクトを提供する。ユーザが発話を完了するのを待ち、受け取った完全な入力を処理するシステムとは異なり、モジュール14は、それまでに受け取ったものだけに基づいた意味オブジェクトを連続的に供給する。
認識エンジン306は、部分的発話に基づいた表層意味出力オブジェクトを少なくとも一つ供給する。一部の実施形態では、認識エンジン306は、各代替構造毎に複数の代替表層意味オブジェクトを提供することができる。
音声入力が行われる場合について図7に例示されているが、本発明は手書き認識、ジェスチャー認識、またはグラフィカルユーザインターフェース(ユーザがキーボードまたは他の入力を対話操作する)とともに使用することができる。これらの他の実施形態では、音声認識器306を、よく知られた適切な認識エンジンに置き換えることができる。グラフィカルユーザインターフェースについては、(言語モデルをもった)文法は、入力ボックスを使用するなどしてユーザ入力に関連付けられている。したがって、ユーザの入力は、入力方式に基づいた大きな変更なしで、一貫した方法で処理される。
部分的意味構文解析またはオブジェクトに基づくシステム10による他の形式の情報フィードバックを含む上述の対話式ダイアログは、SALT(Speech Application Language Tags)または他の音声、手書き、および与えられたアプリケーションおよび意味オブジェクト同期復号化用の選択されたスキーマに基づき意味情報を提供することができる言語モデル構成概念をサポートするパターン認識API(アプリケーションプログラムインターフェース)を使用して、実装することができる。SALTは、例えば、パーソナルコンピュータ、電話、タブレットPC、および無線モバイル装置から情報、アプリケーション、およびWebサービスにアクセスできるようにする開発中の規格であるが、それだけでなく、これはネットワーク上で相互接続しなくてもアプリケーションインターフェースにも適用できる。SLATは、HTML、XHTML、およびXMLなどの既存のマークアップ言語を拡張したものである。SALT 1.0規格は、http://www.SALTforum.orgからオンラインで入手できる。SALTは、例えば、音声サーバ204からユーザの入力に基づき意味情報を提供することができ、そのような情報は発話の完了後にデータ表現モジュール16に提供されるオブジェクトを形成する。しかし、後述のように、SALTは部分的意味構文解析またはオブジェクトを供給するため以前には考えられていなかった方法で使用することができる。SALT拡張、または他のAPIの同様の拡張を使用することで、対話性の高いイベント駆動式のユーザとの相互作用がサポートされる。
例えば、SALTを使用する場合、SALTリッスンオブジェクト(SALT listen object)は、音声認識と理解の両方のタスクを実行するために使用できる。これは、設計が、音声理解を音声認識と同様に、パターン認識問題として扱う視点および定式化に従うためである。両方とも、所定の音声信号と最もよく一致すると考えられる結果の集まりから1つのパターンを見つけ出そうとするものである。音声認識については、見つけるパターンは単語列であるが、理解については、意味オブジェクトのツリーである。従来の音声認識タスクは、可能性のある単語列を組み立てて、言語モデルを使った探索プロセスを指示する。同様に、音声理解タスクは、同じ探索エンジンを導いて、意味モデルを使って適切な意味オブジェクトツリーを構成することができる。語彙を含蓄することが多い言語モデルおよび語彙エントリからフレーズセグメントを構成する規則など、意味モデルは、すべての意味オブジェクトとそれらのオブジェクトを構成する規則の辞書を含蓄する。認識結果はテキスト文字列であるが、理解結果は意味オブジェクトのツリーである。
Nグラムを拡張し、構造化された探索結果を返すことは可能であるが、最も一般的な音声理解アプリケーションは、設計者が膨大なツリーバンク注釈付き学習データ(tree−bank annotated training data)を使用しないで意味オブジェクトを構成する規則を指定することができる確率論的文脈自由文法(PCFG)に基づく。このような規則を指定する一方法として、それぞれのPCFG規則を、部分的PCFG構文解析ツリーを意味オブジェクトツリーに変換する方法に関する探索エンジンのプロダクション命令(production directives)に関連付ける方法がある。Microsoft Speech Application Interface(SAPI)(本発明で使用できる音声APIの一例でもある)形式で書かれた例を以下に示す。
文法セグメントには3つの規則が含まれる。第1の規則、「nyc」という名前の前終端記号(pre−terminal)は、ニューヨーク市に対する表現のリストである。この例の<output>タグは、意味オブジェクトを構成するための規則を囲んでいる。これらは、探索経路が直前にあるトークンにより表される文法ノードを抜け出た場合に呼び出される。その場合、XMLの<city_location>要素により表されている意味オブジェクトは、探索経路が「nyc」規則を抜け出たときに作成される。さらにこの意味オブジェクトは、それぞれ市名略号、州名略号、および国名略号の3つの意味オブジェクトから成り立っている。
また、意味オブジェクトの構成は、例えば新しい会合の日程を組むときの動的プロセスでもある。例えば、NewMeeting意味オブジェクトは、ユーザが日付、時刻、継続時間、および出席者などの会合の属性を指定終わると生成される。テンプレートを使用することにより、他の意味オブジェクトを構成要素として、NewMeeting意味オブジェクトに貼り付けることができる。また同じ原理を、ここには示されていない他の規則に適用することもできる。例えば、発話「schedule a meeting with Li Deng and Alex Acero on January first for one hour」が行われると、以下の意味オブジェクトが生じる。
現実のアプリケーションでは、PCFGの範囲を改良するのは困難な作業である。したがって、Nグラムを使用して、とりわけ、重要な意味情報を伝達しないが、通常は統語構造が様々なサイズも異なる機能的フレーズをモデル化できることが望ましい(例えば、「May I...」、「Could you show me...」、「Please show me...」)。一実施形態では、言語モデル310は、PCFGとNグラムを結合した意味言語モデルを含む。この手法は、統一言語モデルとわずかに異なるが、これも使用できる。統一言語モデルは、単語のリストだけでなく、CFG断片をNグラム内の個々のトークンとしてモデル化できるという点を除き、従来のクラスのNグラムの自然な拡張になっている。このモデルを使用する認識器306は、それでも、その後構文解析しなければならないテキスト文字列を出力する。したがって、統一言語モデルは、テキスト転写を補助するためある種の言語構造を組み込むように設計されている。
一方、意味言語モデルは、復号器または認識器を使用して、PCFGにより通常適切にとらえられる意味構造を探索することを目指している。したがって、CFG断片をNグラムに埋め込む代わりに、PCFGを使用し、注目しているNグラムに対応する特別なPCFG前終端記号を作成することによりNグラムを含める。Microsoft SAPI文法形式では、これは、
LCFG <dictation max="inf"/> RCFG
のように、XML<dictation>タグとともに前終端記号を使用して表すことができ、LCFGおよびRCFGは、それぞれ、埋め込まれているNグラムの左および右コンテキストを表す。探索プロセスは、<dictation>タグをトークンとして扱い、正規非終端記号を入力したかのようにNグラムに展開する。タグの最大属性は、Nグラムにより消費可能な単語の最大個数を指定する。Nグラムの内側の単語列の確率を、バックオフNグラム(backoff N−gram)をPCFGで補間することにより計算する、つまり、
ただし、λは、Nグラム補間重みであり、P(RCFG|wn−1,...)は、Nグラムのバックオフ確率を使用する、つまり、wは、語彙外単語であるかのように取り扱われる。一実施形態では、項P(w|RCFG)は、最大Nグラム単語列サイズに達し、単語がCFG断片の対象範囲内にあるかどうかに応じて2進値のみをとる。PCFGから引き出される単語は、高い確率を持つことが多いため、実際にCFGの対象となる経路は、最大のNグラム単語カウントが無限大に設定されているとしてもNグラムの対をなす片方に勝つ傾向がある。機能的フレーズに加えて、埋め込まれたNグラムを使用して、属性のようなディクテーションを持つ意味オブジェクトをモデル化することもできる。例えば、会議主題は、このタスクでは以下のようにモデル化される。
意味言語モデルに関する詳細は、(例えば、非特許文献1参照)で説明されており、その全体が参照により本明細書に組み込まれている。
本発明の他の態様は、SALTリッスンオブジェクトの新たな使用を含む。SALTは、関連する属性およびDOMオブジェクトのプロパティ、イベント、およびメソッドとともに一組のXML要素を備えており、これらをソースマークアップドキュメントとともに使用することで音声インターフェースをソースページに適用することができる。一般に、主要な要素は以下のとおりである。
<prompt ...> 音声合成の構成およびプロンプト再生用
<listen ...> 音声認識器の構成、認識実行および後処理、および録音用
<dtmf ...> DTMFの構成および制御用
<smex ...> プラットフォームのコンポーネントとの汎用通信用 リッスン およびdtmfオブジェクトはさらに、文法およびバインディングコントロール(binding controls)も含む。
<grammar ...> 入力文法リソースを指定する
<bind ...> 認識結果の処理用
リッスン要素は、3つの認識モードを区別する「mode」属性を備えることができ、これにより、認識サーバ(例えば、204)に結果の返却方法および返却時期を指令することができる。結果を返すということは、適宜「onReco」イベントを供給するか、または「bind」要素をアクティブにすることを意味する。
第1のモードである「automatic」では、アプリケーションではなく音声プラットフォームが、認識プロセスをいつ停止するかを制御する。このモードは、電話またはハンドフリーでの利用のため高度なものとなった。認識結果が利用可能になるとすぐに、かつ/または無音状態を示す期間が経過したら直ちに、音声プラットフォームは自動的に、認識器を停止し、その結果を返し、その後、バインド要素を通じて適切なフィールドに関連付けることができる。
第2の動作モード「single」では、認識結果の返却は明示的な「stop」呼び出しの制御の下に置かれる。stop呼び出しは、ユーザによる「pen−up」などのイベントに対応し、このモードは、マルチモーダル環境で使用することを目的として開発され、装置を使い音声入力を行うことができるが、ユーザは一般に、例えば、スタイラスペン33(図2)を使用してどのフィールドをいつ選択するかということの制御下にある。
音声認識器の第3の動作モードは、「複数モード」である。この動作モードは、「open−microphone」のため、またはディクテーションシナリオで使用される。一般に、この動作モードでは、認識結果は、明示的なstop呼び出しを受け取るか、または未認識入力に関連付けられた他の期間または最大リッスン期間を超えるまで一定間隔で返される。一般に、この動作モードでは、認識されたフレーズ毎に、「onReco」イベントが発行され、stop()呼び出しを受け取るまで結果が返される。
しかし、この動作モードは、本発明の他の態様として、顕著な言語的マークに達するとすぐに報告できるようにすることで探索エンジンがユーザに対話性の高い機能を公開する手段を備えることができる。時間同期復号化に基づく探索アルゴリズムはよく知られており、このモードに対し直接的に使用することができる。このようなアルゴリズムの1つは、(例えば、非特許文献2参照)で説明されている。音声認識では、言語的マークは通常、単語またはフレーズ境界に対応する。したがって、SALT複数モード認識は、利用可能になるとすぐに単語列仮説を動的に表示するために使用でき、UI効果は一般に、多くの商用ディクテーションソフトウェアに見られる。しかし、本発明では、複数モードは、意味オブジェクトのインスタンス化を言語的マークおよび報告として取り扱うことができる、つまり、理解された内容の関数としての何らかの応答を動的に、アプリケーションに送り返すことができる。これは、SALTが意味オブジェクト同期理解を実行しているかのようにアプリケーション設計者には見える。
この動作モードは、マルチモーダルを使用している場合と比較するとよく理解できるであろう。マルチモーダルの場合、ユーザは、例えば、話しながらスタイラスペンを持って入力フィールドを指すことによりフィールドを指示する。ユーザは、一般的なフィールドを軽くたたき、詳細な文章を発話して単一センテンスで多数のフィールドを埋めることができるが、軽くたたいて話す(tap-and-talk)インターフェースではユーザの目と手が連動するため多くの状況で適切な方式とはいえない。さらに、軽くたたいて話すインターフェースは、基本の話し言葉のプロセスのボリュームおよびプログレスバーを表示する豊富なバックチャネル通信を特色とするが、これらのフィードバックは、速度および精度に関して、話し言葉の処理の品質に対する非常に初期の手がかりにしかならない。これは、長いセンテンスだと、誤りが広い範囲に伝搬し、結局、認識および理解の結果を単に検証し訂正する労力を強いることになるため、問題をはらんでいる。使いやすさに関する研究は、長いセンテンスが、キーボードの機能強化または代替以上のものとして、音声の有用性を実証する重要な識別要因であることを示すと思われるため、十分なUI経験は、音声を実行可能な様相としてうまく利用するうえで絶対的に必要である。
人間/コンピュータを共通目標達成の際に緊密に連携するパートナとして認識するために、意味オブジェクト同期理解は、利用可能になり次第、部分的意味構文解析またはオブジェクトを報告することによって、効力がある。一実施形態では、これは、SALTのリッスン要素の複数モードを使用して実現される。特に、リッスン要素については、複数モードが指定され、認識文法のすべてが、認識される入力音声に対し指定される。割り当ての結果は、リッスンオブジェクトで指定される。例えば、新たに会議を設定するために、日付、時刻、場所、件名、および会議出席者などの必要な情報を取得するHTML入力コードは以下の形式をとりうる。
複数の文法は、エントリーポイントに押し返して戻るNULL遷移をもった認識に対する並列探索空間を構成する。このモードでは、SALTは、文法が終了次第すぐにイベントを発生することをリッスンオブジェクトに許可する。イベントは、基礎の音声収集および認識が進行している間に、バインド命令を順次呼び出す並列プロセスを生成する。その結果、フィールドの視覚的表現をもったアプリケーションに対して音声コマンドが発せられている間に、フォーム上の関連するフィールドが埋められるという効果がユーザに向けて生成される。
目を使わなくて良いアプリケーションのユーザインターフェースでは、随伴する音声出力が望ましい場合がある。その場合、SALTプロンプトオブジェクトを使用して、即時フィードバックを与えることができる。例えば、以下のSALTプロンプトオブジェクトを使用して、日付フィールド内の動的内容に基づき応答の同期をとることができ、以下のように追加SALTバインド命令により音声合成をトリガすることができる。
ユーザは、自分が、「Schedule a meeting (new meeting) at two (starting at two o'clock PM) next Tuesday (on 10/29/02) for two hours (duration: two hours)」のように、聞いたことを書き留めるだけでなく繰り返しもしている別の相手と話をしているように感じる。ここで、かっこ内のフレーズは、ユーザに返される可聴音および/または視覚的プロンプト(同期することもできる)を表す。
SALTを使用すると、設計者は、SALTバインド命令を使った簡単なアサイメントを超える洗練された計算を実行する特製の認識イベントハンドラを取り付けることができることに留意されたい。上の例では、日付正規化は、意味文法で実行できるが、意味文法は、高度な参照解決を容易にしない(例えば、「Schedule a meeting with Li Deng and his manager」)。この場合にそなえて、アルゴリズムを、格納データにアクセスして不定な参照を突き止める適切なイベントハンドラにアクセスできるスクリプトオブジェクトとして実装することができる。このようなアルゴリズムは、(例えば、非特許文献3参照)および(例えば、特許文献1参照)において説明されており、参照により全体が本明細書に組み込まれている。
リッスンオブジェクトに対して複数モード動作が存在していたが、現在の実装では、このモードは、ディクテーションシナリオ等の受け取った入力に対するテキストだけを提供することに留意されたい。しかし、本発明のこの態様では、入力を受け取っている最中の部分的結果はテキストだけでなく、そのテキストに関係する対応する意味情報を含み、さらに、出力は部分的意味構文解析またはオブジェクトを含み、これを上述したように使用して、コンピュータが、受け取った内容を適切に理解しているというさらに多くの品質フィードバックをユーザに与えることができる。部分的意味構文解析またはオブジェクトを受け取るアプリケーションの精巧さに応じて、システムは、受け取った部分的意味構文解析に基づき、確認、代替、訂正、および説明をユーザに送り返すことができる。
マルチモーダルアプリケーションでは、ユーザが先に話せるように複数の文法が含まれ、まだ指示されていない情報与えることができるが、理解していることをユーザに示せる度合いが高まるため複数モード動作でリッスン要素を使用するとよい場合がある。音声専用アプリケーションでは、自然な形の対話が発生するが、これに対して、視覚的表示を使用する場合、アプリケーションはユーザがそれまでに与えた内容の部分的意味構文解析にのみ基づき、ユーザが話している最中に、処理(例えばポップアップウィンドウを介して、アクションを実行する、仮の結果またはオプションを表示するなど)を開始することができる。
本発明は、特定の実施形態を参照しながら説明したが、当業者は本発明の精神と範囲を逸脱することなく形式と内容に変更を加えられることを理解できるであろう。
データ表示システムのブロック図である。 コンピューティング装置の動作環境の平面図である。 図2のコンピューティング装置のブロック図である。 電話の平面図である。 汎用コンピュータのブロック図である。 クライアント/サーバシステムのアーキテクチャのブロック図である。 音声認識および理解モジュールのブロック図である。
符号の説明
10 システム
12 音声インターフェースモジュール
14 音声認識および理解モジュール
16 データ表現モジュール
18 データストア
20 出力
29 マイク
30 データ管理モバイル装置
32 筐体
33 ペン
34 表示装置
37 アナログデジタル(A/D)コンバータ
50 中央処理装置(CPU)
52 無線トランシーバ
54 不揮発性読み書きランダムアクセスメモリストア
58 読み取り専用メモリ(ROM)
60 通信インターフェース
80 電話
82 表示装置
84 キーパッド
120 コンピュータ
140 処理ユニット
141 システムバス
150 システムメモリ
151 ROM
153 基本入出力システム
154 オペレーティングシステム
155 アプリケーションプログラム
156 その他のプログラムモジュール
157 プログラムデータ
161 ハードディスクドライブ
164 オペレーティングシステム
165 アプリケーションプログラム
166 その他のプログラムモジュール
167 プログラムデータ
171 磁気ディスクドライブ
172 取り外し可能な不揮発性磁気ディスク
175 光ディスクドライブ
176 取り外し可能な不揮発性光ディスク
180 ユーザ入力インターフェース
181 ポインティング装置
182 キーボード
183 マイク
184 モニタ
185 ビデオインターフェース
186 プリンタ
187 スピーカ
188 出力周辺インターフェース
191 ローカルエリアネットワーク(LAN)
192 モデム
193 ワイドエリアネットワーク(WAN)
194 リモートコンピュータ
200 アーキテクチャ
202 Webサーバ
204 リモート認識サーバ
207 専用回線
208 有線または無線電話ネットワーク
210 第三者ゲートウェイ
211 認識器
212 電話音声ブラウザ
214 メディアサーバ
216 音声ブラウザ
306 認識エンジン
310 言語モデル

Claims (14)

  1. 入力を部分的に認識し、対応する意味情報を用いた前記入力の部分的な認識の結果を出力するために、コンピュータによって実行される方法であって、
    Nグラム言語モデルと文脈自由文法モデルとの組み合わせを備えた言語モデルを確立するステップであって、前記言語モデルは、認識される単語と該単語に対応する意味情報とに関連する情報を格納し、受信した入力に応じて、前記受信した入力を形成する複数のフレーズの各々の意味情報を、コンピュータアプリケーションによって処理されるべきデータ形式で提供するように構成される、ステップと、
    ユーザから、複数のフレーズで形成される入力を受け取り、処理のため前記入力の前記複数のフレーズのうちの一部である第1のフレーズ部分をキャプチャーするステップと、
    前記ユーザから、前記入力の前記複数のフレーズのうち前記第1のフレーズ部分に続く後続のフレーズ部分を受け取り、キャプチャーしている間に、
    前記言語モデルを使用して前記入力の前記第1のフレーズ部分を表す意味構造を識別することにより、前記入力の前記第1のフレーズ部分を表すテキストを認識し、前記入力の前記第1のフレーズ部分に対応する意味情報を識別し、前記入力の前記第1のフレーズ部分に対応する前記テキストと前記意味情報とを含む意味オブジェクトを、前記コンピュータアプリケーションに出力するステップと、
    前記コンピュータアプリケーションが、前記ユーザに対して前記意味オブジェクトに応じたフィードバック情報を提供するステップと、
    を含ことを特徴とする方法。
  2. 言語モデルを確立するステップは、認識に使用される複数の文法を定義することを特徴とする請求項1に記載の方法。
  3. 言語モデルを確立するステップは、アプリケーションプログラムインターフェースを使用して認識に使用される前記複数の文法を定義することを特徴とする請求項2に記載の方法。
  4. 前記入力は、可聴音入力であることを特徴とする請求項に記載の方法。
  5. 前記入力は、音声入力であることを特徴とする請求項に記載の方法。
  6. 前記入力は、手書き入力であることを特徴とする請求項1に記載の方法。
  7. 前記入力は、視覚的入力であることを含むことを特徴とする請求項1に記載の方法。
  8. 前記フィードバック情報を提供するステップは、前記意味オブジェクトに応じて前記ユーザに対して前記コンピュータアプリケーションに関連する機能を前記フィードバック情報として提供することを特徴とする請求項に記載の方法。
  9. 前記フィードバック情報を提供するステップは、前記ユーザに対して前記コンピュータアプリケーションに関連するオプションを、前記フィードバック情報として提供するステップを含むことを特徴とする請求項に記載の方法。
  10. 前記フィードバック情報を提供するステップは、前記ユーザに対して前記コンピュータアプリケーションに関連する複数のオプションを前記フィードバック情報として提供することを特徴とする請求項に記載の方法。
  11. 前記フィードバック情報を提供するステップは、前記ユーザに可聴音プロンプトを与えることを特徴とする請求項に記載の方法。
  12. 前記フィードバック情報を提供するステップは、前記ユーザに視覚的指示を与えることを特徴とする請求項11に記載の方法。
  13. 前記フィードバック情報を提供するステップは、前記ユーザに同期した可聴音および視覚的指示を与えることを含むことを特徴とする請求項12に記載の方法。
  14. 入力を部分的に認識し、対応する意味情報を用いた前記入力の部分的な認識の結果を出力するためのシステムであって、
    ユーザから、複数のフレーズで形成される入力を受け取り、処理のため前記入力を形成する前記複数のフレーズをキャプチャーするように適合された音声インタフェースモジュールと、
    音声認識および理解モジュールであって、
    Nグラム言語モデルと文脈自由文法モデルとの組み合わせを備え、認識される単語と該単語に対応する意味情報とに関連する情報を格納し、受信した入力に応じて、該受信した入力の前記複数のフレーズの各々の意味情報を、コンピュータアプリケーションにより処理されるべきデータ形式で提供するように適合される言語モデルを確立して、し、
    前記音声インタフェースモジュールによって、前記入力の前記複数のフレーズのうち一部である第1のフレーズ部分のキャプチャーが完了したあと、前記ユーザによって前記入力の前記第1のフレーズ部分に続く後続のフレーズ部分が供給され、該後続のフレーズ部分のキャプチャーが継続されている間に、
    前記言語モデルを使用して前記入力の前記第1のフレーズ部分を表す意味構造を識別することにより、前記入力の前記第1のフレーズ部分を表すテキストを認識し、前記入力の前記第1のフレーズ部分に対応する意味情報を識別し、
    アプリケーションモジュールにより処理される形式で、前記入力前記第1のフレーズ部分に対する前記テキストと前記意味情報含む意味オブジェクトを、前記アプリケーションモジュールに出力する
    ように適合された音声認識および理解モジュールと、
    前記ユーザによって前記入力の前記第1のフレーズ部分に続く後続のフレーズ部分が供給され、該後続のフレーズ部分のキャプチャーが継続されている間に、前記ユーザによって前記入力の前記後続のフレーズ部分が供給され、該後続のフレーズ部分のキャプチャーが継続されている間に、前記音声認識および理解モジュールから出力された前記意味オブジェクトに応じたフィードバック情報を前記ユーザに対して提供するように適合されたアプリケーションモジュールと
    を備えたことを特徴とするシステム。
JP2004158359A 2003-05-29 2004-05-27 高度対話型インターフェースに対する理解同期意味オブジェクト Expired - Lifetime JP4768969B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/447,399 US8301436B2 (en) 2003-05-29 2003-05-29 Semantic object synchronous understanding for highly interactive interface
US10/447,399 2003-05-29

Publications (2)

Publication Number Publication Date
JP2004355629A JP2004355629A (ja) 2004-12-16
JP4768969B2 true JP4768969B2 (ja) 2011-09-07

Family

ID=33131588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004158359A Expired - Lifetime JP4768969B2 (ja) 2003-05-29 2004-05-27 高度対話型インターフェースに対する理解同期意味オブジェクト

Country Status (13)

Country Link
US (1) US8301436B2 (ja)
EP (1) EP1482479B1 (ja)
JP (1) JP4768969B2 (ja)
KR (1) KR101066741B1 (ja)
CN (1) CN100424632C (ja)
AU (1) AU2004201993A1 (ja)
BR (1) BRPI0401847A (ja)
CA (1) CA2467134C (ja)
HK (1) HK1070730A1 (ja)
MX (1) MXPA04005121A (ja)
RU (1) RU2352979C2 (ja)
TW (1) TW200513884A (ja)
ZA (1) ZA200403493B (ja)

Families Citing this family (186)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20080313282A1 (en) 2002-09-10 2008-12-18 Warila Bruce W User interface, operating system and architecture
US8301436B2 (en) 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US7555533B2 (en) * 2003-10-15 2009-06-30 Harman Becker Automotive Systems Gmbh System for communicating information from a server via a mobile communication device
DE602004010054T2 (de) * 2004-01-19 2008-03-06 Harman Becker Automotive Systems Gmbh Betätigung eines Sprachdialogsystems
DE602004014893D1 (de) 2004-01-29 2008-08-21 Daimler Ag Multimodale Dateneingabe
EP1560200B8 (en) * 2004-01-29 2009-08-05 Harman Becker Automotive Systems GmbH Method and system for spoken dialogue interface
JP4309829B2 (ja) * 2004-10-28 2009-08-05 ソフトバンクモバイル株式会社 情報端末装置
US20060170956A1 (en) 2005-01-31 2006-08-03 Jung Edward K Shared image devices
US9910341B2 (en) 2005-01-31 2018-03-06 The Invention Science Fund I, Llc Shared image device designation
US9325781B2 (en) 2005-01-31 2016-04-26 Invention Science Fund I, Llc Audio sharing
US9082456B2 (en) 2005-01-31 2015-07-14 The Invention Science Fund I Llc Shared image device designation
US9124729B2 (en) 2005-01-31 2015-09-01 The Invention Science Fund I, Llc Shared image device synchronization or designation
US9489717B2 (en) 2005-01-31 2016-11-08 Invention Science Fund I, Llc Shared image device
CN101111885A (zh) * 2005-02-04 2008-01-23 株式会社查纳位资讯情报 使用抽出的声音数据生成应答声音的声音识别系统
US9076208B2 (en) 2006-02-28 2015-07-07 The Invention Science Fund I, Llc Imagery processing
US9621749B2 (en) 2005-06-02 2017-04-11 Invention Science Fund I, Llc Capturing selected image objects
US9093121B2 (en) 2006-02-28 2015-07-28 The Invention Science Fund I, Llc Data management of an audio data stream
US20070222865A1 (en) 2006-03-15 2007-09-27 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Enhanced video/still image correlation
US9451200B2 (en) 2005-06-02 2016-09-20 Invention Science Fund I, Llc Storage access technique for captured data
US9942511B2 (en) 2005-10-31 2018-04-10 Invention Science Fund I, Llc Preservation/degradation of video/audio aspects of a data stream
US9167195B2 (en) 2005-10-31 2015-10-20 Invention Science Fund I, Llc Preservation/degradation of video/audio aspects of a data stream
US9191611B2 (en) 2005-06-02 2015-11-17 Invention Science Fund I, Llc Conditional alteration of a saved image
US9819490B2 (en) 2005-05-04 2017-11-14 Invention Science Fund I, Llc Regional proximity for shared image device(s)
US8964054B2 (en) 2006-08-18 2015-02-24 The Invention Science Fund I, Llc Capturing selected image objects
US9001215B2 (en) 2005-06-02 2015-04-07 The Invention Science Fund I, Llc Estimating shared image device operational capabilities or resources
US10003762B2 (en) 2005-04-26 2018-06-19 Invention Science Fund I, Llc Shared image devices
US20070098348A1 (en) * 2005-10-31 2007-05-03 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Degradation/preservation management of captured data
US9967424B2 (en) 2005-06-02 2018-05-08 Invention Science Fund I, Llc Data storage usage protocol
US20060253272A1 (en) * 2005-05-06 2006-11-09 International Business Machines Corporation Voice prompts for use in speech-to-speech translation system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070120980A1 (en) 2005-10-31 2007-05-31 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Preservation/degradation of video/audio aspects of a data stream
US8244545B2 (en) * 2006-03-30 2012-08-14 Microsoft Corporation Dialog repair based on discrepancies between user model predictions and speech recognition results
US7861159B2 (en) * 2006-04-07 2010-12-28 Pp Associates, Lp Report generation with integrated quality management
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8600761B2 (en) * 2008-09-09 2013-12-03 The Boeing Company Hands-free and non-visually occluding object information interaction system
EP2196989B1 (en) 2008-12-10 2012-06-27 Nuance Communications, Inc. Grammar and template-based speech recognition of spoken utterances
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
WO2011046127A1 (ja) * 2009-10-14 2011-04-21 日本電気株式会社 データ収集システム、携帯端末、シール及びデータ収集方法
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
WO2012017525A1 (ja) * 2010-08-04 2012-02-09 パイオニア株式会社 処理装置及びコマンド入力支援方法
US9600135B2 (en) * 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
CN102645970B (zh) * 2011-02-22 2015-10-28 鸿富锦精密工业(深圳)有限公司 移动向量触发控制方法及使用其的电子装置
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8782601B2 (en) * 2011-09-30 2014-07-15 Bmc Software, Inc. Systems and methods for applying dynamic relational typing to a strongly-typed object-oriented API
US9753528B2 (en) 2011-12-21 2017-09-05 Intel Corporation Mechanism for facilitating power extension service at computing devices
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9224386B1 (en) 2012-06-22 2015-12-29 Amazon Technologies, Inc. Discriminative language model training using a confusion matrix
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9230560B2 (en) 2012-10-08 2016-01-05 Nant Holdings Ip, Llc Smart home automation systems and methods
RU2530267C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ коммуникации пользователя с информационной диалоговой системой
KR101732137B1 (ko) * 2013-01-07 2017-05-02 삼성전자주식회사 원격 제어 장치 및 전력 제어 방법
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9135243B1 (en) * 2013-03-15 2015-09-15 NetBase Solutions, Inc. Methods and apparatus for identification and analysis of temporally differing corpora
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
CN105264655B (zh) 2013-06-25 2018-08-03 英特尔公司 具有局部层间互连的单片三维(3d)ic
RU2637874C2 (ru) * 2013-06-27 2017-12-07 Гугл Инк. Генерирование диалоговых рекомендаций для чатовых информационных систем
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10747880B2 (en) * 2013-12-30 2020-08-18 University Of Louisiana At Lafayette System and method for identifying and comparing code by semantic abstractions
RU2571373C2 (ru) * 2014-03-31 2015-12-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Метод анализа тональности текстовых данных
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
CN107113222B (zh) 2014-06-06 2020-09-01 谷歌有限责任公司 基于环境的主动聊天信息系统
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10074009B2 (en) 2014-12-22 2018-09-11 International Business Machines Corporation Object popularity detection
US9836452B2 (en) 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
JP6669073B2 (ja) * 2015-03-31 2020-03-18 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083697B2 (en) 2015-05-27 2018-09-25 Google Llc Local persisting of data for selectively offline capable voice action in a voice-enabled electronic device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9966073B2 (en) 2015-05-27 2018-05-08 Google Llc Context-sensitive dynamic update of voice to text model in a voice-enabled electronic device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
CN105161097A (zh) * 2015-07-23 2015-12-16 百度在线网络技术(北京)有限公司 语音交互方法及装置
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US9996517B2 (en) * 2015-11-05 2018-06-12 Lenovo (Singapore) Pte. Ltd. Audio input of field entries
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
CN109643742A (zh) 2016-08-26 2019-04-16 英特尔公司 集成电路器件结构和双侧制造技术
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10347247B2 (en) * 2016-12-30 2019-07-09 Google Llc Modulation of packetized audio signals
CN107146623B (zh) * 2017-04-07 2021-03-16 百度在线网络技术(北京)有限公司 基于人工智能的语音识别方法、装置和系统
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20190354557A1 (en) * 2017-06-20 2019-11-21 Tom Kornblit System and Method For Providing Intelligent Customer Service
EP3486900A1 (en) * 2017-11-16 2019-05-22 Softbank Robotics Europe System and method for dialog session management
US10845937B2 (en) 2018-01-11 2020-11-24 International Business Machines Corporation Semantic representation and realization for conversational systems
US20190213284A1 (en) 2018-01-11 2019-07-11 International Business Machines Corporation Semantic representation and realization for conversational systems
CN108446459B (zh) * 2018-03-01 2022-03-22 云南师范大学 基于模糊语义推理的炼焦过程耗热量影响因素优化方法
CN114582314B (zh) * 2022-02-28 2023-06-23 江苏楷文电信技术有限公司 基于asr的人机音视频交互逻辑模型设计方法

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4831550A (en) * 1986-03-27 1989-05-16 International Business Machines Corporation Apparatus and method for estimating, from sparse data, the probability that a particular one of a set of events is the next event in a string of events
DE3723078A1 (de) * 1987-07-11 1989-01-19 Philips Patentverwaltung Verfahren zur erkennung von zusammenhaengend gesprochenen woertern
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
US5263117A (en) * 1989-10-26 1993-11-16 International Business Machines Corporation Method and apparatus for finding the best splits in a decision tree for a language model for a speech recognizer
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
CA2141221A1 (en) 1992-09-04 1994-03-17 Jaime G. Carbonell Integrated authoring and translation system
JP3378595B2 (ja) 1992-09-30 2003-02-17 株式会社日立製作所 音声対話システムおよびその対話進行制御方法
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5615296A (en) * 1993-11-12 1997-03-25 International Business Machines Corporation Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors
US5675819A (en) 1994-06-16 1997-10-07 Xerox Corporation Document information retrieval using global word co-occurrence patterns
US5752052A (en) * 1994-06-24 1998-05-12 Microsoft Corporation Method and system for bootstrapping statistical processing into a rule-based natural language parser
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
IT1279171B1 (it) * 1995-03-17 1997-12-04 Ist Trentino Di Cultura Sistema di riconoscimento di parlato continuo
US5710866A (en) * 1995-05-26 1998-01-20 Microsoft Corporation System and method for speech recognition using dynamically adjusted confidence measure
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
JPH09114488A (ja) 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車
EP0801786B1 (en) * 1995-11-04 2000-06-28 International Business Machines Corporation Method and apparatus for adapting the language model's size in a speech recognition system
US6567778B1 (en) * 1995-12-21 2003-05-20 Nuance Communications Natural language speech recognition using slot semantic confidence scores related to their word recognition confidence scores
US5913193A (en) * 1996-04-30 1999-06-15 Microsoft Corporation Method and system of runtime acoustic unit selection for speech synthesis
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5835888A (en) * 1996-06-10 1998-11-10 International Business Machines Corporation Statistical language model for inflected languages
US5963903A (en) * 1996-06-28 1999-10-05 Microsoft Corporation Method and system for dynamically adjusted training for speech recognition
JPH1097280A (ja) 1996-09-19 1998-04-14 Hitachi Ltd 音声画像認識翻訳装置
US5819220A (en) * 1996-09-30 1998-10-06 Hewlett-Packard Company Web triggered word set boosting for speech interfaces to the world wide web
US5905972A (en) * 1996-09-30 1999-05-18 Microsoft Corporation Prosodic databases holding fundamental frequency templates for use in speech synthesis
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
DE19708183A1 (de) * 1997-02-28 1998-09-03 Philips Patentverwaltung Verfahren zur Spracherkennung mit Sprachmodellanpassung
US6073091A (en) * 1997-08-06 2000-06-06 International Business Machines Corporation Apparatus and method for forming a filtered inflected language model for automatic speech recognition
WO1999021106A1 (en) 1997-10-20 1999-04-29 Microsoft Corporation Automatically recognizing the discourse structure of a body of text
RU2119196C1 (ru) 1997-10-27 1998-09-20 Яков Юноевич Изилов Способ лексической интерпретации слитной речи и система для его реализации
US6154722A (en) * 1997-12-18 2000-11-28 Apple Computer, Inc. Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US6182039B1 (en) * 1998-03-24 2001-01-30 Matsushita Electric Industrial Co., Ltd. Method and apparatus using probabilistic language model based on confusable sets for speech recognition
US6141641A (en) * 1998-04-15 2000-10-31 Microsoft Corporation Dynamically configurable acoustic model for speech recognition system
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6415256B1 (en) * 1998-12-21 2002-07-02 Richard Joseph Ditzik Integrated handwriting and speed recognition systems
US6314402B1 (en) 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
US6081799A (en) * 1999-05-05 2000-06-27 International Business Machines Corporation Executing complex SQL queries using index screening for conjunct or disjunct index operations
US6553345B1 (en) * 1999-08-26 2003-04-22 Matsushita Electric Industrial Co., Ltd. Universal remote control allowing natural language modality for television and multimedia searches and requests
US6434529B1 (en) 2000-02-16 2002-08-13 Sun Microsystems, Inc. System and method for referencing object instances and invoking methods on those object instances from within a speech recognition grammar
US7031908B1 (en) * 2000-06-01 2006-04-18 Microsoft Corporation Creating a language model for a language processing system
US6865528B1 (en) * 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
TW472232B (en) 2000-08-11 2002-01-11 Ind Tech Res Inst Probability-base fault-tolerance natural language understanding method
US6785651B1 (en) 2000-09-14 2004-08-31 Microsoft Corporation Method and apparatus for performing plan-based dialog
US6934683B2 (en) 2001-01-31 2005-08-23 Microsoft Corporation Disambiguation language model
US20020152075A1 (en) * 2001-04-16 2002-10-17 Shao-Tsu Kung Composite input method
EP1410381A4 (en) 2001-05-04 2005-10-19 Unisys Corp DYNAMIC GENERATION OF VOICE APPLICATION INFORMATION FROM A WEB SERVER
CN1279465C (zh) * 2001-05-04 2006-10-11 微软公司 Web启用的识别体系结构
JP3961780B2 (ja) 2001-05-15 2007-08-22 三菱電機株式会社 言語モデル学習装置およびそれを用いた音声認識装置
JP4094255B2 (ja) 2001-07-27 2008-06-04 日本電気株式会社 コマンド入力機能つきディクテーション装置
JP4000828B2 (ja) 2001-11-06 2007-10-31 株式会社デンソー 情報システム、電子機器、プログラム
US7200559B2 (en) * 2003-05-29 2007-04-03 Microsoft Corporation Semantic object synchronous understanding implemented with speech application language tags
US8301436B2 (en) 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface

Also Published As

Publication number Publication date
KR20040103443A (ko) 2004-12-08
AU2004201993A1 (en) 2004-12-16
US8301436B2 (en) 2012-10-30
RU2004116303A (ru) 2005-11-10
RU2352979C2 (ru) 2009-04-20
CA2467134A1 (en) 2004-11-29
HK1070730A1 (zh) 2005-06-24
US20040243419A1 (en) 2004-12-02
JP2004355629A (ja) 2004-12-16
CN100424632C (zh) 2008-10-08
CN1591315A (zh) 2005-03-09
EP1482479A1 (en) 2004-12-01
MXPA04005121A (es) 2005-06-10
EP1482479B1 (en) 2016-09-28
BRPI0401847A (pt) 2005-03-08
CA2467134C (en) 2013-03-05
TW200513884A (en) 2005-04-16
ZA200403493B (en) 2006-04-26
KR101066741B1 (ko) 2011-09-21

Similar Documents

Publication Publication Date Title
JP4768969B2 (ja) 高度対話型インターフェースに対する理解同期意味オブジェクト
JP4768970B2 (ja) 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト
JP2009059378A (ja) ダイアログを目的とするアプリケーション抽象化のための記録媒体及び方法
US11093110B1 (en) Messaging feedback mechanism
WO2020238045A1 (zh) 智能语音识别方法、装置及计算机可读存储介质
Hämäläinen et al. Multilingual speech recognition for the elderly: The AALFred personal life assistant
KR100917552B1 (ko) 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체
Rouillard Web services and speech-based applications around VoiceXML.
Tomko et al. Towards efficient human machine speech communication: The speech graffiti project
Milhorat An open-source framework for supporting the design and implementation of natural-language spoken dialog systems
Deng et al. Speech and language processing for multimodal human-computer interaction
Wang Semantic object synchronous understanding in SALT for highly interactive user interface.
Deng et al. A speech-centric perspective for human-computer interface
Hassaan et al. Dhivehi automatic speech recognition system
HUANG L. DENG, Y. WANG, K. WANG, A. ACERO, H. HON, J. DROPPO, C. BOULIS, M. MAHAJAN
Miyazaki Discussion Board System with Multimodality Variation: From Multimodality to User Freedom.
Al-Manasra et al. Speech-Enabled Web Application “Case Study: Arab Bank Website”

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110617

R150 Certificate of patent or registration of utility model

Ref document number: 4768969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250