JP2004310748A - ユーザ入力に基づくデータの提示 - Google Patents

ユーザ入力に基づくデータの提示 Download PDF

Info

Publication number
JP2004310748A
JP2004310748A JP2004063224A JP2004063224A JP2004310748A JP 2004310748 A JP2004310748 A JP 2004310748A JP 2004063224 A JP2004063224 A JP 2004063224A JP 2004063224 A JP2004063224 A JP 2004063224A JP 2004310748 A JP2004310748 A JP 2004310748A
Authority
JP
Japan
Prior art keywords
information
data
user
rendering
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004063224A
Other languages
English (en)
Other versions
JP2004310748A5 (ja
Inventor
Kuansan Wang
クァンサン ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004310748A publication Critical patent/JP2004310748A/ja
Publication of JP2004310748A5 publication Critical patent/JP2004310748A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B18/00Surgical instruments, devices or methods for transferring non-mechanical forms of energy to or from the body
    • A61B18/04Surgical instruments, devices or methods for transferring non-mechanical forms of energy to or from the body by heating
    • A61B18/12Surgical instruments, devices or methods for transferring non-mechanical forms of energy to or from the body by heating by passing a current through the tissue to be heated, e.g. high-frequency current
    • A61B18/14Probes or electrodes therefor
    • A61B18/1477Needle-like probes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B17/00Surgical instruments, devices or methods, e.g. tourniquets
    • A61B17/28Surgical forceps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Abstract

【課題】 音声クエリに基づいてユーザに情報をレンダリングする方法を提供すること。
【解決手段】 この方法は、音声の発話から第1のオブジェクトと第2のオブジェクトとを識別することを含む。第1のオブジェクトおよび第2のオブジェクトは、記憶された情報に対応するタグに関連付けられる。記憶された情報は、第1のオブジェクトおよび第2のオブジェクトに基づいて選択的にレンダリングされる。
【選択図】 図1

Description

本発明は、コンピュータシステムにおける情報のアクセスおよびレンダリングに関する。より詳細には、本発明は、ユーザからの音声入力に基づくデータの提示に関する。
多くのコンピュータインターフェースは、コンピュータ主導の対話を基本としており、ユーザは、コンピュータによって設定される実行の流れに従うか、またはコンピュータによって公開される1つまたは複数のコマンドを覚えなければならない。すなわち、大半のコンピュータインターフェースは、ユーザが望むコンピュータとの対話方式に適応するのではなく、特定のインターフェースセットを通じた対話をユーザに強制する。
コンピュータ/ユーザインターフェースの進歩により、ユーザが音声コマンドを通じてコンピュータと対話することが可能になっている。VoiceXML(音声拡張可能マークアップ言語)の使用などを通じた音声ポータルが発達し、音声入力を使用してインターネットコンテンツにアクセスすることができる。このアーキテクチャでは、ドキュメントサーバ(例えばウェブサーバ)がVoiceXMLインタープリタを通じてクライアントからの要求を処理する。ウェブサーバは、VoiceXMLのドキュメントを生成し、返信することができ、返信はVoiceXMLインタープリタによって処理され、ユーザに対して音声でレンダリングされる。ユーザは、指定された音声コマンドを音声認識を通じて使用して、ウェブをナビゲートし、音声でレンダリングされるデータを耳で聞くことができる。
しかし、例えば運転の道案内、交通情報、天気情報、映画の上映予定などのデータをユーザに提示する多くのアプリケーションは、ユーザにとって特に使い勝手がよいわけではない。詳細には、そうしたアプリケーションは、すでにレンダリングされた情報の一部分、あるいはテーブルに格納された構造化された情報のレンダリングに問題がある。例えば各種のサービスが道案内を提供するが、長い1回の読み上げでユーザに提供されるか、あるいは所定のステップで提供される。その結果、ユーザは、道案内をすべて書き留めるか、あるいは関連する情報を記憶しようとして道案内全体または所定のステップを再生し続ける必要がある場合がある。これらの状況はいずれも多くの状況で望ましいものではない。
http://www.SALTforum.org
したがって、より高い柔軟性をもってデータの一部にアクセスし、レンダリングする必要性がある。そのようなレンダリングのシステムまたは方法は、ユーザにとってより自然であることにより、より容易に使用することができる。
本発明は、音声入力に基づいてユーザにデータをレンダリングするための改良されたインターフェースを提供する。本発明の一態様では、ユーザに情報をレンダリングする方法は、音声の発話から第1のオブジェクトと第2のオブジェクトとを識別することを含む。第1のオブジェクトと第2のオブジェクトは、記憶された情報に対応するタグに関連付けられる。記憶された情報は、第1のオブジェクトおよび第2のオブジェクトに基づいて選択的にレンダリングされる。一実施形態では、識別されるオブジェクトは、情報を選択的にレンダリングするためのクエリオブジェクト、ナビゲーションオブジェクト、および/またはコマンドオブジェクトとすることができる。特定の一態様では、記憶された情報は、複数の行と複数の列とを有するテーブルに構成される。第1のオブジェクトは、特定の行に関連する情報を含み、第2のオブジェクトは、特定の列に関連する情報を含む。
本発明の別の態様では、情報のセグメントをユーザにレンダリングすることを含む方法が提供される。このセグメントは、当該セグメントの一部に対応するタグを含む。この方法はさらに、音声の発話から少なくとも1つのオブジェクトを識別し、そのオブジェクトをセグメントの一部に対応するタグに関連付けることを含む。次いで、タグに対応するセグメントの一部がレンダリングされる。さらなる実施形態では、セグメントの一部をレンダリングするために、テキストノーマライザ/アナライザを使用してセグメント中の関連する部分を識別することができる。
その結果、本発明は、多次元的なデータを提示し、データベースに記憶された情報の一部をレンダリングするのに適した方式を提供する。ユーザには、音声入力に基づいてデータを提示する、より自然なインターフェースが提示される。例えば、ユーザは、テーブルの個々のセルを問い合わせる、あるいは記憶された情報に基づいて双方向のダイアログを作成することができる。
図1は、音声入力に基づいてデータをレンダリングするデータ提示システム10のブロック図である。システム10は、音声インターフェースモジュール12、音声認識理解モジュール14、およびデータレンダリングモジュール16を含む。ユーザは、音声クエリの形態の入力を音声インターフェースモジュール12に提供する。音声インターフェースモジュール12は、ユーザから音声情報を集め、その情報を表す信号を提供する。音声インターフェースモジュール12によって入力音声が集められると、音声認識理解モジュール14が音声レコグナイザを使用して音声を認識し、ユーザがシステム10にレンダリングさせたい情報に関連するキーワードまたはキーフレーズなどのオブジェクトを識別する。データベース18からデータを抽出するために、そのオブジェクトがデータレンダリングモジュール16によって使用される。オブジェクトを使用してデータベース18で関連する情報が識別されると、関連する情報をユーザに対してレンダリングすることができる。データレンダリングモジュール16の出力は、音声および/または視覚的な出力を含む様々な形態であってよい。
音声クエリに基づくデータレンダリングについての広範囲にわたる説明を考えると、上述のシステム10で機能することが可能なコンピューティングデバイスを概説することが有用であろう。当業者には理解されるように、システム10の構成要素は、単一のコンピュータ内に配置しても、ネットワーク接続およびプロトコルを使用する分散コンピューティング環境内に分散してもよい。
次いで図2を参照すると、データ管理デバイス(PIM、PDAなど)のモバイルデバイスの例示的な形態を符号30に示す。ただし、本発明は、下記で述べる他のコンピューティングデバイスを使用した実施も可能であることが企図される。例えば、電話機および/またはデータ管理デバイスも本発明から利益を得る。そのようなデバイスは、既存の携帯型個人情報管理デバイスおよびその他の携帯型電子デバイスに比べて高度な有用性を持つ。
データ管理モバイルデバイス30の例示的な一形態を図2に示す。モバイルデバイス30は、筐体32を含み、ディスプレイ34を含むユーザインターフェースを有し、このインターフェースは、スタイラス33と併せて接触反応型(contact sensitive)ディスプレイ画面を使用する。スタイラス33は、フィールドを選択する、カーソルの開始位置を選択的に移動する、あるいはジェスチャーや手書きなどを通じてその他の形でコマンド情報を提供するために、ディスプレイ34の指定された座標を押下する、あるいは接触するために使用される。スタイラスの代わりに、あるいはスタイラスに加えて、1つまたは複数のボタン35をナビゲーションのためにデバイス30に含めることができる。また、回転可能なホイール、ローラなど他の入力機構も提供することができる。ただし、本発明はこれらの形態の入力機構によって限定されないことに留意されたい。例えば、他の形態の入力は、コンピュータビジョンなどを利用した視覚的な入力を含むことができる。
次いで図3を参照すると、ブロック図により、モバイルデバイス30を構成する機能コンポーネントを示している。中央演算処理装置(CPU)50は、ソフトウェア制御機能を実施する。CPU50はディスプレイ34に結合され、制御を行うソフトウェアに従って生成されたテキストおよびグラフィックアイコンがディスプレイ34に表示される。スピーカ43は、通例は音声出力を提供するデジタル/アナログ変換器59と共にCPU50に結合することができる。ユーザによってモバイルデバイス30にダウンロードまたは入力されるデータは、CPU50に双方向に結合された揮発性の読み取り/書き込みランダムアクセスメモリストア54に記憶される。ランダムアクセスメモリ(RAM)54は、CPU50によって実行される命令の揮発性の記憶と、レジスタ値などの一時的データの記憶を提供する。構成のオプションおよびその他変数のデフォルト値は、読み取り専用メモリ(ROM)58に記憶される。ROM58は、モバイルデバイス30の基本的機能と他のオペレーティングシステムカーネル機能(RAM54へのソフトウェアコンポーネントのロードなど)を制御する、デバイスのオペレーティングシステムソフトウェアの記憶にも使用することができる。
RAM54は、アプリケーションプログラムの記憶に使用されるPC上のハードドライブの機能に似た形でコードの記憶機構としても機能する。コードの記憶には不揮発性メモリを使用しているが、コードは代わりに、コードの実行には使用されない揮発性メモリに記憶してもよいことに留意されたい。
CPU50に結合された無線トランシーバ52を通じて、モバイルデバイスにより無線信号を送受信することができる。必要な場合は、コンピュータ(例えばデスクトップコンピュータ)、あるいは配線ネットワークから直接データをダウンロードするためにオプションの通信インターフェース60も提供することができる。したがって、通信インターフェース60は、例えば赤外線リンク、モデム、ネットワークカードなど各種形態の通信デバイスを含むことができる。
モバイルデバイス30は、マイクロフォン29、アナログ/デジタル(A/D)変換器37、およびRAM54に記憶されたオプションの認識プログラム(音声、DTMF、手書き、ジェスチャー、あるいはコンピュータビジョン)を含む。例として、デバイス30のユーザからの音声による情報、命令、またはコマンドに応答して、マイクロフォン29が音声信号を提供し、その音声信号がA/D変換器37によってデジタル化される。音声認識プログラムは、デジタル化された音声信号に正規化および/または特徴抽出機能(feature extraction function)を行って中間の音声認識結果を得ることができる。無線トランシーバ52または通信インターフェース60を使用して、下記で説明し、図6のアーキテクチャに示すリモートの認識サーバ204に音声データを送信することができる。認識結果は次いで(例えば視覚および/または音声による)レンダリング、そして最終的なウェブサーバ(図6)への送信のためにモバイルデバイス30に返されるが、ここでウェブサーバ202とモバイルデバイス30とはクライアント/サーバの関係で動作する。同様の処理を他の形態の入力にも使用することができる。例えば、手書き入力を、デバイス30で前処理を行って、または行わずにデジタル化することができる。音声データと同様にこの形態の入力も認識のために認識サーバ204に送信することができ、認識結果は、デバイス30および/またはウェブサーバ202の少なくとも1つに返される。同様に、DTMFデータ、ジェスチャーデータ、およびビジュアルデータも同様の方式で処理することができる。入力の形態に応じて、デバイス30(および下記の他形態のクライアント)は、視覚的な入力を行うためのカメラなど必要なハードウェアを含む。
図4は、携帯電話80の例示的実施形態の平面図である。電話機80は、ディスプレイ82およびキーパッド84を含む。一般に、図3のブロック図は図4の電話機に当てはまるが、他の機能を行うのに必要な追加的な回路が必要となる可能性がある。例えば、電話機として動作するために必要なトランシーバが図3の実施形態に必要となるが、そのような回路は本発明には関連しない。
上述の携帯型または移動型のコンピューティングデバイスに加えて、本発明は、一般的なデスクトップコンピュータなど多数の他のコンピューティングデバイスに使用できることを理解されたい。例えば、本発明は、身体能力に制約のあるユーザが完全な英数文字のキーボードなどの他の従来の入力装置の操作が難しい場合に、コンピュータまたは他のコンピューティングデバイスに入力を行う、またはテキストを入力することを可能にする。
本発明は、多数の他の汎用または特殊目的のコンピューティングシステム、環境、または構成でも動作する。本発明に使用するのに適する可能性がある周知のコンピューティングシステム、環境、および/または構成の例には、これらに限定しないが、(画面のない)標準的な電話機、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、タブレットコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上述のシステムまたはデバイスを含む分散コンピューティング環境などがある。
以下は、図5に示す汎用コンピュータ120の簡単な説明である。ただし、ここでもコンピュータ120は、適切なコンピューティング環境の一例に過ぎず、本発明の使用または機能の範囲について何らの制限を示唆するものではない。また、コンピュータ120は、この図に示す構成要素の任意の1つまたは組み合わせに関連する依存性または必要性を有するものとも解釈すべきでない。
本発明について、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令との一般的な関係で説明する。一般に、プログラムモジュールには、特定タスクを行うか、特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを通じてリンクされた遠隔の処理装置によってタスクを行う分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、メモリ記憶装置を含むローカルおよびリモート両方のコンピュータ記憶媒体にプログラムモジュールを置くことができる。プログラムおよびモジュールによって行われるタスクについて、図を使用して下記で説明する。当業者は、任意形態のコンピュータ可読媒体に書くことが可能なプロセッサ実行可能命令として、この説明および図を実施することができる。
図5を参照すると、コンピュータ120の構成要素は、これらに限定しないが、処理装置140、システムメモリ150、およびシステムメモリを含む各種のシステム構成要素を処理装置140に結合するシステムバス141を含むことができる。システムバス141は、各種のバスアーキテクチャの任意のものを使用したメモリバスまたはメモリコントローラ、ペリフェラルバス、およびローカルバスを含む数タイプのバス構造のいずれでもよい。これらに限定しないが、例として、このようなアーキテクチャには、ISA(Industry Standard Architecture)バス、USB(ユニバーサルシリアルバス)、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも称されるPCI(Peripheral Component Interconnects)バスが含まれる。コンピュータ120は通例各種のコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ120がアクセスすることができる任意の利用可能媒体でよく、揮発性および不揮発性の媒体、取り外し可能および取り外し不能媒体が含まれる。これに限定しないが、例としてコンピュータ可読媒体は、コンピュータ記憶媒体と通信媒体とを含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための任意の方法または技術に実装された揮発性および不揮発性の媒体、取り外し可能および取り外し不能の媒体を含む。コンピュータ記憶媒体には、これらに限定しないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶装置、あるいは、所望の情報の記憶に用いることができ、コンピュータ120によるアクセスが可能な任意の他の媒体が含まれる。
通信媒体は、通例、搬送波または他の搬送機構などの変調データ信号にコンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを実施し、任意の情報伝達媒体を含む。用語「変調データ信号」とは、信号中に情報を符号化する方式でその特性の1つまたは複数を設定または変化させた信号を意味する。例として、これらに限定しないが、通信媒体には、配線ネットワークまたは直接配線接続などの配線媒体と、音響、RF、赤外線、および他の無線媒体などの無線媒体が含まれる。上記の媒体のいずれの組み合わせもコンピュータ可読媒体の範囲に含めるべきである。
システムメモリ150は、読み取り専用メモリ(ROM)151およびランダムアクセスメモリ(RAM)152など、揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ120内の要素間の情報転送を助ける基本ルーチンを含むBIOS(basic input/output system)153は、通例ROM151に記憶される。RAM152は通例、処理装置140から即座にアクセス可能な、かつ/または現在処理装置140によって操作中のデータおよび/またはプログラムモジュールを含む。これに限定しないが、例として、図5にはオペレーティングシステム154、アプリケーションプログラム155、他のプログラムモジュール156、およびプログラムデータ157を示している。
コンピュータ120は、この他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ記憶媒体も含むことができる。単なる例として、図5には、取り外し不能、不揮発性の磁気媒体の読み取りまたは書き込みを行うハードディスクドライブ161、取り外し可能、不揮発性の磁気ディスク172の読み取りまたは書き込みを行う磁気ディスクドライブ171、およびCD−ROMや他の光学媒体などの取り外し可能、不揮発性の光ディスク176の読み取りまたは書き込みを行う光ディスクドライブ175を示す。例示的動作環境で使用できるこの他の取り外し可能/取り外し不能、揮発性/不揮発性のコンピュータ記憶媒体には、これらに限定しないが、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれる。ハードディスクドライブ161は通例、インターフェース160などの取り外し不能なメモリインターフェースを通じてシステムバス141に接続され、磁気ディスクドライブ171および光ディスクドライブ175は通例、インターフェース170など取り外し可能なメモリインターフェースによってシステムバス141に接続される。
上記で説明し、図5に示すドライブとそれに関連付けられたコンピュータ記憶媒体は、コンピュータ120のコンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータの記憶を提供する。例えば図5では、ハードディスクドライブ161にオペレーティングシステム164、アプリケーションプログラム165、他のプログラムモジュール166、およびプログラムデータ167を記憶している。これらのコンポーネントは、オペレーティングシステム154、アプリケーションプログラム155、他のプログラムモジュール156、およびプログラムデータ157と同じものでも、異なるものでもよいことに留意されたい。ここではオペレーティングシステム164、アプリケーションプログラム165、他のプログラムモジュール166、およびプログラムデータ167には、それらが少なくとも異なるコピーであることを表すために異なる参照符号をつけている。
ユーザは、キーボード182、マイクロフォン183、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス181などの入力装置を通じてコンピュータ120にコマンドと情報とを入力することができる。他の入力装置(図示せず)には、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらおよび他の入力装置は、システムバスに結合されたユーザ入力インターフェース180を通じて処理装置140に接続することが多いが、パラレルポート、ゲームポート、あるいはユニバーサルシリアルバス(USB)など他のインターフェースおよびバス構造によって接続することも可能である。モニタ184または他タイプの表示装置も、ビデオインターフェース185などのインターフェースを介してシステムバス141に接続される。コンピュータは、モニタに加えて、スピーカ187やプリンタ186など他の周辺出力装置も含むことができ、それらは出力周辺インターフェース188を通じて接続することができる。
コンピュータ120は、リモートコンピュータ194など1つまたは複数のリモートコンピュータへの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ194はパーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、あるいはその他の一般的なネットワークノードでよく、通例はコンピュータ120との関連で上記で挙げた要素の多くまたはすべてを含む。図5に示す論理接続には、ローカルエリアネットワーク(LAN)191とワイドエリアネットワーク(WAN)193が含まれるが、この他のネットワークを含むことも可能である。このようなネットワーキング環境は、オフィス、企業内のコンピュータネットワーク、イントラネット、およびインターネットに一般的に見られる。
LANネットワーキング環境で使用する場合、コンピュータ120はネットワークインターフェースまたはアダプタ190を通じてLAN191に接続される。WANネットワーキング環境で使用する場合、コンピュータ120は通例、インターネットなどのWAN193を通じて通信を確立するためのモデム192またはその他の手段を含む。モデム192は内蔵型でも外付け型でもよく、ユーザ入力インターフェース180または他の適切な機構を介してシステムバス141に接続することができる。ネットワーク環境では、コンピュータ120との関連で図示したプログラムモジュール、またはその一部は遠隔のメモリ記憶装置に格納することができる。これに限定しないが、例として図5ではリモートアプリケーションプログラム195がリモートコンピュータ194に常駐している。図のネットワーク接続は例示的なものであり、コンピュータ間に通信リンクを確立する他の手段を使用できることは理解されよう。
図6に、本発明のための例示的な1環境である、ウェブベースの認識およびデータレンダリングのためのアーキテクチャ200を示す。一般に、ウェブサーバ202に記憶された情報には、モバイルデバイス30またはコンピュータ120(ここでは入力の形態に応じて必要な表示画面、マイクロフォン、カメラ、タッチセンシティブパネルなどを備える他の諸形態のコンピューティングデバイスを表す)などのクライアント100を通じて、または電話機80を通じてアクセスすることができ、情報は、音声を通じて要求されるか、またはキーが押下されるのに応答して電話機80で生成されるトーンを通じて要求され、ウェブサーバ202からの情報は音声のみによりユーザに提供される。
この実施形態では、アーキテクチャ200は、音声認識を使用してクライアント100を通じて情報を取得する場合でも電話機80を通じて取得する場合でも、単一の認識サーバ204がどちらの動作モードもサポートできる点で一元化されている。また、アーキテクチャ200は、よく知られるマークアップ言語(例えばHTML、XHTML、cHTML、XML、WMLなど)の拡張を使用して動作する。したがって、ウェブサーバ202に記憶された情報には、これらのマークアップ言語に使用される周知のGUI方式を使用してアクセスすることもできる。周知のマークアップ言語の拡張を使用することにより、ウェブサーバ202でのオーサリングがより容易になり、既存のレガシーアプリケーションが音声認識を含むように容易に修正することもできる。
一般に、クライアント100は、符号206で大まかに示すように、ウェブサーバ202から提供されるHTMLページ、スクリプトなどをブラウザを使用して実行する。音声認識が必要とされる場合は、一例として音声データが認識サーバ204に提供されるが、この音声データは、例えばデジタル化されたオーディオ信号または音声の特徴(オーディオ信号は上述のようにクライアント100によって前処理されている)であり、クライアント100から提供することが可能な、音声認識の際に使用する文法または言語モデル220の指示と共に提供される。あるいは、認識サーバ204が言語モデル220を含んでもよい。認識サーバ204の実施は、多くの形態をとることができ、その1つを図示するが、一般にはレコグナイザ(SR)211を含む。認識の結果は、必要な場合、あるいは適切である場合は、ローカルのレンダリングのためにクライアント100に返される。必要な場合は、テキスト/音声変換モジュール(TTS)222を使用して読み上げられたテキストをクライアント100に提供することができる。認識と、使用される場合はグラフィカルユーザインターフェースを通じて情報を集めると、クライアント100は、さらなる処理と、必要な場合はさらなるHTMLページ/スクリプトの受信とのためにその情報をウェブサーバ202に送信する。
図6に示すように、クライアント100、ウェブサーバ202、および認識サーバ204は、本明細書ではインターネットなどのワイドエリアネットワークであるネットワーク205を通じて共通に接続され、別個にアドレス指定することができる。したがって、これらのデバイスが物理的に互いと隣接して位置することは必要でない。詳細には、ウェブサーバ202が認識サーバ204を含む必要はない。このようにして、ウェブサーバ202におけるオーサリングを、そのオーサー(author)が認識サーバ204の複雑性を知る必要なしに、そのオーサリングが対象とするアプリケーションに集中させることができる。認識サーバ204は、独立して設計し、ネットワーク205に接続することができ、それにより、ウェブサーバ202でさらなる変更を必要とせずに更新および改良することができる。ウェブサーバ202は、クライアントサイドのマークアップおよびスクリプトを動的に生成できるオーサリング機構も含むことができる。さらなる実施形態では、実施マシンの能力に応じて、ウェブサーバ202、認識サーバ204、クライアント100を組み合わせてもよい。例えば、クライアント100がパーソナルコンピュータなどの汎用コンピュータである場合は、クライアントが認識サーバ204を含むことができる。同様に、必要な場合は、ウェブサーバ202と認識サーバ204とを一体化して単一のマシンとすることができる。
電話機80を通じたウェブサーバ202へのアクセスは、電話機80を配線または無線の電話網(PSTN)208に接続し、電話網208が電話機80を第3者のゲートウェイ210に接続することを含む。ゲートウェイ210は、電話機80を電話音声ブラウザ212に接続する。電話音声ブラウザ212は、電話インターフェースを提供するメディアサーバ214と音声ブラウザ216とを含む。クライアント100と同様に、電話音声ブラウザ212は、ウェブサーバ202からHTMLページ/スクリプトなどを受信する。一実施形態では、HTMLページ/スクリプトは、クライアント100に提供されるHTMLページ/スクリプトと同様の形態である。このように、ウェブサーバ202は、クライアント100と電話機80とを別々にサポートする必要がなく、あるいは標準的なGUIクライアントを個別にサポートする必要すらない。代わりに、共通のマークアップ言語を使用することができる。また、クライアント100と同様に、電話機80から送信される可聴信号からの音声認識は、音声ブラウザ216から、例えばTCP/IPを使用してネットワーク205または専用線207を通じて認識サーバ204に提供される。ウェブサーバ202、認識サーバ204、および電話音声ブラウザ212は、図5の汎用デスクトップコンピュータなど任意の適切なコンピューティング環境に実施することができる。
システム10で機能する各種の環境およびアーキテクチャについて説明したので、システム10の各種コンポーネントおよび機能についてより詳細に説明する。図7に、音声認識理解モジュール14のブロック図を示す。音声インターフェースモジュール12から受け取った入力音声は、音声認識理解モジュール14に送られる。音声認識理解モジュール14は、関連付けられた言語モデル310を有する認識エンジン306を含む。認識エンジン306は、言語モデル310を使用して、個々の入力を表す可能な表層的意味構造(surface semantic structure)を識別する。認識エンジン306は、入力音声に基づいて少なくとも1つの表層的意味の出力オブジェクトを提供する。一部の実施形態では、認識エンジン306は、各代替の構造につき2つ以上の代替の表層的意味オブジェクトを提供することができる。
図7では音声入力が提供されるが、本発明は、手書き認識、ジェスチャー認識、またはグラフィカルユーザインターフェース(これらの場合ユーザはキーボードまたは他の入力装置と対話する)と共に使用することができる。そうした他の実施形態では、音声レコグナイザ306を、当技術分野で知られる適切な認識エンジンに置き換える。グラフィカルユーザインターフェースの場合、文法(言語モデルを有する)は、入力ボックスなどを通じたユーザ入力に関連付けられる。したがって、ユーザの入力は、入力の方式に基づく多大な変更を行わずに一定の方式で処理される。
音声や手書きなど言語に基づくユーザ入力の場合、認識エンジン306が使用する言語モデル310は、知られる確率論的模型(stochastic model)の集合の任意の1つであってよい。例えば、言語モデルは、入力中のN個の先行する単語からなるグループを考慮して言語の単語の確率をモデル化するNグラムモデル(N−gram model)とすることができる。言語モデルは、意味情報および/または構文情報を特定の単語およびフレーズに関連付ける文脈自由文法としてもよい。本発明のさらなる実施形態では、Nグラム言語モデルと文脈自由文法を組み合わせた統一言語モデルを使用する。この統一モデルでは、意味および/または構文のトークンを単語の桁の値(place value)として扱い、仮定される単語とトークンとの組み合わせそれぞれについてNグラムの確率を計算する。
言語モデル310は、データレンダリングモジュール16がそれに提供されるオブジェクトに相関して関連情報をレンダリングするのに必要な情報に基づいて、階層的な表層的意味構造を生成することができる。一実施形態では、入力音声を分析して、入力テキスト中の各種の意味のトークンまたはオブジェクトを識別する。このオブジェクトは、言語モデル310に見つかるオブジェクトのセットから識別される。一般に、このオブジェクトは、データレンダリングモジュール16が情報をレンダリングするために使用する情報を表す。下記で説明するように、オブジェクトは、クエリオブジェクト、ナビゲーションオブジェクト、および/またはコマンドオブジェクトを含むことができる。クエリオブジェクトは、データベース18に記憶された情報に関連する情報を含む。ナビゲーションオブジェクトは、記憶された情報をナビゲートするために使用される情報を含み、コマンドオブジェクトは、記憶された情報に基づく各種のコマンドを実行することができる。
音声認識理解モジュール14は、スタイルコントロール312を使用して、入力音声中のオブジェクトを識別するための代替のフレーズを認識することもできる。スタイルコントロール312は言語モデル310に関連付けられて、データレンダリングモジュール16に関連オブジェクトを提供するのを支援する。図6に示す環境では、スタイルコントロール312に関連する情報は、ワシントン州レドモンドのマイクロソフト社のASP.NETなどのオーサリングツールを使用して、ウェブサーバ202のアプリケーションオーサーによって実施することができる。あるいは、JSP、J2EE、J2SE、J2MEなどの他のオーサリングツールも使用することができる。例えば、フレーズ「次に曲がるまでの距離はどれほどか」は、「次に曲がるまでどれほどあるか」というようなフレーズに「スタイル」することができる。また、「次に曲がる時の方向は?」は、「次はどちらに曲がればいいのか」あるいは「次はどの方向に曲がればよいか?」とフレーズし直すことができる。このように、スタイルコントロール312を使用して、データベース18中の関連データを識別することができ、またユーザに提供するのに適した応答を識別することができる。
言語モデルが認識しない音声をユーザが提供した場合、システムは、入力を繰り返すようにユーザを促すことができる。ただし、システムが入力中の意味情報またはその欠如に基づく入力に関連する情報を持たない場合、システムは、適切なヘルプルーチンを実行してユーザに利用可能な選択肢を指示することができる。
図8に、データレンダリングモジュール16の詳細なブロック図を示す。データレンダリングモジュール16は、コマンドオペレータモジュール602、テキストアナライザ/ノーマライザモジュール604、データベースインターフェースモジュール606、応答ジェネレータモジュール607、オーディオインターフェースモジュール608、視覚インターフェースモジュール610、およびテキスト音声変換モジュール(TTS)612を含む。データレンダリングモジュール16は、音声認識理解モジュール14からオブジェクトを受け取り、関連情報の(音声および/または視覚による)出力をユーザに提供する。上述のように、キーワードまたはフレーズが音声認識理解モジュール14によって識別され、その相関的要素としてのオブジェクトを提供する。データレンダリングモジュール16は、データベースインターフェース606を使用してデータベース18からデータを取り出すか、かつ/または抽出するために、音声認識理解モジュール14から受け取るオブジェクトを解釈する。データベースインターフェース606は、データベース18に記憶されたデータの構造またはスキーマに関する情報を含む。データベースインターフェース606は、例えばローカルコンピュータ、またはワイドエリアネットワーク内に位置するウェブサーバなどの各種の異なるソースからのデータにアクセスすることが可能な汎用モジュールであってよいことに留意されたい。関連情報を抽出するために、データレンダリングモジュール16は、音声認識理解モジュール14から受け取ったオブジェクトを、データベース18の記憶情報に対応するタグまたは識別子に関連付ける。
実施形態によっては、データベース18に記憶されたデータが、データベース18の情報のタイプまたは情報の構造に対応する各種のタグまたは識別子をすでに含んでいる。他の実施形態では、テキストアナライザ/ノーマライザ604を使用してタグを生成するか、ないしはデータ中の関連情報を識別することができる。ユーザに対して関連情報をレンダリングする前に、データの追加的な処理を行うことができる。例えば、コマンドオペレータ602を使用して、受け取ったオブジェクトに基づき、データベース18から得る各種のデータの組み合わせを処理することができる。
ユーザからの要求に従って関連情報が処理されると、データが応答ジェネレータ607に送られる。応答ジェネレータ607は、ユーザから提供された入力に対する適切な応答を展開することができる。応答ジェネレータ607は、次いで、オーディオインターフェース608および/またはビジュアルインターフェース610にデータを送信し、それがユーザに対してレンダリングされる。オーディオインターフェース608中のテキスト音声変換モジュール612は、データを音声でレンダリングするために使用することができる。
図9に、クエリを通じて選択的にユーザに対してレンダリングすることができるデータベース18のテーブル650を概略的に示す。テーブル650は、2002年の各四半期終了時の各種企業の株の終値を示している。テーブル650は、行652に記憶された企業名、2002年の各四半期の列654、および列と行とに対応する株価656を含む。テーブル650に関連付けられたタグは、列と行とに対応する。テーブル650中のデータをレンダリングするために、クエリオブジェクト660およびナビゲーションオブジェクト662が言語モデル310によって定義される。
テーブル650のデータを選択的にレンダリングするために、ユーザは、クエリオブジェクト660および/またはナビゲーションオブジェクト662を含むクエリを提供する。クエリを認識理解モジュール14によって解釈して、関連するクエリおよびナビゲーションオブジェクトを識別する。次いでオブジェクトを、列および行に対応するタグに関連付ける。
クエリオブジェクト660を使用して、テーブル650の特定セルの情報をレンダリングすることができる。例えば、音声クエリが「第2四半期のマイクロソフトの株の終値はいくらだったか」であるとする。この場合、音声理解モジュール14は、クエリオブジェクト「マイクロソフト」および「第2四半期」をデータレンダリングモジュール16に提供する。データレンダリングモジュール16は、それらのオブジェクトを使用して、それらのオブジェクトをデータベース18のタグに関連付けて、レンダリングすべき該当するセル(テーブル650の網かけしたセル)を判断する。この場合、「マイクロソフト」は、オブジェクト<company name>に関連する情報を含むクエリオブジェクトであり、「第2四半期」は、オブジェクト<quarter>に関連する情報を含むクエリオブジェクトである。
「マイクロソフト」は、「MSFT」と示す行に対応するタグに関連付けられ、「第2四半期」は、「Q2」と示す列に対応するタグに関連付けられる。オブジェクトを該当するタグに関連付けると、株価「54.12」が応答ジェネレータ607に提供される。この関連する情報を使用して応答を生成し、オーディオインターフェース608および/またはビジュアルインターフェース610を使用してユーザに対してレンダリングすることができる。例えば、応答は「第2四半期のマイクロソフト株の終値は54ドル12セントでした」等となる。
この例では、応答ジェネレータ607は、値「54.12」を受け取り、取り出したデータをレンダリングするために、記憶されたコンテクストと組み合わせてその値を使用する。この例では、記憶されたコンテクストは、「<quarter>の<company name>の終値の株価は<result>でした」であり、<quarter>と<result>とは正規化も行われている。取り出したデータをレンダリングするために使用するコンテクストは、必要に応じて、個々にそのデータについてのタグまたは識別子に関連付けるか、かつ/またはオブジェクトの相関的要素として関連付けることができる。視覚的な出力が提供される場合、応答ジェネレータ607は、取り出されたデータを視覚的に表示する方式についての指示を提供することができる。
また、クエリオブジェクト660は、一行または一列全体をレンダリングするオブジェクトを含むことができる。例えば、ユーザが「2002年の全四半期のマイクロソフトの株価の終値は?」と尋ねるとする。この例では、データレンダリングモジュール16は、2002年のマイクロソフトの株価の各値をユーザに対してレンダリングすることになる。
ユーザがテーブル650中のある位置との関係でテーブル650をナビゲートするために、ナビゲーションオブジェクト662を使用することができる。例えば、ユーザが、第2四半期のマイクロソフトの株の終値を尋ねた後に「次の四半期のマイクロソフトの株の終値はいくらか」と尋ねるとする。この場合、音声認識理解モジュール14は、オブジェクト「マイクロソフト」および「次の四半期」を識別する。これらのオブジェクトは、行「マイクロソフト」のタグと、次の列のタグ、例えば列「Q3」に関連付けられる。その結果、「マイクロソフト」の行の次の四半期のデータがレンダリングされる。
本発明を実施するには各種の音声アプリケーションプログラムインターフェースを使用することが可能である。そのようなインターフェースの1つは、例えばワシントン州レドモンドのマイクロソフト社が開発したSAPIである。また、本発明は、音声アプリケーション言語タグ(SALT)などのマークアップ言語拡張を使用して実施することができる。SALTは、例えばパーソナルコンピュータ、電話機、タブレットPC、および無線デバイスから、情報、アプリケーション、およびウェブサービスにアクセスすることを可能にする開発標準である。SALTは、HTML、XHTML、およびXMLなどの既存のマークアップ言語を拡張する。SALT1.0の仕様は、オンラインで得ることができる(非特許文献1参照)。SALTは、例えば認識-サーバ204からユーザの入力に基づく意味情報を提供することができ、そのような情報が、データレンダリングモジュール16に提供されるオブジェクトを形成することに留意されたい。下記でさらに述べるように、SALTの拡張または同様の拡張を使用することにより、データを選択的にレンダリングするイベント駆動型のユーザ対話のサポートが得られる。
図10A〜10Cに、上述のテーブル650のデータをレンダリングするためのSALTを使用した例示的なXMLコードを示す。図10Aに示すように、このコードは、ヘッダ部分670、データ部分672、および入力部分674を含む。ヘッダ部分670は、ウェブページまたはアプリケーションの要素を初期化し、確立するための各種の情報を含む。データ部分672は、各種のタグを用いてテーブル650のデータを表す。例えば、データ部分672は、行を表す<company>のタグ676、<name>のタグ677、<Q2>のタグ678を含み、<name>、<Q1><Q2>などは列を表す。図ではデータ部分672はレンダリングされる情報を含んでいるが、データ部分672は、例えばユニフォームリソースロケータ(URL)を使用するなどして、その情報がある他の場所へのリンクを含んでもよい。入力部分674は、ユーザから予想される各種の入力を定義する。
図10Bに、テーブル650のデータをレンダリングするコードの続きを示す。図10Bでは、各種の音声アプリケーションタグがタグ「SALT」と共に示されている。例えば、それらのタグには、「listen」タグ680、「grammar」タグ682、および「prompt」タグ684および686が含まれる。「listen」タグ680は音声入力に使用される。listenタグは、音声レコグナイザを構成し、認識を実行し、音声入力イベントを処理する。grammarタグ682は、認識で使用される文法を指定するために使用される。このようにして、grammar682は言語モデルを識別する。この例で、文法の規則部分688は、テーブル650の各種の企業名について定義され、規則部分690は、テーブル650の各四半期について定義されている。promptタグ684および686は、システム出力、すなわち上述のコンテクストを指定するために使用される。promptタグは、単純なテキスト、音声出力マークアップ、可変値、オーディオファイルへのリンク、あるいはそれらの組み合わせであってよい。下記で述べるように、取り出したデータをフォーマットするために関数および/またはスクリプトメソッドも使用することができる。prompt684は、ユーザの要求に基づく応答を生成し、図8の応答ジェネレータ607として機能する。prompt686は、ユーザにクエリを入力するように要求する。
図10Cは図10Bからのコードの続きであり、ユーザの音声クエリに基づいて関連情報をレンダリングするスクリプト692を含む。スクリプト692は、レンダリングすべき関連するセルを識別し、識別されたオブジェクトと、そのオブジェクトとデータ部分672のデータに対応するタグとの関連付けに基づいて、レンダリングのためにprompt684を呼び出す。この例は、イベンティングのサポートと埋め込みスクリプトのホストも例示しており、オブジェクトの認識と識別とが起動されると、スクリプト部分692で関数が呼び出されるか、実行されて、データを選択的にレンダリングする。
データレンダリングモジュール16は、コンピュータとユーザとの間のダイアログを作成する際にも特に有用である。ダイアログは、ユーザがデータベースに記憶された情報の一部を要求により取り出したいシナリオで特に有用である。そのようなシナリオの1つは、道案内のレンダリングである。図11に、運転の道順指示の例を含むテーブル700を示す。テーブル700は、複数の行702と複数の列704とに構成される。各行702は、運転の道順における方向転換を表し、各列704は、それぞれの方向転換についての詳細な情報を表す。符号706に示す追加的な情報もテーブル700に関連付けることができる。追加的情報706は、1回の移動についての合計値として示しているが、他の情報または他の情報へのリンクを含むことができる。一実施形態では、銀行や飲食店などの近隣の商施設に関連する情報が提供される。複数のクエリオブジェクト708および複数のナビゲーションオブジェクト710もテーブル700に関連付けられる。
ユーザに対して道案内をレンダリングする際、データレンダリングモジュール16は、デフォルトで最初の行の情報(方向転換)をレンダリングすることができる。データレンダリングモジュール16は、ユーザに対して最初の方向転換についてのすべてをレンダリングするようにプログラムしても、一部分をレンダリングするようにプログラムしてもよい。例えば、最初の行の指示にある情報を与えられて、応答ジェネレータ607は、ユーザに対して「Concord通りで左折して0.8km(0.5マイル)進んでください」と音声でレンダリングすることができる。それに対し、ユーザは、「目印にする案内標識は何?」など、その方向転換についてさらなる情報を要求する可能性がある。あるいは、ユーザは、方向転換についての一部分を繰り返すように要求することもできる。例えば、ユーザは「どの方向に曲がるのか?」と尋ねる。この場合、道案内のオブジェクトは、現在の方向、すなわち「左」についてのタグに関連付けられる。データレンダリングモジュール16は、テーブル700から関連する情報を取り出し、「左折してください」などの適切な応答をレンダリングする。ここで、「左」は最初の行の最初の列から取得されたものである。ユーザが次の方向転換について知りたい時、ユーザは、「次の方向転換は?」などのクエリを提供することができる。
ナビゲーションオブジェクト710を使用して、データレンダリングモジュール16は、現在の位置に相対的な方向転換についての関連情報をレンダリングすることができる。例えばユーザが「次に方向転換する通りの名前は?」と尋ねる。ナビゲーションオブジェクト「次」は、テーブル700における現在の位置を考慮して、次の方向転換(すなわち行)についてのタグに関連付けられ、クエリオブジェクト「通りの名前」が該当する列に関連付けられ、関連情報がレンダリングされる。
任意の時に、ユーザは、適切なクエリを使用してテーブル700の任意の部分にアクセスすることができ、そのクエリから対応するオブジェクトが提供される。また、<total>オブジェクトに関連付けられた該当するクエリを行うと、全距離とおよその移動時間706にアクセスすることもできる。あるいは、クエリは、現在の場所とユーザからの入力とに基づく新しい道案内のセットを要求することもできる。例えば、ユーザが「ここから一番近いメキシコ料理店までの道順を教えてほしい」と言うとする。この入力が解釈されて、現在の場所と、最も近いメキシコ料理店の住所を提供するデータとに基づいて、新しい道案内のセットを生成する。したがって、道案内に関連付けられた言語モデルを拡張して、この情報に基づいて各種のクエリ、ナビゲーション、またはコマンドのオブジェクトを認識し、必要であればコード、例えばリモートの情報にアクセスために使用されるリモートデータベースに含まれる新しいデータを取得するスクリプトを実行するようにすることができる。このシステムは、新しいデータを選択的にレンダリングするために新しい言語モデルを入手することもできる。一実施形態では、例えばマークアップページまたは他のコードからレンダリングされていた1つ前のデータ(すなわちテーブル700)を、現在の位置を記録して保存することができ、新しい情報のレンダリングが完了すると、システムは、その現在の位置から1つ前の情報(すなわちテーブル700)のレンダリングに戻ることができる。
データレンダリングモジュール16は、特定のコマンドを実行するためにも使用することができる。図12に、テーブル750および752としてのデータを概略的に示し、これらのテーブルはそれぞれ2001年と2002年との製品の売上データを含んでいる。ユーザは、上述のように個々のセルを照会し、テーブル中をナビゲートするのに加えて、記述された情報をレンダリングするためにテーブル750および752のデータを処理するコマンドを使用して情報を要求することができる。テーブル750および752からのデータをレンダリングする際には、クエリオブジェクト760、ナビゲーションオブジェクト762、およびコマンドオブジェクト764がすべて使用される。ユーザは、コマンドオブジェクト764を使用して、テーブル750および752の情報に基づいて関連情報を選択的にレンダリングし、その情報に基づくコマンドを実行することができる。
例えば、<compare>オブジェクトを使用する場合、ユーザは「2001年の第1四半期と2002年の第1四半期との部品1001の売上データが欲しい」と要求する。このクエリが行われると、データレンダリングモジュール16は、追加的なコンテクストを使用するか、または使用せずに、値「$3048.26」と「$4125.06」とを選択的にレンダリングする。一実施形態では、これらの値は、ユーザが容易に比較できるように横並びの関係で表示することができ、また音声でレンダリングすることもできる。
コマンドオペレータ602は、コマンドオブジェクト764を使用して、ユーザからの要求に基づいてデータを計算することもできる。例えば、ユーザが「2002年の第1四半期と2002年の第2四半期との部品1001の売上を足してほしい」と要求する。このコマンドは<add>オブジェクトを用い、このオブジェクトもユーザの入力から識別される。この場合、データベースインターフェース606は、2002年の関連する四半期における部品1001についての情報の値を抽出し、その関連データをコマンドオペレータ602に送る。次いで、コマンドオペレータ602は、それらの各値を足し、その結果を応答ジェネレータ607に送り、応答ジェネレータ607は、オーディオインターフェース608および/またはビジュアルインターフェース610を使用してそのデータをレンダリングする。コマンドオペレータ602は、例えば1行全体分の情報など3つ以上の値を足すこともできる。特定の応用例に応じて他のコマンドも使用することができる。例えば<subtract>および<percent>は、2つ以上のデータ値に基づく値をレンダリングすることができる。
データレンダリングモジュール16は、テキストの段落などの非構造化(unstructured)データを選択的にレンダリングすることもでき、そのようなデータはデータベース18中では本来は音声ファイルか、または適切な変換を行った手書き入力の形をとることができる。図13に、株式市場の概要に関連するテキストの段落800を示す。ユーザからの音声入力に基づいて段落800を選択的にレンダリングするために、クエリオブジェクト802およびナビゲーションオブジェクト804が定義される。段落800を選択的にレンダリングするには、各種のタグが段落800中の関連情報に対応していなければならない。一実施形態では、テキストノーマライザ/アナライザ604を使用して段落800の関連部分を識別し、その関連部分に基づいて各種のタグを生成する。例えば、テキストノーマライザ/アナライザ604は、文(上述のテーブルの行に類似する)、数、企業名などを識別することができる。処理は、データの一部分についての意味情報を確定することを含むことができる。
段落800を前処理して関連するタグを識別すると、段落800をレンダリングすることができる。初めに、データレンダリングモジュール16は、テキストの最初の文のレンダリングを開始する。ユーザが沈黙するか、または「next」のナビゲーションオブジェクトを認識すると、データレンダリングモジュール16は、次の文のレンダリングを開始する。
ユーザは、段落800の特定部分のレンダリングを要求することもできる。例えば、ユーザは、「最後の株価指数はいくつだったか?」等のクエリを使用して、最後の株価指数を繰り返すように要求することができる。<stock index>オブジェクトが音声認識理解モジュール14によって識別されると、データレンダリングモジュール16は、そのオブジェクトを段落800中のタグに関連付ける。例えば、段落800の最初の文がレンダリングされた後に、データレンダリングモジュール16は、株価指数オブジェクトを、「スタンダード&プアーズ500種指数」に対応するタグに関連付ける。このように、情報のセグメント(すなわち文)をレンダリングすると、ユーザからの音声入力に基づいてそのセグメントの一部をレンダリングすることができる。所望の情報にアクセスするための対応するオブジェクトを提供する適切なクエリを使用して、段落の任意の部分を取り出せることに留意されたい。非構造化データを処理し、ユーザがクエリ、ナビゲーション、およびコマンドを提供することを可能にするこの技術は、新聞や雑誌全体、あるいはその他の情報源をレンダリングするように容易に拡張することができる。このような技術には、情報をレンダリングするために定義された階層構造(例えば新聞のスポーツ欄、ビジネス欄、首都圏欄など)を補うことができる。それでもなお、この技術は、ユーザから提供されるオブジェクトを確定し、そのオブジェクトを使用して選択的に情報をレンダリングすることを含む。
図14A〜14Dに、段落800をレンダリングするためのSALTを用いた例示的なXMLコードを示す。図14Aを参照すると、ヘッダ部分810とデータ部分812とを示している。ヘッダ部分810は、ドキュメントを初期化するデータを含む。データ部分812は、テキストノーマライザ/アナライザ604によって段落が分析され、正規化された後の段落800を示す。図に示すように、<sentence>、<entity name=”stock index”>および<entity name=”number”>などの各種のタグが、段落800の様々な部分に関連付けられている。
このコードは図14Bに続き、同図には各種の音声アプリケーション言語のタグを示す。例えば、このコードは、listenタグ814、grammarタグ816、およびpromptタグ818および820を含む。listenタグ814は、音声レコグナイザを初期化し、ユーザの音声入力中のオブジェクトの識別を開始する。grammarタグ816は言語モデルを初期化し、この例では言語モデルはナビゲーション規則820とクエリ規則822を定義する。
図14Cに図14Bのコードの続きを示す。スクリプトタグ826は、コードのスクリプト部分の始まりを識別する。このスクリプト部分は、データレンダリングモジュール16を作動させるための各種関数を含む。コマンド実行関数828は、ナビゲーションまたはクエリコマンドを認識し、認識されたオブジェクトに基づいて必要な関数を呼び出す。初期化関数830は、段落800を最初から再生し始める。move back関数832およびmove next関数834は、それぞれ1センテンス前に移動するため、および1センテンス先に移動するために提供される。図14Dで、項目抽出関数836は、ユーザの音声入力に基づいて段落800から関連情報を抽出する。display838は、例えば画面に段落800を表示する。
先に指摘したように、データレンダリングモジュール16は、他の形態の非構造化テキストのレンダリングにも使用することができる。例えば図15に音声メールメッセージ840を示す。オブジェクト842を使用してこのメッセージの一部分をレンダリングする。音声メールメッセージ840の一部分をレンダリングするために、データベースインターフェース606(図8)は、音声メールメッセージ840をテキストに変化する音声レコグナイザを含む。メッセージがテキストに変換されると、テキストノーマライザ/アナライザ604を使用して、音声メールメッセージの関連部分を識別する。例えば、テキストノーマライザ/アナライザ604は、個人、メッセージの主題、および/または電話番号などの数を識別することができる。段落800について上述した識別と同様のこの識別に基づいてタグが生成される。音声メールメッセージまたは音声メールメッセージの一部がレンダリングされると、ユーザは、関連部分を繰り返すように要求することができる。例えば、図15の音声メールメッセージでは、ユーザは、電話番号またはメッセージの主題を繰り返すことを要求することができる。オブジェクト842を使用して、データレンダリングモジュール16は、オブジェクトを音声メールメッセージ840中のデータに対応するタグに関連付ける。次いで要求されるデータをレンダリングする。
さらなる実施形態では、複数の音声メールメッセージを処理して、ナビゲーションオブジェクトを使用して各メッセージへの選択的なアクセスを提供することができる。メッセージ中の情報(すなわち電話番号)を使用する、あるいは電話番号を持っている個人のリストなどの他の情報にアクセスすることにより、コマンドオブジェクトを使用して折り返しの電話を指示すること等ができる。別の例として、図11の運転の道順指示の例に関して、近隣の商施設に関連する情報には、リモートの情報ストアおよび/またはリモートアプリケーションからもアクセスすることができる。
本発明について特定の実施形態を参照して説明したが、当業者には、本発明の精神および範囲から逸脱せずに形態と詳細に変更を加えてよいことが認識されよう。
データ提示システムのブロック図である。 コンピューティングデバイス動作環境の平面図である。 図2のコンピューティングデバイスのブロック図である。 電話機の平面図である。 汎用コンピュータのブロック図である。 クライアント/サーバシステムのアーキテクチャのブロック図である。 音声認識理解モジュールのブロック図である。 データレンダリングモジュールのブロック図である。 株価のテーブルとテーブル中のデータをレンダリングするためのオブジェクトとの図である。 図9のテーブルをレンダリングするのに使用される例示的コードの図である。 図9のテーブルをレンダリングするのに使用される例示的コードの図である。 図9のテーブルをレンダリングするのに使用される例示的コードの図である。 運転の道順指示のテーブルとテーブル中のデータをレンダリングするためのオブジェクトとの図である。 売上データのテーブルとテーブル中のデータをレンダリングするためのオブジェクトとの図である。 テキストの一段落とそのテキスト段落中のデータをレンダリングするためのオブジェクトとの図である。 図13の段落中のデータをレンダリングするために使用される例示的コードの図である。 図13の段落中のデータをレンダリングするために使用される例示的コードの図である。 図13の段落中のデータをレンダリングするために使用される例示的コードの図である。 図13の段落中のデータをレンダリングするために使用される例示的コードの図である。 音声メールメッセージと音声メールメッセージ中のデータをレンダリングするためのオブジェクトとの図である。
符号の説明
10 データ提示システム
12 音声インターフェースモジュール
14 音声認識理解モジュール
16 データレンダリングモジュール
18 データベース
30 データ管理モバイルデバイス
32 筐体
29 マイクロフォン
30 モバイルデバイス
33 スタイラス
34、82 ディスプレイ
35 ボタン
37、59 A/D変換器
43 スピーカ
50 CPU
52 トランシーバ
54、152 RAM
58、151 ROM
60 通信インターフェース
80 電話機
120、194 コンピュータ
84 キーパッド
100 クライアント
140 処理装置
141 システムバス
150 システムメモリ
153 BIOS
154、164 オペレーティングシステム
155、165、195 アプリケーションプログラム
156、166 プログラムモジュール
157、167 プログラムデータ
160、170 インターフェース
161 ハードディスクドライブ
171 磁気ディスクドライブ
172 磁気ディスク
175 光ディスクドライブ
176 光ディスク
180 ユーザ入力インターフェース
181 ポインティングデバイス
182 キーボード
183 マイクロフォン
184 モニタ
185 ビデオインターフェース
186 プリンタ
187 スピーカ
188 出力周辺インターフェース
190 アダプタ
191 LAN
192 モデム
193 WAN
202 ウェブサーバ
205 ネットワーク
204 認識サーバ
208 電話網
210 ゲートウェイ
211 レコグナイザ
212 電話音声ブラウザ
214 メディアサーバ
216 音声ブラウザ
220、310 言語モデル
222 テキスト/音声変換モジュール
306 認識エンジン
312 スタイルコントロール
602 コマンドオペレータモジュール
604 テキストアナライザ/ノーマライザモジュール
606 データベースインターフェースモジュール
607 応答ジェネレータモジュール
608 オーディオインターフェースモジュール
610 視覚インターフェースモジュール
612 テキスト音声変換モジュール

Claims (25)

  1. クエリに基づいてユーザに情報をレンダリングする方法であって、
    前記クエリから第1のオブジェクトおよび第2のオブジェクトを識別すること、
    前記第1のオブジェクトおよび前記第2のオブジェクトを、レンダリングされる記憶された情報の一部に対応するタグに関連付けること、および
    前記記憶された情報の一部を選択的にレンダリングすること
    を含むことを特徴とする方法。
  2. 前記第1のオブジェクトおよび前記第2のオブジェクトの少なくとも1つは、前記記憶された情報に対応するタグに関連する情報を含むクエリオブジェクトであることを特徴とする請求項1に記載の方法。
  3. 前記第1のオブジェクトおよび前記第2のオブジェクトの少なくとも1つは、前記記憶された情報中をナビゲートするための情報を含むナビゲーションオブジェクトであることを特徴とする請求項1に記載の方法。
  4. 前記第1のオブジェクトおよび前記第2のオブジェクトの少なくとも1つは、前記記憶された情報に選択されたコマンドを実行するための情報を含むコマンドオブジェクトであることを特徴とする請求項1に記載の方法。
  5. 前記識別することは、言語モデルを使用して前記第1のオブジェクトおよび前記第2のオブジェクトを識別することを含むことを特徴とする請求項1乃至4のいずれかに記載の方法。
  6. 前記識別することはさらに、スタイルコントロールを使用して、前記第1のオブジェクトおよび前記第2のオブジェクトについての代替フレーズを認識することを含むことを特徴とする請求項5に記載の方法。
  7. 前記記憶された情報は、多次元的な構造に構成され、前記第1のオブジェクトおよび前記第2のオブジェクトの少なくとも1つは、前記多次元的構造の少なくとも1つの次元に対応することを特徴とする請求項1乃至6のいずれかに記載の方法。
  8. 前記多次元的構造は、複数の行および複数の列を含むテーブルであり、前記第1のオブジェクトは、特定の行に関連する情報を含み、前記第2のオブジェクトは、特定の列に関連する情報を含むことを特徴とする請求項7に記載の方法。
  9. 前記記憶された情報の一部を選択的にレンダリングすることは、前記一部をレンダリングするスクリプトを実行することを含むことを特徴とする請求項1乃至8のいずれかに記載の方法。
  10. 音声クエリに基づいてユーザに情報をレンダリングする方法であって、
    情報のセグメントをユーザにレンダリングすることであって、前記セグメントは、前記セグメントの一部に対応するタグを含むこと、
    前記クエリから少なくとも1つのオブジェクトを識別すること、
    前記少なくとも1つのオブジェクトを、前記セグメントの一部に対応するタグに関連付けること、および
    前記タグに対応する前記セグメントの一部をレンダリングすること
    を含むことを特徴とする方法。
  11. 前記セグメントを分析して、前記セグメント中の関連情報のタグを識別することをさらに含むことを特徴とする請求項10に記載の方法。
  12. 前記情報のセグメントは文であり、前記タグは、前記文中のデータに対応することを特徴とする請求項10または11に記載の方法。
  13. 前記情報のセグメントは行であり、前記タグは前記行内の列に対応することを特徴とする請求項10乃至12のいずれかに記載の方法。
  14. 前記記憶された情報の一部を選択的にレンダリングすることは、前記第1のオブジェクトおよび前記第2のオブジェクトの少なくとも1つに基づくことを特徴とする請求項1乃至13のいずれかに記載の方法。
  15. 前記記憶された情報の一部を選択的にレンダリングすることは、前記第1のオブジェクトおよび前記第2のオブジェクトに基づいて、記憶されたコンテクストと組み合わせて前記記憶された情報の一部をレンダリングすることを含むことを特徴とする請求項1乃至14のいずれかに記載の方法。
  16. 前記一部を選択的にレンダリングすることは、スクリプトを実行することを含むことを特徴とする請求項10乃至15のいずれかに記載の方法。
  17. ユーザに情報を提供する方法であって、
    テキストを処理して、前記テキスト中の情報の一部に対応する識別子を提供すること、
    ユーザ入力中のオブジェクトを識別するステップであって、前記オブジェクトは、情報の識別子に関連すること、および
    前記オブジェクトおよび前記識別子に基づいて、前記テキスト中の前記情報の一部を選択的にレンダリングすること
    を含むことを特徴とする方法。
  18. ユーザに情報を提供する方法であって、
    ユーザ入力から、第1のオブジェクト、第2のオブジェクト、およびコマンドオブジェクトを識別すること、
    前記第1のオブジェクトおよび前記第2のオブジェクトを、記憶された情報の第1の部分と記憶された情報の第2の部分とに対応するタグに関連付けること、および
    前記コマンドオブジェクトに基づいて前記第1の部分および前記第2の部分を用いて演算を行って情報をレンダリングすること
    を含むことを特徴とする方法。
  19. コンピューティングデバイス可読の命令を含むコンピュータ可読媒体であって、前記命令は、実施されると、前記コンピューティングデバイスに、
    言語モデルを確立して、ユーザ入力から第1のオブジェクトおよび第2のオブジェクトを識別するステップと、
    タグを処理して、前記第1のオブジェクトおよび前記第2のオブジェクトを記憶された情報の一部に関連付けるステップと、
    前記記憶された情報の一部を選択的にレンダリングするステップと
    を実行することにより情報を処理させることを特徴とするコンピュータ可読媒体。
  20. 前記ステップは、マークアップ言語として実施されることを特徴とする請求項19に記載のコンピュータ可読媒体。
  21. 前記タグおよび前記記憶された情報を含むデータ構造をさらに含むことを特徴とする請求項19または20に記載のコンピュータ可読媒体。
  22. コンピューティングデバイス可読の命令を含むコンピュータ可読媒体であって、前記命令は、実施されると、前記コンピューティングデバイスに、
    テキストを処理して、前記テキスト中の情報の一部の識別子を提供するステップと、
    言語モデルを確立して、前記一部に対応するオブジェクトを識別するステップと、
    タグを処理して、前記オブジェクトを前記一部に関連付けるステップと、
    前記記憶された情報の一部を選択的にレンダリングするステップと
    を実行することにより情報を処理させることを特徴とするコンピュータ可読媒体。
  23. 前記ステップはマークアップ言語として実施されることを特徴とする請求項22に記載のコンピュータ可読媒体。
  24. 前記タグおよび前記記憶された情報を含むデータ構造をさらに含むことを特徴とする請求項22または23に記載のコンピュータ可読媒体。
  25. 請求項1乃至18のいずれかに記載の方法を実行することを特徴とするコンピュータ可読媒体。
JP2004063224A 2003-03-05 2004-03-05 ユーザ入力に基づくデータの提示 Pending JP2004310748A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/382,121 US7548858B2 (en) 2003-03-05 2003-03-05 System and method for selective audible rendering of data to a user based on user input

Publications (2)

Publication Number Publication Date
JP2004310748A true JP2004310748A (ja) 2004-11-04
JP2004310748A5 JP2004310748A5 (ja) 2007-04-19

Family

ID=32824778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004063224A Pending JP2004310748A (ja) 2003-03-05 2004-03-05 ユーザ入力に基づくデータの提示

Country Status (25)

Country Link
US (1) US7548858B2 (ja)
EP (1) EP1455268A3 (ja)
JP (1) JP2004310748A (ja)
KR (1) KR101004501B1 (ja)
CN (2) CN1702612A (ja)
AR (1) AR043723A1 (ja)
AU (1) AU2004200684A1 (ja)
BR (1) BRPI0400702A (ja)
CA (1) CA2459030A1 (ja)
CO (1) CO5560094A1 (ja)
EC (1) ECSP045007A (ja)
GT (1) GT200400036A (ja)
HR (1) HRP20040168A2 (ja)
IL (1) IL160462A0 (ja)
MX (1) MXPA04002158A (ja)
NI (1) NI200400007A (ja)
NO (1) NO20040923L (ja)
NZ (1) NZ531247A (ja)
PA (1) PA8597001A1 (ja)
PE (1) PE20041075A1 (ja)
RU (1) RU2360281C2 (ja)
SG (1) SG135951A1 (ja)
TW (1) TW200424951A (ja)
UY (1) UY28220A1 (ja)
ZA (1) ZA200401490B (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516190B2 (en) * 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US7412038B2 (en) * 2004-04-28 2008-08-12 International Business Machines Corporation Telecommunications voice server leveraging application web-server capabilities
US20060095296A1 (en) * 2004-11-02 2006-05-04 Lawrence Erdman System and method for improved data retrieval in a clinical reporting environment
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US7958131B2 (en) 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US8601383B2 (en) 2005-09-09 2013-12-03 Microsoft Corporation User interface for creating a spreadsheet data summary table
US8095866B2 (en) 2005-09-09 2012-01-10 Microsoft Corporation Filtering user interface for a data summary table
US8266220B2 (en) 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US7624099B2 (en) * 2005-10-13 2009-11-24 Microsoft Corporation Client-server word-breaking framework
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
CN100388181C (zh) * 2005-11-30 2008-05-14 宏碁股份有限公司 手持装置的单手操作系统及其方法
US7996228B2 (en) * 2005-12-22 2011-08-09 Microsoft Corporation Voice initiated network operations
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
DE102006006305A1 (de) * 2006-02-10 2007-08-16 Siemens Ag Verfahren zur Aufbereitung von Informationen für ein Sprachdialogsystem
US9135339B2 (en) 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US7770100B2 (en) 2006-02-27 2010-08-03 Microsoft Corporation Dynamic thresholds for conditional formats
US8526580B2 (en) * 2006-08-31 2013-09-03 Broadcom Corporation System and method for voicemail organization
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US8000969B2 (en) * 2006-12-19 2011-08-16 Nuance Communications, Inc. Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
AR072949A1 (es) 2008-04-04 2010-10-06 Colgate Palmolive Co Analisis de sustratos que tienen agentes depositados sobre los mismos
US20100070863A1 (en) * 2008-09-16 2010-03-18 International Business Machines Corporation method for reading a screen
US8229971B2 (en) 2008-09-29 2012-07-24 Efrem Meretab System and method for dynamically configuring content-driven relationships among data elements
CN101587492B (zh) * 2009-05-11 2011-05-11 金蝶软件(中国)有限公司 定位处理对象的方法和系统
US9626339B2 (en) 2009-07-20 2017-04-18 Mcap Research Llc User interface with navigation controls for the display or concealment of adjacent content
US20110150191A1 (en) * 2009-12-18 2011-06-23 Mitel Networks Corporation Method and apparatus for call handling
US9564120B2 (en) * 2010-05-14 2017-02-07 General Motors Llc Speech adaptation in speech synthesis
KR101762611B1 (ko) * 2010-12-10 2017-07-28 삼성전자 주식회사 터치스크린을 구비한 휴대 단말기의 화면 표시 방법 및 장치
US10984337B2 (en) 2012-02-29 2021-04-20 Microsoft Technology Licensing, Llc Context-based search query formation
KR20140004515A (ko) 2012-07-03 2014-01-13 삼성전자주식회사 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법
KR101743514B1 (ko) * 2012-07-12 2017-06-07 삼성전자주식회사 외부 입력 제어 방법 및 이를 적용한 방송 수신 장치
US9288421B2 (en) 2012-07-12 2016-03-15 Samsung Electronics Co., Ltd. Method for controlling external input and broadcast receiving apparatus
US9195649B2 (en) * 2012-12-21 2015-11-24 The Nielsen Company (Us), Llc Audio processing techniques for semantic audio recognition and report generation
US10579682B1 (en) 2013-09-17 2020-03-03 Google Llc Machine-learned disambiguation of user action data
US10083002B2 (en) * 2014-12-18 2018-09-25 International Business Machines Corporation Using voice-based web navigation to conserve cellular data
US10019485B2 (en) * 2015-02-23 2018-07-10 Google Llc Search query based form populator
US10170106B2 (en) * 2015-10-21 2019-01-01 Google Llc Parameter collection and automatic dialog generation in dialog systems
EP3479251A4 (en) 2016-12-30 2019-06-26 Beijing Didi Infinity Technology and Development Co., Ltd. SYSTEMS AND METHODS FOR INTELLIGENT INFORMATION MANAGEMENT
US11264025B2 (en) * 2019-07-23 2022-03-01 Cdw Llc Automated graphical user interface control methods and systems using voice commands
CN113470649A (zh) * 2021-08-18 2021-10-01 三星电子(中国)研发中心 语音交互方法及装置

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2846374B2 (ja) 1989-11-28 1999-01-13 日本電信電話株式会社 情報案内・提供方法
US5020107A (en) 1989-12-04 1991-05-28 Motorola, Inc. Limited vocabulary speech recognition system
EP0645757B1 (en) 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5748841A (en) 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
US5666438A (en) 1994-07-29 1997-09-09 Apple Computer, Inc. Method and apparatus for recognizing handwriting of different users of a pen-based computer system
US6604103B1 (en) * 1994-09-02 2003-08-05 Mark A. Wolfe System and method for information retrieval employing a preloading procedure
US5715445A (en) 1994-09-02 1998-02-03 Wolfe; Mark A. Document retrieval system employing a preloading procedure
US5715450A (en) 1995-09-27 1998-02-03 Siebel Systems, Inc. Method of selecting and presenting data from a database using a query language to a user of a computer system
EP0817002A3 (en) 1996-07-01 2001-02-14 International Business Machines Corporation Speech supported navigation of a pointer in a graphical user interface
JPH1049381A (ja) * 1996-07-04 1998-02-20 Internatl Business Mach Corp <Ibm> 複数のデータ処理要求の処理方法及び処理システム、プログラムの実行方法及びシステム
US5864863A (en) 1996-08-09 1999-01-26 Digital Equipment Corporation Method for parsing, indexing and searching world-wide-web pages
US6018710A (en) * 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US5978799A (en) * 1997-01-30 1999-11-02 Hirsch; G. Scott Search engine including query database, user profile database, information templates and email facility
US6108629A (en) * 1997-04-25 2000-08-22 At&T Corp. Method and apparatus for voice interaction over a network using an information flow controller
CA2216224A1 (en) 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
AU746138B2 (en) 1997-10-21 2002-04-18 British Telecommunications Public Limited Company Information management system
US5991756A (en) 1997-11-03 1999-11-23 Yahoo, Inc. Information retrieval from hierarchical compound documents
US6934687B1 (en) * 1997-11-20 2005-08-23 Ncr Corporation Computer architecture and method for supporting and analyzing electronic commerce over the world wide web for commerce service providers and/or internet service providers
US6366651B1 (en) * 1998-01-21 2002-04-02 Avaya Technology Corp. Communication device having capability to convert between voice and text message
US6505159B1 (en) 1998-03-03 2003-01-07 Microsoft Corporation Apparatus and method for providing speech input to a speech recognition system
US6483899B2 (en) * 1998-06-19 2002-11-19 At&T Corp Voice messaging system
US6292833B1 (en) 1998-07-17 2001-09-18 Openwave Systems Inc. Method and apparatus for providing access control to local services of mobile devices
US6519562B1 (en) 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US6175830B1 (en) 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
US6615172B1 (en) 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
US6886005B2 (en) 2000-02-17 2005-04-26 E-Numerate Solutions, Inc. RDL search engine
US6865528B1 (en) 2000-06-01 2005-03-08 Microsoft Corporation Use of a unified language model
US6876969B2 (en) 2000-08-25 2005-04-05 Fujitsu Limited Document read-out apparatus and method and storage medium
US6999932B1 (en) 2000-10-10 2006-02-14 Intel Corporation Language independent voice-based search system
AUPR082400A0 (en) 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
NZ508695A (en) 2000-12-07 2003-04-29 Compudigm Int Ltd Method and system of searching a database of records
US20020165707A1 (en) * 2001-02-26 2002-11-07 Call Charles G. Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
US6850934B2 (en) * 2001-03-26 2005-02-01 International Business Machines Corporation Adaptive search engine query
JP4225703B2 (ja) * 2001-04-27 2009-02-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報アクセス方法、情報アクセスシステムおよびプログラム
CN1266625C (zh) 2001-05-04 2006-07-26 微软公司 用于web启用的识别的服务器
US7010518B1 (en) * 2001-06-20 2006-03-07 Microstrategy, Inc. System and method for user defined data object hierarchy

Also Published As

Publication number Publication date
AR043723A1 (es) 2005-08-10
KR101004501B1 (ko) 2010-12-31
AU2004200684A1 (en) 2004-09-23
SG135951A1 (en) 2007-10-29
RU2004106570A (ru) 2005-08-10
CN1702612A (zh) 2005-11-30
NZ531247A (en) 2005-08-26
BRPI0400702A (pt) 2004-10-19
HRP20040168A2 (en) 2005-04-30
US20040176954A1 (en) 2004-09-09
KR20040078888A (ko) 2004-09-13
EP1455268A3 (en) 2006-05-17
RU2360281C2 (ru) 2009-06-27
EP1455268A2 (en) 2004-09-08
ECSP045007A (es) 2004-10-26
UY28220A1 (es) 2004-04-30
GT200400036A (es) 2006-04-17
ZA200401490B (en) 2004-08-30
PA8597001A1 (es) 2005-02-04
TW200424951A (en) 2004-11-16
US7548858B2 (en) 2009-06-16
NO20040923L (no) 2004-09-06
CO5560094A1 (es) 2005-09-30
IL160462A0 (en) 2004-07-25
CN101482805A (zh) 2009-07-15
CA2459030A1 (en) 2004-09-05
CN101482805B (zh) 2011-06-08
MXPA04002158A (es) 2005-09-08
NI200400007A (es) 2008-02-28
PE20041075A1 (es) 2005-01-15

Similar Documents

Publication Publication Date Title
US7548858B2 (en) System and method for selective audible rendering of data to a user based on user input
US8380516B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
US9083798B2 (en) Enabling voice selection of user preferences
US7650284B2 (en) Enabling voice click in a multimodal page
US8886521B2 (en) System and method of dictation for a speech recognition command system
US7593854B2 (en) Method and system for collecting user-interest information regarding a picture
EP1485773B1 (en) Voice-controlled user interfaces
US7680816B2 (en) Method, system, and computer program product providing for multimodal content management
TWI464605B (zh) 由電腦實施的方法以及輸入方法編輯器伺服器
US7729919B2 (en) Combining use of a stepwise markup language and an object oriented development tool
US20050010422A1 (en) Speech processing apparatus and method
KR20020011487A (ko) Vxml을 이용한 음성 웹 호스팅 시스템
JP2005128955A (ja) 情報処理方法および記憶媒体、プログラム
JP2001075968A (ja) 情報検索方法及びそれを記録した記録媒体
EP1729284A1 (en) Method and systems for a accessing data by spelling discrimination letters of link names
Poon et al. Browsing the Web from a Speech-Based Interface.
Chandon WebVoice: Speech Access to Traditional Web Content for Blind Users

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070302

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070302

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081121

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091002