JP2005519363A - 同時マルチモーダル通信システムおよび方法 - Google Patents

同時マルチモーダル通信システムおよび方法 Download PDF

Info

Publication number
JP2005519363A
JP2005519363A JP2003571826A JP2003571826A JP2005519363A JP 2005519363 A JP2005519363 A JP 2005519363A JP 2003571826 A JP2003571826 A JP 2003571826A JP 2003571826 A JP2003571826 A JP 2003571826A JP 2005519363 A JP2005519363 A JP 2005519363A
Authority
JP
Japan
Prior art keywords
user agent
multimodal
mode
agent programs
simultaneous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003571826A
Other languages
English (en)
Inventor
ジョンソン、グレッグ
バラスリヤ、セナカ
フェランズ、ジェームズ
ヤンケ、ジェローム
ピアース、レイヌ
クカ、デイビッド
ガラジダラ、ディラニ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of JP2005519363A publication Critical patent/JP2005519363A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Computer And Data Communications (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

マルチモーダル・ネットワーク要素(14)は、1つまたは複数のデバイス(12,16)上の異なるユーザ・エージェント・プログラム(30,34)を通じた同時マルチモーダル通信セッションを容易にする。例えば、スピーチ・エンジンおよびコール/セッション終了を含む音声ゲートウェイ(16)の音声ブラウザ(34)などの音声モードで通信するユーザ・エージェント・プログラムは、モバイル・デバイス(12)上のグラフィカル・ブラウザ(30)などの異なるモードで動作している他のユーザ・エージェント・プログラムと同期する。複数のユーザ・エージェント・プログラム(30,34)は、セッション時にコンテンツ・サーバ(18)に結合されて動作し、同時マルチモーダル対話を行うことができる。

Description

本発明は、一般的に、通信システムおよび方法に関し、より詳細には、マルチモーダル通信システムおよび方法に関する。
ハンドヘルド・デバイス、携帯電話、ラップトップ・コンピュータ、PDA、インターネット家電、非モバイル・デバイス、およびその他の適切なデバイス等の通信デバイスが関与する新しい技術分野に、情報およびサービスにアクセスするためマルチモーダル対話の応用分野がある。通信デバイスに通常存在するのは、ブラウザのような少なくとも1つや、ユーザ・インターフェースとして動作することが可能な他の好適なソフトウェアのようなユーザ・エージェント・プログラムである。ユーザ・エージェント・プログラムは、(ユーザ・エージェント・プログラムを通じてユーザが入力するか、または他のデバイスまたはソフトウェア・アプリケーションからの)フェッチ要求に応答し、フェッチされた情報を受け取り、内部または外部接続を介してコンテンツ・サーバ内をナビゲートし、情報をユーザに提示することができる。ユーザ・エージェント・プログラムは、グラフィカル・ブラウザ、音声ブラウザ、または当業者には理解される他の適切なユーザ・エージェント・プログラムとすることができる。このようなユーザ・エージェント・プログラムとしては、J2MEアプリケーション、Netscape(商標)、Internet Explorer(商標)、javaアプリケーション、WAPブラウザ、Instant
Messaging、マルチメディア・インターフェース、Windows CE(商標)、または他の適切なソフトウェア実装があるが、これらに限定されるわけではない。
マルチモーダル技術を使用することにより、ユーザは、ユーザ・エージェント・プログラムを介して1つのモードで、音声、データ、映像、オーディオ、またはその他の情報などの情報や、電子メール、天気情報、銀行取引、およびニュースまたはその他の情報などのサービスにアクセスし、異なるモードで情報を受信することができる。より具体的には、ユーザは、マイクに向かってフェッチ要求を発するなど、1つまたは複数のモードで情報フェッチ要求をサブミットし、その後、ユーザはフェッチされた情報を、同じモード(つまり、音声)で、または、返された情報を表示画面に目に見える形式で提示するグラフィカル・ブラウザを使用するなど異なるモードで、受信することができる。通信デバイス内では、ユーザ・エージェント・プログラムは、ネットワークに接続されているデバイスまたは他の端末デバイスに存在する標準のWebブラウザまたは他の適切なソフトウェア・プログラムと同様に動作する。
したがって、セッション中に複数のモードで通信することを容易にするために、1つまたは複数のユーザ入力および出力インターフェースをユーザが使用可能であるマルチモーダル通信システムが提案されている。ユーザ・エージェント・プログラムは、異なるデバイス上に配置可能である。例えば、音声ゲートウェイなどのネットワーク要素は、音声ブラウザを含むことができる。例えば、ハンドヘルド・デバイスとしては、WAPブラウザまたは他の適切なテキスト・ベースのユーザ・エージェント・プログラムなどのグラフィカル・ブラウザがある。したがって、マルチモーダル機能を備える場合、ユーザは1つのモードで入力し、異なるモードで戻る情報を受け取ることができる。
例えば、一部の情報を音声モードで入力し、他の情報を触覚インターフェースまたはグラフィカル・インターフェースで入力するなど、ユーザ入力を2つの異なるモードで提供しようとするシステムが提案されている。例えば、提案されているものの1つとして、最初に音声入力し、音声入力が完了した後で短いメッセージを送信することをユーザに要求
するシリアル非同期手法の使用がある。このようなシステム内のユーザは、同じ1つのセッション中にモードを手動で切り換えなければならない場合がある。したがって、そのような提案は面倒なものとなる可能性がある。
他の提案されているシステムは、単一のユーザ・エージェント・プログラムと、マークアップ言語のタグとを既存のHTMLページで使用し、ユーザは、例えば、検索単語を入力する代わりに音声を使ってWebページにナビゲートし、その後、同じHTMLページで、ユーザがテキスト情報を入力することができる。例えば、ユーザは、「city」という単語を発声し、住所を入力することにより、コンテンツ・サーバから視覚的地図情報を取得することができる。しかし、このような提案方法では、通常、1つのデバイス上の同じユーザ・エージェント・プログラムで異なるモードによりマルチモード入力を行う必要がある(同じブラウズを通じて入力する)。したがって、音声およびテキスト情報は、通常、同じHTML形式で入力され、同じユーザ・エージェント・プログラムを通じて処理される。しかし、この提案では、単一のデバイス上で動作している単一のユーザ・エージェント・プログラムを使用する必要がある。
そのため、処理能力および記憶容量が限られているモバイル・デバイスなど、あまり複雑でないデバイスでは、複雑なブラウザを使用するとデバイスのパフォーマンスが低下する可能性がある。また、このようなシステムでは、異なるユーザ・エージェント・プログラムを通じた同時マルチモーダル情報入力を容易にすることができない。さらに、複数のデバイス上で同時マルチモーダル入力を行い、異なるアプリケーションまたは異なるデバイス間に処理を分散させることが望ましい場合がある。
他の提案では、マルチモーダル・ゲートウェイおよびマルチモーダル・プロキシを使用し、マルチモーダル・プロキシでコンテンツをフェッチし、そのコンテンツを通信デバイス内のユーザ・エージェント・プログラム(例えば、ブラウザ)および音声ブラウザ(例えばネットワーク要素内の)に出力し、システム側が1つのデバイスに対し音声とテキスト出力の両方を使用可能であるようにする。しかし、このような手法では、異なるアプリケーションを通じて異なるモードでユーザが情報を同時に入力できるようには思われない。その理由は、この提案もまた、異なるモードのフェッチされた情報を単一のユーザ・エージェント・プログラムまたはブラウザに出力する必要がある単一ユーザ・エージェント手法であると思われるからである。
したがって、同時マルチモーダル通信装置および方法の改良が必要とされている。
本発明を例を使用して説明するが、本発明は類似の参照番号が類似の要素を示す添付の図面に制限されない。
簡単に説明すると、マルチモーダル・ネットワーク要素を使用すると、1つまたは複数のデバイス上の異なるユーザ・エージェント・プログラムを通じて同時マルチモーダル通信セッションを円滑に行うことができる。例えば、スピーチ・エンジンおよびコール/セッション終了を含む音声ゲートウェイの音声ブラウザなどの音声モードで通信するユーザ・エージェント・プログラムは、モバイル・デバイス上のグラフィカル・ブラウザなどの異なるモードで動作している他のユーザ・エージェント・プログラムと同期する。複数のユーザ・エージェント・プログラムは、セッション時にコンテンツ・サーバに結合されて動作し、同時マルチモーダル対話を行うことができる。
例えば、マルチモーダル・ネットワーク要素は、テキスト・モードに関連するHTML形式および音声モードに関連するvoiceXML形式など、異なるモードに関連付けられている異なるマークアップ言語形式を取得するなどして、互いに対して異なるモードで
動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する。セッション中のマルチモーダル・ネットワーク要素は、得られたモード特有命令に基づいてユーザのために複数のユーザ・エージェント・プログラムからの出力の同期をとる。例えば、音声ブラウザは1つのデバイス上でオーディオ出力と同期し、グラフィカル・ブラウザは同じデバイスまたは異なるデバイス上の画面の表示出力と同期するという動作を同時に実行するため、ユーザは1つまたは複数のユーザ・エージェント・プログラムを通じて入力可能である。ユーザが入力情報を、異なるモードで動作している複数のユーザ・エージェント・プログラムを通じて入力する場合、方法および装置では、異なる同時マルチモーダル情報の要求に対する応答として、ユーザによって入力された受信同時マルチモーダル入力情報と複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報とを融合、またはリンクする。したがって、同時マルチモーダル入力は異なるユーザ・エージェント・プログラムを通じて利用しやすくなり、同時マルチモーダル・セッション中に複数のデバイスまたは他のデバイスを使用するか、または1つのデバイスで複数のユーザ・エージェント・プログラムを使用することができる。異なるプロキシがマルチモーダル・ネットワーク要素により指定され、異なるモードに設定されている異なるユーザ・エージェント・プログラムの各々と通信する。
図1は、本発明の一実施形態によるマルチモーダル通信システム10の一例を示している。この例では、マルチモーダル通信システム10は、通信デバイス12、マルチモーダル融合サーバ14、音声ゲートウェイ16、およびWebサーバ18などのコンテンツ・ソースを含む。通信デバイス12とは、例えば、インターネット家電、PDA、携帯電話、ケーブル・セットトップボックス、テレマティックス・ユニット、ラップトップ・コンピュータ、デスクトップ・コンピュータ、または他のモバイルあるいは非モバイル・デバイスなどである。さらに、所望の通信の種類に応じて、通信デバイス12は、無線ローカル・エリア・ネットワークまたは無線ワイド・エリア・ネットワーク20、WAP/データ・ゲートウェイ22、ショート・メッセージング・サービス・センター(SMSC/ページング・ネットワーク)24、または他の適切なネットワークと通信し稼働することも可能である。同様に、マルチモーダル融合サーバ14は、適切なデバイス、ネットワーク要素またはインターネット、イントラネット、マルチメディア・サーバ(MMS)26、インスタント・メッセージング・サーバ(IMS)28、または他の適切なネットワークを含むネットワークと通信することができる。したがって、通信デバイス12は、通信リンク21,23,および25を介して適切なネットワークと通信し稼働する。同様に、マルチモーダル融合サーバ14は、符号27で示されている従来の通信リンクを介してさまざまなネットワークに適切にリンクすることができる。この例では、それだけに限らないが、音声ゲートウェイ16は、音声認識エンジン、手書き文字認識エンジン、顔認識エンジン、セッション制御、ユーザ提供アルゴリズム、および運用および保守コントローラを必要に応じて含む、従来の音声ゲートウェイ機能を備えることができる。この例では、通信デバイス12は、WAPブラウザ、身振り認識、触覚認識、または他の適切なブラウザの形の視覚的ブラウザ(例えば、グラフィカル・ブラウザ)などのユーザ・エージェント・プログラム30を、例えば、電話回路32として示されているマイクおよびスピーカを含む電話回路とともに備える。他の適切な構成も使用可能である。
音声ゲートウェイ16は、電話回路32のスピーカから出力するのに適した形式でオーディオ情報を出力する、音声ブラウザなどの他のユーザ・エージェント・プログラム34を含む。しかし、スピーカを、ポケベルまたはその他のPDAなどの通信デバイス12以外の異なるデバイスに配置して音声が1つのデバイスに出力されるようにし、ユーザ・エージェント・プログラム30を介する視覚的ブラウザをさらに別のデバイス上に用意できることは理解されるであろう。また、ユーザ・エージェント・プログラム34は音声ゲートウェイ16内に存在するが、ユーザ・エージェント・プログラム34は通信デバイス12(音声ブラウザ36として示されている)内や他の適切なデバイス内に収めることも可
能であることも理解されるであろう。同時マルチモーダル通信に対応するために、本明細書で説明しているように、複数のユーザ・エージェント・プログラム、つまり、ユーザ・エージェント・プログラム30とユーザ・エージェント・プログラム34は、所与のセッションで互いに対して異なるモードで動作する。したがって、ユーザは、開示されているサービスにサインアップし、Webサーバ18または他のサーバ(MFS14を含む)を介してアクセス可能なモード・プリファレンス・データベース36内のモード・プリファレンスをプリセットすることにより、ユーザ・エージェント・プログラムの各々のモードを事前に定義することができる。さらに、ユーザは、所望の場合には、セッション中に、当業界で知られているように、所与のユーザ・エージェント・プログラムのモードを選択したり、変更したりすることができる。
同時マルチモーダル同期コーディネータ42は、セッション中に、他のユーザ・エージェント・プログラムに対するモード特有命令に関連する通信遅延を補正するため複数のユーザ・エージェント・プログラムのうちの1つについてのモード特有命令を一時的に格納するバッファ・メモリを備えることができる。したがって、例えば、必要ならば、同期コーディネータ42は、異なるユーザ・エージェント・プログラム上に同時にレンダリングされるようにモード特有命令を待ち、プロキシに出力するシステム遅延または他の遅延を考慮することができる。
また、必要ならば、ユーザ・エージェント・プログラム30は、ユーザがいくつかのマルチモードをミュートできる入力インターフェースを備えることができる。例えば、デバイスまたはユーザ・エージェント・プログラムが複数モード・オペレーションに対応可能である場合、ユーザは、特定の持続時間の間、モードをミュートするように指示することができる。例えば、ユーザ用の出力モードが音声であるが、ユーザが入っている環境に大きな音が発生している場合、ユーザは、例えば、音声ブラウザへの出力をミュートすることができる。ユーザから受け取ったマルチモード・ミュート・データは、マルチモーダル融合サーバ14により、例えば、メモリ602(図5を参照)に格納され、所与のセッションの間にどのモードをミュートするかを指示可能である。その後、同期コーディネータ42は、ミュートと識別されているモードのモード特有命令を取得することを控えることができる。
情報フェッチャ46は、複数のユーザ・エージェント・プログラム30および34についてマルチモード・アプリケーション54からモード特有命令69を取得する。モード特有命令68,70は、ユーザ・エージェント・プログラム30および34に送られる。この実施形態では、マルチモード・アプリケーション54は、後述のように、異なるユーザ・エージェント・プログラム、したがって異なるモードに関連付けられているモード特有命令を識別するデータを含む。同時マルチモーダル同期コーディネータ42は、モード特有命令を受け取るように情報フェッチャ46に結合して動作する。同時マルチモーダル同期コーディネータ42は、さらに、複数のプロキシ38a〜38nに結合して動作し、所与のセッションに必要なプロキシを指定する。
異なるユーザ・エージェント・プログラム30および34が異なるデバイス上にある場合、方法は、第1のモードに基づくマークアップ言語形式を1つのデバイスに送信し、第2のモード・マークアップ言語に基づく形式を1つまたは複数の他のデバイスに送信して、同じセッション中にユーザが異なるモードで同時情報入力を異なるデバイスに要求することにより、同時マルチモーダル入力情報68,70の要求を送信することを含む。これらのマークアップ言語に基づく形式は、モード特有命令68,70として得られた。
マルチモーダル・セッション・コントローラ40は、着信セッションの検出、セッションへの応答、セッション・パラメータの修正、セッションの終了、およびセッションおよ
び媒体情報とデバイス上のセッション制御アルゴリズムとの交換に使用される。マルチモーダル・セッション・コントローラ40は、必要ならセッションの一次セッション終了ポイントであるか、または例えば、ユーザが音声ゲートウェイなどの他のゲートウェイとのセッションを確立することを望んでいる場合に二次セッション終了ポイントとし、次に、これによりマルチモーダル・セッション・コントローラ40とのセッションを確立することができる。
同期コーディネータ42は、同時マルチモーダル入力情報の要求を含む、出力同期メッセージ47および49を、各々のプロキシ38aおよび38nに送信し、それらの出力と各々の複数のユーザ・エージェント・プログラムとの同期をとる。プロキシ38aおよび38nは、同時同期コーディネータ42に、受信したマルチモーダル入力情報72および74を含む入力同期メッセージ51および53を送信する。
同時マルチモーダル同期コーディネータ42は、プロキシを使用して、またはユーザ・エージェント・プログラムに能力があればユーザ・エージェント・プログラムを使用して、同期メッセージ47、49、51、および53を送受信し、プロキシ38aおよび38nが異なるユーザ・エージェント・プログラムから受信マルチモーダル入力情報72および74を受信すると、プロキシ38aおよび38nは受信マルチモーダル入力情報72および74を含む入力同期メッセージ51および53を同期コーディネータ42に送信する。同期コーディネータ42は、受信情報をマルチモーダル融合エンジン44に転送する。さらに、ユーザ・エージェント・プログラム34が同期メッセージをマルチモーダル同期コーディネータ42に送信する場合、マルチモーダル同期コーディネータ42は、その同期メッセージをセッション中の他のユーザ・エージェント・プログラム30に送信する。同時マルチモーダル同期コーディネータ42は、さらに、メッセージ変換を実行し、同期メッセージ・フィルタ処理を行って、同期システムをより効率的なものとすることができる。同時マルチモーダル同期コーディネータ42は、所与のセッションで使用されている現在のユーザ・エージェント・プログラムのリストを保持し、同期処理の必要なときにその通知先を追跡することができる。
マルチモーダル融合サーバ14は、複数のマルチモーダル・プロキシ38a〜38n、マルチモーダル・セッション・コントローラ40、同時マルチモーダル同期コーディネータ42、マルチモーダル融合エンジン44、情報(例えば、モード特有命令)フェッチャ46、およびvoiceXMLインタプリタ50を備える。少なくともマルチモーダル・セッション・コントローラ40、同時マルチモーダル同期コーディネータ42、マルチモーダル融合エンジン44、情報フェッチャ46、およびマルチモーダル・マークアップ言語(例えば、voiceXML)インタプリタ50は、1つまたは複数の処理デバイスを実行するソフトウェア・モジュールとして実装することができる。したがって、1つまたは複数のデバイスにより読み出されたときに1つまたは複数の処理デバイスでソフトウェア・モジュールの各々に関して本明細書で説明している機能を実行する実行可能命令がメモリに格納される。したがって、それだけには限らないが、マルチモーダル融合サーバ14は、デジタル・シグナル・プロセッサ、マイクロコンピュータ、マイクロプロセッサ、状態機械、またはその他の適切な処理デバイスを含む可能性のある処理デバイスを含むが、これらには限定されない。メモリには、ROM、RAM、分散メモリ、フラッシュ・メモリ、または処理デバイスにより実行されたときに1つまたは複数の処理デバイスを本明細書で説明されているように動作させる状態またはその他のデータを格納することが可能な他の適切なメモリがある。あるいはそれとは別に、ソフトウェア・モジュールの機能は、必要に応じてハードウェアまたはハードウェア、ソフトウェア、およびファームウェアの適切な任意の組み合わせで適宜実装することができる。
マルチモーダル・マークアップ言語インタプリタ50は、状態機械または他の適切なハ
ードウェア、ソフトウェア、ファームウェアまたはそれらの適切な組み合わせとすることができ、これは特に、マルチモーダル・アプリケーション54が備えるマークアップ言語を実行する。
図2は、マルチモーダル融合サーバ14によりマルチモーダル通信を実行する方法を示す例である。しかし、本明細書で説明している工程はどれも、適切な順序で適切な1つまたは複数のデバイスにより実行可能であることは理解されるであろう。現在のマルチモーダル・セッションでは、ユーザ・エージェント・プログラム30(例えば、WAPブラウザ)は要求52をWebサーバ18に送信し、Webサーバ18にアクセス可能な同時マルチモーダル・アプリケーション54からコンテンツを要求する。これは、例えば、URLを入力するか、またはアイコンをクリックするか、または他の従来のメカニズムを使用することにより行うことができる。また、破線52で示されているように、ユーザ・エージェント・プログラム30および34は各々、ユーザ・モード情報をマークアップ・インタプリタ50に送信することができる。コンテンツ・サーバとして機能するWebサーバ18は、同時マルチモーダル・サービスへのユーザ・サブスクリプション工程を通じてすでに入力されているモード・プリファレンス・データベース36から、通信デバイス12のマルチモーダル・プリファレンス55を取得する。次に、Webサーバ18は、データベース36からのユーザ・プリファレンスを含む通知56を通じてマルチモーダル融合サーバ14に通知し、例えば、同時マルチモーダル通信でどのユーザ・エージェント・プログラムを使用しているか、どのモードでユーザ・エージェント・プログラムの各々が設定されているかを示す。この例では、ユーザ・エージェント・プログラム30は、テキスト・モードに設定され、ユーザ・エージェント・プログラム34は音声モードに設定されている。その後、同時マルチモード同期コーディネータ42は、セッション中に、複数のマルチモーダル・プロキシ38a〜38nのどれがユーザ・エージェント・プログラム30および34の各々に対して使用されるかを判別する。したがって、同時マルチモード同期コーディネータ42は、マルチモード・プロキシ38aを、テキスト・モードに設定されているユーザ・エージェント・プログラム30と通信するためのテキスト・プロキシとして指定する。同様に、同時マルチモード同期コーディネータ42は、プロキシ38nを、音声モードで動作しているユーザ・エージェント・プログラム34の音声情報を伝達するマルチモーダル・プロキシとして指定する。情報フェッチャは、Webページ・フェッチャ46として示されており、マークアップ言語形式またはその他のデータなどのモード特有命令を同時マルチモーダル・アプリケーション54と関連するWebサーバ18から取得する。
例えば、マルチモーダル・アプリケーション54がユーザに、情報を音声モードとテキスト・モードの両方で入力するよう要求した場合、情報フェッチャ46は、ユーザ・エージェント・プログラム30に対して出力する関連するHTMLマークアップ言語形式および要求66を介してユーザ・エージェント・プログラム34に出力する関連するvoiceXML形式を取得する。その後、これらのモード特有命令は、ユーザ・エージェント・プログラムにより出力としてレンダリングされる(例えば、画面への出力またはスピーカによる出力)。同時マルチモーダル同期コーディネータ42は、セッション中に、モード特有命令に基づき複数のユーザ・エージェント・プログラム30および34からの出力の同期をとる。例えば、同時マルチモーダル同期コーディネータ42は、音声が通信デバイス12上にレンダリングされるときにユーザ・エージェント・プログラム30を介してテキストが画面上に出力されるのと同時にレンダリングされるように適切な時期に各々のユーザ・エージェント・プログラム30および34に異なるモードを表す適切なマークアップ言語形式を送信する。例えば、マルチモーダル・アプリケーション54は、同時にユーザ・エージェント・プログラム30からのテキスト入力を待ちながら、テキスト・ブラウザを介して入力されることが予期される情報に関して、ユーザ・エージェント・プログラム34を介して、音声命令の形式の命令をユーザに与えることができる。例えば、マルチ
モーダル・アプリケーション54は、「please enter your desired destination city followed by your desired departure time」という語句の音声出力を必要とし、その一方で同時に、ユーザ・エージェント・プログラム30を通じて通信デバイスの表示装置上に出力されるフィールドを表示し、そのフィールドは市を意味する「C」として指示され、次の行では送信先を意味する「D」として指示される。この例では、マルチモーダル・アプリケーションは、ユーザによる同時マルチモーダル入力を要求しておらず、1つのモード、つまりテキスト・モードを通じて入力を要求しているだけである。他のモードは、ユーザ命令を送るために使用されている。
それとは別に、マルチモーダル・アプリケーション54が複数のユーザ・エージェント・プログラムを通じて入力情報を入力するようユーザに要求する場合、マルチモーダル融合エンジン14は、セッション中に異なるマルチモーダル・ユーザ・エージェント・プログラムで同時に入力されるユーザ入力を融合する。例えば、ユーザが表示されている地図上の2つの位置をクリックしながら「directions from here to
there」という語句を発声すると、音声ブラウザまたはユーザ・エージェント・プログラム34は開始位置フィールドに「here」を書き込み、目的位置フィールドに受信した入力情報74として「there」と書き込む一方で、グラフィカル・ブラウザ、つまり、ユーザ・エージェント・プログラム30は、開始位置フィールドに地図上の第1のクリック点の地理的位置(例えば、緯度/経度)を書き込み、目的位置フィールドに地図上の第2のクリック点の地理的位置(例えば、緯度/経度)を書き込む。マルチモーダル融合エンジン44はこの情報を取得し、異なるモードで動作している複数のユーザ・エージェント・プログラムからユーザが入力した入力情報を融合し、単語「here」が第1のクリック点の地理的位置に対応し、単語「there」が第2のクリック点の地理的位置(例えば、緯度/経度)に対応すると判定する。このようにして、マルチモーダル融合エンジン44はユーザのコマンドの一揃いの完全な情報を持つ。マルチモーダル融合エンジン44側で、融合された情報60をユーザ・エージェント・プログラム30および34に送り返し、同時マルチモーダル通信に関連する完全な情報を持つようにしたい場合がある。このときに、ユーザ・エージェント・プログラム30は、この情報をコンテンツ・サーバ18にサブミットし、所望の情報を取得することができる。
ブロック200に示されているように、セッションに関して、方法は、互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対しモード特有命令68,70を取得することを含むが、例えば、複数のユーザ・エージェント・プログラムの各々の各モードに固有の異なる種類のマークアップ言語を取得する。ブロック202に示されているように、方法は、セッション中に、ユーザの同時マルチモーダル・オペレーションを円滑に実行可能であるようにするモード特有命令に基づきユーザ・エージェント・プログラムなどの出力の同期を行うことを含む。そこで、マークアップ言語形式のレンダリングの同期をとり、複数のユーザ・エージェント・プログラムを通じて異なるモードで複数のユーザ・エージェント・プログラムからの出力を同時にレンダリングする。ブロック203に示されているように、同時マルチモーダル同期コーディネータ42は、異なるユーザ・エージェント・プログラム30および34に対するモード特有命令セット68,70が、異なるユーザ・エージェント・プログラムを使用してユーザが行う異なるモードでの情報の同時入力を要求するかどうかを判別する。否定の場合、ブロック205に示されているように、同時マルチモーダル同期コーディネータ42は1つのユーザ・エージェント・プログラムだけから受信した入力情報を送信先サーバまたはWebサーバ18に転送する。
しかし、ブロック204に示されているように、異なるユーザ・エージェント・プログラム30および34に対するモード特有命令セット68,70が、異なるモードでの同時
ユーザ入力を要求した場合、方法は、異なるモードで動作する異なるユーザ・エージェント・プログラムに関連する融合されたマルチモーダル応答60を生成するためユーザ・エージェント・プログラム30および34により送り返される、ユーザが入力する受信同時マルチモーダル入力情報を融合することを含む。ブロック206に示されているように、方法は、融合されたマルチモーダル応答60をマークアップ言語インタプリタ50で現在実行中のアプリケーション61に転送して返すことを含む。現在実行中のアプリケーション61(図5を参照)は、インタプリタ50の一部として実行中のアプリケーション54からのマークアップ言語である。
図1および3を参照して、マルチモーダル通信システム10の詳細なオペレーションについて説明する。ブロック300に示されているように、通信デバイス12は、ユーザ・エージェント・プログラム30を介してWebコンテンツまたは他の情報に対する要求52を送信する。ブロック302に示されているように、コンテンツ・サーバ18は、セッションのデバイス・プリファレンスおよびモード・プリファレンスを取得するために識別されているユーザのモード・プリファレンス・データベース36からマルチモーダル・プリファレンス・データ55を取得する。ブロック304に示されているように、方法は、コンテンツ・サーバがマルチモーダル融合サーバ14に、どのユーザ・エージェント・アプリケーションがどのデバイス上で、所与の同時の異なるマルチモーダル通信セッションに対しどのモードを使用して動作しているかを通知することを含む。
前述のように、またブロック306に示されているように、同時マルチモーダル同期コーディネータ42は、モード・プリファレンス・データベース36からのモード・プリファレンス情報55に基づいて異なるモードの各々について各プロキシを判別するようにセットアップされている。ブロック308に示されているように、方法は、必要に応じて、マルチモーダル・セッション・コントローラ40を介して各ユーザ・エージェント・プログラムのユーザ・モード指定を受け取ることを含む。例えば、ユーザは、所望のモードを変更し、モード・プリファレンス・データベース36に格納されているプリセット済みのモード・プリファレンス55と異なるようにすることができる。これは、従来のセッション・メッセージング機能を使用して実行可能である。所望のユーザ・エージェント・プログラムが異なるデバイス上にある場合など、ユーザが特定のユーザ・エージェント・プログラムに対する所望のモードを変更している場合、異なるマークアップ言語形式などの、異なるモード特有命令が必要になることがある。ユーザ・モード指定が変更された場合、情報フェッチャ46は、ユーザ・エージェント・アプリケーションに対し選択されているモードに基づいて適切なモード特有命令をフェッチし、かつ要求する。
その後、ブロック310に示されているように、情報フェッチャ46は、ユーザ・エージェント・プログラム毎に、したがってモード毎に、フェッチ要求66として示されているモード特有命令をコンテンツ・サーバ18からフェッチする。したがって、マルチモーダル融合サーバ14は、情報フェッチャ46を介して、異なるモードを表すマークアップ言語を取得し、これにより、各ユーザ・エージェント・プログラム30および34は、そのマークアップ言語に基づいてさまざまモードで情報を出力することができる。しかし、マルチモーダル融合サーバ14はマークアップ言語に基づく情報だけでなく、適切なモード特有命令であればどのようなものでも取得することができることは理解されるであろう。
モード特有命令が各ユーザ・エージェント・プログラムについてコンテンツ・サーバ18からフェッチされ、CMMTがモード特有命令68,70に関連付けられていない場合、受け取ったモード特有命令69をトランスコーダ608(図5を参照)に送ることができる。トランスコーダ608は、受け取ったモード特有命令を、インタプリタ50により解釈可能であるように、基本マークアップ言語形式にトランスコードし、異なるモード6
10に対するモード特有命令を識別するデータを有する基本マークアップ言語形式を作成する。したがって、トランスコーダは、異なるモードで動作する他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含むようにモード特有命令をトランスコードする。例えば、インタプリタ50がvoiceXMLなどの基本マークアップ言語を使用しており、アプリケーション54の一方のモード特有命令セットがvoiceXML形式であり、他方がHTML形式であれば、トランスコーダ608は、HTML形式を取得可能な場所のURL、または実際のHTML形式自体を識別するCMMTをvoiceXML形式に埋め込む。さらに、モード特有命令のいずれも基本マークアップ言語のものでなければ、一組のモード特有命令が基本マークアップ言語に変換され、それ以降、それ以外のモード特有命令群はCMMTにより参照される。
あるいは、マルチモーダル・アプリケーション54は、必要なCMMT情報を供給し、同時マルチモーダル・セッション時に複数のユーザ・エージェント・プログラムによる出力の同期処理を円滑に行えるようにすることができる。各ユーザ・エージェント・プログラムに対するモード特有命令の一例を、以下にマークアップ言語形式で示す。マークアップ言語形式は、マルチモーダル・アプリケーション54により供給され、マルチモーダル融合サーバ14によって同時マルチモーダル通信セッションを実行するために使用される。マルチモーダルvoiceXMLインタプリタ50では、マルチモーダル・アプリケーション54がvoiceXMLを基本言語として使用するものと想定している。ユーザに代わって複数のユーザ・エージェント・プログラムが出力の同期処理を円滑に行えるようにするため、voiceXML形式の拡張機能またはHTML形式のインデックスなどの同時マルチモーダル・タグ(CMMT)を含む、またはそのインデックスを生成するマルチモーダル・アプリケーション54を作成することができる。CMMTは、モードを識別し、識別されたモードでユーザ・エージェント・プログラムのうちの1つにより出力される実際のHTML形式などの情報を指し示すか、またはそのような情報を含む。CMMTは、さらに、マルチモーダル同期データとしても使用され、CMMTを入れることにより異なるモード特有命令と異なるユーザ・エージェント・プログラムとの同期をとる必要があることを示す。
例えば、voiceXMLがマルチモーダル・アプリケーション54の基本言語であれば、CMMTはテキスト・モードであることを示す。この例では、CMMTは、ユーザ・エージェント・プログラムにより出力されるHTML形式のテキストを含むURLを含むか、またはCMMTの一部としてHTMLを含むことができる。CMMTは、マークアップ言語の属性拡張機能のプロパティを備えることができる。マルチモーダルvoiceXMLインタプリタ50は、情報フェッチャ46を使用してモード特有命令をフェッチし、マルチモーダル・アプリケーションからフェッチされたモード特有命令を解析し(この例では、実行し)、CMMTを検出する。検出された後、マルチモーダルvoiceXMLインタプリタ50は、CMMTを解釈し、必要ならば、テキスト・モード用のHTMLなど、他のモード特有命令を取得する。
例えば、CMMTは、グラフィカル・ブラウザ用のテキスト情報を取得する場所を示すことができる。以下に示すのは、音声ブラウザが「where from」および「where to」と尋ねる音声を出力し、その一方でグラフィカル・ブラウザが「from
city」および「to city」と表示する必要がある同時マルチモーダル・アプリケーションに対するvoiceXML形式の形式の同時マルチモーダル巡回アプリケーションのモード特有命令の一例を示す表である。「from city」および「to city」と示されているフィールドでは、ユーザが異なるブラウザを通じて、受け取り済みの同時マルチモーダル情報を入力することが予期されている。

表1
<vxml version=“2.0”>
<form>
<block>
<cmmt mode=“html” src=“./itinerary.html”/>非音声モードがhtml(テキスト)であること、およびソース情報がitinerary.htmlというurlに置かれていることを示す
</block>
<field name=“from_city”>グラフィカル・ブラウザを通じて収集しようと試みる予期される情報テキスト断片
<grammar src=“./city.xml”/>音声用であり、音声認識エンジンの可能な応答のリストを作成する必要がある
Where from? 音声ブラウザが発するプロンプト
</field>
<field name=“to_city”>テキストが入ることを予期する
<grammar src=“./city.xml”/>
Where to? 音声ブラウザが発する音声
</field>
</form>
</vxml>

したがって、上記のマークアップ言語形式は、少なくとも1つのユーザ・エージェント・プログラムに対するモード特有命令を表す基本マークアップ言語で書かれており、CMMTは、異なるモードで動作している他のユーザ・エージェント・プログラムに対するモード特有命令を指定する拡張である。
ブロック311に示されているように、ユーザがプリファレンスを変更した場合、方法は、その変更と矛盾しないようにプロキシをリセットすることを含む。ブロック312に示されているように、マルチモーダル融合サーバ14は、受信待機ポイントに到達したかどうかを判別する。到達した場合、ブロック314に示されているように次の状態に入る。肯定の場合、この工程は完了である。否定の場合、方法は、異なるユーザ・エージェント・プログラムに対してモード特有命令の同期処理を行うことを含む。マルチモーダルvoiceXMLインタプリタ50は、この例では、ユーザ・エージェント・プログラム30についてはHTMLを、ユーザ・エージェント34についてはvoiceXMLを、同時マルチモーダル同期コーディネータ42に出力し、複数のユーザ・エージェント・プログラムによる出力の同期をとる。これは、例えば、前述のように、受信待機ポイントの発生に基づいて実行することができる。これは、ブロック316に示されている。
ブロック318に示されているように、方法は、同時マルチモーダル同期コーディネータ42などにより、対応するプロキシ38aおよび38nに、同期しているモード特有命令68,70を送信し、同じセッションでユーザによる異なるモードでのユーザ入力情報を要求することを含む。同期をとった要求68および70は、ユーザ・エージェント・プログラム30および34の各々に送られる。例えば、異なるユーザ・エージェント・プログラムに関連付けられている複数の入力モードに対応する異なる同時モード入力情報の要求は、モード特有命令68および70を含む同期をとった要求として示される。これらは、例えば、同期したマークアップ言語形式とすることができる。
ユーザ・エージェント・プログラム30および34は、モード特有命令を同時にレンダリングすると、方法は、ユーザ入力をブロック320に示されているようにタイムアウト期間内に受信したかどうか、または他のイベントが発生したかどうかを判別することを含
む。例えば、マルチモーダル融合エンジン44は、一定期間待ち、それから、融合のためにユーザが入力したマルチモーダル入力情報が複数のユーザ・エージェント・プログラムから適切に受信されたかどうかを判別することができる。この待機期間は、各ユーザ・エージェント・プログラムのモード設定に応じて異なる期間とすることができる。例えば、ユーザが音声とテキスト情報の両方を同時に入力することが期待されているが、マルチモーダル融合エンジンが一定期間内に融合に関する情報を受け取っていない場合、エラーが発生しているとみなされる。さらに、マルチモーダル融合エンジン44を使用すると、音声情報だと音声ゲートウェイ16を介した処理に比較的長い時間を要するため、テキスト情報の場合と比べて音声情報では返すのにより長い時間がかかる場合がある。
この例では、ユーザはユーザ・エージェント・プログラム30を介してテキストを入力すると同時にマイクを使用して音声情報を発声し、ユーザ・エージェント・プログラム34に伝達することが要求される。受信同時マルチモーダル入力情報72および74は、ユーザ・エージェント・プログラム30および34から受信され、適切な通信リンクを介して各々のプロキシに渡される。ユーザ・エージェント・プログラム34とデバイス12のマイクおよびスピーカとの間の符号76で示されている通信は、PCM形式または他の適切な形式で実行され、この例では、ユーザ・エージェント・プログラムにより出力することができるモード特有命令形式ではないことに注意されたい。
ユーザがテキスト・ブラウザと音声ブラウザを同時に使用して情報を入力し、マルチモーダル融合エンジン44が複数のユーザ・エージェント・プログラムから送信された同時マルチモーダル入力情報を受信した場合、マルチモーダル融合エンジン44は、ブロック322に示されているようにユーザから受信した入力情報72および74を融合する。
図4は、マルチモーダル融合エンジン44のオペレーションの一例を示している。説明のため、あるイベントについて、「no input」はユーザがこのモードで何も入力していなかったことを意味するものとする。「no match」は、何かが入力されたが、予期した値でなかったことを意味する。結果は、ユーザにより正常に入力された内容からの一組のスロット(またはフィールド)名および対応する値のペアである。例えば、適切な入力内容は、“City=Chicago”および“State=Illinois”および“Street”=“first street”および例えば、0%から100%の範囲の信頼度重み係数である。前述のように、マルチモーダル融合エンジン44が情報を融合するかどうかは、スロット名(例えば、変数)および値ペアの受信または予期した受信の間の時間または他のイベントの受信に応じて異なる可能性がある。この方法は、信頼水準が受信した情報に割り当てられていると想定している。例えば、同期コーディネータおよびモードと情報到着時刻に基づくその重み信頼度。例えば、同じセッション中に異なるモードで同じスロット・データを入力することが可能な場合のように(例えば、住所の通り名を発声してキー入力する)、入力されたデータは発声されたデータよりも正確であると想定される。同期コーディネータは、受信時刻に基づき、また受信した個々の結果の信頼値に基づき、異なる同時マルチモーダル情報の要求への応答として送信された複数のユーザ・エージェント・プログラムの1つから送られた受信マルチモーダル入力情報を組み合わせる。
ブロック400に示されているように、方法は、非音声モードでイベントまたは結果があったかを判別することを含む。肯定の場合、ブロック402に示されているように、方法は、「no input」および「no match」イベントを除く任意のモードのイベントがあったかを判別することを含む。肯定の場合、方法は、ブロック404に示されているように、受け取った第1のそのようなイベントをインタプリタ50に返すことを含む。しかし、「no input」および「no match」以外にユーザ・エージェント・プログラムからのイベントがなかった場合、方法は、ブロック406に示されて
いるように、マルチモーダル融合エンジンの2つまたはそれ以上の結果を送信したモードについて、受信時刻の順序でそのモードの結果を組み合わせることを含む。これは、ユーザが同じスロットに対し入力を再入力する場合に有用であると思われる。所与のスロット名に対する後の値は、前の値を上書きする。マルチモーダル融合エンジンは、構成要素である個々の結果の信頼度重みに基づいてモードの結果信頼度重みを調整する。最終結果は、モード毎に、各スロット名に対する1つの回答となる。方法は、ブロック408に示されているように、ブロック406から結果を取り出し、それらを組み合わせてすべてのモードに対する1つの結合された結果とすることを含む。方法は、最も信頼度の低い結果から始めて、最も信頼度の高い結果へと進むことを含む。融合された結果の中の各スロット名で、そのスロットの定義を含む最も信頼度の高い入力結果に属するスロット値を受け取る。
ブロック410に示されているように、方法は、今組み合わされた結果があるかどうかを判別することを含む。つまり、ユーザ・エージェント・プログラムが、マルチモーダル融合エンジン44に対する結果を送信したかということである。肯定の場合、方法は、ブロック412に示されているように、組み合わせた結果をコンテンツ・サーバ18に返すことを含む。否定の場合、ブロック414に示されているように、「no input」または「no match」イベントが0個またはそれ以上あることを意味する。方法は、「no match」イベントがあるかどうかを判別することを含む。肯定の場合、方法は、ブロック416に示されているように、「no match」イベントを返すことを含む。しかし、「no match」イベントがなければ、方法は、ブロック418に示されているように、「no input」イベントをインタプリタ50に返すことを含む。
ブロック400に戻り、非音声モードからのイベントまたは結果がなかった場合、方法は、音声モードで結果を返したかどうか、つまり、ユーザ・エージェント・プログラム34が受信情報74を生成したかどうかを判別することを含む。これは、ブロック420に示されている。肯定の場合、ブロック422に示されているように、方法は、受け取った入力情報に対する音声応答をマルチモーダル・アプリケーション54に返すことを含む。しかし、音声ブラウザ(例えば、ユーザ・エージェント・プログラム)が情報を出力しなかった場合、方法は、ブロック424に示されているように、音声モードでイベントが返されたかどうかを判別することを含む。「はい」であれば、ブロック426に示されているように、イベントは73でマルチモーダル・アプリケーション54に報告される。音声モード・イベントが生成されていなかった場合、方法は、ブロック428に示されているように、「no input」イベントを返すことを含む。
以下の表2は、仮説的データに適用される図4の方法の一例を示している。

表2
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99

TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0

例えば、ブロック400で、非音声モードからの結果が受信されなかった場合、方法は、ブロック402に進む。ブロック402で、イベントがまったく受信されなかった場合、方法はブロック406に進む。ブロック406で、融合エンジンは、TextModeCollectedDataを1スロット当たり1つの応答に圧縮する。VoiceModeCollectedDataはそのままである。

VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
OVERALLCONFIDENCE=.85

音声モードはそのままである。しかし、.85が結果セット内の最低信頼度であるため、総信頼度値.85が割り当てられる。

TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0

後のタイムスタンプでスロットにLaSalleが書き込まれているため、テキスト・モードでは、収集データからMichiganが削除される。最終結果はこのようになる。そして、1.0が結果セット内の最低信頼度レベルであるため、総信頼度レベル1.0が割り当てられる。

TextModeCollectedData
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
OVERALLCONFIDENCE=1.0

以下に、ブロック408に送信されたデータを示す。

VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
OVERALLCONFIDENCE=.85

TextModeCollectedData
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
OVERALLCONFIDENCE=1.0

ブロック408で、事実上2つのモードが単一の返却結果に融合される。
まず、最低信頼度レベルの結果全体が取り出され、最終結果(FinalResult)構造の中に入れられる。

FinalResult

STREETNAME=Michigan
CONFIDENCELEVEL=.85
NUMBER=112
CONFIDENCELEVEL=.99

その後、次の最低の結果の要素が最終結果の中で置き換えられる。

FinalResult

STREETNAME=LaSalle
CONFIDENCELEVEL=1.0
NUMBER=112
CONFIDENCELEVEL=.99

この最終結果は、2つのモードを融合したものであり、インタプリタに送られ、そこで、次に何をするかを決定する(Webからさらに情報をフェッチするか、またはユーザからの情報がもっと必要かどうかを決定し、現在の状態に基づいて再度プロンプトを表示する)。
図5は、同時マルチモーダル・セッションパーシスタンス(persistance、永続化)コントローラ600と、同時マルチモーダル・セッション・パーシスタンス・コントローラ600に結合された同時マルチモーダル・セッション・ステータス・メモリ602とを備えるマルチモーダル融合サーバ14の他の実施形態を示している。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、適切な処理デバイス上で実行されているソフトウェア・モジュールであるか、または適切なハードウェア、ソフトウェア、ファームウェア、またはそれらの適切な組み合わせとすることができる。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、非セッション状態のときに、ユーザ毎に、同時マルチモーダル・セッション・ステータス情報604をデータベースまたはその他の適切なデータ構造の形で保持する。同時マルチモーダル・セッ
ション・ステータス情報604は、セッション中に異なる同時モード通信を行うように構成されている複数のユーザ・エージェント・プログラムのステータス情報である。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、同時マルチモーダル・セッション・ステータス情報604へのアクセスに対する応答としてすでに終了している同時マルチモーダル・セッションを再確立する。マルチモーダル・セッション・コントローラ40は、ユーザがいつセッションに参加したかを同時マルチモーダル・セッション・パーシスタンス・コントローラ600に通知する。マルチモーダル・セッション・コントローラ40は、また、同時マルチモーダル同期コーディネータと通信し、オフライン・デバイスとの同期処理を行うか、または同時マルチモーダル・セッションを再確立するために必要なユーザ・エージェント・プログラムと同期をとる。
同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、例えば、前の同時マルチモーダル通信セッションのときに所与のモードに使用されるプロキシを示すURLなどのプロキシIDデータ906を格納する。必要ならば、同時マルチモーダル・セッション状態メモリ602は、さらに、そのようなフィールドまたはスロットの内容とともに前の同時マルチモーダル通信セッション時にユーザからの入力によりどのフィールドまたはスロットが書き込まれたかを示す情報も格納することができる。さらに、同時マルチモーダル・セッション状態メモリ602は、同時マルチモーダル通信セッションに対する現在の対話状態606を含むことができる。状態には、インタプリタ50が実行中アプリケーションの実行状態にある場合も含まれる。ユーザがどのフィールドに書き込んだかに関する情報は、融合された入力情報60の形式とすることができる。
図に示されているように、Webサーバ18は、モード・タイプ毎にモード特有命令を備えることができる。この例では、テキストは、HTML形式の形で供給され、音声は、voiceXML形式の形で供給され、音声はさらに、WML形式で供給される。同時マルチモーダル同期コーディネータ42は、適切な形式を適切なプロキシに出力する。図に示されているように、voiceXML形式は、音声ブラウザ用に指定されているプロキシ38aを通じて出力されるが、HTML形式は、グラフィカル・ブラウザ用のプロキシ38nに出力される。
セッション・パーシスタンス維持は、セッションが異常終了し、ユーザがこの後も同じ対話状態に戻りたい場合に使用することができる。また、モードで、異なるモードで入力から出力までの遅延時間を生じさせ、時間遅延を補正するために情報を一時的に格納しておく必要のある、異なる遅延特性を持つトランスポート・メカニズムを使用するのも有益である。
図6〜7に示されているように、同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、所与のセッション中に所与のユーザの複数のユーザ・エージェント・プログラムのマルチモーダル・セッション・ステータス情報を保持し、ユーザ・エージェント・プログラムは、セッション中に異なる同時モード通信を行えるように構成されている。これは、ブロック700に示されている。ブロック702に示されているように、方法は、マルチモーダル・セッション・ステータス情報604にアクセスすることに対する応答として前の同時マルチモーダル・セッションを再確立することを含む。ブロック704に示されているように、より詳しく述べると、同時マルチモーダル・セッション時に、同時マルチモーダル・セッション・パーシスタンス・コントローラ600はメモリ602内にユーザ別マルチモーダル・セッション・ステータス情報604を格納する。ブロック706に示されているように、同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、セッション・コントローラーからユーザによるセッション参加を検出し、メモリ内でユーザIDを検索して、ユーザが前の同時マルチモーダル・セッションに関与していたかを判別する。したがって、ブロック708に示されているように、方
法は、ユーザによるセッション参加の検出に基づいてメモリ602に格納されているマルチモーダル・セッション・ステータス情報604にアクセスする。
ブロック710に示されているように、方法は、セッションがメモリ604内に存在しているかどうかを判別することを含む。否定の場合、セッションは新しいセッションとして指定され、さらに、新しいエントリが作成され、新しいセッションをメモリ602に記録するため必要なデータがそのエントリに書き込まれる。これは、ブロック712に示されている。ブロック714に示されているように、セッションが存在している場合、例えば、セッションIDがメモリ602内に存在する場合、方法は、メモリ602に対して、ユーザが既存のアプリケーションを実行させているかクエリを実行することを含み、もし実行していれば、ユーザがそのアプリケーションとの通信を再確立したいかクエリを実行することができる。ユーザが望めば、方法は、メモリ602から最後にフェッチされた情報のURLを取り出すことを含む。これは、ブロック716に示されている(図7)。ブロック718に示されているように、適切なプロキシ38a〜38nに対し、ブロック716で取り出された適切なURLが与えられる。ブロック720に示されているように、方法は、メモリ602に格納されているユーザ・エージェント状態情報606に基づいて、プロキシを介して、適切なユーザ・エージェント・プログラムに要求を送信することを含む。
図8は、同時マルチモーダル・セッション・ステータス・メモリ602の内容の一例を示す図である。図に示されているように、ユーザID 900で特定のユーザを指定し、ユーザが複数のセッションをメモリ602内に格納している場合にセッションID 902をユーザIDに関連付けることができる。さらに、ユーザ・エージェント・プログラムID 904は、例えば、特定のユーザ・エージェント・プログラムを実行しているデバイスに関するデバイスIDを示す。プログラムIDは、ユーザ・プログラム識別子、URL、または他のアドレスでもよい。プロキシIDデータ906は、前の同時マルチモーダル通信でマルチモーダル・プロキシが使用されていることを示す。したがって、ユーザはセッションを終了し、後から、その終了したところから継続することができる。
デバイスID 904を保持すると、とりわけ、システムでは同時マルチモーダル・セッションの実行中に使用されているデバイスの識別を保持可能であるため、ユーザは同時マルチモーダル通信中にデバイスを簡単に切り換えられる。
したがって、1つまたは複数のデバイスに分散されている別々のユーザ・エージェント・プログラムを通じて、(あるいは、同じデバイスに含まれている場合)、異なるモードで入力された複数の入力は、統一された一貫性のある方法で融合される。さらに、ユーザ・エージェント・プログラムのレンダリングとそれらのユーザ・エージェント・プログラムを使用したユーザによる情報入力の両方の同期をとるメカニズムが用意されている。さらに、開示されているマルチモーダル融合サーバは、同時マルチモーダル通信セッションを行えるように、既存のデバイスおよびゲートウェイに結合することができる。
さまざまな態様における本発明の他の変更形態および修正形態の実施が、当業者には明らかであること、また本発明は説明されている特定の実施形態に限定されないこと、は理解されるであろう。例えば、本発明の方法はいくつかの工程に関して説明されているが、それらの工程は必要に応じて適切な順序で実行可能であることは理解されるであろう。したがって、開示され本願で権利を請求している基本原理の精神と範囲に包含される一部および全部の修正形態、変更形態、または均等形態は本発明に包含されるものとする。
本発明の一実施形態によるマルチモーダル通信システムの一例を説明するブロック図。 本発明の一実施形態によるマルチモーダル通信の方法の一例を説明する流れ図。 本発明の一実施形態によるマルチモーダル通信の方法の一例を説明する流れ図。 本発明の一実施形態による受信した同時マルチモーダル入力情報を融合する方法の一例を説明する流れ図。 本発明の実施形態によるマルチモーダル・ネットワーク要素の一例を説明するブロック図。 本発明の一実施形態によるマルチモーダル・セッション・パーシスタンスを維持する方法の一例を説明する流れ図。 図6に示されている流れ図の一部を説明する流れ図。 本発明の一実施形態による同時マルチモーダル・セッションのステータスのメモリ内容の一例を表すブロック図。

Claims (23)

  1. マルチモーダル通信の方法であって、
    互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得すること、および、
    セッション中に、前記モード特有命令に基づいて前記複数のユーザ・エージェント・プログラムからの出力の同期をとること、からなる方法。
  2. 前記複数のユーザ・エージェント・プログラムによる出力の同期をとる工程が、前記複数のユーザ・エージェント・プログラムによる使用のために、異なるモードを表すマークアップ言語の少なくとも一部を送信し、各ユーザ・エージェント・プログラムが該マークアップ言語の該少なくとも一部に基づいて異なるモードで情報を出力するようにすることを含む請求項1に記載の方法。
  3. 前記複数のユーザ・エージェント・プログラムの1つが、グラフィカル・ブラウザを含み、前記複数のユーザ・エージェント・プログラムの他の1つが、音声ブラウザを含み、前記複数のユーザ・エージェント・プログラムからの前記出力が、前記複数のユーザ・エージェント・プログラムを通じて異なるモードで同時に入力されるユーザ入力を含む請求項2に記載の方法。
  4. 前記複数のユーザ・エージェント・プログラムによる使用のために、異なるモードを表すマークアップ言語の少なくとも一部を送信する工程が、異なるモードに関連付けられたマークアップ言語形式を複数の異なるデバイスに送信することを含み、該デバイスの各々は前記複数のユーザ・エージェント・プログラムの1つを動作させるものである請求項2に記載の方法。
  5. 前記複数のユーザ・エージェント・プログラムによる使用のために、異なるモードを表すマークアップ言語の少なくとも一部を送信する工程が、異なるモードに関連付けられたマークアップ言語形式を同じ1つのデバイスに送信することを含み、該デバイスは異なるモードで前記複数のユーザ・エージェント・プログラムを動作させるものである請求項2に記載の方法。
  6. セッション中に、前記複数のユーザ・エージェント・プログラムの各々と通信するためのプロキシを決定する工程を含む請求項1に記載の方法。
  7. 前記複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する工程が、前記複数のユーザ・エージェント・プログラムの各々に対する異なるマークアップ言語形式を提供するアプリケーションと通信することを含み、該異なるマークアップ言語形式は異なるモードを表す請求項2に記載の方法。
  8. 異なるモードで動作する前記複数のユーザ・エージェント・プログラムに対するモード特有命令を取得することが、少なくとも1つのユーザ・エージェント・プログラムに対するモード特有命令を表す基本マークアップ言語で書かれたマークアップ言語形式をフェッチすることを含み、該マークアップ言語形式が、異なるモードで動作している他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含む請求項1に記載の方法。
  9. 前記モード特有命令に基づいて前記複数のユーザ・エージェント・プログラムからの出力の同期をとることは、マルチモーダル・アプリケーションからフェッチされたモード特有命令を解析して同時マルチモーダル・タグ(CMMT)を検出し、検出された場合に、
    該CMMTに基づいて少なくとも1つのユーザ・エージェント・プログラムに対するモード特有命令を取得することを含む請求項1に記載の方法。
  10. マルチモーダル・ネットワーク要素であって、
    同じセッション中に互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する動作をする情報フェッチャと、
    該情報フェッチャに結合して動作し、該セッション中に、該モード特有命令に基づいて該複数のユーザ・エージェント・プログラムからの出力の同期をとるように動作する同時マルチモーダル同期コーディネータと、を備えたマルチモーダル・ネットワーク要素。
  11. 前記同時マルチモーダル同期コーディネータが、セッション中に、前記複数のユーザ・エージェント・プログラムの各々と通信するためのプロキシを決定する請求項10に記載のマルチモーダル・ネットワーク要素。
  12. マルチモーダル通信の方法であって、
    同じセッションで動作している複数のユーザ・エージェント・プログラムに関連付けられた複数の入力モードに対応する同時マルチモーダル入力情報の要求を送信すること、および、
    異なる同時マルチモーダル情報の要求に応答して送信された、該複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報を融合すること、からなる方法。
  13. 同時マルチモーダル入力情報の前記要求を送信する前に、所与のセッション中の異なるモードに関連付けられている各アプリケーションと関連する各異なるモードのためのプロキシを決定する工程と、
    各異なるモード用に決定された該プロキシを使用して、異なる同時マルチモーダル入力情報の前記要求と前記複数のユーザ・エージェント・プログラムとの同期をとる工程と、を含む請求項12に記載の方法。
  14. 前記マルチモーダル入力情報が融合のため適切に受信されたかどうかを判定するために一定期間待つことを含む請求項12に記載の方法。
  15. 各ユーザ・エージェント・プログラムのモードに応じて異なる期間待つことを含む請求項14に記載の方法。
  16. 複数の入力モードに対応する同時マルチモーダル入力情報の前記要求を送信することは、互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を送信し、異なるモードの同時情報入力を要求することを含む請求項12に記載の方法。
  17. 前記複数の入力モードに対応する同時マルチモーダル入力情報の要求を送信する工程は、第1のモード・ベースのマークアップ言語形式をデバイスに送信し、第2のモード・ベースのマークアップ言語形式を1つまたは複数のデバイスに送信して、異なるモードの同時情報入力を要求することを含む請求項12に記載の方法。
  18. 受信時刻に基づいて、および受信した個々の結果の信頼度値に基づいて、異なる同時マルチモーダル情報の要求に応答して送信された、前記複数のユーザ・エージェント・プログラムの1つから送信された受信マルチモーダル入力情報を組み合わせる工程を含む請求項12に記載の方法。
  19. 異なるモードで動作する他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含むようにモード特有命令をトランスコードすることを含む請求項12に記載の方法。
  20. マルチモーダル・ネットワーク要素であって、
    同じセッション中に動作する複数のユーザ・エージェント・プログラムに関連付けられた複数の入力モードに対応する同時マルチモーダル入力情報の要求を各々送信する複数のプロキシと、
    異なる同時マルチモーダル情報の要求に応答して送信された、該複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報に応答するよう動作し、同じセッション中に異なるユーザ・エージェント・プログラムからの同時マルチモーダル通信を提供するために、該複数のユーザ・エージェント・プログラムから送信された異なるマルチモーダル入力情報を融合するように動作するマルチモーダル融合エンジンと、を備えたマルチモーダル・ネットワーク要素。
  21. 前記異なる同時マルチモーダル情報の要求は、互いに対して異なるモードで動作して異なるモードの同時情報入力を要求する前記複数のユーザ・エージェント・プログラムに対するモード特有命令を含み、前記マルチモーダル・ネットワーク要素は、
    同じセッション中に互いに対して異なるモードで動作する前記複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する動作をする情報フェッチャと、
    該情報フェッチャおよび前記複数のプロキシに結合して動作し、セッション中に、前記複数のユーザ・エージェント・プログラムから出力された受信同時マルチモーダル入力情報の同期をとるように動作する同時マルチモーダル同期コーディネータと、を備える請求項20に記載のマルチモーダル・ネットワーク要素。
  22. 前記複数のユーザ・エージェント・プログラムに結合して動作し、非セッション状態中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されている前記複数のユーザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持し、該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立する同時マルチモーダル・セッション・パーシスタンス・コントローラと、
    該同時マルチモーダル・セッション・パーシスタンス・コントローラに結合して動作し、該同時マルチモーダル・セッション・ステータス情報を含むメモリと、を備える請求項21に記載のマルチモーダル・ネットワーク要素。
  23. マークアップ言語インタプリタと、該マークアップ言語インタプリタに結合して動作するトランスコーダとを備え、該トランスコーダは、異なるモードで動作している他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含むようにモード特有命令をトランスコードする請求項20に記載のマルチモーダル・ネットワーク要素。
JP2003571826A 2002-02-27 2003-02-06 同時マルチモーダル通信システムおよび方法 Withdrawn JP2005519363A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/085,990 US6807529B2 (en) 2002-02-27 2002-02-27 System and method for concurrent multimodal communication
PCT/US2003/003657 WO2003073198A2 (en) 2002-02-27 2003-02-06 System and method for concurrent multimodal communication

Publications (1)

Publication Number Publication Date
JP2005519363A true JP2005519363A (ja) 2005-06-30

Family

ID=27765344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003571826A Withdrawn JP2005519363A (ja) 2002-02-27 2003-02-06 同時マルチモーダル通信システムおよび方法

Country Status (8)

Country Link
US (1) US6807529B2 (ja)
EP (2) EP1481334A4 (ja)
JP (1) JP2005519363A (ja)
KR (1) KR100643107B1 (ja)
CN (2) CN1639707A (ja)
AU (1) AU2003209037A1 (ja)
BR (1) BR0307274A (ja)
WO (1) WO2003073198A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8219655B2 (en) 2006-11-17 2012-07-10 Fujitsu Limited Method of associating multiple modalities and a multimodal system
US8452838B2 (en) 2005-03-31 2013-05-28 Nec Corporation Multimodal service session establishing and providing method, and multimodal service session establishing and providing system, and control program for same

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720682B2 (en) 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7679534B2 (en) * 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US8938688B2 (en) 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7881936B2 (en) 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7030863B2 (en) 2000-05-26 2006-04-18 America Online, Incorporated Virtual keyboard system with automatic correction
US7610194B2 (en) 2002-07-18 2009-10-27 Tegic Communications, Inc. Dynamic database reordering system
US7750891B2 (en) 2003-04-09 2010-07-06 Tegic Communications, Inc. Selective input system based on tracking of motion parameters of an input device
US7286115B2 (en) 2000-05-26 2007-10-23 Tegic Communications, Inc. Directional input system with automatic correction
US7821503B2 (en) 2003-04-09 2010-10-26 Tegic Communications, Inc. Touch screen and graphical user interface
EP1192716B1 (en) 1999-05-27 2009-09-23 Tegic Communications, Inc. Keyboard system with automatic correction
US6983307B2 (en) * 2001-07-11 2006-01-03 Kirusa, Inc. Synchronization among plural browsers
CA2397466A1 (en) * 2001-08-15 2003-02-15 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
US7203907B2 (en) 2002-02-07 2007-04-10 Sap Aktiengesellschaft Multi-modal synchronization
AU2003245497A1 (en) * 2002-06-13 2003-12-31 Panasonic Automotive Systems Company Of America Multimode interface
US8583440B2 (en) 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
US20040034531A1 (en) * 2002-08-15 2004-02-19 Wu Chou Distributed multimodal dialogue system and method
US7275217B2 (en) * 2002-09-09 2007-09-25 Vijay Anand Saraswat System and method for multi-modal browsing with integrated update feature
US7257575B1 (en) 2002-10-24 2007-08-14 At&T Corp. Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs
US7016845B2 (en) * 2002-11-08 2006-03-21 Oracle International Corporation Method and apparatus for providing speech recognition resolution on an application server
US7152033B2 (en) * 2002-11-12 2006-12-19 Motorola, Inc. Method, system and module for multi-modal data fusion
US7769811B2 (en) 2003-03-03 2010-08-03 Aol Llc Instant messaging sound control
US7158779B2 (en) * 2003-11-11 2007-01-02 Microsoft Corporation Sequential multimodal input
US7363027B2 (en) 2003-11-11 2008-04-22 Microsoft Corporation Sequential multimodal input
US7739350B2 (en) * 2003-12-10 2010-06-15 International Business Machines Corporation Voice enabled network communications
US7409690B2 (en) * 2003-12-19 2008-08-05 International Business Machines Corporation Application module for managing interactions of distributed modality components
US7660400B2 (en) 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
US20050165601A1 (en) * 2004-01-28 2005-07-28 Gupta Anurag K. Method and apparatus for determining when a user has ceased inputting data
US7636083B2 (en) * 2004-02-20 2009-12-22 Tegic Communications, Inc. Method and apparatus for text input in various languages
KR100629434B1 (ko) * 2004-04-24 2006-09-27 한국전자통신연구원 음성/그래픽 입출력이 가능한 멀티모달 웹기반 데이터방송처리 장치 및 그 방법과 그를 이용한 멀티모달 웹기반데이터방송 수신 시스템 및 그 방법
DE602004008887T2 (de) * 2004-05-18 2008-01-17 Alcatel Lucent Verfahren und Server zur Bereitstellung eines multi-modalen Dialogs
US7925512B2 (en) * 2004-05-19 2011-04-12 Nuance Communications, Inc. Method, system, and apparatus for a voice markup language interpreter and voice browser
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US8768711B2 (en) * 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application
US7921163B1 (en) 2004-07-02 2011-04-05 Aol Inc. Routing and displaying messages for multiple concurrent instant messaging sessions involving a single online identity
US20060036770A1 (en) * 2004-07-30 2006-02-16 International Business Machines Corporation System for factoring synchronization strategies from multimodal programming model runtimes
US7818379B1 (en) 2004-08-31 2010-10-19 Aol Inc. Notification and disposition of multiple concurrent instant messaging sessions involving a single online identity
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
US7627638B1 (en) * 2004-12-20 2009-12-01 Google Inc. Verbal labels for electronic messages
US7356567B2 (en) 2004-12-30 2008-04-08 Aol Llc, A Delaware Limited Liability Company Managing instant messaging sessions on multiple devices
EP1696342A1 (en) * 2005-02-28 2006-08-30 BRITISH TELECOMMUNICATIONS public limited company Combining multimedia data
US20060229880A1 (en) * 2005-03-30 2006-10-12 International Business Machines Corporation Remote control of an appliance using a multimodal browser
US20060235694A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
US20060253272A1 (en) * 2005-05-06 2006-11-09 International Business Machines Corporation Voice prompts for use in speech-to-speech translation system
US7548804B2 (en) * 2005-05-19 2009-06-16 Novariant, Inc. Emulation to provide multiple applications in mobile equipment
US7752048B2 (en) 2005-05-27 2010-07-06 Oracle International Corporation Method and apparatus for providing speech recognition resolution on a database
US8204995B2 (en) * 2005-06-29 2012-06-19 Nokia Corporation Multidevice session establishment for multimodal browsing
US7561967B2 (en) * 2005-07-29 2009-07-14 Novariant, Inc. Navigation receiver with functional extensibility
WO2007047246A2 (en) * 2005-10-11 2007-04-26 Barry Appelman Enabling and exercising control over selected sounds associated with incoming communications
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8504606B2 (en) * 2005-11-09 2013-08-06 Tegic Communications Learner for resource constrained devices
US20070115931A1 (en) * 2005-11-18 2007-05-24 Anderson David J Inter-server multimodal user communications
EP1958078A2 (en) * 2005-11-23 2008-08-20 Envio Networks Inc. System and method for mobile digital media content delivery and services marketing
US7751848B2 (en) * 2005-11-23 2010-07-06 Envio Networks Inc. Systems and methods for providing concurrent mobile applications to mobile communication devices
US8189563B2 (en) * 2005-12-08 2012-05-29 International Business Machines Corporation View coordination for callers in a composite services enablement environment
US7587378B2 (en) * 2005-12-09 2009-09-08 Tegic Communications, Inc. Embedded rule engine for rendering text and other applications
US8219584B2 (en) * 2005-12-15 2012-07-10 At&T Intellectual Property I, L.P. User access to item information
US7716682B2 (en) * 2006-01-04 2010-05-11 Oracle International Corporation Multimodal or multi-device configuration
US20070161369A1 (en) * 2006-01-11 2007-07-12 Envio Networks Inc. Methods for Intelligent Number Dialing Assistance and Related Marketing Techniques
WO2007087553A2 (en) * 2006-01-24 2007-08-02 Envio Networks Inc. Methods for marketing digital content to mobile communication device users
US7487453B2 (en) * 2006-03-24 2009-02-03 Sap Ag Multi-modal content presentation
US7580925B2 (en) * 2006-04-19 2009-08-25 Tegic Communications, Inc. Efficient storage and search of word lists and other text
US7634294B2 (en) 2006-04-25 2009-12-15 At&T Intellectual Property I, L.P. Method and apparatus for exchanging content over distinct wireless access technologies
WO2007141446A1 (fr) * 2006-06-02 2007-12-13 France Telecom Système de gestion d'un service interactif multimodal
US7970909B1 (en) 2006-06-22 2011-06-28 At&T Intellectual Property I, L.P. Method and system for associating concurrent telephone and data network sessions
US8233894B2 (en) * 2006-08-23 2012-07-31 Resource Consortium Limited System and method for sending mobile media content to another mobile device user
US20080065715A1 (en) * 2006-08-28 2008-03-13 Ko-Yu Hsu Client-Server-Based Communications System for the Synchronization of Multimodal data channels
US8145493B2 (en) 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US20080104169A1 (en) * 2006-10-30 2008-05-01 Microsoft Corporation Processing initiate notifications for different modes of communication
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US20080140390A1 (en) * 2006-12-11 2008-06-12 Motorola, Inc. Solution for sharing speech processing resources in a multitasking environment
US8160532B2 (en) * 2007-01-08 2012-04-17 Skyweaver, Inc. Community interaction using mobile communication devices
US8225203B2 (en) 2007-02-01 2012-07-17 Nuance Communications, Inc. Spell-check for a keyboard system with automatic correction
US8201087B2 (en) 2007-02-01 2012-06-12 Tegic Communications, Inc. Spell-check for a keyboard system with automatic correction
US7801728B2 (en) * 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US8938392B2 (en) 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US8103499B2 (en) * 2007-03-22 2012-01-24 Tegic Communications, Inc. Disambiguation of telephone style key presses to yield Chinese text using segmentation and selective shifting
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8299943B2 (en) 2007-05-22 2012-10-30 Tegic Communications, Inc. Multiple predictions in a reduced keyboard disambiguating system
US7685293B2 (en) * 2007-08-21 2010-03-23 Qualcomm Incorporated Method and apparatus for optimization of sigcomp UDVM performance
US20090089251A1 (en) * 2007-10-02 2009-04-02 Michael James Johnston Multimodal interface for searching multimedia content
JP5159261B2 (ja) 2007-11-12 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション セッションを管理する技術
US8386260B2 (en) * 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US20090182562A1 (en) * 2008-01-14 2009-07-16 Garmin Ltd. Dynamic user interface for automated speech recognition
AU2009231676B2 (en) 2008-04-02 2013-10-03 Twilio Inc. System and method for processing telephony sessions
US8837465B2 (en) 2008-04-02 2014-09-16 Twilio, Inc. System and method for processing telephony sessions
US20090328062A1 (en) * 2008-06-25 2009-12-31 Microsoft Corporation Scalable and extensible communication framework
US8862681B2 (en) 2008-06-25 2014-10-14 Microsoft Corporation Multimodal conversation transfer
CN102227904A (zh) 2008-10-01 2011-10-26 特维里奥公司 电话网络事件的系统和方法
US11487347B1 (en) * 2008-11-10 2022-11-01 Verint Americas Inc. Enhanced multi-modal communication
US9374391B2 (en) * 2008-11-11 2016-06-21 Broadsoft, Inc. Composite endpoint mechanism
CA2789942C (en) 2009-03-02 2017-05-23 Jeffrey Lawson Method and system for a multitenancy telephone network
US8509415B2 (en) 2009-03-02 2013-08-13 Twilio, Inc. Method and system for a multitenancy telephony network
US20110066507A1 (en) * 2009-09-14 2011-03-17 Envio Networks Inc. Context Enhanced Marketing of Content and Targeted Advertising to Mobile Device Users
US20110083179A1 (en) * 2009-10-07 2011-04-07 Jeffrey Lawson System and method for mitigating a denial of service attack using cloud computing
US8582737B2 (en) * 2009-10-07 2013-11-12 Twilio, Inc. System and method for running a multi-module telephony application
US9210275B2 (en) 2009-10-07 2015-12-08 Twilio, Inc. System and method for running a multi-module telephony application
CN102804700B (zh) 2010-01-19 2015-04-15 特维里奥公司 用于保持通话会话状态的方法和系统
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8296151B2 (en) * 2010-06-18 2012-10-23 Microsoft Corporation Compound gesture-speech commands
US9338064B2 (en) 2010-06-23 2016-05-10 Twilio, Inc. System and method for managing a computing cluster
US9459926B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US9459925B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US9590849B2 (en) 2010-06-23 2017-03-07 Twilio, Inc. System and method for managing a computing cluster
US8416923B2 (en) 2010-06-23 2013-04-09 Twilio, Inc. Method for providing clean endpoint addresses
US20120208495A1 (en) 2010-06-23 2012-08-16 Twilio, Inc. System and method for monitoring account usage on a platform
US8838707B2 (en) 2010-06-25 2014-09-16 Twilio, Inc. System and method for enabling real-time eventing
US8649268B2 (en) 2011-02-04 2014-02-11 Twilio, Inc. Method for processing telephony sessions of a network
US20140044123A1 (en) 2011-05-23 2014-02-13 Twilio, Inc. System and method for real time communicating with a client application
US9648006B2 (en) 2011-05-23 2017-05-09 Twilio, Inc. System and method for communicating with a client application
US9398622B2 (en) 2011-05-23 2016-07-19 Twilio, Inc. System and method for connecting a communication to a client
US10182147B2 (en) 2011-09-21 2019-01-15 Twilio Inc. System and method for determining and communicating presence information
WO2013044138A1 (en) 2011-09-21 2013-03-28 Twilio, Inc. System and method for authorizing and connecting application developers and users
US9495227B2 (en) 2012-02-10 2016-11-15 Twilio, Inc. System and method for managing concurrent events
US20130304928A1 (en) 2012-05-09 2013-11-14 Twilio, Inc. System and method for managing latency in a distributed telephony network
US9602586B2 (en) 2012-05-09 2017-03-21 Twilio, Inc. System and method for managing media in a distributed communication network
US9240941B2 (en) 2012-05-09 2016-01-19 Twilio, Inc. System and method for managing media in a distributed communication network
US9247062B2 (en) 2012-06-19 2016-01-26 Twilio, Inc. System and method for queuing a communication session
WO2014005640A1 (en) * 2012-07-05 2014-01-09 Nec Europe Ltd. Method and system for disallowing conflicting web application events
US8737962B2 (en) 2012-07-24 2014-05-27 Twilio, Inc. Method and system for preventing illicit use of a telephony platform
US8738051B2 (en) 2012-07-26 2014-05-27 Twilio, Inc. Method and system for controlling message routing
US8938053B2 (en) 2012-10-15 2015-01-20 Twilio, Inc. System and method for triggering on platform usage
US8948356B2 (en) 2012-10-15 2015-02-03 Twilio, Inc. System and method for routing communications
US9253254B2 (en) 2013-01-14 2016-02-02 Twilio, Inc. System and method for offering a multi-partner delegated platform
US9282124B2 (en) 2013-03-14 2016-03-08 Twilio, Inc. System and method for integrating session initiation protocol communication in a telecommunications platform
US9001666B2 (en) 2013-03-15 2015-04-07 Twilio, Inc. System and method for improving routing in a distributed communication platform
US9160696B2 (en) 2013-06-19 2015-10-13 Twilio, Inc. System for transforming media resource into destination device compatible messaging format
US9225840B2 (en) 2013-06-19 2015-12-29 Twilio, Inc. System and method for providing a communication endpoint information service
US9338280B2 (en) 2013-06-19 2016-05-10 Twilio, Inc. System and method for managing telephony endpoint inventory
US9483328B2 (en) 2013-07-19 2016-11-01 Twilio, Inc. System and method for delivering application content
US9137127B2 (en) 2013-09-17 2015-09-15 Twilio, Inc. System and method for providing communication platform metadata
US9338018B2 (en) 2013-09-17 2016-05-10 Twilio, Inc. System and method for pricing communication of a telecommunication platform
US9274858B2 (en) 2013-09-17 2016-03-01 Twilio, Inc. System and method for tagging and tracking events of an application platform
US9553799B2 (en) 2013-11-12 2017-01-24 Twilio, Inc. System and method for client communication in a distributed telephony network
US9325624B2 (en) 2013-11-12 2016-04-26 Twilio, Inc. System and method for enabling dynamic multi-modal communication
EP3084714A4 (en) * 2013-12-20 2017-08-02 Robert Bosch GmbH System and method for dialog-enabled context-dependent and user-centric content presentation
US9344573B2 (en) 2014-03-14 2016-05-17 Twilio, Inc. System and method for a work distribution service
US9226217B2 (en) 2014-04-17 2015-12-29 Twilio, Inc. System and method for enabling multi-modal communication
US9516101B2 (en) 2014-07-07 2016-12-06 Twilio, Inc. System and method for collecting feedback in a multi-tenant communication platform
US9774687B2 (en) 2014-07-07 2017-09-26 Twilio, Inc. System and method for managing media and signaling in a communication platform
US9251371B2 (en) 2014-07-07 2016-02-02 Twilio, Inc. Method and system for applying data retention policies in a computing platform
US9246694B1 (en) 2014-07-07 2016-01-26 Twilio, Inc. System and method for managing conferencing in a distributed communication network
EP3210350B1 (en) 2014-10-21 2020-05-20 Twilio, Inc. Method for providing a miro-services communication platform
US9477975B2 (en) 2015-02-03 2016-10-25 Twilio, Inc. System and method for a media intelligence platform
WO2016157658A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US9948703B2 (en) 2015-05-14 2018-04-17 Twilio, Inc. System and method for signaling through data storage
US10419891B2 (en) 2015-05-14 2019-09-17 Twilio, Inc. System and method for communicating through multiple endpoints
US10659349B2 (en) 2016-02-04 2020-05-19 Twilio Inc. Systems and methods for providing secure network exchanged for a multitenant virtual private cloud
US10686902B2 (en) 2016-05-23 2020-06-16 Twilio Inc. System and method for a multi-channel notification service
US10063713B2 (en) 2016-05-23 2018-08-28 Twilio Inc. System and method for programmatic device connectivity
KR101934954B1 (ko) * 2017-05-24 2019-01-03 네이버 주식회사 음성요청에 대응하는 정보 전달 향상을 위한 출력
US10841755B2 (en) 2017-07-01 2020-11-17 Phoneic, Inc. Call routing using call forwarding options in telephony networks

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640590A (en) * 1992-11-18 1997-06-17 Canon Information Systems, Inc. Method and apparatus for scripting a text-to-speech-based multimedia presentation
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
KR100430953B1 (ko) * 1998-10-02 2004-05-12 인터내셔널 비지네스 머신즈 코포레이션 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법
US6570555B1 (en) * 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
GB0030330D0 (en) * 2000-12-13 2001-01-24 Hewlett Packard Co Idiom handling in voice service systems
US20030046316A1 (en) * 2001-04-18 2003-03-06 Jaroslav Gergic Systems and methods for providing conversational computing via javaserver pages and javabeans
US7136909B2 (en) * 2001-12-28 2006-11-14 Motorola, Inc. Multimodal communication method and apparatus with multimodal profile

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8452838B2 (en) 2005-03-31 2013-05-28 Nec Corporation Multimodal service session establishing and providing method, and multimodal service session establishing and providing system, and control program for same
US8219655B2 (en) 2006-11-17 2012-07-10 Fujitsu Limited Method of associating multiple modalities and a multimodal system

Also Published As

Publication number Publication date
CN1639707A (zh) 2005-07-13
EP1481334A4 (en) 2005-11-23
KR20040089677A (ko) 2004-10-21
EP1679622A2 (en) 2006-07-12
CN101291336A (zh) 2008-10-22
WO2003073198A2 (en) 2003-09-04
AU2003209037A1 (en) 2003-09-09
KR100643107B1 (ko) 2006-11-10
AU2003209037A8 (en) 2003-09-09
EP1481334A2 (en) 2004-12-01
WO2003073198A3 (en) 2004-01-08
EP1679622A3 (en) 2006-08-09
US20030167172A1 (en) 2003-09-04
BR0307274A (pt) 2004-12-21
US6807529B2 (en) 2004-10-19

Similar Documents

Publication Publication Date Title
JP4439920B2 (ja) 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法
US6807529B2 (en) System and method for concurrent multimodal communication
JP2005527020A (ja) 同時マルチモーダル・タグを使用する同時マルチモーダル通信システムおよび方法
US7272564B2 (en) Method and apparatus for multimodal communication with user control of delivery modality
US9819744B1 (en) Multi-modal communication
KR101027548B1 (ko) 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러
US7203907B2 (en) Multi-modal synchronization
KR100561228B1 (ko) 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템
RU2494444C2 (ru) Способы и устройство для осуществления распределенных многомодальных приложений
US7382770B2 (en) Multi-modal content and automatic speech recognition in wireless telecommunication systems
US7739350B2 (en) Voice enabled network communications
US20080221899A1 (en) Mobile messaging environment speech processing facility
US20040078424A1 (en) Web services via instant messaging
US20080221898A1 (en) Mobile navigation environment speech processing facility
US20020078148A1 (en) Voice communication concerning a local entity
US20020069066A1 (en) Locality-dependent presentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060206

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080415