JP2005519363A - 同時マルチモーダル通信システムおよび方法 - Google Patents
同時マルチモーダル通信システムおよび方法 Download PDFInfo
- Publication number
- JP2005519363A JP2005519363A JP2003571826A JP2003571826A JP2005519363A JP 2005519363 A JP2005519363 A JP 2005519363A JP 2003571826 A JP2003571826 A JP 2003571826A JP 2003571826 A JP2003571826 A JP 2003571826A JP 2005519363 A JP2005519363 A JP 2005519363A
- Authority
- JP
- Japan
- Prior art keywords
- user agent
- multimodal
- mode
- agent programs
- simultaneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004891 communication Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims description 68
- 230000004927 fusion Effects 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 23
- 230000002688 persistence Effects 0.000 claims description 14
- 230000004044 response Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 abstract description 4
- 239000003795 chemical substances by application Substances 0.000 description 66
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000001934 delay Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 229920001690 polydopamine Polymers 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72445—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Computer And Data Communications (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Information Transfer Between Computers (AREA)
Abstract
マルチモーダル・ネットワーク要素(14)は、1つまたは複数のデバイス(12,16)上の異なるユーザ・エージェント・プログラム(30,34)を通じた同時マルチモーダル通信セッションを容易にする。例えば、スピーチ・エンジンおよびコール/セッション終了を含む音声ゲートウェイ(16)の音声ブラウザ(34)などの音声モードで通信するユーザ・エージェント・プログラムは、モバイル・デバイス(12)上のグラフィカル・ブラウザ(30)などの異なるモードで動作している他のユーザ・エージェント・プログラムと同期する。複数のユーザ・エージェント・プログラム(30,34)は、セッション時にコンテンツ・サーバ(18)に結合されて動作し、同時マルチモーダル対話を行うことができる。
Description
本発明は、一般的に、通信システムおよび方法に関し、より詳細には、マルチモーダル通信システムおよび方法に関する。
ハンドヘルド・デバイス、携帯電話、ラップトップ・コンピュータ、PDA、インターネット家電、非モバイル・デバイス、およびその他の適切なデバイス等の通信デバイスが関与する新しい技術分野に、情報およびサービスにアクセスするためマルチモーダル対話の応用分野がある。通信デバイスに通常存在するのは、ブラウザのような少なくとも1つや、ユーザ・インターフェースとして動作することが可能な他の好適なソフトウェアのようなユーザ・エージェント・プログラムである。ユーザ・エージェント・プログラムは、(ユーザ・エージェント・プログラムを通じてユーザが入力するか、または他のデバイスまたはソフトウェア・アプリケーションからの)フェッチ要求に応答し、フェッチされた情報を受け取り、内部または外部接続を介してコンテンツ・サーバ内をナビゲートし、情報をユーザに提示することができる。ユーザ・エージェント・プログラムは、グラフィカル・ブラウザ、音声ブラウザ、または当業者には理解される他の適切なユーザ・エージェント・プログラムとすることができる。このようなユーザ・エージェント・プログラムとしては、J2MEアプリケーション、Netscape(商標)、Internet Explorer(商標)、javaアプリケーション、WAPブラウザ、Instant
Messaging、マルチメディア・インターフェース、Windows CE(商標)、または他の適切なソフトウェア実装があるが、これらに限定されるわけではない。
Messaging、マルチメディア・インターフェース、Windows CE(商標)、または他の適切なソフトウェア実装があるが、これらに限定されるわけではない。
マルチモーダル技術を使用することにより、ユーザは、ユーザ・エージェント・プログラムを介して1つのモードで、音声、データ、映像、オーディオ、またはその他の情報などの情報や、電子メール、天気情報、銀行取引、およびニュースまたはその他の情報などのサービスにアクセスし、異なるモードで情報を受信することができる。より具体的には、ユーザは、マイクに向かってフェッチ要求を発するなど、1つまたは複数のモードで情報フェッチ要求をサブミットし、その後、ユーザはフェッチされた情報を、同じモード(つまり、音声)で、または、返された情報を表示画面に目に見える形式で提示するグラフィカル・ブラウザを使用するなど異なるモードで、受信することができる。通信デバイス内では、ユーザ・エージェント・プログラムは、ネットワークに接続されているデバイスまたは他の端末デバイスに存在する標準のWebブラウザまたは他の適切なソフトウェア・プログラムと同様に動作する。
したがって、セッション中に複数のモードで通信することを容易にするために、1つまたは複数のユーザ入力および出力インターフェースをユーザが使用可能であるマルチモーダル通信システムが提案されている。ユーザ・エージェント・プログラムは、異なるデバイス上に配置可能である。例えば、音声ゲートウェイなどのネットワーク要素は、音声ブラウザを含むことができる。例えば、ハンドヘルド・デバイスとしては、WAPブラウザまたは他の適切なテキスト・ベースのユーザ・エージェント・プログラムなどのグラフィカル・ブラウザがある。したがって、マルチモーダル機能を備える場合、ユーザは1つのモードで入力し、異なるモードで戻る情報を受け取ることができる。
例えば、一部の情報を音声モードで入力し、他の情報を触覚インターフェースまたはグラフィカル・インターフェースで入力するなど、ユーザ入力を2つの異なるモードで提供しようとするシステムが提案されている。例えば、提案されているものの1つとして、最初に音声入力し、音声入力が完了した後で短いメッセージを送信することをユーザに要求
するシリアル非同期手法の使用がある。このようなシステム内のユーザは、同じ1つのセッション中にモードを手動で切り換えなければならない場合がある。したがって、そのような提案は面倒なものとなる可能性がある。
するシリアル非同期手法の使用がある。このようなシステム内のユーザは、同じ1つのセッション中にモードを手動で切り換えなければならない場合がある。したがって、そのような提案は面倒なものとなる可能性がある。
他の提案されているシステムは、単一のユーザ・エージェント・プログラムと、マークアップ言語のタグとを既存のHTMLページで使用し、ユーザは、例えば、検索単語を入力する代わりに音声を使ってWebページにナビゲートし、その後、同じHTMLページで、ユーザがテキスト情報を入力することができる。例えば、ユーザは、「city」という単語を発声し、住所を入力することにより、コンテンツ・サーバから視覚的地図情報を取得することができる。しかし、このような提案方法では、通常、1つのデバイス上の同じユーザ・エージェント・プログラムで異なるモードによりマルチモード入力を行う必要がある(同じブラウズを通じて入力する)。したがって、音声およびテキスト情報は、通常、同じHTML形式で入力され、同じユーザ・エージェント・プログラムを通じて処理される。しかし、この提案では、単一のデバイス上で動作している単一のユーザ・エージェント・プログラムを使用する必要がある。
そのため、処理能力および記憶容量が限られているモバイル・デバイスなど、あまり複雑でないデバイスでは、複雑なブラウザを使用するとデバイスのパフォーマンスが低下する可能性がある。また、このようなシステムでは、異なるユーザ・エージェント・プログラムを通じた同時マルチモーダル情報入力を容易にすることができない。さらに、複数のデバイス上で同時マルチモーダル入力を行い、異なるアプリケーションまたは異なるデバイス間に処理を分散させることが望ましい場合がある。
他の提案では、マルチモーダル・ゲートウェイおよびマルチモーダル・プロキシを使用し、マルチモーダル・プロキシでコンテンツをフェッチし、そのコンテンツを通信デバイス内のユーザ・エージェント・プログラム(例えば、ブラウザ)および音声ブラウザ(例えばネットワーク要素内の)に出力し、システム側が1つのデバイスに対し音声とテキスト出力の両方を使用可能であるようにする。しかし、このような手法では、異なるアプリケーションを通じて異なるモードでユーザが情報を同時に入力できるようには思われない。その理由は、この提案もまた、異なるモードのフェッチされた情報を単一のユーザ・エージェント・プログラムまたはブラウザに出力する必要がある単一ユーザ・エージェント手法であると思われるからである。
したがって、同時マルチモーダル通信装置および方法の改良が必要とされている。
本発明を例を使用して説明するが、本発明は類似の参照番号が類似の要素を示す添付の図面に制限されない。
簡単に説明すると、マルチモーダル・ネットワーク要素を使用すると、1つまたは複数のデバイス上の異なるユーザ・エージェント・プログラムを通じて同時マルチモーダル通信セッションを円滑に行うことができる。例えば、スピーチ・エンジンおよびコール/セッション終了を含む音声ゲートウェイの音声ブラウザなどの音声モードで通信するユーザ・エージェント・プログラムは、モバイル・デバイス上のグラフィカル・ブラウザなどの異なるモードで動作している他のユーザ・エージェント・プログラムと同期する。複数のユーザ・エージェント・プログラムは、セッション時にコンテンツ・サーバに結合されて動作し、同時マルチモーダル対話を行うことができる。
簡単に説明すると、マルチモーダル・ネットワーク要素を使用すると、1つまたは複数のデバイス上の異なるユーザ・エージェント・プログラムを通じて同時マルチモーダル通信セッションを円滑に行うことができる。例えば、スピーチ・エンジンおよびコール/セッション終了を含む音声ゲートウェイの音声ブラウザなどの音声モードで通信するユーザ・エージェント・プログラムは、モバイル・デバイス上のグラフィカル・ブラウザなどの異なるモードで動作している他のユーザ・エージェント・プログラムと同期する。複数のユーザ・エージェント・プログラムは、セッション時にコンテンツ・サーバに結合されて動作し、同時マルチモーダル対話を行うことができる。
例えば、マルチモーダル・ネットワーク要素は、テキスト・モードに関連するHTML形式および音声モードに関連するvoiceXML形式など、異なるモードに関連付けられている異なるマークアップ言語形式を取得するなどして、互いに対して異なるモードで
動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する。セッション中のマルチモーダル・ネットワーク要素は、得られたモード特有命令に基づいてユーザのために複数のユーザ・エージェント・プログラムからの出力の同期をとる。例えば、音声ブラウザは1つのデバイス上でオーディオ出力と同期し、グラフィカル・ブラウザは同じデバイスまたは異なるデバイス上の画面の表示出力と同期するという動作を同時に実行するため、ユーザは1つまたは複数のユーザ・エージェント・プログラムを通じて入力可能である。ユーザが入力情報を、異なるモードで動作している複数のユーザ・エージェント・プログラムを通じて入力する場合、方法および装置では、異なる同時マルチモーダル情報の要求に対する応答として、ユーザによって入力された受信同時マルチモーダル入力情報と複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報とを融合、またはリンクする。したがって、同時マルチモーダル入力は異なるユーザ・エージェント・プログラムを通じて利用しやすくなり、同時マルチモーダル・セッション中に複数のデバイスまたは他のデバイスを使用するか、または1つのデバイスで複数のユーザ・エージェント・プログラムを使用することができる。異なるプロキシがマルチモーダル・ネットワーク要素により指定され、異なるモードに設定されている異なるユーザ・エージェント・プログラムの各々と通信する。
動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する。セッション中のマルチモーダル・ネットワーク要素は、得られたモード特有命令に基づいてユーザのために複数のユーザ・エージェント・プログラムからの出力の同期をとる。例えば、音声ブラウザは1つのデバイス上でオーディオ出力と同期し、グラフィカル・ブラウザは同じデバイスまたは異なるデバイス上の画面の表示出力と同期するという動作を同時に実行するため、ユーザは1つまたは複数のユーザ・エージェント・プログラムを通じて入力可能である。ユーザが入力情報を、異なるモードで動作している複数のユーザ・エージェント・プログラムを通じて入力する場合、方法および装置では、異なる同時マルチモーダル情報の要求に対する応答として、ユーザによって入力された受信同時マルチモーダル入力情報と複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報とを融合、またはリンクする。したがって、同時マルチモーダル入力は異なるユーザ・エージェント・プログラムを通じて利用しやすくなり、同時マルチモーダル・セッション中に複数のデバイスまたは他のデバイスを使用するか、または1つのデバイスで複数のユーザ・エージェント・プログラムを使用することができる。異なるプロキシがマルチモーダル・ネットワーク要素により指定され、異なるモードに設定されている異なるユーザ・エージェント・プログラムの各々と通信する。
図1は、本発明の一実施形態によるマルチモーダル通信システム10の一例を示している。この例では、マルチモーダル通信システム10は、通信デバイス12、マルチモーダル融合サーバ14、音声ゲートウェイ16、およびWebサーバ18などのコンテンツ・ソースを含む。通信デバイス12とは、例えば、インターネット家電、PDA、携帯電話、ケーブル・セットトップボックス、テレマティックス・ユニット、ラップトップ・コンピュータ、デスクトップ・コンピュータ、または他のモバイルあるいは非モバイル・デバイスなどである。さらに、所望の通信の種類に応じて、通信デバイス12は、無線ローカル・エリア・ネットワークまたは無線ワイド・エリア・ネットワーク20、WAP/データ・ゲートウェイ22、ショート・メッセージング・サービス・センター(SMSC/ページング・ネットワーク)24、または他の適切なネットワークと通信し稼働することも可能である。同様に、マルチモーダル融合サーバ14は、適切なデバイス、ネットワーク要素またはインターネット、イントラネット、マルチメディア・サーバ(MMS)26、インスタント・メッセージング・サーバ(IMS)28、または他の適切なネットワークを含むネットワークと通信することができる。したがって、通信デバイス12は、通信リンク21,23,および25を介して適切なネットワークと通信し稼働する。同様に、マルチモーダル融合サーバ14は、符号27で示されている従来の通信リンクを介してさまざまなネットワークに適切にリンクすることができる。この例では、それだけに限らないが、音声ゲートウェイ16は、音声認識エンジン、手書き文字認識エンジン、顔認識エンジン、セッション制御、ユーザ提供アルゴリズム、および運用および保守コントローラを必要に応じて含む、従来の音声ゲートウェイ機能を備えることができる。この例では、通信デバイス12は、WAPブラウザ、身振り認識、触覚認識、または他の適切なブラウザの形の視覚的ブラウザ(例えば、グラフィカル・ブラウザ)などのユーザ・エージェント・プログラム30を、例えば、電話回路32として示されているマイクおよびスピーカを含む電話回路とともに備える。他の適切な構成も使用可能である。
音声ゲートウェイ16は、電話回路32のスピーカから出力するのに適した形式でオーディオ情報を出力する、音声ブラウザなどの他のユーザ・エージェント・プログラム34を含む。しかし、スピーカを、ポケベルまたはその他のPDAなどの通信デバイス12以外の異なるデバイスに配置して音声が1つのデバイスに出力されるようにし、ユーザ・エージェント・プログラム30を介する視覚的ブラウザをさらに別のデバイス上に用意できることは理解されるであろう。また、ユーザ・エージェント・プログラム34は音声ゲートウェイ16内に存在するが、ユーザ・エージェント・プログラム34は通信デバイス12(音声ブラウザ36として示されている)内や他の適切なデバイス内に収めることも可
能であることも理解されるであろう。同時マルチモーダル通信に対応するために、本明細書で説明しているように、複数のユーザ・エージェント・プログラム、つまり、ユーザ・エージェント・プログラム30とユーザ・エージェント・プログラム34は、所与のセッションで互いに対して異なるモードで動作する。したがって、ユーザは、開示されているサービスにサインアップし、Webサーバ18または他のサーバ(MFS14を含む)を介してアクセス可能なモード・プリファレンス・データベース36内のモード・プリファレンスをプリセットすることにより、ユーザ・エージェント・プログラムの各々のモードを事前に定義することができる。さらに、ユーザは、所望の場合には、セッション中に、当業界で知られているように、所与のユーザ・エージェント・プログラムのモードを選択したり、変更したりすることができる。
能であることも理解されるであろう。同時マルチモーダル通信に対応するために、本明細書で説明しているように、複数のユーザ・エージェント・プログラム、つまり、ユーザ・エージェント・プログラム30とユーザ・エージェント・プログラム34は、所与のセッションで互いに対して異なるモードで動作する。したがって、ユーザは、開示されているサービスにサインアップし、Webサーバ18または他のサーバ(MFS14を含む)を介してアクセス可能なモード・プリファレンス・データベース36内のモード・プリファレンスをプリセットすることにより、ユーザ・エージェント・プログラムの各々のモードを事前に定義することができる。さらに、ユーザは、所望の場合には、セッション中に、当業界で知られているように、所与のユーザ・エージェント・プログラムのモードを選択したり、変更したりすることができる。
同時マルチモーダル同期コーディネータ42は、セッション中に、他のユーザ・エージェント・プログラムに対するモード特有命令に関連する通信遅延を補正するため複数のユーザ・エージェント・プログラムのうちの1つについてのモード特有命令を一時的に格納するバッファ・メモリを備えることができる。したがって、例えば、必要ならば、同期コーディネータ42は、異なるユーザ・エージェント・プログラム上に同時にレンダリングされるようにモード特有命令を待ち、プロキシに出力するシステム遅延または他の遅延を考慮することができる。
また、必要ならば、ユーザ・エージェント・プログラム30は、ユーザがいくつかのマルチモードをミュートできる入力インターフェースを備えることができる。例えば、デバイスまたはユーザ・エージェント・プログラムが複数モード・オペレーションに対応可能である場合、ユーザは、特定の持続時間の間、モードをミュートするように指示することができる。例えば、ユーザ用の出力モードが音声であるが、ユーザが入っている環境に大きな音が発生している場合、ユーザは、例えば、音声ブラウザへの出力をミュートすることができる。ユーザから受け取ったマルチモード・ミュート・データは、マルチモーダル融合サーバ14により、例えば、メモリ602(図5を参照)に格納され、所与のセッションの間にどのモードをミュートするかを指示可能である。その後、同期コーディネータ42は、ミュートと識別されているモードのモード特有命令を取得することを控えることができる。
情報フェッチャ46は、複数のユーザ・エージェント・プログラム30および34についてマルチモード・アプリケーション54からモード特有命令69を取得する。モード特有命令68,70は、ユーザ・エージェント・プログラム30および34に送られる。この実施形態では、マルチモード・アプリケーション54は、後述のように、異なるユーザ・エージェント・プログラム、したがって異なるモードに関連付けられているモード特有命令を識別するデータを含む。同時マルチモーダル同期コーディネータ42は、モード特有命令を受け取るように情報フェッチャ46に結合して動作する。同時マルチモーダル同期コーディネータ42は、さらに、複数のプロキシ38a〜38nに結合して動作し、所与のセッションに必要なプロキシを指定する。
異なるユーザ・エージェント・プログラム30および34が異なるデバイス上にある場合、方法は、第1のモードに基づくマークアップ言語形式を1つのデバイスに送信し、第2のモード・マークアップ言語に基づく形式を1つまたは複数の他のデバイスに送信して、同じセッション中にユーザが異なるモードで同時情報入力を異なるデバイスに要求することにより、同時マルチモーダル入力情報68,70の要求を送信することを含む。これらのマークアップ言語に基づく形式は、モード特有命令68,70として得られた。
マルチモーダル・セッション・コントローラ40は、着信セッションの検出、セッションへの応答、セッション・パラメータの修正、セッションの終了、およびセッションおよ
び媒体情報とデバイス上のセッション制御アルゴリズムとの交換に使用される。マルチモーダル・セッション・コントローラ40は、必要ならセッションの一次セッション終了ポイントであるか、または例えば、ユーザが音声ゲートウェイなどの他のゲートウェイとのセッションを確立することを望んでいる場合に二次セッション終了ポイントとし、次に、これによりマルチモーダル・セッション・コントローラ40とのセッションを確立することができる。
び媒体情報とデバイス上のセッション制御アルゴリズムとの交換に使用される。マルチモーダル・セッション・コントローラ40は、必要ならセッションの一次セッション終了ポイントであるか、または例えば、ユーザが音声ゲートウェイなどの他のゲートウェイとのセッションを確立することを望んでいる場合に二次セッション終了ポイントとし、次に、これによりマルチモーダル・セッション・コントローラ40とのセッションを確立することができる。
同期コーディネータ42は、同時マルチモーダル入力情報の要求を含む、出力同期メッセージ47および49を、各々のプロキシ38aおよび38nに送信し、それらの出力と各々の複数のユーザ・エージェント・プログラムとの同期をとる。プロキシ38aおよび38nは、同時同期コーディネータ42に、受信したマルチモーダル入力情報72および74を含む入力同期メッセージ51および53を送信する。
同時マルチモーダル同期コーディネータ42は、プロキシを使用して、またはユーザ・エージェント・プログラムに能力があればユーザ・エージェント・プログラムを使用して、同期メッセージ47、49、51、および53を送受信し、プロキシ38aおよび38nが異なるユーザ・エージェント・プログラムから受信マルチモーダル入力情報72および74を受信すると、プロキシ38aおよび38nは受信マルチモーダル入力情報72および74を含む入力同期メッセージ51および53を同期コーディネータ42に送信する。同期コーディネータ42は、受信情報をマルチモーダル融合エンジン44に転送する。さらに、ユーザ・エージェント・プログラム34が同期メッセージをマルチモーダル同期コーディネータ42に送信する場合、マルチモーダル同期コーディネータ42は、その同期メッセージをセッション中の他のユーザ・エージェント・プログラム30に送信する。同時マルチモーダル同期コーディネータ42は、さらに、メッセージ変換を実行し、同期メッセージ・フィルタ処理を行って、同期システムをより効率的なものとすることができる。同時マルチモーダル同期コーディネータ42は、所与のセッションで使用されている現在のユーザ・エージェント・プログラムのリストを保持し、同期処理の必要なときにその通知先を追跡することができる。
マルチモーダル融合サーバ14は、複数のマルチモーダル・プロキシ38a〜38n、マルチモーダル・セッション・コントローラ40、同時マルチモーダル同期コーディネータ42、マルチモーダル融合エンジン44、情報(例えば、モード特有命令)フェッチャ46、およびvoiceXMLインタプリタ50を備える。少なくともマルチモーダル・セッション・コントローラ40、同時マルチモーダル同期コーディネータ42、マルチモーダル融合エンジン44、情報フェッチャ46、およびマルチモーダル・マークアップ言語(例えば、voiceXML)インタプリタ50は、1つまたは複数の処理デバイスを実行するソフトウェア・モジュールとして実装することができる。したがって、1つまたは複数のデバイスにより読み出されたときに1つまたは複数の処理デバイスでソフトウェア・モジュールの各々に関して本明細書で説明している機能を実行する実行可能命令がメモリに格納される。したがって、それだけには限らないが、マルチモーダル融合サーバ14は、デジタル・シグナル・プロセッサ、マイクロコンピュータ、マイクロプロセッサ、状態機械、またはその他の適切な処理デバイスを含む可能性のある処理デバイスを含むが、これらには限定されない。メモリには、ROM、RAM、分散メモリ、フラッシュ・メモリ、または処理デバイスにより実行されたときに1つまたは複数の処理デバイスを本明細書で説明されているように動作させる状態またはその他のデータを格納することが可能な他の適切なメモリがある。あるいはそれとは別に、ソフトウェア・モジュールの機能は、必要に応じてハードウェアまたはハードウェア、ソフトウェア、およびファームウェアの適切な任意の組み合わせで適宜実装することができる。
マルチモーダル・マークアップ言語インタプリタ50は、状態機械または他の適切なハ
ードウェア、ソフトウェア、ファームウェアまたはそれらの適切な組み合わせとすることができ、これは特に、マルチモーダル・アプリケーション54が備えるマークアップ言語を実行する。
ードウェア、ソフトウェア、ファームウェアまたはそれらの適切な組み合わせとすることができ、これは特に、マルチモーダル・アプリケーション54が備えるマークアップ言語を実行する。
図2は、マルチモーダル融合サーバ14によりマルチモーダル通信を実行する方法を示す例である。しかし、本明細書で説明している工程はどれも、適切な順序で適切な1つまたは複数のデバイスにより実行可能であることは理解されるであろう。現在のマルチモーダル・セッションでは、ユーザ・エージェント・プログラム30(例えば、WAPブラウザ)は要求52をWebサーバ18に送信し、Webサーバ18にアクセス可能な同時マルチモーダル・アプリケーション54からコンテンツを要求する。これは、例えば、URLを入力するか、またはアイコンをクリックするか、または他の従来のメカニズムを使用することにより行うことができる。また、破線52で示されているように、ユーザ・エージェント・プログラム30および34は各々、ユーザ・モード情報をマークアップ・インタプリタ50に送信することができる。コンテンツ・サーバとして機能するWebサーバ18は、同時マルチモーダル・サービスへのユーザ・サブスクリプション工程を通じてすでに入力されているモード・プリファレンス・データベース36から、通信デバイス12のマルチモーダル・プリファレンス55を取得する。次に、Webサーバ18は、データベース36からのユーザ・プリファレンスを含む通知56を通じてマルチモーダル融合サーバ14に通知し、例えば、同時マルチモーダル通信でどのユーザ・エージェント・プログラムを使用しているか、どのモードでユーザ・エージェント・プログラムの各々が設定されているかを示す。この例では、ユーザ・エージェント・プログラム30は、テキスト・モードに設定され、ユーザ・エージェント・プログラム34は音声モードに設定されている。その後、同時マルチモード同期コーディネータ42は、セッション中に、複数のマルチモーダル・プロキシ38a〜38nのどれがユーザ・エージェント・プログラム30および34の各々に対して使用されるかを判別する。したがって、同時マルチモード同期コーディネータ42は、マルチモード・プロキシ38aを、テキスト・モードに設定されているユーザ・エージェント・プログラム30と通信するためのテキスト・プロキシとして指定する。同様に、同時マルチモード同期コーディネータ42は、プロキシ38nを、音声モードで動作しているユーザ・エージェント・プログラム34の音声情報を伝達するマルチモーダル・プロキシとして指定する。情報フェッチャは、Webページ・フェッチャ46として示されており、マークアップ言語形式またはその他のデータなどのモード特有命令を同時マルチモーダル・アプリケーション54と関連するWebサーバ18から取得する。
例えば、マルチモーダル・アプリケーション54がユーザに、情報を音声モードとテキスト・モードの両方で入力するよう要求した場合、情報フェッチャ46は、ユーザ・エージェント・プログラム30に対して出力する関連するHTMLマークアップ言語形式および要求66を介してユーザ・エージェント・プログラム34に出力する関連するvoiceXML形式を取得する。その後、これらのモード特有命令は、ユーザ・エージェント・プログラムにより出力としてレンダリングされる(例えば、画面への出力またはスピーカによる出力)。同時マルチモーダル同期コーディネータ42は、セッション中に、モード特有命令に基づき複数のユーザ・エージェント・プログラム30および34からの出力の同期をとる。例えば、同時マルチモーダル同期コーディネータ42は、音声が通信デバイス12上にレンダリングされるときにユーザ・エージェント・プログラム30を介してテキストが画面上に出力されるのと同時にレンダリングされるように適切な時期に各々のユーザ・エージェント・プログラム30および34に異なるモードを表す適切なマークアップ言語形式を送信する。例えば、マルチモーダル・アプリケーション54は、同時にユーザ・エージェント・プログラム30からのテキスト入力を待ちながら、テキスト・ブラウザを介して入力されることが予期される情報に関して、ユーザ・エージェント・プログラム34を介して、音声命令の形式の命令をユーザに与えることができる。例えば、マルチ
モーダル・アプリケーション54は、「please enter your desired destination city followed by your desired departure time」という語句の音声出力を必要とし、その一方で同時に、ユーザ・エージェント・プログラム30を通じて通信デバイスの表示装置上に出力されるフィールドを表示し、そのフィールドは市を意味する「C」として指示され、次の行では送信先を意味する「D」として指示される。この例では、マルチモーダル・アプリケーションは、ユーザによる同時マルチモーダル入力を要求しておらず、1つのモード、つまりテキスト・モードを通じて入力を要求しているだけである。他のモードは、ユーザ命令を送るために使用されている。
モーダル・アプリケーション54は、「please enter your desired destination city followed by your desired departure time」という語句の音声出力を必要とし、その一方で同時に、ユーザ・エージェント・プログラム30を通じて通信デバイスの表示装置上に出力されるフィールドを表示し、そのフィールドは市を意味する「C」として指示され、次の行では送信先を意味する「D」として指示される。この例では、マルチモーダル・アプリケーションは、ユーザによる同時マルチモーダル入力を要求しておらず、1つのモード、つまりテキスト・モードを通じて入力を要求しているだけである。他のモードは、ユーザ命令を送るために使用されている。
それとは別に、マルチモーダル・アプリケーション54が複数のユーザ・エージェント・プログラムを通じて入力情報を入力するようユーザに要求する場合、マルチモーダル融合エンジン14は、セッション中に異なるマルチモーダル・ユーザ・エージェント・プログラムで同時に入力されるユーザ入力を融合する。例えば、ユーザが表示されている地図上の2つの位置をクリックしながら「directions from here to
there」という語句を発声すると、音声ブラウザまたはユーザ・エージェント・プログラム34は開始位置フィールドに「here」を書き込み、目的位置フィールドに受信した入力情報74として「there」と書き込む一方で、グラフィカル・ブラウザ、つまり、ユーザ・エージェント・プログラム30は、開始位置フィールドに地図上の第1のクリック点の地理的位置(例えば、緯度/経度)を書き込み、目的位置フィールドに地図上の第2のクリック点の地理的位置(例えば、緯度/経度)を書き込む。マルチモーダル融合エンジン44はこの情報を取得し、異なるモードで動作している複数のユーザ・エージェント・プログラムからユーザが入力した入力情報を融合し、単語「here」が第1のクリック点の地理的位置に対応し、単語「there」が第2のクリック点の地理的位置(例えば、緯度/経度)に対応すると判定する。このようにして、マルチモーダル融合エンジン44はユーザのコマンドの一揃いの完全な情報を持つ。マルチモーダル融合エンジン44側で、融合された情報60をユーザ・エージェント・プログラム30および34に送り返し、同時マルチモーダル通信に関連する完全な情報を持つようにしたい場合がある。このときに、ユーザ・エージェント・プログラム30は、この情報をコンテンツ・サーバ18にサブミットし、所望の情報を取得することができる。
there」という語句を発声すると、音声ブラウザまたはユーザ・エージェント・プログラム34は開始位置フィールドに「here」を書き込み、目的位置フィールドに受信した入力情報74として「there」と書き込む一方で、グラフィカル・ブラウザ、つまり、ユーザ・エージェント・プログラム30は、開始位置フィールドに地図上の第1のクリック点の地理的位置(例えば、緯度/経度)を書き込み、目的位置フィールドに地図上の第2のクリック点の地理的位置(例えば、緯度/経度)を書き込む。マルチモーダル融合エンジン44はこの情報を取得し、異なるモードで動作している複数のユーザ・エージェント・プログラムからユーザが入力した入力情報を融合し、単語「here」が第1のクリック点の地理的位置に対応し、単語「there」が第2のクリック点の地理的位置(例えば、緯度/経度)に対応すると判定する。このようにして、マルチモーダル融合エンジン44はユーザのコマンドの一揃いの完全な情報を持つ。マルチモーダル融合エンジン44側で、融合された情報60をユーザ・エージェント・プログラム30および34に送り返し、同時マルチモーダル通信に関連する完全な情報を持つようにしたい場合がある。このときに、ユーザ・エージェント・プログラム30は、この情報をコンテンツ・サーバ18にサブミットし、所望の情報を取得することができる。
ブロック200に示されているように、セッションに関して、方法は、互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対しモード特有命令68,70を取得することを含むが、例えば、複数のユーザ・エージェント・プログラムの各々の各モードに固有の異なる種類のマークアップ言語を取得する。ブロック202に示されているように、方法は、セッション中に、ユーザの同時マルチモーダル・オペレーションを円滑に実行可能であるようにするモード特有命令に基づきユーザ・エージェント・プログラムなどの出力の同期を行うことを含む。そこで、マークアップ言語形式のレンダリングの同期をとり、複数のユーザ・エージェント・プログラムを通じて異なるモードで複数のユーザ・エージェント・プログラムからの出力を同時にレンダリングする。ブロック203に示されているように、同時マルチモーダル同期コーディネータ42は、異なるユーザ・エージェント・プログラム30および34に対するモード特有命令セット68,70が、異なるユーザ・エージェント・プログラムを使用してユーザが行う異なるモードでの情報の同時入力を要求するかどうかを判別する。否定の場合、ブロック205に示されているように、同時マルチモーダル同期コーディネータ42は1つのユーザ・エージェント・プログラムだけから受信した入力情報を送信先サーバまたはWebサーバ18に転送する。
しかし、ブロック204に示されているように、異なるユーザ・エージェント・プログラム30および34に対するモード特有命令セット68,70が、異なるモードでの同時
ユーザ入力を要求した場合、方法は、異なるモードで動作する異なるユーザ・エージェント・プログラムに関連する融合されたマルチモーダル応答60を生成するためユーザ・エージェント・プログラム30および34により送り返される、ユーザが入力する受信同時マルチモーダル入力情報を融合することを含む。ブロック206に示されているように、方法は、融合されたマルチモーダル応答60をマークアップ言語インタプリタ50で現在実行中のアプリケーション61に転送して返すことを含む。現在実行中のアプリケーション61(図5を参照)は、インタプリタ50の一部として実行中のアプリケーション54からのマークアップ言語である。
ユーザ入力を要求した場合、方法は、異なるモードで動作する異なるユーザ・エージェント・プログラムに関連する融合されたマルチモーダル応答60を生成するためユーザ・エージェント・プログラム30および34により送り返される、ユーザが入力する受信同時マルチモーダル入力情報を融合することを含む。ブロック206に示されているように、方法は、融合されたマルチモーダル応答60をマークアップ言語インタプリタ50で現在実行中のアプリケーション61に転送して返すことを含む。現在実行中のアプリケーション61(図5を参照)は、インタプリタ50の一部として実行中のアプリケーション54からのマークアップ言語である。
図1および3を参照して、マルチモーダル通信システム10の詳細なオペレーションについて説明する。ブロック300に示されているように、通信デバイス12は、ユーザ・エージェント・プログラム30を介してWebコンテンツまたは他の情報に対する要求52を送信する。ブロック302に示されているように、コンテンツ・サーバ18は、セッションのデバイス・プリファレンスおよびモード・プリファレンスを取得するために識別されているユーザのモード・プリファレンス・データベース36からマルチモーダル・プリファレンス・データ55を取得する。ブロック304に示されているように、方法は、コンテンツ・サーバがマルチモーダル融合サーバ14に、どのユーザ・エージェント・アプリケーションがどのデバイス上で、所与の同時の異なるマルチモーダル通信セッションに対しどのモードを使用して動作しているかを通知することを含む。
前述のように、またブロック306に示されているように、同時マルチモーダル同期コーディネータ42は、モード・プリファレンス・データベース36からのモード・プリファレンス情報55に基づいて異なるモードの各々について各プロキシを判別するようにセットアップされている。ブロック308に示されているように、方法は、必要に応じて、マルチモーダル・セッション・コントローラ40を介して各ユーザ・エージェント・プログラムのユーザ・モード指定を受け取ることを含む。例えば、ユーザは、所望のモードを変更し、モード・プリファレンス・データベース36に格納されているプリセット済みのモード・プリファレンス55と異なるようにすることができる。これは、従来のセッション・メッセージング機能を使用して実行可能である。所望のユーザ・エージェント・プログラムが異なるデバイス上にある場合など、ユーザが特定のユーザ・エージェント・プログラムに対する所望のモードを変更している場合、異なるマークアップ言語形式などの、異なるモード特有命令が必要になることがある。ユーザ・モード指定が変更された場合、情報フェッチャ46は、ユーザ・エージェント・アプリケーションに対し選択されているモードに基づいて適切なモード特有命令をフェッチし、かつ要求する。
その後、ブロック310に示されているように、情報フェッチャ46は、ユーザ・エージェント・プログラム毎に、したがってモード毎に、フェッチ要求66として示されているモード特有命令をコンテンツ・サーバ18からフェッチする。したがって、マルチモーダル融合サーバ14は、情報フェッチャ46を介して、異なるモードを表すマークアップ言語を取得し、これにより、各ユーザ・エージェント・プログラム30および34は、そのマークアップ言語に基づいてさまざまモードで情報を出力することができる。しかし、マルチモーダル融合サーバ14はマークアップ言語に基づく情報だけでなく、適切なモード特有命令であればどのようなものでも取得することができることは理解されるであろう。
モード特有命令が各ユーザ・エージェント・プログラムについてコンテンツ・サーバ18からフェッチされ、CMMTがモード特有命令68,70に関連付けられていない場合、受け取ったモード特有命令69をトランスコーダ608(図5を参照)に送ることができる。トランスコーダ608は、受け取ったモード特有命令を、インタプリタ50により解釈可能であるように、基本マークアップ言語形式にトランスコードし、異なるモード6
10に対するモード特有命令を識別するデータを有する基本マークアップ言語形式を作成する。したがって、トランスコーダは、異なるモードで動作する他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含むようにモード特有命令をトランスコードする。例えば、インタプリタ50がvoiceXMLなどの基本マークアップ言語を使用しており、アプリケーション54の一方のモード特有命令セットがvoiceXML形式であり、他方がHTML形式であれば、トランスコーダ608は、HTML形式を取得可能な場所のURL、または実際のHTML形式自体を識別するCMMTをvoiceXML形式に埋め込む。さらに、モード特有命令のいずれも基本マークアップ言語のものでなければ、一組のモード特有命令が基本マークアップ言語に変換され、それ以降、それ以外のモード特有命令群はCMMTにより参照される。
10に対するモード特有命令を識別するデータを有する基本マークアップ言語形式を作成する。したがって、トランスコーダは、異なるモードで動作する他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含むようにモード特有命令をトランスコードする。例えば、インタプリタ50がvoiceXMLなどの基本マークアップ言語を使用しており、アプリケーション54の一方のモード特有命令セットがvoiceXML形式であり、他方がHTML形式であれば、トランスコーダ608は、HTML形式を取得可能な場所のURL、または実際のHTML形式自体を識別するCMMTをvoiceXML形式に埋め込む。さらに、モード特有命令のいずれも基本マークアップ言語のものでなければ、一組のモード特有命令が基本マークアップ言語に変換され、それ以降、それ以外のモード特有命令群はCMMTにより参照される。
あるいは、マルチモーダル・アプリケーション54は、必要なCMMT情報を供給し、同時マルチモーダル・セッション時に複数のユーザ・エージェント・プログラムによる出力の同期処理を円滑に行えるようにすることができる。各ユーザ・エージェント・プログラムに対するモード特有命令の一例を、以下にマークアップ言語形式で示す。マークアップ言語形式は、マルチモーダル・アプリケーション54により供給され、マルチモーダル融合サーバ14によって同時マルチモーダル通信セッションを実行するために使用される。マルチモーダルvoiceXMLインタプリタ50では、マルチモーダル・アプリケーション54がvoiceXMLを基本言語として使用するものと想定している。ユーザに代わって複数のユーザ・エージェント・プログラムが出力の同期処理を円滑に行えるようにするため、voiceXML形式の拡張機能またはHTML形式のインデックスなどの同時マルチモーダル・タグ(CMMT)を含む、またはそのインデックスを生成するマルチモーダル・アプリケーション54を作成することができる。CMMTは、モードを識別し、識別されたモードでユーザ・エージェント・プログラムのうちの1つにより出力される実際のHTML形式などの情報を指し示すか、またはそのような情報を含む。CMMTは、さらに、マルチモーダル同期データとしても使用され、CMMTを入れることにより異なるモード特有命令と異なるユーザ・エージェント・プログラムとの同期をとる必要があることを示す。
例えば、voiceXMLがマルチモーダル・アプリケーション54の基本言語であれば、CMMTはテキスト・モードであることを示す。この例では、CMMTは、ユーザ・エージェント・プログラムにより出力されるHTML形式のテキストを含むURLを含むか、またはCMMTの一部としてHTMLを含むことができる。CMMTは、マークアップ言語の属性拡張機能のプロパティを備えることができる。マルチモーダルvoiceXMLインタプリタ50は、情報フェッチャ46を使用してモード特有命令をフェッチし、マルチモーダル・アプリケーションからフェッチされたモード特有命令を解析し(この例では、実行し)、CMMTを検出する。検出された後、マルチモーダルvoiceXMLインタプリタ50は、CMMTを解釈し、必要ならば、テキスト・モード用のHTMLなど、他のモード特有命令を取得する。
例えば、CMMTは、グラフィカル・ブラウザ用のテキスト情報を取得する場所を示すことができる。以下に示すのは、音声ブラウザが「where from」および「where to」と尋ねる音声を出力し、その一方でグラフィカル・ブラウザが「from
city」および「to city」と表示する必要がある同時マルチモーダル・アプリケーションに対するvoiceXML形式の形式の同時マルチモーダル巡回アプリケーションのモード特有命令の一例を示す表である。「from city」および「to city」と示されているフィールドでは、ユーザが異なるブラウザを通じて、受け取り済みの同時マルチモーダル情報を入力することが予期されている。
city」および「to city」と表示する必要がある同時マルチモーダル・アプリケーションに対するvoiceXML形式の形式の同時マルチモーダル巡回アプリケーションのモード特有命令の一例を示す表である。「from city」および「to city」と示されているフィールドでは、ユーザが異なるブラウザを通じて、受け取り済みの同時マルチモーダル情報を入力することが予期されている。
表1
<vxml version=“2.0”>
<form>
<block>
<cmmt mode=“html” src=“./itinerary.html”/>非音声モードがhtml(テキスト)であること、およびソース情報がitinerary.htmlというurlに置かれていることを示す
</block>
<field name=“from_city”>グラフィカル・ブラウザを通じて収集しようと試みる予期される情報テキスト断片
<grammar src=“./city.xml”/>音声用であり、音声認識エンジンの可能な応答のリストを作成する必要がある
Where from? 音声ブラウザが発するプロンプト
</field>
<field name=“to_city”>テキストが入ることを予期する
<grammar src=“./city.xml”/>
Where to? 音声ブラウザが発する音声
</field>
</form>
</vxml>
したがって、上記のマークアップ言語形式は、少なくとも1つのユーザ・エージェント・プログラムに対するモード特有命令を表す基本マークアップ言語で書かれており、CMMTは、異なるモードで動作している他のユーザ・エージェント・プログラムに対するモード特有命令を指定する拡張である。
ブロック311に示されているように、ユーザがプリファレンスを変更した場合、方法は、その変更と矛盾しないようにプロキシをリセットすることを含む。ブロック312に示されているように、マルチモーダル融合サーバ14は、受信待機ポイントに到達したかどうかを判別する。到達した場合、ブロック314に示されているように次の状態に入る。肯定の場合、この工程は完了である。否定の場合、方法は、異なるユーザ・エージェント・プログラムに対してモード特有命令の同期処理を行うことを含む。マルチモーダルvoiceXMLインタプリタ50は、この例では、ユーザ・エージェント・プログラム30についてはHTMLを、ユーザ・エージェント34についてはvoiceXMLを、同時マルチモーダル同期コーディネータ42に出力し、複数のユーザ・エージェント・プログラムによる出力の同期をとる。これは、例えば、前述のように、受信待機ポイントの発生に基づいて実行することができる。これは、ブロック316に示されている。
ブロック318に示されているように、方法は、同時マルチモーダル同期コーディネータ42などにより、対応するプロキシ38aおよび38nに、同期しているモード特有命令68,70を送信し、同じセッションでユーザによる異なるモードでのユーザ入力情報を要求することを含む。同期をとった要求68および70は、ユーザ・エージェント・プログラム30および34の各々に送られる。例えば、異なるユーザ・エージェント・プログラムに関連付けられている複数の入力モードに対応する異なる同時モード入力情報の要求は、モード特有命令68および70を含む同期をとった要求として示される。これらは、例えば、同期したマークアップ言語形式とすることができる。
ユーザ・エージェント・プログラム30および34は、モード特有命令を同時にレンダリングすると、方法は、ユーザ入力をブロック320に示されているようにタイムアウト期間内に受信したかどうか、または他のイベントが発生したかどうかを判別することを含
む。例えば、マルチモーダル融合エンジン44は、一定期間待ち、それから、融合のためにユーザが入力したマルチモーダル入力情報が複数のユーザ・エージェント・プログラムから適切に受信されたかどうかを判別することができる。この待機期間は、各ユーザ・エージェント・プログラムのモード設定に応じて異なる期間とすることができる。例えば、ユーザが音声とテキスト情報の両方を同時に入力することが期待されているが、マルチモーダル融合エンジンが一定期間内に融合に関する情報を受け取っていない場合、エラーが発生しているとみなされる。さらに、マルチモーダル融合エンジン44を使用すると、音声情報だと音声ゲートウェイ16を介した処理に比較的長い時間を要するため、テキスト情報の場合と比べて音声情報では返すのにより長い時間がかかる場合がある。
む。例えば、マルチモーダル融合エンジン44は、一定期間待ち、それから、融合のためにユーザが入力したマルチモーダル入力情報が複数のユーザ・エージェント・プログラムから適切に受信されたかどうかを判別することができる。この待機期間は、各ユーザ・エージェント・プログラムのモード設定に応じて異なる期間とすることができる。例えば、ユーザが音声とテキスト情報の両方を同時に入力することが期待されているが、マルチモーダル融合エンジンが一定期間内に融合に関する情報を受け取っていない場合、エラーが発生しているとみなされる。さらに、マルチモーダル融合エンジン44を使用すると、音声情報だと音声ゲートウェイ16を介した処理に比較的長い時間を要するため、テキスト情報の場合と比べて音声情報では返すのにより長い時間がかかる場合がある。
この例では、ユーザはユーザ・エージェント・プログラム30を介してテキストを入力すると同時にマイクを使用して音声情報を発声し、ユーザ・エージェント・プログラム34に伝達することが要求される。受信同時マルチモーダル入力情報72および74は、ユーザ・エージェント・プログラム30および34から受信され、適切な通信リンクを介して各々のプロキシに渡される。ユーザ・エージェント・プログラム34とデバイス12のマイクおよびスピーカとの間の符号76で示されている通信は、PCM形式または他の適切な形式で実行され、この例では、ユーザ・エージェント・プログラムにより出力することができるモード特有命令形式ではないことに注意されたい。
ユーザがテキスト・ブラウザと音声ブラウザを同時に使用して情報を入力し、マルチモーダル融合エンジン44が複数のユーザ・エージェント・プログラムから送信された同時マルチモーダル入力情報を受信した場合、マルチモーダル融合エンジン44は、ブロック322に示されているようにユーザから受信した入力情報72および74を融合する。
図4は、マルチモーダル融合エンジン44のオペレーションの一例を示している。説明のため、あるイベントについて、「no input」はユーザがこのモードで何も入力していなかったことを意味するものとする。「no match」は、何かが入力されたが、予期した値でなかったことを意味する。結果は、ユーザにより正常に入力された内容からの一組のスロット(またはフィールド)名および対応する値のペアである。例えば、適切な入力内容は、“City=Chicago”および“State=Illinois”および“Street”=“first street”および例えば、0%から100%の範囲の信頼度重み係数である。前述のように、マルチモーダル融合エンジン44が情報を融合するかどうかは、スロット名(例えば、変数)および値ペアの受信または予期した受信の間の時間または他のイベントの受信に応じて異なる可能性がある。この方法は、信頼水準が受信した情報に割り当てられていると想定している。例えば、同期コーディネータおよびモードと情報到着時刻に基づくその重み信頼度。例えば、同じセッション中に異なるモードで同じスロット・データを入力することが可能な場合のように(例えば、住所の通り名を発声してキー入力する)、入力されたデータは発声されたデータよりも正確であると想定される。同期コーディネータは、受信時刻に基づき、また受信した個々の結果の信頼値に基づき、異なる同時マルチモーダル情報の要求への応答として送信された複数のユーザ・エージェント・プログラムの1つから送られた受信マルチモーダル入力情報を組み合わせる。
ブロック400に示されているように、方法は、非音声モードでイベントまたは結果があったかを判別することを含む。肯定の場合、ブロック402に示されているように、方法は、「no input」および「no match」イベントを除く任意のモードのイベントがあったかを判別することを含む。肯定の場合、方法は、ブロック404に示されているように、受け取った第1のそのようなイベントをインタプリタ50に返すことを含む。しかし、「no input」および「no match」以外にユーザ・エージェント・プログラムからのイベントがなかった場合、方法は、ブロック406に示されて
いるように、マルチモーダル融合エンジンの2つまたはそれ以上の結果を送信したモードについて、受信時刻の順序でそのモードの結果を組み合わせることを含む。これは、ユーザが同じスロットに対し入力を再入力する場合に有用であると思われる。所与のスロット名に対する後の値は、前の値を上書きする。マルチモーダル融合エンジンは、構成要素である個々の結果の信頼度重みに基づいてモードの結果信頼度重みを調整する。最終結果は、モード毎に、各スロット名に対する1つの回答となる。方法は、ブロック408に示されているように、ブロック406から結果を取り出し、それらを組み合わせてすべてのモードに対する1つの結合された結果とすることを含む。方法は、最も信頼度の低い結果から始めて、最も信頼度の高い結果へと進むことを含む。融合された結果の中の各スロット名で、そのスロットの定義を含む最も信頼度の高い入力結果に属するスロット値を受け取る。
いるように、マルチモーダル融合エンジンの2つまたはそれ以上の結果を送信したモードについて、受信時刻の順序でそのモードの結果を組み合わせることを含む。これは、ユーザが同じスロットに対し入力を再入力する場合に有用であると思われる。所与のスロット名に対する後の値は、前の値を上書きする。マルチモーダル融合エンジンは、構成要素である個々の結果の信頼度重みに基づいてモードの結果信頼度重みを調整する。最終結果は、モード毎に、各スロット名に対する1つの回答となる。方法は、ブロック408に示されているように、ブロック406から結果を取り出し、それらを組み合わせてすべてのモードに対する1つの結合された結果とすることを含む。方法は、最も信頼度の低い結果から始めて、最も信頼度の高い結果へと進むことを含む。融合された結果の中の各スロット名で、そのスロットの定義を含む最も信頼度の高い入力結果に属するスロット値を受け取る。
ブロック410に示されているように、方法は、今組み合わされた結果があるかどうかを判別することを含む。つまり、ユーザ・エージェント・プログラムが、マルチモーダル融合エンジン44に対する結果を送信したかということである。肯定の場合、方法は、ブロック412に示されているように、組み合わせた結果をコンテンツ・サーバ18に返すことを含む。否定の場合、ブロック414に示されているように、「no input」または「no match」イベントが0個またはそれ以上あることを意味する。方法は、「no match」イベントがあるかどうかを判別することを含む。肯定の場合、方法は、ブロック416に示されているように、「no match」イベントを返すことを含む。しかし、「no match」イベントがなければ、方法は、ブロック418に示されているように、「no input」イベントをインタプリタ50に返すことを含む。
ブロック400に戻り、非音声モードからのイベントまたは結果がなかった場合、方法は、音声モードで結果を返したかどうか、つまり、ユーザ・エージェント・プログラム34が受信情報74を生成したかどうかを判別することを含む。これは、ブロック420に示されている。肯定の場合、ブロック422に示されているように、方法は、受け取った入力情報に対する音声応答をマルチモーダル・アプリケーション54に返すことを含む。しかし、音声ブラウザ(例えば、ユーザ・エージェント・プログラム)が情報を出力しなかった場合、方法は、ブロック424に示されているように、音声モードでイベントが返されたかどうかを判別することを含む。「はい」であれば、ブロック426に示されているように、イベントは73でマルチモーダル・アプリケーション54に報告される。音声モード・イベントが生成されていなかった場合、方法は、ブロック428に示されているように、「no input」イベントを返すことを含む。
以下の表2は、仮説的データに適用される図4の方法の一例を示している。
表2
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
例えば、ブロック400で、非音声モードからの結果が受信されなかった場合、方法は、ブロック402に進む。ブロック402で、イベントがまったく受信されなかった場合、方法はブロック406に進む。ブロック406で、融合エンジンは、TextModeCollectedDataを1スロット当たり1つの応答に圧縮する。VoiceModeCollectedDataはそのままである。
表2
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
例えば、ブロック400で、非音声モードからの結果が受信されなかった場合、方法は、ブロック402に進む。ブロック402で、イベントがまったく受信されなかった場合、方法はブロック406に進む。ブロック406で、融合エンジンは、TextModeCollectedDataを1スロット当たり1つの応答に圧縮する。VoiceModeCollectedDataはそのままである。
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
OVERALLCONFIDENCE=.85
音声モードはそのままである。しかし、.85が結果セット内の最低信頼度であるため、総信頼度値.85が割り当てられる。
TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
後のタイムスタンプでスロットにLaSalleが書き込まれているため、テキスト・モードでは、収集データからMichiganが削除される。最終結果はこのようになる。そして、1.0が結果セット内の最低信頼度レベルであるため、総信頼度レベル1.0が割り当てられる。
TextModeCollectedData
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
OVERALLCONFIDENCE=1.0
以下に、ブロック408に送信されたデータを示す。
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
OVERALLCONFIDENCE=.85
TextModeCollectedData
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
OVERALLCONFIDENCE=1.0
ブロック408で、事実上2つのモードが単一の返却結果に融合される。
まず、最低信頼度レベルの結果全体が取り出され、最終結果(FinalResult)構造の中に入れられる。
FinalResult
STREETNAME=Michigan
CONFIDENCELEVEL=.85
NUMBER=112
CONFIDENCELEVEL=.99
その後、次の最低の結果の要素が最終結果の中で置き換えられる。
FinalResult
STREETNAME=LaSalle
CONFIDENCELEVEL=1.0
NUMBER=112
CONFIDENCELEVEL=.99
この最終結果は、2つのモードを融合したものであり、インタプリタに送られ、そこで、次に何をするかを決定する(Webからさらに情報をフェッチするか、またはユーザからの情報がもっと必要かどうかを決定し、現在の状態に基づいて再度プロンプトを表示する)。
図5は、同時マルチモーダル・セッションパーシスタンス(persistance、永続化)コントローラ600と、同時マルチモーダル・セッション・パーシスタンス・コントローラ600に結合された同時マルチモーダル・セッション・ステータス・メモリ602とを備えるマルチモーダル融合サーバ14の他の実施形態を示している。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、適切な処理デバイス上で実行されているソフトウェア・モジュールであるか、または適切なハードウェア、ソフトウェア、ファームウェア、またはそれらの適切な組み合わせとすることができる。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、非セッション状態のときに、ユーザ毎に、同時マルチモーダル・セッション・ステータス情報604をデータベースまたはその他の適切なデータ構造の形で保持する。同時マルチモーダル・セッ
ション・ステータス情報604は、セッション中に異なる同時モード通信を行うように構成されている複数のユーザ・エージェント・プログラムのステータス情報である。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、同時マルチモーダル・セッション・ステータス情報604へのアクセスに対する応答としてすでに終了している同時マルチモーダル・セッションを再確立する。マルチモーダル・セッション・コントローラ40は、ユーザがいつセッションに参加したかを同時マルチモーダル・セッション・パーシスタンス・コントローラ600に通知する。マルチモーダル・セッション・コントローラ40は、また、同時マルチモーダル同期コーディネータと通信し、オフライン・デバイスとの同期処理を行うか、または同時マルチモーダル・セッションを再確立するために必要なユーザ・エージェント・プログラムと同期をとる。
ション・ステータス情報604は、セッション中に異なる同時モード通信を行うように構成されている複数のユーザ・エージェント・プログラムのステータス情報である。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、同時マルチモーダル・セッション・ステータス情報604へのアクセスに対する応答としてすでに終了している同時マルチモーダル・セッションを再確立する。マルチモーダル・セッション・コントローラ40は、ユーザがいつセッションに参加したかを同時マルチモーダル・セッション・パーシスタンス・コントローラ600に通知する。マルチモーダル・セッション・コントローラ40は、また、同時マルチモーダル同期コーディネータと通信し、オフライン・デバイスとの同期処理を行うか、または同時マルチモーダル・セッションを再確立するために必要なユーザ・エージェント・プログラムと同期をとる。
同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、例えば、前の同時マルチモーダル通信セッションのときに所与のモードに使用されるプロキシを示すURLなどのプロキシIDデータ906を格納する。必要ならば、同時マルチモーダル・セッション状態メモリ602は、さらに、そのようなフィールドまたはスロットの内容とともに前の同時マルチモーダル通信セッション時にユーザからの入力によりどのフィールドまたはスロットが書き込まれたかを示す情報も格納することができる。さらに、同時マルチモーダル・セッション状態メモリ602は、同時マルチモーダル通信セッションに対する現在の対話状態606を含むことができる。状態には、インタプリタ50が実行中アプリケーションの実行状態にある場合も含まれる。ユーザがどのフィールドに書き込んだかに関する情報は、融合された入力情報60の形式とすることができる。
図に示されているように、Webサーバ18は、モード・タイプ毎にモード特有命令を備えることができる。この例では、テキストは、HTML形式の形で供給され、音声は、voiceXML形式の形で供給され、音声はさらに、WML形式で供給される。同時マルチモーダル同期コーディネータ42は、適切な形式を適切なプロキシに出力する。図に示されているように、voiceXML形式は、音声ブラウザ用に指定されているプロキシ38aを通じて出力されるが、HTML形式は、グラフィカル・ブラウザ用のプロキシ38nに出力される。
セッション・パーシスタンス維持は、セッションが異常終了し、ユーザがこの後も同じ対話状態に戻りたい場合に使用することができる。また、モードで、異なるモードで入力から出力までの遅延時間を生じさせ、時間遅延を補正するために情報を一時的に格納しておく必要のある、異なる遅延特性を持つトランスポート・メカニズムを使用するのも有益である。
図6〜7に示されているように、同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、所与のセッション中に所与のユーザの複数のユーザ・エージェント・プログラムのマルチモーダル・セッション・ステータス情報を保持し、ユーザ・エージェント・プログラムは、セッション中に異なる同時モード通信を行えるように構成されている。これは、ブロック700に示されている。ブロック702に示されているように、方法は、マルチモーダル・セッション・ステータス情報604にアクセスすることに対する応答として前の同時マルチモーダル・セッションを再確立することを含む。ブロック704に示されているように、より詳しく述べると、同時マルチモーダル・セッション時に、同時マルチモーダル・セッション・パーシスタンス・コントローラ600はメモリ602内にユーザ別マルチモーダル・セッション・ステータス情報604を格納する。ブロック706に示されているように、同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、セッション・コントローラーからユーザによるセッション参加を検出し、メモリ内でユーザIDを検索して、ユーザが前の同時マルチモーダル・セッションに関与していたかを判別する。したがって、ブロック708に示されているように、方
法は、ユーザによるセッション参加の検出に基づいてメモリ602に格納されているマルチモーダル・セッション・ステータス情報604にアクセスする。
法は、ユーザによるセッション参加の検出に基づいてメモリ602に格納されているマルチモーダル・セッション・ステータス情報604にアクセスする。
ブロック710に示されているように、方法は、セッションがメモリ604内に存在しているかどうかを判別することを含む。否定の場合、セッションは新しいセッションとして指定され、さらに、新しいエントリが作成され、新しいセッションをメモリ602に記録するため必要なデータがそのエントリに書き込まれる。これは、ブロック712に示されている。ブロック714に示されているように、セッションが存在している場合、例えば、セッションIDがメモリ602内に存在する場合、方法は、メモリ602に対して、ユーザが既存のアプリケーションを実行させているかクエリを実行することを含み、もし実行していれば、ユーザがそのアプリケーションとの通信を再確立したいかクエリを実行することができる。ユーザが望めば、方法は、メモリ602から最後にフェッチされた情報のURLを取り出すことを含む。これは、ブロック716に示されている(図7)。ブロック718に示されているように、適切なプロキシ38a〜38nに対し、ブロック716で取り出された適切なURLが与えられる。ブロック720に示されているように、方法は、メモリ602に格納されているユーザ・エージェント状態情報606に基づいて、プロキシを介して、適切なユーザ・エージェント・プログラムに要求を送信することを含む。
図8は、同時マルチモーダル・セッション・ステータス・メモリ602の内容の一例を示す図である。図に示されているように、ユーザID 900で特定のユーザを指定し、ユーザが複数のセッションをメモリ602内に格納している場合にセッションID 902をユーザIDに関連付けることができる。さらに、ユーザ・エージェント・プログラムID 904は、例えば、特定のユーザ・エージェント・プログラムを実行しているデバイスに関するデバイスIDを示す。プログラムIDは、ユーザ・プログラム識別子、URL、または他のアドレスでもよい。プロキシIDデータ906は、前の同時マルチモーダル通信でマルチモーダル・プロキシが使用されていることを示す。したがって、ユーザはセッションを終了し、後から、その終了したところから継続することができる。
デバイスID 904を保持すると、とりわけ、システムでは同時マルチモーダル・セッションの実行中に使用されているデバイスの識別を保持可能であるため、ユーザは同時マルチモーダル通信中にデバイスを簡単に切り換えられる。
したがって、1つまたは複数のデバイスに分散されている別々のユーザ・エージェント・プログラムを通じて、(あるいは、同じデバイスに含まれている場合)、異なるモードで入力された複数の入力は、統一された一貫性のある方法で融合される。さらに、ユーザ・エージェント・プログラムのレンダリングとそれらのユーザ・エージェント・プログラムを使用したユーザによる情報入力の両方の同期をとるメカニズムが用意されている。さらに、開示されているマルチモーダル融合サーバは、同時マルチモーダル通信セッションを行えるように、既存のデバイスおよびゲートウェイに結合することができる。
さまざまな態様における本発明の他の変更形態および修正形態の実施が、当業者には明らかであること、また本発明は説明されている特定の実施形態に限定されないこと、は理解されるであろう。例えば、本発明の方法はいくつかの工程に関して説明されているが、それらの工程は必要に応じて適切な順序で実行可能であることは理解されるであろう。したがって、開示され本願で権利を請求している基本原理の精神と範囲に包含される一部および全部の修正形態、変更形態、または均等形態は本発明に包含されるものとする。
Claims (23)
- マルチモーダル通信の方法であって、
互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得すること、および、
セッション中に、前記モード特有命令に基づいて前記複数のユーザ・エージェント・プログラムからの出力の同期をとること、からなる方法。 - 前記複数のユーザ・エージェント・プログラムによる出力の同期をとる工程が、前記複数のユーザ・エージェント・プログラムによる使用のために、異なるモードを表すマークアップ言語の少なくとも一部を送信し、各ユーザ・エージェント・プログラムが該マークアップ言語の該少なくとも一部に基づいて異なるモードで情報を出力するようにすることを含む請求項1に記載の方法。
- 前記複数のユーザ・エージェント・プログラムの1つが、グラフィカル・ブラウザを含み、前記複数のユーザ・エージェント・プログラムの他の1つが、音声ブラウザを含み、前記複数のユーザ・エージェント・プログラムからの前記出力が、前記複数のユーザ・エージェント・プログラムを通じて異なるモードで同時に入力されるユーザ入力を含む請求項2に記載の方法。
- 前記複数のユーザ・エージェント・プログラムによる使用のために、異なるモードを表すマークアップ言語の少なくとも一部を送信する工程が、異なるモードに関連付けられたマークアップ言語形式を複数の異なるデバイスに送信することを含み、該デバイスの各々は前記複数のユーザ・エージェント・プログラムの1つを動作させるものである請求項2に記載の方法。
- 前記複数のユーザ・エージェント・プログラムによる使用のために、異なるモードを表すマークアップ言語の少なくとも一部を送信する工程が、異なるモードに関連付けられたマークアップ言語形式を同じ1つのデバイスに送信することを含み、該デバイスは異なるモードで前記複数のユーザ・エージェント・プログラムを動作させるものである請求項2に記載の方法。
- セッション中に、前記複数のユーザ・エージェント・プログラムの各々と通信するためのプロキシを決定する工程を含む請求項1に記載の方法。
- 前記複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する工程が、前記複数のユーザ・エージェント・プログラムの各々に対する異なるマークアップ言語形式を提供するアプリケーションと通信することを含み、該異なるマークアップ言語形式は異なるモードを表す請求項2に記載の方法。
- 異なるモードで動作する前記複数のユーザ・エージェント・プログラムに対するモード特有命令を取得することが、少なくとも1つのユーザ・エージェント・プログラムに対するモード特有命令を表す基本マークアップ言語で書かれたマークアップ言語形式をフェッチすることを含み、該マークアップ言語形式が、異なるモードで動作している他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含む請求項1に記載の方法。
- 前記モード特有命令に基づいて前記複数のユーザ・エージェント・プログラムからの出力の同期をとることは、マルチモーダル・アプリケーションからフェッチされたモード特有命令を解析して同時マルチモーダル・タグ(CMMT)を検出し、検出された場合に、
該CMMTに基づいて少なくとも1つのユーザ・エージェント・プログラムに対するモード特有命令を取得することを含む請求項1に記載の方法。 - マルチモーダル・ネットワーク要素であって、
同じセッション中に互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する動作をする情報フェッチャと、
該情報フェッチャに結合して動作し、該セッション中に、該モード特有命令に基づいて該複数のユーザ・エージェント・プログラムからの出力の同期をとるように動作する同時マルチモーダル同期コーディネータと、を備えたマルチモーダル・ネットワーク要素。 - 前記同時マルチモーダル同期コーディネータが、セッション中に、前記複数のユーザ・エージェント・プログラムの各々と通信するためのプロキシを決定する請求項10に記載のマルチモーダル・ネットワーク要素。
- マルチモーダル通信の方法であって、
同じセッションで動作している複数のユーザ・エージェント・プログラムに関連付けられた複数の入力モードに対応する同時マルチモーダル入力情報の要求を送信すること、および、
異なる同時マルチモーダル情報の要求に応答して送信された、該複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報を融合すること、からなる方法。 - 同時マルチモーダル入力情報の前記要求を送信する前に、所与のセッション中の異なるモードに関連付けられている各アプリケーションと関連する各異なるモードのためのプロキシを決定する工程と、
各異なるモード用に決定された該プロキシを使用して、異なる同時マルチモーダル入力情報の前記要求と前記複数のユーザ・エージェント・プログラムとの同期をとる工程と、を含む請求項12に記載の方法。 - 前記マルチモーダル入力情報が融合のため適切に受信されたかどうかを判定するために一定期間待つことを含む請求項12に記載の方法。
- 各ユーザ・エージェント・プログラムのモードに応じて異なる期間待つことを含む請求項14に記載の方法。
- 複数の入力モードに対応する同時マルチモーダル入力情報の前記要求を送信することは、互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を送信し、異なるモードの同時情報入力を要求することを含む請求項12に記載の方法。
- 前記複数の入力モードに対応する同時マルチモーダル入力情報の要求を送信する工程は、第1のモード・ベースのマークアップ言語形式をデバイスに送信し、第2のモード・ベースのマークアップ言語形式を1つまたは複数のデバイスに送信して、異なるモードの同時情報入力を要求することを含む請求項12に記載の方法。
- 受信時刻に基づいて、および受信した個々の結果の信頼度値に基づいて、異なる同時マルチモーダル情報の要求に応答して送信された、前記複数のユーザ・エージェント・プログラムの1つから送信された受信マルチモーダル入力情報を組み合わせる工程を含む請求項12に記載の方法。
- 異なるモードで動作する他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含むようにモード特有命令をトランスコードすることを含む請求項12に記載の方法。
- マルチモーダル・ネットワーク要素であって、
同じセッション中に動作する複数のユーザ・エージェント・プログラムに関連付けられた複数の入力モードに対応する同時マルチモーダル入力情報の要求を各々送信する複数のプロキシと、
異なる同時マルチモーダル情報の要求に応答して送信された、該複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報に応答するよう動作し、同じセッション中に異なるユーザ・エージェント・プログラムからの同時マルチモーダル通信を提供するために、該複数のユーザ・エージェント・プログラムから送信された異なるマルチモーダル入力情報を融合するように動作するマルチモーダル融合エンジンと、を備えたマルチモーダル・ネットワーク要素。 - 前記異なる同時マルチモーダル情報の要求は、互いに対して異なるモードで動作して異なるモードの同時情報入力を要求する前記複数のユーザ・エージェント・プログラムに対するモード特有命令を含み、前記マルチモーダル・ネットワーク要素は、
同じセッション中に互いに対して異なるモードで動作する前記複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する動作をする情報フェッチャと、
該情報フェッチャおよび前記複数のプロキシに結合して動作し、セッション中に、前記複数のユーザ・エージェント・プログラムから出力された受信同時マルチモーダル入力情報の同期をとるように動作する同時マルチモーダル同期コーディネータと、を備える請求項20に記載のマルチモーダル・ネットワーク要素。 - 前記複数のユーザ・エージェント・プログラムに結合して動作し、非セッション状態中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されている前記複数のユーザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持し、該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立する同時マルチモーダル・セッション・パーシスタンス・コントローラと、
該同時マルチモーダル・セッション・パーシスタンス・コントローラに結合して動作し、該同時マルチモーダル・セッション・ステータス情報を含むメモリと、を備える請求項21に記載のマルチモーダル・ネットワーク要素。 - マークアップ言語インタプリタと、該マークアップ言語インタプリタに結合して動作するトランスコーダとを備え、該トランスコーダは、異なるモードで動作している他のユーザ・エージェント・プログラムに対するモード特有命令を識別するデータを含むようにモード特有命令をトランスコードする請求項20に記載のマルチモーダル・ネットワーク要素。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/085,990 US6807529B2 (en) | 2002-02-27 | 2002-02-27 | System and method for concurrent multimodal communication |
PCT/US2003/003657 WO2003073198A2 (en) | 2002-02-27 | 2003-02-06 | System and method for concurrent multimodal communication |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005519363A true JP2005519363A (ja) | 2005-06-30 |
Family
ID=27765344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003571826A Withdrawn JP2005519363A (ja) | 2002-02-27 | 2003-02-06 | 同時マルチモーダル通信システムおよび方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US6807529B2 (ja) |
EP (2) | EP1481334A4 (ja) |
JP (1) | JP2005519363A (ja) |
KR (1) | KR100643107B1 (ja) |
CN (2) | CN1639707A (ja) |
AU (1) | AU2003209037A1 (ja) |
BR (1) | BR0307274A (ja) |
WO (1) | WO2003073198A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8219655B2 (en) | 2006-11-17 | 2012-07-10 | Fujitsu Limited | Method of associating multiple modalities and a multimodal system |
US8452838B2 (en) | 2005-03-31 | 2013-05-28 | Nec Corporation | Multimodal service session establishing and providing method, and multimodal service session establishing and providing system, and control program for same |
Families Citing this family (153)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7720682B2 (en) | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US7679534B2 (en) * | 1998-12-04 | 2010-03-16 | Tegic Communications, Inc. | Contextual prediction of user words and user actions |
US8938688B2 (en) | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US7881936B2 (en) | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US7030863B2 (en) | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
US7610194B2 (en) | 2002-07-18 | 2009-10-27 | Tegic Communications, Inc. | Dynamic database reordering system |
US7750891B2 (en) | 2003-04-09 | 2010-07-06 | Tegic Communications, Inc. | Selective input system based on tracking of motion parameters of an input device |
US7286115B2 (en) | 2000-05-26 | 2007-10-23 | Tegic Communications, Inc. | Directional input system with automatic correction |
US7821503B2 (en) | 2003-04-09 | 2010-10-26 | Tegic Communications, Inc. | Touch screen and graphical user interface |
EP1192716B1 (en) | 1999-05-27 | 2009-09-23 | Tegic Communications, Inc. | Keyboard system with automatic correction |
US6983307B2 (en) * | 2001-07-11 | 2006-01-03 | Kirusa, Inc. | Synchronization among plural browsers |
CA2397466A1 (en) * | 2001-08-15 | 2003-02-15 | At&T Corp. | Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation |
US7203907B2 (en) | 2002-02-07 | 2007-04-10 | Sap Aktiengesellschaft | Multi-modal synchronization |
AU2003245497A1 (en) * | 2002-06-13 | 2003-12-31 | Panasonic Automotive Systems Company Of America | Multimode interface |
US8583440B2 (en) | 2002-06-20 | 2013-11-12 | Tegic Communications, Inc. | Apparatus and method for providing visual indication of character ambiguity during text entry |
US20040034531A1 (en) * | 2002-08-15 | 2004-02-19 | Wu Chou | Distributed multimodal dialogue system and method |
US7275217B2 (en) * | 2002-09-09 | 2007-09-25 | Vijay Anand Saraswat | System and method for multi-modal browsing with integrated update feature |
US7257575B1 (en) | 2002-10-24 | 2007-08-14 | At&T Corp. | Systems and methods for generating markup-language based expressions from multi-modal and unimodal inputs |
US7016845B2 (en) * | 2002-11-08 | 2006-03-21 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on an application server |
US7152033B2 (en) * | 2002-11-12 | 2006-12-19 | Motorola, Inc. | Method, system and module for multi-modal data fusion |
US7769811B2 (en) | 2003-03-03 | 2010-08-03 | Aol Llc | Instant messaging sound control |
US7158779B2 (en) * | 2003-11-11 | 2007-01-02 | Microsoft Corporation | Sequential multimodal input |
US7363027B2 (en) | 2003-11-11 | 2008-04-22 | Microsoft Corporation | Sequential multimodal input |
US7739350B2 (en) * | 2003-12-10 | 2010-06-15 | International Business Machines Corporation | Voice enabled network communications |
US7409690B2 (en) * | 2003-12-19 | 2008-08-05 | International Business Machines Corporation | Application module for managing interactions of distributed modality components |
US7660400B2 (en) | 2003-12-19 | 2010-02-09 | At&T Intellectual Property Ii, L.P. | Method and apparatus for automatically building conversational systems |
US20050165601A1 (en) * | 2004-01-28 | 2005-07-28 | Gupta Anurag K. | Method and apparatus for determining when a user has ceased inputting data |
US7636083B2 (en) * | 2004-02-20 | 2009-12-22 | Tegic Communications, Inc. | Method and apparatus for text input in various languages |
KR100629434B1 (ko) * | 2004-04-24 | 2006-09-27 | 한국전자통신연구원 | 음성/그래픽 입출력이 가능한 멀티모달 웹기반 데이터방송처리 장치 및 그 방법과 그를 이용한 멀티모달 웹기반데이터방송 수신 시스템 및 그 방법 |
DE602004008887T2 (de) * | 2004-05-18 | 2008-01-17 | Alcatel Lucent | Verfahren und Server zur Bereitstellung eines multi-modalen Dialogs |
US7925512B2 (en) * | 2004-05-19 | 2011-04-12 | Nuance Communications, Inc. | Method, system, and apparatus for a voice markup language interpreter and voice browser |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US8768711B2 (en) * | 2004-06-17 | 2014-07-01 | Nuance Communications, Inc. | Method and apparatus for voice-enabling an application |
US7921163B1 (en) | 2004-07-02 | 2011-04-05 | Aol Inc. | Routing and displaying messages for multiple concurrent instant messaging sessions involving a single online identity |
US20060036770A1 (en) * | 2004-07-30 | 2006-02-16 | International Business Machines Corporation | System for factoring synchronization strategies from multimodal programming model runtimes |
US7818379B1 (en) | 2004-08-31 | 2010-10-19 | Aol Inc. | Notification and disposition of multiple concurrent instant messaging sessions involving a single online identity |
KR100636317B1 (ko) * | 2004-09-06 | 2006-10-18 | 삼성전자주식회사 | 분산 음성 인식 시스템 및 그 방법 |
US7627638B1 (en) * | 2004-12-20 | 2009-12-01 | Google Inc. | Verbal labels for electronic messages |
US7356567B2 (en) | 2004-12-30 | 2008-04-08 | Aol Llc, A Delaware Limited Liability Company | Managing instant messaging sessions on multiple devices |
EP1696342A1 (en) * | 2005-02-28 | 2006-08-30 | BRITISH TELECOMMUNICATIONS public limited company | Combining multimedia data |
US20060229880A1 (en) * | 2005-03-30 | 2006-10-12 | International Business Machines Corporation | Remote control of an appliance using a multimodal browser |
US20060235694A1 (en) * | 2005-04-14 | 2006-10-19 | International Business Machines Corporation | Integrating conversational speech into Web browsers |
US20060253272A1 (en) * | 2005-05-06 | 2006-11-09 | International Business Machines Corporation | Voice prompts for use in speech-to-speech translation system |
US7548804B2 (en) * | 2005-05-19 | 2009-06-16 | Novariant, Inc. | Emulation to provide multiple applications in mobile equipment |
US7752048B2 (en) | 2005-05-27 | 2010-07-06 | Oracle International Corporation | Method and apparatus for providing speech recognition resolution on a database |
US8204995B2 (en) * | 2005-06-29 | 2012-06-19 | Nokia Corporation | Multidevice session establishment for multimodal browsing |
US7561967B2 (en) * | 2005-07-29 | 2009-07-14 | Novariant, Inc. | Navigation receiver with functional extensibility |
WO2007047246A2 (en) * | 2005-10-11 | 2007-04-26 | Barry Appelman | Enabling and exercising control over selected sounds associated with incoming communications |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8504606B2 (en) * | 2005-11-09 | 2013-08-06 | Tegic Communications | Learner for resource constrained devices |
US20070115931A1 (en) * | 2005-11-18 | 2007-05-24 | Anderson David J | Inter-server multimodal user communications |
EP1958078A2 (en) * | 2005-11-23 | 2008-08-20 | Envio Networks Inc. | System and method for mobile digital media content delivery and services marketing |
US7751848B2 (en) * | 2005-11-23 | 2010-07-06 | Envio Networks Inc. | Systems and methods for providing concurrent mobile applications to mobile communication devices |
US8189563B2 (en) * | 2005-12-08 | 2012-05-29 | International Business Machines Corporation | View coordination for callers in a composite services enablement environment |
US7587378B2 (en) * | 2005-12-09 | 2009-09-08 | Tegic Communications, Inc. | Embedded rule engine for rendering text and other applications |
US8219584B2 (en) * | 2005-12-15 | 2012-07-10 | At&T Intellectual Property I, L.P. | User access to item information |
US7716682B2 (en) * | 2006-01-04 | 2010-05-11 | Oracle International Corporation | Multimodal or multi-device configuration |
US20070161369A1 (en) * | 2006-01-11 | 2007-07-12 | Envio Networks Inc. | Methods for Intelligent Number Dialing Assistance and Related Marketing Techniques |
WO2007087553A2 (en) * | 2006-01-24 | 2007-08-02 | Envio Networks Inc. | Methods for marketing digital content to mobile communication device users |
US7487453B2 (en) * | 2006-03-24 | 2009-02-03 | Sap Ag | Multi-modal content presentation |
US7580925B2 (en) * | 2006-04-19 | 2009-08-25 | Tegic Communications, Inc. | Efficient storage and search of word lists and other text |
US7634294B2 (en) | 2006-04-25 | 2009-12-15 | At&T Intellectual Property I, L.P. | Method and apparatus for exchanging content over distinct wireless access technologies |
WO2007141446A1 (fr) * | 2006-06-02 | 2007-12-13 | France Telecom | Système de gestion d'un service interactif multimodal |
US7970909B1 (en) | 2006-06-22 | 2011-06-28 | At&T Intellectual Property I, L.P. | Method and system for associating concurrent telephone and data network sessions |
US8233894B2 (en) * | 2006-08-23 | 2012-07-31 | Resource Consortium Limited | System and method for sending mobile media content to another mobile device user |
US20080065715A1 (en) * | 2006-08-28 | 2008-03-13 | Ko-Yu Hsu | Client-Server-Based Communications System for the Synchronization of Multimodal data channels |
US8145493B2 (en) | 2006-09-11 | 2012-03-27 | Nuance Communications, Inc. | Establishing a preferred mode of interaction between a user and a multimodal application |
US20080104169A1 (en) * | 2006-10-30 | 2008-05-01 | Microsoft Corporation | Processing initiate notifications for different modes of communication |
US7827033B2 (en) * | 2006-12-06 | 2010-11-02 | Nuance Communications, Inc. | Enabling grammars in web page frames |
US20080140390A1 (en) * | 2006-12-11 | 2008-06-12 | Motorola, Inc. | Solution for sharing speech processing resources in a multitasking environment |
US8160532B2 (en) * | 2007-01-08 | 2012-04-17 | Skyweaver, Inc. | Community interaction using mobile communication devices |
US8225203B2 (en) | 2007-02-01 | 2012-07-17 | Nuance Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US8201087B2 (en) | 2007-02-01 | 2012-06-12 | Tegic Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US7801728B2 (en) * | 2007-02-26 | 2010-09-21 | Nuance Communications, Inc. | Document session replay for multimodal applications |
US9208783B2 (en) * | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US8938392B2 (en) | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
US8103499B2 (en) * | 2007-03-22 | 2012-01-24 | Tegic Communications, Inc. | Disambiguation of telephone style key presses to yield Chinese text using segmentation and selective shifting |
US8862475B2 (en) * | 2007-04-12 | 2014-10-14 | Nuance Communications, Inc. | Speech-enabled content navigation and control of a distributed multimodal browser |
US8299943B2 (en) | 2007-05-22 | 2012-10-30 | Tegic Communications, Inc. | Multiple predictions in a reduced keyboard disambiguating system |
US7685293B2 (en) * | 2007-08-21 | 2010-03-23 | Qualcomm Incorporated | Method and apparatus for optimization of sigcomp UDVM performance |
US20090089251A1 (en) * | 2007-10-02 | 2009-04-02 | Michael James Johnston | Multimodal interface for searching multimedia content |
JP5159261B2 (ja) | 2007-11-12 | 2013-03-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | セッションを管理する技術 |
US8386260B2 (en) * | 2007-12-31 | 2013-02-26 | Motorola Mobility Llc | Methods and apparatus for implementing distributed multi-modal applications |
US20090182562A1 (en) * | 2008-01-14 | 2009-07-16 | Garmin Ltd. | Dynamic user interface for automated speech recognition |
AU2009231676B2 (en) | 2008-04-02 | 2013-10-03 | Twilio Inc. | System and method for processing telephony sessions |
US8837465B2 (en) | 2008-04-02 | 2014-09-16 | Twilio, Inc. | System and method for processing telephony sessions |
US20090328062A1 (en) * | 2008-06-25 | 2009-12-31 | Microsoft Corporation | Scalable and extensible communication framework |
US8862681B2 (en) | 2008-06-25 | 2014-10-14 | Microsoft Corporation | Multimodal conversation transfer |
CN102227904A (zh) | 2008-10-01 | 2011-10-26 | 特维里奥公司 | 电话网络事件的系统和方法 |
US11487347B1 (en) * | 2008-11-10 | 2022-11-01 | Verint Americas Inc. | Enhanced multi-modal communication |
US9374391B2 (en) * | 2008-11-11 | 2016-06-21 | Broadsoft, Inc. | Composite endpoint mechanism |
CA2789942C (en) | 2009-03-02 | 2017-05-23 | Jeffrey Lawson | Method and system for a multitenancy telephone network |
US8509415B2 (en) | 2009-03-02 | 2013-08-13 | Twilio, Inc. | Method and system for a multitenancy telephony network |
US20110066507A1 (en) * | 2009-09-14 | 2011-03-17 | Envio Networks Inc. | Context Enhanced Marketing of Content and Targeted Advertising to Mobile Device Users |
US20110083179A1 (en) * | 2009-10-07 | 2011-04-07 | Jeffrey Lawson | System and method for mitigating a denial of service attack using cloud computing |
US8582737B2 (en) * | 2009-10-07 | 2013-11-12 | Twilio, Inc. | System and method for running a multi-module telephony application |
US9210275B2 (en) | 2009-10-07 | 2015-12-08 | Twilio, Inc. | System and method for running a multi-module telephony application |
CN102804700B (zh) | 2010-01-19 | 2015-04-15 | 特维里奥公司 | 用于保持通话会话状态的方法和系统 |
US8676581B2 (en) * | 2010-01-22 | 2014-03-18 | Microsoft Corporation | Speech recognition analysis via identification information |
US8296151B2 (en) * | 2010-06-18 | 2012-10-23 | Microsoft Corporation | Compound gesture-speech commands |
US9338064B2 (en) | 2010-06-23 | 2016-05-10 | Twilio, Inc. | System and method for managing a computing cluster |
US9459926B2 (en) | 2010-06-23 | 2016-10-04 | Twilio, Inc. | System and method for managing a computing cluster |
US9459925B2 (en) | 2010-06-23 | 2016-10-04 | Twilio, Inc. | System and method for managing a computing cluster |
US9590849B2 (en) | 2010-06-23 | 2017-03-07 | Twilio, Inc. | System and method for managing a computing cluster |
US8416923B2 (en) | 2010-06-23 | 2013-04-09 | Twilio, Inc. | Method for providing clean endpoint addresses |
US20120208495A1 (en) | 2010-06-23 | 2012-08-16 | Twilio, Inc. | System and method for monitoring account usage on a platform |
US8838707B2 (en) | 2010-06-25 | 2014-09-16 | Twilio, Inc. | System and method for enabling real-time eventing |
US8649268B2 (en) | 2011-02-04 | 2014-02-11 | Twilio, Inc. | Method for processing telephony sessions of a network |
US20140044123A1 (en) | 2011-05-23 | 2014-02-13 | Twilio, Inc. | System and method for real time communicating with a client application |
US9648006B2 (en) | 2011-05-23 | 2017-05-09 | Twilio, Inc. | System and method for communicating with a client application |
US9398622B2 (en) | 2011-05-23 | 2016-07-19 | Twilio, Inc. | System and method for connecting a communication to a client |
US10182147B2 (en) | 2011-09-21 | 2019-01-15 | Twilio Inc. | System and method for determining and communicating presence information |
WO2013044138A1 (en) | 2011-09-21 | 2013-03-28 | Twilio, Inc. | System and method for authorizing and connecting application developers and users |
US9495227B2 (en) | 2012-02-10 | 2016-11-15 | Twilio, Inc. | System and method for managing concurrent events |
US20130304928A1 (en) | 2012-05-09 | 2013-11-14 | Twilio, Inc. | System and method for managing latency in a distributed telephony network |
US9602586B2 (en) | 2012-05-09 | 2017-03-21 | Twilio, Inc. | System and method for managing media in a distributed communication network |
US9240941B2 (en) | 2012-05-09 | 2016-01-19 | Twilio, Inc. | System and method for managing media in a distributed communication network |
US9247062B2 (en) | 2012-06-19 | 2016-01-26 | Twilio, Inc. | System and method for queuing a communication session |
WO2014005640A1 (en) * | 2012-07-05 | 2014-01-09 | Nec Europe Ltd. | Method and system for disallowing conflicting web application events |
US8737962B2 (en) | 2012-07-24 | 2014-05-27 | Twilio, Inc. | Method and system for preventing illicit use of a telephony platform |
US8738051B2 (en) | 2012-07-26 | 2014-05-27 | Twilio, Inc. | Method and system for controlling message routing |
US8938053B2 (en) | 2012-10-15 | 2015-01-20 | Twilio, Inc. | System and method for triggering on platform usage |
US8948356B2 (en) | 2012-10-15 | 2015-02-03 | Twilio, Inc. | System and method for routing communications |
US9253254B2 (en) | 2013-01-14 | 2016-02-02 | Twilio, Inc. | System and method for offering a multi-partner delegated platform |
US9282124B2 (en) | 2013-03-14 | 2016-03-08 | Twilio, Inc. | System and method for integrating session initiation protocol communication in a telecommunications platform |
US9001666B2 (en) | 2013-03-15 | 2015-04-07 | Twilio, Inc. | System and method for improving routing in a distributed communication platform |
US9160696B2 (en) | 2013-06-19 | 2015-10-13 | Twilio, Inc. | System for transforming media resource into destination device compatible messaging format |
US9225840B2 (en) | 2013-06-19 | 2015-12-29 | Twilio, Inc. | System and method for providing a communication endpoint information service |
US9338280B2 (en) | 2013-06-19 | 2016-05-10 | Twilio, Inc. | System and method for managing telephony endpoint inventory |
US9483328B2 (en) | 2013-07-19 | 2016-11-01 | Twilio, Inc. | System and method for delivering application content |
US9137127B2 (en) | 2013-09-17 | 2015-09-15 | Twilio, Inc. | System and method for providing communication platform metadata |
US9338018B2 (en) | 2013-09-17 | 2016-05-10 | Twilio, Inc. | System and method for pricing communication of a telecommunication platform |
US9274858B2 (en) | 2013-09-17 | 2016-03-01 | Twilio, Inc. | System and method for tagging and tracking events of an application platform |
US9553799B2 (en) | 2013-11-12 | 2017-01-24 | Twilio, Inc. | System and method for client communication in a distributed telephony network |
US9325624B2 (en) | 2013-11-12 | 2016-04-26 | Twilio, Inc. | System and method for enabling dynamic multi-modal communication |
EP3084714A4 (en) * | 2013-12-20 | 2017-08-02 | Robert Bosch GmbH | System and method for dialog-enabled context-dependent and user-centric content presentation |
US9344573B2 (en) | 2014-03-14 | 2016-05-17 | Twilio, Inc. | System and method for a work distribution service |
US9226217B2 (en) | 2014-04-17 | 2015-12-29 | Twilio, Inc. | System and method for enabling multi-modal communication |
US9516101B2 (en) | 2014-07-07 | 2016-12-06 | Twilio, Inc. | System and method for collecting feedback in a multi-tenant communication platform |
US9774687B2 (en) | 2014-07-07 | 2017-09-26 | Twilio, Inc. | System and method for managing media and signaling in a communication platform |
US9251371B2 (en) | 2014-07-07 | 2016-02-02 | Twilio, Inc. | Method and system for applying data retention policies in a computing platform |
US9246694B1 (en) | 2014-07-07 | 2016-01-26 | Twilio, Inc. | System and method for managing conferencing in a distributed communication network |
EP3210350B1 (en) | 2014-10-21 | 2020-05-20 | Twilio, Inc. | Method for providing a miro-services communication platform |
US9477975B2 (en) | 2015-02-03 | 2016-10-25 | Twilio, Inc. | System and method for a media intelligence platform |
WO2016157658A1 (ja) * | 2015-03-31 | 2016-10-06 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
US9948703B2 (en) | 2015-05-14 | 2018-04-17 | Twilio, Inc. | System and method for signaling through data storage |
US10419891B2 (en) | 2015-05-14 | 2019-09-17 | Twilio, Inc. | System and method for communicating through multiple endpoints |
US10659349B2 (en) | 2016-02-04 | 2020-05-19 | Twilio Inc. | Systems and methods for providing secure network exchanged for a multitenant virtual private cloud |
US10686902B2 (en) | 2016-05-23 | 2020-06-16 | Twilio Inc. | System and method for a multi-channel notification service |
US10063713B2 (en) | 2016-05-23 | 2018-08-28 | Twilio Inc. | System and method for programmatic device connectivity |
KR101934954B1 (ko) * | 2017-05-24 | 2019-01-03 | 네이버 주식회사 | 음성요청에 대응하는 정보 전달 향상을 위한 출력 |
US10841755B2 (en) | 2017-07-01 | 2020-11-17 | Phoneic, Inc. | Call routing using call forwarding options in telephony networks |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5640590A (en) * | 1992-11-18 | 1997-06-17 | Canon Information Systems, Inc. | Method and apparatus for scripting a text-to-speech-based multimedia presentation |
US6324511B1 (en) * | 1998-10-01 | 2001-11-27 | Mindmaker, Inc. | Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment |
KR100430953B1 (ko) * | 1998-10-02 | 2004-05-12 | 인터내셔널 비지네스 머신즈 코포레이션 | 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법 |
US6570555B1 (en) * | 1998-12-30 | 2003-05-27 | Fuji Xerox Co., Ltd. | Method and apparatus for embodied conversational characters with multimodal input/output in an interface device |
GB0030330D0 (en) * | 2000-12-13 | 2001-01-24 | Hewlett Packard Co | Idiom handling in voice service systems |
US20030046316A1 (en) * | 2001-04-18 | 2003-03-06 | Jaroslav Gergic | Systems and methods for providing conversational computing via javaserver pages and javabeans |
US7136909B2 (en) * | 2001-12-28 | 2006-11-14 | Motorola, Inc. | Multimodal communication method and apparatus with multimodal profile |
-
2002
- 2002-02-27 US US10/085,990 patent/US6807529B2/en not_active Expired - Lifetime
-
2003
- 2003-02-06 AU AU2003209037A patent/AU2003209037A1/en not_active Abandoned
- 2003-02-06 BR BR0307274-6A patent/BR0307274A/pt not_active IP Right Cessation
- 2003-02-06 EP EP03707762A patent/EP1481334A4/en not_active Ceased
- 2003-02-06 CN CNA038047756A patent/CN1639707A/zh active Pending
- 2003-02-06 WO PCT/US2003/003657 patent/WO2003073198A2/en active Application Filing
- 2003-02-06 EP EP06008619A patent/EP1679622A3/en not_active Withdrawn
- 2003-02-06 CN CNA2007101818614A patent/CN101291336A/zh active Pending
- 2003-02-06 KR KR1020047013346A patent/KR100643107B1/ko active IP Right Grant
- 2003-02-06 JP JP2003571826A patent/JP2005519363A/ja not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8452838B2 (en) | 2005-03-31 | 2013-05-28 | Nec Corporation | Multimodal service session establishing and providing method, and multimodal service session establishing and providing system, and control program for same |
US8219655B2 (en) | 2006-11-17 | 2012-07-10 | Fujitsu Limited | Method of associating multiple modalities and a multimodal system |
Also Published As
Publication number | Publication date |
---|---|
CN1639707A (zh) | 2005-07-13 |
EP1481334A4 (en) | 2005-11-23 |
KR20040089677A (ko) | 2004-10-21 |
EP1679622A2 (en) | 2006-07-12 |
CN101291336A (zh) | 2008-10-22 |
WO2003073198A2 (en) | 2003-09-04 |
AU2003209037A1 (en) | 2003-09-09 |
KR100643107B1 (ko) | 2006-11-10 |
AU2003209037A8 (en) | 2003-09-09 |
EP1481334A2 (en) | 2004-12-01 |
WO2003073198A3 (en) | 2004-01-08 |
EP1679622A3 (en) | 2006-08-09 |
US20030167172A1 (en) | 2003-09-04 |
BR0307274A (pt) | 2004-12-21 |
US6807529B2 (en) | 2004-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4439920B2 (ja) | 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 | |
US6807529B2 (en) | System and method for concurrent multimodal communication | |
JP2005527020A (ja) | 同時マルチモーダル・タグを使用する同時マルチモーダル通信システムおよび方法 | |
US7272564B2 (en) | Method and apparatus for multimodal communication with user control of delivery modality | |
US9819744B1 (en) | Multi-modal communication | |
KR101027548B1 (ko) | 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 | |
US7203907B2 (en) | Multi-modal synchronization | |
KR100561228B1 (ko) | 보이스엑스엠엘 문서를 엑스에이치티엠엘플러스보이스문서로 변환하기 위한 방법 및 이를 이용한 멀티모달서비스 시스템 | |
RU2494444C2 (ru) | Способы и устройство для осуществления распределенных многомодальных приложений | |
US7382770B2 (en) | Multi-modal content and automatic speech recognition in wireless telecommunication systems | |
US7739350B2 (en) | Voice enabled network communications | |
US20080221899A1 (en) | Mobile messaging environment speech processing facility | |
US20040078424A1 (en) | Web services via instant messaging | |
US20080221898A1 (en) | Mobile navigation environment speech processing facility | |
US20020078148A1 (en) | Voice communication concerning a local entity | |
US20020069066A1 (en) | Locality-dependent presentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060206 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20080415 |