JP2010033586A - 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 - Google Patents
同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 Download PDFInfo
- Publication number
- JP2010033586A JP2010033586A JP2009222735A JP2009222735A JP2010033586A JP 2010033586 A JP2010033586 A JP 2010033586A JP 2009222735 A JP2009222735 A JP 2009222735A JP 2009222735 A JP2009222735 A JP 2009222735A JP 2010033586 A JP2010033586 A JP 2010033586A
- Authority
- JP
- Japan
- Prior art keywords
- session
- multimodal
- simultaneous
- user
- user agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004891 communication Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000002688 persistence Effects 0.000 title claims abstract description 23
- 230000004044 response Effects 0.000 claims abstract description 13
- 230000015654 memory Effects 0.000 claims description 28
- 230000001934 delay Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 239000003795 chemical substances by application Substances 0.000 description 68
- 230000004927 fusion Effects 0.000 description 35
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 229920001690 polydopamine Polymers 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W80/00—Wireless network protocols or protocol adaptations to wireless operation
- H04W80/08—Upper layer protocols
- H04W80/10—Upper layer protocols adapted for application session management, e.g. SIP [Session Initiation Protocol]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/14—Multichannel or multilink protocols
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer And Data Communications (AREA)
- Telephonic Communication Services (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
【課題】 同時マルチモーダル通信のためのセッションパーシスタンス方法および装置が必要とされている。
【解決手段】 非セッション中、ユーザ毎に、同じセッション中の異なる同時モード通信用に構成されたユーザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス(EG STATES)情報(604)を維持し(700)、該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立する(702)ことからなる方法(図6)および装置(600)。
【選択図】 図6
【解決手段】 非セッション中、ユーザ毎に、同じセッション中の異なる同時モード通信用に構成されたユーザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス(EG STATES)情報(604)を維持し(700)、該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立する(702)ことからなる方法(図6)および装置(600)。
【選択図】 図6
Description
本発明は、一般的に、通信システムおよび方法に関し、より詳細には、マルチモーダル通信システムおよび方法に関する。
ハンドヘルド・デバイス、携帯電話、ラップトップ・コンピュータ、PDA、インターネット家電、非モバイル・デバイス、およびその他の適切なデバイス等の通信デバイスが関与する新しい技術分野に、情報およびサービスにアクセスするためマルチモーダル対話の応用分野がある。通信デバイスに通常存在するのは、ブラウザのような少なくとも1つや、ユーザ・インターフェースとして動作することが可能な他の好適なソフトウェアのようなユーザ・エージェント・プログラムである。ユーザ・エージェント・プログラムは、(ユーザ・エージェント・プログラムを通じてユーザが入力するか、または他のデバイスまたはソフトウェア・アプリケーションからの)フェッチ要求に応答し、フェッチされた情報を受け取り、内部または外部接続を介してコンテンツ・サーバ内をナビゲートし、情報をユーザに提示することができる。ユーザ・エージェント・プログラムは、グラフィカル・ブラウザ、音声ブラウザ、または当業者には理解される他の適切なユーザ・エージェント・プログラムとすることができる。このようなユーザ・エージェント・プログラムとしては、J2MEアプリケーション、Netscape(商標)、Internet Explorer(商標)、javaアプリケーション、WAPブラウザ、Instant Messaging、マルチメディア・インターフェース、Windows CE(商標)、または他の適切なソフトウェア実装があるが、これらに限定されるわけではない。
マルチモーダル技術を使用することにより、ユーザは、ユーザ・エージェント・プログラムを介して1つのモードで、音声、データ、映像、オーディオ、またはその他の情報などの情報や、電子メール、天気情報、銀行取引、およびニュースまたはその他の情報などのサービスにアクセスし、異なるモードで情報を受信することができる。より具体的には、ユーザは、マイクに向かってフェッチ要求を発するなど、1つまたは複数のモードで情報フェッチ要求をサブミットし、その後、ユーザはフェッチされた情報を、同じモード(つまり、音声)で、または、返された情報を表示画面に目に見える形式で提示するグラフィカル・ブラウザを使用するなど異なるモードで、受信することができる。通信デバイス内では、ユーザ・エージェント・プログラムは、ネットワークに接続されているデバイスまたは他の端末デバイスに存在する標準のWebブラウザまたは他の適切なソフトウェア・プログラムと同様に動作する。
したがって、セッション中に複数のモードで通信することを容易にするために、1つまたは複数のユーザ入力および出力インターフェースをユーザが使用可能であるマルチモーダル通信システムが提案されている。ユーザ・エージェント・プログラムは、異なるデバイス上に配置可能である。例えば、音声ゲートウェイなどのネットワーク要素は、音声ブラウザを含むことができる。例えば、ハンドヘルド・デバイスとしては、WAPブラウザまたは他の適切なテキスト・ベースのユーザ・エージェント・プログラムなどのグラフィカル・ブラウザがある。したがって、マルチモーダル機能を備える場合、ユーザは1つのモードで入力し、異なるモードで戻る情報を受け取ることができる。
例えば、一部の情報を音声モードで入力し、他の情報を触覚インターフェースまたはグラフィカル・インターフェースで入力するなど、ユーザ入力を2つの異なるモードで提供しようとするシステムが提案されている。例えば、提案されているものの1つとして、最初に音声入力し、音声入力が完了した後で短いメッセージを送信することをユーザに要求するシリアル非同期手法の使用がある。このようなシステム内のユーザは、同じ1つのセッション中にモードを手動で切り換えなければならない場合がある。したがって、そのような提案は面倒なものとなる可能性がある。
他の提案されているシステムは、単一のユーザ・エージェント・プログラムと、マークアップ言語のタグとを既存のHTMLページで使用し、ユーザは、例えば、検索単語を入力する代わりに音声を使ってWebページにナビゲートし、その後、同じHTMLページで、ユーザがテキスト情報を入力することができる。例えば、ユーザは、「city」という単語を発声し、住所を入力することにより、コンテンツ・サーバから視覚的地図情報を取得することができる。しかし、このような提案方法では、通常、1つのデバイス上の同じユーザ・エージェント・プログラムで異なるモードによりマルチモード入力を行う必要がある(同じブラウズを通じて入力する)。したがって、音声およびテキスト情報は、通常、同じHTML形式で入力され、同じユーザ・エージェント・プログラムを通じて処理される。しかし、この提案では、単一のデバイス上で動作している単一のユーザ・エージェント・プログラムを使用する必要がある。
そのため、処理能力および記憶容量が限られているモバイル・デバイスなど、あまり複雑でないデバイスでは、複雑なブラウザを使用するとデバイスのパフォーマンスが低下する可能性がある。また、このようなシステムでは、異なるユーザ・エージェント・プログラムを通じた同時マルチモーダル情報入力を容易にすることができない。さらに、複数のデバイス上で同時マルチモーダル入力を行い、異なるアプリケーションまたは異なるデバイス間に処理を分散させることが望ましい場合がある。
他の提案では、マルチモーダル・ゲートウェイおよびマルチモーダル・プロキシを使用し、マルチモーダル・プロキシでコンテンツをフェッチし、そのコンテンツを通信デバイス内のユーザ・エージェント・プログラム(例えば、ブラウザ)および音声ブラウザ(例えばネットワーク要素内の)に出力し、システム側が1つのデバイスに対し音声とテキスト出力の両方を使用可能であるようにする。しかし、このような手法では、異なるアプリケーションを通じて異なるモードでユーザが情報を同時に入力できるようには思われない。その理由は、この提案もまた、異なるモードのフェッチされた情報を単一のユーザ・エージェント・プログラムまたはブラウザに出力する必要がある単一ユーザ・エージェント手法であると思われるからである。
先に終了した通信セッションの再開を可能にする通信セッション管理手法が知られている。例えば、voiceXML形式を使用するシステムで、ユーザがそのような形式の使用からログオフした場合にそのような形式の状態をサーバで維持することで、ユーザが例えばブラウザを通じてWebアプリケーションに再び接続すると、Webアプリケーションがユーザの前のセッション情報の位置を特定すると共にユーザがセッションを終了した時にとっていた前の状態でユーザのセッションを再確立できるようになっている。しかしながら、そのような手法は一般に1つのモードに対するセッションパーシスタンスを提供し、さらには、そのようなシステムは一般に、セッション中に1つのユーザ・エージェント・プログラムを使用していたユーザに対するセッションパーシスタンスを提供する。
したがって、同時マルチモーダル通信のためのセッションパーシスタンス方法および装置が必要とされている。
請求項1に記載の発明は、マルチモーダル通信の方法であって、非セッション中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されたユザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持すること、および、該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立すること、からなる方法をその要旨とする。
請求項2に係る発明は、請求項1に記載の方法において、非セッション中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されたユーザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持することは、セッション中に、最後にフェッチした情報が、同時マルチモーダル通信セッション中に使用される複数のユーザ・エージェント・プログラムの各々について得られた場所を示す位置データ;該同時マルチモーダル通信セッション中にユーザ入力によりどのフィールドが書き込まれたかを示す情報および該フィールドの内容;および該同時マルチモーダル通信セッションの現在の対話状態;のうちの少なくとも1つを格納することを含む。
請求項3に係る発明は、請求項1に記載の方法において、ユーザによるセッションへの参加を検出する工程と、同時マルチモーダル・セッション・ステータス情報にアクセスする工程と、該アクセスされた同時マルチモーダル・セッション・ステータス情報が該ユーザの前の同時マルチモーダル・セッションを示している場合に、該同時マルチモーダル・セッション・ステータス情報により識別された該同時マルチモーダル・セッションを再確立する工程と、を含む。
請求項4に係る発明は、請求項1に記載の方法において、同時マルチモーダル通信中のデバイスの切り換えを容易にするために、同時マルチモーダル・セッション中にどのデバイスが使用されるかを維持する工程を含む。
請求項5に係る発明は、請求項1に記載の方法において、セッション中に、互いに異なるモードで動作する複数のユーザ・エージェント・プログラムのうちの少なくとも1つについてのモード特有命令を一時的に格納し、該複数のユーザ・エージェント・プログラムのうち第2のものについてのモード特有命令に関連する通信遅延を補正することを含む。
請求項6に係る発明は、請求項1に記載の方法において、マルチモード・ミュート・データを受信し、所与のセッションに関してマルチモーダル通信のどのモードをミュートするかの記録を格納する工程を含む。
請求項7に係る発明は、マルチモーダル装置であって、非セッション中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されたユザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持し、該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立するように動作する同時マルチモーダル・セッション・パーシスタンス・コントローラ;および
該同時マルチモーダル・セッション・パーシスタンス・コントローラに結合して動作し、該同時マルチモーダル・セッション・ステータス情報を含むメモリ;を備えたマルチモーダル装置をその要旨とする。
該同時マルチモーダル・セッション・パーシスタンス・コントローラに結合して動作し、該同時マルチモーダル・セッション・ステータス情報を含むメモリ;を備えたマルチモーダル装置をその要旨とする。
請求項8に係る発明は、請求項7に記載のマルチモーダル装置において、前記メモリは、前の同時マルチモーダル通信セッションで使用された前のプロキシを示すプロキシ識別データ;該同時マルチモーダル通信セッション中にユーザ入力によりどのフィールドが書き込まれたかを示す情報および該フィールドの内容;および該同時マルチモーダル通信セッションの現在の対話状態;のうちの少なくとも1つを含む。
請求項9に係る発明は、請求項7に記載のマルチモーダル装置において、前記同時マルチモーダル・セッション・パーシスタンス・コントローラは、前記メモリに含まれている前記同時マルチモーダル・セッション・ステータス情報にアクセスし、該アクセスされた同時マルチモーダル・セッション・ステータス情報が前記ユーザに対する前の同時マルチモーダル・セッションを示している場合に、前記同時マルチモーダル・セッション・ステータス情報により識別された該同時マルチモーダル・セッションの再確立を容易にする。
本発明を例を使用して説明するが、本発明は類似の参照番号が類似の要素を示す添付の図面に制限されない。簡単に説明すると、マルチモーダル・ネットワーク要素を使用すると、1つまたは複数のデバイス上の異なるユーザ・エージェント・プログラムを通じて同時マルチモーダル通信セッションを円滑に行うことができる。例えば、スピーチ・エンジンおよびコール/セッション終了を含む音声ゲートウェイの音声ブラウザなどの音声モードで通信するユーザ・エージェント・プログラムは、モバイル・デバイス上のグラフィカル・ブラウザなどの異なるモードで動作している他のユーザ・エージェント・プログラムと同期する。複数のユーザ・エージェント・プログラムは、セッション時にコンテンツ・サーバに結合されて動作し、同時マルチモーダル対話を行うことができる。
例えば、マルチモーダル・ネットワーク要素は、テキスト・モードに関連するHTML形式および音声モードに関連するvoiceXML形式など、異なるモードに関連付けられている異なるマークアップ言語形式を取得するなどして、互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対するモード特有命令を取得する。セッション中のマルチモーダル・ネットワーク要素は、得られたモード特有命令に基づいてユーザのために複数のユーザ・エージェント・プログラムからの出力の同期をとる。例えば、音声ブラウザは1つのデバイス上でオーディオ出力と同期し、グラフィカル・ブラウザは同じデバイスまたは異なるデバイス上の画面の表示出力と同期するという動作を同時に実行するため、ユーザは1つまたは複数のユーザ・エージェント・プログラムを通じて入力可能である。ユーザが入力情報を、異なるモードで動作している複数のユーザ・エージェント・プログラムを通じて入力する場合、方法および装置では、異なる同時マルチモーダル情報の要求に対する応答として、ユーザによって入力された受信同時マルチモーダル入力情報と複数のユーザ・エージェント・プログラムから送信された受信同時マルチモーダル入力情報とを融合、またはリンクする。したがって、同時マルチモーダル入力は異なるユーザ・エージェント・プログラムを通じて利用しやすくなり、同時マルチモーダル・セッション中に複数のデバイスまたは他のデバイスを使用するか、または1つのデバイスで複数のユーザ・エージェント・プログラムを使用することができる。異なるプロキシがマルチモーダル・ネットワーク要素により指定され、異なるモードに設定されている異なるユーザ・エージェント・プログラムの各々と通信する。
図1は、本発明の一実施形態によるマルチモーダル通信システム10の一例を示している。この例では、マルチモーダル通信システム10は、通信デバイス12、マルチモーダル融合サーバ14、音声ゲートウェイ16、およびWebサーバ18などのコンテンツ・ソースを含む。通信デバイス12とは、例えば、インターネット家電、PDA、携帯電話、ケーブル・セットトップボックス、テレマティックス・ユニット、ラップトップ・コンピュータ、デスクトップ・コンピュータ、または他のモバイルあるいは非モバイル・デバイスなどである。さらに、所望の通信の種類に応じて、通信デバイス12は、無線ローカル・エリア・ネットワークまたは無線ワイド・エリア・ネットワーク20、WAP/データ・ゲートウェイ22、ショート・メッセージング・サービス・センター(SMSC/ページング・ネットワーク)24、または他の適切なネットワークと通信し稼働することも可能である。同様に、マルチモーダル融合サーバ14は、適切なデバイス、ネットワーク要素またはインターネット、イントラネット、マルチメディア・サーバ(MMS)26、インスタント・メッセージング・サーバ(IMS)28、または他の適切なネットワークを含むネットワークと通信することができる。したがって、通信デバイス12は、通信リンク21,23,および25を介して適切なネットワークと通信し稼働する。同様に、マルチモーダル融合サーバ14は、符号27で示されている従来の通信リンクを介してさまざまなネットワークに適切にリンクすることができる。この例では、それだけに限らないが、音声ゲートウェイ16は、音声認識エンジン、手書き文字認識エンジン、顔認識エンジン、セッション制御、ユーザ提供アルゴリズム、および運用および保守コントローラを必要に応じて含む、従来の音声ゲートウェイ機能を備えることができる。この例では、通信デバイス12は、WAPブラウザ、身振り認識、触覚認識、または他の適切なブラウザの形の視覚的ブラウザ(例えば、グラフィカル・ブラウザ)などのユーザ・エージェント・プログラム30を、例えば、電話回路32として示されているマイクおよびスピーカを含む電話回路とともに備える。他の適切な構成も使用可能である。
音声ゲートウェイ16は、電話回路32のスピーカから出力するのに適した形式でオーディオ情報を出力する、音声ブラウザなどの他のユーザ・エージェント・プログラム34を含む。しかし、スピーカを、ポケベルまたはその他のPDAなどの通信デバイス12以外の異なるデバイスに配置して音声が1つのデバイスに出力されるようにし、ユーザ・エージェント・プログラム30を介する視覚的ブラウザをさらに別のデバイス上に用意できることは理解されるであろう。また、ユーザ・エージェント・プログラム34は音声ゲートウェイ16内に存在するが、ユーザ・エージェント・プログラム34は通信デバイス12(音声ブラウザ36として示されている)内や他の適切なデバイス内に収めることも可能であることも理解されるであろう。同時マルチモーダル通信に対応するために、本明細書で説明しているように、複数のユーザ・エージェント・プログラム、つまり、ユーザ・エージェント・プログラム30とユーザ・エージェント・プログラム34は、所与のセッションで互いに対して異なるモードで動作する。したがって、ユーザは、開示されているサービスにサインアップし、Webサーバ18または他のサーバ(MFS14を含む)を介してアクセス可能なモード・プリファレンス・データベース36内のモード・プリファレンスをプリセットすることにより、ユーザ・エージェント・プログラムの各々のモードを事前に定義することができる。さらに、ユーザは、所望の場合には、セッション中に、当業界で知られているように、所与のユーザ・エージェント・プログラムのモードを選択したり、変更したりすることができる。
同時マルチモーダル同期コーディネータ42は、セッション中に、他のユーザ・エージェント・プログラムのモード特有命令に関連する通信遅延を補正するため複数のユーザ・エージェント・プログラムのうちの1つについてのモード特有命令を一時的に格納するバッファ・メモリを備えることができる。したがって、例えば、必要ならば、同期コーディネータ42は、異なるユーザ・エージェント・プログラム上に同時にレンダリングされるようにモード特有命令を待ち、プロキシに出力するシステム遅延または他の遅延を考慮することができる。
また、必要ならば、ユーザ・エージェント・プログラム30は、ユーザがいくつかのマルチモードをミュートできる入力インターフェースを備えることができる。例えば、デバイスまたはユーザ・エージェント・プログラムが複数モード・オペレーションに対応可能である場合、ユーザは、特定の持続時間の間、モードをミュートするように指示することができる。例えば、ユーザ用の出力モードが音声であるが、ユーザが入っている環境に大きな音が発生している場合、ユーザは、例えば、音声ブラウザへの出力をミュートすることができる。ユーザから受け取ったマルチモード・ミュート・データは、マルチモーダル融合サーバ14により、例えば、メモリ602(図5を参照)に格納され、所与のセッションについてどのモードをミュートするかを指示可能である。その後、同期コーディネータ42は、ミュートと識別されているモードのモード特有命令を取得することを控えることができる。
情報フェッチャ46は、複数のユーザ・エージェント・プログラム30および34についてマルチモード・アプリケーション54からモード特有命令69を取得する。モード特有命令68,70は、ユーザ・エージェント・プログラム30および34に送られる。この実施形態では、マルチモード・アプリケーション54は、後述のように、異なるユーザ・エージェント・プログラム、したがって異なるモードに関連付けられているモード特有命令を識別するデータを含む。同時マルチモーダル同期コーディネータ42は、モード特有命令を受け取るように情報フェッチャ46に結合して動作する。同時マルチモーダル同期コーディネータ42は、さらに、複数のプロキシ38a〜38nに結合して動作し、所与のセッションに必要なプロキシを指定する。
異なるユーザ・エージェント・プログラム30および34が異なるデバイス上にある場合、方法は、第1のモードに基づくマークアップ言語形式を1つのデバイスに送信し、第2のモード・マークアップ言語に基づく形式を1つまたは複数の他のデバイスに送信して、同じセッション中にユーザが異なるモードで同時情報入力を異なるデバイスに要求することにより、同時マルチモーダル入力情報68,70の要求を送信することを含む。これらのマークアップ言語に基づく形式は、モード特有命令68,70として得られた。
マルチモーダル・セッション・コントローラ40は、着信セッションの検出、セッションへの応答、セッション・パラメータの修正、セッションの終了、およびセッションおよび媒体情報とデバイス上のセッション制御アルゴリズムとの交換に使用される。マルチモーダル・セッション・コントローラ40は、必要ならセッションの一次セッション終了ポイントであるか、または例えば、ユーザが音声ゲートウェイなどの他のゲートウェイとのセッションを確立することを望んでいる場合に二次セッション終了ポイントとし、次に、これによりマルチモーダル・セッション・コントローラ40とのセッションを確立することができる。
同期コーディネータ42は、同時マルチモーダル入力情報の要求を含む、出力同期メッセージ47および49を、各々のプロキシ38aおよび38nに送信し、それらの出力と各々の複数のユーザ・エージェント・プログラムとの同期をとる。プロキシ38aおよび38nは、同時同期コーディネータ42に、受信したマルチモーダル入力情報72および74を含む入力同期メッセージ51および53を送信する。
同時マルチモーダル同期コーディネータ42は、プロキシを使用して、またはユーザ・エージェント・プログラムに能力があればユーザ・エージェント・プログラムを使用して、同期メッセージ47、49、51、および53を送受信し、プロキシ38aおよび38nが異なるユーザ・エージェント・プログラムから受信マルチモーダル入力情報72および74を受信すると、プロキシ38aおよび38nは受信マルチモーダル入力情報72および74を含む入力同期メッセージ51および53を同期コーディネータ42に送信する。同期コーディネータ42は、受信情報をマルチモーダル融合エンジン44に転送する。さらに、ユーザ・エージェント・プログラム34が同期メッセージをマルチモーダル同期コーディネータ42に送信する場合、マルチモーダル同期コーディネータ42は、その同期メッセージをセッション中の他のユーザ・エージェント・プログラム30に送信する。同時マルチモーダル同期コーディネータ42は、さらに、メッセージ変換を実行し、同期メッセージ・フィルタ処理を行って、同期システムをより効率的なものとすることができる。同時マルチモーダル同期コーディネータ42は、所与のセッションで使用されている現在のユーザ・エージェント・プログラムのリストを保持し、同期処理の必要なときにその通知先を追跡することができる。
マルチモーダル融合サーバ14は、複数のマルチモーダル・プロキシ38a〜38n、マルチモーダル・セッション・コントローラ40、同時マルチモーダル同期コーディネータ42、マルチモーダル融合エンジン44、情報(例えば、モード特有命令)フェッチャ46、およびvoiceXMLインタプリタ50を備える。少なくともマルチモーダル・セッション・コントローラ40、同時マルチモーダル同期コーディネータ42、マルチモーダル融合エンジン44、情報フェッチャ46、およびマルチモーダル・マークアップ言語(例えば、voiceXML)インタプリタ50は、1つまたは複数の処理デバイスを実行するソフトウェア・モジュールとして実装することができる。したがって、1つまたは複数のデバイスにより読み出されたときに1つまたは複数の処理デバイスでソフトウェア・モジュールの各々に関して本明細書で説明している機能を実行する実行可能命令がメモリに格納される。したがって、それだけには限らないが、マルチモーダル融合サーバ14は、デジタル・シグナル・プロセッサ、マイクロコンピュータ、マイクロプロセッサ、状態機械、またはその他の適切な処理デバイスを含む可能性のある処理デバイスを含むが、これらには限定されない。メモリには、ROM、RAM、分散メモリ、フラッシュ・メモリ、または処理デバイスにより実行されたときに1つまたは複数の処理デバイスを本明細書で説明されているように動作させる状態またはその他のデータを格納することが可能な他の適切なメモリがある。あるいはそれとは別に、ソフトウェア・モジュールの機能は、必要に応じてハードウェアまたはハードウェア、ソフトウェア、およびファームウェアの適切な任意の組み合わせで適宜実装することができる。
マルチモーダル・マークアップ言語インタプリタ50は、状態機械または他の適切なハードウェア、ソフトウェア、ファームウェアまたはそれらの適切な組み合わせとすることができ、これは特に、マルチモーダル・アプリケーション54が備えるマークアップ言語を実行する。
図2は、マルチモーダル融合サーバ14によりマルチモーダル通信を実行する方法を示す例である。しかし、本明細書で説明している工程はどれも、適切な順序で適切な1つまたは複数のデバイスにより実行可能であることは理解されるであろう。現在のマルチモーダル・セッションでは、ユーザ・エージェント・プログラム30(例えば、WAPブラウザ)は要求52をWebサーバ18に送信し、Webサーバ18にアクセス可能な同時マルチモーダル・アプリケーション54からコンテンツを要求する。これは、例えば、URLを入力するか、またはアイコンをクリックするか、または他の従来のメカニズムを使用することにより行うことができる。また、破線52で示されているように、ユーザ・エージェント・プログラム30および34は各々、ユーザ・モード情報をマークアップ・インタプリタ50に送信することができる。コンテンツ・サーバとして機能するWebサーバ18は、同時マルチモーダル・サービスへのユーザ・サブスクリプション工程を通じてすでに入力されているモード・プリファレンス・データベース36から、通信デバイス12のマルチモーダル・プリファレンス55を取得する。次に、Webサーバ18は、データベース36からのユーザ・プリファレンスを含む通知56を通じてマルチモーダル融合サーバ14に通知し、例えば、同時マルチモーダル通信でどのユーザ・エージェント・プログラムを使用しているか、どのモードでユーザ・エージェント・プログラムの各々が設定されているかを示す。この例では、ユーザ・エージェント・プログラム30は、テキスト・モードに設定され、ユーザ・エージェント・プログラム34は音声モードに設定されている。その後、同時マルチモード同期コーディネータ42は、セッション中に、複数のマルチモーダル・プロキシ38a〜38nのどれがユーザ・エージェント・プログラム30および34の各々に対して使用されるかを判別する。したがって、同時マルチモード同期コーディネータ42は、マルチモード・プロキシ38aを、テキスト・モードに設定されているユーザ・エージェント・プログラム30と通信するためのテキスト・プロキシとして指定する。同様に、同時マルチモード同期コーディネータ42は、プロキシ38nを、音声モードで動作しているユーザ・エージェント・プログラム34の音声情報を伝達するマルチモーダル・プロキシとして指定する。情報フェッチャは、Webページ・フェッチャ46として示されており、マークアップ言語形式またはその他のデータなどのモード特有命令を同時マルチモーダル・アプリケーション54と関連するWebサーバ18から取得する。
例えば、マルチモーダル・アプリケーション54がユーザに、情報を音声モードとテキスト・モードの両方で入力するよう要求した場合、情報フェッチャ46は、ユーザ・エージェント・プログラム30に対して出力する関連するHTMLマークアップ言語形式および要求66を介してユーザ・エージェント・プログラム34に出力する関連するvoiceXML形式を取得する。その後、これらのモード特有命令は、ユーザ・エージェント・プログラムにより出力としてレンダリングされる(例えば、画面への出力またはスピーカによる出力)。同時マルチモーダル同期コーディネータ42は、セッション中に、モード特有命令に基づき複数のユーザ・エージェント・プログラム30および34からの出力の同期をとる。例えば、同時マルチモーダル同期コーディネータ42は、音声が通信デバイス12上にレンダリングされるときにユーザ・エージェント・プログラム30を介してテキストが画面上に出力されるのと同時にレンダリングされるように適切な時期に各々のユーザ・エージェント・プログラム30および34に異なるモードを表す適切なマークアップ言語形式を送信する。例えば、マルチモーダル・アプリケーション54は、同時にユーザ・エージェント・プログラム30からのテキスト入力を待ちながら、テキスト・ブラウザを介して入力されることが予期される情報に関して、ユーザ・エージェント・プログラム34を介して、音声命令の形式の命令をユーザに与えることができる。例えば、マルチモーダル・アプリケーション54は、「please enter your desired destination city followed by your desired departure time」という語句の音声出力を必要とし、その一方で同時に、ユーザ・エージェント・プログラム30を通じて通信デバイスの表示装置上に出力されるフィールドを表示し、そのフィールドは市を意味する「C」として指示され、次の行では送信先を意味する「D」として指示される。この例では、マルチモーダル・アプリケーションは、ユーザによる同時マルチモーダル入力を要求しておらず、1つのモード、つまりテキスト・モードを通じて入力を要求しているだけである。他のモードは、ユーザ命令を送るために使用されている。
それとは別に、マルチモーダル・アプリケーション54が複数のユーザ・エージェント・プログラムを通じて入力情報を入力するようユーザに要求する場合、マルチモーダル融合エンジン14は、セッション中の異なるマルチモーダル・ユーザ・エージェント・プログラムで同時に入力されるユーザ入力を融合する。例えば、ユーザが表示されている地図上の2つの位置をクリックしながら「directions from here to
there」という語句を発声すると、音声ブラウザまたはユーザ・エージェント・プログラム34は開始位置フィールドに「here」を書き込み、目的位置フィールドに受信した入力情報74として「there」と書き込む一方で、グラフィカル・ブラウザ、つまり、ユーザ・エージェント・プログラム30は、開始位置フィールドに地図上の第1のクリック点の地理的位置(例えば、緯度/経度)を書き込み、目的位置フィールドに地図上の第2のクリック点の地理的位置(例えば、緯度/経度)を書き込む。マルチモーダル融合エンジン44はこの情報を取得し、異なるモードで動作している複数のユーザ・エージェント・プログラムからユーザが入力した入力情報を融合し、単語「here」が第1のクリック点の地理的位置に対応し、単語「there」が第2のクリック点の地理的位置(例えば、緯度/経度)に対応すると判定する。このようにして、マルチモーダル融合エンジン44はユーザのコマンドの一揃いの完全な情報を持つ。マルチモーダル融合エンジン44側で、融合された情報60をユーザ・エージェント・プログラム30および34に送り返し、同時マルチモーダル通信に関連する完全な情報を持つようにしたい場合がある。このときに、ユーザ・エージェント・プログラム30は、この情報をコンテンツ・サーバ18にサブミットし、所望の情報を取得することができる。
there」という語句を発声すると、音声ブラウザまたはユーザ・エージェント・プログラム34は開始位置フィールドに「here」を書き込み、目的位置フィールドに受信した入力情報74として「there」と書き込む一方で、グラフィカル・ブラウザ、つまり、ユーザ・エージェント・プログラム30は、開始位置フィールドに地図上の第1のクリック点の地理的位置(例えば、緯度/経度)を書き込み、目的位置フィールドに地図上の第2のクリック点の地理的位置(例えば、緯度/経度)を書き込む。マルチモーダル融合エンジン44はこの情報を取得し、異なるモードで動作している複数のユーザ・エージェント・プログラムからユーザが入力した入力情報を融合し、単語「here」が第1のクリック点の地理的位置に対応し、単語「there」が第2のクリック点の地理的位置(例えば、緯度/経度)に対応すると判定する。このようにして、マルチモーダル融合エンジン44はユーザのコマンドの一揃いの完全な情報を持つ。マルチモーダル融合エンジン44側で、融合された情報60をユーザ・エージェント・プログラム30および34に送り返し、同時マルチモーダル通信に関連する完全な情報を持つようにしたい場合がある。このときに、ユーザ・エージェント・プログラム30は、この情報をコンテンツ・サーバ18にサブミットし、所望の情報を取得することができる。
ブロック200に示されているように、セッションに関して、方法は、互いに対して異なるモードで動作する複数のユーザ・エージェント・プログラムに対しモード特有命令68,70を取得することを含むが、例えば、複数のユーザ・エージェント・プログラムの各々の各モードに固有の異なる種類のマークアップ言語を取得する。ブロック202に示されているように、方法は、セッション中に、ユーザの同時マルチモーダル・オペレーションを円滑に実行可能であるようにするモード特有命令に基づきユーザ・エージェント・プログラムなどの出力の同期を行うことを含む。そこで、マークアップ言語形式のレンダリングの同期をとり、複数のユーザ・エージェント・プログラムを通じて異なるモードで複数のユーザ・エージェント・プログラムからの出力を同時にレンダリングする。ブロック203に示されているように、同時マルチモーダル同期コーディネータ42は、異なるユーザ・エージェント・プログラム30および34に対するモード特有命令セット68,70が、異なるユーザ・エージェント・プログラムを使用してユーザが行う異なるモードでの情報の同時入力を要求するかどうかを判別する。否定の場合、ブロック205に示されているように、同時マルチモーダル同期コーディネータ42は1つのユーザ・エージェント・プログラムだけから受信した入力情報を送信先サーバまたはWebサーバ18に転送する。
しかし、ブロック204に示されているように、異なるユーザ・エージェント・プログラム30および34に対するモード特有命令セット68,70が、異なるモードでの同時ユーザ入力を要求した場合、方法は、異なるモードで動作する異なるユーザ・エージェント・プログラムに関連する融合されたマルチモーダル応答60を生成するためユーザ・エージェント・プログラム30および34により送り返される、ユーザが入力する受信同時マルチモーダル入力情報を融合することを含む。ブロック206に示されているように、方法は、融合されたマルチモーダル応答60をマークアップ言語インタプリタ50で現在実行中のアプリケーション61に転送して返すことを含む。現在実行中のアプリケーション61(図5を参照)は、インタプリタ50の一部として実行中のアプリケーション54からのマークアップ言語である。
図1および3を参照して、マルチモーダル通信システム10の詳細なオペレーションについて説明する。ブロック300に示されているように、通信デバイス12は、ユーザ・エージェント・プログラム30を介してWebコンテンツまたは他の情報に対する要求52を送信する。ブロック302に示されているように、コンテンツ・サーバ18は、セッションのデバイス・プリファレンスおよびモード・プリファレンスを取得するために識別されているユーザのモード・プリファレンス・データベース36からマルチモーダル・プリファレンス・データ55を取得する。ブロック304に示されているように、方法は、コンテンツ・サーバがマルチモーダル融合サーバ14に、どのユーザ・エージェント・アプリケーションがどのデバイス上で、所与の同時の異なるマルチモーダル通信セッションに対しどのモードを使用して動作しているかを通知することを含む。
前述のように、またブロック306に示されているように、同時マルチモーダル同期コーディネータ42は、モード・プリファレンス・データベース36からのモード・プリファレンス情報55に基づいて異なるモードの各々について各プロキシを判別するようにセットアップされている。ブロック308に示されているように、方法は、必要に応じて、マルチモーダル・セッション・コントローラ40を介して各ユーザ・エージェント・プログラムのユーザ・モード指定を受け取ることを含む。例えば、ユーザは、所望のモードを変更し、モード・プリファレンス・データベース36に格納されているプリセット済みのモード・プリファレンス55と異なるようにすることができる。これは、従来のセッション・メッセージング機能を使用して実行可能である。所望のユーザ・エージェント・プログラムが異なるデバイス上にある場合など、ユーザが特定のユーザ・エージェント・プログラムに対する所望のモードを変更している場合、異なるマークアップ言語形式などの、異なるモード特有命令が必要になることがある。ユーザ・モード指定が変更された場合、情報フェッチャ46は、ユーザ・エージェント・アプリケーションに対し選択されているモードに基づいて適切なモード特有命令をフェッチし、かつ要求する。
その後、ブロック310に示されているように、情報フェッチャ46は、ユーザ・エージェント・プログラム毎に、したがってモード毎に、フェッチ要求66として示されているモード特有命令をコンテンツ・サーバ18からフェッチする。したがって、マルチモーダル融合サーバ14は、情報フェッチャ46を介して、異なるモードを表すマークアップ言語を取得し、これにより、各ユーザ・エージェント・プログラム30および34は、そのマークアップ言語に基づいてさまざまモードで情報を出力することができる。しかし、マルチモーダル融合サーバ14はマークアップ言語に基づく情報だけでなく、適切なモード特有命令であればどのようなものでも取得することができることは理解されるであろう。
モード特有命令が各ユーザ・エージェント・プログラムについてコンテンツ・サーバ18からフェッチされ、CMMTがモード特有命令68,70に関連付けられていない場合、受け取ったモード特有命令69をトランスコーダ608(図5を参照)に送ることができる。トランスコーダ608は、受け取ったモード特有命令を、インタプリタ50により解釈可能であるように、基本マークアップ言語形式にトランスコードし、異なるモード610に対するモード特有命令を識別するデータを有する基本マークアップ言語形式を作成する。したがって、トランスコーダは、異なるモードで動作する他のユーザ・エージェント・プログラムのモード特有命令を識別するデータを含むようにモード特有命令をトランスコードする。例えば、インタプリタ50がvoiceXMLなどの基本マークアップ言語を使用しており、アプリケーション54の一方のモード特有命令セットがvoiceXML形式であり、他方がHTML形式であれば、トランスコーダ608は、HTML形式を取得可能な場所のURL、または実際のHTML形式自体を識別するCMMTをvoiceXML形式に埋め込む。さらに、モード特有命令のいずれも基本マークアップ言語のものでなければ、一組のモード特有命令が基本マークアップ言語に変換され、それ以降、それ以外のモード特有命令群はCMMTにより参照される。
あるいは、マルチモーダル・アプリケーション54は、必要なCMMT情報を供給し、同時マルチモーダル・セッション時に複数のユーザ・エージェント・プログラムによる出力の同期処理を円滑に行えるようにすることができる。各ユーザ・エージェント・プログラムに対するモード特有命令の一例を、以下にマークアップ言語形式で示す。マークアップ言語形式は、マルチモーダル・アプリケーション54により供給され、マルチモーダル融合サーバ14によって同時マルチモーダル通信セッションを実行するために使用される。マルチモーダルvoiceXMLインタプリタ50では、マルチモーダル・アプリケーション54がvoiceXMLを基本言語として使用するものと想定している。ユーザに代わって複数のユーザ・エージェント・プログラムが出力の同期処理を円滑に行えるようにするため、voiceXML形式の拡張機能またはHTML形式のインデックスなどの同時マルチモーダル・タグ(CMMT)を含む、またはそのインデックスを生成するマルチモーダル・アプリケーション54を作成することができる。CMMTは、モードを識別し、識別されたモードでユーザ・エージェント・プログラムのうちの1つにより出力される実際のHTML形式などの情報を指し示すか、またはそのような情報を含む。CMMTは、さらに、マルチモーダル同期データとしても使用され、CMMTを入れることにより異なるモード特有命令と異なるユーザ・エージェント・プログラムとの同期をとる必要があることを示す。
例えば、voiceXMLがマルチモーダル・アプリケーション54の基本言語であれば、CMMTはテキスト・モードであることを示す。この例では、CMMTは、ユーザ・エージェント・プログラムにより出力されるHTML形式のテキストを含むURLを含むか、またはCMMTの一部としてHTMLを含むことができる。CMMTは、マークアップ言語の属性拡張機能のプロパティを備えることができる。マルチモーダルvoiceXMLインタプリタ50は、情報フェッチャ46を使用してモード特有命令をフェッチし、マルチモーダル・アプリケーションからフェッチされたモード特有命令を解析し(この例では、実行し)、CMMTを検出する。検出された後、マルチモーダルvoiceXMLインタプリタ50は、CMMTを解釈し、必要ならば、テキスト・モード用のHTMLなど、他のモード特有命令を取得する。
例えば、CMMTは、グラフィカル・ブラウザ用のテキスト情報を取得する場所を示すことができる。以下に示すのは、音声ブラウザが「where from」および「where to」と尋ねる音声を出力し、その一方でグラフィカル・ブラウザが「from
city」および「to city」と表示する必要がある同時マルチモーダル・アプリケーションに対するvoiceXML形式の形式の同時マルチモーダル巡回アプリケーションのモード特有命令の一例を示す表である。「from city」および「to city」と示されているフィールドでは、ユーザが異なるブラウザを通じて、受け取り済みの同時マルチモーダル情報を入力することが予期されている。
city」および「to city」と表示する必要がある同時マルチモーダル・アプリケーションに対するvoiceXML形式の形式の同時マルチモーダル巡回アプリケーションのモード特有命令の一例を示す表である。「from city」および「to city」と示されているフィールドでは、ユーザが異なるブラウザを通じて、受け取り済みの同時マルチモーダル情報を入力することが予期されている。
表1
<vxml version=“2.0”>
<form>
<block>
<cmmt mode=“html” src=“./itinerary.html”/>非音声モードがhtml(テキスト)であること、およびソース情報がitinerary.htmlというurlに置かれていることを示す
</block>
<field name=“from_city”>グラフィカル・ブラウザを通じて収集しようと試みる予期される情報テキスト断片
<grammar src=“./city.xml”/>音声用であり、音声認識エンジンの可能な応答のリストを作成する必要がある
Where from? 音声ブラウザが発するプロンプト
</field>
<field name=“to_city”>テキストが入ることを予期する
<grammar src=“./city.xml”/>
Where to? 音声ブラウザが発する音声
</field>
</form>
</vxml>
したがって、上記のマークアップ言語形式は、少なくとも1つのユーザ・エージェント・プログラムのモード特有命令を表す基本マークアップ言語で書かれており、CMMTは、異なるモードで動作している他のユーザ・エージェント・プログラムのモード特有命令を指定する拡張である。
ブロック311に示されているように、ユーザがプリファレンスを変更した場合、方法は、その変更と矛盾しないようにプロキシをリセットすることを含む。ブロック312に示されているように、マルチモーダル融合サーバ14は、受信待機ポイントに到達したかどうかを判別する。到達した場合、ブロック314に示されているように次の状態に入る。肯定の場合、この工程は完了である。否定の場合、方法は、異なるユーザ・エージェント・プログラムに対してモード特有命令の同期処理を行うことを含む。マルチモーダルvoiceXMLインタプリタ50は、この例では、ユーザ・エージェント・プログラム30についてはHTMLを、ユーザ・エージェント34についてはvoiceXMLを、同時マルチモーダル同期コーディネータ42に出力し、複数のユーザ・エージェント・プログラムによる出力の同期をとる。これは、例えば、前述のように、受信待機ポイントの発生に基づいて実行することができる。これは、ブロック316に示されている。
ブロック318に示されているように、方法は、同時マルチモーダル同期コーディネータ42などにより、対応するプロキシ38aおよび38nに、同期しているモード特有命令68,70を送信し、同じセッションでユーザによる異なるモードでのユーザ入力情報を要求することを含む。同期をとった要求68および70は、ユーザ・エージェント・プログラム30および34の各々に送られる。例えば、異なるユーザ・エージェント・プログラムに関連付けられている複数の入力モードに対応する異なる同時モード入力情報に対する要求は、モード特有命令68および70を含む同期をとった要求として示される。これらは、例えば、同期したマークアップ言語形式とすることができる。
ユーザ・エージェント・プログラム30および34は、モード特有命令を同時にレンダリングすると、方法は、ユーザ入力をブロック320に示されているようにタイムアウト期間内に受信したかどうか、または他のイベントが発生したかどうかを判別することを含む。例えば、マルチモーダル融合エンジン44は、一定期間待ち、それから融合のためユーザが入力したマルチモーダル入力情報が複数のユーザ・エージェント・プログラムから適切に受信されたかどうかを判別することができる。この待機期間は、各ユーザ・エージェント・プログラムのモード設定に応じて異なる期間とすることができる。例えば、ユーザが音声とテキスト情報の両方を同時に入力することが期待されているが、マルチモーダル融合エンジンが一定期間内に融合に関する情報を受け取っていない場合、エラーが発生しているとみなされる。さらに、マルチモーダル融合エンジン44を使用すると、音声情報だと音声ゲートウェイ16を介した処理に比較的長い時間を要するため、テキスト情報の場合と比べて音声情報では返すのにより長い時間がかかる場合がある。
この例では、ユーザはユーザ・エージェント・プログラム30を介してテキストを入力すると同時にマイクを使用して音声情報を発声し、ユーザ・エージェント・プログラム34に伝達することが要求される。受信同時マルチモーダル入力情報72および74は、ユーザ・エージェント・プログラム30および34から受信され、適切な通信リンクを介して各々のプロキシに渡される。ユーザ・エージェント・プログラム34とデバイス12のマイクおよびスピーカとの間の符号76で示されている通信は、PCM形式または他の適切な形式で実行され、この例では、ユーザ・エージェント・プログラムにより出力することができるモード特有命令形式ではないことに注意されたい。
ユーザがテキスト・ブラウザと音声ブラウザを同時に使用して情報を入力し、マルチモーダル融合エンジン44が複数のユーザ・エージェント・プログラムから送信された同時マルチモーダル入力情報を受信した場合、マルチモーダル融合エンジン44は、ブロック322に示されているようにユーザから受信した入力情報72および74を融合する。
図4は、マルチモーダル融合エンジン44のオペレーションの一例を示している。説明のため、あるイベントについて、「no input」はユーザがこのモードで何も入力していなかったことを意味するものとする。「no match」は、何かが入力されたが、予期した値でなかったことを意味する。結果は、ユーザにより正常に入力された内容からの一組のスロット(またはフィールド)名および対応する値のペアである。例えば、適切な入力内容は、“City=Chicago”および“State=Illinois”および“Street”=“first street”および例えば、0%から100%の範囲の信頼度重み係数である。前述のように、マルチモーダル融合エンジン44が情報を融合するかどうかは、スロット名(例えば、変数)および値ペアの受信または予期した受信の間の時間または他のイベントの受信に応じて異なる可能性がある。この方法は、信頼水準が受信した情報に割り当てられていると想定している。例えば、同期コーディネータおよびモードと情報到着時刻に基づくその重み信頼度。例えば、同じセッション中の異なるモードで同じスロット・データを入力することが可能な場合のように(例えば、住所の通り名を発声してキー入力する)、入力されたデータは発声されたデータよりも正確であると想定される。同期コーディネータは、受信時刻に基づき、また受信した個々の結果の信頼値に基づき、異なる同時マルチモーダル情報に対する要求への応答として送信された複数のユーザ・エージェント・プログラムの1つから送られた受信マルチモーダル入力情報を組み合わせる。
ブロック400に示されているように、方法は、非音声モードでイベントまたは結果があったかを判別することを含む。肯定の場合、ブロック402に示されているように、方法は、「no input」および「no match」イベントを除く任意のモードのイベントがあったかを判別することを含む。肯定の場合、方法は、ブロック404に示されているように、受け取った第1のそのようなイベントをインタプリタ50に返すことを含む。しかし、「no input」および「no match」以外にユーザ・エージェント・プログラムからのイベントがなかった場合、方法は、ブロック406に示されているように、マルチモーダル融合エンジンの2つまたはそれ以上の結果を送信したモードについて、受信時刻の順序でそのモードの結果を組み合わせることを含む。これは、ユーザが同じスロットに対し入力を再入力する場合に有用であると思われる。所与のスロット名に対する後の値は、前の値を上書きする。マルチモーダル融合エンジンは、構成要素である個々の結果の信頼度重みに基づいてモードの結果信頼度重みを調整する。最終結果は、モード毎に、各スロット名に対する1つの回答となる。方法は、ブロック408に示されているように、ブロック406から結果を取り出し、それらを組み合わせてすべてのモードに対する1つの結合された結果とすることを含む。方法は、最も信頼度の低い結果から始めて、最も信頼度の高い結果へと進むことを含む。融合された結果の中の各スロット名で、そのスロットの定義を含む最も信頼度の高い入力結果に属するスロット値を受け取る。
ブロック410に示されているように、方法は、今組み合わされた結果があるかどうかを判別することを含む。つまり、ユーザ・エージェント・プログラムが、マルチモーダル融合エンジン44に対する結果を送信したかということである。肯定の場合、方法は、ブロック412に示されているように、組み合わせた結果をコンテンツ・サーバ18に返すことを含む。否定の場合、ブロック414に示されているように、「no input」または「no match」イベントが0個またはそれ以上あることを意味する。方法は、「no match」イベントがあるかどうかを判別することを含む。肯定の場合、方法は、ブロック416に示されているように、「no match」イベントを返すことを含む。しかし、「no match」イベントがなければ、方法は、ブロック418に示されているように、「no input」イベントをインタプリタ50に返すことを含む。
ブロック400に戻り、非音声モードからのイベントまたは結果がなかった場合、方法は、音声モードで結果を返したかどうか、つまり、ユーザ・エージェント・プログラム34が受信情報74を生成したかどうかを判別することを含む。これは、ブロック420に示されている。肯定の場合、ブロック422に示されているように、方法は、受け取った入力情報に対する音声応答をマルチモーダル・アプリケーション54に返すことを含む。しかし、音声ブラウザ(例えば、ユーザ・エージェント・プログラム)が情報を出力しなかった場合、方法は、ブロック424に示されているように、音声モードでイベントが返されたかどうかを判別することを含む。「はい」であれば、ブロック426に示されているように、イベントは73でマルチモーダル・アプリケーション54に報告される。音声モード・イベントが生成されていなかった場合、方法は、ブロック428に示されているように、「no input」イベントを返すことを含む。
以下の表2は、仮説的データに適用される図4の方法の一例を示している。
表2
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
例えば、ブロック400で、非音声モードからの結果が受信されなかった場合、方法は、ブロック402に進む。ブロック402で、イベントがまったく受信されなかった場合、方法はブロック406に進む。ブロック406で、融合エンジンは、TextModeCollectedDataを1スロット当たり1つの応答に圧縮する。VoiceModeCollectedDataはそのままである。
表2
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
例えば、ブロック400で、非音声モードからの結果が受信されなかった場合、方法は、ブロック402に進む。ブロック402で、イベントがまったく受信されなかった場合、方法はブロック406に進む。ブロック406で、融合エンジンは、TextModeCollectedDataを1スロット当たり1つの応答に圧縮する。VoiceModeCollectedDataはそのままである。
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
OVERALLCONFIDENCE=.85
音声モードはそのままである。しかし、.85が結果セット内の最低信頼度であるため、総信頼度値.85が割り当てられる。
TextModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=1.0
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
後のタイムスタンプでスロットにLaSalleが書き込まれているため、テキスト・モードでは、収集データからMichiganが削除される。最終結果はこのようになる。そして、1.0が結果セット内の最低信頼度レベルであるため、総信頼度レベル1.0が割り当てられる。
TextModeCollectedData
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
OVERALLCONFIDENCE=1.0
以下に、ブロック408に送信されたデータを示す。
VoiceModeCollectedData
STREETNAME=Michigan
TIMESTAMP=0
CONFIDENCELEVEL=.85
NUMBER=112
TIMESTAMP=0
CONFIDENCELEVEL=.99
OVERALLCONFIDENCE=.85
TextModeCollectedData
STREETNAME=LaSalle
TIMESTAMP=1
CONFIDENCELEVEL=1.0
OVERALLCONFIDENCE=1.0
ブロック408で、事実上2つのモードが単一の返却結果に融合される。
まず、最低信頼度レベルの結果全体が取り出され、最終結果(FinalResult)構造の中に入れられる。
FinalResult
STREETNAME=Michigan
CONFIDENCELEVEL=.85
NUMBER=112
CONFIDENCELEVEL=.99
その後、次の最低の結果の要素が最終結果の中で置き換えられる。
FinalResult
STREETNAME=LaSalle
CONFIDENCELEVEL=1.0
NUMBER=112
CONFIDENCELEVEL=.99
この最終結果は、2つのモードを融合したものであり、インタプリタに送られ、そこで、次に何をするかを決定する(Webからさらに情報をフェッチするか、またはユーザからの情報がもっと必要かどうかを決定し、現在の状態に基づいて再度プロンプトを表示する)。
図5は、同時マルチモーダル・セッションパーシスタンス(persistance、永続化)コントローラ600と、同時マルチモーダル・セッション・パーシスタンス・コントローラ600に結合された同時マルチモーダル・セッション・ステータス・メモリ602とを備えるマルチモーダル融合サーバ14の他の実施形態を示している。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、適切な処理デバイス上で実行されているソフトウェア・モジュールであるか、または適切なハードウェア、ソフトウェア、ファームウェア、またはそれらの適切な組み合わせとすることができる。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、非セッション状態のときに、ユーザ毎に、同時マルチモーダル・セッション・ステータス情報604をデータベースまたはその他の適切なデータ構造の形で保持する。同時マルチモーダル・セッション・ステータス情報604は、セッション中の異なる同時モード通信を行うように構成されている複数のユーザ・エージェント・プログラムのステータス情報である。同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、同時マルチモーダル・セッション・ステータス情報604へのアクセスに対する応答としてすでに終了している同時マルチモーダル・セッションを再確立する。マルチモーダル・セッション・コントローラ40は、ユーザがいつセッションに参加したかを同時マルチモーダル・セッション・パーシスタンス・コントローラ600に通知する。マルチモーダル・セッション・コントローラ40は、また、同時マルチモーダル同期コーディネータと通信し、オフライン・デバイスとの同期処理を行うか、または同時マルチモーダル・セッションを再確立するために必要なユーザ・エージェント・プログラムと同期をとる。
同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、例えば、前の同時マルチモーダル通信セッションのときに所与のモードに使用されるプロキシを示すURLなどのプロキシIDデータ906を格納する。必要ならば、同時マルチモーダル・セッション状態メモリ602は、さらに、そのようなフィールドまたはスロットの内容とともに前の同時マルチモーダル通信セッション時にユーザからの入力によりどのフィールドまたはスロットが書き込まれたかを示す情報も格納することができる。さらに、同時マルチモーダル・セッション状態メモリ602は、同時マルチモーダル通信セッションに対する現在の対話状態606を含むことができる。状態には、インタプリタ50が実行中アプリケーションの実行状態にある場合も含まれる。ユーザがどのフィールドに書き込んだかに関する情報は、融合された入力情報60の形式とすることができる。
図に示されているように、Webサーバ18は、モード・タイプ毎にモード特有命令を備えることができる。この例では、テキストは、HTML形式の形で供給され、音声は、voiceXML形式の形で供給され、音声はさらに、WML形式で供給される。同時マルチモーダル同期コーディネータ42は、適切な形式を適切なプロキシに出力する。図に示されているように、voiceXML形式は、音声ブラウザ用に指定されているプロキシ38aを通じて出力されるが、HTML形式は、グラフィカル・ブラウザ用のプロキシ38nに出力される。
セッション・パーシスタンス維持は、セッションが異常終了し、ユーザがこの後も同じ対話状態に戻りたい場合に使用することができる。また、モードで、異なるモードで入力から出力までの遅延時間を生じさせ、時間遅延を補正するために情報を一時的に格納しておく必要のある、異なる遅延特性を持つトランスポート・メカニズムを使用するのも有益である。
図6〜7に示されているように、同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、所与のセッションに対する所与のユーザの複数のユーザ・エージェント・プログラムのマルチモーダル・セッション・ステータス情報を保持し、ユーザ・エージェント・プログラムは、セッション中の異なる同時モード通信を行えるように構成されている。これは、ブロック700に示されている。ブロック702に示されているように、方法は、マルチモーダル・セッション・ステータス情報604にアクセスすることに対する応答として前の同時マルチモーダル・セッションを再確立することを含む。ブロック704に示されているように、より詳しく述べると、同時マルチモーダル・セッション時に、同時マルチモーダル・セッション・パーシスタンス・コントローラ600はメモリ602内にユーザ別マルチモーダル・セッション・ステータス情報604を格納する。ブロック706に示されているように、同時マルチモーダル・セッション・パーシスタンス・コントローラ600は、セッション・コントローラーからユーザによるセッション参加を検出し、メモリ内でユーザIDを検索して、ユーザが前の同時マルチモーダル・セッションに関与していたかを判別する。したがって、ブロック708に示されているように、方法は、ユーザによるセッション参加の検出に基づいてメモリ602に格納されているマルチモーダル・セッション・ステータス情報604にアクセスする。
ブロック710に示されているように、方法は、セッションがメモリ604内に存在しているかどうかを判別することを含む。否定の場合、セッションは新しいセッションとして指定され、さらに、新しいエントリが作成され、新しいセッションをメモリ602に記録するため必要なデータがそのエントリに書き込まれる。これは、ブロック712に示されている。ブロック714に示されているように、セッションが存在している場合、例えば、セッションIDがメモリ602内に存在する場合、方法は、メモリ602に対して、ユーザが既存のアプリケーションを実行させているかクエリを実行することを含み、もし実行していれば、ユーザがそのアプリケーションとの通信を再確立したいかクエリを実行することができる。ユーザが望めば、方法は、メモリ602から最後にフェッチされた情報のURLを取り出すことを含む。これは、ブロック716に示されている(図7)。ブロック718に示されているように、適切なプロキシ38a〜38nに対し、ブロック716で取り出された適切なURLが与えられる。ブロック720に示されているように、方法は、メモリ602に格納されているユーザ・エージェント状態情報606に基づいて、プロキシを介して、適切なユーザ・エージェント・プログラムに要求を送信することを含む。
図8は、同時マルチモーダル・セッション・ステータス・メモリ602の内容の一例を示す図である。図に示されているように、ユーザID 900で特定のユーザを指定し、ユーザが複数のセッションをメモリ602内に格納している場合にセッションID 902をユーザIDに関連付けることができる。さらに、ユーザ・エージェント・プログラムID 904は、例えば、特定のユーザ・エージェント・プログラムを実行しているデバイスに関するデバイスIDを示す。プログラムIDは、ユーザ・プログラム識別子、URL、または他のアドレスでもよい。プロキシIDデータ906は、前の同時マルチモーダル通信でマルチモーダル・プロキシが使用されていることを示す。したがって、ユーザはセッションを終了し、後から、その終了したところから継続することができる。
デバイスID 904を保持すると、とりわけ、システムでは同時マルチモーダル・セッションの実行中に使用されているデバイスの識別を保持可能であるため、ユーザは同時マルチモーダル通信中にデバイスを簡単に切り換えられる。
したがって、1つまたは複数のデバイスに分散されている別々のユーザ・エージェント・プログラムを通じて、(あるいは、同じデバイスに含まれている場合)、異なるモードで入力された複数の入力は、統一された一貫性のある方法で融合される。さらに、ユーザ・エージェント・プログラムのレンダリングとそれらのユーザ・エージェント・プログラムを使用したユーザによる情報入力の両方の同期をとるメカニズムが用意されている。さらに、開示されているマルチモーダル融合サーバは、同時マルチモーダル通信セッションを行えるように、既存のデバイスおよびゲートウェイに結合することができる。
さまざまな態様における本発明の他の変更形態および修正形態の実施が、当業者には明らかであること、また本発明は説明されている特定の実施形態に限定されないこと、は理解されるであろう。例えば、本発明の方法はいくつかの工程に関して説明されているが、それらの工程は必要に応じて適切な順序で実行可能であることは理解されるであろう。したがって、開示され本願で権利を請求している基本原理の精神と範囲に包含される一部および全部の修正形態、変更形態、または均等形態は本発明に包含されるものとする。
Claims (9)
- マルチモーダル通信の方法であって、
非セッション中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されたユザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持すること、および、
該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立すること、からなる方法。 - 非セッション中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されたユーザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持することは、セッション中に、
最後にフェッチした情報が、同時マルチモーダル通信セッション中に使用される複数のユーザ・エージェント・プログラムの各々について得られた場所を示す位置データ;
該同時マルチモーダル通信セッション中にユーザ入力によりどのフィールドが書き込まれたかを示す情報および該フィールドの内容;および
該同時マルチモーダル通信セッションの現在の対話状態;のうちの少なくとも1つを格納することを含む請求項1に記載の方法。 - ユーザによるセッションへの参加を検出する工程と、
同時マルチモーダル・セッション・ステータス情報にアクセスする工程と、
該アクセスされた同時マルチモーダル・セッション・ステータス情報が該ユーザの前の同時マルチモーダル・セッションを示している場合に、該同時マルチモーダル・セッション・ステータス情報により識別された該同時マルチモーダル・セッションを再確立する工程と、を含む請求項1に記載の方法。 - 同時マルチモーダル通信中のデバイスの切り換えを容易にするために、同時マルチモーダル・セッション中にどのデバイスが使用されるかを維持する工程を含む請求項1に記載の方法。
- セッション中に、互いに異なるモードで動作する複数のユーザ・エージェント・プログラムのうちの少なくとも1つについてのモード特有命令を一時的に格納し、該複数のユーザ・エージェント・プログラムのうち第2のものについてのモード特有命令に関連する通信遅延を補正することを含む請求項1に記載の方法。
- マルチモード・ミュート・データを受信し、所与のセッションに関してマルチモーダル通信のどのモードをミュートするかの記録を格納する工程を含む請求項1に記載の方法。
- マルチモーダル装置であって、
非セッション中、ユーザ毎に、セッション中の異なる同時モード通信用に構成されたユザ・エージェント・プログラムの同時マルチモーダル・セッション・ステータス情報を維持し、該同時マルチモーダル・セッション・ステータス情報にアクセスしたことに応答して同時マルチモーダル・セッションを再確立するように動作する同時マルチモーダル・セッション・パーシスタンス・コントローラ;および
該同時マルチモーダル・セッション・パーシスタンス・コントローラに結合して動作し、該同時マルチモーダル・セッション・ステータス情報を含むメモリ;を備えたマルチモーダル装置。 - 前記メモリは、
前の同時マルチモーダル通信セッションで使用された前のプロキシを示すプロキシ識別データ;
該同時マルチモーダル通信セッション中にユーザ入力によりどのフィールドが書き込まれたかを示す情報および該フィールドの内容;および
該同時マルチモーダル通信セッションの現在の対話状態;のうちの少なくとも1つを含む請求項7に記載のマルチモーダル装置。 - 前記同時マルチモーダル・セッション・パーシスタンス・コントローラは、前記メモリに含まれている前記同時マルチモーダル・セッション・ステータス情報にアクセスし、該アクセスされた同時マルチモーダル・セッション・ステータス情報が前記ユーザに対する前の同時マルチモーダル・セッションを示している場合に、前記同時マルチモーダル・セッション・ステータス情報により識別された該同時マルチモーダル・セッションの再確立を容易にする請求項7に記載のマルチモーダル装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/085,989 US6912581B2 (en) | 2002-02-27 | 2002-02-27 | System and method for concurrent multimodal communication session persistence |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003572184A Division JP4439920B2 (ja) | 2002-02-27 | 2003-02-06 | 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010033586A true JP2010033586A (ja) | 2010-02-12 |
Family
ID=27753768
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003572184A Expired - Lifetime JP4439920B2 (ja) | 2002-02-27 | 2003-02-06 | 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 |
JP2009222735A Withdrawn JP2010033586A (ja) | 2002-02-27 | 2009-09-28 | 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003572184A Expired - Lifetime JP4439920B2 (ja) | 2002-02-27 | 2003-02-06 | 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6912581B2 (ja) |
JP (2) | JP4439920B2 (ja) |
KR (1) | KR100610286B1 (ja) |
CN (1) | CN100478923C (ja) |
AU (1) | AU2003209036A1 (ja) |
FI (1) | FI123321B (ja) |
WO (1) | WO2003073623A2 (ja) |
Families Citing this family (148)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7712053B2 (en) * | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US7720682B2 (en) | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US8938688B2 (en) | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US7679534B2 (en) * | 1998-12-04 | 2010-03-16 | Tegic Communications, Inc. | Contextual prediction of user words and user actions |
US7117446B2 (en) * | 1999-02-01 | 2006-10-03 | Sonic Solutions, Inc. | User interface method and system for application programs implemented with component architectures |
US7286115B2 (en) * | 2000-05-26 | 2007-10-23 | Tegic Communications, Inc. | Directional input system with automatic correction |
NZ519928A (en) * | 1999-05-27 | 2004-07-30 | America Online Inc | Keyboard system with automatic correction |
US7030863B2 (en) * | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
US7750891B2 (en) * | 2003-04-09 | 2010-07-06 | Tegic Communications, Inc. | Selective input system based on tracking of motion parameters of an input device |
US7821503B2 (en) | 2003-04-09 | 2010-10-26 | Tegic Communications, Inc. | Touch screen and graphical user interface |
US7610194B2 (en) * | 2002-07-18 | 2009-10-27 | Tegic Communications, Inc. | Dynamic database reordering system |
US8238881B2 (en) | 2001-08-07 | 2012-08-07 | Waloomba Tech Ltd., L.L.C. | System and method for providing multi-modal bookmarks |
US8213917B2 (en) | 2006-05-05 | 2012-07-03 | Waloomba Tech Ltd., L.L.C. | Reusable multimodal application |
US7707175B1 (en) * | 2002-05-02 | 2010-04-27 | Palmsource Inc. | Single ended synchronization agents |
US8583440B2 (en) * | 2002-06-20 | 2013-11-12 | Tegic Communications, Inc. | Apparatus and method for providing visual indication of character ambiguity during text entry |
EP1394692A1 (en) * | 2002-08-05 | 2004-03-03 | Alcatel | Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal |
US20040034531A1 (en) * | 2002-08-15 | 2004-02-19 | Wu Chou | Distributed multimodal dialogue system and method |
CN100477627C (zh) * | 2002-11-13 | 2009-04-08 | 英特尔公司 | 通过无线网络的多模式网络交互 |
US7769811B2 (en) * | 2003-03-03 | 2010-08-03 | Aol Llc | Instant messaging sound control |
US7221938B2 (en) * | 2003-08-20 | 2007-05-22 | Sbc Knowledge Ventures, L.P. | System and method for multi-modal monitoring of a network |
US7437457B1 (en) * | 2003-09-08 | 2008-10-14 | Aol Llc, A Delaware Limited Liability Company | Regulating concurrent logins associated with a single account |
US7636083B2 (en) * | 2004-02-20 | 2009-12-22 | Tegic Communications, Inc. | Method and apparatus for text input in various languages |
JP4421946B2 (ja) * | 2004-05-31 | 2010-02-24 | 京セラ株式会社 | 通信端末装置およびその通信方法 |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US7921163B1 (en) | 2004-07-02 | 2011-04-05 | Aol Inc. | Routing and displaying messages for multiple concurrent instant messaging sessions involving a single online identity |
EP1615124A1 (en) * | 2004-07-07 | 2006-01-11 | Alcatel Alsthom Compagnie Generale D'electricite | A method for handling a multi-modal dialog |
US8923838B1 (en) | 2004-08-19 | 2014-12-30 | Nuance Communications, Inc. | System, method and computer program product for activating a cellular phone account |
US7818379B1 (en) | 2004-08-31 | 2010-10-19 | Aol Inc. | Notification and disposition of multiple concurrent instant messaging sessions involving a single online identity |
US7912186B2 (en) * | 2004-10-20 | 2011-03-22 | Microsoft Corporation | Selectable state machine user interface system |
US7551727B2 (en) * | 2004-10-20 | 2009-06-23 | Microsoft Corporation | Unified messaging architecture |
US7920681B2 (en) * | 2004-11-05 | 2011-04-05 | International Business Machines Corporation | System, apparatus, and methods for creating alternate-mode applications |
US7356567B2 (en) * | 2004-12-30 | 2008-04-08 | Aol Llc, A Delaware Limited Liability Company | Managing instant messaging sessions on multiple devices |
US7565357B2 (en) * | 2004-12-30 | 2009-07-21 | Alcatel Lucent | Multi-sensor communication system |
US7778397B2 (en) * | 2005-03-10 | 2010-08-17 | Avaya Inc. | Dynamic video generation in interactive voice response systems |
GB0507148D0 (en) * | 2005-04-08 | 2005-05-18 | Ibm | Method and apparatus for multimodal voice and web services |
US8139725B2 (en) * | 2005-04-22 | 2012-03-20 | The Invention Science Fund I, Llc | Associated information in structured voice interaction systems |
US7924985B2 (en) * | 2005-04-21 | 2011-04-12 | The Invention Science Fund I, Llc | Interaction history applied to structured voice interaction system |
US7813485B2 (en) * | 2005-05-26 | 2010-10-12 | International Business Machines Corporation | System and method for seamlessly integrating an interactive visual menu with an voice menu provided in an interactive voice response system |
US7464341B2 (en) * | 2005-06-30 | 2008-12-09 | International Business Machines Corporation | Canceling window close commands |
KR100689774B1 (ko) * | 2005-07-20 | 2007-03-08 | 주식회사 현대오토넷 | 텔레매틱스 단말기와 컴퓨터간 동기화 서비스를 제공하는홈 텔레매틱스 시스템 및 그 방법 |
WO2007047246A2 (en) * | 2005-10-11 | 2007-04-26 | Barry Appelman | Enabling and exercising control over selected sounds associated with incoming communications |
US20070106670A1 (en) * | 2005-11-08 | 2007-05-10 | Nortel Networks Limited | Interactive communication session cookies |
US8756326B1 (en) | 2005-11-08 | 2014-06-17 | Rockstar Consortium Us Lp | Using interactive communication session cookies in web sessions |
US8504606B2 (en) * | 2005-11-09 | 2013-08-06 | Tegic Communications | Learner for resource constrained devices |
EP2003849A3 (en) * | 2005-11-23 | 2009-04-08 | Envio Networks Inc. | System and method for mobile digital media content delivery and services marketing |
US7751848B2 (en) * | 2005-11-23 | 2010-07-06 | Envio Networks Inc. | Systems and methods for providing concurrent mobile applications to mobile communication devices |
US7587378B2 (en) * | 2005-12-09 | 2009-09-08 | Tegic Communications, Inc. | Embedded rule engine for rendering text and other applications |
US7716682B2 (en) * | 2006-01-04 | 2010-05-11 | Oracle International Corporation | Multimodal or multi-device configuration |
US20070161369A1 (en) * | 2006-01-11 | 2007-07-12 | Envio Networks Inc. | Methods for Intelligent Number Dialing Assistance and Related Marketing Techniques |
EP1994737A4 (en) * | 2006-01-24 | 2009-04-08 | Envio Networks Inc | METHOD OF DISTRIBUTING DIGITAL CONTENT TO USERS OF MOBILE COMMUNICATION DEVICES |
US7739391B2 (en) * | 2006-02-16 | 2010-06-15 | Softwired Ag | Gateway for wireless mobile clients |
US7512408B2 (en) * | 2006-02-16 | 2009-03-31 | Softwired Ag | Scalable wireless messaging system |
US7580925B2 (en) * | 2006-04-19 | 2009-08-25 | Tegic Communications, Inc. | Efficient storage and search of word lists and other text |
US7970909B1 (en) | 2006-06-22 | 2011-06-28 | At&T Intellectual Property I, L.P. | Method and system for associating concurrent telephone and data network sessions |
US8233894B2 (en) * | 2006-08-23 | 2012-07-31 | Resource Consortium Limited | System and method for sending mobile media content to another mobile device user |
US20080104169A1 (en) * | 2006-10-30 | 2008-05-01 | Microsoft Corporation | Processing initiate notifications for different modes of communication |
US8229080B2 (en) * | 2006-11-10 | 2012-07-24 | Verizon Patent And Licensing Inc. | Testing and quality assurance of multimodal applications |
US8009811B2 (en) | 2006-11-10 | 2011-08-30 | Verizon Patent And Licensing Inc. | Testing and quality assurance of interactive voice response (IVR) applications |
US20080148014A1 (en) * | 2006-12-15 | 2008-06-19 | Christophe Boulange | Method and system for providing a response to a user instruction in accordance with a process specified in a high level service description language |
US20080154576A1 (en) * | 2006-12-21 | 2008-06-26 | Jianchao Wu | Processing of reduced-set user input text with selected one of multiple vocabularies and resolution modalities |
WO2008086334A1 (en) | 2007-01-08 | 2008-07-17 | Envio Networks Inc. | Community interaction using mobile communication devices |
US8225203B2 (en) * | 2007-02-01 | 2012-07-17 | Nuance Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US8201087B2 (en) | 2007-02-01 | 2012-06-12 | Tegic Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US8103499B2 (en) * | 2007-03-22 | 2012-01-24 | Tegic Communications, Inc. | Disambiguation of telephone style key presses to yield Chinese text using segmentation and selective shifting |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
US8299943B2 (en) * | 2007-05-22 | 2012-10-30 | Tegic Communications, Inc. | Multiple predictions in a reduced keyboard disambiguating system |
US10133372B2 (en) * | 2007-12-20 | 2018-11-20 | Nokia Technologies Oy | User device having sequential multimodal output user interface |
US9386154B2 (en) * | 2007-12-21 | 2016-07-05 | Nuance Communications, Inc. | System, method and software program for enabling communications between customer service agents and users of communication devices |
US20090181702A1 (en) * | 2008-01-14 | 2009-07-16 | Microsoft Corporation | Multi-mode communication |
CA2720398C (en) | 2008-04-02 | 2016-08-16 | Twilio Inc. | System and method for processing telephony sessions |
US8837465B2 (en) | 2008-04-02 | 2014-09-16 | Twilio, Inc. | System and method for processing telephony sessions |
US8379637B2 (en) | 2008-05-27 | 2013-02-19 | Microsoft Corporation | Bypassing routing rules during a conversation |
US8862681B2 (en) | 2008-06-25 | 2014-10-14 | Microsoft Corporation | Multimodal conversation transfer |
CN102227904A (zh) | 2008-10-01 | 2011-10-26 | 特维里奥公司 | 电话网络事件的系统和方法 |
US8494140B2 (en) * | 2008-10-30 | 2013-07-23 | Centurylink Intellectual Property Llc | System and method for voice activated provisioning of telecommunication services |
US20100125483A1 (en) * | 2008-11-20 | 2010-05-20 | Motorola, Inc. | Method and Apparatus to Facilitate Using a Highest Level of a Hierarchical Task Model To Facilitate Correlating End User Input With a Corresponding Meaning |
US8478712B2 (en) * | 2008-11-20 | 2013-07-02 | Motorola Solutions, Inc. | Method and apparatus to facilitate using a hierarchical task model with respect to corresponding end users |
US8509415B2 (en) | 2009-03-02 | 2013-08-13 | Twilio, Inc. | Method and system for a multitenancy telephony network |
CA2789942C (en) | 2009-03-02 | 2017-05-23 | Jeffrey Lawson | Method and system for a multitenancy telephone network |
CN102483917B (zh) * | 2009-07-15 | 2016-03-16 | 谷歌公司 | 针对显示文本的命令 |
US20110066507A1 (en) * | 2009-09-14 | 2011-03-17 | Envio Networks Inc. | Context Enhanced Marketing of Content and Targeted Advertising to Mobile Device Users |
US20110083179A1 (en) * | 2009-10-07 | 2011-04-07 | Jeffrey Lawson | System and method for mitigating a denial of service attack using cloud computing |
US9210275B2 (en) | 2009-10-07 | 2015-12-08 | Twilio, Inc. | System and method for running a multi-module telephony application |
US8582737B2 (en) * | 2009-10-07 | 2013-11-12 | Twilio, Inc. | System and method for running a multi-module telephony application |
EP2526657B1 (en) * | 2010-01-19 | 2019-02-20 | Twilio Inc. | Method and system for preserving telephony session state |
US20120208495A1 (en) | 2010-06-23 | 2012-08-16 | Twilio, Inc. | System and method for monitoring account usage on a platform |
US9590849B2 (en) | 2010-06-23 | 2017-03-07 | Twilio, Inc. | System and method for managing a computing cluster |
US9459926B2 (en) | 2010-06-23 | 2016-10-04 | Twilio, Inc. | System and method for managing a computing cluster |
US9459925B2 (en) | 2010-06-23 | 2016-10-04 | Twilio, Inc. | System and method for managing a computing cluster |
US9338064B2 (en) | 2010-06-23 | 2016-05-10 | Twilio, Inc. | System and method for managing a computing cluster |
US8416923B2 (en) | 2010-06-23 | 2013-04-09 | Twilio, Inc. | Method for providing clean endpoint addresses |
US8391464B1 (en) | 2010-06-24 | 2013-03-05 | Nuance Communications, Inc. | Customer service system, method, and software program product for responding to queries using natural language understanding |
US8838707B2 (en) | 2010-06-25 | 2014-09-16 | Twilio, Inc. | System and method for enabling real-time eventing |
US8762939B1 (en) | 2010-07-02 | 2014-06-24 | Nuance Communications, Inc. | System and method for displaying key performance indicators in an application design tool |
US8417223B1 (en) | 2010-08-24 | 2013-04-09 | Google Inc. | Advanced voicemail features without carrier voicemail support |
US9363375B1 (en) * | 2010-10-12 | 2016-06-07 | Egain Communications | Interaction using content |
US9015343B2 (en) | 2010-11-23 | 2015-04-21 | Centurylink Intellectual Property Llc | User control over content delivery |
US8649268B2 (en) | 2011-02-04 | 2014-02-11 | Twilio, Inc. | Method for processing telephony sessions of a network |
US9230549B1 (en) | 2011-05-18 | 2016-01-05 | The United States Of America As Represented By The Secretary Of The Air Force | Multi-modal communications (MMC) |
US9648006B2 (en) | 2011-05-23 | 2017-05-09 | Twilio, Inc. | System and method for communicating with a client application |
WO2012162397A1 (en) | 2011-05-23 | 2012-11-29 | Twilio, Inc. | System and method for connecting a communication to a client |
US20140044123A1 (en) | 2011-05-23 | 2014-02-13 | Twilio, Inc. | System and method for real time communicating with a client application |
US20130051539A1 (en) * | 2011-08-23 | 2013-02-28 | Michael Sharp | Communications with interposed commercial message |
US10182147B2 (en) | 2011-09-21 | 2019-01-15 | Twilio Inc. | System and method for determining and communicating presence information |
US9336500B2 (en) | 2011-09-21 | 2016-05-10 | Twilio, Inc. | System and method for authorizing and connecting application developers and users |
US9495227B2 (en) | 2012-02-10 | 2016-11-15 | Twilio, Inc. | System and method for managing concurrent events |
US9602586B2 (en) | 2012-05-09 | 2017-03-21 | Twilio, Inc. | System and method for managing media in a distributed communication network |
US20130304928A1 (en) | 2012-05-09 | 2013-11-14 | Twilio, Inc. | System and method for managing latency in a distributed telephony network |
US9240941B2 (en) | 2012-05-09 | 2016-01-19 | Twilio, Inc. | System and method for managing media in a distributed communication network |
US9247062B2 (en) | 2012-06-19 | 2016-01-26 | Twilio, Inc. | System and method for queuing a communication session |
US9385981B2 (en) * | 2012-07-23 | 2016-07-05 | Google Inc. | System and method for providing multi-modal asynchronous communication |
US8737962B2 (en) | 2012-07-24 | 2014-05-27 | Twilio, Inc. | Method and system for preventing illicit use of a telephony platform |
US8738051B2 (en) | 2012-07-26 | 2014-05-27 | Twilio, Inc. | Method and system for controlling message routing |
US8948356B2 (en) | 2012-10-15 | 2015-02-03 | Twilio, Inc. | System and method for routing communications |
US8938053B2 (en) | 2012-10-15 | 2015-01-20 | Twilio, Inc. | System and method for triggering on platform usage |
US9253254B2 (en) | 2013-01-14 | 2016-02-02 | Twilio, Inc. | System and method for offering a multi-partner delegated platform |
US9282124B2 (en) | 2013-03-14 | 2016-03-08 | Twilio, Inc. | System and method for integrating session initiation protocol communication in a telecommunications platform |
US9001666B2 (en) | 2013-03-15 | 2015-04-07 | Twilio, Inc. | System and method for improving routing in a distributed communication platform |
US9338280B2 (en) | 2013-06-19 | 2016-05-10 | Twilio, Inc. | System and method for managing telephony endpoint inventory |
US9225840B2 (en) | 2013-06-19 | 2015-12-29 | Twilio, Inc. | System and method for providing a communication endpoint information service |
US9240966B2 (en) | 2013-06-19 | 2016-01-19 | Twilio, Inc. | System and method for transmitting and receiving media messages |
US9483328B2 (en) | 2013-07-19 | 2016-11-01 | Twilio, Inc. | System and method for delivering application content |
US9338018B2 (en) | 2013-09-17 | 2016-05-10 | Twilio, Inc. | System and method for pricing communication of a telecommunication platform |
US9274858B2 (en) | 2013-09-17 | 2016-03-01 | Twilio, Inc. | System and method for tagging and tracking events of an application platform |
US9137127B2 (en) | 2013-09-17 | 2015-09-15 | Twilio, Inc. | System and method for providing communication platform metadata |
US9553799B2 (en) | 2013-11-12 | 2017-01-24 | Twilio, Inc. | System and method for client communication in a distributed telephony network |
US9325624B2 (en) | 2013-11-12 | 2016-04-26 | Twilio, Inc. | System and method for enabling dynamic multi-modal communication |
US9344573B2 (en) | 2014-03-14 | 2016-05-17 | Twilio, Inc. | System and method for a work distribution service |
US9226217B2 (en) | 2014-04-17 | 2015-12-29 | Twilio, Inc. | System and method for enabling multi-modal communication |
US9774687B2 (en) | 2014-07-07 | 2017-09-26 | Twilio, Inc. | System and method for managing media and signaling in a communication platform |
US9246694B1 (en) | 2014-07-07 | 2016-01-26 | Twilio, Inc. | System and method for managing conferencing in a distributed communication network |
US9251371B2 (en) | 2014-07-07 | 2016-02-02 | Twilio, Inc. | Method and system for applying data retention policies in a computing platform |
US9516101B2 (en) | 2014-07-07 | 2016-12-06 | Twilio, Inc. | System and method for collecting feedback in a multi-tenant communication platform |
KR102316856B1 (ko) * | 2014-08-21 | 2021-10-25 | 삼성전자 주식회사 | 대화형 오디오 비주얼 통신 동안 사용자 경험을 향상시키기 위한 시스템 및 방법 |
WO2016065080A1 (en) | 2014-10-21 | 2016-04-28 | Twilio, Inc. | System and method for providing a miro-services communication platform |
US9477975B2 (en) | 2015-02-03 | 2016-10-25 | Twilio, Inc. | System and method for a media intelligence platform |
US9948703B2 (en) | 2015-05-14 | 2018-04-17 | Twilio, Inc. | System and method for signaling through data storage |
US10419891B2 (en) | 2015-05-14 | 2019-09-17 | Twilio, Inc. | System and method for communicating through multiple endpoints |
US10007410B2 (en) | 2015-08-19 | 2018-06-26 | Google Llc | Incorporating user content within a communication session interface |
US10659349B2 (en) | 2016-02-04 | 2020-05-19 | Twilio Inc. | Systems and methods for providing secure network exchanged for a multitenant virtual private cloud |
US10686902B2 (en) | 2016-05-23 | 2020-06-16 | Twilio Inc. | System and method for a multi-channel notification service |
US10063713B2 (en) | 2016-05-23 | 2018-08-28 | Twilio Inc. | System and method for programmatic device connectivity |
US10841755B2 (en) | 2017-07-01 | 2020-11-17 | Phoneic, Inc. | Call routing using call forwarding options in telephony networks |
US10795701B2 (en) * | 2018-11-20 | 2020-10-06 | Express Scripts Strategic Development, Inc. | System and method for guiding a user to a goal in a user interface |
US20210281681A1 (en) * | 2020-03-06 | 2021-09-09 | PAG Financial International LLC | Systems and methods for operating an interactive voice response system |
US11134149B1 (en) * | 2020-06-15 | 2021-09-28 | Verizon Patent And Licensing Inc. | Systems and methods for providing multi-modal interaction via user equipment |
WO2022109149A1 (en) * | 2020-11-23 | 2022-05-27 | Nlx, Inc. | Method for multi-channel audio synchronization for task automation |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6011909A (en) * | 1997-01-06 | 2000-01-04 | Motorola, Inc. | Alerting user engaged in a first communications session on a first network to a request to establish a second communications session on a second network |
US6088728A (en) * | 1997-06-11 | 2000-07-11 | Oracle Corporation | System using session data stored in session data storage for associating and disassociating user identifiers for switching client sessions in a server |
US6078948A (en) * | 1998-02-03 | 2000-06-20 | Syracuse University | Platform-independent collaboration backbone and framework for forming virtual communities having virtual rooms with collaborative sessions |
US6076108A (en) * | 1998-03-06 | 2000-06-13 | I2 Technologies, Inc. | System and method for maintaining a state for a user session using a web system having a global session server |
US6519643B1 (en) * | 1999-04-29 | 2003-02-11 | Attachmate Corporation | Method and system for a session allocation manager (“SAM”) |
US6694008B1 (en) * | 2000-06-23 | 2004-02-17 | Cisco Technology, Inc. | Monitored suspension of communications sessions |
-
2002
- 2002-02-27 US US10/085,989 patent/US6912581B2/en not_active Expired - Lifetime
-
2003
- 2003-02-06 AU AU2003209036A patent/AU2003209036A1/en not_active Abandoned
- 2003-02-06 CN CNB03804837XA patent/CN100478923C/zh not_active Expired - Lifetime
- 2003-02-06 WO PCT/US2003/003656 patent/WO2003073623A2/en active Application Filing
- 2003-02-06 KR KR1020047013375A patent/KR100610286B1/ko active IP Right Grant
- 2003-02-06 JP JP2003572184A patent/JP4439920B2/ja not_active Expired - Lifetime
-
2004
- 2004-08-27 FI FI20041125A patent/FI123321B/fi not_active IP Right Cessation
-
2009
- 2009-09-28 JP JP2009222735A patent/JP2010033586A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN100478923C (zh) | 2009-04-15 |
WO2003073623A3 (en) | 2004-02-26 |
US6912581B2 (en) | 2005-06-28 |
FI20041125A (fi) | 2004-08-27 |
FI123321B (fi) | 2013-02-28 |
AU2003209036A8 (en) | 2003-09-09 |
KR100610286B1 (ko) | 2006-08-09 |
AU2003209036A1 (en) | 2003-09-09 |
JP4439920B2 (ja) | 2010-03-24 |
WO2003073623A2 (en) | 2003-09-04 |
KR20040095234A (ko) | 2004-11-12 |
US20030162561A1 (en) | 2003-08-28 |
JP2005519378A (ja) | 2005-06-30 |
CN1639696A (zh) | 2005-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4439920B2 (ja) | 同時マルチモーダル通信セッションパーシスタンスのためのシステムおよび方法 | |
US6807529B2 (en) | System and method for concurrent multimodal communication | |
JP2005527020A (ja) | 同時マルチモーダル・タグを使用する同時マルチモーダル通信システムおよび方法 | |
US7272564B2 (en) | Method and apparatus for multimodal communication with user control of delivery modality | |
US8799464B2 (en) | Multi-modal communication using a session specific proxy server | |
RU2494444C2 (ru) | Способы и устройство для осуществления распределенных многомодальных приложений | |
KR100620826B1 (ko) | 대화형 컴퓨팅 시스템 및 방법, 대화형 가상 머신, 프로그램 저장 장치 및 트랜잭션 수행 방법 | |
US7739350B2 (en) | Voice enabled network communications | |
US20040078424A1 (en) | Web services via instant messaging | |
US20030146932A1 (en) | Multi-modal synchronization | |
US20080221899A1 (en) | Mobile messaging environment speech processing facility | |
KR20170103801A (ko) | 디지털 개인 비서 내에서 헤드리스로 작업을 완료하기 위한 기법 | |
KR20150108470A (ko) | 메신저 서비스 시스템, 그 시스템에서의 상대방의 위치 및 시간 정보를 제공하기 위한 메신저 서비스 방법 및 장치 | |
US20020069066A1 (en) | Locality-dependent presentation | |
KR101073190B1 (ko) | 분산 음성 인식 시스템을 이용한 텔레매틱스 시스템의정보 제공 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20100108 |