JP2008546120A - 視覚的合図を用いて対話型メディア応答システムを改善する方法及びシステム - Google Patents

視覚的合図を用いて対話型メディア応答システムを改善する方法及びシステム Download PDF

Info

Publication number
JP2008546120A
JP2008546120A JP2008516010A JP2008516010A JP2008546120A JP 2008546120 A JP2008546120 A JP 2008546120A JP 2008516010 A JP2008516010 A JP 2008516010A JP 2008516010 A JP2008516010 A JP 2008516010A JP 2008546120 A JP2008546120 A JP 2008546120A
Authority
JP
Japan
Prior art keywords
audio
video
thin device
media
media stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008516010A
Other languages
English (en)
Inventor
コヴェル,ミッチェル
ロイ,シュミット
アンコーン,ジョン
ウーヴ,フレデリク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2008546120A publication Critical patent/JP2008546120A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41407Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance embedded in a portable device, e.g. video client on a mobile phone, PDA, laptop
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/725Cordless telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6131Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via a mobile phone network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/16Analogue secrecy systems; Analogue subscription systems
    • H04N7/173Analogue secrecy systems; Analogue subscription systems with two-way working, e.g. subscriber sending a programme selection signal
    • H04N7/17309Transmission or handling of upstream communications
    • H04N7/17318Direct or substantially direct transmission and handling of requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本発明の実施形態は、対話型メディア応答システムにおいて視覚的合図を提供する方法及びシステムについて説明する。一実施形態では、シンデバイス(110)に表示される少なくとも1つの視覚的プロンプト(130)を生成する。次に、視覚的プロンプト(130)を、それが表示されるシンデバイス(110)へ送信する。
【選択図】 図1

Description

本発明の実施形態は対話型メディアシステムの分野に関するものである。
携帯電話、携帯情報端末(PDA)等のモバイル機器へのストリーミングメディア(例えば、ビデオ及び/又はオーディオ)は重要な新興成長市場である。例えば、ユーザが知覚する「保留状態(on-hold)」の時間を低減させるために、カスタマイズされた映画予告編その他の興味を起こさせるビデオコンテンツがモバイル機器にストリーミングされる場合がある。また、家庭又はオフィス環境に居ない間にスポーツ又は映画等のプロが製作した素材を選択して観ることができるようにすると、ビデオ・オン・デマンド(VoD)に対する市場が大幅に拡大する。更に、ビデオによる相槌(back channel)(例えば、表情、しぐさ、姿勢等)を追加することにより、リモート対話とローカル対話との間で知覚されるギャップが低減する。
リングバックトーン市場及びプッシュツートーク市場がもたらす収益から分かるように、新たな電話会社サービス市場は極めて大きい可能性があり、予想外の領域で発生する可能性がある。新たな市場の将来性は、アジアにおける第3世代(3G)無線規格の使用及びヨーロッパにおけるそれら規格への移行の背景にある推進力の1つである。2.5G/3Gの採用が世界の他の地域よりも立ち遅れている米国でさえ、既に消費者の受話器(例えば携帯電話)のための何らかのストリーミングビデオ製品が存在する。
残念なことに、これら市場の将来性は、2つの大きな障壁のため、今まで殆ど実現されていない。その1つの障壁は、ストリーミングメディアにアクセスするモバイル機器の多くの機能が限られたものであり(例えば、処理能力及び/又は記憶容量が限られている)、且つエンドユーザに提供するインタフェイスが制約されている、という事実である。このため、これらモバイル機器は、例えばユーザの家庭用コンピュータで利用することができる複雑なメディア提示用アプリケーションを有効に動作させるため又は大量のデータを格納するための資源に欠けるものである。これらの機器で一般に見られる制約のあるインタフェイスは、ユーザが複数のオプション(例えば、ボイスメールオプション又はアクセス可能な映画のリスト)をナビゲートし選択する方法を制限するものとなる。その結果として、ユーザは一般に(オーディオインタフェイスにより逐次提示される)複数のオプションが提示されるまで待たなければならない。これらインタフェイスの別の欠点は、ユーザが、選択した動作を指示するために複雑な打鍵シーケンスを入力する必要がある場合があるということである。
これら市場に対する別の障壁は、ストリーミングメディアをモバイル機器に配信するために使用される無線通信インフラストラクチャ(例えば、携帯電話ネットワーク)である。例えば、ストリーミングメディアの配信は、電気通信ネットワークにおいて維持されなければならない電気通信ネットワークインタフェイス及びコーデック規格(例えば、インターネットプロトコルマルチメディアサブシステム(IMS)による制約を受ける。これは特に、ストリーミングメディアの対話式の制御を実施することができる態様を形作るものである。
電気通信プロバイダは、豊富な機能を有する応答型のインタフェイスをユーザに提供することを望むが、既存のネットワーク標準規格に準拠しない可能性のある特別なクライアントソフトウェアをモバイル機器上で実施することは必ずしも望まない。例えば、電気通信プロバイダは、それらのネットワーク上に許容されるデータのタイプに対して極めて敏感である。これは、特に携帯電話機器及び/又はネットワークを攻撃するウィルスがより一般的になってきているためである。更に、インターネットプロトコル(IP)ネットワークから電気通信ネットワークにデータを移動する際には、より多くの制約が導入される。その結果として、電気通信プロバイダは、一般に該プロバイダの規格に準拠しないデータパケットが該プロバイダのネットワークに入るのを許可しない。その1つの結果として、モバイル機器のユーザが、該ユーザ自身の機器で動作できるメディアプレイヤを選択することが制限される。別の結果としては、既存のインタフェイスは、ユーザに対して、該ユーザ自身の家庭用コンピュータシステム上で提示されるストリーミングメディアに関して期待することとなったレベルの応答性及び/又は使用の容易性を提供しない、ということである。
本発明の実施形態は、対話型メディア応答システムに視覚的合図を提供する方法及びシステムについて述べる。一実施形態では、シンデバイス(小型軽量装置)で表示される少なくとも1つの視覚的プロンプトが生成される。次いで、該視覚的プロンプトが、シンデバイスへ送信されて、そこで表示される。
本書に組み込まれ且つその一部を形成する添付図面は、本発明の実施形態を例示し、本書の解説と共に、本発明の原理を説明する役割を果たす。特に言及しない限り、本書で参照する図面は実際の縮尺になっていないものとして理解されるべきである。
ここで、本発明の実施形態を詳細に参照し、その例は添付図面に示されている。本発明を以下の実施形態に関連して説明するが、それら実施形態は、本発明をそれらのみに限定することを意図したものではないことが理解されよう。反対に、本発明は、特許請求の範囲により定義されるような本発明の思想及び範囲内に含まれ得る代替形態、変更形態、及び均等物を包含することが意図されている。更に、本発明の以下の詳細な説明では、本発明が完全に理解されるように多数の特定の詳細を示す。しかし、本発明の実施形態を、これら特定の詳細なしに実施することが可能である。場合によっては、本発明の特徴が不要に曖昧にならぬよう、既知の方法、手続き、構成要素、及び回路については詳細に説明していない。
表記及び命名法
以下の詳細な説明の幾つかの部分は、手続き、論理ブロック、処理、及びその他の、コンピュータメモリ内のデータビットについての操作の記号による表現に関して提示される。これら説明及び表現は、データ処理技術分野における当業者が自身の研究の内容を他の当業者に最も有効に伝えるために使用する手段である。本出願では、手続き、論理ブロック、及び処理等は、所望の結果に至るステップ又は命令の首尾一貫したシーケンスであると考えられる。かかるステップは、物理量の物理的操作を必要とするものである。通常(必須ではないが)、これらの量は、コンピュータシステムにおいて格納され、転送され、結合され、比較され、及び他の態様で操作されることが可能な電気信号又は磁気信号という形態をとる。
しかし、これらの用語及びそれらに類似する用語の全ては、適当な物理量に関連するものであり、それらの量に適用される単なる都合のよいラベルである、ということが留意されるべきである。以下の論考から明らかであるように、特に明記しない限り、本発明全体を通して、「生成する」、「送信する」、「表示する」、「提示する」、「受信する」、「遅延する」、「一時停止する」等の用語を用いた議論は、コンピュータシステムのレジスタ及びメモリ内の物理(電子)量として表されるデータを操作して、コンピュータシステムメモリ若しくはレジスタ又は他のかかる情報記憶装置、伝送装置、又は表示装置内の物理量として同様に表される他のデータへと変換する、コンピュータシステム又はそれと同様の電子計算装置の動作及び処理を称するものである、ということが理解されよう。
図1は、本発明の実施形態により用いられる対話型メディア応答システム100の図である。図1の実施形態では、シンデバイス110は、通信ネットワーク150を介してメディアストリーム生成システム120に通信可能な状態で結合される。本出願の目的上、「シンデバイス」という用語は、既存の制御スタックをその既存のソフトウェアを変更することなく利用することが望まれる電気機器を称するものとする。換言すれば、既存のレガシーデバイス上で既に動作しているソフトウェアを変更することなく該レガシーデバイスに新たな機能を追加することが望ましい。一例として、携帯電話ハンドセットをその「電話通信モード」で使用することが望ましい。電話通信モードにおける制御スタックは、一般に、ビデオ提示を制御するためのセッション中の(mid-session)制御メッセージを含まないため、クライアントソフトウェアは、(例えばボイスコマンド又はDTMFコマンドを使用して)再生変更が要求されたことに気付かない。この例では、メディアストリーム生成システム120は、シンデバイス110へ既に送信されているデータを「不変」として扱い、すなわち、該データは、シンデバイス110により局所的な変更が行われることなく該データが送信された状態で該シンデバイス110により再生されることになる。本発明の実施形態では、シンデバイス110は、H.263規格に準拠するAMR(adaptive multi-rate)オーディオストリーム及びビデオストリームを符号化/復号化するように動作可能なものである。更に、本発明の実施形態では、シンデバイス110は、MPEG4(Moving Pictures Experts Group Audio Layer 4)規格に準拠するビデオメディアストリームを復号化するよう動作可能なものである。本実施形態は、シンデバイスの使用について述べるが、本発明の実施形態はそれらのみに限定されるものではないことに留意されたい。換言すれば、本発明の実施形態は、例えば家庭用コンピュータシステム等において実施するのにも適したものである。
本発明の実施形態では、通信ネットワーク150は、携帯電話ネットワーク、無線ネットワーク、Wi-Fiネットワーク(例えばIEEE802.11a規格又は802.11b規格に準拠するもの)、Bluetooth無線通信ネットワーク、無線ネットワーク、赤外線(IR)通信ネットワーク、衛星リンク等の無線通信ネットワークを含む(但しそれらには限定されない)。しかし、本発明の実施形態は、Ethernetネットワーク、ブロードバンド接続、インターネット等の他のネットワークでの実施にも適したものである。本発明の実施形態では、シンデバイス110とメディアストリーム生成システム120との間の通信は、オーディオチャネル及びビデオチャネルの両方を含む。
本発明の実施形態では、メディアストリーム生成システム120は、ストリーミングメディアコンテンツをシンデバイス110へ提供する1つまたは2つ以上のコンピュータ(例えば、携帯電話、携帯情報端末(PDA)等)を含む。本発明の実施形態では、メディアストリーム生成システム120により生成されるメディアストリームは、シンデバイス110へ送信されるビデオメディア、オーディオメディア、オーディオ/ビデオメディア又は他の複数のメディアストリーム(例えば複数のオーディオメディアストリーム)を含むことが可能である。加えて、メディアストリーム生成システム120は更に、シンデバイス110により生成された要求に応じてそれらメディアストリームのうちの1つまたは2つ以上を変更するためにある。上述したように、シンデバイス110において無変更の制御スタックを維持することが望ましいため、メディアストリーム生成システム120は、メディアストリームのうちの1つまたは2つ以上をシンデバイス110へ送信する前に変更することが可能である。
本発明の別の実施形態では、メディアストリームに対する変更は、(例えばシンデバイス110でもメディアストリーム生成システム120でもなく)サードパーティからの要求に応じて行うことが可能である。再び図1を参照すると、サードパーティ140は、メディアストリーム生成システム120に対して、シンデバイス110へ送信されるメディアストリームを変更する要求を生成する。一例として、テクニカルサポート要員が、メディアストリーム生成システム120に対して、シンデバイス110のユーザへストリーミングされているデモンストレーションビデオについての要求を生成することができる。該要求に応じて、メディアストリーム生成システム120は、変更されたメディアストリーム130を生成し、次いで該変更されたメディアストリーム130がシンデバイス110へと送信される。
本発明の実施形態は、携帯電話、又は携帯電話ネットワークにアクセスする他の電子機器において実施することが可能である。したがって、電気通信ネットワークと互換性のある信号処理方法が本発明の実施形態において実施されることが望ましい。最近の電気通信ネットワークは、データ経路上では低レイテンシ及び低帯域幅のボイス配信に最適化されるが、制御経路では高レイテンシに最適化される。例えば、コールセットアップ/ティアダウンのためのIMS制御プレーンは、第2のエンド・ツー・エンドを上回るものが必要な場合がある。対照的に、メニュー選択及び再生制御(例えばストリーミングの停止その他のメディアストリームを変更するためのバージイン)は、許容可能なレベルの応答性をユーザに対して提供するために低レイテンシの応答時間を必要とする。
電気通信ネットワークの制御経路における長いレイテンシと呼中制御のための応答性要件との組み合わせにより、帯域内信号方式(例えば、制御信号が電気通信データ経路を介して送信される場合)の使用が、ユーザ入力を伝達するための望ましい方法となる。低レイテンシ制御の使用が望ましい理由は、ユーザコマンドとその実行との間の中断が長すぎる場合に、ユーザが、コントローラが壊れたか又は該ユーザの入力がシンデバイス110により検出されなかったと考え得ることにある。その結果として、ユーザが該ユーザ自身の選択を入力し続ける可能性があり、これにより、メディアストリーム生成システム120が、ユーザが意図しなかった動作を実行する可能性がある。代替的に、帯域外信号方式の使用は、ユーザのコマンドに対する応答性のレイテンシを長くする可能性があり、これにより、対話型制御システムを使用しているというユーザの感覚が低減することになる。
呼中制御のための帯域内信号方式は、カスタムクライアントソフトウェアをシンデバイス110上にダウンロードすることにより行うことができる。この方法の欠点は、該ソフトウェアが、既存の電気通信ネットワークインタフェイス及びコーデック規格と互換性がない可能性のある該ソフトウェア自体の特殊な一組の通信信号を生成する可能性がある、ということである。本発明の実施形態では、DTMF(Dual Tone Multi-Frequency)信号(例えば111)又はボイスコマンド(例えば112)といった、シンデバイス110からの現在一般的な帯域内符号化を使用して、シンデバイス110からの要求をメディアストリーム生成システム120へ伝送する。この場合も、本発明の実施形態は、これら信号のみに限定されるものではなく、シンデバイス110へダウンロードされるソフトウェアが既存のネットワークインタフェイス及びプロトコル制約と互換性を有するものである場合には、該ソフトウェアを利用することが可能である、ということに留意されたい。
図2は、本発明の実施形態による視覚的合図を使用して対話型メディア応答システムを改善する方法200のフローチャートである。図2のステップ210において、シンデバイスで表示するための少なくとも1つの視覚的プロンプトを生成する。本発明の実施形態では、メディアストリームの変更は、メディアストリーム生成システム120内に存在するソフトウェアアプリケーションにより実行される。本発明の実施形態では、メディアストリーム生成システム120を使用することにより、視覚的合図を用いてユーザオプションを提示する対話型メディア応答システムを実施することができる。これは、現行の対話型ボイスアプリケーション(例えばボイスメールアクセス又は航空座席予約システム)と比べて有利なものである。これは、ビデオチャネルを使用して複数の選択肢すなわち「視覚的プロンプト」をシンデバイス110のユーザに同時に提示することができるからである。本発明の実施形態では、アプリケーションを迅速にナビゲートするために使用することができるテキスト又はアイコンベースのメニューを使用して、ネストされた複数組の選択肢をユーザに提示することができる。従来の対話型ボイスアプリケーションは、ユーザが同時に複数のオーディオソースを聞くことが困難であるため、複数のオプションをユーザに逐次提示することに限定される。その結果として、ユーザは、オーディオインタフェイスを介して所望のオプションが提示されるまで待ち、所望の結果にアクセスするために複雑な打鍵シーケンスを記憶し、又は何れのオプションを選択したいかを判断する前に大量の一組のオプションを記憶することを余儀なくされる可能性がある。
本発明の実施形態では、ビデオチャネルを介して提示される情報をオーディオ情報と同時に提示することが可能である。本発明の実施形態では、視覚的プロンプトは、オーディオチャネルを介して提示される情報に対応する情報、オーディオチャネルを介して提示される情報に関連する情報、又はオーディオチャネルを介して提示される情報とは無関係の情報を含むことが可能である。本発明の実施形態では、視覚的プロンプトの動的な生成は、VoiceXMLアプリケーションにより生成されるマークアップ情報にアクセスすることにより容易となる。例えば、本発明の実施形態は、シンデバイス110を介してオーディオプロンプトを提示する際に使用されるVoiceXMLテキストストリングを生成することが可能である。本発明の実施形態では、VoiceXMLテキストストリングがテキスト・トゥ・ビデオコンポーネント126により使用されて、オーディオプロンプトと同時に提示される視覚的表現(例えば視覚的プロンプト又は視覚的合図)が視覚的に適当に生成される。本発明の実施形態では、視覚的プロンプトは、シンデバイス110へ送信されるオーディオプロンプトの視覚的表現(例えばテキストストリング)、PDF(Portable Document Format)ファイル、JPEGファイル、MPEGファイル、又は、例えばメディアデータベース122からアクセスできる同様のものを含むことが可能である。
図2のステップ220において、視覚的プロンプトをシンデバイスへ送信する。本発明の実施形態では、メディアストリーム生成システム120がシンデバイス110と通信するために使用する視覚チャネルを使用して、ユーザに対し、オーディオチャネルにより伝送されるオーディオ情報と共に視覚的プロンプトを提示することができる。本実施形態は、シンデバイス用のプロンプトを生成することについて述べるが、本発明の実施形態は、パーソナルコンピュータ、ネットワーク接続されたコンピュータシステム、及びラップトップコンピュータシステムといった他の機器での使用にもよく適したものである、ということに留意されたい。更に、視覚的プロンプトは、有線通信ネットワーク、インターネット、及び無線通信ネットワーク等を使用してシンデバイス又はコンピュータへ伝送することが可能である。
図2のステップ230において、視覚的プロンプトがシンデバイス上に表示される。本発明の実施形態は、有利にも、シンデバイスのユーザに複数のオプションを同時に表示することを可能とし、該オプションは、該ユーザが多数組をなす選択肢を迅速にナビゲートし及び/又は特定の打鍵シーケンスを記憶する必要なく使用することができるものである。本発明の実施形態では、視覚的プロンプトは、テキスト、アイコン、又は他の視覚的イメージを含むことが可能である。ユーザは、オーディオインタフェイスのみに制限されないため、シンデバイス110のビデオインタフェイスを使用して複数のオプションを同時に見て、所望の選択肢へと迅速にスクロールさせることができる。更に、ユーザは、シンデバイス110のディスプレイにオプションが表示された際にどの映画を観るか判断しようとするときに特定の打鍵シーケンスを記憶する必要はない。
図3は、本発明の実施形態による例示的なメディアストリーム生成システム120のブロック図である。図3において、シンデバイス110は、通信ネットワーク150を介してメディアストリーム生成システム120に通信可能な状態で結合される。メディアリソースサーバ121が、通信ネットワーク150と通信可能な状態で結合され、オーディオメディアストリーム及び/又はビデオメディアストリームを変更するためのユーザ要求を伝送する信号をシンデバイス110から受信する。メディアリソースサーバ121は更に、本発明の実施形態では、シンデバイス110へのメディアストリーム及び/又は変更されたメディアストリームを生成する。本発明の実施形態では、メディアリソースサーバ121は更に、通信ネットワーク150と通信する電話インタフェイス、インターネット310へのインタフェイス、及びDTMF信号を処理するインタフェイスを含むことが可能である。メディアリソースサーバ121はまた、メディアデータベース122、アプリケーションコンポーネント123、テキスト・トゥ・スピーチ(TTS)コンポーネント124、自動スピーチ認識(ASR)コンポーネント125、テキスト・トゥ・ビデオコンポーネント126、及び同期マネージャ127と通信可能な状態で結合される。本発明の実施形態では、システム120を図3に示すものとは異なるよう構成することが可能であることが理解されよう。システム120の動作については後により詳細に論じる。
本発明の実施形態では、メディアストリーム生成システム120により複数のメディアストリームを生成することが可能である。一実施形態では、シンデバイス110で同時に表示されることになるオーディオメディアストリーム及びビデオメディアストリームが生成される。本発明の実施形態では、オーディオメディア及びビデオメディアは、互いに対応するコンテンツとすることが可能であり(例えばビデオイメージが「メールボックス」なる語句を表示する一方でオーディオ出力もまた「メールボックス」と言う)、関連するコンテンツとすることが可能であり(例えば自動車の絵を表示する一方でオーディオ出力が該自動車について説明する)、又は無関係なコンテンツとすることが可能である。しかし、シンデバイス上で複数のメディアストリームを同時に提示することにより、個々のメディアの処理要件が異なることに起因してスケジューリング及び同期に関する問題がもたらされる可能性がある。例えば、シンデバイス110により行われなければならない一層多くのコンピュータ集約型のビデオ復号化に起因して、ビデオメディアストリームのより大きな復号化レイテンシが一般に生じる。その結果として、ビデオメディアストリームを送信する場合には、シンデバイス110に対してデータを処理する十分な時間を与えるために、より長いリードタイムが必要となる。
一方、オーディオメディアストリームは、シンデバイス110の側で必要となる処理が遙かに少なく、メディアストリーム生成システム120からおよそリアルタイムで送信される。それ故、複数のメディアストリームをシンデバイス110で同時に提示することができるように該複数のメディアストリームのオフセットを同期させることは困難となる可能性があり、可変ビットレート(VBR)メディアストリームを用いる場合には特に困難となり得る。これは、ビデオ送信のリードタイムがオーディオメディアの送信に対して変化し得るからである。
これを、図4に一層詳細に示す。図4は、ヒント付きMPEG4ファイルについて送信時刻の関数として表示時刻を示したプロットである。図4に示すように、互いに同時に提示されるべきオーディオストリームに対するビデオメディアストリームの送信時刻は広く変化する可能性がある。例えば、メディアストリームが20000ミリ秒の表示時刻において同時に表示されるためには、ビデオメディアストリーム(例えば410)は約14000ミリ秒の送信時刻に送信され、これと同時に提示されるべきオーディオメディアストリーム(例えば420)は20000ミリ秒の送信時刻に送信される。このため、その時点で約6000ミリ秒の送信オフセットが存在する。しかし、23000ミリ秒の表示時刻では、ビデオメディアストリーム(例えば410)は約19500ミリ秒の送信時刻に送信され、これと同時に提示されるべきオーディオメディアストリーム(例えば420)は約23000ミリ秒の送信時刻に送信される。このため、この時点では約3500ミリ秒の送信オフセットが存在する。
オーディオメディアストリーム及びビデオメディアストリームのタイミング及び同期に関する別の複雑な問題は、シンデバイスの中には低レイテンシ通信ネットワーク用に設計されているものがある(例えば携帯電話)という事実である。その結果、かかる機器のバッファサイズが小さいため、シンデバイス110とメディアストリーム生成システム120との間で極めて正確な同期を行って、バッファオーバフロー(この場合にはバッファが既に一杯であるためにデータが喪失する)やアンダーフロー(この場合にはメディアストリーム生成システム120から追加のストリーミングメディアが到着する前にバッファ中のデータが処理されてしまう)を防止することが必要となる。
初期のオーディオコーデックは、固定データパケットタイミングを使用し、この場合には各データパケットは例えば20ミリ秒のタイムスライスで表された。しかし、(VBR)圧縮オーディオ及びビデオコーデック(例えばAMR及びMPEG4)は、この1パケット/1タイムスライスという規則には従わない。各パケットは、AMR内の不連続送信(DTX)、及びMEPG4における可変フレームレート及びマルチパケットフレームの場合のように、広く変化する時間間隔をカバーすることができる。これは、各データパケット内に明示的なタグを必要とし、該タグは「表示時刻」と呼ばれる対応する時刻を有する。RTPタイムスタンプは、表示時刻を有するデータの明示的なタグ付けの一例である。VBR圧縮メディアの場合には、これら表示時刻は、圧縮が生じる際に記録されなければならず、データと共にソースからシステムを介して最終的にクライアントディスプレイまで移動しなければならない。
各データパケットに、関連するが別個のタイプの時刻、すなわち送信時刻が関連付けられる。ファイルベースコンテンツ(例えば、ビデオメール又はビデオオンデマンド(VoD))では、データパケットの全ては、サーバが選択した任意の時刻にサーバからクライアントへ送信することができる。上述したように、VBRメディアの場合には、データの一部を先に送信することに意味があることが多い。これは送信ビットレートを平滑化することができる。ビットレートの平滑化をしない場合には、Iフレーム等のマルチパケットビデオフレームがシンデバイスのネットワークインタフェイスに押し寄せ、その結果としてパケットが喪失し又は遅延することになる可能性があるからである。オーディオパケットによりも早期にビデオメディアパケットを送信することはまた、時間を要するビデオ復号化プロセスを完了するための追加の時間をシンデバイス110に許容するためにも有用である。
メディアストリームを同時に提示するために、シンデバイス110は、到来するオーディオストリーム及びビデオストリームをアンパックし、解凍し、次いで同期した態様で提示する。一例として、シンデバイス110はかかる処理を、受信したオーディオをそれがRTPスタックから解放された際に復号化し、オーディオデバイス用の20ミリ秒バッファ内に待ち行列を作ることにより、実行することが可能であり、該待ち行列は、リードタイムの100ミリ秒まで延長される。この事前復号化を使用して、デバイスバッファアンダーフロー中に発生する可能性のあったポップを回避することができる。しかし、上述したように、この保護を用いた場合であっても、オーディオデータが間違った時刻にクライアントへ送信された場合には、オーディオデバイスバッファはオーバーフローし又はアンダーフローする可能性がある。
上記例を続けると、本発明の実施形態では、シンデバイス110のオーディオ待ち行列は、20ミリ秒バッファを利用し及び解放し、コールバックを発行してその進捗を示す。シンデバイス110上に存在するメディア表示アプリケーションは、前記コールバックを使用して、対応する表示時刻を用いてビデオフレームの表示をトリガすることが可能である。オーディオとビデオとの対応づけを、メディアストリーム生成システム120から送信されるRTCPパケット内に与えられるオフセット同期を使用して、RTPタイムスタンプにおいて表される表示時刻を使用して達成することができる。例えば、各RTCPパケットは、同じ表示時刻に対応する一対のRTPタイムスタンプ(1つはオーディオ用、もう1つはビデオ用)を与えることが可能である。この情報を使用して、シンデバイス110は、解放されたオーディオバッファRTP時刻からのコールバックを一定範囲の必要なビデオフレームRTP時刻へとマップすることができる。
このように、ビデオクライアントにおけるタイミング要件及び同期要件は、結果的に、メディアストリーム生成システム120における高速データ処理だけでなく、そのデータの送信タイミング及び同期表示の制御の必要性も生じさせるものとなる。シンデバイス110のユーザが最終的な提示の再生レートを対話式に制御することが許容される場合には、表示時刻に対し、送信タイミング内に組み込まれた様々なリードタイムが顕在化する。上述したように、ビデオデータは、それに対応するオーディオデータが提示されるときまで、シンデバイス110において解凍され待機して、コールバックにより該ビデオデータを表示できるようにしなければならない。オーディオにより指示される時刻にシンデバイス110上にビデオが存在せず復号化される場合には該ビデオは破棄され、ビデオデータは、それに対応するオーディオデータよりも早期にメディアストリーム生成システム120から送信されるべきである。
シンデバイス110内での遅延は、ビデオが早期に送信される理由であるが、メディアストリームの考え得る非同期化を生じさせるのはシンデバイス110のレイテンシではない。非同期化は、再生レートを変更する対話型のコマンドに起因してメディアストリーム生成システム120において発生する。オーディオ及びビデオの送信時刻がずれる場合には、再生レートを「今」変更することを要求するユーザにより生成されたDTMF(すなわちボイス)信号は、十分に定義されていないイベントである。更に、ビデオメディアストリームは、それに対応するオーディオメディアストリームよりも早期に送信されるため、メディアストリーム生成システム120は、再生レート変更の要求が受信された際に既に送信されているビデオデータを制御することができない。このため、メディアストリーム生成システム120は、既にシンデバイス110へ送信されているメディアを操作することができない。更に、(例えば無変更のクライアント能力を用いた)別個のオーディオ/ビデオ再生及び(例えば帯域内信号方式を介した)オーディオ/ビデオ対話型制御要求がシンデバイス110により実施されるため、メディアストリームに対する変更を局所的に適用することができる可能性は低い。本発明の実施形態では、メディアストリーム生成システム120は、3つの代替的なインプリメンテーション、すなわち、分離タイムスケール変更(decoupled Time-Scale Modification)(TSM)、遅延イベントTSM、及び遅延同期TSMのうちの1つを使用して、ストリーミングメディアの対話型制御をシンデバイスのユーザに提供することが可能である。
図5は、本発明の一実施形態によるメディアストリームの分離タイムスケール変更の出力表示時刻を入力表示時刻の関数として示す時間プロットである。図5は、再生レートを増大させるためのユーザ要求に応じたビデオメディアストリーム及びそれに対応するオーディオメディアストリームの再生レートの変更を示していることに留意されたい。図5において、再生レートの変化は、(例えばメディアデータベース122からの)入力表示時刻と(例えばシンデバイス110への)出力表示時刻との間の勾配の変化に反映される。1つのラインしか示されていない場合には、オーディオメディアストリームとビデオメディアストリームとの完全な同期に対応して2つのラインが送信全体を通して正確にオーバラップしている。ビデオメディアプロット(例えば510)がオーディオメディアプロット(例えば520)を上回る場合には、2つのトラックは非同期化しており、ビデオは元のコンテンツ表示に比較して遅れて表示される。
分離TSMでは、オーディオメディアストリーム及びビデオメディアストリームの再生レートは、再生レートを増大させるためのユーザ要求を受信すると、それらの間で通信することなく即座に変更される。本発明の実施形態では、オーディオメディアストリーム及びビデオメディアストリームの再生レートの制御は同期マネージャ127により行われる。図5では、メディアストリーム生成システム120は、1000ミリ秒において再生速度を通常の速度(例えば1×)から50%速い再生レート(例えば1.5×)へと増大させる要求をシンデバイス110から受信する。メディアストリーム生成システム120における1000ミリ秒のスケジュール時刻において、2000ミリ秒の表示時刻を有するビデオメディアストリームがメディアストリーム生成システム120から既に送信されている可能性がある。これは、オーディオメディアストリームが1100ミリ秒の表示時刻でデータを送信している間にビデオの迅速な到着及び復号化を確実にするためである。
オーディオメディアストリームの速度を1.5倍上昇させることにより、900ミリ秒間(2000ミリ秒−1100ミリ秒)のデータが600ミリ秒間のデータ(900/1.5)に変化する。このオーディオデータの低減が正しくない場合には、オーディオストリーム及びビデオストリームは、300ミリ秒間だけ再生の残りの部分について非同期となる。図5に示すように、メディアトラックの勾配は、メディアストリーム生成システム120に速度上昇要求が到着すると即座に異なるレートへと変化する。送信-表示マッピングの相違に起因して、このイベント時刻は、オーディオトラック及びビデオトラックにおける2つの別個の表示時刻すなわち提示時刻に対応する。入力表示時刻から出力表示時刻へのマッピングにより2つの異なる入力表示時刻において勾配が変化したため、シンデバイス110が正しいRTPマッピングロジックを使用している場合であっても、オーディオ及びビデオの速度上昇後の表示は常に非同期化することになる。換言すれば、対応するビデオメディアストリーム及びオーディオメディアストリームについての送信時刻のオフセットのため、両メディアストリームの速度を即座に上昇させると、シンデバイス110は、速度が上昇したオーディオメディアストリームが到着している間に通常速度のストリーミングビデオメディアを表示することになり、その結果、対応するメディアストリームであるべきものが非同期化することになる。
図6は、本発明の別の実施形態によるメディアストリームの遅延イベントタイムスケール変更の出力表示時刻を入力表示時刻の関数として示す時間プロットである。本発明の実施形態では、上述した非同期化を回避する1つの方法は、メディアストリームのうちの一方における再生レート変更の実施を、対応するメディアストリームに該レート変更を適用する前に遅延させる、というものである。換言すれば、(例えば約1000ミリ秒における)再生レート変更の要求を受信すると、メディアストリーム生成システム120の同期マネージャ127は、そのレート変更を即座にビデオメディアストリームに適用し、これにより変更されたビデオメディアストリームを作成し、及びその変更が行われたビデオ表示時刻を記録する。次いで、メディアストリーム生成システム120は、オーディオストリームにおける等価な表示時刻についてオーディオメディアストリームのための遅延されたレート変更を作成する。このように、ユーザ要求の受信時に即座にオーディオストリームに変更を加えるのではなく、オーディオメディアストリームが変更されたビデオメディアストリームと同時に(例えば2000ミリ秒において)提示されることになるまで、該オーディオメディアストリームに対する変更を遅延させる。換言すれば、メディアストリーム生成システム120は、2つのメディアストリームのタイミングオフセットを決定し、そのオフセットに等しい期間にわたり、オーディオメディアストリームの変更の実施を遅延させる。シンデバイス110のユーザにとっては、オーディオ及びビデオの表示は、レート変更プロセス全体を通して正しく同期したままであるが、ユーザがレート変化変更を見るか又は聞く前には遅延が存在する。
一例として、再生レート変更のユーザ要求を受信すると、メディアストリーム生成システム120は、2000ミリ秒のビデオ表示時刻において要求が発生したことを記録し、該要求されたレート変更を即座にメディアストリームに適用する。ビデオメディアストリームの送信とオーディオメディアストリームの送信との間に900ミリ秒のオフセットが存在するため、メディアストリーム生成システム120は、オーディオメディアストリームに対する要求された変更の実施を900ミリ秒だけ遅延させた後、変更されたオーディオメディアストリームを生成する。遅延イベントTSMは、送信全体を通してビデオメディアストリーム及びオーディオメディアストリームを同期させたままにするという利点を有するが、シンデバイス110のユーザに対し、該ユーザの入力コマンドが正しく処理されなかったという知覚を与える可能性がある。これは、帯域幅平滑化要件がビデオメディアストリームとオーディオメディアストリームとに間に大きなオフセットを必要とする場合に、特に顕著となる。
図7は、本発明の一実施形態によるメディアストリームの遅延同期タイムスケール変更の出力表示時刻を入力表示時刻の関数として示す時間プロットである。本発明のこの実施形態では、メディアストリームの非同期化は、遅延同期TSMを適用することにより回避される。換言すれば、(約1000ミリ秒において)再生レート変更の要求を受信すると、メディアストリーム生成システム120の同期マネージャ127は、ビデオメディアストリーム及びオーディオメディアストリームの両方に対してレート変更を即座に適用し、オフセットしている表示時刻を両メディアストリームに記録する。上述したように、更に修正されない限り、これにより、シンデバイス110においてオーディオメディアがそれに対応するビデオメディアよりも早期に再生されることになる。この長期間の非同期化を回避するために、メディアストリーム生成システム120は、シンデバイス110に対するオーディオ出力ストリーム中に正しい量の無音を挿入する。図5の例を用いると、メディアストリーム生成システム120は、シンデバイス110へ送信されているオーディオメディアストリーム内に300ミリ秒の無音を挿入する。最初は、オーディオメディアストリームがビデオメディアストリームに対して300ミリ秒遅れて再生されているため、ビデオメディアストリーム及びオーディオメディアストリームは非同期化する。次いで、次の600ミリ秒にわたってオーディオメディア及びビデオメディアが徐々に再同期化する。これは、オーディオが、依然としてリアルタイムで再生されているビデオよりも高速に再生されているためである(例えば、シンデバイス110では、リアルタイムビデオメディアストリームが依然として処理されている)。900ミリ秒後、オーディオメディアストリーム及びビデオメディアストリームの同期が回復し、ビデオは、2000ミリ秒の時刻においてリアルタイムよりも高速に再生し始めることになる。
シンデバイス110のユーザに対し、再生レート変更の要求を送信した後、ユーザは、ビデオがリアルタイムで再生し続けている間にオーディオメディアのほぼ即座の無音を知覚する。有利なことに、これは、ユーザに対し、ユーザの要求が処理されているという即座の知覚を与えるものとなる。300ミリ秒の無音の後、ビデオが依然としてリアルタイムで再生されている間に、オーディオストリームが要求された速度(例えば、1.5×)で再生されることになる。この時間中、オーディオ及びビデオは同期せず、オーディオメディアはビデオメディアより高速に再生していることになる。しかし、最終的には、変更されたビデオメディアがシンデバイス110において表示され始めることになり、その時点で、オーディオメディア及びビデオメディアは再び同期することになる。このように、シンデバイス110のユーザに対し、ビデオイメージの連続性及びオーディオ出力の中断が存在する。メディアストリーム生成システム120により出力されるビデオメディアが予測的に符号化されない場合には、ビデオ不連続性の提供を実施することが可能である。
ユーザが再生レートの低下を要求している場合には、メディアストリーム生成システム120は、ビデオメディアストリーム及びオーディオメディアストリームの両方にそのレート変更を即座に適用し、オフセットしている表示時刻を両メディアストリームに記録する。上述したように、更に訂正されない限り、これにより、シンデバイス110においてオーディオメディアが、それに対応するビデオメディアよりも早期に再生されることになる。非同期化を回避するために、メディアストリーム生成システム120は、人為的に遅延される表示(RTP)タイムスタンプを用いて後続のビデオフレームを符号化して、シンデバイスにおけるビデオストリームの「一時停止」又は「静止」を導入する。図5の例を用いると、通常速度から2/3通常速度へと減速させる場合、メディアストリーム生成システム120は、後にシンデバイス110へ送信するビデオを450ミリ秒(=900/(2/3)−900/1)だけ遅延させる。この遅延は、表示時刻と送信時刻との両方で発生する。オーディオが、依然としてリアルタイムで再生されているビデオよりも低速で再生されているため、オーディオ及びビデオは徐々に非同期化する。900ミリ秒後、ビデオは静止しオーディオは低速で再生し続けるため、オーディオメディアストリーム及びビデオメディアストリームの同期が回復し始める。1350ミリ秒後、同期は完全に回復され、ビデオ及びオーディオは共に減速したレートで再生される。
このように、本発明の実施形態は、複数のメディアストリームの同期を維持する一方でユーザに対して十分な応答性の印象を提供する、シンデバイスからストリーミングメディアを対話式に制御する方法及びシステムを提供する。オーディオメディアストリーム及びビデオメディアストリームの同期について説明しているが、複数のビデオメディアストリーム又は複数のオーディオメディアストリームをシンデバイス110のユーザに提示することが可能であるということが理解されよう。例えば、テレビ会議でシンデバイス110が使用されている場合、ユーザは、現在話している参加者に集中するためにオーディオチャネルを切り換えることができる。更に、本発明の実施形態は、既存の電気通信ネットワークインタフェイス及びプロトコルと互換性がある。更に、本発明の実施形態は、シンデバイス上に特別なクライアントソフトウェアをインストールする必要なく実施することができる。
視覚的合図を用いた対話型メディア応答システムの改善
本発明の実施形態の別の利点は、メディアストリーム生成システム120を使用して対話型メディア応答システムを実施することができるということである。これは、ビデオチャネルを使用してシンデバイス110のユーザへ複数の選択肢すなわち「視覚的プロンプト」を同時に提示することができるため、現行の対話型ボイスアプリケーション(例えばボイスメールアクセス又は航空座席予約システム)と比較して有利なものである。本発明の実施形態では、アプリケーションを迅速にナビゲートするために使用することができるテキスト又はアイコンベースのメニューを使用して、ネストされた複数組の選択肢をユーザに提示することができる。
従来の対話型ボイスアプリケーションは、ユーザが複数のオーディオソースを同時に聞くことが困難であるため、ユーザに対し複数のオプションを逐次提示することに制限される。その結果、ユーザは、オーディオインタフェイスを介して所望のオプションが提示されるまで待ち、所望の結果にアクセスするための複雑な打鍵シーケンスを記憶し、又は何れのオプションを選択したいか判断する前に大量のオプションのセットを記憶することを余儀なくされる可能性がある。一例として、シンデバイスのユーザは、映画を観たい場合に、入手可能な映画タイトルを逐次列挙する対話型ボイスアプリケーションを呼び出す。ユーザが選択することができる入手可能な映画タイトルは何百もあることが多い。このため、ユーザは、該ボイスアプリケーションがユーザの観たい映画タイトルを述べるまでに過度に長い時間待たされる可能性がある。ユーザは、いらいらして所望の映画タイトルが述べられるのを待たずに単にシステムから切断することになる可能性の方が高い。また、ユーザには、利用可能な複数のオプションから選択を行おうとする際に、1つの選択について2つ以上の打鍵シーケンスを記憶するという苦しい思いをする可能性がある。多くのユーザにとって、シンデバイスのキーパッドへの機能のマッピングを説明する場合に対話型ボイスアプリケーションを使用するのは困難である可能性がある。例えば、シンデバイス110を使用して映画を再生する場合、ユーザは、シンデバイス110のキーパッドへの再生オプションのマッピングを記憶しなければならない。このため、対話型ボイスアプリケーションは、ユーザに対して、映画の再生を開始する前に、巻き戻しには4を押し、再生には5を押し、早送りには6を押し、繰り返しには7を押し、削除には8を押すこと等を伝える場合がある。しかし、多くのユーザは、それらマッピングを長時間にわたり記憶することが困難であることに気付くことになる。
本発明の実施形態では、メディアストリーム生成システム120がシンデバイス110と通信するために使用する視覚チャネルを使用して、オーディオチャネルにより伝送されるオーディオ情報と共に視覚的プロンプトをユーザに提示することができる。このため、本発明の実施形態は、シンデバイスのユーザに対して複数のオプションを同時に表示することを可能とし、ユーザは、該オプションを使用して、大量の複数組をなす選択肢を迅速にナビゲートすることができ、及び/又は特定の打鍵シーケンスを記憶する必要なく該ナビゲートを行うことができる。本発明の実施形態では、視覚的プロンプトは、テキスト、アイコン、又は他の視覚的イメージを含むことが可能である。このため、本発明の実施形態では、ユーザは、シンデバイス110を使用して映画を観たい場合、観たい映画が見つかるまで、入手可能なタイトルのリストを見て、リストをスクロールさせることができる。ユーザは、オーディオインタフェイスのみに制限されないため、シンデバイス110のビデオインタフェイスを使用して所望の選択肢へと迅速にスクロールさせることができる。更に、ユーザは、シンデバイス110のディスプレイにオプションが表示されている際に何れの映画を観るか判断しようとする時、特定の打鍵シーケンスを記憶する必要がない。
本発明の実施形態では、ビデオチャネルを介して提示される情報は、オーディオ情報と同時に提示される。例えば、ビデオチャネルが「受信箱に2つのメッセージがあります」というメッセージを提示する間に、それに対応する「受信箱に2つのメッセージがあります」というメッセージをオーディオチャネルが伝えることが可能である。代替的に、情報は互いに関連するが正確には一致しないデータとすることが可能である。一例として、ユーザは、シンデバイス110のユーザに対して利用可能な車のモデルを列挙すると同時にその車の絵を表示するレンタカー店と連絡をとることが可能である。別の例では、ビデオチャネルが
「通話1, メアリー 415 123 4567 から」
「通話2, ジョージ 415 123 4568 から」
というメッセージを提示する間に、オーディオチャネルが「受信箱に2つのメッセージがあります」というメッセージを伝えることが可能である。このように、視覚的に表示される情報は、オーディオチャネルにより提示される情報と関連するが正確に一致するものではない。更に、視覚的表示は、従来のオーディオのみのインタフェイスでは通常提示されない情報を含むことができる。例えば、シンデバイス110のユーザは、本発明の実施形態を使用して、ボイスメッセージに優先メッセージとしてのフラグが立てられているか否かを迅速に判定することができる。本発明の別の実施形態では、オーディオデータと同時に無関係のデータを提示することが可能であり、シンデバイス110のユーザが待たされている場合に、該ユーザに対し、オーディオチャネルが音楽を再生する一方、ビデオチャネルが広告、映画予告編、ゲーム等を伝達することが可能である。本実施形態は、シンデバイス110においてオーディオプロンプトと同時に視覚的プロンプトが表示されることを述べているが、本発明の実施形態は、シンデバイス110上で如何なるオーディオプロンプトとも無関係に視覚的プロンプトを表示するのにも適したものであることに留意されたい。
本発明の実施形態では、視覚的プロンプトの動的生成は、VoiceXMLアプリケーション(例えば図3のアプリケーションコンポーネント123)により生成されるマークアップ情報にアクセスすることにより容易になる。例えば、VoiceXMLは、電気通信自動音声応答(Interactive Voice Responsive)(IVR)メッセージ処理、ボイスポータル、及びエンターテイメントアプリケーションにおいて、メディア提示シーケンスや、到来信号の調整された時間と共に変化する解釈を記述するために、使用されることが多い、マークアップ言語である。VoiceXML+は、このマークアップ言語を拡張させて、調整されたオーディオ及びビデオ提示をサポートするようにしたものであり、これにより、シンデバイス110のユーザへ視覚的プロンプトを伝達する手段としてビデオチャネルを使用することが可能となる。本発明の実施形態では、アプリケーションコンポーネント123は、シンデバイス110を介してオーディオプロンプトを提示する際にTTSコンポーネント124により使用されるVoiceXMLテキストストリングを生成する。本発明の実施形態では、アプリケーションコンポーネント123はまた、オーディオプロンプトと同時に提示される視覚的に適当な視覚的表現を生成するためにテキスト・トゥ・ビデオコンポーネント126により使用されるVoiceXMLテキストストリングも生成する。本発明の実施形態では、視覚的プロンプトは、シンデバイス110に送信されるオーディオプロンプトを視覚的に表現したもの、PDFファイル、JPEGファイル、MPEGファイル、又は例えばメディアデータベース122からアクセスできるものを含むことが可能である。本発明の実施形態では、アプリケーションコンポーネント123は、VoiceXMLテキストストリングを生成する際に、メディアコンポーネント122、TTSコンポーネント124、ASRコンポーネント125、及び/又はインターネット310からのデータにアクセスすることができる。
図8は、本発明の実施形態による視覚的プロンプトを生成するプロセスのフローチャートである。ステップ810において、シンデバイスから発呼を受信する。再び図3を参照すると、ユーザはシンデバイス110がメディアストリーム生成システム120と連絡を取るようにする。例示の目的で、ユーザは、メディアリソースサーバ121に存在するボイスメールアプリケーションにアクセスしているものとする。しかし、本発明の実施形態はこの種のデータアクセスのみに限定されないということが理解されよう。
図8のステップ820において、シンデバイスの表示能力が判定される。本発明の一実施形態では、シンデバイス110との通信が確立されると、メディアストリーム生成システム120は、シンデバイス110の表示能力を判定するためのメッセージを生成する。該メッセージは、シンデバイスの画面サイズ、解像度、プロセッサ能力等を含むことが可能である。
図8のステップ830において、視覚的プロンプト記述に対する要求を生成する。ユーザのそれらのボイスメールにアクセスしたい要求に応じて、メディアリソースサーバ121はユーザのボイスメールアカウントにアクセスする。本発明の実施形態では、ユーザのボイスメールアカウントにアクセスすると、メディアリソースサーバ121は、該ユーザのボイスメールアカウントのファイルにアクセスして該ユーザの受信箱の要約を作成し、及びTTSコンポーネント124を使用してボイスプロンプトを作成するためにそのデータのVoiceXMLマークアップについての要求を生成する。メディアリソースサーバ121により送信されるアプリケーション状態データを使用して、アプリケーションコンポーネント123は、VoiceXMLテキストストリングを生成し、次いで該VoiceXMLテキストストリングがTTSコンポーネント124により使用されて、該VoiceXMLテキストストリングがシンデバイス110のユーザのためのオーディオメッセージへと変換される。
本発明の実施形態では、テキスト・トゥ・ビデオコンポーネント126は、オーディオメッセージの提示と同時に表示されることになる視覚的プロンプトのために、アプリケーションコンポーネント123への視覚的プロンプト記述についての要求を生成する。本発明の実施形態では、TTSコンポーネント124により使用されるテキストストリングを生成する際、アプリケーションコンポーネント123は、オーディオメッセージと同時に表示されるべき視覚的プロンプトのメディアソースを指定するVoiceXMLテキストストリングを生成する。本実施形態は、視覚的プロンプトがオーディオプロンプトと同時に提示されるように述べるが、本発明の実施形態では、オーディオ情報を伴うことなく視覚的プロンプトのみを生成することが可能である、ということに留意されたい。
図8のステップ840において、アプリケーションコンポーネント123により送信されたプロンプト記述を使用して及びシンデバイスの表示能力に基づいて視覚的プロンプトを作成する。アプリケーションコンポーネント123により生成されたVoiceSMLプロンプト記述を使用して、テキスト・トゥ・ビデオコンポーネント126は、シンデバイス110の表示能力に基づく視覚的プロンプトを作成する。換言すれば、アプリケーションコンポーネント123は、シンデバイス110に関する視覚的な情報をレンダリングするために、ユーザのボイスメール受信箱からのデータにタグを付加する。例えば、VoiceXMLプロンプト記述は、メディアデータベース122に格納されているJPEGイメージ(例えばアイコン)のファイル記述を含むことが可能である。例えば、シンデバイス110が一度に3つのアイコンしか表示することができないと判定された場合には、テキスト・トゥ・ビデオコンポーネント126は、シンデバイス110に送信される視覚的プロンプトのサイズを制限することになる。このため、ユーザには、シンデバイス110の表示能力とユーザのボイスメール受信箱におけるメッセージの数とに応じて、複数「ページ」の視覚的プロンプトを提示することができる。代替的に、視覚的プロンプトは、単にTTSコンポーネント124により作成されたトランスクリプトの視覚的表現とすることが可能である。この場合も、本実施形態は、視覚的プロンプトがシンデバイス110のユーザに提示されるオーディオプロンプトに関連するように述べるが、本発明の実施形態は、オーディオプロンプトとは無関係の視覚的プロンプトを表示するのにも適したものである、ということに留意されたい。
上述したように、アプリケーション状態情報は、メディアリソースサーバ121によりアクセスされると共にアプリケーションコンポーネント123へ送出されることが可能である。このため、アプリケーションコンポーネント123は、シンデバイス110によりアクセスされているアプリケーションの現在の状態に合わせた視覚的プロンプト記述を生成することができる。その結果として、シンデバイス110上に表示されているものに応じて、ユーザコマンド(例えばDTMF信号又はボイス信号)を使用して、現在アクセスしているアプリケーションを制御することができる。本実施形態に戻ると、ユーザのボイスメール受信箱についての視覚的プロンプトは、誰がメッセージを残したか、その人達の発信元電話番号、メッセージが残された時刻、及びメッセージに優先ステータスが割り当てられているか等を示すことができる。
図8のステップ850において、視覚的プロンプトをシンデバイスへ送信する。本発明の実施形態では、テキスト・トゥ・ビデオコンポーネント126が視覚的プロンプトをメディアリソースサーバ121へ送信し、次いで該メディアリソースサーバ121が該視覚的プロンプトを適当なオーディオプロンプトと同時に表示されるように同時に転送する。
視覚的プロンプトの品質の向上
本発明の実施形態では、シンデバイス110により使用されるビデオコーデックの従来の知識を、テキストプロンプトの表示品質を向上させるために流用することができる。例えば、使用されるビデオコーデックがブロックベースコーデック(例えば、MPEG4又はH.263)であること、及びテキストがシンデバイス110上に表示されようとしていることを予め知ることにより、文字の位置を、該文字の鮮鋭度を向上させるようブロックの符号化境界を利用するように調整することができる。これが可能となるのは、ブロックベースビデオコーデックでは、ブロッキングアーティファクトが、MPEGブロック又は離散コサイン変換(DCT)ブロックといった画素ブロック間の境界で発生するからである。これら境界は、各ブロックが低周波数で別々の量子化器を使用して符号化されるという事実によりもたらされる。これらの量子化器は、2つの当接するブロックエッジに等しい値が現れないものとなるため、それはディスプレイ上で1本の線のように見える。一般に、ブロックエッジと整列する実際の線はコンテンツ中には存在しないため、これら線は望ましくないものである。しかし、本発明の実施形態では、テキストが表示されるべきであるという事前の知識により、これらブロックの境界における線を使用して、表示される文字上により鮮鋭なエッジを作成することができ、これにより、表示されるテキストの鮮鋭度が向上する。従来のシステムでは、テキスト又はイメージがレンダリングされているか否かに関する表示はなされない。したがって、テキスト又はイメージのレンダリングを最適化することのないレンダリングのための総合的な解決策が利用される。
図9は、本発明の実施形態によるブロッキングアーティファクトに対するレンダリングされた文字の位置合わせを示している。図9には、水平境界(例えば901,902,903,904,905,906)及び垂直境界(例えば911,912,913,914,915,916)により画定される複数のビデオブロックが示されている。上述したように、各ブロックは別々の量子化器を使用して符号化されるため、水平境界及び垂直境界はディスプレイにおいて明確な線として現れる。
従来のディスプレイインプリメンテーションでは、テキストは、符号化されたビットストリームで示されることを考慮することなくビットマップイメージとして単純に処理されるため、出力品質を読み取ることは困難となり得る。結果的に、文字(例えば930)を、ブロックの中央にレンダリングする可能性がある。ビデオコーデックは、一般に高周波数情報を劣化させるため、ブロックの中心でレンダリングされた文字はぼやけて見えることになる。しかし、本発明の実施形態では、文字の位置決めを、そのエッジが2つのブロック間の垂直境界及び/又は水平境界と位置合わせされるように調整することができる。図9に示すように、文字940は、その垂直方向のバーの左縁が垂直境界912に位置合わせされ、その水平方向のバーの底縁が水平境界905と位置合わせされるように位置決めされる。このように、シンデバイス110で使用されるビデオコーデックを知ることにより、レンダリングされたテキストの鮮鋭度を向上させるためにテキストの生成時に使用される、ブロックの境界の空間マップを作成することができる。本発明の目的のために、テキストプロンプトは、数字、文字、及び/又は絵ではない他のキャラクタを含むことが可能である、ということに留意されたい。
本発明の実施形態では、単一文字、複数の文字、又は文字の線全体のジッタを実行することにより、ブロッキングアーティファクトを利用するために、キャラクタを互いに近づくように又は互いから離れるように移動させることができる。本発明の実施形態では、シンデバイス110にビデオデータを送信するブラウザページジェネレータ(例えばメディアリソースサーバ121)は、レンダリングされたテキストのサンプルレイアウトを実行して、テキスト行の各文字がブロック境界と位置合わせされるように該文字の配置を決定することができる。更に、本発明の実施形態では、メディアリソースサーバ121は、文字を表現するための複数組の係数を予め計算することができる。例えば、所定のフォント及びサイズでキャラクタがレンダリングされるべきことを知ることにより、メディアリソースサーバ121は、ビデオブロック内の所定位置に該キャラクタをレンダリングするための係数を予め計算することができる。換言すれば、キャラクタがブロックの境界と位置合わせされるように該キャラクタの位置を調整することができるということを知ることにより、メディアリソースサーバ121は、そのブロックについての係数を計算し、該係数を、前記テキスト行のキャラクタのサンプルレイアウトを実行することを必要とすることなく、ビットストリームでシンデバイス110へ送信することができる。そうすることで、メディアリソースサーバ121における計算負荷を低減させることができる。
本発明の実施形態はまた、キャラクタの空間的なビット割当て優先順位付けを実行することが可能であり、この場合には、各ブロックに割り当てられるデータビットの数を、該ブロック内にテキスト又はイメージが表示されるか否かに基づいて変更することが可能である。例えば、絵その他のイメージを表示する場合には、文字又はキャラクタを表示する場合ほど高周波数情報は必要とされない。このため、本発明の実施形態では、イメージを表示するブロックに対して割り当てられるビットよりも多いビットを文字又はキャラクタを表示するブロックに割り当てる。更に、本発明の実施形態は、他の部分よりも優先順位の高いテキストに対してより多くのビットを割り当てることにより、テキストの一部を強調することが可能である。例えば、ボイスメール受信箱を表示する場合、その発呼者の名前のキャラクタに対してより多くのデータビットを割り当てることにより、発呼者の名前をその発呼者が発呼した時刻よりも強調させることができる。本発明の実施形態では、キャラクタの強調が行われるべき分類を、例えば、HTMLヘッダ、VoiceXMLテキストストリング、又はテキストのセクションを識別する該テキストに付加される何らかの他の表示を使用して容易にすることができる。
本発明の実施形態はまた、キャラクタの一時的なビット割当て優先順位付けを実行することが可能であり、この場合には、ビデオフレームに割り当てられるデータビットの数を、テキスト又はイメージが表示されているか否かに基づいて変更することが可能である。例えば、キャラクタは一般に静止位置に表示されるため、ビデオフレーム間には動きがあるとしてもわずかである。このため、他のデータフレームからのデータに依存しないイントラ符号化フレーム(Iフレーム)に対してより多くのビットを割り当てることができる。動画では、予測フレーム(Pフレーム)及び双方向予測フレーム(Bフレーム)を使用して、Iフレームにおいて記述されるオブジェクトの動きを伝達する。テキストキャラクタは一般に移動しないため、Pフレーム及びBフレームにデータビットを割り当てる必要性はより低くなる。このため、本発明の実施形態では、テキストキャラクタを表示する場合、一般的なビデオシーケンスで使用されるIフレームに割り当てられるデータビットよりも多くのデータビットをIフレームに割り当てることができる。その結果として、レンダリングされたキャラクタは、イメージ又はテキストがレンダリングされているか否かに基づいてデータビットの割当てに優先順位付けをすることのない従来のブラウザ生成の場合よりも鮮鋭となる。
図10を参照すると、本発明の一部は、例えば汎用コンピュータネットワーク(図示せず)の一部として使用されるコンピュータシステム1000内に存在する、コンピュータ読取可能命令及びコンピュータ実行可能命令から成る。図10のコンピュータシステム1000は単なる例示であり、本発明は、汎用コンピュータシステム、埋込みコンピュータシステム、ラップトップコンピュータシステム、ハンドヘルドコンピュータシステム、及びスタンドアロンコンピュータシステムを含む、多数の様々なコンピュータシステム内で動作することができる、ということが理解されよう。
本実施形態では、コンピュータシステム1000は、様々なコンポーネント間でデジタル情報を伝送するアドレス/データバス1001と、デジタル情報及び命令を処理する中央処理装置(CPU)1002と、デジタル情報及び命令を格納する揮発性ランダムアクセスメモリ(RAM)から成る揮発性メインメモリ1003と、より永久的な性質の情報及び命令を格納する不揮発性リードオンリメモリ(ROM)1004とを有する。更に、コンピュータシステム1000は、莫大な量のデータを格納するデータ記憶装置1005(例えば、磁気、光、フロッピー、又はテープドライブ等)を含むことが可能である。本発明のメディアを対話式に制御するソフトウェアプログラムは、揮発性メモリ1003、データ記憶装置1005、又は外部記憶装置(図示せず)に格納することが可能である、ということに留意されたい。
更に、コンピュータシステム1000は、周辺装置1010(例えばコンピュータネットワーク、モデム、大容量記憶装置等)とインタフェイスするための入出力(I/O)信号ユニット(例えばインタフェイス)1009を含むことができる。したがって、コンピュータシステム1000は、クライアント/サーバ環境等のネットワークにおいて結合することが可能であり、これにより、多数のクライアント(例えば、パーソナルコンピュータ、ワークステーション、ポータブルコンピュータ、ミニコンピュータ、端末等)を使用して、所望のタスクを実行するプロセスが実行される。特に、コンピュータシステム1000は、対話式にメディアを制御するシステムに結合することができる。
本発明、すなわち、視覚的合図を使用して対話型メディア応答システムを改善する方法及びシステムの好ましい実施形態について説明した。本発明を特定の実施形態で説明したが、本発明は、このような実施形態により限定されるものと解釈されるべきではなく、特許請求の範囲に従って解釈されるべきであるということが理解されるべきである。
本発明の実施形態により利用される対話型メディア応答システムの図である。 本発明の実施形態による視覚的合図を使用して対話型メディア応答システムを改善する方法のフローチャートである。 本発明の実施形態によるメディアストリーム生成システムのブロック図である。 ヒント付きMPEG4ファイルの伝送時刻の関数として表示時刻を示すプロットである。 本発明の一実施形態によるメディアストリームの分離タイムスケール変更の入力表示時刻の関数として出力表示時刻を示す時間プロットである。 本発明の別の実施形態によるメディアストリームの遅延イベントタイムスケール変更の入力表示時刻の関数として出力表示時刻を示す時間プロットである。 本発明の一実施形態によるメディアストリームの遅延同期タイムスケール変更の入力表示時刻の関数として出力表示時刻を示す時間プロットである。 本発明の実施形態による視覚的プロンプトを生成するプロセスのフローチャートである。 本発明の実施形態によるブロッキングアーティファクトに対するレンダリングされたキャラクタの位置合わせを示す図である。 本発明の実施形態により利用される例示的なコンピュータシステムのブロック図である。

Claims (10)

  1. 対話型メディア応答システムにおいて視覚的合図を提供する方法であって、
    シンデバイス(110)上に表示するための少なくとも1つの視覚的プロンプト(130)を生成し、
    該視覚的プロンプト(130)を前記シンデバイス(110)へ送信し、
    該シンデバイス(110)において前記視覚的プロンプト(130)を表示する、
    という各ステップを含む、対話型メディア応答システムにおいて視覚的合図を提供する方法。
  2. 前記シンデバイス(110)により提示するための少なくとも1つのオーディオプロンプト(130)を生成し、
    該オーディオプロンプト(130)を前記シンデバイス(110)へ送信し、
    該シンデバイス(110)において前記オーディオプロンプト(130)及び前記視覚的プロンプト(130)を同時に提示する、
    という各ステップを更に含む、請求項1に記載の方法。
  3. 前記視覚的プロンプト(130)で伝達される情報が、前記オーディオプロンプト(130)で伝達される情報と一致する、請求項2に記載の方法。
  4. 前記視覚的プロンプト(130)で伝達される情報が、前記オーディオプロンプト(130)で伝達される情報と相関する、請求項2に記載の方法。
  5. 前記視覚的プロンプト(130)で伝達される情報が、前記オーディオプロンプト(130)で伝達される情報とは無関係である、請求項2に記載の方法。
  6. 前記生成ステップが、
    テキストストリングジェネレータ(123)から前記視覚的プロンプト(130)の記述を受信し、
    該記述に基づいて前記視覚的プロンプト(130)を生成する、
    という各ステップを更に含む、請求項1に記載の方法。
  7. 前記視覚的プロンプト(130)が、前記シンデバイス(110)によりアクセスされるストリーミングメディアアプリケーションを制御するためのオプションを伝達する、請求項6に記載の方法。
  8. 前記視覚的プロンプト(130)で伝達される情報が、前記オーディオプロンプト(130)で伝達される情報と一致する、請求項7に記載の方法。
  9. 前記視覚的プロンプト(130)で伝達される情報が、前記オーディオプロンプト(130)で伝達される情報と相関する、請求項7に記載の方法。
  10. 前記視覚的プロンプト(130)で伝達される情報が、前記オーディオプロンプト(130)で伝達される情報とは無関係である、請求項6に記載の方法。
JP2008516010A 2005-06-10 2006-06-09 視覚的合図を用いて対話型メディア応答システムを改善する方法及びシステム Pending JP2008546120A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/149,719 US9955205B2 (en) 2005-06-10 2005-06-10 Method and system for improving interactive media response systems using visual cues
PCT/US2006/022730 WO2006135844A2 (en) 2005-06-10 2006-06-09 Method and system for improving interactive media response systems using visual cues

Publications (1)

Publication Number Publication Date
JP2008546120A true JP2008546120A (ja) 2008-12-18

Family

ID=37027014

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008516010A Pending JP2008546120A (ja) 2005-06-10 2006-06-09 視覚的合図を用いて対話型メディア応答システムを改善する方法及びシステム

Country Status (5)

Country Link
US (1) US9955205B2 (ja)
EP (1) EP1889484A2 (ja)
JP (1) JP2008546120A (ja)
KR (1) KR101008764B1 (ja)
WO (1) WO2006135844A2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9264483B2 (en) 2007-07-18 2016-02-16 Hammond Development International, Inc. Method and system for enabling a communication device to remotely execute an application
US9269059B2 (en) 2008-03-25 2016-02-23 Qualcomm Incorporated Apparatus and methods for transport optimization for widget content delivery
US9069575B2 (en) 2008-03-25 2015-06-30 Qualcomm Incorporated Apparatus and methods for widget-related memory management
US9600261B2 (en) 2008-03-25 2017-03-21 Qualcomm Incorporated Apparatus and methods for widget update scheduling
US9110685B2 (en) 2008-03-25 2015-08-18 Qualcomm, Incorporated Apparatus and methods for managing widgets in a wireless communication environment
US9747141B2 (en) 2008-03-25 2017-08-29 Qualcomm Incorporated Apparatus and methods for widget intercommunication in a wireless communication environment
US20110153768A1 (en) * 2009-12-23 2011-06-23 International Business Machines Corporation E-meeting presentation relevance alerts
US8838680B1 (en) 2011-02-08 2014-09-16 Google Inc. Buffer objects for web-based configurable pipeline media processing
US8681866B1 (en) 2011-04-28 2014-03-25 Google Inc. Method and apparatus for encoding video by downsampling frame resolution
US9106787B1 (en) 2011-05-09 2015-08-11 Google Inc. Apparatus and method for media transmission bandwidth control using bandwidth estimation
EP2621188B1 (en) 2012-01-25 2016-06-22 Alcatel Lucent VoIP client control via in-band video signalling
US9185429B1 (en) 2012-04-30 2015-11-10 Google Inc. Video encoding and decoding using un-equal error protection
US9172740B1 (en) 2013-01-15 2015-10-27 Google Inc. Adjustable buffer remote access
US9311692B1 (en) 2013-01-25 2016-04-12 Google Inc. Scalable buffer remote access
US9225979B1 (en) 2013-01-30 2015-12-29 Google Inc. Remote access encoding
US9813254B2 (en) * 2013-09-04 2017-11-07 Nvidia Corporation System and method for providing real-time assistance regarding a cloud-based application
US11130055B2 (en) 2013-09-04 2021-09-28 Nvidia Corporation System and method for granting remote access to a video game executed on a video game console or network client
US10258886B2 (en) 2013-09-04 2019-04-16 Nvidia Corporation Dynamic interface control device mapping when game sharing
US9070409B1 (en) 2014-08-04 2015-06-30 Nathan Robert Yntema System and method for visually representing a recorded audio meeting
US9987561B2 (en) 2015-04-02 2018-06-05 Nvidia Corporation System and method for multi-client control of a common avatar
CN106973322A (zh) * 2015-12-09 2017-07-21 财团法人工业技术研究院 多媒体内容跨屏幕同步装置与方法以及播放装置与伺服器
SG11202001429XA (en) * 2017-09-15 2020-04-29 Sony Corp Information processing apparatus and information processing method
US11432035B2 (en) * 2020-07-15 2022-08-30 At&T Intellectual Property I, L.P. Adaptive streaming with demuxed audio and video tracks
EP4248302A1 (en) * 2020-11-23 2023-09-27 NLX, Inc. Method for multi-channel audio synchronization for task automation
US11683380B2 (en) 2021-02-09 2023-06-20 Cisco Technology, Inc. Methods for seamless session transfer without re-keying
JP2024529083A (ja) * 2021-08-09 2024-08-01 シェンチェン ティーシーエル ニュー テクノロジー カンパニー リミテッド オーディオ再生方法、装置、電子装置および記憶媒体

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222398A (ja) * 1999-01-29 2000-08-11 Fuji Xerox Co Ltd 文書のフィルタリング方法及び文書フィルタリングシステム
JP2001125862A (ja) * 1999-07-23 2001-05-11 Phone.Com Japan Kk マークアップフローを別々のスクリーン表示に分割する方法及び装置
JP2003099302A (ja) * 2001-09-21 2003-04-04 Ricoh Co Ltd 文書変換サービス方法、文書のデータ構造、記憶媒体及び情報処理装置
WO2004006131A1 (en) * 2002-07-02 2004-01-15 Telefonaktiebolaget Lm Ericsson (Publ) An arrangement and a method relating to access to internet content
JP2004128823A (ja) * 2002-10-02 2004-04-22 Nec Corp 携帯電話機、情報提供サービス局、携帯電話システム及び音声・文字同時通信方法並びにそのプログラム
JP2005012295A (ja) * 2003-06-17 2005-01-13 Aruze Corp 情報管理システム
JP2005141360A (ja) * 2003-11-05 2005-06-02 Matsushita Electric Ind Co Ltd 遠隔制御システム及び遠隔制御方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920842A (en) * 1994-10-12 1999-07-06 Pixel Instruments Signal synchronization
US5870085A (en) * 1997-02-03 1999-02-09 Ati International Generating text strings
US20010047263A1 (en) 1997-12-18 2001-11-29 Colin Donald Smith Multimodal user interface
US6859451B1 (en) 1998-04-21 2005-02-22 Nortel Networks Limited Server for handling multimodal information
US6625656B2 (en) * 1999-05-04 2003-09-23 Enounce, Incorporated Method and apparatus for continuous playback or distribution of information including audio-visual streamed multimedia
US6934759B2 (en) * 1999-05-26 2005-08-23 Enounce, Inc. Method and apparatus for user-time-alignment for broadcast works
US7237254B1 (en) * 2000-03-29 2007-06-26 Microsoft Corporation Seamless switching between different playback speeds of time-scale modified data streams
KR100408021B1 (ko) * 2000-12-29 2003-12-01 엘지전자 주식회사 엘씨디 시스템의 인터페이스 장치 및 방법
US6526351B2 (en) * 2001-07-09 2003-02-25 Charles Lamont Whitham Interactive multimedia tour guide
AU2002323591A1 (en) * 2001-09-05 2003-03-18 Emblaze Systems Ltd. Method for reducing blocking artifacts
US7265663B2 (en) * 2001-11-28 2007-09-04 Trivinci Systems, Llc Multimedia racing experience system
CN101448162B (zh) * 2001-12-17 2013-01-02 微软公司 处理视频图像的方法
US20030185296A1 (en) * 2002-03-28 2003-10-02 Masten James W. System for the capture of evidentiary multimedia data, live/delayed off-load to secure archival storage and managed streaming distribution
US7089313B2 (en) * 2002-07-25 2006-08-08 Matsushita Electric Industrial Co., Ltd. Protocol independent communication system for mobile devices
GB0222562D0 (en) * 2002-09-28 2002-11-06 Koninkl Philips Electronics Nv Method and apparatus for encoding image and or audio data
US8107525B1 (en) * 2003-06-10 2012-01-31 Avaya Inc. Variable bit rate video CODEC using adaptive tracking for video conferencing
KR100547445B1 (ko) * 2003-11-11 2006-01-31 주식회사 코스모탄 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법
US20050160470A1 (en) * 2003-11-25 2005-07-21 Strauss Daryll J. Real-time playback system for uncompressed high-bandwidth video
US8032360B2 (en) * 2004-05-13 2011-10-04 Broadcom Corporation System and method for high-quality variable speed playback of audio-visual media
US7720351B2 (en) * 2005-04-04 2010-05-18 Gutman Levitan Preservation and improvement of television advertising in digital environment

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222398A (ja) * 1999-01-29 2000-08-11 Fuji Xerox Co Ltd 文書のフィルタリング方法及び文書フィルタリングシステム
JP2001125862A (ja) * 1999-07-23 2001-05-11 Phone.Com Japan Kk マークアップフローを別々のスクリーン表示に分割する方法及び装置
JP2003099302A (ja) * 2001-09-21 2003-04-04 Ricoh Co Ltd 文書変換サービス方法、文書のデータ構造、記憶媒体及び情報処理装置
WO2004006131A1 (en) * 2002-07-02 2004-01-15 Telefonaktiebolaget Lm Ericsson (Publ) An arrangement and a method relating to access to internet content
JP2004128823A (ja) * 2002-10-02 2004-04-22 Nec Corp 携帯電話機、情報提供サービス局、携帯電話システム及び音声・文字同時通信方法並びにそのプログラム
JP2005012295A (ja) * 2003-06-17 2005-01-13 Aruze Corp 情報管理システム
JP2005141360A (ja) * 2003-11-05 2005-06-02 Matsushita Electric Ind Co Ltd 遠隔制御システム及び遠隔制御方法

Also Published As

Publication number Publication date
WO2006135844A2 (en) 2006-12-21
KR101008764B1 (ko) 2011-01-14
US20060282774A1 (en) 2006-12-14
EP1889484A2 (en) 2008-02-20
US9955205B2 (en) 2018-04-24
KR20080014843A (ko) 2008-02-14
WO2006135844A3 (en) 2007-03-08

Similar Documents

Publication Publication Date Title
US9955205B2 (en) Method and system for improving interactive media response systems using visual cues
US8687016B2 (en) Method and system for enhancing the quality of video prompts in an interactive media response system
US10187668B2 (en) Method, system and server for live streaming audio-video file
US7643422B1 (en) Dynamic trans-framing and trans-rating for interactive playback control
EP4099703A2 (en) Switching between transmitting a preauthored video frame and a composited video frame
US6816909B1 (en) Streaming media player with synchronous events from multiple sources
US11516518B2 (en) Live streaming with live video production and commentary
US20140375754A1 (en) Flow-control based switched group video chat and real-time interactive broadcast
US20110158235A1 (en) Stream delivery system, call control server, and stream delivery control method
KR20180031547A (ko) 서버에서 멀티 비트 레이트 스트림 미디어를 적응적으로 제공하기 위한 방법 및 장치
US20070047590A1 (en) Method for signaling a device to perform no synchronization or include a synchronization delay on multimedia stream
CN102143382A (zh) 用于提供终端中的广播流的暂停功能的装置和方法
US10887646B2 (en) Live streaming with multiple remote commentators
CN113141522B (zh) 资源传输方法、装置、计算机设备及存储介质
US20030153265A1 (en) Video and graphics distribution system for mobile users
US8493429B2 (en) Method and terminal for synchronously recording sounds and images of opposite ends based on circuit domain video telephone
CN113014950A (zh) 一种直播同步的方法、系统和电子设备
Basso Beyond 3G video mobile video telephony: The role of 3G-324M in mobile video services
Kumar et al. An approach to adaptive user interfaces using interactive media systems
WO2024180009A1 (en) Display apparatus and method
KR101378092B1 (ko) 스트리밍 데이터 스킵 탐색 방법 및 장치
CN116248640A (zh) 呼叫处理方法、装置及计算机设备
Roy et al. Time Scale Modification for 3G-Telephony Video
KR20090118191A (ko) 스트리밍 데이터 재생 방법 및 단말기

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101014

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101019

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110118

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110304

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110412