JP2004530158A - プレゼンテーションの再生速度の実時間制御 - Google Patents
プレゼンテーションの再生速度の実時間制御 Download PDFInfo
- Publication number
- JP2004530158A JP2004530158A JP2002588049A JP2002588049A JP2004530158A JP 2004530158 A JP2004530158 A JP 2004530158A JP 2002588049 A JP2002588049 A JP 2002588049A JP 2002588049 A JP2002588049 A JP 2002588049A JP 2004530158 A JP2004530158 A JP 2004530158A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- frame
- channel
- data
- presentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Abstract
メディアの符号化、送信、および再生のプロセスならびに構造は、マルチチャネルアーキテクチャを使用する。このマルチチャネルアーキテクチャは、ネットワークを介して送信されるプレゼンテーションの種々の再生速度に対応する種々のオーディオチャネルを有する。さまざまなオーディオチャネルのオーディオフレームは、すべて、オリジナルのプレゼンテーションにおける同じ時間量に対応し、これら種々のオーディオチャネルにおいて、プレゼンテーションの同じ時間間隔に対応するフレームを特定するフレームインデックスを有する。ユーザは、再生速度の実時間の変更を行うことができる。これにより、新しい再生速度に対応するチャネルが選択され、プレゼンテーションの再生速度の迅速かつ円滑な移り変わりに必要なフレームが選択される。これに加えて、このアーキテクチャは、オーディオのインデックスに従って表示される画像データといったグラフィックスデータ用のチャネル、および、同じ再生速度ではあるが、ネットワークの利用可能な帯域幅に応じて使用される異なる圧縮方式を有する異なるオーディオチャネルを提供することができる。
Description
【技術分野】
【0001】
本発明は、プレゼンテーションの再生速度の実時間制御に関する。
【背景技術】
【0002】
マルチメディアプレゼンテーションは、一般に、ビデオの動きおよびオーディオの音が自然になるように、その記録速度で提供される。しかしながら、研究では、人々が、通常の会話速度よりもずっと早い速度の再生速度、例えば、通常の会話速度の3倍以上の速度で、オーディオ情報を知覚でき、かつ、理解できることが示されている。そして、通常の会話速度より速い速度でオーディオ情報を受け取ることは、プレゼンテーションのユーザにとって、かなりの時間の節約になる。
【0003】
オーディオ信号の再生速度を単純に高速にすること、例えば、デジタルオーディオ信号から再生されるサンプルの速度を増加することは、望ましくない。その理由は、再生速度の増加により、オーディオのピッチが変化し、この変化は、情報を聞き取り難くし、かつ、理解し難くするからである。したがって、オーディオ信号のピッチを上げることなくオーディオ情報の情報転送速度を増加させる時間縮尺オーディオ技法が、開発されている。デジタルオーディオ信号用の連続可変信号処理方式は、2000年7月26日に出願された「Continuously Variable Scale Modification of Digital Audio Signals」という発明の名称の米国特許出願第09/626,046号に記述されている。この出願は、参照によりその全体が本明細書に援用される。
【0004】
ユーザにとって望ましい便利なものは、例えば、情報の複雑さ、ユーザが聞き取りに専念したい意識の度合い、またはオーディオの品質に応じて、情報の速度を変更できる機能であろう。デジタルオーディオの再生のオーディオ情報速度を変更する1つの技法は、送信機が送信するデジタルデータの速度をそれに応じて変更し、そのデータを必要に応じて処理または変換する受信機のプロセッサまたはコンバータを用いて、オーディオのピッチを維持することである。
【0005】
上記技法は、電話網、LAN、またはインターネットといったネットワークを介して情報を搬送するシステムで実施するには、困難な場合がある。特に、ネットワークは、情報源からユーザへの送信のデータ転送速度を変更する機能を欠いている場合があり、この機能は、オーディオ情報速度の変更に必要となる。未処理のオーディオデータを送信し、受信機で時間縮尺することは、非効率的であり、不要な負荷を利用可能な帯域幅に与える。その理由は、ピッチの修復を伴う時間縮尺のプロセスにより、送信データの多くが廃棄されるからである。さらに、この技法では、受信機が、再生されるオーディオのピッチを維持できるプロセッサまたはコンバータを有することが必要になる。ハードウェアのコンバータは、受信機のシステムのコストを増加させる。あるいは、ソフトウェアのコンバータは、特に、処理電力および/またはバッテリ電力が制限され得るポータブルコンピュータ、携帯情報端末(PDA)、および携帯電話では、受信機の利用可能な処理電力および/またはバッテリ電力の大部分を要求する可能性がある。
【0006】
ビデオを含むネットワークプレゼンテーションについての別の一般的な問題は、ネットワークが、オーディオ−ビデオプレゼンテーションを必要な速度に維持できないことである。一般に、十分なネットワーク帯域幅が不足すると、オーディオ−ビデオプレゼンテーションに、断続的な中断または一時停止が発生する。これらのプレゼンテーションの中断は、プレゼンテーションを続けることを困難にする。別の方法として、ネットワークプレゼンテーションの画像を、ユーザがそのユーザの速度でナビゲーションできる、リンクされた一連のウェブページまたはスライドとして編成することができる。しかしながら、ネットワークプレゼンテーションの中には、例えば、個別指導や試験、さらにはコマーシャルのように、プレゼンテーションの視覚部分と聴覚部分とのタイミング、シーケンス、または同期が、プレゼンテーションを首尾よく行うことにとって重要となるものがある。
【0007】
順序付けられた、かつ、途切れない方法でプレゼンテーションを提供できるプロセスおよびシステムであって、かつ、情報を転送するネットワークの能力を上回ることなく、また、ユーザが特別なハードウェアを持つことも大量の処理電力を持つことも必要とすることなく、情報速度の選択および変更の自由度をユーザに与えることができるプロセスおよびシステムが求められている。
【発明の開示】
【0008】
本発明の一態様によると、電話網、LAN、またはインターネットといったネットワークを介して送信されるデジタルプレゼンテーションの情報源が、そのプレゼンテーションを、複数のチャネルを有するデータ構造に前もって符号化する。各チャネルは、プレゼンテーションの異なる符号化の部分を収容し、当該部分は、そのプレゼンテーションの時間縮尺および/またはデータ圧縮に従って変化する。
【0009】
具体的な一実施の形態では、プレゼンテーションのオーディオ部分は、チャネルの時間縮尺およびデータ圧縮に応じて、数チャネルに異なって符号化される。各符号化は、プレゼンテーションをオーディオフレームに分割する。それらのオーディオフレームは、そのフレームインデックス値に応じた既知の時間関係を有する。したがって、ユーザが、再生速度を変更すると、データストリームは、現在のチャネルから新しい時間縮尺に対応するチャネルに切り換わり、現在のフレームインデックスに従って、その新しいチャネルからのフレームにアクセスする。
【0010】
一実施の形態では、各フレームは、通常速度で再生された場合におけるプレゼンテーションの一定の時間帯に対応する。したがって、各チャネルは、同じ個数のフレームを有し、各フレームの情報は、そのフレームのフレームインデックスが特定する時間間隔に対応する。情報源は、プレゼンテーションの再生のために、現在のタイムインデックスに対応し、かつ、ユーザの選択した再生速度に対応するチャネルに存在するフレームを送信する。
【0011】
本発明の別の特徴によると、ファイル構造の2つまたは3つ以上のチャネルは、同じ再生速度に対応するが、チャネル内のデータに適用されたそれぞれの圧縮プロセスが異なる。情報源または受信機は、ユーザが選択した再生速度に対応するチャネルであって、受信機にデータを運ぶネットワークにおいて利用可能な送信帯域幅を超えないチャネルを自動的に選択することができる。
【0012】
本発明のさらに別の態様によると、プレゼンテーションは、ブックマークおよび関連するグラフィックスデータを含む。グラフィックスデータは、例えば、オーディオデータと関連したチャネルとは別に符号化される画像データといったものである。各ブックマークは、フレームインデックスまたは時間の関連する範囲を有する。表示アプリケーションは、ユーザが、任意のブックマークと関連した範囲の開始点にジャンプすることを可能にする。情報源は、適切な時刻、通常は次のオーディオフレームの開始時刻に、使用(例えば表示)のために、ブックマークのデータ(例えば、グラフィックスデータ)を、ネットワークを介してユーザに送信する。
【0013】
本発明の別の実施の形態は、作者に、グラフィックスを有するプレゼンテーションの構築を可能にするオーサリングツールまたはオーサリング方法である。このグラフィックスは、例えば、オーディオの内容に従って同期して表示されるテキスト、スライド、またはウェブページである。この同期は、オーディオの再生速度に関係なく維持される。このオーサリングツールは、コマーシャルや私信に使用することができる。また、このオーサリングツールは、HTTPといった従来のネットワークファイルプロトコルを実施する任意のネットワークサーバにアップロードでき、かつ、このようなサーバから利用できるプレゼンテーションを作成する。
【0014】
本発明によるプレゼンテーションを用いると、プレゼンテーションの作者または情報源は、画像のシーケンスおよび画像のオーディオとの同期を制御することができる。これに加えて、プレゼンテーションは、従来のストリーミングされるビデオに対して狭帯域の選択肢を提供する。特に、ビデオの送信をサポートできない狭帯域システムは、通常、プレゼンテーションのオーディオ部分をサポートでき、プレゼンテーションの重要ポイントを示す視覚的な合図を提供する必要がある場合に、画像を表示することができる。
【発明を実施するための最良の形態】
【0015】
各種図面において、同じ参照シンボルの使用は、類似のアイテムまたは同一のアイテムを指し示している。
【0016】
[実施の形態]
本発明の一態様によると、メディア符号化プロセスおよび構造、ネットワーク送信プロセスおよび構造、ならびに再生プロセスおよび構造は、マルチチャネルアーキテクチャを使用する。このマルチチャネルアーキテクチャでは、異なるチャネルは、プレゼンテーションの一部の異なる再生速度または異なる時間縮尺に対応する。プレゼンテーションの符号化プロセスは、例えばプレゼンテーションのオーディオ部分といった同じ部分の複数の符号化を使用する。したがって、異なるチャネルは、たとえ、プレゼンテーションの同じ部分を表現していても、異なる再生速度または異なる時間縮尺用に異なる符号化を有する。
【0017】
プレゼンテーションの受信機またはユーザは、再生速度または時間縮尺を選択することができ、これにより、その時間縮尺に対応するチャネルの使用を選択する。選択されたチャネルは、選択された時間縮尺用に前もって符号化された情報を含むことから、受信機は、所望の時間縮尺を実現するのに複雑なデコーダも強力なプロセッサも必要としない。さらに、オーディオデータを前もって符号化するか、または、時間縮尺することにより、冗長なオーディオデータは、送信前に除去されるので、受信機が時間縮尺を実行するシステムのように、必要なネットワーク帯域幅が増加することはない。したがって、帯域幅の要求値は、時間縮尺に関係なく、一定にすることができる。
【0018】
各チャネルは、プレゼンテーションの順序に従ってインデックスされる一連のフレームを含む。ユーザが、あるチャネルから別のチャネルに変更した場合において、プレゼンテーションを連続的に途切れなく再生する必要があるときは、その新しいチャネルからのフレームを特定して、送信することができる。例示的な実施の形態では、異なるオーディオチャネルの対応するオーディオフレーム同士は、通常の速度で再生された場合に、同じプレゼンテーションの時間量に対応し、プレゼンテーションの特定の時間間隔に対応して、フレームを特定するフレームインデックスを有する。ユーザは、再生速度を変更して、新しい再生速度に対応するチャネルからフレームを選択および送信を行わせることができる。そして、そのユーザは、プレゼンテーションが、その再生速度において実時間で移り変わる必要がある場合に、そのフレームを受信する。
【0019】
このアーキテクチャはさらに、例えば、テキスト、画像、HTML記述、およびネットワーク上で利用可能な情報のリンクまたは他の識別子といったグラフィックスデータのためのデータチャネルを提供することができる。情報源は、プレゼンテーションの特定のブックマークにジャンプするユーザのリクエストまたはプレゼンテーションのタイムインデックスに従って、グラフィックスデータを送信する。ファイルヘッダは、ブックマークを記述する情報をユーザに提供することができる。
【0020】
さらに、このアーキテクチャは、異なるオーディオチャネルに、同じ再生速度ではあるが、ネットワークの送信データの状況に応じて使用される異なる圧縮方式を提供することができる。
【0021】
図1は、本発明の実施の形態によるマルチチャネルメディアファイル190を生成するプロセス100を示している。プロセス100は、オリジナルのオーディオデータ110から開始する。このオリジナルのオーディオデータ110は、どのようなフォーマットであってもよい。例示的な実施の形態では、オリジナルのオーディオデータ110は、「.wav」ファイルであり、このファイルは、オーディオ信号の波形を表す一連のデジタルサンプルである。
【0022】
オリジナルのオーディオデータ110に対して実行されるオーディオ時間縮尺プロセス120は、時間縮尺されたデジタルオーディオデータの複数のセットTSF1、TSF2、およびTSF3を生成する。時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3は、再生時にオリジナルのオーディオのピッチを維持するように時間縮尺されるが、各データセットTSF1、TSF2、またはTSF3は、異なる時間縮尺を有する。したがって、各セットの再生は、異なる時間量を要する。
【0023】
一実施の形態では、オーディオデータセットTSF1は、オリジナルのオーディオデータ110の記録速度での再生用データに対応し、オリジナルのオーディオデータ110と同一であってもよい。オーディオデータセットTSF2およびTSF3は、それぞれ、記録速度の2倍の速度および3倍の速度での再生用データに対応する。通常、オーディオデータセットTSF2およびTSF3は、一定のサンプリング速度で再生するために、より少ないオーディオサンプルを含むので、オーディオデータセットTSF1より小さいであろう。図1は、3つの時間縮尺されたデータセットを示しているが、オーディオ時間縮尺符号化120は、対応する再生速度を有する任意の個数の時間縮尺されたオーディオデータセットを生成することができる。例えば、1と4との間の半整数の倍数の記録速度に対応する7つのセットを生成することができる。より一般的には、プレゼンテーションの作者は、どの時間縮尺がユーザに利用可能であるかを選択することができる。
【0024】
オーディオ時間縮尺プロセス120は、任意の所望の時間縮尺技法とすることができ、例えばSOLAベースの時間縮尺プロセスであってもよい。また、オーディオ時間縮尺プロセス120は、時間縮尺されたそれぞれのオーディオデータセットTSF1、TSF2,またはTSF3に対して、その時間縮尺率に応じて異なる時間縮尺技法を含むことができる。通常、オーディオ時間縮尺プロセス120は、入力パラメータとして時間縮尺率を使用し、生成される各データセット用にこの時間縮尺率を変更する。本発明の例示的な実施の形態は、米国特許出願第09/626,046号(上記のように参照により援用される)に記述されているような連続可変符号化プロセスを使用するが、他の任意の時間縮尺プロセスを使用することができる。
【0025】
オーディオ時間縮尺プロセス120の後、分割プロセス140が、時間縮尺されたオーディオデータセットTSF1、TSF2,およびTSF3のそれぞれをオーディオフレームに分割する。本発明の例示的な実施の形態では、各オーディオフレームは、オリジナルのオーディオデータ110の同じ時間間隔(例えば0.5秒間)に対応する。したがって、データセットTSF1、TSF2、およびTSF3のそれぞれは、同じ個数のオーディオフレームを有する。最も大きな時間縮尺率によって時間縮尺されたオーディオデータセットのオーディオフレームは、再生時間が最も短く、一般に、より小さな時間縮尺率によって時間縮尺されたオーディオデータセットのフレームよりも小さい。
【0026】
他の代わりとなる分割プロセスを使用することができる。一実施の形態では、分割プロセス140は、時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3のそれぞれを、同じ再生所要時間を有するオーディオフレームに分割する。この実施の形態では、異なるチャネルのオーディオフレームは、ほぼ同じサイズを有することになるが、異なるチャネルは、異なる個数のフレームを含むことになる。したがって、再生速度の変更時には、異なるフレームの対応するオーディオ情報を特定することが必要となるが、この特定は、例示的な実施の形態よりもこの実施の形態の方がより複雑となる。
【0027】
分割プロセス140の後、オーディオデータ圧縮プロセス150が、各フレームを個別に圧縮する。オーディオデータ圧縮プロセス150の結果として生成される、圧縮されたオーディオフレームは、圧縮されたオーディオファイルTSF1−C1、TSF2−C1、TSF3−C1、TSF1−C2、TSF2−C2、およびTSF3−C2に収集される。これらの圧縮されたオーディオファイルを、集合的に圧縮オーディオファイル160と呼ぶ。圧縮されたオーディオファイルTSF1−C1、TSF2−C1、およびTSF3−C1は、すべて、第1の圧縮方法に対応し、それぞれ、時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3に対応する。圧縮されたオーディオファイルTSF1−C2、TSF2−C2、およびTSF3−C2は、すべて、第2の圧縮方法に対応し、それぞれ、時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3に対応する。
【0028】
図1に示す本発明の特徴によると、オーディオデータ圧縮プロセス150は、時間縮尺されたオーディオデータの各フレームに対して、2つの異なるデータ圧縮方法またはデータ圧縮因子を使用する。代替的な実施の形態では、オーディオデータ圧縮プロセス150は、時間縮尺されたオーディオデータの各フレームに対して、任意数のデータ圧縮方法を使用することができる。多種多様の適切なデータ圧縮方法が、利用可能であり、当該技術において周知である。適切なオーディオ圧縮方法の例には、離散コサイン変換(DCT)方法およびMPEG規格で定義されている圧縮プロセスならびにカリフォルニア州サンタクララのDSPグループが提供しているTruespeechといった特定の実施が含まれる。別の代替的な実施の形態として、オーディオ時間縮尺120、フレーム化140、および圧縮150を、効率的な圧縮または比較的小さなオーディオフレーム用にカスタマイズされた単一の混成手順に統合するプロセスが、開発されてもよい。
【0029】
圧縮されたオーディオファイルTSF1−C1、TSF1−C2、TSF2−C1、TSF2−C2、TSF3−C1、およびTSF3−C2のそれぞれは、マルチチャネルメディアファイル190の異なるオーディオチャネルに対応する。マルチチャネルメディアファイル190は、ブックマーク180と関連したデータをさらに含む。
【0030】
マルチチャネルメディアファイル190の作成中に行われる作者入力170は、マルチチャネルメディアファイル190に含まれるブックマークを選択する。一般に、各ブックマークは、関連する時間の範囲またはフレームインデックスの範囲、識別データ、およびプレゼンテーションデータを含む。プレゼンテーションデータのタイプの例には、これらに限定されるわけではないが、テキストを表すデータ182、画像184、組み込みHTMLドキュメント186、およびウェブページへのリンク188またはネットワーク上で利用可能な他の情報が含まれ、これらは、関連する時間の範囲またはフレームインデックスの範囲に対応する時間間隔の間、プレゼンテーションの一部として表示される。識別データは、さまざまなブックマークを、ユーザがジャンプできるプレゼンテーションの場所と特定するか、または、区別する。
【0031】
本発明の実施の形態によっては、作者入力170は、マルチチャネルメディアファイル190の生成に必要でない場合がある。例えば、マルチチャネルファイル190は、1つまたは複数のボイスメールメッセージを表すオリジナルのオーディオデータ110から生成することができる。ブックマークは、これらのメッセージ間のナビゲーション用に作成することができるが、このようなメッセージは、一般に、関連する画像も、HTMLページも、ウェブページも必要としない。ボイスメールシステムは、ユーザのボイスメール用のマルチチャネルファイルを自動的に生成することができ、これらメッセージの再生速度のユーザ制御を可能にする。電話網でマルチチャネルファイルを使用すると、携帯電話のような受信機が、再生速度の変更の際に処理電力または電池電力を浪費する必要性が回避される。
【0032】
図2A、図2B、図2C、図2D、および図2Eは、マルチチャネルメディアファイル190の適切なフォーマットを示している。これらの図については、以下にさらに説明する。この説明されるフォーマットは、例にすぎず、データ構造体のサイズ、順序、および内容において、広く変更される。
【0033】
最も広く概観すると、図2Aに示すように、マルチチャネルメディアファイル190は、ファイルヘッダ210、N個のオーディオチャネル220−1から220−N、およびM個のデータチャネル230−1から230−Mを含む。ファイルヘッダ210は、ファイルを特定し、チャネル220−1から220−N内のオーディオフレームおよびチャネル230−1から230−M内のデータフレームのテーブルを含む。オーディオチャネル220−1から220−Nは、さまざまな時間縮尺および圧縮方法のオーディオデータを含み、データチャネル230−1から230−Mは、ブックマーク情報および表示用の組み込みデータを含む。
【0034】
図2Bは、ファイルヘッダ210の実施の形態を表している。この実施の形態では、ファイルヘッダ210は、マルチチャネルメディアファイル190を特定するファイル情報212およびファイルの全体的な特性を含む。特に、ファイルヘッダ210は、ユニバーサルファイルID、ファイルタグ、ファイルサイズ、およびファイル状態フィールド、ならびにオーディオチャネル220−1から220−Nおよびデータチャネル230−1から230−Mの個数、これらのチャネルへのオフセット、およびこれらのチャネルのサイズを示すチャネル情報を含むことができる。
【0035】
ファイルヘッダ210のユニバーサルIDは、マルチチャネルファイル190の内容を示し、かつ、この内容によって決定される。ユニバーサルIDは、マルチチャネルメディアファイル190の内容から生成することができる。64バイトのユニバーサルIDを生成する1つの方法は、マルチチャネルファイル190の64バイトの部分に一連のXOR演算を実行する。ユニバーサルファイルIDは、プレゼンテーションのユーザが、あるセッション中、プレゼンテーションを開始し、そのセッションを一時中断し、後にそのプレゼンテーションの使用を再開したい場合に役に立つ。後にさらに説明するように、マルチチャネルメディアファイル190は、1つまたは2つ以上のリモートサーバに記憶されてもよく、サーバのオペレータは、そのプレゼンテーションの名前を移動するか、または、変更することができる。ユーザが、オリジナルのサーバまたは別のサーバ上で2番目のセッションの開始を試みると、プレゼンテーションがセッション間で移動されたか、または、改名されたとしても、そのサーバ上のファイルからのユニバーサルIDヘッダが、ユーザのシステムにキャッシュされたユニバーサルIDと比較され、そのプレゼンテーションが前に開始されたものであることを確認することができる。ユニバーサルIDの別の使用法として、ユニバーサルIDは、サーバ上で正しいプレゼンテーションの位置を突き止めるために使用することができる。ユーザのシステムが、最初のセッション中にキャッシュしたかもしれないオーディオフレームおよび他の情報は、その後、2番目のセッションの再開時に用いることができる。
【0036】
また、ファイルヘッダ210は、マルチチャネルファイル190のすべてのフレームのリストまたはテーブルも含む。図示した例では、ファイルヘッダ210は、各フレームについてのチャネルインデックス213、フレームインデックス214、フレームタイプ215、オフセット216、フレームサイズ217、およびステータスフィールド218を含む。チャネルインデックス213およびフレームインデックス214は、チャネル、および、フレームの表示時刻を特定する。フレームタイプは、例えば、データまたはオーディオ、圧縮方法、およびオーディオフレームの時間縮尺といったフレームのタイプを示す。オフセット216は、マルチチャネルメディアファイル190の開始点から、関連するフレームの開始点までのオフセットを示す。フレームサイズ217は、そのオフセットにおけるフレームのサイズを示す。
【0037】
以下にさらに説明するように、ユーザのシステムは、通常、サーバから当該ユーザのシステムにファイルヘッダ210をロードする。ユーザのシステムは、特定のフレームをサーバに要求する場合に、オフセット216およびサイズ217を用いることができ、また、ステータスフィールド218を用いて、どのフレームがユーザのシステムにバッファされるか、または、キャッシュされるかを追跡することができる。
【0038】
図2Cは、オーディオチャネル220のフォーマットを示している。オーディオチャネル220は、チャネルヘッダ222およびK個の圧縮オーディオフレーム224−1から224−Kを含む。チャネルヘッダ222は、チャネルに関する全体的な情報を含む。この情報には、例えば、チャネルタグ、チャネルオフセット、チャネルサイズ、およびステータスフィールドが含まれる。チャネルタグは、そのチャネルの時間縮尺および圧縮方法を特定することができる。チャネルオフセットは、マルチチャネルファイル190の開始点からそのチャネルの開始点までのオフセットを示す。チャネルサイズは、そのオフセットで開始するチャネルのサイズを示す。
【0039】
例示的な実施の形態では、すべてのオーディオチャネル220−1から220−Nは、K個のオーディオフレーム224−1から224−Kを有するが、それらフレームのサイズは、一般に、そのフレームと関連した時間縮尺、そのフレームに適用された圧縮方法、およびその圧縮方法が特定のフレームのデータに対してどれだけ良く機能したかに応じて変化する。図2Dは、オーディオフレーム224の一般的なフォーマットを示している。オーディオフレーム224は、フレームヘッダ226およびフレームデータ228を含む。フレームヘッダ226は、フレームインデックス、フレームオフセット、フレームサイズ、およびフレームステータスといったフレームの特性を記述する情報を含む。フレームデータ228は、オリジナルのオーディオから生成される、実際の時間縮尺され、圧縮されたデータである。
【0040】
データチャネル230−1から230−Mは、ブックマークと関連したデータのためのものである。例示的な実施の形態では、各データチャネル230−1から230−Mが、ある特定のブックマークに対応する。あるいは、単一のデータチャネルが、ブックマークと関連したすべてのデータを含むことができ、その結果、Mは1と等しくなる。マルチチャネルメディアファイル190の別の代替的な実施の形態は、例えば、テキスト、画像、HTMLページ記述、およびリンクとそれぞれ関連した4つのデータチャネルといったように、ブックマークの1つのタイプにつき1つのデータチャネルを有する。
【0041】
図2Eは、マルチチャネルメディアファイル190のデータチャネル230の適切なフォーマットを示している。データチャネル230は、データヘッダ232および関連データ234を含む。データヘッダ232は、一般に、オフセット、サイズ、およびタグ情報といったチャネル情報を含む。これに加えて、データヘッダ232は、ブックマークに対応する時刻またはオーディオフレームのセットを指定する時間の範囲または開始フレームインデックスおよび停止フレームインデックスを特定することができる。
【0042】
図3は、上述したようなマルチチャネルメディアファイル190を生成する際に使用されるオーサリングツールのユーザインタフェース300を示している。このオーサリングツールでは、プレゼンテーションを生成する時に、ブックマーク作成用の入力170およびオリジナルのオーディオデータ110への視覚情報の添付を行うことが可能である。一般に、オーディオが、通常の速度よりも速い速度で再生される場合に、適切な視覚情報を追加することは、プレゼンテーションの理解を非常に容易にすることができる。その理由は、視覚情報が、プレゼンテーションのオーディオ部分の理解への手掛かりを提供するからである。さらに、オーディオにグラフィックスを接続することにより、順序付けた形式でのグラフィックスのプレゼンテーションが可能となる。
【0043】
ユーザインタフェース300は、オーディオウィンドウ310、視覚表示ウィンドウ320、スライドバー330、マークリスト340、マークデータウィンドウ350、マークタイプリスト360、およびコントロール370を含む。
【0044】
オーディオウィンドウ310は、時間の範囲の間、オリジナルのオーディオデータ110のすべてまたは一部を表す波を表示する。作者が、プレゼンテーションを見直す場合、オーディオウィンドウ310は、オリジナルのオーディオ110に関連するタイムインデックスを示す。作者は、マウスまたは他のデバイスを用いて、オリジナルのオーディオデータ110の開始点に関連した任意の時刻または時間の範囲を選択する。視覚表示ウィンドウ320は、オリジナルのオーディオ110で現在選択されているタイムインデックスと関連した画像または他の視覚情報を表示する。スライドバー330およびマークリスト340は、それぞれ、サムネイルスライドおよびブックマーク名を含む。作者は、マークリスト340の対応するブックマークを選択することにより、改訂のために、ある特定のブックマークを選択することができるか、または、スライドバー330の対応するスライドを選択することにより、プレゼンテーション内を、ブックマークと関連したタイムインデックスへ簡単にジャンプすることができる。
【0045】
ブックマークを追加するために、作者は、オーディオウィンドウ310、スライドバー330、またはマークリスト340を用いて、ブックマークの開始時刻を選択し、マークタイプリスト360を用いて、ブックマークのタイプを選択し、コントロール370を用いて、選択された時刻に選択されたタイプのブックマークを追加するプロセスを開始する。ブックマークの追加の詳細は、一般に、ブックマークと関連した情報のタイプによって決定される。例示の目的で、ブックマークと関連した組み込み画像の追加を以下に説明するが、ブックマークと関連付けることができる情報のタイプは、組み込み画像に限定されるわけではない。
【0046】
組み込み画像を追加するには、作者が、その画像を表すデータまたはファイルを選択することが必要である。画像データは、任意のフォーマットを有することができるが、狭帯域通信リンクを介した送信に適していることが好ましい。一実施の形態では、組み込み画像は、例えばMicrosoft PowerPointを用いて作成されるようなスライドである。オーサリングツールは、マルチチャネルメディアファイル190のデータチャネルに画像データを組み込むか、または、記憶する。
【0047】
作者は、ブックマークに、マークリスト340に表示されることになる名前を与え、そのブックマークと関連したオーディオフレームインデックスの値の範囲(すなわち、開始時刻および終了時刻)および画像データを設定するか、または、変更することができる。プレゼンテーションが再生されると、視覚表示ウィンドウ320は、ブックマークと関連した範囲にあるフレームインデックスを持ったあらゆるオーディオフレームの再生中に、ブックマークと関連した画像を表示する。
【0048】
オーサリングツールは、ブックマークと関連した画像に基づくサムネイル画像をスライドバー330に追加する。作者が、マルチチャネルファイルを作成すると、ブックマークの名前、オーディオインデックスの範囲、およびサムネイルデータが、マルチチャネルメディアファイル190において、マルチチャネルメディアファイル190の特定のフォーマットに依存した場所、例えば、ファイルヘッダ210またはデータチャネルヘッダ232に、識別データとして記憶される。以下にさらに説明するように、ユーザのシステムをプレゼンテーション用に初期化する処理には、ユーザがプレゼンテーションにおいてブックマークの場所にジャンプする時に使用するマークリストおよびスライドバーへのアクセス、および、これらマークリストおよびスライドバーの表示が含まれることがある。
【0049】
テキスト、HTMLページ、またはネットワークデータ(例えばウェブページ)へのリンクといった他のタイプのグラフィックスデータと関連したブックマークは、同様の方法で、組み込み画像データと関連したブックマークに追加される。さまざまなタイプのグラフィックスデータに対して、マークデータウィンドウ350は、そのグラフィックスデータを、視覚表示ウィンドウ320でのそのデータの外観以外の形式で表示することができる。例えば、マークデータウィンドウ350は、テキスト、HTMLコード、またはリンクを含むことができるのに対し、視覚表示ウィンドウ320は、テキスト、HTMLページ、またはウェブページのそれぞれの外観を示す。
【0050】
作者は、ブックマークおよび関連する情報の追加を完了した後、例えば、図1に示すように、コントロール370を用いて、マルチチャネルファイル190の作成を行う。作者は、マルチチャネルファイルのオーディオに利用可能であろう1つまたは2つ以上の時間縮尺を選択することができる。
【0051】
図4は、本発明の実施の形態による、プレゼンテーションを見るためのシステムのユーザインタフェース400を示している。ユーザインタフェース400は、表示ウィンドウ420、スライドバー430、マークリスト440、情報源リスト450、およびコントロールバー470を含む。情報源ウィンドウ450は、ユーザの選択用に、プレゼンテーションのリストを提供し、現在選択されているプレゼンテーションを示す。
【0052】
コントロールバー470は、プレゼンテーションの一般的な制御を可能にするものである。例えば、ユーザは、プレゼンテーションの開始もしくは停止、プレゼンテーション速度のアップもしくはスローダウン、通常速度への切り換え、早送りもしくは高速巻き戻し(すなわち、前後の一定時間へのジャンプ)、またはプレゼンテーションのすべてもしくは一部の自動リピートの起動を行うことができる。
【0053】
スライドバー430およびマークリスト440は、ブックマークを特定し、ユーザがプレゼンテーション内のブックマークにジャンプすることを可能にする。
【0054】
表示ウィンドウ420は、オーディオと同期したテキスト、画像、HTMLページ、またはウェブページといった視覚的コンテンツのためのものである。適切に選択された視覚的コンテンツによって、プレゼンテーションのユーザは、たとえオーディオが高速に再生されても、オーディオの内容をより簡単に理解することができる。
【0055】
図5は、図4のユーザインタフェースを有するプレゼンテーション再生装置を実施する模範的なプロセス500のフローチャートである。プロセス500は、コンピュータシステムにおいて、ソフトウェアまたはファームウェアにより実施することができる。ステップ510で、プロセス500は、イベントを取得する。このイベントは、図4のユーザインタフェースを介したイベントでない場合もあるし、図4のユーザインタフェースを介したユーザの選択の場合もある。
【0056】
判定ステップ520は、ユーザが、新しいプレゼンテーションを開始したかどうかを判断する。新しいプレゼンテーションは、そのヘッダ情報がキャッシュされていないプレゼンテーションである。ユーザが、新しいプレゼンテーションを開始した場合には、プロセス500は、ステップ522でプレゼンテーションの情報源と接触し、ファイルヘッダ情報を要求する。この情報源は、通常、インターネットといったネットワークを介してユーザのコンピュータに接続されたサーバのようなデバイスであろう。
【0057】
情報源が、要求されたヘッダ情報を返信すると、ステップ524は、プレゼンテーションのフレームの要求およびバッファリングといった動作の制御の必要に応じて、このヘッダ情報をロードする。特に、ステップ526は、別のプレゼンテーションのフレームまたはデータを含んでいたかもしれない再生バッファをリセットする。
【0058】
ステップ526が、再生バッファをリセットした後、ステップ550は、再生バッファを維持する。一般に、ステップ550による再生バッファの維持は、ユーザがフレームインデックスも再生速度も変更しないならば連続して再生される一連のオーディオフレームを特定すること、その一連のオーディオフレームのいずれが、フレームキャッシュ内で利用可能であるかを判断すること、およびその一連の中には存在するがフレームキャッシュには存在しないオーディオフレームについて、情報源に要求を送信することにより行われる。
【0059】
本発明のインターネットによる実施の形態では、プロセス500は、特定のフレームまたはデータをサーバに要求する際に、周知のHTTPプロトコルを使用する。したがって、サーバは、プレゼンテーションを提供するのに、特殊化されたサーバアプリケーションを必要としない。一方で、代替的な実施の形態は、サーバアプリケーションを用いて、ユーザと通信し、ユーザにデータをプッシュすることによって、より良い性能を提供することができる。
【0060】
ユーザが、情報源からオーディオフレームを受信すると、プロセス500は、オーディオフレームをバッファリングするか、または、キャッシュするが、オーディオフレームが、再生予定の一連のものである場合には、そのオーディオフレームについては、再生バッファにキューイングするだけである。再生予定のオーディオフレームが、再生バッファにキューイングされると、ステップ560は、再生バッファのフレームから解凍されたデータストリームを用いて、オーディオ出力を維持する。オーディオストリームが、あるフレームインデックスから次のフレームインデックスに切り換わる時に、必要なオーディオフレームが利用可能でない場合には、プロセス500は、プレゼンテーションを一時停止する。
【0061】
ステップ570は、ビデオ表示を維持する。アプリケーション500は、プレゼンテーションのヘッダに示される場所にグラフィックスデータを要求する。特に、グラフィックスデータが、マルチチャネルファイルに組み込まれたテキスト、画像またはHTMLページを表す場合に、プロセス500は、情報源にグラフィックスデータを要求し、そのタイプに応じてそのグラフィックスデータを解釈する。グラフィックスデータが、マルチチャネルファイルのリンクによって特定されるウェブページのようなネットワークデータである場合には、プロセス500は、そのリンクにアクセスして、表示用のネットワークデータを取り出す。ネットワークの状態または他の問題により、グラフィックスデータが、必要な時に利用できなくなると、プロセス500は、プレゼンテーションのオーディオ部分を維持し続ける。これにより、ネットワークトラフィックが高い場合にプレゼンテーションの全部が中断することが回避される。
【0062】
ステップ580で、プロセス500は、ネットワークトラフィックの量または利用可能な帯域幅の量を求める。ネットワークトラフィックまたは帯域幅は、情報源が、要求された任意の情報を提供する際の速度またはフレームバッファの状態から判断することができる。ネットワークトラフィックが、あまりにも高いため、プレゼンテーションの円滑な再生に必要な速度でデータを提供できない場合には、プロセス500は、ステップ584で、プレゼンテーションのチャネルインデックスの変更を決定し、より小さな帯域幅しか必要としない(すなわち、より高いデータ圧縮を使用する)チャネルを選択する。しかし、プロセス500は、依然として、ユーザの選択したオーディオ再生速度を提供する。ネットワークトラフィックが低い場合には、ステップ584は、プレゼンテーションのチャネルインデックスを変更して、より低いデータ圧縮を使用するチャネルを選択することができ、選択されたオーディオ再生速度で、より良い音質を提供する。
【0063】
判定ステップ530において、イベントが、ユーザによるプレゼンテーションの時間縮尺の変更であったと判断されると、アプリケーション500は、ステップ530からステップ532に分岐する。ステップ532は、チャネルインデックスを、選択された時間縮尺に対応する値に変更する。前に求めたネットワークトラフィックの量は、選択された時間縮尺および利用可能なネットワーク帯域幅に対して最良のオーディオ品質を提供するチャネルの選択に使用することができる。
【0064】
ステップ532が、チャネルインデックスを変更した後、ステップ526は、次に、再生バッファをリセットし、現在のオーディオフレームを除く、再生バッファ内のすべてのオーディオフレームのキューイングを解除する。再生バッファのリセット後、プロセス500は、ステップ550、560、および570について上述したような再生バッファの維持、オーディオ出力の維持、およびビデオ表示の維持を行う。
【0065】
ステップ560でオーディオストリームを維持している間、現在のオーディオフレームは、オーディオ出力用のデータが使い果たされるまで、そのデータの提供を続ける。したがって、現在のオーディオフレームからのデータが使い果たされるまで、オーディオ出力は、古い速度で続けられる。その時点で、次のフレームインデックスに対応するが、新しいチャネルインデックスに対応するオーディオチャネルからのオーディオフレームが、利用可能となるはずである。このように、プレゼンテーションの再生は、単一のフレームの所要時間よりも短い時間、例えば例示的な実施の形態では0.5秒よりも短い時間で、新しい再生速度に切り換わる。さらに、新しいチャネルにおける次のフレームインデックスのフレームの内容は、古い再生速度に対応するフレームのすぐ後に続くオーディオデータに対応する。したがって、ユーザは、再生速度の移り変わりが、円滑で、実時間で行われると知覚する。
【0066】
次のフレームインデックスに対応するフレームが、必要な時に利用可能でない場合には、ユーザが、情報源から必要なデータを受信し、ステップ550が、そのデータフレームを再生バッファにキューイングするまで、プロセス500は、再生を一時停止する。本発明の代替的な実施の形態は、ステップ526に行われるように、古い再生速度用に再生バッファにキューイングされている一連のオーディオフレームのキューイングを解除するのではなく、それらのフレームを保持して使用する。したがって、アプリケーション500が必要なフレームを時間内に受信しない場合には、古いオーディオフレームを再生して、プレゼンテーションの一時停止を回避することができる。この古い速度を継続することは、見かけ上、プロセスが応答していないことになり、望ましくなく、図5の実施の形態によって回避される。
【0067】
新しいプレゼンテーションの開始または速度の変更の代わりに、ユーザが、ブックマークもしくはスライドを選択するか、または、早送りもしくは高速巻き戻しを選択すると、判定ステップ540は、アプリケーション540に、プロセス542へ分岐させる。プロセス542は、現在のフレームインデックスを変更する。現在のフレームインデックスの新しい値は、ユーザが行った動作によって決定される。ユーザが、早送りまたは巻き戻しを選択した場合には、現在のフレームインデックスは、一定量だけ増加または減少される。ユーザが、ブックマークまたはスライドを選択した場合には、現在のフレームインデックスは、選択されたブックマークまたはスライドと関連した開始インデックス値に変更される。例示的な実施の形態では、この開始インデックス値は、ステップ524が、マルチチャネルファイルのヘッダからロードしたことから、そのデータの中に存在する。
【0068】
現在のフレームインデックスの変更に続いて、プロセス544は、現在のフレームインデックスの新しい値を反映するように、再生バッファのキューをシフトする。フレームインデックスの変更が、あまり大きくない場合には、新しいフレームインデックス値から開始する一連のオーディオフレームの中には、再生バッファにすでにキューイングされているものが存在する場合がある。その他の点では、シフトプロセス544は、再生バッファについてのリセットプロセス526と同じである。
【0069】
図6は、本発明の別の実施の形態によるプレゼンテーション再生装置600のマルチスレッドアーキテクチャを示すブロック図である。プレゼンテーション再生装置600は、オーディオ再生スレッド620、オーディオロードおよびキャッシュスレッド630、グラフィックスデータロードスレッド640、および表示スレッド650を含む。これらのスレッドは、プログラム管理610の制御下にある。一般に、プレゼンテーション再生装置600は、ネットワーク接続を有する計算機システムで実行される。この計算機システムは、例えば、インターネットもしくはLANに接続されたパーソナルコンピュータもしくはPDA(個人情報端末)、または、電話網に接続された携帯電話といったものである。
【0070】
起動されると、オーディオ再生スレッド620は、再生バッファ625からのデータを用いて、プレゼンテーションのオーディオ部分の音響信号を生成する。一実施の形態では、オーディオ再生バッファ625は、圧縮形式でオーディオフレームを収容し、オーディオ再生スレッド620は、それらのオーディオフレームを解凍する。あるいは、再生バッファ625は、圧縮されていないオーディオデータを収容する。
【0071】
オーディオロードおよびキャッシュスレッドは、ネットワークインタフェース660を介してプレゼンテーションの情報源と通信し、オーディオ再生バッファ625を充填する。さらに、オーディオロードおよびキャッシュスレッド630は、計算機システムのアクティブメモリにオーディオフレームを前もってロードし、オーディオフレームのハードディスクまたは他のメモリデバイスへのキャッシュを制御する。スレッド630は、フレームステータステーブル632を用いて、プレゼンテーションを構成するオーディオフレームのステータスを追跡し、上述したようなマルチチャネルファイルのヘッダから、フレームステータステーブル632を最初に構築することができる。各オーディオフレームのステータスが、例えば、オーディオフレームがアクティブメモリにロードされたか、ロードされてディスクにローカルにキャッシュされているか、または、まだロードされていないかを示すように変化することに伴って、スレッド630は、フレームステータステーブル632を変更する。
【0072】
本発明の例示的な実施の形態では、オーディオロードおよびキャッシュスレッド630は、現在選択されている時間縮尺に対応する一連のオーディオフレームを前もってロードする。特に、スレッド630は、プレゼンテーションの開始時に一連のオーディオフレームを前もってロードし、プレゼンテーションのブックマークの開始フレームインデックス値から開始する他の一連のフレームを前もってロードする。したがって、ユーザが、あるブックマークに対応するプレゼンテーションの場所にジャンプした場合に、プレゼンテーション再生装置600は、ネットワークインタフェース660を介してオーディオフレームをロードする遅延を伴うことなく、そのブックマークの場所に素早く移行することができる。
【0073】
ユーザが、プレゼンテーションの時間縮尺を変更すると、オーディオ再生バッファ625は、リセットされ、オーディオロードおよびキャッシュスレッド630は、その新しい時間縮尺に対応する新しいチャネルからフレームのロードを開始する。例示的な実施の形態では、ユーザが選択したデータ量、例えば、2.5秒間のオーディオデータをオーディオ再生バッファ625が収容するまで、プログラム管理610は、オーディオ再生スレッド620を起動しない。起動を遅らせることにより、ネットワークのオーディオフレームの送信が、不規則である場合に、オーディオ再生スレッド610を繰り返し停止させる必要が回避される。一般に、再生バッファ625が、空であるか、または、ほとんど空である場合には、オーディオロードおよびキャッシュスレッド630は、高い圧縮率を有するオーディオチャネルを選択し、再生バッファ625が、十分なデータ量を収容する場合には、より良いオーディオ品質を提供するチャネルに切り換えることができる。
【0074】
グラフィックスデータロードスレッド640および表示スレッド650は、それぞれ、グラフィックスデータをロードし、グラフィックス画像を表示する。グラフィックスデータロードスレッド640は、グラフィックスデータをデータバッファ642にロードすることができ、表示スレッド650の表示データ644を準備することができる。特に、グラフィックスデータが、ウェブページといったネットワークデータへのリンクである場合には、グラフィックスデータロードスレッド640は、ネットワークインタフェース660を介してプレゼンテーションの情報源からリンクを受信し、続いて、そのリンクと関連したデータにアクセスして、表示データ644を取得する。あるいは、グラフィックスデータロードスレッド640は、プレゼンテーションの情報源からの組み込み画像データを、表示データ644として直接使用する。
【0075】
本発明の特徴によると、プレゼンテーションの再生は、オーディオが中心となる。したがって、プログラム管理610は、オーディオロードおよびキャッシュスレッド630に最も高い優先度を与える。一方、実施の形態の中には、オーディオロードおよびキャッシュスレッド630が、高い圧縮を有するオーディオチャネルを選択して、グラフィックスデータ用に、より多くの帯域幅を解放できるものがある。特に、オーディオ再生スレッド620が、あるブックマークの開始フレームインデックスに達した時に、表示用の新しいグラフィックスデータをロードするための帯域幅をスレッド640に提供するために、スレッド630は、オーディオが当該開始フレームインデックスに達する前のある時点で、より高い圧縮のオーディオチャネルに変更することができる。
【0076】
上記に開示したプレゼンテーション再生装置およびオーサリングツールは、ユーザが、特別なハードウェアも、大量の利用可能な処理電力も、広帯域のネットワーク接続も有することなく、プレゼンテーションの再生速度または時間縮尺を実時間で変更できるプレゼンテーションを提供することができる。このようなプレゼンテーションは、再生速度を変更する機能が便利なさまざまなビジネス、商業、および教育の場で有益である。一方、このシステムは、再生速度の変更が関係しない場合にも、有益である。特に、上述したように、オーサリングツールの実施の形態の中には、HTTPプロトコルといった認知されたプロトコルを実施する任意のサーバへのアクセスに適したプレゼンテーションを作成するものがある。したがって、一般の作者でさえも、オーディオメッセージを記録することができ、このオーサリングツールを用いて、そのオーディオメッセージに画像を同期させることができる。これにより、家族用または友人用のパーソナルプレゼンテーションを作成することができる。プレゼンテーションを受け取った者は、特別なハードウェアも、広帯域のネットワーク接続もなく、そのプレゼンテーションを再生することができる。
【0077】
本発明の特徴は、ネットワーク接続は関係しないが、処理電力またはバッテリ電力が制限されることがあるスタンドアロンシステムにも使用することができる。図7は、プレゼンテーションの時間縮尺または再生速度の実時間制御をユーザに与えるスタンドアロンシステム700を示している。スタンドアロンシステム700は、PDAもしくはポータブルコンピュータといったポータブルデバイスであってもよいし、または、特別設計されたプレゼンテーション再生装置であってもよい。システム700は、データ記憶装置710、選択ロジック720、オーディオデコーダ730、およびビデオデコーダ740を含む。
【0078】
データ記憶装置710は、上述したようなプレゼンテーションを表現するマルチチャネルファイル715を記憶できるいずれの媒体であってもよい。例えば、PDAでは、データ記憶装置710は、フラッシュディスクであってもよいし、または、他の同様のデバイスであってもよい。あるいは、データ記憶装置710は、ディスク再生装置、および、CD−ROMまたは他の同様の媒体を含むことができる。スタンドアロンシステム700では、データ記憶装置710は、オーディオデータおよび任意のグラフィックスデータを提供するので、その結果、ネットワーク接続は、必要とされない。
【0079】
オーディオデコーダ730は、データ記憶装置710からオーディオデータストリームを受信し、このオーディオデータストリームを、増幅器およびスピーカシステム735を通じて再生可能なオーディオ信号に変換する。必要な処理電力を最小にするために、マルチチャネルファイル715は、圧縮されていないデジタルオーディオデータを含み、オーディオデコーダ730は、従来のデジタルアナログコンバータである。あるいは、システム700が、圧縮されたオーディオデータを含むマルチチャネルファイル715用に設計されている場合には、オーディオデコーダ730は、データを解凍することができる。同様に、データ記憶装置710は、マルチチャネルファイル715からオプションのビデオデコーダ740に任意のグラフィックスデータを提供する。ビデオデコーダ740は、ディスプレイ745の必要に応じて、そのグラフィックスデータを変換する。
【0080】
選択ロジック720は、データ記憶装置710がオーディオデコーダ730およびビデオデコーダ740に提供するデータストリームを選択する。選択ロジック720は、システム700の制御に使用されるボタン、スイッチ、または他のユーザインタフェースデバイスを含む。ユーザが、再生速度を変更すると、選択ロジック720は、新しい再生速度に対応するマルチチャネルファイル715のチャネルに切り換えるように、データ記憶装置710を指示する。ユーザが、ブックマークを選択すると、選択ロジック720は、ブックマークに対応するフレームインデックスにジャンプして、その新しいタイムインデックスからオーディオデータストリームおよびビデオデータストリームを再開するように、データ記憶装置710を指示する。選択ロジック720は、処理電力をほとんどまたは全く必要としない。その理由は、時間縮尺の選択またはブックマークの選択には、マルチチャネルファイル715からオーディオデータストリームおよびグラフィックスデータストリームの読み出す際にデータ記憶装置710が使用するパラメータ(例えば、チャネルまたはフレームインデックス)の変更のみが必要となるだけであることによる。
【0081】
マルチチャネルファイル715のオーディオチャネルが、時間縮尺されたオーディオデータをすでに含むことから、スタンドアロンシステム700は、時間縮尺のための処理電力を一切消費しない。したがって、スタンドアロンシステム700は、バッテリ電力も処理電力も、まさにほとんど消費せず、それにもかかわらず、時間縮尺されたプレゼンテーションに、ユーザによる時間縮尺の実時間変更を提供することができる。特別に設計されたプレゼンテーション再生装置では、スタンドアロンシステム700は、大規模な処理ハードウェアを必要としないので、低コストデバイスにすることができる。
【0082】
本発明について、具体的な実施の形態を参照して記述してきたが、この記述は、本発明の応用例にすぎず、限定するものとして解釈されるべきではない。開示された実施の形態の特徴について、さまざまな適用および組み合わせが、特許請求の範囲によって定められる本発明の範囲内で存在する。
【産業上の利用可能性】
【0083】
本発明は、ネットワークを介して送信されるプレゼンテーションについてのさまざまな再生速度に対応するさまざまなオーディオチャネルを有するマルチチャネルアーキテクチャを使用する、メディア符号化、送信、および再生のプロセスおよび構造に利用することができる。
【図面の簡単な説明】
【0084】
【図1】本発明の実施の形態によるマルチチャネルメディアファイルを生成するプロセスを示すフローチャートである。
【図2A】本発明の実施の形態によるマルチチャネルメディアファイルの構造を示す図である。
【図2B】本発明の実施の形態によるマルチチャネルメディアファイルのファイルヘッダの構造を示す図である。
【図2C】本発明の実施の形態によるオーディオチャネルの構造を示す図である。
【図2D】本発明の実施の形態によるオーディオフレームの構造を示す図である。
【図2E】本発明の実施の形態によるおよびデータチャネルの構造を示す図である。
【図3】本発明の実施の形態による、プレゼンテーションを作成するオーサリングツールのユーザインタフェースを示す。
【図4】本発明の実施の形態による、プレゼンテーションにアクセスし、プレゼンテーションを再生するアプリケーションのユーザインタフェースを示す。
【図5】本発明の実施の形態による再生動作のフローチャートである。
【図6】本発明の実施の形態によるプレゼンテーション再生装置の動作を示すブロック図である。
【図7】本発明の実施の形態によるスタンドアロンのプレゼンテーション再生装置のブロック図である。
【0001】
本発明は、プレゼンテーションの再生速度の実時間制御に関する。
【背景技術】
【0002】
マルチメディアプレゼンテーションは、一般に、ビデオの動きおよびオーディオの音が自然になるように、その記録速度で提供される。しかしながら、研究では、人々が、通常の会話速度よりもずっと早い速度の再生速度、例えば、通常の会話速度の3倍以上の速度で、オーディオ情報を知覚でき、かつ、理解できることが示されている。そして、通常の会話速度より速い速度でオーディオ情報を受け取ることは、プレゼンテーションのユーザにとって、かなりの時間の節約になる。
【0003】
オーディオ信号の再生速度を単純に高速にすること、例えば、デジタルオーディオ信号から再生されるサンプルの速度を増加することは、望ましくない。その理由は、再生速度の増加により、オーディオのピッチが変化し、この変化は、情報を聞き取り難くし、かつ、理解し難くするからである。したがって、オーディオ信号のピッチを上げることなくオーディオ情報の情報転送速度を増加させる時間縮尺オーディオ技法が、開発されている。デジタルオーディオ信号用の連続可変信号処理方式は、2000年7月26日に出願された「Continuously Variable Scale Modification of Digital Audio Signals」という発明の名称の米国特許出願第09/626,046号に記述されている。この出願は、参照によりその全体が本明細書に援用される。
【0004】
ユーザにとって望ましい便利なものは、例えば、情報の複雑さ、ユーザが聞き取りに専念したい意識の度合い、またはオーディオの品質に応じて、情報の速度を変更できる機能であろう。デジタルオーディオの再生のオーディオ情報速度を変更する1つの技法は、送信機が送信するデジタルデータの速度をそれに応じて変更し、そのデータを必要に応じて処理または変換する受信機のプロセッサまたはコンバータを用いて、オーディオのピッチを維持することである。
【0005】
上記技法は、電話網、LAN、またはインターネットといったネットワークを介して情報を搬送するシステムで実施するには、困難な場合がある。特に、ネットワークは、情報源からユーザへの送信のデータ転送速度を変更する機能を欠いている場合があり、この機能は、オーディオ情報速度の変更に必要となる。未処理のオーディオデータを送信し、受信機で時間縮尺することは、非効率的であり、不要な負荷を利用可能な帯域幅に与える。その理由は、ピッチの修復を伴う時間縮尺のプロセスにより、送信データの多くが廃棄されるからである。さらに、この技法では、受信機が、再生されるオーディオのピッチを維持できるプロセッサまたはコンバータを有することが必要になる。ハードウェアのコンバータは、受信機のシステムのコストを増加させる。あるいは、ソフトウェアのコンバータは、特に、処理電力および/またはバッテリ電力が制限され得るポータブルコンピュータ、携帯情報端末(PDA)、および携帯電話では、受信機の利用可能な処理電力および/またはバッテリ電力の大部分を要求する可能性がある。
【0006】
ビデオを含むネットワークプレゼンテーションについての別の一般的な問題は、ネットワークが、オーディオ−ビデオプレゼンテーションを必要な速度に維持できないことである。一般に、十分なネットワーク帯域幅が不足すると、オーディオ−ビデオプレゼンテーションに、断続的な中断または一時停止が発生する。これらのプレゼンテーションの中断は、プレゼンテーションを続けることを困難にする。別の方法として、ネットワークプレゼンテーションの画像を、ユーザがそのユーザの速度でナビゲーションできる、リンクされた一連のウェブページまたはスライドとして編成することができる。しかしながら、ネットワークプレゼンテーションの中には、例えば、個別指導や試験、さらにはコマーシャルのように、プレゼンテーションの視覚部分と聴覚部分とのタイミング、シーケンス、または同期が、プレゼンテーションを首尾よく行うことにとって重要となるものがある。
【0007】
順序付けられた、かつ、途切れない方法でプレゼンテーションを提供できるプロセスおよびシステムであって、かつ、情報を転送するネットワークの能力を上回ることなく、また、ユーザが特別なハードウェアを持つことも大量の処理電力を持つことも必要とすることなく、情報速度の選択および変更の自由度をユーザに与えることができるプロセスおよびシステムが求められている。
【発明の開示】
【0008】
本発明の一態様によると、電話網、LAN、またはインターネットといったネットワークを介して送信されるデジタルプレゼンテーションの情報源が、そのプレゼンテーションを、複数のチャネルを有するデータ構造に前もって符号化する。各チャネルは、プレゼンテーションの異なる符号化の部分を収容し、当該部分は、そのプレゼンテーションの時間縮尺および/またはデータ圧縮に従って変化する。
【0009】
具体的な一実施の形態では、プレゼンテーションのオーディオ部分は、チャネルの時間縮尺およびデータ圧縮に応じて、数チャネルに異なって符号化される。各符号化は、プレゼンテーションをオーディオフレームに分割する。それらのオーディオフレームは、そのフレームインデックス値に応じた既知の時間関係を有する。したがって、ユーザが、再生速度を変更すると、データストリームは、現在のチャネルから新しい時間縮尺に対応するチャネルに切り換わり、現在のフレームインデックスに従って、その新しいチャネルからのフレームにアクセスする。
【0010】
一実施の形態では、各フレームは、通常速度で再生された場合におけるプレゼンテーションの一定の時間帯に対応する。したがって、各チャネルは、同じ個数のフレームを有し、各フレームの情報は、そのフレームのフレームインデックスが特定する時間間隔に対応する。情報源は、プレゼンテーションの再生のために、現在のタイムインデックスに対応し、かつ、ユーザの選択した再生速度に対応するチャネルに存在するフレームを送信する。
【0011】
本発明の別の特徴によると、ファイル構造の2つまたは3つ以上のチャネルは、同じ再生速度に対応するが、チャネル内のデータに適用されたそれぞれの圧縮プロセスが異なる。情報源または受信機は、ユーザが選択した再生速度に対応するチャネルであって、受信機にデータを運ぶネットワークにおいて利用可能な送信帯域幅を超えないチャネルを自動的に選択することができる。
【0012】
本発明のさらに別の態様によると、プレゼンテーションは、ブックマークおよび関連するグラフィックスデータを含む。グラフィックスデータは、例えば、オーディオデータと関連したチャネルとは別に符号化される画像データといったものである。各ブックマークは、フレームインデックスまたは時間の関連する範囲を有する。表示アプリケーションは、ユーザが、任意のブックマークと関連した範囲の開始点にジャンプすることを可能にする。情報源は、適切な時刻、通常は次のオーディオフレームの開始時刻に、使用(例えば表示)のために、ブックマークのデータ(例えば、グラフィックスデータ)を、ネットワークを介してユーザに送信する。
【0013】
本発明の別の実施の形態は、作者に、グラフィックスを有するプレゼンテーションの構築を可能にするオーサリングツールまたはオーサリング方法である。このグラフィックスは、例えば、オーディオの内容に従って同期して表示されるテキスト、スライド、またはウェブページである。この同期は、オーディオの再生速度に関係なく維持される。このオーサリングツールは、コマーシャルや私信に使用することができる。また、このオーサリングツールは、HTTPといった従来のネットワークファイルプロトコルを実施する任意のネットワークサーバにアップロードでき、かつ、このようなサーバから利用できるプレゼンテーションを作成する。
【0014】
本発明によるプレゼンテーションを用いると、プレゼンテーションの作者または情報源は、画像のシーケンスおよび画像のオーディオとの同期を制御することができる。これに加えて、プレゼンテーションは、従来のストリーミングされるビデオに対して狭帯域の選択肢を提供する。特に、ビデオの送信をサポートできない狭帯域システムは、通常、プレゼンテーションのオーディオ部分をサポートでき、プレゼンテーションの重要ポイントを示す視覚的な合図を提供する必要がある場合に、画像を表示することができる。
【発明を実施するための最良の形態】
【0015】
各種図面において、同じ参照シンボルの使用は、類似のアイテムまたは同一のアイテムを指し示している。
【0016】
[実施の形態]
本発明の一態様によると、メディア符号化プロセスおよび構造、ネットワーク送信プロセスおよび構造、ならびに再生プロセスおよび構造は、マルチチャネルアーキテクチャを使用する。このマルチチャネルアーキテクチャでは、異なるチャネルは、プレゼンテーションの一部の異なる再生速度または異なる時間縮尺に対応する。プレゼンテーションの符号化プロセスは、例えばプレゼンテーションのオーディオ部分といった同じ部分の複数の符号化を使用する。したがって、異なるチャネルは、たとえ、プレゼンテーションの同じ部分を表現していても、異なる再生速度または異なる時間縮尺用に異なる符号化を有する。
【0017】
プレゼンテーションの受信機またはユーザは、再生速度または時間縮尺を選択することができ、これにより、その時間縮尺に対応するチャネルの使用を選択する。選択されたチャネルは、選択された時間縮尺用に前もって符号化された情報を含むことから、受信機は、所望の時間縮尺を実現するのに複雑なデコーダも強力なプロセッサも必要としない。さらに、オーディオデータを前もって符号化するか、または、時間縮尺することにより、冗長なオーディオデータは、送信前に除去されるので、受信機が時間縮尺を実行するシステムのように、必要なネットワーク帯域幅が増加することはない。したがって、帯域幅の要求値は、時間縮尺に関係なく、一定にすることができる。
【0018】
各チャネルは、プレゼンテーションの順序に従ってインデックスされる一連のフレームを含む。ユーザが、あるチャネルから別のチャネルに変更した場合において、プレゼンテーションを連続的に途切れなく再生する必要があるときは、その新しいチャネルからのフレームを特定して、送信することができる。例示的な実施の形態では、異なるオーディオチャネルの対応するオーディオフレーム同士は、通常の速度で再生された場合に、同じプレゼンテーションの時間量に対応し、プレゼンテーションの特定の時間間隔に対応して、フレームを特定するフレームインデックスを有する。ユーザは、再生速度を変更して、新しい再生速度に対応するチャネルからフレームを選択および送信を行わせることができる。そして、そのユーザは、プレゼンテーションが、その再生速度において実時間で移り変わる必要がある場合に、そのフレームを受信する。
【0019】
このアーキテクチャはさらに、例えば、テキスト、画像、HTML記述、およびネットワーク上で利用可能な情報のリンクまたは他の識別子といったグラフィックスデータのためのデータチャネルを提供することができる。情報源は、プレゼンテーションの特定のブックマークにジャンプするユーザのリクエストまたはプレゼンテーションのタイムインデックスに従って、グラフィックスデータを送信する。ファイルヘッダは、ブックマークを記述する情報をユーザに提供することができる。
【0020】
さらに、このアーキテクチャは、異なるオーディオチャネルに、同じ再生速度ではあるが、ネットワークの送信データの状況に応じて使用される異なる圧縮方式を提供することができる。
【0021】
図1は、本発明の実施の形態によるマルチチャネルメディアファイル190を生成するプロセス100を示している。プロセス100は、オリジナルのオーディオデータ110から開始する。このオリジナルのオーディオデータ110は、どのようなフォーマットであってもよい。例示的な実施の形態では、オリジナルのオーディオデータ110は、「.wav」ファイルであり、このファイルは、オーディオ信号の波形を表す一連のデジタルサンプルである。
【0022】
オリジナルのオーディオデータ110に対して実行されるオーディオ時間縮尺プロセス120は、時間縮尺されたデジタルオーディオデータの複数のセットTSF1、TSF2、およびTSF3を生成する。時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3は、再生時にオリジナルのオーディオのピッチを維持するように時間縮尺されるが、各データセットTSF1、TSF2、またはTSF3は、異なる時間縮尺を有する。したがって、各セットの再生は、異なる時間量を要する。
【0023】
一実施の形態では、オーディオデータセットTSF1は、オリジナルのオーディオデータ110の記録速度での再生用データに対応し、オリジナルのオーディオデータ110と同一であってもよい。オーディオデータセットTSF2およびTSF3は、それぞれ、記録速度の2倍の速度および3倍の速度での再生用データに対応する。通常、オーディオデータセットTSF2およびTSF3は、一定のサンプリング速度で再生するために、より少ないオーディオサンプルを含むので、オーディオデータセットTSF1より小さいであろう。図1は、3つの時間縮尺されたデータセットを示しているが、オーディオ時間縮尺符号化120は、対応する再生速度を有する任意の個数の時間縮尺されたオーディオデータセットを生成することができる。例えば、1と4との間の半整数の倍数の記録速度に対応する7つのセットを生成することができる。より一般的には、プレゼンテーションの作者は、どの時間縮尺がユーザに利用可能であるかを選択することができる。
【0024】
オーディオ時間縮尺プロセス120は、任意の所望の時間縮尺技法とすることができ、例えばSOLAベースの時間縮尺プロセスであってもよい。また、オーディオ時間縮尺プロセス120は、時間縮尺されたそれぞれのオーディオデータセットTSF1、TSF2,またはTSF3に対して、その時間縮尺率に応じて異なる時間縮尺技法を含むことができる。通常、オーディオ時間縮尺プロセス120は、入力パラメータとして時間縮尺率を使用し、生成される各データセット用にこの時間縮尺率を変更する。本発明の例示的な実施の形態は、米国特許出願第09/626,046号(上記のように参照により援用される)に記述されているような連続可変符号化プロセスを使用するが、他の任意の時間縮尺プロセスを使用することができる。
【0025】
オーディオ時間縮尺プロセス120の後、分割プロセス140が、時間縮尺されたオーディオデータセットTSF1、TSF2,およびTSF3のそれぞれをオーディオフレームに分割する。本発明の例示的な実施の形態では、各オーディオフレームは、オリジナルのオーディオデータ110の同じ時間間隔(例えば0.5秒間)に対応する。したがって、データセットTSF1、TSF2、およびTSF3のそれぞれは、同じ個数のオーディオフレームを有する。最も大きな時間縮尺率によって時間縮尺されたオーディオデータセットのオーディオフレームは、再生時間が最も短く、一般に、より小さな時間縮尺率によって時間縮尺されたオーディオデータセットのフレームよりも小さい。
【0026】
他の代わりとなる分割プロセスを使用することができる。一実施の形態では、分割プロセス140は、時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3のそれぞれを、同じ再生所要時間を有するオーディオフレームに分割する。この実施の形態では、異なるチャネルのオーディオフレームは、ほぼ同じサイズを有することになるが、異なるチャネルは、異なる個数のフレームを含むことになる。したがって、再生速度の変更時には、異なるフレームの対応するオーディオ情報を特定することが必要となるが、この特定は、例示的な実施の形態よりもこの実施の形態の方がより複雑となる。
【0027】
分割プロセス140の後、オーディオデータ圧縮プロセス150が、各フレームを個別に圧縮する。オーディオデータ圧縮プロセス150の結果として生成される、圧縮されたオーディオフレームは、圧縮されたオーディオファイルTSF1−C1、TSF2−C1、TSF3−C1、TSF1−C2、TSF2−C2、およびTSF3−C2に収集される。これらの圧縮されたオーディオファイルを、集合的に圧縮オーディオファイル160と呼ぶ。圧縮されたオーディオファイルTSF1−C1、TSF2−C1、およびTSF3−C1は、すべて、第1の圧縮方法に対応し、それぞれ、時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3に対応する。圧縮されたオーディオファイルTSF1−C2、TSF2−C2、およびTSF3−C2は、すべて、第2の圧縮方法に対応し、それぞれ、時間縮尺されたオーディオデータセットTSF1、TSF2、およびTSF3に対応する。
【0028】
図1に示す本発明の特徴によると、オーディオデータ圧縮プロセス150は、時間縮尺されたオーディオデータの各フレームに対して、2つの異なるデータ圧縮方法またはデータ圧縮因子を使用する。代替的な実施の形態では、オーディオデータ圧縮プロセス150は、時間縮尺されたオーディオデータの各フレームに対して、任意数のデータ圧縮方法を使用することができる。多種多様の適切なデータ圧縮方法が、利用可能であり、当該技術において周知である。適切なオーディオ圧縮方法の例には、離散コサイン変換(DCT)方法およびMPEG規格で定義されている圧縮プロセスならびにカリフォルニア州サンタクララのDSPグループが提供しているTruespeechといった特定の実施が含まれる。別の代替的な実施の形態として、オーディオ時間縮尺120、フレーム化140、および圧縮150を、効率的な圧縮または比較的小さなオーディオフレーム用にカスタマイズされた単一の混成手順に統合するプロセスが、開発されてもよい。
【0029】
圧縮されたオーディオファイルTSF1−C1、TSF1−C2、TSF2−C1、TSF2−C2、TSF3−C1、およびTSF3−C2のそれぞれは、マルチチャネルメディアファイル190の異なるオーディオチャネルに対応する。マルチチャネルメディアファイル190は、ブックマーク180と関連したデータをさらに含む。
【0030】
マルチチャネルメディアファイル190の作成中に行われる作者入力170は、マルチチャネルメディアファイル190に含まれるブックマークを選択する。一般に、各ブックマークは、関連する時間の範囲またはフレームインデックスの範囲、識別データ、およびプレゼンテーションデータを含む。プレゼンテーションデータのタイプの例には、これらに限定されるわけではないが、テキストを表すデータ182、画像184、組み込みHTMLドキュメント186、およびウェブページへのリンク188またはネットワーク上で利用可能な他の情報が含まれ、これらは、関連する時間の範囲またはフレームインデックスの範囲に対応する時間間隔の間、プレゼンテーションの一部として表示される。識別データは、さまざまなブックマークを、ユーザがジャンプできるプレゼンテーションの場所と特定するか、または、区別する。
【0031】
本発明の実施の形態によっては、作者入力170は、マルチチャネルメディアファイル190の生成に必要でない場合がある。例えば、マルチチャネルファイル190は、1つまたは複数のボイスメールメッセージを表すオリジナルのオーディオデータ110から生成することができる。ブックマークは、これらのメッセージ間のナビゲーション用に作成することができるが、このようなメッセージは、一般に、関連する画像も、HTMLページも、ウェブページも必要としない。ボイスメールシステムは、ユーザのボイスメール用のマルチチャネルファイルを自動的に生成することができ、これらメッセージの再生速度のユーザ制御を可能にする。電話網でマルチチャネルファイルを使用すると、携帯電話のような受信機が、再生速度の変更の際に処理電力または電池電力を浪費する必要性が回避される。
【0032】
図2A、図2B、図2C、図2D、および図2Eは、マルチチャネルメディアファイル190の適切なフォーマットを示している。これらの図については、以下にさらに説明する。この説明されるフォーマットは、例にすぎず、データ構造体のサイズ、順序、および内容において、広く変更される。
【0033】
最も広く概観すると、図2Aに示すように、マルチチャネルメディアファイル190は、ファイルヘッダ210、N個のオーディオチャネル220−1から220−N、およびM個のデータチャネル230−1から230−Mを含む。ファイルヘッダ210は、ファイルを特定し、チャネル220−1から220−N内のオーディオフレームおよびチャネル230−1から230−M内のデータフレームのテーブルを含む。オーディオチャネル220−1から220−Nは、さまざまな時間縮尺および圧縮方法のオーディオデータを含み、データチャネル230−1から230−Mは、ブックマーク情報および表示用の組み込みデータを含む。
【0034】
図2Bは、ファイルヘッダ210の実施の形態を表している。この実施の形態では、ファイルヘッダ210は、マルチチャネルメディアファイル190を特定するファイル情報212およびファイルの全体的な特性を含む。特に、ファイルヘッダ210は、ユニバーサルファイルID、ファイルタグ、ファイルサイズ、およびファイル状態フィールド、ならびにオーディオチャネル220−1から220−Nおよびデータチャネル230−1から230−Mの個数、これらのチャネルへのオフセット、およびこれらのチャネルのサイズを示すチャネル情報を含むことができる。
【0035】
ファイルヘッダ210のユニバーサルIDは、マルチチャネルファイル190の内容を示し、かつ、この内容によって決定される。ユニバーサルIDは、マルチチャネルメディアファイル190の内容から生成することができる。64バイトのユニバーサルIDを生成する1つの方法は、マルチチャネルファイル190の64バイトの部分に一連のXOR演算を実行する。ユニバーサルファイルIDは、プレゼンテーションのユーザが、あるセッション中、プレゼンテーションを開始し、そのセッションを一時中断し、後にそのプレゼンテーションの使用を再開したい場合に役に立つ。後にさらに説明するように、マルチチャネルメディアファイル190は、1つまたは2つ以上のリモートサーバに記憶されてもよく、サーバのオペレータは、そのプレゼンテーションの名前を移動するか、または、変更することができる。ユーザが、オリジナルのサーバまたは別のサーバ上で2番目のセッションの開始を試みると、プレゼンテーションがセッション間で移動されたか、または、改名されたとしても、そのサーバ上のファイルからのユニバーサルIDヘッダが、ユーザのシステムにキャッシュされたユニバーサルIDと比較され、そのプレゼンテーションが前に開始されたものであることを確認することができる。ユニバーサルIDの別の使用法として、ユニバーサルIDは、サーバ上で正しいプレゼンテーションの位置を突き止めるために使用することができる。ユーザのシステムが、最初のセッション中にキャッシュしたかもしれないオーディオフレームおよび他の情報は、その後、2番目のセッションの再開時に用いることができる。
【0036】
また、ファイルヘッダ210は、マルチチャネルファイル190のすべてのフレームのリストまたはテーブルも含む。図示した例では、ファイルヘッダ210は、各フレームについてのチャネルインデックス213、フレームインデックス214、フレームタイプ215、オフセット216、フレームサイズ217、およびステータスフィールド218を含む。チャネルインデックス213およびフレームインデックス214は、チャネル、および、フレームの表示時刻を特定する。フレームタイプは、例えば、データまたはオーディオ、圧縮方法、およびオーディオフレームの時間縮尺といったフレームのタイプを示す。オフセット216は、マルチチャネルメディアファイル190の開始点から、関連するフレームの開始点までのオフセットを示す。フレームサイズ217は、そのオフセットにおけるフレームのサイズを示す。
【0037】
以下にさらに説明するように、ユーザのシステムは、通常、サーバから当該ユーザのシステムにファイルヘッダ210をロードする。ユーザのシステムは、特定のフレームをサーバに要求する場合に、オフセット216およびサイズ217を用いることができ、また、ステータスフィールド218を用いて、どのフレームがユーザのシステムにバッファされるか、または、キャッシュされるかを追跡することができる。
【0038】
図2Cは、オーディオチャネル220のフォーマットを示している。オーディオチャネル220は、チャネルヘッダ222およびK個の圧縮オーディオフレーム224−1から224−Kを含む。チャネルヘッダ222は、チャネルに関する全体的な情報を含む。この情報には、例えば、チャネルタグ、チャネルオフセット、チャネルサイズ、およびステータスフィールドが含まれる。チャネルタグは、そのチャネルの時間縮尺および圧縮方法を特定することができる。チャネルオフセットは、マルチチャネルファイル190の開始点からそのチャネルの開始点までのオフセットを示す。チャネルサイズは、そのオフセットで開始するチャネルのサイズを示す。
【0039】
例示的な実施の形態では、すべてのオーディオチャネル220−1から220−Nは、K個のオーディオフレーム224−1から224−Kを有するが、それらフレームのサイズは、一般に、そのフレームと関連した時間縮尺、そのフレームに適用された圧縮方法、およびその圧縮方法が特定のフレームのデータに対してどれだけ良く機能したかに応じて変化する。図2Dは、オーディオフレーム224の一般的なフォーマットを示している。オーディオフレーム224は、フレームヘッダ226およびフレームデータ228を含む。フレームヘッダ226は、フレームインデックス、フレームオフセット、フレームサイズ、およびフレームステータスといったフレームの特性を記述する情報を含む。フレームデータ228は、オリジナルのオーディオから生成される、実際の時間縮尺され、圧縮されたデータである。
【0040】
データチャネル230−1から230−Mは、ブックマークと関連したデータのためのものである。例示的な実施の形態では、各データチャネル230−1から230−Mが、ある特定のブックマークに対応する。あるいは、単一のデータチャネルが、ブックマークと関連したすべてのデータを含むことができ、その結果、Mは1と等しくなる。マルチチャネルメディアファイル190の別の代替的な実施の形態は、例えば、テキスト、画像、HTMLページ記述、およびリンクとそれぞれ関連した4つのデータチャネルといったように、ブックマークの1つのタイプにつき1つのデータチャネルを有する。
【0041】
図2Eは、マルチチャネルメディアファイル190のデータチャネル230の適切なフォーマットを示している。データチャネル230は、データヘッダ232および関連データ234を含む。データヘッダ232は、一般に、オフセット、サイズ、およびタグ情報といったチャネル情報を含む。これに加えて、データヘッダ232は、ブックマークに対応する時刻またはオーディオフレームのセットを指定する時間の範囲または開始フレームインデックスおよび停止フレームインデックスを特定することができる。
【0042】
図3は、上述したようなマルチチャネルメディアファイル190を生成する際に使用されるオーサリングツールのユーザインタフェース300を示している。このオーサリングツールでは、プレゼンテーションを生成する時に、ブックマーク作成用の入力170およびオリジナルのオーディオデータ110への視覚情報の添付を行うことが可能である。一般に、オーディオが、通常の速度よりも速い速度で再生される場合に、適切な視覚情報を追加することは、プレゼンテーションの理解を非常に容易にすることができる。その理由は、視覚情報が、プレゼンテーションのオーディオ部分の理解への手掛かりを提供するからである。さらに、オーディオにグラフィックスを接続することにより、順序付けた形式でのグラフィックスのプレゼンテーションが可能となる。
【0043】
ユーザインタフェース300は、オーディオウィンドウ310、視覚表示ウィンドウ320、スライドバー330、マークリスト340、マークデータウィンドウ350、マークタイプリスト360、およびコントロール370を含む。
【0044】
オーディオウィンドウ310は、時間の範囲の間、オリジナルのオーディオデータ110のすべてまたは一部を表す波を表示する。作者が、プレゼンテーションを見直す場合、オーディオウィンドウ310は、オリジナルのオーディオ110に関連するタイムインデックスを示す。作者は、マウスまたは他のデバイスを用いて、オリジナルのオーディオデータ110の開始点に関連した任意の時刻または時間の範囲を選択する。視覚表示ウィンドウ320は、オリジナルのオーディオ110で現在選択されているタイムインデックスと関連した画像または他の視覚情報を表示する。スライドバー330およびマークリスト340は、それぞれ、サムネイルスライドおよびブックマーク名を含む。作者は、マークリスト340の対応するブックマークを選択することにより、改訂のために、ある特定のブックマークを選択することができるか、または、スライドバー330の対応するスライドを選択することにより、プレゼンテーション内を、ブックマークと関連したタイムインデックスへ簡単にジャンプすることができる。
【0045】
ブックマークを追加するために、作者は、オーディオウィンドウ310、スライドバー330、またはマークリスト340を用いて、ブックマークの開始時刻を選択し、マークタイプリスト360を用いて、ブックマークのタイプを選択し、コントロール370を用いて、選択された時刻に選択されたタイプのブックマークを追加するプロセスを開始する。ブックマークの追加の詳細は、一般に、ブックマークと関連した情報のタイプによって決定される。例示の目的で、ブックマークと関連した組み込み画像の追加を以下に説明するが、ブックマークと関連付けることができる情報のタイプは、組み込み画像に限定されるわけではない。
【0046】
組み込み画像を追加するには、作者が、その画像を表すデータまたはファイルを選択することが必要である。画像データは、任意のフォーマットを有することができるが、狭帯域通信リンクを介した送信に適していることが好ましい。一実施の形態では、組み込み画像は、例えばMicrosoft PowerPointを用いて作成されるようなスライドである。オーサリングツールは、マルチチャネルメディアファイル190のデータチャネルに画像データを組み込むか、または、記憶する。
【0047】
作者は、ブックマークに、マークリスト340に表示されることになる名前を与え、そのブックマークと関連したオーディオフレームインデックスの値の範囲(すなわち、開始時刻および終了時刻)および画像データを設定するか、または、変更することができる。プレゼンテーションが再生されると、視覚表示ウィンドウ320は、ブックマークと関連した範囲にあるフレームインデックスを持ったあらゆるオーディオフレームの再生中に、ブックマークと関連した画像を表示する。
【0048】
オーサリングツールは、ブックマークと関連した画像に基づくサムネイル画像をスライドバー330に追加する。作者が、マルチチャネルファイルを作成すると、ブックマークの名前、オーディオインデックスの範囲、およびサムネイルデータが、マルチチャネルメディアファイル190において、マルチチャネルメディアファイル190の特定のフォーマットに依存した場所、例えば、ファイルヘッダ210またはデータチャネルヘッダ232に、識別データとして記憶される。以下にさらに説明するように、ユーザのシステムをプレゼンテーション用に初期化する処理には、ユーザがプレゼンテーションにおいてブックマークの場所にジャンプする時に使用するマークリストおよびスライドバーへのアクセス、および、これらマークリストおよびスライドバーの表示が含まれることがある。
【0049】
テキスト、HTMLページ、またはネットワークデータ(例えばウェブページ)へのリンクといった他のタイプのグラフィックスデータと関連したブックマークは、同様の方法で、組み込み画像データと関連したブックマークに追加される。さまざまなタイプのグラフィックスデータに対して、マークデータウィンドウ350は、そのグラフィックスデータを、視覚表示ウィンドウ320でのそのデータの外観以外の形式で表示することができる。例えば、マークデータウィンドウ350は、テキスト、HTMLコード、またはリンクを含むことができるのに対し、視覚表示ウィンドウ320は、テキスト、HTMLページ、またはウェブページのそれぞれの外観を示す。
【0050】
作者は、ブックマークおよび関連する情報の追加を完了した後、例えば、図1に示すように、コントロール370を用いて、マルチチャネルファイル190の作成を行う。作者は、マルチチャネルファイルのオーディオに利用可能であろう1つまたは2つ以上の時間縮尺を選択することができる。
【0051】
図4は、本発明の実施の形態による、プレゼンテーションを見るためのシステムのユーザインタフェース400を示している。ユーザインタフェース400は、表示ウィンドウ420、スライドバー430、マークリスト440、情報源リスト450、およびコントロールバー470を含む。情報源ウィンドウ450は、ユーザの選択用に、プレゼンテーションのリストを提供し、現在選択されているプレゼンテーションを示す。
【0052】
コントロールバー470は、プレゼンテーションの一般的な制御を可能にするものである。例えば、ユーザは、プレゼンテーションの開始もしくは停止、プレゼンテーション速度のアップもしくはスローダウン、通常速度への切り換え、早送りもしくは高速巻き戻し(すなわち、前後の一定時間へのジャンプ)、またはプレゼンテーションのすべてもしくは一部の自動リピートの起動を行うことができる。
【0053】
スライドバー430およびマークリスト440は、ブックマークを特定し、ユーザがプレゼンテーション内のブックマークにジャンプすることを可能にする。
【0054】
表示ウィンドウ420は、オーディオと同期したテキスト、画像、HTMLページ、またはウェブページといった視覚的コンテンツのためのものである。適切に選択された視覚的コンテンツによって、プレゼンテーションのユーザは、たとえオーディオが高速に再生されても、オーディオの内容をより簡単に理解することができる。
【0055】
図5は、図4のユーザインタフェースを有するプレゼンテーション再生装置を実施する模範的なプロセス500のフローチャートである。プロセス500は、コンピュータシステムにおいて、ソフトウェアまたはファームウェアにより実施することができる。ステップ510で、プロセス500は、イベントを取得する。このイベントは、図4のユーザインタフェースを介したイベントでない場合もあるし、図4のユーザインタフェースを介したユーザの選択の場合もある。
【0056】
判定ステップ520は、ユーザが、新しいプレゼンテーションを開始したかどうかを判断する。新しいプレゼンテーションは、そのヘッダ情報がキャッシュされていないプレゼンテーションである。ユーザが、新しいプレゼンテーションを開始した場合には、プロセス500は、ステップ522でプレゼンテーションの情報源と接触し、ファイルヘッダ情報を要求する。この情報源は、通常、インターネットといったネットワークを介してユーザのコンピュータに接続されたサーバのようなデバイスであろう。
【0057】
情報源が、要求されたヘッダ情報を返信すると、ステップ524は、プレゼンテーションのフレームの要求およびバッファリングといった動作の制御の必要に応じて、このヘッダ情報をロードする。特に、ステップ526は、別のプレゼンテーションのフレームまたはデータを含んでいたかもしれない再生バッファをリセットする。
【0058】
ステップ526が、再生バッファをリセットした後、ステップ550は、再生バッファを維持する。一般に、ステップ550による再生バッファの維持は、ユーザがフレームインデックスも再生速度も変更しないならば連続して再生される一連のオーディオフレームを特定すること、その一連のオーディオフレームのいずれが、フレームキャッシュ内で利用可能であるかを判断すること、およびその一連の中には存在するがフレームキャッシュには存在しないオーディオフレームについて、情報源に要求を送信することにより行われる。
【0059】
本発明のインターネットによる実施の形態では、プロセス500は、特定のフレームまたはデータをサーバに要求する際に、周知のHTTPプロトコルを使用する。したがって、サーバは、プレゼンテーションを提供するのに、特殊化されたサーバアプリケーションを必要としない。一方で、代替的な実施の形態は、サーバアプリケーションを用いて、ユーザと通信し、ユーザにデータをプッシュすることによって、より良い性能を提供することができる。
【0060】
ユーザが、情報源からオーディオフレームを受信すると、プロセス500は、オーディオフレームをバッファリングするか、または、キャッシュするが、オーディオフレームが、再生予定の一連のものである場合には、そのオーディオフレームについては、再生バッファにキューイングするだけである。再生予定のオーディオフレームが、再生バッファにキューイングされると、ステップ560は、再生バッファのフレームから解凍されたデータストリームを用いて、オーディオ出力を維持する。オーディオストリームが、あるフレームインデックスから次のフレームインデックスに切り換わる時に、必要なオーディオフレームが利用可能でない場合には、プロセス500は、プレゼンテーションを一時停止する。
【0061】
ステップ570は、ビデオ表示を維持する。アプリケーション500は、プレゼンテーションのヘッダに示される場所にグラフィックスデータを要求する。特に、グラフィックスデータが、マルチチャネルファイルに組み込まれたテキスト、画像またはHTMLページを表す場合に、プロセス500は、情報源にグラフィックスデータを要求し、そのタイプに応じてそのグラフィックスデータを解釈する。グラフィックスデータが、マルチチャネルファイルのリンクによって特定されるウェブページのようなネットワークデータである場合には、プロセス500は、そのリンクにアクセスして、表示用のネットワークデータを取り出す。ネットワークの状態または他の問題により、グラフィックスデータが、必要な時に利用できなくなると、プロセス500は、プレゼンテーションのオーディオ部分を維持し続ける。これにより、ネットワークトラフィックが高い場合にプレゼンテーションの全部が中断することが回避される。
【0062】
ステップ580で、プロセス500は、ネットワークトラフィックの量または利用可能な帯域幅の量を求める。ネットワークトラフィックまたは帯域幅は、情報源が、要求された任意の情報を提供する際の速度またはフレームバッファの状態から判断することができる。ネットワークトラフィックが、あまりにも高いため、プレゼンテーションの円滑な再生に必要な速度でデータを提供できない場合には、プロセス500は、ステップ584で、プレゼンテーションのチャネルインデックスの変更を決定し、より小さな帯域幅しか必要としない(すなわち、より高いデータ圧縮を使用する)チャネルを選択する。しかし、プロセス500は、依然として、ユーザの選択したオーディオ再生速度を提供する。ネットワークトラフィックが低い場合には、ステップ584は、プレゼンテーションのチャネルインデックスを変更して、より低いデータ圧縮を使用するチャネルを選択することができ、選択されたオーディオ再生速度で、より良い音質を提供する。
【0063】
判定ステップ530において、イベントが、ユーザによるプレゼンテーションの時間縮尺の変更であったと判断されると、アプリケーション500は、ステップ530からステップ532に分岐する。ステップ532は、チャネルインデックスを、選択された時間縮尺に対応する値に変更する。前に求めたネットワークトラフィックの量は、選択された時間縮尺および利用可能なネットワーク帯域幅に対して最良のオーディオ品質を提供するチャネルの選択に使用することができる。
【0064】
ステップ532が、チャネルインデックスを変更した後、ステップ526は、次に、再生バッファをリセットし、現在のオーディオフレームを除く、再生バッファ内のすべてのオーディオフレームのキューイングを解除する。再生バッファのリセット後、プロセス500は、ステップ550、560、および570について上述したような再生バッファの維持、オーディオ出力の維持、およびビデオ表示の維持を行う。
【0065】
ステップ560でオーディオストリームを維持している間、現在のオーディオフレームは、オーディオ出力用のデータが使い果たされるまで、そのデータの提供を続ける。したがって、現在のオーディオフレームからのデータが使い果たされるまで、オーディオ出力は、古い速度で続けられる。その時点で、次のフレームインデックスに対応するが、新しいチャネルインデックスに対応するオーディオチャネルからのオーディオフレームが、利用可能となるはずである。このように、プレゼンテーションの再生は、単一のフレームの所要時間よりも短い時間、例えば例示的な実施の形態では0.5秒よりも短い時間で、新しい再生速度に切り換わる。さらに、新しいチャネルにおける次のフレームインデックスのフレームの内容は、古い再生速度に対応するフレームのすぐ後に続くオーディオデータに対応する。したがって、ユーザは、再生速度の移り変わりが、円滑で、実時間で行われると知覚する。
【0066】
次のフレームインデックスに対応するフレームが、必要な時に利用可能でない場合には、ユーザが、情報源から必要なデータを受信し、ステップ550が、そのデータフレームを再生バッファにキューイングするまで、プロセス500は、再生を一時停止する。本発明の代替的な実施の形態は、ステップ526に行われるように、古い再生速度用に再生バッファにキューイングされている一連のオーディオフレームのキューイングを解除するのではなく、それらのフレームを保持して使用する。したがって、アプリケーション500が必要なフレームを時間内に受信しない場合には、古いオーディオフレームを再生して、プレゼンテーションの一時停止を回避することができる。この古い速度を継続することは、見かけ上、プロセスが応答していないことになり、望ましくなく、図5の実施の形態によって回避される。
【0067】
新しいプレゼンテーションの開始または速度の変更の代わりに、ユーザが、ブックマークもしくはスライドを選択するか、または、早送りもしくは高速巻き戻しを選択すると、判定ステップ540は、アプリケーション540に、プロセス542へ分岐させる。プロセス542は、現在のフレームインデックスを変更する。現在のフレームインデックスの新しい値は、ユーザが行った動作によって決定される。ユーザが、早送りまたは巻き戻しを選択した場合には、現在のフレームインデックスは、一定量だけ増加または減少される。ユーザが、ブックマークまたはスライドを選択した場合には、現在のフレームインデックスは、選択されたブックマークまたはスライドと関連した開始インデックス値に変更される。例示的な実施の形態では、この開始インデックス値は、ステップ524が、マルチチャネルファイルのヘッダからロードしたことから、そのデータの中に存在する。
【0068】
現在のフレームインデックスの変更に続いて、プロセス544は、現在のフレームインデックスの新しい値を反映するように、再生バッファのキューをシフトする。フレームインデックスの変更が、あまり大きくない場合には、新しいフレームインデックス値から開始する一連のオーディオフレームの中には、再生バッファにすでにキューイングされているものが存在する場合がある。その他の点では、シフトプロセス544は、再生バッファについてのリセットプロセス526と同じである。
【0069】
図6は、本発明の別の実施の形態によるプレゼンテーション再生装置600のマルチスレッドアーキテクチャを示すブロック図である。プレゼンテーション再生装置600は、オーディオ再生スレッド620、オーディオロードおよびキャッシュスレッド630、グラフィックスデータロードスレッド640、および表示スレッド650を含む。これらのスレッドは、プログラム管理610の制御下にある。一般に、プレゼンテーション再生装置600は、ネットワーク接続を有する計算機システムで実行される。この計算機システムは、例えば、インターネットもしくはLANに接続されたパーソナルコンピュータもしくはPDA(個人情報端末)、または、電話網に接続された携帯電話といったものである。
【0070】
起動されると、オーディオ再生スレッド620は、再生バッファ625からのデータを用いて、プレゼンテーションのオーディオ部分の音響信号を生成する。一実施の形態では、オーディオ再生バッファ625は、圧縮形式でオーディオフレームを収容し、オーディオ再生スレッド620は、それらのオーディオフレームを解凍する。あるいは、再生バッファ625は、圧縮されていないオーディオデータを収容する。
【0071】
オーディオロードおよびキャッシュスレッドは、ネットワークインタフェース660を介してプレゼンテーションの情報源と通信し、オーディオ再生バッファ625を充填する。さらに、オーディオロードおよびキャッシュスレッド630は、計算機システムのアクティブメモリにオーディオフレームを前もってロードし、オーディオフレームのハードディスクまたは他のメモリデバイスへのキャッシュを制御する。スレッド630は、フレームステータステーブル632を用いて、プレゼンテーションを構成するオーディオフレームのステータスを追跡し、上述したようなマルチチャネルファイルのヘッダから、フレームステータステーブル632を最初に構築することができる。各オーディオフレームのステータスが、例えば、オーディオフレームがアクティブメモリにロードされたか、ロードされてディスクにローカルにキャッシュされているか、または、まだロードされていないかを示すように変化することに伴って、スレッド630は、フレームステータステーブル632を変更する。
【0072】
本発明の例示的な実施の形態では、オーディオロードおよびキャッシュスレッド630は、現在選択されている時間縮尺に対応する一連のオーディオフレームを前もってロードする。特に、スレッド630は、プレゼンテーションの開始時に一連のオーディオフレームを前もってロードし、プレゼンテーションのブックマークの開始フレームインデックス値から開始する他の一連のフレームを前もってロードする。したがって、ユーザが、あるブックマークに対応するプレゼンテーションの場所にジャンプした場合に、プレゼンテーション再生装置600は、ネットワークインタフェース660を介してオーディオフレームをロードする遅延を伴うことなく、そのブックマークの場所に素早く移行することができる。
【0073】
ユーザが、プレゼンテーションの時間縮尺を変更すると、オーディオ再生バッファ625は、リセットされ、オーディオロードおよびキャッシュスレッド630は、その新しい時間縮尺に対応する新しいチャネルからフレームのロードを開始する。例示的な実施の形態では、ユーザが選択したデータ量、例えば、2.5秒間のオーディオデータをオーディオ再生バッファ625が収容するまで、プログラム管理610は、オーディオ再生スレッド620を起動しない。起動を遅らせることにより、ネットワークのオーディオフレームの送信が、不規則である場合に、オーディオ再生スレッド610を繰り返し停止させる必要が回避される。一般に、再生バッファ625が、空であるか、または、ほとんど空である場合には、オーディオロードおよびキャッシュスレッド630は、高い圧縮率を有するオーディオチャネルを選択し、再生バッファ625が、十分なデータ量を収容する場合には、より良いオーディオ品質を提供するチャネルに切り換えることができる。
【0074】
グラフィックスデータロードスレッド640および表示スレッド650は、それぞれ、グラフィックスデータをロードし、グラフィックス画像を表示する。グラフィックスデータロードスレッド640は、グラフィックスデータをデータバッファ642にロードすることができ、表示スレッド650の表示データ644を準備することができる。特に、グラフィックスデータが、ウェブページといったネットワークデータへのリンクである場合には、グラフィックスデータロードスレッド640は、ネットワークインタフェース660を介してプレゼンテーションの情報源からリンクを受信し、続いて、そのリンクと関連したデータにアクセスして、表示データ644を取得する。あるいは、グラフィックスデータロードスレッド640は、プレゼンテーションの情報源からの組み込み画像データを、表示データ644として直接使用する。
【0075】
本発明の特徴によると、プレゼンテーションの再生は、オーディオが中心となる。したがって、プログラム管理610は、オーディオロードおよびキャッシュスレッド630に最も高い優先度を与える。一方、実施の形態の中には、オーディオロードおよびキャッシュスレッド630が、高い圧縮を有するオーディオチャネルを選択して、グラフィックスデータ用に、より多くの帯域幅を解放できるものがある。特に、オーディオ再生スレッド620が、あるブックマークの開始フレームインデックスに達した時に、表示用の新しいグラフィックスデータをロードするための帯域幅をスレッド640に提供するために、スレッド630は、オーディオが当該開始フレームインデックスに達する前のある時点で、より高い圧縮のオーディオチャネルに変更することができる。
【0076】
上記に開示したプレゼンテーション再生装置およびオーサリングツールは、ユーザが、特別なハードウェアも、大量の利用可能な処理電力も、広帯域のネットワーク接続も有することなく、プレゼンテーションの再生速度または時間縮尺を実時間で変更できるプレゼンテーションを提供することができる。このようなプレゼンテーションは、再生速度を変更する機能が便利なさまざまなビジネス、商業、および教育の場で有益である。一方、このシステムは、再生速度の変更が関係しない場合にも、有益である。特に、上述したように、オーサリングツールの実施の形態の中には、HTTPプロトコルといった認知されたプロトコルを実施する任意のサーバへのアクセスに適したプレゼンテーションを作成するものがある。したがって、一般の作者でさえも、オーディオメッセージを記録することができ、このオーサリングツールを用いて、そのオーディオメッセージに画像を同期させることができる。これにより、家族用または友人用のパーソナルプレゼンテーションを作成することができる。プレゼンテーションを受け取った者は、特別なハードウェアも、広帯域のネットワーク接続もなく、そのプレゼンテーションを再生することができる。
【0077】
本発明の特徴は、ネットワーク接続は関係しないが、処理電力またはバッテリ電力が制限されることがあるスタンドアロンシステムにも使用することができる。図7は、プレゼンテーションの時間縮尺または再生速度の実時間制御をユーザに与えるスタンドアロンシステム700を示している。スタンドアロンシステム700は、PDAもしくはポータブルコンピュータといったポータブルデバイスであってもよいし、または、特別設計されたプレゼンテーション再生装置であってもよい。システム700は、データ記憶装置710、選択ロジック720、オーディオデコーダ730、およびビデオデコーダ740を含む。
【0078】
データ記憶装置710は、上述したようなプレゼンテーションを表現するマルチチャネルファイル715を記憶できるいずれの媒体であってもよい。例えば、PDAでは、データ記憶装置710は、フラッシュディスクであってもよいし、または、他の同様のデバイスであってもよい。あるいは、データ記憶装置710は、ディスク再生装置、および、CD−ROMまたは他の同様の媒体を含むことができる。スタンドアロンシステム700では、データ記憶装置710は、オーディオデータおよび任意のグラフィックスデータを提供するので、その結果、ネットワーク接続は、必要とされない。
【0079】
オーディオデコーダ730は、データ記憶装置710からオーディオデータストリームを受信し、このオーディオデータストリームを、増幅器およびスピーカシステム735を通じて再生可能なオーディオ信号に変換する。必要な処理電力を最小にするために、マルチチャネルファイル715は、圧縮されていないデジタルオーディオデータを含み、オーディオデコーダ730は、従来のデジタルアナログコンバータである。あるいは、システム700が、圧縮されたオーディオデータを含むマルチチャネルファイル715用に設計されている場合には、オーディオデコーダ730は、データを解凍することができる。同様に、データ記憶装置710は、マルチチャネルファイル715からオプションのビデオデコーダ740に任意のグラフィックスデータを提供する。ビデオデコーダ740は、ディスプレイ745の必要に応じて、そのグラフィックスデータを変換する。
【0080】
選択ロジック720は、データ記憶装置710がオーディオデコーダ730およびビデオデコーダ740に提供するデータストリームを選択する。選択ロジック720は、システム700の制御に使用されるボタン、スイッチ、または他のユーザインタフェースデバイスを含む。ユーザが、再生速度を変更すると、選択ロジック720は、新しい再生速度に対応するマルチチャネルファイル715のチャネルに切り換えるように、データ記憶装置710を指示する。ユーザが、ブックマークを選択すると、選択ロジック720は、ブックマークに対応するフレームインデックスにジャンプして、その新しいタイムインデックスからオーディオデータストリームおよびビデオデータストリームを再開するように、データ記憶装置710を指示する。選択ロジック720は、処理電力をほとんどまたは全く必要としない。その理由は、時間縮尺の選択またはブックマークの選択には、マルチチャネルファイル715からオーディオデータストリームおよびグラフィックスデータストリームの読み出す際にデータ記憶装置710が使用するパラメータ(例えば、チャネルまたはフレームインデックス)の変更のみが必要となるだけであることによる。
【0081】
マルチチャネルファイル715のオーディオチャネルが、時間縮尺されたオーディオデータをすでに含むことから、スタンドアロンシステム700は、時間縮尺のための処理電力を一切消費しない。したがって、スタンドアロンシステム700は、バッテリ電力も処理電力も、まさにほとんど消費せず、それにもかかわらず、時間縮尺されたプレゼンテーションに、ユーザによる時間縮尺の実時間変更を提供することができる。特別に設計されたプレゼンテーション再生装置では、スタンドアロンシステム700は、大規模な処理ハードウェアを必要としないので、低コストデバイスにすることができる。
【0082】
本発明について、具体的な実施の形態を参照して記述してきたが、この記述は、本発明の応用例にすぎず、限定するものとして解釈されるべきではない。開示された実施の形態の特徴について、さまざまな適用および組み合わせが、特許請求の範囲によって定められる本発明の範囲内で存在する。
【産業上の利用可能性】
【0083】
本発明は、ネットワークを介して送信されるプレゼンテーションについてのさまざまな再生速度に対応するさまざまなオーディオチャネルを有するマルチチャネルアーキテクチャを使用する、メディア符号化、送信、および再生のプロセスおよび構造に利用することができる。
【図面の簡単な説明】
【0084】
【図1】本発明の実施の形態によるマルチチャネルメディアファイルを生成するプロセスを示すフローチャートである。
【図2A】本発明の実施の形態によるマルチチャネルメディアファイルの構造を示す図である。
【図2B】本発明の実施の形態によるマルチチャネルメディアファイルのファイルヘッダの構造を示す図である。
【図2C】本発明の実施の形態によるオーディオチャネルの構造を示す図である。
【図2D】本発明の実施の形態によるオーディオフレームの構造を示す図である。
【図2E】本発明の実施の形態によるおよびデータチャネルの構造を示す図である。
【図3】本発明の実施の形態による、プレゼンテーションを作成するオーサリングツールのユーザインタフェースを示す。
【図4】本発明の実施の形態による、プレゼンテーションにアクセスし、プレゼンテーションを再生するアプリケーションのユーザインタフェースを示す。
【図5】本発明の実施の形態による再生動作のフローチャートである。
【図6】本発明の実施の形態によるプレゼンテーション再生装置の動作を示すブロック図である。
【図7】本発明の実施の形態によるスタンドアロンのプレゼンテーション再生装置のブロック図である。
Claims (36)
- プレゼンテーションを表すデータ構造を含む装置であって、前記データ構造は、
第1の時間縮尺率による時間縮尺後の前記プレゼンテーションのオーディオ部分を表す第1のオーディオチャネルと、
前記第1の時間縮尺率とは異なる第2の時間縮尺率による時間縮尺後の前記オーディオ部分を表す第2のオーディオチャネルと、
を備える装置。 - 前記第1のオーディオチャネルは、複数のフレームを備え、
前記第2のオーディオチャネルは、前記第1のオーディオチャネルの前記複数のフレームと1対1に対応する複数のフレームを備え、
前記第1のオーディオチャネルおよび前記第2のオーディオチャネルの対応するフレーム同士は、前記プレゼンテーションの同じ時間間隔を表す、
請求項1に記載の装置。 - 前記第1のオーディオチャネルの各フレームは、第1の圧縮方法を用いて個別に圧縮される、請求項2に記載の装置。
- 前記データ構造は、前記第1の時間縮尺率による時間縮尺後の前記オーディオプレゼンテーションを表す第3のオーディオチャネルをさらに備え、前記第3のオーディオチャネルの各フレームは、第2の圧縮方法を用いて個別に圧縮される、請求項3に記載の装置。
- 前記データ構造は、前記オーディオプレゼンテーションと関連したグラフィックスを特定するデータチャネルをさらに備える、請求項1に記載の装置。
- 前記第1のオーディオチャネルは、複数のフレームを備え、各フレームは、該フレームが表す前記オーディオ部分の時間間隔を特定するインデックス値を有し、
前記第2のオーディオチャネルは、複数のフレームを備え、当該第2のチャネルの各フレームは、該フレームが表す前記オーディオ部分の時間間隔を特定するインデックス値を有する、
請求項1に記載の装置。 - 前記第1のデータチャネルおよび前記第2のデータチャネルの各フレームは、個別に圧縮される、請求項6に記載の装置。
- 前記データ構造は、複数のブックマークに対応するデータチャネルをさらに備え、各ブックマークは、インデックス値を有し、かつ、グラフィックスを特定し、前記インデックス値は、前記第1のオーディオチャネルまたは前記第2のオーディオチャネルの前記フレームの再生に対する前記グラフィックスの表示時刻を示す、請求項6に記載の装置。
- ネットワークに接続されたサーバを備える、請求項1に記載の装置。
- 前記データ構造が記憶されるデータ記憶装置と、
前記データ記憶装置からのデータストリームを受信するように接続され、かつ、前記データストリームを、知覚できるプレゼンテーション用に変換するデコーダと、
前記データ記憶装置に結合され、かつ、前記第1のオーディオチャネルおよび前記第2のオーディオチャネルを含むチャネルのセットの中から前記データストリームの情報源チャネルを選択できる選択ロジックと、
を備える請求項1に記載の装置。 - バッテリ電力で稼動するスタンドアロンデバイスである、請求項10に記載の装置。
- オーディオプレゼンテーションを表すデータ構造であって、時間縮尺後の前記オーディオプレゼンテーションを表す複数のオーディオチャネルを備えるデータ構造、を含む装置であって、
各オーディオチャネルは、対応する時間縮尺率を有し、かつ、複数のオーディオフレームを含み、
各オーディオフレームは、該オーディオフレームを同じチャネル内の他のオーディオフレームとユニークに区別し、かつ、該オーディオフレームを、他のオーディオチャネルの特定のオーディオフレームに対応するものと特定するフレームインデックスを有する、装置。 - 異なるチャネルに存在して、同じフレームインデックスを有するオーディオフレーム同士は、前記オーディオプレゼンテーションの同じ部分を表す、請求項12に記載の装置。
- オーディオデータを符号化する方法であって、
前記オーディオデータに対して複数の時間縮尺プロセスを実行することであって、それによって、異なる時間縮尺率をそれぞれ有する複数の時間縮尺されたオーディオデータセットを生成する、実行することと、
前記複数の時間縮尺プロセスにそれぞれ対応する複数のオーディオチャネルを含むデータ構造を生成することと、
を含み、
前記オーディオチャネルのそれぞれの内容は、前記オーディオデータに対して、対応する時間縮尺プロセスを実行した結果生成された前記時間縮尺されたオーディオデータセットから導出される、方法。 - 前記データ構造を生成することは、
それぞれの時間縮尺されたオーディオデータセットを複数のフレームに分割することと、
それぞれのフレームを個別に圧縮することであって、それによって、圧縮されたフレームを生成する、圧縮することと、
前記異なる時間縮尺率のうちの対応する1つをそれぞれ有する前記複数のオーディオチャネルに、前記圧縮されたフレームを収集することと、
を含む請求項14に記載の方法。 - 前記分割することの結果として生成されるすべてのフレームは、前記オーディオデータにおける同じ時間量に対応する、請求項15に記載の方法。
- 前記それぞれのフレームを個別に圧縮することは、複数の異なる圧縮プロセスを適用することであって、それによって、それぞれのフレームから複数の圧縮されたフレームを生成する、適用することを含む、請求項15に記載の方法。
- 前記圧縮されたフレームを収集することは、オーディオチャネルを生成し、その結果、各オーディオチャネルにおいて、該オーディオチャネルのすべての圧縮されたフレームが、同じ時間縮尺および圧縮プロセスを有するようにする、請求項17に記載の方法。
- プレゼンテーションを再生する方法であって、
第1の時間縮尺率による縮尺後の前記プレゼンテーションの第1の部分を表す第1のフレームを、ネットワークを介して情報源から再生装置にロードすることであって、該第1のオーディオフレームは、該第1のオーディオフレームを前記第1の時間縮尺率によって縮尺されたものと特定する第1のチャネルインデックス値を有する、ロードすることと、
前記第1のオーディオフレームからのデータに基づいて、前記プレゼンテーションの前記第1の部分を再生することと、
前記第1の時間縮尺率から第2の時間縮尺率へ再生を変更する要求を受信することと、
第2のオーディオフレームを前記情報源に要求することであって、該第2のオーディオフレームは、該第2のフレームを前記第2の時間縮尺率によって縮尺されたものと特定する第2のチャネルインデックス値を有する、要求することと、
前記第1の後に前記第2のフレームを再生することであって、それによって、前記プレゼンテーションの時間縮尺の実時間の変更を提供する、再生することと、
を含む方法。 - 前記第1のフレームは、該第1のオーディオフレームが表す前記プレゼンテーションの前記第1の部分を特定する第1のフレームインデックス値を有し、前記第2のフレームは、前記第1のオーディオフレームが表す前記プレゼンテーションの第2の部分を特定する第2のインデックス値を有する、請求項19に記載の方法。
- 前記第2のインデックス値は、前記第1のタイムインデックス値の直後に続く、請求項20に記載の方法。
- フレームのチャネルインデックス値が、該フレームについてのそれぞれの圧縮プロセスをさらに示し、方法は、
前記ネットワーク上の利用可能な帯域幅を判断することと、
前記第2の時間縮尺率を特定する複数のチャネルインデックス値から、前記利用可能な帯域幅において最高のオーディオ品質を提供する圧縮プロセスを示す前記第2のチャネルインデックス値を選択することと、
をさらに含む請求項19に記載の方法。 - フレームのチャネルインデックス値が、該フレームについてのそれぞれの圧縮プロセスをさらに示し、方法は、
前記ネットワーク上の利用可能な帯域幅を判断することと、
前記第2の時間縮尺率を特定する複数のチャネルインデックス値から、前記利用可能な帯域幅において最高のオーディオ品質を提供する圧縮プロセスを示す第3のチャネルインデックス値を選択することと、
第3のオーディオフレームを前記情報源に要求することであって、該第3のオーディオフレームは、第3のオーディオフレームを前記第2の時間縮尺率によって時間縮尺されたものと特定する前記第3のチャネルインデックス値を有する、要求することと、
前記第2のフレームの後に前記第3のフレームを再生することであって、それによって、前記プレゼンテーションの前記時間縮尺の実時間の変更を提供する、再生することと、をさらに含む請求項19に記載の方法。 - オーディオプレゼンテーションを表すマルチチャネルデータ構造を有する情報源にネットワークを介して接続される受信機上で、前記オーディオプレゼンテーションを再生する方法であって、
前記ネットワーク上の利用可能な帯域幅を判断することと、
前記利用可能な帯域幅において最高のオーディオ品質を提供する圧縮プロセスを用いて圧縮されたデータを含む、前記マルチチャネルデータ構造の第1のチャネルを、所望の時間縮尺率による時間縮尺後の前記オーディオプレゼンテーションを表す複数のチャネルから選択することと、
前記第1のチャネルから第1のフレームを受信することと、
前記第1のフレームを再生することと、
を含む方法。 - 前記第1のフレームの受信後に、前記ネットワーク上で利用可能な帯域幅を判断することと、
前記第1のフレームの受信後に利用可能な前記帯域幅において最高のオーディオ品質を提供する第2の圧縮プロセスを用いて圧縮されたデータを含む、前記マルチチャネルデータ構造の第2のチャネルを、前記所望の時間縮尺率による時間縮尺後の前記オーディオプレゼンテーションを表す前記複数のチャネルから選択することと、
前記第2のチャネルから第2のフレームを受信することと、
前記第1のフレームの再生後に前記第2のフレームを再生することと、
をさらに含む請求項24に記載の方法。 - ウェブページの表示を制御する方法であって、
一連のウェブページを、プレゼンテーションのオーディオ部分を表すオーディオデータのそれぞれのインデックス値に割り当てることと、
前記オーディオデータから生成されるオーディオを再生することと、
前記再生することが、前記オーディオデータにおいて、前記ウェブページに割り当てられたインデックス値に達したことに応答して、各ウェブページを表示することと、
を含む方法。 - 前記一連のウェブページを割り当てることは、
前記オーディオデータを一連のフレームに分割することと、
前記フレームのそれぞれに異なるインデックス値を割り当てることと、
フレームの前記インデックス値に各ウェブページを割り当てることと、
を含み、
前記ウェブページは、前記フレームが再生されている間、表示される、
請求項26に記載の方法。 - 前記一連のウェブページを割り当てることは、
前記オーディオデータをともに構成するオーディオフレームを含むオーディオチャネルと、
各ウェブページについて、該ウェブページへのリンクおよび該ウェブページに対応するオーディオフレームを特定するフレームインデックス値を含むデータチャネルと、
を含むデータ構造を作成することを含む、請求項26に記載の方法。 - 前記一連のウェブページをそれぞれのインデックス値に割り当てることは、各ウェブページを開始インデックス値および停止インデックス値に割り当てることを含み、前記ウェブページは、前記開始インデックス値と前記停止インデックス値との間のインデックス値を有するフレームの再生中に表示される、請求項26に記載の方法。
- 計算機システム上で再生するためのプレゼンテーションを制作する方法であって、
前記プレゼンテーション用のオーディオデータにタイムインデックス値を割り当てることと、
前記プレゼンテーション用のグラフィックスデータによって表される各画像に、前記タイムインデックス値の範囲を割り当てることと、
前記オーディオデータおよび前記グラフィックスデータを含むファイルを構築することであって、該ファイルは、各画像の表示が、該画像に割り当てられた前記範囲内のタイムインデックス値を割り当てられた前記オーディオデータの再生中に起こることを示すフォーマットを有する、構築することと、
を含む方法。 - 前記グラフィックスデータは、ネットワーク上で利用可能なデータを特定するリンクを備え、前記リンクと関連した前記画像の表示は、該リンクが特定するデータを取り出すことを含む、請求項30に記載の方法。
- 前記リンクは、ウェブページを特定し、前記リンクと関連した前記画像の表示は、前記ウェブページを表示することをさらに含む、請求項31に記載の方法。
- 前記グラフィックスデータは、前記ファイルに組み込まれた画像データを備え、前記画像を表示することは、前記画像データが表す画像を表示することを含む、請求項30に記載の方法。
- 前記オーディオ部分にタイムインデックス値を割り当てることは、前記フレームの再生の順序に応じたタイムインデックス値をそれぞれ有する複数のフレームに、前記オーディオデータを分割することを含み、
前記ファイルを構築することは、前記フレームをオーディオチャネルに収集することを含む、
請求項30に記載の方法。 - 前記グラフィックスデータをデータチャネルに収集することをさらに含む、請求項34に記載の方法。
- 前記タイムインデックス値の前記範囲を前記画像に割り当てることは、
前記オーディオデータのタイムスパンを表すことと、
前記タイムスパンの点を選択することと、
前記選択された点に割り当てられる前記画像の1つを選択することと、
を含む請求項30に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/849,719 US7047201B2 (en) | 2001-05-04 | 2001-05-04 | Real-time control of playback rates in presentations |
PCT/JP2002/004403 WO2002091707A1 (en) | 2001-05-04 | 2002-05-02 | Real-time control of playback rates in presentations |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004530158A true JP2004530158A (ja) | 2004-09-30 |
Family
ID=25306356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002588049A Pending JP2004530158A (ja) | 2001-05-04 | 2002-05-02 | プレゼンテーションの再生速度の実時間制御 |
Country Status (7)
Country | Link |
---|---|
US (1) | US7047201B2 (ja) |
EP (1) | EP1384367A1 (ja) |
JP (1) | JP2004530158A (ja) |
KR (1) | KR20040005919A (ja) |
CN (1) | CN1507731A (ja) |
TW (1) | TW556154B (ja) |
WO (1) | WO2002091707A1 (ja) |
Families Citing this family (93)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7683903B2 (en) | 2001-12-11 | 2010-03-23 | Enounce, Inc. | Management of presentation time in a digital media presentation system with variable rate presentation capability |
US20090282444A1 (en) * | 2001-12-04 | 2009-11-12 | Vixs Systems, Inc. | System and method for managing the presentation of video |
US7162414B2 (en) * | 2001-12-07 | 2007-01-09 | Intel Corporation | Method and apparatus to perform speech recognition over a data channel |
US7349941B2 (en) * | 2001-12-10 | 2008-03-25 | Intel Corporation | Data transfer over a network communication system |
US7941037B1 (en) * | 2002-08-27 | 2011-05-10 | Nvidia Corporation | Audio/video timescale compression system and method |
US20040125128A1 (en) * | 2002-12-26 | 2004-07-01 | Cheng-Chia Chang | Graphical user interface for a slideshow presentation |
US7426221B1 (en) * | 2003-02-04 | 2008-09-16 | Cisco Technology, Inc. | Pitch invariant synchronization of audio playout rates |
US7694000B2 (en) * | 2003-04-22 | 2010-04-06 | International Business Machines Corporation | Context sensitive portlets |
US11106425B2 (en) | 2003-07-28 | 2021-08-31 | Sonos, Inc. | Synchronizing operations among a plurality of independently clocked digital data processing devices |
US11650784B2 (en) | 2003-07-28 | 2023-05-16 | Sonos, Inc. | Adjusting volume levels |
US11106424B2 (en) | 2003-07-28 | 2021-08-31 | Sonos, Inc. | Synchronizing operations among a plurality of independently clocked digital data processing devices |
US11294618B2 (en) | 2003-07-28 | 2022-04-05 | Sonos, Inc. | Media player system |
US8086752B2 (en) | 2006-11-22 | 2011-12-27 | Sonos, Inc. | Systems and methods for synchronizing operations among a plurality of independently clocked digital data processing devices that independently source digital data |
US10613817B2 (en) | 2003-07-28 | 2020-04-07 | Sonos, Inc. | Method and apparatus for displaying a list of tracks scheduled for playback by a synchrony group |
US8290603B1 (en) | 2004-06-05 | 2012-10-16 | Sonos, Inc. | User interfaces for controlling and manipulating groupings in a multi-zone media system |
US8234395B2 (en) | 2003-07-28 | 2012-07-31 | Sonos, Inc. | System and method for synchronizing operations among a plurality of independently clocked digital data processing devices |
KR100566215B1 (ko) * | 2003-11-24 | 2006-03-29 | 삼성전자주식회사 | 동영상 콘텐트의 북마크 서비스 방법 |
KR100593989B1 (ko) * | 2003-12-22 | 2006-06-30 | 삼성전자주식회사 | 휴대용 단말기의 동영상 표시방법 |
US7620896B2 (en) * | 2004-01-08 | 2009-11-17 | International Business Machines Corporation | Intelligent agenda object for showing contextual location within a presentation application |
US9374607B2 (en) | 2012-06-26 | 2016-06-21 | Sonos, Inc. | Media playback system with guest access |
US9977561B2 (en) | 2004-04-01 | 2018-05-22 | Sonos, Inc. | Systems, methods, apparatus, and articles of manufacture to provide guest access |
US8032360B2 (en) * | 2004-05-13 | 2011-10-04 | Broadcom Corporation | System and method for high-quality variable speed playback of audio-visual media |
FI116439B (fi) * | 2004-06-04 | 2005-11-15 | Nokia Corp | Videon ja audion synkronointi |
US8326951B1 (en) | 2004-06-05 | 2012-12-04 | Sonos, Inc. | Establishing a secure wireless network with minimum human intervention |
US8868698B2 (en) | 2004-06-05 | 2014-10-21 | Sonos, Inc. | Establishing a secure wireless network with minimum human intervention |
US9330187B2 (en) | 2004-06-22 | 2016-05-03 | International Business Machines Corporation | Persuasive portlets |
KR100773539B1 (ko) * | 2004-07-14 | 2007-11-05 | 삼성전자주식회사 | 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치 |
US8566879B2 (en) * | 2004-09-28 | 2013-10-22 | Sony Corporation | Method and apparatus for navigating video content |
US8261177B2 (en) * | 2006-06-16 | 2012-09-04 | Microsoft Corporation | Generating media presentations |
US7979801B2 (en) * | 2006-06-30 | 2011-07-12 | Microsoft Corporation | Media presentation driven by meta-data events |
US8788080B1 (en) | 2006-09-12 | 2014-07-22 | Sonos, Inc. | Multi-channel pairing in a media system |
US9202509B2 (en) | 2006-09-12 | 2015-12-01 | Sonos, Inc. | Controlling and grouping in a multi-zone media system |
US8483853B1 (en) | 2006-09-12 | 2013-07-09 | Sonos, Inc. | Controlling and manipulating groupings in a multi-zone media system |
US7679637B1 (en) * | 2006-10-28 | 2010-03-16 | Jeffrey Alan Kohler | Time-shifted web conferencing |
US8185815B1 (en) * | 2007-06-29 | 2012-05-22 | Ambrosia Software, Inc. | Live preview |
US9449524B2 (en) * | 2010-11-05 | 2016-09-20 | International Business Machines Corporation | Dynamic role-based instructional symbiont for software application instructional support |
US9076457B1 (en) * | 2008-01-15 | 2015-07-07 | Adobe Systems Incorporated | Visual representations of audio data |
US8745101B2 (en) * | 2008-02-11 | 2014-06-03 | Lg Electronics Inc. | Terminal and method for identifying contents |
US20090273712A1 (en) * | 2008-05-01 | 2009-11-05 | Elliott Landy | System and method for real-time synchronization of a video resource and different audio resources |
US20100040349A1 (en) * | 2008-05-01 | 2010-02-18 | Elliott Landy | System and method for real-time synchronization of a video resource and different audio resources |
US20100042702A1 (en) * | 2008-08-13 | 2010-02-18 | Hanses Philip C | Bookmarks for Flexible Integrated Access to Published Material |
US9282289B2 (en) | 2010-12-23 | 2016-03-08 | Citrix Systems, Inc. | Systems, methods, and devices for generating a summary document of an online meeting |
WO2012088230A1 (en) * | 2010-12-23 | 2012-06-28 | Citrix Systems, Inc. | Systems, methods and devices for facilitating online meetings |
US11429343B2 (en) | 2011-01-25 | 2022-08-30 | Sonos, Inc. | Stereo playback configuration and control |
US11265652B2 (en) | 2011-01-25 | 2022-03-01 | Sonos, Inc. | Playback device pairing |
JP5825937B2 (ja) * | 2011-08-31 | 2015-12-02 | キヤノン株式会社 | 画像処理装置、その制御方法、及びプログラム |
US9729115B2 (en) | 2012-04-27 | 2017-08-08 | Sonos, Inc. | Intelligently increasing the sound level of player |
US9185387B2 (en) | 2012-07-03 | 2015-11-10 | Gopro, Inc. | Image blur based on 3D depth information |
CN102867525B (zh) * | 2012-09-07 | 2016-01-13 | Tcl集团股份有限公司 | 一种多路音频处理方法、音频播放终端及音频接收装置 |
US9008330B2 (en) | 2012-09-28 | 2015-04-14 | Sonos, Inc. | Crossover frequency adjustments for audio speakers |
US9361371B2 (en) * | 2013-04-16 | 2016-06-07 | Sonos, Inc. | Playlist update in a media playback system |
EP3448006B1 (en) * | 2013-07-02 | 2023-03-15 | Family Systems, Limited | System for improving audio conferencing services |
US9226087B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US9226073B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US10074013B2 (en) | 2014-07-23 | 2018-09-11 | Gopro, Inc. | Scene and activity identification in video summary generation |
US9685194B2 (en) | 2014-07-23 | 2017-06-20 | Gopro, Inc. | Voice-based video tagging |
KR102319456B1 (ko) * | 2014-12-15 | 2021-10-28 | 조은형 | 콘텐츠 재생 방법 및 이를 수행하는 전자 기기 |
US9734870B2 (en) | 2015-01-05 | 2017-08-15 | Gopro, Inc. | Media identifier generation for camera-captured media |
US9666233B2 (en) * | 2015-06-01 | 2017-05-30 | Gopro, Inc. | Efficient video frame rendering in compliance with cross-origin resource restrictions |
US10248376B2 (en) | 2015-06-11 | 2019-04-02 | Sonos, Inc. | Multiple groupings in a playback system |
US9639560B1 (en) | 2015-10-22 | 2017-05-02 | Gopro, Inc. | Systems and methods that effectuate transmission of workflow between computing platforms |
US9871994B1 (en) | 2016-01-19 | 2018-01-16 | Gopro, Inc. | Apparatus and methods for providing content context using session metadata |
US10078644B1 (en) | 2016-01-19 | 2018-09-18 | Gopro, Inc. | Apparatus and methods for manipulating multicamera content using content proxy |
US9787862B1 (en) | 2016-01-19 | 2017-10-10 | Gopro, Inc. | Apparatus and methods for generating content proxy |
US10129464B1 (en) | 2016-02-18 | 2018-11-13 | Gopro, Inc. | User interface for creating composite images |
US9972066B1 (en) | 2016-03-16 | 2018-05-15 | Gopro, Inc. | Systems and methods for providing variable image projection for spherical visual content |
US10402938B1 (en) | 2016-03-31 | 2019-09-03 | Gopro, Inc. | Systems and methods for modifying image distortion (curvature) for viewing distance in post capture |
US9838730B1 (en) | 2016-04-07 | 2017-12-05 | Gopro, Inc. | Systems and methods for audio track selection in video editing |
US10229719B1 (en) | 2016-05-09 | 2019-03-12 | Gopro, Inc. | Systems and methods for generating highlights for a video |
US9953679B1 (en) | 2016-05-24 | 2018-04-24 | Gopro, Inc. | Systems and methods for generating a time lapse video |
US9922682B1 (en) | 2016-06-15 | 2018-03-20 | Gopro, Inc. | Systems and methods for organizing video files |
US9967515B1 (en) | 2016-06-15 | 2018-05-08 | Gopro, Inc. | Systems and methods for bidirectional speed ramping |
US10045120B2 (en) | 2016-06-20 | 2018-08-07 | Gopro, Inc. | Associating audio with three-dimensional objects in videos |
US10395119B1 (en) | 2016-08-10 | 2019-08-27 | Gopro, Inc. | Systems and methods for determining activities performed during video capture |
JP2018032912A (ja) * | 2016-08-22 | 2018-03-01 | 株式会社リコー | 情報処理装置、情報処理方法、情報処理プログラムおよび情報処理システム |
US9953224B1 (en) | 2016-08-23 | 2018-04-24 | Gopro, Inc. | Systems and methods for generating a video summary |
GB201614356D0 (en) | 2016-08-23 | 2016-10-05 | Microsoft Technology Licensing Llc | Media buffering |
CN106469208B (zh) * | 2016-08-31 | 2019-07-16 | 浙江宇视科技有限公司 | 一种热度图数据处理方法、热度图数据检索方法及装置 |
US10268898B1 (en) | 2016-09-21 | 2019-04-23 | Gopro, Inc. | Systems and methods for determining a sample frame order for analyzing a video via segments |
US10282632B1 (en) | 2016-09-21 | 2019-05-07 | Gopro, Inc. | Systems and methods for determining a sample frame order for analyzing a video |
US10397415B1 (en) | 2016-09-30 | 2019-08-27 | Gopro, Inc. | Systems and methods for automatically transferring audiovisual content |
US10044972B1 (en) | 2016-09-30 | 2018-08-07 | Gopro, Inc. | Systems and methods for automatically transferring audiovisual content |
US11106988B2 (en) | 2016-10-06 | 2021-08-31 | Gopro, Inc. | Systems and methods for determining predicted risk for a flight path of an unmanned aerial vehicle |
US10002641B1 (en) | 2016-10-17 | 2018-06-19 | Gopro, Inc. | Systems and methods for determining highlight segment sets |
US10712997B2 (en) | 2016-10-17 | 2020-07-14 | Sonos, Inc. | Room association based on name |
US10339443B1 (en) | 2017-02-24 | 2019-07-02 | Gopro, Inc. | Systems and methods for processing convolutional neural network operations using textures |
US9916863B1 (en) | 2017-02-24 | 2018-03-13 | Gopro, Inc. | Systems and methods for editing videos based on shakiness measures |
US10360663B1 (en) | 2017-04-07 | 2019-07-23 | Gopro, Inc. | Systems and methods to create a dynamic blur effect in visual content |
US10395122B1 (en) | 2017-05-12 | 2019-08-27 | Gopro, Inc. | Systems and methods for identifying moments in videos |
US10614114B1 (en) | 2017-07-10 | 2020-04-07 | Gopro, Inc. | Systems and methods for creating compilations based on hierarchical clustering |
US10402698B1 (en) | 2017-07-10 | 2019-09-03 | Gopro, Inc. | Systems and methods for identifying interesting moments within videos |
CN113707174B (zh) * | 2021-08-31 | 2024-02-09 | 亿览在线网络技术(北京)有限公司 | 一种音频驱动的动画特效的生成方法 |
CN117527771B (zh) * | 2024-01-05 | 2024-03-29 | 深圳旷世科技有限公司 | 音频传输方法、装置、存储介质及电子设备 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5546395A (en) | 1993-01-08 | 1996-08-13 | Multi-Tech Systems, Inc. | Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem |
US5583652A (en) * | 1994-04-28 | 1996-12-10 | International Business Machines Corporation | Synchronized, variable-speed playback of digitally recorded audio and video |
EP0702474A1 (en) | 1994-09-19 | 1996-03-20 | International Business Machines Corporation | Dynamically structured data transfer mechanism in an ATM netowrk |
US5923853A (en) | 1995-10-24 | 1999-07-13 | Intel Corporation | Using different network addresses for different components of a network-based presentation |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5995091A (en) * | 1996-05-10 | 1999-11-30 | Learn2.Com, Inc. | System and method for streaming multimedia data |
US5996022A (en) | 1996-06-03 | 1999-11-30 | Webtv Networks, Inc. | Transcoding data in a proxy computer prior to transmitting the audio data to a client |
JP3622365B2 (ja) | 1996-09-26 | 2005-02-23 | ヤマハ株式会社 | 音声符号化伝送方式 |
US6005600A (en) | 1996-10-18 | 1999-12-21 | Silcon Graphics, Inc. | High-performance player for distributed, time-based media |
US5953506A (en) | 1996-12-17 | 1999-09-14 | Adaptive Media Technologies | Method and apparatus that provides a scalable media delivery system |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US6151632A (en) | 1997-03-14 | 2000-11-21 | Microsoft Corporation | Method and apparatus for distributed transmission of real-time multimedia information |
US5959684A (en) | 1997-07-28 | 1999-09-28 | Sony Corporation | Method and apparatus for audio-video synchronizing |
US6078594A (en) | 1997-09-26 | 2000-06-20 | International Business Machines Corporation | Protocol and procedure for automated channel change in an MPEG-2 compliant datastream |
US5859641A (en) | 1997-10-10 | 1999-01-12 | Intervoice Limited Partnership | Automatic bandwidth allocation in multimedia scripting tools |
US6035336A (en) | 1997-10-17 | 2000-03-07 | International Business Machines Corporation | Audio ticker system and method for presenting push information including pre-recorded audio |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
US6084919A (en) | 1998-01-30 | 2000-07-04 | Motorola, Inc. | Communication unit having spectral adaptability |
US6622171B2 (en) * | 1998-09-15 | 2003-09-16 | Microsoft Corporation | Multimedia timeline modification in networked client/server systems |
US6182031B1 (en) | 1998-09-15 | 2001-01-30 | Intel Corp. | Scalable audio coding system |
US7086077B2 (en) | 1999-04-01 | 2006-08-01 | Sedna Patent Services, Llc | Service rate change method and apparatus |
-
2001
- 2001-05-04 US US09/849,719 patent/US7047201B2/en not_active Expired - Fee Related
-
2002
- 2002-04-15 TW TW091107638A patent/TW556154B/zh not_active IP Right Cessation
- 2002-05-02 EP EP02722930A patent/EP1384367A1/en not_active Withdrawn
- 2002-05-02 CN CNA028093755A patent/CN1507731A/zh active Pending
- 2002-05-02 WO PCT/JP2002/004403 patent/WO2002091707A1/en not_active Application Discontinuation
- 2002-05-02 KR KR10-2003-7013508A patent/KR20040005919A/ko not_active Application Discontinuation
- 2002-05-02 JP JP2002588049A patent/JP2004530158A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
TW556154B (en) | 2003-10-01 |
US20020165721A1 (en) | 2002-11-07 |
WO2002091707A1 (en) | 2002-11-14 |
CN1507731A (zh) | 2004-06-23 |
EP1384367A1 (en) | 2004-01-28 |
KR20040005919A (ko) | 2004-01-16 |
US7047201B2 (en) | 2006-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7047201B2 (en) | Real-time control of playback rates in presentations | |
US20200019290A1 (en) | Digital Media Player Behavioral Parameter Modification | |
US8819754B2 (en) | Media streaming with enhanced seek operation | |
EP3357253B1 (en) | Gapless video looping | |
US7237254B1 (en) | Seamless switching between different playback speeds of time-scale modified data streams | |
US7739715B2 (en) | Variable play speed control for media streams | |
WO2013064819A1 (en) | Methods, systems, devices and computer program products for managing playback of digital media content | |
MXPA04006412A (es) | Almacenamiento disperso en memoria inmediata para medios de grabacion continua. | |
WO2020057224A1 (zh) | 基于dash协议的流媒体播放方法及装置 | |
US8144837B2 (en) | Method and system for enhanced user experience of audio | |
JPWO2019130763A1 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN101527153B (zh) | 使异步的传递文本和音视频数据在移动终端同步显示的方法 | |
US8185815B1 (en) | Live preview | |
JP2003333488A (ja) | ストリーミングデータ再生方式及びストリーミングデータ再生方法 | |
JP2005512134A (ja) | リアルタイム時間伸縮用パラメータ付きデジタルオーディオ | |
WO2009016474A2 (en) | System and method for efficiently providing content over a thin client network | |
JP2007219054A (ja) | オーディオ再生装置及びファイルフォーマット | |
EP1221238A2 (en) | Streaming media encoding agent for temporal modifications | |
KR100386036B1 (ko) | 티씨피/아이피 네트워크 상에서의 디지털 비디오편집시스템 및 그 제어방법 | |
CN114501166A (zh) | Dash点播快进快退方法及系统 | |
JP2017228972A (ja) | 映像処理装置、映像処理方法、及びプログラム | |
EP2426944A1 (en) | Terminal device reproducing streamed content without interruption when plural pieces of content are sequentially reproduced. | |
KR20070076330A (ko) | 휴대용 무선 단말기의 음악 모드 전환장치 및 전환방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050428 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081021 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090310 |