JP2004530158A

JP2004530158A - プレゼンテーションの再生速度の実時間制御

Info

Publication number: JP2004530158A
Application number: JP2002588049A
Authority: JP
Inventors: チャン，ケネス，エイチ．，ピー．
Original assignee: 株式会社エス・エス・アイ
Priority date: 2001-05-04
Filing date: 2002-05-02
Publication date: 2004-09-30
Also published as: TW556154B; US20020165721A1; WO2002091707A1; CN1507731A; EP1384367A1; KR20040005919A; US7047201B2

Abstract

メディアの符号化、送信、および再生のプロセスならびに構造は、マルチチャネルアーキテクチャを使用する。このマルチチャネルアーキテクチャは、ネットワークを介して送信されるプレゼンテーションの種々の再生速度に対応する種々のオーディオチャネルを有する。さまざまなオーディオチャネルのオーディオフレームは、すべて、オリジナルのプレゼンテーションにおける同じ時間量に対応し、これら種々のオーディオチャネルにおいて、プレゼンテーションの同じ時間間隔に対応するフレームを特定するフレームインデックスを有する。ユーザは、再生速度の実時間の変更を行うことができる。これにより、新しい再生速度に対応するチャネルが選択され、プレゼンテーションの再生速度の迅速かつ円滑な移り変わりに必要なフレームが選択される。これに加えて、このアーキテクチャは、オーディオのインデックスに従って表示される画像データといったグラフィックスデータ用のチャネル、および、同じ再生速度ではあるが、ネットワークの利用可能な帯域幅に応じて使用される異なる圧縮方式を有する異なるオーディオチャネルを提供することができる。

Description

【技術分野】
【０００１】
本発明は、プレゼンテーションの再生速度の実時間制御に関する。
【背景技術】
【０００２】
マルチメディアプレゼンテーションは、一般に、ビデオの動きおよびオーディオの音が自然になるように、その記録速度で提供される。しかしながら、研究では、人々が、通常の会話速度よりもずっと早い速度の再生速度、例えば、通常の会話速度の３倍以上の速度で、オーディオ情報を知覚でき、かつ、理解できることが示されている。そして、通常の会話速度より速い速度でオーディオ情報を受け取ることは、プレゼンテーションのユーザにとって、かなりの時間の節約になる。
【０００３】
オーディオ信号の再生速度を単純に高速にすること、例えば、デジタルオーディオ信号から再生されるサンプルの速度を増加することは、望ましくない。その理由は、再生速度の増加により、オーディオのピッチが変化し、この変化は、情報を聞き取り難くし、かつ、理解し難くするからである。したがって、オーディオ信号のピッチを上げることなくオーディオ情報の情報転送速度を増加させる時間縮尺オーディオ技法が、開発されている。デジタルオーディオ信号用の連続可変信号処理方式は、２０００年７月２６日に出願された「Continuously Variable Scale Modification of Digital Audio Signals」という発明の名称の米国特許出願第０９／６２６，０４６号に記述されている。この出願は、参照によりその全体が本明細書に援用される。
【０００４】
ユーザにとって望ましい便利なものは、例えば、情報の複雑さ、ユーザが聞き取りに専念したい意識の度合い、またはオーディオの品質に応じて、情報の速度を変更できる機能であろう。デジタルオーディオの再生のオーディオ情報速度を変更する１つの技法は、送信機が送信するデジタルデータの速度をそれに応じて変更し、そのデータを必要に応じて処理または変換する受信機のプロセッサまたはコンバータを用いて、オーディオのピッチを維持することである。
【０００５】
上記技法は、電話網、ＬＡＮ、またはインターネットといったネットワークを介して情報を搬送するシステムで実施するには、困難な場合がある。特に、ネットワークは、情報源からユーザへの送信のデータ転送速度を変更する機能を欠いている場合があり、この機能は、オーディオ情報速度の変更に必要となる。未処理のオーディオデータを送信し、受信機で時間縮尺することは、非効率的であり、不要な負荷を利用可能な帯域幅に与える。その理由は、ピッチの修復を伴う時間縮尺のプロセスにより、送信データの多くが廃棄されるからである。さらに、この技法では、受信機が、再生されるオーディオのピッチを維持できるプロセッサまたはコンバータを有することが必要になる。ハードウェアのコンバータは、受信機のシステムのコストを増加させる。あるいは、ソフトウェアのコンバータは、特に、処理電力および／またはバッテリ電力が制限され得るポータブルコンピュータ、携帯情報端末（ＰＤＡ）、および携帯電話では、受信機の利用可能な処理電力および／またはバッテリ電力の大部分を要求する可能性がある。
【０００６】
ビデオを含むネットワークプレゼンテーションについての別の一般的な問題は、ネットワークが、オーディオ−ビデオプレゼンテーションを必要な速度に維持できないことである。一般に、十分なネットワーク帯域幅が不足すると、オーディオ−ビデオプレゼンテーションに、断続的な中断または一時停止が発生する。これらのプレゼンテーションの中断は、プレゼンテーションを続けることを困難にする。別の方法として、ネットワークプレゼンテーションの画像を、ユーザがそのユーザの速度でナビゲーションできる、リンクされた一連のウェブページまたはスライドとして編成することができる。しかしながら、ネットワークプレゼンテーションの中には、例えば、個別指導や試験、さらにはコマーシャルのように、プレゼンテーションの視覚部分と聴覚部分とのタイミング、シーケンス、または同期が、プレゼンテーションを首尾よく行うことにとって重要となるものがある。
【０００７】
順序付けられた、かつ、途切れない方法でプレゼンテーションを提供できるプロセスおよびシステムであって、かつ、情報を転送するネットワークの能力を上回ることなく、また、ユーザが特別なハードウェアを持つことも大量の処理電力を持つことも必要とすることなく、情報速度の選択および変更の自由度をユーザに与えることができるプロセスおよびシステムが求められている。
【発明の開示】
【０００８】
本発明の一態様によると、電話網、ＬＡＮ、またはインターネットといったネットワークを介して送信されるデジタルプレゼンテーションの情報源が、そのプレゼンテーションを、複数のチャネルを有するデータ構造に前もって符号化する。各チャネルは、プレゼンテーションの異なる符号化の部分を収容し、当該部分は、そのプレゼンテーションの時間縮尺および／またはデータ圧縮に従って変化する。
【０００９】
具体的な一実施の形態では、プレゼンテーションのオーディオ部分は、チャネルの時間縮尺およびデータ圧縮に応じて、数チャネルに異なって符号化される。各符号化は、プレゼンテーションをオーディオフレームに分割する。それらのオーディオフレームは、そのフレームインデックス値に応じた既知の時間関係を有する。したがって、ユーザが、再生速度を変更すると、データストリームは、現在のチャネルから新しい時間縮尺に対応するチャネルに切り換わり、現在のフレームインデックスに従って、その新しいチャネルからのフレームにアクセスする。
【００１０】
一実施の形態では、各フレームは、通常速度で再生された場合におけるプレゼンテーションの一定の時間帯に対応する。したがって、各チャネルは、同じ個数のフレームを有し、各フレームの情報は、そのフレームのフレームインデックスが特定する時間間隔に対応する。情報源は、プレゼンテーションの再生のために、現在のタイムインデックスに対応し、かつ、ユーザの選択した再生速度に対応するチャネルに存在するフレームを送信する。
【００１１】
本発明の別の特徴によると、ファイル構造の２つまたは３つ以上のチャネルは、同じ再生速度に対応するが、チャネル内のデータに適用されたそれぞれの圧縮プロセスが異なる。情報源または受信機は、ユーザが選択した再生速度に対応するチャネルであって、受信機にデータを運ぶネットワークにおいて利用可能な送信帯域幅を超えないチャネルを自動的に選択することができる。
【００１２】
本発明のさらに別の態様によると、プレゼンテーションは、ブックマークおよび関連するグラフィックスデータを含む。グラフィックスデータは、例えば、オーディオデータと関連したチャネルとは別に符号化される画像データといったものである。各ブックマークは、フレームインデックスまたは時間の関連する範囲を有する。表示アプリケーションは、ユーザが、任意のブックマークと関連した範囲の開始点にジャンプすることを可能にする。情報源は、適切な時刻、通常は次のオーディオフレームの開始時刻に、使用（例えば表示）のために、ブックマークのデータ（例えば、グラフィックスデータ）を、ネットワークを介してユーザに送信する。
【００１３】
本発明の別の実施の形態は、作者に、グラフィックスを有するプレゼンテーションの構築を可能にするオーサリングツールまたはオーサリング方法である。このグラフィックスは、例えば、オーディオの内容に従って同期して表示されるテキスト、スライド、またはウェブページである。この同期は、オーディオの再生速度に関係なく維持される。このオーサリングツールは、コマーシャルや私信に使用することができる。また、このオーサリングツールは、ＨＴＴＰといった従来のネットワークファイルプロトコルを実施する任意のネットワークサーバにアップロードでき、かつ、このようなサーバから利用できるプレゼンテーションを作成する。
【００１４】
本発明によるプレゼンテーションを用いると、プレゼンテーションの作者または情報源は、画像のシーケンスおよび画像のオーディオとの同期を制御することができる。これに加えて、プレゼンテーションは、従来のストリーミングされるビデオに対して狭帯域の選択肢を提供する。特に、ビデオの送信をサポートできない狭帯域システムは、通常、プレゼンテーションのオーディオ部分をサポートでき、プレゼンテーションの重要ポイントを示す視覚的な合図を提供する必要がある場合に、画像を表示することができる。
【発明を実施するための最良の形態】
【００１５】
各種図面において、同じ参照シンボルの使用は、類似のアイテムまたは同一のアイテムを指し示している。
【００１６】
［実施の形態］
本発明の一態様によると、メディア符号化プロセスおよび構造、ネットワーク送信プロセスおよび構造、ならびに再生プロセスおよび構造は、マルチチャネルアーキテクチャを使用する。このマルチチャネルアーキテクチャでは、異なるチャネルは、プレゼンテーションの一部の異なる再生速度または異なる時間縮尺に対応する。プレゼンテーションの符号化プロセスは、例えばプレゼンテーションのオーディオ部分といった同じ部分の複数の符号化を使用する。したがって、異なるチャネルは、たとえ、プレゼンテーションの同じ部分を表現していても、異なる再生速度または異なる時間縮尺用に異なる符号化を有する。
【００１７】
プレゼンテーションの受信機またはユーザは、再生速度または時間縮尺を選択することができ、これにより、その時間縮尺に対応するチャネルの使用を選択する。選択されたチャネルは、選択された時間縮尺用に前もって符号化された情報を含むことから、受信機は、所望の時間縮尺を実現するのに複雑なデコーダも強力なプロセッサも必要としない。さらに、オーディオデータを前もって符号化するか、または、時間縮尺することにより、冗長なオーディオデータは、送信前に除去されるので、受信機が時間縮尺を実行するシステムのように、必要なネットワーク帯域幅が増加することはない。したがって、帯域幅の要求値は、時間縮尺に関係なく、一定にすることができる。
【００１８】
各チャネルは、プレゼンテーションの順序に従ってインデックスされる一連のフレームを含む。ユーザが、あるチャネルから別のチャネルに変更した場合において、プレゼンテーションを連続的に途切れなく再生する必要があるときは、その新しいチャネルからのフレームを特定して、送信することができる。例示的な実施の形態では、異なるオーディオチャネルの対応するオーディオフレーム同士は、通常の速度で再生された場合に、同じプレゼンテーションの時間量に対応し、プレゼンテーションの特定の時間間隔に対応して、フレームを特定するフレームインデックスを有する。ユーザは、再生速度を変更して、新しい再生速度に対応するチャネルからフレームを選択および送信を行わせることができる。そして、そのユーザは、プレゼンテーションが、その再生速度において実時間で移り変わる必要がある場合に、そのフレームを受信する。
【００１９】
このアーキテクチャはさらに、例えば、テキスト、画像、ＨＴＭＬ記述、およびネットワーク上で利用可能な情報のリンクまたは他の識別子といったグラフィックスデータのためのデータチャネルを提供することができる。情報源は、プレゼンテーションの特定のブックマークにジャンプするユーザのリクエストまたはプレゼンテーションのタイムインデックスに従って、グラフィックスデータを送信する。ファイルヘッダは、ブックマークを記述する情報をユーザに提供することができる。
【００２０】
さらに、このアーキテクチャは、異なるオーディオチャネルに、同じ再生速度ではあるが、ネットワークの送信データの状況に応じて使用される異なる圧縮方式を提供することができる。
【００２１】
図１は、本発明の実施の形態によるマルチチャネルメディアファイル１９０を生成するプロセス１００を示している。プロセス１００は、オリジナルのオーディオデータ１１０から開始する。このオリジナルのオーディオデータ１１０は、どのようなフォーマットであってもよい。例示的な実施の形態では、オリジナルのオーディオデータ１１０は、「．ｗａｖ」ファイルであり、このファイルは、オーディオ信号の波形を表す一連のデジタルサンプルである。
【００２２】
オリジナルのオーディオデータ１１０に対して実行されるオーディオ時間縮尺プロセス１２０は、時間縮尺されたデジタルオーディオデータの複数のセットＴＳＦ１、ＴＳＦ２、およびＴＳＦ３を生成する。時間縮尺されたオーディオデータセットＴＳＦ１、ＴＳＦ２、およびＴＳＦ３は、再生時にオリジナルのオーディオのピッチを維持するように時間縮尺されるが、各データセットＴＳＦ１、ＴＳＦ２、またはＴＳＦ３は、異なる時間縮尺を有する。したがって、各セットの再生は、異なる時間量を要する。
【００２３】
一実施の形態では、オーディオデータセットＴＳＦ１は、オリジナルのオーディオデータ１１０の記録速度での再生用データに対応し、オリジナルのオーディオデータ１１０と同一であってもよい。オーディオデータセットＴＳＦ２およびＴＳＦ３は、それぞれ、記録速度の２倍の速度および３倍の速度での再生用データに対応する。通常、オーディオデータセットＴＳＦ２およびＴＳＦ３は、一定のサンプリング速度で再生するために、より少ないオーディオサンプルを含むので、オーディオデータセットＴＳＦ１より小さいであろう。図１は、３つの時間縮尺されたデータセットを示しているが、オーディオ時間縮尺符号化１２０は、対応する再生速度を有する任意の個数の時間縮尺されたオーディオデータセットを生成することができる。例えば、１と４との間の半整数の倍数の記録速度に対応する７つのセットを生成することができる。より一般的には、プレゼンテーションの作者は、どの時間縮尺がユーザに利用可能であるかを選択することができる。
【００２４】
オーディオ時間縮尺プロセス１２０は、任意の所望の時間縮尺技法とすることができ、例えばＳＯＬＡベースの時間縮尺プロセスであってもよい。また、オーディオ時間縮尺プロセス１２０は、時間縮尺されたそれぞれのオーディオデータセットＴＳＦ１、ＴＳＦ２，またはＴＳＦ３に対して、その時間縮尺率に応じて異なる時間縮尺技法を含むことができる。通常、オーディオ時間縮尺プロセス１２０は、入力パラメータとして時間縮尺率を使用し、生成される各データセット用にこの時間縮尺率を変更する。本発明の例示的な実施の形態は、米国特許出願第０９／６２６，０４６号（上記のように参照により援用される）に記述されているような連続可変符号化プロセスを使用するが、他の任意の時間縮尺プロセスを使用することができる。
【００２５】
オーディオ時間縮尺プロセス１２０の後、分割プロセス１４０が、時間縮尺されたオーディオデータセットＴＳＦ１、ＴＳＦ２，およびＴＳＦ３のそれぞれをオーディオフレームに分割する。本発明の例示的な実施の形態では、各オーディオフレームは、オリジナルのオーディオデータ１１０の同じ時間間隔（例えば０．５秒間）に対応する。したがって、データセットＴＳＦ１、ＴＳＦ２、およびＴＳＦ３のそれぞれは、同じ個数のオーディオフレームを有する。最も大きな時間縮尺率によって時間縮尺されたオーディオデータセットのオーディオフレームは、再生時間が最も短く、一般に、より小さな時間縮尺率によって時間縮尺されたオーディオデータセットのフレームよりも小さい。
【００２６】
他の代わりとなる分割プロセスを使用することができる。一実施の形態では、分割プロセス１４０は、時間縮尺されたオーディオデータセットＴＳＦ１、ＴＳＦ２、およびＴＳＦ３のそれぞれを、同じ再生所要時間を有するオーディオフレームに分割する。この実施の形態では、異なるチャネルのオーディオフレームは、ほぼ同じサイズを有することになるが、異なるチャネルは、異なる個数のフレームを含むことになる。したがって、再生速度の変更時には、異なるフレームの対応するオーディオ情報を特定することが必要となるが、この特定は、例示的な実施の形態よりもこの実施の形態の方がより複雑となる。
【００２７】
分割プロセス１４０の後、オーディオデータ圧縮プロセス１５０が、各フレームを個別に圧縮する。オーディオデータ圧縮プロセス１５０の結果として生成される、圧縮されたオーディオフレームは、圧縮されたオーディオファイルＴＳＦ１−Ｃ１、ＴＳＦ２−Ｃ１、ＴＳＦ３−Ｃ１、ＴＳＦ１−Ｃ２、ＴＳＦ２−Ｃ２、およびＴＳＦ３−Ｃ２に収集される。これらの圧縮されたオーディオファイルを、集合的に圧縮オーディオファイル１６０と呼ぶ。圧縮されたオーディオファイルＴＳＦ１−Ｃ１、ＴＳＦ２−Ｃ１、およびＴＳＦ３−Ｃ１は、すべて、第１の圧縮方法に対応し、それぞれ、時間縮尺されたオーディオデータセットＴＳＦ１、ＴＳＦ２、およびＴＳＦ３に対応する。圧縮されたオーディオファイルＴＳＦ１−Ｃ２、ＴＳＦ２−Ｃ２、およびＴＳＦ３−Ｃ２は、すべて、第２の圧縮方法に対応し、それぞれ、時間縮尺されたオーディオデータセットＴＳＦ１、ＴＳＦ２、およびＴＳＦ３に対応する。
【００２８】
図１に示す本発明の特徴によると、オーディオデータ圧縮プロセス１５０は、時間縮尺されたオーディオデータの各フレームに対して、２つの異なるデータ圧縮方法またはデータ圧縮因子を使用する。代替的な実施の形態では、オーディオデータ圧縮プロセス１５０は、時間縮尺されたオーディオデータの各フレームに対して、任意数のデータ圧縮方法を使用することができる。多種多様の適切なデータ圧縮方法が、利用可能であり、当該技術において周知である。適切なオーディオ圧縮方法の例には、離散コサイン変換（ＤＣＴ）方法およびＭＰＥＧ規格で定義されている圧縮プロセスならびにカリフォルニア州サンタクララのＤＳＰグループが提供しているＴｒｕｅｓｐｅｅｃｈといった特定の実施が含まれる。別の代替的な実施の形態として、オーディオ時間縮尺１２０、フレーム化１４０、および圧縮１５０を、効率的な圧縮または比較的小さなオーディオフレーム用にカスタマイズされた単一の混成手順に統合するプロセスが、開発されてもよい。
【００２９】
圧縮されたオーディオファイルＴＳＦ１−Ｃ１、ＴＳＦ１−Ｃ２、ＴＳＦ２−Ｃ１、ＴＳＦ２−Ｃ２、ＴＳＦ３−Ｃ１、およびＴＳＦ３−Ｃ２のそれぞれは、マルチチャネルメディアファイル１９０の異なるオーディオチャネルに対応する。マルチチャネルメディアファイル１９０は、ブックマーク１８０と関連したデータをさらに含む。
【００３０】
マルチチャネルメディアファイル１９０の作成中に行われる作者入力１７０は、マルチチャネルメディアファイル１９０に含まれるブックマークを選択する。一般に、各ブックマークは、関連する時間の範囲またはフレームインデックスの範囲、識別データ、およびプレゼンテーションデータを含む。プレゼンテーションデータのタイプの例には、これらに限定されるわけではないが、テキストを表すデータ１８２、画像１８４、組み込みＨＴＭＬドキュメント１８６、およびウェブページへのリンク１８８またはネットワーク上で利用可能な他の情報が含まれ、これらは、関連する時間の範囲またはフレームインデックスの範囲に対応する時間間隔の間、プレゼンテーションの一部として表示される。識別データは、さまざまなブックマークを、ユーザがジャンプできるプレゼンテーションの場所と特定するか、または、区別する。
【００３１】
本発明の実施の形態によっては、作者入力１７０は、マルチチャネルメディアファイル１９０の生成に必要でない場合がある。例えば、マルチチャネルファイル１９０は、１つまたは複数のボイスメールメッセージを表すオリジナルのオーディオデータ１１０から生成することができる。ブックマークは、これらのメッセージ間のナビゲーション用に作成することができるが、このようなメッセージは、一般に、関連する画像も、ＨＴＭＬページも、ウェブページも必要としない。ボイスメールシステムは、ユーザのボイスメール用のマルチチャネルファイルを自動的に生成することができ、これらメッセージの再生速度のユーザ制御を可能にする。電話網でマルチチャネルファイルを使用すると、携帯電話のような受信機が、再生速度の変更の際に処理電力または電池電力を浪費する必要性が回避される。
【００３２】
図２Ａ、図２Ｂ、図２Ｃ、図２Ｄ、および図２Ｅは、マルチチャネルメディアファイル１９０の適切なフォーマットを示している。これらの図については、以下にさらに説明する。この説明されるフォーマットは、例にすぎず、データ構造体のサイズ、順序、および内容において、広く変更される。
【００３３】
最も広く概観すると、図２Ａに示すように、マルチチャネルメディアファイル１９０は、ファイルヘッダ２１０、Ｎ個のオーディオチャネル２２０−１から２２０−Ｎ、およびＭ個のデータチャネル２３０−１から２３０−Ｍを含む。ファイルヘッダ２１０は、ファイルを特定し、チャネル２２０−１から２２０−Ｎ内のオーディオフレームおよびチャネル２３０−１から２３０−Ｍ内のデータフレームのテーブルを含む。オーディオチャネル２２０−１から２２０−Ｎは、さまざまな時間縮尺および圧縮方法のオーディオデータを含み、データチャネル２３０−１から２３０−Ｍは、ブックマーク情報および表示用の組み込みデータを含む。
【００３４】
図２Ｂは、ファイルヘッダ２１０の実施の形態を表している。この実施の形態では、ファイルヘッダ２１０は、マルチチャネルメディアファイル１９０を特定するファイル情報２１２およびファイルの全体的な特性を含む。特に、ファイルヘッダ２１０は、ユニバーサルファイルＩＤ、ファイルタグ、ファイルサイズ、およびファイル状態フィールド、ならびにオーディオチャネル２２０−１から２２０−Ｎおよびデータチャネル２３０−１から２３０−Ｍの個数、これらのチャネルへのオフセット、およびこれらのチャネルのサイズを示すチャネル情報を含むことができる。
【００３５】
ファイルヘッダ２１０のユニバーサルＩＤは、マルチチャネルファイル１９０の内容を示し、かつ、この内容によって決定される。ユニバーサルＩＤは、マルチチャネルメディアファイル１９０の内容から生成することができる。６４バイトのユニバーサルＩＤを生成する１つの方法は、マルチチャネルファイル１９０の６４バイトの部分に一連のＸＯＲ演算を実行する。ユニバーサルファイルＩＤは、プレゼンテーションのユーザが、あるセッション中、プレゼンテーションを開始し、そのセッションを一時中断し、後にそのプレゼンテーションの使用を再開したい場合に役に立つ。後にさらに説明するように、マルチチャネルメディアファイル１９０は、１つまたは２つ以上のリモートサーバに記憶されてもよく、サーバのオペレータは、そのプレゼンテーションの名前を移動するか、または、変更することができる。ユーザが、オリジナルのサーバまたは別のサーバ上で２番目のセッションの開始を試みると、プレゼンテーションがセッション間で移動されたか、または、改名されたとしても、そのサーバ上のファイルからのユニバーサルＩＤヘッダが、ユーザのシステムにキャッシュされたユニバーサルＩＤと比較され、そのプレゼンテーションが前に開始されたものであることを確認することができる。ユニバーサルＩＤの別の使用法として、ユニバーサルＩＤは、サーバ上で正しいプレゼンテーションの位置を突き止めるために使用することができる。ユーザのシステムが、最初のセッション中にキャッシュしたかもしれないオーディオフレームおよび他の情報は、その後、２番目のセッションの再開時に用いることができる。
【００３６】
また、ファイルヘッダ２１０は、マルチチャネルファイル１９０のすべてのフレームのリストまたはテーブルも含む。図示した例では、ファイルヘッダ２１０は、各フレームについてのチャネルインデックス２１３、フレームインデックス２１４、フレームタイプ２１５、オフセット２１６、フレームサイズ２１７、およびステータスフィールド２１８を含む。チャネルインデックス２１３およびフレームインデックス２１４は、チャネル、および、フレームの表示時刻を特定する。フレームタイプは、例えば、データまたはオーディオ、圧縮方法、およびオーディオフレームの時間縮尺といったフレームのタイプを示す。オフセット２１６は、マルチチャネルメディアファイル１９０の開始点から、関連するフレームの開始点までのオフセットを示す。フレームサイズ２１７は、そのオフセットにおけるフレームのサイズを示す。
【００３７】
以下にさらに説明するように、ユーザのシステムは、通常、サーバから当該ユーザのシステムにファイルヘッダ２１０をロードする。ユーザのシステムは、特定のフレームをサーバに要求する場合に、オフセット２１６およびサイズ２１７を用いることができ、また、ステータスフィールド２１８を用いて、どのフレームがユーザのシステムにバッファされるか、または、キャッシュされるかを追跡することができる。
【００３８】
図２Ｃは、オーディオチャネル２２０のフォーマットを示している。オーディオチャネル２２０は、チャネルヘッダ２２２およびＫ個の圧縮オーディオフレーム２２４−１から２２４−Ｋを含む。チャネルヘッダ２２２は、チャネルに関する全体的な情報を含む。この情報には、例えば、チャネルタグ、チャネルオフセット、チャネルサイズ、およびステータスフィールドが含まれる。チャネルタグは、そのチャネルの時間縮尺および圧縮方法を特定することができる。チャネルオフセットは、マルチチャネルファイル１９０の開始点からそのチャネルの開始点までのオフセットを示す。チャネルサイズは、そのオフセットで開始するチャネルのサイズを示す。
【００３９】
例示的な実施の形態では、すべてのオーディオチャネル２２０−１から２２０−Ｎは、Ｋ個のオーディオフレーム２２４−１から２２４−Ｋを有するが、それらフレームのサイズは、一般に、そのフレームと関連した時間縮尺、そのフレームに適用された圧縮方法、およびその圧縮方法が特定のフレームのデータに対してどれだけ良く機能したかに応じて変化する。図２Ｄは、オーディオフレーム２２４の一般的なフォーマットを示している。オーディオフレーム２２４は、フレームヘッダ２２６およびフレームデータ２２８を含む。フレームヘッダ２２６は、フレームインデックス、フレームオフセット、フレームサイズ、およびフレームステータスといったフレームの特性を記述する情報を含む。フレームデータ２２８は、オリジナルのオーディオから生成される、実際の時間縮尺され、圧縮されたデータである。
【００４０】
データチャネル２３０−１から２３０−Ｍは、ブックマークと関連したデータのためのものである。例示的な実施の形態では、各データチャネル２３０−１から２３０−Ｍが、ある特定のブックマークに対応する。あるいは、単一のデータチャネルが、ブックマークと関連したすべてのデータを含むことができ、その結果、Ｍは１と等しくなる。マルチチャネルメディアファイル１９０の別の代替的な実施の形態は、例えば、テキスト、画像、ＨＴＭＬページ記述、およびリンクとそれぞれ関連した４つのデータチャネルといったように、ブックマークの１つのタイプにつき１つのデータチャネルを有する。
【００４１】
図２Ｅは、マルチチャネルメディアファイル１９０のデータチャネル２３０の適切なフォーマットを示している。データチャネル２３０は、データヘッダ２３２および関連データ２３４を含む。データヘッダ２３２は、一般に、オフセット、サイズ、およびタグ情報といったチャネル情報を含む。これに加えて、データヘッダ２３２は、ブックマークに対応する時刻またはオーディオフレームのセットを指定する時間の範囲または開始フレームインデックスおよび停止フレームインデックスを特定することができる。
【００４２】
図３は、上述したようなマルチチャネルメディアファイル１９０を生成する際に使用されるオーサリングツールのユーザインタフェース３００を示している。このオーサリングツールでは、プレゼンテーションを生成する時に、ブックマーク作成用の入力１７０およびオリジナルのオーディオデータ１１０への視覚情報の添付を行うことが可能である。一般に、オーディオが、通常の速度よりも速い速度で再生される場合に、適切な視覚情報を追加することは、プレゼンテーションの理解を非常に容易にすることができる。その理由は、視覚情報が、プレゼンテーションのオーディオ部分の理解への手掛かりを提供するからである。さらに、オーディオにグラフィックスを接続することにより、順序付けた形式でのグラフィックスのプレゼンテーションが可能となる。
【００４３】
ユーザインタフェース３００は、オーディオウィンドウ３１０、視覚表示ウィンドウ３２０、スライドバー３３０、マークリスト３４０、マークデータウィンドウ３５０、マークタイプリスト３６０、およびコントロール３７０を含む。
【００４４】
オーディオウィンドウ３１０は、時間の範囲の間、オリジナルのオーディオデータ１１０のすべてまたは一部を表す波を表示する。作者が、プレゼンテーションを見直す場合、オーディオウィンドウ３１０は、オリジナルのオーディオ１１０に関連するタイムインデックスを示す。作者は、マウスまたは他のデバイスを用いて、オリジナルのオーディオデータ１１０の開始点に関連した任意の時刻または時間の範囲を選択する。視覚表示ウィンドウ３２０は、オリジナルのオーディオ１１０で現在選択されているタイムインデックスと関連した画像または他の視覚情報を表示する。スライドバー３３０およびマークリスト３４０は、それぞれ、サムネイルスライドおよびブックマーク名を含む。作者は、マークリスト３４０の対応するブックマークを選択することにより、改訂のために、ある特定のブックマークを選択することができるか、または、スライドバー３３０の対応するスライドを選択することにより、プレゼンテーション内を、ブックマークと関連したタイムインデックスへ簡単にジャンプすることができる。
【００４５】
ブックマークを追加するために、作者は、オーディオウィンドウ３１０、スライドバー３３０、またはマークリスト３４０を用いて、ブックマークの開始時刻を選択し、マークタイプリスト３６０を用いて、ブックマークのタイプを選択し、コントロール３７０を用いて、選択された時刻に選択されたタイプのブックマークを追加するプロセスを開始する。ブックマークの追加の詳細は、一般に、ブックマークと関連した情報のタイプによって決定される。例示の目的で、ブックマークと関連した組み込み画像の追加を以下に説明するが、ブックマークと関連付けることができる情報のタイプは、組み込み画像に限定されるわけではない。
【００４６】
組み込み画像を追加するには、作者が、その画像を表すデータまたはファイルを選択することが必要である。画像データは、任意のフォーマットを有することができるが、狭帯域通信リンクを介した送信に適していることが好ましい。一実施の形態では、組み込み画像は、例えばＭｉｃｒｏｓｏｆｔＰｏｗｅｒＰｏｉｎｔを用いて作成されるようなスライドである。オーサリングツールは、マルチチャネルメディアファイル１９０のデータチャネルに画像データを組み込むか、または、記憶する。
【００４７】
作者は、ブックマークに、マークリスト３４０に表示されることになる名前を与え、そのブックマークと関連したオーディオフレームインデックスの値の範囲（すなわち、開始時刻および終了時刻）および画像データを設定するか、または、変更することができる。プレゼンテーションが再生されると、視覚表示ウィンドウ３２０は、ブックマークと関連した範囲にあるフレームインデックスを持ったあらゆるオーディオフレームの再生中に、ブックマークと関連した画像を表示する。
【００４８】
オーサリングツールは、ブックマークと関連した画像に基づくサムネイル画像をスライドバー３３０に追加する。作者が、マルチチャネルファイルを作成すると、ブックマークの名前、オーディオインデックスの範囲、およびサムネイルデータが、マルチチャネルメディアファイル１９０において、マルチチャネルメディアファイル１９０の特定のフォーマットに依存した場所、例えば、ファイルヘッダ２１０またはデータチャネルヘッダ２３２に、識別データとして記憶される。以下にさらに説明するように、ユーザのシステムをプレゼンテーション用に初期化する処理には、ユーザがプレゼンテーションにおいてブックマークの場所にジャンプする時に使用するマークリストおよびスライドバーへのアクセス、および、これらマークリストおよびスライドバーの表示が含まれることがある。
【００４９】
テキスト、ＨＴＭＬページ、またはネットワークデータ（例えばウェブページ）へのリンクといった他のタイプのグラフィックスデータと関連したブックマークは、同様の方法で、組み込み画像データと関連したブックマークに追加される。さまざまなタイプのグラフィックスデータに対して、マークデータウィンドウ３５０は、そのグラフィックスデータを、視覚表示ウィンドウ３２０でのそのデータの外観以外の形式で表示することができる。例えば、マークデータウィンドウ３５０は、テキスト、ＨＴＭＬコード、またはリンクを含むことができるのに対し、視覚表示ウィンドウ３２０は、テキスト、ＨＴＭＬページ、またはウェブページのそれぞれの外観を示す。
【００５０】
作者は、ブックマークおよび関連する情報の追加を完了した後、例えば、図１に示すように、コントロール３７０を用いて、マルチチャネルファイル１９０の作成を行う。作者は、マルチチャネルファイルのオーディオに利用可能であろう１つまたは２つ以上の時間縮尺を選択することができる。
【００５１】
図４は、本発明の実施の形態による、プレゼンテーションを見るためのシステムのユーザインタフェース４００を示している。ユーザインタフェース４００は、表示ウィンドウ４２０、スライドバー４３０、マークリスト４４０、情報源リスト４５０、およびコントロールバー４７０を含む。情報源ウィンドウ４５０は、ユーザの選択用に、プレゼンテーションのリストを提供し、現在選択されているプレゼンテーションを示す。
【００５２】
コントロールバー４７０は、プレゼンテーションの一般的な制御を可能にするものである。例えば、ユーザは、プレゼンテーションの開始もしくは停止、プレゼンテーション速度のアップもしくはスローダウン、通常速度への切り換え、早送りもしくは高速巻き戻し（すなわち、前後の一定時間へのジャンプ）、またはプレゼンテーションのすべてもしくは一部の自動リピートの起動を行うことができる。
【００５３】
スライドバー４３０およびマークリスト４４０は、ブックマークを特定し、ユーザがプレゼンテーション内のブックマークにジャンプすることを可能にする。
【００５４】
表示ウィンドウ４２０は、オーディオと同期したテキスト、画像、ＨＴＭＬページ、またはウェブページといった視覚的コンテンツのためのものである。適切に選択された視覚的コンテンツによって、プレゼンテーションのユーザは、たとえオーディオが高速に再生されても、オーディオの内容をより簡単に理解することができる。
【００５５】
図５は、図４のユーザインタフェースを有するプレゼンテーション再生装置を実施する模範的なプロセス５００のフローチャートである。プロセス５００は、コンピュータシステムにおいて、ソフトウェアまたはファームウェアにより実施することができる。ステップ５１０で、プロセス５００は、イベントを取得する。このイベントは、図４のユーザインタフェースを介したイベントでない場合もあるし、図４のユーザインタフェースを介したユーザの選択の場合もある。
【００５６】
判定ステップ５２０は、ユーザが、新しいプレゼンテーションを開始したかどうかを判断する。新しいプレゼンテーションは、そのヘッダ情報がキャッシュされていないプレゼンテーションである。ユーザが、新しいプレゼンテーションを開始した場合には、プロセス５００は、ステップ５２２でプレゼンテーションの情報源と接触し、ファイルヘッダ情報を要求する。この情報源は、通常、インターネットといったネットワークを介してユーザのコンピュータに接続されたサーバのようなデバイスであろう。
【００５７】
情報源が、要求されたヘッダ情報を返信すると、ステップ５２４は、プレゼンテーションのフレームの要求およびバッファリングといった動作の制御の必要に応じて、このヘッダ情報をロードする。特に、ステップ５２６は、別のプレゼンテーションのフレームまたはデータを含んでいたかもしれない再生バッファをリセットする。
【００５８】
ステップ５２６が、再生バッファをリセットした後、ステップ５５０は、再生バッファを維持する。一般に、ステップ５５０による再生バッファの維持は、ユーザがフレームインデックスも再生速度も変更しないならば連続して再生される一連のオーディオフレームを特定すること、その一連のオーディオフレームのいずれが、フレームキャッシュ内で利用可能であるかを判断すること、およびその一連の中には存在するがフレームキャッシュには存在しないオーディオフレームについて、情報源に要求を送信することにより行われる。
【００５９】
本発明のインターネットによる実施の形態では、プロセス５００は、特定のフレームまたはデータをサーバに要求する際に、周知のＨＴＴＰプロトコルを使用する。したがって、サーバは、プレゼンテーションを提供するのに、特殊化されたサーバアプリケーションを必要としない。一方で、代替的な実施の形態は、サーバアプリケーションを用いて、ユーザと通信し、ユーザにデータをプッシュすることによって、より良い性能を提供することができる。
【００６０】
ユーザが、情報源からオーディオフレームを受信すると、プロセス５００は、オーディオフレームをバッファリングするか、または、キャッシュするが、オーディオフレームが、再生予定の一連のものである場合には、そのオーディオフレームについては、再生バッファにキューイングするだけである。再生予定のオーディオフレームが、再生バッファにキューイングされると、ステップ５６０は、再生バッファのフレームから解凍されたデータストリームを用いて、オーディオ出力を維持する。オーディオストリームが、あるフレームインデックスから次のフレームインデックスに切り換わる時に、必要なオーディオフレームが利用可能でない場合には、プロセス５００は、プレゼンテーションを一時停止する。
【００６１】
ステップ５７０は、ビデオ表示を維持する。アプリケーション５００は、プレゼンテーションのヘッダに示される場所にグラフィックスデータを要求する。特に、グラフィックスデータが、マルチチャネルファイルに組み込まれたテキスト、画像またはＨＴＭＬページを表す場合に、プロセス５００は、情報源にグラフィックスデータを要求し、そのタイプに応じてそのグラフィックスデータを解釈する。グラフィックスデータが、マルチチャネルファイルのリンクによって特定されるウェブページのようなネットワークデータである場合には、プロセス５００は、そのリンクにアクセスして、表示用のネットワークデータを取り出す。ネットワークの状態または他の問題により、グラフィックスデータが、必要な時に利用できなくなると、プロセス５００は、プレゼンテーションのオーディオ部分を維持し続ける。これにより、ネットワークトラフィックが高い場合にプレゼンテーションの全部が中断することが回避される。
【００６２】
ステップ５８０で、プロセス５００は、ネットワークトラフィックの量または利用可能な帯域幅の量を求める。ネットワークトラフィックまたは帯域幅は、情報源が、要求された任意の情報を提供する際の速度またはフレームバッファの状態から判断することができる。ネットワークトラフィックが、あまりにも高いため、プレゼンテーションの円滑な再生に必要な速度でデータを提供できない場合には、プロセス５００は、ステップ５８４で、プレゼンテーションのチャネルインデックスの変更を決定し、より小さな帯域幅しか必要としない（すなわち、より高いデータ圧縮を使用する）チャネルを選択する。しかし、プロセス５００は、依然として、ユーザの選択したオーディオ再生速度を提供する。ネットワークトラフィックが低い場合には、ステップ５８４は、プレゼンテーションのチャネルインデックスを変更して、より低いデータ圧縮を使用するチャネルを選択することができ、選択されたオーディオ再生速度で、より良い音質を提供する。
【００６３】
判定ステップ５３０において、イベントが、ユーザによるプレゼンテーションの時間縮尺の変更であったと判断されると、アプリケーション５００は、ステップ５３０からステップ５３２に分岐する。ステップ５３２は、チャネルインデックスを、選択された時間縮尺に対応する値に変更する。前に求めたネットワークトラフィックの量は、選択された時間縮尺および利用可能なネットワーク帯域幅に対して最良のオーディオ品質を提供するチャネルの選択に使用することができる。
【００６４】
ステップ５３２が、チャネルインデックスを変更した後、ステップ５２６は、次に、再生バッファをリセットし、現在のオーディオフレームを除く、再生バッファ内のすべてのオーディオフレームのキューイングを解除する。再生バッファのリセット後、プロセス５００は、ステップ５５０、５６０、および５７０について上述したような再生バッファの維持、オーディオ出力の維持、およびビデオ表示の維持を行う。
【００６５】
ステップ５６０でオーディオストリームを維持している間、現在のオーディオフレームは、オーディオ出力用のデータが使い果たされるまで、そのデータの提供を続ける。したがって、現在のオーディオフレームからのデータが使い果たされるまで、オーディオ出力は、古い速度で続けられる。その時点で、次のフレームインデックスに対応するが、新しいチャネルインデックスに対応するオーディオチャネルからのオーディオフレームが、利用可能となるはずである。このように、プレゼンテーションの再生は、単一のフレームの所要時間よりも短い時間、例えば例示的な実施の形態では０．５秒よりも短い時間で、新しい再生速度に切り換わる。さらに、新しいチャネルにおける次のフレームインデックスのフレームの内容は、古い再生速度に対応するフレームのすぐ後に続くオーディオデータに対応する。したがって、ユーザは、再生速度の移り変わりが、円滑で、実時間で行われると知覚する。
【００６６】
次のフレームインデックスに対応するフレームが、必要な時に利用可能でない場合には、ユーザが、情報源から必要なデータを受信し、ステップ５５０が、そのデータフレームを再生バッファにキューイングするまで、プロセス５００は、再生を一時停止する。本発明の代替的な実施の形態は、ステップ５２６に行われるように、古い再生速度用に再生バッファにキューイングされている一連のオーディオフレームのキューイングを解除するのではなく、それらのフレームを保持して使用する。したがって、アプリケーション５００が必要なフレームを時間内に受信しない場合には、古いオーディオフレームを再生して、プレゼンテーションの一時停止を回避することができる。この古い速度を継続することは、見かけ上、プロセスが応答していないことになり、望ましくなく、図５の実施の形態によって回避される。
【００６７】
新しいプレゼンテーションの開始または速度の変更の代わりに、ユーザが、ブックマークもしくはスライドを選択するか、または、早送りもしくは高速巻き戻しを選択すると、判定ステップ５４０は、アプリケーション５４０に、プロセス５４２へ分岐させる。プロセス５４２は、現在のフレームインデックスを変更する。現在のフレームインデックスの新しい値は、ユーザが行った動作によって決定される。ユーザが、早送りまたは巻き戻しを選択した場合には、現在のフレームインデックスは、一定量だけ増加または減少される。ユーザが、ブックマークまたはスライドを選択した場合には、現在のフレームインデックスは、選択されたブックマークまたはスライドと関連した開始インデックス値に変更される。例示的な実施の形態では、この開始インデックス値は、ステップ５２４が、マルチチャネルファイルのヘッダからロードしたことから、そのデータの中に存在する。
【００６８】
現在のフレームインデックスの変更に続いて、プロセス５４４は、現在のフレームインデックスの新しい値を反映するように、再生バッファのキューをシフトする。フレームインデックスの変更が、あまり大きくない場合には、新しいフレームインデックス値から開始する一連のオーディオフレームの中には、再生バッファにすでにキューイングされているものが存在する場合がある。その他の点では、シフトプロセス５４４は、再生バッファについてのリセットプロセス５２６と同じである。
【００６９】
図６は、本発明の別の実施の形態によるプレゼンテーション再生装置６００のマルチスレッドアーキテクチャを示すブロック図である。プレゼンテーション再生装置６００は、オーディオ再生スレッド６２０、オーディオロードおよびキャッシュスレッド６３０、グラフィックスデータロードスレッド６４０、および表示スレッド６５０を含む。これらのスレッドは、プログラム管理６１０の制御下にある。一般に、プレゼンテーション再生装置６００は、ネットワーク接続を有する計算機システムで実行される。この計算機システムは、例えば、インターネットもしくはＬＡＮに接続されたパーソナルコンピュータもしくはＰＤＡ（個人情報端末）、または、電話網に接続された携帯電話といったものである。
【００７０】
起動されると、オーディオ再生スレッド６２０は、再生バッファ６２５からのデータを用いて、プレゼンテーションのオーディオ部分の音響信号を生成する。一実施の形態では、オーディオ再生バッファ６２５は、圧縮形式でオーディオフレームを収容し、オーディオ再生スレッド６２０は、それらのオーディオフレームを解凍する。あるいは、再生バッファ６２５は、圧縮されていないオーディオデータを収容する。
【００７１】
オーディオロードおよびキャッシュスレッドは、ネットワークインタフェース６６０を介してプレゼンテーションの情報源と通信し、オーディオ再生バッファ６２５を充填する。さらに、オーディオロードおよびキャッシュスレッド６３０は、計算機システムのアクティブメモリにオーディオフレームを前もってロードし、オーディオフレームのハードディスクまたは他のメモリデバイスへのキャッシュを制御する。スレッド６３０は、フレームステータステーブル６３２を用いて、プレゼンテーションを構成するオーディオフレームのステータスを追跡し、上述したようなマルチチャネルファイルのヘッダから、フレームステータステーブル６３２を最初に構築することができる。各オーディオフレームのステータスが、例えば、オーディオフレームがアクティブメモリにロードされたか、ロードされてディスクにローカルにキャッシュされているか、または、まだロードされていないかを示すように変化することに伴って、スレッド６３０は、フレームステータステーブル６３２を変更する。
【００７２】
本発明の例示的な実施の形態では、オーディオロードおよびキャッシュスレッド６３０は、現在選択されている時間縮尺に対応する一連のオーディオフレームを前もってロードする。特に、スレッド６３０は、プレゼンテーションの開始時に一連のオーディオフレームを前もってロードし、プレゼンテーションのブックマークの開始フレームインデックス値から開始する他の一連のフレームを前もってロードする。したがって、ユーザが、あるブックマークに対応するプレゼンテーションの場所にジャンプした場合に、プレゼンテーション再生装置６００は、ネットワークインタフェース６６０を介してオーディオフレームをロードする遅延を伴うことなく、そのブックマークの場所に素早く移行することができる。
【００７３】
ユーザが、プレゼンテーションの時間縮尺を変更すると、オーディオ再生バッファ６２５は、リセットされ、オーディオロードおよびキャッシュスレッド６３０は、その新しい時間縮尺に対応する新しいチャネルからフレームのロードを開始する。例示的な実施の形態では、ユーザが選択したデータ量、例えば、２．５秒間のオーディオデータをオーディオ再生バッファ６２５が収容するまで、プログラム管理６１０は、オーディオ再生スレッド６２０を起動しない。起動を遅らせることにより、ネットワークのオーディオフレームの送信が、不規則である場合に、オーディオ再生スレッド６１０を繰り返し停止させる必要が回避される。一般に、再生バッファ６２５が、空であるか、または、ほとんど空である場合には、オーディオロードおよびキャッシュスレッド６３０は、高い圧縮率を有するオーディオチャネルを選択し、再生バッファ６２５が、十分なデータ量を収容する場合には、より良いオーディオ品質を提供するチャネルに切り換えることができる。
【００７４】
グラフィックスデータロードスレッド６４０および表示スレッド６５０は、それぞれ、グラフィックスデータをロードし、グラフィックス画像を表示する。グラフィックスデータロードスレッド６４０は、グラフィックスデータをデータバッファ６４２にロードすることができ、表示スレッド６５０の表示データ６４４を準備することができる。特に、グラフィックスデータが、ウェブページといったネットワークデータへのリンクである場合には、グラフィックスデータロードスレッド６４０は、ネットワークインタフェース６６０を介してプレゼンテーションの情報源からリンクを受信し、続いて、そのリンクと関連したデータにアクセスして、表示データ６４４を取得する。あるいは、グラフィックスデータロードスレッド６４０は、プレゼンテーションの情報源からの組み込み画像データを、表示データ６４４として直接使用する。
【００７５】
本発明の特徴によると、プレゼンテーションの再生は、オーディオが中心となる。したがって、プログラム管理６１０は、オーディオロードおよびキャッシュスレッド６３０に最も高い優先度を与える。一方、実施の形態の中には、オーディオロードおよびキャッシュスレッド６３０が、高い圧縮を有するオーディオチャネルを選択して、グラフィックスデータ用に、より多くの帯域幅を解放できるものがある。特に、オーディオ再生スレッド６２０が、あるブックマークの開始フレームインデックスに達した時に、表示用の新しいグラフィックスデータをロードするための帯域幅をスレッド６４０に提供するために、スレッド６３０は、オーディオが当該開始フレームインデックスに達する前のある時点で、より高い圧縮のオーディオチャネルに変更することができる。
【００７６】
上記に開示したプレゼンテーション再生装置およびオーサリングツールは、ユーザが、特別なハードウェアも、大量の利用可能な処理電力も、広帯域のネットワーク接続も有することなく、プレゼンテーションの再生速度または時間縮尺を実時間で変更できるプレゼンテーションを提供することができる。このようなプレゼンテーションは、再生速度を変更する機能が便利なさまざまなビジネス、商業、および教育の場で有益である。一方、このシステムは、再生速度の変更が関係しない場合にも、有益である。特に、上述したように、オーサリングツールの実施の形態の中には、ＨＴＴＰプロトコルといった認知されたプロトコルを実施する任意のサーバへのアクセスに適したプレゼンテーションを作成するものがある。したがって、一般の作者でさえも、オーディオメッセージを記録することができ、このオーサリングツールを用いて、そのオーディオメッセージに画像を同期させることができる。これにより、家族用または友人用のパーソナルプレゼンテーションを作成することができる。プレゼンテーションを受け取った者は、特別なハードウェアも、広帯域のネットワーク接続もなく、そのプレゼンテーションを再生することができる。
【００７７】
本発明の特徴は、ネットワーク接続は関係しないが、処理電力またはバッテリ電力が制限されることがあるスタンドアロンシステムにも使用することができる。図７は、プレゼンテーションの時間縮尺または再生速度の実時間制御をユーザに与えるスタンドアロンシステム７００を示している。スタンドアロンシステム７００は、ＰＤＡもしくはポータブルコンピュータといったポータブルデバイスであってもよいし、または、特別設計されたプレゼンテーション再生装置であってもよい。システム７００は、データ記憶装置７１０、選択ロジック７２０、オーディオデコーダ７３０、およびビデオデコーダ７４０を含む。
【００７８】
データ記憶装置７１０は、上述したようなプレゼンテーションを表現するマルチチャネルファイル７１５を記憶できるいずれの媒体であってもよい。例えば、ＰＤＡでは、データ記憶装置７１０は、フラッシュディスクであってもよいし、または、他の同様のデバイスであってもよい。あるいは、データ記憶装置７１０は、ディスク再生装置、および、ＣＤ−ＲＯＭまたは他の同様の媒体を含むことができる。スタンドアロンシステム７００では、データ記憶装置７１０は、オーディオデータおよび任意のグラフィックスデータを提供するので、その結果、ネットワーク接続は、必要とされない。
【００７９】
オーディオデコーダ７３０は、データ記憶装置７１０からオーディオデータストリームを受信し、このオーディオデータストリームを、増幅器およびスピーカシステム７３５を通じて再生可能なオーディオ信号に変換する。必要な処理電力を最小にするために、マルチチャネルファイル７１５は、圧縮されていないデジタルオーディオデータを含み、オーディオデコーダ７３０は、従来のデジタルアナログコンバータである。あるいは、システム７００が、圧縮されたオーディオデータを含むマルチチャネルファイル７１５用に設計されている場合には、オーディオデコーダ７３０は、データを解凍することができる。同様に、データ記憶装置７１０は、マルチチャネルファイル７１５からオプションのビデオデコーダ７４０に任意のグラフィックスデータを提供する。ビデオデコーダ７４０は、ディスプレイ７４５の必要に応じて、そのグラフィックスデータを変換する。
【００８０】
選択ロジック７２０は、データ記憶装置７１０がオーディオデコーダ７３０およびビデオデコーダ７４０に提供するデータストリームを選択する。選択ロジック７２０は、システム７００の制御に使用されるボタン、スイッチ、または他のユーザインタフェースデバイスを含む。ユーザが、再生速度を変更すると、選択ロジック７２０は、新しい再生速度に対応するマルチチャネルファイル７１５のチャネルに切り換えるように、データ記憶装置７１０を指示する。ユーザが、ブックマークを選択すると、選択ロジック７２０は、ブックマークに対応するフレームインデックスにジャンプして、その新しいタイムインデックスからオーディオデータストリームおよびビデオデータストリームを再開するように、データ記憶装置７１０を指示する。選択ロジック７２０は、処理電力をほとんどまたは全く必要としない。その理由は、時間縮尺の選択またはブックマークの選択には、マルチチャネルファイル７１５からオーディオデータストリームおよびグラフィックスデータストリームの読み出す際にデータ記憶装置７１０が使用するパラメータ（例えば、チャネルまたはフレームインデックス）の変更のみが必要となるだけであることによる。
【００８１】
マルチチャネルファイル７１５のオーディオチャネルが、時間縮尺されたオーディオデータをすでに含むことから、スタンドアロンシステム７００は、時間縮尺のための処理電力を一切消費しない。したがって、スタンドアロンシステム７００は、バッテリ電力も処理電力も、まさにほとんど消費せず、それにもかかわらず、時間縮尺されたプレゼンテーションに、ユーザによる時間縮尺の実時間変更を提供することができる。特別に設計されたプレゼンテーション再生装置では、スタンドアロンシステム７００は、大規模な処理ハードウェアを必要としないので、低コストデバイスにすることができる。
【００８２】
本発明について、具体的な実施の形態を参照して記述してきたが、この記述は、本発明の応用例にすぎず、限定するものとして解釈されるべきではない。開示された実施の形態の特徴について、さまざまな適用および組み合わせが、特許請求の範囲によって定められる本発明の範囲内で存在する。
【産業上の利用可能性】
【００８３】
本発明は、ネットワークを介して送信されるプレゼンテーションについてのさまざまな再生速度に対応するさまざまなオーディオチャネルを有するマルチチャネルアーキテクチャを使用する、メディア符号化、送信、および再生のプロセスおよび構造に利用することができる。
【図面の簡単な説明】
【００８４】
【図１】本発明の実施の形態によるマルチチャネルメディアファイルを生成するプロセスを示すフローチャートである。
【図２Ａ】本発明の実施の形態によるマルチチャネルメディアファイルの構造を示す図である。
【図２Ｂ】本発明の実施の形態によるマルチチャネルメディアファイルのファイルヘッダの構造を示す図である。
【図２Ｃ】本発明の実施の形態によるオーディオチャネルの構造を示す図である。
【図２Ｄ】本発明の実施の形態によるオーディオフレームの構造を示す図である。
【図２Ｅ】本発明の実施の形態によるおよびデータチャネルの構造を示す図である。
【図３】本発明の実施の形態による、プレゼンテーションを作成するオーサリングツールのユーザインタフェースを示す。
【図４】本発明の実施の形態による、プレゼンテーションにアクセスし、プレゼンテーションを再生するアプリケーションのユーザインタフェースを示す。
【図５】本発明の実施の形態による再生動作のフローチャートである。
【図６】本発明の実施の形態によるプレゼンテーション再生装置の動作を示すブロック図である。
【図７】本発明の実施の形態によるスタンドアロンのプレゼンテーション再生装置のブロック図である。

Claims

プレゼンテーションを表すデータ構造を含む装置であって、前記データ構造は、
第１の時間縮尺率による時間縮尺後の前記プレゼンテーションのオーディオ部分を表す第１のオーディオチャネルと、
前記第１の時間縮尺率とは異なる第２の時間縮尺率による時間縮尺後の前記オーディオ部分を表す第２のオーディオチャネルと、
を備える装置。
前記第１のオーディオチャネルは、複数のフレームを備え、
前記第２のオーディオチャネルは、前記第１のオーディオチャネルの前記複数のフレームと１対１に対応する複数のフレームを備え、
前記第１のオーディオチャネルおよび前記第２のオーディオチャネルの対応するフレーム同士は、前記プレゼンテーションの同じ時間間隔を表す、
請求項１に記載の装置。
前記第１のオーディオチャネルの各フレームは、第１の圧縮方法を用いて個別に圧縮される、請求項２に記載の装置。
前記データ構造は、前記第１の時間縮尺率による時間縮尺後の前記オーディオプレゼンテーションを表す第３のオーディオチャネルをさらに備え、前記第３のオーディオチャネルの各フレームは、第２の圧縮方法を用いて個別に圧縮される、請求項３に記載の装置。
前記データ構造は、前記オーディオプレゼンテーションと関連したグラフィックスを特定するデータチャネルをさらに備える、請求項１に記載の装置。
前記第１のオーディオチャネルは、複数のフレームを備え、各フレームは、該フレームが表す前記オーディオ部分の時間間隔を特定するインデックス値を有し、
前記第２のオーディオチャネルは、複数のフレームを備え、当該第２のチャネルの各フレームは、該フレームが表す前記オーディオ部分の時間間隔を特定するインデックス値を有する、
請求項１に記載の装置。
前記第１のデータチャネルおよび前記第２のデータチャネルの各フレームは、個別に圧縮される、請求項６に記載の装置。
前記データ構造は、複数のブックマークに対応するデータチャネルをさらに備え、各ブックマークは、インデックス値を有し、かつ、グラフィックスを特定し、前記インデックス値は、前記第１のオーディオチャネルまたは前記第２のオーディオチャネルの前記フレームの再生に対する前記グラフィックスの表示時刻を示す、請求項６に記載の装置。
ネットワークに接続されたサーバを備える、請求項１に記載の装置。
前記データ構造が記憶されるデータ記憶装置と、
前記データ記憶装置からのデータストリームを受信するように接続され、かつ、前記データストリームを、知覚できるプレゼンテーション用に変換するデコーダと、
前記データ記憶装置に結合され、かつ、前記第１のオーディオチャネルおよび前記第２のオーディオチャネルを含むチャネルのセットの中から前記データストリームの情報源チャネルを選択できる選択ロジックと、
を備える請求項１に記載の装置。
バッテリ電力で稼動するスタンドアロンデバイスである、請求項１０に記載の装置。
オーディオプレゼンテーションを表すデータ構造であって、時間縮尺後の前記オーディオプレゼンテーションを表す複数のオーディオチャネルを備えるデータ構造、を含む装置であって、
各オーディオチャネルは、対応する時間縮尺率を有し、かつ、複数のオーディオフレームを含み、
各オーディオフレームは、該オーディオフレームを同じチャネル内の他のオーディオフレームとユニークに区別し、かつ、該オーディオフレームを、他のオーディオチャネルの特定のオーディオフレームに対応するものと特定するフレームインデックスを有する、装置。
異なるチャネルに存在して、同じフレームインデックスを有するオーディオフレーム同士は、前記オーディオプレゼンテーションの同じ部分を表す、請求項１２に記載の装置。
オーディオデータを符号化する方法であって、
前記オーディオデータに対して複数の時間縮尺プロセスを実行することであって、それによって、異なる時間縮尺率をそれぞれ有する複数の時間縮尺されたオーディオデータセットを生成する、実行することと、
前記複数の時間縮尺プロセスにそれぞれ対応する複数のオーディオチャネルを含むデータ構造を生成することと、
を含み、
前記オーディオチャネルのそれぞれの内容は、前記オーディオデータに対して、対応する時間縮尺プロセスを実行した結果生成された前記時間縮尺されたオーディオデータセットから導出される、方法。
前記データ構造を生成することは、
それぞれの時間縮尺されたオーディオデータセットを複数のフレームに分割することと、
それぞれのフレームを個別に圧縮することであって、それによって、圧縮されたフレームを生成する、圧縮することと、
前記異なる時間縮尺率のうちの対応する１つをそれぞれ有する前記複数のオーディオチャネルに、前記圧縮されたフレームを収集することと、
を含む請求項１４に記載の方法。
前記分割することの結果として生成されるすべてのフレームは、前記オーディオデータにおける同じ時間量に対応する、請求項１５に記載の方法。
前記それぞれのフレームを個別に圧縮することは、複数の異なる圧縮プロセスを適用することであって、それによって、それぞれのフレームから複数の圧縮されたフレームを生成する、適用することを含む、請求項１５に記載の方法。
前記圧縮されたフレームを収集することは、オーディオチャネルを生成し、その結果、各オーディオチャネルにおいて、該オーディオチャネルのすべての圧縮されたフレームが、同じ時間縮尺および圧縮プロセスを有するようにする、請求項１７に記載の方法。
プレゼンテーションを再生する方法であって、
第１の時間縮尺率による縮尺後の前記プレゼンテーションの第１の部分を表す第１のフレームを、ネットワークを介して情報源から再生装置にロードすることであって、該第１のオーディオフレームは、該第１のオーディオフレームを前記第１の時間縮尺率によって縮尺されたものと特定する第１のチャネルインデックス値を有する、ロードすることと、
前記第１のオーディオフレームからのデータに基づいて、前記プレゼンテーションの前記第１の部分を再生することと、
前記第１の時間縮尺率から第２の時間縮尺率へ再生を変更する要求を受信することと、
第２のオーディオフレームを前記情報源に要求することであって、該第２のオーディオフレームは、該第２のフレームを前記第２の時間縮尺率によって縮尺されたものと特定する第２のチャネルインデックス値を有する、要求することと、
前記第１の後に前記第２のフレームを再生することであって、それによって、前記プレゼンテーションの時間縮尺の実時間の変更を提供する、再生することと、
を含む方法。
前記第１のフレームは、該第１のオーディオフレームが表す前記プレゼンテーションの前記第１の部分を特定する第１のフレームインデックス値を有し、前記第２のフレームは、前記第１のオーディオフレームが表す前記プレゼンテーションの第２の部分を特定する第２のインデックス値を有する、請求項１９に記載の方法。
前記第２のインデックス値は、前記第１のタイムインデックス値の直後に続く、請求項２０に記載の方法。
フレームのチャネルインデックス値が、該フレームについてのそれぞれの圧縮プロセスをさらに示し、方法は、
前記ネットワーク上の利用可能な帯域幅を判断することと、
前記第２の時間縮尺率を特定する複数のチャネルインデックス値から、前記利用可能な帯域幅において最高のオーディオ品質を提供する圧縮プロセスを示す前記第２のチャネルインデックス値を選択することと、
をさらに含む請求項１９に記載の方法。
フレームのチャネルインデックス値が、該フレームについてのそれぞれの圧縮プロセスをさらに示し、方法は、
前記ネットワーク上の利用可能な帯域幅を判断することと、
前記第２の時間縮尺率を特定する複数のチャネルインデックス値から、前記利用可能な帯域幅において最高のオーディオ品質を提供する圧縮プロセスを示す第３のチャネルインデックス値を選択することと、
第３のオーディオフレームを前記情報源に要求することであって、該第３のオーディオフレームは、第３のオーディオフレームを前記第２の時間縮尺率によって時間縮尺されたものと特定する前記第３のチャネルインデックス値を有する、要求することと、
前記第２のフレームの後に前記第３のフレームを再生することであって、それによって、前記プレゼンテーションの前記時間縮尺の実時間の変更を提供する、再生することと、をさらに含む請求項１９に記載の方法。
オーディオプレゼンテーションを表すマルチチャネルデータ構造を有する情報源にネットワークを介して接続される受信機上で、前記オーディオプレゼンテーションを再生する方法であって、
前記ネットワーク上の利用可能な帯域幅を判断することと、
前記利用可能な帯域幅において最高のオーディオ品質を提供する圧縮プロセスを用いて圧縮されたデータを含む、前記マルチチャネルデータ構造の第１のチャネルを、所望の時間縮尺率による時間縮尺後の前記オーディオプレゼンテーションを表す複数のチャネルから選択することと、
前記第１のチャネルから第１のフレームを受信することと、
前記第１のフレームを再生することと、
を含む方法。
前記第１のフレームの受信後に、前記ネットワーク上で利用可能な帯域幅を判断することと、
前記第１のフレームの受信後に利用可能な前記帯域幅において最高のオーディオ品質を提供する第２の圧縮プロセスを用いて圧縮されたデータを含む、前記マルチチャネルデータ構造の第２のチャネルを、前記所望の時間縮尺率による時間縮尺後の前記オーディオプレゼンテーションを表す前記複数のチャネルから選択することと、
前記第２のチャネルから第２のフレームを受信することと、
前記第１のフレームの再生後に前記第２のフレームを再生することと、
をさらに含む請求項２４に記載の方法。
ウェブページの表示を制御する方法であって、
一連のウェブページを、プレゼンテーションのオーディオ部分を表すオーディオデータのそれぞれのインデックス値に割り当てることと、
前記オーディオデータから生成されるオーディオを再生することと、
前記再生することが、前記オーディオデータにおいて、前記ウェブページに割り当てられたインデックス値に達したことに応答して、各ウェブページを表示することと、
を含む方法。
前記一連のウェブページを割り当てることは、
前記オーディオデータを一連のフレームに分割することと、
前記フレームのそれぞれに異なるインデックス値を割り当てることと、
フレームの前記インデックス値に各ウェブページを割り当てることと、
を含み、
前記ウェブページは、前記フレームが再生されている間、表示される、
請求項２６に記載の方法。
前記一連のウェブページを割り当てることは、
前記オーディオデータをともに構成するオーディオフレームを含むオーディオチャネルと、
各ウェブページについて、該ウェブページへのリンクおよび該ウェブページに対応するオーディオフレームを特定するフレームインデックス値を含むデータチャネルと、
を含むデータ構造を作成することを含む、請求項２６に記載の方法。
前記一連のウェブページをそれぞれのインデックス値に割り当てることは、各ウェブページを開始インデックス値および停止インデックス値に割り当てることを含み、前記ウェブページは、前記開始インデックス値と前記停止インデックス値との間のインデックス値を有するフレームの再生中に表示される、請求項２６に記載の方法。
計算機システム上で再生するためのプレゼンテーションを制作する方法であって、
前記プレゼンテーション用のオーディオデータにタイムインデックス値を割り当てることと、
前記プレゼンテーション用のグラフィックスデータによって表される各画像に、前記タイムインデックス値の範囲を割り当てることと、
前記オーディオデータおよび前記グラフィックスデータを含むファイルを構築することであって、該ファイルは、各画像の表示が、該画像に割り当てられた前記範囲内のタイムインデックス値を割り当てられた前記オーディオデータの再生中に起こることを示すフォーマットを有する、構築することと、
を含む方法。
前記グラフィックスデータは、ネットワーク上で利用可能なデータを特定するリンクを備え、前記リンクと関連した前記画像の表示は、該リンクが特定するデータを取り出すことを含む、請求項３０に記載の方法。
前記リンクは、ウェブページを特定し、前記リンクと関連した前記画像の表示は、前記ウェブページを表示することをさらに含む、請求項３１に記載の方法。
前記グラフィックスデータは、前記ファイルに組み込まれた画像データを備え、前記画像を表示することは、前記画像データが表す画像を表示することを含む、請求項３０に記載の方法。
前記オーディオ部分にタイムインデックス値を割り当てることは、前記フレームの再生の順序に応じたタイムインデックス値をそれぞれ有する複数のフレームに、前記オーディオデータを分割することを含み、
前記ファイルを構築することは、前記フレームをオーディオチャネルに収集することを含む、
請求項３０に記載の方法。
前記グラフィックスデータをデータチャネルに収集することをさらに含む、請求項３４に記載の方法。
前記タイムインデックス値の前記範囲を前記画像に割り当てることは、
前記オーディオデータのタイムスパンを表すことと、
前記タイムスパンの点を選択することと、
前記選択された点に割り当てられる前記画像の１つを選択することと、
を含む請求項３０に記載の方法。