JP2010539619A - スライドショーイベントと音声の同期化 - Google Patents

スライドショーイベントと音声の同期化 Download PDF

Info

Publication number
JP2010539619A
JP2010539619A JP2010525874A JP2010525874A JP2010539619A JP 2010539619 A JP2010539619 A JP 2010539619A JP 2010525874 A JP2010525874 A JP 2010525874A JP 2010525874 A JP2010525874 A JP 2010525874A JP 2010539619 A JP2010539619 A JP 2010539619A
Authority
JP
Japan
Prior art keywords
audio
event
events
video
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010525874A
Other languages
English (en)
Other versions
JP5349482B2 (ja
Inventor
リ バーン−ワン
チャン ルイ カイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2010539619A publication Critical patent/JP2010539619A/ja
Application granted granted Critical
Publication of JP5349482B2 publication Critical patent/JP5349482B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • G06F16/447Temporal browsing, e.g. timeline
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/2368Multiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43072Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of multiple content streams on the same device
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44012Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving rendering scenes according to scene graphs, e.g. MPEG-4 scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4858End-user interface for client configuration for modifying screen layout parameters, e.g. fonts, size of the windows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本明細書では、スライドショーイベントを音声と同期させるための技術を説明する。1つまたは複数の動画イベント、スライドの遷移、または視覚効果を定義するデータと、該定義されたイベントの実行中に再生されるべき音声ファイルとを受信する。音声ファイルを処理して、該音声ファイル中に含まれる音声イベントを識別する。音声ファイル内の音声イベントが識別されると、該音声イベントをどのように動画イベントに同期させるべきかを定義するデータを含む音声同期スキームを使用して、定義された動画イベントを、識別された音声イベントに同期させる。プレゼンテーションに適用される音声同期スキームをユーザが選択することを可能にするユーザインタフェースを提供することができる。ユーザが、ある動画イベントを音声ファイル内の識別された任意の音声イベントに視覚的に関連付けることを可能にする、ユーザインタフェースも提供することができる。

Description

本発明は、スライドショーイベントを音声と同期させることに関する。
プレゼンテーションアプリケーションプログラムは、オーディオビジュアルプレゼンテーションを作成して配信するための機能を提供する。典型的に、プレゼンテーションは、1つまたは複数のプレゼンテーションスライドの形式をとる。各プレゼンテーションスライドは、テキスト、写真、リスト、テーブル、チャート、形状(shape)、クリップアート、ムービーなどの多数のオブジェクトを含むことができる。プレゼンテーションを配信するために、プレゼンテーションスライドをスクリーン上に表示して、ユーザの命令をナビゲートすることができる。
多くのプレゼンテーションアプリケーションプログラムは、各プレゼンテーションスライド上のオブジェクトを動画化(animate)して視覚効果(visual effects)を適用するため、およびプレゼンテーションスライド間の遷移(transition)を動画化して視覚効果を適用するための機能を提供する。例えば、典型的なプレゼンテーションアプリケーションプログラムによって提供される機能を使用して、ユーザは、プレゼンテーションスライドのあるオブジェクトの動作経路(motion path)を定義することができる。プレゼンテーションスライドが表示されるとき、プレゼンテーションアプリケーションプログラムは、オブジェクトが、定義された動作経路に沿って動画化されるようにする。ユーザは、プレゼンテーションオブジェクトに同様に適用される他の種類の動画(animation)および視覚効果のプロパティを手動で定義することができる。
多くのプレゼンテーションアプリケーションプログラムは、プレゼンテーションの間に音声ファイルを再生するための機能も提供する。しかしながら、プレゼンテーション内の動画イベントを、音声ファイル内の関心のある時点に同期させることは、従来、ユーザにとって困難であった。例えば、ユーザは、音声ファイルのメインビート(main beat)が再生される度に、あるプレゼンテーション内のテキストおよびグラフィックスの動画を出現させたいことがある。ユーザは以前、音声ファイルを繰り返し聞いて、音声ファイル内の関心のある音声イベントを識別し、次にスライドショーイベントの開始時間を、該手動で識別された音声イベントに手動で合わせることによって、これを達成していた。これは、ユーザを苛立たせる単調で時間のかかる処理であり、そしてほとんどの場合、決して理想的とは言えない結果をもたらす。
これらの検討事項および他の事項に関して本明細書の開示を提示する。
本明細書では、スライドショーイベントを音声と同期させるための技術を説明する。特に、本明細書で提示される技術および概念を用いることにより、音声ファイル内の音声イベントを、自動化された方法で識別することができる。例えば、音声ファイル内のメインビート、サイレントパッセージ(silent passages)、またはインストルメンタルパッセージ(instrumental passages)を識別することができる。識別された音声イベントは、次に、動画、視覚効果、およびスライドの遷移などのスライドショーイベントに、同様に自動化された方法で同期される。このようにして、ユーザが音声イベントを手動で識別し、または音声イベントをスライドショーイベントに手動で同期させる必要なく、音声イベントをスライドショーイベントに容易に同期させることができる。
本明細書に提示される一態様によると、1つまたは複数の動画イベント、スライド遷移または映像効果を定義するデータが受信される。例えば、ユーザは、グラフィカルユーザインタフェースを利用してこれらのイベントを定義することができる。ユーザは、定義されたイベントの実行時に再生される音声ファイルを指定することもできる。音声ファイルを処理して、その中に含まれる音声イベントを特定する。音声イベントは、ビート、インストルメンタルパッセージ、サイレントパッセージなどの任意の重要な可聴イベント(audible event)が、音声ファイル内で再生されるポイントを表す。一態様によると、音声イベントは、音声ファイル内の音声のオンセット(onsets;始まり)を見つけることによって識別される。音声オンセットは、音声ファイルにおいて、特定の周波数における音声のエネルギーレベルが、指定の閾値を超えるまたはそれに満たない時点である。見つかった音声オンセットをフィルタリングすることで、同期に適した数の音声イベントが提供される。
音声ファイル内の音声イベントが識別されると、上記定義された動画イベントは、音声同期スキームを使用して該識別された音声イベントに同期される。音声同期スキームは、音声イベントをどのように動画イベントに同期させるかについて定義するデータを含む、「レシピ(recipe)」である。例えば、諸実施形態によると、音声同期スキームのデータは、各音声イベントと対応する動画イベントとの間のオフセットを指定する。このようにして、音声イベントが発生する前、同じ時点、またはその後に、動画イベントをトリガする命令を提供することができる。
他の実施形態において、音声同期スキームのデータは、各音声イベントを、対応する動画イベントの開始と同期させるべきか、または対応する動画イベントの終わりと同期させるべきかを指定する。該データは、音声イベントの全てを動画イベントと同期させるべきか、またはその一部を動画イベントと同期させるべきかを指定することもできる。例えば、このようなデータを4つごとに使用して、音声イベントを動画イベントと同期させることができる。データは、音声イベントの一部をどのように選択するかについて指定することもできる。同様に、音声イベントを動画イベントと同期させる方法を定義する他の種類の命令を、音声同期スキームに提供することもできる。
複数の音声同期スキームの定義を通じて、動画イベントを音声と同期させるための様々な「ムード(mood)」を生成することができる。一実施形態において、ユーザが、プレゼンテーションに適用すべき音声同期スキームを選択できるようにする、ムードギャラリー(mood gallery)ユーザインタフェースを提供する。音声同期スキームに、プレゼンテーションに適用されるときに伝える「ムード」を示す名前を付けることができる。例えば、楽しい(happy)または説得力のある(persuasive)ムードを伝えるように音声同期スキームを定義することができる。
他の実施形態によると、時間軸(timeline)に沿って音声ファイルの波形(waveform)を表示するユーザインタフェースも提供される。識別された音声イベントに対応するインジケータも波形上に表示される。該ユーザインタフェースは、ユーザが手動で動画イベントを波形上に示される音声イベントと関連付けることも可能にする。例えば、適切なユーザ入力デバイスを使用して、ユーザは、時間軸に沿って動画に対応するオブジェクトを移動させることがある。それに応じて、動画イベントの開始および/または終了時間が、波形上に示される音声イベントに対応するインジケータにスナップ(snap)する。このようにして、本明細書において提供されるユーザインタフェースは、ユーザが動画イベントを音声ファイル内の識別された任意の音声イベントと視覚的に関連付けることを可能にする。
本明細書に提示される機能は、プレゼンテーションアプリケーションプログラムのコンテキストで説明されるが、オブジェクトを動画化し、視覚効果を実施し、または遷移を表示するとともに、音声の録音帯(soundtrack)を再生するための機能を提供する、任意の種類のコンピュータプログラムで、これらの機能を利用することもできることを理解されたい。上述の本願発明の対象は、コンピュータ制御される装置、コンピュータプロセス、コンピューティングシステムとして、またはコンピュータ読み取り可能媒体などの製品としても実装され得ることを理解されたい。これらの機能および他の機能は、以下の発明の詳細な説明を読み、関連する図面を精査することによって明らかになるであろう。
この「課題を解決するための手段」の記載は、以下の発明の詳細な説明において詳述される概念の選択を、簡略化した形式で導入するため提供している。この「課題を解決するための手段」の記載は、特許請求される対象の重要な特徴または不可欠な特徴を特定するようには意図されておらず、特許請求される対象の範囲を限定するように用いられることも意図されていない。さらに、特許請求される対象は、本開示の任意の部分において指摘される欠点の一部またはすべてを解決する実装には限定されない。
本明細書で提示される一実装において提供されるプレゼンテーションアプリケーションの態様を示すソフトウェアアーキテクチャ図である。 本明細書で説明される一実装において、スライドショーイベントを音声イベントと同期させるための例示的なルーチンを示すフロー図である。 本明細書で提示される一実装において、ユーザが音声同期スキームを選択する例示的なムードギャラリーを示しているユーザインタフェースを示す図である。 本明細書で提示される一実装にかかる、音声ファイル内の音声イベントを識別するための例示的なプロセスを示すプロセス図である。 本明細書で提示される一実装において、音声ファイル内の音声オンセットを識別するためのソフトウェアアーキテクチャの態様を示すソフトウェアアーキテクチャ図である。 本明細書で提示される一実施形態によって提供されて利用されるオンセット検出器の態様を示すソフトウェアアーキテクチャ図である。 一実施形態にかかる、音声ファイル内の音声イベントを表示し、その音声イベントをプレゼンテーションドキュメント内のスライドショーイベントに手動で割り当てるための例示的なユーザインタフェースを示す図である。 本明細書に提示される実施形態を実装することができるコンピューティングシステムの例示的なコンピュータハードウェアおよびソフトウェアのアーキテクチャを示す、コンピュータアーキテクチャ図である。
以下の詳細な説明は、スライドショーイベントを音声イベントと同期させるための技術を対象とする。本明細書に提示される実施形態の使用により、ユーザが音声イベントを手動で識別し、または音声イベントをスライドショーイベントに手動で同期させることを必要とせずに、音声ファイル内の音声イベントを自動化された方式で識別し、該音声イベントを、動画、視覚効果、およびスライド遷移などのスライドショーイベントに同期させることができる。本明細書に提示される様々な実施形態に関するさらなる詳細を、以下で図1−8を参照して提供する。
本明細書で説明される対象は、コンピュータシステムにおけるオペレーティングシステムおよびアプリケーションプログラムの実行とともに実行する、プログラムモジュールの一般的なコンテキストで提示されるが、当業者には、他の種類のプログラムモジュールとの組み合わせにおいて他の実装を実施できることが認識されよう。一般的に、プログラムモジュールは、ルーチン、プログラム、コンポーネント、データ構造、および特定のタスクを実行し、または特定の抽象データ型を実装する他の種類の構造を含む。さらに、当業者には、本明細書で説明される対象を、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースもしくはプログラム可能な家庭用電化製品、ミニコンピュータ、およびメインフレームコンピュータなどを含む、他のコンピュータシステムで実施することができることが認識されよう。
以下の詳細な説明において、その一部を形成し、特定の実施形態または例示の説明として示される、添付の図面を参照する。図面を参照すると、同様の数字が複数の図を通じて同様の要素を表しており、該図面を参照してスライドショーイベントおよび音声イベントを同期させるコンピュータシステムと方法の態様を説明する。
図1を参照して、本明細書に提示されるスライドショーイベントを音声イベントと同期させるための一実施形態に関する詳細を説明する。具体的には、図1は、本明細書に提示される一実施形態に従って、スライドショーイベントを同期させるのに利用されるソフトウェアアーキテクチャの態様を図示している。図1に示されるように、本明細書に提示される実施形態は、プレゼンテーションアプリケーションプログラム102のコンテキストで説明される。プレゼンテーションアプリケーション102は、オーディオビジュアルプレゼンテーションを作成し配信するための機能を提供する。典型的には、プレゼンテーションは、プレゼンテーションドキュメント104内に含まれる1つまたは複数のプレゼンテーションスライド106A−106Cの形をとる。プレゼンテーションスライド106A−106Cはそれぞれ、テキスト、写真、リスト、テーブル、形状、クリップアート、およびムービーなど、多数のオブジェクト108A−108Cを含むことができる。他の種類のオーディオビジュアルオブジェクトを利用することもある。プレゼンテーションドキュメント104で定義されるプレゼンテーションを配信するために、ユーザの命令によって、プレゼンテーションスライド106A−106Cをコンピュータのディスプレイスクリーン上に表示し、ナビゲートすることができる。
プレゼンテーションアプリケーション102は、オブジェクト108A−108Cを動画化し、視覚効果を該オブジェクト108A−108Cおよびプレゼンテーションスライド106A−106C間の遷移に適用するための機能も含む。例えば、ユーザは、プレゼンテーションアプリケーション102によって提供される機能を利用して、オブジェクト108A−108Cに対する動画イベント107A−107Cを作成することができる。図1に示される動画イベント107A−107Cは、オブジェクト108A−108Cを動作経路に沿って移動させる。しかしながら、他の種類の2次元の動画および3次元の動画を定義してもよいことを認識されたい。同様に、視覚効果をオブジェクト108A−108Cに適用することができる。例えば、オブジェクト108A−108Cをフェードイン/フェードアウトまたはディゾルブ(dissolve)させる視覚効果を定義することができる。プレゼンテーションスライド106A−106Cのうちの2つスライド間の切り替えの間または遷移の間に動画効果(animation effects)または視覚効果を表示する、遷移効果(transition effects)も定義することもできる。スライドショーイベントは、動画イベント、視覚効果、遷移イベント、およびプレゼンテーションアプリケーションプログラム内で定義され得る任意の他の種類の視覚イベントを含む。
一実施形態において、プレゼンテーションアプリケーション102は、音声ファイル114の音声イベントを、定義されたスライドショーイベントに同期させるための機能も含む。この機能を提供するために、プレゼンテーションアプリケーション102は、音声ファイル114内の音声イベントを識別するための処理を実行する音声同期コンポーネント112を含む。この処理は、以下で図4−6を参照して説明する。プレゼンテーションアプリケーション102は、識別された音声イベントを、プレゼンテーションドキュメント104内で定義されたスライドショーイベントと同期させるための機能も提供する。これに関してプレゼンテーションアプリケーション102は、音声同期コンポーネント112によって作成される音声イベントとスライドショーイベントの同期をユーザが手動で調整できるようにする、ユーザインタフェースも提供する。このユーザインタフェースに関する詳細は、以下で図7に関連して提供する。
本明細書に提示される様々な実施形態によると、音声同期コンポーネント112は、音声同期スキーム110Aを利用して、音声イベントをどのようにスライドショーイベントと同期させるべきかを決定する。音声同期スキーム110Aは、音声イベントをどのようにスライドショーイベントと同期させるべきかを定義するデータを含む、「レシピ」である。例えば、諸実施形態によると、音声同期スキーム110A内のデータは、各音声イベントと対応する動画イベントとの間のオフセットを指定する。このようにして、音声イベントの発生の前、同じ時点、またはその後にスライドショーイベントをトリガする命令を提供することができる。
他の実施形態において、音声同期スキーム110A内のデータは、各音声イベントを、対応する動画イベントの開始と同期させるべきか、またはその終わりと同期させるべきかを指定する。該データは、音声イベントの全てを動画イベントに同期させるべきか、またはその一部を動画イベントに同期させるべきかを指定することもできる。例えば、このようなデータを4つごとに使用して、音声イベントを動画イベントと同期させることができる。データは、音声イベントの一部がどのように選択されるべきかを指定することもできる。音声イベントを動画イベントと同期させる方法を定義する他の種類の命令を、音声同期スキーム110Aに同様に提供することができる。
複数の音声同期スキーム110A−110Cの定義により、動画イベントを音声と同期させるための異なる「ムード」を作成することができる。一実施形態において、ユーザが、プレゼンテーションドキュメント104に適用されるべき音声同期スキーム110A−110Cのうち1つを選択できるようにする、ムードギャラリーユーザインタフェースが提供される。音声同期スキーム110A−110Cには、プレゼンテーションに適用されるときに伝える「ムード」を説明する名前を与えることができる。例えば、楽しいというムードまたは説得力があるというムードを伝える音声同期スキームを定義することができる。ムードギャラリーユーザインタフェースに関するさらなる詳細を、以下で図3に関連して提供する。
図2を参照しながら、本明細書に提示されるスライドショーイベントを音声イベントと同期させるための実施形態に関するさらなる詳細を説明する。具体的には、図2は、スライドショーイベントを音声イベントと同期させるルーチン200を説明するフロー図を示している。本明細書で説明される論理的動作は、(1)コンピュータシステム上で実行する、コンピュータで実装されるアクトまたはプログラムモジュールのシーケンスとして、および/または(2)コンピュータシステムにおいて相互接続されるマシンの論理回路または回路モジュールとして実装されることを認識されたい。その実装は、コンピュータシステムの性能および他の要件に応じて選択されることである。したがって、本明細書で説明される論理的動作は、動作、構造デバイス、アクト、またはモジュールなどと様々に呼ばれる。これらの動作、構造デバイス、アクト、およびモジュールを、ソフトウェア、ファームウェア、専用のデジタルロジック、およびこれらの任意の組み合わせで実装することができる。図面で示され、本明細書で説明される動作よりも少ない動作、または多くの動作を実行することもあることを認識されたい。これらの動作を、本明細書で説明されるものとは異なる順序で実行することもできる。
ルーチン200は、ユーザはプレゼンテーション内のスライドショーイベントを定義する、動作202から開始する。例えば、プレゼンテーションアプリケーション102によって提供される機能を利用して、ユーザは、動画イベント、視覚効果、遷移イベント、またはオブジェクト108A−108Cもしくはプレゼンテーションスライド106A−106Cに対する他の種類のイベントを定義することができる。ユーザが所望のスライドショーイベントを生成すると、ルーチン200は動作202から動作204に進む。
動作204において、プレゼンテーションアプリケーション102は、音声ファイル114の選択を受信する。例えば、一実装において、ユーザは、上記動作202で定義したスライドショーイベントのプレゼンテーション中に再生されるべき音声ファイル114を、指定することができる。音声ファイル114を、標準のWAV音声ファイル、MP3音声ファイルとしてフォーマットしてもよく、または別の種類の音声フォーマットを利用してフォーマットしてもよい。音声ファイル114は、別の種類のファイル内に含まれてもよいことも認識されたい。例えば、音声ファイル114は、ビデオファイル内に含まれる音声データを備えることがある。このような実施形態では、本明細書に提示される態様を利用して、スライドショーイベントをビデオファイル内の音声イベントに同期させることができる。これは、ビデオファイルに適用される効果、遷移、および他の種類の機能と、該ビデオファイル内に含まれる音声データとの同期も可能にする。
ユーザが、スライドショーイベントと同期させる音声ファイル114を選択すると、ルーチン200は動作206に続く。動作206において、ユーザは、音声ファイル114内の音声イベントを、定義されたスライドショーイベントに同期させる際に使用される、音声同期スキーム110A−110Cのうち1つを選択することができる。一実装によると、図3に示される「ムード」ギャラリーユーザインタフェース300を提示することで、ユーザが所望の音声同期スキーム110を選択できるようにする。図3に示されるように、「ムード」ギャラリーユーザインタフェース300は、複数のユーザインタフェースボタン302A−302Fを含み、各ボタン302は、特定の音声同期スキーム110に対応している。
一実装において、動画イベントを音声と同期させるための異なる「ムード」を伝達する、複数の音声同期スキーム110A−110Cが作成される。音声同期スキーム110A−110Cには、プレゼンテーションに適用されたときに伝達する「ムード」を説明する名前も与えられる。これらの名前を、各音声同期スキームに対応するボタン302A−302Fに反映することもできる。例えば、ボタン302Aは、その音声同期スキームがプレゼンテーションに適用されるときに、該音声同期スキームで定義されたスライドショーイベントを音声ファイル114の音声イベントに断定的に(assertive way)同期させる、音声同期スキームに対応する。ユーザは、適切なユーザ入力デバイスを利用して、ボタン302A−302Fの1つ、および対応する音声同期スキーム110を選択する。
図2に戻ると、動作206で音声同期スキーム110が選択されると、ルーチン200は動作208に進む。動作208において、選択された音声ファイル114の音声イベントが識別される。音声ファイル114内で関心のある音声イベントを識別するための一例示的な処理に関する詳細を、以下で図4−6に関連して提供する。音声ファイル114内の音声イベントが識別されると、ルーチン200は、動作210から動作212に進む。
動作212において、音声同期コンポーネント112は、上記動作202で定義されたスライドショーイベントを、動作208で識別された音声イベントと同期させる。具体的には、一実施形態によると、音声同期コンポーネント112は、識別された音声イベントに対応するように、定義されたスライドショーイベントのタイミングを調整する。一実装において、これは、上記動作206で選択された音声同期スキーム110を使用して行われる。選択された音声同期スキーム110のコンテンツに基づいて、音声イベントを、対応するスライドショーイベントの開始または終わりに同期させることができ、該音声イベントの全てまたは一部をスライドショーイベントと同期させることができ、あるいは所望の「ムード」を提供するように、スライドショーイベントを音声イベントに同期させる方法に他の変更を加えることもできる。
スライドショーイベントが識別された音声イベントと同期されると、ルーチン200は、動作212に進み、該動作212では、ユーザに、音声同期コンポーネントによって行われた同期を手動で調整する機会を提供する。例えば、一実装では、ユーザがスライドショーイベントと音声イベントとの間の同期を手動で調整することが可能な、ユーザインタフェースを提供する。この処理を実行するための一例示的なユーザインタフェースを以下で図7に関して説明する。ユーザがすべての調整を終えると、音声ファイル114とスライドショーイベントを同時に再生することができる。ルーチン200は、動作212から動作214に進み、そこで動作が終了する。
図4は、音声ファイル114内の1つまたは複数の音声イベント410を識別するための本明細書で提供される一例示的な処理の概略を示す。上記に簡単に論じたように、音声イベント410は、ビート、インストルメンタルパッセージ、サイレントパッセージなどの音声ファイル内の重要な可聴イベントがあるポイントを表す。音声イベント410は、音声ファイル114内で音声オンセット406を見つける音声オンセット検出プロセス404を実行することによって識別される。音声オンセット406は、音声ファイルにおいて、特定の周波数の音声のエネルギーレベルが、指定の閾値を超えるかまたはそれに満たない時点である。一実施形態において利用される例示的な音声オンセット検出プロセス404に関する詳細を、以下で図5−6に関連して提供する。
一実装では、フィルタリングプロセス408を利用して、見つかった音声オンセット406をフィルタリングすることにより、同期に適した数の音声イベント410を提供する。これは、ポピュラー音楽において生の音声オンセットの間がしばしば密な間隔にあるためである。したがって、音声オンセット検出プロセス404によって識別された音声オンセット406は、同期の目的で音声オンセット406のうち適切な一部を選択するように、フィルタリングプロセス408によってさらに処理される。諸実施形態によると、フィルタリングプロセス408は、音声オンセット406間の平均間隔、平均間隔からの偏差、音声オンセット406の強さ(intensity)、または音声オンセット406を適切な数の音声イベント410へフィルタリングするための他の因子(factor)を利用することができる。
図5を参照して、図4に関連して簡単に上述した音声オンセット検出プロセス404を実行するための例示的なソフトウェアアーキテクチャ502を説明する。図5に示される実装では、音声ファイル114はロードされ、WAV音声フォーマットの生の音声サンプルの連続するストリームに変換される。これは、音声データを波形のサンプルに復号するMICROSOFT DIEWCTSHOWの技術を利用する、MEDIAGRAPH(メディアグラフ)クラス504によって行われる。
MEDIAGRAPHクラス504によって出力される音声サンプルストリームは、サンプルに対して短時間フーリエ変換(STFT:Short-Time Fourier Transform)を実行して周波数スペクトルのストリームを取得する、時間/周波数変換器(time-to-frequency converter)506に入力される。一実装において、時間/周波数変換器506は、音声サンプルのストリームにおけるスライディングウィンドウ(sliding window)として機能するバッファを保持する。このバッファが満杯のとき、時間/周波数変換器506は、最初に、窓関数(window function)をデータに適用して、バッファの両端のデータをゼロに近づける。次に、高速フーリエ変換(FFT:Fast Fourier Transform)アルゴリズムを使用して、フーリエ変換を、窓関数が適用されたデータ(windowed data)に適用する。スライディングウィンドウとして機能するバッファは、次いで、先に進んで新しい音声サンプルを受け取る。
窓関数の適用によるエネルギーの減衰を補うために、一実施形態において、スライディングウィンドウは、満杯のバッファサイズでは先に進まない。その代わりに、部分的なウィンドウの前進を可能にするために、重複因子(overlapping factor)を特定する。一実装において、時間/周波数変換器506は、次のパラメータ、すなわち、2048のサンプルのバッファサイズ、ハミング(Hamming)窓関数、および0.5の重複因子を使用する。この実装により、これらのパラメータの容易なカスタマイズも可能になる。例えば、代わりにハン(Hann)窓関数、および0.75の重複因子を利用することができる。ハミング窓関数およびハン窓関数は、当業者には周知である。
時間/周波数変換器506からの周波数スペクトルのストリームは、いくつかのサブバンドに対応するエネルギー値のストリームに変換される。これは、各サブバンド帯域幅に対応するFTT出力の容量の大きさを二乗して、それらを加算することによって行われる。図5に示される実装では、4つのサブバンド、すなわち、22Hz−256Hzと、256Hz−2048Hzと、2048Hz−8192Hzと、8192Hz−22050Hzがある(音声のサンプリングレートを44100Hzと仮定する)。任意のサブバンド分割を指定するようにサブバンドの範囲を変更することが可能であることを認識されたい。
エネルギー値ストリームをそれぞれ、対応するオンセット検出器(detector)508A−508Dに入れる。オンセット検出器508A−508Dはそれぞれ、時間値のリスト、すなわち音声オンセット406A−406Dを作成する。該音声オンセット406A−406Dでは、対応するエネルギー値に同調して急激なエネルギー変化が起きる。音声オンセット集積器(aggregator)510は、これらのサブバンドオンセット406A−406Dを組み合わせて、一組の音声オンセット406Eにする。オンセット検出器508A−508Dの動作に関するさらなる詳細を、以下で図6に関連して提供する。
図6に移り、オンセット検出器508に関するさらなる詳細を説明する。図6に示されるように、各オンセット検出器508は、ソースフィルタ602を含む。ソースフィルタ602は、入力値のストリームを受信して、そのデータ値に時間インデックスを付ける。各オンセット検出器508は、メジアンフィルタ604も含む。メジアンフィルタ604は、時間インデックスを付けられたデータストリームをソースフィルタ602から受信して、入力データのメジアンの移動平均を計算する。
メジアンフィルタ604の出力は、ピーク検出器606の閾値曲線(threshold curve)として使用される。ピーク検出器606は、ソースフィルタ602の出力をデータ入力として受信し、メジアンフィルタ604の出力を閾値入力として受信する。ピーク検出器606は、閾値を超えているデータの中のピークを識別する。ピーク検出器606の出力は、オンセット検出器508の出力である。図5−6を参照して説明したソフトウェアアーキテクチャおよび方法は単に例示であり、音声ファイル114の音声イベント410を識別する他の技術を利用することもできることを認識されたい。
図7を参照して、音声ファイル内の音声イベントを表示し、該音声イベントをプレゼンテーションドキュメント内のスライドショーイベントに手動で割り当てるための例示的なユーザインタフェース700を説明する。図7に示されるように一実施形態において、ユーザインタフェース700は、複数のレーン702A−702Dを含む。レーン702Aは、波形704の形式であり、音声ファイル114のコンテンツのグラフィカル表示を提供する。波形704とともに表示されるのは、音声ファイル114内で識別された音声イベント410に対応する、1つまたは複数のインジケータ706A−706Gである。インジケータ706A−706Gは、音声ファイル114内で識別された音声イベントそれぞれの位置を図形的に表している。
レーン702B−702Dは、任意に定義されたスライドショーイベントのタイミングを図形的に示している。例えば、図7に示される例において、3つのスライドショーイベントに対応するスライドショーイベントの時間オブジェクト708A−708Cが、レーン702A−702D内に表示されている。スライドショーイベントの時間オブジェクト708A−708Cの各々の幅は、イベントの時間を図形的に表している。
時間軸710に対する各スライドショーイベントの時間オブジェクト708A−708Cの位置は、対応するスライドショーイベントが実行される時間を表す。図7に示される例において、イベントの時間オブジェクト708Aは、インジケータ706Bに合っているので、これは、対応するスライドショーイベントが、インジケータ706Bに対応する音声イベントの時間にトリガされることを示す。イベントの時間オブジェクト708Bは、インジケータ706Dに合っているので、対応するスライドショーイベントが、インジケータ706Dに対応する音声イベントの時間にトリガされることを示す。イベントの時間オブジェクト708Cは、インジケータ706Fに合っているので、対応するスライドショーイベントが、インジケータ706Fに対応する音声イベントの時間にトリガされることを示す。したがって、ユーザインタフェース700は、音声同期コンポーネント112によって、音声イベントがどのようにスライドショーイベントと同期されたかを示すグラフィカル表示を提供することを認識されたい。
一実施形態によると、図7に示されるユーザインタフェース700は、スライドショーイベントと波形704上に表された音声イベントとの同期を、ユーザが手動で調整することを可能にするための機能も提供する。例えば、適切なユーザ入力デバイスを使用して、ユーザは、時間軸710に沿ってイベントの時間オブジェクト708A−708Cの1つを移動させることができる。それに応じて、イベントの時間オブジェクトの開始および/または終了時間が、波形704上に示される音声イベントに対応するインジケータ706A−706Gに「スナップ」する。このようにして、本明細書で説明されるユーザインタフェース700は、ユーザが、スライドショーイベントを音声ファイル114内で識別された任意の音声イベント410と視覚的に関連付けることができるようにする。図7に示されるユーザインタフェース700は単に例示であり、この機能を提供するための他の種類のユーザインタフェースの実装も利用できることを認識されたい。
図8は、上記に提示された方法でスライドショーイベントを音声イベントと同期させるための本明細書で説明されたソフトウェアコンポーネントを実行することが可能なコンピュータ800に関する、例示的なコンピュータアーキテクチャを示す。図8で示されるコンピュータアーキテクチャは、標準のデスクトップ、ラップトップまたはサーバコンピュータを示し、該コンピュータアーキテクチャを利用して、本明細書で説明されるプレゼンテーションアプリケーション102に関する任意の態様を実行することができる。上述のようにコンピュータ800は、本明細書に提示された動画イベント、視覚効果、または遷移を音声イベントと同期させるための概念を実施する、他の種類のアプリケーションプログラムを実行することもできる。
図8に示されるコンピュータアーキテクチャは、中央処理装置(CPU:central processing unit)802と、ランダムアクセスメモリ(RAM:random access memory)814および読み取り専用メモリ(ROM:read-only memory)816を含むシステムメモリ808と、該メモリをCPU820に接続するシステムバス804とを含む。起動時などにコンピュータ800内の要素間で情報を伝達するのを助ける基本ルーチンを含む、基本入力/出力システムは、ROM816に格納される。コンピュータ800はさらに、オペレーティングシステム818、アプリケーションプログラム、および他のプログラムモジュールを格納するための大容量記憶デバイス810をさらに含み、該デバイスについてここで詳細に説明する。
大容量記憶デバイス810は、バス804に接続される大容量記憶コントローラ(図示せず)を介して、CPU802に接続される。大容量記憶デバイス810およびそれに関連するコンピュータ読み取り可能媒体は、不揮発性のストレージをコンピュータ800に提供する。本明細書に含まれるコンピュータ読み取り可能媒体の説明は、ハードディスクまたはCD−ROMドライブなどの大容量記憶デバイスを示すが、当業者には当然のことながら、コンピュータ読み取り可能媒体は、コンピュータ800がアクセス可能な任意の利用可能なコンピュータ記録媒体とすることができることを認識されたい。
限定ではなく例として、コンピュータ読み取り可能媒体には、コンピュータ読み取り可能命令、データ構造、プログラムモジュールまたは他のデータなどの情報を格納するための任意の方法または技術で実装される、揮発性および不揮発性媒体、取り外し可能および取り外し不能の媒体が含まれる。例えば、コンピュータ読み取り可能媒体には、RAM、ROM、EPROM、EEPROM、フラッシュメモリもしくは他の半導体メモリ技術、CD−ROMと、デジタル多用途ディスク(DVD)、HD−DVD、ブルーレイ(BLU−RAY)もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージ、または所望の情報を格納するのに使用でき、コンピュータ800によるアクセスか可能な任意の他の媒体が含まれるが、これらには限定されない。
様々な実施形態にしたがって、コンピュータ800は、ネットワーク820などのネットワークを通じてリモートコンピュータとの論理接続を使用するネットワーク化された環境で動作することができる。コンピュータ800を、バス804に接続されるネットワークインタフェース装置806を通じてネットワーク820に接続することができる。ネットワークインタフェース装置806を、他の種類のネットワークおよびリモートコンピュータシステムとの接続に利用できることも認識されたい。コンピュータ800は、キーボード、マウス、または電子スタイラス(図8には図示せず)を含む複数の他の装置からの入力を受信して処理する、入出力コントローラ812も含むことができる。同様に、入出力コントローラは、ディスプレイスクリーン、プリンタ、または他の種類の出力装置(これも図8には図示せず)への出力を提供することができる。
上記に簡単に述べたように、複数のプログラムモジュールおよびデータファイルを、ネットワーク化されたデスクトップ装置、ラップトップ装置またはサーバコンピュータの動作を制御するのに適したオペレーティングシステム818を含む、コンピュータ800の大容量記憶デバイス810およびRAM814に格納することができる。大容量記憶デバイス810およびRAM814は、1つまたは複数のプログラムモジュールを格納することもできる。特に、大容量記憶デバイス810およびRAM814は、本明細書で説明されるスライドショーイベントを音声イベントと同期させるための機能を提供する、プレゼンテーションアプリケーション102を格納することができる。大容量記憶デバイス810およびRAM814は、音声同期スキーム110およびプレゼンテーションドキュメント104を格納することもでき、その両方が上記に説明されている。
前述に基づいて、スライドショーイベントを音声イベントと同期させるための技術が、本明細書で説明されていることを認識されたい。本明細書に提示される対象を、コンピュータの構造的機能、方法的動作およびコンピュータ読み取り可能媒体に特有の言語で説明したが、特許請求の範囲で定義された発明は、本明細書で説明される特定の機能、動作または媒体に必ずしも限定されないことを理解されたい。むしろ、それらの特定の機能、動作および媒体は、特許請求の範囲に記載の事項を実装する例示的な形として開示される。
上記に説明された対象は、単に例示として提供されたものであり、限定するものとして解釈されるべきでない。図示され説明された例示の実施形態および適用に関わらず、特許請求の範囲で説明される本発明の精神および範囲から逸脱することなく、本明細書で説明された対象に対して様々な修正および変更を行なうこともできる。

Claims (20)

  1. 1つまたは複数の動画イベント(107)を、1つまたは複数の音声イベント(410)と同期させるための方法であって、
    前記動画イベント(107)を定義するステップと、
    音声ファイル(114)を処理して前記音声イベント(410)を識別するステップと、
    音声同期スキーム(110)を使用して、前記動画イベント(107)を前記識別された音声イベント(410)に同期させるステップと
    を含むことを特徴とする方法。
  2. 前記音声ファイルを処理して前記音声イベントを識別するステップは、前記音声ファイルを処理して該音声ファイルに含まれる1つまたは複数の音声オンセットを識別することと、前記音声オンセットをフィルタリングして前記音声イベントを識別することとを含むことを特徴とする請求項1に記載の方法。
  3. 前記音声同期スキームは、前記音声イベントをどのように前記動画イベントに同期させるべきかを定義するデータを備えることを特徴とする請求項1に記載の方法。
  4. 前記データは、各音声イベントと、対応する動画イベントとの間のオフセットを指定することを特徴とする請求項2に記載の方法。
  5. 前記データは、各音声イベントを、対応する動画イベントの開始と同期させるべきか、または対応する動画イベントの終わりと同期させるべきかを指定することを特徴とする請求項2に記載の方法。
  6. 前記データは、前記音声イベントの全てを前記動画イベントと同期させるべきか、または前記音声イベントの一部のみを前記動画イベントと同期させるべきかを指定することを特徴とする請求項2に記載の方法。
  7. 前記データは、前記音声イベントの前記一部をどのように選択すべきかを指定することを特徴とする請求項6に記載の方法。
  8. コンピュータによって実行されるときに該コンピュータに請求項1に記載の方法を実行させるコンピュータ実行可能命令を記録したことを特徴とする、コンピュータ読み取り可能媒体。
  9. プレゼンテーションドキュメント(106)内で定義された1つまたは複数のスライドショーイベントを、1つまたは複数の音声イベント(410)と同期させるための方法であって、
    プレゼンテーションアプリケーションプログラム(102)内の前記スライドショーイベント(107)を定義するユーザ入力を受信するステップと、
    音声ファイル(114)を受信するステップと、
    前記スライドショーイベント(107)を前記音声ファイル(114)内の音声イベント(410)と同期させる要求、および前記スライドショーイベント(107)を前記音声イベント(410)と同期させる際に使用するための音声同期スキーム(110)の識別子を受信するステップと、
    前記要求に応じて、前記音声ファイル(114)を処理して前記音声イベント(410)を識別するステップと、
    前記識別された音声同期スキーム(110)を使用して、前記スライドショーイベント(107)を前記識別された音声イベント(410)に同期させるステップと
    を含むことを特徴とする方法。
  10. 前記スライドショーイベントは、動画イベントを含むことを特徴とする請求項9に記載の方法。
  11. 前記スライドショーイベントは、スライドの遷移を含むことを特徴とする請求項9に記載の方法。
  12. 前記スライドショーイベントは、前記プレゼンテーションドキュメント内のオブジェクトに対する視覚効果の適用を含むことを特徴とする請求項9に記載の方法。
  13. 前記音声ファイルを表す波形を備えるユーザインタフェースを表示するステップと、
    前記波形上に、前記識別された音声イベントに対応する1つまたは複数のインジケータを表示するステップと
    をさらに含むことを特徴とする請求項9に記載の方法。
  14. 前記ユーザインタフェースは、前記スライドショーイベントのそれぞれに対応するスライドショーイベントの時間オブジェクトをさらに備え、各スライドショーイベントの時間オブジェクトを、前記波形上に表示されるインジケータにスナップすることができることを特徴とする請求項13に記載の方法。
  15. コンピュータによって実行されるときに該コンピュータに請求項9に記載の方法を実行させるコンピュータ実行可能命令を記録したことを特徴とする、コンピュータ読み取り可能媒体。
  16. 前記音声同期スキームは、前記音声イベントをどのように前記動画イベントに同期させるべきかを定義するデータを備えることを特徴とする請求項1に記載の方法。
  17. 1つまたは複数の動画イベント(107)を、1つまたは複数の音声イベント(410)と同期させる際に使用するためのデータ構造(110)を有するコンピュータ読み取り可能媒体であって、前記データ構造は、
    前記音声イベント(410)をどのように前記動画イベント(107)に同期させるべきかを定義するデータを記録した、第1のデータフィールド
    を備え、前記第1のデータフィールドに記録された前記データは、プレゼンテーションアプリケーション(102)によって前記動画イベント(107)を前記音声イベント(410)に同期させる方法を決定するのに使用されることを特徴とするコンピュータ読み取り可能媒体。
  18. 各音声イベントと、対応する動画イベントとの間のオフセットを指定するデータを記録した、第2のデータフィールドをさらに有することを特徴とする請求項17に記載のコンピュータ読み取り可能媒体。
  19. 各音声イベントを、対応する動画イベントの開始と同期させるべきか、または対応する動画イベントの終わりとと同期させるべきかを指定するデータを記録した、第3のデータフィールドをさらに有することを特徴とする請求項18に記載のコンピュータ読み取り可能媒体。
  20. 前記音声イベントの全てを前記動画イベントと同期させるべきか、あるいは前記音声イベントの一部のみを前記動画イベントと同期させるべきか、および前記音声イベントの前記一部をどのように選択すべきかを指定するデータを記録した、第4のデータフィールドをさらに有することを特徴とする請求項19に記載のコンピュータ読み取り可能媒体。
JP2010525874A 2007-09-18 2008-08-25 スライドショーイベントと音声の同期化 Active JP5349482B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/857,431 2007-09-18
US11/857,431 US8381086B2 (en) 2007-09-18 2007-09-18 Synchronizing slide show events with audio
PCT/US2008/074233 WO2009038929A1 (en) 2007-09-18 2008-08-25 Synchronizing slide show events with audio

Publications (2)

Publication Number Publication Date
JP2010539619A true JP2010539619A (ja) 2010-12-16
JP5349482B2 JP5349482B2 (ja) 2013-11-20

Family

ID=40455892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010525874A Active JP5349482B2 (ja) 2007-09-18 2008-08-25 スライドショーイベントと音声の同期化

Country Status (12)

Country Link
US (1) US8381086B2 (ja)
EP (1) EP2201478B1 (ja)
JP (1) JP5349482B2 (ja)
KR (1) KR101247000B1 (ja)
CN (1) CN101802816B (ja)
AU (1) AU2008302614B2 (ja)
BR (1) BRPI0815915A2 (ja)
MX (1) MX2010002967A (ja)
MY (1) MY155096A (ja)
RU (1) RU2470353C2 (ja)
TW (1) TWI534648B (ja)
WO (1) WO2009038929A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522498A (ja) * 2011-06-14 2014-09-04 ローデ ウント シュワルツ ゲーエムベーハー ウント コー カーゲー 干渉信号を抑制するための方法および装置

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8106856B2 (en) 2006-09-06 2012-01-31 Apple Inc. Portable electronic device for photo management
US7569761B1 (en) * 2007-09-21 2009-08-04 Adobe Systems Inc. Video editing matched to musical beats
US9665965B2 (en) * 2009-01-14 2017-05-30 Innovid Inc. Video-associated objects
JP2010220203A (ja) * 2009-02-17 2010-09-30 Nikon Corp 動画再生装置および動画再生プログラム
US8996538B1 (en) 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
US20100293330A1 (en) * 2009-05-14 2010-11-18 Microsoft Corporation Displaying transition images during a slide transition
US20110154199A1 (en) * 2009-12-17 2011-06-23 Flying Car Ltd. Method of Playing An Enriched Audio File
US8698762B2 (en) 2010-01-06 2014-04-15 Apple Inc. Device, method, and graphical user interface for navigating and displaying content in context
JP5638896B2 (ja) * 2010-09-21 2014-12-10 任天堂株式会社 表示制御プログラム、表示制御装置、表示制御システム、および表示制御方法
US20130346920A1 (en) * 2012-06-20 2013-12-26 Margaret E. Morris Multi-sensorial emotional expression
US20120290907A1 (en) * 2012-07-19 2012-11-15 Jigsaw Informatics, Inc. Method and system for associating synchronized media by creating a datapod
US20120284426A1 (en) * 2012-07-19 2012-11-08 Jigsaw Informatics, Inc. Method and system for playing a datapod that consists of synchronized, associated media and data
CN103680562B (zh) * 2012-09-03 2017-03-22 腾讯科技(深圳)有限公司 音频文件的布点实现方法和装置
US8913189B1 (en) * 2013-03-08 2014-12-16 Amazon Technologies, Inc. Audio and video processing associated with visual events
CN103246752A (zh) * 2013-05-30 2013-08-14 北京瑞翔恒宇科技有限公司 一种关联ppt文档与音频的系统
US10389671B2 (en) * 2013-09-12 2019-08-20 W.W. Frainger, Inc. System and method for providing personalized messaging
US9286383B1 (en) * 2014-08-28 2016-03-15 Sonic Bloom, LLC System and method for synchronization of data and audio
WO2016042765A1 (ja) * 2014-09-19 2016-03-24 パナソニックIpマネジメント株式会社 映像音声処理装置、映像音声処理方法およびプログラム
US10269035B2 (en) * 2015-06-30 2019-04-23 Marketing Technology Limited On-the-fly generation of online presentations
US11130066B1 (en) 2015-08-28 2021-09-28 Sonic Bloom, LLC System and method for synchronization of messages and events with a variable rate timeline undergoing processing delay in environments with inconsistent framerates
US10381041B2 (en) 2016-02-16 2019-08-13 Shimmeo, Inc. System and method for automated video editing
US9912860B2 (en) 2016-06-12 2018-03-06 Apple Inc. User interface for camera effects
AU2017100670C4 (en) 2016-06-12 2019-11-21 Apple Inc. User interfaces for retrieving contextually relevant media content
CN108241598A (zh) * 2016-12-26 2018-07-03 北京奇虎科技有限公司 一种演示文稿的制作方法和装置
CN108241597A (zh) * 2016-12-26 2018-07-03 北京奇虎科技有限公司 一种演示文稿的制作方法和装置
DK180859B1 (en) 2017-06-04 2022-05-23 Apple Inc USER INTERFACE CAMERA EFFECTS
CN107292941A (zh) * 2017-06-21 2017-10-24 江西服装学院 动画管理方法及其系统
DK180171B1 (en) 2018-05-07 2020-07-14 Apple Inc USER INTERFACES FOR SHARING CONTEXTUALLY RELEVANT MEDIA CONTENT
US11722764B2 (en) 2018-05-07 2023-08-08 Apple Inc. Creative camera
US11770601B2 (en) 2019-05-06 2023-09-26 Apple Inc. User interfaces for capturing and managing visual media
US11321857B2 (en) 2018-09-28 2022-05-03 Apple Inc. Displaying and editing images with depth information
US11128792B2 (en) 2018-09-28 2021-09-21 Apple Inc. Capturing and displaying images with multiple focal planes
US11706521B2 (en) 2019-05-06 2023-07-18 Apple Inc. User interfaces for capturing and managing visual media
DK201970535A1 (en) 2019-05-06 2020-12-21 Apple Inc Media browsing user interface with intelligently selected representative media items
US10805665B1 (en) * 2019-12-13 2020-10-13 Bank Of America Corporation Synchronizing text-to-audio with interactive videos in the video framework
US11054973B1 (en) 2020-06-01 2021-07-06 Apple Inc. User interfaces for managing media
US11107504B1 (en) * 2020-06-29 2021-08-31 Lightricks Ltd Systems and methods for synchronizing a video signal with an audio signal
KR20220017775A (ko) * 2020-08-05 2022-02-14 삼성전자주식회사 오디오 신호 처리 장치 및 그 동작 방법
CN112102847B (zh) * 2020-09-09 2022-08-09 四川大学 一种音频和幻灯片内容对齐方法
US11417366B1 (en) * 2021-02-19 2022-08-16 William Craig Kenney Method and system for synchronizing presentation slide content with a soundtrack
CN113177126A (zh) * 2021-03-24 2021-07-27 珠海金山办公软件有限公司 一种处理演示文稿的方法、装置、计算机存储介质及终端
US11539876B2 (en) 2021-04-30 2022-12-27 Apple Inc. User interfaces for altering visual media
US11778339B2 (en) 2021-04-30 2023-10-03 Apple Inc. User interfaces for altering visual media
US20220382443A1 (en) * 2021-06-01 2022-12-01 Apple Inc. Aggregated content item user interfaces
EP4298529A1 (en) * 2021-06-01 2024-01-03 Apple Inc. Aggregated content item user interfaces
CN113472942B (zh) * 2021-08-04 2023-06-09 无锡未来镜显示科技有限公司 唱片和视频联动的音箱控制系统及方法
US11880921B2 (en) * 2022-01-27 2024-01-23 Cobalt Inc. System and method for multimedia presentation

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000206859A (ja) * 1999-01-13 2000-07-28 Kobe Steel Ltd 情報出力装置
JP2001125599A (ja) * 1999-10-25 2001-05-11 Mitsubishi Electric Corp 音声データ同期装置及び音声データ作成装置
US20020193895A1 (en) * 2001-06-18 2002-12-19 Ziqiang Qian Enhanced encoder for synchronizing multimedia files into an audio bit stream
JP2004110821A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム
JP2005175630A (ja) * 2003-12-08 2005-06-30 Sony Corp データ編集装置およびデータ編集方法
JP2005341206A (ja) * 2004-05-27 2005-12-08 Konica Minolta Photo Imaging Inc 画像再生装置の制御方法
JP2006217521A (ja) * 2005-02-07 2006-08-17 Seiko Epson Corp 画像表示装置、画像音声再生方法、および、この方法を実行させるコンピュータ読取可能なプログラム
JP2007005985A (ja) * 2005-06-22 2007-01-11 Casio Comput Co Ltd 撮像装置、プログラム、情報端末及び情報通信システム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6484168B1 (en) * 1996-09-13 2002-11-19 Battelle Memorial Institute System for information discovery
US5949410A (en) * 1996-10-18 1999-09-07 Samsung Electronics Company, Ltd. Apparatus and method for synchronizing audio and video frames in an MPEG presentation system
US6181351B1 (en) * 1998-04-13 2001-01-30 Microsoft Corporation Synchronizing the moveable mouths of animated characters with recorded speech
RU2238614C2 (ru) * 1998-05-08 2004-10-20 Квэлкомм Инкорпорейтед Устройство и способ распространения высококачественных видео-и аудиопрограмм к удаленным местам
EP1018840A3 (en) * 1998-12-08 2005-12-21 Canon Kabushiki Kaisha Digital receiving apparatus and method
US6892351B2 (en) * 1998-12-17 2005-05-10 Newstakes, Inc. Creating a multimedia presentation from full motion video using significance measures
US6636888B1 (en) * 1999-06-15 2003-10-21 Microsoft Corporation Scheduling presentation broadcasts in an integrated network environment
RU2257686C2 (ru) * 1999-12-02 2005-07-27 Квэлкомм Инкорпорейтед Устройство и способ декодирования цифровых сигналов изображения и звука
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
WO2003039101A2 (en) * 2001-11-01 2003-05-08 Telecommunications Research Associates, Llc. Computerized interactive learning system and method over a network
US20050188297A1 (en) * 2001-11-01 2005-08-25 Automatic E-Learning, Llc Multi-audio add/drop deterministic animation synchronization
US7194676B2 (en) * 2002-03-01 2007-03-20 Avid Technology, Inc. Performance retiming effects on synchronized data in an editing system
US9628851B2 (en) * 2003-02-14 2017-04-18 Thomson Licensing Automatic synchronization of audio and video based media services of media content
DE10322722B4 (de) * 2003-05-20 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Synchronisieren eines Audiossignals mit einem Film
EP1553784A1 (en) 2004-01-06 2005-07-13 Deutsche Thomson-Brandt Gmbh Method and apparatus for performing synchronised audio and video presentation
US7500176B2 (en) * 2004-04-01 2009-03-03 Pinnacle Systems, Inc. Method and apparatus for automatically creating a movie
US20070223874A1 (en) * 2004-04-07 2007-09-27 Koninklijke Philips Electronics, N.V. Video-Audio Synchronization
US20050275805A1 (en) * 2004-06-15 2005-12-15 Yu-Ru Lin Slideshow composition method
US7469380B2 (en) * 2004-06-15 2008-12-23 Microsoft Corporation Dynamic document and template previews
US8068107B2 (en) 2004-11-22 2011-11-29 Mario Pirchio Method to synchronize audio and graphics in a multimedia presentation
US7236226B2 (en) * 2005-01-12 2007-06-26 Ulead Systems, Inc. Method for generating a slide show with audio analysis
TWI267763B (en) * 2005-02-17 2006-12-01 Ulead Systems Inc Method for synchronizing the slide show with the background music
US7990386B2 (en) * 2005-03-24 2011-08-02 Oracle America, Inc. Method for correlating animation and video in a computer system
US7783971B2 (en) * 2005-09-13 2010-08-24 Microsoft Corporation Graphic object themes
CN100481957C (zh) * 2006-05-22 2009-04-22 天栢宽带网络科技(上海)有限公司 媒体同步方法
US7716572B2 (en) * 2006-07-14 2010-05-11 Muvee Technologies Pte Ltd. Creating a new music video by intercutting user-supplied visual data with a pre-existing music video
US7669132B2 (en) * 2006-10-30 2010-02-23 Hewlett-Packard Development Company, L.P. Matching a slideshow to an audio track
US7569761B1 (en) * 2007-09-21 2009-08-04 Adobe Systems Inc. Video editing matched to musical beats

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000206859A (ja) * 1999-01-13 2000-07-28 Kobe Steel Ltd 情報出力装置
JP2001125599A (ja) * 1999-10-25 2001-05-11 Mitsubishi Electric Corp 音声データ同期装置及び音声データ作成装置
US20020193895A1 (en) * 2001-06-18 2002-12-19 Ziqiang Qian Enhanced encoder for synchronizing multimedia files into an audio bit stream
JP2004110821A (ja) * 2002-09-13 2004-04-08 Fuji Xerox Co Ltd マルチメディアプレゼンテーションを自動的に生成する方法、及びそのコンピュータプログラム
JP2005175630A (ja) * 2003-12-08 2005-06-30 Sony Corp データ編集装置およびデータ編集方法
JP2005341206A (ja) * 2004-05-27 2005-12-08 Konica Minolta Photo Imaging Inc 画像再生装置の制御方法
JP2006217521A (ja) * 2005-02-07 2006-08-17 Seiko Epson Corp 画像表示装置、画像音声再生方法、および、この方法を実行させるコンピュータ読取可能なプログラム
JP2007005985A (ja) * 2005-06-22 2007-01-11 Casio Comput Co Ltd 撮像装置、プログラム、情報端末及び情報通信システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014522498A (ja) * 2011-06-14 2014-09-04 ローデ ウント シュワルツ ゲーエムベーハー ウント コー カーゲー 干渉信号を抑制するための方法および装置

Also Published As

Publication number Publication date
CN101802816A (zh) 2010-08-11
EP2201478B1 (en) 2020-10-14
CN101802816B (zh) 2012-10-03
US20090077460A1 (en) 2009-03-19
KR20100056505A (ko) 2010-05-27
TW200921447A (en) 2009-05-16
MY155096A (en) 2015-09-15
EP2201478A1 (en) 2010-06-30
US8381086B2 (en) 2013-02-19
BRPI0815915A2 (pt) 2015-03-03
RU2010110132A (ru) 2011-09-27
KR101247000B1 (ko) 2013-03-25
WO2009038929A1 (en) 2009-03-26
AU2008302614A1 (en) 2009-03-26
TWI534648B (zh) 2016-05-21
EP2201478A4 (en) 2011-03-02
AU2008302614B2 (en) 2012-07-26
JP5349482B2 (ja) 2013-11-20
MX2010002967A (es) 2010-04-01
RU2470353C2 (ru) 2012-12-20

Similar Documents

Publication Publication Date Title
JP5349482B2 (ja) スライドショーイベントと音声の同期化
US11456017B2 (en) Looping audio-visual file generation based on audio and video analysis
US8836706B2 (en) Triggering animation actions and media object actions
US8626322B2 (en) Multimedia display based on audio and visual complexity
WO2017186015A1 (zh) 一种为视听化数字媒体配音的方法及装置
US20090079744A1 (en) Animating objects using a declarative animation scheme
US9087508B1 (en) Presenting representative content portions during content navigation
US8862254B2 (en) Background audio processing
TW425520B (en) System and method for programmatic generation of continuous media presentations
US9361941B2 (en) Method and systems for arranging a media object in a media timeline
US10460712B1 (en) Synchronizing playback of a digital musical score with an audio recording
US9639606B2 (en) Musical soundtrack matching
AU2013311468A1 (en) Methods for generating file relationship data, and media file systems that generate file relationship data
Clayton et al. The interpersonal entrainment in music performance data collection
US11017751B2 (en) Synchronizing playback of a digital musical score with an audio recording
Lee et al. DiMaß: A technique for audio scrubbing and skimming using direct manipulation
Seigel et al. Towards a unified system for digital film production
JP2009503981A (ja) マルチメディアマテリアルの即時的なレビューを提供するための方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110711

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130425

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130701

TRDD Decision of grant or rejection written
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130722

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130820

R150 Certificate of patent or registration of utility model

Ref document number: 5349482

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250