JP4461149B2

JP4461149B2 - ユーザが提供する画像データの既存音楽ビデオへのインターカットによる新規音楽ビデオの作製

Info

Publication number: JP4461149B2
Application number: JP2007001724A
Authority: JP
Inventors: トーマスビューリガードジェラルド; カライクディサブラマニアンスリクマー; ロワンケンロックピーター
Original assignee: Muvee Technologies Pte Ltd
Current assignee: Muvee Technologies Pte Ltd
Priority date: 2006-07-14
Filing date: 2007-01-09
Publication date: 2010-05-12
Anticipated expiration: 2027-01-09
Also published as: KR100865269B1; KR20080007073A; WO2008008043A1; US7716572B2; EP1879195A1; US20080016114A1; JP2008022519A

Description

発明の分野

本発明は、一般にコンピュータによるデータ生成に関する。より詳細には、本発明は、ユーザが提供する画像データ（ビデオ、画像など）のインターカットによる既存の音楽ビデオの自動編集に関する。

現在、消費者が利用するメディア形式は、ビデオ、静止画、音楽などに関わらず、主としてデジタルである。コンピューティング資源の低コスト化により、カジュアルメディア作製市場が出現した。本発明は、特にユーザ自身によるカジュアルなビデオ作製に関するものである。

ユーザによるビデオ作製の魅力は、ユーザ独自のコンテンツが主となっている点にある。個人的な知り合いや、彼らが訪れたことのある場所やイベントの場面を映すビデオには自然に興味が湧くものである。

カジュアルビデオ作製は増加傾向を示しているが、テレビでなされているような専門的に編集されたビデオに対する需要も依然として高い。

音楽ビデオは、専門的に編集されたビデオコンテンツの一般的な形式のひとつである。音楽ビデオは、「記録された歌のフィルム化あるいはビデオ化された演出であって、しばしば、歌を歌う音楽家を描写したり、歌詞を説明する画像イメージを含んだりするもの」であると、アメリカンヘリテージディクショナリー（オンライン版）によれば定義されている。

音楽ビデオは、耳に残りやすい音楽、アーティストの人気、製造品質の高さなどにより、エンターテイメント性が非常に高い。製作工程では、視覚要素を音楽へ同期させること、すなわちトランジション、エフェクトそして映像自体（歌と同期した口の動き、音楽のビートに合わせたダンス）が重要な要素となる。

専門的に編集された音楽ビデオで使われた技術のいくつかを模倣するカジュアルビデオプロデューサもいる。連続性を与え、ムード（雰囲気）を決めるために、多くのカジュアルビデオプロデューサは、バックグラウンド音楽として録音されたポピュラー音楽を使用し、ビデオのトランジションおよびエフェクトと音楽の強いビートの同期化を試みる。

近年では、「ビデオマッシュアップ」も増加傾向を示している。「ビデオマッシュアップ」とは、関連性の薄いことが多い様々な映像部分を組み合わせることで全く新しい映像をつくることを意味する。

ビデオマッシュアップは、既存音楽ビデオを土台として使用し、付加ビデオ素材をこれに「インターカット」する。従来のビデオ編集ツールによるビデオマッシュアップの作製には、かなりの才能と努力が必要となる。

コンピュータによる自動化方法を利用したカジュアルビデオ作製の問題点が、多くの発明によって指摘されている。

従来技術において、出力作品の構造および合成を決めるための「テンプレート」の使用に焦点をあてる発明が存在する。特許WO0039997（デケル・エラン・アースノイズInc.）では、映画制作のための一時的な階層に関する「テンプレート」から自動的あるいは半自動的に「ビデオ映像」を生成する方法が開示されている。テンプレートのスロットは、関連づけられたキーワードを有し、スロットにはめ込まれる素材は、ビデオデータベースのキーワードを調べることで得られる。

米国特許US2005084232A1（ティルマン他、マジックスAG）では、ユーザに対してスロットの目的に合った素材を示す注釈付きスロットを有する「テーマ別テンプレート」を提供する方法およびユーザインターフェースが開示されている。例えば、誕生日のテンプレートには、パーティー準備、招待客、ケーキやキャンドル、キャンドルの吹き消し、パーティー終了などのスロットが含まれる。ユーザは、上記スロットにはめ込むビデオや画像を撮影し、ユーザによる画像データと、テンプレートで定められた絵、サウンドエフェクトおよびテンプレートで定められた要素を組み合わせ、出力作品が作製される。テンプレートによる編集作業が簡略化されたシステムは、上記発明の特徴を有する。

米国特許US6243087（マーク・ディビス他、インターバルリサーチ社）には、入出力メディアの関係に関する「関数従属ネットワーク」（FDN）により既存メディアからの製品作製が開示されている。入力メディアは、コンテンツ表現を発生させるために解析される。FDNは、入力メディア、コンテンツ表現およびその他の機能を組み込むよう構成されている。そしてFDNの実行により出力作品が作られる。その場合、FDNとテンプレートとは同一とみなされる。しかし、上記二つの発明において使用される「テンプレート」の意味は、FDNに比してより静的である。

特許GB2380599（ケロック・ピーター・ロワン、muveeテクノロジー社）は、ビデオ、画像および音楽を含む入力メディアから出力メディア製品を自動的あるいは半自動的に生成することに関する。入力メディアは、入力メディアを説明し、入力メディアから得られる一連のメディアデスクリプタにより注釈がつけられ、あるいはそれらを得るために解析される。編集スタイルは、ユーザにより一般に定められているスタイルデータを使用して制御される。スタイルデータとデスクリプタは、実施により出力作品が得られるとき、入力データの一連の操作を起こすことに使用される。このステップは、人間の音楽ビデオエディタの感覚を捉えるような技術が含まれ、その結果、編集、エフェクト、トランジションが入力された音楽トラックのタイミングに適合した製作物が得られる。入力メディアに対して重要な制限はなされず、単調な作業のほとんどがコンピュータ手段により自動化されているため、平均的なカムコーダ/カメラのユーザでも、苦労することなく楽しくスタイリッシュな製作物を生み出すことが可能となる。muveeautoProducer^TMと称されるmuveeテクノロジー社による製品は、上記発明に基づいている。

発明の概要

本発明はオーディオ‐ビジュアル出力作品を自動作製するための新規かつ便利な技術、システムおよびソフトウェアを提供することを目的とする。

一般論として、本発明は、ユーザ自身の付加画像データ（画像あるいはビデオ）を既存の音楽ビデオ（専門的に制作されたもの）へとインターカットすることが提案されている。第一段階において、既存音楽ビデオ内のに複数の一時的なセクションが定められる。第二段階において、プロではないかもしれないエンドユーザが指定したビデオメディアが、一時的セクションに従って既存の音楽ビデオにインターカットされる。

本発明の望ましい実施形態によれば、従来のビデオ編集ツールを使用する場合に比べ、はるかに簡単にオリジナルのビデオマッシュアップあるいは「個人音楽ビデオ」を作製できる。

本発明は、既存の音楽ビデオ構成に基づく新規音楽ビデオの制作に関する。ユーザ独自のビデオおよび画像は、本発明の方法により既存の音楽ビデオと合成して使用される場合、ユーザの素材がオリジナルの作品を生んだプロセスにおいてなくてはならないパートであったかのような錯覚を与える作品になる。「インターカット」は、上記合成処理の説明に用いられる。

ユーザのビデオと画像を既存音楽ビデオへ結合することは、本発明を上記従来技術と明確に区別する新しい方法を必要とする。「テンプレート」を使用する従来技術（WO0039997、US2005084232A1）では、入力音楽ビデオの音楽トラックを有し、音楽ビデオの視覚部の特性や音楽の特性に従って既存音楽ビデオにユーザの素材が合成されるような出力を自動的に生成する方法は得られない。本発明は、テンプレートを用いる発明とは異なり、ユーザのメディアがはめ込まれる固定スロットを必要としない。さらにテンプレートは、出力の構造やスタイルを完全に定めるが、本発明では、出力の基礎をなす構造としての入力音楽ビデオの使用が制限されていても、大きな変更をもたらす方法を提供する。したがって本発明は、テンプレートを必要とする技術とは大きく異なっている。

本発明とGB238099との大きな違いは、後者では、出力作品に使用される入力ビデオの一部と、入力ビデオにおいて同期されたビデオ部分の音楽トラックとの同期が維持されない点にある。

US6243087については、本発明の方法は、入力音楽ビデオとユーザのメディアとを取り込む「関数従属ネットワーク」の一部として考慮される。しかし、クラスの入力からクラスの出力を発生させるコンピュータに基づく方法は、一般的にFDN記述と同等であり、したがって、記述としては一般的なものである。このような一般的なFDNは、音楽作曲用「Max」グラフィック環境のような他のシステムでも見られる。入力音楽ビデオのより詳細なコンテクストにおいて、本発明の方法は、上記およびUS6243087のクレームと比較して、新規性を有する。

付加スタイルデータを使用することで、既存音楽ビデオの外観や感覚が同じ素材を使用しているにもかかわらず、様々な作品を作り出すための多様な方法へと劇的に変化させることが可能となる。従ってオリジナル作品がユーザ独自のメディアとスタイルの選択によりカスタマイズされる。

用語の定義

本発明の目的において、ここに使用される用語は、以下のように定義されるものとする。

「音楽ビデオ」は、通常使用されるような、音声部が音楽で構成され、視覚データの編集が音楽に同期されているオーディオ‐ビジュアル作品を意味する。一般的に、音楽ビデオは、「歌を歌うミュージシャンが撮影され、あるいは歌詞を映像化した、記録された歌のフィルム化あるいはビデオ化されたもの」と定義されている（アメリカヘリテッジ辞典より）。

「既存音楽ビデオ」は、本発明における入力の一つとして使用される、以前に作製された音楽ビデオを意味する。既存音楽ビデオは、ほとんどの場合、専門的に制作された音楽ビデオである。

「新規音楽ビデオ」は、本発明に記載の方法を使用することで作製された音楽ビデオを意味する。「出力作品」と称することもある。

「付加画像データ」は、エンドユーザによってシステムに提供された画像および/またはビデオファイルを意味する。

「入力メディア」は、出力作品が作製されるすべてのメディアファイル群を意味する。これには、既存の音楽ビデオと、ユーザによって提供された付加画像データが含まれる。

「一時的セクション」は、時間の範囲で定義されたビデオの特定部分を意味する。一時的セクションの時間は、ゼロより長く（終了時刻は開始時刻より大きい）、一部をなすビデオの時間より短い。ゼロと等しい時間もしくはビデオの全時間と等しい一時的セクションは有効だが、それらは極端な一例である。一般的に一時的セクションはゼロより長く（終了時刻は開始時刻より大きい）、一部をなすビデオの時間より短い。

「位置データ」は、一つ以上の一時的セクションの一時的な境界（開始時刻および終了時刻）を意味する。

「変更可能セクション」は、注釈段階で定義される既存音楽ビデオの一時的セクションであり、少なくとも一種の変更が特定される。

「変更タイプ」は、ビデオ部分が付加画像データを使用して変更可能な特定の方法を意味する。例えば付加画像データによる既存音楽ビデオの一時的セクションの置換が最も簡単な変更となる。しかし、既存音楽ビデオと選択された付加画像データの両方を使用するタイプの変更もある。

「セグメント」は、トランジションに干渉されないような連続的なビデオの一時的セクションを意味する。

「トランジション」は、作品の隣接するセグメント間の一時的な境界での動作を意味する。あるセグメントから次のセグメントへの瞬間的なゼロ時間でのトランジションは「カット」として知られている。非ゼロ時間でのトランジションは、連続セグメントが一時的に重なる場合に使用され、ディゾルブ、ワイプなど、当業者にとって自明の様々なトランジションを含む。

「スタイル」は、muvee autoProducerおよび英国特許GB2380599で使用される場合のビデオ編集スタイルが拡大解釈されたものである。上記スタイルは、出力作品を作製するために入力メディアで実施されるある種の編集作業に関し、既存音楽ビデオ（あるいはその関連）およびその注釈情報を含む。

「スタイルオーサー」は、既存音楽ビデオに手動あるいは半自動で注釈をつける、少なくとも一人の人を意味する。

「編集決定リスト」（EDL）は、出力作品においてある瞬間に再生すべきメディアや使用すべきエフェクトやトランジションを定めるためのデータ構造あるいはファイル内での同等物を意味する。

コンピュータシステムの「操作」は、ユーザが、物理的に近いコンピュータシステムを操作する場合と、インターネットでコマンドを出すことによりコンピュータシステムを遠隔操作する場合とを含む。例えば、エンドユーザに操作されるコンピュータシステムは、個々の出力作品を作製する多くのエンドユーザにより操作されるサーバーシステムとしてもよい。

図１は、既存音楽ビデオと付加画像データから新規音楽ビデオを作製する、本発明の実施形態の方法におけるステップの概要を示すフローチャートである。上記方法は、二つの段階すなわち注釈段階110と作製段階120から成り、それぞれいくつかのステップから構成されている。

第一段階110では、既存音楽ビデオは、第二段階での新規音楽ビデオの作製をガイドする情報について注釈が付けられる。第一段階は、一人以上の第一ユーザ（例えば、音楽ビデオを供給する企業関連）によって実行され、第二段階は、エンドユーザによって実行されるのが一般的である。

注釈段階は、二つのステップから成る。第一のステップ111では、一時的セクションが既存音楽ビデオ内で定められる。上記一時的セクションは、作製段階120の第一ユーザが供給する付加画像データにより変更可能である。一時的セクションは、既存音楽ビデオの時間全体あるいはその一部をカバーすることができる。（既存音楽ビデオを作製するためにEDL（編集決定リスト）が使用される場合、一時的セクションは非オーバーラップである場合がほとんどだが、一時的セクションが既存音楽ビデオのセグメントに対応する場合は、一時的セクションはトランジションでオーバーラップ可能となる。）

注釈段階の第二ステップ112では、各一時的セクションに適用される一つ以上の変更タイプが定められる。変更タイプは、ユーザのメディアによる一時的セクションの置換などのように簡単なものもあれば、既存音楽ビデオのフレーム内の矩形内に付加画像データが表示される「ピクチャーインピクチャー」変更のような複雑なものもある。

第二段階である作製段階120では、第一段階での注釈が考慮されたうえで、エンドユーザにより供給された付加画像データが使用されることで新規音楽ビデオが作製される。作製段階はいくつかのステップを含む。

ステップ121において、エンドユーザは付加画像データ群を示す。例えば、上記方法がパーソナルコンピュータで実施される場合、エンドユーザは、ファイル選択ダイアログボックスから一つ以上のビデオファイルおよび/または画像ファイルを選択する。ステップ122において、ステップ111で定めた一時的セクションの変更に使用するよう、付加画像データのエレメントが選択される。付加画像データは、各一時的セクションについてそれぞれ選択される必要はない。付加画像データのエレメントを、一時的セクションのサブセットのためのみに選択することも可能である。例えば、選択ステップは、上記のようなものであるので、付加画像データの繰り返しは禁じられ、その場合にもし付加画像データ群が限定されているのであれば、各セグメントに付加画像データを選ぶことは不可能となりうる。

ステップ123において、付加メディアのエレメントがステップ122で選択された各一時的セクションについて、ステップ112で定められた一つ以上のセクションの規定変更タイプが実際に実施されている。複数の変更が112において定められている一時的セクションについて、上記すべての変更を実行する必要はない。例えば、二つの変更が規定された場合、ステップ123は、選択されたメディアの特性に応じて上記のうち少なくとも一つのみの使用が可能である。例えば、ハイモーションの場合、ステップ123において変更Aを使用し、ローモーションの場合、ステップ123において変更Bをそれぞれ使用することができる。

ステップ124において、変更されたセクションは、既存音楽ビデオおよびその音楽トラックの他のセクションと結合され、新規音楽ビデオが作製される。上記合成は、出力作品の所定の瞬間において再生すべきメディアを定め、さらに使用すべきエフェクトとトランジションとを定めるEDL（編集決定リスト）を構成することで一般的になされる。

手動、自動あるいは半自動注釈
作製段階120は、エンドユーザにより付加画像データ群が示されるステップ121とは自動的に切り離されている。注釈段階110は、全手動、全自動、あるいは半自動のいずれでもよい。

段階110の注釈が手動あるいは半自動でなされる場合、注釈を付けるユーザーを、作製段階120で付加画像データを提供するユーザと区別するため、「スタイルオーサー」と称することにする。「スタイルオーサー」は、作製段階120のユーザと同一人物でもよいが、必ず同一とする必要はないことに注意すべきである。さらに、スタイルオーサーのタスクを数人で分担することもできる。以降の説明を簡単にするため、「スタイルオーサー」は、注釈段階110の任意の手動ステップに関わる一人以上の人を意味するものとする。

既存音楽ビデオ作製時に、いくつかの手動注釈ステップが実行される。上述のように、ステップ111での一時的セクションは、EDLとして定義されている既存音楽ビデオのセグメントに対応させることができる。既存音楽ビデオのエディタあるいはプロデューサは、以下の情報を付加的に作製する。
・変更可能あるいは変更不可の一時的セクション；
・変更優先度；
・使用可能な変更タイプ（例えば置換、ピクチャーインピクチャー）；
・エンドユーザの画像データに適用すべき付加的なエフェクト（例えば、既存音楽ビデオの作製に使用されたエフェクトに、エンドユーザの画像データをマッチさせるカラーエフェクト）
音楽ビデオの作製に使用される編集ツールによって、上記付加情報をEDL自体に埋め込んだり、独立したデータファイルに格納することもできる。

エフェクトおよびトランジション
EDLは、既存音楽ビデオに上記付加エフェクトを含めることができる。付加エフェクトの使用例を以下に示す。
・変更あるいは置換される既存音楽ビデオのセクションに適合するよう、エンドユーザが提供する付加画像データの選択部にエフェクトを適用することができる。例えば、既存音楽ビデオに「画像の粗い昔の映画」のような効果が施されている場合、エンドユーザが提供する付加画像データに対して同様の効果を施すことができる。
・既存音楽ビデオとエンドユーザの付加画像データとを同じように見せるため、新規音楽ビデオの時間全体に、ひとつのエフェクトを適用させることができる。例えば、既存音楽ビデオとエンドユーザの画像データのいずれもフルカラーであるが、そうであっても、撮影に利用される照明の特性により、両者を簡単に区別することができる。出力をグレースケールに変換するエフェクトを適用することで、色の相違は解消される。
・付加的な音楽エフェクト、例えば音楽の強いビートでトリガーされるホワイトフラッシュやクイックズームインなどの適用が可能である。
・既存音楽ビデオで使用されているスローモーションエフェクトに適合するよう、スローモーションエフェクトを調整可能に適用することができる（ファーストモーションエフェクトも同様）。

上記エフェクトのパラメータは、手動あるいは自動で決定される。例えばスローモーションエフェクトでは、エンドユーザが提供する付加画像データの選択部に適用されるスローモーションの度合いは、以下の一つ以上の方法で決定される。
・スタイルオーサーが既存音楽ビデオの変更可能な一時的セクションを手動で設定した場合、スタイルオーサーは、上記セクションへのスローモーションの度合いについても手動で注釈を付けることができる。
・既存音楽ビデオについてEDLが利用可能な場合、スローモーションの度合いは、EDLから直接読み込まれる。
・スローモーションの度合いは、例えば、フレーム間の全モーション量を推定することで、既存音楽ビデオの自動分析により推定される。
・音楽ビデオでは、音楽が静かなときはスローモーションを多用し、音が大きいときは、多用しない。適用されるスローモーションの度合いは、変更される一時的セクション中の音楽の音の大きさを測るために音楽トラックを分析し、音の大きさをスローモーションの度合いにマッピングすることで決定される。

EDLに、既存音楽ビデオにはなく、単なるカットとはいえない（カットも含まれているが）付加的なトランジションを含めてもよい。
・既存音楽ビデオの一時的セクションが、付加画像データの複数の部分と置換される場合、単なるカットではないトランジションを上記部分の間に使用できる。
・単なるカット以外のトランジションを付加画像データの選択部および既存音楽ビデオの非変更部との間で使用できる。

最も簡単な事例では、全てのトランジションがカットであるだろうけれども、ほかのタイプのトランジションは、ユーズドワイプ、ディゾルブや、映像編集に精通している人に知られている他のタイプのトランジションである

複数のトランジションタイプが単一の作品で使用される場合、例えば英国特許GB2380599で記載されているような「バリューサイクル」によってトランジションリストから周期的に選択可能とすることができる。

トランジションの時間は固定値でも可変値でもよい。トランジション期間が可変の場合、この期間を音楽の音の大きさの関数として変化させることが望ましい。音楽が静かな場合、トランジションを長くとり、音楽の音が大きい場合、トランジションを短くとることができる。単純な実施において、音の大きさのデスクリプタが０から１の間で正規化値をとる場合、特定のトランジションの時間は、以下のようにその歌の該当点での音の大きさに基づき計算される。
TransDur = MaxTransDur ? （MaxTransDur − MintransDur） x 音の大きさ
ここでMaxTransDurは、音楽が最も静かなとき（音の大きさ＝０）に使用される最大トランジション期間値を示し、MinTransDurは、音量が最も大きなとき（音の大きさ＝１）に使用される最小トランジション期間値であり、TransDurは、特定トランジションの期間を示す。

同期維持
新規音楽ビデオに使われる既存音楽ビデオのセクションが、既存音楽ビデオでの音楽トラックに対して同じタイミングをとることが望ましい。言い換えれば、既存音楽ビデオの音楽と同期する部分、例えば歌手が歌やダンスをする際の口や体といった部分も、新規音楽ビデオの音楽と同期される。

保存と共有
EDLは、可能な限り圧縮されてビデオファイルにレンダリングされる。いったんビデオファイルにレンダリングされると、新規音楽ビデオの様々な形式での供給、使用が可能となる。例えば、ビデオファイルは、eメールあるいは「インスタントメッセンジャー」アプリケーションを介して他のコンピュータに送信可能である。上記ビデオファイルを、ウェブサイト上で閲覧可能としたり、および/またはそのウェブサイトの閲覧者によってダウンロード可能とすることもできる。ビデオファイルを、AppleのiPod（登録商標）やソニーのPSP（プレイステーションポータブル、登録商標）といった携帯ビデオ再生機に転送したり、ビデオ着信音として使用するため、携帯電話へ転送することもできる。ビデオファイルを、VCD（ビデオCD）やDVDといったほかの物理的メディアに転送させてあとでこれらのメディアの作動装置で再生することもできる。

あるいは、EDLを、ビデオ作製で使用したコンピュータ上で即時に再生させるため、リアルタイムでレンダリングすることもできる。EDLとこれに関連するメディアファイル（あるいはその一部）は、リアルタイムの再生あるいはビデオファイルへの保存のいずれかのために他のコンピュータまたはレンダリング用装置へと送信される。

異なる当事者による注釈と作製
注釈段階110において、「編集」は実施されないことが重要である。付加画像データは導入されず、既存音楽ビデオに対して実質的な変更も行われることはない。注釈は、実行すべき編集作業の種類および適用すべき一時的範囲について規定するもので、上記作業は実際には実行されない。

ビデオ編集と通常みなされるすべての作業は、第二段階、すなわち作製段階120で実行される。第一段階110全体は、付加画像データについて何ら知識がなくても実行可能である。これは二つの段階、すなわち110と120がいくぶんか独立していることを示す。

二つの段階が一人のユーザにより一台のコンピュータを使用して比較的短いセッション（数秒あるいは数分内）で全面的に実行され得るが、このことは、要件とはならない。二つの段階110と120は、別々のコンピュータで実行可能であり、二つの段階の手動操作が必要な任意のステップは、異なるユーザによって分担されうる。上記二つの段階は、注釈段階110が常に作製段階120に先立って実施される場合、異なる時間、すなわち数年間を経て実行される場合もある。異なるコンピュータは、任意のサブステップのためにも同様に使用可能である。例えば、上記のように注釈段階がメディアの分析に関連している場合、そのような分析は、処理における別のステップから別のコンピュータ上で実行される。

好ましい実施形態において、第一段階110は、経験あるビデオエディタの助けによって一般的に手動あるいは半自動的に先に実行される。既存音楽ビデオと注釈との組み合わせは、「スタイル」でパッケージされる。このスタイルには、例えば以下に示す方法によって適用される付加エフェクトあるいはトランジションの規定といった、新規音楽ビデオがどのように作製されるか決定するような他の情報あるいは設定が含まれる。

エンドユーザは、「スタイル」と、ユーザ自身の付加画像データとを用い、作製段階120を実施するコンピュータプログラムにより新規音楽ビデオすなわち「個人音楽ビデオ」あるいは「ビデオマッシュアップ」を作製する。上記のようなコンピュータプログラムには、所定の作品について多くの異なるスタイルのうち一つを選択する手段が含まれている。異なるスタイルを選択することで、エンドユーザは、同一の付加画像データセットから、多くの異なるスタイルの、多くの異なる新規音楽ビデオを作製することができる。

所定の既存音楽ビデオに対し、注釈段階110が一回実行されるが、その結果得られるスタイルは、多くのエンドユーザによって作製段階120においても使用可能で、多くの新規音楽ビデオが作製される。

手動による一時的セクションの決定
上記のように、ステップ111において、既存音楽ビデオで一時的セクションが定められる。これは、全手動、全自動、あるいは半自動によって実行される。

全手動の場合、スタイルオーサーは、ビデオ再生プログラムあるいは装置によって既存音楽ビデオを視聴し、置換すべき既存音楽ビデオの部分の始動および終了時刻について手動で注釈を付ける。

一般に、スタイルオーサーは既存音楽ビデオのセグメント間の境界に対応する一時的セクションの境界を選択する。すなわち一時的セクションの始動および終了セクションは、既存音楽ビデオのトランジションに該当する。

定義された一連の一時的セクションに含まれない既存音楽ビデオの任意の部分は、後続ステップにてエンドユーザが提供する付加画像データとの合成（あるいは単純な場合、置換）によって変更されない。上記部分は、変更可能部位に含まれていないことから、エフェクトが「ロック」されていると考えることができる。このような既存音楽ビデオのロック部は、スタイルオーサーにより、音楽ビデオのストーリーあるいはナレーションにとって重要な既存音楽ビデオの特定箇所が新規音楽ビデオに残されていること、あるいはアーティストの象徴的あるいは印象的なショットが現れていることを確実に実施するためのものである。上記ロックは、既存音楽ビデオの最も重要な部分についての特定の経験則に基づき、ある程度自動的に実行される。

既存音楽ビデオの作製に使用されるEDLが利用できる場合、トランジション時間がEDLファイルから直接読み込まれるため、一時的セクションの適正な境界を選択するタスクがはるかに容易である。（EDLフォーマットが独占的なものであったり、人間による読み取りが不可の場合、生成元であるビデオアプリケーションによりEDLファイルを開き、アプリケーションのユーザインターフェースにおいてトランジション時間を手動で読み取ることによって上記時間が決定される。）

既存音楽ビデオのトランジションで一時的セクションの始動時刻と終了時刻との調整は、絶対的な要件とはならない。例えば一時的セクションは、既存音楽ビデオの多数のセグメントに及んでいるか、あるいは既存音楽ビデオのセグメント部のみをカバーしてもよい。

分析による一時的セクションの自動決定
一時的セクションは、既存音楽ビデオのビデオおよび/またはオーディオコンポネントを分析することで得られたデスクリプタデータに基づいて完全に自動的に決定可能である。

一時的セクションの自動決定における好ましい方法を図２のフローチャートで示す。これは、図１のステップ111が拡張されたものとみなすことができる。図２の詳細は、図３においてさらに説明される。図３の上から二つの行は、特に音楽トラック（振幅グラフにより示されている）およびこれに関連した画像トラックをそれぞれ示している。上記のように、画像トラックは、ビデオを作製するようなEDLにより定められた多くの異なる既存セクションを有する。

ステップ201において、既存音楽ビデオの音楽トラックと画像トラックが分析され、デスクリプタ310が生成される。これは、311、312、313の行にそれぞれ示されている。好ましい実施形態となるよう、最も関係のあるデスクリプタは、特にショット境界311におけるビデオトラックのトランジションの時間、音楽トラック312の特に顕著なビート時間と、時間313の関数としての音楽トラックの音量の大きさである。上記デスクリプタの決定技術は、当業者にとっては周知である。

ステップ202において、既存音楽ビデオはデスクリプタの情報に基づき、一時的セクションに分割される。このことは、321、322と標識された行に示された一時的セクション二つの定義を有する、320と標識された行から始まる図３の一部によって示されている。上記一時的セクションの最も自然な境界は、特に上記トランジションが既存音楽ビデオにおけるショット境界（カット）311である場合、既存音楽ビデオのセグメント間のトランジションの間である。分析を通して任意のトランジション検出することは、非常に困難であり、かつ信頼性がない。しかし、検出されたトランジションの時間を示すビデオデスクリプタ311は、実際のトランジション時間をすべて示すことはできない。検出されたトランジション時間のみによって決定された一時的セクション321は、理想値よりも長くなる。

一時的セクションが長すぎる場合、一時的セクション321を所望の継続時間に近いサブセクションへとさらに分割するために、音楽デスクリプタデータ312を「カットヒント」として使用することができる。その継続時間が閾値を超えるような任意の一時的セクションについては、行322に示すように、一時的セクションの中間時間近くで発生される最も強いカットヒントにより一時的セクションを再分割する。上記の再分割は、各一時的セクションの継続時間が閾値以下になるまで繰り返される。

本技術の好ましい実施形態において、継続時間の閾値は、音楽の音量313によって変化する。専門的に作製されたビデオでは、編集の歩調合せは、一般的に音楽の音量によって変更される。特に音楽が大きいときはセグメントは短くなり、音楽が穏やかなときはセグメントは長くなる。既存音楽ビデオから、最も芸術的に魅力のある新規音楽ビデオを作製するためには、一時的セクションの継続時間を音楽の音量によって変更させることが望ましい。上述した再分割処理において、各一時的セクションに対し、一時的セクション全体における平均音量の関数である時間閾値と時間とを比較することで、再分割が必要かどうかについての決定がなされる。

例えば、音楽デスクリプタが範囲［0、1］にノーマライズされた瞬間音量測定器を含む場合、音楽の最小音量部分が音量値０、音楽の最大音量部分が音量値１と定める。音楽の最大音量部分と最小音量部分との継続時間の閾値をminDurThreshおよびmaxDurThreshとすると、中間音量である音楽の一部分は０と１の間の音量値を有する。

所定の一時的セクションが再分割されるべきかについての決定時で使用される時間閾値は、以下の式で求められる。
DurThresh = MinDurThresh + (MaxDurThresh ? MinDurThresh)(1-AvgSectionLoudness)
（一時的セクションは非オーバーラップの場合がほとんどである。既存音楽ビデオのEDLが利用可能で、既存音楽ビデオのセグメントに一時的セクションが対応する場合、一時的セクションは、トランジション時にオーバーラップする。）

既存音楽ビデオの全時間が一時的セクションにカバーされると、ステップ203においてセクションのサブセットの選択が可能となる。サブセットに含まれない一時的セクションは、変更されない。一時的セクションの適正なサブセットを選択するため、様々な経験則が使用される。

一時的セクションのサブセット選択
図４は、望ましい実施形態としての一時的セクションのサブセット選択のための経験則による方法のステップを表すフローチャートであり、手動あるいは自動で実行される。図２のステップ203を拡張することが可能である。音楽ビデオはしばしば、アーティストやバンドを最初と最後に見せることから、最初と最後のセグメントが特に重要となる。個人の音楽ビデオにおいて、基礎となる既存音楽ビデオと個人の音楽ビデオを合成するには、上記セグメントを含めることが望ましい。このため、ステップ401において、変更可能なセクションのリストから、最初と最後の一時的セクションは除かれている。上記セクションは、エンドユーザが提供する付加画像データとの合成によって変更されることはない。個人音楽ビデオを保持するため、既存音楽ビデオとユーザが定める付加画像データとを交互にすることが望ましい。このため、ステップ402の変更可能なセクションのリストから2番目（より一般的には、ｎ番目ごとに）が除去されるようになっている。逆に、ｎ番目ごとの一時的セクションを含めることもできる。

上記から得られた一時的セクションリストは、変更可能な一時的セクションを定めている。別の方法としては、リストの一時的セクションでカバーされていない既存音楽ビデオの画像範囲では、既存音楽ビデオの任意の時間範囲がロックされる。すなわち任意の状況において、後続のステップのエンドユーザが提供する付加画像データによって変更されることはない。

その他の経験則も同様に利用できる。例えば、サブセットに含まれた一時的セクションのパーセンテージが予め設定された特定の範囲内にあるという条件、あるいはサブセットの一時的セクションの合計時間が既存音楽ビデオの全時間の一部をなすという条件において、一時的セクションのフルセットから一時的セクションの任意のサブセットをランダムに選択することが可能である。

既存音楽ビデオのビデオおよび/または音楽を分析することで得られるデスクリプタに基づき、一時的セクションのサブセットも自動的に選択できる。分析によって自動的に得られるデスクリプタおよび技術は、当業者にとって周知である。一時的セクションの選択に影響を及ぼすデスクリプタ情報は以下を含む。
・特に画面の暗い既存音楽ビデオの一時的セクションの変更について定める。
・音楽の音量が特に大きな既存音楽ビデオの一時的セクションの変更について定める。
・顔のクローズアップが検出されない既存音楽ビデオの一時的セクションの変更について定める。

一時的セクションの半自動設定
半自動設定の場合、既存音楽のビデオおよび/または音楽トラックは自動的に分析され、一時的セクションの示唆された開始および終了時間のリストを生成する。スタイルオーサーは、上記リストからの開始/終了時間での一時的セクションを生成することができ、あるいはスタイルがより適当とみなすその他の時間を使用できる。

あるいは、一時的セクションセットを示すため、全自動方法の利用も可能であり、スタイルオーサーは、示されたセットを単純に確認したり、拒否するだけでよい。一時的セクションセットの自動生成方法にランダムな要素がある場合、スタイルオーサーは、特に良好な一時的セクションセットが得られるまで、自動生成を繰り返すこともできる。（「良好な」一時的セクションセットについては感覚的に判断され、完全に定量化することはできない。完全に定量化できるのであれば、一時的セクションを設定するため、手動あるいは半自動方法について考慮する必要はなくなる。）

注釈段階により、特定の編集作業の必要性が定められているが、これは絶対的な要件ではない。例えば、注釈により一時的セクションのサブセットのみが変更され、サブセットのサイズは第二段階120で利用可能な付加画像データ量で決まる。

変更タイプ
一時的セクションの変更タイプとして以下が含まれる。
・置換：既存音楽ビデオの一部が、選択された付加画像データに置換される。最も簡単な変更である。
・カバー：既存音楽ビデオの一部が、選択された付加画像データに全体的にカバーされる。視覚的には置換の場合と同様の結果が得られるが、EDL構造は異なっている。
・ピクチャーインピクチャー：既存音楽ビデオの一部において、選択された付加画像データが当該フレーム内の小さな矩形領域に表示される。その逆も可能。選択された付加画像データにフレームが示され、そのフレーム内の矩形領域に既存音楽ビデオが表示される。
・スクリーン分割：付加画像データがフレームの左半分に示され、既存音楽ビデオが右半分に示される。
・マルチフェース３Dオブジェクト、例えば回転する立方体。既存音楽ビデオは、回転立方体の一つ以上の面に示され、選択された付加画像データは、一つ以上のその他の面に示される。

ピクチャーインピクチャー、スクリーン分割およびマルチフェース３Dオブジェクトは、すべて既存音楽ビデオとユーザが提供する付加画像データとの空間的な合成例と考えられる。

変更タイプと優先度の設定
図５は、既存音楽ビデオの一時的セクションの変更を定めるステップを示すフローチャートである。注釈段階が手動で行われる際の、図１のステップ112の好ましい実施形態である。

ステップ501において、すべての一時的セクションの変更タイプは「置換」と定められる。上述のように、選択された付加画像データによる既存音楽ビデオの一時的セクションの変更方法は多岐にわたる。置換は、上記の変更のうち最も簡単かつ直接的なタイプである。「置換」以外にも、「ピクチャーインピクチャー」、「スクリーン分割」、あるいはその他の変更を利用することができる。変更タイプがすべての一時的セクションについて同じである必要はなく、一回の制作で、異なるセクションにおいて、「置換」、「ピクチャーインピクチャー」、「スクリーン分割」あるいはその他のすべての変更が使用可能である。

ステップ502と503において、セクションの置換優先度が設定される。優先度は、０から１の範囲の数字で表される。１の場合、「要置換」、０の場合「置換禁止」、上記範囲内の数字の場合「状況に応じて置換」をそれぞれ示す（利用可能な付加画像データ量に基づく）。

ステップ502において、置換が必要な一時的セクションの優先度は、できるだけ高い値に設定される。ステップ503において、残りの一時的セクションの優先度が設定される。所望優先度が明確な場合、優先度の高いセグメントには大きな値を、優先度の低いセグメントには小さな値、というように各一時的セクションの優先度が考慮され、明確に設定される。明確な順位がない場合、優先度は、０より大きく１より小さい特定の固定値（例えば0.5）にすべて設定されるか、あるいはその範囲における疑似ランダム値に設定される。

一時的セクションの変更タイプと優先度の設定は、様々な経験則を用いて自動的に、かつ既存音楽ビデオの自動分析により求められたデスクリプタを用いて任意に実行される。

例えば、ステップ111において、一時的セクションの合計時間を、既存音楽ビデオの全時間の50％に設定する。上記の少なくとも50％が「要置換」セクションである必要があるかもしれない。これにより、新規音楽ビデオにおいて、既存音楽ビデオの少なくとも25％がエンドユーザが提供する付加メディアによって変更される。その25％が完全に新規音楽ビデオの最初あるいは最後の部分の中にあることは望ましくない。このような可能性を回避するため、「置換要」セクションは、最初あるいは最後に集中させるよりは、変更可能セクション群を通して均一に配されるような構造となっている。

変更優先度の決定も、既存音楽ビデオのビジュアルおよび/またはオーディオコンテンツの分析に基づき自動的になされる。例えば：
・ビデオ分析により、顔のクローズアップを含む可能性が低い既存音楽ビデオの一時的セクションを決定することができる。上記セクションは、エンドユーザが提供する付加画像データを置換するための候補として考慮され、置換の優先度が自動的に高くなる。これは、既存音楽ビデオのクローズアップがその音楽ビデオでフィーチャーされたアーティストである可能性が高く、エンドユーザは、自分達が作製する個人音楽ビデオでもそのアーティストを見たいとの前提による。
・オーディオ分析により、歌手の声がより多く含まれているセクションや、完全に演奏のみのセクションなどを推定することができる。歌手の声が多く含まれているセクションにおいて、歌のセクションでは、その歌手の姿も撮影されており、エンドユーザは、自分のプライベートな音楽ビデオでも、その歌手を見たいだろうとの前提から、置換について最も低い優先度がつけられる。

既存音楽ビデオの分析は、変更タイプの決定にも使用される。
・既存音楽ビデオの楽器セクション（すなわち歌がない）の変更タイプは「置換」と設定され、歌っているシーンでは、「ピクチャーインピクチャー」の変更が実行されることで、ユーザが提供する画像データ上に重ねられた小さな矩形枠内で引き続き既存音楽ビデオを視聴することができる。
エンドユーザの付加画像データ選択

図６は、図１のステップ122の好適な実施形態、すなわち少なくとも一つの一時的セクションのために付加画像データを選択するステップを示すフローチャートである。

ステップ601において、一時的セクションは、置換優先度が高い順に格納されている。置換について最も高い優先度が設定されたセクション（「置換要」セクション）が、リストの最初にあり、最も優先度の低いセクションが最後となる。ステップ602では、優先度が所定の優先閾値以下のセクションが除去、すなわちリストからはずされる。このステップは、置換されるセクション数を作品ごとに変更可能とするためのもので、例えばエンドユーザが提供する付加画像データから成る作品の一部分に対する、既存音楽ビデオから成る部分との間のバランスを設定するユーザの制御に基づいている。

優先度の最も高いセクションから始まり、置換すべきセクションがあり、エンドユーザが提供する付加メディアが未使用である限り、ステップ604において上記画像データの一部は次のセクション（優先度の高い順）を置換するために選択される。そしてエンドユーザが提供する画像データの選択箇所は、ステップ605において「使用済み」と示される。エンドユーザが提供する未使用メディアがなくなった場合、およびメディアの繰り返しが許容される場合、ステップ606においてエンドユーザが提供する付加画像データのうちすでに使用されている所望部分を未使用との印を付ける。これにより、エンドユーザが提供する付加画像データの部分を繰り返し選択するループを継続させることができる。ユーザのメディアが継続できない場合、現在のセクションおよび後続するすべてのセクション（優先度の高い順）が未変更のままとなり、置換ステップ603から除去される。
デスクリプタマッチング

好ましい実施形態において、ステップ604では、目標のデスクリプタ値に最も近づくようにユーザメディアが選択される「デスクリプタマッチング」が使用される。デスクリプタとして「グローバル」すなわち変更可能なセクションのオリジナルコンテンツに関わらず、顔を強調したい場合のような特別なスタイルや作品のためのものがある。その他、選択メディアの特徴は、セグメントによって変化する。
‐ スタイルオーサーは、置換すべきセグメントの目標デスクリプタを手動で定めることができる。
‐ 変更可能なセグメントの目標デスクリプタは、音楽ビデオの一部の分析、すなわちそこで発生した分析に基づき自動的に取得される。
‐ 目標デスクリプタは、対象となる音楽の状況に基づいている。例えば、音楽の音量が大きい場合は明るいビデオあるいは画像を選択し、音が静かな場合は暗いビデオあるいは画像を選択する。
‐ エンドユーザが提供する付加メディアがビデオを含み、撮影境界時間を定めるためにビデオを分析した場合、所定の変更可能セクションのためのステップ604において、変更可能である限り、エンドユーザ提供のメディアの一部が優先的に選択される。このように、新規音楽ビデオは、音楽のビートと関係のない撮影境界を有する可能性は低い。

デスクリプタマッチングに基づく他のメディア選択方法は、関連技術、例えば英国特許GB2380599に開示されている。

エンドユーザが新しい画像データ群を識別するステップ121において、ユーザインターフェースは、ユーザがユーザメディアの一部の優先レベルを定めることができ、新しい画像データの様々な部分を含むことについてのユーザにとっての重要度を定める制御が含まれている。例えば、新しい画像データがビデオを含む場合、エンドユーザは、新規音楽ビデオのうちで特に見たいビデオの部分を「ハイライト」させ、あるいは新規音楽ビデオで表示したくない部分を「除去」することができる。

エンドユーザのユーザメディアの好みに関する上記情報が利用できる場合、ステップ604でこのことが考慮される。セクション置換のため、利用可能なユーザメディアの一部を選択するとき、ユーザが「ハイライト」させた箇所が第一の優先度となり、「除去」の表示は全体的に回避される。

ユーザメディア選択時の様々な基準は、対立することも多々ある。例えば、ユーザは、自分のビデオのうち、置換の必要などのセクションよりもショットが短い部分をハイライトしているかもしれない。上記のような相反した基準の際のメディア選択のアプローチとして、スコアモデルの使用があげられる。これにより、各基準には、選択決定の際に及ぼす影響を決定する所定の重みがつけられる。例えば、エンドユーザが提供するメディアのハイライト部分が常に新規音楽ビデオに組み込まれるよう、重みをつけることもできる。ただしこの場合は、特定の一時的セクションが撮影境界を含むユーザメディアと置換される結果となる。

エンドユーザが提供するメディアの一部は、一度に一つの一時的セクションで選択される。各一時的セクションについて、後続する一時的セクションのメディア選択に与える影響を考慮することなく、エンドユーザが提供するメディアの最良部が探し出される。その他のアプローチとしては、全ての一時的セクションにおける同時的なユーザ選択について全体最適な（ほぼ最適な）セットを見つけるアルゴリズムを用いる方法であり、それは、任意の選択セットがどれくらい良いものかをデスクリプタがどれくらい良くマッチしているか、そしてそれはユーザビデオ内で撮影境界を回避するかどうか、およびユーザによるハイライトを含むかどうか、を基にして決定するスコアモデルに従うアルゴリズムである。

変更タイプの決定延期
各一時的セクションに使用する変更タイプは、注釈段階時に各一時的セクションについて完全に決定されるというよりは、第二段階へと部分的あるいは全体的に引き継がれる。

例えば、注釈段階において、各一時的セクションについて、各セグメント毎に実行可能な変更タイプが定められる。この際の条件は、各変更タイプに関連している。例えば、所定の一時的セクションにおいて、選択されたユーザの画像データがハイモーションビデオの場合のみ、変更タイプが「置換」可能となる。選択されたユーザの画像データが静止画あるいはローモーションビデオの場合、変更タイプは、ピクチャーインピクチャーとなり、既存音楽ビデオに重ねられた矩形枠にユーザの画像データが表示される。

セグメント置換例
図７は、音楽およびビデオの分析を用いた、既存音楽ビデオのセグメント置換に関する実施形態の全体操作を示す。ここでは、既存音楽ビデオの「編集決定リスト（EDL）」や手動でのマークアップが利用できないことが前提となっているため、適正な変更可能一時的セクションは、音楽ビデオの分析によって決定されなければならない。

既存音楽ビデオ710は、音楽部711とビデオ部712とから構成される。ビデオ部は、mvSeg1からmvSeg7までの一連のセグメントから構成される。「mv」は、「音楽ビデオ」の略である。上記セグメントは、カット714、ワイプ715およびディゾルブ713といったトランジションによって分割されている。

既存音楽ビデオの音楽部711とビデオ部712を分析し、その結果得られる上述のデスクリプタを合成することで、変更可能なセクションの適正な一時的境界を識別することができる。この例では、４つの変更可能セクションがあり、各一時的境界は、既存音楽ビデオの撮影境界に対応している。

既存音楽ビデオの第一および第三変更セクションが、変更対象として選択される。この場合、カットによる置換のみが利用される。出力作品では、選択された変更可能セクションがユーザメディアと置換される。

ユーザ入力メディアは、「ユーザビデオ１」と「ユーザビデオ２」とラベル付けされた二個のビデオファイルから構成される。出力作品では、第一変更可能セクションが、ユーザ素材sSeg1 741とsSeg2とによって置換される。出力作品では、セグメントが重なり、このセグメント間のデゾルブトランジション731の時間が調節され、カットヒントで開始されるようになっている。第三変更可能セクション733は、「ユーザビデオ2」からマテリアルsSeg3と置換される。必ずしもすべてのユーザビデオが使用されるわけではなく、ユーザビデオの中には出力作品742に現れないものもあることに注意すべきである。

既存音楽ビデオの一部あるいは複数の既存音楽ビデオの使用
説明を簡単にするため、上記説明では、新規音楽ビデオは、その基礎となる単一の既存音楽ビデオと同じ時間を有するものとする。一般的には、直接的な変更により、上記方法は既存ビデオの一部から新規音楽ビデオを作製するために使用される。

ユーザが既存音楽ビデオから、携帯電話の着信音を作る場合が類似の事例としてあげられる。ビデオからの着信音も含めたポピュラーソングに基づく着信音は、歌の抜粋のみを使用するのが一般的である。歌の中で覚えやすいあるいはわかりやすい部分、多くの場合はコーラス部が、着信音として最も適当である。したがって既存音楽ビデオの抜粋、例えばコーラス部のみに基づき新規音楽ビデオを作製するために上記方法を使用することが非常に望まれている。

上記方法は、いくつかの既存音楽ビデオの連結あるいはそれらの抜粋の連結から新規音楽ビデオの作製を可能とするため、直接的な変更によって延長も可能である。

コンピュータの種類と複数のコンピュータ間でのタスクの分割
上記方法は、様々な機種のコンピュータで実施可能であり、すべてのステップを一台のコンピュータで実行でき、あるいは異なるステップを異なるコンピュータで実行可能である。数台のコンピュータで実行されるステップの分割についての例を以下に示す。

以下の説明において、スタイルオーサーは、既存音楽ビデオを使用して最初にスタイルを設定する。上記設定は、既存音楽ビデオの注釈、変更可能な一時的セクションの変更タイプの指定、付加エフェクトおよびトランジションの指定など、上述した様々なステップを含む。一般に、スタイルオーサーは、パーソナルコンピュータ（デスクトップあるいはラップトップ）で作動するツールを設定プロセス実行の際に用いる。設定されたスタイルは、いくつかの方法のうちの一つとして展開される。
・パーソナルコンピュータ：スタイルとこれを用いたソフトウェアプログラムがパーソナルコンピュータにインストールされている。このソフトウェアのユーザインターフェースを介して、ユーザはハードディスクやその他の大容量記憶装置上のメディアファイル、そしてスタイルを選択し、新規音楽ビデオを作製するステップの実行を開始する。このプログラムは、新規音楽ビデオのEDL を作製する。EDLはリアルタイムプレビューの一連のビデオフレームを作るため、リアルタイムで再生することも、ビデオファイルで表示することも可能である。
・ポータブル装置：スタイルとこれを用いたソフトウェアプログラムが、携帯電話、PDA、デジタルカメラ、iPod（登録商標）のような携帯音楽プレイヤーといった携帯機器を含む様々な種類のコンピュータデバイスにインストールされている。ソフトウェアは、上記パーソナルコンピュータと同様に機能する。
・サーバーベースシナリオ：スタイルは、インターネットなどのコンピュータネットワークを介してアクセス可能な音楽ビデオ作製サービスを実施するサーバー上で展開される。エンドユーザは、自分のコンピュータデバイス（パーソナルコンピュータ、携帯電話、PDAなど）からの画像データを、一般的にマイクロソフトインターネットエクスプローラーといったブラウザで表示されたウェッブページ上のユーザインターフェースを介してサーバーにアップロードする。次にユーザはスタイル（サーバー上に一つより多いスタイルがある場合）を選択し、新規音楽ビデオの作製プロセスを開始する。サーバー上で操作されるソフトウェアは、上述のステップを実行し、ユーザのメディアが組み込まれた新規音楽ビデオのEDLが自動的に作製される。サーバーによって、EDLが圧縮ビデオファイル化されることで、ユーザは自分のコンピュータデバイスに上記ファイルをダウンロードし、見ることができる。
・最小メディア転送サーバーベースサービス：様々なサーバーベースのシナリオにおいて、エンドユーザのメディアが、エンドユーザのコンピュータ上で分析される。メディアのデスクリプタのみがサーバーにアップロードされ、実際のメディアファイルはアップロードされない。サーバー上で操作されるソフトウェアは、ユーザメディアデスクリプタおよびスタイルを用いて新規音楽ビデオのEDLを生成する。EDLおよびこれに関連する既存音楽ビデオの一部は、エンドユーザのコンピュータへとダウンロードされる。エンドユーザのコンピュータ上のソフトウェアは、EDLを操作し、一連のビデオフレームを生成するため、リアルタイムのEDLの編集指示が実行される。上記アプローチの利点は、サーバーとエンドユーザ間で転送されるデータ量がかなり減少される点にある。特に、エンドユーザのメディアがサーバーにアップロードされることはない。

既存音楽ビデオが無いスタイル
注釈段階が全自動の場合、特定の既存音楽ビデオに関連していないスタイルを設定することができる。このスタイルは、付加エフェクトとトランジションの適用ルールに沿って既存音楽ビデオの注釈の方法およびパラメータを指定するが、注釈自体は指定しない。

上記スタイルおよびこれを用いたソフトウェアプログラムにより、エンドユーザは、任意の既存音楽ビデオ（ビデオ共有ウェッブサイトあるいはレコード会社のウェッブサイトからダウンロードされたもの）を取得し、自身の付加画像データを選択し、新規音楽ビデオを作製することができる。上記シナリオにおいて、実際の注釈段階110と作製段階120は、専らエンドユーザのコンピュータで実行される。

あるいは、エンドユーザが既存音楽ビデオと変更可能な一時的セクションを指定し、使用する変更タイプや使用する負荷エフェクトは指定されることなく注釈情報を受信するような構造でもよい。ソフトウェアプログラムにおいて、ユーザは既存音楽ビデオと注釈情報を選択し、使用する変更タイプと、提供される付加画像データの選択基準が指定される。ソフトウェアプログラムは、上述の方法により、新規音楽ビデオを作製する。

本発明をひとつの好ましい実施形態として説明してきたが、以下に記載のクレームの範囲を逸脱しない限り、任意の変更が可能である。

図１は、本発明の実施形態である、既存の音楽ビデオと付加画像データから新規音楽ビデオを作製する方法の概略を示すフローチャートである。図２は、既存音楽ビデオの一時的セクションを自動的に決定するため、図１に示すステップの実施可能な具体例を示すフローチャートである。図３は、一時的セクションの位置データを得るため、図２のステップにおける音楽とビデオデスクリプタの使用法を示す。図４は、変更の可能性が定められる一時的セクションのサブセットを得るための、図２に示すステップのサブステップのフローチャートである。図５は、各一時的セクションに対する優先度が変わる固定変更タイプを定めるための図１に示す別のステップの実施可能性を示すフローチャートである。図６は、優先度により置換のために順に配された一時的セクションのサブセットを選択するための図１に示す別のステップの実施可能性を示すフローチャートである。図７は、本実施形態の操作の概略を示す。

Claims

既存音楽ビデオから新規音楽ビデオを作製するためのコンピュータ化された方法であって、前記新規音楽ビデオと既存音楽ビデオは、音楽トラックおよび画像トラックとを有し、前記方法は、
a) 既存音楽ビデオ内の複数の一時的セクションの位置を定める位置データを取得するため、第一ユーザによって既存音楽ビデオに注釈がつけられる第一段階と、
b) 前新規音楽ビデオが、
(i) 第２ユーザーが追加画像データ群を示すステップと、
(ii) 既存音楽ビデオの前記一時的セクションの少なくとも一つについて、示された付加画像データ群から少なくとも一つのエレメントを自動的に選択するステップと、
(iii) 少なくとも一つの変更画像トラックセクションを形成するため、付加画像データ群から少なくとも一つの選択されたエレメントを用いて既存音楽ビデオの前記複数の一時的セクションのうち少なくとも一つの画像トラックを自動的に更するステップと、
(iv) 新規音楽ビデオを形成するため、既存音楽ビデオの画像トラックと、音楽トラックの他のセクションによる前記少なくとも一つの変更画像トラックセクションとを自動的に結合するステップと、
によって作製される第二段階と、
を含むコンピュータ化された方法。
前記方法の前記第一段階は、既存音楽ビデオの一つ以上の前記一時的セクションについて、第一ユーザが各一時的セクションに対してなされる変更タイプを示す各変更データセットを取得するステップをさらに含み、
前記方法の前記第二段階は、既存音楽ビデオの前記少なくとも一つの一時的セクションを変更する前記ステップが、各変更データセットに従って実行される、請求項１に記載の方法。
前記第一段階において、前記第一ユーザが第一コンピュータシステムを操作させ、前記第二段階において、第二ユーザが第一コンピュータシステムから操作上独立した第二コンピュータシステムを操作し、前記位置データは、前記第一段階に引き続き、第一コンピュータシステムおよび第二コンピュータシステム間で転送される、請求項１または２に記載の方法。
既存音楽ビデオから新規音楽ビデオを作製するためのコンピュータ化された方法であって、前記新規音楽ビデオと既存音楽ビデオは、音楽トラックおよび画像トラックとを有し、前記方法において、
a) 既存音楽ビデオは、
(i) 既存音楽ビデオ内の複数の一時的セクションの位置を定める位置データを取得するステップと、
(ii) 既存音楽ビデオの一つ以上の前記一時的セクションについて、各一時的セクションとされる変更タイプを示す一連の各変更データを取得するステップと、
によって注釈がつけられる第一段階と：
b) 新規音楽ビデオは、
(i) ユーザが付加画像データ群と示すステップと、
(ii) 既存音楽ビデオの前記一時的セクションの少なくとも一つについて、付加画像データ群から少なくとも一つの各エレメントを自動的に選択するステップと、
(iii) 少なくとも一つの変更画像トラックセクションを形成するための付加画像データ群から、少なくとも一つの各選択エレメントを用いて各変更データセットに従って、既存音楽ビデオの前記少なくとも一つの一時的セクションの画像トラックを自動的に変更するステップと、
(iv) 新規音楽ビデオを形成するため、少なくとも一つの変更画像トラックセクションと、既存音楽ビデオの画像トラックと音楽トラックの他のセクションとを自動的に結合するステップと、
から成る工程によって作製される第二段階と、
を含むコンピュータ化された方法。
前記変更データセットが、既存モーションビデオの前記音楽トラックの自動分析を含む工程により取得される、請求項２または４に記載の方法。
前記方法の前記第一段階において、変更データセットが、既存音楽ビデオの前記各一時的セクションと、スタイルパラメータの複数の値のそれぞれについて取得され、
前記方法の前記第二段階は、
前記スタイルパラメータ値を選択するステップと、
選択されたスタイルパラメータ値に関連して一連の変更データに従って既存音楽ビデオの前記少なくとも一つの一時的セクションを変更するステップと、
を含む請求項２、４、または５に記載の方法。
前記第二段階は、付加画像データ群の各選択エレメントの分析を含み、既存音楽ビデオのそれぞれの前記少なくとも一つの一時的セクションを変更する前記ステップは、分析結果に従って実行される、請求項１乃至６のいずれかに記載の方法。
前記位置データセットは、既存音楽ビデオが記載されている編集決定リストを用いて取得される、請求項１乃至７のいずれかに記載の方法。
位置データを取得するステップは、既存音楽ビデオの音楽トラックおよび/または画像トラックの自動分析を実行することを含む、請求項１乃至８のいずれかに記載の方法。
前記第一段階では、各変更優先値が前記複数の一時的セクションのそれぞれに対応付けられ、前記第二段階では、前記一時的セクションの各変更優先値に基づき前記複数の一時的セクションの前記少なくとも一つが選択されるステップを含む、請求項１乃至９のいずれかに記載の方法。
前記変更優先値の少なくとも一つにより、各一時的セクションが前記複数の一時的セクションの前記少なくとも一つに含まれなければならないと定められている、請求項１０に記載の方法。
前記変更優先値の少なくとも一つにより、各一時的セクションが前記複数の一時的セクションの前記少なくとも一つに含まれてはならないと定められている、請求項１０に記載の方法。
前記複数の各一時的セクションについて、変更優先値は、前記既存音楽ビデオの自動分析によって取得される、請求項１０乃至１２のいずれかに記載の方法。
既存音楽ビデオの前記複数の一時的セクションの前記少なくとも一つの画像トラックを自動的に変更する前記ステップにおいて、既存音楽ビデオの前記複数の一時的セクションの前記少なくとも一つの画像トラックが、付加画像データ群から選択された少なくとも一つの各選択エレメントに置換されるステップを含む、請求項１乃至１３のいずれかに記載の方法。
既存音楽ビデオの前記複数の一時的セクションの前記少なくとも一つの画像トラックを自動的に変更する前記ステップにおいて、既存音楽ビデオの前記複数の一時的セクションの前記少なくとも一つの画像トラックと、付加画像データ群から選択された少なくとも一つの各選択エレメントとが結合されるステップを含む、請求項１乃至１３のいずれかに記載の方法。
表示された付加画像データ群から少なくとも一つのエレメントが自動的に選択される前記ステップは、既存音楽ビデオの前記一時的セクションの少なくとも一つについて、
(i) 表示された付加画像データ群において撮影境界を設定するステップと、
(ii) 前記撮影境界に基づいて、表示された付加画像データ群からエレメントを選択するステップと、
を含む、請求項1乃至15のいずれかに記載の方法。
表示された付加画像データ群から少なくとも一つのエレメントが自動的に選択される前記ステップは、既存音楽ビデオの前記一時的セクションの少なくとも一つについて、
(i) 表示された付加画像データ群の一つ以上のデスクリプタ値を取得するステップと、
(ii) 前記一つ以上のデスクリプタ値に基づき、前記表示された付加画像データ群からエレメントを選択するステップと、
を含む、請求項1乃至1６のいずれかに記載の方法。
既存音楽ビデオの各一時的セクションの画像トラックについて、前記一つ以上の取得デスクリプタ値と、一つ以上の各デスクリプタ値との類似の基準に従って、前記エレメントが選択される、請求項17に記載の方法。
前記エレメントは、前記取得されたデスクリプタ値と、各一時的セクションの一つ以上のデスクリプタ目標値との類似基準に従って選択され、前記一つ以上のデスクリプタ目標値は前記第一段階で取得されている、請求項17に記載の方法。
前記変更画像トラックセクションが、既存音楽ビデオの画像トラックの各セクションにふさわしい、少なくとも一つのビジュアルエフェクトを取り込む、請求項1乃至19のいずれかに記載の方法。
前記ビジュアルエフェクトは、スローモーションあるいはファーストモーションエフェクトである、請求項20に記載の方法。
前記第一段階は、前記一つ以上の一時的セクションに対する各速度値を指定するステップを含み、前記各変更画像トラックセクションは、各指定された速度値に従ったスローモーション又はファストモーションを有する、請求項1乃至21のいずれかに記載の方法。
ビジュアルエフェクトは、新規音楽ビデオのほぼ全体に適用される、請求項１乃至22のいずれかに記載の方法。
新規音楽ビデオは、前記音楽トラックの特徴に従って定められた新規音楽ビデオであって、ある位置で少なくとも一つのビジュアルエフェクトを含む、請求項1乃至23のいずれかに記載の方法。
ビデオ着信音として使用するために、携帯電話に新規音楽ビデオを転送するステップ、をさらに含む、請求項１乃至２４のいずれかに記載の方法。
既存音楽ビデオから新規音楽ビデオを作製するコンピュータ化された方法であって、前記新規音楽ビデオと既存音楽ビデオは共に音楽トラックと画像トラックを有し、前記方法は(a)既存音楽ビデオと、(b)既存音楽ビデオ内の複数の一時的セクションの位置を定める既存位置データと、へのアクセスを伴うコンピュータシステムによって実行され；
前記方法は、
(i) 付加画像データ群のユーザから指示を受信するステップと；
(ii) 既存音楽ビデオの前記一時的セクションの少なくとも一つについて、付加画像データ群から少なくとも一つの各エレメントを自動的に選択するステップと；
(iii) 少なくとも一つの変更画像トラックセクションを形成するために、付加画像データ群から選択されたそれぞれの前記少なくとも一つのエレメントを用いて既存ビデオの前記少なくとも一つの一時的セクションの画像トラックを自動的に変更するステップと；
(iv) 新規音楽ビデオを作製するため、前記少なくとも一つの変更画像トラックセクションを既存音楽ビデオの画像トラックと音楽トラックの他のセクションとを自動的に結合するステップと、
を含む方法。
前記コンピュータシステムは、コンピュータネットワーク上でユーザと通信するサーバーである、請求項２６に記載の方法。
前記コンピュータネットワークは、インターネットである、請求項２７に記載の方法。
ユーザによって操作される装置であって、
(a)既存音楽ビデオと、(b)既存音楽ビデオ内の複数の一時的セクションの位置を定める位置データと、を受信するためのインターフェースと；
ユーザから付加画像データ群の指示を受けるデータ入力手段と；
プロセッサーであって、
(i) 既存音楽ビデオの少なくとも一つの前記一時的セクションについて、付加画像データ群から少なくとも一つの各エレメントを自動的に選択し；
(ii) 少なくとも一つの変更画像トラックセクションを形成するために、付加画像データ群からそれぞれ少なくとも一つの各選択エレメントを用いて既存音楽ビデオの前記少なくとも一つの一時的セクションの画像トラックを自動的に変更し；
(iii) 新規音楽ビデオを作製するために、前記少なくとも一つの変更画像トラックセクションと、既存音楽ビデオの画像トラックと、及び音楽トラックの他のセクションとを自動的に結合する、
ように構成されたプロセッサーと、
を含む装置。
携帯型の家庭用電化製品である、請求項２９に記載の装置。
携帯電話、デジタルスチールカメラ、ビデオカムコーダ、あるいはPDAである、請求項３０に記載の装置。
コンピュータシステムによって読み込み可能なソフトウェアを有するコンピュータプログラム製品であって、
(i) 音楽トラック及び画像トラックを含む既存音楽ビデオと、音楽ビデオの少なくとも一つの一時的セクションを定める位置データとを受信するステップと；
(ii) ユーザからオーディオビジュアルデータ群の指示を受信するステップと；
(iii) 既存音楽ビデオの少なくとも一つの前記一時的セクションについて、付加画像データ群から少なくとも一つの各エレメントを自動的に選択するステップと；
(iv) 少なくとも一つの変更画像トラックセクションを形成するために、付加画像データ群から選択された少なくとも一つの各選択エレメントを用いて既存音楽ビデオの少なくとも一つの一時的セクションの前記画像トラックを自動的に変更するステップと；
(v) 新規音楽ビデオを形成するために、前記少なくとも一つの変更画像トラックセクションと、既存音楽ビデオの画像トラックと音楽トラックの他のセクションとを自動的に結合するステップと、
からなる方法をコンピュータシステムに実施させる、コンピュータプログラム製品。
既存音楽ビデオに注釈をつけるコンピュータシステムによって実行される方法であって、前記方法は、
(i) 既存音楽ビデオ内の複数の一時的セクションの位置を定める位置データを取得するステップと、
(ii) 既存音楽ビデオの一つ以上の前記一時的セクションについて、各一時的セクションに対してなされる変更タイプを示す各変更データセットを取得するステップと、
(iii) コンピュータシステムからの前記位置データと変更データを送信するステップと、
を含む方法。
データ構造製品であって、
音楽トラックと画像トラックとを含む音楽ビデオと；
音楽ビデオの少なくとも一つの一時的セクションを定める位置データと；
音楽ビデオの一つ以上の前記一時的セクションについて、各一時的セクションに対してなされる変更タイプを示す各変更データセットと；
を含むデータ構造製品。
既存音楽ビデオから新規音楽ビデオを作製するコンピュータ化された方法であって、前記新規音楽ビデオと既存音楽ビデオは、共に音楽トラックと画像トラックを含み、前記方法は、
a) 注釈基準のセットを選択するステップと；
b) 前記選択された注釈基準のセットに従って既存音楽ビデオに注釈を付けるステップであって、既存音楽ビデオ内の複数の一時的セクションの位置を定める位置データを取得することを含むステップと；
c) 新規音楽を、
(i) 付加画像データ群を指示するステップと、
(ii) 既存音楽ビデオの少なくとも一つの前記一時的セクションについて、付加画像データ群から少なくとも一つの各エレメントを自動的に選択するステップと、
(iii) 少なくとも一つの変更画像トラックセクションを形成するために、付加画像データ群から選択された少なくとも一つの各エレメントを用いて既存音楽ビデオの前記少なくとも一つの一時的セクションの画像トラックを自動的に変更するステップと、
(iv) 新規音楽ビデオを形成するために、前記少なくとも一つの変更画像トラックセクションと、既存音楽ビデオの画像トラックと、及び音楽トラックの他のセクションと、を自動的に合成するステップと、
を含む工程によって作製するステップと；
を含む方法。