JP4373467B2

JP4373467B2 - 編集方法

Info

Publication number: JP4373467B2
Application number: JP2007321285A
Authority: JP
Inventors: ケロック，ピーター，ローワン; アルトマン，エドワード，ジェームス
Original assignee: Muvee Technologies Pte Ltd
Current assignee: Muvee Technologies Pte Ltd
Priority date: 1998-06-12
Filing date: 2007-12-12
Publication date: 2009-11-25
Anticipated expiration: 2020-12-22
Also published as: EP1086359A1; WO1999064827A1; JP2008123672A; DE69912425D1; US6080939A; EP1086359B1; JP2002517745A; JP4373466B2; JP2008123673A; DE69912425T2; JP3398865B2

Description

本発明は一般的にコンピュータで生成されるメディア制作物（media production）に関する。特に、この発明は、動画ビデオ、静止画イメージ、音楽、スピーチ、音響効果、アニメグラフィックス及びテキストの一つ又は２以上を含む制作の全自動若しくは半自動編集に関する。

現在、アナログメディアは徐々にデジタルメディアに置きかえられつつある。オーディオの分野において、この移行は既に大きく起こっている。そして、この移行はイメージ、ビデオ、グラフィックスアニメーション及び他のメディアでも進行中である。これらのメディアがデジタル化するにつれ、コンピュータ資源における容量／コストの比は増加の一途をたどる。デジタルメディア制作物に関する新しいユーザとマーケットが開拓されつつある。この発明の特に関連するところは簡易メディア制作物、特に簡易ビデオ制作物の新規マーケットを開拓することにある。つまり、専門的ビデオ制作物の使用は除かれ、最近までは必要な機材のコストは非常に高かった。これには、ホームビデオ制作物（例えば、休暇、結婚式等）、非公式組織の使用（例えば、内部通信やチーム作り）、社会や他の組織による使用等が含まれる

簡易や“デスクトップ”という概念は１０年ほど前から知られていたが、種々の課題から広く導入されるには至らなかった。理由として、
１．技術的インフラの課題：カメラからビデオをデジタル化するときの不便さや品質の低下、ハードディス容量の制限、不充分な処理能力、等
２．簡便で低コストの流通機構の欠如：最近まで汎用のフォーマットはビデオテープしかなかったが、重複や流通に関連するコストや時間が多くのアプリケーションの可能性を不可能としてきた。
３．時間や専門知識が、特に編集及び制作前段階において、満足にたる品質の制作物を作るのに要求されていた。
第１及び第２のこれらの問題は現在ではＤＶカメラ、ＩＥＥＥ１３９４（“ファイヤワイヤ”）インターフェース及びワールドワイドウエブ上のビデオ配信によりなくなっている。

この発明は第３の問題の解決を目的とし、自動若しくは半自動のデジタルメディア、特にビデオの編集にある。

今日、ビデオ編集に使用される主たるツールは“非線形ビデオ編集（Non-Linear video Editor”）若しくはＮＬＥである。これらはコンピュータプログラムであって、フィルムカットやビデオテープ装置を用いた線形ダビング編集などの従来型の編集方法から手法を採用している。これらは編集のためのマニュアル的な手法を用いており、それによればユーザが経験してその結果が高品質なビデオ制作物となるようなシナリオに適合する。このようなタイプの製品は多数存在し、アドブ社のPremiereやアップル社のiMovieを挙げられる。

ＮＬＥは初期のテクノロジーにおいて多大な進展をみせている。しかしながらいまだ多くの問題がのこっている。その問題とは、ユーザがメディアの専門家ではないこと、専門家の要求する品質が必ずしも要求されていないこと、若しくは素材の編集を素早く行う必要のあることである。非専門家に適用するようにされたＮＬＥであったとしても、それは満足な制作を得るのにかなり深刻な学習曲線と多大な時間が要求される。ユーザは１分の出力ビデオを形成するのに１時間を費やすことが一般的な許容範囲と考えられている。即ち、制作時間とプレイバック継続時間との間には６０：１の割合が許容されている。この発明の目的は自動化によりこの割合を劇的に小さくすることにあり、この点により、ユーザ自身に何ら手間をかけさせること無く満足のいく結果が得られる場合がある。

実時間の画像表示や音声進行に同期したテキスト文などユーザが制作物を創造することを許容する既存のツールが幾つか存在する。これらはアニメーションツール（例えばマイクロメデイア社のＦｌａｓｈ等）、スライドショウツール（マイクロソフト社のＰｏｗｅｒＰｏｉｎｔ等）及びストリーミングメデイアのための著作ツール（リアルネットワーク社のＲｅａｌＰｌａｙｅｒ等）。しかしながら再度考えるべきことは、数分間の単純な制作物を形成するのに数時間が必要なことを時としてユーザは知ることになる。

この発明は入力されるメディア素材からメディア制作物を形成する新規有用な装置と方法を提供することを目的とする。

一般的にいえば、この発明より入力された素材が編集されて出力制作物が構築される。このプロセスはメディア記述子のセットを派生させ、このメディア記述子は入力された素材を表現する。この入力された素材は分析により若しくは外部ソースから提供されることより又はその両者により得られる。このことに引き続きコンピュータによる構築プロセスが生じる。この構築プロセスは（i）メディア記述子のセットにより、及び（ii）編集スタイルを決めるための、例えばユーザが決めるスタイルデータのような、スタイルデータに基づく編成決定の形成を含む。
インプットされた素材はモーションビデオ、静止画像、音楽、スピーチ、音響効果、アニメ画像及びテキストの少なくともひとつを含む。
メディア記述子のセットは予め形成されるか（例えば、この発明品の外部において）若しくはインポートされたデスクリプタにより、例えば入力された素材と一緒になって補充されることがある。

決定論的な及び確率論的な（蓋然論的な）処理の一方若しくは両方を含むプロセスによりスタイルデータは形成される。
編集は入力された素材に適用される下記のプロセスの少なくとも１つを含むことがある。そのプロセスとは、（ビデオ／音声）の細分化、選択的導入、順序付け、変形と結合である。これらのプロセスはときとしてユーザの介入により補足される。これは２つのステージよりサポートされている。一つは自動的な構築プロセスに先立つ事前選択ステージであり、他の一つは構築後のタッチアップステージである。

この発明の極めて好ましい局面は音楽による制作物を形成することにある。ここにおいて、入力される素材はａ）モーションビデオ素材及び／又は画像のセット、及びｂ）録音された音楽である。この発明の装置はビデオ／画像と音楽の両者を分析し、それぞれのためのメディア表現データを形成する。そしてこの情報を利用して出力制作物を形成し、この出力制作物は音楽の構成により影響され若しくは決められる。

本発明の標準的な応用は家庭用、企業用、趣味に生きる人々用のビデオやその他の時間によるメディアの制作物、音楽に同期したスライドショウの制作物、リッチメディア電子グリーティングカードの制作物、ＷＷＷ用のメディアの制作物、リッチメディアオンラインカタログの制作物、消費者間の取引アプリケーションに関するリッチメディアオンラインコンテンツの制作物を含む。なお、消費者間の取引アプリケーションにはオンラインアクション、分類された宣伝、カラオケビデオ等の制作物のような専門的なビデオアプリケーションの幾つかが含まれる。

この発明は、方法と装置の局面をともに含んでいるが（即ち、方法のステップを実行する各手段から装置が構成される）、種々のハードウエアの中で具現化することができる。このハードウエアには一般目的用のコンピュータ、個人用デジタル補助具、専用のビデオ編集ボックス、セットトップボックス、デジタルビデオレコーダ、テレビジョン、ゲームコンソール、デジタル静止画カメラ、デジタル動画カメラが含まれている。

この発明の実施例を、例示のためのみの図面を参照して以下に説明する。

実施例の詳細な説明
図１はこの発明の実施例の全体構造を示す。
図１を参照にして、実施例の装置に入力される素材は次のものの１又は２以上を含む。
“入力ビデオ”［１０１］、即ち、デジタルビデオストリームや１以上のデジタルビデオフィルムのようなモーションビデオ。典型的には、カメラやビデオカメラにより捕らえられたビデオのような何ら編集されていない“生の映像”である。これはまたサウンドトラック［１０２］を含むことができる。
“入力イメージ”［１０３］、即ち、デジタル画像フィルムのような静止イメージ。これらはモーションビデオの代わりに、若しくはモーションビデオに追加して使用される。
デジタル音声ストリームや１又は２以上のデジタル音声フィルムのような様式内の“入力音楽”［１０４］。この実施例においては、音楽は出力制作物のためにタイミングとフレームワークを提供する。入力視覚素材は種々の方法で編集される。この編集の方法は音楽による制作物を形成するための音楽の構成に関連する。
入力テキスト及び／又はグラフィックス［１０５］は典型的にはタイトル、クレジット、サブタイトル等に用いられる。
“スタイル情報”［１０６］、即ち、装置により使用されるデータや論理であって自動生成プロセスの特性を制御し若しくは影響を与える。換言すれば、“編集スタイル”を指す。ユーザは所定のスタイルの中から選択することができるし、及び／又は個々のスタイルのパラメータにアクセルすることもできる。実施例においては、スタイルは装置の外にあり又は装置の一部をなす。

この明細書において“入力素材”なる用語は装置に入力されるメディアの１又は２以上のものを意味する。支持されるメディアのタイプはモーションビデオ、静止イメージ、音楽、スピーチ、音響効果、静止した若しくはアニメのグラフ、及び静止した若しくはアニメのテキストを含む。“入力視覚素材”なる用語はビデオ、イメージ、アニメーション、グラフィック若しくはテキストのような視覚型の入力素材をいう。

出力
図１を参照して、装置により形成された“出力制作物”［１０８］はビデオ、アニメーション、若しくはイメージの時間列のようなものであり；これは、補助的なサウンドトラック、出力サウンドトラック［１０９］、音楽の形成、スピーチ及び／又は他の音を含むことができる。この出力制作物は入力素材の全部又は一部により形成され、ここにおいて入力素材は以下に説明する１又は２以上のプロセスにより装置により処理される。

“細分化（Segmentation）”。即ち、入力ビデオは視覚的な若しくは聴覚的な特徴に基づいて細分化される。例えば、無作為なショット、ショットの部分、特別な声若しくは背景音を含むセグメントなどである。ショットとはビデオの連続体であり、中断やカットを持たず、中止やポーズをすることなくビデオカメラに収録されたビデオの一つのセグメントなどを指す。
“選択的導入”（Selective inclusion）。即ち、ビデオのセグメント、音楽若しくはサウンドトラック、選択されたイメージ、若しくはイメージやビデオフレーム中の領域のような入力素材の要素が出力制作物に含まれる。他方、他のものは含まれない。典型的には、従来的なメディア制作物として、多数のものが除かれる。

“順序付け（Sequencing）”。入力素材の要素を順序付けすることができ、その結果、出力制作物を有する要素の時間配列は入力素材中のそれらの要素の時間配列に対応し、またはデスクリプタの相同性のような他の要件に基づいてそれらは順序付けされる。
“変形（Transformation）”。入力素材の要素を変形することができる。例えば、周知の“特殊効果”、色の変化（例えばモノクロ及びフラッシュ効果）、速度（例えば、スローモーション）、大きさ（例えば人工的な拡大）、位置（例えば人工的なパン撮り）、形状（例えばラッピング）等を含むプロセスがある。
“結合（Combination）”。入力素材は同時にまた順番に結合される。例えば、入力素材からのイメージとビデオセグメントは入力音楽と同時に提供することができ、また、入力テキスト／グラフィックスはそのビデオに重ねることができる。イメージとビデオのセグメントは結び付けて重ね合わせることができる。これは周知のワイプ（wipes）やディソルブ（dissolves）のような移行(transitions)の使用を許容する。入力サウンドトラックのセグメントは入力音楽のセグメントにミックスすることができる。マルチのイメージ及び／又はビデオセグメントは同時に出力制作物のフレームの異なる領域に提供することができる。また、それらは混合されて合成画像（“ミキセージ（mixage）”）を提供する。

出力制作物は入力素材を参照せずにその装置により形成された素材を含むことができる。背景として用いられる色や風合い、静止画及びアニメグラフ要素等である。

構成要素の分析と説明
図１を参照して、実施例は下記の構成要素を有し、この構成要素は入力素材の分析と説明に関連している。
ビデオアナライザ［１１０］。これは入力ビデオを分析し、１又は２以上の記述子（デスクリプタ、(descriptor)）を含むビデオ記述（Video Descriptor）［１１１］形成する。このビデオアナライザは信号分析技術やマルチフレームや個別フレームに対する他の種類の処理方法を応用し、記述子を形成する。典型的な記述子は輝度やカラーヒストグラムなどの色合いの指標、テクスチャーの指標、形状の指標、モーションアクティビティの指標、ショット時間、入力ビデオ中の他のセグメントの境界を規定する記述子、分類別の相似性指標（例えば、入力ビデオの１つのセグメントが人の顔を含む可能性、自然の情景である可能性等）、他の記述子の統計的特性と変化割合の指標、２若しくはそれ以上のデスクリプタを組み合わせることにより形成された記述子、等である。これら多くの記述子とテクニックは当業者によく知られており、新しいものは継続的に定義される。

サウンドトラックアナライザ［１１２］。これは入力ビデオの入力サウンドトラックを分析し、１又は２以上の記述子を含む１つのサウンドトラック記述［１１３］を形成する。このサウンドトラックアナライザは信号分析テクニックや入力サウンドトラックに対する他の種類の処理を適用し、記述子を形成する。典型的な記述子は音声の強さ若しくは大きさの指標、スペクトル中心のような周波数に関する指標、明るさ及びシャープさ、分類別の相似性指標（例えば、入力サウンドトラックの１つのセグメントが人間の声を含む可能性）、他の記述子の統計的特性と変化割合の指標、２若しくはそれ以上のデスクリプタを組み合わせることにより形成された記述子、等である。これら多くの記述子とテクニックは当業者によく知られており、新しいものは継続的に定義される。

イメージアナライザ［１１４］。これは入力イメージを分析して１又は２以上の記述子を含む１つのイメージ記述［１１５］を形成する。このイメージアナライザは信号分析テクニックや個別のイメージやイメージのグループに対する他の種類の処理を適用し、記述子を形成する。典型的な記述子は明るさ若しくはカラーヒストグラムのような色の指標、テクスチャーの指標、形状の指標、分類別の相似性指標（例えば、イメージが人の顔を含む可能性、それが自然情景である可能性等）、他の記述子の統計的特性と変化割合の指標、２若しくはそれ以上のデスクリプタを組み合わせることにより形成された記述子、等である。これら多くの記述子とテクニックは当業者によく知られており、新しいものは継続的に定義される。

音楽アナライザ［１１６］。これは入力音楽を分析して１又は２以上の記述子を含む１つの音楽記述［１１７］を形成する。この音楽アナライザは信号分析テクニックや音楽のセグメントに対する他の種類の処理を適用し、記述子を形成する。典型的な記述子は強さや大きさの指標、ビート強度、音楽的なリズム及びテンポの指標、スペクトル中心、明るさ及びシャープさのような周波数に関する指標、ルートノート音程、協和音、音楽的キーメンバー及び和音のような音楽的音程の指標、他の記述子の統計的特性と変化割合の指標、２若しくはそれ以上のデスクリプタを組み合わせることにより形成された記述子、等である。この音楽アナライザは種々のタイムスケールにおいて入力音楽の構成の表現を提供することができる。この時間軸は導入部分、節及びコーラスのような“マクロ”なタイムスケールから小節、ビート及びサブビートのような“ミクロ”なタイムスケールまである。音楽構成を表現する手段は音楽家、音楽理論化及び他の人には周知であり、このようなタイプの情報を信号分析により抽出するテクニックはコンピュータ音楽分析の分野では周知である。

この明細書において、前述の分析要素［１１０、１１２、１１４及び１１６］は“メディアアナライザ”として集合的に知られており、記述［１１１、１１３、１１５及び１１７］は“メディア記述”として知られている。

メディア記述はその後の使用のために、例えばこれをディスクや不揮発メモリにセーブすることにより、保存することができる（簡素化のため図１には記載されていない）。これはユーザが、再分析の必要なく、入力素材から異なる出力制作物を形成することを許容する。よって、多数の代替的な制作物を見るための処理時間が縮小される。

信号分析に対して追加的に又は代替的に、記述子を装置にインポートしメディア記述に保存することができる（簡素化のため図１には記載されていない）。かかる記述子は少し前の時間に形成されており、典型的には入力素材中に内蔵されまた何かの方法で入力素材にリンクされている。このような記述子はビデオ記述を含み、このビデオ記述は撮影時間、焦点距離、カメラに取付けられたＧＰＳにより形成される地理的位置などのカメラ用測定装置により形成される。これらはまた音楽記述を含むことができ、この音楽記述は音楽シーケンサやＭＩＤＩ(Musical Instrument Digital Interface)データから抽出若しくは提供されるエレメントのような音楽制作プロセスの間に形成される。音楽シーケンサやＭＩＤＩは音楽制作に広く用いられており記述的な情報を生成するのにも使うことができる。この記述的な情報はミックスダウンされた後の音楽音声信号から提供するものと異なる：例えば、音楽的な音程、測定、音楽の繰り返し構造等である。

インポートされた記述子はマニュアルや半自動化プロセスから発生させることができる。例えば、入力素材及びその記述子を装置内にインポートする前にユーザが入力音楽、ビデオ若しくはイメージに注釈する。かかる記述子は信号分析により生成された記述子に近い関係にある。例えば、記述子を生成してこれを装置を用いてマニュアル的に訂正若しくは修正することが望ましい。そしてその結果、装置において他のモジュールによる処理のための基礎として修正された記述子が用いられる。

インポートされた記述子はメディア記述に直接保存することができる。若しくはそれらにはインポートした後に更なる分析、変換及び解釈が要求されることがある。この機能はメディアアナライザにより提供される。

他のコンポーネント
図１に記載されているように装置は次のコンポーネントを備えている。
グラフィカルユーザインターフェース即ちＧＵＩ［１２０］。これはユーザと装置の仲介手段として機能し、装置の他の複数のモジュールと通信する。ユーザの関与として典型的には次の事項がある。
入力素材を含むファイルの選択及び出力制作物のためのあて先ファイルの選択のような完全な制御。制御は他の面では分析の開始やタスクの構築を含む。
スタイル情報を伴うユーザの関与−例えば、所定のスタイルの選択、若しくは新しいスタイルの生成、若しくは既存のスタイルの変性がある。
マニュアル的な関与はプリセレクションステージとタッチアップステージの双方において関係する。

ＧＵＩの特性と変形態様を更に以下に説明する。
コンストラクタ［１２１］。これは装置の主たるロジックの多くを含む。これは入力された１又は２以上のメデイア記述子を受取りそしてスタイル情報［１０５］を受け取る（若しくはそれ自身中に含む）。その主たる機能はこれらの入力を用いて全ての編集決定を作ることにあり、この編集決定は出力制作物［１０８］の様式を特定するため及び“メディアシーングラフ”即ちＭＳＧと呼ばれる構成内に当該出力制作物の様式の特定物を保存するために必要とされる。このＭＳＧは出力制作物の様式の完全な表現としてまた出力制作物を作るための指令の完全なセットとして考えられている。これは入力素材（ビデオ、音楽若しくはサウンドトラック、選択されたイメージ、又はイメージやビデオフレーム中の領域など）の全ての要素のソースやタイミングを含み、当該入力素材は出力制作物、変形のタイプやこれらの要素に適用される特殊効果、出力制作物中で用いられる変形効果のタイプ、出力制作物中で用いられるテキストやグラフィックのような全てのオーバーレイのソース及び表現、これら全ての要素のタイミング等に使用される。このＭＳＧはレンダラ（renderer、下記参照）を制御しそしてマニュアルタッチアップの間に重要な役割を果たす。それは、一次的に基礎となるデータ構成であり、ユーザはこのデータ構成をこのステージで操作する。またこのデータ構成は全ての時間おける現在の制作物の全ての表現でありかつユーザにより作られた変化を反映するために更新される。

このＭＳＧは後の使用、最終制作物の進行性のタッチアップを許容するために任意的にセーブされまたリロードされる。そして、ＭＳＧの一部（例えば編集情報の一時的な領域や所定のタイプ）を“ロック”し、残りを“アンロック”することができる。これは進行的な修正により出力制作物が作られることを許容する。これにより、ユーザは装置にコンストラクタ（及びレンダラ）が作動するように指示し、結果の出力制作物を観察し、彼／彼女の好む特徴や領域をロックし、他の出力制作物を観察し、他の領域／特徴のセットをロックし、かかる作業を繰り返す。

コンストラクタのロジック及びＭＳＧの構成は以下に詳述する。
レンダラ［１２３］。これはＭＳＧ内の情報に基づいて出力制作物を形成する。換言すれば、これはＭＳＧのデータをインストラクションとして解釈する。そしてインストラクションにおいて、入力素材のエレメントの選択、選択されたもののシーケンシング、変形、結合及び集中のような応用プロセス、これらをファイルや音声画像モニタのような出力に移送若しくはコピーする。結果は出力制作物である。レンダラの動作の種類は周知でありこれ以上の説明は不要であり、多くの非線形ビデオエディタにおいて見られ、マイクロソフト社のDirectShow及びアップル社のQuickTimeのような汎用的なビデオアーキテクチャにより一般的にサポートされる。このレンダラは圧縮モジュールを有することができる。この圧縮モジュールはデジタルビデオ圧縮やデジタル音声圧縮のような技術を用いて出力制作物を圧縮する。これらの技術としてＭＰＥＧ(Motion Picture Experts Group) スタンダード体として規定されるようによく知られている。

明細書において代表的に、発明はメディアアナライザ、コンストラクタ及びレンダラを含む単一の装置として記載されている。しかしながら、それは分配されたシステムでもよく、当該分配されたシステムにおいて、各モジュールは分離されたプログラム、異なる部分による異なるロケーションにおける異なる時間での可能な実行である。コンストラクタにとって必要なときはメディア記述が保存されそしてインポートされることは既述の通りである。いずれかの部分によるいずれかのロケーションにおけるいずれかの先の時間に形成されたメディア分析モジュールによってこれらのメディア記述は生成される。

同様に、ＭＳＧは出力制作物を作るための完全なインストラクションのセット若しくは出力制作物の様式の完全な表現である。そのため、レンダラはコンストラクタ若しくはアナライザから独立して動作することができる。出力制作物を観察しながらこれを実時間で動作させられる。換言すれば、出力制作物を急いで生成することにおいて、レンダラは優れたプレバックエンジンの効果を奏する。この可能性を作るために要求されるすべてはＭＳＧと入力素材がレンダラ動作時間において入手できることにある。

例えば、２つの集団が入力素材の共通部分に対するアクセスをシェアするとき、若しくは入力素材に２つの同一コピーがあるとき、一つの集団がアナライザとコンストラクタを動作させてＭＳＧを生成し、このＭＳＧを第２の集団に送信し、ここにおいて第２の集団はレンダラを実行させて出力制作品を早急に生成し、彼／彼女がそれを観察する。他の例では、人々のコミュニティが入力素材の共通部分と補助された既生成のメディア記載のコピーを最初に要求することができる。その結果、異なるＭＳＧの単なる移送によりそれらが相互にシェアする外部制作物が個別に形成される。この利点は次のとおりである。即ち各ＭＳＧは典型的なメディアデータに比較して小さな量であり、そしてそのため迅速かつ簡単に移送することができる。メディアの共通部分はＣＤ−ＲＯＭやＤＶＤ等の媒体によって分配されることに適している。当該ＣＤ−ＲＯＭ／ＤＶＤを所有する人々のコミュニティはその制作物を共有することができ、例えば、ＭＳＧをイーメールの添付物として他者に送ることができる。

自動的な生成のプロセスが図２から８を参照して説明される。
ビデオ編集例
図２は出力制作物が入力素材から生成される典型的な例を示し、ここにおいて前述の構成プロセスのアプリケーションが用いられる。この構成プロセスには、細分化、選択的導入、順序付け、変性及び結合である（この図は純粋に視覚的な例であり、音声は示さない）。従来的な線形及び非線形編集において、これらのプロセスは周知でありまたマニュアルでなされていた。この発明の主たる目的はこれらの全部又は一部を自動化することにある。この発明がいかにして当該自動化を達成するかを説明する前に、図２に記載の例の幾つかを検討することが有効である。

細分化
デジタルビデオファイルのような２つの入力ビデオ［２０１、２０２］が細分化されて５つの“ソース”セグメント、sSeg1 からsSeg5［２１１、２１２、２１３、２１４、２１５］が形成される。その中の１つであるsSeg5［２１５］は一つのフレームからなるセグメントである。
選択的導入
５つのソースセグメント［２１１−２１５］は出力ビデオ制作物に含まれ、他方入力ビデオの残りの素材は使用されない。一つのイメージとしてsImage1［２１６］が含まれる。
順序付け
この例において、出力制作物を形成するセグメントの順序は入力素材のそれと同じではない。例えば、出力制作物において、入力ビデオＢ［２１１，２１４］からの最初の２つのセグメントは入力ビデオ［２１２、２１３］からの２つのセグメントにより離される。
変形
幾つかの変形の例が図２に示されている。セグメントsSeg2は色彩の情報が削除されてもモノクロに変形され、その明るさ［２２０］だけが保存される。sSeg3はフラッシュ効果を付加することにより変形される。即ち、１又は２以上のフレーム内の領域の明るさが強調される。sSeg4は時間の変形に関し、例えばオリジナルのフレーム［２２２］の間に新しいフレームを生成することによりオリジナルのスピードの０．４倍に遅くする。sSeg5はさらに大きな時間の変形に関し、ここにおいて１つのフレームがフリーズ［２２３］を生成するために幾つかの進行性のフレームにコピーされる。sImage１もまた複数の進行性のフレームにコピーされ、その結果出力制作物［２２４］のセグメントを形成する。その他多くのビデオ変形が周知である。更には、重ねて使用されるテキストとグラフィック要素は種々の方法で変形することができる。例えば、アニメ化しその結果それらは位置、大きさ、形、色その他を時間の経過とともに、また可能な場合以下に説明するように音楽のパラメータに対応して、変化させる（これらは図２において“AniText”[225]及び“AniGraphic”[226]として示されている）。テキストとグラフィック要素はフェードインし［２３５］またフェードアウトする［２３６］。
結合
図２はまた入力素材を結合する幾つかの方法を示している。変形されたセグメントdSeg1及びdSeg2は連結されて切断部を形成するか又は突き当て編集［２３０］を形成する。他のセグメントは部分的に重ねて結合され、ディソルブ［２３１］、ワイプ［２３４］及び他の周知の変形効果が許容される。テキスト及びグラフィック要素、静止［２２７］及びアニメ［２２５、２２６］はビデオ上で重ねられて最終制作物を形成する。

入力素材を用いずに装置により形成された素材の例が図２に示されている。それはブラックバックグランド［２２８］がテキスト［２２７］に重ねられることである。

上記の全ては出力制作物に関してタイミング参照をしている。それらは出力制作物のタイムライン［２４０］上に投影される縦方向の破線として示される。入力ビデオのセグメントはその入力ビデオソースファイルに関連する付加的なタイミング参照のセットを含む。例えば、sSeg4における開始時刻［２４１］及び終了時刻［２４２］である。

従来的なＮＬＥにおいては、これらのプロセスを何に対して適用するかまたどこで適用するかについてユーザが全て決定している。この発明では出力制作物を自動的に生成する。それは、それ自体の決定を形成しまた既述のプロセスをその通り動作させることにより行われる。コンストラクタ［１２１］は装置の心臓部であって、どのプロセスをどこに適用させるかを決定する。それに対し、レンダラ［１２３］は実際のプロセスを実行する。

構築プロセス
図３はこの発明の中心的な構築ロジックを示す。コンストラクタ内の構築ロジック［３０１］はスタイル情報［３０２］及び入力としてのメディア記述（ビデオ及び／又はイメージ［３０３］の記述及び任意の音楽記述［３０４］）を備え、これらの情報を用いて編集決定のセットを作る。ここにおいて、編集決定はＭＳＧ［３０５］に保存され出力制作物を特定する。スタイル情報は参照、提案若しくは構築ロジックの要求のセットとして考えることもできる。選択物に対する構築ロジックの動作はメディア記述内のデータの価値に依存する。その結果、特別な編集決定のセットはスタイル情報と入力素材の特性にともに依存することとなる。

このプロセスの幾つかの例を以下に詳細に説明する。最初はスタイルの特性から始める。
スタイル
スタイルはデータ、ロジック若しくはこれらの組合せより定義される。例えば、図３のスタイル情報［３０２］はマニュアル的に定義されたパラメータのセットとすることができる。ここにおいて、このパラメータは構築ロジックによりインポートされる。また、このパラメータはオブジェクト指向性プログラミングインプリメントに分類されるスタイルのようなプログラムされたスタイルのロジックにより形成されるパラメータのセットであることができる。この特質はこの説明若しくは後の説明において非常に重要というわけではない。なお、この説明及び後の説明は交換可能である。

スタイル情報は、例えば、パラメータの価値のセットをマニュアルで規定するプロセスによって、スタイルデザイナにより生成される。そしてスタイルデザイナの目的はスタイルを生成することである。ここにおいて、スタイルはシステムを生み出して高品質な出力制作物を形成する。この情報はスタイルを含み、このスタイルはそれが影響するプロセス構築の部分のいずれかに対応して分類され、この分類は既述と同様の分類手法を用いる。例として、一実施例のスタイル情報は次の通りである。

“細分化パラメータ” これらの効果の幾つかは入力ビデオ若しくは入力サウンドトラックが細分化される方法に影響する。ビデオを細分化する多くのテクニックが知られており、それらは、カラーヒストグラムテクニックを用いるショットを形成する細分化、補助的なサウンドトラックの音響特性に基づく細分化等である。細分化は線形であり、入力素材のスタートからエンドまでのリストにおいて同じ重さのセグメントのセットの特定である。若しくはそれは階層的であってもよい、即ち、入力素材がセグメントに分割され、そのセグメントはセグメント持続の階層において他のセグメントを含んでいる。各スタイルは使うべきテクニックを特定し、またパラメータを特定する。このパラメータは閾値（ショット変化と考えられるカラーヒストグラムの変化の度合いのような）、セグメント長の最小及び最大値、特定すべきセグメント最小値等である。このように入力ビデオや入力サウンドトラックの細分化を制御するパラメータに加えて、望ましいセグメント持続を制御するパラメータがある。即ち、出力制作物を含むセグメントの望ましい持続時間である。これは“カッティングスピード”を制御し、これは出力制作物の重要な特徴である。

“選択的導入パラメータ” これらは入力素材の要素の選択を制御するパラメータのセットである。この入力素材（ビデオ、音楽若しくはサウンドトラック、選択されたイメージ、イメージやビデオフレーム中の領域のセグメントのような）は出力制作物において異なるポイントにおいて使用される。特に、この実施例において、それらは、明るさ（ビデオやイメージの平均照度）及び望ましい活動レベル（ビデオの平均的総モーション）を含むメディア記述の目的価値のセットである。他の実施例においては、既述（“構成要素の分析と説明”の欄における）の記述子のいずれの種類も使うことができる。

“順序付けルール” いずれのスタイルも順序付けの操作方法を特定している。例えば、パラメータは出力制作物を含む入力素材の要素を如何にして選択するかを特定する。選択の方法として、順序付けられて（入力素材に生じているのと同じ順序で）、順序付けられないで（入力素材の順序付けを考慮せずに）、若しくは部分的順序付けて（例えば、素材を順序付けて移動させる時間間隔のある長さ内をみれば、オリジナルの順序は巨視的には保存されるが微視的には順序付けられない選択が許容される）が挙げられる。

“変形パラメータ” これは各スタイルにおいて用いられる変形のセットを特定し、また出力制作物の異なるポイントにおいて適用されるべき変形の種類のためのルールを特定する。例えば、パラメータのセットがフラッシュ効果の特別なタイプを特定する。このフラッシュ効果は明るさ、範囲、持続時間等として表現される。そして“出力制作物の全ての第４のセグメント、しかし最後のフラッシュから１０秒が経過し現在のセグメント明るさが所定値以下”のようなフラッシュが適用されるときに、ルールのセットが特定されることがある。変形パラメータはまたある方法を特定する。この方法においてテキストとグラフィック要素が提供されてアニメ化される。ここにおいて位置、サイズ、形、色等の静的及び動的な価値が含まれる。

“結合パラメータ” これは入力素材（システムにより形成されたもの）のいずれの要素を結合すべきかを特定する。例えば、使用する変形（カット／ディソルブ／ワイプ）のタイプ、どの程度の頻度及びいかなる順序付けを各タイプに用いるか、変化の持続時間、ブラックバックグランドを形成する時期及び期間、テキスト／グラフィック要素の重ね合わせの時期といかなるタイプの素材がその上へ重ねられるか（例えば、ある値を超える明るさのビデオ素材若しくはホワイトテキストの重ね合せを禁止するために）等を挙げられる。

パラメータ及びその値の正確な選択は事実や部分的には主観に依存する。可能性の範囲は大きくそして入力素材の範囲やタイプのようなファクタに影響される。この入力素材はこの装置の人口統計的に好ましい対象ユーザにより順次処理されて、そして他のファクタに影響されることとなる。

編集決定における変化の形成
面白い制作物を生成するために、制作物のコースにおいて編集決定に関するいくつかの変化の導入が一般的に必要である。例えば、多くの場合、前述の好ましいセグメント持続時間を変えることが好ましい。同じ長さのセグメントを有する制作物のなかには速やかに単調になってしまうものがある。“編集リズム”の満足を生成するようにセグメントの持続時間は変化されなければならない。

一つの実施例において、これは変化の導入を必要とし、この変化は単一で若しくは複合した幾つかの方法により達成される。
“セクション”及び“サブスタイル” 出力制作物はセクションの一連として構築されている。各セクションには異なるサブスタイルが与えられている。これらのサブスタイルはある順序、即ちサブスタイル順序により用いられる。ここにおいて、サブスタイルは任意に繰り返される。各サブスタイルは幾つかの若しくは全てのスタイルパラメータ（及び／又はスタイル情報を形成するためのロジック）の値を含む。例えば、このスキームは出力制作物において３つのセクションを定義するスタイルを特定することを可能とする。ここにおいて、第１のセクションは低い明るさで、僅かな特殊効果を伴い、遅いディソルブ変化を伴う長いセグメントを含み、第２のセクションは高い明るさで、多くの特殊効果を伴い、シャープカットを伴う突合せ編集を含み。第３のセクションは第１のそれと同様の特徴を有する。

“徐々の変化” スタイルパラメータのサブセットについて徐々の変化を特定することが可能である。例えば、以前の例の２つの対照的なセクションの代わりに、第１のサブスタイルの特徴から第２のサブスタイルのそれへの緩やかな変化が認められることがある。この例において、サブスタイル変化において突然に変化する２つの明確に特定されたセクションを持つことが可能である。また、出力制作物の過程において徐々に変化するパラメータの幾つかが許容される。

“確率的な形成” 制限偶然変化（Limited random variation）が出力ビデオの各セグメントの平均において導入されている。これは、各セグメントに対してパラメタータ値の変化を伴うコンストラクタを提供する。例えば、あるサブスタイルは望ましいセグメント持続時間を特定する。このセグメント持続時間は０．２５Ｓの標準偏差を伴う正規分布を用いる１Ｓと２Ｓの間の偶然値とされる。この場合、各時間において、コンストラクタはサブスタイルからの値を要求し、与えられた値が異なることとなり、しかし、常に１Ｓと２Ｓの間に位置する。

“値サイクル” これはまた出力ビデオのかくセグメントの平均において動作される。各パラメータは値の列となり、これらの値は繰返しの順序付けで使われる。例えば特殊なサブスタイルにおいて、望ましいセグメント持続時間は３つの値：４，２，２（秒）の順序付けを有してもよい。ここにおいて、このサブスタイルが用いられ、出力制作物におけるセグメントの持続時間はサイクル4,2,2,4,2,2,4,2,2,(続く)となる。異なるパラメータのためのサイクルの長さは同じであったり異なったりする。例えば、表１において、セグメント対象の明るさは明と暗を繰り返す（サイクル長さは２）。持続時間及び変化タイプのセグメントは３の長さのサイクルを有する。全ての第４のセグメントはモノクロに変化され、全ての第８のセグメントはフラッシュ効果を有する。すべてのパターンは全ての２４番目のセグメントのみにおいて複製される。これは変化を生成し、また、出力制作物の編集リズム内にサイクルの質を導入する。多くの観察者はこれを明白に気づくことはない。これは意識下であり、しかし、確率論的な変化に対して異なる効果を生成し、そしてある場合に制作物の品質向上に気付くであろう。これは、以下に説明するように出力制作物が音楽による制作物であるときに特に真実である。

入力素材の要素を選択して出力制作物を構築する
コンストラクタの中心的な機能として入力素材（ビデオ、音楽若しくはサウンドトラック、選択されたイメージ、若しくはイメージやビデオフレーム中の領域に関するセグメント）の要素を選択し順序付けることがある。この入力素材により出力制作物が形成されることとなる。以下、このことについて説明するが、そこにおいて入力素材はビデオであり、問題となる入力素材の要素はビデオセグメントである。イメージのセットのような他のメディアのプロセスにも関連しこれはより単純である。

既述のように（“順序付けルール”参照）、スタイルは出力制作物を含む入力素材の要素を如何にして選択するかを特定する。選択の方法として、入力素材から順序付けられて、順序付けられないで若しくは部分的に順序付けられて、が挙げられる。入力素材の要素の選択のプロセスは幾つかの複雑さを含む。この複雑さについて、順序付けられたケースと順序付けられていないケースとを参照して説明する。部分的に順序付けられるケースのような変形態様は、以下に説明するテクニックの併用により達成することができる。

セグメントの選択：順序付けられたケース
図４は一般的な順序付けられたケースを示す。ここにおいて、入力ビデオ［４０１］の一つの連続したものがある。この入力ビデオはＤiの持続時間を有し、この持続時間は出力制作物［４０２］の持続時間Ｄ０より遥かに大きい。この入力及び出力持続時間の比はＲiｏ＝Ｄi／Ｄｏである。入力ビデオはＩ１−Ｉ８と符号されたショットのようなセグメントに分割される。

コンストラクタはセグメントにより出力制作物セグメントを形成する。この例では、Ｏ１−Ｏ６のセグメントが既に形成されており、次のセグメントを形成しつつある。新しいセグメントを選択するために、コンストラクタは次に説明する図５のフローチャートに従って動作する。このプロセスを図４及び５を参照にして説明する。

コンストラクタは、図４に示されるように、ｔ０と符号された新しいセグメント［４０３］のための出力制作物におけるスタート時刻を第１にゲットする［５０１］。これは後に新しいセグメントのために要求されるパラメータのセットもゲットする［５０２］。例えば、要求されるセグメント持続時間ｄ０及び変化及び効果に関するデータを含むスタイル情報である。この持続時間は、入力ビデオから取得さるセグメントのための目的セグメント持続時間ｄｔ［４０４］を形成するためにアジャストされ［５０３］、次の２つのことを許容する。

セグメント前及び／又は後のディソルブのようなオーバラップした変化があったならば、これらの持続時間は対象セグメント持続時間Ｄｔに含められなくてはならない。
効果がスピード変化に適用されたならば、持続時間は計測されなければならない。例えば、出力セグメントが二倍の速度で演奏されるならば、対象セグメント持続時間ｄＴは出力セグメントｄ０の二倍の持続時間となる。

コンストラクタはその結果、入力ビデオの時間ｔを計算する［５０４］。ここにおいて、好ましいセグメントの発見が始まる。順序付けられたケースでは出力制作物は一般的に入力ビデオに対して殆ど線形なものとして表現される。そしてこれを達成するため、次のようにして計算されたタイムロケーションから入力ビデオセグメントが理想的には取得される。

ｔi＝Ｒi０＊ｔ０
換言すれば、入力及び出力ビデオの相関位置は同じになる。

コンストラクタは少なくともｄＴの持続時間を有する新しいセグメントを形成するのに充分な長さのｔiセグメントのサブセグメントが存在するか否かをチェックする［５０５］。持続時間が＞＝ｄＴであることに加えて、サブセグメントの選択は二つの制約が課せられる。

入力ビデオにおいてセグメント境界に近づかない。例えば、入力ビデオがショットに分割されるとセグメント境界に近づくことは好ましくない。なぜなら、そのようにすると出力作成物に意図しないカットを導入することになるからである。更には、生のビデオ素材においてショットの境界は一般的にきれいにカットされていない。例えば、再始動の後にビデオの再同期化として幾つかの悪いフレームが存在することがある。そしてそれはショット境界に近づく素材の使用を好ましくないものとする。図４を参照して、ｔiと入力セグメントＩ５［４０５］の間のビデオのサブセグメントが少なくともｄＴの持続時間であるか否かが問題となる。
これは狭義の順序付けられたケースであるので、出力素材は入力ビデオに現れる時間順序と同じ時間順序で提供され、それが繰り返されることはない。そのため、選択されたサブセグメントのために、以前に選択された素材よりも遅い入力ビデオのロケーションから始動されなければならない。検索ロジックはｔiから任意に後方へ検索することができ、しかし、以前に使われた素材のエンドのみへ出来る限り早く戻らなければならない（このことは図５には明確に記述されていない）。

もしこのようなものが入力セグメントｔiにおいて見つけることができないときは、コンストラクタは後のセグメントに対して前方へサーチを行い［５０６］、充分な長さ（持続時間＞＝ｄＴ）のセグメントを探す。しかし前方へ遠過ぎて検索ポイントを得られない：入力ビデオにおいて現在のロケーションから遠く離れたセグメントを選択することは後のセグメントを順序付けることにならない。入力ビデオにおいて検索を中止する好適なロケーションは次の式で表現される。
ｔi-stop＝Ｒi0＊（ｔ0＋ｄ0)

コンストラクタが上記からセグメント若しくはサブセグメントを見つけたとき、それはその中から持続時間ｄＴのものを選んで［５０７］、出力セグメントとして使用する。この選択は単純であり、例えば、サブセグメントの最初の部分から選ぶことができる。若しくは、他の規則に適合する長さｄＴのものを見つけるように企てることがより好ましい。例えば、記述子対象値をマッチングさせることによる（以下の順序付けされていないケースで説明されているものと同じ原理を用いる）、又はより面白いと評価されるもの若しくは周囲の素材に比べて質的に優れたもの（同様に以下参照）である。入力ビデオのセグメントが出力ビデオのセグメントよりも極めて長いときに、一般的な状況では最も有効である。
上記のアプローチを行ってもコンストラクタが好ましいセグメントを見つけられないときは、出力セグメントが入力ビデオのセグメントの周囲を含んではならないとする制限を緩和し、ｄＴの持続時間の出力セグメントを入力ビデオにおいて２以上のセグメント／サブセグメントから形成する［５０８］。

セグメントの選択：順序付けられないケース
この順序付けされないケース（図６）において、幾つかのステップは既述の順序付けされるケースと同様である。
上記と同様に、コンストラクタは新しいセグメントのための出力制作物におけるスタート時刻をゲットする［６０１］。そして新しいセグメントに要求されるスタイル情報のようなパラメータのセットもゲットする。これには、セグメント持続時間ｄ０及び効果と変化に関するデータが含まれる［６０２］。この順序付けされないケースにおいて、スタイル情報から対象記述子値のセットをゲットしている［６０３］。これはこの値のセットに適合するセグメントが選択される。

持続時間はその結果、入力ビデオから取り出されるセグメントのために対象セグメント持続時間ｄＴを形成するように調節されなければならない［６０４］。ここにおいて、既述の順序付けられたケースにおいて説明されていた方法と同様の方法により変化とスピード変化が許容される。

次のステップ［６０５］は入力ビデオにおいて候補となるセグメントとサブセグメントを見つける。これらは持続時間に少なくともｄＴの持続時間のセグメントである。これらはまた他の要件を満足する必要がある。例えば、ある順序付けられないケースにおいて再利用の素材が許されるかもしれないが（順序付けられるケースと全く異なって）、出力制作物において同一の素材の現れる回数を制限することが好ましい。これは、入力ビデオの各部分がどの程度用いられたかのカウントを継続することにより達成される。ここにおいて、候補となる（サブ）セグメントは入力素材の一つのセグメントの連続部分であり、これは最高許容回数よりその使用回数が少なくかつ少なくともｄＴの持続時間を有する。

そのような（サブ）セグメントが見つからないときは、コンストラクタは制限を緩和し、例えば既述の順序付けをするケースと同様に、入力ビデオの２以上のセグメント／サブセグメントより持続時間ｄＴの出力セグメントを形成する（図示されていない）。

コンストラクタはメデイア既述からこれら“候補”（サブ）セグメントのための記述子の値をゲットする［６０６］。そして、候補ポイントと対象記述子値の記述子スペースの距離を評価する［６０７］（このプロセスは以下に更に説明し、図７以降に示されている）。最終的に、対象ポイントから最も小さい距離の候補ポイントに基づいてコンストラクタは候補のセグメントを選択する［６０８］。そして、出力制作物に使用される［６０９］。

記述子空間の近似性によるセグメントの選択
既述のように、候補（サブ）セグメントのセットからベストマッチの（サブ）セグメントを選択することが必要である。このベストマッチの（サブ）セグメントは次のとおりであり、即ち“記述子空間”（ｎ次空間であって、各ｎ記述子が表されている）の対象値のセットに最も近いものである。即ち、与えられたポイント（スタイル情報からの対象値により規定される座標）と候補のポイント（メディア記述の値のセットにより規定される座標）の間の距離が最も小さい。

単純化の原則に拘わらず、このマッチングプロセスには考慮すべき幾つかの問題がある。これらを図７を参照して説明する。この説明は入力素材がビデオである場合に関係するが、この原理は他のメディアにも適用される。

１．距離の計算を確実にすることは人の予測によく適合した結果をもたらす。全ての記述子は知覚のスケールを用いることが大切である［７０１］。これはスケールであり、当該スケールにおいて記述子の値の与えられた相違は、全ての記述子の範囲内の位置に関係なく、所定の値の相違としてユーザによく知られた藻のである。多くのケースでは、これをある物理量のログ値で近似することができる。
２．一般的にいって、記述子はたくさんの異なるレンジを伴う異なるユニットであることができる。例えば、セグメント持続時間を０から３０秒とする一方他の記述子では１から１０００のスケールを用いる。距離の計算の影響をさけるために、ユニットを０から１のような共通のスケールで正規化する。かかる“ユニットの正規化”［７０２］は下記の１次線形方程式を用いることができる。
x′= (x-xmin)/(xmax-xmin)
ここにおいて
- ｘはもとの（ユニットの正規化されていない）ユニットの値である。
- Xminはもとの値の最小値である。
- Xmaxはもとの値の最大値である。
- x’はユニットの正規化された値である。

装置はユーザが提供する全ての種類の入力ビデオ素材に対して、何ら制限することなく、満足な出力制作物を提供することが望ましい。従って、装置はビデオ記述内において記述子値の広がりについて何ら制御することがない。例えば、分析により抽出された記述子のセットが入力ビデオ素材のセグメント一つでことを除いた全てに対して同様な値を有すケースを想定されたい。換言すれば、セグメントを表すポイントをのぞく全てが記述子空間のある小さな部分とクラスター化し、他のポイントは遠く離れている。このケースにおいて、一つの独立したポイントがスタイル情報により提供された対象値の全てのポイント
に最も近いことが可能である。単純な距離のメモリが使用されたならば、それは毎回このセグメントの選択を導くこととなる。これは潜在的に非常に多くの繰返しの同一セグメントからなる出力制作物を生み出すおそれがあり、これは許容できない。

この問題を解決する一つのアプローチとして抽出された記述子のバラツキ、たとえそのバラツキが小さくても、を利用して出力ビデオにおける多様性を生成することがある。これは“分布の正規化”［７０３］により達成される。即ち、各ポイントにおいて記述子の値を線形に計測及びシフトさせ、もって記述のクラスタリングを除去若しくは少なくすることができる。分布を正規化するため、各記述子に対して順次次の式を適用する。
X’=((x-m)*s’/s)+m’
ここに
ｘは以前に分布正規化された値
ｍは入力値の平均
ｓは入力値の偏差値＊
ｍ’は望ましい（出力）分布の平均
ｓ’は望ましい（出力）分布の偏差値＊
ｘ’は分布正規化されたユニットの値
＊例えば、これは標準偏差や平均偏差（一般的な統計学の定義において）とすることができる。標準偏差は多くの場合により正確であると一般的に考えられている。他方、平均偏差はより素早く計算できる。

分布の正規化は２つの方法で適用することができる。
ａ）ビデオ記述からの記述子値のセットとスタイル情報からの対象値のセットの両者を正規化し、もってそれらを一般的な標準分布に適合させる。即ち、ｍ’及びｓ’に値を固定する。（これを行う他の方法として、最終的な結果を同一にするには、値のセットを調節し、もって他と同じ分布を有するものとする）。
ｂ）値のセットただ一つを正規化する。例えば一般的な標準偏差であるビデオ記述からの値のみであり、この場合、各セットの分布は必ずしも同じでなくてもよい。

これらの２つのアプローチは異なるケースにおいて用いられる。それぞれ利点と欠点を有し、異なるスタイルによってサポートすることができる。ａ）の利点はユニークな組合せの傾向にあることであり、これは分布が“相互のトップの上にある”からである。その欠点はスタイルにおける値の平均の意図的な全体の偏りを排除してしまうことにある。実際、スタイルの平均を極端な方向へ偏らせることは不可能になる。例えば、全ての明るさの対象値がハイであるスタイルがあるとき、ａ）では明るさセグメントのための優先順位が放棄され、値のセットを偏らせない例として同じ明るさ／暗さのミックスが与えられる。他方、ｂ）の利点はこのような偏りを維持できることにある。そしてその欠点はユニークな組合せを有効に提案できないことにある。それは２つの分布が“相互のトップの上にある”ことができないからである。（他方、スタイル情報からの値の分布はシステムデザイナがコントロール可能であるため、マニュアル的に同様なものを作ることができる。しかしこれは全てのケースにおいて容易というわけではない。）

４．分布の正規化を適用した後、データ中の異常値は与えられた範囲の外にはずさる。距離の計算を容易にするには、かかる異常値を除去するか若しくは所定の制限値内に戻す必要がある［７０４］。

５．知覚された相同性を規定することにおいて幾つかの記述子は他のものに比べてより重要となる。記述子を次のように重み付けすることが好ましい。
ある記述子を全てではないが幾つかの場合に無視できるようにすることが望ましい。例えば、特定のサブスタイルは明るさとセグメント持続時間にその対象を特定しているが、活性化レベルのような他の記述子は無視する。このサブスタイルは他のサブスタイルと同時に使用される必要があり、ここにおいて他のサブスタイルは活性化レベルを特定する。そして、各ケースにおいて形成される値の距離は相互に比較されなければならない。これは、“重要”な記述子、即ち無視されないもの、のみのために距離を加えることによる距離の計算において達成される。これは次のように言うことに等しい。即ち、重要でない記述子にとってはいかなる値であってもその対象値に完全にマッチする。

重み付けと記述子の無視を許容することを考慮した距離の計算は次のようになる。
D = SQRT(SUMD((｜vgd - vcd｜ ∧ 2) * Wd))
ここにおいて
Ｄは一対のポイント（一方は与えられ、他方は候補）の距離
ＳＱＲＴはスクウェアルート計算
ＳＵＭＤは重要な記述子（無視されたものを除いた）のセットの総合計
Ｖｇｄは与えられたポイントにおいてｄ番目の記述子
Ｖｃｄは候補ポイントにおけるｄ番目の記述子
∧２は二乗計算
Ｗｄは記述子ｄの重さ

候補のセグメント若しくは対象ポイントの最も近くにあるそれらからなるサブセットは対象ポイントに近い順にリストされる［７０６］。図６を参照する既述の例において、一つの最も近い組合せのみが必要であることを説明した。しかしながら、この明細書のいずれかで記載したようにタッチアップマニュアルをサポートするために、近い順に並んだ他の候補セグメントのリストを有することが好ましい。

上記は記述子の直接マッチングを説明している。ここにおいて、スタイル情報の記述子のタイプはメディア記述の記述子のタイプと同一である。例えば、スタイル情報の明るさ記述子はメディア記述の明るさ記述子とマッチしている。これはまた非直接マッチングの使用を可能としている。ここにおいてスタイル情報で使用されている記述子のセットは、数学的若しくはアルゴリズムの関係を通して、メディア記述における記述子の異なるセットに対応付けられる。例えば、スタイル情報は次のように定義される“PeopleEnergy”を有することがある。
PeopleEnergy = 0.6 * Log(Activity) + 0.4 * PersonProbability
ここにおいて“Activity”はビデオセグメントにおける総平均行動の指標であり、“PersonProbability”はそのセグメントが少なくとも一人のイメージを含む可能性（例えば周知の肌色検出アルゴリズムを用いて行う）の指標である。かかる記述子は、他の１又はそれ以上の記述子へ適用される数学的若しくはアルゴリズム的手法により規定され、“生成された記述子(derived descriptors)”と呼ばれる。

かかる生成された記述子の観点からスタイル情報における対象値を定めることがときには有効になる。なぜなら、これは“ハイレベル”記述子の使用を許可し、この記述子はヒトにとってわかりやすり意味合いのある記述子の類型に近いからである。上記の例において、スタイル情報はPeopleEnergyの対象値を含み、他方、“Activity”や“PersonProbability”は入力ビデオの信号分析により抽出することができる。

生成された記述子を使用するとき、数学的若しくはアルゴリズム的な手法をメディア記述の低いレベルの記述子に適用することにより、コンストラクタロジックは生成された記述子の値を計算することができる。そして、記述子を生成された記述子の値にマッチさせる。

前述のように、入力素材の合計が出力制作物の長さよりも大きいことがしばしば生じる。従って、入力素材からより面白く若しくは品質に優れた部分を選択することが好ましい場合がある。これは前述のセグメント選択に関連し、同様なテクニックの幾つかを使用することができる。しかしながらその目的は相違している。即ち、前述のセグメント選択は基本的に出力制作物において入力素材が置かれるべき位置に関し、他方、素材選択の最適化は基本的に出力制作物において使われるべき入力素材の部分に関する。

本件のテクノロジは、単一の分析手法を用いている全種類の素材の全てについて確実に、ビデオやイメージの意味あるコンテントを決定するための手法を提供するものではない。従って、自動装置にとってヒトのビデオ編集者がしているように正確に素材を選択することは不可能である。更にこれは主観的なことであり、例えば、異なる編集者は異なる素材を選択する。そうであっても、素材の選択方法を偏らせ、入力素材の平均に比べてより面白く若しくは高品質であると多くのユーザが考えるような方向へ向かわせることができる。換言すれば、目的は、少なくともある種の素材において入力素材の中から取り出された偏っていないサンプルのセットよりも一般的にいって好ましい素材を自動的に選択することにある。

ここに、どのようにしてこれらの問題を解決できるかを示す２つの例がある。
１多くの種類の内容を通じて、人々のイメージを含む素材が一般的に人々を含まない素材に比べてより面白いと考えられる。人間の存在を検出するための画像処理方法はよく知られている。例えば、肌の色、顔形、体形を用いる方法がある。これらの手法を用いることにより、一人又はそれ以上の人間を含むビデオのセグメント若しくはイメージの確率を示す記述子を計算することが可能になる。そのため、この記述子の高い値を有する素材はその低い値を有する素材よりも優先的に選択される。
２ “手持ち”の場面（即ち、三脚のような固定具ではなくカメラを手で支えて録画されたビデオ）においては、特に素人のユーザにとって、ファインダ内において何か特別に面白いものが見つかるまでカメラを動き回す傾向がある。換言すれば、手持ちで撮られて素材について、低いカメラ動作を伴ったセグメントは高いカメラ動作を伴ったセグメントに比べて面白い傾向にある。カメラの動作を予想する手法はよく知られており、例えば、動作ベクトルの抽出に基づく手法がある。したがって、入力ビデオ素材が手持ちで撮られたものであるかを特定することが可能である（これは、時間当たりの動作パターンを分析することにより決定することができる。また、プロンプトに対応してユーザが入力する情報によることもできる）。そして、それが手持ちで撮られたものであるとき、カメラ動作の低い部分が選択される。

これらの手法は、装置のユーザが望むときに使用できるオプションとして提供される。また、ユーザがあるスタイルを選択するときには使用でき、他のスタイルを選択したときには使用できないものとすることもできる。即ち、例えば、すぐ前で説明した手持ちで撮られたものについて低い動作を選択する手法は温和やくつろいだ雰囲気の出力制作物を形成する方向のスタイルに好適である。しかしながら、エネルギッシュで速いペースの制作物を形成する方向のスタイルには不適である。

メディアシーングラフ（The Media Scene Graph (MSG)）
前述のように、ＭＳＧは出力制作物の様式を完全に表すコンストラクタによって形成されたデータ構造である。その意味では、これは周知の編集決定リスト（edit decision list (EDL)）に関係する。しかしながらＭＳＧはまた基本的には潜在的なデータ構造であり、ユーザはタッチアップの間にこれに接触する。他方、典型的なＥＤＬは線形な構造であり、この種の操作に適合していない。この種の操作により適合したＭＳＧ構造を図８を参照して以下に説明する。

構造は基本的にツリーであり、その中で出力制作物は根を構成する［８０１］。
ツリーにおいて幾つかの枝は定義に関係する。即ち、それらは出力制作物において使用されるある存在の特性を特定する。それらは出力制作物において使用される全種類の変形［８０２］のための定義を含む（例えば、あるフラッシュ効果がある明るさ、色、範囲、存続時間等を有することを特定する）。それらはまたディソルブのような移行［８０３］の定義、アニメ化されたテキスト含むテキスト［８０４］の定義、アニメ化されたグラフィックスを含むグラフィック要素［８０５］の定義、ブランクバックグラウンド［８０６］の定義等を含む。

ＭＳＧはまたタイムラインに関する１又は２以上の枝を有する。図８は、図２の２つのタイムラインと同様の目的のため、一つの主たるタイムライン［８０７］と一つの重複するタイムライン［８０８］を示している。主たるタイムラインは出力制作物を形成する各セグメント入力を含む。ここにおいて、出力制作物は入力素材［８０１］の要素と装置により構成されたブランク［８１１］からのセグメントを含む。これらのセグメントの変形［８１２］およびそれらの間の移行［８１３］もまた特定される。即ち、前述の変形と移行の定義を参照する様式が存在する。主たるタイムラインはセクション［８１４］の様式において追加的な構造のレベルを支持することができる。それらはそれぞれ単一のサブスタイルの使用に対応する（前述の“編集パラメータの変化の形成”を参照されたい）。これはユーザが選択するタッチアップ操作を促進させる。この操作は出力制作物の全てのセクションに適用することができる。最後に、重なったタイムライン［８０８］は、テキストの［８１５］及びグラフィックの［８１６］定義を参照することにより重なったものの順序を特定する。これらにはアニメ情報が含まれてもよい。

タイムラインを構成するセグメント、重なりその他の全ては時間データを有し、この時間データは出力制作物とある場合の入力素材の両者に関係する。ビデオセグメントの例によれば、ロケーション（スタートタイムのような）や出力制作物の持続時間の特定が必要である。即ち、スタートタイムや入力素材の持続時間のようなソースの特定が必要である。

グラフィカル・ユーザ・インターフェース（ＧＵＩ）
制作プロセスの高度な自動化により、本発明は、ある場合には、人間が介入しないでも、許容できる品質の出力制作物を生産することができる。それ故、本発明のある実施形態の場合には、ＧＵＩを非常に簡単なものにすることができるし使用しなくてもすむ。

図９は、非常に簡単であるが、実行可能なＧＵＩの一例を示す。このＧＵＩは、下記の機能を実行するために、ボタンのような３つの主要なユーザ制御装置を含む。

１．ユーザが入力素材を選択することができるようにする制御装置［９０１］。例えば、この制御装置は、ユーザに対して、入力素材を含む１つまたはそれ以上のビデオまたはイメージ・ファイルの名前を入力するようにプロンプトすることができる。
２．ユーザがスタイルを選択することができるようにする制御装置［９０２］。例えば、この制御装置を呼び出した場合、ユーザに対して、使用できるスタイルのリストを表示することができ、また、ユーザに対して、その中の１つを選択するようにプロンプトが行われる。
３．出力制作物を生成させる制御装置［９０３］。例えば、この制御装置は、ユーザに対して、出力製品を記憶するファイルの名前を入力するようにプロンプトすることができる。ユーザがこのファイル名を入力すると、出力制作物を生成するために、システムの主処理モジュール、すなわち、メディア・アナライザ、コンストラクタおよびレンダラが呼び出される。

プログラムを終了するための標準制御装置も設置されている［９０４］。

図１０はこのＧＵＩの修正例である。このＧＵＩは、下記の機能を実行するために、ボタンのような５つの主要なユーザ制御装置を含む。

１．ユーザが入力視覚素材を選択することができるようにする制御装置［１００１］。例えば、この制御装置は、ユーザに対して、入力素材を含む１つまたはそれ以上のビデオまたはイメージファイルの名前を入力するようにプロンプトすることができる。
２．ユーザが入力音楽を選択することができるようにする制御装置［１００２］。例えば、この制御装置は、ユーザに対して、録音済み音楽を含む１つまたはそれ以上の音響ファイルの名前を入力するようにプロンプトすることができる。
３．ユーザがテキストを追加することができるようにする制御装置［１００３］。例えば、この制御装置は、ユーザに対して、テキスト情報をある形式で入力するようにプロンプトすることができる。テキストは出力制作物の上に重畳される（ｏｖｅｒｌａｉｄ）。オーバレイ・テキストの使用方法としては、タイトル、（制作に関連する人および組織に対する）クレジット、サブタイトル、説明のためのまたは宣伝のためのメッセージのようなメッセージ等がある。
４．ユーザがスタイルを選択または定義することができるようにする制御装置［１００４］。スタイルを選択するように、ユーザに対して使用できるスタイルのリストを表示することができ、また、上記例のところで説明したように、ユーザに対して、その中の１つを選択するようにプロンプトすることができる。スタイルを定義するために、ユーザに対して、例えば、スタイル情報のすべてのパラメータの値を含む書式を表示することもできるし、ユーザに対して、値を入力するようにまたは変更するようにプロンプトすることもできる。
５．出力制作物を生成させる制御装置［１００５］。この制御装置は、上記例のところで説明したように、ユーザに対して、出力制作物を記憶するファイルの名前を入力するようにプロンプトすることができる。ユーザがこのファイル名を入力すると、システムの主処理モジュール、すなわち、メディア・アナライザ、コンストラクタおよびレンダラが呼び出される。この例の場合には、以下に説明するように、音楽をベースとする制作物を生成するために、視覚素材が音楽に編集され、音楽が入力サウンドトラックにより置き換えられるかまたはミックスされる。次に、出力制作物を制作するために、テキスト要素および図形要素のオーバレイが行われる。テキストおよび図形は、以下に説明するように、音楽に合わせてアニメ化することができる。

プログラムを終了するための標準制御装置も設置されている［１００６］。

上記例のいずれの場合も、出力制作物をメディア・プレーヤのような外部プログラムから見ることができる。別の方法としては、ユーザがシステム内から出力制作物を見ることができるように、上記ＧＵＩ素子をチェック・ウィンドウおよび当業者にとって周知の「移動制御装置」と一緒に供給することもできる。

他の実施形態の場合には、ＧＵＩはマニュアル的な相互作用用の追加機能を含むことができる。そうする理由は、本発明の第１の目的は編集プロセスを自動化することであるが、何時でもどの場合でも自動化を完全に行うことはできないからである。入力素材の性質および問題の用途によっては、完全に自動的に生成した出力制作物があらゆる細かい点でユーザの好みと一致しない場合もでてくる。それ故、下記のようなマニュアル的な相互作用のための機能をサポートするのが望ましい場合もある。

・コンテンツの予備選択。コンテンツを予め選択すれば、自動構成を行う前に（ビデオ、音楽またはサウンドトラック、選択したイメージ、またはイメージまたはビデオ・フレーム内の領域のセグメントのような）入力素材の要素を自由に選択したり選択から外したりすることができる。ユーザは、入力素材の要素を識別し、それらの要素を制作プロセス中に使用するか否か何処で使用するかまたはどんな順序で使用するかを指定する。例えば、ユーザは、特定のセグメントＡを、出力制作物中に挿入しなければならないと指定することもできるし、最後の場面に使用しなければならないと指定することもできるし、制作中に発生する他の要因によりある挿入確率で他のセグメントＢを挿入することができると指定することもできるし、セグメントＢが含まれている場合に限って出力制作物中のセグメントＢより後に第３のセグメントＣを挿入しなければならないと指定することもできるし、第４のセグメントＤを挿入してはならないと指定することもできる。予備選択のこのプロセスをメディア記述により容易に行うことができるようにすることもできる。例えば、ビデオ記述内の細分化情報を、入力ビデオを一連のショットとしてユーザに表示するために使用することができる。これは、ユーザにとって、通常、ビデオの隣接部分よりも扱い易い。メディア記述からの情報は、ユーザの助けになる種々の方法で入力素材を分類したりまたはまとめたりするのにも使用することができる。例えば、入力イメージのセットまたは入力ビデオ・セグメントのセットを、それぞれがある点では類似しているイメージのセットを含む一組の「ビン」内でユーザに表示することができる。そうしたい場合には、ユーザは、ビンに項目を追加したりまたはビンから項目を除去したりして、マニュアル的にこの分類を洗練されたものにすることができる。次に、ユーザは上記の（「挿入」、「挿入禁止」等）のような命令をイメージの全ビンに適用する。
・処理の予備選択。処理の予備選択により、ユーザは、自動構成の前に入力素材の要素に適用される処理の種々の態様を自由に選択したり指定したりすることができる。例えば、ユーザは、入力音楽のあるセクション内で起こる出力制作物のすべての遷移効果はディゾルブのようなあるタイプにしなければならないと指定することができる。または、ユーザは、入力イメージのサブセットをマニュアル的に選択し、出力制作物においてはこれらのイメージをモノクロにするよう指定することができる。この場合も、ユーザを助けるために、メディア記述からの情報に基づく細分化および集合のような自動プロセスを使用することができる。例えば、システムは、輝度により入力ビデオ入力のセグメントを分類し、ある輝度しきい値以下のセグメントのセットと一緒にユーザに表示し、ユーザがこのセットにセグメントを追加したりセットからセグメントを除去したりできるようにし、その視覚的品質を改善するためにユーザにこれらのセグメントの輝度をある割合で明るくさせることができる。
・出力制作物の仕上げ。出力制作物の仕上げにより、ユーザは、例えば、セグメントに適用された持続時間および効果を維持しながら、出力制作物のビデオ・セグメントを入力素材からの別のセグメントで置換することにより、または、遷移効果のあるものを変更することにより、特殊効果を追加したり除去したりすることにより、また追加のテキストまたはグラフィックスを重畳することにより、自動制作の後で出力制作物を編集することができる。この場合もまた、メディア記述からの情報をこれらの作業でユーザを助けるために使用することができる。例えば、ユーザが出力制作物のビデオのセグメントを置き換えたい場合には、システムは、ユーザに、そこから選択が行われる別のセグメントのセットを表示することができる。これらのセグメントは、ビデオ記述からの類似性の基準により元のセグメントとの類似性の順序でリストの形にすることができる。この例を修正したものの場合には、ユーザに対して、「類似のセグメントによる置換」／「対照的なセグメントによる置換」のような２つのオプションを表示することができる。ユーザがこれらのオプションの１つを選択すると、システムは適当な別のセグメントを適用する。

メディア記述内の情報のマニュアル的な仕上げプロセスを容易にするために使用する方法の全く別の例は、出力制作物が音楽をベースとする制作物である場合に関連する。経験を積んだビデオ編集者によりビデオを「音楽に合わせて編集する」場合、通常行われる方法は、ある視覚的要素をビートのような音楽のあるタイミング特性にマッチさせるという方法である。この例の場合、音楽記述からのタイミング情報は、カットおよびフラッシュのような時間が重要な役割を持つ視覚的イベントがビート、サブビートおよび音楽内の他の有意な時間と自動的に整合するように、出力制作物の視覚素材上で、ユーザがマニュアル的に行う仕上げ作業を修正するために使用することができる。例えば、ドラッグのような標準的ＧＵＩ操作により出力制作物の２つのセグメント間のカット点を変更した場合、音楽記述からの情報を、音楽信号の振幅が大きい、または強いビートがあるという他の表示がある音楽内の時点間でカット点をジャンプさせるために使用することができる。関連オプションは、イベントの境界が、それ自身音楽のビートに整合しているタイミング・グリッドに整合している音楽シーケンサの分野において周知の技術である量子化を使用する方法である。

これらのマニュアル的な作業をサポートするためのＧＵＩは、リスト、（ファイル・マネージャで使用されるもののような）階層的表示、視覚的サムネイル、オーディオ波形ディスプレイ、タイムライン、移動制御装置を含むクリップ・ウィンドウ等を含む標準素子により組み立てることができる。これらの素子は、当業者にとって周知のもので、非線形ビデオ・エディタ（ＮＬＥ）、イメージ・エディタ、オーディオ・エディタ、および他のメディア処理ソフトウェアのようなツールで通常使用されている。

本発明は、また、単に出力制作物を表示するためだけのものであって、通常の使用のためのＧＵＩ素子を含んでいない非会話型システムでも実施することができる（しかし、このようなシステムは、それを構成し管理するためにＧＵＩを必要とする）。図１１はこのような実施形態の一例のためのロジックを示す。このロジックは、例えば、「ウェブ・カム」（インターネットに接続しているカメラ）からのビデオまたはイメージのような連続して到着する入力素材から出力制作物を生成するのに適している。ある量または持続時間が集まるまで、素材はカメラから捕捉される［１１０１］。この時点で、スタイル、およびそうしたい場合には入力音楽の一部が自動的に選択される［１１０２，１１０３］。これらのものは、単に、多数のオプションからのランダムな選択であってもよいし、または、本明細書の他のところで記述するように、記述子マッチングのプロセスによりスタイルおよび音楽をビデオ記述／イメージ記述の特性とマッチさせることができる。現在、システムは、出力制作物を作成するのに必要な情報を持っていて、出力制作物を作成する［１１０４］。最後に、システムは、出力制作物をマルチメディア・コンピュータまたはテレビジョン・セットのようなオーディオ・ビジュアル・ディスプレイ・デバイスに送る［１１０５］。この出力制作物の生成および供給の間、このシステムは、他の制作のためにすぐ使用することができる素材を引き続き捕捉することができる。本発明のこの実施形態の１つの使用方法は、入力素材をライブ・カメラから捕捉している公共の場所にいる人々に、一定の間隔で自動的に制作したオーディオ・ビジュアル制作物を供給するために使用するという方法である。

音楽をベースとする制作物
この実施形態は、視覚的要素の処理およびタイミングが基礎となっている、音楽トラックの特性およびタイミングにより支配される出力制作物を生成するのに特に適している。これは「音楽に合わせてのカッティング」と呼ばれることもあり、音楽ビデオ、アニメ制作物、販売促進およびマーケティング・ビデオ、テレビ・コマーシャルおよび多くの他の形でよく使用される。本明細書においては、このような制作物を「音楽をベースとする制作物」と呼ぶ。

音楽をベースとする制作物の一般的な原理は、音楽が時間の基準として動作することである。視覚的要素は音楽と合うように操作されるが、音楽自身は変わらない。これが適用される視覚的要素はモーション・ビデオ、イメージ、アニメ、グラフィックスおよびテキストを含む。さらに、音声および音響効果のようなある種の非音楽的オーディオ要素は、音楽により影響を受ける種々の方法で、時間に従って操作したり位置させたりすることができる。一般的な言い方をすれば、音楽は「主人」であり、他の要素は音楽に「奉仕するもの」である。

音楽をベースとする制作物は多数の技術により制作される。現在プロの編集者の技術により達成されるこれらの技術としては下記のもの等がある。

− 視覚素材の編集「ペース」は、通常、テンポ（すなわち、ビートの速度）、音の大きさ、音楽および知覚した「エネルギー」レベルのような音楽のいくつかの一般的な特性により支配されるか影響を受ける。例えば、音楽がもっと速くその音がもっと大きい場合には、出力制作物はもっと短い平均持続時間のショットからなり、もっと急速なカットおよびもっと少ないゆっくりとしたディゾルブにより、ショット間の遷移はもっと速くなる。これを制御する音楽的特性は、音楽のある部分から他の部分の間で変化するばかりでなく、音楽の１つの部分中のセクション毎に変化する。例えば、多くのポップス内の「エネルギー」レベルは独唱の場合より合唱の場合のほうが高い。プロのビデオ編集者は、これを感知して、独唱の部分よりも合唱の部分により速い編集ペースを使用する。
− 視覚素材の選択も音楽の一般的特性により影響を受ける。例えば、より明るい色またはより速い動きのビデオはより大きなエネルギーで音楽を伴奏するように選択することができ、もっと暗い色またはもっと遅い視覚素材はもっと遅いかまたはもっと静かな音楽で伴奏するように選択することができる。
− ビデオ内のカットのタイミングおよび他の遷移は、通常、音楽のビートまたは音楽の有意の特徴のタイミングと同期している。これは、「ビートに合わせてのカッティング」と呼ぶことがあり、ビデオ素材が音楽的基礎に基づいて編集される場合に広く使用される。
− 変化する度合いに従って、モーション・ビデオのショット内のイベントのタイミングも、音楽のビートまたは音楽の有意の特徴のタイミングと同期させることができる。このことは、対象物間の衝突のような急激な減速を含む運動イベントの場合に特に当てはまる。例えば、プロの編集者が落下する物体が床に衝突するショットを処理している場合には、その編集者は、恐らく、この瞬間を強いビートまたは音楽の他の顕著なイベントと整合させるだろう。
− さらに、ビデオに適用される特殊効果の選択およびタイミングは、多くの場合、音楽の特性により影響を受ける。例えば、時間を合わせて強烈なビートまたは他の顕著な音楽的イベント内にフラッシュを入れることができるし、または、短い凍結フレーム効果を音楽の静かな瞬間に適用することができる。もっと長い時間的尺度の場合、いくつかの視覚的効果を音楽全体に適用することができる。例えば、ポップスを伴奏する音楽ビデオの場合には、独唱部分の視覚素材はモノクロで表示することができ、一方、合唱部の視覚素材は全カラーで表示することができる。
− テキストおよびグラフィックスのようなオーバレイは音楽の特性により影響を受ける場合がある。例えば、これらの要素が表示または消失する時間を強烈なビートまたは他の顕著な音楽的イベントにリンクさせることができる。その様子および動きが音楽に依存するように、上記要素を音楽に合わせて動かすことさえできる。例えば、各音楽的ビートに合わせて異なる位置の間をジャンプするようにまたは音楽的構造に関連してある時間に大きさおよび色が変化するように上記要素を動かすことができる。

要するに、視覚素材を音楽とマッチするように編集する場合には、プロの編集者は、音楽的ビートの「ミクロ構造」またはビートのさらに小さな分割部分から音楽の部分からなる主要な部分の「マクロ構造」まで時間的尺度のある範囲を横切って使用できる技術のレパートリーを持つ。これに成功した場合には、視聴者に与える効果が強くなる。音楽およびビデオは一体化した制作物と知覚される可能性が高くなり、情緒的または劇的インパクトが強くなる。

この実施形態は、以下に説明するいくつかの方法により、音楽をベースとする制作物の生成を自動的に行う。

音楽をベースとする制作物のための自動化
音楽アナライザ［１１６］および音楽記述［１１７］の性質について説明してきたし、音楽をベースとする制作物の生成を自動的に行うことができるか容易に行うことができるいくつかの方法についても説明してきた。本発明のこの態様について以下にさらに説明する。

編集スタイルを音楽の構造とマッチさせる１つの簡単な方法は、音楽記述のパラメータから、直接出力制作物の視覚的性質を定義しているパラメータの編集を制御する方法である。例えば、カッティング速度（平均セグメント持続時間の逆数）、ディゾルブするためのカットの比率を制御するために使用するビート強度、および入力ビデオから選択したセグメントの輝度を制御するために使用する音量を制御するために、音楽のテンポを使用することができる。この種の簡単なマッピングの場合には、ユーザが速いテンポの音楽部分を選択した場合には、高速カット出力制作物が出来上がる。または、他の例で説明すると、ユーザが対照的に大きくて静かな音楽部分を選択した場合には、出力制作物は対応する明暗の部分を持つことになる。

場合によっては、このアプローチは効果的であり、本発明を使用することによりサポートすることができる。例えば、ユーザが、これらのスタイルを選択することにより、この動作モードを選択することができるように、いくつかのスタイルでこのアプローチを実施することができる。しかし、このアプローチにはいくつかの制限がある。何故なら、このアプローチは音楽に対するほとんどすべての制御を放棄するからである。例えば、音楽が非常に単調なものである場合には、出力制作物は単調なものになる可能性がある。何故なら、種々の変化を導入するための上記機構が動作しないからである。逆に、音楽が非常に高速な対照を持っている場合には、出力制作物は一貫性のないものになる恐れがある。それ故、このアプローチは異なる音楽部分に対してどちらかといえば脆い面がある。このアプローチは、いくつかの音楽部分に対して許容できる出力制作物を生成することができるが、広い範囲の音楽部分に対してうまくいくという保証はない。

もっと優れた代わりのアプローチは、音楽の特性によりスタイルおよび／またはサブスタイルを選択するという方法であるが、スタイル情報が個々の編集の決定を制御したりそれに影響を与えたりする恐れがある。このアプローチは任意の音楽入力に対してもっと予測可能で首尾一貫した結果を生成する。何故なら、すべての編集決定をスタイル情報が許可する範囲内に置くことができるからである。このアプローチを使用すれば、スタイル情報は、音楽が非常に単調なものである場合でも、例えば、上述した確率的発生および値循環の技術により種々様々なものを生成することができる。

このアプローチは、図３のところで説明した本発明の中心である構成原理にもっと密接に適合している。音楽をベースとする制作物の場合に対して、このアプローチを、図１２を参照しながら、以下にさらに詳細に説明する。

図３を参照しながら説明した前の例の場合のように、制作ロジック［１２０１］はスタイル情報［１２０２］、ビデオ／イメージ記述［１２０３］および音楽記述［１２０４］から情報を受け取る。これらの入力に応じて、制作ロジックはメディア・シーン・グラフ［１２０５］内に記憶する編集決定を生成する。この図は、それぞれが、かなり違った機能を実行する２つの部分、すなわち、マクロ記述［１２０６］およびミクロ記述［１２０７］から音楽記述を形成する方法を示す。

音楽マクロ記述［１２０６］は導入部、独唱部、合唱部等のような音楽の主要な部分の時間的尺度における入力音楽の記述を含む。これらの部分の特性は、サブスタイル・シーケンス［１２０８］を生成するために使用される音楽セクション記述子のセットにより表示される。すでに説明したように、サブスタイル・シーケンスは、出力制作物を生成するためにサブスタイルを使用する順序を定義する。サブスタイル・シーケンスが確立されると、出力制作物内の任意の時間に対して対応するサブスタイルが存在する。それ故、出力制作中の特定の時間に対して編集情報が必要な場合には、この情報は正しいサブスタイルにより供給される。

音楽ミクロ記述［１０２７］の役割について以下に説明する。すでに説明した入力音楽が存在しない場合に戻って説明すると、スタイル／サブスタイルから制作ロジック［１２０１］へ送られた情報は効果的に編集コマンドのセットであり、制作ロジックは、可能な場合には、これらのコマンドに従おうとする。（これは何時でも可能なわけではない。何故なら、ある種の決定はビデオ／イメージ記述に依存しているからであるが（ビデオ・セグメント選択に関する上記説明参照）、通常は可能であり、その場合には、制作ロジックはコマンドに従う。）

しかし、音楽をベースとする制作物の場合には、サブスタイルが制作ロジックに送る情報は一組の優先順位である。これらの優先順位は音楽ミクロ記述［１２０７］からの音楽のローカル的特徴を考慮した後でだけそれに従うべきものである。ミクロ記述はバー、ビートおよびサブビートの時間的尺度のところの入力音楽の記述を含む。この記述は、一連の「編集ヒント」を含むこともできるし、一連の「編集ヒント」を生成するために使用することもできる。例えば、音楽振幅記述子から直接入手することができるある種の編集ヒントは、音楽の強いビートのところのようなある時点で出力制作物内のセグメント遷移を行うことが望ましいことを示す。

サブスタイル・シーケンスが生成されると、制作ロジック［１２０１］は、出力制作物の冒頭のところからスタートし、出力制作物の終わりまで、下記のようにＭＳＧを形成することができる。

− この時点に対応するサブスタイルから出力制作物の現時点に関する編集の優先順位の入手。
− 音楽ミクロ記述［１２０７］から（出力制作物の現時点に直接関連する）入力音楽の現時点に関する編集ヒントの入手。
− 必要な場合には（セグメント選択に関する決定を行う場合）、ビデオ／イメージ記述［１２０３］からの記述子の値の入手。
− これらの入力を結合することによる編集の決定とＭＳＧ［１２０５］内への編集の決定の記憶。

例を挙げて上記２つの主要な態様について以下にさらに詳細に説明する。最初に、音楽のマクロ構造にマッチするサブスタイル・シーケンスの生成方法について説明し、２番目に、編集の決定を行うために構造体が編集の優先順位を編集ヒントと結び付ける方法について説明する。

音楽のマクロ構造にマッチするサブスタイル・シーケンスの生成
音楽のマクロ構造にマッチするサブスタイル・シーケンスを生成するために使用する一般的な原理は、記述子の照合による入力ビデオ・セグメントの選択のところですでに詳細に説明した技術に類似の技術である記述子の照合の使用である。

このプロセスの目標は、図１３に示す例のような音楽構造体にリンクしているサブスタイル・シーケンスを生成することである。これは、多くのポピュラー・ソングに存在する構造体、すなわち、導入部、独唱部１、合唱部等の後の一連の音楽セクション［１３０１］を示す。これらは、１対１の関係で一組のサブスタイル［１３０２］と照合される。この例におけるこれらのサブスタイルのシーケンスＳＳ３、ＳＳ２、ＳＳ４等はサブスタイル・シーケンスである。

先に進む前に、この例の２つの特徴に注目したい。第１の特徴は、同じ音楽または類似の音楽に遭遇する度にその音楽は同じサブスタイルにリンクされることである。例えば、この場合、合唱部は何時でもＳＳ４にリンクされる。音楽セクションが非常に類似している場合には、このようなリンクは通常望ましいことであり、これから述べる手順は、同じような多くの場合に、このような結果になる。第２の特徴は、使用する特定のスタイルのすべてのサブスタイルに対して要件がないことである。この図には「ＳＳ１」がないが、それはこの特定の音楽部分に対してサブスタイル１が選択されなかったことを意味する。

図１４は、音楽の構造体からサブスタイル・シーケンスを自動的に入手することができる１つの方法を示す。最初に、各音楽セクションに対して一組ずつ、一組の記述子の値が音楽記述［１４０１］から入手される。音楽セクションに対する適当な記述子は音楽セクションの持続時間、その平均的テンポ、音量およびビートの強度を含む。すでに述べた記述子のような多くの他の種類の記述子を使用することができ、すでに説明したように、これらの記述子は、マニュアル的に入力したか、任意の他の手段で生成した音楽制作物の副産物として生成された信号分析により生成することができる。唯一の固定要件は、各音楽セクションに対する記述子のセットが音楽セクションのいくつかの知覚的に重要な品質の特徴を表すことである。

次のステップ［１４０２］において、スタイル情報から、各サブスタイルに対して一セットずつ、対象記述子の値のセットが検索される。サブスタイルの対象値のセットが、このサブスタイルが特によく一致する音楽の特徴の記述である。通常、これらの値は、各サブスタイルに対する対象値のセットをマニュアル的に入力することにより、スタイル・デザイナーにより生成される。例えば、スタイル・デザイナーが、急速カット・サブスタイル（すなわち、すでに説明した、好適なセグメントの持続時間に対する小さな値を含んでいるかまたは生成するサブスタイル）を生成した場合には、スタイル・デザイナーは、このサブスタイルが、テンポおよびビート強度記述子に対しては高い値を示すが、音量に依存しない音楽セクションに最もよく適していると定義することができる。

次のステップ［１４０３］においては、音楽セクションとサブスタイルとの間の記述子スペース内の距離のセットの計算が行われる。この計算は、シーケンシャルでない場合の入力ビデオ・セグメントの選択のところで説明したプロセスに類似していて、近接の計算を最適化するために導入した技術（図７参照）もこの場合に適用することができる。上記距離のセットから各音楽セクションに最も近いサブスタイルを割り当てることによりサブスタイル・シーケンスの「トライアル」バージョンを生成することができる［１４０４］。

次のステップ［１４０５］において、望ましくない反復に対するサブスタイル・シーケンスのチェックが行われる。このチェックが必要な理由は、（図７のところで説明した）記述子分布正規化のような技術を適用した場合でもあまりに多くの音楽セクションに対して同じサブスタイルがマッピングされるという事態が起こり得るからである。連続しているが異なる２つの音楽セクションに同じサブスタイルがマッピングされた場合には、このようなことは特に望ましくない。図１３について説明すると、すでに説明した例の場合には、同じサブスタイルの連続発生だけが、発生するＳＳ４［１３０３］の３つの発生であることに留意されたい。何故なら、合唱部が３回繰り返されるからである。これは反復が必要な場合であるが、この例の中の任意の他の反復は恐らく望ましいものではない。このような望ましくない反復は、多くの場合、例えば、１つのサブスタイルの発生の全数がある値を超えたかどうかまたは連続反復の全持続時間がある時間の値を超えたかどうかをチェックすることにより検出することができる。

このような望ましくない反復が発見された場合、それらの反復は、サブスタイル・シーケンス内のサブスタイルの中のあるものを、上記ステップ［１４０３］で発見した各音楽セクションに対するサブスタイルに次に近い別のサブスタイルにより置き換えることにより除去される［１４０６］。

この技術は図６および図７を参照しながらすでに説明した入力ビデオ・セグメントを選択するための技術に類似しているので、上記の多くの詳細な点および別の技術もこの場合適用することができる。

編集決定を生成するための編集優先と編集ヒントとの結合
図１５は、編集決定を生成するためにスタイル／サブスタイル情報からの編集優先順位を音楽マクロ記述からの編集ヒントと結合するためのある技術の図面である。この技術は音楽的ビートの時間の尺度のところで動作する。この技術はカットの決定（すなわち、セグメントにある変化をさせなければならない、出力制作物中の時間的な位置の識別）を行うための技術であるが、この技術またはそれを修正したものは、フラッシュまたは他の特殊効果を挿入する時間的位置の識別のような他の種類の編集決定を行うためにも使用することができる。

この例の場合には、水平軸が時間軸であり、垂直方向の矢印［１５０１］は音楽マクロ記述から受信または入手した編集ヒント・パルスである。これらの矢印の高さは音楽の知覚的に重要な特徴に関連していて、その水平位置はスタート時間ｔ＝０からのそれらが発生した時間を示す。通常、問題の特性はオーディオ信号の振幅の変動からの信号のような音楽的ビートに密接に関連する特性である。音楽的ビートのこのような表現を自動的に抽出するための多くの技術は当業者にとって周知のものである。例えば、全振幅または信号のある周波数帯の振幅に対してしきい値超えテストを行うことができる。位相ロック・ループの使用のようなさらに改良した技術は、検出機構を、ほとんどのポピュラー音楽の場合のように、ビートが規則的である場合に発生する振幅変動の周期と同期させることができる。この技術を使用する場合は何時でも、編集ヒント・パルスは下記の傾向を持つことが望ましい。

− 大多数がビートまたは１／２、１／４、１／３等のようなビートの分数と一致すること。
− 各バーの第１のビートのような強いビート上に発生するパルスがより大きい値を持つこと。
− （主要なビート間に発生する）オフ・ビート・パルスの値が強いオフ・ビート音楽的イベントが存在する場所で大きな値を持つこと。例えば、「シンコペートした」と呼ばれる音楽のスタイルでのように、このようなことは多くの音楽で通常起こることである。
− 通常、人間が知覚するようなリズムにパルスが対応すること。

この場合、制作ロジックは、各編集ヒント・パルスを、対応する時間のところでカットを行うようにとの要求と判断し、各パルスの高さを要求の強さであると判断する。パルスの高さは０〜１のような範囲に制限することができる。図１５はそのような例を示す。

しかし、制作ロジックはスタイル／サブスタイル情報も考慮に入れなければならない。スタイルが指定する１つのパラメータは、すでに説明したように、「カッティング速度」である。この例に関連しているものは、スタイル情報が出力制作物内の任意の瞬間に対して出力制作物の次のショットに対する好適なセグメント持続時間を指定することである。この好適な持続時間は、図１５においては、ｔpreferredで示してあるが、もっと一般的には、４本のライン・セグメント［１５０２，１５０３，１５０４および１５０５］で表示される。これら４つのセグメントは編集ヒント・パルスに適用されるしきい値を形成する。しきい値はｔpreferredのところで最小になる。しきい値は、また、ｔ＜ｔminおよびｔ＞ｔmaxに対して１の最大許容パルス値をとる。このことは、ｔminとｔmaxとの間に位置するパルスだけがしきい値を超えることができることを意味する。

この機構の動作を完全に理解するためには、さらに２つの事実が必要になる。

− ゼロ時間、ｔ＝０は、前のカットに対応する。すなわち、ゼロ時間は現在のビデオ・セグメントのスタート時間である。制作ロジックがセグメント毎に出力制作物を生成すると、ゼロ時間は各セグメントに対してリセットされる。
− 選択したセグメント持続時間は、値ｖx＝ｖp−ｖthが最大であるパルスのｔ＝０からの経過時間である。ここで、ｖpはパルスの値であり、ｖthはパルスの時間のところのしきい値の値である。すなわち、最大値によりしきい値を超えるパルスの時間、または、しきい値を超えるパルスがない場合には、それに最も近いパルスである。図１５の場合には、このパルスはパルス［１５０６］である。パルス［１５０７］はもっと高い値を持つが使用されないことに留意されたい。何故なら、値ｖxがパルス［１５０６］に対するものより大きいからである。

上記要因すべてを考慮に入れた場合、このしきい値機構が下記の行動を行うことを理解することができる。

− 強い編集ヒント・パルスに対応する持続時間に有利である。すなわち、すでに説明したように、ビートおよび音楽の他の特徴に関連するカットを行う傾向がある。
− 好適なセグメント持続時間の近くのパルスにとって有利である。特に、音楽が非常に静かで、その結果、編集ヒント・パルスが非常に弱い場合、または、音楽が相対的に特徴がなく、その結果、すべての編集ヒント・パルスが同じような強さを持っている場合には、ｔpreferredに非常に近い持続時間を選択する。
− ｔminとｔmaxの間の持続時間を常に選択する。
− ｔminとｔmaxの間の距離を変化させることにより、音楽的リズム（編集ヒント・パルス）および好適なセグメント持続時間の相対的な影響を制御することができる。ｔminとｔmaxの間の距離が接近している場合には、好適なセグメント持続時間が優勢になる。ｔminとｔmaxとの間の距離が離れている場合には、音楽的リズムが優勢になる。これは、異なるスタイルでまたは１つのスタイルの異なるサブスタイルですら異なるように設定できる要因である。ｔpreferredに対してｔminとｔmaxとの位置を変化させることにより、さらに制御を行うことができ、ｔpreferredの近くに強いパルスが存在しない場合には、持続時間をもっと長くすることもできるしもっと短くすることもできる。さらに、この機構を修正したものは、ライン・セグメントが曲線で置換されている非線形しきい値を使用することができ、行動をもっと細かく制御する。

多くの場合、ｔpreferredの値を、例えば、１ビート、１／２ビート、２ビート等のような現在の音楽テンポのビート速度に関連する持続時間に設定すると効果的である。また、多くの場合、コンストラクタは、編集決定内に変化、すなわち、サブスタイル、ゆっくりした展開、統計的発生および値サイクリングを生成するために、すでに説明したような技術により出力制作物内を進んでいく間に、各セグメントに対する異なる値をｔpreferredに割り当てることに留意されたい。

この節で説明した一組の技術を結合することにより、本発明は、音楽のリズムに関連して知覚され、音楽が非常に変化の少ない場合でも十分変化し、かつ、選択した音楽が何であれ何時でも許容できる範囲内に位置する編集決定を生成することができる。

音楽をベースとする制作物の生成を自動化するための他の機能
そうしたい場合には、本発明を、例えば、音楽をベースとする制作物の生成を自動化し容易にするための下記のいくつかの他の機能で強化することができる。

そのような機能とは例えば下記の機能である。

− 音楽をベースとする制作物の場合、入力サウンドトラックまたはその一部内でミキシングすることが望ましい場合がある。１つのオプションは、一定の状態の相対的なレベルで全入力サウンドトラックを入力音楽とミックスする方法である。もう１つのオプションは、一方または他方が何時でもハッキリと聞こえ他方により聞きにくくならないように、入力サウンドトラックまたは入力音楽または両方のレベルを変化する方法である。例えば、この方法は、オーディオのプロにとっては周知であり、かつ、アナウンサが喋る場合には何時でも音楽のレベルを下げるために生のラジオ放送のような用途に広く使用されている「ダッキング」と呼ばれる技術を使用することができる。さらにもう１つのオプションは、音楽記述内の記述子の値により追加のオーディオ要素を使用したりしなかったりする方法である。例えば、入力音楽が歌であり、入力サウンドトラックが声を含んでいる普通の場合には、声を歌声と同時にミックスすると、一般に、混同したり混乱が起こったりする。それ故、音楽の楽器だけの演奏のような歌声がない場合だけ入力サウンドトラックからのオーディオ内でミックスするのが望ましい。音楽記述が（すでに説明したように）インポートされた要素を含んでいる場合には、このようなミキシングは、歌声が含まれているかいないかを示すマニュアル的に生成した記述子を使用して行うことができる。これを自動化するために音楽アナライザに内蔵させることができる音楽内の歌声の存在を検出するための周知の信号分析技術も存在する。今説明した技術と一緒に使用することができる、入力サウンドトラックからのオーディオのミキシング・インを制御するためのもう１つの方法は、そのオーディオ特性によりサウンドトラックの領域を選択する方法である。例えば、当業者にとって周知の音声検出アルゴリズムを、他の音響に対して声の方が優勢なサウンドトラックの領域だけを選択するために使用することができる。逆に、音楽検出アルゴリズムは、確実に、音楽を含んでいるサウンドトラックのセクションが選択されないようにするために使用することができる。このことは望ましいことである。何故なら、サウンドトラック内の音楽は、通常、入力音楽とミックスすると不快な効果を発生するからである。これらのプロセスを自動化するためのオーディオ分析技術は完全に信頼できるものではない。例えば、周知の技術はすべてのタイプの音楽で完全に正確に歌声の存在を検出することはできない。しかし、このような技術は、本発明には十分に役に立つ働きをし、特に、（すでに説明したように）ユーザの仕上げがサポートされている実施形態の場合には、十分に役に立つ働きをする。
− 音楽をベースとする制作物において、プロの編集者は、多くの場合、落下物が地面に衝突する瞬間のような有意な機能のタイミングが音楽の注目すべき機能のタイミングと同期するようにビデオ要素をどのようにして整合するのかを説明してきた。これは、ビデオ運動分析のための周知の技術を、すでに説明したビート検出技術のような音楽の特徴を検出するための技術と結合することにより自動化することができる。例えば、運動ベクトルをブロック照合のような標準技術によりビデオから抽出することができ、衝突のような急激な減速のタイミングをフレームの領域内の運動ベクトルのスカラまたはベクトルの合計の急激な変化が起こる時点を識別することにより確立することができる。これら減速モーメントの１つまたはそれ以上の時間が入力ビデオのショット内で確立され、各減速の大きさが確立されると、最善の一致が存在するビデオと音楽との間の相対的タイミングを発見することによりショットを音楽に最適な状態で整合させることができる。これは、出力制作物のセグメントの持続時間中に計算した、ビート強度による減速の数学的相互関係が最大になる相対的な時間として定義することができる。

ビート強度および音楽アナライザが入手する他の記述子は、テキスト／グラフィック・オーバレイのアニメーションを制御するために使用することができる。例えば、その位置、向き、大きさ、スキューイング、色等のようなオーバレイのパラメータを音楽信号の振幅により直接決定することができる。または、もっと高性能の実施形態の場合には、（すでに説明したように）しきい値超えテストに基づく音楽的ビートの表現をオーバレイのパラメータの急激な変化をトリガするために使用することができ、次に、オーバレイはどちらかといえばもっとゆっくりとそのデフォールト位置に弛緩させることができる。すなわち、アニメーションを、音楽信号からのパルスにより励起され、音楽的ビートに関連付けられる弛緩モデルに基づいて行うことができる。さらに、すでに説明した音楽セクション記述子を、セクション境界と整合していて、各セクションの音楽的特徴に関連するアニメーションの行動内の変化を制御するために使用することができる。例えば、大きな音楽中に発生するオーバレイを大きくし明るくしギクシャクとした方法で運動させ、一方、静かな音楽中に起きるオーバレイを小さく暗く滑らかに運動するように、上記のように運動するオーバレイ・テキスト／グラフィックの色、大きさおよび弛緩速度を現在の音楽セクションの平均音量に比例したものにすることができる。

制作の作業の流れに対する変更
この最後の節においては、図１６および図１７を参照しながら、メディア制作に従事しているユーザに対する作業の流れを、本発明の典型的な実施形態がどのようにして変更するのかを説明する。これら２つの図面においては、点線で示したステップは、通常、自動化により自動化されているか、自動化により容易に行うことができるステップである。

図１６は、入力ビデオから音楽をベースとする出力制作物を生成するために非線形ビデオ・エディタ（ＮＬＥ）のようなツールを使用する従来の典型的な場合の作業の流れを示す。最初に、入力ビデオが捕捉および／またはインポートされる［１６０１］。このステップは、通常、コンピュータに取り付けられたカメラによりビデオを記録するステップ、または、ビデオ・カムコーダから前に記録したビデオ素材をコンピュータに転送するステップ、または、デジタル・ビデオ・ファイルの形でビデオを入手するステップを含む。アナログ・カムコーダのようなアナログ記録デバイスを使用する場合には、このステップは入力信号のデジタル化ステップも含む。これらの他のシナリオ中の任意なものの場合には、このステップが完了した場合、入力ビデオ素材はＮＬＥ内に導入済みである。

この例は音楽をベースとする制作物に関連しているので、ユーザは、また、例えば、音楽を記録することにより、またはそれをオーディオＣＤのような音楽的媒体から転送することにより、または音楽をデジタル・オーディオ・ファイルとして入手することにより捕捉／インポートしなければならない［１６０２］。これらの別のシナリオのどれかの場合、このステップが終了した場合、入手音楽はＮＬＥ内に導入済みである。

いくつかのＮＬＥは、次のステップ［１６０３］を自動的に実行することができ、カラー・ヒストグラム内の突然の変化の検出のような技術により入力ビデオをショットに分割する。ショットは、通常、「クリップ」のセット、すなわち、入力ビデオの小さなセグメントとしてユーザに表示される。ＮＬＥが自動ショット細分化を含んでいない場合には、ユーザは入力ビデオをマニュアル的にセグメントに分割する。

次に、ユーザは自分を入力ビデオのショットに慣れさせなければならない。これは、通常、ショットを「ロギング」することにより［１６０４］、すなわち、ショットをグルーブ内で組織化するか、またはある順序に配列し、各ショットについてのノートをとり、いくつかのショットを拒否する等して行われる。多数の入力素材を含むプロの制作物の場合には、これは通常は時間の掛かる作業である。短い軽い制作物の場合には、ほとんどの場合この作業を行わなくてもよいが、そうすると、通常は、結果としての制作物の質が落ちることになる。

次の３つのステップ［１６０５，１６０６，１６０７］はシーケンシャルに行うことができ、または、ユーザは（例えば、出力制作物の１つのセクションを完了し、次のセクションに移る前に）これらのステップの順序を変えることもできるし、または、ユーザはこれらのステップ間の境界をぼかすような方法で作業することもできる。どのアプローチをユーザが採用した場合でも、ユーザは出力制作物をセグメント毎にマニュアル的に制作しなければならないし、スタイリッシュな音楽をベースとする制作物が対象である場合には、ユーザは、セグメントが入力音楽のリズム、タイミングおよび「フィーリング」に適合するように、注意深くセグメントを操作しなければならない。このプロセスは、上記技術の多くのものを含み、ほとんどの場合、時間が掛かる作業で、多くの場合には１分間の出力制作物を生成するのに１時間または数時間も掛かる。自分が満足できる品質基準の出力制作物を生成するのは、多くのアマのユーザの技術レベルでは不可能であり、特に、音楽素材および視覚素材の理解を必要とする音楽をベースとする作品の場合には不可能である。

自分が満足できる一組の編集決定ができたとユーザが考えた場合には、ユーザは、どの時点で出力制作物をビデオ・ファイルまたは他の出力として制作するのかをレンダリング［１６０８］するのかをＮＬＥに命じる。ユーザはこれをチェックして、満足できない場合には［１６０９］、制作物を変更したりより洗練したものにするために前のステップ中のあるステップに戻る。

最後に、ユーザは、出力制作物を、自分および他の人たちがそれを見ることができる形でエクスポートする［１６１０］。ほとんどの基本的な場合、ユーザは、自分で見るために自分のコンピュータでビデオ・ファイルを簡単に使用することができるが、もっと一般的には、ユーザは、ビデオ・カセット・レコーダでテープにコピーするかまたは書き込み可能なコンパクト・ディスク（ＣＤ−Ｒ）のような光ディスク・フォーマットにコピーする。例えば、それを電子メール・アタッチメントとして送信し、それを他の人がアクセスすることができるサーバにアップロードするか、またはそれをいわゆる「ピア・ツー・ピア」ファイル共有によりユーザのローカルマシーンから共有することにより、インターネットによりビデオ・ファイルを配布する方法が次第に普及してきている。

図１７は、本発明のある実施形態に基づくシステムによる通常の音楽をベースとする制作物の場合の作業の流れである。これを図１６のところで説明した従来の作業の流れと比較されたい。

捕捉ステップ／インポート・ステップ［１７０１および１７０２］は、従来のＮＬＥの場合の上記対応するステップ［１６０１および１６０２］と同じものである。ショット細分化ステップ［１７０３］も、本質的には、上記対応するステップ［１６０３］と同じものである。システムは、細分化を自動化するための１つまたはそれ以上の周知の技術を使用し、そうしたい場合には、ユーザが結果としての細分化を無視したり調整できるようにする。

次に、ユーザは、コンテンツ（入力素材の要素）および／または素材の処理を予め選択する［１７０４］。本発明は、上記のこのプロセスを楽に行うことができるようにする技術を提供する。このステップはオプションであり、ある実施形態の場合には、このステップはスキップすることができる。

次のステップ［１７０５］は、本明細書において詳しく説明してきた多くの種類の自動分析および制作（構成）を含む。このステップが終了すると、編集決定の完全なセットがすでに生成されていて、これら編集決定は出力制作物を完全に定義する。通常、このステップはシステムにより完全に自動的に行われるので、ユーザが介入する必要はない。

ここで、システムは出力制作物をレンダリングする［１７０６］。ユーザはこの出力制作物をチェックし、満足しない場合には［１７０９］、すでに説明した技術に基づいてシステムの助けを借りて出力制作物を仕上げることもできるし［１７０７］、または前のステップ中のどれかに戻ることもできる。

最後に、ユーザはその出力制作物をエクスポートする［１７１０］。このステップは従来のＮＬＥの場合の上記対応するステップ［１６１０］に類似している。

図１６および図１７を見て上記説明を読めば、本発明の通常の実施形態の作業の流れは、より多くの自動化が行われていて、ユーザのマニュアル的な作業が少なくなっていることが分かるだろう。これにより、制作プロセスがスピードアップし、それに要するユーザの時間が短くなり、未経験のユーザに対するサポートが強化される。

ハードウェア実施形態
当業者であれば、本発明を、汎用コンピュータ、携帯情報端末、専用ビデオ編集ボックス、セットトップ・ボックス、デジタル・ビデオ・レコーダ、テレビジョン、コンピュータ・ゲーム・コンソール、デジタル・スチール・カメラ、デジタル・ビデオ・カメラ、およびメディア処理を行うことができるその他のデバイスを含む多くの種類のハードウェア・デバイスで実施することができることを理解することができるだろう。本発明は、その機能の異なる部分が２つ以上のハードウェア・デバイスに内蔵される複数のデバイスを備えるシステムとして実施することもできる。

特定の実施形態を参照しながら本発明を説明してきたが、当業者なら理解できると思うが、本発明の範囲から逸脱することなしに本発明を種々に修正することができる。

以下、次の事項を開示する。
（請求項１）出力データを形成するために入力データを編集するための方法であって、前記入力データおよび出力データの両方が視覚的データを含み、該方法が、
前記入力データの複数の領域のそれぞれを特徴付ける一つまたはそれ以上の記述子を生成するために前記入力データを分析するステップと、
前記入力データの編集を制御するためにスタイル情報を定義するステップと、
前記入力データに対して行われる編集作業のセットを指定する編集決定のセットを生成するために、前記記述子および前記スタイル情報を使用するステップと、
前記入力データに対して前記作業のセットを実行することにより前記出力データを生成するステップと、
を含む、方法。
（請求項２）前記入力データが視覚的データと音楽データとを含み、前記出力データが前記音楽データと前記視覚的データの両方の一部を含むオーディオ・ビジュアル制作物である、請求項１に記載の方法。
（請求項３）前記記述子の一つ又はそれ以上が前記音楽データに由来し、
前記記述子を、視覚的編集作業のセットの選択、処理方法及びタイミングを決定するためのスタイル情報と一緒に使用し、
前記視覚的編集作業が前記視覚的データに適用され、
これにより、音楽データの特性及びタイミングにより制御される若しくは影響を受ける視覚的要素の選択、処理方法及びタイミングにより音楽をベースとする制作物が形成される、請求項２に記載の方法。
（請求項４）前記入力データの要素がマニュアルで特定され、以下のアクションの一つ又はそれ以上のために選択される、事前に選択するステップをさらに含み、該アクションは、
強制的に出力データに含ませる；
ある確立で出力データに付加的に含ませる；
強制的に出力データから除外する；
である、先行する請求項のいずれかに記載の方法
（請求項５）前記出力データを以下の一つ又はそれ以上の処理を含むマニュアル編集に従わせる仕上げをするステップをさらに含み、該処理が
前記出力データのセグメントと前記入力データからの別のセグメントとを置換するステップと、
前記出力データにおけるセングメントの間の遷移を決定するステップと、
前記出力データにテキストあるいはグラフィックスを重ね合わせるステップと、
を含む、先行する請求項のいずれかに記載の方法。
（請求項６）前記記述子と前記スタイル情報を使用する前記ステップが、編集決定のセットを生成するために、以下に記載するサブステップを前記出力データにおける位置に相当する時点のセットに適用することを含み、該サブステップが、
スタイル情報から編集優先順位の値を入手するステップと、
一つ又は複数の記述子から得られる編集ヒントの値を入手するステップと、
編集決定を促進するために、前記編集優先順位と前記編集ヒントとを結合するステップと、
を含む、先行する請求項のいずれかに記載の方法。
（請求項７）外部ソースから受信した追加の予め生成された記述子を前記記述子に追加するステップを含み、該追加記述子は前記編集決定のセットを生成する前記ステップで使用される、請求項１に記載の方法。
（請求項８）前記追加記述子が、前記入力データを記録したときの計測により生成された記述子を含む、請求項７に記載の方法。
（請求項９）前記追加記述子が、マニュアル的に生成された記述子を含む、請求項７または８に記載の方法。
（請求項１０）前記追加記述子が、音楽制作物中に生成された音楽記述子を含む、請求項７、８または９に記載の方法。
（請求項１１）前記作業のセットが、次のタイプ、すなわち、細分化、選択的導入、順序付け、変形または結合のうちの少なくとも一つの作業を含む、先行する請求項の何れかに記載の方法。
（請求項１２）前記入力データが視覚的データを含み、前記変形作業が、前記入力データにより定義されたイメージの一つまたはそれ以上の部分の色の修正を含む、請求項１１に記載の方法。
（請求項１３）前記変形作業が、前記入力素材の一つまたはそれ以上の部分の再生速度の修正を含む、請求項１１または１２に記載の方法。
（請求項１４）前記結合作業がビデオ遷移を含む、請求項９乃至１１の何れかに記載の方法。
（請求項１５）前記スタイル情報を定義するステップが、複数の予め定義されたスタイル情報のセットの一つを選択することにより実行される、先行する請求項の何れかに記載の方法。
（請求項１６）前記スタイル情報が、前記出力データ内に挿入された前記入力データのセグメントの持続時間に影響を与える好適なセグメント持続時間パラメータを含む、先行する請求項の何れかに記載の方法。
（請求項１７）前記スタイル情報が各記述子に対する一つまたはそれ以上の対象値を含み、前記作業のセットを生成する前記ステップが、前記出力データに挿入するために、ａ）前記一つまたはそれ以上の対象値およびｂ）前記各領域に対する前記記述子の近接度の計算に従って前記入力データの複数の領域の一つまたはそれ以上を選択するステップを含む、先行する請求項の何れかに記載の方法。
（請求項１８）前記出力データの領域の順序が、前記入力データの対応する領域の前記入力データの順序と等しいか少なくとも相関し、これにより前記オリジナル配列が予約されたときに前記出力データが前記入力データの要約を含む、先行する請求項の何れかに記載の方法。
（請求項１９）前記スタイル情報が二つ又はそれ以上のサブスタイルからなるものであって、該各サブスタイルは前記スタイル情報を変化させたものを含み、前記二つ又はそれ以上のサブスタイルが前記セクションの編集を制御するように、該サブスタイルは前記出力データの複数のセクションと関連付けられ、これにより変化が前記出力データの前記編集スタイルに導入される、先行する請求項の何れかに記載の方法。
（請求項２０）前記入力データは音楽データを含み、前記サブスタイルは前記音楽データのセクションを特徴付ける記述子値を、前記サブスタイルにおける対象記述子値にマッチングすることにより、前記音楽データのセクションへリンクされ、これにより前記出力データの編集スタイルにおける変化を前記音楽データの変化に同期させる、請求項１９に記載の方法。
（請求項２１）前記出力データ内の位置の関数として変化する少なくとも一つのパラメータを使用し、前記パラメータは編集決定に影響を与えるように働き、これにより変化が前記出力データの前記編集スタイルに導入される、先行する請求項の何れかに記載の方法。
（請求項２２）前記少なくとも一つの前記パラメータが前記出力データ内の位置によって周期的に変化し、これにより周期的な変化のパターンが前記出力データの編集スタイルに導入される、請求項２１に記載の方法。
（請求項２３）前記スタイル情報が確率分布を規定するデータを含み、編集決定のセットを生成する前記ステップが、前記確率分布によって選択される一つ又はそれ以上のランダム値によって影響を受け、これにより限定された変化が前記編集決定に導入される、先行する請求項の何れかに記載の方法。
（請求項２４）一つ又はそれ以上の前記入力データの要素を特定し、前記出力データを生成するために前記入力データへ適用される遷移および効果の一つ又はそれ以上の態様を特定するマニュアル入力を、ユーザから受け取るステップをさらに含む、先行する請求項の何れかに記載の方法。
（請求項２５）前記出力データのセグメントを前記入力データから得られる代替的セグメントと置換し、置換すべき前記出力データの前記セグメントに似ている若しくは対照的である前記入力データのセグメントをユーザへ示す前記記述子を使用するステップをさらに含み、これにより該ユーザがセグメントをマニュアル的に置換する前記プロセスにおいて支援される、請求項５に記載の方法。
（請求項２６）出力データを生成した後に、以下に記載のステップを繰り返し適用することにより、前記出力データが徐々に洗練される方法であって、該ステップは、
出力データを見るステップと、
さらなる修正を防ぐために前記出力データの領域を示すステップと、及び
修正された形態において、このように特定されていない領域を再び生成して、前記出力データの新しいバージョンを生成するステップと、
である、先行する請求項の何れかに記載の方法
（請求項２７）前記記述子が、前記入力データの複数の要素のそれぞれに対するヒト確率記述子を含み、該ヒト確率記述子が、前記入力素材の各要素内にヒトが存在する確率を表し、作業のセットを生成する前記ステップが、前記ヒト確率記述子の値が高い前記入力データの要素が前記ヒト確率記述子の値が低い要素よりも前記出力データ内にもっと頻繁に挿入される作業を生成する、先行する請求項の何れかに記載の方法。
（請求項２８）前記ヒト確率記述子が、前記入力素材の各要素内にヒトの顔が存在する確立で表される顔確立記述子である、請求項２７に記載の方法。
（請求項２９）前記記述子が、移動するイメージ・データを表す前記入力データの複数の移動するイメージ要素のそれぞれに対する少なくとも一つのカメラ移動記述子を含み、該カメラ移動記述子が、その要素が収集された場合に、各要素に対して前記要素を収集したカメラが移動した程度を表し、作業のセットを生成する前記ステップが、前記カメラ移動記述子の値が低い前記入力データの要素が前記カメラ移動記述子の値が高い要素よりも前記出力データ内にもっと頻繁に挿入される作業を生成する、先行する請求項の何れかに記載の方法。
（請求項３０）前記出力データが少なくとも一つのオーバレイを含み、該オーバレイが少なくとも一つのテキストおよびグラフィックスを含む、先行する請求項の何れかに記載の方法。
（請求項３１）オーバレイがアニメ化される、請求項３０に記載の方法。
（請求項３２）前記入力データが音楽を含み、前記オーバレイのアニメーションの少なくとも一つのパラメータが、前記音楽の特徴を表す音楽記述子により決定される、請求項３１に記載の方法。
（請求項３３）前記スタイル情報を定義する前記ステップ、前記作業のセットを生成するステップおよび前記出力データを生成するステップのうちの少なくとも２つが、異なる別の場所にいるユーザによりスタートされる、先行する請求項の何れかに記載の方法。
（請求項３４）前記スタイル情報を定義する前記ステップおよび前記決定のセットを生成するステップが第１のユーザにより実行され、前記決定のセットが前記入力データにアクセスまたはそのコピーにより装置を操作している第２のユーザに送信され、該第２のユーザが前記セットを用いて前記出力データを生成する前記ステップをスタートし、それにより、前記第２のユーザが、前記第１のユーザから前記第２のユーザにメディア・データを送信しなくても、前記第１のユーザが生成した出力データをチェックすることができる、先行する請求項の何れかに記載の方法。
（請求項３５）音楽データから得られる前記記述子が、音量又は音楽のテンポから得られる音楽的エネルギー記述子を含み、前記音楽的エネルギー記述子は前記視覚編集作業の速度を決定する若しくは影響を与えるために使用される、請求項３に記載の方法。
（請求項３６）音楽データから得られる前記記述子が、音楽のビートの前記タイミングを示す一つ又はそれ以上の編集ヒント記述子を含み、前記視覚的編集作業は視覚的セグメント間の遷移の生成を含み、前記編集ヒント記述子は前記音楽のビートに前記遷移を同期させるために前記スタイル情報と関連して使用される、請求項３に記載の方法。
（請求項３７）音楽データから得られる前記記述子が、音楽のビート又は前記音楽データ内の他の顕著なイベントの前記タイミングに関連する一つ又はそれ以上の編集ヒント記述子を含み、前記視覚的編集作業はフラッシュの前記生成を含み、前記編集ヒント記述子は前記音楽のビート又は他の顕著なイベントに前記フラッシュを同期させるために前記スタイル情報と関連して使用される、請求項３に記載の方法。
（請求項３８）前記記述子が音楽データから得られる音楽イベント記述子を含み、
前記記述子が視覚的入力データから得られるモーション記述子を含み、
顕著な視覚的イベントが前記音楽の顕著な特徴と同期するように、前記記述子が前記オーディオ・ビジュアル制作物における視覚的データのセグメントのタイミングを制御するために使用される、
請求項３に記載の方法。
（請求項３９）前記スタイル情報により支配される時間依存的しきい値を前記編集ヒント記述子へ適用することにより、一つ又はそれ以上の前記視覚的編集作業が決定される、請求項３６又は３７に記載の方法。
（請求項４０）前記入力データがモーション・ビデオおよび音楽に関連するサウンドトラックを含み、前記作業のセットが、
そのオーディオ特徴に従ったサウンドトラックの領域を選択すること、
音楽記述子の値に従った前記サウンドトラックの前記領域内でミックスする時間を決定すること、および
前記サウンドトラックの前記領域がミックスされる場合の前記音楽の音量を低減すること、
のうちの少なくとも一つを踏まえて前記サウンドトラックの前記領域を前記音楽とミックスする、先行する請求項の何れかに記載の方法。
（請求項４１）コンピュータ装置が読むことができ、該コンピュータ装置に先行する請求項の何れかに記載の方法を実行させるプログラム命令を含む記録媒体のようなコンピュータ・プログラム製品。
（請求項４２）
記録されたプログラム手段を含む編集システムであって、該プログラム手段は該編集システムに先行する請求項の何れかに記載の方法を実行させるものであり、さらに、
ユーザが視覚的入力データを選択することを可能にする制御装置、
ユーザが入力音楽データを選択することを可能にする制御装置、
ユーザがテキストデータを付加することを可能にする制御装置、
ユーザがスタイルを選択すること又は定義することを可能にする制御装置、及び
前記出力データを生成させる制御装置、
の内、二つ又はそれ以上の制御機器を備えるユーザ・インターフェースを含む編集システム。
（請求項４３）出力データを形成するために入力データを編集するための編集システムであって、前記入力データおよび前記出力データの両方が視覚的データを含み、該システムが、
前記入力データの複数の領域のそれぞれを特徴付ける一つまたはそれ以上の記述子を生成するために前記入力データを分析するための分析手段と、
前記入力データの編集を制御するためにスタイル情報を定義するためのスタイル定義手段と、
前記入力データに対して実行すべき編集作業を指定する一つまたはそれ以上の編集決定のセットを生成するために前記記述子および前記スタイル情報を使用するための構成手段と、
前記入力データに対して前記作業のセットを実行することにより前記出力データを生成するためのレンダリング手段と、
を含む、編集システム。
（請求項４４）前記入力データは視覚的データと音楽データを含み、前記出力データは視覚的データと音楽データと両方の一部からなるオーディオ・ビジュアル制作物である、請求項４３に記載の方法。
（請求項４５）一つ又はそれ以上の前記記述子が、同一の前記音楽データに由来し、
前記記述子は視覚的編集作業のセットの選択、処理、及びタイミングを決定するために前記スタイル情報と関連して使用され、前記視覚的編集作業は前記視覚的データに適用され、
これにより、ビジュアル素材の選択、処理、及びタイミングが前記音楽データにより制御されて若しくは影響をうけて、音楽をベースとする制作物が生成される、
請求項４４に記載のシステム。
（請求項４６）入力メディアデータの複数の領域のそれぞれを特徴付ける、一つ又はそれ以上の記述子を生成するための前記入力メディアデータを分析するための分析手段と、
前記入力メディアデータへ適用するための修正を制御するためのスタイル情報を定義するためのスタイル定義と、
前記入力メディアデータへ適用するための修正作業を特定する一つ又はそれ以上の編集決定のセットを生成するために前記記述子と前記スタイル情報を使用するための構成手段と、及び
前記入力メディアデータにおいて前記修正作業のセットを実行すること、及びオーディオ・ビジュアル・ディスプレイへ修正された入力メディアデータを供給することによって修正された形態で入力メディアデータをプレイバックするためのレンダリング及びプレイバック手段と、
を含む、修正された形態で前記入力メディアデータをプレイバックするためのメディア・プレーヤであって、入力メディアデータは視覚的データを含む、メディア・プレーヤ。
（請求項４７）
サウンドトラックと関連するモーション・ビデオ・データを含む出力データを形成するためのモーション・ビデオ・データと音楽とからなる編集入力データのためのシステムであって、該システムが、
前記音楽におけるビートを特徴付ける一つまたはそれ以上の記述子を生成するために前記入力データを分析するための分析手段と、
前記モーション・ビデオ・データ編集を制御するためにスタイル情報を定義するためのスタイル定義手段であって、複数のスタイルからスタイルをユーザが選択する手段を含む手段と、
前記モーション・ビデオ・データに対して実行すべき編集作業を指定する一つまたはそれ以上の編集決定のセットを生成するために前記記述子および前記スタイル情報を使用するための構成手段であって、前記編集作業の少なくとも一つが、ビート記述子により影響をうけるタイミングを有するカット若しくは遷移である、構成手段と、及び
前記入力データに対して前記作業のセットを実行することにより前記出力データを生成するためのレンダリング手段と、
を含む、編集システム。
（請求項４８）視覚的サムネイルを含むグラフィカル・ユーザ・インターフェースを表示ための手段をさらに含む、請求項４７に記載の方法。
（請求項４９）サウンドトラックと関連するモーション・ビデオを含む出力データを形成するために、モーション・ビデオ・データと音楽とを含む入力データを編集するための方法であって、該方法が、
前記音楽内のビートを特徴づける一つ又はそれ以上の記述子を生成するために前記音楽を分析するステップと、
ユーザが複数のスタイルからスタイルを選択することによって前記モーションビデオの編集を制御するためにスタイル情報を定義するステップと、
前記モーション・ビデオ・データに対して行うための編集作業であって、該編集作業の少なくとも一つがビート記述子によって影響を受けるタイミングを有するカット又は遷移である編集作業を指定する編集決定のセットを生成するために、前記記述子および前記スタイル情報を使用するステップと、
前記入力データに対して前記作業のセットを実行することにより前記出力データを生成するステップと、
を含む、方法。
（請求項５０）
視覚的サムネイルを含むグラフィカル・ユーザー・インターフェースを表示するステップを含む、請求項４９に記載の方法。

図１はこの発明の実施例の相関する機能のモジュールを示す。図２は図１に記載の実施例の動作の例を示す。図３は図１に記載の実施例の動作原理を模式的に示す。図４は好適なセグメントを導くために入力すべきビデオ素材を探索する図１の実施例を示す。図５は図４の例においてビデオセグメントを選択するための論理を示すフローチャートであって、出力制作物は入力された素材中に認められるセグメントの順序が維持されている。図６は図４の例においてビデオセグメントを選択するための論理を示すフローチャートであって、出力制作物は入力された素材中に認められるセグメントの順序が維持されておらず、しかしその代わりに、そのセグメントの記述子の値の相同性により選択される。図７は図１の実施例において用いられる論理を示すフローチャートであって、候補となるセグメントのセットと対象となる記述子の値のセットとの間の相同性の指標を計算する。図８はメディアシーングラフの構成を示し、このメディアシーングラフは図１の実施例により形成され、かつ出力制作物の様式の完全な代表若しくは出力制作物を作るための完全なインストラクションのセットである。図９は第１の、簡単なＧＵＩを示し、このＧＵＩは３人の主たるユーザのコントロールを伴う図１に示した実施例において好適に用いられる。図９は第１の、簡単なＧＵＩを示し、このＧＵＩは５人の主たるユーザのコントロールを伴う図１に示した実施例において好適に用いられる。図１０はこの発明の他の実施例をしめし、この実施例では通常の使用状態でユーザの干渉を必要としない。図１２は図３に示された原理の詳細を示し、特に音楽による制作物の形成を示す。図１３は図１の実施例の特徴を示し、その特徴は音楽の一片のマクロ構造とサブスタイルシーケンスが一対一の関係で適合する。図１４は図１の実施例の一つの方法を示すフローチャートであり、ここにおいてサブスタイルシーケンスは入力音楽のマクロ構造と自動的に適合される。図１５は閾値のメカニズムを示し、このメカニズムは編集決定を形成するためにスタイル情報からの編集優先度と音楽記述から導かれる編集ヒントとを合成する。図１６はユーザが従来例の非線形ビデオエディタを用いてビデオ制作物を形成する典型的なワークフローを示す。図１７はユーザが図１の実施例を用いてビデオ制作物を形成する典型的なワークフローを示す。

Claims

出力ビデオデータを含む出力データを形成するために入力ビデオデータと入力音楽データを含む入力データを編集するための方法であって、
前記入力ビデオデータは、境界によって分割される一連のセグメントを含んでおり、該方法は、
（ａ）前記入力ビデオデータの前記セグメントを選択するステップと、
（ｂ）前記出力データを形成するために前記選択された入力ビデオデータのセグメントを使用するステップと、
を含み、
前記入力ビデオデータの選択されたセグメントは、
（ｉ）前記出力ビデオデータの中のスタート時刻ｔ_０を確立することと、
（ｉｉ）前記出力ビデオデータのセグメントのために要求される持続時間ｄ₀を得ることと、
（ｉｉｉ）前記要求される持続時間ｄ_０に基づき、前記入力ビデオデータから得るべきセグメントの対象持続時間ｄ_Ｔを引き出すことと、
（ｉｖ）前記スタート時刻ｔ_０に相当する前記入力ビデオ内の時刻ｔ_ｉを計算することと、
（ｖ）持続時間が＞＝前記対象持続時間ｄ_Ｔである時刻ｔ_ｉにおける前記入力ビデオデータのサブセグメントであって、前記セグメントの境界を含まないものが存在するか否かを判定することと、
（ｖｉ）前記判定の条件にかなうものがあったとき、前記選択された入力ビデオデータのセグメントとして前記対象持続時間ｄ_Ｔのサブセグメントの部分を選択することと、
によって選択される、ことを特徴とする方法。
前記対象持続時間ｄ_Ｔを引き出す前記ステップ（ｉｉｉ）が、オーバーラップした変化の持続時間を含み、及びスピード変化のために継続時間をアジャストする、請求項１に記載の方法。
前記ステップ（ｉｉ）において前記要求される持続時間ｄ_０はスタイル情報から引き出される、請求項１又は２に記載の方法。
前記ステップ（ｉｖ）において、Ｒ_ｉｏは前記入力ビデオデータと前記出力ビデオデータの持続時間の比率であって、計算式ｔ_ｉ＝Ｒ_ｉｏ＊ｔ_０によって前記時刻ｔ_ｉが時刻ｔ_０から引き出される、請求項１〜３のいずれか一項に記載の方法。
前記判定の条件にかなうものがなかったとき、持続時間が＞＝ｄ_Ｔであってかつ前記セグメントの境界を含まない前記入力ビデオデータのサブセグメントとして前記時刻ｔ_ｉよりも早い時間で前記入力ビデオ素材を検索する、請求項１〜４のいずれか一項に記載の方法。
前記検索は、時刻ｔ_ｉより早くかつ以前に選択された素材のエンドの後である前記入力ビデオデータの中の時間に対してなされる、請求項５に記載の方法。
前記判定の条件にかなうものがなかったとき、持続時間が＞＝ｄ_Ｔであってかつセグメント境界に近づかない前記入力ビデオデータのサブセグメントとして前記時刻ｔ_ｉよりも後の時間で前記入力ビデオ素材を検索することを含む、請求項１〜６のいずれか一項に記載の方法。
前記検索は計算式ｔ_ｉ-stop＝Ｒ_ｉｏ＊(ｔ_０＋ｄ_０)によって与えられる時刻（ただし、Ｒ_ｉｏは前記入力ビデオデータと前記出力ビデオデータの持続時間の比率）まで続けられる、請求項７に記載の方法。
前記判定の条件にかなうものがなかったとき、前記対象持続時間ｄｔに等しい合計持続時間をもつ前記選択されたセグメントとなる前記２以上の特定されたサブセグメントから前記出力セグメントを形成することを含む、請求項１〜７の何れか一項に記載の方法。
前記ステップ（ｉｖ）にて、前記持続時間ｄ_Ｔの部分は前記サブセグメントの候補ポイントの記述子値と対象記述子値とをマッチングさせることによって選択されることを含む、請求項１〜９の何れか一項に記載の方法。
コンピュータ装置が読むことができ、前記コンピュータ装置に請求項１〜１０の何れか一項に記載の方法を実行させるコンピュータ・プログラム。
編集システムであって、該編集システムに請求項１〜１０の何れか一項に記載される方法を実行させるためのプログラムを保存する手段と、ユーザインターフェースとを含む編集システム。
出力ビデオデータを含む出力データを形成するために入力ビデオデータと入力音楽データを含む入力データを編集する編集システムであって、該編集システムは、
（ａ）前記入力ビデオデータのセグメントを選択する選択手段と、
（ｂ）前記出力データを形成するために前記選択された入力ビデオデータのセグメントを使用する手段と、
を含み、
前記選択手段は、入力ビデオデータのセグメントを次のように選択する、
（ｉ）前記出力ビデオデータの中のスタート時刻ｔ_０を確立することと、
（ｉｉ）前記出力ビデオデータのセグメントのために要求される持続時間ｄ₀を得ることと、
（ｉｉｉ）前記要求される持続時間ｄ_０に基づき、前記入力ビデオデータから得るべきセグメントの対象持続時間ｄ_Ｔを引き出すことと、
（ｉｖ）前記スタート時刻ｔ_０に相当する前記入力ビデオ内の時刻ｔ_ｉを計算することと、
（ｖ）持続時間が＞＝前記対象持続時間ｄ_Ｔである時刻ｔ_ｉにおける前記入力ビデオデータのサブセグメントであって、セグメント境界内に近づかないものが存在するか否かを判定することと、
（ｖｉ）前記判定の条件にかなうものがあったとき、前記選択された入力ビデオデータのセグメントとして前記対象持続時間ｄ_Ｔのサブセグメントの部分を選択することと、
によって選択される、
ことを特徴とする編集システム。
変形された入力ビデオデータと入力音楽データを含む出力メディアデータを再生するメディア再生機であって、該メディア再生機は、
（ａ）前記入力ビデオデータのセグメントを選択する選択手段と、
（ｂ）前記選択された入力ビデオデータのセグメントを使用して前記出力メディアデータを構築するステップと、
を含み、
前記選択手段は、入力ビデオデータのセグメントを次のように選択する、
（ｉ）前記出力ビデオデータの中のスタート時刻ｔ_０を確立することと、
（ｉｉ）前記出力ビデオデータのセグメントのために要求される持続時間ｄ₀を得ることと、
（ｉｉｉ）前記要求される持続時間ｄ_０に基づき、前記入力ビデオデータから得るべきセグメントの対象持続時間ｄ_Ｔを引き出すことと、
（ｉｖ）前記スタート時刻ｔ_０に相当する前記入力ビデオ内の時刻ｔ_ｉを計算することと、
（ｖ）持続時間が＞＝前記対象持続時間ｄ_Ｔである時刻ｔ_ｉにおける前記入力ビデオデータのサブセグメントであって、セグメント境界内に近づかないものが存在するか否かを判定することと、
（ｖｉ）前記判定の条件にかなうものがあったとき、前記選択された入力ビデオデータのセグメントとして前記対象持続時間ｄ_Ｔのサブセグメントの部分を選択することと、
によって選択される、
ことを特徴とするメディア再生機。