JP5706718B2

JP5706718B2 - 動画合成システム及び方法並びに動画合成プログラム及びその記憶媒体

Info

Publication number: JP5706718B2
Application number: JP2011045123A
Authority: JP
Inventors: 啓一郎帆足; 広海石先; 小野　智弘; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2011-03-02
Filing date: 2011-03-02
Publication date: 2015-04-22
Anticipated expiration: 2031-03-02
Also published as: JP2012182724A

Description

本発明は動画合成に関し、特に、インターネット上の動画共有サイトで公開されている動画像コンテンツなどを素材とした音楽合奏動画を自動的に合成する動画合成システム及び方法並びに動画合成プログラム及びその記憶媒体に関する。

現在、インターネット上の動画共有サイト（ニコニコ動画（登録商標）など）では、市販CDなどの音楽を再生しながら、同じ楽曲の特定の楽器を演奏する様子が撮影された動画像コンテンツ（以下、「演奏動画」）を共有して、楽しんでいるユーザが増えている。また、これらの演奏動画を集めて編集することにより、複数のユーザがあたかも１つの楽曲を演奏しているような動画像コンテンツ（以下、「合奏動画」）を作成し、共有するユーザも増えている。

従来、上記のような合奏動画を制作するには、ユーザの膨大な編集作業が必要となっている。そのため、こうした動画の作成を楽しむことができるユーザは限られている。さらに、生成される合奏動画の品質は、作成したユーザの能力やセンスに大きく依存しているため、効率的に印象の強い合奏動画を作成することは困難である。

上記の制作コストを勘案すると、合奏動画が制作される楽曲は、人気の高い楽曲に偏ってしまう。そのため、任意の楽曲の合奏動画を楽しみたいというユーザがいたとしても、所望の合奏動画を見ることができない可能性が高い。

このような事情に関連する従来技術としては、以下の非特許文献１で提案されている動画作成システムがあげられる。当該動画合成システムは、Web上で公開されている大量の動画を利用して、自動的に二次創作動画を作成し、ユーザからのフィードバックに応じて、好みに合った動画の作成を支援する。また、このような事情に関連する従来技術として、以下の特許文献1で開示されている動画データ合成装置があげられる。

室伏、中野、後藤、森島："DanceReProducer: 既存のダンス動画の再利用により音楽に合った動画を作成できるシステム", WISS 2009予稿集，2009.

特開2007-74277号公報(動画データ合成装置、動画データ合成プログラム、および動画データ合成システム)

しかし、上記の非特許文献１で対象としている動画は、同じゲームに由来する断片的な動画を素材として時系列上に並べて作成されているのに対し、合奏動画では所望の楽曲に対して、さまざまな楽器を通して演奏している演奏動画を同時進行させる必要がある。当該動画合成システムは合奏動画の自動合成向けに設計されたものではない。よって、当該動画合成システムを利用して、仮に複数の楽器による演奏動画を素材としたとしても、それぞれ適切なフィードバック情報を与えて合奏動画を作成することは困難であると考えられる。

また、上記の特許文献1に開示された動画データ合成装置においては、対象としている動画を、画像と撮影時刻とを対応付けて、予めユーザがデジタルカメラなどで撮影して用意しておく必要がある。当該動画データ合成装置によっても、所望の楽曲の合奏動画をインターネット上の演奏動画を素材として自動合成することは困難であると考えられる。

本発明の目的は、上記の従来技術の課題を解決し、例えばインターネット上に公開されている動画、又は内容が同種の所定の動画などを素材とした合奏動画を、又はより一般に、同素材による共演動画を自動的に生成する及び方法並びに動画合成プログラム及びその記憶媒体を提供することにある。

上記の目的を達成するために、本発明は、動画合成システムであって、所定の楽曲の音源と連動する所定数の素材動画より特徴量時系列を抽出する素材動画特徴抽出部と、所与の関係を用いて前記特徴量時系列より前記素材動画の盛況度時系列を算出する盛況度算出部と、前記盛況度時系列に基づいて前記所定数の素材動画を組み合わせた共演動画を合成する動画合成部とを備えることを第一の特徴とする。

また、本発明は、前記動画合成システムがさらに、前記所定の楽曲の音源を特定する検索要求を受信して、該検索要求に合致する所定数の動画コンテンツを外部データベースより検索して入手し、前記所定数の素材動画とする素材動画検索部を備えることを第二の特徴とする。

さらに、本発明は、前記動画合成部が、前記共演動画の時系列上の進行に沿って、前記素材動画のうち前記盛況度時系列が所定条件を満たすものを強調表示することによって前記共演動画を合成することを第三の特徴とする。

本発明によれば、前記第一の特徴により、所定の楽曲の音源に連動する共演動画が自動合成される。

また、前記第二の特徴により、検索要求においてユーザの所望する楽曲の音源に基づいて連動する共演動画が自動合成される。

さらに、前記第三の特徴により、盛況度に応じて素材動画を強調表示した共演動画が自動合成される。

本発明の動画合成システムを含む機能ブロック図である。本発明の処理全体のフローチャートである。動画合成処理のフローチャートである。検索要求を受け付けるユーザインタフェース画面イメージの一例である。素材動画特徴量抽出部の詳細な機能ブロック図である。素材動画特徴抽出部が抽出する特徴量時系列の例を示す図である。素材動画同士の時刻情報の同期を説明する図である。合奏動画のイメージ図である。合奏動画において各演奏動画がハイライト対象となるタイミングの例を示す図である。基本配置とハイライトの各種様式の例を示す図である。本発明の動画合成システムの、検索を利用しない実施形態における機能ブロック図である。本発明に係る動画像合成システムとして機能できるコンピュータの主要部の構成を示した機能ブロック図である。

以下、図面を参照して本発明を詳細に説明する。図1は本発明の動画合成システム10を含む機能ブロック図である。動画合成システム10は、その構成モジュールとして、ユーザ検索要求受付部11、動画再生部12、素材動画検索部21、素材動画特徴抽出部22、素材動画盛況度算出部23、動画合成部24、学習データ保存部31及び盛況度算出モデル構築部32を備える。

ここで、機能ブロック群1(ユーザ検索要求受付部11及び動画再生部12)は、動画合成システム10におけるユーザインタフェースを担う。機能ブロック群2(素材動画検索部21、素材動画特徴抽出部22、素材動画盛況度算出部23及び動画合成部24)は、ユーザの検索要求に従う合奏動画の作成処理を担う。機能ブロック群3(学習データ保存部31及び盛況度算出モデル構築部32)は、素材動画盛況度算出部23を動作させるための前設定(パラメータ算出など)を行う。

各構成モジュールの処理内容の概要は次の通りである。当該処理内容の詳細については後述する。

ユーザ検索要求受付部11では、動画合成システム10を利用するユーザからの検索要求を受け付ける。検索要求は、所望の合奏動画における、合奏対象となる楽曲の音源を特定する情報である。当該情報としてたとえば、ユーザが合奏動画を視聴したい楽曲のタイトルやアーティスト名などを入力し、検索要求として受け付ける。またさらに、合奏動画において合奏を構成する楽器など、より詳細な条件の検索要求を受け付けるようにしてもよい。

素材動画検索部21では、ユーザ検索要求受付部11で受け付けた検索要求に該当する素材動画を、インターネット上の動画共有サイトなどから検索し、動画合成システム10内に格納する処理を行う。なお、ここでは素材動画そのものを格納するだけでなく、必要に応じて動画の関連情報も収集する。

素材動画特徴抽出部22は、素材動画検索部21によって収集された全ての素材動画から、合奏動画合成に必要な各種の特徴量時系列を抽出する処理を行う。本モジュールで抽出する特徴量の詳細については、後述する。

盛況度算出モデル構築部32は、事前に準備され学習データ保存部31に保存されている学習データを元に、素材動画の盛況度時系列を算出するためのモデルを構築する処理を行う。本モジュールでのモデル構築処理の例については、後述する。

素材動画盛況度算出部23は、素材動画特徴抽出部22によって抽出された素材動画の特徴量時系列に対して、盛況度算出モデル構築部32によって構築された盛況度算出モデルに基づく所定の関係を適用して、素材動画の各々に対して盛況度時系列を算出する。本モジュールでの処理内容の詳細については、後述する。

動画合成部24は、素材動画盛況度算出部23によって算出された各素材動画の盛況度を元に、合奏動画を合成する処理を行う。本モジュールでの処理内容の詳細については、後述する。

動画再生部12では、動画合成部24によって合成された合奏動画を再生する処理を行う。本モジュールにより、動画合成システム10のユーザは合奏動画を視聴することができる。あるいは、ユーザは動画再生部12を利用せず、動画合成部24によって合成された合奏動画を受信して、ユーザ自身で(所有PC上などにおいて)再生して視聴してもよい。

あるいは、動画合成システム10は合成された合奏動画を、その素材動画を求めた動画共有サイト等に各素材動画の情報と共にアップロードして、ユーザに対して当該サイト等の当該合奏動画のリンク情報を送信するようにしてもよい。この場合、ユーザは当該リンク情報を利用して合奏動画を視聴する。

次に、本発明における処理内容について、処理フローと共に、より詳細に説明する。図2に、本発明の全体処理のフローチャートを示す。

図2に示されているように、本発明ではまずステップS21にて、盛況度算出モデル構築部32が、その後に素材動画盛況度算出部23で利用するための盛況度算出モデルの構築処理を行う。次にステップS22にて、ユーザ検索要求受付部11においてユーザからの検索要求を受け付ける。当該受け付けは後述するように、ユーザとの間である程度対話的に行われてもよい。

次にステップS23にて、図1の機能ブロック2(素材動画検索部21ないし動画合成部24)が合奏動画の合成を行う。その後ステップS24にて、合成された合奏動画を再生してユーザが視聴する。当該視聴においては前述のとおり、ユーザが動画再生部12を利用してもよく、あるいはユーザ自身の側にある再生部を利用するなどしてもよい。

図3に、動画合成の処理のフローチャートを示す。当該フローチャートは、図2のステップS23をより詳細に示すものである。図3に示すとおり、まずステップS31において、ユーザの検索要求に従う素材動画を検索して動画合成システム10内に格納する処理を、素材動画検索部21が行う。ステップS32に示されているように、当該ステップS31は合奏動画を構成する全ての楽器（に対応する素材動画）に対して行う。

全ての楽器についてステップS31を終えると、ステップS33において、検索され格納された全ての素材動画につき、素材動画特徴抽出部22によって、特徴量時系列を抽出する処理が行われる。ステップS34に示されているように、当該ステップS33も、合奏動画を構成する全ての楽器（に対応する素材動画）に対して行う。

全ての楽器についてステップS33を終えると、ステップS35において、抽出された特徴量時系列に基づいて、動画合成部24が素材動画を合成して合奏動画を作成する。合成にあたっては、後述のように各素材動画の表示領域を合奏動画内に設け、その音声も合成して（足し合わせて）同時進行させることによって、各素材動画を組み合わせる。

ここで、図2のステップS22におけるユーザからの検索要求について説明する。当該検索要求は、図3のステップS32及びステップS34における「全ての楽器」の特定にも関連する。前述のとおり、検索要求は基本的には、ユーザが視聴を希望する合奏動画における、合奏対象となる楽曲の音源を特定するものである。同一楽曲又は同一楽曲に基づく曲であっても、アレンジ・構成・テンポなどが異なり、音源として異なる場合があるので、楽曲名に加えてアーティスト名などを用いて特定するようにしてもよい。

楽曲の音源の特定は、ユーザからのテキスト入力等によってもよいし、所定のリストの中から選択させるようにしてもよいし、それらの組み合わせ（テキスト入力でリスト中の全項目の中から候補を絞り込んだ上で選択する）を用いてもよい。

さらに詳細な検索要求として、楽曲の音源の特定に追加して、合奏動画を構成する楽器を特定する情報をユーザから受け付けるようにしてもよい。楽器の特定には、次のように各種の実施形態が可能である。一実施形態では、ユーザが所望の楽器名を全てテキストなどで入力するようにしてもよい。例えば「ギター、ベース、ドラム」などと入力すればよい。さらに、各楽器の数を指定できるようにしてもよい。例えば「第一ギター、第二ギター、ベース、ドラム」あるいは「ギター２，ベース１，ドラム１」などと入力するようにすればよい。

また一実施形態では、次のような対話的処理をユーザ検索受付部11において行ってもよい。すなわち、まずユーザが希望する楽曲の音源を特定してから、当該楽曲の音源の情報を検索キーとして素材動画検索部21が検索を行い、当該楽曲の音源を用いて楽器演奏を行っている素材動画が利用可能な楽器を調べる。そして、ユーザに対して当該利用可能な楽器をリスト化して提示して、その中から選択させるようにする。

また一実施形態では、楽曲の音源によらず固定の楽器（例えばギター、ベース、ドラムなど）を用いるようにしてもよい。また一実施形態では、楽曲の音源毎に素材動画が利用可能な楽器を調べてリスト化しておくことにより、楽曲の音源毎に、あるいは楽曲のジャンル（ロック、ジャズ、クラシックなど）毎に固定の楽器を用いるようにしてもよい。なお当該二つの実施形態においては、ユーザは楽器を特定する情報を入力する必要はないが、それぞれ別実施形態として、固定の楽器の中からユーザに選択させるようにしてもよい。

以上のような各実施形態、あるいはそれらの可能な組み合わせにより、合奏動画において用いる「全ての楽器」が特定されるので、当該全ての楽器に対して前述の図3におけるステップS32及びS34の処理を行う。なお、前述のとおり楽器の数を指定してもよいので、当該全ての楽器とは、楽器の種類及び各楽器の数として特定する。

なおまた、図2のステップS22における検索要求においては、全ての楽器の特定に加えて、上記各実施形態と同様の特定手法により、各楽器の演奏者のプロフィールの特定を受け付けるようにしてもよい。演奏者のプロフィールとしては、プロアマの区別及び国籍や、さらにユーザが希望するなら演奏者自身の特定を含めてもよい。

さらに検索要求においては、素材動画検索部21で素材動画を検索する対象となる動画共有サイト等（より一般に、外部データベース）の指定を受け付けるようにしてもよい。

以上のように、検索要求は各種の実施形態が可能である。図4に、検索要求を受け付けるユーザインタフェースの一例として、ユーザインタフェース画面イメージの一例を示す。B1は特定する楽曲の音源のテキスト入力欄であり、B2は合奏動画において希望する構成楽器のチェックボックス形式による選択欄である。

ここで、上記のような検索要求を用いての、図3のステップS31における素材動画検索部21による素材動画検索処理について説明する。基本的には、検索要求における楽曲の音源の指定された各楽器につき、対応する素材動画を検索して動画合成システム10内に格納するとともに、素材動画の関連情報も収集する。なお、素材動画に対して楽曲の音源及び使用楽器以外の指定もある場合は、そのような指定も含めて対応する素材動画を検索する。

関連情報には、例えば、次のようなものがある。検索要求に含まれる楽曲の音源の特定情報や演奏楽器情報をキーとして動画共有サイトなどを検索すると、ヒットした素材動画には当該サイトにおいて検索を可能とするタグ情報などが対応づけられて与えられている場合が多い。このようなタグ情報には検索で用いた情報以外の情報も含まれているので、関連情報として利用可能であり、当該素材動画と対応づけて保存する。

当該タグ情報には、検索を可能とする情報として、素材動画が所望楽曲の音源を用いた演奏動画である旨の情報、演奏動画における使用楽器の情報が含まれる。タグ情報に含まれているその他の情報としては、演奏者プロフィールなどの、前述のユーザの検索要求をより詳細に受け付けるための各種の情報がありうる。

なお、タグ情報において利用されるキーワードは、動画共有サイトなど毎にある程度典型的なキーワードが存在することがある。よって検索対象のサイト毎にそのようなキーワードの辞書を予め素材動画検索部21で用意しておき、ユーザの検索要求をサイト毎のキーワードに変換して検索を行うことで、所望楽曲の音源の所望楽器の演奏動画を効率的に見つけて素材動画とすることができる。

また、関連情報として、ヒットした素材動画の動画共有サイト等において記録され動画と共に提示されている再生数、アクセス数又は「お気に入り登録」数（以下、「再生数など」と呼ぶ）や、視聴ユーザの高評価ポイント数及び低評価ポイント数、なども収集してよい。

各楽器の素材動画でステップS31の検索後さらにステップS33の処理を行う対象は、当該再生数などが上位の所定数の動画、又は再生数などが所定数以上である等の所定条件を満たす動画に限定してもよい。再生数などの代わりに、高評価ポイント数又は高評価ポイント数から低評価ポイント数を引いたポイント数などを用いて限定してもよい。当該限定は各楽器毎に異なる手法で限定してもよい。その他、動画共有サイト等において提示されている、視聴ユーザの動画の評価に関連する任意の指標を収集して、同様に動画の限定に利用してもよい。

例えば、楽器として「第一ギター、第二ギター、ベース」を指定している場合、ステップS31及びS32で検索し、再生数などに基づく評価が上位所定数(例えば5件)の「第一ギター演奏動画5件、第二ギター演奏動画5件、ベース演奏動画5件」に限定して格納する。これらに対してステップS33及びS34の処理で盛況度を求め、当該盛況度に基づいて（例えば盛況度の最大値や、盛況度の時間軸上での積分値などが最も大きいものを選んで）それぞれ1件を選択して「第一ギター演奏動画1件、第二ギター演奏動画1件、ベース演奏動画1件」の合奏動画をステップS35で合成することができる。

あるいは、ステップS31及びS32の時点で、評価が最上位の1件に絞り込んでもよいし、評価が上位所定数の中からランダムに1件に絞り込んでもよい。また、ステップS31及びS32の時点で、評価が上位所定数のものをリスト化して、再度ユーザ入力受付部11を介して当該リストをユーザに示し、ユーザが各楽器につき所望の動画を選択するような対話的処理としてもよい。こうして例えば、ユーザ選択により「第一ギター；演奏動画a、第二ギター；演奏動画b、ベース；演奏動画c」と指定して、これらに対してステップS33、S34及びS35を経て合奏動画を作成してもよい。

いずれにせよ、合奏動画としては全ての楽器の演奏動画を1件ずつ用いた動画が作成される。

ここで、図3のステップS33における素材動画特徴抽出部22による特徴量時系列の抽出処理につき説明する。素材動画の特徴量時系列とは、素材動画の再生経過時間に沿って定義される特徴量の時系列である。当該特徴量時系列には、各種の特徴量を利用することができるが、本発明では印象的な合奏動画を作成するための特徴量として、視覚的特徴量、音響的特徴量、各動画を視聴しているユーザのコメント特徴量、の3種類を利用する。

これら3種類の特徴量の時系列は図5に示すようにそれぞれ、素材動画特徴抽出部22に含まれる視覚的特徴抽出部221、音響的特徴抽出部222及びコメント特徴抽出部223によって抽出される。以下、3種類の特徴量を全て利用するものとして本発明を説明するが、少なくとも1種類を利用すればよい。すなわち、特徴量のうち任意の1種類のみを利用しても、任意の2種類を利用してもよく、いずれの場合でも本発明は実施可能である。

視覚特徴抽出部221では、視覚的特徴の時系列を抽出する。視覚的特徴の例としては、素材動画内の動きを表すMPEG-7における動きアクティビティ記述子(motion activity)や、MPEG符号化された動画から抽出可能な動きベクトル長などがあげられる。

音響的特徴抽出部222では、音響的特徴の時系列を抽出する。音響的特徴の例としては、全体的な音量などがあげられる。また、あらかじめ指定楽器の周波数帯域に絞ってから、音量などの音響的特徴を抽出してもよい。さらに、前述の通り、素材動画となる演奏動画の多くは元の楽曲の音源を再生しながら、演奏者が楽器を演奏している形式であることから、音響的特徴の例として、元の音源の音響的特徴からの差分を抽出してもよい。

すなわち、演奏している楽器の音に対して、BGMとして流れている元の楽曲の音源による音を消して、あるいは低減して、演奏している楽器の音のみが鳴っている、あるいは目立っているように加工してから、音響的特徴の時系列を音量の時系列などとして抽出してもよい。当該差分抽出に際しては、後述の図7で説明する時間軸補正処理によって、差分を施す箇所を求めればよい。

コメント特徴抽出部223では、ユーザコメント特徴の時系列を抽出する。ユーザコメント特徴の時系列の例としては、時系列上でのコメント数があげられる。ここで前提として、当該素材動画は素材動画検索部21において検索した動画共有サイトなどにおいて、動画の再生経過時間に対応づけて視聴ユーザがコメントを付与しているものとする。そして、当該再生経過時間に対応付けられたコメントを関連情報として素材動画検索部21が収集し、コメント特徴抽出部223において、再生経過時間の所定間隔毎に付与されているコメント数をカウントすることで、コメント数特徴量時系列を得る。

なお、演奏動画に対して視聴ユーザが再生経過時間に対応づけて付与する上記のようなコメントには、当該演奏が盛り上がっている箇所において多く付与されやすい等の傾向がある。このため、コメント数特徴量時系列を後述の盛況度の説明変数として利用できる。音響的特徴量時系列及び視覚的特徴量時系列に関しても同様であり、適切な複数の説明変数を設けることで盛況度算出モデルの精度を上げることができる。

なおまた、演奏動画の盛況度とは無関係なコメントを排除したい場合は、不要なコメントを除去するためのルール（例：「wwww」など、無意味なコメントをリストアップした辞書を準備）を設定し、同ルールに該当しないコメントのみをカウントしてもよい。また、同様に所定のルールを設けることで、所定間隔内で共起する特定のコメントに対して、コメント数のカウントにおいて重み付け（多くカウントする場合と少なくカウントする場合とを含む）を行うようにしてもよい。こうしたコメントに対するフィルタ処理は、動画共有サイト毎に別の処理を設けてもよい。

以上のようにして得られる、各特徴量の抽出結果の例を図6に示す。図6の例では、ある素材動画に対して、視覚的特徴量（動きベクトル量）、音響的特徴量（音量）、コメント数特徴量（コメント数）の特徴量の推移としての時系列が、それぞれ示されている。なお、図6の例では各特徴量は全て1次元であるが、多次元の特徴量として抽出してもよい。例えば、視覚的特徴量を動きベクトルの各成分として2次元特徴量で、音響的特徴量を所定の周波数帯域ごとの音量として多次元特徴量で、コメント数特徴量を所定のフィルタごとのコメント数として多次元特徴量で抽出するなどしてもよい。

なおまた、素材動画からの特徴量時系列抽出の際には、合成の対象となる素材動画内での楽曲の音源の再生時刻に基づき、全ての素材動画同士で時刻情報を同期する必要がある。各素材動画においては、同一の楽曲の音源の最初から最後までの全体が連動して流れている箇所が存在するので、素材動画の時刻を少しずつ移動させながら、当該楽曲の音源の音響的特徴量の時系列との間で相互相関係数を算出することにより、素材動画の時刻情報を同期させることができる。

なお、素材動画においては、楽器演奏の音と所定楽曲の音源の音以外に目立った音が混ざっていることは少ない。よって相互相関係数の算出には、楽曲の音源及び素材動画の音の両者から演奏楽器の周波数帯域を除外したものについて行ってもよい。後述の探索時間範囲を限定する処理を加えてもよい。

上記のような素材動画の時刻情報の同期を、図7を用いて説明する。図7は素材動画が2つの場合を示しているが、3つ以上ある場合も同様である。(1)は素材動画A(例えばギター演奏動画)と素材動画B(例えばベース演奏動画)との、時刻情報の同期がなされていない状態を示してあり、(2)はそれぞれ時刻情報を同期して素材動画A'及びB'となった状態を示している。

(1)に素材動画A及びBとそれらの時間軸Cを示すように、素材動画A及びBはそれぞれ、楽器演奏開始前の区間A1及びB1と、所定の楽曲の音源に合わせて演奏中の区間A2及びB2と、楽器演奏終了後の区間A3及びB3とから構成されている。一般に、楽器演奏開始前の区間A1とB1の長さは一致せず、楽器演奏終了後の区間A3とB3との長さも一致しない。これらは各素材動画を用意したユーザの録画・編集状況により変わる。しかし、CD等に含まれる音源を想定した所定の楽曲の音源に合わせて演奏中の、区間A2及びB2の長さは共通である。

この(1)のような状態で素材動画A及びBを同時に再生しても、特に区間A1とB1の長さが異なることより、演奏中の区間A2及びB2がずれてしまうため、合奏動画として成立しない。そこで、あらかじめ特徴量抽出処理の時点において、(2)に示すように区間A2及びB2とが同時再生されるように時間軸を移動補正する。C'は移動補正された時間軸である。当該移動補正して調整された時間軸C'は、特徴抽出処理以降の処理において共通で用いられる。すなわち、時間軸C'は盛況度時系列及び合奏動画の時間軸となる。

当該移動補正には、区間A2及びB2のそれぞれ素材動画A及びBにおける開始時刻を求めればよい。そこで、前述のような相互相関係数を用いた手法などによって、開始時刻を求める。なお、所定の楽曲の音源の全体が素材動画の内部で流れている前提で、演奏区間の開始時間は、素材動画全体の再生継続時間から所定の楽曲の音源の継続時間を引いた時間以内である。このような制約を利用して開始時刻探索の計算を簡略化してもよい。

合奏動画の視聴意義を考慮すると、盛況度算出は、基本的に演奏中のみで行えばよい。よって特徴量抽出処理を行うのは、補正により同時再生される区間となった(2)に示すt_a~t_b間に限定して、後述のハイライト処理などを適用してもよい。合奏動画として提示する場合には、演奏区間外で且つ他の演奏動画の再生時間に対応する映像が存在しない区間A0やB4に関しては、直近に存在する映像を静止画として表示してもよいし、別の所定の画像を配置しておいてもよい。また、合奏動画自体を区間t_a~t_bのみで作成するようにしてもよい。

次に、図2のステップS21において図1の機能ブロック群3により行われる、盛況度モデル構築処理の例について説明する。本処理では、予め用意して学習データ保存部31に保存される学習データを元に、各素材画像の中での盛り上がり度合いを算出するためのモデルを構築する。学習データとしては、合奏動画の対象と成り得る楽器の演奏動画に対し、ハイライト箇所が付与された動画データを用いる。たとえば、複数の被験者に演奏動画を視聴させた上で、各被験者がハイライトだと感じた箇所を選択させた結果、収集された情報（演奏動画＋ハイライト箇所の時刻情報）を学習データとして準備することができる。

モデル構築方法としては、たとえば重回帰分析やSVM(サポートベクトルマシン)などがある。ここでは、目的変数を盛況度、説明変数をある時刻tにおける演奏動画の｛視覚的、音響的、ユーザコメント数｝特徴量とし、目的変数である盛況度を算出するためのモデルを、重回帰分析を用いて構築する方法を例としてあげる。なお当然であるが、学習用の演奏動画における各特徴量は、合奏動画を作成する際に素材動画特徴抽出部23で演奏動画より抽出するものと同様の各特徴量として、あらかじめ抽出しておく。

数式(1)に、重回帰分析による盛況度算出の算出式を示す。

ただし、Score(m,t) は時刻tにおける演奏動画mの盛況度、x_v,tは時刻tにおける演奏動画mの視覚的特徴量、x_a,tは時刻tにおける演奏動画mの音響的特徴量、x_c,tは時刻tにおける演奏動画mのユーザコメント数特徴量、α_v, α_a, α_c, α_iは、それぞれの特徴量に対する重み係数とする（α_iは切片）。

ここで、盛況度算出モデル構築処理では、上記の各重み係数（α）を算出する処理を行う。学習時の目的変数としては、たとえば学習データ構築時の被験者数をN人とし、演奏動画内の時刻tをハイライト箇所として選択した被験者の数をn_tとすると、n_t／N（すなわち、全被験者のうち時刻tをハイライト箇所と判断したユーザの割合）を算出することができる。

そして、新たに入力された素材動画の盛況度は、上記学習の結果得られたモデル（数式(1)）、および素材動画特徴抽出部22により得られる当該素材動画の各特徴量時系列を元に、素材動画盛況度算出部23によって算出することが可能となる。この処理の結果、素材動画内での盛況度の時間的遷移として、盛況度時系列を得ることとなる。

なお、｛視覚的、音響的、ユーザコメント数｝特徴量の3つの全てを利用するわけではない場合は、利用する特徴量の項のみを用いるように数式(1)を修正すればよい。また、各特徴量の中に多次元の特徴量（例えばn次元）がある場合は、当該特徴量の重み係数（α）をn個設けるように数式(1)を修正すればよい。

次に、図2のステップS23において動画合成部24により行われる、合奏動画合成処理について説明する。合奏動画を合成するためには、合奏動画全体における時間軸の中での各演奏動画の盛況度を比較し、例えばある時刻において盛況度が高い演奏動画をその後の所定時間ハイライト対象として抽出する。まず、当該処理によって合成される合奏動画のイメージを図8に示す。

図8では、４種類の楽器による素材動画によって合成された合奏動画の例が示されている。このうち、左側に示す(1)では、ハイライトされている演奏動画がない状態を示す。この場合、合奏動画の画面を均等に４分割し、それぞれのサブ領域で演奏動画が流れている構成となる。すなわち素材動画として、左上にギター演奏動画、右上にピアノ演奏動画、左下にドラム演奏動画、右下にバイオリン演奏動画を配置する。そして時間を楽曲の音源によって同期させて、各素材動画の映像及び音を同時に流すことで、合奏動画が構成される。

そして図8の右側に示す(2)には、(1)のハイライト無し状態から変化して、左上のギター演奏動画がハイライトされている合奏動画を示す。このように、動画合成部24で合成する合奏動画には、各素材動画がハイライトされるタイミングになったら、当該素材動画が強調表示される形式を利用することができる。

ハイライトは例えば次のようにして行う。例えば素材動画が3つ（m_x, m_y, m_z）与えられた場合、各演奏動画について、時刻tでの盛況度を数式(1)により算出することができる（Score(m_x,t), Score(m_y,t), Score(m_z,t)）。これらの盛況度の値、および各盛況度値の比較により、時刻tにおいてハイライトされるべき演奏動画を選択することができる。

一実施形態では、各時刻tにおいて最も盛況度が高い演奏動画をハイライト対象として選択し、時間経過に沿ってハイライト対象を切り替えるようにすることができる。

一実施形態では、各演奏動画につき、盛況度が所定の閾値を超えた時刻tを、当該演奏動画のハイライト開始タイミングとすることができる。そして、ハイライト開始タイミングの時刻t以降、予め設定された一定時間内は選択された演奏動画をハイライト対象とした合奏動画を合成することができる。１つの演奏動画がハイライト対象となっている間は、他の演奏動画の盛況度がハイライト開始タイミングの条件を満たしても、ハイライト対象としないようにしてもよい。逆にハイライト開始タイミングの条件に至った演奏動画を全て、所定時間の間ハイライト対象としてもよい。

上記のハイライト開始タイミングtを判定する実施形態では、当該時刻t以降、所定の閾値より上に盛況度の値がある時間が継続している場合、当該継続時間をハイライト継続時間に追加してもよい。

また、各実施形態において、すべての演奏動画の盛況度が所定の閾値に達しておらず低い値である間は、図7の左側(2)のような形態でハイライトなしの合奏動画を合成することもできる。

図9に、上記のようなハイライト対象の選択・変遷の例を示す。当該例は、盛況度が所定の閾値を超えた時刻をハイライト開始タイミングとして、以降の所定時間ハイライトを行う例である。(1)はギター演奏動画(＝m_x)の、(2)はベース演奏動画(＝m_y)の、(3)はベース演奏動画(＝m_z)の、それぞれ盛況度時系列(＝{Score(m_i,t)｜i＝x,y,x} )であり、(4)は当該3つの素材動画の合成による合奏動画におけるハイライト対象の変遷である。(1)~(3)に示すように、ギター演奏動画は時刻t₁で盛況度が閾値を超え、ベース演奏動画は時刻t₂で盛況度が閾値を超え、ドラム演奏動画は時刻t₃で盛況度が閾値を超え、当該各時刻においてそれぞれハイライト開始タイミングを迎えている。

そして図9では、時間軸方向の位置を揃えて描かれている(1)〜(4)で示されるように、合奏動画においては区間t₁~t₁+Tでギター演奏動画が、区間t₂~t₂+Tでベース演奏動画が、区間t₃~t₃+Tでドラム演奏動画がハイライト対象となり、各ハイライト区間は(4)において斜線区間として示されている。ここでTはハイライト表示を行う所定の時間間隔である。合奏動画を示す(4)において、斜線を付さないその他の区間はハイライト対象の存在しない区間となる。

なお、図9では各演奏動画のハイライト区間が重複しない例を示している。重複する場合は、前述の通り、各演奏動画毎に独立にハイライト対象としてもよいし、先にハイライト対象となってハイライト表示が継続中の演奏動画がある場合、新たなハイライト対象を設けないようにしてもよい。ハイライト対象と判定する閾値及びハイライト継続時間Tは、全演奏動画で共通としても、演奏動画毎に別の値を設定してもよい。

以上、合奏動画合成処理におけるハイライト対象選択の部分を説明した。次に、ハイライトにおける各種の強調様式と、その前提としての素材動画の配置とについて説明する。ハイライトを行わない状態での素材動画の配置を基本配置と呼ぶこととする。基本配置として、例えば図8の(1)で示したように、用いる素材動画の数の所定の矩形領域に配置することができる。

基本配置とハイライトとの例を図10に示す。(a)は3つの素材動画P1、P2及びP3の基本配置の例である。(a)に示すように、図8の(1)のような例とは異なり、素材動画間に空間があってもよい。また基本配置は合奏動画の再生に連動して移動するようにしてもよいが、移動しない(a)の場合につき、素材動画P1を強調表示の対象としてハイライト処理を行う例を(b1)、(b2)、(c)、(d)、(e)及び(f)に示す。

(b1)及び(b2)は図8の(2)のような様式のハイライトである。P1がハイライト対象となると、(b1)に示すように徐々に拡大されて、(b2)のように合奏動画の画面全体を占有する様式である。ハイライト表示を解除する場合も(b1)のような状態を経て徐々に(a)へ戻ってもよい。

(c)はP1が拡大されるが、その他のP2やP3の領域を覆うまでには至らない様式のハイライトである。(d)はP1の周辺領域が強調色などに変色、あるいは点滅するなどの様式のハイライトである。(e)はハイライト対象のP1以外のP2及びP3にぼかし処理などを加えてP1を強調する様式である。(f)はハイライト対象のP1を複数同時に表示し、その他のP2及びP3は表示しない様式である。(c)ないし(f)においてさらに、ハイライト中のP1領域に動きの演出等を加えるようにしてもよい。これら各様式のハイライトは、ハイライト対象が選択される都度別種のものを適用するようにしてもよい。ハイライト対象の盛況度の値あるいはハイライト対象の楽器に応じて適用する様式を定めてもよい。

以上に限らず、基本配置とハイライトは各種の設定が利用でき、テンプレートとして動画合成システム10に用意しておくことができる。複数テンプレートがある場合は、どれを利用するかをユーザ検索要求受付部11においてユーザが指定できるようにしてもよい。

なおまた、ハイライト処理を完全に省略した形式で合奏動画を作成するようにしてもよく、ユーザから当該指定をユーザ検索要求受付部11において受け付けるようにしてもよい。

図11は、本発明の動画合成システム10の、検索機能を利用しない実施形態の機能ブロック図である。当該実施形態を、図1の実施形態との差分の部分に注目して説明する。すなわち、図1のユーザ検索要求受付部11及び素材動画検索部21に代えて、ユーザ要求受付部110及び動画準備部210を備えるが、処理の流れとしては同様である。その他の機能ブロックは共通である。

当該実施形態は、素材動画をユーザ自身が準備して、動画合成システム10がハイライト処理を施した合奏動画の自動合成を行うものである。すなわち、ユーザは自身で検索するなどして、所定の楽曲の各楽器を演奏している演奏動画を所定数用意し、ユーザ要求受付部110を介して当該動画を入力すると共に作成要求(作成命令)を入力する。動画準備部210には当該入力した演奏動画が格納され、素材動画特徴抽出部22以降は、当該演奏動画を用いて図1の実施形態と全く同様の処理が行われる。

なお、当該実施形態の意義より明らかではあるが、当該実施形態では図2のステップS22、図3のステップS31及びS32等は適宜ユーザ自身の作業に置き換えられる。当該実施形態ではユーザ自身が所望の素材動画を用意した上で、合奏動画を自動合成することができる。

図12は、本発明の動画合成システム10として機能できるコンピュータ５０の主要部の構成の一例を示した機能ブロック図であり、オペレーティングシステム(OS)を含む基本プログラムや各種の基本データが記憶されたROM５２と、各種のプログラムやデータが記憶されるハードディスクドライブ装置(HDD)５７と、CR-ROMやDVD等の記憶メディア６１からプログラムやデータを読み出すメディアドライブ装置５６と、プログラムを実行するCPU５１と、このCPU５１にワークエリアを提供するRAM５３と、入出力インターフェース(I/F)５５を介して接続されたディスプレイ５８、キーボード５９およびマウス等のポインティングデバイス６０と、外部装置と通信するパラレル／シリアルI/F５４とを主要な構成としている。

図12の構成では、本発明に係る動画合成プログラムがネットワーク等を経てシリアル／パラレルI/F５４から入力、またはメディアドライブ装置５６で読み取られてHDD５４に予め記憶される。メディアドライブ装置５６で読み取られる場合、本発明に係る動画合成プログラムは予め記憶メディア６１に記憶され、HDD５７にインストールされる。

このような構成において、検索要求を行うユーザがネットワーク等を経て、動画合成サーバとして当該コンピュータ５０を利用する場合、予め管理者などがコンピュータ５０においてキーボード５９およびマウス等のポインティングデバイス６０を用いるなどして、動画合成プログラムを起動し、検索要求を待つ状態としておく。パラレル／シリアルI/F５４を介してユーザ検索要求を受信すると、CPU５１は動画合成プログラムを実行し、当該コンピュータ５０を図1に示した動画合成システム10として機能させ、図2及び図3に示したような各ステップが実行される。合成された合奏動画はシリアル／パラレルI/F５４を介してユーザに送信される。

あるいは、ユーザが自身で利用する端末としてコンピュータ50を利用する場合、ユーザ自身がキーボード５９およびマウス等のポインティングデバイス６０を用いるなどして、動画合成プログラムを起動すると共に検索要求を入力することで、合奏動画が合成され、HDD５７に格納される。この場合、ユーザはディスプレイ５８により合成動画を視聴することができる。

なお、以上と同様にして、図1に示す動画合成システム10の各機能ブロック毎又は複数の機能ブロック毎に、その機能を実行する図11のようなコンピュータ50を複数用意して、当該コンピュータ50同士がパラレル／シリアルI/F５４を介してネットワーク上で通信することによって、動画合成システム10を実現してもよい。

なおまた、以上のような本発明に係る動画合成プログラムを利用するに際して、図2のステップS21における盛況度モデル構築処理は、動画合成プログラムの実行処理内に含めて、被験者の評価データをシリアル／パラレルI/F５４等を介して受信するようにしてもよい。また、当該図2のステップS21における盛況度モデル構築処理は、動画合成プログラムの実行処理内に含めず、同様の処理を予め行って得られた結果としてのパラメータ等を、当該動画合成プログラム内に含まれステップS35にて参照される定数として設けておいてもよい。

なお、本発明は好ましい一実施形態として、利用する楽器を指定した合奏動画を作成するものとして説明してきた。所定の楽曲の音源が連動している素材動画を利用する前提下において、より一般に次のような実施形態も可能である。すなわち、楽器に限らず、ボーカルやダンスなども含む、所定の楽曲の音源における各パートが演じられている動画を素材動画として、これらを合成した共演動画を作成することができる。この場合、以上の説明において「楽器」を「パート」に、「演奏動画」を「パートが演じられている動画」に、「合奏動画」を「共演動画」に、読み替えるなどすればよい。

10…動画合成システム、21…素材動画検索部、22…素材動画特徴検出部、23…素材動画盛況度算出部、24…動画合成部

Claims

所定の楽曲の音源と連動する所定数の素材動画より、当該素材動画の再生経過時間に沿って定義される特徴量の時系列として、特徴量時系列を抽出する素材動画特徴抽出部と、
再生経過時間の各時刻において特徴量から盛況度を算出するための所与の関数関係を用いて前記特徴量時系列より前記素材動画の盛況度時系列を算出する盛況度算出部と、
前記盛況度時系列に基づいて前記所定数の素材動画を組み合わせた共演動画を合成する動画合成部とを備えることを特徴とする動画合成システム。
ユーザからの検索要求として、前記所定の楽曲の音源を特定する検索要求を受信して、該検索要求に合致する所定数の動画コンテンツを外部データベースより検索して入手し、前記所定数の素材動画とする素材動画検索部をさらに備えることを特徴とする請求項1に記載の動画合成システム。
前記素材動画が、前記楽曲の音源における所定数の各パートが演じられている動画であることを特徴とする請求項1または2に記載の動画合成システム。
前記パートに、楽器のパートが含まれることを特徴とする請求項3に記載の動画合成システム。
前記素材動画特徴抽出部が、前記所定の楽曲の音源の音響的特徴量時系列に基づいて、前記素材動画の各々の時間軸を移動補正し、前記連動する楽曲の音源が前記素材動画の各々において同時進行するようにした上で前記特徴量時系列を抽出し、前記移動補正された時間軸が前記盛況度時系列及び前記共演動画においても用いられることを特徴とする請求項1ないし4のいずれかに記載の動画合成システム。
前記特徴量時系列が、前記素材動画の視覚的特徴量時系列、音響的特徴量時系列、又は前記素材動画に再生経過時間と対応付けて付与されているコメントに基づくコメント数特徴量時系列のうち少なくとも１つを含むことを特徴とする請求項1ないし5のいずれかに記載の動画合成システム。
前記所与の関数関係が、所定の動画に盛況度時系列を対応づけた学習データを利用した学習モデルで与えられることを特徴とする請求項1ないし6のいずれかに記載の動画合成システム。
前記学習モデルが重回帰分析を用いて構築されることを特徴とする請求項7に記載の動画合成システム。
前記動画合成部が、前記共演動画の時系列上の進行に沿って、前記素材動画のうち前記盛況度時系列が所定条件を満たすものを強調表示することによって前記共演動画を合成することを特徴とする請求項1ないし8のいずれかに記載の動画合成システム。
所定の楽曲の音源と連動する所定数の素材動画より、当該素材動画の再生経過時間に沿って定義される特徴量の時系列として、特徴量時系列を抽出する素材動画特徴抽出ステップと、
再生経過時間の各時刻において特徴量から盛況度を算出するための所与の関数関係を用いて前記特徴量時系列より前記素材動画の盛況度時系列を算出する盛況度算出ステップと、
前記盛況度時系列に基づいて前記所定数の素材動画を組み合わせた共演動画を合成する動画合成ステップとを備えることを特徴とする動画合成方法。
請求項10に記載の動画合成方法をコンピュータに実行させる動画合成プログラム。
請求項11に記載の動画合成プログラムをコンピュータによる読み取り可能に記録された動画合成プログラムの記憶媒体。