JP5778523B2 - 映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラム - Google Patents

映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラム Download PDF

Info

Publication number
JP5778523B2
JP5778523B2 JP2011184087A JP2011184087A JP5778523B2 JP 5778523 B2 JP5778523 B2 JP 5778523B2 JP 2011184087 A JP2011184087 A JP 2011184087A JP 2011184087 A JP2011184087 A JP 2011184087A JP 5778523 B2 JP5778523 B2 JP 5778523B2
Authority
JP
Japan
Prior art keywords
motion
data
beat
music
motion data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011184087A
Other languages
English (en)
Other versions
JP2013045367A (ja
Inventor
建鋒 徐
建鋒 徐
高木 幸一
幸一 高木
茂之 酒澤
茂之 酒澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2011184087A priority Critical patent/JP5778523B2/ja
Publication of JP2013045367A publication Critical patent/JP2013045367A/ja
Application granted granted Critical
Publication of JP5778523B2 publication Critical patent/JP5778523B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラムに関する。
近年、音楽に合わせてコンピュータ・グラフィックス(CG)オブジェクトを表示させる技術として、例えば、演奏家が音楽を演奏すると、音楽との所定のマッピングのパタンに従って、CGモデルが動くようにする技術が提案されている。特許文献1では、CGオブジェクトの時系列に対して、音楽データの静的属性または動的属性をもとにして描画情報(視点情報、光源情報)を再設定する。そして、音楽データをCGオブジェクト表示と同期して再生している。又、特許文献2に記載のモーション作成装置では、複数のモーションにおいて人体姿勢が類似する2つのフレーム間を連結した有向性グラフとしてモーションデータベースを構築し、その複数のモーションの中から、音楽データから取得したビート特徴成分と相関を有する動き特徴成分をもつモーションを選択している。また、特許文献3に記載の技術では、事前に独自なデータ構造を生成し、音楽を入力すると、ダイナミックプログラミング(Dynamic Programming:動的計画法)を用いてより高速な同期を行っている。
音楽解析手法としては、非特許文献1に記載の技術が知られている。非特許文献1の技術によれば、発音成分、コードの変化、打楽器の発音時刻などを推定してビート間隔及びビート構造を取得している。動き解析手法としては、特許文献4に記載の技術が知られている。特許文献4の技術によれば、動きビートの変化や発生時刻を推定してビート間隔及びビート構造を取得している。
非特許文献2には、モーショングラフ(Motion Graphs)を用いて新たな動きデータを生成する技術が開示されている。
非特許文献3には、パス探索技術として、ある始点からダイナミックプログラミングで最適なパスを探索する技術が開示されている。
特開2005−56101号公報 特開2007−18388号公報 特開2010−267069号公報 特開2010−157061号公報
M.Goto,"An Audio-based Real-time Beat Tracking System for Music With or Without Drum-sounds",Journal of New Music Research,Vol.30,No.2,pp.159-171,2001 L.Kovar,M.Gleicher,and F.Pighin,"Motion Graphs",ACM Transaction on Graphics,Vol.21,Issue 3,2002(SIGGRAPH 2002),pp.473-482 Cormen,Thomas H.; Leiserson,Charles E.,Rivest,Ronald L. (1990). Introduction to Algorithms (2st ed.). MIT Press and McGraw-Hill. ISBN 0-262-03141-8. pp. 323-69
しかしながら、従来技術では、全自動でCGオブジェクトの動きを決定するので、ユーザが希望する動きをCGオブジェクトの動きに反映させることができない。
本発明は、このような事情を考慮してなされたもので、楽曲に合わせた映像コンテンツを生成する際に、ユーザが希望する動きをCGオブジェクトの動きに反映させることができる、映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラムを提供することを課題とする。
上記の課題を解決するために、本発明に係る映像コンテンツ生成装置は、動きデータベースに格納される動きデータについてのモーショングラフと、映像コンテンツ生成対象の楽曲の音楽データから取得されたビート間隔およびビート時刻から成る音楽特徴量と、ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻と、前記動きデータベース内の動きデータの中から該再生時刻に対応付ける動きデータとを、指定する操作部と、前記操作部により指定された再生時刻から一定時間までの前記音楽データの区間に対して前記操作部により指定された動きデータの予め準備された属性値を設定する属性値設定部と、前記モーショングラフ及び前記音楽特徴量を使用して前記音楽データに対応付ける動きデータの順列を探索するコンテンツ生成部と、を備え、前記モーショングラフは、前記動きデータベース内の各動きデータの各ビートフレームに対応するノードと、一の動きデータの中で連続するビートフレーム間に関する時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう単方向エッジであって当該一の動きデータの予め準備された属性値を重みに有する単方向エッジと、ビートフレーム間の連結性に基づいて設けられた当該ビートフレーム間に対応するノード間の双方向エッジであって当該ビートフレーム間の連結性を重みに有する双方向エッジと、を有し、前記コンテンツ生成部は、前記モーショングラフにおいて、単方向エッジの重みと前記音楽データの連続するビート間の属性値とが一致しているかどうかと、双方向エッジを選択する時の該双方向エッジの重みと、を用いて定義されたコスト関数が最小となるパスを最適パスとする、映像コンテンツ生成装置である。
本発明に係る映像コンテンツ生成装置においては、前記動きデータベース内の動きデータ毎にビート時刻を検出し、検出したビート時刻に基づいて各ビートフレーム間に当該ビートフレームの動きデータの予め準備された属性値を設定し、検出したビート時刻と設定した属性値と前記動きデータベース内の動きデータとを使用して前記モーショングラフを生成する動き解析部、を備えたことを特徴とする。
本発明に係る映像コンテンツ生成装置において、前記音楽データを再生する再生部と、動きデータを区別なく扱う第1の動きデータベースと動きデータ毎にラベルを付与している第2の動きデータベースとのうち前記第2の動きデータベース内の動きデータをユーザに提示する動き候補提示部と、を備え、前記操作部は、ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻を指定する再生時刻指定手段と、ユーザが、前記動き候補提示部で提示された動きデータの中から前記再生時刻指定手段により指定された再生時刻に対応付ける動きデータを指定する動きデータ指定手段と、を有し、前記動き解析部は、前記第1の動きデータベースの動きデータに対しては全てのビートフレーム間に属性値「0」を設定し、前記第2の動きデータベースの動きデータに対してはラベルに応じた所定の属性値をビートフレーム間に設定し、前記属性値設定部は、前記再生時刻指定手段により指定された再生時刻から一定時間までの前記音楽データの区間に対して前記動きデータ指定手段により指定された動きデータのラベルに対応する属性値を設定し、属性値を設定しなかった区間に対して属性値「0」を設定する、ことを特徴とする。
本発明に係る映像コンテンツ生成装置において、前記音楽データからビート間隔およびビート時刻を取得する音楽解析部、を備えたことを特徴とする。
本発明に係る映像コンテンツ生成装置において、前記コンテンツ生成部の探索結果の最適パスに対応する動きデータを用いて、前記音楽データとともに再生される映像データを生成する映像データ生成部と、前記生成された映像データを前記音楽データとともに再生するコンテンツ表示部と、を備えたことを特徴とする。
本発明に係る映像コンテンツ生成方法は、映像コンテンツ生成装置が、動きデータベースに格納される動きデータについてのモーショングラフと、映像コンテンツ生成対象の楽曲の音楽データから取得されたビート間隔およびビート時刻から成る音楽特徴量と、を備え、ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻と、前記動きデータベース内の動きデータの中から該再生時刻に対応付ける動きデータとを、指定する操作ステップと、前記映像コンテンツ生成装置が、前記操作ステップにより指定された再生時刻から一定時間までの前記音楽データの区間に対して前記操作ステップにより指定された動きデータの予め準備された属性値を設定する属性値設定ステップと、前記映像コンテンツ生成装置が、前記モーショングラフ及び前記音楽特徴量を使用して前記音楽データに対応付ける動きデータの順列を探索するコンテンツ生成ステップと、を含む映像コンテンツ生成方法であり、前記モーショングラフは、前記動きデータベース内の各動きデータの各ビートフレームに対応するノードと、一の動きデータの中で連続するビートフレーム間に関する時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう単方向エッジであって当該一の動きデータの予め準備された属性値を重みに有する単方向エッジと、ビートフレーム間の連結性に基づいて設けられた当該ビートフレーム間に対応するノード間の双方向エッジであって当該ビートフレーム間の連結性を重みに有する双方向エッジと、を有し、前記コンテンツ生成ステップにおいて、前記映像コンテンツ生成装置は、前記モーショングラフにおいて、単方向エッジの重みと前記音楽データの連続するビート間の属性値とが一致しているかどうかと、双方向エッジを選択する時の該双方向エッジの重みと、を用いて定義されたコスト関数が最小となるパスを最適パスとする、映像コンテンツ生成方法である
本発明に係るコンピュータプログラムは、動きデータベースに格納される動きデータについてのモーショングラフと、映像コンテンツ生成対象の楽曲の音楽データから取得されたビート間隔およびビート時刻から成る音楽特徴量と、を有するコンピュータに、ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻と、前記動きデータベース内の動きデータの中から該再生時刻に対応付ける動きデータとを、指定する操作ステップと、前記操作ステップにより指定された再生時刻から一定時間までの前記音楽データの区間に対して前記操作ステップにより指定された動きデータの予め準備された属性値を設定する属性値設定ステップと、前記モーショングラフ及び前記音楽特徴量を使用して前記音楽データに対応付ける動きデータの順列を探索するコンテンツ生成ステップと、を実行させるためのコンピュータプログラムであり、前記モーショングラフは、前記動きデータベース内の各動きデータの各ビートフレームに対応するノードと、一の動きデータの中で連続するビートフレーム間に関する時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう単方向エッジであって当該一の動きデータの予め準備された属性値を重みに有する単方向エッジと、ビートフレーム間の連結性に基づいて設けられた当該ビートフレーム間に対応するノード間の双方向エッジであって当該ビートフレーム間の連結性を重みに有する双方向エッジと、を有し、前記コンテンツ生成ステップは、前記モーショングラフにおいて、単方向エッジの重みと前記音楽データの連続するビート間の属性値とが一致しているかどうかと、双方向エッジを選択する時の該双方向エッジの重みと、を用いて定義されたコスト関数が最小となるパスを最適パスとする、コンピュータプログラムである。
これにより、前述の映像コンテンツ生成装置がコンピュータを利用して実現できるようになる。
本発明によれば、楽曲に合わせた映像コンテンツを生成する際に、ユーザが希望する動きをCGオブジェクトの動きに反映させることができる。これにより、ユーザが所望する魅力的かつ希望通りの映像コンテンツを制作することができるという、格別の効果が得られる。
本発明の一実施形態に係る映像コンテンツ生成装置1の構成を示すブロック図である。 人体スケルトン型動きデータの定義例である。 図1に示す動き解析部11の構成を示すブロック図である。 図3に示すビート抽出部111に係るデータ分割処理の概念図である。 図3に示すビート抽出部111に係るデータ分割処理の概念図である。 図3に示すビート抽出部111に係る主成分座標連結処理を説明するための概念図である。 図3に示すビート抽出部111に係る正弦近似処理の概念図である。 本発明の一実施形態に係る動きデータに付与されているラベルに対応する属性値の例である。 本発明の一実施形態に係るモーショングラフ生成方法の流れを示す概念図である。 本発明の一実施形態の双方向エッジに係るブレンディング処理の概念図である。 本発明の一実施形態に係るブレンディング処理を説明する概念図である。 図1に示す入力部12の構成を示すブロック図である。 本発明の一実施形態に係る、動きデータのラベルに対応する音楽データの再生時刻の属性値の例である。 本発明の一実施形態に係る動きのフレームレートを調整する処理の概念図である。
以下、図面を参照し、本発明の実施形態について説明する。
図1は、本発明の一実施形態に係る映像コンテンツ生成装置1の構成を示すブロック図である。図1において、映像コンテンツ生成装置1は、動き解析部11、入力部12、音楽解析部13、コンテンツ生成部14、映像データ生成部15及びコンテンツ表示部16を有する。
映像コンテンツ生成装置1には、映像コンテンツ生成対象の楽曲の音楽データが楽曲ファイル3から入力される。又、映像コンテンツ生成装置1には、動きデータが動きデータベース2−1,2−2から入力される。動きデータベース2−1,2−2は、一般に利用可能な動きデータを多数蓄積している。本実施形態では、人の動きデータを扱い、人の動きデータとして、図2に例示されるように定義された人体スケルトン型動きデータを用いる。
図2は、人の動きデータの定義例の概略図であり、人のスケルトン型動きデータ(人体スケルトン型動きデータ)の定義例である。人体スケルトン型動きデータは、人の骨格を基に、骨及び骨の連結点(ジョイント)を用い、一ジョイントを根(ルート)とし、ルートからジョイント経由で順次連結される骨の構造を木(ツリー)構造として定義される。図2には、人体スケルトン型動きデータの定義の一部分のみを示している。図2において、ジョイント100は腰の部分であり、ルートとして定義される。ジョイント101は左腕の肘の部分、ジョイント102は左腕の手首の部分、ジョイント103は右腕の肘の部分、ジョイント104は右腕の手首の部分、ジョイント105は左足の膝の部分、ジョイント106は左足の足首の部分、ジョイント107は右足の膝の部分、ジョイント108は右足の足首の部分、である。
スケルトン型動きデータは、スケルトン型対象物の各ジョイントの動きを記録したデータであり、スケルトン型対象物としては人体や動物、ロボットなどが適用可能である。スケルトン型動きデータとしては、各ジョイントの位置情報や角度情報、速度情報、加速度情報などが利用可能である。ここでは、人体スケルトン型動きデータとして、人体スケルトンの角度情報と加速度情報を例に挙げて説明する。
人体スケルトン型角度情報データは、人の一連の動きを複数の姿勢(ポーズ)の連続により表すものであり、人の基本ポーズ(neutral pose)を表す基本ポーズデータと、実際の人の動きの中の各ポーズを表すポーズ毎のフレームデータとを有する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなどの情報を有する。基本ポーズデータにより基本ポーズが特定される。フレームデータは、基本ポーズからの移動量をジョイント毎に表す。ここでは、移動量として角度情報を利用する。各フレームデータにより、基本ポーズに対して各移動量が加味された各ポーズが特定される。これにより、各フレームデータによって特定される各ポーズの連続により、人の一連の動きが特定される。なお、人体スケルトン型角度情報データは、人の動きをカメラ撮影した映像からモーションキャプチャ処理によって作成したり、或いは、キーフレームアニメーションの手作業によって作成したりすることができる。
人体スケルトン型加速度情報データは、人の各ジョイントの加速度をポーズ毎のフレームデータと複数のポーズの連続により表すものである。なお、人体スケルトン型加速度情報データは、加速度計で記録したり、映像や動きデータから算出したりすることができる。
なお、本実施形態に係る以下の説明においては、人体スケルトン型動きデータのことを単に「動きデータ」と称する。
以下、図1に示される映像コンテンツ生成装置1の各部について順次説明する。
[動き解析部]
動き解析部11は、動きデータベース2−1,2−2から動きデータを取得し、取得した動きデータを解析して動き特徴量を取得し、取得した動き特徴量をモーショングラフに格納する。動き解析部11は、動きデータベース2−1,2−2に蓄積される全ての動きデータを対象にする。但し、動きデータベース2−1の動きデータには全て同じラベルが付与されている。一方、動きデータベース2−2の動きデータに対しては、動きデータ毎に、独自のラベルが付与されている。動き解析部11の処理は、実際に映像コンテンツを生成する段階の前に、事前の準備段階として行われる。
図3は、図1に示す動き解析部11の構成を示すブロック図である。図3において、動き解析部11は、ビート抽出部111、属性指定部112及びモーショングラフ生成部113を有する。
[ビート抽出部]
ビート抽出部111は、入力された動きデータからビート時刻を検出する。ここで、動きデータのビート時刻は反復的な動きの方向又は強度が変化する時刻である、と定義する。例えば、ダンスなどの動きでは拍子を打つタイミングが相当する。ビート抽出部111は、入力された動きデータを短時間の動きデータに分割し、分割した動き区間から主成分分析によってビート時刻を検出する。
以下、本実施形態に係るビート時刻検出方法を説明する。
[物理量変換ステップ]
物理量変換ステップでは、入力された動きデータにおいて、時刻tにおけるジョイント相対位置を算出する。ジョイント相対位置は、ルートに対するジョイントの相対的な位置である。
ここで、ジョイント相対位置の算出方法を説明する。
まず、人体スケルトン型角度情報データ内の基本ポーズデータとフレームデータを用いて、ジョイント位置を算出する。基本ポーズデータは、基本ポーズのときのルートの位置及び各ジョイントの位置、並びに各骨の長さなど、基本ポーズを特定する情報を有する。フレームデータは、ジョイント毎に、基本ポーズからの移動量の情報を有する。ここでは、移動量として角度情報を利用する。この場合、時刻tにおけるk番目のジョイントの位置p(t)は、(1)式および(2)式により算出される。p(t)は3次元座標で表される。なお、時刻tはフレームデータの時刻である。本実施形態では、時刻tを単に「フレームインデックス」として扱う。これにより、時刻tは、0,1,2,・・・,T−1の値をとる。Tは、動きデータに含まれるフレームの個数である。
Figure 0005778523
Figure 0005778523
但し、0番目(i=0)のジョイントはルートである。Raxis i−1,i(t)は、i番目のジョイントとその親ジョイント(「i−1」番目のジョイント)間の座標回転マトリックスであり、基本ポーズデータに含まれる。各ジョイントにはローカル座標系が定義されており、座標回転マトリックスは親子関係にあるジョイント間のローカル座標系の対応関係を表す。R(t)は、i番目のジョイントのローカル座標系におけるi番目のジョイントの回転マトリックスであり、フレームデータに含まれる角度情報である。T(t)は、i番目のジョイントとその親ジョイント間の遷移マトリックスであり、基本ポーズデータに含まれる。遷移マトリックスは、i番目のジョイントとその親ジョイント間の骨の長さを表す。
次いで、時刻tにおける、ルートに対するk番目のジョイントの相対位置(ジョイント相対位置)p’(t)を(3)式により算出する。
Figure 0005778523
但し、proot(t)は時刻tにおけるルート(0番目のジョイント)の位置(p(t))である。
これにより、時刻tのフレーム「x(t)」は、「x(t)={p’(t),p’(t),・・・,p’(t)}」と表される。但し、Kは、ルートを除いたジョイントの個数である。
[データ分割ステップ]
データ分割ステップでは、ジョイント相対位置データを、一定時間の区間に分割する。データ分割ステップでは、各ジョイントのジョイント相対位置データ「p’(t)」に対して、それぞれデータ分割処理を行う。図4,図5にデータ分割処理の概念を示す。データ分割処理では、ジョイント相対位置データを一定時間(一定数のフレーム分に対応)の区間に分割する。分割区間の長さは、適宜、設定可能である。分割区間の長さは、例えば、1フレーム当たりの時間の60倍である。このとき、図4に示されるように、各区間が重複しないようにしてもよく、或いは、図5に示されるように、各区間が重複区間(オーバーラップ)を有するようにしてもよい。重複区間の長さは、適宜、設定可能である。重複区間の長さは、例えば、分割区間の長さの半分である。
[主成分分析ステップ]
主成分分析ステップでは、データ分割ステップによって分割されたジョイント相対位置データに対し、各区間で主成分分析処理を行う。ここで、時刻tのフレーム「x(t)」を用いて、一区間のデータ「X」を「X={x(t1),x(t2),・・・,x(tN)}と表す。但し、Nは区間長(区間内に含まれるフレームの個数)である。Xは、M行N列の行列である(但し、M=3×K)。
主成分分析処理では、Xに対して主成分分析処理を行い、Xを主成分空間へ変換する。
ここで、主成分分析方法を説明する。
まず、(4)式により、Xから平均値を除いたN行M列の行列Dを算出する。
Figure 0005778523
次いで、(5)式により、N行M列の行列Dに対して特異値分解(Singular Value Decomposition)を行う。
Figure 0005778523
但し、Uは、N行N列のユニタリ行列である。Σは、N行M列の負でない対角要素を降順にもつ対角行列であり、主成分空間の座標の分散を表す。Vは、M行M列のユニタリ行列であり、主成分に対する係数(principal component)である。
次いで、(6)式により、N行M列の行列Dを主成分空間へ変換する。M行N列の行列Yは、主成分空間の座標を表す。
Figure 0005778523
主成分分析ステップでは、区間毎に、主成分空間の座標を表す行列(主成分座標行列)Yと、主成分に対する係数の行列(主成分係数行列)Vをメモリに保存する。
なお、元空間の座標を表す行列Xと主成分座標行列Yは、(6)式と(7)式により相互に変換することができる。
Figure 0005778523
また、上位のr個の主成分によって、(8)式により変換することができる。
Figure 0005778523
但し、Vは、主成分係数行列V内の上位のr個の行から成るM行r列の行列である。Yは、主成分座標行列Y内の上位のr個の列から成るr行N列の行列である。Xは、復元されたM行N列の行列である。
なお、元空間の一部の自由度だけを主成分分析処理することも可能である。例えば、足の動きだけでビートを表現することができる場合には、足に関するジョイント相対位置データのみから生成したM’行N列の行列X’に対して、(4)式、(5)式及び(6)式により主成分分析処理を行う。
[主成分選択ステップ]
主成分選択ステップでは、各区間において、主成分座標行列Yから主成分を一つ選択する。
ここで、主成分選択方法を説明する。
(ユーザからの指定がない場合)
ユーザからの指定がない場合には、主成分座標行列Y内の第1主成分(主成分座標行列Yの第1行)を選択する。第1主成分は、一区間における時間関連性がより強いために、動きの変化を表現しており、一般的に、ビート時刻に関する十分な情報を有する。
(ユーザからの指定がある場合)
ユーザによって主成分が指定されている場合には、その指定された主成分(第k主成分(主成分座標行列Yの第k行)、1≦k≦K)を選択する。この場合、映像コンテンツ生成装置1には、動きデータと共に、主成分の指定情報が入力される。若しくは、予め主成分の指定情報を固定的に設定しておいてもよい。
なお、第1主成分以外の第n主成分(1<n≦K)が選択される場合の例としては、体の一部分の動きがビートを表現しているものなどが挙げられる。例えば、最も大きい動きが体の回転である場合において、足の着地がビートをよく表現しているとする。すると、足の動きを表す第k主成分がビート時刻に関する十分な情報を有する。
主成分選択ステップでは、区間毎に、選択した主成分を示す情報(例えば、主成分番号「k(kは1からKまでの自然数)」をメモリに保存する。
[主成分座標連結ステップ]
主成分座標連結ステップでは、主成分選択ステップによって選択された各区間の主成分の座標を、時系列に沿って連結する。この主成分座標連結処理では、連続する2つの区間の境界部分において、主成分の座標が滑らかに連結されるように、主成分の座標を調整する。
図6に、本実施形態に係る主成分座標連結処理を説明するための概念図を示す。本実施形態では、時系列に従って、先頭の区間から順番に主成分座標連結処理を行ってゆく。図6において、ある区間(前区間)までの主成分座標連結処理が終了している。そして、その前区間に対して、次の区間(当区間)を連結するための主成分座標連結処理を行う。この主成分座標連結処理では、前区間の主成分座標に対し、当区間の主成分座標が滑らかに連結されるように、当区間の主成分座標を調整する。この主成分座標の調整処理では、主成分選択ステップによって選択された当区間の主成分座標(元座標)に対し、符号反転又は座標シフトを行う。
ここで、主成分座標連結処理を説明する。
主成分座標連結ステップS11:主成分選択ステップによって選択された当区間の主成分の座標(第k主成分の元座標)Yに対し、当区間の主成分係数行列Vから、第k主成分に対する係数Vを取得する。さらに、メモリに保存されている前区間の主成分係数行列Vから、第k主成分に対する係数V preを取得する。
主成分座標連結ステップS12:当区間に係る第k主成分に対する係数Vと前区間に係る第k主成分に対する係数V preとの関係に基づいて、当区間に係る第k主成分の元座標を符号反転するか否かを判定する。この符号反転の判定は、(9)式により行う。(9)式による判定の結果、符号反転する場合には、当区間の第k主成分の元座標Yに対して符号反転を行うと共に、当区間の主成分係数行列Vに対しても符号反転を行う。一方、(9)式による判定の結果、符号反転しない場合には、当区間の第k主成分の元座標Y及び当区間の主成分係数行列Vともに、そのままの値を主成分座標連結ステップS12の処理結果とする。
Figure 0005778523
但し、Yは、当区間で選択された主成分の座標(第k主成分の元座標)である。Vは、当区間の主成分係数行列である。Vは、当区間に係る第k主成分に対する係数である。V preは、前区間に係る第k主成分に対する係数である。(V・V pre)は、VとV preの内積である。Y’は、当区間で選択された主成分の座標(第k主成分の元座標)Yに対する主成分座標連結ステップS12の処理結果である。V’は、当区間の主成分係数行列Vに対する主成分座標連結ステップS12の処理結果である。
主成分座標連結ステップS13:主成分座標連結ステップS12の処理結果の主成分座標Y’に対し、座標シフトを行う。
(区間のオーバーラップがない場合)
区間のオーバーラップがない場合(図4に対応)には、(10)式により座標シフトを行う。この場合、前区間の主成分座標行列Yから、前区間の第tNフレームにおける第k主成分の座標Y pre(tN)を取得する。
Figure 0005778523
但し、Y’(t1)は、ステップS12の処理結果の主成分座標Y’のうち、第t1フレームの座標である。Y”(t2)は、(10)式の最初の計算式の計算結果の座標Y”のうち、第t2フレームの座標である。
(10)式の最初の計算式の計算結果の座標Y”に対し、第t1フレームの座標Y”(t1)をY opt(t1)に置き換える。この置き換え後の座標Y”が、座標シフト結果の座標である。
(区間のオーバーラップがある場合)
区間のオーバーラップがある場合(図5に対応)には、(11)式により座標シフトを行う。この場合、前区間の主成分座標行列Yから、前区間の第(tN−Lol+1)フレームにおける第k主成分の座標Y pre(tN−Lol+1)と、前区間の第(tN−Lol+1+i)フレームにおける第k主成分の座標Y pre(tN−Lol+1+i)とを取得する。但し、i=1,2,・・・,Lolである。Lolは、前区間と当区間で重複している区間(オーバーラップ)の長さである。
Figure 0005778523
但し、Y’(t1)は、ステップS12の処理結果の主成分座標Y’のうち、第t1フレームの座標である。Y”(t1+i)は、(11)式の最初の計算式の計算結果の座標Y”のうち、第(t1+i)フレームの座標である。
(11)式の最初の計算式の計算結果の座標Y”に対し、第(t1+i)フレームの座標Y”(t1+i)をY opt(t1+i)に置き換える。この置き換え後の座標Y”が、座標シフト結果の座標である。
主成分座標連結ステップS14:当区間において、主成分座標連結ステップS12の処理結果の座標Y’に対して、主成分座標連結ステップS13の処理結果の座標Y opt(t1)又はY opt(t1+i)を反映する。これにより、当区間の主成分座標は、前区間の主成分座標に対して滑らかに連結されるものとなる。
主成分座標連結ステップでは、上記した主成分座標連結処理を最初の区間から最後の区間まで行う。これにより、連結後の全区間の主成分座標「y(t)、t=0,1,2,・・・,T−1」が求まる。但し、Tは、動きデータに含まれるフレームの個数である。
[ビート抽出ステップ]
ビート抽出ステップでは、主成分座標連結ステップによって算出された連結後の全区間の主成分座標y(t)から、極値b(j)を算出する。この算出結果の極値b(j)がビートに対応する。ビートの集合Bは、(12)式で表される。
Figure 0005778523
但し、Jは、ビートの個数である。
なお、ビートの集合の算出は、上記した方法以外の方法でも可能である。
例えば、ビート抽出ステップでは、主成分座標連結ステップによって算出された連結後の全区間の主成分座標から自己相関値を算出し、該自己相関値の極値b(j)をビートに対応するものとして算出することができる。
また、ビート抽出ステップでは、主成分座標連結ステップによって、連結後の隣区間の主成分係数から算出した内積((9)式によるもの)の自己相関値を算出し、該自己相関値の極値b(j)をビートに対応するものとして算出することができる。
[後処理ステップ]
後処理ステップでは、ビート抽出ステップによって算出されたビート集合Bから、ビート時刻を検出する。
ここで、ビート時刻検出処理を説明する。
まず、ビート集合B内の各極値間を、(13)式により正弦曲線(sinusoid)で近似する。
Figure 0005778523
但し、sj−1(t)は、(j−1)番目の極値b(j−1)からj番目の極値b(j)までの区間の正弦近似値である。tはフレームに対応する時刻であり、「t=0,1,2,・・・,T−1」である。Tは、動きデータに含まれるフレームの個数である。
図7に、(13)式による正弦近似処理の概念図を示す。図7において、1番目の極値b(1)から2番目の極値b(2)までの区間a1(j=2の場合の区間)は、s(t)で近似される。同様に、2番目の極値b(2)から3番目の極値b(3)までの区間a2(j=3の場合の区間)はs(t)で近似され、3番目の極値b(3)から4番目の極値b(4)までの区間a3(j=4の場合の区間)はs(t)で近似され、4番目の極値b(4)から5番目の極値b(5)までの区間a4(j=5の場合の区間)はs(t)で近似される。
次いで、正弦近似値「sj−1(t)、j=2,3,・・・,J」に対してフーリエ変換を行う。そのフーリエ変換処理には、所定のFFTポイント数Lのハン窓を用いたFFT(Fast Fourier Transform)演算器を使用する。そして、そのフーリエ変換の結果に基づいて、該フーリエ変換に係る周波数範囲のうちから最大の成分を有する周波数(最大成分周波数)fmaxを検出する。そして、ビート間隔TBを「TB=Fs÷fmax」なる計算式により算出する。但し、Fsは、1秒当たりのフレーム数である。
次いで、正弦近似値「sj−1(t)、j=2,3,・・・,J」と、(14)式で定義される基準値「s’(t)」との間の最大相関初期位相を(15)式により算出する。
Figure 0005778523
Figure 0005778523
次いで、(16)式により、ビート時刻eb(j)の集合EBを算出する。但し、EJは、ビート時刻eb(j)の個数である。
Figure 0005778523
以上が本実施形態に係るビート時刻検出方法の説明である。
ビート抽出部111は、各動きデータについて、ビート時刻eb(j)の集合EBを属性指定部112へ出力する。このとき、ビート抽出部111が主成分分析処理を行った区間(主成分分析区間)とビート時刻eb(j)の対応関係を表す情報も属性指定部112へ出力する。これにより、あるビート時刻がどの主成分分析区間に属するのかが分かる。
[属性指定部]
属性指定部は、各動きデータについて、ビート抽出部111が算出した集合EBに含まれるビート時刻eb(j)に基づいて各ビート間に属性値を設定する。
まず、動きデータベース2−1の動きデータに対しては、全てのビート間に属性値「0」を設定する。一方、動きデータベース2−2の動きデータに対しては、ラベルに応じた所定の属性値を設定する。図8には、動きデータベース2−2の動きデータに付与されているラベルに対応する属性値が例示されている。図8の例では、ラベル「A」,「B」,「C」,・・・に対応する適切な属性値「10」,「20」,「30]・・・が予め準備されている。
[モーショングラフ生成部]
モーショングラフ生成部113は、各動きデータの、ビート時刻eb(j)の集合EB及び属性値を用いて、モーショングラフを生成する。モーショングラフについては非特許文献2に開示されている。モーショングラフは、ノード(頂点)群とノード間の連結関係を表すエッジ(枝)群とエッジの重みから構成される。エッジには双方向と単方向の2種類がある。
図9は、本実施形態に係るモーショングラフ生成方法の流れを示す概念図である。以下、図9を参照して、モーショングラフを生成する手順を説明する。
[ビートフレーム抽出ステップ]
まず、ビートフレーム抽出ステップでは、全ての動きデータから、ビート時刻に該当するフレーム(ビートフレーム)を全て抽出する。この抽出されたビートフレームの集合をFiALL と表す。
[連結性算出ステップ]
次いで、連結性算出ステップでは、集合FiALL に含まれる全ビートフレームを対象とした全てのペアについて、(17)式又は(18)式により距離を算出する。あるビートフレームF とあるビートフレームF との距離をd(F ,F )と表す。
Figure 0005778523
但し、qi,kはビートフレームF のk番目のジョイントの四元数(quaternion)である。wはk番目のジョイントに係る重みである。重みwは予め設定される。
Figure 0005778523
但し、pi,kはビートフレームF のk番目のジョイントのルートに対する相対位置のベクトルである。つまり、pi,kは、ルートの位置と方向は考えずに算出したビートフレームF のk番目のジョイントの位置のベクトルである。
なお、ビートフレーム間の距離は、対象ビートフレームにおけるポーズを構成する各ジョイントの位置、速度、加速度、角度、角速度、角加速度などの物理量の差分の重み付き平均として算出することができる。
次いで、連結性算出ステップでは、(19)式により、連結性を算出する。あるビートフレームF とあるビートフレームF との連結性をc(F ,F )と表す。
Figure 0005778523
但し、d(F )はビートフレームF の前フレームと後フレームの間の距離である((17)式又は(18)式と同様の計算式で算出する)。THは予め設定される閾値である。
連結性c(F ,F )が1である場合、ビートフレームF のポーズとビートフレームF のポーズは似ていると判断できる。連結性c(F ,F )が0である場合、ビートフレームF のポーズとビートフレームF のポーズは似ているとは判断できない。
[モーショングラフ構築ステップ]
次いで、モーショングラフ構築ステップでは、まず、集合FiALL に含まれる全ビートフレームをそれぞれ、モーショングラフのノードに設定する。従って、モーショングラフのノード数の初期値は、集合FiALL に含まれるビートフレームの個数に一致する。
次いで、連結性c(F ,F )が1である場合、ビートフレームF のノードとビートフレームF のノードの間に双方向のエッジを設ける。連結性c(F ,F )が0である場合には、ビートフレームF のノードとビートフレームF のノードの間に双方向のエッジを設けない。
次いで、同じ動きデータの中で隣接するビートフレーム間には、単方向のエッジを設ける。単方向のエッジは、時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう。
次いで、双方向のエッジに対する重みを算出する。ビートフレームF のノードとビートフレームF のノードの間の双方向エッジに対する重みは、(20)式により算出する。
Figure 0005778523
次いで、単方向のエッジに対する重みを算出する。ビートフレームF のノードとビートフレームF のノードの間の単方向エッジに対する重みには、該当する動きデータの属性値を使用する。
次いで、双方向エッジの両端のノード(ビートフレーム)に係る動きデータに対して、ブレンディング(blending)処理を行う。ブレンディング処理は、双方向エッジの方向ごとに、それぞれ行う。従って、一つの双方向エッジに対して、図10(1),(2)に示されるように、2つのブレンディング処理を行うことになる。図10は、ビートフレームiのノードとビートフレームjのノードの間の双方向エッジに係るブレンディング処理の概念図である。図10(1)はビートフレームiのノードからビートフレームjのノードへ向かう方向に係るブレンディング処理を表し、図10(2)はビートフレームjのノードからビートフレームiのノードへ向かう方向に係るブレンディング処理を表す。
図11は、ブレンディング処理を説明する概念図であり、図10(1)に対応している。ここでは、図11を参照し、図10(1)に示されるビートフレームiのノードからビートフレームjのノードへ向かう方向に係るブレンディング処理を例に挙げて説明する。
ブレンディング処理では、ビートフレームiを有する動きデータ1とビートフレームjを有する動きデータ2に対して、動きのつながりが不自然にならないように、両者の動きデータの接続部分を混合した補間データ(ブレンディング動きデータ)1_2を生成する。本実施形態では、一定時間分のフレームを使用しクォータニオンによる球面線形補間を利用して連結部分を補間する。具体的には、動きデータ1と動きデータ2を接続する接続区間(区間長m、但し、mは所定値)のブレンディング動きデータ1_2を、動きデータ1のうち最後の区間長mのデータ1_mと動きデータ2のうち最初の区間長mのデータ2_mを用いて生成する。このとき、接続区間の区間長mに対する接続区間の先頭からの距離uの比(u/m)に応じて、データ1_mのうち距離uに対応するフレームiとデータ2_mのうち距離uに対応するフレームjを混合する。具体的には、(21)式および(22)式により、ブレンディング動きデータ1_2を構成する各フレームを生成する。なお、(21)式は、ある一つの骨についての式となっている。
Figure 0005778523
Figure 0005778523
但し、mはブレンディング動きデータ1_2を構成するフレーム(ブレンディングフレーム)の総数(所定値)、uはブレンディングフレームの先頭からの順番(1≦u≦m)、q(k,u)はu番目のブレンディングフレームにおける第k骨の四元数、q(k,i)はフレームiにおける第k骨の四元数、q(j)はフレームjにおける第k骨の四元数、である。但し、ルートにはブレンディングを行わない。なお、(22)式はslerp(spherical linear interpolation)の算出式である。
ブレンディング動きデータ1_2は、動きデータ1と動きデータ2の接続部分のデータとする。
次いで、モーショングラフからデッドエンド(Dead end)を除去する。デッドエンドとは次数が1であるノードのことである。なお、モーショングラフにおいて、ノードに接続するエッジの数のことを次数という。また、ノードに入ってくるエッジの数のことを入次数、ノードから出て行くエッジの数のことを出次数という。
モーショングラフからデッドエンドを除去すると、新たなデッドエンドが発生する可能性があるが、デッドエンドがなくなるまでデッドエンド除去を繰り返す。
以上のモーショングラフ構築ステップによって、モーショングラフのデータが生成される。モーショングラフデータは、モーショングラフが有するノード(ビートフレーム)の情報と、ノード間のエッジ(双方向エッジまたは単方向エッジ)の情報(エッジの重みを含む)と、双方向エッジに対応する2方向分のブレンディング動きデータとを有する。
モーショングラフ生成部113は、生成したモーショングラフデータをコンテンツ生成部14へ出力する。
以上が動き解析部11に係る説明である。
[音楽解析部]
映像コンテンツ生成装置1には、映像コンテンツ生成対象の楽曲の音楽データが楽曲ファイル3から入力される。音楽解析部13は、映像コンテンツ生成対象の楽曲の音楽データを解析して音楽特徴量を取得する。本実施形態では、非特許文献1に記載の技術を用いて、音楽データから、ビート間隔およびビート時刻を音楽特徴量として取得する。音楽解析部13は、音楽特徴量(ビート間隔およびビート時刻)をコンテンツ生成部14へ出力する。
[入力部]
入力部12には、楽曲ファイル3からの映像コンテンツ生成対象の楽曲の音楽データと、動きデータベース2−2からの動きデータとが入力される。動きデータベース2−2から入力される各動きデータにはラベルが付与されている。図12は、図1に示す入力部12の構成を示すブロック図である。入力部12は、再生部121と動き候補提示部122と操作部123と属性値設定部124を有する。
再生部121は、映像コンテンツ生成対象の楽曲の音楽データを再生する。動き候補提示部122は、動きデータベース2−2の動きデータをユーザに提示する。操作部123は、ユーザが、音楽データが再生された音楽を聴きながら、該音楽の再生している時間的な位置を示す再生時刻と、動き候補提示部122で提示された動きデータの中から再生時刻に対応付ける動きデータとを、指定するための手段を有する。
属性値設定部124は、ある再生時刻に対応付けられた動きデータに付与されているラベルに応じて、当該再生時刻の属性値を設定する。まず、ユーザが、再生された音楽を聴きながら、任意のタイミングで操作部123の再生時刻指定手段を操作すると、属性値設定部124は、該操作時刻を再生時刻とする。次いで、ユーザが、動き候補提示部122で提示された動きデータの中から、任意の動きデータを操作部123の動きデータ指定手段で指定すると、属性値設定部124は、該指定された動きデータを該再生時刻に対応付ける。次いで、属性値設定部124は、該再生時刻に対応付けられた動きデータに付与されているラベルに対応する所定の属性値を、当該再生時刻から一定時間までの区間に対する属性値とする。図13には、動きデータに付与されているラベルに対応する、音楽データの再生時刻の属性値が例示されている。図13の例では、ラベル「指定なし」,「A」,「B」,「C」,・・・に対応する属性値「0」,「10」,「20」,「30]・・・が予め準備されている。属性値設定部124は、音楽データにおいて、属性値を設定しなかった区間に対して、属性値「0」を設定する(これは、ラベル「指定なし」に対応する処理である)。
入力部12は、映像コンテンツ生成対象の楽曲の音楽データに関し、再生時刻と動きデータと属性値の組合せを示す情報をコンテンツ生成部14に出力する。
[コンテンツ生成部]
まず、コンテンツ生成部14は、モーショングラフデータの中から、映像コンテンツ生成対象の楽曲とユーザの指定に合ったモーショングラフデータを選択する。具体的には、コンテンツ生成部14は、モーショングラフデータを用いて、動きデータと音楽データを対応付ける同期情報を生成する。以下、同期情報生成方法を説明する。
[始点選択ステップ]
始点選択ステップでは、モーショングラフ内のノードから、映像コンテンツの動きの始点となるノードの候補(始点候補ノード)を選択する。始点候補ノードには、モーショングラフ内のノードであって、各動きデータの最初のビートフレームに対応するノードを全て抽出する。従って、始点候補ノードは、通常、複数ある。
[最適パス探索ステップ]
次いで、最適パス探索ステップでは、モーショングラフ上の始点候補ノードからの最適パスを始点候補ノード毎に探索し、各始点候補ノードに係る最適パスの中から最小コストのパスを選択する。このパス探索方法には、非特許文献3に記載されるパス探索技術を用いる。非特許文献3に記載されるパス探索技術は、ある始点からダイナミックプログラミングで最適なパスを探索するものである。以下、最適パス探索ステップの詳細を説明する。
まず、ある始点候補ノードuからモーショングラフ上の全てのノードiまでの各パスのコストを(23)式により算出する。始点候補ノードuに係る最初の最短パス算出操作は第1回の操作である。
Figure 0005778523
但し、shortestPath(i,1)は、第1回の最短パス算出操作による、始点候補ノードuからノードiまでのパスのコストである。edgeCost(u,i)はノードuからノードiまでのエッジコストである。エッジコストの計算式は(24)式である。エッジコストは毎回計算される。
Figure 0005778523
但し、w(i,j)はエッジの重みであり、I(k)は音楽のビートkとビートk+1間の属性値であり、wbiは双方向エッジの重みであり、E1は単方向エッジの集合であり、E2は双方向エッジの集合である。
次いで、第2回目以降の第k回の最短パス算出操作では、(25)式により、始点候補ノードuからモーショングラフ上の全てのノードvまでの最適パスのコストを算出する。
Figure 0005778523
但し、Vはモーショングラフ上のノードの集合である。shortestPath(v,k)は、第k回の最短パス算出操作による、始点候補ノードuからノードvまでの最適パスのコストである。edgeCost(i,v)はノードiからノードvまでのエッジコストである。
この(25)式を用いた第2回目以降の最短パス算出操作は、第K回まで繰り返し行う。但し、Kは映像コンテンツ生成対象の楽曲のビート数である。映像コンテンツ生成対象の楽曲のビート数Kは、映像コンテンツ生成対象の楽曲のビート時刻の総数に等しい。映像コンテンツ生成対象の楽曲のビート時刻は、音楽解析部13からコンテンツ生成部14に入力されるので、その入力された数を数えることによってビート数Kを求めることができる。
上記(23)式および(25)式を用いた最短パス算出操作を、全ての始点候補ノードに対してそれぞれに行う。次いで、全ての始点候補ノードに係る第K回の最短パス算出操作結果から、(26)式により、最小コストのパスを選択する。
Figure 0005778523
但し、shortestPath(v,K)は、第K回の最短パス算出操作による、始点候補ノードuからノードvまでの最適パスのコストである。shortestPath(K)は、最小コストのパス(始点ノードuから終点ノードvまでのパス)のコストである。
最適パス探索ステップでは、上記(26)式によって選択された最小コストのパスを探索結果の最適パスとする。この最適パスに含まれるK個のノードは、1個の始点ノードuと、(K−2)個の経由ノードiと、1個の終点ノードvである。ここで、始点候補ノードは、通常、複数あるので、上記探索結果の最適パスは始点候補ノードの数と同じ数だけある。それら最適パスの中から、コストが一番小さいパスとその始点を最終結果の最適パスとして選択する。この最終結果の最適パスに含まれるK個のノードは、1個の最適始点ノードuoptと、(K−2)個の経由ノードioptと、1個の終点ノードvoptである。
[同期情報生成ステップ]
同期情報生成ステップでは、最適パス探索ステップの最終結果の最適パスに従って、動きデータと音楽データを対応付ける同期情報を生成する。以下、同期情報生成ステップの詳細を説明する。
まず、最適パス探索ステップの最終結果の最適パスに含まれるK個のノード(1個の始点ノードuoptと、(K−2)個の経由ノードioptと、1個の終点ノードvopt)に対応するK個のビートフレーム(1個の始点ビートフレームと、(K−2)個の経由ビートフレームと、1個の終点ビートフレーム)について、最適パスの順番で隣り合うビートフレーム間の時間を求める。さらに、各隣接ビートフレーム間のフレームレートを求める。また、映像コンテンツ生成対象の楽曲のK個のビートについて、時間的に隣り合うビート間の時間を求める。
次いで、楽曲のビート間隔に動きのビート間隔を等しくするように、(27)式により、動きのフレームレートを増減させる調整を行う。図14に、動きのフレームレートを調整する処理の概念図を示す。(27)式は、n番目のビートフレームと(n+1)番目のビートフレームの間のフレームレートを算出するための計算式である(但し、nは1から(K−1)までの自然数である)。
Figure 0005778523
但し、tmotion node2は隣接ビートフレームのうち先のビートフレームの時刻、tmotion node1は該隣接ビートフレームのうち後のビートフレームの時刻である。tmusic node2は楽曲の隣接ビートのうち先のビートの時刻、tmusic node1は該隣接ビートのうち後のビートの時刻である。rate_oldは元のフレームレートである。rate_newは調整後のフレームレートである。
コンテンツ生成部14は、上記した同期情報生成方法によって、映像コンテンツの動きの始点となる1個の始点ビートフレームと、映像コンテンツの動きの終点となる1個の終点ビートフレームと、始点ビートフレームから終点ビートフレームに至るまでに経由する(K−2)個の経由ビートフレームと、各隣接ビートフレーム間の調整後のフレームレートとを得る。コンテンツ生成部14は、始点ビートフレームの情報と経由ビートフレームの情報と終点ビートフレームの情報と調整後のフレームレートの情報と該ビートフレーム間のブレンディング動きデータを同期情報として映像データ生成部15に出力する。なお、ブレンディング動きデータは、最適パス探索ステップの探索結果の最適パスに沿った方向のデータのみでよい。
[映像データ生成部]
映像データ生成部15は、コンテンツ生成部14から入力された同期情報に基づいて、映像コンテンツ生成対象の楽曲の音楽データとともに再生される映像データを生成する。具体的には、始点ビートフレームから経由ビートフレームを経由して終点ビートフレームに至るまでに必要な動きデータを動きデータベース2−1,2−2から取得する。
次いで、取得した動きデータ間を連結する部分(双方向エッジに対応する部分)に対してブレンディング動きデータで置換する。このとき、動きデータの連結部分において、動きデータのルート座標と方向の平行移動を行う。動きデータが連結される際に各動きデータのルート座標は、各動きデータに独自のローカル座標のままである。このままでは、連結後の動きデータの再生画像は、ルート座標が整合されていないために、スムーズな動きにならない。このため、動きデータの連結部分において、後の動きデータのルート座標を前の動きデータの最後のフレームで表現している位置へオフセットする。これにより、動きデータの連結部分における補間処理を行い、連結後の動きデータの再生画像がスムーズな動きとなるようにする。同様に、動きデータが連結される際に各動きデータのルート方向は、後の動きデータのルート方向を前の動きデータの最後のフレームで表現している方向へオフセットする。
次いで、連結された動きデータに対して、各隣接ビートフレーム間の調整後のフレームレートの情報を付加する。映像データ生成部15は、この生成した映像データをコンテンツ表示部16に出力する。
[コンテンツ表示部]
コンテンツ表示部16は、映像データ生成部15から入力された映像データを、映像コンテンツ生成対象の楽曲の音楽データとともに再生する。このとき、コンテンツ表示部16は、映像データに付加されたフレームレートの情報に従って、隣接ビートフレーム間のフレームレートを設定する。これにより、映像データと音楽データは、互いのビートが同期して再生される。
なお、コンテンツ表示部16は、映像コンテンツ生成装置1とは独立した装置であってもよい。
なお、本実施形態に係る映像コンテンツ生成装置1は、専用のハードウェアにより実現されるものであってもよく、あるいはパーソナルコンピュータ等のコンピュータシステムにより構成され、図1に示される映像コンテンツ生成装置1の各部の機能を実現するためのプログラムを実行することによりその機能を実現させるものであってもよい。
また、その映像コンテンツ生成装置1には、周辺機器として入力装置、表示装置等が接続されるものとする。ここで、入力装置とはキーボード、マウス等の入力デバイスのことをいう。表示装置とはCRT(Cathode Ray Tube)や液晶表示装置等のことをいう。
また、上記周辺機器については、映像コンテンツ生成装置1に直接接続するものであってもよく、あるいは通信回線を介して接続するようにしてもよい。
また、図1に示す映像コンテンツ生成装置1が行う各ステップを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、映像コンテンツ生成処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、DVD(Digital Versatile Disk)等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
以上、本発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。
例えば、上述した実施形態では人の動きデータを扱ったが、本発明は各種の物体の動きデータに適用することができる。ここで、物体とは、人、動物、植物その他の生物、及び、生物以外の物(ロボット等)を含む。
また、本発明は、3次元コンテンツの生成に利用することができる。
1…映像コンテンツ生成装置、11…動き解析部、12…入力部、13…音楽解析部、14…コンテンツ生成部、15…映像データ生成部、16…コンテンツ表示部、111…ビート抽出部、112…属性指定部、113…モーショングラフ生成部、121…再生部、122…動き候補提示部、123…操作部、124…属性値設定部

Claims (7)

  1. 動きデータベースに格納される動きデータについてのモーショングラフと、
    映像コンテンツ生成対象の楽曲の音楽データから取得されたビート間隔およびビート時刻から成る音楽特徴量と、
    ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻と、前記動きデータベース内の動きデータの中から該再生時刻に対応付ける動きデータとを、指定する操作部と、
    前記操作部により指定された再生時刻から一定時間までの前記音楽データの区間に対して前記操作部により指定された動きデータの予め準備された属性値を設定する属性値設定部と、
    前記モーショングラフ及び前記音楽特徴量を使用して前記音楽データに対応付ける動きデータの順列を探索するコンテンツ生成部と、を備え、
    前記モーショングラフは、
    前記動きデータベース内の各動きデータの各ビートフレームに対応するノードと、
    一の動きデータの中で連続するビートフレーム間に関する時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう単方向エッジであって当該一の動きデータの予め準備された属性値を重みに有する単方向エッジと、
    ビートフレーム間の連結性に基づいて設けられた当該ビートフレーム間に対応するノード間の双方向エッジであって当該ビートフレーム間の連結性を重みに有する双方向エッジと、を有し、
    前記コンテンツ生成部は、前記モーショングラフにおいて、単方向エッジの重みと前記音楽データの連続するビート間の属性値とが一致しているかどうかと、双方向エッジを選択する時の該双方向エッジの重みと、を用いて定義されたコスト関数が最小となるパスを最適パスとする、
    映像コンテンツ生成装置。
  2. 前記動きデータベース内の動きデータ毎にビート時刻を検出し、検出したビート時刻に基づいて各ビートフレーム間に当該ビートフレームの動きデータの予め準備された属性値を設定し、検出したビート時刻と設定した属性値と前記動きデータベース内の動きデータとを使用して前記モーショングラフを生成する動き解析部、
    を備えた請求項1に記載の映像コンテンツ生成装置。
  3. 前記音楽データを再生する再生部と、
    動きデータを区別なく扱う第1の動きデータベースと動きデータ毎にラベルを付与している第2の動きデータベースとのうち前記第2の動きデータベース内の動きデータをユーザに提示する動き候補提示部と、
    を備え、
    前記操作部は、ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻を指定する再生時刻指定手段と、ユーザが、前記動き候補提示部で提示された動きデータの中から前記再生時刻指定手段により指定された再生時刻に対応付ける動きデータを指定する動きデータ指定手段と、を有し、
    前記動き解析部は、前記第1の動きデータベースの動きデータに対しては全てのビートフレーム間に属性値「0」を設定し、前記第2の動きデータベースの動きデータに対してはラベルに応じた所定の属性値をビートフレーム間に設定し、
    前記属性値設定部は、前記再生時刻指定手段により指定された再生時刻から一定時間までの前記音楽データの区間に対して前記動きデータ指定手段により指定された動きデータのラベルに対応する属性値を設定し、属性値を設定しなかった区間に対して属性値「0」を設定する、
    請求項2に記載の映像コンテンツ生成装置。
  4. 前記音楽データからビート間隔およびビート時刻を取得する音楽解析部、
    を備えた請求項1から3のいずれか1項に記載の映像コンテンツ生成装置。
  5. 前記コンテンツ生成部の探索結果の最適パスに対応する動きデータを用いて、前記音楽データとともに再生される映像データを生成する映像データ生成部と、
    前記生成された映像データを前記音楽データとともに再生するコンテンツ表示部と、
    を備えた請求項1から4のいずれか1項に記載の映像コンテンツ生成装置。
  6. 映像コンテンツ生成装置が、動きデータベースに格納される動きデータについてのモーショングラフと、映像コンテンツ生成対象の楽曲の音楽データから取得されたビート間隔およびビート時刻から成る音楽特徴量と、を備え、
    ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻と、前記動きデータベース内の動きデータの中から該再生時刻に対応付ける動きデータとを、指定する操作ステップと、
    前記映像コンテンツ生成装置が、前記操作ステップにより指定された再生時刻から一定時間までの前記音楽データの区間に対して前記操作ステップにより指定された動きデータの予め準備された属性値を設定する属性値設定ステップと、
    前記映像コンテンツ生成装置が、前記モーショングラフ及び前記音楽特徴量を使用して前記音楽データに対応付ける動きデータの順列を探索するコンテンツ生成ステップと、を含む映像コンテンツ生成方法であり、
    前記モーショングラフは、
    前記動きデータベース内の各動きデータの各ビートフレームに対応するノードと、
    一の動きデータの中で連続するビートフレーム間に関する時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう単方向エッジであって当該一の動きデータの予め準備された属性値を重みに有する単方向エッジと、
    ビートフレーム間の連結性に基づいて設けられた当該ビートフレーム間に対応するノード間の双方向エッジであって当該ビートフレーム間の連結性を重みに有する双方向エッジと、を有し、
    前記コンテンツ生成ステップにおいて、前記映像コンテンツ生成装置は、前記モーショングラフにおいて、単方向エッジの重みと前記音楽データの連続するビート間の属性値とが一致しているかどうかと、双方向エッジを選択する時の該双方向エッジの重みと、を用いて定義されたコスト関数が最小となるパスを最適パスとする、
    映像コンテンツ生成方法。
  7. 動きデータベースに格納される動きデータについてのモーショングラフと、映像コンテンツ生成対象の楽曲の音楽データから取得されたビート間隔およびビート時刻から成る音楽特徴量と、を有するコンピュータに、
    ユーザが、前記音楽データが再生された音楽の再生している時間的な位置を示す再生時刻と、前記動きデータベース内の動きデータの中から該再生時刻に対応付ける動きデータとを、指定する操作ステップと、
    前記操作ステップにより指定された再生時刻から一定時間までの前記音楽データの区間に対して前記操作ステップにより指定された動きデータの予め準備された属性値を設定する属性値設定ステップと、
    前記モーショングラフ及び前記音楽特徴量を使用して前記音楽データに対応付ける動きデータの順列を探索するコンテンツ生成ステップと、を実行させるためのコンピュータプログラムであり、
    前記モーショングラフは、
    前記動きデータベース内の各動きデータの各ビートフレームに対応するノードと、
    一の動きデータの中で連続するビートフレーム間に関する時間的に前のビートフレームのノードから後のビートフレームのノードへ向かう単方向エッジであって当該一の動きデータの予め準備された属性値を重みに有する単方向エッジと、
    ビートフレーム間の連結性に基づいて設けられた当該ビートフレーム間に対応するノード間の双方向エッジであって当該ビートフレーム間の連結性を重みに有する双方向エッジと、を有し、
    前記コンテンツ生成ステップは、前記モーショングラフにおいて、単方向エッジの重みと前記音楽データの連続するビート間の属性値とが一致しているかどうかと、双方向エッジを選択する時の該双方向エッジの重みと、を用いて定義されたコスト関数が最小となるパスを最適パスとする、
    コンピュータプログラム。
JP2011184087A 2011-08-25 2011-08-25 映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラム Expired - Fee Related JP5778523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011184087A JP5778523B2 (ja) 2011-08-25 2011-08-25 映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011184087A JP5778523B2 (ja) 2011-08-25 2011-08-25 映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013045367A JP2013045367A (ja) 2013-03-04
JP5778523B2 true JP5778523B2 (ja) 2015-09-16

Family

ID=48009204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011184087A Expired - Fee Related JP5778523B2 (ja) 2011-08-25 2011-08-25 映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5778523B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210098239A (ko) * 2020-01-31 2021-08-10 삼성전자주식회사 콘텐츠를 형성하기 위한 전자 장치 및 그의 동작 방법
JP2023160548A (ja) * 2022-04-22 2023-11-02 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3384314B2 (ja) * 1997-12-02 2003-03-10 ヤマハ株式会社 楽音応答画像生成システム、方法、装置、及び、そのための記録媒体
JP3849132B2 (ja) * 1998-05-20 2006-11-22 株式会社セガ ゲーム装置およびゲーム処理方法ならびにプログラムを記録した記録媒体
JP4198615B2 (ja) * 2004-02-23 2008-12-17 株式会社アイスター 舞踊手本作成用装置及びプログラム
JP4519883B2 (ja) * 2007-06-01 2010-08-04 株式会社コナミデジタルエンタテインメント キャラクター表示装置、キャラクター表示方法、ならびに、プログラム
JP5055223B2 (ja) * 2008-08-11 2012-10-24 Kddi株式会社 映像コンテンツ生成装置及びコンピュータプログラム
JP5238602B2 (ja) * 2009-05-14 2013-07-17 Kddi株式会社 映像コンテンツ生成装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JP2013045367A (ja) 2013-03-04

Similar Documents

Publication Publication Date Title
JP5238602B2 (ja) 映像コンテンツ生成装置及びコンピュータプログラム
JP5554677B2 (ja) 映像コンテンツ生成システム、映像コンテンツ生成装置及びコンピュータプログラム
JP7209333B2 (ja) 関節位置の取得方法及び装置、動作の取得方法及び装置
JP5055223B2 (ja) 映像コンテンツ生成装置及びコンピュータプログラム
US6552729B1 (en) Automatic generation of animation of synthetic characters
JP5604225B2 (ja) 人体姿勢推定装置、人体姿勢推定方法およびコンピュータプログラム
Egges et al. Personalised real-time idle motion synthesis
Jörg et al. Data-driven finger motion synthesis for gesturing characters
CN111179385A (zh) 一种舞蹈动画的处理方法及装置、电子设备、存储介质
Zhang et al. Motion prediction of beating heart using spatio-temporal LSTM
JP2012141881A (ja) 人体姿勢推定装置、人体姿勢推定方法、およびコンピュータプログラム
JP5778523B2 (ja) 映像コンテンツ生成装置、映像コンテンツ生成方法及びコンピュータプログラム
JP2023525185A (ja) 改良されたポーズ追跡を用いた運動学的インタラクションシステム
JP5124439B2 (ja) 多次元時系列データ分析装置及びコンピュータプログラム
JP5372823B2 (ja) 映像コンテンツ生成システム、メタデータ構築装置、映像コンテンツ生成装置、携帯端末、映像コンテンツ配信装置及びコンピュータプログラム
JP5162512B2 (ja) 多次元時系列データ分析装置及び多次元時系列データ分析プログラム
JP6059614B2 (ja) 仕草生成装置、仕草生成システム、仕草生成方法およびコンピュータプログラム
Kim et al. Reconstructing whole-body motions with wrist trajectories
JP6092698B2 (ja) 動きデータセグメント決定装置、動きデータセグメント決定方法およびコンピュータプログラム
JP5210401B2 (ja) 用例に基づく効率的なモーションデータベースのスタイリング
JP2010033163A (ja) 動きデータ検索装置及びコンピュータプログラム
JP6069152B2 (ja) 仕草生成装置、仕草生成方法およびコンピュータプログラム
WO2021187093A1 (ja) 画像処理装置、および、動画像データ生成方法
Mazzarino et al. Improving the believability of virtual characters using qualitative gesture analysis
Deb Synthesizing Human Actions with Emotion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20150225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150709

R150 Certificate of patent or registration of utility model

Ref document number: 5778523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees