JP4246516B2 - Human video generation system - Google Patents

Human video generation system Download PDF

Info

Publication number
JP4246516B2
JP4246516B2 JP2003037381A JP2003037381A JP4246516B2 JP 4246516 B2 JP4246516 B2 JP 4246516B2 JP 2003037381 A JP2003037381 A JP 2003037381A JP 2003037381 A JP2003037381 A JP 2003037381A JP 4246516 B2 JP4246516 B2 JP 4246516B2
Authority
JP
Japan
Prior art keywords
image
posture
hairstyle
clothing
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003037381A
Other languages
Japanese (ja)
Other versions
JP2004246729A (en
Inventor
准一 星野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2003037381A priority Critical patent/JP4246516B2/en
Publication of JP2004246729A publication Critical patent/JP2004246729A/en
Application granted granted Critical
Publication of JP4246516B2 publication Critical patent/JP4246516B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ビデオ映像から生成した人物の3次元モデルを用いた、人物動画像生成システムに関する。
【0002】
【技術的背景】
近年、実写映像とCGベースの仮想衣服を合成した映像を与える、仮想ファッションのシステムが提案されている(例えば、非特許文献1〜3)。
仮想衣服の生成方法として、さまざまな手法が提案されている。従来手法の例を図1に示す。図1において、(b)に示すような衣服のCGデータを作成し、(a)に示す人物の実写映像の3次元動作(3次元姿勢)を推定(例えば、特許文献1の手法による)して、その動作にあわせて、クロスシミュレーションを行なっている。
従来手法により合成された結果の画像は、例えば図1(c)のようになる。
しかし、これらの手法では、利用者の動作に連動した仮想衣服の生成に重点がおかれているため、合成結果がフォトリアル、ビデオリアルに見えるかどうかについてはあまり検討されていなかった。また、CGベースの仮想衣服を生成するために多くの時間や手間を必要とする。そのため、複雑なしわの生成や、複雑な衣服の合成をすることができないという問題や、合成結果が不自然に見えるという問題があった。
また、近年のインターネットの普及と、パーソナルコンピュータの性能の向上により、利用者の体型に合わせた3次元モデルに実写の仮想衣服を着用させ、インターネット経由で商品イメージを提示するサービスなども見られるようになってきた(例えば、非特許文献4〜5)。しかし、一定の姿勢の3次元モデルに仮想衣服を合成するために、実際に利用者が着用した時のイメージがつかみにくいという問題がある。
【0003】
【特許文献1】
特開2002−269580号公報
【非特許文献1】
中野敦,星野准一:"利用者の動作と連動する仮想ファッション",インタラクション2002,pp.202-208
【非特許文献2】
中野敦,星野准一:"対話型仮想ファッションシステム",第17回 NICOGRAPH 論文集,pp.155-160,2001
【非特許文献3】
星野准一,斉藤啓史:"ビデオ映像とCGの合成によるヴァーチャルファッションの実現",情報処理学会論文誌,Vol.42, No.5, pp.1182-1193, 2001
【非特許文献4】
日本ランズエンド(マイ・バーチャル・モデル)http://www.landsend.co.jp/
【非特許文献5】
デジタルファッション株式会社(HAOREBA)http://www.dressingsim.com/
【0004】
【発明が解決しようとする課題】
本発明は、上記の問題を解決するために、従来のようなCGベースの仮想衣服・ヘアスタイルを合成するのではなく、実写ベースの仮想衣服・ヘアスタイルを実写映像中の人物の動作に連動して合成し、リアルな映像を生成する手法を提案するものである。
【0005】
【課題を解決するための手段】
上記の課題を解決するために、本発明は、人物動画像生成システムであって、衣服画像を3次元姿勢の姿勢パラメータとともに格納した仮想衣服データベースを有し、ビデオ映像中の人物から、背景部分、肌色部分及び前記ビデオ映像中の人物の3次元姿勢を推定して人体頭部部分を削除することにより、衣服画像を抽出する衣服画像抽出手段と、前記衣服画像抽出手段により抽出した衣服画像を、前記推定した3次元姿勢の姿勢パラメータとともに、前記仮想衣服データベースに格納する仮想衣服データベース格納手段と、合成対象のビデオ映像中の人物の3次元姿勢の姿勢パラメータを推定する3次元姿勢推定手段と、前記3次元姿勢推定手段により推定した3次元姿勢の姿勢パラメータに対応する衣服画像を前記仮想衣服データベースから選択する衣服画像選択手段と、前記合成対象のビデオ映像中の人物に前記衣服画像選択手段により選択した衣服画像を合成する衣服画像合成手段とを備えることを特徴とする人物動画像生成システムである。
また、前記衣服画像選択手段は、前記3次元姿勢推定手段により推定した3次元姿勢の姿勢パラメータと一致する姿勢パラメータをもつ衣服画像を選択し、一致する衣服画像がない場合には類似する姿勢パラメータをもつ衣服画像を選択し、前記衣服画像合成手段は、前記衣服画像選択手段で類似する姿勢パラメータをもつ衣服画像を選択した場合に、選択した衣服画像を合成対象のビデオ映像中の人物の姿勢に合うように調整することを特徴としていてもよい。
前記衣服画像合成手段における前記調整は、衣服画像から衣服の境界を検出し、関節部分を中心に身体部位の回転軸を回転させることにより合成対象のビデオ映像中の人物の姿勢に合わせることを特徴としていてもよい。
【0006】
上記の人物動画像生成システムは、さらに、ヘアスタイル画像を3次元姿勢の姿勢パラメータとともに格納したヘアスタイルデータベースと、合成対象のビデオ映像中の人物の頭部の3次元姿勢の姿勢パラメータを推定する頭部3次元姿勢推定手段と、前記頭部3次元姿勢推定手段により推定した頭部の3次元姿勢の姿勢パラメータに対応するヘアスタイル画像を前記ヘアスタイルデータベースから選択するヘアスタイル画像選択手段と、前記合成対象のビデオ映像中の人物に前記ヘアスタイル画像選択手段により選択したヘアスタイル画像を合成するヘアスタイル画像合成手段とを備えることを特徴とする人物動画像生成システムであってもよい。
この人物動画像生成システムは、さらに、ビデオ映像中の人物からヘアスタイル画像を抽出するヘアスタイル画像抽出手段と、前記ヘアスタイル画像抽出手段により抽出したヘアスタイル画像を前記ヘアスタイルデータベースに格納するヘアスタイルデータベース格納手段とを備え、前記ヘアスタイル画像抽出手段は、前記頭部3次元姿勢推定手段を用いて前記ビデオ映像中の人物の頭部の3次元姿勢の姿勢パラメータを推定し、顔領域を削除することによりヘアスタイル画像を抽出し、前記ヘアスタイルデータベース格納手段は、ヘアスタイル画像とともに、前記推定した頭部の3次元姿勢の姿勢パラメータを格納し、前記ヘアスタイル画像選択手段は、前記頭部3次元姿勢推定手段により推定した3次元姿勢の姿勢パラメータと一致する姿勢パラメータをもつヘアスタイル画像を選択し、一致するヘアスタイル画像がない場合には類似する姿勢パラメータをもつヘアスタイル画像を選択することを特徴とする人物動画像生成システムであってもよい。
また、前記頭部3次元姿勢推定手段は、ビデオ映像中の人物の画像と、頭部の3次元モデルを2次元射影変換したテンプレート画像とをマッチングして顔領域を検出することにより、ビデオ映像中の人物の頭部の3次元姿勢の姿勢パラメータを推定することを特徴としていてもよい。
また、前記衣服画像合成手段および前記ヘアスタイル画像合成手段は、アルファブレンドにより衣服画像およびヘアスタイル画像の輪郭部分をぼかして自然な輪郭を得た後に合成を行なうことを特徴としていてもよい。
また、上記の人物動画像生成システムをコンピュータシステムに構成させるプログラムも、本発明である。
【0007】
【発明の実施の形態】
本発明の人物動画像生成システムでは、上述した従来技術の問題点を解決するために、CG衣服を作成してクロスシミュレーションを行なうのではなく、次のような手法を用いる。すなわち、ビデオ映像から様々な姿勢の衣服画像を切り出してデータベース化し、入力された人物動画像にデータベースの衣服画像を合成して、様々な服装の人物動画像を生成する。
また、本発明の人物動画像生成システムでは、ヘアスタイルの合成についても同様の手法を用いる。すなわち、ビデオ映像から様々な姿勢のヘアスタイル画像を切り出してデータベース化し、入力された人物動画像にデータベースのヘアスタイル画像を合成して、様々なヘアスタイルの人物動画像を生成する。
【0008】
以降で説明する本発明の実施形態においては、あらかじめテレビカメラにより撮影した人物の映像を入力映像として、人物の動作(各フレームにおける人物の姿勢)に連動した仮想衣服・ヘアスタイルを合成し、表示する人物動画像生成システムを構築する。これにより、映像中の人物の3次元動作(3次元姿勢)に連動して、仮想衣服・ヘアスタイルが動くことにより、合成結果がビデオリアリスティックに見えることを目的としている。
以降、図を参照しながら、本発明の人物動画像生成システムの実施形態を詳細に説明する。
まず、ビデオ映像から様々な姿勢の衣服画像を切り出してデータベース化する処理(仮想衣服データベースの作成)について説明し、次に、入力された人物動画像にデータベースの衣服画像を合成して、様々な服装の人物動画像を生成する(実写映像と衣服画像の合成)について説明する。
【0009】
<仮想衣服データベースの作成>
仮想衣服データベースの作成は、以下に示す処理によって行なう。なお、この処理を図2に示す。各々の処理については後で詳しく説明する。
(1)入力された人物動画像(仮想衣服生成用映像)(S201)を用いて、人物の3次元姿勢を推定する(S202)。
(2)推定した3次元姿勢を利用して、画像中から人体部分を削除し、衣服部分を切り出す(S203)。
(3)映像の各フレームで上記(1)(2)を繰り返すことで様々な姿勢の衣服のデータを取得し、仮想衣服データベースを構築する(S204)。
これにより、入力された人物動画像の3次元姿勢に対応する衣服データを得ることができるようになる。
【0010】
まず、上記(1)の3次元姿勢の推定について説明する。
実写映像中の人物動作に連動した合成映像を生成するためには、実写映像中の人物の3次元姿勢(3次元動作)を推定する必要がある。本実施形態では、人物の人体幾何モデルに合わせた動力学モデルから得られる関節駆動力を運動情報とし、ビデオ映像上における人体領域のフレーム間輝度値2乗誤差を併用することで、人物の3次元姿勢を推定する。
なお、上記の手法については、例えば上述の特許文献1(特開2002−269580号公報)、「中野敦,星野准一:"動力学モデルに基づくビデオモーションキャプチャ",TVRSJ Vol.7,No.4.2002」等を参照されたい。
【0011】
次に、上記(2)の衣服部分を切り出す処理について説明する。
本実施形態では、求められた3次元人体モデルと姿勢パラメータを利用して、実写画像中から衣服部分を切り出し、仮想衣服データベースを作成する。
効率よく衣服画像部分を抽出するために、本実施形態では、例えば背景にブルースクリーンを用い、抽出する衣服以外は青色の布で隠し、背景差分処理を行なう。また、閾値処理には比較的輝度変化にロバストなHVS表色系のH(色相)とS(彩度)を利用する。
しかし、背景差分処理だけでは肌色領域や、頭部の領域を削除することができない。本実施形態では、頭部は3次元人体モデルの情報を利用し、首の部分より上部の人体領域を頭部と判断し、削除する。また、肌色領域は色相がほぼ一定であるため、HVS基底のH(色相)を利用することによって削除する。RGB基底からHVS基底への変換は以下の式を用いる。
【0012】
【数1】

Figure 0004246516
【数2】
Figure 0004246516
【数3】
Figure 0004246516
【0013】
図4に、衣服画像の抽出結果を示す。図4において、(a)は入力画像であり、(b)は(a)から上記の手法を用いて抽出した衣服画像である。
なお、上記の肌色領域の削除処理は従来技術を利用したものである。詳しくは、例えば「松橋 聡,藤本研司,中村 納,南 敏,“顔領域抽出に有効な修正HSV表色系の提案”,テレビジョン学会誌,vol.49,no.6,pp.787-797,1995」などを参照されたい。
【0014】
最後に、上記(3)の仮想衣服データベースの構築について説明する。
上記の(1)(2)の処理を実写映像のフレームごとに行ない、画像中から衣服画像を抽出する。この衣服画像と、3次元人体モデルの姿勢パラメータとを対応付けて、仮想衣服データベースを構築する。
【0015】
<実写映像と衣服画像の合成>
実写映像と衣服画像の合成は、以下に示す処理によって行なう。なお、この処理を図3に示す。各々の処理については後で詳しく説明する。
(1)入力された人物動画像(合成対象の人物の映像)(S301)を用いて、人物の3次元姿勢を推定する(S302)。
(2)推定した3次元姿勢を利用して、仮想衣服データベースから一致する姿勢、または類似する姿勢の衣服データを参照する(S303)。
(3)入力画像の人物の姿勢に一致する姿勢の衣服データがない場合、類似する姿勢の衣服データを、入力映像の姿勢に合うように調整する(S304)。
(4)調整した衣服画像と実写映像中の人物を合成し(S305)、生成した画像を出力する(S306)。
(5)入力映像の各フレームで上記(1)〜(4)を繰り返し行なうことで、実写映像と衣服画像の合成を行なう。
【0016】
まず、上記(1)の3次元位置・姿勢の推定については、上述で説明した<仮想衣服データベースの作成>と同様の手法で推定を行なう。本実施形態ではこの手法により推定した3次元姿勢に合わせて、実写ベースの仮想衣服を合成する。
【0017】
次に、上記(2)の衣服データの参照について説明する。
上述の<仮想衣服データベースの作成>で説明したように、画像中から抽出した衣服画像は、3次元人体モデルの姿勢パラメータと対応付けて、仮想衣服データベースに格納されている。このため、上記(1)で推定した3次元姿勢を利用して、仮想衣服データベースから一致する姿勢、または類似する姿勢の衣服データを参照することができる。
【0018】
次に、上記(3)の衣服データの調整、および(4)の衣服画像と実写映像中の人物との合成について説明する。
本実施形態では、入力画像中の人物の姿勢と同じ姿勢の衣服データがない場合、類似した姿勢の衣服データを調整し、姿勢を一致させる必要がある。本実施形態では、次の手順で類似した姿勢の衣服データから袖部分を切り出し、2次元的に変形させることで、入力画像中の人物の姿勢と一致した衣服データを生成する。これは、次のような処理により行なわれる。
1.衣服の袖を切り出すために、袖の境界を求める。
2.入力画像中の人物の姿勢と一致するように、切り出した袖の部分を、腕の回転軸を中心に回転させる。
3.回転によって生じるオクルージョン領域の補間を行なう。
4.アルファマップを用いて境界部分をぼかし、合成する。
なお、本実施形態では袖(腕)の部分の調整を例として説明しているが、他の部分についても同様の手法で衣服データを調整することができる。この場合、腕以外の身体部位(例えば脚など)に対応する衣服の境界を検出し、上記の腕の回転と同様に、関節部分を中心に身体部位の関節回転軸を回転させることにより合成対象の映像中の人物の姿勢に合わせることができる。
【0019】
(1.袖の境界の検出)
画像中から袖の領域を検出するためには、衣服のモデルを作成し対応する領域を求めることが考えられる。しかし、衣服の種類ごとにモデルを作成しなければならず、CGの仮想衣服と同様に、複雑な形状のモデルを作ることが困難である。
代表的な領域分割手法には、クラスタリングによる手法、ヒストグラム解析を用いた閾値領域による手法、領域成長法などがある。しかし、本実施形態で扱う衣服画像の場合、境界が明確にわからない場合が多いため、推定した3次元姿勢(動作)の結果から得られたおおよその両腕の領域を考慮に入れ、袖の境界を検出する。
袖の境界は、多くの場合明度が低くなる傾向がある。得られた両腕の領域付近で、境界線の滑らかさを考慮に入れ、明度が低い(暗い)画素を探索する。探索には、従来技術であるSnakesのアルゴリズムを取り入れ、下記の式によりエネルギーを計算し、最小になる画素を境界とする。
【数4】
Figure 0004246516
【0020】
ただし、3次元モデルから得られた対象領域(腕領域)をSnakesの初期輪郭とする。また、Vは対象画素の明度を表し、aene、beneはそれぞれ連続する点の座標の1次グラディエントの2乗、2次グラディエントの2乗を表す。difは3次元モデルから得られた対象領域の輪郭からの距離とする。
上記の手法により袖の境界を検出した様子を図5に示す。図5において、(a)は入力画像、(b)は検出した袖の境界を示す。510で示された線は3次元モデルから得られた境界、520で示された線は検出された境界(ActualBoundary)である。
【0021】
(2.袖の回転)
入力画像中の人物の姿勢と一致するように、切り出した袖の部分を腕の回転軸を中心に回転させ、姿勢を変化させる。回転軸の画像中の座標は、3次元モデルを使った3次元姿勢(動作)の推定により求められる座標を利用した。
本実施形態では類似した姿勢からのみ姿勢の変形を行なうことを前提とし、変換に関し奥行き情報は無視できるくらい小さいと仮定する。回転後の各画素のx,y座標x’,y’を、逆アフィン変換を用いて以下の式により計算する
【数5】
Figure 0004246516
ただし、x,yは回転の中心のx,y座標、x,yは変換前のx,y座標、θは半時計回りの回転角とする。
【0022】
(3.オクルージョン領域の補間)
袖の部分を切り出し、姿勢を変更すると、袖に隠れていた部分などのオクルージョン領域(隠蔽領域)の補間が必要となる場合がある。本実施形態では、衣服の3次元モデルがないため正確な補間領域を知ることはできない。また、画像中の隠蔽領域の補間方法としては様々な手法が提案されているが、あらかじめ画像の特徴をデータベース化するなど、前処理をする必要があるため、動画像に適用する場合には多くの処理時間を必要とする。
本実施形態ではできるだけ簡便で汎用的な手法が望ましいため、例えば、3次元人体モデルの輪郭と、隠蔽領域の近傍の画素を利用して補間を行なうものとする。画像中を水平方向に走査し、補間すべき画素を調べ、補間領域の両側に衣服領域が存在する場合は、以下の式で線形補間を行なう。
【数6】
Figure 0004246516
ただし、[x,y]は補間する対象画素のRGB値、[x,y]は補間領域の左端画素のRGB値、[x,y]は補間領域の右端画素のRGB値、pは補間領域の水平方向の距離を1で正規化した時の、補間領域の左端からの距離とする。
また、片側のみに衣服領域が存在する場合は、補間領域の近傍の画素を、3次元人体モデルの輪郭に合わせるようにサイズ変換することで補間する。
【0023】
(4.アルファマップの作成)
単純に袖部分を回転した画像を合成する場合、輪郭部分の色の変化に連続性がないため不自然に見える。そこで本実施形態ではアルファブレンドの手法を利用して、境界線を自然に見えるようにする。この手法では、袖の境界(Actual Boundary)を境にアルファ値(透明度)を変化させたアルファマップを作成し、衣服から袖の部分を切り出して合成する。
アルファマップを図6に示す。図6において、線610はActual Boundaryを、620は衣服領域を、630は衣服領域外を示している。衣服領域620はアルファ値を255(不透明)にし、衣服領域外630では、Actual Boundary610から遠ざかるほど、アルファ値を0(透明)に近づける。
なお、アルファブレンドには以下の式を用いた。
【数7】
Figure 0004246516
ただし、[x’,y']はアルファブレンド後の対象画素のRBG値、[x,y]は重ねる画素のRBG値、[x,y]は元の画素のRBG値、αは対象画素のアルファ値とする。
上述した(1.袖の境界の検出)〜(4.アルファマップの作成)の手法により姿勢を調整した衣服画像を、図7に示す。図7において、(a)は入力画像を、(b)は入力画像に類似する姿勢の衣服画像、(c)は(a)の入力画像の人物に合わせて姿勢を調整した衣服画像である。
【0024】
(5.3次元での仮想衣服の生成)
上述した2次元での仮想衣服の生成では、衣服の3次元モデルがないため、オクルージョン領域の正確な補間ができなかった。また、z軸方向への姿勢の変化を考慮に入れた、仮想衣服の姿勢の微調整を行うことができなかった。以降、この問題を解決するために、簡単な衣服の3次元モデルを作り仮想衣服の姿勢を微調整する手法を説明する。
正確な衣服のモデルを作成するのは、多くの時間や手間がかかる。また、姿勢(動作)に連動した正確な衣服シミュレーションを行うことも非現実的である。本実施形態では、衣服領域を知ることを目的として、図8(b)のような簡単な衣服の3次元モデルを手動で作成した。
本実施形態では以下の処理を行うことで、入力映像中の人物の姿勢に合った仮想衣服を生成する。
【0025】
まず、次式で類似した仮想衣服画像の各点の3次元座標と入力画像の各点の3次元座標との対応をとる。
【数8】
Figure 0004246516
ただし、
3D:入力画像中の人物の、身体部分の腰からの3次元ローカル座標
M:入力画像中の人物姿勢の腰からの変換行列
R:入力画像中の人物の、腰のグローバル座標
P’3D:類似姿勢仮想衣服の、身体部分の腰からの3次元ローカル座標
M’:類似姿勢仮想衣服の腰からの変換行列
R’:類似姿勢仮想衣服の腰からのグローバル座標
とする。
【0026】
次に、次式で各点の3次元座標を画面上の2次元座標に変換し、各画素の対応をとる。
【数9】
Figure 0004246516
【数10】
Figure 0004246516
ただし、
2D:P3Dを2次元の画像平面に射影した座標
I:3次元空間の座標を画像平面上の座標に変換するための行列
P’2D:P’3Dを2次元の画像平面に射影した座標
I’:3次元空間の座標を画像平面上の座標に変換するための行列
とする。
【0027】
これにより、類似姿勢の仮想衣服の各画素と、入力映像中の各画素との対応がとれ、衣服の3次元モデル上の領域に仮想衣服の画素をコピーすることで、入力映像中の人物の姿勢にあわせることができる。
図8に、上記の手法による、3次元モデルを用いた仮想衣服の調整を示す。図8において、(a)は入力画像を、(b)は衣服の3次元モデルを、(c)は上記の手法により入力画像の人物と衣服モデルを重ね合わせた画像である。
【0028】
次に、本実施形態におけるヘアスタイルの合成について説明する。
上述の従来技術による、3次元人体モデルを利用した動作推定の場合、正確な頭部の向きを得ることができない。そのため、ヘアスタイルを実写映像に正確に合成することが難しい。そこで、本実施形態では顔面の3次元モデルを用いて頭部の位置・姿勢を推定し、ヘアスタイルや帽子を合成する手法を提案する。
本実施形態では、例えばミノルタ(株)のレーザーレンジファインダ(非接触3次元デジタイザVIVID 300)により距離計測を行い、人物の正面を向いた顔の3次元モデルを作成し、同時に顔のテクスチャ画像を得る。レーザーレンジファインダを用いて、顔の3次元距離を測定し、シェーディングを行った。また、3次元モデルの傾きの正規化を行うことで、XYZ軸回転の角度を複数3次元モデル間で統一して表現する。レーザーレンジファインダにより計測した顔の3次元モデルを、鼻の下の位置を用いてXYZ軸周りの傾きを図9に示すように正規化した。
図9は顔の3次元モデルを示している。図9において、(a)は本実施形態で扱う座標系を示す。また、(b)〜(d)は、それぞれX軸、Y軸、Z軸周りの傾きを正規化した顔の3次元モデルである。
以降、この3次元モデルを2次元射影変換して生成した画像を「テンプレート画像」と呼ぶ。
【0029】
上述したように、本実施形態におけるヘアスタイルの合成は、まず、ビデオ映像から様々な姿勢のヘアスタイル画像を切り出してデータベース化し(ヘアスタイルデータベースの作成)、入力された人物動画像にデータベースのヘアスタイル画像を合成して、様々なヘアスタイルの人物動画像を生成する(実写映像とヘアスタイル画像の合成)。以降、これらの処理を詳細に説明する。
【0030】
<ヘアスタイルデータベースの作成>
ヘアスタイルデータベースの作成は、以下に示す処理によって行なう。なお、この処理を図10に示す。各々の処理については後で詳しく説明する。
(1)入力された人物動画像(仮想ヘアスタイル作成用映像)(S1001)を用いて、頭部の3次元位置・姿勢を推定する(S1002)。
(2)推定した3次元姿勢を利用して、画像中から髪の部分を切り出す(S1003)。
(3)映像の各フレームで上記(1)(2)を繰り返すことで様々な姿勢のヘアスタイルのデータを取得し、ヘアスタイルデータベースを構築する(S1004)。
これにより、入力された人物動画像の頭部の3次元姿勢に対応するヘアスタイルデータを得ることができるようになる。
【0031】
まず、上記(1)の3次元姿勢の推定について説明する。
頭部の3次元位置・姿勢の推定方法として、従来、目や口などの顔の幾何学的特徴点を利用したものや、対象物体のモデルと入力画像との照合による推定方法などが提案されている。しかし、幾何学的特徴を抽出する際には画像に含まれるノイズ等の影響が大きく、特徴の対応づけを行う際に誤りを含んでしまう可能性がある。また、モデルを使った照合では、光源の位置や種類、物体の表面反射係数の影響が複雑となるために、モデルからの対象物体の濃淡画像を忠実に生成することが困難となるなどの問題がある。
そこで本実施形態では、正規化相関を用いたパターンマッチングを行い、入力画像とテンプレート画像との相関度を評価し、顔の位置・姿勢を推定する。正規化相関は、対応する画素値の平均と標準偏差によって正規化された絶対測度であり、照明変動などの外乱による影響を受けにくい評価尺度として知られている。
また、本実施形態では、テンプレート画像(3次元モデルから逐次生成される濃淡画像)をt(n=0,…,N−1)、探索対象画像(入力映像から得られる濃淡画像)をF(n=0,…,N−1)、探索対象画像における参照位置の、テンプレート画像と同サイズとなる部分画像をf(n=0,…,N−1)と表す。
【0032】
このとき、テンプレート画像t(n=0,…,N−1)と部分画像f(n=0,…,N−1)との正規化相関は次式で与えられる。なお、Rは相関値である。
【数11】
Figure 0004246516
ただし、
【数12】
Figure 0004246516
【数13】
Figure 0004246516
【0033】
複雑な条件下でマッチングを行う場合、顔パターンに類似した非顔領域の誤検出や、探索するパラメータの数が多くなるなどの問題が生じる可能性がある。本実施形態では処理を高速・安定化するため、撮影時の条件として、
・処理の始めは正面を向いている。
・シーン中には、背景を除き人物以外の物体は存在しない。
・顔の回転はx軸回転のみ、またはy軸回転のみとする。
・z軸方向(奥行き)の変化はほぼない。
という制約を加える。ここで用いた前提条件は常に満たされると限らないが、利用される状況の大部分はカバーしており実用上さほど問題にはならない。
【0034】
以下、本実施形態で行う頭部の位置・姿勢の推定手法を示す。図12は、本実施形態で行う頭部の位置・姿勢の推定処理の流れを示したフローチャートである。
(a)まず、初期化処理として、入力画像の顔領域の大きさとテンプレート画像の縮尺を合わせる(図12のS1202〜S1207の処理)。
1201は、入力する顔の3次元モデルである。正面を向いたフレーム画像を入力し(S1202)、これに対して、3次元モデルを2次元射影変換して生成したテンプレート画像を数段階にスケール変化させてマッチングを行う。
マッチングは、まず3次元モデル1201のz軸の奥行きを変化させ(S1203)、2次元射影変換を行なってテンプレート画像を生成し(S1204)、マッチングを行なう(S1205)。次に、上述した式により最大のR(相関値)を計算する。Rが最大値となった場合(S1207でYesの場合)に、上記S1203のz軸の奥行きを、最も相関が高いスケールであると判断して、このスケール(1208)を以後の処理に採用する。Rが最大でない場合(S1207でNoの場合)は、再びz軸の奥行きを変化させる処理(S1203)から繰り返す。
【0035】
(b)次に、3次元モデルの姿勢を逐次変化させて生成したテンプレート画像と入力画像とを比較して、入力画像(フレーム画像)の頭部の姿勢を求める(図12のS1209〜S1214の処理)。
まず、3次元モデルのx軸、y軸回りの回転角度を変化させ(S1209)、2次元射影変換を行なってテンプレート画像を生成する(S1210)。生成したテンプレート画像を入力画像全体に走査してマッチングを行ない(S1211)、各場所での類似度を逐次求め、局所最大かつ、閾値以上の箇所を検出し相関値Rを求める(S1212)。これらの処理をRが最大値となるまで繰り返し(S1213)、様々な姿勢から得られるテンプレート画像の中で最も相関が高い姿勢を入力画像の頭部の姿勢(1214)とする。
(c)入力映像の各フレーム画像で(b)を繰り返し行う(S1215)。
なお、本実施形態では、入力画像とテンプレート画像を50%に縮小し処理を行った。また、テンプレート画像を作成する角度は前フレームで推定した顔の角度の、−20〜+20度の範囲で刻み幅1度で行った。これにより、処理を大幅に高速化できるとともに、画像上の雑音成分を除去することができる。
【0036】
(推定姿勢の補正)
動画像の場合には瞬きなどの動作があり、上述の3次元位置・姿勢の推定手法では、部分的に誤検出をする場合がある。その結果、頭部の推定した回転角が連続的に変化しないという問題が発生する。
そのような問題を解決するために、従来、更新型のテンプレートマッチングを併用した手法も提案されている。しかし、本実施形態でこの従来手法を用いると、あらかじめ計測した顔の3次元モデルからテンプレートを作成するため、いくつもの3次元モデルを用意し逐次レンダリングする必要があり非効率的である。
そこで本実施形態では、上述の3次元位置・姿勢の推定手法で推定した頭部の回転角度をSnakesのアルゴリズムと移動平均フィルタを併用することで、例外点を取り除き、推定した回転角度を連続的に変化させる。
図13に正面を向いている状態から、右を向き、さらに左を向いて、正面を向いた入力映像に対して、頭部の姿勢の推定を行った結果を破線で示す。また、補正後の回転角度の様子を実線で示す。本手法によって、より自然な頭部の姿勢の推定が可能となっていることがわかる。
【0037】
次に、上記(2)の髪の部分を切り出す処理について説明する。
本実施形態では、画像中から髪領域のみを抽出するために、ヘアスタイル抽出用のマスクを生成する。まず、髪領域の雑音成分を削減するために平滑化を行う。次に、背景差分法により人物領域と背景領域を分離し、頭部の位置・姿勢の推定で照合したテンプレート領域を削除する。最後に、髪領域の明度が肌色領域に比較して低いことを利用し、明度を用いて人物領域を肌領域と髪領域に分ける。本実施形態の手法により髪の部分(ヘアスタイル)を切り出した様子を、図14に示す。
図14において、(a)は入力画像である。(a)から平滑化を行い、背景領域とテンプレート画像が重なっている領域を削除した結果を(b)に、明度差による髪領域の抽出を行った結果を(c)に示す。(d)は最終的に得られたヘアスタイル画像である。合成時には、上述したアルファマップの手法を用いて境界部分をぼかす。
【0038】
最後に、上記(3)のヘアスタイルデータベースの構築について説明する。
上記の(1)(2)の処理を実写映像のフレームごとに行ない、画像中からヘアスタイル画像を抽出する。このヘアスタイル画像と、3次元人体モデルの姿勢パラメータとを対応付けて、ヘアスタイルデータベースを構築する。
【0039】
<実写映像とヘアスタイル画像の合成>
実写映像とヘアスタイル画像の合成は、以下に示す処理によって行なう。なお、この処理を図11に示す。各々の処理については後で詳しく説明する。
(1)入力された人物動画像(合成対象の人物の入力映像)(S1101)を用いて、人物の頭部の3次元位置・姿勢を推定する(S1102)。
(2)推定した3次元姿勢を利用して、ヘアスタイルデータベースから一致する姿勢、または類似する姿勢のヘアスタイルデータを参照する(S1103)。
(3)検索したヘアスタイル画像を調整し(S1104)、実写映像中の人物と合成する(S1105)。最後に、生成された画像を出力する(S1106)。
(4)入力映像の各フレームで上記(1)〜(3)を繰り返し行なうことで、実写映像とヘアスタイル画像の合成を行なう。
【0040】
まず、上記(1)の3次元位置・姿勢の推定については、上述で説明した<ヘアスタイルデータベースの作成>と同様の手法で推定を行なう。
【0041】
次に、上記(2)のヘアスタイルデータの参照について説明する。
上述の<ヘアスタイルデータベースの作成>で説明したように、画像中から抽出したヘアスタイル画像は、3次元人体モデルの姿勢パラメータと対応付けて、ヘアスタイルデータベースに格納されている。このため、上記(1)で推定した3次元姿勢を利用して、ヘアスタイルデータベースから一致する姿勢、または類似する姿勢のヘアスタイルデータを参照することができる。
【0042】
次に、上記(3)の実写映像とヘアスタイル画像との合成について説明する。
入力画像にヘアスタイルを合成する場合、合成する位置を入力画像中の人物の髪領域部に合わせる必要がある。本実施形態では、入力画像中のおおまかな髪領域をテンプレート画像がマッチングした座標を利用して指定し、初期条件として、入力映像中の頭部のサイズにあうように、手動で仮想ヘアスタイルのサイズ調整を行い、合成を行なっている。
【0043】
<実施例>
ここでは、ビデオ映像から人物の3次元姿勢(動作)の推定を行い、仮想衣服・ヘアスタイルの合成を行った例を説明する。
図15は、歩いている人物に仮想衣服を合成した結果を示す。図15において、(a)は入力画像、(b)は3次元姿勢の推定結果である。(c)は人物の姿勢に合わせて仮想衣服画像を生成したところである。(d)は(c)の仮想衣服画像を(a)の入力画像に合成した結果である。
同様に、人物の頭部の姿勢に合わせてヘアスタイルを合成した結果を図16に示す。図16において、(a)は入力画像、(b)は3次元姿勢の推定結果である。(c)は人物の姿勢に合わせてヘアスタイル画像を生成したところである。(d)は(c)のヘアスタイル画像を(a)の入力画像に合成した結果である。
本実施例によれば、図15、図16に示すように、人物の姿勢(動作)に連動した仮想衣服・ヘアスタイルの合成が可能になっている。
【0044】
【発明の効果】
本発明によれば、従来のCGベースの仮想衣服・ヘアスタイルではなく、人物の姿勢(動作)に連動した実写ベースの仮想衣服・ヘアスタイルを生成・合成する手法により、ビデオリアリスティックな合成結果を得ることができる。
【図面の簡単な説明】
【図1】従来技術を用いた仮想衣服と人物との合成を示した図である。
【図2】仮想衣服データベースの作成処理を示すフローチャートである。
【図3】実写映像と衣服画像の合成処理を示すフローチャートである。
【図4】本実施形態の手法による衣服画像の抽出結果を示す図である。
【図5】本実施形態の手法による袖の境界の検出結果を示す図である。
【図6】本実施形態で用いるアルファマップを示した図である。
【図7】本実施形態の手法により姿勢を調整した衣服画像を示す図である。
【図8】本実施形態の手法により3次元モデルを用いて調整した衣服画像を示す図である。
【図9】本実施形態の手法によりX軸、Y軸、Z軸周りの傾きを正規化した顔の3次元モデルを示す図である。
【図10】ヘアスタイルデータベースの作成処理を示すフローチャートである。
【図11】実写映像とヘアスタイル画像の合成処理を示すフローチャートである。
【図12】頭部の3次元位置・姿勢の推定処理の流れを示したフローチャートである。
【図13】本実施形態の手法による推定姿勢の補正結果を示す図である。
【図14】本実施形態の手法によるヘアスタイルの抽出結果を示す図である。
【図15】歩いている人物に仮想衣服を合成した実施例を示す図である。
【図16】人物の頭部の動きに合わせてヘアスタイルを合成した実施例を示す図である。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a human moving image generation system using a three-dimensional model of a person generated from a video image.
[0002]
[Technical background]
In recent years, a virtual fashion system has been proposed that provides an image obtained by synthesizing a live-action image and a CG-based virtual clothing (for example, Non-Patent Documents 1 to 3).
Various methods have been proposed for generating virtual clothes. An example of a conventional method is shown in FIG. In FIG. 1, CG data of clothes as shown in (b) is created, and the three-dimensional motion (three-dimensional posture) of the real image of the person shown in (a) is estimated (for example, by the method of Patent Document 1). A cross simulation is performed in accordance with the operation.
The resulting image synthesized by the conventional method is, for example, as shown in FIG.
However, in these methods, since the emphasis is placed on the generation of virtual clothes linked to the movement of the user, whether or not the synthesis result looks like photorealistic or videorealistic has not been studied much. In addition, it takes a lot of time and effort to generate a CG-based virtual clothes. For this reason, there are problems that complex wrinkles cannot be generated, complex clothes cannot be synthesized, and that the synthesis result looks unnatural.
In addition, with the spread of the Internet in recent years and the improvement in the performance of personal computers, services such as wearing virtual clothes of live-action on a 3D model that matches the user's body shape and presenting product images via the Internet may be seen. (For example, Non-Patent Documents 4 to 5). However, since virtual clothes are synthesized with a three-dimensional model with a certain posture, there is a problem that it is difficult to grasp an image when the user actually wears it.
[0003]
[Patent Document 1]
JP 2002-269580 A
[Non-Patent Document 1]
Jun Nakano, Junichi Hoshino: "Virtual fashion linked to user behavior", Interaction 2002, pp.202-208
[Non-Patent Document 2]
Jun Nakano, Junichi Hoshino: "Interactive Virtual Fashion System", 17th NICOGRAPH Proceedings, pp.155-160, 2001
[Non-Patent Document 3]
Junichi Hoshino, Hiroshi Saito: "Realization of virtual fashion by combining video and CG", Transactions of Information Processing Society of Japan, Vol.42, No.5, pp.1182-1193, 2001
[Non-Patent Document 4]
Japan Lands End (My Virtual Model) http://www.landsend.co.jp/
[Non-Patent Document 5]
Digital Fashion Co., Ltd. (HAOREBA) http://www.dressingsim.com/
[0004]
[Problems to be solved by the invention]
In order to solve the above problem, the present invention does not synthesize CG-based virtual clothes and hairstyles as in the past, but links live-action virtual clothes and hairstyles to the actions of a person in a live-action video. Then, we propose a method for synthesizing and generating realistic video.
[0005]
[Means for Solving the Problems]
In order to solve the above problems, the present invention is a human moving image generation system, comprising a virtual clothing database storing clothing images together with posture parameters of a three-dimensional posture, A clothing image extracting means for extracting a clothing image from a person in a video image by estimating a three-dimensional posture of the person in the video image by estimating a background portion, a skin color portion, and the human body portion; Virtual clothes database storage means for storing the clothes image extracted by the image extraction means in the virtual clothes database together with the posture parameters of the estimated three-dimensional posture; To be synthesized video 3D posture of the person in the video Attitude parameters Three-dimensional posture estimation means for estimating the three-dimensional posture estimated by the three-dimensional posture estimation means Attitude parameters A clothing image selection means for selecting a clothing image corresponding to the virtual clothing database from the virtual clothing database; video A human moving image generating system comprising: a clothing image combining unit that combines a clothing image selected by the clothing image selecting unit with a person in a video.
Also, The clothing image selecting means is a three-dimensional posture estimated by the three-dimensional posture estimating means. Attitude parameters If there is no matching clothing image, select a clothing image with a similar posture parameter. And When the clothing image selecting unit selects a clothing image having a similar posture parameter by the clothing image selecting unit, video An adjustment may be made so as to match the posture of the person in the video.
The adjustment in the clothing image composition means detects the boundary of the clothing from the clothing image, and rotates the rotation axis of the body part around the joint part. video It may be characterized by matching to the posture of a person in the video.
[0006]
The above-described human moving image generation system further includes a hairstyle database storing hairstyle images together with posture parameters of a three-dimensional posture, and a synthesis target video 3D posture of the person's head in the video Attitude parameters 3D posture estimation means for estimating the head, and the 3D posture of the head estimated by the head 3D posture estimation means Attitude parameters A hairstyle image selecting means for selecting a hairstyle image corresponding to the hairstyle database from the hairstyle database; and video The human moving image generating system may further include a hairstyle image synthesizing unit that synthesizes the hairstyle image selected by the hairstyle image selecting unit with a person in the video.
This human moving image generation system further includes video Hairstyle image extraction means for extracting a hairstyle image from a person in the video; and hairstyle database storage means for storing the hairstyle image extracted by the hairstyle image extraction means in the hairstyle database, the hairstyle The image extraction means uses the head three-dimensional posture estimation means to video 3D posture of the person's head in the video Attitude parameters A hair style image is extracted by deleting a face region, and the hair style database storage means stores a posture parameter of the estimated three-dimensional posture of the head together with the hair style image, and the hair style The image selecting means is a three-dimensional posture estimated by the head three-dimensional posture estimating means. Attitude parameters Select hairstyle images with pose parameters that match and match Hairstyle picture If there is no hairstyle image, a human moving image generation system characterized by selecting a hairstyle image having a similar posture parameter may be used.
Further, the head three-dimensional posture estimation means includes: video By detecting the face area by matching the image of the person in the video with the template image obtained by two-dimensional projective transformation of the three-dimensional model of the head, video 3D posture of the person's head in the video Attitude parameters It may be characterized by estimating.
In addition, the clothing image composition unit and the hairstyle image composition unit may perform composition after blurring outline portions of the clothing image and the hairstyle image by alpha blending to obtain a natural contour.
Moreover, the program which makes a computer system comprise said person moving image production | generation system is also this invention.
[0007]
DETAILED DESCRIPTION OF THE INVENTION
In the human moving image generation system of the present invention, in order to solve the above-described problems of the prior art, a CG clothing is not created and a cross simulation is performed, but the following method is used. In other words, clothes images of various postures are cut out from a video image to create a database, and the clothes images in the database are combined with the input person moving images to generate person moving images of various clothes.
In the human moving image generation system of the present invention, the same method is used for the synthesis of the hairstyle. In other words, hairstyle images of various postures are cut out from a video image and converted into a database, and the hairstyle images in the database are synthesized with the input person motion images to generate human motion images of various hairstyles.
[0008]
In the embodiments of the present invention described later, virtual clothes / hairstyles that are linked to a person's action (person's posture in each frame) are synthesized and displayed using an image of a person previously captured by a television camera as an input image. A human moving image generation system is constructed. Accordingly, the object is to make the synthesized result look like a video realistic by moving the virtual clothes / hairstyle in conjunction with the three-dimensional motion (three-dimensional posture) of the person in the video.
Hereinafter, an embodiment of the human moving image generation system of the present invention will be described in detail with reference to the drawings.
First, we will explain the process (creating a virtual clothes database) for extracting clothes images of various poses from video images and creating a database, and then combining the clothes images in the database with the input human moving images, Generation of a person moving image of clothes (combination of a live-action image and a clothing image) will be described.
[0009]
<Create virtual clothing database>
The virtual clothes database is created by the following process. This process is shown in FIG. Each process will be described in detail later.
(1) The three-dimensional posture of the person is estimated using the input person moving image (virtual clothes generation video) (S201) (S202).
(2) Using the estimated three-dimensional posture, the human body part is deleted from the image, and the clothing part is cut out (S203).
(3) By repeating the above (1) and (2) for each frame of the video, data on clothes of various postures is acquired, and a virtual clothes database is constructed (S204).
As a result, clothes data corresponding to the three-dimensional posture of the input person moving image can be obtained.
[0010]
First, the estimation of the three-dimensional posture (1) will be described.
In order to generate a composite image that is linked to a human motion in a live-action video, it is necessary to estimate the three-dimensional posture (three-dimensional motion) of the person in the live-action video. In this embodiment, the joint driving force obtained from the dynamic model matched to the human body geometric model of the person is used as the motion information, and the inter-frame luminance value square error of the human body region on the video image is used together, thereby Estimate the dimensional attitude.
As for the above method, for example, Patent Document 1 (Japanese Patent Laid-Open No. 2002-269580), “Akira Nakano, Junichi Hoshino:“ Video motion capture based on dynamic model ”, TVRSJ Vol. Please refer to “4.
[0011]
Next, the process of cutting out the clothing part (2) will be described.
In the present embodiment, using the obtained three-dimensional human body model and posture parameters, a clothing part is cut out from a real image and a virtual clothing database is created.
In order to efficiently extract a clothing image portion, in this embodiment, for example, a blue screen is used as the background, and the background difference processing is performed by hiding the clothing other than the clothing to be extracted with a blue cloth. The threshold processing uses H (hue) and S (saturation) of the HVS color system that is relatively robust to changes in luminance.
However, the skin color area and the head area cannot be deleted only by the background difference process. In this embodiment, the head uses information of the three-dimensional human body model, determines that the human body region above the neck is the head, and deletes it. Further, since the hue of the skin color area is substantially constant, the skin color area is deleted by using H (hue) of the HVS base. The conversion from the RGB base to the HVS base uses the following formula.
[0012]
[Expression 1]
Figure 0004246516
[Expression 2]
Figure 0004246516
[Equation 3]
Figure 0004246516
[0013]
FIG. 4 shows the result of extracting clothes images. In FIG. 4, (a) is an input image, and (b) is a clothing image extracted from (a) using the above method.
Note that the above-described skin color area deletion processing uses conventional technology. For details, see “Akira Matsuhashi, Kenji Fujimoto, Noboru Nakamura, Satoshi Minami,“ Proposal of Modified HSV Color System Effective for Face Area Extraction ”, Television Society Journal, vol.49, no.6, pp.787- 797, 1995 "and the like.
[0014]
Finally, the construction of the virtual clothes database (3) will be described.
The above processes (1) and (2) are performed for each frame of the live-action video, and clothes images are extracted from the images. A virtual clothes database is constructed by associating the clothes image with the posture parameters of the three-dimensional human body model.
[0015]
<Combination of live-action image and clothing image>
The synthesis of the live-action video and the clothing image is performed by the following process. This process is shown in FIG. Each process will be described in detail later.
(1) The three-dimensional posture of the person is estimated (S302) using the input person moving image (video of the person to be synthesized) (S301).
(2) Using the estimated three-dimensional posture, refer to clothing data having a matching posture or a similar posture from the virtual clothing database (S303).
(3) If there is no clothing data with a posture that matches the posture of the person in the input image, the clothing data with a similar posture is adjusted to match the posture of the input video (S304).
(4) The adjusted clothing image and the person in the live-action video are synthesized (S305), and the generated image is output (S306).
(5) The above-described (1) to (4) are repeatedly performed for each frame of the input video, thereby synthesizing the live-action video and the clothing image.
[0016]
First, the estimation of the three-dimensional position / orientation in (1) is performed by the same method as that described in <Creation of virtual clothing database> described above. In this embodiment, live-action based virtual clothes are synthesized in accordance with the three-dimensional posture estimated by this method.
[0017]
Next, referring to the clothing data (2) will be described.
As described above in <Creation of Virtual Clothing Database>, the clothing image extracted from the image is stored in the virtual clothing database in association with the posture parameter of the three-dimensional human body model. For this reason, using the three-dimensional posture estimated in the above (1), it is possible to refer to clothing data having a matching posture or a similar posture from the virtual clothing database.
[0018]
Next, the adjustment of the clothing data (3) and the synthesis of the clothing image (4) and the person in the live-action video will be described.
In this embodiment, when there is no clothing data having the same posture as the posture of the person in the input image, it is necessary to adjust the clothing data having a similar posture to match the posture. In the present embodiment, clothes data matching the posture of the person in the input image is generated by cutting out a sleeve portion from clothing data having a similar posture in the following procedure and deforming it in a two-dimensional manner. This is performed by the following processing.
1. In order to cut out the sleeves of clothes, the boundary of the sleeves is obtained.
2. The cut sleeve portion is rotated around the rotation axis of the arm so as to match the posture of the person in the input image.
3. Interpolates the occlusion area caused by rotation.
4). Blur the border using an alpha map and compose it.
In the present embodiment, the adjustment of the sleeve (arm) portion is described as an example, but the clothing data can be adjusted for the other portions by the same method. In this case, the boundary of clothing corresponding to a body part other than the arm (for example, a leg) is detected, and in the same way as the rotation of the arm described above, the joint rotation axis of the body part is rotated around the joint part. Can be matched to the posture of the person in the video.
[0019]
(1. Detection of sleeve border)
In order to detect a sleeve region from an image, it is conceivable to create a clothing model and obtain a corresponding region. However, it is necessary to create a model for each type of clothing, and it is difficult to create a model having a complicated shape, like CG virtual clothing.
Typical region division methods include a clustering method, a threshold region method using histogram analysis, and a region growth method. However, in the case of the clothing image handled in this embodiment, the boundary is often not clearly understood, so the approximate boundary between both arms obtained from the result of the estimated three-dimensional posture (motion) is taken into consideration, and the boundary of the sleeve Is detected.
The border of the sleeve often tends to be lighter. In the vicinity of the obtained region of both arms, taking into consideration the smoothness of the boundary line, a pixel having a low brightness (dark) is searched. The search uses the Snakes algorithm, which is a conventional technique, calculates energy according to the following formula, and sets the minimum pixel as the boundary.
[Expression 4]
Figure 0004246516
[0020]
However, the target region (arm region) obtained from the three-dimensional model is the initial contour of Snakes. V represents the brightness of the target pixel, and aene and beene represent the square of the primary gradient and the square of the secondary gradient, respectively, of the coordinates of successive points. dif is the distance from the contour of the target area obtained from the three-dimensional model.
FIG. 5 shows how the sleeve boundary is detected by the above-described method. In FIG. 5, (a) shows the input image, and (b) shows the boundary of the detected sleeve. A line indicated by 510 is a boundary obtained from the three-dimensional model, and a line indicated by 520 is a detected boundary (ActualBoundary).
[0021]
(2. Sleeve rotation)
The cut sleeve portion is rotated around the rotation axis of the arm so as to match the posture of the person in the input image, and the posture is changed. The coordinates in the image of the rotation axis are coordinates obtained by estimating a three-dimensional posture (motion) using a three-dimensional model.
In this embodiment, it is assumed that the posture is deformed only from a similar posture, and it is assumed that the depth information regarding the conversion is negligibly small. The x and y coordinates x ′ and y ′ of each pixel after rotation are calculated by the following formula using inverse affine transformation.
[Equation 5]
Figure 0004246516
Where x 0 , Y 0 Is the x and y coordinates of the center of rotation, x and y are the x and y coordinates before conversion, and θ is the counterclockwise rotation angle.
[0022]
(3. Interpolation of occlusion area)
When the sleeve portion is cut out and the posture is changed, interpolation of an occlusion region (hidden region) such as a portion hidden in the sleeve may be required. In this embodiment, since there is no three-dimensional model of clothes, an accurate interpolation area cannot be known. Various methods have been proposed as interpolation methods for concealment regions in images. However, many methods are used for moving images because it requires preprocessing, such as creating a database of image features in advance. Processing time is required.
In this embodiment, a simple and versatile method is desirable as much as possible. Therefore, for example, interpolation is performed using the outline of a three-dimensional human body model and pixels in the vicinity of the hidden area. The image is scanned in the horizontal direction, the pixel to be interpolated is examined, and if there are clothing regions on both sides of the interpolation region, linear interpolation is performed using the following equation.
[Formula 6]
Figure 0004246516
However, [x, y] is the RGB value of the target pixel to be interpolated, and [x l , Y] are the RGB values of the leftmost pixel of the interpolation area, [x r , Y] is the RGB value of the rightmost pixel of the interpolation area, and p is the distance from the left edge of the interpolation area when the horizontal distance of the interpolation area is normalized by 1.
When a clothing region exists only on one side, interpolation is performed by converting the size of pixels in the vicinity of the interpolation region so as to match the contour of the three-dimensional human body model.
[0023]
(4. Creation of alpha map)
When an image obtained by simply rotating the sleeve portion is synthesized, it appears unnatural because there is no continuity in the color change of the contour portion. Therefore, in the present embodiment, the boundary line is made to appear natural by using an alpha blend method. In this method, an alpha map in which the alpha value (transparency) is changed at the boundary of the sleeve (Actual Boundary) is created, and the sleeve portion is cut out from the clothing and synthesized.
An alpha map is shown in FIG. In FIG. 6, a line 610 indicates the Actual Boundary, 620 indicates the clothing region, and 630 indicates the outside of the clothing region. The clothing region 620 has an alpha value of 255 (opaque), and outside the clothing region 630, the further away from the Actual Boundary 610, the closer the alpha value is to 0 (transparent).
The following formula was used for alpha blending.
[Expression 7]
Figure 0004246516
However, [x ′, y ′] is the RBG value of the target pixel after alpha blending, and [x 1 , Y 1 ] Is the RBG value of the overlapping pixel, [x 0 , Y 0 ] Is the RBG value of the original pixel, and α is the alpha value of the target pixel.
FIG. 7 shows a clothing image whose posture has been adjusted by the above-described methods (1. Detection of border of sleeve) to (4. Creation of alpha map). In FIG. 7, (a) is an input image, (b) is a clothing image having a posture similar to the input image, and (c) is a clothing image whose posture is adjusted according to the person of the input image of (a).
[0024]
(5.3 Generation of virtual clothes in 3D)
In the above-described generation of virtual clothes in two dimensions, since there is no three-dimensional model of clothes, it is not possible to accurately interpolate the occlusion area. Further, it has been impossible to finely adjust the posture of the virtual clothes in consideration of the change in the posture in the z-axis direction. Hereinafter, in order to solve this problem, a method for making a simple three-dimensional model of clothes and finely adjusting the posture of the virtual clothes will be described.
Creating an accurate garment model takes a lot of time and effort. It is also unrealistic to perform accurate clothing simulation linked to posture (motion). In this embodiment, a simple three-dimensional model of clothes as shown in FIG. 8B is manually created for the purpose of knowing the clothes area.
In the present embodiment, virtual clothes matching the posture of the person in the input video are generated by performing the following processing.
[0025]
First, the correspondence between the three-dimensional coordinates of each point of the virtual clothes image similar to the following expression and the three-dimensional coordinates of each point of the input image is taken.
[Equation 8]
Figure 0004246516
However,
P 3D : 3D local coordinates of the person in the input image from the waist of the body part
M: transformation matrix from the waist of the human posture in the input image
R: Global coordinates of the person's waist in the input image
P ' 3D : 3D local coordinates of virtual clothes of similar posture from waist of body part
M ′: transformation matrix from the waist of a similar posture virtual clothes
R ': Global coordinates from the waist of a similar posture virtual clothes
And
[0026]
Next, the three-dimensional coordinates of each point are converted into two-dimensional coordinates on the screen by the following formula, and the correspondence of each pixel is taken.
[Equation 9]
Figure 0004246516
[Expression 10]
Figure 0004246516
However,
P 2D : P 3D The coordinates of the projection onto the two-dimensional image plane
I: Matrix for converting coordinates in the three-dimensional space to coordinates on the image plane
P ' 2D : P ' 3D The coordinates of the projection onto the two-dimensional image plane
I ′: matrix for converting coordinates in the three-dimensional space to coordinates on the image plane
And
[0027]
As a result, each pixel of the virtual clothes in the similar posture can be associated with each pixel in the input video, and by copying the pixel of the virtual clothes to the area on the three-dimensional model of the clothes, Can be adapted to the posture.
FIG. 8 shows the adjustment of the virtual clothes using the three-dimensional model by the above method. 8, (a) is an input image, (b) is a three-dimensional model of clothes, and (c) is an image obtained by superimposing a person and a clothes model of the input image by the above method.
[0028]
Next, hair style synthesis in the present embodiment will be described.
In the case of motion estimation using the three-dimensional human body model according to the above-described conventional technology, an accurate head orientation cannot be obtained. For this reason, it is difficult to accurately synthesize hairstyles into live-action images. Therefore, in the present embodiment, a method is proposed in which the head position / posture is estimated using a three-dimensional model of the face, and a hairstyle and a hat are synthesized.
In this embodiment, for example, distance measurement is performed by a laser range finder (non-contact 3D digitizer VIVID 300) of Minolta Co., Ltd., and a 3D model of a face facing the front of a person is created, and a texture image of the face is simultaneously obtained. obtain. Using a laser range finder, the three-dimensional distance of the face was measured and shading was performed. Further, by normalizing the inclination of the three-dimensional model, the angle of the XYZ axis rotation is unified and expressed among a plurality of three-dimensional models. The three-dimensional model of the face measured by the laser range finder was normalized using the position under the nose as shown in FIG.
FIG. 9 shows a three-dimensional model of the face. In FIG. 9, (a) shows a coordinate system handled in this embodiment. Also, (b) to (d) are three-dimensional models of a face in which the inclinations around the X axis, Y axis, and Z axis are normalized.
Hereinafter, an image generated by two-dimensional projective transformation of this three-dimensional model is referred to as a “template image”.
[0029]
As described above, in the synthesis of the hairstyle in the present embodiment, first, hairstyle images of various postures are cut out from the video image to create a database (creation of a hairstyle database), and the hair of the database is added to the input human moving image. Synthesizing style images to generate human moving images of various hairstyles (combination of live-action images and hairstyle images). Hereinafter, these processes will be described in detail.
[0030]
<Creating a hairstyle database>
The hairstyle database is created by the following process. This process is shown in FIG. Each process will be described in detail later.
(1) Using the input human moving image (virtual hairstyle creation video) (S1001), the three-dimensional position / posture of the head is estimated (S1002).
(2) A hair portion is cut out from the image using the estimated three-dimensional posture (S1003).
(3) By repeating the above (1) and (2) for each frame of the video, data of hairstyles of various postures are acquired, and a hairstyle database is constructed (S1004).
Thereby, hairstyle data corresponding to the three-dimensional posture of the head of the input human moving image can be obtained.
[0031]
First, the estimation of the three-dimensional posture (1) will be described.
As methods for estimating the three-dimensional position / orientation of the head, there are conventionally proposed methods that use geometric feature points of the face such as the eyes and mouth, and an estimation method by matching the model of the target object with the input image. ing. However, when extracting a geometric feature, the influence of noise or the like included in the image is large, and there is a possibility that an error is included when the features are matched. In addition, in the collation using the model, the influence of the position and type of the light source and the surface reflection coefficient of the object is complicated, so it is difficult to faithfully generate a grayscale image of the target object from the model. There is.
Therefore, in the present embodiment, pattern matching using normalized correlation is performed, the degree of correlation between the input image and the template image is evaluated, and the face position / posture is estimated. Normalized correlation is an absolute measure normalized by the average and standard deviation of corresponding pixel values, and is known as an evaluation measure that is not easily affected by disturbances such as illumination fluctuations.
In this embodiment, a template image (a grayscale image sequentially generated from a three-dimensional model) is represented by t. n (N = 0,..., N−1), search target image (grayscale image obtained from input video) F n (N = 0,..., N−1), a partial image having the same size as the template image at the reference position in the search target image is f n (N = 0,..., N−1).
[0032]
At this time, the template image t n (N = 0,..., N−1) and partial image f n The normalized correlation with (n = 0,..., N−1) is given by the following equation. Note that R is a correlation value.
[Expression 11]
Figure 0004246516
However,
[Expression 12]
Figure 0004246516
[Formula 13]
Figure 0004246516
[0033]
When matching is performed under complicated conditions, problems such as erroneous detection of a non-face region similar to a face pattern and an increase in the number of parameters to be searched for may occur. In this embodiment, in order to speed up and stabilize the processing, as a condition at the time of shooting,
・ At the beginning of the treatment, it is facing the front.
-There is no object other than a person in the scene except for the background.
-Face rotation is only x-axis rotation or y-axis rotation.
・ There is almost no change in the z-axis direction (depth).
Add the constraint. The preconditions used here are not always met, but most of the situations used are covered and are not a problem in practice.
[0034]
Hereinafter, a head position / posture estimation method performed in this embodiment will be described. FIG. 12 is a flowchart showing a flow of head position / posture estimation processing performed in the present embodiment.
(A) First, as an initialization process, the size of the face area of the input image is matched with the scale of the template image (the processes in S1202 to S1207 in FIG. 12).
Reference numeral 1201 denotes a three-dimensional model of an input face. A frame image facing the front is input (S1202), and a template image generated by two-dimensional projective transformation of the three-dimensional model is scaled in several stages to perform matching.
In the matching, first, the z-axis depth of the three-dimensional model 1201 is changed (S1203), a two-dimensional projective transformation is performed to generate a template image (S1204), and matching is performed (S1205). Next, the maximum R (correlation value) is calculated by the above formula. When R reaches the maximum value (Yes in S1207), the z-axis depth in S1203 is determined to be the scale having the highest correlation, and this scale (1208) is adopted for the subsequent processing. . If R is not the maximum (No in S1207), the process is repeated again from the process of changing the z-axis depth (S1203).
[0035]
(B) Next, the template image generated by sequentially changing the orientation of the three-dimensional model is compared with the input image to obtain the orientation of the head of the input image (frame image) (S1209 to S1214 in FIG. 12). processing).
First, the rotation angle around the x-axis and y-axis of the three-dimensional model is changed (S1209), and two-dimensional projective transformation is performed to generate a template image (S1210). The generated template image is scanned over the entire input image and matching is performed (S1211), the similarity at each location is sequentially obtained, and the location where the local maximum is equal to or greater than the threshold is detected to obtain the correlation value R (S1212). These processes are repeated until R reaches the maximum value (S1213), and the posture having the highest correlation among the template images obtained from various postures is set as the head posture (1214) of the input image.
(C) Repeat (b) for each frame image of the input video (S1215).
In the present embodiment, the input image and the template image are reduced to 50% for processing. The template image was created at an angle of 1 degree in the range of -20 to +20 degrees of the face angle estimated in the previous frame. As a result, the processing can be greatly speeded up, and noise components on the image can be removed.
[0036]
(Correction of estimated posture)
In the case of a moving image, there is an operation such as blinking, and the above-described three-dimensional position / posture estimation method may partially make a false detection. As a result, there arises a problem that the estimated rotation angle of the head does not continuously change.
In order to solve such a problem, a method using update template matching has been proposed. However, if this conventional method is used in this embodiment, a template is created from a three-dimensional model of a face measured in advance, so that it is necessary to prepare and sequentially render several three-dimensional models, which is inefficient.
Therefore, in the present embodiment, the head rotation angle estimated by the above-described three-dimensional position / posture estimation method is used in combination with the Snakes algorithm and the moving average filter to eliminate exceptional points, and to continuously calculate the estimated rotation angle. To change.
In FIG. 13, the result of estimating the posture of the head with respect to an input image facing the front from the front facing to the right and further to the left is indicated by a broken line. Moreover, the state of the rotation angle after correction is shown by a solid line. It can be seen that this method makes it possible to estimate the posture of the head more naturally.
[0037]
Next, the process (2) of cutting out the hair portion will be described.
In the present embodiment, in order to extract only the hair region from the image, a hairstyle extraction mask is generated. First, smoothing is performed to reduce noise components in the hair region. Next, the person region and the background region are separated by the background subtraction method, and the template region collated by the estimation of the head position / posture is deleted. Finally, using the fact that the lightness of the hair region is lower than that of the skin color region, the person region is divided into the skin region and the hair region using the lightness. FIG. 14 shows a state in which a hair portion (hairstyle) is cut out by the method of the present embodiment.
In FIG. 14, (a) is an input image. The result of smoothing from (a) and deleting the region where the background region and the template image overlap is shown in (b), and the result of extracting the hair region based on the brightness difference is shown in (c). (D) is the hairstyle image finally obtained. At the time of synthesis, the boundary portion is blurred using the above-described alpha map method.
[0038]
Finally, the construction of the hairstyle database (3) will be described.
The processes (1) and (2) are performed for each frame of the live-action video, and a hairstyle image is extracted from the image. A hairstyle database is constructed by associating the hairstyle image with the posture parameters of the three-dimensional human body model.
[0039]
<Combination of live-action image and hairstyle image>
The synthesis of the live-action image and the hairstyle image is performed by the following process. This process is shown in FIG. Each process will be described in detail later.
(1) The three-dimensional position / posture of the person's head is estimated using the input person moving image (input video of the person to be combined) (S1101) (S1102).
(2) Using the estimated three-dimensional posture, refer to hairstyle data of a matching posture or a similar posture from the hairstyle database (S1103).
(3) The searched hairstyle image is adjusted (S1104) and synthesized with the person in the live-action video (S1105). Finally, the generated image is output (S1106).
(4) By repeating the above (1) to (3) for each frame of the input video, the live-action video and the hairstyle image are synthesized.
[0040]
First, the estimation of the three-dimensional position / posture of (1) is performed by the same method as that described in <Creating a hairstyle database> described above.
[0041]
Next, the reference to the hairstyle data (2) will be described.
As described above in <Creation of Hair Style Database>, the hair style image extracted from the image is stored in the hair style database in association with the posture parameter of the three-dimensional human body model. For this reason, using the three-dimensional posture estimated in the above (1), it is possible to refer to hairstyle data having a matching posture or a similar posture from the hairstyle database.
[0042]
Next, the synthesis of the live-action video and the hairstyle image (3) will be described.
When combining a hairstyle with an input image, it is necessary to match the position to be combined with the hair region of a person in the input image. In this embodiment, a rough hair region in the input image is designated using coordinates matched by the template image, and the virtual hairstyle is manually set so as to meet the size of the head in the input video as an initial condition. Size adjustment and composition are performed.
[0043]
<Example>
Here, an example will be described in which a three-dimensional posture (motion) of a person is estimated from a video image and a virtual clothes / hairstyle is synthesized.
FIG. 15 shows the result of combining virtual clothes with a walking person. 15A shows an input image, and FIG. 15B shows a three-dimensional posture estimation result. (C) has just produced | generated the virtual clothing image according to the attitude | position of the person. (D) is the result of combining the virtual clothing image of (c) with the input image of (a).
Similarly, FIG. 16 shows the result of synthesizing the hairstyle according to the posture of the person's head. In FIG. 16, (a) is an input image, and (b) is a three-dimensional posture estimation result. (C) has just produced | generated the hairstyle image according to the attitude | position of the person. (D) is a result of combining the hairstyle image of (c) with the input image of (a).
According to the present embodiment, as shown in FIGS. 15 and 16, it is possible to synthesize virtual clothes and hairstyles linked to the posture (motion) of a person.
[0044]
【The invention's effect】
According to the present invention, instead of the conventional CG-based virtual clothes / hairstyles, a video-realistic composition result is obtained by a technique for generating / combining live-action-based virtual clothes / hairstyles linked to the posture (motion) of a person. Can be obtained.
[Brief description of the drawings]
FIG. 1 is a diagram showing composition of virtual clothes and a person using a conventional technique.
FIG. 2 is a flowchart showing a virtual clothes database creation process.
FIG. 3 is a flowchart showing a composition process of a live-action video and a clothing image.
FIG. 4 is a diagram illustrating a clothing image extraction result according to the method of the present embodiment;
FIG. 5 is a diagram illustrating a detection result of a sleeve boundary according to the method of the present embodiment.
FIG. 6 is a diagram showing an alpha map used in the present embodiment.
FIG. 7 is a diagram showing a clothing image whose posture is adjusted by the method of the present embodiment.
FIG. 8 is a diagram illustrating a clothing image adjusted using a three-dimensional model by the method of the present embodiment.
FIG. 9 is a diagram showing a three-dimensional model of a face in which the inclinations around the X, Y, and Z axes are normalized by the method of the present embodiment.
FIG. 10 is a flowchart showing processing for creating a hairstyle database.
FIG. 11 is a flowchart showing a composition process of a live-action image and a hairstyle image.
FIG. 12 is a flowchart showing a flow of a head three-dimensional position / posture estimation process.
FIG. 13 is a diagram illustrating a correction result of the estimated posture by the method of the present embodiment.
FIG. 14 is a diagram illustrating a hairstyle extraction result according to the method of the present embodiment;
FIG. 15 is a diagram illustrating an example in which virtual clothes are combined with a walking person.
FIG. 16 is a diagram illustrating an example in which a hairstyle is synthesized in accordance with the movement of a person's head.

Claims (8)

人物動画像生成システムであって、
衣服画像を3次元姿勢の姿勢パラメータとともに格納した仮想衣服データベースを有し、
ビデオ映像中の人物から、背景部分、肌色部分及び前記ビデオ映像中の人物の3次元姿勢を推定して人体頭部部分を削除することにより、衣服画像を抽出する衣服画像抽出手段と、
前記衣服画像抽出手段により抽出した衣服画像を、前記推定した3次元姿勢の姿勢パラメータとともに、前記仮想衣服データベースに格納する仮想衣服データベース格納手段と、
合成対象のビデオ映像中の人物の3次元姿勢の姿勢パラメータを推定する3次元姿勢推定手段と、
前記3次元姿勢推定手段により推定した3次元姿勢の姿勢パラメータに対応する衣服画像を前記仮想衣服データベースから選択する衣服画像選択手段と、
前記合成対象のビデオ映像中の人物に前記衣服画像選択手段により選択した衣服画像を合成する衣服画像合成手段と
を備えることを特徴とする人物動画像生成システム。
A human moving image generation system,
A virtual clothing database storing clothing images together with posture parameters of a three-dimensional posture;
A clothing image extracting means for extracting a clothing image by estimating a three-dimensional posture of the person in the video image by estimating a background portion, a skin color portion, and a human head portion from the person in the video image;
Virtual clothes database storage means for storing the clothes image extracted by the clothes image extraction means in the virtual clothes database together with the posture parameters of the estimated three-dimensional posture;
3D posture estimation means for estimating posture parameters of a 3D posture of a person in the video image to be synthesized;
Clothing image selection means for selecting a clothing image corresponding to the posture parameter of the three-dimensional posture estimated by the three-dimensional posture estimation means from the virtual clothing database;
People moving image generation system, characterized in that it comprises a clothing image synthesizing means for synthesizing the garment image selected by the garment image selecting means to the person in the video image of the compositing target.
請求項1に記載の人物動画像生成システムにおいて、さらに、
前記衣服画像選択手段は、前記3次元姿勢推定手段により推定した3次元姿勢の姿勢パラメータと一致する姿勢パラメータをもつ衣服画像を選択し、一致する衣服画像がない場合には類似する姿勢パラメータをもつ衣服画像を選択し、
前記衣服画像合成手段は、前記衣服画像選択手段で類似する姿勢パラメータをもつ衣服画像を選択した場合に、選択した衣服画像を合成対象のビデオ映像中の人物の姿勢に合うように調整すること
を特徴とする人物動画像生成システム。
The human moving image generation system according to claim 1, further comprising:
The clothing image selection unit selects a clothing image having a posture parameter that matches the posture parameter of the three-dimensional posture estimated by the three-dimensional posture estimation unit, and has a similar posture parameter when there is no matching clothing image. Select a clothing image ,
The clothing image composition means adjusts the selected clothing image to match the posture of the person in the video image to be synthesized when the clothing image selection means selects a clothing image having a similar posture parameter. A featured human moving image generation system.
請求項に記載の人物動画像生成システムにおいて、
前記衣服画像合成手段における前記調整は、衣服画像から衣服の境界を検出し、関節部分を中心に身体部位の回転軸を回転させることにより合成対象のビデオ映像中の人物の姿勢に合わせること
を特徴とする人物動画像生成システム。
The human moving image generation system according to claim 2 ,
The adjustment in the clothing image synthesizing means detects the boundary of the clothing from the clothing image, and adjusts the posture of the person in the video image to be synthesized by rotating the rotation axis of the body part around the joint part. A human moving image generation system.
請求項1〜のいずれかに記載の人物動画像生成システムにおいて、さらに、
ヘアスタイル画像を3次元姿勢の姿勢パラメータとともに格納したヘアスタイルデータベースと、
合成対象のビデオ映像中の人物の頭部の3次元姿勢の姿勢パラメータを推定する頭部3次元姿勢推定手段と、
前記頭部3次元姿勢推定手段により推定した頭部の3次元姿勢の姿勢パラメータに対応するヘアスタイル画像を前記ヘアスタイルデータベースから選択するヘアスタイル画像選択手段と、
前記合成対象のビデオ映像中の人物に前記ヘアスタイル画像選択手段により選択したヘアスタイル画像を合成するヘアスタイル画像合成手段と
を備えることを特徴とする人物動画像生成システム。
The human moving image generation system according to any one of claims 1 to 3 , further comprising:
A hairstyle database storing hairstyle images together with posture parameters of a three-dimensional posture;
A head 3D posture estimation means for estimating a posture parameter of a 3D posture of a person's head in a video image to be synthesized;
Hairstyle image selecting means for selecting a hairstyle image corresponding to the posture parameter of the head three-dimensional posture estimated by the head three-dimensional posture estimating means from the hairstyle database;
People moving image generation system characterized by comprising a hair style image synthesizing means for synthesizing the hair style image selected by the hairstyle image selecting means to the person in the video image of the compositing target.
請求項4に記載の人物動画像生成システムにおいて、さらに、
ビデオ映像中の人物からヘアスタイル画像を抽出するヘアスタイル画像抽出手段と、
前記ヘアスタイル画像抽出手段により抽出したヘアスタイル画像を前記ヘアスタイルデータベースに格納するヘアスタイルデータベース格納手段とを備え、
前記ヘアスタイル画像抽出手段は、前記頭部3次元姿勢推定手段を用いて前記ビデオ映像中の人物の頭部の3次元姿勢の姿勢パラメータを推定し、顔領域を削除することによりヘアスタイル画像を抽出し、
前記ヘアスタイルデータベース格納手段は、ヘアスタイル画像とともに、前記推定した頭部の3次元姿勢の姿勢パラメータを格納し、
前記ヘアスタイル画像選択手段は、前記頭部3次元姿勢推定手段により推定した3次元姿勢の姿勢パラメータと一致する姿勢パラメータをもつヘアスタイル画像を選択し、一致するヘアスタイル画像がない場合には類似する姿勢パラメータをもつヘアスタイル画像を選択すること
を特徴とする人物動画像生成システム。
The human moving image generation system according to claim 4, further comprising:
Hairstyle image extraction means for extracting a hairstyle image from a person in a video image;
Hairstyle database storage means for storing the hairstyle image extracted by the hairstyle image extraction means in the hairstyle database;
The hairstyle image extracting unit estimates a posture parameter of a three-dimensional posture of a person's head in the video image by using the head three-dimensional posture estimation unit, and deletes a face region to obtain a hairstyle image. Extract and
The hairstyle database storage means stores a posture parameter of the estimated three-dimensional posture of the head together with a hairstyle image,
The hairstyle image selection means selects a hairstyle image having a posture parameter that matches the posture parameter of the three-dimensional posture estimated by the head three-dimensional posture estimation means, and is similar if there is no matching hairstyle image A human moving image generation system characterized by selecting a hairstyle image having a posture parameter to be selected.
請求項又はのいずれかに記載の人物動画像生成システムにおいて、
前記頭部3次元姿勢推定手段は、ビデオ映像中の人物の画像と、頭部の3次元モデルを2次元射影変換したテンプレート画像とをマッチングして顔領域を検出することにより、ビデオ映像中の人物の頭部の3次元姿勢の姿勢パラメータを推定すること
を特徴とする人物動画像生成システム。
In the human moving image generating system according to claim 4 or 5 ,
The 3D head pose estimation means, and the person in the image in the video image, by detecting the face area matching the template image with 3-dimensional model were 2D projective transformation of the head, in the video image A human moving image generation system characterized by estimating a posture parameter of a three-dimensional posture of a human head.
請求項1〜のいずれかに記載の人物動画像生成システムにおいて、
前記衣服画像合成手段および前記ヘアスタイル画像合成手段は、
アルファブレンドにより衣服画像およびヘアスタイル画像の輪郭部分をぼかして自然な輪郭を得た後に合成を行なうこと
を特徴とする人物動画像生成システム。
In the human moving image generating system according to any one of claims 1 to 6 ,
The clothes image synthesis means and the hairstyle image synthesis means are:
A human moving image generation system characterized by synthesizing a natural contour by blurring the contour portion of a clothing image and a hairstyle image by alpha blending.
請求項1〜のいずれかに記載された人物動画像生成システムをコンピュータシステムに構成させるプログラム。Program for constituting a person moving image generation system according to any one of claims 1 to 7 the computer system.
JP2003037381A 2003-02-14 2003-02-14 Human video generation system Expired - Fee Related JP4246516B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003037381A JP4246516B2 (en) 2003-02-14 2003-02-14 Human video generation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003037381A JP4246516B2 (en) 2003-02-14 2003-02-14 Human video generation system

Publications (2)

Publication Number Publication Date
JP2004246729A JP2004246729A (en) 2004-09-02
JP4246516B2 true JP4246516B2 (en) 2009-04-02

Family

ID=33022215

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003037381A Expired - Fee Related JP4246516B2 (en) 2003-02-14 2003-02-14 Human video generation system

Country Status (1)

Country Link
JP (1) JP4246516B2 (en)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4473754B2 (en) * 2005-03-11 2010-06-02 株式会社東芝 Virtual fitting device
EP1887526A1 (en) * 2006-08-11 2008-02-13 Seac02 S.r.l. A digitally-augmented reality video system
WO2008099301A1 (en) * 2007-02-14 2008-08-21 Koninklijke Philips Electronics N.V. Feedback device for guiding and supervising physical exercises
EP2009868B1 (en) * 2007-06-29 2016-09-07 Alcatel Lucent Method and system for improving the appearance of a person on the RTP stream coming from a media terminal
US8174521B2 (en) * 2007-10-26 2012-05-08 Zazzle.Com Product modeling system and method
JP5571895B2 (en) * 2007-12-25 2014-08-13 パナソニック株式会社 Information display device
JP5083559B2 (en) * 2008-06-02 2012-11-28 カシオ計算機株式会社 Image composition apparatus, image composition method, and program
DE102009036029A1 (en) * 2009-08-04 2011-02-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Presentation of complex and / or deformable objects as well as virtual fitting of attractable objects
JP5293636B2 (en) * 2010-02-22 2013-09-18 ブラザー工業株式会社 Model image creation device and model image creation program for model image creation device
JP5722603B2 (en) * 2010-12-03 2015-05-20 新日鉄住金ソリューションズ株式会社 Augmented reality presentation device, augmented reality presentation method and program
EP2681638A4 (en) * 2011-02-28 2016-08-03 Facecake Marketing Technologies Inc Real-time virtual reflection
JP5994233B2 (en) * 2011-11-08 2016-09-21 ソニー株式会社 Image processing apparatus, image processing method, and program
JP2013101528A (en) * 2011-11-09 2013-05-23 Sony Corp Information processing apparatus, display control method, and program
JP5901370B2 (en) * 2012-03-19 2016-04-06 株式会社Bs—Tbs Image processing apparatus, image processing method, and image processing program
JP5613741B2 (en) * 2012-09-27 2014-10-29 株式会社東芝 Image processing apparatus, method, and program
JP2014179135A (en) * 2014-07-01 2014-09-25 Toshiba Corp Image processing system, method and program
JP6262105B2 (en) 2014-09-04 2018-01-17 株式会社東芝 Image processing apparatus, image processing system, image processing method, and program
JP2016071682A (en) * 2014-09-30 2016-05-09 大日本印刷株式会社 Object arrangement device, object arrangement method, and program
JP2016015182A (en) * 2015-11-04 2016-01-28 株式会社東芝 Image processor, method and program
JP2020204790A (en) * 2017-08-31 2020-12-24 らしさ・ドット・コム株式会社 Simulation apparatus, simulation method and computer program
JP6483782B2 (en) * 2017-10-23 2019-03-13 株式会社東芝 Image processing apparatus, method, and program
JP7249015B2 (en) * 2018-12-27 2023-03-30 ファミリーイナダ株式会社 Product fitting system, terminal device, management server, computer program, and product sales method
CN111402362B (en) * 2020-03-27 2023-04-28 咪咕文化科技有限公司 Method for adjusting virtual garment, electronic device and computer readable storage medium

Also Published As

Publication number Publication date
JP2004246729A (en) 2004-09-02

Similar Documents

Publication Publication Date Title
JP4246516B2 (en) Human video generation system
Achenbach et al. Fast generation of realistic virtual humans
Thies et al. Real-time expression transfer for facial reenactment.
Shi et al. Automatic acquisition of high-fidelity facial performances using monocular videos
Liu et al. Expressive expression mapping with ratio images
Bickel et al. Multi-scale capture of facial geometry and motion
Pighin et al. Modeling and animating realistic faces from images
JP4473754B2 (en) Virtual fitting device
US9036898B1 (en) High-quality passive performance capture using anchor frames
US11158121B1 (en) Systems and methods for generating accurate and realistic clothing models with wrinkles
WO2016011834A1 (en) Image processing method and system
Zhou et al. Image-based clothes animation for virtual fitting
US6828972B2 (en) System and method for expression mapping
US9224245B2 (en) Mesh animation
JP2013235537A (en) Image creation device, image creation program and recording medium
Wenninger et al. Realistic virtual humans from smartphone videos
JP2009211513A (en) Image processing apparatus and method therefor
Li et al. Spa: Sparse photorealistic animation using a single rgb-d camera
JP2012113438A (en) Posture estimation apparatus and posture estimation program
JP2011186816A (en) Face image synthesis apparatus
JP5419777B2 (en) Face image synthesizer
JP5419773B2 (en) Face image synthesizer
Gomes et al. Do as I do: Transferring human motion and appearance between monocular videos with spatial and temporal constraints
Yin et al. 3D face recognition based on high-resolution 3D face modeling from frontal and profile views
Kawai et al. From image inpainting to diminished reality

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080916

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090108

R150 Certificate of patent or registration of utility model

Ref document number: 4246516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130116

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140116

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees