JP2023526860A - 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング - Google Patents
階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング Download PDFInfo
- Publication number
- JP2023526860A JP2023526860A JP2022571294A JP2022571294A JP2023526860A JP 2023526860 A JP2023526860 A JP 2023526860A JP 2022571294 A JP2022571294 A JP 2022571294A JP 2022571294 A JP2022571294 A JP 2022571294A JP 2023526860 A JP2023526860 A JP 2023526860A
- Authority
- JP
- Japan
- Prior art keywords
- maps
- computing system
- layer
- layers
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001537 neural effect Effects 0.000 title description 47
- 238000009877 rendering Methods 0.000 title description 38
- 238000000034 method Methods 0.000 claims abstract description 60
- 230000000694 effects Effects 0.000 claims abstract description 52
- 238000012549 training Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims 2
- 239000010410 layer Substances 0.000 description 158
- 230000033001 locomotion Effects 0.000 description 50
- 238000000354 decomposition reaction Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000008014 freezing Effects 0.000 description 4
- 238000007710 freezing Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000002356 single layer Substances 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005188 flotation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000002834 transmittance Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
Description
概して、本開示は、映像の中の様々な個人の異なるモーションが起こる時間を操作し、編集するなど、普通の自然な映像の中の人々または他のオブジェクトのリタイミングを可能にするシステムおよび方法を対象とする。本開示の例示的実装形態は、異なるモーションを時間整合し、いくつかのアクションの速さを変化させ(たとえば、オブジェクトを速め/遅くし、もしくは全体を「フリーズ」させ)、または選択されたオブジェクトを映像から「消去」することができる。これらの効果は、映像観察者が普通の映像を通して、提案される動的世界を認知し、その世界と対話するやり方を高めるのに使うことができる。たとえば、アクションが詰まった映像の中のいくつかのモーションをフリーズさせ、わずか1つのオブジェクトを動かすことによって、本開示の例示的実装形態は、見る人の注意をその特定のオブジェクトに集中させることができる。
複数の人々が自然に動いている入力映像が与えられると、本開示は、異なる人々のモーションを時間整合すること、または数人の人々の速さを変化させる(たとえば、その人たちを速める/遅くする、もしくは全員をフリーズさせる)ことを含む様々なリタイミング効果をサポートするのに適したモデルを提供する。ただし、そのような効果の高品質レンダリングを達成することは、いくつかの根本的難題を課す。たとえば、1つの難題は、モーション相関であり得る。本開示の例示的実装形態は、対象のモーションのみでなく、対象によって引き起こされるすべてのモーション(たとえば、トレース効果)も抜き出すことができる。たとえば、図1A~図1Cでは、各子供が、水に当たるときにしぶきを引き起こす。トレース効果の他の共通ケースは、ゆらゆらとした衣服など、対象に付随する反射、影、またはオブジェクトを含む。別の例として、難題は遮蔽および露出であり得る。モーションをリタイミングすることはしばしば、シーンの中に新たな遮蔽および露出を生じ得る。露出領域においてシーン内容をレンダリングし、対象の間の正しい奥行順序を維持することは、高品質であり写実的な効果を達成することに寄与し得る。別の例示的難題は、時間的コヒーレンスであり得る。時間的にコヒーレントな結果を達成するのは困難な場合があり、それは、フレームの間のわずかな不整合などの小さい誤差が、フレームが映像として閲覧されるときに目につく視覚的アーティファクトとして目立ち得るからである。
入力映像Vを与えられると、提案される目標は、各フレームIt∈Vを、N個のレイヤのセット
提案されるモデルは、新規人間固有階層化映像表現においてニューラルレンダリング手法を合成することができ(たとえば、グラフィックスレンダリングからの従来の要素と、深層学習における最近の進歩の統合)、これを本開示の例示的実装形態では階層化ニューラルレンダリングと呼ぶ。
本開示の例示的実装形態は、ニューラルレンダラの最適パラメータθおよび潜在テクスチャ
Etotal=Erecon+γmEmask+βEreg (6)
によって与えることができ、上式で、γmおよびβは、項の相対的重みを制御する。
本開示の例示的実装形態は、マルチスケール手法を含み得る。この手法は、最初に、オリジナル映像のダウンサンプリングされたバージョンに対して式6を使って、提案されるモデルをトレーニングすることを含み得る。本開示の例示的実装形態は次いで、別個の軽量洗練ネットワークを使って、結果をオリジナル解像度にアップサンプリングすることができ、これは、各RGBAレイヤ上で別個に動作するいくつかの残差ブロックからなる。洗練ネットワークは、ニューラルレンダラのRGBA出力の双一次アップサンプリングされた(たとえば、所望の出力サイズに)連結、ニューラルレンダラに入力されるUVによってサンプリングされたテクスチャ、および/またはRGBA出力レイヤに先行するニューラルレンダラによって出力された最終特徴マップを、入力として受信し得る。洗練ネットワークのRGBA出力は次いで、ニューラルレンダラの出力と同じやり方で混成され得る。いくつかの実装形態では、アップサンプリングネットワークは、L1再構築損失のみを使ってトレーニングされ得る。
映像リタイミング効果はしばしば、オリジナルフレーム中で部分的に、またはそれどころか十分に遮蔽された人々を露出することがある。いくつかの実装形態では、たとえば映像全体について共同で学習され得る単一のテクスチャマップを各人が有する実装形態では、本開示の例示的実装形態は、露出内容をレンダリングすることができる(たとえば、本開示の例示的実装形態が、そこから正しくサンプリングすることができる限り)。その目的のために、本開示の例示的実装形態は、すべてのUVマップが、遮蔽が存在していても、映像フレームから学習可能なものとして各個人の全身を確実に表すようにし得る。いくつかの実施形態では、塗り直しおよび/または他の推定技法が、欠落テクスチャを埋めるのに使われてよい。
たとえば、レイヤへの人々の割当て、時間経過に伴うレイヤの順序、キーポイントクリーンアップ、およびマスク編集を含む、レイヤ分解を制御または向上するためにユーザが編集を適用することができるいくつかの点が、提案するパイプラインには存在する。
入力映像が、動いているカメラを含むとき、本開示の例示的実装形態は、最初に、特徴ベースのトラッキングアルゴリズムを使ってカメラモーションを推定することを含み得る。たとえば、本開示の例示的実装形態は、射影変換を使って、各フレームにおけるカメラモーションをモデル化することができ、本開示の例示的実装形態はモーションを、フレームの間の合致したORB特徴から堅牢に推定し得る。小さいカメラモーションまたは自然な手の震えを安定させるとき、本開示の例示的実装形態は、各フレームと単一の基準フレームとの間のホモグラフィを計算し(時間経過に伴ってカメラをトラッキングするよりもうまくいき得る)、次いで、それらを、入力映像を安定させるのに使うことができる。映像が、大きいカメラモーションまたは実質的パンニングを含むとき、本開示の例示的実装形態は、連続するフレームの間の、時間に伴うホモグラフィを推定し、それらを、共通座標系に関するフレームすべてを登録するのに使い、次いで、この座標系変換を、オリジナルカメラモーションを保存するために背景UVマップに適用することができる。たとえば、レイヤをフレームtから
記述される結果を生成するのに使われる1つまたは複数の例示的実装形態の例示的実装形態詳細が、以下で与えられる。これらの詳細は、1つの例示的実装形態としてのみ与えられ、必ずしも、本開示の例示的態様による実装形態のいかなる限定も定義するわけではない。本開示の例示的実装形態は最初に、より小さい次元(舞踏場シーケンス用には352×256、すべての他の映像用には448×256)に沿ってサイズ256にダウンサンプリングされた入力映像で、2K個のエポック向けにニューラルレンダラをトレーニングする。本開示の例示的実装形態は、範囲[1,1.25]内の一様にランダムなスケーリング因子でフレームをサイズ変更することによって、時間の増強75%を適用し、これにランダムクロッピングが続く。次に、本開示の例示的実装形態は、既存のパラメータをフリーズさせ、低解像度結果を高めるように追加アップサンプリングネットワークをトレーニングする。この軽量ネットワークは、いかなるデータ増強もなしで、L1再構築損失がある500個のエポック向けにトレーニングされ得る。アップサンプリングネットワークの最終出力は、低解像度出力のサイズの2倍である次元(舞踏場シーケンス用には704×512、すべての他の映像用には896×512)を有する。本開示の例示的実装形態は、提案されるネットワークをPyTorchにおいて実装し、1e-3の学習レートでAdamオプティマイザを使う。映像の長さおよび予測されるレイヤの数によっては、総トレーニング時間は、4つのNVIDIA Tesla P100 GPUで6~12時間かかる。
本開示の例示的実装形態は、提案される方法をいくつかの実世界映像においてテストしたが、それらの多くは、ハンドヘルドセルフォンカメラによってキャプチャされたものである。映像は、一斉に動いている複数の人々を示し、複雑な自然環境における広範な人間アクション(たとえば、踊る、ジャンプする、走る)にわたる。これらの映像からの代表的フレームを、図9に示す。
提案するレイヤ分解のうちのいくつかが、図3において可視化されている。いくつかの映像(たとえば、図3に示される舞踏場シーンおよび図3に示されるプールのジャンプシーン)について、本開示の例示的実装形態は、いく人かの人々を1つのレイヤに手動でグループ化する。他の映像については、各人が独自のレイヤを有する。映像すべてに対して、提案されるモデルは、人々を複数のレイヤに解きほぐすのに成功する。レイヤは、ゆらゆらとした髪の毛および衣服(たとえば、舞踏場シーンにおける前景ダンサーの白いドレス)などのごく細部、または人々に付随するオブジェクト(たとえば、プールジャンプシーンにおける子供の浮き具)をキャプチャする。これは、本開示の例示的態様に従って、これらの要素を明示的には表さない粗い人物UVマップで提案されるモデルを初期化したことにかかわらず遂行することができる。提案されるモデルの、人物領域を正確にセグメント化するこの能力は、図3でもより子細に示され得る。
分解されたレイヤを取得した後、本開示の例示的実装形態は、レイヤに対する単純動作により、様々なリタイミングおよび編集効果を生じることができる。本開示の例示的実装形態は、いくつかのそのようなリタイミング結果を図7~図10に示す。
本開示の別の例示的態様は、非階層化モデル(たとえば、フレームならびに背景における人々すべてを表す単一のサンプリングされたテクスチャマップを入力としてとり、フレームのRGB再構築を直接出力するモデル)を含み得る。非階層化モデルは、たとえば、階層化モデルよりも単純であり得る。例示的非階層化モデルが、例示的階層化モデルと比較される。このベースラインは、遅延型ニューラルレンダリング手法に従う。
提案されるものはしばしば、レイヤを分解するのに成功し得るが、いくつかの特に難しいケースでは、手動訂正を要する場合がある。たとえば、いくつかの場合には、アーティファクトが、分解されたレイヤに存在し得る。本開示の例示的実装形態が観察した1つのアーティファクトは、図6に示される「水しぶき」シーンの背景レイヤにあり得る。図6に示されるように、アーティファクトは、モデルがグランドトゥルース外観を絶対に観察するようにならないプールの領域に見ることができる(たとえば、それらの領域は、人々によって常に遮蔽される)。これらのケースでは、アーティファクトは、塗り直しネットワーク(たとえば、別個の塗り直しネットワーク)で訂正されてよい。有利には、背景は概して、人々のような変形可能な対象よりも塗り直すのが簡単であり得る。提案されるモデルは、完璧な塗り直しサポートを提供するように、これらの変形可能オブジェクトに対処することができる。たとえば、塗り直しステップがレイヤに追加されてよい(たとえば、ニューラルネットワークまたは他の塗り直しシステムを使って)。
本開示の例示的態様は、マスク誤差Emaskを使用することができる。たとえば、マスクは、[0,0.5,1]の中の値をもつトリマップであってよく、ここで、バイナリUVマスクの形態学上の膨張によって、不特定のエリアが生じられる。トリマップmに対して、b0を、m=0であるピクセルのバイナリマスクとし、b0.5およびb1が同様に定義される。いくつかの実装形態では、前景は持ち上げられてよく、不特定のエリアは、乏しい極小値を回避するように減じられてよい。最終マスク誤差関数は、
D(m,α)=5||b1 h(1.0-α)||1+0.2||b0.5 hα||1+||b0 hα||1 (9)
であり、上式で、hはアダマール(要素単位)積である。
図11Aは、本開示の例示的実施形態に従って階層化ニューラルレンダリングを実施する例示的コンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。
図12は、本開示の例示的実施形態による例示的レイヤレンダラシステム1200のブロック図を示す。いくつかの実装形態では、レイヤレンダラモデル1200は、映像データを記述する入力データ1204のセットを受信し、入力データ1204の受信の結果として、分解された映像レイヤを含む出力データ1206を与えるようにトレーニングされてよい。したがって、いくつかの実装形態では、レイヤレンダラシステム1200は、映像データを、たとえば、背景レイヤおよび/または1つもしくは複数のオブジェクトレイヤを含む1つまたは複数のレイヤに分解するように動作可能であり得るレイヤレンダラモデル1202を含み得る。
図14は、本開示の例示的実施形態に従って実施するための例示的方法のフローチャート図を示す。図6は、説明および考察のために、具体的順序で実施されるステップを示すが、本開示の方法は、具体的に示す順序または並びには限定されない。方法600の様々なステップは、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。
本明細書において論じた技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに行われるアクションおよびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有の柔軟性により、構成要素の間での、タスクおよび機能性の多種多様の可能な構成、組合せ、および分割が可能である。たとえば、本明細書において論じるプロセスは、組合せで動く、単一のデバイスもしくは構成要素または複数のデバイスもしくは構成要素を使って実装することができる。データベースおよびアプリケーションは、単一のシステム上で実装するか、または複数のシステムに分散することができる。分散構成要素は、順次、または並行して動作することができる。
50 コンピューティングデバイス
100 コンピューティングシステム、システム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
120 レイヤレンダラモデル、モデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
140 レイヤレンダラモデル、モデル
150 トレーニング用コンピューティングシステム
152 プロセッサ
154 メモリ
160 モデル訓練器
180 ネットワーク
202 オブジェクトマップ
204 深層テクスチャマップ、テクスチャアトラス、テクスチャマップ
210 再サンプラ
212 RGBAレイヤ、レイヤ
213 αレイヤ
220 ニューラルレンダリングネットワーク、ニューラルレンダラ、レイヤレンダリングモデル
300 レイヤレンダラシステム
302 オブジェクトマップ生成モデル
304 オブジェクトマップ
1200 レイヤレンダラシステム
1202 レイヤレンダラモデル
Claims (22)
- 修正された相対タイミングで再合成することができる複数のレイヤに映像を分解するためのコンピュータ実装方法であって、
1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、映像データを取得するステップであって、前記映像データは、1つまたは複数のオブジェクトを示す複数の画像フレームを含む、ステップと、
前記複数のフレームの各々について、
前記コンピューティングシステムによって、1つまたは複数のオブジェクトマップを生成するステップであって、前記1つまたは複数のオブジェクトマップの各々は、前記画像フレーム内の前記1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述する、ステップと、
前記コンピューティングシステムによって、前記画像フレームおよび前記1つまたは複数のオブジェクトマップを、機械学習済みレイヤレンダラモデルに入力するステップと、
前記コンピューティングシステムによって、前記機械学習済みレイヤレンダラモデルからの出力として、前記映像データの背景を示す背景レイヤ、および前記1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信するステップとを含み、
各画像フレームについて、前記1つまたは複数のオブジェクトレイヤの各々は、前記少なくとも1つのオブジェクトを示す画像データと、前記1つまたは複数のオブジェクトレイヤおよび前記背景レイヤが、修正された相対タイミングで再合成することができるような前記少なくとも1つのオブジェクトに少なくとも部分的に起因する1つまたは複数のトレース効果とを含む、コンピュータ実装方法。 - 前記コンピューティングシステムによって、前記画像フレームおよび前記1つまたは複数のオブジェクトマップを前記機械学習済みレイヤレンダラモデルに入力するステップは、前記1つまたは複数のオブジェクトマップの各々を前記機械学習済みレイヤレンダラモデルに反復して個々に入力し、前記機械学習済みレイヤレンダラモデルからの出力として、および前記コンピューティングシステムによって、それぞれ前記1つまたは複数のオブジェクトマップへの前記1つまたは複数のオブジェクトレイヤの各々を反復して個々に受信するステップを含む、請求項1に記載のコンピュータ実装方法。
- 前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤは、1つまたは複数のカラーチャネルおよび不透明マットを含む、請求項1または2に記載のコンピュータ実装方法。
- 前記機械学習済みレイヤレンダラモデルはニューラルネットワークを含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
- 前記機械学習済みレイヤレンダラモデルは、再構築損失、マスク損失、および正規化損失に少なくとも部分的に基づいてトレーニングされている、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
- 前記トレーニングは、ダウンサンプリングされた映像で実施されており、次いで、アップサンプリングされた、請求項5に記載のコンピュータ実装方法。
- 前記1つまたは複数のオブジェクトマップは、1つまたは複数のテクスチャマップを含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法。
- 前記1つまたは複数のオブジェクトマップは、1つまたは複数の再サンプリングされたテクスチャマップを含む、請求項1から7のいずれか一項に記載のコンピュータ実装方法。
- 前記コンピューティングシステムによって、1つまたは複数のオブジェクトマップを取得するステップは、
前記コンピューティングシステムによって、1つまたは複数のUVマップを取得するステップであって、前記UVマップの各々は、前記1つまたは複数のフレーム内に示される前記1つまたは複数のオブジェクトのうちの前記少なくとも1つのオブジェクトを示す、ステップと、
前記コンピューティングシステムによって、背景深層テクスチャマップおよび1つまたは複数のオブジェクト深層テクスチャマップを取得するステップと、
前記コンピューティングシステムによって、前記1つまたは複数のUVマップに少なくとも部分的に基づいて前記1つまたは複数のオブジェクト深層テクスチャマップを再サンプリングするステップとを含む、請求項8に記載のコンピュータ実装方法。 - 前記コンピューティングシステムによって、前記1つまたは複数のUVマップを生成するステップは、
前記コンピューティングシステムによって、1つまたは複数のキーポイントを識別するステップと、
前記コンピューティングシステムによって、前記1つまたは複数のキーポイントに基づいて1つまたは複数のUVマップを取得するステップとを含む、請求項9に記載のコンピュータ実装方法。 - 前記コンピューティングシステムによって、前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤを受信したことに続いて、後処理ステップにおいて前記映像データの高解像度詳細を転送するステップをさらに含む、請求項1から10のいずれか一項に記載のコンピュータ実装方法。
- 映像データを複数のレイヤに分解するように構成されたコンピューティングシステムであって、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、前記動作は、
映像データを取得することであって、前記映像データは、1つまたは複数のオブジェクトを示す複数の画像フレームを含む、取得することと、
前記複数のフレームの各々について、
1つまたは複数のオブジェクトマップを生成することであって、前記1つまたは複数のオブジェクトマップの各々は、前記画像フレーム内の前記1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述する、生成することと、
前記画像フレームおよび前記1つまたは複数のオブジェクトマップを、機械学習済みレイヤレンダラモデルに入力することと、
前記機械学習済みレイヤレンダラモデルからの出力として、前記映像データの背景を示す背景レイヤ、および前記1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信することとを含み、
各画像フレームについて、前記1つまたは複数のオブジェクトレイヤの各々は、前記少なくとも1つのオブジェクトを示す画像データと、前記1つまたは複数のオブジェクトレイヤおよび前記背景レイヤが、修正された相対タイミングで再合成することができるような前記少なくとも1つのオブジェクトに少なくとも部分的に起因する1つまたは複数のトレース効果とを含む、コンピューティングシステム。 - 前記画像フレームおよび前記1つまたは複数のオブジェクトマップを前記機械学習済みレイヤレンダラモデルに入力することは、前記1つまたは複数のオブジェクトマップの各々を前記機械学習済みレイヤレンダラモデルに反復して個々に入力し、前記機械学習済みレイヤレンダラモデルからの出力として、および前記コンピューティングシステムによって、それぞれ前記1つまたは複数のオブジェクトマップへの前記1つまたは複数のオブジェクトレイヤの各々を反復して個々に受信することを含む、請求項12に記載のコンピューティングシステム。
- 前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤは、1つまたは複数のカラーチャネルおよび不透明マットを含む、請求項12または請求項13に記載のコンピューティングシステム。
- 前記機械学習済みレイヤレンダラモデルはニューラルネットワークを含む、請求項12から14のいずれか一項に記載のコンピューティングシステム。
- 前記機械学習済みレイヤレンダラモデルは、再構築損失、マスク損失、および正規化損失に少なくとも部分的に基づいてトレーニングされている、請求項12から15のいずれか一項に記載のコンピューティングシステム。
- 前記トレーニングは、ダウンサンプリングされた映像で実施されており、次いで、アップサンプリングされた、請求項12から16のいずれか一項に記載のコンピューティングシステム。
- 前記1つまたは複数のオブジェクトマップは、1つまたは複数のテクスチャマップを含む、請求項12から17のいずれか一項に記載のコンピューティングシステム。
- 前記1つまたは複数のオブジェクトマップは、1つまたは複数の再サンプリングされたテクスチャマップを含む、請求項12から18のいずれか一項に記載のコンピューティングシステム。
- 1つまたは複数のオブジェクトマップを取得することは、
1つまたは複数のUVマップを取得することであって、前記UVマップの各々は、前記1つまたは複数のフレーム内に示される前記1つまたは複数のオブジェクトのうちの前記少なくとも1つのオブジェクトを示す、取得することと、
背景深層テクスチャマップおよび1つまたは複数のオブジェクト深層テクスチャマップを取得することと、
前記1つまたは複数のUVマップに少なくとも部分的に基づいて前記1つまたは複数のオブジェクト深層テクスチャマップを再サンプリングすることとを含む、請求項12から19のいずれか一項に記載のコンピューティングシステム。 - 前記1つまたは複数のUVマップを取得することは、
1つまたは複数のキーポイントを識別することと、
前記1つまたは複数のキーポイントに基づいて1つまたは複数のUVマップを生成することとを含む、請求項12から20のいずれか一項に記載のコンピューティングシステム。 - 前記命令は、
前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤを受信したことに続いて、後処理ステップにおいて前記映像データの高解像度詳細を転送することをさらに含む、請求項12から21のいずれか一項に記載のコンピューティングシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2020/034296 WO2021236104A1 (en) | 2020-05-22 | 2020-05-22 | Re-timing objects in video via layered neural rendering |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023526860A true JP2023526860A (ja) | 2023-06-23 |
JP7416983B2 JP7416983B2 (ja) | 2024-01-17 |
Family
ID=71078640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022571294A Active JP7416983B2 (ja) | 2020-05-22 | 2020-05-22 | 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング |
Country Status (6)
Country | Link |
---|---|
US (1) | US20230206955A1 (ja) |
EP (1) | EP3939248B1 (ja) |
JP (1) | JP7416983B2 (ja) |
KR (1) | KR20230012045A (ja) |
CN (1) | CN115668906A (ja) |
WO (1) | WO2021236104A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114257868B (zh) * | 2021-12-23 | 2024-06-21 | 中国农业银行股份有限公司 | 视频制作方法、装置、设备和存储介质 |
CN114972611B (zh) * | 2022-07-18 | 2022-11-11 | 深圳大学 | 一种基于引导匹配损失的深度纹理合成方法及相关设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10977802B2 (en) * | 2018-08-29 | 2021-04-13 | Qualcomm Incorporated | Motion assisted image segmentation |
-
2020
- 2020-05-22 JP JP2022571294A patent/JP7416983B2/ja active Active
- 2020-05-22 WO PCT/US2020/034296 patent/WO2021236104A1/en unknown
- 2020-05-22 KR KR1020227044313A patent/KR20230012045A/ko unknown
- 2020-05-22 US US17/927,101 patent/US20230206955A1/en active Pending
- 2020-05-22 EP EP20732064.9A patent/EP3939248B1/en active Active
- 2020-05-22 CN CN202080101199.0A patent/CN115668906A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
CN115668906A (zh) | 2023-01-31 |
EP3939248B1 (en) | 2023-09-27 |
EP3939248A1 (en) | 2022-01-19 |
WO2021236104A1 (en) | 2021-11-25 |
KR20230012045A (ko) | 2023-01-25 |
US20230206955A1 (en) | 2023-06-29 |
JP7416983B2 (ja) | 2024-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Semantic-aware implicit neural audio-driven video portrait generation | |
Thies et al. | Headon: Real-time reenactment of human portrait videos | |
US20200226821A1 (en) | Systems and Methods for Automating the Personalization of Blendshape Rigs Based on Performance Capture Data | |
Lu et al. | Layered neural rendering for retiming people in video | |
Patwardhan et al. | Video inpainting under constrained camera motion | |
US9036898B1 (en) | High-quality passive performance capture using anchor frames | |
US10812825B2 (en) | Video frame synthesis with deep learning | |
Kim et al. | Recurrent temporal aggregation framework for deep video inpainting | |
US9076258B2 (en) | Stylizing animation by example | |
WO2021155140A1 (en) | Photorealistic talking faces from audio | |
JP7416983B2 (ja) | 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング | |
US20220237879A1 (en) | Direct clothing modeling for a drivable full-body avatar | |
Ouyang et al. | Real-time neural character rendering with pose-guided multiplane images | |
JP7446566B2 (ja) | ボリュメトリックキャプチャ及びメッシュ追跡ベースの機械学習 | |
CN111915587B (zh) | 视频处理方法、装置、存储介质和电子设备 | |
Murphy et al. | Artist guided generation of video game production quality face textures | |
Tous | Pictonaut: movie cartoonization using 3D human pose estimation and GANs | |
Paier et al. | Video-based facial re-animation | |
Liu et al. | A framework for locally retargeting and rendering facial performance | |
US10922872B2 (en) | Noise reduction on G-buffers for Monte Carlo filtering | |
Lv et al. | Generating smooth and facial-details-enhanced talking head video: A perspective of pre and post processes | |
Laishram et al. | High-quality face caricature via style translation | |
Sun et al. | Generation of virtual digital human for customer service industry | |
US12033259B2 (en) | Photorealistic talking faces from audio | |
US11941736B2 (en) | Systems and methods for motion-controlled animation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230117 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7416983 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |