JP2023526860A - 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング - Google Patents

階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング Download PDF

Info

Publication number
JP2023526860A
JP2023526860A JP2022571294A JP2022571294A JP2023526860A JP 2023526860 A JP2023526860 A JP 2023526860A JP 2022571294 A JP2022571294 A JP 2022571294A JP 2022571294 A JP2022571294 A JP 2022571294A JP 2023526860 A JP2023526860 A JP 2023526860A
Authority
JP
Japan
Prior art keywords
maps
computing system
layer
layers
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022571294A
Other languages
English (en)
Other versions
JP7416983B2 (ja
Inventor
フォレスター・エイチ・コール
エリカ・ルー
タリ・ディケル
ウィリアム・ティー・フリーマン
デイヴィッド・ヘンリー・サレジン
マイケル・ルビンスタイン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023526860A publication Critical patent/JP2023526860A/ja
Application granted granted Critical
Publication of JP7416983B2 publication Critical patent/JP7416983B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

修正された相対タイミングで再合成することができる複数のレイヤ(212, 213)に映像を分解するためのコンピュータ実装方法は、1つまたは複数のオブジェクトを示す複数の画像フレーム(201)を含む映像データを取得するステップを含む。複数のフレームの各々について、コンピュータ実装方法は、画像フレーム内の1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述する1つまたは複数のオブジェクトマップを生成するステップを含む。複数のフレームの各々について、コンピュータ実装方法は、画像フレームおよび1つまたは複数のオブジェクトマップを、機械学習済みレイヤテンダラモデルに入力するステップを含む。(220)複数のフレームの各々について、コンピュータ実装方法は、機械学習済みレイヤテンダラモデルからの出力として、ビデオデータの背景を示す背景レイヤ、および1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信するステップを含む。オブジェクトレイヤは、1つまたは複数のオブジェクトレイヤおよび背景レイヤが、修正された相対タイミングで再合成することができるような、少なくとも1つのオブジェクトを示す画像データ、および少なくとも1つのオブジェクトに少なくとも部分的に起因する1つまたは複数のトレース効果を含む。

Description

本開示は概して、ビデオ処理に関する。より詳細には、本開示は、修正された相対タイミングで再合成することができる複数のレイヤに映像を分離するためのシステムおよび方法に関する。
映像中の人物の動きのタイミングを操作することによって、映像に録画されたイベントの提案される認知を変化させることが可能な様々な効果を達成することができる。例として、映画では、人々のモーションを速め、遅くし、または同期させることによる時間の変更が、映像中のいくつかの動きまたはイベントを劇的にし、または強調解除するためにしばしば使われる。たとえば、アクションが詰まった映像の中の何人かの人々のモーションをフリーズさせ、他の人を動かせることによって、見る人の注意を、特定の対象人物に集中させることができる。
モーションリタイミングは、これまではほとんどがキャラクタアニメーションのコンテキストにおいて研究されており、キャラクタのモーションを、所与の時点における所望の持続時間または目標速度に合致するように編集するためのツールとして使われている。ただし、これらのアニメーション特化型技法は、自然な実写映像の分野に直に適用可能なわけではない。たとえば、キャラクタアニメーション界では、主な難題は、関節のセットのモーションを、関節の間に存在する時空相関でリタイミングすることであり得る。ただし、同様に、映像の中の人々のタイミングを操作するのには、人々の自発モーションだけでなく、人々と相関されるシーン中の様々な要素、たとえば影、反射、ダンサーの揺れる衣装、またははじける水などのすべても修正することを要する。
したがって、映像の中の人々をリタイミングすることを求める映像処理システムは、シーン中の相関的イベントすべてが、確実にタイミング変化に従い、尊重するようにするべきである。さらに、キャラクタアニメーションとは異なり、自然な実写映像をリタイミングすることを求めるシステムは、時間に伴うシーンのいかなるグランドトゥルース3Dモデルももたず、したがって、映像の中で写実的な高品質リタイミング効果をレンダリングすることは、はるかに困難である。
本開示の実施形態の態様および利点が、以下の記述において部分的に説明され、または記述から学習することができ、または実施形態の実践を通して知ることができる。
本開示の1つの例示的態様は、修正された相対タイミングで再合成することができる複数のレイヤに映像を分解するためのコンピュータ実装方法を対象とする。コンピュータ実装方法は、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、映像データを取得するステップを含み得る。映像データは、1つまたは複数のオブジェクトを示す複数の画像フレームを含み得る。複数のフレームの各々について、コンピュータ実装方法は、コンピューティングシステムによって、1つまたは複数のオブジェクトマップを生成するステップを含み得る。1つまたは複数のオブジェクトマップの各々は、画像フレーム内の1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述することができる。複数のフレームの各々について、コンピュータ実装方法は、コンピューティングシステムによって、画像フレームおよび1つまたは複数のオブジェクトマップを、機械学習済みレイヤレンダラモデルに入力するステップを含み得る。複数のフレームの各々について、コンピュータ実装方法は、コンピューティングシステムによって、機械学習済みレイヤレンダラモデルからの出力として、映像データの背景を示す背景レイヤ、および1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信するステップを含み得る。各画像フレームについて、1つまたは複数のオブジェクトレイヤの各々は、少なくとも1つのオブジェクトを示す画像データと、1つまたは複数のオブジェクトレイヤおよび背景レイヤが、修正された相対タイミングで再合成され得るような、少なくとも1つのオブジェクトに少なくとも部分的に起因する1つまたは複数のトレース効果とを含み得る。
本開示の別の例示的態様は、映像データを複数のレイヤに分解するように構成されたコンピューティングシステムを対象とする。コンピューティングシステムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサによって実行されると、コンピューティングシステムに動作を実施させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体とを含み得る。動作は、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムによって、映像データを取得することを含み得る。映像データは、1つまたは複数のオブジェクトを示す複数の画像フレームを含み得る。複数のフレームの各々について、動作は、コンピューティングシステムによって、1つまたは複数のオブジェクトマップを生成することを含み得る。1つまたは複数のオブジェクトマップの各々は、画像フレーム内の1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述することができる。複数のフレームの各々について、動作は、コンピューティングシステムによって、画像フレームおよび1つまたは複数のオブジェクトマップを、機械学習済みレイヤレンダラモデルに入力することを含み得る。複数のフレームの各々について、動作は、コンピューティングシステムによって、機械学習済みレイヤレンダラモデルからの出力として、映像データの背景を示す背景レイヤ、および1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信することを含み得る。各画像フレームについて、1つまたは複数のオブジェクトレイヤの各々は、少なくとも1つのオブジェクトを示す画像データと、1つまたは複数のオブジェクトレイヤおよび背景レイヤが、修正された相対タイミングで再合成され得るような、少なくとも1つのオブジェクトに少なくとも部分的に起因する1つまたは複数のトレース効果とを含み得る。
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
本開示の様々な実施形態のこれらおよび他の特徴、態様、および利点は、以下の説明および添付の特許請求の範囲を参照してより良く理解されよう。添付の図面は、本明細書に組み込まれるとともにその一部をなし、本開示の例示的実施形態を示し、記述と一緒に、関連原理を説明するのに役立つ。
当業者を対象とする、実施形態の詳細な考察が本明細書において説明される場合があり、本明細書は、添付の図面を参照する。
本開示の例示的実施形態による階層化ニューラルレンダリング技法の例示的適用例を示す図である。 本開示の例示的実施形態による階層化ニューラルレンダリング技法の例示的適用例を示す図である。 本開示の例示的実施形態による階層化ニューラルレンダリング技法の例示的適用例を示す図である。 本開示の例示的実施形態による、階層化ニューラルレンダリング技法を実施するための例示的処理パイプラインを示す図である。 本開示の例示的実施形態による、階層化ニューラルレンダリング技法による例示的レイヤ分解を示す図である。 本開示の例示的実施形態による例示的画像およびUVマップを示す図である。 本開示の例示的実施形態による例示的画像およびUVマップを示す図である。 本開示の例示的実施形態による例示的画像およびUVマップを示す図である。 本開示の例示的実施形態による例示的トリマップおよび画像を示す図である。 本開示の例示的実施形態による例示的トリマップおよび画像を示す図である。 本開示の例示的実施形態による例示的トリマップおよび画像を示す図である。 本開示の例示的実施形態による、初期マスクの手動編集を示す図である。 本開示の例示的実施形態による自動モーション整合技法を示す図である。 本開示の例示的実施形態による自動モーション整合技法を示す図である。 本開示の例示的実施形態による自動モーション整合技法を示す図である。 本開示の例示的実施形態による、階層化と非階層化のレンダリングの例示的結果を示す図である。 本開示の例示的実施形態による例示的リタイミング結果を示す図である。 本開示の例示的実施形態による例示的リタイミング結果を示す図である。 本開示の例示的実施形態による例示的リタイミング結果を示す図である。 本開示の例示的実施形態による例示的リタイミング結果を示す図である。 本開示の例示的実施形態による例示的コンピューティングシステムのブロック図である。 本開示の例示的実施形態による例示的コンピューティングデバイスのブロック図である。 本開示の例示的実施形態による例示的コンピューティングデバイスのブロック図である。 本開示の例示的実施形態による例示的レイヤレンダラシステムのブロック図である。 本開示の例示的実施形態による例示的レイヤレンダラシステムのブロック図である。 本開示の例示的実施形態による、映像を、修正された相対タイミングで再合成することができる複数のレイヤに分解するための例示的方法のフローチャート図である。
概要
概して、本開示は、映像の中の様々な個人の異なるモーションが起こる時間を操作し、編集するなど、普通の自然な映像の中の人々または他のオブジェクトのリタイミングを可能にするシステムおよび方法を対象とする。本開示の例示的実装形態は、異なるモーションを時間整合し、いくつかのアクションの速さを変化させ(たとえば、オブジェクトを速め/遅くし、もしくは全体を「フリーズ」させ)、または選択されたオブジェクトを映像から「消去」することができる。これらの効果は、映像観察者が普通の映像を通して、提案される動的世界を認知し、その世界と対話するやり方を高めるのに使うことができる。たとえば、アクションが詰まった映像の中のいくつかのモーションをフリーズさせ、わずか1つのオブジェクトを動かすことによって、本開示の例示的実装形態は、見る人の注意をその特定のオブジェクトに集中させることができる。
本開示の例示的実装形態は、これらの効果を、専用の学習ベースの階層化映像表現によりコンピュータで達成することができる。映像の中の各フレームは、映像の中の異なるオブジェクトの外観を表す別個のRGBAレイヤに分解することができる。提案するモデルの1つの貴重な特性は、入力映像の中の各オブジェクトのダイレクトモーションを解きほぐすことができるだけでなく、各オブジェクトを、それが生成するシーン変化(たとえば、影、反射、および/またはゆらゆらとした衣服のモーション)と相関させることもできることであり、これらの変化はまとめて、本明細書では「トレース効果」と呼ばれる。
レイヤは、個々にリタイミングし、新たな映像に再合成することができる。こうすることにより、映像処理システムは、踊る、トランポリンでジャンプする、または集団で走ることを含む、多くの異なる個人が関わる複合アクションを示す実世界映像のための、リタイミング効果の写実的な高品質レンダリングを生成することができる。
より詳細には、提案する方法への入力は、複数のオブジェクトが動いている普通の自然な映像であってよく、出力は、オブジェクトの動きのタイミングが修正され得る、映像の写実的な再レンダリングであってよい。提案するシステムおよび方法は、異なるオブジェクトのモーションを整合すること、いくつかのアクションの速さを変化させる(たとえば、オブジェクトを速める/遅くする、または全体を「フリーズ」させる)ことを含む様々なリタイミング効果をサポートする。さらに、提案する技法は、選択されたオブジェクトを映像から「消去」することもできる。
本開示のいくつかの例示的実装形態は、時間的ワープに焦点を当てるが、生成アクションは実施しない。つまり、提案される出力における各オブジェクト(たとえば、人)のポーズまたは他の構成は、入力における何らかのフレームに存在するのであって、新たな、見たことがないポーズまたは視点は生成されない。
図1A~図1Cは、本明細書に記載する技法の1つの例示的適用例を示す。具体的には、図1Aは、異なる時間に数人の子供の各々がプールに飛び込むオリジナル映像の複数のフレームを示す。図1Bは、コンピュータでリタイミングされた映像の、複数のリタイミングされたフレームを示す。図1Bのリタイミングされた映像のフレームに見ることができるように、子供IおよびIIIのジャンプは、全員が一緒にプールに飛び込むように、子供IIのものと時間整合される。子供IIは、入力および出力フレームにおいて変わらないままである。
本開示の例示的実装形態は、この、および他のリタイミング効果を自然な普通の映像において生じることができる。提案する技法は、入力映像の階層化分解を学習する新規深層ニューラルネットワークを活用することができる。この分解の例を、図1Cに示す。たとえば、提案されるモデルは、異なるレイヤ中のオブジェクトのモーションを解きほぐすことができるだけでなく、それらのオブジェクトと相関される様々なシーン要素(たとえば、トレース効果)をキャプチャすることもできる(たとえば、子供が水に当たるときの水しぶき、影、反射)。オブジェクトがリタイミングされると、トレース効果は、オブジェクトとの学習された関連付けにより、オブジェクトと自動的にリタイミングされ得る。こうすることにより、ユーザ(たとえば、映像編集プログラムのユーザ)は、様々なリタイミング効果があるように、映像の写実的で忠実な再レンダリングを作成することができる。
一例として、提案する技法の核心は、入力映像の階層化分解を学習する、新規深層ニューラルネットワークベースのモデルであり得る。より詳細には、オリジナル映像の各フレームが、各々がRGBカラー画像および不透明マットα(概して「RGBA」と呼ばれる)からなるレイヤのセットに分解されてよい。本開示の例示的実装形態は、時間経過に伴う各RGBAレイヤが映像の中の特定のオブジェクト(たとえば、一人の人、またはグループとしてまとめて扱われるようにユーザによってあらかじめ定義された人々のグループ)に関連付けられ得るように、提案されるモデルを設計し、トレーニングすることを含み得る。これにより、提案されるモデルは、オブジェクトのモーションを異なるレイヤにおいて解きほぐすだけでなく、オブジェクトを、オブジェクトに関連した、シーン中の変化(たとえば、トレース効果)とも相関させる。
オブジェクトの各々を定義する、分解されたレイヤが与えられると、映像のオリジナルフレームは、容易に(たとえば、標準的な、後ろから前への混成を使って)再構築され得る。たとえば、リタイミング効果は、レイヤに対する単純動作(特定のレイヤを削除し、コピーし、または補間すること)によって追加トレーニングまたは処理なしで生じられ得る。これにより、単純な映像編集ソフトウェアが、リタイミング効果を実装するのに使われることが可能になる。
本開示の例示的実施形態についてさらに詳しく論じる。解説を簡単にする目的で、本開示の例示的実施形態を、映像の中の人々(people)または複数の人(persons)のリタイミングに関して本明細書に記載する。ただし、提案する技法は、たとえば、動物、非動物オブジェクト(たとえば、車もしくは他の乗り物、交通標識など)、および/またはどの他のオブジェクトも含む、映像の中の他のオブジェクトのリタイミングに等しく適用可能である。したがって、人々または複数の人へのさらなる言及は、どの形のオブジェクトにも拡張可能であると企図されるべきである。
例示的技法
複数の人々が自然に動いている入力映像が与えられると、本開示は、異なる人々のモーションを時間整合すること、または数人の人々の速さを変化させる(たとえば、その人たちを速める/遅くする、もしくは全員をフリーズさせる)ことを含む様々なリタイミング効果をサポートするのに適したモデルを提供する。ただし、そのような効果の高品質レンダリングを達成することは、いくつかの根本的難題を課す。たとえば、1つの難題は、モーション相関であり得る。本開示の例示的実装形態は、対象のモーションのみでなく、対象によって引き起こされるすべてのモーション(たとえば、トレース効果)も抜き出すことができる。たとえば、図1A~図1Cでは、各子供が、水に当たるときにしぶきを引き起こす。トレース効果の他の共通ケースは、ゆらゆらとした衣服など、対象に付随する反射、影、またはオブジェクトを含む。別の例として、難題は遮蔽および露出であり得る。モーションをリタイミングすることはしばしば、シーンの中に新たな遮蔽および露出を生じ得る。露出領域においてシーン内容をレンダリングし、対象の間の正しい奥行順序を維持することは、高品質であり写実的な効果を達成することに寄与し得る。別の例示的難題は、時間的コヒーレンスであり得る。時間的にコヒーレントな結果を達成するのは困難な場合があり、それは、フレームの間のわずかな不整合などの小さい誤差が、フレームが映像として閲覧されるときに目につく視覚的アーティファクトとして目立ち得るからである。
本開示の例示的実装形態は、入力映像Vをレイヤに分解することを学習する深層ニューラルネットワークにより、これらの難題に対処することができる。いくつかの実装形態では、提案されるモデルは、入力映像でのみ、すなわち、いかなる外部データもなしで、いかなる手動注釈も要することのない自己教師あり方式でトレーニングすることができる。以下のセクションでは、本開示の例示的実装形態は、提案する階層化映像表現、ニューラルレンダリングモデル、トレーニング方式、およびデータ前処理について記載する。
例示的階層化映像表現
入力映像Vを与えられると、提案される目標は、各フレームIt∈Vを、N個のレイヤのセット
Figure 2023526860000002
に分解することであってよく、上式で、
Figure 2023526860000003
はカラー(RGB)画像であってよく、
Figure 2023526860000004
は不透明度マップ(マット)であってよい。すべてのフレーム
Figure 2023526860000005
に対する第iのレイヤは、映像中の人iに関連付けられ得る。本開示の例示的実装形態は、背景色および/または背景シーンを学習する、どの人またはオブジェクトにも関連付けられない追加背景レイヤ
Figure 2023526860000006
を追加することができる。これは、いくつかの実装形態では、動いている背景を含み得る。たとえば、動いている背景は、知られているカメラダイナミクスによって補償され得る。
この階層化表現およびotによって記される後ろから前への順序がレイヤに与えられると、映像の各フレームは、標準「オーバー」オペレータ(たとえば、順序付けられたオーバーレイ)によってレンダリングされてよい。本開示の例示的実装形態は、この動作を、以下によって記す。
Figure 2023526860000007
本開示の例示的実装形態では、混成順otが既知であり得ると仮定するが、時間変動、すなわち、人々の間の奥行順序は、映像を通して変化し得る。
この表現の基幹特性は、個々のレイヤに対する単純動作によってリタイミング効果が達成され得ることであり得る。たとえば、フレームtから人iを削除することは、混成から第iのレイヤを削除するだけで(たとえば、
Figure 2023526860000008
を式2に代入することによって)行うことができる。同様に、人iが時間t0においてフリーズされ得る映像を生成することは、すべてのフレームについて、
Figure 2023526860000009
Figure 2023526860000010
に対してコピーすることによって達成され得る。例示的動作は、人の除去、モーションフリーズおよび「写真判定」効果を含む。
いくつかの既存映像リタイミングツールは、十分に可視的な領域についてのみ、UV座標を与える。対照的に、提案する方法は、遮蔽された人々についての全身UVを生じることが可能であり得る。たとえば、提案する方法は最初に、キーポイントとUVマップのペアからなる外部データセットでネットワークをトレーニングするステップを含むことができる。方法は次いで、遮蔽された人の全身骨格を入力するステップを含むことができる。これにより、人々を露出することを要する編集効果の作成が可能になり得る。
普通の実世界映像からレイヤLtのセットを推定することは、難しい、および/または制約を受ける問題であり得る。たとえば、オリジナルフレームItの正確な再構築を提供することができる多数の可能な分解があり得る。たとえば、単一の可視レイヤがフレーム全体を含むことができる。リタイミング効果の写実的な高品質レンダリングを生じるために、各レイヤはしたがって、各人およびその人の自発モーションを正確に解きほぐすだけでなく、その人がシーン中で引き起こすモーションおよび/または他のトレース効果すべてもキャプチャするべきである。さらに、レイヤLtのあらゆるセットによってキャプチャされた情報は望ましくは、フレームItにおける可視内容を超えて広がり得る。これは、モーションをリタイミングするときに露出され得る人々または背景内容の塗り直しをサポートすることができる。したがって、いくつかの実施形態では、ソリューションを所望の分解の方に誘導するために追加制約および事前制約(prior)を課すことが有益な場合がある。本開示の例示的実装形態は、提案されるモデル設計によって間接的にそうすることができる。たとえば、自然にもっともらしい分解の方へ結果をもって行くことができる事前制約としての畳み込みニューラルネットワークの構造である。追加および/または代替として、これは、本開示の例示的態様に従って制度および損失をトレーニングすることによって直接遂行することができる。
例示的階層化ニューラルレンダリング
提案されるモデルは、新規人間固有階層化映像表現においてニューラルレンダリング手法を合成することができ(たとえば、グラフィックスレンダリングからの従来の要素と、深層学習における最近の進歩の統合)、これを本開示の例示的実装形態では階層化ニューラルレンダリングと呼ぶ。
1つの例示的パイプライン200が、図2に示されている。上位レベルにおいて、提案されるパイプライン200は最初に、映像の中の各人についてのジオメトリを(たとえば、既存の既成ツールと、提案する我々のツールの組合せを使って)推定することを含み得る。たとえば、パイプラインは、複数の画像フレームを含む映像201を取得することを含み得る。さらに、パイプラインは、ジオメトリを記述する1つまたは複数のオブジェクトマップ202(たとえば、UVマップ)を生成することを含み得る。たとえば、1つまたは複数のオブジェクトマップ202の各々は、画像フレーム内の1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述することができる。オブジェクトマップ202は、再サンプラ210によって深層テクスチャマップ204からサンプリングするのに使われ、次いで、ニューラルレンダリングネットワーク220に個々に渡されて、RGBAレイヤ212(カラーレイヤおよび/または不透明もしくはαレイヤ213を含む)を生じることができる。レイヤは、混成されると(たとえば、230において)、オリジナル映像フレーム240を再構築することができる。編集効果を生じるために、本開示の例示的実装形態は、トレーニング中にニューラルレンダラ220によって予測されたRGBAレイヤ212を使い、レイヤ212を調節する(たとえば、レイヤをオン/オフにする、レイヤの速さを変化させる、異なるレイヤを異なる時間的オフセットで再生する)ことによって、オリジナル映像を修正することができる。
例として、図2は、例示的な機械学習済みレイヤレンダリングモデル220を示す。レイヤレンダリングモデルは、映像の各フレームを、RGBAレイヤ(カラーおよび不透明)のセットに分解することができる。各レイヤは、映像の中の特定の人々(一人の人、またはユーザによってあらかじめ定義された人々のグループのいずれか)に関連付けられ得る。たとえば、人々またはオブジェクトは、UVマップによって画定され得る。レイヤは、単一のレイヤに対応する深層テクスチャマップをニューラルレンダラにフィードすることによって、別個のフォワードパス中で計算され得る。具体的には、本開示の例示的実装形態は、映像の中の各人を単一の深層テクスチャマップTiで表し、シーン背景は、深層テクスチャマップTBで表され得る。事前計算されたUVマップが与えられると、それらの深層テクスチャマップが再サンプリングされ、混成されて、ニューラルレンダラへの入力を形成し得る。推定レイヤのセットが次いで、後ろから前への様式で混成されて、オリジナルフレームを再構築することができる。レイヤに対する単純動作により、リタイミング効果が達成され得る。
背景は、映像全体に対する単一のテクスチャマップT0で表すことができる。背景からのサンプリングは、UVマップ
Figure 2023526860000011
に従って実施することができる。カメラが静的であるケースでは、
Figure 2023526860000012
が、すべてのフレームに対する同一のxy座標グリッドであってよい。カメラがモーションを起こしている場合、背景を判断する際にカメラトラッキングを使うことができる。たとえば、カメラトラッキングから推定される射影変換が利用可能な場合、
Figure 2023526860000013
が、フレームtに対するホモグラフィによってxy座標グリッドを変換した結果であり得る。
本開示の例示的実装形態は、映像中の各人を、単一の人間テクスチャアトラスTi(204)およびフレーム単位オブジェクトマップ(たとえば、UV座標マップ)
Figure 2023526860000014
で表すことができ(202)、このマップは、フレームIt中の人間領域におけるピクセル(たとえば、各ピクセル)をテクスチャマップ204にマップする。本開示の例示的実装形態は、既存の方法(たとえば、DensePose)を使って入力画像から推定され得るSMPLモデルのパラメータ化を使い得る。この表現は、時間経過に伴う人の統一パラメータ化と、外観およびテクスチャに対する好都合なモデルとを提供することができる。さらに、背景のUVマップは、レンダラネットワークに背景コンテキストを提供するように、各人のUVマップの背後に配置されてよい。こうすることにより、ニューラルレンダラは、影またはトランポリンの変形など、人が自身の環境に対して有し得る効果を学習することができる。
ネットワークカバレージを助けるために、本開示の例示的実装形態は最初に、UVトリマップに合致するアルファマットを予測するように、ニューラルネットワークをトレーニングすることができる。たとえば、図5に示されるように、グレーピクセルは、この合致損失が減じられ得る、人のUVの周囲の膨張領域を表す。これにより、ネットワーク柔軟性は、UVマップによって表されない体の変化、髪の毛、および衣服と合致し得る。最終モデル予測はしたがって、はるかに正確なセグメント化マスクであってよく、これは、影または他のトレース効果など、相関された領域を含み得る。
本開示の例示的実装形態は、いくつかの実施形態では、伝統的RGBテクスチャマップを、より強力でありより豊富な外観情報を符号化することができる、学習可能な高次元テクスチャマップで置き換えることができる。深層テクスチャマップは次いで、ニューラルレンダリングネットワークを使ってRGB値に符号化され得る。より詳細には、提案するニューラルレンダリングネットワークは、時間tにおける第iのレイヤに対応する、サンプリングされた深層テクスチャマップ
Figure 2023526860000015
を、入力として受信し得る。ニューラルレンダリングネットワークは次いで、
Figure 2023526860000016
、すなわち、それぞれ、そのレイヤに対する時間変動カラー画像および不透明度マップを出力することができる。
本開示の例示的実装形態は、映像の中の人々と出力レイヤとの間のマッピングを、入力サンプリングされたテクスチャ
Figure 2023526860000017
を制御することによって制御することができる(204)。たとえば、レイヤiを映像の中の人iと関連付けるために、本開示の例示的実装形態は、
Figure 2023526860000018
を使って、再サンプラ210によってTi(人iのテクスチャマップ)を再サンプリングし得る。モデルが、シーン中で、人と、その人に関連したモーションとの間の相関もキャプチャできるようにするために、本開示の例示的実装形態は、サンプリングされた背景テクスチャの上に、サンプリングされたテクスチャを混成することができる。この混成深層テクスチャは、レイヤiに対する、提案するニューラルレンダリングネットワークへの入力を形成することができる。
再サンプリングされたテクスチャレイヤ
Figure 2023526860000019
の各々および背景の再サンプリングされたテクスチャは、別個のフィードフォワードパスにおいて、ニューラルレンダリングネットワークにフィードされ得る(たとえば、図2に示したように)。入力を制御し、ニューラルレンダリングネットワークに解きほぐすことによって、本開示の例示的実装形態は、分解を間接的にガイドすることができる。分解されたレイヤは次いで、所望のレイヤ操作で、(たとえば、式2を使って)組み立て直され得る。
ニューラルレンダラは本質的に、オリジナル映像を正確に再構築するために、入力ジオメトリにおけるいかなる欠点も「訂正」することができる。これらの欠点は、影、反射、ゆらゆらとした衣服もしくは髪の毛などのような、入力UVマップによって表すことができないいかなるトレース効果も、またはどの他の適切なトレース効果も含み得る。これらのシーン要素を正確に再構築するために、ニューラルレンダラは、それらの要素を入力ジオメトリと相関させることを学習し得る。ニューラルレンダラの階層化特性は、この態様に有益であり得る。たとえば、フルシーンジオメトリが入力としてニューラルレンダラに一度に与えられ得る場合、擬似相関を学習するか、または特定の要素(たとえば影)を、個々の人ではなく特定の構成の人々と関連付けることを学習し得る。ただし、いくつかの場合には、入力をレイヤに分離し、そのうちの各1つを個々にフィードすることによって、本開示の例示的実装形態は、ネットワークの観察力を効果的に制限することができ、最強信号をもつ、レイヤ中の各欠落シーン要素を見つけるように強制する。一例として、人の影と相関された最強信号は、その影を落としている可能性がある人であるはずである。
追加および/または代替として、いくつかの実装形態では、本開示の例示的態様によるシステムは、初期マスクの手動編集をサポートすることができる。たとえば、いくつかの難しいケースでは、レイヤへの効果の割当てが誤っている場合がある。ユーザはしたがって、マスクを手動で編集する(たとえば、拡大する)ことによって、より優れたソリューションを奨励すればよい。
例示的トレーニング
本開示の例示的実装形態は、ニューラルレンダラの最適パラメータθおよび潜在テクスチャ
Figure 2023526860000020
のセットを、各フレームについての学習された分解を最適化することによって学習することを含み得る。
学習された分解の1つの特性は、分解により、オリジナル映像の正確な再構築が可能になることであり得る。公式では、
Figure 2023526860000021
とし、上式で、Ltは、フレームtに対する出力レイヤであり、otは混成順である。
再構築損失だけでは、いくつかの場合には、ランダム初期化から最適化カバレージを作るのに十分でないことがある。したがって、本開示のいくつかの例示的実装形態は、学習されたアルファマップ
Figure 2023526860000022
を、レイヤiに関連付けられる人々のセグメントに合致するように奨励することによって、トレーニングをブートストラップし得る。そうするために、本開示の例示的実装形態は、以下の損失を適用することができ、
Figure 2023526860000023
上式で、
Figure 2023526860000024
は、UVマップ
Figure 2023526860000025
から導出されたトリマップであってよく(図2参照)、D()は距離測度であってよい。
いくつかの場合には、UVマスクは、影および反射などの相関された効果からの情報を含まないので、Emaskは、モデルをブートストラップするのに使うことができだけであり、最適化が進行するとオフにされ得る。
本開示の例示的実装形態は、不透明度
Figure 2023526860000026
に正規化損失をさらに適用して、不透明度が空間的に疎になるのを奨励することができる。この損失は、L1と近似L0の混合として定義することができ、
Figure 2023526860000027
上式で、Φ0(x)=2・Sigmoid(5x)-1は、アルファマップの非ゼロ値を平滑に不利にし(smoothly penalize)、γは、項の間の相対的重みを制御する。
提案される総損失は次いで、
Etotal=EreconmEmask+βEreg (6)
によって与えることができ、上式で、γmおよびβは、項の相対的重みを制御する。
例示的高解像度洗練および詳細転送
本開示の例示的実装形態は、マルチスケール手法を含み得る。この手法は、最初に、オリジナル映像のダウンサンプリングされたバージョンに対して式6を使って、提案されるモデルをトレーニングすることを含み得る。本開示の例示的実装形態は次いで、別個の軽量洗練ネットワークを使って、結果をオリジナル解像度にアップサンプリングすることができ、これは、各RGBAレイヤ上で別個に動作するいくつかの残差ブロックからなる。洗練ネットワークは、ニューラルレンダラのRGBA出力の双一次アップサンプリングされた(たとえば、所望の出力サイズに)連結、ニューラルレンダラに入力されるUVによってサンプリングされたテクスチャ、および/またはRGBA出力レイヤに先行するニューラルレンダラによって出力された最終特徴マップを、入力として受信し得る。洗練ネットワークのRGBA出力は次いで、ニューラルレンダラの出力と同じやり方で混成され得る。いくつかの実装形態では、アップサンプリングネットワークは、L1再構築損失のみを使ってトレーニングされ得る。
本開示の例示的実装形態は、いくつかの実装形態では、後処理ステップにおいてオリジナル映像からの高解像度詳細を直接転送することによって、知覚および敵対損失を伴うトレーニングの追加支出を回避することができる。ニューラルレンダラ出力と映像との間の残差は、転送するべき詳細を定義することができる。各レイヤに転送するべき残差の量は、透過率マップ
Figure 2023526860000028
によって次のように判断することができ、
Figure 2023526860000029
上式で、Compαは、ニューラルレンダラによって生じられる混成のアルファチャネルを記す。最終レイヤ色は、
Figure 2023526860000030
によって定義することができ、上式で、Cnrは、ニューラルレンダラによって生じられる色であってよい。この転送が与えられると、アップサンプリングネットワークは、予測されたアルファマットを洗練し、グランドトゥルース高周波数詳細が利用可能でない、遮蔽された領域中で妥当な色を生じる必要のみがあり得る。
例示的UV前処理
映像リタイミング効果はしばしば、オリジナルフレーム中で部分的に、またはそれどころか十分に遮蔽された人々を露出することがある。いくつかの実装形態では、たとえば映像全体について共同で学習され得る単一のテクスチャマップを各人が有する実装形態では、本開示の例示的実装形態は、露出内容をレンダリングすることができる(たとえば、本開示の例示的実装形態が、そこから正しくサンプリングすることができる限り)。その目的のために、本開示の例示的実装形態は、すべてのUVマップが、遮蔽が存在していても、映像フレームから学習可能なものとして各個人の全身を確実に表すようにし得る。いくつかの実施形態では、塗り直しおよび/または他の推定技法が、欠落テクスチャを埋めるのに使われてよい。
いくつかの実装形態では、ダイレクト推定(たとえば、DensePose)および/またはキーポイント推定(たとえば、AlphaPose)が、UVマップを判断するのに使われてよい。DensePoseなどの既存ツールを使う、画像からのUVマップのダイレクト推定は、遮蔽された領域ではUVマップを生じることができない。さらに、ダイレクト推定は、可視領域において不規則誤差を被り得る。AlphaPoseなどのキーポイント推定器は、対照的に、遮蔽が存在する場合、より堅牢である傾向があり得る。さらに、推定器が失敗したとき、キーポイントは、容易に手動で訂正され得る。
全体のクリーンUVマップを生じるために、本開示の例示的実装形態は、ダイレクトUV推定とキーポイント推定を合成することができる。これは、キーポイントからUVマップを予測するようにニューラルネットワークをトレーニングすることを含み得る。提案されるキーポイントツーUVモデルをトレーニングするために、本開示の例示的実装形態は、1人分の映像フレームのみを含むようにまとめられたデータセットを使うことができる。別の例示的データセットは、一人の人が様々なポーズをとっている、ほぼ10分間の撮影された映像を含む。本開示の例示的実装形態は次いで、オリジナルフレーム上でAlphaPoseおよびDensePoseを稼動することによって、ほぼ20Kのキーポイント-UVトレーニング例を生成する。
遮蔽が存在する場合に全身UVマップを予測するために、本開示の例示的実装形態は、最初に、(たとえば、AlphaPoseを使って)キーポイントを推定し、(たとえば、PoseFlowを使って)キーポイントをトラッキングし、次いで、推定またはトラッキングが失敗したときはキーポイントを手動でクリーンアップすればよい。キーポイントツーUVネットワークは次いで、これらのキーポイントを処理して、遮蔽された人々についてのUVマップを生成することができる。
提案されるモデルのレイヤ分解成分を削除すると、汎化能力が欠如し得る。両方のモデルが、オリジナル映像を再構築することができるが、非階層化モデルは、人々を解きほぐし(たとえば、図8の「編集」(「フリーズ」)列に示される、白いドレスの少女のセグメント化失敗によって証明されるように)、かつ/またはそれらの相関を解きほぐす(たとえば、人が削除されたときに十分に削除されない、図8の「編集」(「削除」)列における反射によって証明されるように)のに苦労する場合がある。
例示的ユーザ対話
たとえば、レイヤへの人々の割当て、時間経過に伴うレイヤの順序、キーポイントクリーンアップ、およびマスク編集を含む、レイヤ分解を制御または向上するためにユーザが編集を適用することができるいくつかの点が、提案するパイプラインには存在する。
複数の人々は、不変の奥行順序で分離するのが難しいことがあり得る(たとえば、図3に示される舞踏場シーケンスにおいて踊っているペア)。これらのケースでは、ユーザは、複数の人々を同じレイヤの上に集めることを選ぶ場合がある。同じレイヤ上の人々は、別々にリタイミングされなくてよい。それら(衝突、自分の影など)の間の対話が、忠実に再構築され得る。
人々の奥行順序がうまく定義され得るが、時間とともに変化するケースでは(たとえば、図3に示されるトランポリンシーケンスでは)、レイヤへの人々の割当ては変えられてよい。いくつかの実装形態では、ニューラルレンダラおよびニューラルテクスチャは、複数のレイヤにわたって共有され、そうすることによって、レイヤ順を変化させても、トレーニング方式を変化させることにはならない。
いくつかの場合には、予測されたキーポイントにおける誤差を訂正するのに、手動クリーンアップが必要であり得る。たとえば、いくつかの既存キーポイント検出器は依然として、モーションブラー、遮蔽、ノイズなどにより失敗し得る。本開示の例示的実装形態は、特にぼかされるか、または遮蔽された領域中に、手動でクリーニングされたキーポイントを含み得る(たとえば、ロトスコープツールを使って)。
いくつかの特に難しい映像に対しては、初期マスクmtを手動で編集することによる、特定の分解を奨励することが必要な場合がある。初期マスクは最適化によって洗練されるので、この編集は粗くなり得る。
例示的カメラトラッキング
入力映像が、動いているカメラを含むとき、本開示の例示的実装形態は、最初に、特徴ベースのトラッキングアルゴリズムを使ってカメラモーションを推定することを含み得る。たとえば、本開示の例示的実装形態は、射影変換を使って、各フレームにおけるカメラモーションをモデル化することができ、本開示の例示的実装形態はモーションを、フレームの間の合致したORB特徴から堅牢に推定し得る。小さいカメラモーションまたは自然な手の震えを安定させるとき、本開示の例示的実装形態は、各フレームと単一の基準フレームとの間のホモグラフィを計算し(時間経過に伴ってカメラをトラッキングするよりもうまくいき得る)、次いで、それらを、入力映像を安定させるのに使うことができる。映像が、大きいカメラモーションまたは実質的パンニングを含むとき、本開示の例示的実装形態は、連続するフレームの間の、時間に伴うホモグラフィを推定し、それらを、共通座標系に関するフレームすべてを登録するのに使い、次いで、この座標系変換を、オリジナルカメラモーションを保存するために背景UVマップに適用することができる。たとえば、レイヤをフレームtから
Figure 2023526860000031
にリタイミングすることは、tにおいて変換を使ってレイヤを共通座標系に変換し、次いで、
Figure 2023526860000032
において逆変換を適用することによって達成され得る。
例示的実装形態の詳細
記述される結果を生成するのに使われる1つまたは複数の例示的実装形態の例示的実装形態詳細が、以下で与えられる。これらの詳細は、1つの例示的実装形態としてのみ与えられ、必ずしも、本開示の例示的態様による実装形態のいかなる限定も定義するわけではない。本開示の例示的実装形態は最初に、より小さい次元(舞踏場シーケンス用には352×256、すべての他の映像用には448×256)に沿ってサイズ256にダウンサンプリングされた入力映像で、2K個のエポック向けにニューラルレンダラをトレーニングする。本開示の例示的実装形態は、範囲[1,1.25]内の一様にランダムなスケーリング因子でフレームをサイズ変更することによって、時間の増強75%を適用し、これにランダムクロッピングが続く。次に、本開示の例示的実装形態は、既存のパラメータをフリーズさせ、低解像度結果を高めるように追加アップサンプリングネットワークをトレーニングする。この軽量ネットワークは、いかなるデータ増強もなしで、L1再構築損失がある500個のエポック向けにトレーニングされ得る。アップサンプリングネットワークの最終出力は、低解像度出力のサイズの2倍である次元(舞踏場シーケンス用には704×512、すべての他の映像用には896×512)を有する。本開示の例示的実装形態は、提案されるネットワークをPyTorchにおいて実装し、1e-3の学習レートでAdamオプティマイザを使う。映像の長さおよび予測されるレイヤの数によっては、総トレーニング時間は、4つのNVIDIA Tesla P100 GPUで6~12時間かかる。
例示的実験結果
本開示の例示的実装形態は、提案される方法をいくつかの実世界映像においてテストしたが、それらの多くは、ハンドヘルドセルフォンカメラによってキャプチャされたものである。映像は、一斉に動いている複数の人々を示し、複雑な自然環境における広範な人間アクション(たとえば、踊る、ジャンプする、走る)にわたる。これらの映像からの代表的フレームを、図9に示す。
例示的レイヤ分解
提案するレイヤ分解のうちのいくつかが、図3において可視化されている。いくつかの映像(たとえば、図3に示される舞踏場シーンおよび図3に示されるプールのジャンプシーン)について、本開示の例示的実装形態は、いく人かの人々を1つのレイヤに手動でグループ化する。他の映像については、各人が独自のレイヤを有する。映像すべてに対して、提案されるモデルは、人々を複数のレイヤに解きほぐすのに成功する。レイヤは、ゆらゆらとした髪の毛および衣服(たとえば、舞踏場シーンにおける前景ダンサーの白いドレス)などのごく細部、または人々に付随するオブジェクト(たとえば、プールジャンプシーンにおける子供の浮き具)をキャプチャする。これは、本開示の例示的態様に従って、これらの要素を明示的には表さない粗い人物UVマップで提案されるモデルを初期化したことにかかわらず遂行することができる。提案されるモデルの、人物領域を正確にセグメント化するこの能力は、図3でもより子細に示され得る。
さらに、予測されたレイヤは、人々に関連した、シーンにおける他の重要な視覚変化、たとえば、人々のモーションによって引き起こされる異なるダンサーによって床に落ちる影(たとえば、図3の舞踏場シーンにおいて)、互いにすれ違う2人の人の複雑な反射(たとえば、図3の反射シーンにおいて)、表面変形(たとえば、図3のトランポリンシーンにおいて)、または水しぶき(たとえば、図3のプールジャンプシーンにおいて)、のある人々であってよい。
例示的リタイミングおよび編集結果
分解されたレイヤを取得した後、本開示の例示的実装形態は、レイヤに対する単純動作により、様々なリタイミングおよび編集効果を生じることができる。本開示の例示的実装形態は、いくつかのそのようなリタイミング結果を図7~図10に示す。
図9は、(たとえば、「水しぶき」シーン、「トランポリン」シーン、および「子供たちが走る」シーンにおいて)同様のアクションを実施する複数の人々を示す映像の例示的フレームを示すが、人々のモーションは同期していない。たとえば、「水しぶき」シーンでは、子供たちが次々にプールに飛び込む。「トランポリン」シーンでは、子供たちの周期的モーションが独立している。両方の例において、本開示の例示的実装形態は、人々を、そのモーションに整合するようにリタイミングする。「水しぶき」に対して、手動で画定されたいくつかの整合点は、子供のジャンプに整合するのに十分だった。「トランポリン」では、モーションの周期性により、整合は、相関最適化ワープ(たとえば、動的時間ワープの変化)を使って自動で実施され得る。
示されるように、提案するレイヤ分解は、人だけでなく、人と相関されるトレース効果も含み、したがって、本開示の例示的実装形態がある人のレイヤをリタイミングすることができると、関連トレース効果すべて(たとえば、水に当たるときの水しぶき、トランポリンの上で跳ねるときの変形)が、自然に見えるリタイミングされた映像を生じるようにそれらに自動的に続く。
本開示の例示的実装形態は、提案する方法を、人々を特定の時点において「フリーズ」させながら、他の人々をオリジナル映像でのように動かすのに使うこともできる。こうすることにより、見る人に、注意を動いている人々に集中させ、オリジナル映像におけるモーションの残りを無視することを奨励する効果を作成することができる。たとえば、図9に示される「舞踏場」シーンでは、本開示の例示的実装形態は、前方のカップルが動き続ける間、背後の踊っているカップルを、映像全体を通してフリーズさせる。ここでも、床の上の影および反射は、動いているカップルとともに写実的に動き、背景カップルの影は、静的なままである。さらに、背後のカップルの露出領域は、写実的にレンダリングされる。
たとえば、図9に示される「子供たちが走っている」シーンでは、本開示の例示的実装形態は、提案されるモデルが、多くの人々を伴う複合リタイミング効果を生じるために複数のレイヤにどのようにスケーリングすることができるかを示す。本開示の例示的実装形態は、子供たちがグランド上のぼんやりとしたゴールを異なる時間に超えているオリジナル映像を、子供たち全員がゴールを一緒に超える「写真判定」映像を生じるようにリタイミングする。本開示の例示的実装形態はこの結果を、たとえば、画面外で走る子供のレイヤを遅くすることによって達成することができる。このシーケンスが多くの個人を伴うとしても、提案されるモデルは、各子供に対してクリーンマットを取得することが可能であり得る。さらに、背景にある遮蔽された人々および大きい遮蔽領域は、入力映像に存在する大幅なモーションブラーを扱いながら、写実的に塗り直され得る。
言及したように、リタイミング効果に加え、提案する方法は、本開示の例示的実装形態の階層化表現による、映像の中の人々の容易な除去をサポートすることもできる。たとえば、図4および図8は、ウィンドウの前の歩道ですれ違う2人の人を含む、映像の中の人の除去を実証するシーンを示す。ここで、たとえば、提案されるモデルは、いくつかの重要なタスクを実施することが可能であり得る。モデルは、背後を歩いている人を完全に露出することができる。たとえば、図4に示されるように、モデルは、示されている、背後を歩いている人の部分をキャプチャするオブジェクトマップ(UVマップ)を生成することができる。モデルは、各人を、その反射および影に適切に関連付けることができる。モデルは、これらの要素のうちのどれもモデルによって明示的に表されないのにもかかわらず、2つの反射を、それらが重なるときに解きほぐすことができる。従来の映像編集パイプラインは、これらの結果を達成することの困難に遭遇する可能性がある。たとえば、反射は、適切な除去を実施するために、人々とともにトラッキングされなければならない場合がある。さらに、背後の人は、前方の人によって遮蔽される点において手動で塗り直されなければならない場合がある。したがって、提案する方法の1つの利点は、別個のレイヤにおいて各人向けのUVを単に入力し、それらのレイヤを「オンおよびオフ」することによって、本開示の例示的実装形態は、大幅に少ない手動作業で同じ結果を達成し得ることであり得る。
図10は、オリジナルカメラモーションが、提案するリタイミングされた結果に保存され得る本開示の態様による例を示す。たとえば、図10に示されるように、左の少女は、そのコピーの各々の間の短時間オフセットで複製され得る。青い服を着ている右の少女は、カメラの事前焦点領域からフリーズされていてよく、カメラはオリジナル映像でのようにパンニングしていてよい。
例示的な階層化と非階層化ニューラルレンダリング
本開示の別の例示的態様は、非階層化モデル(たとえば、フレームならびに背景における人々すべてを表す単一のサンプリングされたテクスチャマップを入力としてとり、フレームのRGB再構築を直接出力するモデル)を含み得る。非階層化モデルは、たとえば、階層化モデルよりも単純であり得る。例示的非階層化モデルが、例示的階層化モデルと比較される。このベースラインは、遅延型ニューラルレンダリング手法に従う。
図8は、例示的階層化モデルおよび例示的非階層化モデルによって生じられる再構築および編集結果の間の比較を示す。見るとわかるように、非階層化モデルは、UVマップ中の欠落情報およびノイズにかかわらず、オリジナルフレームをかなりうまく再構築することができる。ただし、編集が実施されると、非階層化モデルは、人々の新たな混成を汎化することができない場合がある。これは、たとえば、図8に示される「舞踏場」編集例における大幅な視覚的アーティファクトによって証明される。たとえば、編集効果を生じるために、非階層化モデルは、トレーニング中に決して見られなかった構成における人々の新たなUV混成に汎化することを求められ得る。この結果、L1再構築損失のみに基づいて写実的に見える結果を生じる上で難題が生じ得る。提案する階層化手法は、この汎化問題を回避することができるが、それは、編集が、予測されたレイヤにおける後処理として実施され得るからである(たとえば、トレーニング中に生じられる同じ出力)。さらに、モデルへの入力が、分離されたUVではなくフレームの中の人々すべての混成であり得るとき、モデルは、有意な相関を必ずしもキャプチャすることなく、オリジナルフレームをより容易に再構築することができる。たとえば、シーンの別個に動いている部分を解きほぐすことを求められなくてよい。このことは、反射編集結果において例示することができ、ここで、非階層化モデルは、異なる人々とその人たちの反射との間の正しい関係を学習する際の問題点に遭遇する。
階層化モデルの別の利益は、本開示の例示的実装形態が、入力映像から高解像度詳細を取り込むことができることであり得る。非階層化ニューラルレンダリングモデルは、これをサポートすることができず、さらに、匹敵する視覚品質を達成するために、徹底的トレーニング時間および敵対損失を要し得る。
訂正
提案されるものはしばしば、レイヤを分解するのに成功し得るが、いくつかの特に難しいケースでは、手動訂正を要する場合がある。たとえば、いくつかの場合には、アーティファクトが、分解されたレイヤに存在し得る。本開示の例示的実装形態が観察した1つのアーティファクトは、図6に示される「水しぶき」シーンの背景レイヤにあり得る。図6に示されるように、アーティファクトは、モデルがグランドトゥルース外観を絶対に観察するようにならないプールの領域に見ることができる(たとえば、それらの領域は、人々によって常に遮蔽される)。これらのケースでは、アーティファクトは、塗り直しネットワーク(たとえば、別個の塗り直しネットワーク)で訂正されてよい。有利には、背景は概して、人々のような変形可能な対象よりも塗り直すのが簡単であり得る。提案されるモデルは、完璧な塗り直しサポートを提供するように、これらの変形可能オブジェクトに対処することができる。たとえば、塗り直しステップがレイヤに追加されてよい(たとえば、ニューラルネットワークまたは他の塗り直しシステムを使って)。
さらに、背景のいくつかの時間変動側面は、レイヤに関連付けられ得る。たとえば、「舞踏場」シーンでは、映像全体を通して光の色が変化するので、背景の少女の頭の上に、紫色の光が現れる。したがって、時間的に変動する信号として、光は、前景レイヤの1つの中に含まれる。この場合、紫色の光は、前方カップルのレイヤにあってよく、これは次いで、フリーズしている背景カップルの上にレンダリングされてよい。そのようなアーティファクトは、背景の表現においてある程度の柔軟性が与えられる場合、回避され得る。たとえば、背景は、時間で変動することが許容されてよい。時間変動背景の表現容量は、トレース効果に対してバランスがとられなければならない。たとえば、本開示の例示的実装形態は望ましくは、衣服および影など、動いている人々によって引き起こされるトレース効果を依然として表すことができる可能性がある。
例示的モデルアーキテクチャ
本開示の例示的態様は、マスク誤差Emaskを使用することができる。たとえば、マスクは、[0,0.5,1]の中の値をもつトリマップであってよく、ここで、バイナリUVマスクの形態学上の膨張によって、不特定のエリアが生じられる。トリマップmに対して、b0を、m=0であるピクセルのバイナリマスクとし、b0.5およびb1が同様に定義される。いくつかの実装形態では、前景は持ち上げられてよく、不特定のエリアは、乏しい極小値を回避するように減じられてよい。最終マスク誤差関数は、
D(m,α)=5||b1 h(1.0-α)||1+0.2||b0.5 hα||1+||b0 hα||1 (9)
であり、上式で、hはアダマール(要素単位)積である。
トレーニングエポックeによって定義される1つの例示的トレーニングスケジュールが、以下で与えられる。
Figure 2023526860000033
このスケジュールは、もっともらしいソリューションへの最適化を強制するための、マスキング項における重大な初期損失を含み得る。スケジュールは次いで、マスクには存在しない効果を導入するための最適化を可能にするように、損失を緩和することができる。
例示的ネットワークアーキテクチャが、以下で与えられる。一部または全部のネットワークでは、パディングはモード「same」である。本明細書で使用する限り、「bn」はバッチ正規化を指し、「in」はインスタンス正規化を指し、「convt」は転置畳み込みを指し、「leaky」は傾斜-0.2をもつリーキーRELUを指し、「skipk」はレイヤkをもつスキップ接続を指し、「resblock」はconv、インスタンスnorm、RELU、conv、インスタンスnormからなる残差ブロックを記す。
例示的ニューラルレンダラアーキテクチャが、以下で与えられる。
Figure 2023526860000034
例示的アップサンプリングネットワークアーキテクチャが、以下で与えられる。アップサンプリングネットワークは、双一次アップサンプリングされた混成ニューラルレンダラ出力に追加される残差画像を予測することができる。例示的アップサンプリングネットワークアーキテクチャは、以下の通りである。
Figure 2023526860000035
キーポイントツーUVネットワークアーキテクチャは、最終レイヤが、身体部分および背景分類を予測するための25個の出力チャネルをもつ最終畳み込みレイヤと、24個の身体部分の各々についてのUV座標を回帰推定するための48個の出力チャネルをもつ畳み込みレイヤとを含む2つの頭で置き換えられるニューラルレンダラアーキテクチャと同じであってよい。身体部分分類器は、クロスエントロピー損失でトレーニングされ、予測されたUV座標をL1損失でトレーニングすることができる。ピクセルが、グランドトゥルースUVマップによって定義される特定の部分内にある場合、UV座標における回帰損失が、身体部分に対して考慮されてよい。
例示的デバイスおよびシステム
図11Aは、本開示の例示的実施形態に従って階層化ニューラルレンダリングを実施する例示的コンピューティングシステム100のブロック図を示す。システム100は、ネットワーク180を介して通信可能に結合されている、ユーザコンピューティングデバイス102、サーバコンピューティングシステム130、およびトレーニング用コンピューティングシステム150を含む。
ユーザコンピューティングデバイス102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、ゲーム機もしくはコントローラ、装着可能コンピューティングデバイス、埋め込み型コンピューティングデバイス、または任意の他のタイプのコンピューティングデバイスなど、どのタイプのコンピューティングデバイスであってもよい。
ユーザコンピューティングデバイス102は、1つまたは複数のプロセッサ112およびメモリ114を含む。1つまたは複数のプロセッサ112は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、動作可能に接続されている1つのプロセッサまたは複数のプロセッサであってよい。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ114は、データ116と、ユーザコンピューティングデバイス102に動作を実施させるようにプロセッサ112によって実行される命令118とを記憶することができる。
いくつかの実装形態では、ユーザコンピューティングデバイス102は、1つまたは複数のレイヤレンダラモデル120を記憶するか、または含むことができる。たとえば、レイヤレンダラモデル120は、ニューラルネットワーク(たとえば、深層ニューラルネットワーク)または非線形モデルおよび/もしくは線形モデルを含む他のタイプの機械学習済みモデルなど、様々な機械学習済みモデルであってよく、またはそうでなければ、それらの機械学習済みモデルを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、回帰型ニューラルネットワーク(たとえば、長短期メモリ回帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、または他の形のニューラルネットワークを含み得る。例示的レイヤレンダラモデル120については、図2および図12~図13を参照して論じる。
いくつかの実装形態では、1つまたは複数のレイヤレンダラモデル120は、ネットワーク180を介してサーバコンピューティングシステム130から受信され、ユーザコンピューティングデバイスメモリ114に記憶され、次いで、1つまたは複数のプロセッサ112によって使われ、またはそうでなければ実装され得る。いくつかの実装形態では、ユーザコンピューティングデバイス102は、単一のレイヤレンダラモデル120の複数の並列インスタンスを(たとえば、レイヤレンダラモデル120の複数のインスタンスにわたる並列階層化ニューラルレンダリングを実施するために)実装することができる。
より詳細には、レイヤレンダラモデル120は、映像データを入力として受信し、映像データを1つまたは複数のレイヤに分解することができ、各レイヤは主に、1つまたは複数の指定されたオブジェクトを示す映像データに関連付けられ、それを含む。たとえば、レイヤレンダラモデルは、1つまたは複数のオブジェクトマップを(たとえば、オブジェクトマップ生成モデルによって)生成し、オブジェクトマップに基づいて、テクスチャデータを深層テクスチャマップにラップすることができる。さらに、レイヤレンダラモデルは、映像データ中のトレース効果を、トレース効果を引き起こすか、またはそうでなければトレース効果に影響するオブジェクトに関連付け、トレース効果を、それぞれのオブジェクトを示すレイヤの中に含めることができる。
追加または代替として、1つまたは複数のレイヤレンダラモデル140は、クライアント-サーバ関係に従ってユーザコンピューティングデバイス102と通信するサーバコンピューティングシステム130に含まれ、またはそうでなければ、サーバコンピューティングシステム130によって記憶され、実装され得る。たとえば、レイヤレンダラモデルは、ウェブサービス(たとえば、階層化ニューラルレンダリングサービス)の一部分として、サーバコンピューティングシステム140によって実装され得る。したがって、1つまたは複数のモデル120が、ユーザコンピューティングデバイス102において記憶され、実装されてよく、かつ/または1つもしくは複数のモデル120が、サーバコンピューティングシステム130において記憶され、実装されてよい。
ユーザコンピューティングデバイス102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122も含み得る。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)のタッチに敏感であり得るタッチ感応構成要素(たとえば、タッチ感応表示画面またはタッチパッド)であってよい。タッチ感応構成要素は、仮想キーボードを実装するのに役立ち得る。他の例示的ユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を与えることができる他の手段を含む。
サーバコンピューティングシステム130は、1つまたは複数のプロセッサ132およびメモリ134を含む。1つまたは複数のプロセッサ132は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、動作可能に接続されている1つのプロセッサまたは複数のプロセッサであってよい。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ134は、データ136と、サーバコンピューティングシステム130に動作を実施させるようにプロセッサ132によって実行される命令138とを記憶することができる。
いくつかの実装形態では、サーバコンピューティングシステム130は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装されてよい。サーバコンピューティングシステム130が複数のサーバコンピューティングデバイスを含む事例では、そのようなサーバコンピューティングデバイスは、逐次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
上述したように、サーバコンピューティングシステム130は、1つまたは複数の機械学習済みレイヤレンダラモデル140を記憶することができ、またはそうでなければ、モデル140を含む。たとえば、モデル140は、様々な機械学習済みモデルであってよく、または、そうでなければそれらを含んでよい。例示的機械学習済みモデルは、ニューラルネットワークまたは他のマルチレイヤ非線形モデルを含む。例示的ニューラルネットワークは、フィードフォワードニューラルネットワーク、深層ニューラルネットワーク、回帰型ニューラルネットワーク、および畳み込みニューラルネットワークを含む。例示的モデル140については、図2および図12~図13を参照して論じる。
ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130は、ネットワーク180を介して通信可能に結合され得るトレーニング用コンピューティングシステム150との対話により、モデル120および/または140をトレーニングすることができる。トレーニング用コンピューティングシステム150は、サーバコンピューティングシステム130とは別個であってよく、またはサーバコンピューティングシステム130の一部分であってよい。
トレーニング用コンピューティングシステム150は、1つまたは複数のプロセッサ152およびメモリ154を含む。1つまたは複数のプロセッサ152は、どの適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)であってもよく、1つのプロセッサまたは動作可能に接続されている複数のプロセッサであってよい。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せのような、1つまたは複数の非一時的コンピュータ可読記憶媒体を含み得る。メモリ154は、データ156と、トレーニング用コンピューティングシステム150に動作を実施させるようにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、トレーニング用コンピューティングシステム150は、1つまたは複数のサーバコンピューティングデバイスを含むか、またはそうでなければ、サーバコンピューティングデバイスによって実装されてよい。
トレーニング用コンピューティングシステム150は、ユーザコンピューティングデバイス102および/またはサーバコンピューティングシステム130において記憶された機械学習済みモデル120および/または140を、たとえば、誤差逆伝播など、様々なトレーニングまたは学習技法を使ってトレーニングするモデル訓練器160を含み得る。たとえば、損失関数が、モデルの中を逆伝播されて、モデルの1つまたは複数のパラメータを(たとえば、損失関数の勾配に基づいて)更新することができる。平均二乗誤差、尤度損失、クロスエントロピー損失、ヒンジ損失、および/または他の様々な損失関数など、様々な損失関数が使われてよい。何回かのトレーニング反復によりパラメータを反復して更新するために、勾配降下技法が使われてよい。
いくつかの実装形態では、誤差逆伝播を実施することは、時間をかけて短縮逆伝播を実施することを含み得る。モデル訓練器160は、トレーニングされるモデルの汎化能力を向上するために、いくつかの汎化技法(たとえば、重み減衰、ドロップアウトなど)を実施することができる。
特に、モデル訓練器160は、トレーニングデータ162のセットに基づいて、レイヤレンダラモデル120および/または140をトレーニングすることができる。トレーニングデータ162は、たとえば、キーポイントとUVマップのペアからなる外部データセットを含み得る。追加および/または代替として、トレーニングデータ162は映像データを含み得る。一例として、オブジェクトマップ生成モデル用のトレーニングデータ162は、1人の人の映像フレームのみを含むようにまとめられたデータセットを含み得る。別の例示的データセットは、一人の人が様々なポーズをとっている、ほぼ10分間の撮影されたビデオを含む。
いくつかの実装形態では、ユーザが同意を与えている場合、トレーニング例はユーザコンピューティングデバイス102によって与えられてよい。したがって、そのような実装形態では、ユーザコンピューティングデバイス102に与えられるモデル120は、ユーザコンピューティングデバイス102から受信されたユーザ固有データについて、トレーニング用コンピューティングシステム150によってトレーニングすることができる。いくつかの事例では、このプロセスは、モデルの個別化と呼ばれ得る。
モデル訓練器160は、所望の機能性を提供するのに使用されるコンピュータ論理を含む。モデル訓練器160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアで実装することができる。たとえば、いくつかの実装形態では、モデル訓練器160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデル訓練器160は、RAMハードディスクまたは光学もしくは磁気媒体などの有形コンピュータ可読記憶媒体に記憶されるコンピュータ実行可能命令の1つまたは複数のセットを含む。
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、どのタイプの通信ネットワークであってもよく、任意の数のワイヤードまたはワイヤレスリンクを含み得る。概して、ネットワーク180を介した通信は、非常に様々な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL)を使って、どのタイプのワイヤードおよび/またはワイヤレス接続を介しても搬送することができる。
図11Aは、本開示を実装するのに使うことができる1つの例示的コンピューティングシステムを示す。他のコンピューティングシステムが使われてもよい。たとえば、いくつかの実装形態では、ユーザコンピューティングデバイス102は、モデル訓練器160およびトレーニングデータセット162を含み得る。そのような実装形態では、モデル120は、ユーザコンピューティングデバイス102においてローカルにトレーニングされることと使われることの両方が可能である。そのような実装形態のうちのいくつかでは、ユーザコンピューティングデバイス102は、ユーザ固有データに基づいてモデル120を個別化するために、モデル訓練器160を実装することができる。
図11Bは、本開示の例示的実施形態に従って、他の機能の中でも階層化ニューラルレンダリングを実施し得る例示的コンピューティングデバイス10のブロック図を示す。コンピューティングデバイス10は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
コンピューティングデバイス10は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、それ自体の機械学習ライブラリおよび機械学習済みモデルを含む。たとえば、各アプリケーションは、機械学習済みモデルを含み得る。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。
図11Bに示すように、各アプリケーションは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、各アプリケーションは、API(たとえば、パブリックAPI)を使って、各デバイス構成要素と通信することができる。いくつかの実装形態では、各アプリケーションによって使われるAPIは、そのアプリケーションに固有であってよい。
図11Cは、本開示の例示的実施形態に従って実施する例示的コンピューティングデバイス50のブロック図を示す。コンピューティングデバイス50は、ユーザコンピューティングデバイスまたはサーバコンピューティングデバイスであってよい。
コンピューティングデバイス50は、いくつかのアプリケーション(たとえば、アプリケーション1~N)を含む。各アプリケーションは、中央インテリジェンスレイヤと通信することができる。例示的アプリケーションは、テキストメッセージングアプリケーション、eメールアプリケーション、ディクテーションアプリケーション、仮想キーボードアプリケーション、ブラウザアプリケーションなどを含む。いくつかの実装形態では、各アプリケーションは、API(たとえば、すべてのアプリケーションにわたる共通API)を使って、中央インテリジェンスレイヤ(およびその中に記憶されるモデル)と通信することができる。
中央インテリジェンスレイヤは、いくつかの機械学習済みモデルを含む。たとえば、図11Cに示すように、それぞれの機械学習済みモデル(たとえば、モデル)が、各アプリケーションに与えられ、中央インテリジェンスレイヤによって管理され得る。他の実装形態では、2つ以上のアプリケーションが、単一の機械学習済みモデルを共有することができる。たとえば、いくつかの実装形態では、中央インテリジェンスレイヤは、アプリケーションすべてに単一モデル(たとえば、単一モデル)を提供することができる。いくつかの実装形態では、中央インテリジェンスレイヤは、コンピューティングデバイス50のオペレーティングシステムに含まれるか、またはそうでなければ、オペレーティングシステムによって実装されてよい。
中央インテリジェンスレイヤは、中央デバイスデータレイヤと通信することができる。中央デバイスデータレイヤは、コンピューティングデバイス50向けのデータの集中型リポジトリであってよい。図11Cに示すように、中央デバイスデータレイヤは、コンピューティングデバイスのいくつかの他の構成要素、たとえば、1つもしくは複数のセンサー、コンテキストマネージャ、デバイス状態構成要素、および/または追加構成要素などと通信することができる。いくつかの実装形態では、中央デバイスデータレイヤは、API(たとえば、プライベートAPI)を使って、各デバイス構成要素と通信することができる。
例示的モデル配置
図12は、本開示の例示的実施形態による例示的レイヤレンダラシステム1200のブロック図を示す。いくつかの実装形態では、レイヤレンダラモデル1200は、映像データを記述する入力データ1204のセットを受信し、入力データ1204の受信の結果として、分解された映像レイヤを含む出力データ1206を与えるようにトレーニングされてよい。したがって、いくつかの実装形態では、レイヤレンダラシステム1200は、映像データを、たとえば、背景レイヤおよび/または1つもしくは複数のオブジェクトレイヤを含む1つまたは複数のレイヤに分解するように動作可能であり得るレイヤレンダラモデル1202を含み得る。
図13は、本開示の例示的実施形態による例示的レイヤレンダラシステム1300のブロック図を示す。レイヤレンダラシステム300は、レイヤレンダラシステム300がオブジェクトマップ生成モデル302をさらに含むことを除いて、図12のレイヤレンダラシステム1200と同様であってよい。たとえば、オブジェクトマップ生成モデル302は、入力データ1204に基づいてオブジェクトマップ304を生成するように構成されてよい。一例として、オブジェクトマップ生成モデル302は、映像データ中のキーポイントを認識すること、およびキーポイントに基づいてオブジェクトマップを判断することによって、オブジェクトマップ304を生成するように、(たとえば、キーポイントとオブジェクトマップのペアからなるトレーニングデータセットで)トレーニングされてよい。オブジェクトマップ304は、レイヤレンダラモデル1202に入力として与えられてよい。
例示的方法
図14は、本開示の例示的実施形態に従って実施するための例示的方法のフローチャート図を示す。図6は、説明および考察のために、具体的順序で実施されるステップを示すが、本開示の方法は、具体的に示す順序または並びには限定されない。方法600の様々なステップは、本開示の範囲から逸脱することなく、様々に省かれ、並べ替えられ、組み合わされ、かつ/または適応されてよい。
602において、1つまたは複数のコンピューティングデバイスを含むコンピューティングシステムは、映像データを取得することができる。映像データは、1つまたは複数のオブジェクトを示す複数の画像フレームを含み得る。たとえば、映像データは、モバイルデバイス、映像カメラ、またはどの他の適切な映像キャプチャデバイスによってキャプチャされた映像であってもよい。映像データは、どの適切なやり方で記憶されてもよい。たとえば、映像データは、デジタルファイルフォーマット(たとえば、.mp4ファイルフォーマット、.wavファイルフォーマットなど)など、どの適したフォーマットでコンピュータ可読メモリに記憶されてもよい。
604において、コンピューティングシステムは、1つまたは複数のオブジェクトマップを生成することができ、1つまたは複数のオブジェクトマップの各々は、画像フレーム内の1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述し得る。たとえば、1つまたは複数のオブジェクトマップはUVマップを含み得る。オブジェクトマップは、オブジェクトの一般的形状を示すことができるが、トレース効果(たとえば、揺れる衣服、微粒子、またはオブジェクト、影、反射などによって影響される他の環境要素)は除外してよい。いくつかの実施形態では、たとえば、1つまたは複数のオブジェクトマップを生成することは、コンピューティングシステムによって、1つまたは複数のキーポイントを識別することと、キーポイントに基づいて、コンピューティングシステムによって、1つまたは複数のUVマップを取得することとを含み得る。オブジェクトマップは、映像データに少なくとも部分的に基づいて、(たとえば、手動で、および/またはコンピューティングシステムによって)識別され得る。
606において、コンピューティングシステムは、画像フレームおよび1つまたは複数のオブジェクトマップを機械学習済みレイヤレンダラモデルに入力することができる。608において、コンピューティングシステムは、機械学習済みレイヤレンダラモデルからの出力として、映像データの背景を示す背景レイヤ、および1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信することができる。たとえば、オブジェクトレイヤは、1つもしくは複数のオブジェクトならびに/または環境と対話する1つもしくは複数のオブジェクトから生じたトレース効果を示すことができる。
追加開示
本明細書において論じた技術は、サーバ、データベース、ソフトウェアアプリケーション、および他のコンピュータベースのシステム、ならびに行われるアクションおよびそのようなシステムとの間で送られる情報を参照する。コンピュータベースのシステムの固有の柔軟性により、構成要素の間での、タスクおよび機能性の多種多様の可能な構成、組合せ、および分割が可能である。たとえば、本明細書において論じるプロセスは、組合せで動く、単一のデバイスもしくは構成要素または複数のデバイスもしくは構成要素を使って実装することができる。データベースおよびアプリケーションは、単一のシステム上で実装するか、または複数のシステムに分散することができる。分散構成要素は、順次、または並行して動作することができる。
本主題を、その様々な具体的な例示的実施形態に関して詳しく記載したが、各例は、本開示の限定ではなく、説明として与えられている場合がある。当業者は、上記を理解すると、そのような実施形態への改変、変形、および等価物を容易に生じることができよう。したがって、本開示は、当業者には容易に明らかであるような、本主題に対するそのような修正、変形および/または追加の包含を排除しない。たとえば、一実施形態の一部として示し、または記載した特徴は、別の実施形態とともに使われて、またさらなる実施形態をもたらすことができる。したがって、本開示は、そのような改変、変形、および等価物をカバーすることを意図する場合がある。
10 コンピューティングデバイス
50 コンピューティングデバイス
100 コンピューティングシステム、システム
102 ユーザコンピューティングデバイス
112 プロセッサ
114 メモリ
120 レイヤレンダラモデル、モデル
122 ユーザ入力構成要素
130 サーバコンピューティングシステム
132 プロセッサ
134 メモリ
140 レイヤレンダラモデル、モデル
150 トレーニング用コンピューティングシステム
152 プロセッサ
154 メモリ
160 モデル訓練器
180 ネットワーク
202 オブジェクトマップ
204 深層テクスチャマップ、テクスチャアトラス、テクスチャマップ
210 再サンプラ
212 RGBAレイヤ、レイヤ
213 αレイヤ
220 ニューラルレンダリングネットワーク、ニューラルレンダラ、レイヤレンダリングモデル
300 レイヤレンダラシステム
302 オブジェクトマップ生成モデル
304 オブジェクトマップ
1200 レイヤレンダラシステム
1202 レイヤレンダラモデル

Claims (22)

  1. 修正された相対タイミングで再合成することができる複数のレイヤに映像を分解するためのコンピュータ実装方法であって、
    1つまたは複数のコンピューティングデバイスを備えるコンピューティングシステムによって、映像データを取得するステップであって、前記映像データは、1つまたは複数のオブジェクトを示す複数の画像フレームを含む、ステップと、
    前記複数のフレームの各々について、
    前記コンピューティングシステムによって、1つまたは複数のオブジェクトマップを生成するステップであって、前記1つまたは複数のオブジェクトマップの各々は、前記画像フレーム内の前記1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述する、ステップと、
    前記コンピューティングシステムによって、前記画像フレームおよび前記1つまたは複数のオブジェクトマップを、機械学習済みレイヤレンダラモデルに入力するステップと、
    前記コンピューティングシステムによって、前記機械学習済みレイヤレンダラモデルからの出力として、前記映像データの背景を示す背景レイヤ、および前記1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信するステップとを含み、
    各画像フレームについて、前記1つまたは複数のオブジェクトレイヤの各々は、前記少なくとも1つのオブジェクトを示す画像データと、前記1つまたは複数のオブジェクトレイヤおよび前記背景レイヤが、修正された相対タイミングで再合成することができるような前記少なくとも1つのオブジェクトに少なくとも部分的に起因する1つまたは複数のトレース効果とを含む、コンピュータ実装方法。
  2. 前記コンピューティングシステムによって、前記画像フレームおよび前記1つまたは複数のオブジェクトマップを前記機械学習済みレイヤレンダラモデルに入力するステップは、前記1つまたは複数のオブジェクトマップの各々を前記機械学習済みレイヤレンダラモデルに反復して個々に入力し、前記機械学習済みレイヤレンダラモデルからの出力として、および前記コンピューティングシステムによって、それぞれ前記1つまたは複数のオブジェクトマップへの前記1つまたは複数のオブジェクトレイヤの各々を反復して個々に受信するステップを含む、請求項1に記載のコンピュータ実装方法。
  3. 前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤは、1つまたは複数のカラーチャネルおよび不透明マットを含む、請求項1または2に記載のコンピュータ実装方法。
  4. 前記機械学習済みレイヤレンダラモデルはニューラルネットワークを含む、請求項1から3のいずれか一項に記載のコンピュータ実装方法。
  5. 前記機械学習済みレイヤレンダラモデルは、再構築損失、マスク損失、および正規化損失に少なくとも部分的に基づいてトレーニングされている、請求項1から4のいずれか一項に記載のコンピュータ実装方法。
  6. 前記トレーニングは、ダウンサンプリングされた映像で実施されており、次いで、アップサンプリングされた、請求項5に記載のコンピュータ実装方法。
  7. 前記1つまたは複数のオブジェクトマップは、1つまたは複数のテクスチャマップを含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法。
  8. 前記1つまたは複数のオブジェクトマップは、1つまたは複数の再サンプリングされたテクスチャマップを含む、請求項1から7のいずれか一項に記載のコンピュータ実装方法。
  9. 前記コンピューティングシステムによって、1つまたは複数のオブジェクトマップを取得するステップは、
    前記コンピューティングシステムによって、1つまたは複数のUVマップを取得するステップであって、前記UVマップの各々は、前記1つまたは複数のフレーム内に示される前記1つまたは複数のオブジェクトのうちの前記少なくとも1つのオブジェクトを示す、ステップと、
    前記コンピューティングシステムによって、背景深層テクスチャマップおよび1つまたは複数のオブジェクト深層テクスチャマップを取得するステップと、
    前記コンピューティングシステムによって、前記1つまたは複数のUVマップに少なくとも部分的に基づいて前記1つまたは複数のオブジェクト深層テクスチャマップを再サンプリングするステップとを含む、請求項8に記載のコンピュータ実装方法。
  10. 前記コンピューティングシステムによって、前記1つまたは複数のUVマップを生成するステップは、
    前記コンピューティングシステムによって、1つまたは複数のキーポイントを識別するステップと、
    前記コンピューティングシステムによって、前記1つまたは複数のキーポイントに基づいて1つまたは複数のUVマップを取得するステップとを含む、請求項9に記載のコンピュータ実装方法。
  11. 前記コンピューティングシステムによって、前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤを受信したことに続いて、後処理ステップにおいて前記映像データの高解像度詳細を転送するステップをさらに含む、請求項1から10のいずれか一項に記載のコンピュータ実装方法。
  12. 映像データを複数のレイヤに分解するように構成されたコンピューティングシステムであって、
    1つまたは複数のプロセッサと、
    前記1つまたは複数のプロセッサによって実行されると、前記コンピューティングシステムに動作を実施させる命令を記憶する1つまたは複数の非一時的コンピュータ可読媒体とを備え、前記動作は、
    映像データを取得することであって、前記映像データは、1つまたは複数のオブジェクトを示す複数の画像フレームを含む、取得することと、
    前記複数のフレームの各々について、
    1つまたは複数のオブジェクトマップを生成することであって、前記1つまたは複数のオブジェクトマップの各々は、前記画像フレーム内の前記1つまたは複数のオブジェクトのうちの少なくとも1つのオブジェクトのそれぞれのロケーションを記述する、生成することと、
    前記画像フレームおよび前記1つまたは複数のオブジェクトマップを、機械学習済みレイヤレンダラモデルに入力することと、
    前記機械学習済みレイヤレンダラモデルからの出力として、前記映像データの背景を示す背景レイヤ、および前記1つまたは複数のオブジェクトマップのうちの1つにそれぞれ関連付けられた1つまたは複数のオブジェクトレイヤを受信することとを含み、
    各画像フレームについて、前記1つまたは複数のオブジェクトレイヤの各々は、前記少なくとも1つのオブジェクトを示す画像データと、前記1つまたは複数のオブジェクトレイヤおよび前記背景レイヤが、修正された相対タイミングで再合成することができるような前記少なくとも1つのオブジェクトに少なくとも部分的に起因する1つまたは複数のトレース効果とを含む、コンピューティングシステム。
  13. 前記画像フレームおよび前記1つまたは複数のオブジェクトマップを前記機械学習済みレイヤレンダラモデルに入力することは、前記1つまたは複数のオブジェクトマップの各々を前記機械学習済みレイヤレンダラモデルに反復して個々に入力し、前記機械学習済みレイヤレンダラモデルからの出力として、および前記コンピューティングシステムによって、それぞれ前記1つまたは複数のオブジェクトマップへの前記1つまたは複数のオブジェクトレイヤの各々を反復して個々に受信することを含む、請求項12に記載のコンピューティングシステム。
  14. 前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤは、1つまたは複数のカラーチャネルおよび不透明マットを含む、請求項12または請求項13に記載のコンピューティングシステム。
  15. 前記機械学習済みレイヤレンダラモデルはニューラルネットワークを含む、請求項12から14のいずれか一項に記載のコンピューティングシステム。
  16. 前記機械学習済みレイヤレンダラモデルは、再構築損失、マスク損失、および正規化損失に少なくとも部分的に基づいてトレーニングされている、請求項12から15のいずれか一項に記載のコンピューティングシステム。
  17. 前記トレーニングは、ダウンサンプリングされた映像で実施されており、次いで、アップサンプリングされた、請求項12から16のいずれか一項に記載のコンピューティングシステム。
  18. 前記1つまたは複数のオブジェクトマップは、1つまたは複数のテクスチャマップを含む、請求項12から17のいずれか一項に記載のコンピューティングシステム。
  19. 前記1つまたは複数のオブジェクトマップは、1つまたは複数の再サンプリングされたテクスチャマップを含む、請求項12から18のいずれか一項に記載のコンピューティングシステム。
  20. 1つまたは複数のオブジェクトマップを取得することは、
    1つまたは複数のUVマップを取得することであって、前記UVマップの各々は、前記1つまたは複数のフレーム内に示される前記1つまたは複数のオブジェクトのうちの前記少なくとも1つのオブジェクトを示す、取得することと、
    背景深層テクスチャマップおよび1つまたは複数のオブジェクト深層テクスチャマップを取得することと、
    前記1つまたは複数のUVマップに少なくとも部分的に基づいて前記1つまたは複数のオブジェクト深層テクスチャマップを再サンプリングすることとを含む、請求項12から19のいずれか一項に記載のコンピューティングシステム。
  21. 前記1つまたは複数のUVマップを取得することは、
    1つまたは複数のキーポイントを識別することと、
    前記1つまたは複数のキーポイントに基づいて1つまたは複数のUVマップを生成することとを含む、請求項12から20のいずれか一項に記載のコンピューティングシステム。
  22. 前記命令は、
    前記背景レイヤおよび前記1つまたは複数のオブジェクトレイヤを受信したことに続いて、後処理ステップにおいて前記映像データの高解像度詳細を転送することをさらに含む、請求項12から21のいずれか一項に記載のコンピューティングシステム。
JP2022571294A 2020-05-22 2020-05-22 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング Active JP7416983B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2020/034296 WO2021236104A1 (en) 2020-05-22 2020-05-22 Re-timing objects in video via layered neural rendering

Publications (2)

Publication Number Publication Date
JP2023526860A true JP2023526860A (ja) 2023-06-23
JP7416983B2 JP7416983B2 (ja) 2024-01-17

Family

ID=71078640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022571294A Active JP7416983B2 (ja) 2020-05-22 2020-05-22 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング

Country Status (6)

Country Link
US (1) US20230206955A1 (ja)
EP (1) EP3939248B1 (ja)
JP (1) JP7416983B2 (ja)
KR (1) KR20230012045A (ja)
CN (1) CN115668906A (ja)
WO (1) WO2021236104A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257868B (zh) * 2021-12-23 2024-06-21 中国农业银行股份有限公司 视频制作方法、装置、设备和存储介质
CN114972611B (zh) * 2022-07-18 2022-11-11 深圳大学 一种基于引导匹配损失的深度纹理合成方法及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10977802B2 (en) * 2018-08-29 2021-04-13 Qualcomm Incorporated Motion assisted image segmentation

Also Published As

Publication number Publication date
CN115668906A (zh) 2023-01-31
EP3939248B1 (en) 2023-09-27
EP3939248A1 (en) 2022-01-19
WO2021236104A1 (en) 2021-11-25
KR20230012045A (ko) 2023-01-25
US20230206955A1 (en) 2023-06-29
JP7416983B2 (ja) 2024-01-17

Similar Documents

Publication Publication Date Title
Liu et al. Semantic-aware implicit neural audio-driven video portrait generation
Thies et al. Headon: Real-time reenactment of human portrait videos
US20200226821A1 (en) Systems and Methods for Automating the Personalization of Blendshape Rigs Based on Performance Capture Data
Lu et al. Layered neural rendering for retiming people in video
Patwardhan et al. Video inpainting under constrained camera motion
US9036898B1 (en) High-quality passive performance capture using anchor frames
US10812825B2 (en) Video frame synthesis with deep learning
Kim et al. Recurrent temporal aggregation framework for deep video inpainting
US9076258B2 (en) Stylizing animation by example
WO2021155140A1 (en) Photorealistic talking faces from audio
JP7416983B2 (ja) 階層化ニューラルレンダリングによる映像中のオブジェクトのリタイミング
US20220237879A1 (en) Direct clothing modeling for a drivable full-body avatar
Ouyang et al. Real-time neural character rendering with pose-guided multiplane images
JP7446566B2 (ja) ボリュメトリックキャプチャ及びメッシュ追跡ベースの機械学習
CN111915587B (zh) 视频处理方法、装置、存储介质和电子设备
Murphy et al. Artist guided generation of video game production quality face textures
Tous Pictonaut: movie cartoonization using 3D human pose estimation and GANs
Paier et al. Video-based facial re-animation
Liu et al. A framework for locally retargeting and rendering facial performance
US10922872B2 (en) Noise reduction on G-buffers for Monte Carlo filtering
Lv et al. Generating smooth and facial-details-enhanced talking head video: A perspective of pre and post processes
Laishram et al. High-quality face caricature via style translation
Sun et al. Generation of virtual digital human for customer service industry
US12033259B2 (en) Photorealistic talking faces from audio
US11941736B2 (en) Systems and methods for motion-controlled animation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230117

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230117

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240104

R150 Certificate of patent or registration of utility model

Ref document number: 7416983

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150