JP2022536381A - 動作遷移方法、装置、デバイス、および記憶媒体 - Google Patents

動作遷移方法、装置、デバイス、および記憶媒体 Download PDF

Info

Publication number
JP2022536381A
JP2022536381A JP2021573955A JP2021573955A JP2022536381A JP 2022536381 A JP2022536381 A JP 2022536381A JP 2021573955 A JP2021573955 A JP 2021573955A JP 2021573955 A JP2021573955 A JP 2021573955A JP 2022536381 A JP2022536381 A JP 2022536381A
Authority
JP
Japan
Prior art keywords
sequence
sample
motion
keypoint
skeletal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2021573955A
Other languages
English (en)
Inventor
文岩 呉
文▲トウ▼ 朱
卓謙 楊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2022536381A publication Critical patent/JP2022536381A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/06Topological mapping of higher dimensional structures onto lower dimensional surfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/08Projecting images onto non-planar surfaces, e.g. geodetic screens
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • G06T7/596Depth or shape recovery from multiple images from stereo images from three or more stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本発明では、動作遷移方法、装置、デバイス、および記憶媒体が提案され、具体的には、先ず、初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得し、その次に、前記第1初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別し、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換し、最後に、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する。【選択図】図1

Description

本発明は、コンピュータビジョン技術分野に関し、具体的には動作遷移方法、装置、デバイス、および記憶媒体に関する。
動作遷移とは、初期動画中の初期オブジェクトの動作を標的オブジェクトに遷移して、標的動画を形成することを指す。初期動画と標的動画とは構造および視野角で大きな差異があるため、画素レベルでの動作遷移は難しい。特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合、標的オブジェクトに遷移された動作の精度が低い。
以上のことに鑑みて、本発明では少なくとも動作遷移方法および装置が提案される。
本発明の第1態様により、初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得するステップと、前記第1初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するステップと、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップと、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップと、を含む、動作遷移方法が提案される。
本態様では、二次元骨格キーポイント・シーケンスの抽出、二次元骨格キーポイント・シーケンスから三次元骨格キーポイント・シーケンスへのリダイレクト、および三次元骨格キーポイント・シーケンスに基づく標的オブジェクトの動作レンダリングにより、動作遷移が実現され、画素レベルでの直接的な動作遷移が回避され、初期ビデオと標的ビデオとは構造および視野角で大きな差異があるという問題が克服され、特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が向上することとなる。また、本態様では、二次元骨格キーポイント・シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。
1つの実施可能な形態では、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することと、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む。
本実施形態では、二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。
1つの実施可能な形態では、上記の動作遷移方法は、前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する前に、標的オブジェクトを含む第2初期ビデオを取得することと、前記第2初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別することと、をさらに含み、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することは、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定することと、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定することと、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む。
本実施形態では、初期オブジェクトの二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスと、標的オブジェクトの二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスを融合して、三次元骨格キーポイント・シーケンスを特定することにより、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点を克服することができる。
1つの実施可能な形態では、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することは、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、前記各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定することと、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定することと、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定することと、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定することと、を含む。
本実施形態では、動作遷移成分シーケンスは、直交する複数の成分シーケンスを含み、直交する複数の成分シーケンスを利用して三次元骨格キーポイント・シーケンスを特定することにより、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点をさらに克服することができる。
1つの実施可能な形態では、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップは、前記三次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの二次元標的骨格キーポイント・シーケンスを生成することと、前記二次元標的骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成することと、を含む。
本実施形態では、再構築された三次元骨格キーポイント・シーケンスを再投影して二次元標的骨格キーポイント・シーケンスを取得することにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。
1つの実施可能な形態では、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、動作遷移ニューラルネットワークを利用して、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換することを含む。
本実施形態では、トレーニング済みの動作遷移ニューラルネットワークを利用して標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することにより、キーポイントリダイレクトの効率および精度を向上させることができる。
1つの実施可能な形態では、上記の動作遷移方法は、前記動作遷移ニューラルネットワークをトレーニングするための、サンプル・オブジェクトの動作シーケンスを含むサンプル動画を取得するステップと、前記サンプル動画に含まれる複数フレームのサンプル画像中の前記サンプル・オブジェクトの第1サンプル二次元骨格キーポイント・シーケンスを識別するステップと、第1サンプル二次元骨格キーポイント・シーケンスに対して身体の比例でのスケーリング処理を行うことで、第2サンプル二次元骨格キーポイント・シーケンスを取得するステップと、前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップと、前記損失関数により前記動作遷移ニューラルネットワークのネットワークパラメータを調整するステップと、をさらに含む。
本実施形態では、サンプル・オブジェクトの第1サンプル二次元骨格キーポイント・シーケンスと、サンプル・オブジェクトに対して身体の比例でのスケーリングを行って得られた第2サンプル二次元骨格キーポイント・シーケンスを利用して損失関数を構築して、動作遷移ニューラルネットワークをトレーニングすることにより、初期オブジェクトと標的オブジェクトの構造差異が大きい場合での動作遷移精度を向上させることができる。また、上記の動作遷移ニューラルネットワークをトレーニングする際には、現実の世界で対をなす動作ーキャラクターデータが使用されておらず、教師無しの損失関数の構築および動作遷移ニューラルネットワークのトレーニングが実現され、トレーニングによって得られた動作遷移ニューラルネットワークによる動作遷移時の精度の向上には有利である。
1つの実施可能な形態では、前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップは、前記第1サンプル二次元骨格キーポイント・シーケンスに基づいて前記第1サンプル動作遷移成分シーケンスを特定することと、前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて前記第2サンプル動作遷移成分シーケンスを特定することと、前記第1サンプル動作遷移成分シーケンスに基づいて推定三次元骨格キーポイント・シーケンスを特定することと、前記第1サンプル動作遷移成分シーケンス、前記第2サンプル動作遷移成分シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記損失関数を特定することと、を含む。
本実施形態では、第1サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた第1サンプル動作遷移成分シーケンス、第2サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた第2サンプル動作遷移成分シーケンス、および第1サンプル動作遷移成分シーケンスに基づいて再構築された推定三次元骨格キーポイント・シーケンスを利用して、損失関数を構築することにより、初期オブジェクトと標的オブジェクトの構造差異が大きい場合での動作遷移精度を向上させることができる。
1つの実施可能な形態では、前記損失関数は、動き不変損失関数を含み、前記第1サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第1サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報を含み、前記第2サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第2サンプル動き成分情報、第2サンプル構造成分情報、および第2サンプル角度成分情報を含む。
前記損失関数を特定することは、前記各フレームのサンプル画像に対応する前記第2サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報に基づいて、前記第1サンプル二次元骨格キーポイント・シーケンス中の対応する前記第1サンプル二次元骨格キーポイントに対応する第1推定骨格キーポイントを特定することと、前記各フレームのサンプル画像に対応する前記第1サンプル動き成分情報、第2サンプル構造成分情報、および第2サンプル角度成分情報に基づいて、前記第2サンプル二次元骨格キーポイント・シーケンス中の対応する前記第2サンプル二次元骨格キーポイントに対応する第2推定骨格キーポイントを特定することと、前記第1推定骨格キーポイント、第2推定骨格キーポイント、第1サンプル動き成分情報、第2サンプル動き成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記動き不変損失関数を特定することと、を含む。
本実施形態では、第1サンプル二次元骨格キーポイント・シーケンスおよび第2サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた情報を利用して、サンプル・オブジェクトの骨格復元を行って第1推定骨格キーポイントを取得し、身体がスケーリングされたサンプル・オブジェクトの骨格復元を行って第2推定骨格キーポイントを取得し、さらに、復元された第1推定骨格キーポイント、第2推定骨格キーポイント、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、動き不変損失関数を構築することができる。サンプル・オブジェクトは、構造および撮影視野角の面で変化や擾乱があるにもかかわらず、遷移後の動き情報が不変であるはずであるため、動き不変損失関数を構築するとともに、トレーニング時に動き不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。
1つの実施可能な形態では、前記損失関数は、構造不変損失関数をさらに含み、前記損失関数を特定することは、前記第1サンプル二次元骨格キーポイント・シーケンスから、第1時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、および第2時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイントをスクリーニングすることと、前記第2サンプル二次元骨格キーポイント・シーケンスから、前記第2時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイント、および前記第1時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイントをスクリーニングすることと、前記第1時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第2時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第2時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイント、前記第1時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイント、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記構造不変損失関数を特定することと、をさらに含む。
本実施形態では、異なる時刻での第1サンプル二次元骨格キーポイントおよび第2サンプル二次元骨格キーポイントを利用して、再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、構造不変損失関数を構築することができる。サンプル・オブジェクトの構造が時間の変化に伴って不変性があるので、構造不変損失関数を構築するとともに、トレーニング時に動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。
1つの実施可能な形態では、前記損失関数は、視野角不変損失関数をさらに含み、前記損失関数を特定することは、前記第1時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第2時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第1時刻および第2時刻に対応するサンプル画像の第1サンプル角度成分情報、前記第1時刻および第2時刻に対応するサンプル画像の第2サンプル角度成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記視野角不変損失関数を特定することをさらに含む。
本実施形態では、異なる時刻での第1サンプル二次元骨格キーポイント、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスなどを利用することにより、視野角不変損失関数を構築することができる。サンプル・オブジェクトの撮影視野角がサンプル・オブジェクトの動きおよび構造の変化に伴って不変性があるので、視野角不変損失関数を構築するとともに、トレーニング時に視野角不変損失関数、動き不変損失関数、および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。
1つの実施可能な形態では、前記損失関数は、再構築復元損失関数をさらに含み、前記損失関数を特定することは、前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記推定三次元骨格キーポイント・シーケンスに基づいて前記再構築復元損失関数を特定することをさらに含む。
本実施形態では、第1サンプル二次元骨格キーポイント・シーケンス、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを利用することにより、再構築復元損失関数を構築することができる。サンプル・オブジェクトが復元時に不変性があるはずであるので、再構築復元損失関数を構築するとともに、トレーニング時に再構築復元損失関数、視野角不変損失関数、動き不変損失関数、および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。
本発明の第2態様により、初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得するように構成されるビデオ取得モジュールと、前記第1初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成されるキーポイント抽出モジュールと、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するように構成されるキーポイント変換モジュールと、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するように構成される画像レンダリングモジュールと、を含む、動作遷移装置が提案される。
1つの実施可能な形態では、前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する際に、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。
1つの実施可能な形態では、前記ビデオ取得モジュールはさらに、標的オブジェクトを含む第2初期ビデオを取得するように構成され、前記キーポイント抽出モジュールはさらに、前記第2初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成され、前記キーポイント変換モジュールは、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際に、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。
1つの実施可能な形態では、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定する際に、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、前記初期オブジェクトの動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定し、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定し、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定し、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定する。
本発明の第3態様により、プロセッサと、メモリと、バスと、を備え、前記メモリには、前記プロセッサで実行可能な機械読み取り可能な命令が格納され、電子デバイスが作動する際に、前記プロセッサと前記メモリがバスを介して通信され、前記機械読み取り可能な命令が前記プロセッサで実行される際に、上記の動作遷移方法におけるステップが実行されることとなる、電子デバイスが提案される。
本発明の第4態様により、当該コンピュータ読み取り可能な記憶媒体にはコンピュータ・プログラムが格納され、当該コンピュータ・プログラムがプロセッサで実行される際に、上記の動作遷移方法におけるステップが実行されることとなる、コンピュータ読み取り可能な記憶媒体が提案される。
本発明に係る上記の装置、電子デバイス、およびコンピュータ読み取り可能な記憶媒体には、本発明に係る上記の方法の何れか1つの態様または何れか1つの態様の何れか1つの実施形態の技術特徴と実質的に同じまたは類似する技術特徴が少なくとも含まれているので、上記の装置、電子デバイス、およびコンピュータ読み取り可能な記憶媒体の効果に関する記述は、上記の方法説明における効果に関する記述を参照でき、ここでは重複に説明しないものとする。
本発明の実施例に係る技術案をより明晰に説明するために、以下では、実施例に用いられる図面を簡単に説明する。以下の図面は、本発明の幾つかの実施例のみを図示するので、範囲への限定として見なされるべきではなく、普通の当業者にとっては、創造的な労働をせずにこれらの図面から他の相関図面を得ることもできるとは、理解されるべきであろう。
本発明の実施例で提案する動作遷移方法を示すフローチャートである。 本発明の実施例で提案する別の動作遷移方法を示すフローチャートである。 本発明の実施例で提案する動作遷移ニューラルネットワークのトレーニング方法を示すフローチャートである。 本発明の実施例で提案する別の動作遷移ニューラルネットワークのトレーニング過程中の骨格キーポイントの復元を示すフローチャートである。 本発明の実施例で提案する動作遷移装置の構成を示す概略図である。 本発明の実施例で提案する電子デバイスの構成を示す概略図である。
本発明の実施例の目的、技術案、およびメリットをより明晰にするために、以下では、本発明の実施例に係る技術案について本発明の実施例に係る図面を参照しながら明晰かつ完全に説明する。本発明の図面は、単に説明および記述の目的に達成するためのものに過ぎず、本発明の保護範囲を限定するためのものではないとは、理解されるべきであろう。さらに、例示的な図面は、実物の割合で描かれたものではないとは、理解されるべきであろう。本発明で使用されるフローチャートは、本発明の幾つかの実施例によって実現された操作を図示する。フローチャートで記載される操作は、その順序で実施されなくてもよく、ロジックのない前後文関係を持つステップは、逆順または同時に実施されてもよいとは、理解されるべきであろう。また、当業者は、本発明の内容に導かれて、1つまたは複数の他の操作をフローチャートに追加しても、フローチャートから1つまたは複数の操作を削除してもよい。
また、本明細書に記述される実施例は、本発明の実施例の全部ではなく、その一部に過ぎない。通常、ここでの図面に記述や図示される本発明の実施例に係る構成要素は、様々な異なる構成で配置や設計されることができる。したがって、図面で提案される本発明の実施例に関する以下の詳細な記述は、保護請求する本発明の範囲を限定することを主旨とするものではなく、本発明に選定された実施例のみを示すものである。本発明の実施例に基づき、当業者が創造的な労働をせずに得られた全ての他の実施例は、本発明の保護範囲内に含まれるものとする。
特に説明したいこととして、本発明の実施例では、用語「含む」でその後に宣言された特徴の存在を示す場合があるが、他の特徴を追加することを排除するわけではない。
本発明で提案する動作遷移方法および装置では、二次元骨格キーポイント・シーケンスの抽出、二次元骨格キーポイント・シーケンスから三次元骨格キーポイント・シーケンスへのリダイレクト、および三次元骨格キーポイント・シーケンスに基づく標的オブジェクトの動作レンダリングにより、動作遷移が実現され、画素レベルでの直接的な動作遷移が回避され、初期ビデオと標的ビデオとは構造および視野角で大きな差異があるという問題が緩和され、特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が向上することとなる。また、本発明では、二次元骨格キーポイント・シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。
以下では、本発明に係る動作遷移方法、装置、デバイス、および記憶媒体について、具体的な実施例によって説明する。
本発明の実施例では、動作遷移を実行する端末デバイスまたはサーバなどに適用される動作遷移方法が提案される。具体的には、図1に示すように、本発明の実施例で提案する動作遷移方法は、次のステップを含む。
S110:初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得する。
ここでは、第1初期ビデオには複数フレームの画像が含まれており、各フレームの画像中の初期オブジェクトでは異なる姿勢が呈される場合があり、これらの姿勢は併合されて初期オブジェクトの動作シーケンスを構成する。
S120:前記第1初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別する。
初期オブジェクトの動作シーケンスを特定するために、第1初期ビデオに含まれる各フレームの画像から初期オブジェクトの二次元骨格キーポイントを抽出することができ、複数フレームの画像のそれぞれに対応する二次元骨格キーポイントにより、上記の二次元骨格キーポイント・シーケンスが形成される。例示的には、上記の二次元骨格キーポイントは、初期オブジェクトの各関節に対応するキーポイントを含んでいてもよい。各関節に対応するキーポイントを組み合わせて連結すると、初期オブジェクトの骨格が得られる。
1つの実施可能な形態では、二次元姿勢推定ニューラルネットワークを利用して、各フレームの画像中の初期オブジェクトの二次元骨格キーポイントを抽出することができる。
上記の初期オブジェクトは、実在の人、仮想の人、動物などとすることができ、本発明ではこれについて限定されない。
S130:前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する。
1つの実施可能な形態では、先ず、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、その後に、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定するように構成することができる。
例示的には、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスのうちの少なくとも1つを含む。
ここでは、動き成分シーケンスは、初期オブジェクトの動きを示し、オブジェクト構造成分シーケンスは、初期オブジェクトの身体形態を示し、撮影角度成分シーケンスは、カメラの角度を示す。
一部の実施例では、上記の動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスは、次のサブステップによって形成されることができる。
サブステップ1:前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定する。
サブステップ2:前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定する。
サブステップ3:前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定する。
サブステップ4:前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定する。
上記のステップは、ニューラルネットワークにより各フレームの画像に対応する二次元骨格キーポイントを、セマンティックで直交する3つのベクトルに符号化することで、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報をそれぞれ取得するものである。その次に、複数フレームの画像に対応する動き成分情報を組み合わせて動き成分シーケンスを形成し、複数フレームの画像に対応するオブジェクト構造成分情報を組み合わせてオブジェクト構造成分シーケンスを形成し、複数フレームの画像に対応する撮像角度成分情報を組み合わせて撮影角度成分シーケンスを形成する。
上記3つの成分情報のうち、各成分情報は別の2つの成分情報に対して不変性がある。
このステップでは、二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利であり、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点がさらに軽減される。
S140:前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する。
三次元骨格キーポイント・シーケンスを特定した後、この三次元骨格キーポイント・シーケンス中の各フレームの画像に対応する三次元骨格キーポイントを二次元空間へと再再投影再投影することで、標的オブジェクトの二次元標的骨格キーポイントを取得することができ、複数フレームの画像に対応する二次元標的骨格キーポイントにより、二次元標的骨格キーポイント・シーケンスが形成される。その後に、前記二次元標的骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する。ここでは、標的オブジェクトの動作シーケンスは初期オブジェクトの動作シーケンスとは互いに対応する。
一部の実施例では、二次元標的骨格キーポイント・シーケンスを利用して、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する場合、得られた各グループの二次元標的骨格キーポイントを利用して動作レンダリングを行うことで、各フレームの画像に対応する標的オブジェクトの姿勢を取得し、各フレームの画像中の姿勢を順次併合すれば、標的オブジェクトの動作シーケンスを取得することができる。
例示的には、ビデオ・レンダリング・エンジンを利用して、各フレームの画像に対応する二次元標的骨格キーポイントに基づいて、前記標的オブジェクトの動作シーケンスを含む標的ビデオを生成することができる。
以上のように、再構築された三次元骨格キーポイント・シーケンスを再投影して二次元標的骨格キーポイント・シーケンスを取得することにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。
例示的には、上記のステップS130では、トレーニング済みの動作遷移ニューラルネットワークを利用して二次元骨格キーポイント・シーケンスの直交分解を行い、分解で得られた動作遷移成分シーケンスを利用して標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することができる。
上記の動作遷移ニューラルネットワークは、3つのエンコーダと1つの復号器を含み、各エンコーダはそれぞれ、二次元骨格キーポイント・シーケンス中の各二次元骨格キーポイントに対して成分情報を抽出して、上記の動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報を取得するように構成される。上記の成分情報を取得した後、1つの復号器で復号処理を行い、標的オブジェクトの推定三次元骨格キーポイントを再構築し、最後に推定三次元骨格キーポイントを二次元空間へと再投影することで、上記の三次元骨格キーポイント・シーケンス中の1つの三次元骨格キーポイントを取得する。
特に説明すべきこととして、三次元骨格キーポイントを特定する際には、復号器で直接復号したオブジェクト構造成分情報および撮影角度成分情報を利用して特定してもよいし、平均プーリングされたオブジェクト構造成分情報および撮影角度成分情報を利用して特定してもよい。具体的には、現在フレームの画像を含む連続的な複数フレームの画像のそれぞれに対応する二次元骨格キーポイントの直交分解を行うことで、各フレームの画像に対応するオブジェクト構造成分情報および撮影角度成分情報を取得し、その後に、各フレームの画像に対応するオブジェクト構造成分情報に対して平均プーリング操作を行って現在フレームの画像に対応する最終的なオブジェクト構造成分情報を取得し、各フレームの画像に対応する撮影角度成分情報に対して平均プーリング操作を行って現在フレームの画像に対応する最終的な撮影角度成分情報を取得する。最後に、直接分解で取得した動き成分情報、平均プーリング操作で取得したオブジェクト構造成分情報、および平均プーリング操作で取得した撮影角度成分情報を利用して、現在フレームの画像に対応する三次元骨格キーポイントを特定する。
上記の実施例によれば、画素レベルでの直接的な動作遷移が回避され、第1初期ビデオと標的ビデオとは構造および視野角で大きな差異があるという問題が緩和され、特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が向上することとなる。また、上記の実施例では、抽出された二次元骨格キーポイントが動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報に直交分解されることにより、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点がさらに軽減される。
初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点をさらに軽減するために、本発明の実施例では、前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する前に、標的オブジェクトを含む第2初期ビデオを取得したとともに、前記第2初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別する。
その後に、前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際には、先ず、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定し、その次に、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、最後に、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。
上記のような標的オブジェクトの動作遷移成分シーケンスを特定する方法は、初期オブジェクトの動作遷移成分シーケンスを特定する方法とは同じであり、同様に、先ず、第2初期ビデオの各フレームの画像から標的オブジェクトの二次元骨格キーポイントをそれぞれ抽出し、各フレームの画像中の二次元骨格キーポイントの直交分解を行うことで、前記標的オブジェクトの動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報を特定する。最後に、複数フレームの画像に対応する動き成分情報を利用して動き成分シーケンスを形成し、複数フレームの画像に対応するオブジェクト構造成分情報を利用してオブジェクト構造成分シーケンスを形成し、複数フレームの画像に対応する撮像角度成分情報を利用して撮影角度成分シーケンスを形成する。
上記の実施例では、融合後の標的動作遷移成分シーケンスを利用して標的オブジェクトの三次元骨格キーポイント・シーケンスを再構築してから、再構築した三次元骨格キーポイント・シーケンスを再投影して標的オブジェクトの二次元標的骨格キーポイント・シーケンスを取得することにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。
以下では、本発明に係る動作遷移方法について1つの具体的な実施例によってさらに説明する。
図2に示すように、本実施例に係る動作遷移方法は、次のステップを含む。
ステップ1:骨格抽出操作。第1初期ビデオの各フレームの画像から初期オブジェクトの二次元骨格キーポイントを抽出して初期オブジェクトの二次元骨格キーポイント・シーケンスを取得し、第2初期ビデオの各フレームの画像から標的オブジェクトの二次元骨格キーポイントを抽出して標的オブジェクトの二次元骨格キーポイント・シーケンスを取得する。
ステップ2:動作遷移処理。初期オブジェクトの二次元骨格キーポイント・シーケンス中の各二次元骨格キーポイントおよび標的オブジェクトの二次元骨格キーポイント・シーケンス中の各二次元骨格キーポイントをそれぞれ符号化処理し、即ち直交分解を行うことで、初期オブジェクトの各二次元骨格キーポイントまたは各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報、および標的オブジェクトの各二次元骨格キーポイントまたは各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報をそれぞれ取得する。
上記の初期オブジェクトの複数フレームの画像に対応する動き成分情報により初期オブジェクトの動き成分シーケンスが形成され、初期オブジェクトの複数フレームの画像に対応するオブジェクト構造成分情報により初期オブジェクトのオブジェクト構造成分シーケンスが形成され、初期オブジェクトの複数フレームの画像に対応する撮像角度成分情報により初期オブジェクトの撮像角度成分シーケンスが形成される。初期オブジェクトの動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスにより、初期オブジェクトの動作遷移成分シーケンスが形成される。
同様に、上記の標的オブジェクトの複数フレームの画像に対応する動き成分情報により標的オブジェクトの動き成分シーケンスが形成され、標的オブジェクトの複数フレームの画像に対応するオブジェクト構造成分情報により標的オブジェクトのオブジェクト構造成分シーケンスが形成され、標的オブジェクトの複数フレームの画像に対応する撮像角度成分情報により標的オブジェクトの撮像角度成分シーケンスが形成される。標的オブジェクトの動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスにより、標的オブジェクトの動作遷移成分シーケンスが形成される。
その後に、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。
例示的には、初期オブジェクトの各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報と、標的オブジェクトの各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報を再組み合わせ、再組み合わせられる標的動き成分情報、標的構造成分情報、および標的角度成分情報を取得する。
上記の複数フレームの画像に対応する標的動き成分情報により標的動き成分シーケンスが形成され、複数フレームの画像に対応する標的構造成分情報により標的オブジェクト構造成分シーケンスが形成され、複数フレームの画像に対応する標的角度成分情報により標的撮像角度成分シーケンスが形成される。標的動き成分シーケンス、標的オブジェクト構造成分シーケンス、および標的撮影角度成分シーケンスにより、上記の標的動作遷移成分シーケンスが形成される。
その後に、標的動き成分情報、標的構造成分情報、および標的角度成分情報に対して復号操作を行うことで、同一フレームの画像に対応する3つの予め設定された角度での標的オブジェクトの三次元骨格キーポイントを取得する。複数フレームの画像の三次元骨格キーポイントにより、上記の三次元骨格キーポイント・シーケンスが形成される。
最後に、各予め設定された角度での三次元骨格キーポイントのそれぞれを二次元空間へと再投影することで、各予め設定された角度での標的オブジェクトの二次元標的骨格キーポイントをそれぞれ取得する。
ステップ3:骨格に基づくビデオレンダリング操作。各フレームの画像中の標的オブジェクトの各予め設定された角度での二次元標的骨格キーポイントに基づいて標的オブジェクトの各予め設定された角度での標的動作を特定し、標的動作に基づいて標的オブジェクトの各予め設定された角度での標的ビデオを生成する。
上記の実施例によれば、動作遷移精度が顕著に向上し、任意の角度での動作遷移を実現することができる。同時に、標的オブジェクトと初期オブジェクトの構造差異が大きく、初期オブジェクトが極端な動作をした場合であっても、正確な動作遷移が実行可能であり、良好な視覚効果が得られる。
現在、動きは複雑な非線形性を示して、現実の世界では対をなす動作ーキャラクターデータを見つけることは困難であるため、上記の動作遷移を実現するための動作遷移モデルを正確に確立することは困難であり、それによって、動作遷移には精度が低いという欠点が示される。上記の欠点を緩和するために、本発明では、動作遷移ニューラルネットワークのトレーニング方法がさらに提案され、当該方法は、上記の動作遷移処理を実行する端末デバイスまたはサーバに適用されてもよいし、単独でニューラルネットワーク・トレーニングを実行する端末デバイスまたはサーバに適用されてもよい。具体的には、図3に示すように、次のステップを含んでいてもよい。
S310:サンプル・オブジェクトの動作シーケンスを含むサンプル動画を取得する。
S320:前記サンプル動画に含まれる複数フレームのサンプル画像中の前記サンプル・オブジェクトの第1サンプル二次元骨格キーポイント・シーケンスを識別する。
ここでは、サンプル動画に含まれる各フレームの画像からサンプル・オブジェクトの第1サンプル二次元骨格キーポイントが抽出され、複数フレームのサンプル画像の第1サンプル二次元骨格キーポイントにより、第1サンプル二次元骨格キーポイント・シーケンスが形成される。
上記の第1サンプル二次元骨格キーポイントは、サンプル・オブジェクトの各関節に対応するキーポイントを含んでいてもよい。各関節に対応するキーポイントを組み合わせて連結すると、サンプル・オブジェクトの骨格が得られる。
具体的に実施する際には、二次元姿勢推定ニューラルネットワークを利用して、サンプル・オブジェクトの第1サンプル二次元骨格キーポイントを抽出することができる。
上記のサンプル・オブジェクトは、実在の人、仮想の人、動物などとすることができ、本発明ではこれについて限定されない。
S330:第1サンプル二次元骨格キーポイント・シーケンスに対して身体の比例でのスケーリング処理を行うことで、第2サンプル二次元骨格キーポイント・シーケンスを取得する。
ここでは、所定のスケーリング比例で、第1サンプル二次元骨格キーポイント・シーケンス中の各第1サンプル二次元骨格キーポイントに対して身体の比例でのスケーリングを行うことで、第2サンプル二次元骨格キーポイント・シーケンスを取得する。
図4に示すように、第1サンプル二次元骨格キーポイントxに対して身体の比例でのスケーリングを行って、第2サンプル二次元骨格キーポイントx’を取得する。
S340:前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定し、前記損失関数により前記動作遷移ニューラルネットワークのネットワークパラメータを調整する。
具体的に実施する際には、第1サンプル二次元骨格キーポイント・シーケンス中の各第1サンプル二次元骨格キーポイント、および前記第2サンプル二次元骨格キーポイント・シーケンス中の各第2サンプル二次元骨格キーポイントに対して直交分解を行い、分解して得られた情報を利用して三次元骨格キーポイント・シーケンスの推定、および二次元サンプル骨格キーポイントの復元を行い、さらに、分解して得られた情報、推定された三次元骨格キーポイント・シーケンス、および復元された二次元サンプル骨格キーポイントを利用して、損失関数を構築することができる。
ここでは、構築された損失関数の値が最小となることを目的として、動作遷移ニューラルネットワークをトレーニングする。
本実施形態では、サンプル・オブジェクトの第1サンプル二次元骨格キーポイント・シーケンス、およびサンプル・オブジェクトに対して身体の比例でのスケーリングを行って得られた第2サンプル二次元骨格キーポイント・シーケンスを利用して損失関数を構築して、動作遷移ニューラルネットワークをトレーニングすることにより、初期オブジェクトと標的オブジェクトの構造差異が大きい場合での動作遷移精度を向上させることができる。また、上記の動作遷移ニューラルネットワークをトレーニングする際には、現実の世界で対をなす動作ーキャラクターデータが使用されておらず、教師無しの損失関数の構築および動作遷移ニューラルネットワークのトレーニングが実現され、トレーニングによって得られた動作遷移ニューラルネットワークによる動作遷移時の精度の向上には有利である。
上記の動作遷移ニューラルネットワークは具体的に3つのエンコーダと1つの復号器を含み、動作遷移ニューラルネットワークへのトレーニングは実質的に上記の3つのエンコーダと1つの復号器へのトレーニングである。
一部の実施例では、前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップは、具体的に次のステップによって実現されることができる。
ステップ1:前記第1サンプル二次元骨格キーポイント・シーケンスに基づいて、前記第1サンプル動作遷移成分シーケンスを特定する。
第1サンプル二次元骨格キーポイント・シーケンス中の各第1サンプル二次元骨格キーポイントに対して直交分解を行うことで、各フレームのサンプル画像に対応する第1サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報を取得する。複数フレームのサンプル画像に対応する第1サンプル動き成分情報により第1サンプル動き成分シーケンスが形成され、複数フレームのサンプル画像に対応する第1サンプル構造成分情報により第1サンプル構造成分シーケンスが形成され、複数フレームのサンプル画像に対応する第1サンプル角度成分情報により第1サンプル角度成分シーケンスが形成される。第1サンプル動き成分シーケンス、第1サンプル角度成分シーケンス、および第1サンプル構造成分シーケンスにより、上記の第1サンプル動作遷移成分シーケンスが形成される。
ここでは、図4に示すように、第1サンプル二次元骨格キーポイントxを動作遷移ニューラルネットワークの1つのエンコーダEmで処理して第1サンプル動き成分情報を取得し、この第1サンプル二次元骨格キーポイントxを別のエンコーダEsで処理して第1サンプル構造成分情報を取得し、この第1サンプル二次元骨格キーポイントxを最後のエンコーダEvで処理して第1サンプル角度成分情報を取得する。
現在フレームのサンプル画像に対応する第1サンプル構造成分情報と現在フレームのサンプル画像に隣接する複数フレーム(例えば64フレーム)のサンプル画像に対応する第1サンプル構造成分情報に対して平均プーリング処理を行うことで、最終的な第1サンプル構造成分情報
Figure 2022536381000002
を取得する。現在フレームのサンプル画像に対応する第1サンプル角度成分情報と現在フレームのサンプル画像に隣接する複数フレームのサンプル画像に対応する第1サンプル角度成分情報に対して平均プーリング処理を行うことで、最終的な第1サンプル角度成分情報
Figure 2022536381000003
を取得する。現在フレームのサンプル画像に対応する第1サンプル動き成分情報は、平均プーリング処理が不要であり、そのままで最終的な第1サンプル動き成分情報mとして利用できる。
ステップ2:前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて、前記第2サンプル動作遷移成分シーケンスを特定する。
第2サンプル二次元骨格キーポイント・シーケンス中の各第2サンプル二次元骨格キーポイントに対して直交分解を行うことで、各フレームのサンプル画像に対応する第2サンプル動き成分情報、第2サンプル構造成分情報、および第2サンプル角度成分情報を取得する。複数フレームのサンプル画像に対応する第2サンプル動き成分情報により第2サンプル動き成分シーケンスが形成され、複数フレームのサンプル画像に対応する第2サンプル構造成分情報により第2サンプル構造成分シーケンスが形成され、複数フレームのサンプル画像に対応する第2サンプル角度成分情報により第2サンプル角度成分シーケンスが形成される。第2サンプル動き成分シーケンス、第2サンプル角度成分シーケンス、および第2サンプル構造成分シーケンスにより、上記の第2サンプル動作遷移成分シーケンスが形成される。
ここでは、図4に示すように、第2サンプル二次元骨格キーポイントx’を動作遷移ニューラルネットワークの1つのエンコーダEmで処理して第2サンプル動き成分情報を取得し、第2サンプル二次元骨格キーポイントx’を別のエンコーダEsで処理して第2サンプル構造成分情報を取得し、第2サンプル二次元骨格キーポイントx’を最後のエンコーダEvで処理して第2サンプル角度成分情報を取得する。
現在フレームのサンプル画像に対応する第2サンプル構造成分情報と現在フレームのサンプル画像に隣接する複数フレームのサンプル画像に対応する第2サンプル構造成分情報に対して平均プーリング処理を行うことで、最終的な第2サンプル構造成分情報
Figure 2022536381000004
を取得する。現在フレームのサンプル画像に対応する第2サンプル角度成分情報と現在フレームのサンプル画像に隣接する複数フレームのサンプル画像に対応する第2サンプル角度成分情報に対して平均プーリング処理を行うことで、最終的な第2サンプル角度成分情報
Figure 2022536381000005
を取得する。現在フレームのサンプル画像に対応する第2サンプル動き成分情報は、平均プーリング処理が不要であり、そのままで最終的な第2サンプル動き成分情報m’として利用できる。
ステップ3:前記第1サンプル動作遷移成分シーケンスに基づいて、推定三次元骨格キーポイント・シーケンスを特定する。
ここでは、具体的に同一フレームのサンプル画像に対応する第1サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報を利用して、1つの推定三次元骨格キーポイントを特定する。複数フレームのサンプル画像に対応する推定三次元骨格キーポイントによれば、上記の推定三次元骨格キーポイント・シーケンスが形成される。
ここでは、具体的に同一フレームのサンプル画像に対応する第1サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報に対して1つの復号器Gで復号処理することで、再構築された推定三次元骨格キーポイントを取得することができる。
ステップ4:前記第1サンプル動作遷移成分シーケンス、第2サンプル動作遷移成分シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記損失関数を特定する。
具体的に実施する際には、第1サンプル動作遷移成分シーケンス中の前記第1サンプル動き成分情報、第1サンプル構造成分情報、第1サンプル角度成分情報、および第2サンプル動作遷移成分シーケンス中の第2サンプル動き成分情報、第2サンプル構造成分情報、第2サンプル角度成分情報を利用して、二次元サンプル骨格キーポイントの復元を行い、さらに、推定三次元骨格キーポイント・シーケンス、および復元された二次元サンプル骨格キーポイントを利用して、損失関数を構築することができる。
本実施形態では、第1サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた第1サンプル動作遷移成分シーケンス、第2サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた第2サンプル動作遷移成分シーケンス、および第1サンプル動作遷移成分シーケンスに基づいて再構築された推定三次元骨格キーポイント・シーケンスを利用して、損失関数を構築することにより、初期オブジェクトと標的オブジェクトの構造差異が大きい場合での動作遷移精度を向上させることができる。
サンプル・オブジェクトは、構造および撮影視野角の面で変化や擾乱があるにもかかわらず、遷移後の動き情報が不変であるはずであるため、動き不変損失関数を構築するとともに、トレーニング時に動き不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、上記の動き不変損失関数は、次のステップにより構築されることができる。
ステップ1:前記第2サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報に基づいて、前記第1サンプル二次元骨格キーポイント・シーケンス中の対応する前記第1サンプル二次元骨格キーポイントに対応する第1推定骨格キーポイントを特定する。
図4に示すように、具体的には、第2サンプル動き成分情報m’、第1サンプル構造成分情報
Figure 2022536381000006
、第1サンプル角度成分情報
Figure 2022536381000007
を復号器Gで処理することで、三次元骨格キーポイント
Figure 2022536381000008
を再構築し、その後に、回転投影関数
Figure 2022536381000009
を利用して三次元骨格キーポイント
Figure 2022536381000010
を二次元空間へと再投影することで、第1推定骨格キーポイント
Figure 2022536381000011
を取得するというサブステップによって実現することができる。
ステップ2:前記第1サンプル動き成分情報、第2サンプル構造成分情報、および第2サンプル角度成分情報に基づいて、前記第2サンプル二次元骨格キーポイント・シーケンス中の対応する前記第2サンプル二次元骨格キーポイントに対応する第2推定骨格キーポイントを特定する。
図4に示すように、具体的には、第1サンプル動き成分情報m、第2サンプル構造成分情報
Figure 2022536381000012
、第2サンプル角度成分情報
Figure 2022536381000013
を復号器Gで処理することで、三次元骨格キーポイント
Figure 2022536381000014
を再構築し、その後に、回転投影関数
Figure 2022536381000015
を利用して三次元骨格キーポイント
Figure 2022536381000016
を二次元空間へと再投影することで、第2推定骨格キーポイント
Figure 2022536381000017
を取得するというサブステップによって実現することができる。
ステップ1およびステップ2において、第1推定骨格キーポイント
Figure 2022536381000018
および第2推定骨格キーポイント
Figure 2022536381000019
を生成するための具体的な公式は、次の通りである。
Figure 2022536381000020
(1)
式中、
Figure 2022536381000021
はエンコーダで抽出されたサンプル構造成分情報への平均プーリング操作を行うことを示し、
Figure 2022536381000022
はエンコーダで抽出されたサンプル角度成分情報への平均プーリング操作を行うことを示す。
ステップ3:前記第1推定骨格キーポイント、第2推定骨格キーポイント、第1サンプル動き成分情報、第2サンプル動き成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記動き不変損失関数を特定する。
構築された動き不変損失関数は、具体的に次の3つの関数を含む。
Figure 2022536381000023
式中、Nはサンプル動画のフレーム数を示し、Tは1つの第1サンプル二次元骨格キーポイントに対応する関節の数を示し、Mは予め設定された数値を示し、Cmは第1サンプル動き成分情報に対応する符号長を示し、Kはサンプル・オブジェクトの回転量を示し、
Figure 2022536381000024
は1つの推定三次元骨格キーポイントを示し、
Figure 2022536381000025
は3つの動き不変損失関数を示す。
本発明の実施例では、第1サンプル二次元骨格キーポイント・シーケンスおよび第2サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた情報を利用して、サンプル・オブジェクトの骨格復元を行って第1推定骨格キーポイントを取得し、身体がスケーリングされたサンプル・オブジェクトの骨格復元を行って第2推定骨格キーポイントを取得し、さらに、復元された第1推定骨格キーポイント、第2推定骨格キーポイント、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、動き不変損失関数を構築することができる。
サンプル・オブジェクトの構造が時間の変化に伴って不変性があるので、構造不変損失関数を構築するとともに、トレーニング時に動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、上記の構造不変損失関数は、次のステップにより構築されることができる。
ステップ1:前記第1サンプル二次元骨格キーポイント・シーケンスから、前記サンプル・オブジェクトの第1時刻での第1サンプル二次元骨格キーポイント、および前記サンプル・オブジェクトの第2時刻での第1サンプル二次元骨格キーポイントをスクリーニングする。
前記第2サンプル二次元骨格キーポイント・シーケンスから、前記サンプル・オブジェクトの第2時刻での第2サンプル二次元骨格キーポイント、および前記サンプル・オブジェクトの第1時刻での第2サンプル二次元骨格キーポイントをスクリーニングする。
上記の第1サンプル二次元骨格キーポイントは、サンプル動画中の第1時刻t1および第2時刻t2に対応するサンプル画像のそれぞれから抽出されたサンプル・オブジェクトの二次元骨格キーポイントであり、身体の比例でスケーリングされないサンプル・オブジェクトの骨格キーポイントである。上記の第2サンプル二次元骨格キーポイントは、サンプル動画中の第1時刻t1および第2時刻t2に対応するサンプル画像のそれぞれから抽出されたサンプル・オブジェクトの骨格キーポイントが身体の比例でスケーリングされたものである。
ステップ2:前記サンプル・オブジェクトの第1時刻での第1サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第2時刻での第1サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第2時刻での第2サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第1時刻での第2サンプル二次元骨格キーポイント、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記構造不変損失関数を特定する。
具体的に実施する際には、構築された構造不変損失関数は、次の2つの関数を含む。
Figure 2022536381000026
式中、St1は時刻t1での第1サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、St2は時刻t2での第1サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、St2’は時刻t2での第2サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、St1’は時刻t1での第2サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、Cbは第1サンプル構造成分情報に対応する符号長を示し、mは予め設定された数値であり、s()はコサイン類似関数を示し、
Figure 2022536381000027
は2つの構造不変損失関数を示す。
本発明の実施例では、異なる時刻での第1サンプル二次元骨格キーポイントおよび第2サンプル二次元骨格キーポイントを利用して、再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、構造不変損失関数を構築することができる。
サンプル・オブジェクトの撮影視野角がサンプル・オブジェクトの動きおよび構造の変化に伴って不変性があるので、視野角不変損失関数を構築するとともに、トレーニング時に視野角不変損失関数、動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、視野角不変損失関数は、次のステップにより構築されることができる。
前記サンプル・オブジェクトの第1時刻での第1サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第2時刻での第1サンプル二次元骨格キーポイント、第1サンプル角度成分情報、第2サンプル角度成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記視野角不変損失関数を特定する。
構築された視野角不変損失関数は、具体的に次の2つの関数を含む。
Figure 2022536381000028
式中、vt1は時刻t1での第1サンプル二次元骨格キーポイントから直接抽出されたサンプル角度成分情報を示し、vt2は時刻t2での第1サンプル二次元骨格キーポイントから直接抽出されたサンプル角度成分情報を示し、Cvは第1サンプル角度成分情報に対応する符号長を示し、
Figure 2022536381000029
は2つの視野角不変損失関数を示す。
サンプル・オブジェクトが復元時に不変性があるはずであるので、再構築復元損失関数を構築するとともに、トレーニング時に再構築復元損失関数、視野角不変損失関数、動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、再構築復元損失関数は、次のステップにより構築されることができる。
前記第1サンプル二次元骨格キーポイント・シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記再構築復元損失関数を特定する。
構築された再構築復元損失関数は、具体的に次の2つの関数を含む。

Figure 2022536381000030
式中、Dは1つの時系列での畳み込みネットワークを示し、
Figure 2022536381000031
はxがサンプルから抽出される確率分布を示し、さらに、その後の関数、即ち
Figure 2022536381000032
について望みを求め、
Figure 2022536381000033
は2つの再構築復元損失関数を示す。
以上の実施例では、再構築復元損失関数、視野角不変損失関数、動き不変損失関数、および構造不変損失関数が構築される。具体的に実施する際には、次の公式により上記の損失関数を融合することで標的損失関数を取得することができる。
Figure 2022536381000034
式中、λrec、λcrs、λadv、λtrip、λinvは何れも予め設定された重みを示す。
動作遷移ニューラルネットワークをトレーニングする際には、上記の標的損失関数の値を最小にすればよい。
本発明では、上記の動作遷移方法に対応する動作遷移装置も提案され、当該装置は、動作遷移を実行する端末デバイスまたはサーバに適用され、その各モジュールにより上記の方法と同じ方法ステップを実現し、同じ有益な効果を奏することができる。したがって、その同じ部分については本発明で重複に説明しないものとする。
図5に示すように、本発明で提案する動作遷移装置は、次の構成部分を含むように構成することができる。
ビデオ取得モジュール510:初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得するように構成される。
キーポイント抽出モジュール520:前記第1初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成される。
キーポイント変換モジュール530:前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するように構成される。
画像レンダリングモジュール540:前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するように構成される。
一部の実施例では、前記キーポイント変換モジュール530は、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する際に、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。
一部の実施例では、前記ビデオ取得モジュール510はさらに、標的オブジェクトを含む第2初期ビデオを取得するように構成され、前記キーポイント抽出モジュール520はさらに、前記第2初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成され、前記キーポイント変換モジュール530は、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際に、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記オブジェクト・オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定するために用いられる。
一部の実施例では、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、前記キーポイント変換モジュール530は、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定する際に、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定し、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定し、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定し、前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定するために用いられる。
本発明の実施例では電子デバイスが提案され、図6に示すように、当該電子デバイスは、プロセッサ601と、メモリ602、バス603と、を備え、前記メモリ602には、前記プロセッサ601で実行可能な機械読み取り可能な命令が格納され、電子デバイスが作動する際に、前記プロセッサ601と前記メモリ602がバス603を介して通信される。
前記機械読み取り可能な命令が前記プロセッサ601で実行される際に、動作遷移方法における、初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得するステップと、前記第1初期ビデオに含まれる複数フレームの画像での前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するステップと、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップと、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップとは、実行されることとなる。
以上のことに加えて、機械読み取り可能な命令がプロセッサ601によって実行される際に、上記の方法部分で記述された何れか1つの実施形態における方法内容が実行される場合もある。ここでは重複に説明しないものとする。
本発明の実施例では、上記の方法および装置に対応するコンピュータ・プログラム製品がさらに提案され、当該コンピュータ・プログラム製品は、プログラムコードが格納されたコンピュータ読み取り可能な記憶媒体を含み、プログラムコードに含まれる命令によって上記の方法実施例で記載される方法を実行することができる。その具現化は、方法実施例を参照でき、ここでは重複に説明しないものとする。
各実施例に関する以上の記述は、各実施例間の相違点を重点に強調していたものであり、それらの同じまたは類似するところは、互いに参照でき、簡潔のため、本明細書で重複に説明しないものとする。
記述の便利および簡潔のため、以上で記述されたシステムおよび装置の具体的な作動プロセスは、方法実施例における対応するプロセスを参照できるとは、当業者に明らかに了解されるべきであろう。本発明では重複に説明しないものとする。本発明で提案された幾つかの実施例において、披露されたシステム、装置および方法は、その他の方式によっても実施され得ることが理解されるべきであろう。以上で記述された装置実施例は単なる例示的なものに過ぎず、例えば、前記モジュールの区画は、単なるロジック機能の区画に過ぎず、実際に実現する場合、別の方式で区画してもよく、さらに例えば、複数のモジュールまたはコンポーネントを別のシステムに結合や統合してもよく、または一部の特徴を無視するか実行しなくてもよい。また、表示または検討されている各構成要素間の相互結合または直接結合または通信接続は、幾つかの通信インターフェース、装置またはモジュールを介した間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。
上記の分離する部品として説明したモジュールは、物理的に分離しても物理的に分離しなくてもよく、モジュールとして表す部品は、物理ユニットであっても物理ユニットではなくてもよく、同一の場所に位置しても、複数のネットワークユニットに分布してもよい。実際の需要に応じて、そのうちの一部または全部のユニットを選択して本実施例に係る技術案の目的を達成することができる。
また、本発明の各実施例中の各機能ユニットは、全て1つの処理ユニットに統合されてもよいし、各ユニットが単独で物理ユニットとして存在してもよく、2つ以上のユニットが1つのユニットに統合されてもよい。
上記の機能はソフトウェア機能ユニットの形態で実現されかつ独立した製品として販売されるかまたは使用される場合、プロセッサで実行可能な不揮発のコンピュータ読み取り可能な記憶媒体に格納されることができる。このような理解に基づき、本発明に係る技術案の実質または従来技術に貢献した部分または当該技術案の一部は、ソフトウェア製品の形態で体現でき、当該コンピュータソフトウェア製品は、記憶媒体に格納され、コンピュータ・デバイス(パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい)に本発明の各実施例に記載の方法におけるステップの全部または一部を実行させるための若干の命令を含む。上記の記憶媒体は、Uディスク、モバイルハードディスク、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを格納可能な様々な媒体を含む。
以上は、単なる本発明の具体的な実施形態に過ぎず、本発明の保護範囲を限定するものではなく、本技術分野に熟知する任意の技術者が本発明に披露された技術範囲内で容易に思い付くことのできる変更や差し替えは、本発明の保護範囲内に入るものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲を基準とするものとする。

Claims (18)

  1. 初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得するステップと、
    前記第1初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するステップと、
    前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップと、
    前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップと、を含む、
    ことを特徴とする動作遷移方法。
  2. 前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、
    前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することと、
    前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む、
    ことを特徴とする請求項1に記載の動作遷移方法。
  3. 前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する前に、
    前記標的オブジェクトを含む第2初期ビデオを取得することと、
    前記第2初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別することと、を含み、
    前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することは、
    前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定することと、
    前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定することと、
    前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む、
    ことを特徴とする請求項2に記載の動作遷移方法。
  4. 前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、
    前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することは、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定することと、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定することと、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定することと、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定することと、を含む、
    ことを特徴とする請求項2に記載の動作遷移方法。
  5. 前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップは、
    前記三次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの二次元標的骨格キーポイント・シーケンスを生成することと、
    前記二次元標的骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作シーケンスを含む前記標的ビデオを生成することと、を含む、
    ことを特徴とする請求項1に記載の動作遷移方法。
  6. 前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、
    動作遷移ニューラルネットワークを利用して、前記二次元骨格キーポイント・シーケンスを前記標的オブジェクトの前記三次元骨格キーポイント・シーケンスに変換することを含む、
    ことを特徴とする、請求項1乃至5の何れか一項に記載の動作遷移方法。
  7. 前記動作遷移ニューラルネットワークをトレーニングするための、
    サンプル・オブジェクトの動作シーケンスを含むサンプル動画を取得するステップと、
    前記サンプル動画に含まれる複数フレームのサンプル画像中の前記サンプル・オブジェクトの第1サンプル二次元骨格キーポイント・シーケンスを識別するステップと、
    第1サンプル二次元骨格キーポイント・シーケンスに対して身体の比例でのスケーリング処理を行うことで、第2サンプル二次元骨格キーポイント・シーケンスを取得するステップと、
    前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップと、
    前記損失関数により前記動作遷移ニューラルネットワークのネットワークパラメータを調整するステップと、をさらに含む、
    ことを特徴とする、請求項6に記載の動作遷移方法。
  8. 前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップは、
    前記第1サンプル二次元骨格キーポイント・シーケンスに基づいて第1サンプル動作遷移成分シーケンスを特定することと、
    前記第2サンプル二次元骨格キーポイント・シーケンスに基づいて第2サンプル動作遷移成分シーケンスを特定することと、
    前記第1サンプル動作遷移成分シーケンスに基づいて推定三次元骨格キーポイント・シーケンスを特定することと、
    前記第1サンプル動作遷移成分シーケンス、前記第2サンプル動作遷移成分シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記損失関数を特定することと、を含む、
    ことを特徴とする、請求項7に記載の動作遷移方法。
  9. 前記損失関数は、動き不変損失関数を含み、前記第1サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第1サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報を含み、前記第2サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第2サンプル動き成分情報、第2サンプル構造成分情報、および第2サンプル角度成分情報を含み、
    前記損失関数を特定することは、
    前記各フレームのサンプル画像に対応する前記第2サンプル動き成分情報、第1サンプル構造成分情報、および第1サンプル角度成分情報に基づいて、前記第1サンプル二次元骨格キーポイント・シーケンス中の対応する前記第1サンプル二次元骨格キーポイントに対応する第1推定骨格キーポイントを特定することと、
    前記各フレームのサンプル画像に対応する前記第1サンプル動き成分情報、第2サンプル構造成分情報、および第2サンプル角度成分情報に基づいて、前記第2サンプル二次元骨格キーポイント・シーケンス中の対応する前記第2サンプル二次元骨格キーポイントに対応する第2推定骨格キーポイントを特定することと、
    前記第1推定骨格キーポイント、前記第2推定骨格キーポイント、前記第1サンプル動き成分情報、前記第2サンプル動き成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記動き不変損失関数を特定することと、を含む、
    ことを特徴とする、請求項8に記載の動作遷移方法。
  10. 前記損失関数は、構造不変損失関数をさらに含み、
    前記損失関数を特定することは、
    前記第1サンプル二次元骨格キーポイント・シーケンスから、第1時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、および第2時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイントをスクリーニングすることと、
    前記第2サンプル二次元骨格キーポイント・シーケンスから、前記第2時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイント、および前記第1時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイントをスクリーニングすることと、
    前記第1時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第2時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第2時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイント、前記第1時刻に対応するサンプル画像中の第2サンプル二次元骨格キーポイント、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記構造不変損失関数を特定することと、をさらに含む、
    ことを特徴とする、請求項9に記載の動作遷移方法。
  11. 前記損失関数は、視野角不変損失関数をさらに含み、
    前記損失関数を特定することは、
    前記第1時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第2時刻に対応するサンプル画像中の第1サンプル二次元骨格キーポイント、前記第1時刻および第2時刻に対応するサンプル画像の第1サンプル角度成分情報、前記第1時刻および第2時刻に対応するサンプル画像の第2サンプル角度成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記視野角不変損失関数を特定することをさらに含む、
    ことを特徴とする、請求項10に記載の動作遷移方法。
  12. 前記損失関数は、再構築復元損失関数をさらに含み、
    前記損失関数を特定することは、
    前記第1サンプル二次元骨格キーポイント・シーケンスおよび前記推定三次元骨格キーポイント・シーケンスに基づいて前記再構築復元損失関数を特定することをさらに含む、
    ことを特徴とする、請求項11に記載の動作遷移方法。
  13. 初期オブジェクトの動作シーケンスを含む第1初期ビデオを取得するように構成されるビデオ取得モジュールと、
    前記第1初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成されるキーポイント抽出モジュールと、
    前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するように構成されるキーポイント変換モジュールと、
    前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するように構成される画像レンダリングモジュールと、を含む、
    ことを特徴とする動作遷移装置。
  14. 前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する際に、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定するように構成される、
    ことを特徴とする請求項13に記載の動作遷移装置。
  15. 前記ビデオ取得モジュールはさらに、標的オブジェクトを含む第2初期ビデオを取得するように構成され、
    前記キーポイント抽出モジュールはさらに、前記第2初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成され、
    前記キーポイント変換モジュールは、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際に、
    前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定し、
    前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、
    前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する、
    ことを特徴とする請求項14に記載の動作遷移装置。
  16. 前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、
    前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定する際に、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、前記初期オブジェクトの動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定し、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定し、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定し、
    前記第1初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定するように構成される、
    ことを特徴とする請求項14に記載の動作遷移装置。
  17. プロセッサと、記憶媒体と、バスと、を備え、
    前記記憶媒体には、前記プロセッサで実行可能な機械読み取り可能な命令が格納され、電子デバイスが作動する際に、前記プロセッサと前記記憶媒体がバスを介して通信され、
    前記プロセッサで前記機械読み取り可能な命令が実行されて、請求項1乃至12の何れか一項に記載の動作遷移方法が実施される、ことを特徴とする電子デバイス。
  18. コンピュータ読み取り可能な記憶媒体にはコンピュータ・プログラムが格納され、前記コンピュータ・プログラムがプロセッサで実行される際に、請求項1乃至12の何れか一項に記載の動作遷移方法が実施される、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
JP2021573955A 2020-03-31 2021-03-23 動作遷移方法、装置、デバイス、および記憶媒体 Withdrawn JP2022536381A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010243906.1 2020-03-31
CN202010243906.1A CN111462209B (zh) 2020-03-31 2020-03-31 动作迁移方法、装置、设备及存储介质
PCT/CN2021/082407 WO2021197143A1 (zh) 2020-03-31 2021-03-23 动作迁移方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
JP2022536381A true JP2022536381A (ja) 2022-08-15

Family

ID=71685166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021573955A Withdrawn JP2022536381A (ja) 2020-03-31 2021-03-23 動作遷移方法、装置、デバイス、および記憶媒体

Country Status (7)

Country Link
US (1) US20220114777A1 (ja)
EP (1) EP3979204A4 (ja)
JP (1) JP2022536381A (ja)
KR (1) KR20220002551A (ja)
CN (1) CN111462209B (ja)
TW (1) TW202139135A (ja)
WO (1) WO2021197143A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462209B (zh) * 2020-03-31 2022-05-24 北京市商汤科技开发有限公司 动作迁移方法、装置、设备及存储介质
US11734894B2 (en) 2020-11-18 2023-08-22 Snap Inc. Real-time motion transfer for prosthetic limbs
CN113870313B (zh) * 2021-10-18 2023-11-14 南京硅基智能科技有限公司 一种动作迁移方法
CN113989928B (zh) * 2021-10-27 2023-09-05 南京硅基智能科技有限公司 一种动作捕捉和重定向方法
US20230196712A1 (en) * 2021-12-21 2023-06-22 Snap Inc. Real-time motion and appearance transfer
US11880947B2 (en) 2021-12-21 2024-01-23 Snap Inc. Real-time upper-body garment exchange

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170086317A (ko) * 2016-01-18 2017-07-26 한국전자통신연구원 타이밍 변환을 이용한 3차원 캐릭터 동작 생성 장치 및 방법
CN108510577B (zh) * 2018-01-31 2021-03-23 中国科学院软件研究所 基于已有动作数据的真实感动作迁移和生成方法及系统
WO2019165068A1 (en) * 2018-02-22 2019-08-29 Perspective Components, Inc. Dynamic camera adjustment mechanism and methods
US10546408B2 (en) * 2018-03-20 2020-01-28 Adobe Inc. Retargeting skeleton motion sequences through cycle consistency adversarial training of a motion synthesis neural network with a forward kinematics layer
CN108985259B (zh) * 2018-08-03 2022-03-18 百度在线网络技术(北京)有限公司 人体动作识别方法和装置
CN109785322B (zh) * 2019-01-31 2021-07-02 北京市商汤科技开发有限公司 单眼人体姿态估计网络训练方法、图像处理方法和装置
CN109821239B (zh) * 2019-02-20 2024-05-28 网易(杭州)网络有限公司 体感游戏的实现方法、装置、设备及存储介质
CN109978975A (zh) * 2019-03-12 2019-07-05 深圳市商汤科技有限公司 一种动作的迁移方法及装置、计算机设备
CN110197167B (zh) * 2019-06-05 2021-03-26 清华大学深圳研究生院 一种视频动作迁移方法
CN110246209B (zh) * 2019-06-19 2021-07-09 腾讯科技(深圳)有限公司 图像处理方法及装置
CN110490897A (zh) * 2019-07-30 2019-11-22 维沃移动通信有限公司 模仿视频生成的方法和电子设备
CN110666793B (zh) * 2019-09-11 2020-11-03 大连理工大学 基于深度强化学习实现机器人方形零件装配的方法
CN111462209B (zh) * 2020-03-31 2022-05-24 北京市商汤科技开发有限公司 动作迁移方法、装置、设备及存储介质
CN111540055B (zh) * 2020-04-16 2024-03-08 广州虎牙科技有限公司 三维模型驱动方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3979204A1 (en) 2022-04-06
TW202139135A (zh) 2021-10-16
CN111462209A (zh) 2020-07-28
WO2021197143A1 (zh) 2021-10-07
US20220114777A1 (en) 2022-04-14
CN111462209B (zh) 2022-05-24
EP3979204A4 (en) 2022-11-16
KR20220002551A (ko) 2022-01-06

Similar Documents

Publication Publication Date Title
JP2022536381A (ja) 動作遷移方法、装置、デバイス、および記憶媒体
US12067659B2 (en) Generating animated digital videos utilizing a character animation neural network informed by pose and motion embeddings
CN110580720B (zh) 一种基于全景图的相机位姿估计方法
Chen et al. V3d: Video diffusion models are effective 3d generators
CN113592940B (zh) 基于图像确定目标物位置的方法及装置
Hu et al. Humanliff: Layer-wise 3d human generation with diffusion model
Zhou et al. Hdhuman: High-quality human novel-view rendering from sparse views
CN111754561B (zh) 基于自监督深度学习的光场图像深度恢复方法及系统
CN117011357A (zh) 基于3d运动流和法线图约束的人体深度估计方法及系统
CN109741245B (zh) 平面信息的插入方法及装置
CN117274446A (zh) 一种场景视频处理方法、装置、设备及存储介质
Shao et al. Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer
Hu et al. Hvtr++: Image and pose driven human avatars using hybrid volumetric-textural rendering
CN111783497B (zh) 视频中目标的特征确定方法、装置和计算机可读存储介质
Jabbar et al. FD-stackGAN: Face de-occlusion using stacked generative adversarial networks
Evain et al. A lightweight neural network for monocular view generation with occlusion handling
JP4964827B2 (ja) 多視点距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
JP5024962B2 (ja) 多視点距離情報符号化方法,復号方法,符号化装置,復号装置,符号化プログラム,復号プログラムおよびコンピュータ読み取り可能な記録媒体
EP2966867A1 (en) Methods and devices for encoding and decoding a sequence of frames representing a 3D scene, and corresponding computer program products and computer-readable medium
Lee et al. Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses
CN117474956B (zh) 基于运动估计注意力的光场重建模型训练方法及相关设备
Zhou et al. HDhuman: High-quality Human Performance Capture with Sparse Views.
CN115439388B (zh) 基于多层神经表面表达的自由视点图像合成方法
Lie et al. 3D Human Skeleton Estimation from Single RGB Image Based on Fusion of Predicted Depths from Multiple Virtual-Viewpoints
Zhang et al. Swin-VEC: Video Swin Transformer-based GAN for video error concealment of VVC

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211213

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211213

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20221206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221219