JP2022536381A

JP2022536381A - 動作遷移方法、装置、デバイス、および記憶媒体

Info

Publication number: JP2022536381A
Application number: JP2021573955A
Authority: JP
Inventors: 文岩呉; 文▲トウ▼ 朱; 卓謙楊
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-31
Filing date: 2021-03-23
Publication date: 2022-08-15
Also published as: EP3979204A1; TW202139135A; CN111462209A; WO2021197143A1; US20220114777A1; CN111462209B; EP3979204A4; KR20220002551A

Abstract

本発明では、動作遷移方法、装置、デバイス、および記憶媒体が提案され、具体的には、先ず、初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得し、その次に、前記第１初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別し、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換し、最後に、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する。【選択図】図１

Description

本発明は、コンピュータビジョン技術分野に関し、具体的には動作遷移方法、装置、デバイス、および記憶媒体に関する。

動作遷移とは、初期動画中の初期オブジェクトの動作を標的オブジェクトに遷移して、標的動画を形成することを指す。初期動画と標的動画とは構造および視野角で大きな差異があるため、画素レベルでの動作遷移は難しい。特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合、標的オブジェクトに遷移された動作の精度が低い。

以上のことに鑑みて、本発明では少なくとも動作遷移方法および装置が提案される。

本発明の第１態様により、初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得するステップと、前記第１初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するステップと、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップと、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップと、を含む、動作遷移方法が提案される。

本態様では、二次元骨格キーポイント・シーケンスの抽出、二次元骨格キーポイント・シーケンスから三次元骨格キーポイント・シーケンスへのリダイレクト、および三次元骨格キーポイント・シーケンスに基づく標的オブジェクトの動作レンダリングにより、動作遷移が実現され、画素レベルでの直接的な動作遷移が回避され、初期ビデオと標的ビデオとは構造および視野角で大きな差異があるという問題が克服され、特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が向上することとなる。また、本態様では、二次元骨格キーポイント・シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。

１つの実施可能な形態では、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することと、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む。

本実施形態では、二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。

１つの実施可能な形態では、上記の動作遷移方法は、前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する前に、標的オブジェクトを含む第２初期ビデオを取得することと、前記第２初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別することと、をさらに含み、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することは、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定することと、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定することと、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む。

本実施形態では、初期オブジェクトの二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスと、標的オブジェクトの二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスを融合して、三次元骨格キーポイント・シーケンスを特定することにより、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点を克服することができる。

１つの実施可能な形態では、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することは、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、前記各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定することと、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定することと、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定することと、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定することと、を含む。

本実施形態では、動作遷移成分シーケンスは、直交する複数の成分シーケンスを含み、直交する複数の成分シーケンスを利用して三次元骨格キーポイント・シーケンスを特定することにより、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点をさらに克服することができる。

１つの実施可能な形態では、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップは、前記三次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの二次元標的骨格キーポイント・シーケンスを生成することと、前記二次元標的骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成することと、を含む。

本実施形態では、再構築された三次元骨格キーポイント・シーケンスを再投影して二次元標的骨格キーポイント・シーケンスを取得することにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。

１つの実施可能な形態では、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、動作遷移ニューラルネットワークを利用して、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換することを含む。

本実施形態では、トレーニング済みの動作遷移ニューラルネットワークを利用して標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することにより、キーポイントリダイレクトの効率および精度を向上させることができる。

１つの実施可能な形態では、上記の動作遷移方法は、前記動作遷移ニューラルネットワークをトレーニングするための、サンプル・オブジェクトの動作シーケンスを含むサンプル動画を取得するステップと、前記サンプル動画に含まれる複数フレームのサンプル画像中の前記サンプル・オブジェクトの第１サンプル二次元骨格キーポイント・シーケンスを識別するステップと、第１サンプル二次元骨格キーポイント・シーケンスに対して身体の比例でのスケーリング処理を行うことで、第２サンプル二次元骨格キーポイント・シーケンスを取得するステップと、前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップと、前記損失関数により前記動作遷移ニューラルネットワークのネットワークパラメータを調整するステップと、をさらに含む。

本実施形態では、サンプル・オブジェクトの第１サンプル二次元骨格キーポイント・シーケンスと、サンプル・オブジェクトに対して身体の比例でのスケーリングを行って得られた第２サンプル二次元骨格キーポイント・シーケンスを利用して損失関数を構築して、動作遷移ニューラルネットワークをトレーニングすることにより、初期オブジェクトと標的オブジェクトの構造差異が大きい場合での動作遷移精度を向上させることができる。また、上記の動作遷移ニューラルネットワークをトレーニングする際には、現実の世界で対をなす動作ーキャラクターデータが使用されておらず、教師無しの損失関数の構築および動作遷移ニューラルネットワークのトレーニングが実現され、トレーニングによって得られた動作遷移ニューラルネットワークによる動作遷移時の精度の向上には有利である。

１つの実施可能な形態では、前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップは、前記第１サンプル二次元骨格キーポイント・シーケンスに基づいて前記第１サンプル動作遷移成分シーケンスを特定することと、前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて前記第２サンプル動作遷移成分シーケンスを特定することと、前記第１サンプル動作遷移成分シーケンスに基づいて推定三次元骨格キーポイント・シーケンスを特定することと、前記第１サンプル動作遷移成分シーケンス、前記第２サンプル動作遷移成分シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記損失関数を特定することと、を含む。

本実施形態では、第１サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた第１サンプル動作遷移成分シーケンス、第２サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた第２サンプル動作遷移成分シーケンス、および第１サンプル動作遷移成分シーケンスに基づいて再構築された推定三次元骨格キーポイント・シーケンスを利用して、損失関数を構築することにより、初期オブジェクトと標的オブジェクトの構造差異が大きい場合での動作遷移精度を向上させることができる。

１つの実施可能な形態では、前記損失関数は、動き不変損失関数を含み、前記第１サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第１サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報を含み、前記第２サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第２サンプル動き成分情報、第２サンプル構造成分情報、および第２サンプル角度成分情報を含む。

前記損失関数を特定することは、前記各フレームのサンプル画像に対応する前記第２サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報に基づいて、前記第１サンプル二次元骨格キーポイント・シーケンス中の対応する前記第１サンプル二次元骨格キーポイントに対応する第１推定骨格キーポイントを特定することと、前記各フレームのサンプル画像に対応する前記第１サンプル動き成分情報、第２サンプル構造成分情報、および第２サンプル角度成分情報に基づいて、前記第２サンプル二次元骨格キーポイント・シーケンス中の対応する前記第２サンプル二次元骨格キーポイントに対応する第２推定骨格キーポイントを特定することと、前記第１推定骨格キーポイント、第２推定骨格キーポイント、第１サンプル動き成分情報、第２サンプル動き成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記動き不変損失関数を特定することと、を含む。

本実施形態では、第１サンプル二次元骨格キーポイント・シーケンスおよび第２サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた情報を利用して、サンプル・オブジェクトの骨格復元を行って第１推定骨格キーポイントを取得し、身体がスケーリングされたサンプル・オブジェクトの骨格復元を行って第２推定骨格キーポイントを取得し、さらに、復元された第１推定骨格キーポイント、第２推定骨格キーポイント、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、動き不変損失関数を構築することができる。サンプル・オブジェクトは、構造および撮影視野角の面で変化や擾乱があるにもかかわらず、遷移後の動き情報が不変であるはずであるため、動き不変損失関数を構築するとともに、トレーニング時に動き不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。

１つの実施可能な形態では、前記損失関数は、構造不変損失関数をさらに含み、前記損失関数を特定することは、前記第１サンプル二次元骨格キーポイント・シーケンスから、第１時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、および第２時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイントをスクリーニングすることと、前記第２サンプル二次元骨格キーポイント・シーケンスから、前記第２時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイント、および前記第１時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイントをスクリーニングすることと、前記第１時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第２時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第２時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイント、前記第１時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイント、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記構造不変損失関数を特定することと、をさらに含む。

本実施形態では、異なる時刻での第１サンプル二次元骨格キーポイントおよび第２サンプル二次元骨格キーポイントを利用して、再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、構造不変損失関数を構築することができる。サンプル・オブジェクトの構造が時間の変化に伴って不変性があるので、構造不変損失関数を構築するとともに、トレーニング時に動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。

１つの実施可能な形態では、前記損失関数は、視野角不変損失関数をさらに含み、前記損失関数を特定することは、前記第１時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第２時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第１時刻および第２時刻に対応するサンプル画像の第１サンプル角度成分情報、前記第１時刻および第２時刻に対応するサンプル画像の第２サンプル角度成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記視野角不変損失関数を特定することをさらに含む。

本実施形態では、異なる時刻での第１サンプル二次元骨格キーポイント、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスなどを利用することにより、視野角不変損失関数を構築することができる。サンプル・オブジェクトの撮影視野角がサンプル・オブジェクトの動きおよび構造の変化に伴って不変性があるので、視野角不変損失関数を構築するとともに、トレーニング時に視野角不変損失関数、動き不変損失関数、および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。

１つの実施可能な形態では、前記損失関数は、再構築復元損失関数をさらに含み、前記損失関数を特定することは、前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記推定三次元骨格キーポイント・シーケンスに基づいて前記再構築復元損失関数を特定することをさらに含む。

本実施形態では、第１サンプル二次元骨格キーポイント・シーケンス、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを利用することにより、再構築復元損失関数を構築することができる。サンプル・オブジェクトが復元時に不変性があるはずであるので、再構築復元損失関数を構築するとともに、トレーニング時に再構築復元損失関数、視野角不変損失関数、動き不変損失関数、および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。

本発明の第２態様により、初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得するように構成されるビデオ取得モジュールと、前記第１初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成されるキーポイント抽出モジュールと、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するように構成されるキーポイント変換モジュールと、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するように構成される画像レンダリングモジュールと、を含む、動作遷移装置が提案される。

１つの実施可能な形態では、前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する際に、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。

１つの実施可能な形態では、前記ビデオ取得モジュールはさらに、標的オブジェクトを含む第２初期ビデオを取得するように構成され、前記キーポイント抽出モジュールはさらに、前記第２初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成され、前記キーポイント変換モジュールは、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際に、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。

１つの実施可能な形態では、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定する際に、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、前記初期オブジェクトの動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定し、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定し、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定し、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定する。

本発明の第３態様により、プロセッサと、メモリと、バスと、を備え、前記メモリには、前記プロセッサで実行可能な機械読み取り可能な命令が格納され、電子デバイスが作動する際に、前記プロセッサと前記メモリがバスを介して通信され、前記機械読み取り可能な命令が前記プロセッサで実行される際に、上記の動作遷移方法におけるステップが実行されることとなる、電子デバイスが提案される。

本発明の第４態様により、当該コンピュータ読み取り可能な記憶媒体にはコンピュータ・プログラムが格納され、当該コンピュータ・プログラムがプロセッサで実行される際に、上記の動作遷移方法におけるステップが実行されることとなる、コンピュータ読み取り可能な記憶媒体が提案される。

本発明に係る上記の装置、電子デバイス、およびコンピュータ読み取り可能な記憶媒体には、本発明に係る上記の方法の何れか１つの態様または何れか１つの態様の何れか１つの実施形態の技術特徴と実質的に同じまたは類似する技術特徴が少なくとも含まれているので、上記の装置、電子デバイス、およびコンピュータ読み取り可能な記憶媒体の効果に関する記述は、上記の方法説明における効果に関する記述を参照でき、ここでは重複に説明しないものとする。

本発明の実施例に係る技術案をより明晰に説明するために、以下では、実施例に用いられる図面を簡単に説明する。以下の図面は、本発明の幾つかの実施例のみを図示するので、範囲への限定として見なされるべきではなく、普通の当業者にとっては、創造的な労働をせずにこれらの図面から他の相関図面を得ることもできるとは、理解されるべきであろう。
本発明の実施例で提案する動作遷移方法を示すフローチャートである。本発明の実施例で提案する別の動作遷移方法を示すフローチャートである。本発明の実施例で提案する動作遷移ニューラルネットワークのトレーニング方法を示すフローチャートである。本発明の実施例で提案する別の動作遷移ニューラルネットワークのトレーニング過程中の骨格キーポイントの復元を示すフローチャートである。本発明の実施例で提案する動作遷移装置の構成を示す概略図である。本発明の実施例で提案する電子デバイスの構成を示す概略図である。

本発明の実施例の目的、技術案、およびメリットをより明晰にするために、以下では、本発明の実施例に係る技術案について本発明の実施例に係る図面を参照しながら明晰かつ完全に説明する。本発明の図面は、単に説明および記述の目的に達成するためのものに過ぎず、本発明の保護範囲を限定するためのものではないとは、理解されるべきであろう。さらに、例示的な図面は、実物の割合で描かれたものではないとは、理解されるべきであろう。本発明で使用されるフローチャートは、本発明の幾つかの実施例によって実現された操作を図示する。フローチャートで記載される操作は、その順序で実施されなくてもよく、ロジックのない前後文関係を持つステップは、逆順または同時に実施されてもよいとは、理解されるべきであろう。また、当業者は、本発明の内容に導かれて、１つまたは複数の他の操作をフローチャートに追加しても、フローチャートから１つまたは複数の操作を削除してもよい。

また、本明細書に記述される実施例は、本発明の実施例の全部ではなく、その一部に過ぎない。通常、ここでの図面に記述や図示される本発明の実施例に係る構成要素は、様々な異なる構成で配置や設計されることができる。したがって、図面で提案される本発明の実施例に関する以下の詳細な記述は、保護請求する本発明の範囲を限定することを主旨とするものではなく、本発明に選定された実施例のみを示すものである。本発明の実施例に基づき、当業者が創造的な労働をせずに得られた全ての他の実施例は、本発明の保護範囲内に含まれるものとする。

特に説明したいこととして、本発明の実施例では、用語「含む」でその後に宣言された特徴の存在を示す場合があるが、他の特徴を追加することを排除するわけではない。

本発明で提案する動作遷移方法および装置では、二次元骨格キーポイント・シーケンスの抽出、二次元骨格キーポイント・シーケンスから三次元骨格キーポイント・シーケンスへのリダイレクト、および三次元骨格キーポイント・シーケンスに基づく標的オブジェクトの動作レンダリングにより、動作遷移が実現され、画素レベルでの直接的な動作遷移が回避され、初期ビデオと標的ビデオとは構造および視野角で大きな差異があるという問題が緩和され、特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が向上することとなる。また、本発明では、二次元骨格キーポイント・シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。

以下では、本発明に係る動作遷移方法、装置、デバイス、および記憶媒体について、具体的な実施例によって説明する。

本発明の実施例では、動作遷移を実行する端末デバイスまたはサーバなどに適用される動作遷移方法が提案される。具体的には、図１に示すように、本発明の実施例で提案する動作遷移方法は、次のステップを含む。

Ｓ１１０：初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得する。

ここでは、第１初期ビデオには複数フレームの画像が含まれており、各フレームの画像中の初期オブジェクトでは異なる姿勢が呈される場合があり、これらの姿勢は併合されて初期オブジェクトの動作シーケンスを構成する。

Ｓ１２０：前記第１初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別する。

初期オブジェクトの動作シーケンスを特定するために、第１初期ビデオに含まれる各フレームの画像から初期オブジェクトの二次元骨格キーポイントを抽出することができ、複数フレームの画像のそれぞれに対応する二次元骨格キーポイントにより、上記の二次元骨格キーポイント・シーケンスが形成される。例示的には、上記の二次元骨格キーポイントは、初期オブジェクトの各関節に対応するキーポイントを含んでいてもよい。各関節に対応するキーポイントを組み合わせて連結すると、初期オブジェクトの骨格が得られる。

１つの実施可能な形態では、二次元姿勢推定ニューラルネットワークを利用して、各フレームの画像中の初期オブジェクトの二次元骨格キーポイントを抽出することができる。

上記の初期オブジェクトは、実在の人、仮想の人、動物などとすることができ、本発明ではこれについて限定されない。

Ｓ１３０：前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する。

１つの実施可能な形態では、先ず、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、その後に、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定するように構成することができる。

例示的には、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスのうちの少なくとも１つを含む。

ここでは、動き成分シーケンスは、初期オブジェクトの動きを示し、オブジェクト構造成分シーケンスは、初期オブジェクトの身体形態を示し、撮影角度成分シーケンスは、カメラの角度を示す。

一部の実施例では、上記の動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスは、次のサブステップによって形成されることができる。

サブステップ１：前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定する。

サブステップ２：前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定する。

サブステップ３：前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定する。

サブステップ４：前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定する。

上記のステップは、ニューラルネットワークにより各フレームの画像に対応する二次元骨格キーポイントを、セマンティックで直交する３つのベクトルに符号化することで、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報をそれぞれ取得するものである。その次に、複数フレームの画像に対応する動き成分情報を組み合わせて動き成分シーケンスを形成し、複数フレームの画像に対応するオブジェクト構造成分情報を組み合わせてオブジェクト構造成分シーケンスを形成し、複数フレームの画像に対応する撮像角度成分情報を組み合わせて撮影角度成分シーケンスを形成する。

上記３つの成分情報のうち、各成分情報は別の２つの成分情報に対して不変性がある。

このステップでは、二次元骨格キーポイント・シーケンスの直交分解で得られた動作遷移成分シーケンスを利用して三次元骨格キーポイント・シーケンスをリダイレクトすることにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利であり、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点がさらに軽減される。

Ｓ１４０：前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する。

三次元骨格キーポイント・シーケンスを特定した後、この三次元骨格キーポイント・シーケンス中の各フレームの画像に対応する三次元骨格キーポイントを二次元空間へと再再投影再投影することで、標的オブジェクトの二次元標的骨格キーポイントを取得することができ、複数フレームの画像に対応する二次元標的骨格キーポイントにより、二次元標的骨格キーポイント・シーケンスが形成される。その後に、前記二次元標的骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する。ここでは、標的オブジェクトの動作シーケンスは初期オブジェクトの動作シーケンスとは互いに対応する。

一部の実施例では、二次元標的骨格キーポイント・シーケンスを利用して、標的オブジェクトの動作シーケンスを含む標的ビデオを生成する場合、得られた各グループの二次元標的骨格キーポイントを利用して動作レンダリングを行うことで、各フレームの画像に対応する標的オブジェクトの姿勢を取得し、各フレームの画像中の姿勢を順次併合すれば、標的オブジェクトの動作シーケンスを取得することができる。

例示的には、ビデオ・レンダリング・エンジンを利用して、各フレームの画像に対応する二次元標的骨格キーポイントに基づいて、前記標的オブジェクトの動作シーケンスを含む標的ビデオを生成することができる。

以上のように、再構築された三次元骨格キーポイント・シーケンスを再投影して二次元標的骨格キーポイント・シーケンスを取得することにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。

例示的には、上記のステップＳ１３０では、トレーニング済みの動作遷移ニューラルネットワークを利用して二次元骨格キーポイント・シーケンスの直交分解を行い、分解で得られた動作遷移成分シーケンスを利用して標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することができる。

上記の動作遷移ニューラルネットワークは、３つのエンコーダと１つの復号器を含み、各エンコーダはそれぞれ、二次元骨格キーポイント・シーケンス中の各二次元骨格キーポイントに対して成分情報を抽出して、上記の動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報を取得するように構成される。上記の成分情報を取得した後、１つの復号器で復号処理を行い、標的オブジェクトの推定三次元骨格キーポイントを再構築し、最後に推定三次元骨格キーポイントを二次元空間へと再投影することで、上記の三次元骨格キーポイント・シーケンス中の１つの三次元骨格キーポイントを取得する。

特に説明すべきこととして、三次元骨格キーポイントを特定する際には、復号器で直接復号したオブジェクト構造成分情報および撮影角度成分情報を利用して特定してもよいし、平均プーリングされたオブジェクト構造成分情報および撮影角度成分情報を利用して特定してもよい。具体的には、現在フレームの画像を含む連続的な複数フレームの画像のそれぞれに対応する二次元骨格キーポイントの直交分解を行うことで、各フレームの画像に対応するオブジェクト構造成分情報および撮影角度成分情報を取得し、その後に、各フレームの画像に対応するオブジェクト構造成分情報に対して平均プーリング操作を行って現在フレームの画像に対応する最終的なオブジェクト構造成分情報を取得し、各フレームの画像に対応する撮影角度成分情報に対して平均プーリング操作を行って現在フレームの画像に対応する最終的な撮影角度成分情報を取得する。最後に、直接分解で取得した動き成分情報、平均プーリング操作で取得したオブジェクト構造成分情報、および平均プーリング操作で取得した撮影角度成分情報を利用して、現在フレームの画像に対応する三次元骨格キーポイントを特定する。

上記の実施例によれば、画素レベルでの直接的な動作遷移が回避され、第１初期ビデオと標的ビデオとは構造および視野角で大きな差異があるという問題が緩和され、特に初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が向上することとなる。また、上記の実施例では、抽出された二次元骨格キーポイントが動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報に直交分解されることにより、初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点がさらに軽減される。

初期オブジェクトが極端な動作をする場合、または初期オブジェクトと標的オブジェクトとの構造差異が大きい場合での動作遷移精度が低いという欠点をさらに軽減するために、本発明の実施例では、前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する前に、標的オブジェクトを含む第２初期ビデオを取得したとともに、前記第２初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別する。

その後に、前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際には、先ず、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定し、その次に、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、最後に、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。

上記のような標的オブジェクトの動作遷移成分シーケンスを特定する方法は、初期オブジェクトの動作遷移成分シーケンスを特定する方法とは同じであり、同様に、先ず、第２初期ビデオの各フレームの画像から標的オブジェクトの二次元骨格キーポイントをそれぞれ抽出し、各フレームの画像中の二次元骨格キーポイントの直交分解を行うことで、前記標的オブジェクトの動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報を特定する。最後に、複数フレームの画像に対応する動き成分情報を利用して動き成分シーケンスを形成し、複数フレームの画像に対応するオブジェクト構造成分情報を利用してオブジェクト構造成分シーケンスを形成し、複数フレームの画像に対応する撮像角度成分情報を利用して撮影角度成分シーケンスを形成する。

上記の実施例では、融合後の標的動作遷移成分シーケンスを利用して標的オブジェクトの三次元骨格キーポイント・シーケンスを再構築してから、再構築した三次元骨格キーポイント・シーケンスを再投影して標的オブジェクトの二次元標的骨格キーポイント・シーケンスを取得することにより、動作遷移中に誤差の大きな三次元キーポイントによる推定およびリダイレクトが回避され、動作遷移精度の向上には有利である。

以下では、本発明に係る動作遷移方法について１つの具体的な実施例によってさらに説明する。

図２に示すように、本実施例に係る動作遷移方法は、次のステップを含む。

ステップ１：骨格抽出操作。第１初期ビデオの各フレームの画像から初期オブジェクトの二次元骨格キーポイントを抽出して初期オブジェクトの二次元骨格キーポイント・シーケンスを取得し、第２初期ビデオの各フレームの画像から標的オブジェクトの二次元骨格キーポイントを抽出して標的オブジェクトの二次元骨格キーポイント・シーケンスを取得する。

ステップ２：動作遷移処理。初期オブジェクトの二次元骨格キーポイント・シーケンス中の各二次元骨格キーポイントおよび標的オブジェクトの二次元骨格キーポイント・シーケンス中の各二次元骨格キーポイントをそれぞれ符号化処理し、即ち直交分解を行うことで、初期オブジェクトの各二次元骨格キーポイントまたは各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報、および標的オブジェクトの各二次元骨格キーポイントまたは各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報をそれぞれ取得する。

上記の初期オブジェクトの複数フレームの画像に対応する動き成分情報により初期オブジェクトの動き成分シーケンスが形成され、初期オブジェクトの複数フレームの画像に対応するオブジェクト構造成分情報により初期オブジェクトのオブジェクト構造成分シーケンスが形成され、初期オブジェクトの複数フレームの画像に対応する撮像角度成分情報により初期オブジェクトの撮像角度成分シーケンスが形成される。初期オブジェクトの動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスにより、初期オブジェクトの動作遷移成分シーケンスが形成される。

同様に、上記の標的オブジェクトの複数フレームの画像に対応する動き成分情報により標的オブジェクトの動き成分シーケンスが形成され、標的オブジェクトの複数フレームの画像に対応するオブジェクト構造成分情報により標的オブジェクトのオブジェクト構造成分シーケンスが形成され、標的オブジェクトの複数フレームの画像に対応する撮像角度成分情報により標的オブジェクトの撮像角度成分シーケンスが形成される。標的オブジェクトの動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスにより、標的オブジェクトの動作遷移成分シーケンスが形成される。

その後に、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。

例示的には、初期オブジェクトの各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報と、標的オブジェクトの各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、撮影角度成分情報を再組み合わせ、再組み合わせられる標的動き成分情報、標的構造成分情報、および標的角度成分情報を取得する。

上記の複数フレームの画像に対応する標的動き成分情報により標的動き成分シーケンスが形成され、複数フレームの画像に対応する標的構造成分情報により標的オブジェクト構造成分シーケンスが形成され、複数フレームの画像に対応する標的角度成分情報により標的撮像角度成分シーケンスが形成される。標的動き成分シーケンス、標的オブジェクト構造成分シーケンス、および標的撮影角度成分シーケンスにより、上記の標的動作遷移成分シーケンスが形成される。

その後に、標的動き成分情報、標的構造成分情報、および標的角度成分情報に対して復号操作を行うことで、同一フレームの画像に対応する３つの予め設定された角度での標的オブジェクトの三次元骨格キーポイントを取得する。複数フレームの画像の三次元骨格キーポイントにより、上記の三次元骨格キーポイント・シーケンスが形成される。

最後に、各予め設定された角度での三次元骨格キーポイントのそれぞれを二次元空間へと再投影することで、各予め設定された角度での標的オブジェクトの二次元標的骨格キーポイントをそれぞれ取得する。

ステップ３：骨格に基づくビデオレンダリング操作。各フレームの画像中の標的オブジェクトの各予め設定された角度での二次元標的骨格キーポイントに基づいて標的オブジェクトの各予め設定された角度での標的動作を特定し、標的動作に基づいて標的オブジェクトの各予め設定された角度での標的ビデオを生成する。

上記の実施例によれば、動作遷移精度が顕著に向上し、任意の角度での動作遷移を実現することができる。同時に、標的オブジェクトと初期オブジェクトの構造差異が大きく、初期オブジェクトが極端な動作をした場合であっても、正確な動作遷移が実行可能であり、良好な視覚効果が得られる。

現在、動きは複雑な非線形性を示して、現実の世界では対をなす動作ーキャラクターデータを見つけることは困難であるため、上記の動作遷移を実現するための動作遷移モデルを正確に確立することは困難であり、それによって、動作遷移には精度が低いという欠点が示される。上記の欠点を緩和するために、本発明では、動作遷移ニューラルネットワークのトレーニング方法がさらに提案され、当該方法は、上記の動作遷移処理を実行する端末デバイスまたはサーバに適用されてもよいし、単独でニューラルネットワーク・トレーニングを実行する端末デバイスまたはサーバに適用されてもよい。具体的には、図３に示すように、次のステップを含んでいてもよい。

Ｓ３１０：サンプル・オブジェクトの動作シーケンスを含むサンプル動画を取得する。

Ｓ３２０：前記サンプル動画に含まれる複数フレームのサンプル画像中の前記サンプル・オブジェクトの第１サンプル二次元骨格キーポイント・シーケンスを識別する。

ここでは、サンプル動画に含まれる各フレームの画像からサンプル・オブジェクトの第１サンプル二次元骨格キーポイントが抽出され、複数フレームのサンプル画像の第１サンプル二次元骨格キーポイントにより、第１サンプル二次元骨格キーポイント・シーケンスが形成される。

上記の第１サンプル二次元骨格キーポイントは、サンプル・オブジェクトの各関節に対応するキーポイントを含んでいてもよい。各関節に対応するキーポイントを組み合わせて連結すると、サンプル・オブジェクトの骨格が得られる。

具体的に実施する際には、二次元姿勢推定ニューラルネットワークを利用して、サンプル・オブジェクトの第１サンプル二次元骨格キーポイントを抽出することができる。

上記のサンプル・オブジェクトは、実在の人、仮想の人、動物などとすることができ、本発明ではこれについて限定されない。

Ｓ３３０：第１サンプル二次元骨格キーポイント・シーケンスに対して身体の比例でのスケーリング処理を行うことで、第２サンプル二次元骨格キーポイント・シーケンスを取得する。

ここでは、所定のスケーリング比例で、第１サンプル二次元骨格キーポイント・シーケンス中の各第１サンプル二次元骨格キーポイントに対して身体の比例でのスケーリングを行うことで、第２サンプル二次元骨格キーポイント・シーケンスを取得する。

図４に示すように、第１サンプル二次元骨格キーポイントｘに対して身体の比例でのスケーリングを行って、第２サンプル二次元骨格キーポイントｘ’を取得する。

Ｓ３４０：前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定し、前記損失関数により前記動作遷移ニューラルネットワークのネットワークパラメータを調整する。

具体的に実施する際には、第１サンプル二次元骨格キーポイント・シーケンス中の各第１サンプル二次元骨格キーポイント、および前記第２サンプル二次元骨格キーポイント・シーケンス中の各第２サンプル二次元骨格キーポイントに対して直交分解を行い、分解して得られた情報を利用して三次元骨格キーポイント・シーケンスの推定、および二次元サンプル骨格キーポイントの復元を行い、さらに、分解して得られた情報、推定された三次元骨格キーポイント・シーケンス、および復元された二次元サンプル骨格キーポイントを利用して、損失関数を構築することができる。

ここでは、構築された損失関数の値が最小となることを目的として、動作遷移ニューラルネットワークをトレーニングする。

本実施形態では、サンプル・オブジェクトの第１サンプル二次元骨格キーポイント・シーケンス、およびサンプル・オブジェクトに対して身体の比例でのスケーリングを行って得られた第２サンプル二次元骨格キーポイント・シーケンスを利用して損失関数を構築して、動作遷移ニューラルネットワークをトレーニングすることにより、初期オブジェクトと標的オブジェクトの構造差異が大きい場合での動作遷移精度を向上させることができる。また、上記の動作遷移ニューラルネットワークをトレーニングする際には、現実の世界で対をなす動作ーキャラクターデータが使用されておらず、教師無しの損失関数の構築および動作遷移ニューラルネットワークのトレーニングが実現され、トレーニングによって得られた動作遷移ニューラルネットワークによる動作遷移時の精度の向上には有利である。

上記の動作遷移ニューラルネットワークは具体的に３つのエンコーダと１つの復号器を含み、動作遷移ニューラルネットワークへのトレーニングは実質的に上記の３つのエンコーダと１つの復号器へのトレーニングである。

一部の実施例では、前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップは、具体的に次のステップによって実現されることができる。

ステップ１：前記第１サンプル二次元骨格キーポイント・シーケンスに基づいて、前記第１サンプル動作遷移成分シーケンスを特定する。

第１サンプル二次元骨格キーポイント・シーケンス中の各第１サンプル二次元骨格キーポイントに対して直交分解を行うことで、各フレームのサンプル画像に対応する第１サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報を取得する。複数フレームのサンプル画像に対応する第１サンプル動き成分情報により第１サンプル動き成分シーケンスが形成され、複数フレームのサンプル画像に対応する第１サンプル構造成分情報により第１サンプル構造成分シーケンスが形成され、複数フレームのサンプル画像に対応する第１サンプル角度成分情報により第１サンプル角度成分シーケンスが形成される。第１サンプル動き成分シーケンス、第１サンプル角度成分シーケンス、および第１サンプル構造成分シーケンスにより、上記の第１サンプル動作遷移成分シーケンスが形成される。

ここでは、図４に示すように、第１サンプル二次元骨格キーポイントｘを動作遷移ニューラルネットワークの１つのエンコーダＥｍで処理して第１サンプル動き成分情報を取得し、この第１サンプル二次元骨格キーポイントｘを別のエンコーダＥｓで処理して第１サンプル構造成分情報を取得し、この第１サンプル二次元骨格キーポイントｘを最後のエンコーダＥｖで処理して第１サンプル角度成分情報を取得する。

現在フレームのサンプル画像に対応する第１サンプル構造成分情報と現在フレームのサンプル画像に隣接する複数フレーム（例えば６４フレーム）のサンプル画像に対応する第１サンプル構造成分情報に対して平均プーリング処理を行うことで、最終的な第１サンプル構造成分情報

を取得する。現在フレームのサンプル画像に対応する第１サンプル角度成分情報と現在フレームのサンプル画像に隣接する複数フレームのサンプル画像に対応する第１サンプル角度成分情報に対して平均プーリング処理を行うことで、最終的な第１サンプル角度成分情報

を取得する。現在フレームのサンプル画像に対応する第１サンプル動き成分情報は、平均プーリング処理が不要であり、そのままで最終的な第１サンプル動き成分情報ｍとして利用できる。

ステップ２：前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて、前記第２サンプル動作遷移成分シーケンスを特定する。

第２サンプル二次元骨格キーポイント・シーケンス中の各第２サンプル二次元骨格キーポイントに対して直交分解を行うことで、各フレームのサンプル画像に対応する第２サンプル動き成分情報、第２サンプル構造成分情報、および第２サンプル角度成分情報を取得する。複数フレームのサンプル画像に対応する第２サンプル動き成分情報により第２サンプル動き成分シーケンスが形成され、複数フレームのサンプル画像に対応する第２サンプル構造成分情報により第２サンプル構造成分シーケンスが形成され、複数フレームのサンプル画像に対応する第２サンプル角度成分情報により第２サンプル角度成分シーケンスが形成される。第２サンプル動き成分シーケンス、第２サンプル角度成分シーケンス、および第２サンプル構造成分シーケンスにより、上記の第２サンプル動作遷移成分シーケンスが形成される。

ここでは、図４に示すように、第２サンプル二次元骨格キーポイントｘ’を動作遷移ニューラルネットワークの１つのエンコーダＥｍで処理して第２サンプル動き成分情報を取得し、第２サンプル二次元骨格キーポイントｘ’を別のエンコーダＥｓで処理して第２サンプル構造成分情報を取得し、第２サンプル二次元骨格キーポイントｘ’を最後のエンコーダＥｖで処理して第２サンプル角度成分情報を取得する。

現在フレームのサンプル画像に対応する第２サンプル構造成分情報と現在フレームのサンプル画像に隣接する複数フレームのサンプル画像に対応する第２サンプル構造成分情報に対して平均プーリング処理を行うことで、最終的な第２サンプル構造成分情報

を取得する。現在フレームのサンプル画像に対応する第２サンプル角度成分情報と現在フレームのサンプル画像に隣接する複数フレームのサンプル画像に対応する第２サンプル角度成分情報に対して平均プーリング処理を行うことで、最終的な第２サンプル角度成分情報

を取得する。現在フレームのサンプル画像に対応する第２サンプル動き成分情報は、平均プーリング処理が不要であり、そのままで最終的な第２サンプル動き成分情報ｍ’として利用できる。

ステップ３：前記第１サンプル動作遷移成分シーケンスに基づいて、推定三次元骨格キーポイント・シーケンスを特定する。

ここでは、具体的に同一フレームのサンプル画像に対応する第１サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報を利用して、１つの推定三次元骨格キーポイントを特定する。複数フレームのサンプル画像に対応する推定三次元骨格キーポイントによれば、上記の推定三次元骨格キーポイント・シーケンスが形成される。

ここでは、具体的に同一フレームのサンプル画像に対応する第１サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報に対して１つの復号器Ｇで復号処理することで、再構築された推定三次元骨格キーポイントを取得することができる。

ステップ４：前記第１サンプル動作遷移成分シーケンス、第２サンプル動作遷移成分シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記損失関数を特定する。

具体的に実施する際には、第１サンプル動作遷移成分シーケンス中の前記第１サンプル動き成分情報、第１サンプル構造成分情報、第１サンプル角度成分情報、および第２サンプル動作遷移成分シーケンス中の第２サンプル動き成分情報、第２サンプル構造成分情報、第２サンプル角度成分情報を利用して、二次元サンプル骨格キーポイントの復元を行い、さらに、推定三次元骨格キーポイント・シーケンス、および復元された二次元サンプル骨格キーポイントを利用して、損失関数を構築することができる。

サンプル・オブジェクトは、構造および撮影視野角の面で変化や擾乱があるにもかかわらず、遷移後の動き情報が不変であるはずであるため、動き不変損失関数を構築するとともに、トレーニング時に動き不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、上記の動き不変損失関数は、次のステップにより構築されることができる。

ステップ１：前記第２サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報に基づいて、前記第１サンプル二次元骨格キーポイント・シーケンス中の対応する前記第１サンプル二次元骨格キーポイントに対応する第１推定骨格キーポイントを特定する。

図４に示すように、具体的には、第２サンプル動き成分情報ｍ’、第１サンプル構造成分情報

、第１サンプル角度成分情報

を復号器Ｇで処理することで、三次元骨格キーポイント

を再構築し、その後に、回転投影関数

を利用して三次元骨格キーポイント

を二次元空間へと再投影することで、第１推定骨格キーポイント

を取得するというサブステップによって実現することができる。

ステップ２：前記第１サンプル動き成分情報、第２サンプル構造成分情報、および第２サンプル角度成分情報に基づいて、前記第２サンプル二次元骨格キーポイント・シーケンス中の対応する前記第２サンプル二次元骨格キーポイントに対応する第２推定骨格キーポイントを特定する。

図４に示すように、具体的には、第１サンプル動き成分情報ｍ、第２サンプル構造成分情報

、第２サンプル角度成分情報

を復号器Ｇで処理することで、三次元骨格キーポイント

を再構築し、その後に、回転投影関数

を利用して三次元骨格キーポイント

を二次元空間へと再投影することで、第２推定骨格キーポイント

ステップ１およびステップ２において、第１推定骨格キーポイント

および第２推定骨格キーポイント

を生成するための具体的な公式は、次の通りである。

（１）

式中、

はエンコーダで抽出されたサンプル構造成分情報への平均プーリング操作を行うことを示し、

はエンコーダで抽出されたサンプル角度成分情報への平均プーリング操作を行うことを示す。

ステップ３：前記第１推定骨格キーポイント、第２推定骨格キーポイント、第１サンプル動き成分情報、第２サンプル動き成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記動き不変損失関数を特定する。

構築された動き不変損失関数は、具体的に次の３つの関数を含む。

式中、Ｎはサンプル動画のフレーム数を示し、Ｔは１つの第１サンプル二次元骨格キーポイントに対応する関節の数を示し、Ｍは予め設定された数値を示し、Ｃｍは第１サンプル動き成分情報に対応する符号長を示し、Ｋはサンプル・オブジェクトの回転量を示し、

は１つの推定三次元骨格キーポイントを示し、

は３つの動き不変損失関数を示す。

本発明の実施例では、第１サンプル二次元骨格キーポイント・シーケンスおよび第２サンプル二次元骨格キーポイント・シーケンスの直交分解で得られた情報を利用して、サンプル・オブジェクトの骨格復元を行って第１推定骨格キーポイントを取得し、身体がスケーリングされたサンプル・オブジェクトの骨格復元を行って第２推定骨格キーポイントを取得し、さらに、復元された第１推定骨格キーポイント、第２推定骨格キーポイント、および再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、動き不変損失関数を構築することができる。

サンプル・オブジェクトの構造が時間の変化に伴って不変性があるので、構造不変損失関数を構築するとともに、トレーニング時に動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、上記の構造不変損失関数は、次のステップにより構築されることができる。

ステップ１：前記第１サンプル二次元骨格キーポイント・シーケンスから、前記サンプル・オブジェクトの第１時刻での第１サンプル二次元骨格キーポイント、および前記サンプル・オブジェクトの第２時刻での第１サンプル二次元骨格キーポイントをスクリーニングする。

前記第２サンプル二次元骨格キーポイント・シーケンスから、前記サンプル・オブジェクトの第２時刻での第２サンプル二次元骨格キーポイント、および前記サンプル・オブジェクトの第１時刻での第２サンプル二次元骨格キーポイントをスクリーニングする。

上記の第１サンプル二次元骨格キーポイントは、サンプル動画中の第１時刻ｔ１および第２時刻ｔ２に対応するサンプル画像のそれぞれから抽出されたサンプル・オブジェクトの二次元骨格キーポイントであり、身体の比例でスケーリングされないサンプル・オブジェクトの骨格キーポイントである。上記の第２サンプル二次元骨格キーポイントは、サンプル動画中の第１時刻ｔ１および第２時刻ｔ２に対応するサンプル画像のそれぞれから抽出されたサンプル・オブジェクトの骨格キーポイントが身体の比例でスケーリングされたものである。

ステップ２：前記サンプル・オブジェクトの第１時刻での第１サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第２時刻での第１サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第２時刻での第２サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第１時刻での第２サンプル二次元骨格キーポイント、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記構造不変損失関数を特定する。

具体的に実施する際には、構築された構造不変損失関数は、次の２つの関数を含む。

式中、Ｓｔ１は時刻ｔ１での第１サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、Ｓｔ２は時刻ｔ２での第１サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、Ｓｔ２’は時刻ｔ２での第２サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、Ｓｔ１’は時刻ｔ１での第２サンプル二次元骨格キーポイントから直接抽出されたサンプル構造成分情報を示し、Ｃｂは第１サンプル構造成分情報に対応する符号長を示し、ｍは予め設定された数値であり、s()はコサイン類似関数を示し、

は２つの構造不変損失関数を示す。

本発明の実施例では、異なる時刻での第１サンプル二次元骨格キーポイントおよび第２サンプル二次元骨格キーポイントを利用して、再構築されたサンプル・オブジェクトの推定三次元骨格キーポイント・シーケンスを併用することにより、構造不変損失関数を構築することができる。

サンプル・オブジェクトの撮影視野角がサンプル・オブジェクトの動きおよび構造の変化に伴って不変性があるので、視野角不変損失関数を構築するとともに、トレーニング時に視野角不変損失関数、動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、視野角不変損失関数は、次のステップにより構築されることができる。

前記サンプル・オブジェクトの第１時刻での第１サンプル二次元骨格キーポイント、前記サンプル・オブジェクトの第２時刻での第１サンプル二次元骨格キーポイント、第１サンプル角度成分情報、第２サンプル角度成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記視野角不変損失関数を特定する。

構築された視野角不変損失関数は、具体的に次の２つの関数を含む。

式中、ｖｔ１は時刻ｔ１での第１サンプル二次元骨格キーポイントから直接抽出されたサンプル角度成分情報を示し、ｖｔ２は時刻ｔ２での第１サンプル二次元骨格キーポイントから直接抽出されたサンプル角度成分情報を示し、Ｃｖは第１サンプル角度成分情報に対応する符号長を示し、

は２つの視野角不変損失関数を示す。

サンプル・オブジェクトが復元時に不変性があるはずであるので、再構築復元損失関数を構築するとともに、トレーニング時に再構築復元損失関数、視野角不変損失関数、動き不変損失関数および構造不変損失関数を最小にすることにより、構築された動作遷移ニューラルネットワークによる動作遷移時の精度を向上させることができる。具体的には、再構築復元損失関数は、次のステップにより構築されることができる。

前記第１サンプル二次元骨格キーポイント・シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記再構築復元損失関数を特定する。

構築された再構築復元損失関数は、具体的に次の２つの関数を含む。

式中、Ｄは１つの時系列での畳み込みネットワークを示し、

はｘがサンプルから抽出される確率分布を示し、さらに、その後の関数、即ち

について望みを求め、

は２つの再構築復元損失関数を示す。

以上の実施例では、再構築復元損失関数、視野角不変損失関数、動き不変損失関数、および構造不変損失関数が構築される。具体的に実施する際には、次の公式により上記の損失関数を融合することで標的損失関数を取得することができる。

式中、λ_ｒｅｃ、λ_ｃｒｓ、λ_ａｄｖ、λ_ｔｒｉｐ、λ_ｉｎｖは何れも予め設定された重みを示す。

動作遷移ニューラルネットワークをトレーニングする際には、上記の標的損失関数の値を最小にすればよい。

本発明では、上記の動作遷移方法に対応する動作遷移装置も提案され、当該装置は、動作遷移を実行する端末デバイスまたはサーバに適用され、その各モジュールにより上記の方法と同じ方法ステップを実現し、同じ有益な効果を奏することができる。したがって、その同じ部分については本発明で重複に説明しないものとする。

図５に示すように、本発明で提案する動作遷移装置は、次の構成部分を含むように構成することができる。

ビデオ取得モジュール５１０：初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得するように構成される。

キーポイント抽出モジュール５２０：前記第１初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成される。

キーポイント変換モジュール５３０：前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するように構成される。

画像レンダリングモジュール５４０：前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するように構成される。

一部の実施例では、前記キーポイント変換モジュール５３０は、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する際に、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する。

一部の実施例では、前記ビデオ取得モジュール５１０はさらに、標的オブジェクトを含む第２初期ビデオを取得するように構成され、前記キーポイント抽出モジュール５２０はさらに、前記第２初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成され、前記キーポイント変換モジュール５３０は、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際に、前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記オブジェクト・オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定するために用いられる。

一部の実施例では、前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、前記キーポイント変換モジュール５３０は、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定する際に、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定し、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定し、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定し、前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定するために用いられる。

本発明の実施例では電子デバイスが提案され、図６に示すように、当該電子デバイスは、プロセッサ６０１と、メモリ６０２、バス６０３と、を備え、前記メモリ６０２には、前記プロセッサ６０１で実行可能な機械読み取り可能な命令が格納され、電子デバイスが作動する際に、前記プロセッサ６０１と前記メモリ６０２がバス６０３を介して通信される。

前記機械読み取り可能な命令が前記プロセッサ６０１で実行される際に、動作遷移方法における、初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得するステップと、前記第１初期ビデオに含まれる複数フレームの画像での前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するステップと、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップと、前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップとは、実行されることとなる。

以上のことに加えて、機械読み取り可能な命令がプロセッサ６０１によって実行される際に、上記の方法部分で記述された何れか１つの実施形態における方法内容が実行される場合もある。ここでは重複に説明しないものとする。

本発明の実施例では、上記の方法および装置に対応するコンピュータ・プログラム製品がさらに提案され、当該コンピュータ・プログラム製品は、プログラムコードが格納されたコンピュータ読み取り可能な記憶媒体を含み、プログラムコードに含まれる命令によって上記の方法実施例で記載される方法を実行することができる。その具現化は、方法実施例を参照でき、ここでは重複に説明しないものとする。

各実施例に関する以上の記述は、各実施例間の相違点を重点に強調していたものであり、それらの同じまたは類似するところは、互いに参照でき、簡潔のため、本明細書で重複に説明しないものとする。

記述の便利および簡潔のため、以上で記述されたシステムおよび装置の具体的な作動プロセスは、方法実施例における対応するプロセスを参照できるとは、当業者に明らかに了解されるべきであろう。本発明では重複に説明しないものとする。本発明で提案された幾つかの実施例において、披露されたシステム、装置および方法は、その他の方式によっても実施され得ることが理解されるべきであろう。以上で記述された装置実施例は単なる例示的なものに過ぎず、例えば、前記モジュールの区画は、単なるロジック機能の区画に過ぎず、実際に実現する場合、別の方式で区画してもよく、さらに例えば、複数のモジュールまたはコンポーネントを別のシステムに結合や統合してもよく、または一部の特徴を無視するか実行しなくてもよい。また、表示または検討されている各構成要素間の相互結合または直接結合または通信接続は、幾つかの通信インターフェース、装置またはモジュールを介した間接結合または通信接続であってもよく、電気的、機械的または他の形態であってもよい。

上記の分離する部品として説明したモジュールは、物理的に分離しても物理的に分離しなくてもよく、モジュールとして表す部品は、物理ユニットであっても物理ユニットではなくてもよく、同一の場所に位置しても、複数のネットワークユニットに分布してもよい。実際の需要に応じて、そのうちの一部または全部のユニットを選択して本実施例に係る技術案の目的を達成することができる。

また、本発明の各実施例中の各機能ユニットは、全て１つの処理ユニットに統合されてもよいし、各ユニットが単独で物理ユニットとして存在してもよく、２つ以上のユニットが１つのユニットに統合されてもよい。

上記の機能はソフトウェア機能ユニットの形態で実現されかつ独立した製品として販売されるかまたは使用される場合、プロセッサで実行可能な不揮発のコンピュータ読み取り可能な記憶媒体に格納されることができる。このような理解に基づき、本発明に係る技術案の実質または従来技術に貢献した部分または当該技術案の一部は、ソフトウェア製品の形態で体現でき、当該コンピュータソフトウェア製品は、記憶媒体に格納され、コンピュータ・デバイス（パーソナルコンピュータ、サーバ、またはネットワークデバイスなどであってもよい）に本発明の各実施例に記載の方法におけるステップの全部または一部を実行させるための若干の命令を含む。上記の記憶媒体は、Ｕディスク、モバイルハードディスク、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを格納可能な様々な媒体を含む。

以上は、単なる本発明の具体的な実施形態に過ぎず、本発明の保護範囲を限定するものではなく、本技術分野に熟知する任意の技術者が本発明に披露された技術範囲内で容易に思い付くことのできる変更や差し替えは、本発明の保護範囲内に入るものとする。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲を基準とするものとする。

Claims

初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得するステップと、
前記第１初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するステップと、
前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップと、
前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップと、を含む、
ことを特徴とする動作遷移方法。
前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、
前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することと、
前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む、
ことを特徴とする請求項１に記載の動作遷移方法。
前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する前に、
前記標的オブジェクトを含む第２初期ビデオを取得することと、
前記第２初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別することと、を含み、
前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することは、
前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定することと、
前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定することと、
前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定することと、を含む、
ことを特徴とする請求項２に記載の動作遷移方法。
前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、
前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定することは、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、各フレームの画像に対応する動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定することと、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定することと、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定することと、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定することと、を含む、
ことを特徴とする請求項２に記載の動作遷移方法。
前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するステップは、
前記三次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの二次元標的骨格キーポイント・シーケンスを生成することと、
前記二次元標的骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作シーケンスを含む前記標的ビデオを生成することと、を含む、
ことを特徴とする請求項１に記載の動作遷移方法。
前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するステップは、
動作遷移ニューラルネットワークを利用して、前記二次元骨格キーポイント・シーケンスを前記標的オブジェクトの前記三次元骨格キーポイント・シーケンスに変換することを含む、
ことを特徴とする、請求項１乃至５の何れか一項に記載の動作遷移方法。
前記動作遷移ニューラルネットワークをトレーニングするための、
サンプル・オブジェクトの動作シーケンスを含むサンプル動画を取得するステップと、
前記サンプル動画に含まれる複数フレームのサンプル画像中の前記サンプル・オブジェクトの第１サンプル二次元骨格キーポイント・シーケンスを識別するステップと、
第１サンプル二次元骨格キーポイント・シーケンスに対して身体の比例でのスケーリング処理を行うことで、第２サンプル二次元骨格キーポイント・シーケンスを取得するステップと、
前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップと、
前記損失関数により前記動作遷移ニューラルネットワークのネットワークパラメータを調整するステップと、をさらに含む、
ことを特徴とする、請求項６に記載の動作遷移方法。
前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて損失関数を特定するステップは、
前記第１サンプル二次元骨格キーポイント・シーケンスに基づいて第１サンプル動作遷移成分シーケンスを特定することと、
前記第２サンプル二次元骨格キーポイント・シーケンスに基づいて第２サンプル動作遷移成分シーケンスを特定することと、
前記第１サンプル動作遷移成分シーケンスに基づいて推定三次元骨格キーポイント・シーケンスを特定することと、
前記第１サンプル動作遷移成分シーケンス、前記第２サンプル動作遷移成分シーケンス、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記損失関数を特定することと、を含む、
ことを特徴とする、請求項７に記載の動作遷移方法。
前記損失関数は、動き不変損失関数を含み、前記第１サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第１サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報を含み、前記第２サンプル動作遷移成分シーケンスは、各フレームのサンプル画像に対応する第２サンプル動き成分情報、第２サンプル構造成分情報、および第２サンプル角度成分情報を含み、
前記損失関数を特定することは、
前記各フレームのサンプル画像に対応する前記第２サンプル動き成分情報、第１サンプル構造成分情報、および第１サンプル角度成分情報に基づいて、前記第１サンプル二次元骨格キーポイント・シーケンス中の対応する前記第１サンプル二次元骨格キーポイントに対応する第１推定骨格キーポイントを特定することと、
前記各フレームのサンプル画像に対応する前記第１サンプル動き成分情報、第２サンプル構造成分情報、および第２サンプル角度成分情報に基づいて、前記第２サンプル二次元骨格キーポイント・シーケンス中の対応する前記第２サンプル二次元骨格キーポイントに対応する第２推定骨格キーポイントを特定することと、
前記第１推定骨格キーポイント、前記第２推定骨格キーポイント、前記第１サンプル動き成分情報、前記第２サンプル動き成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記動き不変損失関数を特定することと、を含む、
ことを特徴とする、請求項８に記載の動作遷移方法。
前記損失関数は、構造不変損失関数をさらに含み、
前記損失関数を特定することは、
前記第１サンプル二次元骨格キーポイント・シーケンスから、第１時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、および第２時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイントをスクリーニングすることと、
前記第２サンプル二次元骨格キーポイント・シーケンスから、前記第２時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイント、および前記第１時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイントをスクリーニングすることと、
前記第１時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第２時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第２時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイント、前記第１時刻に対応するサンプル画像中の第２サンプル二次元骨格キーポイント、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記構造不変損失関数を特定することと、をさらに含む、
ことを特徴とする、請求項９に記載の動作遷移方法。
前記損失関数は、視野角不変損失関数をさらに含み、
前記損失関数を特定することは、
前記第１時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第２時刻に対応するサンプル画像中の第１サンプル二次元骨格キーポイント、前記第１時刻および第２時刻に対応するサンプル画像の第１サンプル角度成分情報、前記第１時刻および第２時刻に対応するサンプル画像の第２サンプル角度成分情報、および前記推定三次元骨格キーポイント・シーケンスに基づいて、前記視野角不変損失関数を特定することをさらに含む、
ことを特徴とする、請求項１０に記載の動作遷移方法。
前記損失関数は、再構築復元損失関数をさらに含み、
前記損失関数を特定することは、
前記第１サンプル二次元骨格キーポイント・シーケンスおよび前記推定三次元骨格キーポイント・シーケンスに基づいて前記再構築復元損失関数を特定することをさらに含む、
ことを特徴とする、請求項１１に記載の動作遷移方法。
初期オブジェクトの動作シーケンスを含む第１初期ビデオを取得するように構成されるビデオ取得モジュールと、
前記第１初期ビデオに含まれる複数フレームの画像中の前記初期オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成されるキーポイント抽出モジュールと、
前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換するように構成されるキーポイント変換モジュールと、
前記三次元骨格キーポイント・シーケンスに基づいて、標的オブジェクトの動作シーケンスを含む標的ビデオを生成するように構成される画像レンダリングモジュールと、を含む、
ことを特徴とする動作遷移装置。
前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスを標的オブジェクトの三次元骨格キーポイント・シーケンスに変換する際に、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定し、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定するように構成される、
ことを特徴とする請求項１３に記載の動作遷移装置。
前記ビデオ取得モジュールはさらに、標的オブジェクトを含む第２初期ビデオを取得するように構成され、
前記キーポイント抽出モジュールはさらに、前記第２初期ビデオに含まれる複数フレームの画像中の前記標的オブジェクトの二次元骨格キーポイント・シーケンスを識別するように構成され、
前記キーポイント変換モジュールは、前記初期オブジェクトの動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する際に、
前記標的オブジェクトの二次元骨格キーポイント・シーケンスに基づいて前記標的オブジェクトの動作遷移成分シーケンスを特定し、
前記初期オブジェクトの動作遷移成分シーケンスおよび前記標的オブジェクトの動作遷移成分シーケンスに基づいて標的動作遷移成分シーケンスを特定し、
前記標的動作遷移成分シーケンスに基づいて前記標的オブジェクトの三次元骨格キーポイント・シーケンスを特定する、
ことを特徴とする請求項１４に記載の動作遷移装置。
前記初期オブジェクトの動作遷移成分シーケンスは、動き成分シーケンス、オブジェクト構造成分シーケンス、および撮影角度成分シーケンスを含み、
前記キーポイント変換モジュールは、前記二次元骨格キーポイント・シーケンスに基づいて前記初期オブジェクトの動作遷移成分シーケンスを特定する際に、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する二次元骨格キーポイントに基づいて、前記初期オブジェクトの動き成分情報、オブジェクト構造成分情報、および撮影角度成分情報をそれぞれ特定し、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する動き成分情報に基づいて、前記動き成分シーケンスを特定し、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応するオブジェクト構造成分情報に基づいて、前記オブジェクト構造成分シーケンスを特定し、
前記第１初期ビデオに含まれる複数フレームの画像のうちの各フレームの画像に対応する撮影角度成分情報に基づいて、前記撮影角度成分シーケンスを特定するように構成される、
ことを特徴とする請求項１４に記載の動作遷移装置。
プロセッサと、記憶媒体と、バスと、を備え、
前記記憶媒体には、前記プロセッサで実行可能な機械読み取り可能な命令が格納され、電子デバイスが作動する際に、前記プロセッサと前記記憶媒体がバスを介して通信され、
前記プロセッサで前記機械読み取り可能な命令が実行されて、請求項１乃至１２の何れか一項に記載の動作遷移方法が実施される、ことを特徴とする電子デバイス。
コンピュータ読み取り可能な記憶媒体にはコンピュータ・プログラムが格納され、前記コンピュータ・プログラムがプロセッサで実行される際に、請求項１乃至１２の何れか一項に記載の動作遷移方法が実施される、ことを特徴とするコンピュータ読み取り可能な記憶媒体。