JP2023027782A

JP2023027782A - 画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2023027782A
Application number: JP2022174100A
Authority: JP
Inventors: ボロンリアン，; Bairong Liang; ジージークオ，; Zhizhi Guo; ジービンホン，; Zhibin Hong
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-09
Filing date: 2022-10-31
Publication date: 2023-03-02
Also published as: CN114140320B; EP4123605A3; US20230115765A1; CN114140320A; EP4123605A2

Abstract

【課題】本開示は画像遷移方法及び画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供し、人工知能分野に関し、特にディープラーニング及びコンピュータ視覚技術分野に関し、顔画像処理、顔識別等のシーンに適用することができる。【解決手段】画像遷移方法は、第１の対象の目標部位の第１の画像における第１の位置情報と、第１の画像とに基づいて、第１の対象の第１の属性特徴と、目標部位の第１の形状特徴のそれぞれを抽出することと、第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出することと、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成することと、を含み、該第１の遷移画像は、第１の属性特徴及び第１の形状特徴を有する第２の対象を含む。【選択図】図２

Description

本開示は人工知能分野に関し、特にディープラーニング及びコンピュータ視覚技術分野に関し、顔画像処理、顔識別等のシーンに適用することができる。

ディープラーニング及び画像処理技術の発展に伴い、画像遷移技術は、例えば、顔識別、ビデオ制作及び仮想現実等の複数の分野に適用することができる。

関連技術においては、三次元再構成技術を用いて画像遷移を実現する。当該方法は、ステップが複雑であり、計算量が大きい。

計算量を低減し、かつ、遷移の精度を向上させる画像遷移方法、画像遷移モデルの訓練方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

本開示の一態様は、第１の対象の目標部位の第１の画像における第１の位置情報と、第１の画像とに基づいて、第１の対象の第１の属性特徴と、目標部位の第１の形状特徴のそれぞれを抽出することと、第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出することと、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成することと、を含み、第１の遷移画像は、第１の属性特徴及び第１の形状特徴を有する第２の対象を含む、画像遷移方法を提供する。

本開示の他の態様は、第１の符号化ネットワーク、第２の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練方法であって、第３の対象の目標部位の第３の画像における第５の位置情報と、第３の画像とに基づいて、第１の符号化ネットワークを用いて、第３の対象の第２の属性特徴と、目標部位の第２の形状特徴を抽出することと、第２の符号化ネットワークを用いて、第４の画像に含まれる第３の対象の第２のアイデンティティ特徴を抽出することと、第２の属性特徴、第２の形状特徴及び第２のアイデンティティ特徴に基づいて、生成ネットワークを用いて、第２の属性特徴及び第２の形状特徴を有する第３の対象を含む第２の遷移画像を生成することと、第２の遷移画像と第３の画像との差異に基づいて、画像遷移モデルを訓練することと、を含む、画像遷移モデルの訓練方法を提供する。

本開示の他の態様は、第１の対象の目標部位の第１の画像における第１の位置情報と、第１の画像とに基づいて、第１の対象の第１の属性特徴と、目標部位の第１の形状特徴のそれぞれを抽出するための第１の特徴抽出モジュールと、第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出するための第１のアイデンティティ抽出モジュールと、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成するための第１の画像生成モジュールと、を含み、第１の遷移画像は、第１の属性特徴及び第１の形状特徴を有する第２の対象を含む、画像遷移装置を提供する。

本開示の他の態様は、第１の符号化ネットワーク、第２の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練装置であって、第３の対象の目標部位の第３の画像における第５の位置情報と、第３の画像とに基づいて、第１の符号化ネットワークを用いて、第３の対象の第２の属性特徴と、目標部位の第２の形状特徴を抽出するための第２の特徴抽出モジュールと、第２の符号化ネットワークを用いて、第４の画像に含まれる第３の対象の第２のアイデンティティ特徴を抽出するための第２のアイデンティティ抽出モジュールと、第２の属性特徴、第２の形状特徴及び第２のアイデンティティ特徴に基づいて、生成ネットワークを用いて、第２の属性特徴及び第２の形状特徴を有する第３の対象を含む第２の遷移画像を生成するための第２の画像生成モジュールと、第２の遷移画像と第３の画像との差異に基づいて、画像遷移モデルを訓練するためのモデル訓練モジュールと、を含む、画像遷移モデルの訓練装置を提供する。

本開示の他の態様は、少なくとも１つのプロセッサと、少なくとも１つのプロセッサと通信接続されるメモリとを備える電子機器であって、メモリには、少なくとも１つのプロセッサによって実行され得る命令が記憶されており、命令が少なくとも１つのプロセッサによって実行されることで、少なくとも１つのプロセッサが本開示に提供された画像遷移方法及び／又は画像遷移モデルの訓練方法を実行することができる、電子機器を提供する。

本開示の他の態様は、コンピュータに本開示に提供された画像遷移方法及び／又は画像遷移モデルの訓練方法を実行させるためのコンピュータ命令を記憶している、非一時的なコンピュータ可読記憶媒体を提供する。

本開示の他の態様は、プロセッサにより実行される場合に、本開示に提供された画像遷移方法及び／又は画像遷移モデルの訓練方法を実現するコンピュータプログラムを提供する。

本部分に記載された内容は、本開示の実施例のキーポイントまたは重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもないと理解されるべきである。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本開示の発明をよく理解するために用いられ、本開示を限定するものではない。
本開示の実施例に係る画像遷移方法及び画像遷移モデルの訓練方法、装置の適用シーンの概略図である。本開示の実施例に係る画像遷移方法のフローチャート概略図である。本開示の実施例に係る属性特徴及び形状特徴を抽出する原理概略図である。本開示の実施例に係る第１の画像を取得する原理概略図である。本開示の実施例に係る画像遷移方法の原理概略図である。本開示の実施例に係る画像遷移モデルの訓練方法のフローチャート概略図である。本開示の実施例に係る画像遷移モデルの訓練方法の原理概略図である。本開示の実施例に係る画像遷移装置の構造ブロック図である。本開示の実施例に係る画像遷移モデルの訓練装置の構造ブロック図である。本開示の実施例に係る画像遷移方法及び／又は画像遷移モデルの訓練方法を実施するための電子機器の構成ブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更や補正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

本開示は、特徴抽出段階と、アイデンティティ抽出段階と、画像生成段階とを含む画像遷移方法を提供する。特徴抽出段階においては、第１の対象の目標部位の第１の画像における第１の位置情報と、第１の画像とに基づいて、第１の対象の第１の属性特徴と、目標部位の第１の形状特徴のそれぞれを抽出する。アイデンティティ抽出段階においては、第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出する。画像生成段階においては、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成し、第１の遷移画像は、第１の属性特徴及び第１の形状特徴を有する第２の対象を含む。

以下に図１を参照して本開示の提供される方法及び装置の適用シーンを説明する。

図１は、本開示の実施例に係る画像遷移方法及び画像遷移モデルの訓練方法、装置の適用シーンの図である。

図１に示すように、該実施例の適用シーン１００は電子機器１１０を含むことができ、該電子機器１１０は処理機能を有する任意の電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、デスクトップコンピュータ及びサーバ等を含むが、それらに限定されない。

該電子機器１１０は、例えば、入力された第１の顔の画像１２０及び第２の顔の画像１３０に対して表情遷移を行うことにより、画像１４０を生成することができる。該画像１４０における顔は第１の顔であるが、該第１の顔は第２の顔の表情及び姿勢を有する。例えば、第１の顔の画像１２０からアイデンティティ特徴を抽出し、第２の顔の画像１３０から属性特徴を抽出し、該アイデンティティ特徴と属性特徴を融合した後、生成ネットワークを経由して画像１４０を生成することができる。ここで、生成ネットワークは、例えば、生成式対抗ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ、ＧＡＮ）における生成ネットワークＧｅｎｅｒａｔｏｒであってもよい。属性特徴は、例えば、表情特徴や姿勢特徴等を含んでもよい。

一実施例においては、画像遷移モデルを用いて第２の顔の表情及び姿勢を第１の顔に遷移することによって、画像１４０を生成することができる。

本開示の実施例によれば、図１に示すように、該適用シーン１００はさらにサーバ１５０を含むことができる。電子機器１１０はネットワークを介してサーバ１５０と通信接続されてもよく、該ネットワークは無線又は有線通信リンクを含むことができる。

例示的には、電子機器１１０は顔の表情及び姿勢を遷移するように、サーバ１５０は画像遷移モデルを訓練し、電子機器１１０から送信されたモデル取得要求に応答し、訓練して得られた画像遷移モデル１６０を電子機器１１０に送信する。一実施例において、電子機器１１０は、ネットワークを介して第１の顔の画像１２０及び第２の顔の画像１３０をサーバ１５０に送信し、サーバ１５０により訓練して得られた画像遷移モデルに基づいて画像１４０を生成してもよい。

本開示の実施例によれば、図１に示すように、該適用シーン１００はさらにデータベース１７０を含むことができ、該データベース１７０は大量の画像又はビデオをメンテナンスすることができる。サーバ１５０は該データベース１７０にアクセスし、データベース１７０から同じ顔を有する一部の画像を抽出してサンプル画像とし、画像遷移モデルを訓練することができる。

なお、本開示に係る画像遷移方法は、電子機器１１０又はサーバ１５０により実行されることができる。それに応じて、本開示が提供される画像移動装置は、電子機器１１０又はサーバ１５０に設置されることができる。本開示が提供される画像遷移モデルの訓練方法は、サーバ１５０により実行されることができる。それに応じて、本開示が提供される画像遷移モデルの訓練装置は、サーバ１５０に設置されることができる。

図１における電子機器、サーバ、データベースの数やタイプはただ模式的であると理解すべきである。実現の必要に応じて、任意の数やタイプの端末装置、サーバ及びデータベースを有することができる。

以下に図１を参照し、図２～図５により本開示が提供される画像遷移方法を詳細に説明する。

図２は本開示の実施例に係る画像遷移方法のフローチャート概略図である。

図２に示すように、該実施例の画像遷移方法２００は、操作Ｓ２１０～操作Ｓ２３０を含むことができる。

操作Ｓ２１０において、第１の対象の目標部位の第１の画像における第１の位置情報及び第１の画像に基づいて、第１の対象の第１の属性特徴と目標部位の第１の形状特徴のそれぞれを抽出する。

本開示の実施例によれば、第１の対象は例えば顔であってもよく、又は建物等であってもよい。第１の画像は第１の対象を撮像して得られた画像であってもよく、又は撮像された画像を処理した後の画像であってもよく、又はビデオに第１の対象を含むビデオフレームであってもよい。該第１の画像はリアルタイムに撮像して得られたものであってもよく、予め撮像して得られたものであってもよい。

該実施例は、まず、第１の画像に対してキーポイントを検出し、第１の対象を表す複数のキーポイントを取得することができる。そして、該複数のキーポイントから目標部位を表すキーポイントを選別する。その後、該目標部位を表すキーポイントを接続して囲まれた領域に対して、ある程度の拡大を行い、拡大された領域を取得する。該拡大された領域の第１画像における位置を目標部位の第１位置情報とする。

該実施例は、まず、第１の画像に対して目標検出を行い、第１の対象の目標部位を囲む検出枠の第１の画像における位置情報を検出し、該位置情報を第１の位置情報とすることができる。ここで、検出枠の位置情報は、検出枠の中心点の第１の画像に基づいて構築された座標系における座標値と、該検出枠の高さ及び幅とを含むことができる。

本開示の実施例によれば、第１の属性特徴は、例えば、第１の対象の姿勢、表情、視線、皮膚状態などの特徴を表すために用いられる。第１の対象が顔である場合、目標部位は、例えば、口であってもよく、口の形状特徴を単独に抽出することにより、第１の対象の状態をよりよく表現することができ、より写実的な遷移画像を生成することに役立つ。理解されるように、該目標部位は、第１の対象における対象状態の変化に伴って形状変化が最も顕著な部位であってもよい。

一実施例においては、第１の符号化ネットワークを用いて第１の画像から第１の属性特徴を抽出することができる。ここで、第１の符号化ネットワークは、例えば、予め訓練して取得することができる。該第１の符号化ネットワークは、軽量レベルのネットワークであってもよく、例えばＭｏｂｉｌｅＮｅｔシリーズネットワーク、ＳｈｕｆｆｌｅＮｅｔネットワーク又はＳｑｕｅｅｚｅＮｅｔ等である。ここで、ＭｏｂｉｌｅＮｅｔネットワークは、深さ方向に分離可能な畳み込み（ＤｅｐｔｈｗｉｓｅＳｅｐａｒａｂｌｅＣｏｎｖｏｌｕｔｉｏｎ）を用いて構築された軽量レベルのディープニューラルネットワークである。例えば、該第１の符号化ネットワークは、畳み込み層及びプーリング層を含むことができる。

一実施例においては、ローカルバイナリパターンと局所スパース表現を融合する表情識別アルゴリズムを用いて第１の属性特徴を抽出してもよい。キーポイント検出アルゴリズムによって検出された第１の対象に含まれる各部位の比率関係等を第１の属性特徴として採用してもよい。

一実施例において、該実施例は、第１の対象の表情特徴と姿勢特徴のそれぞれを抽出し、該表情特徴及び姿勢特徴をスティッチング（stitching）した後に第１の属性特徴としてもよい。第１の画像を第１の符号化ネットワークに入力し、第１の符号化ネットワークにより表情と姿勢特徴を同時に抽出することにより、第１の属性特徴を出力してもよい。

一実施例においては、第１の符号化ネットワークと類似する符号化ネットワークを用いて、第１の位置情報で囲まれた領域から第１の形状特徴を抽出してもよい。又は、境界特徴法、幾何学的パラメータ法等を用いて第１の形状特徴を抽出してもよい。ここで、第１の形状特徴を抽出する符号化ネットワークは、例えば、残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、ＲｅｓＮｅｔ）、特徴ピラミッドネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ、ＦＰＮ）又はＵ－Ｎｅｔなどの非軽量レベルのネットワークを用いてもよく、これは、形状特徴の精度に対する要求が一般的により高いため、これにより写実的な遷移画像を生成しやすい。該第１の形状特徴を抽出する符号化ネットワークは、畳み込み層及びプーリング層を含むことができ、かつスキップ層接続構造を有する。

操作Ｓ２２０においては、第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出する。

本開示の実施例によれば、第２の画像に含まれる第２の対象は、前述の第１の対象と同じタイプの対象であってもよい。例えば、第１の対象及び第２の対象はいずれも顔であってもよく、又は第１の対象及び第２の対象はいずれも建物等であってもよい。該第１の対象と第２の対象は同じ対象であってもよく、異なる対象であってもよく、本開示は単語を限定しない。

本開示の実施例によれば、例えば、第２の符号化ネットワークを用いて第２の画像から第１のアイデンティティ特徴を抽出してもよい。該第２の符号化ネットワークは、例えば、残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ、ＲｅｓＮｅｔ）、特徴ピラミッドネットワーク（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋ、ＦＰＮ）又はＵ－Ｎｅｔなどのネットワークを用いてもよい。該第２の符号化ネットワークは、畳み込み層及びプーリング層を含んでもよく、かつスキップ層接続構造を有し、それにより属性特徴よりも複雑なアイデンティティ特徴を抽出するために用いられる。

操作Ｓ２３０においては、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成する。

本開示の実施例によれば、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴をスティッチングした後に生成ネットワークＧｅｎｅｒａｔｏｒに入力し、該生成ネットワークＧｅｎｅｒａｔｏｒにより、スティッチングした後の特徴に基づいて第１の遷移画像を生成してもよい。この生成された第１遷移画像には、第１属性特徴と第１形状特徴とを有する第２対象が含まれる。

本開示の実施例は、第１の画像から対象の属性特徴及び目標部位の形状特徴を抽出し、第２の画像から対象のアイデンティティ特徴を抽出し、かつアイデンティティ特徴、属性特徴及び形状特徴に基づいて遷移画像を生成することにより、関連技術に比べて、対象の三次元再構成を行う必要がないため、ある程度で画像遷移の計算量及び複雑度を低減することができる。さらに、目標部位の形状特徴を単独で抽出することにより、抽出された対象状態を表現する特徴をより豊かにすることができ、得られた遷移画像の精度及び真実性を向上させ、かつユーザー体験を向上させることができる。

本開示の実施例によれば、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴に基づいて第１の遷移画像を生成する場合、融合特徴を取得するように、第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴に対してスティッチング以外の他の融合を行うことができる。その後、該融合特徴を生成ネットワークに入力し、生成ネットワークにより第１の遷移画像を出力する。ここで、例えば、融合特徴を取得するように、ａｄｄ操作により第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴を融合してもよく、まず第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴をスティッチングした後、畳み込み層を経由して畳み込み演算を行ってもよい。理解できるように、上記第１の属性特徴、第１の形状特徴及び第１のアイデンティティ特徴を融合する方法は単に例示として本開示を理解することに役立ち、本開示はこれを限定しない。特徴の融合により、生成ネットワークがより写実的な遷移画像を生成しやすくさせることができる。

図３は本開示の実施例に係る属性特徴及び形状特徴を抽出する原理概略図である。

本開示の実施例によれば、前述の抽出された第１の属性特徴は、例えば、姿勢特徴及び表情特徴を表現することができる。一実施例においては、姿勢特徴及び表情特徴を単独で抽出することができ、それにより抽出された対象状態を表現する特徴はより正確である。

本開示の実施例によれば、目標部位の位置する領域を除く他の領域の画像に基づいて表情特徴を抽出することができる。これは、目標部位が一般的にある程度で表情に対する正確な識別に影響を与え、該実施例の方法により、表情特徴の抽出精度を向上させることができるからである。

具体的には、図３に示すように、該実施例３００においては、第１の対象が顔で、目標部位が口であることを例として、第１の属性特徴及び第１の形状特徴を抽出する場合、まず目標部位の第１の画像３０１における第１の位置情報に基づいて、第１の画像３０１において目標部位に対する目標領域の画像を決定し、目標画像３０２としてもよい。例えば、第１の位置情報に基づいて、目標部位を囲む検出枠が第１の画像３０１に囲む領域を確定してもよい。その後、該囲む領域を、中心点を不変に保持し、所定の寸法に拡大し、拡大された検出枠を取得してもよい。この拡大された検出枠が第１の画像３０１に囲む領域を目標領域とする。

該目標画像を取得すると同時に、例えば、第１の画像に基づいて第１の姿勢特徴を抽出してもよい。具体的には、前述の第１の符号化ネットワークは、３つの符号化サブネットワークを含むことができる。該実施例は、３つの符号化サブネットワークにおける第１の符号化サブネットワーク３１０を用いて、第１の画像３０１から第１の姿勢特徴３０３を抽出してもよい。例えば、第１の画像３０１を第１の符号化サブネットワーク３１０に入力することにより、第１の姿勢特徴を取得することができる。ここで、第１の符号化サブネットワーク３１０は、例えば、前述の軽量レベルのネットワークであってもよい。

目標画像３０２を取得した後、目標領域の画像に基づいて、第１の形状特徴を抽出することができる。同時に、第１の画像中の目標領域を除く他の領域の画像に基づいて、第１の表情特徴を抽出する。具体的には、該目標画像に基づいて、３つの符号化サブネットワークにおける第２の符号化サブネットワークを用いて第１の形状特徴を抽出することができる。第１の画像中の目標領域を除く他の領域の画像に基づいて、前記第１の表情特徴を抽出する。ここで、第２の符号化サブネットワークは、前述のＲｅｓＮｅｔネットワーク等であってもよい。第３の符号化サブネットワークは、第１の符号化サブネットワークの構造と類似し、訓練時に使用されるサンプルデータが異なる点が区別である。

一実施例においては、目標画像３０２を取得した後、目標領域に対するマスクを用いて第１の画像３０１を処理することにより、画像３０４を取得することができる。該画像３０４において、目標領域を除く他の領域における各画素の画素値はいずれも０であり、目標領域における画素は第１の画像３０１における画素値を保留する。同時に、他の領域に対するマスクを用いて第１の画像３０１を処理することにより、画像３０５を取得することができる。該画像３０５において、目標領域における各画素の画素値はいずれも０であり、他の領域における画素は第１の画像３０１における画素値を保留する。その後、画像３０４を第２の符号化サブネットワーク３２０の入力とし、第２の符号化サブネットワーク３２０により第１の形状特徴３０６を抽出し取得することができる。画像３０５を第３の符号化サブネットワーク３３０の入力とし、第３の符号化サブネットワーク３３０により第１の表情特徴３０７を抽出し取得する。

画像３０５及び画像３０４を生成する方式で特徴を抽出することにより、各符号化サブネットワークの入力画像のサイズが同じであることを保証することができ、それにより各符号化サブネットワークの設計が同じになりやすく、ネットワークの構築コストを低減する。

図４は本開示の実施例に係る第１の画像を取得する原理概略図である。

本開示の実施例によれば、前述の第１の画像は、例えば、第１の対象の位置に基づいて裁断された画像であってもよく、これにより画像中の第１の対象を除く他の対象が第１の属性特徴の抽出への干渉を回避しやすく、同時に属性特徴の抽出の計算量を減少させることができる。

例えば、リアルタイムに収集するか又は予め収集された画像を対象属性のテンプレート画像とすることができる。テンプレート画像を取得した後、該実施例は、まず第１の対象を含むテンプレート画像を検出し、第１の対象のテンプレート画像における第２の位置情報を取得することができる。その後、該第２の位置情報に基づいてテンプレート画像を裁断し、第１の画像を取得する。

例えば、テンプレート画像に対して目標検出を行い、第１の対象を囲む検出枠のテンプレート画像における位置情報を検出し取得することができる。ここで、該検出された位置情報は、例えば、検出枠の中心点がテンプレート画像に基づいて構築された座標系における座標値、及び検出枠の高さ及び幅を含むことができる。該位置情報を取得した後、検出枠の中心点を中心点として、所定の高さ及び所定の幅に基づいて該テンプレート画像を裁断することができる。ここで、所定の高さは検出枠の高さよりも大きく、所定の幅は検出枠の幅よりも大きいべきである。例えば、裁断して得られた画像のサイズは、例えば、２５６画素×２５６画素であってもよい。この実施例では、裁断して得られた画像を第１画像とすることができる。

一実施例においては、テンプレート画像を裁断した後に、例えば、裁断して得られた画像の背景画像を除去してもよく、これにより、該背景画像の第１の属性特徴及び第１の形状特徴の抽出への干渉を低減することができ、それにより、抽出された第１の属性特徴及び第１の形状特徴の精度をさらに向上させ、属性特徴及び形状特徴を抽出する計算量を減少させ、より写実的な遷移画像を生成することに役立つ。

図４に示すように、該実施例４００においては、第１の画像を取得する場合、まず、取得されたテンプレート画像４０１に対して目標検出を行うことができる。例えば、テンプレート画像４０１を目標検出モデル４１０に入力し、目標検出モデル４１０を経由して第２の位置情報４０２を取得し、かつ該第２の位置情報に基づいてテンプレート画像４０１を裁断し、該裁断して得られた画像４０３を中間画像とすることができる。ここで、目標検出モデルは、例えば、ＦａｓｔｅｒＲ－ＣＮＮモデル、シングルショットマルチボックス検出（ＳｉｎｇｌｅＳｈｏｔＭｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ、ＳＳＤ）モデル及びシングルチェック（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ、ＹＯＬＯ）検出モデルなどの様々なモデルのうちのいずれか１つを含んでもよく、本開示はこれを限定しない。

中間画像４０３を取得した後、該実施例は、さらに該中間画像に分割処理を行うことにより、中間画像における目標対象の第３の位置情報を取得してもよい。ここで、該目標対象は、前述の第１の対象を含む。例えば、第１の対象が顔であれば、目標対象は人体であってもよい。

例えば、図４に示すように、該中間画像４０３を画像分割モデル４２０の入力とし、該画像分割モデル４２０を経由して処理して第３の位置情報４０４を取得することができる。ここで、該第３の位置情報４０４は、目標対象の境界線の中間画像４０３における位置を含むべきである。画像分割モデルは、例えば、全畳み込みネットワーク（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｔｗｏｒｋｓ，ＦＣＮ）モデル、ディープマスク（ＤｅｅｐＭａｓｋ）モデル、Ｓｎａｋｅモデル又はＢｏｄｙＰｉｘモデル等を含んでもよく、本開示はこれを限定しない。

第３の位置情報を取得すると、該第３の位置情報４０４に基づいて、目標対象に対するマスク画像４０５を生成することができる。具体的には、中間画像４０３における第３の位置情報４０４で囲まれた領域を除く他の領域の画素値をいずれも０に調整し、第３の位置情報４０４で囲まれた領域内の画素値を２５５に設定することによって、マスク画像４０５を取得することができる。

マスク画像４０５を取得した後、該マスク画像４０５に基づいて中間画像４０３の背景画像を除去することによって第１の画像を取得することができる。具体的には、該中間画像４０３とマスク画像４０５を画素レベルの内積演算を行い、内積演算して得られた画像における各画素点の画素値を２５５で割り、それにより第１の画像４０６を取得することができる。

図４に示すように、上記処理により得られた第１の画像４０６は、前景画像である目標対象の画像のみを含み、該目標対象の背景はいずれも黒色背景であり、背景の除去を実現することができる。したがって、背景の属性特徴及び形状特徴の抽出への影響を回避することができる。

本開示の実施例によれば、第１の画像が背景を除去した画像である場合、前述の第１の符号化サブネットワークに入力された画像は、第１の画像４０６であり、前述の第３の符号化サブネットワークに入力された画像は、背景における画素と目標領域における画素との画素値がいずれも０である画像である。

本開示の実施例によれば、前述の第２の画像は、例えば、第２の対象の位置に基づいて裁断された画像であってもよく、これにより画像中の第２の対象を除く他の対象の第１のアイデンティティ特徴の抽出への干渉を回避しやすく、同時にアイデンティティ特徴の抽出の計算量を減少させることができる。

例えば、リアルタイムに収集するか又は予め収集された画像を対象アイデンティティのソース画像とすることができる。ソース画像を取得した後、該実施例は、まず、第２の対象を含むソース画像を検出し、第２の対象のソース画像における第４の位置情報を取得することができる。次に、該第４の位置情報に基づいてソース画像を裁断し、第２の画像を取得する。理解できるように、ソース画像を裁断して第２の画像を取得する原理は、前述のテンプレート画像を裁断して第１の画像を取得する原理と類似することができ、該第２の画像のサイズは、例えば、２５６×２５６であってもよく、ここで説明を省略する。

なお、第２の画像を取得する場合、例えば、背景画像を除去する必要がなくてもよく、これは、アイデンティティ特徴を抽出するネットワークが一般的に複雑であり、アイデンティティ特徴をより正確に学習することができ、該学習過程は背景画像の影響が小さい。これにより、ソース画像に対する前処理フローを減少させることができる。

本開示の実施例によれば、第１のアイデンティティ特徴を抽出する場合、例えば、第２の対象を含む複数の画像から抽出されたアイデンティティ特徴を統合することができ、これにより単一画像におけるアイデンティティ特徴が不完全であるか又は不明瞭であることによる抽出されたアイデンティティ特徴が正確ではないという問題を回避することができる。このようにして、得られた第１のアイデンティティ特徴の精度を向上させ、取得された遷移画像をより写実的にさせることができる。

例えば、ビデオから第２の対象を含む複数のフレームビデオを抽出し、該複数のフレームビデオに基づいて第２の画像に含まれる複数の画像を取得することができる。例えば、複数のフレームビデオにおける各フレームビデオに対していずれも前述の裁断操作を実行することにより、第２の対象を含む、大きさが２５６×２５６である複数の画像を取得することができる。ここで、該複数の画像の数は、例えば３、５、８などの任意の１より大きい整数であってもよく、具体的には実際の必要に応じて該数を設定することができ、本開示はこれを限定しない。

該実施例は、複数の画像における各画像に含まれる第２の対象のアイデンティティ特徴をそれぞれ抽出することによって、複数の初期アイデンティティ特徴を取得することができる。例えば、ｍ個の画像のそれぞれに対応して、いずれも前述の第２の符号化ネットワークにより１つのアイデンティティ特徴を取得し、１つの初期アイデンティティ特徴とし、これによりｍ個の初期アイデンティティ特徴を取得することができる。次に、該複数の初期アイデンティティ特徴の平均値特徴を計算すること、すなわちｍ個の初期アイデンティティ特徴を積算した後にｍで割ることによって、該特徴平均値を取得することができる。最後に、該複数の初期アイデンティティ特徴の平均値特徴を第２の対象の第１のアイデンティティ特徴として確定する。

図５は本開示の実施例に係る画像遷移方法の原理概略図である。

本開示の実施例によれば、第１の属性特徴及び第１の形状特徴を抽出する場合、例えば、まず第１の画像に対してデータ強化処理を行い、強化後画像を取得することができる。その後、該強化後画像及び第１の位置情報に基づいて、それぞれ第１の属性特徴及び第１の形状特徴を抽出する。該方式により、第１の画像における第１の対象のアイデンティティ特徴を弱め、さらに除去することができ、このように第１の属性特徴及び第１の形状特徴の抽出精度を向上させ、得られた遷移画像の精度及び真実性を向上させることができ、それによってユーザー体験を向上させることができる。

例えば、データ強化処理は、例えば画像に対する伸縮処理、平行移動処理及び／又は画素レベルの強化などを含むことができる。ここで、画素レベルの強化は、例えば、画素のコントラスト、輝度、ぼけの程度を調整するか又は画素にモザイク処理を行うことを含むことができる。ここで、モザイク処理は、画素の階調の詳細を劣化させ、色ブロックの乱れを起こす効果がある。

該実施例は、データ強化ツールを設置することができ、第１の画像を該データ強化ツールに入力した後、データ強化ツールは、前述の様々なデータ強化処理方式のうちの１つ又は複数の方式をランダムに採用し、第１の画像に対するデータ強化処理を実現し、強化後画像を出力することができる。

本開示の実施例によれば、属性特徴を抽出する場合、例えば、まず第１の画像に対して正規化処理を行うことができ、それにより属性特徴及び形状特徴を抽出する時の計算量を低減し、画像遷移の効率を向上させる。正規化処理を行った後、例えば第１の正規化画像を取得し、次に第１の正規化画像及び第１の位置情報に基づいて第１の属性特徴及び第１の形状特徴を抽出することができる。

例えば、第１の画像に対して行う正規化処理は、第１の画像における各画素の画素値を２５５で割ることにより、得られた各画素の画素値が値の区間［０、１］に属し、それにより第１の正規化画像を取得することであってもよい。

同様に、第１のアイデンティティ特徴を抽出する場合、例えば、第２の画像に対して正規化処理を行うことにより、アイデンティティ特徴を抽出する時の計算量を低減し、画像遷移の効率を向上させる。正規化処理を行った後、例えば第２の正規化画像を取得し、次に符号化ネットワークを用いて該第２の正規化画像を符号化し、第１のアイデンティティ特徴を取得することができる。具体的には、第２の正規化画像を第２の符号化ネットワークに入力し、第２の符号化ネットワークを経由して処理した後に第１のアイデンティティ特徴を出力することができる。該第２の画像に対する正規化処理の方法は、前述の第１の画像に対して正規化処理を行う方法と類似することができ、ここでは説明を省略する。

一実施例において、第１の属性特徴及び第１の形状特徴を抽出する場合、まず第１の画像に対してデータ強化処理を行い、その後に強化後の画像に対して正規化処理を行うことができる。

例えば、図５に示すように、該実施例５００の画像遷移方法において、第１の画像は、前述の中間画像の背景画像を除去した後に得られた画像を用いることができる。第１の符号化ネットワークは、例えば、姿勢符号化ネットワーク（ＰｏｓｅＥｎｃｏｄｅｒ）５１１（前述の第１の符号化サブネットワーク）と、内容符号化ネットワーク（ＣｏｎｔｅｎｔＥｎｃｏｄｅｒ）５１２（前述の第２の符号化サブネットワーク）と、表情符号化ネットワーク（ＥｍｏｔｉｏｎＥｎｃｏｄｅｒ）５１３（前述の第１の符号化サブネットワーク）とを含んでもよい。第２の符号化ネットワークは、例えば、アイデンティティ符号化ネットワーク（ＩＤＥｎｃｏｄｅｒ）５２０であってもよく、該アイデンティティ符号化ネットワーク５２０は、前述のＲｅｓＮｅｔネットワークを用いることができる。姿勢符号化ネットワークは第１の姿勢特徴を抽出するために用いられ、内容符号化ネットワークは第１の形状特徴を抽出するために用いられ、該第１の形状特徴は、ある程度で発話内容を表現することができ、表情符号化ネットワークは第１の表情特徴を抽出するために用いられる。

該実施例５００においては、まず第１の画像５０１に対して前述のデータ強化処理及び正規化処理などの前処理を行い、次に前処理により得られた画像を姿勢符号化ネットワーク５１１に入力し、姿勢符号化ネットワーク５１１を経由して処理した後に第１の姿勢特徴５０３を出力することができる。同時に、前処理により取得された画像に基づいて、前述の目標領域に基づく処理を行い、画像５０１’及び画像５０１’’を取得することができる。その後に、画像５０１’を内容符号化ネットワーク５１２に入力し、内容符号化ネットワーク５１２を経由して処理した後に第１の形状特徴５０４を出力する。画像５０１’’を表情符号化ネットワーク５１３に入力し、表情符号化ネットワーク５１３を経由して処理した後に第１の表情特徴５０５を出力する。同時に、第２の画像５０２に対して正規化処理などの前処理を行うことができ、前処理により得られた画像をアイデンティティ符号化ネットワーク５２０に入力し、アイデンティティ符号化ネットワーク５２０を経由して処理した後に第１のアイデンティティ特徴５０６を出力する。

第１のアイデンティティ特徴５０６、第１の姿勢特徴５０３、第１の形状特徴５０４及び第１の表情特徴５０５を取得した後、該４つの特徴をｃｏｎｃａｔ（）関数を経由してスティッチングして、スティッチング特徴５０７を取得することができる。次に、該スティッチング特徴５０７を多層パーセプトロン（ＭｕｌｔｉｌａｙｅｒＰｅｒｃｅｐｔｒｏｎ、ＭＬＰ）５３０に入力することにより、第１のアイデンティティ特徴５０６、第１の姿勢特徴５０３、第１の形状特徴５０４及び第１の表情特徴５０５に対する融合を実現する。その後に、該多層パーセプトロン５３０の出力を生成ネットワークＧｅｎｅｒａｔｏｒ５４０の入力とし、該Ｇｅｎｅｒａｔｏｒ５４０から遷移画像５０８を出力し、該遷移画像５０８における対象は第２の画像５０２における第２の対象であるが、該第２の対象は第１の画像５０１における第１の対象の表情、姿勢及び口の形状を有する。

一実施例において、抽出された第１の姿勢特徴は、例えば、１２次元のベクトルであってもよく、抽出された第１の形状特徴は５１２次元のベクトルであってもよく、抽出された第１の表情特徴は２５６次元のベクトルであってもよく、抽出された第１のアイデンティティ特徴は５１２次元のベクトルであってもよく、スティッチング特徴５０７は１２９２次元のベクトルである。ここで、該多層パーセプトロン５３０から出力された特徴は、例えば同様に１２９２次元のベクトルである。生成された遷移画像５０８のサイズは、例えば第１の画像及び第２の画像のサイズといずれも等しくてもよく、例えばサイズが２５６×２５６の画像であってもよい。

本開示に提供された画像遷移方法に基づいて、本開示は、さらに画像遷移モデルの訓練方法を提供し、以下に、図６～図７を参照して該訓練方法を詳細に説明する。

図６は開示の実施例に係る画像遷移モデルの訓練方法のフローチャート概略図である。

本開示の実施例によれば、図６に示すように、該実施例の画像遷移モデルの訓練方法６００は、操作Ｓ６１０～操作Ｓ６４０を含んでもよく、ここで、画像遷移モデルは、第１の符号化ネットワーク、第２の符号化ネットワーク及び生成ネットワークを含んでもよい。

操作Ｓ６１０においては、第３の対象の目標部位の第３の画像における第５の位置情報及び第３の画像に基づいて、第１の符号化ネットワークを用いて第３の対象の第２の属性特徴及び目標部位の第２の形状特徴を抽出する。理解できるように、該操作Ｓ６１０の実現方式は、前述の第１の属性特徴及び第１の形状特徴を取得する実現方式と類似し、ここでは説明を省略する。

操作Ｓ６２０においては、第２の符号化ネットワークを用いて第４の画像に含まれる第３の対象の第２のアイデンティティ特徴を抽出する。ここで、第２の符号化ネットワークは前述の第２の符号化ネットワークと類似し、該操作Ｓ６２０の実現方式は前述の第２の符号化ネットワークを用いて第１のアイデンティティ特徴を取得する実現方式と類似し、ここで説明を省略する。なお、第３の画像及び第４の画像にはいずれも顔が含まれる場合、第３の画像における顔と第４の画像における顔は同じ人の顔である。

操作Ｓ６３０においては、第２の属性特徴、第２の形状特徴及び第２のアイデンティティ特徴に基づいて、生成ネットワークを用いて第２の遷移画像を生成する。この第２の遷移画像は、第２の属性特徴と第２の形状特徴とを有する第３の対象を含む。該操作Ｓ６３０の実現方式は、前述の第１の遷移画像を取得する実現方式と類似し、ここでは説明を省略する。

操作Ｓ６４０においては、第２の遷移画像と第３の画像との差異に基づいて、画像遷移モデルを訓練する。

本開示の実施例によれば、第３の画像が背景を除去した画像である場合、該第２の遷移画像に背景があるため、まず第３の画像に基づいて得られた第３の対象に対するマスク画像を用いて、第３の遷移画像における背景画像を除去することができる。次に、背景を除去した第２の遷移画像と第３の画像との差異に基づいて、画像遷移モデルを訓練する。

例えば、画像の間の差異は、例えば、２つの画像を画素ごとに比較することにより取得することができる。例えば、第２の遷移画像と第３の画像との間のＬ１損失、Ｌ２損失又は平滑化Ｌ１損失などを用いて差異を表すことができる。その後、逆方向伝播アルゴリズムを用いて画像遷移モデルを訓練する。

本開示の実施例によれば、該第２の属性特徴は、例えば第１の属性特徴と類似し、第２の姿勢特徴及び第２の表情特徴を含むことができる。第１の符号化ネットワークは第１の符号化サブネットワーク、第２の符号化サブネットワーク及び第３の符号化サブネットワークを含むことができる。第２の属性特徴及び第２の形状特徴を抽出する上記操作は、まず第５の位置情報に基づいて、第３の画像における目標部位に対する目標領域の画像を決定することができる。次に第３の画像に基づいて、第１の符号化サブネットワークを用いて第２の姿勢特徴を抽出し、目標領域の画像に基づいて、第２の符号化サブネットワークを用いて第２の形状特徴を抽出し、かつ第３の画像中の目標領域を除く他の領域の画像に基づいて、第３の符号化サブネットワークを用いて第２の表情特徴を抽出する。

図７は本開示の実施例に係る画像遷移モデルの訓練方法の原理概略図である。

本開示の実施例によれば、画像遷移モデルを訓練する場合、例えば、前述の画素ごとに比較して得られた損失に加えて、生成ネットワークによる画像生成の損失も考えられる。同時に、生成ネットワークに対応して判別ネットワークを設置することができ、このようにして、生成ネットワーク及び判別ネットワークにより生成式対抗ネットワークを構成し、かつ生成式対抗損失を計算することにより生成ネットワークを訓練する。該方式により、訓練により取得された画像遷移モデルにおける生成ネットワークの精度を向上させ、生成ネットワークにより生成された遷移画像をより写実的にさせることができる。

図７に示すように、該実施例７００は、画像遷移モデルを訓練する時に、前述と類似に、第３の画像７０１に対してデータ強化処理を行い、その後に正規化処理を行い、正規化処理により得られた画像を第１の符号化サブネットワーク７１１に入力し、第２の姿勢特徴７０３を取得することができる。同時に、データ強化処理後の画像又は正規化処理後の画像に基づいて画像７０１’及び画像７０１’’を生成する。画像７０１’は第２の符号化サブネットワーク７１２を経由して処理されて第２の形状特徴７０４を取得する。画像７０１’’は第３の符号化サブネットワーク７１３を経由して処理されて第２の表情特徴７０５を取得する。同時に、第４の画像７０２に正規化処理を行い、正規化処理により得られた画像を第２の符号化ネットワーク７２０に入力し、第２のアイデンティティ特徴７０６を取得することができる。次に該第２の姿勢特徴７０３、第２の形状特徴７０４、第２の表情特徴７０５及び第２のアイデンティティ特徴７０６をスティッチングして得られたスティッチング特徴７０７を多層パーセプトロン７３０に入力し、多層パーセプトロン７３０の出力を生成ネットワーク７４０の入力とし、生成ネットワーク７４０を経由して第２の遷移画像７０８を出力する。なお、第３の画像が背景を除去した画像である場合、生成ネットワーク７４０から出力された画像に対して背景を除去した後、第２の遷移画像７０８を取得することもできる。

その後、第２の遷移画像７０８と第３の画像７０１との間の画素レベルの差異に基づいて、画像遷移モデルの第１の損失７０９を確定することができる。この第１損失は、前述したＬ１損失等を採用することができる。同時に、第２の遷移画像７０８及び第３の画像７０１をそれぞれ判別ネットワーク７５０に入力し、該判別ネットワーク７５０により第２の遷移画像を実画像とする第１の真値確率と、第３の画像を実画像とする第２の真値確率とを出力することができる。さらに、第２の遷移画像、第３の画像、第１の真値確率及び第２の真値確率に基づいて、生成対抗損失７０９’を確定する。

第１の損失７０９と生成対抗損失７０９’を取得した後、例えば、まず第１の損失７０９と生成対抗損失７０９’における生成ネットワーク部分の損失に基づき、画像遷移モデルを訓練する。その後に、生成対抗損失７０９’における判別ネットワーク部分の損失に基づき、判別ネットワークを訓練し、それにより一回の反復訓練（iterative training）を完了する。

一実施例において、図７に示すように、前述の第１の損失７０９と生成対抗損失７０９’に加えて、例えば第３の画像７０１と第２の遷移画像７０８に対して特徴レベルの比較を行い、比較結果に基づいて第２の損失７０９’’を生成することができる。

例えば、第３の画像７０１及び第２の遷移画像６０６をそれぞれ特徴抽出ネットワーク７６０に入力することができ、該特徴抽出ネットワーク７６０は例えばＶＧＧネットワーク、ＲｅｓＮｅｔネットワーク等であってもよく、本開示はこれを限定しない。２つの特徴を抽出した後、該２つの特徴の間の差異に基づいて第２の損失７０９’’を計算することができる。該実施例において、第２の損失７０９’’は、例えば、感知損失関数で計算して取得してもよく、又は前述のＬ１損失、Ｌ２損失などを用いてもよい。

第１の損失、生成対抗損失及び第２の損失を取得した後、該第１の損失と、生成対抗損失における生成ネットワーク部分の損失と、第２の損失との加重和を計算することができる。該加重和に基づいて画像遷移モデルを訓練する。その後、生成対抗損失における判別ネットワーク部分の損失に基づいて、判別ネットワークを訓練し、一回の反復訓練を完了する。

複数回の反復訓練を行うことにより、画像遷移モデルの損失を損失閾値に達させることができ、それにより画像遷移モデルに対する訓練を完了する。該実施例は第２の遷移画像と第３の画像の特徴の差異を同時に考慮して画像遷移モデルを訓練することにより、訓練して得られた画像遷移モデルの精度をさらに向上させることができる。これにより、訓練して得られた画像遷移モデルに、より写実的な遷移画像を生成させることができる。

本開示の提供する画像遷移方法に基づいて、本開示は、さらに画像遷移装置を提供し、以下に図８を参照して該装置を詳細に説明する。

図８は本開示の実施例に係る画像遷移装置の構造ブロック図である。

図８に示すように、該実施例の画像遷移装置８００は、例えば、第１の特徴抽出モジュール８１０と、第１のアイデンティティ抽出モジュール８２０と、第１の画像生成モジュール８３０とを含んでもよい。

第１の特徴抽出モジュール８１０は、第１の対象の目標部位の第１の画像における第１の位置情報及び前記第１の画像に基づいて、前記第１の対象の第１の属性特徴と前記目標部位の第１の形状特徴のそれぞれを抽出するために用いられる。一実施例において、第１の特徴抽出モジュール８１０は、前述の操作Ｓ２１０を実行するために用いられ、ここで説明を省略する。

第１のアイデンティティ抽出モジュール８２０は、第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出するために用いられる。一実施例において、第１のアイデンティティ抽出モジュール８２０は、前述の操作Ｓ２２０を実行するために用いられ、ここで説明を省略する。

第１の画像生成モジュール８３０は、前記第１の属性特徴、前記第１の形状特徴及び前記第１のアイデンティティ特徴に基づいて第１の遷移画像を生成するために用いられ、前記第１の遷移画像は、前記第１の属性特徴及び前記第１の形状特徴を有する第２の対象を含む。一実施例において、第１の画像生成モジュール８３０は、前述の操作Ｓ２３０を実行するために用いられ、ここで説明を省略する。

本開示の実施例によれば、上記第１の属性特徴は、第１の姿勢特徴及び第１の表情特徴を含む。上記第１の特徴抽出モジュール８１０は、第１の画像確定サブモジュールと、第１の姿勢抽出サブモジュールと、第１の形状抽出サブモジュールと、第１の表情抽出サブモジュールとを含むことができる。第１の画像確定サブモジュールは、前記第１の位置情報に基づいて、前記第１の画像における前記目標部位に対する目標領域の画像を確定するために用いられる。第１の姿勢抽出サブモジュールは、前記第１の画像に基づいて、前記第１の姿勢特徴を抽出するために用いられる。第１の形状抽出サブモジュールは、前記目標領域の画像に基づいて、前記第１の形状特徴を抽出するために用いられる。第１の表情抽出サブモジュールは、前記第１の画像中の前記目標領域を除く他の領域の画像に基づいて、前記第１の表情特徴を抽出するために用いられる。

本開示の実施例によれば、上記画像遷移装置８００は、第１の画像検出モジュールと第１の画像裁断モジュールとをさらに含むことができる。第１の画像検出モジュールは、第１の対象を含むテンプレート画像を検出し、第１の対象のテンプレート画像における第２の位置情報を取得するために用いられる。第１の画像裁断モジュールは、第２の位置情報に基づいてテンプレート画像を裁断し、第１の画像を取得することに用いられる。

本開示の実施例によれば、上記画像裁断モジュールは、裁断サブモジュールと、分割サブモジュールと、マスク生成サブモジュールと、背景除去サブモジュールとを含むことができる。裁断サブモジュールは、第１の位置情報に基づいてテンプレート画像を裁断し、中間画像を取得するために用いられる。分割サブモジュールは、中間画像に対して画像分割処理を行い、中間画像における目標対象の第３の位置情報を取得するために用いられ、目標対象は第１の対象を含む。マスク生成サブモジュールは、第３の位置情報に基づいて、目標対象に対するマスク画像を生成するために用いられる。背景除去サブモジュールは、マスク画像に基づいて中間画像の背景画像を除去し、第１の画像を取得するために用いられる。

本開示の実施例によれば、上記第１の特徴抽出モジュール８１０は、画像強化サブモジュールと特徴抽出サブモジュールとを含むことができる。画像強化サブモジュールは、前記第１の画像に対してデータ強化処理を行い、強化後画像を取得するために用いられる。特徴抽出サブモジュールは、前記第１の位置情報及び前記強化後画像に基づいて、前記第１の属性特徴と前記第１の形状特徴のそれぞれを抽出するために用いられる。

本開示の実施例によれば、上記第１の特徴抽出モジュール８１０は、第１の正規化サブモジュールと特徴抽出サブモジュールとを含むことができる。第１の正規化サブモジュールは、第１の画像に対して正規化処理を行い、第１の正規化画像を取得するために用いられる。特徴抽出サブモジュールは、前記第１の位置情報及び前記第１の正規化画像に基づいて、前記第１の属性特徴と前記第１の形状特徴のそれぞれを抽出するために用いられる。

本開示の実施例によれば、上記画像遷移装置８００は、第２の画像検出モジュールと第２の画像裁断モジュールとをさらに含むことができる。第２の画像検出モジュールは、第２の対象を含むソース画像を検出し、第２の対象のソース画像における第４の位置情報を取得するために用いられる。第２の画像裁断モジュールは、第４の位置情報に基づいてソース画像を裁断し、第２の画像を取得するために用いられる。

本開示の実施例によれば、上記第１のアイデンティティ抽出モジュール８２０は、第２の正規化サブモジュールと、アイデンティティ抽出サブモジュールとを含むことができる。第２の正規化サブモジュールは、第２の画像に対して正規化処理を行い、第２の正規化画像を取得するために用いられる。アイデンティティ抽出サブモジュールは、第２の符号化ネットワークを用いて第２の正規化画像を符号化し、第２の対象の第１のアイデンティティ特徴を取得するために用いられる。

本開示の実施例によれば、上記第２の画像は、複数の画像を含み、上記第１のアイデンティティ抽出モジュール８２０は、複数の画像における各画像に含まれる第２の対象のアイデンティティ特徴をそれぞれ抽出し、複数の初期アイデンティティ特徴を取得するために用いられ、さらに、複数の初期アイデンティティ特徴の平均値特徴を第２の対象の第１のアイデンティティ特徴に確定するために用いられる。

本開示の実施例によれば、上記第１の画像生成モジュール８３０は、特徴融合サブモジュールと画像生成サブモジュールとを含むことができる。特徴融合サブモジュールは、第１の属性特徴と第１のアイデンティティ特徴を融合し、融合特徴を取得するために用いられる。画像生成サブモジュールは、融合特徴を生成ネットワークの入力とし、第１の遷移画像を取得するために用いられる。

本開示の提供する画像遷移モデルの訓練方法に基づいて、本開示は、さらに画像遷移モデルの訓練装置を提供し、以下に図９を参照して該装置を説明する。

図９は本開示の実施例に係る画像遷移モデルの訓練装置の構造ブロック図である。

図９に示すように、該実施例の画像遷移モデルの訓練装置９００は、第２の特徴抽出モジュール９１０と、第２のアイデンティティ抽出モジュール９２０と、第２の画像生成モジュール９３０と、モデル訓練モジュール９４０とを含むことができる。ここで、画像遷移モデルは、第１の符号化ネットワークと、第２の符号化ネットワークと、生成ネットワークとを含む。

第２の特徴抽出モジュール９１０は、第３の対象の目標部位の第３の画像における第５の位置情報及び前記第３の画像に基づいて、前記第１の符号化ネットワークを用いて前記第３の対象の第２の属性特徴及び前記目標部位の第２の形状特徴を抽出するために用いられる。一実施例において、第２の特徴抽出モジュール９１０は、前述の操作Ｓ６１０を実行するために用いられ、ここで説明を省略する。

第２のアイデンティティ抽出モジュール９２０は、第２の符号化ネットワークを用いて第４の画像に含まれる第３の対象の第２のアイデンティティ特徴を抽出するために用いられる。一実施例において、第２のアイデンティティ抽出モジュール９２０は、前述の操作Ｓ６２０を実行するために用いられ、ここで説明を省略する。

第２の画像生成モジュール９３０は、前記第２の属性特徴、前記第２の形状特徴及び前記第２のアイデンティティ特徴に基づいて、前記生成ネットワークを用いて、前記第２の属性特徴及び前記第２の形状特徴を有する第３の対象を含む第２の遷移画像を生成するために用いられる。一実施例において、第２の画像生成モジュール９３０は、前述の操作Ｓ６３０を実行するために用いられ、ここで説明を省略する。

モデル訓練モジュール９４０は、第２の遷移画像と第３の画像との差異に基づいて、画像遷移モデルを訓練するために用いられる。一実施例において、モデル訓練モジュール９４０は、前述の操作Ｓ６４０を実行するために用いられ、ここで説明を省略する。

本開示の実施例によれば、第２の属性特徴は、第２の姿勢特徴と第２の表情特徴を含む。上記第２の特徴抽出モジュール９１０は、第２の画像確定サブモジュールと、第２の姿勢抽出サブモジュールと、第２の形状抽出サブモジュールと、第２の表情抽出サブモジュールとを含むことができる。第２の画像確定サブモジュールは、前記第５の位置情報に基づいて、前記第３の画像における前記目標部位に対する目標領域の画像を確定するために用いられる。第２の姿勢抽出サブモジュールは、前記第３の画像に基づいて、前記第１の符号化サブネットワークを用いて前記第２の姿勢特徴を抽出するために用いられる。第２の形状抽出サブモジュールは、前記目標領域の画像に基づいて、前記第２の符号化サブネットワークを用いて前記第２の形状特徴を抽出するために用いられる。第２の表情抽出サブモジュールは、前記第３の画像中の前記目標領域を除く他の領域の画像に基づいて、前記第３の符号化サブネットワークを用いて前記第２の表情特徴を抽出するために用いられる。

本開示の実施例によれば、上記モデル訓練モジュール９４０は、第１の損失確定サブモジュールと、真値確率確定サブモジュールと、第２の損失確定サブモジュールと、モデル訓練サブモジュールとを含む。第１の損失確定サブモジュールは、第２の遷移画像と第３の画像との間の画素レベルの差異に基づいて、画像遷移モデルの第１の損失を確定するために用いられる。真値確率確定サブモジュールは、第２の遷移画像と第３の画像をそれぞれ判別ネットワークに入力し、第２の遷移画像に対する第１の真値確率と第３の画像に対する第２の真値確率を取得するために用いられる。第２の損失確定サブモジュールは、第２の遷移画像、第３の画像、第１の真値確率及び第２の真値確率に基づいて、画像遷移モデルの生成対抗損失を確定するために用いられる。モデル訓練サブモジュールは、第１の損失と生成対抗損失に基づいて、画像遷移モデルを訓練するために用いられる。

本開示の実施例によれば、上記モデル訓練モジュール９４０は、第２の遷移画像及び第３の画像に基づいて特徴抽出ネットワークを経由して抽出された２つの特徴の差異に基づいて、画像遷移モデルの第２の損失を確定するために用いられる第３の損失確定サブモジュールをさらに含んでもよい。上記モデル訓練サブモジュールは、具体的には、第１の損失、生成対抗損失及び第２の損失に基づいて、画像遷移モデルを訓練するために用いられる。

なお、本開示の技術案において、係るユーザ個人情報の取得、収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、且つ公序良俗に反するものではない。

本開示の実施例によれば、本開示は、電子機器、可読記憶媒体及びコンピュータプログラムをさらに提供する。

図１０には、本開示の実施例に係る画像遷移方法及び／又は画像遷移モデルの訓練方法を実施するために用いられる電子機器１０００の模式的ブロック図を示している。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータ等の、様々な形式のデジタルコンピュータを示すことを目的とする。電子機器は、さらに例えば、個人デジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似の演算装置等の、様々な形式の移動装置を示してもよい。本明細書に示された部品、それらの接続及び関係、及びそれらの機能は、例示に過ぎず、本明細書に記載された及び／または要求された本開示の実現を限定すると意味しない。

図１０に示すように、電子機器１０００は、演算ユニット１００１を含み、演算ユニット１００１は、リードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラムまたは記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。ＲＡＭ１００３には、電子機器１０００の操作に必要な様々なプログラム及びデータをさらに記憶してもよい。演算ユニット１００１と、ＲＯＭ１００２と、ＲＡＭ１００３とは、バス１００４を介して相互に接続される。入出力（Ｉ／Ｏ）インタフェース１００５も、バス１００４に接続される。

電子機器１０００における、例えばキーボード、マウス等の入力ユニット１００６と、例えば様々な種類のディスプレイ、スピーカ等の出力ユニット１００７と、例えば磁気ディスク、光ディスク等の記憶ユニット１００８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット１００９とを含む複数の部品は、Ｉ／Ｏインタフェース１００５に接続される。通信ユニット１００９は、電子機器１０００がインターネット等のコンピュータネットワーク及び／または各種の電気通信ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。

演算ユニット１００１は、処理及び演算能力を有する各種の汎用及び／または専用の処理モジュールであってもよい。演算ユニット１００１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、機械学習モデルアルゴリズムをランニングする各種演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。演算ユニット１００１は、例えば画像遷移方法及び／又は画像遷移モデルの訓練方法のような上記に記載の各方法及び処理を実行する。例えば、いくつかの実施例において、画像遷移方法及び／又は画像遷移モデルの訓練方法は、例えば記憶ユニット１００８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部または全部は、ＲＯＭ１００２及び／又は通信ユニット１００９を介して電子機器１０００にロード及び／またはインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて演算ユニット１００１により実行される場合、上記に記載の画像遷移方法及び／又は画像遷移モデルの訓練方法の１つまたは複数のステップを実行してもよい。代替的に、他の実施例において、演算ユニット１００１は、他の任意の適切な方式（例えば、ファームウェアを介する）により画像遷移方法及び／又は画像遷移モデルの訓練方法を実行するように構成されてもよい。

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラムマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムにおいて実施され、当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラムマブルプロセッサを含むプログラムマブルシステムで実行され及び／または解釈されることが可能であり、当該プログラムマブルプロセッサは、専用または汎用のプログラムマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、且つデータ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサまたはコントローラに提供されてもよく、それによって、プログラムコードがプロセッサまたはコントローラにより実行される時に、フローチャート及び／またはブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるかまたは完全に遠隔機器またはサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置または機器に使用され、または命令実行システム、装置または機器と組み合わせて使用されるプログラムを含んでまたは記憶してもよい。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、または半導体システム、装置または機器、または上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、または上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、且ついかなる形式（音声入力、語音入力、または、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、またはミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェースまたは該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、またはこのようなバックグラウンド部品、ミドルウェア部品、またはフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント？サーバの関係を有するコンピュータプログラムによって生成される。サーバは、クラウドサーバであってもよく、クラウドコンピューティングサーバまたはクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムにおける１つのホスト製品であり、それによって、従来の物理ホストとＶＰＳサービス（“ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ”、または“ＶＰＳ”と略称する）に存在する管理難度が大きく、サービス拡張性が弱いという欠陥を解決している。サーバは、分散型システムのサーバであってもよく、またはブロックチェーンを組み合わせしたサーバであってもよい。

以上に示された様々な形式のフローを使用してもよく、ステップを改めてソーティングしたり、追加したりまたは削除してもよいと理解されるべきである。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、または異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

第１の対象の目標部位の第１の画像における第１の位置情報と、前記第１の画像とに基づいて、前記第１の対象の第１の属性特徴と、前記目標部位の第１の形状特徴のそれぞれを抽出することと、
第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出することと、
前記第１の属性特徴、前記第１の形状特徴及び前記第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成することと、を含み、
前記第１の遷移画像は、前記第１の属性特徴及び前記第１の形状特徴を有する第２の対象を含む、
画像遷移方法。
前記第１の属性特徴は、第１の姿勢特徴と、第１の表情特徴とを含み、
第１の対象の目標部位の第１の画像における第１の位置情報と、前記第１の画像とに基づいて、前記第１の対象の第１の属性特徴と、前記目標部位の第１の形状特徴のそれぞれを抽出することは、
前記第１の位置情報に基づいて、前記第１の画像における前記目標部位に対する目標領域の画像を確定することと、
前記第１の画像に基づいて、前記第１の姿勢特徴を抽出することと、
前記目標領域の画像に基づいて、前記第１の形状特徴を抽出することと、
前記第１の画像において前記目標領域を除く他の領域の画像に基づいて、前記第１の表情特徴を抽出することと、を含む、
請求項１に記載の方法。
前記第１の対象を含むテンプレート画像を検出し、前記第１の対象の前記テンプレート画像における第２の位置情報を取得することと、
前記第２の位置情報に基づいて前記テンプレート画像を裁断し、前記第１の画像を取得することと、をさらに含む、
請求項１に記載の方法。
前記第２の位置情報に基づいて前記テンプレート画像を裁断し、前記第１の画像を取得することは、
前記第２の位置情報に基づいて前記テンプレート画像を裁断し、中間画像を取得することと、
前記中間画像に対して画像分割処理を行い、前記中間画像における目標対象の第３の位置情報を取得し、前記目標対象は前記第１の対象を含むことと、
前記第３の位置情報に基づいて、前記目標対象に対するマスク画像を生成することと、
前記マスク画像に基づいて前記中間画像における背景画像を除去し、前記第１の画像を取得することと、を含む、
請求項３に記載の方法。
第１の対象の目標部位の第１の画像における第１の位置情報と、前記第１の画像とに基づいて、前記第１の対象の第１の属性特徴と、前記目標部位の第１の形状特徴のそれぞれを抽出することは、
前記第１の画像に対してデータ強化処理を行い、強化後画像を取得することと、
前記第１の位置情報及び前記強化後画像に基づいて、前記第１の属性特徴と前記第１の形状特徴のそれぞれを抽出することと、を含む、
請求項１又は２に記載の方法。
第１の対象の目標部位の第１の画像における第１の位置情報と、前記第１の画像とに基づいて、前記第１の対象の第１の属性特徴と、前記目標部位の第１の形状特徴のそれぞれを抽出することは、
前記第１の画像に対して正規化処理を行い、第１の正規化画像を取得することと、
前記第１の位置情報及び前記第１の正規化画像に基づいて、前記第１の属性特徴と前記第１の形状特徴のそれぞれを抽出することと、を含む、
請求項１又は２に記載の方法。
前記第２の対象を含むソース画像を検出し、前記第２の対象の前記ソース画像における第４の位置情報を取得することと、
前記第４の位置情報に基づいて前記ソース画像を裁断し、前記第２の画像を取得することと、を更に含む、
請求項１に記載の方法。
第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出することは、
前記第２の画像に対して正規化処理を行い、第２の正規化画像を取得することと、
符号化ネットワークを用いて前記第２の正規化画像を符号化し、前記第２の対象の第１のアイデンティティ特徴を取得することと、を含む、
請求項１に記載の方法。
前記第２の画像は、複数の画像を含み、
第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出することは、
前記複数の画像のそれぞれに含まれる第２の対象のアイデンティティ特徴をそれぞれ抽出し、複数の初期アイデンティティ特徴を取得することと、
前記複数の初期アイデンティティ特徴の平均値特徴を前記第２の対象の第１のアイデンティティ特徴に確定することと、を含む、
請求項１又は８に記載の方法。
前記第１の属性特徴、前記第１の形状特徴及び前記第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成することは、
前記第１の属性特徴、前記第１の形状特徴及び前記第１のアイデンティティ特徴を融合し、融合特徴を取得することと、
前記融合特徴を生成ネットワークの入力とし、前記第１の遷移画像を取得することと、を含む、
請求項１に記載の方法。
第１の符号化ネットワーク、第２の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練方法であって、
第３の対象の目標部位の第３の画像における第５の位置情報と、前記第３の画像とに基づいて、前記第１の符号化ネットワークを用いて、前記第３の対象の第２の属性特徴と、前記目標部位の第２の形状特徴を抽出することと、
前記第２の符号化ネットワークを用いて、第４の画像に含まれる第３の対象の第２のアイデンティティ特徴を抽出することと、
前記第２の属性特徴、前記第２の形状特徴及び前記第２のアイデンティティ特徴に基づいて、前記生成ネットワークを用いて、前記第２の属性特徴及び前記第２の形状特徴を有する第３の対象を含む第２の遷移画像を生成することと、
前記第２の遷移画像と前記第３の画像との差異に基づいて、前記画像遷移モデルを訓練することと、を含む、
画像遷移モデルの訓練方法。
前記第２の属性特徴は、第２の姿勢特徴と、第２の表情特徴とを含み、
前記第１の符号化ネットワークは、第１の符号化サブネットワークと、第２の符号化サブネットワークと、第３の符号化サブネットワークとを含み、
第３の対象の目標部位の第３の画像における第５の位置情報と、前記第３の画像とに基づいて、前記第１の符号化ネットワークを用いて、前記第３の対象の第２の属性特徴と、前記目標部位の第２の形状特徴を抽出することは、
前記第５の位置情報に基づいて、前記第３の画像における前記目標部位に対する目標領域の画像を確定することと、
前記第３の画像に基づいて、前記第１の符号化サブネットワークを用いて前記第２の姿勢特徴を抽出することと、
前記目標領域の画像に基づいて、前記第２の符号化サブネットワークを用いて前記第２の形状特徴を抽出することと、
前記第３の画像において前記目標領域を除く他の領域の画像に基づいて、前記第３の符号化サブネットワークを用いて前記第２の表情特徴を抽出することと、を含む、
請求項１１に記載の方法。
前記第２の遷移画像と前記第３の画像との差異に基づいて、前記画像遷移モデルを訓練することは、
前記第２の遷移画像と前記第３の画像との間の画素差異に基づいて、前記画像遷移モデルの第１の損失を確定することと、
前記第２の遷移画像と前記第３の画像をそれぞれ判別ネットワークに入力し、前記第２の遷移画像に対する第１の真値確率と前記第３の画像に対する第２の真値確率を取得することと、
前記第２の遷移画像と、前記第３の画像と、前記第１の真値確率と、前記第２の真値確率に基づいて、前記画像遷移モデルの生成対抗損失を確定することと、
前記第１の損失と前記生成対抗損失に基づいて、前記画像遷移モデルを訓練することと、を含む、
請求項１１に記載の方法。
前記第２の遷移画像と前記第３の画像との差異に基づいて、前記画像遷移モデルを訓練することは、
前記第２の遷移画像と前記第３の画像との特徴抽出ネットワークを経由して抽出された２つの特徴の差異に基づいて、前記画像遷移モデルの第２の損失を確定することと、
前記第１の損失と、前記生成対抗損失と、前記第２の損失とに基づいて、前記画像遷移モデルを訓練することと、を更に含む、
請求項１３に記載の方法。
第１の対象の目標部位の第１の画像における第１の位置情報と、前記第１の画像とに基づいて、前記第１の対象の第１の属性特徴と、前記目標部位の第１の形状特徴のそれぞれを抽出するための第１の特徴抽出モジュールと、
第２の画像に含まれる第２の対象の第１のアイデンティティ特徴を抽出するための第１のアイデンティティ抽出モジュールと、
前記第１の属性特徴、前記第１の形状特徴及び前記第１のアイデンティティ特徴に基づいて、第１の遷移画像を生成するための第１の画像生成モジュールと、を含み、
前記第１の遷移画像は、前記第１の属性特徴及び前記第１の形状特徴を有する第２の対象を含む、
画像遷移装置。
前記第１の属性特徴は、第１の姿勢特徴と、第１の表情特徴とを含み、
前記第１の特徴抽出モジュールは、
前記第１の位置情報に基づいて、前記第１の画像における前記目標部位に対する目標領域の画像を確定するための第１の画像確定サブモジュールと、
前記第１の画像に基づいて、前記第１の姿勢特徴を抽出するための第１の姿勢抽出サブモジュールと、
前記目標領域の画像に基づいて、前記第１の形状特徴を抽出するための第１の形状抽出サブモジュールと、
前記第１の画像において前記目標領域を除く他の領域の画像に基づいて、前記第１の表情特徴を抽出するための第１の表情抽出サブモジュールと、を含む、
請求項１５に記載の装置。
前記第１の対象を含むテンプレート画像を検出し、前記第１の対象の前記テンプレート画像における第２の位置情報を取得するための第１の画像検出モジュールと、
前記第２の位置情報に基づいて前記テンプレート画像を裁断し、前記第１の画像を取得するための第１の画像裁断モジュールと、をさらに含む、
請求項１５に記載の装置。
前記画像裁断モジュールは、
前記第２の位置情報に基づいて前記テンプレート画像を裁断し、中間画像を取得するための裁断サブモジュールと、
前記中間画像に対して画像分割処理を行い、前記中間画像における前記第１の対象が含まれる目標対象の第３の位置情報を取得するための分割サブモジュールと、
前記第３の位置情報に基づいて、前記目標対象に対するマスク画像を生成するためのマスク生成サブモジュールと、
前記マスク画像に基づいて前記中間画像における背景画像を除去し、前記第１の画像を取得するための背景除去サブモジュールと、を含む、
請求項１７に記載の装置。
前記第１の特徴抽出モジュールは、
前記第１の画像に対してデータ強化処理を行い、強化後画像を取得するための画像強化サブモジュールと、
前記第１の位置情報及び前記強化後画像に基づいて、前記第１の属性特徴と前記第１の形状特徴のそれぞれを抽出するための特徴抽出サブモジュールと、を含む、
請求項１５又は１６に記載の装置。
前記第１の特徴抽出モジュールは、
前記第１の画像に対して正規化処理を行い、第１の正規化画像を取得するための第１の正規化サブモジュールと、
前記第１の位置情報及び前記第１の正規化画像に基づいて、前記第１の属性特徴と前記第１の形状特徴のそれぞれを抽出するための特徴抽出サブモジュールと、を含む、
請求項１５又は１６に記載の装置。
前記第２の対象を含むソース画像を検出し、前記第２の対象の前記ソース画像における第４の位置情報を取得するための第２の画像検出モジュールと、
前記第４の位置情報に基づいて前記ソース画像を裁断し、前記第２の画像を取得するための第２の画像裁断モジュールと、を更に含む、
請求項１５に記載の装置。
前記第１のアイデンティティ抽出モジュールは、
前記第２の画像に対して正規化処理を行い、第２の正規化画像を取得するための第２の正規化サブモジュールと、
符号化ネットワークを用いて前記第２の正規化画像を符号化し、前記第２の対象の第１のアイデンティティ特徴を取得するためのアイデンティティ抽出サブモジュールと、を含む、
請求項１５に記載の装置。
前記第１のアイデンティティ抽出モジュールは、
前記複数の画像のそれぞれに含まれる第２の対象のアイデンティティ特徴をそれぞれ抽出し、複数の初期アイデンティティ特徴を取得し、および、
前記複数の初期アイデンティティ特徴の平均値特徴を前記第２の対象の第１のアイデンティティ特徴に確定するために用いられる、
請求項１５又は２２に記載の装置。
前記第１の画像生成モジュールは、
前記第１の属性特徴、前記第１の形状特徴及び前記第１のアイデンティティ特徴を融合し、融合特徴を取得するための特徴融合サブモジュールと、
前記融合特徴を生成ネットワークの入力とし、前記第１の遷移画像を取得するための画像生成サブモジュールと、を含む、
請求項１５に記載の装置。
第１の符号化ネットワーク、第２の符号化ネットワーク及び生成ネットワークを含む画像遷移モデルの訓練装置であって、
第３の対象の目標部位の第３の画像における第５の位置情報と、前記第３の画像とに基づいて、前記第１の符号化ネットワークを用いて、前記第３の対象の第２の属性特徴と、前記目標部位の第２の形状特徴を抽出するための第２の特徴抽出モジュールと、
前記第２の符号化ネットワークを用いて、第４の画像に含まれる第３の対象の第２のアイデンティティ特徴を抽出するための第２のアイデンティティ抽出モジュールと、
前記第２の属性特徴、前記第２の形状特徴及び前記第２のアイデンティティ特徴に基づいて、前記生成ネットワークを用いて、前記第２の属性特徴及び前記第２の形状特徴を有する第３の対象を含む第２の遷移画像を生成するための第２の画像生成モジュールと、
前記第２の遷移画像と前記第３の画像との差異に基づいて、前記画像遷移モデルを訓練するためのモデル訓練モジュールと、を含む、
画像遷移モデルの訓練装置。
前記第２の属性特徴は、第２の姿勢特徴と、第２の表情特徴とを含み、
前記第２の特徴抽出モジュールは、
前記第５の位置情報に基づいて、前記第３の画像における前記目標部位に対する目標領域の画像を確定するための第２の画像確定サブモジュールと、
前記第３の画像に基づいて、前記第１の符号化サブネットワークを用いて前記第２の姿勢特徴を抽出するための第２の姿勢抽出サブモジュールと、
前記目標領域の画像に基づいて、前記第２の符号化サブネットワークを用いて前記第２の形状特徴を抽出するための第２の形状抽出サブモジュールと、
前記第３の画像において前記目標領域を除く他の領域の画像に基づいて、前記第３の符号化サブネットワークを用いて前記第２の表情特徴を抽出するための第２の表情抽出サブモジュールと、を含む、
請求項２５に記載の装置。
前記モデル訓練モジュールは、
前記第２の遷移画像と前記第３の画像との間の画素レベルの差異に基づいて、前記画像遷移モデルの第１の損失を確定するための第１の損失確定サブモジュールと、
前記第２の遷移画像と前記第３の画像をそれぞれ判別ネットワークに入力し、前記第２の遷移画像に対する第１の真値確率と前記第３の画像に対する第２の真値確率を取得するための真値確率確定サブモジュールと、
前記第２の遷移画像と、前記第３の画像と、前記第１の真値確率と、前記第２の真値確率に基づいて、前記画像遷移モデルの生成対抗損失を確定するための第２の損失確定サブモジュールと、
前記第１の損失と前記生成対抗損失に基づいて、前記画像遷移モデルを訓練するためのモデル訓練サブモジュールと、を含む、
請求項２５に記載の装置。
前記モデル訓練モジュールは、
前記第２の遷移画像と前記第３の画像との特徴抽出ネットワークを経由して抽出された２つの特徴の差異に基づいて、前記画像遷移モデルの第２の損失を確定するための第３の損失確定サブモジュールと、
前記第１の損失と、前記生成対抗損失と、前記第２の損失とに基づいて、前記画像遷移モデルを訓練するための前記モデル訓練サブモジュールと、を更に含む、
請求項２７に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリとを備える電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサによって実行され得る命令が記憶されており、前記少なくとも１つのプロセッサが請求項１～１４のいずれか一項に記載の方法を実行するように前記命令が前記少なくとも１つのプロセッサによって実行される、
電子機器。
コンピュータに請求項１～１４のいずれか一項に記載の方法を実行させるためのコンピュータ命令を記憶している、
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行される場合に、請求項１～１４のいずれか一項に記載の方法を実現するコンピュータプログラム。