JP2022504579A

JP2022504579A - 画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体

Info

Publication number: JP2022504579A
Application number: JP2021519659A
Authority: JP
Inventors: 何悦; ▲張▼▲韻▼▲しゅあん▼; ▲張▼四▲維▼; 李▲誠▼
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2019-07-30
Filing date: 2019-09-12
Publication date: 2022-01-13
Anticipated expiration: 2039-09-12
Also published as: CN113569790A; CN113569789A; CN110399849A; TWI779970B; TWI753327B; US20210232806A1; TWI779969B; TW202213265A; TW202213275A; WO2021017113A1; CN113569789B; CN113569790B; CN110399849B; KR20210057133A; JP7137006B2; CN113569791A; CN113569791B; TW202105238A; SG11202103930TA

Abstract

本発明は、画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体に関する。当該方法は、参照顔画像及び参照顔姿勢画像を取得することと、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得することと、前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することと、を含む。本発明では、参照顔画像及び参照顔姿勢画像に基づいて目標画像を生成することを実現するために、対応する装置が開示されている。

Description

本願は、２０１９年０７月３０日に中国特許局に提出された、出願番号がＣＮ２０１９１０６９４０６５．３であり、発明の名称が「画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その内容の全てが引用により本願に組み込まれている。

本発明は、画像処理の技術分野に関し、特に、画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体に関する。

人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）技術の発展に伴い、ＡＩ技術による、ビデオや画像内の人物の「顔交換」など、ＡＩ技術の応用もますます増えている。いわゆる「顔交換」とは、ビデオや画像内の顔の姿勢を維持することを指し、ビデオや画像内の顔テクスチャデータを対象者の顔テクスチャデータに切り替えることにより、ビデオや画像内の人物の顔を対象者の顔に置き換える。ここで、顔姿勢は、顔の輪郭の位置情報、目鼻立ちの位置情報及び顔の表情情報を含み、顔テクスチャデータは、顔の肌のつや情報、顔の肌の色情報、顔のしわ情報及び顔の肌のテクスチャ情報を含む。

従来の方法では、対象者の顔を含む複数の画像をトレーニングセットとして使用してニューラルネットワークをトレーニングし、参照顔姿勢画像（即ち、顔姿勢情報を含む画像）、及び対象者の顔を含む参照顔画像をトレーニング後のニューラルネットワークに入力することにより、一枚の目標画像を取得することができ、当該目標画像内の顔姿勢は、参照顔画像内の顔姿勢であり、当該目標画像内の顔テクスチャは、対象者の顔テクスチャである。

本発明は、画像処理方法及びその装置、プロセッサ、電子機器並びに記憶媒体を提供する。

第１態様によれば、画像処理方法を提供し、前記画像処理方法は、参照顔画像及び参照顔姿勢画像を取得することと、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得することと、前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することと、を含む。当該態様において、参照顔画像を符号化処理することにより、参照顔画像内の対象者の顔テクスチャデータを取得することができ、参照顔姿勢画像に対して顔キーポイント抽出処理を実行することにより顔マスクを取得することができ、顔テクスチャデータ及び顔マスクに対して融合処理、符号化処理を実行して目標画像を取得することができ、これにより、任意の対象者の顔姿勢の変更を実現する。

一可能な実施形態において、前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することは、前記顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得することと、前記第１顔テクスチャデータ及び前記第１顔マスクに対してｎレベルの目標処理を実行して、前記目標画像を取得することであって、前記ｎレベルの目標処理は、第ｍ－１（ｍは、２より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理及び第ｍレベルの目標処理を含み、前記ｎレベルの目標処理のうちの第１レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第ｍ－１レベルの目標処理の出力データは、前記第ｍレベルの目標処理の入力データであり、前記ｎレベルの目標処理のうちの第ｉ（ｉは、１より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理は、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、ことと、を含む。当該可能な実現形態において、第１顔マスク及び第１顔テクスチャデータに対してｎレベルの目標処理を実行するプロセス中、目標処理の入力データとサイズ調整後の第１顔マスクを融合することにより、第１顔マスクと第１顔テクスチャデータの融合効果を向上させることができるため、顔テクスチャデータに対して復号化処理及び目標処理を実行することにより目標画像を取得する品質を向上させる。

別の可能な実現形態において、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得することと、前記第ｉレベルの目標処理の融合されるデータ及び第ｉレベルの顔マスクに対して融合処理を実行して、第ｉレベルの融合後のデータを取得することであって、前記第ｉレベルの顔マスクは、前記第１顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第ｉレベルの顔マスクのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである、ことと、前記第ｉレベルの融合後のデータを復号化処理して、前記第ｉレベルの目標処理の出力データを取得することと、を含む。当該可能な実現形態において、異なるサイズの顔マスクと、異なるレベルの目標処理の入力データを融合することにより、顔マスクと顔テクスチャデータ融合の融合を実現し、融合効果を向上させることができるため、目標画像の品質を向上させる。

さらに別の可能な実施形態において、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、前記顔テクスチャデータに対してｊレベルの復号化処理を実行することをさらに含み、前記ｊ（ｊは、２より大きいか等しい正の整数である）レベルの復号化処理のうちの第１レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記ｊレベルの復号化処理は、第ｋ－１（ｋは、２より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理及び第ｋレベルの復号化処理を含み、前記第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データである。前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得することは、前記ｊレベルの復号化処理のうちの第ｒ（ｒは、１より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを前記第ｉレベルの目標処理の融合されるデータとして取得することを含み、前記第ｒレベルの復号化処理の出力データのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである。当該可能な実現形態において、第ｒレベルの復号化処理後のデータを第ｉレベルの目標処理の入力データと合併することにより、第ｉレベルの目標処理の融合されるデータを取得するため、第ｉレベルの目標処理の融合されるデータと第ｉレベルの顔マスクを融合する場合、顔テクスチャデータと第１顔マスクの融合効果を更に向上させることができる。

さらに別の可能な実施形態において、前記ｊレベルの復号化処理のうちの第ｒレベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを取得することは、前記第ｒレベルの復号化処理の出力データをチャネル次元で前記第ｉレベルの目標処理の入力データと合併して、前記第ｉレベルの合併後のデータを取得することを含む。当該可能な実現形態において、第ｒレベルの復号化処理の出力データをチャネル次元で第ｉレベルの目標処理の入力データと合併することにより、第ｒレベルの復号化処理の入力データの情報と第ｉレベルの目標処理の入力データの情報の合併を実現するため、第ｉレベルの合併後のデータに基づいて取得された目標画像の品質を向上させるのに役立つ。

さらに別の可能な実施形態において、前記第ｒレベルの復号化処理は、前記第ｒレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第ｒレベルの復号化処理の出力データを取得することを含む。当該可能な実現形態において、後続処理プロセスにおける、異なるサイズの顔テクスチャデータと、異なるレベルの目標処理の入力データを融合するように、顔テクスチャデータに対して階層復号化処理を実行することにより、異なるサイズの顔テクスチャデータ（即ち、異なる復号化層の出力データ）を取得する。

さらに別の可能な実施形態において、前記第ｉレベルの目標処理の融合されるデータ及び前記第ｉレベルの顔マスクに対して融合処理を実行して、前記第ｉレベルの融合後のデータを取得することは、第１所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得することと、前記第１特徴データ及び前記第２特徴データに従って正規化形式を決定することと、前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得することと、を含む。当該可能な実現形態において、第１所定のサイズの畳み込みカーネル及び第２所定のサイズの畳み込みカーネルを使用して、第ｉレベルの顔マスクを畳み込み処理することにより、それぞれ、第１特徴データ及び第２特徴データを取得する。顔テクスチャデータと顔マスクの融合効果を向上させるために、第１特徴データ及び第２特徴データに基づき第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行する。

さらに別の可能な実施形態において、前記正規化形式は、目標アフィン変換を含み、前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得することは、前記目標アフィン変換に基づき、前記第ｉレベルの目標処理の融合されるデータをアフィン変換して、前記第ｉレベルの融合後のデータを取得することを含む。当該可能な実現形態において、上記の正規化形式はアフィン変換であり、第１特徴データ及び第２特徴データを介してアフィン変換フォームを決定し、アフィン変換フォームに従って第ｉレベルの目標処理の融合されるデータをアフィン変換することにより、第ｉレベルの目標処理の融合されるデータに対する正規化処理を実現する。

さらに別の可能な実施形態において、前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することは、前記顔テクスチャデータと前記第１顔マスクを融合処理して、目標融合データを取得することと、前記目標融合データを復号化処理して、前記目標画像を取得することと、を含む。当該可能な実現形態において、先ず、顔テクスチャデータと顔マスクを融合処理して、目標融合データを取得し、その後、目標融合データを復号化処理して、目標画像を取得することができる。

さらに別の可能な実施形態において、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、ｓ（ｓは、１より大きいか等しい正の整数である）番目の符号化層及びｓ＋１番目の符号化層を含み、前記複数の符号化層のうちの第１層符号化層の入力データは前記参照顔画像であり、前記ｓ番目の符号化層の出力データは、前記ｓ＋１番目の符号化層の入力データである。当該可能な実現形態において、複数の符号化層を介して参照顔画像を段階的符号化処理することにより、参照顔画像から特徴情報を徐々に抽出し、最後に顔テクスチャデータを取得する。

さらに別の可能な実施形態において、前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む。当該可能な実現形態において、各符号化層の符号化処理は、畳み込み処理、正規化処理、活性化処理を含み、各符号化層の入力データに対して、畳み込み処理、正規化処理、活性化処理を順次に実行することにより、各符号化層の入力データから特徴情報を抽出することができる。

さらに別の可能な実施形態において、前記画像処理方法は、前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第２顔マスク及び前記目標画像の第３顔マスクを取得することと、前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定することであって、前記参照顔画像の第１画素点の画素値と前記目標画像の第２画素点の画素値の差は、前記第４顔マスクの第３画素点の値に正相関を有し、前記参照顔画像における前記第１画素点の位置、前記目標画像における前記第２画素点の位置及び前記第４顔マスクにおける前記第３画素点の位置は全て同じである、ことと、前記第４顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得することと、を含む。当該可能な実現形態において、第２顔マスク及び第３顔マスクをアフィン変換して第４顔マスクを取得し、第４顔マスクに従って参照顔画像と目標画像を融合することにより、目標画像の詳細情報を向上させる同時に、目標画像の目鼻立ち位置情報、顔の輪郭位置情報及び表情情報を保持するため、目標画像の品質を向上させる。

さらに別の可能な実施形態において、前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定することは、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の平均値、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、前記アフィン変換フォームに従って、前記第２顔マスク及び前記第３顔マスクをアフィン変換して、前記第４顔マスクを取得することと、を含む。当該可能な実現形態において、第２顔マスク及び第３顔マスクに従ってアフィン変換フォームを決定した後、アフィン変換フォームに従って第２顔マスク及び第３顔マスクをアフィン変換して、第２顔マスクと第３顔マスクの同じ位置にある画素点の画素値の差を決定することができるため、画素点に対する処理を実行するのに役立つ。

さらに別の可能な実施形態において、前記画像処理方法は、顔生成ネットワークに適用され、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第１生成画像及び前記トレーニングサンプルの第１再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第１サンプル顔姿勢画像を含み、前記第１再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記サンプル顔画像及び前記第１生成画像の顔特徴の一致度に従って第１損失を取得し、前記第１サンプル顔画像の顔テクスチャ情報と前記第１生成画像の顔テクスチャ情報との間の差に従って第２損失を取得し、前記第１サンプル顔画像の第４画素点の画素値と前記第１生成画像の第５画素点の画素値との間の差に従って第３損失を取得し、前記第１サンプル顔画像の第６画素点の画素値と前記第１再構成画像の第７画素点の画素値との間の差に従って第４損失を取得し、前記第１生成画像の真実性に従って第５損失を取得することであって、前記第１サンプル顔画像における前記第４画素点の位置は、前記第１生成画像における前記第５画素点の位置と同じであり、前記第１サンプル顔画像における前記第６画素点の位置は、前記第１再構成画像における前記第７画素点の位置と同じであり、前記第１生成画像の真実性が高いほど、前記第１生成画像が真の画像である確率が高くなることを表す、ことと、前記第１損失、前記第２損失、前記第３損失、前記第４損失及び前記第５損失に従って、前記顔生成ネットワークの第１ネットワーク損失を取得することと、前記第１ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む。当該可能な実現形態において、参照顔画像及び参照顔姿勢に基づいて画像目標画像を取得し、第１サンプル顔画像、第１再構成画像及び第１生成画像に従って、第１損失、第２損失、第３損失、第４損失及び第５損失を取得し、上記の５つの損失に従って、顔生成ネットワークの第１ネットワーク損失を取得し、第１ネットワーク損失に従って顔生成ネットワークに対するトレーニングを完了することを顔生成ネットワークを介して実現する。

さらに別の可能な実施形態において、前記トレーニングサンプルは、第２サンプル顔姿勢画像をさらに含み、前記第２サンプル顔姿勢画像は、前記第２サンプル顔画像にランダム摂動を追加して前記第２サンプル画像の目鼻立ちの位置及び／又は顔の輪郭位置を変更することによって取得されたものであり、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークに前記第２サンプル顔画像及び第２サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第２生成画像及び前記トレーニングサンプルの第２再構成画像を取得することであって、前記第２再構成画像は、符号化後の前記第２サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記第２サンプル顔画像及び前記第２生成画像の顔特徴の一致度に従って第６損失を取得し、前記第２サンプル顔画像の顔テクスチャ情報と前記第２生成画像の顔テクスチャ情報との間の差に従って第７損失を取得し、前記第２サンプル顔画像の第８画素点の画素値と前記第２生成画像の第９画素点の画素値との間の差に従って第８損失を取得し、前記第２サンプル顔画像の第１０画素点の画素値と前記第２再構成画像の第１１画素点の画素値との間の差に従って第９損失を取得し、前記第２生成画像の真実性に従って第１０損失を取得することであって、前記第２サンプル顔画像における前記第８画素点の位置は、前記第２生成画像における前記第９画素点の位置と同じであり、前記第２サンプル顔画像における前記第１０画素点の位置は、前記第２再構成画像における前記第１１画素点の位置と同じであり、前記第２生成画像の真実性が高いほど、前記第２生成画像が真の画像である確率が高くなることを表す、ことと、前記第６損失、前記第７損失、前記第８損失、前記第９損失及び前記第１０損失に従って、前記顔生成ネットワークの第２ネットワーク損失を取得することと、前記第２ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、を含む。当該可能な実現形態において、第２サンプル顔画像及び第２サンプル顔姿勢画像をトレーニングセットとして使用することにより、顔生成ネットワークトレーニングセット内の画像の多様性を高めることができ、顔生成ネットワークのトレーニング効果を向上させるのに役立ち、トレーニングすることにより取得された顔生成ネットワークによって生成された目標画像の品質を向上させることができる。

さらに別の可能な実施形態において、前記参照顔画像及び参照姿勢画像を取得することは、ユーザによって端末に入力された処理される顔画像を受信することと、処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得することと、を含む。当該可能な実現形態において、端末は、ユーザによって入力された処理される顔画像を参照顔画像として使用し、取得された処理されるビデオ内の画像を参照顔姿勢画像として使用することができ、上記に記載のいずれか１つの可能な実施形態に基づいて、目標ビデオを取得することができる。

第２態様によれば、画像処理装置を提供し、前記画像処理装置は、参照顔画像及び参照顔姿勢画像を取得するように構成される取得ユニットと、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得するように構成される第１処理ユニットと、前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得するように構成される第２処理ユニットと、を備える。

一可能な実施形態において、前記第２処理ユニットは、前記顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得し、前記第１顔テクスチャデータ及び前記第１顔マスクに対してｎレベルの目標処理を実行して、前記目標画像を取得するように構成され、前記ｎレベルの目標処理は、第ｍ－１（ｍは、２より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理及び第ｍレベルの目標処理を含み、前記ｎレベルの目標処理のうちの第１レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第ｍ－１レベルの目標処理の出力データは、前記第ｍレベルの目標処理の入力データであり、前記ｎレベルの目標処理のうちの第ｉ（ｉは、１より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理は、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む。

別の可能な実現形態において、前記第２処理ユニットは、前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得し、前記第ｉレベルの目標処理の融合されるデータ及び第ｉレベルの顔マスクに対して融合処理を実行して、第ｉレベルの融合後のデータを取得し、ここで、前記第ｉレベルの顔マスクは、前記第１顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第ｉレベルの顔マスクのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じであり、前記第ｉレベルの融合後のデータを復号化処理して、前記第ｉレベルの目標処理の出力データを取得するように構成される。

さらに別の可能な実施形態において、前記画像処理装置は更に、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してｊレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記ｊ（ｊは、２より大きいか等しい正の整数である）レベルの復号化処理のうちの第１レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記ｊレベルの復号化処理は、第ｋ－１（ｋは、２より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理及び第ｋレベルの復号化処理を含み、前記第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データであり、第２処理ユニットは、前記ｊレベルの復号化処理のうちの第ｒ（（ｒは、１より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である））レベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを前記第ｉレベルの目標処理の融合されるデータとして取得するように構成され、前記第ｒレベルの復号化処理の出力データのサイズは前記第ｉレベルの目標処理の入力データのサイズと同じである。

さらに別の可能な実施形態において、前記第２処理ユニットは、前記第ｒレベルの復号化処理の出力データをチャネル次元で前記第ｉレベルの目標処理の入力データと合併して、前記第ｉレベルの合併後のデータを取得するように構成される。

さらに別の可能な実施形態において、前記第ｒレベルの復号化処理は、前記第ｒレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第ｒレベルの復号化処理の出力データを取得することを含む。

さらに別の可能な実施形態において、前記第２処理ユニットは、第１所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得し、前記第１特徴データ及び前記第２特徴データに従って正規化形式を決定し、前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得するように構成される。

さらに別の可能な実施形態において、前記正規化形式は、目標アフィン変換を含み、前記第２処理ユニットは、前記目標アフィン変換に基づき、前記第ｉレベルの目標処理の融合されるデータをアフィン変換して、前記第ｉレベルの融合後のデータを取得するように構成される。

さらに別の可能な実施形態において、前記第２処理ユニットは、前記顔テクスチャデータと前記第１顔マスクを融合処理して、目標融合データを取得し、前記目標融合データを復号化処理して、前記目標画像を取得するように構成される。

さらに別の可能な実施形態において、前記第１処理ユニットは、複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、ｓ（ｓは、１より大きいか等しい正の整数である）番目の符号化層及びｓ＋１番目の符号化層を含み、前記複数の符号化層のうちの第１層符号化層の入力データは前記参照顔画像であり、前記ｓ番目の符号化層の出力データは、前記ｓ＋１番目の符号化層の入力データである。

さらに別の可能な実施形態において、前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む。

さらに別の可能な実施形態において、前記画像処理装置は更に、前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第２顔マスク及び前記目標画像の第３顔マスクを取得するように構成される顔キーポイント抽出処理ユニットと、前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定するように構成される決定ユニットであって、前記参照顔画像の第１画素点の画素値と前記目標画像の第２画素点の画素値の差は、前記第４顔マスクの第３画素点の値に正相関を有し、前記参照顔画像における前記第１画素点の位置、前記目標画像における前記第２画素点の位置及び前記第４顔マスクにおける前記第３画素点の位置は全て同じである決定ユニットと、前記第４顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニットと、を備える。

さらに別の可能な実施形態において、前記決定ユニットは、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の平均値に従って、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、前記アフィン変換フォームに従って、前記第２顔マスク及び前記第３顔マスクをアフィン変換して、前記第４顔マスクを取得するように構成される。

さらに別の可能な実施形態において、前記画像処理装置によって実行される画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置は、前記顔生成ネットワークトレーニングプロセスを実行するように構成され、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第１生成画像及び前記トレーニングサンプルの第１再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第１サンプル顔姿勢画像を含み、前記第１再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記サンプル顔画像及び前記第１生成画像の顔特徴の一致度に従って第１損失を取得し、前記第１サンプル顔画像の顔テクスチャ情報と前記第１生成画像の顔テクスチャ情報との間の差に従って第２損失を取得し、前記第１サンプル顔画像の第４画素点の画素値と前記第１生成画像の第５画素点の画素値との間の差に従って第３損失を取得し、前記第１サンプル顔画像の第６画素点の画素値と前記第１再構成画像の第７画素点の画素値との間の差に従って第４損失を取得し、前記第１生成画像の真実性に従って第５損失を取得することであって、前記第１サンプル顔画像における前記第４画素点の位置は、前記第１生成画像における前記第５画素点の位置と同じであり、前記第１サンプル顔画像における前記第６画素点の位置は、前記第１再構成画像における前記第７画素点の位置と同じであり、前記第１生成画像の真実性が高いほど、前記第１生成画像が真の画像である確率が高くなることを表す、ことと、前記第１損失、前記第２損失、前記第３損失、前記第４損失及び前記第５損失に従って、前記顔生成ネットワークの第１ネットワーク損失を取得することと、前記第１ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む。

さらに別の可能な実施形態において、前記トレーニングサンプルは、第２サンプル顔姿勢画像をさらに含み、前記第２サンプル顔姿勢画像は、前記第２サンプル顔画像にランダム摂動を追加して前記第２サンプル画像の目鼻立ちの位置及び／又は顔の輪郭位置を変更することによって取得されたものであり、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークに前記第２サンプル顔画像及び第２サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第２生成画像及び前記トレーニングサンプルの第２再構成画像を取得することであって、前記第２再構成画像は、符号化後の前記第２サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記第２サンプル顔画像及び前記第２生成画像の顔特徴の一致度に従って第６損失を取得し、前記第２サンプル顔画像の顔テクスチャ情報と前記第２生成画像の顔テクスチャ情報との間の差に従って第７損失を取得し、前記第２サンプル顔画像の第８画素点の画素値と前記第２生成画像の第９画素点の画素値との間の差に従って第８損失を取得し、前記第２サンプル顔画像の第１０画素点の画素値と前記第２再構成画像の第１１画素点の画素値との間の差に従って第９損失を取得し、前記第２生成画像の真実性に従って第１０損失を取得することであって、前記第２サンプル顔画像における前記第８画素点の位置は、前記第２生成画像における前記第９画素点の位置と同じであり、前記第２サンプル顔画像における前記第１０画素点の位置は、前記第２再構成画像における前記第１１画素点の位置と同じであり、前記第２生成画像の真実性が高いほど、前記第２生成画像が真の画像である確率が高くなることを表す、ことと、前記第６損失、前記第７損失、前記第８損失、前記第９損失及び前記第１０損失に従って、前記顔生成ネットワークの第２ネットワーク損失を取得することと、前記第２ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、を含む。

さらに別の可能な実施形態において、前記取得ユニットは、ユーザによって端末に入力された処理される顔画像を受信し、処理されるビデオを取得し、ここで、前記処理されるビデオは顔であり、前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される。

第３態様によれば、プロセッサを提供し、前記プロセッサは、上記の第１態様及びそれらの任意の可能な実施形態に係る方法を実行するように構成される。

第４態様によれば、電子機器を提供し、前記電子機器は、プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ実行可能な命令を含み、前記プロセッサが前記コンピュータ実行可能な命令を実行する際に、前記電子機器は、上記の第１態様及びそれらの任意の可能な実施形態に係る方法を実行する。

第５態様によれば、コンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令が電子機器のプロセッサによって実行されるときに、前記プロセッサに、上記の第１態様及びそれらの任意の可能な実施形態の方法を実行させる。

第６態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器におけるプロセッサに、上記の第１態様及びそれらの任意の可能な実施形態を実現するための方法を実行させる。

上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本発明を限定するものではないことを理解されたい。

本発明の実施例または背景技術の技術的解決策をより明確に説明するために、本発明の実施例または背景技術の説明で使用される図面を以下に説明する。

ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明と一致する実施例を示し、明細書とともに本発明の技術的解決策を説明するために使用される。
本発明の実施例で提供される画像処理方法の例示的なフローチャートである。本発明の実施例で提供される顔キーポイントの概略図である。本発明の実施例で提供される復号化層及び融合処理のアーキテクチャの概略図である。本発明の実施例で提供される異なる画像の同じ位置にある要素の概略図である。本発明の実施例で提供される別の画像処理方法の例示的なフローチャートである。本発明の実施例で提供される別の画像処理方法の例示的なフローチャートである。本発明の実施例で提供される復号化層及び目標処理のアーキテクチャの概略図である。本発明の実施例で提供される別の復号化層及び目標処理のアーキテクチャの概略図である。本発明の実施例で提供される別の画像処理方法の例示的なフローチャートである。本発明の実施例で提供される顔生成ネットワークのアーキテクチャの概略図である。本発明の実施例で提供される、参照顔画像及び参照顔姿勢画像に基づいて取得された目標画像の概略図である。本発明の実施例で提供される画像処理装置の概略的な構造図である。本発明の実施例で提供される画像処理装置のハードウェアの概略的な構造図である。

当業者が本発明の技術案を一層簡単に理解できるようにするために、以下、本発明の実施例の図面を参照して、本発明の実施例の技術案を明確且つ完全に説明し、明らかに、説明される実施例は、単に本発明の実施例の一部であり、実施例の全てではない。本発明の実施例に基づき、創造的な努力なしに当業者が取得した他のすべての実施例は、本発明の保護範囲に含まれる。本発明の明細書、特許請求の範囲および前記添付図面中の「第１」及び「第２」などの用語は、特定の順番を制限するものではなく、異なる対象を区別するものである。加えて、「含む」、「有する」という用語およびそれらの任意の変形は、非排他的な包含を網羅することを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、明確に列挙されたそれらのステップ又はユニットに限定されず、列挙されていないステップ又はユニットをオプションで更に含み得、又はこれらのプロセス、方法、製品又はデバイスに固有の他のステップ又はユニットをオプションで更に含み得る。

本明細書における「および／または」という用語は、関連付けられたオブジェクトを説明する単なる関連付けであり、３種類の関係が存在することができることを示し、例えば、Ａおよび／またはＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合など３つの場合を表す。さらに、本明細書における「少なくとも１つ」という用語は、複数のうちの１つまたは複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、ＢおよびＣで構成されたセットから選択された任意の１つまたは複数の要素を含むことを示す。本明細書で言及される「実施例」とは、実施例を参照して説明される特定の特徴、構造又は特性が、本発明の実施例のうちの少なくとも１つに含まれることができることを意味する。明細書の様々な場所での句の出現は、同じ実施例を指すわけではなく、他の実施例と互に排他的な独立したまたは代替的な実施例でもない。本明細書に記載の実施例が他の実施例と組み合わせることができることを当業者は明確かつ暗黙的に理解している。

本発明の実施例で提供される技術的解決策を適用して参照顔画像内の対象者の顔の表情、目鼻立ち及び顔の輪郭を参照顔姿勢画像の顔の表情、顔の輪郭及び目鼻立ちに置き換え、参照顔画像の顔テクスチャデータを保持して、目標画像を取得することができる。ここで、目標画像内の顔の表情、目鼻立ち及び顔の輪郭と、参照顔姿勢画像内の顔の表情、目鼻立ち及び顔の輪郭の一致度が高いということとは、目標画像の品質が高いということを表す。同時に、目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度が高いということも、目標画像の品質が高いということを表す。以下、本発明の実施例図面を組み合わせて本発明の実施例について説明する。

図１を参照すると、図１は、本発明の一実施例で提供される画像処理方法の例示的なフローチャートである。本発明の実施例で提供される画像処理方法は、端末機器又はサーバ又は他の処理機器によって実行されることができ、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。いくつかの可能な実施形態において、当該画像処理方法は、プロセッサがメモリに記憶されたコンピュータ可読命令を呼び出す方式により実現することができる。

ステップ１０１において、参照顔画像及び参照顔姿勢画像を取得する。

本発明の実施例では、参照顔画像は、対象者を含む顔画像を指し、ここで、対象者は、表情及び顔の輪郭が変更される人物を指す。例えば、チャンサンは、自分の１枚の自撮り写真ａの表情及び顔の輪郭を画像ｂの表情及び顔の輪郭に置き換えたいと考える場合、自撮り写真ａは参照顔画像であり、張三は対象者である。

本発明の実施例では、参照顔姿勢画像は、顔を含む任意の画像であってもよい。参照顔画像及び／又は参照顔姿勢画像を取得する方式は、ユーザが入力コンポーネントを介して入力した参照顔画像及び／又は参照顔姿勢画像を受信するであってもよく、ここで、入力コンポーネントは、キーボード、マウス、タッチスクリーン、タッチパッド及びオーディオ入力装置などを含む。参照顔画像及び／又は参照顔姿勢画像を取得する方式は、端末によって取得された参照顔画像及び／又は参照顔姿勢画像を含むことであってもよく、ここで、端末は、携帯電話、コンピュータ、タブレットコンピュータ、サーバなどを含む。本発明は、参照顔画像及び参照顔姿勢画像を取得する方式に対して限定しない。

ステップ１０２において、参照顔画像を符号化処理して、参照顔画像の顔テクスチャデータを取得し、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、顔姿勢画像の第１顔マスクを取得する。

本発明の実施例では、符号化処理は、畳み込み処理であってもよく、畳み込み処理、正規化処理及び活性化処理の組み合わせであってもよい。

一可能な実施形態において、複数の符号化層を介して参照顔画像を順次に段階的符号化処理し、ここで、各符号化層はいずれも、畳み込み処理、正規化処理及び活性化処理を含み、且つ畳み込み処理、正規化処理及び活性化処理は順次に直列に接続され、即ち、畳み込み処理の出力データは、正規化処理の入力データであり、正規化処理の出力データは、活性化処理の入力データである。畳み込み処理は、畳み込みカーネルを介して、符号化層に入力したデータを畳み込みすることにより実現することができ、符号化層の入力データを畳み込み処理することにより、符号化層の入力データから特徴情報を抽出し、後続処理の計算量を低減するために、符号化層の入力データのサイズを縮小することができる。畳み込み処理後のデータに対して正規化処理を実行することにより、畳み込み処理後のデータ内の異なるデータ間の関連性を取り抜き、畳み込み処理後のデータ内の異なるデータ間の分布の違いを強調表示することができるため、後続処理を通じて、正規化処理後のデータからの特徴情報を抽出し続けるのに役立つ。活性化処理は、正規化処理後のデータを活性化関数に代入することにより実現することができ、例示的に、活性化関数は、整流された線形ユニット（ＲｅＬＵ：ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）である。

本発明の実施例では、顔テクスチャデータは、少なくとも、顔の肌の色情報、顔の肌のつや情報、顔の肌のしわ情報及び顔の肌のテクスチャ情報を含む。

本発明の実施例では、顔キーポイント抽出処理とは、参照顔姿勢画像内の顔の輪郭の位置情報、目鼻立ちの位置情報及び顔の表情情報を抽出することを指し、ここで、顔の輪郭の位置情報は、参照顔姿勢画像座標系における、顔の輪郭上のキーポイントの座標を含み、目鼻立ちの位置情報は、参照顔姿勢画像座標系における、目鼻立ちキーポイントの座標を含む。

例えば、図２に示されたように、顔キーポイントは、顔の輪郭キーポイント及び目鼻立ちキーポイントを含む。目鼻立ちキーポイントは、眉毛領域のキーポイント、目領域のキーポイント、鼻領域のキーポイント、口領域のキーポイント、耳領域のキーポイントを含む。顔の輪郭キーポイントは、顔の輪郭線上のキーポイントを含む。図２に示された顔キーポイントの数及び位置は、本発明の実施例で提供される一例に過ぎず、本発明の構成を限定するものではないことに留意されたい。

上記の顔の輪郭キーポイント及び目鼻立ちキーポイントは、ユーザによって実施された本発明の実施例の実際の効果に従って調整することができる。上記の顔キーポイント抽出処理は、任意の顔キーポイント抽出アルゴリズムにより実現することができるが、本発明はこれらに対して限定しない。

本発明の実施例では、第１顔マスクは、顔の輪郭キーポイントの位置情報及び目鼻立ちキーポイントの位置情報、及び顔の表情情報を含む。説明の便宜上、以下では、顔キーポイントの位置情報及び顔の表情情報を顔姿勢と呼ぶ。

本発明の実施例では、参照顔画像の顔テクスチャデータを取得することと顔姿勢画像の第１顔マスクを取得することなどの２つの処理プロセス間に順序がないことを理解されたい。例えば、参照顔画像の顔テクスチャデータを取得してから参照顔姿勢画像の第１顔マスクを取得してもよく、参照顔姿勢画像の第１顔マスクを取得してから参照顔画像の顔テクスチャデータを取得してもよい。また、参照顔画像を符号化処理して、参照顔画像の顔テクスチャデータを取得する同時に、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して顔姿勢画像の第１顔マスクを取得することもできる。

ステップ１０３において、顔テクスチャデータ及び第１顔マスクに従って、目標画像を取得する。

同じ人物の場合、顔テクスチャデータは固定され変化しない。即ち、異なる画像に含まれている人物は同じである場合、異なる画像を符号化処理して取得した顔テクスチャデータは同じであり、即ち、指紋情報及び虹彩情報は、個人のＩＤ情報として使用することができ、顔テクスチャデータも個人のＩＤ情報と見なすことができる。したがって、同一人物を含む多数の画像をトレーニングセットとして使用してニューラルネットワークをトレーニングする場合、当該ニューラルネットワークは、トレーニングすることにより画像内の人物の顔テクスチャデータを学習して、トレーニング後のニューラルネットワークを取得する。トレーニング後のニューラルネットワークは画像内の人物の顔テクスチャデータを含むため、トレーニング後のニューラルネットワークを使用して画像を生成する場合、当該人物の顔テクスチャデータを含む画像を取得することもできる。例えば、２０００枚の李四の顔を含む画像をトレーニングセットとして使用してニューラルネットワークをトレーニングすると、ニューラルネットワークは、トレーニング中、当該２０００枚の画像から李四の顔テクスチャデータを学習する。トレーニング後のニューラルネットワークを適用して画像を生成する場合、入力した参照顔画像に含まれた人物が李四であるかどうかに関係なく、最終的に取得される目標画像内の顔テクスチャデータは、全て李四の顔テクスチャデータであり、即ち、目標画像内の人物は李四である。

ステップ１０２において、本発明の実施例は、任意の一枚の参照顔画像から対象者の顔テクスチャデータを取得するために、参照顔画像から顔姿勢を抽出することなく、参照顔画像内の顔テクスチャデータを取得するために、参照顔画像を符号化処理し、且つ対象者の顔テクスチャデータは、対象者の顔姿勢を含まない。次に、任意の目標顔姿勢（参照顔画像内の人物を切り替えるための顔姿勢）の取得を実現するために、参照顔姿勢画像から顔テクスチャデータを抽出することなく、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して参照顔姿勢画像の第１顔マスクを取得し、且つ目標顔姿勢は、参照顔姿勢画像の顔テクスチャデータを含まない。このように、顔テクスチャデータ及び第１顔マスクに対して復号化、融合などの処理を実行することにより、取得された目標画像内の人物の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度を向上させることができ、且つ目標画像の顔姿勢と参照顔姿勢画像の顔姿勢の一致度を向上させることができるため、目標画像の品質を向上させる。ここで、目標画像の顔姿勢と参照顔姿勢画像の顔姿勢の一致度が高いほど、目標画像内の人物の目鼻立ち、輪郭及び顔の表情と、参照顔姿勢画像内の人物の目鼻立ち、輪郭及び顔の表情との類似度が高いことを表す。目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度が高いほど、目標画像内の顔の肌色、顔の肌のつや情報、顔の肌のしわ情報、顔の肌のテクスチャ情報と、参照顔画像内の顔の肌色、顔の肌のつや情報、顔肌のしわ情報、顔の肌のテクスチャ情報との類似度が高いことを表す（ユーザの視角から見ると、目標画像内の人物と参照顔画像内の人物はますます同一人物に見えてくる）。

一可能な実施形態において、顔テクスチャデータ及び第１顔マスクを融合して、対象者の顔テクスチャデータを含む同時に目標顔姿勢も含む融合データを取得し、融合データを復号化処理することにより、目標画像を取得することができる。ここで、復号化処理は逆畳み込み処理であってもよい。

別の可能な実現形態において、多層復号化層を介して、顔テクスチャデータに対して階層復号化処理を実行して、異なるサイズの復号化後の顔テクスチャデータを取得することができ（即ち、異なる復号化層によって出力された復号化後の顔テクスチャデータのサイズは異なる）、各復号化層の出力データを第１顔マスクと融合することにより、異なるサイズの顔テクスチャデータと第１顔マスクの融合効果を向上させることができ、最終的に取得される目標画像の品質を向上させるのに役立つ。例えば、図３に示されたように、顔テクスチャデータは、順次に、最初の復号化層、２番目の復号化層、…、８番目の復号化層の復号化処理を通じて目標画像を取得する。ここで、最初の復号化層の出力データ及び第１レベルの顔マスク融合後のデータを２番目の復号化層の入力データとして使用し、２番目の復号化層の出力データ及び第２レベルの顔マスク融合後のデータを３番目の復号化層の入力データとして使用し、…、７番目の復号化層の出力データ及び第７レベルの顔マスク融合後のデータを８番目の復号化層の入力データとして使用し、最後に、８番目の復号化層の出力データを目標画像として使用する。上記の第７レベルの顔マスクは、参照顔姿勢画像の第１顔マスク、第１レベルの顔マスク、第２レベルの顔マスク、…、第６レベルの顔マスクのそれぞれが参照顔姿勢画像の第１顔マスクに対してダウンサンプリング処理を実行することにより取得されることが可能なものである。第１レベルの顔マスクのサイズは、最初の復号化層の出力データのサイズと同じであり、第２レベルの顔マスクのサイズは、２番目の復号化層の出力データのサイズと同じであり、…、第７レベルの顔マスクのサイズは、７番目の復号化層の出力データのサイズと同じである。上記のダウンサンプリング処理は、線形補間、最近隣補間、双一次補間であってもよい。

図３の復号化層の数は、本実施例で提供される一例に過ぎず、本発明の構成を限定するものではないことに留意されたい。

上記の融合とは、チャネル次元での融合した２つのデータの合併（ｃｏｎｃａｔｅｎａｔｅ）であり得る。例えば、第１レベルの顔マスクのチャネル数が３であり、最初の復号化層の出力データのチャネル数が２である場合、第１レベルの顔マスクを最初の復号化層の出力データと融合することにより取得されたデータのチャネル数は５である。

上記の融合は、融合した２つのデータ内の同じ位置にある要素をたすことであってもよい。ここで、２つのデータ内の同じ位置にある要素は、図４を参照することができ、データＡにおける要素ａの位置は、データＢにおける要素ｅの位置と同じであり、データＡにおける要素ｂの位置は、データＢにおける要素ｆの位置と同じであり、データＡにおける要素ｃの位置は、データＢにおける要素ｇの位置と同じであり、データＡにおける要素ｄの位置は、データＢにおける要素ｈの位置と同じである。

本実施例は、参照顔画像を符号化処理することにより、参照顔画像内の対象者の顔テクスチャデータを取得することができ、参照顔姿勢画像に対して顔キーポイント抽出処理を実行することにより第１顔マスクを取得することができ、顔テクスチャデータ及び第１顔マスクに対して融合処理、復号化処理を実行して目標画像を取得することができ、これにより、任意の対象者の顔姿勢の変更を実現する。

図５を参照すると、図５は、本発明の一実施例で提供される上記のステップ１０２の一可能な実施形態である。

ステップ５０１において、複数の符号化層を介して、参照顔画像を段階的符号化処理して、参照顔画像の顔テクスチャデータを取得し、参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、顔姿勢画像の第１顔マスクを取得する。

参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、参照顔姿勢画像の第１顔マスクを取得するプロセスは、ステップ１０２を参照することができるため、ここでは繰り返して説明しない。

本実施例では、符号化層の数は２より大きいか等しく、複数の符号化層の各符号化層は順次に直列に接続され、即ち、前の符号化層の出力データは、その次の符号化層の入力データである。複数の符号化層がｓ番目の符号化層及びｓ＋１番目の符号化層を含むと仮定すると、複数の符号化層のうちの最初の符号化層の入力データは参照顔画像であり、ｓ番目の符号化層の出力データはｓ＋１番目の符号化層の入力データであり、最後の符号化層の出力データは参照顔画像の顔テクスチャデータである。ここで、各符号化層はいずれも、畳み込み処理層、正規化処理層、活性化処理層を含み、ｓは、１より大きいか等しい正の整数である。複数の符号化層を介して参照顔画像を段階的符号化処理することにより、参照顔画像から顔テクスチャデータを抽出することができ、ここで、各符号化層から抽出された顔テクスチャデータは全て異なる。具体的には、複数の符号化層の符号化処理を介して、参照顔画像の顔テクスチャデータを徐々に抽出する同時に、比較的に二次的な情報を除外する（ここで、比較的二次的な情報とは、顔の髪の毛情報、輪郭情報を含む、非顔テクスチャデータを指す）。したがって、後で抽出される顔テクスチャデータのサイズは小さく、且つ顔テクスチャデータに含まれた顔の肌の色情報、顔の肌のつや情報、顔の肌のしわ情報及び顔の肌のテクスチャ情報はより集中する。このように、参照顔画像の顔テクスチャデータを取得する同時に、画像のサイズを縮小し、システムの計算量を減らして、演算速度を向上させる。

一可能な実施形態において、各符号化層はいずれも、畳み込み処理層、正規化処理層、活性化処理層を含み、且つ当該３つの処理層は順次に直列に接続され、即ち、畳み込み処理層の入力データは、符号化層の入力データであり、畳み込み処理層の出力データは、正規化処理層の入力データであり、正規化処理層の出力データは、活性化処理層の出力データであり、最後に、正規化処理層を介して符号化層の出力データを取得する。畳み込み処理層の機能の実現プロセスは、符号化層の入力データを畳み込み処理し、即ち、畳み込みカーネルを使用して符号化層の入力データ上でスライドし、符号化層の入力データ内の要素の値を畳み込みカーネル内の全ての要素の値と乗算した後、乗算後に取得された全ての積の和を当該要素の値として使用し、最後に、符号化層の入力データ内の全ての要素に対してスライド処理を実行して、畳み込み処理後のデータを取得する。正規化処理層は、畳み込み処理後のデータをバッチ正規化処理（ＢＮ：ｂａｔｃｈｎｏｒｍ）層に入力することにより実現することができ、ＢＮ層を介して畳み込み処理後のデータに対してバッチ正規化処理を実行することにより、畳み込み処理後のデータを平均値が０であり、且つ分散が１である正規分布に一致させて、畳み込み処理後のデータ内のデータ間の相関を除去し、畳み込み処理後のデータ中データ間の分布の違いを強調表示する。前の畳み込み処理層及び正規化処理層はデータから複雑なマッピングを学習する能力が低いため、畳み込み処理層及び正規化処理層を介して画像などの複雑なタイプのデータを処理することができる。したがって、画像などの複雑なデータを処理するために、正規化処理後のデータを非線性変換する必要がある。ＢＮ層の後に非線性活性化関数を接続し、参照顔画像の顔テクスチャデータを抽出するために、非線性活性化関数を介して正規化処理後のデータを非線性変換して、正規化処理後のデータに対する活性化処理を実現する。例示的に、上記の非線性活性化関数はＲｅＬＵである。

本実施例は、参照顔画像を段階的符号化処理することにより、参照顔画像のサイズを縮小して参照顔画像の顔テクスチャデータを取得し、顔テクスチャデータに基づいて処理する後続のデータ処理量を減らすことができ、処理速度を向上させ、且つ任意の顔姿勢での参照顔画像内の人物の画像を取得するために、後続処理は、任意の参照顔画像の顔テクスチャデータ及び任意の顔姿勢（即ち、第１顔マスク）に基づいて目標画像を取得することができる。

図６を参照すると、図６は、本発明の一実施例で提供される、上記のステップ１０３の一可能な実施形態の例示的なフローチャートである。

ステップ６０１において、顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得する。

復号化処理は、符号化処理の逆であり、顔テクスチャデータを復号化処理して参照顔画像を取得することができるが、顔マスクを顔テクスチャデータと融合して、目標画像を取得するために、本実施例は、顔テクスチャデータに対してマルチレベルの復号化処理を実行することにより、マルチレベルの復号化処理プロセス中、顔マスクを顔テクスチャデータと融合する。

一可能な実施形態において、図７に示されたように、顔テクスチャデータは、順次に、最初の生成復号化層、２番目の生成復号化層（即ち、第１レベルの目標処理中の生成復号化層）、…、７番目の生成復号化層の復号化処理（即ち、第６レベルの目標処理中の生成復号化層）を通じて、最後に、目標画像を取得する。ここで、顔テクスチャデータを最初の生成復号化層に入力して復号化処理することにより、第１顔テクスチャデータを取得する。他の実施例において、顔テクスチャデータは、最初のいくつかの（最初の２つの層）生成復号化層を介して復号化処理して、第１顔テクスチャデータを取得することもできる。

ステップ６０２において、第１顔テクスチャデータ及び第１顔掩模に対してｎレベルの目標処理を実行して、目標画像を取得する。

本実施例では、ｎは、２より大きいか等しい正の整数であり、目標処理は、融合処理及び復号化処理を含み、第１顔テクスチャデータは第１レベルの目標処理の入力データであり、即ち、第１顔テクスチャデータを第１レベルの目標処理の融合されるデータとして使用し、第１レベルの目標処理の融合されるデータ及び第１レベルの顔マスクを融合処理して第１レベルの融合後のデータを取得し、第１レベルの融合後のデータを復号化処理して第１レベルの目標処理の出力データを第２レベルの目標処理の融合されるデータとして取得し、第２レベルの目標処理は、第２レベルの目標処理の入力データを第２レベルの顔マスクと融合処理して第２レベルの融合後のデータを取得し、第２レベルの融合後のデータを復号化処理して第２レベルの目標処理の出力データを第３レベルの目標処理の融合されるデータとして取得し、…、第ｎレベルの目標処理のデータを目標画像として取得するまで続ける。上記の第ｎレベルの顔マスクは、参照顔姿勢画像の第１顔マスク、第１レベルの顔マスク、第２レベルの顔マスク、…、第ｎ－１レベルの顔マスクのそれぞれが参照顔姿勢画像の第１顔マスクに対してダウンサンプリング処理を実行することにより取得されることが可能なものである。且つ第１レベルの顔マスクのサイズは、第１レベルの目標処理の入力データのサイズと同じであり、第２レベルの顔マスクのサイズは、第２レベルの目標処理の入力データのサイズと同じであり、…、第ｎレベルの顔マスクのサイズは、第ｎレベルの目標処理の入力データのサイズと同じである。

例示的に、本実施例における復号化処理はいずれも、逆畳み込み処理及び正規化処理を含む。ｎレベルの目標処理のうちのいずれか１つのレベルの目標処理は、当該目標処理の入力データ及び第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することにより実現する。例えば、ｎレベルの目標処理のうちの第ｉレベルの目標処理は、第ｉレベルの目標処理の入力データ及び第１顔マスクのサイズを調整した後に取得したデータを先ず融合処理して第ｉレベルの目標融合データを取得し、第ｉレベルの目標融合データを復号化処理して、第ｉレベルの目標処理の出力データを取得し、即ち、第ｉレベルの目標処理の入力データに対する第ｉレベルの目標処理を完了する。

異なるサイズの顔マスク（即ち、第１顔マスクのサイズを調整した後に取得したデータ）を異なるレベルの目標処理の入力データと融合することにより、顔テクスチャデータと第１顔マスクの融合効果を向上させることができ、最終的に取得される目標画像の品質を向上させるのに役立つ。

上記の第１顔マスクのサイズを調整することとは、第１顔マスクに対してアップサンプリング処理を実行することであってもよく、第１顔マスクに対してダウンサンプリング処理を実行することであってもよいが、本発明はこれらに対して限定しない。

一可能な実施形態において、図７に示されたように、第１顔テクスチャデータは、第１レベルの目標処理、第２レベルの目標処理、…、第６レベルの目標処理を通じて目標画像を取得する。異なるサイズの顔マスクを異なるレベルの目標処理の入力データと直接に融合する場合、復号化処理の正規化処理を通じて、融合後のデータに対して正規化処理を実行する場合、異なるサイズの顔マスク内の情報は流失するため、最終的に取得された目標画像の品質が低下する。本実施例は、異なるサイズの顔マスクに従って正規化形式を決定し、正規化形式に基づき目標処理の入力データに対して正規化処理を実行して、第１顔マスクと目標処理のデータの融合を実現する。このように、第１顔マスクの各要素に含まれる情報を、目標処理の入力データの同じ位置にある要素に含まれた情報をよりよく融合させることができ、目標画像中各画素点の品質を向上させるのに役立つ。例示的に、第１所定のサイズの畳み込みカーネルを使用して第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得する。第１特徴データ及び前記第２特徴データに従って正規化形式を決定する。ここで、第１所定のサイズ及び第２所定のサイズは異なり、ｉは、１より大きいか等しく、且つｎより小さいか等しい正の整数である。

一可能な実施形態において、第ｉレベルの目標処理の入力データをアフィン変換することにより、第ｉレベルの目標処理に対する非線性変換を実現して、より複雑なマッピングを実現することができ、非線性正規化後のデータに基づいて画像を生成するのに役立つ。第第第ｉレベルの目標処理の入力データが

であり、合計ｍ個のデータを有し、出力は

であり、第ｉレベルの目標処理の入力データをアフィン変換する。即ち、第ｉレベルの目標処理の入力データに対して次の操作を実行する。先ず、上記のｉレベルの目標処理の入力データ

の平均値、即ち

を計算する。上記の平均値

に従って、上記のｉレベルの目標処理の入力データの分散、即ち

を決定する。その後、上記の平均値

に従って、上記のｉレベルの目標処理の入力データをアフィン変換して、

を取得する。最後に、スケーリング変数γ及び平行移動変数δに基づいて、アフィン変換の結果、即ち、

を取得する。ここで、γ及びδは、第１特徴データ及び第２特徴データに従って取得することができる。例えば、第１特徴データをスケーリング変数γとして使用し、第２特徴データをδとして使用する。正規化形式を決定した後、正規化形式に従って第ｉレベルの目標処理の入力データに対して正規化処理を実行して、第ｉレベルの融合後のデータを取得することができる。第ｉレベルの融合後のデータを復号化処理して、第ｉレベルの目標処理の出力データを取得することができる。

第１顔マスク及び顔テクスチャデータをよりよく融合するために、参照顔画像の顔テクスチャデータに対して階層復号化処理を実行して、異なるサイズの顔テクスチャデータを取得し、同じサイズの顔マスクと目標処理の出力データを融合して、第１顔マスク及び顔テクスチャデータの融合効果を向上させ、目標画像の品質を向上させる。本実施例では、異なるサイズの顔テクスチャデータを取得するために、参照顔画像の顔テクスチャデータに対してｊレベルの復号化処理を実行する。上述ｊレベルの復号化処理のうちの第１レベルの復号化処理の入力データは顔テクスチャデータであり、ｊレベルの復号化処理は、第ｋ－１レベルの復号化処理及び第ｋレベルの復号化処理を含み、第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データである。各レベルの復号化処理はいずれも、活性化処理、逆畳み込み処理、正規化処理を含み、即ち、復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、復号化処理の出力データを取得することができる。ここで、ｊは、２より大きいか等しい正の整数である、ｋは、２より大きいか等しく、ｊより小さいか等しい正の整数である。

一可能な実施形態において、図８に示されたように、再構成された復号化層の数は目標処理の数と同じであり、且つ、第ｒレベルの復号化処理の出力データ（即ち、第ｒレベルの再構成復号化層の出力データ）のサイズは、第ｉレベルの目標処理の入力データのサイズと同じである。第ｒレベルの復号化処理の出力データを第ｉレベルの目標処理の入力データと合併することにより、第ｉレベルの合併後のデータを取得し、この場合、第ｉレベルの合併後のデータを第ｉレベルの目標処理の融合されるデータとして使用し、第ｉレベルの融合されたデータに対して第ｉレベルの目標処理を実行して、第ｉレベルの目標処理の出力データを取得する。上記の方式を通じて、異なるサイズの参照顔画像の顔テクスチャデータを目標画像を取得するプロセスでより適切に使用することができ、目標画像の品質を向上させるのに役立つ。例示的に、上記の合併は、チャネル次元での合併（ｃｏｎｃａｔｅｎａｔｅ）を含む。ここで、第ｉレベルの融合されたデータに対して第ｉレベルの目標処理を実行するプロセスは、上記の可能な実施形態を参照することができる。

図７の目標処理中の第ｉレベルの融合されるデータは、第ｉレベルの目標処理の入力データであり、図８の第ｉレベルの融合されるデータは、第ｉレベルの目標処理の入力データと第ｒレベルの復号化処理の出力データを合併して取得したデータであり、第ｉレベルの融合されたデータ及び第ｉレベルの顔マスクに対して融合処理を実行する後続のプロセスは、全て同じであることに留意されたい。

図７及び図８の目標処理の数と図８の合併の回数は、本発明の実施例で提供する例に過ぎず、本発明の構成を限定するものではないことに留意されたい。例えば、図８は６買いの合併を含み、即ち、各復号化層の出力データは、同じサイズの目標処理の入力データと合併する。合併するたびに最終的に取得される目標画像の品質が向上するが（即ち、合併する回数が多いほど、目標画像の品質が向上する）、合併するたびに大量のデータ処理量が発生し、コストのかかる処理リソース（ここでは、本実施例の実行主体の計算リソースである）も増加するため、合併回数は、ユーザの実際の使用状況に従って調整することができ、例えば、部分的な（最後の層や多層など）再構成復号化層の出力データと同じサイズの目標処理の入力データを合併することができる。

本実施例は、顔テクスチャデータを階層目標処理するプロセス中、第１顔マスクのサイズを調整して取得した異なるサイズの顔マスクと目標処理の入力データを融合することにより、第１顔マスクと顔テクスチャデータの融合効果を向上させるため、目標画像の顔姿勢と参照顔姿勢画像の顔姿勢の一致度を向上させる。参照顔画像の顔テクスチャデータに対して階層復号化処理を実行することにより、異なるサイズの復号化後の顔テクスチャデータを取得し（即ち、異なる再構成復号化層の出力データのサイズは異なる）、同じサイズの復号化後の顔テクスチャデータを目標処理の入力データと融合して、第１顔マスクと顔テクスチャデータの融合効果をさらに向上させることができるため、目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度を向上させる。本実施例で提供される方法により、上記の２つの一致度を向上させる場合、目標画像の品質を向上させることができる。

本発明の実施例は、参照顔画像の顔マスク及び目標画像の顔マスクを処理する技術案を更に提供し、目標画像内の細部（ひげ情報、しわ情報及び肌のテクスチャ情報を含む）を豊かにするため、目標画像の品質を向上させる。図９を参照すると、図９是本発明一実施例で提供される別の画像処理方法の例示的なフローチャートである。

ステップ９０１において、参照顔画像及び目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、参照顔画像の第２顔マスク及び目標画像の第３顔マスクを取得する。

本実施例では、顔キーポイント抽出処理は、画像から顔の輪郭の位置情報、目鼻立ちの位置情報及び顔の表情情報を抽出することができる。参照顔画像及び目標画像に対してそれぞれ顔キーポイント抽出処理を実行することにより、参照顔画像の第２顔マスク及び目標画像の第３顔マスクを取得することができる。第２顔マスクのサイズ、第３顔マスクのサイズ、参照顔画像のサイズ及び参照目標画像のサイズは全て同じである。第２顔マスクは、参照顔画像の顔の輪郭キーポイントの位置情報及び目鼻立ちキーポイントの位置情報及び顔の表情を含み、第３顔マスクは、目標画像の顔の輪郭キーポイントの位置情報及び目鼻立ちキーポイントの位置情報及び顔の表情を含む。

ステップ９０２において、第２顔マスクと第３顔マスクとの間の画素値との間の差に従って、第４顔マスクを決定する。

第２顔マスクと第３顔マスクと間の画素値の差（平均値、分散、相関などの統計データ）を比較することにより、参照顔画像と目標画像の間の詳細な違いを取得し、当該詳細な違いに基づいて第４顔マスクを決定することができる。

一可能な実施形態において、第２顔マスクと第３顔マスクの同じ位置にある画素点の画素値の平均値（以下、画素平均値と呼ぶ）、及び第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散（以下、画素分散と呼ぶ）に従って、アフィン変換フォームを決定する。そして、アフィン変換フォームに従って、第２顔マスク及び第３顔マスクをアフィン変換して、第４顔マスクを取得することができる。ここで、画素平均値をアフィン変換のスケーリング変数として使用し、画素分散をアフィン変換の平行移動変数として使用する。画素平均値をアフィン変換の平行移動変数として使用し、画素分散をアフィン変換のスケーリング変数として使用する。スケーリング変数及び平行移動変数の意味は、ステップ６０２を参照することができる。本実施例では、第４顔マスクのサイズは、第２顔マスクのサイズ及び第３顔マスクのサイズと同じである。第４顔マスクの各画素点には値がある。例示的に、当該数値の値は０ないし１である。ここで、画素点の値が１に近いほど、当該画素点の位置での、参照顔画像の画素点の画素値と目標画像の画素点の画素値の差が大きいことを表す。例えば、参照顔画像における第１画素点の位置、目標画像における第２画素点の位置及び第４顔マスクにおける第３画素点の位置は全て同じであり、第１画素点の画素値と第２画素点の画素値の差が大きいほど、第３画素点の値は大きい。

ステップ９０３において、第４顔マスク、参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得する。

目標画像与参照顔画像の同じ位置にある画素点の画素値の差が小さいほど、目標画像の顔テクスチャデータと参照顔画像の顔テクスチャデータの一致度は高い。ステップ９０２の処理を通じて、参照顔画像と目標画像の同じ位置にある画素点の画素値の差（以下、画素値の差と呼ぶ）を決定することができる。したがって、第４顔マスクに従って目標画像及び参照顔画像を融合して、融合後の画像と参照人画像の間の同じ位置にある画素点の画素値の差を減らすことにより、融合後の画像と参照顔画像の細部の一致度が高くなる。一可能な実施形態において、次の式により、参照顔画像と目標画像を融合する。

式（１）として、

である。

ここで、Ｉ_ｆｕｓｅは、融合後の画像であり、Ｉ_ｇｅｎは目標画像であり、Ｉ_ｒｅｆは参照顔画像であり、ｍａｓｋは第４顔マスクである。（１－ｍａｓｋ）は、第４顔マスクと同じサイズの顔マスクを使用することを指し、且つ各画素点の値が１である顔マスクから第４顔マスクの同じ位置にある画素点の値を減算する。

は、（１－ｍａｓｋ）によって取得された顔マスクに参照顔画像の同じ位置にある値を掛けることを指す。

は、第４顔マスクに参照顔画像の同じ位置にある画素点の値を掛けることを指す。

を介して、目標画像において参照顔画像の画素値との差が小さい位置にある画素値を強化し、目標画像において参照顔画像の画素値との差が大きい位置にある画素値を弱めることができる。

を介して、参照顔画像において目標画像の画素値との差が大きい位置にある画素値を強化し、参照顔画像において目標画像の画素値との差が小さい位置にある画素値を弱めることができる。

によって取得された画像を、

によって取得された画像の同じ位置にある画素点の画素値を追加して、目標画像の細部を強化させ、目標画像の細部と参照顔画像の細部との一致度を向上させることができる。

例えば、参照顔画像における画素点ａの位置、目標画像における画素点ｂの位置、及び第４顔マスクにおける画素点ｃの位置が同じであり、且つ画素点ａの画素値は２５５であり、画素点ｂの画素値は０であり、画素点ｃの値は１である。

によって取得された画像内の画素点ｄの画素値は２５５であり

によって取得された画像における画素点ｄの位置は、参照顔画像における画素点ａの位置と同じである）、且つ

によって取得された画像における画素点ｅの画素値は０である

によって取得された画像における画素点ｄの位置は、参照顔画像における画素点ａの位置と同じである）。画素点ｄの画素値と画素点ｅの画素値を加算を加算して、融合後の画像内の画素点ｆの画素値が２５５であると決定し、即ち、上記の融合処理により取得された画像内の画素点ｆの画素値は、参照顔画像内の画素点ａの画素値と同じである。

本実施例では、新しい目標画像は、上記の融合後の画像である。本実施は、第２顔マスク及び第３顔マスクをアフィン変換して第４顔マスクを取得し、第４顔マスクに従って参照顔画像と目標画像を融合することにより、目標画像の詳細情報を向上させる同時に、目標画像の目鼻立ち位置情報、顔の輪郭位置情報及び表情情報を保持するため、目標画像の品質を向上させる。

本発明の実施例は、本発明で提供される上述実施例における方法を実現するための顔生成ネットワークを更に提供する。図１０を参照すると、図１０は、本発明の一実施例で提供される顔生成ネットワークの概略的な構造図である。図１０に示されたように、顔生成ネットワークの入力は、参照顔姿勢画像及び参照顔画像である。参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、顔マスクを取得する。顔マスクに対してダウンサンプリング処理を実行して第１レベルの顔マスク、第２レベルの顔マスク、第３レベルの顔マスク、第４レベルの顔マスク、第５レベルの顔マスクを取得し、顔マスクを第６レベルの顔マスクとして使用する。ここで、第１レベルの顔マスク、第２レベルの顔マスク、第３レベルの顔マスク、第４レベルの顔マスク、第５レベルの顔マスクはそれぞれ、異なるダウンサンプリング処理により取得され、上記のダウンサンプリング処理は、双一次補間、最近隣内挿、高階補間、畳み込み処理、プーリング処理により実現することができる。

複数の符号化層を介して参照顔画像を段階的符号化処理して、顔テクスチャデータを取得する。そして、多層復号化層を介して顔テクスチャデータに対して階層復号化処理を実行して、再構成画像を取得することができる。再構成画像と参照顔画像の同じ位置の画素値の差により、参照顔画像に対して段階的符号化処理を実行してから階層復号化処理を実行することにより取得された再構成画像と生成画像の差を測定することができ、当該差が小さいほど、参照顔画像に対する符号化処理及び復号化処理により取得された異なるサイズの顔テクスチャデータ（画像の顔テクスチャデータ及び各復号化層の出力データを含む）の品質が高いことを表す（ここで、品質が高いこととは、異なるサイズの顔テクスチャデータに含まれた情報と、参照顔画像に含まれた顔テクスチャ情報の一致度が高いことを指す）。

顔テクスチャデータに対して階層復号化処理を実行するプロセスにおいて、第１レベルの顔マスク、第２レベルの顔マスク、第３レベルの顔マスク、第４レベルの顔マスク、第５レベルの顔マスク、第６レベルの顔マスクを対応するデータとそれぞれ融合して、目標画像を取得することができる。ここで、融合は、適応アフィン変換を含み、即ち、第１所定のサイズの畳み込みカーネル及び第２所定のサイズの畳み込みカーネルをそれぞれ使用して、第１レベルの顔マスク、又は第２レベルの顔マスク、又は第３レベルの顔マスク、又は第４レベルの顔マスク、又は第５レベルの顔マスク、又は第６レベルの顔マスクを畳み込み処理して、第３特徴データ及び第４特徴データを取得し、第３特徴データ及び第４特徴データに従って、アフィン変換フォームを決定し、最後に、アフィン変換フォームに従って、対応するデータをアフィン変換する。このように、顔マスクと顔テクスチャデータの融合効果を向上させることができ、生成画像（即ち、目標画像）の品質を向上させるのに役立つ。

顔テクスチャデータに対して階層復号化処理を実行して再構成画像を取得するプロセスにおける復号化層の出力データ、及び顔テクスチャデータに対して階層復号化を実行して目標画像を取得するプロセスにおける復号化層の出力データに対してｃｏｎｃａｔｅｎａｔｅ処理を実行して、顔マスクと顔テクスチャデータの融合効果を更に向上させ、目標画像の品質を更に向上させることができる。

本発明の実施例から分かるように、本発明は、参照顔姿勢画像から顔マスクを取得し、参照顔画像から顔テクスチャデータを取得してそれぞれ処理することにより、参照顔姿勢画像内の任意の人物の顔姿勢及び参照顔画像内の任意の人物の顔テクスチャデータを取得することができる。このように、顔マスク及び顔テクスチャデータに基づく後続の処理により、顔姿勢が参照顔画像の顔姿勢であり、且つ顔テクスチャデータが参照顔画像の顔テクスチャデータである目標画像を取得することができ、即ち、任意の人物に対する「顔交換」を実現する。

上記の実現の精神及び実施形態に基づいて、本発明は、トレーニング後の顔生成ネットワークが参照顔姿勢画像から品質の高い顔マスクを取得し（即ち、顔マスクに含まれた顔姿勢情報と参照顔姿勢画像に含まれた顔姿勢情報との一致度が高い）、及び参照顔画像から品質の高い顔テクスチャデータを取得することができ（即ち、顔テクスチャデータに含まれた顔テクスチャ情報と参照顔画像に含まれた顔テクスチャ情報との一致度が高い）、顔マスク及び顔テクスチャデータに基づいて品質の高い目標画像を取得することができるようにする、顔生成ネットワークのトレーニング方法を提供する。顔生成ネットワークをトレーニングするプロセスにおいて、第１サンプル顔画像及び第１サンプル顔姿勢画像を顔生成ネットワークに入力して、第１生成画像及び第１再構成画像を取得することができる。ここで、第１サンプル顔画像内の人物は、第１サンプル顔姿勢画像内の人物と異なる。

第１生成画像は、顔テクスチャデータを復号化することにより取得されたものであり、即ち、第１サンプル顔画像から抽出された顔テクスチャ特徴の効果が高いほど（即ち、抽出されたテクスチャ特徴に含まれた顔テクスチャ情報と第１サンプル顔画像に含まれた顔テクスチャ情報の一致度が高い）、後続に取得された第１生成画像の品質が高い（即ち、第１生成画像に含まれた顔テクスチャ情報と第１サンプル顔画像に含まれた顔テクスチャ情報との一致度が高い）。したがって、本実施例は、第１サンプル顔画像及び第１生成画像に対して顔特徴抽出処理をそれぞれ実行することにより、第１サンプル顔画像の特徴データ及び第１生成画像の顔特徴データを取得し、顔特徴損失関数を介して第１サンプル顔画像の特徴データと第１生成画像の顔特徴データの差を測定して、第１損失を取得する。上記の顔特徴抽出処理は、顔特徴抽出アルゴリズムにより実現することができるが、本発明はこれらに対して限定しない。

ステップ１０２の記載によると、顔テクスチャデータを個人のＩＤ情報と見なすことができ、即ち、第１生成画像の顔テクスチャ情報と第１サンプル顔画像の顔テクスチャ情報の一致度が高いほど、第１生成画像内の人物と第１サンプル顔画像内の人物との類似度は高い（ユーザの視覚から見ると、第１生成画像内の人物と第１サンプル顔画像内の人物はますます同一人物に見えてくる）。したがって、本実施例は、損失関数を感知することにより、第１生成画像の顔テクスチャ情報と第１サンプル顔画像の顔テクスチャ情報の差を測定して、第２損失を取得する。第１生成画像と第１サンプル顔画像の間の全体的な類似度が高いほど（ここで、全体的な類似度は、２枚の画像において同じ位置にある画素値の差、２枚の画像の全体的な色の違い、顔領域を除いた２枚の画像の背景領域の一致度を含む）、取得された第１生成画像の品質も高くなる（ユーザの視角から見ると、第１生成画像と第１サンプル顔画像は、人物の表情や輪郭が異なること以外にも、他の全ての画像の内容の類似度が高いほど、第１生成画像内の人物が第１サンプル顔画像内の人物と同一人物に見えてき、且つ第１生成画像において顔領域を除いた画像の内容と、第１サンプル顔画像において顔領域を除いた画像の内容との類似度も高くある）。したがって、本実施例は、損失関数を再構築することにより、第１サンプル顔画像と第１生成画像の全体的な類似度を測定して、第３損失を取得する。顔テクスチャデータと顔マスクの融合効果を向上させるために、顔テクスチャデータ及び顔マスクに基づいて第１生成画像を取得するプロセスにおいて、異なるサイズの復号化処理後の顔テクスチャデータ（即ち、顔テクスチャデータに基づいて第１再構成画像を取得するプロセスにおける各復号化層の出力データ）と、顔テクスチャデータに基づいて第１生成画像を生成するプロセスにおける各復号化層の出力データとに対してｃｏｎｃａｔｅｎａｔｅ処理を実行する。即ち、顔テクスチャデータに基づいて第１再構成画像を取得するプロセスにおける各復号化層の出力データの品質が高いほど（ここでは、復号化層の出力データに含まれた情報と第１サンプル顔画像に含まれた情報との一致度が高いことを指す）、取得された第１生成画像の品質が高く、且つ取得された第１再構成画像と第１サンプル顔画像との類似度も高い。したがって、本実施例は、損失関数を再構築することにより、第１再構成画像と第１サンプル顔画像の間の類似度を測定して、第４損失を取得する。上記の顔生成ネットワークのトレーニングプロセスにおいて、参照顔画像及び参照顔姿勢画像を顔生成ネットワークに入力して、第１生成画像及び第１再構成画像を取得し、上記の損失関数を介して第１生成画像の顔姿勢が第１サンプル顔画像の顔姿勢と一致するように維持し、トレーニング後の顔生成ネットワーク内の複数の符号化層参照顔画像を段階的符号化処理して顔テクスチャデータを取得するときに、参照顔画像から顔姿勢特徴を抽出して、顔姿勢情報を取得することではなく、参照顔画像から顔テクスチャ特徴を抽出することに重点を置くことができる。このように、トレーニング後の顔生成ネットワークを適用して目標画像を生成する場合、取得された顔テクスチャデータに含まれた参照顔画像の顔姿勢情報を減らすことができ、目標画像の品質を向上させるのにより役立つ。

本実施例で提供される顔生成ネットワークは、敵対的ネットワークを生成する生成ネットワークに属し、第１生成画像は、顔生成ネットワークにより生成された画像であり、即ち、第１生成画像は真の画像（即ち、カメラ機器又は写真機器によって撮影された画像である）ではない。取得された第１生成画像の真実性を向上させるために（第１生成画像の真実性が高いほど、ユーザの視角から見ると、第１生成画像がますます真の画像に見えてくる）、敵対的ネットワーク損失（ＧＡＮ：ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋｓ）関数を生成することにより、目標画像の真実性を測定して第５損失を取得する。上記の第１損失、第２損失、第３損失、第４損失、第５損失に基づいて、顔生成ネットワークの第１ネットワーク損失を取得することができ、具体的に、次の式を参照ることができる。

式（２）として、

である。

ここで、Ｌ_{ｔｏｔａｌ}はネットワーク損失であり、Ｌ_１は第１損失であり、Ｌ_２は第２損失であり、Ｌ_３は第３損失であり、Ｌ_４は第４損失であり、Ｌ_５は第５損失である。α_１、α_２、α_３、α_４、α_５は全て任意の自然数である。例示的に、α_４＝２５、α_３＝２５、α_１＝α_２＝α_５＝１である。式（２）によって取得された第１ネットワーク損失に基づいて、逆伝播により、収束によってトレーニングが完了するまで、顔生成ネットワークをトレーニングして、トレーニング後の顔生成ネットワークを取得する。例示的に、顔生成ネットワークをトレーニングするプロセスにおいて、トレーニングサンプルは、第２サンプル顔画像及び第２サンプル姿勢画像をさらに含み得る。ここで、第２サンプル姿勢画像は、第２サンプル顔画像にランダム摂動を追加することにより、第２サンプル顔画像の顔姿勢（例えば、第２サンプル顔画像内の目鼻立ちの位置及び／又は第２サンプル顔画像内の顔の輪郭位置をオフセットする）を変更して、第２サンプル顔姿勢画像を取得することができる。第２サンプル顔画像及び第２サンプル顔姿勢画像を顔生成ネットワークに入力してトレーニングすることにより、第２生成画像及び第２再構成画像を取得する。第２サンプル顔画像及び第２生成画像に従って第６損失を取得し（第６損失を取得するプロセスは、第１サンプル顔画像及び第１生成画像に従って第１損失を取得するプロセスを参照することができる）、第２サンプル顔画像及び第２生成画像に従って第７損失を取得し（第７損失を取得するプロセスは、第１サンプル顔画像及び第１生成画像に従って第２損失を取得するプロセスを参照することができる）、第２サンプル顔画像及び第２生成画像に従って第８損失を取得し（第８損失を取得するプロセスは、第１サンプル顔画像及び第１生成画像に従って第３損失を取得するプロセスを参照することができる）、第２サンプル顔画像及び第２再構成画像に従って第９損失を取得し（第９損失を取得するプロセスは、第１サンプル顔画像及び第１再構成画像に従って第４損失を取得するプロセスを参照することができる）、第２生成画像に従って第１０損失を取得する（第１０損失を取得するプロセスは、第１生成画像に従って第５損失を取得するプロセスを参照することができる）。次に、上記の第６損失、第７損失、第８損失、第９損失、第１０損失及び式（３）に基づいて、顔生成ネットワークの第２ネットワーク損失を参照することができ、具体的に、次の式を参照することができる。

式（３）として、

である。

ここで、Ｌ_{ｔｏｔａｌ２}は第２ネットワーク損失であり、Ｌ_６は第６損失であり、Ｌ_７は第７損失であり、Ｌ_８は第８損失であり、Ｌ_９は第９損失であり、Ｌ_１０は第１０損失である。α_６、α_７、α_８、α_９、α_１０はいずれも、任意の自然数である。例示的に、α_９＝２５、α_８＝２５、α_６＝α_７＝α_１０＝１である。

第２サンプル顔画像及び第２サンプル顔姿勢画像をトレーニングセットとして使用することにより、顔生成ネットワークトレーニングセット内の画像の多様性を高めることができ、顔生成ネットワークのトレーニング効果を向上させるのに役立ち、トレーニングすることにより取得された顔生成ネットワークによって生成された目標画像の品質を向上させることができる。

上記のトレーニングプロセスにおいて、第１生成画像の顔姿勢と第１サンプル顔姿勢画像の顔姿勢が同じになるようにし、又は第２生成画像の顔姿勢と第２サンプル顔姿勢画像の顔姿勢が同じになるようにすることにより、トレーニング後の顔生成ネットワークが参照顔画像を符号化処理して顔テクスチャデータを取得するときに、顔テクスチャデータを取得するために、参照顔画像から顔姿勢特徴を抽出して、顔姿勢情報を取得することではなく、参照顔画像から顔テクスチャ特徴を抽出することに重点を置くことができる。このように、トレーニング後の顔生成ネットワークを適用して目標画像を生成する場合、取得された顔テクスチャデータに含まれた参照顔画像の顔姿勢情報を減らすことができ、目標画像の品質を向上させるのにより役立つ。本実施例で提供される顔生成ネットワーク及び顔生成ネットワークトレーニング方法に基づき、トレーニングに使用される画像の数は１つであってもよいことを理解されたい。即ち、人物が含まれた１枚の画像をサンプル顔画像として使用し、任意の１枚のサンプル顔姿勢画像と顔生成ネットワークに入力し、上記のトレーニング方法を使用して顔生成ネットワークに対するトレーニングを完了し、トレーニング後の顔生成ネットワークを取得する。

本実施例で提供される顔生成ネットワークを適用して取得した目標画像は、参照顔画像の「欠落情報」を含み得ることに更に留意されたい。上記の「欠落情報」は、参照顔画像内の人物の顔の表情と参照顔姿勢画像内の人物の顔の表情との間の差により生成される情報を指す。例えば、参照顔画像内の人物の顔の表情は目を閉じている表情であり、参照顔姿勢画像内の人物の顔の表情は目を開いている表情である。目標画像内の顔の表情を参照顔姿勢画像内の人物の顔の表情と一致するように維持する必要があるが、参照顔画像に目がないため、参照顔画像内の目領域の情報は「欠落情報」である。

更に例えば（例１）、図１１に示されたように、参照顔画像ｄ内の人物の顔の表情は口を閉じている表情であると、画像ｄ内の歯領域の情報は「欠落情報」である。参照顔姿勢画像ｃ内の人物の顔の表情は口を開けている表情である。

本発明の実施例で提供される顔生成ネットワークは、トレーニングプロセスを通じて「欠落情報」と顔テクスチャデータとの間のマッピング関係を学習する。トレーニングされた顔生成ネットワークを適用して目標画像を取得する場合、参照顔画像に「欠落情報」があると、参照顔画像の顔テクスチャデータ及び上記のマッピング関係に従って、目標画像の「欠落情報」を「推定」する。

例１を続き、ｃ及びｄを顔生成ネットワークに入力し、顔生成ネットワークは、ｄからｄの顔テクスチャデータを取得し、トレーニングプロセス中に学習した顔テクスチャデータからｄの顔テクスチャデータとの一致度が最も高い顔テクスチャデータを目標顔テクスチャデータとして決定する。歯情報と顔テクスチャデータの間のマッピング関係に従って、目標顔テクスチャデータに対応する目標歯情報を決定する。目標歯情報に従って目標画像ｅ内の歯領域の画像内容を決定する。

本実施例は、第１損失、第２損失、第３損失、第４損失及び第５損失に基づいて顔生成ネットワークをトレーニングして、トレーニング後の顔生成ネットワークが任意の参照顔姿勢画像から顔マスクを取得し、任意の参照顔画像から顔テクスチャデータを取得するようにすることができ、顔マスク及び顔テクスチャデータに基づいて目標画像を取得することができる。即ち、本実施例で提供される顔生成ネットワーク及び顔生成ネットワークのトレーニング方法により取得されたトレーニング後の顔生成ネットワークを介して、任意の人物の顔を任意の画像に置き換えることができ、即ち、本発明で提供される技術案は普遍的である（即ち、任意の人物を対象者として使用することができる）。本発明の実施例で提供される画像処理方法、及び本発明の実施例で提供される顔生成ネットワーク及び顔生成ネットワークのトレーニング方法に基づいて、本発明の実施例は、いくつかの実現可能な適用シナリオを更に提供する。人々は人を撮影しているとき、外的要因（被写体の動き、撮影機器の揺れ、撮影環境の光の照度）の影響により、撮影された人物の画像がぼやけること（本実施例では、顔領域がぼやけることを指す）、光の照度が弱いこと（本実施例では、顔領域の光の照度が弱いことを指す）などの問題がある可能性がある。端末（携帯電話、コンピュータなど）は、本発明の実施例で提供される技術案を使用して、ボケ画像又は光の照度の弱い画像（即ち、ぼやけた人物画像）に対して顔キーポイント抽出処理を実行して、顔マスクを取得し、模糊画像内の人物を含む鮮明画像を符号化処理して当該人物の顔テクスチャデータを取得することができ、最後に、顔マスク及び顔テクスチャデータに基づいて、目標画像を取得することができる。ここで、目標画像の顔姿勢は、ボケ画像又は光の照度の弱い画像の顔姿勢である。

さらに、ユーザは、本発明で提供される技術案により様々な表情を有する画像を取得することもできる。例えば、Ａが画像ａ内の人物の表情が面白いと思い、画像と同じ表情をしている自分の画像を取得したいと考えた場合、自分の写真と画像ａを端末に入力することができる。端末は、Ａの写真を参照顔画像として使用し、画像ａを参照姿勢画像として使用し、本発明で提供される技術案を使用して、Ａの写真及び画像ａを処理して、目標画像を取得する。当該目標画像では、Ａの表情が画像ａ内の人物の表情である。

別の実現可能なシナリオにおいて、Ｂが映画内のビデオセグメントが面白いと思い、映画の役者さんの顔を自分の顔に置き換えた効果を見たいと考えた場合、Ｂは、自分自身の写真（即ち、処理される顔画像）と当該ビデオセグメント（即ち、処理されるビデオ）を端末に入力することができ、端末は、Ｂの写真を参照顔画像として使用し、ビデオ内の各フレームの画像を参照顔姿勢画像として使用し、本発明で提供される技術案を使用してＢの写真及びビデオの各フレーム画像を処理して、目標ビデオを取得する。目標ビデオ内にある役者さんをＢに「置き換える」。更に別の可能な実現可能なシナリオにおいて、Ｃが画像ｄ内の顔姿勢を画像ｃ内の顔姿勢に置き換えたいと考えると、図１１に示されたように、画像ｃを参照顔姿勢画像として使用し、画像ｄを参照顔画像をとして端末に入力することができる。端末は、本発明で提供される技術案に従ってｃ及びｄを処理して、目標画像ｅを取得する。

本発明の実施例で提供される方法又は顔生成ネットワークを使用して目標画像を取得する場合、１枚又は複数枚の顔画像を同時に参照顔画像として使用することができ、１枚又は複数枚の顔画像を同時に参照顔姿勢画像として使用することもできることを理解されたい。

例えば、端末に画像ｆ、画像ｇ及び画像ｈを顔姿勢画像として順次に入力し、端末に画像ｉ、画像ｊ、画像ｋを顔姿勢画像として順次に入力する場合、端末は、本発明で提供される技術案を使用して画像ｆ及び画像ｉに基づき目標画像ｍを生成し、画像ｇ及び画像ｊに基づき目標画像ｎを生成し、画像ｈ及び画像ｋに基づき目標画像ｐを生成する。

更に例えば、端末に画像ｑ、画像ｒを顔姿勢画像として順次に入力し、端末に画像ｓを顔姿勢画像として入力する場合、端末は、本発明で提供される技術案を使用して、画像ｑ及び画像ｓに基づいて目標画像ｔを生成し、画像ｒ及び画像ｓに基づいて目標画像ｕを生成する。

本発明の実施例で提供されるいくつかの適用シナリオから分かるように、本発明で提供される技術案を適用して、任意の人物の顔を任意の画像又はビデオに置き換えることを実現することができ、任意の顔姿勢での対象者（即ち、参照顔画像内の人物）の画像又はビデオを取得する。

当業者は、具体的な実施形態の上記の方法において、各ステップの書き込み順序は、実施プロセスを限定する厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序はそれらの機能と可能な内部ロジックによって決定されることを理解することができる。

上記は、本発明の実施例の方法を詳細に説明したが、以下は、本発明の実施例の装置を提供する。

図１２を参照すると、図１２は、本発明の実施例で提供される画像処理装置の概略的な構造図であり、当該画像処理装置１は、取得ユニット１１、第１処理ユニット１２及び第２処理ユニット１３を備え、例示的に、当該画像処理装置１は更に、復号化処理ユニット１４、顔キーポイント抽出処理ユニット１５、決定ユニット１６及び融合処理ユニット１７のうちの少なくとも１つのユニットを備える。ここで、
取得ユニット１１は、参照顔画像及び参照顔姿勢画像を取得するように構成され、
第１処理ユニット１２は、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得するように構成され、
第２処理ユニット１３は、前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得するように構成される。

一可能な実施形態において、前記第２処理ユニット１３は、前記顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得し、前記第１顔テクスチャデータ及び前記第１顔マスクに対してｎレベルの目標処理を実行して、前記目標画像を取得するように構成され、前記ｎレベルの目標処理は、第ｍ－１（ｍは、２より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理及び第ｍレベルの目標処理を含み、前記ｎレベルの目標処理のうちの第１レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第ｍ－１レベルの目標処理の出力データは、前記第ｍレベルの目標処理の入力データであり、前記ｎレベルの目標処理のうちの第ｉ（ｉは、１より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理は、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む。

別の可能な実現形態において、前記第２処理ユニット１３は、前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得し、前記第ｉレベルの目標処理の融合されるデータ及び第ｉレベルの顔マスクに対して融合処理を実行して、第ｉレベルの融合後のデータを取得し、ここで、前記第ｉレベルの顔マスクは、前記第１顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第ｉレベルの顔マスクのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じであり、前記第ｉレベルの融合後のデータを復号化処理して、前記第ｉレベルの目標処理の出力データを取得するように構成される。

さらに別の可能な実施形態において、前記画像処理装置１は更に、前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してｊレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記ｊ（ｊは、２より大きいか等しい正の整数である）レベルの復号化処理のうちの第１レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記ｊレベルの復号化処理は、第ｋ－１（ｋは、２より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理及び第ｋレベルの復号化処理を含み、前記第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データであり、第２処理ユニットは、前記ｊレベルの復号化処理のうちの第ｒ（（ｒは、１より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である））レベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを前記第ｉレベルの目標処理の融合されるデータとして取得するように構成され、前記第ｒレベルの復号化処理の出力データのサイズは前記第ｉレベルの目標処理の入力データのサイズと同じである。

さらに別の可能な実施形態において、前記第２処理ユニット１３は、前記第ｒレベルの復号化処理の出力データをチャネル次元で前記第ｉレベルの目標処理の入力データと合併して、前記第ｉレベルの合併後のデータを取得するように構成される。

さらに別の可能な実施形態において、前記第２処理ユニット１３は、第１所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得し、前記第１特徴データ及び前記第２特徴データに従って正規化形式を決定し、前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得するように構成される。

さらに別の可能な実施形態において、前記正規化形式は、目標アフィン変換を含み、前記第２処理ユニット１３は、前記目標アフィン変換に基づき、前記第ｉレベルの目標処理の融合されるデータをアフィン変換して、前記第ｉレベルの融合後のデータを取得するように構成される。

さらに別の可能な実施形態において、前記第２処理ユニット１３は、前記顔テクスチャデータと前記第１顔マスクを融合処理して、目標融合データを取得し、前記目標融合データを復号化処理して、前記目標画像を取得するように構成される。

さらに別の可能な実施形態において、前記第１処理ユニット１２は、複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、ｓ（ｓは、１より大きいか等しい正の整数である）番目の符号化層及びｓ＋１番目の符号化層を含み、前記複数の符号化層のうちの第１層符号化層の入力データは前記参照顔画像であり、前記ｓ番目の符号化層の出力データは、前記ｓ＋１番目の符号化層の入力データである。

さらに別の可能な実施形態において、前記画像処理装置１は更に、前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第２顔マスク及び前記目標画像の第３顔マスクを取得するように構成される顔キーポイント抽出処理ユニット１５と、前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定するように構成される決定ユニット１６であって、前記参照顔画像の第１画素点の画素値と前記目標画像の第２画素点の画素値の差は、前記第４顔マスクの第３画素点の値に正相関を有し、前記参照顔画像における前記第１画素点の位置、前記目標画像における前記第２画素点の位置及び前記第４顔マスクにおける前記第３画素点の位置は全て同じである決定ユニット１６と、前記第４顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニット１７と、を備える。

さらに別の可能な実施形態において、前記決定ユニット１６は、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の平均値に従って、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、前記アフィン変換フォームに従って、前記第２顔マスク及び前記第３顔マスクをアフィン変換して、前記第４顔マスクを取得するように構成される。

さらに別の可能な実施形態において、前記画像処理装置１によって実行される画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置１は、前記顔生成ネットワークトレーニングプロセスを実行するように構成され、前記顔生成ネットワークのトレーニングプロセスは、前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第１生成画像及び前記トレーニングサンプルの第１再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第１サンプル顔姿勢画像を含み、前記第１再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、前記サンプル顔画像及び前記第１生成画像の顔特徴の一致度に従って第１損失を取得し、前記第１サンプル顔画像の顔テクスチャ情報と前記第１生成画像の顔テクスチャ情報との間の差に従って第２損失を取得し、前記第１サンプル顔画像の第４画素点の画素値と前記第１生成画像の第５画素点の画素値との間の差に従って第３損失を取得し、前記第１サンプル顔画像の第６画素点の画素値と前記第１再構成画像の第７画素点の画素値との間の差に従って第４損失を取得し、前記第１生成画像の真実性に従って第５損失を取得することであって、前記第１サンプル顔画像における前記第４画素点の位置は、前記第１生成画像における前記第５画素点の位置と同じであり、前記第１サンプル顔画像における前記第６画素点の位置は、前記第１再構成画像における前記第７画素点の位置と同じであり、前記第１生成画像の真実性が高いほど、前記第１生成画像が真の画像である確率が高くなることを表す、ことと、前記第１損失、前記第２損失、前記第３損失、前記第４損失及び前記第５損失に従って、前記顔生成ネットワークの第１ネットワーク損失を取得することと、前記第１ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む。

さらに別の可能な実施形態において、前記取得ユニット１１は、ユーザによって端末に入力された処理される顔画像を受信し、処理されるビデオを取得し、ここで、前記処理されるビデオは顔であり、前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される。

本実施例は、参照顔画像を符号化処理することにより、参照顔画像内の対象者の顔テクスチャデータを取得することができ、参照顔姿勢画像に対して顔キーポイント抽出処理を実行することにより顔マスクを取得することができ、顔テクスチャデータ及び顔マスクに対して融合処理、符号化処理を実行して目標画像を取得することができ、これにより、任意の対象者の顔姿勢の変更を実現する。

いくつかの実施例において、本発明の実施例で提供される装置が有する機能または含まれたモジュールは、上文の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な具現は、上文の方法の実施例の描述を参照することができ、簡潔にするために、ここでは繰り返して説明しない。

図１３は、本発明の実施例で提供される画像処理装置のハードウェアの概略的な構造図である。当該画像処理装置２は、プロセッサ２１及びメモリ２２を備える。例示的に、当該画像処理装置２は更に、入力装置２３及び出力装置２４を備えることができる。当該プロセッサ２１、メモリ２２、入力装置２３及び出力装置２４は、コネクタを介して結合され、当該コネクタは、様々なインタフェース、伝送ライン又はバスなどを含むが、本発明の実施例は、これらに対して限定しない。本発明の各実施例では、結合とは、直接接続又は他の機器間の接続を含む、特定の方式を介した相互接続を指し、例えば、様々なインタフェース、伝送ライン、バスなどを介して接続することができることを理解されたい。

プロセッサ２１は、１つ又は複数のグラフィックプロセッサ（ＧＰＵ：ｇｒａｐｈｉｃｓｐｒｏｃｅｓｓｉｎｇｕｎｉｔ）であってもよく、プロセッサ２１が１つのＧＰＵである場合、当該ＧＰＵは、シングルコアＧＰＵであってもよく、マルチコアＧＰＵであってもよい。例示的に、プロセッサ２１は、複数のＧＰＵで構成されたプロセッサグループであり得、複数のプロセッサ間は、１つ又は複数のバスを介して互いに結合される。例示的に、当該プロセッサは、他のタイプのプロセッサなどであってもよいが、本発明の実施例はこれらに対して限定しない。メモリ２２は、コンピュータプログラム命令と、本発明の技術案を実行するためのプログラムコードを含む様々なコンピュータプログラムコードとを記憶するように構成される。例示的に、メモリは、ランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、読み取り専用メモリ（ＲＯＭ：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、又はコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、当該メモリは、関連する命令及びデータに使用される。入力装置２３は、データ及び／又は信号を入力するように構成され、出力装置２４は、データ及び／又は信号を出力するように構成される。出力装置２３及び入力装置２４は、独立したデバイスであってもよく、デバイス全体であってもよい。

本発明の実施例では、メモリ２２は、関連する命令を記憶するだけでなく、関連する画像を記憶するためにも使用されることができることが理解できる。例えば、当該メモリ２２は、入力装置２３によって取得された参照顔画像及び参照顔姿勢画像を記憶するように構成されることができ、又は当該メモリ２２は、プロセッサ２１を介して搜索された目標画像などを記憶するように構成されることもできるが、本発明の実施例は、当該メモリに記憶される特定のデータに対して限定しない。図１３は、画像処理装置の簡略化された設計のみを示していることが理解できる。実際の適用では、画像処理装置は、任意の数の入力／出力装置、プロセッサ、メモリなどを含み得るが、これらに限定されない他の必要なコンポーネントを含み得、本発明の実施例を実現することができる画像処理装置の全ては、本発明の保護範囲に含まれる。

本発明の実施例は、プロセッサを更に提案し、前記プロセッサは、上記の画像処理方法を実行するように構成される。

本発明の実施例は、電子機器をさらに提案し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、前記メモリによって記憶された命令を呼び出して、上記の画像処理方法を実行するように構成される。

本発明の実施例は、さらに、コンピュータプログラム命令が記憶されたコンピュータ可読記憶媒体を提案し、前記コンピュータプログラム命令がプロセッサによって実行されると、上記の画像処理方法を実現する。コンピュータ読み取り可能な記憶媒体は、揮発性コンピュータ読み取り可能な記憶媒体または不揮発性コンピュータ読み取り可能な記憶媒体であってもよい。

本発明の実施例は、コンピュータ読み取り可能なコードを含むコンピュータプログラムをさらに提供し、コンピュータ読み取り可能なコードが機器で実行されると、当該機器におけるプロセッサは、上記のいずれか１つの実施例によって提供された画像処理方法を実現するための命令を実行する。

本発明の実施例は、別のコンピュータプログラム製品を更に提供し、前記コンピュータプログラム製品は、コンピュータ可読命令を記憶するように構成され、命令が実行されると、コンピュータが上記のいずれか１つの実施例で提供された画像処理方法の操作を実行するようにする。

当業者は、本明細書で開示された実施例と組み合わせて説明された各例示のユニットおよびアルゴリズムステップが、電子ハードウェア、またはコンピュータソフトウェアおよび電子ハードウェアの組み合わせによって実現されることができることを理解するであろう。これらの機能がハードウェアの形で実行されるかソフトウェアの形で実行されるかは、技術的解決策の特定のアプリケーションと設計上の制約条件に依存する。専門技術者は、各特定の応用に対して異なる方法を使用して、説明された機能を実現することができるが、このような実現は本開示の範囲を超えると見なされるべきではない。

当業者は、説明の便宜上および簡潔にするために、上記に説明されたシステム、装置およびユニットの具体的な作業プロセスは、上記の方法の実施例における対応するプロセスを参照することができることを明確に理解することができ、ここでは繰り返して説明しない。当業者は、本発明の各実施例の説明がそれ自体の焦点を有することを明確に理解することができ、説明の便宜及び簡潔のために、同じ又は類似の部分を異なる実施例で繰り返して説明していない場合があるため、特定の実施例に説明または詳しく説明されていない部分については、他の実施例の記載を参照することができる。

本発明で提供された幾つかの実施例において、開示されたシステム、装置および方法は、他の方法を通じて実現され得ることを理解されたい。例えば、上記で説明された装置の実施例は例示的なものに過ぎず、例えば、当該ユニットの分離は、論理機能の分離に過ぎず、実際の実現時には別の分離方法があり、例えば、複数のユニットまたはコンポーネントを別のシステムに統合または集積したり、または一部の特徴を無視したり、または実行しないことができる。なお、表示または議論された相互結合または直接結合または通信接続は、電気的、機械的または他の形態の一部のインタフェース、装置またはユニットを介した間接的な結合または通信接続であり得る。

前記分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、１箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もある。実際の必要に応じて、その中のユニットの一部または全部を選択して本実施例の技術案の目的を実現することができる。

また、本発明の各実施例における各機能ユニットを１つの処理ユニットに統合してもよく、各ユニットを別々に１つのユニットとして使用してもよいし、２つ以上のユニットを１つのユニットに統合してもよい。

上記の実施例において、ソフトウェア、ハードウェア、ファームウェアまたはそれらの任意の組み合わせによって全体的または部分的に実現することができる。ソフトウェアを使用して実現する場合、コンピュータプログラム製品の形態で全体的または部分的に実現することができる。前記コンピュータプログラム製品は、１つまたは複数のコンピュータ命令を含む。コンピュータに前記コンピュータプログラム命令をロードして実行する場合、本発明の実施例に記載のプロセスまたは機能を全体的または部分的に生成する。前記コンピュータは、汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、または他のプログラマブル装置であり得る。前記コンピュータ命令は、コンピュータ可読記憶媒体に記憶されるか、又は前記コンピュータ可読記憶媒体を介して伝送されることができる。前記コンピュータ命令は、有線（例えば、同軸ケーブル、光ファイバ、デジタル加入者線（ＤＳＬ：ＤｉｇｉｔａｌＳｕｂｓｃｒｉｂｅｒＬｉｎｅ））又は無線（例えば、赤外線、無線、マイクロ波等）を介して、１つのＷｅｂサイト、コンピュータ、サーバまたはデータセンタから別のＷｅｂサイト、コンピュータ、サーバまたはデータセンタに伝送することができる。前記コンピュータ読み取り可能な記憶媒体は、コンピュータがアクセス可能ないずれの利用可能な媒体であり、または１つ以上の利用可能な媒体によって統合されたサーバ、データセンタなどのデータ記憶装置であることができる。前記利用可能な媒体は、磁気媒体（例えば、フロッピー（登録商標）ディスク、ハードディスク、磁気テープ）、光学媒体（例えば、デジタル多用途ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ））、または半導体媒体（例えば、ソリッドステートハードディスク（ＳＳＤ：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ））などであり得る。

当業者は、上記の実施例の方法の全てまたは一部のプロセスは、コンピュータプログラムによって、関連するハードウェアに命令することにより完了してもよいことを当業者なら自明である。当該プログラムは実行される場合、上記の各方法の実施例のプロセスを含み得る。上記の記憶媒体は、読み取り専用メモリ（ＲＯＭ：ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）又はランダムアクセスメモリ（ＲＡＭ：ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、磁気ディスク又は光ディスクなどのプログラムコードを記憶できる様々な媒体を含む、揮発性記憶媒体又は不揮発性記憶媒体であり得る。

上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本発明を限定するものではないことを理解されたい。
例えば、本願は以下の項目を提供する。
（項目１）
画像処理方法であって、
参照顔画像及び参照顔姿勢画像を取得することと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得することと、
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することと、を含む、前記画像処理方法。
（項目２）
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得することと、
前記第１顔テクスチャデータ及び前記第１顔マスクに対してｎ（ｎは、２より大きいか等しい正の整数である）レベルの目標処理を実行して、前記目標画像を取得することであって、前記ｎレベルの目標処理は、第ｍ－１（ｍは、２より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理及び第ｍレベルの目標処理を含み、前記ｎレベルの目標処理のうちの第１レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第ｍ－１レベルの目標処理の出力データは、前記第ｍレベルの目標処理の入力データであり、前記ｎレベルの目標処理のうちの第ｉ（ｉは、１より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理は、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、ことと、を含む、
項目１に記載の画像処理方法。
（項目３）
前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、
前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得することと、
前記第ｉレベルの目標処理の融合されるデータ及び第ｉレベルの顔マスクに対して融合処理を実行して、第ｉレベルの融合後のデータを取得することであって、前記第ｉレベルの顔マスクは、前記第１顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第ｉレベルの顔マスクのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである、ことと、
前記第ｉレベルの融合後のデータを復号化処理して、前記第ｉレベルの目標処理の出力データを取得することと、を含む、
項目２に記載の画像処理方法。
（項目４）
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、
前記顔テクスチャデータに対してｊレベルの復号化処理を実行することをさらに含み、前記ｊ（ｊは、２より大きいか等しい正の整数である）レベルの復号化処理のうちの第１レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記ｊレベルの復号化処理は、第ｋ－１（ｋは、２より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理及び第ｋレベルの復号化処理を含み、前記第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データであり、
前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得することは、
前記ｊレベルの復号化処理のうちの第ｒ（ｒは、１より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを前記第ｉレベルの目標処理の融合されるデータとして取得することを含み、前記第ｒレベルの復号化処理の出力データのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである、
項目３に記載の画像処理方法。
（項目５）
前記ｊレベルの復号化処理のうちの第ｒレベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを取得することは、
前記第ｒレベルの復号化処理の出力データをチャネル次元で前記第ｉレベルの目標処理の入力データと合併して、前記第ｉレベルの合併後のデータを取得することを含む、
項目４に記載の画像処理方法。
（項目６）
前記第ｒレベルの復号化処理は、
前記第ｒレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第ｒレベルの復号化処理の出力データを取得することを含む、
項目４又は５に記載の画像処理方法。
（項目７）
前記第ｉレベルの目標処理の融合されるデータ及び前記第ｉレベルの顔マスクに対して融合処理を実行して、前記第ｉレベルの融合後のデータを取得することは、
第１所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得することと、
前記第１特徴データ及び前記第２特徴データに従って正規化形式を決定することと、
前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得することと、を含む、
項目３ないし６のいずれか一項に記載の画像処理方法。
（項目８）
前記正規化形式は、目標アフィン変換を含み、
前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得することは、
前記目標アフィン変換に基づき、前記第ｉレベルの目標処理の融合されるデータをアフィン変換して、前記第ｉレベルの融合後のデータを取得することを含む、
項目７に記載の画像処理方法。
（項目９）
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータと前記第１顔マスクを融合処理して、目標融合データを取得することと、
前記目標融合データを復号化処理して、前記目標画像を取得することと、を含む、
項目１に記載の画像処理方法。
（項目１０）
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、ｓ（ｓは、１より大きいか等しい正の整数である）番目の符号化層及びｓ＋１番目の符号化層を含み、前記複数の符号化層のうちの第１層符号化層の入力データは前記参照顔画像であり、前記ｓ番目の符号化層の出力データは、前記ｓ＋１番目の符号化層の入力データである、
項目１ないし９のいずれか一項に記載の画像処理方法。
（項目１１）
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
項目１０に記載の画像処理方法。
（項目１２）
前記画像処理方法は、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第２顔マスク及び前記目標画像の第３顔マスクを取得することと、
前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定することであって、前記参照顔画像の第１画素点の画素値と前記目標画像の第２画素点の画素値の差は、前記第４顔マスクの第３画素点の値に正相関を有し、前記参照顔画像における前記第１画素点の位置、前記目標画像における前記第２画素点の位置及び前記第４顔マスクにおける前記第３画素点の位置は全て同じである、ことと、
前記第４顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得することと、をさらに含む、
項目１ないし１１のいずれか一項に記載の画像処理方法。
（項目１３）
前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定することは、
前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の平均値、及び前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、
前記アフィン変換フォームに従って、前記第２顔マスク及び前記第３顔マスクをアフィン変換して、前記第４顔マスクを取得することと、を含む、
項目１２に記載の画像処理方法。
（項目１４）
前記画像処理方法は、顔生成ネットワークに適用され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第１生成画像及び前記トレーニングサンプルの第１再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第１サンプル顔姿勢画像を含み、前記第１再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第１生成画像の顔特徴の一致度に従って第１損失を取得し、前記第１サンプル顔画像の顔テクスチャ情報と前記第１生成画像の顔テクスチャ情報との間の差に従って第２損失を取得し、前記第１サンプル顔画像の第４画素点の画素値と前記第１生成画像の第５画素点の画素値との間の差に従って第３損失を取得し、前記第１サンプル顔画像の第６画素点の画素値と前記第１再構成画像の第７画素点の画素値との間の差に従って第４損失を取得し、前記第１生成画像の真実性に従って第５損失を取得することであって、前記第１サンプル顔画像における前記第４画素点の位置は、前記第１生成画像における前記第５画素点の位置と同じであり、前記第１サンプル顔画像における前記第６画素点の位置は、前記第１再構成画像における前記第７画素点の位置と同じであり、前記第１生成画像の真実性が高いほど、前記第１生成画像が真の画像である確率が高くなることを表す、ことと、
前記第１損失、前記第２損失、前記第３損失、前記第４損失及び前記第５損失に従って、前記顔生成ネットワークの第１ネットワーク損失を取得することと、
前記第１ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
項目１ないし１３のいずれか一項に記載の画像処理方法。
（項目１５）
前記トレーニングサンプルは、第２サンプル顔姿勢画像をさらに含み、前記第２サンプル顔姿勢画像は、前記第２サンプル顔画像にランダム摂動を追加して前記第２サンプル画像の目鼻立ちの位置及び／又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第２サンプル顔画像及び第２サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第２生成画像及び前記トレーニングサンプルの第２再構成画像を取得することであって、前記第２再構成画像は、符号化後の前記第２サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第２サンプル顔画像及び前記第２生成画像の顔特徴の一致度に従って第６損失を取得し、前記第２サンプル顔画像の顔テクスチャ情報と前記第２生成画像の顔テクスチャ情報との間の差に従って第７損失を取得し、前記第２サンプル顔画像の第８画素点の画素値と前記第２生成画像の第９画素点の画素値との間の差に従って第８損失を取得し、前記第２サンプル顔画像の第１０画素点の画素値と前記第２再構成画像の第１１画素点の画素値との間の差に従って第９損失を取得し、前記第２生成画像の真実性に従って第１０損失を取得することであって、前記第２サンプル顔画像における前記第８画素点の位置は、前記第２生成画像における前記第９画素点の位置と同じであり、前記第２サンプル顔画像における前記第１０画素点の位置は、前記第２再構成画像における前記第１１画素点の位置と同じであり、前記第２生成画像の真実性が高いほど、前記第２生成画像が真の画像である確率が高くなることを表す、ことと、
前記第６損失、前記第７損失、前記第８損失、前記第９損失及び前記第１０損失に従って、前記顔生成ネットワークの第２ネットワーク損失を取得することと、
前記第２ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
項目１４に記載の画像処理方法。
（項目１６）
前記参照顔画像及び参照姿勢画像を取得することは、
ユーザによって端末に入力された処理される顔画像を受信することと、
処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得することと、を含む、
項目１ないし１５のいずれか一項に記載の画像処理方法。
（項目１７）
画像処理装置であって、
参照顔画像及び参照顔姿勢画像を取得するように構成される取得ユニットと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得するように構成される第１処理ユニットと、
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得するように構成される第２処理ユニットと、を備える、前記画像処理装置。
（項目１８）
前記第２処理ユニットは、
前記顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得し、
前記第１顔テクスチャデータ及び前記第１顔マスクに対してｎ（ｎは、２より大きいか等しい正の整数である）レベルの目標処理を実行して、前記目標画像を取得するように構成され、前記ｎレベルの目標処理は、第ｍ－１（ｍは、２より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理及び第ｍレベルの目標処理を含み、前記ｎレベルの目標処理のうちの第１レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第ｍ－１レベルの目標処理の出力データは、前記第ｍレベルの目標処理の入力データであり、前記ｎレベルの目標処理のうちの第ｉ（ｉは、１より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理は、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、
項目１７に記載の画像処理装置。
（項目１９）
前記第２処理ユニットは、
前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得し、
前記第ｉレベルの目標処理の融合されるデータ及び第ｉレベルの顔マスクに対して融合処理を実行して、第ｉレベルの融合後のデータを取得し、ここで、前記第ｉレベルの顔マスクは、前記第１顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第ｉレベルの顔マスクのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じであり、
前記第ｉレベルの融合後のデータを復号化処理して、前記第ｉレベルの目標処理の出力データを取得するように構成される、
項目１８に記載の画像処理装置。
（項目２０）
前記画像処理装置は更に、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してｊレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記ｊ（ｊは、２より大きいか等しい正の整数である）レベルの復号化処理のうちの第１レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記ｊレベルの復号化処理は、第ｋ－１（ｋは、２より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理及び第ｋレベルの復号化処理を含み、前記第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データであり、
前記第２処理ユニットは、前記ｊレベルの復号化処理のうちの第ｒ（ｒは、１より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを前記第ｉレベルの目標処理の融合されるデータとして取得するように構成され、前記第ｒレベルの復号化処理の出力データのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである、
項目１９に記載の画像処理装置。
（項目２１）
前記第２処理ユニットは、
前記第ｒレベルの復号化処理の出力データをチャネル次元で前記第ｉレベルの目標処理の入力データと合併して、前記第ｉレベルの合併後のデータを取得するように構成される、
項目２０に記載の画像処理装置。
（項目２２）
前記第ｒレベルの復号化処理は、
前記第ｒレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第ｒレベルの復号化処理の出力データを取得することを含む、
項目２０又は２１に記載の画像処理装置。
（項目２３）
前記第２処理ユニットは、
第１所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得し、
前記第１特徴データ及び前記第２特徴データに従って正規化形式を決定し、
前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得するように構成される、
項目１９ないし２２のいずれか一項に記載の画像処理装置。
（項目２４）
前記正規化形式は、目標アフィン変換を含み、
前記第２処理ユニットは、前記目標アフィン変換に基づき、前記第ｉレベルの目標処理の融合されるデータをアフィン変換して、前記第ｉレベルの融合後のデータを取得するように構成される、
項目２３に記載の画像処理装置。
（項目２５）
前記第２処理ユニットは、
前記顔テクスチャデータと前記第１顔マスクを融合処理して、目標融合データを取得し、
前記目標融合データを復号化処理して、前記目標画像を取得するように構成される、
項目１７に記載の画像処理装置。
（項目２６）
前記第１処理ユニットは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、ｓ（ｓは、１より大きいか等しい正の整数である）番目の符号化層及びｓ＋１番目の符号化層を含み、前記複数の符号化層のうちの第１層符号化層の入力データは前記参照顔画像であり、前記ｓ番目の符号化層の出力データは、前記ｓ＋１番目の符号化層の入力データである、
項目１７ないし２５のいずれか一項に記載の画像処理装置。
（項目２７）
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
項目２６に記載の画像処理装置。
（項目２８）
前記画像処理装置は更に、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第２顔マスク及び前記目標画像の第３顔マスクを取得するように構成される顔キーポイント抽出処理ユニットと、
前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定するように構成される決定ユニットであって、前記参照顔画像の第１画素点の画素値と前記目標画像の第２画素点の画素値の差は、前記第４顔マスクの第３画素点の値に正相関を有し、前記参照顔画像における前記第１画素点の位置、前記目標画像における前記第２画素点の位置及び前記第４顔マスクにおける前記第３画素点の位置は全て同じである、決定ユニットと、
前記第４顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニットと、を備える、
項目１７ないし２７のいずれか一項に記載の画像処理装置。
（項目２９）
前記決定ユニットは、
前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の平均値、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、
前記アフィン変換フォームに従って、前記第２顔マスク及び前記第３顔マスクをアフィン変換して、前記第４顔マスクを取得するように構成される、
項目２８に記載の画像処理装置。
（項目３０）
前記画像処理装置が実行する画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置は、前記顔生成ネットワークのトレーニングプロセスを実行するように構成され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第１生成画像及び前記トレーニングサンプルの第１再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第１サンプル顔姿勢画像を含み、前記第１再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第１生成画像の顔特徴の一致度に従って第１損失を取得し、前記第１サンプル顔画像の顔テクスチャ情報と前記第１生成画像の顔テクスチャ情報との間の差に従って第２損失を取得し、前記第１サンプル顔画像の第４画素点の画素値と前記第１生成画像の第５画素点の画素値との間の差に従って第３損失を取得し、前記第１サンプル顔画像の第６画素点の画素値と前記第１再構成画像の第７画素点の画素値との間の差に従って第４損失を取得し、前記第１生成画像の真実性に従って第５損失を取得することであって、前記第１サンプル顔画像における前記第４画素点の位置は、前記第１生成画像における前記第５画素点の位置と同じであり、前記第１サンプル顔画像における前記第６画素点の位置は、前記第１再構成画像における前記第７画素点の位置と同じであり、前記第１生成画像の真実性が高いほど、前記第１生成画像が真の画像である確率が高くなることを表す、ことと、
前記第１損失、前記第２損失、前記第３損失、前記第４損失及び前記第５損失に従って、前記顔生成ネットワークの第１ネットワーク損失を取得することと、
前記第１ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
項目１７ないし２９のいずれか一項に記載の画像処理装置。
（項目３１）
前記トレーニングサンプルは、第２サンプル顔姿勢画像をさらに含み、前記第２サンプル顔姿勢画像は、前記第２サンプル顔画像にランダム摂動を追加して前記第２サンプル画像の目鼻立ちの位置及び／又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第２サンプル顔画像及び第２サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第２生成画像及び前記トレーニングサンプルの第２再構成画像を取得することであって、前記第２再構成画像は、符号化後の前記第２サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第２サンプル顔画像及び前記第２生成画像の顔特徴の一致度に従って第６損失を取得し、前記第２サンプル顔画像の顔テクスチャ情報と前記第２生成画像の顔テクスチャ情報との間の差に従って第７損失を取得し、前記第２サンプル顔画像の第８画素点の画素値と前記第２生成画像の第９画素点の画素値との間の差に従って第８損失を取得し、前記第２サンプル顔画像の第１０画素点の画素値と前記第２再構成画像の第１１画素点の画素値との間の差に従って第９損失を取得し、前記第２生成画像の真実性に従って第１０損失を取得することであって、前記第２サンプル顔画像における前記第８画素点の位置は、前記第２生成画像における前記第９画素点の位置と同じであり、前記第２サンプル顔画像における前記第１０画素点の位置は、前記第２再構成画像における前記第１１画素点の位置と同じであり、前記第２生成画像の真実性が高いほど、前記第２生成画像が真の画像である確率が高くなることを表す、ことと、
前記第６損失、前記第７損失、前記第８損失、前記第９損失及び前記第１０損失に従って、前記顔生成ネットワークの第２ネットワーク損失を取得することと、
前記第２ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
項目３０に記載の画像処理装置。
（項目３２）
前記取得ユニットは、
ユーザによって端末に入力された処理される顔画像を受信し、
以及処理されるビデオを取得し、前記処理されるビデオは顔であり、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される、
項目１７ないし３１のいずれか一項に記載の画像処理装置。
（項目３３）
プロセッサであって、
項目１ないし１６のいずれか一項に記載の画像処理方法を実行するように構成される、前記プロセッサ。
（項目３４）
電子機器であって、
プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサが前記コンピュータ命令を実行する際に、前記電子機器は、項目１ないし１６のいずれか一項に記載の画像処理方法を実行する、前記電子機器。
（項目３５）
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令が電子機器のプロセッサによって実行されるときに、前記プロセッサに、項目１ないし１６のいずれか一項に記載の画像処理方法を実行させる、前記コンピュータ可読記憶媒体。
（項目３６）
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器におけるプロセッサに、項目１ないし１６のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。

Claims

画像処理方法であって、
参照顔画像及び参照顔姿勢画像を取得することと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得することと、
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することと、を含む、前記画像処理方法。
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得することと、
前記第１顔テクスチャデータ及び前記第１顔マスクに対してｎ（ｎは、２より大きいか等しい正の整数である）レベルの目標処理を実行して、前記目標画像を取得することであって、前記ｎレベルの目標処理は、第ｍ－１（ｍは、２より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理及び第ｍレベルの目標処理を含み、前記ｎレベルの目標処理のうちの第１レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第ｍ－１レベルの目標処理の出力データは、前記第ｍレベルの目標処理の入力データであり、前記ｎレベルの目標処理のうちの第ｉ（ｉは、１より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理は、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、ことと、を含む、
請求項１に記載の画像処理方法。
前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することは、
前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得することと、
前記第ｉレベルの目標処理の融合されるデータ及び第ｉレベルの顔マスクに対して融合処理を実行して、第ｉレベルの融合後のデータを取得することであって、前記第ｉレベルの顔マスクは、前記第１顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第ｉレベルの顔マスクのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである、ことと、
前記第ｉレベルの融合後のデータを復号化処理して、前記第ｉレベルの目標処理の出力データを取得することと、を含む、
請求項２に記載の画像処理方法。
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記画像処理方法は、
前記顔テクスチャデータに対してｊレベルの復号化処理を実行することをさらに含み、前記ｊ（ｊは、２より大きいか等しい正の整数である）レベルの復号化処理のうちの第１レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記ｊレベルの復号化処理は、第ｋ－１（ｋは、２より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理及び第ｋレベルの復号化処理を含み、前記第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データであり、
前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得することは、
前記ｊレベルの復号化処理のうちの第ｒ（ｒは、１より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを前記第ｉレベルの目標処理の融合されるデータとして取得することを含み、前記第ｒレベルの復号化処理の出力データのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである、
請求項３に記載の画像処理方法。
前記ｊレベルの復号化処理のうちの第ｒレベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを取得することは、
前記第ｒレベルの復号化処理の出力データをチャネル次元で前記第ｉレベルの目標処理の入力データと合併して、前記第ｉレベルの合併後のデータを取得することを含む、
請求項４に記載の画像処理方法。
前記第ｒレベルの復号化処理は、
前記第ｒレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第ｒレベルの復号化処理の出力データを取得することを含む、
請求項４又は５に記載の画像処理方法。
前記第ｉレベルの目標処理の融合されるデータ及び前記第ｉレベルの顔マスクに対して融合処理を実行して、前記第ｉレベルの融合後のデータを取得することは、
第１所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得することと、
前記第１特徴データ及び前記第２特徴データに従って正規化形式を決定することと、
前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得することと、を含む、
請求項３ないし６のいずれか一項に記載の画像処理方法。
前記正規化形式は、目標アフィン変換を含み、
前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得することは、
前記目標アフィン変換に基づき、前記第ｉレベルの目標処理の融合されるデータをアフィン変換して、前記第ｉレベルの融合後のデータを取得することを含む、
請求項７に記載の画像処理方法。
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得することは、
前記顔テクスチャデータと前記第１顔マスクを融合処理して、目標融合データを取得することと、
前記目標融合データを復号化処理して、前記目標画像を取得することと、を含む、
請求項１に記載の画像処理方法。
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得することは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得することを含み、前記複数の符号化層は、ｓ（ｓは、１より大きいか等しい正の整数である）番目の符号化層及びｓ＋１番目の符号化層を含み、前記複数の符号化層のうちの第１層符号化層の入力データは前記参照顔画像であり、前記ｓ番目の符号化層の出力データは、前記ｓ＋１番目の符号化層の入力データである、
請求項１ないし９のいずれか一項に記載の画像処理方法。
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
請求項１０に記載の画像処理方法。
前記画像処理方法は、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第２顔マスク及び前記目標画像の第３顔マスクを取得することと、
前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定することであって、前記参照顔画像の第１画素点の画素値と前記目標画像の第２画素点の画素値の差は、前記第４顔マスクの第３画素点の値に正相関を有し、前記参照顔画像における前記第１画素点の位置、前記目標画像における前記第２画素点の位置及び前記第４顔マスクにおける前記第３画素点の位置は全て同じである、ことと、
前記第４顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得することと、をさらに含む、
請求項１ないし１１のいずれか一項に記載の画像処理方法。
前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定することは、
前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の平均値、及び前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定することと、
前記アフィン変換フォームに従って、前記第２顔マスク及び前記第３顔マスクをアフィン変換して、前記第４顔マスクを取得することと、を含む、
請求項１２に記載の画像処理方法。
前記画像処理方法は、顔生成ネットワークに適用され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第１生成画像及び前記トレーニングサンプルの第１再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第１サンプル顔姿勢画像を含み、前記第１再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第１生成画像の顔特徴の一致度に従って第１損失を取得し、前記第１サンプル顔画像の顔テクスチャ情報と前記第１生成画像の顔テクスチャ情報との間の差に従って第２損失を取得し、前記第１サンプル顔画像の第４画素点の画素値と前記第１生成画像の第５画素点の画素値との間の差に従って第３損失を取得し、前記第１サンプル顔画像の第６画素点の画素値と前記第１再構成画像の第７画素点の画素値との間の差に従って第４損失を取得し、前記第１生成画像の真実性に従って第５損失を取得することであって、前記第１サンプル顔画像における前記第４画素点の位置は、前記第１生成画像における前記第５画素点の位置と同じであり、前記第１サンプル顔画像における前記第６画素点の位置は、前記第１再構成画像における前記第７画素点の位置と同じであり、前記第１生成画像の真実性が高いほど、前記第１生成画像が真の画像である確率が高くなることを表す、ことと、
前記第１損失、前記第２損失、前記第３損失、前記第４損失及び前記第５損失に従って、前記顔生成ネットワークの第１ネットワーク損失を取得することと、
前記第１ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
請求項１ないし１３のいずれか一項に記載の画像処理方法。
前記トレーニングサンプルは、第２サンプル顔姿勢画像をさらに含み、前記第２サンプル顔姿勢画像は、前記第２サンプル顔画像にランダム摂動を追加して前記第２サンプル画像の目鼻立ちの位置及び／又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第２サンプル顔画像及び第２サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第２生成画像及び前記トレーニングサンプルの第２再構成画像を取得することであって、前記第２再構成画像は、符号化後の前記第２サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第２サンプル顔画像及び前記第２生成画像の顔特徴の一致度に従って第６損失を取得し、前記第２サンプル顔画像の顔テクスチャ情報と前記第２生成画像の顔テクスチャ情報との間の差に従って第７損失を取得し、前記第２サンプル顔画像の第８画素点の画素値と前記第２生成画像の第９画素点の画素値との間の差に従って第８損失を取得し、前記第２サンプル顔画像の第１０画素点の画素値と前記第２再構成画像の第１１画素点の画素値との間の差に従って第９損失を取得し、前記第２生成画像の真実性に従って第１０損失を取得することであって、前記第２サンプル顔画像における前記第８画素点の位置は、前記第２生成画像における前記第９画素点の位置と同じであり、前記第２サンプル顔画像における前記第１０画素点の位置は、前記第２再構成画像における前記第１１画素点の位置と同じであり、前記第２生成画像の真実性が高いほど、前記第２生成画像が真の画像である確率が高くなることを表す、ことと、
前記第６損失、前記第７損失、前記第８損失、前記第９損失及び前記第１０損失に従って、前記顔生成ネットワークの第２ネットワーク損失を取得することと、
前記第２ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
請求項１４に記載の画像処理方法。
前記参照顔画像及び参照姿勢画像を取得することは、
ユーザによって端末に入力された処理される顔画像を受信することと、
処理されるビデオを取得することであって、前記処理されるビデオは顔である、ことと、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得することと、を含む、
請求項１ないし１５のいずれか一項に記載の画像処理方法。
画像処理装置であって、
参照顔画像及び参照顔姿勢画像を取得するように構成される取得ユニットと、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得し、前記参照顔姿勢画像に対して顔キーポイント抽出処理を実行して、前記顔姿勢画像の第１顔マスクを取得するように構成される第１処理ユニットと、
前記顔テクスチャデータ及び前記第１顔マスクに従って、目標画像を取得するように構成される第２処理ユニットと、を備える、前記画像処理装置。
前記第２処理ユニットは、
前記顔テクスチャデータを復号化処理して、第１顔テクスチャデータを取得し、
前記第１顔テクスチャデータ及び前記第１顔マスクに対してｎ（ｎは、２より大きいか等しい正の整数である）レベルの目標処理を実行して、前記目標画像を取得するように構成され、前記ｎレベルの目標処理は、第ｍ－１（ｍは、２より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理及び第ｍレベルの目標処理を含み、前記ｎレベルの目標処理のうちの第１レベルの目標処理の入力データは前記顔テクスチャデータであり、前記第ｍ－１レベルの目標処理の出力データは、前記第ｍレベルの目標処理の入力データであり、前記ｎレベルの目標処理のうちの第ｉ（ｉは、１より大きいか等しく、且つ前記ｎより小さいか等しい正の整数である）レベルの目標処理は、前記第ｉレベルの目標処理の入力データ及び前記第１顔マスクのサイズを調整した後に取得したデータに対して融合処理、復号化処理を順次に実行することを含む、
請求項１７に記載の画像処理装置。
前記第２処理ユニットは、
前記第ｉレベルの目標処理の入力データに従って、前記第ｉレベルの目標処理の融合されるデータを取得し、
前記第ｉレベルの目標処理の融合されるデータ及び第ｉレベルの顔マスクに対して融合処理を実行して、第ｉレベルの融合後のデータを取得し、ここで、前記第ｉレベルの顔マスクは、前記第１顔マスクに対してダウンサンプリング処理を実行することにより取得されたものであり、前記第ｉレベルの顔マスクのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じであり、
前記第ｉレベルの融合後のデータを復号化処理して、前記第ｉレベルの目標処理の出力データを取得するように構成される、
請求項１８に記載の画像処理装置。
前記画像処理装置は更に、
前記参照顔画像を符号化処理して、前記参照顔画像の顔テクスチャデータを取得した後、前記顔テクスチャデータに対してｊレベルの復号化処理を実行するように構成される復号化処理ユニットを備え、前記ｊ（ｊは、２より大きいか等しい正の整数である）レベルの復号化処理のうちの第１レベルの復号化処理の入力データは前記顔テクスチャデータであり、前記ｊレベルの復号化処理は、第ｋ－１（ｋは、２より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理及び第ｋレベルの復号化処理を含み、前記第ｋ－１レベルの復号化処理の出力データは、前記第ｋレベルの復号化処理の入力データであり、
前記第２処理ユニットは、前記ｊレベルの復号化処理のうちの第ｒ（ｒは、１より大きいか等しく、且つ前記ｊより小さいか等しい正の整数である）レベルの復号化処理の出力データを前記第ｉレベルの目標処理の入力データと合併して、第ｉレベルの合併後のデータを前記第ｉレベルの目標処理の融合されるデータとして取得するように構成され、前記第ｒレベルの復号化処理の出力データのサイズは、前記第ｉレベルの目標処理の入力データのサイズと同じである、
請求項１９に記載の画像処理装置。
前記第２処理ユニットは、
前記第ｒレベルの復号化処理の出力データをチャネル次元で前記第ｉレベルの目標処理の入力データと合併して、前記第ｉレベルの合併後のデータを取得するように構成される、
請求項２０に記載の画像処理装置。
前記第ｒレベルの復号化処理は、
前記第ｒレベルの復号化処理の入力データに対して活性化処理、逆畳み込み処理、正規化処理を順次に実行して、前記第ｒレベルの復号化処理の出力データを取得することを含む、
請求項２０又は２１に記載の画像処理装置。
前記第２処理ユニットは、
第１所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第１特徴データを取得し、第２所定のサイズの畳み込みカーネルを使用して前記第ｉレベルの顔マスクに対して畳み込み処理を実行して第２特徴データを取得し、
前記第１特徴データ及び前記第２特徴データに従って正規化形式を決定し、
前記正規化形式に基づき、前記第ｉレベルの目標処理の融合されるデータに対して正規化処理を実行して、前記第ｉレベルの融合後のデータを取得するように構成される、
請求項１９ないし２２のいずれか一項に記載の画像処理装置。
前記正規化形式は、目標アフィン変換を含み、
前記第２処理ユニットは、前記目標アフィン変換に基づき、前記第ｉレベルの目標処理の融合されるデータをアフィン変換して、前記第ｉレベルの融合後のデータを取得するように構成される、
請求項２３に記載の画像処理装置。
前記第２処理ユニットは、
前記顔テクスチャデータと前記第１顔マスクを融合処理して、目標融合データを取得し、
前記目標融合データを復号化処理して、前記目標画像を取得するように構成される、
請求項１７に記載の画像処理装置。
前記第１処理ユニットは、
複数の符号化層を介して前記参照顔画像を段階的符号化処理して、前記参照顔画像の顔テクスチャデータを取得するように構成され、前記複数の符号化層は、ｓ（ｓは、１より大きいか等しい正の整数である）番目の符号化層及びｓ＋１番目の符号化層を含み、前記複数の符号化層のうちの第１層符号化層の入力データは前記参照顔画像であり、前記ｓ番目の符号化層の出力データは、前記ｓ＋１番目の符号化層の入力データである、
請求項１７ないし２５のいずれか一項に記載の画像処理装置。
前記複数の符号化層のそれぞれは、畳み込み処理層、正規化処理層及び活性化処理層を含む、
請求項２６に記載の画像処理装置。
前記画像処理装置は更に、
前記参照顔画像及び前記目標画像に対してそれぞれ顔キーポイント抽出処理を実行して、前記参照顔画像の第２顔マスク及び前記目標画像の第３顔マスクを取得するように構成される顔キーポイント抽出処理ユニットと、
前記第２顔マスクと前記第３顔マスクの間の画素値との間の差に従って、第４顔マスクを決定するように構成される決定ユニットであって、前記参照顔画像の第１画素点の画素値と前記目標画像の第２画素点の画素値の差は、前記第４顔マスクの第３画素点の値に正相関を有し、前記参照顔画像における前記第１画素点の位置、前記目標画像における前記第２画素点の位置及び前記第４顔マスクにおける前記第３画素点の位置は全て同じである、決定ユニットと、
前記第４顔マスク、前記参照顔画像及び前記目標画像を融合処理して、新しい目標画像を取得するように構成される融合処理ユニットと、を備える、
請求項１７ないし２７のいずれか一項に記載の画像処理装置。
前記決定ユニットは、
前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の平均値、前記第２顔マスクと前記第３顔マスクの同じ位置にある画素点の画素値の分散に従って、アフィン変換フォームを決定し、
前記アフィン変換フォームに従って、前記第２顔マスク及び前記第３顔マスクをアフィン変換して、前記第４顔マスクを取得するように構成される、
請求項２８に記載の画像処理装置。
前記画像処理装置が実行する画像処理方法は、顔生成ネットワークに適用され、前記画像処理装置は、前記顔生成ネットワークのトレーニングプロセスを実行するように構成され、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークにトレーニングサンプルを入力して、前記トレーニングサンプルの第１生成画像及び前記トレーニングサンプルの第１再構成画像を取得することであって、前記トレーニングサンプルは、サンプル顔画像及び第１サンプル顔姿勢画像を含み、前記第１再構成画像は、符号化後の前記サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記サンプル顔画像及び前記第１生成画像の顔特徴の一致度に従って第１損失を取得し、前記第１サンプル顔画像の顔テクスチャ情報と前記第１生成画像の顔テクスチャ情報との間の差に従って第２損失を取得し、前記第１サンプル顔画像の第４画素点の画素値と前記第１生成画像の第５画素点の画素値との間の差に従って第３損失を取得し、前記第１サンプル顔画像の第６画素点の画素値と前記第１再構成画像の第７画素点の画素値との間の差に従って第４損失を取得し、前記第１生成画像の真実性に従って第５損失を取得することであって、前記第１サンプル顔画像における前記第４画素点の位置は、前記第１生成画像における前記第５画素点の位置と同じであり、前記第１サンプル顔画像における前記第６画素点の位置は、前記第１再構成画像における前記第７画素点の位置と同じであり、前記第１生成画像の真実性が高いほど、前記第１生成画像が真の画像である確率が高くなることを表す、ことと、
前記第１損失、前記第２損失、前記第３損失、前記第４損失及び前記第５損失に従って、前記顔生成ネットワークの第１ネットワーク損失を取得することと、
前記第１ネットワーク損失に基づいて前記顔生成ネットワークのパラメータを生成することと、を含む、
請求項１７ないし２９のいずれか一項に記載の画像処理装置。
前記トレーニングサンプルは、第２サンプル顔姿勢画像をさらに含み、前記第２サンプル顔姿勢画像は、前記第２サンプル顔画像にランダム摂動を追加して前記第２サンプル画像の目鼻立ちの位置及び／又は顔の輪郭位置を変更することによって取得されたものであり、
前記顔生成ネットワークのトレーニングプロセスは、
前記顔生成ネットワークに前記第２サンプル顔画像及び第２サンプル顔姿勢画像を入力して、前記トレーニングサンプルの第２生成画像及び前記トレーニングサンプルの第２再構成画像を取得することであって、前記第２再構成画像は、符号化後の前記第２サンプル顔画像を復号化処理することにより取得されたものである、ことと、
前記第２サンプル顔画像及び前記第２生成画像の顔特徴の一致度に従って第６損失を取得し、前記第２サンプル顔画像の顔テクスチャ情報と前記第２生成画像の顔テクスチャ情報との間の差に従って第７損失を取得し、前記第２サンプル顔画像の第８画素点の画素値と前記第２生成画像の第９画素点の画素値との間の差に従って第８損失を取得し、前記第２サンプル顔画像の第１０画素点の画素値と前記第２再構成画像の第１１画素点の画素値との間の差に従って第９損失を取得し、前記第２生成画像の真実性に従って第１０損失を取得することであって、前記第２サンプル顔画像における前記第８画素点の位置は、前記第２生成画像における前記第９画素点の位置と同じであり、前記第２サンプル顔画像における前記第１０画素点の位置は、前記第２再構成画像における前記第１１画素点の位置と同じであり、前記第２生成画像の真実性が高いほど、前記第２生成画像が真の画像である確率が高くなることを表す、ことと、
前記第６損失、前記第７損失、前記第８損失、前記第９損失及び前記第１０損失に従って、前記顔生成ネットワークの第２ネットワーク損失を取得することと、
前記第２ネットワーク損失に基づいて、前記顔生成ネットワークのパラメータを調整することと、をさらに含む、
請求項３０に記載の画像処理装置。
前記取得ユニットは、
ユーザによって端末に入力された処理される顔画像を受信し、
以及処理されるビデオを取得し、前記処理されるビデオは顔であり、
前記処理される顔画像を前記参照顔画像とし、前記処理されるビデオの画像を前記顔姿勢画像として使用して、目標ビデオを取得するように構成される、
請求項１７ないし３１のいずれか一項に記載の画像処理装置。
プロセッサであって、
請求項１ないし１６のいずれか一項に記載の画像処理方法を実行するように構成される、前記プロセッサ。
電子機器であって、
プロセッサ及びメモリを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記コンピュータプログラムコードは、コンピュータ命令を含み、前記プロセッサが前記コンピュータ命令を実行する際に、前記電子機器は、請求項１ないし１６のいずれか一項に記載の画像処理方法を実行する、前記電子機器。
コンピュータプログラムが記憶されたコンピュータ可読記憶媒体であって、
前記コンピュータプログラムはプログラム命令を含み、前記プログラム命令が電子機器のプロセッサによって実行されるときに、前記プロセッサに、請求項１ないし１６のいずれか一項に記載の画像処理方法を実行させる、前記コンピュータ可読記憶媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器におけるプロセッサに、請求項１ないし１６のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。