JP7479507B2

JP7479507B2 - 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム

Info

Publication number: JP7479507B2
Application number: JP2022565680A
Authority: JP
Inventors: 珂珂 ▲賀▼; 俊▲偉▼ 朱; ▲シン▼▲イ▼ ▲張▼; ▲穎▼ ▲タイ▼; ▲チェン▼杰汪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-03-30
Filing date: 2022-08-11
Publication date: 2024-05-08
Anticipated expiration: 2042-08-11
Also published as: KR20230141429A; US20230316607A1; EP4394690A1; JP2024515907A; KR102698791B1

Description

（関連出願への相互参照）
本出願は、出願番号が第２０２２１０３３４０５２．７号であり、出願日が２０２２年３月３０日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本出願に組み込まれる。

本出願は、人工知能、コンピュータービジョンなどの技術分野に関し、特に画像処理方法及び装置、コンピューター機器、コンピューター可読記憶媒体並びにコンピュータープログラム製品に関する。

顔交換は、コンピュータービジョンの分野で重要な技術であり、コンテンツ生成、映画やテレビのポートレート制作、エンターテイメントビデオ制作に広く使用されている。画像Ａと画像Ｂが与えられた場合、顔交換とは、画像Ａの顔特徴を画像Ｂに移行して顔交換画像を得る過程である。

関連技術では、通常、顔交換は、形状フィッティングに基づいて実現される。例えば、検出された画像Ａの顔キーポイント及び画像Ｂの顔キーポイントに基づいて、２つの画像間の顔の五官、輪郭などの領域に関する形状変化関係を計算し、形状変換関係に基づいて画像Ａの顔と画像Ｂの顔とを融合させ、顔交換画像を得ることができる。

上記の形状フィッティング過程では、顔の変形と融合の過程によって顔交換を実現する。しかし、画像Ａの顔と画像Ｂの顔との姿勢差異が大きい場合、単純な形状フィッティングで姿勢差異の大きい顔を処理することができず、結果的に顔交換画像の顔の変形が不自然になり、つまり、顔交換画像の顔と画像Ａの顔との類似度が低く、顔交換の精度が低くなる。

本出願の実施形態は、画像処理方法及び装置、コンピューター機器、コンピューター可読記憶媒体並びにコンピュータープログラム製品を提供し、それは、顔交換前後の類似度を向上させ、それによって顔交換の精度を向上させることができる。

本出願の実施形態は、画像処理方法を提供し、前記画像処理方法は、
顔交換要求を受信するステップであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、ステップと、
前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得するステップであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の３次元属性を示す、ステップと、
前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するステップと、
前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するステップと、
前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るステップと、
正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るステップと、
前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るステップであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、ステップと、を含む。

本出願の実施形態は、画像処理装置を提供し、前記画像処理装置は、
顔交換要求を受信するように構成される属性パラメータ取得モジュールであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、属性パラメータ取得モジュールと、
前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得し、前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するように構成される目標属性パラメータ決定モジュールであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の３次元属性を示す、目標属性パラメータ決定モジュールと、
前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するように構成される総合特徴決定モジュールと、
前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るように構成される符号化モジュールと、
正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るように構成される移行モジュールと、
前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るように構成される復号モジュールであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、復号モジュールと、を備える。

本出願の実施形態は、コンピューター機器を提供し、前記コンピューター機器は、メモリと、プロセッサと、メモリに記憶されたコンピュータープログラムを含み、前記プロセッサは、前記コンピュータープログラムを実行して、上記の画像処理方法を実現する。

本出願の実施形態は、プロセッサに実行される場合、上記の画像処理方法を実現するコンピュータープログラムを記憶した、コンピューター可読記憶媒体を提供する。

本出願の実施形態は、プロセッサに実行される場合、上記の画像処理方法を実現する実現するコンピュータープログラムを含む、コンピュータープログラム製品を提供する。

本出願の実施形態によって提供される技術案がもたらす有益な効果は、以下のとおりである。

本出願の実施形態では、顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定し、それによって、期待される生成しようとする画像内の顔の３次元属性特徴を見つけ出す。該目標属性パラメータと目標顔の顔特徴に基づいて、顔交換対象画像と目標顔を総合的に表すことができる目標総合特徴を得、該顔交換対象画像を符号化して、該顔交換対象画像の画像符号化特徴を得、それによって該画像符号化特徴により該顔交換対象画像の画素レベルにおける細分化特徴を得る。該目標総合特徴を正則化方式により、該顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。本出願の実施形態では、画素レベルまで細分化された符号化特徴をグローバル的な総合特徴と混合させ、画像符号化特徴の特徴分布を目標総合特徴に整列させ、それによって生成された融合符号化特徴の精度を向上させる。該融合符号化特徴を復号することにより、融合顔を含む目標顔交換画像を得、復号された画像が各画素点まで細分化されて目標総合特徴を表現することができ、復号された画像内の融合顔が感覚的により目標顔に近く、融合顔と目標顔との間の感覚上の類似度を向上させ、それによって顔交換の精度を向上させる。

本出願の実施形態による画像処理方法を実現する実施環境の模式図である。本出願の実施形態による顔交換モデルのトレーニング方法の模式的フローチャートである。本出願の実施形態による顔交換モデルのトレーニング過程フレームワークの模式図である。本出願の実施形態による画像処理方法のシグナリングインタラクション図である。本出願の実施形態による画像処理装置の構造的模式図である。本出願の実施形態によるコンピューター機器の構造的模式図である。

本出願の実施形態の技術案をより明瞭に説明するために、以上において、本出願の実施形態の説明に必要とされる図面について簡単に記載されている。

以下に本出願における図面を参照しながら本出願の実施形態を説明する。図面を参照して説明される以下の実施形態は、本出願の実施形態の技術案を解釈するための例示的な説明であり、本出願の実施形態の技術案を限定しないことを理解すべきである。

理解可能なこととして、本出願の具体的な実施形態では、関連する顔画像、例えば、顔交換モデルのトレーニングに使用される第１サンプル画像、第２サンプル画像、姿勢画像、目標対象のビデオなどの対象に関連する任意のデータ、及び、顔交換モデルを使用して顔交換を行う際に使用される顔交換対象画像、目標顔の顔特徴、属性パラメータなどの対象に関連する任意のデータについて、上記の対象に関連する任意のデータは、関連対象の同意又は許可を得た後に取得されるものである。以下の本出願の実施形態が具体的な製品又は技術に適用される場合、対象の許可又は同意を得る必要があり、関連データの収集、使用及び処理は、関連する国と地域の関連法律法規及び基準を遵守する必要がある。また、本出願の画像処理方法を用いていずれかの対象の顔画像に対して実行される顔交換過程は、いずれも、関連対象によってトリガーされた顔交換サービス又は顔交換要求に基づいて、関連対象の許可又は同意を得てから実行される顔交換過程である。

以下では、本出願に関連する技術用語を紹介する。
１）顔交換：ある顔画像内の目標顔を用いて別の画像内の顔を置き換えることである。
２）顔交換モデル：顔交換モデルを呼び出すことによって、目標顔の属性データと顔特徴に基づいて、目標顔をいずれかの顔交換対象画像に入れ替えることができ、本出願の実施形態が提供する画像処理方法は、顔交換対象画像内の顔を専属の目標顔に置き換えるために、該顔交換モデルを使用することができる。
３）顔交換対象画像：顔を置き換える必要がある画像であり、例えば、目標顔を顔交換対象画像に入れ替えることができる。なお、本出願の実施形態の画像処理方法を用いて、顔交換対象画像に対して顔交換を行って目標顔交換画像を得、該目標顔交換画像に含まれる融合顔は、顔交換対象画像内の顔と目標顔との融合であり、融合顔と目標顔の感官の類似度がより高く、しかも、融合顔は、顔交換対象画像内の顔の表情、角度などの姿勢も融合しており、それによって目標顔画像がより迫真的でリアルになる。
４）属性パラメータ：画像の属性パラメータは、画像内の顔の３次元属性を示すために用いられ、顔の３次元空間における姿勢、空間環境などの属性を表すことができる。
５）顔特徴：両目間の距離、鼻の大きさなどの画像内の顔の２次元平面における特徴を表し、顔特徴は、該顔特徴を備える対象のアイデンティティを表すことができる。
６）目標顔：画像内の顔を置き換えるための専属顔であり、目標顔は、ユーザの選択操作に基づいて指定された顔であってもよい。本出願の実施形態は、該目標顔を専属顔とする顔交換サービスを提供し、即ち、専属の目標顔を任意の顔交換対象画像に入れ替えることができる。例えば、目標顔Ａは画像Ｂの顔を置き換えることができ、目標顔Ａは画像Ｃの顔を置き換えることもできる。
７）第１サンプル画像：該第１サンプル画像は、該目標顔を含み、顔交換モデルのトレーニングに使用される画像である。
８）第２サンプル画像：該第２サンプル画像は、交換対象顔を含み、顔交換モデルのトレーニングに使用される画像である。トレーニング過程では、第１サンプル画像内の目標顔を専属顔とし、第１サンプル画像内の目標顔を第２サンプル画像に入れ替え、この過程に基づいて顔交換モデルをトレーニングして得ることができる。

図１は、本出願による画像処理方法の実施環境の模式図である。図１に示すように、該実施環境は、サーバ１１と端末１２とを含む。

該サーバ１１は、トレーニングして得られた顔交換モデルが配置され、該サーバ１１は、顔交換モデルに基づいて顔交換機能を端末１２に提供することができる。該顔交換サービスとは、目標顔に基づいて顔交換対象画像内の顔に対して顔交換を行うことによって、生成された目標顔画像内の融合顔が該画像内の元の顔と目標顔とを融合させることができるサービスである。一部の実施形態では、該端末１２は、顔交換要求を該サーバ１１に送信することができ、該顔交換要求は、顔交換対象画像を含むことができ、該サーバ１１は、該顔交換要求に基づいて、本出願の画像処理方法を実行して目標顔交換画像を生成し、該目標顔交換画像を該端末１２に返信することができる。一部の実施形態では、該サーバ１１は、アプリケーションプログラムのバックグラウンドサーバであり得る。該端末１２にはアプリケーションプログラムがインストールされており、該端末１２と該サーバ１１は該アプリケーションプログラムによってデータインタラクションを行うことで、顔交換過程を実現することができる。該アプリケーションプログラムは、顔交換機能が配置され得る。該アプリケーションプログラムは、顔交換機能をサポートする任意の１つのアプリケーションであり、例えば、該アプリケーションプログラムは、ビデオ編集アプリケーション、画像処理ツール、ビデオアプリケーション、ライブブロードキャストアプリケーション、ソーシャルアプリケーション、コンテンツインタラクションプラットフォーム、ゲームアプリケーションなどを含むが、これらに限定されない。

サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツ配信ネットワーク（ＣＤＮ：ＣｏｎｔｅｎｔＤｅｌｉｖｅｒｙＮｅｔｗｏｒｋ）、及びビッグデータと人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバ又はサーバクラスタであってもよい。上記ネットワークは、有線ネットワーク及び無線ネットワークを含むことができるが、これらに限定されず、ここで、該有線ネットワークは、ローカルエリアネットワーク、メトロポリタンエリアネットワーク及び広域ネットワークを含み、該無線ネットワークは、ブルートゥース（登録商標）、Ｗｉ－Ｆｉ及びその他の無線通信を実現するネットワークを含む。端末は、スマートフォン（Ａｎｄｒｏｉｄ携帯電話、ｉＯＳ携帯電話など）、タブレットコンピューター、ノートコンピューター、デジタル放送受信機、モバイルインターネット機器（ＭＩＤ：ＭｏｂｉｌｅＩｎｔｅｒｎｅｔＤｅｖｉｃｅｓ）、パーソナルデジタルアシスタント、デスクトップコンピューター、車載端末（車載ナビゲーション端末、車載コンピューターなど）、スマート家電、航空機、スマートスピーカー、スマートウォッチなどであってもよく、端末とサーバは有線通信又は無線通信で直接又は間接的に接続することができるが、これらに限定されない。

本出願の実施形態で提供される画像処理方法は、下記の人工知能及びコンピュータービジョンなどの技術に関わり、例えば、人工知能技術におけるクラウドコンピューティング及びビッグデータ処理などの技術を使用して、第１サンプル画像内の属性パラメータの抽出、顔交換モデルのトレーニングなどの過程を実現する。例えば、コンピュータービジョン技術を使用して、ビデオ内の画像フレームに対して顔認識を実行し、目標顔を含む第１サンプル画像を切り取る。

人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピューター又はデジタルコンピューターによって制御される機械を使用して、人間の知能をシミュレート、延伸、拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。つまり、人工知能は、コンピューター科学の総合技術であり、知能の本質を理解し、人間の知能に似た方法で反応する新しい知能機械を生産しようとするものである。人工知能は、つまり、各種の知能機械の設計原理と実現方法を研究し、機械に感知、推理と決定の機能を持たせる。

人工知能技術は、総合学科であり、分野が広く、ハードウェアの技術もあれば、ソフトウェアの技術もある。人工知能基礎技術は一般的に、例えばセンサー、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、操作／インタラクションシステム、機電一体化などの技術を含む。人工知能ソフトウェア技術は主にコンピュータービジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習、自動運転、スマート交通などのいくつかのテーマを含む。

理解すべきこととして、コンピュータービジョン技術（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）は、どのように機械に「見えるようにする」かについて研究する科学であり、さらに、人間の目の代わりにカメラとコンピューターを使用して目標を識別及び測定し、さらにグラフィック処理を行うことによって、コンピューターで処理した画像が、人間の目で観察したり、機器の検出に転送したりするのにより適した画像になる。科学学科として、コンピュータービジョンは関連する理論と技術を研究し、画像又は多次元データから情報を取得することができる人工知能システムを構築しようとするものである。コンピュータービジョン技術は、通常、画像処理、画像認識、画像セマンティック理解、画像検索、光学キャラクター認識、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ／動作認識、３次元対象再構成、３Ｄ技術、仮想現実、拡張現実、同期位置決めと地図構築、自動運転、スマート交通などの技術を含み、一般的な顔認識、指紋認識などの生物特徴認識技術も含む。

本出願の実施形態が解決する技術的課題、実施される技術案及び達成される技術的効果をより明確にするために、以下に図面を参照して本出願の実施形態をさらに詳細に説明する。

図２は、本出願の実施形態による顔交換モデルのトレーニング方法の模式的フローチャートである。該方法の実行主体は、コンピューター機器（例えば、図１に示すサーバ１１）であってもよい。図２に示すように、該方法は以下のステップ２０１～２０８を含む。

ステップ２０１において、コンピューター機器は、第１サンプル画像の顔特徴及び属性パラメータを取得し、第２サンプル画像の属性パラメータを取得する。

第１サンプル画像は目標顔を含み、第２サンプル画像は交換対象顔を含む。コンピューター機器は、任意の顔を含むデータを第２サンプル画像として収集し、様々な姿勢角度を有する目標顔を含む画像を第１サンプル画像として収集することができる。コンピューター機器は、顔パラメータ推定モデルにより、第１サンプル画像の属性パラメータ及び第２サンプル画像の属性パラメータを取得することができる。コンピューター機器は、顔認識モデルによって第１サンプル画像の顔特徴を取得することができる。

顔パラメータ推定モデルは、入力された２次元顔画像に基づいて顔の３次元属性パラメータを推定するために用いられる。顔パラメータ推定モデルは、畳み込みニューラルネットワーク構造のモデルであってもよく、例えば、顔パラメータ推定モデルは、３次元変形可能な顔モデル（３ＤＭＭ：３ＤＭｏｒｐｈａｂｌｅｍｏｄｅｌｓ）であってもよい。本出願の実施形態は、３ＤＭＭ内の残差ネットワーク（ＲｅｓＮｅｔ：ＲｅｓｉｄｕａｌＮｅｔｗｏｒｋ）により回帰分析を行って入力された２次元顔画像の３次元の属性パラメータを得ることができる。顔パラメータ推定モデルは、２次元画像内の顔の３次元属性パラメータを抽出する機能を備えた他の任意のモデルであってもよく、ここでは３ＤＭＭモデルのみを例として説明する。

属性パラメータは、画像内の顔の３次元属性を示すために用いられ、３次元空間における顔の姿勢、空間環境などの属性を表すことができる。属性パラメータは、形状係数（ｉｄ＿ｃｏｅｆｆ）、表情係数（ｅｘｐｒｅｓｓｉｏｎ＿ｃｏｅｆｆ）、テクスチャ係数（ｔｅｘｔｕｒｅ＿ｃｏｅｆｆ）、角度係数（ａｎｇｌｅｓ＿ｃｏｅｆｆ）、光照射係数（ｇａｍｍａ＿ｃｏｅｆｆ）などを含むが、これらに限定されない。形状係数は顔の形状、顔の五官の形状などを表し、角度係数は顔のピッチ角、左右の偏向角などの角度を表し、テクスチャ係数は顔の皮膚、毛髪などを表すことができ、光照射係数は、画像内の顔が位置する周囲環境の光照射状況を表すことができる。

本出願の実施形態によって提供されるコンピューター機器は、形状係数、表情係数、テクスチャ係数、角度係数、及び光照射係数のうちの指定された１つ又は複数を各サンプル画像の属性パラメータとして抽出することができ、それらの全てを対応するサンプル画像の属性パラメータとして抽出することもできる。対応して、第１サンプル画像及び第２サンプル画像の属性パラメータの取得方式は、以下の３つの方式を含むことができる。

方式１：コンピューター機器は、第１サンプル画像内の目標顔の形状係数を第１サンプル画像の属性パラメータとして抽出し、コンピューター機器は、第２サンプル画像における表情係数及び角度係数を第２サンプル画像の属性パラメータとして抽出する。

方式１において、第１サンプル画像の属性パラメータは、第１サンプル画像における目標顔の形状係数を含む。第２サンプル画像の属性パラメータは、第２サンプル画像における顔の表情係数及び角度係数を含む。第１サンプル画像の形状係数及び第２サンプル画像の表情係数と角度係数を取得し、後続で目標顔の形状特徴と、交換対象顔の表情、角度などの特徴とを利用して融合を行うことで、融合して得られたサンプル顔交換画像内の顔が目標顔の五官形状、及び交換対象顔の表情、角度などを備えることができ、それによって、融合された顔と目標顔との五官形状上の類似度を向上させる。

方式２：第２サンプル画像について、コンピューター機器は、第２サンプル画像の予め設定されたパラメータを第２サンプル画像の属性パラメータとして取得することができる。第１サンプル画像について、コンピューター機器は、第１サンプル画像における目標顔の形状係数を第１サンプル画像の属性パラメータとして抽出する。

方式２において、コンピューター機器は、必要に応じて、第２サンプル画像の属性パラメータにどのパラメータを含ませるかを構成し、第２サンプル画像の属性パラメータは予め設定されたパラメータを含むことができる。例えば、予め設定されたパラメータは、表情係数、テクスチャ係数、角度係数、及び光照射係数のうちの少なくとも１つを含むことができる。予め設定されたパラメータは、必要に応じて予め設定されたパラメータであり、例えば、光照射係数、表情係数を含む予め設定されたパラメータにより、最終的に融合して得られた顔に交換対象顔の周囲環境の光照射、表情などの特徴を持たせる。予め設定されたパラメータがテクスチャ係数、角度係数などを含むように設定することもでき、ここでは繰り返して記載しない。

方式３：コンピューター機器は、第１サンプル画像及び第２サンプル画像の複数のパラメータを対応する属性パラメータとして抽出することもでき、後続のステップで複数のパラメータから必要なパラメータをさらに抽出することができる。

例として、第１サンプル画像の属性パラメータは、第１サンプル画像における目標顔の形状係数、表情係数、テクスチャ係数、角度係数、光照射係数などの５つのパラメータを含み得る。例えば、属性パラメータはベクトルで表すことができ、第１サンプル画像の属性パラメータが上記５つのパラメータを含む場合、第１サンプル画像の属性パラメータは２５７次元の特徴ベクトルとして表すことができる。第２サンプル画像の属性パラメータも、第２サンプル画像の形状係数、表情係数、テクスチャ係数、角度係数、光照射係数などの５つのパラメータを含み得、対応して、第２サンプル画像の属性パラメータも２５７次元の特徴ベクトルとして表すことができる。

一部の実施形態では、コンピューター機器は、様々な姿勢角度における目標顔の姿勢画像を取得し、複数の姿勢画像に基づいて第１サンプル画像の顔特徴及び属性パラメータを抽出することができる。コンピューター機器によって第１サンプル画像の顔特徴及び属性パラメータを取得する過程は、以下の技術案により実現され得る。コンピューター機器が少なくとも２つの姿勢画像を第１サンプル画像として取得し、少なくとも２つの姿勢画像が目標顔の少なくとも２つの顔姿勢を含み、コンピューター機器は、少なくとも２つの姿勢画像に基づいて、少なくとも２つの顔姿勢に対応する顔特徴及び属性パラメータを取得し、コンピューター機器は、少なくとも２つの顔姿勢に対応する顔特徴の平均値を第１サンプル画像の顔特徴とし、少なくとも２つの顔姿勢に対応する属性パラメータの平均値を第１サンプル画像の属性パラメータとする。コンピューター機器は、顔パラメータ推定モデルを呼び出して、少なくとも２つの姿勢画像内の各姿勢画像の属性パラメータを抽出し、少なくとも２つの姿勢画像の属性パラメータの平均値を計算し、少なくとも２つの姿勢画像の属性パラメータの平均値を第１サンプル画像の属性パラメータとすることができる。コンピューター機器は、顔認識モデルを呼び出して、少なくとも２つの姿勢画像内の各姿勢画像の２次元平面における顔特徴を抽出し、少なくとも２つの姿勢画像の顔特徴の平均値を計算し、少なくとも２つの姿勢画像の顔特徴の平均値を第１サンプル画像の顔特徴とすることができる。例えば、第１サンプル画像の顔特徴は５１２次元の特徴ベクトルであってもよい。顔特徴は目標対象のアイデンティティを表し、目標顔は目標対象の顔である。

一部の実施形態では、コンピューター機器は、目標顔を含む複数の姿勢画像をビデオから抽出することができる。コンピューター機器によって少なくとも２つの姿勢画像を第１サンプル画像として取得することは、以下の技術案により実現され得る。コンピューター機器は、目標対象のビデオに含まれる少なくとも２つの画像フレームに対して顔認識処理を実行し、目標顔を含む少なくとも２つの画像フレームを取得し、目標対象の顔が目標顔であり、コンピューター機器は、少なくとも２つの画像フレームに対して顔の切り取り処理を実行して、少なくとも２つの姿勢画像を取得し、少なくとも２つの姿勢画像を第１サンプル画像とする。顔姿勢は、顔の表情、角度、顔の五官の形状、動作、顔に着用する眼鏡、顔のメイクなどのいずれかの属性を含むことができるが、これらに限定されない。コンピューター機器は、顔姿勢のいずれかの属性によって姿勢を区別することができる。例えば、笑顔の表情の顔と怒りの表情の顔は２つの姿勢の顔とすることができ、眼鏡をかけている顔とかけていない顔も２つの姿勢の顔とすることもでき、目標顔のピッチ角が上向き４５°であり、目が閉じた顔と、ピッチ角が下向き３０°であり、目が開いた顔も２つの姿勢の顔とすることもできる。コンピューター機器は、目標顔の複数の独立した静止画像を取得し、複数の独立した静止画像から複数の姿勢画像を抽出することもできる。コンピューター機器は、複数の静止画像に対して顔の切り取り処理を実行し、少なくとも２つの姿勢画像を取得し、少なくとも２つの姿勢画像を第１サンプル画像とすることもできる。

一部の実施形態では、コンピューター機器は、以下の技術案により、画像フレームに対して顔の切り取りを実行して姿勢画像を得ることができる。まず、コンピューター機器は、画像フレームに対して顔検出を実行して、画像フレームの顔座標枠を得る。具体的には、画像フレーム内の目標顔の所在する顔領域を、顔座標枠によって囲む。次に、コンピューター機器は、画像フレームの顔座標枠に基づいて画像フレームに対して顔のマッピング処理を行い、画像フレーム内の目標顔キーポイントを得る。具体的には、目標顔キーポイントは画像フレーム内の目標顔の五官キーポイント、顔輪郭キーポイントを含むことができ、髪キーポイントなども含むことができる。コンピューター機器は、ＹＯＬＯネットワークなどの目標検出ネットワークによって、画像フレームに対してキーポイント検出処理を行うことを実現することができ、目標検出ネットワークの入力情報は、顔画像と画像フレーム内の顔画像の顔座標枠であり、出力情報は、目標顔キーポイントを含む顔キーポイント座標シーケンスであり、顔キーポイント座標シーケンスに含まれるキーポイントの数量は、顔の細部の需要に応じて予め設定することができ、例えば、顔キーポイント座標シーケンスに含まれるキーポイントの数量は、５点、６８点、９０点などの固定値であってもよい。最後、コンピューター機器は、目標顔キーポイントに基づいて画像フレームに対して顔の切り取り処理を実行して、姿勢画像を取得し、顔キーポイント座標シーケンスによって表された順序に従って、目標顔キーポイントに対して接続処理を行い、接続して得られた閉じた図形を姿勢画像とする。

一部の実施形態では、コンピューター機器は、第２サンプル画像を取得する過程については、第１サンプル画像を取得する過程と同じである。例えば、コンピューター機器は、任意の対象を含む対象画像を取得し、対象画像に対して顔の切り取り処理を実行して、対象の顔を含む画像を取得し、対象の顔を含む画像を第２サンプル画像とすることができる。顔の切り取り方式は、画像フレームに対して顔の切り取りを行って姿勢画像を得る技術案と同じであり、ここでは繰り返して記載しない。また、コンピューター機器は、顔パラメータ推定モデルを呼び出して第２サンプル画像の属性パラメータを抽出することができる。

一部の実施形態では、コンピューター機器は、第１サンプル画像の顔特徴及び属性パラメータを記憶することができる。具体的に、コンピューター機器は、第１サンプル画像の顔特徴及び属性パラメータを予め設定された記憶アドレスである目標アドレスに記憶する。目標顔の顔特徴及び属性パラメータを固定的に記憶することで、後続の利用時に目標アドレスからデータ抽出を直接行うのに便利であることができる。例えば、トレーニングされた顔交換モデルを用いて外部に専属の顔交換サービスを提供する場合、固定記憶の方式により、コンピューター機器は、記憶された目標顔の顔特徴と属性パラメータを直接抽出し、専属の目標顔をいずれかの顔画像に入れ替える専属の顔交換過程を実現することができる。例えば、反復トレーニング段階では、目標顔の顔特徴と属性パラメータを目標アドレスから直接抽出してトレーニングすることができる。

ステップ２０２において、コンピューター機器は、第１サンプル画像の属性パラメータ及び第２サンプル画像の属性パラメータに基づいてサンプル属性パラメータを決定する。

サンプル属性パラメータは、生成しようとするサンプル顔交換画像内の期待属性を示すために用いられる。

ステップ２０１の方式１に対応して、コンピューター機器は、第１サンプル画像の形状係数と第２サンプル画像の表情係数及び角度係数をサンプル属性パラメータとして決定することができる。

ステップ２０１の方式２及び方式３に対応して、コンピューター機器は、第１サンプル画像及び第２サンプル画像の各属性パラメータを必要に応じてサンプル属性パラメータとして選択することができる。ステップ２０２は、以下の技術案によって実現され得る。コンピューター機器は、第１サンプル画像の形状係数及び第２サンプル画像の予め設定されたパラメータを目標属性パラメータとして決定し、第２サンプル画像の予め設定されたパラメータが表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも１つを含む。ステップ２０１の方式２に対応して、予め設定されたパラメータは、ステップ２０１の方式２で得られた予め設定されたパラメータであってもよく、このステップで、コンピューター機器は、第２サンプル画像の予め設定されたパラメータを直接取得してもよい。ステップ２０１の方式３に対応して、予め設定されたパラメータは、５つの係数を含む属性パラメータから抽出された予め設定されたパラメータであってもよく、このステップで、コンピューター機器は、予め設定されたパラメータ識別子に基づいて、第２サンプル画像から、予め設定されたパラメータ識別子に対応する予め設定されたパラメータを抽出することができる。例えば、予め設定されたパラメータ識別子は、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも１つのパラメータのパラメータ識別子を含むことができる。例えば、予め設定されたパラメータは、表情係数及び角度を含むことができ、即ち、生成しようとするサンプル顔交換画像内の顔の、期待している目標顔の顔、五官などの形状、及び第２サンプル画像における顔の表情、角度などを含むことができる。コンピューター機器は、目標顔の形状係数、及び第２サンプル画像の表情係数及び角度を目標属性パラメータとして決定することができる。例えば、予め設定されたパラメータは、テクスチャ係数と光照射係数を含むこともでき、即ち、サンプル顔交換画像内の顔の、期待している目標顔の形状、及び第２サンプル画像における顔のテクスチャ係数、光照射係数などを含むことができる。コンピューター機器は、目標顔の形状係数、及び第２サンプル画像のテクスチャ係数及び光照射係数をサンプル属性パラメータとして決定することもできる。

ステップ２０３において、コンピューター機器は、サンプル属性パラメータ及び第１サンプル画像の顔特徴に基づいて、サンプル総合特徴を決定する。

コンピューター機器は、サンプル属性パラメータと第１サンプル画像の顔特徴とを結合し、結合によって得られた結合特徴をサンプル総合特徴とすることができる。サンプル総合特徴は、期待される生成しようとするサンプル顔特徴のうち、顔の総合特徴を表すことができる。例えば、サンプル属性パラメータ及び顔特徴は、特徴ベクトルの形で表現することができ、コンピューター機器は、サンプル属性パラメータに対応する第１特徴ベクトルと、顔特徴に対応する第２特徴ベクトルとに対して結合操作を実行し、サンプル総合特徴に対応する第３特徴ベクトルを取得することができる。

ステップ２０４において、コンピューター機器は、第２サンプル画像に対して符号化処理を行い、サンプル符号化特徴を得る。

コンピューター機器は、第２サンプル画像を初期化された顔交換モデルのエンコーダに入力し、エンコーダによって第２サンプル画像に対して符号化処理を行い、第２サンプル画像に対応する符号化ベクトルを得、符号化ベクトルをサンプル符号化特徴とする。第２サンプル画像を符号化してサンプル符号化特徴を得ることにより、第２サンプル画像に含まれる各画素点の画素レベル情報を正確に細分化する。

エンコーダは複数のカスケード接続された畳み込み層を含み、複数のカスケード接続された畳み込み層によって第２サンプル画像に対して畳み込み処理を行い、各畳み込み層は畳み込み処理の結果を次の畳み込み層に入力して畳み込み処理を続行し、最後の畳み込み層の出力はサンプル符号化特徴である。

ステップ２０５において、コンピューター機器は、正則化方式によってサンプル総合特徴を第２サンプル画像のサンプル符号化特徴に移行し、サンプル融合特徴を取得する。

コンピューター機器は、ステップ２０５を採用して、サンプル総合特徴とサンプル符号化特徴との融合を実現することができる。コンピューター機器は、正則化方式を使用して、サンプル符号化特徴に対してサンプル総合特徴の第３特徴分布を第２サンプル画像の第４特徴分布と整列させ、サンプル融合特徴を得ることができる。一部の実施形態において、特徴分布は、平均値及び標準偏差を含み得る。対応して、ステップ２０５は、以下の技術案によって実現され得る。コンピューター機器は、少なくとも１つの特徴チャネルにおけるサンプル符号化特徴の第３平均値及び第３標準偏差を取得し、第３平均値及び第３標準偏差に合致する正規分布を第３特徴分布とし、少なくとも１つの特徴チャネルにおけるサンプル総合特徴の第４平均値及び第４標準偏差を取得し、第４平均値及び第４標準偏差に合致する正規分布を第４特徴分布とする。コンピューター機器は、各特徴チャネルにおけるサンプル符号化特徴の平均値及び標準偏差（第３特徴分布）を、対応する特徴チャネルにおけるサンプル総合特徴の平均値と標準偏差（第４特徴分布）に対して整列処理して、サンプル融合特徴を得る。コンピューター機器は、サンプル符号化特徴の各特徴チャネルを正規化し、正規化されたサンプル符号化特徴の平均値及び標準偏差を、サンプル総合特徴の平均値及び標準偏差と整列させ、サンプル融合特徴を生成することができる。

例として、コンピューター機器は、サンプル符号化特徴及びサンプル総合特徴に基づいて、以下の式（１）で上記の第３特徴分布から第４特徴分布までの整列処理を実現し、サンプル融合特徴を計算して得ることができる。

ここで、ｘはサンプル符号化特徴を表し、ｙはサンプル総合特徴を表し、σ（ｘ）とμ（ｘ）はサンプル符号化特徴の平均値と標準偏差をそれぞれ表し、σ（ｙ）、μ（ｙ）は、サンプル総合特徴の平均値と標準偏差をそれぞれ表す。ここで、適応インスタンス正則化方式を利用することは、適応インスタンス正則化（ＡｄａＩＮ：ＡｄａｐｔｉｖｅＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎ）アルゴリズムを採用することであり、ＡｄａＩＮ（ｘ，ｙ）は、適応インスタンス正則化方式に基づいて生成されたサンプル融合特徴を表す。

例として、上述した適応インスタンス正則化方式の他に、インスタンス正則化（ＩＮ：ＩｎｓｔａｎｃｅＮｏｒｍａｌｉｚａｔｉｏｎ）アルゴリズムを採用することもでき、これについては限定しない。

ステップ２０６において、コンピューター機器は、サンプル融合特徴に対して復号処理を行い、サンプル顔交換画像を得る。

コンピューター機器は、サンプル融合特徴を初期化された顔交換モデル内のデコーダに入力し、デコーダによりサンプル融合特徴に対応する画像を復元し、コンピューター機器は、デコーダによって出力された画像をサンプル顔交換画像とする。デコーダは、入力された特徴に基づいて、入力された特徴に対応する画像を復元することができる。コンピューター機器は、デコーダによりサンプル融合画像を復号し、サンプル顔交換画像を得る。例えば、エンコーダは、入力画像に対して畳み込み操作を実行することができるため、デコーダは、実行時にエンコーダの動作原理に従って逆方向操作、即ち逆畳み込み操作を実行し、サンプル融合特徴に対応する画像を復元することができる。例えば、エンコーダはオートエンコーダ（ＡＥ：Ａｕｔｏｅｎｃｏｄｅｒ）であってもよく、デコーダはオートエンコーダに対応するデコーダであってもよい。

デコーダは複数のカスケード接続された畳み込み層を含み、複数のカスケード接続された畳み込み層によりサンプル融合特徴に対して逆畳み込み処理を行い、各畳み込み層は逆畳み込み処理の結果を次の畳み込み層に入力して逆畳み込み処理を続行し、最後の畳み込み層の出力はサンプル顔交換画像である。

上述のステップ２０５によって、正則化方式で特徴移行を実行することにより、サンプル総合特徴を任意の画像の符号化特徴に移行することをサポートし、サンプル総合特徴とサンプル符号化特徴の混合を実現することができる。さらに、サンプル符号化特徴は、第２サンプル画像における各画素の特徴を表し、サンプル総合特徴は、第１サンプル画像及び第２サンプル画像の特徴をグローバル的な視点で統合するものである。したがって、正則化方式によって、画素レベルまで細分化された符号化特徴とグローバル的な総合特徴との間の混合を実現し、サンプル符号化特徴の特徴分布をサンプル総合特徴に整列させ、それによって生成されたサンプル融合特徴の精度を向上させる。ステップ２０６によって、サンプル融合特徴を使用して画像を復号し、復号された画像を各画素点まで細分化してサンプル総合特徴を表現することができ、復号された画像内の顔と目標顔との間の感官の類似度を向上させ、顔交換の精度を向上させる。

ステップ２０７において、前記サンプル顔交換画像と前記サンプル属性パラメータとの間の第１差異、前記サンプル顔交換画像の顔特徴と前記第１サンプル画像の顔特徴との間の第２差異、及び前記サンプル顔交換画像と前記第２サンプル画像との間の第３差異に基づいて、前記初期化された顔交換モデルの総損失を決定する。

第１差異に対応する第１重み、第２差異に対応する第２重み、第３差異に対応する第３重みを取得し、第１重み、第２重み及び第３重みに基づいて第１差異、第２差異及び第３差異に対して加重平均処理を行い、総損失を得て、各差異に対応する重みは予め設定された数値であってもよい。

ステップ２０８において、前記総損失に基づいて前記初期化された顔交換モデルを、目標条件に合致するまでトレーニングし、目標条件に合致したときに得られたモデルを前記顔交換モデルとする。

コンピューター機器は、サンプル顔交換画像とサンプル属性パラメータ、第１サンプル画像の顔特徴、及び第２サンプル画像との間の複数の類似度をそれぞれ決定し、複数の類似度に基づいて総損失を得ることができる。一部の実施形態では、初期化された顔交換モデルは判別器を含むことができ、コンピューター機器は判別器を利用してサンプル顔交換画像の真実性を判断することができる。コンピューターによって総損失を決定する過程は、次のステップを含むことができる。コンピューター機器は、サンプル顔交換画像の属性パラメータとサンプル属性パラメータとの間の第１類似度を取得し、第１類似度を第１差異とし、コンピューター機器は、サンプル顔交換画像の顔特徴と第１サンプル画像の顔特徴との間の第２類似度を取得し、第２類似度を第２差異とし、コンピューター機器は、初期化された顔交換モデルの判別器により、第２サンプル画像とサンプル顔交換画像との間の第３類似度を取得し、第３類似度を第３差異とし、コンピューター機器は、第１類似度、第２類似度及び第３類似度に基づいて、総損失を決定する。

コンピューター機器は、サンプル顔交換画像の属性パラメータを抽出し、以下の式（２）により、サンプル顔交換画像の属性パラメータとサンプル属性パラメータとの間の第１類似度を決定することができる。

３ｄｆｅａｔｕｒｅｌｏｓｓ＝ａｂｓ（ｇｔ３ｄｆｅａｔｕｒｅ－ｒｅｓｕｌｔ３ｄｆｅａｔｕｒｅ）（２）

ここで、３ｄｆｅａｔｕｒｅｌｏｓｓは第１類似度を表し、第１類似度の値が小さいほど、サンプル顔交換画像の属性パラメータがサンプル属性パラメータに近いことを示す。ｒｅｓｕｌｔ３ｄｆｅａｔｕｒｅはサンプル顔交換画像の属性パラメータを表し、ｇｔ３ｄｆｅａｔｕｒｅはサンプル属性パラメータを表し、ａｂｓは（ｇｔ３ｄｆｅａｔｕｒｅ－ｒｅｓｕｌｔ３ｄｆｅａｔｕｒｅ）の絶対値を取ることを表す。サンプル属性パラメータは、目標顔の形状係数、及び第２サンプル画像の表情係数と角度であってもよく、これに対応して、ｇｔ３ｄｆｅａｔｕｒｅは、以下の式（３）と表すことができる。

ｇｔ３ｄｆｅａｔｕｒｅ＝ｓｏｕｒｃｅ３ｄｆｅａｔｕｒｅｉｄ＋ｔａｒｇｅｔ３ｄｆｅａｔｕｒｅｅｘｐｒｅｓｓｉｏｎ＋ｔａｒｇｅｔ３ｄｆｅａｔｕｒｅａｎｇｌｅｓ（３）

ここで、ｓｏｕｒｃｅ３ｄｆｅａｔｕｒｅｉｄは、第１サンプル画像の形状係数を表し、ｔａｒｇｅｔ３ｄｆｅａｔｕｒｅｅｘｐｒｅｓｓｉｏｎは、第２サンプル画像の表情係数を表し、ｔａｒｇｅｔ３ｄｆｅａｔｕｒｅａｎｇｌｅｓは、第２サンプル画像の角度を表す。

コンピューター機器は、サンプル顔交換画像の顔特徴を抽出し、以下の式（４）により、サンプル顔交換画像の顔特徴と第１サンプル画像の顔特徴との間の第２類似度を決定することができる。

ｉｄｌｏｓｓ＝１－ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ（ｒｅｓｕｌｔｉｄｆｅａｔｕｒｅ，ＭｅａｎＳｏｕｒｃｅＩＤ）（４）

ｉｄｌｏｓｓは、第２類似度を表し、第２類似度の値が小さいほど、サンプル顔交換画像の顔特徴が第１サンプル画像の顔特徴に近いことを示す。ｒｅｓｕｌｔｉｄｆｅａｔｕｒｅは、サンプル顔交換画像の顔特徴を表し、ＭｅａｎＳｏｕｒｃｅＩＤは、第１サンプル画像の顔特徴を表し、ｃｏｓｉｎｅｓｉｍｉｌａｒｉｔｙ（ｒｅｓｕｌｔｉｄｆｅａｔｕｒｅ，ＭｅａｎＳｏｕｒｃｅＩＤ）は、ｒｅｓｕｌｔｉｄｆｅａｔｕｒｅとＭｅａｎＳｏｕｒｃｅＩＤとの間のコサイン類似度を表す。ここで、コサイン類似度の決定方式は、以下の式（５）に示す過程とすることができる。

ここで、ＡとＢは、サンプル顔交換画像の顔特徴に対応する特徴ベクトル、第１サンプル画像の顔特徴に対応する特徴ベクトルをそれぞれ表すことができ、θは、ベクトルＡとベクトルＢの２つの特徴ベクトルの間の角度を表し、Ａ_ｉは、サンプル顔交換画像の顔特徴におけるｉ番目の特徴チャネルの成分を表し、Ｂ_ｉは、第１サンプル画像の顔特徴におけるｉ番目の特徴チャネルの成分を表し、ｓｉｍｉｌａｒｉｔｙとｃｏｓ（θ）はコサイン類似度を表す。

コンピューター機器は、第２サンプル画像を実画像として判別器に入力し、サンプル顔交換画像を判別器に入力することができる。コンピューター機器は、判別器により、第２サンプル画像の少なくとも１つのスケールにおける第３スケール画像、サンプル顔交換画像の対応する少なくとも１つのスケールにおける第４スケール画像をそれぞれ取得する。コンピューター機器は、各第３スケール画像に対応する判別確率を取得し、各第４スケール画像に対応する判別確率を取得し、画像の判別確率は、画像が実画像であると判断する確率を示すために用いられ、画像は、第３スケール画像又は第４スケール画像である。コンピューター機器は、各第３スケール画像に対応する判別確率及び各第４スケール画像に対応する少なくとも１つの判別確率に基づいて、第３類似度を決定する。例えば、初期化された顔交換モデルは、生成器と判別器を含むことができ、コンピューター機器は、判別器に対応する判別損失値及び生成器に対応する生成損失値を取得し、生成損失値及び判別損失値に基づいて、第３類似度を決定する。生成器は、第２サンプル画像及び第１サンプル画像に基づいてサンプル顔交換画像を生成するように構成され、例えば、生成器は、上記ステップ２０４～２０６で使用されるエンコーダ及びデコーダを含んでもよい。第３類似度は、生成損失値及び判別損失値を含むことができ、コンピューター機器は、サンプル顔交換画像の判別確率を採用して生成損失値を表すことができ、例えば、コンピューター機器は、サンプル顔交換画像の判別確率に基づいて、次の式（６）により、生成損失値を計算して得る。

Ｇｌｏｓｓ＝ｌｏｇ（１－Ｄ（ｒｅｓｕｌｔ））（６）

ここで、Ｄ（ｒｅｓｕｌｔ）は、サンプル顔交換画像の判別確率を表し、サンプル顔交換画像の判別確率は、サンプル顔交換画像が実画像に属する確率を指し、Ｇｌｏｓｓは、生成損失値を表す。

生成器は複数のカスケード接続された畳み込み層を含み、例えば、生成器はＵ型ネットワーク構造であってもよく、Ｕ型ネットワークによって第２サンプル画像と第１サンプル画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果に対してアップサンプリング処理を行ってサンプル顔交換画像を得る。判別器も複数のカスケード接続された畳み込み層を含み、判別器はＵ型ネットワークのダウンサンプリング構造及び全結合層であり、Ｕ型ネットワークのダウンサンプリング構造はサンプル顔交換画像に対して畳み込み処理を行い、更に全結合層によって畳み込み結果をマッピングし、サンプル顔交換画像の判別確率を得る。

判別器はマルチスケール判別器であってもよく、コンピューター機器は、判別器によってサンプル顔交換画像に対してスケール変換を実行して、マルチスケールの第４スケール画像を取得することができ、例えば、サンプル顔交換画像の、第１スケールにおける第４スケール画像、第２スケールにおける第４スケール画像、及び第３スケールにおける第４スケール画像をそれぞれ取得することができる。同様に、コンピューター機器は、判別器によって、第２サンプル画像の、第１スケールにおける第３スケール画像、第２スケールにおける第３スケール画像、及び第３スケールにおける第３スケール画像をそれぞれ取得することができる。第１スケール、第２スケール、第３スケールは必要に応じて設定されてもよく、例えば、第１スケールはサンプル顔交換画像又は第２サンプル画像のオリジナルスケールであってもよく、第２スケールはオリジナルスケールの１／２であってもよく、第３スケールはオリジナルスケールの１／４であってもよい。コンピューター機器は、マルチスケール判別器によって各スケールにおけるスケール画像に対応する判別確率を取得し、マルチスケールにおけるスケール画像の判別確率に基づいて判別損失値を計算して得ることができる。例えば、コンピューター機器は、各第３スケール画像に対応する判別確率、及び各第４スケール画像に対応する少なくとも１つの判別確率に基づいて、以下の式（７）により、判別損失値を取得する。

Ｄｌｏｓｓ＝１／３＊｛－ｌｏｇＤ（ｔｅｍｐｌａｔｅｉｍｇ）－ｌｏｇ（１－Ｄ（ｒｅｓｕｌｔ））－ｌｏｇＤ（ｔｅｍｐｌａｔｅｉｍｇ１／２）－ｌｏｇ（１－Ｄ（ｒｅｓｕｌｔ１／２））－ｌｏｇＤ（ｔｅｍｐｌａｔｅｉｍｇ１／４）－ｌｏｇ（１－Ｄ（ｒｅｓｕｌｔ１／４））｝（７）

ここで、Ｄ（ｔｅｍｐｌａｔｅｉｍｇ）、Ｄ（ｔｅｍｐｌａｔｅｉｍｇ１／２）、Ｄ（ｔｅｍｐｌａｔｅｉｍｇ１／４）は、それぞれ第２サンプル画像のオリジナルスケールにおける第３スケール画像の判別確率、第２サンプル画像の１／２のスケールにおける第３スケール画像の判別確率、第２サンプル画像の１／４のスケールにおける第３スケール画像の判別確率を表し、Ｄ（ｒｅｓｕｌｔ）、Ｄ（ｒｅｓｕｌｔ１／２）、Ｄ（ｒｅｓｕｌｔ１／４）は、それぞれサンプル顔交換画像のオリジナルスケールにおける第４スケール画像の判別確率、サンプル顔交換画像の１／２のスケールにおける第４スケール画像の判別確率、サンプル顔交換画像の１／４のスケールにおける第４スケール画像の判別確率を表す。本出願の実施形態では、第２サンプル画像フレームを実画像とすることができる。

コンピューター機器は、上述の判別損失値及び生成損失値に基づいて、第３類似度を決定してもよく、例えば、第３類似度＝Ｇｌｏｓｓ＋Ｄｌｏｓｓである。ここで、判別器について、生成損失値と判別損失値とが釣り合った場合、判別器はトレーニング停止の条件に達したと見なすことができ、それ以上のトレーニングは不要である。

コンピューター機器は、上記の第１類似度、第２類似度及び第３類似度に基づいて、以下の式（８）により、総損失を決定することができる。

ｌｏｓｓ＝ｉｄｌｏｓｓ＋３ｄｆｅａｔｕｒｅｌｏｓｓ＋Ｄｌｏｓｓ＋Ｇｌｏｓｓ（８）

ここで、ｌｏｓｓは総損失を表し、３ｄｆｅａｔｕｒｅｌｏｓｓは第１類似度を表し、ｉｄｌｏｓｓは第２類似度を表し、（Ｄｌｏｓｓ＋Ｇｌｏｓｓ）は第３類似度を表す。

コンピューター機器は、上記のステップ２０１～２０６に基づいて初期化された顔交換モデルに対して反復トレーニングを実行し、毎回の反復トレーニングに対応する総損失を取得し、毎回の反復トレーニングの総損失に基づいて初期化された顔交換モデルのパラメータを調整することができ、例えば、初期化された顔交換モデルにおけるエンコーダ、デコーダ、判別器などに含まれるパラメータを、総損失が目標条件を満たすまで複数回最適化し、総損失が目標条件を満たす場合、コンピューター機器はトレーニングを停止し、最終回の最適化によって得られたモデルを顔交換モデルとする。総損失の数値が目標数値範囲内にあることを目標条件とすることができ、目標数値範囲は、複数回の実験に基づいて予め設定された範囲であり、例えば、総損失が０．５以下の目標数値範囲内にあり、又は、複数回の反復トレーニングに費やされた時間が最大時間長を超えることであり、最大時間長はトレーニングからオンライン応用までの所要時間長の７０％であり、例えば、トレーニングからオンライン応用までの所要時間長は１時間であり、複数回の反復トレーニングに費やされた時間が０．７時間を超えると、目標条件を満たすことを表す。

図３は、本出願の実施形態による専属の顔交換モデルのトレーニング過程のフレームワークの模式図であり、図３に示すように、コンピューター機器は、対象Ａの顔を専属の目標顔とし、対象Ａの顔の複数の姿勢の顔画像を第１サンプル画像として取得し、第１サンプル画像の属性パラメータを３Ｄ顔パラメータ推定モデルによって抽出し、顔認識モデルによって第１サンプル画像の顔特徴を抽出し、３Ｄ顔パラメータ推定モデルによって第２サンプル画像の属性パラメータを抽出することができる。コンピューター機器は、第１サンプル画像の顔特徴と形状係数、及び第２サンプル画像の予め設定されたパラメータ（例えば、表情係数と角度係数）をサンプル属性パラメータに統合する。コンピューター機器は、第２サンプル画像を初期化された顔交換モデルに入力することができ、初期化された顔交換モデルは、エンコーダ及びデコーダを含むことができ、コンピューター機器は、エンコーダによって第２サンプル画像を符号化し、第２サンプル画像の符号化特徴を得ることができる。例えば、第２サンプル画像を対応する特徴ベクトルに符号化する。コンピューター機器は、サンプル属性パラメータ及び第２サンプル画像の符号化特徴に基づいてサンプル融合特徴を得、サンプル融合特徴を初期化された顔交換モデル内のデコーダに入力し、デコーダは、入力された特徴に基づいて入力された特徴に対応する画像を復元することができる。コンピューター機器は、デコーダによってサンプル融合画像を復号し、サンプル顔交換画像を得る。例えば、デコーダは、エンコーダの動作原理に基づいて逆畳み込み操作を実行して、サンプル融合特徴に対応する画像を復元する。

コンピューター機器は、マルチスケール判別器によって第３類似度を取得し、抽出されたサンプル顔交換画像の顔特徴及び属性パラメータに基づいて第１類似度及び第２類似度を取得し、第１類似度、第２類似度及び第３類似度に基づいて、総損失を計算し、総損失に基づいてモデルパラメータを最適化する。コンピューター機器は、目標条件に合致するまで上記の過程で反復トレーニングを実行し、目標条件に合致する時に、トレーニングを停止し、任意の画像内の顔を専属の目標顔に置き換えることができる顔交換モデルを得る。

図４は、本出願の実施形態による画像処理方法のシグナリングインタラクション図である。図４に示すように、画像処理方法は、サーバと端末とのインタラクションによって実現され得る。画像処理方法のインタラクション過程は、ステップ４０１～ステップ４１０を参照することができる。

ステップ４０１において、端末は、目標アプリケーションのアプリケーション画面を表示し、アプリケーション画面は、目標トリガーコントロールを含み、目標トリガーコントロールは、顔交換対象画像に対する顔交換要求をトリガーするために用いられる。

目標アプリケーションは、顔交換機能を提供することができ、顔交換機能は、顔交換対象画像内の顔を専属の目標顔に置き換える機能であってもよい。目標アプリケーションのアプリケーション画面に目標トリガーコントロールが提供され得、端末は、対象による目標トリガーコントロールのトリガー操作に基づいて、顔交換要求をサーバに送信することができる。例えば、目標アプリケーションは、画像処理アプリケーション、ライブブロードキャストアプリケーション、写真撮影ツール、ビデオ編集アプリケーションなどであってもよい。サーバは、目標アプリケーションのバックグラウンドサーバであってもよく、又は、サーバは、顔交換機能を提供する任意の一つのコンピューター機器、例えば、顔交換モデルが構成されたクラウドコンピューティングセンター機器に使用されることもできる。

ステップ４０２において、端末は、アプリケーション画面で目標トリガーコントロールに対するトリガー操作を受信したことに応答して、顔交換対象画像を取得し、顔交換対象画像に基づいて顔交換要求をサーバに送信する。

一部の実施形態では、目標アプリケーションは、１枚の画像に対する顔交換機能を提供することができる。例えば、目標アプリケーションは、画像処理アプリケーション、ライブブロードキャストアプリケーション、ソーシャルアプリケーションなどであってもよい。顔交換対象画像は、端末がローカル記憶スペースから取得した選択済みの画像であってもよく、又は、端末が取得したリアルタイムで対象を撮影して得られた画像であってもよい。一部の実施形態では、目標アプリケーションは、ビデオに含まれる各画像フレームの顔に対する顔交換機能を提供することができ、例えば、目標アプリケーションは、ビデオ編集アプリケーション、ライブブロードキャストアプリケーションなどであり得る。サーバは、ビデオ内の対象Ａの顔を含む画像フレーム全体を目標顔に置き換えることができる。顔交換対象画像は、ビデオ内の各画像フレームを含むか、又は端末はビデオ内の各画像フレームに対して初期の顔検出を行い、ビデオ内の対象Ａの顔を含む各画像フレームを顔交換対象画像とする。

ステップ４０３において、サーバは、端末によって送信された顔交換要求を受信する。

ステップ４０４において、サーバは、顔交換対象画像の属性パラメータ、目標顔の属性パラメータ及び目標顔の顔特徴を取得し、顔交換対象画像の属性パラメータは、顔交換対象画像内の顔の３次元属性を示し、顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定する。

顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられ、顔交換対象画像の属性パラメータは、顔交換対象画像内の顔の３次元属性を示すために用いられる。サーバは、３Ｄ顔パラメータ推定モデルにより、顔交換対象画像の属性パラメータを取得し得る。画像の属性パラメータは、形状係数、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも１つを含み、目標顔の属性パラメータ及び目標顔の顔特徴は、予め記憶されるものであり得る。

一部の実施形態では、サーバは、目標顔の形状係数と顔交換対象画像の予め設定されたパラメータを目標属性パラメータとして決定することができ、予め設定されたパラメータは、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも１つを含む。例えば、予め設定されたパラメータは、表情係数、角度係数を含むことができる。又は、予め設定されたパラメータは、テクスチャ係数、光照射係数などを含むこともできる。

ステップ４０５において、サーバは、目標属性パラメータ及び目標顔の顔特徴に基づいて、目標総合特徴を決定する。

サーバは、目標属性パラメータと目標顔の顔特徴を結合し、目標総合特徴を得ることができる。

説明すべきこととして、サーバに、トレーニングされた顔交換モデルが構成されてもよく、サーバは、顔交換モデルによって上述のステップ４０４～ステップ４０５の過程を実行してもよい。顔交換モデルは、以上のステップ２０１～２０７に基づいてトレーニングして得られたものである。サーバがトレーニングによって顔交換モデルを得る場合、目標顔の顔特徴と属性パラメータを固定的に記憶することができ、例えば、目標アドレスに記憶することができる。ステップ４０４及び４０５が実行される場合、サーバは目標アドレスから目標顔の属性パラメータを抽出し、ステップ４０４を実行することができ、サーバは目標アドレスから目標顔の顔特徴を抽出し、ステップ４０５を実行する。サーバは、顔交換モデルにより、以下のステップ４０６～４０８の過程を実行することができる。

ステップ４０６において、サーバは、顔交換対象画像に対して符号化処理を行い、顔交換対象画像の画像符号化特徴を得る。

ステップ４０７において、サーバは、正則化方式により、目標総合特徴を顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。

１つの選択可能な実施形態では、コンピューター機器は、画像符号化特徴の平均値及び標準偏差を目標総合特徴と整列させることができる。ステップ４０７は、以下の技術案により実現され得る。サーバは、少なくとも１つの特徴チャネルにおける画像符号化特徴の第１平均値及び第１標準偏差を取得し、第１平均値及び第１標準偏差に合致する正規分布を第１特徴分布とし、少なくとも１つの特徴チャネルにおける目標総合特徴の第２平均値及び第２標準偏差を取得し、第２平均値及び第２標準偏差に合致する正規分布を第２特徴分布とする。サーバは、画像符号化特徴に対して第１特徴分布から第２特徴分布までの整列処理を行い、融合符号化特徴を得る。具体的に、サーバは、画像符号化特徴に対してマッピング処理を行い、画像符号化特徴の各特徴チャンネルにおける平均値と標準偏差を、目標総合特徴の対応特徴チャンネルにおける平均値と標準偏差と整列させ、融合符号化特徴を得る。例えば、サーバは、上記ステップ２０５における式（１）を用いて、融合符号化特徴を計算して得ることもできる。

ステップ４０８において、サーバは、融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得、融合顔は、顔交換対象画像内の顔と目標顔との融合である。

サーバが上記のステップ４０３～４０８を実行して目標顔交換画像を得る実現方式は、コンピューター機器が上記のステップ２０１～２０６を実行してサンプル顔交換画像を得る実現方式と同じであり、ここでは繰り返して記載しない。

ステップ４０９において、サーバは、目標顔交換画像を端末に返信する。

顔交換対象画像が１枚の画像である場合、サーバは、１枚の顔交換対象画像に対応する目標顔交換画像を端末に返信することができる。顔交換対象画像がビデオに含まれる複数の画像フレームである場合、サーバは、ビデオ内の各顔交換対象画像フレームに対して、上記のステップ４０３～４０８によって、顔交換対象画像フレームに対応する目標顔交換画像を生成することができ、サーバは、ビデオに対応する顔交換ビデオを端末に返信することができ、顔交換ビデオは、各画像フレームに対応する目標顔交換画像を含む。

ステップ４１０において、端末は、サーバによって返信された目標顔交換画像を受信し、目標顔交換画像を表示する。

端末は、目標顔交換画像をアプリケーション画面に表示することができる。又は、端末は、アプリケーション画面に顔交換ビデオ内の各目標顔交換画像を再生することもできる。

本出願の実施形態によって提供される画像処理方法では、顔交換対象画像の属性パラメータを取得し、属性パラメータは、画像内の顔の３次元属性を示すために用いられ、顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定し、それによって、期待される生成しようとする画像内の顔の３次元属性特徴を見つけ出す。目標属性パラメータと目標顔の顔特徴に基づいて、顔交換対象画像と目標顔を総合的に表すことができる目標総合特徴を得、しかも、顔交換対象画像を符号化して、顔交換対象画像の画像符号化特徴を得、それによって画像符号化特徴により顔交換対象画像の画素レベルにおける細分化特徴を得る。さらに、目標総合特徴を正則化方式により、顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。本出願では、画素レベルまで細分化された符号化特徴をグローバル的な総合特徴と混合させ、画像符号化特徴の特徴分布を目標総合特徴に整列させ、それによって生成された融合符号化特徴の精度を向上させる。融合符号化特徴を復号することにより、融合顔を含む目標顔交換画像を得て、復号された画像が各画素点まで細分化されて目標総合特徴を表現することができる効果を達成し、復号された画像内の融合顔が感覚的により目標顔に近く、融合顔と目標顔との間の感覚上の類似度を向上させ、それによって顔交換の精度を向上させる。

図５は、本出願の実施形態による画像処理装置の構造的模式図である。図５に示すように、該装置は、顔交換要求を受信するように構成され、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる属性パラメータ取得モジュール５０１と、前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得し、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の３次元属性を示し、前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するように構成される目標属性パラメータ決定モジュール５０２と、前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するように構成される総合特徴決定モジュール５０３と、前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るように構成される符号化モジュール５０４と、正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るように構成される移行モジュール５０５と、前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るように構成され、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である復号モジュール５０６と、を備える。

一部の実施形態では、目標顔の属性パラメータは、形状係数であり、顔交換対象画像の属性パラメータは、予め設定されたパラメータであり、前記目標属性パラメータ決定モジュールは、前記目標顔の形状係数と前記顔交換対象画像の予め設定されたパラメータとを前記目標属性パラメータとして決定するように構成され、前記予め設定されたパラメータは、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも１つを含む。

一部の実施形態では、前記移行モジュールは、画像符号化特徴の少なくとも１つの特徴チャネルにおける第１平均値及び第１標準偏差を取得し、第１平均値及び第１標準偏差に合致する正規分布を第１特徴分布とし、目標総合特徴の少なくとも１つの特徴チャネルにおける第２平均値及び第２標準偏差を取得し、第２平均値及び第２標準偏差に合致する正規分布を第２特徴分布とし、画像符号化特徴に対して第１特徴分布から第２特徴分布までの整列処理を行い、融合符号化特徴を得るように構成される。

一部の実施形態では、前記目標顔交換画像は、トレーニングされた顔交換モデルを呼び出して得られたものであり、前記顔交換モデルは、目標顔の属性データ及び顔特徴に基づいて、前記目標顔をいずれかの顔画像に換えるために用いられ、前記装置は、モデルトレーニングモジュールをさらに備え、前記モデルトレーニングモジュールは、第１サンプル画像の顔特徴及び属性パラメータを取得し、第２サンプル画像の属性パラメータを取得するように構成され、前記第１サンプル画像は、前記目標顔を含み、前記第２サンプル画像は、交換対象顔を含む取得ユニットと、前記第１サンプル画像の属性パラメータ及び前記第２サンプル画像の属性パラメータに基づいて、サンプル属性パラメータを決定するように構成され、前記サンプル属性パラメータは、生成しようとするサンプル顔交換画像内の顔の期待属性を示すために用いられるサンプル属性パラメータ決定ユニットと、前記サンプル属性パラメータ及び前記第１サンプル画像の顔特徴に基づいて、サンプル総合特徴を決定するように構成されるサンプル総合特徴取得ユニットと、前記第２サンプル画像に対して符号化処理を行い、サンプル符号化特徴を得るように構成される符号化ユニットと、正則化方式によって前記サンプル総合特徴を前記第２サンプル画像のサンプル符号化特徴に移行し、サンプル融合特徴を得るように構成される移行ユニットと、前記サンプル融合特徴に対して復号処理を行い、サンプル顔交換画像を得るように構成される復号ユニットと、サンプル顔交換画像とサンプル属性パラメータとの間の第１差異、サンプル顔交換画像の顔特徴と第１サンプル画像の顔特徴との間の第２差異、及びサンプル顔交換画像と第２サンプル画像との間の第３差異に基づいて、初期化された顔交換モデルの総損失を決定し、総損失に基づいて初期化された顔交換モデルを、目標条件に合致するまでトレーニングし、目標条件に合致したときに得られたモデルを顔交換モデルとするように構成されるトレーニングユニットと、を含む。

一部の実施形態では、前記トレーニングユニットは、さらに、サンプル顔交換画像の属性パラメータとサンプル属性パラメータとの間の第１類似度を取得し、第１類似度を前記第１差異とし、サンプル顔交換画像の顔特徴と第１サンプル画像の顔特徴との間の第２類似度を取得し、第２類似度を第２差異とし、第２サンプル画像とサンプル顔交換画像との間の第３類似度を取得し、第３類似度を第３差異とするように構成される。

一部の実施形態では、前記トレーニングユニットは、さらに、第２サンプル画像の少なくとも１つのスケールにおける第１スケール画像、及びサンプル顔交換画像の少なくとも１つのスケールにおける第２スケール画像を取得し、第２サンプル画像を実画像とし、各第１スケール画像に対応する判別確率を取得し、各第２スケール画像に対応する判別確率を取得し、画像の判別確率は、画像を実画像と判断する確率を示すために用いられ、画像は、第１スケール画像又は第２スケール画像であり、各第１スケール画像に対応する判別確率及び各第２スケール画像に対応する少なくとも１つの判別確率に基づいて、第３類似度を決定するように構成される。

一部の実施形態では、取得ユニットは、さらに、少なくとも２つの姿勢画像を取得し、少なくとも２つの姿勢画像を前記第１サンプル画像とし、前記少なくとも２つの姿勢画像は、前記目標顔の少なくとも２つの顔姿勢を含み、前記少なくとも２つの姿勢画像に基づいて、前記少なくとも２つの顔姿勢に対応する顔特徴及び属性パラメータを取得し、前記少なくとも２つの顔姿勢に対応する顔特徴の平均値を前記第１サンプル画像の顔特徴とし、前記少なくとも２つの顔姿勢に対応する属性パラメータの平均値を前記第１サンプル画像の属性パラメータとするように構成される。

対応して、前記装置は、前記第１サンプル画像の顔特徴及び属性パラメータを記憶するように構成される記憶ユニットをさらに備える。

一部の実施形態では、前記取得ユニットは、さらに、目標対象のビデオに含まれる少なくとも２つの画像フレームに対して顔認識処理を実行し、前記目標顔を含む少なくとも２つの画像フレームを得、前記目標顔が前記目標対象の顔であり、前記少なくとも２つの画像フレームに対して顔の切り取り処理を実行し、前記少なくとも２つの姿勢画像を得るように構成される。

本出願の実施形態によって提供される画像処理装置では、顔交換対象画像の属性パラメータを取得し、前記属性パラメータは、画像内の顔の３次元属性を示すために用いられ、前記顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定し、それによって、期待される生成しようとする画像内の顔の３次元属性特徴を見つけ出す。前記目標属性パラメータと目標顔の顔特徴に基づいて、顔交換対象画像と目標顔を総合的に表すことができる目標総合特徴を得、そして、前記顔交換対象画像を符号化して、前記顔交換対象画像の画像符号化特徴を得、それによって前記画像符号化特徴により前記顔交換対象画像の画素レベルにおける細分化特徴を得る。さらに、前記目標総合特徴を正則化方式により、前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。本出願では、画素レベルまで細分化された符号化特徴をグローバル的な総合特徴と混合させ、画像符号化特徴の特徴分布を目標総合特徴に整列させ、それによって生成された融合符号化特徴の精度を向上させる。融合符号化特徴を復号することにより、融合顔を含む目標顔交換画像を得、復号された画像が各画素点まで細分化されて目標総合特徴を表現することができる効果を達成し、復号された画像内の融合顔が感覚的により目標顔に近く、融合顔と目標顔との間の感覚上の類似度を向上させ、それによって顔交換の精度を向上させる。

本出願の実施形態の装置は、本出願の実施形態で提供される画像処理方法を実行することができ、それらの実現原理は類似する。本出願の各実施形態の画像処理装置における各モジュールによって実行された動作は、本出願の各実施形態の画像処理方法におけるステップに対応するものであり、装置の各モジュールの詳細な機能の説明については、上述した対応する画像処理方法における説明を参照することができ、ここでは繰り返して記載しない。

図６は、本出願の実施形態によるコンピューター機器の構造的模式図である。図６に示すように、前記コンピューター機器は、メモリ、プロセッサ及びメモリに記憶されたコンピュータープログラムを含み、前記プロセッサは、上記のコンピュータープログラムを実行して、画像処理方法のステップを実現する。

１つの選択可能な実施形態では、コンピューター機器が提供される。図６に示すように、コンピューター機器６００は、プロセッサ６０１、メモリ６０３を含む。プロセッサ６０１は、例えばバス６０２によってメモリ６０３に接続される。選択可能的に、コンピューター機器６００はトランシーバ６０４をさらに含むことができ、トランシーバ６０４は、データ送信及び／又はデータ受信など、前記コンピューター機器と他のコンピューター機器との間のデータインタラクションのために用いられることができる。なお、実際の応用では、トランシーバ６０４は１つに限定されず、前記コンピューター機器６００の構造は本出願の実施形態に対する限定を構成しない。

プロセッサ６０１は、中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、汎用プロセッサ、データ信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はその他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェアコンポーネント、又はそれらの任意の組み合わせであり得る。それは、本出願の開示された内容を組み合わせて説明された様々な例示的な論理ブロック、モジュール及び回路を実現又は実行することができる。プロセッサ６０１は、１つ以上のマイクロプロセッサの組み合わせ、ＤＳＰとマイクロプロセッサの組み合わせなど、計算機能を実現するための組み合わせであってもよい。

バス６０２は、前述のコンポーネント間で情報を伝送するための１つのパスを含むことができる。バス６０２は、周辺部品相互接続規格（ＰＣＩ：ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）バス又は拡張工業規格構造（ＥＩＳＡ：ＥｘｔｅｎｄｅｄＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）バスなどであってもよい。バス６０２は、アドレスバス、データバス、コントロールバスなどに分けることができる。表示を容易にするために、図６では１本の太い線のみで表示されているが、１本のバスまたは１種類のバスのみを表示しているわけではない。

メモリ６０３は、読み取り専用メモリ（ＲＯＭ：ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）又は静的な情報及び命令を記憶することができる他のタイプの静的記憶装置、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又は情報及び命令を記憶することができる他のタイプの動的記憶装置であってもよく、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、読み取り専用ディスク（ＣＤ－ＲＯＭ：コンパクトディスクＲｅａｄＯｎｌｙＭｅｍｏｒｙ）又はその他の光ディスクメモリ、光ディスクストレージ（圧縮ディスクス、レーザーディスク（登録商標）、光ディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスクなどを含む）、磁気ディスク記憶媒体又はその他の磁気記憶デバイス、又はコンピュータープログラムを搬送又は記憶するために用いられ得、コンピューターによって読み取られ得るその他のいなかる媒体であってもよく、ここでは限定されない。

メモリ６０３は、本出願の実施形態を実行するためのコンピュータープログラムを記憶するために用いられ、その実行はプロセッサ６０１によって制御される。プロセッサ６０１は、メモリ６０３に記憶されたコンピュータープログラムを実行して、前述の方法の実施形態で示されたステップを実現するように構成される。

コンピューター機器は、サーバ又はクラウドコンピューティングセンターデバイスなどを含むが、これらに限定されない。

本出願の実施形態は、コンピューター可読記憶媒体を提供し、前記コンピューター可読記憶媒体は、コンピュータープログラムが記憶され、コンピュータープログラムがプロセッサによって実行される場合、前述の方法の実施形態のステップ及び対応する内容が実現され得る。

本出願の実施形態は、コンピュータープログラムを含むコンピュータープログラム製品をさらに提供し、コンピュータープログラムがプロセッサによって実行される場合、前述の方法の実施形態のステップ及び対応する内容が実現され得る。

当業者は、本明細書で使用される単数形「１」、「１つ」、「前記」及び「該」は、特に説明しない限り、複数形も含むことができることを理解することができる。本出願の実施形態で使用される「含む」及び「備える」という用語は、対応する特徴が、呈された特徴、情報、データ、ステップ、及び操作として実現され得ることを意味するが、本技術分野でサポートされた他の特徴、情報、データ、ステップ、及び操作などとして実現されることを排除しない。

本出願の明細書及び特許請求の範囲、並びに上記の図面における「第１」、「第２」、「第３」、「第４」、「１」、「２」などの用語（存在する場合）は、必ずしも特定の順序又は前後順序を説明することではなく、類似する対象を区別するために用いられる。このように使用されるデータは、適切な場合で交換可能であるため、本明細書に記載された本出願の実施形態は、図示又は文字で説明された順序以外の順序で実施され得ることを理解すべきである。

本出願の実施形態のフローチャートでは、各操作ステップを矢印で示しているが、これらのステップの実施順序は矢印で示された順序に限定されないことを理解すべきである。本明細書で明確的に説明されない限り、本出願の実施形態のいくつかの実施シナリオでは、各フローチャートの実施ステップは、必要に応じて他の順序で実行されてもよい。さらに、各フローチャートのステップの一部又は全ては、実際の実施シナリオに基づいて、複数のサブステップ又は複数の段階を含むことができる。これらのサブステップ又は段階の一部又は全ては、同時に実行されてもよく、これらのサブステップ又は段階の各サブステップ又は段階は、それぞれ異なる時刻に実行されてもよい。実行時刻が異なるシナリオでは、これらのサブステップ又は段階の実行順序は、必要に応じて柔軟に設定されてもよく、本出願の実施形態では限定されない。

以上は本出願の一部の実施シナリオの選択可能な実施形態だけであり、当業者にとっては、本出願の解決策の技術的概念から逸脱することなく、本出願の技術思想に基づく他の類似する実施手段を採用することは、同様に本出願の実施形態の保護範囲に属することを指摘すべきである。

１１サーバ
１２端末
３００ネットワーク
５０１属性パラメータ取得モジュール
５０２目標属性パラメータ決定モジュール
５０３総合特徴決定モジュール
５０４符号化モジュール
５０５移行モジュール
５０６復号モジュール
６００コンピューター機器
６０１プロセッサ
６０２バス
６０３メモリ
６０４トランシーバ

Claims

コンピューター機器が実行する、画像処理方法であって、
顔交換要求を受信するステップであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、ステップと、
前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得するステップであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の３次元属性を示す、ステップと、
前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するステップと、
前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するステップと、
前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るステップと、
正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るステップと、
前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るステップであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、ステップと、を含む、画像処理方法。
前記目標顔の属性パラメータは、形状係数であり、前記顔交換対象画像の属性パラメータは、予め設定されたパラメータであり、
前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するステップは、
前記目標顔の形状係数と前記顔交換対象画像の予め設定されたパラメータとを前記目標属性パラメータとして決定するステップを含み、前記予め設定されたパラメータは、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも１つを含むことを特徴とする
請求項１に記載の画像処理方法。
正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るステップは、
少なくとも１つの特徴チャネルにおける前記画像符号化特徴の第１平均値及び第１標準偏差を取得し、前記第１平均値及び前記第１標準偏差に合致する正規分布を第１特徴分布とし、少なくとも１つの特徴チャネルにおける前記目標総合特徴の第２平均値及び第２標準偏差を取得し、前記第２平均値及び前記第２標準偏差に合致する正規分布を第２特徴分布とするステップと、
前記画像符号化特徴に対して前記第１特徴分布から前記第２特徴分布までの整列処理を行い、前記融合符号化特徴を得るステップと、を含むことを特徴とする
請求項１に記載の画像処理方法。
前記目標顔交換画像は、トレーニングされた顔交換モデルを呼び出して得られたものであり、前記顔交換モデルは、目標顔の属性データ及び顔特徴に基づいて、前記目標顔をいずれかの顔画像に入れ替えるために用いられ、
前記画像処理方法は、
第１サンプル画像の顔特徴及び属性パラメータを取得し、第２サンプル画像の属性パラメータを取得するステップであって、前記第１サンプル画像は、前記目標顔を含み、前記第２サンプル画像は、交換対象顔を含む、ステップと、
前記第１サンプル画像の属性パラメータ及び前記第２サンプル画像の属性パラメータに基づいて、サンプル属性パラメータを決定ステップであって、前記サンプル属性パラメータは、生成しようとするサンプル顔交換画像内の顔の期待属性を示すために用いられる、ステップと、をさらに含み、
初期化された顔交換モデルにより、
前記サンプル属性パラメータ及び前記第１サンプル画像の顔特徴に基づいて、サンプル総合特徴を決定するステップと、
前記第２サンプル画像に対して符号化処理を行い、サンプル符号化特徴を得るステップと、
正則化方式によって前記サンプル総合特徴を前記第２サンプル画像のサンプル符号化特徴に移行し、サンプル融合特徴を得るステップと、
前記サンプル融合特徴に対して復号処理を行い、サンプル顔交換画像を得るステップと、
前記サンプル顔交換画像と前記サンプル属性パラメータとの間の第１差異、前記サンプル顔交換画像の顔特徴と前記第１サンプル画像の顔特徴との間の第２差異、及び前記サンプル顔交換画像と前記第２サンプル画像との間の第３差異に基づいて、前記初期化された顔交換モデルの総損失を決定するステップと、
前記総損失に基づいて前記初期化された顔交換モデルを、目標条件に合致するまでトレーニングし、目標条件に合致したときに得られたモデルを前記顔交換モデルとするステップと、を実行する、ことを特徴とする
請求項１に記載の画像処理方法。
前記サンプル顔交換画像と前記サンプル属性パラメータとの間の第１差異、前記サンプル顔交換画像の顔特徴と前記第１サンプル画像の顔特徴との間の第２差異、及び前記サンプル顔交換画像と前記第２サンプル画像との間の第３差異に基づいて、前記初期化された顔交換モデルの総損失を決定する前に、前記画像処理方法は、
前記サンプル顔交換画像の属性パラメータと前記サンプル属性パラメータとの間の第１類似度を取得するステップであって、前記第１類似度を前記第１差異とする、ステップと、
前記サンプル顔交換画像の顔特徴と前記第１サンプル画像の顔特徴との間の第２類似度を取得するステップであって、前記第２類似度を前記第２差異とする、ステップと、
前記第２サンプル画像と前記サンプル顔交換画像との間の第３類似度を取得するステップであって、前記第３類似度を前記第３差異とする、ステップと、をさらに含むことを特徴とする
請求項４に記載の画像処理方法。
前記第２サンプル画像と前記サンプル顔交換画像との間の第３類似度を取得するステップは、
少なくとも１つのスケールにおける前記第２サンプル画像の第１スケール画像、及び前記少なくとも１つのスケールにおける前記サンプル顔交換画像の第２スケール画像を取得するステップと、
前記第２サンプル画像を実画像とするステップと、
各前記第１スケール画像に対応する判別確率を取得し、各前記第２スケール画像に対応する判別確率を取得するステップであって、画像の判別確率は、前記画像が前記実画像であると判断する確率を示すために用いられ、前記画像は、前記第１スケール画像又は前記第２スケール画像である、ステップと、
各前記第１スケール画像に対応する判別確率及び各前記第２スケール画像に対応する少なくとも１つの判別確率に基づいて、前記第３類似度を決定するステップと、を含むことを特徴とする
請求項５に記載の画像処理方法。
第１サンプル画像の顔特徴及び属性パラメータを取得するステップは、
少なくとも２つの姿勢画像を取得し、前記少なくとも２つの姿勢画像を前記第１サンプル画像とするステップであって、前記少なくとも２つの姿勢画像は、前記目標顔の少なくとも２つの顔姿勢を含む、ステップと、
前記少なくとも２つの姿勢画像に基づいて、前記少なくとも２つの顔姿勢に対応する顔特徴及び属性パラメータを取得するステップと、
前記少なくとも２つの顔姿勢に対応する顔特徴の平均値を前記第１サンプル画像の顔特徴とし、前記少なくとも２つの顔姿勢に対応する属性パラメータの平均値を前記第１サンプル画像の属性パラメータとするステップと、を含み、
対応して、前記第１サンプル画像の顔特徴及び属性パラメータを取得した後、前記画像処理方法は、
前記第１サンプル画像の顔特徴及び属性パラメータを記憶するステップをさらに含むことを特徴とする
請求項４に記載の画像処理方法。
少なくとも２つの姿勢画像を取得ステップは、
目標対象のビデオに含まれる少なくとも２つの画像フレームに対して顔認識処理を実行し、前記目標顔を含む少なくとも２つの画像フレームを得るステップであって、前記目標顔が前記目標対象の顔である、ステップと、
前記少なくとも２つの画像フレームに対して顔の切り取り処理を実行し、前記少なくとも２つの姿勢画像を得るステップと、を含むことを特徴とする
請求項７に記載の画像処理方法。
画像処理装置であって、
顔交換要求を受信するように構成される属性パラメータ取得モジュールであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、属性パラメータ取得モジュールと、
前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得し、前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するように構成される目標属性パラメータ決定モジュールであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の３次元属性を示す、目標属性パラメータ決定モジュールと、
前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するように構成される総合特徴決定モジュールと、
前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るように構成される符号化モジュールと、
正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るように構成される移行モジュールと、
前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るように構成される復号モジュールであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、復号モジュールと、を備える、画像処理装置。
コンピューター機器であって、メモリと、プロセッサと、メモリに記憶されたコンピュータープログラムとを含み、前記プロセッサは、前記コンピュータープログラムを実行して、請求項１乃至８のいずれか一項に記載の画像処理方法を実現する、コンピューター機器。
プロセッサに、請求項１乃至８のいずれか一項に記載の画像処理方法を実行させる、コンピュータープログラム。