JP7479507B2 - 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム - Google Patents

画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム Download PDF

Info

Publication number
JP7479507B2
JP7479507B2 JP2022565680A JP2022565680A JP7479507B2 JP 7479507 B2 JP7479507 B2 JP 7479507B2 JP 2022565680 A JP2022565680 A JP 2022565680A JP 2022565680 A JP2022565680 A JP 2022565680A JP 7479507 B2 JP7479507 B2 JP 7479507B2
Authority
JP
Japan
Prior art keywords
face
image
target
sample
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022565680A
Other languages
English (en)
Other versions
JP2024515907A (ja
Inventor
珂珂 ▲賀▼
俊▲偉▼ 朱
▲シン▼▲イ▼ ▲張▼
▲穎▼ ▲タイ▼
▲チェン▼杰 汪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202210334052.7A external-priority patent/CN114972010A/zh
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2024515907A publication Critical patent/JP2024515907A/ja
Application granted granted Critical
Publication of JP7479507B2 publication Critical patent/JP7479507B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/14Transformations for image registration, e.g. adjusting or mapping for alignment of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

(関連出願への相互参照)
本出願は、出願番号が第202210334052.7号であり、出願日が2022年3月30日である中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照により本出願に組み込まれる。
本出願は、人工知能、コンピュータービジョンなどの技術分野に関し、特に画像処理方法及び装置、コンピューター機器、コンピューター可読記憶媒体並びにコンピュータープログラム製品に関する。
顔交換は、コンピュータービジョンの分野で重要な技術であり、コンテンツ生成、映画やテレビのポートレート制作、エンターテイメントビデオ制作に広く使用されている。画像Aと画像Bが与えられた場合、顔交換とは、画像Aの顔特徴を画像Bに移行して顔交換画像を得る過程である。
関連技術では、通常、顔交換は、形状フィッティングに基づいて実現される。例えば、検出された画像Aの顔キーポイント及び画像Bの顔キーポイントに基づいて、2つの画像間の顔の五官、輪郭などの領域に関する形状変化関係を計算し、形状変換関係に基づいて画像Aの顔と画像Bの顔とを融合させ、顔交換画像を得ることができる。
上記の形状フィッティング過程では、顔の変形と融合の過程によって顔交換を実現する。しかし、画像Aの顔と画像Bの顔との姿勢差異が大きい場合、単純な形状フィッティングで姿勢差異の大きい顔を処理することができず、結果的に顔交換画像の顔の変形が不自然になり、つまり、顔交換画像の顔と画像Aの顔との類似度が低く、顔交換の精度が低くなる。
本出願の実施形態は、画像処理方法及び装置、コンピューター機器、コンピューター可読記憶媒体並びにコンピュータープログラム製品を提供し、それは、顔交換前後の類似度を向上させ、それによって顔交換の精度を向上させることができる。
本出願の実施形態は、画像処理方法を提供し、前記画像処理方法は、
顔交換要求を受信するステップであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、ステップと、
前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得するステップであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の3次元属性を示す、ステップと、
前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するステップと、
前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するステップと、
前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るステップと、
正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るステップと、
前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るステップであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、ステップと、を含む。
本出願の実施形態は、画像処理装置を提供し、前記画像処理装置は、
顔交換要求を受信するように構成される属性パラメータ取得モジュールであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、属性パラメータ取得モジュールと、
前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得し、前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するように構成される目標属性パラメータ決定モジュールであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の3次元属性を示す、目標属性パラメータ決定モジュールと、
前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するように構成される総合特徴決定モジュールと、
前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るように構成される符号化モジュールと、
正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るように構成される移行モジュールと、
前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るように構成される復号モジュールであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、復号モジュールと、を備える。
本出願の実施形態は、コンピューター機器を提供し、前記コンピューター機器は、メモリと、プロセッサと、メモリに記憶されたコンピュータープログラムを含み、前記プロセッサは、前記コンピュータープログラムを実行して、上記の画像処理方法を実現する。
本出願の実施形態は、プロセッサに実行される場合、上記の画像処理方法を実現するコンピュータープログラムを記憶した、コンピューター可読記憶媒体を提供する。
本出願の実施形態は、プロセッサに実行される場合、上記の画像処理方法を実現する実現するコンピュータープログラムを含む、コンピュータープログラム製品を提供する。
本出願の実施形態によって提供される技術案がもたらす有益な効果は、以下のとおりである。
本出願の実施形態では、顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定し、それによって、期待される生成しようとする画像内の顔の3次元属性特徴を見つけ出す。該目標属性パラメータと目標顔の顔特徴に基づいて、顔交換対象画像と目標顔を総合的に表すことができる目標総合特徴を得、該顔交換対象画像を符号化して、該顔交換対象画像の画像符号化特徴を得、それによって該画像符号化特徴により該顔交換対象画像の画素レベルにおける細分化特徴を得る。該目標総合特徴を正則化方式により、該顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。本出願の実施形態では、画素レベルまで細分化された符号化特徴をグローバル的な総合特徴と混合させ、画像符号化特徴の特徴分布を目標総合特徴に整列させ、それによって生成された融合符号化特徴の精度を向上させる。該融合符号化特徴を復号することにより、融合顔を含む目標顔交換画像を得、復号された画像が各画素点まで細分化されて目標総合特徴を表現することができ、復号された画像内の融合顔が感覚的により目標顔に近く、融合顔と目標顔との間の感覚上の類似度を向上させ、それによって顔交換の精度を向上させる。
本出願の実施形態による画像処理方法を実現する実施環境の模式図である。 本出願の実施形態による顔交換モデルのトレーニング方法の模式的フローチャートである。 本出願の実施形態による顔交換モデルのトレーニング過程フレームワークの模式図である。 本出願の実施形態による画像処理方法のシグナリングインタラクション図である。 本出願の実施形態による画像処理装置の構造的模式図である。 本出願の実施形態によるコンピューター機器の構造的模式図である。
本出願の実施形態の技術案をより明瞭に説明するために、以上において、本出願の実施形態の説明に必要とされる図面について簡単に記載されている。
以下に本出願における図面を参照しながら本出願の実施形態を説明する。図面を参照して説明される以下の実施形態は、本出願の実施形態の技術案を解釈するための例示的な説明であり、本出願の実施形態の技術案を限定しないことを理解すべきである。
理解可能なこととして、本出願の具体的な実施形態では、関連する顔画像、例えば、顔交換モデルのトレーニングに使用される第1サンプル画像、第2サンプル画像、姿勢画像、目標対象のビデオなどの対象に関連する任意のデータ、及び、顔交換モデルを使用して顔交換を行う際に使用される顔交換対象画像、目標顔の顔特徴、属性パラメータなどの対象に関連する任意のデータについて、上記の対象に関連する任意のデータは、関連対象の同意又は許可を得た後に取得されるものである。以下の本出願の実施形態が具体的な製品又は技術に適用される場合、対象の許可又は同意を得る必要があり、関連データの収集、使用及び処理は、関連する国と地域の関連法律法規及び基準を遵守する必要がある。また、本出願の画像処理方法を用いていずれかの対象の顔画像に対して実行される顔交換過程は、いずれも、関連対象によってトリガーされた顔交換サービス又は顔交換要求に基づいて、関連対象の許可又は同意を得てから実行される顔交換過程である。
以下では、本出願に関連する技術用語を紹介する。
1)顔交換:ある顔画像内の目標顔を用いて別の画像内の顔を置き換えることである。
2)顔交換モデル:顔交換モデルを呼び出すことによって、目標顔の属性データと顔特徴に基づいて、目標顔をいずれかの顔交換対象画像に入れ替えることができ、本出願の実施形態が提供する画像処理方法は、顔交換対象画像内の顔を専属の目標顔に置き換えるために、該顔交換モデルを使用することができる。
3)顔交換対象画像:顔を置き換える必要がある画像であり、例えば、目標顔を顔交換対象画像に入れ替えることができる。なお、本出願の実施形態の画像処理方法を用いて、顔交換対象画像に対して顔交換を行って目標顔交換画像を得、該目標顔交換画像に含まれる融合顔は、顔交換対象画像内の顔と目標顔との融合であり、融合顔と目標顔の感官の類似度がより高く、しかも、融合顔は、顔交換対象画像内の顔の表情、角度などの姿勢も融合しており、それによって目標顔画像がより迫真的でリアルになる。
4)属性パラメータ:画像の属性パラメータは、画像内の顔の3次元属性を示すために用いられ、顔の3次元空間における姿勢、空間環境などの属性を表すことができる。
5)顔特徴:両目間の距離、鼻の大きさなどの画像内の顔の2次元平面における特徴を表し、顔特徴は、該顔特徴を備える対象のアイデンティティを表すことができる。
6)目標顔:画像内の顔を置き換えるための専属顔であり、目標顔は、ユーザの選択操作に基づいて指定された顔であってもよい。本出願の実施形態は、該目標顔を専属顔とする顔交換サービスを提供し、即ち、専属の目標顔を任意の顔交換対象画像に入れ替えることができる。例えば、目標顔Aは画像Bの顔を置き換えることができ、目標顔Aは画像Cの顔を置き換えることもできる。
7)第1サンプル画像:該第1サンプル画像は、該目標顔を含み、顔交換モデルのトレーニングに使用される画像である。
8)第2サンプル画像:該第2サンプル画像は、交換対象顔を含み、顔交換モデルのトレーニングに使用される画像である。トレーニング過程では、第1サンプル画像内の目標顔を専属顔とし、第1サンプル画像内の目標顔を第2サンプル画像に入れ替え、この過程に基づいて顔交換モデルをトレーニングして得ることができる。
図1は、本出願による画像処理方法の実施環境の模式図である。図1に示すように、該実施環境は、サーバ11と端末12とを含む。
該サーバ11は、トレーニングして得られた顔交換モデルが配置され、該サーバ11は、顔交換モデルに基づいて顔交換機能を端末12に提供することができる。該顔交換サービスとは、目標顔に基づいて顔交換対象画像内の顔に対して顔交換を行うことによって、生成された目標顔画像内の融合顔が該画像内の元の顔と目標顔とを融合させることができるサービスである。一部の実施形態では、該端末12は、顔交換要求を該サーバ11に送信することができ、該顔交換要求は、顔交換対象画像を含むことができ、該サーバ11は、該顔交換要求に基づいて、本出願の画像処理方法を実行して目標顔交換画像を生成し、該目標顔交換画像を該端末12に返信することができる。一部の実施形態では、該サーバ11は、アプリケーションプログラムのバックグラウンドサーバであり得る。該端末12にはアプリケーションプログラムがインストールされており、該端末12と該サーバ11は該アプリケーションプログラムによってデータインタラクションを行うことで、顔交換過程を実現することができる。該アプリケーションプログラムは、顔交換機能が配置され得る。該アプリケーションプログラムは、顔交換機能をサポートする任意の1つのアプリケーションであり、例えば、該アプリケーションプログラムは、ビデオ編集アプリケーション、画像処理ツール、ビデオアプリケーション、ライブブロードキャストアプリケーション、ソーシャルアプリケーション、コンテンツインタラクションプラットフォーム、ゲームアプリケーションなどを含むが、これらに限定されない。
サーバは、独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウドストレージ、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、コンテンツ配信ネットワーク(CDN:Content Delivery Network)、及びビッグデータと人工知能プラットフォームなどの基礎的なクラウドコンピューティングサービスを提供するクラウドサーバ又はサーバクラスタであってもよい。上記ネットワークは、有線ネットワーク及び無線ネットワークを含むことができるが、これらに限定されず、ここで、該有線ネットワークは、ローカルエリアネットワーク、メトロポリタンエリアネットワーク及び広域ネットワークを含み、該無線ネットワークは、ブルートゥース(登録商標)、Wi-Fi及びその他の無線通信を実現するネットワークを含む。端末は、スマートフォン(Android携帯電話、iOS携帯電話など)、タブレットコンピューター、ノートコンピューター、デジタル放送受信機、モバイルインターネット機器(MID:Mobile Internet Devices)、パーソナルデジタルアシスタント、デスクトップコンピューター、車載端末(車載ナビゲーション端末、車載コンピューターなど)、スマート家電、航空機、スマートスピーカー、スマートウォッチなどであってもよく、端末とサーバは有線通信又は無線通信で直接又は間接的に接続することができるが、これらに限定されない。
本出願の実施形態で提供される画像処理方法は、下記の人工知能及びコンピュータービジョンなどの技術に関わり、例えば、人工知能技術におけるクラウドコンピューティング及びビッグデータ処理などの技術を使用して、第1サンプル画像内の属性パラメータの抽出、顔交換モデルのトレーニングなどの過程を実現する。例えば、コンピュータービジョン技術を使用して、ビデオ内の画像フレームに対して顔認識を実行し、目標顔を含む第1サンプル画像を切り取る。
人工知能(AI:Artificial Intelligence)は、デジタルコンピューター又はデジタルコンピューターによって制御される機械を使用して、人間の知能をシミュレート、延伸、拡張し、環境を感知し、知識を取得し、知識を使用して最適な結果を取得する理論、方法、技術、及び応用システムである。つまり、人工知能は、コンピューター科学の総合技術であり、知能の本質を理解し、人間の知能に似た方法で反応する新しい知能機械を生産しようとするものである。人工知能は、つまり、各種の知能機械の設計原理と実現方法を研究し、機械に感知、推理と決定の機能を持たせる。
人工知能技術は、総合学科であり、分野が広く、ハードウェアの技術もあれば、ソフトウェアの技術もある。人工知能基礎技術は一般的に、例えばセンサー、専用人工知能チップ、クラウドコンピューティング、分散型ストレージ、ビッグデータ処理技術、操作/インタラクションシステム、機電一体化などの技術を含む。人工知能ソフトウェア技術は主にコンピュータービジョン技術、音声処理技術、自然言語処理技術及び機械学習/深層学習、自動運転、スマート交通などのいくつかのテーマを含む。
理解すべきこととして、コンピュータービジョン技術(CV:Computer Vision)は、どのように機械に「見えるようにする」かについて研究する科学であり、さらに、人間の目の代わりにカメラとコンピューターを使用して目標を識別及び測定し、さらにグラフィック処理を行うことによって、コンピューターで処理した画像が、人間の目で観察したり、機器の検出に転送したりするのにより適した画像になる。科学学科として、コンピュータービジョンは関連する理論と技術を研究し、画像又は多次元データから情報を取得することができる人工知能システムを構築しようとするものである。コンピュータービジョン技術は、通常、画像処理、画像認識、画像セマンティック理解、画像検索、光学キャラクター認識、ビデオ処理、ビデオセマンティック理解、ビデオコンテンツ/動作認識、3次元対象再構成、3D技術、仮想現実、拡張現実、同期位置決めと地図構築、自動運転、スマート交通などの技術を含み、一般的な顔認識、指紋認識などの生物特徴認識技術も含む。
本出願の実施形態が解決する技術的課題、実施される技術案及び達成される技術的効果をより明確にするために、以下に図面を参照して本出願の実施形態をさらに詳細に説明する。
図2は、本出願の実施形態による顔交換モデルのトレーニング方法の模式的フローチャートである。該方法の実行主体は、コンピューター機器(例えば、図1に示すサーバ11)であってもよい。図2に示すように、該方法は以下のステップ201~208を含む。
ステップ201において、コンピューター機器は、第1サンプル画像の顔特徴及び属性パラメータを取得し、第2サンプル画像の属性パラメータを取得する。
第1サンプル画像は目標顔を含み、第2サンプル画像は交換対象顔を含む。コンピューター機器は、任意の顔を含むデータを第2サンプル画像として収集し、様々な姿勢角度を有する目標顔を含む画像を第1サンプル画像として収集することができる。コンピューター機器は、顔パラメータ推定モデルにより、第1サンプル画像の属性パラメータ及び第2サンプル画像の属性パラメータを取得することができる。コンピューター機器は、顔認識モデルによって第1サンプル画像の顔特徴を取得することができる。
顔パラメータ推定モデルは、入力された2次元顔画像に基づいて顔の3次元属性パラメータを推定するために用いられる。顔パラメータ推定モデルは、畳み込みニューラルネットワーク構造のモデルであってもよく、例えば、顔パラメータ推定モデルは、3次元変形可能な顔モデル(3DMM:3D Morphable models)であってもよい。本出願の実施形態は、3DMM内の残差ネットワーク(ResNet:Residual Network)により回帰分析を行って入力された2次元顔画像の3次元の属性パラメータを得ることができる。顔パラメータ推定モデルは、2次元画像内の顔の3次元属性パラメータを抽出する機能を備えた他の任意のモデルであってもよく、ここでは3DMMモデルのみを例として説明する。
属性パラメータは、画像内の顔の3次元属性を示すために用いられ、3次元空間における顔の姿勢、空間環境などの属性を表すことができる。属性パラメータは、形状係数(id_coeff)、表情係数(expression_coeff)、テクスチャ係数(texture_coeff)、角度係数(angles_coeff)、光照射係数(gamma_coeff)などを含むが、これらに限定されない。形状係数は顔の形状、顔の五官の形状などを表し、角度係数は顔のピッチ角、左右の偏向角などの角度を表し、テクスチャ係数は顔の皮膚、毛髪などを表すことができ、光照射係数は、画像内の顔が位置する周囲環境の光照射状況を表すことができる。
本出願の実施形態によって提供されるコンピューター機器は、形状係数、表情係数、テクスチャ係数、角度係数、及び光照射係数のうちの指定された1つ又は複数を各サンプル画像の属性パラメータとして抽出することができ、それらの全てを対応するサンプル画像の属性パラメータとして抽出することもできる。対応して、第1サンプル画像及び第2サンプル画像の属性パラメータの取得方式は、以下の3つの方式を含むことができる。
方式1:コンピューター機器は、第1サンプル画像内の目標顔の形状係数を第1サンプル画像の属性パラメータとして抽出し、コンピューター機器は、第2サンプル画像における表情係数及び角度係数を第2サンプル画像の属性パラメータとして抽出する。
方式1において、第1サンプル画像の属性パラメータは、第1サンプル画像における目標顔の形状係数を含む。第2サンプル画像の属性パラメータは、第2サンプル画像における顔の表情係数及び角度係数を含む。第1サンプル画像の形状係数及び第2サンプル画像の表情係数と角度係数を取得し、後続で目標顔の形状特徴と、交換対象顔の表情、角度などの特徴とを利用して融合を行うことで、融合して得られたサンプル顔交換画像内の顔が目標顔の五官形状、及び交換対象顔の表情、角度などを備えることができ、それによって、融合された顔と目標顔との五官形状上の類似度を向上させる。
方式2:第2サンプル画像について、コンピューター機器は、第2サンプル画像の予め設定されたパラメータを第2サンプル画像の属性パラメータとして取得することができる。第1サンプル画像について、コンピューター機器は、第1サンプル画像における目標顔の形状係数を第1サンプル画像の属性パラメータとして抽出する。
方式2において、コンピューター機器は、必要に応じて、第2サンプル画像の属性パラメータにどのパラメータを含ませるかを構成し、第2サンプル画像の属性パラメータは予め設定されたパラメータを含むことができる。例えば、予め設定されたパラメータは、表情係数、テクスチャ係数、角度係数、及び光照射係数のうちの少なくとも1つを含むことができる。予め設定されたパラメータは、必要に応じて予め設定されたパラメータであり、例えば、光照射係数、表情係数を含む予め設定されたパラメータにより、最終的に融合して得られた顔に交換対象顔の周囲環境の光照射、表情などの特徴を持たせる。予め設定されたパラメータがテクスチャ係数、角度係数などを含むように設定することもでき、ここでは繰り返して記載しない。
方式3:コンピューター機器は、第1サンプル画像及び第2サンプル画像の複数のパラメータを対応する属性パラメータとして抽出することもでき、後続のステップで複数のパラメータから必要なパラメータをさらに抽出することができる。
例として、第1サンプル画像の属性パラメータは、第1サンプル画像における目標顔の形状係数、表情係数、テクスチャ係数、角度係数、光照射係数などの5つのパラメータを含み得る。例えば、属性パラメータはベクトルで表すことができ、第1サンプル画像の属性パラメータが上記5つのパラメータを含む場合、第1サンプル画像の属性パラメータは257次元の特徴ベクトルとして表すことができる。第2サンプル画像の属性パラメータも、第2サンプル画像の形状係数、表情係数、テクスチャ係数、角度係数、光照射係数などの5つのパラメータを含み得、対応して、第2サンプル画像の属性パラメータも257次元の特徴ベクトルとして表すことができる。
一部の実施形態では、コンピューター機器は、様々な姿勢角度における目標顔の姿勢画像を取得し、複数の姿勢画像に基づいて第1サンプル画像の顔特徴及び属性パラメータを抽出することができる。コンピューター機器によって第1サンプル画像の顔特徴及び属性パラメータを取得する過程は、以下の技術案により実現され得る。コンピューター機器が少なくとも2つの姿勢画像を第1サンプル画像として取得し、少なくとも2つの姿勢画像が目標顔の少なくとも2つの顔姿勢を含み、コンピューター機器は、少なくとも2つの姿勢画像に基づいて、少なくとも2つの顔姿勢に対応する顔特徴及び属性パラメータを取得し、コンピューター機器は、少なくとも2つの顔姿勢に対応する顔特徴の平均値を第1サンプル画像の顔特徴とし、少なくとも2つの顔姿勢に対応する属性パラメータの平均値を第1サンプル画像の属性パラメータとする。コンピューター機器は、顔パラメータ推定モデルを呼び出して、少なくとも2つの姿勢画像内の各姿勢画像の属性パラメータを抽出し、少なくとも2つの姿勢画像の属性パラメータの平均値を計算し、少なくとも2つの姿勢画像の属性パラメータの平均値を第1サンプル画像の属性パラメータとすることができる。コンピューター機器は、顔認識モデルを呼び出して、少なくとも2つの姿勢画像内の各姿勢画像の2次元平面における顔特徴を抽出し、少なくとも2つの姿勢画像の顔特徴の平均値を計算し、少なくとも2つの姿勢画像の顔特徴の平均値を第1サンプル画像の顔特徴とすることができる。例えば、第1サンプル画像の顔特徴は512次元の特徴ベクトルであってもよい。顔特徴は目標対象のアイデンティティを表し、目標顔は目標対象の顔である。
一部の実施形態では、コンピューター機器は、目標顔を含む複数の姿勢画像をビデオから抽出することができる。コンピューター機器によって少なくとも2つの姿勢画像を第1サンプル画像として取得することは、以下の技術案により実現され得る。コンピューター機器は、目標対象のビデオに含まれる少なくとも2つの画像フレームに対して顔認識処理を実行し、目標顔を含む少なくとも2つの画像フレームを取得し、目標対象の顔が目標顔であり、コンピューター機器は、少なくとも2つの画像フレームに対して顔の切り取り処理を実行して、少なくとも2つの姿勢画像を取得し、少なくとも2つの姿勢画像を第1サンプル画像とする。顔姿勢は、顔の表情、角度、顔の五官の形状、動作、顔に着用する眼鏡、顔のメイクなどのいずれかの属性を含むことができるが、これらに限定されない。コンピューター機器は、顔姿勢のいずれかの属性によって姿勢を区別することができる。例えば、笑顔の表情の顔と怒りの表情の顔は2つの姿勢の顔とすることができ、眼鏡をかけている顔とかけていない顔も2つの姿勢の顔とすることもでき、目標顔のピッチ角が上向き45°であり、目が閉じた顔と、ピッチ角が下向き30°であり、目が開いた顔も2つの姿勢の顔とすることもできる。コンピューター機器は、目標顔の複数の独立した静止画像を取得し、複数の独立した静止画像から複数の姿勢画像を抽出することもできる。コンピューター機器は、複数の静止画像に対して顔の切り取り処理を実行し、少なくとも2つの姿勢画像を取得し、少なくとも2つの姿勢画像を第1サンプル画像とすることもできる。
一部の実施形態では、コンピューター機器は、以下の技術案により、画像フレームに対して顔の切り取りを実行して姿勢画像を得ることができる。まず、コンピューター機器は、画像フレームに対して顔検出を実行して、画像フレームの顔座標枠を得る。具体的には、画像フレーム内の目標顔の所在する顔領域を、顔座標枠によって囲む。次に、コンピューター機器は、画像フレームの顔座標枠に基づいて画像フレームに対して顔のマッピング処理を行い、画像フレーム内の目標顔キーポイントを得る。具体的には、目標顔キーポイントは画像フレーム内の目標顔の五官キーポイント、顔輪郭キーポイントを含むことができ、髪キーポイントなども含むことができる。コンピューター機器は、YOLOネットワークなどの目標検出ネットワークによって、画像フレームに対してキーポイント検出処理を行うことを実現することができ、目標検出ネットワークの入力情報は、顔画像と画像フレーム内の顔画像の顔座標枠であり、出力情報は、目標顔キーポイントを含む顔キーポイント座標シーケンスであり、顔キーポイント座標シーケンスに含まれるキーポイントの数量は、顔の細部の需要に応じて予め設定することができ、例えば、顔キーポイント座標シーケンスに含まれるキーポイントの数量は、5点、68点、90点などの固定値であってもよい。最後、コンピューター機器は、目標顔キーポイントに基づいて画像フレームに対して顔の切り取り処理を実行して、姿勢画像を取得し、顔キーポイント座標シーケンスによって表された順序に従って、目標顔キーポイントに対して接続処理を行い、接続して得られた閉じた図形を姿勢画像とする。
一部の実施形態では、コンピューター機器は、第2サンプル画像を取得する過程については、第1サンプル画像を取得する過程と同じである。例えば、コンピューター機器は、任意の対象を含む対象画像を取得し、対象画像に対して顔の切り取り処理を実行して、対象の顔を含む画像を取得し、対象の顔を含む画像を第2サンプル画像とすることができる。顔の切り取り方式は、画像フレームに対して顔の切り取りを行って姿勢画像を得る技術案と同じであり、ここでは繰り返して記載しない。また、コンピューター機器は、顔パラメータ推定モデルを呼び出して第2サンプル画像の属性パラメータを抽出することができる。
一部の実施形態では、コンピューター機器は、第1サンプル画像の顔特徴及び属性パラメータを記憶することができる。具体的に、コンピューター機器は、第1サンプル画像の顔特徴及び属性パラメータを予め設定された記憶アドレスである目標アドレスに記憶する。目標顔の顔特徴及び属性パラメータを固定的に記憶することで、後続の利用時に目標アドレスからデータ抽出を直接行うのに便利であることができる。例えば、トレーニングされた顔交換モデルを用いて外部に専属の顔交換サービスを提供する場合、固定記憶の方式により、コンピューター機器は、記憶された目標顔の顔特徴と属性パラメータを直接抽出し、専属の目標顔をいずれかの顔画像に入れ替える専属の顔交換過程を実現することができる。例えば、反復トレーニング段階では、目標顔の顔特徴と属性パラメータを目標アドレスから直接抽出してトレーニングすることができる。
ステップ202において、コンピューター機器は、第1サンプル画像の属性パラメータ及び第2サンプル画像の属性パラメータに基づいてサンプル属性パラメータを決定する。
サンプル属性パラメータは、生成しようとするサンプル顔交換画像内の期待属性を示すために用いられる。
ステップ201の方式1に対応して、コンピューター機器は、第1サンプル画像の形状係数と第2サンプル画像の表情係数及び角度係数をサンプル属性パラメータとして決定することができる。
ステップ201の方式2及び方式3に対応して、コンピューター機器は、第1サンプル画像及び第2サンプル画像の各属性パラメータを必要に応じてサンプル属性パラメータとして選択することができる。ステップ202は、以下の技術案によって実現され得る。コンピューター機器は、第1サンプル画像の形状係数及び第2サンプル画像の予め設定されたパラメータを目標属性パラメータとして決定し、第2サンプル画像の予め設定されたパラメータが表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも1つを含む。ステップ201の方式2に対応して、予め設定されたパラメータは、ステップ201の方式2で得られた予め設定されたパラメータであってもよく、このステップで、コンピューター機器は、第2サンプル画像の予め設定されたパラメータを直接取得してもよい。ステップ201の方式3に対応して、予め設定されたパラメータは、5つの係数を含む属性パラメータから抽出された予め設定されたパラメータであってもよく、このステップで、コンピューター機器は、予め設定されたパラメータ識別子に基づいて、第2サンプル画像から、予め設定されたパラメータ識別子に対応する予め設定されたパラメータを抽出することができる。例えば、予め設定されたパラメータ識別子は、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも1つのパラメータのパラメータ識別子を含むことができる。例えば、予め設定されたパラメータは、表情係数及び角度を含むことができ、即ち、生成しようとするサンプル顔交換画像内の顔の、期待している目標顔の顔、五官などの形状、及び第2サンプル画像における顔の表情、角度などを含むことができる。コンピューター機器は、目標顔の形状係数、及び第2サンプル画像の表情係数及び角度を目標属性パラメータとして決定することができる。例えば、予め設定されたパラメータは、テクスチャ係数と光照射係数を含むこともでき、即ち、サンプル顔交換画像内の顔の、期待している目標顔の形状、及び第2サンプル画像における顔のテクスチャ係数、光照射係数などを含むことができる。コンピューター機器は、目標顔の形状係数、及び第2サンプル画像のテクスチャ係数及び光照射係数をサンプル属性パラメータとして決定することもできる。
ステップ203において、コンピューター機器は、サンプル属性パラメータ及び第1サンプル画像の顔特徴に基づいて、サンプル総合特徴を決定する。
コンピューター機器は、サンプル属性パラメータと第1サンプル画像の顔特徴とを結合し、結合によって得られた結合特徴をサンプル総合特徴とすることができる。サンプル総合特徴は、期待される生成しようとするサンプル顔特徴のうち、顔の総合特徴を表すことができる。例えば、サンプル属性パラメータ及び顔特徴は、特徴ベクトルの形で表現することができ、コンピューター機器は、サンプル属性パラメータに対応する第1特徴ベクトルと、顔特徴に対応する第2特徴ベクトルとに対して結合操作を実行し、サンプル総合特徴に対応する第3特徴ベクトルを取得することができる。
ステップ204において、コンピューター機器は、第2サンプル画像に対して符号化処理を行い、サンプル符号化特徴を得る。
コンピューター機器は、第2サンプル画像を初期化された顔交換モデルのエンコーダに入力し、エンコーダによって第2サンプル画像に対して符号化処理を行い、第2サンプル画像に対応する符号化ベクトルを得、符号化ベクトルをサンプル符号化特徴とする。第2サンプル画像を符号化してサンプル符号化特徴を得ることにより、第2サンプル画像に含まれる各画素点の画素レベル情報を正確に細分化する。
エンコーダは複数のカスケード接続された畳み込み層を含み、複数のカスケード接続された畳み込み層によって第2サンプル画像に対して畳み込み処理を行い、各畳み込み層は畳み込み処理の結果を次の畳み込み層に入力して畳み込み処理を続行し、最後の畳み込み層の出力はサンプル符号化特徴である。
ステップ205において、コンピューター機器は、正則化方式によってサンプル総合特徴を第2サンプル画像のサンプル符号化特徴に移行し、サンプル融合特徴を取得する。
コンピューター機器は、ステップ205を採用して、サンプル総合特徴とサンプル符号化特徴との融合を実現することができる。コンピューター機器は、正則化方式を使用して、サンプル符号化特徴に対してサンプル総合特徴の第3特徴分布を第2サンプル画像の第4特徴分布と整列させ、サンプル融合特徴を得ることができる。一部の実施形態において、特徴分布は、平均値及び標準偏差を含み得る。対応して、ステップ205は、以下の技術案によって実現され得る。コンピューター機器は、少なくとも1つの特徴チャネルにおけるサンプル符号化特徴の第3平均値及び第3標準偏差を取得し、第3平均値及び第3標準偏差に合致する正規分布を第3特徴分布とし、少なくとも1つの特徴チャネルにおけるサンプル総合特徴の第4平均値及び第4標準偏差を取得し、第4平均値及び第4標準偏差に合致する正規分布を第4特徴分布とする。コンピューター機器は、各特徴チャネルにおけるサンプル符号化特徴の平均値及び標準偏差(第3特徴分布)を、対応する特徴チャネルにおけるサンプル総合特徴の平均値と標準偏差(第4特徴分布)に対して整列処理して、サンプル融合特徴を得る。コンピューター機器は、サンプル符号化特徴の各特徴チャネルを正規化し、正規化されたサンプル符号化特徴の平均値及び標準偏差を、サンプル総合特徴の平均値及び標準偏差と整列させ、サンプル融合特徴を生成することができる。
例として、コンピューター機器は、サンプル符号化特徴及びサンプル総合特徴に基づいて、以下の式(1)で上記の第3特徴分布から第4特徴分布までの整列処理を実現し、サンプル融合特徴を計算して得ることができる。
Figure 0007479507000001
ここで、xはサンプル符号化特徴を表し、yはサンプル総合特徴を表し、σ(x)とμ(x)はサンプル符号化特徴の平均値と標準偏差をそれぞれ表し、σ(y)、μ(y)は、サンプル総合特徴の平均値と標準偏差をそれぞれ表す。ここで、適応インスタンス正則化方式を利用することは、適応インスタンス正則化(AdaIN:Adaptive Instance Normalization)アルゴリズムを採用することであり、AdaIN(x,y)は、適応インスタンス正則化方式に基づいて生成されたサンプル融合特徴を表す。
例として、上述した適応インスタンス正則化方式の他に、インスタンス正則化(IN:Instance Normalization)アルゴリズムを採用することもでき、これについては限定しない。
ステップ206において、コンピューター機器は、サンプル融合特徴に対して復号処理を行い、サンプル顔交換画像を得る。
コンピューター機器は、サンプル融合特徴を初期化された顔交換モデル内のデコーダに入力し、デコーダによりサンプル融合特徴に対応する画像を復元し、コンピューター機器は、デコーダによって出力された画像をサンプル顔交換画像とする。デコーダは、入力された特徴に基づいて、入力された特徴に対応する画像を復元することができる。コンピューター機器は、デコーダによりサンプル融合画像を復号し、サンプル顔交換画像を得る。例えば、エンコーダは、入力画像に対して畳み込み操作を実行することができるため、デコーダは、実行時にエンコーダの動作原理に従って逆方向操作、即ち逆畳み込み操作を実行し、サンプル融合特徴に対応する画像を復元することができる。例えば、エンコーダはオートエンコーダ(AE:Autoencoder)であってもよく、デコーダはオートエンコーダに対応するデコーダであってもよい。
デコーダは複数のカスケード接続された畳み込み層を含み、複数のカスケード接続された畳み込み層によりサンプル融合特徴に対して逆畳み込み処理を行い、各畳み込み層は逆畳み込み処理の結果を次の畳み込み層に入力して逆畳み込み処理を続行し、最後の畳み込み層の出力はサンプル顔交換画像である。
上述のステップ205によって、正則化方式で特徴移行を実行することにより、サンプル総合特徴を任意の画像の符号化特徴に移行することをサポートし、サンプル総合特徴とサンプル符号化特徴の混合を実現することができる。さらに、サンプル符号化特徴は、第2サンプル画像における各画素の特徴を表し、サンプル総合特徴は、第1サンプル画像及び第2サンプル画像の特徴をグローバル的な視点で統合するものである。したがって、正則化方式によって、画素レベルまで細分化された符号化特徴とグローバル的な総合特徴との間の混合を実現し、サンプル符号化特徴の特徴分布をサンプル総合特徴に整列させ、それによって生成されたサンプル融合特徴の精度を向上させる。ステップ206によって、サンプル融合特徴を使用して画像を復号し、復号された画像を各画素点まで細分化してサンプル総合特徴を表現することができ、復号された画像内の顔と目標顔との間の感官の類似度を向上させ、顔交換の精度を向上させる。
ステップ207において、前記サンプル顔交換画像と前記サンプル属性パラメータとの間の第1差異、前記サンプル顔交換画像の顔特徴と前記第1サンプル画像の顔特徴との間の第2差異、及び前記サンプル顔交換画像と前記第2サンプル画像との間の第3差異に基づいて、前記初期化された顔交換モデルの総損失を決定する。
第1差異に対応する第1重み、第2差異に対応する第2重み、第3差異に対応する第3重みを取得し、第1重み、第2重み及び第3重みに基づいて第1差異、第2差異及び第3差異に対して加重平均処理を行い、総損失を得て、各差異に対応する重みは予め設定された数値であってもよい。
ステップ208において、前記総損失に基づいて前記初期化された顔交換モデルを、目標条件に合致するまでトレーニングし、目標条件に合致したときに得られたモデルを前記顔交換モデルとする。
コンピューター機器は、サンプル顔交換画像とサンプル属性パラメータ、第1サンプル画像の顔特徴、及び第2サンプル画像との間の複数の類似度をそれぞれ決定し、複数の類似度に基づいて総損失を得ることができる。一部の実施形態では、初期化された顔交換モデルは判別器を含むことができ、コンピューター機器は判別器を利用してサンプル顔交換画像の真実性を判断することができる。コンピューターによって総損失を決定する過程は、次のステップを含むことができる。コンピューター機器は、サンプル顔交換画像の属性パラメータとサンプル属性パラメータとの間の第1類似度を取得し、第1類似度を第1差異とし、コンピューター機器は、サンプル顔交換画像の顔特徴と第1サンプル画像の顔特徴との間の第2類似度を取得し、第2類似度を第2差異とし、コンピューター機器は、初期化された顔交換モデルの判別器により、第2サンプル画像とサンプル顔交換画像との間の第3類似度を取得し、第3類似度を第3差異とし、コンピューター機器は、第1類似度、第2類似度及び第3類似度に基づいて、総損失を決定する。
コンピューター機器は、サンプル顔交換画像の属性パラメータを抽出し、以下の式(2)により、サンプル顔交換画像の属性パラメータとサンプル属性パラメータとの間の第1類似度を決定することができる。
3d feature loss=abs(gt 3d feature-result 3d feature) (2)
ここで、3d feature lossは第1類似度を表し、第1類似度の値が小さいほど、サンプル顔交換画像の属性パラメータがサンプル属性パラメータに近いことを示す。result 3d featureはサンプル顔交換画像の属性パラメータを表し、gt 3d featureはサンプル属性パラメータを表し、absは(gt 3d feature-result 3d feature)の絶対値を取ることを表す。サンプル属性パラメータは、目標顔の形状係数、及び第2サンプル画像の表情係数と角度であってもよく、これに対応して、gt 3d featureは、以下の式(3)と表すことができる。
gt 3d feature=source 3d feature id+target 3d feature expression+target 3d feature angles (3)
ここで、source 3d feature idは、第1サンプル画像の形状係数を表し、target 3d feature expressionは、第2サンプル画像の表情係数を表し、target 3d feature anglesは、第2サンプル画像の角度を表す。
コンピューター機器は、サンプル顔交換画像の顔特徴を抽出し、以下の式(4)により、サンプル顔交換画像の顔特徴と第1サンプル画像の顔特徴との間の第2類似度を決定することができる。
id loss=1-cosine similarity(result id feature,Mean Source ID) (4)
id lossは、第2類似度を表し、第2類似度の値が小さいほど、サンプル顔交換画像の顔特徴が第1サンプル画像の顔特徴に近いことを示す。result id featureは、サンプル顔交換画像の顔特徴を表し、Mean Source IDは、第1サンプル画像の顔特徴を表し、cosine similarity(result id feature,Mean Source ID)は、result id featureとMean Source IDとの間のコサイン類似度を表す。ここで、コサイン類似度の決定方式は、以下の式(5)に示す過程とすることができる。
Figure 0007479507000002
ここで、AとBは、サンプル顔交換画像の顔特徴に対応する特徴ベクトル、第1サンプル画像の顔特徴に対応する特徴ベクトルをそれぞれ表すことができ、θは、ベクトルAとベクトルBの2つの特徴ベクトルの間の角度を表し、Aは、サンプル顔交換画像の顔特徴におけるi番目の特徴チャネルの成分を表し、Bは、第1サンプル画像の顔特徴におけるi番目の特徴チャネルの成分を表し、similarityとcos(θ)はコサイン類似度を表す。
コンピューター機器は、第2サンプル画像を実画像として判別器に入力し、サンプル顔交換画像を判別器に入力することができる。コンピューター機器は、判別器により、第2サンプル画像の少なくとも1つのスケールにおける第3スケール画像、サンプル顔交換画像の対応する少なくとも1つのスケールにおける第4スケール画像をそれぞれ取得する。コンピューター機器は、各第3スケール画像に対応する判別確率を取得し、各第4スケール画像に対応する判別確率を取得し、画像の判別確率は、画像が実画像であると判断する確率を示すために用いられ、画像は、第3スケール画像又は第4スケール画像である。コンピューター機器は、各第3スケール画像に対応する判別確率及び各第4スケール画像に対応する少なくとも1つの判別確率に基づいて、第3類似度を決定する。例えば、初期化された顔交換モデルは、生成器と判別器を含むことができ、コンピューター機器は、判別器に対応する判別損失値及び生成器に対応する生成損失値を取得し、生成損失値及び判別損失値に基づいて、第3類似度を決定する。生成器は、第2サンプル画像及び第1サンプル画像に基づいてサンプル顔交換画像を生成するように構成され、例えば、生成器は、上記ステップ204~206で使用されるエンコーダ及びデコーダを含んでもよい。第3類似度は、生成損失値及び判別損失値を含むことができ、コンピューター機器は、サンプル顔交換画像の判別確率を採用して生成損失値を表すことができ、例えば、コンピューター機器は、サンプル顔交換画像の判別確率に基づいて、次の式(6)により、生成損失値を計算して得る。
G loss=log(1-D(result)) (6)
ここで、D(result)は、サンプル顔交換画像の判別確率を表し、サンプル顔交換画像の判別確率は、サンプル顔交換画像が実画像に属する確率を指し、G lossは、生成損失値を表す。
生成器は複数のカスケード接続された畳み込み層を含み、例えば、生成器はU型ネットワーク構造であってもよく、U型ネットワークによって第2サンプル画像と第1サンプル画像に対してダウンサンプリング処理を行い、ダウンサンプリング結果に対してアップサンプリング処理を行ってサンプル顔交換画像を得る。判別器も複数のカスケード接続された畳み込み層を含み、判別器はU型ネットワークのダウンサンプリング構造及び全結合層であり、U型ネットワークのダウンサンプリング構造はサンプル顔交換画像に対して畳み込み処理を行い、更に全結合層によって畳み込み結果をマッピングし、サンプル顔交換画像の判別確率を得る。
判別器はマルチスケール判別器であってもよく、コンピューター機器は、判別器によってサンプル顔交換画像に対してスケール変換を実行して、マルチスケールの第4スケール画像を取得することができ、例えば、サンプル顔交換画像の、第1スケールにおける第4スケール画像、第2スケールにおける第4スケール画像、及び第3スケールにおける第4スケール画像をそれぞれ取得することができる。同様に、コンピューター機器は、判別器によって、第2サンプル画像の、第1スケールにおける第3スケール画像、第2スケールにおける第3スケール画像、及び第3スケールにおける第3スケール画像をそれぞれ取得することができる。第1スケール、第2スケール、第3スケールは必要に応じて設定されてもよく、例えば、第1スケールはサンプル顔交換画像又は第2サンプル画像のオリジナルスケールであってもよく、第2スケールはオリジナルスケールの1/2であってもよく、第3スケールはオリジナルスケールの1/4であってもよい。コンピューター機器は、マルチスケール判別器によって各スケールにおけるスケール画像に対応する判別確率を取得し、マルチスケールにおけるスケール画像の判別確率に基づいて判別損失値を計算して得ることができる。例えば、コンピューター機器は、各第3スケール画像に対応する判別確率、及び各第4スケール画像に対応する少なくとも1つの判別確率に基づいて、以下の式(7)により、判別損失値を取得する。
D loss=1/3*{-logD(template img)-log(1-D(result))-logD(template img1/2)-log(1-D(result1/2))-logD(template img1/4)-log(1-D(result1/4))} (7)
ここで、D(template img)、D(template img1/2)、D(template img1/4)は、それぞれ第2サンプル画像のオリジナルスケールにおける第3スケール画像の判別確率、第2サンプル画像の1/2のスケールにおける第3スケール画像の判別確率、第2サンプル画像の1/4のスケールにおける第3スケール画像の判別確率を表し、D(result)、D(result1/2)、D(result1/4)は、それぞれサンプル顔交換画像のオリジナルスケールにおける第4スケール画像の判別確率、サンプル顔交換画像の1/2のスケールにおける第4スケール画像の判別確率、サンプル顔交換画像の1/4のスケールにおける第4スケール画像の判別確率を表す。本出願の実施形態では、第2サンプル画像フレームを実画像とすることができる。
コンピューター機器は、上述の判別損失値及び生成損失値に基づいて、第3類似度を決定してもよく、例えば、第3類似度=G loss+D lossである。ここで、判別器について、生成損失値と判別損失値とが釣り合った場合、判別器はトレーニング停止の条件に達したと見なすことができ、それ以上のトレーニングは不要である。
コンピューター機器は、上記の第1類似度、第2類似度及び第3類似度に基づいて、以下の式(8)により、総損失を決定することができる。
loss=id loss+3d feature loss+D loss+G loss (8)
ここで、lossは総損失を表し、3d feature lossは第1類似度を表し、id lossは第2類似度を表し、(D loss+G loss)は第3類似度を表す。
コンピューター機器は、上記のステップ201~206に基づいて初期化された顔交換モデルに対して反復トレーニングを実行し、毎回の反復トレーニングに対応する総損失を取得し、毎回の反復トレーニングの総損失に基づいて初期化された顔交換モデルのパラメータを調整することができ、例えば、初期化された顔交換モデルにおけるエンコーダ、デコーダ、判別器などに含まれるパラメータを、総損失が目標条件を満たすまで複数回最適化し、総損失が目標条件を満たす場合、コンピューター機器はトレーニングを停止し、最終回の最適化によって得られたモデルを顔交換モデルとする。総損失の数値が目標数値範囲内にあることを目標条件とすることができ、目標数値範囲は、複数回の実験に基づいて予め設定された範囲であり、例えば、総損失が0.5以下の目標数値範囲内にあり、又は、複数回の反復トレーニングに費やされた時間が最大時間長を超えることであり、最大時間長はトレーニングからオンライン応用までの所要時間長の70%であり、例えば、トレーニングからオンライン応用までの所要時間長は1時間であり、複数回の反復トレーニングに費やされた時間が0.7時間を超えると、目標条件を満たすことを表す。
図3は、本出願の実施形態による専属の顔交換モデルのトレーニング過程のフレームワークの模式図であり、図3に示すように、コンピューター機器は、対象Aの顔を専属の目標顔とし、対象Aの顔の複数の姿勢の顔画像を第1サンプル画像として取得し、第1サンプル画像の属性パラメータを3D顔パラメータ推定モデルによって抽出し、顔認識モデルによって第1サンプル画像の顔特徴を抽出し、3D顔パラメータ推定モデルによって第2サンプル画像の属性パラメータを抽出することができる。コンピューター機器は、第1サンプル画像の顔特徴と形状係数、及び第2サンプル画像の予め設定されたパラメータ(例えば、表情係数と角度係数)をサンプル属性パラメータに統合する。コンピューター機器は、第2サンプル画像を初期化された顔交換モデルに入力することができ、初期化された顔交換モデルは、エンコーダ及びデコーダを含むことができ、コンピューター機器は、エンコーダによって第2サンプル画像を符号化し、第2サンプル画像の符号化特徴を得ることができる。例えば、第2サンプル画像を対応する特徴ベクトルに符号化する。コンピューター機器は、サンプル属性パラメータ及び第2サンプル画像の符号化特徴に基づいてサンプル融合特徴を得、サンプル融合特徴を初期化された顔交換モデル内のデコーダに入力し、デコーダは、入力された特徴に基づいて入力された特徴に対応する画像を復元することができる。コンピューター機器は、デコーダによってサンプル融合画像を復号し、サンプル顔交換画像を得る。例えば、デコーダは、エンコーダの動作原理に基づいて逆畳み込み操作を実行して、サンプル融合特徴に対応する画像を復元する。
コンピューター機器は、マルチスケール判別器によって第3類似度を取得し、抽出されたサンプル顔交換画像の顔特徴及び属性パラメータに基づいて第1類似度及び第2類似度を取得し、第1類似度、第2類似度及び第3類似度に基づいて、総損失を計算し、総損失に基づいてモデルパラメータを最適化する。コンピューター機器は、目標条件に合致するまで上記の過程で反復トレーニングを実行し、目標条件に合致する時に、トレーニングを停止し、任意の画像内の顔を専属の目標顔に置き換えることができる顔交換モデルを得る。
図4は、本出願の実施形態による画像処理方法のシグナリングインタラクション図である。図4に示すように、画像処理方法は、サーバと端末とのインタラクションによって実現され得る。画像処理方法のインタラクション過程は、ステップ401~ステップ410を参照することができる。
ステップ401において、端末は、目標アプリケーションのアプリケーション画面を表示し、アプリケーション画面は、目標トリガーコントロールを含み、目標トリガーコントロールは、顔交換対象画像に対する顔交換要求をトリガーするために用いられる。
目標アプリケーションは、顔交換機能を提供することができ、顔交換機能は、顔交換対象画像内の顔を専属の目標顔に置き換える機能であってもよい。目標アプリケーションのアプリケーション画面に目標トリガーコントロールが提供され得、端末は、対象による目標トリガーコントロールのトリガー操作に基づいて、顔交換要求をサーバに送信することができる。例えば、目標アプリケーションは、画像処理アプリケーション、ライブブロードキャストアプリケーション、写真撮影ツール、ビデオ編集アプリケーションなどであってもよい。サーバは、目標アプリケーションのバックグラウンドサーバであってもよく、又は、サーバは、顔交換機能を提供する任意の一つのコンピューター機器、例えば、顔交換モデルが構成されたクラウドコンピューティングセンター機器に使用されることもできる。
ステップ402において、端末は、アプリケーション画面で目標トリガーコントロールに対するトリガー操作を受信したことに応答して、顔交換対象画像を取得し、顔交換対象画像に基づいて顔交換要求をサーバに送信する。
一部の実施形態では、目標アプリケーションは、1枚の画像に対する顔交換機能を提供することができる。例えば、目標アプリケーションは、画像処理アプリケーション、ライブブロードキャストアプリケーション、ソーシャルアプリケーションなどであってもよい。顔交換対象画像は、端末がローカル記憶スペースから取得した選択済みの画像であってもよく、又は、端末が取得したリアルタイムで対象を撮影して得られた画像であってもよい。一部の実施形態では、目標アプリケーションは、ビデオに含まれる各画像フレームの顔に対する顔交換機能を提供することができ、例えば、目標アプリケーションは、ビデオ編集アプリケーション、ライブブロードキャストアプリケーションなどであり得る。サーバは、ビデオ内の対象Aの顔を含む画像フレーム全体を目標顔に置き換えることができる。顔交換対象画像は、ビデオ内の各画像フレームを含むか、又は端末はビデオ内の各画像フレームに対して初期の顔検出を行い、ビデオ内の対象Aの顔を含む各画像フレームを顔交換対象画像とする。
ステップ403において、サーバは、端末によって送信された顔交換要求を受信する。
ステップ404において、サーバは、顔交換対象画像の属性パラメータ、目標顔の属性パラメータ及び目標顔の顔特徴を取得し、顔交換対象画像の属性パラメータは、顔交換対象画像内の顔の3次元属性を示し、顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定する。
顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられ、顔交換対象画像の属性パラメータは、顔交換対象画像内の顔の3次元属性を示すために用いられる。サーバは、3D顔パラメータ推定モデルにより、顔交換対象画像の属性パラメータを取得し得る。画像の属性パラメータは、形状係数、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも1つを含み、目標顔の属性パラメータ及び目標顔の顔特徴は、予め記憶されるものであり得る。
一部の実施形態では、サーバは、目標顔の形状係数と顔交換対象画像の予め設定されたパラメータを目標属性パラメータとして決定することができ、予め設定されたパラメータは、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも1つを含む。例えば、予め設定されたパラメータは、表情係数、角度係数を含むことができる。又は、予め設定されたパラメータは、テクスチャ係数、光照射係数などを含むこともできる。
ステップ405において、サーバは、目標属性パラメータ及び目標顔の顔特徴に基づいて、目標総合特徴を決定する。
サーバは、目標属性パラメータと目標顔の顔特徴を結合し、目標総合特徴を得ることができる。
説明すべきこととして、サーバに、トレーニングされた顔交換モデルが構成されてもよく、サーバは、顔交換モデルによって上述のステップ404~ステップ405の過程を実行してもよい。顔交換モデルは、以上のステップ201~207に基づいてトレーニングして得られたものである。サーバがトレーニングによって顔交換モデルを得る場合、目標顔の顔特徴と属性パラメータを固定的に記憶することができ、例えば、目標アドレスに記憶することができる。ステップ404及び405が実行される場合、サーバは目標アドレスから目標顔の属性パラメータを抽出し、ステップ404を実行することができ、サーバは目標アドレスから目標顔の顔特徴を抽出し、ステップ405を実行する。サーバは、顔交換モデルにより、以下のステップ406~408の過程を実行することができる。
ステップ406において、サーバは、顔交換対象画像に対して符号化処理を行い、顔交換対象画像の画像符号化特徴を得る。
ステップ407において、サーバは、正則化方式により、目標総合特徴を顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。
1つの選択可能な実施形態では、コンピューター機器は、画像符号化特徴の平均値及び標準偏差を目標総合特徴と整列させることができる。ステップ407は、以下の技術案により実現され得る。サーバは、少なくとも1つの特徴チャネルにおける画像符号化特徴の第1平均値及び第1標準偏差を取得し、第1平均値及び第1標準偏差に合致する正規分布を第1特徴分布とし、少なくとも1つの特徴チャネルにおける目標総合特徴の第2平均値及び第2標準偏差を取得し、第2平均値及び第2標準偏差に合致する正規分布を第2特徴分布とする。サーバは、画像符号化特徴に対して第1特徴分布から第2特徴分布までの整列処理を行い、融合符号化特徴を得る。具体的に、サーバは、画像符号化特徴に対してマッピング処理を行い、画像符号化特徴の各特徴チャンネルにおける平均値と標準偏差を、目標総合特徴の対応特徴チャンネルにおける平均値と標準偏差と整列させ、融合符号化特徴を得る。例えば、サーバは、上記ステップ205における式(1)を用いて、融合符号化特徴を計算して得ることもできる。
ステップ408において、サーバは、融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得、融合顔は、顔交換対象画像内の顔と目標顔との融合である。
サーバが上記のステップ403~408を実行して目標顔交換画像を得る実現方式は、コンピューター機器が上記のステップ201~206を実行してサンプル顔交換画像を得る実現方式と同じであり、ここでは繰り返して記載しない。
ステップ409において、サーバは、目標顔交換画像を端末に返信する。
顔交換対象画像が1枚の画像である場合、サーバは、1枚の顔交換対象画像に対応する目標顔交換画像を端末に返信することができる。顔交換対象画像がビデオに含まれる複数の画像フレームである場合、サーバは、ビデオ内の各顔交換対象画像フレームに対して、上記のステップ403~408によって、顔交換対象画像フレームに対応する目標顔交換画像を生成することができ、サーバは、ビデオに対応する顔交換ビデオを端末に返信することができ、顔交換ビデオは、各画像フレームに対応する目標顔交換画像を含む。
ステップ410において、端末は、サーバによって返信された目標顔交換画像を受信し、目標顔交換画像を表示する。
端末は、目標顔交換画像をアプリケーション画面に表示することができる。又は、端末は、アプリケーション画面に顔交換ビデオ内の各目標顔交換画像を再生することもできる。
本出願の実施形態によって提供される画像処理方法では、顔交換対象画像の属性パラメータを取得し、属性パラメータは、画像内の顔の3次元属性を示すために用いられ、顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定し、それによって、期待される生成しようとする画像内の顔の3次元属性特徴を見つけ出す。目標属性パラメータと目標顔の顔特徴に基づいて、顔交換対象画像と目標顔を総合的に表すことができる目標総合特徴を得、しかも、顔交換対象画像を符号化して、顔交換対象画像の画像符号化特徴を得、それによって画像符号化特徴により顔交換対象画像の画素レベルにおける細分化特徴を得る。さらに、目標総合特徴を正則化方式により、顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。本出願では、画素レベルまで細分化された符号化特徴をグローバル的な総合特徴と混合させ、画像符号化特徴の特徴分布を目標総合特徴に整列させ、それによって生成された融合符号化特徴の精度を向上させる。融合符号化特徴を復号することにより、融合顔を含む目標顔交換画像を得て、復号された画像が各画素点まで細分化されて目標総合特徴を表現することができる効果を達成し、復号された画像内の融合顔が感覚的により目標顔に近く、融合顔と目標顔との間の感覚上の類似度を向上させ、それによって顔交換の精度を向上させる。
図5は、本出願の実施形態による画像処理装置の構造的模式図である。図5に示すように、該装置は、顔交換要求を受信するように構成され、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる属性パラメータ取得モジュール501と、前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得し、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の3次元属性を示し、前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するように構成される目標属性パラメータ決定モジュール502と、前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するように構成される総合特徴決定モジュール503と、前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るように構成される符号化モジュール504と、正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るように構成される移行モジュール505と、前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るように構成され、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である復号モジュール506と、を備える。
一部の実施形態では、目標顔の属性パラメータは、形状係数であり、顔交換対象画像の属性パラメータは、予め設定されたパラメータであり、前記目標属性パラメータ決定モジュールは、前記目標顔の形状係数と前記顔交換対象画像の予め設定されたパラメータとを前記目標属性パラメータとして決定するように構成され、前記予め設定されたパラメータは、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも1つを含む。
一部の実施形態では、前記移行モジュールは、画像符号化特徴の少なくとも1つの特徴チャネルにおける第1平均値及び第1標準偏差を取得し、第1平均値及び第1標準偏差に合致する正規分布を第1特徴分布とし、目標総合特徴の少なくとも1つの特徴チャネルにおける第2平均値及び第2標準偏差を取得し、第2平均値及び第2標準偏差に合致する正規分布を第2特徴分布とし、画像符号化特徴に対して第1特徴分布から第2特徴分布までの整列処理を行い、融合符号化特徴を得るように構成される。
一部の実施形態では、前記目標顔交換画像は、トレーニングされた顔交換モデルを呼び出して得られたものであり、前記顔交換モデルは、目標顔の属性データ及び顔特徴に基づいて、前記目標顔をいずれかの顔画像に換えるために用いられ、前記装置は、モデルトレーニングモジュールをさらに備え、前記モデルトレーニングモジュールは、第1サンプル画像の顔特徴及び属性パラメータを取得し、第2サンプル画像の属性パラメータを取得するように構成され、前記第1サンプル画像は、前記目標顔を含み、前記第2サンプル画像は、交換対象顔を含む取得ユニットと、前記第1サンプル画像の属性パラメータ及び前記第2サンプル画像の属性パラメータに基づいて、サンプル属性パラメータを決定するように構成され、前記サンプル属性パラメータは、生成しようとするサンプル顔交換画像内の顔の期待属性を示すために用いられるサンプル属性パラメータ決定ユニットと、前記サンプル属性パラメータ及び前記第1サンプル画像の顔特徴に基づいて、サンプル総合特徴を決定するように構成されるサンプル総合特徴取得ユニットと、前記第2サンプル画像に対して符号化処理を行い、サンプル符号化特徴を得るように構成される符号化ユニットと、正則化方式によって前記サンプル総合特徴を前記第2サンプル画像のサンプル符号化特徴に移行し、サンプル融合特徴を得るように構成される移行ユニットと、前記サンプル融合特徴に対して復号処理を行い、サンプル顔交換画像を得るように構成される復号ユニットと、サンプル顔交換画像とサンプル属性パラメータとの間の第1差異、サンプル顔交換画像の顔特徴と第1サンプル画像の顔特徴との間の第2差異、及びサンプル顔交換画像と第2サンプル画像との間の第3差異に基づいて、初期化された顔交換モデルの総損失を決定し、総損失に基づいて初期化された顔交換モデルを、目標条件に合致するまでトレーニングし、目標条件に合致したときに得られたモデルを顔交換モデルとするように構成されるトレーニングユニットと、を含む。
一部の実施形態では、前記トレーニングユニットは、さらに、サンプル顔交換画像の属性パラメータとサンプル属性パラメータとの間の第1類似度を取得し、第1類似度を前記第1差異とし、サンプル顔交換画像の顔特徴と第1サンプル画像の顔特徴との間の第2類似度を取得し、第2類似度を第2差異とし、第2サンプル画像とサンプル顔交換画像との間の第3類似度を取得し、第3類似度を第3差異とするように構成される。
一部の実施形態では、前記トレーニングユニットは、さらに、第2サンプル画像の少なくとも1つのスケールにおける第1スケール画像、及びサンプル顔交換画像の少なくとも1つのスケールにおける第2スケール画像を取得し、第2サンプル画像を実画像とし、各第1スケール画像に対応する判別確率を取得し、各第2スケール画像に対応する判別確率を取得し、画像の判別確率は、画像を実画像と判断する確率を示すために用いられ、画像は、第1スケール画像又は第2スケール画像であり、各第1スケール画像に対応する判別確率及び各第2スケール画像に対応する少なくとも1つの判別確率に基づいて、第3類似度を決定するように構成される。
一部の実施形態では、取得ユニットは、さらに、少なくとも2つの姿勢画像を取得し、少なくとも2つの姿勢画像を前記第1サンプル画像とし、前記少なくとも2つの姿勢画像は、前記目標顔の少なくとも2つの顔姿勢を含み、前記少なくとも2つの姿勢画像に基づいて、前記少なくとも2つの顔姿勢に対応する顔特徴及び属性パラメータを取得し、前記少なくとも2つの顔姿勢に対応する顔特徴の平均値を前記第1サンプル画像の顔特徴とし、前記少なくとも2つの顔姿勢に対応する属性パラメータの平均値を前記第1サンプル画像の属性パラメータとするように構成される。
対応して、前記装置は、前記第1サンプル画像の顔特徴及び属性パラメータを記憶するように構成される記憶ユニットをさらに備える。
一部の実施形態では、前記取得ユニットは、さらに、目標対象のビデオに含まれる少なくとも2つの画像フレームに対して顔認識処理を実行し、前記目標顔を含む少なくとも2つの画像フレームを得、前記目標顔が前記目標対象の顔であり、前記少なくとも2つの画像フレームに対して顔の切り取り処理を実行し、前記少なくとも2つの姿勢画像を得るように構成される。
本出願の実施形態によって提供される画像処理装置では、顔交換対象画像の属性パラメータを取得し、前記属性パラメータは、画像内の顔の3次元属性を示すために用いられ、前記顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定し、それによって、期待される生成しようとする画像内の顔の3次元属性特徴を見つけ出す。前記目標属性パラメータと目標顔の顔特徴に基づいて、顔交換対象画像と目標顔を総合的に表すことができる目標総合特徴を得、そして、前記顔交換対象画像を符号化して、前記顔交換対象画像の画像符号化特徴を得、それによって前記画像符号化特徴により前記顔交換対象画像の画素レベルにおける細分化特徴を得る。さらに、前記目標総合特徴を正則化方式により、前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。本出願では、画素レベルまで細分化された符号化特徴をグローバル的な総合特徴と混合させ、画像符号化特徴の特徴分布を目標総合特徴に整列させ、それによって生成された融合符号化特徴の精度を向上させる。融合符号化特徴を復号することにより、融合顔を含む目標顔交換画像を得、復号された画像が各画素点まで細分化されて目標総合特徴を表現することができる効果を達成し、復号された画像内の融合顔が感覚的により目標顔に近く、融合顔と目標顔との間の感覚上の類似度を向上させ、それによって顔交換の精度を向上させる。
本出願の実施形態の装置は、本出願の実施形態で提供される画像処理方法を実行することができ、それらの実現原理は類似する。本出願の各実施形態の画像処理装置における各モジュールによって実行された動作は、本出願の各実施形態の画像処理方法におけるステップに対応するものであり、装置の各モジュールの詳細な機能の説明については、上述した対応する画像処理方法における説明を参照することができ、ここでは繰り返して記載しない。
図6は、本出願の実施形態によるコンピューター機器の構造的模式図である。図6に示すように、前記コンピューター機器は、メモリ、プロセッサ及びメモリに記憶されたコンピュータープログラムを含み、前記プロセッサは、上記のコンピュータープログラムを実行して、画像処理方法のステップを実現する。
本出願の実施形態によって提供される画像処理装置では、顔交換対象画像の属性パラメータを取得し、前記属性パラメータは、画像内の顔の3次元属性を示すために用いられ、前記顔交換対象画像の属性パラメータと目標顔の属性パラメータに基づいて、目標属性パラメータを決定し、それによって、期待される生成しようとする画像内の顔の3次元属性特徴を見つけ出す。前記目標属性パラメータと目標顔の顔特徴に基づいて、顔交換対象画像と目標顔を総合的に表すことができる目標総合特徴を得、そして、前記顔交換対象画像を符号化して、前記顔交換対象画像の画像符号化特徴を得、それによって前記画像符号化特徴により前記顔交換対象画像の画素レベルにおける細分化特徴を得る。さらに、前記目標総合特徴を正則化方式により、前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得る。本出願では、画素レベルまで細分化された符号化特徴をグローバル的な総合特徴と混合させ、画像符号化特徴の特徴分布を目標総合特徴に整列させ、それによって生成された融合符号化特徴の精度を向上させる。融合符号化特徴を復号することにより、融合顔を含む目標顔交換画像を得、復号された画像が各画素点まで細分化されて目標総合特徴を表現することができる効果を達成し、復号された画像内の融合顔が感覚的により目標顔に近く、融合顔と目標顔との間の感覚上の類似度を向上させ、それによって顔交換の精度を向上させる。
1つの選択可能な実施形態では、コンピューター機器が提供される。図6に示すように、コンピューター機器600は、プロセッサ601、メモリ603を含む。プロセッサ601は、例えばバス602によってメモリ603に接続される。選択可能的に、コンピューター機器600はトランシーバ604をさらに含むことができ、トランシーバ604は、データ送信及び/又はデータ受信など、前記コンピューター機器と他のコンピューター機器との間のデータインタラクションのために用いられることができる。なお、実際の応用では、トランシーバ604は1つに限定されず、前記コンピューター機器600の構造は本出願の実施形態に対する限定を構成しない。
プロセッサ601は、中央処理装置(CPU:Central Processing Unit)、汎用プロセッサ、データ信号プロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、又はその他のプログラマブルロジックデバイス、トランジスタロジックデバイス、ハードウェアコンポーネント、又はそれらの任意の組み合わせであり得る。それは、本出願の開示された内容を組み合わせて説明された様々な例示的な論理ブロック、モジュール及び回路を実現又は実行することができる。プロセッサ601は、1つ以上のマイクロプロセッサの組み合わせ、DSPとマイクロプロセッサの組み合わせなど、計算機能を実現するための組み合わせであってもよい。
バス602は、前述のコンポーネント間で情報を伝送するための1つのパスを含むことができる。バス602は、周辺部品相互接続規格(PCI:Peripheral Component Interconnect)バス又は拡張工業規格構造(EISA:Extended Industry Standard Architecture)バスなどであってもよい。バス602は、アドレスバス、データバス、コントロールバスなどに分けることができる。表示を容易にするために、図6では1本の太い線のみで表示されているが、1本のバスまたは1種類のバスのみを表示しているわけではない。
メモリ603は、読み取り専用メモリ(ROM:Read Only Memory)又は静的な情報及び命令を記憶することができる他のタイプの静的記憶装置、ランダムアクセスメモリ(RAM:Random Access Memory)又は情報及び命令を記憶することができる他のタイプの動的記憶装置であってもよく、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read Only Memory)、読み取り専用ディスク(CD-ROM:コンパクト ディスク Read Only Memory)又はその他の光ディスクメモリ、光ディスクストレージ(圧縮ディスクス、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスクなどを含む)、磁気ディスク記憶媒体又はその他の磁気記憶デバイス、又はコンピュータープログラムを搬送又は記憶するために用いられ得、コンピューターによって読み取られ得るその他のいなかる媒体であってもよく、ここでは限定されない。
メモリ603は、本出願の実施形態を実行するためのコンピュータープログラムを記憶するために用いられ、その実行はプロセッサ601によって制御される。プロセッサ601は、メモリ603に記憶されたコンピュータープログラムを実行して、前述の方法の実施形態で示されたステップを実現するように構成される。
コンピューター機器は、サーバ又はクラウドコンピューティングセンターデバイスなどを含むが、これらに限定されない。
本出願の実施形態は、コンピューター可読記憶媒体を提供し、前記コンピューター可読記憶媒体は、コンピュータープログラムが記憶され、コンピュータープログラムがプロセッサによって実行される場合、前述の方法の実施形態のステップ及び対応する内容が実現され得る。
本出願の実施形態は、コンピュータープログラムを含むコンピュータープログラム製品をさらに提供し、コンピュータープログラムがプロセッサによって実行される場合、前述の方法の実施形態のステップ及び対応する内容が実現され得る。
当業者は、本明細書で使用される単数形「1」、「1つ」、「前記」及び「該」は、特に説明しない限り、複数形も含むことができることを理解することができる。本出願の実施形態で使用される「含む」及び「備える」という用語は、対応する特徴が、呈された特徴、情報、データ、ステップ、及び操作として実現され得ることを意味するが、本技術分野でサポートされた他の特徴、情報、データ、ステップ、及び操作などとして実現されることを排除しない。
本出願の明細書及び特許請求の範囲、並びに上記の図面における「第1」、「第2」、「第3」、「第4」、「1」、「2」などの用語(存在する場合)は、必ずしも特定の順序又は前後順序を説明することではなく、類似する対象を区別するために用いられる。このように使用されるデータは、適切な場合で交換可能であるため、本明細書に記載された本出願の実施形態は、図示又は文字で説明された順序以外の順序で実施され得ることを理解すべきである。
本出願の実施形態のフローチャートでは、各操作ステップを矢印で示しているが、これらのステップの実施順序は矢印で示された順序に限定されないことを理解すべきである。本明細書で明確的に説明されない限り、本出願の実施形態のいくつかの実施シナリオでは、各フローチャートの実施ステップは、必要に応じて他の順序で実行されてもよい。さらに、各フローチャートのステップの一部又は全ては、実際の実施シナリオに基づいて、複数のサブステップ又は複数の段階を含むことができる。これらのサブステップ又は段階の一部又は全ては、同時に実行されてもよく、これらのサブステップ又は段階の各サブステップ又は段階は、それぞれ異なる時刻に実行されてもよい。実行時刻が異なるシナリオでは、これらのサブステップ又は段階の実行順序は、必要に応じて柔軟に設定されてもよく、本出願の実施形態では限定されない。
以上は本出願の一部の実施シナリオの選択可能な実施形態だけであり、当業者にとっては、本出願の解決策の技術的概念から逸脱することなく、本出願の技術思想に基づく他の類似する実施手段を採用することは、同様に本出願の実施形態の保護範囲に属することを指摘すべきである。
11 サーバ
12 端末
300 ネットワーク
501 属性パラメータ取得モジュール
502 目標属性パラメータ決定モジュール
503 総合特徴決定モジュール
504 符号化モジュール
505 移行モジュール
506 復号モジュール
600 コンピューター機器
601 プロセッサ
602 バス
603 メモリ
604 トランシーバ

Claims (11)

  1. コンピューター機器が実行する、画像処理方法であって、
    顔交換要求を受信するステップであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、ステップと、
    前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得するステップであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の3次元属性を示す、ステップと、
    前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するステップと、
    前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するステップと、
    前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るステップと、
    正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るステップと、
    前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るステップであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、ステップと、を含む、画像処理方法。
  2. 前記目標顔の属性パラメータは、形状係数であり、前記顔交換対象画像の属性パラメータは、予め設定されたパラメータであり、
    前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するステップは、
    前記目標顔の形状係数と前記顔交換対象画像の予め設定されたパラメータとを前記目標属性パラメータとして決定するステップを含み、前記予め設定されたパラメータは、表情係数、角度係数、テクスチャ係数及び光照射係数のうちの少なくとも1つを含むことを特徴とする
    請求項1に記載の画像処理方法。
  3. 正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るステップは、
    少なくとも1つの特徴チャネルにおける前記画像符号化特徴の第1平均値及び第1標準偏差を取得し、前記第1平均値及び前記第1標準偏差に合致する正規分布を第1特徴分布とし、少なくとも1つの特徴チャネルにおける前記目標総合特徴の第2平均値及び第2標準偏差を取得し、前記第2平均値及び前記第2標準偏差に合致する正規分布を第2特徴分布とするステップと、
    前記画像符号化特徴に対して前記第1特徴分布から前記第2特徴分布までの整列処理を行い、前記融合符号化特徴を得るステップと、を含むことを特徴とする
    請求項1に記載の画像処理方法。
  4. 前記目標顔交換画像は、トレーニングされた顔交換モデルを呼び出して得られたものであり、前記顔交換モデルは、目標顔の属性データ及び顔特徴に基づいて、前記目標顔をいずれかの顔画像に入れ替えるために用いられ、
    前記画像処理方法は、
    第1サンプル画像の顔特徴及び属性パラメータを取得し、第2サンプル画像の属性パラメータを取得するステップであって、前記第1サンプル画像は、前記目標顔を含み、前記第2サンプル画像は、交換対象顔を含む、ステップと、
    前記第1サンプル画像の属性パラメータ及び前記第2サンプル画像の属性パラメータに基づいて、サンプル属性パラメータを決定ステップであって、前記サンプル属性パラメータは、生成しようとするサンプル顔交換画像内の顔の期待属性を示すために用いられる、ステップと、をさらに含み、
    初期化された顔交換モデルにより、
    前記サンプル属性パラメータ及び前記第1サンプル画像の顔特徴に基づいて、サンプル総合特徴を決定するステップと、
    前記第2サンプル画像に対して符号化処理を行い、サンプル符号化特徴を得るステップと、
    正則化方式によって前記サンプル総合特徴を前記第2サンプル画像のサンプル符号化特徴に移行し、サンプル融合特徴を得るステップと、
    前記サンプル融合特徴に対して復号処理を行い、サンプル顔交換画像を得るステップと、
    前記サンプル顔交換画像と前記サンプル属性パラメータとの間の第1差異、前記サンプル顔交換画像の顔特徴と前記第1サンプル画像の顔特徴との間の第2差異、及び前記サンプル顔交換画像と前記第2サンプル画像との間の第3差異に基づいて、前記初期化された顔交換モデルの総損失を決定するステップと、
    前記総損失に基づいて前記初期化された顔交換モデルを、目標条件に合致するまでトレーニングし、目標条件に合致したときに得られたモデルを前記顔交換モデルとするステップと、を実行する、ことを特徴とする
    請求項1に記載の画像処理方法。
  5. 前記サンプル顔交換画像と前記サンプル属性パラメータとの間の第1差異、前記サンプル顔交換画像の顔特徴と前記第1サンプル画像の顔特徴との間の第2差異、及び前記サンプル顔交換画像と前記第2サンプル画像との間の第3差異に基づいて、前記初期化された顔交換モデルの総損失を決定する前に、前記画像処理方法は、
    前記サンプル顔交換画像の属性パラメータと前記サンプル属性パラメータとの間の第1類似度を取得するステップであって、前記第1類似度を前記第1差異とする、ステップと、
    前記サンプル顔交換画像の顔特徴と前記第1サンプル画像の顔特徴との間の第2類似度を取得するステップであって、前記第2類似度を前記第2差異とする、ステップと、
    前記第2サンプル画像と前記サンプル顔交換画像との間の第3類似度を取得するステップであって、前記第3類似度を前記第3差異とする、ステップと、をさらに含むことを特徴とする
    請求項4に記載の画像処理方法。
  6. 前記第2サンプル画像と前記サンプル顔交換画像との間の第3類似度を取得するステップは、
    少なくとも1つのスケールにおける前記第2サンプル画像の第1スケール画像、及び前記少なくとも1つのスケールにおける前記サンプル顔交換画像の第2スケール画像を取得するステップと、
    前記第2サンプル画像を実画像とするステップと、
    各前記第1スケール画像に対応する判別確率を取得し、各前記第2スケール画像に対応する判別確率を取得するステップであって、画像の判別確率は、前記画像が前記実画像であると判断する確率を示すために用いられ、前記画像は、前記第1スケール画像又は前記第2スケール画像である、ステップと、
    各前記第1スケール画像に対応する判別確率及び各前記第2スケール画像に対応する少なくとも1つの判別確率に基づいて、前記第3類似度を決定するステップと、を含むことを特徴とする
    請求項5に記載の画像処理方法。
  7. 第1サンプル画像の顔特徴及び属性パラメータを取得するステップは、
    少なくとも2つの姿勢画像を取得し、前記少なくとも2つの姿勢画像を前記第1サンプル画像とするステップであって、前記少なくとも2つの姿勢画像は、前記目標顔の少なくとも2つの顔姿勢を含む、ステップと、
    前記少なくとも2つの姿勢画像に基づいて、前記少なくとも2つの顔姿勢に対応する顔特徴及び属性パラメータを取得するステップと、
    前記少なくとも2つの顔姿勢に対応する顔特徴の平均値を前記第1サンプル画像の顔特徴とし、前記少なくとも2つの顔姿勢に対応する属性パラメータの平均値を前記第1サンプル画像の属性パラメータとするステップと、を含み、
    対応して、前記第1サンプル画像の顔特徴及び属性パラメータを取得した後、前記画像処理方法は、
    前記第1サンプル画像の顔特徴及び属性パラメータを記憶するステップをさらに含むことを特徴とする
    請求項4に記載の画像処理方法。
  8. 少なくとも2つの姿勢画像を取得ステップは、
    目標対象のビデオに含まれる少なくとも2つの画像フレームに対して顔認識処理を実行し、前記目標顔を含む少なくとも2つの画像フレームを得るステップであって、前記目標顔が前記目標対象の顔である、ステップと、
    前記少なくとも2つの画像フレームに対して顔の切り取り処理を実行し、前記少なくとも2つの姿勢画像を得るステップと、を含むことを特徴とする
    請求項7に記載の画像処理方法。
  9. 画像処理装置であって、
    顔交換要求を受信するように構成される属性パラメータ取得モジュールであって、前記顔交換要求は、顔交換対象画像内の顔を目標顔に置き換えることを要求するために用いられる、属性パラメータ取得モジュールと、
    前記顔交換対象画像の属性パラメータ、前記目標顔の属性パラメータ及び前記目標顔の顔特徴を取得し、前記顔交換対象画像の属性パラメータ及び前記目標顔の属性パラメータに基づいて、目標属性パラメータを決定するように構成される目標属性パラメータ決定モジュールであって、前記顔交換対象画像の属性パラメータは、前記顔交換対象画像内の顔の3次元属性を示す、目標属性パラメータ決定モジュールと、
    前記目標属性パラメータ及び前記目標顔の顔特徴に基づいて、目標総合特徴を決定するように構成される総合特徴決定モジュールと、
    前記顔交換対象画像に対して符号化処理を行い、前記顔交換対象画像の画像符号化特徴を得るように構成される符号化モジュールと、
    正則化方式により、前記目標総合特徴を前記顔交換対象画像の画像符号化特徴に移行し、融合符号化特徴を得るように構成される移行モジュールと、
    前記融合符号化特徴に対して復号処理を行い、融合顔を含む目標顔交換画像を得るように構成される復号モジュールであって、前記融合顔は、前記顔交換対象画像内の顔と前記目標顔との融合である、復号モジュールと、を備える、画像処理装置。
  10. コンピューター機器であって、メモリと、プロセッサと、メモリに記憶されたコンピュータープログラムとを含み、前記プロセッサは、前記コンピュータープログラムを実行して、請求項1乃至8のいずれか一項に記載の画像処理方法を実現する、コンピューター機器。
  11. プロセッサに、請求項1乃至8のいずれか一項に記載の画像処理方法を実行させるコンピュータープログラム。
JP2022565680A 2022-03-30 2022-08-11 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム Active JP7479507B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202210334052.7 2022-03-30
CN202210334052.7A CN114972010A (zh) 2022-03-30 2022-03-30 图像处理方法、装置、计算机设备、存储介质及程序产品
PCT/CN2022/111774 WO2023184817A1 (zh) 2022-03-30 2022-08-11 图像处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品

Publications (2)

Publication Number Publication Date
JP2024515907A JP2024515907A (ja) 2024-04-11
JP7479507B2 true JP7479507B2 (ja) 2024-05-08

Family

ID=88193142

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022565680A Active JP7479507B2 (ja) 2022-03-30 2022-08-11 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム

Country Status (3)

Country Link
US (1) US20230316607A1 (ja)
JP (1) JP7479507B2 (ja)
KR (1) KR20230141429A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086178A (ja) 2008-09-30 2010-04-15 Fujifilm Corp 画像合成装置およびその制御方法
CN111783603A (zh) 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN113642491A (zh) 2021-08-20 2021-11-12 北京百度网讯科技有限公司 人脸融合方法、人脸融合模型的训练方法及装置
CN113850168A (zh) 2021-09-16 2021-12-28 百果园技术(新加坡)有限公司 人脸图片的融合方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086178A (ja) 2008-09-30 2010-04-15 Fujifilm Corp 画像合成装置およびその制御方法
CN111783603A (zh) 2020-06-24 2020-10-16 有半岛(北京)信息科技有限公司 生成对抗网络训练方法、图像换脸、视频换脸方法及装置
CN113642491A (zh) 2021-08-20 2021-11-12 北京百度网讯科技有限公司 人脸融合方法、人脸融合模型的训练方法及装置
CN113850168A (zh) 2021-09-16 2021-12-28 百果园技术(新加坡)有限公司 人脸图片的融合方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2024515907A (ja) 2024-04-11
US20230316607A1 (en) 2023-10-05
KR20230141429A (ko) 2023-10-10

Similar Documents

Publication Publication Date Title
US10936919B2 (en) Method and apparatus for detecting human face
US20210174072A1 (en) Microexpression-based image recognition method and apparatus, and related device
US20220028031A1 (en) Image processing method and apparatus, device, and storage medium
US20220084163A1 (en) Target image generation method and apparatus, server, and storage medium
WO2023185785A1 (zh) 一种图像处理方法、模型训练方法及相关装置
CN111553267B (zh) 图像处理方法、图像处理模型训练方法及设备
CN111754596A (zh) 编辑模型生成、人脸图像编辑方法、装置、设备及介质
WO2023184817A1 (zh) 图像处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品
CN110619334B (zh) 基于深度学习的人像分割方法、架构及相关装置
WO2024109374A1 (zh) 换脸模型的训练方法、装置、设备、存储介质和程序产品
US20230100427A1 (en) Face image processing method, face image processing model training method, apparatus, device, storage medium, and program product
WO2023231182A1 (zh) 图像处理方法、装置、计算机设备、存储介质及程序产品
CN115050064A (zh) 人脸活体检测方法、装置、设备及介质
CN114529785A (zh) 模型的训练方法、视频生成方法和装置、设备、介质
CN114998583A (zh) 图像处理方法、图像处理装置、设备及存储介质
CN117094362B (zh) 一种任务处理方法及相关装置
CN116152938A (zh) 身份识别模型训练和电子资源转移方法、装置及设备
CN112069412B (zh) 信息推荐方法、装置、计算机设备及存储介质
JP7479507B2 (ja) 画像処理方法及び装置、コンピューター機器、並びにコンピュータープログラム
CN115708135A (zh) 人脸识别模型的处理方法、人脸识别方法及装置
CN114639132A (zh) 人脸识别场景下的特征提取模型处理方法、装置、设备
EP4307209A1 (en) Image processing method and apparatus, and computer device, storage medium and program product
US20240104180A1 (en) User authentication based on three-dimensional face modeling using partial face images
US20240029354A1 (en) Facial texture synthesis for three-dimensional morphable models
CN117011416A (zh) 一种图像处理方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240423

R150 Certificate of patent or registration of utility model

Ref document number: 7479507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150