JP2022502783A - 画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム - Google Patents

画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム Download PDF

Info

Publication number
JP2022502783A
JP2022502783A JP2021517986A JP2021517986A JP2022502783A JP 2022502783 A JP2022502783 A JP 2022502783A JP 2021517986 A JP2021517986 A JP 2021517986A JP 2021517986 A JP2021517986 A JP 2021517986A JP 2022502783 A JP2022502783 A JP 2022502783A
Authority
JP
Japan
Prior art keywords
target image
fusion
training
image
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021517986A
Other languages
English (en)
Other versions
JP7090971B2 (ja
Inventor
浩智 黄
森哲 胥
事民 胡
威 ▲劉▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Publication of JP2022502783A publication Critical patent/JP2022502783A/ja
Application granted granted Critical
Publication of JP7090971B2 publication Critical patent/JP7090971B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

端末機器が実行する画像融合方法であって、第1融合対象画像及び第2融合対象画像を取得するステップであって、第1融合対象画像には、複数の第1領域が含まれ、第2融合対象画像には、複数の第2領域が含まれる、ステップ(101)と、第1融合対象画像に基づいて第1特徴集合を取得し、第2融合対象画像に基づいて第2特徴集合を取得するステップであって、第1特徴集合には、複数の第1符号化特徴が含まれ、第2特徴集合には、複数の第2符号化特徴が含まれる、ステップ(102)と、形状融合ネットワークモデルによって、第1融合対象画像と第2融合対象画像とを融合処理することにより、第3融合対象画像を取得するステップ(103)と、条件融合ネットワークモデルによって、第3融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップ(104)と、を含む。本願は、モデル訓練方法及び装置をさらに含む。

Description

本願は、2019年2月26日に中国特許庁に提出された、出願番号が201910142210.7であり、発明の名称が「画像融合方法、モデル訓練方法、及び関連装置」である中国特許出願に基づく優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。
本願は、人工知能の技術分野に関し、特に画像融合方法、モデル訓練方法、及び関連装置に関する。
人工知能(AI:Artificial Intelligence)は、デジタルコンピュータ、又はデジタルコンピュータにより制御される機械を用いて、人間の知能のシミュレーション、延長や拡張をし、環境を感知し、知識を取得し、知識を用いて最適な結果を取得する理論、方法、技術、及び応用システムである。言い換えれば、人工知能は、コンピュータ科学の総合的な技術であり、知能の実質を了解することと、人間の知能に類似する方式で反応できる新たな知能機械を生産することとを図る。人工知能は、各種の知能機械の設計原理及び実現方法を研究し、感知、推理、及び意思決定の機能を機械に持たせるものである。
人工知能技術は、総合的な学科であり、関連する分野が幅広く、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能の基礎技術には、一般的に、例えば、センサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、操作/インタラクティブシステム、メカトロニクスなどの技術が含まれる。人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習/深層学習などのいくつかの方面を含む。
コンピュータビジョン技術(CV:Computer Vision)は、如何に機械が「見る」ようにするかを研究する科学であり、さらに言えば、人間の目の代わりに、カメラやコンピュータを用いて、ターゲットに対して認識、追跡や測定などのマシンビジョンを行い、さらに図形処理を行い、コンピュータの処理によって、人間の目の観察や、器械に伝送して測定することにより適する画像を形成することを指す。科学の学科として、コンピュータビジョンは、関連する理論や技術を研究し、画像や多次元データから情報を取得することができる人工知能システムの構築を図る。コンピュータビジョン技術は、通常、画像処理、画像認識、画像意味理解、画像検索、OCR、ビデオ処理、ビデオ意味理解、ビデオコンテンツ/行動認識、3次元物体の再構成、3D技術、仮想現実、拡張現実、同期測位及び地図構築などの技術を含み、一般的な顔認識、指紋認識などの生体特徴認識技術も含む。
顔融合とは、顔認識アルゴリズム及び深層学習エンジンを頼りに、顔のキーポイントを素早くかつ正確に特定し、ユーザによりアップロードされた写真と、特定のイメージとを顔レベルで融合し、生成された画像にユーザ及び特定のイメージの両方の外見的な特徴があるようにすることを指す。顔を融合すると同時に、アップロードされた写真の認識をサポートすることで、活動の安全性を向上させ、業務違反のリスクを軽減させることができる。
現在、顔融合の技術は、主に、敵対的生成ネットワークを用いて、画像を生成している。顔画像の解きほぐしをする際に、顔画像における特徴をいくつかのブロックに分割し、ブロックごとに、ある面の特徴を個別に符号化し、最後に、融合後の顔画像を生成する教師なし学習の手法を採用している。
しかしながら、敵対的生成ネットワークを用いて生成された顔画像は、その顔画像のアイデンティティが、元の入力画像のアイデンティティと一致することを確保することができず、顔認識の精度を低下させる。また、符号化の過程で教師なしの手法を採用しているため、各ブロックの独立性しか確保されないが、各ブロックが表す意味を決定することができず、画像融合の柔軟性に不利である。
本願の実施例は、画像における部分領域を素早く変更して、融合画像を形成することができ、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報と変わらない画像融合方法、モデル訓練方法、及び関連装置を提供している。
これに鑑み、本願の第1態様では、端末機器が実行する画像融合方法が提供されており、この方法は、
第1融合対象画像及び第2融合対象画像を取得するステップであって、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれる、ステップと、
前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得するステップであって、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得するステップであって、前記第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を含む。
本願の第2態様では、サーバ機器が実行するモデル訓練方法が提供されており、この方法は、
第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得するステップであって、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得するステップであって、前記第3訓練対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得するステップであって、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を含む。
本願の第3態様では、画像融合装置が提供されており、この装置は、取得モジュールと、融合モジュールと、を含み、
前記取得モジュールは、第1融合対象画像及び第2融合対象画像を取得し、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれ、
前記取得モジュールは、さらに、前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得し、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、
前記融合モジュールは、形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得し、前記第3融合対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、
前記融合モジュールは、さらに、条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。
本願の第4態様では、モデル訓練装置が提供されており、この装置は、取得モジュールと、融合モジュールと、訓練モジュールと、を含み、
前記取得モジュールは、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、
前記融合モジュールは、訓練対象形状融合ネットワークモデルによって、前記取得モジュールで取得された前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、前記第3訓練対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、
前記融合モジュールは、さらに、訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得し、
前記融合モジュールは、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴があり、
前記融合モジュールは、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
前記訓練モジュールは、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。
本願の第5態様では、メモリとプロセッサとを備える端末機器が提供されており、
前記メモリには、複数の命令が記憶され、
前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
第1融合対象画像及び第2融合対象画像を取得するステップであって、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれる、ステップと、
前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得するステップであって、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得するステップであって、前記第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する。
本願の第6の態様では、メモリとプロセッサとを備えるサーバ機器が提供されており、
前記メモリには、複数の命令が記憶され、
前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得するステップであって、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得するステップであって、前記第3訓練対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得するステップであって、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を実行する。
本願の第7の態様では、命令を記憶したコンピュータ読み取り可能な記憶媒体が提供されており、前記命令は、コンピュータで実行されると、上記の各態様に記載の方法をコンピュータに実行させる。
本願の実施例における画像融合システムのアーキテクチャの模式図である。 本願の実施例における画像融合システムの全体のフレームワークのフローの模式図である。 本願の実施例における画像融合方法の一実施例の模式図である。 本願の実施例において、解きほぐしエンコーダによって画像を符号化する一実施例の模式図である。 本願の実施例において、形状融合ネットワークモデルによって画像を融合する一実施例の模式図である。 本願の実施例における形状の手描きの一実施例の模式図である。 本願の実施例におけるモデル訓練方法の一実施例の模式図である。 本願の実施例において条件融合ネットワークモデルを訓練する一実施例の模式図である。 本願の実施例において解きほぐしエンコーダを訓練する一実施例の模式図である。 本願の実施例における画像融合装置の一実施例の模式図である。 本願の実施例における画像融合装置の他の実施例の模式図である。 本願の実施例における画像融合装置の他の実施例の模式図である。 本願の実施例におけるモデル訓練装置の一実施例の模式図である。 本願の実施例におけるモデル訓練装置の他の実施例の模式図である。 本願の実施例におけるモデル訓練装置の他の実施例の模式図である。 本願の実施例における端末機器の一実施例の模式図である。 本願の実施例における端末機器の一実施例の模式図である。
本願の実施例では、画像における部分領域を素早く変更して、融合画像を形成することができ、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報と変わらない画像融合方法、モデル訓練方法、及び関連装置が提供されている。
本願の明細書、特許請求の範囲、及び上記の図面における用語「第1」、「第2」、「第3」、「第4」など(存在する場合)は、類似の対象を区別するためのものであり、必ずしも特定の順番又は優先順位を記述するものではない。理解すべきものとして、このように使用されるデータは、適切な場合に、ここで記述される本願の実施例が例えばここで図示又は記述された順番以外の順番で実施できるように交換可能である。また、用語「含む」、「に対応する」、及びこれらの任意の変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は機器は、明示的に挙げられたステップ又はユニットに制限されず、これらのプロセス、方法、製品、又は機器に固有の、又は明示的に挙げられていない他のステップ又はユニットを含んでもよい。
理解すべきものとして、本願は、画像合成シナリオ、具体的には、顔合成シナリオ、即ち、コンピュータによる仮想的なシミュレーション顔画像の合成に適用することができる。顔画像の仮想的な合成は、新世代ヒューマンコンピュータインタラクションにおける重要な技術であり、現在国内外で非常に活発な研究方向でもあり、コンピュータグラフィックス及びコンピュータビジョンの面で広く注目・応用されることが期待できる。その潜在的な応用分野には、狭帯域ビデオ伝送、コンピュータ支援教育、映画特殊効果制作、ミュージックテレヴィジョン(MTV:music television)特殊効果制作、ゲーム制作、仮想現実、人工知能やロボットなどが含まれる。顔画像合成技術では、異なる応用分野において、異なる研究者により提案された方法が大きく異なる。顔の仮想的な合成の技術は、ヒューマンコンピュータインタラクション(human computer interaction)分野の重要な構成部分になる。ヒューマンコンピュータインタラクション技術の発展の最終目的として、1つは、コンピュータをますます知能化して使いやすくすることであり、もう1つは、ロボットのインテリジェントな知覚である。
理解しやすいために、本願は、画像融合方法を提案しており、この方法は、図1に示す画像融合システムに適用される。図1を参照されたいが、図1は、本願の実施例における画像融合システムのアーキテクチャの模式図である。図1に示すように、まず、クライアントは、画像、例えば、ユーザAの顔画像及びユーザBの顔画像を撮影し、そのうちの1つの画像、例えば、ユーザAの顔画像を入力とする。クライアントは、ローカルでユーザAの顔画像を処理してもよいし、ユーザAの顔画像をサーバ機器に送信し、サーバ機器によってユーザAの顔画像を処理してもよい。処理方式は、主に、以下の通りである。まず、ユーザAの顔画像を符号化する。異なるパーツエンコーダ(part−wise encoder)をそれぞれ用いて、異なる部位形状、例えば、目、鼻、口、眉、顔型、髪、及びボディを符号化する。例えば、髪のパーツエンコーダの場合、1*1*128の1次元特徴ベクトルが出力される。形状融合ネットワークモデルによって、ユーザAの顔画像におけるある部位の特徴ベクトルを、ユーザBの顔画像にける対応する特徴ベクトルに置換する。その後、全ての特徴ベクトルを組み合わせて1つの全体特徴ベクトルとし、グローバルデコーダによって、この全体特徴ベクトルを1つの融合顔に復号化する。続いて、条件融合ネットワークモデルによって、編集された融合顔を、生成された仮想顔画像に変換する。条件融合ネットワークモデルも同様に元の入力画像を条件入力とする。本願で生成された仮想顔画像は、入力顔画像のアイデンティティ情報を失うことなく、入力顔画像のある部位の形状が修正される。
説明すべきものとして、クライアントは、端末機器に配置されている。ここで、端末機器は、タブレットコンピュータ、ノート型コンピュータ、パームトップコンピュータ、携帯電話、音声インタラクション機器、及びパーソナルコンピュータ(PC:personal computer)を含むが、これらに限定されない。そのうち、音声インタラクション機器は、スマートオーディオやスマート家電を含むが、これらに限定されない。
以下、図2を参照しながら、画像融合システムを説明する。図2を参照されたいが、図2は、本願の実施例における画像融合システムの全体のフレームワークのフローの模式図である。図2に示すように、異なる顔の特徴を交換して符号化することにより、異なる部位形状がそれぞれ2つの顔に由来する合成顔画像を生成することができる。元画像Aの髪の特徴を元画像Bの髪の特徴に置換する必要があると仮定すると、まず、形状融合ネットワークモデルによって、元画像Aの髪の特徴を元画像Bの髪の特徴に置換し、次に、条件融合ネットワークモデルによって、指定された髪型を有するユーザAの顔を生成して、融合画像Bを取得する。本願は、ユーザBの髪型を有するユーザAの顔の生成を制御することができる。また、本方法は、特定の部位形状を直接指定した顔画像の生成もサポートしている。例えば、ユーザは、顔画像Aの髪型を直接(例えば、範囲を描画することによって)指定することができる。この場合、ユーザが指定した髪型を有するユーザAの顔を生成する。
上記の説明と組み合わせて、以下、本願における画像融合方法を説明する。図3を参照されたいが、本願の実施例における画像融合方法は、図16に示す端末機器によって実行される。この方法の一実施例は、以下のステップを含む。
101で、第1融合対象画像及び第2融合対象画像を取得し、第1融合対象画像には、複数の第1領域が含まれ、第2融合対象画像には、複数の第2領域が含まれる。
本実施例では、画像融合装置は、第1融合対象画像及び第2融合対象画像を取得する。ここで、第1融合対象画像及び第2融合対象画像は、通常、同じタイプの画像であり、例えば、両方とも顔画像であるか、又は両方とも動物画像であるか、又は両方とも風景画像であるか、又は一方は顔画像であり、他方は動物画像である。本実施例では、両方とも顔画像である場合を例にして説明するが、これは、本願を限定するものとして理解すべきではない。
ここで、第1融合対象画像及び第2融合対象画像は、いずれも、複数の領域を含む。具体的には、第1融合対象画像と第2融合対象画像とは、類似している領域を有する。例えば、第1融合対象画像は複数の第1領域を含み、第1領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。第2融合対象画像は複数の第2領域を含み、第2領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。
102で、第1融合対象画像に基づいて第1特徴集合を取得し、第2融合対象画像に基づいて第2特徴集合を取得し、第1特徴集合には、複数の第1符号化特徴が含まれ、第1符号化特徴が第1領域に1対1で対応し、第2特徴集合には、複数の第2符号化特徴が含まれ、第2符号化特徴が第2領域に1対1で対応する。
本実施例では、画像融合装置は、第1融合対象画像及び第2融合対象画像のそれぞれについて特徴を抽出する必要がある。即ち、第1融合対象画像における各第1領域について、相応する特徴を抽出することにより、第1符号化特徴を取得し、例えば、第1融合対象画像の目部分については、目部分の第1符号化特徴を抽出することができ、第1融合対象画像の髪部分については、髪部分の第1符号化特徴を抽出することができ、このようにして、最終的に、複数の第1符号化特徴が含まれる第1特徴集合を取得する。第2融合対象画像の目部分については、目部分の第2符号化特徴を抽出することができ、第2融合対象画像の髪部分については、髪部分の第2符号化特徴を抽出することができ、このようにして、最終的に、複数の第2符号化特徴が含まれる第2特徴集合を取得する。
103で、形状融合ネットワークモデルによって、第1融合対象画像と第2融合対象画像とを融合処理することにより、第3融合対象画像を取得し、第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる。
本実施例では、画像融合装置は、第1融合対象画像及び第2融合対象画像を形状融合ネットワークモデルに入力し、この形状融合ネットワークモデルによって、第3融合対象画像を出力する。ここでの第3融合対象画像には、第1融合対象画像における第1符号化特徴と、第2融合対象画像における第2符号化特徴との両方が含まれる。
104で、条件融合ネットワークモデルによって、第3融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。
本実施例では、画像融合装置は、第3融合対象画像及び第1融合対象画像を条件融合ネットワークモデルに入力し、この条件融合ネットワークモデルによって、ターゲット融合画像を出力する。ここで、ターゲット融合画像は、元に入力された第1融合対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。
本願の実施例では、画像融合方法が提供されている。まず、第1融合対象画像及び第2融合対象画像を取得し、第1融合対象画像には、複数の第1領域が含まれ、第2融合対象画像には、複数の第2領域が含まれる。次に、第1融合対象画像に基づいて第1特徴集合を取得し、第2融合対象画像に基づいて第2特徴集合を取得し、第1特徴集合には、複数の第1符号化特徴が含まれ、第1符号化特徴が第1領域に1対1で対応し、第2特徴集合には、複数の第2符号化特徴が含まれ、第2符号化特徴が第2領域に1対1で対応する。さらに、形状融合ネットワークモデルによって、第1融合対象画像と第2融合対象画像とを融合処理することにより、第3融合対象画像を取得し、第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる。最後に、条件融合ネットワークモデルによって、第3融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得することができる。上記の方式によれば、画像における各局所領域の相応する特徴が抽出され、これにより、ある画像における局所領域を素早く変更し、即ち、この局所領域を、他の画像における相応する局所領域に置換して、融合画像を形成することができる。また、融合画像において、編集された局所領域以外、残りの領域は、元の入力画像と一致する。これにより、ユーザは、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報とは変わらないと感じることになる。
上記図3に対応する実施例を基に、本願の実施例で提供された画像融合方法の第1実施例では、第1融合対象画像に基づいて第1特徴集合を取得するステップは、
解きほぐしエンコーダを用いて、第1融合対象画像における複数の第1領域を符号化処理することにより、複数の第1符号化特徴を取得するステップであって、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものである、ステップを含んでもよく、
第2融合対象画像に基づいて第2特徴集合を取得するステップは、
解きほぐしエンコーダを用いて、第2融合対象画像における複数の第2領域を符号化処理することにより、複数の第2符号化特徴を取得するステップであって、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである、ステップを含む。
本実施例では、第1特徴集合及び第2特徴集合を画像融合装置が取得する方法を説明する。画像融合装置は、第1融合対象画像及び第2融合対象画像を取得した後、この第1融合対象画像及び第2融合対象画像をそれぞれ解きほぐしエンコーダ(disentangling encoder)に入力する。ここで、解きほぐしエンコーダは、いくつかのパーツエンコーダからなる。各パーツエンコーダによって、画像における各領域を符号化すると、解きほぐした顔の形状が取得される。
具体的には、理解しやすいために、図4を参照されたい。図4は、本願の実施例において解きほぐしエンコーダによって画像を符号化する一実施例の模式図である。図4に示すように、元画像が解きほぐしエンコーダに入力され、ここで、この元画像は顔画像であってもよい。解きほぐしエンコーダは複数のパーツエンコーダを含み、各パーツエンコーダそれぞれは、顔画像における1つの領域を独立して符号化することを担当する。例えば、パーツエンコーダ1で顔画像における目部位を符号化することにより、符号化結果1を取得する。パーツエンコーダ2で顔画像における鼻部位を符号化することにより、符号化結果2を取得する。パーツエンコーダ3で顔画像における口部位を符号化することにより、符号化結果3を取得する。パーツエンコーダ4で顔画像における眉部位を符号化することにより、符号化結果4を取得する。パーツエンコーダ5で顔画像における顔の輪郭を符号化することにより、符号化結果5を取得する。パーツエンコーダ6で顔画像における髪部位を符号化することにより、符号化結果6を取得する。パーツエンコーダ7で顔画像におけるボディ部位を符号化することにより、符号化結果7を取得する。ここで、符号化結果1〜7を結合すると、顔形状遺伝子(face shape gene)となり、即ち、第1特徴集合及び第2特徴集合が形成される。
理解すべきものとして、第1融合対象画像を符号化すると、第1特徴集合が取得され、第2融合対象画像を符号化すると、第2特徴集合が取得され、ここで、第1特徴集合における各第1符号化特徴は、第2特徴集合における各第2符号化特徴とは同じ次元の特徴ベクトルを有し、例えば、1*1*128の特徴ベクトルであってもよい。
次に、本願の実施例では、画像符号化方式が提供されている。即ち、画像融合装置は、解きほぐしエンコーダを用いて、第1融合対象画像における複数の第1領域を符号化処理することにより、複数の第1符号化特徴を取得するとともに、解きほぐしエンコーダを用いて、第2融合対象画像における複数の第2領域を符号化処理し、複数の第2符号化特徴を取得し、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである。上記の方式によれば、パーツエンコーダを用いて、画像における異なる領域を符号化処理することにより、画像符号化の一致性を効果的に確保することができ、後続の予測処理に有利である。
上記図3に対応する実施例を基に、本願の実施例で提供された画像融合方法の第2実施例では、形状融合ネットワークモデルによって、第1融合対象画像と第2融合対象画像とを融合処理することにより、第3融合対象画像を取得する前に、前記画像融合方法は、
第1融合対象画像から置換対象領域を決定するステップであって、置換対象領域が複数の第1領域のうちの1つの領域である、ステップと、
置換対象領域に基づいて、第1融合対象画像における第1置換対象符号化特徴を取得するとともに、置換対象領域に基づいて、第2融合対象画像における第2置換対象符号化特徴を取得するステップであって、第1置換対象符号化特徴が、複数の第1符号化特徴のうちの1つの符号化特徴であり、第2置換対象符号化特徴が、複数の第2符号化特徴のうちの1つの符号化特徴である、ステップと、をさらに含んでもよい。
本実施例では、画像融合装置が画像融合処理を行う前に必要な操作を説明する。まず、画像融合装置は、第1融合対象画像から置換対象領域を決定する必要がある。顔画像を例にして、置換対象領域は、髪領域であってもよい。説明すべきものとして、置換対象領域は、第1融合対象画像における複数の第1領域のうちの1つの領域である。これに応じて、第2融合対象画像にも、対応する置換対象領域があり、顔画像を例にして、この置換対象領域は、同様に髪領域である。その後、画像融合装置は、置換対象領域に基づいて、第1融合対象画像における第1置換対象符号化特徴を取得するとともに、置換対象領域に基づいて、第2融合対象画像における第2置換対象符号化特徴を取得する。例えば、第1特徴集合における顔形状遺伝子の中から、髪領域に対応する符号化特徴を決定し、この髪領域に対応する符号化特徴を第1置換対象符号化特徴とし、第2特徴集合における顔形状遺伝子の中から、髪領域に対応する符号化特徴を決定し、この髪領域に対応する符号化特徴を第2置換対象符号化特徴としてもよい。
次に、本願の実施例では、画像融合前の処理方式を説明している。即ち、画像融合装置は、第3融合対象画像を取得する前に、まず、第1融合対象画像から、複数の第1領域のうちの1つの領域である置換対象領域を決定する必要があり、その後、置換対象領域に基づいて、第1融合対象画像における第1置換対象符号化特徴を取得するとともに、置換対象領域に基づいて、第2融合対象画像における第2置換対象符号化特徴を取得する。上記の方式によれば、必要に応じて置換対象領域を決定し、次に、2つの画像における同一領域の異なる符号化特徴を置換することにより、融合画像を素早く生成することができ、後続処理に便利である。
上記図3に対応する第2実施例を基に、本願の実施例で提供された画像融合方法の第3実施例では、形状融合ネットワークモデルによって、第1融合対象画像と第2融合対象画像とを融合処理することにより、第3融合対象画像を取得するステップは、
形状融合ネットワークモデルによって、第1融合対象画像における第1置換対象符号化特徴を、第2融合対象画像における第2置換対象符号化特徴に置換することにより、復号化対象画像を取得するステップと、
形状融合ネットワークモデルによって、復号化対象画像を復号化処理することにより、第3融合対象画像を取得するステップと、を含んでもよい。
本実施例では、画像融合装置が形状融合ネットワークモデルによって第3融合対象画像を取得する方式を説明する。まず、画像融合装置は、形状融合ネットワークモデルによって、第1融合対象画像における第1置換対象符号化特徴を、第2融合対象画像における第2置換対象符号化特徴に置換することにより、復号化対象画像を取得する必要がある。その後、全体デコーダ(overall decoder)を用いて復号化対象画像を復号化処理することにより、第3融合対象画像を取得する。
理解しやすいために、図5を参照されたい。図5は、本願の実施例において形状融合ネットワークモデルによって画像を融合する一実施例の模式図である。図5に示すように、第1融合対象画像が元画像Aであり、第2融合対象画像が元画像Bであるとすれば、元画像A及び元画像Bをそれぞれ解きほぐしエンコーダに入力し、解きほぐしエンコーダによって、元画像Aに対応する第1特徴集合を出力する。第1特徴集合には、符号化特徴Aが含まれ、符号化特徴Aは、具体的に、A1、A2、A3、A4、A5、A6、及びA7と表される。同様に、解きほぐしエンコーダによって、元画像Bに対応する第2特徴集合を出力する。第2特徴集合には、符号化特徴Bが含まれ、符号化特徴Bは、具体的に、B1、B2、B3、B4、B5、B6、及びB7と表される。置換対象領域が髪領域であるとすれば、第1特徴集合にとって、第1置換対象符号化特徴は、髪領域に対応する特徴A6であり、これに応じて、第2特徴集合にとって、第2置換対象符号化特徴は、髪領域に対応する特徴B6である。続いて、特徴B6で第1特徴集合におけるA6を置換して、新しい特徴集合を形成する必要がある。この特徴集合には、符号化特徴Cが含まれ、符号化特徴Cは、具体的に、A1、A2、A3、A4、A5、B6、及びA7である。最後に、形状融合ネットワークモデルにおける全体デコーダによって、符号化特徴Cを復号化処理して、融合画像Aを形成すると、第3融合対象画像が取得される。
上記の説明から分かるように、レセプター画像(receptor)の髪型をドナー画像(donor)の髪型に置換するとすれば、形状融合ネットワークモデルは、レセプター画像の顔形状遺伝子に対応する髪型領域の特徴を、ドナー画像の顔形状遺伝子に対応する髪型領域に置換することにより、修正したハイブリッド顔形状遺伝子を取得し、最後に、全体デコーダによって、ハイブリッド顔形状遺伝子を編集済みの顔画像に復号化してもよい。
全体デコーダの具体的な構成は、
u5−512、u5−256、R256、R256、R256、R256、R256、u5−128、u5−64、c7s1−3と表してもよい。
ここで、u5−512は、512個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層(fractional−strided convolution instance norm−ReLU layer)を表す。u5−256は、256個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。R256は、2個の3×3の畳み込み層が含まれ、畳み込み層ごとに256個の畳み込みカーネルの残差ブロック(residual block)が含まれる逆畳み込み正規化活性化層を表す。u5−128は、128個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。u5−64は、64個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。c7s1−3は、3個の7×7の畳み込みカーネルが含まれ、ストライドが1である畳み込み正規化活性化層(convolution−instance norm ReLU layer)を表す。
説明すべきものとして、全体デコーダの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。
さらに、本願の実施例では、第3融合対象画像を生成する具体的な方式を説明している。まず、画像融合装置は、形状融合ネットワークモデルによって、第1融合対象画像における第1置換対象符号化特徴を、第2融合対象画像における第2置換対象符号化特徴に置換することにより、復号化対象画像を取得し、その後、さらに形状融合ネットワークモデルによって、復号化対象画像を復号化処理することにより、第3融合対象画像を取得する。上記の方式によれば、形状融合ネットワークモデルを用いて、2つの画像を素早く融合することができるとともに、画像融合効率を効果的に向上させることができる。また、元に入力された顔画像に対して、生成された仮想顔において、編集された部位以外、残りの部位は、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔のアイデンティティ情報が、元の入力顔のアイデンティティ情報とは変わらないと感じることになり、アイデンティティが一致するように保持する操作が実現される。
上記図3に対応する第2実施例又は第3実施例を基に、本願の実施例で提供された画像融合方法の第4実施例では、形状融合ネットワークモデルによって、第1融合対象画像と第2融合対象画像とを融合処理することにより、第3融合対象画像を取得した後に、前記画像融合方法は、
第3融合対象画像を介して領域調整指示を受け付けるステップであって、領域調整指示が、画像における少なくとも1つの領域の形状を調整するためのものである、ステップと、
領域調整指示に応答して、置換対象領域を調整することにより、置換対象領域に対応するターゲット置換領域を取得するステップと、
ターゲット置換領域に基づいて、第3融合対象画像を処理することにより、第4融合対象画像を取得するステップと、をさらに含んでもよく、
条件融合ネットワークモデルによって、第3融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップは、
条件融合ネットワークモデルによって、第4融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップを含んでもよい。
本実施例では、置換対象領域を調整して融合画像を生成する方法を説明する。まず、画像融合装置は、第3融合対象画像を生成した後、この第3融合対象画像を端末機器の表示インタフェースに表示させてもよい。ユーザは、タッチ操作を通じて領域調整指示をトリガーし、即ち、領域調整指示によって、第3融合対象画像における領域の形状及び大きさを調整することができる。画像融合装置は、ユーザによりトリガーされた領域調整指示に従って置換対象領域を調整することにより、調整済みのターゲット置換領域を取得し、その後、ターゲット置換領域に基づいて第3融合対象画像を処理することにより、第4融合対象画像を取得し、最後に、条件融合ネットワークモデルによって、第4融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。
理解しやすいために、図6を参照されたい。図6は、本願の実施例における形状の手描きの一実施例の模式図である。図6に示すように、端末機器の表示インタフェースに第3融合対象画像が表示されている場合、ユーザは、直接にある領域をインタフェースでドラッグすることにより、この領域の形状及び大きさを調整することができる。例えば、ユーザは、髪領域を押したまま外へドラッグして、調整済みのアバター領域を形成すると、ターゲット置換領域を取得することができる。このプロセスでは、ユーザは、必要に応じて領域の形状を任意に編集して、仮想顔画像を生成することができる。実際の適用では、ユーザは、複数の異なる領域を編集することで、仮想顔画像を向上させることも可能である。
さらに、本願の実施例では、第3融合対象画像をユーザが調整する方法が提供されている。即ち、画像融合装置は、第3融合対象画像を取得した後、第3融合対象画像を介して領域調整指示を受け付け、領域調整指示に応答して、置換対象領域を調整することにより、置換対象領域に対応するターゲット置換領域を取得し、その後、ターゲット置換領域に基づいて第3融合対象画像を処理することにより、第4融合対象画像を取得し、最後に、条件融合ネットワークモデルによって、第4融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。上記の方式によれば、ユーザは、必要に応じて置換対象領域の形状及び大きさを調整することもでき、編集領域をユーザが指定する方式が実現される。また、この領域の形状を手描いて新しい画像を生成することもでき、構成の柔軟性及び実用性が向上する。
上記図3及び図3に対応する第1〜第4実施例のいずれか1つを基に、本願の実施例で提供された画像融合方法の第5実施例では、条件融合ネットワークモデルによって、第3融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップは、
第3融合対象画像と第1融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得するステップであって、マルチチャンネル特徴画像が、少なくとも2つの画像の色特徴を結合するためのものである、ステップと、
条件融合ネットワークモデルによって、マルチチャンネル特徴画像に対応するターゲット融合画像を取得するステップと、を含んでもよい。
本実施例では、条件融合ネットワークモデルによってターゲット融合画像を取得する方法を説明している。まず、画像融合装置は、第3融合対象画像と第1融合対象画像を結合処理することにより、マルチチャンネル特徴画像を取得する。例えば、第1融合対象画像が、具体的に、赤色(R:red)チャンネル、緑色(G:green)チャンネル、及び青色(B:blue)チャンネルである3つのチャンネルを含み、第3融合対象画像も、具体的に、Rチャンネル、Gチャンネル、及びBチャンネルである3つのチャンネルを含む場合、第1融合対象画像の3つのチャンネルと第3融合対象画像の3つのチャンネルとを結合することにより、6つのチャンネルを含むマルチチャンネル特徴画像を取得し、最後に、マルチチャンネル特徴画像を条件融合ネットワークモデルに入力し、この条件融合ネットワークモデルによって、相応するターゲット融合画像を出力する。
具体的には、条件融合ネットワークモデルは、編集済みの第3融合対象画像を、真に迫るターゲット融合画像に変換するとともに、生成されたターゲット融合画像のアイデンティティが、第1融合対象画像のアイデンティティとは変わらないことを確保することができる。条件融合ネットワークモデルは、編集済みの第3融合対象画像を入力として、第1融合対象画像を条件入力として、第1融合対象画像と第3融合対象画像とをマルチチャンネル特徴画像に結合する。その後、マルチチャンネル特徴画像を条件融合ネットワークモデルに入力する。実際の適用では、第1融合対象画像について、パーツデコーダ(part−wise decoder)を用いて、置換対象領域が除去された画像を取得してもよい。第3融合対象画像が、ユーザにより手動で調整された画像である場合、この第3融合対象画像が第4融合対象画像であり、つまり、第4融合対象画像と第1融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得してもよい。
条件融合ネットワークモデルの具体的な構成は、
c7s1−64、c3s2−128、c3s2−256、c3s2−512、c3s2−1024、R1024、R1024、R1024、R1024、R1024、R1024、R1024、R1024、R1024、u3−512、u3−256、u3−128、u3−64、c7s1−3と表してもよい。
ここで、c7s1−64は、64個の7×7の畳み込みカーネルが含まれ、ストライドが1である畳み込み正規化活性化層を表す。c3s2−128は、128個の3×3の畳み込みカーネルが含まれ、ストライドが2である畳み込み正規化活性化層を表す。c3s2−256は、256個の3×3の畳み込みカーネルが含まれ、ストライドが2である畳み込み正規化活性化層を表す。c3s2−512は、512個の3×3の畳み込みカーネルが含まれ、ストライドが2である畳み込み正規化活性化層を表す。c3s2−1024は、1024個の3×3の畳み込みカーネルが含まれ、ストライドが2である畳み込み正規化活性化層を表す。R1024は、2個の3×3の畳み込み層が含まれ、畳み込み層ごとに1024個の畳み込みカーネルのresidual blockが含まれる逆畳み込み正規化活性化層表す。u3−512は、512個の3×3の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。u3−256は、256個の3×3の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。u3−128は、128個の3×3の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。u3−64は、64個の3×3の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。c7s1−3は、3個の7×7の畳み込みカーネルが含まれ、ストライドが1である畳み込み正規化活性化層を表す。
説明すべきものとして、条件融合ネットワークモデルの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。
さらに、本願の実施例では、ターゲット融合画像を取得する方式が提供されている。即ち、画像融合装置は、まず、第3融合対象画像と第1融合対象画像とを結合処理することにより、少なくとも2つの画像の色特徴を結合するためのマルチチャンネル特徴画像を取得し、その後、条件融合ネットワークモデルによって、マルチチャンネル特徴画像に対応するターゲット融合画像を取得する。上記の方式によれば、条件融合ネットワークモデルを用いて、2つの画像を正確に結合することができ、画像の融合が実現される。これにより、構成の実現可能性及び操作性を向上させる。
上記の説明と組み合わせて、以下、本願におけるモデル訓練方法を説明する。図7を参照されたいが、本願の実施例では、図17に示すサーバ機器が実行するモデル訓練方法の一実施例は、以下のステップを含む。
201で、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、第1訓練対象画像には、複数の第1訓練領域が含まれ、第2訓練対象画像には、複数の第2訓練領域が含まれ、第1特徴集合には、複数の第1符号化特徴が含まれ、第1符号化特徴が第1領域に1対1で対応し、第2特徴集合には、複数の第2符号化特徴が含まれ、第2符号化特徴が第2領域に1対1で対応する。
本実施例では、モデル訓練装置は、第1訓練対象画像及び第2訓練対象画像を取得する。ここで、第1訓練対象画像及び第2訓練対象画像は、通常、同じタイプの画像であり、例えば、両方とも顔画像であるか、又は両方とも動物画像であるか、又は両方とも風景画像であるか、又は一方は顔画像であり、他方は動物画像である。本実施例では、両方とも顔画像である場合を例にして説明するが、これは、本願を限定するものとして理解すべきではない。
ここで、第1訓練対象画像及び第2訓練対象画像は、いずれも、複数の領域を含む。具体的には、第1訓練対象画像と第2訓練対象画像とは、類似している領域を有する。例えば、第1訓練対象画像は複数の第1領域を含み、第1領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。第2訓練対象画像は複数の第2領域を含み、第2領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。
モデル訓練装置は、第1訓練対象画像及び第2訓練対象画像のそれぞれについて特徴を抽出する必要がある。即ち、第1訓練対象画像における各第1領域について、相応する特徴を抽出することにより、第1符号化特徴を取得し、例えば、第1訓練対象画像の目部分については、目部分の第1符号化特徴を抽出することができ、第1訓練対象画像の髪部分については、髪部分の第1符号化特徴を抽出することができ、このようにして、最終的に、複数の第1符号化特徴が含まれる第1特徴集合を取得する。第2訓練対象画像の目部分については、目部分の第2符号化特徴を抽出することができ、第2訓練対象画像の髪部分については、髪部分の第2符号化特徴を抽出することができ、このようにして、最終的に、複数の第2符号化特徴が含まれる第2特徴集合を取得する。
202で、訓練対象形状融合ネットワークモデルによって、第1訓練対象画像と第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、第3訓練対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる。
本実施例では、モデル訓練装置は、第1訓練対象画像及び第2訓練対象画像を訓練対象形状融合ネットワークモデルに入力し、この訓練対象形状融合ネットワークモデルによって、第3訓練対象画像を出力する。ここでの第3訓練対象画像には、第1訓練対象画像における第1符号化特徴と、第2訓練対象画像における第2符号化特徴との両方が含まれる。
203で、訓練対象条件融合ネットワークモデルによって、第3訓練対象画像と第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得する。
本実施例では、モデル訓練装置は、第3訓練対象画像及び第1訓練対象画像を訓練対象条件融合ネットワークモデルに入力し、この訓練対象条件融合ネットワークモデルによって、第4訓練対象画像を出力する。ここで、第4訓練対象画像は、元に入力された第1訓練対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。
204で、訓練対象形状融合ネットワークモデルによって、第4訓練対象画像と第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、第5訓練対象画像と第1訓練対象画像との間には、対応する特徴がある。
本実施例では、モデル訓練装置は、第4訓練対象画像及び第1訓練対象画像を訓練対象形状融合ネットワークモデルに入力し、この訓練対象形状融合ネットワークモデルによって、第5訓練対象画像を出力する。ここで、第5訓練対象画像は、元に入力された第1訓練対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。
205で、訓練対象条件融合ネットワークモデルによって、第5訓練対象画像と第4訓練対象画像とを融合処理することにより、ターゲット画像を取得する。
本実施例では、モデル訓練装置は、第5訓練対象画像及び第4訓練対象画像を訓練対象条件融合ネットワークモデルに入力し、この訓練対象条件融合ネットワークモデルによって、ターゲット画像を出力する。ここで、ターゲット画像は、元に入力された第1訓練対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。
206で、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。
本実施例では、モデル訓練装置は、ターゲット損失関数、第1訓練対象画像、第2訓練対象画像、第3訓練対象画像、第4訓練対象画像、第5訓練対象画像、及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。
理解しやすいために、図8を参照されたい。図8は、本願の実施例において条件融合ネットワークモデルを訓練する一実施例の模式図である。図8に示すように、訓練対象形状融合ネットワークモデルは、レセプター画像である元画像A(即ち、第1訓練対象画像)と、ドナー画像である元画像B(即ち、第2訓練対象画像)とを入力として、編集済みの融合画像A(即ち、第3訓練対象画像)を生成する。訓練対象条件融合ネットワークモデルは、融合画像Aを入力として、元画像Aを条件入力として、編集済みの融合画像B(即ち、第4訓練対象画像)を取得することができる。続いて、融合画像Bをレセプター画像として(即ち、元画像Aの代わりにして)、元画像Aをドナー画像として(即ち、元画像Bの代わりにして)、再度の置換で元画像Aの元の部位形状を戻す。訓練対象形状融合ネットワークモデルは、レセプター画像である融合画像Bと、ドナー画像である元画像Aとを入力として、編集済みの融合画像C(即ち、第5訓練対象画像)を生成する。訓練対象条件融合ネットワークモデルは、融合画像Cを入力として、融合画像Bを条件入力として、編集済みの融合画像D(即ち、ターゲット画像)を取得することができる。繰り返し訓練の制約目標として、ターゲット画像が第1訓練対象画像に可能な限り類似し、第5訓練対象画像が実画像に可能な限り類似することを所望する。
本願の実施例では、モデル訓練方法が提供されている。即ち、まず、モデル訓練装置は、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、その後、訓練対象形状融合ネットワークモデルによって、第1訓練対象画像と第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、次に、訓練対象条件融合ネットワークモデルによって、第3訓練対象画像と第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得し、その後、訓練対象形状融合ネットワークモデルによって、第4訓練対象画像と第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、訓練対象条件融合ネットワークモデルによって、第5訓練対象画像と第4訓練対象画像とを融合処理することにより、ターゲット画像を取得し、最後に、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。上記の方式によれば、融合画像のアイデンティティ情報が元の入力画像のアイデンティティ情報と一致することを確保しながら、モデルを訓練することができる。これにより、モデル訓練の信頼性を向上させる。
上記図7に対応する実施例を基に、本願の実施例で提供されたモデル訓練方法の第1実施例では、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得する前に、前記モデル訓練方法は、
訓練対象ターゲット画像集合を取得するステップであって、訓練対象ターゲット画像集合には、少なくとも1つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも1つの領域が含まれる、ステップと、
訓練対象解きほぐしエンコーダによって、訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得するステップであって、訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、1つの領域を符号化するためのものである、ステップと、
訓練対象解きほぐしデコーダによって、符号化結果を復号化処理することにより、復号化結果を取得するステップであって、訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、1つの領域を復号化するためのものである、ステップと、
損失関数及び復号化結果を用いて、訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するステップであって、解きほぐしエンコーダが複数のパーツエンコーダを含む、ステップと、をさらに含んでもよく、
第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得するステップは、
第1訓練対象画像及び第2訓練対象画像を取得するステップと、
解きほぐしエンコーダを用いて、第1訓練対象画像における複数の第1領域を符号化処理することにより、複数の第1符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものである、ステップと、
解きほぐしエンコーダを用いて、第2訓練対象画像における複数の第2領域を符号化処理することにより、複数の第2符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである、ステップと、を含んでもよい。
本実施例では、訓練により解きほぐしエンコーダを取得する方式を説明している。即ち、モデル訓練装置は、まず、訓練対象ターゲット画像集合を取得する必要がある。訓練対象ターゲット画像集合には、少なくとも1つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも1つの領域が含まれる。その後、訓練対象解きほぐしエンコーダによって、訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得することができる。説明すべきものとして、訓練対象解きほぐしエンコーダは、複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれは、1つの領域を符号化するためのものであり、例えば、パーツエンコーダ1で符号化する領域は鼻領域であり、パーツエンコーダ2で符号化する領域は髪領域である。これに応じて、モデル訓練装置は、訓練対象解きほぐしエンコーダに対して、対応する訓練対象解きほぐしデコーダを設定している。ここで、訓練対象解きほぐしデコーダは、複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれは、1つの領域を復号化するためのものであり、同様に、例えば、パーツデコーダ1で復号化する領域は鼻領域であり、パーツデコーダ2で復号化する領域は髪領域である。それぞれのパーツエンコーダとパーツデコーダとのペアによる復号化結果と組み合わせて、損失関数を用いて訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得する。具体的には、解きほぐしエンコーダの各パーツエンコーダを取得することができる。
理解しやすいために、図9を参照されたい。図9は、本願の実施例において解きほぐしエンコーダを訓練する一実施例の模式図である。図9に示すように、本願では、畳み込みニューラルネットワークに基づくエンコーダを用いて、入力画像の解きほぐし特徴抽出の作業を行う。本願の解きほぐしエンコーダは、複数のパーツエンコーダからなり、各パーツエンコーダそれぞれは、指定された1つの顔画像部位の形状を独立して符号化する。1つの顔画像が入力されると、パーツエンコーダは、1*1*128の1次元の特徴ベクトルを出力することができる。これにより、この顔画像の特定部位の形状が符号化される。本願で考慮を入れる部位は、目、鼻、口、眉、顔型、髪、及びボディを含むが、これらに限定されない。全ての部位の特徴ベクトルを結合すると、顔形状遺伝子と呼ばれる特徴集合が形成される。
Figure 2022502783
パーツエンコーダの具体的な構成は、
c7s1−64、c5s4−128、c5s4−256、R256、R256、R256、R256、c5s4−512、c5s4−128と表してもよい。
ここで、c7s1−64は、64個の7×7の畳み込みカーネルが含まれ、ストライドが1である畳み込み正規化活性化層を表す。c5s4−128は、128個の5×5の畳み込みカーネルが含まれ、ストライドが4である畳み込み正規化活性化層を表す。c5s4−256は、256個の5×5の畳み込みカーネルが含まれ、ストライドが4である畳み込み正規化活性化層を表す。R256は、2個の3×3の畳み込み層が含まれ、畳み込み層ごとに256個の畳み込みカーネルのresidual blockを有する逆畳み込み正規化活性化層を表す。c5s4−512は、512個の5×5の畳み込みカーネルが含まれ、ストライドが4である畳み込み正規化活性化層を表す。c5s4−128は、128個の5×5の畳み込みカーネルが含まれ、ストライドが4である畳み込み正規化活性化層を表す。
説明すべきものとして、パーツエンコーダの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。
パーツデコーダの具体的な構成は、
u5−512、u5−256、R256、R256、R256、R256、R256、u5−128、u5−64、c7s1−3である。
ここで、u5−512は、512個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。u5−256は、256個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。R256は、2個の3×3の畳み込み層が含まれ、畳み込み層ごとに256個の畳み込みカーネルのresidual blockを有する逆畳み込み正規化活性化層を表す。u5−128は、128個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。u5−64は、64個の5×5の畳み込みカーネルが含まれ、ストライドが1/2である逆畳み込み正規化活性化層を表す。c7s1−3は、3個の7×7の畳み込みカーネルが含まれ、ストライドが1である畳み込み正規化活性化層を表す。
説明すべきものとして、パーツデコーダの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。
次に、本願の実施例では、訓練により解きほぐしエンコーダを取得する具体的な方式を説明している。即ち、モデル訓練装置は、まず、訓練対象ターゲット画像集合を取得し、その後、訓練対象解きほぐしエンコーダによって、訓練対象ターゲット画像集合における訓練対象ターゲット画像の各個領域を符号化処理することにより、符号化結果を取得し、次に、訓練対象解きほぐしデコーダによって、符号化結果を復号化処理することにより、復号化結果を取得し、損失関数及び復号化結果を用いて、訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するようにしてもよい。上記の方式によれば、モデル訓練段階では、訓練対象解きほぐしエンコーダに対して、対応する訓練対象解きほぐしデコーダが配置され、訓練対象解きほぐしデコーダが、訓練対象解きほぐしエンコーダから出力された特徴ベクトルから、学習により相応する領域の形状画像を生成する。これにより、画像符号化の正確さ及び信頼性を向上させる。
上記図7に対応する実施例を基に、本願の実施例で提供されたモデル訓練方法の第2実施例では、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前に、前記モデル訓練方法は、
第5訓練対象画像及び実画像に基づいて、第1損失関数を決定するステップと、
ターゲット画像及び第1訓練対象画像に基づいて、第2損失関数を決定するステップと、
第1訓練対象画像、第2訓練対象画像、第4訓練対象画像、及びターゲット画像に基づいて、第3損失関数を決定するステップと、
第1損失関数、第2損失関数、及び第3損失関数に基づいて、ターゲット損失関数を決定するステップと、をさらに含んでもよい。
本実施例では、ターゲット損失関数をモデル訓練装置が決定する方式を説明している。繰り返し訓練の制約目標として、ターゲット画像が第1訓練対象画像に可能な限り類似し、第5訓練対象画像が実画像に可能な限り類似することを所望する。したがって、第1損失関数は、第5訓練対象画像及び実画像に基づいて生成される。ここで、実画像は、第1訓練対象画像に対応する特徴画像を示す。第2損失関数は、ターゲット画像及び第1訓練対象画像に基づいて生成される。ラベルマップ及び画像外観の2つの繰り返し制約を使用して、人物のアイデンティティ情報が失わないように確保することに加えて、敵対的制約を使用して、モデルにより生成される結果像が実際の顔画像であることを要求してもよい。即ち、第1訓練対象画像、第2訓練対象画像、第4訓練対象画像、及びターゲット画像に基づいて、第3損失関数を決定する。第1損失関数、第2損失関数、及び第3損失関数を加算することにより、ターゲット損失関数を取得する。
次に、本願の実施例では、ターゲット損失関数の取得方式が提供されている。即ち、モデル訓練装置は、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前に、まず、第5訓練対象画像及び実画像に基づいて、第1損失関数を決定し、その後、ターゲット画像及び第1訓練対象画像に基づいて、第2損失関数を決定し、次に、第1訓練対象画像、第2訓練対象画像、第4訓練対象画像、及びターゲット画像に基づいて、第3損失関数を決定し、最後に、第1損失関数、第2損失関数、及び第3損失関数に基づいて、ターゲット損失関数を決定する必要がある。上記の方式によれば、構成の実現のために確実な方式が提供され、複数の画像を組み合わせて最終的な損失関数を生成することにより、モデル訓練プロセスにおける各画像の重要性が考慮され、より正確なモデルが取得される。
Figure 2022502783
Figure 2022502783
理解できるように、上記重み値の設定は一例にすぎず、本願を限定するものとして理解すべきではない。
Figure 2022502783
これにより、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練するための総合的なターゲット損失関数
Figure 2022502783
が取得される。
さらに、本願の実施例では、損失関数を計算する具体的な方式を説明している。上記の方式によれば、構成の実現のために具体的な根拠が提供され、構成の実現可能性及び操作性を向上させる。
以下、本願の画像融合装置を詳しく説明する。図10を参照されたいが、図10は、本願の実施例における画像融合装置の一実施例の模式図である。画像融合装置30は、取得モジュール301と、融合モジュール302と、を含み、
前記取得モジュール301は、第1融合対象画像及び第2融合対象画像を取得し、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれ、
前記取得モジュール301は、さらに、前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得し、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、
前記融合モジュール302は、形状融合ネットワークモデルによって、前記取得モジュール301で取得された、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得し、前記第3融合対象画像には、前記取得モジュール301で取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、
前記融合モジュール302は、さらに、条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。
本実施例では、取得モジュール301は、第1融合対象画像及び第2融合対象画像を取得し、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれ、前記取得モジュール301は、前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得し、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、融合モジュール302は、形状融合ネットワークモデルによって、前記取得モジュール301で取得された、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得し、前記第3融合対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、前記融合モジュール302は、条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。
本願の実施例では、画像融合装置が提供されている。この画像融合装置は、まず、第1融合対象画像及び第2融合対象画像を取得し、第1融合対象画像には、複数の第1領域が含まれ、第2融合対象画像には、複数の第2領域が含まれ、次に、第1融合対象画像に基づいて第1特徴集合を取得し、第2融合対象画像に基づいて第2特徴集合を取得し、第1特徴集合には、複数の第1符号化特徴が含まれ、第1符号化特徴が第1領域に1対1で対応し、第2特徴集合には、複数の第2符号化特徴が含まれ、第2符号化特徴が第2領域に1対1で対応し、さらに、形状融合ネットワークモデルによって、第1融合対象画像と第2融合対象画像とを融合処理することにより、第3融合対象画像を取得し、第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、最後に、条件融合ネットワークモデルによって、第3融合対象画像と第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得することができる。上記の方式によれば、画像における各局所領域の相応する特徴が抽出され、これにより、ある画像における局所領域を素早く変更し、即ち、この局所領域を、他の画像における相応する局所領域に置換して、融合画像を形成することができる。また、融合画像において、編集された局所領域以外、残りの領域は、元の入力画像と一致する。これにより、ユーザは、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報とは変わらないと感じることになる。
上記図10に対応する実施例を基に、本願の実施例で提供された画像融合装置30の他の実施例では、
前記取得モジュール301は、具体的に、解きほぐしエンコーダを用いて、前記第1融合対象画像における前記複数の第1領域を符号化処理することにより、前記複数の第1符号化特徴を取得し、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものであり、
解きほぐしエンコーダを用いて、前記第2融合対象画像における前記複数の第2領域を符号化処理することにより、前記複数の第2符号化特徴を取得し、前記解きほぐしエンコーダが前記複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである。
次に、本願の実施例では、画像符号化方式が提供されている。即ち、解きほぐしエンコーダを用いて、第1融合対象画像における複数の第1領域を符号化処理することにより、複数の第1符号化特徴を取得するとともに、解きほぐしエンコーダを用いて、第2融合対象画像における複数の第2領域を符号化処理し、複数の第2符号化特徴を取得し、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである。上記の方式によれば、パーツエンコーダを用いて、画像における異なる領域を符号化処理することにより、画像符号化の一致性を効果的に確保することができ、後続の予測処理に有利である。
上記図10に対応する実施例を基に、図11を参照されたい。本願の実施例で提供された画像融合装置30の他の実施例では、前記画像融合装置30は、決定モジュール303をさらに含み、
前記決定モジュール303は、前記融合モジュール302が形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得する前に、前記第1融合対象画像から置換対象領域を決定し、前記置換対象領域が前記複数の第1領域のうちの1つの領域であり、
前記取得モジュール301は、さらに、前記決定モジュール303で決定された前記置換対象領域に基づいて、前記第1融合対象画像における第1置換対象符号化特徴を取得するとともに、前記決定モジュール303で決定された前記置換対象領域に基づいて、前記第2融合対象画像における第2置換対象符号化特徴を取得し、前記第1置換対象符号化特徴が、前記複数の第1符号化特徴のうちの1つの符号化特徴であり、前記第2置換対象符号化特徴が、前記複数の第2符号化特徴のうちの1つの符号化特徴である。
上記図10又は図11に対応する実施例を基に、本願の実施例で提供された画像融合装置30の他の実施例では、
前記融合モジュール302は、具体的に、前記形状融合ネットワークモデルによって、前記第1融合対象画像における前記第1置換対象符号化特徴を、前記第2融合対象画像における前記第2置換対象符号化特徴に置換することにより、復号化対象画像を取得し、
前記形状融合ネットワークモデルによって、前記復号化対象画像を復号化処理することにより、前記第3融合対象画像を取得する。
上記図10又は図11に対応する実施例を基に、図12を参照されたい。本願の実施例で提供された画像融合装置30の他の実施例では、前記画像融合装置30は、受付モジュール304と、調整モジュール305と、処理モジュール306と、をさらに含み、
前記受付モジュール304は、前記融合モジュール302が形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得した後に、前記第3融合対象画像を介して領域調整指示を受け付け、前記領域調整指示が、画像における少なくとも1つの領域の形状を調整するためのものであり、
前記調整モジュール305は、前記受付モジュール304で受信された前記領域調整指示に応答して、前記置換対象領域を調整することにより、前記置換対象領域に対応するターゲット置換領域を取得し、
前記処理モジュール306は、前記調整モジュール305で調整された前記ターゲット置換領域に基づいて、前記第3融合対象画像を処理することにより、第4融合対象画像を取得し、
前記融合モジュール302は、具体的に、条件融合ネットワークモデルによって、前記第4融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。
上記図10、図11、又は図12に対応する実施例を基に、本願の実施例で提供された画像融合装置30の他の実施例では、
前記融合モジュール302は、具体的に、前記第3融合対象画像と前記第1融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得し、前記マルチチャンネル特徴画像が、少なくとも2つの画像の色特徴を結合するためのものであり、
前記条件融合ネットワークモデルによって、前記マルチチャンネル特徴画像に対応する前記ターゲット融合画像を取得する。
以下、本願のモデル訓練装置を詳しく説明する。図13を参照されたいが、図13は、本願の実施例における画像融合装置の一実施例の模式図である。モデル訓練装置40は、取得モジュール401と、融合モジュール402と、訓練モジュール403と、を含み、
前記取得モジュール401は、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、
前記融合モジュール402は、訓練対象形状融合ネットワークモデルによって、前記取得モジュール401で取得された前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、前記第3訓練対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、
前記融合モジュール402は、さらに、訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得し、
前記融合モジュール402は、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴があり、
前記融合モジュール402は、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
前記訓練モジュール403は、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。
本実施例では、取得モジュール401は、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、融合モジュール402は、訓練対象形状融合ネットワークモデルによって、前記取得モジュール401で取得された前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、前記第3訓練対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、前記融合モジュール402は、訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得し、前記融合モジュール402は、前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴があり、前記融合モジュール402は、前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得し、訓練モジュール403は、ターゲット損失関数と、前記融合モジュール402による融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。
本願の実施例では、モデル訓練装置が提供されている。このモデル訓練装置は、まず、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、その後、訓練対象形状融合ネットワークモデルによって、第1訓練対象画像と第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、次に、訓練対象条件融合ネットワークモデルによって、第3訓練対象画像と第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得し、その後、訓練対象形状融合ネットワークモデルによって、第4訓練対象画像と第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、訓練対象条件融合ネットワークモデルによって、第5訓練対象画像と第4訓練対象画像とを融合処理することにより、ターゲット画像を取得し、最後に、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。上記の方式によれば、融合画像のアイデンティティ情報が元の入力画像のアイデンティティ情報と一致することを確保しながら、モデルを訓練することができる。これにより、モデル訓練の信頼性を向上させる。
上記図13に対応する実施例を基に、図14を参照されたい。本願の実施例で提供されたモデル訓練装置40の他の実施例では、前記モデル訓練装置40は、符号化モジュール404と、復号化モジュール405と、をさらに含み、
前記取得モジュール401は、さらに、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得する前に、訓練対象ターゲット画像集合を取得し、前記訓練対象ターゲット画像集合には、少なくとも1つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも1つの領域が含まれ、
前記符号化モジュール404は、訓練対象解きほぐしエンコーダによって、前記取得モジュール401で取得された前記訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得し、前記訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、1つの領域を符号化するためのものであり、
前記復号化モジュール405は、訓練対象解きほぐしデコーダによって、前記符号化モジュール404で符号化された前記符号化結果を復号化処理することにより、復号化結果を取得し、前記訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、1つの領域を復号化するためのものであり、
前記訓練モジュール403は、さらに、損失関数と、前記復号化モジュール405で復号化された復号化結果とを用いて、前記訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得し、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、
前記取得モジュール401は、具体的に、第1訓練対象画像及び第2訓練対象画像を取得し、
前記解きほぐしエンコーダを用いて、前記第1訓練対象画像における前記複数の第1領域を符号化処理することにより、前記複数の第1符号化特徴を取得し、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものであり、
前記解きほぐしエンコーダを用いて、前記第2訓練対象画像における前記複数の第2領域を符号化処理することにより、前記複数の第2符号化特徴を取得し、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである。
上記図13又は図14に対応する実施例を基に、図15を参照されたい。本願の実施例で提供されたモデル訓練装置40の他の実施例では、前記モデル訓練装置40は、決定モジュール406をさらに含み、
前記決定モジュール406は、前記訓練モジュール403がターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前に、前記第5訓練対象画像及び実画像に基づいて、第1損失関数を決定し、
前記決定モジュール406は、さらに、前記ターゲット画像及び前記第1訓練対象画像に基づいて、第2損失関数を決定し、
前記決定モジュール406は、さらに、前記第1訓練対象画像、前記第2訓練対象画像、前記第4訓練対象画像、及び前記ターゲット画像に基づいて、第3損失関数を決定し、
前記決定モジュール406は、さらに、前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記ターゲット損失関数を決定する。
Figure 2022502783
さらに、本願の実施例では、損失関数を計算する具体的な方式を説明している。即ち、モデル訓練装置は、第5訓練対象画像及び実画像に基づいて、第1損失関数を算出し、その後、ターゲット画像及び第1訓練対象画像に基づいて、第2損失関数を算出し、最後に、第1損失関数、第2損失関数、及び第3損失関数に基づいて、ターゲット損失関数を算出することができる。上記の方式によれば、構成の実現のために具体的な根拠が提供され、構成の実現可能性及び操作性を向上させる。
本願の実施例では、図16に示すように、他の画像融合装置がさらに提供されている。説明の便宜上、本願の実施例に関連する部分のみが示されており、掲示されていない具体的な技術的詳細は、本願の実施例の方法部分を参照されたい。この端末機器は、携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント(PDA:Personal Digital Assistant)、販売端末機器(POS:Point of Sales)、車載コンピュータなどを含む任意の端末機器であってもよい。端末機器が携帯電話である場合を例にする。
図16は、本願の実施例で提供された端末機器に関連する携帯電話の構成の一部のブロック図を示している。図16を参照すると、携帯電話は、メモリ520とプロセッサ580とを含む。この携帯電話は、無線周波数(RF:Radio Frequency)回路510、入力ユニット530、表示ユニット540、センサ550、オーディオ回路560、ワイヤレスフィデリティ(WiFi:wireless fidelity)モジュール570、及び電源590などの部品をさらに含んでもよい。当業者であれば理解できるように、図16に示す携帯電話の構成は、携帯電話を限定するものではなく、図示より多く又は少ない部品を含んでもよく、あるいはいくらかの部品を組み合わせたものであってもよく、あるいは部品の異なる配置を採用してもよい。
以下、図16を参照しながら、携帯電話の各構成部品を具体的に説明する。
RF回路510は、情報の送受信中又は通話中に信号を送受信するために使用することができ、特に、基地局のダウンリンク情報を受信して、プロセッサ580に渡して処理するとともに、アップリンクに関するデータを基地局に送信する。通常、RF回路510は、アンテナ、少なくとも1つの増幅器、トランシーバ、カプラ、低雑音増幅器(LNA:Low Noise Amplifier)、デュプレクサなどを含むが、これらに限定されない。また、RF回路510は、無線通信を介してネットワークや他の機器と通信することもできる。上記の無線通信には、グローバルモバイル通信システム(GSM:Global System of Mobile communication)、汎用パケット無線サービス(GPRS:General Packet Radio Service)、コード分割多元接続(CDMA:Code Division Multiple Access)、広帯域コード分割多元接続(WCDMA:Wideband Code Division Multiple Access)、長期的進化(LTE:Long Term Evolution)、電子メール、ショートメッセージングサービス(SMS:Short Messaging Service)などを含むが、これらに限定されない任意の通信規格又はプロトコルを使用してもよい。
メモリ520は、複数の命令を記憶するために使用することができ、換言すれば、ソフトウェアプログラム及びモジュールを記憶するために使用することができる。プロセッサ580は、メモリ520に記憶された複数の命令を実行することにより、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ520は、主にプログラム記憶領域及びデータ記憶領域を含んでもよい。ここで、プログラム記憶領域には、オペレーティングシステム、少なくとも1つの機能(例えば、音響再生機能、画像再生機能など)に必要なアプリケーションプログラムなどを記憶してもよい。データ記憶領域には、携帯電話の使用に応じて作成されたデータ(例えば、オーディオデータ、電話帳など)などを記憶してもよい。また、メモリ520は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリ、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステート記憶デバイスを含んでもよい。
入力ユニット530は、入力された数字又は文字情報を受信することと、携帯電話のユーザ設定及び機能制御に関するキー信号入力を生成することとに使用することができる。具体的には、入力ユニット530は、タッチパネル531及び他の入力デバイス532を含んでもよい。タッチパネル531は、タッチスクリーンとも呼ばれ、その上又はその近くでのユーザのタッチ操作を収集し(例えば、ユーザが指、スタイラスなどの任意の適切なもの又はアクセサリを使用して、タッチパネル531の上又はタッチパネル531の近くで行う操作)、プリセットプログラムに従って、相応の接続装置を駆動することができる。タッチパネル531は、タッチ検出装置及びタッチコントローラの2つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、それをタッチポイント座標に変換してプロセッサ580に送信するとともに、プロセッサ580から送信されたコマンドを受信して実行することができる。また、抵抗膜、静電容量、赤外線や表面弾性波などの複数の形態によって、タッチパネル531を実現してもよい。入力ユニット530は、タッチパネル531に加えて、他の入力デバイス532も含んでもよい。具体的には、他の入力デバイス532は、物理キーボード、ファンクションキー(例えば、ボリュームコントロールキー、スイッチキーなど)、トラックボール、マウス、ジョイスティックなどのうち1つ又は複数を含んでもよいが、これらに限定されない。
表示ユニット540は、ユーザが入力した情報又はユーザに提供する情報、及び携帯電話の様々なメニューを表示するために使用することができる。表示ユニット540は、表示パネル541を備えてもよい。表示パネル541は、液晶ディスプレイ(LCD:Liquid Crystal Display)や有機発光ダイオード(OLED:Organic Light−Emitting Diode)などの形態で配置してもよい。さらに、タッチパネル531は、表示パネル541を覆ってもよい。タッチパネル531は、その上又はその近くでのタッチ操作を検出すると、タッチイベントのタイプを決定するために、該タッチ操作をプロセッサ580に伝送する。次に、プロセッサ580は、タッチイベントのタイプに応じて、相応の視覚的出力を表示パネル541に提供する。図16において、タッチパネル531及び表示パネル541は、2つの別個の部品として、携帯電話の入力機能及び出力機能を実現するが、いくつかの実施例では、タッチパネル531及び表示パネル541を統合して、携帯電話の入力機能及び出力機能を実現してもよい。
携帯電話は、例えば、光センサ、モーションセンサ、及び他のセンサなどの少なくとも1種のセンサ550をさらに含んでもよい。具体的には、光センサは、環境光センサ及び近接センサを含んでもよい。ここで、環境光センサは、環境光の明るさに応じて表示パネル541の輝度を調整することができ、近接センサは、携帯電話が耳に近づくと、表示パネル541及び/又はバックライトをオフにすることができる。モーションセンサの1種として、加速度センサは、各方向(通常、3軸)における加速度の大きさを検出でき、静止時に重力の大きさ及び方向を検出でき、携帯電話の姿勢を認識するアプリケーション(例えば、画面の縦横切り替え、関連ゲーム、磁力計の姿勢キャリブレーション)、振動認識関連の機能(例えば、歩数計、タップ)などに利用可能である。携帯電話に配置可能な他のセンサ、例えば、ジャイロスコープ、気圧計、湿度計、温度計、赤外線センサなどについては、ここでは、これ以上の説明を省略する。
オーディオ回路560、スピーカー561、マイクロフォン562は、ユーザと携帯電話との間のオーディオインタフェースを提供することができる。オーディオ回路560は、受信されたオーディオデータから変換された電気信号をスピーカー561に伝送することができる。スピーカー561は、電気信号を音響信号に変換して出力する。一方、マイクロフォン562は、収集された音響信号を電気信号に変換する。オーディオ回路560は、電気信号を受信してオーディオデータに変換し、オーディオデータをプロセッサ580に出力して、プロセッサ580によってオーディオデータを処理した後、RF回路510を介してオーディオデータを例えば他の携帯電話に送信するか、又は、さらなる処理のために、オーディオデータをメモリ520に出力する。
WiFiは、近距離無線伝送技術に属する。携帯電話は、WiFiモジュール570によって、ユーザによる電子メールの送受信、Webページの閲覧、及びストリーミングメディアのアクセスなどを助けることができる。WiFiは、無線ブロードバンドインターネットアクセスをユーザに提供する。図16にWiFiモジュール570を示しているが、理解できるように、WiFiモジュール570は、携帯電話の必須構成に属せず、必要に応じて、本願の本質を変更しない範囲内で完全に省略可能である。
プロセッサ580は、携帯電話の制御センターであり、携帯電話全体の各部分を様々なインタフェース及び回線で接続し、メモリ520に記憶されたソフトウェアプログラム及び/又はモジュールを実行又は遂行して、メモリ520に記憶されたデータを呼び出すことにより、携帯電話の様々な機能を実行してデータを処理し、携帯電話を全体的に監視制御する。プロセッサ580は、1つ又は複数の処理ユニットを含んでもよい。プロセッサ580には、アプリケーションプロセッサ及びモデムプロセッサが統合されてもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース、及びアプリケーションプログラムなどを処理し、モデムプロセッサは、主に無線通信を処理する。理解できるように、上記モデムプロセッサは、プロセッサ580に統合されなくてもよい。
携帯電話は、各部品に電力を供給する電源590(例えば、電池)をさらに含む。電源は、電源管理システムを介して、プロセッサ580に論理的に接続されてもよい。これにより、電源管理システムによって、充電、放電、及び電力消耗の管理などの機能を実現する。
図示されていないが、携帯電話は、カメラ、ブルートゥースモジュールなども含んでもよいが、ここでは、これ以上の説明を省略する。
本願の実施例では、メモリ520に記憶された複数の命令を実行することにより、この端末機器に含まれるプロセッサ580は、
第1融合対象画像及び第2融合対象画像を取得するステップであって、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれる、ステップと、
前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得するステップであって、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得するステップであって、前記第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する。
メモリ520に記憶された複数の命令を実行することにより、プロセッサ580は、さらに、
解きほぐしエンコーダを用いて、前記第1融合対象画像における前記複数の第1領域を符号化処理することにより、前記複数の第1符号化特徴を取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものである、ステップと、
解きほぐしエンコーダを用いて、前記第2融合対象画像における前記複数の第2領域を符号化処理することにより、前記複数の第2符号化特徴を取得するステップであって、前記解きほぐしエンコーダが前記複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである、ステップと、を実行する。
メモリ520に記憶された複数の命令を実行することにより、プロセッサ580は、さらに、
前記第1融合対象画像から置換対象領域を決定するステップであって、前記置換対象領域が前記複数の第1領域のうちの1つの領域である、ステップと、
前記置換対象領域に基づいて、前記第1融合対象画像における第1置換対象符号化特徴を取得するとともに、前記置換対象領域に基づいて、前記第2融合対象画像における第2置換対象符号化特徴を取得するステップであって、前記第1置換対象符号化特徴が、前記複数の第1符号化特徴のうちの1つの符号化特徴であり、前記第2置換対象符号化特徴が、前記複数の第2符号化特徴のうちの1つの符号化特徴である、ステップと、を実行する。
メモリ520に記憶された複数の命令を実行することにより、プロセッサ580は、具体的に、
前記形状融合ネットワークモデルによって、前記第1融合対象画像における前記第1置換対象符号化特徴を、前記第2融合対象画像における前記第2置換対象符号化特徴に置換することにより、復号化対象画像を取得するステップと、
前記形状融合ネットワークモデルによって、前記復号化対象画像を復号化処理することにより、前記第3融合対象画像を取得するステップと、を実行する。
メモリ520に記憶された複数の命令を実行することにより、プロセッサ580は、さらに、
前記第3融合対象画像を介して領域調整指示を受け付けるステップであって、前記領域調整指示が、画像における少なくとも1つの領域の形状を調整するためのものである、ステップと、
前記領域調整指示に応答して、前記置換対象領域を調整することにより、前記置換対象領域に対応するターゲット置換領域を取得するステップと、
前記ターゲット置換領域に基づいて、前記第3融合対象画像を処理することにより、第4融合対象画像を取得するステップと、
条件融合ネットワークモデルによって、前記第4融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する。
メモリ520に記憶された複数の命令を実行することにより、プロセッサ580は、さらに、
前記第3融合対象画像と前記第1融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得するステップであって、前記マルチチャンネル特徴画像が、少なくとも2つの画像の色特徴を結合するためのものである、ステップと、
前記条件融合ネットワークモデルによって、前記マルチチャンネル特徴画像に対応する前記ターゲット融合画像を取得するステップと、を実行する。
図17は、本願の実施例で提供されたサーバ機器の構成の模式図である。このサーバ機器600は、スペック又は性能が異なることによって、大きな差異があり得るが、1つ又は複数の中央処理装置(CPU:central processing units)622(例えば、1つ又は複数のプロセッサ)と、メモリ632と、を含んでもよい。このサーバ機器600は、アプリケーションプログラム642又はデータ644を記憶する1つ又は複数の記憶媒体630(例えば、1つ又は複数の大容量記憶デバイス)をさらに含んでもよい。ここで、メモリ632及び記憶媒体630は、一時的な記憶装置又は永続的な記憶装置であってもよい。メモリ632及び記憶媒体630は、いずれも、複数の命令、又はプログラムを記憶することができる。メモリ632又は記憶媒体630に記憶されたプログラム(又は複数の命令)は、1つ又は複数のモジュール(図中に示されていない)を含んでもよく、各モジュールは、サーバ機器における一連の命令に対する動作を含んでもよい。さらに、中央処理装置622は、メモリ632又は記憶媒体630と通信し、サーバ機器600でメモリ632又は記憶媒体630における一連の命令の動作を実行するように構成されてもよい。
サーバ機器600は、1つ又は複数の電源626、1つ又は複数の有線又は無線ネットワークインタフェース650、1つ又は複数の入出力インタフェース658、及び/又は、例えば、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなどの1つ又は複数のオペレーティングシステム641を含んでもよい。
上記実施例では、サーバ機器が実行するステップは、この図17に示すサーバ機器の構成に基づくものであってもよい。
本願の実施例では、メモリ632又は記憶媒体630に記憶された複数の命令を実行することにより、このサーバ機器に含まれるCPU622は、
第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得するステップであって、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得するステップであって、前記第3訓練対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得するステップであって、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を実行する。
メモリ632又は記憶媒体630に記憶された複数の命令を実行することにより、CPU622は、さらに、
訓練対象ターゲット画像集合を取得するステップであって、前記訓練対象ターゲット画像集合には、少なくとも1つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも1つの領域が含まれる、ステップと、
訓練対象解きほぐしエンコーダによって、前記訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得するステップであって、前記訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、1つの領域を符号化するためのものである、ステップと、
訓練対象解きほぐしデコーダによって、前記符号化結果を復号化処理することにより、復号化結果を取得するステップであって、前記訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、1つの領域を復号化するためのものである、ステップと、
損失関数及び復号化結果を用いて、前記訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含む、ステップと、
第1訓練対象画像及び第2訓練対象画像を取得するステップと、
前記解きほぐしエンコーダを用いて、前記第1訓練対象画像における前記複数の第1領域を符号化処理することにより、前記複数の第1符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものである、ステップと、
前記解きほぐしエンコーダを用いて、前記第2訓練対象画像における前記複数の第2領域を符号化処理することにより、前記複数の第2符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである、ステップと、を実行する。
メモリ632又は記憶媒体630に記憶された複数の命令を実行することにより、CPU622は、さらに、
前記第5訓練対象画像及び実画像に基づいて、第1損失関数を決定するステップと、
前記ターゲット画像及び前記第1訓練対象画像に基づいて、第2損失関数を決定するステップと、
前記第1訓練対象画像、前記第2訓練対象画像、前記第4訓練対象画像、及び前記ターゲット画像に基づいて、第3損失関数を決定するステップと、
前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記ターゲット損失関数を決定するステップと、を実行する。
Figure 2022502783
当業者であれば明らかなように、説明を容易かつ簡潔にするために、上記に説明されたシステム、装置、及びユニットの具体的な動作プロセスは、前述した方法の実施例における対応するプロセスを参照すればよいが、ここでは、これ以上の説明を省略する。
理解すべきものとして、本願で提供されたいくつかの実施例に掲示されたシステム、装置、及び方法は、他の方式によって実現されてもよい。例えば、上記に説明された装置の実施例は、模式的なものにすぎない。例えば、前記ユニットの分割は、論理的な機能の分割にすぎず、実際に実現する際に別の分割方式であってもよい。例えば、複数のユニット又はコンポーネントを組み合わせたり、他のシステムに組み入れたりしてもよいし、一部の特徴を無視したり、実行しなかったりしてもよい。また、示され又は説明された互いの結合、又は直接結合、又は通信接続は、若干のインタフェースを介するものであってもよく、装置又はユニットの間接結合又は通信接続は、電気的、機械的、又は他の形式であってもよい。
上記に分離した部品として説明されたユニットは、物理的に分離したものであってもなくてもよい。ユニットとして示された部品は、物理的なユニットであってもなくてもよく、即ち、1つの場所に位置してもよいし、ネットワーク上の複数のユニットに分散されてもよい。実際の必要に応じて、その中の一部又は全部のユニットを選択して、本実施例の構成の目的を達成してもよい。
また、本願の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよく、各ユニットが物理的に単独で存在してもよく、2つ以上のユニットが1つのユニットに統合されてもよい。上記統合されたユニットは、ハードウェアの形で実現されてもよいし、ソフトウェア機能ユニットの形で実現されてもよい。
前記統合されたユニットは、ソフトウェア機能ユニットの形で実現されて、スタンドアロン製品として販売又は使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づき、本願の構成の本質的な部分、若しくは従来技術に寄与する部分、若しくは該構成の全部又は一部は、ソフトウェア製品の形で具現化されることができ、該コンピュータソフトウェア製品が、記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ機器、又はネットワーク機器などであってもよい)に、本願の各実施例における方法(例えば、上述した画像融合方法及びモデル訓練方法)の全部又は一部のステップを実行させるための若干の命令を含む。前述した記憶媒体は、Uディスク、モバイルハードディスク、読み出し専用メモリ(ROM:Read−Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク、又は光ディスクなどの、プログラムコードを記憶できる様々な媒体を含む。
上記のように、上記の実施例は、本願の構成を説明するためのものにすぎず、それを限定するものではない。前述した実施例を参照して本願を詳細に説明したが、当業者であれば理解できるように、前述した各実施例に記載された構成を修正し、又はその中の一部の技術的特徴の均等置換えを行うことができ、これらの修正又は置換えにより、該当する構成の本質が本願の各実施例の構成の精神及び範囲から逸脱することはない。
301 取得モジュール
302 融合モジュール
303 決定モジュール
304 受付モジュール
305 調整モジュール
306 処理モジュール
401 取得モジュール
402 融合モジュール
403 訓練モジュール
404 符号化モジュール
405 復号化モジュール
406 決定モジュール
510 RF回路
520 メモリ
530 入力ユニット
531 タッチパネル
532 入力デバイス
540 表示ユニット
541 表示パネル
550 センサ
560 オーディオ回路
561 スピーカー
562 マイクロフォン
570 WiFiモジュール
580 プロセッサ
590 電源
600 サーバ機器
622 中央処理装置
626 電源
630 記憶媒体
632 メモリ
641 オペレーティングシステム
642 アプリケーションプログラム
644 データ
650 無線ネットワークインタフェース
658 入出力インタフェース
しかしながら、敵対的生成ネットワークを用いて生成された顔画像は、その顔画像のアイデンティティが、元の入力画像のアイデンティティと一致することを確保することができず、顔認識の精度を低下させる。また、符号化の過程で教師なし学習の手法を採用しているため、各ブロックの独立性しか確保されないが、各ブロックが表す意味を決定することができず、画像融合の柔軟性に不利である。
本願の実施例における画像融合システムのアーキテクチャの模式図である。 本願の実施例における画像融合システムの全体のフレームワークのフローの模式図である。 本願の実施例における画像融合方法の一実施例の模式図である。 本願の実施例において、解きほぐしエンコーダによって画像を符号化する一実施例の模式図である。 本願の実施例において、形状融合ネットワークモデルによって画像を融合する一実施例の模式図である。 本願の実施例における形状の手描きの一実施例の模式図である。 本願の実施例におけるモデル訓練方法の一実施例の模式図である。 本願の実施例において条件融合ネットワークモデルを訓練する一実施例の模式図である。 本願の実施例において解きほぐしエンコーダを訓練する一実施例の模式図である。 本願の実施例における画像融合装置の一実施例の模式図である。 本願の実施例における画像融合装置の他の実施例の模式図である。 本願の実施例における画像融合装置の他の実施例の模式図である。 本願の実施例におけるモデル訓練装置の一実施例の模式図である。 本願の実施例におけるモデル訓練装置の他の実施例の模式図である。 本願の実施例におけるモデル訓練装置の他の実施例の模式図である。 本願の実施例における端末機器の一実施例の模式図である。 本願の実施例におけるサーバ機器の一実施例の模式図である。
上記の説明から分かるように、レセプター画像(receptor)の髪型をドナー画像(donor)の髪型に置換するとすれば、形状融合ネットワークモデルは、レセプター画像の顔形状遺伝子に対応する髪型領域の特徴を、ドナー画像の顔形状遺伝子に対応する髪型領域の特徴に置換することにより、修正したハイブリッド顔形状遺伝子を取得し、最後に、全体デコーダによって、ハイブリッド顔形状遺伝子を編集済みの顔画像に復号化してもよい。
Figure 2022502783
以下、本願のモデル訓練装置を詳しく説明する。図13を参照されたいが、図13は、本願の実施例におけるモデル訓練装置の一実施例の模式図である。モデル訓練装置40は、取得モジュール401と、融合モジュール402と、訓練モジュール403と、を含み、
前記取得モジュール401は、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、
前記融合モジュール402は、訓練対象形状融合ネットワークモデルによって、前記取得モジュール401で取得された前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、前記第3訓練対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、
前記融合モジュール402は、さらに、訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得し、
前記融合モジュール402は、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴があり、
前記融合モジュール402は、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
前記訓練モジュール403は、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。
さらに、本願の実施例では、損失関数を計算する具体的な方式を説明している。即ち、モデル訓練装置は、第5訓練対象画像及び実画像に基づいて、第1損失関数を算出し、その後、ターゲット画像及び第1訓練対象画像に基づいて、第2損失関数を算出し、次に、第1訓練対象画像、第2訓練対象画像、第4訓練対象画像、及びターゲット画像に基づいて、第3損失関数を決定し、最後に、第1損失関数、第2損失関数、及び第3損失関数に基づいて、ターゲット損失関数を算出することができる。上記の方式によれば、構成の実現のために具体的な根拠が提供され、構成の実現可能性及び操作性を向上させる。

Claims (21)

  1. 端末機器が実行する画像融合方法であって、
    第1融合対象画像及び第2融合対象画像を取得するステップであって、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれる、ステップと、
    前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得するステップであって、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
    形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得するステップであって、前記第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
    条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、
    を含む画像融合方法。
  2. 前記第1融合対象画像に基づいて第1特徴集合を取得することは、
    解きほぐしエンコーダを用いて、前記第1融合対象画像における前記複数の第1領域を符号化処理することにより、前記複数の第1符号化特徴を取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものである、ステップを含む、
    請求項1に記載の方法。
  3. 前記第2融合対象画像に基づいて第2特徴集合を取得することは、
    解きほぐしエンコーダを用いて、前記第2融合対象画像における前記複数の第2領域を符号化処理することにより、前記複数の第2符号化特徴を取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである、ステップを含む、
    請求項1に記載の方法。
  4. 前記形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得する前記ステップの前に、
    前記第1融合対象画像から置換対象領域を決定するステップであって、前記置換対象領域が前記複数の第1領域のうちの1つの領域である、ステップと、
    前記置換対象領域に基づいて、前記第1融合対象画像における第1置換対象符号化特徴を取得するとともに、前記置換対象領域に基づいて、前記第2融合対象画像における第2置換対象符号化特徴を取得するステップであって、前記第1置換対象符号化特徴が、前記複数の第1符号化特徴のうちの1つの符号化特徴であり、前記第2置換対象符号化特徴が、前記複数の第2符号化特徴のうちの1つの符号化特徴である、ステップと、
    をさらに含む請求項1に記載の方法。
  5. 形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得する前記ステップは、
    前記形状融合ネットワークモデルによって、前記第1融合対象画像における前記第1置換対象符号化特徴を、前記第2融合対象画像における前記第2置換対象符号化特徴に置換することにより、復号化対象画像を取得するステップと、
    前記形状融合ネットワークモデルによって、前記復号化対象画像を復号化処理することにより、前記第3融合対象画像を取得するステップと、
    を含む請求項4に記載の方法。
  6. 前記形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得する前記ステップの後に、
    前記第3融合対象画像を介して領域調整指示を受け付けるステップであって、前記領域調整指示が、画像における少なくとも1つの領域の形状を調整するためのものである、ステップと、
    前記領域調整指示に応答して、前記置換対象領域を調整することにより、前記置換対象領域に対応するターゲット置換領域を取得するステップと、
    前記ターゲット置換領域に基づいて、前記第3融合対象画像を処理することにより、第4融合対象画像を取得するステップと、
    をさらに含む請求項4又は5に記載の方法。
  7. 条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する前記ステップは、
    前記条件融合ネットワークモデルによって、前記第4融合対象画像と前記第1融合対象画像とを融合処理することにより、前記ターゲット融合画像を取得するステップを含む、
    請求項6に記載の方法。
  8. 条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する前記ステップは、
    前記第3融合対象画像と前記第1融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得するステップであって、前記マルチチャンネル特徴画像が、少なくとも2つの画像の色特徴を結合するためのものである、ステップと、
    前記条件融合ネットワークモデルによって、前記マルチチャンネル特徴画像に対応する前記ターゲット融合画像を取得するステップと、
    を含む請求項1〜5のいずれか1項に記載の方法。
  9. サーバ機器が実行するモデル訓練方法であって、
    第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得するステップであって、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
    訓練対象形状融合ネットワークモデルによって、前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得するステップであって、前記第3訓練対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
    訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得するステップと、
    前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得するステップであって、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴がある、ステップと、
    前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
    ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、
    を含むモデル訓練方法。
  10. 第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得する前記ステップの前に、
    訓練対象ターゲット画像集合を取得するステップであって、前記訓練対象ターゲット画像集合には、少なくとも1つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも1つの領域が含まれる、ステップと、
    訓練対象解きほぐしエンコーダによって、前記訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得するステップであって、前記訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、1つの領域を符号化するためのものである、ステップと、
    訓練対象解きほぐしデコーダによって、前記符号化結果を復号化処理することにより、復号化結果を取得するステップであって、前記訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、1つの領域を復号化するためのものである、ステップと、
    損失関数及び復号化結果を用いて、前記訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含む、ステップと、
    をさらに含む請求項9に記載の方法。
  11. 第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得する前記ステップは、
    第1訓練対象画像及び第2訓練対象画像を取得するステップと、
    前記解きほぐしエンコーダを用いて、前記第1訓練対象画像における前記複数の第1領域を符号化処理することにより、前記複数の第1符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、1つの第1領域を符号化するためのものである、ステップと、
    前記解きほぐしエンコーダを用いて、前記第2訓練対象画像における前記複数の第2領域を符号化処理することにより、前記複数の第2符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、1つの第2領域を符号化するためのものである、ステップと、
    を含む請求項9に記載の方法。
  12. ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前記ステップの前に、
    前記第5訓練対象画像及び実画像に基づいて、第1損失関数を決定するステップと、
    前記ターゲット画像及び前記第1訓練対象画像に基づいて、第2損失関数を決定するステップと、
    前記第1訓練対象画像、前記第2訓練対象画像、前記第4訓練対象画像、及び前記ターゲット画像に基づいて、第3損失関数を決定するステップと、
    前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記ターゲット損失関数を決定するステップと、
    をさらに含む請求項9に記載の方法。
  13. Figure 2022502783
  14. Figure 2022502783
  15. Figure 2022502783
  16. 前記第1損失関数、前記第2損失関数、及び前記第3損失関数に基づいて、前記ターゲット損失関数を決定する前記ステップは、
    Figure 2022502783
    によって、前記ターゲット損失関数を計算するステップを含み、
    ここで、前記
    Figure 2022502783
    は前記ターゲット損失関数を表す、
    請求項12に記載の方法。
  17. 画像融合装置であって、
    取得モジュールと、融合モジュールと、を含み、
    前記取得モジュールは、第1融合対象画像及び第2融合対象画像を取得し、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれ、
    前記取得モジュールは、さらに、前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得し、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、
    前記融合モジュールは、形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得し、前記第3融合対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、
    前記融合モジュールは、さらに、条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得する、
    画像融合装置。
  18. モデル訓練装置であって、
    取得モジュールと、融合モジュールと、訓練モジュールと、を含み、
    前記取得モジュールは、第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得し、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応し、
    前記融合モジュールは、訓練対象形状融合ネットワークモデルによって、前記取得モジュールで取得された前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得し、前記第3訓練対象画像には、前記取得モジュールで取得された、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれ、
    前記融合モジュールは、さらに、訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得し、
    前記融合モジュールは、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得し、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴があり、
    前記融合モジュールは、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
    前記訓練モジュールは、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する、
    モデル訓練装置。
  19. メモリとプロセッサとを備える端末機器であって、
    前記メモリには、複数の命令が記憶され、
    前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
    第1融合対象画像及び第2融合対象画像を取得するステップであって、前記第1融合対象画像には、複数の第1領域が含まれ、前記第2融合対象画像には、複数の第2領域が含まれる、ステップと、
    前記第1融合対象画像に基づいて第1特徴集合を取得し、前記第2融合対象画像に基づいて第2特徴集合を取得するステップであって、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
    形状融合ネットワークモデルによって、前記第1融合対象画像と前記第2融合対象画像とを融合処理することにより、第3融合対象画像を取得するステップであって、前記第3融合対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
    条件融合ネットワークモデルによって、前記第3融合対象画像と前記第1融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する、
    端末機器。
  20. メモリとプロセッサとを備えるサーバ機器であって、
    前記メモリには、複数の命令が記憶され、
    前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
    第1訓練対象画像の第1特徴集合と、第2訓練対象画像の第2特徴集合とを取得するステップであって、前記第1訓練対象画像には、複数の第1訓練領域が含まれ、前記第2訓練対象画像には、複数の第2訓練領域が含まれ、前記第1特徴集合には、複数の第1符号化特徴が含まれ、前記第1符号化特徴が前記第1領域に1対1で対応し、前記第2特徴集合には、複数の第2符号化特徴が含まれ、前記第2符号化特徴が前記第2領域に1対1で対応する、ステップと、
    訓練対象形状融合ネットワークモデルによって、前記第1訓練対象画像と前記第2訓練対象画像とを融合処理することにより、第3訓練対象画像を取得するステップであって、前記第3訓練対象画像には、少なくとも1つの第1符号化特徴と、少なくとも1つの第2符号化特徴とが含まれる、ステップと、
    訓練対象条件融合ネットワークモデルによって、前記第3訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第4訓練対象画像を取得するステップと、
    前記訓練対象形状融合ネットワークモデルによって、前記第4訓練対象画像と前記第1訓練対象画像とを融合処理することにより、第5訓練対象画像を取得するステップであって、前記第5訓練対象画像と前記第1訓練対象画像との間には、対応する特徴がある、ステップと、
    前記訓練対象条件融合ネットワークモデルによって、前記第5訓練対象画像と前記第4訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
    ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を実行する、
    サーバ機器。
  21. 命令を含むコンピュータ読み取り可能な記憶媒体であって、前記命令は、コンピュータで実行されると、請求項1〜16のいずれか1項に記載の方法をコンピュータに実行させる記憶媒体。
JP2021517986A 2019-02-26 2020-02-18 画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム Active JP7090971B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910142210.7A CN109919888B (zh) 2019-02-26 2019-02-26 一种图像融合的方法、模型训练的方法以及相关装置
CN201910142210.7 2019-02-26
PCT/CN2020/075641 WO2020173329A1 (zh) 2019-02-26 2020-02-18 一种图像融合的方法、模型训练的方法以及相关装置

Publications (2)

Publication Number Publication Date
JP2022502783A true JP2022502783A (ja) 2022-01-11
JP7090971B2 JP7090971B2 (ja) 2022-06-27

Family

ID=66962310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021517986A Active JP7090971B2 (ja) 2019-02-26 2020-02-18 画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム

Country Status (6)

Country Link
US (1) US11776097B2 (ja)
EP (1) EP3933754A4 (ja)
JP (1) JP7090971B2 (ja)
CN (1) CN109919888B (ja)
TW (1) TWI725746B (ja)
WO (1) WO2020173329A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919888B (zh) 2019-02-26 2023-09-19 腾讯科技(深圳)有限公司 一种图像融合的方法、模型训练的方法以及相关装置
CN112218080B (zh) * 2019-07-12 2022-04-19 北京新唐思创教育科技有限公司 图像处理方法、装置、设备及存储介质
CN110415166B (zh) * 2019-07-29 2023-01-06 腾讯科技(深圳)有限公司 融合图像处理模型的训练方法、图像处理方法、装置及存储介质
CN110472558B (zh) * 2019-08-13 2023-08-15 上海掌门科技有限公司 图像处理方法和装置
CN110633751A (zh) * 2019-09-17 2019-12-31 上海眼控科技股份有限公司 车标分类模型的训练方法、车标识别方法、装置及设备
CN110826593B (zh) 2019-09-29 2021-02-05 腾讯科技(深圳)有限公司 融合图像处理模型的训练方法、图像处理方法、装置
CN111355021B (zh) * 2020-02-15 2022-05-03 杭州电子科技大学 一种基于自身形状融合的带宽增强方法
JP7446903B2 (ja) * 2020-04-23 2024-03-11 株式会社日立製作所 画像処理装置、画像処理方法及び画像処理システム
CN111724485B (zh) * 2020-06-11 2024-06-07 浙江商汤科技开发有限公司 实现虚实融合的方法、装置、电子设备及存储介质
CN111863539B (zh) * 2020-08-05 2022-04-12 沈阳铁路信号有限责任公司 一种电磁继电器的触头表面成分叠加融合方法
CN111915545B (zh) * 2020-08-06 2022-07-05 中北大学 一种多波段图像的自监督学习融合方法
CN114078083A (zh) * 2020-08-11 2022-02-22 北京达佳互联信息技术有限公司 头发变换模型生成方法和装置、头发变换方法和装置
CN111881926A (zh) * 2020-08-24 2020-11-03 Oppo广东移动通信有限公司 图像生成、图像生成模型的训练方法、装置、设备及介质
TWI840637B (zh) * 2020-09-04 2024-05-01 財團法人工業技術研究院 執行影像多模態轉換之生成式對抗網路的訓練方法與訓練系統
CN112184876B (zh) * 2020-09-28 2021-04-27 北京达佳互联信息技术有限公司 图像处理方法、装置、电子设备和存储介质
CN112529978B (zh) * 2020-12-07 2022-10-14 四川大学 一种人机交互式抽象画生成方法
CN112668586B (zh) 2020-12-18 2024-05-14 北京百度网讯科技有限公司 模型训练、图片处理方法及设备、存储介质、程序产品
TWI792137B (zh) * 2020-12-31 2023-02-11 瑞昱半導體股份有限公司 視線方向校正方法
CN112862909A (zh) * 2021-02-05 2021-05-28 北京百度网讯科技有限公司 一种数据处理方法、装置、设备以及存储介质
CN112884691B (zh) * 2021-03-10 2024-09-10 深圳中科飞测科技股份有限公司 数据增强及装置、数据增强设备和存储介质
CN113705316A (zh) * 2021-04-13 2021-11-26 腾讯科技(深圳)有限公司 获取虚拟图像的方法、装置、设备及存储介质
CN114973349A (zh) * 2021-08-20 2022-08-30 腾讯科技(深圳)有限公司 面部图像处理方法和面部图像处理模型的训练方法
US11989916B2 (en) * 2021-10-11 2024-05-21 Kyocera Document Solutions Inc. Retro-to-modern grayscale image translation for preprocessing and data preparation of colorization
CN114187624B (zh) * 2021-11-09 2023-09-22 北京百度网讯科技有限公司 图像生成方法、装置、电子设备及存储介质
CN114170342B (zh) * 2021-12-10 2024-10-25 北京字跳网络技术有限公司 图像处理方法、装置、设备及存储介质
CN114511082B (zh) * 2022-02-16 2024-08-09 腾讯科技(深圳)有限公司 特征提取模型的训练方法、图像处理方法、装置及设备
US20230319223A1 (en) * 2022-03-29 2023-10-05 Disney Enterprises, Inc Method and system for deep learning based face swapping with multiple encoders
CN114627338B (zh) * 2022-05-16 2022-09-09 浙江华是科技股份有限公司 一种船舶类别分类模型训练方法、系统及计算机存储介质
CN114757938B (zh) * 2022-05-16 2023-09-15 国网四川省电力公司电力科学研究院 一种变压器漏油识别方法和系统
CN115239968A (zh) * 2022-07-25 2022-10-25 首都师范大学 一种图像处理方法、装置、计算机设备及存储介质
CN115512006B (zh) * 2022-11-23 2023-04-07 有米科技股份有限公司 基于多图像元素的图像智能合成方法及装置
CN117611644B (zh) * 2024-01-23 2024-05-28 南京航空航天大学 一种可见光图像到sar图像的转换方法、装置、介质及设备
CN117710373B (zh) * 2024-02-05 2024-06-04 中国科学院宁波材料技术与工程研究所 一种抗干扰的octa视网膜血管提取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164152A (ja) * 2011-02-07 2012-08-30 Univ Of Aizu 画像生成装置および画像生成プログラム
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN108665506A (zh) * 2018-05-10 2018-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器
WO2019002602A1 (en) * 2017-06-30 2019-01-03 Norwegian University Of Science And Technology (Ntnu) DETECTION OF MANIPULATED IMAGES

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI384406B (zh) * 2009-05-26 2013-02-01 Univ Nat Chiao Tung 人臉辨識與合成方法
US8884989B2 (en) * 2009-12-23 2014-11-11 Indian Institute Of Technology Bombay System and method for fusing images
US10402448B2 (en) * 2017-06-28 2019-09-03 Google Llc Image retrieval with deep local feature descriptors and attention-based keypoint descriptors
CN107507216B (zh) * 2017-08-17 2020-06-09 北京觅己科技有限公司 图像中局部区域的替换方法、装置及存储介质
CN108460411B (zh) * 2018-02-09 2021-05-04 北京市商汤科技开发有限公司 实例分割方法和装置、电子设备、程序和介质
CN108647560B (zh) * 2018-03-22 2022-06-14 中山大学 一种基于cnn的保持表情信息的人脸转移方法
CN108520215B (zh) * 2018-03-28 2022-10-11 电子科技大学 基于多尺度联合特征编码器的单样本人脸识别方法
CN109377448B (zh) * 2018-05-20 2021-05-07 北京工业大学 一种基于生成对抗网络的人脸图像修复方法
CN109002852B (zh) * 2018-07-11 2023-05-23 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机可读存储介质和计算机设备
CN108960345A (zh) * 2018-08-08 2018-12-07 广东工业大学 一种遥感图像的融合方法、系统及相关组件
CN109005852A (zh) * 2018-08-30 2018-12-18 甘肃地道之源药业科技发展有限公司 一种中药材用浇灌装置
CN109325549B (zh) * 2018-10-25 2022-03-04 电子科技大学 一种人脸图像融合方法
CN109919888B (zh) * 2019-02-26 2023-09-19 腾讯科技(深圳)有限公司 一种图像融合的方法、模型训练的方法以及相关装置
CN111985265B (zh) * 2019-05-21 2024-04-12 华为技术有限公司 图像处理方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164152A (ja) * 2011-02-07 2012-08-30 Univ Of Aizu 画像生成装置および画像生成プログラム
WO2019002602A1 (en) * 2017-06-30 2019-01-03 Norwegian University Of Science And Technology (Ntnu) DETECTION OF MANIPULATED IMAGES
CN107437077A (zh) * 2017-08-04 2017-12-05 深圳市唯特视科技有限公司 一种基于生成对抗网络的旋转面部表示学习的方法
CN108665506A (zh) * 2018-05-10 2018-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机存储介质及服务器

Also Published As

Publication number Publication date
EP3933754A1 (en) 2022-01-05
CN109919888A (zh) 2019-06-21
US11776097B2 (en) 2023-10-03
JP7090971B2 (ja) 2022-06-27
US20210295483A1 (en) 2021-09-23
WO2020173329A1 (zh) 2020-09-03
TW202032400A (zh) 2020-09-01
CN109919888B (zh) 2023-09-19
TWI725746B (zh) 2021-04-21
EP3933754A4 (en) 2022-05-04

Similar Documents

Publication Publication Date Title
JP7090971B2 (ja) 画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム
WO2020253663A1 (zh) 基于人工智能的图像区域识别方法、模型训练方法及装置
CN109978989B (zh) 三维人脸模型生成方法、装置、计算机设备及存储介质
CN109949412B (zh) 一种三维对象重建方法和装置
CN109951654A (zh) 一种视频合成的方法、模型训练的方法以及相关装置
CN111985265A (zh) 图像处理方法和装置
CN110162604B (zh) 语句生成方法、装置、设备及存储介质
JP7324838B2 (ja) 符号化方法並びにその、装置、機器及びコンピュータプログラム
CN110147533B (zh) 编码方法、装置、设备及存储介质
CN110443769A (zh) 图像处理方法、图像处理装置及终端设备
CN112581571B (zh) 虚拟形象模型的控制方法、装置、电子设备及存储介质
JP2023508062A (ja) 対話モデルの訓練方法、装置、コンピュータ機器及びプログラム
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN114462580B (zh) 文本识别模型的训练方法、文本识别方法、装置和设备
CN116993949A (zh) 虚拟环境的显示方法、装置、可穿戴电子设备及存储介质
CN113763531B (zh) 三维人脸重建方法、装置、电子设备及存储介质
CN111310701B (zh) 手势识别方法、装置、设备及存储介质
CN111797754B (zh) 图像检测的方法、装置、电子设备及介质
CN114519779B (zh) 动作生成模型训练方法、装置、设备和存储介质
CN116152900B (zh) 表情信息的获取方法、装置、计算机设备及存储介质
CN114004922B (zh) 骨骼动画显示方法、装置、设备、介质及计算机程序产品
US20240073402A1 (en) Multi-perspective augmented reality experience
US20240013493A1 (en) Low-power architecture for augmented reality device
US20240069637A1 (en) Touch-based augmented reality experience
WO2024108555A1 (zh) 人脸图像生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220609

R150 Certificate of patent or registration of utility model

Ref document number: 7090971

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150