JP2022502783A

JP2022502783A - 画像融合方法、モデル訓練方法、画像融合装置、モデル訓練装置、端末機器、サーバ機器、及びコンピュータプログラム

Info

Publication number: JP2022502783A
Application number: JP2021517986A
Authority: JP
Inventors: 浩智黄; 森哲胥; 事民胡; 威 ▲劉▼
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-02-26
Filing date: 2020-02-18
Publication date: 2022-01-11
Anticipated expiration: 2040-02-18
Also published as: EP3933754A1; CN109919888A; US11776097B2; JP7090971B2; US20210295483A1; WO2020173329A1; TW202032400A; CN109919888B; TWI725746B; EP3933754A4

Abstract

端末機器が実行する画像融合方法であって、第１融合対象画像及び第２融合対象画像を取得するステップであって、第１融合対象画像には、複数の第１領域が含まれ、第２融合対象画像には、複数の第２領域が含まれる、ステップ（１０１）と、第１融合対象画像に基づいて第１特徴集合を取得し、第２融合対象画像に基づいて第２特徴集合を取得するステップであって、第１特徴集合には、複数の第１符号化特徴が含まれ、第２特徴集合には、複数の第２符号化特徴が含まれる、ステップ（１０２）と、形状融合ネットワークモデルによって、第１融合対象画像と第２融合対象画像とを融合処理することにより、第３融合対象画像を取得するステップ（１０３）と、条件融合ネットワークモデルによって、第３融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップ（１０４）と、を含む。本願は、モデル訓練方法及び装置をさらに含む。

Description

本願は、２０１９年２月２６日に中国特許庁に提出された、出願番号が２０１９１０１４２２１０．７であり、発明の名称が「画像融合方法、モデル訓練方法、及び関連装置」である中国特許出願に基づく優先権を主張し、その全ての内容は参照することにより本願に組み込まれる。

本願は、人工知能の技術分野に関し、特に画像融合方法、モデル訓練方法、及び関連装置に関する。

人工知能（ＡＩ：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）は、デジタルコンピュータ、又はデジタルコンピュータにより制御される機械を用いて、人間の知能のシミュレーション、延長や拡張をし、環境を感知し、知識を取得し、知識を用いて最適な結果を取得する理論、方法、技術、及び応用システムである。言い換えれば、人工知能は、コンピュータ科学の総合的な技術であり、知能の実質を了解することと、人間の知能に類似する方式で反応できる新たな知能機械を生産することとを図る。人工知能は、各種の知能機械の設計原理及び実現方法を研究し、感知、推理、及び意思決定の機能を機械に持たせるものである。

人工知能技術は、総合的な学科であり、関連する分野が幅広く、ハードウェアレベルの技術もソフトウェアレベルの技術もある。人工知能の基礎技術には、一般的に、例えば、センサ、人工知能専用チップ、クラウドコンピューティング、分散記憶、ビッグデータ処理技術、操作／インタラクティブシステム、メカトロニクスなどの技術が含まれる。人工知能のソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術、及び機械学習／深層学習などのいくつかの方面を含む。

コンピュータビジョン技術（ＣＶ：ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ）は、如何に機械が「見る」ようにするかを研究する科学であり、さらに言えば、人間の目の代わりに、カメラやコンピュータを用いて、ターゲットに対して認識、追跡や測定などのマシンビジョンを行い、さらに図形処理を行い、コンピュータの処理によって、人間の目の観察や、器械に伝送して測定することにより適する画像を形成することを指す。科学の学科として、コンピュータビジョンは、関連する理論や技術を研究し、画像や多次元データから情報を取得することができる人工知能システムの構築を図る。コンピュータビジョン技術は、通常、画像処理、画像認識、画像意味理解、画像検索、ＯＣＲ、ビデオ処理、ビデオ意味理解、ビデオコンテンツ／行動認識、３次元物体の再構成、３Ｄ技術、仮想現実、拡張現実、同期測位及び地図構築などの技術を含み、一般的な顔認識、指紋認識などの生体特徴認識技術も含む。

顔融合とは、顔認識アルゴリズム及び深層学習エンジンを頼りに、顔のキーポイントを素早くかつ正確に特定し、ユーザによりアップロードされた写真と、特定のイメージとを顔レベルで融合し、生成された画像にユーザ及び特定のイメージの両方の外見的な特徴があるようにすることを指す。顔を融合すると同時に、アップロードされた写真の認識をサポートすることで、活動の安全性を向上させ、業務違反のリスクを軽減させることができる。

現在、顔融合の技術は、主に、敵対的生成ネットワークを用いて、画像を生成している。顔画像の解きほぐしをする際に、顔画像における特徴をいくつかのブロックに分割し、ブロックごとに、ある面の特徴を個別に符号化し、最後に、融合後の顔画像を生成する教師なし学習の手法を採用している。

しかしながら、敵対的生成ネットワークを用いて生成された顔画像は、その顔画像のアイデンティティが、元の入力画像のアイデンティティと一致することを確保することができず、顔認識の精度を低下させる。また、符号化の過程で教師なしの手法を採用しているため、各ブロックの独立性しか確保されないが、各ブロックが表す意味を決定することができず、画像融合の柔軟性に不利である。

本願の実施例は、画像における部分領域を素早く変更して、融合画像を形成することができ、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報と変わらない画像融合方法、モデル訓練方法、及び関連装置を提供している。

これに鑑み、本願の第１態様では、端末機器が実行する画像融合方法が提供されており、この方法は、
第１融合対象画像及び第２融合対象画像を取得するステップであって、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれる、ステップと、
前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得するステップであって、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得するステップであって、前記第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を含む。

本願の第２態様では、サーバ機器が実行するモデル訓練方法が提供されており、この方法は、
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得するステップであって、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得するステップであって、前記第３訓練対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得するステップであって、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を含む。

本願の第３態様では、画像融合装置が提供されており、この装置は、取得モジュールと、融合モジュールと、を含み、
前記取得モジュールは、第１融合対象画像及び第２融合対象画像を取得し、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれ、
前記取得モジュールは、さらに、前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得し、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、
前記融合モジュールは、形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得し、前記第３融合対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、
前記融合モジュールは、さらに、条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。

本願の第４態様では、モデル訓練装置が提供されており、この装置は、取得モジュールと、融合モジュールと、訓練モジュールと、を含み、
前記取得モジュールは、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、
前記融合モジュールは、訓練対象形状融合ネットワークモデルによって、前記取得モジュールで取得された前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、前記第３訓練対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、
前記融合モジュールは、さらに、訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得し、
前記融合モジュールは、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴があり、
前記融合モジュールは、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
前記訓練モジュールは、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。

本願の第５態様では、メモリとプロセッサとを備える端末機器が提供されており、
前記メモリには、複数の命令が記憶され、
前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
第１融合対象画像及び第２融合対象画像を取得するステップであって、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれる、ステップと、
前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得するステップであって、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得するステップであって、前記第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する。

本願の第６の態様では、メモリとプロセッサとを備えるサーバ機器が提供されており、
前記メモリには、複数の命令が記憶され、
前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得するステップであって、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得するステップであって、前記第３訓練対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得するステップであって、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を実行する。

本願の第７の態様では、命令を記憶したコンピュータ読み取り可能な記憶媒体が提供されており、前記命令は、コンピュータで実行されると、上記の各態様に記載の方法をコンピュータに実行させる。

本願の実施例における画像融合システムのアーキテクチャの模式図である。本願の実施例における画像融合システムの全体のフレームワークのフローの模式図である。本願の実施例における画像融合方法の一実施例の模式図である。本願の実施例において、解きほぐしエンコーダによって画像を符号化する一実施例の模式図である。本願の実施例において、形状融合ネットワークモデルによって画像を融合する一実施例の模式図である。本願の実施例における形状の手描きの一実施例の模式図である。本願の実施例におけるモデル訓練方法の一実施例の模式図である。本願の実施例において条件融合ネットワークモデルを訓練する一実施例の模式図である。本願の実施例において解きほぐしエンコーダを訓練する一実施例の模式図である。本願の実施例における画像融合装置の一実施例の模式図である。本願の実施例における画像融合装置の他の実施例の模式図である。本願の実施例における画像融合装置の他の実施例の模式図である。本願の実施例におけるモデル訓練装置の一実施例の模式図である。本願の実施例におけるモデル訓練装置の他の実施例の模式図である。本願の実施例におけるモデル訓練装置の他の実施例の模式図である。本願の実施例における端末機器の一実施例の模式図である。本願の実施例における端末機器の一実施例の模式図である。

本願の実施例では、画像における部分領域を素早く変更して、融合画像を形成することができ、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報と変わらない画像融合方法、モデル訓練方法、及び関連装置が提供されている。

本願の明細書、特許請求の範囲、及び上記の図面における用語「第１」、「第２」、「第３」、「第４」など（存在する場合）は、類似の対象を区別するためのものであり、必ずしも特定の順番又は優先順位を記述するものではない。理解すべきものとして、このように使用されるデータは、適切な場合に、ここで記述される本願の実施例が例えばここで図示又は記述された順番以外の順番で実施できるように交換可能である。また、用語「含む」、「に対応する」、及びこれらの任意の変形は、非排他的な包含をカバーすることを意図する。例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は機器は、明示的に挙げられたステップ又はユニットに制限されず、これらのプロセス、方法、製品、又は機器に固有の、又は明示的に挙げられていない他のステップ又はユニットを含んでもよい。

理解すべきものとして、本願は、画像合成シナリオ、具体的には、顔合成シナリオ、即ち、コンピュータによる仮想的なシミュレーション顔画像の合成に適用することができる。顔画像の仮想的な合成は、新世代ヒューマンコンピュータインタラクションにおける重要な技術であり、現在国内外で非常に活発な研究方向でもあり、コンピュータグラフィックス及びコンピュータビジョンの面で広く注目・応用されることが期待できる。その潜在的な応用分野には、狭帯域ビデオ伝送、コンピュータ支援教育、映画特殊効果制作、ミュージックテレヴィジョン（ＭＴＶ：ｍｕｓｉｃｔｅｌｅｖｉｓｉｏｎ）特殊効果制作、ゲーム制作、仮想現実、人工知能やロボットなどが含まれる。顔画像合成技術では、異なる応用分野において、異なる研究者により提案された方法が大きく異なる。顔の仮想的な合成の技術は、ヒューマンコンピュータインタラクション（ｈｕｍａｎｃｏｍｐｕｔｅｒｉｎｔｅｒａｃｔｉｏｎ）分野の重要な構成部分になる。ヒューマンコンピュータインタラクション技術の発展の最終目的として、１つは、コンピュータをますます知能化して使いやすくすることであり、もう１つは、ロボットのインテリジェントな知覚である。

理解しやすいために、本願は、画像融合方法を提案しており、この方法は、図１に示す画像融合システムに適用される。図１を参照されたいが、図１は、本願の実施例における画像融合システムのアーキテクチャの模式図である。図１に示すように、まず、クライアントは、画像、例えば、ユーザＡの顔画像及びユーザＢの顔画像を撮影し、そのうちの１つの画像、例えば、ユーザＡの顔画像を入力とする。クライアントは、ローカルでユーザＡの顔画像を処理してもよいし、ユーザＡの顔画像をサーバ機器に送信し、サーバ機器によってユーザＡの顔画像を処理してもよい。処理方式は、主に、以下の通りである。まず、ユーザＡの顔画像を符号化する。異なるパーツエンコーダ（ｐａｒｔ−ｗｉｓｅｅｎｃｏｄｅｒ）をそれぞれ用いて、異なる部位形状、例えば、目、鼻、口、眉、顔型、髪、及びボディを符号化する。例えば、髪のパーツエンコーダの場合、１＊１＊１２８の１次元特徴ベクトルが出力される。形状融合ネットワークモデルによって、ユーザＡの顔画像におけるある部位の特徴ベクトルを、ユーザＢの顔画像にける対応する特徴ベクトルに置換する。その後、全ての特徴ベクトルを組み合わせて１つの全体特徴ベクトルとし、グローバルデコーダによって、この全体特徴ベクトルを１つの融合顔に復号化する。続いて、条件融合ネットワークモデルによって、編集された融合顔を、生成された仮想顔画像に変換する。条件融合ネットワークモデルも同様に元の入力画像を条件入力とする。本願で生成された仮想顔画像は、入力顔画像のアイデンティティ情報を失うことなく、入力顔画像のある部位の形状が修正される。

説明すべきものとして、クライアントは、端末機器に配置されている。ここで、端末機器は、タブレットコンピュータ、ノート型コンピュータ、パームトップコンピュータ、携帯電話、音声インタラクション機器、及びパーソナルコンピュータ（ＰＣ：ｐｅｒｓｏｎａｌｃｏｍｐｕｔｅｒ）を含むが、これらに限定されない。そのうち、音声インタラクション機器は、スマートオーディオやスマート家電を含むが、これらに限定されない。

以下、図２を参照しながら、画像融合システムを説明する。図２を参照されたいが、図２は、本願の実施例における画像融合システムの全体のフレームワークのフローの模式図である。図２に示すように、異なる顔の特徴を交換して符号化することにより、異なる部位形状がそれぞれ２つの顔に由来する合成顔画像を生成することができる。元画像Ａの髪の特徴を元画像Ｂの髪の特徴に置換する必要があると仮定すると、まず、形状融合ネットワークモデルによって、元画像Ａの髪の特徴を元画像Ｂの髪の特徴に置換し、次に、条件融合ネットワークモデルによって、指定された髪型を有するユーザＡの顔を生成して、融合画像Ｂを取得する。本願は、ユーザＢの髪型を有するユーザＡの顔の生成を制御することができる。また、本方法は、特定の部位形状を直接指定した顔画像の生成もサポートしている。例えば、ユーザは、顔画像Ａの髪型を直接（例えば、範囲を描画することによって）指定することができる。この場合、ユーザが指定した髪型を有するユーザＡの顔を生成する。

上記の説明と組み合わせて、以下、本願における画像融合方法を説明する。図３を参照されたいが、本願の実施例における画像融合方法は、図１６に示す端末機器によって実行される。この方法の一実施例は、以下のステップを含む。

１０１で、第１融合対象画像及び第２融合対象画像を取得し、第１融合対象画像には、複数の第１領域が含まれ、第２融合対象画像には、複数の第２領域が含まれる。

本実施例では、画像融合装置は、第１融合対象画像及び第２融合対象画像を取得する。ここで、第１融合対象画像及び第２融合対象画像は、通常、同じタイプの画像であり、例えば、両方とも顔画像であるか、又は両方とも動物画像であるか、又は両方とも風景画像であるか、又は一方は顔画像であり、他方は動物画像である。本実施例では、両方とも顔画像である場合を例にして説明するが、これは、本願を限定するものとして理解すべきではない。

ここで、第１融合対象画像及び第２融合対象画像は、いずれも、複数の領域を含む。具体的には、第１融合対象画像と第２融合対象画像とは、類似している領域を有する。例えば、第１融合対象画像は複数の第１領域を含み、第１領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。第２融合対象画像は複数の第２領域を含み、第２領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。

１０２で、第１融合対象画像に基づいて第１特徴集合を取得し、第２融合対象画像に基づいて第２特徴集合を取得し、第１特徴集合には、複数の第１符号化特徴が含まれ、第１符号化特徴が第１領域に１対１で対応し、第２特徴集合には、複数の第２符号化特徴が含まれ、第２符号化特徴が第２領域に１対１で対応する。

本実施例では、画像融合装置は、第１融合対象画像及び第２融合対象画像のそれぞれについて特徴を抽出する必要がある。即ち、第１融合対象画像における各第１領域について、相応する特徴を抽出することにより、第１符号化特徴を取得し、例えば、第１融合対象画像の目部分については、目部分の第１符号化特徴を抽出することができ、第１融合対象画像の髪部分については、髪部分の第１符号化特徴を抽出することができ、このようにして、最終的に、複数の第１符号化特徴が含まれる第１特徴集合を取得する。第２融合対象画像の目部分については、目部分の第２符号化特徴を抽出することができ、第２融合対象画像の髪部分については、髪部分の第２符号化特徴を抽出することができ、このようにして、最終的に、複数の第２符号化特徴が含まれる第２特徴集合を取得する。

１０３で、形状融合ネットワークモデルによって、第１融合対象画像と第２融合対象画像とを融合処理することにより、第３融合対象画像を取得し、第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる。

本実施例では、画像融合装置は、第１融合対象画像及び第２融合対象画像を形状融合ネットワークモデルに入力し、この形状融合ネットワークモデルによって、第３融合対象画像を出力する。ここでの第３融合対象画像には、第１融合対象画像における第１符号化特徴と、第２融合対象画像における第２符号化特徴との両方が含まれる。

１０４で、条件融合ネットワークモデルによって、第３融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。

本実施例では、画像融合装置は、第３融合対象画像及び第１融合対象画像を条件融合ネットワークモデルに入力し、この条件融合ネットワークモデルによって、ターゲット融合画像を出力する。ここで、ターゲット融合画像は、元に入力された第１融合対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。

本願の実施例では、画像融合方法が提供されている。まず、第１融合対象画像及び第２融合対象画像を取得し、第１融合対象画像には、複数の第１領域が含まれ、第２融合対象画像には、複数の第２領域が含まれる。次に、第１融合対象画像に基づいて第１特徴集合を取得し、第２融合対象画像に基づいて第２特徴集合を取得し、第１特徴集合には、複数の第１符号化特徴が含まれ、第１符号化特徴が第１領域に１対１で対応し、第２特徴集合には、複数の第２符号化特徴が含まれ、第２符号化特徴が第２領域に１対１で対応する。さらに、形状融合ネットワークモデルによって、第１融合対象画像と第２融合対象画像とを融合処理することにより、第３融合対象画像を取得し、第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる。最後に、条件融合ネットワークモデルによって、第３融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得することができる。上記の方式によれば、画像における各局所領域の相応する特徴が抽出され、これにより、ある画像における局所領域を素早く変更し、即ち、この局所領域を、他の画像における相応する局所領域に置換して、融合画像を形成することができる。また、融合画像において、編集された局所領域以外、残りの領域は、元の入力画像と一致する。これにより、ユーザは、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報とは変わらないと感じることになる。

上記図３に対応する実施例を基に、本願の実施例で提供された画像融合方法の第１実施例では、第１融合対象画像に基づいて第１特徴集合を取得するステップは、
解きほぐしエンコーダを用いて、第１融合対象画像における複数の第１領域を符号化処理することにより、複数の第１符号化特徴を取得するステップであって、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものである、ステップを含んでもよく、
第２融合対象画像に基づいて第２特徴集合を取得するステップは、
解きほぐしエンコーダを用いて、第２融合対象画像における複数の第２領域を符号化処理することにより、複数の第２符号化特徴を取得するステップであって、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである、ステップを含む。

本実施例では、第１特徴集合及び第２特徴集合を画像融合装置が取得する方法を説明する。画像融合装置は、第１融合対象画像及び第２融合対象画像を取得した後、この第１融合対象画像及び第２融合対象画像をそれぞれ解きほぐしエンコーダ（ｄｉｓｅｎｔａｎｇｌｉｎｇｅｎｃｏｄｅｒ）に入力する。ここで、解きほぐしエンコーダは、いくつかのパーツエンコーダからなる。各パーツエンコーダによって、画像における各領域を符号化すると、解きほぐした顔の形状が取得される。

具体的には、理解しやすいために、図４を参照されたい。図４は、本願の実施例において解きほぐしエンコーダによって画像を符号化する一実施例の模式図である。図４に示すように、元画像が解きほぐしエンコーダに入力され、ここで、この元画像は顔画像であってもよい。解きほぐしエンコーダは複数のパーツエンコーダを含み、各パーツエンコーダそれぞれは、顔画像における１つの領域を独立して符号化することを担当する。例えば、パーツエンコーダ１で顔画像における目部位を符号化することにより、符号化結果１を取得する。パーツエンコーダ２で顔画像における鼻部位を符号化することにより、符号化結果２を取得する。パーツエンコーダ３で顔画像における口部位を符号化することにより、符号化結果３を取得する。パーツエンコーダ４で顔画像における眉部位を符号化することにより、符号化結果４を取得する。パーツエンコーダ５で顔画像における顔の輪郭を符号化することにより、符号化結果５を取得する。パーツエンコーダ６で顔画像における髪部位を符号化することにより、符号化結果６を取得する。パーツエンコーダ７で顔画像におけるボディ部位を符号化することにより、符号化結果７を取得する。ここで、符号化結果１〜７を結合すると、顔形状遺伝子（ｆａｃｅｓｈａｐｅｇｅｎｅ）となり、即ち、第１特徴集合及び第２特徴集合が形成される。

理解すべきものとして、第１融合対象画像を符号化すると、第１特徴集合が取得され、第２融合対象画像を符号化すると、第２特徴集合が取得され、ここで、第１特徴集合における各第１符号化特徴は、第２特徴集合における各第２符号化特徴とは同じ次元の特徴ベクトルを有し、例えば、１＊１＊１２８の特徴ベクトルであってもよい。

次に、本願の実施例では、画像符号化方式が提供されている。即ち、画像融合装置は、解きほぐしエンコーダを用いて、第１融合対象画像における複数の第１領域を符号化処理することにより、複数の第１符号化特徴を取得するとともに、解きほぐしエンコーダを用いて、第２融合対象画像における複数の第２領域を符号化処理し、複数の第２符号化特徴を取得し、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである。上記の方式によれば、パーツエンコーダを用いて、画像における異なる領域を符号化処理することにより、画像符号化の一致性を効果的に確保することができ、後続の予測処理に有利である。

上記図３に対応する実施例を基に、本願の実施例で提供された画像融合方法の第２実施例では、形状融合ネットワークモデルによって、第１融合対象画像と第２融合対象画像とを融合処理することにより、第３融合対象画像を取得する前に、前記画像融合方法は、
第１融合対象画像から置換対象領域を決定するステップであって、置換対象領域が複数の第１領域のうちの１つの領域である、ステップと、
置換対象領域に基づいて、第１融合対象画像における第１置換対象符号化特徴を取得するとともに、置換対象領域に基づいて、第２融合対象画像における第２置換対象符号化特徴を取得するステップであって、第１置換対象符号化特徴が、複数の第１符号化特徴のうちの１つの符号化特徴であり、第２置換対象符号化特徴が、複数の第２符号化特徴のうちの１つの符号化特徴である、ステップと、をさらに含んでもよい。

本実施例では、画像融合装置が画像融合処理を行う前に必要な操作を説明する。まず、画像融合装置は、第１融合対象画像から置換対象領域を決定する必要がある。顔画像を例にして、置換対象領域は、髪領域であってもよい。説明すべきものとして、置換対象領域は、第１融合対象画像における複数の第１領域のうちの１つの領域である。これに応じて、第２融合対象画像にも、対応する置換対象領域があり、顔画像を例にして、この置換対象領域は、同様に髪領域である。その後、画像融合装置は、置換対象領域に基づいて、第１融合対象画像における第１置換対象符号化特徴を取得するとともに、置換対象領域に基づいて、第２融合対象画像における第２置換対象符号化特徴を取得する。例えば、第１特徴集合における顔形状遺伝子の中から、髪領域に対応する符号化特徴を決定し、この髪領域に対応する符号化特徴を第１置換対象符号化特徴とし、第２特徴集合における顔形状遺伝子の中から、髪領域に対応する符号化特徴を決定し、この髪領域に対応する符号化特徴を第２置換対象符号化特徴としてもよい。

次に、本願の実施例では、画像融合前の処理方式を説明している。即ち、画像融合装置は、第３融合対象画像を取得する前に、まず、第１融合対象画像から、複数の第１領域のうちの１つの領域である置換対象領域を決定する必要があり、その後、置換対象領域に基づいて、第１融合対象画像における第１置換対象符号化特徴を取得するとともに、置換対象領域に基づいて、第２融合対象画像における第２置換対象符号化特徴を取得する。上記の方式によれば、必要に応じて置換対象領域を決定し、次に、２つの画像における同一領域の異なる符号化特徴を置換することにより、融合画像を素早く生成することができ、後続処理に便利である。

上記図３に対応する第２実施例を基に、本願の実施例で提供された画像融合方法の第３実施例では、形状融合ネットワークモデルによって、第１融合対象画像と第２融合対象画像とを融合処理することにより、第３融合対象画像を取得するステップは、
形状融合ネットワークモデルによって、第１融合対象画像における第１置換対象符号化特徴を、第２融合対象画像における第２置換対象符号化特徴に置換することにより、復号化対象画像を取得するステップと、
形状融合ネットワークモデルによって、復号化対象画像を復号化処理することにより、第３融合対象画像を取得するステップと、を含んでもよい。

本実施例では、画像融合装置が形状融合ネットワークモデルによって第３融合対象画像を取得する方式を説明する。まず、画像融合装置は、形状融合ネットワークモデルによって、第１融合対象画像における第１置換対象符号化特徴を、第２融合対象画像における第２置換対象符号化特徴に置換することにより、復号化対象画像を取得する必要がある。その後、全体デコーダ（ｏｖｅｒａｌｌｄｅｃｏｄｅｒ）を用いて復号化対象画像を復号化処理することにより、第３融合対象画像を取得する。

理解しやすいために、図５を参照されたい。図５は、本願の実施例において形状融合ネットワークモデルによって画像を融合する一実施例の模式図である。図５に示すように、第１融合対象画像が元画像Ａであり、第２融合対象画像が元画像Ｂであるとすれば、元画像Ａ及び元画像Ｂをそれぞれ解きほぐしエンコーダに入力し、解きほぐしエンコーダによって、元画像Ａに対応する第１特徴集合を出力する。第１特徴集合には、符号化特徴Ａが含まれ、符号化特徴Ａは、具体的に、Ａ１、Ａ２、Ａ３、Ａ４、Ａ５、Ａ６、及びＡ７と表される。同様に、解きほぐしエンコーダによって、元画像Ｂに対応する第２特徴集合を出力する。第２特徴集合には、符号化特徴Ｂが含まれ、符号化特徴Ｂは、具体的に、Ｂ１、Ｂ２、Ｂ３、Ｂ４、Ｂ５、Ｂ６、及びＢ７と表される。置換対象領域が髪領域であるとすれば、第１特徴集合にとって、第１置換対象符号化特徴は、髪領域に対応する特徴Ａ６であり、これに応じて、第２特徴集合にとって、第２置換対象符号化特徴は、髪領域に対応する特徴Ｂ６である。続いて、特徴Ｂ６で第１特徴集合におけるＡ６を置換して、新しい特徴集合を形成する必要がある。この特徴集合には、符号化特徴Ｃが含まれ、符号化特徴Ｃは、具体的に、Ａ１、Ａ２、Ａ３、Ａ４、Ａ５、Ｂ６、及びＡ７である。最後に、形状融合ネットワークモデルにおける全体デコーダによって、符号化特徴Ｃを復号化処理して、融合画像Ａを形成すると、第３融合対象画像が取得される。

上記の説明から分かるように、レセプター画像（ｒｅｃｅｐｔｏｒ）の髪型をドナー画像（ｄｏｎｏｒ）の髪型に置換するとすれば、形状融合ネットワークモデルは、レセプター画像の顔形状遺伝子に対応する髪型領域の特徴を、ドナー画像の顔形状遺伝子に対応する髪型領域に置換することにより、修正したハイブリッド顔形状遺伝子を取得し、最後に、全体デコーダによって、ハイブリッド顔形状遺伝子を編集済みの顔画像に復号化してもよい。

全体デコーダの具体的な構成は、
ｕ５−５１２、ｕ５−２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、ｕ５−１２８、ｕ５−６４、ｃ７ｓ１−３と表してもよい。

ここで、ｕ５−５１２は、５１２個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層（ｆｒａｃｔｉｏｎａｌ−ｓｔｒｉｄｅｄｃｏｎｖｏｌｕｔｉｏｎｉｎｓｔａｎｃｅｎｏｒｍ−ＲｅＬＵｌａｙｅｒ）を表す。ｕ５−２５６は、２５６個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。Ｒ２５６は、２個の３×３の畳み込み層が含まれ、畳み込み層ごとに２５６個の畳み込みカーネルの残差ブロック（ｒｅｓｉｄｕａｌｂｌｏｃｋ）が含まれる逆畳み込み正規化活性化層を表す。ｕ５−１２８は、１２８個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｕ５−６４は、６４個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｃ７ｓ１−３は、３個の７×７の畳み込みカーネルが含まれ、ストライドが１である畳み込み正規化活性化層（ｃｏｎｖｏｌｕｔｉｏｎ−ｉｎｓｔａｎｃｅｎｏｒｍＲｅＬＵｌａｙｅｒ）を表す。

説明すべきものとして、全体デコーダの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。

さらに、本願の実施例では、第３融合対象画像を生成する具体的な方式を説明している。まず、画像融合装置は、形状融合ネットワークモデルによって、第１融合対象画像における第１置換対象符号化特徴を、第２融合対象画像における第２置換対象符号化特徴に置換することにより、復号化対象画像を取得し、その後、さらに形状融合ネットワークモデルによって、復号化対象画像を復号化処理することにより、第３融合対象画像を取得する。上記の方式によれば、形状融合ネットワークモデルを用いて、２つの画像を素早く融合することができるとともに、画像融合効率を効果的に向上させることができる。また、元に入力された顔画像に対して、生成された仮想顔において、編集された部位以外、残りの部位は、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔のアイデンティティ情報が、元の入力顔のアイデンティティ情報とは変わらないと感じることになり、アイデンティティが一致するように保持する操作が実現される。

上記図３に対応する第２実施例又は第３実施例を基に、本願の実施例で提供された画像融合方法の第４実施例では、形状融合ネットワークモデルによって、第１融合対象画像と第２融合対象画像とを融合処理することにより、第３融合対象画像を取得した後に、前記画像融合方法は、
第３融合対象画像を介して領域調整指示を受け付けるステップであって、領域調整指示が、画像における少なくとも１つの領域の形状を調整するためのものである、ステップと、
領域調整指示に応答して、置換対象領域を調整することにより、置換対象領域に対応するターゲット置換領域を取得するステップと、
ターゲット置換領域に基づいて、第３融合対象画像を処理することにより、第４融合対象画像を取得するステップと、をさらに含んでもよく、
条件融合ネットワークモデルによって、第３融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップは、
条件融合ネットワークモデルによって、第４融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップを含んでもよい。

本実施例では、置換対象領域を調整して融合画像を生成する方法を説明する。まず、画像融合装置は、第３融合対象画像を生成した後、この第３融合対象画像を端末機器の表示インタフェースに表示させてもよい。ユーザは、タッチ操作を通じて領域調整指示をトリガーし、即ち、領域調整指示によって、第３融合対象画像における領域の形状及び大きさを調整することができる。画像融合装置は、ユーザによりトリガーされた領域調整指示に従って置換対象領域を調整することにより、調整済みのターゲット置換領域を取得し、その後、ターゲット置換領域に基づいて第３融合対象画像を処理することにより、第４融合対象画像を取得し、最後に、条件融合ネットワークモデルによって、第４融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。

理解しやすいために、図６を参照されたい。図６は、本願の実施例における形状の手描きの一実施例の模式図である。図６に示すように、端末機器の表示インタフェースに第３融合対象画像が表示されている場合、ユーザは、直接にある領域をインタフェースでドラッグすることにより、この領域の形状及び大きさを調整することができる。例えば、ユーザは、髪領域を押したまま外へドラッグして、調整済みのアバター領域を形成すると、ターゲット置換領域を取得することができる。このプロセスでは、ユーザは、必要に応じて領域の形状を任意に編集して、仮想顔画像を生成することができる。実際の適用では、ユーザは、複数の異なる領域を編集することで、仮想顔画像を向上させることも可能である。

さらに、本願の実施例では、第３融合対象画像をユーザが調整する方法が提供されている。即ち、画像融合装置は、第３融合対象画像を取得した後、第３融合対象画像を介して領域調整指示を受け付け、領域調整指示に応答して、置換対象領域を調整することにより、置換対象領域に対応するターゲット置換領域を取得し、その後、ターゲット置換領域に基づいて第３融合対象画像を処理することにより、第４融合対象画像を取得し、最後に、条件融合ネットワークモデルによって、第４融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。上記の方式によれば、ユーザは、必要に応じて置換対象領域の形状及び大きさを調整することもでき、編集領域をユーザが指定する方式が実現される。また、この領域の形状を手描いて新しい画像を生成することもでき、構成の柔軟性及び実用性が向上する。

上記図３及び図３に対応する第１〜第４実施例のいずれか１つを基に、本願の実施例で提供された画像融合方法の第５実施例では、条件融合ネットワークモデルによって、第３融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップは、
第３融合対象画像と第１融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得するステップであって、マルチチャンネル特徴画像が、少なくとも２つの画像の色特徴を結合するためのものである、ステップと、
条件融合ネットワークモデルによって、マルチチャンネル特徴画像に対応するターゲット融合画像を取得するステップと、を含んでもよい。

本実施例では、条件融合ネットワークモデルによってターゲット融合画像を取得する方法を説明している。まず、画像融合装置は、第３融合対象画像と第１融合対象画像を結合処理することにより、マルチチャンネル特徴画像を取得する。例えば、第１融合対象画像が、具体的に、赤色（Ｒ：ｒｅｄ）チャンネル、緑色（Ｇ：ｇｒｅｅｎ）チャンネル、及び青色（Ｂ：ｂｌｕｅ）チャンネルである３つのチャンネルを含み、第３融合対象画像も、具体的に、Ｒチャンネル、Ｇチャンネル、及びＢチャンネルである３つのチャンネルを含む場合、第１融合対象画像の３つのチャンネルと第３融合対象画像の３つのチャンネルとを結合することにより、６つのチャンネルを含むマルチチャンネル特徴画像を取得し、最後に、マルチチャンネル特徴画像を条件融合ネットワークモデルに入力し、この条件融合ネットワークモデルによって、相応するターゲット融合画像を出力する。

具体的には、条件融合ネットワークモデルは、編集済みの第３融合対象画像を、真に迫るターゲット融合画像に変換するとともに、生成されたターゲット融合画像のアイデンティティが、第１融合対象画像のアイデンティティとは変わらないことを確保することができる。条件融合ネットワークモデルは、編集済みの第３融合対象画像を入力として、第１融合対象画像を条件入力として、第１融合対象画像と第３融合対象画像とをマルチチャンネル特徴画像に結合する。その後、マルチチャンネル特徴画像を条件融合ネットワークモデルに入力する。実際の適用では、第１融合対象画像について、パーツデコーダ（ｐａｒｔ−ｗｉｓｅｄｅｃｏｄｅｒ）を用いて、置換対象領域が除去された画像を取得してもよい。第３融合対象画像が、ユーザにより手動で調整された画像である場合、この第３融合対象画像が第４融合対象画像であり、つまり、第４融合対象画像と第１融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得してもよい。

条件融合ネットワークモデルの具体的な構成は、
ｃ７ｓ１−６４、ｃ３ｓ２−１２８、ｃ３ｓ２−２５６、ｃ３ｓ２−５１２、ｃ３ｓ２−１０２４、Ｒ１０２４、Ｒ１０２４、Ｒ１０２４、Ｒ１０２４、Ｒ１０２４、Ｒ１０２４、Ｒ１０２４、Ｒ１０２４、Ｒ１０２４、ｕ３−５１２、ｕ３−２５６、ｕ３−１２８、ｕ３−６４、ｃ７ｓ１−３と表してもよい。

ここで、ｃ７ｓ１−６４は、６４個の７×７の畳み込みカーネルが含まれ、ストライドが１である畳み込み正規化活性化層を表す。ｃ３ｓ２−１２８は、１２８個の３×３の畳み込みカーネルが含まれ、ストライドが２である畳み込み正規化活性化層を表す。ｃ３ｓ２−２５６は、２５６個の３×３の畳み込みカーネルが含まれ、ストライドが２である畳み込み正規化活性化層を表す。ｃ３ｓ２−５１２は、５１２個の３×３の畳み込みカーネルが含まれ、ストライドが２である畳み込み正規化活性化層を表す。ｃ３ｓ２−１０２４は、１０２４個の３×３の畳み込みカーネルが含まれ、ストライドが２である畳み込み正規化活性化層を表す。Ｒ１０２４は、２個の３×３の畳み込み層が含まれ、畳み込み層ごとに１０２４個の畳み込みカーネルのｒｅｓｉｄｕａｌｂｌｏｃｋが含まれる逆畳み込み正規化活性化層表す。ｕ３−５１２は、５１２個の３×３の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｕ３−２５６は、２５６個の３×３の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｕ３−１２８は、１２８個の３×３の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｕ３−６４は、６４個の３×３の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｃ７ｓ１−３は、３個の７×７の畳み込みカーネルが含まれ、ストライドが１である畳み込み正規化活性化層を表す。

説明すべきものとして、条件融合ネットワークモデルの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。

さらに、本願の実施例では、ターゲット融合画像を取得する方式が提供されている。即ち、画像融合装置は、まず、第３融合対象画像と第１融合対象画像とを結合処理することにより、少なくとも２つの画像の色特徴を結合するためのマルチチャンネル特徴画像を取得し、その後、条件融合ネットワークモデルによって、マルチチャンネル特徴画像に対応するターゲット融合画像を取得する。上記の方式によれば、条件融合ネットワークモデルを用いて、２つの画像を正確に結合することができ、画像の融合が実現される。これにより、構成の実現可能性及び操作性を向上させる。

上記の説明と組み合わせて、以下、本願におけるモデル訓練方法を説明する。図７を参照されたいが、本願の実施例では、図１７に示すサーバ機器が実行するモデル訓練方法の一実施例は、以下のステップを含む。

２０１で、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、第１訓練対象画像には、複数の第１訓練領域が含まれ、第２訓練対象画像には、複数の第２訓練領域が含まれ、第１特徴集合には、複数の第１符号化特徴が含まれ、第１符号化特徴が第１領域に１対１で対応し、第２特徴集合には、複数の第２符号化特徴が含まれ、第２符号化特徴が第２領域に１対１で対応する。

本実施例では、モデル訓練装置は、第１訓練対象画像及び第２訓練対象画像を取得する。ここで、第１訓練対象画像及び第２訓練対象画像は、通常、同じタイプの画像であり、例えば、両方とも顔画像であるか、又は両方とも動物画像であるか、又は両方とも風景画像であるか、又は一方は顔画像であり、他方は動物画像である。本実施例では、両方とも顔画像である場合を例にして説明するが、これは、本願を限定するものとして理解すべきではない。

ここで、第１訓練対象画像及び第２訓練対象画像は、いずれも、複数の領域を含む。具体的には、第１訓練対象画像と第２訓練対象画像とは、類似している領域を有する。例えば、第１訓練対象画像は複数の第１領域を含み、第１領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。第２訓練対象画像は複数の第２領域を含み、第２領域には、目、鼻、口、眉、顔型、髪、及びボディなどが含まれる。

モデル訓練装置は、第１訓練対象画像及び第２訓練対象画像のそれぞれについて特徴を抽出する必要がある。即ち、第１訓練対象画像における各第１領域について、相応する特徴を抽出することにより、第１符号化特徴を取得し、例えば、第１訓練対象画像の目部分については、目部分の第１符号化特徴を抽出することができ、第１訓練対象画像の髪部分については、髪部分の第１符号化特徴を抽出することができ、このようにして、最終的に、複数の第１符号化特徴が含まれる第１特徴集合を取得する。第２訓練対象画像の目部分については、目部分の第２符号化特徴を抽出することができ、第２訓練対象画像の髪部分については、髪部分の第２符号化特徴を抽出することができ、このようにして、最終的に、複数の第２符号化特徴が含まれる第２特徴集合を取得する。

２０２で、訓練対象形状融合ネットワークモデルによって、第１訓練対象画像と第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、第３訓練対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる。

本実施例では、モデル訓練装置は、第１訓練対象画像及び第２訓練対象画像を訓練対象形状融合ネットワークモデルに入力し、この訓練対象形状融合ネットワークモデルによって、第３訓練対象画像を出力する。ここでの第３訓練対象画像には、第１訓練対象画像における第１符号化特徴と、第２訓練対象画像における第２符号化特徴との両方が含まれる。

２０３で、訓練対象条件融合ネットワークモデルによって、第３訓練対象画像と第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得する。

本実施例では、モデル訓練装置は、第３訓練対象画像及び第１訓練対象画像を訓練対象条件融合ネットワークモデルに入力し、この訓練対象条件融合ネットワークモデルによって、第４訓練対象画像を出力する。ここで、第４訓練対象画像は、元に入力された第１訓練対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。

２０４で、訓練対象形状融合ネットワークモデルによって、第４訓練対象画像と第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、第５訓練対象画像と第１訓練対象画像との間には、対応する特徴がある。

本実施例では、モデル訓練装置は、第４訓練対象画像及び第１訓練対象画像を訓練対象形状融合ネットワークモデルに入力し、この訓練対象形状融合ネットワークモデルによって、第５訓練対象画像を出力する。ここで、第５訓練対象画像は、元に入力された第１訓練対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。

２０５で、訓練対象条件融合ネットワークモデルによって、第５訓練対象画像と第４訓練対象画像とを融合処理することにより、ターゲット画像を取得する。

本実施例では、モデル訓練装置は、第５訓練対象画像及び第４訓練対象画像を訓練対象条件融合ネットワークモデルに入力し、この訓練対象条件融合ネットワークモデルによって、ターゲット画像を出力する。ここで、ターゲット画像は、元に入力された第１訓練対象画像とは同じアイデンティティであり、即ち、生成された仮想画像において、編集された部位以外、残りの部位が、元に入力された顔画像と一致する。これにより、ユーザは、生成された仮想顔画像のアイデンティティ情報が、元に入力された顔画像のアイデンティティ情報とは変わらないと感じることになる。

２０６で、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。

本実施例では、モデル訓練装置は、ターゲット損失関数、第１訓練対象画像、第２訓練対象画像、第３訓練対象画像、第４訓練対象画像、第５訓練対象画像、及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。

理解しやすいために、図８を参照されたい。図８は、本願の実施例において条件融合ネットワークモデルを訓練する一実施例の模式図である。図８に示すように、訓練対象形状融合ネットワークモデルは、レセプター画像である元画像Ａ（即ち、第１訓練対象画像）と、ドナー画像である元画像Ｂ（即ち、第２訓練対象画像）とを入力として、編集済みの融合画像Ａ（即ち、第３訓練対象画像）を生成する。訓練対象条件融合ネットワークモデルは、融合画像Ａを入力として、元画像Ａを条件入力として、編集済みの融合画像Ｂ（即ち、第４訓練対象画像）を取得することができる。続いて、融合画像Ｂをレセプター画像として（即ち、元画像Ａの代わりにして）、元画像Ａをドナー画像として（即ち、元画像Ｂの代わりにして）、再度の置換で元画像Ａの元の部位形状を戻す。訓練対象形状融合ネットワークモデルは、レセプター画像である融合画像Ｂと、ドナー画像である元画像Ａとを入力として、編集済みの融合画像Ｃ（即ち、第５訓練対象画像）を生成する。訓練対象条件融合ネットワークモデルは、融合画像Ｃを入力として、融合画像Ｂを条件入力として、編集済みの融合画像Ｄ（即ち、ターゲット画像）を取得することができる。繰り返し訓練の制約目標として、ターゲット画像が第１訓練対象画像に可能な限り類似し、第５訓練対象画像が実画像に可能な限り類似することを所望する。

本願の実施例では、モデル訓練方法が提供されている。即ち、まず、モデル訓練装置は、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、その後、訓練対象形状融合ネットワークモデルによって、第１訓練対象画像と第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、次に、訓練対象条件融合ネットワークモデルによって、第３訓練対象画像と第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得し、その後、訓練対象形状融合ネットワークモデルによって、第４訓練対象画像と第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、訓練対象条件融合ネットワークモデルによって、第５訓練対象画像と第４訓練対象画像とを融合処理することにより、ターゲット画像を取得し、最後に、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。上記の方式によれば、融合画像のアイデンティティ情報が元の入力画像のアイデンティティ情報と一致することを確保しながら、モデルを訓練することができる。これにより、モデル訓練の信頼性を向上させる。

上記図７に対応する実施例を基に、本願の実施例で提供されたモデル訓練方法の第１実施例では、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得する前に、前記モデル訓練方法は、
訓練対象ターゲット画像集合を取得するステップであって、訓練対象ターゲット画像集合には、少なくとも１つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも１つの領域が含まれる、ステップと、
訓練対象解きほぐしエンコーダによって、訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得するステップであって、訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、１つの領域を符号化するためのものである、ステップと、
訓練対象解きほぐしデコーダによって、符号化結果を復号化処理することにより、復号化結果を取得するステップであって、訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、１つの領域を復号化するためのものである、ステップと、
損失関数及び復号化結果を用いて、訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するステップであって、解きほぐしエンコーダが複数のパーツエンコーダを含む、ステップと、をさらに含んでもよく、
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得するステップは、
第１訓練対象画像及び第２訓練対象画像を取得するステップと、
解きほぐしエンコーダを用いて、第１訓練対象画像における複数の第１領域を符号化処理することにより、複数の第１符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものである、ステップと、
解きほぐしエンコーダを用いて、第２訓練対象画像における複数の第２領域を符号化処理することにより、複数の第２符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである、ステップと、を含んでもよい。

本実施例では、訓練により解きほぐしエンコーダを取得する方式を説明している。即ち、モデル訓練装置は、まず、訓練対象ターゲット画像集合を取得する必要がある。訓練対象ターゲット画像集合には、少なくとも１つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも１つの領域が含まれる。その後、訓練対象解きほぐしエンコーダによって、訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得することができる。説明すべきものとして、訓練対象解きほぐしエンコーダは、複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれは、１つの領域を符号化するためのものであり、例えば、パーツエンコーダ１で符号化する領域は鼻領域であり、パーツエンコーダ２で符号化する領域は髪領域である。これに応じて、モデル訓練装置は、訓練対象解きほぐしエンコーダに対して、対応する訓練対象解きほぐしデコーダを設定している。ここで、訓練対象解きほぐしデコーダは、複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれは、１つの領域を復号化するためのものであり、同様に、例えば、パーツデコーダ１で復号化する領域は鼻領域であり、パーツデコーダ２で復号化する領域は髪領域である。それぞれのパーツエンコーダとパーツデコーダとのペアによる復号化結果と組み合わせて、損失関数を用いて訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得する。具体的には、解きほぐしエンコーダの各パーツエンコーダを取得することができる。

理解しやすいために、図９を参照されたい。図９は、本願の実施例において解きほぐしエンコーダを訓練する一実施例の模式図である。図９に示すように、本願では、畳み込みニューラルネットワークに基づくエンコーダを用いて、入力画像の解きほぐし特徴抽出の作業を行う。本願の解きほぐしエンコーダは、複数のパーツエンコーダからなり、各パーツエンコーダそれぞれは、指定された１つの顔画像部位の形状を独立して符号化する。１つの顔画像が入力されると、パーツエンコーダは、１＊１＊１２８の１次元の特徴ベクトルを出力することができる。これにより、この顔画像の特定部位の形状が符号化される。本願で考慮を入れる部位は、目、鼻、口、眉、顔型、髪、及びボディを含むが、これらに限定されない。全ての部位の特徴ベクトルを結合すると、顔形状遺伝子と呼ばれる特徴集合が形成される。

パーツエンコーダの具体的な構成は、
ｃ７ｓ１−６４、ｃ５ｓ４−１２８、ｃ５ｓ４−２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、ｃ５ｓ４−５１２、ｃ５ｓ４−１２８と表してもよい。

ここで、ｃ７ｓ１−６４は、６４個の７×７の畳み込みカーネルが含まれ、ストライドが１である畳み込み正規化活性化層を表す。ｃ５ｓ４−１２８は、１２８個の５×５の畳み込みカーネルが含まれ、ストライドが４である畳み込み正規化活性化層を表す。ｃ５ｓ４−２５６は、２５６個の５×５の畳み込みカーネルが含まれ、ストライドが４である畳み込み正規化活性化層を表す。Ｒ２５６は、２個の３×３の畳み込み層が含まれ、畳み込み層ごとに２５６個の畳み込みカーネルのｒｅｓｉｄｕａｌｂｌｏｃｋを有する逆畳み込み正規化活性化層を表す。ｃ５ｓ４−５１２は、５１２個の５×５の畳み込みカーネルが含まれ、ストライドが４である畳み込み正規化活性化層を表す。ｃ５ｓ４−１２８は、１２８個の５×５の畳み込みカーネルが含まれ、ストライドが４である畳み込み正規化活性化層を表す。

説明すべきものとして、パーツエンコーダの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。

パーツデコーダの具体的な構成は、
ｕ５−５１２、ｕ５−２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、Ｒ２５６、ｕ５−１２８、ｕ５−６４、ｃ７ｓ１−３である。

ここで、ｕ５−５１２は、５１２個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｕ５−２５６は、２５６個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。Ｒ２５６は、２個の３×３の畳み込み層が含まれ、畳み込み層ごとに２５６個の畳み込みカーネルのｒｅｓｉｄｕａｌｂｌｏｃｋを有する逆畳み込み正規化活性化層を表す。ｕ５−１２８は、１２８個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｕ５−６４は、６４個の５×５の畳み込みカーネルが含まれ、ストライドが１／２である逆畳み込み正規化活性化層を表す。ｃ７ｓ１−３は、３個の７×７の畳み込みカーネルが含まれ、ストライドが１である畳み込み正規化活性化層を表す。

説明すべきものとして、パーツデコーダの具体的な構成を表す方式は他にもあるが、上記は一例にすぎず、本願を限定するものとして理解すべきではない。

次に、本願の実施例では、訓練により解きほぐしエンコーダを取得する具体的な方式を説明している。即ち、モデル訓練装置は、まず、訓練対象ターゲット画像集合を取得し、その後、訓練対象解きほぐしエンコーダによって、訓練対象ターゲット画像集合における訓練対象ターゲット画像の各個領域を符号化処理することにより、符号化結果を取得し、次に、訓練対象解きほぐしデコーダによって、符号化結果を復号化処理することにより、復号化結果を取得し、損失関数及び復号化結果を用いて、訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するようにしてもよい。上記の方式によれば、モデル訓練段階では、訓練対象解きほぐしエンコーダに対して、対応する訓練対象解きほぐしデコーダが配置され、訓練対象解きほぐしデコーダが、訓練対象解きほぐしエンコーダから出力された特徴ベクトルから、学習により相応する領域の形状画像を生成する。これにより、画像符号化の正確さ及び信頼性を向上させる。

上記図７に対応する実施例を基に、本願の実施例で提供されたモデル訓練方法の第２実施例では、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前に、前記モデル訓練方法は、
第５訓練対象画像及び実画像に基づいて、第１損失関数を決定するステップと、
ターゲット画像及び第１訓練対象画像に基づいて、第２損失関数を決定するステップと、
第１訓練対象画像、第２訓練対象画像、第４訓練対象画像、及びターゲット画像に基づいて、第３損失関数を決定するステップと、
第１損失関数、第２損失関数、及び第３損失関数に基づいて、ターゲット損失関数を決定するステップと、をさらに含んでもよい。

本実施例では、ターゲット損失関数をモデル訓練装置が決定する方式を説明している。繰り返し訓練の制約目標として、ターゲット画像が第１訓練対象画像に可能な限り類似し、第５訓練対象画像が実画像に可能な限り類似することを所望する。したがって、第１損失関数は、第５訓練対象画像及び実画像に基づいて生成される。ここで、実画像は、第１訓練対象画像に対応する特徴画像を示す。第２損失関数は、ターゲット画像及び第１訓練対象画像に基づいて生成される。ラベルマップ及び画像外観の２つの繰り返し制約を使用して、人物のアイデンティティ情報が失わないように確保することに加えて、敵対的制約を使用して、モデルにより生成される結果像が実際の顔画像であることを要求してもよい。即ち、第１訓練対象画像、第２訓練対象画像、第４訓練対象画像、及びターゲット画像に基づいて、第３損失関数を決定する。第１損失関数、第２損失関数、及び第３損失関数を加算することにより、ターゲット損失関数を取得する。

次に、本願の実施例では、ターゲット損失関数の取得方式が提供されている。即ち、モデル訓練装置は、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前に、まず、第５訓練対象画像及び実画像に基づいて、第１損失関数を決定し、その後、ターゲット画像及び第１訓練対象画像に基づいて、第２損失関数を決定し、次に、第１訓練対象画像、第２訓練対象画像、第４訓練対象画像、及びターゲット画像に基づいて、第３損失関数を決定し、最後に、第１損失関数、第２損失関数、及び第３損失関数に基づいて、ターゲット損失関数を決定する必要がある。上記の方式によれば、構成の実現のために確実な方式が提供され、複数の画像を組み合わせて最終的な損失関数を生成することにより、モデル訓練プロセスにおける各画像の重要性が考慮され、より正確なモデルが取得される。

理解できるように、上記重み値の設定は一例にすぎず、本願を限定するものとして理解すべきではない。

これにより、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練するための総合的なターゲット損失関数

が取得される。

さらに、本願の実施例では、損失関数を計算する具体的な方式を説明している。上記の方式によれば、構成の実現のために具体的な根拠が提供され、構成の実現可能性及び操作性を向上させる。

以下、本願の画像融合装置を詳しく説明する。図１０を参照されたいが、図１０は、本願の実施例における画像融合装置の一実施例の模式図である。画像融合装置３０は、取得モジュール３０１と、融合モジュール３０２と、を含み、
前記取得モジュール３０１は、第１融合対象画像及び第２融合対象画像を取得し、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれ、
前記取得モジュール３０１は、さらに、前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得し、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、
前記融合モジュール３０２は、形状融合ネットワークモデルによって、前記取得モジュール３０１で取得された、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得し、前記第３融合対象画像には、前記取得モジュール３０１で取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、
前記融合モジュール３０２は、さらに、条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。

本実施例では、取得モジュール３０１は、第１融合対象画像及び第２融合対象画像を取得し、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれ、前記取得モジュール３０１は、前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得し、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、融合モジュール３０２は、形状融合ネットワークモデルによって、前記取得モジュール３０１で取得された、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得し、前記第３融合対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、前記融合モジュール３０２は、条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。

本願の実施例では、画像融合装置が提供されている。この画像融合装置は、まず、第１融合対象画像及び第２融合対象画像を取得し、第１融合対象画像には、複数の第１領域が含まれ、第２融合対象画像には、複数の第２領域が含まれ、次に、第１融合対象画像に基づいて第１特徴集合を取得し、第２融合対象画像に基づいて第２特徴集合を取得し、第１特徴集合には、複数の第１符号化特徴が含まれ、第１符号化特徴が第１領域に１対１で対応し、第２特徴集合には、複数の第２符号化特徴が含まれ、第２符号化特徴が第２領域に１対１で対応し、さらに、形状融合ネットワークモデルによって、第１融合対象画像と第２融合対象画像とを融合処理することにより、第３融合対象画像を取得し、第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、最後に、条件融合ネットワークモデルによって、第３融合対象画像と第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得することができる。上記の方式によれば、画像における各局所領域の相応する特徴が抽出され、これにより、ある画像における局所領域を素早く変更し、即ち、この局所領域を、他の画像における相応する局所領域に置換して、融合画像を形成することができる。また、融合画像において、編集された局所領域以外、残りの領域は、元の入力画像と一致する。これにより、ユーザは、融合画像のアイデンティティ情報が、元の入力画像のアイデンティティ情報とは変わらないと感じることになる。

上記図１０に対応する実施例を基に、本願の実施例で提供された画像融合装置３０の他の実施例では、
前記取得モジュール３０１は、具体的に、解きほぐしエンコーダを用いて、前記第１融合対象画像における前記複数の第１領域を符号化処理することにより、前記複数の第１符号化特徴を取得し、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものであり、
解きほぐしエンコーダを用いて、前記第２融合対象画像における前記複数の第２領域を符号化処理することにより、前記複数の第２符号化特徴を取得し、前記解きほぐしエンコーダが前記複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである。

次に、本願の実施例では、画像符号化方式が提供されている。即ち、解きほぐしエンコーダを用いて、第１融合対象画像における複数の第１領域を符号化処理することにより、複数の第１符号化特徴を取得するとともに、解きほぐしエンコーダを用いて、第２融合対象画像における複数の第２領域を符号化処理し、複数の第２符号化特徴を取得し、解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである。上記の方式によれば、パーツエンコーダを用いて、画像における異なる領域を符号化処理することにより、画像符号化の一致性を効果的に確保することができ、後続の予測処理に有利である。

上記図１０に対応する実施例を基に、図１１を参照されたい。本願の実施例で提供された画像融合装置３０の他の実施例では、前記画像融合装置３０は、決定モジュール３０３をさらに含み、
前記決定モジュール３０３は、前記融合モジュール３０２が形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得する前に、前記第１融合対象画像から置換対象領域を決定し、前記置換対象領域が前記複数の第１領域のうちの１つの領域であり、
前記取得モジュール３０１は、さらに、前記決定モジュール３０３で決定された前記置換対象領域に基づいて、前記第１融合対象画像における第１置換対象符号化特徴を取得するとともに、前記決定モジュール３０３で決定された前記置換対象領域に基づいて、前記第２融合対象画像における第２置換対象符号化特徴を取得し、前記第１置換対象符号化特徴が、前記複数の第１符号化特徴のうちの１つの符号化特徴であり、前記第２置換対象符号化特徴が、前記複数の第２符号化特徴のうちの１つの符号化特徴である。

上記図１０又は図１１に対応する実施例を基に、本願の実施例で提供された画像融合装置３０の他の実施例では、
前記融合モジュール３０２は、具体的に、前記形状融合ネットワークモデルによって、前記第１融合対象画像における前記第１置換対象符号化特徴を、前記第２融合対象画像における前記第２置換対象符号化特徴に置換することにより、復号化対象画像を取得し、
前記形状融合ネットワークモデルによって、前記復号化対象画像を復号化処理することにより、前記第３融合対象画像を取得する。

上記図１０又は図１１に対応する実施例を基に、図１２を参照されたい。本願の実施例で提供された画像融合装置３０の他の実施例では、前記画像融合装置３０は、受付モジュール３０４と、調整モジュール３０５と、処理モジュール３０６と、をさらに含み、
前記受付モジュール３０４は、前記融合モジュール３０２が形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得した後に、前記第３融合対象画像を介して領域調整指示を受け付け、前記領域調整指示が、画像における少なくとも１つの領域の形状を調整するためのものであり、
前記調整モジュール３０５は、前記受付モジュール３０４で受信された前記領域調整指示に応答して、前記置換対象領域を調整することにより、前記置換対象領域に対応するターゲット置換領域を取得し、
前記処理モジュール３０６は、前記調整モジュール３０５で調整された前記ターゲット置換領域に基づいて、前記第３融合対象画像を処理することにより、第４融合対象画像を取得し、
前記融合モジュール３０２は、具体的に、条件融合ネットワークモデルによって、前記第４融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する。

上記図１０、図１１、又は図１２に対応する実施例を基に、本願の実施例で提供された画像融合装置３０の他の実施例では、
前記融合モジュール３０２は、具体的に、前記第３融合対象画像と前記第１融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得し、前記マルチチャンネル特徴画像が、少なくとも２つの画像の色特徴を結合するためのものであり、
前記条件融合ネットワークモデルによって、前記マルチチャンネル特徴画像に対応する前記ターゲット融合画像を取得する。

以下、本願のモデル訓練装置を詳しく説明する。図１３を参照されたいが、図１３は、本願の実施例における画像融合装置の一実施例の模式図である。モデル訓練装置４０は、取得モジュール４０１と、融合モジュール４０２と、訓練モジュール４０３と、を含み、
前記取得モジュール４０１は、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、
前記融合モジュール４０２は、訓練対象形状融合ネットワークモデルによって、前記取得モジュール４０１で取得された前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、前記第３訓練対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、
前記融合モジュール４０２は、さらに、訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得し、
前記融合モジュール４０２は、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴があり、
前記融合モジュール４０２は、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
前記訓練モジュール４０３は、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。

本実施例では、取得モジュール４０１は、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、融合モジュール４０２は、訓練対象形状融合ネットワークモデルによって、前記取得モジュール４０１で取得された前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、前記第３訓練対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、前記融合モジュール４０２は、訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得し、前記融合モジュール４０２は、前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴があり、前記融合モジュール４０２は、前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得し、訓練モジュール４０３は、ターゲット損失関数と、前記融合モジュール４０２による融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。

本願の実施例では、モデル訓練装置が提供されている。このモデル訓練装置は、まず、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、その後、訓練対象形状融合ネットワークモデルによって、第１訓練対象画像と第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、次に、訓練対象条件融合ネットワークモデルによって、第３訓練対象画像と第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得し、その後、訓練対象形状融合ネットワークモデルによって、第４訓練対象画像と第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、訓練対象条件融合ネットワークモデルによって、第５訓練対象画像と第４訓練対象画像とを融合処理することにより、ターゲット画像を取得し、最後に、ターゲット損失関数及びターゲット画像を用いて、訓練対象形状融合ネットワークモデル及び訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。上記の方式によれば、融合画像のアイデンティティ情報が元の入力画像のアイデンティティ情報と一致することを確保しながら、モデルを訓練することができる。これにより、モデル訓練の信頼性を向上させる。

上記図１３に対応する実施例を基に、図１４を参照されたい。本願の実施例で提供されたモデル訓練装置４０の他の実施例では、前記モデル訓練装置４０は、符号化モジュール４０４と、復号化モジュール４０５と、をさらに含み、
前記取得モジュール４０１は、さらに、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得する前に、訓練対象ターゲット画像集合を取得し、前記訓練対象ターゲット画像集合には、少なくとも１つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも１つの領域が含まれ、
前記符号化モジュール４０４は、訓練対象解きほぐしエンコーダによって、前記取得モジュール４０１で取得された前記訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得し、前記訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、１つの領域を符号化するためのものであり、
前記復号化モジュール４０５は、訓練対象解きほぐしデコーダによって、前記符号化モジュール４０４で符号化された前記符号化結果を復号化処理することにより、復号化結果を取得し、前記訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、１つの領域を復号化するためのものであり、
前記訓練モジュール４０３は、さらに、損失関数と、前記復号化モジュール４０５で復号化された復号化結果とを用いて、前記訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得し、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、
前記取得モジュール４０１は、具体的に、第１訓練対象画像及び第２訓練対象画像を取得し、
前記解きほぐしエンコーダを用いて、前記第１訓練対象画像における前記複数の第１領域を符号化処理することにより、前記複数の第１符号化特徴を取得し、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものであり、
前記解きほぐしエンコーダを用いて、前記第２訓練対象画像における前記複数の第２領域を符号化処理することにより、前記複数の第２符号化特徴を取得し、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである。

上記図１３又は図１４に対応する実施例を基に、図１５を参照されたい。本願の実施例で提供されたモデル訓練装置４０の他の実施例では、前記モデル訓練装置４０は、決定モジュール４０６をさらに含み、
前記決定モジュール４０６は、前記訓練モジュール４０３がターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前に、前記第５訓練対象画像及び実画像に基づいて、第１損失関数を決定し、
前記決定モジュール４０６は、さらに、前記ターゲット画像及び前記第１訓練対象画像に基づいて、第２損失関数を決定し、
前記決定モジュール４０６は、さらに、前記第１訓練対象画像、前記第２訓練対象画像、前記第４訓練対象画像、及び前記ターゲット画像に基づいて、第３損失関数を決定し、
前記決定モジュール４０６は、さらに、前記第１損失関数、前記第２損失関数、及び前記第３損失関数に基づいて、前記ターゲット損失関数を決定する。

さらに、本願の実施例では、損失関数を計算する具体的な方式を説明している。即ち、モデル訓練装置は、第５訓練対象画像及び実画像に基づいて、第１損失関数を算出し、その後、ターゲット画像及び第１訓練対象画像に基づいて、第２損失関数を算出し、最後に、第１損失関数、第２損失関数、及び第３損失関数に基づいて、ターゲット損失関数を算出することができる。上記の方式によれば、構成の実現のために具体的な根拠が提供され、構成の実現可能性及び操作性を向上させる。

本願の実施例では、図１６に示すように、他の画像融合装置がさらに提供されている。説明の便宜上、本願の実施例に関連する部分のみが示されており、掲示されていない具体的な技術的詳細は、本願の実施例の方法部分を参照されたい。この端末機器は、携帯電話、タブレットコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、販売端末機器（ＰＯＳ：ＰｏｉｎｔｏｆＳａｌｅｓ）、車載コンピュータなどを含む任意の端末機器であってもよい。端末機器が携帯電話である場合を例にする。

図１６は、本願の実施例で提供された端末機器に関連する携帯電話の構成の一部のブロック図を示している。図１６を参照すると、携帯電話は、メモリ５２０とプロセッサ５８０とを含む。この携帯電話は、無線周波数（ＲＦ：ＲａｄｉｏＦｒｅｑｕｅｎｃｙ）回路５１０、入力ユニット５３０、表示ユニット５４０、センサ５５０、オーディオ回路５６０、ワイヤレスフィデリティ（ＷｉＦｉ：ｗｉｒｅｌｅｓｓｆｉｄｅｌｉｔｙ）モジュール５７０、及び電源５９０などの部品をさらに含んでもよい。当業者であれば理解できるように、図１６に示す携帯電話の構成は、携帯電話を限定するものではなく、図示より多く又は少ない部品を含んでもよく、あるいはいくらかの部品を組み合わせたものであってもよく、あるいは部品の異なる配置を採用してもよい。

以下、図１６を参照しながら、携帯電話の各構成部品を具体的に説明する。

ＲＦ回路５１０は、情報の送受信中又は通話中に信号を送受信するために使用することができ、特に、基地局のダウンリンク情報を受信して、プロセッサ５８０に渡して処理するとともに、アップリンクに関するデータを基地局に送信する。通常、ＲＦ回路５１０は、アンテナ、少なくとも１つの増幅器、トランシーバ、カプラ、低雑音増幅器（ＬＮＡ：ＬｏｗＮｏｉｓｅＡｍｐｌｉｆｉｅｒ）、デュプレクサなどを含むが、これらに限定されない。また、ＲＦ回路５１０は、無線通信を介してネットワークや他の機器と通信することもできる。上記の無線通信には、グローバルモバイル通信システム（ＧＳＭ：ＧｌｏｂａｌＳｙｓｔｅｍｏｆＭｏｂｉｌｅｃｏｍｍｕｎｉｃａｔｉｏｎ）、汎用パケット無線サービス（ＧＰＲＳ：ＧｅｎｅｒａｌＰａｃｋｅｔＲａｄｉｏＳｅｒｖｉｃｅ）、コード分割多元接続（ＣＤＭＡ：ＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、広帯域コード分割多元接続（ＷＣＤＭＡ：ＷｉｄｅｂａｎｄＣｏｄｅＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅＡｃｃｅｓｓ）、長期的進化（ＬＴＥ：ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）、電子メール、ショートメッセージングサービス（ＳＭＳ：ＳｈｏｒｔＭｅｓｓａｇｉｎｇＳｅｒｖｉｃｅ）などを含むが、これらに限定されない任意の通信規格又はプロトコルを使用してもよい。

メモリ５２０は、複数の命令を記憶するために使用することができ、換言すれば、ソフトウェアプログラム及びモジュールを記憶するために使用することができる。プロセッサ５８０は、メモリ５２０に記憶された複数の命令を実行することにより、携帯電話の様々な機能アプリケーション及びデータ処理を実行する。メモリ５２０は、主にプログラム記憶領域及びデータ記憶領域を含んでもよい。ここで、プログラム記憶領域には、オペレーティングシステム、少なくとも１つの機能（例えば、音響再生機能、画像再生機能など）に必要なアプリケーションプログラムなどを記憶してもよい。データ記憶領域には、携帯電話の使用に応じて作成されたデータ（例えば、オーディオデータ、電話帳など）などを記憶してもよい。また、メモリ５２０は、高速ランダムアクセスメモリを含んでもよいし、不揮発性メモリ、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の不揮発性ソリッドステート記憶デバイスを含んでもよい。

入力ユニット５３０は、入力された数字又は文字情報を受信することと、携帯電話のユーザ設定及び機能制御に関するキー信号入力を生成することとに使用することができる。具体的には、入力ユニット５３０は、タッチパネル５３１及び他の入力デバイス５３２を含んでもよい。タッチパネル５３１は、タッチスクリーンとも呼ばれ、その上又はその近くでのユーザのタッチ操作を収集し（例えば、ユーザが指、スタイラスなどの任意の適切なもの又はアクセサリを使用して、タッチパネル５３１の上又はタッチパネル５３１の近くで行う操作）、プリセットプログラムに従って、相応の接続装置を駆動することができる。タッチパネル５３１は、タッチ検出装置及びタッチコントローラの２つの部分を含んでもよい。ここで、タッチ検出装置は、ユーザのタッチ方位を検出し、タッチ操作による信号を検出し、信号をタッチコントローラに伝送する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、それをタッチポイント座標に変換してプロセッサ５８０に送信するとともに、プロセッサ５８０から送信されたコマンドを受信して実行することができる。また、抵抗膜、静電容量、赤外線や表面弾性波などの複数の形態によって、タッチパネル５３１を実現してもよい。入力ユニット５３０は、タッチパネル５３１に加えて、他の入力デバイス５３２も含んでもよい。具体的には、他の入力デバイス５３２は、物理キーボード、ファンクションキー（例えば、ボリュームコントロールキー、スイッチキーなど）、トラックボール、マウス、ジョイスティックなどのうち１つ又は複数を含んでもよいが、これらに限定されない。

表示ユニット５４０は、ユーザが入力した情報又はユーザに提供する情報、及び携帯電話の様々なメニューを表示するために使用することができる。表示ユニット５４０は、表示パネル５４１を備えてもよい。表示パネル５４１は、液晶ディスプレイ（ＬＣＤ：ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）や有機発光ダイオード（ＯＬＥＤ：ＯｒｇａｎｉｃＬｉｇｈｔ−ＥｍｉｔｔｉｎｇＤｉｏｄｅ）などの形態で配置してもよい。さらに、タッチパネル５３１は、表示パネル５４１を覆ってもよい。タッチパネル５３１は、その上又はその近くでのタッチ操作を検出すると、タッチイベントのタイプを決定するために、該タッチ操作をプロセッサ５８０に伝送する。次に、プロセッサ５８０は、タッチイベントのタイプに応じて、相応の視覚的出力を表示パネル５４１に提供する。図１６において、タッチパネル５３１及び表示パネル５４１は、２つの別個の部品として、携帯電話の入力機能及び出力機能を実現するが、いくつかの実施例では、タッチパネル５３１及び表示パネル５４１を統合して、携帯電話の入力機能及び出力機能を実現してもよい。

携帯電話は、例えば、光センサ、モーションセンサ、及び他のセンサなどの少なくとも１種のセンサ５５０をさらに含んでもよい。具体的には、光センサは、環境光センサ及び近接センサを含んでもよい。ここで、環境光センサは、環境光の明るさに応じて表示パネル５４１の輝度を調整することができ、近接センサは、携帯電話が耳に近づくと、表示パネル５４１及び／又はバックライトをオフにすることができる。モーションセンサの１種として、加速度センサは、各方向（通常、３軸）における加速度の大きさを検出でき、静止時に重力の大きさ及び方向を検出でき、携帯電話の姿勢を認識するアプリケーション（例えば、画面の縦横切り替え、関連ゲーム、磁力計の姿勢キャリブレーション）、振動認識関連の機能（例えば、歩数計、タップ）などに利用可能である。携帯電話に配置可能な他のセンサ、例えば、ジャイロスコープ、気圧計、湿度計、温度計、赤外線センサなどについては、ここでは、これ以上の説明を省略する。

オーディオ回路５６０、スピーカー５６１、マイクロフォン５６２は、ユーザと携帯電話との間のオーディオインタフェースを提供することができる。オーディオ回路５６０は、受信されたオーディオデータから変換された電気信号をスピーカー５６１に伝送することができる。スピーカー５６１は、電気信号を音響信号に変換して出力する。一方、マイクロフォン５６２は、収集された音響信号を電気信号に変換する。オーディオ回路５６０は、電気信号を受信してオーディオデータに変換し、オーディオデータをプロセッサ５８０に出力して、プロセッサ５８０によってオーディオデータを処理した後、ＲＦ回路５１０を介してオーディオデータを例えば他の携帯電話に送信するか、又は、さらなる処理のために、オーディオデータをメモリ５２０に出力する。

ＷｉＦｉは、近距離無線伝送技術に属する。携帯電話は、ＷｉＦｉモジュール５７０によって、ユーザによる電子メールの送受信、Ｗｅｂページの閲覧、及びストリーミングメディアのアクセスなどを助けることができる。ＷｉＦｉは、無線ブロードバンドインターネットアクセスをユーザに提供する。図１６にＷｉＦｉモジュール５７０を示しているが、理解できるように、ＷｉＦｉモジュール５７０は、携帯電話の必須構成に属せず、必要に応じて、本願の本質を変更しない範囲内で完全に省略可能である。

プロセッサ５８０は、携帯電話の制御センターであり、携帯電話全体の各部分を様々なインタフェース及び回線で接続し、メモリ５２０に記憶されたソフトウェアプログラム及び／又はモジュールを実行又は遂行して、メモリ５２０に記憶されたデータを呼び出すことにより、携帯電話の様々な機能を実行してデータを処理し、携帯電話を全体的に監視制御する。プロセッサ５８０は、１つ又は複数の処理ユニットを含んでもよい。プロセッサ５８０には、アプリケーションプロセッサ及びモデムプロセッサが統合されてもよい。ここで、アプリケーションプロセッサは、主にオペレーティングシステム、ユーザインタフェース、及びアプリケーションプログラムなどを処理し、モデムプロセッサは、主に無線通信を処理する。理解できるように、上記モデムプロセッサは、プロセッサ５８０に統合されなくてもよい。

携帯電話は、各部品に電力を供給する電源５９０（例えば、電池）をさらに含む。電源は、電源管理システムを介して、プロセッサ５８０に論理的に接続されてもよい。これにより、電源管理システムによって、充電、放電、及び電力消耗の管理などの機能を実現する。

図示されていないが、携帯電話は、カメラ、ブルートゥースモジュールなども含んでもよいが、ここでは、これ以上の説明を省略する。

本願の実施例では、メモリ５２０に記憶された複数の命令を実行することにより、この端末機器に含まれるプロセッサ５８０は、
第１融合対象画像及び第２融合対象画像を取得するステップであって、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれる、ステップと、
前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得するステップであって、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得するステップであって、前記第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する。

メモリ５２０に記憶された複数の命令を実行することにより、プロセッサ５８０は、さらに、
解きほぐしエンコーダを用いて、前記第１融合対象画像における前記複数の第１領域を符号化処理することにより、前記複数の第１符号化特徴を取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものである、ステップと、
解きほぐしエンコーダを用いて、前記第２融合対象画像における前記複数の第２領域を符号化処理することにより、前記複数の第２符号化特徴を取得するステップであって、前記解きほぐしエンコーダが前記複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである、ステップと、を実行する。

メモリ５２０に記憶された複数の命令を実行することにより、プロセッサ５８０は、さらに、
前記第１融合対象画像から置換対象領域を決定するステップであって、前記置換対象領域が前記複数の第１領域のうちの１つの領域である、ステップと、
前記置換対象領域に基づいて、前記第１融合対象画像における第１置換対象符号化特徴を取得するとともに、前記置換対象領域に基づいて、前記第２融合対象画像における第２置換対象符号化特徴を取得するステップであって、前記第１置換対象符号化特徴が、前記複数の第１符号化特徴のうちの１つの符号化特徴であり、前記第２置換対象符号化特徴が、前記複数の第２符号化特徴のうちの１つの符号化特徴である、ステップと、を実行する。

メモリ５２０に記憶された複数の命令を実行することにより、プロセッサ５８０は、具体的に、
前記形状融合ネットワークモデルによって、前記第１融合対象画像における前記第１置換対象符号化特徴を、前記第２融合対象画像における前記第２置換対象符号化特徴に置換することにより、復号化対象画像を取得するステップと、
前記形状融合ネットワークモデルによって、前記復号化対象画像を復号化処理することにより、前記第３融合対象画像を取得するステップと、を実行する。

メモリ５２０に記憶された複数の命令を実行することにより、プロセッサ５８０は、さらに、
前記第３融合対象画像を介して領域調整指示を受け付けるステップであって、前記領域調整指示が、画像における少なくとも１つの領域の形状を調整するためのものである、ステップと、
前記領域調整指示に応答して、前記置換対象領域を調整することにより、前記置換対象領域に対応するターゲット置換領域を取得するステップと、
前記ターゲット置換領域に基づいて、前記第３融合対象画像を処理することにより、第４融合対象画像を取得するステップと、
条件融合ネットワークモデルによって、前記第４融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する。

メモリ５２０に記憶された複数の命令を実行することにより、プロセッサ５８０は、さらに、
前記第３融合対象画像と前記第１融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得するステップであって、前記マルチチャンネル特徴画像が、少なくとも２つの画像の色特徴を結合するためのものである、ステップと、
前記条件融合ネットワークモデルによって、前記マルチチャンネル特徴画像に対応する前記ターゲット融合画像を取得するステップと、を実行する。

図１７は、本願の実施例で提供されたサーバ機器の構成の模式図である。このサーバ機器６００は、スペック又は性能が異なることによって、大きな差異があり得るが、１つ又は複数の中央処理装置（ＣＰＵ：ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ）６２２（例えば、１つ又は複数のプロセッサ）と、メモリ６３２と、を含んでもよい。このサーバ機器６００は、アプリケーションプログラム６４２又はデータ６４４を記憶する１つ又は複数の記憶媒体６３０（例えば、１つ又は複数の大容量記憶デバイス）をさらに含んでもよい。ここで、メモリ６３２及び記憶媒体６３０は、一時的な記憶装置又は永続的な記憶装置であってもよい。メモリ６３２及び記憶媒体６３０は、いずれも、複数の命令、又はプログラムを記憶することができる。メモリ６３２又は記憶媒体６３０に記憶されたプログラム（又は複数の命令）は、１つ又は複数のモジュール（図中に示されていない）を含んでもよく、各モジュールは、サーバ機器における一連の命令に対する動作を含んでもよい。さらに、中央処理装置６２２は、メモリ６３２又は記憶媒体６３０と通信し、サーバ機器６００でメモリ６３２又は記憶媒体６３０における一連の命令の動作を実行するように構成されてもよい。

サーバ機器６００は、１つ又は複数の電源６２６、１つ又は複数の有線又は無線ネットワークインタフェース６５０、１つ又は複数の入出力インタフェース６５８、及び／又は、例えば、ＷｉｎｄｏｗｓＳｅｒｖｅｒ^ＴＭ、ＭａｃＯＳＸ^ＴＭ、Ｕｎｉｘ^ＴＭ、Ｌｉｎｕｘ^ＴＭ、ＦｒｅｅＢＳＤ^ＴＭなどの１つ又は複数のオペレーティングシステム６４１を含んでもよい。

上記実施例では、サーバ機器が実行するステップは、この図１７に示すサーバ機器の構成に基づくものであってもよい。

本願の実施例では、メモリ６３２又は記憶媒体６３０に記憶された複数の命令を実行することにより、このサーバ機器に含まれるＣＰＵ６２２は、
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得するステップであって、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得するステップであって、前記第３訓練対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得するステップであって、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を実行する。

メモリ６３２又は記憶媒体６３０に記憶された複数の命令を実行することにより、ＣＰＵ６２２は、さらに、
訓練対象ターゲット画像集合を取得するステップであって、前記訓練対象ターゲット画像集合には、少なくとも１つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも１つの領域が含まれる、ステップと、
訓練対象解きほぐしエンコーダによって、前記訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得するステップであって、前記訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、１つの領域を符号化するためのものである、ステップと、
訓練対象解きほぐしデコーダによって、前記符号化結果を復号化処理することにより、復号化結果を取得するステップであって、前記訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、１つの領域を復号化するためのものである、ステップと、
損失関数及び復号化結果を用いて、前記訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含む、ステップと、
第１訓練対象画像及び第２訓練対象画像を取得するステップと、
前記解きほぐしエンコーダを用いて、前記第１訓練対象画像における前記複数の第１領域を符号化処理することにより、前記複数の第１符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものである、ステップと、
前記解きほぐしエンコーダを用いて、前記第２訓練対象画像における前記複数の第２領域を符号化処理することにより、前記複数の第２符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである、ステップと、を実行する。

メモリ６３２又は記憶媒体６３０に記憶された複数の命令を実行することにより、ＣＰＵ６２２は、さらに、
前記第５訓練対象画像及び実画像に基づいて、第１損失関数を決定するステップと、
前記ターゲット画像及び前記第１訓練対象画像に基づいて、第２損失関数を決定するステップと、
前記第１訓練対象画像、前記第２訓練対象画像、前記第４訓練対象画像、及び前記ターゲット画像に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数、及び前記第３損失関数に基づいて、前記ターゲット損失関数を決定するステップと、を実行する。

当業者であれば明らかなように、説明を容易かつ簡潔にするために、上記に説明されたシステム、装置、及びユニットの具体的な動作プロセスは、前述した方法の実施例における対応するプロセスを参照すればよいが、ここでは、これ以上の説明を省略する。

理解すべきものとして、本願で提供されたいくつかの実施例に掲示されたシステム、装置、及び方法は、他の方式によって実現されてもよい。例えば、上記に説明された装置の実施例は、模式的なものにすぎない。例えば、前記ユニットの分割は、論理的な機能の分割にすぎず、実際に実現する際に別の分割方式であってもよい。例えば、複数のユニット又はコンポーネントを組み合わせたり、他のシステムに組み入れたりしてもよいし、一部の特徴を無視したり、実行しなかったりしてもよい。また、示され又は説明された互いの結合、又は直接結合、又は通信接続は、若干のインタフェースを介するものであってもよく、装置又はユニットの間接結合又は通信接続は、電気的、機械的、又は他の形式であってもよい。

上記に分離した部品として説明されたユニットは、物理的に分離したものであってもなくてもよい。ユニットとして示された部品は、物理的なユニットであってもなくてもよく、即ち、１つの場所に位置してもよいし、ネットワーク上の複数のユニットに分散されてもよい。実際の必要に応じて、その中の一部又は全部のユニットを選択して、本実施例の構成の目的を達成してもよい。

また、本願の各実施例における各機能ユニットは、１つの処理ユニットに統合されてもよく、各ユニットが物理的に単独で存在してもよく、２つ以上のユニットが１つのユニットに統合されてもよい。上記統合されたユニットは、ハードウェアの形で実現されてもよいし、ソフトウェア機能ユニットの形で実現されてもよい。

前記統合されたユニットは、ソフトウェア機能ユニットの形で実現されて、スタンドアロン製品として販売又は使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づき、本願の構成の本質的な部分、若しくは従来技術に寄与する部分、若しくは該構成の全部又は一部は、ソフトウェア製品の形で具現化されることができ、該コンピュータソフトウェア製品が、記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ機器、又はネットワーク機器などであってもよい）に、本願の各実施例における方法（例えば、上述した画像融合方法及びモデル訓練方法）の全部又は一部のステップを実行させるための若干の命令を含む。前述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み出し専用メモリ（ＲＯＭ：Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク、又は光ディスクなどの、プログラムコードを記憶できる様々な媒体を含む。

上記のように、上記の実施例は、本願の構成を説明するためのものにすぎず、それを限定するものではない。前述した実施例を参照して本願を詳細に説明したが、当業者であれば理解できるように、前述した各実施例に記載された構成を修正し、又はその中の一部の技術的特徴の均等置換えを行うことができ、これらの修正又は置換えにより、該当する構成の本質が本願の各実施例の構成の精神及び範囲から逸脱することはない。

３０１取得モジュール
３０２融合モジュール
３０３決定モジュール
３０４受付モジュール
３０５調整モジュール
３０６処理モジュール
４０１取得モジュール
４０２融合モジュール
４０３訓練モジュール
４０４符号化モジュール
４０５復号化モジュール
４０６決定モジュール
５１０ＲＦ回路
５２０メモリ
５３０入力ユニット
５３１タッチパネル
５３２入力デバイス
５４０表示ユニット
５４１表示パネル
５５０センサ
５６０オーディオ回路
５６１スピーカー
５６２マイクロフォン
５７０ＷｉＦｉモジュール
５８０プロセッサ
５９０電源
６００サーバ機器
６２２中央処理装置
６２６電源
６３０記憶媒体
６３２メモリ
６４１オペレーティングシステム
６４２アプリケーションプログラム
６４４データ
６５０無線ネットワークインタフェース
６５８入出力インタフェース

しかしながら、敵対的生成ネットワークを用いて生成された顔画像は、その顔画像のアイデンティティが、元の入力画像のアイデンティティと一致することを確保することができず、顔認識の精度を低下させる。また、符号化の過程で教師なし学習の手法を採用しているため、各ブロックの独立性しか確保されないが、各ブロックが表す意味を決定することができず、画像融合の柔軟性に不利である。

本願の実施例における画像融合システムのアーキテクチャの模式図である。本願の実施例における画像融合システムの全体のフレームワークのフローの模式図である。本願の実施例における画像融合方法の一実施例の模式図である。本願の実施例において、解きほぐしエンコーダによって画像を符号化する一実施例の模式図である。本願の実施例において、形状融合ネットワークモデルによって画像を融合する一実施例の模式図である。本願の実施例における形状の手描きの一実施例の模式図である。本願の実施例におけるモデル訓練方法の一実施例の模式図である。本願の実施例において条件融合ネットワークモデルを訓練する一実施例の模式図である。本願の実施例において解きほぐしエンコーダを訓練する一実施例の模式図である。本願の実施例における画像融合装置の一実施例の模式図である。本願の実施例における画像融合装置の他の実施例の模式図である。本願の実施例における画像融合装置の他の実施例の模式図である。本願の実施例におけるモデル訓練装置の一実施例の模式図である。本願の実施例におけるモデル訓練装置の他の実施例の模式図である。本願の実施例におけるモデル訓練装置の他の実施例の模式図である。本願の実施例における端末機器の一実施例の模式図である。本願の実施例におけるサーバ機器の一実施例の模式図である。

上記の説明から分かるように、レセプター画像（ｒｅｃｅｐｔｏｒ）の髪型をドナー画像（ｄｏｎｏｒ）の髪型に置換するとすれば、形状融合ネットワークモデルは、レセプター画像の顔形状遺伝子に対応する髪型領域の特徴を、ドナー画像の顔形状遺伝子に対応する髪型領域の特徴に置換することにより、修正したハイブリッド顔形状遺伝子を取得し、最後に、全体デコーダによって、ハイブリッド顔形状遺伝子を編集済みの顔画像に復号化してもよい。

以下、本願のモデル訓練装置を詳しく説明する。図１３を参照されたいが、図１３は、本願の実施例におけるモデル訓練装置の一実施例の模式図である。モデル訓練装置４０は、取得モジュール４０１と、融合モジュール４０２と、訓練モジュール４０３と、を含み、
前記取得モジュール４０１は、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、
前記融合モジュール４０２は、訓練対象形状融合ネットワークモデルによって、前記取得モジュール４０１で取得された前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、前記第３訓練対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、
前記融合モジュール４０２は、さらに、訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得し、
前記融合モジュール４０２は、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴があり、
前記融合モジュール４０２は、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
前記訓練モジュール４０３は、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する。

さらに、本願の実施例では、損失関数を計算する具体的な方式を説明している。即ち、モデル訓練装置は、第５訓練対象画像及び実画像に基づいて、第１損失関数を算出し、その後、ターゲット画像及び第１訓練対象画像に基づいて、第２損失関数を算出し、次に、第１訓練対象画像、第２訓練対象画像、第４訓練対象画像、及びターゲット画像に基づいて、第３損失関数を決定し、最後に、第１損失関数、第２損失関数、及び第３損失関数に基づいて、ターゲット損失関数を算出することができる。上記の方式によれば、構成の実現のために具体的な根拠が提供され、構成の実現可能性及び操作性を向上させる。

Claims

端末機器が実行する画像融合方法であって、
第１融合対象画像及び第２融合対象画像を取得するステップであって、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれる、ステップと、
前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得するステップであって、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得するステップであって、前記第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、
を含む画像融合方法。
前記第１融合対象画像に基づいて第１特徴集合を取得することは、
解きほぐしエンコーダを用いて、前記第１融合対象画像における前記複数の第１領域を符号化処理することにより、前記複数の第１符号化特徴を取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものである、ステップを含む、
請求項１に記載の方法。
前記第２融合対象画像に基づいて第２特徴集合を取得することは、
解きほぐしエンコーダを用いて、前記第２融合対象画像における前記複数の第２領域を符号化処理することにより、前記複数の第２符号化特徴を取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含み、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである、ステップを含む、
請求項１に記載の方法。
前記形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得する前記ステップの前に、
前記第１融合対象画像から置換対象領域を決定するステップであって、前記置換対象領域が前記複数の第１領域のうちの１つの領域である、ステップと、
前記置換対象領域に基づいて、前記第１融合対象画像における第１置換対象符号化特徴を取得するとともに、前記置換対象領域に基づいて、前記第２融合対象画像における第２置換対象符号化特徴を取得するステップであって、前記第１置換対象符号化特徴が、前記複数の第１符号化特徴のうちの１つの符号化特徴であり、前記第２置換対象符号化特徴が、前記複数の第２符号化特徴のうちの１つの符号化特徴である、ステップと、
をさらに含む請求項１に記載の方法。
形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得する前記ステップは、
前記形状融合ネットワークモデルによって、前記第１融合対象画像における前記第１置換対象符号化特徴を、前記第２融合対象画像における前記第２置換対象符号化特徴に置換することにより、復号化対象画像を取得するステップと、
前記形状融合ネットワークモデルによって、前記復号化対象画像を復号化処理することにより、前記第３融合対象画像を取得するステップと、
を含む請求項４に記載の方法。
前記形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得する前記ステップの後に、
前記第３融合対象画像を介して領域調整指示を受け付けるステップであって、前記領域調整指示が、画像における少なくとも１つの領域の形状を調整するためのものである、ステップと、
前記領域調整指示に応答して、前記置換対象領域を調整することにより、前記置換対象領域に対応するターゲット置換領域を取得するステップと、
前記ターゲット置換領域に基づいて、前記第３融合対象画像を処理することにより、第４融合対象画像を取得するステップと、
をさらに含む請求項４又は５に記載の方法。
条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する前記ステップは、
前記条件融合ネットワークモデルによって、前記第４融合対象画像と前記第１融合対象画像とを融合処理することにより、前記ターゲット融合画像を取得するステップを含む、
請求項６に記載の方法。
条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する前記ステップは、
前記第３融合対象画像と前記第１融合対象画像とを結合処理することにより、マルチチャンネル特徴画像を取得するステップであって、前記マルチチャンネル特徴画像が、少なくとも２つの画像の色特徴を結合するためのものである、ステップと、
前記条件融合ネットワークモデルによって、前記マルチチャンネル特徴画像に対応する前記ターゲット融合画像を取得するステップと、
を含む請求項１〜５のいずれか１項に記載の方法。
サーバ機器が実行するモデル訓練方法であって、
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得するステップであって、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得するステップであって、前記第３訓練対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得するステップであって、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、
を含むモデル訓練方法。
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得する前記ステップの前に、
訓練対象ターゲット画像集合を取得するステップであって、前記訓練対象ターゲット画像集合には、少なくとも１つの訓練対象ターゲット画像が含まれ、各訓練対象ターゲット画像それぞれには、少なくとも１つの領域が含まれる、ステップと、
訓練対象解きほぐしエンコーダによって、前記訓練対象ターゲット画像集合における訓練対象ターゲット画像の各領域を符号化処理することにより、符号化結果を取得するステップであって、前記訓練対象解きほぐしエンコーダが複数の訓練対象パーツエンコーダを含み、各訓練対象パーツエンコーダそれぞれが、１つの領域を符号化するためのものである、ステップと、
訓練対象解きほぐしデコーダによって、前記符号化結果を復号化処理することにより、復号化結果を取得するステップであって、前記訓練対象解きほぐしデコーダが複数の訓練対象パーツデコーダを含み、各訓練対象パーツデコーダそれぞれが、１つの領域を復号化するためのものである、ステップと、
損失関数及び復号化結果を用いて、前記訓練対象解きほぐしエンコーダを訓練することにより、解きほぐしエンコーダを取得するステップであって、前記解きほぐしエンコーダが複数のパーツエンコーダを含む、ステップと、
をさらに含む請求項９に記載の方法。
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得する前記ステップは、
第１訓練対象画像及び第２訓練対象画像を取得するステップと、
前記解きほぐしエンコーダを用いて、前記第１訓練対象画像における前記複数の第１領域を符号化処理することにより、前記複数の第１符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、１つの第１領域を符号化するためのものである、ステップと、
前記解きほぐしエンコーダを用いて、前記第２訓練対象画像における前記複数の第２領域を符号化処理することにより、前記複数の第２符号化特徴を取得するステップであって、各パーツエンコーダそれぞれが、１つの第２領域を符号化するためのものである、ステップと、
を含む請求項９に記載の方法。
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する前記ステップの前に、
前記第５訓練対象画像及び実画像に基づいて、第１損失関数を決定するステップと、
前記ターゲット画像及び前記第１訓練対象画像に基づいて、第２損失関数を決定するステップと、
前記第１訓練対象画像、前記第２訓練対象画像、前記第４訓練対象画像、及び前記ターゲット画像に基づいて、第３損失関数を決定するステップと、
前記第１損失関数、前記第２損失関数、及び前記第３損失関数に基づいて、前記ターゲット損失関数を決定するステップと、
をさらに含む請求項９に記載の方法。
前記第１損失関数、前記第２損失関数、及び前記第３損失関数に基づいて、前記ターゲット損失関数を決定する前記ステップは、

によって、前記ターゲット損失関数を計算するステップを含み、
ここで、前記

は前記ターゲット損失関数を表す、
請求項１２に記載の方法。
画像融合装置であって、
取得モジュールと、融合モジュールと、を含み、
前記取得モジュールは、第１融合対象画像及び第２融合対象画像を取得し、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれ、
前記取得モジュールは、さらに、前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得し、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、
前記融合モジュールは、形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得し、前記第３融合対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、
前記融合モジュールは、さらに、条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得する、
画像融合装置。
モデル訓練装置であって、
取得モジュールと、融合モジュールと、訓練モジュールと、を含み、
前記取得モジュールは、第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得し、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応し、
前記融合モジュールは、訓練対象形状融合ネットワークモデルによって、前記取得モジュールで取得された前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得し、前記第３訓練対象画像には、前記取得モジュールで取得された、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれ、
前記融合モジュールは、さらに、訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得し、
前記融合モジュールは、さらに、前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得し、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴があり、
前記融合モジュールは、さらに、前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得し、
前記訓練モジュールは、ターゲット損失関数と、前記融合モジュールによる融合で取得された前記ターゲット画像とを用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得する、
モデル訓練装置。
メモリとプロセッサとを備える端末機器であって、
前記メモリには、複数の命令が記憶され、
前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
第１融合対象画像及び第２融合対象画像を取得するステップであって、前記第１融合対象画像には、複数の第１領域が含まれ、前記第２融合対象画像には、複数の第２領域が含まれる、ステップと、
前記第１融合対象画像に基づいて第１特徴集合を取得し、前記第２融合対象画像に基づいて第２特徴集合を取得するステップであって、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
形状融合ネットワークモデルによって、前記第１融合対象画像と前記第２融合対象画像とを融合処理することにより、第３融合対象画像を取得するステップであって、前記第３融合対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
条件融合ネットワークモデルによって、前記第３融合対象画像と前記第１融合対象画像とを融合処理することにより、ターゲット融合画像を取得するステップと、を実行する、
端末機器。
メモリとプロセッサとを備えるサーバ機器であって、
前記メモリには、複数の命令が記憶され、
前記プロセッサは、前記メモリに記憶された前記複数の命令を実行すると、
第１訓練対象画像の第１特徴集合と、第２訓練対象画像の第２特徴集合とを取得するステップであって、前記第１訓練対象画像には、複数の第１訓練領域が含まれ、前記第２訓練対象画像には、複数の第２訓練領域が含まれ、前記第１特徴集合には、複数の第１符号化特徴が含まれ、前記第１符号化特徴が前記第１領域に１対１で対応し、前記第２特徴集合には、複数の第２符号化特徴が含まれ、前記第２符号化特徴が前記第２領域に１対１で対応する、ステップと、
訓練対象形状融合ネットワークモデルによって、前記第１訓練対象画像と前記第２訓練対象画像とを融合処理することにより、第３訓練対象画像を取得するステップであって、前記第３訓練対象画像には、少なくとも１つの第１符号化特徴と、少なくとも１つの第２符号化特徴とが含まれる、ステップと、
訓練対象条件融合ネットワークモデルによって、前記第３訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第４訓練対象画像を取得するステップと、
前記訓練対象形状融合ネットワークモデルによって、前記第４訓練対象画像と前記第１訓練対象画像とを融合処理することにより、第５訓練対象画像を取得するステップであって、前記第５訓練対象画像と前記第１訓練対象画像との間には、対応する特徴がある、ステップと、
前記訓練対象条件融合ネットワークモデルによって、前記第５訓練対象画像と前記第４訓練対象画像とを融合処理することにより、ターゲット画像を取得するステップと、
ターゲット損失関数及び前記ターゲット画像を用いて、前記訓練対象形状融合ネットワークモデル及び前記訓練対象条件融合ネットワークモデルを訓練することにより、形状融合ネットワークモデル及び条件融合ネットワークモデルを取得するステップと、を実行する、
サーバ機器。
命令を含むコンピュータ読み取り可能な記憶媒体であって、前記命令は、コンピュータで実行されると、請求項１〜１６のいずれか１項に記載の方法をコンピュータに実行させる記憶媒体。