JP2021190088A - 画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置 - Google Patents

画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置 Download PDF

Info

Publication number
JP2021190088A
JP2021190088A JP2020217692A JP2020217692A JP2021190088A JP 2021190088 A JP2021190088 A JP 2021190088A JP 2020217692 A JP2020217692 A JP 2020217692A JP 2020217692 A JP2020217692 A JP 2020217692A JP 2021190088 A JP2021190088 A JP 2021190088A
Authority
JP
Japan
Prior art keywords
image
domain
translated
target
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020217692A
Other languages
English (en)
Other versions
JP7419226B2 (ja
Inventor
シャション ヤン
Shaoxiong Yang
チェン ザオ
Xiao Chen
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021190088A publication Critical patent/JP2021190088A/ja
Application granted granted Critical
Publication of JP7419226B2 publication Critical patent/JP7419226B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置を提供する。【解決手段】画像翻訳方法は、元の画像を含む画像翻訳要求を取得するステップと、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップと、変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得するステップと、変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成するステップとを含む。【選択図】図1

Description

本願は画像処理技術分野に関し、具体的にはディープラーニング及び画像処理技術分野に関し、特に画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置に関する。
画像翻訳ネットワークは、画像コンテンツを変更せずに、1つのタイプの画像を他のタイプの画像に直接変換することができ、画像生成、シーン分割、画像スタイル化などの分野で幅広く応用されている。
関連技術では、一般的には従来の画像翻訳方法、たとえば、CycleGANに基づく画像変換方法を用いて、画像を翻訳する。しかし、従来の画像翻訳方法により1つのタイプの画像を他のタイプの画像に直接変換することしか実現できず、変換後の画像の解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できない。
画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置、電子機器並びに記憶媒体が提供される。
第1の態様によれば、元の画像を含む画像翻訳要求を取得するステップと、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップと、前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するステップと、前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するステップとを含む、画像翻訳方法が提供される。
第2の態様によれば、第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含むトレーニングサンプルセットを取得するステップと、第1初期生成器を利用して前記第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成するステップと、前記第1変形パラメータセットに基づいて、前記第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得するステップと、前記第1変形された画像セット、前記第1予め翻訳された画像セット及び前記第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得するステップと、前記第3画像セットにおける画像及び前記第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、前記第1初期判断装置から出力された前記第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び前記第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得するステップと、前記第1確率セット及び前記第2確率セットに基づいて、前記第1初期生成器及び前記第1初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器を生成するステップとを含む、画像翻訳モデルのトレーニング方法が提供される。
第3の態様によれば、元の画像を含む画像翻訳要求を取得するための第1取得モジュールと、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するための第1処理モジュールと、前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するための第2処理モジュールと、前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するための第1融合モジュールとを備える、画像翻訳装置が提供される。
第4の態様によれば、第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含むトレーニングサンプルセットを取得するための第2取得モジュールと、第1初期生成器を利用して前記第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成するための第3処理モジュールと、前記第1変形パラメータセットに基づいて、前記第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得するための第4処理モジュールと、前記第1変形された画像セット、前記第1予め翻訳された画像セット及び前記第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得するための第2融合モジュールと、前記第3画像セットにおける画像及び前記第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、前記第1初期判断装置から出力された前記第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び前記第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得するための第3取得モジュールと、前記第1確率セット及び前記第2確率セットに基づいて、前記第1初期生成器及び前記第1初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器を生成するための第1補正モジュールとを備える、画像翻訳モデルのトレーニング装置が提供される。
第5の態様によれば、少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサに通信接続されるメモリとを備え、前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサが以上に記載の画像翻訳方法または画像翻訳モデルのトレーニング方法を実行できる、電子機器が提供される。
第6の態様によれば、前記コンピュータに以上に記載の画像翻訳方法または画像翻訳モデルのトレーニング方法を実行させるためのコンピュータ命令が記憶されている、非一時的なコンピュータ可読記憶媒体が提供される。
第7の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムのおける命令が実行された場合に、第1の態様の実施例に記載の画像翻訳方法または第2の態様の実施例に記載の画像翻訳モデルのトレーニング方法が実行される。
本願の技術に基づいて、従来の画像翻訳方法により画像を翻訳するとき、変換後の画像の解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できないという技術課題を解決し、オリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。
なお、本部分で説明される内容は、本開示の実施例の肝心な特徴または重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の明細書にて理解しやすくなる。
図面は、本技術案がよりよく理解されるためのものであり、本願を限定するものではない。
図1は、本願の実施例に係る1つの画像翻訳方法のフローチャートである。 図2aは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。 図2bは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。 図2cは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。 図2dは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。 図2eは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。 図3は、本願の実施例に係る他の画像翻訳方法のフローチャートである。 図4は、本願の実施例に係るまた他の画像翻訳方法のフローチャートである。 図5は、本願の実施例に係る1つの画像翻訳装置の構造模式図である。 図6は、本願の実施例に係る他の画像翻訳装置の構造模式図である。 図7は、本願の実施例に係るまた他の画像翻訳装置の構造模式図である。 図8は、本願の実施例に係る1つの画像翻訳モデルのトレーニング方法のフローチャートである。 図9は、本願の実施例に係る他の画像翻訳モデルのトレーニング方法のフローチャートである。 図10は、本願の実施例に係る1つの画像翻訳モデルのトレーニング装置の構造模式図である。 図11は、本願の実施例に係る他の画像翻訳モデルのトレーニング装置の構造模式図である。 図12は、本願の実施例の画像翻訳方または画像翻訳モデルのトレーニング方法を実現するための電子機器のブロック図である。
以下、本願の例示的な実施例を、図面を参照して説明し、理解を容易にするためにその中には本願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構成の説明を省略する。
以下、図を参照しながら、本願の実施例の画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置、電子機器並びに記憶媒体について説明する。
本願は、関連技術で、従来の画像翻訳方法により画像を翻訳するとき、変換後の画像の解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できないという課題に対して、画像翻訳方法を提案する。
本願に係る画像翻訳方法は、まず画像翻訳要求を取得し、次に画像翻訳要求内の元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成し、さらに変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。これにより、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。
図1は本願の実施例に係る1つの画像翻訳方法のフローチャートである。
なお、本願の実施例の画像翻訳方法の実行本体は画像翻訳装置であり、画像翻訳装置は、電子機器に配置されてもよく、変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得した後に、変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成することを実現する。電子機器は、データ処理をできる任意の端末装置またはサーバなどであり得、本願は、これについて制限しない。
図1に示すように、画像翻訳方法は、以下のステップを含むことができる。
ステップ101:元の画像を含む画像翻訳要求を取得する。
実際に応用するとき、異なるシーンにおいて異なる実施形態にて画像翻訳要求を取得することができる。1つの可能な実現形態としては、ユーザは、画像翻訳要求命令を入力ボックスを介して入力してもよい。
他の可能な実現形態としては、ユーザによる画像翻訳プログラムに対するトリガー動作を取得すると、画像翻訳要求を取得したと見なし、たとえば、ユーザがタッチディスプレイスクリーンにおける画像翻訳スタートキーをクリックすると、画像翻訳要求を取得すると見なす。
また他の可能な実現形態としては、画像翻訳プログラムのメッセージコントロール類にフック関数が予め設定されてもよく、該フック関数に基づいて画像翻訳要求メッセージを検出する。具体的には、ユーザが画像翻訳要求を送信するとき、トリガーメッセージを送信し、このとき、メッセージコントロール類関数が呼び出され、従って、メッセージコントロール類関数に設定されたフック関数は、該メッセージコントロール類関数の呼び出しを検出し、現在トリガーされたメッセージコントロール類関数のメッセージタイプに基づいて画像翻訳要求メッセージを認識することができる。
ステップ102:元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成する。
予め翻訳された画像は元の画像を直接翻訳して得られた画像である。変形パラメータは元の画像を処理するときに決定された、元の画像を変形する必要があるパラメータ情報であり、すなわち、元の画像中の各ピクセルが並進する必要がある距離であり、つまり、変形パラメータには各ピクセルに対応するx軸方向の並進量及びy軸方向の並進量が含まれ、マスク画像は画像フィルター処理テンプレートであり、マスク画像の主要作用は、処理されないか、または処理パラメータで計算されないように、マスクを用いて画像のある領域を遮蔽することであり、あるいは、類似性変数または画像マッチング方法を用いて画像中の、マスクに類似する構造特徴を検出して抽出することである。
例としては、男女性顔の性別変換の応用シーンにおいて、元の画像が男性顔の画像(図2a)であれば、直接男性顔を女性顔に変換した後、未融合の女性化された顔、すなわち、元の画像に対応する予め翻訳された画像(図2b)を生成することができる。
なお、元の画像の解像度が256*256であれば、予め翻訳された画像の解像度も256*256であり、変形パラメータが256*256組であり、各組の変形パラメータがx軸方向パラメータ及びy軸方向パラメータを含む。
つまり、翻訳要求から元の画像を取得した後、まず、元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像を取得するとともに、対応するマスク画像(たとえば、男女性顔の性別変換の応用シーンにおいて、マスク画像が図2cに示す)及び変形パラメータを取得し、次に予め翻訳された画像、変形パラメータ及びマスク画像に基づいて、元の画像に対応するターゲット翻訳画像を取得することができる。
ステップ103:変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得する。
画像変換ツールにより、変形パラメータに基づいて元の画像に対して対応する変更を行って、変形された画像を生成することができる。
例としては、元の画像がオリジナルの男性顔の画像である場合、変形パラメータにおいて、男性の眉領域を指示するための変形方式がy軸方向に狭くなることであれば、画像変換ツールにより変形パラメータに基づいて、元の画像を変形した後、図2dに示すように、取得された変形された画像中のオリジナルの男性顔の眉が狭くなり、それにより、女性の眉の特徴に近くなるようにする。
ステップ104:変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。
具体的には、実際の動作では、元の画像を処理して、予め設定された翻訳画像を生成し、予め設定された翻訳画像を最終的に出力する画像とすれば、生成された画像は、解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できない。
従って、本願では、元の画像を処理した後、元の画像に対応する予め翻訳された画像を生成するほか、対応するマスク画像及び変形パラメータを生成し、次に変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に変形された画像と予め翻訳された画像に対して、マスク画像の加重に従って融合動作を行ってターゲット翻訳画像を生成する(たとえば、男女性顔の性別変換の応用シーンにおいて、ターゲット翻訳画像が図2eに示してもよい)。これにより、変形された画像は、元の画像から直接変形して得られたものであり、元の画像の詳細情報が保持されるため、融合して得られたターゲット翻訳画像は、変形された画像と予め翻訳された画像に対してマスク画像により融合動作を行い、オリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用でき、それにより、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。
例としては、他の可能な実施形態としては、上記の画像翻訳方法によって、さらに画像のスタイルを変換することができ、たとえば、男性/女性顔の画像を油画、水彩画、中国絵画などのスタイルに変換することができる。男性/女性顔の画像を油画に変換することを例として、画像翻訳要求を取得した後、まず、直接男性/女性顔の画像を未融合の油画スタイルの男性/女性顔の画像、すなわち、元の画像に対応する予め翻訳された画像に変換するとともに、対応するマスク画像及び変形パラメータを取得し、次に変形パラメータに基づいて元の画像に対して変形処理を行い、たとえば、変形パラメータにおいて、線輪郭領域を指示するための変形方式がx軸及びy軸方向にいずれも広くなることであり、画像変換ツールにより変形パラメータに基づいて、元の画像を変形した後、取得された変形された画像中のオリジナルの男性/女性顔の画像内の線がいずれも広くなり、対応する変形された画像を得、最後に変形された画像と予め翻訳された画像に対してマスク画像の加重にしたがって融合動作を行ってターゲット翻訳画像を生成する。これにより、男性/女性顔の画像を油画スタイルに変換することができ、男性/女性顔の画像を水彩画、中国絵画などのスタイルに変換する方式も上記方式に同様であり、冗長さを回避するために、ここで詳しく説明しない。
なお、上記実施例では、ターゲット生成器により元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。そのうち、異なる応用シーンにおいて、ターゲット生成器の取得方式は異なる。
1つの可能な実現形態としては、まずターゲット翻訳画像が属する第1ドメインを取得して、ターゲット翻訳画像が属する第1ドメインに基づいてターゲット生成器を取得することができる。これに対応して、本願の1つの実施例では、翻訳要求にはターゲット翻訳画像が属する第1ドメインがさらに含まれ、従って、上記ステップ101の後に、
ターゲット翻訳画像が属する第1ドメインに基づいて、ターゲット生成器を取得するステップをさらに含む。
これに対応して、上記ステップ102は、
ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップをさらに含むことができる。
画像翻訳分野では、異なるドメインを利用して元の画像とターゲット翻訳画像との違いを区別する。例としては、性別翻訳を行うとき、男性顔画像及び女性顔画像がそれぞれ異なるドメインに位置する画像であり、または、画像内のリンゴをオレンジに翻訳するとき、リンゴを含む画像及びオレンジを含む画像がそれぞれ異なるドメインに属する。
これに対応して、本願では、ターゲット翻訳画像が属する第1ドメインは、ある指定されたオブジェクトを含む画像、例えば女性顔の画像であるか、または、リンゴを含むオブジェクトなどである。
具体的には、異なるドメインにおける画像を翻訳するとき、使用される生成器が異なり、従って、本開示は、翻訳要求を受信し、ターゲット翻訳画像が属する第1ドメインを翻訳要求から取得した後、ターゲット翻訳画像が属する第1ドメインに基づいて、ターゲット翻訳画像が属する第1ドメインに対応する生成器を決定することができる。ターゲット翻訳画像が属する第1ドメインに対応する生成器が1種しかない場合、ターゲット翻訳画像が属する第1ドメインに基づいて、対応するターゲット生成器を直接決定することができる。
例としては、ターゲット翻訳画像が属する第1ドメインが女性顔である場合、該ターゲット翻訳画像に対応する生成器が男性顔から女性顔への生成器しかないと決定することができ、従って、ターゲット生成器が男性顔から女性顔への生成器であると決定することができ、ターゲット翻訳画像が属する第1ドメインが子供顔である場合、該ターゲット翻訳画像に対応する生成器が老人顔から子供顔への生成器しかないと決定することができ、従って、ターゲット生成器が老人顔から子供顔への生成器であると決定することができる。
さらに、ターゲット生成器を決定した後に、ターゲット生成器により直接元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。
これにより、元の画像を処理する前に、ターゲット翻訳画像が属する第1ドメインに基づいて、専用のターゲット生成器を決定して元の画像に対して対応する処理を行うことができ、それにより、画像処理の効率及び正確性を大幅に向上させる。
なお、実際の動作では、ターゲット翻訳画像が属する第1ドメインに対応する生成器が複数種ある場合も存在する。
これに対応して、ターゲット翻訳画像が属する第1ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、上記ステップ101の後に、
元の画像を認識し、元の画像が属する第2ドメインを決定するステップと、元の画像が属する第2ドメイン及びターゲット翻訳画像が属する第1ドメインに基づいて、N種の生成器からターゲット生成器を選択するステップとをさらに含む。
具体的には、ターゲット翻訳画像が属する第1ドメインに基づいて、ターゲット翻訳画像が属する第1ドメインに対応する生成器が複数種あると決定した場合、元の画像を認識して、元の画像が属する第2ドメインを取得し、次にターゲット翻訳画像が属する第1ドメイン、及び元の画像が属する第2ドメインに基づいて、複数種の生成器から1種の生成器をターゲット生成器として選択することができる。
例としては、ターゲット翻訳画像が属する第1ドメインがリンゴを含む画像である場合、該ターゲット翻訳画像が属する第1ドメインに基づいて、ターゲット翻訳画像が属する第1ドメインに対応する生成器は、オレンジからリンゴへの生成器、梨からリンゴへの生成器、桃からリンゴへの生成器など複数種あると決定することができる。このとき、元の画像が属する第2ドメインがオレンジを含む画像であると決定すれば、オレンジからリンゴへの生成器をターゲット生成器として上記複数の生成器から選択することができる。
さらに、ターゲット生成器を決定した後、ターゲット生成器により直接元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。
これにより、ターゲット翻訳画像が属する第1ドメインに基づいて、それに対応する生成器が複数種あると決定した場合、さらに元の画像が属する第2ドメインに基づいて、唯一の生成器をターゲット生成器として複数種の生成器から選択して、元の画像に対して対応する処理を行うことにより、画像処理の効率及び正確性をさらに向上させる。
他の可能な実現形態として、さらに、まず元の画像が属する第2ドメインを取得して、元の画像が属する第2ドメインに基づいて、ターゲット生成器を取得してもよい。これに対応して、本願の他の実施例では、上記ステップ101の後に、
元の画像を認識して、元の画像が属する第2ドメインを決定するステップと、元の画像が属する第2ドメインに基づいて、ターゲット生成器を取得するステップとをさらに含む。
これに対応して、上記ステップ102は、
ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップを含むことができる。
具体的には、元の画像を取得した後、元の画像を認識して、元の画像が属する第2ドメインを取得することができる。元の画像が属する第2ドメインを決定した後、元の画像が属する第2ドメインに基づいて、元の画像が属する第2ドメインに対応する生成器を決定することができる。元の画像が属する第2ドメインに対応する生成器が1種しかない場合、元の画像が属する第2ドメインに基づいて、対応するターゲット生成器を直接決定することができる。
例としては、元の画像が属する第2ドメインが男性顔であると決定した場合、元の画像が属する第2ドメインに対応する生成器が男性顔から女性顔への生成器しかないと決定することができ、従って、ターゲット生成器が男性顔から女性顔への生成器であると決定することができ、元の画像が属する第2ドメインが老人顔であると決定した場合、元の画像が属する第2ドメインに対応する生成器が老人顔から子供顔への生成器しかないと決定することができ、従って、ターゲット生成器が老人顔から子供顔への生成器であると決定することができる。
さらに、ターゲット生成器を決定した後、ターゲット生成器により直接元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。
これにより、元の画像を処理する前、元の画像が属する第2ドメインに基づいて、専用のターゲット生成器を決定して元の画像に対して対応する処理を行うことにより、画像処理の効率及び正確性を大幅に向上させることができる。
なお、実際の動作では、元の画像が属する第2ドメインに対応する生成器が複数種ある場合も存在する。これに対応して、元の画像が属する第2ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、上記ステップ101の後に、
ターゲット翻訳画像が属する第1ドメインを取得するステップと、ターゲット翻訳画像が属する第1ドメイン、及び元の画像が属する第2ドメインに基づいて、N種の生成器からターゲット生成器を選択するステップとをさらに含む。
具体的には、元の画像が属する第2ドメインに対応する生成器が複数種あると決定した場合、ターゲット翻訳画像が属する第1ドメインを取得することができる。翻訳要求が、ターゲット翻訳画像が属する第1ドメインを含むと、直接翻訳要求からターゲット翻訳画像が属する第1ドメインを取得することができ、翻訳要求が、ターゲット翻訳画像が属する第1ドメインを含まないと、元の画像が属する第2ドメインに対応する生成器が複数種あると決定したとき、ユーザがターゲット翻訳画像の画像タイプ及び特徴情報に基づいて選択するように、ターゲット翻訳画像が属する第1ドメインの選択オプションをポップアップすることができる。ターゲット翻訳画像が属する第1ドメインを決定した後、ターゲット翻訳画像が属する第1ドメイン、及び元の画像が属する第2ドメインに基づいて、複数種の生成器から1種の生成器をターゲット生成器として選択することができる。
例としては、元の画像が属する第2ドメインがオレンジである場合、元の画像が属する第2ドメインに基づいて、元の画像が属する第2ドメインに対応する生成器は、オレンジからリンゴへの生成器、オレンジから梨への生成器、オレンジから桃への生成器など複数種あると決定することができる。このとき、ターゲット翻訳画像が属する第1ドメインが梨であると取得すれば、上記複数の生成器からオレンジから梨への生成器をターゲット生成器として選択することができる。
さらに、ターゲット生成器を決定した後、ターゲット生成器により直接元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。
これにより、元の画像が属する第2ドメインに基づいて、それに対応する生成器が複数種あると決定した場合、さらにターゲット翻訳画像が属する第1ドメインに基づいて、複数種の生成器から唯一の生成器をターゲット生成器として選択して、元の画像に対して対応する処理を行うことにより、画像処理の効率及び正確性をさらに向上させる。
なお、画像を処理する際、一般的に、該画像中の特徴情報を抽出し、特徴情報に対して対応する処理を行うことにより、画像を処理することを実現する。
以下、図3を参照して説明し、図3に示すように、上記ステップ102は、具体的には以下のステップを含む。
ステップ201:元の画像を処理して、元の画像に含まれたターゲットオブジェクトの第1ドメインでの特徴を取得する。
ターゲットオブジェクトは、元の画像内の、ターゲット翻訳画像に比べて変更したオブジェクトである。例えば、元の画像が男性顔を含む画像であり、ターゲット翻訳画像が男性顔に対応する女性顔であると、ターゲットオブジェクトが元の画像中の男性顔である。これに対応して、ターゲットオブジェクトの第1ドメインでの特徴は、ターゲットオブジェクトの特徴及びターゲットオブジェクトの背景部分での特徴を含むことができる。
ステップ202:ターゲットオブジェクトの第1ドメインでの特徴に基づいて、ターゲットオブジェクトの第2ドメインでの画像を再構築し、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成する。
具体的には、生成器がターゲットオブジェクトの第1ドメインでの特徴を取得した後、ターゲットオブジェクトの特徴を復号化して、ターゲットオブジェクトの第2ドメインでの画像を再構築して、予め翻訳された画像を生成し、ターゲットオブジェクトの再構築では、マスク画像及び変形パラメータを生成することができる。
予め翻訳された画像、マスク画像及び変形パラメータは、すべてターゲットオブジェクトの第1ドメインでの特徴に基づいて生成されるものであり、すなわち、マスク画像及び変形パラメータは、すべて予め翻訳された画像と元の画像の違いに基づいて生成されるものであり、それにより、最後にマスク画像を融合して、変形パラメータに基づいて得られた変形された画像のターゲット翻訳画像がより正確になることが理解され得る。
さらに、高精細かつ高い自然さのターゲット翻訳画像を生成するために、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを取得した後、さらに、変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、変形された画像及び予め翻訳された画像に対してマスク画像の加重に従って、融合動作を行ってターゲット翻訳画像を生成することができる。
以下、図4を参照して、如何にターゲット翻訳画像を生成するかについて詳細に説明し、図4に示すように、上記ステップ104は、具体的には以下のステップを含む。
ステップ301:マスク画像中の各ピクセルの画素値に基づいて、予め翻訳された画像の第1加重及び変形された画像の第2加重を決定する。
ステップ302:第1加重及び第2加重に基づいて、予め翻訳された画像中の各ピクセルの画素値と変形された画像中の各ピクセルの画素値を融合して、ターゲット翻訳画像を生成する。
具体的には、マスク画像中の各ピクセルの画素値に基づいて、予め翻訳された画像の第1加重及び変形された画像の第2加重を決定することにより、第1加重と第2加重との加重比に基づいて、ターゲット翻訳画像の各ピクセルのうち、予め翻訳された画像の画素値と変形された画像中の画素値の比を取得し、それにより、該比に基づいて、予め翻訳された画像中の各ピクセルの画素値と変形された画像中の各ピクセルの画素値とを融合することができる。
実際の使用に当たって、マスク画像中のピクセルの画素値は、予め翻訳された画像中の同じピクセルの加重であってもよく、変形された画像中の同じピクセルの加重であってもよい。例えば、マスク画像中のi番目のピクセルの画素値が0.7であると、予め翻訳された画像中のi番目のピクセルの加重が0.7(または0.3)であると決定することができ、これに対応して、変形された画像中のi番目のピクセルの加重が0.3(または0.7)であり、予め翻訳された画像中のi番目のピクセルの画素値が10であると、変形された画像中のi番目のピクセルの画素値が30であり、融合して生成されたターゲット翻訳画像中のi番目のピクセルの画素値が22または24である。
これにより、変形された画像と予め翻訳された画像中の各ピクセルの画素値に対して、それぞれマスク画像の加重にしたがって融合動作を行うことにより、融合して生成されたターゲット翻訳画像中の各ピクセルの画素値が翻訳ニーズを満たすことができるとともに、オリジナル画像の高精細かつ豊かな高周波詳細情報を十分に示すことができ、それにより、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。
よって、本願に係る画像翻訳方法は、まず画像翻訳要求を取得し、次に画像翻訳要求内の元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成し、さらに変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。これにより、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。
上記実施例を実現するために、本願の実施例は、画像翻訳装置をさらに提案する。該画像翻訳装置が電子機器に設けることができる。図5は本願の実施例に係る画像翻訳装置の構造模式図である。
図5に示すように、該画像翻訳装置400は第1取得モジュール410、第1処理モジュール420、第2処理モジュール430及び第1融合モジュール440を備えることができる。
第1取得モジュール410は、元の画像を含む画像翻訳要求を取得するために用いられ、第1処理モジュール420は、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられ、第2処理モジュール430は、前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するために用いられ、第1融合モジュール440は、前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するために用いられる。
本願の実施例の1つの可能な実現形態では、翻訳要求は、ターゲット翻訳画像が属する第1ドメインをさらに含み、第1取得モジュール410は、画像翻訳要求を取得した後に、さらに、ターゲット翻訳画像が属する第1ドメインに基づいて、ターゲット生成器を取得するために用いられ、第1処理モジュール420は、具体的には、ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる。
本願の実施例の他の可能な実現形態では、ターゲット翻訳画像が属する第1ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、第1取得モジュール410は、画像翻訳要求を取得した後に、さらに、元の画像を認識し、元の画像が属する第2ドメインを決定し、元の画像が属する第2ドメイン、及びターゲット翻訳画像が属する第1ドメインに基づいて、N種の生成器からターゲット生成器を選択するために用いられる。
本願の実施例のまた他の可能な実現形態では、第1取得モジュール410は、画像翻訳要求を取得した後に、さらに、元の画像を認識して、元の画像が属する第2ドメインを決定し、元の画像が属する第2ドメインに基づいて、ターゲット生成器を取得するために用いられ、第1処理モジュール420は、具体的には、ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる。
本願の実施例のさらにまた他の可能な実現形態では、元の画像が属する第2ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、第1取得モジュール410は、画像翻訳要求を取得した後に、さらに、ターゲット翻訳画像が属する第1ドメインを取得し、ターゲット翻訳画像が属する第1ドメイン、及び元の画像が属する第2ドメインに基づいて、N種の生成器からターゲット生成器を選択するために用いられる。
図6は本願の実施例に係る他の画像翻訳装置の構造模式図である。本願の実施例の1つの可能な実現形態では、図6に示すように、第1処理モジュール420は、第1処理ユニット421と最構築ユニット422とを備えることができる。
第1処理ユニット421は、元の画像を処理して、元の画像に含まれたターゲットオブジェクトの第1ドメインでの特徴を取得するために用いられ、最構築ユニット422は、ターゲットオブジェクトの第1ドメインでの特徴に基づいて、ターゲットオブジェクトの第2ドメインでの画像を再構築して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる。
図7は本願の実施例に係るまた他の画像翻訳装置の構造模式図である。本願の実施例の1つの可能な実現形態では、図7に示すように、第1融合モジュール440は、決定ユニット441と第1融合ユニット442とを備えることができる。
決定ユニット441は、マスク画像中の各ピクセルの画素値に基づいて、予め翻訳された画像の第1加重及び変形された画像の第2加重を決定するために用いられ、第1融合ユニット442は、第1加重及び第2加重に基づいて、予め翻訳された画像中の各ピクセルの画素値と変形された画像中の各ピクセルの画素値を融合して、ターゲット翻訳画像を生成するために用いられる。
なお、本願の実施例の画像翻訳装置に開示されていない詳細については、本願の実施例の画像翻訳方法に開示された詳細を参照でき、ここで具体的に説明しない。
本願の実施例の画像翻訳装置は、まず第1取得モジュールにより元の画像を含む画像翻訳要求を取得し、次に第1処理モジュールにより元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成し、さらに第2処理モジュールにより変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に第1融合モジュールにより変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。これにより、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。
上記実施例を実現するために、本願の実施例は、画像翻訳モデルによって上記の画像翻訳方法を実現するように、画像翻訳モデルのトレーニング方法をさらに提案する。図7は本願の実施例に係る画像翻訳モデルのトレーニング方法のフローチャートである。
なお、本願の実施例の画像翻訳モデルのトレーニング方法の実行本体は画像翻訳モデルのトレーニング装置であり、画像翻訳モデルのトレーニング装置は、電子機器に配置されてもよく、画像翻訳モデルをトレーニングすることにより、第1生成器を得ることを実現する。電子機器は、データ処理をできる任意の端末機器またはサーバなどであり得、本願は、これについて制限しない。
図8に示すように、画像翻訳モデルのトレーニング方法は、以下のステップを含むことができる。
ステップ701:トレーニングサンプルセットを取得する。
トレーニングサンプルセットは、第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含む。
ステップ702:第1初期生成器を利用して第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成する。
ステップ703:第1変形パラメータセットに基づいて、第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得する。
ステップ704:第1変形された画像セット、第1予め翻訳された画像セット及び第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得する。
ステップ705:第3画像セットにおける画像及び第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、第1初期判断装置から出力された第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得する。
ステップ706:第1確率セット及び第2確率セットに基づいて、第1初期生成器及び第1初期判断装置を補正して、第1ドメインに属するターゲット生成器を生成する。第1ドメインに属するターゲット生成器は、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するために用いられる。
第1画像セットにおける画像がそれぞれ第2画像セットにおける画像に1つずつマッチングする。
具体的には、トレーニングサンプルセット内の第1画像セットにおける画像が第2画像セットにおける画像に1つずつマッチングすると、第1画像セットにおける画像を第1初期生成器の入力として、第1初期生成器により第1画像セットにおける画像をそれぞれ翻訳し、第2ドメインに属する第3画像セットを取得し、第1画像セットにおける画像をそれぞれ翻訳するプロセスについては、上記実施例に提案される画像翻訳方法を参照でき、冗長さを回避するために、ここで詳しく説明しない。
第3画像セットを取得した後、第3画像セットにおける画像及び第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを第1初期判断装置により出力する。このとき、第1確率セットと第2確率セットの大きさを比較することによって、第1初期生成器及び第1初期判断装置を補正することができる。
第1確率セットと第2確率セットとの偏差が大きいと、第1初期生成器により画像を翻訳するとき、誤差が大きいことが示され、従って、第1初期生成器及び第1初期判断装置に対して対応する補正を行って、第1ドメインに属するターゲット生成器を取得する必要があり、第1確率セットと第2確率セット偏差との偏差が小さいと、第1初期生成器により画像を翻訳するとき、誤差が小さいことが示され、従って、第1初期生成器及び第1初期判断装置に対して対応する補正を行う必要がなく、直接第1初期生成器を第1ドメインに属するターゲット生成器とすることができる。第1ドメインに属するターゲット生成器を画像翻訳モデルとして、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳することができる。
これにより、画
像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。
なお、第1画像セットにおける画像が第2画像セットにおける画像にマッチングしていないと、上記実施例にて取得された第3画像セットにおける画像が第2画像セットにおける画像にマッチングしていないため、第1確率セット及び第2確率セットに基づいて第1初期生成器及び第1初期判断装置を正確に補正できず、生成された画像翻訳モデルの誤差が大きくなってしまう。
従って、本願の1つの実施例では、第1画像セットにおける画像が第2画像セットにおける画像にマッチングしていないと、図9に示すように、上記ステップ706の後に、該方法は、以下のステップをさらに含む。
ステップ801:第2初期生成器を利用して第3画像セットにおける画像をそれぞれ処理して、第2予め翻訳された画像セット、第2マスク画像セット及び第2変形パラメータセットを生成する。
ステップ802:第2変形パラメータセットに基づいて、第3画像セットにおける画像に対してそれぞれ変形処理を行って、第2変形された画像セットを取得する。
ステップ803:第2変形された画像セット、第2予め翻訳された画像セット及び第2マスク画像セットにおける対応する画像をそれぞれ融合して、第4画像セットを取得する。
ステップ804:第4画像セットにおける画像及び第1画像セットにおける画像をそれぞれ第2初期判断装置に入力して、第2初期判断装置から出力された第4画像セットにおける画像がそれぞれ実際の画像に属する第3確率セット、及び第1画像セットにおける画像がそれぞれ実際の画像に属する第4確率セットを取得する。
ステップ805:第3確率セット及び第4確率セットに基づいて、第1初期生成器、第2初期生成器、第1初期判断装置及び第2初期判断装置を補正して、第1ドメインに属するターゲット生成器及び第2ドメインに属するターゲット生成器を生成する。第1ドメインに属するターゲット生成器は、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するために用いられ、第2ドメインに属するターゲット生成器は、第2ドメインに位置する画像を第1ドメインに位置する画像に翻訳するために用いられる。
具体的には、トレーニングサンプルセット内の第1画像セットにおける画像が第2画像セットにおける画像にマッチングしていないと、第3画像セットにおける画像を第2初期生成器の入力として、第2初期生成器により第3画像セットにおける画像をそれぞれ翻訳して、第1ドメインに属する第4画像セットを取得することができ、第3画像セットにおける画像をそれぞれ翻訳するプロセスについては、上記実施例で提案される画像翻訳方法を参照でき、冗長さを回避するために、ここで詳しく説明しない。
第4画像セットを取得した後、第4画像セットにおける画像及び第1画像セットにおける画像をそれぞれ第2初期判断装置に入力して、第4画像セットにおける画像がそれぞれ実際の画像に属する第3確率セット、及び第1画像セットにおける画像がそれぞれ実際の画像に属する第4確率セットを第2初期判断装置により出力する。このとき、第3確率セットと第4確率セットの大きさを比較することにより、第1初期生成器、第2初期生成器、第1初期判断装置及び第2初期判断装置を補正することができる。
第3確率セットと第4確率セットとの偏差が大きいと、第1初期生成器及び第2初期生成器により画像を翻訳するとき、誤差が大きいことが示され、従って、第1初期生成器、第2初期生成器、第1初期判断装置及び第2初期判断装置に対して対応する補正を行って、第1ドメインに属するターゲット生成器及び第2ドメインに属するターゲット生成器を取得する必要があり、第3確率セット及び第4確率セット偏差が小さいと、第1初期生成器及び第2初期生成器により画像を翻訳するとき、誤差が小さいことが示され、従って、第1初期生成器、第2初期生成器、第1初期判断装置及び第2初期判断装置を補正する必要がなく、直接第1初期生成器を第1ドメインに属するターゲット生成器とし、第2初期生成器を第2ドメインに属するターゲット生成器とすることができる。第1ドメインに属するターゲット生成器を画像翻訳モデルとして、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳し、第2ドメインに属するターゲット生成器を他の画像翻訳モデルとして、第2ドメインに位置する画像を第1ドメインに位置する画像に翻訳することができ、該実施例の第1ドメインに属するターゲット生成器は、上記実施例の第1ドメインに属するターゲット生成器と同じであってもよく、異なってもよく、具体的には、実際な状況に応じて選択することができる。
これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。
よって、本願に係る画像翻訳モデルのトレーニング方法は、第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含むトレーニングサンプルセットを取得し、第1初期生成器を利用して第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成し、第1変形パラメータセットに基づいて、第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得し、第1変形された画像セット、第1予め翻訳された画像セット及び第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得し、第3画像セットにおける画像及び第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、第1初期判断装置から出力された第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得し、第1確率セット及び第2確率セットに基づいて、第1初期生成器及び第1初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器を生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。
上記実施例を実現するために、本願の実施例は、さらに、画像翻訳モデルのトレーニング装置を提案する。該画像翻訳モデルのトレーニング装置は電子機器に設けられてもよい。図10は本願の実施例に係る1つの画像翻訳モデルのトレーニング装置の構造模式図である。
図10に示すように、該画像翻訳モデルのトレーニング装置900は、第2取得モジュール901、第3処理モジュール902、第4処理モジュール903、第2融合モジュール904、第3取得モジュール905及び第1補正モジュール906を備える。
第2取得モジュール901は、第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含むトレーニングサンプルセットを取得するために用いられ、第3処理モジュール902は、第1初期生成器を利用して第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成するために用いられ、第4処理モジュール903は、第1変形パラメータセットに基づいて、第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得するために用いられ、第2融合モジュール904は、第1変形された画像セット、第1予め翻訳された画像セット及び第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得するために用いられ、第3取得モジュール905は、第3画像セットにおける画像及び第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、第1初期判断装置から出力された第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得するために用いられ、第1補正モジュール906は、第1確率セット及び第2確率セットに基づいて、第1初期生成器及び第1初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器を生成するために用いられる。
本願の1つの実施例では、第1画像セットにおける画像がそれぞれ第2画像セットにおける画像に1つずつマッチングする。
図11は本願の実施例に係る他の画像翻訳モデルのトレーニング装置の構造模式図である。本願の実施例の1つの可能な実現形態では、第1画像セットにおける画像が第2画像セットにおける画像にマッチングしておらず、図11に示すように、該トレーニング装置は、第5処理モジュール907、第6処理モジュール908、第3融合モジュール909、第4取得モジュール910及び第2補正モジュール911をさらに備える。
第5処理モジュール907は、第2初期生成器を利用して第3画像セットにおける画像をそれぞれ処理して、第2予め翻訳された画像セット、第2マスク画像セット及び第2変形パラメータセットを生成するために用いられ、第6処理モジュール908は、第2変形パラメータセットに基づいて、第3画像セットにおける画像に対してそれぞれ変形処理を行って、第2変形された画像セットを取得するために用いられ、第3融合モジュール909は、第2変形された画像セット、第2予め翻訳された画像セット及び第2マスク画像セットにおける対応する画像をそれぞれ融合して、第4画像セットを取得するために用いられ、第4取得モジュール910は、第4画像セットにおける画像及び第1画像セットにおける画像をそれぞれ第2初期判断装置に入力して、第2初期判断装置から出力された第4画像セットにおける画像がそれぞれ実際の画像に属する第3確率セット、及び第1画像セットにおける画像がそれぞれ実際の画像に属する第4確率セットを取得するために用いられ、第2補正モジュール911は、第3確率セット及び第4確率セットに基づいて、第1初期生成器、第2初期生成器、第1初期判断装置及び第2初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器、及び第2ドメインに位置する画像を第1ドメインに位置する画像に翻訳するための第2ドメインに属するターゲット生成器を生成するために用いられる。
なお、本願の実施例の画像翻訳モデルのトレーニング装置に開示されている詳細については、本願の実施例の画像翻訳モデルのトレーニング方法に開示されている詳細を参照し、ここで具体的に説明しない。
本願の実施例の画像翻訳モデルのトレーニング装置は、第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含むトレーニングサンプルセットを第2取得モジュールにより取得し、第3処理モジュールにより第1初期生成器を利用して第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成し、第4処理モジュールにより第1変形パラメータセットに基づいて、第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得し、第2融合モジュールにより第1変形された画像セット、第1予め翻訳された画像セット及び第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得し、第3取得モジュールにより第3画像セットにおける画像及び第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、第1初期判断装置から出力された第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得し、第1補正モジュールにより第1確率セット及び第2確率セットに基づいて、第1初期生成器及び第1初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器を生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。
本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。本願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記画像翻訳方法又は上記画像翻訳モデルのトレーニング方法が実行される。
図12に示すように、本願の実施例による画像翻訳方法または画像翻訳モデルのトレーニング方法の電子機器のブロック図である。電子機器は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータの様な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラーホン、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティングデバイスなどの様な形式のモバイルデバイスを備えることができる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例示的なものとなることを意図されており、本明細書で説明された及び/または請求された本願の実装を制限することを意図したものではない。
図12に示すように、該電子機器は、1つまたは複数のプロセッサ1101、メモリ1102、及び高速インターフェースと低速インターフェースを含んだ、各コンポーネントを接続するためのインターフェースを備える。各部材は、様々なバスを使って相互接続され、共通のマザーボード上に取り付けられるか、または必要に応じて他の方式で取り付けられることができる。プロセッサは、メモリ内またはメモリ上において外部入力/出力装置(例えば、インターフェースにカップリングされた表示機器)にGUIのグラフィック情報を表示する命令を含んだ、電子機器内に実行される命令を処理する。他の実施形態では、必要があれば、複数のプロセッサ及び/または複数のバスを複数のメモリ及び複数のメモリとともに使用できる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作(たとえば、サーババンク、1群のブレードサーバ、またはマルチプロセッサシステムとして)を提供する。図12では、1つのプロセッサ1101を例とする。
メモリ1102は、本願に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記少なくとも1つのプロセッサに本願に係る画像翻訳方法または画像翻訳モデルのトレーニング方法を実行させる。本願の非一時的なコンピュータ可読記憶媒体には、コンピュータに本願に係る画像翻訳方法または画像翻訳モデルのトレーニング方法を実行させるためのコンピュータ命令が記憶されている。
メモリ902は、非一時的なコンピュータ可読記憶媒体として、本願の実施例の画像翻訳方法または画像翻訳モデルのトレーニング方法に対応するプログラム命令/モジュール(たとえば、図5に示す第1取得モジュール410、第1処理モジュール420、第2処理モジュール430及び第1融合モジュール440、図10に示す第2取得モジュール901、第3処理モジュール902、第4処理モジュール903、第2融合モジュール904、第3取得モジュール905及び第1補正モジュール906)などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを記憶することができる。プロセッサ1101は、メモリ1102に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例の画像翻訳方法または画像翻訳モデルのトレーニング方法を実現する。
メモリ1102は、プログラムストレージエリア及びデータストレージエリアを含み、プログラムストレージエリアは、オペレーティングシステム、少なくとも1つの機能によって必要とされるアプリケーションプログラムを記憶することができ、データストレージエリアは、画像の翻訳または画像翻訳モデルのトレーニングの電子機器の利用に従って形成されるデータなどを記憶することができる。また、メモリ902は、高速ランダムアクセスメモリを備えてもよく、少なくとも1つのディスクストレージデバイス、フラッシュメモリデバイスのような非一時的なメモリ、または他の非一時的な固体状態記憶デバイスをさらに含んでもよい。いくつかの実施例では、メモリ1102は、好ましくは、ネットワークを介して画像の翻訳または画像翻訳モデルのトレーニングの電子機器に接続できた、プロセッサ1101に対して遠隔に配置されるメモリを含む。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるがこれらに限られない。
画像翻訳方法または画像翻訳モデルのトレーニング方法の電子機器は、さらに、入力装置1103及び出力装置1104を含んでもよい。プロセッサ1101、メモリ1102、入力装置1103及び出力装置1104は、バスまたは他の形式で接続されてもよく、図11において、バスを介する接続を例とする。
入力装置1103は、入力された数字またはキャラクタ情報を受信し、画像の翻訳または画像翻訳モデルのトレーニングの電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成してもよく、たとえばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、1つのまたは複数のマウスキー、トラックボール、ジョイスティックなどの入力装置である。出力装置1104は、表示機器、補助照明装置(たとえば、LED)及び触覚フィードバック装置(たとえば、バイブラモータ)などを含んでもよい。該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよいがこれらに限られない。いくつかの実施形態では、ディスプレイ装置は、タッチスクリーンであり得る。
ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/またはそれらの組合せで実現することができる。これらの様々な実施形態は、1つまたは複数のコンピュータプログラムで実施されることを含むことができ、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラム可能プロセッサを含むプログラム可能システムで実行及び/または解釈でき、該プログラム可能プロセッサは、特定用途向けまたは汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、該ストレージシステム、該少なくとも1つの入力装置、及び該少なくとも1つの出力装置に伝送することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも称される)は、プログラム可能プロセッサに対するマシン命令を含み、高レベル手続き型及び/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/マシン言語で実装することができる。本明細書で使用される際、「マシン可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び/またはデータをプログラム可能プロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/または装置(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))であり、マシン可読信号であるマシン命令を受信する機器可読媒体を含む。用語「マシン可読信号」とは、マシン命令及び/またはデータをプログラム可能プロセッサに提供するための任意の信号である。
ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウスまたはトラックボール)とを有し、ユーザは、該キーボード及び該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音響入力と、音声入力と、触覚入力とを含む)でユーザからの入力を受信することができる。
ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、またはミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、またはフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザは、該グラフィカルユーザインタフェースまたは該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする)、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信(例えば、通信ネットワーク)によってシステムのコンポーネントを相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)と、ワイドエリアネットワーク(WAN)と、インターネットとを含む。
コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、また、クラウドコンピューティングサーバまたはクラウドホストと呼称され、クラウドコンピューティングサービス系における1つのホストコンピュータ製品であり、従来の物理ホストコンピュータ及びVPSサービスに存在する、管理難度が高く、サービス拡張性が弱いという欠陥を解決する。
上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。本願の精神と原則内で行われる任意の修正、同等の置換、及び改良などは、いずれも本願の保護範囲内に含まれるべきである。

Claims (23)

  1. 画像翻訳方法であって
    元の画像を含む画像翻訳要求を取得するステップと、
    前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップと、 前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するステップと、
    前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するステップとを含む、
    ことを特徴とする画像翻訳方法。
  2. 前記翻訳要求は、前記ターゲット翻訳画像が属する第1ドメインをさらに含み、画像翻訳要求を取得するステップの後に、
    前記ターゲット翻訳画像が属する第1ドメインに基づいて、ターゲット生成器を取得するステップをさらに含み、
    前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップは、
    前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  3. 前記ターゲット翻訳画像が属する第1ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、画像翻訳要求を取得するステップの後に、
    前記元の画像を認識して、前記元の画像が属する第2ドメインを決定するステップと、
    前記元の画像が属する第2ドメイン及び前記ターゲット翻訳画像が属する第1ドメインに基づいて、前記N種の生成器から前記ターゲット生成器を選択するステップとをさらに含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記画像翻訳要求を取得するステップの後に、
    前記元の画像を認識して、前記元の画像が属する第2ドメインを決定するステップと、
    前記元の画像が属する第2ドメインに基づいて、ターゲット生成器を取得するステップをさらに含み、
    前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップは、
    前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップを含む、
    ことを特徴とする請求項1に記載の方法。
  5. 前記元の画像が属する第2ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、画像翻訳要求を取得するステップの後に、
    ターゲット翻訳画像が属する第1ドメインを取得するステップと、
    前記ターゲット翻訳画像が属する第1ドメイン及び前記元の画像が属する第2ドメインに基づいて、前記N種の生成器から前記ターゲット生成器を選択するステップとをさらに含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップは、
    前記元の画像を処理して、前記元の画像に含まれたターゲットオブジェクトの第1ドメインでの特徴を取得するステップと、
    前記ターゲットオブジェクトの第1ドメインでの特徴に基づいて、ターゲットオブジェクトの前記第2ドメインでの画像を再構築し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップとを含む、
    ことを特徴とする請求項1〜5のいずれか1項に記載の方法。
  7. 前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するステップは、
    前記マスク画像中の各ピクセルの画素値に基づいて、前記予め翻訳された画像の第1加重及び前記変形された画像の第2加重を決定するステップと、
    前記第1加重及び前記第2加重に基づいて、前記予め翻訳された画像中の各ピクセルの画素値と前記変形された画像中の各ピクセルの画素値とを融合して、前記ターゲット翻訳画像を生成するステップとを含む、
    ことを特徴とする請求項1〜5のいずれか1項に記載の方法。
  8. 画像翻訳モデルのトレーニング方法であって
    第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含むトレーニングサンプルセットを取得するステップと、
    第1初期生成器を利用して前記第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成するステップと、
    前記第1変形パラメータセットに基づいて、前記第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得するステップと、
    前記第1変形された画像セット、前記第1予め翻訳された画像セット及び前記第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得するステップと、
    前記第3画像セットにおける画像及び前記第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、前記第1初期判断装置から出力された前記第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び前記第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得するステップと、
    前記第1確率セット及び前記第2確率セットに基づいて、前記第1初期生成器及び前記第1初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器を生成するステップとを含む、
    ことを特徴とする画像翻訳モデルのトレーニング方法。
  9. 前記第1画像セットにおける画像がそれぞれ前記第2画像セットにおける画像に1つずつマッチングする、ことを特徴とする請求項8に記載のトレーニング方法。
  10. 第1画像セットにおける画像が前記第2画像セットにおける画像にマッチングしておらず、前記第1確率セット及び前記第2確率セットに基づいて、前記第1初期生成器及び前記第1初期判断装置を補正した後に、
    第2初期生成器を利用して前記第3画像セットにおける画像をそれぞれ処理して、第2予め翻訳された画像セット、第2マスク画像セット及び第2変形パラメータセットを生成するステップと、
    前記第2変形パラメータセットに基づいて、前記第3画像セットにおける画像に対してそれぞれ変形処理を行って、第2変形された画像セットを取得するステップと、
    前記第2変形された画像セット、第2予め翻訳された画像セット及び前記第2マスク画像セットにおける対応する画像をそれぞれ融合して、第4画像セットを取得するステップと、
    前記第4画像セットにおける画像及び前記第1画像セットにおける画像をそれぞれ第2初期判断装置に入力して、前記第2初期判断装置から出力された前記第4画像セットにおける画像がそれぞれ実際の画像に属する第3確率セット、及び前記第1画像セットにおける画像がそれぞれ実際の画像に属する第4確率セットを取得するステップと、
    前記第3確率セット及び前記第4確率セットに基づいて、前記第1初期生成器、前記第2初期生成器、前記第1初期判断装置及び前記第2初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器、及び第2ドメインに位置する画像を第1ドメインに位置する画像に翻訳するための第2ドメインに属するターゲット生成器を生成するステップとをさらに含む、
    ことを特徴とする請求項8に記載のトレーニング方法。
  11. 画像翻訳装置であって
    元の画像を含む画像翻訳要求を取得するための第1取得モジュールと、
    前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するための第1処理モジュールと、
    前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するための第2処理モジュールと、
    前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するための第1融合モジュールとを備える、
    ことを特徴とする画像翻訳装置。
  12. 前記翻訳要求は、前記ターゲット翻訳画像が属する第1ドメインをさらに含み、前記第1取得モジュールは、画像翻訳要求を取得した後に、さらに、
    前記ターゲット翻訳画像が属する第1ドメインに基づいて、ターゲット生成器を取得するために用いられ、
    前記第1処理モジュールは、具体的には、
    前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる、
    ことを特徴とする請求項11に記載の装置。
  13. 前記ターゲット翻訳画像が属する第1ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、前記第1取得モジュールは、画像翻訳要求を取得した後に、さらに、
    前記元の画像を認識して、前記元の画像が属する第2ドメインを決定し、
    前記元の画像が属する第2ドメイン及び前記ターゲット翻訳画像が属する第1ドメインに基づいて、前記N種の生成器から前記ターゲット生成器を選択するために用いられる、
    ことを特徴とする請求項12に記載の装置。
  14. 前記第1取得モジュールは、画像翻訳要求を取得した後に、さらに、
    前記元の画像を認識して、前記元の画像が属する第2ドメインを決定し、
    前記元の画像が属する第2ドメインに基づいて、ターゲット生成器を取得するために用いられ、
    前記第1処理モジュールは、具体的には、
    前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる、
    ことを特徴とする請求項11に記載の装置。
  15. 前記元の画像が属する第2ドメインに対応する生成器がN(Nは1より大きい整数である)種であると、前記第1取得モジュールは、画像翻訳要求を取得した後に、さらに、
    ターゲット翻訳画像が属する第1ドメインを取得し、
    前記ターゲット翻訳画像が属する第1ドメイン及び前記元の画像が属する第2ドメインに基づいて、前記N種の生成器から前記ターゲット生成器を選択するために用いられる、
    ことを特徴とする請求項14に記載の装置。
  16. 前記第1処理モジュールは、
    前記元の画像を処理して、前記元の画像に含まれたターゲットオブジェクトの第1ドメインでの特徴を取得するための第1処理ユニットと、
    前記ターゲットオブジェクトの第1ドメインでの特徴に基づいて、ターゲットオブジェクトの前記第2ドメインでの画像を再構築し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するための最構築ユニットとを備える、
    ことを特徴とする請求項11〜15のいずれか1項に記載の装置。
  17. 前記第1融合モジュールは、
    前記マスク画像中の各ピクセルの画素値に基づいて、前記予め翻訳された画像の第1加重及び前記変形された画像の第2加重を決定するための決定ユニットと、
    前記第1加重及び前記第2加重に基づいて、前記予め翻訳された画像中の各ピクセルの画素値と前記変形された画像中の各ピクセルの画素値とを融合して、前記ターゲット翻訳画像を生成するための第1融合ユニットとを備える、
    ことを特徴とする請求項11〜15のいずれか1項に記載の装置。
  18. 画像翻訳モデルのトレーニング装置であって
    第1ドメインに属する第1画像セット、及び第2ドメインに属する第2画像セットを含むトレーニングサンプルセットを取得するための第2取得モジュールと、
    第1初期生成器を利用して前記第1画像セットにおける画像をそれぞれ処理して、第1予め翻訳された画像セット、第1マスク画像セット及び第1変形パラメータセットを生成するための第3処理モジュールと、
    前記第1変形パラメータセットに基づいて、前記第1画像セットにおける画像に対してそれぞれ変形処理を行って、第1変形された画像セットを取得するための第4処理モジュールと、
    前記第1変形された画像セット、前記第1予め翻訳された画像セット及び前記第1マスク画像セットにおける対応する画像をそれぞれ融合して、第3画像セットを取得するための第2融合モジュールと、
    前記第3画像セットにおける画像及び前記第2画像セットにおける画像をそれぞれ第1初期判断装置に入力して、前記第1初期判断装置から出力された前記第3画像セットにおける画像がそれぞれ実際の画像に属する第1確率セット、及び前記第2画像セットにおける画像がそれぞれ実際の画像に属する第2確率セットを取得するための第3取得モジュールと、
    前記第1確率セット及び前記第2確率セットに基づいて、前記第1初期生成器及び前記第1初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器を生成するための第1補正モジュールとを備える、
    ことを特徴とする画像翻訳モデルのトレーニング装置。
  19. 前記第1画像セットにおける画像がそれぞれ前記第2画像セットにおける画像に1つずつマッチングする、 ことを特徴とする請求項18に記載のトレーニング装置。
  20. 第1画像セットにおける画像が前記第2画像セットにおける画像にマッチングしておらず、前記トレーニング装置は、
    第2初期生成器を利用して前記第3画像セットにおける画像をそれぞれ処理して、第2予め翻訳された画像セット、第2マスク画像セット及び第2変形パラメータセットを生成するための第5処理モジュールと、
    前記第2変形パラメータセットに基づいて、前記第3画像セットにおける画像に対してそれぞれ変形処理を行って、第2変形された画像セットを取得するための第6処理モジュールと、 前記第2変形された画像セット、第2予め翻訳された画像セット及び前記第2マスク画像セットにおける対応する画像をそれぞれ融合して、第4画像セットを取得するための第3融合モジュールと、
    前記第4画像セットにおける画像及び前記第1画像セットにおける画像をそれぞれ第2初期判断装置に入力して、前記第2初期判断装置から出力された前記第4画像セットにおける画像がそれぞれ実際の画像に属する第3確率セット、及び前記第1画像セットにおける画像がそれぞれ実際の画像に属する第4確率セットを取得するための第4取得モジュールと、
    前記第3確率セット及び前記第4確率セットに基づいて、前記第1初期生成器、前記第2初期生成器、前記第1初期判断装置及び前記第2初期判断装置を補正して、第1ドメインに位置する画像を第2ドメインに位置する画像に翻訳するための第1ドメインに属するターゲット生成器、及び第2ドメインに位置する画像を第1ドメインに位置する画像に翻訳するための第2ドメインに属するターゲット生成器を生成するための第2補正モジュールとをさらに備える、

    ことを特徴とする請求項18に記載のトレーニング装置。
  21. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されるメモリとを備え、
    前記メモリには、前記少なくとも1つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサにより実行されることにより、前記少なくとも1つのプロセッサが請求項1〜7のいずれか1項に記載の方法または請求項8〜10のいずれか1項に記載のトレーニング方法を実行できる、 ことを特徴とする電子機器。
  22. コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は、前記コンピュータに請求項1〜7のいずれか1項に記載の方法または請求項8〜10のいずれか1項に記載のトレーニング方法を実行させる、
    ことを特徴とするコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
  23. コンピュータプログラムであって、
    前記コンピュータプログラムにおける命令が実行された場合に、前記コンピュータに請求項1〜7のいずれか1項に記載の方法または請求項8〜10のいずれか1項に記載のトレーニング方法が実行される、
    ことを特徴とするコンピュータプログラム。
JP2020217692A 2020-06-01 2020-12-25 画像変換方法及び装置、画像変換モデルのトレーニング方法及び装置 Active JP7419226B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010484274.8A CN111833238B (zh) 2020-06-01 2020-06-01 图像的翻译方法和装置、图像翻译模型的训练方法和装置
CN202010484274.8 2020-06-01

Publications (2)

Publication Number Publication Date
JP2021190088A true JP2021190088A (ja) 2021-12-13
JP7419226B2 JP7419226B2 (ja) 2024-01-22

Family

ID=72897497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020217692A Active JP7419226B2 (ja) 2020-06-01 2020-12-25 画像変換方法及び装置、画像変換モデルのトレーニング方法及び装置

Country Status (5)

Country Link
US (1) US11526971B2 (ja)
EP (1) EP3920130A1 (ja)
JP (1) JP7419226B2 (ja)
KR (1) KR102521013B1 (ja)
CN (1) CN111833238B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112400B (zh) * 2021-05-07 2024-04-09 深圳追一科技有限公司 一种模型训练方法及模型训练装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2551172B (en) * 2016-06-08 2019-02-20 Sts Defence Ltd Predicting temperature rise event
US20180247201A1 (en) 2017-02-28 2018-08-30 Nvidia Corporation Systems and methods for image-to-image translation using variational autoencoders
EP3649579A1 (en) * 2017-08-07 2020-05-13 Siemens Aktiengesellschaft Improved technique for machine visual learning
WO2019075666A1 (zh) * 2017-10-18 2019-04-25 腾讯科技(深圳)有限公司 图像处理方法、装置、终端及存储介质
US10388002B2 (en) * 2017-12-27 2019-08-20 Facebook, Inc. Automatic image correction using machine learning
US10719742B2 (en) * 2018-02-15 2020-07-21 Adobe Inc. Image composites using a generative adversarial neural network
WO2019178237A1 (en) * 2018-03-14 2019-09-19 Butterfly Network, Inc. Methods and apparatuses for generating and displaying ultrasound images using an explaining model
US10825219B2 (en) * 2018-03-22 2020-11-03 Northeastern University Segmentation guided image generation with adversarial networks
CN108717719A (zh) * 2018-05-23 2018-10-30 腾讯科技(深圳)有限公司 卡通人脸图像的生成方法、装置及计算机存储介质
CN109377537B (zh) * 2018-10-18 2020-11-06 云南大学 重彩画的风格转移方法
CN111127304B (zh) * 2018-10-31 2024-02-20 微软技术许可有限责任公司 跨域图像转换
CN113016005A (zh) * 2018-11-13 2021-06-22 三星电子株式会社 联合无监督对象分割与修复
GB201818759D0 (en) * 2018-11-16 2019-01-02 Anthropics Tech Limited Method of modifying digital images
US11748851B2 (en) * 2019-03-25 2023-09-05 Korea Advanced Institute Of Science And Technology Method of replacing missing image data by using neural network and apparatus thereof
WO2020202680A1 (ja) * 2019-03-29 2020-10-08 キヤノン株式会社 情報処理装置及び情報処理方法
US11120526B1 (en) * 2019-04-05 2021-09-14 Snap Inc. Deep feature generative adversarial neural networks
US11017560B1 (en) * 2019-04-15 2021-05-25 Facebook Technologies, Llc Controllable video characters with natural motions extracted from real-world videos
US11366985B2 (en) * 2020-05-15 2022-06-21 Retrace Labs Dental image quality prediction platform using domain specific artificial intelligence
CN110189249B (zh) * 2019-05-24 2022-02-18 深圳市商汤科技有限公司 一种图像处理方法及装置、电子设备和存储介质
CN110322416B (zh) * 2019-07-09 2022-11-18 腾讯科技(深圳)有限公司 图像数据处理方法、装置以及计算机可读存储介质
CN110648309B (zh) * 2019-08-12 2024-05-28 平安科技(深圳)有限公司 基于条件生成对抗网络合成红细胞图像的方法及相关设备
CN110796111B (zh) * 2019-11-05 2020-11-10 腾讯科技(深圳)有限公司 图像处理方法、装置、设备及存储介质
CN113966522A (zh) * 2019-11-25 2022-01-21 Essenlix 公司 基于成像的测定的有效训练和准确度改进
CN111047509A (zh) * 2019-12-17 2020-04-21 中国科学院深圳先进技术研究院 一种图像特效处理方法、装置及终端
US11860925B2 (en) * 2020-04-17 2024-01-02 Accenture Global Solutions Limited Human centered computing based digital persona generation
US20220036564A1 (en) * 2020-08-03 2022-02-03 Korea Advanced Institute Of Science And Technology Method of classifying lesion of chest x-ray radiograph based on data normalization and local patch and apparatus thereof

Also Published As

Publication number Publication date
CN111833238A (zh) 2020-10-27
EP3920130A1 (en) 2021-12-08
CN111833238B (zh) 2023-07-25
US20210374924A1 (en) 2021-12-02
KR102521013B1 (ko) 2023-04-12
JP7419226B2 (ja) 2024-01-22
KR20210149574A (ko) 2021-12-09
US11526971B2 (en) 2022-12-13

Similar Documents

Publication Publication Date Title
KR102410328B1 (ko) 얼굴 융합 모델 트레이닝 방법, 장치 및 전자 기기
KR102565659B1 (ko) 정보 생성 방법 및 장치
JP7342062B2 (ja) 画像処理方法、装置、電子機器及び記憶媒体
US20230022550A1 (en) Image processing method, method for training image processing model devices and storage medium
US11710215B2 (en) Face super-resolution realization method and apparatus, electronic device and storage medium
US20210398334A1 (en) Method for creating image editing model, and electronic device and storage medium thereof
EP3839824A2 (en) Method and apparatus for generating image, device, medium and program
CN105183720A (zh) 基于rnn模型的机器翻译方法和装置
JP7282932B2 (ja) フォント生成モデルトレーニング方法、字庫作成方法、装置及び機器
US11928563B2 (en) Model training, image processing method, device, storage medium, and program product
JP2021192294A (ja) 人体3dキー点検出方法、モデル訓練方法及び関連装置
CN111539897A (zh) 用于生成图像转换模型的方法和装置
JP2022006189A (ja) 画像処理方法、事前トレーニングモデルのトレーニング方法、装置及び電子機器
JP2021190088A (ja) 画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置
US20210224476A1 (en) Method and apparatus for describing image, electronic device and storage medium
JP2022002093A (ja) 顔編集方法、装置、電子デバイス及び可読記憶媒体
US11508044B2 (en) Method for translating image, method for training image translation model
KR20210131221A (ko) 이미지를 처리하는 방법, 장치, 전자 기기, 저장 매체 및 프로그램
CN111126087B (zh) 领域翻译处理方法、装置及设备
CN117076838A (zh) 一种数据处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220509

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230113

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20230113

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20230123

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20230124

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20230210

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20230214

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230314

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240110

R150 Certificate of patent or registration of utility model

Ref document number: 7419226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150