JP2021190088A

JP2021190088A - 画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置

Info

Publication number: JP2021190088A
Application number: JP2020217692A
Authority: JP
Inventors: シャションヤン; Shaoxiong Yang; チェンザオ; Xiao Chen
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-12-25
Publication date: 2021-12-13
Anticipated expiration: 2040-12-25
Also published as: CN111833238A; EP3920130A1; CN111833238B; US20210374924A1; KR102521013B1; JP7419226B2; KR20210149574A; US11526971B2

Abstract

【課題】生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置を提供する。【解決手段】画像翻訳方法は、元の画像を含む画像翻訳要求を取得するステップと、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップと、変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得するステップと、変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成するステップとを含む。【選択図】図１

Description

本願は画像処理技術分野に関し、具体的にはディープラーニング及び画像処理技術分野に関し、特に画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置に関する。

画像翻訳ネットワークは、画像コンテンツを変更せずに、１つのタイプの画像を他のタイプの画像に直接変換することができ、画像生成、シーン分割、画像スタイル化などの分野で幅広く応用されている。

関連技術では、一般的には従来の画像翻訳方法、たとえば、ＣｙｃｌｅＧＡＮに基づく画像変換方法を用いて、画像を翻訳する。しかし、従来の画像翻訳方法により１つのタイプの画像を他のタイプの画像に直接変換することしか実現できず、変換後の画像の解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できない。

画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置、電子機器並びに記憶媒体が提供される。

第１の態様によれば、元の画像を含む画像翻訳要求を取得するステップと、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップと、前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するステップと、前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するステップとを含む、画像翻訳方法が提供される。

第２の態様によれば、第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含むトレーニングサンプルセットを取得するステップと、第１初期生成器を利用して前記第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成するステップと、前記第１変形パラメータセットに基づいて、前記第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得するステップと、前記第１変形された画像セット、前記第１予め翻訳された画像セット及び前記第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得するステップと、前記第３画像セットにおける画像及び前記第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、前記第１初期判断装置から出力された前記第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び前記第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得するステップと、前記第１確率セット及び前記第２確率セットに基づいて、前記第１初期生成器及び前記第１初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器を生成するステップとを含む、画像翻訳モデルのトレーニング方法が提供される。

第３の態様によれば、元の画像を含む画像翻訳要求を取得するための第１取得モジュールと、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するための第１処理モジュールと、前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するための第２処理モジュールと、前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するための第１融合モジュールとを備える、画像翻訳装置が提供される。

第４の態様によれば、第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含むトレーニングサンプルセットを取得するための第２取得モジュールと、第１初期生成器を利用して前記第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成するための第３処理モジュールと、前記第１変形パラメータセットに基づいて、前記第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得するための第４処理モジュールと、前記第１変形された画像セット、前記第１予め翻訳された画像セット及び前記第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得するための第２融合モジュールと、前記第３画像セットにおける画像及び前記第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、前記第１初期判断装置から出力された前記第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び前記第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得するための第３取得モジュールと、前記第１確率セット及び前記第２確率セットに基づいて、前記第１初期生成器及び前記第１初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器を生成するための第１補正モジュールとを備える、画像翻訳モデルのトレーニング装置が提供される。

第５の態様によれば、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリとを備え、前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサが以上に記載の画像翻訳方法または画像翻訳モデルのトレーニング方法を実行できる、電子機器が提供される。

第６の態様によれば、前記コンピュータに以上に記載の画像翻訳方法または画像翻訳モデルのトレーニング方法を実行させるためのコンピュータ命令が記憶されている、非一時的なコンピュータ可読記憶媒体が提供される。
第７の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムのおける命令が実行された場合に、第１の態様の実施例に記載の画像翻訳方法または第２の態様の実施例に記載の画像翻訳モデルのトレーニング方法が実行される。

本願の技術に基づいて、従来の画像翻訳方法により画像を翻訳するとき、変換後の画像の解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できないという技術課題を解決し、オリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。

なお、本部分で説明される内容は、本開示の実施例の肝心な特徴または重要な特徴を限定することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の明細書にて理解しやすくなる。

図面は、本技術案がよりよく理解されるためのものであり、本願を限定するものではない。
図１は、本願の実施例に係る１つの画像翻訳方法のフローチャートである。図２ａは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。図２ｂは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。図２ｃは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。図２ｄは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。図２ｅは、本願の実施例に係る、男女性顔の性別を変換する応用シーンにおいて元の画像、予め翻訳された画像、マスク画像、変形された画像及びターゲット翻訳画像の模式図である。図３は、本願の実施例に係る他の画像翻訳方法のフローチャートである。図４は、本願の実施例に係るまた他の画像翻訳方法のフローチャートである。図５は、本願の実施例に係る１つの画像翻訳装置の構造模式図である。図６は、本願の実施例に係る他の画像翻訳装置の構造模式図である。図７は、本願の実施例に係るまた他の画像翻訳装置の構造模式図である。図８は、本願の実施例に係る１つの画像翻訳モデルのトレーニング方法のフローチャートである。図９は、本願の実施例に係る他の画像翻訳モデルのトレーニング方法のフローチャートである。図１０は、本願の実施例に係る１つの画像翻訳モデルのトレーニング装置の構造模式図である。図１１は、本願の実施例に係る他の画像翻訳モデルのトレーニング装置の構造模式図である。図１２は、本願の実施例の画像翻訳方または画像翻訳モデルのトレーニング方法を実現するための電子機器のブロック図である。

以下、本願の例示的な実施例を、図面を参照して説明し、理解を容易にするためにその中には本願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構成の説明を省略する。

以下、図を参照しながら、本願の実施例の画像翻訳方法及び装置、画像翻訳モデルのトレーニング方法及び装置、電子機器並びに記憶媒体について説明する。

本願は、関連技術で、従来の画像翻訳方法により画像を翻訳するとき、変換後の画像の解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できないという課題に対して、画像翻訳方法を提案する。

本願に係る画像翻訳方法は、まず画像翻訳要求を取得し、次に画像翻訳要求内の元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成し、さらに変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。これにより、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。

図１は本願の実施例に係る１つの画像翻訳方法のフローチャートである。

なお、本願の実施例の画像翻訳方法の実行本体は画像翻訳装置であり、画像翻訳装置は、電子機器に配置されてもよく、変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得した後に、変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成することを実現する。電子機器は、データ処理をできる任意の端末装置またはサーバなどであり得、本願は、これについて制限しない。

図１に示すように、画像翻訳方法は、以下のステップを含むことができる。
ステップ１０１：元の画像を含む画像翻訳要求を取得する。

実際に応用するとき、異なるシーンにおいて異なる実施形態にて画像翻訳要求を取得することができる。１つの可能な実現形態としては、ユーザは、画像翻訳要求命令を入力ボックスを介して入力してもよい。

他の可能な実現形態としては、ユーザによる画像翻訳プログラムに対するトリガー動作を取得すると、画像翻訳要求を取得したと見なし、たとえば、ユーザがタッチディスプレイスクリーンにおける画像翻訳スタートキーをクリックすると、画像翻訳要求を取得すると見なす。

また他の可能な実現形態としては、画像翻訳プログラムのメッセージコントロール類にフック関数が予め設定されてもよく、該フック関数に基づいて画像翻訳要求メッセージを検出する。具体的には、ユーザが画像翻訳要求を送信するとき、トリガーメッセージを送信し、このとき、メッセージコントロール類関数が呼び出され、従って、メッセージコントロール類関数に設定されたフック関数は、該メッセージコントロール類関数の呼び出しを検出し、現在トリガーされたメッセージコントロール類関数のメッセージタイプに基づいて画像翻訳要求メッセージを認識することができる。

ステップ１０２：元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成する。

予め翻訳された画像は元の画像を直接翻訳して得られた画像である。変形パラメータは元の画像を処理するときに決定された、元の画像を変形する必要があるパラメータ情報であり、すなわち、元の画像中の各ピクセルが並進する必要がある距離であり、つまり、変形パラメータには各ピクセルに対応するｘ軸方向の並進量及びｙ軸方向の並進量が含まれ、マスク画像は画像フィルター処理テンプレートであり、マスク画像の主要作用は、処理されないか、または処理パラメータで計算されないように、マスクを用いて画像のある領域を遮蔽することであり、あるいは、類似性変数または画像マッチング方法を用いて画像中の、マスクに類似する構造特徴を検出して抽出することである。

例としては、男女性顔の性別変換の応用シーンにおいて、元の画像が男性顔の画像（図２ａ）であれば、直接男性顔を女性顔に変換した後、未融合の女性化された顔、すなわち、元の画像に対応する予め翻訳された画像（図２ｂ）を生成することができる。

なお、元の画像の解像度が２５６＊２５６であれば、予め翻訳された画像の解像度も２５６＊２５６であり、変形パラメータが２５６＊２５６組であり、各組の変形パラメータがｘ軸方向パラメータ及びｙ軸方向パラメータを含む。

つまり、翻訳要求から元の画像を取得した後、まず、元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像を取得するとともに、対応するマスク画像（たとえば、男女性顔の性別変換の応用シーンにおいて、マスク画像が図２ｃに示す）及び変形パラメータを取得し、次に予め翻訳された画像、変形パラメータ及びマスク画像に基づいて、元の画像に対応するターゲット翻訳画像を取得することができる。

ステップ１０３：変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得する。

画像変換ツールにより、変形パラメータに基づいて元の画像に対して対応する変更を行って、変形された画像を生成することができる。

例としては、元の画像がオリジナルの男性顔の画像である場合、変形パラメータにおいて、男性の眉領域を指示するための変形方式がｙ軸方向に狭くなることであれば、画像変換ツールにより変形パラメータに基づいて、元の画像を変形した後、図２ｄに示すように、取得された変形された画像中のオリジナルの男性顔の眉が狭くなり、それにより、女性の眉の特徴に近くなるようにする。

ステップ１０４：変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。

具体的には、実際の動作では、元の画像を処理して、予め設定された翻訳画像を生成し、予め設定された翻訳画像を最終的に出力する画像とすれば、生成された画像は、解像度が低く、変換後の画像の背景部分がオリジナル画像と異なるため、画像が融合されるとき、明瞭な縁を招き、自然なつながり及びシームレス融合を実現できない。

従って、本願では、元の画像を処理した後、元の画像に対応する予め翻訳された画像を生成するほか、対応するマスク画像及び変形パラメータを生成し、次に変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に変形された画像と予め翻訳された画像に対して、マスク画像の加重に従って融合動作を行ってターゲット翻訳画像を生成する（たとえば、男女性顔の性別変換の応用シーンにおいて、ターゲット翻訳画像が図２ｅに示してもよい）。これにより、変形された画像は、元の画像から直接変形して得られたものであり、元の画像の詳細情報が保持されるため、融合して得られたターゲット翻訳画像は、変形された画像と予め翻訳された画像に対してマスク画像により融合動作を行い、オリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用でき、それにより、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。

例としては、他の可能な実施形態としては、上記の画像翻訳方法によって、さらに画像のスタイルを変換することができ、たとえば、男性／女性顔の画像を油画、水彩画、中国絵画などのスタイルに変換することができる。男性／女性顔の画像を油画に変換することを例として、画像翻訳要求を取得した後、まず、直接男性／女性顔の画像を未融合の油画スタイルの男性／女性顔の画像、すなわち、元の画像に対応する予め翻訳された画像に変換するとともに、対応するマスク画像及び変形パラメータを取得し、次に変形パラメータに基づいて元の画像に対して変形処理を行い、たとえば、変形パラメータにおいて、線輪郭領域を指示するための変形方式がｘ軸及びｙ軸方向にいずれも広くなることであり、画像変換ツールにより変形パラメータに基づいて、元の画像を変形した後、取得された変形された画像中のオリジナルの男性／女性顔の画像内の線がいずれも広くなり、対応する変形された画像を得、最後に変形された画像と予め翻訳された画像に対してマスク画像の加重にしたがって融合動作を行ってターゲット翻訳画像を生成する。これにより、男性／女性顔の画像を油画スタイルに変換することができ、男性／女性顔の画像を水彩画、中国絵画などのスタイルに変換する方式も上記方式に同様であり、冗長さを回避するために、ここで詳しく説明しない。

なお、上記実施例では、ターゲット生成器により元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。そのうち、異なる応用シーンにおいて、ターゲット生成器の取得方式は異なる。

１つの可能な実現形態としては、まずターゲット翻訳画像が属する第１ドメインを取得して、ターゲット翻訳画像が属する第１ドメインに基づいてターゲット生成器を取得することができる。これに対応して、本願の１つの実施例では、翻訳要求にはターゲット翻訳画像が属する第１ドメインがさらに含まれ、従って、上記ステップ１０１の後に、
ターゲット翻訳画像が属する第１ドメインに基づいて、ターゲット生成器を取得するステップをさらに含む。

これに対応して、上記ステップ１０２は、
ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップをさらに含むことができる。

画像翻訳分野では、異なるドメインを利用して元の画像とターゲット翻訳画像との違いを区別する。例としては、性別翻訳を行うとき、男性顔画像及び女性顔画像がそれぞれ異なるドメインに位置する画像であり、または、画像内のリンゴをオレンジに翻訳するとき、リンゴを含む画像及びオレンジを含む画像がそれぞれ異なるドメインに属する。

これに対応して、本願では、ターゲット翻訳画像が属する第１ドメインは、ある指定されたオブジェクトを含む画像、例えば女性顔の画像であるか、または、リンゴを含むオブジェクトなどである。

具体的には、異なるドメインにおける画像を翻訳するとき、使用される生成器が異なり、従って、本開示は、翻訳要求を受信し、ターゲット翻訳画像が属する第１ドメインを翻訳要求から取得した後、ターゲット翻訳画像が属する第１ドメインに基づいて、ターゲット翻訳画像が属する第１ドメインに対応する生成器を決定することができる。ターゲット翻訳画像が属する第１ドメインに対応する生成器が１種しかない場合、ターゲット翻訳画像が属する第１ドメインに基づいて、対応するターゲット生成器を直接決定することができる。

例としては、ターゲット翻訳画像が属する第１ドメインが女性顔である場合、該ターゲット翻訳画像に対応する生成器が男性顔から女性顔への生成器しかないと決定することができ、従って、ターゲット生成器が男性顔から女性顔への生成器であると決定することができ、ターゲット翻訳画像が属する第１ドメインが子供顔である場合、該ターゲット翻訳画像に対応する生成器が老人顔から子供顔への生成器しかないと決定することができ、従って、ターゲット生成器が老人顔から子供顔への生成器であると決定することができる。

さらに、ターゲット生成器を決定した後に、ターゲット生成器により直接元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。

これにより、元の画像を処理する前に、ターゲット翻訳画像が属する第１ドメインに基づいて、専用のターゲット生成器を決定して元の画像に対して対応する処理を行うことができ、それにより、画像処理の効率及び正確性を大幅に向上させる。

なお、実際の動作では、ターゲット翻訳画像が属する第１ドメインに対応する生成器が複数種ある場合も存在する。

これに対応して、ターゲット翻訳画像が属する第１ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、上記ステップ１０１の後に、
元の画像を認識し、元の画像が属する第２ドメインを決定するステップと、元の画像が属する第２ドメイン及びターゲット翻訳画像が属する第１ドメインに基づいて、Ｎ種の生成器からターゲット生成器を選択するステップとをさらに含む。

具体的には、ターゲット翻訳画像が属する第１ドメインに基づいて、ターゲット翻訳画像が属する第１ドメインに対応する生成器が複数種あると決定した場合、元の画像を認識して、元の画像が属する第２ドメインを取得し、次にターゲット翻訳画像が属する第１ドメイン、及び元の画像が属する第２ドメインに基づいて、複数種の生成器から１種の生成器をターゲット生成器として選択することができる。

例としては、ターゲット翻訳画像が属する第１ドメインがリンゴを含む画像である場合、該ターゲット翻訳画像が属する第１ドメインに基づいて、ターゲット翻訳画像が属する第１ドメインに対応する生成器は、オレンジからリンゴへの生成器、梨からリンゴへの生成器、桃からリンゴへの生成器など複数種あると決定することができる。このとき、元の画像が属する第２ドメインがオレンジを含む画像であると決定すれば、オレンジからリンゴへの生成器をターゲット生成器として上記複数の生成器から選択することができる。

さらに、ターゲット生成器を決定した後、ターゲット生成器により直接元の画像に対して対応する処理を行って、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成することができる。

これにより、ターゲット翻訳画像が属する第１ドメインに基づいて、それに対応する生成器が複数種あると決定した場合、さらに元の画像が属する第２ドメインに基づいて、唯一の生成器をターゲット生成器として複数種の生成器から選択して、元の画像に対して対応する処理を行うことにより、画像処理の効率及び正確性をさらに向上させる。

他の可能な実現形態として、さらに、まず元の画像が属する第２ドメインを取得して、元の画像が属する第２ドメインに基づいて、ターゲット生成器を取得してもよい。これに対応して、本願の他の実施例では、上記ステップ１０１の後に、
元の画像を認識して、元の画像が属する第２ドメインを決定するステップと、元の画像が属する第２ドメインに基づいて、ターゲット生成器を取得するステップとをさらに含む。

これに対応して、上記ステップ１０２は、
ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップを含むことができる。

具体的には、元の画像を取得した後、元の画像を認識して、元の画像が属する第２ドメインを取得することができる。元の画像が属する第２ドメインを決定した後、元の画像が属する第２ドメインに基づいて、元の画像が属する第２ドメインに対応する生成器を決定することができる。元の画像が属する第２ドメインに対応する生成器が１種しかない場合、元の画像が属する第２ドメインに基づいて、対応するターゲット生成器を直接決定することができる。

例としては、元の画像が属する第２ドメインが男性顔であると決定した場合、元の画像が属する第２ドメインに対応する生成器が男性顔から女性顔への生成器しかないと決定することができ、従って、ターゲット生成器が男性顔から女性顔への生成器であると決定することができ、元の画像が属する第２ドメインが老人顔であると決定した場合、元の画像が属する第２ドメインに対応する生成器が老人顔から子供顔への生成器しかないと決定することができ、従って、ターゲット生成器が老人顔から子供顔への生成器であると決定することができる。

これにより、元の画像を処理する前、元の画像が属する第２ドメインに基づいて、専用のターゲット生成器を決定して元の画像に対して対応する処理を行うことにより、画像処理の効率及び正確性を大幅に向上させることができる。

なお、実際の動作では、元の画像が属する第２ドメインに対応する生成器が複数種ある場合も存在する。これに対応して、元の画像が属する第２ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、上記ステップ１０１の後に、
ターゲット翻訳画像が属する第１ドメインを取得するステップと、ターゲット翻訳画像が属する第１ドメイン、及び元の画像が属する第２ドメインに基づいて、Ｎ種の生成器からターゲット生成器を選択するステップとをさらに含む。

具体的には、元の画像が属する第２ドメインに対応する生成器が複数種あると決定した場合、ターゲット翻訳画像が属する第１ドメインを取得することができる。翻訳要求が、ターゲット翻訳画像が属する第１ドメインを含むと、直接翻訳要求からターゲット翻訳画像が属する第１ドメインを取得することができ、翻訳要求が、ターゲット翻訳画像が属する第１ドメインを含まないと、元の画像が属する第２ドメインに対応する生成器が複数種あると決定したとき、ユーザがターゲット翻訳画像の画像タイプ及び特徴情報に基づいて選択するように、ターゲット翻訳画像が属する第１ドメインの選択オプションをポップアップすることができる。ターゲット翻訳画像が属する第１ドメインを決定した後、ターゲット翻訳画像が属する第１ドメイン、及び元の画像が属する第２ドメインに基づいて、複数種の生成器から１種の生成器をターゲット生成器として選択することができる。

例としては、元の画像が属する第２ドメインがオレンジである場合、元の画像が属する第２ドメインに基づいて、元の画像が属する第２ドメインに対応する生成器は、オレンジからリンゴへの生成器、オレンジから梨への生成器、オレンジから桃への生成器など複数種あると決定することができる。このとき、ターゲット翻訳画像が属する第１ドメインが梨であると取得すれば、上記複数の生成器からオレンジから梨への生成器をターゲット生成器として選択することができる。

これにより、元の画像が属する第２ドメインに基づいて、それに対応する生成器が複数種あると決定した場合、さらにターゲット翻訳画像が属する第１ドメインに基づいて、複数種の生成器から唯一の生成器をターゲット生成器として選択して、元の画像に対して対応する処理を行うことにより、画像処理の効率及び正確性をさらに向上させる。

なお、画像を処理する際、一般的に、該画像中の特徴情報を抽出し、特徴情報に対して対応する処理を行うことにより、画像を処理することを実現する。

以下、図３を参照して説明し、図３に示すように、上記ステップ１０２は、具体的には以下のステップを含む。
ステップ２０１：元の画像を処理して、元の画像に含まれたターゲットオブジェクトの第１ドメインでの特徴を取得する。

ターゲットオブジェクトは、元の画像内の、ターゲット翻訳画像に比べて変更したオブジェクトである。例えば、元の画像が男性顔を含む画像であり、ターゲット翻訳画像が男性顔に対応する女性顔であると、ターゲットオブジェクトが元の画像中の男性顔である。これに対応して、ターゲットオブジェクトの第１ドメインでの特徴は、ターゲットオブジェクトの特徴及びターゲットオブジェクトの背景部分での特徴を含むことができる。

ステップ２０２：ターゲットオブジェクトの第１ドメインでの特徴に基づいて、ターゲットオブジェクトの第２ドメインでの画像を再構築し、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成する。

具体的には、生成器がターゲットオブジェクトの第１ドメインでの特徴を取得した後、ターゲットオブジェクトの特徴を復号化して、ターゲットオブジェクトの第２ドメインでの画像を再構築して、予め翻訳された画像を生成し、ターゲットオブジェクトの再構築では、マスク画像及び変形パラメータを生成することができる。

予め翻訳された画像、マスク画像及び変形パラメータは、すべてターゲットオブジェクトの第１ドメインでの特徴に基づいて生成されるものであり、すなわち、マスク画像及び変形パラメータは、すべて予め翻訳された画像と元の画像の違いに基づいて生成されるものであり、それにより、最後にマスク画像を融合して、変形パラメータに基づいて得られた変形された画像のターゲット翻訳画像がより正確になることが理解され得る。

さらに、高精細かつ高い自然さのターゲット翻訳画像を生成するために、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを取得した後、さらに、変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、変形された画像及び予め翻訳された画像に対してマスク画像の加重に従って、融合動作を行ってターゲット翻訳画像を生成することができる。

以下、図４を参照して、如何にターゲット翻訳画像を生成するかについて詳細に説明し、図４に示すように、上記ステップ１０４は、具体的には以下のステップを含む。
ステップ３０１：マスク画像中の各ピクセルの画素値に基づいて、予め翻訳された画像の第１加重及び変形された画像の第２加重を決定する。

ステップ３０２：第１加重及び第２加重に基づいて、予め翻訳された画像中の各ピクセルの画素値と変形された画像中の各ピクセルの画素値を融合して、ターゲット翻訳画像を生成する。

具体的には、マスク画像中の各ピクセルの画素値に基づいて、予め翻訳された画像の第１加重及び変形された画像の第２加重を決定することにより、第１加重と第２加重との加重比に基づいて、ターゲット翻訳画像の各ピクセルのうち、予め翻訳された画像の画素値と変形された画像中の画素値の比を取得し、それにより、該比に基づいて、予め翻訳された画像中の各ピクセルの画素値と変形された画像中の各ピクセルの画素値とを融合することができる。

実際の使用に当たって、マスク画像中のピクセルの画素値は、予め翻訳された画像中の同じピクセルの加重であってもよく、変形された画像中の同じピクセルの加重であってもよい。例えば、マスク画像中のｉ番目のピクセルの画素値が０．７であると、予め翻訳された画像中のｉ番目のピクセルの加重が０．７（または０．３）であると決定することができ、これに対応して、変形された画像中のｉ番目のピクセルの加重が０．３（または０．７）であり、予め翻訳された画像中のｉ番目のピクセルの画素値が１０であると、変形された画像中のｉ番目のピクセルの画素値が３０であり、融合して生成されたターゲット翻訳画像中のｉ番目のピクセルの画素値が２２または２４である。

これにより、変形された画像と予め翻訳された画像中の各ピクセルの画素値に対して、それぞれマスク画像の加重にしたがって融合動作を行うことにより、融合して生成されたターゲット翻訳画像中の各ピクセルの画素値が翻訳ニーズを満たすことができるとともに、オリジナル画像の高精細かつ豊かな高周波詳細情報を十分に示すことができ、それにより、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。

よって、本願に係る画像翻訳方法は、まず画像翻訳要求を取得し、次に画像翻訳要求内の元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成し、さらに変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。これにより、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。

上記実施例を実現するために、本願の実施例は、画像翻訳装置をさらに提案する。該画像翻訳装置が電子機器に設けることができる。図５は本願の実施例に係る画像翻訳装置の構造模式図である。

図５に示すように、該画像翻訳装置４００は第１取得モジュール４１０、第１処理モジュール４２０、第２処理モジュール４３０及び第１融合モジュール４４０を備えることができる。

第１取得モジュール４１０は、元の画像を含む画像翻訳要求を取得するために用いられ、第１処理モジュール４２０は、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられ、第２処理モジュール４３０は、前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するために用いられ、第１融合モジュール４４０は、前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するために用いられる。

本願の実施例の１つの可能な実現形態では、翻訳要求は、ターゲット翻訳画像が属する第１ドメインをさらに含み、第１取得モジュール４１０は、画像翻訳要求を取得した後に、さらに、ターゲット翻訳画像が属する第１ドメインに基づいて、ターゲット生成器を取得するために用いられ、第１処理モジュール４２０は、具体的には、ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる。

本願の実施例の他の可能な実現形態では、ターゲット翻訳画像が属する第１ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、第１取得モジュール４１０は、画像翻訳要求を取得した後に、さらに、元の画像を認識し、元の画像が属する第２ドメインを決定し、元の画像が属する第２ドメイン、及びターゲット翻訳画像が属する第１ドメインに基づいて、Ｎ種の生成器からターゲット生成器を選択するために用いられる。

本願の実施例のまた他の可能な実現形態では、第１取得モジュール４１０は、画像翻訳要求を取得した後に、さらに、元の画像を認識して、元の画像が属する第２ドメインを決定し、元の画像が属する第２ドメインに基づいて、ターゲット生成器を取得するために用いられ、第１処理モジュール４２０は、具体的には、ターゲット生成器を利用して、元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる。

本願の実施例のさらにまた他の可能な実現形態では、元の画像が属する第２ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、第１取得モジュール４１０は、画像翻訳要求を取得した後に、さらに、ターゲット翻訳画像が属する第１ドメインを取得し、ターゲット翻訳画像が属する第１ドメイン、及び元の画像が属する第２ドメインに基づいて、Ｎ種の生成器からターゲット生成器を選択するために用いられる。

図６は本願の実施例に係る他の画像翻訳装置の構造模式図である。本願の実施例の１つの可能な実現形態では、図６に示すように、第１処理モジュール４２０は、第１処理ユニット４２１と最構築ユニット４２２とを備えることができる。

第１処理ユニット４２１は、元の画像を処理して、元の画像に含まれたターゲットオブジェクトの第１ドメインでの特徴を取得するために用いられ、最構築ユニット４２２は、ターゲットオブジェクトの第１ドメインでの特徴に基づいて、ターゲットオブジェクトの第２ドメインでの画像を再構築して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる。

図７は本願の実施例に係るまた他の画像翻訳装置の構造模式図である。本願の実施例の１つの可能な実現形態では、図７に示すように、第１融合モジュール４４０は、決定ユニット４４１と第１融合ユニット４４２とを備えることができる。

決定ユニット４４１は、マスク画像中の各ピクセルの画素値に基づいて、予め翻訳された画像の第１加重及び変形された画像の第２加重を決定するために用いられ、第１融合ユニット４４２は、第１加重及び第２加重に基づいて、予め翻訳された画像中の各ピクセルの画素値と変形された画像中の各ピクセルの画素値を融合して、ターゲット翻訳画像を生成するために用いられる。

なお、本願の実施例の画像翻訳装置に開示されていない詳細については、本願の実施例の画像翻訳方法に開示された詳細を参照でき、ここで具体的に説明しない。

本願の実施例の画像翻訳装置は、まず第１取得モジュールにより元の画像を含む画像翻訳要求を取得し、次に第１処理モジュールにより元の画像を処理して、元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成し、さらに第２処理モジュールにより変形パラメータに基づいて元の画像に対して変形処理を行って、変形された画像を取得し、最後に第１融合モジュールにより変形された画像、予め翻訳された画像及びマスク画像を融合して、ターゲット翻訳画像を生成する。これにより、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させる。

上記実施例を実現するために、本願の実施例は、画像翻訳モデルによって上記の画像翻訳方法を実現するように、画像翻訳モデルのトレーニング方法をさらに提案する。図７は本願の実施例に係る画像翻訳モデルのトレーニング方法のフローチャートである。

なお、本願の実施例の画像翻訳モデルのトレーニング方法の実行本体は画像翻訳モデルのトレーニング装置であり、画像翻訳モデルのトレーニング装置は、電子機器に配置されてもよく、画像翻訳モデルをトレーニングすることにより、第１生成器を得ることを実現する。電子機器は、データ処理をできる任意の端末機器またはサーバなどであり得、本願は、これについて制限しない。

図８に示すように、画像翻訳モデルのトレーニング方法は、以下のステップを含むことができる。
ステップ７０１：トレーニングサンプルセットを取得する。

トレーニングサンプルセットは、第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含む。

ステップ７０２：第１初期生成器を利用して第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成する。

ステップ７０３：第１変形パラメータセットに基づいて、第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得する。

ステップ７０４：第１変形された画像セット、第１予め翻訳された画像セット及び第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得する。

ステップ７０５：第３画像セットにおける画像及び第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、第１初期判断装置から出力された第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得する。

ステップ７０６：第１確率セット及び第２確率セットに基づいて、第１初期生成器及び第１初期判断装置を補正して、第１ドメインに属するターゲット生成器を生成する。第１ドメインに属するターゲット生成器は、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するために用いられる。

第１画像セットにおける画像がそれぞれ第２画像セットにおける画像に１つずつマッチングする。

具体的には、トレーニングサンプルセット内の第１画像セットにおける画像が第２画像セットにおける画像に１つずつマッチングすると、第１画像セットにおける画像を第１初期生成器の入力として、第１初期生成器により第１画像セットにおける画像をそれぞれ翻訳し、第２ドメインに属する第３画像セットを取得し、第１画像セットにおける画像をそれぞれ翻訳するプロセスについては、上記実施例に提案される画像翻訳方法を参照でき、冗長さを回避するために、ここで詳しく説明しない。

第３画像セットを取得した後、第３画像セットにおける画像及び第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを第１初期判断装置により出力する。このとき、第１確率セットと第２確率セットの大きさを比較することによって、第１初期生成器及び第１初期判断装置を補正することができる。

第１確率セットと第２確率セットとの偏差が大きいと、第１初期生成器により画像を翻訳するとき、誤差が大きいことが示され、従って、第１初期生成器及び第１初期判断装置に対して対応する補正を行って、第１ドメインに属するターゲット生成器を取得する必要があり、第１確率セットと第２確率セット偏差との偏差が小さいと、第１初期生成器により画像を翻訳するとき、誤差が小さいことが示され、従って、第１初期生成器及び第１初期判断装置に対して対応する補正を行う必要がなく、直接第１初期生成器を第１ドメインに属するターゲット生成器とすることができる。第１ドメインに属するターゲット生成器を画像翻訳モデルとして、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳することができる。

これにより、画
像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。

なお、第１画像セットにおける画像が第２画像セットにおける画像にマッチングしていないと、上記実施例にて取得された第３画像セットにおける画像が第２画像セットにおける画像にマッチングしていないため、第１確率セット及び第２確率セットに基づいて第１初期生成器及び第１初期判断装置を正確に補正できず、生成された画像翻訳モデルの誤差が大きくなってしまう。

従って、本願の１つの実施例では、第１画像セットにおける画像が第２画像セットにおける画像にマッチングしていないと、図９に示すように、上記ステップ７０６の後に、該方法は、以下のステップをさらに含む。
ステップ８０１：第２初期生成器を利用して第３画像セットにおける画像をそれぞれ処理して、第２予め翻訳された画像セット、第２マスク画像セット及び第２変形パラメータセットを生成する。

ステップ８０２：第２変形パラメータセットに基づいて、第３画像セットにおける画像に対してそれぞれ変形処理を行って、第２変形された画像セットを取得する。

ステップ８０３：第２変形された画像セット、第２予め翻訳された画像セット及び第２マスク画像セットにおける対応する画像をそれぞれ融合して、第４画像セットを取得する。

ステップ８０４：第４画像セットにおける画像及び第１画像セットにおける画像をそれぞれ第２初期判断装置に入力して、第２初期判断装置から出力された第４画像セットにおける画像がそれぞれ実際の画像に属する第３確率セット、及び第１画像セットにおける画像がそれぞれ実際の画像に属する第４確率セットを取得する。

ステップ８０５：第３確率セット及び第４確率セットに基づいて、第１初期生成器、第２初期生成器、第１初期判断装置及び第２初期判断装置を補正して、第１ドメインに属するターゲット生成器及び第２ドメインに属するターゲット生成器を生成する。第１ドメインに属するターゲット生成器は、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するために用いられ、第２ドメインに属するターゲット生成器は、第２ドメインに位置する画像を第１ドメインに位置する画像に翻訳するために用いられる。

具体的には、トレーニングサンプルセット内の第１画像セットにおける画像が第２画像セットにおける画像にマッチングしていないと、第３画像セットにおける画像を第２初期生成器の入力として、第２初期生成器により第３画像セットにおける画像をそれぞれ翻訳して、第１ドメインに属する第４画像セットを取得することができ、第３画像セットにおける画像をそれぞれ翻訳するプロセスについては、上記実施例で提案される画像翻訳方法を参照でき、冗長さを回避するために、ここで詳しく説明しない。

第４画像セットを取得した後、第４画像セットにおける画像及び第１画像セットにおける画像をそれぞれ第２初期判断装置に入力して、第４画像セットにおける画像がそれぞれ実際の画像に属する第３確率セット、及び第１画像セットにおける画像がそれぞれ実際の画像に属する第４確率セットを第２初期判断装置により出力する。このとき、第３確率セットと第４確率セットの大きさを比較することにより、第１初期生成器、第２初期生成器、第１初期判断装置及び第２初期判断装置を補正することができる。

第３確率セットと第４確率セットとの偏差が大きいと、第１初期生成器及び第２初期生成器により画像を翻訳するとき、誤差が大きいことが示され、従って、第１初期生成器、第２初期生成器、第１初期判断装置及び第２初期判断装置に対して対応する補正を行って、第１ドメインに属するターゲット生成器及び第２ドメインに属するターゲット生成器を取得する必要があり、第３確率セット及び第４確率セット偏差が小さいと、第１初期生成器及び第２初期生成器により画像を翻訳するとき、誤差が小さいことが示され、従って、第１初期生成器、第２初期生成器、第１初期判断装置及び第２初期判断装置を補正する必要がなく、直接第１初期生成器を第１ドメインに属するターゲット生成器とし、第２初期生成器を第２ドメインに属するターゲット生成器とすることができる。第１ドメインに属するターゲット生成器を画像翻訳モデルとして、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳し、第２ドメインに属するターゲット生成器を他の画像翻訳モデルとして、第２ドメインに位置する画像を第１ドメインに位置する画像に翻訳することができ、該実施例の第１ドメインに属するターゲット生成器は、上記実施例の第１ドメインに属するターゲット生成器と同じであってもよく、異なってもよく、具体的には、実際な状況に応じて選択することができる。

これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。

よって、本願に係る画像翻訳モデルのトレーニング方法は、第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含むトレーニングサンプルセットを取得し、第１初期生成器を利用して第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成し、第１変形パラメータセットに基づいて、第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得し、第１変形された画像セット、第１予め翻訳された画像セット及び第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得し、第３画像セットにおける画像及び第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、第１初期判断装置から出力された第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得し、第１確率セット及び第２確率セットに基づいて、第１初期生成器及び第１初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器を生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。

上記実施例を実現するために、本願の実施例は、さらに、画像翻訳モデルのトレーニング装置を提案する。該画像翻訳モデルのトレーニング装置は電子機器に設けられてもよい。図１０は本願の実施例に係る１つの画像翻訳モデルのトレーニング装置の構造模式図である。

図１０に示すように、該画像翻訳モデルのトレーニング装置９００は、第２取得モジュール９０１、第３処理モジュール９０２、第４処理モジュール９０３、第２融合モジュール９０４、第３取得モジュール９０５及び第１補正モジュール９０６を備える。

第２取得モジュール９０１は、第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含むトレーニングサンプルセットを取得するために用いられ、第３処理モジュール９０２は、第１初期生成器を利用して第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成するために用いられ、第４処理モジュール９０３は、第１変形パラメータセットに基づいて、第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得するために用いられ、第２融合モジュール９０４は、第１変形された画像セット、第１予め翻訳された画像セット及び第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得するために用いられ、第３取得モジュール９０５は、第３画像セットにおける画像及び第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、第１初期判断装置から出力された第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得するために用いられ、第１補正モジュール９０６は、第１確率セット及び第２確率セットに基づいて、第１初期生成器及び第１初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器を生成するために用いられる。

本願の１つの実施例では、第１画像セットにおける画像がそれぞれ第２画像セットにおける画像に１つずつマッチングする。

図１１は本願の実施例に係る他の画像翻訳モデルのトレーニング装置の構造模式図である。本願の実施例の１つの可能な実現形態では、第１画像セットにおける画像が第２画像セットにおける画像にマッチングしておらず、図１１に示すように、該トレーニング装置は、第５処理モジュール９０７、第６処理モジュール９０８、第３融合モジュール９０９、第４取得モジュール９１０及び第２補正モジュール９１１をさらに備える。

第５処理モジュール９０７は、第２初期生成器を利用して第３画像セットにおける画像をそれぞれ処理して、第２予め翻訳された画像セット、第２マスク画像セット及び第２変形パラメータセットを生成するために用いられ、第６処理モジュール９０８は、第２変形パラメータセットに基づいて、第３画像セットにおける画像に対してそれぞれ変形処理を行って、第２変形された画像セットを取得するために用いられ、第３融合モジュール９０９は、第２変形された画像セット、第２予め翻訳された画像セット及び第２マスク画像セットにおける対応する画像をそれぞれ融合して、第４画像セットを取得するために用いられ、第４取得モジュール９１０は、第４画像セットにおける画像及び第１画像セットにおける画像をそれぞれ第２初期判断装置に入力して、第２初期判断装置から出力された第４画像セットにおける画像がそれぞれ実際の画像に属する第３確率セット、及び第１画像セットにおける画像がそれぞれ実際の画像に属する第４確率セットを取得するために用いられ、第２補正モジュール９１１は、第３確率セット及び第４確率セットに基づいて、第１初期生成器、第２初期生成器、第１初期判断装置及び第２初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器、及び第２ドメインに位置する画像を第１ドメインに位置する画像に翻訳するための第２ドメインに属するターゲット生成器を生成するために用いられる。

なお、本願の実施例の画像翻訳モデルのトレーニング装置に開示されている詳細については、本願の実施例の画像翻訳モデルのトレーニング方法に開示されている詳細を参照し、ここで具体的に説明しない。

本願の実施例の画像翻訳モデルのトレーニング装置は、第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含むトレーニングサンプルセットを第２取得モジュールにより取得し、第３処理モジュールにより第１初期生成器を利用して第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成し、第４処理モジュールにより第１変形パラメータセットに基づいて、第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得し、第２融合モジュールにより第１変形された画像セット、第１予め翻訳された画像セット及び第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得し、第３取得モジュールにより第３画像セットにおける画像及び第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、第１初期判断装置から出力された第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得し、第１補正モジュールにより第１確率セット及び第２確率セットに基づいて、第１初期生成器及び第１初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器を生成する。これにより、画像翻訳モデルをトレーニングし、トレーニングされた画像翻訳モデルにより画像を翻訳し、生成されたターゲット翻訳画像に元の画像から変形して生成された変形された画像が含まれるため、ターゲット翻訳画像がオリジナル画像で入力された高精細かつ豊かな高周波詳細情報を活用し、生成されたターゲット翻訳画像の解像度を向上させるとともに、生成されたターゲット翻訳画像の背景部分がオリジナル画像に一致し、それにより、画像のシームレス融合を実現でき、生成されたターゲット翻訳画像の自然さを大幅に向上させるとともに、該画像翻訳モデルのトレーニング方法が簡単かつ効率的であり、画像翻訳モデルの担持が低い。

本願の実施例によれば、本願は、電子機器及び可読記憶媒体をさらに提供する。本願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記画像翻訳方法又は上記画像翻訳モデルのトレーニング方法が実行される。

図１２に示すように、本願の実施例による画像翻訳方法または画像翻訳モデルのトレーニング方法の電子機器のブロック図である。電子機器は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータの様な形式のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルアシスタント、セルラーホン、スマートフォン、ウェアラブルデバイス及び他の同様のコンピューティングデバイスなどの様な形式のモバイルデバイスを備えることができる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は、単なる例示的なものとなることを意図されており、本明細書で説明された及び／または請求された本願の実装を制限することを意図したものではない。

図１２に示すように、該電子機器は、１つまたは複数のプロセッサ１１０１、メモリ１１０２、及び高速インターフェースと低速インターフェースを含んだ、各コンポーネントを接続するためのインターフェースを備える。各部材は、様々なバスを使って相互接続され、共通のマザーボード上に取り付けられるか、または必要に応じて他の方式で取り付けられることができる。プロセッサは、メモリ内またはメモリ上において外部入力／出力装置（例えば、インターフェースにカップリングされた表示機器）にＧＵＩのグラフィック情報を表示する命令を含んだ、電子機器内に実行される命令を処理する。他の実施形態では、必要があれば、複数のプロセッサ及び／または複数のバスを複数のメモリ及び複数のメモリとともに使用できる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作（たとえば、サーババンク、１群のブレードサーバ、またはマルチプロセッサシステムとして）を提供する。図１２では、１つのプロセッサ１１０１を例とする。

メモリ１１０２は、本願に係る非一時的なコンピュータ可読記憶媒体である。前記メモリには、少なくとも１つのプロセッサにより実行可能な命令が記憶され、前記少なくとも１つのプロセッサに本願に係る画像翻訳方法または画像翻訳モデルのトレーニング方法を実行させる。本願の非一時的なコンピュータ可読記憶媒体には、コンピュータに本願に係る画像翻訳方法または画像翻訳モデルのトレーニング方法を実行させるためのコンピュータ命令が記憶されている。

メモリ９０２は、非一時的なコンピュータ可読記憶媒体として、本願の実施例の画像翻訳方法または画像翻訳モデルのトレーニング方法に対応するプログラム命令／モジュール（たとえば、図５に示す第１取得モジュール４１０、第１処理モジュール４２０、第２処理モジュール４３０及び第１融合モジュール４４０、図１０に示す第２取得モジュール９０１、第３処理モジュール９０２、第４処理モジュール９０３、第２融合モジュール９０４、第３取得モジュール９０５及び第１補正モジュール９０６）などの、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを記憶することができる。プロセッサ１１０１は、メモリ１１０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法実施例の画像翻訳方法または画像翻訳モデルのトレーニング方法を実現する。

メモリ１１０２は、プログラムストレージエリア及びデータストレージエリアを含み、プログラムストレージエリアは、オペレーティングシステム、少なくとも１つの機能によって必要とされるアプリケーションプログラムを記憶することができ、データストレージエリアは、画像の翻訳または画像翻訳モデルのトレーニングの電子機器の利用に従って形成されるデータなどを記憶することができる。また、メモリ９０２は、高速ランダムアクセスメモリを備えてもよく、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイスのような非一時的なメモリ、または他の非一時的な固体状態記憶デバイスをさらに含んでもよい。いくつかの実施例では、メモリ１１０２は、好ましくは、ネットワークを介して画像の翻訳または画像翻訳モデルのトレーニングの電子機器に接続できた、プロセッサ１１０１に対して遠隔に配置されるメモリを含む。上記ネットワークの例には、インターネット、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるがこれらに限られない。

画像翻訳方法または画像翻訳モデルのトレーニング方法の電子機器は、さらに、入力装置１１０３及び出力装置１１０４を含んでもよい。プロセッサ１１０１、メモリ１１０２、入力装置１１０３及び出力装置１１０４は、バスまたは他の形式で接続されてもよく、図１１において、バスを介する接続を例とする。

入力装置１１０３は、入力された数字またはキャラクタ情報を受信し、画像の翻訳または画像翻訳モデルのトレーニングの電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成してもよく、たとえばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、１つのまたは複数のマウスキー、トラックボール、ジョイスティックなどの入力装置である。出力装置１１０４は、表示機器、補助照明装置（たとえば、ＬＥＤ）及び触覚フィードバック装置（たとえば、バイブラモータ）などを含んでもよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含んでもよいがこれらに限られない。いくつかの実施形態では、ディスプレイ装置は、タッチスクリーンであり得る。

ここで説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳIＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれらの組合せで実現することができる。これらの様々な実施形態は、１つまたは複数のコンピュータプログラムで実施されることを含むことができ、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラム可能プロセッサを含むプログラム可能システムで実行及び／または解釈でき、該プログラム可能プロセッサは、特定用途向けまたは汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、該ストレージシステム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも称される）は、プログラム可能プロセッサに対するマシン命令を含み、高レベル手続き型及び／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／マシン言語で実装することができる。本明細書で使用される際、「マシン可読媒体」及び「コンピュータ可読媒体」という用語は、マシン命令及び／またはデータをプログラム可能プロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／または装置（たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））であり、マシン可読信号であるマシン命令を受信する機器可読媒体を含む。用語「マシン可読信号」とは、マシン命令及び／またはデータをプログラム可能プロセッサに提供するための任意の信号である。

ユーザとのインタラクションを提供するために、コンピュータ上で、ここで説明されているシステム及び技術を実施することができ、該コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウスまたはトラックボール）とを有し、ユーザは、該キーボード及び該ポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供するために用いられてもよい。例えば、ユーザに提供されるフィードバックは、任意の形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、またはミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェースまたはウェブブラウザを有するユーザコンピュータ、ユーザは、該グラフィカルユーザインタフェースまたは該ウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、またはこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形式または媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されてもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント-サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。サーバは、クラウドサーバであってもよく、また、クラウドコンピューティングサーバまたはクラウドホストと呼称され、クラウドコンピューティングサービス系における１つのホストコンピュータ製品であり、従来の物理ホストコンピュータ及びＶＰＳサービスに存在する、管理難度が高く、サービス拡張性が弱いという欠陥を解決する。

上記に示される様々な形式のフローを使用して、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。本願の精神と原則内で行われる任意の修正、同等の置換、及び改良などは、いずれも本願の保護範囲内に含まれるべきである。

Claims

画像翻訳方法であって
元の画像を含む画像翻訳要求を取得するステップと、
前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップと、前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するステップと、
前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するステップとを含む、
ことを特徴とする画像翻訳方法。
前記翻訳要求は、前記ターゲット翻訳画像が属する第１ドメインをさらに含み、画像翻訳要求を取得するステップの後に、
前記ターゲット翻訳画像が属する第１ドメインに基づいて、ターゲット生成器を取得するステップをさらに含み、
前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップは、
前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記ターゲット翻訳画像が属する第１ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、画像翻訳要求を取得するステップの後に、
前記元の画像を認識して、前記元の画像が属する第２ドメインを決定するステップと、
前記元の画像が属する第２ドメイン及び前記ターゲット翻訳画像が属する第１ドメインに基づいて、前記Ｎ種の生成器から前記ターゲット生成器を選択するステップとをさらに含む、
ことを特徴とする請求項２に記載の方法。
前記画像翻訳要求を取得するステップの後に、
前記元の画像を認識して、前記元の画像が属する第２ドメインを決定するステップと、
前記元の画像が属する第２ドメインに基づいて、ターゲット生成器を取得するステップをさらに含み、
前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップは、
前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップを含む、
ことを特徴とする請求項１に記載の方法。
前記元の画像が属する第２ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、画像翻訳要求を取得するステップの後に、
ターゲット翻訳画像が属する第１ドメインを取得するステップと、
前記ターゲット翻訳画像が属する第１ドメイン及び前記元の画像が属する第２ドメインに基づいて、前記Ｎ種の生成器から前記ターゲット生成器を選択するステップとをさらに含む、
ことを特徴とする請求項４に記載の方法。
前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップは、
前記元の画像を処理して、前記元の画像に含まれたターゲットオブジェクトの第１ドメインでの特徴を取得するステップと、
前記ターゲットオブジェクトの第１ドメインでの特徴に基づいて、ターゲットオブジェクトの前記第２ドメインでの画像を再構築し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するステップとを含む、
ことを特徴とする請求項１〜５のいずれか１項に記載の方法。
前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するステップは、
前記マスク画像中の各ピクセルの画素値に基づいて、前記予め翻訳された画像の第１加重及び前記変形された画像の第２加重を決定するステップと、
前記第１加重及び前記第２加重に基づいて、前記予め翻訳された画像中の各ピクセルの画素値と前記変形された画像中の各ピクセルの画素値とを融合して、前記ターゲット翻訳画像を生成するステップとを含む、
ことを特徴とする請求項１〜５のいずれか１項に記載の方法。
画像翻訳モデルのトレーニング方法であって
第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含むトレーニングサンプルセットを取得するステップと、
第１初期生成器を利用して前記第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成するステップと、
前記第１変形パラメータセットに基づいて、前記第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得するステップと、
前記第１変形された画像セット、前記第１予め翻訳された画像セット及び前記第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得するステップと、
前記第３画像セットにおける画像及び前記第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、前記第１初期判断装置から出力された前記第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び前記第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得するステップと、
前記第１確率セット及び前記第２確率セットに基づいて、前記第１初期生成器及び前記第１初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器を生成するステップとを含む、
ことを特徴とする画像翻訳モデルのトレーニング方法。
前記第１画像セットにおける画像がそれぞれ前記第２画像セットにおける画像に１つずつマッチングする、ことを特徴とする請求項８に記載のトレーニング方法。
第１画像セットにおける画像が前記第２画像セットにおける画像にマッチングしておらず、前記第１確率セット及び前記第２確率セットに基づいて、前記第１初期生成器及び前記第１初期判断装置を補正した後に、
第２初期生成器を利用して前記第３画像セットにおける画像をそれぞれ処理して、第２予め翻訳された画像セット、第２マスク画像セット及び第２変形パラメータセットを生成するステップと、
前記第２変形パラメータセットに基づいて、前記第３画像セットにおける画像に対してそれぞれ変形処理を行って、第２変形された画像セットを取得するステップと、
前記第２変形された画像セット、第２予め翻訳された画像セット及び前記第２マスク画像セットにおける対応する画像をそれぞれ融合して、第４画像セットを取得するステップと、
前記第４画像セットにおける画像及び前記第１画像セットにおける画像をそれぞれ第２初期判断装置に入力して、前記第２初期判断装置から出力された前記第４画像セットにおける画像がそれぞれ実際の画像に属する第３確率セット、及び前記第１画像セットにおける画像がそれぞれ実際の画像に属する第４確率セットを取得するステップと、
前記第３確率セット及び前記第４確率セットに基づいて、前記第１初期生成器、前記第２初期生成器、前記第１初期判断装置及び前記第２初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器、及び第２ドメインに位置する画像を第１ドメインに位置する画像に翻訳するための第２ドメインに属するターゲット生成器を生成するステップとをさらに含む、
ことを特徴とする請求項８に記載のトレーニング方法。
画像翻訳装置であって
元の画像を含む画像翻訳要求を取得するための第１取得モジュールと、
前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するための第１処理モジュールと、
前記変形パラメータに基づいて、前記元の画像に対して変形処理を行って、変形された画像を取得するための第２処理モジュールと、
前記変形された画像、前記予め翻訳された画像及び前記マスク画像を融合して、ターゲット翻訳画像を生成するための第１融合モジュールとを備える、
ことを特徴とする画像翻訳装置。
前記翻訳要求は、前記ターゲット翻訳画像が属する第１ドメインをさらに含み、前記第１取得モジュールは、画像翻訳要求を取得した後に、さらに、
前記ターゲット翻訳画像が属する第１ドメインに基づいて、ターゲット生成器を取得するために用いられ、
前記第１処理モジュールは、具体的には、
前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる、
ことを特徴とする請求項１１に記載の装置。
前記ターゲット翻訳画像が属する第１ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、前記第１取得モジュールは、画像翻訳要求を取得した後に、さらに、
前記元の画像を認識して、前記元の画像が属する第２ドメインを決定し、
前記元の画像が属する第２ドメイン及び前記ターゲット翻訳画像が属する第１ドメインに基づいて、前記Ｎ種の生成器から前記ターゲット生成器を選択するために用いられる、
ことを特徴とする請求項１２に記載の装置。
前記第１取得モジュールは、画像翻訳要求を取得した後に、さらに、
前記元の画像を認識して、前記元の画像が属する第２ドメインを決定し、
前記元の画像が属する第２ドメインに基づいて、ターゲット生成器を取得するために用いられ、
前記第１処理モジュールは、具体的には、
前記ターゲット生成器を利用して、前記元の画像を処理し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するために用いられる、
ことを特徴とする請求項１１に記載の装置。
前記元の画像が属する第２ドメインに対応する生成器がＮ（Ｎは１より大きい整数である）種であると、前記第１取得モジュールは、画像翻訳要求を取得した後に、さらに、
ターゲット翻訳画像が属する第１ドメインを取得し、
前記ターゲット翻訳画像が属する第１ドメイン及び前記元の画像が属する第２ドメインに基づいて、前記Ｎ種の生成器から前記ターゲット生成器を選択するために用いられる、
ことを特徴とする請求項１４に記載の装置。
前記第１処理モジュールは、
前記元の画像を処理して、前記元の画像に含まれたターゲットオブジェクトの第１ドメインでの特徴を取得するための第１処理ユニットと、
前記ターゲットオブジェクトの第１ドメインでの特徴に基づいて、ターゲットオブジェクトの前記第２ドメインでの画像を再構築し、前記元の画像に対応する予め翻訳された画像、マスク画像及び変形パラメータを生成するための最構築ユニットとを備える、
ことを特徴とする請求項１１〜１５のいずれか１項に記載の装置。
前記第１融合モジュールは、
前記マスク画像中の各ピクセルの画素値に基づいて、前記予め翻訳された画像の第１加重及び前記変形された画像の第２加重を決定するための決定ユニットと、
前記第１加重及び前記第２加重に基づいて、前記予め翻訳された画像中の各ピクセルの画素値と前記変形された画像中の各ピクセルの画素値とを融合して、前記ターゲット翻訳画像を生成するための第１融合ユニットとを備える、
ことを特徴とする請求項１１〜１５のいずれか１項に記載の装置。
画像翻訳モデルのトレーニング装置であって
第１ドメインに属する第１画像セット、及び第２ドメインに属する第２画像セットを含むトレーニングサンプルセットを取得するための第２取得モジュールと、
第１初期生成器を利用して前記第１画像セットにおける画像をそれぞれ処理して、第１予め翻訳された画像セット、第１マスク画像セット及び第１変形パラメータセットを生成するための第３処理モジュールと、
前記第１変形パラメータセットに基づいて、前記第１画像セットにおける画像に対してそれぞれ変形処理を行って、第１変形された画像セットを取得するための第４処理モジュールと、
前記第１変形された画像セット、前記第１予め翻訳された画像セット及び前記第１マスク画像セットにおける対応する画像をそれぞれ融合して、第３画像セットを取得するための第２融合モジュールと、
前記第３画像セットにおける画像及び前記第２画像セットにおける画像をそれぞれ第１初期判断装置に入力して、前記第１初期判断装置から出力された前記第３画像セットにおける画像がそれぞれ実際の画像に属する第１確率セット、及び前記第２画像セットにおける画像がそれぞれ実際の画像に属する第２確率セットを取得するための第３取得モジュールと、
前記第１確率セット及び前記第２確率セットに基づいて、前記第１初期生成器及び前記第１初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器を生成するための第１補正モジュールとを備える、
ことを特徴とする画像翻訳モデルのトレーニング装置。
前記第１画像セットにおける画像がそれぞれ前記第２画像セットにおける画像に１つずつマッチングする、ことを特徴とする請求項１８に記載のトレーニング装置。
第１画像セットにおける画像が前記第２画像セットにおける画像にマッチングしておらず、前記トレーニング装置は、
第２初期生成器を利用して前記第３画像セットにおける画像をそれぞれ処理して、第２予め翻訳された画像セット、第２マスク画像セット及び第２変形パラメータセットを生成するための第５処理モジュールと、
前記第２変形パラメータセットに基づいて、前記第３画像セットにおける画像に対してそれぞれ変形処理を行って、第２変形された画像セットを取得するための第６処理モジュールと、前記第２変形された画像セット、第２予め翻訳された画像セット及び前記第２マスク画像セットにおける対応する画像をそれぞれ融合して、第４画像セットを取得するための第３融合モジュールと、
前記第４画像セットにおける画像及び前記第１画像セットにおける画像をそれぞれ第２初期判断装置に入力して、前記第２初期判断装置から出力された前記第４画像セットにおける画像がそれぞれ実際の画像に属する第３確率セット、及び前記第１画像セットにおける画像がそれぞれ実際の画像に属する第４確率セットを取得するための第４取得モジュールと、
前記第３確率セット及び前記第４確率セットに基づいて、前記第１初期生成器、前記第２初期生成器、前記第１初期判断装置及び前記第２初期判断装置を補正して、第１ドメインに位置する画像を第２ドメインに位置する画像に翻訳するための第１ドメインに属するターゲット生成器、及び第２ドメインに位置する画像を第１ドメインに位置する画像に翻訳するための第２ドメインに属するターゲット生成器を生成するための第２補正モジュールとをさらに備える、

ことを特徴とする請求項１８に記載のトレーニング装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリとを備え、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサにより実行されることにより、前記少なくとも１つのプロセッサが請求項１〜７のいずれか１項に記載の方法または請求項８〜１０のいずれか１項に記載のトレーニング方法を実行できる、ことを特徴とする電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１〜７のいずれか１項に記載の方法または請求項８〜１０のいずれか１項に記載のトレーニング方法を実行させる、
ことを特徴とするコンピュータ命令が記憶されている非一時的なコンピュータ可読記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、前記コンピュータに請求項１〜７のいずれか１項に記載の方法または請求項８〜１０のいずれか１項に記載のトレーニング方法が実行される、
ことを特徴とするコンピュータプログラム。