JP6639700B2

JP6639700B2 - マルチモーダルデジタル画像を生成する方法及びシステム

Info

Publication number: JP6639700B2
Application number: JP2018557519A
Authority: JP
Inventors: リウ、ミン−ユ; チュゼル、オンセル
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2016-06-01
Filing date: 2017-05-24
Publication date: 2020-02-05
Anticipated expiration: 2037-05-24
Also published as: CN109196526A; WO2017209307A1; US20170351935A1; DE112017002799B4; DE112017002799T5; JP2019510325A; US9971958B2; CN109196526B

Description

本発明は、包括的には、画像合成に関し、より詳細には、ニューラルネットワークを用いてマルチモーダルデジタル画像を生成することに関する。

ペア画像生成は、異なる属性を有する顔、異なるフォントの文字、又はカラー画像及び対応する深度画像等の２つの異なるモダリティの対応する画像ペアを生成することを指す。マルチモーダル画像生成は、異なるモダリティの１つ以上の対応する画像ペアを生成することを指す。マルチモーダル画像の生成は広範囲の用途を有する。例えば、マルチモーダル画像は、映画及びコンピューターゲームの新規の数対の対応する画像をレンダリングするために適用することができる。例えば、米国特許第７８７６３２０号に記載されている方法は、２つ以上の顔画像を合成するか、又は少なくとも１つの顔画像と１つの顔グラフィックス若しくは顔アニメーションとを合成し、それによって、架空の顔画像を作成する。

多数の方法が、異なるモダリティの画像間の１対１の対応関係を用いて、マルチモーダルデジタル画像を生成する。それらの方法の例には、深層マルチモーダルボルツマン方法及び結合辞書学習方法が含まれる。幾つかの方法は、物理モデルを用いて、画像超解像又は画像ぼけ除去等の２つの異なるモダリティの対応する画像を生成することができる。しかしながら、一般的な場合に、異なるモダリティの画像間の１対１の対応関係を求めることは困難である。

したがって、トレーニングデータにおいては、異なるモダリティの間の１対１の対応関係に依拠することなく、マルチモーダルデジタル画像を生成する必要がある。

本発明の幾つかの実施の形態は、デジタル画像の異なるモダリティを生成するように共同でトレーニングされたニューラルネットワークのセットを提供する。例えば、１つの実施の形態は、デジタル画像の異なるモダリティの間に１対１の対応関係が存在しなくても、異なるモダリティにおける対応する画像のセットをレンダリングすることができるニューラルネットワークのセットを提供する。

幾つかの実施の形態は、ニューラルネットワークがデジタル画像を生成するように独立してトレーニングされるとき、生成されるデジタル画像は関係付けられていないという認識に基づいている。一方、例えば共同トレーニング中に、ニューラルネットワークに対して重み共有制約を強制することによって、ニューラルネットワークを、マルチモーダルデジタル画像を生成するようにトレーニングすることができる。例えば、１つの実施の形態は、デジタル画像の第１のモダリティを生成するようにトレーニングされた第１のニューラルネットワークと、デジタル画像の第２のモダリティを生成するようにトレーニングされた第２のニューラルネットワークとを用いて、マルチモーダルデジタル画像を生成する。第１のニューラルネットワークの構造及び層の数は、第２のニューラルネットワークの構造及び層の数と同一である。また、第１のニューラルネットワークにおける少なくとも１つの層は、第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、第１のニューラルネットワークにおける少なくとも１つの層は、第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する。

そのようにして、ニューラルネットワークの同一の構造並びに幾つかのパラメーターの数及び同一の値は、生成されるデジタル画像における或る共通性を強制する一方、ニューラルネットワークの他のパラメーターの異なる値は、モダリティの相違を実施する。例えば、１つの実施の形態では、第１のニューラルネットワーク及び第２のニューラルネットワークの幾つかの層は、デジタル画像の高次特徴を生成する同一のパラメーターを有する一方、第１のニューラルネットワーク及び第２のニューラルネットワークの他の層は、デジタル画像の低次特徴を生成する異なるパラメーターを有する。通常、低次特徴は、高次特徴から導出される。例えば、高次特徴は、画像内の物体のタイプ及び構成の記述とすることができ、低次特徴は、物体のタイプ及び構成に基づいて求められた物体のエッジとすることができる。

したがって、１つの実施の形態は、マルチモーダルデジタル画像を生成するコンピューター実施方法を開示する。該方法は、第１のニューラルネットワークを用いてベクトルを処理して前記デジタル画像の第１のモダリティを生成することと、第２のニューラルネットワークを用いて前記ベクトルを処理して前記デジタル画像の第２のモダリティを生成することとを含み、前記第１のニューラルネットワークの構造及び層の数は、前記第２のニューラルネットワークの構造及び層の数と同一であり、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する。該方法の前記ステップは、プロセッサを用いて実行される。

別の実施の形態は、マルチモーダルデジタル画像を生成するシステムであって、前記デジタル画像の第１のモダリティを生成するようにトレーニングされた第１のニューラルネットワークと、前記デジタル画像の第２のモダリティを生成するようにトレーニングされた第２のニューラルネットワークとを記憶する少なくとも１つの非一時的コンピューター可読メモリであって、前記第１のニューラルネットワークの構造及び層の数は、前記第２のニューラルネットワークの構造及び層の数と同一であり、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する、少なくとも１つの非一時的コンピューター可読メモリと、前記デジタル画像の第１のモダリティを生成するようにトレーニングされた前記第１のニューラルネットワークを用いてベクトルを処理することと、前記デジタル画像の第２のモダリティを生成するようにトレーニングされた前記第２のニューラルネットワークを用いて前記ベクトルを処理することとによって前記マルチモーダルデジタル画像を生成し、前記マルチモーダルデジタル画像を前記メモリに記憶するプロセッサとを備える、システムを開示する。

更に別の実施の形態は、命令が記憶されている非一時的コンピューター可読媒体であって、該命令は、プロセッサによって実行されると、前記デジタル画像の第１のモダリティを生成するようにトレーニングされた第１のニューラルネットワークを用いてベクトルを処理することと、前記デジタル画像の第２のモダリティを生成するようにトレーニングされた第２のニューラルネットワークを用いて前記ベクトルを処理することとを含むステップを実行し、前記第１のニューラルネットワークの構造及び層の数は、前記第２のニューラルネットワークの構造及び層の数と同一であり、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する、非一時的コンピューター可読媒体を開示する。

本発明の幾つかの実施形態によるマルチモーダルデジタル画像を生成するコンピューターシステムのブロック図である。１つの実施形態によるマルチモーダルデジタル画像を生成するコンピューター実施方法のブロック図である。本発明の１つの実施形態によるマルチモーダルデジタル画像を生成する構造ニューラルネットワークの一例示的な概略図である。幾つかの実施形態によって用いられるニューラルネットワークのブロック図である。幾つかの実施形態による結合敵対的生成ネット（ＣｏＧＡＮ）フレームワークの概略図である。幾つかの実施形態によって課せられるＣｏＧＡＮにおける重み共有制約の一例を示す図である。幾つかの実施形態によって用いられるニューラルネットワークのトレーニングの概略図である。１つの実施形態によるニューラルネットワークのトレーニングの擬似コードを示す図である。１つの実施形態によるトレーニングシステムのブロック図である。１つの実施形態による手書き数字のマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示す図である。図６Ａのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。図６Ａのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。１つの実施形態による異なる属性を有するマルチモーダル顔画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示す図である。図７Ａのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。図７Ａのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。図７Ａのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。１つの実施形態による、カラー画像及びその対応する深度画像を含むマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示す図である。図８Ａのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。幾つかの実施形態によるモダリティ変換の一例を示す図である。

図１は、本発明の幾つかの実施形態によるマルチモーダルデジタル画像を生成するコンピューターシステム１００のブロック図を示している。マルチモーダルデジタル画像とは、本明細書において用いられるとき、異なるモダリティを有する構造デジタルデータである。例えば、マルチモーダルデジタル画像は、第１のモダリティを有する第１の画像と、第２のモダリティを有する第２の画像とを含むことができる。異なるモダリティは、デジタル画像を形成する異なるスタイル又はタイプのデータを表すことができる。異なるモダリティを有する異なるデジタル画像の例には、カラー画像、深度画像、及び熱画像が含まれる。幾つかの実施形態では、デジタル画像は、異なるフォーマットのうちの１つ又は組み合わせの構造デジタルデータである。例えば、デジタル画像は、画像、ビデオ、テキスト、及び音響のうちの１つ又は組み合わせを含むことができる。

デジタル画像の異なるモダリティは、通常、同じ又は少なくとも類似の構造情報を表す異なるタイプの異なる画像を形成する。そのために、マルチモーダルデジタル画像を形成する異なるモダリティの画像は関係付けられる。例えば、デジタル画像の第１のモダリティは、或るスタイルで描写されたテキストの第１の画像とすることができ、デジタル画像の第２のモダリティは、異なるスタイルで描写されているが同じテキストの第２の画像とすることができる。例えば、デジタル画像の第１のモダリティは、メガネを装着した人物の顔の第１の画像とすることができ、デジタル画像の第２のモダリティは、メガネを装着していないその人物の同じ顔の第２の画像とすることができる。例えば、デジタル画像の第１のモダリティは、シーンを表す各ピクセルの色情報を含む画像とすることができ、デジタル画像の第２のモダリティは、同じシーンを表す各ピクセルの深度情報を含む画像とすることができる。

コンピューターシステム１００は、記憶された命令を実行するように構成されたプロセッサ１０２と、このプロセッサによって実行可能な命令を記憶するメモリ１０４とを備える。プロセッサ１０２は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ１０４は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ１０２は、バス１０６を通じて１つ以上の入力デバイス及び出力デバイスに接続される。

コンピューターシステム１００は、マルチモーダルデジタル画像を生成するニューラルネットワーク画像ジェネレーター（ＮＮＩＧ）１１４を備える。ＮＮＩＧ１１４は、マルチモーダルデジタル画像を生成するように共同でトレーニングされたニューラルネットワークのセット、例えば、第１のニューラルネットワーク及び第２のニューラルネットワークを用いて実施される。例えば、第１のニューラルネットワーク及び第２のニューラルネットワークは、同じ入力を受け取り、マルチモーダルデジタル画像を生成することができる。この生成では、第１のニューラルネットワークがデジタル画像の第１のモダリティを生成し、第２のニューラルネットワークがデジタル画像の第２のモダリティを生成する。ＮＮＩＧ１１４は、システム１００のメモリに記憶することができる。

コンピューターシステム１００は、ＮＮＩＧ１１４によって用いられる補助データ及び／又は補助ソフトウェアモジュールを記憶するように適合された記憶デバイス１０８も備えることができる。例えば、記憶デバイス１０８は、マルチモーダルデジタル画像を生成するためにＮＮＩＧ１１４によって用いられる入力ベクトル１１０を記憶することができる。付加的に又は代替的に、記憶デバイス１０８は、ベクトル１１０を生成するベクトルジェネレーター１１２を記憶することができる。例えば、ベクトルジェネレーター１１２は、プロセッサ１０２又は他の任意の適したプロセッサを用いて実施することができる。ベクトル１１０は、種々の値又は更に任意の値を有することができる。例えば、ベクトルジェネレーター１１２は、確率分布を用いてベクトルの要素をランダムに生成することができる。記憶デバイス１０８は、ＮＮＩＧ１１４の構造及びパラメーターも記憶することができる。記憶デバイス１０８は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。

コンピューターシステム１００内のヒューマンマシンインターフェース１１６は、システムをキーボード１１８及びポインティングデバイス１２０に接続することができ、ポインティングデバイス１２０は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーンを含むことができる。コンピューターシステム１００は、当該システム１００をディスプレイデバイス１２４に接続するように適合されたディスプレイインターフェース１２２にバス１０６を通じてリンクすることができる。ディスプレイデバイス１２４は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。

コンピューターシステム１００は、当該システムを撮像デバイス１２８に接続するように適合された撮像インターフェース１２６にも接続することができる。撮像デバイス１２８は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。プリンターインターフェース１３０も、バス１０６を通じてコンピューターシステム１００に接続することができ、コンピューターシステム１００を印刷デバイス１３２に接続するように適合することができる。印刷デバイス１３２は、とりわけ、液体インクジェットプリンター、固体インクプリンター、大規模商用プリンター、サーマルプリンター、ＵＶプリンター、又は昇華型プリンターを含むことができる。ネットワークインターフェースコントローラー１３４は、コンピューターシステム１００を、バス１０６を通じてネットワーク１３６に接続するように適合されている。マルチモーダルデジタル画像は、ディスプレイデバイス、撮像デバイス、及び／又は印刷デバイスにレンダリングすることができる。マルチモーダルデジタル画像は、ネットワーク１３６の通信チャネルを介して送信することができ、及び／又は、記憶及び／又は更なる処理のためにコンピューターの記憶システム１０８内に記憶することができる。

図２Ａは、本発明の１つの実施形態によるマルチモーダルデジタル画像を生成するコンピューター実施方法のブロック図を示している。本方法は、第１のニューラルネットワーク２４０を用いてベクトル２１０を処理して（２２０）、デジタル画像の第１のモダリティ２２５を生成し、第２のニューラルネットワーク２５０を用いてベクトル２１０を処理して（２３０）、デジタル画像の第２のモダリティ２３５を生成する。本方法は、ＮＮＩＧ１１４を用いて実行することができ、コンピューターシステム１００のプロセッサ、例えばプロセッサ１０２を用いて実行することができる。

幾つかの実施形態は、ニューラルネットワークが画像を生成するように独立してトレーニングされるとき、生成される画像は関係付けられていないという認識に基づいている。一方、ニューラルネットワークにおいて重み共有制約を強制することによって、各モダリティにおいて十分なトレーニング画像が与えられると、ニューラルネットワークを、マルチモーダルデジタル画像を生成するように共同でトレーニングすることができる。

図２Ｂは、デジタル画像の第１のモダリティを生成するようにトレーニングされた第１のニューラルネットワーク２４０の構造と、デジタル画像の第２のモダリティを生成するようにトレーニングされた第２のニューラルネットワーク２５０の構造との一例示的な概略図を示している。第１のニューラルネットワークの構造、例えば、層の数及び層間の接続は、第２のニューラルネットワークの構造と同一である。加えて、第１のニューラルネットワークにおける少なくとも１つの層は、第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有する。一方、第１のニューラルネットワークにおける少なくとも１つの層は、第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する。図２Ｂの例には、層２３１、２３２、２３３、２３４、２３５、及び２３６が示されている。対応する層２３１、２３２、及び２３３は、同じパラメーターを有する一方、対応する層２３４、２３５、及び２４６は、異なるパラメーターを有する。

通常、同一のパラメーターを有する層は、画像の高次特徴を実施する上層である。例えば、双方のネットワークは、第１のニューラルネットワーク及び第２のニューラルネットワークの幾つかの上層について同一のパラメーターを実施しながら共同でトレーニングされる。そのような方法で、ネットワークの同一の構造及び同一のパラメーターは、生成される画像において或る共通性を強制する一方、ネットワークの少なくとも幾つかの層の異なるパラメーターは、異なるモダリティを実施する。例えば、１つの実施形態では、同一のパラメーターを有する第１のニューラルネットワーク及び第２のニューラルネットワークの層は、デジタル画像の高次特徴を生成し、異なるパラメーターを有する第１のニューラルネットワーク及び第２のニューラルネットワークの層は、デジタル画像の低次特徴を生成する。通常、低次特徴は、高次特徴から導出される。例えば、高次特徴は、画像内の物体のタイプ及び構成の記述とすることができ、低次特徴は、物体のタイプ及び構成に基づいて求められた物体のエッジとすることができる。

結合敵対的生成ネット
本発明の幾つかの実施形態は、結合敵対的生成ネット（ＣｏＧＡＮ）フレームワークを用いて、トレーニングデータセットに１対１の対応関係がなくてもマルチモーダルデジタル画像をレンダリングすることができるＮＮＩＧ１１４をトレーニングする。このフレームワークは、画像生成用の敵対的生成ネット（ＧＡＮ）に基づいている。ＣｏＧＡＮフレームワークは、少なくともＧＡＮのペアを含む。

各ＧＡＮは、１つの領域において画像を生成するようにトレーニングされ、ＣｏＧＡＮのフレームワークは、少なくとも１つの箇所において互いに関係付けられた異なる画像を各ＧＡＮに生成させる。例えば、２つのＧＡＮにおいて高次情報を復号化する層にネットワーク接続重みを共有させることによって、これらの２つのＧＡＮは、高次セマンティクスを同じ方法で復号化する。その場合、低次視覚情報を復号化する層は、共有されたセマンティクスを、各モダリティの弁別サブネットワークを混乱させる異なるモダリティの画像にマッピングする。生成サブネットワークにおいて重み共有制約を強制することによって、各領域において十分なトレーニング画像が与えられると、ＣｏＧＡＮは、複数のモダリティにおける対応関係を取得するようにトレーニングされる。

そのために、幾つかの実施形態では、第１のニューラルネットワーク及び第２のニューラルネットワークのうちの少なくとも一方又は双方は、敵対的トレーニング手順を用いてトレーニングされる。例えば、第１のニューラルネットワークの第１の生成サブネットワーク及び第１の弁別サブネットワーク、並びに第２のニューラルネットワークの第２の生成サブネットワーク及び第２の弁別サブネットワークは、ミニマックス目的関数を最小にするように共同でトレーニングすることができる。

敵対的生成ネット
図３は、ＮＮＩＧ１１４をトレーニングするために幾つかの実施形態によって用いられるＧＡＮのブロック図を示している。ＧＡＮフレームワークは、生成サブネットワーク３０１及び弁別サブネットワーク３０２の２つのサブネットワークを備える。生成サブネットワーク３０１の目的は、ランダム入力３０５、例えばベクトル２１０、からトレーニング画像３１０に類似している画像３００を合成又は生成することである。弁別サブネットワーク３０２の目的は、画像３１０を合成画像３００と区別する（３０３）ことである。生成サブネットワーク及び弁別サブネットワークの双方は、多層パーセプトロン、すなわちフィードフォワードニューラルネットワーク、又は多層畳み込みニューラルネットワークとして実施することができる。

形式的に、トレーニングデータセットをＤ_ＧＡＮとする。各サンプルｘはデータ分布ｘ：ｐ_Ｘから得られる。次元ｄのランダムベクトルをｚとする。１つの実施形態では、ｚは、多次元一様分布から得られる。代替の実施形態は、多次元正規分布等の異なる分布を用いる。生成サブネットワーク及び弁別サブネットワークをそれぞれｇ及びｆとする。関数ｇは、入力としてｚを取り、ｘと同じサポート（support）を有するランダムベクトルｇ（ｚ）を出力する。ｇ（ｚ）の分布をｐ_Ｇとして示す。関数ｆは、入力がｐ_Ｘから得られる確率を推定する。特に、ｘがｐ_Ｘからのものであるときはｆ（ｘ）＝１であり、ｘがｐ_Ｇからのものであるときはｆ（ｘ）＝０である。

類推として、ＧＡＮフレームワークは、ミニマックス２プレーヤーゲームに対応し、生成サブネットワーク及び弁別サブネットワークは、以下の式を解くことによって共同でトレーニングすることができる。

ここで、価値関数Ｖ_ＧＡＮは、以下の式によって与えられる。

ネットワークｆ及びｇをトレーニングするのに、確率的勾配降下法を有するバックプロパゲーションアルゴリズムが用いられる。幾つかの実施形態では、式（１）は、以下の２つの勾配更新ステップを交互に行うことによって解かれる。

ここで、θ_ｆ及びθ_ｇは、それぞれネットワークｆ及びｇの学習可能ネットワークパラメーターであり、λは学習率であり、上付き文字ｔは勾配更新の反復数を示す。

ｆ及びｇに十分な容量が与えられ、十分なトレーニング反復が行われると、分布ｐ_Ｇはｐ_Ｘに収束する。すなわち、乱数の種ｚから、ネットワークｇは、真のデータ分布ｐ_Ｘから得られる画像に類似した画像ｇ（ｚ）を合成することができる。そのために、トレーニング後、生成サブネットワーク３０１は、ＮＮＩＧ１１４の一部を形成することができる。

結合敵対的生成ネット
図４Ａは、幾つかの実施形態によるＣｏＧＡＮフレームワークを示している。ＣｏＧＡＮは、敵対的生成ネットのペア、すなわちＧＡＮ１及びＧＡＮ２を備える。これらの敵対的生成ネットのそれぞれは、画像を合成することができる生成サブネットワークと、入力信号が実画像であるのか又は合成画像であるのかを分類することができる弁別サブネットワークとを有する。ＧＡＮ１及びＧＡＮ２の生成サブネットワークは、ｇ_１４０１１及びｇ_２４０１２によって示される一方、ＧＡＮ１及びＧＡＮ２の弁別サブネットワークは、ｆ_１４０２１及びｆ_２４０２２によって示される。これらのサブネットワークは、多層パーセプトロンとして実施することができる。

生成サブネットワーク４０１１は、入力ベクトル３０５から第１のモダリティにおける画像３００１を生成するようにトレーニングされ、生成サブネットワーク４０１は、入力ベクトル３０５から第２のモダリティにおける画像３００２を生成するようにトレーニングされる。トレーニングを容易にするために、弁別サブネットワーク４０２１は、画像３００１を第１のモダリティのトレーニング画像３１１と区別する（４０３１）。同様に、弁別サブネットワーク４０２２は、画像３００２を第１のモダリティのトレーニング画像３１２と区別する（４０３２）。

図４Ｂは、結合敵対的生成ネットフレームワークにおける重み共有制約の一例を示している。ＣｏＧＡＮフレームワークでは、生成サブネットワークｇ_１及びｇ_２の下層４２０、すなわち、高次セマンティック情報に対応する層の重みは、同一の重み、すなわち、同一のパラメーターを有するように制約される。この例では、弁別サブネットワークｆ_１及びｆ_２の高次セマンティック情報に対応する上層４１０の重みが共有される。

特に、生成サブネットワーク及び弁別サブネットワークは、主としてトレーニングステージ中に用いられるか又はトレーニングステージ中に限ってのみ用いられる。生成サブネットワークがトレーニングされた後、弁別サブネットワークは廃棄することができ、生成サブネットワークは、第１のニューラルネットワーク２４０又は第２のニューラルネットワーク２５０になる。

この重み共有方式は、対応する画像のペアをＧＡＮ１及びＧＡＮ２に合成させ、この対応関係は、２つの画像が、同じ高次セマンティック情報を共有するが、画像及びその回転したもの又はメガネを掛けた人物の顔及びメガネを掛けていない同じ人物の顔等の異なる低次実現値を有するという意味で規定される。例えば、ＣｏＧＡＮは、画像及びその回転したものの合成、又はメガネを掛けている顔及びメガネを掛けていない同じ顔の合成に用いることができる。ＣｏＧＡＮフレームワークは、より多くのＧＡＮを単に追加することによって複数のモダリティにおける共同画像生成を取り扱うように拡張することができる。

生成サブネットワーク
トレーニングデータセットをＤ_ＤＧＡＮとする。各サンプルは、第１のモダリティのデータ分布

又は第２のモダリティのデータ分布

のいずれかから得られる。ＧＡＮ１及びＧＡＮ２の生成サブネットワークをｇ_１及びｇ_２とする。これらのサブネットワークは、ランダムベクトル入力ｚを、ｘ_１及びｘ_２と同じサポートを有する画像に個別にマッピングする。ｇ_１（ｚ）及びｇ_２（ｚ）の分布を

によって示す。

１つの実施形態では、ｇ_１及びｇ_２の双方は、多層パーセプトロンとして実施され、以下のように表すことができる。

ここで、ｇ_１ ^（ｉ）及びｇ_２ ^（ｉ）は、ｇ_１及びｇ_２の第ｉ層であり、ｍ_１及びｍ_２は、生成サブネットワークｇ_１及びｇ_２における層の数である。ｍ_１はｍ_２に等しくなくてもよいことに留意されたい。ｇ_１ ^（ｉ）及びｇ_２ ^（ｉ）の学習可能パラメーターを示すのに、それぞれ

を用いる。

パーセプトロン動作層を通じて、生成サブネットワークは、情報をより抽象的な概念からより具体的な詳細に徐々に復号化する。下層は、高次セマンティック情報を復号化し、上層は、低次詳細情報を復号化する。この情報フローは、分類タスクのための弁別深層ニューラルネットワークと異なることに留意されたい。弁別サブネットワークでは、下層は低次特徴を抽出する一方、上層は高次特徴を抽出する。

異なるモダリティにおける対応する画像は、同じ高次セマンティック情報を共有するので、幾つかの実施形態は、ｇ_１及びｇ_２の下層４２０に、同一の構造を保有させるとともに重みを共有させる。すなわち、

である。ここで、ｋは、共有される層の数である。この重み共有制約は、高次情報が生成ネットワークｇ_１及びｇ_２によって同じ方法で復号化されることを強制する。幾つかの実施形態は、追加の制約を上層に課さない。これらの制約は、個々のモダリティにとって最良の方法で高次セマンティック情報を実現することを学習することが可能にされている。

弁別サブネットワーク
弁別サブネットワークの導出は、生成サブネットワークの導出と類似している。多層パーセプトロンとして実施することができるＧＡＮ１及びＧＡＮ２の弁別サブネットワークをｆ_１及びｆ_２とする。

ここで、ｆ_１ ^（ｉ）及びｆ_２ ^（ｉ）は、ｆ_１及びｆ_２の第ｉ層であり、ｎ_１及びｎ_２は、ｆ_１及びｆ_２の層の数である。ｆ_１ ^（ｉ）及びｆ_２ ^（ｉ）の学習可能パラメーターを示すのに、それぞれ

を用いる。

弁別サブネットワークは、入力画像を、この入力がトレーニングデータ分布から得られる確率を推定する確率スコアにマッピングする。これらのサブネットワークについて、弁別サブネットワークの下層は低次特徴を抽出する一方、上層は高次特徴を抽出する。入力画像は、２つの異なるモダリティにおける同じ高次セマンティクスを実現したものであるので、幾つかの実施形態は、弁別サブネットワークｆ_１及びｆ_２に同じ上層４１０を保有させる。これは、以下の式を介して２つの弁別サブネットワークの上層の重みを共有することによって達成される。

ここで、ｌは、共有される層の数である。

トレーニング
類推として、ＣｏＧＡＮのトレーニングも、以下の式によって与えられる制約付きミニマックスゲームに対応する。

ここで、価値関数Ｖ_ＤＧＡＮは以下である。

このゲーム類推では、２つのチームが存在し、各チームは２人のプレーヤーを有する。生成サブネットワークｇ_１及びｇ_２は、弁別サブネットワークｆ_１及びｆ_２を混乱させる２つの異なるモダリティにおける対応する画像のペアを合成するためにチームを形成し、ともに動作する。他方、弁別サブネットワークは、それぞれのモダリティにおけるトレーニングデータ分布から得られた画像を、それぞれの生成サブネットワークから得られた画像と区別することを試みる。この協調は、重み共有制約から確立される。ＧＡＮフレームワークと同様に、生成サブネットワーク及び弁別サブネットワークのトレーニングは、交互型の勾配更新方式を有するバックプロパゲーションアルゴリズムによって達成することができる。

ＣｏＧＡＮゲームには、２つのチームが存在し、各チームは２人のプレーヤーを有する。生成サブネットワークｇ_１及びｇ_２は、弁別サブネットワークｆ_１及びｆ_２をそれぞれ混乱させる２つの異なるモダリティにおける対応する画像のペアを合成するためにチームを形成し、ともに動作する。弁別サブネットワークは、それぞれのモダリティにおけるトレーニングデータ分布から得られた画像を、それぞれの生成サブネットワークから得られた画像と区別することを試みる。この協調は、重み共有制約から確立される。ＧＡＮフレームワークと同様に、生成サブネットワーク及び弁別サブネットワークの学習は、交互型の勾配更新方式を有するバックプロパゲーションアルゴリズムによって達成することができる。

図５Ａは、本発明の幾つかの実施形態によって用いられるニューラルネットワークのトレーニングの概略図を示している。トレーニング５１０は、異なるモダリティの画像５０１及び５０２のトレーニングセットを用いて、ＮＮＩＧのパラメーター５２０を生成する。特に、画像５０１は、画像５０２に対応する必要はない。一般に、人工ニューラルネットワークをトレーニングすることは、トレーニングセットを考慮して、「学習」アルゴリズムと呼ばれることがあるトレーニングアルゴリズムを人工ニューラルネットワークに適用することを含む。トレーニングセットは、１つ以上の入力セット及び１つ以上の出力セットを含むことができ、各入力セットは１つの出力セットに対応する。トレーニングセットにおける出力セットは、対応する入力セットが人工ニューラルネットワークに入力され、人工ニューラルネットワークがそのときフィードフォワード形式で動作されたときに、人工ニューラルネットワークが生成することが望まれる出力セットを含む。ニューラルネットワークをトレーニングすることは、パラメーター、例えば、人工ニューラルネットワーク内の接続に関連付けられた重み値を計算することを伴う。

図５Ｂは、本発明の１つの実施形態によるトレーニング５１０の擬似コードを示している。ＣｏＧＡＮトレーニング中、トレーニングサンプルは、１対１の対応関係が利用可能である結合分布からのサンプルに依拠しないように、周辺分布から独立に得られる。そのようにして、ＣｏＧＡＮは、事前に対応関係を有していなかったデジタル画像の異なるモダリティを対応させて合成することができる生成サブネットワークをトレーニングする。異なるモダリティが２つであっても対応する画像を取得することは非常に困難である可能性があるので、周辺分布から結合分布を学習することができることによって、ペア画像生成のトレーニングデータ収集の負担を大幅に軽減することができる。

図５Ｃは、本発明の１つの実施形態によるトレーニングシステムのブロック図を示している。このトレーニングシステムは、バス２２によって読み出し専用メモリ（ＲＯＭ）２４及びメモリ３８に接続されたプロセッサを備える。このトレーニングシステムは、情報をユーザーに提示するディスプレイ２８と、キーボード２６、マウス３４及び入力／出力ポート３０を介して取り付けることができる他のデバイスを含む複数の入力デバイスとを備えることもできる。他のポインティングデバイス又は音声センサー若しくは画像センサー等の他の入力デバイスも取り付けることができる。他のポインティングデバイスには、タブレット、数値キーパッド、タッチスクリーン、タッチスクリーンオーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等が含まれる。Ｉ／Ｏ３０は、通信ライン、ディスク記憶装置、入力デバイス、出力デバイス又は他のＩ／Ｏ機器に接続することができる。メモリ３８は、表示スクリーンのピクセル強度値を含むディスプレイバッファー７２を備える。ディスプレイ２８は、ディスプレイバッファー７２からピクセル値を周期的に読み取り、これらの値を表示スクリーン上に表示する。ピクセル強度値は、グレーレベルを表す場合もあるし、カラーを表す場合もある。

メモリ３８は、データベース９０、トレーナー８２、ＮＮＩＧ１１４、プリプロセッサ８４を含む。データベース９０は、履歴データ１０５、トレーニングデータ、テストデータ９２を含むことができる。データベースは、ニューラルネットワークを用いる動作モード、トレーニングモード又は保持モードからの結果も含むことができる。これらの要素は、上記で詳述されている。

メモリ３８には、オペレーティングシステム７４も示されている。オペレーティングシステムの例には、ＡＩＸ、ＯＳ／２、ＤＯＳ、ＬＩＮＵＸ、及びＷＩＮＤＯＷＳ（登録商標）が含まれる。メモリ３８に示された他の要素には、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバー７６が含まれる。ワーキングメモリエリア７８もメモリ３８に示されている。ワーキングメモリエリア７８は、メモリ３８に示す要素のいずれもが利用することができる。ワーキングメモリエリアは、ニューラルネットワーク１０１、トレーナー８２、オペレーティングシステム７４及び他の機能が利用することができる。ワーキングメモリエリア７８は、要素間及び要素内で分割することができる。ワーキングメモリエリア７８は、通信、バッファリング、一時記憶、又はプログラムが動作している間のデータの記憶に利用することができる。

例
本開示に提供された幾つかの例は、ＣｏＧＡＮフレームワークを用いて幾つかの実施形態によってトレーニングされたＮＮＩＧが、純粋に教師なし形式で、トレーニングデータにおける異なるモダリティ間の１対１の対応関係に依拠することなく、異なる種類のマルチモーダルデジタル画像を生成することができることを示している。

数字の生成
図６Ａは、１つの実施形態による手書き数字のマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例６１０を示している。この実施形態は、トレーニングデータセット内の６００００個のトレーニング画像を用いて、例えば、数字画像及びそのエッジ画像を生成すること及び／又は数字画像及びそのネガ画像を生成することを含めて、２つの異なるモダリティにおいて数字を生成するＣｏＧＡＮをトレーニングする。例えば、第１のモダリティは、手書き数字画像を含むことができる一方、第２のモダリティは、それらの対応するエッジ画像を含むことができる。幾つかの実施形態によって生成されたマルチモーダルデジタル画像の例は、図６Ｂに示されている。別の例では、２つのモダリティは、それぞれ手書き数字画像及びそれらのネガ画像を含む。幾つかの実施形態によって生成されたそれらのマルチモーダルデジタル画像の例は、図６Ｃに示されている。

図６Ａの例では、２つの生成サブネットワークは、同一の構造を有し、ともに５つの層を有し、完全畳み込みであった。畳み込み層のストライド長（stride lengths）は分数であった。サブネットワークは、バッチ正規化層及びパラメーター化正規化線形関数（parameterized rectified linear unit）層も用いていた。生成サブネットワークは、画像出力を生成することを担当した最後の畳み込み層を除く全ての層についてパラメーターを共有する。弁別サブネットワークは、ＬｅＮｅｔの一変形形態を用いる。弁別サブネットワークへの入力は、生成サブネットワークからの出力画像と、２つのトレーニングサブセットからの画像（各ピクセル値は０〜１に線形正規化されている）とを含むバッチである。１つの実施態様は、適応モーメント確率的勾配降下（ＡＤＡＭ）方法を用いて、２５０００回の反復についてＣｏＧＡＮをトレーニングする。

顔の生成
図７Ａは、１つの実施形態による異なる属性を有するマルチモーダル顔画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例７１０を示している。この実施形態は、それぞれが属性を有する顔画像と属性を有しない対応する顔画像とを生成する幾つかのＣｏＧＡＮをトレーニングした。トレーニングデータセットは、２０２５９９個の顔画像を有する１０１７７人の人物を含んでいた。トレーニングデータセットは、大きな姿勢変化及び背景クラッターをカバーしていた。各顔画像は、メガネ、微笑み、及び金髪を含む４０個の属性を有していた。属性を有する顔画像は、デジタル画像の第１のモダリティを形成し、属性を有しない顔画像は、第２のモダリティを形成した。これらの２つのモダリティにおいて重複する顔は存在しなかった。この例では、生成サブネットワーク及び弁別サブネットワークは、ともに７層の深層畳み込みニューラルネットワークであった。

図７Ｂは、金髪を有する顔及び黒髪を有する顔のマルチモーダル画像の例を示している。図７Ｃは、笑顔及び非笑顔のマルチモーダル画像の例を示している。図７Ｄは、メガネを掛けている顔及びメガネを掛けていない顔のマルチモーダル画像の例を示している。

幾つかの実施態様は、一方の点から他方の点に移動するときの１００次元入力空間におけるこれらの２つの点をランダムにサンプリングし、レンダリングされた顔の変形を視覚化した。特に、ＣｏＧＡＮは、異なる属性を有する同じ人物からの顔に類似した対応する顔のペアを生成した。空間内を移動するにつれて、顔は、例えば、人物ごとに徐々に変形する可能性がある。そのような変形は、双方のモダリティについて一貫しており、これによって、ＣｏＧＡＮフレームワークは検証された。

ＲＧＢ画像及び深度画像の生成
図８Ａは、１つの実施形態によるカラー画像及びその対応する深度画像を含むマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示している。レンダリングされた画像ペアは２つの異なるモダリティを有するものであったことに留意されたい。トレーニングデータセットは、異なる視点からセンサーによって取り込まれた３００個の物体の登録されたカラー画像及び深度画像を有するＲＧＢＤ画像を有するものであった。ＧＡＮ１のトレーニングには第１のサブセット内のカラー画像が用いられた一方、ＧＡＮ２のトレーニングには第２のサブセット内の深度画像が用いられた。これらの２つのサブセットには、対応する深度画像及びカラー画像は存在しなかった。データセット内の画像は、種々の解像度を有する。

図８Ｂは、マルチモーダルカラー画像及び深度画像の例を示している。レンダリングされた深度プロファイルは、実際の物体に類似して滑らかに変形した。

用途
映画及びゲームの制作のためにマルチモーダルデジタル画像をレンダリングすることに加えて、開示されたＣｏＧＡＮフレームワークは、モダリティ変換タスク及びモダリティ適応タスクに用途を見出している。第１のモダリティにおける画像をｘ_１とする。モダリティ変換タスクは、結合確率密度ｐ（ｘ_１，ｘ_２）が最大化されるような第２のモダリティにおける対応する画像ｘ_２を見つけることである。２つの画像の間の相違を測定する損失関数をＬとする。トレーニングされた生成サブネットワークｇ_１及びｇ_２が与えられると、変換は、最初に以下の式を解くことによって達成することができる。

ｚ^＊を見つけた後、ｇ_２を適用して、変換された画像ｘ_２＝ｇ_２（ｚ）を得ることができる。

図９は、幾つかの実施形態によるモダリティ変換の例を示している。例えば、画像９１０は画像９２０に変換され、画像９３０は画像９４０に変換される。それらの例は、ユークリッド距離（Ｌ２損失）関数及び限定メモリＢＦＧＳ（Ｌ−ＢＦＧＳ又はＬＭ−ＢＦＧＳ）最適化方法を用いることによって計算される。

モダリティ適応は、一方のモダリティにおいてトレーニングされた分類器を他方のモダリティに適応させることに関係している。そのために、１つの実施形態は、教師なしモダリティ適応タスクにＣｏＧＡＮフレームワークを用いる。タスクＡにおいて用いられる第１のモダリティ及び第２のモダリティにおける数字画像のサブセットをＤ_１及びＤ_２とする。Ｄ_１内の画像のクラスラベルは既知であったが、Ｄ_２内の画像のクラスラベルは未知であったものと仮定する。１つの目標は、Ｄ_１を用いてトレーニングされた数字分類器を、第２のモダリティにおける数字を分類するように適応させることであった。ＣｏＧＡＮは、Ｄ_１内の画像及びラベルを用いた第１のモダリティにおける数字分類問題と、Ｄ_１及びＤ_２の双方における画像を用いたＣｏＧＡＮ学習問題とを併せて解くことによってトレーニングすることができる。これによって、第１のモダリティのｃ_１（ｘ_１）＝ｃ（ｆ_１ ^（３）（ｆ_１ ^（２）（ｆ_１ ^（１）（ｘ_１）））と、第２のモダリティのｃ_２（ｘ_２）＝ｃ（ｆ_２ ^（３）（ｆ_２ ^（２）（ｆ_２ ^（１）（ｘ_２）））との２つの分類器が生成される。重み共有に起因してｆ_２ ^（２）＝ｆ_１ ^（２）であり、ｆ_２ ^（３）＝ｆ_１ ^（３）であることに留意されたい。

付加的に又は代替的に、１つの実施形態は、国立標準技術研究所混合データベース（MNIST：Mixed National Institute of Standards and Technology database）のテスト画像をそれらの対応するエッジ画像に変換することによってモダリティシフトを生み出す。ｃ_１を適用してエッジ画像を分類すると、分類精度は、モダリティシフトに起因して８７．０＼％に低下した。一方、ｃ_２を適用して第２のモダリティにおける画像を分類したとき、９６．７＼％の分類精度を得た。この精度は、第１のモダリティにおいて得られた精度に近い。これは、第２のモダリティにおけるラベルも、２つのモダリティ間のサンプル対応関係も用いられていなかったことから、驚くべきことであった。

本発明の上述した実施形態は、非常に多くの方法のうちのいずれにおいても実施することができる。例えば、これらの実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施されるとき、ソフトウェアコードは、単一のコンピューターに設けられているか、複数のコンピューター間に分散されているかを問わず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、集積回路構成要素内に１つ以上のプロセッサを有する集積回路として実施することができる。ただし、プロセッサは、回路部を用いて任意の適したフォーマットで実施することができる。

また、本発明の実施形態は、方法として具現化することができる。この方法の一例は既に提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、図示したものとは異なる順序で動作が実行される実施形態を構築することができ、この順序は、例示の実施形態では逐次動作として示されていても、幾つかの動作を同時に実行することを含むことができる。

請求項の要素を修飾する請求項における「第１」、「第２」等の順序を表す用語の使用は、それ自体、１つの請求項の要素の優先順位、優位度、又は順序が別の要素よりも上回っていることを暗示するものでもなければ、方法の動作が実行される時間順序を暗示するものでもなく、或る特定の名称を有する１つの請求項の要素を、請求項の要素を区別するための（順序を表す用語の使用を除いた場合の）同じ名称を有する別の要素と区別するラベルとして単に用いられているに過ぎない。

Claims

マルチモーダルデジタル画像を生成するコンピューター実施方法であって、該方法は、該方法を実施する記憶された命令と結合されたプロセッサを用い、該命令は、該プロセッサによって実行されると、
シーンを表す各ピクセルに関する情報を含む該シーンの画像を取得することと、
第１のニューラルネットワークを用いて前記シーンの画像を処理して、第１のモダリティを有する第１の画像を生成することと、
前記第１の画像及び第２の画像が前記マルチモーダルデジタル画像を形成するように、第２のニューラルネットワークを用いて前記シーンの画像を処理して、第２のモダリティを有する前記第２の画像を生成することであって、前記第１のニューラルネットワークの構造及び層の数は、前記第２のニューラルネットワークの構造及び層の数と同一であり、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
なお、同一のパラメーターを有する前記第１のニューラルネットワークの前記層及び前記第２のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第１の画像及び前記第２の画像の高次特徴を生成し、異なるパラメーターを有する前記第１のニューラルネットワークの前記層及び前記第２のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第１の画像及び前記第２の画像の低次特徴を生成し、
前記第１のニューラルネットワーク及び前記第２のニューラルネットワークは、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークの幾つかの下層に対して同一のパラメーターを使用しながら、共同でトレーニングされ、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記マルチモーダルデジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記マルチモーダルデジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット（ＧＡＮ）を用いてトレーニングされ、
前記マルチモーダルデジタル画像を出力することと、
を含む該方法のステップを実行する、コンピューター実施方法。
確率分布を用いて前記シーンの画像の要素をランダムに生成すること、
を更に含む、請求項１に記載の方法。
前記低次特徴は前記高次特徴から導出される、
請求項１に記載の方法。
前記マルチモーダルデジタル画像は、画像、ビデオ、テキスト、及び音響のうちの１つ又は組み合わせを含む、
請求項１に記載の方法。
前記第１のニューラルネットワークの第１の生成サブネットワーク及び第１の弁別サブネットワークと、前記第２のニューラルネットワークの第２の生成サブネットワーク及び第２の弁別サブネットワークとは、ミニマックス目的関数を最小にするように共同でトレーニングされる、
請求項１に記載の方法。
前記第１のモダリティの前記第１の画像及び前記第２のモダリティの前記第２の画像をディスプレイデバイス上にレンダリングすること、又は、
前記第１のモダリティの前記第１の画像及び前記第２のモダリティの前記第２の画像を、通信チャネルを介して送信すること、
を更に含む、請求項１に記載の方法。
前記第１の画像の前記第１のモダリティはカラー画像であり、
前記第２の画像の前記第２のモダリティは深度画像である、
請求項１に記載の方法。
前記第１の画像の前記第１のモダリティはカラー画像であり、
前記第２の画像の前記第２のモダリティは熱画像である、
請求項１に記載の方法。
前記第１の画像の前記第１のモダリティは、第１のスタイルを有する画像であり、
前記第２の画像の前記第２のモダリティは、第２のスタイルを有する画像である、
請求項１に記載の方法。
前記第１のニューラルネットワーク及び前記第２のニューラルネットワークは、前記マルチモーダルデジタル画像のモダリティのセットを生成するように共同でトレーニングされたニューラルネットワークのセットから選択され、
前記方法は、
ニューラルネットワークのセットを用いて前記シーンの画像を処理して、前記マルチモーダルデジタル画像を生成すること、
を含む、請求項１に記載の方法。
前記ニューラルネットワークの前記セットは、結合敵対的生成ネット（ＣｏＧＡＮ）を形成する、
請求項１０に記載の方法。
マルチモーダルデジタル画像を生成するシステムであって、
シーンを表す各ピクセルに関する情報を含む該シーンの画像を取得する入力インターフェースと、
前記マルチモーダルデジタル画像の第１のモダリティを生成するようにトレーニングされた第１のニューラルネットワークと、前記マルチモーダルデジタル画像の第２のモダリティを生成するようにトレーニングされた第２のニューラルネットワークとを記憶する少なくとも１つの非一時的コンピューター可読メモリであって、前記第１のニューラルネットワークの構造及び層の数は、前記第２のニューラルネットワークの構造及び層の数と同一であり、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有し、同一のパラメーターを有する前記第１のニューラルネットワークの前記層及び前記第２のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の第１の画像及び第２の画像の高次特徴を生成し、異なるパラメーターを有する前記第１のニューラルネットワークの前記層及び前記第２のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第１の画像及び前記第２の画像の低次特徴を生成する、少なくとも１つの非一時的コンピューター可読メモリと、
なお、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークは、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークの幾つかの下層に対して同一のパラメーターを使用しながら、共同でトレーニングされ、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記マルチモーダルデジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記マルチモーダルデジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット（ＧＡＮ）を用いてトレーニングされ、
第１の画像及び第２の画像が前記マルチモーダルデジタル画像を形成するように、前記第１のニューラルネットワークを用いて前記シーンの画像を処理して前記第１の画像の第１のモダリティを生成することと、前記第２のニューラルネットワークを用いて前記シーンの画像を処理して前記第２の画像の第２のモダリティを生成することとによって、前記マルチモーダルデジタル画像を生成するプロセッサと、
前記マルチモーダルデジタル画像を出力する出力インターフェースと、
を備える、システム。
前記マルチモーダルデジタル画像を表示するディスプレイデバイスを更に備え、
前記出力インターフェースが前記マルチモーダルデジタル画像を前記ディスプレイデバイスに出力するようになっている、
請求項１２に記載のシステム。
前記高次特徴はマルチモーダルデジタル画像全体に起因し、
前記低次特徴は前記マルチモーダルデジタル画像の一部分に起因する、
請求項１２に記載のシステム。
前記第１の画像の前記第１のモダリティはカラー画像であり、
前記第２の画像の前記第２のモダリティは深度画像又は熱画像である、
請求項１２に記載のシステム。
前記第１の画像の前記第１のモダリティは、第１のスタイルを有する画像であり、
前記第２の画像の前記第２のモダリティは、第２のスタイルを有する画像である、
請求項１２に記載のシステム。
プロセッサによって実行されると、
シーンを表す各ピクセルに関する情報を含む該シーンの画像を取得することと、
第１のニューラルネットワークを用いて前記シーンの画像を処理して、第１のモダリティを有する第１の画像を生成することと、
前記第１の画像及び第２の画像がマルチモーダルデジタル画像を形成するように、第２のニューラルネットワークを用いて前記シーンの画像を処理して、第２のモダリティを有する前記第２の画像を生成することであって、前記第１のニューラルネットワークの構造及び層の数は、前記第２のニューラルネットワークの構造及び層の数と同一であり、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第１のニューラルネットワークにおける少なくとも１つの層は、前記第２のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有し、同一のパラメーターを有する前記第１のニューラルネットワークの前記層及び前記第２のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第１の画像及び前記第２の画像の高次特徴を生成し、異なるパラメーターを有する前記第１のニューラルネットワークの前記層及び前記第２のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第１の画像及び前記第２の画像の低次特徴を生成することと、
なお、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークは、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークの幾つかの下層に対して同一のパラメーターを使用しながら、共同でトレーニングされ、前記第１のニューラルネットワーク及び前記第２のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記マルチモーダルデジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記マルチモーダルデジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット（ＧＡＮ）を用いてトレーニングされ、
前記マルチモーダルデジタル画像を出力することと、
を含むステップを実行する命令が記憶されている、
非一時的コンピューター可読媒体。