JP2019510325A - マルチモーダルデジタル画像を生成する方法及びシステム - Google Patents

マルチモーダルデジタル画像を生成する方法及びシステム Download PDF

Info

Publication number
JP2019510325A
JP2019510325A JP2018557519A JP2018557519A JP2019510325A JP 2019510325 A JP2019510325 A JP 2019510325A JP 2018557519 A JP2018557519 A JP 2018557519A JP 2018557519 A JP2018557519 A JP 2018557519A JP 2019510325 A JP2019510325 A JP 2019510325A
Authority
JP
Japan
Prior art keywords
neural network
digital image
modality
image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018557519A
Other languages
English (en)
Other versions
JP6639700B2 (ja
Inventor
リウ、ミン−ユ
チュゼル、オンセル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2019510325A publication Critical patent/JP2019510325A/ja
Application granted granted Critical
Publication of JP6639700B2 publication Critical patent/JP6639700B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Abstract

コンピューター実施方法が、第1のニューラルネットワークを用いてベクトルを処理してデジタル画像の第1のモダリティを生成することと、第2のニューラルネットワークを用いてベクトルを処理してデジタル画像の第2のモダリティを生成することとによってマルチモーダルデジタル画像を生成する。第1のニューラルネットワークの構造及び層の数は、第2のニューラルネットワークの構造及び層の数と同一である。また、第1のニューラルネットワークにおける少なくとも1つの層は、第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、第1のニューラルネットワークにおける少なくとも1つの層は、第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する。

Description

本発明は、包括的には、画像合成に関し、より詳細には、ニューラルネットワークを用いてマルチモーダルデジタル画像を生成することに関する。
ペア画像生成は、異なる属性を有する顔、異なるフォントの文字、又はカラー画像及び対応する深度画像等の2つの異なるモダリティの対応する画像ペアを生成することを指す。マルチモーダル画像生成は、異なるモダリティの1つ以上の対応する画像ペアを生成することを指す。マルチモーダル画像の生成は広範囲の用途を有する。例えば、マルチモーダル画像は、映画及びコンピューターゲームの新規の数対の対応する画像をレンダリングするために適用することができる。例えば、米国特許第7876320号に記載されている方法は、2つ以上の顔画像を合成するか、又は少なくとも1つの顔画像と1つの顔グラフィックス若しくは顔アニメーションとを合成し、それによって、架空の顔画像を作成する。
多数の方法が、異なるモダリティの画像間の1対1の対応関係を用いて、マルチモーダルデジタル画像を生成する。それらの方法の例には、深層マルチモーダルボルツマン方法及び結合辞書学習方法が含まれる。幾つかの方法は、物理モデルを用いて、画像超解像又は画像ぼけ除去等の2つの異なるモダリティの対応する画像を生成することができる。しかしながら、一般的な場合に、異なるモダリティの画像間の1対1の対応関係を求めることは困難である。
したがって、トレーニングデータにおいては、異なるモダリティの間の1対1の対応関係に依拠することなく、マルチモーダルデジタル画像を生成する必要がある。
本発明の幾つかの実施の形態は、デジタル画像の異なるモダリティを生成するように共同でトレーニングされたニューラルネットワークのセットを提供する。例えば、1つの実施の形態は、デジタル画像の異なるモダリティの間に1対1の対応関係が存在しなくても、異なるモダリティにおける対応する画像のセットをレンダリングすることができるニューラルネットワークのセットを提供する。
幾つかの実施の形態は、ニューラルネットワークがデジタル画像を生成するように独立してトレーニングされるとき、生成されるデジタル画像は関係付けられていないという認識に基づいている。一方、例えば共同トレーニング中に、ニューラルネットワークに対して重み共有制約を強制することによって、ニューラルネットワークを、マルチモーダルデジタル画像を生成するようにトレーニングすることができる。例えば、1つの実施の形態は、デジタル画像の第1のモダリティを生成するようにトレーニングされた第1のニューラルネットワークと、デジタル画像の第2のモダリティを生成するようにトレーニングされた第2のニューラルネットワークとを用いて、マルチモーダルデジタル画像を生成する。第1のニューラルネットワークの構造及び層の数は、第2のニューラルネットワークの構造及び層の数と同一である。また、第1のニューラルネットワークにおける少なくとも1つの層は、第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、第1のニューラルネットワークにおける少なくとも1つの層は、第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する。
そのようにして、ニューラルネットワークの同一の構造並びに幾つかのパラメーターの数及び同一の値は、生成されるデジタル画像における或る共通性を強制する一方、ニューラルネットワークの他のパラメーターの異なる値は、モダリティの相違を実施する。例えば、1つの実施の形態では、第1のニューラルネットワーク及び第2のニューラルネットワークの幾つかの層は、デジタル画像の高次特徴を生成する同一のパラメーターを有する一方、第1のニューラルネットワーク及び第2のニューラルネットワークの他の層は、デジタル画像の低次特徴を生成する異なるパラメーターを有する。通常、低次特徴は、高次特徴から導出される。例えば、高次特徴は、画像内の物体のタイプ及び構成の記述とすることができ、低次特徴は、物体のタイプ及び構成に基づいて求められた物体のエッジとすることができる。
したがって、1つの実施の形態は、マルチモーダルデジタル画像を生成するコンピューター実施方法を開示する。該方法は、第1のニューラルネットワークを用いてベクトルを処理して前記デジタル画像の第1のモダリティを生成することと、第2のニューラルネットワークを用いて前記ベクトルを処理して前記デジタル画像の第2のモダリティを生成することとを含み、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する。該方法の前記ステップは、プロセッサを用いて実行される。
別の実施の形態は、マルチモーダルデジタル画像を生成するシステムであって、前記デジタル画像の第1のモダリティを生成するようにトレーニングされた第1のニューラルネットワークと、前記デジタル画像の第2のモダリティを生成するようにトレーニングされた第2のニューラルネットワークとを記憶する少なくとも1つの非一時的コンピューター可読メモリであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する、少なくとも1つの非一時的コンピューター可読メモリと、前記デジタル画像の第1のモダリティを生成するようにトレーニングされた前記第1のニューラルネットワークを用いてベクトルを処理することと、前記デジタル画像の第2のモダリティを生成するようにトレーニングされた前記第2のニューラルネットワークを用いて前記ベクトルを処理することとによって前記マルチモーダルデジタル画像を生成し、前記マルチモーダルデジタル画像を前記メモリに記憶するプロセッサとを備える、システムを開示する。
更に別の実施の形態は、命令が記憶されている非一時的コンピューター可読媒体であって、該命令は、プロセッサによって実行されると、前記デジタル画像の第1のモダリティを生成するようにトレーニングされた第1のニューラルネットワークを用いてベクトルを処理することと、前記デジタル画像の第2のモダリティを生成するようにトレーニングされた第2のニューラルネットワークを用いて前記ベクトルを処理することとを含むステップを実行し、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する、非一時的コンピューター可読媒体を開示する。
本発明の幾つかの実施形態によるマルチモーダルデジタル画像を生成するコンピューターシステムのブロック図である。 1つの実施形態によるマルチモーダルデジタル画像を生成するコンピューター実施方法のブロック図である。 本発明の1つの実施形態によるマルチモーダルデジタル画像を生成する構造ニューラルネットワークの一例示的な概略図である。 幾つかの実施形態によって用いられるニューラルネットワークのブロック図である。 幾つかの実施形態による結合敵対的生成ネット(CoGAN)フレームワークの概略図である。 幾つかの実施形態によって課せられるCoGANにおける重み共有制約の一例を示す図である。 幾つかの実施形態によって用いられるニューラルネットワークのトレーニングの概略図である。 1つの実施形態によるニューラルネットワークのトレーニングの擬似コードを示す図である。 1つの実施形態によるトレーニングシステムのブロック図である。 1つの実施形態による手書き数字のマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示す図である。 図6Aのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。 図6Aのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。 1つの実施形態による異なる属性を有するマルチモーダル顔画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示す図である。 図7Aのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。 図7Aのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。 図7Aのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。 1つの実施形態による、カラー画像及びその対応する深度画像を含むマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示す図である。 図8Aのニューラルネットワークによって生成されたマルチモーダルデジタル画像を視覚化したものを示す図である。 幾つかの実施形態によるモダリティ変換の一例を示す図である。
図1は、本発明の幾つかの実施形態によるマルチモーダルデジタル画像を生成するコンピューターシステム100のブロック図を示している。マルチモーダルデジタル画像とは、本明細書において用いられるとき、異なるモダリティを有する構造デジタルデータである。例えば、マルチモーダルデジタル画像は、第1のモダリティを有する第1の画像と、第2のモダリティを有する第2の画像とを含むことができる。異なるモダリティは、デジタル画像を形成する異なるスタイル又はタイプのデータを表すことができる。異なるモダリティを有する異なるデジタル画像の例には、カラー画像、深度画像、及び熱画像が含まれる。幾つかの実施形態では、デジタル画像は、異なるフォーマットのうちの1つ又は組み合わせの構造デジタルデータである。例えば、デジタル画像は、画像、ビデオ、テキスト、及び音響のうちの1つ又は組み合わせを含むことができる。
デジタル画像の異なるモダリティは、通常、同じ又は少なくとも類似の構造情報を表す異なるタイプの異なる画像を形成する。そのために、マルチモーダルデジタル画像を形成する異なるモダリティの画像は関係付けられる。例えば、デジタル画像の第1のモダリティは、或るスタイルで描写されたテキストの第1の画像とすることができ、デジタル画像の第2のモダリティは、異なるスタイルで描写されているが同じテキストの第2の画像とすることができる。例えば、デジタル画像の第1のモダリティは、メガネを装着した人物の顔の第1の画像とすることができ、デジタル画像の第2のモダリティは、メガネを装着していないその人物の同じ顔の第2の画像とすることができる。例えば、デジタル画像の第1のモダリティは、シーンを表す各ピクセルの色情報を含む画像とすることができ、デジタル画像の第2のモダリティは、同じシーンを表す各ピクセルの深度情報を含む画像とすることができる。
コンピューターシステム100は、記憶された命令を実行するように構成されたプロセッサ102と、このプロセッサによって実行可能な命令を記憶するメモリ104とを備える。プロセッサ102は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成体とすることができる。メモリ104は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、フラッシュメモリ、又は他の任意の適したメモリシステムを含むことができる。プロセッサ102は、バス106を通じて1つ以上の入力デバイス及び出力デバイスに接続される。
コンピューターシステム100は、マルチモーダルデジタル画像を生成するニューラルネットワーク画像ジェネレーター(NNIG)114を備える。NNIG114は、マルチモーダルデジタル画像を生成するように共同でトレーニングされたニューラルネットワークのセット、例えば、第1のニューラルネットワーク及び第2のニューラルネットワークを用いて実施される。例えば、第1のニューラルネットワーク及び第2のニューラルネットワークは、同じ入力を受け取り、マルチモーダルデジタル画像を生成することができる。この生成では、第1のニューラルネットワークがデジタル画像の第1のモダリティを生成し、第2のニューラルネットワークがデジタル画像の第2のモダリティを生成する。NNIG114は、システム100のメモリに記憶することができる。
コンピューターシステム100は、NNIG114によって用いられる補助データ及び/又は補助ソフトウェアモジュールを記憶するように適合された記憶デバイス108も備えることができる。例えば、記憶デバイス108は、マルチモーダルデジタル画像を生成するためにNNIG114によって用いられる入力ベクトル110を記憶することができる。付加的に又は代替的に、記憶デバイス108は、ベクトル110を生成するベクトルジェネレーター112を記憶することができる。例えば、ベクトルジェネレーター112は、プロセッサ102又は他の任意の適したプロセッサを用いて実施することができる。ベクトル110は、種々の値又は更に任意の値を有することができる。例えば、ベクトルジェネレーター112は、確率分布を用いてベクトルの要素をランダムに生成することができる。記憶デバイス108は、NNIG114の構造及びパラメーターも記憶することができる。記憶デバイス108は、ハードドライブ、光学ドライブ、サムドライブ、ドライブのアレイ、又はそれらの任意の組み合わせを含むことができる。
コンピューターシステム100内のヒューマンマシンインターフェース116は、システムをキーボード118及びポインティングデバイス120に接続することができ、ポインティングデバイス120は、とりわけ、マウス、トラックボール、タッチパッド、ジョイスティック、ポインティングスティック、スタイラス、又はタッチスクリーンを含むことができる。コンピューターシステム100は、当該システム100をディスプレイデバイス124に接続するように適合されたディスプレイインターフェース122にバス106を通じてリンクすることができる。ディスプレイデバイス124は、とりわけ、コンピューターモニター、カメラ、テレビ、プロジェクター、又はモバイルデバイスを含むことができる。
コンピューターシステム100は、当該システムを撮像デバイス128に接続するように適合された撮像インターフェース126にも接続することができる。撮像デバイス128は、カメラ、コンピューター、スキャナー、モバイルデバイス、ウェブカム、又はそれらの任意の組み合わせを含むことができる。プリンターインターフェース130も、バス106を通じてコンピューターシステム100に接続することができ、コンピューターシステム100を印刷デバイス132に接続するように適合することができる。印刷デバイス132は、とりわけ、液体インクジェットプリンター、固体インクプリンター、大規模商用プリンター、サーマルプリンター、UVプリンター、又は昇華型プリンターを含むことができる。ネットワークインターフェースコントローラー134は、コンピューターシステム100を、バス106を通じてネットワーク136に接続するように適合されている。マルチモーダルデジタル画像は、ディスプレイデバイス、撮像デバイス、及び/又は印刷デバイスにレンダリングすることができる。マルチモーダルデジタル画像は、ネットワーク136の通信チャネルを介して送信することができ、及び/又は、記憶及び/又は更なる処理のためにコンピューターの記憶システム108内に記憶することができる。
図2Aは、本発明の1つの実施形態によるマルチモーダルデジタル画像を生成するコンピューター実施方法のブロック図を示している。本方法は、第1のニューラルネットワーク240を用いてベクトル210を処理して(220)、デジタル画像の第1のモダリティ225を生成し、第2のニューラルネットワーク250を用いてベクトル210を処理して(230)、デジタル画像の第2のモダリティ235を生成する。本方法は、NNIG114を用いて実行することができ、コンピューターシステム100のプロセッサ、例えばプロセッサ102を用いて実行することができる。
幾つかの実施形態は、ニューラルネットワークが画像を生成するように独立してトレーニングされるとき、生成される画像は関係付けられていないという認識に基づいている。一方、ニューラルネットワークにおいて重み共有制約を強制することによって、各モダリティにおいて十分なトレーニング画像が与えられると、ニューラルネットワークを、マルチモーダルデジタル画像を生成するように共同でトレーニングすることができる。
図2Bは、デジタル画像の第1のモダリティを生成するようにトレーニングされた第1のニューラルネットワーク240の構造と、デジタル画像の第2のモダリティを生成するようにトレーニングされた第2のニューラルネットワーク250の構造との一例示的な概略図を示している。第1のニューラルネットワークの構造、例えば、層の数及び層間の接続は、第2のニューラルネットワークの構造と同一である。加えて、第1のニューラルネットワークにおける少なくとも1つの層は、第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有する。一方、第1のニューラルネットワークにおける少なくとも1つの層は、第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有する。図2Bの例には、層231、232、233、234、235、及び236が示されている。対応する層231、232、及び233は、同じパラメーターを有する一方、対応する層234、235、及び246は、異なるパラメーターを有する。
通常、同一のパラメーターを有する層は、画像の高次特徴を実施する上層である。例えば、双方のネットワークは、第1のニューラルネットワーク及び第2のニューラルネットワークの幾つかの上層について同一のパラメーターを実施しながら共同でトレーニングされる。そのような方法で、ネットワークの同一の構造及び同一のパラメーターは、生成される画像において或る共通性を強制する一方、ネットワークの少なくとも幾つかの層の異なるパラメーターは、異なるモダリティを実施する。例えば、1つの実施形態では、同一のパラメーターを有する第1のニューラルネットワーク及び第2のニューラルネットワークの層は、デジタル画像の高次特徴を生成し、異なるパラメーターを有する第1のニューラルネットワーク及び第2のニューラルネットワークの層は、デジタル画像の低次特徴を生成する。通常、低次特徴は、高次特徴から導出される。例えば、高次特徴は、画像内の物体のタイプ及び構成の記述とすることができ、低次特徴は、物体のタイプ及び構成に基づいて求められた物体のエッジとすることができる。
結合敵対的生成ネット
本発明の幾つかの実施形態は、結合敵対的生成ネット(CoGAN)フレームワークを用いて、トレーニングデータセットに1対1の対応関係がなくてもマルチモーダルデジタル画像をレンダリングすることができるNNIG114をトレーニングする。このフレームワークは、画像生成用の敵対的生成ネット(GAN)に基づいている。CoGANフレームワークは、少なくともGANのペアを含む。
各GANは、1つの領域において画像を生成するようにトレーニングされ、CoGANのフレームワークは、少なくとも1つの箇所において互いに関係付けられた異なる画像を各GANに生成させる。例えば、2つのGANにおいて高次情報を復号化する層にネットワーク接続重みを共有させることによって、これらの2つのGANは、高次セマンティクスを同じ方法で復号化する。その場合、低次視覚情報を復号化する層は、共有されたセマンティクスを、各モダリティの弁別サブネットワークを混乱させる異なるモダリティの画像にマッピングする。生成サブネットワークにおいて重み共有制約を強制することによって、各領域において十分なトレーニング画像が与えられると、CoGANは、複数のモダリティにおける対応関係を取得するようにトレーニングされる。
そのために、幾つかの実施形態では、第1のニューラルネットワーク及び第2のニューラルネットワークのうちの少なくとも一方又は双方は、敵対的トレーニング手順を用いてトレーニングされる。例えば、第1のニューラルネットワークの第1の生成サブネットワーク及び第1の弁別サブネットワーク、並びに第2のニューラルネットワークの第2の生成サブネットワーク及び第2の弁別サブネットワークは、ミニマックス目的関数を最小にするように共同でトレーニングすることができる。
敵対的生成ネット
図3は、NNIG114をトレーニングするために幾つかの実施形態によって用いられるGANのブロック図を示している。GANフレームワークは、生成サブネットワーク301及び弁別サブネットワーク302の2つのサブネットワークを備える。生成サブネットワーク301の目的は、ランダム入力305、例えばベクトル210、からトレーニング画像310に類似している画像300を合成又は生成することである。弁別サブネットワーク302の目的は、画像310を合成画像300と区別する(303)ことである。生成サブネットワーク及び弁別サブネットワークの双方は、多層パーセプトロン、すなわちフィードフォワードニューラルネットワーク、又は多層畳み込みニューラルネットワークとして実施することができる。
形式的に、トレーニングデータセットをDGANとする。各サンプルxはデータ分布x:pから得られる。次元dのランダムベクトルをzとする。1つの実施形態では、zは、多次元一様分布から得られる。代替の実施形態は、多次元正規分布等の異なる分布を用いる。生成サブネットワーク及び弁別サブネットワークをそれぞれg及びfとする。関数gは、入力としてzを取り、xと同じサポート(support)を有するランダムベクトルg(z)を出力する。g(z)の分布をpとして示す。関数fは、入力がpから得られる確率を推定する。特に、xがpからのものであるときはf(x)=1であり、xがpからのものであるときはf(x)=0である。
類推として、GANフレームワークは、ミニマックス2プレーヤーゲームに対応し、生成サブネットワーク及び弁別サブネットワークは、以下の式を解くことによって共同でトレーニングすることができる。
Figure 2019510325
ここで、価値関数VGANは、以下の式によって与えられる。
Figure 2019510325
ネットワークf及びgをトレーニングするのに、確率的勾配降下法を有するバックプロパゲーションアルゴリズムが用いられる。幾つかの実施形態では、式(1)は、以下の2つの勾配更新ステップを交互に行うことによって解かれる。
Figure 2019510325
ここで、θ及びθは、それぞれネットワークf及びgの学習可能ネットワークパラメーターであり、λは学習率であり、上付き文字tは勾配更新の反復数を示す。
f及びgに十分な容量が与えられ、十分なトレーニング反復が行われると、分布pはpに収束する。すなわち、乱数の種zから、ネットワークgは、真のデータ分布pから得られる画像に類似した画像g(z)を合成することができる。そのために、トレーニング後、生成サブネットワーク301は、NNIG114の一部を形成することができる。
結合敵対的生成ネット
図4Aは、幾つかの実施形態によるCoGANフレームワークを示している。CoGANは、敵対的生成ネットのペア、すなわちGAN1及びGAN2を備える。これらの敵対的生成ネットのそれぞれは、画像を合成することができる生成サブネットワークと、入力信号が実画像であるのか又は合成画像であるのかを分類することができる弁別サブネットワークとを有する。GAN1及びGAN2の生成サブネットワークは、g4011及びg4012によって示される一方、GAN1及びGAN2の弁別サブネットワークは、f4021及びf4022によって示される。これらのサブネットワークは、多層パーセプトロンとして実施することができる。
生成サブネットワーク4011は、入力ベクトル305から第1のモダリティにおける画像3001を生成するようにトレーニングされ、生成サブネットワーク401は、入力ベクトル305から第2のモダリティにおける画像3002を生成するようにトレーニングされる。トレーニングを容易にするために、弁別サブネットワーク4021は、画像3001を第1のモダリティのトレーニング画像311と区別する(4031)。同様に、弁別サブネットワーク4022は、画像3002を第1のモダリティのトレーニング画像312と区別する(4032)。
図4Bは、結合敵対的生成ネットフレームワークにおける重み共有制約の一例を示している。CoGANフレームワークでは、生成サブネットワークg及びgの下層420、すなわち、高次セマンティック情報に対応する層の重みは、同一の重み、すなわち、同一のパラメーターを有するように制約される。この例では、弁別サブネットワークf及びfの高次セマンティック情報に対応する上層410の重みが共有される。
特に、生成サブネットワーク及び弁別サブネットワークは、主としてトレーニングステージ中に用いられるか又はトレーニングステージ中に限ってのみ用いられる。生成サブネットワークがトレーニングされた後、弁別サブネットワークは廃棄することができ、生成サブネットワークは、第1のニューラルネットワーク240又は第2のニューラルネットワーク250になる。
この重み共有方式は、対応する画像のペアをGAN1及びGAN2に合成させ、この対応関係は、2つの画像が、同じ高次セマンティック情報を共有するが、画像及びその回転したもの又はメガネを掛けた人物の顔及びメガネを掛けていない同じ人物の顔等の異なる低次実現値を有するという意味で規定される。例えば、CoGANは、画像及びその回転したものの合成、又はメガネを掛けている顔及びメガネを掛けていない同じ顔の合成に用いることができる。CoGANフレームワークは、より多くのGANを単に追加することによって複数のモダリティにおける共同画像生成を取り扱うように拡張することができる。
生成サブネットワーク
トレーニングデータセットをDDGANとする。各サンプルは、第1のモダリティのデータ分布
Figure 2019510325
又は第2のモダリティのデータ分布
Figure 2019510325
のいずれかから得られる。GAN1及びGAN2の生成サブネットワークをg及びgとする。これらのサブネットワークは、ランダムベクトル入力zを、x及びxと同じサポートを有する画像に個別にマッピングする。g(z)及びg(z)の分布を
Figure 2019510325
によって示す。
1つの実施形態では、g及びgの双方は、多層パーセプトロンとして実施され、以下のように表すことができる。
Figure 2019510325
ここで、g (i)及びg (i)は、g及びgの第i層であり、m及びmは、生成サブネットワークg及びgにおける層の数である。mはmに等しくなくてもよいことに留意されたい。g (i)及びg (i)の学習可能パラメーターを示すのに、それぞれ
Figure 2019510325
を用いる。
パーセプトロン動作層を通じて、生成サブネットワークは、情報をより抽象的な概念からより具体的な詳細に徐々に復号化する。下層は、高次セマンティック情報を復号化し、上層は、低次詳細情報を復号化する。この情報フローは、分類タスクのための弁別深層ニューラルネットワークと異なることに留意されたい。弁別サブネットワークでは、下層は低次特徴を抽出する一方、上層は高次特徴を抽出する。
異なるモダリティにおける対応する画像は、同じ高次セマンティック情報を共有するので、幾つかの実施形態は、g及びgの下層420に、同一の構造を保有させるとともに重みを共有させる。すなわち、
Figure 2019510325
である。ここで、kは、共有される層の数である。この重み共有制約は、高次情報が生成ネットワークg及びgによって同じ方法で復号化されることを強制する。幾つかの実施形態は、追加の制約を上層に課さない。これらの制約は、個々のモダリティにとって最良の方法で高次セマンティック情報を実現することを学習することが可能にされている。
弁別サブネットワーク
弁別サブネットワークの導出は、生成サブネットワークの導出と類似している。多層パーセプトロンとして実施することができるGAN1及びGAN2の弁別サブネットワークをf及びfとする。
Figure 2019510325
ここで、f (i)及びf (i)は、f及びfの第i層であり、n及びnは、f及びfの層の数である。f (i)及びf (i)の学習可能パラメーターを示すのに、それぞれ
Figure 2019510325
を用いる。
弁別サブネットワークは、入力画像を、この入力がトレーニングデータ分布から得られる確率を推定する確率スコアにマッピングする。これらのサブネットワークについて、弁別サブネットワークの下層は低次特徴を抽出する一方、上層は高次特徴を抽出する。入力画像は、2つの異なるモダリティにおける同じ高次セマンティクスを実現したものであるので、幾つかの実施形態は、弁別サブネットワークf及びfに同じ上層410を保有させる。これは、以下の式を介して2つの弁別サブネットワークの上層の重みを共有することによって達成される。
Figure 2019510325
ここで、lは、共有される層の数である。
トレーニング
類推として、CoGANのトレーニングも、以下の式によって与えられる制約付きミニマックスゲームに対応する。
Figure 2019510325
ここで、価値関数VDGANは以下である。
Figure 2019510325
このゲーム類推では、2つのチームが存在し、各チームは2人のプレーヤーを有する。生成サブネットワークg及びgは、弁別サブネットワークf及びfを混乱させる2つの異なるモダリティにおける対応する画像のペアを合成するためにチームを形成し、ともに動作する。他方、弁別サブネットワークは、それぞれのモダリティにおけるトレーニングデータ分布から得られた画像を、それぞれの生成サブネットワークから得られた画像と区別することを試みる。この協調は、重み共有制約から確立される。GANフレームワークと同様に、生成サブネットワーク及び弁別サブネットワークのトレーニングは、交互型の勾配更新方式を有するバックプロパゲーションアルゴリズムによって達成することができる。
CoGANゲームには、2つのチームが存在し、各チームは2人のプレーヤーを有する。生成サブネットワークg及びgは、弁別サブネットワークf及びfをそれぞれ混乱させる2つの異なるモダリティにおける対応する画像のペアを合成するためにチームを形成し、ともに動作する。弁別サブネットワークは、それぞれのモダリティにおけるトレーニングデータ分布から得られた画像を、それぞれの生成サブネットワークから得られた画像と区別することを試みる。この協調は、重み共有制約から確立される。GANフレームワークと同様に、生成サブネットワーク及び弁別サブネットワークの学習は、交互型の勾配更新方式を有するバックプロパゲーションアルゴリズムによって達成することができる。
図5Aは、本発明の幾つかの実施形態によって用いられるニューラルネットワークのトレーニングの概略図を示している。トレーニング510は、異なるモダリティの画像501及び502のトレーニングセットを用いて、NNIGのパラメーター520を生成する。特に、画像501は、画像502に対応する必要はない。一般に、人工ニューラルネットワークをトレーニングすることは、トレーニングセットを考慮して、「学習」アルゴリズムと呼ばれることがあるトレーニングアルゴリズムを人工ニューラルネットワークに適用することを含む。トレーニングセットは、1つ以上の入力セット及び1つ以上の出力セットを含むことができ、各入力セットは1つの出力セットに対応する。トレーニングセットにおける出力セットは、対応する入力セットが人工ニューラルネットワークに入力され、人工ニューラルネットワークがそのときフィードフォワード形式で動作されたときに、人工ニューラルネットワークが生成することが望まれる出力セットを含む。ニューラルネットワークをトレーニングすることは、パラメーター、例えば、人工ニューラルネットワーク内の接続に関連付けられた重み値を計算することを伴う。
図5Bは、本発明の1つの実施形態によるトレーニング510の擬似コードを示している。CoGANトレーニング中、トレーニングサンプルは、1対1の対応関係が利用可能である結合分布からのサンプルに依拠しないように、周辺分布から独立に得られる。そのようにして、CoGANは、事前に対応関係を有していなかったデジタル画像の異なるモダリティを対応させて合成することができる生成サブネットワークをトレーニングする。異なるモダリティが2つであっても対応する画像を取得することは非常に困難である可能性があるので、周辺分布から結合分布を学習することができることによって、ペア画像生成のトレーニングデータ収集の負担を大幅に軽減することができる。
図5Cは、本発明の1つの実施形態によるトレーニングシステムのブロック図を示している。このトレーニングシステムは、バス22によって読み出し専用メモリ(ROM)24及びメモリ38に接続されたプロセッサを備える。このトレーニングシステムは、情報をユーザーに提示するディスプレイ28と、キーボード26、マウス34及び入力/出力ポート30を介して取り付けることができる他のデバイスを含む複数の入力デバイスとを備えることもできる。他のポインティングデバイス又は音声センサー若しくは画像センサー等の他の入力デバイスも取り付けることができる。他のポインティングデバイスには、タブレット、数値キーパッド、タッチスクリーン、タッチスクリーンオーバーレイ、トラックボール、ジョイスティック、ライトペン、サムホイール等が含まれる。I/O30は、通信ライン、ディスク記憶装置、入力デバイス、出力デバイス又は他のI/O機器に接続することができる。メモリ38は、表示スクリーンのピクセル強度値を含むディスプレイバッファー72を備える。ディスプレイ28は、ディスプレイバッファー72からピクセル値を周期的に読み取り、これらの値を表示スクリーン上に表示する。ピクセル強度値は、グレーレベルを表す場合もあるし、カラーを表す場合もある。
メモリ38は、データベース90、トレーナー82、NNIG114、プリプロセッサ84を含む。データベース90は、履歴データ105、トレーニングデータ、テストデータ92を含むことができる。データベースは、ニューラルネットワークを用いる動作モード、トレーニングモード又は保持モードからの結果も含むことができる。これらの要素は、上記で詳述されている。
メモリ38には、オペレーティングシステム74も示されている。オペレーティングシステムの例には、AIX、OS/2、DOS、LINUX、及びWINDOWS(登録商標)が含まれる。メモリ38に示された他の要素には、キーボード及びマウス等のデバイスによって生成された電気信号を解釈するデバイスドライバー76が含まれる。ワーキングメモリエリア78もメモリ38に示されている。ワーキングメモリエリア78は、メモリ38に示す要素のいずれもが利用することができる。ワーキングメモリエリアは、ニューラルネットワーク101、トレーナー82、オペレーティングシステム74及び他の機能が利用することができる。ワーキングメモリエリア78は、要素間及び要素内で分割することができる。ワーキングメモリエリア78は、通信、バッファリング、一時記憶、又はプログラムが動作している間のデータの記憶に利用することができる。

本開示に提供された幾つかの例は、CoGANフレームワークを用いて幾つかの実施形態によってトレーニングされたNNIGが、純粋に教師なし形式で、トレーニングデータにおける異なるモダリティ間の1対1の対応関係に依拠することなく、異なる種類のマルチモーダルデジタル画像を生成することができることを示している。
数字の生成
図6Aは、1つの実施形態による手書き数字のマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例610を示している。この実施形態は、トレーニングデータセット内の60000個のトレーニング画像を用いて、例えば、数字画像及びそのエッジ画像を生成すること及び/又は数字画像及びそのネガ画像を生成することを含めて、2つの異なるモダリティにおいて数字を生成するCoGANをトレーニングする。例えば、第1のモダリティは、手書き数字画像を含むことができる一方、第2のモダリティは、それらの対応するエッジ画像を含むことができる。幾つかの実施形態によって生成されたマルチモーダルデジタル画像の例は、図6Bに示されている。別の例では、2つのモダリティは、それぞれ手書き数字画像及びそれらのネガ画像を含む。幾つかの実施形態によって生成されたそれらのマルチモーダルデジタル画像の例は、図6Cに示されている。
図6Aの例では、2つの生成サブネットワークは、同一の構造を有し、ともに5つの層を有し、完全畳み込みであった。畳み込み層のストライド長(stride lengths)は分数であった。サブネットワークは、バッチ正規化層及びパラメーター化正規化線形関数(parameterized rectified linear unit)層も用いていた。生成サブネットワークは、画像出力を生成することを担当した最後の畳み込み層を除く全ての層についてパラメーターを共有する。弁別サブネットワークは、LeNetの一変形形態を用いる。弁別サブネットワークへの入力は、生成サブネットワークからの出力画像と、2つのトレーニングサブセットからの画像(各ピクセル値は0〜1に線形正規化されている)とを含むバッチである。1つの実施態様は、適応モーメント確率的勾配降下(ADAM)方法を用いて、25000回の反復についてCoGANをトレーニングする。
顔の生成
図7Aは、1つの実施形態による異なる属性を有するマルチモーダル顔画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例710を示している。この実施形態は、それぞれが属性を有する顔画像と属性を有しない対応する顔画像とを生成する幾つかのCoGANをトレーニングした。トレーニングデータセットは、202599個の顔画像を有する10177人の人物を含んでいた。トレーニングデータセットは、大きな姿勢変化及び背景クラッターをカバーしていた。各顔画像は、メガネ、微笑み、及び金髪を含む40個の属性を有していた。属性を有する顔画像は、デジタル画像の第1のモダリティを形成し、属性を有しない顔画像は、第2のモダリティを形成した。これらの2つのモダリティにおいて重複する顔は存在しなかった。この例では、生成サブネットワーク及び弁別サブネットワークは、ともに7層の深層畳み込みニューラルネットワークであった。
図7Bは、金髪を有する顔及び黒髪を有する顔のマルチモーダル画像の例を示している。図7Cは、笑顔及び非笑顔のマルチモーダル画像の例を示している。図7Dは、メガネを掛けている顔及びメガネを掛けていない顔のマルチモーダル画像の例を示している。
幾つかの実施態様は、一方の点から他方の点に移動するときの100次元入力空間におけるこれらの2つの点をランダムにサンプリングし、レンダリングされた顔の変形を視覚化した。特に、CoGANは、異なる属性を有する同じ人物からの顔に類似した対応する顔のペアを生成した。空間内を移動するにつれて、顔は、例えば、人物ごとに徐々に変形する可能性がある。そのような変形は、双方のモダリティについて一貫しており、これによって、CoGANフレームワークは検証された。
RGB画像及び深度画像の生成
図8Aは、1つの実施形態によるカラー画像及びその対応する深度画像を含むマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示している。レンダリングされた画像ペアは2つの異なるモダリティを有するものであったことに留意されたい。トレーニングデータセットは、異なる視点からセンサーによって取り込まれた300個の物体の登録されたカラー画像及び深度画像を有するRGBD画像を有するものであった。GAN1のトレーニングには第1のサブセット内のカラー画像が用いられた一方、GAN2のトレーニングには第2のサブセット内の深度画像が用いられた。これらの2つのサブセットには、対応する深度画像及びカラー画像は存在しなかった。データセット内の画像は、種々の解像度を有する。
図8Bは、マルチモーダルカラー画像及び深度画像の例を示している。レンダリングされた深度プロファイルは、実際の物体に類似して滑らかに変形した。
用途
映画及びゲームの制作のためにマルチモーダルデジタル画像をレンダリングすることに加えて、開示されたCoGANフレームワークは、モダリティ変換タスク及びモダリティ適応タスクに用途を見出している。第1のモダリティにおける画像をxとする。モダリティ変換タスクは、結合確率密度p(x,x)が最大化されるような第2のモダリティにおける対応する画像xを見つけることである。2つの画像の間の相違を測定する損失関数をLとする。トレーニングされた生成サブネットワークg及びgが与えられると、変換は、最初に以下の式を解くことによって達成することができる。
Figure 2019510325
を見つけた後、gを適用して、変換された画像x=g(z)を得ることができる。
図9は、幾つかの実施形態によるモダリティ変換の例を示している。例えば、画像910は画像920に変換され、画像930は画像940に変換される。それらの例は、ユークリッド距離(L2損失)関数及び限定メモリBFGS(L−BFGS又はLM−BFGS)最適化方法を用いることによって計算される。
モダリティ適応は、一方のモダリティにおいてトレーニングされた分類器を他方のモダリティに適応させることに関係している。そのために、1つの実施形態は、教師なしモダリティ適応タスクにCoGANフレームワークを用いる。タスクAにおいて用いられる第1のモダリティ及び第2のモダリティにおける数字画像のサブセットをD及びDとする。D内の画像のクラスラベルは既知であったが、D内の画像のクラスラベルは未知であったものと仮定する。1つの目標は、Dを用いてトレーニングされた数字分類器を、第2のモダリティにおける数字を分類するように適応させることであった。CoGANは、D内の画像及びラベルを用いた第1のモダリティにおける数字分類問題と、D及びDの双方における画像を用いたCoGAN学習問題とを併せて解くことによってトレーニングすることができる。これによって、第1のモダリティのc(x)=c(f (3)(f (2)(f (1)(x)))と、第2のモダリティのc(x)=c(f (3)(f (2)(f (1)(x)))との2つの分類器が生成される。重み共有に起因してf (2)=f (2)であり、f (3)=f (3)であることに留意されたい。
付加的に又は代替的に、1つの実施形態は、国立標準技術研究所混合データベース(MNIST:Mixed National Institute of Standards and Technology database)のテスト画像をそれらの対応するエッジ画像に変換することによってモダリティシフトを生み出す。cを適用してエッジ画像を分類すると、分類精度は、モダリティシフトに起因して87.0\%に低下した。一方、cを適用して第2のモダリティにおける画像を分類したとき、96.7\%の分類精度を得た。この精度は、第1のモダリティにおいて得られた精度に近い。これは、第2のモダリティにおけるラベルも、2つのモダリティ間のサンプル対応関係も用いられていなかったことから、驚くべきことであった。
本発明の上述した実施形態は、非常に多くの方法のうちのいずれにおいても実施することができる。例えば、これらの実施形態は、ハードウェア、ソフトウェア又はそれらの組み合わせを用いて実施することができる。ソフトウェアで実施されるとき、ソフトウェアコードは、単一のコンピューターに設けられているか、複数のコンピューター間に分散されているかを問わず、任意の適したプロセッサ又はプロセッサの集合体において実行することができる。そのようなプロセッサは、集積回路構成要素内に1つ以上のプロセッサを有する集積回路として実施することができる。ただし、プロセッサは、回路部を用いて任意の適したフォーマットで実施することができる。
また、本発明の実施形態は、方法として具現化することができる。この方法の一例は既に提供されている。この方法の一部として実行される動作は、任意の適した方法で順序付けることができる。したがって、図示したものとは異なる順序で動作が実行される実施形態を構築することができ、この順序は、例示の実施形態では逐次動作として示されていても、幾つかの動作を同時に実行することを含むことができる。
請求項の要素を修飾する請求項における「第1」、「第2」等の順序を表す用語の使用は、それ自体、1つの請求項の要素の優先順位、優位度、又は順序が別の要素よりも上回っていることを暗示するものでもなければ、方法の動作が実行される時間順序を暗示するものでもなく、或る特定の名称を有する1つの請求項の要素を、請求項の要素を区別するための(順序を表す用語の使用を除いた場合の)同じ名称を有する別の要素と区別するラベルとして単に用いられているに過ぎない。

Claims (20)

  1. マルチモーダルデジタル画像を生成するコンピューター実施方法であって、
    第1のニューラルネットワークを用いてベクトルを処理して、前記デジタル画像の第1のモダリティを生成することと、
    第2のニューラルネットワークを用いて前記ベクトルを処理して、前記デジタル画像の第2のモダリティを生成することであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
    を含み、
    前記方法のステップは、プロセッサを用いて実行される、
    コンピューター実施方法。
  2. 確率分布を用いて前記ベクトルの要素をランダムに生成すること、
    を更に含む、請求項1に記載の方法。
  3. 同一のパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の前記第1の画像及び前記第2の画像の高次特徴を生成し、異なるパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の低次特徴を生成する、
    請求項1に記載の方法。
  4. 前記低次特徴は前記高次特徴から導出される、
    請求項3に記載の方法。
  5. 前記デジタル画像は、画像、ビデオ、テキスト、及び音響のうちの1つ又は組み合わせを含む、
    請求項1に記載の方法。
  6. 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの幾つかの下層に対して同一のパラメーターを実施しながら、共同でトレーニングすること、
    を更に含む、請求項1に記載の方法。
  7. 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記デジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記デジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット(GAN)を用いてトレーニングされる、
    請求項6に記載の方法。
  8. 前記第1のニューラルネットワークの第1の生成サブネットワーク及び第1の弁別サブネットワークと、前記第2のニューラルネットワークの第2の生成サブネットワーク及び第2の弁別サブネットワークとは、ミニマックス目的関数を最小にするように共同でトレーニングされる、
    請求項7に記載の方法。
  9. 前記第1及び前記第2のモダリティの前記デジタル画像をディスプレイデバイス上にレンダリングすること、又は、
    前記第1及び第2のモダリティの前記デジタル画像を、通信チャネルを介して送信すること、
    を更に含む、請求項1に記載の方法。
  10. 前記デジタル画像の前記第1のモダリティはカラー画像であり、
    前記デジタル画像の前記第2のモダリティは深度画像である、
    請求項1に記載の方法。
  11. 前記デジタル画像の前記第1のモダリティはカラー画像であり、
    前記デジタル画像の前記第2のモダリティは熱画像である、
    請求項1に記載の方法。
  12. 前記デジタル画像の前記第1のモダリティは、第1のスタイルを有する画像であり、
    前記デジタル画像の前記第2のモダリティは、第2のスタイルを有する画像である、
    請求項1に記載の方法。
  13. 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、前記デジタル画像のモダリティのセットを生成するように共同でトレーニングされた前記ニューラルネットワークのセットから選択され、
    前記方法は、
    ニューラルネットワークのセットを用いて前記ベクトルを処理して、前記マルチモーダルデジタル画像を生成すること、
    を含む、請求項1に記載の方法。
  14. 前記ニューラルネットワークの前記セットは、結合敵対的生成ネット(CoGAN)を形成する、
    請求項13に記載の方法。
  15. マルチモーダルデジタル画像を生成するシステムであって、
    前記デジタル画像の第1のモダリティを生成するようにトレーニングされた第1のニューラルネットワークと、前記デジタル画像の第2のモダリティを生成するようにトレーニングされた第2のニューラルネットワークとを記憶する少なくとも1つの非一時的コンピューター可読メモリであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
    前記第1のニューラルネットワークを用いて前記ベクトルを処理して前記デジタル画像の第1のモダリティを生成することと、前記第2のニューラルネットワークを用いて前記ベクトルを処理して前記デジタル画像の第2のモダリティを生成することとによって、前記マルチモーダルデジタル画像を生成し、前記メモリに前記マルチモーダルデジタル画像を記憶するプロセッサと、
    を備える、システム。
  16. 前記マルチモーダルデジタル画像を表示するディスプレイデバイスを更に備えた、
    請求項15に記載のシステム。
  17. 同一のパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の高次特徴を生成し、異なるパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の低次特徴を生成し、前記高次特徴はデジタル画像全体に起因し、前記低次特徴は前記デジタル画像の一部分に起因する、
    請求項15に記載のシステム。
  18. 前記デジタル画像は、画像、ビデオ、テキスト、及び音響のうちの1つ又は組み合わせを含む、
    請求項15に記載のシステム。
  19. 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、共同でトレーニングされる、
    請求項15に記載のシステム。
  20. プロセッサによって実行されると、
    第1のニューラルネットワークを用いてベクトルを処理して、デジタル画像の第1のモダリティを生成することと、
    第2のニューラルネットワークを用いて前記ベクトルを処理して、前記デジタル画像の第2のモダリティを生成することであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
    を含むステップを実行する命令が記憶されている、
    非一時的コンピューター可読媒体。
JP2018557519A 2016-06-01 2017-05-24 マルチモーダルデジタル画像を生成する方法及びシステム Active JP6639700B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662344331P 2016-06-01 2016-06-01
US62/344,331 2016-06-01
US15/189,075 2016-06-22
US15/189,075 US9971958B2 (en) 2016-06-01 2016-06-22 Method and system for generating multimodal digital images
PCT/JP2017/020730 WO2017209307A1 (en) 2016-06-01 2017-05-24 Method and system for generating multimodal digital image

Publications (2)

Publication Number Publication Date
JP2019510325A true JP2019510325A (ja) 2019-04-11
JP6639700B2 JP6639700B2 (ja) 2020-02-05

Family

ID=59153238

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018557519A Active JP6639700B2 (ja) 2016-06-01 2017-05-24 マルチモーダルデジタル画像を生成する方法及びシステム

Country Status (5)

Country Link
US (1) US9971958B2 (ja)
JP (1) JP6639700B2 (ja)
CN (1) CN109196526B (ja)
DE (1) DE112017002799B4 (ja)
WO (1) WO2017209307A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6856965B1 (ja) * 2020-11-27 2021-04-14 株式会社ネフロック 画像出力装置及び画像出力方法
JP2021530045A (ja) * 2019-03-22 2021-11-04 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 顔認識方法及び装置
WO2022201803A1 (ja) * 2021-03-25 2022-09-29 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム
JP7466781B2 (ja) 2020-09-10 2024-04-12 三菱電機株式会社 多次元ディープニューラルネットワーク

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595039B2 (en) 2017-03-31 2020-03-17 Nvidia Corporation System and method for content and motion controlled action video generation
KR102403494B1 (ko) * 2017-04-27 2022-05-27 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
US10922556B2 (en) * 2017-04-28 2021-02-16 Intel Corporation Storage system of DNN outputs for black box
WO2019032421A1 (en) * 2017-08-07 2019-02-14 Siemens Aktiengesellschaft IMPROVED VISUAL LEARNING TECHNOLOGY MACHINE
CN107609481B (zh) * 2017-08-14 2020-11-20 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
JP7023669B2 (ja) * 2017-10-26 2022-02-22 株式会社Preferred Networks 画像生成方法、画像生成装置、及び画像生成プログラム
CN108122209B (zh) * 2017-12-14 2020-05-15 浙江捷尚视觉科技股份有限公司 一种基于对抗生成网络的车牌去模糊方法
US10540578B2 (en) * 2017-12-21 2020-01-21 International Business Machines Corporation Adapting a generative adversarial network to new data sources for image classification
US10592779B2 (en) 2017-12-21 2020-03-17 International Business Machines Corporation Generative adversarial network medical image generation for training of a classifier
US10937540B2 (en) 2017-12-21 2021-03-02 International Business Machines Coporation Medical image classification based on a generative adversarial network trained discriminator
CN111867474A (zh) * 2018-01-03 2020-10-30 皇家飞利浦有限公司 使用深度学习根据低剂量pet成像进行全剂量pet图像估计
CN108121975B (zh) * 2018-01-04 2022-04-19 中科汇通投资控股有限公司 一种联合原始数据和生成数据的人脸识别方法
CN108427963B (zh) * 2018-03-02 2020-10-30 浙江工业大学 一种基于深度学习的黑色素瘤皮肤病的分类识别方法
US10552714B2 (en) * 2018-03-16 2020-02-04 Ebay Inc. Generating a digital image using a generative adversarial network
CN108510061B (zh) * 2018-03-19 2022-03-29 华南理工大学 基于条件生成对抗网络的多监控视频人脸合成正脸的方法
KR102565278B1 (ko) 2018-03-26 2023-08-09 삼성전자주식회사 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법
US10839262B2 (en) 2018-04-24 2020-11-17 Here Global B.V. Machine learning a feature detector using synthetic training data
CN110738540B (zh) * 2018-07-20 2022-01-11 哈尔滨工业大学(深圳) 一种基于生成对抗网络的模特衣服推荐方法
US10699458B2 (en) * 2018-10-15 2020-06-30 Shutterstock, Inc. Image editor for merging images with generative adversarial networks
CN109447906B (zh) * 2018-11-08 2023-07-11 北京印刷学院 一种基于生成对抗网络的图片合成方法
US10915787B2 (en) * 2018-11-15 2021-02-09 Toyota Research Institute, Inc. System and method for generating training data from synthetic images
TWI705340B (zh) 2018-12-13 2020-09-21 財團法人工業技術研究院 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法
CN109671125B (zh) * 2018-12-17 2023-04-07 电子科技大学 一种高度融合的gan网络装置及实现文本生成图像的方法
CN109800399B (zh) * 2018-12-18 2023-05-26 北京奇艺世纪科技有限公司 模型生成方法、封面生成方法、装置及存储介质
CN109754447B (zh) * 2018-12-28 2021-06-22 上海联影智能医疗科技有限公司 图像生成方法、装置、设备和存储介质
CN109800730B (zh) * 2019-01-30 2022-03-08 北京字节跳动网络技术有限公司 用于生成头像生成模型的方法和装置
CN109948660A (zh) * 2019-02-26 2019-06-28 长沙理工大学 一种改进辅助分类器gan的图像分类方法
CN109978021B (zh) * 2019-03-07 2022-09-16 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
US10832450B2 (en) * 2019-03-27 2020-11-10 GM Global Technology Operations LLC Semantic preserved style transfer
CN109993712B (zh) * 2019-04-01 2023-04-25 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法及相关设备
KR102039138B1 (ko) * 2019-04-02 2019-10-31 주식회사 루닛 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치
CN109961491B (zh) * 2019-04-12 2023-05-26 上海联影医疗科技股份有限公司 多模态图像截断补偿方法、装置、计算机设备和介质
CN110288668B (zh) * 2019-05-20 2023-06-16 平安科技(深圳)有限公司 图像生成方法、装置、计算机设备及存储介质
CN110148128B (zh) * 2019-05-23 2023-04-18 中南大学 一种补全病变骨骼以获得骨骼预期参考模型的方法
CN110444277B (zh) * 2019-07-19 2023-03-28 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
US11062486B2 (en) * 2019-10-21 2021-07-13 Siemens Medical Solutions Usa, Inc. Methods and apparatus for deep learning based data transfer between imaging systems
CN111178401B (zh) * 2019-12-16 2023-09-12 上海航天控制技术研究所 一种基于多层对抗网络的空间目标分类方法
US11348243B2 (en) 2020-01-24 2022-05-31 GE Precision Healthcare LLC Systems and methods for medical image style transfer using deep neural networks
CN111340214B (zh) * 2020-02-21 2021-06-08 腾讯科技(深圳)有限公司 对抗攻击模型的训练方法及装置
US20220151567A1 (en) * 2020-11-17 2022-05-19 Siemens Healthcare Gmbh Joint assessment of myocardial strain and intracardiac blood flow
KR20220107575A (ko) * 2021-01-25 2022-08-02 삼성전자주식회사 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
US11341699B1 (en) * 2021-03-09 2022-05-24 Carmax Enterprise Services, Llc Systems and methods for synthetic image generation
CN113506222B (zh) * 2021-07-30 2024-03-01 合肥工业大学 一种基于卷积神经网络的多模态图像超分辨方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016069581A1 (en) * 2014-10-27 2016-05-06 Ebay Inc. Hierarchical deep convolutional neural network

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654018B1 (en) 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
US7028271B2 (en) * 2002-11-06 2006-04-11 Canon Kabushiki Kaisha Hierarchical processing apparatus
US20040130546A1 (en) * 2003-01-06 2004-07-08 Porikli Fatih M. Region growing with adaptive thresholds and distance function parameters
WO2006057267A1 (ja) 2004-11-25 2006-06-01 Nec Corporation 顔画像合成方法および顔画像合成装置
US7831108B2 (en) * 2006-12-13 2010-11-09 Adobe Systems Incorporated Universal front end for masks, selections, and paths
KR101601475B1 (ko) * 2014-08-25 2016-03-21 현대자동차주식회사 야간 주행 시 차량의 보행자 검출장치 및 방법
US10417525B2 (en) * 2014-09-22 2019-09-17 Samsung Electronics Co., Ltd. Object recognition with reduced neural network weight precision
US9922272B2 (en) * 2014-09-25 2018-03-20 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
CN104408483B (zh) * 2014-12-08 2017-08-25 西安电子科技大学 基于深度神经网络的sar纹理图像分类方法
CN105938558B (zh) * 2015-03-06 2021-02-09 松下知识产权经营株式会社 学习方法
US9514391B2 (en) * 2015-04-20 2016-12-06 Xerox Corporation Fisher vectors meet neural networks: a hybrid visual classification architecture
CN105184303B (zh) * 2015-04-23 2019-08-09 南京邮电大学 一种基于多模态深度学习的图像标注方法
CN104899921B (zh) * 2015-06-04 2017-12-22 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9824304B2 (en) * 2015-10-06 2017-11-21 Adobe Systems Incorporated Determination of font similarity
CN105512661B (zh) * 2015-11-25 2019-02-26 中国人民解放军信息工程大学 一种基于多模态特征融合的遥感影像分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016069581A1 (en) * 2014-10-27 2016-05-06 Ebay Inc. Hierarchical deep convolutional neural network

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNSHI HUANG, ROGERIO FERIS, QIANG CHEN AND SHUICHENG YAN: "Cross-domain Image Retrieval with a Dual Attribute-aware Ranking Network", PROCEEDINGS OF 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6019035634, 7 December 2015 (2015-12-07), US, pages 1062 - 1070, XP032866432, ISSN: 0004115855, DOI: 10.1109/ICCV.2015.127 *
LONG DUONG, TREVOR COHN, STEVEN BIRD AND PAUL COOK: "Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser", PROCEEDINGS OF THE 53RD ANNUAL MEETINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, JPN6019035631, 25 July 2015 (2015-07-25), pages 845 - 850, XP055756286, ISSN: 0004115854, DOI: 10.3115/v1/P15-2139 *
岡野原 大輔: "Generative Adversarial Networks ニューラルネットを競合させ生成モデルを鍛える", 日経ROBOTICS, vol. 2016年5月号, JPN6019035635, 10 April 2016 (2016-04-10), JP, pages 36 - 37, ISSN: 0004115856 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530045A (ja) * 2019-03-22 2021-11-04 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 顔認識方法及び装置
JP7038867B2 (ja) 2019-03-22 2022-03-18 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド 顔認識方法及び装置
JP7466781B2 (ja) 2020-09-10 2024-04-12 三菱電機株式会社 多次元ディープニューラルネットワーク
JP6856965B1 (ja) * 2020-11-27 2021-04-14 株式会社ネフロック 画像出力装置及び画像出力方法
WO2022113398A1 (ja) * 2020-11-27 2022-06-02 株式会社ネフロック 画像出力装置及び画像出力方法
JP2022085452A (ja) * 2020-11-27 2022-06-08 株式会社ネフロック 画像出力装置及び画像出力方法
WO2022201803A1 (ja) * 2021-03-25 2022-09-29 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
CN109196526B (zh) 2021-09-28
DE112017002799T5 (de) 2019-03-14
US9971958B2 (en) 2018-05-15
CN109196526A (zh) 2019-01-11
WO2017209307A1 (en) 2017-12-07
US20170351935A1 (en) 2017-12-07
DE112017002799B4 (de) 2023-03-02
JP6639700B2 (ja) 2020-02-05

Similar Documents

Publication Publication Date Title
JP6639700B2 (ja) マルチモーダルデジタル画像を生成する方法及びシステム
US10496898B2 (en) State detection using machine-learning model trained on simulated image data
JP6504590B2 (ja) 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
Betancourt et al. The evolution of first person vision methods: A survey
US10223838B2 (en) Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras
US11481869B2 (en) Cross-domain image translation
US11615516B2 (en) Image-to-image translation using unpaired data for supervised learning
JP6728487B2 (ja) 電子装置及びその制御方法
JP2021511579A (ja) 画像処理システム及び画像処理方法
CN111598818A (zh) 人脸融合模型训练方法、装置及电子设备
Loke et al. Indian sign language converter system using an android app
CN111563855A (zh) 图像处理的方法及装置
WO2022052782A1 (zh) 图像的处理方法及相关设备
US10970331B2 (en) Determining contextual confidence of images using associative deep learning
CN110121719A (zh) 用于深度学习的装置、方法和计算机程序产品
CN110427864B (zh) 一种图像处理方法、装置及电子设备
Kwolek et al. Recognition of JSL fingerspelling using deep convolutional neural networks
KR102160955B1 (ko) 딥 러닝 기반 3d 데이터 생성 방법 및 장치
US20230093827A1 (en) Image processing framework for performing object depth estimation
Usman et al. Skeleton-based motion prediction: A survey
CN115346262A (zh) 一种表情驱动参数的确定方法、装置、设备及存储介质
Boletsis et al. The InVizAR project: Augmented reality visualization for non-destructive testing data from jacket platforms
Mahbub et al. Contactless human monitoring: challenges and future direction
KR102358355B1 (ko) 얼굴 영상의 점진적 디블러링 방법 및 장치
CN112766063B (zh) 基于位移补偿的微表情拟合方法和系统

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180725

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191224

R150 Certificate of patent or registration of utility model

Ref document number: 6639700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250