JP6639700B2 - マルチモーダルデジタル画像を生成する方法及びシステム - Google Patents
マルチモーダルデジタル画像を生成する方法及びシステム Download PDFInfo
- Publication number
- JP6639700B2 JP6639700B2 JP2018557519A JP2018557519A JP6639700B2 JP 6639700 B2 JP6639700 B2 JP 6639700B2 JP 2018557519 A JP2018557519 A JP 2018557519A JP 2018557519 A JP2018557519 A JP 2018557519A JP 6639700 B2 JP6639700 B2 JP 6639700B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- neural network
- modality
- digital image
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 39
- 238000013528 artificial neural network Methods 0.000 claims description 164
- 238000012549 training Methods 0.000 claims description 55
- 230000015654 memory Effects 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 4
- 230000001537 neural effect Effects 0.000 claims description 2
- 238000009877 rendering Methods 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 16
- 102100037410 Gigaxonin Human genes 0.000 description 11
- 101001025761 Homo sapiens Gigaxonin Proteins 0.000 description 11
- 238000003860 storage Methods 0.000 description 10
- 239000011521 glass Substances 0.000 description 9
- 238000012800 visualization Methods 0.000 description 6
- 230000003936 working memory Effects 0.000 description 5
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001144 postural effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000859 sublimation Methods 0.000 description 1
- 230000008022 sublimation Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
本発明の幾つかの実施形態は、結合敵対的生成ネット(CoGAN)フレームワークを用いて、トレーニングデータセットに1対1の対応関係がなくてもマルチモーダルデジタル画像をレンダリングすることができるNNIG114をトレーニングする。このフレームワークは、画像生成用の敵対的生成ネット(GAN)に基づいている。CoGANフレームワークは、少なくともGANのペアを含む。
図3は、NNIG114をトレーニングするために幾つかの実施形態によって用いられるGANのブロック図を示している。GANフレームワークは、生成サブネットワーク301及び弁別サブネットワーク302の2つのサブネットワークを備える。生成サブネットワーク301の目的は、ランダム入力305、例えばベクトル210、からトレーニング画像310に類似している画像300を合成又は生成することである。弁別サブネットワーク302の目的は、画像310を合成画像300と区別する(303)ことである。生成サブネットワーク及び弁別サブネットワークの双方は、多層パーセプトロン、すなわちフィードフォワードニューラルネットワーク、又は多層畳み込みニューラルネットワークとして実施することができる。
図4Aは、幾つかの実施形態によるCoGANフレームワークを示している。CoGANは、敵対的生成ネットのペア、すなわちGAN1及びGAN2を備える。これらの敵対的生成ネットのそれぞれは、画像を合成することができる生成サブネットワークと、入力信号が実画像であるのか又は合成画像であるのかを分類することができる弁別サブネットワークとを有する。GAN1及びGAN2の生成サブネットワークは、g14011及びg24012によって示される一方、GAN1及びGAN2の弁別サブネットワークは、f14021及びf24022によって示される。これらのサブネットワークは、多層パーセプトロンとして実施することができる。
トレーニングデータセットをDDGANとする。各サンプルは、第1のモダリティのデータ分布
弁別サブネットワークの導出は、生成サブネットワークの導出と類似している。多層パーセプトロンとして実施することができるGAN1及びGAN2の弁別サブネットワークをf1及びf2とする。
本開示に提供された幾つかの例は、CoGANフレームワークを用いて幾つかの実施形態によってトレーニングされたNNIGが、純粋に教師なし形式で、トレーニングデータにおける異なるモダリティ間の1対1の対応関係に依拠することなく、異なる種類のマルチモーダルデジタル画像を生成することができることを示している。
図6Aは、1つの実施形態による手書き数字のマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例610を示している。この実施形態は、トレーニングデータセット内の60000個のトレーニング画像を用いて、例えば、数字画像及びそのエッジ画像を生成すること及び/又は数字画像及びそのネガ画像を生成することを含めて、2つの異なるモダリティにおいて数字を生成するCoGANをトレーニングする。例えば、第1のモダリティは、手書き数字画像を含むことができる一方、第2のモダリティは、それらの対応するエッジ画像を含むことができる。幾つかの実施形態によって生成されたマルチモーダルデジタル画像の例は、図6Bに示されている。別の例では、2つのモダリティは、それぞれ手書き数字画像及びそれらのネガ画像を含む。幾つかの実施形態によって生成されたそれらのマルチモーダルデジタル画像の例は、図6Cに示されている。
図7Aは、1つの実施形態による異なる属性を有するマルチモーダル顔画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例710を示している。この実施形態は、それぞれが属性を有する顔画像と属性を有しない対応する顔画像とを生成する幾つかのCoGANをトレーニングした。トレーニングデータセットは、202599個の顔画像を有する10177人の人物を含んでいた。トレーニングデータセットは、大きな姿勢変化及び背景クラッターをカバーしていた。各顔画像は、メガネ、微笑み、及び金髪を含む40個の属性を有していた。属性を有する顔画像は、デジタル画像の第1のモダリティを形成し、属性を有しない顔画像は、第2のモダリティを形成した。これらの2つのモダリティにおいて重複する顔は存在しなかった。この例では、生成サブネットワーク及び弁別サブネットワークは、ともに7層の深層畳み込みニューラルネットワークであった。
図8Aは、1つの実施形態によるカラー画像及びその対応する深度画像を含むマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示している。レンダリングされた画像ペアは2つの異なるモダリティを有するものであったことに留意されたい。トレーニングデータセットは、異なる視点からセンサーによって取り込まれた300個の物体の登録されたカラー画像及び深度画像を有するRGBD画像を有するものであった。GAN1のトレーニングには第1のサブセット内のカラー画像が用いられた一方、GAN2のトレーニングには第2のサブセット内の深度画像が用いられた。これらの2つのサブセットには、対応する深度画像及びカラー画像は存在しなかった。データセット内の画像は、種々の解像度を有する。
映画及びゲームの制作のためにマルチモーダルデジタル画像をレンダリングすることに加えて、開示されたCoGANフレームワークは、モダリティ変換タスク及びモダリティ適応タスクに用途を見出している。第1のモダリティにおける画像をx1とする。モダリティ変換タスクは、結合確率密度p(x1,x2)が最大化されるような第2のモダリティにおける対応する画像x2を見つけることである。2つの画像の間の相違を測定する損失関数をLとする。トレーニングされた生成サブネットワークg1及びg2が与えられると、変換は、最初に以下の式を解くことによって達成することができる。
Claims (17)
- マルチモーダルデジタル画像を生成するコンピューター実施方法であって、該方法は、該方法を実施する記憶された命令と結合されたプロセッサを用い、該命令は、該プロセッサによって実行されると、
シーンを表す各ピクセルに関する情報を含む該シーンの画像を取得することと、
第1のニューラルネットワークを用いて前記シーンの画像を処理して、第1のモダリティを有する第1の画像を生成することと、
前記第1の画像及び第2の画像が前記マルチモーダルデジタル画像を形成するように、第2のニューラルネットワークを用いて前記シーンの画像を処理して、第2のモダリティを有する前記第2の画像を生成することであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
なお、同一のパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第1の画像及び前記第2の画像の高次特徴を生成し、異なるパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第1の画像及び前記第2の画像の低次特徴を生成し、
前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの幾つかの下層に対して同一のパラメーターを使用しながら、共同でトレーニングされ、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記マルチモーダルデジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記マルチモーダルデジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット(GAN)を用いてトレーニングされ、
前記マルチモーダルデジタル画像を出力することと、
を含む該方法のステップを実行する、コンピューター実施方法。 - 確率分布を用いて前記シーンの画像の要素をランダムに生成すること、
を更に含む、請求項1に記載の方法。 - 前記低次特徴は前記高次特徴から導出される、
請求項1に記載の方法。 - 前記マルチモーダルデジタル画像は、画像、ビデオ、テキスト、及び音響のうちの1つ又は組み合わせを含む、
請求項1に記載の方法。 - 前記第1のニューラルネットワークの第1の生成サブネットワーク及び第1の弁別サブネットワークと、前記第2のニューラルネットワークの第2の生成サブネットワーク及び第2の弁別サブネットワークとは、ミニマックス目的関数を最小にするように共同でトレーニングされる、
請求項1に記載の方法。 - 前記第1のモダリティの前記第1の画像及び前記第2のモダリティの前記第2の画像をディスプレイデバイス上にレンダリングすること、又は、
前記第1のモダリティの前記第1の画像及び前記第2のモダリティの前記第2の画像を、通信チャネルを介して送信すること、
を更に含む、請求項1に記載の方法。 - 前記第1の画像の前記第1のモダリティはカラー画像であり、
前記第2の画像の前記第2のモダリティは深度画像である、
請求項1に記載の方法。 - 前記第1の画像の前記第1のモダリティはカラー画像であり、
前記第2の画像の前記第2のモダリティは熱画像である、
請求項1に記載の方法。 - 前記第1の画像の前記第1のモダリティは、第1のスタイルを有する画像であり、
前記第2の画像の前記第2のモダリティは、第2のスタイルを有する画像である、
請求項1に記載の方法。 - 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、前記マルチモーダルデジタル画像のモダリティのセットを生成するように共同でトレーニングされたニューラルネットワークのセットから選択され、
前記方法は、
ニューラルネットワークのセットを用いて前記シーンの画像を処理して、前記マルチモーダルデジタル画像を生成すること、
を含む、請求項1に記載の方法。 - 前記ニューラルネットワークの前記セットは、結合敵対的生成ネット(CoGAN)を形成する、
請求項10に記載の方法。 - マルチモーダルデジタル画像を生成するシステムであって、
シーンを表す各ピクセルに関する情報を含む該シーンの画像を取得する入力インターフェースと、
前記マルチモーダルデジタル画像の第1のモダリティを生成するようにトレーニングされた第1のニューラルネットワークと、前記マルチモーダルデジタル画像の第2のモダリティを生成するようにトレーニングされた第2のニューラルネットワークとを記憶する少なくとも1つの非一時的コンピューター可読メモリであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有し、同一のパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の第1の画像及び第2の画像の高次特徴を生成し、異なるパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第1の画像及び前記第2の画像の低次特徴を生成する、少なくとも1つの非一時的コンピューター可読メモリと、
なお、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの幾つかの下層に対して同一のパラメーターを使用しながら、共同でトレーニングされ、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記マルチモーダルデジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記マルチモーダルデジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット(GAN)を用いてトレーニングされ、
第1の画像及び第2の画像が前記マルチモーダルデジタル画像を形成するように、前記第1のニューラルネットワークを用いて前記シーンの画像を処理して前記第1の画像の第1のモダリティを生成することと、前記第2のニューラルネットワークを用いて前記シーンの画像を処理して前記第2の画像の第2のモダリティを生成することとによって、前記マルチモーダルデジタル画像を生成するプロセッサと、
前記マルチモーダルデジタル画像を出力する出力インターフェースと、
を備える、システム。 - 前記マルチモーダルデジタル画像を表示するディスプレイデバイスを更に備え、
前記出力インターフェースが前記マルチモーダルデジタル画像を前記ディスプレイデバイスに出力するようになっている、
請求項12に記載のシステム。 - 前記高次特徴はマルチモーダルデジタル画像全体に起因し、
前記低次特徴は前記マルチモーダルデジタル画像の一部分に起因する、
請求項12に記載のシステム。 - 前記第1の画像の前記第1のモダリティはカラー画像であり、
前記第2の画像の前記第2のモダリティは深度画像又は熱画像である、
請求項12に記載のシステム。 - 前記第1の画像の前記第1のモダリティは、第1のスタイルを有する画像であり、
前記第2の画像の前記第2のモダリティは、第2のスタイルを有する画像である、
請求項12に記載のシステム。 - プロセッサによって実行されると、
シーンを表す各ピクセルに関する情報を含む該シーンの画像を取得することと、
第1のニューラルネットワークを用いて前記シーンの画像を処理して、第1のモダリティを有する第1の画像を生成することと、
前記第1の画像及び第2の画像がマルチモーダルデジタル画像を形成するように、第2のニューラルネットワークを用いて前記シーンの画像を処理して、第2のモダリティを有する前記第2の画像を生成することであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有し、同一のパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第1の画像及び前記第2の画像の高次特徴を生成し、異なるパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記マルチモーダルデジタル画像の前記第1の画像及び前記第2の画像の低次特徴を生成することと、
なお、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの幾つかの下層に対して同一のパラメーターを使用しながら、共同でトレーニングされ、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記マルチモーダルデジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記マルチモーダルデジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット(GAN)を用いてトレーニングされ、
前記マルチモーダルデジタル画像を出力することと、
を含むステップを実行する命令が記憶されている、
非一時的コンピューター可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662344331P | 2016-06-01 | 2016-06-01 | |
US62/344,331 | 2016-06-01 | ||
US15/189,075 US9971958B2 (en) | 2016-06-01 | 2016-06-22 | Method and system for generating multimodal digital images |
US15/189,075 | 2016-06-22 | ||
PCT/JP2017/020730 WO2017209307A1 (en) | 2016-06-01 | 2017-05-24 | Method and system for generating multimodal digital image |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019510325A JP2019510325A (ja) | 2019-04-11 |
JP6639700B2 true JP6639700B2 (ja) | 2020-02-05 |
Family
ID=59153238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018557519A Active JP6639700B2 (ja) | 2016-06-01 | 2017-05-24 | マルチモーダルデジタル画像を生成する方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9971958B2 (ja) |
JP (1) | JP6639700B2 (ja) |
CN (1) | CN109196526B (ja) |
DE (1) | DE112017002799B4 (ja) |
WO (1) | WO2017209307A1 (ja) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10595039B2 (en) | 2017-03-31 | 2020-03-17 | Nvidia Corporation | System and method for content and motion controlled action video generation |
KR102403494B1 (ko) * | 2017-04-27 | 2022-05-27 | 에스케이텔레콤 주식회사 | 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법 |
US10922556B2 (en) * | 2017-04-28 | 2021-02-16 | Intel Corporation | Storage system of DNN outputs for black box |
WO2019032421A1 (en) * | 2017-08-07 | 2019-02-14 | Siemens Aktiengesellschaft | IMPROVED VISUAL LEARNING TECHNOLOGY MACHINE |
CN107609481B (zh) * | 2017-08-14 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 为人脸识别生成训练数据的方法、装置和计算机存储介质 |
JP7023669B2 (ja) * | 2017-10-26 | 2022-02-22 | 株式会社Preferred Networks | 画像生成方法、画像生成装置、及び画像生成プログラム |
CN108122209B (zh) * | 2017-12-14 | 2020-05-15 | 浙江捷尚视觉科技股份有限公司 | 一种基于对抗生成网络的车牌去模糊方法 |
US10540578B2 (en) * | 2017-12-21 | 2020-01-21 | International Business Machines Corporation | Adapting a generative adversarial network to new data sources for image classification |
US10937540B2 (en) | 2017-12-21 | 2021-03-02 | International Business Machines Coporation | Medical image classification based on a generative adversarial network trained discriminator |
US10592779B2 (en) | 2017-12-21 | 2020-03-17 | International Business Machines Corporation | Generative adversarial network medical image generation for training of a classifier |
EP3735177A1 (en) * | 2018-01-03 | 2020-11-11 | Koninklijke Philips N.V. | Full dose pet image estimation from low-dose pet imaging using deep learning |
CN108121975B (zh) * | 2018-01-04 | 2022-04-19 | 中科汇通投资控股有限公司 | 一种联合原始数据和生成数据的人脸识别方法 |
CN108427963B (zh) * | 2018-03-02 | 2020-10-30 | 浙江工业大学 | 一种基于深度学习的黑色素瘤皮肤病的分类识别方法 |
US10552714B2 (en) * | 2018-03-16 | 2020-02-04 | Ebay Inc. | Generating a digital image using a generative adversarial network |
CN108510061B (zh) * | 2018-03-19 | 2022-03-29 | 华南理工大学 | 基于条件生成对抗网络的多监控视频人脸合成正脸的方法 |
KR102565278B1 (ko) | 2018-03-26 | 2023-08-09 | 삼성전자주식회사 | 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법 |
US10839262B2 (en) | 2018-04-24 | 2020-11-17 | Here Global B.V. | Machine learning a feature detector using synthetic training data |
CN110738540B (zh) * | 2018-07-20 | 2022-01-11 | 哈尔滨工业大学(深圳) | 一种基于生成对抗网络的模特衣服推荐方法 |
US10699458B2 (en) * | 2018-10-15 | 2020-06-30 | Shutterstock, Inc. | Image editor for merging images with generative adversarial networks |
CN109447906B (zh) * | 2018-11-08 | 2023-07-11 | 北京印刷学院 | 一种基于生成对抗网络的图片合成方法 |
US10915787B2 (en) * | 2018-11-15 | 2021-02-09 | Toyota Research Institute, Inc. | System and method for generating training data from synthetic images |
TWI705340B (zh) | 2018-12-13 | 2020-09-21 | 財團法人工業技術研究院 | 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法 |
CN109671125B (zh) * | 2018-12-17 | 2023-04-07 | 电子科技大学 | 一种高度融合的gan网络装置及实现文本生成图像的方法 |
CN109800399B (zh) * | 2018-12-18 | 2023-05-26 | 北京奇艺世纪科技有限公司 | 模型生成方法、封面生成方法、装置及存储介质 |
CN109754447B (zh) * | 2018-12-28 | 2021-06-22 | 上海联影智能医疗科技有限公司 | 图像生成方法、装置、设备和存储介质 |
CN109800730B (zh) * | 2019-01-30 | 2022-03-08 | 北京字节跳动网络技术有限公司 | 用于生成头像生成模型的方法和装置 |
CN109948660A (zh) * | 2019-02-26 | 2019-06-28 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
CN109978021B (zh) * | 2019-03-07 | 2022-09-16 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
CN109934198B (zh) * | 2019-03-22 | 2021-05-14 | 北京市商汤科技开发有限公司 | 人脸识别方法及装置 |
US10832450B2 (en) * | 2019-03-27 | 2020-11-10 | GM Global Technology Operations LLC | Semantic preserved style transfer |
CN109993712B (zh) * | 2019-04-01 | 2023-04-25 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、图像处理方法及相关设备 |
KR102039138B1 (ko) * | 2019-04-02 | 2019-10-31 | 주식회사 루닛 | 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치 |
CN109961491B (zh) * | 2019-04-12 | 2023-05-26 | 上海联影医疗科技股份有限公司 | 多模态图像截断补偿方法、装置、计算机设备和介质 |
CN110288668B (zh) * | 2019-05-20 | 2023-06-16 | 平安科技(深圳)有限公司 | 图像生成方法、装置、计算机设备及存储介质 |
CN110148128B (zh) * | 2019-05-23 | 2023-04-18 | 中南大学 | 一种补全病变骨骼以获得骨骼预期参考模型的方法 |
CN110444277B (zh) * | 2019-07-19 | 2023-03-28 | 重庆邮电大学 | 一种基于多生成多对抗的多模态脑部mri图像双向转换方法 |
US11062486B2 (en) * | 2019-10-21 | 2021-07-13 | Siemens Medical Solutions Usa, Inc. | Methods and apparatus for deep learning based data transfer between imaging systems |
CN111178401B (zh) * | 2019-12-16 | 2023-09-12 | 上海航天控制技术研究所 | 一种基于多层对抗网络的空间目标分类方法 |
US11348243B2 (en) | 2020-01-24 | 2022-05-31 | GE Precision Healthcare LLC | Systems and methods for medical image style transfer using deep neural networks |
CN111340214B (zh) * | 2020-02-21 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 对抗攻击模型的训练方法及装置 |
US20220076100A1 (en) | 2020-09-10 | 2022-03-10 | Mitsubishi Electric Research Laboratories, Inc. | Multi-Dimensional Deep Neural Network |
US20220151567A1 (en) * | 2020-11-17 | 2022-05-19 | Siemens Healthcare Gmbh | Joint assessment of myocardial strain and intracardiac blood flow |
JP6856965B1 (ja) * | 2020-11-27 | 2021-04-14 | 株式会社ネフロック | 画像出力装置及び画像出力方法 |
KR20220107575A (ko) * | 2021-01-25 | 2022-08-02 | 삼성전자주식회사 | 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법 |
US11341699B1 (en) * | 2021-03-09 | 2022-05-24 | Carmax Enterprise Services, Llc | Systems and methods for synthetic image generation |
US20240161254A1 (en) * | 2021-03-25 | 2024-05-16 | Sony Semiconductor Solutions Corporation | Information processing apparatus, information processing method, and program |
CN113506222B (zh) * | 2021-07-30 | 2024-03-01 | 合肥工业大学 | 一种基于卷积神经网络的多模态图像超分辨方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6654018B1 (en) | 2001-03-29 | 2003-11-25 | At&T Corp. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
US7028271B2 (en) * | 2002-11-06 | 2006-04-11 | Canon Kabushiki Kaisha | Hierarchical processing apparatus |
US20040130546A1 (en) * | 2003-01-06 | 2004-07-08 | Porikli Fatih M. | Region growing with adaptive thresholds and distance function parameters |
US7876320B2 (en) | 2004-11-25 | 2011-01-25 | Nec Corporation | Face image synthesis method and face image synthesis apparatus |
US7831108B2 (en) * | 2006-12-13 | 2010-11-09 | Adobe Systems Incorporated | Universal front end for masks, selections, and paths |
KR101601475B1 (ko) * | 2014-08-25 | 2016-03-21 | 현대자동차주식회사 | 야간 주행 시 차량의 보행자 검출장치 및 방법 |
US10417525B2 (en) * | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
US9922272B2 (en) * | 2014-09-25 | 2018-03-20 | Siemens Healthcare Gmbh | Deep similarity learning for multimodal medical images |
US10387773B2 (en) * | 2014-10-27 | 2019-08-20 | Ebay Inc. | Hierarchical deep convolutional neural network for image classification |
CN104408483B (zh) * | 2014-12-08 | 2017-08-25 | 西安电子科技大学 | 基于深度神经网络的sar纹理图像分类方法 |
CN105938558B (zh) * | 2015-03-06 | 2021-02-09 | 松下知识产权经营株式会社 | 学习方法 |
US9514391B2 (en) * | 2015-04-20 | 2016-12-06 | Xerox Corporation | Fisher vectors meet neural networks: a hybrid visual classification architecture |
CN105184303B (zh) * | 2015-04-23 | 2019-08-09 | 南京邮电大学 | 一种基于多模态深度学习的图像标注方法 |
CN104899921B (zh) * | 2015-06-04 | 2017-12-22 | 杭州电子科技大学 | 基于多模态自编码模型的单视角视频人体姿态恢复方法 |
US9633282B2 (en) * | 2015-07-30 | 2017-04-25 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
US9824304B2 (en) * | 2015-10-06 | 2017-11-21 | Adobe Systems Incorporated | Determination of font similarity |
CN105512661B (zh) * | 2015-11-25 | 2019-02-26 | 中国人民解放军信息工程大学 | 一种基于多模态特征融合的遥感影像分类方法 |
-
2016
- 2016-06-22 US US15/189,075 patent/US9971958B2/en active Active
-
2017
- 2017-05-24 JP JP2018557519A patent/JP6639700B2/ja active Active
- 2017-05-24 CN CN201780030149.6A patent/CN109196526B/zh active Active
- 2017-05-24 WO PCT/JP2017/020730 patent/WO2017209307A1/en active Application Filing
- 2017-05-24 DE DE112017002799.3T patent/DE112017002799B4/de active Active
Also Published As
Publication number | Publication date |
---|---|
CN109196526A (zh) | 2019-01-11 |
WO2017209307A1 (en) | 2017-12-07 |
US20170351935A1 (en) | 2017-12-07 |
DE112017002799B4 (de) | 2023-03-02 |
DE112017002799T5 (de) | 2019-03-14 |
JP2019510325A (ja) | 2019-04-11 |
US9971958B2 (en) | 2018-05-15 |
CN109196526B (zh) | 2021-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6639700B2 (ja) | マルチモーダルデジタル画像を生成する方法及びシステム | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
JP7490004B2 (ja) | 機械学習を用いた画像カラー化 | |
US11429842B2 (en) | Neural network for skeletons from input images | |
JP6611107B2 (ja) | 画像をアップサンプリングするコンピューターシステム及び方法 | |
JP7155271B2 (ja) | 画像処理システム及び画像処理方法 | |
US10742990B2 (en) | Data compression system | |
CN111598818A (zh) | 人脸融合模型训练方法、装置及电子设备 | |
WO2018203549A1 (ja) | 信号変更装置、方法、及びプログラム | |
Saini et al. | A review on particle swarm optimization algorithm and its variants to human motion tracking | |
JP2020507824A (ja) | 電子装置及びその制御方法 | |
CN112149634A (zh) | 图像生成器的训练方法、装置、设备以及存储介质 | |
CN111539897A (zh) | 用于生成图像转换模型的方法和装置 | |
US10970331B2 (en) | Determining contextual confidence of images using associative deep learning | |
US11403799B2 (en) | Method and apparatus for recognizing face-swap, device and computer readable storage medium | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
CN112101204B (zh) | 生成式对抗网络的训练方法、图像处理方法、装置和设备 | |
CN112330697A (zh) | 一种图像分割方法、装置、电子设备和可读存储介质 | |
Firintepe et al. | From IR images to point clouds to pose: point cloud-based AR glasses pose estimation | |
US20240013357A1 (en) | Recognition system, recognition method, program, learning method, trained model, distillation model and training data set generation method | |
Usman et al. | Skeleton-based motion prediction: A survey | |
Mahbub et al. | Contactless human monitoring: Challenges and future direction | |
US20230282031A1 (en) | Pose prediction for articulated object | |
Naik et al. | The evolution of military operations: artificial intelligence to detect hand gestures in defence | |
WO2023167718A1 (en) | Pose prediction for articulated object |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180725 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6639700 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |