JP2019510325A - マルチモーダルデジタル画像を生成する方法及びシステム - Google Patents
マルチモーダルデジタル画像を生成する方法及びシステム Download PDFInfo
- Publication number
- JP2019510325A JP2019510325A JP2018557519A JP2018557519A JP2019510325A JP 2019510325 A JP2019510325 A JP 2019510325A JP 2018557519 A JP2018557519 A JP 2018557519A JP 2018557519 A JP2018557519 A JP 2018557519A JP 2019510325 A JP2019510325 A JP 2019510325A
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- digital image
- modality
- image
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 157
- 238000012549 training Methods 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 4
- 238000009877 rendering Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 17
- 102100037410 Gigaxonin Human genes 0.000 description 10
- 101001025761 Homo sapiens Gigaxonin Proteins 0.000 description 10
- 239000011521 glass Substances 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 230000001815 facial effect Effects 0.000 description 5
- 230000003936 working memory Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- XXPDBLUZJRXNNZ-UHFFFAOYSA-N promethazine hydrochloride Chemical compound Cl.C1=CC=C2N(CC(C)N(C)C)C3=CC=CC=C3SC2=C1 XXPDBLUZJRXNNZ-UHFFFAOYSA-N 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000859 sublimation Methods 0.000 description 1
- 230000008022 sublimation Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/60—Editing figures and text; Combining figures or text
Abstract
Description
本発明の幾つかの実施形態は、結合敵対的生成ネット(CoGAN)フレームワークを用いて、トレーニングデータセットに1対1の対応関係がなくてもマルチモーダルデジタル画像をレンダリングすることができるNNIG114をトレーニングする。このフレームワークは、画像生成用の敵対的生成ネット(GAN)に基づいている。CoGANフレームワークは、少なくともGANのペアを含む。
図3は、NNIG114をトレーニングするために幾つかの実施形態によって用いられるGANのブロック図を示している。GANフレームワークは、生成サブネットワーク301及び弁別サブネットワーク302の2つのサブネットワークを備える。生成サブネットワーク301の目的は、ランダム入力305、例えばベクトル210、からトレーニング画像310に類似している画像300を合成又は生成することである。弁別サブネットワーク302の目的は、画像310を合成画像300と区別する(303)ことである。生成サブネットワーク及び弁別サブネットワークの双方は、多層パーセプトロン、すなわちフィードフォワードニューラルネットワーク、又は多層畳み込みニューラルネットワークとして実施することができる。
図4Aは、幾つかの実施形態によるCoGANフレームワークを示している。CoGANは、敵対的生成ネットのペア、すなわちGAN1及びGAN2を備える。これらの敵対的生成ネットのそれぞれは、画像を合成することができる生成サブネットワークと、入力信号が実画像であるのか又は合成画像であるのかを分類することができる弁別サブネットワークとを有する。GAN1及びGAN2の生成サブネットワークは、g14011及びg24012によって示される一方、GAN1及びGAN2の弁別サブネットワークは、f14021及びf24022によって示される。これらのサブネットワークは、多層パーセプトロンとして実施することができる。
トレーニングデータセットをDDGANとする。各サンプルは、第1のモダリティのデータ分布
弁別サブネットワークの導出は、生成サブネットワークの導出と類似している。多層パーセプトロンとして実施することができるGAN1及びGAN2の弁別サブネットワークをf1及びf2とする。
本開示に提供された幾つかの例は、CoGANフレームワークを用いて幾つかの実施形態によってトレーニングされたNNIGが、純粋に教師なし形式で、トレーニングデータにおける異なるモダリティ間の1対1の対応関係に依拠することなく、異なる種類のマルチモーダルデジタル画像を生成することができることを示している。
図6Aは、1つの実施形態による手書き数字のマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例610を示している。この実施形態は、トレーニングデータセット内の60000個のトレーニング画像を用いて、例えば、数字画像及びそのエッジ画像を生成すること及び/又は数字画像及びそのネガ画像を生成することを含めて、2つの異なるモダリティにおいて数字を生成するCoGANをトレーニングする。例えば、第1のモダリティは、手書き数字画像を含むことができる一方、第2のモダリティは、それらの対応するエッジ画像を含むことができる。幾つかの実施形態によって生成されたマルチモーダルデジタル画像の例は、図6Bに示されている。別の例では、2つのモダリティは、それぞれ手書き数字画像及びそれらのネガ画像を含む。幾つかの実施形態によって生成されたそれらのマルチモーダルデジタル画像の例は、図6Cに示されている。
図7Aは、1つの実施形態による異なる属性を有するマルチモーダル顔画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の例710を示している。この実施形態は、それぞれが属性を有する顔画像と属性を有しない対応する顔画像とを生成する幾つかのCoGANをトレーニングした。トレーニングデータセットは、202599個の顔画像を有する10177人の人物を含んでいた。トレーニングデータセットは、大きな姿勢変化及び背景クラッターをカバーしていた。各顔画像は、メガネ、微笑み、及び金髪を含む40個の属性を有していた。属性を有する顔画像は、デジタル画像の第1のモダリティを形成し、属性を有しない顔画像は、第2のモダリティを形成した。これらの2つのモダリティにおいて重複する顔は存在しなかった。この例では、生成サブネットワーク及び弁別サブネットワークは、ともに7層の深層畳み込みニューラルネットワークであった。
図8Aは、1つの実施形態によるカラー画像及びその対応する深度画像を含むマルチモーダルデジタル画像を生成する生成サブネットワーク及び弁別サブネットワークの構造の一例を示している。レンダリングされた画像ペアは2つの異なるモダリティを有するものであったことに留意されたい。トレーニングデータセットは、異なる視点からセンサーによって取り込まれた300個の物体の登録されたカラー画像及び深度画像を有するRGBD画像を有するものであった。GAN1のトレーニングには第1のサブセット内のカラー画像が用いられた一方、GAN2のトレーニングには第2のサブセット内の深度画像が用いられた。これらの2つのサブセットには、対応する深度画像及びカラー画像は存在しなかった。データセット内の画像は、種々の解像度を有する。
映画及びゲームの制作のためにマルチモーダルデジタル画像をレンダリングすることに加えて、開示されたCoGANフレームワークは、モダリティ変換タスク及びモダリティ適応タスクに用途を見出している。第1のモダリティにおける画像をx1とする。モダリティ変換タスクは、結合確率密度p(x1,x2)が最大化されるような第2のモダリティにおける対応する画像x2を見つけることである。2つの画像の間の相違を測定する損失関数をLとする。トレーニングされた生成サブネットワークg1及びg2が与えられると、変換は、最初に以下の式を解くことによって達成することができる。
Claims (20)
- マルチモーダルデジタル画像を生成するコンピューター実施方法であって、
第1のニューラルネットワークを用いてベクトルを処理して、前記デジタル画像の第1のモダリティを生成することと、
第2のニューラルネットワークを用いて前記ベクトルを処理して、前記デジタル画像の第2のモダリティを生成することであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
を含み、
前記方法のステップは、プロセッサを用いて実行される、
コンピューター実施方法。 - 確率分布を用いて前記ベクトルの要素をランダムに生成すること、
を更に含む、請求項1に記載の方法。 - 同一のパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の前記第1の画像及び前記第2の画像の高次特徴を生成し、異なるパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の低次特徴を生成する、
請求項1に記載の方法。 - 前記低次特徴は前記高次特徴から導出される、
請求項3に記載の方法。 - 前記デジタル画像は、画像、ビデオ、テキスト、及び音響のうちの1つ又は組み合わせを含む、
請求項1に記載の方法。 - 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークを、前記第1のニューラルネットワーク及び前記第2のニューラルネットワークの幾つかの下層に対して同一のパラメーターを実施しながら、共同でトレーニングすること、
を更に含む、請求項1に記載の方法。 - 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークのうちの少なくとも一方又は双方は、特定のモダリティの前記デジタル画像のサンプルを生成する生成サブネットワークと、該生成サブネットワークによって生成された前記デジタル画像の前記サンプルが前記特定のモダリティを有する否かを調べる弁別サブネットワークとを備える敵対的生成ネット(GAN)を用いてトレーニングされる、
請求項6に記載の方法。 - 前記第1のニューラルネットワークの第1の生成サブネットワーク及び第1の弁別サブネットワークと、前記第2のニューラルネットワークの第2の生成サブネットワーク及び第2の弁別サブネットワークとは、ミニマックス目的関数を最小にするように共同でトレーニングされる、
請求項7に記載の方法。 - 前記第1及び前記第2のモダリティの前記デジタル画像をディスプレイデバイス上にレンダリングすること、又は、
前記第1及び第2のモダリティの前記デジタル画像を、通信チャネルを介して送信すること、
を更に含む、請求項1に記載の方法。 - 前記デジタル画像の前記第1のモダリティはカラー画像であり、
前記デジタル画像の前記第2のモダリティは深度画像である、
請求項1に記載の方法。 - 前記デジタル画像の前記第1のモダリティはカラー画像であり、
前記デジタル画像の前記第2のモダリティは熱画像である、
請求項1に記載の方法。 - 前記デジタル画像の前記第1のモダリティは、第1のスタイルを有する画像であり、
前記デジタル画像の前記第2のモダリティは、第2のスタイルを有する画像である、
請求項1に記載の方法。 - 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、前記デジタル画像のモダリティのセットを生成するように共同でトレーニングされた前記ニューラルネットワークのセットから選択され、
前記方法は、
ニューラルネットワークのセットを用いて前記ベクトルを処理して、前記マルチモーダルデジタル画像を生成すること、
を含む、請求項1に記載の方法。 - 前記ニューラルネットワークの前記セットは、結合敵対的生成ネット(CoGAN)を形成する、
請求項13に記載の方法。 - マルチモーダルデジタル画像を生成するシステムであって、
前記デジタル画像の第1のモダリティを生成するようにトレーニングされた第1のニューラルネットワークと、前記デジタル画像の第2のモダリティを生成するようにトレーニングされた第2のニューラルネットワークとを記憶する少なくとも1つの非一時的コンピューター可読メモリであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
前記第1のニューラルネットワークを用いて前記ベクトルを処理して前記デジタル画像の第1のモダリティを生成することと、前記第2のニューラルネットワークを用いて前記ベクトルを処理して前記デジタル画像の第2のモダリティを生成することとによって、前記マルチモーダルデジタル画像を生成し、前記メモリに前記マルチモーダルデジタル画像を記憶するプロセッサと、
を備える、システム。 - 前記マルチモーダルデジタル画像を表示するディスプレイデバイスを更に備えた、
請求項15に記載のシステム。 - 同一のパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の高次特徴を生成し、異なるパラメーターを有する前記第1のニューラルネットワークの前記層及び前記第2のニューラルネットワークの前記層は、前記デジタル画像の低次特徴を生成し、前記高次特徴はデジタル画像全体に起因し、前記低次特徴は前記デジタル画像の一部分に起因する、
請求項15に記載のシステム。 - 前記デジタル画像は、画像、ビデオ、テキスト、及び音響のうちの1つ又は組み合わせを含む、
請求項15に記載のシステム。 - 前記第1のニューラルネットワーク及び前記第2のニューラルネットワークは、共同でトレーニングされる、
請求項15に記載のシステム。 - プロセッサによって実行されると、
第1のニューラルネットワークを用いてベクトルを処理して、デジタル画像の第1のモダリティを生成することと、
第2のニューラルネットワークを用いて前記ベクトルを処理して、前記デジタル画像の第2のモダリティを生成することであって、前記第1のニューラルネットワークの構造及び層の数は、前記第2のニューラルネットワークの構造及び層の数と同一であり、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと同一のパラメーターを有し、前記第1のニューラルネットワークにおける少なくとも1つの層は、前記第2のニューラルネットワークにおける対応する層のパラメーターと異なるパラメーターを有することと、
を含むステップを実行する命令が記憶されている、
非一時的コンピューター可読媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662344331P | 2016-06-01 | 2016-06-01 | |
US62/344,331 | 2016-06-01 | ||
US15/189,075 | 2016-06-22 | ||
US15/189,075 US9971958B2 (en) | 2016-06-01 | 2016-06-22 | Method and system for generating multimodal digital images |
PCT/JP2017/020730 WO2017209307A1 (en) | 2016-06-01 | 2017-05-24 | Method and system for generating multimodal digital image |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019510325A true JP2019510325A (ja) | 2019-04-11 |
JP6639700B2 JP6639700B2 (ja) | 2020-02-05 |
Family
ID=59153238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018557519A Active JP6639700B2 (ja) | 2016-06-01 | 2017-05-24 | マルチモーダルデジタル画像を生成する方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (1) | US9971958B2 (ja) |
JP (1) | JP6639700B2 (ja) |
CN (1) | CN109196526B (ja) |
DE (1) | DE112017002799B4 (ja) |
WO (1) | WO2017209307A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6856965B1 (ja) * | 2020-11-27 | 2021-04-14 | 株式会社ネフロック | 画像出力装置及び画像出力方法 |
JP2021530045A (ja) * | 2019-03-22 | 2021-11-04 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 顔認識方法及び装置 |
WO2022201803A1 (ja) * | 2021-03-25 | 2022-09-29 | ソニーセミコンダクタソリューションズ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP7466781B2 (ja) | 2020-09-10 | 2024-04-12 | 三菱電機株式会社 | 多次元ディープニューラルネットワーク |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10595039B2 (en) | 2017-03-31 | 2020-03-17 | Nvidia Corporation | System and method for content and motion controlled action video generation |
KR102403494B1 (ko) * | 2017-04-27 | 2022-05-27 | 에스케이텔레콤 주식회사 | 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법 |
US10922556B2 (en) * | 2017-04-28 | 2021-02-16 | Intel Corporation | Storage system of DNN outputs for black box |
WO2019032421A1 (en) * | 2017-08-07 | 2019-02-14 | Siemens Aktiengesellschaft | IMPROVED VISUAL LEARNING TECHNOLOGY MACHINE |
CN107609481B (zh) * | 2017-08-14 | 2020-11-20 | 百度在线网络技术(北京)有限公司 | 为人脸识别生成训练数据的方法、装置和计算机存储介质 |
JP7023669B2 (ja) * | 2017-10-26 | 2022-02-22 | 株式会社Preferred Networks | 画像生成方法、画像生成装置、及び画像生成プログラム |
CN108122209B (zh) * | 2017-12-14 | 2020-05-15 | 浙江捷尚视觉科技股份有限公司 | 一种基于对抗生成网络的车牌去模糊方法 |
US10540578B2 (en) * | 2017-12-21 | 2020-01-21 | International Business Machines Corporation | Adapting a generative adversarial network to new data sources for image classification |
US10592779B2 (en) | 2017-12-21 | 2020-03-17 | International Business Machines Corporation | Generative adversarial network medical image generation for training of a classifier |
US10937540B2 (en) | 2017-12-21 | 2021-03-02 | International Business Machines Coporation | Medical image classification based on a generative adversarial network trained discriminator |
CN111867474A (zh) * | 2018-01-03 | 2020-10-30 | 皇家飞利浦有限公司 | 使用深度学习根据低剂量pet成像进行全剂量pet图像估计 |
CN108121975B (zh) * | 2018-01-04 | 2022-04-19 | 中科汇通投资控股有限公司 | 一种联合原始数据和生成数据的人脸识别方法 |
CN108427963B (zh) * | 2018-03-02 | 2020-10-30 | 浙江工业大学 | 一种基于深度学习的黑色素瘤皮肤病的分类识别方法 |
US10552714B2 (en) * | 2018-03-16 | 2020-02-04 | Ebay Inc. | Generating a digital image using a generative adversarial network |
CN108510061B (zh) * | 2018-03-19 | 2022-03-29 | 华南理工大学 | 基于条件生成对抗网络的多监控视频人脸合成正脸的方法 |
KR102565278B1 (ko) | 2018-03-26 | 2023-08-09 | 삼성전자주식회사 | 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법 |
US10839262B2 (en) | 2018-04-24 | 2020-11-17 | Here Global B.V. | Machine learning a feature detector using synthetic training data |
CN110738540B (zh) * | 2018-07-20 | 2022-01-11 | 哈尔滨工业大学(深圳) | 一种基于生成对抗网络的模特衣服推荐方法 |
US10699458B2 (en) * | 2018-10-15 | 2020-06-30 | Shutterstock, Inc. | Image editor for merging images with generative adversarial networks |
CN109447906B (zh) * | 2018-11-08 | 2023-07-11 | 北京印刷学院 | 一种基于生成对抗网络的图片合成方法 |
US10915787B2 (en) * | 2018-11-15 | 2021-02-09 | Toyota Research Institute, Inc. | System and method for generating training data from synthetic images |
TWI705340B (zh) | 2018-12-13 | 2020-09-21 | 財團法人工業技術研究院 | 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法 |
CN109671125B (zh) * | 2018-12-17 | 2023-04-07 | 电子科技大学 | 一种高度融合的gan网络装置及实现文本生成图像的方法 |
CN109800399B (zh) * | 2018-12-18 | 2023-05-26 | 北京奇艺世纪科技有限公司 | 模型生成方法、封面生成方法、装置及存储介质 |
CN109754447B (zh) * | 2018-12-28 | 2021-06-22 | 上海联影智能医疗科技有限公司 | 图像生成方法、装置、设备和存储介质 |
CN109800730B (zh) * | 2019-01-30 | 2022-03-08 | 北京字节跳动网络技术有限公司 | 用于生成头像生成模型的方法和装置 |
CN109948660A (zh) * | 2019-02-26 | 2019-06-28 | 长沙理工大学 | 一种改进辅助分类器gan的图像分类方法 |
CN109978021B (zh) * | 2019-03-07 | 2022-09-16 | 北京大学深圳研究生院 | 一种基于文本不同特征空间的双流式视频生成方法 |
US10832450B2 (en) * | 2019-03-27 | 2020-11-10 | GM Global Technology Operations LLC | Semantic preserved style transfer |
CN109993712B (zh) * | 2019-04-01 | 2023-04-25 | 腾讯科技(深圳)有限公司 | 图像处理模型的训练方法、图像处理方法及相关设备 |
KR102039138B1 (ko) * | 2019-04-02 | 2019-10-31 | 주식회사 루닛 | 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치 |
CN109961491B (zh) * | 2019-04-12 | 2023-05-26 | 上海联影医疗科技股份有限公司 | 多模态图像截断补偿方法、装置、计算机设备和介质 |
CN110288668B (zh) * | 2019-05-20 | 2023-06-16 | 平安科技(深圳)有限公司 | 图像生成方法、装置、计算机设备及存储介质 |
CN110148128B (zh) * | 2019-05-23 | 2023-04-18 | 中南大学 | 一种补全病变骨骼以获得骨骼预期参考模型的方法 |
CN110444277B (zh) * | 2019-07-19 | 2023-03-28 | 重庆邮电大学 | 一种基于多生成多对抗的多模态脑部mri图像双向转换方法 |
US11062486B2 (en) * | 2019-10-21 | 2021-07-13 | Siemens Medical Solutions Usa, Inc. | Methods and apparatus for deep learning based data transfer between imaging systems |
CN111178401B (zh) * | 2019-12-16 | 2023-09-12 | 上海航天控制技术研究所 | 一种基于多层对抗网络的空间目标分类方法 |
US11348243B2 (en) | 2020-01-24 | 2022-05-31 | GE Precision Healthcare LLC | Systems and methods for medical image style transfer using deep neural networks |
CN111340214B (zh) * | 2020-02-21 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 对抗攻击模型的训练方法及装置 |
US20220151567A1 (en) * | 2020-11-17 | 2022-05-19 | Siemens Healthcare Gmbh | Joint assessment of myocardial strain and intracardiac blood flow |
KR20220107575A (ko) * | 2021-01-25 | 2022-08-02 | 삼성전자주식회사 | 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법 |
US11341699B1 (en) * | 2021-03-09 | 2022-05-24 | Carmax Enterprise Services, Llc | Systems and methods for synthetic image generation |
CN113506222B (zh) * | 2021-07-30 | 2024-03-01 | 合肥工业大学 | 一种基于卷积神经网络的多模态图像超分辨方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016069581A1 (en) * | 2014-10-27 | 2016-05-06 | Ebay Inc. | Hierarchical deep convolutional neural network |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6654018B1 (en) | 2001-03-29 | 2003-11-25 | At&T Corp. | Audio-visual selection process for the synthesis of photo-realistic talking-head animations |
US7028271B2 (en) * | 2002-11-06 | 2006-04-11 | Canon Kabushiki Kaisha | Hierarchical processing apparatus |
US20040130546A1 (en) * | 2003-01-06 | 2004-07-08 | Porikli Fatih M. | Region growing with adaptive thresholds and distance function parameters |
WO2006057267A1 (ja) | 2004-11-25 | 2006-06-01 | Nec Corporation | 顔画像合成方法および顔画像合成装置 |
US7831108B2 (en) * | 2006-12-13 | 2010-11-09 | Adobe Systems Incorporated | Universal front end for masks, selections, and paths |
KR101601475B1 (ko) * | 2014-08-25 | 2016-03-21 | 현대자동차주식회사 | 야간 주행 시 차량의 보행자 검출장치 및 방법 |
US10417525B2 (en) * | 2014-09-22 | 2019-09-17 | Samsung Electronics Co., Ltd. | Object recognition with reduced neural network weight precision |
US9922272B2 (en) * | 2014-09-25 | 2018-03-20 | Siemens Healthcare Gmbh | Deep similarity learning for multimodal medical images |
CN104408483B (zh) * | 2014-12-08 | 2017-08-25 | 西安电子科技大学 | 基于深度神经网络的sar纹理图像分类方法 |
CN105938558B (zh) * | 2015-03-06 | 2021-02-09 | 松下知识产权经营株式会社 | 学习方法 |
US9514391B2 (en) * | 2015-04-20 | 2016-12-06 | Xerox Corporation | Fisher vectors meet neural networks: a hybrid visual classification architecture |
CN105184303B (zh) * | 2015-04-23 | 2019-08-09 | 南京邮电大学 | 一种基于多模态深度学习的图像标注方法 |
CN104899921B (zh) * | 2015-06-04 | 2017-12-22 | 杭州电子科技大学 | 基于多模态自编码模型的单视角视频人体姿态恢复方法 |
US9633282B2 (en) * | 2015-07-30 | 2017-04-25 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
US9824304B2 (en) * | 2015-10-06 | 2017-11-21 | Adobe Systems Incorporated | Determination of font similarity |
CN105512661B (zh) * | 2015-11-25 | 2019-02-26 | 中国人民解放军信息工程大学 | 一种基于多模态特征融合的遥感影像分类方法 |
-
2016
- 2016-06-22 US US15/189,075 patent/US9971958B2/en active Active
-
2017
- 2017-05-24 DE DE112017002799.3T patent/DE112017002799B4/de active Active
- 2017-05-24 WO PCT/JP2017/020730 patent/WO2017209307A1/en active Application Filing
- 2017-05-24 JP JP2018557519A patent/JP6639700B2/ja active Active
- 2017-05-24 CN CN201780030149.6A patent/CN109196526B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016069581A1 (en) * | 2014-10-27 | 2016-05-06 | Ebay Inc. | Hierarchical deep convolutional neural network |
Non-Patent Citations (3)
Title |
---|
JUNSHI HUANG, ROGERIO FERIS, QIANG CHEN AND SHUICHENG YAN: "Cross-domain Image Retrieval with a Dual Attribute-aware Ranking Network", PROCEEDINGS OF 2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV), JPN6019035634, 7 December 2015 (2015-12-07), US, pages 1062 - 1070, XP032866432, ISSN: 0004115855, DOI: 10.1109/ICCV.2015.127 * |
LONG DUONG, TREVOR COHN, STEVEN BIRD AND PAUL COOK: "Low Resource Dependency Parsing: Cross-lingual Parameter Sharing in a Neural Network Parser", PROCEEDINGS OF THE 53RD ANNUAL MEETINGS OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, JPN6019035631, 25 July 2015 (2015-07-25), pages 845 - 850, XP055756286, ISSN: 0004115854, DOI: 10.3115/v1/P15-2139 * |
岡野原 大輔: "Generative Adversarial Networks ニューラルネットを競合させ生成モデルを鍛える", 日経ROBOTICS, vol. 2016年5月号, JPN6019035635, 10 April 2016 (2016-04-10), JP, pages 36 - 37, ISSN: 0004115856 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021530045A (ja) * | 2019-03-22 | 2021-11-04 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 顔認識方法及び装置 |
JP7038867B2 (ja) | 2019-03-22 | 2022-03-18 | ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド | 顔認識方法及び装置 |
JP7466781B2 (ja) | 2020-09-10 | 2024-04-12 | 三菱電機株式会社 | 多次元ディープニューラルネットワーク |
JP6856965B1 (ja) * | 2020-11-27 | 2021-04-14 | 株式会社ネフロック | 画像出力装置及び画像出力方法 |
WO2022113398A1 (ja) * | 2020-11-27 | 2022-06-02 | 株式会社ネフロック | 画像出力装置及び画像出力方法 |
JP2022085452A (ja) * | 2020-11-27 | 2022-06-08 | 株式会社ネフロック | 画像出力装置及び画像出力方法 |
WO2022201803A1 (ja) * | 2021-03-25 | 2022-09-29 | ソニーセミコンダクタソリューションズ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN109196526B (zh) | 2021-09-28 |
DE112017002799T5 (de) | 2019-03-14 |
US9971958B2 (en) | 2018-05-15 |
CN109196526A (zh) | 2019-01-11 |
WO2017209307A1 (en) | 2017-12-07 |
US20170351935A1 (en) | 2017-12-07 |
DE112017002799B4 (de) | 2023-03-02 |
JP6639700B2 (ja) | 2020-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6639700B2 (ja) | マルチモーダルデジタル画像を生成する方法及びシステム | |
US10496898B2 (en) | State detection using machine-learning model trained on simulated image data | |
JP6504590B2 (ja) | 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体 | |
Betancourt et al. | The evolution of first person vision methods: A survey | |
US10223838B2 (en) | Method and system of mobile-device control with a plurality of fixed-gradient focused digital cameras | |
US11481869B2 (en) | Cross-domain image translation | |
US11615516B2 (en) | Image-to-image translation using unpaired data for supervised learning | |
JP6728487B2 (ja) | 電子装置及びその制御方法 | |
JP2021511579A (ja) | 画像処理システム及び画像処理方法 | |
CN111598818A (zh) | 人脸融合模型训练方法、装置及电子设备 | |
Loke et al. | Indian sign language converter system using an android app | |
CN111563855A (zh) | 图像处理的方法及装置 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
US10970331B2 (en) | Determining contextual confidence of images using associative deep learning | |
CN110121719A (zh) | 用于深度学习的装置、方法和计算机程序产品 | |
CN110427864B (zh) | 一种图像处理方法、装置及电子设备 | |
Kwolek et al. | Recognition of JSL fingerspelling using deep convolutional neural networks | |
KR102160955B1 (ko) | 딥 러닝 기반 3d 데이터 생성 방법 및 장치 | |
US20230093827A1 (en) | Image processing framework for performing object depth estimation | |
Usman et al. | Skeleton-based motion prediction: A survey | |
CN115346262A (zh) | 一种表情驱动参数的确定方法、装置、设备及存储介质 | |
Boletsis et al. | The InVizAR project: Augmented reality visualization for non-destructive testing data from jacket platforms | |
Mahbub et al. | Contactless human monitoring: challenges and future direction | |
KR102358355B1 (ko) | 얼굴 영상의 점진적 디블러링 방법 및 장치 | |
CN112766063B (zh) | 基于位移补偿的微表情拟合方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180725 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180725 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190917 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191224 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6639700 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |