CN109196526A - 用于生成多模态数字图像的方法和系统 - Google Patents

用于生成多模态数字图像的方法和系统 Download PDF

Info

Publication number
CN109196526A
CN109196526A CN201780030149.6A CN201780030149A CN109196526A CN 109196526 A CN109196526 A CN 109196526A CN 201780030149 A CN201780030149 A CN 201780030149A CN 109196526 A CN109196526 A CN 109196526A
Authority
CN
China
Prior art keywords
network
digital picture
mode
nervus opticus
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780030149.6A
Other languages
English (en)
Other versions
CN109196526B (zh
Inventor
刘洺堉
O·图兹尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN109196526A publication Critical patent/CN109196526A/zh
Application granted granted Critical
Publication of CN109196526B publication Critical patent/CN109196526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/60Editing figures and text; Combining figures or text

Abstract

一种计算机实现的方法,所述方法通过以下步骤来生成多模态数字图像:利用第一神经网络处理矢量,以生成所述数字图像的第一模态;以及利用第二神经网络处理所述矢量,以生成所述数字图像的第二模态。所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同。而且,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数相同的参数,并且所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数不同的参数。

Description

用于生成多模态数字图像的方法和系统
技术领域
本发明总体上涉及图像合成,并且更具体地,涉及利用神经网络生成多模态数字图像。
背景技术
成对图像生成是指生成两种不同模态的一对对应图像,如具有不同属性的面部、采用不同字体的字符,或者彩色图像与对应深度图像。多模态图像生成是指生成一对或更多对不同模态的对应图像。多模态图像的生成具有广泛的应用。例如,多模态图像可以应用于为电影和计算机游戏呈现新颖的对应图像对。例如,在U.S.7876320中描述的方法合成两个或更多个面部图像,或者至少一个面部图像和一个面部图形或面部动画,从而创建虚构的面部图像。
许多方法使用不同模态的图像之间的一对一对应关系来生成多模态数字图像。这些方法的示例包括深度多模态Boltzmann法和耦合字典学习法。一些方法可以使用物理模型来生成两种不同模态的对应图像,如图像超分辨或图像去模糊。然而,在一般情况下,确定不同模态图像之间的一对一对应关系是具有挑战性的。
因此,需要在不依赖于训练数据中的不同模态之间的一对一对应关系的情况下生成多模态数字图像。
发明内容
本发明的一些实施方式提供了为生成数字图像的不同模态而联合训练的一组神经网络。例如,一个实施方式提供一组神经网络,所述一组神经网络可以呈现不同模态的一组对应图像,而不需要存在数字图像的不同模态之间的一对一对应关系。
一些实施方式基于以下认识:当神经网络被独立训练以生成数字图像时,所生成的数字图像不相关。然而,通过例如在联合训练期间在神经网络上强制权重共有约束,可以训练神经网络以生成多模态数字图像。例如,一个实施方式利用为生成数字图像的第一模态而训练的第一神经网络和为生成数字图像的第二模态而训练的第二神经网络来生成多模态数字图像。所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同。而且,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数相同的参数,并且所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数不同的参数。
这样,所述神经网络的相同结构和数量以及一些参数的相同值强制所生成数字图像中的一些共性,而所述神经网络的其它参数的不同值强制所述模态的差异。例如,在一个实施方式中,所述第一神经网络和所述第二神经网络中的一些层具有相同参数以生成所述数字图像的高级特征,而所述第一神经网络和所述第二神经网络中的其它层具有不同参数以生成所述数字图像的低级特征。典型地讲,所述低级特征从所述高级特性得出。例如,所述高级特征可以是对图像中的对象的类型和配置的描述,而所述低级特征可以是基于对象的类型和配置确定的对象边缘。
因此,一个实施方式公开了一种用于生成多模态数字图像的计算机实现的方法。所述方法包括:利用第一神经网络处理矢量,以生成所述数字图像的第一模态;以及利用第二神经网络处理所述矢量,以生成所述数字图像的第二模态,其中,所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同,其中,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数相同的参数,并且其中,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数不同的参数。所述方法的步骤利用处理器来执行。
另一实施方式公开了一种用于生成多模态数字图像的系统,该系统包括:至少一个非暂时性计算机可读存储器,该非暂时性计算机可读存储器存储为生成所述数字图像的第一模态而训练的第一神经网络和为生成所述数字图像的第二模态而训练的第二神经网络,其中,所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同,其中,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数相同的参数,并且其中,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数不同的参数;以及处理器,该处理器通过利用为生成所述数字图像的第一模态而训练的所述第一神经网络处理矢量,并且利用为生成所述数字图像的第二模态而训练的所述第二神经网络处理所述矢量来生成所述多模态数字图像,并且将所述多模态数字图像存储在所述存储器中。
又一实施方式公开了一种存储有指令的非暂时性计算机可读介质,所述指令在由处理器执行时执行以下步骤:利用为生成所述数字图像的第一模态而训练的第一神经网络处理矢量;以及利用为生成所述数字图像的第二模态而训练的第二神经网络处理所述矢量,其中,所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同,其中,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数相同的参数,并且其中,所述第一神经网络的至少一层具有与所述第二神经网络的对应层的参数不同的参数。
附图说明
图1是根据本发明的一些实施方式的用于生成多模态数字图像的计算机系统的框图。
图2A是根据一个实施方式的用于生成多模态数字图像的计算机实现的方法的框图。
图2B是根据本发明一个实施方式的用于生成多模态数字图像的结构神经网络的示例性示意图。
图3是一些实施方式使用的神经网络的框图。
图4A是根据一些实施方式的耦合生成对抗网络(CoGAN)框架的示意图。
图4B是由一些实施方式强制实行的CoGAN中的权重共有约束的示例。
图5A是一些实施方式使用的神经网络训练的示意图。
图5B是根据一个实施方式的神经网络训练的伪代码。
图5C是根据一个实施方式的训练系统的框图。
图6A是根据一个实施方式的用于生成手写数字的多模态数字图像的生成子网络和判别子网络的结构的示例。
图6B是由图6A的神经网络生成的多模态数字图像的可视化。
图6C是由图6A的神经网络生成的多模态数字图像的可视化。
图7A是根据一个实施方式的用于生成不同属性的多模态面部图像的生成子网络和判别子网络的结构的示例。
图7B是由图7A的神经网络生成的多模态数字图像的可视化。
图7C是由图7A的神经网络生成的多模态数字图像的可视化。
图7D是由图7A的神经网络生成的多模态数字图像的可视化。
图8A是根据一个实施方式的用于生成包括彩色图像及其对应深度图像的多模态数字图像的生成子网络和判别子网络的结构的示例。
图8B是由图8A的神经网络生成的多模态数字图像的可视化。
图9是根据一些实施方式的模态变换的示例。
具体实施方式
图1示出了根据本发明的一些实施方式的用于生成多模态数字图像的计算机系统100的框图。如这里所使用的,多模态数字图像是具有不同模态的结构性数字数据。例如,多模态数字图像可以包括具有第一模态的第一图像和具有第二模态的第二图像。不同的模态可以表示形成数字图像的数据的不同样式或类型。具有不同模态的不同数字图像的示例包括彩色图像、深度图像以及热图像。在一些实施方式中,数字图像是一种格式或不同格式组合的结构性数字数据。例如,数字图像可以包括图像、视频、文本以及声音中的一个或组合。
数字图像的不同模态通常形成表示相同或至少相似结构信息的不同类型的不同图像。为此,形成多模态数字图像的不同模态的图像是相关的。例如,数字图像的第一模态可以是以一种样式描画的文本的第一图像,而数字图像的第二模态可以是以不同样式描画的同一文本的第二图像。例如,数字图像的第一模态可以是人戴眼镜时的面部的第一图像,而数字图像的第二模态可以是该人不戴眼镜时的同一面部的第二图像。例如,数字图像的第一模态可以是包括用于表示场景的每个像素的颜色信息的图像,而数字图像的第二模态可以是包括用于表示同一场景的每个像素的深度信息的图像。
计算机系统100包括被配置成执行所存储的指令的处理器102以及存储可由处理器执行的指令的存储器104。处理器102可以是单核处理器、多核处理器、计算集群,或者任何数量的其它配置。存储器104可以包括:随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器或任何其它合适的存储器系统。处理器102通过总线106连接至一个或更多个输入和输出装置。
计算机系统100包括用于生成多模态数字图像的神经网络图像生成器(NNIG)114。NNIG 114是利用为生成多模态数字图像而训练的一组神经网络(例如,第一神经网络和第二神经网络)实现的。例如,第一和第二神经网络可以接受相同的输入并生成多模态数字图像,其中,第一神经网络生成数字图像的第一模态,而第二神经网络生成数字图像的第二模态。NNIG 114可以存储在系统100的存储器中。
计算机系统100还可以包括适配于存储由NNIG 114使用的补充数据和/或软件模块的存储装置108。例如,存储装置108可以存储由NNIG 114使用以生成多模态数字图像的输入矢量110。另外或另选地,存储装置108可以存储用于生成矢量110的矢量生成器112。例如,矢量生成器112可以利用处理器102或任何其它合适的处理器来实现。矢量110可以具有不同值甚或任意值。例如,矢量生成器112可以利用概率分布来随机生成矢量的元素。存储装置108还可以存储NNIG 114的结构和参数。存储装置108可包括:硬盘驱动器、光学驱动器、拇指驱动器、驱动器阵列,或其任何组合。
计算机系统100内的人机接口116可以将系统连接至键盘118和指点装置120,其中指点装置120可以包括鼠标、轨迹球、触摸板、操纵杆、指点棒、针笔或触摸屏等。计算机系统100可以通过总线106链接至适配为将系统100连接至显示装置124的显示接口122,其中,显示装置124可以包括计算机监视器、摄像机、电视机、投影仪或移动装置等。
计算机系统100还可以连接至成像接口126,成像接口126适配于将系统连接到成像装置128。成像装置128可以包括摄像机、计算机、扫描仪、移动装置、网络摄像头或其任意组合。打印机接口130也可以通过总线106连接至计算机系统100,并适配于将计算机系统100连接至打印装置132,其中,打印装置132可以包括液体喷墨打印机、固体墨水打印机、大型商业打印机、热敏打印机、UV打印机或热升华打印机等。网络接口控制器134适配于通过总线106将计算机系统100连接至网络136。多模态数字图像可以在显示装置、成像装置和/或打印装置上呈现。多模态数字图像可以通过网络136的通信信道传送,和/或存储在计算机的存储系统108内以供存储和/或进一步处理。
图2A示出了根据本发明一个实施方式的用于生成多模态数字图像的计算机实现的方法的框图。该方法利用第一神经网络240处理220矢量210以生成数字图像的第一模态225,并且利用第二神经网络250处理230矢量210以生成数字图像的第二模态235。该方法可以利用NNIG 114来执行,并且利用计算机系统100的处理器(例如,处理器102)来执行。
一些实施方式基于以下认识:当神经网络被独立训练以生成图像时,所生成的图像不相关。然而,通过在神经网络中强制权重共享约束,并按每个模态给出足够的训练图像,可以联合训练多个神经网络以生成多模态数字图像。
图2B示出了被训练以生成数字图像的第一模态的第一神经网络240的结构和被训练以生成数字图像的第二模态的第二神经网络250的结构的示例性示意图。第一神经网络的结构(例如,层数和层间连接)与第二神经网络的结构相同。另外,第一神经网络中的至少一层具有与第二神经网络中的对应层的参数相同的参数。然而,第一神经网络中的至少一层具有与第二神经网络中的对应层的参数不同的参数。在图2B的示例中,示出了层231、232、233、234、235及236。对应层231、232及233具有相同的参数,而对应层234、235及246具有不同的参数。
典型地讲,具有相同参数的层是用于实施图像的高级特征的顶层。例如,这两个网络被联合训练,同时为第一神经网络和第二神经网络中的若干顶层实施相同的参数。这样,所述网络的相同结构和相同参数强制所生成图像中的一些共性,而所述网络中的至少一些层的不同参数实施不同的模态。例如,在一个实施方式中,第一和第二神经网络中具有相同参数的层生成数字图像的高级特征,并且第一和第二神经网络中具有不同参数的层生成数字图像的低级特征。典型地讲,所述低级特征由所述高级特性导出。例如,所述高级特征可以是对图像中的对象的类型和配置的描述,而所述低级特征可以是基于所述对象的类型和配置确定的对象的边缘。
耦合生成对抗网络(Coupled Generative Adversarial Net)
本发明的一些实施方式使用耦合生成对抗网络(CoGAN)框架来训练NNIG 114,其可以呈现多模态数字图像,而不需要存在训练数据集中的一对一对应关系。该框架基于用于图像生成的生成对抗网络(GAN)。CoGAN框架包括至少一对GAN。
训练每个GAN以在一个域中生成图像,并且CoGAN的框架强制每个GAN生成至少在一个方面彼此相关的不同图像。例如,通过强制解码两个GAN中的高级信息来共享网络连接权重的层,这两个GAN以相同的方式解码高级语义。然后,解码低级可视信息的层将共享语义映射至不同模态的图像,以针对每种模态混淆判别子网络(discriminativesubnetwork)。通过在生成子网络中强制权重共享约束,并在每个域中给出足够的训练图像,训练CoGAN以获得多种模态中的对应关系。
为此,在一些实施方式中,利用对抗训练过程来训练第一神经网络和第二神经网络中的至少一个或两者。例如,第一神经网络中的第一生成子网络和第一判别子网络以及第二神经网络中的第二生成子网络和第二判别子网络可以进行联合训练以最小化极小极大目标函数(minimax object function)。
生成对抗网络
图3示出了由一些实施方式用于训练NNIG 114的GAN的框图。GAN框架包括两个子网络,生成子网络301和判别子网络302。生成子网络301的目的是根据随机输入305(例如,矢量210)合成或生成类似于训练图像310的图像300。判别子网络302的目的是区分303图像310与合成图像300。生成子网络和判别子网络二者可以实现为多层感知器,即,前馈神经网络或多层卷积神经网络。
从形式上看,设DGAN为训练数据集,其中,x从数据分布x:pX中抽取每个样本x。设z为维度d的随机矢量。在一个实施方式中,z从多维均匀分布抽取z。另选实施方式使用不同的分布,如多维正态分布。设g和f分别是生成子网络和判别子网络。函数g采取z作为输入,并输出具有与x相同支持的随机矢量g(z)x。将g(z)的分布表示为pG。函数f估计输入从pX抽取输入的概率。值得注意的是,在x来自pX时,f(x)=1,而在x来自pG时,f(x)=0。
通过类推的方式,GAN框架对应于极小极大二元博弈(minimax two-playergame),并且可以通过求解下式来联合训练生成子网络和判别子网络:
其中,值函数VGAN由下式给出
VGAN(f,g)=Ex:px[-log f(x)]+Ez:pz[-log(1-f(g(z)))]。 (2)
使用具有随机梯度下降的反向传播算法来训练网络f和g。在一些实施方式中,通过交替以下两个梯度更新步骤来求解式(1):
步骤1:
步骤2:
其中,θf和θg分别是网络f和g的可学习网络参数,λ是学习速率,并且上标t指示梯度更新的迭代次数。
如果赋予f和g足够的容量和足够的训练迭代次数,分布pG趋同于pX。即,根据随机种子z,网络g可以合成图像g(z),其与从真实数据分布pX抽取的相似。为此,在训练之后,生成子网络301可以形成NNIG 114的一部分。
耦合生成对抗网络
图4A示出了根据一些实施方式的CoGAN框架。CoGAN包括一对生成对抗网络:GAN1和GAN2。各个生成性对抗网络具有可以合成多个图像的生成子网络和可以对输入信号是真实图像还是合成图像进行分类的判别子网络。GAN1和GAN2的生成子网络由g14011和g2 4012表示,而GAN1和GAN2的判别子网络由f1 4021和f2 4022表示。所述子网络可以实现为多层感知器。
生成子网络4011被训练为根据输入矢量305生成第一模态的图像3001,并且生成子网络401被训练为根据输入矢量305生成第二模态的图像3002。为了便于训练,判别子网络4021区分4031图像3001与第一模态的训练图像311。类似地,判别子网络4022区分4032图像3002与第一模态的训练图像312。
图4B示出了耦合生成性对抗网框架中的权重共享约束的示例。在CoGAN框架中,生成子网络g1和g2的底层420(即,对应于高级语义信息的层)的权重被约束为具有相同的权重,即,相同的参数。在该示例中,对应于判别子网络f1和f2的高级语义信息的顶层410的权重被共享。
值得注意的是,在训练阶段期间主要甚或独占地使用生成子网络和判别子网络。在训练生成子网络之后,可以丢弃判别子网络,并且生成子网络成为第一神经网络240或第二神经网络250。
这种权重共享方案强制GAN1和GAN2合成成对的对应图像,其中,在两个图像共享相同的高级语义信息但具有不同的低级实现的意义上来定义对应关系,诸如图像及其旋转或者人带眼镜时面部或者同一人不带眼镜时的面部。例如,CoGAN可以用于合成图像及其旋转或者合成有眼镜的面部和没有眼镜的同一面部。通过简单地添加更多GAN,可以扩展CoGAN框架以处理多个模态的联合图像生成。
生成子网络
设DDGAN为训练数据集,其中,从第一模态的数据分布或者从第二模态的数据分布中抽取每个样本。设g1和g2为生成GAN1和GAN2的子网络。所述子网络单独将随机矢量输入z映射至具有与x1与x2相同支持的图像。g1(z)和g1(z)的分布用指示。
在一个实施方式中,g1和g2两者被实现为多层感知器并且可以表达为
其中,是g1和g2的第i层,m1和m2是生成子网络g1和g2中的层数。应注意,m1不必等于m2。使用分别指示的可学习参数。
通过多层感知操作,生成子网络逐渐将信息从更抽象的概念解码成更具体的细节。底层对高级语义信息进行解码,而顶层对低级细节信息进行解码。应注意,该信息流不同于用于分类任务的判别性深度神经网络。在判别子网络中,底层提取低级特征,而顶层提取高级特征。
因为不同模态的对应图像共享相同的高级语义信息,所以一些实施方式强制g1和g2的底层420具有相同结构并共享权重。即,
其中,k是共享层的数量。这种权重共享约束强制由生成网络g1和g2以相同方式解码高级信息。一些实施方式不对顶层施加额外约束。允许所述约束以学习按各个模态的最佳方式来具体化高级语义信息。
判别子网络
判别子网络的推导类似于针对生成子网络的推导。设f1和f2为GAN1和GAN2的判别子网络,它们可以被实现为多层感知器:
其中,是f1和f2的第i层,并且n1和n2是f1和f2的层数。使用分别表示的可学习参数。
判别子网络将输入图像映射至概率得分,估计该输入是从训练数据分布中抽取出的概率。针对这些子网络,判别子网络的底层提取低级特征,而顶层提取高级特征。因为输入图像是以两种不同的模态实现相同的高级语义,所以一些实施方式强制判别子网络f1和f2具有相同的顶层410,这是通过经由下式共享两个判别子网络的顶层的权重来实现
其中,l是共享层的数量。
训练
通过类推的方式,CoGAN的训练也对应于由下式给出的受约束的极小极大博弈
其中,值函数VDGAN
在该博弈类推中,存在两队,每队有两个选手。生成子网络g1和g2形成一队并一起工作,以合成两个不同模态的一对对应图像,从而混淆判别子网络f1和f2。另一方面,判别子网络尝试将从相应模态的训练数据分布中抽取的图像与从相应生成子网络抽取的图像区分开。该协作根据权重共享约束建立。与GAN框架类似,可以通过利用交替梯度更新方案的反向传播算法来实现生成子网络和判别子网络的训练。
在CoGAN博弈中,有两队,每队有两个选手。生成子网络g1和g2形成一队并一起工作,以按两个不同模态合成一对对应图像,从而分别混淆判别子网络f1和f2。判别子网络尝试将从相应模态的训练数据分布中抽取的图像与从相应生成子网络中抽取的图像区分开。该协作根据权重共享约束建立。与GAN框架类似,可以通过利用交替梯度更新的反向传播算法来实现生成子网络和判别子网络的学习。
图5A示出了本发明一些实施方式所使用的神经网络训练的示意图。训练510使用不同模态的图像501和502的训练集来生成NNIG的参数520。值得注意的是,图像501不必对应于图像502。通常来说,训练人工神经网络包括:考虑到训练集,向人工神经网络应用训练算法(有时称为“学习”算法)。训练集可以包括一组或更多组输入以及一组或更多组输出,其中,每组输入对应于一组输出。训练集中的一组输出包括当对应的一组输入被输入至人工神经网络并接着按前馈方式操作人工神经网络时希望该人工神经网络生成的一组输出。训练神经网络涉及计算参数,例如,与人工神经网络中的连接相关联的权重值。
图5B示出了根据本发明一个实施方式的训练510的伪代码。在CoGAN培训期间,独立地从边缘分布中抽取训练样本,以便不依赖于来自其中一对一对应关系可用的联合分布的样本。这样,CoGAN训练生成子网络,所述生成子网络可以按对应关系合成数字图像的不同模态,但预先没有对应关系。从边缘学习联合分布的能力可以在很大程度上减轻用于成对图像生成的训练数据收集的负担,因为即使获取两个不同模态的对应图像也可能非常困难。
图5C示出了根据本发明一个实施方式的训练系统的框图。该训练系统包括通过总线22连接至只读存储器(ROM)24和存储器38的处理器。该训练系统还可以包括用于向用户呈现信息的显示器28以及多个输入装置,输入装置包括键盘26、鼠标34以及可以经由输入/输出端口30附接的其它装置。还可以附接其它输入装置,诸如其它指点装置或语音传感器或图像传感器。其它指点装置包括:平板计算机、数字小键盘、触摸屏、触摸屏覆层、轨迹球、操纵杆、光笔、拇指轮等。I/O 30可以连接至通信线路、磁盘存储部、输入装置、输出装置或其它I/O设备。存储器38包括显示缓冲器72,显示缓冲器72包含用于显示屏的像素强度值。显示器28周期性地将显示这些值的像素值从显示缓冲器72读取到显示屏上。像素强度值可以表示灰度级或颜色。
存储器38包括:数据库90、训练器82、NNIG 114、预处理器84。数据库90可以包括:历史数据105、训练数据、测试数据92。数据库还可以包括来自使用神经网络的操作模式、训练模式或保留模式的结果。上面已经详细描述了这些部件。
存储器38中还示出了操作系统74。操作系统的示例包括:AIX、OS/2、DOS、LINUX以及WINDOWS。存储器38中示出的其它部件包括设备驱动器76,设备驱动器76解释由诸如键盘和鼠标的装置生成的电信号。在存储器38中还示出工作存储区78。工作存储区78可以由存储器38中所示的任何部件使用。工作存储区可以由神经网络101、训练器82、操作系统74以及其它功能使用。工作存储区78可以在部件之间和部件内分区。工作存储区78可以被用于通信、缓冲、临时存储,或者在程序运行时存储数据。
示例
本公开中提供的若干示例例示了由一些实施方式利用CoGAN框架训练的NNIG可以按完全无监督的方式生成不同种类的多模态数字图像,并且不依赖于训练数据中的不同模态之间的一对一对应关系。
数字的生成
图6A示出了根据一个实施方式的用于生成手写数字的多模态数字图像的生成子网络和判别子网络的结构610的示例。该实施方式使用训练数据集中的60000个训练图像来训练CoGAN以生成两个不同模态的数字,例如包括生成数字及其边缘图像和/或生成数字及其负像(negative image)。例如,第一模态可以包括手写数字图像,而第二模态可以包括它们的对应边缘图像。在图6B中示出了由一些实施方式生成的多模态数字图像的例子。在另一示例中,这两个模态分别包括手写数字图像和它们的负像。在图6C中示出了由一些实施方式生成的多模态数字图像的例子。
在图6A的示例中,两个生成子网络具有相同结构;两者都有5层,并且完全卷积。卷积层的步幅是分数的。子网络还采用批量归一化层(batch normalization layer)和参数化整流线性单元层(parameterized rectified linear unit layer)。除了负责生成图像输出的最后卷积层之外,生成子网络共享其它所有层的参数。判别子网络使用LeNet的变体。针对判别子网络的输入是包含来自生成子网络的输出图像和来自两个训练子集的图像的多个批量(每个像素值被线性归一化成0到1)。一个实现使用自适应矩随机梯度下降(ADAM:Adaptive Moment Stochastic-gradient Descent)法来训练CoGAN达25000次迭代。
面部的生成
图7A示出了根据一个实施方式的用于生成具有不同属性的多模态面部图像的生成子网络和判别子网络的结构710的示例。该实施方式训练了几个CoGAN,其中每个都用于生成具有属性的面部图像和没有该属性的对应面部图像。训练数据集包括10177人、202599个面部图像。训练数据集涵盖了大的姿势变化和背景杂斑(background clutter)。每个脸部图像都有40个属性,包括眼镜、微笑以及金色头发。具有属性的面部图像形成数字图像的第一模态;而没有该属性的那些面部图像形成第二模态。这两种模态中没有重叠的面部。在这个示例中,生成子网络和判别子网络都是七层深度卷积神经网络。
图7B示出了具有金色头发和深色头发的面部的多模态图像的例子。图7C示出了笑脸和非笑脸的多模态图像的例子。图7D示出了具有眼镜和没有眼镜的面部的多模态图像的例子。
一些实现在100维输入空间中随机采样两个点,并且随着从一点到另一点将所呈现的面部的变形可视化。值得注意的是,CoGAN生成成对的相应面部,类似于同一个人的具有不同属性的相应面部。随着在空间中行进,这些面部可以逐渐变形,例如,从一个人到另一个人。这种变形对于两种模态来说都是一致的,其验证了CoGAN框架。
RGB图像和深度图像的生成
图8A示出了根据一个实施方式的用于生成包括彩色图像及其对应深度图像的多模态数字图像的生成子网络和判别子网络的结构的示例。注意,所呈现的图像对具有两个不同模态。训练数据集具有RGBD图像,其具有由来自不同视点的传感器捕捉的300个对象的登记的彩色图像和深度图像。第一子集中的彩色图像用于训练GAN1,而第二子集中的深度图像被用于训练GAN2。两个子集中没有对应的深度图像和彩色图像。数据集中的图像具有不同的分辨率。
图8B示出了多模态彩色图像和深度图像的例子。所呈现的深度剖面平滑变形,类似于真实物体。
应用
除了为电影和游戏制作呈现多模态数字图像外,所公开的CoGAN框架能够应用于模态变换和模态自适应任务。设x1为第一模态的图像。模态变换任务是关于找到第二模态的对应图像x2,使得联合概率密度p(x1,x2)最大化。设L为测量两个图像之间的差异的损失函数。如果给定经训练的生成子网络g1和g2,该变换通过求解下式来实现
在找到z*之后,可以应用g2,以获得变换后的图像x2=g2(z)。
图9示出了根据一些实施方式的模态变换的示例。例如,图像910被变换成图像920,并且图像930被变换成图像940。通过利用欧几里得距离(L2损失)函数和有限记忆BFGS(L-BFGS或LM-BFGS)优化法来计算那些例子。
模态自适应涉及使以一种模态训练的分类器适应另一种模态。为此,一个实施方式将CoGAN框架用于无监督模态自适应任务。设D1和D2为任务A中使用的第一模态和第二模态的数字图像子集。假设D1中的图像的类别标签是已知的,但D2中的图像的类别标签是未知的。一个目标是使利用D1训练的数字分类器自适应以对第二模态的数字进行分类。可以通过联合求解在D1中使用图像和标签的第一模态的数字分类问题以及在D1和D2两者中使用图像的CoGAN学习问题来训练CoGAN。这生成两个分类器:针对第一模态的和针对第二模态的 应注意到,由于权重共享,因而f2 (2)=f1 (2)并且f2 (3)=f1 (3)
另外或另选地,一个实施方式通过将混合美国国家标准和技术研究所数据库(MNIST)测试图像变换成其对应的边缘图像来创建模态转换。随着应用c1来分类边缘图像,分类准确度因模态转换而降低至87.0\%。然而,在应用c2以对第二模态的图像进行分类时,获得了96.7\%的分类准确度。该准确度接近在第一模态中获得的准确度。这是令人惊讶的,因为第二模态中的标签以及两种模态之间的样本对应关系都未被使用。
本发明的上述实施方式可以按许多方式中的任一种来实现。例如,这些实施方式可以利用硬件、软件或其组合来实现。当按软件来实现时,软件代码可以在任何合适处理器或处理器集合上执行,而不管设置在单一计算机中还是分布在多个计算机当中。这种处理器可以被实现为集成电路,其中在集成电路组件中具有一个或更多个处理器。然而,处理器可以利用采用任何合适格式的电路来实现。
而且,本发明的实施方式可以被具体实施为已经提供了示例的方法。作为该方法的一部分执行的动作可以按任何合适方式来安排。因此,即使在例示性实施方式中被示出为顺序动作,也可以构造按与所例示相比不同的次序来执行动作的实施方式,其可以包括同时执行一些动作。
在权利要求书中使用诸如“第一”、“第二”的一般用语来修改权利要求元素不独立地暗示一个权利要求部件的任何优先级、优先权,或次序超过执行方法的动作的另一或临时次序,而是仅仅被用作用于区分具有特定名称的一个权利要求元素与具有相同名称(但供普通术语使用)另一元素的标记,以区分这些权利要求元素。

Claims (20)

1.一种用于生成多模态数字图像的计算机实现的方法,所述方法包括:
利用第一神经网络来处理矢量,以生成所述数字图像的第一模态;以及
利用第二神经网络来处理所述矢量,以生成所述数字图像的第二模态,其中,所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同,其中,所述第一神经网络中的至少一层的参数与所述第二神经网络中的对应层的参数相同,并且其中,所述第一神经网络中的至少一层的参数与所述第二神经网络中的对应层的参数不同,其中,利用处理器来执行上述方法的步骤。
2.根据权利要求1所述的方法,所述方法还包括:
利用概率分布来随机生成所述矢量的元素。
3.根据权利要求1所述的方法,其中,所述第一神经网络和所述第二神经网络的具有相同参数的层生成所述数字图像的高级特征,并且其中,所述第一神经网络和所述第二神经网络的具有不同参数的层生成所述数字图像的低级特征。
4.根据权利要求3所述的方法,其中,所述低级特征是从所述高级特性导出的。
5.根据权利要求1所述的方法,其中,所述数字图像包括图像、视频、文本以及声音中的一个或组合。
6.根据权利要求1所述的方法,所述方法还包括:
在针对所述第一神经网络和所述第二神经网络中的若干底层实施相同的参数的同时,对所述第一神经网络和所述第二神经网络进行联合训练。
7.根据权利要求6所述的方法,其中,利用生成对抗网络(GAN)来训练所述第一神经网络和所述第二神经网络中的至少一个或两个神经网络,所述生成对抗网络包括生成子网络和判别子网络,并且所述生成子网络用于生成数字图像的特定模态的样本,并且所述判别子网络用于测试由所述生成子网络生成的所述数字图像的所述样本是否具有所述特定模态。
8.根据权利要求7所述的方法,其中,对所述第一神经网络的第一生成子网络和第一判别子网络与所述第二神经网络的第二生成子网络和第二判别子网络进行联合训练以最小化极小极大目标函数。
9.根据权利要求1所述的方法,所述方法还包括:
在显示装置上呈现所述第一模态和所述第二模态的所述数字图像,或者通过通信信道发送所述第一模态和所述第二模态的所述数字图像。
10.根据权利要求1所述的方法,其中,所述数字图像的所述第一模态是彩色图像,并且其中,所述数字图像的所述第二模态是深度图像。
11.根据权利要求1所述的方法,其中,所述数字图像的所述第一模态是彩色图像,并且其中,所述数字图像的所述第二模态是热图像。
12.根据权利要求1所述的方法,其中,所述数字图像的所述第一模态是具有第一样式的图像,并且其中,所述数字图像的所述第二模态是具有第二样式的图像。
13.根据权利要求1所述的方法,其中,所述第一神经网络和所述第二神经网络是从被联合训练以生成所述数字图像的一组模态的一组神经网络选择的,所述方法包括:
利用一组神经网络来处理所述矢量,以生成所述多模态数字图像。
14.根据权利要求13所述的方法,其中,所述一组神经网络形成耦合生成对抗网络(CoGAN)。
15.一种用于生成多模态数字图像的系统,所述系统包括:
至少一个非暂时性计算机可读存储器,所述非暂时性计算机可读存储器存储被训练以生成所述数字图像的第一模态的第一神经网络和被训练以生成所述数字图像的第二模态的第二神经网络,其中,所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同,其中,所述第一神经网络中的至少一层的参数与所述第二神经网络中的对应层的参数相同,并且其中,所述第一神经网络中的至少一层的参数与所述第二神经网络中的对应层的参数不同;以及
处理器,所述处理器通过利用被训练以生成所述数字图像的第一模态的所述第一神经网络处理矢量,并且利用被训练以生成所述数字图像的第二模态的所述第二神经网络处理所述矢量来生成所述多模态数字图像,并且将所述多模态数字图像存储在所述存储器中。
16.根据权利要求15所述的系统,所述系统还包括:
显示装置,所述显示装置用于显示所述多模态数字图像。
17.根据权利要求15所述的系统,其中,所述第一神经网络和所述第二神经网络的具有相同参数的层生成所述数字图像的高级特征,并且其中,所述第一神经网络和所述第二神经网络的具有不同参数的层生成所述数字图像的低级特征,其中,所述高级特征归因于整个数字图像,而所述低级特征归因于所述数字图像的一部分。
18.根据权利要求15所述的系统,其中,所述数字图像包括图像、视频、文本以及声音中的一个或组合。
19.根据权利要求15所述的系统,其中,对所述第一神经网络和所述第二神经网络进行联合训练。
20.一种存储有软件的非暂时性计算机可读介质,所述指令在由处理器执行时执行以下步骤:
利用被训练以生成所述数字图像的第一模态的第一神经网络来处理矢量;以及
利用被训练以生成所述数字图像的第二模态的第二神经网络来处理所述矢量,其中,所述第一神经网络的结构和层数与所述第二神经网络的结构和层数相同,其中,所述第一神经网络中的至少一层的参数与所述第二神经网络中的对应层的参数相同,并且其中,所述第一神经网络中的至少一层的参数与所述第二神经网络中的对应层的参数不同。
CN201780030149.6A 2016-06-01 2017-05-24 用于生成多模态数字图像的方法和系统 Active CN109196526B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662344331P 2016-06-01 2016-06-01
US62/344,331 2016-06-01
US15/189,075 2016-06-22
US15/189,075 US9971958B2 (en) 2016-06-01 2016-06-22 Method and system for generating multimodal digital images
PCT/JP2017/020730 WO2017209307A1 (en) 2016-06-01 2017-05-24 Method and system for generating multimodal digital image

Publications (2)

Publication Number Publication Date
CN109196526A true CN109196526A (zh) 2019-01-11
CN109196526B CN109196526B (zh) 2021-09-28

Family

ID=59153238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780030149.6A Active CN109196526B (zh) 2016-06-01 2017-05-24 用于生成多模态数字图像的方法和系统

Country Status (5)

Country Link
US (1) US9971958B2 (zh)
JP (1) JP6639700B2 (zh)
CN (1) CN109196526B (zh)
DE (1) DE112017002799B4 (zh)
WO (1) WO2017209307A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288668A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 图像生成方法、装置、计算机设备及存储介质
CN110444277A (zh) * 2019-07-19 2019-11-12 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
CN111340214A (zh) * 2020-02-21 2020-06-26 腾讯科技(深圳)有限公司 对抗攻击模型的训练方法及装置
CN111754389A (zh) * 2019-03-27 2020-10-09 通用汽车环球科技运作有限责任公司 保留语义的风格转移

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10595039B2 (en) 2017-03-31 2020-03-17 Nvidia Corporation System and method for content and motion controlled action video generation
KR102403494B1 (ko) * 2017-04-27 2022-05-27 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
US10922556B2 (en) * 2017-04-28 2021-02-16 Intel Corporation Storage system of DNN outputs for black box
WO2019032421A1 (en) * 2017-08-07 2019-02-14 Siemens Aktiengesellschaft IMPROVED VISUAL LEARNING TECHNOLOGY MACHINE
CN107609481B (zh) * 2017-08-14 2020-11-20 百度在线网络技术(北京)有限公司 为人脸识别生成训练数据的方法、装置和计算机存储介质
JP7023669B2 (ja) * 2017-10-26 2022-02-22 株式会社Preferred Networks 画像生成方法、画像生成装置、及び画像生成プログラム
CN108122209B (zh) * 2017-12-14 2020-05-15 浙江捷尚视觉科技股份有限公司 一种基于对抗生成网络的车牌去模糊方法
US10540578B2 (en) * 2017-12-21 2020-01-21 International Business Machines Corporation Adapting a generative adversarial network to new data sources for image classification
US10592779B2 (en) 2017-12-21 2020-03-17 International Business Machines Corporation Generative adversarial network medical image generation for training of a classifier
US10937540B2 (en) 2017-12-21 2021-03-02 International Business Machines Coporation Medical image classification based on a generative adversarial network trained discriminator
CN111867474A (zh) * 2018-01-03 2020-10-30 皇家飞利浦有限公司 使用深度学习根据低剂量pet成像进行全剂量pet图像估计
CN108121975B (zh) * 2018-01-04 2022-04-19 中科汇通投资控股有限公司 一种联合原始数据和生成数据的人脸识别方法
CN108427963B (zh) * 2018-03-02 2020-10-30 浙江工业大学 一种基于深度学习的黑色素瘤皮肤病的分类识别方法
US10552714B2 (en) * 2018-03-16 2020-02-04 Ebay Inc. Generating a digital image using a generative adversarial network
CN108510061B (zh) * 2018-03-19 2022-03-29 华南理工大学 基于条件生成对抗网络的多监控视频人脸合成正脸的方法
KR102565278B1 (ko) 2018-03-26 2023-08-09 삼성전자주식회사 영상 분할 방법, 영상 분할 장치, 및 영상 분할을 위한 학습 방법
US10839262B2 (en) 2018-04-24 2020-11-17 Here Global B.V. Machine learning a feature detector using synthetic training data
CN110738540B (zh) * 2018-07-20 2022-01-11 哈尔滨工业大学(深圳) 一种基于生成对抗网络的模特衣服推荐方法
US10699458B2 (en) * 2018-10-15 2020-06-30 Shutterstock, Inc. Image editor for merging images with generative adversarial networks
CN109447906B (zh) * 2018-11-08 2023-07-11 北京印刷学院 一种基于生成对抗网络的图片合成方法
US10915787B2 (en) * 2018-11-15 2021-02-09 Toyota Research Institute, Inc. System and method for generating training data from synthetic images
TWI705340B (zh) 2018-12-13 2020-09-21 財團法人工業技術研究院 相位圖像生成器的訓練方法及相位圖像分類器的訓練方法
CN109671125B (zh) * 2018-12-17 2023-04-07 电子科技大学 一种高度融合的gan网络装置及实现文本生成图像的方法
CN109800399B (zh) * 2018-12-18 2023-05-26 北京奇艺世纪科技有限公司 模型生成方法、封面生成方法、装置及存储介质
CN109754447B (zh) * 2018-12-28 2021-06-22 上海联影智能医疗科技有限公司 图像生成方法、装置、设备和存储介质
CN109800730B (zh) * 2019-01-30 2022-03-08 北京字节跳动网络技术有限公司 用于生成头像生成模型的方法和装置
CN109948660A (zh) * 2019-02-26 2019-06-28 长沙理工大学 一种改进辅助分类器gan的图像分类方法
CN109978021B (zh) * 2019-03-07 2022-09-16 北京大学深圳研究生院 一种基于文本不同特征空间的双流式视频生成方法
CN109934198B (zh) * 2019-03-22 2021-05-14 北京市商汤科技开发有限公司 人脸识别方法及装置
CN109993712B (zh) * 2019-04-01 2023-04-25 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法及相关设备
KR102039138B1 (ko) * 2019-04-02 2019-10-31 주식회사 루닛 적대적 학습에 기반한 도메인 어댑테이션 방법 및 그 장치
CN109961491B (zh) * 2019-04-12 2023-05-26 上海联影医疗科技股份有限公司 多模态图像截断补偿方法、装置、计算机设备和介质
CN110148128B (zh) * 2019-05-23 2023-04-18 中南大学 一种补全病变骨骼以获得骨骼预期参考模型的方法
US11062486B2 (en) * 2019-10-21 2021-07-13 Siemens Medical Solutions Usa, Inc. Methods and apparatus for deep learning based data transfer between imaging systems
CN111178401B (zh) * 2019-12-16 2023-09-12 上海航天控制技术研究所 一种基于多层对抗网络的空间目标分类方法
US11348243B2 (en) 2020-01-24 2022-05-31 GE Precision Healthcare LLC Systems and methods for medical image style transfer using deep neural networks
US20220076100A1 (en) 2020-09-10 2022-03-10 Mitsubishi Electric Research Laboratories, Inc. Multi-Dimensional Deep Neural Network
US20220151567A1 (en) * 2020-11-17 2022-05-19 Siemens Healthcare Gmbh Joint assessment of myocardial strain and intracardiac blood flow
JP6856965B1 (ja) * 2020-11-27 2021-04-14 株式会社ネフロック 画像出力装置及び画像出力方法
KR20220107575A (ko) * 2021-01-25 2022-08-02 삼성전자주식회사 멀티 모달 데이터를 처리하는 전자 장치 및 그 동작 방법
US11341699B1 (en) * 2021-03-09 2022-05-24 Carmax Enterprise Services, Llc Systems and methods for synthetic image generation
WO2022201803A1 (ja) * 2021-03-25 2022-09-29 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム
CN113506222B (zh) * 2021-07-30 2024-03-01 合肥工业大学 一种基于卷积神经网络的多模态图像超分辨方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040103095A1 (en) * 2002-11-06 2004-05-27 Canon Kabushiki Kaisha Hierarchical processing apparatus
CN1685364A (zh) * 2003-01-06 2005-10-19 三菱电机株式会社 在图像中分割像素的方法
CN101606179A (zh) * 2006-12-13 2009-12-16 奥多比公司 用于遮罩、选择和路径的通用前端
CN104408483A (zh) * 2014-12-08 2015-03-11 西安电子科技大学 基于深度神经网络的sar纹理图像分类方法
CN104899921A (zh) * 2015-06-04 2015-09-09 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN105184303A (zh) * 2015-04-23 2015-12-23 南京邮电大学 一种基于多模态深度学习的图像标注方法
US20160052452A1 (en) * 2014-08-25 2016-02-25 Hyundai Motor Company Method and apparatus for detecting a pedestrian by a vehicle during night driving
CN105447498A (zh) * 2014-09-22 2016-03-30 三星电子株式会社 配置有神经网络的客户端设备、系统和服务器系统
US20160093048A1 (en) * 2014-09-25 2016-03-31 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
CN105512661A (zh) * 2015-11-25 2016-04-20 中国人民解放军信息工程大学 一种基于多模态特征融合的遥感影像分类方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654018B1 (en) 2001-03-29 2003-11-25 At&T Corp. Audio-visual selection process for the synthesis of photo-realistic talking-head animations
WO2006057267A1 (ja) 2004-11-25 2006-06-01 Nec Corporation 顔画像合成方法および顔画像合成装置
US10387773B2 (en) * 2014-10-27 2019-08-20 Ebay Inc. Hierarchical deep convolutional neural network for image classification
CN105938558B (zh) * 2015-03-06 2021-02-09 松下知识产权经营株式会社 学习方法
US9514391B2 (en) * 2015-04-20 2016-12-06 Xerox Corporation Fisher vectors meet neural networks: a hybrid visual classification architecture
US9633282B2 (en) * 2015-07-30 2017-04-25 Xerox Corporation Cross-trained convolutional neural networks using multimodal images
US9824304B2 (en) * 2015-10-06 2017-11-21 Adobe Systems Incorporated Determination of font similarity

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040103095A1 (en) * 2002-11-06 2004-05-27 Canon Kabushiki Kaisha Hierarchical processing apparatus
CN1685364A (zh) * 2003-01-06 2005-10-19 三菱电机株式会社 在图像中分割像素的方法
CN101606179A (zh) * 2006-12-13 2009-12-16 奥多比公司 用于遮罩、选择和路径的通用前端
US20160052452A1 (en) * 2014-08-25 2016-02-25 Hyundai Motor Company Method and apparatus for detecting a pedestrian by a vehicle during night driving
CN105447498A (zh) * 2014-09-22 2016-03-30 三星电子株式会社 配置有神经网络的客户端设备、系统和服务器系统
US20160093048A1 (en) * 2014-09-25 2016-03-31 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
CN104408483A (zh) * 2014-12-08 2015-03-11 西安电子科技大学 基于深度神经网络的sar纹理图像分类方法
CN105184303A (zh) * 2015-04-23 2015-12-23 南京邮电大学 一种基于多模态深度学习的图像标注方法
CN104899921A (zh) * 2015-06-04 2015-09-09 杭州电子科技大学 基于多模态自编码模型的单视角视频人体姿态恢复方法
CN105512661A (zh) * 2015-11-25 2016-04-20 中国人民解放军信息工程大学 一种基于多模态特征融合的遥感影像分类方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
IAN J. GOODFELLOW ET AL: "Generative Adversarial Networks", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS》 *
J MAO ET AL: "Explain Images with Multimodal Recurrent Neural Networks", 《COMPUTER ENCE》 *
JUNSHI HUANG ET AL: "Cross-domain Image Retrieval withaDual Attribute-aware Ranking Network and Proceedings", 《2015 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
LONG DUONG ET AL: "Low Resource Dependency Parsing", 《PROCEEDINGS OF THE 53RD ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS AND THE 7TH INTERNATIONAL JOINT CONFERENCE ON NATURAL LANGUAGE PROCESSING》 *
林哲等: "基于稀疏表示和PCNN的多模态图像融合", 《山东大学学报:工学版》 *
石永: "基于交叉累积剩余熵的多模式遥感图像配准研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111754389A (zh) * 2019-03-27 2020-10-09 通用汽车环球科技运作有限责任公司 保留语义的风格转移
CN111754389B (zh) * 2019-03-27 2024-04-19 通用汽车环球科技运作有限责任公司 保留语义的风格转移
CN110288668A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 图像生成方法、装置、计算机设备及存储介质
CN110444277A (zh) * 2019-07-19 2019-11-12 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
CN110444277B (zh) * 2019-07-19 2023-03-28 重庆邮电大学 一种基于多生成多对抗的多模态脑部mri图像双向转换方法
CN111340214A (zh) * 2020-02-21 2020-06-26 腾讯科技(深圳)有限公司 对抗攻击模型的训练方法及装置
CN111340214B (zh) * 2020-02-21 2021-06-08 腾讯科技(深圳)有限公司 对抗攻击模型的训练方法及装置

Also Published As

Publication number Publication date
CN109196526B (zh) 2021-09-28
DE112017002799T5 (de) 2019-03-14
US9971958B2 (en) 2018-05-15
WO2017209307A1 (en) 2017-12-07
US20170351935A1 (en) 2017-12-07
DE112017002799B4 (de) 2023-03-02
JP2019510325A (ja) 2019-04-11
JP6639700B2 (ja) 2020-02-05

Similar Documents

Publication Publication Date Title
CN109196526A (zh) 用于生成多模态数字图像的方法和系统
Rahman et al. A new benchmark on american sign language recognition using convolutional neural network
JP6970305B2 (ja) 顔姿勢解析方法、装置、デバイス、記憶媒体及びプログラム
JP6983937B2 (ja) 畳み込みニューラルネットワークにおける構造学習
CN108182441B (zh) 平行多通道卷积神经网络、构建方法及图像特征提取方法
Abiyev et al. Head mouse control system for people with disabilities
CN110097130A (zh) 分类任务模型的训练方法、装置、设备及存储介质
WO2019227479A1 (zh) 人脸旋转图像的生成方法及装置
Geetha et al. A vision based dynamic gesture recognition of indian sign language on kinect based depth images
KR20200130440A (ko) 이미지 내 객체를 식별하기 위한 방법 및 상기 방법을 실행하기 위한 모바일 디바이스(method for identifying an object within an image and mobile device for executing the method)
Loke et al. Indian sign language converter system using an android app
CN109919085B (zh) 基于轻量型卷积神经网络的人人交互行为识别方法
CN109993102A (zh) 相似人脸检索方法、装置及存储介质
Yasir et al. Two-handed hand gesture recognition for Bangla sign language using LDA and ANN
CN107351080B (zh) 一种基于相机单元阵列的混合智能研究系统及控制方法
Kalam et al. Rotation independent digit recognition in sign language
CN113449548A (zh) 更新物体识别模型的方法和装置
CN111160119A (zh) 一种用于化妆人脸验证的多任务深度判别度量学习模型构建方法
Bhowmick et al. Hand gesture recognition of English alphabets using artificial neural network
CN110119702A (zh) 基于深度学习先验的人脸表情识别方法
Perera et al. Sri lankan sign language to sinhala text using convolutional neural network combined with scale invariant feature transform (sift)
Beena et al. Hybrid approaches of convolutional network and support vector machine for American sign language prediction
CN111158476A (zh) 一种虚拟键盘的按键识别方法、系统、设备及存储介质
CN113887373B (zh) 基于城市智慧体育的并行融合网络的姿态识别方法和系统
Usman et al. Skeleton-based motion prediction: A survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant