CN112508179A - 网络结构的构建方法、装置以及介质 - Google Patents
网络结构的构建方法、装置以及介质 Download PDFInfo
- Publication number
- CN112508179A CN112508179A CN202011494199.XA CN202011494199A CN112508179A CN 112508179 A CN112508179 A CN 112508179A CN 202011494199 A CN202011494199 A CN 202011494199A CN 112508179 A CN112508179 A CN 112508179A
- Authority
- CN
- China
- Prior art keywords
- generator
- discriminator
- parameter
- unit
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000010276 construction Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 35
- 230000015654 memory Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 abstract description 8
- 238000010845 search algorithm Methods 0.000 description 15
- 238000005070 sampling Methods 0.000 description 12
- 230000010339 dilation Effects 0.000 description 11
- 238000009826 distribution Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种网络结构的构建方法、装置以及介质。该方法包括:构建网络结构,这里的网络结构可以是GAN网络,GAN网络包括生成器和判别器;首先,训练生成器和判别器,生成器包括第一生成单元,判别器包括第一判别单元;然后,调整生成器的第一生成器参数和判别器的第一判别器参数,直至第一生成器参数处于第一生成器数值范围以及第一判别器参数处于第一判别器数值范围时,使用第一生成器参数更新第一生成单元,使用第一判别器参数更新第一判别单元。通过本申请的方法可以在确定GAN网络的结构的过程中,保证了生成器与判别器之间的平衡性,又能提高了构建方法的效率和准确度。
Description
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种网络结构的构建方法、装置以及介质。
背景技术
生成对抗网络(Generative Adversarial Networks,GAN)由于其在生成图像方面的出色表现而备受关注。但是,GAN网络在网络模型的训练中的不稳定问题极大地增加了体系结构设计的难度。
GAN网络包括生成器和判别器,现有的构建GAN网络方法如图1所示,通过搜索算法从生成器和判别器的搜索空间中搜索出构建生成器和判别器的结构和权重,然后对获取的生成器和判别器的结构和权重进行性能评估,也就是对生成器和判别器的结构和权重进行训练以获得较优的结构和权重,同时,优化搜索算法。
但是,在现有的技术中,每次都要分别训练搜索到的GAN网络的生成器和判别器的权重,而没有考虑生成器和判别器的结构和权重之间的平衡,使得搜索算法的速度很慢。
发明内容
本申请的目的在于提供一种网络结构的构建方法、装置以及介质,本申请的方法包括,以网络结构为GAN网络为例,通过互相博弈的方式,同时调整GAN网络的生成器和判别器的权重,进而优化GAN网络的生成器和判别器的权重。这里的互相博弈的方式,也就是使得生成器的权重获得尽可能最小的数值,同时,使得判别器的权重获得尽可能最大的数值。通过本申请的方法,可以在确定GAN网络的结构的过程中,保证了生成器与判别器之间的平衡性,又能提高了构建方法的效率和准确度。
本申请的第一方面提供了一种网络结构的构建方法,其特征在于,方法包括:构建网络结构,网络结构包括生成器和判别器;基于随机噪声和样本数据,训练生成器和判别器,生成器包括第一生成单元,判别器包括第一判别单元;获取生成器的第一生成器参数和判别器的第一判别器参数,调整第一生成器参数和第一判别器参数,直至第一生成器参数处于第一生成器数值范围以及第一判别器参数处于第一判别器数值范围时,使用第一生成器参数更新第一生成单元,使用第一判别器参数更新第一判别单元。
在上述第一方面的一种可能的实现中,调整第一生成器参数和第一判别器参数,直至第一生成器参数处于第一生成器数值范围以及第一判别器参数处于第一判别器数值范围通过以下公式实现,
其中,α是第一生成器参数,β是第一判别器参数,pdata是样本数据,pz是随机噪声,通过minmax函数使得第一生成器参数处于第一生成器数值范围以及第一判别器参数处于第一判别器数值范围。
即在本申请的实施例中,网络结构可以是GAN网络,E可以是GAN网络的损失。通过minmax函数使得α趋向最小的同时,使得β趋向最大。
在上述第一方面的一种可能的实现中,基于随机噪声和样本数据,训练生成器和判别器,生成器包括第一生成单元,判别器包括第一判别单元,包括:基于随机噪声和样本数据,训练生成器和判别器,生成器用于基于随机噪声生成第一图像,判别器用于区分第一图像和样本数据。
在上述第一方面的一种可能的实现中,使用第一生成器参数更新第一生成单元,使用第一判别器参数更新第一判别单元之后,包括:获取生成器的第二生成器参数和判别器的第二判别器参数;
调整第二生成器参数和第二判别器参数,直至第二生成器参数处于第二生成器数值范围以及第二判别器参数处于第二判别器数值范围时,使用第二生成器参数更新第二生成单元,使用第二判别器参数更新第二判别单元。
在上述第一方面的一种可能的实现中,生成器和判别器各自包括至少两个生成单元和判别单元。
在上述第一方面的一种可能的实现中,第一生成器参数和第一判别器参数的互相博弈是最小-最大博弈。
在上述第一方面的一种可能的实现中,最小-最大博弈用于使得第一生成器参数趋向最小的同时,使得第一判别器参数趋向最大。
本申请的第二方面提供了一种装置,包括:
存储器,存储有指令;
处理器,处理器和存储器耦合,当存储器存储的程序指令被处理器执行时,使得装置执行如前述第一方面的网络结构的构建方法。
本申请的第三方面提供了一种可读介质,可读介质中存储有指令,当指令在可读介质上运行时,使得可读介质执行如前述第一方面的网络结构的构建方法。
附图说明
图1示出了一种网络结构的构建方法的示例图;
图2示出了本申请的实施例中的一种网络结构的构建方法的示例图;
图3示出了本申请的实施例中的一种网络结构的生成器和判别器的结构图;
图4示出了本申请的实施例中的一种网络结构的生成器的上采样单元的结构图;
图5示出了本申请的实施例中的一种网络结构的构建方法的流程图;
图6示出了本申请的实施例中的一种网络结构的构建装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
为了解决本申请的网络结构的构建方法采用由浅层到深层逐步搜索的算法,这里的网络结构可以是GAN网络。本申请的方法包括:先从搜索空间中搜索构成GAN网络的生成器和判别器的浅层的单元,一旦确定了浅层的单元后,固定搜索到的单元;同时,继续搜索生成器和判别器的下一层的单元,直到最终确定生成器和判别器的结构;同时,该构建方法在确定搜索到的单元时,通过让GAN网络的生成器和判别器的权重进行互相博弈的方式,来优化GAN网络的生成器和判别器的权重,进一步确定搜索到的生成器和判别器的结构。也就是,对于生成器和判别器的权重来说,使得生成器的权重获得尽可能最小的数值,同时,使得判别器的权重获得尽可能最大的数值。在计算并获得生成器和判别器的权重的结果后,使得生成器和判别器的权重之间保持平衡。
因此,本申请的网络结构的构建方法,可以在确定GAN网络的结构的过程中,缩小每个阶段的搜索空间,同时又保证了生成器与判别器之间的平衡性。提高了构建方法的效率和准确度。
本申请的网络结构可以应用在人工智能领域,特别是在图像生成领域,也就是使用GAN网络进行图像生成,例如:虚拟数字人;自动艺术创作;图像编辑;图像超分辨;视频插针;图像补全等。
下面以图像生成为例,对本申请的网络结构的构建方法进行介绍。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。
(1)GAN网络是一种深度学习模型,GAN网络可以由生成器(Generator,G)也可以称为生成网络,以及判别器(Discriminator,D)也可以称为判别网络构成。通过对生成器和判别器各自的权重进行调整,获得最终的GAN网络的结构。可以理解,生成器可以通过输入(0,1)的均匀噪声或高斯随机噪声生成图像,判别器则对输入的图像进行判断,确定是来自真实的图像还是由生成器生成的图像。例如,判别器输出一个0-1区间的概率值,当概率值为0时,表示判决输入的图像是真实的图像,当概率值为1时,表示判决输入的图像是非真实的图像(例如,由生成器生成的图像)。
(2)损失函数
这里的损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好,不同的模型用的损失函数一般也不一样。常见的损失函数包括0-1损失函数、绝对值损失函数、log对数损失函数、平方损失函数、Hinge损失函数、感知损失损失函数和交叉熵损失函数等。
(3)激活函数
在神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,激活函数将非线性特性引入到网络中,使得神经网络可以任意逼近任何非线性函数。激活函数包括Sigmoid函数、Tanh函数、ReLU函数等
(4)搜索空间
GAN网络是基于多级搜索策略的模型,生成器和判别器可以由一系列单元组成,这些单元的集合构成了生成器和判别器的搜索空间。这里的单元用于接收输入值并生成输出值,其中单元和单元之间可以存在连接,即,后一个单元的输入可以是前一个单元的输出。GAN网络通过搜索算法在生成器和判别器的搜索空间中对一系列单元建立连接,也就是在生成器和判别器的搜索空间进行不断地搜索操作,构成生成器和判别器的结构。这里的单元就是构成了上文中描述的生成器和判别器的结构。
(5)神经网络结构的搜索算法(Neural Architecture Search,NAS)是机器学习的一种方式,通过构建方法获取神经网络的结构。
如图2所示,本发明的实施例提出了一种网络结构的构建方法。
首先,通过生成器和判别器各自的搜索空间来生成生成器和判别器的结构。
当通过搜索第一搜索空间103确定生成器101的结构时,判别器102将通过第一评估模块105计算出生成器101的结构的第一参数α的对抗性损失,这里的对抗性损失可以是损失函数,该对抗性损失用于通过梯度下降来对生成器101的结构进行性能评估,进而调整生成器101的结构。
其次,搜索第二搜索空间104确定判别器102的结构,可以采用生成器101来评估判别器102的结构,包括:生成器101第二评估模块106计算出判别器102的结构的第二参数β的对抗性损失,该对抗性损失用于通过梯度下降来对判别器102的结构进行性能评估,进而调整判别器102的结构。
同时,对于生成器101和判别器102的参数α以及β来说,使得参数α获得尽可能最小的数值,同时,使得参数β获得尽可能最大的数值。在计算并获得参数α和参数β的结果后,使得参数α和参数β之间保持平衡。
图3示出了本发明的实施例中的生成器101和判别器102的结构图。如图3所示,
生成器包括至少一个上采样单元,判别器包括至少一个下采样单元。其中,生成器101的上采样单元用于通过输入(0,1)的均匀噪声或高斯随机噪声生成图像,判别器102的下采样单元用于对输入的图像进行判别,确定是来自真实的图像还是由生成器生成的图像。例如,如果输入判别器的图像为真实图像,判别器输出“1”,若是生成器生成的图像,则判别器输出“0”。
图4示出了生成器101或者判别器102的中的上采样单元或者下采样单元结构图,如图4所示,以生成器101为例,其包括的一个上采样单元可以由N个有序的节点组成。这里的N可以是自然数。每一个节点将图像的图像特征作为输入值并输出处理过的图像特征。图4示出的上采样单元组由4个节点组成,每个节点可以由其先前的节点通过搜索算法从候选单元中进行选择来获得,其中,两个节点之间的可以存在一个连接,在两个节点之间存在连接的情况下,后一个结节可以将与其连接的前一个节点的输出值作为输入值。
也就是,通过搜索算法对每一个连接都选择一个操作。这里的操作将在下文进行表述。这里的节点指的是中间结果。连接是指操作。搜索过程就是为每个连接选择一个最优的操作。选择好后,就可以提取出最终的GAN网络的结构。如果两个节点之间没有连接,也就是两个节点断开,可以达到改变GAN网络的拓扑结构的作用。
对于判别器102的下采样单元,其包含的节点的数量可以与生成器101的上采样单元相同。
搜索空间除了包含用于构成生成器101的上采样单元和判别器102的下采样单元的节点之外,对于生成器101来说,上采样单元的节点之间在搜索空间中还包括以下7种操作:
1)无连接操作:节点之间没有连接;2)跳层连接操作:节点直接连接,没有经过任何操作;3)1×1的卷积操作,其中膨胀率=1;4)3×3的卷积操作,其中膨胀率=1;5)3×3的深卷积操作,其中膨胀率=2;6)5×5的卷积操作,其中膨胀率=1;7)5×5的卷积操作,其中膨胀率=2。
这里的无连接操作,表示两个相应节点之间没有操作,该操作用于更改单元所属的单元的拓扑结构。跳层连接操作表示,跳过连接操作。在操作的步长为1的情况下,它们可以保持空间分辨率。
这里的操作3)至7)表示可供候选的卷积操作,其中,膨胀率=1的卷积操作是指普通的卷积,膨胀率=2的卷积操作是指空洞卷积,用来增大操作的感受野。以输入数据为原始图像为例,这里的感受野表示通过空洞卷积使得GAN网络的不同节点对输入的原始图像的感受范围的大小,或者说,每一节点的中间结果上的像素点在原始图像上映射的区域大小。
对于生成器101,搜索空间还可以包括一系列上采样操作:1)3x3的转置卷积;2)最近邻插值3)双线性插值,这里的最近邻插值和双线性插值都属于特定的上采样操作。
对于判别器102,搜索空间可以包括一系列下采样操作:1)平均池操作;2)最大池操作;3)3x3的卷积操作,其中膨胀率=1;4)3×3的卷积操作,其中膨胀率=2;5)3×3的深卷积操作,其中膨胀率=1;6)5×5的卷积操作,其中膨胀率=2。
在本发明的实施例中,生成器101和判别器102的搜索空间的大小可以是1038。可以理解,这里的搜索空间大小是计算出来的。1038表示可以选择的GAN网络结构的搜索空间的数量。
下面介绍用语图像生成的GAN网络的生成器101以及判别器102的搜索算法。图5示出了搜索算法的过程,包括:
S501:收集图像的数据集,选出图像用作训练数据。
本发明的实施例中的关于图像的数据集,可以采用CIFAR-10数据集和STL-10数据集。CIFAR-10是一个包含普通物体的彩色图像数据集,一共包含10个类别的RGB彩色图片。STL-10的每一类有比CIFAR-10更少的标定的训练数据,但有非常大的未标记数据。其中,包括:自然图像,未经过GAN网络进行处理的图像;非自然图像,经过GAN网络进行处理得到的图像。训练图像,对GAN网络进行训练的图像。原始图像,用于GAN网络进行判别的图像,属于自然图像。
这里,可以随机地从CIFAR-10数据集和STL-10数据集中选出部分的图像作为训练数据。
S502:构建生成器101,将训练样本输入生成器101获取输出的图像。
对于生成器101的上采样单元中的搜索算法,通过一个函数及相互连接的节点,可以计算出第n个上采样单元中的节点xn,j,即xn,j=∑i馐jfn,i,j(xn,i)。这里的fn,i,j可以是一种离散分布取样的方法。如公式(1)所示
其中,of是噪声均匀分布(也可以是随机噪声的分布,例如高斯分布),也就是用于训练生成器101的上采样单元中的样本值。τ是激活函数中的激活概率(softmaxtemperature),也就是用于训练的学习率,它也可以是通过搜索算法获得的离散概率的分布,exp是以自然常数e为底的指数函数。
例如,在本申请的实施例中,可以通过Gumbel(0,1)(耿贝尔分布)生成of。是在第n个上采样单元的节点xn,j的连接i到j中选择特定连接的离散概率。其中,每个连接可以包含一个概率向量这种离散概率的分布pf还可以通过如下的softmax函数计算出的。
其中,α是可以通过训练获得的参数,也就是生成器101的参数。因此,通过公式(1)可以将搜索并获得生成器101的结构的方式转换为通过可训练的参数α,获取生成器101的结构中包含的上采样单元的节点之间每个连接的最优的概率向量的集合,并且可以从概率向量中得出生成器101的结构。
S503:构建判别器102,判断输入判别器102的图像是生成器101生成的图像或者来自于真实图像。
此外,同时使用搜索算法从搜索空间构建判别器102的下采样单元,这里可以采用与步骤S402中相同的方法,使用另一可学习的参数β来获得判别器102的结构。
这里,对于判别器102的下采样单元的搜索算法如公式(2)所示。与步骤S402中相同的是,是在第n个下采样单元的节点xn,j的连接i到j中选择特定连接的离散概率。这种离散概率的分布也是通过softmax函数计算出的。
S504:确定生成器101与判别器102之间的对抗性损失,通过使生成器101与判别器102之间的互相博弈,训练生成器101与判别器102。
通过上述两个搜索算法,可以通过可微分的方式训练参数α和β,并通过保留搜索空间中单元与单元之间概率最高的连接来获得生成器101以及判别器102的上采样单元和下采样单元。上述S502和S503中的n可以是生成器101以及判别器102中的互相对应的第n个上采样单元和下采样单元,也可以理解为是生成器101以及判别器102第n层的结构。在确定了生成器101以及判别器102第n层的结构后,对生成器101以及判别器102的结构对应的参数α和β进行计算以获得优化后的生成器101以及判别器102的结构。
在本申请的实施例中,为了保证了生成器101与判别器102之间的平衡性,在获得生成器101的参数α的同时,通过公式(3)获得生成器101的参数α对应的最优权重w*(α)。
在公式(3)中,使用训练数据,即验证集val和训练集train,来获取生成器101的参数α对应的最优权重w*(α)。Lval和Ltrain分别表示验证集和训练集的损失函数。这里的argmin函数用于表示给定的表达式的值达到其最小值。同理,argmax函数用于表示给定的表达式的值达到其最大值。结合公式(3)通过最小化验证集的损失函数Lval(w*,α),以及来通过最小化训练集损失Ltrain(w,α)确定生成器101的参数α,以获得生成器101的当前结构的最优权重w*(α)。可以理解,最优权重还可以通过梯度下降法,牛顿法和拟牛顿法等对损失函数进行优化的方法。需要说明的是,本发明的实施例中,对优化处理所采用的优化方法不进行任何的限制。
在确定了生成器101的的当前结构的最优权重w*(α)后,本申请的实施例中,通过使用生成器101和判别器102的结构之间互相博弈的方式,即通过在参数α以及β之间进行互相博弈,使得生成器101和判别器102之间保持平衡,以获取生成器101和判别器102的最优权重,实现对GAN网络的优化。参数α以及β的值V(α,β)之间进行互相博弈的算法如公式(4)所示。参数α以及β之间进行互相博弈可以通过minmax算法来实现,对于参数α以及β来说,minmax算法会使得参数α获得尽可能最小的数值,同时,使得参数β获得尽可能最大的数值。在计算并获得参数α和参数β的结果后,使得参数α和参数β之间保持平衡。
s.t.
其中,pdata(x)是数据分布(即训练数据中真实的图像的数据分布),例如,可以是上述训练集train,而pz是噪声均匀分布(即随机噪声的分布,例如高斯分布),用来提取随机向量作为GAN网络的输入,也就是生成器101的输入。表示参数β下判别器102的最优权重。E表示GAN网络的损失,也就是对抗性损失。可以通过真实数据的损失的最大值以及噪声均匀分布的损失来确定,其中,D(G())的形式用于描述判别器102对生成器101生成的图像对应的图像质量,比如该图像的真实度,可以通过0-1区间的概率值来确定。表示参数α下生成器101的最优权重。可以通过真实数据的损失的最小值来确定。通过和之间的最小-最大博弈使得和之间保持平衡。也就是使得获得尽可能最小的数值,同时,使得获得尽可能最大的数值,以获得生成器101和判别器102最终的参数α和参数β。
可以理解,生成器101和判别器102{α,β}的两个权重WG(α)和WD(β)不是最优权重的情况下,也可以通过WD和WG之间的最小-最大博弈使得生成器101和判别器102之间达到平衡,其算法如公式(5)所示。
对于生成器101来说通常希望公式(5)的值越小越好,公式(5)的值越小表示生成器101生成的图像与真实的图像更加接近;对于判别器102来说,则希望公式(5)的值越大越好,公式(5)的值越大表示判别器102可以更准确地分辨生成的图像和真实的图像。
表1
表1示出了通过本申请的GAN网络的构建方法(AdversarialNAS网络)与一些现有的构建方法的IS(Inception Score,起始得分)和FID(Frechet Inception Distancescore,距离得分)的性能参数。相比于其他方法,AdversarialNAS的搜索空间具有最大数量1038,与AutoGAN的搜索空间相比,大了几个数量级。此外,通过申请的GAN网络的构建方法花费1个GPU天的单位可以获得最优架构,而AGAN的方法在相同的搜索空间内需要花费1200个GPU天的单位才能获得最优架构。
对于CIFAR-10数据集,AdversarialNAS网络的距离得分为(10.87),起始得分(8.74±0.07)与渐进式GAN(Progressive GAN)的起始得分(8.80±0.05)接近,并且优于AutoGAN的起始得分(8.55±0.10)。同时,对于STL-10数据集,AdversarialNAS网络的起始得分(9.63)和距离得分(26.98)也远远优于其他的方法。
表2
表2列出了通过本申请的GAN网络的构建方法与一些现有的构建方法相比在IS和FID上的性能参数。其中的Random Search表示随机搜索;SingalNAS表示简单搜索算法;AutoGAN-D,SNGAN-D,Super-D以及Searched-D分别表示判别器的类型,自动GAN网络,归一化GAN网络,多维GAN网络以及本申请的GAN网络。
现在参考图6,所示为根据本申请的一个实施例的装置600的框图。图6示意性地示出了根据多个实施例的示例电子设备600。在一个实施例中,电子设备600可以包括一个或多个处理器604,与处理器604中的至少一个连接的系统控制逻辑608,与系统控制逻辑608连接的系统内存612,与系统控制逻辑608连接的非易失性存储器(NVM)616,以及与系统控制逻辑608连接的网络接口620。
在一些实施例中,处理器604可以包括一个或多个单核或多核处理器。在一些实施例中,处理器604可以包括通用处理器和专用处理器(例如,图形处理器,应用处理器,基带处理器等)的任意组合。在本申请的实施例中,处理器604用于执行GAN网络的构建方法。
在一些实施例中,系统控制逻辑608可以包括任意合适的接口控制器,以向处理器604中的至少一个和/或与系统控制逻辑608通信的任意合适的设备或组件提供任意合适的接口。
在一些实施例中,系统控制逻辑608可以包括一个或多个存储器控制器,以提供连接到系统内存612的接口。系统内存612可以用于加载以及存储数据和/或指令。在一些实施例中电子设备600的内存612可以包括任意合适的易失性存储器,例如合适的动态随机存取存储器(DRAM)。
NVM/存储器616可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中,NVM/存储器616可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备,例如HDD(Hard Disk Drive,硬盘驱动器),CD(Compact Disc,光盘)驱动器,DVD(Digital Versatile Disc,数字通用光盘)驱动器中的至少一个。
NVM/存储器616可以包括安装电子设备600的装置上的一部分存储资源,或者它可以由设备访问,但不一定是设备的一部分。例如,可以经由网络接口620通过网络访问NVM/存储616。
特别地,系统内存612和NVM/存储器616可以分别包括:指令624的暂时副本和永久副本。指令624可以包括:由处理器604中的至少一个执行时导致电子设备600上述方法的指令。在一些实施例中,指令624、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑608,网络接口620和/或处理器604中。
网络接口620可以包括收发器,用于为电子设备600提供无线电接口,进而通过一个或多个网络与任意其他合适的设备(如前端模块,天线等)进行通信。在一些实施例中,网络接口620可以集成于电子设备600的其他组件。例如,网络接口620可以集成于处理器604的,系统内存612,NVM/存储器616,和具有指令的固件设备(未示出)中的至少一种,当处理器604中的至少一个执行所述指令时,电子设备600实现如图4所示的方法。
网络接口620可以进一步包括任意合适的硬件和/或固件,以提供多输入多输出无线电接口。例如,网络接口620可以是网络适配器,无线网络适配器,电话调制解调器和/或无线调制解调器。
在一个实施例中,处理器604中的至少一个可以与用于系统控制逻辑608的一个或多个控制器的逻辑封装在一起,以形成系统封装(SiP)。在一个实施例中,处理器604中的至少一个可以与用于系统控制逻辑608的一个或多个控制器的逻辑集成在同一管芯上,以形成片上系统(SoC)。
电子设备600可以进一步包括:输入/输出(I/O)设备632。I/O设备632可以包括用户界面,使得用户能够与电子设备600进行交互;外围组件接口的设计使得外围组件也能够与电子设备600交互。在一些实施例中,电子设备600还包括传感器,用于确定与电子设备600相关的环境条件和位置信息的至少一种。
在一些实施例中,用户界面可包括但不限于显示器(例如,液晶显示器,触摸屏显示器等),扬声器,麦克风,一个或多个相机(例如,静止图像照相机和/或摄像机),手电筒(例如,发光二极管闪光灯)和键盘。
在一些实施例中,外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。
在一些实施例中,传感器可包括但不限于陀螺仪传感器,加速度计,近程传感器,环境光线传感器和定位单元。定位单元还可以是网络接口1420的一部分或与网络接口1420交互,以与定位网络的组件(例如,全球定位系统(GPS)卫星)进行通信。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (10)
1.一种网络结构的构建方法,其特征在于,所述方法包括:
构建所述网络结构,所述网络结构包括生成器和判别器;
基于随机噪声和样本数据,训练所述生成器和所述判别器,所述生成器包括第一生成单元,所述判别器包括第一判别单元;
获取所述生成器的第一生成器参数和所述判别器的第一判别器参数,调整所述第一生成器参数和所述第一判别器参数,直至所述第一生成器参数处于第一生成器数值范围以及所述第一判别器参数处于第一判别器数值范围时,使用所述第一生成器参数更新所述第一生成单元,使用所述第一判别器参数更新所述第一判别单元。
3.根据权利要求2所述的构建方法,其特征在于,基于随机噪声和样本数据,训练所述生成器和所述判别器,所述生成器包括第一生成单元,所述判别器包括第一判别单元,包括:基于随机噪声和样本数据,训练所述生成器和所述判别器,所述生成器用于基于所述随机噪声生成第一图像,所述判别器用于区分所述第一图像和所述样本数据。
4.根据权利要求3所述的构建方法,其特征在于,使用所述第一生成器参数更新所述第一生成单元,使用所述第一判别器参数更新所述第一判别单元之后,包括:获取所述生成器的第二生成器参数和所述判别器的第二判别器参数;
调整所述第二生成器参数和所述第二判别器参数,直至所述第二生成器参数处于第二生成器数值范围以及所述第二判别器参数处于第二判别器数值范围时,使用所述第二生成器参数更新所述第二生成单元,使用所述第二判别器参数更新所述第二判别单元。
5.根据权利要求1所述的构建方法,其特征在于,所述生成器和所述判别器各自包括至少两个生成单元和判别单元。
7.根据权利要求6所述的构建方法,其特征在于,所述第一生成器参数和所述第一判别器参数的互相博弈是最小-最大博弈。
8.根据权利要求7所述的构建方法,其特征在于,所述最小-最大博弈用于使得所述第一生成器参数趋向最小的同时,使得所述第一判别器参数趋向最大。
9.一种网络结构的构建装置,其特征在于,包括:
存储器,存储有指令;
处理器,所述处理器和存储器耦合,当所述存储器存储的程序指令被所述处理器执行时,使得所述装置执行权利要求1至8的网络结构的构建方法。
10.一种可读介质,所述可读介质中存储有指令,其特征在于,当所述指令在所述可读介质上运行时,使得所述可读介质执行权利要求1至8的网络结构的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494199.XA CN112508179A (zh) | 2020-12-17 | 2020-12-17 | 网络结构的构建方法、装置以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494199.XA CN112508179A (zh) | 2020-12-17 | 2020-12-17 | 网络结构的构建方法、装置以及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508179A true CN112508179A (zh) | 2021-03-16 |
Family
ID=74921705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011494199.XA Pending CN112508179A (zh) | 2020-12-17 | 2020-12-17 | 网络结构的构建方法、装置以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508179A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062899A (zh) * | 2019-10-30 | 2020-04-24 | 湖北工业大学 | 基于引导的生成对抗网络的眨眼视频生成方法 |
CN111191835A (zh) * | 2019-12-27 | 2020-05-22 | 国网辽宁省电力有限公司阜新供电公司 | 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统 |
US20200193272A1 (en) * | 2018-12-14 | 2020-06-18 | D-Wave Systems Inc. | Simulating and post-processing using a generative adversarial network |
CN111652822A (zh) * | 2020-06-11 | 2020-09-11 | 西安理工大学 | 一种基于生成对抗网络的单幅图像阴影去除方法及系统 |
CN111696066A (zh) * | 2020-06-13 | 2020-09-22 | 中北大学 | 基于改进wgan-gp的多波段图像同步融合与增强方法 |
CN111914945A (zh) * | 2020-08-18 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、图像生成方法及电子设备 |
-
2020
- 2020-12-17 CN CN202011494199.XA patent/CN112508179A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200193272A1 (en) * | 2018-12-14 | 2020-06-18 | D-Wave Systems Inc. | Simulating and post-processing using a generative adversarial network |
CN111062899A (zh) * | 2019-10-30 | 2020-04-24 | 湖北工业大学 | 基于引导的生成对抗网络的眨眼视频生成方法 |
CN111191835A (zh) * | 2019-12-27 | 2020-05-22 | 国网辽宁省电力有限公司阜新供电公司 | 基于c-gan迁移学习的ies不完备数据负荷预测方法及系统 |
CN111652822A (zh) * | 2020-06-11 | 2020-09-11 | 西安理工大学 | 一种基于生成对抗网络的单幅图像阴影去除方法及系统 |
CN111696066A (zh) * | 2020-06-13 | 2020-09-22 | 中北大学 | 基于改进wgan-gp的多波段图像同步融合与增强方法 |
CN111914945A (zh) * | 2020-08-18 | 2020-11-10 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、图像生成方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163234B (zh) | 一种模型训练方法、装置和存储介质 | |
US11314988B2 (en) | Image aesthetic processing method and electronic device | |
CN110782015A (zh) | 神经网络的网络结构优化器的训练方法、装置及存储介质 | |
CN113570029A (zh) | 获取神经网络模型的方法、图像处理方法及装置 | |
CN109993102B (zh) | 相似人脸检索方法、装置及存储介质 | |
CN109840530A (zh) | 训练多标签分类模型的方法和装置 | |
CN110197258A (zh) | 神经网络搜索方法、图像处理方法及装置、设备和介质 | |
CN108009600A (zh) | 模型优化、质量检测方法、装置、设备及存储介质 | |
CN106170800A (zh) | 经由输出分布来学习学生dnn | |
CN113298096B (zh) | 训练零样本分类模型的方法、系统、电子设备及存储介质 | |
CN110826609B (zh) | 一种基于强化学习的双流特征融合图像识别方法 | |
CN112561028A (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
CN111428854A (zh) | 一种结构搜索方法及结构搜索装置 | |
CN111512299A (zh) | 用于内容搜索的方法及其电子设备 | |
EP4315273A1 (en) | Adaptive use of video models for holistic video understanding | |
KR20220011208A (ko) | 신경망 트레이닝 방법, 비디오 인식 방법 및 장치 | |
CN111242176A (zh) | 计算机视觉任务的处理方法、装置及电子系统 | |
CN110866866B (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN111726592B (zh) | 获取图像信号处理器的架构的方法和装置 | |
CN110352418A (zh) | 通过消歧对话问题来进行查询消歧 | |
CN116821513A (zh) | 一种推荐场景下的参数搜索方法、装置、设备和介质 | |
CN112070205A (zh) | 一种多损失模型获取方法以及装置 | |
US20210042625A1 (en) | Performance of neural networks using learned specialized transformation functions | |
CN112508179A (zh) | 网络结构的构建方法、装置以及介质 | |
WO2022252596A1 (zh) | 构建ai集成模型的方法、ai集成模型的推理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |