CN108122033B - 神经网络的训练方法和通过该训练方法获得的神经网络 - Google Patents

神经网络的训练方法和通过该训练方法获得的神经网络 Download PDF

Info

Publication number
CN108122033B
CN108122033B CN201611079401.6A CN201611079401A CN108122033B CN 108122033 B CN108122033 B CN 108122033B CN 201611079401 A CN201611079401 A CN 201611079401A CN 108122033 B CN108122033 B CN 108122033B
Authority
CN
China
Prior art keywords
node
training
value
neural network
probability value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611079401.6A
Other languages
English (en)
Other versions
CN108122033A (zh
Inventor
沙浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN201611079401.6A priority Critical patent/CN108122033B/zh
Publication of CN108122033A publication Critical patent/CN108122033A/zh
Application granted granted Critical
Publication of CN108122033B publication Critical patent/CN108122033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种神经网络的训练方法和神经网络。该方法包括:对输入的一组训练样本重复进行多次运算处理,每次运算处理包含:对于每个激活节点,根据选择概率值,随机地从线性运算和非线性运算之中选择出第一选择结果,来进行第一次网络训练,以获得第一训练损失值;对于每个激活节点,根据选择概率值,随机地从线性运算和非线性运算之中选择出第二选择结果,来进行第二次网络训练,以获得第二训练损失值;当第一训练损失值小于第二训练损失值时,增加每个感兴趣节点的第一选择结果的概率值;以及当第二训练损失值小于等于第一训练损失值时,增加每个感兴趣节点的第二选择结果的概率值。本发明通过引入随机性,提高了神经网络的精度。

Description

神经网络的训练方法和通过该训练方法获得的神经网络
技术领域
本发明涉及深度学习领域,更具体地,涉及一种神经网络的训练方法和通过该训练方法获得的神经网络。
背景技术
深度学习,即深度神经网络,是近年来的研究热点之一。深度神经网络与传统神经网络相比没有大的理论改进,最主要的特点是增加了网络的深度或者说增加了网络的层数,同时更得力于大规模数据与高性能的计算硬件的普及。具有标志性的事件是,深度学习在2013年的ImageNet图片分类比赛中对于非深度学习方法取得压倒性优势,从而获得研究者的广泛关注。近年来深度学习方法在图像、语音、自然语言处理等领域均取得了突破性发展。在图像领域,对于图片分类任务,深度神经网络已经取得接近人眼的分辨力;在语音识别、语音合成等语音信号处理领域,深度神经网络已经完全取代了传统的算法;在自然语言处理,深度神经网络从2015年开始,已经处于研究热点地位。另外,深度神经网络,也越来越多的在通用人工智能领域取得应用,如DeepMind公司设计的AlphaGo已经可以打败人类棋手。
目前工程实践中针对不同应用,深度神经网络大致可以分为三种类型。第一种,卷积神经网络(CNN),卷积神经网络主要用于图像处理领域,可以获得图像中局部像素之间的特定特征。第二种,循环神经网络(RNN),可以获得时序信号上的特定特征,主要用于自然语言处理、语音处理等领域。第三种,策略网络(Policy network),可以根据当前的策略状态来生成当前策略下的最优策略。对于这些各种不同的应用,各种不同的网络,从理论与程序设计上又最终都可以归结为传统的经典单层神经网络。
在工程应用上,经典单层神经网络可以归结为输入值、权值系数、线性激活值和非线性激活值。其中,输入值、线性激活值和非线性激活值均为向量,以及权值系数为矩阵。
在经典单层神经网络的训练阶段,首先,通过权值系数对输入的一组训练样本(即,输入值)进行线性运算,以获得线性激活值;然后,利用非线性函数对获得的线性激活值进行非线性运算,以获得非线性激活值,从而得到训练损失值,即非线性激活值和输入值之间的差值。通过多次重复运算,不断地调整经典单层神经网络的权值系数的值,以使得训练样本的训练损失值变小,从而达到拟合数据的目的。从直观上理解,小的训练损失值往往代表着更佳的网络性能。
图1显示了传统的经典单层神经网络的结构示意图。为了简化,图1仅显示了具有三个激活节点1-3的简单的经典单层神经网络,并且忽略了神经网络的偏置输入。
在图1所示的经典单层神经网络中,向量X1、X2、X3构成输入值
Figure BDA0001166576350000021
表示输入到经典单层神经网络中的一组训练样本;向量Y1、Y2、Y3构成线性激活值
Figure BDA0001166576350000022
其中向量Y1表示激活节点1的线性激活值,向量Y2表示激活节点2的线性激活值,以及向量Y3表示激活节点3的线性激活值;向量O1、O2、O3构成非线性激活值
Figure BDA0001166576350000023
其中向量O1表示激活节点1的非线性激活值,向量O2表示激活节点2的非线性激活值,以及向量O3表示激活节点3的非线性激活值。
假设权值系数W为:
Figure BDA0001166576350000024
按照下述公式(1),来计算线性激活值
Figure BDA0001166576350000025
Figure BDA0001166576350000026
上述公式(1)可以被具体展开为:
W11*X1+W21*X2+W31*X3=Y1 (2)
W12*X1+W22*X2+W32*X3=Y2 (3)
W13*X1+W23*X2+W33*X3=Y3 (4)
然后,利用sigmoid函数,按照下述公式(5)来计算非线性激活值
Figure BDA0001166576350000027
Figure BDA0001166576350000028
上述公式(5)可以被具体展开为:
sigmoid(Y1)=O1 (6)
sigmoid(Y2)=O2 (7)
sigmoid(Y3)=O3 (8)
图1所示的经典单层神经网络,可以被视为各种深度神经网络的基本运算单元。诸如CNN、RNN等的各种复杂的深度神经网络都可以被转换为这种基本运算单元。
在传统的经典单层神经网络的基础上,为了进一步改进的性能,本发明提出了一种改进的神经网络的训练方法以及通过该训练方法获得的神经网络,以进一步改进神经网络的性能。
发明内容
本发明提出了一种神经网络的训练方法以及通过该训练方法获得的神经网络。通过本发明的训练方法获得的神经网络具有更强的非线性表达能力,并且带有随机性。
根据本发明的一个方面,提供一种神经网络的训练方法,所述训练方法包括:
将一组训练样本输入到所述神经网络中,并且对输入的所述训练样本重复进行多次运算处理,每次运算处理包含以下步骤:
对于所述神经网络中的每个激活节点,根据所述每个激活节点的选择概率值,随机地从线性运算和非线性运算之中选择出所述每个激活节点的第一选择结果,并且根据所述每个激活节点的所述第一选择结果,来对所述训练样本进行第一次网络训练,以获得第一训练损失值,其中所述每个激活节点的所述选择概率值包括选择所述线性运算的概率值和选择所述非线性运算的概率值,并且选择所述线性运算的概率值和选择所述非线性运算的概率值之和等于1;
对于所述每个激活节点,根据所述每个激活节点的所述选择概率值,随机地从所述线性运算和所述非线性运算之中选择出所述每个激活节点的第二选择结果,并且根据所述每个激活节点的所述第二选择结果,来对所述训练样本进行第二次网络训练,以获得第二训练损失值;
将所述第一训练损失值与所述第二训练损失值进行比较;
当所述第一训练损失值小于所述第二训练损失值时,将所述第一选择结果与所述第二选择结果不同的激活节点确定为感兴趣节点,并且以相等的增加值,增加每个所述感兴趣节点的所述第一选择结果的概率值,以更新所述每个激活节点的所述选择概率值;以及
当所述第二训练损失值小于等于所述第一训练损失值时,将所述第一选择结果与所述第二选择结果不同的所述激活节点确定为所述感兴趣节点,并且以相等的所述增加值,增加每个所述感兴趣节点的所述第二选择结果的概率值,以更新所述每个激活节点的所述选择概率值;
其中,所述每个激活节点的所述选择概率值的初始值被设定成选择所述线性运算的概率值等于选择所述非线性运算的概率值,并且更新后的所述每个激活节点的所述选择概率值将被用于下一次运算处理。
进一步地,所述增加值在0.01~0.0001的范围内。
进一步地,所述非线性运算采用Sigmoid函数。
进一步地,所述非线性运算采用tanh函数。
根据本发明的另一个方面,提供一种神经网络,所述神经网络通过采用本发明的训练方法来获得,并且在使用所述神经网络时,对于所述神经网络中的所述每个激活节点,采用所述线性运算和所述非线性运算之中概率值高的运算。
本发明通过增加神经网络中的每个激活节点的非线性表达能力,并且为神经网络中的每个激活节点引入随机性,来提高神经网络的精度。
附图说明
图1显示了传统的经典单层神经网络的结构示意图;
图2显示了根据本发明实施例的单层神经网络的结构示意图;
图3显示了根据本发明实施例的训练方法中的一次运算处理的流程图;
具体实施方式
下面将参考附图描述根据本发明的各种实施例。
图2显示了根据本发明实施例的单层神经网络的结构示意图。与图1中显示的传统的经典单层神经网络相类似,为了简化,图2仅显示了具有三个激活节点1-3的简单的单层神经网络,并且忽略了神经网络的偏置输入。本领域的技术人员可以理解的是,激活节点的数量并不局限于这里给出的三个激活节点,而可以是任何数量。
在图2所示的本发明的神经网络中,向量X1、X2、X3构成输入值
Figure BDA0001166576350000041
表示输入到本发明的神经网络中的一组训练样本;向量Y1、Y2、Y3构成激活值
Figure BDA0001166576350000042
其中向量Y1表示激活节点1的激活值,向量Y2表示激活节点2的激活值,以及向量Y3表示激活节点3的激活值。
在图2中,虽然只显示了一组训练样本由三个向量X1、X2、X3构成,但是本领域的技术人员可以理解的是,构成一组训练样本的向量数量并不局限于三个,而可以是任何数量。
下面将参考图3并结合图2来描述根据本发明实施例的神经网络的训练方法。
在根据本发明实施例的神经网络的训练方法中,首先,将一组训练样本输入到神经网络中,并且接着,对输入的训练样本重复进行多次运算处理。要进行的运算处理的次数可以被预先任意设定。一般来说,进行的运算处理的次数越多,获得的神经网络的精度相对越高。
图3显示了根据本发明实施例的训练方法中的一次运算处理的流程图。
如图3所示,首先,在步骤S301中,对于神经网络中的每个激活节点,根据每个激活节点的选择概率值,随机地从线性运算和非线性运算之中选择出每个激活节点的第一选择结果,并且根据每个激活节点的第一选择结果,来对训练样本进行第一次网络训练,以获得第一训练损失值。其中,每个激活节点的选择概率值包括选择线性运算的概率值和选择非线性运算的概率值,并且选择线性运算的概率值和选择非线性运算的概率值之和等于1。
假设神经网络中共有N个激活节点。对于每个激活节点,均可以随机地从两种运算方法中选择出一种运算方法来计算激活值。一种运算方式为线性运算YN(1),该线性运算YN(1)与图1中所示的传统的经典单层神经网络中的线性运算相同。另一种运算方式是非线性运算YN(2)。
对于第N个激活节点,按照第N个激活节点的选择概率值,随机地从线性运算YN(1)和非线性运算YN(2)中,选择出一种运算方法来计算第N个激活节点1的激活值YN,并且选择出的那种运算方法将被记为第N个激活节点的第一选择结果CN。CN是向量。
第N个激活节点的选择概率值包括选择线性运算YN(1)的概率值PN以及选择非线性运算YN(2)的概率值1-PN。在进行第一次运算处理时,PN的初始值为0.5,即选择线性运算YN(1)的概率值等于选择非线性运算YN(2)的概率值。
下面以图2中所示的神经网络为例进行详细说明。
假设权值系数W为:
Figure BDA0001166576350000051
对于激活节点1,按照激活节点1的选择概率值,随机地从由下述公式(9)表示的线性运算Y1(1)和由下述公式(10)表示的非线性运算Y1(2)中,选择出一种运算方法来计算激活节点1的激活值Y1,并且选择出的那种运算方法将被记为激活节点1的第一选择结果C1
W11*X1+W21*X2+W31*X3=Y1(1) (9)
f(W11*X1)+f(W21*X2)+f(W31*X3)=Y1(2) (10)
激活节点1的选择概率值包括选择线性运算Y1(1)的概率值以及选择非线性运算Y1(2)的概率值。其中,选择线性运算Y1(1)的概率值为P1,选择非线性运算Y1(2)的概率值为1-P1
同样地,对于激活节点2,按照激活节点2的选择概率值,随机地从由下述公式(11)表示的线性运算Y2(1)和由下述公式(12)表示的非线性运算Y2(2)中,选择出一种运算方法来计算激活节点2的激活值Y2,并且选择出的那种运算方法将被记为激活节点1的第一选择结果C2
W12*X1+W22*X2+W32*X3=Y2(1) (11)
f(W12*X1)+f(W22*X2)+f(W32*X3)=Y2(2) (12)
激活节点2的选择概率值包括选择线性运算Y2(1)的概率值以及选择非线性运算Y2(2)的概率值。其中,选择线性运算Y2(1)的概率值为P2,选择非线性运算Y2(2)的概率值为1-P2
同样地,对于激活节点3,按照激活节点3的选择概率值,随机从由下述公式(13)表示的线性运算Y3(1)和由下述公式(14)表示的非线性运算Y3(2)中,选择出一种运算方法来计算激活节点3的激活值Y3,并且选择出的那种运算方法将被记为激活节点1的第一选择结果C3
W13*X1+W23*X2+W33*X3=Y3(1) (13)
f(W13*X1)+f(W23*X2)+f(W33*X3)=Y3(2) (14)
激活节点3的选择概率值包括选择线性运算Y3(1)的概率值以及选择非线性运算Y3(2)的概率值。其中,选择线性运算Y3(1)的概率值为P3,选择非线性运算Y3(2)的概率值为1-P3
在上述公式(10)、(12)和(14)中,f表示所采用的非线性函数。在本发明中,非线性运算中所采用的非线性函数可以是各种常用的非线性函数。例如,可以采用sigmoid函数、tanh函数等。
sigmoid函数的形式为:
Figure BDA0001166576350000061
tanh函数形式为:
Figure BDA0001166576350000062
根据每个激活节点的第一选择结果,来对训练样本进行第一次网络训练,以获得第一训练损失值。
接着,在步骤S302中,对于每个激活节点,根据每个激活节点的选择概率值,随机地从线性运算和非线性运算之中选择出每个激活节点的第二选择结果,并且根据每个激活节点的第二选择结果,来对训练样本进行第二次网络训练,以获得第二训练损失值。
步骤S302中的处理与步骤S301中的处理相同。也即是说,对于第N个激活节点,按照第N个激活节点的选择概率值,再次随机地从线性运算YN(1)和非线性运算YN(2)中,选择出一种运算方法来计算第N个激活节点1的激活值YN,并且选择出的那种运算方法将被记为第N个激活节点的第二选择结果C′N
根据每个激活节点的第二选择结果,来对训练样本进行第二次网络训练,以获得第二训练损失值。
接着,在步骤S303中,将第一训练损失值与第二训练损失值进行比较。
当第一训练损失值小于第二训练损失值时(步骤S303中的“是”),在步骤S304中,将第一选择结果CN与第二选择结果C′N不同的激活节点确定为感兴趣节点,并且以相等的增加值,增加每个感兴趣节点的第一选择结果CN的概率值,以更新每个激活节点的选择概率值。
当感兴趣节点的第一选择结果CN为线性运算时,增加PN值。当感兴趣节点的第一选择结果CN为非线性运算时,减少PN值。
当第二训练损失值小于等于第一训练损失值时(步骤S303中的“否”),在步骤S305中,将第一选择结果CN与第二选择结果C′N不同的激活节点确定为感兴趣节点,并且以相等的增加值,增加每个感兴趣节点的第二选择结果C′N的概率值,以更新每个激活节点的选择概率值。
当感兴趣节点的第二选择结果C′N为线性运算时,增加PN值。当感兴趣节点的第二选择结果C′N为非线性运算时,减少PN值。增加值可以在0.01~0.0001的范围内。
更新后的每个激活节点的选择概率值将被用于下一次运算处理。
在通过本发明的训练方法获得的神经网络的实际使用阶段,不再采用随机选择运算的模式,而是采用固定运算的模式。也就是说,对于第N个激活节点,如果PN大于0.5,则选择线性运算,否则选择非线性运算。
另外,相对于图1所示的传统的经典单层神经网络而言,由于本发明所提出的神经网络对YN的计算方法进行了改进,因此,可以去掉ON的计算(如图2所示),也可以不去掉ON的计算。在去掉ON的计算的神经网络结构中,在深度神经网络中,可以采用直接连BN(BatchNormalization)层的形式。
虽然经过对本发明结合具体实施例进行描述,对于本领域的技术技术人员而言,根据上文的叙述后作出的许多替代、修改与变化将是显而易见。因此,当这样的替代、修改和变化落入附后的权利要求的精神和范围之内时,应该被包括在本发明中。

Claims (5)

1.一种神经网络的训练方法,其特征在于,所述训练方法包括:
将一组训练样本输入到所述神经网络中,并且对输入的所述训练样本重复进行多次运算处理,每次运算处理包含以下步骤:
对于所述神经网络中的每个激活节点,根据所述每个激活节点的选择概率值,随机地从线性运算和非线性运算之中选择出所述每个激活节点的第一选择结果,并且根据所述每个激活节点的所述第一选择结果,来对所述训练样本进行第一次网络训练,以获得第一训练损失值,其中所述每个激活节点的所述选择概率值包括选择所述线性运算的概率值和选择所述非线性运算的概率值,并且选择所述线性运算的概率值和选择所述非线性运算的概率值之和等于1;
对于所述每个激活节点,根据所述每个激活节点的所述选择概率值,随机地从所述线性运算和所述非线性运算之中选择出所述每个激活节点的第二选择结果,并且根据所述每个激活节点的所述第二选择结果,来对所述训练样本进行第二次网络训练,以获得第二训练损失值;
将所述第一训练损失值与所述第二训练损失值进行比较;
当所述第一训练损失值小于所述第二训练损失值时,将所述第一选择结果与所述第二选择结果不同的激活节点确定为感兴趣节点,并且以相等的增加值,增加每个所述感兴趣节点的所述第一选择结果的概率值,以更新所述每个激活节点的所述选择概率值;以及
当所述第二训练损失值小于等于所述第一训练损失值时,将所述第一选择结果与所述第二选择结果不同的所述激活节点确定为所述感兴趣节点,并且以相等的所述增加值,增加每个所述感兴趣节点的所述第二选择结果的概率值,以更新所述每个激活节点的所述选择概率值;
其中,所述每个激活节点的所述选择概率值的初始值被设定成选择所述线性运算的概率值等于选择所述非线性运算的概率值,并且更新后的所述每个激活节点的所述选择概率值将被用于下一次运算处理。
2.如权利要求1所述的训练方法,其特征在于,所述增加值在0.01~0.0001的范围内。
3.如权利要求1或2所述的训练方法,其特征在于,所述非线性运算采用Sigmoid函数。
4.如权利要求1或2所述的训练方法,其特征在于,所述非线性运算采用tanh函数。
5.一种神经网络,其特征在于,所述神经网络通过采用如权利要求1-4中任一项所述的训练方法来获得,并且在使用所述神经网络时,对于所述神经网络中的所述每个激活节点,采用所述线性运算和所述非线性运算之中概率值高的运算。
CN201611079401.6A 2016-11-30 2016-11-30 神经网络的训练方法和通过该训练方法获得的神经网络 Active CN108122033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611079401.6A CN108122033B (zh) 2016-11-30 2016-11-30 神经网络的训练方法和通过该训练方法获得的神经网络

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611079401.6A CN108122033B (zh) 2016-11-30 2016-11-30 神经网络的训练方法和通过该训练方法获得的神经网络

Publications (2)

Publication Number Publication Date
CN108122033A CN108122033A (zh) 2018-06-05
CN108122033B true CN108122033B (zh) 2022-09-16

Family

ID=62225999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611079401.6A Active CN108122033B (zh) 2016-11-30 2016-11-30 神经网络的训练方法和通过该训练方法获得的神经网络

Country Status (1)

Country Link
CN (1) CN108122033B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919302B (zh) * 2019-02-28 2021-11-02 新华三技术有限公司 一种用于图像的神经网络的训练方法及装置
CN112116912B (zh) * 2020-09-23 2024-05-24 平安国际智慧城市科技股份有限公司 基于人工智能的数据处理方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN103413174A (zh) * 2013-08-30 2013-11-27 哈尔滨工业大学 基于深度学习方法的短期风速多步预测方法
CN103473558A (zh) * 2013-09-04 2013-12-25 深圳先进技术研究院 基于神经网络的图像识别方法和系统
CN104598611A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 对搜索条目进行排序的方法及系统
CN104700153A (zh) * 2014-12-05 2015-06-10 江南大学 基于模拟退火优化BP神经网络的pH值预测方法
CN104881685A (zh) * 2015-05-27 2015-09-02 清华大学 基于捷径深度神经网络的视频分类方法
US9129190B1 (en) * 2013-12-04 2015-09-08 Google Inc. Identifying objects in images

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9390370B2 (en) * 2012-08-28 2016-07-12 International Business Machines Corporation Training deep neural network acoustic models using distributed hessian-free optimization
US9620145B2 (en) * 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
CN103413174A (zh) * 2013-08-30 2013-11-27 哈尔滨工业大学 基于深度学习方法的短期风速多步预测方法
CN103473558A (zh) * 2013-09-04 2013-12-25 深圳先进技术研究院 基于神经网络的图像识别方法和系统
US9129190B1 (en) * 2013-12-04 2015-09-08 Google Inc. Identifying objects in images
CN104700153A (zh) * 2014-12-05 2015-06-10 江南大学 基于模拟退火优化BP神经网络的pH值预测方法
CN104598611A (zh) * 2015-01-29 2015-05-06 百度在线网络技术(北京)有限公司 对搜索条目进行排序的方法及系统
CN104881685A (zh) * 2015-05-27 2015-09-02 清华大学 基于捷径深度神经网络的视频分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"How to Initialize the CNN for small datasets: Extracting Discriminative Filters From Pre-trained Model";Guanwen Zhang et al.;《2015 3rd IAPR Asian Conference on Pattern Recognition》;20151230;全文 *

Also Published As

Publication number Publication date
CN108122033A (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
Goceri Analysis of deep networks with residual blocks and different activation functions: classification of skin diseases
He et al. Asymptotic soft filter pruning for deep convolutional neural networks
CN107529650B (zh) 闭环检测方法、装置及计算机设备
Liang et al. A fast and accurate online sequential learning algorithm for feedforward networks
CN109754078A (zh) 用于优化神经网络的方法
Xie et al. Advanced dropout: A model-free methodology for bayesian dropout optimization
CN107563407B (zh) 一种面向网络空间多模态大数据的特征表示学习系统
CN112215353B (zh) 一种基于变分结构优化网络的通道剪枝方法
CN108122033B (zh) 神经网络的训练方法和通过该训练方法获得的神经网络
Wang et al. Optimization-based post-training quantization with bit-split and stitching
Lee et al. Ensembles of Lasso screening rules
CN115860100A (zh) 一种神经网络模型训练方法、装置及计算设备
CN110633417B (zh) 一种基于服务质量的web服务推荐的方法及系统
Dai et al. Fast-uap: An algorithm for expediting universal adversarial perturbation generation using the orientations of perturbation vectors
TWI770967B (zh) 一種神經網路的訓練方法、視頻識別方法及電腦設備和電腦可讀儲存介質
Han Residual learning based CNN for gesture recognition in robot interaction
WO2019142241A1 (ja) データ処理システムおよびデータ処理方法
KR20190105368A (ko) 심층신경망 모델의 선형 근사화 방법 및 장치
CN112259228A (zh) 一种动态注意力网络非负矩阵分解的抑郁症筛选方法
Lavaei et al. Dynamic analysis of structures using neural networks
Chieng et al. Parametric flatten-T Swish: an adaptive non-linear activation function for deep learning
Huang et al. Flow of renyi information in deep neural networks
Zhao et al. Exploiting channel similarity for network pruning
Banerjee Current status data in the twenty-first century: Some interesting developments
Shah et al. A-MnasNet: augmented MnasNet for computer vision

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant