CN104794527B - 基于卷积神经网络的分类模型构建方法和设备 - Google Patents

基于卷积神经网络的分类模型构建方法和设备 Download PDF

Info

Publication number
CN104794527B
CN104794527B CN201410024775.2A CN201410024775A CN104794527B CN 104794527 B CN104794527 B CN 104794527B CN 201410024775 A CN201410024775 A CN 201410024775A CN 104794527 B CN104794527 B CN 104794527B
Authority
CN
China
Prior art keywords
convolution
training
layer
stage
feature integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410024775.2A
Other languages
English (en)
Other versions
CN104794527A (zh
Inventor
吴春鹏
范伟
何源
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201410024775.2A priority Critical patent/CN104794527B/zh
Publication of CN104794527A publication Critical patent/CN104794527A/zh
Application granted granted Critical
Publication of CN104794527B publication Critical patent/CN104794527B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

公开了一种基于卷积神经网络的分类模型构建方法和设备,该方法包括:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。根据本公开,可以减少训练样本时使用的权值数量,减轻过拟合问题,从而提高卷积神经网络的泛化能力。

Description

基于卷积神经网络的分类模型构建方法和设备
技术领域
本公开涉及分类模型构建,更具体地,涉及一种基于卷积神经网络(CNN)的分类模型构建方法和设备。
背景技术
卷积神经网络(CNN)是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。
传统卷积神经网络的卷积层通常具有几十万到几百万个权值需要学习,同时训练时采用的梯度下降算法在后向传播过程中存在“梯度消失”的问题(即越往前一层梯度的调节量就越小),这就导致大量的权值得不到充分学习。为了达到比较好的训练效果,传统卷积神经网络通常需要大量的训练样本,例如,当类别个数远远小于每类训练样本个数时效果较好。但当训练样本数量有限时,传统卷积神经网络容易出现过拟合的问题,导致训练出的模型的实际泛化能力不佳。
同时,传统卷积神经网络中的采样层只从每个特征图上的每个局部区域中提取最大值,这样做减小了计算量,但导致信息过度损失,因为局部区域里的较小值也可以反映这个区域的部分特征。
例如,图1示出了传统卷积神经网络的示意图。其中,方框中的数字“6”为输入图像,并且图中的每一个方框表示对输入图像执行特定操作(诸如滤波操作、卷积操作以及空间最大采样操作)之后得到的特征图。传统地,在对传统卷积神经网络进行训练时,首先随机给定网络中的参数(例如,卷积模板值)并输入训练样本,然后以前向传播经过多次重复的卷积操作、空间最大采样操作和全连接操作之后,在输出层得到识别结果的置信度,并根据该置信度与预定真值的误差进行后向传播,例如以经典的梯度下降算法对给定的网络参数进行优化。如此重复进行操作,直到输出层的置信度与预定真值的误差满足预定阈值。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上情形,本公开的目的是提供一种能够通过减轻过拟合的问题而提高神经网络的泛化能力同时避免信息过度损失的基于卷积神经网络的分类模型构建方法和设备。
根据本公开的一方面,提供了一种基于卷积神经网络的分类模型构建方法,包括:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。
根据本公开的优选实施例,基于卷积神经网络的分类模型构建方法还包括:特征整合步骤,以特定整合方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而得到包括卷积模板值的分类模型,其中,以特定整合方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前采样层,基于与当前采样层相邻的上一层的多个特征图中的元素得到当前采样层的特征图中的元素。
根据本公开的优选实施例,在特征整合步骤中,以取最大值的特征整合方式、取最小值的特征整合方式、取中间值的特征整合方式或者以取随机值的特征整合方式从与当前采样层相邻的上一层的多个特征图中选择元素以得到当前采样层的特征图中的元素。
根据本公开的优选实施例,在以随机卷积方式和特定整合方式对训练样本进行第一阶段训练以使得所得到的卷积模板值满足第一预定条件之后,利用卷积模板值,在卷积步骤中以传统卷积方式以及在特征整合步骤中以特定整合方式对训练样本继续进行第二阶段训练,以使得所得到的卷积模板值满足第二预定条件。
根据本公开的优选实施例,在第二阶段训练的特征整合步骤中所采用的特征整合方式与第一阶段训练的特征整合步骤中所采用的特征整合方式相同。
根据本公开的优选实施例,在第一训练阶段和第二训练阶段中,对于在特征整合步骤中未被选择的元素,当利用梯度下降算法进行后向传播时,不对未被选择的元素进行后向传播。
根据本公开的优选实施例,对于每个采样层,用于该采样层的所有特征图中的元素的特征整合方式是相同的。
根据本公开的优选实施例,对于每个卷积层,用于该卷积层上的所有特征图中的元素的预定概率阈值是相同的。
根据本公开的优选实施例,在第一训练阶段中,对于在卷积步骤中被打断的连接,当利用梯度下降算法进行后向传播时,不对被打断的连接进行后向传播。
根据本公开的另一方面,还公开了一种基于卷积神经网络的分类模型构建设备,包括:卷积单元,被配置成以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。
根据本公开的另一方面,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行以下步骤:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。
根据本公开的另一方面,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行以下步骤:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出传统卷积神经网络的结构示例的示意图;
图2是示出根据本公开的实施例的卷积神经网络的结构示例的示意图;
图3是示出根据本公开的实施例的基于卷积神经网络的分类模型构建方法的过程示例的流程图;
图4A至图4D是用于说明传统卷积神经网络中的卷积操作的示意图;
图5A至图5D是用于说明根据本公开的实施例的卷积神经网络中的随机卷积操作的示意图;
图6是用于说明传统卷积神经网络中的空间最大采样操作的示意图;
图7是用于说明根据本公开的实施例的卷积神经网络中的特征整合操作的示意图;
图8是示出根据本公开的实施例的基于两阶段训练的分类模型构建方法的过程示例的流程图;
图9是示出根据本公开的实施例的基于卷积神经网络的分类模型构建设备的功能配置示例的框图;以及
图10是示出作为本公开的实施例中可采用的信息处理设备的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
下面将参照图2至图10描述本公开的实施例。首先,将参照图2描述根据本公开的实施例的卷积神经网络的结构示例。图2是示出根据本公开的实施例的卷积神经网络的结构示例的示意图。
如图2所示,与图1所示的传统卷积神经网络的结构相比,二者的差别在于,在根据本公开的实施例的卷积神经网络中,可将卷积层的传统卷积操作修改为稍后将参照图5A至图5D详细描述的随机卷积操作。此外,可选地,还可将采样层的传统空间最大采样操作修改为稍后将参照图7描述的特征整合操作。
在根据本公开的卷积神经网络中,通过采用随机卷积操作,可以减少每个样本训练时使用的权值数量,从而有利于减轻过拟合的问题,提高神经网络的泛化能力。此外,优选地,通过进一步取代传统空间最大采样操作而采用根据本公开的特征整合操作,可以避免信息的过度损失。在下文中,将分别详细描述随机卷积操作和特征整合操作。
接下来,将参照图3描述根据本公开的实施例的基于卷积神经网络的分类模型构建方法。图3是示出根据本公开的实施例的基于卷积神经网络的分类模型构建方法的过程示例的流程图。
如图3所示,根据本公开的实施例的基于卷积神经网络的分类模型构建方法300可包括卷积步骤S302。
在卷积步骤S302中,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型。在对样本进行训练时,例如,首先按照前向传播得到输出层的值,然后按照输出层的值与真值的误差进行后向传播,采用经典的梯度下降算法进行优化。
优选地,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。
下面将参照图4A至图5D详细描述卷积步骤S302中的操作。
在图4A至图5D中,特征图F1、F2和F3例如是图1和图2所示的卷积神经网络结构图的一部分,其中,假设特征图F1和F2位于第L层,并且特征图F3位于第L+1层。在各个特征图中,每个圆圈表示一个神经元。w值表示要学习的权值,初始进行学习时的w值可以是预先随机给定的值,并且所有的w值构成卷积模板值并且在神经网络训练过程中通过后向传播进行学习。应理解,尽管在本公开的实施例中卷积模板的大小为2×2,但是这仅是示例而非限制,并且本领域技术人员可根据需要使用任意大小的卷积模板。
首先,将参照图4A至图4D描述传统卷积神经网络中的卷积操作。图4A至图4D是用于说明传统卷积神经网络中的卷积操作的示意图。
如图4A至图4D所示,第L+1层的神经元响应值是通过在第L层施加滑动窗口(这里大小例如为2×2)并将L层的滑动窗口中的神经元响应值与卷积模板值对应相乘而得到的。
作为示例,根据图4A至图4D,特征图F3中的神经元响应值T1至T4的计算公式例如可分别如下所示:
T1=Func(w1*S1+w2*S2+w3*S4+w4*S5+w5*S10+w6*S11+w7*S13+w8*S14)+b…(1)
T2=Func(w1*S2+w2*S3+w3*S5+w4*S6+w5*S11+w6*S12+w7*S14+w8*S15)+b…(2)
T3=Func(w1*S4+w2*S5+w3*S7+w4*S8+w5*S13+w6*S14+w7*S16+w8*S17)+b…(3)
T4=Func(w1*S5+w2*S6+w3*S8+w4*S9+w5*S14+w6*S15+w7*S17+w8*S18)+b…(4)
在公式(1)至(4)中,函数Func()表示非线性变换函数,例如可以为sigmoid函数或双曲正切函数,b表示偏置项并且在神经网络训练过程中通过后向传播进行学习。
接下来,将参照图5A至图5D描述根据本公开的实施例的随机卷积操作。图5A至图5D是用于说明根据本公开的实施例的卷积神经网络中的随机卷积操作的示意图。
在神经网络的训练过程中,每输入一个训练样本(例如一个图像),可随机地打断神经网络中的至少一个随机卷积层上的神经元节点的连接,其中,图5A至图5D中的“×”表示该连接被打断。
具体地,仍以图1和图2中的特征图F1至F3为例来说明根据本公开的随机卷积操作。例如,对于特征图F3上的神经元T1,其共有两个输入连接,对于其中的每一个连接,可按照例如(0,1)区间上的均匀分布的取值来确定是否打断连接。例如,如果均匀分布的取值小于预定概率阈值,则打断该连接,否则保持该连接。该预定概率阈值可根据实际情况而进行调整以提高或降低打断概率,从而使得权值得到充分的学习。
这里,应指出,这里的(0,1)均匀分布仅为示例而非限制,并且本领域技术人员可以采用其它公知的分布。
此外,优选地,对于同一个卷积层上的所有神经元,以相同的预定概率阈值来判断是否打断连接。而对于卷积神经网络中的不同卷积层,其预定概率阈值可相同或不相同,本发明对此不做限制。
以下参照图5A至图5D给出了基于随机卷积操作的计算第L+1层的神经元响应值的示例性公式。
T1=Func(w5*S10+w6*S11+w7*S13+w8*S14)+b…(5)
T2=Func(w1*S2+w2*S3+w3*S5+w4*S6)+b…(6)
T3=0…(7)
T4=Func(w1*S5+w2*S6+w3*S8+w4*S9+w5*S14+w6*S15+w7*S17+w8*S18)+b…(8)
从图4A至图4D与图5A至图5D的比较可以看出,在本公开中,通过基于预定概率阈值以随机方式打断至少一个卷积层上的神经元的输入连接,可以减少在对每个样本进行训练时所使用的权值数量。
此外,还应指出,在训练过程中,当前向传播到卷积层时,应记录下被打断的连接,从而在进行后向传播时不再对被打断的连接进行后向传播。
这里,应指出,在根据本公开的实施例的卷积神经网络中,除了上述卷积操作之外,训练过程中的其它操作可与现有技术相同,在此不再赘述。
接下来,返回参照图3,优选地,取代传统卷积神经网络中的空间最大采样操作,该方法还可包括特征整合步骤S304。
在特征整合步骤S304中,以特定整合方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而得到包括该卷积模板值的分类模型。优选地,以特定整合方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前采样层,基于与当前采样层相邻的上一层的多个特征图中的元素得到当前采样层的特征图中的元素。
接下来,将具体参照图6至图7描述根据本公开的实施例的特征整合步骤中的具体操作以及与现有技术的区别。
首先,将参照图6描述传统卷积神经网络中的空间最大采样操作。图6是用于说明传统卷积神经网络中的空间最大采样操作的示意图。
如图6所示,传统的空间最大采样操作是在一对特征图之间进行的。这里,以图1和图2所示的特征图F3和F6为例进行描述。
假设特征图F3所在的层为第L层,并且特征图F6所在的当前采样层为第L+1层,则根据现有技术,特征图F6中的每个神经元响应值与特征图F3中的每个神经元响应值之间的关系为:
Q1=max(P1,P2,P4,P5)
Q2=max(P2,P3,P5,P6)
Q3=max(P4,P5,P7,P8)
Q4=max(P5,P6,P8,P9)
可以看出,传统最大空间采样操作是在一个特征图中从每个滑动窗口中提取局部最大值,这种方式减小了计算量并且确保了不变性,但是由于局部区域中的其它值也可以反映该区域的部分特征,因此会导致信息过度损失。
下面将参照图7描述根据本公开的实施例的卷积神经网络中的特征整合操作。图7是用于说明根据本公开的实施例的卷积神经网络中的特征整合操作的示意图。
在根据本公开的卷积神经网络中,特征整合操作是在与当前采样层相邻的上一层的多个特征图与当前采样层的一个特征图之间进行的。如图7所示,仍以图1和图2所示的特征图为例,假设当前采样层为特征图F6所在的第L+1层,上一层为特征图F3至F5所在的第L层,并且特征整合操作是在第L层的所有特征图F3至F5与第L+1层的特征图F6之间进行的。然而,应理解,图7所示的仅为示例而非限制,并且可在第L层的任意两个或更多个特征图而不是所有特征图与第L+1层的特征图F6之间进行特征整合操作。
特征图F6中的神经元响应值与特征图F3至F5中的神经元响应值之间的关系如下所示:
Q1=Func1(P1,P10,P19)
Q2=Func1(P2,P11,P20)
Q3=Func1(P3,P12,P21)
Q4=Func1(P4,P13,P22)
Q5=Func1(P5,P14,P23)
Q6=Func1(P6,P15,P24)
Q7=Func1(P7,P16,P25)
Q8=Func1(P8,P17,P26)
Q9=Func1(P9,P18,P27)
优选地,在特征整合步骤S304中,可以以取最大值的特征整合方式、取最小值的特征整合方式、取中间值的特征整合方式或者以取随机值的特征整合方式从与当前采样层相邻的上一层的多个特征图中选择元素,以得到当前采样层的特征图中的元素。即,上述函数Func1()可采用取最大值的函数max()、取最小值的函数min()、取中间值的函数median()和取随机值的函数rand()之一。
应理解,对于同一采样层,应用于该层上的所有特征图的特征整合方式是相同的。即,例如,对于第L+1层上的所有特征图F6至F8,所应用的函数Func1()的形式是相同的。另一方面,对于不同的采样层,所应用的特征整合方式可相同或不同,例如,图1所示的特征图F1和F2所在的层与特征图F6至F8所在的层所应用的特征整合方式可以是相同的或不同的,本发明对此不做限制。
可以理解,通过根据本公开的实施例的特征整合方式,可以减少信息损失,从而使得以此方式得到的分类模型具有更高的准确度。
此外,优选地,在对神经网络进行训练时,在向前传播时,要记录特征整合操作的变换函数所选择的数值的来源,从而在进行后向传播时不再对没有选择的数值继续进行后向传播。例如,记录在图7中的特征图F6中的Q1的取值来自特征图F3中的P1、特征图F4中的P10还是特征图F5中的P19,并且假如特征图F6中的Q1的取值来自特征图F4中的P10,则在进行后向传播时不再对特征图F3中的P1和特征图F5中的P19进行后向传播。
应理解,如图3中的虚线框所示,步骤S304是可选的。本公开的卷积神经网络可以仅采用根据本公开的随机卷积操作并结合现有卷积神经网络中的其它操作进行训练来实现。然而,通过进一步在采样操作时采用根据本公开的特征整合操作,可以进一步提高所构建的分类模型的分类准确度。
此后,重复步骤S302和步骤S304中的操作,直到所得到的卷积模板值满足预定条件为止,即,使得松弛神经网络关于训练样本的错误率达到或低于预定错误率阈值为止。
优选地,为了使得分类模型的实际识别效果更优,本公开还提出了一种两阶段训练方法。即,在利用以上参照图3描述的随机卷积操作和特征整合操作进行第一阶段训练之后,可采用传统卷积操作和根据本公开的特征整合操作继续进行第二阶段训练。应理解,由于传统卷积操作更有利于学习细节,从而使得如此训练出的分类模型的分类准确度更高。
接下来,将参照图8描述根据本公开的实施例的基于两阶段训练的分类模型构建方法的过程示例。图8是示出根据本公开的实施例的基于两阶段训练的分类模型构建方法的过程示例的流程图。
如图8所示,在步骤S802中输入训练样本之后,在步骤S804中,以随机卷积方式和特定整合方式进行第一阶段训练,即,将卷积神经网络结构设定为“随机卷积+特征整合”进行第一阶段训练。
具体地,在第一阶段训练过程中,设定神经网络的网络层数、每层上的操作(随机卷积操作、特征整合操作、全连接操作)、每层上的特征图的个数和大小,并且设定每个卷积层上用于随机打断连接的阈值以及每个采样层上的特征整合方式。其中,输出层的特征图的个数和具体任务的类别数是一致的,例如,对于数字识别任务,输出层的特征图个数应该为10个(对应于数字0至9),对于大写英文字母识别任务,输出层的特征图个数应该为26个(对应于大写字母A至Z)。输出层的每个特征图与具体识别任务的类别是一一对应的。
接下来,对网络中的所有参数例如以(0,1)分布进行随机初始化。
然后,将训练样本送入神经网络进行训练。对于每个训练样本,首先按照前向传播得到输出层的值,然后按照输出层的值与真值的误差进行后向传播,采用经典的随机梯度下降算法进行优化。应指出,如上所述,在进行前向传播时,应记录卷积层被打断的连接以及采样层的特征整合操作的数据来源,从而在进行后向传播时,不再对被打断的连接以及未选择的数据进行后向传播。如此重复进行操作,直到神经网络在训练样本集上的错误率等于或低于预定阈值为止。这样,结束第一阶段训练。
接下来,在步骤S806中,在步骤S804中以随机卷积方式和特征整合方式对训练样本进行第一阶段训练以使得所得到的卷积模板值满足第一预定条件之后,利用此时的卷积模板值,以传统卷积方式和特征整合方式对训练样本继续进行第二阶段训练,以使得所得到的卷积模板值满足第二预定条件。
具体地,在第二阶段训练过程中,将通过步骤S804中的第一阶段训练得到的神经网络结构设定为“传统卷积+特征整合”,即不再随机打断连接,并且继续使用第一阶段训练好的参数。此外,应指出,对于每个采样层,在第一阶段训练和第二阶段训练中所采用的特征整合方式(即,上述变换函数Func1())是相同的。
然后,将训练样本依次送入设定好的神经网络进行训练。对于每个训练样本,首先按照前向传播得到输出层的值,然后按照输出层的值与真值的误差进行后向传播,采用经典的梯度下降算法进行优化。同样地,与第一训练阶段相同,在进行前向传播时,要记录下采样层的特征整合操作的数据来源,从而在进行后向传播时不再对未选择的数据进行后向传播。如此重复进行操作,直到松弛神经网络在训练样本集上的错误率等于或低于预定阈值为止。
根据本公开的实施例,通过这种两阶段训练方法,训练得到的基于卷积神经网络的分类模型具有更高的识别精度。
此外,应指出,以上描述的随机卷积操作和特征整合操作仅用于训练阶段,而当实际应用时,利用包括训练得到的卷积模板值的分类模型,仍以传统卷积操作和传统空间最大采样操作执行具体识别任务。
应理解,尽管这里参照图2至图8描述了根据本公开的实施例的基于卷积神经网络的分类模型构建方法和两阶段训练方法的过程示例,但是本公开不限于这样的示例,本领域技术人员可以根据本公开的原理对上述过程进行修改,并且这样的修改被认为落入本公开的范围内。
接下来,将参照图9描述根据本公开的实施例的基于卷积神经网络的分类模型构建设备的功能配置示例。图9是示出根据本公开的实施例的基于卷积神经网络的分类模型构建设备的功能配置示例的框图。
如图9所示,分类模型构建设备900可包括卷积单元902。
卷积单元902可被配置成以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型。优选地,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。具体地,卷积单元902可被配置成采用例如以上参照图5A至图5D描述的随机卷积操作对训练样本进行处理。
优选地,对于每个卷积层,用于该卷积层上的所有特征图中的元素的预定概率阈值是相同的,而对于不同的卷积层,预定概率阈值可相同或不同。
此外,优选地,对于卷积单元902进行随机卷积操作时打断的连接,当利用梯度下降算法进行后向传播时,不对被打断的连接进行后向传播。
可选地,分类模型构建设备900还可包括特征整合单元904。特征整合单元904可被配置成以特定整合方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而得到包括卷积模板值的分类模型。优选地,以特定整合方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前采样层,基于与当前采样层相邻的上一层的多个特征图中的元素得到当前采样层相邻的特征图中的元素。
应指出,如图9中的虚线框所示,该特征整合单元904是可选的。在卷积单元902进行随机卷积操作的情况下,后续操作也可采用传统的空间最大采样操作。然而,采用根据本公开的特征整合方式,能够避免信息过度损失,从而训练得到的分类模型具有更高的分类准确度。
此外,优选地,特征整合单元904可例如采用以取最大值的特征整合方式、取最小值的特征整合方式、取中间值的特征整合方式或者以取随机值的特征整合方式从与当前采样层相邻的上一层的多个特征图中选择元素,以得到当前采样层的特征图中的元素。具体地,特征整合单元904可被配置成采用例如以上参照图7描述的特征整合操作对训练样本进行处理。
优选地,对于每个采样层,用于该采样层上的所有特征图中的元素的特征整合方式是相同,而对于不同的采样层,特征整合方式可相同或不同。
此外,优选地,在特征整合单元904进行特征整合操作时,应记录在特征整合操作中所选择的数据来源,从而在利用经典梯度下降算法进行后向传播时,不再对未选择的数据进行后向传播。
另外,根据本公开的实施例的分类模型构建设备900也可采用上述两阶段训练方法。具体地,在卷积单元902以随机卷积方式以及特征整合单元904以上述特定整合方式对训练样本进行第一阶段训练以使得训练得到的卷积模板值满足预定条件之后,基于当前训练得到的卷积神经网络的参数,卷积单元902可以以传统卷积方式以及特征整合单元904可以以上述特定整合方式对训练样本继续进行第二阶段训练,以使得所得到的卷积模板值满足预定条件。
可以理解,通过这种两阶段训练方法,既避免了过拟合问题又保证了对细节的充分学习,从而能够获得更好的性能。
优选地,在第一阶段训练和第二阶段训练中,特征整合单元904采用的具体特征整合方式是相同。
应理解,参照图9描述的基于卷积神经网络的分类模型构建设备是与上述分类模型构建方法对应的装置实施例,因此对于在装置实施例中未详细描述的内容,可参见以上方法实施例的相应位置的描述,在此不再赘述。
此外,应指出,应指出,尽管以上参照图9描述了根据本公开的实施例的基于卷积神经网络的分类模型构建设备的功能配置的示例,但是这仅是示例而非限制,并且本领域技术人员可以想到根据实际需要而对以上实施例中描述的功能模块进行组合和/或省略和/或添加一个或多个功能模块,这样的变型示例应认为落入本公开的范围内。
此外,根据本公开的实施例,还提供了一种存储介质,该存储介质包括机器可读的程序代码,当在信息处理设备上执行程序代码时,该程序代码使得信息处理设备执行以下步骤:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。
此外,根据本公开的实施例,还提供了一种程序产品,该程序产品包括机器可执行的指令,当在信息处理设备上执行指令时,该指令使得信息处理设备执行以下步骤:卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括卷积模板值的分类模型,其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和当前卷积层相邻的上一层的特征图中的元素之间的连接。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被执行上述方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用个人计算机1000安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM1003中,也根据需要存储当CPU1001执行各种处理等等时所需的数据。
CPU1001、ROM1002和RAM1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件连接到输入/输出接口1005:输入部分1006,包括键盘、鼠标等等;输出部分1007,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分1008,包括硬盘等等;和通信部分1009,包括网络接口卡比如LAN卡、调制解调器等等。通信部分1009经由网络比如因特网执行通信处理。
根据需要,驱动器1010也连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
还需要指出的是,执行上述系列处理的步骤可以自然地根据说明的顺序按时间顺序执行,但是并不需要一定根据时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本公开及其优点,但是应当理解在不脱离由所附的权利要求所限定的本公开的精神和范围的情况下可以进行各种改变、替代和变换。而且,本公开实施例的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本公开还公开了以下附记:
附记1.一种基于卷积神经网络的分类模型构建方法,包括:
卷积步骤,以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括所述卷积模板值的分类模型,
其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和所述当前卷积层相邻的上一层的特征图中的元素之间的连接。
附记2.根据附记1所述的方法,还包括:
特征整合步骤,以特定整合方式对所述训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而得到包括所述卷积模板值的分类模型,
其中,以特定整合方式对所述训练样本进行第一阶段训练进一步包括:对于至少一个当前采样层,基于与所述当前采样层相邻的上一层的多个特征图中的元素得到所述当前采样层的特征图中的元素。
附记3.根据附记2所述的方法,其中,在所述特征整合步骤中,以取最大值的特征整合方式、取最小值的特征整合方式、取中间值的特征整合方式或者以取随机值的特征整合方式从与所述当前采样层相邻的上一层的多个特征图中选择元素,以得到所述当前采样层的特征图中的元素。
附记4.根据附记3所述的方法,其中,在以所述随机卷积方式和所述特定整合方式对所述训练样本进行第一阶段训练以使得所得到的卷积模板值满足第一预定条件之后,利用所述卷积模板值,在所述卷积步骤中以传统卷积方式以及在所述特征整合步骤中以所述特定整合方式对所述训练样本继续进行第二阶段训练,以使得所得到的卷积模板值满足第二预定条件。
附记5.根据附记4所述的方法,其中,在所述第二阶段训练的特征整合步骤中所采用的特征整合方式与所述第一阶段训练的特征整合步骤中所采用的特征整合方式相同。
附记6.根据附记4所述的方法,其中,在所述第一训练阶段和所述第二训练阶段中,对于在所述特征整合步骤中未被选择的元素,当利用梯度下降算法进行后向传播时,不对未被选择的元素进行后向传播。
附记7.根据附记3至6中任一项所述的方法,其中,对于每个采样层,用于该采样层的所有特征图中的元素的特征整合方式是相同的。
附记8.根据附记3至7中任一项所述的方法,其中,对于不同的采样层,所述特征整合方式是相同的或不同的。
附记9.根据附记1至8中任一项所述的方法,其中,对于每个卷积层,用于该卷积层上的所有特征图中的元素的预定概率阈值是相同的。
附记10.根据附记1至9中任一项所述的方法,其中,对于不同的卷积层,所述预定概率阈值是相同的或不同的。
附记11.根据附记1至10中任一项所述的方法,其中,在所述第一训练阶段中,对于在所述卷积步骤中被打断的连接,当利用梯度下降算法进行后向传播时,不对被打断的连接进行后向传播。
附记12.一种基于卷积神经网络的分类模型构建设备,包括:
卷积单元,被配置成以随机卷积方式对训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括所述卷积模板值的分类模型,
其中,以随机卷积方式对训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和所述当前卷积层相邻的上一层的特征图中的元素之间的连接。
附记13.根据附记12所述的设备,还包括:
特征整合单元,以特定整合方式对所述训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而得到包括所述卷积模板值的分类模型,
其中,所述特征整合单元以特定整合方式对所述训练样本进行第一阶段训练进一步包括:对于至少一个当前采样层,基于与所述当前采样层相邻的上一层的多个特征图中的元素得到所述当前采样层的特征图中的元素。
附记14.根据附记13所述的设备,其中,所述特征整合单元以取最大值的特征整合方式、取最小值的特征整合方式、取中间值的特征整合方式或者以取随机值的特征整合方式从与当前采样层相邻的上一层的多个特征图中选择元素,以得到所述当前采样层的特征图中的元素。
附记15.根据附记14所述的设备,其中,在所述卷积单元以所述随机卷积方式和所述特征整合单元以所述特定整合方式对所述训练样本进行第一阶段训练以使得所得到的卷积模板值满足第一预定条件之后,利用所述卷积模板值,所述卷积单元以传统卷积方式以及所述特征整合单元以所述特定整合方式对所述训练样本继续进行第二阶段训练,以使得所得到的卷积模板值满足第二预定条件。
附记16.根据附记15所述的设备,其中,在所述第二阶段训练中所述特征整合单元所采用的特征整合方式与所述第一阶段训练中所述特征整合单元所采用的特征整合方式相同。
附记17.根据附记15所述的设备,其中,在所述第一训练阶段和所述第二训练阶段中,对于所述特征整合单元未选择的元素,当利用梯度下降算法进行后向传播时,不对未被选择的元素进行后向传播。
附记18.根据附记14所述的设备,其中,对于每个采样层,用于该采样层的所有特征图中的元素的特征整合方式是相同的。
附记19.根据附记12所述的设备,其中,对于每个卷积层,用于该卷积层上的所有特征图中的元素的预定概率阈值是相同的。
附记20.根据附记12所述的设备,其中,在所述第一训练阶段中,对于所述卷积单元打断的连接,当利用梯度下降算法进行后向传播时,不对被打断的连接进行后向传播。

Claims (10)

1.一种基于卷积神经网络的分类模型的构建方法,所述分类模型用于图像或语音处理,所述方法包括:
卷积步骤,以随机卷积方式对图像或语音训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括所述卷积模板值的分类模型,
其中,以随机卷积方式对图像或语音训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和所述当前卷积层相邻的上一层的特征图中的元素之间的连接。
2.根据权利要求1所述的方法,还包括:
特征整合步骤,以特定整合方式对所述图像或语音训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而得到包括所述卷积模板值的分类模型,
其中,以特定整合方式对所述图像或语音训练样本进行第一阶段训练进一步包括:对于至少一个当前采样层,基于与所述当前采样层相邻的上一层的多个特征图中的元素得到所述当前采样层的特征图中的元素。
3.根据权利要求2所述的方法,其中,在所述特征整合步骤中,以取最大值的特征整合方式、取最小值的特征整合方式、取中间值的特征整合方式或者以取随机值的特征整合方式从与当前采样层相邻的上一层的多个特征图中选择元素,以得到所述当前采样层的特征图中的元素。
4.根据权利要求3所述的方法,其中,在以所述随机卷积方式和所述特定整合方式对所述图像或语音训练样本进行第一阶段训练以使得所得到的卷积模板值满足第一预定条件之后,利用所述卷积模板值,在所述卷积步骤中以传统卷积方式以及在所述特征整合步骤中以所述特定整合方式对所述图像或语音训练样本继续进行第二阶段训练,以使得所得到的卷积模板值满足第二预定条件。
5.根据权利要求4所述的方法,其中,在所述第二阶段训练的特征整合步骤中所采用的特征整合方式与所述第一阶段训练的特征整合步骤中所采用的特征整合方式相同。
6.根据权利要求4所述的方法,其中,在所述第一阶段训练和所述第二阶段训练中,对于在所述特征整合步骤中未被选择的元素,当利用梯度下降算法进行后向传播时,不对未被选择的元素进行后向传播。
7.根据权利要求3所述的方法,其中,对于每个采样层,用于该采样层的所有特征图中的元素的特征整合方式是相同的。
8.根据权利要求1所述的方法,其中,对于每个卷积层,用于该卷积层上的所有特征图中的元素的预定概率阈值是相同的。
9.根据权利要求1所述的方法,其中,在所述第一阶段训练中,对于在所述卷积步骤中被打断的连接,当利用梯度下降算法进行后向传播时,不对被打断的连接进行后向传播。
10.一种基于卷积神经网络的分类模型的构建设备,所述分类模型用于图像或语音处理,所述设备包括:
卷积单元,被配置成以随机卷积方式对图像或语音训练样本进行第一阶段训练,以得到用于卷积操作的卷积模板值,从而构建包括所述卷积模板值的分类模型,
其中,以随机卷积方式对图像或语音训练样本进行第一阶段训练进一步包括:对于至少一个当前卷积层,基于预定概率阈值以随机方式打断当前卷积层的特征图中的元素与和所述当前卷积层相邻的上一层的特征图中的元素之间的连接。
CN201410024775.2A 2014-01-20 2014-01-20 基于卷积神经网络的分类模型构建方法和设备 Active CN104794527B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410024775.2A CN104794527B (zh) 2014-01-20 2014-01-20 基于卷积神经网络的分类模型构建方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410024775.2A CN104794527B (zh) 2014-01-20 2014-01-20 基于卷积神经网络的分类模型构建方法和设备

Publications (2)

Publication Number Publication Date
CN104794527A CN104794527A (zh) 2015-07-22
CN104794527B true CN104794527B (zh) 2018-03-27

Family

ID=53559313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410024775.2A Active CN104794527B (zh) 2014-01-20 2014-01-20 基于卷积神经网络的分类模型构建方法和设备

Country Status (1)

Country Link
CN (1) CN104794527B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160400B (zh) * 2015-09-08 2018-03-02 西安交通大学 基于l21范数的提升卷积神经网络泛化能力的方法
CN105550747A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 一种新型卷积神经网络的样本训练方法
CN105550748A (zh) * 2015-12-09 2016-05-04 四川长虹电器股份有限公司 基于双曲正切函数的新型神经网络的构造方法
CN105550750B (zh) * 2015-12-21 2017-10-17 长沙网动网络科技有限公司 提高卷积神经网络识别精度的方法
US11244191B2 (en) 2016-02-17 2022-02-08 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
KR102161902B1 (ko) * 2016-03-31 2020-10-05 후지쯔 가부시끼가이샤 신경망 모델에 대한 훈련 방법, 장치 및 전자 장치
CN107273899B (zh) * 2016-04-07 2020-08-14 富士通株式会社 对象分类方法和对象分类设备
CN109643395B (zh) * 2016-05-24 2024-03-05 英特尔公司 自适应窗口机制
CN108133223B (zh) * 2016-12-01 2020-06-26 富士通株式会社 确定卷积神经网络cnn模型的装置和方法
US11164071B2 (en) * 2017-04-18 2021-11-02 Samsung Electronics Co., Ltd. Method and apparatus for reducing computational complexity of convolutional neural networks
CN107145857B (zh) * 2017-04-29 2021-05-04 深圳市深网视界科技有限公司 人脸属性识别方法、装置和模型建立方法
CN107229968B (zh) * 2017-05-24 2021-06-29 北京小米移动软件有限公司 梯度参数确定方法、装置及计算机可读存储介质
CN108157219A (zh) * 2017-12-22 2018-06-15 深圳市航天华拓科技有限公司 一种基于卷积神经网络的宠物止吠装置与方法
CN108416187A (zh) * 2018-05-21 2018-08-17 济南浪潮高新科技投资发展有限公司 一种确定剪枝阈值的方法及装置、模型剪枝方法及装置
CN109859204B (zh) * 2019-02-22 2020-12-11 厦门美图之家科技有限公司 卷积神经网络模型检验方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299268A (zh) * 2008-07-01 2008-11-05 上海大学 适于低景深图像的语义对象分割方法
CN102111532A (zh) * 2010-05-27 2011-06-29 周渝斌 相机镜头遮挡检测系统及方法
CN103281473A (zh) * 2013-06-09 2013-09-04 中国科学院自动化研究所 基于视频像素时空相关性的通用视频隐写分析方法
CN103337055A (zh) * 2013-06-24 2013-10-02 暨南大学 一种基于梯度拟合的文本图像去模糊方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299268A (zh) * 2008-07-01 2008-11-05 上海大学 适于低景深图像的语义对象分割方法
CN102111532A (zh) * 2010-05-27 2011-06-29 周渝斌 相机镜头遮挡检测系统及方法
CN103281473A (zh) * 2013-06-09 2013-09-04 中国科学院自动化研究所 基于视频像素时空相关性的通用视频隐写分析方法
CN103337055A (zh) * 2013-06-24 2013-10-02 暨南大学 一种基于梯度拟合的文本图像去模糊方法

Also Published As

Publication number Publication date
CN104794527A (zh) 2015-07-22

Similar Documents

Publication Publication Date Title
CN104794527B (zh) 基于卷积神经网络的分类模型构建方法和设备
AU2017437537B2 (en) Training tree-based machine-learning modeling algorithms for predicting outputs and generating explanatory data
US9619749B2 (en) Neural network and method of neural network training
Tan et al. Systems approaches for localising the SDGs: co-production of place-based case studies
JP6569047B1 (ja) 学習方法、コンピュータプログラム、分類器、及び生成器
CN110637308A (zh) 用于虚拟化环境中的自学习代理的预训练系统
EP3469521A1 (en) Neural network and method of neural network training
CN109919183A (zh) 一种基于小样本的图像识别方法、装置、设备及存储介质
Zhao et al. Pathway lasso: estimate and select sparse mediation pathways with high dimensional mediators
US11449734B2 (en) Neural network reduction device, neural network reduction method, and storage medium
US20190228302A1 (en) Learning method, learning device, and computer-readable recording medium
KR20180096473A (ko) 정보의 질을 높이기 위한 정보 공유 기반 정보 이전 방법 및 그 장치
US20190325340A1 (en) Machine learning method, machine learning device, and computer-readable recording medium
CN108304912A (zh) 一种运用抑制信号实现脉冲神经网络监督学习的系统和方法
Ickowicz et al. Modelling hospital length of stay using convolutive mixtures distributions
Wakuya et al. Bi-directional computing architecture for time series prediction
CN114818510A (zh) 一种基于全局模型优化的联邦学习方法、装置和电子设备
Ermentrout et al. Transition matrix model for evolutionary game dynamics
CN108280511A (zh) 一种基于卷积网络进行网络访问数据进行处理的方法
CN107910066A (zh) 病历评估方法、装置、电子设备及存储介质
Nasir et al. Epidemics control model with consideration of seven-segment population model
CN113095473A (zh) 神经网络架构搜索系统和方法及计算机可读记录介质
Su et al. Interactive cell segmentation based on correction propagation
David et al. Adaptive consensus-based ensemble for improved deep learning inference cost
Schatten et al. Hybrid matrix factorization update for progress modeling in intelligent tutoring systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant