CN105447566B

CN105447566B - 训练装置、训练方法以及检测装置

Info

Publication number: CN105447566B
Application number: CN201410239699.7A
Authority: CN
Inventors: 陈理; 吴春鹏; 范伟; 孙俊; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-05-30
Filing date: 2014-05-30
Publication date: 2018-07-20
Anticipated expiration: 2034-05-30
Also published as: CN105447566A

Abstract

本公开提供了训练装置、训练方法以及检测装置。一种用于对卷积神经网络模型进行训练的装置包括特征获取及竞争单元以及模型训练单元。特征获取及竞争单元包括：获取子单元，被配置成针对所述卷积神经网络模型的至少一个卷积层、获取训练样本数据的至少两个不同方面的特征；以及竞争子单元，被配置成基于所述获取子单元获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。模型训练单元被配置成在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来执行训练。

Description

训练装置、训练方法以及检测装置

技术领域

本公开总体上涉及神经网络，具体而言，涉及基于卷积神经网络模型的训练装置、训练方法以及检测装置，并且尤其涉及一种用于对卷积神经网络模型进行训练的装置和方法以及一种通过该装置或方法训练得到的卷积神经网络模型来对输入数据进行检测的装置。

背景技术

人工神经网络也简称为神经网络或称作连接模型，是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。

卷积神经网络(CNN)是人工神经网络的一种，并且在语音分析、图像识别等领域取得越来越多的关注和应用。例如，近几十年来，手写体中文字符识别技术在工业界和研究领域得到了广泛的关注并取得了很多进展，而基于卷积神经网络的识别技术是性能最好的识别技术之一。存在改进卷积神经网络的效率和准确性的需求。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于现有技术的上述缺陷，本发明的目的之一是提供一种在特征提取过程中提取多个方面的特征并对这些方面的特征进行竞争选择的用于对卷积神经网络模型进行训练的装置和方法，以至少克服现有的问题。

根据本公开的第一方面，提供一种用于对卷积神经网络模型进行训练的装置，其包括特征获取及竞争单元以及模型训练单元。特征获取及竞争单元包括：获取子单元，被配置成针对所述卷积神经网络模型的至少一个卷积层、获取训练样本数据的至少两个不同方面的特征；以及竞争子单元，被配置成基于所述获取子单元获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。模型训练单元被配置成在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来执行训练。

根据本公开的另一方面，提供一种通过如本公开的第一方面所述的装置训练得到的卷积神经网络模型来对输入数据进行检测的装置，该装置包括特征获取及竞争单元以及检测单元。特征获取及竞争单元包括：获取子单元，被配置成提取所述输入数据的至少两个不同方面的特征；以及竞争子单元，被配置成基于该获取子单元获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。检测单元被配置成利用所述卷积神经网络模型、基于该竞争结果特征来进行检测。在所述进行检测的装置中，所提取的所述输入数据的至少两个不同方面的特征与在训练所述卷积神经网络模型时由所述进行训练的装置中的获取子单元获取的训练样本数据的至少两个不同方面的特征是对应的。

根据本公开的又一个方面，还提供一种对卷积神经网络模型进行训练的方法，包括：针对所述卷积神经网络模型的至少一个卷积层，获取训练样本数据的至少两个不同方面的特征；基于所获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征；以及在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来进行训练。

依据本公开的其它方面，还提供了一种使得计算机用作如上所述的对卷积神经网络模型进行训练的装置的程序。

依据本公开的又一方面，还提供了相应的计算机可读存储介质，该计算机可读存储介质上存储有能够由计算设备执行的计算机程序，该计算机程序在执行时能够使计算设备执行上述对卷积神经网络模型进行训练的方法。

上述根据本公开实施例的对卷积神经网络模型进行训练的装置和方法，至少能够获得以下益处至少之一：通过获取训练样本数据的多个不同方面的特征，可以充分利用训练样本数据的信息，而通过对这些不同方面的特征的竞争选择，可以得到在充分信息的基础上，高效地应用训练样本数据中的优选信息。

通过以下结合附图对本公开的最佳实施例的详细说明，本公开的这些以及其他优点将更加明显。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中：

图1是示意性地示出根据本公开实施例的用于对卷积神经网络模型进行训练的装置的示例结构的框图。

图2是示意性地示出卷积神经网络的示意图。

图3是示意性地示出卷积操作的示意图。

图4是示意性地示出非线性操作的示意图。

图5是示意性地示出池化操作的示意图。

图6A、图6B是示意性地示出了根据本公开实施例的用于对卷积神经网络模型进行训练的装置中的特征获取及竞争单元进行的操作的示意图。

图7是示出了根据本公开的一个优选实施例的用于对卷积神经网络模型进行训练的装置中的模型训练单元中与特征过滤有关的部分的示例结构的框图。

图8是示意性地示出根据本公开实施例的、通过根据本公开实施例的训练装置训练得到的卷积神经网络模型来对输入数据进行检测的装置的示例结构的框图。

图9是示出了根据本公开实施例的对卷积神经网络模型进行训练的方法的示例流程的流程图。

图10是示出了可用来实现根据本公开实施例的用于对卷积神经网络模型进行训练的装置和方法的一种可能的硬件配置的结构简图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

本发明人发现，现有的卷积神经网络在训练过程中，没有充分利用输入数据的多方面的信息，并且为了训练得到最优的参数组合需要很大的计算量。

基于此，本公开提供了一种在特征提取过程中提取多个方面的特征并对这些方面的特征进行竞争选择的用于对卷积神经网络模型进行训练的装置和方法。根据本公开的实施例的用于对卷积神经网络模型进行训练的装置和方法，通过获取训练样本数据的多个不同方面的特征，能够充分利用训练样本数据的信息，并且通过对这些不同方面的特征的竞争选择，可以得到在充分信息的基础上，高效地应用训练样本数据中的优选信息，从而降低了计算量。

图1是示意性地示出根据本公开实施例的用于对卷积神经网络模型进行训练的装置的一种示例结构的框图。

如图1所示，用于对卷积神经网络模型进行训练的装置1包括特征获取及竞争单元10和模型训练单元20。特征获取及竞争单元10包括：获取子单元101，被配置成针对所述卷积神经网络模型的至少一个卷积层、获取训练样本数据的至少两个不同方面的特征；以及竞争子单元102，被配置成基于所述获取子单元101获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。模型训练单元20被配置成在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来执行训练。

为了详细说明根据本公开实施例的上述装置1，在此简要介绍现有卷积神经网络的一般结构。图2是示意性地示出现有的卷积神经网络的示意图。图2上方示意性地示出了典型的卷积神经网络的结构，包含一个输入层、若干个卷积层(在图中具体示出了三个卷积层)、一个或多个全连接层(在图中示出了一个全连接层)、以及一个输出层。卷积神经网络的各个层的定义在现有技术中是已知的，因此在此不进行过多描述。

图2的下方示意性地示出了其中一个卷积层的结构，其包括下述三个操作：卷积操作、非线性操作和池化操作。在下文中，有时也将这三个操作描述为卷积操作子层、非线性操作子层和池化操作子层的操作。

以下参照图3至图5来描述卷积层中的各个子层的操作。作为示例，在一个卷积层中，首先，在卷积操作子层中，利用若干个具有一定大小的卷积核来对从上一层输入的数据进行卷积操作，并将得到的结果输出到非线性操作子层。这里所述的上一层可以是整个卷积神经网络的输入层(即，当前卷积层为卷积神经网络中的第一个卷积层)，也可以是上一个卷积层(即，当前卷积层不是卷积神经网络中的第一个卷积层)。卷积模板也可以称为卷积核，其示例可以是一个二维矩阵，矩阵中的每一个元素都为实数。

这里，卷积操作将输入的图像与卷积模板做卷积而得到输出的特征图。图3显示了一个输入图像和大小为2×2的卷积模板做卷积而得到特征图FM11的过程。在此，将卷积模板与输入图像的左上角对齐，然后将输入图像和卷积模板对应位置的元素相乘并求和，就得到了特征图FM11中第一个像素的像素值。然后将卷积模板在输入图像上向右移动一个像素的距离，重复上面的步骤，就得到了特征图FM11的第二个像素的像素值。继续上面的步骤，最终得到整个特征图FM11。卷积操作之后，一般还要加上一个偏置值(实数值)，就得到了最后的输出结果(也就是卷积操作的输出)。比如，按照上面的步骤得到FM11之后，还要在FM11的各元素上加上一个偏置，卷积操作子层的输出。这里，卷积模板中的每个元素的值以及上述偏置值都是卷积神经网络模型的参数，可以通过训练卷积神经网络模型而得到这些参数的最优值。

之后，在非线性操作子层中，利用非线性操作函数对从卷积操作子层输入的数据进行非线性操作，再将得到的结果输出到池化操作子层。如图4所示，非线性操作函数f()对从卷积操作子层输入的特征图FM11的每一个元素进行一对一的非线性映射，得到输出特征图FM21。

接下来，在池化操作子层中，对从非线性操作子层输入的数据进行池化操作，再将得到的结果输出到下一层。这里所述的下一层可以是整个卷积神经网络的全连接层(即，当前卷积层为卷积神经网络中的最后一个卷积层)，也可以是下一个卷积层(即，当前卷积层不是卷积神经网络中的最后一个卷积层)。

池化操作和卷积操作类似，也采用一定大小的窗口去覆盖输入的特征图，不过，池化操作直接由输入特征图中被覆盖的区域的各个像素值来得到输出结果，例如，输出结果可以是输入特征图中被覆盖的区域的各个像素的最大值、最小值、中值等。换言之，池化操作是一种指定规则的、n对一的映射函数，采用池化操作符h()来表示，其中n为池化操作符的窗口大小。图5显示了从非线性操作子层输出的特征图FM21经过池化操作子层的操作而输出的特征图FM31。在图5的示例中，池化操作符h()将特征图FM21的4个像素值映射到特征图FM31的一个像素上，即窗口大小为4。

在上述卷积操作子层、非线性操作子层和池化操作子层中，每个子层中进行的卷积操作、非线性操作、池化操作都可以视为是从来自上一子层的输入数据中提取特征的过程。在现有技术中，出于计算效率以及训练成本的考虑，通常在每个子层中仅仅提取了一个方面的特征，即仅仅利用了一个特定大小的卷积核、一个非线性操作算子f()、以及一个池化操作符(或池化操作算子)h()。

为了全面利用输入数据的各个方面的信息，如以上参照图1所描述的，根据本公开实施例，获取子单元101可以获取训练样本数据的至少两个不同方面的特征，而这一过程可以发生在卷积操作子层、非线性操作子层和池化操作子层中的任一子层当中。更具体地，根据本公开实施例的获取子单元101所获取的训练样本数据的至少两个不同方面的特征可以是针对至少一个卷积层，通过下述方式中的至少一者获取的：在卷积操作子层中利用至少两个不同大小的卷积核分别对基于所述训练样本数据而获得的输入数据进行卷积操作，以获取所述至少两个不同方面的特征；在非线性操作子层中利用至少两个不同的非线性操作函数分别对经过卷积操作子层处理的、基于所述训练样本数据而获得的输入数据进行非线性操作，以获取所述至少两个不同方面的特征；以及在池化操作子层中利用至少两个不同的池化操作算子分别对经过卷积操作子层和非线性操作子层处理的、基于所述训练样本数据而获得的输入数据进行池化操作，以获取所述至少两个不同方面的特征。

伴随这种多方面特征提取，相较于现有技术，本发明获得了训练样本数据的更多信息。为了能够高效地利用这些信息，本发明采用了竞争子单元102，其基于获取子单元101所获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。

以获取子单元101所获取的至少两个不同方面的特征是在卷积操作子层利用3个不同大小的卷积核进行卷积操作而获得的三组特征图为例，竞争子单元102可以基于这三组特征图的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。作为示例，最优元素可以是给定位置处的值最大的元素。换言之，可以利用“逐元素取最大”操作来进行竞争选择。

图6A、图6B示出了由根据本公开实施例的特征获取及竞争单元10进行的操作的示意图。图6A、图6B给出了获取子单元101在输入层之后的第一个卷积层进行操作的示例。卷积层包括卷积操作子层、非线性操作子层和池化操作子层，每个子层的操作得到相应的特征图，以附图标记FM11、FM12等来表示。

具体地，在图6A的示例中，根据本公开实施例的获取子单元101在卷积操作子层中利用了两组共4个卷积核进行操作，卷积操作中从输入图像出发的每一条连线代表一个卷积模板，因此得到了4个特征图FM11-FM14。更具体地，获取子单元101利用两组不同大小的卷积模板，得到了两个特征图集合，即提取了输入图像的两个不同方面的特征。图6A中上方的第一个特征图集合，即特征图FM11、FM12，是利用第一组的具有第一大小的、具体元素不同的两个卷积模板获得的，而下方的第二个特征图集合，即特征图FM13、FM14，是利用第二组的具有第二大小的、具体元素不同的两个卷积模板获得的。这里获得每个特征图FM11-FM14的方式可以与之前参照图3的描述的方式相同，因此不再赘述。此后，竞争子单元102可以从这两个特征图集合(即FM11和FM12的集合以及FM13和FM14的集合)的对应元素中，选择每个元素位置处的最优元素，以得到竞争结果特征图FM21、FM22。作为示例，最优元素可以是给定位置处的值最大的元素。

类似地，对于输入到非线性操作子层中的特征图FM21、FM22，如图6A所示，同样可以使获取子单元101利用不同的非线性操作(在图6A中为两个)来提取特征图FM21、FM22的不同方面的特征，以得到特征图FM31-34。此后，再利用竞争子单元102对特征图FM31-34进行逐元素取最大，以得到竞争结果特征图FM41、FM42。类似地，对于输入到池化操作子层的特征图FM41、FM42，可以使获取子单元101利用不同的池化操作(在图6A中为两个)来提取特征图FM41、FM42的不同方面的特征，以得到特征图FM51-54。此后，再利用竞争子单元102对特征图FM51-54进行逐元素取最大，以得到竞争结果特征图FM61、FM62。

作为替选，可以仅仅在卷积操作子层、非线性操作子层、池化操作子层中的一个子层中应用获取子单元101和竞争子单元102。例如，图6B示出了仅仅在卷积操作子层中应用获取子单元101和竞争子单元102的情况。即，在卷积操作子层得到的竞争结果特征之后，后续的特征提取过程与现有技术中一致，即仅仅利用一个非线性操作算子和一个池化操作算子。类似的，可以仅在非线性操作子层中应用获取子单元101和竞争子单元102(或仅在池化操作子层中应用获取子单元101和竞争子单元102)，而对其余子层采用与现有技术类似的特征提取过程。

除了提取多个方面的特征以及针对这些特征进行竞争选择以外，在一个示例中，根据本公开的实施例的训练装置进行的训练可以利用现有技术中的处理。

例如，在卷积神经网络中，所有卷积模板的具体元素和偏置都是需要训练的参数。训练时，例如，这些参数可以首先被随机赋予一个较小的值，然后通过一个迭代的训练算法，最终找到符合要求的一组值。例如，考虑中文字符识别的示例，如果给卷积神经网络提供1000幅含有中文字符的并且已被预先标记了相应的中文字符的输入图像作为训练样本数据，那么预先标记好的训练样本数据经过卷积神经网络的输入层、各个卷积层、全连接层、输出层之后，即得到对输入训练数据的计算结果，如果这个结果与之前对该数据的标记标号不一致，就调整卷积神经网络模型的参数(例如，再次随机生成卷积层中的卷积核中的各个元素等)。然后，再次执行上述训练过程，直到使得调整后的卷积神经网络能够输出正确的结果为止。这个过程可以采用现有技术中的卷积神经网络模型训练方法，例如基于随机梯度下降的后向传播方法等，这里不再进行详细描述。

由于获取了多方面的特征，根据本公开实施例的用于对卷积神经网络模型进行训练的装置可以充分利用训练样本数据的各个方面的信息；而由于采用了竞争选择，根据本公开实施例的用于对卷积神经网络模型进行训练的装置可以高效利用样本数据，减少了计算量。

图7是示出了根据本公开的一个优选实施例的模型训练单元中与特征过滤有关的部分的示例结构的框图。

如图7中所示，在一个优选实施例中，模型训练单元20可以包括第一过滤子单元201，所述第一过滤子单元201被配置成以机会均等的方式、在所述获取子单元101获取的至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素，以得到第一过滤特征，作为要提供给所述竞争子单元102以供选择的特征。在一个优选示例中，所述模型训练单元20还可以包括第二过滤子单元202，所述第二过滤子单元202被配置成以提供冗余的方式、在所述获取子单元101获取的至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要提供给所述竞争子单元102以供选择的特征。

利用上述第一过滤子单元201，能够减少要训练的特征的规模，但是又以机会均等的方式保证每一个元素位置处都可以有一个元素能够进入到竞争子单元102，从而保证了卷积神经网络的每一个部分都能够得到训练。另外，利用第二过滤子单元202，能够以提供冗余的方式在每一个元素位置处提供一个以上的特征，以使得竞争子单元102的竞争能够真正地起到作用。因此，本优选实施例的第一和第二过滤子单元有效地选择了训练样本数据，有助于进一步全面、高效地利用样本数据，减少了计算量。

在一个优选示例中，获取子单元102所获取的至少两个不同方面的特征是N个方面的特征，并且每个方面的特征的数量为S，每个特征为m×n的矩阵，其中，N、S、m、n为自然数，并且N大于1，而且，第一过滤子单元201被配置成基于如下所述的第一矩阵M⁽¹⁾来得到所述第一过滤特征。

利用每个元素为[0,1]的均匀分布中的随机采样的第二矩阵R⁽¹⁾将第一矩阵M⁽¹⁾定义为：

其中，k为1到N的自然数，i为1到S的自然数，x为1到m的自然数，y为1到n的自然数，表示第一矩阵M⁽¹⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，R⁽¹⁾(i,x,y)表示第二矩阵R⁽¹⁾针对所述N个方面当中的每个方面的第i个特征在点(x,y)处的矩阵元素的值。

当第一矩阵M⁽¹⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，所述第一过滤子单元201保留N个方面当中的第k个方面中的第i个特征在点(x,y)处的元素。

上述第一矩阵M⁽¹⁾的作用实际上类似于一个“掩膜”，针对第k个方面的第i个特征在点(x,y)处的值，取决于该掩膜矩阵M⁽¹⁾的相应矩阵元素的值是1还是0来决定其否能够保留。从公式(1)中可以看出，由于第二矩阵R⁽¹⁾在点(x,y)处的矩阵元素R⁽¹⁾(i,x,y)的取值是在0到1的均匀分布中随机获得的值，因此，R⁽¹⁾(i,x,y)的取值落入下述区间中的每个区间中的概率是均等的1/N：[0,1/N],[1/N,2/N],…,[(k-1)/N,K/N],…,[(N-1)/N,1]。即，R⁽¹⁾(i,x,y)以1/N的概率满足条件(k-1)/N＜R⁽¹⁾(i,x,y)＜k/N，从而以1/N的概率为1。

参照之前描述的图6A、图6B的示例，第一过滤子单元201的上述处理是在特征图FM11-FM14进行逐元素取最大的竞争选择之前。例如，在图6A的示例中，对于卷积子层，所提取的是N＝2个方面的特征，并且每个方面的特征的数量为S＝2，即两个特征图集合，每个集合各自有两个m×n的特征图。

因此，对于第一个特征图集合，作为掩膜的表示根据第二矩阵R⁽¹⁾的相应取值而决定的、第1个方面(第一个特征图集合FM11和FM12)的第1个特征(第一个特征图FM11)在点(x,y)处的矩阵元素是否应该被保留。具体地，当第二矩阵R⁽¹⁾在第1个特征(第一个特征图FM11)在点(x,y)处的矩阵元素的值满足0＜R⁽¹⁾(1,x,y)＜1/2时，为1，表示第1个方面的第1个特征即特征图FM11在点(x,y)处的矩阵元素应该被保留。

替选地，在另一个示例中，第一过滤子单元201可以被配置成基于另外的第一矩阵M’⁽¹⁾来得到所述第一过滤特征。仍假设所述至少两个不同方面的特征是N个方面的特征，并且每个方面的特征的数量为S，每个特征为m×n的矩阵，其中，N、S、m、n为自然数，并且N大于1。

利用每个元素为第一随机分布中的随机采样的第二矩阵R’⁽¹⁾将第一矩阵M’⁽¹⁾定义为：

其中，k、p为1到N的自然数，i为1到S的自然数，x为1到m的自然数，y为1到n的自然数，表示第一矩阵M’⁽¹⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，表示第二矩阵R’⁽¹⁾针对所述N个方面当中的第p个方面的第i个特征在点(x,y)处的矩阵元素的值。满足则表示第二矩阵针对所有N个方面当中的各个方面的第i个特征在点(x,y)处的矩阵元素的最大值发生在第k个方面中的第i个特征的点(x,y)处，此时掩膜矩阵M’⁽¹⁾在该点(x,y)的取值为1。

当第一矩阵M’⁽¹⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，所述第一过滤子单元保留第k个方面中的第i个特征在点(x,y)处的元素。

另外，作为优选示例，第二过滤子单元202可以被配置成基于第三矩阵M⁽²⁾来得到所述第二过滤特征，其中，通过每个元素为[0,1]的均匀分布中的随机采样的第四矩阵R⁽²⁾将第三矩阵M⁽²⁾定义为：

其中，t表示预先定义的重合度并且为0到1之间的实数，表示第三矩阵M⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，表示第四矩阵R⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值。

当第三矩阵M⁽²⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，所述第二过滤子单元202保留第k个方面的第i个特征在点(x,y)处的元素。

上述第三矩阵M⁽²⁾的作用也类似于一个“掩膜”，针对第k个方面的第i个特征在点(x,y)处的值，取决于该掩膜矩阵M⁽²⁾的相应矩阵元素的值是1还是0来决定其否能够保留。不同于第一矩阵M⁽¹⁾的是，第三矩阵M⁽²⁾在给定点处可保留来自多于一个方面的相应特征的元素，从而提供了冗余。从公式(2)中可以看出，当设置的重合度t的值越大时，意味着每个元素位置处能够被保留的元素可能会越多，即得到的过滤结果的冗余度越高，对该元素位置处的卷积神经网络的部分的训练则越充分。作为示例，重合度t的取值例如可以为0.1。

如果在利用第一过滤子单元基于第一矩阵M⁽¹⁾进行过滤的同时，也利用第二过滤子单元基于第一矩阵M⁽²⁾进行过滤，则得到的第一过滤特征和第二过滤特征共同输入到竞争子单元102中，以进行竞争。

此外，所述第二过滤子单元可以被配置成基于另外的第三矩阵M’⁽²⁾来得到所述第二过滤特征，其中，通过每个元素为第二随机分布中的随机采样的第四矩阵R’⁽²⁾将第三矩阵M’⁽²⁾定义为：

其中，t表示预先定义的重合度并且为0到1之间的实数，表示第三矩阵M’⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，表示第四矩阵R’⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，E(i,x,y)表示第四矩阵R’⁽²⁾针对所述N个方面当中的各个方面的第i个特征在点(x,y)处的矩阵元素的平均值。

当第三矩阵M’⁽²⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，所述第二过滤子单元保留第k个方面的第i个特征在点(x,y)处的元素。

根据本公开的另一方面，还提供了一种通过根据本公开实施例的训练装置训练得到的卷积神经网络模型来对输入数据进行检测的装置。

图8是示意性地示出根据本公开实施例的、通过根据本公开实施例的训练装置训练得到的卷积神经网络模型来对输入数据进行检测的装置8的示例结构的框图。

如图8中所示，通过根据本公开实施例的训练装置训练得到的卷积神经网络模型来对输入数据进行检测的装置8包括特征获取及竞争单元80和检测单元90。特征获取及竞争单元80包括：获取子单元801，被配置成提取所述输入数据的至少两个不同方面的特征，以及竞争子单元802，被配置成基于该获取子单元获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。检测单元90被配置成利用所述卷积神经网络模型、基于该竞争结果特征来进行检测。在上述进行检测的装置8中，所提取的所述输入数据的至少两个不同方面的特征与在训练所述卷积神经网络模型时由所述进行训练的装置1中的获取子单元101获取的训练样本数据的至少两个不同方面的特征是对应的。

根据本公开的实施例，利用上述的用于进行检测的装置8，能够获取输入数据的多个不同方面的特征，以充分利用输入数据的信息，并且通过对这些不同方面的特征的竞争选择，可以得到在充分信息的基础上，高效地应用输入数据中的优选信息。

根据本公开的又一方面，提供了一种对卷积神经网络模型进行训练的方法。

图9示出了根据本公开实施例的对卷积神经网络模型进行训练的方法900的示例流程。如图9所示，该方法900可以包括特征获取及竞争步骤S901以及训练执行步骤S903。特征获取及竞争步骤S901包括：获取子步骤S9011，针对所述卷积神经网络模型的至少一个卷积层，获取训练样本数据的至少两个不同方面的特征；竞争子步骤S9012，基于所获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征。训练执行步骤S903用于在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来进行训练。

特征获取及竞争步骤S901例如可以包括以上参照图1至图6B描述的特征获取及竞争单元10中进行的各种处理。获取子步骤S9011例如可以包括以上参照图1至图6B描述的获取子单元101中进行的各种处理，而竞争子步骤S9012例如可以包括以上参照图1至图6B描述的竞争子单元102中进行的各种处理。训练执行步骤S903例如可以包括以上参照图1、图7等描述的模型训练单元20中进行的各种处理。这些处理的具体细节在此不再赘述。

在一个优选实施例中，方法900例如还可以包括：以机会均等的方式，在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素，以得到第一过滤特征，作为要供竞争子步骤S9012中选择的特征。方法900中用于得到第一过滤特征的处理可以包括以上参照图7描述的第一过滤子单元201中进行的各种处理，具体细节在此不再赘述。

此外，一个优选实施例中，方法900例如还可以包括：以提供冗余的方式，在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要供竞争子步骤S9012中选择的特征。方法900中用于得到第二过滤特征的处理可以包括以上参照图7描述的第二过滤子单元202中进行的各种处理，具体细节在此不再赘述。

在一个优选实施例中，所述至少两个不同方面的特征是N个方面的特征，并且每个方面的特征的数量为S，每个特征为m×n的矩阵，其中，N、S、m、n为自然数，并且N大于1。

此时，方法900还可以包括基于第一矩阵M⁽¹⁾来得到所述第一过滤特征，其中，利用每个元素为[0,1]的均匀分布中的随机采样的第二矩阵R⁽¹⁾将第一矩阵M⁽¹⁾定义为：

当第一矩阵M⁽¹⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，保留第k个方面中的第i个特征在点(x,y)处的元素。

替选地，方法900可以包括基于另外的第一矩阵M’⁽¹⁾来得到所述第一过滤特征，其中，利用每个元素为第一随机分布中的随机采样的第二矩阵R’⁽¹⁾将第一矩阵M’⁽¹⁾定义为：

其中，k、p为1到N的自然数，i为1到S的自然数，x为1到m的自然数，y为1到n的自然数，表示第一矩阵M’⁽¹⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，表示第二矩阵R’⁽¹⁾针对所述N个方面当中的第p个方面的第i个特征在点(x,y)处的矩阵元素的值。

当第一矩阵M’⁽¹⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，保留第k个方面中的第i个特征在点(x,y)处的元素。

在又一个优选实施例中，方法900还可以包括：以提供冗余的方式，基于第三矩阵M⁽²⁾来在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要供竞争子步骤S9012中选择的特征。

通过每个元素为[0,1]的均匀分布中的随机采样的第四矩阵R⁽²⁾将第三矩阵M⁽²⁾定义为：

当第三矩阵M⁽²⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，保留第k个方面的第i个特征在点(x,y)处的元素。

替选地，方法900可以包括：以提供冗余的方式，基于另外的第三矩阵M’⁽²⁾来在所述至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要供竞争子步骤S9012中选择的特征。

通过每个元素为第二随机分布中的随机采样的第四矩阵R’⁽²⁾将第三矩阵M’⁽²⁾定义为：

当第三矩阵M’⁽²⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，保留第k个方面的第i个特征在点(x,y)处的元素。

在方法900中利用上述第一矩阵M⁽¹⁾或M’⁽¹⁾以及第二矩阵R⁽¹⁾或R’⁽¹⁾进行的处理(以及所获得效果)可以包括以上参照图7描述的在第一过滤子单元201中利用相应矩阵进行的处理(以及所获得效果)，具体细节在此不再赘述。

类似地，在方法900中利用上述第三矩阵M⁽²⁾或M’⁽²⁾以及第四矩阵R⁽²⁾和R’⁽²⁾进行的处理(以及所获得效果)可以包括以上参照图7描述的在第二过滤子单元202中利用相应矩阵进行的处理(以及所获得效果)，具体细节在此不再赘述。

由于获取了多方面的特征，根据本公开实施例的用于对卷积神经网络模型进行训练的方法可以充分利用训练样本数据的各个方面的信息；而由于采用了竞争选择，根据本公开实施例的用于对卷积神经网络模型进行训练的方法可以高效利用样本数据，减少了计算量。

上述根据本公开的实施例的用于对卷积神经网络模型进行训练的装置(例如图1中所示的装置1)以及通过根据本公开实施例的训练装置训练得到的卷积神经网络模型来对输入数据进行检测的装置(例如图8中所示的装置8)以及其中的各个组成单元、子单元等可以通过软件、固件、硬件或其任意组合的方式进行配置。在通过软件或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的机器安装构成该软件或固件的程序，该机器在安装有各种程序时，能够执行上述各组成单元、子单元的各种功能。

图10是示出了可用来实现根据本公开的实施例的用于对卷积神经网络模型进行训练的装置和方法的一种可能的硬件配置的结构简图。

在图10中，中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM1003中，还根据需要存储当CPU1001执行各种处理等等时所需的数据。CPU1001、ROM1002和RAM1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。

下述部件也连接到输入/输出接口1005：输入部分1006(包括键盘、鼠标等等)、输出部分1007(包括显示器，例如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1008(包括硬盘等)、通信部分1009(包括网络接口卡例如LAN卡、调制解调器等)。通信部分1009经由网络例如因特网执行通信处理。根据需要，驱动器1010也可连接到输入/输出接口1005。可拆卸介质1011例如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1010上，使得从中读出的计算机程序可根据需要被安装到存储部分1008中。

在通过软件实现上述系列处理的情况下，可以从网络例如因特网或从存储介质例如可拆卸介质1011安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘)、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM1002、存储部分1008中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

此外，本公开还提出了一种存储有机器可读取的指令代码的程序产品。上述指令代码由机器读取并执行时，可执行上述根据本公开的实施例的图像处理方法。相应地，用于承载这种程序产品的例如磁盘、光盘、磁光盘、半导体存储器等的各种存储介质也包括在本公开的公开中。

在上面对本公开具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

此外，本公开的各实施例的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行，也可以按照其他的时间顺序、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本公开的技术范围构成限制。

此外，显然，根据本公开的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本公开的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本公开的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户信息处理终端通过连接到因特网上的相应网站，并且将依据本公开的计算机程序代码下载和安装到信息处理终端中然后执行该程序，也可以实现本公开的各实施例。

综上，在根据本公开的实施例中，本公开提供了如下方案，但不限于此：

方案1、一种用于对卷积神经网络模型进行训练的装置，包括：

特征获取及竞争单元，包括：

获取子单元，被配置成针对所述卷积神经网络模型的至少一个卷积层、获取训练样本数据的至少两个不同方面的特征，以及

竞争子单元，被配置成基于所述获取子单元获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征；以及

模型训练单元，被配置成在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来执行训练。

方案2、如方案1所述的装置，其中，

所述模型训练单元包括第一过滤子单元，所述第一过滤子单元被配置成以机会均等的方式、在所述获取子单元获取的至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素，以得到第一过滤特征，作为要提供给所述竞争子单元以供选择的特征。

方案3、如方案2所述的装置，还包括：

所述模型训练单元还包括第二过滤子单元，所述第二过滤子单元被配置成以提供冗余的方式、在所述获取子单元获取的至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要提供给所述竞争子单元以供选择的特征。

方案4、如方案2所述的装置，其中，

所述至少两个不同方面的特征是N个方面的特征，并且每个方面的特征的数量为S，每个特征为m×n的矩阵，其中，N、S、m、n为自然数，并且N大于1，以及

所述第一过滤子单元被配置成基于第一矩阵M⁽¹⁾来得到所述第一过滤特征，

其中：

其中，k为1到N的自然数，i为1到S的自然数，x为1到m的自然数，y为1到n的自然数，表示第一矩阵M⁽¹⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，R⁽¹⁾(i,x,y)表示第二矩阵R⁽¹⁾针对所述N个方面当中的每个方面的第i个特征在点(x,y)处的矩阵元素的值，以及

当第一矩阵M⁽¹⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，所述第一过滤子单元保留第k个方面中的第i个特征在点(x,y)处的元素。

方案5、如方案2所述的装置，其中，

所述第一过滤子单元被配置成基于第一矩阵M’⁽¹⁾来得到所述第一过滤特征，

其中：

其中，k、p为1到N的自然数，i为1到S的自然数，x为1到m的自然数，y为1到n的自然数，表示第一矩阵M’⁽¹⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，表示第二矩阵R’⁽¹⁾针对所述N个方面当中的第p个方面的第i个特征在点(x,y)处的矩阵元素的值，以及

方案6、如方案4或5所述的装置，其中，

所述特征获取单元还包括第二过滤子单元，所述第二过滤子单元被配置成以提供冗余的方式、在所述至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要提供给所述竞争子单元的特征，以及

所述第二过滤子单元被配置成基于第三矩阵M⁽²⁾来得到所述第二过滤特征，

其中，

其中，t表示预先定义的重合度并且为0到1之间的实数，表示第三矩阵M⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，表示第四矩阵R⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，以及

当第三矩阵M⁽²⁾针对第k个方面的第i个特征在点(x,y)处的矩阵元素的值为1时，所述第二过滤子单元保留第k个方面的第i个特征在点(x,y)处的元素。

方案7、如方案4或5所述的装置，其中，

所述第二过滤子单元被配置成基于第三矩阵M’⁽²⁾来得到所述第二过滤特征，

其中，

其中，t表示预先定义的重合度并且为0到1之间的实数，表示第三矩阵M’⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，表示第四矩阵R’⁽²⁾针对所述N个方面当中的第k个方面的第i个特征在点(x,y)处的矩阵元素的值，E(i,x,y)表示第四矩阵R’⁽²⁾针对所述N个方面当中的各个方面的第i个特征在点(x,y)处的矩阵元素的平均值，以及

方案8、如上述方案1至7之一所述的装置，其中，所述训练样本数据是图像数据。

方案9、一种通过如方案1至8中任一项所述的装置训练得到的卷积神经网络模型来对输入数据进行检测的装置，包括：

特征获取及竞争单元，包括：

获取子单元，被配置成提取所述输入数据的至少两个不同方面的特征，以及

竞争子单元，被配置成基于该获取子单元获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征；以及

检测单元，被配置成利用所述卷积神经网络模型、基于该竞争结果特征来进行检测，

其中，所提取的所述输入数据的至少两个不同方面的特征与在训练所述卷积神经网络模型时由所述进行训练的装置中的获取子单元获取的训练样本数据的至少两个不同方面的特征是对应的。

方案10、一种对卷积神经网络模型进行训练的方法，包括：

针对所述卷积神经网络模型的至少一个卷积层，获取训练样本数据的至少两个不同方面的特征；

基于所获取的至少两个不同方面的特征的对应元素，选择每个元素位置处的最优元素，以得到竞争结果特征；以及

在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来进行训练。

方案11、如方案10所述的方法，还包括：

以机会均等的方式，在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素，以得到第一过滤特征，作为要供所述选择的步骤中选择的特征。

方案12、如方案11所述的方法，还包括：

以提供冗余的方式，在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要供所述选择的步骤中选择的特征。

方案13、如方案11所述的方法，其中，

基于第一矩阵M⁽¹⁾来得到所述第一过滤特征，

其中：

方案14、如方案11所述的方法，其中，

基于第一矩阵M’⁽¹⁾来得到所述第一过滤特征，

其中：

方案15、如方案13或14所述的方法，还包括：

以提供冗余的方式，基于第三矩阵M⁽²⁾来在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要供所述选择的步骤中选择的特征，

其中，

方案16、如方案13或14所述的方法，还包括：

以提供冗余的方式，基于第三矩阵M’⁽²⁾来在所述至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要供所述选择的步骤中选择的特征，

其中，

方案17、如上述方案11至16之一所述的方法，其中，所述输入数据是图像数据。

最后，还需要说明的是，在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管上面已经通过本公开的具体实施例的描述对本公开进行了披露，但是，应该理解，本领域技术人员可在所附权利要求的精神和范围内设计对本公开的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本公开所要求保护的范围内。

Claims

1.一种用于对卷积神经网络模型进行训练的装置，包括：

特征获取及竞争单元，包括：

模型训练单元，被配置成在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来执行训练，所述模型训练单元包括第一过滤子单元，所述第一过滤子单元被配置成以机会均等的方式、在所述获取子单元获取的至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素，以得到第一过滤特征，作为要提供给所述竞争子单元以供选择的特征，

其中，所述至少两个不同方面的特征是N个方面的特征，并且每个方面的特征的数量为S，每个特征为m×n的矩阵，其中，N、S、m、n为自然数，并且N大于1，以及

其中：

2.如权利要求1所述的装置，其中，

所述模型训练单元还包括第二过滤子单元，所述第二过滤子单元被配置成以提供冗余的方式、在所述至少两个不同方面的特征的对应元素位置保留来自其中一个以上方面的特征的元素，以得到第二过滤特征，作为要提供给所述竞争子单元以供选择的特征。

3.如权利要求2所述的装置，其中，

其中，

4.如权利要求2所述的装置，其中，

其中，

5.如上述权利要求1至4之一所述的装置，其中，所述训练样本数据是图像数据。

6.一种用于对卷积神经网络模型进行训练的装置，包括：

特征获取及竞争单元，包括：

其中：

7.如权利要求6所述的装置，其中，

8.如权利要求7所述的装置，其中，

其中，

9.如权利要求7所述的装置，其中，

其中，

10.如上述权利要求6至9之一所述的装置，其中，所述训练样本数据是图像数据。

11.一种通过如权利要求1至10中任一项所述的装置训练得到的卷积神经网络模型来对输入数据进行检测的装置，包括：

特征获取及竞争单元，包括：

12.一种对卷积神经网络模型进行训练的方法，包括：

在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来进行训练，所述训练的过程包括：以机会均等的方式，在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素，以得到第一过滤特征，作为要供所述选择的步骤中选择的特征，

所述第一过滤特征是基于第一矩阵M⁽¹⁾而得到的，

其中：

13.一种对卷积神经网络模型进行训练的方法，包括：

在训练卷积神经网络模型的过程中，针对所述至少一个卷积层，应用所述竞争结果特征来进行训练，所述训练的过程包括：以机会均等的方式、在所获取的至少两个不同方面的特征的对应元素位置保留来自其中一个方面的特征的元素，以得到第一过滤特征，作为要供所述选择的步骤中选择的特征，

所述第一过滤特征是基于第一矩阵M’⁽¹⁾而得到的，

其中：