CN104809426B

CN104809426B - 卷积神经网络的训练方法、目标识别方法及装置

Info

Publication number: CN104809426B
Application number: CN201410040344.5A
Authority: CN
Inventors: 孙修宇; 黄郁驰; 曾炜
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-01-27
Filing date: 2014-01-27
Publication date: 2019-04-05
Anticipated expiration: 2034-01-27
Also published as: CN104809426A

Abstract

本发明公开了一种卷积神经网络的训练方法、目标识别方法及装置。本发明中一方面，由于卷积神经网络基于信号通道对不同的信号通道上的数据分别进行卷积，由于不同信号通道的差异性，使得训练得到的神经元卷积核彼此之间存在一定差异，从而与现有技术相比可以提高卷积神经网络的识别度；另一方面，由于卷积神经网络在正向传递过程和对象识别过程中，基于信号通道进行dropout，神经元数量不变，因而与现有技术相比，可以避免将局部感受域的所有通道的数据均丢弃，从而可以通过这种训练方式使得卷积神经网络的识别度得以提高。

Description

卷积神经网络的训练方法、目标识别方法及装置

技术领域

本发明涉及人工智能和模式识别技术领域，尤其涉及一种卷积神经网络的训练方法、一种基于卷积神经网络的目标识别方法及装置。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)是近年发展起来，并引起广泛重视的一种高效识别方法。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。

一般地，CNN的基本结构中包括多个卷积层，每个卷积层上设置有多个神经元，每个神经元的输入与前一个卷积层的局部接受域(local receptive filed)相连，通过对前一个卷积层的局部接受域的数据进行卷积运算，以提取该局部接受域的特征，一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；然后，通过求局部平均与二次特征提取以进行特征映射，得到特征信息，该特征信息输出到下一个卷积层继续进行处理，直到到达最后一层(输出层)，从而得到最终输出结果。特征映射通常采用sigmoid函数作为卷积神经网络的激活函数，使得特征映射具有位移不变性。

在卷积神经网络中，一个卷积层上的神经元与同一层的其他神经元共享权重，因而减少了网络自由参数的个数。

图1示出了一个简单的卷积神经网络模型图，该模型图表述了4层结构的卷积神经网络。其中，第一层为输入层，输入层上每个神经元的输入数据为图像局部接受域的图像像素，经过卷积运算后通过局部求和得到特征信息并输出到第二层；第二层的每个神经元，对第一层神经元输出的特征信息像素进行卷积运算，并通过局部求和得到特征信息并输出到第三层；第三层的处理与前两层类似，第四层为输出层，该层上只有一个神经元，该神经元的输出值即为该卷积神经网络的最终计算结果。

上述卷积神经网络模型中，可将刺激函数(activation function)应用于每个作为输出结果的数据值以确定是否达到阈值，因此而产生的数据值作为下一个卷积层的输入。

图2以示例的方式示出了输入层的卷积结构。如图所示，多通道图像数据(这里以4个通道为例，图中左侧每个大的方框代表一个通道的图像数据)中的一个局部接受域作为输入层上每个神经元的输入数据分别输入到不同的神经元。每个神经元使用三维卷积核(也即三维滤波器，3D filter)对输入数据进卷积，然后使用刺激函数(activationfunction)对卷积结果进行运算以得到特征图(此示例以5个神经元为例，图中右侧每个大的方框代表不同神经元计算得到的特征图)。输入层和输出层之间的中间卷积层，使用上一个卷积层输出的特征图作为输入数据进行类似计算。

卷积神经网络也可用于语音识别，这种情况下，各个卷积层的输入数据为音频信号。

随着计算机技术的发展，计算机运算能力和存储能力大幅提高，卷积层数更多的卷积神经网络(以下称深度卷积神经网络，deep NCC)被认为是可以模拟任何目标函数，有非常大的适用性，比如应用于多通道数据识别。在将深度卷积神经网络应用于多通道数据识别时，目前使用三维卷积核(3D filter)处理多个通道的数据，这会导致训练得到的三维卷积核彼此之间非常相似，即三维卷积核彼此之间的区分度不够，从而影响深度卷积神经网络识别度。

由于训练数据少等原因，神经网络训练过程中往往出现“过拟合(over-fitting)”。过拟合是指训练出的神经网络模型过分与样本数据拟合，以至于任何与样本数据稍有不同的数据无法被神经网络识别。

为了解决深度卷积神经网络训练中的“过拟合”问题，现有深度卷积神经网络采用dropout(丢弃)技术，即，在深度卷积神经网络训练过程中随机选择某些神经元进行丢弃，使该神经元不参与深度卷积神经网络训练。

但是，由于dropout技术是随机选取神经元不参与训练，丢失了某些神经元对应的图像区域的所有通道的信息，这样极有可能降低深度卷积神经网络的识别度。

发明内容

本发明实施例提供了一种卷积神经网络的训练方法、一种基于卷积神经网络的目标识别方法及装置，用以针对信号通道进行卷积并选择部分通道参与训练或识别，以此来提高卷积神经网络的识别度。

本发明实施例提供的卷积神经网络的训练方法，包括：

在卷积神经网络中执行正向传递过程，在所述正向传递过程中，在每个卷积层上，每个神经元基于输入的每个信号通道，对所述每个信号通道上的数据分别进行卷积，选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层神经元的输入；

根据所述正向传递过程的输出结果，在所述卷积神经网络中执行反向传递过程，以修正所述卷积神经网络的模型参数。

上述方案中，一方面，由于卷积神经网络在正向传递过程中，基于信号通道对不同的信号通道上的数据分别进行卷积，由于不同信号通道的差异性，使得训练得到的神经元卷积核彼此之间存在一定差异，从而与现有技术相比可以提高卷积神经网络的识别度；另一方面，由于卷积神经网络在正向传递过程中，基于信号通道进行dropout，神经元数量不变，因而与现有技术相比，可以避免将局部感受域的所有通道的数据均丢弃，从而可以通过这种训练方式使得卷积神经网络的识别度得以提高。

在一种优选方案中，所述选择部分信号通道，包括：从输入的所有信号通道中随机选择部分信号通道；利用最值函数并根据所述每个信号通道上的数据的卷积结果，从随机选择出的信号通道中再次选择信号通道。

上述优选方案中，在进行dropout时，首先随机选择部分信号通道，可以使得被丢弃的信号通道具有一定随机性以保证训练结果的合理性，进而保证卷积神经网络的识别度；再利用最值函数再次进行信号通道的选取，从而可选择对于训练结果最有用处的信号通道，以保证卷积神经网络的识别度。

进一步的，在上述优选方案中，所述最值函数为用于取最大值的函数，利用最值函数再次选择出的信号通道为所述随机选择出的信号通道中卷积结果值最大的信号通道。这样，一方面如前所述可以使卷积神经网络的识别度得到一定程度的保证，另一方面使用最值函数几乎可以模拟任何刺激函数。

在一种优选方案中，所述信号通道为单通道或通道组合，这样扩展了本发明实施例的使用范围并提高了灵活性。

进一步的，在上述优选方案中，若所述信号通道为单通道，则利用二维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积；或者，若所述信号通道为通道组合，则利用三维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积。这样，根据信号为单通道还是通道组合的不同情况，给出了相匹配的卷积方式。

在一种优选方案中，在所述反向传递过程中，对于所述正向传递过程中选择出的信号通道，至少调整该信号通道所对应的层间连接的权重；对于未被选择的信号通道，保持该信号通道对应的模型参数不变。

上述优选方案，在调整权重的时候，仅仅调整最终“被选择”的那个信号通道对应的相关模型参数，其他信号通道对应的相关模型参数可保持不变。由于在正向传递时实际上仅仅选择了此信号通道的信息传播到下一层，那么，从最后一层反馈回来的对权重以及其他参数的调整，也应该仅仅只对此信号通道有效。

在一种优选方案中，所述卷积神经网络的模型参数至少包括层间连接的权重，当然还可包含其他模型参数。

在一种优选方案中，所述正向传递过程和所述反向传递过程，由图形处理单元GPU执行，从而可以利用GPU的并行运算等技术，提高卷积神经网络计算的性能。

本发明实施例提供的基于卷积神经网络的目标识别方法，包括：

卷积神经网络接收待进行目标识别的输入数据后，执行目标识别过程并输出目标识别结果；其中，在所述目标识别过程中，在每个卷积层上，每个神经元基于输入的每个信号通道，对所述每个信号通道上的数据分别进行卷积，选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层神经元的输入。

上述方案中，一方面，由于卷积神经网络在对象识别过程中，基于信号通道对不同的信号通道上的数据分别进行卷积，由于不同信号通道的差异性，使得训练得到的神经元卷积核彼此之间存在一定差异，从而与现有技术相比可以提高卷积神经网络的识别度；另一方面，由于卷积神经网络在对象识别过程中，基于信号通道进行dropout，神经元数量不变，因而与现有技术相比，可以避免将局部感受域的所有通道的数据均丢弃，从而可以通过这种训练方式使得卷积神经网络的识别度得以提高。

进一步的，在上述优选方案中，所述最值函数为用于取最大值的函数，利用最值函数再次选择出的信号通道为所述随机选择出的信号通道中卷积结果值最大的信号通道。

在一种优选方案中，所述信号通道为单通道或通道组合。

进一步的，在上述优选方案中，所述针对输入到神经元的每个信号通道的数据分别进行卷积，包括：若所述信号通道为单通道，则利用二维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积；或者，若所述信号通道为通道组合，则利用三维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积。

在一种优选方案中，所述目标识别过程是指对输入的图像进行类别识别的过程，所述目标识别结果为类别标识，所述类别标识用于表示所述图像中的对象所属的类别或所述图像中包含的目标对象所属的类别；或者

所述目标识别过程是指对输入的至少两个图像进行比对的过程，所述目标识别结果为比对结果标识，所述比对结果标识用于表示所述至少两个图像中的对象是否相同；或者

所述目标识别过程是指对输入的图像进行属性识别的过程，所述目标识别结果为属性识别结果标识，所述属性识别结果标识用于表示所述图像中是否包含目标对象。

在一种优选方案中，所述目标识别过程，由图形处理单元GPU执行。

本发明实施例提供的卷积神经网络的训练和识别装置，包括：

存储器，用于被配置以存储卷积神经网络的模型的描述信息；

流处理器，用于被配置以在所述卷积神经网络中执行训练过程和目标识别过程，所述训练过程包括正向传递过程和反向传递过程，其中：

在所述正向传递过程中，在每个卷积层上，每个神经元基于输入的每个信号通道，对所述每个信号通道上的数据分别进行卷积，选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层神经元的输入；

根据所述正向传递过程的输出结果，在所述卷积神经网络中执行反向传递过程，以修正所述卷积神经网络的模型参数；

在所述目标识别过程中，在每个卷积层上，每个神经元基于输入的每个信号通道，对所述每个信号通道上的数据分别进行卷积，选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层神经元的输入。

上述方案中，一方面，由于卷积神经网络基于信号通道对不同的信号通道上的数据分别进行卷积，由于不同信号通道的差异性，使得训练得到的神经元卷积核彼此之间存在一定差异，从而与现有技术相比可以提高卷积神经网络的识别度；另一方面，由于卷积神经网络基于信号通道进行dropout，神经元数量不变，因而与现有技术相比，可以避免将局部感受域的所有通道的数据均丢弃，从而可以通过这种训练方式使得卷积神经网络的识别度得以提高。

在一种优选方案中，所述流处理器具体用于：从输入的所有信号通道中随机选择部分信号通道；利用最值函数并根据所述每个信号通道上的数据的卷积结果，从随机选择出的信号通道中再次选择信号通道。

在一种优选方案中，所述信号通道为单通道或通道组合。

进一步的，在上述优选方案中，所述流处理器具体用于，若所述信号通道为单通道，则利用二维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积；或者，若所述信号通道为通道组合，则利用三维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积。

在一种优选方案中，所述流处理器具体用于：在所述反向传递过程中，对于所述正向传递过程中选择出的信号通道，至少调整该信号通道所对应的层间连接的权重；对于未被选择的信号通道，保持该信号通道对应的模型参数不变。

在一种优选方案中，所述卷积神经网络的模型参数至少包括卷积层间连接的权重。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中一个示例的卷积神经网络模型图；

图2为现有技术中输入层的卷积结构示意图；

图3为本发明实施例提供的GPU结构示例图；

图4a和图4b为传统的卷积神经网络模型的一个典型示例图；

图4c为传统卷积神经网络中一个神经元的输入与输出示意图；

图4d为传统卷积神经网络的dropout示意图；

图5a为本发明实施例中的卷积神经网络中一个神经元的输入输出示意图；

图5b为本发明实施例中的卷积神经网络的dropout示意图；

图6为本发明实施例中卷积神经网络的训练过程的一个示例流程；

图7为本发明实施例中RGB图像作为输入数据时输出层的处理示意图；

图8为本发明实施例中基于卷积神经网络的对象识别过程的一个示例流程。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

以下描述涉及GPU(Graphics Processing Unit，图形处理器)、卷积神经网络模型架构、对卷积神经网络的训练，以及基于卷积神经网络进行对象识别。

1、GPU

GPU是一种专门在个人计算机、工作站等电子设备和一些移动设备(如平板电脑、智能手机等)上进行图像运算工作的微处理器。GPU可单独与专用电路板以及附属组件组成显卡，或单独一片芯片直接集成到主板上，或者内置于主板的北桥芯片中，也可以内置于中央处理器(CPU)上。由于其具有强大的图像处理能力，本发明实施例优选地使用GPU对卷积神经网络进行训练以及基于卷积神经网络进行对象识别。

图3所示的GPU示例性地给出了本发明实施例提供的GPU结构300，该GPU结构300可用于图像识别。GPU 300中包含存储器310和一组流处理器(Stream Processers)320(图中示例性地示出了4个流处理器，但本发明对流处理器的数量不做限制)，存储器310可以由DRAM(Dynamic Random Access Memory，动态随机存取存储器)实现，用来存储数据，其中与本发明实施例相关的数据主要包括卷积神经网络的模型的描述信息，以及卷积神经网络的输入和输出数据等，存储器310可以是内置存储器也可以是外置存储器。流处理器320用来执行与图像有关的处理操作，其中与本发明实施例相关的操作可包括卷积神经网络的训练以及基于卷积神经网络的对象识别。该组流处理器320被配置以并行地进行数据处理，如并行地进行卷积等运算。

卷积神经网络的模型信息以及作为卷积神经网络输入数据的图像数据(比如图像样本或待识别的图像)，从主机端(比如主机的内存、硬盘等外置存储器)传输到存储器310中。在卷积神经网络训练过程中，图像样本被分配到该组流处理器320中，该组流处理器320利用并行计算技术进行卷积、通道选取、反向误差计算等操作，最后得到的结果(比如训练时生成的模型数据)再被传回存储器310。在对象识别过程中，作为待识别的图像被分配到该组流处理器320中，该组流处理器320利用并行计算技术进行卷积、通道选取等操作，最后得到的结果(比如识别到的分类结果或对比结果)再被传回存储器310。

正是因为能够并行计算，使得GPU成为卷积神经网络计算的优选平台。在为利用流处理器而写的GPU可执行程序的控制下，流处理器计算被频繁地执行，以实现卷积神经网络的训练，或是基于卷积神经网络进行对象识别。

上述GPU结构300是以实现图像识别为例描述的，对于用于处理其它类型的数据的GPU，比如用于进行音频识别的GPU，其结构与上述用于图像识别的GPU结构类似。

2、卷积神经网络模型

卷积神经网络是多层的神经网络，每层由多个二维平面组成，每个平面由多个独立神经元组成。每个神经元的输入与前一层的局部接受域相连，并提取该局部接受域的特征。

在卷积神经网络中，对于每个卷积层上的每个神经元，使用卷积核(或称滤波器)对输入的数据进行卷积计算，然后再使用刺激函数对卷积结果进行计算以得到特征信息(比如对于图像识别来说，该特征信息可以是特征图)，该特征信息被输出到下一层，作为下一层上的神经元的输入数据。对于多通道数据的识别，比如多通道图像的识别，目前的卷积神经网络使用三维卷积核(3D filter)进行卷积计算。

图4a和图4b示出了传统的卷积神经网络模型的一个典型示例，该卷积神经网络用于多通道图像的识别。多通道图像数据输入到卷积神经网络后，经过若干个处理过程(如图中的stage)最终输出识别结果。一个stage的处理过程可包括：卷积、归一化处理(如图中的LCN，即local constant normalization)以及下采样(如图中的pooling)。一个局部感受域(比如5×5像素)的多通道图像数据输入到输入层的每个神经元后，各神经元的3D filter被用来对输入数据进行卷积等处理以得到不同的特征信息。

图4c抽象地示出了该传统的卷积神经网络中一个神经元的输入与输出。如图所示，C₁,C₂到C_n是不同的信号通道，针对某一个局部感受域(该局部感受域包含多个通道)，使用不同的3D filter对该局部感受域的C₁到C_n信号通道上的数据进行卷积，卷积结果被输入刺激节点(如图中的activation unit)，刺激节点根据max function函数进行计算以得到特征信息。

图4d抽象地示出了该传统的卷积神经网络的dropout的示例。在传统的卷积神经网络中，随机将部分神经元进行丢弃(dropout)，使这些神经元的输出数据不参与卷积神经网络的训练。这样，在输入图像的某些位置上，所有通道上的数据都会被丢失。

与上述传统的卷积神经网络不同，本发明实施例提供的卷积神经网络在一个神经元上，基于每个信号通道分别进行卷积，并基于信号通道进行dropout。

图5a示出了本发明实施例提供的卷积神经网络中的一个卷积层上的输入和输出，与图4c相比，图5a中，在对输入数据进行卷积计算时，基于输入的每个信号通道的数据分别进行卷积计算，然后在选择节点(selection unit)使用选择算法进行通道选择，将选择出的通道的卷积结果输出到刺激节点(activation unit)。

图5b示出了本发明实施例提供的卷积神经网络的dropout示例，与图4d相比，本发明实施例提供的dropout方法仅基于信号通道进行dropout。即，基于输入的每个通道的数据分别进行卷积计算后，随机选择部分信号通道进行dropout(丢弃)，保留下来的信号通道的卷积结果被输出到选择节点(selection unit)，选择节点采用选择算法选择部分信号通道(比如最大的卷积结果值对应的通道)的卷积结果输出到刺激节点(activation unit)。

需要说明的是，本发明实施例提供的卷积神经网络中，输入到一个神经元的数据可以是单通道的数据，也可以是多通道组合的数据。比如，对于RGB图像数据，输入到一个神经元的数据可以R通道、G通道或B通道数据，也可以是R+G通道的数据、R+B通道的数据或G+B通道的数据。

通过将本发明实施例提供的卷积神经网络与传统的卷积神经网络相比可以看出，一方面，由于本发明实施例提供的卷积神经网络基于信号通道对不同的信号通道上的数据分别进行卷积，由于不同信号通道的差异性，使得训练得到的神经元卷积核彼此之间存在一定差异，从而与现有技术相比可以提高卷积神经网络的识别度；另一方面，由于本发明实施例提供的卷积神经网络基于信号通道进行dropout，神经元数量不变，因而与现有技术相比，可以避免将局部感受域的所有通道的数据均丢弃，从而可以通过这种训练方式使得卷积神经网络的识别度得以提高。

3、卷积神经网络的训练过程

图6示出了卷积神经网络的训练过程的一个示例流程。在该示例流程的各种实现中，各步骤可以被删除、组合或分成子步骤。该示例流程可包括准备阶段和训练阶段。

在准备阶段，需要准备训练用样本数据和卷积神经网络。所述训练用样本数据包括大量多通道数据，比如成千上万数量级的多通道图像样本，并要标出每个样本对应的正确识别结果。所述卷积神经网络的模型可参见前述的描述，卷积神经网络的模型的描述信息可配置到GPU的存储器310中。优选地，卷积神经网络的模型的初始参数中，不同层间连接的权重(weight)值取不同的初始值。

在训练阶段，这些样本中的每一个都将输入至卷积神经网络，并且计算输出以确定输出结果与期望的输出结果有多远。这个过程被称为“正向传递”。然后，根据输出结果与期望结果的差异，确定卷积神经网络模型参数的误差度，根据误差修正模型参数，从而进行卷积神经网络学习，这个过程被称为“反向传递”。“正向传递”过程和“反向传递”过程，均可由GPU 300来实现，即由GPU 300的一组流处理器320来实现。具体来说，训练过程可包括如下步骤610～660。

在步骤610中，输入样本数据到卷积神经网络。如前所述，这里的样本数据为多通道数据(具有多个信号通道的数据)，比如多通道的图像。

在步骤620中，卷积神经网络执行正向传递过程。输入的样本数据经卷积神经网络的正向传递过程，可以得到该给定样本的输出结果。

与传统卷积神经网络中一个神经元对一个局部接受域的所有通道数据进行卷积以及随机选择部分神经元进行dropout不同，本发明实施例中，卷积神经网络基于多通道的每个信号通道进行卷积，并选择部分信号通道进行dropout。

具体来说，在本发明实施例中，在卷积神经网络所执行的正向传递过程中，在每个卷积层上，每个神经元基于输入的每个信号通道，对所述每个信号通道的数据分别进行卷积，选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层的神经元的输入，丢弃未被选择的信号通道的卷积结果。

优选地，在一种实现中，在针对输入到神经元的每个信号通道的数据分别进行卷积，得到每个信号通道的卷积结果之后，可从每个信号通道的卷积结果中，按照一定比例(比如70％，该比例可根据需要预先设定)随机选择部分信号通道，然后采用一定的选择算法或函数，从随机选择出的信号通道的卷积结果中选择一个或多个卷积结果，采用一定映射算法或函数对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层的神经元的输入。

其中，所述映射算法或函数可以表示为y＝x(x代表输入，y代表输出)，当然也可使用其他映射算法或函数。所述选择算法或函数可以是最值函数(如max function，max函数)或其它算法或函数。采用max函数可以从所有得到的卷积结果中，选择具有最大值的卷积结果对应的信号通道。

传统的卷积算法中，一般默认(几乎所有的算法)是经过卷积之后，如果在某位置得到的数值越大(响应越强烈)，则说明想得到的某种特征在此处存在。举例来说，如果有一个卷积核是用来检测图中是否有内黑外白的圆形点状物存在的，当该卷积核在某处反馈的值越大，则代表在此处找到了想要的特征(此处为圆形点状物)。因此，如果通过max函数选择反馈值最大的信号通道，也就代表了这个信号通道的响应对于训练是最有用处的。换言之，如果所有的卷积算法都规定经过卷积之后值越小代表响应越强烈，则就应该选择最小值函数了。另外，使用max函数几乎可以模拟任何刺激函数。从理论上来说，max函数在输入组合无限多的情况下可以逼近任意目标函数。这为使用max函数提供了理论依据。

需要说明的是，这里的“信号通道”是指单通道，比如RGB模式图像中的R通道、G通道或B通道，也可以是指通道组合，比如RGB模式图像中的R+G通道、R+B通道或G+B通道等。若信号通道为单通道，则可利用二维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积；若信号通道为通道组合，则可利用三维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积。

在步骤630～650中，根据正向传递过程的输出结果，在卷积神经网络中执行反向传递过程，以修正所述卷积神经网络的模型参数。所述卷积神经网络的模型参数可包括层间连接的权重(weight)，还可以包括用于执行特征映射的刺激函数的参数等参数。

具体来说，在步骤630中，采用误差函数，计算卷积神经网络距离期望输出结果有多远，然后在步骤640中，为误差函数确定梯度函数，通过该梯度函数得到每个卷积神经网络矩阵的每个条目相对于误差的偏导数，GPU可根据梯度下降法计算出每个矩阵的调整量。然后，在步骤650中，包括卷积核和偏差的矩阵，根据梯度函数得到修正。通过上述“反向传递”过程，可根据样本输出结果确定卷积神经网络与期望结果的误差，根据该误差来确定每个卷积神经网络矩阵所需作出的修正，从而达到训练卷积神经网络的目的。

在所述反向传递过程中，对于正向传递过程中选择出的信号通道，调整该信号通道对应的层间连接的权重以及其他模型参数(比如偏置量)；对于未被选择的信号通道对应的卷积层间的连接，保持该连接上的权重值以及其他模型参数值不变。例如，在图5b中，在正向传递过程中，若选择节点(selection unit)采用最值函数选择通道c₁的卷积结果输入到刺激节点(activation unit)，则在反向传递过程中，调整通道c₁对于的连接(如图中的link 1)的权重值，其它通道对应的层间连接的权重值保持原来的数值不变。

本实施例在调整权重的时候，优选地仅仅调整最终“被选择”的那个信号通道对应的相关模型参数，其他信号通道对应的相关模型参数可保持不变。由于在正向传递时实际上仅仅选择了此信号通道的信息传播到下一层，那么，从最后一层反馈回来的对权重以及其他参数的调整，也应该仅仅只对此信号通道有效，这是一一对应的关系。

最后，在步骤660中，只要有更多的样本输入，上述正向传递和反向传递步骤就会被反复执行。在样本输入结束时，卷积神经网络已经对这些输入进行训练，上述卷积神经网络训练过程就此结束。

为了更清楚地说明上述正向传递过程，图7示例性地示出了输入数据为RGB模式的多通道图像输入到输入层后的处理过程。如图所示，一个局部感受域的R通道、G通道和B通道上的数据分别输入不同的卷积节点(convolutional units，图中示为Conv节点)，卷积节点根据输入的数据以及相应层间连接上的权重等参数进行卷积计算，然后各通道的卷积结果输入到选择节点(selection unit，图中示为Select节点)，选择节点使用max函数从中选择卷积结果值最大的信号通道，将该信号通道的卷积结果输出到下一层。其中，为R通道对应的3个连接上的权重，为G通道对应的3个连接上的权重，为B通道对应的3个连接上的权重。中间的卷积层上的神经元的计算过程与此类似。

4、基于卷积神经网络进行对象识别

基于卷积神经网络的对象识别过程，大致与神经网络训练过程中的正向传递过程类似，下面仅结合图7大致描述基于卷积神经网络的对象识别过程，该过程中的具体细节实现可参照前述的训练过程中的正向传递过程。所述卷积神经网络的模型可参见前述的描述，所述基于卷积神经网络的对象识别过程可由GPU 300来实现。

图8示出了基于卷积神经网络的对象识别过程的一个示例流程。在该示例流程的各种实现中，各步骤可以被删除、组合或分成子步骤。具体来说，训练过程可包括如下步骤810～820。

在步骤810中，输入待识别的数据到卷积神经网络。如前所述，这里的输入数据为多通道数据，比如多通道的图像。

在步骤820中，卷积神经网络执行对象识别过程。输入的输入数据经卷积神经网络的对象识别过程，可以得到输出结果。

具体来说，在卷积神经网络所执行的对象识别传递过程中，在除最后一个卷积层以外的每个卷积层上，每个神经元基于输入的每个信号通道，对每个信号通道上的数据分别进行卷积，选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层神经元的输入。

其中，所述映射算法或函数可以表示为y＝x(x代表输入，y代表输出)，当然也可使用其他映射算法或函数。所述选择算法或函数可以是最值函数(如max function)或其它算法或函数。采用最值函数可以从所有得到的卷积结果中，选择具有最大值的卷积结果对应的信号通道。

需要说明的是，这里的“信号通道”是指单通道，比如RGB模式图像中的R通道、G通道或B通道，也可以是指通道组合，比如RGB模式图像中中的R+G通道、R+B通道或G+B通道等。若信号通道为单通道，则可利用二维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积；若信号通道为通道组合，则可利用三维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积。

这里的目标识别过程，可以是指对输入的图像进行类别识别的过程，这种情况下，卷积神经网络的输出结果为类别标识，该类别标识用于表示图像中的对象所属的类别或图像中包含的目标对象所属的类别。目标识别过程也可以是指对输入的至少两个图像进行比对的过程，这种情况下，卷积神经网络的输出结果为比对结果标识，该比对结果标识用于表示输入的至少两个图像中的对象是否相同。目标识别过程还可以是指对输入的图像进行属性识别的过程，这种情况下，卷积神经网络的输出结果为属性识别结果标识，该属性识别结果标识用于表示输入的图像中是否包含目标对象，比如输出的人脸图像中是否有眼镜。

5、运算环境

本发明实施例提供的卷积神经网络适用于多通道数据的处理。比如，可对RGB(一种包含Red，Green和Blue亮度的3通道颜色模式)、HSV(一种包含色调、饱和度和亮度的3通道颜色模式)或LAB(LAB色彩空间是颜色-对立空间，带有维度L表示亮度，A和B表示颜色对立维度，基于了非线性压缩的CIE XYZ色彩空间坐标)等多通道图像进行识别，也可以对具有更多通道的图像或数据或信函进行识别。

上述卷积神经网络训练方法和基于卷积神经网络的对象识别方法，可以在执行数字媒体信号处理的各种设备中实施，包括：计算机，图像和视频记录、传输和接收设备，便携式视频播放器，视频会议等。上述技术可在硬件电路中实施，也可用在计算机或其他计算环境中执行的数字媒体处理软件来实现。

综上所述，本发明的上述实施例中，一方面，由于卷积神经网络在正向传递过程和对象识别过程中，基于信号通道对不同的信号通道上的数据分别进行卷积，由于不同信号通道的差异性，使得训练得到的神经元卷积核彼此之间存在一定差异，从而与现有技术相比可以提高卷积神经网络的识别度；另一方面，由于剪辑神经网络在正向传递过程和对象识别过程中，基于信号通道进行dropout，神经元数量不变，因而与现有技术相比，可以避免将局部感受域的所有通道的数据均丢弃，从而可以通过这种训练方式使得卷积神经网络的识别度得以提高。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器，使得通过该计算机或其他可编程数据处理设备的处理器执行的指令可实现流程图中的一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图的一个流程或多个流程和/或方框图的一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种卷积神经网络的训练方法，其特征在于，包括：

在卷积神经网络中执行正向传递过程，在所述正向传递过程中，在每个卷积层上，每个神经元基于输入的每个信号通道，对所述每个信号通道上的数据分别进行卷积，所述信号通道上的数据包括信号通道的图像和所述图像对应的正确识别结果；选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到所述卷积神经网络的特征信息，将得到的所述卷积神经网络的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层神经元的输入，所述输出结果用于确定所述卷积神经网络与期望结果的误差；

2.如权利要求1所述的方法，其特征在于，所述选择部分信号通道，包括：

从输入的所有信号通道中随机选择部分信号通道；

利用最值函数并根据所述每个信号通道上的数据的卷积结果，从随机选择出的信号通道中再次选择信号通道。

3.如权利要求2所述的方法，其特征在于，所述最值函数为用于取最大值的函数，利用最值函数再次选择出的信号通道为所述随机选择出的信号通道中卷积结果值最大的信号通道。

4.如权利要求1所述的方法，其特征在于，所述信号通道为单通道或通道组合。

5.如权利要求4所述的方法，其特征在于，对所述每个信号通道上的数据分别进行卷积，包括：

若所述信号通道为单通道，则利用二维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积；或者

若所述信号通道为通道组合，则利用三维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积。

6.如权利要求1所述的方法，其特征在于，在所述反向传递过程中，对于所述正向传递过程中选择出的信号通道，至少调整该信号通道所对应的层间连接的权重；对于未被选择的信号通道，保持该信号通道对应的模型参数不变。

7.如权利要求1-6中任一项所述的方法，其特征在于，所述正向传递过程和所述反向传递过程，由图形处理单元GPU执行。

8.一种基于卷积神经网络的目标识别方法，其特征在于，目标识别过程是指对输入的图像进行类别识别的过程，目标识别结果为类别标识，所述类别标识用于表示所述图像中的对象所属的类别或所述图像中包含的目标对象所属的类别；或者所述目标识别过程是指对输入的至少两个图像进行比对的过程，所述目标识别结果为比对结果标识，所述比对结果标识用于表示所述至少两个图像中的对象是否相同；或者所述目标识别过程是指对输入的图像进行属性识别的过程，所述目标识别结果为属性识别结果标识，所述属性识别结果标识用于表示所述图像中是否包含目标对象；

所述方法包括：

9.如权利要求8所述的方法，其特征在于，所述选择部分信号通道，包括：

从输入的所有信号通道中随机选择部分信号通道；

10.如权利要求9所述的方法，其特征在于，所述最值函数为用于取最大值的函数，利用最值函数再次选择出的信号通道为所述随机选择出的信号通道中卷积结果值最大的信号通道。

11.如权利要求8所述的方法，其特征在于，所述信号通道为单通道或通道组合。

12.如权利要求11所述的方法，其特征在于，对所述每个信号通道上的数据分别进行卷积，包括：

13.如权利要求8-12中任一项所述的方法，其特征在于，所述目标识别过程，由图形处理单元GPU执行。

14.一种卷积神经网络的训练和识别装置，其特征在于，包括：

在所述目标识别过程中，在每个卷积层上，每个神经元基于输入的每个信号通道，对所述每个信号通道上的数据分别进行卷积，选择部分信号通道，对选择出的信号通道的卷积结果进行特征映射以得到特征信息，将得到的特征信息作为该神经元的输出结果进行输出以作为下一个卷积层神经元的输入；

其中，所述目标识别过程是指对输入的图像进行类别识别的过程，目标识别结果为类别标识，所述类别标识用于表示所述图像中的对象所属的类别或所述图像中包含的目标对象所属的类别；或者所述目标识别过程是指对输入的至少两个图像进行比对的过程，所述目标识别结果为比对结果标识，所述比对结果标识用于表示所述至少两个图像中的对象是否相同；或者所述目标识别过程是指对输入的图像进行属性识别的过程，所述目标识别结果为属性识别结果标识，所述属性识别结果标识用于表示所述图像中是否包含目标对象。

15.如权利要求14所述的卷积神经网络的训练和识别装置，其特征在于，所述流处理器具体用于：

从输入的所有信号通道中随机选择部分信号通道；

16.如权利要求15所述的卷积神经网络的训练和识别装置，其特征在于，所述最值函数为用于取最大值的函数，利用最值函数再次选择出的信号通道为所述随机选择出的信号通道中卷积结果值最大的信号通道。

17.如权利要求14所述的卷积神经网络的训练和识别装置，其特征在于，所述信号通道为单通道或通道组合。

18.如权利要求17所述的卷积神经网络的训练和识别装置，其特征在于，所述流处理器具体用于，若所述信号通道为单通道，则利用二维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积；或者，若所述信号通道为通道组合，则利用三维卷积核，针对输入到神经元的每个信号通道的数据分别进行卷积。

19.如权利要求14所述的卷积神经网络的训练和识别装置，其特征在于，所述流处理器具体用于：在所述反向传递过程中，对于所述正向传递过程中选择出的信号通道，至少调整该信号通道所对应的层间连接的权重；对于未被选择的信号通道，保持该信号通道对应的模型参数不变。