CN104680508A

CN104680508A - 卷积神经网络和基于卷积神经网络的目标物体检测方法

Info

Publication number: CN104680508A
Application number: CN201310633797.4A
Authority: CN
Inventors: 欧阳万里; 许春景; 刘健庄; 王晓刚
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2015-06-03
Anticipated expiration: 2033-11-29
Also published as: CN104680508B; WO2015078185A1

Abstract

本发明提供一种卷积神经网络和基于卷积神经网络的目标物体检测方法，所述卷积神经网络包括：特征提取层、部位检测层、形变处理层、遮挡处理层和分类器，本发明实施例提供的卷积神经网络，联合了优化特征提取、部位检测、形变处理、遮挡处理和分类器学习，通过形变处理层使得卷积神经网络能够学习目标物体的形变，并且形变学习和遮挡处理进行交互，这种交互能提高分类器根据所学习到的特征分辨目标物体和非目标物体的能力。

Description

卷积神经网络和基于卷积神经网络的目标物体检测方法

技术领域

本发明涉及数据通讯技术，尤其涉及一种卷积神经网络和基于卷积神经网络的目标物体检测方法。

背景技术

物体检测是机器视觉中的基本的问题之一，检测到物体后能方便对物体进行存储、分析、3D建模、识别、跟踪和搜索。常用的物体检测如行人检测，行人检测的目的是在图像中找出行人的位置和所占区域，行人检测的主要难点是行人在着装、光照、背景、身体形变和遮挡方面的变化。行人检测时，首先，需要提取出能够区别行人和非行人的特征，常用的方法有Haar-like特征和梯度直方图（Histogram of Oriented Gradient，简称HOG）。其次，由于行人身体（如头，身体，腿）的运动会产生行人视觉信息的形变，所以提出了可以形变的模型用于处理行人身体运动造成的形变。再次，为了解决由于遮挡造成的视觉信息丢失，很多处理遮挡的方法找出图片中行人被遮挡的部位以避免用这些被遮挡的图像信息来判断给定矩形框中是否存在行人。最后，分类器用于判断给定的矩形框中是否存在行人。

图1为现有技术一的行人检测方法示意图，如图1所示，现有技术一的行人检测方法主要包括以下步骤：1、在第一阶段对一幅输入图像进行卷积，对卷积后的结果进行下采样得到第一阶段的输出；2、根据第一阶段的输出继续进行卷积和下采样得到第二阶段中上面一行的输出；3、第一阶段的输出通过支线进行下采样得到第二阶段中下面一行的输出；4、根据第二阶段的输出进行分类。这种方法中，主要是学习特征提取，每一步在处理时对于处理结果并没有一个明确的目标，因此，输出结果是不可预见的，而且没有对行人的身体运动和遮挡进行建模。当行人图像存在形变和遮挡时，效果较差。图2为现有技术二的行人检测的方法示意图，该方法将行人分成由整个行人的模板构成的根节点和由行人身体部分（如头，腿上半部分，或者腿下半部分）构成的子节点。子节点与根节点具有形变约束，例如头不能离身体太远。如图2所示，该现有技术的行人检测方法包括以下步骤：1、对一幅输入图像进行特征提取，得到两种不同分辨率(resolution)的特征图(feature map)；2、对低分辨率的特征图使用作为根节点的滤波模板进行匹配，得到匹配后的响应；3、对高分辨率的特征图使用作为子节点的滤波模板进行匹配，得到匹配后的响应。图2的模型中有5个子节点，所以有5个子节点的滤波模板，得到5个匹配后的响应；4、子节点的响应通过与根节点的形变约束进行修正，得到修正后的响应；5、根据子节点的响应和根节点的响应得到对于行人是否存在的总体响应。现有技术二能够对物体部分形变进行建模，对身体运动更加鲁棒，但是此技术在根据物体的特征图与模板进行匹配时，使用人为定义的特征，不能自动学习特征，并且不能处理遮挡的情况。

发明内容

本发明实施例提供一种卷积神经网络和基于卷积神经网络的目标物体检测方法，能够对目标物体的形变和遮挡进行处理。

本发明第一方面提供一种基于卷积神经网络的目标物体检测方法，所述卷积神经网络包括：特征提取层、部位检测层、形变处理层、遮挡处理层和分类器；

所述特征提取层根据提取图像中检测区域的像素值，对所述检测区域的像素值进行预处理，并对所述预处理后的图像进行特征提取，得到所述检测区域的特征图；

所述部位检测层通过M个过滤器分别检测所述检测区域的特征图，输出所述检测区域的M个部位对应的响应图，每个过滤器用于检测一个部位，每个部位对应一个响应图；

所述形变处理层根据所述M个部位对应的响应图分别确定所述M个部位的形变，并根据所述N个部位的形变确定所述M个部位的得分图；

所述遮挡处理层根据所述M个部位的得分图确定所述M个部位对应的遮挡；

所述分类器根据所述遮挡处理层的输出结果，确定所述检测区域内是否有目标物体。

在本发明第一方面的第一种可能的实现方式中，所述特征提取层提取图像中检测区域的像素值，对所述检测区域内的像素值进行预处理，包括：

所述特征提取层提取所述图像中检测区域的像素值，将所述检测区域的像素值转换为三个通道的数据，所述三个通道分别为第一通道、第二通道、第三通道；

其中，所述第一通道的输出数据对应所述检测区域内的YUV像素值的Y通道数据；

所述第二通道用于将所述检测区域的大小缩小为原大小的四分之一，并将所述缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤所述转换为YUV格式的检测区域，分别得到所述检测区域在Y、U、V三个通道上第一边缘图，所述Y、U、V通道分别对应一个第一边缘图，取所述三个第一边缘图中各位置上的最大值，组成一个第二边缘图，所述三个第一边缘图以及第二边缘图大小相同，都为所述检测区域的四分之一大小，将所述三个第一边缘图和所述第二边缘图的拼接图作为所述第二通道的输出数据；

所述第三通道用于将所述检测区域的大小缩小为原大小的四分之一，并将所述缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤所述转换为YUV格式的检测区域，分别得到所述检测区域在Y、U、V三个通道上的第一边缘图，所述Y、U、V通道分别对应一个第一边缘图，生成一个第三边缘图，所述第三边缘图各位置的数据为0，所述三个第一边缘图以及第三边缘图大小相同，都为所述检测区域的四分之一大小，将所述三个第一边缘图和所述第三边缘图的拼接图作为所述第三通道的输出数据。

在本发明第一方面的第二种可能的实现方式中，所述部位检测层包括三个子层，分别为第一子层、第二子层和第三子层，所述部位检测层的第一子层包括M1个过滤器，所述部位检测层的第二子层包括M2个过滤器，所述部位检测层的第三子层包括M3个过滤器，其中，M1+M2+M3=M；

所述部位检测层的第一子层的M1个过滤器分别检测所述检测区域内的M1个部位，得到M1个响应图；

所述部位检测层的第二子层的M2个过滤器分别检测所述检测区域内的M2个部位，得到M2个响应图；

所述部位检测层的第三子层的M3个过滤器分别检测所述检测区域内的M3个部位，得到M3个响应图。

在本发明第一方面的第三种可能的实现方式中，所述形变处理层根据所述M个部位对应的响应图分别确定所述M个部位的形变，并根据所述M个部位的形变确定所述M个部位的得分图，包括：

所述形变处理层根据所述M个部位对应的响应图，分别按照公式（1）得到所述第P个部位的形变得分图：

B_{p} = M_{p} + Σ_{n = 1}^{N} D_{n, p} C_{n, p} - - - (1)

其中，B_p表示第p个部分的形变得分图，1≤p≤M，M_p表示所述第p个部分对应的响应图，N表示所述第p个部位的限制条件，D_n,p表示第n个限制条件对应的得分图，1≤n≤N,C_n,p表示第n个限制条件对应的权重；

所述形变处理层根据所述形变得分图，按照公式（2）确定所述第P部位的得分图：

S_{p} = \underset{(x, y)}{\max B_{p}^{(x, y)}} - - - (2)

其中，表示(x，y)位置上B_p的值。

在本发明第一方面的第四种可能的实现方式中，所述遮挡处理层包括三个子层，分别为第一子层、第二子层、第三子层，所述遮挡处理层根据所述M个部位的得分图确定所述M个部位对应的遮挡，包括：

所述遮挡处理层确定所述M个部位在所述遮挡处理层的子层上的得分图和可视性；

所述遮挡处理层的第一子层、第二子层、第三子层分别按照公式（3）、（4）、（5）计算所述各个部位的可视性：

{\tilde{h}}_{p}^{1} = δ (c_{p}^{1} + g_{p}^{1} s_{p}^{1}) - - - (3)

{\tilde{h}}_{p}^{l + 1} = δ ({({\tilde{h}}^{l})}^{T} w_{*, p}^{l} + c_{p}^{l + 1} + g_{p}^{l + 1} s_{p}^{l + 1}), l = 1,2 - - - (4)

\tilde{y} = δ ({({\tilde{h}}^{3})}^{T} w^{cls} + b) - - - (5)

其中，表示第P个部位在所述遮挡处理层的第1层上的得分图，表示的权重矩阵，表示的偏置，表示第P个部位在所述遮挡处理层的第1层上的可视性，σ(t)=(1+exp(-t))^-1，表示第P个部位在所述遮挡处理层的第l子层上可视性，用W^l表示h^l和h^l+1之间的传递矩阵，表示W^l的第j列，W^cls表示隐含变量的线性分类器的参数，(x)^T表示矩阵X的转置，表示所述卷积神经网络的输出结果。

本发明第二方面提供一种卷积神经网络，包括：

特征提取层，用于根据提取图像中检测区域的像素值，对所述检测区域的像素值进行预处理，并对所述预处理后的图像进行特征提取，得到所述检测区域的特征图；

部位检测层，用于通过M个过滤器分别检测所述检测区域的特征图，输出所述检测区域的M个部位对应的响应图，每个过滤器用于检测一个部位，每个部位对应一个响应图；

形变处理层，用于根据所述M个部位对应的响应图分别确定所述M个部位的形变，并根据所述N个部位的形变确定所述M个部位的得分图；

遮挡处理层，用于根据所述M个部位的得分图确定所述M个部位对应的遮挡；

分类器，用于根据所述遮挡处理层的输出结果，确定所述检测区域内是否有目标物体。

在本发明第二方面的第一种可能的实现方式中，所述特征提取层包括三个通道，分别为第一通道、第二通道、第三通道；

所述第二通道，用于将所述检测区域的大小缩小为原大小的四分之一，并将所述缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤所述转换为YUV格式的检测区域，分别得到所述检测区域在Y、U、V三个通道上第一边缘图，所述Y、U、V通道分别对应一个第一边缘图，取所述三个第一边缘图中各位置上的最大值，组成一个第二边缘图，所述三个第一边缘图以及第二边缘图大小相同，都为所述检测区域的四分之一大小，将所述三个第一边缘图和所述第二边缘图的拼接图作为所述第二通道的输出数据；

所述第三通道，用于将所述检测区域的大小缩小为原大小的四分之一，并将所述缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤所述转换为YUV格式的检测区域，分别得到所述检测区域在Y、U、V三个通道上的第一边缘图，所述Y、U、V通道分别对应一个第一边缘图，生成一个第三边缘图，所述第三边缘图各位置的数据为0，所述三个第一边缘图以及第三边缘图大小相同，都为所述检测区域的四分之一大小，将所述三个第一边缘图和所述第三边缘图的拼接图作为所述第三通道的输出数据。

在本发明第二方面的第二种可能的实现方式中，所述部位检测层包括三个子层，分别为第一子层、第二子层和第三子层，所述部位检测层的第一子层包括M1个过滤器，所述部位检测层的第二子层包括M2个过滤器，所述部位检测层的第三子层包括M3个过滤器，其中，M1+M2+M3=M；

所述部位检测层的第一子层，用于通过M1个过滤器分别检测所述检测区域内的M1个部位，得到M1个响应图；

所述部位检测层的第二子层，用于通过M2个过滤器分别检测所述检测区域内的M2个部位，得到M2个响应图；

所述部位检测层的第三子层，用于通过M3个过滤器分别检测所述检测区域内的M3个部位，得到M3个响应图。

在本发明第二方面的第三种可能的实现方式中，所述形变处理层具体用于：

B_{p} = M_{p} + Σ_{n = 1}^{N} D_{n, p} C_{n, p} - - - (1)

S_{p} = \underset{(x, y)}{\max B_{p}^{(x, y)}} - - - (2)

其中，表示(x，y)位置上B_p的值。

在本发明第二方面的第四种可能的实现方式中，所述遮挡处理层包括三个子层，分别为第一子层、第二子层、第三子层；

{\tilde{h}}_{p}^{1} = δ (c_{p}^{1} + g_{p}^{1} s_{p}^{1}) - - - (3)

{\tilde{h}}_{p}^{l + 1} = δ ({({\tilde{h}}^{l})}^{T} w_{*, p}^{l} + c_{p}^{l + 1} + g_{p}^{l + 1} s_{p}^{l + 1}), l = 1,2 - - - (4)

\tilde{y} = δ ({({\tilde{h}}^{3})}^{T} w^{cls} + b) - - - (5)

其中，表示第P个部位在所述遮挡处理层的第1层上的得分图，表示的权重矩阵，表示的偏置，表示第P个部位在所述遮挡处理层的第1层上的可视性，σ(t)=(1+exp(-t))^-1，表示第P个部位在所述遮挡处理层的第l子层上可视性，用W^l表示h^l和h^l+1之间的传递矩阵，表示W^l的第j列，W^cls表示隐含变量的线性分类器的参数，(x)^T表示矩阵X的转置，表示所述卷积神经网络的输出结果。本发明实施例提供一种（方法主题），包括：

本发明实施例的卷积神经网络和基于卷积神经网络的目标物体检测方法，由联合了优化特征提取、部位检测、形变处理、遮挡处理和分类器学习为一体的统一的卷积神经网络模型，通过形变处理层使得卷积神经网络能够学习目标物体的形变，并且形变学习和遮挡处理进行交互，这种交互能提高提高分类器根据所学习到的特征分辨目标物体和非目标物体的能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术一的行人检测方法示意图；

图2为现有技术二的行人检测的方法示意图；

图3为本发明基于卷积神经网络的目标物体检测方法一个实施例的流程图；

图4为本发明检测身体各个部位的过滤器的示意图；

图5部位检测层检测得到的结果示意图；

图6为形变处理层的操作流程示意图；

图7为遮挡处理层的处理过程示意图；

图8为本发明目标物体检测结果示意图；

图9本发明总体模型示意图；

图10为本发明卷积神经网络一个实施例的结构示意图；

图11为本发明卷积神经网络又一个实施例的结构示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图3为本发明基于卷积神经网络的目标物体检测方法一个实施例的流程图，本实施中，卷积神经网络包括：特征提取层、部位检测层、形变处理层、遮挡处理层和分类器，如图3所示，本实施例的方法可以包括：

步骤101、特征提取层根据提取图像中检测区域的像素值，对区域的像素值进行预处理，并对预处理后的图像进行特征提取，得到检测区域的特征图。

本实施例中，对目标物体进行检测只指检测在检测区域内是否有目标物体存在，检测区域可以是任意设置的一个区域，如一副图像中在划分为两个矩形框，每个矩形框就作为一个检测区域。目标物体可以是行人、汽车、动物等等。本实施例中，在对检测区域内的图像进行特征提取之间，先对图像进行预处理，消除图像的一些干扰因素，对图形预处理可以采用现有的任意一种方法，如灰度变换、直方图修正、图像平滑去噪等。

而本实施例中，特征提取层提取图像中检测区域的像素值，将检测区域的像素值转换为三个通道的数据，三个通道分别为第一通道、第二通道、第三通道，每个通道的数据独立获取，作为整个模型的输入部分。

具体地，第一通道的输出数据对应检测区域内的YUV像素值的Y通道的数据。

第二通道用于将检测区域的大小缩小为原大小的四分之一，并将缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤转换为YUV格式的检测区域，分别得到检测区域在Y、U、V三个通道上第一边缘图，其中，Y、U、V通道分别对应一个第一边缘图，取三个第一边缘图中各位置上的最大值，组成一个第二边缘图，三个第一边缘图以及第二边缘图大小相同，都为检测区域的四分之一大小，将三个第一边缘图和第二边缘图的拼接图作为第二通道的输出数据。

第三通道用于将检测区域的大小缩小为原大小的四分之一，并将缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤转换为YUV格式的检测区域，分别得到检测区域在Y、U、V三个通道上的第一边缘图，Y、U、V通道分别对应一个第一边缘图，生成一个第三边缘图，第三边缘图各位置的数据为0，三个第一边缘图以及第三边缘图大小相同，都为检测区域的四分之一大小，将三个第一边缘图和第三边缘图的拼接图作为第三通道的输出数据；

将第一通道、第二通道、第三通道的输出数据作为预处理后的像素值，然后，对预处理后的图像进行特征提取，得到检测区域的特征图，特征提取层可通过方向梯度值方图HOG、SIFT、Gabor、LBP等方式提取提取简称区域的特征图。

步骤102、部位检测层通过M个过滤器分别检测检测区域的特征图，输出检测区域的M个部位对应的响应图，每个过滤器用于检测一个部位，每个部位对应一个响应图。

部位检测层可看做时卷积神经网络系统的一个下采样层，通过M个过滤器分别检测检测区域的特征图，得到比特征图更多更明确的部位形体特征。本实施例中，部位检测层包括三个子层，分别为第一子层、第二子层和第三子层，部位检测层的第一子层包括M1个过滤器，部位检测层的第二子层包括M2个过滤器，部位检测层的第三子层包括M3个过滤器，其中，M1、M2和M3都为大于1的正整数，其M1+M2+M3=M，通常，对于一个卷积层来说，对应的过滤器的大小是固定的，但对于行人检测而言，由于人体各个部位的大小不同，因此，本实施例中，各个过滤器的大小可以不同，本发明并不对此进行限制。

部位检测层的第一子层的M1个过滤器分别检测检测区域内的M1个部位，得到M1个响应图，部位检测层的第二子层的M2个过滤器分别检测检测区域内的M2个部位，得到M2个响应图；部位检测层的第三子层的M3个过滤器分别检测检测区域内的M3个部位，得到M3个响应图。

以下将通过一个具体例子来说明，假设M1为6，M2为7，M3为7，即第一子层有6个过滤器，第二子层有7个过滤器，第三子层有7个过滤器，共有20个过滤器，本实施例中，每个子层的过滤器之间时互相联系的，第一子层的过滤器较小，第二子层的过滤器的大于第一子层的过滤器，第三子层的过滤器大于第一子层的过滤器，第二子层的过滤器可由第一子层的过滤器按照一定的规则组合而成，第三子层的过滤器可以由第二子层的过滤器按照一定的规则组合而成，如图4所示，图4为本发明检测身体各个部位的过滤器的示意图，第一子层的第一个过滤器和第二个过滤器组合得到第二子层的第一个过滤器，第一子层的第一个过滤器和第三个过滤器组合得到第二子层的第二个过滤器，但有些过滤器是无法组合的，如第一子层的第一个过滤器和第五个过滤器是不能组合的。各个过滤器的参数都是在对卷积网络进行训练时得到的，本步骤中，只需要将各个过滤器与处理后的图像进行卷积运算，就可以得到20个响应图，每个过滤器输出一个响应图，每个响应图对应目标物体的一些部位，得到目标物体各个部位的位置。图5部位检测层检测得到的结果示意图。

步骤103、形变处理层根据M个部位对应的响应图分别确定M个部位的形变，并根据N个部位的形变确定M个部位的得分图。

通过部位检测层能够检测出检测区域内出现的目标物体的一些部位，而实际的图像中，目标物体的由于运动各部位是会发生形变的，如行人身体（如头，身体，腿）的运动会产生行人视觉信息的形变，形变处理层就是为了学习目标物体各个部位在行变之前的关联关系，形变处理层从M个部位检测响应图中提取最适合人体的M个部位位置及其得分，从而提取出各个部位之间的关联。

形变处理层根据M个部位对应的响应图分别确定M个部位的形变，并根据M个部位的形变确定M个部位的得分图，具体为：

首先，形变处理层根据M个部位对应的响应图，按照公式（1）得到M个部位的形变得分图：

B_{p} = M_{p} + Σ_{n = 1}^{N} D_{n, p} C_{n, p} - - - (1)

其中，B_p表示第p个部分的形变得分图，1≤p≤M，M_p表示第p个部分对应的响应图，N表示第p个部位的限制条件，D_n,p表示第n个限制条件对应的得分图，1≤n≤N,C_n,p表示第n个限制条件对应的权重，这里每个限制条件对应一个形变，以第P个部位为人的头部为例，头部的运动通常会有左转、右转、向下、向上四中变形，每个限制条件对应一个权重，权重用来表示头部每种形变的概率。

通过公式（1）计算得到每个部位的形变得分图，然后，形变处理层根据形变得分图，按照公式（2）确定第P个部位的得分图：

S_{p} = \underset{(x, y)}{\max B_{p}^{(x, y)}} - - - (2)

其中，表示(x，y)位置上B_p的值，上述公式的含义是取第P个部位形变得分图的最大值，该最大值对应的位置即为第P部分的位置，因此，第P部分的位置可以表示为

图6为形变处理层的操作流程示意图，图中M_p表示第p个部分对应的响应图，D_1,p表示第P部分的第一个限制条件，D_2,p表示第P部分的第二个限制条件，D_3,p表示第P部分的第三个限制条件，D_4,p表示第P部分的第四各限制条件，C_1,p表示第一个限制条件对应的权重，C_2,p表示第二个限制条件对应的权重，C_3,p表示第三个限制条件对应的权重，C_4,p表示第四个限制条件对应的权重，然后，将各个限制条件和第p个部分对应的响应图进行加权求和，得到第P个部位的形变得分图B_p，然后取形变得分图中最大值对应的坐标（x，y）位置作为第P部分的最佳位置。

步骤104、遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡。

形变处理层给出了各个部分的得分图s={s₁,s₂…s_p}，根据各个部位的得分图确定每个部位对应的遮挡。本实施例中，遮挡处理层包括三个子层，分别为第一子层、第二子层、第三子层，遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡，具体为：

遮挡处理层确定M个部位在遮挡处理层的子层上的得分图和可视性；遮挡处理层的第一子层、第二子层、第三子层分别按照公式（3）、（4）、（5）计算各个部位的可视性：

{\tilde{h}}_{p}^{1} = δ (c_{p}^{1} + g_{p}^{1} s_{p}^{1}) - - - (3)

{\tilde{h}}_{p}^{l + 1} = δ ({({\tilde{h}}^{l})}^{T} w_{*, p}^{l} + c_{p}^{l + 1} + g_{p}^{l + 1} s_{p}^{l + 1}), l = 1,2 - - - (4)

\tilde{y} = δ ({({\tilde{h}}^{3})}^{T} w^{cls} + b) - - - (5)

其中，表示第P个部位在遮挡处理层的第1层上的得分图，表示的权重矩阵，表示的偏置，表示第P个部位在遮挡处理层的第1层上的可视性，σ(t)是S型函数，σ(t)=(1+exp(-t))^-1，表示第P个部位在遮挡处理层的第l子层上可视性，用W^l表示h^l和h^l+1之间的传递矩阵，表示W^l的第j列，W^cls表示隐含变量的线性分类器的参数，(x)^T表示对矩阵X的转置，表示所述卷积神经网络的输出结果。

本实施例中，只有相邻层的隐含变量相互连接，每个部位都可以有多个父节点和子节点，而每个部位的可视性与同层的其他部位的可视性相关联，表现为拥有相同的父节点，后面一层的部位的可视性是与前一层的若干个部位的可视性相关的。如图7中所示，图7为遮挡处理层的处理过程示意图，第一层的前两个部位的可视性与第二层的可视性是强相关的，这是因为在结构上，提及的两个部位能够经过组合得到第二层的部位，即前面一层的两个部位在图像中可视性比较高（部位匹配程度比较高）直接会导致后一层能够被它们组合出来的部位的可视性也比较高。除了前一层的部位之外，第二层部位的可视性也与自身的部位得分有关，其直观的理解是，当一个部位的匹配得分比较高，那么其可视性自然就比较高。遮挡处理层所有的参数均由后向传播算法学习得出。

步骤105、分类器根据遮挡处理层的输出结果，确定检测区域内是否有目标物体。

遮挡处理层根据各个部位的得分图确定各个部位的遮挡程度，遮挡程度是通过可视性来体现的，分类器根据遮挡处理层输出的结果，确定检测区域内是否有目标物体，并输出检测结果。如图8所示，图8为本发明目标物体检测结果示意图。

本实施例提供的方法，由联合了优化特征提取、部位检测、形变处理、遮挡处理和分类器学习为一体的统一的卷积神经网络模型，通过形变处理层使得卷积神经网络能够学习目标物体的形变，并且形变学习和遮挡处理进行交互，这种交互能提高提高分类器根据所学习到的特征分辨行人和非行人的能力。

在采用实施例一提供的基于卷积神经网络的目标物体检测方法之前，首先需要对该卷积神经网络进行预训练，得到卷积神经网络各个层的参数。在本发明中，我们所有的参数，包括图像的特征，形变参数，可视性关系均可以通过统一的架构学出。在训练如此多级的网络过程中，采用了一种多级训练的策略。首先采用监督式学习的方法学习了一个只有一层的卷积网络，此过程中采用Gabor滤波器作为过滤器的初始值。当该一层的网络学好之后，再增添第二层，继而学习两层的网络，而之前所学出的只有一层的网络作为初始值对待。在整个学习的过程中，均采用后向传播的方法学习所有参数。

在通过一次预训练得到各个参数之后，还可以对学习得到的参数进行调整，以下以对遮挡估计层进行参数调整为例进行说明，预测误差通过后向传播方法更新所有参数，其中对于s的传播梯度的表达式如下表示：

\frac{&PartialD; L}{{&PartialD; s}_{i}^{l}} = \frac{&PartialD; L}{{&PartialD; h}_{i}^{l}} \frac{{&PartialD; h}_{i}^{l}}{{&PartialD; s}_{i}^{l}} = \frac{&PartialD; L}{{&PartialD; h}_{i}^{l}} h_{i}^{l} (1 - h_{i}^{l}) g_{i}^{l},

Where \frac{&PartialD; L}{{&PartialD; h}_{i}^{3}} = \frac{&PartialD; L}{&PartialD; \tilde{y}} \tilde{y} (1 - \tilde{y}) w_{i}^{cls},

\frac{&PartialD; L}{{&PartialD; h}_{i}^{2}} = w_{i, *}^{2} [\frac{&PartialD; L}{&PartialD; h^{3}} Θ h^{3} Θ (1 - h^{3})],

\frac{&PartialD; L}{{&PartialD; h}_{i}^{l}} = w_{i, *}^{1} [\frac{&PartialD; L}{&PartialD; h^{2}} Θ h^{2} Θ (1 - h^{2})] .

其中，Θ表示Hadamard积，Hadamard积的运算为(UΘV)_i,j=U_i,jV_i,j，L表示损失函数。

损失函数可以有多中形式。例如，对于平方和误差损失函数，则其表达式为：

L = {(y_{gnd} - \tilde{y})}^{2} / 2,

对于对数误差损失函数来说，则其表达式为：

L = y_{gnd} \log \tilde{y} + (1 - y_{gnd}) \log (1 - \tilde{y})

其中，y_gnd表示训练样本的真实结果，表示通过本发明的卷积神经网络得到的输出结果，如果损失函数的值不满足预设的条件，则继续对各个参数进行训练，直到损失函数满足预设条件。

在上述实施例一的基础上，本发明实施例二将通过一个具体的例子对实施例一所示的方法进行详细说明，如图9所示，图9本发明总体模型示意图。如图9所示，首先，输入一副84×72大小的图像，该图像由3层组成，对输入的图像进行第一层卷积，局部滑动窗的大小是9×9，得到过滤后的64层的76×24大小的图像，然后根据每个像素点相邻的周围四个像素点求取平均值，得到64层的19×15大小的图像，然后提取该19×15大小的图像的特征图，上述这些过程是由特征提取层完成的，然后由部位检测曾对提取后的特征图进行第二层卷积运算，具体的使用20个过滤器对图像进行过滤，得到20个部位响应图，然后，由形变处理层根据20个部位的响应图分别确定20个部位的得分图，最后遮挡处理层根据20个部位的得分图确定20个部位对应的遮挡，得到20个部位的可视性，根据20个部位的可视性确定，确定检测区域内是否有目标物体。

图10为本发明卷积神经网络一个实施例的结构示意图，如图10所示，本实施提供的卷积神经网络包括：特征提取层21、部位检测层22、形变处理层23、遮挡处理层24和分类器25。

特征提取层21，用于根据提取图像中检测区域的像素值，对检测区域的像素值进行预处理，并对预处理后的图像进行特征提取，得到检测区域的特征图；

部位检测层22，用于通过M个过滤器分别检测检测区域的特征图，输出检测区域的M个部位对应的响应图，每个过滤器用于检测一个部位，每个部位对应一个响应图；

形变处理层23，用于根据M个部位对应的响应图分别确定M个部位的形变，并根据N个部位的形变确定M个部位的得分图；

遮挡处理层24，用于根据M个部位的得分图确定M个部位对应的遮挡；

分类器25，用于根据遮挡处理层的输出结果，确定检测区域内是否有目标物体。

本实施例中，特征提取层21可以包括三个通道，分别为第一通道、第二通道、第三通道；其中，第一通道的输出数据对应检测区域内的YUV像素值的Y通道数据；

第二通道，用于将检测区域的大小缩小为原大小的四分之一，并将缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤转换为YUV格式的检测区域，分别得到检测区域在Y、U、V三个通道上第一边缘图，Y、U、V通道分别对应一个第一边缘图，取三个第一边缘图中各位置上的最大值，组成一个第二边缘图，三个第一边缘图以及第二边缘图大小相同，都为检测区域的四分之一大小，将三个第一边缘图和第二边缘图的拼接图作为第二通道的输出数据；

第三通道，用于将检测区域的大小缩小为原大小的四分之一，并将缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤转换为YUV格式的检测区域，分别得到检测区域在Y、U、V三个通道上的第一边缘图，Y、U、V通道分别对应一个第一边缘图，生成一个第三边缘图，第三边缘图各位置的数据为0，三个第一边缘图以及第三边缘图大小相同，都为检测区域的四分之一大小，将三个第一边缘图和第三边缘图的拼接图作为第三通道的输出数据。

部位检测层22包括三个子层，分别为第一子层、第二子层和第三子层，部位检测层的第一子层包括M1个过滤器，部位检测层的第二子层包括M2个过滤器，部位检测层的第三子层包括M3个过滤器，其中，M1+M2+M3=M；部位检测层的第一子层，用于通过M1个过滤器分别检测检测区域内的M1个部位，得到M1个响应图；部位检测层的第二子层，用于通过M2个过滤器分别检测检测区域内的M2个部位，得到M2个响应图；部位检测层的第三子层，用于通过M3个过滤器分别检测检测区域内的M3个部位，得到M3个响应图。

形变处理层23具体用于：根据M个部位对应的响应图，分别按照公式（1）得到第P个部位的形变得分图：

B_{p} = M_{p} + Σ_{n = 1}^{N} D_{n, p} C_{n, p} - - - (1)

其中，B_p表示第p个部分的形变得分图，1≤p≤M，M_p表示第p个部分对应的响应图，N表示第p个部位的限制条件，D_n,p表示第n个限制条件对应的得分图，1≤n≤N,C_n,p表示第n个限制条件对应的权重；

并根据形变得分图，按照公式（2）确定第P部位的得分图：

S_{p} = \underset{(x, y)}{\max B_{p}^{(x, y)}} - - - (2)

其中，表示(x，y)位置上B_p的值。

遮挡处理层24包括三个子层，分别为第一子层、第二子层、第三子层；遮挡处理层的第一子层、第二子层、第三子层分别按照公式（3）、（4）、（5）计算各个部位的可视性：

{\tilde{h}}_{p}^{1} = δ (c_{p}^{1} + g_{p}^{1} s_{p}^{1}) - - - (3)

{\tilde{h}}_{p}^{l + 1} = δ ({({\tilde{h}}^{l})}^{T} w_{*, p}^{l} + c_{p}^{l + 1} + g_{p}^{l + 1} s_{p}^{l + 1}), l = 1,2 - - - (4)

\tilde{y} = δ ({({\tilde{h}}^{3})}^{T} w^{cls} + b) - - - (5)

其中，表示第P个部位在遮挡处理层的第1层上的得分图，表示的权重矩阵，表示的偏置，表示第P个部位在遮挡处理层的第1层上的可视性，σ(t)=(1+exp(-t))^-1，表示第P个部位在遮挡处理层的第l子层上可视性，用W^l表示h^l和h^l+1之间的传递矩阵，表示W^l的第j列，W^cls表示隐含变量的线性分类器的参数，(x)^T表示矩阵X的转置，表示卷积神经网络的输出结果。

本实施例提供的卷积神经网络科用于执行图3所示方法实施例提供技术方案，具体实现方式和技术效果类似，这里不再赘述。

图11为本发明卷积神经网络又一个实施例的结构示意图，如图11所示，本实施例的卷积神经网络300包括：处理器31和存储器32，处理器31和存储器32通过总线连接，存储器32存储执行指令，当卷积神经网络系统300运行时，处理器31与存储器32之间通信，处理器31执行指令使得卷积神经网络300执行本发明提供的基于卷积神经网络系统的目标物体检测方法。本实施例中，卷积神经网络的特征提取层、部位检测层、形变处理层、遮挡处理层和分类器都可以通过处理器31来实现，由处理器31执行各层的功能。具体地：

处理器31控制特征提取层根据提取图像中检测区域的像素值，对检测区域的像素值进行预处理，并对预处理后的图像进行特征提取，得到检测区域的特征图；

处理器31控制部位检测层通过M个过滤器分别检测检测区域的特征图，输出检测区域的M个部位对应的响应图，每个过滤器用于检测一个部位，每个部位对应一个响应图；

处理器31控制形变处理层根据M个部位对应的响应图分别确定M个部位的形变，并根据N个部位的形变确定M个部位的得分图；

处理器31控制遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡；

处理器31控制分类器根据遮挡处理层的输出结果，确定检测区域内是否有目标物体。

本实施例中，特征提取层包括三个通道，分别为第一通道、第二通道、第三通道。

其中，第一通道的输出数据对应检测区域内的YUV像素值的Y通道数据；

第二通道用于将检测区域的大小缩小为原大小的四分之一，并将缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤转换为YUV格式的检测区域，分别得到检测区域在Y、U、V三个通道上第一边缘图，Y、U、V通道分别对应一个第一边缘图，取三个第一边缘图中各位置上的最大值，组成一个第二边缘图，三个第一边缘图以及第二边缘图大小相同，都为检测区域的四分之一大小，将三个第一边缘图和第二边缘图的拼接图作为第二通道的输出数据；

第三通道用于将检测区域的大小缩小为原大小的四分之一，并将缩小后的检测区域转换成YUV格式，通过Sobel边缘算子过滤转换为YUV格式的检测区域，分别得到检测区域在Y、U、V三个通道上的第一边缘图，Y、U、V通道分别对应一个第一边缘图，生成一个第三边缘图，第三边缘图各位置的数据为0，三个第一边缘图以及第三边缘图大小相同，都为检测区域的四分之一大小，将三个第一边缘图和第三边缘图的拼接图作为第三通道的输出数据。

部位检测层包括三个子层，分别为第一子层、第二子层和第三子层，部位检测层的第一子层包括M1个过滤器，部位检测层的第二子层包括M2个过滤器，部位检测层的第三子层包括M3个过滤器，其中，M1+M2+M3=M；部位检测层的第一子层的M1个过滤器分别检测检测区域内的M1个部位，得到M1个响应图；部位检测层的第二子层的M2个过滤器分别检测检测区域内的M2个部位，得到M2个响应图；部位检测层的第三子层的M3个过滤器分别检测检测区域内的M3个部位，得到M3个响应图。

本实施例中，形变处理层根据M个部位对应的响应图分别确定M个部位的形变，并根据M个部位的形变确定M个部位的得分图，具体为：

形变处理层根据M个部位对应的响应图，分别按照公式（1）得到第P个部位的形变得分图：

B_{p} = M_{p} + Σ_{n = 1}^{N} D_{n, p} C_{n, p} - - - (1)

形变处理层根据形变得分图，按照公式（2）确定第P部位的得分图：

S_{p} = \underset{(x, y)}{\max B_{p}^{(x, y)}} - - - (2)

其中，表示(x，y)位置上B_p的值。

本实施例中，遮挡处理层包括三个子层，分别为第一子层、第二子层、第三子层，遮挡处理层根据M个部位的得分图确定M个部位对应的遮挡，包括：

遮挡处理层确定M个部位在遮挡处理层的子层上的得分图和可视性；

遮挡处理层的第一子层、第二子层、第三子层分别按照公式（3）、（4）、（5）计算各个部位的可视性：

{\tilde{h}}_{p}^{1} = δ (c_{p}^{1} + g_{p}^{1} s_{p}^{1}) - - - (3)

{\tilde{h}}_{p}^{l + 1} = δ ({({\tilde{h}}^{l})}^{T} w_{*, p}^{l} + c_{p}^{l + 1} + g_{p}^{l + 1} s_{p}^{l + 1}), l = 1,2 - - - (4)

\tilde{y} = δ ({({\tilde{h}}^{3})}^{T} w^{cls} + b) - - - (5)

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于卷积神经网络的目标物体检测方法，其特征在于，所述卷积神经网络包括：特征提取层、部位检测层、形变处理层、遮挡处理层和分类器；

2.根据权利要求1所述的方法，其特征在于，所述特征提取层提取图像中检测区域的像素值，对所述检测区域内的像素值进行预处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述部位检测层包括三个子层，分别为第一子层、第二子层和第三子层，所述部位检测层的第一子层包括M1个过滤器，所述部位检测层的第二子层包括M2个过滤器，所述部位检测层的第三子层包括M3个过滤器，其中，M1+M2+M3=M；

4.根据权利要求1所述的方法，其特征在于，所述形变处理层根据所述M个部位对应的响应图分别确定所述M个部位的形变，并根据所述M个部位的形变确定所述M个部位的得分图，包括：

B_{p} = M_{p} + Σ_{n = 1}^{N} D_{n, p} C_{n, p} - - - (1)

S_{p} = \underset{(x, y)}{\max B_{p}^{(x, y)}} - - - (2)

其中，表示(x，y)位置上B_p的值。

5.根据权利要求1所述的方法，其特征在于，所述遮挡处理层包括三个子层，分别为第一子层、第二子层、第三子层，所述遮挡处理层根据所述M个部位的得分图确定所述M个部位对应的遮挡，包括：

{\tilde{h}}_{p}^{1} = δ (c_{p}^{1} + g_{p}^{1} s_{p}^{1}) - - - (3)

{\tilde{h}}_{p}^{l + 1} = δ ({({\tilde{h}}^{l})}^{T} w_{*, p}^{l} + c_{p}^{l + 1} + g_{p}^{l + 1} s_{p}^{l + 1}), l = 1,2 - - - (4)

\tilde{y} = δ ({({\tilde{h}}^{3})}^{T} w^{cls} + b) - - - (5)

6.一种卷积神经网络，其特征在于，包括：

7.根据权利要求6所述的卷积神经网络，其特征在于，所述特征提取层包括三个通道，分别为第一通道、第二通道、第三通道；

8.根据权利要求7所述的卷积神经网络，其特征在于，所述部位检测层包括三个子层，分别为第一子层、第二子层和第三子层，所述部位检测层的第一子层包括M1个过滤器，所述部位检测层的第二子层包括M2个过滤器，所述部位检测层的第三子层包括M3个过滤器，其中，M1+M2+M3=M；

9.根据权利要求8所述卷积神经网络，其特征在于，所述形变处理层具体用于：

B_{p} = M_{p} + Σ_{n = 1}^{N} D_{n, p} C_{n, p} - - - (1)

S_{p} = \underset{(x, y)}{\max B_{p}^{(x, y)}} - - - (2)

其中，表示(x，y)位置上B_p的值。

10.根据权利要求8所述卷积神经网络，其特征在于，所述遮挡处理层包括三个子层，分别为第一子层、第二子层、第三子层；

{\tilde{h}}_{p}^{1} = δ (c_{p}^{1} + g_{p}^{1} s_{p}^{1}) - - - (3)

{\tilde{h}}_{p}^{l + 1} = δ ({({\tilde{h}}^{l})}^{T} w_{*, p}^{l} + c_{p}^{l + 1} + g_{p}^{l + 1} s_{p}^{l + 1}), l = 1,2 - - - (4)

\tilde{y} = δ ({({\tilde{h}}^{3})}^{T} w^{cls} + b) - - - (5)