CN111931670A

CN111931670A - 基于卷积神经网的深度图像头部检测与定位方法及系统

Info

Publication number: CN111931670A
Application number: CN202010820333.4A
Authority: CN
Inventors: 马祥天; 肖仕华; 蔡木目心; 王旭鹏; 桑楠; 焦运磊
Original assignee: Chengdu Shucheng Technology Co ltd
Current assignee: Chengdu Shucheng Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-13
Anticipated expiration: 2040-08-14
Also published as: CN111931670B

Abstract

本发明公开了基于卷积神经网的深度图像头部检测与定位方法及系统，属于图像处理技术领域，方法包括对图像进行分类处理，再进行聚类分析，能够得到头部中点信息，进而实现多目标的头部检测与定位。本发明对图像进行分类处理，可以获得包含头部信息的所有待处理目标图像；再将待处理目标图像进行聚类分析，能够消除背景及噪声的干扰，得到包含至少一个头部目标对应样本点在真实头部中心区域形成的密集点簇，以获取头部中点信息，进而在复杂环境下实现了多目标的头部的检测与精确定位。

Description

基于卷积神经网的深度图像头部检测与定位方法及系统

技术领域

本发明涉及图像处理技术领域，尤其涉及基于卷积神经网的深度图像头部检测与定位方法及系统。

背景技术

头部检测，作为计算机视觉的重要组成部分，广泛应用于生活中的各个领域，更是许多基于人脸研究领域的基础，如头部姿态分析、人脸的验证与识别、注意力分析等。在过去的一段时间里，人们对头部的检测与定位进行了大量的研究，无论是在实际应用或学术研究中，都提供了许多精确的和有竞争力的解决方案。但绝大多数的研究均致力于普通RGB图像的分析。然而，受制于成像原理，RGB图像的成像质量非常依赖于光照条件，这导致在某些重要的应用场合，无法通过普通RGB相机获得有效的图像信息，而IntelRealSense等设备的广泛应用获取有效的深度图像成为一种现实，而深度相机基于红外的成像原理，使深度图像对光照条件以及图像尺寸具有不敏感性，能很好地弥补普通RGB图像的相关缺陷。

目前，Chen等人在《基于深度图像的头部检测深度信息挖掘》中，提出了一种新的头部描述符合对像素进行分类，即通过一个线性的判别分析(LDA)分类器，将输入图像中的每个像素分类为属于或不属于头部，再通过深度数据分析，消除头部中心的误报，并作为最终的头部检测聚类像素。A.T.Nghiem等人在《使用kinect摄像头进行头部检测及其在坠落检测中的应用》构建的人体跌倒检测框架中，首先利用三维数据进行头部检测，该方法通过背景减除法检测运动物体，并在轮廓线段上搜索所有可能的头部位置。G.Fanelli等人在《基于随机回归森林的实时头位估计》中，考虑到随机回归森林处理大型训练数据的能力，通过该方法对头部进行定位。G.Borghi等人在《基于深度图像的头部姿态估计方法》中，利用深度学习强大的感知能力，用深度头像和头部中点真实值来训练CNN模型，进而预测头部位置。然而以上两种情况，作者只考虑了头部定位问题，且假设预测对象上有且只有一个测试目标。

最近DiegoBallotta等人在《基于深度图像的野外头部检测》中，首次通过卷积神经网络处理基于深度图像的头部检测问题，他们将每一帧深度图像划分为若干个图像块，利用分类器将每个图像块划分为头部与非头部，并通过滑动窗口检测和定位头部。然而，受噪声以及杂乱背景的影响，图像块误检测现象较多，且网络性能过度依赖于计算时间。之后，DiegoBallotta等人在《基于深度图像的全卷积网络头部检测》中，又通过全卷积网络，对于每个输入帧，创建一个以头部位置为中心的二元高斯分布，提高了检测准确率和检测效率，然而该方法仅局限于单目标任务且定位精度较低。

发明内容

本发明的目的在于克服现有技术头部检测与定位中局限于单目标任务且精度较低的问题，提供基于卷积神经网的深度图像头部检测与定位方法及系统。

本实用新型的目的是通过以下技术方案来实现的：基于卷积神经网的深度图像头部检测与定位方法，所述方法具体包括：

对图像进行分类处理，获得包含头部信息的所有待处理目标图像；将待处理目标图像进行聚类分析，得到头部中点信息，进而实现多目标的头部检测与定位。

作为一选项，所述对图像进行分类处理包括特征提取步骤：

将原始图像转换为多通道图像，并采用不同卷积核对该多通道图像进行卷积操作，获取原始图像在不同尺度上的特征映射，再通过多个残差块进行特征提取，以提取原始图像的低层特征和高层特征。

作为一选项，所述特征提取步骤后还包括目标分类步骤：

通过softmax作为激活函数，输出包含头部信息的待处理目标图像与未包含头部信息的图像的概率值，进而获得包含头部信息的所有待处理目标图像。

作为一选项，所述将待处理目标图像进行聚类分析具体包括：

将所有待处理目标图像的中心点抽象为d维空间中的样本点；将d维空间指定圆形区域内的任意点作为起始点；计算起始点的偏移均值，将起始点移动至偏移均值位置处；重复上一步骤，直至样本点收敛，进而实现多目标的头部检测与定位。

作为一选项，所述计算起始点的偏移均值的计算公式为：

公式中，x_i表示d维空间指定圆形区域内的点集，x_ik表示第k个样本点，b 是核带宽，g(t)是核函数，w_k是第k个属性的权重系数。

作为一选项，所述权重通过平均绝对差、标准差、方差、变异系数进行定义，当采用平均绝对差为加权系数时，权重系数的计算公式为：

当采用标准差为加权系数时，权重系数的计算公式为：

当采用方差为加权系数时，权重系数的计算公式为：

当采用变异系数为加权系数时，权重系数的计算公式为：

以上公式中，n表示样本大小。

作为一选项，所述将所有待处理目标图像的中心点抽象为d维空间中的样本点步骤前还包括：计算所有待处理目标图像中包含完整头部的矩形图像块的大小，计算公式如下：

上式中，w_p，h_P表示包含完整头部的矩形图像块的大小；f_x，f_y为深度相机的水平焦距和垂直焦距；R为定值，代表头部平均宽度；D_P为该点像素值。

作为一选项，所述方法还包括性能验证步骤，评价正确检测到头部的指标公式为：

IoU(A,B)＞σ

IoU(A，B)表示正确检测到头部的指标；A表示真实的头部区域；B为预测的头部区域；σ为阈值，具体为0.5。

需要进一步说明的是，上述基于卷积神经网的深度图像头部检测与定位方法中各选项技术特征能够进行组合和替换，构成一新的技术方案。

本发明还包括一种卷积神经网络，该网络可以为基于上述基于卷积神经网的深度图像头部检测与定位方法的卷积神经网络，也可以单独用作图像分类处理，所述网络用于对图像进行分类处理，获得包含头部信息的所有待处理目标图像，包括顺次连接的多尺度特征提取单元、基于残差块的特征提取单元和分类单元。

作为一选项，所述多尺度特征提取单元包括顺次连接的多个不同卷积核的卷积层，和与最后一层卷积层连接的池化层；

所述基于残差块的特征提取单元包括若干顺次连接的残差块，所述残差块包括若干卷积层，且最后一层卷积层对特征进行降维处理；

分类单元与第一残差块连接，第一残差块与第二残差块连接，且第二残差块中的卷积层与第一残差块中的卷积层执行跳跃加法操作，以更好地获得原始图像的语义信息。

需要进一步说明的是，上述基于卷积神经网的深度图像头部检测与定位系统中各选项技术特征能够进行组合和替换，构成一新的技术方案。

与现有技术相比，本发明有益效果是：

(1)本发明对图像进行分类处理，可以获得包含头部信息的所有待处理目标图像；再将待处理目标图像进行聚类分析，能够消除背景及噪声的干扰，得到包含至少一个头部目标对应样本点在真实头部中心区域形成的密集点簇，以获取头部中点信息，进而在复杂环境下实现了多目标的头部的检测与精确定位。

(2)本发明将原始图像转换为多通道图像，并采用不同卷积核对该多通道图像进行卷积操作，获取原始图像在不同尺度上的特征映射，即在图像的特征空间中构造金字塔；再通过多个残差块进行特征提取，进而提取到原始图像的底层特征(细节信息)和高层特征(语义信息)，减小计算量的同时保证了较高的检测正确率。

(3)本发明通过softmax作为激活函数，对图像进行分类，以确定包含头部信息的所有待处理目标图像。

(4)本发明通过将待处理目标图像进行聚类分析，能够减小图像分类带来的干扰，进而在复杂环境下实现了多目标的头部的检测与精确定位。

(5)本发明起始点偏移均值的计算公式，根据数据属性的重要性给出了不同的权重系数，进一步提升了聚类性能。

(6)本发明聚类分析中的权重系数通过平均绝对差、标准差、方差、变异系数进行定义，利用不同的指标作为加权欧式距离的加权系数，进一步提高了聚类分析的准确度。

(7)本发明通过计算所有待处理目标图像中包含完整头部的矩形图像块的大小，进而保证进行聚类分析的各样本图像块均包含完整的头部信息。

(8)本发明通过性能验证步骤，能够验证本发明方法性能，保证了本发明方法的可靠性。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明实施例1的方法流程处理图；

图2为本发明实施例1方法性能验证示意图；

图3为本发明实施例4的卷积神经网络框图；

图4为本发明实施例4的基于残差块的特征提取单元中第一、第二残差块示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、 “右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，属于“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

如图1所示，在实施例1中，基于卷积神经网的深度图像头部检测与定位方法，具体包括以下步骤：

S01：对图像进行分类处理，获得包含头部信息的所有待处理目标图像；

S02：将待处理目标图像进行聚类分析，得到头部中点信息，进而实现多目标的头部检测与定位。其中，头部中点信息具体为目标头部的中心位置信息。

进一步地，在步骤S01中具体包括特征提取步骤，具体包：

S011：将原始图像转换为多通道图像，并采用不同卷积核对该多通道图像进行卷积操作，以获取原始图像在不同尺度上的特征映射；

S012：再通过多个残差块进行特征提取，以提取原始图像的低层特征和高层特征，通过浅层特征将区分简单目标、深层特征区分复杂目标。

进一步地，步骤S011中将单通道深度图转换为三通道的图像后输入网络，具体使用表面法线的x、y和z分量作为图像像素的每个通道，再分别使用7*7， 3*3大小的卷积核，通过卷积层提取图像的局部特征，再通过池化操作缩小矩阵的尺寸，从而减少最后全连接中的参数，加快计算速度，防止过拟合。

进一步地，步骤S012中多个残差块形成了一残差网络(基于残差块的特征提取单元)，该残差网络(基于残差块的特征提取单元)中的残差块具体为两层卷积层的残差块或三层卷积层的残差块，在本实施例中，残差网络(基于残差块的特征提取单元)具体为16个卷积核大小分别为1*1，3*3，1*1的残差块，用作特征提取，其目的是通过深层网络提取特征高级的语义信息(特征)，同时防止梯度消失，防止退化现象出现。更进一步地，残差块中的最后一个残差块的卷积核为1*1是为了降维处理，使各残差块之间的第一卷积层与最后一个卷积层能够执行加法操作后输入至下一残差块。将最后一个残差块定义为第一残差块，与第一残差块连接的残差块为第二残差块，对第一残差块中的第一个卷积层输入端的特征进行上采样处理，以使第一残差块中的第一个卷积层与第二残差块中的第二个卷积层具有相同的尺寸，且第二残差块中的第二个卷积层输出端与第一残差块中的第一个卷积层输出端特征执行加法操作，第二残差块中的第一个卷积层输出端与第一残差块中的第二个卷积层输出端特征执行加法操作，以融合多层特征信息，以获得加强的语义信息，提高检测性能。

进一步地，步骤S012后还包括图像分类步骤：

S013：采用softmax作为激活函数，输出包含头部信息的待处理目标图像与未包含头部信息的图像的概率值，进而获得包含头部信息的所有待处理目标图像。

作为一具体实施例，本发明通过分别包含128、84、2个神经元的三个顺次连接的全连接层实现图像的分类。具体地，为防止过拟合，本发明在全连接层采用丢弃正则化dropout(σ＝0.5)处理。且在步骤S01中的卷积层和全连接层均采用双曲正切函数tanh作为激活函数，以增加神经网络模型的非线性，其具体表达如下：

其中，tanh是双曲函数中的一个，tanh()为双曲正切，x为输入特征。

最后一层全连接层用softmax作为激活函数将该层两个神经元输出[i,j]映射为概率值[S_i，S_j]：

其中，S_i,S_j分别为正样本(包含头部信息的待处理目标图像)概率和负样本(未包含头部信息的图像)概率。本发明将头部检测抽象为一个二分类问题，因此采用交叉熵作为网络的损失函数：

上式中，p作为样本真实值，([0，1]为负样本，[1，0]为正样本)，q＝[S_i，S_j] 为预测值。交叉熵值越低，表示两个概率分布越靠近。

更进一步地，在步骤S01对图像进行分类处理前还包括网络训练步骤；具体地，将包含头部信息的待处理目标图像定义为正样本，将未包含头部信息的图像定义为负样本，选取部分正样本、负样本作为训练集，将训练集中的正样本、负样本输入用于图像分类的神经网络进行特征提取并输出预测结果(正负样本的分布)，若该预测结果与样本集正负样本不同，继续通过损失函数对该神经网络进行优化，使预测结果准确率达到本发明图像分类要求。

更进一步地，本发明所采用图像具体为深度图像，在没有任何约束的情况下，人脸以未知比例出现在图像中任何位置。不同于普通二维图像，深度图像每个像素点的值为物体到深度相机的距离。本发明遵从从深度数据到头部姿势估计：暹罗方法，给出头部中心点p＝{x,y}以及真实头部的平均大小和标定参数，可计算出包含完整头部的矩形图像块的大小(w_p,h_p)：

其中，f_x，f_y为深度相机的水平焦距和垂直焦距(以像素为单位)；R为定值，代表头部平均宽度(250mm)；D_P为该点像素值(即深度值，单位：mm)。

更进一步地，为精简样本(正样本、负样本)，根据包含完整头部的矩形图像块的大小的计算公式可知，将相邻k×k像素作为一个采样单位，平均深度值作为该采样单位的D_p，则每帧图像采样数量如公式如下：

上式中，(w_i，h_i)为输入图像的尺寸。采样后，对样本进行标准化处理。首先，将所有样本调整为64×64像素；再去除背景，假设所有样本包含完整的头部，则将样本中深度值大于D_p+L的像素点置0，L为头部中点到轮廓的深度差；最后，将样本的归一化到[-1,1]。

进一步地，步骤S02将待处理目标图像进行聚类分析包括但不限于K均值聚类、K-重点聚类等，本申请聚类分析具体包括：

S021：将所有待处理目标图像的中心点抽象为d维空间中的样本点；具体地，本实施例具体将所有待处理目标图像的中心点抽象为二维空间中的样本点 [x₁,x₂,x₃…,x_n]；

S022：将d维空间指定圆形区域内的任意点作为起始点；

S023：计算起始点的偏移均值，将起始点移动至偏移均值位置处；

S024：重复步骤S023，直至样本点收敛，进而实现多目标的头部检测与定位。其中，样本点收敛即可获取至少一个密集样本点簇，若存在多个密集样本点簇，则表示图像中含有多个目标头部，样本点在真实头部中心区域形成密集点簇，而误检测的样本点数量少且分布分散。

具体地，步骤S023中计算起始点的偏移均值具体为计算起始点密度增大的最快方向，具体的计算公式为：

上式中，S_h为数据集的点到x的距离小于半径h的样本点集，如图1中的圆形区域。K为圆形区域内样本点的数量，S_h的定义为：

S_h(x)＝{y:(y-x_i)(y-x_i)^T＜h²}

上式中，k表示在这n个样本点x_i中,有k个点落入S_h区域中。

更为具体地，将起始点移动至偏移均值位置处有：

x^t+1＝x^t+M_h

上式中，x^t为起始点，x^t+1为移动后的新的起始点。

进一步地，在步骤S024中，样本点收敛即M_h＝0，这些样本点最终会在局部密度最大值处收敛，且收敛到相同局部最大值的点被认为是同一簇类成员，进而实现头部目标的定位。

更进一步地，本申请为了保证聚类分析的准确度，根据数据属性的重要性给出了不同的权重系数，通过计算在二维欧式空间中核密度估计值的梯度、二维空间中两个点集之间的距离进而计算出下一次起始点的位置。

具体地，二维欧式空间中核密度估计值的梯度方法如下：

其中，c_k，d是归一化常数，b是核带宽，g(t)是核函数。

具体地，计算二维空间中两个点集x_i＝(x_i1，x_i2，...，x_id)和x_j＝(x_j1，x_j2，...，x_jd)之间的距离可以表示为：

上式中，w_k(k＝1，2，...，d)代表了第k个属性的权重系数。

具体地，计算出下一次起始点的位置为：

其中，x表示点集，x_i表示点集中第i个点，x_ik表示第i个点的第k个特征维度，b是核带宽，g(t)是核函数，w_k是第k个属性的权重系数。w_k对下一个起始点的计算至关重要，对聚类性能有一定影响。加权系数是基于样本点的离散程度，本发明通过平均绝对差(MAD)、标准差(STD)、方差(VAR)、变异系数(CV) 定位权重，在不同的加权系数下改进了传统的均值漂移算法的欧氏距离。为便于更好理解本发明加权系数对聚类性能的影响，作为一实施例，将样本序列设置为X＝(x₁，x₂，...，x_n)，其中n是样本大小。每一个点xi设置为 xi＝(x_i1，x_i2，...，x_id)，(i＝1，2，...，n)，其中d是数据的属性维度。x_i1，x_i2，...，x_id属性的权重系数则为w₁，w₂，...，w_d。

当采用平均绝对差为加权系数时，权重系数的计算公式为：

当采用标准差为加权系数时，权重系数的计算公式为：

当采用方差为加权系数时，权重系数的计算公式为：

当采用变异系数为加权系数时，权重系数的计算公式为：

为验证本发明聚类算法的效果，本发明将本申请聚类算法与传统的聚类算法分别执行头部检测认为，实验结果见下表1：

表1本申请聚类算法与传统的聚类算法性能比较表

方法	检测准确率	IoU
			传统聚类算法	0.959	0.862
本发明聚类算法	0.971	0.885

由上表不难看出，本发明聚类算法相较于传统的聚类算法准确率更高，能够实现更加精准的头部检测与定位。

进一步地，步骤S021前还包括计算所有待处理目标图像中包含完整头部的矩形图像块的大小，以使进行聚类分析的图像都包含完整的头部，具体计算公式如下：

进一步地，本发明还包括性能验证步骤，评价正确检测到头部的指标公式为：

IoU(A,B)＞σ

进一步地，为了验证本发明图像分类及聚类算法的性能，本发明通过两个用于实验的公共数据集Pandora，Watch-n-patch进行性能验证，且验证了不同采样单位k对系统性能的影响，并在在公共数据集上验证系统的有效性。最后，由于缺乏多目标的深度数据集，本发明用Kinect v2相机在室内环境采集深度图像并验证系统针对多目标检测与定位的有效性。需要进一步说明的是，本发明的性能验证步骤是在Windows10操作系统下运行，CPU为 IntelCore-i7(3.40GHz)，内存为16GB，显卡为NVIDIARTX2080。

具体地，Pandora数据集，通过MicrosoftKinectone采集22名受试者(10名男性和12名女性)的110个序列，约250000多张图像组成，用于头部肩部姿态估计。并通过眼镜、围巾、手机等制造人为干扰。数据集给出了头部姿态的真实值，并提供了人物的头部中心位置，其中深度图像分辨率为512x424。 Watch-n-patch,同样通过MicrosoftKinectone采集7名受试者在复杂多样的环境中且无监督状态下进行日常活动的各种动作。它由458个视频组成，总时长230 分钟，用于人类活动建模，该数据集提供了头部中点真实值，本发明还在该数据中的由2785张图像组成测试子集进一步相较于最近几年的其他现有技术方法验证了本发明性能，具体验证结果如下：

表2本发明与最近几年研究方法的性能对比

方法	检测准确率	IoU	fps
				Ballottaetal.	0.956	0.806	0.238
Ballottaetal.	0.984	0.789	16.79
				本发明算法	0.960	0.880	1.09

具体地，表2是在Pandora数据集上进行的性能验证，根据上表可以看出，本发明检测准确率与时效性鉴于两者之间，但检测精度IoU有明显提升。

表3本发明与最近几年研究方法的性能对比

具体地，表3是在在watch-n-patch数据集进行的性能验证，根据上表可以看出，本发明检测准确率接近目前最佳方法(检测正确率为0.964的方法)。结合表2，本发明方法与目前最佳方法相比，检测精度更高，即头部定位更加精确。

进一步地，在本发明性能验证过程中，还研究了k值(深度图像的采样单位)的大小对本发明算法的影响，其验证结构如下：

表4 K值对本发明算法的影响

k	检测准确率	IoU	fps
				3	0.96	0.898	0.209
7	0.96	0.887	0.662
				11	0.892	0.792	1.56
17	0.831	0.701	3.4

上表在pandora数据集上通过改变k的大小表明k会影响系统的检测性能， k越小，更有利于在头部中点附近形成密集的点簇，且精度更高，但时间消耗大。

进一步地，本发明方法在watch-n-patch数据集上示例如图2所示，其中图 2(a)为图像分类预测中点在与图像相同尺寸的二维平面空间上的聚类图，其中点集密集处即为预测头部区域，点集分散出为误检测区域，如图2(a)中由左至右的第一幅图中的靠近底部的两个区域为误检区域。图2显示了本发明在深度图像上的检测效果，矩形框为预测头部区域，由此可以看出，本发明能够实现深度图像头部检测与精准定位，其能够实现多目标任务的头部检测。需要进一步说明的是，图2仅为本发明实施例1性能验证示意图，其横纵坐标值、及人物灰度并不限定本发明保护范围。

实施例2

本实施例提供了一种存储介质，与实施例1具有相同的发明构思，其上存储有计算机指令，所述计算机指令运行时执行实施例1中所述的一基于卷积神经网的深度图像头部检测与定位方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器 (Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例3

本实施例还提供一种终端，与实施例1具有相同的发明构思，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行实施例1中所述的基于卷积神经网的深度图像头部检测与定位方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

实施例4

本发明还包括一种卷积神经网络，与实施例1具有相同的发明构思，用于实现深度图像的分类，获得包含头部信息的所有待处理目标图像，包括特征提取网络，特征提取网络包括顺次连接的多尺度特征提取单元、基于残差块的特征提取单元，还包括与基于残差块的特征提取单元输出端连接的分类单元。其中，多尺度特征提取单元，用于获取原始图像在不同尺度上的特征映射；基于残差块的特征提取单元在多尺度特征提取单元的基础上，提取原始图像的低层特征和高层特征；分类单元用于根据原始图像的低层特征和高层特征对原始图像分类，得到包含头部信息的所有待处理目标图像。

进一步地，如图3所示，多尺度特征提取单元包括顺次连接的多个不同卷积核的卷积层，和与最后一层卷积层连接的池化层。作为一具体实施例，多尺度特征提取单元包括顺次连接的2个卷积核分别为7*7，3*3的卷积层和1个池化层，卷积层用于提取图像的局部特征，池化层缩小矩阵的尺寸，从而减少最后全连接中的参数，加快计算速度，防止过拟合。需要进一步说明的是，原始深度图像转换为三通道的图像后输入上述多尺度特征提取单元，进而在两个不同卷积核卷积层的卷积处理后，得到原始深度图像不同尺度特征映射，即在图像的特征空间中构造金字塔，在系统检测速度与准确率之间进行了权衡，以获取鲁棒性更强的语义信息，在提高图像分类准确率的同时减小了计算量。

进一步地，基于残差块的特征提取单元包括若干顺次连接的残差块，残差块包括若干卷积层，且最后一层卷积层对特征进行降维处理；分类单元与第一残差块连接，第一残差块与第二残差块连接，且第二残差块中的卷积层与第一残差块中的卷积层执行跳跃加法操作，以更好地获得原始图像的语义信息。更为具体地，基于残差块的特征提取单元中的残差块具体为两层卷积层的残差块或三层卷积层的残差块，在本实施例中，基于残差块的特征提取单元具体为16 个卷积核大小分别为1*1，3*3，1*1的残差块，用作特征提取，其目的是通过深层网络提取特征高级的语义信息(特征)，同时防止梯度消失，防止退化现象出现。更进一步地，为了降维处理，残差块中的最后一个残差块的卷积核为 1*1，使各残差块之间的第一卷积层与最后一个卷积层能够执行加法操作后输入至下一残差块。如图4所示，将最后一个残差块定义为第一残差块，与第一残差块连接的残差块为第二残差块，对第一残差块中的第一个卷积层(卷积层IV) 输入端的特征进行上采样处理，以使第一残差块中的第一个卷积层(卷积层IV) 与第二残差块中的第二个卷积层(卷积层II)具有相同的尺寸，且第二残差块中的第二个卷积层(卷积层II)输出端与第一残差块中的第一个卷积层(卷积层 IV)输出端特征执行加法操作，第二残差块中的第一个卷积层(卷积层I)输出端与第一残差块中的第二个卷积层(卷积层V)输出端特征执行加法操作，以融合多层特征信息，以获得加强的语义信息，提高检测性能。

为验证本发明提出的包含特征提取网络(多尺度特征提取单元+基于残差块的特征提取单元)，设计了一组对比实验，固定除特征提取网络之外的所有结构和参数，仅改变网络的特征提取部分，用一组包含五个卷积层的网络替换特征提取网络部分，实验结果如下：

表5本发明特征提取网络与现有技术的性能对照表

方法	检测准确率	IoU
			对照方法	0.960	0.880
本发明方法	0.971	0.885

由上表可知，本发明特征提取网络具有有效性，检测正确率高。

作为一具体实施例，分类单元包括三个神经元分别为128、84、2的全连接层，全连接层采用丢弃正则化dropout(σ＝0.5)处理，采用双曲正切函数tanh 作为激活函数，以增强神经网络模型的非线性，保证图像分类的准确率。

综上，本发明对图像进行分类处理，可以获得包含头部信息的所有待处理目标图像；再将待处理目标图像进行聚类分析，能够消除背景及噪声的干扰，得到包含至少一个头部目标对应样本点在真实头部中心区域形成的密集点簇，以获取头部中点信息，进而在复杂环境下实现了多目标的头部的检测与精确定位。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。

Claims

1.基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述方法具体包括：

对图像进行分类处理，获得包含头部信息的所有待处理目标图像；

将待处理目标图像进行聚类分析，得到头部中点信息，进而实现多目标的头部检测与定位。

2.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述对图像进行分类处理包括特征提取步骤：

3.根据权利要求2所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述特征提取步骤后还包括目标分类步骤：

4.根据权利要求3所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述将待处理目标图像进行聚类分析具体包括：

将所有待处理目标图像的中心点抽象为d维空间中的样本点；

将d维空间指定圆形区域内的任意点作为起始点；

计算起始点的偏移均值，将起始点移动至偏移均值位置处；

重复上一步骤，直至样本点收敛，进而实现多目标的头部检测与定位。

5.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述计算起始点的偏移均值的计算公式为：

公式中，x表示点集，x_i表示点集中第i个点，x_ik表示第i个点的第k个特征维度，b是核带宽，g(t)是核函数，w_k是第k个属性的权重系数。

6.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述权重通过平均绝对差、标准差、方差、变异系数进行定义，当采用平均绝对差为加权系数时，权重系数的计算公式为：

当采用标准差为加权系数时，权重系数的计算公式为：

当采用方差为加权系数时，权重系数的计算公式为：

当采用变异系数为加权系数时，权重系数的计算公式为：

以上公式中，n表示样本大小。

7.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述将所有待处理目标图像的中心点抽象为d维空间中的样本点步骤前还包括：

计算所有待处理目标图像中包含完整头部的矩形图像块的大小，计算公式如下：

8.根据权利要求1所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述方法还包括性能验证步骤，评价正确检测到头部的指标公式为：

IoU(A，B)＞σ

9.一种卷积神经网络，其特征在于，所述网络用于对图像进行分类处理，获得包含头部信息的所有待处理目标图像，包括顺次连接的多尺度特征提取单元、基于残差块的特征提取单元和分类单元。

10.根据权利要求9所述的基于卷积神经网的深度图像头部检测与定位方法，其特征在于：所述多尺度特征提取单元包括顺次连接的多个不同卷积核的卷积层，和与最后一层卷积层连接的池化层；