CN108133235B

CN108133235B - 一种基于神经网络多尺度特征图的行人检测方法

Info

Publication number: CN108133235B
Application number: CN201711396890.2A
Authority: CN
Inventors: 舒泓新; 蔡晓东; 陈昀; 王秀英; 贺光明
Original assignee: Chinaccs Information Industry Co ltd
Current assignee: Chinaccs Information Industry Co ltd
Priority date: 2017-12-21
Filing date: 2017-12-21
Publication date: 2021-09-10
Anticipated expiration: 2037-12-21
Also published as: CN108133235A

Abstract

本发明公开了一种基于神经网络多尺度特征图的行人检测方法，检测方法为：收集行人检测样本；对选取的视频进行截帧处理，仅保留含有行人的图片；制作样本标签；搭建轻量化残差特征提取网络；搭建多尺度特征图行人检测网络；对搭建的特征提取网络在样本数据集进行网络预训练；将训练好的特征提取网络与搭建的检测网络进行拼接，使用准备好的行人训练数据集进行最终的网络训练。本发明的有益效果是：本发明的检测方法是将残差网络作为特征提取网络，并与多尺度特征图行人检测网络进行拼接，能够在场景复杂、行人尺度变化大情况下进行检测，且准确率高、检测效率高等优势。

Description

一种基于神经网络多尺度特征图的行人检测方法

技术领域

本发明涉及图像识别技术领域，特别涉及一基于神经网络多尺度特征图的行人检测方法。

背景技术

随着经济的发展，科技的进步，人们越来越希望计算机具有智能化，使其能够相比人类更有效、准确的处理问题。在计算机智能化的领域中，计算机视觉的智能化是很重要的一个部分。如今汽车自动驾驶、无人商店、机器人自动化等应用都与计算机视觉智能化息息相关，智能化目标检测技术是这些应用需解决的核心问题之一。目前，传统的行人检测方法，通过提取HOG、LBP、Haar等特征来训练分类器，得到的模型对姿态变化小的行人有着较好的检测率，但是鲁棒性不高。

发明内容

为了能够大幅提高在场景复杂、行人尺度变化大情况下的行人检测效率，本发明提供了一种能够在复杂场景等情况下进行行人检测且准确率高、检测效率高的基于神经网络多尺度特征图的行人检测方法。

为了实现上述发明目的，本发明提供了一种基于神经网络多尺度特征图的行人检测方法，所述检测方法为：

步骤S1：收集行人检测样本；对选取的视频进行截帧处理，对含有行人的图片保留并构成行人检测数据集，不含行人的图片丢弃；其中，所选的视频为多种实时场景监控视频，且视频需要不同分辨率，防止训练时网络过拟合；

步骤S2：制作样本标签，对行人检测数据集中一张图片中的每一个行人目标的坐标保存到xml格式的标签文件；

步骤S3：搭建轻量化残差特征提取网络；

步骤S4：搭建多尺度特征图行人检测网络；

步骤S5：对步骤S3搭建的特征提取网络在imagenet数据集进行网络预训练；

步骤S6：将步骤S5训练好的特征提取网络与步骤S4搭建的检测网络进行拼接，使用准备好的行人训练数据集进行拼接的网络中训练，得到最终收敛的网络模型。

具体的，将待检测视频依次按照步骤S1、步骤S2处理后，输入到步骤S6中最终收敛的网络模型中，得到行人检测结果；检测结果的准确率，可通过行人检测结果的行人数目与实际真人总数的比值来判定。

其中，步骤S1中所述的截帧处理，具体为：对每个视频3秒截取一帧并保存为jpg图片格式。对保存的图片进行检查，将不含有行人的图片删除。

其中，所述步骤S2中所述的制作样本标签，具体为：将一张图片中每个行人目标左上角、右下角的坐标写入xml文件进行保存，保存xml文件名与图片名一致；可使用python的xml.dom模块来构建xml标签文件，文件内容需包括图片名称、行人目标左上角和右下角坐标。

其中，所述步骤S3中的轻量化残差特征提取网络具体为：将残差网络使用的普通3*3卷积层替换为先使用1*1的卷积层，然后对卷积输出的每一个通道进行3*3的独立卷积，最后将所有3*3的独立卷积层的输出拼接；将原有残差网络中的卷积核替换成多个互相独立的卷积核，本发明的网络形式在准确率下降很小的情况下大大减少网络大小，提高检测速度。

其中，所述步骤S4中，所述多尺度特征行人检测网络，由3个卷积核为3*3卷积层组成，每个卷积层再接两个卷积层；两个卷基层中，其中一个后接smothL1loss进行坐标回归用于预测行人位置，另一个后接softmax loss进行分类用于判断默认框是否含有行人。

其中，所述步骤S4的所述行人检测网络，用于对每一尺度的每一张特征图，按照不同默认框的大小和长宽比生成k个默认框，对默认框和标签文件中的行人坐标进行jaccard计算，结果大于0.7的作为正样本，小于等于0.7的样本作为负样本。

其中，所述默认框以滑动形式遍历整张特征图，使用5个不同层的特征图来做预测，遍历最底层的特征图的默认框缩放系数为S_max，遍历最高层的特征图的默认框缩放系数为S_min，其他中间层的特征图的默认框缩放系数通过下面公式计算得到：

每个默认框有着不同的长宽比，用c来表示：

所以每个默认框的长宽为：

其中，S_max为最底层的特征图的默认框缩放系数，S_min为最高层的特征图的默认框缩放系数，m为用来进行预测的不同层特征图的层数。

其中，所述步骤S5中，所述特征提取网络在imagenet数据集进行网络预训练时，使用一种多分类的逻辑回归进行分类训练：

x_i＝x_i-max(x₁,...,x_n)

Loss＝-log p_k

并对其加入一个约束项，相当于把每一个输入样本都自动配了一个类中心

公式中，n为类别数，c_yi表示第y_i个类别的特征中心，x_i表示全连接层之前的特征。

其中，所述步骤S6中，所述特征提取网络与所述检测网络进行拼接，具体为：将所述特征提取网络的最后两层的全连接成利用astrous算法转换成卷积层并与所述检测网络连接；所述特征提取网络的最后5层卷积层作为多尺度特征图行人检测网络的输入层。

本发明的有益效果是：本发明的检测方法是将残差网络作为特征提取网络，并与多尺度特征图行人检测网络进行拼接，能够在场景复杂、行人尺度变化大情况下进行检测，且准确率高、检测效率高等优势。

附图说明

图1为本发明实施例中轻量化残差特征提取网络的结构示意图。

具体实施方式

近年来，基于卷积神经网络的方法在计算机视觉领域取得了巨大的成就，例如:目标检测、特征匹配、姿态估计和许多其他任务。为了能够大幅度提高现有行人检测效率，本发明提出一种基于神经网络多尺度特征图的行人检测方法，将残差网络作为特征提取网络，并与多尺度特征图行人检测网络进行拼接，能够在场景复杂、行人尺度变化大情况下进行检测，且准确率高、检测效率高等优势，特别是检测速度能提高4倍。

为能清楚说明本方案的技术特点，下面通过具体实施方式，对本方案进行阐述。

本发明实施例提供了一种基于神经网络多尺度特征图的行人检测方法，检测方法为：

步骤S3：搭建轻量化残差特征提取网络；

步骤S4：搭建多尺度特征图行人检测网络；

具体的，将待检测视频依次按照步骤S1、步骤S2处理后，输入到步骤S6中最终收敛的网络模型中，得到行人检测结果。检测结果的准确率，可通过行人检测结果的行人数目与实际真人总数的比值来判定。

其中，步骤S1中的截帧处理，具体为：对每个视频3秒截取一帧并保存为jpg图片格式。对保存的图片进行检查，将不含有行人的图片删除。

其中，步骤S2中的制作样本标签，具体为：将一张图片中每个行人目标左上角、右下角的坐标写入xml文件进行保存，保存xml文件名与图片名一致；可使用python的xml.dom模块来构建xml标签文件，文件内容需包括图片名称、行人目标左上角和右下角坐标。

其中，步骤S3中的轻量化残差特征提取网络(如图1所示)，具体为：将残差网络使用的普通3*3卷积层替换为先使用1*1的卷积层，然后对卷积输出的每一个通道进行3*3的独立卷积，最后将所有3*3的独立卷积层的输出拼接；将原有残差网络中的卷积核替换成多个互相独立的卷积核，本发明的网络形式在准确率下降很小的情况下大大减少网络大小，提高检测速度。

其中，步骤S4中，多尺度特征行人检测网络，由3个卷积核为3*3卷积层组成，每个卷积层再接两个卷积层；两个卷基层中，其中一个后接smothL1loss进行坐标回归用于预测行人位置，另一个后接softmax loss进行分类用于判断默认框是否含有行人。

其中，步骤S4的行人检测网络，用于对每一尺度的每一张特征图，按照不同默认框的大小和长宽比生成5个默认框，对默认框和标签文件中的行人坐标进行jaccard计算，结果大于0.7的作为正样本，小于等于0.7的样本作为负样本。其中，“每一尺度”即为特征图的尺寸。

其中，默认框以滑动形式遍历整张特征图，使用5个不同层的特征图来做预测，遍历最底层的特征图的默认框缩放系数S_max为0.2，遍历最高层的特征图的默认框缩放系数S_min为0.9，其他中间层的特征图的默认框缩放系数通过下面公式计算得到：

每个默认框有着不同的长宽比，用c来表示：

所以每个默认框的长宽为：

其中，m为用来进行预测的不同层特征图的层数。

其中，步骤S5中，特征提取网络在imagenet数据集进行网络预训练时，使用一种多分类的逻辑回归进行分类训练：

x_i＝x_i-max(x₁,...,x_n)

Loss＝-log p_k

其中，步骤S6中，特征提取网络与检测网络进行拼接，具体为：将特征提取网络的最后两层的全连接成利用astrous算法转换成卷积层并与检测网络连接；特征提取网络的最后5层卷积层作为多尺度特征图行人检测网络的输入层。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络多尺度特征图的行人检测方法，其特征在于，所述检测方法为：

步骤S1：收集行人检测样本；对选取的视频进行截帧处理，对含有行人的图片保留并构成行人检测数据集，不含行人的图片丢弃；

步骤S3：搭建轻量化残差特征提取网络；

步骤S4：搭建多尺度特征图行人检测网络；

步骤S6：将步骤S5训练好的特征提取网络与步骤S4搭建的检测网络进行拼接，使用准备好的行人训练数据集进行最终的网络训练；

其中，所述步骤S3中的轻量化残差特征提取网络具体为：将残差网络使用的普通3*3卷积层替换为先使用1*1的卷积层，然后对卷积输出的每一个通道进行3*3的独立卷积，最后将所有3*3的独立卷积层的输出拼接；

其中，默认框以滑动形式遍历整张特征图，使用5个不同层的特征图来做预测，遍历最底层的特征图的默认框缩放系数为S_max，遍历最高层的特征图的默认框缩放系数为S_min，其他中间层的特征图的默认框缩放系数通过下面公式计算得到：

每个默认框有着不同的长宽比，用c来表示：

所以每个默认框的长宽为：

2.根据权利要求1所述的行人检测方法，其特征在于，步骤S1中所述的截帧处理，具体为：对每个视频3秒截取一帧并保存为jpg图片格式。

3.根据权利要求1所述的行人检测方法，其特征在于，所述步骤S2中所述的制作样本标签，具体为：将一张图片中每个行人目标左上角、右下角的坐标写入xml文件进行保存，保存xml文件名与图片名一致。

4.根据权利要求1所述的行人检测方法，其特征在于，所述步骤S4中，所述多尺度特征图行人检测网络，由3个卷积核为3*3卷积层组成，每个卷积层再接两个卷积层；两个卷积层中，其中一个后接smothL1loss进行坐标回归用于预测行人位置，另一个后接softmax loss进行分类用于判断默认框是否含有行人。

5.根据权利要求1所述的行人检测方法，其特征在于，所述步骤S4的所述行人检测网络，用于对每一尺度的每一张特征图，按照不同默认框的大小和长宽比生成k个默认框，对默认框和标签文件中的行人坐标进行jaccard计算，结果大于0.7的作为正样本，小于等于0.7的样本作为负样本。

6.根据权利要求1所述的行人检测方法，其特征在于，所述步骤S5中，所述特征提取网络在imagenet数据集进行网络预训练时，使用一种多分类的逻辑回归进行分类训练：

x_i＝x_i-max(x₁,...,x_n)

Loss＝-log p_k

其中，公式中，n为类别数，c_yi表示第y_i个类别的特征中心，x_i表示全连接层之前的特征。

7.根据权利要求1-6任一项所述的行人检测方法，其特征在于，所述步骤S6中，所述特征提取网络与所述检测网络进行拼接，具体为：将所述特征提取网络的最后两层的全连接层利用astrous算法转换成卷积层并与所述检测网络连接；所述特征提取网络的最后5层卷积层作为多尺度特征图行人检测网络的输入层。