CN110837762B

CN110837762B - 基于GoogLeNet的卷积神经网络行人识别方法

Info

Publication number: CN110837762B
Application number: CN201810940919.7A
Authority: CN
Inventors: 屈惠明; 龙泉舟; 刁海玮; 傅晓梦; 崔振龙; 刘李凤
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-08-17
Filing date: 2018-08-17
Publication date: 2022-09-27
Anticipated expiration: 2038-08-17
Also published as: CN110837762A

Abstract

本发明公开了一种基于GoogLeNet的卷积神经网络行人识别方法。该方法步骤如下：加载所需的工具包；定义卷积神经网络网络：定义GooLeNet神经网络模型；定义GooLeNet神经网络结构；加载VOC2007+2012数据集：标注文件夹及图片位置；生成验证和训练所需批次；进行网络检测：每张图片生成7*7个网格；网格负责预测类别信息；每个网格中的bounding box负责预测坐标信息；生成置信度值；进行网络测试；定义模型的损失函数；加载已训练好的权重；展示图像处理结果。本发明增强了神经网络的特征表达能力，同时也提高了行人检测在夜间及复杂背景下的准确率。

Description

基于GoogLeNet的卷积神经网络行人识别方法

技术领域

本发明属于智能视频监控技术领域，特别是一种基于GoogLeNet的卷积神经网络行人识别方法。

技术背景

行人检测技术就是利用计算机视觉技术，判断图像或者视频中的是否存在行人并进行定位。目前的行人检测技术在机动车辅助驾驶、智能视频监控、智能机器人以及人体行为分析等领域中起到了关键作用。

行人检测技术所采用的算法相对成熟的是机器学习方法，在室内或背景比较固定的场景下已取得了不错的效果。但是在复杂场景中，由于不同行人的拍摄角度、人体姿态、遮挡等一系列因素的影响，使得行人检测仍面临着极大的挑战。机器学习方法存在神经网络特征表达能力差的问题，无法在保证检测速率的前提下提高检测精确度，因此导致复杂背景下行人检测的准确率较低。

发明内容

本发明的目的在于提供一种基于GoogLeNet的卷积神经网络行人识别方法，以提升复杂背景下行人检测的准确率。

实现本发明目的的技术解决方案为：一种基于GoogLeNet的卷积神经网络行人识别方法，包括以下步骤：

步骤1，开始操作，加载所需的工具包；

步骤2，定义卷积神经网络即定义GoogLeNet的神经网络模型及其神经网络结构；

步骤3，加载VOC2007+2012数据集即标注数据集中的文件夹及图片位置，生成验证和训练所需批次；

步骤4，对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值，进行网络检测；

步骤5，进行网络测试，得到训练后的检测结果；

步骤6，定义模型损失函数；

步骤7，加载已训练好的权重，准备进行随机图像识别；

步骤8，输出并展示图像识别效果。

进一步地，步骤2所述定义GoogLeNet的神经网络模型及其神经网络结构，具体为：

卷积层进行计算：

其中，

表示第l层的第j个图像特征，

为网络权重即卷积核，f(·)为激活函数，

为偏置，

为网络的输入，i代表像素值，l代表层数，M_j代表输入层的感受野。

进一步地，步骤4所述对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值，进行网络检测，具体步骤如下：

步骤4-1、将一张图片生成网格

将一张图片分成7*7个网格，物体的中心落在这个网格中此网格就负责预测这个物体；最后一层输出为(7*7)*(2*5+1)的维度，每个1*1*11的维度对应原图7*7个网格中的一个，1*1*11中含有class和bounding box，class对应类别预测，bounding box 对应坐标预测；

步骤4-2、预测bounding box的坐标

每个网格要预测2个bounding box的坐标即X，Y，W，H，其中：中心坐标X， Y相对于对应的网格归一化到0-1之间，W，H用图像的宽度和高度归一化到0-1之间；每个boundingbox除了要回归自身的位置之外，还要附带预测一个置信度值，该置信度值代表所预测的bounding box中含有目标的置信度和预测的准确度两重信息；如果有人工标记的物体ground true box落在一个网格里，第一项取1，否则取0；第二项是预测的bounding box和实际的ground truth box之间的交并比IOU值；即：每个bounding box 要预测X、Y、W、H、置信度共5个值，2个bounding box共10个值，对应1*1*11 维度特征中的前10个；

步骤4-3、预测class类别信息

每个网格还要预测class即类别信息，官方权重中包含20个类别，现在只有person即人物一个类别；7*7的网格，每个网格要预测2个bounding box和1个类别概率，输出就是7*7*(5*2+1)；即通用公式为：S*S个网格，每个网格要预测B个bounding box 还要预测C个class，输出就是S*S*(5*B+C)的一个张量；其中，class信息是针对每个网格的，confidence信息是针对每个bounding box的。

进一步地，步骤5所述进行网络测试，得到训练后的检测结果，包括以下步骤：

步骤5-1、得到每个bounding box的类别-坐标置信度分数值

每个网格预测的类别信息Pr(类别|目标)和bounding box预测的置信度信息

相乘，得到每个bounding box的类别-坐标置信度分数值，如下式公式(1)所示：

其中，Class表示类别，Object表示目标，等式左边第一项Pr(Class_i|Object)就是每个网格预测的类别信息，第二项、第三项

就是每个bounding box预测的置信度，等式右边

表示每个bounding box预测的类别-坐标置信度分数值；

步骤5-2、对每一个网格的每一个bounding box执行相同的操作

7*7*2＝98bounding box，每个bounding box既有对应的类别信息，又有坐标信息；

步骤5-3、得到每个bounding box的类别-坐标置信度分数值以后，设置阈值，滤掉得分低的bounding box；

步骤5-4、对保留的bounding box进行非极大抑制NMS处理；

将所有保留的bounding box得分排序，选其中最高分及对应的bounding box；遍历所有的框，如果当前最高得分的bounding box的IOU大于阈值，就将其删除；从未处理的bounding box中继续选一个得分最高的，重复上述过程，直到得到最终的检测结果。

进一步地，步骤6所述定义模型损失函数，具体步骤如下：

步骤6-1、类别预测loss损失函数

每个网格只用了一个预测目标，只需要计算该预测目标的类别预测损失，计算在几个类上的概率分布的平方误差；

步骤6-2、位置预测loss损失函数

分别计算目标中心坐标的平方误差和长宽的平方误差；

步骤6-3、置信度预测loss损失函数

第1、2行公式为位置预测loss，分别计算目标中心坐标的平方误差和长宽的平房误差；第3、4行公式为预测置信度loss，C为置信度；设置两个参数，λ_coord>λ_noobj，将包含目标的网格的预测损失权重提高；第5行公式为类别预测loss，每个网格只用了一个预测目标，只需要计算该预测目标的类别预测损失，计算在几个类上的概率分布的平方误差，i表示预测只包含行人一个类，如公式(2)所示：

本发明与现有技术相比，其显著优点为：(1)在传统CNN基础上采用了GoogLeNet的设计思路，加入了1*1卷积层实现network in network结构，大大提高了神经网络的特征表达能力，同时也保持网络参数数目变化不大；(2)对于夜间及复杂背景情况下，识别准确率也有很大的提高；(3)可以实时的对图像进行随机识别，有效地实施视频监控、安防等，在智能视频监控和智能交通监控系统等实际应用中具有很高的市场价值。

下面结合附图和实施例对本发明进一步说明。

附图说明

图1是本发明基于GoogLeNet的卷积神经网络行人识别方法的网络结构框图。

图2是本发明基于GoogLeNet的卷积神经网络行人识别方法的流程框图。

具体实施方式

本发明所述的一种基于GoogLeNet的卷积神经网络行人识别方法，包括以下步骤：

步骤1，开始操作，加载所需的工具包；

步骤5，进行网络测试，得到训练后的检测结果；

步骤6，定义模型损失函数；

步骤7，加载已训练好的权重，准备进行随机图像识别；

步骤8，输出并展示图像识别效果。

如上步骤2所述定义GoogLeNet的神经网络模型及其神经网络结构，具体为：

卷积层进行计算：

其中，

表示第l层的第j个图像特征，

为网络权重即卷积核，f(·)为激活函数，

为偏置，

如上步骤4所述对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值，进行网络检测，具体步骤如下：

步骤4-1、将一张图片生成网格

将一张图片分成7*7个网格，某个物体的中心落在这个网格中此网格就负责预测这个物体。最后一层输出为(7*7)*(2*5+1)的维度。每个1*1*11的维度对应原图7*7 个网格中的一个，1*1*11中含有class(类别预测)和bounding box(坐标预测)；

步骤4-2、预测bounding box的坐标

每个网格要预测2个bounding box的坐标(即X，Y，W，H)，其中：中心坐标X， Y相对于对应的网格归一化到0-1之间，W，H用图像的宽度和高度归一化到0-1之间。每个boundingbox除了要回归自身的位置之外，还要附带预测一个置信度值。这个置信度值代表了所预测的box中含有目标的置信度和这个box预测的有多准两重信息。其中如果有ground truebox(人工标记的物体)落在一个网格里，第一项取1，否则取0。第二项是预测的boundingbox和实际的ground truth box之间的IOU值(交并比)。即：每个bounding box要预测X，Y，W，H，置信度,共5个值，2个bounding box共10 个值，对应1*1*11维度特征中的前10个；

步骤4-3、预测class(类别信息)

每个网格还要预测class(类别信息)，官方权重中包含20个类别，现在只有person(人物)一个类别。7*7的网格，每个网格要预测2个bounding box和1个类别概率，输出就是7*7*(5*2+1)。即通用公式为：S＊S个网格，每个网格要预测B个bounding box还要预测C个class，输出就是S＊S＊(5*B+C)的一个张量。其中，class信息是针对每个网格的，confidence信息是针对每个bounding box的。

如上步骤5所述的进行网络测试，得到训练后的检测结果，包括：

步骤5-1、得到每个bounding box的类别-坐标置信度分数值

每个网格预测的类别信息(Pr(类别|目标))和bounding box预测的置信度信息

相乘，得到每个bounding box的类别-坐标置信度分数值，如公式(1)所示：

Class表示类别，Object表示目标，等式左边第一项就是每个网格预测的类别信息，第二项、第三项就是每个bounding box预测的置信度。这个乘积编码既预测了box属于某一类的概率，也有该box的准确度信息；

步骤5-2、对每一个网格的每一个bounding box执行相同的操作

步骤5-3、得到每个bounding box的类别-坐标置信度分数值以后，设置阈值，滤掉得分低的boxes；

步骤5-4、对保留的boxes进行NMS(非极大抑制)处理

将所有保留的boxes得分排序，选其中最高分及对应的box；遍历所有的框，如果当前最高得分的box的IOU大于阈值，就将其删除；从未处理的box中继续选一个得分最高的，重复上述过程，直到得到最终的检测结果。

其中，box和bounding box表示的意义相同，boxes表示所得到的坐标不是只有一个，而是有多个，所以需要删除IOU大于阈值的box。

如上步骤6所述定义模型损失函数，具体步骤如下：

步骤6-1、类别预测loss损失函数

步骤6-2、位置预测loss损失函数

分别计算目标中心坐标的平方误差和长宽的平方误差；

步骤6-3置信度预测loss损失函数

第1、2行公式为位置预测loss，分别计算目标中心坐标的平方误差和长宽的平房误差，为了让大的目标和小的目标的位置损失能够平衡，将长和宽分别分开；第3、4 行公式为预测置信度loss，C为置信度，并且大部分网格是不包含目标的，所以后半部分的loss会比较大，以致于压制上部分的loss对整体loss的影响，会导致模型参数的不稳定，容易发散，所以会设置两个参数，λ_coord>λ_noobj，使得包含目标的网格的预测损失能够有比较大的权重；第5行公式为类别预测loss，每个网格只用了一个预测目标，只需要计算该预测目标的类别预测损失，计算在几个类上的概率分布的平方误差，i表示预测只包含行人一个类，如下式公式(2)所示：

下面结合附图和具体实施过程对本发明做进一步详细说明。

实施例

本发明的主要功能由两个主要的基本模块实现。网络检测负责预测目标类别信息、坐标信息、置信度值；网络测试负责得到训练后的最终检测结果。

本发明具体步骤：

一、加载所需工具包；

开始操作，加载所需的工具包。

二、定义卷积神经网络模型结构；

如图1所示，定义GoogLeNet的神经网络模型及其神经网络结构：

所定义的GoogLeNet的神经网络模型及其神经网络结构，卷积层进行计算：

其中，上标

表示第l层的第j个图像特征，

为网络权重(卷积核)，f(·)为激活函数，

为偏置，

三、加载数据集进行训练；

加载VOC2007+2012数据集即标注数据集中的文件夹及图片位置，生成验证和训练所需批次。

四、进行网络检测；

如图1所示，步骤：

1、对训练图片生成7*7网格

将一张图片分成7*7个网格，某个物体的中心落在这个网格中此网格就负责预测这个物体。最后一层输出为(7*7)*(2*5+1)的维度。每个1*1*11的维度对应原图7*7 个网格中的一个，1*1*11中含有class(类别预测)和bounding box(坐标预测)。

2、预测bounding box的坐标

每个网格要预测2个bounding box的坐标(即X，Y，W，H)：

a)、中心坐标X，Y相对于对应的网格归一化到0-1之间，W，H用图像的宽度和高度归一化到0-1之间。

b)、每个bounding box除了要回归自身的位置之外，还要附带预测一个置信度值，这个置信度值代表了所预测的box中含有目标的置信度和这个box预测的有多准两重信息，其中如果有ground true box(人工标记的物体)落在一个网格里，第一项取1，否则取0。

c)、预测的bounding box和实际的ground truth box之间的IOU值(交并比)

即：每个bounding box要预测X，Y，W，H，置信度,共5个值，2个bounding box 共10个值，对应1*1*11维度特征中的前10个。

3、预测class(类别信息)

每个网格还要预测class(类别信息)，官方权重中包含20个类别，现在只有person(人物)一个类别

7*7的网格，每个网格要预测2个bounding box和1个类别概率，输出就是7*7* (5*2+1)

通用公式为：

S＊S个网格，每个网格要预测B个bounding box还要预测C个class，输出就是S ＊S＊(5*B+C)的一个张量。其中，class信息是针对每个网格的，confidence信息是针对每个bounding box的。

五、进行网络测试；

得到每个bounding box的类别-坐标置信度分数值

如图2所示，步骤：

1、每个网格预测的类别信息(Pr(类别|目标))和bounding box预测的置信度信息

相乘，得到每个bounding box的类别-坐标置信度分数值，如式(1)所示：

Class表示类别，Object表示目标，等式左边第一项就是每个网格预测的类别信息，第二项、第三项就是每个bounding box预测的置信度。这个乘积编码既预测了box属于某一类的概率，也有该box的准确度信息。

2、对每一个网格的每一个bounding box执行相同的操作：

7*7*2＝98bounding box，每个bounding box既有对应的类别信息，又有坐标信息。

3、得到每个bounding box的类别-坐标置信度分数值以后，设置阈值，滤掉得分低的boxes。

4、对保留的boxes进行NMS(非极大抑制)处理：

a)、将所有保留的boxes得分排序，选其中最高分及对应的box

b)、遍历所有的框，如果当前最高得分的box的IOU大于阈值，就将其删除

c)、从未处理的box中继续选一个得分最高的，重复上述过程，直到得到最终的检测结果。

六、定义模型损失函数；

1、类别预测loss损失函数

每个网格只用了一个预测目标，只需要计算该预测目标的类别预测损失，计算在几个类上的概率分布的平方误差。

2、位置预测loss损失函数

分别计算目标中心坐标的平方误差和长宽的平方误差

3、置信度预测loss损失函数

如下式公式(2)所示：

七、加载已训练好的权重，准备进行随机图像识别；

在传统CNN基础上采用了GoogLeNet的设计思路，加入了1*1卷积层实现networkin network结构，大大提高了神经网络的特征表达能力，同时也保持网络参数数目变化不大；而且对于夜间及复杂背景情况下，识别准确率也有很大的提高。

Claims

1.一种基于GoogLeNet的卷积神经网络行人识别方法，其特征在于，包括以下步骤：

步骤1，开始操作，加载所需的工具包；

步骤4，对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值，进行网络检测，具体步骤如下：

步骤4-1、将一张图片生成网格

将一张图片分成7*7个网格，物体的中心落在这个网格中此网格就负责预测这个物体；最后一层输出为(7*7)*(2*5+1)的维度，每个1*1*11的维度对应原图7*7个网格中的一个，1*1*11中含有class和bounding box，class对应类别预测，bounding box对应坐标预测；

步骤4-2、预测bounding box的坐标

每个网格要预测2个bounding box的坐标即X，Y，W，H，其中：中心坐标X，Y相对于对应的网格归一化到0-1之间，W，H用图像的宽度和高度归一化到0-1之间；每个bounding box除了要回归自身的位置之外，还要附带预测一个置信度值，该置信度值代表所预测的boundingbox中含有目标的置信度和预测的准确度两重信息；如果有人工标记的物体ground truebox落在一个网格里，第一项取1，否则取0；第二项是预测的bounding box和实际的groundtruth box之间的交并比IOU值；即：每个bounding box要预测X、Y、W、H、置信度共5个值，2个bounding box共10个值，对应1*1*11维度特征中的前10个；

步骤4-3、预测class类别信息

每个网格还要预测class即类别信息，官方权重中包含20个类别，现在只有person即人物一个类别；7*7的网格，每个网格要预测2个bounding box和1个类别概率，输出就是7*7*(5*2+1)；即通用公式为：S*S个网格，每个网格要预测B个bounding box还要预测C个class，输出就是S*S*(5*B+C)的一个张量；其中，class信息是针对每个网格的，confidence信息是针对每个bounding box的；

步骤5，进行网络测试，得到训练后的检测结果；

步骤6，定义模型损失函数；

步骤7，加载已训练好的权重，准备进行随机图像识别；

步骤8，输出并展示图像识别效果。

2.根据权利要求1所述的基于GoogLeNet的卷积神经网络行人识别方法，其特征在于，步骤2所述定义GoogLeNet的神经网络模型及其神经网络结构，具体为：

卷积层进行计算：