CN110837762B - 基于GoogLeNet的卷积神经网络行人识别方法 - Google Patents

基于GoogLeNet的卷积神经网络行人识别方法 Download PDF

Info

Publication number
CN110837762B
CN110837762B CN201810940919.7A CN201810940919A CN110837762B CN 110837762 B CN110837762 B CN 110837762B CN 201810940919 A CN201810940919 A CN 201810940919A CN 110837762 B CN110837762 B CN 110837762B
Authority
CN
China
Prior art keywords
bounding box
prediction
class
grid
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810940919.7A
Other languages
English (en)
Other versions
CN110837762A (zh
Inventor
屈惠明
龙泉舟
刁海玮
傅晓梦
崔振龙
刘李凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201810940919.7A priority Critical patent/CN110837762B/zh
Publication of CN110837762A publication Critical patent/CN110837762A/zh
Application granted granted Critical
Publication of CN110837762B publication Critical patent/CN110837762B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于GoogLeNet的卷积神经网络行人识别方法。该方法步骤如下:加载所需的工具包;定义卷积神经网络网络:定义GooLeNet神经网络模型;定义GooLeNet神经网络结构;加载VOC2007+2012数据集:标注文件夹及图片位置;生成验证和训练所需批次;进行网络检测:每张图片生成7*7个网格;网格负责预测类别信息;每个网格中的bounding box负责预测坐标信息;生成置信度值;进行网络测试;定义模型的损失函数;加载已训练好的权重;展示图像处理结果。本发明增强了神经网络的特征表达能力,同时也提高了行人检测在夜间及复杂背景下的准确率。

Description

基于GoogLeNet的卷积神经网络行人识别方法
技术领域
本发明属于智能视频监控技术领域,特别是一种基于GoogLeNet的卷积神经网络行人识别方法。
技术背景
行人检测技术就是利用计算机视觉技术,判断图像或者视频中的是否存在行人并进行定位。目前的行人检测技术在机动车辅助驾驶、智能视频监控、智能机器人以及人体行为分析等领域中起到了关键作用。
行人检测技术所采用的算法相对成熟的是机器学习方法,在室内或背景比较固定的场景下已取得了不错的效果。但是在复杂场景中,由于不同行人的拍摄角度、人体姿态、遮挡等一系列因素的影响,使得行人检测仍面临着极大的挑战。机器学习方法存在神经网络特征表达能力差的问题,无法在保证检测速率的前提下提高检测精确度,因此导致复杂背景下行人检测的准确率较低。
发明内容
本发明的目的在于提供一种基于GoogLeNet的卷积神经网络行人识别方法,以提升复杂背景下行人检测的准确率。
实现本发明目的的技术解决方案为:一种基于GoogLeNet的卷积神经网络行人识别方法,包括以下步骤:
步骤1,开始操作,加载所需的工具包;
步骤2,定义卷积神经网络即定义GoogLeNet的神经网络模型及其神经网络结构;
步骤3,加载VOC2007+2012数据集即标注数据集中的文件夹及图片位置,生成验证和训练所需批次;
步骤4,对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值,进行网络检测;
步骤5,进行网络测试,得到训练后的检测结果;
步骤6,定义模型损失函数;
步骤7,加载已训练好的权重,准备进行随机图像识别;
步骤8,输出并展示图像识别效果。
进一步地,步骤2所述定义GoogLeNet的神经网络模型及其神经网络结构,具体为:
卷积层进行计算:
Figure BDA0001769043280000021
其中,
Figure BDA0001769043280000022
表示第l层的第j个图像特征,
Figure BDA0001769043280000023
为网络权重即卷积核,f(·)为激活函数,
Figure BDA0001769043280000024
为偏置,
Figure BDA0001769043280000025
为网络的输入,i代表像素值,l代表层数,Mj代表输入层的感受野。
进一步地,步骤4所述对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值,进行网络检测,具体步骤如下:
步骤4-1、将一张图片生成网格
将一张图片分成7*7个网格,物体的中心落在这个网格中此网格就负责预测这个物体;最后一层输出为(7*7)*(2*5+1)的维度,每个1*1*11的维度对应原图7*7个网格中的一个,1*1*11中含有class和bounding box,class对应类别预测,bounding box 对应坐标预测;
步骤4-2、预测bounding box的坐标
每个网格要预测2个bounding box的坐标即X,Y,W,H,其中:中心坐标X, Y相对于对应的网格归一化到0-1之间,W,H用图像的宽度和高度归一化到0-1之间;每个boundingbox除了要回归自身的位置之外,还要附带预测一个置信度值,该置信度值代表所预测的bounding box中含有目标的置信度和预测的准确度两重信息;如果有人工标记的物体ground true box落在一个网格里,第一项取1,否则取0;第二项是预测的bounding box和实际的ground truth box之间的交并比IOU值;即:每个bounding box 要预测X、Y、W、H、置信度共5个值,2个bounding box共10个值,对应1*1*11 维度特征中的前10个;
步骤4-3、预测class类别信息
每个网格还要预测class即类别信息,官方权重中包含20个类别,现在只有person即人物一个类别;7*7的网格,每个网格要预测2个bounding box和1个类别概率,输出就是7*7*(5*2+1);即通用公式为:S*S个网格,每个网格要预测B个bounding box 还要预测C个class,输出就是S*S*(5*B+C)的一个张量;其中,class信息是针对每个网格的,confidence信息是针对每个bounding box的。
进一步地,步骤5所述进行网络测试,得到训练后的检测结果,包括以下步骤:
步骤5-1、得到每个bounding box的类别-坐标置信度分数值
每个网格预测的类别信息Pr(类别|目标)和bounding box预测的置信度信息
Figure BDA0001769043280000031
Figure BDA0001769043280000032
相乘,得到每个bounding box的类别-坐标置信度分数值,如下式公式(1)所示:
Figure BDA0001769043280000033
其中,Class表示类别,Object表示目标,等式左边第一项Pr(Classi|Object)就是每个网格预测的类别信息,第二项、第三项
Figure BDA0001769043280000034
就是每个bounding box预测的置信度,等式右边
Figure BDA0001769043280000035
表示每个bounding box预测的类别-坐标置信度分数值;
步骤5-2、对每一个网格的每一个bounding box执行相同的操作
7*7*2=98bounding box,每个bounding box既有对应的类别信息,又有坐标信息;
步骤5-3、得到每个bounding box的类别-坐标置信度分数值以后,设置阈值,滤掉得分低的bounding box;
步骤5-4、对保留的bounding box进行非极大抑制NMS处理;
将所有保留的bounding box得分排序,选其中最高分及对应的bounding box;遍历所有的框,如果当前最高得分的bounding box的IOU大于阈值,就将其删除;从未处理的bounding box中继续选一个得分最高的,重复上述过程,直到得到最终的检测结果。
进一步地,步骤6所述定义模型损失函数,具体步骤如下:
步骤6-1、类别预测loss损失函数
每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差;
步骤6-2、位置预测loss损失函数
分别计算目标中心坐标的平方误差和长宽的平方误差;
步骤6-3、置信度预测loss损失函数
第1、2行公式为位置预测loss,分别计算目标中心坐标的平方误差和长宽的平房误差;第3、4行公式为预测置信度loss,C为置信度;设置两个参数,λcoordnoobj,将包含目标的网格的预测损失权重提高;第5行公式为类别预测loss,每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差,i表示预测只包含行人一个类,如公式(2)所示:
Figure BDA0001769043280000041
本发明与现有技术相比,其显著优点为:(1)在传统CNN基础上采用了GoogLeNet的设计思路,加入了1*1卷积层实现network in network结构,大大提高了神经网络的特征表达能力,同时也保持网络参数数目变化不大;(2)对于夜间及复杂背景情况下,识别准确率也有很大的提高;(3)可以实时的对图像进行随机识别,有效地实施视频监控、安防等,在智能视频监控和智能交通监控系统等实际应用中具有很高的市场价值。
下面结合附图和实施例对本发明进一步说明。
附图说明
图1是本发明基于GoogLeNet的卷积神经网络行人识别方法的网络结构框图。
图2是本发明基于GoogLeNet的卷积神经网络行人识别方法的流程框图。
具体实施方式
本发明所述的一种基于GoogLeNet的卷积神经网络行人识别方法,包括以下步骤:
步骤1,开始操作,加载所需的工具包;
步骤2,定义卷积神经网络即定义GoogLeNet的神经网络模型及其神经网络结构;
步骤3,加载VOC2007+2012数据集即标注数据集中的文件夹及图片位置,生成验证和训练所需批次;
步骤4,对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值,进行网络检测;
步骤5,进行网络测试,得到训练后的检测结果;
步骤6,定义模型损失函数;
步骤7,加载已训练好的权重,准备进行随机图像识别;
步骤8,输出并展示图像识别效果。
如上步骤2所述定义GoogLeNet的神经网络模型及其神经网络结构,具体为:
卷积层进行计算:
Figure BDA0001769043280000051
其中,
Figure BDA0001769043280000052
表示第l层的第j个图像特征,
Figure BDA0001769043280000053
为网络权重即卷积核,f(·)为激活函数,
Figure BDA0001769043280000054
为偏置,
Figure BDA0001769043280000055
为网络的输入,i代表像素值,l代表层数,Mj代表输入层的感受野。
如上步骤4所述对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值,进行网络检测,具体步骤如下:
步骤4-1、将一张图片生成网格
将一张图片分成7*7个网格,某个物体的中心落在这个网格中此网格就负责预测这个物体。最后一层输出为(7*7)*(2*5+1)的维度。每个1*1*11的维度对应原图7*7 个网格中的一个,1*1*11中含有class(类别预测)和bounding box(坐标预测);
步骤4-2、预测bounding box的坐标
每个网格要预测2个bounding box的坐标(即X,Y,W,H),其中:中心坐标X, Y相对于对应的网格归一化到0-1之间,W,H用图像的宽度和高度归一化到0-1之间。每个boundingbox除了要回归自身的位置之外,还要附带预测一个置信度值。这个置信度值代表了所预测的box中含有目标的置信度和这个box预测的有多准两重信息。其中如果有ground truebox(人工标记的物体)落在一个网格里,第一项取1,否则取0。第二项是预测的boundingbox和实际的ground truth box之间的IOU值(交并比)。即:每个bounding box要预测X,Y,W,H,置信度,共5个值,2个bounding box共10 个值,对应1*1*11维度特征中的前10个;
步骤4-3、预测class(类别信息)
每个网格还要预测class(类别信息),官方权重中包含20个类别,现在只有person(人物)一个类别。7*7的网格,每个网格要预测2个bounding box和1个类别概率,输出就是7*7*(5*2+1)。即通用公式为:S*S个网格,每个网格要预测B个bounding box还要预测C个class,输出就是S*S*(5*B+C)的一个张量。其中,class信息是针对每个网格的,confidence信息是针对每个bounding box的。
如上步骤5所述的进行网络测试,得到训练后的检测结果,包括:
步骤5-1、得到每个bounding box的类别-坐标置信度分数值
每个网格预测的类别信息(Pr(类别|目标))和bounding box预测的置信度信息
Figure BDA0001769043280000056
相乘,得到每个bounding box的类别-坐标置信度分数值,如公式(1)所示:
Figure BDA0001769043280000061
Class表示类别,Object表示目标,等式左边第一项就是每个网格预测的类别信息,第二项、第三项就是每个bounding box预测的置信度。这个乘积编码既预测了box属于某一类的概率,也有该box的准确度信息;
步骤5-2、对每一个网格的每一个bounding box执行相同的操作
7*7*2=98bounding box,每个bounding box既有对应的类别信息,又有坐标信息;
步骤5-3、得到每个bounding box的类别-坐标置信度分数值以后,设置阈值,滤掉得分低的boxes;
步骤5-4、对保留的boxes进行NMS(非极大抑制)处理
将所有保留的boxes得分排序,选其中最高分及对应的box;遍历所有的框,如果当前最高得分的box的IOU大于阈值,就将其删除;从未处理的box中继续选一个得分最高的,重复上述过程,直到得到最终的检测结果。
其中,box和bounding box表示的意义相同,boxes表示所得到的坐标不是只有一个,而是有多个,所以需要删除IOU大于阈值的box。
如上步骤6所述定义模型损失函数,具体步骤如下:
步骤6-1、类别预测loss损失函数
每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差;
步骤6-2、位置预测loss损失函数
分别计算目标中心坐标的平方误差和长宽的平方误差;
步骤6-3置信度预测loss损失函数
第1、2行公式为位置预测loss,分别计算目标中心坐标的平方误差和长宽的平房误差,为了让大的目标和小的目标的位置损失能够平衡,将长和宽分别分开;第3、4 行公式为预测置信度loss,C为置信度,并且大部分网格是不包含目标的,所以后半部分的loss会比较大,以致于压制上部分的loss对整体loss的影响,会导致模型参数的不稳定,容易发散,所以会设置两个参数,λcoordnoobj,使得包含目标的网格的预测损失能够有比较大的权重;第5行公式为类别预测loss,每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差,i表示预测只包含行人一个类,如下式公式(2)所示:
Figure BDA0001769043280000071
下面结合附图和具体实施过程对本发明做进一步详细说明。
实施例
本发明的主要功能由两个主要的基本模块实现。网络检测负责预测目标类别信息、坐标信息、置信度值;网络测试负责得到训练后的最终检测结果。
本发明具体步骤:
一、加载所需工具包;
开始操作,加载所需的工具包。
二、定义卷积神经网络模型结构;
如图1所示,定义GoogLeNet的神经网络模型及其神经网络结构:
所定义的GoogLeNet的神经网络模型及其神经网络结构,卷积层进行计算:
Figure BDA0001769043280000072
其中,上标
Figure BDA0001769043280000073
表示第l层的第j个图像特征,
Figure BDA0001769043280000074
为网络权重(卷积核),f(·)为激活函数,
Figure BDA0001769043280000075
为偏置,
Figure BDA0001769043280000076
为网络的输入,i代表像素值,l代表层数,Mj代表输入层的感受野。
三、加载数据集进行训练;
加载VOC2007+2012数据集即标注数据集中的文件夹及图片位置,生成验证和训练所需批次。
四、进行网络检测;
如图1所示,步骤:
1、对训练图片生成7*7网格
将一张图片分成7*7个网格,某个物体的中心落在这个网格中此网格就负责预测这个物体。最后一层输出为(7*7)*(2*5+1)的维度。每个1*1*11的维度对应原图7*7 个网格中的一个,1*1*11中含有class(类别预测)和bounding box(坐标预测)。
2、预测bounding box的坐标
每个网格要预测2个bounding box的坐标(即X,Y,W,H):
a)、中心坐标X,Y相对于对应的网格归一化到0-1之间,W,H用图像的宽度和高度归一化到0-1之间。
b)、每个bounding box除了要回归自身的位置之外,还要附带预测一个置信度值,这个置信度值代表了所预测的box中含有目标的置信度和这个box预测的有多准两重信息,其中如果有ground true box(人工标记的物体)落在一个网格里,第一项取1,否则取0。
c)、预测的bounding box和实际的ground truth box之间的IOU值(交并比)
即:每个bounding box要预测X,Y,W,H,置信度,共5个值,2个bounding box 共10个值,对应1*1*11维度特征中的前10个。
3、预测class(类别信息)
每个网格还要预测class(类别信息),官方权重中包含20个类别,现在只有person(人物)一个类别
7*7的网格,每个网格要预测2个bounding box和1个类别概率,输出就是7*7* (5*2+1)
通用公式为:
S*S个网格,每个网格要预测B个bounding box还要预测C个class,输出就是S *S*(5*B+C)的一个张量。其中,class信息是针对每个网格的,confidence信息是针对每个bounding box的。
五、进行网络测试;
得到每个bounding box的类别-坐标置信度分数值
如图2所示,步骤:
1、每个网格预测的类别信息(Pr(类别|目标))和bounding box预测的置信度信息
Figure BDA0001769043280000081
相乘,得到每个bounding box的类别-坐标置信度分数值,如式(1)所示:
Figure BDA0001769043280000082
Class表示类别,Object表示目标,等式左边第一项就是每个网格预测的类别信息,第二项、第三项就是每个bounding box预测的置信度。这个乘积编码既预测了box属于某一类的概率,也有该box的准确度信息。
2、对每一个网格的每一个bounding box执行相同的操作:
7*7*2=98bounding box,每个bounding box既有对应的类别信息,又有坐标信息。
3、得到每个bounding box的类别-坐标置信度分数值以后,设置阈值,滤掉得分低的boxes。
4、对保留的boxes进行NMS(非极大抑制)处理:
a)、将所有保留的boxes得分排序,选其中最高分及对应的box
b)、遍历所有的框,如果当前最高得分的box的IOU大于阈值,就将其删除
c)、从未处理的box中继续选一个得分最高的,重复上述过程,直到得到最终的检测结果。
六、定义模型损失函数;
1、类别预测loss损失函数
每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差。
2、位置预测loss损失函数
分别计算目标中心坐标的平方误差和长宽的平方误差
3、置信度预测loss损失函数
如下式公式(2)所示:
Figure BDA0001769043280000091
第1、2行公式为位置预测loss,分别计算目标中心坐标的平方误差和长宽的平房误差,为了让大的目标和小的目标的位置损失能够平衡,将长和宽分别分开;第3、4 行公式为预测置信度loss,C为置信度,并且大部分网格是不包含目标的,所以后半部分的loss会比较大,以致于压制上部分的loss对整体loss的影响,会导致模型参数的不稳定,容易发散,所以会设置两个参数,λcoordnoobj,使得包含目标的网格的预测损失能够有比较大的权重;第5行公式为类别预测loss,每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差,i表示预测只包含行人一个类,如下式公式(2)所示:
七、加载已训练好的权重,准备进行随机图像识别;
在传统CNN基础上采用了GoogLeNet的设计思路,加入了1*1卷积层实现networkin network结构,大大提高了神经网络的特征表达能力,同时也保持网络参数数目变化不大;而且对于夜间及复杂背景情况下,识别准确率也有很大的提高。

Claims (4)

1.一种基于GoogLeNet的卷积神经网络行人识别方法,其特征在于,包括以下步骤:
步骤1,开始操作,加载所需的工具包;
步骤2,定义卷积神经网络即定义GoogLeNet的神经网络模型及其神经网络结构;
步骤3,加载VOC2007+2012数据集即标注数据集中的文件夹及图片位置,生成验证和训练所需批次;
步骤4,对训练图片生成7*7网格并分别预测类别信息、坐标信息、置信度值,进行网络检测,具体步骤如下:
步骤4-1、将一张图片生成网格
将一张图片分成7*7个网格,物体的中心落在这个网格中此网格就负责预测这个物体;最后一层输出为(7*7)*(2*5+1)的维度,每个1*1*11的维度对应原图7*7个网格中的一个,1*1*11中含有class和bounding box,class对应类别预测,bounding box对应坐标预测;
步骤4-2、预测bounding box的坐标
每个网格要预测2个bounding box的坐标即X,Y,W,H,其中:中心坐标X,Y相对于对应的网格归一化到0-1之间,W,H用图像的宽度和高度归一化到0-1之间;每个bounding box除了要回归自身的位置之外,还要附带预测一个置信度值,该置信度值代表所预测的boundingbox中含有目标的置信度和预测的准确度两重信息;如果有人工标记的物体ground truebox落在一个网格里,第一项取1,否则取0;第二项是预测的bounding box和实际的groundtruth box之间的交并比IOU值;即:每个bounding box要预测X、Y、W、H、置信度共5个值,2个bounding box共10个值,对应1*1*11维度特征中的前10个;
步骤4-3、预测class类别信息
每个网格还要预测class即类别信息,官方权重中包含20个类别,现在只有person即人物一个类别;7*7的网格,每个网格要预测2个bounding box和1个类别概率,输出就是7*7*(5*2+1);即通用公式为:S*S个网格,每个网格要预测B个bounding box还要预测C个class,输出就是S*S*(5*B+C)的一个张量;其中,class信息是针对每个网格的,confidence信息是针对每个bounding box的;
步骤5,进行网络测试,得到训练后的检测结果;
步骤6,定义模型损失函数;
步骤7,加载已训练好的权重,准备进行随机图像识别;
步骤8,输出并展示图像识别效果。
2.根据权利要求1所述的基于GoogLeNet的卷积神经网络行人识别方法,其特征在于,步骤2所述定义GoogLeNet的神经网络模型及其神经网络结构,具体为:
卷积层进行计算:
Figure FDA0003759309660000021
其中,
Figure FDA0003759309660000022
表示第l层的第j个图像特征,
Figure FDA0003759309660000023
为网络权重即卷积核,f(·)为激活函数,
Figure FDA0003759309660000024
为偏置,
Figure FDA0003759309660000025
为网络的输入,i代表像素值,l代表层数,Mj代表输入层的感受野。
3.根据权利要求1所述的基于GoogLeNet的卷积神经网络行人识别方法,其特征在于,步骤5所述进行网络测试,得到训练后的检测结果,包括以下步骤:
步骤5-1、得到每个bounding box的类别-坐标置信度分数值
每个网格预测的类别信息Pr(类别|目标)和bounding box预测的置信度信息
Figure FDA0003759309660000026
Figure FDA0003759309660000027
相乘,得到每个bounding box的类别-坐标置信度分数值,如下式公式(1)所示:
Figure FDA0003759309660000028
其中,Class表示类别,Object表示目标,等式左边第一项Pr(Classi|Object)就是每个网格预测的类别信息,第二项、第三项
Figure FDA0003759309660000029
就是每个bounding box预测的置信度,等式右边
Figure FDA00037593096600000210
表示每个bounding box预测的类别-坐标置信度分数值;
步骤5-2、对每一个网格的每一个bounding box执行相同的操作
7*7*2=98bounding box,每个bounding box既有对应的类别信息,又有坐标信息;
步骤5-3、得到每个bounding box的类别-坐标置信度分数值以后,设置阈值,滤掉得分低的bounding box;
步骤5-4、对保留的bounding box进行非极大抑制NMS处理;
将所有保留的bounding box得分排序,选其中最高分及对应的bounding box;遍历所有的框,如果当前最高得分的bounding box的IOU大于阈值,就将其删除;从未处理的bounding box中继续选一个得分最高的,重复上述过程,直到得到最终的检测结果。
4.根据权利要求1所述的基于GoogLeNet的卷积神经网络行人识别方法,其特征在于,步骤6所述定义模型损失函数,具体步骤如下:
步骤6-1、类别预测loss损失函数
每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差;
步骤6-2、位置预测loss损失函数
分别计算目标中心坐标的平方误差和长宽的平方误差;
步骤6-3、置信度预测loss损失函数
第1、2行公式为位置预测loss,分别计算目标中心坐标的平方误差和长宽的平房误差;第3、4行公式为预测置信度loss,C为置信度;设置两个参数,λcoordnoobj,将包含目标的网格的预测损失权重提高;第5行公式为类别预测loss,每个网格只用了一个预测目标,只需要计算该预测目标的类别预测损失,计算在几个类上的概率分布的平方误差,i表示预测只包含行人一个类,如公式(2)所示:
Figure FDA0003759309660000031
CN201810940919.7A 2018-08-17 2018-08-17 基于GoogLeNet的卷积神经网络行人识别方法 Active CN110837762B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810940919.7A CN110837762B (zh) 2018-08-17 2018-08-17 基于GoogLeNet的卷积神经网络行人识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810940919.7A CN110837762B (zh) 2018-08-17 2018-08-17 基于GoogLeNet的卷积神经网络行人识别方法

Publications (2)

Publication Number Publication Date
CN110837762A CN110837762A (zh) 2020-02-25
CN110837762B true CN110837762B (zh) 2022-09-27

Family

ID=69574175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810940919.7A Active CN110837762B (zh) 2018-08-17 2018-08-17 基于GoogLeNet的卷积神经网络行人识别方法

Country Status (1)

Country Link
CN (1) CN110837762B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612002A (zh) * 2020-06-04 2020-09-01 广州市锲致智能技术有限公司 一种基于神经网络的多目标物体运动追踪方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273836A (zh) * 2017-06-07 2017-10-20 深圳市深网视界科技有限公司 一种行人检测识别方法、装置、模型和介质
CN107609459A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种基于深度学习的人脸识别方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609459A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种基于深度学习的人脸识别方法及装置
CN107273836A (zh) * 2017-06-07 2017-10-20 深圳市深网视界科技有限公司 一种行人检测识别方法、装置、模型和介质

Also Published As

Publication number Publication date
CN110837762A (zh) 2020-02-25

Similar Documents

Publication Publication Date Title
CN111259850B (zh) 一种融合随机批掩膜和多尺度表征学习的行人重识别方法
CN110348376B (zh) 一种基于神经网络的行人实时检测方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN108564097B (zh) 一种基于深度卷积神经网络的多尺度目标检测方法
CN107229904A (zh) 一种基于深度学习的目标检测与识别方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN109858424A (zh) 人群密度统计方法、装置、电子设备和存储介质
CN107590774A (zh) 一种基于生成对抗网络的车牌清晰化方法及装置
CN113239784B (zh) 一种基于空间序列特征学习的行人重识别系统及方法
CN111626184B (zh) 一种人群密度估计方法及系统
CN109508675B (zh) 一种针对复杂场景的行人检测方法
CN110163813A (zh) 一种图像去雨方法、装置、可读存储介质及终端设备
CN112183153A (zh) 一种基于视频分析的对象行为检测方法及装置
CN112070729A (zh) 一种基于场景增强的anchor-free遥感图像目标检测方法及系统
CN113160062B (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN106156765A (zh) 基于计算机视觉的安全检测方法
CN110197152A (zh) 一种用于自动驾驶系统的道路目标识别方法
CN112580662A (zh) 一种基于图像特征识别鱼体方向的方法及系统
CN114842208A (zh) 一种基于深度学习的电网危害鸟种目标检测方法
CN105303163B (zh) 一种目标检测的方法及检测装置
CN115222946B (zh) 一种单阶段实例图像分割方法、装置以及计算机设备
CN107767416A (zh) 一种低分辨率图像中行人朝向的识别方法
CN113159067A (zh) 一种基于多粒度局部特征软关联聚合的细粒度图像辨识方法及装置
CN110321867B (zh) 基于部件约束网络的遮挡目标检测方法
CN114492634B (zh) 一种细粒度装备图片分类识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant