CN112287788A - 基于改进YOLOv3和改进NMS的行人检测方法 - Google Patents

基于改进YOLOv3和改进NMS的行人检测方法 Download PDF

Info

Publication number
CN112287788A
CN112287788A CN202011124018.4A CN202011124018A CN112287788A CN 112287788 A CN112287788 A CN 112287788A CN 202011124018 A CN202011124018 A CN 202011124018A CN 112287788 A CN112287788 A CN 112287788A
Authority
CN
China
Prior art keywords
prediction
frame
loss function
ciou
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011124018.4A
Other languages
English (en)
Inventor
何志伟
张华佳
董哲康
林辉品
高明煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011124018.4A priority Critical patent/CN112287788A/zh
Publication of CN112287788A publication Critical patent/CN112287788A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于改进YOLOv3和改进NMS的行人检测方法。具体包括采集行人图像、图像预处理、构建训练集与测试集、利用YOLOv3网络提取训练集中的行人特征、通过K‑means聚类方法从已标注的数据中得到最有可能的检测目标形状、使用二元交叉熵函数、CIoU‑Loss分别作为类别预测损失函数和预测框损失函数,并引入GHM思想。最后加入置信度损失函数作为本算法的总损失函数;使用改进FPN网络对模型预测过程产生的多尺度信息进行融合;最后融合CIoU和Soft‑NMS的思想提出了CIoU‑Soft‑NMS算法去除多余的预测边界框,输出模型预测的类别、边界框与类别置信度。本发明的行人检测准确率高,采用的CIoU‑GHM‑R损失函数降低了正负样本不均衡带来的影响,而CIoU‑Soft‑NMS算法降低了模型在遮挡环境下的误检率。

Description

基于改进YOLOv3和改进NMS的行人检测方法
技术领域
本发明属于行人检测技术领域,具体涉及一种基于改进YOLOv3算法的复杂环境下行人检测方法。
背景技术
随着我国城市化进程的加快,越来越多的大型公共建筑应运而生,与此同时也出现了越来越多如车站、地铁、商场等人员密集场所,因此,实时、准确的行人识别与检测方法在密集场所寻找走失人员等有着极为重要的应用价值。传统的行人检测方法主要采用人工设计特征进行全局特征行人检测,通过Haar小波特征、HOG特征、Shapelet与Edgelte特征等训练分类器进行行人检测,并在现有的数据集上取得了许多令人瞩目的效果。由于标准数据集中的样本分布并不均衡,例如目标区域与非目标区域、易分目标与难分目标分布不均衡,目前的主流检测方法只专注于目标区域与非目标区域的分布不均衡,在训练的过程中,通过手动将两者的比例调整为1:3克服目标区域与非目标区域分布不均衡的缺陷,但这种操作使数据集的制作过程变得耗时且费力。
发明内容
针对现有技术的不足,本发明提出了基于改进YOLOv3和改进NMS的行人检测方法,将行人检测问题转化为回归问题,利用卷积神经网络对整个图像进行处理,提供预测的类别和位置,同时通过降低易分样本的权重,提高难分样本的权重使样本分布均衡。
基于改进YOLOv3和改进NMS的行人检测方法,包括以下步骤:
步骤一、数据集采集
采集客观环境中行人在摄像头下拍摄的各种姿势和不同位置的图像形成行人图像数据集。
所述各种姿势的图像包括躺、坐、蹲、行走、站立和跑步的行人图像。
所述不同位置的图像包括与摄像头不同距离的行人图像和存在不同遮挡情况的行人图像。
步骤二、数据预处理
2.1、对步骤一采集获取的行人图像数据集进行扩充,包括以下步骤:
①对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度;
②用Random Erasing方法随机选择图像中的一个任意大小的矩形区域,擦除选定区域内的像素值并对擦除的像素值赋0至255之间的随机值;
2.2、对扩充后的行人图像数据集进行标注
用标注工具生成对应目标的标注信息及标签信息。
所述标注信息为数据集中目标的位置信息,标签信息为数据集中目标所属的类别,类别为人的目标标签信息为person。
2.3、将标注后的行人图像数据集分为训练集和测试集。
步骤三、对训练集图像进行调整、聚类
3.1、对步骤二获得的训练集中的图像进行尺寸调整,作为YOLOv3网络的输入图像,并设置IoU阈值、置信度阈值与距离阈值;
3.2、通过YOLOv3网络结构提取输入图像的特征,并使用组归一化GroupNormalization对提取到的图像特征进行归一化操作。
3.3、使用K-means聚类方法对输入图像进行聚类,得到最有可能的检测目标形状。
所述K-means聚类方法的聚类公式为:
d(anchor,truth)=1-IoU(anchor,truth) (1)
其中,d(anchor,truth)表示预测框与实际框的距离,anchor为预测框,truth为实际框,IoU(anchor,truth)为预测框与实际框的交并比。
当d(anchor,truth)小于等于距离阈值时,通过以下公式确定预测框的宽高大小:
Figure BDA0002732982010000021
以图像的左上角为坐标原点,其中,bx和by分别为预测框中心的横、纵坐标,bw和bh分别为预测框的宽度和高度;cx和cy为预测框左上角的横、纵坐标,pw和ph分别为实际框的宽度和高度,tx、ty、tw和th为输入图像尺寸调整过程中的相对参数,σ(tx)和σ(ty)分别为预测框中心与其左上角的水平方向和垂直方向的距离,e为自然常数。
预测框的置信度公式为:
p_obj=y*IoU(anchor,truth) (3)
其中,y的取值为0或1,y=0表示图像中没有目标,y=1表示有目标;
置信度损失为:
Figure BDA0002732982010000031
其中,S表示将输入图片划分为S*S块,每块图像负责输出一个预测框,B为每块图像中的类别数,
Figure BDA0002732982010000032
为第i块第j个类别在标签中的置信度,
Figure BDA0002732982010000033
Figure BDA0002732982010000034
用于判断第i块中第j个类别是否存在,
Figure BDA0002732982010000035
Figure BDA0002732982010000036
时表示存在,
Figure BDA0002732982010000037
Figure BDA0002732982010000038
时表示不存在。
步骤四、计算预测框的回归损失
使用CIoU函数代替YOLOv3中原有的预测框回归损失函数IoU Loss,计算预测框的回归损失,计算公式为:
Figure BDA0002732982010000039
其中
Figure BDA00027329820100000310
其中,Pos表示一张图片中检测出的物体中心点总数,p为某一中心点的索引,λ用于抑制离散点的程度,l和g为数组,分别包括预测框和实际框的宽度、高度以及左上角的横、纵坐标,b,bgt分别为预测框中心和实际框中心,w、h为预测框的宽度和高度,wgt、hgt为实际框的宽度和高度;ρ(.)表示欧式距离,c表示预测框和实际框的最小外界矩形的对角线距离,α是用于调整权重的参数;
步骤五、解决样本分布不均衡
在分类损失函数和预测框回归损失函数中引入GHM思想,以解决样本分布不均衡的问题。
分类损失函数使用二元交叉熵损失函数,计算公式为:
Figure BDA0002732982010000041
其中,Num是训练图片的总数量,yn的取值为0或1,yn=0表示图像中没有目标,yn=1表示有目标;p_classn=sigmoid(x)为类别预测输出,x为模型输出。
5.1、利用GHM对分类损失函数进行处理,包括:
将LCE对x求导:
Figure BDA0002732982010000042
令梯度模长g为:
Figure BDA0002732982010000043
令梯度密度GD为:
Figure BDA0002732982010000044
Figure BDA0002732982010000045
Figure BDA0002732982010000046
其中,gn为第n个样本的梯度模长,ε表示一段可微的距离,δε表示该样本是否落在区间[g+ε/2,g-ε/2)中,lε表示区间[g+ε/2,g-ε/2)的长度。
定义梯度密度均衡化参数βn
Figure BDA0002732982010000047
得到均衡化后的类别损失函数为:
Figure BDA0002732982010000048
其中,pn
Figure BDA0002732982010000049
分别为第n个样本的预测类别概率和实际类别概率。
5.2、利用GHM对预测框回归损失函数进行处理,包括:
定义
Figure BDA0002732982010000051
则CIoU-balanced smooth L1loss对于lm的梯度可表示为:
Figure BDA0002732982010000052
定义
Figure BDA0002732982010000053
为CIoU-balanced smooth L1loss的梯度模长,则
Figure BDA0002732982010000054
得到均衡化后的检测框回归损失函数为:
Figure BDA0002732982010000055
步骤六、计算总损失函数
根据步骤四与步骤五的计算结果,得到总损失函数:
Ltotal=Lpre+LGHM_class+LCIoUI_GHM_R
步骤七、融合提取特征过程中产生的多尺度信息
7.1、利用特征金字塔网络提取YOLOv3网络内的特征层次结构。
7.2、引入PANet思想对具有横向连接的自顶向下路径进行扩展,创建自底向上的路径,利用准确的低层定位信号增强整个特征层次。
步骤八、冗余预测框抑制
采用结合了CIoU的软化非极大值抑制算法函数进行冗余预测框抑制,通过降低CIoU函数指标大于阈值的预测框的置信度,输出精确度更高的预测框,计算公式如下:
Figure BDA0002732982010000056
Figure BDA0002732982010000057
其中,M为当前得分最高的预测框,b为待处理框,当IoU-RCIoU(M,b)小于阈值Nt时,检测得分分值为s,反之为s(1-IoU+RCIoU(M,b))。b和M的CIoU越大,b的得分s下降的越多。
本发明具有以下有益效果:
1、在分类损失函数和预测框回归损失函数的计算过程中引入GHM思想,降低了目标检测任务中正负样本不均衡带来的不利影响;
2、使用软化非极大值抑制算法函数来改进NMS,可以更好的去除生成框,解决两个或多个行人相互重叠时NMS出现漏检的情况,提高检测的召回率;
3、在预测框回归损失函数和软化非极大值抑制算法函数中引入CIoU概念,同时考虑了预测框和实际框的最小外接框以及检测框尺寸误差,使预测框更接近实际框。
附图说明
图1为引入PANet思想的改进YOLOv3网络结构。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
基于改进YOLOv3和改进NMS的行人检测方法,包括以下步骤:
步骤一、数据集采集
采集客观环境中行人在摄像头下拍摄的包括躺、坐、蹲、行走、站立和跑步各种姿势,以及距离摄像头不同位置的行人图像和存在不同遮挡情况的行人图像。
步骤二、数据预处理
2.1、对步骤一采集获取的行人图像数据集进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度,然后用Random Erasing方法随机选择图像中的一个任意大小的矩形区域,擦除选定区域内的像素值并对擦除的像素值赋0至255之间的随机值,以此对行人图像数据集进行扩充。
2.2、对扩充后的行人图像数据集进行标注,利用标注工具生成对应目标的标注信息及标签信息。其中标注信息为数据集中目标的位置信息,标签信息为数据集中目标所属的类别,类别为人的目标标签信息为person。
2.3、将标注后的行人图像数据集分为训练集和测试集。
步骤三、对训练集图像进行调整、聚类
3.1、对步骤二获得的训练集中的图像进行尺寸调整,作为YOLOv3网络的输入图像,并设置IoU阈值、置信度阈值与距离阈值;
3.2、通过YOLOv3网络结构提取输入图像的特征,并使用组归一化GroupNormalization对提取到的图像特征进行归一化操作。
3.3、使用K-means聚类方法对输入图像进行聚类,得到最有可能的检测目标形状。
所述K-means聚类方法的聚类公式为:
d(anchor,truth)=1-IoU(anchor,truth) (1)
其中,d(anchor,truth)表示预测框与实际框的距离,anchor为预测框,truth为实际框,IoU(anchor,truth)为预测框与实际框的交并比。
当d(anchor,truth)小于等于距离阈值时,通过以下公式确定预测框的宽高大小:
Figure BDA0002732982010000071
以图像的左上角为坐标原点,其中,bx和by分别为预测框中心的横、纵坐标,bw和bh分别为预测框的宽度和高度;cx和cy为预测框左上角的横、纵坐标,pw和ph分别为实际框的宽度和高度,tx、ty、tw和th为输入图像尺寸调整过程中的相对参数,σ(tx)和σ(ty)分别为预测框中心与其左上角的水平方向和垂直方向的距离,e为自然常数。
预测框的置信度公式为:
p_obj=y*IoU(anchor,truth) (3)
其中,y的取值为0或1,y=0表示图像中没有目标,y=1表示有目标;
置信度损失为:
Figure BDA0002732982010000072
其中,S表示将输入图片划分为S*S块,每块图像负责输出一个预测框,B为每块图像中的类别数,
Figure BDA0002732982010000073
为第i块第j个类别在标签中的置信度,
Figure BDA0002732982010000074
Figure BDA0002732982010000075
用于判断第i块中第j个类别是否存在,
Figure BDA0002732982010000076
Figure BDA0002732982010000077
时表示存在,
Figure BDA0002732982010000078
Figure BDA0002732982010000079
时表示不存在。
步骤四、计算预测框的回归损失
YOLOv3中原有的预测框回归损失函数IoU Loss存在两个缺陷:1、预测框和实际框不相交时,IoU Loss不能反映两者之间距离的远近,导致无法优化;2、在确定实际框和预测框交并比及两者尺寸时,IoU Loss无法反映两者之间的相对位置关系。使用CIoU函数代替IoU Loss计算预测框的回归损失,可以兼顾实际框和预测框之间的重叠面积、中心点距离以及长宽比,所以使用CIoU函数计算预测框的回归损失可以更加准确、鲁棒得得到检测框定位。CIoU函数计算公式为:
Figure BDA0002732982010000081
其中
Figure BDA0002732982010000082
其中,Pos表示一张图片中检测出的物体中心点总数,p为某一中心点的索引,λ用于抑制离散点的程度,l和g为数组,分别包括预测框和实际框的宽度、高度以及左上角的横、纵坐标,b,bgt分别为预测框中心和实际框中心,w、h为预测框的宽度和高度,wgt、hgt为实际框的宽度和高度;ρ(.)表示欧式距离,c表示预测框和实际框的最小外界矩形的对角线距离,α是用于调整权重的参数。
步骤五、解决样本分布不均衡
在训练过程中,模型能够成功判别的简单样本的数量非常大,在模型更新中很有可能占据主导作用,那么这样的参数更新并不会显著改善模型的判断能力,反而使整个训练变得非常低效。在分类损失函数和预测框回归损失函数中引入GHM思想,可以根据样本的分类难度与其梯度的分布情况,通过降低高密度区域样本的权重降低样本不均衡带来的影响。
分类损失函数使用二元交叉熵损失函数,计算公式为:
Figure BDA0002732982010000083
其中,Num是训练图片的总数量,yn的取值为0或1,yn=0表示图像中没有目标,yn=1表示有目标;p_classn=sigmoid(x)为类别预测输出,x为模型输出。
5.1、利用GHM对分类损失函数进行处理,包括:
将LCE对x求导:
Figure BDA0002732982010000091
令梯度模长g为:
Figure BDA0002732982010000092
令梯度密度GD为:
Figure BDA0002732982010000093
Figure BDA0002732982010000094
Figure BDA0002732982010000095
其中,gn为第n个样本的梯度模长,ε表示一段可微的距离,δε表示该样本是否落在区间[g+ε/2,g-ε/2)中,lε表示区间[g+ε/2,g-ε/2)的长度。
定义梯度密度均衡化参数βn
Figure BDA0002732982010000096
得到均衡化后的类别损失函数为:
Figure BDA0002732982010000097
其中,pn
Figure BDA0002732982010000098
分别为第n个样本的预测类别概率和实际类别概率。
5.2、利用GHM对预测框回归损失函数进行处理,包括:
定义
Figure BDA0002732982010000099
则CIoU-balanced smooth L1loss对于lm的梯度可表示为:
Figure BDA00027329820100000910
定义
Figure BDA0002732982010000101
为CIoU-balanced smooth L1loss的梯度模长,则
Figure BDA0002732982010000102
得到均衡化后的检测框回归损失函数为:
Figure BDA0002732982010000103
步骤六、计算总损失函数
根据步骤四与步骤五的计算结果,得到总损失函数:
Ltotal=Lpre+LGHM_class+LCIoUI_GHM_R
步骤七、融合提取特征过程中产生的多尺度信息
7.1、利用特征金字塔网络提取YOLOv3网络内的特征层次结构。
7.2、如图1所示,引入PANet思想对具有横向连接的自顶向下路径进行扩展,创建自底向上的路径,利用准确的低层定位信号增强整个特征层次。
引入PANet的思想,可以将YOLOv3网络在提取输入图像特征的过程中产生的多尺度信息进行更好的融合。
步骤八、冗余预测框抑制
在模型生成检测框后,由于同一目标会产生多个检测框,需要进行Soft-NMS操作删除冗余的检测框。但是在Soft-NMS中,通常使用IoU作为指标进行冗余检测框抑制,但该指标只考虑了实际框和检测框的重叠区域,所以在出现遮挡情况时常常会出现错误抑制。由于CIoU同时考虑了实际框和预测框之间的重叠面积,中心点距离以及长宽比,所以将其作为新的抑制指标引入Soft-NMS中,提出了CIoU-Soft-NMS,改善了遮挡环境下的冗余框抑制。
采用结合了CIoU的软化非极大值抑制算法进行冗余预测框抑制,计算公式如下:
Figure BDA0002732982010000104
Figure BDA0002732982010000105
其中,M为当前得分最高的预测框,b为待处理框,当IoU-RCIoU(M,b)小于阈值Nt时,检测得分分值为s,反之为s(1-IoU+RCIoU(M,b))。b和M的CIoU越大,b的得分s下降的越多。

Claims (5)

1.基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:具体包括以下步骤:
步骤一、数据集采集
采集客观环境中行人在摄像头下拍摄的各种姿势和不同位置的图像形成行人图像数据集;
步骤二、数据预处理
2.1、对步骤一采集获取的行人图像数据集进行扩充;
2.2、对扩充后的行人图像数据集进行标注
用标注工具生成对应目标的标注信息及标签信息,类别为人的目标标签信息为person;
2.3、将标注后的行人图像数据集分为训练集和测试集;
步骤三、对训练集图像进行调整、聚类
3.1、对步骤二获得的训练集中的图像进行尺寸调整,作为YOLOv3网络的输入图像,并设置IoU阈值、置信度阈值与距离阈值;
3.2、通过YOLOv3网络结构提取输入图像的特征,并使用组归一化GroupNormalization对提取到的图像特征进行归一化操作;
3.3、使用K-means聚类方法对输入图像进行聚类,得到最有可能的检测目标形状;
步骤四、计算预测框的回归损失
使用CIoU函数代替YOLOv3中原有的预测框回归损失函数IoU Loss,计算预测框的回归损失,计算公式为:
Figure FDA0002732981000000011
其中
Figure FDA0002732981000000012
其中,Pos表示一张图片中检测出的物体中心点总数,p为某一中心点的索引,λ用于抑制离散点的程度,l和g为数组,分别包括预测框和实际框的宽度、高度以及左上角的横、纵坐标,cx和cy为预测框左上角的横、纵坐标,b,bgt分别为预测框中心和实际框中心,w、h为预测框的宽度和高度,wgt、hgt为实际框的宽度和高度;ρ(.)表示欧式距离,c表示预测框和实际框的最小外界矩形的对角线距离,α是用于调整权重的参数;
步骤五、解决样本分布不均衡
在分类损失函数和预测框回归损失函数中引入GHM思想,以解决样本分布不均衡的问题;计算得到均衡化后的检测框回归损失函数LCIoU_GHM-R
步骤六、计算总损失函数
根据步骤四与步骤五的计算结果,得到总损失函数:
Ltotal=Lpre+LGHM_class+LCIoUI_GHM_R
步骤七、融合提取特征过程中产生的多尺度信息
7.1、利用特征金字塔网络提取YOLOv3网络内的特征层次结构;
7.2、引入PANet思想对具有横向连接的自顶向下路径进行扩展,创建自底向上的路径,利用准确的低层定位信号增强整个特征层次;
步骤八、冗余预测框抑制
采用结合了CIoU的软化非极大值抑制算法函数进行冗余预测框抑制,通过降低CIoU函数指标大于阈值的预测框的置信度,输出精确度更高的预测框,计算公式如下:
Figure FDA0002732981000000021
Figure FDA0002732981000000022
其中,M为当前得分最高的预测框,b为待处理框,当IoU-RCIoU(M,b)小于阈值Nt时,检测得分分值为s,反之为s(1-IoU+RCIoU(M,b))。b和M的CIoU越大,b的得分s下降的越多。
2.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤一所述各种姿势的图像包括躺、坐、蹲、行走、站立和跑步的行人图像;所述不同位置的图像包括与摄像头不同距离的行人图像和存在不同遮挡情况的行人图像。
3.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤二中所述标注信息为数据集中目标的位置信息,标签信息为数据集中目标所属的类别;行人图像数据集的扩充包括:
①对图像进行水平和垂直翻转、随机裁剪、随机角度旋转、改变图像对比度和亮度;
②用Random Erasing方法随机选择图像中的一个任意大小的矩形区域,擦除选定区域内的像素值并对擦除的像素值赋0至255之间的随机值。
4.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤四所述对输入图像进行聚类,具体方法如下:
K-means聚类方法的聚类公式为:
d(anchor,truth)=1-IoU(anchor,truth) (1)
其中,d(anchor,truth)表示预测框与实际框的距离,anchor为预测框,truth为实际框,IoU(anchor,truth)为预测框与实际框的交并比;
当d(anchor,truth)小于等于距离阈值时,通过以下公式确定预测框的宽高大小:
Figure FDA0002732981000000031
以图像的左上角为坐标原点,其中,bx和by分别为预测框中心的横、纵坐标,bw和bh分别为预测框的宽度和高度;pw和ph分别为实际框的宽度和高度,tx、ty、tw和th为输入图像尺寸调整过程中的相对参数,σ(tx)和σ(ty)分别为预测框中心与其左上角的水平方向和垂直方向的距离,e为自然常数;
预测框的置信度公式为:
p_obj=y*IoU(anchor,truth) (3)
其中,y的取值为0或1,y=0表示图像中没有目标,y=1表示有目标;
置信度损失为:
Figure FDA0002732981000000032
其中,S表示将输入图片划分为S*S块,每块图像负责输出一个预测框,B为每块图像中的类别数,
Figure FDA0002732981000000033
为第i块第j个类别在标签中的置信度,
Figure FDA0002732981000000034
Figure FDA0002732981000000035
用于判断第i块中第j个类别是否存在,
Figure FDA0002732981000000036
Figure FDA0002732981000000037
时表示存在,
Figure FDA0002732981000000038
Figure FDA0002732981000000039
时表示不存在。
5.如权利要求1所述基于改进YOLOv3和改进NMS的行人检测方法,其特征在于:步骤五所述的分类损失函数为二元交叉熵损失函数,计算公式为:
Figure FDA0002732981000000041
其中,Num是训练图片的总数量,yn的取值为0或1,yn=0表示图像中没有目标,yn=1表示有目标;p_classn=sigmoid(x)为类别预测输出,x为模型输出;
所述在分类损失函数和预测框回归损失函数中引入GHM思想具体方法为:
5.1、利用GHM对分类损失函数进行处理,包括:
将LCE对x求导:
Figure FDA0002732981000000042
令梯度模长g为:
Figure FDA0002732981000000043
令梯度密度GD为:
Figure FDA0002732981000000044
Figure FDA0002732981000000045
Figure FDA0002732981000000046
其中,gn为第n个样本的梯度模长,ε表示一段可微的距离,δε表示该样本是否落在区间[g+ε/2,g-ε/2)中,lε表示区间[g+ε/2,g-ε/2)的长度;
定义梯度密度均衡化参数βn
Figure FDA0002732981000000047
得到均衡化后的类别损失函数为:
Figure FDA0002732981000000048
其中,pn
Figure FDA0002732981000000051
分别为第n个样本的预测类别概率和实际类别概率;
5.2、利用GHM对预测框回归损失函数进行处理,包括:
定义
Figure FDA0002732981000000052
则CIoU-balanced smooth L1 loss对于lm的梯度可表示为:
Figure FDA0002732981000000053
定义
Figure FDA0002732981000000054
为CIoU-balanced smooth L1 loss的梯度模长,则
Figure FDA0002732981000000055
得到均衡化后的检测框回归损失函数为:
Figure FDA0002732981000000056
CN202011124018.4A 2020-10-20 2020-10-20 基于改进YOLOv3和改进NMS的行人检测方法 Withdrawn CN112287788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011124018.4A CN112287788A (zh) 2020-10-20 2020-10-20 基于改进YOLOv3和改进NMS的行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011124018.4A CN112287788A (zh) 2020-10-20 2020-10-20 基于改进YOLOv3和改进NMS的行人检测方法

Publications (1)

Publication Number Publication Date
CN112287788A true CN112287788A (zh) 2021-01-29

Family

ID=74423449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011124018.4A Withdrawn CN112287788A (zh) 2020-10-20 2020-10-20 基于改进YOLOv3和改进NMS的行人检测方法

Country Status (1)

Country Link
CN (1) CN112287788A (zh)

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528971A (zh) * 2021-02-07 2021-03-19 北京智芯微电子科技有限公司 基于深度学习的输电线路异常目标检测方法及系统
CN112906547A (zh) * 2021-02-09 2021-06-04 哈尔滨市科佳通用机电股份有限公司 一种基于e-yolo的铁路列车风挡破损故障检测方法
CN112926500A (zh) * 2021-03-22 2021-06-08 重庆邮电大学 一种结合头部和整体信息的行人检测方法
CN112950673A (zh) * 2021-03-06 2021-06-11 山东万腾电子科技有限公司 一种对目标物的检测跟踪系统及其方法
CN112966762A (zh) * 2021-03-16 2021-06-15 南京恩博科技有限公司 一种野生动物检测方法、装置、存储介质及电子设备
CN112966699A (zh) * 2021-03-24 2021-06-15 沸蓝建设咨询有限公司 一种通信工程项目的目标检测系统
CN113011405A (zh) * 2021-05-25 2021-06-22 南京柠瑛智能科技有限公司 一种解决无人机地物目标识别多框重叠误差的方法
CN113033446A (zh) * 2021-04-01 2021-06-25 辽宁工程技术大学 一种基于高分辨率遥感影像输电杆塔识别与定位方法
CN113033315A (zh) * 2021-02-26 2021-06-25 江西理工大学 一种稀土开采高分影像识别与定位方法
CN113033303A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于RCIoU损失的SAR图像旋转舰船检测的实现方法
CN113128553A (zh) * 2021-03-08 2021-07-16 北京航空航天大学 基于目标架构的目标检测方法、装置、设备及存储介质
CN113139476A (zh) * 2021-04-27 2021-07-20 山东英信计算机技术有限公司 一种面向数据中心的人体行为属性实时检测方法和系统
CN113239813A (zh) * 2021-05-17 2021-08-10 中国科学院重庆绿色智能技术研究院 一种基于三阶级联架构的YOLOv3的远景目标检测方法
CN113255826A (zh) * 2021-06-17 2021-08-13 广东电网有限责任公司中山供电局 一种基于改进yolov3的安全帽佩戴检测方法及系统
CN113269055A (zh) * 2021-05-06 2021-08-17 中国矿业大学 一种落叶检测预测框损失函数计算方法
CN113313082A (zh) * 2021-07-28 2021-08-27 北京电信易通信息技术股份有限公司 一种基于多任务损失函数的目标检测方法及系统
CN113313063A (zh) * 2021-06-21 2021-08-27 暨南大学 麦穗检测方法、电子装置和存储介质
CN113362299A (zh) * 2021-06-03 2021-09-07 南通大学 一种基于改进YOLOv4的X光安检图像检测方法
CN113642418A (zh) * 2021-07-23 2021-11-12 南京富岛软件有限公司 一种改进的5t运维中安全防护智能识别方法
CN113743304A (zh) * 2021-09-06 2021-12-03 北京神星科技有限公司 一种用于视频监控的运动目标检测和识别方法
CN113838099A (zh) * 2021-10-20 2021-12-24 浙江大立科技股份有限公司 一种基于孪生神经网络的单目标跟踪方法
CN113836850A (zh) * 2021-11-26 2021-12-24 成都数之联科技有限公司 模型获得方法及系统及装置及介质及产品缺陷检测方法
CN113888513A (zh) * 2021-09-30 2022-01-04 电子科技大学 一种基于深度神经网络模型的钢筋检测计数方法
CN114266884A (zh) * 2021-12-13 2022-04-01 浙江工业大学 旋转框定位多形态瓶状物品分拣目标检测方法
CN114782827A (zh) * 2022-06-22 2022-07-22 中国科学院微电子研究所 一种基于图像的物体抓取点获取方法和装置
CN115100629A (zh) * 2022-07-04 2022-09-23 河南科技大学 一种针对多尺度目标和遮挡目标的自动驾驶目标检测方法
CN115098824A (zh) * 2022-06-28 2022-09-23 东莞灵虎智能科技有限公司 一种基于bp神经网络的超声传感器灵敏度补偿曲线构建方法
CN115100741A (zh) * 2022-06-16 2022-09-23 清华大学 一种点云行人距离风险检测方法、系统、设备和介质
CN115393892A (zh) * 2022-07-20 2022-11-25 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法
CN116229191A (zh) * 2023-03-13 2023-06-06 东莞理工学院 一种基于归一化角点距离和目标前景信息的目标检测方法
CN117422908A (zh) * 2023-10-17 2024-01-19 煜邦数字科技(广东)有限公司 一种基于SE-PointNet++神经网络模型的点云识别方法

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528971B (zh) * 2021-02-07 2021-06-04 北京智芯微电子科技有限公司 基于深度学习的输电线路异常目标检测方法及系统
CN112528971A (zh) * 2021-02-07 2021-03-19 北京智芯微电子科技有限公司 基于深度学习的输电线路异常目标检测方法及系统
CN113033303A (zh) * 2021-02-09 2021-06-25 北京工业大学 一种基于RCIoU损失的SAR图像旋转舰船检测的实现方法
CN112906547A (zh) * 2021-02-09 2021-06-04 哈尔滨市科佳通用机电股份有限公司 一种基于e-yolo的铁路列车风挡破损故障检测方法
CN113033303B (zh) * 2021-02-09 2024-03-01 北京工业大学 一种基于RCIoU损失的SAR图像旋转舰船检测的实现方法
CN113033315A (zh) * 2021-02-26 2021-06-25 江西理工大学 一种稀土开采高分影像识别与定位方法
CN112950673A (zh) * 2021-03-06 2021-06-11 山东万腾电子科技有限公司 一种对目标物的检测跟踪系统及其方法
CN113128553A (zh) * 2021-03-08 2021-07-16 北京航空航天大学 基于目标架构的目标检测方法、装置、设备及存储介质
CN112966762A (zh) * 2021-03-16 2021-06-15 南京恩博科技有限公司 一种野生动物检测方法、装置、存储介质及电子设备
CN112966762B (zh) * 2021-03-16 2023-12-26 南京恩博科技有限公司 一种野生动物检测方法、装置、存储介质及电子设备
CN112926500A (zh) * 2021-03-22 2021-06-08 重庆邮电大学 一种结合头部和整体信息的行人检测方法
CN112926500B (zh) * 2021-03-22 2022-09-20 重庆邮电大学 一种结合头部和整体信息的行人检测方法
CN112966699A (zh) * 2021-03-24 2021-06-15 沸蓝建设咨询有限公司 一种通信工程项目的目标检测系统
CN113033446A (zh) * 2021-04-01 2021-06-25 辽宁工程技术大学 一种基于高分辨率遥感影像输电杆塔识别与定位方法
CN113033446B (zh) * 2021-04-01 2024-02-02 辽宁工程技术大学 一种基于高分辨率遥感影像输电杆塔识别与定位方法
CN113139476A (zh) * 2021-04-27 2021-07-20 山东英信计算机技术有限公司 一种面向数据中心的人体行为属性实时检测方法和系统
CN113269055A (zh) * 2021-05-06 2021-08-17 中国矿业大学 一种落叶检测预测框损失函数计算方法
CN113269055B (zh) * 2021-05-06 2024-02-13 中国矿业大学 一种落叶检测预测框损失函数计算方法
CN113239813A (zh) * 2021-05-17 2021-08-10 中国科学院重庆绿色智能技术研究院 一种基于三阶级联架构的YOLOv3的远景目标检测方法
CN113239813B (zh) * 2021-05-17 2022-11-25 中国科学院重庆绿色智能技术研究院 一种基于三阶级联架构的YOLOv3的远景目标检测方法
CN113011405A (zh) * 2021-05-25 2021-06-22 南京柠瑛智能科技有限公司 一种解决无人机地物目标识别多框重叠误差的方法
CN113362299A (zh) * 2021-06-03 2021-09-07 南通大学 一种基于改进YOLOv4的X光安检图像检测方法
CN113362299B (zh) * 2021-06-03 2023-09-12 南通大学 一种基于改进YOLOv4的X光安检图像检测方法
CN113255826A (zh) * 2021-06-17 2021-08-13 广东电网有限责任公司中山供电局 一种基于改进yolov3的安全帽佩戴检测方法及系统
CN113313063A (zh) * 2021-06-21 2021-08-27 暨南大学 麦穗检测方法、电子装置和存储介质
CN113642418A (zh) * 2021-07-23 2021-11-12 南京富岛软件有限公司 一种改进的5t运维中安全防护智能识别方法
CN113313082A (zh) * 2021-07-28 2021-08-27 北京电信易通信息技术股份有限公司 一种基于多任务损失函数的目标检测方法及系统
CN113313082B (zh) * 2021-07-28 2021-10-29 北京电信易通信息技术股份有限公司 一种基于多任务损失函数的目标检测方法及系统
CN113743304A (zh) * 2021-09-06 2021-12-03 北京神星科技有限公司 一种用于视频监控的运动目标检测和识别方法
CN113888513A (zh) * 2021-09-30 2022-01-04 电子科技大学 一种基于深度神经网络模型的钢筋检测计数方法
CN113838099A (zh) * 2021-10-20 2021-12-24 浙江大立科技股份有限公司 一种基于孪生神经网络的单目标跟踪方法
CN113836850A (zh) * 2021-11-26 2021-12-24 成都数之联科技有限公司 模型获得方法及系统及装置及介质及产品缺陷检测方法
CN114266884A (zh) * 2021-12-13 2022-04-01 浙江工业大学 旋转框定位多形态瓶状物品分拣目标检测方法
CN115100741A (zh) * 2022-06-16 2022-09-23 清华大学 一种点云行人距离风险检测方法、系统、设备和介质
CN114782827A (zh) * 2022-06-22 2022-07-22 中国科学院微电子研究所 一种基于图像的物体抓取点获取方法和装置
CN115098824A (zh) * 2022-06-28 2022-09-23 东莞灵虎智能科技有限公司 一种基于bp神经网络的超声传感器灵敏度补偿曲线构建方法
CN115098824B (zh) * 2022-06-28 2024-04-19 东莞灵虎智能科技有限公司 一种基于bp神经网络的超声传感器灵敏度补偿曲线构建方法
CN115100629A (zh) * 2022-07-04 2022-09-23 河南科技大学 一种针对多尺度目标和遮挡目标的自动驾驶目标检测方法
CN115393892B (zh) * 2022-07-20 2023-08-04 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法
CN115393892A (zh) * 2022-07-20 2022-11-25 东北电力大学 一种基于改进双候选框交叉替换策略和损失函数的拥挤场景行人检测方法
CN116229191B (zh) * 2023-03-13 2023-08-29 东莞理工学院 一种基于归一化角点距离和目标前景信息的目标检测方法
CN116229191A (zh) * 2023-03-13 2023-06-06 东莞理工学院 一种基于归一化角点距离和目标前景信息的目标检测方法
CN117422908A (zh) * 2023-10-17 2024-01-19 煜邦数字科技(广东)有限公司 一种基于SE-PointNet++神经网络模型的点云识别方法

Similar Documents

Publication Publication Date Title
CN112287788A (zh) 基于改进YOLOv3和改进NMS的行人检测方法
Yang et al. Real-time face detection based on YOLO
CN109977782B (zh) 基于目标位置信息推理的跨店经营行为检测方法
CN102903122B (zh) 基于特征光流与在线集成学习的视频目标跟踪方法
CN111695482A (zh) 一种管道缺陷识别方法
CN111179217A (zh) 一种基于注意力机制的遥感图像多尺度目标检测方法
CN112766184B (zh) 基于多层级特征选择卷积神经网络的遥感目标检测方法
CN106373146B (zh) 一种基于模糊学习的目标跟踪方法
CN109919159A (zh) 一种针对边缘图像的语义分割优化方法及装置
CN111860236A (zh) 一种基于迁移学习的小样本遥感目标检测方法及系统
CN110543906B (zh) 基于Mask R-CNN模型的肤质自动识别方法
CN112560675B (zh) Yolo与旋转-融合策略相结合的鸟类视觉目标检测方法
CN109325502A (zh) 基于视频渐进区域提取的共享单车停放检测方法和系统
CN113139979A (zh) 一种基于深度学习的边缘识别方法
CN111882586A (zh) 一种面向剧场环境的多演员目标跟踪方法
CN108846831A (zh) 基于统计特征和图像特征相结合的带钢表面缺陷分类方法
CN108460336A (zh) 一种基于深度学习的行人检测方法
CN114612406A (zh) 一种基于可见光和红外视觉的光伏板缺陷检测方法
CN111724566A (zh) 基于智慧灯杆视频监控系统的行人跌倒检测方法和装置
CN115457044B (zh) 基于类激活映射的路面裂缝分割方法
CN117975175B (zh) 一种基于机器视觉的塑料管道外观缺陷检测方法
CN111339950B (zh) 一种遥感图像目标检测方法
CN114332921A (zh) 基于改进聚类算法的Faster R-CNN网络的行人检测方法
CN113221956A (zh) 基于改进的多尺度深度模型的目标识别方法及装置
CN113177439A (zh) 一种行人翻越马路护栏检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210129

WW01 Invention patent application withdrawn after publication