CN112884064B

CN112884064B - 一种基于神经网络的目标检测与识别方法

Info

Publication number: CN112884064B
Application number: CN202110268857.1A
Authority: CN
Inventors: 宋永端; 谈世磊; 黄力; 蒋自强; 刘剑; 谭力珲
Original assignee: DIBI Chongqing Intelligent Technology Research Institute Co Ltd
Current assignee: Chongqing Yingdi Industrial Group Co ltd; DIBI Chongqing Intelligent Technology Research Institute Co Ltd
Priority date: 2021-03-12
Filing date: 2021-03-12
Publication date: 2022-07-29
Anticipated expiration: 2041-03-12
Also published as: US11790040B2; US20220292311A1; CN112884064A

Abstract

本发明公开了一种基于神经网络的目标检测与识别方法，该方法在现有YOLOv5网络模型的三层检测层后再增加一层检测层得到新型YOLOv5网络模型；然后在考虑预测框和真实框的重叠区域、两个框的中心点的距离和两框的纵横比的情况下对新型YOLOv5网络模型进行训练，最后将待检测图像输入训练好的模型中，输出目标的预测框和目标所属类别对应的概率值，设最大概率值对应的类别为该待检测图像中目标的预测类别。该方法能够快速有效地检测出多类目标，尤其对小目标检测效果更为理想，同时克服了多目标紧凑排列易出现的漏检现象，算法检测速度也可以满足实时检测要求。

Description

一种基于神经网络的目标检测与识别方法

技术领域

本发明涉及计算机视觉及图像处理技术领域，特别涉及一种基于神经网络的目标检测与识别方法。

背景技术

近年来，随着人工智能技术的发展和计算设备算力的提升，使得人工智能算法被广泛应用于军事和民用领域。计算机视觉作为人工智能领域的一大分支，一直为国内外研究的热点方向，其主要针对图像和视频进行处理。视频处理中的目标进行检测与识别已衍生出众多实际应用，例如：人脸识别、舰船检测、自动驾驶路标障碍物检测与识别等，其都需要检测算法具备高准确性和实时性。

现有的神经网络目标检测与识别方法主要分为两大类。第一类为基于区域生成方式的，首先生成区域候选帧，然后进行分类。主流方法有SPP、R-CNN和Fast R-CNN等，这类方法检测准确率高，但速度很慢，无法满足实时检测需求。另外一类为采用端到端的方法，常用的方法为SSD、RetinaNet和YOLOv3等，这类方法检测速度快，但准确率稍微低了些。为了提升检测性能，业界学者对上述两大类方法做了大量的改进工作，使其能够更好的满足实际需求。但由于模型结构的限制，以上方法无法获得较快的检测速度。

YOLOv5为2020年最新提出的网络模型，其在检测准确率和速度方面都有了很大程度的提升，但在小目标提取方面表现不是很理想。

发明内容

针对现有技术存在的上述问题，本发明的要解决的技术问题是：在目标检测与识别过程中存在小目标和多目标排列紧凑情况下容易出现的漏检错检的问题。

为解决上述技术问题，本发明采用如下技术方案：一种基于神经网络的目标检测与识别方法，包括如下步骤：

S100：构建新型YOLOv5网络模型，在现有YOLOv5网络模型的三层检测层后再增加一层检测层；

S200：训练新型YOLOv5网络模型，具体训练过程如下：

S210：构建训练数据集：采集N张图像，将每张图像进行尺寸变换使其适用于模型训练，并对每张进行标注，即标注目标框和目标分类标签，标注后的所有图像构成训练数据集；

S220：设置新型YOLOv5网络模型的中心点间距离阈值和纵横比阈值；

S230：初始化新型YOLOv5网络模型中的参数；

将训练数据集中的所有样本输入新型YOLOv5网络模型中，采用如下公式计算：

IoU为预测框和真实框的纵横比，表达式为：

R_CIoU为重叠区域和真实框中心点距离，表达式为：

其中，s_i为各类别目标的分类得分，ε为人为设定的NMS阈值，M为预测框得分最高的值，B_i为预测框列表，,b为预测框，b^gt为真实框，ρ²(b,b^gt)为预测框与真实框中心点的距离，表示为两个框中最小的封闭矩形盒子的对角线长度，ω^gt和h^gt分别表示为真实框的宽和高，ω和h分别表示为预测框的宽和高；

S240：当所述S230训练时，针对预测框的抑制问题，得分最高的预测框M与其它框B_i的IoU-CIoU相减后的值小于所设置的阈值ε，B_i框的得分s_i不变；否则，直接将s_i变成0，如此这个预测框将会被过滤掉；

再通过计算损失函数，其中包括目标损失函数、类别损失函数和框损失函数，通过反复迭代训练使损失函数最小，获取最优的网络模型参数。

S300：待检测图像检测，将待检测图像采用S210中的方法进行尺寸变换后输入训练好的新型YOLOv5网络模型中进行预测，输出目标的预测框和目标所属类别对应的概率值，设最大概率值对应的类别为该待检测图像中目标的预测类别。

作为优选，所述S210构建训练数据集时，对标注好的N张图像通过Mosaic数据增强提升训练数据集中数据量。

相对于现有技术，本发明至少具有如下优点：

1.本发明提供的基于神经网络的目标检测与识别方法能够在测试图像中快速检测识别出多类目标，尤其对小目标检测能力显著提升，在多目标紧凑排列情况下也能实现精准检测与识别。本发明所设计方法检测识别准确率高，检测速度能够满足实时性要求，同时在背景复杂、光线昏暗等复杂环境下，依然能够获得较好的检测效果，整体鲁棒性较强。

2.本发明方法在现有YOLOv5网络模型三个检测层的基础上进行改进，加入一个检测层，使其能够检测出更小的目标。当模型输入图像尺寸为640*640像素时，原始模型的三个感受野为20*20、40*40、80*80，即当小目标的长宽尺寸和多目标之间距离的像素值小于8像素时，模型将会出现漏检现象，而现实中很多小目标的图像往往小于上述尺寸。通过增加一个检测层，增加的感受野为160*160，如此网络模型可以检测出大于等于4*4像素的目标，多目标排列紧凑的情况也得以解决，可以满足实际需求。

3.本发明使用CIoU-NMS方法，实现对预测框的抑制。CIoU-NMS同时考虑了预测框目标框的重叠区域、两框中心点间距离和两框的纵横比三个因素来训练模型，从而得到的模型检测准确率更高，漏检情况更少。

附图说明

图1是本发明新型YOLOv5网络模型的网络模型图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

实施例1：一种基于神经网络的目标检测与识别方法，包括如下步骤：

S200：训练新型YOLOv5网络模型，具体训练过程如下：

S210：构建训练数据集：采集N张图像，将每张图像进行尺寸变换使其适用于模型训练，并对每张进行标注，即标注目标框和目标分类标签，对标注好的N张图像通过Mosaic数据增强提升训练数据集，经过Mosaic数据增强后得到的所有图像构成训练数据集；

S230：初始化新型YOLOv5网络模型中的参数；

IoU为预测框和真实框的纵横比，表达式为：

R_CIoU为重叠区域和真实框中心点距离，表达式为：

s_i为各类别目标的分类得分，ε为人为设定的NMS阈值，M为预测框得分最高的值，B_i为预测框列表，b为预测框，b^gt为真实框，ρ²(b,b^gt)为预测框与真实框中心点的距离，表示为两个框中最小的封闭矩形盒子的对角线长度，ω^gt和h^gt分别表示为真实框的宽和高，ω和h分别表示为预测框的宽和高；

再通过计算损失函数，其中包括目标损失函数、类别损失函数和框损失函数，通过反复迭代训练使损失函数最小，获取最优的网络模型参数；所述目标损失函数、类别损失函数和框损失函数是现有技术，此处不再赘述。

本发明所述的新型YOLOv5网络模型具体包括以下四个模块：

1.输入端：首先对输入图像进行尺寸变换使其适用于模型训练，再通过Mosaic数据增强提升训练集数据量，最后进行自适应初始锚框计算，避免了传统方法通过程序方式进行锚框聚类。Mosaic数据增强的方式是一种现有技术，简单来说就是把多张图片，通过随机缩放、随机裁减、随机排布的方式进行拼接。该方法丰富了检测物体的背景和小目标，丰富数据集：随机使用多张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，可以让模型的鲁棒性更好。

2.Backbone模块：Focus实现对图像的切片处理，使原始图像从RGB三通道变为12通道，解决图像在下采样过程中信息丢失问题，同时减少了模型的计算量。CBL为卷积、正则化和leaky relu激活函数的组合操作。

CSP为跨阶段局部网络解决模型中的推理计算问题，提升模型学习能力和减少计算时间，此结构同时应用在Backbone和Neck中。

3.Neck模块:采用FPN和PAN相组合的结构，主要通过上采样操作进行信息传递和融合，获取不同尺度的检测层。

图1在YOLOv5网络模型三个检测层的基础上进行改进，加入一个检测层，使其能够检测出更小的目标。当模型输入图像尺寸为640*640像素时，原始模型的三个感受野为20*20、40*40、80*80，即当小目标的长宽尺寸和多目标之间距离的像素值小于8像素时，模型将会出现漏检现象，而现实中很多小目标的图像往往小于上述尺寸。通过增加一个检测层，增加的感受野为160*160，如此网络模型可以检测出大于等于4*4像素的目标，多目标排列紧凑的情况也得以解决，可以满足实际需求。

4.输出端：主要为边界框损失计算和非极大值抑制算法。边界框损失函数采用CIoU，它同时考虑了预测框和真实框重叠面积，中心点距离和纵横比，较传统IoU、GIoU等具有更高的准确性。使用CIoU-NMS替代传统的NMS方法，实现对预测框的抑制。传统NMS方法为通过人为设置一个阈值，当预测框和真实框的交并比大于此阈值，保留预测框，反之则直接舍去此预测框。这种处理方式十分粗暴，直接抹除了这个预测框为其它目标的可能性，导致易产生漏检和召回率低的现象。CIoU-NMS同时考虑了预测框目标框的重叠区域、两框中心点间距离以及两框的纵横比。

实验对比：

本发明在公开的DOTA数据集上进行实验，并和现有的SSD、Faster R-CNN、YOLOv2和YOLOv5算法进行了检测准确率比较，主要比较了数据集中的飞机和船舶目标，比较结果如表1：

表1

通过表1可见：本发明方法在飞机和船舶目标上检测准确率均高达90％，切远远高于现有方法。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于神经网络的目标检测与识别方法，其特征在于，包括如下步骤：

S200：训练新型YOLOv5网络模型，具体训练过程如下：

S230：初始化新型YOLOv5网络模型中的参数；

IoU为预测框和真实框的纵横比，表达式为：

R_CIoU为重叠区域和真实框中心点距离，表达式为：

其中，s_i为各类别目标的分类得分，ε为人为设定的NMS阈值，M为预测框得分最高的值，B_i为预测框列表，b为预测框，b^gt为真实框，ρ²(b，b^gt)为预测框与真实框中心点的距离，表示为两个框中最小的封闭矩形盒子的对角线长度，ω^gt和h^gt分别表示为真实框的宽和高，ω和h分别表示为预测框的宽和高；

再通过计算损失函数，其中包括目标损失函数、类别损失函数和框损失函数，通过反复迭代训练使损失函数最小，获取最优的网络模型参数；

2.如权利要求1所述的基于神经网络的目标检测与识别方法，其特征在于，所述S210构建训练数据集时，对标注好的N张图像通过Mosaic数据增强提升训练数据集中数据量。