CN114359789A

CN114359789A - 视频图像的目标检测方法、装置、设备及介质

Info

Publication number: CN114359789A
Application number: CN202111532255.9A
Authority: CN
Inventors: 刘凯; 徐�明; 李杉杉; 谢子平; 俞俊程
Original assignee: Shenzhen ZNV Technology Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-04-15

Abstract

本申请公开了一种视频图像的目标检测方法、装置、设备及介质，获取待检测图像并输入至基于YOLOv5改进的目标检测网络；对待检测图像进行第一特征提取，得到第一特征图；基于第一特征图进行第一特征融合、第二特征融合与第三特征融合，得到第一融合特征图、第二融合特征图与第三融合特征图，对第一融合特征图、第二融合特征图、第三融合特征图进行第二特征提取，得到第一目标特征图、第二目标特征图与第三目标特征图；基于第一目标特征图、第二目标特征图、第三目标特征图生成第一检测结果、第二检测结果、第三检测结果；对第一检测结果、第二检测结果、第三检测结果进行后处理，得到目标检测结果。本申请可提高视频图像中目标检测的精度。

Description

视频图像的目标检测方法、装置、设备及介质

技术领域

本申请涉及计算机视觉目标检测技术领域，尤其涉及一种视频图像的目标检测方法、装置、设备及介质。

背景技术

目标检测是计算机视觉和数字图像处理领域非常热门的一个方向，在机器人巡航、自动驾驶、工业监控、智慧安防等诸多领域，均有广泛应用，可以为公司减少一定的人力成本。目前基于深度学习的目标检测技术研究热点主要围绕以FasterRCNN为主的两阶段目标检测；以YOLO(You Only Look Once)系列、SSD系列、RetinaNet为主的一阶段目标检测；以CenterNet为主的AnchorFree思想及以Swin Transformer为主的注意力思想等技术展开。基于算法部署成本考虑，一阶段的目标检测算法，往往在工业界更受欢迎，得到了广泛的应用。而最新的YOLOv5算法，在精度和速度上均达到了SOTA的水平，受到了工业界目标检测领域的一致好评。但是，经研究发现，即使是最新的YOLOv5算法，由于其算法模型精度仍存在不足，导致当前基于YOLOv5进行目标检测时精确度较低。

发明内容

本申请的主要目的在于提供一种视频图像的目标检测方法、装置、设备及介质，旨在解决当前进行目标检测时精确度较低的技术问题。

为实现上述目的，本申请实施例提供一种视频图像的目标检测方法，所述视频图像的目标检测方法包括：

获取待检测图像，将所述待检测图像输入至基于YOLOv5改进的目标检测网络；

基于所述目标检测网络对所述待检测图像进行第一特征提取，得到第一特征图；

基于所述第一特征图进行第一特征融合，得到第一融合特征图，对所述第一融合特征图进行第二特征提取，得到第一目标特征图，并基于所述第一目标特征图生成第一检测结果；

基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图，对所述第二融合特征图进行所述第二特征提取，得到第二目标特征图，并基于所述第二目标特征图生成第二检测结果；

基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图，对所述第三融合特征图进行所述第二特征提取，得到第三目标特征图，并基于所述第三目标特征图生成第三检测结果；

对所述第一检测结果、所述第二检测结果、所述第三检测结果进行后处理，得到目标检测结果。

优选地，所述基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图的步骤包括：

对所述第一特征图进行第三特征提取，得到第二特征图；

对所述第一目标特征图进行第四特征提取，得到第三特征图；

对所述第二特征图、所述第三特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图。

优选地，所述基于所述第一特征图进行第一特征融合，得到第一融合特征图的步骤包括：

对所述第一特征图进行第五特征提取，得到第四特征图；

对所述第一特征图与所述第四特征图进行第一特征融合，得到第一融合特征图。

优选地，所述对所述第一特征图进行第五特征提取，得到第四特征图的步骤包括：

对所述第一特征图进行第三特征提取，得到第五特征图；

对所述第五特征图进行第六特征提取，得到第六特征图；

对所述第五特征图与所述第六特征图进行第四特征融合，得到第四融合特征图；

对所述第四融合特征图进行第七特征提取，得到第四特征图。

优选地，所述基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图的步骤包括：

对所述第二目标特征图进行第四特征提取，得到第七特征图；

对所述第一特征图进行第八特征提取，得到第八特征图；

对所述第七特征图与所述第八特征图进行第三特征融合，得到第三融合特征图。

优选地，所述第一特征提取、所述第二特征提取、所述第三特征提取、所述第四特征提取、所述第五特征提取、所述第六特征提取、所述第七特征提取与所述第八特征提取分别包括不同的特征提取操作。

优选地，所述将所述待检测图像输入至基于YOLOv5改进的目标检测网络的步骤之前，还包括：

获取初始视频图像作为训练数据；

针对基于YOLOv5改进的初始检测网络，通过所述训练数据进行基于运动模糊的预训练，得到目标检测网络。

为实现上述目的，本申请还提供一种视频图像的目标检测装置，所述视频图像的目标检测装置包括：

获取模块，用于获取待检测图像，将所述待检测图像输入至基于YOLOv5改进的目标检测网络；

特征提取模块，用于基于所述目标检测网络对所述待检测图像进行第一特征提取，得到第一特征图；

第一特征融合模块，用于基于所述第一特征图进行第一特征融合，得到第一融合特征图，对所述第一融合特征图进行第二特征提取，得到第一目标特征图，并基于所述第一目标特征图生成第一检测结果；

第二特征融合模块，用于基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图，对所述第二融合特征图进行所述第二特征提取，得到第二目标特征图，并基于所述第二目标特征图生成第二检测结果；

第三特征融合模块，用于基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图，对所述第三融合特征图进行所述第二特征提取，得到第三目标特征图，并基于所述第三目标特征图生成第三检测结果；

后处理模块，用于对所述第一检测结果、所述第二检测结果、所述第三检测结果进行后处理，得到目标检测结果。

进一步地，为实现上述目的，本申请还提供一种视频图像的目标检测设备，所述视频图像的目标检测设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的视频图像的目标检测程序，所述视频图像的目标检测程序被所述处理器执行时实现上述的视频图像的目标检测方法的步骤。

进一步地，为实现上述目的，本申请还提供一种介质，所述介质为计算机可读存储介质，所述计算机可读存储介质上存储有视频图像的目标检测程序，所述视频图像的目标检测程序被处理器执行时实现上述的视频图像的目标检测方法的步骤。

进一步地，为实现上述目的，本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的视频图像的目标检测方法的步骤。

本申请实施例提供一种视频图像的目标检测方法、装置、设备及介质，获取待检测视频图像，将所述待检测视频图像输入至基于YOLOv5改进的目标检测网络；基于所述目标检测网络对所述待检测图像进行第一特征提取，得到第一特征图；基于所述第一特征图进行第一特征融合，得到第一融合特征图，对所述第一融合特征图进行第二特征提取，得到第一目标特征图，并基于所述第一目标特征图生成第一检测结果；基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图，对所述第二融合特征图进行所述第二特征提取，得到第二目标特征图，并基于所述第二目标特征图生成第二检测结果；基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图，对所述第三融合特征图进行所述第二特征提取，得到第三目标特征图，并基于所述第三目标特征图生成第三检测结果；对所述第一检测结果、所述第二检测结果、所述第三检测结果进行后处理，得到目标检测结果。本申请可以通过基于YOLOv5改进的目标检测网络将对待检测视频图像进行特征提取，并对特征提取的各特征图进行特征融合，将高层和低层特征融合在一起得到融合特征图，并对各融合特征图进行特征提取后，基于得到的各目标特征图生成多个检测结果，由多个检测结果生成最后的检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。

附图说明

图1为本申请视频图像的目标检测方法实施例方案涉及的硬件运行环境的结构示意图；

图2为本申请视频图像的目标检测方法第一实施例的流程示意图；

图3为本申请视频图像的目标检测方法第二实施例的流程示意图；

图4为本申请第二实施例中特征融合的示意图；

图5为原YOLOv5中对特征图进行拼接的示意图；

图6为本申请视频图像检测的整体检测流程的场景示意图；

图7为本申请视频图像的目标检测装置较佳实施例的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的视频图像的目标检测设备结构示意图。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本申请实施例视频图像的目标检测设备可以是PC，也可以是平板电脑、便携计算机等可移动式终端设备。

如图1所示，该视频图像的目标检测设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的视频图像的目标检测设备结构并不构成对视频图像的目标检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频图像的目标检测程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频图像的目标检测程序，并执行以下操作：

进一步地，所述基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图的步骤包括：

对所述第一特征图进行第三特征提取，得到第二特征图；

进一步地，所述基于所述第一特征图进行第一特征融合，得到第一融合特征图的步骤包括：

对所述第一特征图进行第五特征提取，得到第四特征图；

进一步地，所述对所述第一特征图进行第五特征提取，得到第四特征图的步骤包括：

对所述第一特征图进行第三特征提取，得到第五特征图；

对所述第五特征图进行第六特征提取，得到第六特征图；

进一步地，所述基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图的步骤包括：

对所述第一特征图进行第八特征提取，得到第八特征图；

进一步地，所述第一特征提取、所述第二特征提取、所述第三特征提取、所述第四特征提取、所述第五特征提取、所述第六特征提取、所述第七特征提取与所述第八特征提取分别包括不同的特征提取操作。

进一步地，所述将所述待检测图像输入至基于YOLOv5改进的目标检测网络的步骤之前，处理器1001可以用于调用存储器1005中存储的视频图像的目标检测程序，并执行以下操作：

获取初始视频图像作为训练数据；

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

参照图2，图2为本申请第一实施例提供的一种视频图像的目标检测方法的流程示意图。该实施例中，所述视频图像的目标检测方法包括以下步骤：

步骤S10，获取待检测图像，将所述待检测图像输入至基于YOLOv5改进的目标检测网络；

本实施例中视频图像的目标检测方法可应用于视频图像的目标检测系统，可通过视频图像的目标检测系统执行视频图像的目标检测方法，可以理解地，为方便描述，后续将视频图像的目标检测系统简称为系统。需要说明的是，在深度学习图像领域日益发展壮大的同时，许多基于视觉的深度学习算法得以落地。对于一般算法模型而言，在训练数据足够充分的情况下，模型复杂度越高，模型预测效果越好。而模型复杂度的增加往往伴随着模型推理速度(即一张图片输入模型预测结果的耗时越久)，同时模型所占有的显存也逐步增加。由于全球缺芯影响，GPU资源更加珍贵，所以模型小，精度高也成为必须解决的问题。YOLOv5作为当下开源的性能、推理速度俱佳的目标检测算法，在工业落地上得到了大家的一致认可，故本实施例基于YOLOv5进行改进，其中，YOLOv5(You Only Look Once)是由UitralyticsLLC公司发布的一种单阶段目标检测算法。本实施例提出特征融合模块改进及运动模糊策略能够在几乎不影响模型推理速度的同时，显著提升模型性能，并在视频监控下的目标检测算法效果有显著提升。本实施例中视频图像的目标检测方法具体可以结合视频监控进行非机动车检测，同时也可以用于机器人巡航、自动驾驶、工业监控、智慧安防等场景的目标检测。

可以理解地，所述将所述待检测图像输入至基于YOLOv5改进的目标检测网络的步骤之前，还包括：

步骤A1，获取初始视频图像作为训练数据；

步骤A2，针对基于YOLOv5改进的初始检测网络，通过所述训练数据进行基于运动模糊的预训练，得到目标检测网络。

在步骤S10之前，本实施例在对yolov5进行改进后，需要对改进得到的初始检测网络进行训练以使该网络具有更优的检测性能。具体地，首先获取初始视频图像作为训练数据，其中，初始视频图像包括清晰度正常的视频图像以及具有运动模糊的视频图像，运动模糊是静态场景或一系列的图片像电影或是动画中快速移动的物体造成明显的模糊拖动痕迹。因为在工业安防、智慧城市项目落地中，利用深度学习对相关摄像头下非机动车检测，是一个比较常见的任务。但由于当下比较流行的视频编解码(比如H264等)，都会对原始视频进行编解码操作(减少存储及网络带宽操作，如果不进行此操作，视频保存需要占据很大的内存、磁盘空间及网络带宽)。由于目前编解码的不完整性，往往会出现运动模糊的情况。对于神经网络而言，对数据有很强的敏感性，数据的状态分布、质量分布、场景分布都会对模型的性能造成一定的影响。考虑到大部分开源数据及训练数据中质量较好的情况，和实际应用中的运动模糊情况不匹配。故本实施例在训练模型过程中，随机概率性选择(设置一个概率值，比如0.5，在每次构建dataloader时，生成一个随机数，和0.5比大小，比他大就生成运动模糊图像，否则不生成)在图像中加入运动模糊，以此通过包括清晰度正常的视频图像以及具有运动模糊的视频图像来作为训练数据对改进的初始检测网络进行训练，增加模型对运动模型情况下的图像理解能力，得到目标检测网络。具体训练过程可以参照现有的模型训练，本实施例中不进行详细阐述。

在步骤S10中，系统可以通过视频监控获取待检测图像，若本实施例中视频图像的目标检测方法应用于非机动车检测，则可以获取视频监控上传的监控视频中的视频帧作为待检测图像。进一步地，将获取的待检测图像输入至基于YOLOv5改进并预先进行预训练的目标检测网络中，便于后续通过目标检测网络对待检测图像进行特征提取与特征融合以得到最终的检测结果。可以理解地，原YOLOv5中包含对两个特征图在通道维度进行特征拼接的操作即Concat操作，本实施例中将特征拼接的操作改进为采用逐像素融合方式将多个特征图逐像素相加的特征融合操作即Addfpn操作。原YOLOv5直接将两个特征图进行拼接，但其实每个特征图所包含的特征信息量不一样，直接将其硬性相加会降低精度，故本实施例在模型训练时，会初始化一个可以训练的比例参数，在网络训练反向传播时，会对其更新，直到模型迭代到最优为止。同时，本实施例考虑到卷积网络是一个不断卷积不断下采样的过程，随着网络的加深，每一层特征图的感受野也不断增大，但是于此同时也可能会丢弃一些关键信息，故本实施例将浅层的特征图也添加进来，进行弥补，这样做的同时也将浅层的纹理信息(神经网络浅层学习的是纹理信息，高层学习的是全局信息)也增加了进来，有利于网络对于小目标的检测，因此将改进后将第三个特征融合的输入特征图由两个增加到三个。需要说明的是，经实验验证，本实施例改进后的特征融合模块显著提高了模型的目标检测精度。

步骤S20，基于所述目标检测网络对所述待检测图像进行第一特征提取，得到第一特征图；

在将待检测图像输入至基于YOLOv5改进的目标检测网络后，系统通过目标检测网络对待检测图像进行第一特征提取，具体地，通过深度学习图像常用套件CBL对待检测图像进行处理，得到一个特征图，本实施例中深度学习图像常用套件包括conv、BN与Relu，其中，Conv用于提取图像特征，一般conv中可以通过步长控制当前层输出特征图大小；BN用于进行批量归一化；Relu为一种激活函数，用于提高模型的非线性；因此可以通过CBL对待检测图像进行卷积、归一化以及激活处理。进一步地，通过深度学习图像常用套件CBL再对得到的特征图进行特征提取，得到新的特征图；进一步地，通过CSP block对新的特征图进行处理，具体可以为对新的特征图进行卷积残差处理，其中，CSP block可借鉴CSPNet网络结构，由卷积层和X个Res unint模块Concate组成。进一步地，通过深度学习图像常用套件CBL对残差处理得到的特征图进行处理，并再通过CSP block对处理得到的特征图进行处理，完成第一特征提取，得到第一特征图，即本实施例中第一特征提取的过程包括CBL、CBL、CSP、CBL、CSP的处理。以便于后续基于第一特征图再进行特征提取与特征融合，将高层和低层特征融合在一起得到融合特征图，并由融合特征图生成检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。

需要说明的是，本申请的各实施例中第一特征提取以及后续的第二特征提取、第三特征提取、第四特征提取、第五特征提取、第六特征提取、第七特征提取、第八特征提取分别包括不同的特征提取操作。具体地，本实施例中第一特征提取的过程包括CBL、CBL、CSP、CBL、CSP等操作；第二特征提取的过程包括CSP操作；第三特征提取的过程包括CBL与CSP等操作；第四特征提取的过程包括CBL操作；第五特征提取的过程包括第三特征提取与第六特征提取；第六特征提取的过程包括CBL、CSP、SPPF、CBL、Upsample等操作；第七特征提取的过程包括CSP、CBL、Upsample等操作；第八特征提取的过程包括CBL、CSP、CBL、CSP、SPPF、CBL等操作。

步骤S30，基于所述第一特征图进行第一特征融合，得到第一融合特征图，对所述第一融合特征图进行第二特征提取，得到第一目标特征图，并基于所述第一目标特征图生成第一检测结果；

在基于目标检测网络对待检测图像进行第一特征提取并得到第一特征图后，对第一特征图进行第五特征提取，得到第四特征图；对第一特征图与第四特征图进行特征融合即第一特征融合，得到第一融合特征图。进一步地，对第一融合特征图进行第二特征提取，具体可以为通过CSP block对第一融合特征图进行处理，得到第一目标特征图。进一步地，通过YOLO head检测头对第一目标特征图进行处理，具体可以为对第一目标特征图进行卷积处理，得到第一检测结果，其中，第一检测结果实质为向量形式的特征图，并且包含待检测图像中目标的数量与位置信息，第二特征提取为包括CSP操作的特征提取过程。本实施例可以得到第一层检测结果，同时可以根据第一目标特征图再进一步进行深层的检测，得到更深层的检测结果，使得最终输出的检测结果更加精确。

步骤S40，基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图，对所述第二融合特征图进行所述第二特征提取，得到第二目标特征图，并基于所述第二目标特征图生成第二检测结果；

在得到第一特征图并得到第一目标特征图后，对第一特征图进行第三特征提取，得到第二特征图；以及，对第一目标特征图进行第四特征提取，得到第三特征图；并进一步对第二特征图、第三特征图与第一目标特征图进行特征融合即第二特征融合，得到第二融合特征图。进一步地，对第二融合特征图进行第二特征提取，具体可以为通过CSP block对第二融合特征图进行处理，得到第二目标特征图。进一步地，通过YOLO head检测头对第二目标特征图进行处理，具体可以为对第二目标特征图进行卷积处理，得到第二检测结果，其中，第二检测结果实质为向量形式的特征图，并且包含待检测图像中目标的数量与位置信息。本实施例可以得到第二层检测结果，同时可以根据第二目标特征图再进一步进行更深层的检测，得到更深层的检测结果，使得最终输出的检测结果更加精确。

步骤S50，基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图，对所述第三融合特征图进行所述第二特征提取，得到第三目标特征图，并基于所述第三目标特征图生成第三检测结果；

在得到第一特征图且得到第二目标特征图后，对第二目标特征图进行第四特征提取，得到第七特征图；以及，对第一特征图进行第七特征提取，得到第八特征图；并进一步对第七特征图与第八特征图进行特征融合即第三特征融合，得到第三融合特征图。进一步地，对第三融合特征图进行第二特征提取，具体可以为通过CSP block对第三融合特征图进行处理，得到第三目标特征图。进一步地，通过YOLO head检测头对第三目标特征图进行处理，具体可以为对第三目标特征图进行卷积处理，得到第三检测结果，其中，第三检测结果实质为向量形式的特征图，并且包含待检测图像中目标的数量与位置信息。本实施例可以得到第三层检测结果，以根据第三检测结果结合前述的第一检测结果与第二检测结果确定出精确度更高的检测结果作为目标检测结果，使得最终输出的检测结果更加精确。

步骤S60，对所述第一检测结果、第二检测结果、第三检测结果进行后处理，得到目标检测结果。

在分别得到第一检测结果、第二检测结果与第三检测结果后，对第一检测结果、第二检测结果与第三检测结果进行后处理，具体地，对第一检测结果、第二检测结果与第三检测结果中的目标数量进行统计，并进一步滤除重复的目标，更具体可以将位置信息相同的目标进行滤除，得到剩余的目标的数量以及各目标的位置信息作为目标检测结果。通过基于YOLOv5改进的目标检测网络将对待检测视频图像进行特征提取，并对特征提取的特征图进行特征融合，将高层和低层特征融合在一起得到融合特征图，并由融合特征图生成检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。

本实施例提供一种视频图像的目标检测方法，获取待检测视频图像，将所述待检测视频图像输入至基于YOLOv5改进的目标检测网络；基于所述目标检测网络对所述待检测图像进行第一特征提取，得到第一特征图；基于所述第一特征图进行第一特征融合，得到第一融合特征图，对所述第一融合特征图进行第二特征提取，得到第一目标特征图，并基于所述第一目标特征图生成第一检测结果；基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图，对所述第二融合特征图进行所述第二特征提取，得到第二目标特征图，并基于所述第二目标特征图生成第二检测结果；基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图，对所述第三融合特征图进行所述第二特征提取，得到第三目标特征图，并基于所述第三目标特征图生成第三检测结果；对所述第一检测结果、所述第二检测结果、所述第三检测结果进行后处理，得到目标检测结果。本申请可以通过基于YOLOv5改进的目标检测网络将对待检测视频图像进行特征提取，并对特征提取的各特征图进行特征融合，将高层和低层特征融合在一起得到融合特征图，并对各融合特征图进行特征提取后，基于得到的各目标特征图生成多个检测结果，由多个检测结果生成最后的检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。

进一步地，参照图3，基于本申请视频图像的目标检测方法的第一实施例，提出本申请视频图像的目标检测方法的第二实施例，在第二实施例中，所述基于所述第一特征图进行第一特征融合，得到第一融合特征图的步骤包括：

步骤S31，对所述第一特征图进行第五特征提取，得到第四特征图；

步骤S32，对所述第一特征图与所述第四特征图进行第一特征融合，得到第一融合特征图。

在对待检测图像进行第一特征提取并得到第一特征图后，对第一特征图进行第五特征提取，其中，第五特征提取的过程又可以分为第三特征提取、第六特征提取以及特征融合的过程，在完成第五特征提取后得到第四特征图。进一步地，对第一特征图与第四特征图进行第一特征融合，具体可以为通过addfpn模块采用逐像素融合方式将第一特征图与第四特征图逐像素相加，在完成两特征图的逐像素相加后得到第一融合特征图，便于后续可以根据第一融合特征图得到第一检测结果，以及基于第一融合特征图得到的第一目标特征图进行更深层的检测，得到第二检测结果与第三检测结果，并由第一检测结果、第二检测结果与第三检测结果形成最终的检测结果，通过对特征提取的特征图进行特征融合，将高层和低层特征融合在一起得到融合特征图，并由融合特征图生成检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。本实施例中特征融合原理可以参照图4，图4为本申请第二实施例中特征融合的示意图；又参照图5，图5为原YOLOv5中对特征图进行拼接的示意图。原版直接将两个特征图拼接，但每个特征图它所包含的特征信息量不一样，直接将其硬性相加会降低精度。而本实施例将多个特征图进行逐像素相加可以避免上述问题，提高特征图的精度，使得基于特征融合得到的特征图进行目标检测的结果更精确。

步骤S311，对所述第一特征图进行第三特征提取，得到第五特征图；

步骤S312，对所述第五特征图进行第六特征提取，得到第六特征图；

步骤S313，对所述第五特征图与所述第六特征图进行第四特征融合，得到第四融合特征图；

步骤S314，对所述第四融合特征图进行第七特征提取，得到第四特征图。

具体地，对第一特征图进行第五特征提取时，先对第一特征图进行第三特征提取，本实施例中第三特征提取过程包括CBL与CSP，即需要先通过CBL对第一特征图进行卷积、归一化以及激活处理，再通过CSP block对得到的特征图进行处理，得到第五特征图。进一步地，对第五特征图进行第六特征提取，本实施例中第六特征提取的过程包括CBL、CSP、SPPF、CBL、Upsample等操作，具体地，对第五特征图先通过CBL对第一特征图进行卷积、归一化以及激活处理，然后通过CSP block对进行处理，再对得到的特征图进行多尺度融合(SPPF即进行多尺度融合)，增大感受野，通过CBL对多尺度融合的特征图进行卷积、归一化以及激活处理，并对处理得到的特征图进行上采样，扩大图像分辨率，得到第六特征图。再得到第五特征图与第六特征图后，通过addfpn模块采用逐像素融合方式将第五特征图与第六特征图逐像素相加，在完成两特征图的逐像素相加后得到第四融合特征图。进一步地，对第四融合特征图进行第七特征提取，本实施例中第七特征提取过程包括CSP、CBL、Upsample等操作，即通过CSP block对第四融合特征图进行处理，然后通过CBL对处理得到的特征图进行卷积、归一化以及激活处理，并进一步对处理得到的特征图进行上采样，得到第四特征图。

步骤S41，对所述第一特征图进行第三特征提取，得到第二特征图；

步骤S42，对所述第一目标特征图进行第四特征提取，得到第三特征图；

步骤S43，对所述第二特征图、所述第三特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图。

在得到第一特征图以及第一目标特征图后，先对第一特征图进行第三特征提取，本实施例中第三特征提取过程包括CBL与CSP，即需要先通过CBL对第一特征图进行卷积、归一化以及激活处理，再通过CSP block对得到的特征图进行处理，得到第二特征图。同时，对第一目标特征图的特征图进行第四特征提取，本实施例中第四特征提取的过程包括CBL操作，即通过CBL对第一目标特征图进行卷积、归一化以及激活处理，得到第三特征图。进一步地，对第二特征图、第三特征图与第一目标特征图进行第二特征融合，具体地，通过addfpn模块采用逐像素融合方式将第二特征图、第三特征图与第一目标特征图的特征图逐像素相加，在完成三个特征图的逐像素相加后得到第二融合特征图，便于后续基于第二融合特征图得到第二目标特征图并进行更深层的检测，得到第三检测结果，并由第一检测结果、第二检测结果与第三检测结果形成最终的检测结果，通过对特征提取的特征图进行特征融合，将高层和低层特征融合在一起得到融合特征图，并由融合特征图生成检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。

需要说明的是，本实施例考虑到卷积网络是一个不断卷积不断下采样的过程，随着网络的加深，每一层特征图的感受野也不断增大，但是于此同时也可能会丢弃一些关键信息，故将之前浅层的特征图也添加进来，进行弥补，这样做的同时也将浅层的纹理信息(神经网路浅层学习的是纹理信息，高层学习的是全局信息)也增加了进来，有利于网络对于小目标的检测，因此在本次的特征融合即第二特征融合操作中将输入增加至三个，而原YOLOv5中所以的特征拼接均为两个特征图作为输入。

步骤S51，对所述第二目标特征图进行第四特征提取，得到第七特征图；

步骤S52，对所述第一特征图进行第八特征提取，得到第八特征图；

步骤S53，对所述第七特征图与所述第八特征图进行第三特征融合，得到第三融合特征图。

在得到第一特征图以及第二目标特征图后，对第二目标特征图进行第四特征提取，本实施例中第四特征提取的过程包括CBL操作，即通过CBL对第二目标特征图进行卷积、归一化以及激活处理，得到第七特征图。同时，对第一特征图进行第八特征提取，本实施例中第八特征提取过程包括CBL、CSP、CBL、CSP、SPPF、CBL等操作，即通过CBL对第二目标特征图进行卷积、归一化以及激活处理，通过CSP block对得到的特征图进行处理，然后再通过CBL对处理得到的特征图进行卷积、归一化以及激活处理，并进一步对处理得到的特征图进行多尺度融合后通过CBL进行卷积、归一化以及激活处理，得到第八特征图。进一步地，对第七特征图与第八特征图进行第三特征融合，具体为通过addfpn模块采用逐像素融合方式将第七特征图与第八特征图逐像素相加，在完成两个特征图的逐像素相加后得到第三融合特征图，便于后续基于第三融合特征图得到第三检测结果，并由第一检测结果、第二检测结果与第三检测结果形成最终的检测结果，通过对特征提取的特征图进行特征融合，将高层和低层特征融合在一起得到融合特征图，并由融合特征图生成检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。

本实施例通过对特征提取得到的特征图进行特征融合，将高层和低层特征融合在一起得到融合特征图，便于由融合特征图生成检测结果，避免特征图中信息的丢失，可以大幅度提高视频图像中目标检测的精度。

在本申请的一具体实施例中，参照图6，图6为本申请视频图像检测的整体检测流程的场景示意图；本实施例中接收输入的待检测视频图像(即输入的data)，先对data依次进行CBL、CBL、C3(即CSP)、CBL以及C3操作得到第一特征图。进一步对第一特征图进行CBL与C3操作，得到第二特征图以及第五特征图，即第五特征图实质为与第二特征图相同的特征图。再对第五特征图进行CBL、CSP、SPPF、CBL、Upsample等操作，得到第六特征图，对第五特征图与第六特征图进行第四特征融合(addfpn)，得到第四融合特征图。再对第四融合特征图进行C3、CBL、Upsample等操作，得到第四特征图。对所述第一特征图与第四特征图进行第一特征融合(addfpn)，得到第一融合特征图，对第一融合特征图进行C3操作，得到第一目标特征图，通过YOLO head检测头对第一目标特征图进行处理，得到第一检测结果pred1。进一步地，对第一目标特征图进行CBL操作，得到第三特征图；将第二特征图、第三特征图与第一目标特征图进行第二特征融合(addfpn)，得到第二融合特征图，对第二融合特征图进行C3操作，得到第二目标特征图，通过YOLO head检测头对第二目标特征图进行处理，得到第二检测结果pred2。进一步地，对第二目标特征图进行CBL操作，得到第七特征图；对第一特征图进行CBL、CSP、CBL、CSP、SPPF、CBL等操作，得到第八特征图；对第七特征图与第八特征图进行第三特征融合(addfpn)，得到第三融合特征图，对第三融合特征图进行C3操作，得到第三目标特征图，通过YOLO head检测头对第三目标特征图进行处理，得到第三检测结果。后续可以对第一检测结果、第二检测结果与第三检测结果进行目标相加以及去重的操作，得到最终的目标检测结果，具体可以包括目标的数量以及目标的位置信息。其中，Backbone是一个特征提取器，用来专门提取图像纹理及语义信息，常用的有resnet，vgg等；Neck是网络的脖子，会进行一个特征筛选，特征融合等操作；Head是网络的头部信息，即模型的输出。

进一步地，本申请还提供一种视频图像的目标检测装置。

参照图7，图7为本申请视频图像的目标检测装置第一实施例的功能模块示意图。

所述视频图像的目标检测装置包括：

获取模块10，用于获取待检测图像，将所述待检测图像输入至基于YOLOv5改进的目标检测网络；

特征提取模块20，用于基于所述目标检测网络对所述待检测图像进行第一特征提取，得到第一特征图；

第一特征融合模块30，用于基于所述第一特征图进行第一特征融合，得到第一融合特征图，对所述第一融合特征图进行第二特征提取，得到第一目标特征图，并基于所述第一目标特征图生成第一检测结果；

第二特征融合模块40，用于基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图，对所述第二融合特征图进行所述第二特征提取，得到第二目标特征图，并基于所述第二目标特征图生成第二检测结果；

第三特征融合模块50，用于基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图，对所述第三融合特征图进行所述第二特征提取，得到第三目标特征图，并基于所述第三目标特征图生成第三检测结果；

后处理模块60，用于对所述第一检测结果、所述第二检测结果、所述第三检测结果进行后处理，得到目标检测结果。

此外，本申请还提供一种介质，所述介质优选为计算机可读存储介质，其上存储有视频图像的目标检测程序，所述视频图像的目标检测程序被处理器执行时实现上述视频图像的目标检测方法各实施例的步骤。

此外，本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述视频图像的目标检测方法各实施例的步骤。

在本申请视频图像的目标检测设备、计算机可读存储介质和计算机程序产品的实施例中，包含了上述视频图像的目标检测方法各实施例的全部技术特征，说明和解释内容与上述视频图像的目标检测方法各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是固定终端，如物联网智能设备，包括智能空调、智能电灯、智能电源、智能路由器等智能家居；也可以是移动终端，包括智能手机、可穿戴的联网AR/VR装置、智能音箱、自动驾驶汽车等诸多联网设备)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种视频图像的目标检测方法，其特征在于，所述视频图像的目标检测方法包括：

2.如权利要求1所述的视频图像的目标检测方法，其特征在于，所述基于所述第一特征图与所述第一目标特征图进行第二特征融合，得到第二融合特征图的步骤包括：

对所述第一特征图进行第三特征提取，得到第二特征图；

3.如权利要求1所述的视频图像的目标检测方法，其特征在于，所述基于所述第一特征图进行第一特征融合，得到第一融合特征图的步骤包括：

对所述第一特征图进行第五特征提取，得到第四特征图；

4.如权利要求3所述的视频图像的目标检测方法，其特征在于，所述对所述第一特征图进行第五特征提取，得到第四特征图的步骤包括：

对所述第一特征图进行第三特征提取，得到第五特征图；

对所述第五特征图进行第六特征提取，得到第六特征图；

5.如权利要求1所述的视频图像的目标检测方法，其特征在于，所述基于所述第一特征图与所述第二目标特征图进行第三特征融合，得到第三融合特征图的步骤包括：

对所述第一特征图进行第八特征提取，得到第八特征图；

6.如权利要求1-5任一项所述的视频图像的目标检测方法，其特征在于，所述第一特征提取、所述第二特征提取、所述第三特征提取、所述第四特征提取、所述第五特征提取、所述第六特征提取、所述第七特征提取与所述第八特征提取分别包括不同的特征提取操作。

7.如权利要求1所述的视频图像的目标检测方法，其特征在于，所述将所述待检测图像输入至基于YOLOv5改进的目标检测网络的步骤之前，还包括：

获取初始视频图像作为训练数据；

8.一种视频图像的目标检测装置，其特征在于，所述视频图像的目标检测装置包括：

9.一种视频图像的目标检测设备，其特征在于，所述视频图像的目标检测设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的视频图像的目标检测程序，所述视频图像的目标检测程序被所述处理器执行时实现如权利要求1-7中任一项所述的视频图像的目标检测方法的步骤。

10.一种介质，所述介质为计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频图像的目标检测程序，所述视频图像的目标检测程序被处理器执行时实现如权利要求1-7中任一项所述的视频图像的目标检测方法的步骤。