CN116363552A

CN116363552A - 一种应用于边缘设备的实时目标检测方法

Info

Publication number: CN116363552A
Application number: CN202310144010.1A
Authority: CN
Inventors: 孙健; 刘士涵; 王钢; 查俊林; 李卓; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-06-30

Abstract

本发明涉及计算机视觉技术领域，特别涉及一种应用于边缘设备的实时目标检测方法；包括：构建目标检测模型；对数据集进行数据增强处理；将数据增强后的图像输入至目标检测模型；利用损失函数进行比对，计算预测结果和标签数据的误差，利用优化器通过误差与目标检测模型的梯度信息对目标检测模型参数进行优化；将训练完成的目标检测模型转化为量化模型并将量化模型部署在边缘设备上，对使用场景中的视频流进行目标检测。本发明通过更加轻量化的、可重参数化的Rep‑ELAN结构和解耦检测头，能够在几乎不损失计算速度的同时大幅增加检测器的准确度；本发明的数据增强处理方法，能够在数据集标签不充分时大幅提高数据标签的有效性，提高训练效率和训练效果。

Description

一种应用于边缘设备的实时目标检测方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种应用于边缘设备的实时目标检测方法。

背景技术

目标检测是指在图像中找出所有感兴趣目标的具体位置和大小等定位信息，该问题是计算机视觉、模式识别等领域中的基础问题之一，解决该问题的方法在车辆识别分析、施工监控、视频监控及分析、人脸识别、工业领域等应用中得到广泛使用。

现有的目标检测策略主要分为两类：一种是以牺牲速度换取高准确度两阶段策略，另一种是精度稍低但速度比二阶段策略快上百倍的一阶段策略。随着目标检测算法的不断发展，基于二阶段策略设计的目标检测算法除了在追求极致准确度的应用场景下仍有优势，在其他许多应用中一阶段策略已逐步取代二阶段策略。

目前，应用于图像分割、目标检测等领域的一阶段策略主要存在两个问题：

(1)基于一阶段策略设计的拥有较高准确度的目标检测器能够在高性能服务器上轻松达到实时效果，但高准确度往往意味着模型的参数量大，使用时需要消耗更多的计算资源，因此目前的模型往往在算力有限的边缘计算设备上，难以同时满足高准确率和实时性。

(2)目标检测模型训练过程中，目前主流使用的数据增强方法采用Mosaic增强方法和Mixup增强方法的简单混合使用，如附图1所示，虽然在数据标签丰富的数据集中弊端不明显，但是在数据标签较少的情况下，容易生成无效标签，使训练效果大打折扣。

(3)多数应用场景中，摄像头与目标有一定距离，检测对象在整个图像中通常较小，而小目标检测准度往往较低。

(4)当前的主流学术研究追求的性能指标与实际工程应用中关注的性能指标有一定出入，不能很好的服务于工业界。

发明内容

本发明的目的是针对现有一阶段策略的技术缺陷，提供了一种应用于边缘设备的实时目标检测方法，该方法融合了Rep-ELAN结构、解耦检测头、数据增强处理以及损失分析等技术，以更少的模型参数和更小的模型计算量，获得了更高的检测准确率。

为了实现上述目的，本发明的技术方案如下：

一种应用于边缘设备的实时目标检测方法，包括：

构建目标检测模型，目标检测模型为骨干网络和检测头网络顺序连接组成的端到端一体化网络，此时的目标检测模型未经过训练；其中，利用骨干网络对图像进行特征提取处理，输出图像相应的特征信息；利用检测头网络对完成提取的特征信息进行解码，输出包含所有目标的位置信息、类别和置信度信息的预测结果集合；

选择数据集，对数据集进行数据增强处理，得到经过数据增强后的图像以及相应的标签数据集合；

将数据增强后的图像输入构建的目标检测模型；将目标检测模型输出的预测结果集合和标签数据集合利用损失函数进行比对，计算预测结果和标签数据的误差，利用优化器通过误差与目标检测模型的梯度信息对目标检测模型参数进行优化调整，重复此步骤直至模型预测结果的准确率不再提升；

将训练完成的目标检测模型转化为量化模型并将量化模型部署在边缘设备上，对使用场景中的视频流进行目标检测。

具体的，所述骨干网络包括多个可重参数化的Rep-ELAN网络结构；沿着多尺度源图像输入的特征提取路径展开，特征提取路径上的每个Rep-ELAN网络结构包含Conv卷积、Rep-Conv卷积和DWConv卷积操作，对输入图像进行特征提取得到特征信息。

具体的，所述检测头网络包括多个Lite-Efficient-Decoupled-Head检测头结构，沿着一条融合了骨干网络连接输入的特征解码路径展开，特征解码路径上的每个Lite-Efficient-Decoupled-Head检测头结构包含1×1卷积、3×3卷积、权重和偏置操作，对特征提取路径输出的特征信息进行解码，输出包含所有目标的位置信息、类别和置信度信息的预测结果集合。

具体的，所述对数据集进行数据增强处理，得到经过数据增强后的图像以及相应的标签数据集合，包括：

设置标签数阈值N，计算数据集中平均每张图片的标签个数X，设置镜像概率P_flip、旋转最大角度

和HSV增强系数G_hsv参数；

设置Mosaic数据增强分支数量n，使得n满足

输入数据集进行数据增强处理；

从数据集中不重复地抽取4×n+1张图片，保留1张图片，其余每4张图片分为一组基于Mosaic数据增强进行拼接，得到n张图片，再分别对这n张图片按S2A中设置的参数进行镜像、旋转、HSV增强和尺度变换操作；

对保留的图片进行小幅度的数据增强；

将生成的n张图片和经过小幅度数据增强处理后的1张图片进行Mixup数据增强的混合操作得到最终的图像，将该图像与变换后的相应的标签数据输入至目标检测模型。

具体的，所述将输出的预测结果和标签数据利用损失函数进行比对，计算预测结果和标签数据的误差，包括：

输入和预设参数，其中，输入的参数包含预测结果集合P0和标签结果集合T0，预设的参数包括目标框损失权重W_box、前景损失权重W_obj和类别损失权重W_cls；

对标签结果集合T0中的每一个目标框ti，在预测结果集合P0中遍历与其重合度最大的结果pi，两者匹配后分别从预测结果集合P0和标签结果集合T0放入集合匹配的整张图片所有预测结果集合P和整张图片所有标签结果集合T中；

当标签结果集合T0中所有结果均已匹配，丢弃预测结果集合P0中剩余未匹配的结果；

对匹配后的张图片所有预测结果集合P和整张图片所有标签结果集合T利用损失函数进行预测框位置损失、前景损失和类别损失的计算；

将经过计算的预测框位置损失、前景损失和类别损进行加权求和，得到最终的损失。

具体的，利用损失函数进行对比计算过程中，对于单个预设结果的损失函数，其公式(1)如下：

hrl(p,t)＝[4(1-p)²r+(1-r)]tlog(p)+[12p²r+(1-r)](1-t)log(1-p) (1)

式中，p表示预测结果，t表示目标结果，r为0-1之间的随机数；

根据上述公式(1)，将每一个结果的损失函数求和取平均值得到整张图片的损失函数，其公式(2)如下：

式中，P表示整张图片所有预测结果集合，T表示整张图片所有标签结果集合，K表示整张图片预测结果和标签结果匹配的数量；

基于边框回归损失函数sIOU计算预测框位置损失，预测框位置损失的计算公式(3)如下：

Loss_box＝sIOU(P_box,T_box) (3)

式中，Loss_box表示预测框位置损失，P_box表示整张图片所有已匹配的预测结果P中的目标框位置集合，T_box表示整张图片所有已匹配的标签结果T中的目标框位置集合，

基于公式(2)计算前景损失和类别损失，前景损失的计算公式(4)如下：

Loss_obj＝HRL(P_obj,T_obj) (4)

式中，Loss_obj表示前景损失，P_obj表示整张图片所有已匹配的预测结果P中的前景概率集合，T_obj表示整张图片已匹配的标签结果T中的前景概率集合，

类别损失的计算公式(5)如下：

Loss_cls＝HRL(P_cls,T_cls) (5)

式中，Loss_cls表示类别损失，P_cls表示整张图片所有已匹配的预测结果P中的类别概率集合，T_cls表示整张图片所有已匹配的标签结果T中的前景概率集合。

具体的，所述利用优化器通过误差与目标检测模型的梯度信息对目标检测模型参数进行优化调整，重复此步骤直至模型预测结果的准确率不再提升，包括：

遍历预先训练好的目标检测模型的每一层计算模块，判断该模块是否是可重参数化的模块，若是，则进行重参数化以减少模型参数。

具体的，所述将训练完成的目标检测模型转化为量化模型并将量化模型部署在边缘设备上，对使用场景中的视频流进行目标检测，包括：

通过模型量化工具转换为用于部署的量化模型Model；

获取视频流，预设图像输入尺寸、置信度阈值和重合度阈值；

从视频流中提取当前帧图像，将当前帧图像经过预处理后输入到量化模型Model中，经量化模型Model推理后得到多个目标信息；

过滤掉所有置信度小于置信度阈值的目标，判断剩余目标两两之间的目标框重合度，若重合度高于重合度阈值，则判定两个目标框预测的是同一个目标，并将两者中置信度较低的结果过滤掉；

将剩余目标结果作为最终的结果，并显示在图像上，重复上述步骤，直至视频流结束。

本发明的有益效果为：

本发明的应用于边缘设备的实时目标检测方法，通过更加轻量化的、可重参数化的Rep-ELAN结构和解耦检测头，能够在几乎不损失计算速度的同时大幅增加检测器的准确度；同时，提供了一种更加强大的数据增强方法，能够在数据集标签不充分时大幅提高数据标签的有效性，提高训练效率和训练效果；另外，在本模型训练的最终部署阶段使用的损失函数，能有效提高检测器对小目标的检测精度。

附图说明

图1为本发明背景技术中现有技术中Mosaic和Mixup简单混合使用的示意图；

图2为本发明实施例中目标检测模型的主体结构图；

图3为本发明实施例中原始ELAN结构和可重参数化的Rep-ELAN结构的对比图，其中，图3(a)为原始ELAN结构，图3(b)为可重参数化的Rep-ELAN结构；

图4为本发明实施例中常规3×3卷积层结构和RepConv卷积层结构对比图，其中，图4(a)为常规3×3卷积层结构，图4(b)为RepConv卷积层结构；

图5为本发明实施例中三种解耦头结构对比图，其中，图5(a)为初代解耦头Decoupled-Head，图5(b)为YOLOv6中解耦头Efficient-Decoupled-Head，图5(c)为Lite-Efficient-Decoupled-Head；

图6为本发明实施例中数据增强结构的示意图；

图7为本发明实施例中小目标检测效果图；

图8为本发明实施例中应用于边缘设备的实时目标检测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

一种应用于边缘设备的实时目标检测方法，该实时目标检测方法基于一种实时目标检测器实现，该实时目标检测器应用于Nvidia Jetson AGX Xavier的边缘计算设备，CPU为Nvidia Carmel ARMv8.2(8-core)@2.26GHz，GPU为512-Core Volta@1377MHz+64TensorCores，内存为32GB 256-bit LPDDR4x@2133MHz|137GB/s，存储空间为32GB eMMC 5.1+M.2SSD 512GB，软件环境为Ubuntu18.04,Python 3.6.9,TensorRT 7.1.3.0，功率模式为MAXN。

在本实施例中，实时目标检测器分为模型设计阶段、训练阶段和部署阶段；其中，参考附图2，模型设计阶段主要包含骨干网络和检测头网络，训练阶段包含数据增强处理和损失函数，部署阶段包含部署和推理。

在本实施例中，参考附图8，一种应用于边缘设备的实时目标检测方法，包括：

步骤1：构建目标检测模型，目标检测模型为骨干网络和检测头网络顺序连接组成的端到端一体化网络，此时的目标检测模型未经过训练。

其中，利用骨干网络对图像进行特征提取处理，输出图像相应的特征信息；利用检测头网络对完成提取的特征信息进行解码，输出包含所有目标的位置信息、类别和置信度信息的预测结果集合。

在本实施例中，骨干网络包括多个可重参数化的Rep-ELAN网络结构；沿着多尺度源图像输入的特征提取路径展开，特征提取路径上的每个Rep-ELAN网络结构包含Conv卷积、Rep-Conv卷积和DWConv卷积操作，对输入图像进行特征提取得到特征信息。

在本实施例中，在骨干网络里，采用大量可重参数化的Rep-ELAN网络结构，如附图所示3(a)，原始的ELAN结构相较于传统的CSPN结构，拥有参数量小、层间交互数据多、运行速度快等优势，对此，本发明进一步对部分神经网络层进行了更改，设计了可重参数化的Rep-ELAN结构，如附图所示3(b)。在此结构中，数据进行了3次分流形成了共4个分支，每个分支所经过的卷积层数量都不相同，因此在最终拼接合并(Concat)后，数据包含了来自多个不同层级的卷积层的特征信息，丰富了特征信息要素。

应当理解，当某一层拥有来自不同层级的数据作为该层输入数据时，称该层为数据交汇层；而当某一层的输出数据作为多个不同层级的网络层的输入时，称该层为数据分流层。由于这两种网络层存在多尺度特征信息，因此采用可重参数化的线性并行卷积层RepConv代替普通的卷积层Conv。

在本实施例中，如附图4(a)所示，为常规3×3卷积层结构，如附图4(b)所示，为RepConv卷积层结构，可见RepConv添加了1×1卷积层和仅有批归一化层的分支BN，这样做在训练过程中能够拥有更多的参数，使得模型的训练更加容易，从而训练出准确度更高的模型；同时在训练完成后的部署过程中，由于三个分支中没有非线性计算，因此可通过重参数化方法，附图4(b)的RepConv卷积层结构可以在不损失任何精度的情况下变成和附图4(a)相同的结构、相同的参数量，并拥有相同的计算速度。进一步的，在轻量化模型上，我们还将两层常规3×3卷积层替换为轻量化网络(如MobileNet，ShuffleNet等)中常用的深度可分离卷积(即DepthWise Conv)以减轻计算成本。

在本实施例中，检测头网络的作用为：将提取的特征解码，生成目标位置、类别、置信度等信息，包括B个Lite-Efficient-Decoupled-Head检测头结构，沿着一条融合了骨干网络连接输入的特征解码路径展开，特征解码路径上的每个Lite-Efficient-Decoupled-Head检测头结构包含1×1卷积、3×3卷积、权重和偏置操作，对特征提取路径输出的特征信息进行解码，生成标签数据。

在本实施例中，检测头网络里，本发明设计了相比于其他解耦检测头更加轻量化的结构；其中，相较于YOLOX中参照FCOS检测头结构设计的初代解耦头Decoupled-Head(如图5(a))，YOLOv6中设计的解耦头(如图5(b))Efficient-Decoupled-Head减少了一层3×3卷积层，同时为了保证准确性，增加了特征通道数，但是这样也会增加计算量；因此如图5(c)，我们设计的Lite-Efficient-Decoupled-Head既减少了卷积层，同时保持较少的特征通道数，为了保证准确性，我们增加了额外的权重层和偏置层，这两层在训练过程中提供额外的训练参数，在训练结束后，通过重参数化方法，将额外的这两层的参数合并到中间的卷积层中，同时将前景预测分支与类别预测分支耦合提高模型并行度，从而获得更快的运行速度。

在本实施例中，预测结果集合包括位置信息(目标中心点坐标(cx,cy)，目标长宽(w,h))、目标置信度(confidence,0％-100％之间，代表该位置存在目标的可能性)、以及每一种目标类型的的置信度class_id_confidence，如COCO数据集里一共有80个类，则class_id范围为0-79)。因此每个目标信息可以用一个5+n维向量表示，其中n表示一共有多少种类别，例如：[cx,cy,w,h,confidence,class_1_confidence,…,class_n_confidence]；将类别置信度中最高的类别作为该目标的类别，并记录该类别ID(class_id)，并将该置信度与目标置信度相乘得到最终置信度conf，则可以将其转换为6维向量[cx,cy,w,h,conf,class_id]。同理，从数据集中加载的标签也是这种表示方法。

步骤2：选择数据集，对数据集进行数据增强处理，得到经过数据增强后的图像以及相应的标签数据集合。

其中，参考附图6，对数据集进行数据增强处理，得到经过数据增强后的图像以及相应的标签数据，包括：

S1：设置标签数阈值N，统计本次训练所使用的数据集中平均每张图片的标签个数X，设置镜像概率P_flip、旋转最大角度

和HSV增强系数G_hsv参数；

S2：设置本次训练中Mosaic数据增强分支数量n，使得n满足

载入数据集信息，等待本次训练开始；

S3：从数据集中不重复地抽取4×n+1张图片，保留1张图片，其余每4张图片分为一组基于Mosaic数据增强进行拼接，共得到n张图片，再分别对这n张图片按S2A中设置的参数进行镜像、旋转、HSV增强和尺度变换操作；

S4：将S3中保留的图片进行小幅度的数据增强，使这张图片在数据增强后不会有过大的变化，用于保证训练效果的稳定性。

其中，一般来说，根据数据集的不同，控制小幅度数据增强的参数(如上述提到的镜像、旋转、HSV增强和尺度变换操作等)在正常幅度的数据增强的十分之一到三分之一之间。

S5：将S3中生成的n张图片和S4中增强处理后的1张图片进行Mixup数据增强的混合操作得到最终的图像，将该图像与变换后的相应的标签数据输入至目标检测模型，并等待下一个训练迭代开始后，重复步骤S3-S5。

步骤3：将数据增强后的图像输入构建的目标检测模型；将目标检测模型输出的预测结果集合和标签数据集合利用损失函数进行比对，计算预测结果和标签数据的误差，利用优化器通过误差与目标检测模型的梯度信息对目标检测模型参数进行优化调整，重复此步骤直至模型预测结果的准确率不再提升。

其中，将输出的预测结果和标签数据利用损失函数进行比对，计算预测结果和标签数据的误差，包括：

由于预测结果集合P0数量多且广泛分布于图像中的所有位置，标签结果集合T0中的结果一定能匹配，当标签结果集合T0中所有结果均已匹配，丢弃预测结果集合P0中剩余未匹配的结果；

在本实施例中，损失函数计算模块的损失函数主要分为三个部分，前景概率损失、类别概率损失以及预测框位置损失。

由上述提到的，每个目标用一个5+n维向量表示[cx,cy,w,h,confidence,class_1_confidence,…,class_n_confidence]；对于预测框损失，就是将预测的[cx,cy,w,h]与实际标签中的预测框进行比较，计算对应的重合度，重合度越高，损失越小，预测得也就更精确，在此采用常用的sIOU损失函数。

Loss_box＝sIOU(P_box,T_box) (3)

式中，Loss_box表示预测框位置损失，P_box表示整张图片所有已匹配的预测结果P中的目标框位置集合，T_box表示整张图片所有已匹配的标签结果T中的目标框位置集合。

对于前景概率损失以及类别概率损失，即：confidence或class_i_confidence(0≤i＜n)作为预测p，标签中该目标框里是否是目标(目标为1，背景则为0)或该目标框里是否是这个类别(是为1，不是为0)作为结果t，将p和t通过损失函数计算两者的差别，计算结果即为前景概率损失以及类别概率损失。

这两种损失通常使用交叉熵损失函数来计算，而本发明设计了如下随机混合损失函数(Hybrid-Random Loss)。

对于单个预设结果的损失函数，其公式(1)如下：

hrl(p,t)＝[4(1-p)²r+(1-r)]tlog(p)+[12p²r+(1-r)](1-t)log(1-p) (1)

式中，p表示预测结果，t表示目标结果，r为0-1之间的随机数。

式中，P表示整张图片所有预测结果集合，T表示整张图片所有标签结果集合，K表示整张图片预测结果和标签结果匹配的数量。

Loss_obj＝HRL(P_obj,T_obj) (4)

类别损失的计算公式(5)如下：

Loss_cls＝HRL(P_cls,T_cls) (5)

式中，Loss_cls表示类别损失，P_cls表示整张图片所有已匹配的预测结果P中的类别概率集合，T_cls表示整张图片所有已匹配的标签结果T中的前景概率集合；

将经过计算的预测框位置损失、前景损失和类别损进行加权求和，得到最终的损失，其计算公式(5)如下：

Loss_total＝W_box Loss_box+W_obj Loss_obj+W_clsLoss_cls。

在本实施例中，利用优化器通过误差与目标检测模型的梯度信息对目标检测模型参数进行优化调整，重复此步骤直至模型预测结果的准确率不再提升，包括：

遍历预先训练好的目标检测模型的每一层计算模块，判断该模块是否是可重参数化的模块，若是，则进行重参数化以减少模型参数，重复此步骤直至模型预测结果的准确率不再提升。

步骤4；将训练完成的目标检测模型转化为量化模型并将量化模型部署在边缘设备上，对使用场景中的视频流进行目标检测。

由于使用了大量的可重参数化的结构，本发明在部署时对模型进行重参数化，在完全不损失模型准确度的同时缩减了模型的参数，并且大幅提高了模型结构的并行度，从而在没有任何代价的情况下提高了模型在边缘计算设备上的运行速度。

其中，将训练完成的目标检测模型转化为量化模型并将量化模型部署在边缘设备上，对使用场景中的视频流进行目标检测，包括：

S1：通过模型量化工具转换为用于部署的量化模型Model。

进一步的，模型量化工具，例如：英伟达公司的TensorRT，因特尔的OpenVINO，谷歌的TFLite等。

S2：获取视频流，预设图像输入尺寸、置信度阈值和重合度阈值。

进一步的，获取视频流Video Stream，确定图像输入尺寸size，设置置信度阈值confidence_threshold，设置重合度阈值iou_threshold。

S3：从视频流中提取当前帧图像，将当前帧图像经过预处理后输入到量化模型Model中，经量化模型Model推理后得到多个目标信息。

进一步的，从视频流中提取当前帧图像，将图像经过预处理(缩放为size相同大小)后输入到模型中，模型推理后得到多个目标信息，每个目标信息用6维向量表示，如：[cx,cy,w,h,confidence,class_id]。

S4：过滤掉所有置信度小于置信度阈值的目标，判断剩余目标两两之间的目标框重合度，若重合度高于重合度阈值，则判定两个目标框预测的是同一个目标，并将两者中置信度较低的结果过滤掉。

进一步的，过滤掉所有confidence<confidence_threshold(即置信度小于置信度阈值)的目标，计算剩余目标两两之间的目标框重合度，如果重合度高于重合度阈值iou_threshold，则认为两个目标框预测的是同一个目标，并将两者中置信度较低的结果过滤掉。

S5：将剩余目标结果作为最终的结果，并显示在图像上，重复上述步骤，直至视频流结束。

进一步的，将剩余目标结果作为最终的结果，并显示在图像上，重复步骤S3-S5，直至视频流结束。

测试结果检验：目前轻量化模型中最先进的是YOLOv6，本发明在目标检测通用数据集MS COCO2017上与之进行比较。AP⁵⁰表示目标框重合度阈值为50％时模型的平均准确度(Average Precision)，这是工业界常用的指标之一。同时，本发明还比较了模型的参数量和输入图像大小为640×640时的浮点运算数(FLOPs，可用于衡量模型所需计算量)，具体的测试结果如下表1。

表1测试结果

由上表1可以看出，本发明涉及的目标检测方法，能够以更少的模型参数和更小的模型计算量，获得更高的检测准确率。

另外，通过实验发现，本发明涉及的模型准确度的提升主要来源于对小目标检测效果的大幅提升，利用无人机拍摄数据集VisDrone2019-DET，重新进行训练，按照发明内容所述的方法步骤，对道路上的车辆和人员(即小目标)进行检测，小目标检测效果如附图7所示，都可以很准确地识别出来。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种应用于边缘设备的实时目标检测方法，其特征在于：包括：

2.根据权利要求1所述的一种应用于边缘设备的实时目标检测方法，其特征在于，所述骨干网络包括多个可重参数化的Rep-ELAN网络结构；沿着多尺度源图像输入的特征提取路径展开，特征提取路径上的每个Rep-ELAN网络结构包含Conv卷积、Rep-Conv卷积和DWConv卷积操作，对输入图像进行特征提取得到特征信息。

3.根据权利要求1所述的一种应用于边缘设备的实时目标检测方法，其特征在于，所述检测头网络包括多个Lite-Efficient-Decoupled-Head检测头结构，沿着一条融合了骨干网络连接输入的特征解码路径展开，特征解码路径上的每个Lite-Efficient-Decoupled-Head检测头结构包含1×1卷积、3×3卷积、权重和偏置操作，对特征提取路径输出的特征信息进行解码，输出包含所有目标的位置信息、类别和置信度信息的预测结果集合。

4.根据权利要求1所述的一种应用于边缘设备的实时目标检测方法，其特征在于，所述对数据集进行数据增强处理，得到经过数据增强后的图像以及相应的标签数据集合，包括：

和HSV增强系数G_hsv参数；

设置Mosaic数据增强分支数量n，使得n满足

输入数据集进行数据增强处理；

对保留的图片进行小幅度的数据增强；

5.根据权利要求1所述的一种应用于边缘设备的实时目标检测方法，其特征在于，所述将输出的预测结果和标签数据利用损失函数进行比对，计算预测结果和标签数据的误差，包括：

6.根据权利要求5所述的一种应用于边缘设备的实时目标检测方法，其特征在于，利用损失函数进行对比计算过程中，对于单个预设结果的损失函数，其公式(1)如下：

hrl(p,t)＝[4(1-p)²r+(1-r)]tlog(p)+[12p²r+(1-r)](1-t)log(1-p)(1)

Loss_box＝sIOU(P_box,T_box)(3)

Loss_obj＝HRL(P_obj,T_obj)(4)

类别损失的计算公式(5)如下：

Loss_cls＝HRL(P_cls,T_cls)(5)

7.根据权利要求1所述的一种应用于边缘设备的实时目标检测方法，其特征在于，所述利用优化器通过误差与目标检测模型的梯度信息对目标检测模型参数进行优化调整，重复此步骤直至模型预测结果的准确率不再提升，包括：

8.根据权利要求1所述的一种应用于边缘设备的实时目标检测方法，其特征在于，所述将训练完成的目标检测模型转化为量化模型并将量化模型部署在边缘设备上，对使用场景中的视频流进行目标检测，包括：

通过模型量化工具转换为用于部署的量化模型Model；