CN115984672A

CN115984672A - 基于深度学习的高清图像内小目标的检测方法和装置

Info

Publication number: CN115984672A
Application number: CN202310259286.4A
Authority: CN
Inventors: 汪虹余; 王陈; 曹治锦; 孙婷婷
Original assignee: Chengdu Jouav Automation Technology Co ltd
Current assignee: Chengdu Jouav Automation Technology Co ltd
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-04-18
Anticipated expiration: 2043-03-17
Also published as: CN115984672B

Abstract

本发明涉及基于深度学习的高清图像内小目标的检测方法和装置，方法包括步骤：A.对视频原图进行降采样等预处理；B.以预设的重叠比例将视频原图切为N张图像；C.由N路改进后的yolov7‑tiny‑SiLU模型对N张图像目标检测定位，输出中层和深层两路特征图；D.将特征图上采样，级联目标语义信息和切分出的图像；E.提取目标的状态特征，从两路特征图识别出N张图像中各小目标的状态信息；F.对N张图像的检测识别结果合并，计算合并后各小目标在视频原图上的目标框像素位置，最后可视化输出检测结果。本发明能够实时返回无人机飞行的高分辨率监控画面，并大幅度提升了处理速度实现无人机实时精细化区域巡检。

Description

基于深度学习的高清图像内小目标的检测方法和装置

技术领域

本发明涉及视频图像的处理方法和装置，具体是基于深度学习的高清图像内小目标的检测方法和装置。

背景技术

随着人工智能技术与工业无人机行业的深度结合与蓬勃发展，通过无人机搭载各类载荷代替人工巡检与勘测，能有效节约人力成本并提高检测效率。并且，在一些精细化区域巡检场景，例如输电线路巡检、油气管线巡检等应用场景中，用户十分关注杆塔中销钉是否有松动、损坏等异常情况。因此，如果能结合深度学习的方法对杆塔进行智能化检测，对销钉状态进行智能化判断，便能够更大程度上提高无人机区域巡检的自动化程度。

要达到如此高精度的智能化、精细化巡检，首先是对成像单元的空间分辨率提出了严苛的要求。然而，仅有高分辨率的图像采集模块还不够，目前已有的一些目标检测网络对高分辨率输入处理速度慢，且深度模型随深度加深过程中不断的卷积操作，许多小目标易被模糊掉。

综上所述，传统的无人机区域巡检对精细化目标检测与识别关注较少，这主要受限于成像单元的视频数据分辨率较低、高分辨率中/小目标检测与识别的处理速度较慢。而日益增长的精细化区域巡检需求急需无人机搭载高分辨率图像采集模块，并提供一种更高效、更精确的超高清图像中/小目标检测与识别方法。从而可实时接收无人机巡检过程中的高分辨率视频监控画面，同时能对图像中的小目标（如电线杆塔的销钉）进行精准的智能化检测和识别，极大程度上提高无人机区域巡检的自动化程度和巡检效率。

为了解决无人机智能化、精细化区域巡检、监测等作业过程中对小目标检测识别难的问题，现有技术中，大多都是基于Yolov3模型对高清图像目标检测，但通过不断降采样后的特征图对小目标的检测精度也较低，对提高小目标检测的精度没有改进。

在输电线路巡检、油气管线巡检等应用场景中，基于续航时间等因素的考虑，工业无人机更适合此类作业场景，但工业无人机飞行高度较高、距离目标距离较远且机芯采集视频数据分辨率低导致小目标成像效果差。即使有了4K这样高分辨率的监控画面来提高小目标的成像效果，但其每帧有800多万像素，且目标在整幅图像中占比仍旧十分微小。因此，如何能提高小目标检测准确率并保持实时性仍具有较大的挑战。

发明内容

本发明提供了一种基于深度学习的高清图像内小目标的检测方法和装置，以实现实时返回无人机飞行的高分辨率监控画面，并提升处理速度实现无人机实时精细化区域巡检。

本发明基于深度学习的高清图像内小目标的检测方法，包括步骤：

A. 对采集到的视频原图进行包括降采样在内的预处理；

B. 以预设的重叠比例将预处理后的视频原图切分为N张等尺寸的图像，所述N为大于1的自然数；

C. 将所述N张图像分别传入目标检测模块中，通过N路改进后的yolov7-tiny-SiLU模型分别对应对N张输入的图像进行目标检测定位，分别检测出具有目标的区域，每路改进后的yolov7-tiny-SiLU模型的输出为中层和深层两路特征图；

所述改进后的yolov7-tiny-SiLU模型为在原始yolov7-tiny-SiLU模型上裁剪掉小目标检测分支的yolov7-tiny-SiLU模型；

D. 将每路改进后的yolov7-tiny-SiLU模型输出的中层和深层两路特征图作为一个特征图整体，将该特征图整体上采样为与N张图像中所对应图像相同的尺寸，然后级联具有目标语义信息的深度特征和具有局部细节信息的视频原图切分出的对应图像，将N路级联后的特征图整体输出到下一阶段；

E. 提取N路输入中的所述目标语义信息包含的小目标的状态特征，结合N路输入中的中层和深层两路特征图，分别识别出N张图像中各小目标的状态信息；

F. 对N张图像的检测识别结果进行合并，计算出N路检测识别结果合并后各小目标在视频原图上的目标框像素位置，最后可视化输出最终检测结果。

本发明通过多个模型分别检测目标的大致区域和目标的细节状态，实现了在高分辨图像中兼并高精度与高实时性的精细化区域巡检任务，并且在确定目标大致区域时，将yolov7-tiny-SiLU模型作为主干网络，其速度能够满足实时性要求。如果直接对视频原图的数据进行检测，虽然准确率也较高，但是处理速度较低；如果直接对视频原图降采样后进行识别检测，小目标会被降采样为更少的像素或几乎消失，这样很难区分小目标与背景的差异以至于难以准确识别出目标类别。因此本发明通过降采样、上采样和级联原图等多种方式相结合，同时实现了有效提高对小目标识别的精度和处理速度。

其中，步骤C中所述yolov7-tiny-SiLU模型的小目标检测分支，是yolov7-tiny-SiLU模型的一部分，yolov7-tiny-SiLU模型的主干网中的特征图金字塔P3、P4、P5，分辨率分别为输入图像的1/8、1/16、1/32，分别用于检测小、中、大三种面积的目标。这里所述的小目标分支就是指从yolov7-tiny-SiLU模型的主干网的P3特征图金字塔引出的网络分支。所述小目标的定义是根据相对尺寸定义的，即在整幅图像中目标相对面积小于0.12%左右的目标。

进一步的，步骤A所述预处理包括：

A1. 通过视频解码器对视频原图中单帧码流进行解码，并将视频原图的YUV图像（一种图像编码方式）转为RGB图像（红绿蓝图像）；

A2. 将转为RGB图像的视频原图降采样为预设尺寸，降采样时图像保持与视频原图相同的长宽比，再将降采样后的视频原图的像素值由[0, 255]调整到[0, 1]，并按RGB通道分别对像素采用均值和方差归一化以消除光照影响。

由于视频原图是高分辨率的图像，而高分辨率图像如果直接进行传输和检测识别，则对硬件中的显存要求较高，即使显存条件满足，但在相同硬件条件下分辨率越高图像的帧率越低，即数据处理的实时性较差，因此在能满足帧率要求的情况下将视频原图降采样到选择合适的预设尺寸。

一种具体的方式为，步骤B所述重叠比例的预设方式为：根据对应的应用场景中待检测目标的尺寸范围进行确定，通过视频原图切分后的相邻图像之间的重叠比例，在切分后的图像中仍包含完整的待检测目标，而不会将本身尺寸小的待检测目标切分到不同的图像中。

服务器中通常配置有多个GPU（图形处理器），多个GPU可并行处理图像，因此将视频原图切分的目的是为了能充分调用多GPU并行处理输入数据的能力，图像的具体切分张数可根据硬件条件在兼并显存处理能力与帧率的同时尽可能选取较小的切分张数，因为过多的切分张数有增加剪裁边缘目标检测不准确的风险。

进一步的，步骤C中所述改进后的yolov7-tiny-SiLU模型，不直接输出高维特征数据的中目标分支和大目标分支的中层特征和深层特征进行信息输出，而是直接将中层特征和深层特征分别经过一个1*1卷积进行通道融合，将中层特征和深层特征分别降维至一维。

yolov7-tiny-SiLU模型的主干网中的特征图金字塔P3、P4、P5，分辨率分别为输入图像的1/8、1/16、1/32，在经过三个不同尺度的降采样后的特征图中，还能被感知到的目标分别对应为小、中、大目标，分别采用三个尺度的特征图对其进行识别检测。

进一步的，步骤D中所述级联具有目标语义信息的深度特征和具有局部细节信息的视频原图切分出的图像，是在N个上采样后的特征图整体与所述切分后的视频原图之间引入残差连接。

优选的，通过N路改进的yolov7-X模型作为主干网络分别对应执行步骤E的N路输入，对yolov7-X模型的改进包括：将yolov7-X模型的输入维度设定为五个通道，其中三个通道为yolov7-X模型的原始通道，另两个通道分别对应同一路输入中的中层和深层两路特征图；以及去掉了yolov7-X模型中的大目标检测分支。

在精细化特征识别的过程中选取yolov7-X模型作为主干网络，其精确率更高。在本发明中去掉了yolov7-X模型中的大目标检测分支，且所述N路输入还级联了从目标检测模块获得的N路输入中的中层和深层两路特征图，以及具有局部细节信息的原图，因此保留了更多的细节信息。

具体的，步骤F所述对N张图像的检测识别结果进行合并和计算各小目标在视频原图上的目标框像素位置，是将N张图像的检测识别结果中所有的检测框依据切分方式，反算出每张图像的检测识别结果中的检测框在切分前的完整视频原图中的相对坐标，再通过非极大抑制算法（NMS算法）剔除重叠的检测框。

本发明还提供了一种用于上述检测方法的基于深度学习的高清图像内小目标的检测装置，包括与图像采集模块连接的目标检测模块，图像采集模块对采集到的视频原图进行包括降采样在内的预处理和以预设的重叠比例进行切分，图像采集模块将切分后的图像分别传入目标检测模块，目标检测模块对每张所述图像进行目标检测定位，分别检测出每张图像中具有目标的区域，每张图像输出一个中层特征图和深层特征图到特征图处理模块进行上采样，以及级联具有目标语义信息的深度特征和具有局部细节信息的视频原图切分后的对应图像，输入到精细化特征识别模块提取目标的状态特征，最后输入到合并模块对每张图的目标状态特征进行合并，可视化输出最终检测结果。

本发明能够应用于无人机智能勘测、区域巡检等领域，实现电力巡检、油气巡检时对杆塔细节的巡检，例如检测杆塔的螺钉状态等。图像采集模块输出的数据为无人机执行任务时的实时监控视频，但由于无人机飞行过程中距离杆塔等目标较远，吊舱拍摄的视频目标空间分辨率低，因此在本发明中优先采用4K机芯，以提供获取更高分辨率的画面。

进一步的，在图像采集模块中还设有用于对采集的视频原图解码的视频解码器，以及与所述视频解码器输出端连接的视频格式转换模块。通过视频格式转换模块将视频原图的YUV图像转为RGB图像。

进一步的，所述图像采集模块的输入端与机载边缘设备的图像采集接口连接，目标检测模块和特征图处理模块分别设于云端服务器中，精细化特征识别模块和合并模块均设于地面控制端。

本发明的有益效果包括：

1、采用两阶段端到端深度学习模块分别在低分辨率图像中完成目标区域检测，在高分辨率图像中完成目标细节识别，级联高级语义信息提取目标区域、低层细节信息提取目标细节状态，实现了在高分辨图像中兼并高精度与高实时性的精细化区域巡检任务。

2、通过将视频原图切分为多张相互有重叠率的图像，即兼顾了检测速度的需要，也不会降低像素少的小目标的识别性。

3、级联了中层和深层两路特征图，以及具有局部细节信息的原图，因此保留了更多的细节信息。

4、在不同的步骤/模块中都采用N路分支并行处理切分的N张图像，并在各步骤/模块的模型分支中仅保留适合当前尺度下目标大小的检测分支，联合多种策略在不损失精度的同时减少参数量以保持了实时性。

附图说明

图1为本发明基于深度学习的高清图像内小目标的检测方法的流程图。

图2为基于深度学习的高清图像内小目标的检测装置的框图。

实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本专利受成都人工智能应用发展产业技术基础公共服务平台建设项目支持，项目编号 2021-0166-1-2。

实施例1

如图1所示，本发明基于深度学习的高清图像内小目标的检测方法，包括步骤：

A. 对采集到的视频原图进行包括降采样在内的预处理；本实施例中是对采集到的4K超高清图像或视频数据进行预处理，由于4K高分辨率图像直接进行传输和检测识别对显存等硬件要求较高，即使显存条件满足，但在相同的硬件条件下图像分辨率越高，图像的帧率则越低，即数据处理的实时性较差，因此需要在能满足帧率要求的情况下选择合适的降采样尺寸，本实施例中是将视频原图降采样为1080p大小，选择1080p的原因是基于对一般服务器性能和任务实时性要求的考虑，也可以根据实际需求选择其他大小；

B. 以预设的重叠比例将预处理后的视频原图切分为N张等尺寸的图像，所述N为大于1的自然数；本实施例中N=4；

C. 将所述4张图像分别传入目标检测模块中，通过4路改进后的yolov7-tiny-SiLU模型分别对应对4张输入的图像进行目标检测定位，分别检测出具有目标的大致区域，每路改进后的yolov7-tiny-SiLU模型的输出为中层和深层两路特征图；

以对杆塔上的小目标进行检测为例，本步骤主要是对杆塔进行检测，由于通过切分后的图像中杆塔目标尺寸与图像的相对比例较大，因此在满足精度的前提下基于速度提升的考虑，裁剪掉原始yolov7-tiny-SiLU模型的小目标检测分支；

所述yolov7-tiny-SiLU模型的小目标检测分支，是yolov7-tiny-SiLU模型的一部分，yolov7-tiny-SiLU模型的主干网中的特征图金字塔P3、P4、P5，分辨率分别为输入图像的1/8、1/16、1/32，分别用于检测小、中、大三种面积的目标。这里所述的小目标分支就是指从yolov7-tiny-SiLU模型的主干网的P3特征图金字塔引出的网络分支。所述小目标的定义是根据相对尺寸定义的，即在整幅图像中目标相对面积小于0.12%左右的目标；

改进后的yolov7-tiny-SiLU模型，不对原始输出为高维特征数据的中目标分支和大目标分支的中层特征和深层特征进行信息直接输出，而是将中层特征和深层特征分别经过一个1*1卷积进行通道融合，将中层特征和深层特征分别降维至一维。

yolov7-tiny-SiLU模型的主干网中的特征图金字塔P3、P4、P5，分辨率分别为输入图像的1/8、1/16、1/32，在经过三个不同尺度的降采样后的特征图中，还能被感知到的目标分别对应为小、中、大目标，分别采用三个尺度的特征图对其进行识别检测；

D. 将每路改进后的yolov7-tiny-SiLU模型输出的中层和深层两路特征图作为一个特征图整体，将该特征图整体上采样为与4张图像中所对应图像相同的尺寸，然后通过在4个上采样后的特征图整体与所述切分后的视频原图之间引入残差连接，用以级联具有目标语义信息的深度特征和具有局部细节信息的对应的视频原图切分出的对应图像，将4路级联后的特征图整体输出到下一阶段；

E. 提取4路输入中的所述目标语义信息包含的小目标的状态特征，结合4路输入中的中层和深层两路特征图，分别识别出4张图像中各小目标的状态信息；

F. 对4张图像的检测识别结果进行合并，计算出4路检测识别结果合并后各小目标在视频原图上的目标框像素位置，最后可视化输出最终检测结果。

本发明通过多个模型分别检测目标的大致区域和目标的细节状态，实现了在高分辨图像中兼并高精度与高实时性的精细化区域巡检任务，并且在确定目标大致区域时，将yolov7-tiny-SiLU模型作为主干网络，其速度能够满足实时性要求。如果直接对视频原图的数据进行检测，虽然准确率也较高，但是处理速度较低；如果直接对视频原图降采样后进行识别检测，小目标会被降采样为更少的像素或几乎消失，这样很难区分小目标与背景的差异以至于难以准确识别出目标类别。因此本发明通过降采样、上采样和级联切分后的视频原图等多种方式相结合，同时实现了有效提高对小目标识别的精度和处理速度。

实施例2

在实施例1的基础上，步骤A所述预处理包括：

A1. 通过视频解码器对视频原图中单帧码流进行解码，并将视频原图的YUV图像转为RGB图像；

A2. 将转为RGB图像的视频原图降采样为1080p的尺寸，降采样时图像保持与视频原图相同的长宽比，然后可以将降采样后的矩形图像填充为正方形图像，填充为正方形的目的是为了符合后续模型的输入尺寸，也可以将矩阵图像填充为其他符合要求的形状。再将降采样后的视频原图的像素值由[0, 255]调整到[0, 1]，并按RGB通道分别对像素采用均值和方差归一化以消除光照影响。

其中，所述方差归一化的公式为：，其中 I _i,j表示RGB各通道中单个像素值，表示RGB各通道中所有像素的平均值，表示RGB各通道中所有像素的方差。

实施例3

在实施例1的基础上，步骤B中将预处理后的视频原图按预设的重叠比例切分，每张图像预设的重叠比例为15%，其设定原则为：根据对应的应用场景中待检测目标的尺寸范围进行确定，通过视频原图切分后的相邻图像之间的重叠比例，在切分后的图像中仍包含完整的待检测目标，而不会将本身尺寸小的待检测目标切分到不同的图像中。因为服务器中通常配置有多个GPU（图形处理器），多个GPU可并行处理图像，因此将视频原图切分的目的是为了能充分调用多GPU并行处理输入数据的能力，图像的具体切分张数根据硬件条件在兼并显存处理能力与帧率的同时尽可能选取较小的切分张数，因为过多的切分张数有增加剪裁边缘目标检测不准确的风险。

因此，重叠率的选择是根据具体的应用场景中目标的尺寸范围确定，该重叠率是否能在剪裁后仍包含完整的目标，而不会将本身尺寸就较小的目标裁剪为两半导致漏检率较高。15%的重叠率选择就是为了避免一个像素本身就少的目标如果刚好处于窗口边缘被切分成了2块，而目标所占像素又较少，被截断后会更加难以检测到。

实施例4

在上述实施例的基础上，步骤E是通过4路改进的yolov7-X模型作为主干网络并行对应执行本步骤的4路输入。对yolov7-X模型的改进包括：将yolov7-X模型的输入维度设定为五个通道，其中三个通道为yolov7-X模型的原始通道，另两个通道分别对应同一路输入中的中层和深层两路特征图；以及去掉了yolov7-X模型中的大目标检测分支。

所述大目标分支指的是yolov7-X模型的一部分，大目标的含义在上述实施例中已说明，是一个相对定义，即在视频原图经过1/32的降采样后的特征图中，还能被感知到的目标。在精细化特征识别的过程中选取yolov7-X模型作为主干网络，其精确率更高。在本发明中去掉了yolov7-X模型中的大目标检测分支，且所述4路输入还级联了从目标检测模块获得的4路输入中的中层和深层两路特征图，以及具有局部细节信息的切分后的视频原图，因此保留了更多的细节信息。

步骤E主要是针对杆塔目标的销钉等细节信息进行精细化特征提取，而深层特征的大物体预测分支对于该目的贡献较小，且会增加较大量的模型参数，因此裁剪掉大目标检测分支有利于提升模型整体速度，而不影响精度。该步骤的是基于前一阶段目标检测模块的语义信息进一步提取目标的状态特征，因此本步骤的输出是目标区域（杆塔）的坐标位置、置信度、目标类别以及目标状态（杆塔中销钉是正常或损坏状态）。

实施例5

在上述实施例的基础上，步骤F所述对4张图像的检测识别结果进行合并和计算各小目标在视频原图上的目标框像素位置，是将4张图像的检测识别结果中所有的检测框依据切分方式，反算出每张图像的检测识别结果中的检测框在切分前的完整视频原图中的相对坐标。具体的计算方式为：如以图像左上角为坐标原点，则4张图像的检测结果像素修正大致如下：如果是左上图，其像素坐标可直接使用；如果是左下图，其x坐标可直接使用，需修正相对y坐标为：y=0.425×h + y，h为该图像的高度；如果是右上图则需修正x坐标为：

x=0.425×w + x，w为该图像的宽度；如果是右下图则需修正x、y坐标分别为y=0.425×h + y、x=0.425×w + x。在检测框坐标修正后，再通过非极大抑制算法（NMS算法）剔除重叠的检测框。

实施例6

如图2所示，本发明用于上述检测方法实施例的基于深度学习的高清图像内小目标的检测装置，包括与图像采集模块连接的目标检测模块，图像采集模块对采集到的视频原图进行包括降采样在内的预处理和以预设的重叠比例进行切分，图像采集模块将切分后的图像分别传入目标检测模块，目标检测模块对每张所述图像进行目标检测定位，分别检测出每张图像中具有目标的大致区域，每张图像输出一个中层特征图和深层特征图到特征图处理模块进行上采样，以及级联具有目标语义信息的深度特征和具有局部细节信息的对应的切分后的视频原图，输入到精细化特征识别模块提取目标的状态特征，最后输入到合并模块对每张图的目标状态特征进行合并，可视化输出最终检测结果。

本实施例能够应用于无人机智能勘测、区域巡检等领域，实现电力巡检、油气巡检时对杆塔细节的巡检，例如检测杆塔的螺钉状态等。图像采集模块输出的数据为无人机执行任务时的实时监控视频，但由于无人机飞行过程中距离杆塔等目标较远，吊舱拍摄的视频目标空间分辨率低，因此在本发明中优先采用4K机芯，以提供获取更高分辨率的画面。

本实施例在目标检测模块和精细化特征识别模块采用两阶段端到端的深度学习模块，分别在低分辨率图像中完成目标区域检测，在高分辨率图像中完成目标细节识别，级联高级语义信息提取目标区域、低层细节信息提取目标细节状态能兼并速度与准确率。并且在不同的模块中都采用了4路分支并行处理切分的4张图像，并在各模块的yolo模型分支中仅保留适合当前尺度下目标大小的检测分支，联合多种策略在不损失精度的同时减少参数量以保持了实时性。

实施例7

在实施例6的基础上，在图像采集模块中还设有用于对采集的视频原图解码的视频解码器，以及与所述视频解码器输出端连接的视频格式转换模块。通过视频格式转换模块将视频原图的YUV图像转为RGB图像。

所述图像采集模块的输入端与机载边缘设备的图像采集接口连接，目标检测模块和特征图处理模块可以分别设于云端服务器中，也可以分别设于地面控制端、或相应的控制平台中，精细化特征识别模块和合并模块可以均设于地面控制端也可以都设于云端服务器、或相应的控制平台中。在云端服务器和地面控制端、控制平台便于根据实际需要搭建具有强大的数据处理能力的服务器和模块。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做相关的变形和改进，这些都属于本申请的保护范围。

Claims

1.基于深度学习的高清图像内小目标的检测方法，其特征为，包括步骤：

A. 对采集到的视频原图进行包括降采样在内的预处理；

2.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法，其特征为：步骤A所述预处理包括：

3.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法，其特征为：步骤B所述重叠比例的预设方式为：根据对应的应用场景中待检测目标的尺寸范围进行确定，通过视频原图切分后的相邻图像之间的重叠比例，在切分后的图像中仍包含完整的待检测目标，而不会将本身尺寸小的待检测目标切分到不同的图像中。

4.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法，其特征为：步骤C中所述改进后的yolov7-tiny-SiLU模型，不直接输出高维特征数据的中目标分支和大目标分支的中层特征和深层特征，而是将中层特征和深层特征分别经过一个1*1卷积进行通道融合，将中层特征和深层特征分别降维至一维。

5.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法，其特征为：步骤D中所述级联具有目标语义信息的深度特征和具有局部细节信息的视频原图切分出的图像，是在N个上采样后的特征图整体与所述视频原图切分后的图像之间引入残差连接。

6.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法，其特征为：通过N路改进的yolov7-X模型作为主干网络分别对应执行步骤E的N路输入，对yolov7-X模型的改进包括：将yolov7-X模型的输入维度设定为五个通道，其中三个通道为yolov7-X模型的原始通道，另两个通道分别对应同一路输入中的中层和深层两路特征图；以及去掉了yolov7-X模型中的大目标检测分支。

7.如权利要求1所述的基于深度学习的高清图像内小目标的检测方法，其特征为：步骤F所述对N张图像的检测识别结果进行合并和计算各小目标在视频原图上的目标框像素位置，是将N张图像的检测识别结果中所有的检测框依据切分方式，反算出每张图像的检测识别结果中的检测框在切分前的完整视频原图中的相对坐标，再通过非极大抑制算法剔除重叠的检测框。

8.用于权利要求1至7之一所述检测方法的基于深度学习的高清图像内小目标的检测装置，其特征为：包括与图像采集模块连接的目标检测模块，图像采集模块对采集到的视频原图进行包括降采样在内的预处理和以预设的重叠比例进行切分，图像采集模块将切分后的图像分别传入目标检测模块，目标检测模块对每张所述图像进行目标检测定位，分别检测出每张图像中具有目标的区域，每张图像输出一个中层特征图和深层特征图到特征图处理模块进行上采样，以及级联具有目标语义信息的深度特征和具有局部细节信息的视频原图切分后的对应图像，输入到精细化特征识别模块提取目标的状态特征，最后输入到合并模块对每张图的目标状态特征进行合并，可视化输出最终检测结果。

9.如权利要求8所述的基于深度学习的高清图像内小目标的检测装置，其特征为：在图像采集模块中还设有用于对采集的视频原图解码的视频解码器，以及与所述视频解码器输出端连接的视频格式转换模块。

10.如权利要求8或9所述的基于深度学习的高清图像内小目标的检测装置，其特征为：所述图像采集模块的输入端与机载边缘设备的图像采集接口连接，目标检测模块和特征图处理模块分别设于云端服务器中，精细化特征识别模块和合并模块均设于地面控制端。