CN113139419B

CN113139419B - 一种无人机检测方法及装置

Info

Publication number: CN113139419B
Application number: CN202011576858.4A
Authority: CN
Inventors: 李雪; 董强; 刘博�; 孙芯彤; 邢刚
Original assignee: Xi'an Tianhe Defense Technology Co ltd
Current assignee: Xi'an Tianhe Defense Technology Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-05-31
Anticipated expiration: 2040-12-28
Also published as: CN113139419A

Abstract

本申请提供一种无人机检测方法及装置，涉及图像处理技术领域，能够有效提高对无人机的检测准确率。该方法包括：确定第一视频帧；确定所述第一视频帧对应的多个参考预测结果；所述多个参考预测结果包括以下至少两个：通过关于无人机识别的YOLO网络预测模型，得到的所述第一视频帧的第一参考预测结果，根据无人机特征点识别模型以及两个无人机特征样本点之间的预设距离范围，得到的所述第一视频帧的第二参考预测结果，以及，通过将所述第一视频帧与所述第一视频帧所属的无人机场景对应的目标图像进行匹配得到的第三参考预测结果；根据所述多个参考预测结果对所述第一视频帧进行无人机的检测。

Description

一种无人机检测方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种无人机检测方法及装置。

背景技术

YOLO(you only look once，你只看一眼)算法作为一种新的目标检测方法，可以将目标检测问题作为目标区域预测和类别预测的回归问题。YOLO算法在一定程度上提高了检测速度，但是，YOLO算法的准确度与训练集的数量有关联，若训练集的数量较少，则存在通过YOLO算法导致检测准确率较低的问题。

发明内容

本申请实施例提供了一种无人机检测方法及装置，能够在一定程度上提高无人机的检测准确率。

有鉴于此，第一方面，本申请提供一种无人机检测方法，包括：确定第一视频帧；确定所述第一视频帧对应的多个参考预测结果；所述多个参考预测结果包括以下至少两个：通过关于无人机识别的YOLO网络预测模型，得到的所述第一视频帧的第一参考预测结果，根据无人机特征点识别模型以及两个无人机特征样本点之间的预设距离范围，得到的所述第一视频帧的第二参考预测结果，以及，通过将所述第一视频帧与所述第一视频帧所属的无人机场景对应的目标图像进行匹配得到的第三参考预测结果；根据所述多个参考预测结果对所述第一视频帧进行无人机的检测。

可选地，所述根据所述多个参考预测结果对所述第一视频帧进行无人机的检测，包括：在所述多个参考预测结果满足预设条件的情况下，检测到所述第一视频帧中的无人机；

其中，所述预设条件包括：所述多个参考预测结果均为所述第一视频帧中存在所述无人机；或者，在所述多个参考预测结果的数量为三个的情况下，所述多个参考预测结果中任一个或者任两个参考预测结果为所述第一视频帧中存在所述无人机；或者，在所述多个参考预测结果的数量为两个的情况下，所述多个参考预测结果中任一个参考预测结果为所述第一视频帧中存在所述无人机。

可选地，所述YOLO网络预测模型包括特征提取层、特征融合层以及预测层；所述第一参考预测结果为将多个第二特征图像输入至所述预测层得到的，所述多个第二特征图像为通过所述特征融合层对多个第一特征图像进行特征融合得到的；所述多个第一特征图像为将第二视频帧输入至所述特征提取层进行特征提取得到的；其中，所述第二视频帧为所述第一视频帧，或者，为将所述第一视频帧进行尺寸归一化处理得到的视频帧。

可选地，所述第二参考预测结果为将所述第一视频帧中每两个无人机特征点之间的距离与所述每两个无人机特征点对应的预设距离范围进行比对得到的，所述每两个无人机特征点为通过所述无人机特征点识别模型对所述第一视频帧进行特征识别得到的；其中，所述两个无人机特征样本点包括所述每两个无人机特征点。

可选地，所述第三参考预测结果为将第三特征图像与第四特征图像进行特征匹配得到的，所述第三特征图像为对所述第一视频帧中对象进行特征提取到的图像，所述第四特征图像为对所述目标图像中对象进行特征提取到的图像；所述第一视频帧所属的无人机场景为根据所述第一视频帧中背景确定的场景。

可选地，所述确定第一视频帧，包括：确定当前视频帧与上一视频帧；计算所述当前视频帧与所述上一视频帧之间不同像素点的数量；在所述数量大于预设数量的情况下，确定所述当前视频帧为所述第一视频帧。

可选地，所述方法还包括：获取第一无人机图像样本以及所述第一无人机图像样本的标签信息；对所述第一无人机图像样本进行数据增强得到第二无人机图像样本；对所述第二无人机图像样本进行预处理得到第三无人机图像样本；对所述第三无人机图像样本进行特征提取，得到多个第一特征图像样本；对所述多个第一特征图像样本进行特征融合得到多个第二特征图像样本；根据所述多个第二特征图像样本，进行所述YOLO网络预测模型的模型训练。

采用上述所述的无人机检测方法，可以针对第一视频帧获取多个参考预测结果，并根据多个参考预测结果进一步对第一视频帧进行无人机的检测。由此可见，本申请将多种算法的预测结果进行融合，在一定程度上提高了无人机的检测准确率，避免现有技术中采用YOLO算法导致的检测准确率较低的问题。

第二方面，本申请提供一种无人机检测装置，包括：确定模块，用于确定第一视频帧；以及，确定所述第一视频帧对应的多个参考预测结果；所述多个参考预测结果包括以下至少两个：通过关于无人机识别的YOLO网络预测模型，得到的所述第一视频帧的第一参考预测结果，根据无人机特征点识别模型以及两个无人机特征样本点之间的预设距离范围，得到的所述第一视频帧的第二参考预测结果，以及，通过将所述第一视频帧与所述第一视频帧所属的无人机场景对应的目标图像进行匹配得到的第三参考预测结果；检测模块，用于根据所述多个参考预测结果对所述第一视频帧进行无人机的检测。

第三方面，本申请提供一种无人机检测设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任意可选方式所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任意可选方式所述的方法。

第五方面，本申请提供一种计算机程序产品，当计算机程序产品在无人机检测设备上运行时，使得无人机检测设备执行上述第一方面或第一方面的任意可选方式所述方法的步骤。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种无人机检测方法的流程示意图；

图2是本申请实施例提供的一种标记有无人机特征点之间距离的第一视频帧的示意图；

图3为本申请实施例提供的另一种标记有无人机特征点之间距离的第一视频帧的示意图；

图4是本申请实施例提供的另一种无人机检测方法的流程示意图；

图5是本申请实施例提供的一种第一视频帧的处理过程示意图；

图6是本申请实施例提供的一种第四无人机图像样本的示意图；

图7是本申请实施例提供的另一种第四无人机图像样本的示意图；

图8是本申请实施例提供的一种无人机检测装置的结构示意图；

图9是本申请实施例提供的一种无人机检测设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

还应当理解，在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

无人航空载具(unmanned aerial vehicle，UAV)目前广泛应用于航拍，使得可以从空中的视觉记录信息。但是，目前存在非法人员通过无人航空载具进行信息窃取。基于该场景，本申请可以在监控区域(例如军事区域或者需要安防的民用区域等等)中进行无人机检测，以避免信息泄露。需要说明的是，为了便于理解，本申请将无人航空载具简称为无人机。

下面通过具体实施例，对本申请提供的无人机检测方法进行示例性的说明。

请参见图1，图1是本申请提供的一种无人机检测方法的流程示意图。本实施例中无人机检测方法的执行主体可以为无人机检测设备。示例性的，无人机检测设备可以为智能手机(android手机、iOS手机等)、平板电脑、掌上电脑、可穿戴设备(如智能手表等)以及移动互联网设备(mobile internet devices，MID)等电子设备，或者可以为具备数据处理能力的摄像机，等等。

可以理解的是，若无人机检测设备为电子设备，则该电子设备可以与监控区域内的摄像头进行无线或者有线连接以进行通信，该摄像头用于采集与监控区域相关的图像，示例性的，该电子设备与摄像头可以处于同一局域网；若无人机检测设备为摄像机，则该摄像机安装于监控区域的至少一个位置处，以使得可以针对监控区域进行全方位的监控，并且摄像机同时具备采集图像的功能以及目标识别功能。下面实施例中以无人机检测设备为摄像机为例进行说明，本申请对此不作限定。

如图1所示，该无人机检测方法可以包括：

S101，确定第一视频帧。

其中，摄像机可以周期性地采集视频帧。示例性的，摄像机每秒采集25张视频帧。

在本申请的一些实施例中，第一视频帧为摄像机周期性采集到的视频帧，这样，摄像机可以对采集到的每张视频帧进行无人机的检测。

在本申请的另一些实施例中，考虑到摄像机在采集视频帧的过程中，存在相邻若干张视频帧几乎未发生变化的情况，此时若针对该相邻若干张视频帧均进行无人机检测，则使得摄像机存在冗余识别，并且导致摄像机的运算量较大。

基于该问题，摄像机可以确定当前视频帧与上一视频帧，以及计算当前视频帧与上一视频帧之间不同像素点的数量。这样，在该数量大于预设数量的情况下，确定当前视频帧为第一视频帧；在数量小于等于预设数量的情况下，确定当前视频帧不为第一视频帧，且继续获取下一视频帧，以及确定下一视频帧是否为第一视频帧，依次类推。

由此可见，本申请通过对相邻视频帧之间像素点的比对，使得无需针对相似的视频帧重复进行无人机的识别，这样大大降低了运算量，减少了摄像机的资源占用。

S102，确定第一视频帧对应的多个参考预测结果；多个参考预测结果包括以下至少两个：通过关于无人机识别的YOLO网络预测模型，得到的第一视频帧的第一参考预测结果，根据无人机特征点识别模型以及两个无人机特征样本点之间的预设距离范围，得到的第一视频帧的第二参考预测结果，以及，通过将第一视频帧与第一视频帧所属的无人机场景对应的目标图像进行匹配得到的第三参考预测结果。

在现有技术中，YOLO算法需要将图像划分为多个网格区域，并针对每个网格区域仅能获取两个预测锚框以及一个预测结果，这样无法将网格区域中成群目标全部识别，导致检测准确率较低的问题。在本申请实施例中，通过确定第一视频帧的多个参考预测结果，避免通过单个参考预测结果导致的无人机检测准确率较低。

可以理解的是，YOLO网络预测模型属于一阶段的目标检测算法，故可以避免采用二阶段的目标检测算法导致的运算速度较慢的问题。其中，一阶段的目标检测算法即为可以直接通过网络模型得到对象分类结果；而二阶段的目标检测算法需要首先通过一个网络模型生成对象的候选框，然后通过另一个网络模型进行对象分类。

还应理解，本申请中对确定各个参考预测结果的时序不作限定。

在多个参考预测结果的数量为两个的情况下，一种实施例中，可以同时获取两个参考预测结果。另一种实施例中，可以首先获取两个参考预测结果中的一个参考预测结果，接着获取两个参考预测结果中的另一个参考预测结果。

可以理解的是，该两个参考预测结果可以包括：第一参考预测结果和第二参考预测结果；或者，第一参考预测结果和第三参考预测结果；或者，第二参考预测结果和第三参考预测结果。

在多个参考预测结果的数量为三个的情况下，一种实施例中，可以同时获取第一参考预测结果、第二参考预测结果以及第三参考预测结果，以提高预测速度。另一种实施例中，可以首先获取三个参考预测结果中的一个参考预测结果，接着获取三个参考预测结果中的另一个参考预测结果，最后获取三个参考预测结果中的又一个参考预测结果，避免摄像机在同一时间段内获取多个参考预测结果导致的宕机或者卡顿等问题。

可选地，本申请可以针对各个参考预测结果设置优先级。示例性的，在多个参考预测结果的数量为三个的情况下，确定第一视频帧对应的多个参考预测结果可以包括：确定优先级最高的参考预测结果，接着确定优先级次高的参考预测结果，最后确定优先级最低的参考预测结果。

例如，各个参考预测结果的优先级从高到低依次为：第一参考预测结果、第二参考预测结果以及第三参考预测结果。这样，可以首先确定第一参考预测结果；接着确定第二参考预测结果；最后确定第三参考预测结果。下面分别对各个参考预测结果的获取过程进一步说明：

(1)第一参考预测结果

在本申请实施例中，YOLO网络预测模型包括特征提取层(即通常所说的backbone层)、特征融合层(即通常所说的neck层)以及预测层(即通常所说的head层或者prediction层)。

这样，第一参考预测结果为将多个第二特征图像输入至预测层得到的，多个第二特征图像为通过特征融合层对多个第一特征图像进行特征融合得到的；多个第一特征图像为将第二视频帧输入至特征提取层进行特征提取得到的。

其中，第二视频帧可以为第一视频帧，或者，可以为将第一视频帧进行尺寸归一化处理得到的视频帧。

可以理解的是，若第二视频帧为将第一视频帧进行尺寸归一化处理得到的视频帧，则YOLO网络预测模型还可以包括输入层，并且可以通过该输入层对第一视频帧进行尺寸归一化处理。

应理解，由于YOLO网络预测模型在模型训练的过程中，为了提高目标的检测准确率，将采集的无人机图像样本进行尺寸归一化。故在本步骤中，在获取第一参考预测结果时，同样可以针对第一视频帧进行尺寸归一化处理。下面针对尺寸归一化处理过程进行说明：

a)确定目标缩放系数。

其中，可以获取第一视频帧的当前尺寸(即当前长度X和当前宽度Y)以及预设尺寸(即预设长度Z和预设宽度Z)，并根据当前尺寸和预设尺寸确定关于长度方向的第一缩放系数以及关于宽度方向的第二缩放系数，即计算预设长度Z与当前长度X之间的比值得到第一缩放系数，计算预设宽度Z与当前宽度Y之间的比值得到第二缩放系数。接着可以从第一缩放系数和第二缩放系数中，获取较小的缩放系数作为目标缩放系数。

b)确定第一视频帧的目标尺寸。

其中，可以根据目标缩放系数和当前尺寸确定目标尺寸(即目标长度X′和目标宽度Y′)，即计算当前长度X与目标缩放系数之间的乘积得到目标长度X′，计算当前宽度Y与目标缩放系数之间的乘积得到目标宽度Y′。

示例性的，若目标缩放系数包括第一缩放系数，则目标长度X′可以表示为Z，目标宽度Y′可以表示为Y*Z/X。

c)确定目标填充尺寸。

在本申请实施例中，目标填充尺寸可以为总填充尺寸(即长度总填充尺寸和宽度总填充尺寸)，或者，可以为单边填充尺寸(即长度单边填充尺寸和宽度单边填充尺寸)，等等。

其中，可以根据目标尺寸和预设尺寸确定总填充尺寸，即可以计算预设长度Z与目标长度X′之间的差值得到长度总填充尺寸，计算预设宽度Z与目标宽度Y′之间的差值得到宽度总填充尺寸。

在目标填充尺寸包括单边填充尺寸的情况下，在获取到总填充尺寸之后，根据总填充尺寸进一步确定单边填充尺寸。

可选地，若两侧的长度单边填充尺寸相同，则可以计算长度总填充尺寸与2的比值得到长度单边填充尺寸；若两侧的宽度单边填充尺寸相同，则可以计算宽度总填充尺寸与2的比值得到宽度单边填充尺寸。

示例性的，若目标长度X′为Z，目标宽度Y′为Y*Z/X，则长度总填充尺寸为0，宽度总填充尺寸为Z-Y*Z/X，进一步地可以得到：长度单边填充尺寸为0，宽度单边填充尺寸为(Z-Y*Z/X)/2。

可选地，若两侧的长度单边填充尺寸不相同，则计算长度总填充尺寸与t的比值得到单份长度填充尺寸，且计算单份长度填充尺寸与第一数量之间的乘积得到一个长度单边填充尺寸，计算单份长度填充尺寸与第二数量之间的乘积得到另一个长度单边填充尺寸。其中，t为正整数，且第一数量与第二数量的和值为t。宽度单边填充尺寸与长度单边填充尺寸的获取过程类似，不再赘述。

d)将第一视频帧缩放至目标尺寸得到待处理视频帧，并按照目标填充尺寸将待处理视频帧沿着边缘的位置朝外扩充指定像素点，得到第二视频帧。

其中，指定像素点可以为黑色像素点或者白色像素点等等，本申请对此不作特殊限制。

可以理解的是，若目标填充尺寸为总填充尺寸，则可以按照长度总填充尺寸将待处理视频帧在长度方向上沿着一侧边缘的位置朝外扩充指定像素点，以及按照宽度总填充尺寸在宽度方向上沿着一侧边缘的位置朝外扩充指定像素点。

若目标填充尺寸为单边填充尺寸，则可以按照长度单边填充尺寸将待处理视频帧在长度方向上沿着两侧边缘的位置对应朝外扩充指定像素点，以及按照宽度单边填充尺寸在宽度方向上沿着两侧边缘的位置对应朝外扩充指定像素点。

还应理解，若长度总填充尺寸为0，则可以无需针对待处理视频帧进行长度扩充；若宽度总填充尺寸为0，则可以无需针对待处理视频帧进行宽度扩充；若长度总填充尺寸和宽度总填充尺寸均为0，则可以无需针对待处理视频帧进行尺寸扩充。

在本申请的可选实施例中，考虑到针对第一视频帧中的一个对象可能获取到多个预测锚框，为了避免该问题，本申请可以采用非极大值抑制(non-maximum suppression，nms)方法进行预测锚框的筛选，以使得每个对象可以存在一个预测锚框。

在本申请的可选实施例中，考虑到存在对象遮挡和/或对象重叠导致无法准确地识别到对象的问题。基于该问题，本申请可以采用DIOU_nms方法获取到遮挡的对象和/或重叠的对象，本申请对此不作特殊限制。

(2)第二参考预测结果

在本申请实施例中，第二参考预测结果为将第一视频帧中每两个无人机特征点之间的距离与每两个无人机特征点对应的预设距离范围进行比对得到的，每两个无人机特征点为通过无人机特征点识别模型对第一视频帧进行特征识别得到的；其中，两个无人机特征样本点包括每两个无人机特征点。

可以理解的是，若将两个无人机特征点作为一对特征点，且第一视频帧中包括n对特征点，则在m对特征点之间的距离在对应的预设距离范围内时，可以确定第二参考预测结果为第一视频帧中存在无人机。其中，m、n为正整数，且n与m的差值小于第三数量，或者，m与n的比值大于预设比值，等等。

示例性的，图2示出了一种标记有无人机特征点之间距离的第一视频帧。如图2所示，无人机特征点包括：D1、D2、D3、D4、D5、D6、D7、D8、D9以及D10。图2中是以D1为例，示出了D1与其他无人机特征点之间的距离，该距离用虚线段表示。

在本申请的可选实施例中，上述所述的第一视频帧中每两个无人机特征点可以包括：第一视频帧中两个相邻无人机特征点。

示例性的，图3示出了一种标记有无人机特征点之间距离的第一视频帧。如图3所示，无人机特征点同样包括：D1、D2、D3、D4、D5、D6、D7、D8、D9以及D10，图3中标记有两个相邻无人机特征点之间的距离，该距离用虚线段表示。

(3)第三参考预测结果

在本申请实施例中，第三参考预测结果为将第三特征图像与第四特征图像进行特征匹配得到的，第三特征图像为对第一视频帧中对象进行特征提取到的图像，第四特征图像为对目标图像中对象进行特征提取到的图像；第一视频帧所属的无人机场景为根据第一视频帧中背景确定的场景。

可以理解的是，在第三特征图像与第四特征图像之间的匹配度大于等于预设匹配度的情况下，可以确定第三参考预测结果包括第一视频帧中存在无人机。

在第三特征图像与第四特征图像之间的匹配度小于预设匹配度情况下，可以确定第三参考预测结果包括第一视频帧中不存在无人机。上述示例只是举例说明，本申请对此不作限制。

在本申请实施例中，可以预先采集无人机图像样本，无人机图像样本中包括无人机；并且将无人机图像样本按照不同无人机场景进行分类。这样，可以得到针对不同无人机场景的无人机图像样本。

可以理解的是，本申请可以采用Senet(squeeze-and-excitation networks，压缩激励网络)算法对无人机图像样本按照不同无人机场景进行分类。

可选地，本申请中的目标图像可以为第一视频帧所属的无人机场景对应的任一无人机图像样本。

可选地，考虑到同一无人机场景中存在不同无人机视角的无人机图像样本，例如无人机正视图、无人机侧视图等等。故本申请实施例中可以从第一视频帧所属的无人机场景对应的无人机图像样本中，获取关于不同无人机视角的无人机图像样本作为目标图像。此时，第四特征图像的数量为多个，这样，在任一第四特征图像与第三特征图像之间的匹配度大于等于预设匹配度的情况下，可以确定第三参考预测结果包括第一视频帧中存在无人机；在每个第四特征图像与第三特征图像之间的匹配度小于预设匹配度的情况下，可以确定第三参考预测结果包括第一视频帧中不存在无人机。

在本申请的另一些实施例中，某一监控区域的上空经常出现无人机，这样本申请可以将该监控区域的上空作为无人机场景，并采集该监控区域的上空不同时间的图像样本，该不同时间的图像样本中可以存在无人机，也可以不存在无人机，故可以针对图像样本标记有对象标识。这样，本申请可以将第一视频帧所属的无人机场景的图像样本作为目标图像，此时，第四特征图像的数量为多个，在任一第四特征图像与第三特征图像之间的匹配度大于等于预设匹配度，且该任一第四特征图像的对象标识为无人机标识的情况下，可以确定第三参考预测结果包括第一视频帧中存在无人机。

需要说明的是，本申请中的无人机场景可以根据不同监控区域进行划分得到，本申请对此不作特殊限制。

S103，根据多个参考预测结果对第一视频帧进行无人机的检测。

在本申请实施例中，在多个参考预测结果满足预设条件的情况下，检测到第一视频帧中的无人机。

其中，预设条件可以包括：多个参考预测结果均为第一视频帧中存在无人机；或者，在多个参考预测结果的数量为三个的情况下，多个参考预测结果中任一个或者任两个参考预测结果为第一视频帧中存在无人机；或者，在多个参考预测结果的数量为两个的情况下，多个参考预测结果中任一个参考预测结果为第一视频帧中存在无人机。

可选地，若该预设条件包括：在多个参考预测结果的数量为两个的情况下，多个参考预测结果中任一个参考预测结果为第一视频帧中存在无人机。则S102还可以为：确定两个参考预测结果中的一个参考预测结果，并在该一个参考预测结果为第一视频帧中存在无人机时，无需获取两个参考预测结果中的另一个参考预测结果，从而减少摄像机的计算量；在该一个参考预测结果为第一视频帧中不存在无人机时，获取两个参考预测结果中的另一个参考预测结果。

可选地，若该预设条件包括：多个参考预测结果均为第一视频帧中存在无人机，则在多个参考预测结果的数量为两个的情况下，S102还可以为：首先获取两个参考预测结果中的一个参考预测结果，并在该一个参考预测结果为第一视频帧中存在无人机时，获取两个参考预测结果中的另一个参考预测结果；在该一个参考预测结果为第一视频帧中不存在无人机时，无需获取两个参考预测结果中的另一个参考预测结果。

可选地，若该预设条件包括：在多个参考预测结果的数量为三个的情况下，多个参考预测结果中任一个参考预测结果为第一视频帧中存在无人机。则S102还可以为：确定三个参考预测结果中的一个参考预测结果，并在该一个参考预测结果为第一视频帧中存在无人机时，无需获取三个参考预测结果中的另两个参考预测结果；在该一个参考预测结果为第一视频帧中不存在无人机时，获取三个参考预测结果中的另一个参考预测结果，并在该另一个参考预测结果为第一视频帧中存在无人机时，无需获取三个参考预测结果中的又一个参考预测结果；在该另一个参考预测结果为第一视频帧中不存在无人机时，获取三个参考预测结果中的又一个参考预测结果。

可选地，若该预设条件包括：在多个参考预测结果的数量为三个的情况下，多个参考预测结果中任两个参考预测结果为第一视频帧中存在无人机。则S102还可以为：确定三个参考预测结果中的两个参考预测结果，并在该三个参考预测结果中的两个参考预测结果均为第一视频帧中存在无人机时，无需获取三个参考预测结果中的另一个参考预测结果；在该三个参考预测结果中的两个参考预测结果均为第一视频帧中不存在无人机时，无需获取三个参考预测结果中的另一个参考预测结果；在该三个参考预测结果中的两个参考预测结果不同(即两个参考预测结果中的一个参考预测结果为第一视频帧中存在无人机，两个参考预测结果中的另一个参考预测结果为第一视频帧中不存在无人机)时，获取三个参考预测结果中的另一个参考预测结果。

可选地，若该预设条件包括：多个参考预测结果均为第一视频帧中存在无人机，则在多个参考预测结果的数量为三个的情况下，则S102还可以为：确定三个参考预测结果中的一个参考预测结果，在该一个参考预测结果为第一视频帧中不存在无人机时，无需获取三个参考预测结果中的另两个参考预测结果；在该一个参考预测结果为第一视频帧中存在无人机时，获取三个参考预测结果中的另一个参考预测结果，以及在该另一个参考预测结果为第一视频帧中不存在无人机时，无需获取三个参考预测结果中的又一个参考预测结果；在该另一个参考预测结果为第一视频帧中存在无人机时，获取三个参考预测结果中的又一个参考预测结果。

结合图1，如图3所示，在S101之前，还可以包括以下步骤构建YOLO网络预测模型：

S104，获取第一无人机图像样本以及第一无人机图像样本的标签信息。

在本申请的一些实施例中，可以从航拍平台获取第一无人机图像样本。

在本申请的另一些实施例中，可以从现有的coco(上下文中常见的对象，commonobjects in context)数据集中获取第一无人机图像样本。

S105，对第一无人机图像样本进行数据增强得到第二无人机图像样本。

在本申请实施例中，数据增强可以采用mosaic数据增强方法。

其中，mosaic数据增强方法可以为：针对第一无人机图像样本进行缩放处理和/或随机剪裁处理得到处理后的无人机图像样本；接着对处理后的无人机图像样本按照随机排布方式进行拼接得到第二无人机图像样本。

示例性的，若第一无人机图像样本的数量为r，且r为正整数，则处理后的无人机图像样本的数量仍为r。此时，假设本申请将8张处理后的无人机图像样本按照随机排布方式进行拼接，那么第二无人机图像样本的数量为假设本申请将4张处理后的无人机图像样本按照随机排布方式进行拼接，那么第二无人机图像样本的数量为/>

又示例性的，若本申请将8张处理后的无人机图像样本按照随机排布方式进行拼接，则上述所述的随机排布方式可以为：2行4列的排布方式，或者1行8列的排布方式，等等，本申请对此不作特殊限制。

在本申请可选实施例中，考虑到无人机通常尺寸较小，若无人机图像样本中的无人机尺寸大部分较大，则训练得到的YOLO网络预测模型会对小尺寸的无人机识别准确率较低。

基于该问题，本申请在对第一无人机图像样本进行缩放处理的过程中，可以首先获取第一无人机图像样本中无人机的尺寸占比，即可以计算无人机的像素点数与第一无人机图像样本的总像素点数之间的比值得到尺寸占比；接着在第一无人机图像样本对应的尺寸占比大于预设占比的情况下，将该第一无人机图像样本进行缩小处理，或者，在第一无人机图像样本对应的尺寸占比小于等于预设占比的情况下，无需对该第一无人机图像样本进行缩放处理。

S106，对第二无人机图像样本进行预处理得到第三无人机图像样本。

其中，预处理可以包括初始锚框的设置以及尺寸归一化处理。尺寸归一化处理过程可以参考S102，此处不再赘述。

对第二无人机图像样本进行初始锚框的设置可以理解为：针对第二无人机图像样本中不同对象的尺寸，设置对应的初始锚框。其中，对象的尺寸越大，初始锚框的尺寸越大；相反，对象的尺寸越小，初始锚框的尺寸越小。

需要说明的是，S104-S106中的内容都是在YOLO网络预测模型中的输入层进行的。

S107，对第三无人机图像样本进行特征提取，得到多个第一特征图像样本。

在本申请实施例中，S107是在YOLO网络预测模型包括的特征提取层中执行。其中，特征提取层可以包括focus结构和CSP(cross-stage partial connections，跨阶段部分连接)结构。

可以理解的是，focus结构可以对第三无人机图像样本进行切片处理得到初始特征图像样本，并且对初始特征图像样本进行至少一次卷积处理得到待处理特征图像样本。其中，卷积处理可以使用一个或者多个卷积核，本申请对此不作限定。

示例性的，至少一次卷积处理包括1次卷积处理。若第三无人机图像样本为H*H*3大小的图像，则通过切片处理可以得到H/2*H/2*12大小的初始特征图像样本，接着采用32个卷积核对初始特征图像样本进行卷积处理，得到H/2*H/2*32大小的特征图像样本。

可以理解的是，一个卷积核相当于一个特征提取器，多个卷积核相当于多个特征提取器。这样，通过多个卷积核进行卷积处理，可以提取到不同的特征。

在本申请实施例中，CSP结构存在多种类型(例如，可以包括CSP1_X类型和CSP2_X类型)，且CSP结构中包括残差组件。

可选地，CSP结构的数量可以为q个，q为正整数，q个CSP结构为串联关系。

在本申请实施例中，特征提取层可以采用CSP1_X类型。其中，若CSP结构中包括一个残差组件，则可以表示为CSP1_1。

这样，focus结构输出的待处理特征图像样本输入至第一个残差组件，并将通过第一个残差组件输出的特征图像样本继续输入至第二个残差组件，以此类推，直至从最后一个残差组件输出特征图像样本。

可以理解的是，本申请可以将指定的残差组件输出的特征图像样本作为多个第一特征图像样本。这样，保证YOLO网络预测模型具备更深的网络层次，以及可以进行多尺度检测，改善了小尺寸对象的检测效果。

需要说明的是，CSP结构中还包括卷积核，例如卷积核的大小为3*3，且步长为2，这样可以对待处理特征图像样本以及每个残差组件输出的特征图像样本起到下采样的作用。

示例性的，若CSP结构中包括7个残差组件，且指定的残差组件包括7个残差组件，那么在得到H/2*H/2*32大小的待处理特征图像样本之后，依次通过7个残差组件的过程中，对应的图像尺寸变化规律可以为：H/2→H/2²→H/2³→...→H/2⁸。由此可见，多个第一特征图像样本可以包括：(H/2)*(H/2)大小的特征图像样本、(H/2²)*(H/2²)大小的特征图像样本、(H/2³)*(H/2³)大小的特征图像样本、(H/2⁴)*(H/2⁴)大小的特征图像样本、(H/2⁵)*(H/2⁵)大小的特征图像样本、(H/2⁶)*(H/2⁶)大小的特征图像样本、(H/2⁷)*(H/2⁷)大小的特征图像样本、(H/2⁸)*(H/2⁸)大小的特征图像样本。

综上，通过特征提取层可以提取到第三无人机图像样本关于不同图像细粒度上的图像特征。

S108，对多个第一特征图像样本进行特征融合得到多个第二特征图像样本。

在本申请实施例中，S108是在YOLO网络预测模型包括的特征融合层中执行。其中，特征融合层可以包括FPN(feature pyramid network，特征金字塔网络)结构和PAN(pathaggregation network，路径聚合网络)结构。

可以理解的是，多个第一特征图像样本可以包括不同大小的特征图像样本，若第一特征图像样本的尺寸较小，则第一特征图像样本包括较低层的特征信息；若第一特征图像样本的尺寸较大，则第一特征图像样本包括较高层的特征信息。考虑到高层的特征信息包含的语义信息较多，但是存在分辨率较低导致包含的位置信息较少；而低层的特征信息包含的语义信息较少，但是存在分辨率较高导致包含的位置信息较多。

由此可见，在FPN结构中，可以按照第一特征图像样本的大小，对特征提取层中最后一个CSP结构输出的第一特征图像样本进行上采样得到多个第一特征图像样本分别对应的中间特征图像样本，以使得可以逐层传递较多的语义信息；以及，在PAN结构中，可以按照中间特征图像样本的大小，对FPN结构输出的最后一个中间特征图像样本进行下采样得到多个中间特征图像样本分别对应的第二特征图像样本，以使得可以逐层传递较多的位置信息。

如图4所示，若通过特征提取层可以得到8个第一特征图像样本，包括：(H/2)*(H/2)大小的第一特征图像样本、(H/2²)*(H/2²)大小的第一特征图像样本、(H/2³)*(H/2³)大小的第一特征图像样本、(H/2⁴)*(H/2⁴)大小的第一特征图像样本、(H/2⁵)*(H/2⁵)大小的第一特征图像样本、(H/2⁶)*(H/2⁶)大小的第一特征图像样本、(H/2⁷)*(H/2⁷)大小的第一特征图像样本、(H/2⁸)*(H/2⁸)大小的第一特征图像样本。那么通过FPN结构可以自上而下地传递语义信息，得到8个中间特征图像样本，包括：(H/2)*(H/2)大小的中间特征图像样本、(H/2²)*(H/2²)大小的中间特征图像样本、(H/2³)*(H/2³)大小的中间特征图像样本、(H/2⁴)*(H/2⁴)大小的中间特征图像样本、(H/2⁵)*(H/2⁵)大小的中间特征图像样本、(H/2⁶)*(H/2⁶)大小的中间特征图像样本、(H/2⁷)*(H/2⁷)大小的中间特征图像样本、(H/2⁸)*(H/2⁸)大小的中间特征图像样本。然后通过PAN结构自下而上地传递位置信息，得到8个第二特征图像样本，包括：(H/2)*(H/2)大小的第二特征图像样本、(H/2²)*(H/2²)大小的第二特征图像样本、(H/2³)*(H/2³)大小的第二特征图像样本、(H/2⁴)*(H/2⁴)大小的第二特征图像样本、(H/2⁵)*(H/2⁵)大小的第二特征图像样本、(H/2⁶)*(H/2⁶)大小的第二特征图像样本、(H/2⁷)*(H/2⁷)大小的第二特征图像样本、(H/2⁸)*(H/2⁸)大小的第二特征图像样本。上述示例只是举例说明，本申请对此不作特殊限制。

S109，根据多个第二特征图像样本，进行YOLO网络预测模型的模型训练。

在本申请实施例中，S109是在YOLO网络预测模型包括的预测层中执行。

本申请可以通过预测层获取到初始锚框对应的预测锚框，并获取关于初始锚框和预测锚框的锚框回归损失函数；以及，通过预测层获取到关于第一无人机图像样本的预测分类信息，并通过预测分类信息和标签信息获取分类回归损失函数。这样，本申请可以通过锚框回归损失函数和分类回归损失函数对YOLO网络预测模型进行模型训练。

可选地，锚框回归损失函数可以参考公式1：

其中，CIOU_LOSS表示锚框回归损失函数；CIOU表示锚框检测准确度；IOU表示预测锚框与真实锚框之间的重叠率，IOU＝A/B，A表示预测锚框与真实锚框二者的面积交集，B表示预测锚框与真实锚框二者的面积并集；Distance2表示预测锚框与真实锚框二者中心点之间的欧式距离；DistanceC表示预测锚框与真实锚框二者的最小外接矩形的对角线距离；V表示预测锚框与真实锚框二者之间长宽比一致性的参数，W^gt表示真实锚框的长度，H^gt表示真实锚框的宽度，W^p表示预测锚框的长度，H^p表示预测锚框的宽度。

可选地，分类回归损失函数可以为AP损失函数(即通常所说的AP-loss函数)。

在本申请的一些实施例中，可以根据锚框回归损失函数和分类回归损失函数获取总损失函数，根据总损失函数确定是否终止模型训练，即在总损失函数小于等于第一预设阈值时，终止模型训练；在总损失函数大于第一预设阈值时，不终止模型训练，此时，可以根据总损失函数对YOLO网络预测模型进行一次模型训练，并获取新的锚框回归损失函数和新的分类回归损失函数，以及根据新的锚框回归损失函数和新的分类回归损失函数获取新的总损失函数，根据新的总损失函数确定是否终止模型训练。

在本申请的另一些实施例中，可以根据锚框回归损失函数和分类回归损失函数确定是否终止模型训练，即在锚框回归损失函数小于等于第二预设阈值，且分类回归损失函数小于等于第三预设阈值时，终止模型训练；在锚框回归损失函数大于第二预设阈值，和/或，分类回归损失函数大于第三预设阈值时，不终止模型训练，此时，根据锚框回归损失函数和分类回归损失函数进行一次模型训练，并获取新的锚框回归损失函数和新的分类回归损失函数，以及根据新的锚框回归损失函数和新的分类回归损失函数确定是否终止模型训练。

综上所述，本申请可以预先获取第一无人机图像样本以及对应的标签信息进行YOLO网络预测模型的模型训练，这样，可以直接根据训练得到的YOLO网络预测模型对无人机进行预测。

在本申请实施例中，可以采集第四无人机图像样本，第四无人机图像样本包括无人机，并且根据第四无人机图像样本进行无人机特征点识别模型的训练。

进一步地，本申请可以在获取到第四无人机图像样本之后，对第四无人机图像样本中无人机进行无人机特征样本点的标记，并根据标记有无人机特征点的第四无人机图像样本进行无人机特征点识别模型的训练。

其中，无人机特征样本点可以包括：机翼相关的特征点(例如机翼特征点1、机翼特征点2、机翼特征点3、机翼特征点4)，动力支撑装置相关的特征点(例如动力支撑装置特征点5、动力支撑装置特征点6、动力支撑装置特征点7、动力支撑装置特征点8)，机身相关的特征点(例如机身左侧特征点9、机身中间特征点10、机身右侧特征点11)，机架相关的特征点(机架一般为弓形，故可以为左侧机架特征点12、右侧机架特征点13)，光电装置相关的特征点14。本申请对无人机特征样本点的具体内容不作特殊限制。

示例性的，图6示出了一种第四无人机图像样本。如图6所示，该第四无人机图像样本中包括以下无人机特征样本点：机翼特征点1、机翼特征点2、动力支撑装置特征点5、动力支撑装置特征点6、机身左侧特征点9、机身中间特征点10、机身右侧特征点11、左侧机架特征点12、右侧机架特征点13。

示例性的，图7示出了另一种第四无人机图像样本。如图7所示，该第四无人机图像样本中包括以下无人机特征样本点：机翼特征点1、机翼特征点2、机翼特征点3、机翼特征点4。

若图6为从无人机正面拍摄到的第四无人机图像样本，则从无人机背面拍摄到的第四无人机图像样本，对应可以包括以下无人机特征样本点：机翼特征点3、机翼特征点4、动力支撑装置特征点7、动力支撑装置特征点8、机身左侧特征点9、机身中间特征点10、机身右侧特征点11、左侧机架特征点12、右侧机架特征点13。

需要说明的是，本申请可以从无人机不同的角度拍摄第四无人机图像样本并进行模型训练，这样，在第一视频帧为无人机不同角度的图像时，仍可以准确地识别到无人机特征点。

另外，本申请可以针对第四无人机图像样本中标记的无人机特征样本点，统计每两个无人机特征样本点之间的距离样本，并根据该距离样本确定无人机特征样本点之间的预设距离范围。距离样本的获取过程可以参考图2和图3所示的实施例，此处不再赘述。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

基于上述实施例所提供的无人机检测方法，本发明实施例进一步给出实现上述方法实施例的装置实施例。

请参见图8，图8是本申请实施例提供的无人机检测装置的示意图。包括的各模块用于执行图1和图3对应的实施例中的各步骤。具体请参阅图1和图3对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图8，无人机检测装置8包括：

确定模块81，用于确定第一视频帧；以及，

确定所述第一视频帧对应的多个参考预测结果；所述多个参考预测结果包括以下至少两个：通过关于无人机识别的YOLO网络预测模型，得到的所述第一视频帧的第一参考预测结果，根据无人机特征点识别模型以及两个无人机特征样本点之间的预设距离范围，得到的所述第一视频帧的第二参考预测结果，以及，通过将所述第一视频帧与所述第一视频帧所属的无人机场景对应的目标图像进行匹配得到的第三参考预测结果；

检测模块82，用于根据所述多个参考预测结果对所述第一视频帧进行无人机的检测。

可选地，检测模块82，进一步用于在所述多个参考预测结果满足预设条件的情况下，检测到所述第一视频帧中的无人机；

其中，所述预设条件包括：

所述多个参考预测结果均为所述第一视频帧中存在所述无人机；

或者，

在所述多个参考预测结果的数量为三个的情况下，所述多个参考预测结果中任一个或者任两个参考预测结果为所述第一视频帧中存在所述无人机；

或者，

在所述多个参考预测结果的数量为两个的情况下，所述多个参考预测结果中任一个参考预测结果为所述第一视频帧中存在所述无人机。

可选地，无人机检测装置8还包括：计算模块；

确定模块81，还用于确定当前视频帧与上一视频帧；

计算模块，用于计算所述当前视频帧与所述上一视频帧之间不同像素点的数量；

确定模块81，还用于在所述数量大于预设数量的情况下，确定所述当前视频帧为所述第一视频帧。

可选地，无人机检测装置8还包括：获取模块和处理模块；

获取模块，用于获取第一无人机图像样本以及所述第一无人机图像样本的标签信息；

处理模块，用于对所述第一无人机图像样本进行数据增强得到第二无人机图像样本；对所述第二无人机图像样本进行预处理得到第三无人机图像样本；对所述第三无人机图像样本进行特征提取，得到多个第一特征图像样本；对所述多个第一特征图像样本进行特征融合得到多个第二特征图像样本；根据所述多个第二特征图像样本，进行所述YOLO网络预测模型的模型训练。

需要说明的是，上述模块之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图9是本申请实施例提供的无人机检测设备的示意图。如图9所示，该实施例的无人机检测设备9包括：处理器90、存储器91以及存储在所述存储器91中并可在所述处理器90上运行的计算机程序92，例如无人机检测程序。处理器90执行所述计算机程序92时实现上述各个无人机检测方法实施例中的步骤，例如图1所示的S101-S103。或者，所述处理器90执行所述计算机程序92时实现上述各装置实施例中各模块/单元的功能，例如图8所示模块81和82的功能。

示例性的，所述计算机程序92可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器91中，并由处理器90执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序92在所述无人机检测设备9中的执行过程。例如，所述计算机程序92可以被分割成获取模块、融合模块、检测模块，各模块具体功能请参阅图1对应地实施例中地相关描述，此处不赘述。

所述无人机检测设备可包括，但不仅限于，处理器90、存储器91。本领域技术人员可以理解，图9仅仅是无人机检测设备9的示例，并不构成对无人机检测设备9的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述无人机检测设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器90可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器91可以是所述无人机检测设备9的内部存储单元，例如无人机检测设备9的硬盘或内存。所述存储器91也可以是所述无人机检测设备9的外部存储设备，例如所述无人机检测设备9上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器91还可以既包括所述无人机检测设备9的内部存储单元也包括外部存储设备。所述存储器91用于存储所述计算机程序以及所述无人机检测设备所需的其他程序和数据。所述存储器91还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述无人机检测方法。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在无人机检测设备上运行时，使得无人机检测设备执行时实现可实现上述无人机检测方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种无人机检测方法，其特征在于，包括：

确定第一视频帧；

确定所述第一视频帧对应的多个参考预测结果；所述多个参考预测结果包括以下至少两个：通过关于无人机识别的YOLO网络预测模型，得到的所述第一视频帧的第一参考预测结果，根据无人机特征点识别模型以及两个无人机特征样本点之间的预设距离范围，得到的所述第一视频帧的第二参考预测结果，以及，通过将所述第一视频帧与所述第一视频帧所属的无人机场景对应的目标图像进行匹配得到的第三参考预测结果，所述YOLO网络预测模型包括特征提取层、特征融合层以及预测层；所述第一参考预测结果为将多个第二特征图像输入至所述预测层得到的，所述多个第二特征图像为通过所述特征融合层对多个第一特征图像进行特征融合得到的；所述多个第一特征图像为将第二视频帧输入至所述特征提取层进行特征提取得到的；其中，所述第二视频帧为所述第一视频帧，或者，为将所述第一视频帧进行尺寸归一化处理得到的视频帧，所述第二参考预测结果为将所述第一视频帧中每两个无人机特征点之间的距离与所述每两个无人机特征点对应的预设距离范围进行比对得到的，所述每两个无人机特征点为通过所述无人机特征点识别模型对所述第一视频帧进行特征识别得到的；其中，所述两个无人机特征样本点包括所述每两个无人机特征点，所述第三参考预测结果为将第三特征图像与第四特征图像进行特征匹配得到的，所述第三特征图像为对所述第一视频帧中对象进行特征提取到的图像，所述第四特征图像为对所述目标图像中对象进行特征提取到的图像；所述第一视频帧所属的无人机场景为根据所述第一视频帧中背景确定的场景；

根据所述多个参考预测结果对所述第一视频帧进行无人机的检测，所述根据所述多个参考预测结果对所述第一视频帧进行无人机的检测，包括：在所述多个参考预测结果满足预设条件的情况下，检测到所述第一视频帧中的无人机；其中，所述预设条件包括：所述多个参考预测结果均为所述第一视频帧中存在所述无人机。

2.根据权利要求1所述的方法，其特征在于，或者，所述根据所述多个参考预测结果对所述第一视频帧进行无人机的检测，包括：

或者，

3.根据权利要求1或2所述的方法，其特征在于，所述确定第一视频帧，包括：

确定当前视频帧与上一视频帧；

计算所述当前视频帧与所述上一视频帧之间不同像素点的数量；

在所述数量大于预设数量的情况下，确定所述当前视频帧为所述第一视频帧。

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取第一无人机图像样本以及所述第一无人机图像样本的标签信息；

对所述第一无人机图像样本进行数据增强得到第二无人机图像样本；

对所述第二无人机图像样本进行预处理得到第三无人机图像样本；

对所述第三无人机图像样本进行特征提取，得到多个第一特征图像样本，以及对所述多个第一特征图像样本进行特征融合得到多个第二特征图像样本；

根据所述多个第二特征图像样本，进行所述YOLO网络预测模型的模型训练。

5.一种无人机检测装置，其特征在于，包括：

确定模块，用于确定第一视频帧；以及，

检测模块，用于根据所述多个参考预测结果对所述第一视频帧进行无人机的检测，所述根据所述多个参考预测结果对所述第一视频帧进行无人机的检测，包括：在所述多个参考预测结果满足预设条件的情况下，检测到所述第一视频帧中的无人机；其中，所述预设条件包括：所述多个参考预测结果均为所述第一视频帧中存在所述无人机。

6.一种无人机检测设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。