CN116630609A

CN116630609A - 图像的目标检测方法、装置

Info

Publication number: CN116630609A
Application number: CN202210117740.8A
Authority: CN
Inventors: 刘文龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2023-08-22

Abstract

本申请提供了一种图像的目标检测方法、装置，涉及车联网领域；方法包括：对图像进行密度图预测处理，得到图像的密度图，其中，密度图表征图像中的目标的密度分布；对密度图进行识别聚类处理，得到密度图中的多个聚类目标区域；基于多个聚类目标区域对图像进行裁剪处理，得到一一对应的多个子图像，其中，每个子图像包括多个目标；对每个子图像和图像依次进行目标检测处理，得到与每个子图像和图像一一对应的第一目标检测结果；将每个第一目标检测结果进行融合处理，得到与图像对应的第二目标检测结果。通过本申请，能够有效检测出多媒体图像中各种不同尺度的目标，提高目标检测的准确度。

Description

图像的目标检测方法、装置

技术领域

本申请涉及车联网领域及人工智能技术领域，尤其涉及一种图像的目标检测方法、装置、设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

目标检测是人工智能在图像处理方面的重要应用，应用于智慧交通、医疗、等领域。

在相关技术中，由于待处理的图像具有较大的随机性，图像场景复杂多变，在有些场景的图像中目标较为聚集，在有些场景的图像中目标较为分散，导致目标检测的准确度较低。对于如何有效检测出图像中各种不同尺度的目标，提高目标检测的准确度，相关技术尚无有效解决方案。

发明内容

本申请实施例提供一种图像的目标检测方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够有效检测出图像中各种不同尺度的目标，提高目标检测的准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像的目标检测方法，包括：

对图像进行密度图预测处理，得到所述图像的密度图，其中，所述密度图表征所述图像中的目标的密度分布，所述密度图预测处理包括多个不同尺度的池化卷积处理；

对所述密度图进行识别聚类处理，得到所述密度图中的多个聚类目标区域；

基于所述多个聚类目标区域对所述图像进行裁剪处理，得到一一对应的多个子图像，其中，每个所述子图像包括多个所述目标；

对每个所述子图像和所述图像依次进行目标检测处理，得到与每个所述子图像和所述图像一一对应的第一目标检测结果；

将每个所述第一目标检测结果进行融合处理，得到与所述图像对应的第二目标检测结果。

上述方案中，所述第一金字塔网络和所述第二金字塔网络均包括多个按照尺寸顺序排列的卷积神经网络；所述基于所述第一骨干子网络的第i层次化处理结果调用所述第一金字塔网络进行第一次目标检测处理，得到与所述第一骨干子网络的第i层次化处理结果对应的第一检测结果，包括：基于所述第一骨干子网络的第N层次化处理结果调用所述第一金字塔网络的第N卷积神经网络进行识别处理，得到所述第一金字塔网络的第N识别结果；将所述第一骨干子网络的第i层次化处理结果和所述第一金字塔网络的第i+1识别结果进行加和处理，得到第i+1识别加和处理结果；基于所述第i+1识别加和处理结果调用所述第一金字塔网络的第i卷积神经网络进行识别处理，得到所述第一金字塔网络的第i识别结果，其中，所述第i卷积神经网络的尺寸小于所述第i+1卷积神经网络的尺寸；将所述第一金字塔网络的第i识别结果，确定为与所述第一骨干子网络的第i层次化处理结果对应的第一检测结果。

本申请实施例提供一种图像的目标检测装置，包括：

密度图预测模块，用于对图像进行密度图预测处理，得到所述图像的密度图，其中，所述密度图表征所述图像中的目标的密度分布，所述密度图预测处理包括多个不同尺度的池化卷积处理；

识别聚类模块，用于对所述密度图进行识别聚类处理，得到所述密度图中的多个聚类目标区域；

裁剪模块，用于基于所述多个聚类目标区域对所述图像进行裁剪处理，得到一一对应的多个子图像，其中，每个所述子图像包括多个所述目标；

目标检测模块，用于对每个所述子图像和所述图像依次进行目标检测处理，得到与每个所述子图像和所述图像一一对应的第一目标检测结果；

融合模块，用于将每个所述第一目标检测结果进行融合处理，得到与所述图像对应的第二目标检测结果。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的图像的目标检测方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的图像的目标检测方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的图像的目标检测方法。

本申请实施例具有以下有益效果：

通过对密度图聚类得到的聚类目标区域，从图像中裁剪出子图像并进行识别，从而相对于识别原始的图像的不同局部分别就进行识别，从而能够更加全面识别图像中小尺度目标，将小尺度目标的检测结果(即第一目标检测结果)作为图像的整体的目标检测结果(即第二目标检测结果)的补充，从而兼顾了图像中的大目标和小目标的检测，有效检测出图像中各种不同尺度的目标，提高了目标检测的准确度。

附图说明

图1是本申请实施例提供的图像的目标检测系统架构的结构示意图；

图2是本申请实施例提供的图像的目标检测装置的结构示意图；

图3A至图3F是本申请实施例提供的图像的目标检测方法的流程示意图；

图4A至图4H是本申请实施例提供的图像的目标检测方法的原理示意图；

图5A至图5B是本申请实施例提供的图像的目标检测方法的效果示意图；

图5C至图5E是本申请实施例提供的图像的目标检测方法的原理示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)密度图：表征图像中的目标的密度分布的图像，密度图中的密度点表征图像中的目标。

2)目标：图像中存在的各种客观对象，例如，在航拍图像中，目标可以是航拍图像中的车辆、楼宇、树木、路灯等。

3)目标检测：又称目标提取，是一种基于目标几何和统计特征的图像分割技术。将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。

4)小尺度目标：图像中绝对尺寸小于绝对尺寸阈值的目标，绝对尺寸阈值是设定值，例如，绝对尺寸阈值可以为32×32毫米，或者图像中宽高比例低于原图宽高比例的比例阈值的目标，例如，比例阈值可以为

5)大尺度目标：图像中绝对尺寸大于绝对尺寸阈值的目标，绝对尺寸阈值时设定值，例如，绝对尺寸阈值可以为32×32毫米，或者图像中宽高比例高于原图宽高比例的比例阈值的目标，例如，比例阈值可以为

6)密度分布：表征密度图像中的密度点的密度分布情况，密度分布包括均匀密度分布和非均匀密度分布，其中，均匀密度分布表征密度图像中的密度点均匀分布于密度图像中，非均匀密度分布表征密度图像中的密度点非均匀分布于密度图像中。

在本申请实施例的实施过程中，申请人发现相关技术存在以下问题：

参见图5A，图5A是本申请实施例提供的图像的目标检测方法的效果示意图。图5A所示出的图像1、图像2和图像3中，车辆13、楼宇11、树木12、路灯14等各种各样的目标错综复杂，且不同时间不同地点采集到的图像各不相同，场景复杂多变，而且图像中的目标(例如，车辆、楼宇、树木、路灯等)分布不一，有些目标较为聚集，有些目标较为分散，且不同的目标之间分布差异巨大。

在目标检测的相关技术中，通常以端到端的方式直接输出检测结果。相关技术对于高分辨率图像的目标检测，通常是对高分辨率图像直接进行处理，由于高分辨率图像所占内存较大，导致处理耗时巨大，且内存消耗巨大，对硬件要求较高。而且，相关技术在进行目标检测的过程中，对于高分辨率的图像进行目标检测，会造成小尺度目标的丢失，从而无法准确检测高分辨率图像中的小目标。

由于在相关技术中，通常仅能针对单一性场景进行检测，无法满足复杂多变的场景需求，而且在相关技术中，通常仅能检测单一尺度大小的目标，对于不同尺度大小的目标，特别是对于小尺度的目标无法做到准确检测。通过本申请实施例提供的图像的目标检测方法，可以适应不同复杂场景的目标检测，且对于高分辨率图像的目标检测，处理耗时相对较短，且内存消耗相对较小，对硬件的要求较低。而且兼顾了图像中的大目标和小目标的检测，从而精准地检测出图像中不同尺度大小的目标。

本申请实施例提供一种图像的目标检测方法、装置、电子设备、计算机可读存储介质和计算机程序产品，能够有效检测出图像中各种不同尺度的目标，提高目标检测的准确度，下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。

参见图1，图1是本申请实施例提供的图像的目标检测系统100的架构示意图，为实现目标检测的应用场景(例如，在医学应用场景中，在微创手术中，对采集设备实时采集的手术图像进行目标检测，以便于精准确定病变部位；在智慧交通的应用场景中，对航拍设备实时采集的航拍图像进行目标检测，以便于确定当前的交通拥堵情况，从而进行精准导航)，终端(示例性示出了终端400)通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于供用户使用客户端410，在图形界面410-1(示例性示出了图形界面410-1)显示。终端400和服务器200通过有线或者无线网络相互连接。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

在一些实施例中，终端400的客户端接收图像，并通过网络300发送到服务器200，服务器200确定图像对应的目标检测结果，将目标检测结果发送到终端400中的图形界面410-1中进行显示。

在另一些实施例中，终端400的客户端接收图像，并确定图像对应的目标检测结果，并在终端400中的图形界面410-1中显示目标检测结果。

在另一些实施例中，终端400(如车载终端)运行导航应用APP，确定导航应用APP中的图像的目标检测结果，在终端400中的图形界面410-1中显示目标检测结果。

参见图2，图2是本申请实施例提供的图像的目标检测方法的服务器200的一种结构示意图，图2所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他电子设备，示例性的网络接口220包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等。

在一些实施例中，本申请实施例提供的图像的目标检测装置可以采用软件方式实现，图2示出了存储在存储器250中的图像的目标检测装置255，其可以是程序和插件等形式的软件，包括以下软件模块：密度图预测模块2551、识别聚类模块2552、裁剪模块2553、目标检测模块2554、融合模块2555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的图像的目标检测方法。

在一些实施例中，参见图4A，图4A是本申请实施例提供的图像的目标检测方法的原理示意图。密度图预测网络用于对图像进行密度图预测，得到图像的密度图。目标检测网络包括骨干网络、金字塔网络和级联网络。目标检测网络用于对图像和子图像进行目标检测。基于图像调用密度图预测网络进行密度图预测处理，得到图像的密度图；根据图像的密度图，得到图像的多个子图像。基于图像和多个子图像调用目标检测网络进行目标检测处理，得到检测结果。从而有效检测出图像中各种不同尺度的目标，提高了目标检测的准确度。

参见图3A，图3A是本申请实施例提供的图像的目标检测方法的流程示意图，将结合图3A示出的步骤101至步骤105进行说明，下述步骤101至步骤105的执行主体可以是前述的服务器或终端。

在步骤101中，对图像进行密度图预测处理，得到图像的密度图，其中，密度图表征图像中的目标的密度分布。

在一些实施例中，图像中的目标是指图像中存在的各种客观对象，例如，目标可以是图像中的车辆、楼宇、树木、路灯等客观对象。

作为示例，参见图5D，图5D是本申请实施例提供的图像的目标检测方法的原理示意图。当图像是航拍图像时，对航拍图像进行密度图预测处理，得到图像的密度图，如图5D所示出的密度图，密度图表征航拍图像中的目标的密度分布，密度图预测处理包括多个不同尺度的池化卷积处理。

在一些实施例中，上述步骤101中对图像进行密度图预测处理，得到图像的密度图可以通过以下方式实现：基于图像调用训练后的密度图预测网络进行密度图预测处理，得到图像的密度图。

其中，训练后的密度图预测网络是通过以下方式训练得到的：基于图像样本调用待训练的密度图预测网络进行密度图预测处理，得到图像样本的预测密度图；基于图像样本的预测密度图和图像样本的真实密度图调用密度损失函数，得到图像样本的损失值；基于图像样本的损失值更新待训练的密度图预测网络的参数。

作为示例，密度损失函数可以是欧式距离、汉明距离等。当密度损失函数是欧式距离时，密度损失函数的表达式可以为：

其中，L(θ)表征密度损失函数，F(X_i,θ)表征图像样本的预测密度图，F_i表征图像样本的真实密度图，N表征密度图预测网络的调用次数。

在一些实施例中，参见图3B，图3B是本申请实施例提供的图像的目标检测方法的流程示意图，图3B示出的步骤101可以基于图像调用训练后的密度图预测网络执行步骤1011至步骤1013实现，下面分别进行说明。

在步骤1011中，对图像分别进行多个不同尺度的池化卷积处理，得到多个不同尺度的卷积特征图。

在一些实施例中，卷积池化处理可以包括卷积处理和池化处理，卷积处理的尺度是指卷积处理的卷积核的大小，池化处理的尺度是指池化处理的步长。卷积处理用于确定图像的特征图，池化处理用于图像的降维。

作为示例，参见图4D，对图像1分别进行三个尺度的卷积处理(即卷积9×9、卷积7×7、卷积5×5，其中，9×9表征卷积核的大小)，得到特征图16(16表征特征图的数量)、特征图20(20表征特征图的数量)和特征图24(24表征特征图的数量)。将特征图16依次进行池化处理(池化2×2)和卷积处理(卷积7×7)，得到特征图32(32表征特征图的数量)，将特征图32依次进行池化处理(池化2×2)和卷积处理(卷积7×7)得到特征图16。将特征图16进行卷积处理(卷积7×7)得到卷积特征图8。同理，将特征图20进行多次池化处理(池化2×2)和卷积处理(卷积5×5)得到卷积特征图10；将特征图24进行多次池化处理(池化2×2)和卷积处理(卷积3×3)得到卷积特征图12。即对图像1分别进行多个不同尺度的池化卷积处理，得到不同尺度的卷积特征图8、卷积特征图10和卷积特征图12。

在步骤1012中，对多个不同尺度的卷积特征图进行合并处理处理，得到合并特征图。

在一些实施例中，合并处理是指将多个卷积特征图合并成一个合并特征图的处理过程。

作为示例，参见图4D，将不同尺度的卷积特征图8、卷积特征图10和卷积特征图12进行合并处理，得到合并特征图30(其中，30表征合并特征图的数量)。

在步骤1013中，对合并特征图进行卷积处理，得到图像的密度图。

作为示例，参见图4D，对合并特征图30进行卷积处理，得到图像的特征图2。

如此，通过对图像进行密度图预测处理，得到图像的密度图，便于后续通过对密度图进行后续处理，以对图像进行裁剪得到子图像，并对子图像进行目标检测处理，从而便于后续精准识别图像中的小尺度目标。

在步骤102中，对密度图进行识别聚类处理，得到密度图中的多个聚类目标区域。

在一些实施例中，密度图中的聚类目标区域表征密度图中目标分布相对密集的区域，一个聚类目标区域中包括至少一个目标，识别聚类处理用于对密度图中的密度点进行识别聚类。

在一些实施例中，参见图3B，图3B示出的步骤102对密度图进行识别聚类处理可以通过执行步骤1021至步骤1022实现，下面分别进行说明。

在步骤1021中，对密度图中的密度点进行识别处理，得到密度点的概率分布。

在一些实施例中，对密度图中的密度点进行识别处理，可以通过高斯混合模型实现。具体的，在概率统计中，多维度单高斯模型的概率密度函数可以为：

其中，P(x|θ)表征概率密度函数，μ表征多维度单高斯模型的期望，|∑|表征多维度单高斯模型的方差，x表征密度图。

当高斯混合模型包括K个多维度单高斯模型时，高斯混合模型的概率分布函数的表达式可以为：

其中，K表征组成多维度高斯混合模型的多维度单高斯模型的数量，k表征多维度单高斯模型的标号，α_k表征标号为k的多维度单高斯模型的加权系数，表征标号为k的多维度单高斯模型的概率密度函数。

作为示例，对密度图中的密度点进行识别处理，可以确定密度图中的每一密度点所服从的多维度单高斯模型的概率密度函数，例如，密度图中的密度点A服从多维度单高斯模型A的概率密度函数、密度图中的密度点B服从多维度单高斯模型B的概率密度函数，即，密度图中的密度点分别服从K个多维度单高斯模型。

在步骤1022中，根据密度点的概率分布，将服从同一概率密度函数的密度点进行聚类处理，得到密度图中的多个聚类目标区域。

作为示例，根据密度点的概率分布，将服从同一概率密度函数的密度点进行聚类处理，当高斯混合模型包括K个多维度单高斯模型时，则可以将密度图中的密度点聚类为K类，进而得到密度图中的K个聚类目标区域。

如此，通过密度图中的密度点的概率分布，确定密度图中的多个聚类目标区域，从而根据图像中的目标的聚集程度，将图像初步分为多个区域，从而通过密度图实现了对图像中的目标的初步检测。便于后续对图像进行裁剪，得到图像的多个子图像，为后续进行更高精度的目标检测提供了良好的数据基础。

在步骤103中，基于多个聚类目标区域对图像进行裁剪处理，得到一一对应的多个子图像，其中，每个子图像包括多个目标。

在一些实施例中，由于密度图的尺寸大小是与图像的尺寸大小一致的，上述步骤103中基于多个聚类目标区域对图像进行裁剪处理，得到一一对应的多个子图像，可以通过以下方式实现：针对任意一个聚类目标区域执行以下处理：根据每个聚类目标区域的尺寸以及聚类目标区域在密度图中的位置，得到子图像的尺寸以及子图像在图像中的位置；基于子图像的尺寸以及子图像在图像中的位置，对图像进行裁剪处理，得到子图像。

作为示例，参见图4B，图4B是本申请实施例提供的图像的目标检测方法的原理示意图。根据聚类目标区域41的尺寸以及聚类目标区域41在密度图中的位置，得到子图像42的尺寸以及子图像42在图像43中的位置；基于子图像42的尺寸以及子图像42在图像43中的位置，对图像43进行裁剪处理，得到子图像42。

在步骤104中，对每个子图像和图像依次进行目标检测处理，得到与每个子图像和图像一一对应的第一目标检测结果。

作为示例，参见图4E，对每个子图像和图像依次进行多尺度特征提取处理、第一次目标检测处理、第二次目标检测处理后，得到与每个子图像和图像一一对应的第一目标检测结果。

在一些实施例中，参见图3C，图3C是本申请实施例提供的图像的目标检测方法的流程示意图，图3C示出的步骤104可以针对任意一个子图像执行以下步骤1041至步骤1044，下面分别进行说明。

在步骤1041中，对子图像进行多尺度特征提取处理，得到与子图像对应的多个不同尺度的特征。

在一些实施例中，多尺度特征提取处理是通过骨干网络实现的，骨干网络包括卷积网络、结构相同的至少一个第一骨干子网络和至少一个第二骨干子网络；第一骨干子网络和第二骨干子网络均包括多个级联的层次网络，多个级联的层次网络的尺寸不同。骨干网络用于对图像进行多个不同尺度的特征提取。第一骨干子网络用于增强第二骨干子网络的特征表达能力，其中，第一骨干子网络和第二骨干子网络之间的关系表达式可以为：

其中，g^l-1表示融合链接，第一骨干子网络的输出特征经过g^l-1转换之后作为第二骨干子网络的每个层次网络的输入。表征第二骨干子网络中的第l个层次网络的输出，表征第二骨干子网络中的第l-1个层次网络的输出。

作为示例，参见图4F，图4F是本申请实施例提供的图像的目标检测方法的原理示意图。骨干网络12包括卷积网络(参见图4F，卷积41)、结构相同的至少一个第一骨干子网络121和至少一个第二骨干子网络122，第一骨干子网络121的数量和第二骨干子网络122的数量相同；第一骨干子网络121和第二骨干子网络122均包括多个级联的层次网络，第一骨干子网络121中包括四个级联的层次网络(层次网络42、层次网络43、层次网络44、层次网络45)，每个级联的层次网络的尺寸各不相同。

在一些实施例中，参见图3D，图3D是本申请实施例提供的图像的目标检测方法的流程示意图，图3D示出的步骤1041对子图像进行多尺度特征提取处理，可以通过执行步骤10411至步骤10414，下面分别进行说明。

在步骤10411中，基于子图像调用卷积网络进行卷积处理，得到子图像的卷积处理结果。

作为示例，参见图4F，当输入为子图像时，基于子图像调用卷积网络41进行卷积处理，得到子图像的卷积处理结果。其中，卷积网络用于对输入进行卷积处理，得到卷积处理结果。

在步骤10412中，基于卷积处理结果调用第一骨干子网络中的多个级联的层次网络进行层次化处理，得到第一骨干子网络中每个层次网络的层次化处理结果。

作为示例，参见图4F，基于卷积处理结果调用第一骨干子网络121中的4个级联的层次网络(层次网络42、层次网络43、层次网络44、层次网络45)进行层次化处理，得到第一骨干子网络中每个层次网络的层次化处理结果，即层次网络42的层次化处理结果、层次网络43的层次化处理结果、层次网络44的层次化处理结果、层次网络45的层次化处理结果。

在一些实施例中，上述步骤10412可以通过以下方式实现：基于卷积处理结果调用第一骨干子网络中的第1层次网络进行层次化处理，得到第一骨干子网络的第1层次化处理结果；迭代i执行以下处理：基于第一骨干子网络的第i层次化处理结果调用第一骨干子网络中的第i+1层次网络进行层次化处理，得到第一骨干子网络的第i+1层次化处理结果；其中，i为取值递增的整数变量且取值满足1≤i≤N-1，N为多个级联的层次网络的总数，第i层次网络的尺寸大于第i+1层次网络的尺寸。

作为示例，参见图4F，基于卷积处理结果调用第一骨干子网络121中的第1层次网络42进行层次化处理，得到第一骨干子网络121的第1层次化处理结果；当i＝1时，基于第一骨干子网络121的第1层次化处理结果调用第一骨干子网络121中的第2层次网络43进行层次化处理，得到第一骨干子网络121的第2层次化处理结果。当i＝2时，基于第一骨干子网络121的第2层次化处理结果调用第一骨干子网络121中的第3层次网络44进行层次化处理，得到第一骨干子网络的第3层次化处理结果。当层次网络的总数为4时，即N＝4，1≤i≤3，第1层次网络42的尺寸大于第2层次网络43的尺寸，第2层次网络43的尺寸大于第3层次网络44的尺寸。

在一些实施例中，层次网络包括规则层次网络和移位层次网络，上述基于第一骨干子网络的第i层次化处理结果调用第一骨干子网络中的第i+1层次网络进行层次化处理，得到第一骨干子网络的第i+1层次化处理结果，可以通过以下方式实现：基于第一骨干子网络的第i层次化处理结果调用第一骨干子网络中的第i+1规则层次网络进行层次化处理，得到第一骨干子网络的第i+1规则层次化处理结果；基于第一骨干子网络的第i+1规则层次处理结果调用第一骨干子网络中的第i+1移位层次网络进行层次化处理，将得到的第一骨干子网络的第i+1移位层次化处理结果，确定为第一骨干子网络的第i+1层次化处理结果。

作为示例，参见图4F，层次网络11包括规则层次网络47和移位层次网络48。当i＝1时，基于第一骨干子网络121的第1层次化处理结果调用第一骨干子网络121中的第2规则层次网络47进行层次化处理，得到第一骨干子网络121的第2规则层次化处理结果；基于第一骨干子网络121的第2规则层次处理结果调用第一骨干子网络121中的第2移位层次网络48进行层次化处理，将得到的第一骨干子网络121的第2移位层次化处理结果，确定为第一骨干子网络121的第2层次化处理结果。

在一些实施例中，规则层次网络包括规则窗口、归一化处理层和多层感知层；上述基于第一骨干子网络的第i层次化处理结果调用第一骨干子网络中的第i+1规则层次网络进行层次化处理，得到第一骨干子网络的第i+1规则层次化处理结果，可以通过以下方式实现：基于第一骨干子网络的第i层次化处理结果调用归一化处理层进行归一化处理，得到第一归一化处理结果；基于归一化处理结果调用规则窗口进行自注意力处理，得到规则窗口处理结果；将第一骨干子网络的第i层次化处理结果和规则窗口处理结果进行加和处理，得到规则窗口加和处理结果；基于规则窗口加和处理结果调用归一化处理层进行归一化处理，得到第二归一化处理结果；基于第二归一化处理结果调用多层感知层进行识别处理，得到第一识别处理结果；将第一识别处理结果和规则窗口加和处理结果进行加和处理，将得到的第一感知层加和处理结果，确定为第一骨干子网络的第i+1规则层次化处理结果。

在一些实施例中，归一化处理层(Layer Normalizaiton，LN)用于将归一化处理层的输入进行归一化处理，归一化处理通过对单个样本的所有神经元节点进行规范化，可以保证样本数据分布的一致性。规则窗口(Windows Multi-head Self Attention，W-MSA)用于在规则窗口中进行自注意力处理(Self-Attention)，其中，规则窗口以不重叠且不发生移位的方式均匀的分割图像，自注意力处理用于关注归一化处理结果的部分细节特征。多层感知层(M ultilayer perceptron，MLP)包括输入层、输出层和隐层，其中，输入层和隐层、隐层和输出层之间是全连接的，多层感知层用于对第二归一化处理结果进行识别处理，具体的是通过多层感知层中的隐层拟合识别函数，从而使得多层感知层具有识别功能。

作为示例，参见图4F，规则层次网络47包括规则窗口、归一化处理层和多层感知层。当i＝1时，基于第一骨干子网络121的第1层次化处理结果调用归一化处理层进行归一化处理，得到第一归一化处理结果；基于归一化处理结果调用规则窗口进行自注意力处理，得到规则窗口处理结果；将第一骨干子网络的第1层次化处理结果和规则窗口处理结果进行加和处理，得到规则窗口加和处理结果；基于规则窗口加和处理结果调用归一化处理层进行归一化处理，得到第二归一化处理结果；基于第二归一化处理结果调用多层感知层进行识别处理，得到第一识别处理结果；将第一识别处理结果和规则窗口加和处理结果进行加和处理，将得到的第一感知层加和处理结果，确定为第一骨干子网络的第2规则层次化处理结果。

作为示例，规则窗口处理结果的表达式可以为：

/>

其中，W-MSA表征规则窗口进行自注意力处理的过程，LN表征归一化处理层进行归一化处理的过程，z^l-1表征第i层次化处理结果，表征规则窗口加和处理结果。

作为示例，第一感知层加和处理结果的表达式可以为：

其中，表征第一感知层加和处理结果，MLP表征多层感知层进行识别处理的过程，LN表征归一化处理层进行归一化处理的过程，/>表征规则窗口加和处理结果。

在一些实施例中，移位层次网络包括移位窗口、归一化处理层和多层感知层；上述基于第一骨干子网络的第i+1规则层次化处理结果调用第一骨干子网络中的第i+1移位层次网络进行层次化处理，得到第一骨干子网络的第i+1移位层次化处理结果，可以通过以下方式实现：基于第一骨干子网络的第i+1规则层次化处理结果调用归一化处理层进行归一化处理，得到第三归一化处理结果；基于第三归一化处理结果调用移位窗口进行自注意力处理，得到移位窗口处理结果；将第一骨干子网络的第i+1规则层次化处理结果和移位窗口处理结果进行加和处理，得到移位窗口加和处理结果；基于移位窗口加和处理结果调用归一化处理层进行归一化处理，得到第四归一化处理结果；基于第四归一化处理结果调用多层感知层进行识别处理，得到第二识别处理结果；将第二识别处理结果和移位窗口加和处理结果进行加和处理，将得到的第二感知层加和处理结果，确定为第一骨干子网络的第i+1移位层次化处理结果。

在一些实施例中，移位窗口(Windows Multi-head Self Attention，SW-MSA)用于在移位窗口中进行自注意力处理(Self-Attention)，其中，移位窗口以重叠且发生移位的方式均匀的分割图像，自注意力处理用于关注归一化处理结果的部分细节特征。

作为示例，参见图4F，移位层次网络48包括移位窗口、归一化处理层和多层感知层。当i＝1时，基于第一骨干子网络121的第2规则层次化处理结果调用归一化处理层进行归一化处理，得到第三归一化处理结果；基于第三归一化处理结果调用移位窗口进行自注意力处理，得到移位窗口处理结果；将第一骨干子网络的第2规则层次化处理结果和移位窗口处理结果进行加和处理，得到移位窗口加和处理结果；基于移位窗口加和处理结果调用归一化处理层进行归一化处理，得到第四归一化处理结果；基于第四归一化处理结果调用多层感知层进行识别处理，得到第二识别处理结果；将第二识别处理结果和移位窗口加和处理结果进行加和处理，将得到的第二感知层加和处理结果，确定为第一骨干子网络121的第2移位层次化处理结果。

作为示例，移位窗口加和处理结果的表达式可以为：

其中，表征移位窗口加和处理结果，SW-MSA表征移位窗口进行自注意力处理的过程，LN表征归一化处理层进行归一化处理的过程，/>表征第一骨干子网络的第i+1规则层次化处理结果。

作为示例，第一骨干子网络的第i+1移位层次化处理结果的表达式可以为：

/>

其中，表征第一骨干子网络的第i+1移位层次化处理结果，MLP表征多层感知层进行识别处理的过程，LN表征归一化处理层进行归一化处理的过程，/>表征移位窗口加和处理结果。

在步骤10413中，基于卷积处理结果、第一骨干子网络中每个层次网络的层次化处理结果调用第二骨干子网络中的多个层次网络进行层次化处理，得到第二骨干子网络中每个层次网络的层次化处理结果。

作为示例，参见图4F，基于卷积处理结果、第一骨干子网络121中每个层次网络的层次化处理结果调用第二骨干子网络122中的多个层次网络(层次网络46、层次网络47、层次网络48、层次网络49)进行层次化处理，得到第二骨干子网络122中每个层次网络的层次化处理结果。

在一些实施例中，上述步骤10413可以通过以下方式实现：将卷积处理结果和第一骨干子网络的第i层次网络的层次化处理结果进行加和处理，得到第1加和处理结果；基于第1加和处理结果调用第二骨干子网络中的第1层次网络进行层次化处理，得到第二骨干子网络的第1层次化处理结果；迭代i执行以下处理：将第一骨干子网络的第i层次化处理结果和第二骨干子网络的第i层次化处理结果进行加和处理，得到第i+1加和处理结果，基于第i+1加和处理结果调用第二骨干子网络中的第i+1层次网络进行层次化处理，得到第二骨干子网络的第i+1层次化处理结果。

作为示例，参见图4F，将卷积处理结果、第一骨干子网络121的第4层次网络45的层次化处理结果、第一骨干子网络121的第3层次网络44的层次化处理结果、第一骨干子网络121的第2层次网络43的层次化处理结果和第一骨干子网络121的第1层次网络42的层次化处理结果进行加和处理，得到第1加和处理结果；基于第1加和处理结果调用第二骨干子网络122中的第1层次网络46进行层次化处理，得到第二骨干子网络122的第1层次化处理结果。

在步骤10414中，将第一骨干子网络中每个层次网络的层次化处理结果和第二骨干子网络中每个层次网络的层次化处理结果，确定为与子图像对应的多个不同尺度的特征。

作为示例，参见图4F，将第一骨干子网络121中第1层次网络42的层次化处理结果、第一骨干子网络121中第2层次网络43的层次化处理结果、第一骨干子网络121中第3层次网络44的层次化处理结果、第一骨干子网络121中第4层次网络45的层次化处理结果和第二骨干子网络122中第1层次网络46的层次化处理结果、第二骨干子网络122中第2层次网络47的层次化处理结果、第二骨干子网络122中第3层次网络48的层次化处理结果、第二骨干子网络122中第4层次网络49的层次化处理结果，确定为与子图像对应的多个不同尺度的特征。

在步骤1042中，对多个不同尺度的特征进行第一次目标检测处理，得到与每个尺度的特征对应的第一检测结果。

在一些实施例中，第一次目标检测处理是通过相同结构的至少一个第一金字塔网络和至少一个第二金字塔网络实现的，第一金字塔网络的数量与第一骨干子网络的数量相同，第二金字塔网络的数量与第二骨干子网络的数量相同。

作为示例，参见图4F，第一次目标检测处理是通过相同结构的一个第一金字塔网络131和一个第二金字塔网络132实现的，第一金字塔网络131的数量与第一骨干子网络121的数量均为1，第二金字塔网络132的数量与第二骨干子网络122的数量均为1。

在一些实施例中，参见图3E，图3E是本申请实施例提供的图像的目标检测方法的流程示意图，图3E示出的步骤1042中对多个不同尺度的特征进行第一次目标检测处理，可以针对与子图像对应的任意一个尺度的特征执行以下步骤10421至步骤10423实现，下面分别进行说明。

在步骤10421中，基于第一骨干子网络的第i层次化处理结果调用第一金字塔网络进行第一次目标检测处理，得到与第一骨干子网络的第i层次化处理结果对应的第一检测结果。

在一些实施例中，金字塔网络(Feature Pyramid Networks，FPN)用于对骨干网络的层次化处理结果进行目标检测，得到骨干网络中每个尺度的层次化处理结果对应的检测结果，金字塔网络中包括多个按照尺寸顺序排列的卷积神经网络，通过尺寸不同的卷积神经网络进行卷积处理之后，特征图的尺寸逐渐变小，从而逐渐精确的提取目标特征。

在一些实施例中，第一金字塔网络和第二金字塔网络均包括多个按照尺寸顺序排列的卷积神经网络，上述步骤10421可以通过以下方式实现：基于第一骨干子网络的第N层次化处理结果调用第一金字塔网络的第N卷积神经网络进行识别处理，得到第一金字塔网络的第N识别结果；将第一骨干子网络的第i层次化处理结果和第一金字塔网络的第i+1识别结果进行加和处理，得到第i+1识别加和处理结果；基于第i+1识别加和处理结果调用第一金字塔网络的第i卷积神经网络进行识别处理，得到第一金字塔网络的第i识别结果，其中，第i卷积神经网络的尺寸小于第i+1卷积神经网络的尺寸；将第一金字塔网络的第i识别结果，确定为与第一骨干子网络的第i层次化处理结果对应的第一检测结果。

在一些实施例中，卷积神经网络(Convolutional Neural Networks，CNN)用于按其阶层结构对输入信息进行平移不变分类，对一个尺度的特征进行第一次目标检测处理，得到目标的位置和类别。

作为示例，参见图4F，当N＝4时，基于第一骨干子网络121的第4层次化处理结果(第一骨干子网络的第4层次网络45的第4层次化处理结果)调用第一金字塔网络131的第4卷积神经网络1314进行识别处理，得到第一金字塔网络的第4识别结果。将第一骨干子网络121的第3层次化处理结果和第一金字塔网络131的第4识别结果进行加和处理，得到第4识别加和处理结果；基于第4识别加和处理结果调用第一金字塔网络131的第3卷积神经网络1313进行识别处理，得到第一金字塔网络131的第3识别结果。将第一金字塔网络131的第1识别结果，确定为与第一骨干子网络121的第1层次化处理结果对应的第一检测结果、将第一金字塔网络131的第2识别结果，确定为与第一骨干子网络121的第2层次化处理结果对应的第一检测结果等。

在步骤10422中，基于第二骨干子网络的第i层次化处理结果调用第二金字塔网络进行第一次目标检测处理，得到与第二骨干子网络的第i层次化处理结果对应的第一检测结果。

作为示例，参见图4F，当i＝3时，基于第二骨干子网络122的第3层次化处理结果调用第二金字塔网络132进行第一次目标检测处理，得到与第二骨干子网络122的第3层次化处理结果对应的第一检测结果。

在步骤10423中，将第一骨干子网络的第i层次化处理结果对应的第一检测结果和第二骨干子网络的第i层次化处理结果对应的第一检测结果进行融合处理，得到与每个尺度的特征对应的第一检测结果。

在一些实施例中，将第一骨干子网络的第i层次化处理结果对应的第一检测结果和第二骨干子网络的第i层次化处理结果对应的第一检测结果进行融合处理的过程，可以是将将第一骨干子网络的第i层次化处理结果对应的第一检测结果和第二骨干子网络的第i层次化处理结果对应的第一检测结果进行加和处理的过程，加和处理的表达式可以为：

A＝B+C (9)

其中，A表征与每个尺度的特征对应的第一检测结果，B表征第一骨干子网络的第i层次化处理结果对应的第一检测结果，C表征第二骨干子网络的第i层次化处理结果对应的第一检测结果。

作为示例，参见图4F，将第一骨干子网络121的第1层次化处理结果对应的第一检测结果和第二骨干子网络122的第1层次化处理结果对应的第一检测结果进行融合处理，得到与第一尺度的特征对应的第一检测结果；将第一骨干子网络121的第2层次化处理结果对应的第一检测结果和第二骨干子网络122的第2层次化处理结果对应的第一检测结果进行融合处理，得到与第二尺度的特征对应的第一检测结果。

在步骤1043中，对每个第一检测结果进行第二次目标检测处理，得到与每个第一检测结果对应的第二检测结果。

作为示例，参见图4F，将第一尺度的特征对应的第一检测结果进行第二次检测处理，得到与第一尺度的特征对应的第一检测结果所对应的第二检测结果。将第二尺度的特征对应的第一检测结果进行第二次检测处理，得到与第二尺度的特征对应的第一检测结果所对应的第二检测结果。

其中，第二次目标检测处理的检测精度大于第一次目标检测处理的检测精度，检测精度表征目标检测处理检测得到目标的位置和类别的准确程度。

在一些实施例中，第二次目标检测处理是通过级联网络实现的，级联网络包括一个区域生成网络和多个池化网络。其中，区域生成网络(Region Proposal Network，RPN)用于生成检测框，池化网络用于去除区域生成处理结果中的冗余信息，并对不同尺度的第一次目标检测结果进行精修。

作为示例，参见图4F，第二次目标检测处理是通过级联网络14实现的，级联网络14包括一个区域生成网络和池化网络1、池化网络2、池化网络3、池化网络4等。

在一些实施例中，参见图3F，图3F是本申请实施例提供的图像的目标检测方法的流程示意图，图3F示出的步骤1043可以针对任意一个第一检测结果执行以下步骤10431至步骤10433，下面分别进行说明。

在步骤10431中，基于第一检测结果调用区域生成网络进行区域生成处理，得到与第一检测结果对应的区域生成处理结果。

作为示例，参见图4F，第一检测结果即级联网络输入，基于级联网络输入调用区域生成网络进行区域生成处理，得到与级联网络输入对应的区域生成处理结果。图4F中所示出的级联网络输入有4个，那么可以基于这4个级联网络输入分别调用区域生成网络进行区域生成处理。

在步骤10432中，基于区域生成处理结果和第一检测结果调用多个池化网络进行池化处理，得到与每个池化网络对应的池化处理结果。

作为示例，参见图4F，基于区域生成处理结果和第一检测结果(即级联网络输入)调用池化网络1、池化网络2、池化网络3和池化网络4进行池化处理，得到与池化网络1对应的池化处理结果1、与池化网络2对应的池化处理结果2、与池化网络3对应的池化处理结果3、与池化网络4对应的池化处理结果4。

在一些实施例中，上述步骤10432可以通过以下方式实现：基于区域生成处理结果和第一检测结果调用第1池化网络进行池化处理，得到与第1池化网络对应的第1池化处理结果；基于第j池化处理结果和第一检测结果调用第j+1池化网络进行池化处理，得到与第j+1池化网络对应的第j+1池化处理结果，其中，1≤j≤M-1，M为大于或者等于2的正整数，M为多个池化网络的总数，第j+1池化处理结果的精度大于第j池化处理结果。

作为示例，参见图4F，基于区域生成处理结果和第一检测结果(级联网络输入)调用第1池化网络1进行池化处理，得到与第1池化网络1对应的第1池化处理结果；基于第1池化处理结果和第一检测结果调用第2池化网络2进行池化处理，得到与第2池化网络2对应的第2池化处理结果，第2池化处理结果的精度大于第1池化处理结果。

在步骤10433中，将池化处理结果确定为第二检测结果。

作为示例，参见图4F，可以将池化处理结果1、池化处理结果2、池化处理结果3、池化处理结果4均确定为第二检测结果；也可以将精度相对较高的池化处理结果4确定为第二检测结果。

在步骤1044中，将第二检测结果确定为第一目标检测结果。

如此，通过骨干网络实现多尺度特征提取处理，得到子图像对应的多个不同尺度的特征，通过金字塔网络实现第一次目标检测处理，从而实现了对于多个不同尺度的特征进行分而治之的第一次目标检测，即第一次目标检测处理实现了不同尺度的特征进行不同尺度的第一次目标检测。通过级联网络实现第二次目标检测处理，即对于不同尺度的第一次目标检测结果利用多个池化网络进行多次精修，从而使得目标检测的准确率大幅度提升。

在一些实施例中，在上述步骤104中，对每个子图像和图像依次进行目标检测处理，得到与每个子图像和图像一一对应的第一目标检测结果，不仅可以通过如图4F所示出的目标检测网络实现，还可以通过如图4G所示出的通用目标检测网络实现。参见图4G，图4G是本申请实施例提供的通用检测网络的原理示意图。通用检测网络包括骨干网络模型601、区域推荐网络模型602和分割网络604。以通用检测网络的输入为子图像为例进行说明。基于子图像调用骨干网络模型601进行特征提取处理，得到子图像的特征图。基于子图像的特征图调用卷积网络(卷积网络的卷积核大小可以为3×3)进行卷积处理，得到第一特征图。基于第一特征图调用卷积网络(卷积网络的卷积核大小可以为1×1)进行卷积处理，得到第二特征图。将第二特征图分别进行逻辑回归处理和边框回归处理，并将逻辑回归处理结果和边框回归处理结果进行合并处理，得到推荐区域。基于推荐区域对特征图进行区域裁剪，得到裁剪特征图。基于裁剪特征图调用全连接层1进行处理，得到全连接层1的处理结果。基于全连接层1的处理结果分别调用全连接层2和全连接层3进行处理，得到全连接层2的处理结果和全连接层3的处理结果。将全连接层2的处理结果进行边框回归处理，得到检测目标的位置。将全连接层3的处理结果进行逻辑回归处理，得到检测目标的类别。其中，上述逻辑回归处理可以通过逻辑回归函数(softmax函数)实现，边框检测处理可以通过边框检测函数(bbox reg函数)实现。

如此，通过通用检测网络可以实现对子图像的目标检测，但是，相对而言，图4F所示出的目标检测网络的检测精度高于图4G所示出的通用检测网络。

在步骤105中，将每个第一目标检测结果进行融合处理，得到与图像对应的第二目标检测结果。

在一些实施例中，在上述步骤105中将每个第一目标检测结果进行融合处理，得到与图像对应的第二目标检测结果可以通过以下方式实现：将图像对应的第一目标检测结果分别和每个子图像对应的第一检测结果进行融合处理，得到与图像对应的第二目标检测结果。其中，融合处理可以是通过非极大值抑制的方式实现。

作为示例，参见图4H，图4H是本申请实施例提供的图像的目标检测方法的原理示意图。如图4H所示出的，以图像401的第一目标检测结果(包括第一目标检测结果21)和子图像402的第一目标检测结果(包括第一目标检测结果22)进行融合处理为例进行说明。具体的，图像401的第一目标检测结果和子图像402的第一目标检测结果进行融合处理，是指在图像401中，与子图像402对应的区域4021中的第一目标检测结果21和子图像402的第一目标检测结果22进行融合处理。参见图4H，在图像401中，与子图像402对应的区域4021中的第一目标检测结果21包括目标211的位置和类别、目标212的位置和类别。子图像402的第一目标检测结果22包括目标223的位置和类别、目标222的位置和类别、目标221的位置和类别。将图像401的第一目标检测结果和子图像402的第一目标检测结果进行融合处理后，得到的与图像对应的第二目标检测结果23(针对图像401中，与子图像402对应的区域4021)可以包括目标231的位置和类别、目标232的位置和类别、目标233的位置和类别。如此，融合后的第二目标检测结果中能够检测到3个目标的位置和类别，而融合前的图像401中，在与子图像402对应的区域4021中，仅能检测到2个目标的位置和类别。因此，融合后的第二目标检测结果的精度大于融合前的图像的第一目标检测结果。

如此，通过对图像的密度图进行识别聚类处理，得到密度图中的多个聚类目标区域，基于聚类目标区域对图像进行裁剪处理，从而得到一一对应的多个子图像，由于每个子图像中包括图像中的部分目标，从而通过密度图实现了对图像中的目标的初步检测。然后，通过对子图像进行目标检测处理，从而精确的检测出子图像中的目标，由于子图像中的目标是图像中的小尺度目标，从而实现了对图像中的小尺度目标的检测。通过对图像进行目标检测处理，从而检测出图像中的大尺度目标。通过将子图像的第一目标检测结果和图像的第一目标检测结果进行融合处理，所得到的第二目标检测结果既能够反映图像中的大目标又能够反映图像中的小目标，从而有效检测出图像中各种不同尺度的目标，提高了目标检测的准确度。

下面，将说明本申请实施例在一个实际的检测航拍图像的应用场景中的示例性应用。

在一个实际的检测航拍图像的应用场景中，参见图5A，图5A所示出的航拍图像中，车辆、楼宇、树木、路灯等各种各样的目标错综复杂，且不同时间不同地点采集到的航拍图像各不相同，场景复杂多变，而且航拍图像中的目标(例如，车辆、楼宇、树木、路灯等)分布不一，有些目标较为聚集，有些目标较为分散，且不同的目标之间分布差异巨大。通过本申请实施例提供的图像的目标检测方法可以对各种复杂多变场景下的图像，精确定位出图像中不同尺寸大小的目标。

作为示例，参见图5B，图5B是本申请实施例提供的图像的目标检测方法的效果示意图。可以通过无人机设备采集航拍图像，通过本申请实施例提供的图像的目标检测方法对航拍图像进行目标检测，得到对应的目标图像4、目标图像5和目标图像6，在目标图像4中准确检测得到了航拍图像中的每个目标41的位置，在目标图像5中准确检测得到了航拍图像中的每个目标51的位置，在目标图像6中准确检测得到了航拍图像中的每个目标61的位置。

在一些实施例中，图4C是本申请实施例提供的图像的目标检测方法的原理示意图。参见图4C，对图像进行密度图预测处理，得到图像的密度图。对密度图进行识别聚类处理，得到密度图中的多个聚类目标区域。基于聚类目标区域对图像进行裁剪处理，得到子图像。对图像和子图像进行目标检测处理，得到检测结果，从而有效检测出图像中各种不同尺度的目标，提高了目标检测的准确度。

参见图5C，图5C是本申请实施例提供的图像的目标检测方法的原理示意图。首先，基于航拍图像调用密度裁剪网络进行密度裁剪，得到航拍图像的子图。具体的，密度裁剪网络可以对航拍图像进行密度预测，得到航拍图像对应的密度图，并确定密度图中的聚集目标区域，基于密度图中的聚集目标区域对原始图进行裁剪，得到航拍图像的子图。然后，基于航拍图像和航拍图像的每张子图分别调用检测网络进行检测处理，分别得到每张子图对应的局部检测结果和航拍图像对应的全局检测结果。将局部检测结果和全局检测结果进行融合，得到航拍图像对应的目标检测结果。

下面，对图5C所示出的本申请实施例提供的图像的目标检测方法的整体处理流程进行详细说明。

首先，对图5C中所示出的密度裁剪网络的实现原理进行说明，具体的，参见图5D，基于航拍图像分别调用第一密度图预测网络51、第二密度图预测网络52和第三密度图预测网络53进行密度图预测处理，将第一密度图预测网络51对应的预测结果、第二密度图预测网络52对应的预测结果、第三密度图预测网络53对应的预测结果进行合并处理，得到合并结果；对合并结果进行卷积核尺寸为1×1的卷积处理，得到与航拍图像对应的密度图。对密度图进行识别聚类处理，得到聚集目标区域，并基于聚集目标区域对航拍图像进行分割，得到航拍图像对应的多张子图。其中，第一密度图预测网络51中包括卷积核尺寸分别为9×9、7×7的多个卷积层、以及池化核尺寸为2×2的多个池化层；第二密度图预测网络52中包括卷积核尺寸分别为5×5、7×7的多个卷积层、以及池化核尺寸为2×2的多个池化层；第三密度图预测网络53中包括卷积核尺寸分别为5×5、3×3的多个卷积层、以及池化核尺寸为2×2的多个池化层。

参见图5D，可以采用欧式距离作为损失函数对第一密度图预测网络51、第二密度图预测网络52和第三密度图预测网络53进行训练，即基于样本图像分别调用第一密度图预测网络51、第二密度图预测网络52和第三密度图预测网络53进行预测处理，分别得到第一密度图预测网络51的样本预测结果、第二密度图预测网络52的样本预测结果和第三密度图预测网络53的样本预测结果。将第一密度图预测网络51对应的样本预测结果、第二密度图预测网络52对应的样本预测结果、第三密度图预测网络53对应的样本预测结果进行合并处理，得到样本合并结果；对样本合并结果进行卷积核尺寸为1×1的卷积处理，得到与样本图像对应的预测密度图。基于样本图像对应的预测密度图和样本图像对应的真实密度图调用损失函数进行计算，得到损失值。基于损失值对第一密度图预测网络51、第二密度图预测网络52和第三密度图预测网络53进行更新，得到训练后的第一密度图预测网络51、训练后的第二密度图预测网络52和训练后的第三密度图预测网络53。

作为示例，当采用欧式距离作为损失函数(即上文所描述的密度损失函数)时，损失函数的表达式可以为：

其中，L(θ)表征损失函数，F(X_i,θ)表征预测密度图，F_i表征真实密度图，N表征密度图预测网络的调用次数。

参见图5D，基于航拍图像分别调用训练后的第一密度图预测网络51、训练后的第二密度图预测网络52和训练后的第三密度图预测网络53进行预测处理，分别得到第一密度图预测网络51的航拍预测结果、第二密度图预测网络52的航拍预测结果和第三密度图预测网络53的航拍预测结果，将第一密度图预测网络51的航拍预测结果、第二密度图预测网络52的航拍预测结果和第三密度图预测网络53的航拍预测结果进行合并，得到航拍合并结果。对航拍合并结果进行卷积处理，得到航拍图像对应的密度图。

参见图5D，在得到航拍图像对应的密度图之后，通过密度图可以大致确定航拍图像中的目标的大致位置，由于航拍图像较为复杂，且航拍图像中的目标较为分散，可以通过高斯混合模型对航拍图像中的目标分布进行聚类，从而得到多个聚集目标区域，基于聚集目标区域对航拍图像进行裁剪，裁剪出的航拍图像的子图用于后续目标检测。

作为示例，多维度单高斯模型的概率密度函数的表达式可以为：

作为示例，多维度高斯混合模型是由多个多维度单高斯模型组合而成的，多维度高斯混合模型的概率密度函数的表达式可以为：

然后，对图5C中所示出的目标检测网络的实现原理进行说明，具体的，参见图5E，图5E是本申请实施例提供的目标检测网络的原理示意图。目标检测网络包括骨干网络、金字塔网络和级联网络，其中，骨干网络包括第一骨干子网络和第二骨干子网络，金字塔网络包括第一金字塔网络和第二金字塔网络，级联网络包括池化网络和区域生成网络，第一骨干子网络和第二骨干子网络包括层次网络，层次网络包括规则层次网络和移位层次网络，规则层次网络包括规则窗口、归一化处理层和多层感知层，移位层次网络包括移位窗口、归一化处理层和多层感知层。

参见图5E，骨干网络包括第一骨干子网络(backbone1)和第二骨干子网络(backbone2)，其中，第一骨干子网络用于增强第二骨干子网络的特征表达能力。第一骨干子网络和第二骨干子网络包括层次网络(swin-transformer)，其中，第一骨干子网络和第二骨干子网络之间的关系表达式可以为：

参见图5E，为了增强目标检测网络对于复杂场景的特征学习能力，采用金字塔网络(C BFPN)对骨干网络的输出进行检测，其中，金字塔网络包括第一金字塔网络和第二金字塔网络，金字塔网络的检测结果用于后续目标定位和类别区分。

参见图5E，级联网络可以有效提升目标检测性能，通过多个池化网络，多阶段式的对定位和分类不断进行优化。

如此，通过目标检测网络对每个子图进行检测，得到局部检测结果，可以精准预测出航拍图像中的小目标的具体位置；通过目标检测网络对航拍图像进行检测，得到局部检测结果，可以精确预测出航拍图像中的大目标的具体位置。通过将局部检测结果和全局检测结果进行融合，其中融合的过程可以通过对局部检测结果和全局检测结果进行极大值抑制的方式实现，融合后所得到航拍图像对应的目标检测结果既准确检测出航拍图像中的小目标的具体位置，又准确检测出航拍图像中的大目标的具体位置。

可以理解的是，在本申请实施例中，涉及到的图像等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面继续说明本申请实施例提供的图像的目标检测装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器250的图像的目标检测装置255中的软件模块可以包括：密度图预测模块2551，用于对图像进行密度图预测处理，得到图像的密度图，其中，密度图表征图像中的目标的密度分布；识别聚类模块2552，用于对密度图进行识别聚类处理，得到密度图中的多个聚类目标区域；裁剪模块2553，用于基于多个聚类目标区域对图像进行裁剪处理，得到一一对应的多个子图像，其中，每个子图像包括多个目标；目标检测模块2554，用于对每个子图像和图像依次进行目标检测处理，得到与每个子图像和图像一一对应的第一目标检测结果，融合模块2555，用于将每个第一目标检测结果进行融合处理，得到与图像对应的第二目标检测结果。

在一些实施例中，上述密度图预测模块2551，还用于基于图像调用训练后的密度图预测网络进行密度图预测处理，得到图像的密度图；其中，训练后的密度图预测网络是通过以下方式训练得到的：基于图像样本调用待训练的密度图预测网络进行密度图预测处理，得到图像样本的预测密度图；基于图像样本的预测密度图和图像样本的真实密度图调用密度损失函数，得到图像样本的损失值；基于图像样本的损失值更新待训练的密度图预测网络的参数。

在一些实施例中，上述密度图预测模块2551，还用于基于图像调用训练后的密度图预测网络进行以下处理：对图像分别进行多个不同尺度的池化卷积处理，得到每多个不同尺度的卷积特征图；对多个不同尺度的卷积特征图进行合并处理处理，得到合并特征图；对合并特征图进行卷积处理，得到图像的密度图。

在一些实施例中，上述识别聚类模块2552，还用于对密度图中的密度点进行识别处理，得到密度点的概率分布；根据密度点的概率分布，将服从同一概率密度函数的密度点进行聚类处理，得到密度图中的多个聚类目标区域。

在一些实施例中，上述目标检测模块2554，还用于针对任意一个子图像执行以下处理：对子图像进行多尺度特征提取处理，得到与子图像对应的多个不同尺度的特征；对多个不同尺度的特征进行第一次目标检测处理，得到与每个尺度的特征对应的第一检测结果；对每个第一检测结果进行第二次目标检测处理，得到与每个第一检测结果对应的第二检测结果，其中，第二次目标检测处理的检测精度大于第一次目标检测处理的检测精度；将第二检测结果确定为第一目标检测结果。

在一些实施例中，多尺度特征提取处理是通过骨干网络实现的，骨干网络包括卷积网络、结构相同的至少一个第一骨干子网络和至少一个第二骨干子网络；第一骨干子网络和第二骨干子网络均包括多个级联的层次网络，多个级联的层次网络的尺寸不同；上述目标检测模块2554，还用于基于子图像调用卷积网络进行卷积处理，得到子图像的卷积处理结果；基于卷积处理结果调用第一骨干子网络中的多个级联的层次网络进行层次化处理，得到第一骨干子网络中每个层次网络的层次化处理结果；基于卷积处理结果、第一骨干子网络中每个层次网络的层次化处理结果调用第二骨干子网络中的多个层次网络进行层次化处理，得到第二骨干子网络中每个层次网络的层次化处理结果；将第一骨干子网络中每个层次网络的层次化处理结果和第二骨干子网络中每个层次网络的层次化处理结果，确定为与子图像对应的多个不同尺度的特征。

在一些实施例中，上述目标检测模块2554，还用于基于卷积处理结果调用第一骨干子网络中的第1层次网络进行层次化处理，得到第一骨干子网络的第1层次化处理结果；迭代i执行以下处理：基于第一骨干子网络的第i层次化处理结果调用第一骨干子网络中的第i+1层次网络进行层次化处理，得到第一骨干子网络的第i+1层次化处理结果；其中，i为取值递增的整数变量且取值满足1≤i≤N-1，N为多个级联的层次网络的总数，第i层次网络的尺寸大于第i+1层次网络的尺寸。

在一些实施例中，上述目标检测模块2554，还用于将卷积处理结果、第一骨干子网络的第i层次网络的层次化处理结果和第一骨干子网络的第1层次网络的层次化处理结果进行加和处理，得到第1加和处理结果；基于第1加和处理结果调用第二骨干子网络中的第1层次网络进行层次化处理，得到第二骨干子网络的第1层次化处理结果；迭代i执行以下处理：将第一骨干子网络的第i层次化处理结果和第二骨干子网络的第i层次化处理结果进行加和处理，得到第i+1加和处理结果，基于第i+1加和处理结果调用第二骨干子网络中的第i+1层次网络进行层次化处理，得到第二骨干子网络的第i+1层次化处理结果。

在一些实施例中，层次网络包括规则层次网络和移位层次网络；上述目标检测模块2554，还用于基于第一骨干子网络的第i层次化处理结果调用第一骨干子网络中的第i+1规则层次网络进行层次化处理，得到第一骨干子网络的第i+1规则层次化处理结果；基于第一骨干子网络的第i+1规则层次处理结果调用第一骨干子网络中的第i+1移位层次网络进行层次化处理，将得到的第一骨干子网络的第i+1移位层次化处理结果，确定为第一骨干子网络的第i+1层次化处理结果。

在一些实施例中，规则层次网络包括规则窗口、归一化处理层和多层感知层；上述目标检测模块2554，还用于基于第一骨干子网络的第i层次化处理结果调用归一化处理层进行归一化处理，得到第一归一化处理结果；基于归一化处理结果调用规则窗口进行自注意力处理，得到规则窗口处理结果；将第一骨干子网络的第i层次化处理结果和规则窗口处理结果进行加和处理，得到规则窗口加和处理结果；基于规则窗口加和处理结果调用归一化处理层进行归一化处理，得到第二归一化处理结果；基于第二归一化处理结果调用多层感知层进行识别处理，得到第一识别处理结果；将第一识别处理结果和规则窗口加和处理结果进行加和处理，将得到的第一感知层加和处理结果，确定为第一骨干子网络的第i+1规则层次化处理结果。

在一些实施例中，移位层次网络包括移位窗口、归一化处理层和多层感知层；上述目标检测模块2554，还用于基于第一骨干子网络的第i+1规则层次化处理结果调用归一化处理层进行归一化处理，得到第三归一化处理结果；基于第三归一化处理结果调用移位窗口进行自注意力处理，得到移位窗口处理结果；将第一骨干子网络的第i+1规则层次化处理结果和移位窗口处理结果进行加和处理，得到移位窗口加和处理结果；基于移位窗口加和处理结果调用归一化处理层进行归一化处理，得到第四归一化处理结果；基于第四归一化处理结果调用多层感知层进行识别处理，得到第二识别处理结果；将第二识别处理结果和移位窗口加和处理结果进行加和处理，将得到的第二感知层加和处理结果，确定为第一骨干子网络的第i+1移位层次化处理结果。

在一些实施例中，第一次目标检测处理是通过相同结构的至少一个第一金字塔网络和至少一个第二金字塔网络实现的，第一金字塔网络的数量与第一骨干子网络的数量相同，第二金字塔网络的数量与第二骨干子网络的数量相同；上述目标检测模块2554，还用于针对与子图像对应的任意一个尺度的特征执行以下处理：基于第一骨干子网络的第i层次化处理结果调用第一金字塔网络进行第一次目标检测处理，得到与第一骨干子网络的第i层次化处理结果对应的第一检测结果；基于第二骨干子网络的第i层次化处理结果调用第二金字塔网络进行第一次目标检测处理，得到与第二骨干子网络的第i层次化处理结果对应的第一检测结果；将第一骨干子网络的第i层次化处理结果对应的第一检测结果和第二骨干子网络的第i层次化处理结果对应的第一检测结果进行融合处理，得到与每个尺度的特征对应的第一检测结果。

在一些实施例中，第一金字塔网络和第二金字塔网络均包括多个按照尺寸顺序排列的卷积神经网络；上述目标检测模块2554，还用于基于第一骨干子网络的第N层次化处理结果调用第一金字塔网络的第N卷积神经网络进行识别处理，得到第一金字塔网络的第N识别结果；将第一骨干子网络的第i层次化处理结果和第一金字塔网络的第i+1识别结果进行加和处理，得到第i+1识别加和处理结果；基于第i+1识别加和处理结果调用第一金字塔网络的第i卷积神经网络进行识别处理，得到第一金字塔网络的第i识别结果，其中，第i卷积神经网络的尺寸小于第i+1卷积神经网络的尺寸；将第一金字塔网络的第i识别结果，确定为与第一骨干子网络的第i层次化处理结果对应的第一检测结果。

在一些实施例中，第二次目标检测处理是通过级联网络实现的，级联网络包括一个区域生成网络和多个池化网络；上述目标检测模块2554，还用于针对任意一个第一检测结果执行以下处理：基于第一检测结果调用区域生成网络进行区域生成处理，得到与第一检测结果对应的区域生成处理结果；基于区域生成处理结果和第一检测结果调用多个池化网络进行池化处理，得到与每个池化网络对应的池化处理结果；将池化处理结果确定为第二检测结果。

在一些实施例中，上述目标检测模块2554，还用于基于区域生成处理结果和第一检测结果调用第1池化网络进行池化处理，得到与第1池化网络对应的第1池化处理结果；基于第j池化处理结果和第一检测结果调用第j+1池化网络进行池化处理，得到与第j+1池化网络对应的第j+1池化处理结果，其中，1≤j≤M-1，M为大于或者等于2的正整数，M为多个池化网络的总数，第j+1池化处理结果的精度大于第j池化处理结果。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的图像的目标检测方法，例如，如图3A示出的图像的目标检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，本申请实施例具有以下有益效果：

(1)通过对密度图聚类得到的聚类目标区域，从图像中裁剪出子图像并进行识别，从而相对于识别原始的图像的不同局部分别就进行识别，从而能够更加全面识别图像中小尺度目标，将小尺度目标的检测结果(即第一目标检测结果)作为图像的整体的目标检测结果(即第二目标检测结果)的补充，从而兼顾了图像中的大目标和小目标的检测，有效检测出图像中各种不同尺度的目标，提高了目标检测的准确度。

(2)通过对图像进行密度图预测处理，得到图像的密度图，便于后续通过对密度图进行后续处理，以对图像进行裁剪得到子图像，并对子图像进行目标检测处理，从而便于后续精准识别图像中的小尺度目标。

(3)通过密度图中的密度点的概率分布，确定密度图中的多个聚类目标区域，从而根据图像中的目标的聚集程度，将图像初步分为多个区域，从而通过密度图实现了对图像中的目标的初步检测。便于后续对图像进行裁剪，得到图像的多个子图像，为后续进行更高精度的目标检测提供了良好的数据基础。

(4)通过骨干网络实现多尺度特征提取处理，得到子图像对应的多个不同尺度的特征，通过金字塔网络实现第一次目标检测处理，从而实现了对于多个不同尺度的特征进行分而治之的第一次目标检测，即第一次目标检测处理实现了不同尺度的特征进行不同尺度的第一次目标检测。通过级联网络实现第二次目标检测处理，即对于不同尺度的第一次目标检测结果利用多个池化网络进行多次精修，从而使得目标检测的准确率大幅度提升。

(5)通过目标检测网络对每个子图进行检测，得到局部检测结果，可以精准预测出航拍图像中的小目标的具体位置；通过目标检测网络对航拍图像进行检测，得到局部检测结果，可以精确预测出航拍图像中的大目标的具体位置。通过将局部检测结果和全局检测结果进行融合，其中融合的过程可以通过对局部检测结果和全局检测结果进行极大值抑制的方式实现，融合后所得到航拍图像对应的目标检测结果既准确检测出航拍图像中的小目标的具体位置，又准确检测出航拍图像中的大目标的具体位置。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像的目标检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述图像进行密度图预测处理，得到所述图像的密度图，包括：

基于所述图像调用所述训练后的密度图预测网络进行密度图预测处理，得到所述图像的密度图；

其中，所述训练后的密度图预测网络是通过以下方式训练得到的：

基于图像样本调用待训练的所述密度图预测网络进行密度图预测处理，得到所述图像样本的预测密度图；

基于所述图像样本的预测密度图和所述图像样本的真实密度图调用密度损失函数，得到所述图像样本的损失值；

基于所述图像样本的损失值更新待训练的所述密度图预测网络的参数。

3.根据权利要求2所述的方法，其特征在于，所述基于所述图像调用所述训练后的密度图预测网络进行密度图预测处理，得到所述图像的密度图，包括：

基于所述图像调用所述训练后的密度图预测网络进行以下处理：

对所述图像分别进行所述多个不同尺度的池化卷积处理，得到多个不同尺度的卷积特征图；

对所述多个不同尺度的卷积特征图进行合并处理处理，得到合并特征图；

对所述合并特征图进行卷积处理，得到所述图像的密度图。

4.根据权利要求1所述的方法，其特征在于，所述对所述密度图进行识别聚类处理，得到所述密度图中的多个聚类目标区域，包括：

对所述密度图中的密度点进行识别处理，得到所述密度点的概率分布；

根据所述密度点的概率分布，将服从同一概率密度函数的所述密度点进行聚类处理，得到所述密度图中的多个聚类目标区域。

5.根据权利要求1所述的方法，其特征在于，所述对每个所述子图像和所述图像依次进行目标检测处理，得到与每个所述子图像和所述图像一一对应的第一目标检测结果，包括：

针对任意一个所述子图像执行以下处理：

对所述子图像进行多尺度特征提取处理，得到与所述子图像对应的多个不同尺度的特征；

对所述多个不同尺度的特征进行第一次目标检测处理，得到与每个所述尺度的特征对应的第一检测结果；

对每个所述第一检测结果进行第二次目标检测处理，得到与每个所述第一检测结果对应的第二检测结果，其中，所述第二次目标检测处理的检测精度大于所述第一次目标检测处理的检测精度；

将所述第二检测结果确定为所述第一目标检测结果。

6.根据权利要求5所述的方法，其特征在于，所述多尺度特征提取处理是通过骨干网络实现的，所述骨干网络包括卷积网络、结构相同的至少一个第一骨干子网络和至少一个第二骨干子网络；所述第一骨干子网络和所述第二骨干子网络均包括多个级联的层次网络，所述多个级联的层次网络的尺寸不同；

所述对所述子图像进行多尺度特征提取处理，得到与所述子图像对应的多个不同尺度的特征，包括：

基于所述子图像调用所述卷积网络进行卷积处理，得到所述子图像的卷积处理结果；

基于所述卷积处理结果调用所述第一骨干子网络中的多个级联的层次网络进行层次化处理，得到所述第一骨干子网络中每个层次网络的层次化处理结果；

基于所述卷积处理结果、所述第一骨干子网络中每个层次网络的层次化处理结果调用所述第二骨干子网络中的多个层次网络进行层次化处理，得到所述第二骨干子网络中每个层次网络的层次化处理结果；

将所述第一骨干子网络中每个层次网络的层次化处理结果和所述第二骨干子网络中每个层次网络的层次化处理结果，确定为与所述子图像对应的多个不同尺度的特征。

7.根据权利要求6所述的方法，其特征在于，所述基于所述卷积处理结果调用所述第一骨干子网络中的多个级联的层次网络进行层次化处理，得到所述第一骨干子网络中每个层次网络的层次化处理结果，包括：

基于所述卷积处理结果调用所述第一骨干子网络中的第1层次网络进行层次化处理，得到所述第一骨干子网络的第1层次化处理结果；

迭代i执行以下处理：基于所述第一骨干子网络的第i层次化处理结果调用所述第一骨干子网络中的第i+1层次网络进行层次化处理，得到所述第一骨干子网络的第i+1层次化处理结果；其中，i为取值递增的整数变量且取值满足1≤i≤N-1，N为所述多个级联的层次网络的总数，第i层次网络的尺寸大于所述第i+1层次网络的尺寸。

8.根据权利要求7所述的方法，其特征在于，所述基于所述卷积处理结果、所述第一骨干子网络中每个层次网络的层次化处理结果调用所述第二骨干子网络中的多个层次网络进行层次化处理，得到所述第二骨干子网络中每个层次网络的层次化处理结果，包括：

将所述卷积处理结果和所述第一骨干子网络的第i层次网络的层次化处理结果进行加和处理，得到第1加和处理结果；

基于所述第1加和处理结果调用所述第二骨干子网络中的第1层次网络进行层次化处理，得到所述第二骨干子网络的第1层次化处理结果；

迭代i执行以下处理：将所述第一骨干子网络的第i层次化处理结果和所述第二骨干子网络的第i层次化处理结果进行加和处理，得到第i+1加和处理结果，基于所述第i+1加和处理结果调用所述第二骨干子网络中的第i+1层次网络进行层次化处理，得到所述第二骨干子网络的第i+1层次化处理结果。

9.根据权利要求8所述的方法，其特征在于，所述层次网络包括规则层次网络和移位层次网络；

所述基于所述第一骨干子网络的第i层次化处理结果调用所述第一骨干子网络中的第i+1层次网络进行层次化处理，得到所述第一骨干子网络的第i+1层次化处理结果，包括：

基于所述第一骨干子网络的第i层次化处理结果调用所述第一骨干子网络中的第i+1规则层次网络进行层次化处理，得到所述第一骨干子网络的第i+1规则层次化处理结果；

基于所述第一骨干子网络的第i+1规则层次处理结果调用所述第一骨干子网络中的第i+1移位层次网络进行层次化处理，将得到的所述第一骨干子网络的第i+1移位层次化处理结果，确定为所述第一骨干子网络的第i+1层次化处理结果。

10.根据权利要求9所述的方法，其特征在于，所述规则层次网络包括规则窗口、归一化处理层和多层感知层；

所述基于所述第一骨干子网络的第i层次化处理结果调用所述第一骨干子网络中的第i+1规则层次网络进行层次化处理，得到所述第一骨干子网络的第i+1规则层次化处理结果，包括：

基于所述第一骨干子网络的第i层次化处理结果调用所述归一化处理层进行归一化处理，得到第一归一化处理结果；

基于所述归一化处理结果调用所述规则窗口进行自注意力处理，得到规则窗口处理结果；

将所述第一骨干子网络的第i层次化处理结果和所述规则窗口处理结果进行加和处理，得到规则窗口加和处理结果；

基于所述规则窗口加和处理结果调用所述归一化处理层进行归一化处理，得到第二归一化处理结果；

基于所述第二归一化处理结果调用所述多层感知层进行识别处理，得到第一识别处理结果；

将所述第一识别处理结果和所述规则窗口加和处理结果进行加和处理，将得到的第一感知层加和处理结果，确定为所述第一骨干子网络的第i+1规则层次化处理结果。

11.根据权利要求9所述的方法，其特征在于，所述移位层次网络包括移位窗口、归一化处理层和多层感知层；

所述基于所述第一骨干子网络的第i+1规则层次化处理结果调用所述第一骨干子网络中的第i+1移位层次网络进行层次化处理，得到所述第一骨干子网络的第i+1移位层次化处理结果，包括：

基于所述第一骨干子网络的第i+1规则层次化处理结果调用所述归一化处理层进行归一化处理，得到第三归一化处理结果；

基于所述第三归一化处理结果调用所述移位窗口进行自注意力处理，得到移位窗口处理结果；

将所述第一骨干子网络的第i+1规则层次化处理结果和所述移位窗口处理结果进行加和处理，得到移位窗口加和处理结果；

基于所述移位窗口加和处理结果调用所述归一化处理层进行归一化处理，得到第四归一化处理结果；

基于所述第四归一化处理结果调用所述多层感知层进行识别处理，得到第二识别处理结果；

将所述第二识别处理结果和所述移位窗口加和处理结果进行加和处理，将得到的第二感知层加和处理结果，确定为所述第一骨干子网络的第i+1移位层次化处理结果。

12.根据权利要求8所述的方法，其特征在于，所述第一次目标检测处理是通过相同结构的至少一个第一金字塔网络和至少一个第二金字塔网络实现的，所述第一金字塔网络的数量与所述第一骨干子网络的数量相同，所述第二金字塔网络的数量与所述第二骨干子网络的数量相同；

所述对所述多个不同尺度的特征进行第一次目标检测处理，得到与每个所述尺度的特征对应的第一检测结果，包括：

针对与所述子图像对应的任意一个尺度的特征执行以下处理：

基于所述第一骨干子网络的第i层次化处理结果调用所述第一金字塔网络进行第一次目标检测处理，得到与所述第一骨干子网络的第i层次化处理结果对应的第一检测结果；

基于所述第二骨干子网络的第i层次化处理结果调用所述第二金字塔网络进行第一次目标检测处理，得到与所述第二骨干子网络的第i层次化处理结果对应的第一检测结果；

将所述第一骨干子网络的第i层次化处理结果对应的第一检测结果和所述第二骨干子网络的第i层次化处理结果对应的第一检测结果进行融合处理，得到与每个所述尺度的特征对应的第一检测结果。

13.根据权利要求8所述的方法，其特征在于，所述第二次目标检测处理是通过级联网络实现的，所述级联网络包括一个区域生成网络和多个池化网络；

所述对每个所述第一检测结果进行第二次目标检测处理，得到与每个所述第一检测结果对应的第二检测结果，包括：

针对任意一个所述第一检测结果执行以下处理：

基于所述第一检测结果调用所述区域生成网络进行区域生成处理，得到与所述第一检测结果对应的区域生成处理结果；

基于所述区域生成处理结果和所述第一检测结果调用所述多个池化网络进行池化处理，得到与每个所述池化网络对应的池化处理结果；

将所述池化处理结果确定为所述第二检测结果。

14.根据权利要求13所述的方法，其特征在于，所述基于所述区域生成处理结果和所述第一检测结果调用所述多个池化网络进行池化处理，得到与每个所述池化网络对应的池化处理结果，包括：

基于所述区域生成处理结果和所述第一检测结果调用第1池化网络进行池化处理，得到与所述第1池化网络对应的第1池化处理结果；

基于第j池化处理结果和所述第一检测结果调用第j+1池化网络进行池化处理，得到与所述第j+1池化网络对应的第j+1池化处理结果，其中，1≤j≤M-1，M为大于或者等于2的正整数，M为所述多个池化网络的总数，所述第j+1池化处理结果的精度大于所述第j池化处理结果。

15.一种图像的目标检测装置，其特征在于，所述装置包括：