CN112052837A

CN112052837A - 基于人工智能的目标检测方法以及装置

Info

Publication number: CN112052837A
Application number: CN202011074572.6A
Authority: CN
Inventors: 王昌安
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-09
Filing date: 2020-10-09
Publication date: 2020-12-08

Abstract

本申请提供了一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质；涉及人工智能的图形图像处理技术；方法包括：对包括目标的待检测图像进行特征提取处理，以得到包括目标的特征图；基于特征图对待检测图像进行基于第一级提取网络的目标预测处理，以得到待检测图像中的多个候选框；基于多个候选框对待检测图像进行截图处理，以得到对应各候选框的图像块；对对应各候选框的图像块进行基于第二级检测网络的目标预测处理，以确定包括目标的目标图像块以及目标图像块中包括目标的包围框；将目标图像块中包括目标的包围框映射至待检测图像中，以得到待检测图像中包括目标的包围框。

Description

基于人工智能的目标检测方法以及装置

技术领域

本申请涉及人工智能技术的图形图像处理技术，尤其涉及一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域以得到应用，并发挥越来越重要的价值。

目标检测系统是人工智能领域的重要应用之一，能够利用计算机对图像进行处理、分析和理解，以检测图像中各种不同模式的目标和对象。目标检测系统在人脸识别系统、目标跟踪系统等中都有广泛的应用，即目标检测系统是这些复杂系统的基础组件。

虽然，相关技术中的目标检测系统能够检测到图像中包括目标的包围框。但是，相关技术中检测到的包围框不够精确，无法实现准确的目标检测。

发明内容

本申请实施例提供一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质，能够结合二级网络的目标预测处理，提高目标检测的准确率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的目标检测方法，包括：

对包括目标的待检测图像进行特征提取处理，以得到包括所述目标的特征图；

基于所述特征图对所述待检测图像进行基于第一级提取网络的目标预测处理，以得到所述待检测图像中的多个候选框；

基于所述多个候选框对所述待检测图像进行截图处理，以得到对应各所述候选框的图像块；

对对应各所述候选框的图像块进行基于第二级检测网络的目标预测处理，以确定包括所述目标的目标图像块以及所述目标图像块中包括所述目标的包围框；

将所述目标图像块中包括所述目标的包围框映射至所述待检测图像中，以得到所述待检测图像中包括所述目标的包围框。

本申请实施例提供一种目标检测装置，包括：

提取模块，用于对包括目标的待检测图像进行特征提取处理，以得到包括所述目标的特征图；

第一处理模块，用于基于所述特征图对所述待检测图像进行基于第一级提取网络的目标预测处理，以得到所述待检测图像中的多个候选框；

截图模块，用于基于所述多个候选框对所述待检测图像进行截图处理，以得到对应各所述候选框的图像块；

第二处理模块，用于对对应各所述候选框的图像块进行基于第二级检测网络的目标预测处理，以确定包括所述目标的目标图像块以及所述目标图像块中包括所述目标的包围框；

映射模块，用于将所述目标图像块中包括所述目标的包围框映射至所述待检测图像中，以得到所述待检测图像中包括所述目标的包围框。

上述技术方案中，用于目标检测的神经网络包括所述第一级提取网络；所述第一处理模块还用于针对所述特征图中的任一像素点执行以下处理：

通过所述第一级提取网络对所述像素点进行目标预测处理，以得到所述像素点的坐标偏移量以及置信度，

基于所述像素点的坐标以及坐标偏移量，确定所述像素点对应的候选框；

基于多个所述像素点的置信度，对多个所述像素点分别对应的候选框进行筛选处理，以得到所述待检测图像中的多个候选框。

上述技术方案中，所述坐标偏移量包括所述像素点到所述对应的候选框的端点的距离；所述第一处理模块还用于将所述像素点的坐标与所述像素点的坐标偏移量相加，以得到所述像素点对应的候选框的端点坐标；

对所述端点坐标进行连接处理，以得到所述像素点对应的候选框。

上述技术方案中，所述第一处理模块还用于将所述像素点的置信度作为所述对应的候选框的置信度，并将多个所述候选框存入候选框集合中；

基于所述候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为所述待检测图像中的候选框；

基于所述最大置信度所对应的候选框，对所述候选框集合中的候选框进行去重处理，以得到新的候选框集合；

基于所述新的候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为所述待检测图像中的候选框，并

基于最大置信度所对应的候选框，对所述新的候选框集合中的候选框进行去重处理，直至所述新的候选框集合为空。

上述技术方案中，所述装置还包括：

变换模块，用于对包括所述目标的原始图像进行多次尺度变换处理，以得到多个对应尺度的尺度图像，并将所述尺度图像作为所述待检测图像；

所述第一处理模块还用于针对多个所述尺度图像中的任一所述尺度图像执行以下处理：

基于所述尺度图像的尺寸与所述原始图像的尺寸的对应关系，对所述尺度图像中的多个所述候选框进行尺度变换处理，将经过尺度变换处理的所述候选框存入所述候选框集合中。

上述技术方案中，所述第一处理模块还用于将所述候选框集合中最大置信度所对应的候选框作为参考候选框，并确定所述参考候选框与第一类其他候选框的重叠度，其中，所述第一类其他候选框包括所述候选框集合中除所述参考候选框外的候选框；

当所述参考候选框与所述第一类其他候选框的重叠度大于第一重叠阈值时，从所述候选框集合中清除所述第一类其他候选框以及所述参考候选框；

将所述新的候选框集合中最大置信度所对应的候选框作为新的参考候选框，并确定所述新的参考候选框与第二类其他候选框的重叠度，其中，所述第二类其他候选框包括所述新的候选框集合中除所述新的参考候选框外的候选框；

当所述新的参考候选框与所述第二其他候选框的重叠度大于所述第一重叠阈值时，从所述新的候选框集合中清除所述第二其他候选框以及所述新的参考候选框。

上述技术方案中，用于目标检测的神经网络包括所述第二级检测网络；所述第二处理模块还用于针对多个所述图像块的任一所述图像块执行以下处理：

通过所述第二级检测网络对所述图像块中的任一像素点进行目标预测处理，以得到所述像素点的坐标偏移量以及置信度，

基于所述像素点的坐标以及坐标偏移量，确定所述像素点对应的候选框，

将最大置信度所对应的像素点对应的候选框作为所述图像块的候选框，并将所述最大置信度作为所述图像块的置信度；

基于各所述图像块的置信度，对所述图像块进行排序，将最大置信度所对应的图像块作为包括所述目标的目标图像块，并将最大置信度所对应的图像块的候选框作为包括所述目标的包围框。

上述技术方案中，所述装置还包括：

跟踪模块，用于对视频进行解码处理，以得到多个视频帧；

将所述多个视频帧中的第一个视频帧作为所述待检测图像，以进行基于所述第一级提取网络的目标预测处理、以及基于所述第二级检测网络的目标预测处理；

基于所述第一个视频帧的目标检测结果，对所述第一个视频帧的后续视频帧进行目标跟踪；

其中，所述后续视频帧的解码时间戳晚于所述第一个视频帧的解码时间戳。

上述技术方案中，所述跟踪模块还用于当所述第一个视频帧的目标检测结果表征未检测到所述第一视频帧的包围框时，通过所述第一级提取网络以及所述第二级检测网络，对所述第一个视频帧的后续视频帧进行目标预测处理，直至检测到所述后续视频帧中包括所述目标的包围框；

当所述第一个视频帧的目标检测结果表征检测到所述第一视频帧的包围框时，通过所述第二级检测网络对所述后续视频帧进行目标预测处理，以得到所述后续视频帧的目标检测结果。

本申请实施例提供一种用于目标检测的电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的目标检测方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于被处理器执行时，实现本申请实施例提供的基于人工智能的目标检测方法。

本申请实施例具有以下有益效果：

通过第一级提取网络获取待检测图像中的多个候选框，并通过第二级检测网络结合多个候选框获取包括目标的包围框，从而通过两级网络准确地检测到待检测图像中的目标，提高目标检测的准确性。

附图说明

图1是本申请实施例提供的目标检测系统的应用场景示意图；

图2是本申请实施例提供的用于目标检测的电子设备的结构示意图；

图3A-3C是本申请实施例提供的基于人工智能的目标检测方法的流程示意图；

图4是本申请实施例提供的候选框示意图；

图5是本申请实施例提供的候选框示意图；

图6A是本申请实施例提供的待检测图像的候选框的示意图；

图6B是本申请实施例提供的图像块的示意图；

图7是本申请实施例提供的人脸目标跟踪示意图；

图8是本申请实施例提供的无预设框的目标检测示意图；

图9是本申请实施例提供的目标框提取网络示意图；

图10是本申请实施例提供的目标框细化网络示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)卷积神经网络(CNN，Convolutional Neural Networks)：一类包含卷积计算且具有深度结构的前馈神经网络(FNN，Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入图像进行平移不变分类(shift-invariantclassification)。

2)深度学习(DL，Deep Learning)：机器学习(ML，Machine Learning)领域中一个新的研究方向，被引入机器学习使其更接近于最初的目标—人工智能。深度学习是学习样本数据的内在规律和表示层次，学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

本申请实施例提供了一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质，能够结合二级网络的目标预测处理，提高目标检测的准确率。

本申请实施例所提供的基于人工智能的目标检测方法，可以由终端/服务器独自实现；也可以由终端和服务器协同实现，例如终端独自承担下文所述的基于人工智能的目标检测方法，或者，终端向服务器发送针对待检测图像的检测请求(包括待检测图像)，服务器根据接收的针对待检测图像的检测请求执行基于人工智能的目标检测方法，并向终端发送待检测图像的目标检测结果，即待检测图像中包括目标的包围框。

本申请实施例提供的用于目标检测的电子设备可以是各种类型的终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器；终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

参见图1，图1是本申请实施例提供的目标检测系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200(运行有客户端，例如目标检测客户端、目标跟踪客户端)可以被用来获取针对待检测图像的检测请求，例如，用户在客户端中输入包括目标的待检测图像后，终端自动获取针对待检测图像的检测请求。

在一些实施例中，终端中运行的客户端中可以植入有目标检测插件，用以在客户端本地实现基于人工智能的目标检测方法。例如，终端200获取针对待检测图像的检测请求后，调用目标检测插件，以实现基于人工智能的目标检测方法，通过第一级提取网络获取待检测图像中的多个候选框，并通过第二级检测网络结合多个候选框获取包括目标的包围框，以响应针对待检测图像的检测请求，例如，对于目标检测应用，用户输入包括目标的脸部图像后，则自动获取针对脸部图像的检测请求，通过第一级提取网络获取脸部图像中的多个候选框，并通过第二级检测网络结合多个候选框获取包括人脸的包围框，以响应针对脸部图像的检测请求，以便后续根据人脸检测结果进行后续的行为分析和异常检测，例如通过检测到的人脸，确定是否开放门禁等。

在一些实施例中，终端200获取针对待检测图像的检测请求后，调用服务器100的目标检测接口(可以提供为云服务的形式，即目标检测服务)，服务器100通过第一级提取网络获取待检测图像中的多个候选框，并通过第二级检测网络结合多个候选框获取包括目标的包围框，以响应针对待检测图像的检测请求，例如，对于目标跟踪应用，对视频进行解码，以获取多个视频帧，通过第一级提取网络获取第一个视频帧中的多个候选框，并通过第二级检测网络结合多个候选框获取第一个视频帧中包括人脸的包围框，并基于第一个视频帧的目标检测结果(包括人脸的包围框)进行后续视频帧的人脸跟踪，以通过人脸的轨迹获取行人的运动轨迹，以实现准确的行人跟踪，例如在追踪罪犯时，通过获取罪犯的历史逃跑路线，预测罪犯的运动轨迹，有利于警方快速抓捕罪犯。

下面说明本申请实施例提供的用于目标检测的电子设备的结构，参见图2，图2是本申请实施例提供的用于目标检测的电子设备500的结构示意图，以电子设备500是服务器为例说明，图2所示的用于目标检测的电子设备500包括：至少一个处理器510、存储器550以及至少一个网络接口520。电子设备500中的各个组件通过总线系统530耦合在一起。可理解，总线系统530用于实现这些组件之间的连接通信。总线系统530除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统530。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块553，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

在一些实施例中，本申请实施例提供的目标检测装置可以采用软件方式实现，例如，可以是上文所述的终端中的目标检测插件，可以是上文所述的服务器中目标检测服务。当然，不局限于此，本申请实施例提供的目标检测装置可以提供为各种软件实施例，包括应用程序、软件、软件模块、脚本或代码在内的各种形式。

图2示出了存储在存储器550中的目标检测装置555，其可以是程序和插件等形式的软件，例如目标检测插件，并包括一系列的模块，包括提取模块5551、第一处理模块5552、截图模块5553、第二处理模块5554、映射模块5555、变换模块5556以及跟踪模块5557；其中，包括提取模块5551、第一处理模块5552、截图模块5553、第二处理模块5554、映射模块5555、变换模块5556以及跟踪模块5557用于实现本申请实施例提供的目标检测功能。

如前，本申请实施例提供的基于人工智能的目标检测方法可以由各种类型的电子设备实施。参见图3A，图3A是本申请实施例提供的基于人工智能的目标检测方法的流程示意图，结合图3A示出的步骤进行说明。

在下面的步骤中，候选框为潜在的包括目标的包围框。候选框可以是矩形框，也可以是各种不规则的方框等。

在步骤101中，对包括目标的待检测图像进行特征提取处理，以得到包括目标的特征图。

作为获取待检测图像的示例，用户在客户端(运行于终端)中输入包括目标的待检测图像，终端自动获取针对待检测图像的检测请求(包括待检测图像)，并将针对待检测图像的检测请求发送至服务器，服务器接收针对待检测图像的检测请求，并提取待检测图像。然后，从待检测图像中提取包括目标的特征图，以便后续根据特征图进行目标预测。

其中，包括目标的特征图为对待检测图像进行初次特征提取所得到的特征图，该特征图包括待检测图像的所有笼统表征的特征，特别是目标的特征。

在一些实施例中，对包括目标的待检测图像进行特征提取处理，以得到包括目标的特征图，包括：对包括目标的待检测图像进行卷积处理，以得到待检测图像的卷积特征图；对卷积特征图进行下采样编码处理，以得到包括目标的特征图。

例如，服务器接收针对待检测图像的检测请求，并提取待检测图像，调用深度卷积网络，通过深度卷积网络对待检测图像先进行卷积，得到待检测图像的卷积特征图，然后通过深度卷积网络对卷积特征图进行下采样编码，以得到包括目标的特征图，从而去除待检测图像中不重要的特征，提取包括目标的重要特征，以便进行后续的目标检测处理。

在步骤102中，基于特征图对待检测图像进行基于第一级提取网络的目标预测处理，以得到待检测图像中的多个候选框。

例如，在服务器得到包括目标的特征图后，先通过第一级提取网络结合特征图，对待检测图像进行候选目标预测，得到待检测图像中的多个候选框，其中，候选框为可能包括目标的包围框。

参见图3B，图3B是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图3B示出步骤102可以通过图3B示出的步骤1021至步骤1022实现：在步骤1021中，针对特征图中的任一像素点执行以下处理：通过第一级提取网络对像素点进行目标预测处理，以得到像素点的坐标偏移量以及置信度，基于像素点的坐标以及坐标偏移量，确定像素点对应的候选框；在步骤1022中，基于多个像素点的置信度，对多个像素点分别对应的候选框进行筛选处理，以得到待检测图像中的多个候选框。

其中，用于目标检测的神经网络包括第一级提取网络。例如，如图4所示，通过第一级提取网络对像素点401进行目标预测，获得像素点401的坐标偏移量以及置信度，基于像素点401的坐标以及坐标偏移量，确定像素点401对应的候选框402，基于特征图中所有像素点的置信度，对所有像素点分别对应的候选框进行筛选，以得到待检测图像中的多个可能包含目标的候选框。

在一些实施例中，坐标偏移量包括像素点到对应的候选框的端点的距离；基于像素点的坐标以及坐标偏移量，确定像素点对应的候选框，包括：将像素点的坐标与像素点的坐标偏移量相加，以得到像素点对应的候选框的端点坐标；对端点坐标进行连接处理，以得到像素点对应的候选框。

例如，在服务器得到任一像素点的坐标偏移量后，可以根据像素点的坐标以及坐标偏移量，确定像素点对应的候选框。如图5所示，服务器预测得到的像素点401的坐标偏移量为l*、t*、r*、b*，其中，l*表示像素点401到对应的预测候选框的端点501的横向距离，t*表示像素点401到对应的预测候选框的端点501的纵向距离，r*表示像素点401到对应的预测候选框的端点502的横向距离，b*表示像素点401到对应的预测候选框的端点502的纵向距离，像素点401的坐标为(x，y)则l*+x＝x₀，t*+y＝y₀，r*+x＝x₁，b*+y＝y₁，从而得到像素点401对应的候选框402的端点坐标，即端点501的坐标(x₀，y₀)、端点502的坐标(x₁，y₁)。

在一些实施例中，对多个像素点分别对应的候选框进行筛选处理，以得到待检测图像中的多个候选框，包括：将像素点的置信度作为对应的候选框的置信度，并将多个候选框存入候选框集合中；基于候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为待检测图像中的候选框；基于最大置信度所对应的候选框，对候选框集合中的候选框进行去重处理，以得到新的候选框集合；基于新的候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为待检测图像中的候选框，并基于最大置信度所对应的候选框，对新的候选框集合中的候选框进行去重处理，直至新的候选框集合为空。

承接上述示例，在服务器获得所有像素点分别对应的候选框后，需要对这些候选框进行筛选，以获得少量的候选框，以进行后续的第二级检测网络的预测处理，从而减少计算量，提高目标检测的效率。

例如，将像素点的置信度作为对应的候选框的置信度，并将所有候选框存入候选框集合(又称候选池，用于存储候选框的存储区域)中。基于候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为待检测图像中的一个候选框，基于最大置信度所对应的候选框，对候选框集合中的候选框进行去重处理，以得到新的候选框集合，然后基于新的候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为待检测图像中的又一个候选框，并基于该候选框，继续对新的候选框集合中的候选框进行去重处理，直至新的候选框集合为空，从而筛选出重叠程度比较小的候选框，以便后续从少量候选框中筛选出最准确的包含目标的候选框。

在一些实施例中，对包括目标的待检测图像进行特征提取处理之前，还包括：对包括目标的原始图像进行多次尺度变换处理，以得到多个对应尺度的尺度图像，并将尺度图像作为待检测图像；将多个候选框存入候选框集合中，包括：针对多个尺度图像中的任一尺度图像执行以下处理：基于尺度图像的尺寸与原始图像的尺寸的对应关系，对尺度图像中的多个候选框进行尺度变换处理，将经过尺度变换处理的候选框存入候选框集合中。

承接上述示例，由于待检测图像中往往存在尺度各异的目标，因此可以在对待检测图像进行特征提取处理前，即输入第一级提取网络之前，可以对包括目标的原始图像进行多次尺度变换，以得到多个对应尺度的尺度图像，并将多个尺度图像分别输入第一级提取网络。针对多个尺度图像中的任一尺度图像执行以下处理：通过第一级提取网络对该尺度图像中的任一像素点进行目标预测处理，以得到像素点的坐标偏移量以及置信度，基于像素点的坐标以及坐标偏移量，确定像素点对应的候选框。将尺度图像中像素点的置信度作为尺度图像中对应的候选框的置信度，并基于尺度图像的尺寸与原始图像的尺寸的对应关系，对尺度图像中的多个候选框进行尺度变换处理，将经过尺度变换处理的候选框存入候选框集合中，以通过非极大值抑制方法进行去重处理，以得到少量的候选框。

例如，将经过尺度变换处理的候选框存入候选框集合中后，基于候选框集合中的候选框(即将经过尺度变换处理的候选框)的置信度，将最大置信度所对应的候选框作为待检测图像中的候选框，基于最大置信度所对应的候选框，对候选框集合中的候选框进行去重处理，以得到新的候选框集合；基于新的候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为待检测图像中的候选框，并基于最大置信度所对应的候选框，对新的候选框集合中的候选框进行去重处理，直至新的候选框集合为空，从而筛选出重叠程度比较小的候选框，以便后续从少量候选框中筛选出最准确的包含各种尺寸的目标的候选框。

在一些实施例中，对候选框集合中的候选框进行去重处理，包括：将候选框集合中最大置信度所对应的候选框作为参考候选框，并确定参考候选框与第一类其他候选框的重叠度，其中，第一类其他候选框包括候选框集合中除参考候选框外的候选框；当参考候选框与第一类其他候选框的重叠度大于第一重叠阈值时，从候选框集合中清除第一类其他候选框以及参考候选框；对应的，对新的候选框集合中的候选框进行去重处理，包括：将新的候选框集合中最大置信度所对应的候选框作为新的参考候选框，并确定新的参考候选框与第二类其他候选框的重叠度，其中，第二类其他候选框包括新的候选框集合中除新的参考候选框外的候选框；当新的参考候选框与第二其他候选框的重叠度大于第一重叠阈值时，从新的候选框集合中清除第二其他候选框以及新的参考候选框。

例如，候选框集合中包括候选框1(置信度为0.5)、候选框2(置信度为0.6)、候选框3(置信度为0.7)以及候选框4(置信度为0.9)，则将候选框4作为待检测图像的候选框，并获取候选框4分别与候选框1、候选框2、候选框3的重叠度，例如，候选框4与候选框1的重叠度为0.2、候选框4与候选框2的重叠度为0.3、候选框4与候选框3的重叠度为0.8，其中，重叠阈值为0.7，则在候选框集合中清除候选框3和候选框4，以形成新的候选框集合，该新的候选框集合中包括候选框1和候选框2，则将候选框2作为待检测图像的候选框，并获取候选框2分别与候选框1的重叠度，例如，候选框2与候选框1的重叠度为0.8，则在新的候选框集合中清除候选框1和候选框2，以形成新的候选框集合，继续进行去重处理，由于新的候选框集合为空，则最终确定出的待检测图像的候选框为候选框2和候选框4。

在步骤103中，基于多个候选框对待检测图像进行截图处理，以得到对应各候选框的图像块。

例如，在服务器通过第一级提取网络获取待检测图像中的多个候选框后，可以基于多个候选框对待检测图像进行截图处理，以得到对应各候选框的图像块，以便后续通过第二级检测网络对图像块进行目标预测。

如图6A所示，服务器获得待检测图像601中的候选框602，通过候选框602对待检测图像进行截取处理，以得到如图6B所示的图像块603，后续直接将图像块输入第二级检测网络对图像块进行目标预测，或者先扩大图像块，然后再将扩大的图像块输入第二级检测网络对图像块进行目标预测。

在步骤104中，对对应各候选框的图像块进行基于第二级检测网络的目标预测处理，以确定包括目标的目标图像块以及目标图像块中包括目标的包围框。

例如，在服务器获得各候选框的图像块后，将各候选框的图像块输入至第二级检测网络，通过第二级检测网络对各候选框的图像块进行目标预测，最终获得从各图像块中筛选出包括目标的目标图像块，并获得目标图像块中包括目标的包围框。

在一些实施例中，用于目标检测的神经网络包括第二级检测网络；对对应各候选框的图像块进行基于第二级检测网络的目标预测处理，以确定包括目标的目标图像块以及目标图像块中包括目标的包围框，包括：针对多个图像块的任一图像块执行以下处理：通过第二级检测网络对图像块中的任一像素点进行目标预测处理，以得到像素点的坐标偏移量以及置信度，基于像素点的坐标以及坐标偏移量，确定像素点对应的候选框，将最大置信度所对应的像素点对应的候选框作为图像块的候选框，并将最大置信度作为图像块的置信度；基于各图像块的置信度，对图像块进行排序，将最大置信度所对应的图像块作为包括目标的目标图像块，并将最大置信度所对应的图像块的候选框作为包括目标的包围框。

例如，在服务器得到多个图像块后，将多个图像块依次输入第二级检测网络后，通过第二级检测网络对任一图像块中的任一像素点进行目标预测处理，以得到像素点的坐标偏移量以及置信度，基于像素点的坐标以及坐标偏移量，确定像素点对应的候选框，将最大置信度所对应的像素点对应的候选框作为图像块的候选框，并将最大置信度作为图像块的置信度。最后，基于所有图像块的置信度，将最大置信度所对应的图像块的候选框作为包括目标的包围框。

在步骤105中，将目标图像块中包括目标的包围框映射至待检测图像中，以得到待检测图像中包括目标的包围框。

例如，在服务器得到目标图像块中包括目标的包围框后，需要从待检测图像中获取包括目标的包围框，因此，将目标图像块中包括目标的包围框映射至待检测图像中，以得到待检测图像中包括目标的包围框，从而准确地从待检测图像中检测出目标。

在一些实施例中，基于上述目标检测方法还可以实现目标跟踪方案，参见图3C，基于图3A，图3C还包括步骤106-108：在步骤106中，对视频进行解码处理，以得到多个视频帧；在步骤107中，将多个视频帧中的第一个视频帧作为待检测图像，以进行基于第一级提取网络的目标预测处理、以及基于第二级检测网络的目标预测处理；在步骤108中，基于第一个视频帧的目标检测结果，对第一个视频帧的后续视频帧进行目标跟踪；其中，后续视频帧的解码时间戳晚于第一个视频帧的解码时间戳。

例如，在服务器获得视频后，对视频进行解码处理，以得到多个视频帧，先将多个视频帧中的第一个视频帧作为待检测图像，以进行步骤101-105的目标检测处理，得到第一个视频帧的目标检测结果，当检测到第一个视频帧中存在包括目标的包围框时，第一个视频帧的目标检测结果表征检测到包围框；当检测到第一个视频帧中不存在包括目标的包围框时，第一个视频帧的目标检测结果表征未检测到包围框。最后，基于第一个视频帧的目标检测结果，对第一个视频帧的后续视频帧进行目标跟踪，其中，后续视频帧可以是与第一个视频帧相邻的第二个视频帧，还可以是与第一个视频帧有间隔的第三个视频帧、第四个视频帧等。

在一些实施例中，基于第一个视频帧的目标检测结果，对第一个视频帧的后续视频帧进行目标跟踪，包括：当第一个视频帧的目标检测结果表征未检测到第一视频帧的包围框时，通过第一级提取网络以及第二级检测网络，对第一个视频帧的后续视频帧进行目标预测处理，直至检测到后续视频帧中包括目标的包围框；当第一个视频帧的目标检测结果表征检测到第一视频帧的包围框时，通过第二级检测网络对后续视频帧进行目标预测处理，以得到后续视频帧的目标检测结果。

例如，当第一个视频帧的目标检测结果表征未检测到包围框时，则将第二个视频帧先输入至第一级提取网络进行目标预测，然后将第一级提取网络的输出的候选框，基于多个候选框对第二个视频帧进行截图，以得到对应各候选框的图像块，再输入至第二级检测网络进行目标预测，及通过第一级提取网络以即第二级检测网络检测第二个视频帧是否存在包括目标的包围框，当第二个视频帧不存在包括目标的包围框，对第三视频帧进行基于第一级提取网络的目标预测处理以及基于第二级检测网络的目标预测处理，直至检测到后续视频帧中包括目标的包围框。

当第一个视频帧的目标检测结果表征检测到包围框时，则基于第一个视频帧的包围框，对第二个视频帧进行截图处理，以获得对应包围框的图像块，并将该图像块输入至第二级检测网络进行目标预测，通过第二级检测网络检测第二个视频帧中的包括目标的包围框，基于第二个视频帧的包围框，继续基于第二级检测网络进行目标预测，即通过第二级检测网络实现目标跟踪。

下面，将说明本申请实施例是视频的目标跟踪场景中的示例性应用。

单目标跟踪算法是计算机视觉领域的重要基础算法，其目的是给定感兴趣目标(如行人、车辆等)在某一视频帧的位置，单目标跟踪算法给出该目标在后续视频帧中的位置，以得到完整的目标轨迹。利用感兴趣目标的轨迹信息，可以很方便地进行后续的行为分析和异常检测。在实际应用中，包括目标的给定框(候选框)通常是由目标检测算法给出，若跟踪的目标在某一视频帧消失，则会重新运行目标检测算法以获取包括目标的初始检测框(包括目标的包围框)。

相关技术中的单目标跟踪算法都是在假定初始检测框给定的情况下进行目标跟踪，以得到后续视频帧中的检测框。例如，某一视频帧跟踪失败，则会重新调用一个独立的目标检测器来重新得到目标位置。相关技术中，通过基于相关滤波的方法，利用滤波模板与候选区域做相关运算，寻找当前帧中响应最大的区域，即该视频帧检测框的位置；基于深度学习的单目标跟踪方法，将相关滤波过程融合进网络，利用深度卷积网络提取到的富含强语义信息的特征，可以更好地对抗目标遮挡、尺度变化、背景干扰等困难。

但是，基于相关滤波的目标跟踪算法在跟踪速度上具有一定优势，但是对于实际应用环境中面对的复杂多变的背景、目标尺度变化、目标遮挡等问题，跟踪效果很差。基于深度学习的跟踪方法在跟踪效果上表现优异，但是却不够高效。且这些方法均没有解决实际应用中存在的跟踪目标消失后，需要重新调用额外的目标检测器获取目标的问题。

为了解决上述问题，本申请实施例提出一种简单高效的无预设框联合检测跟踪网络，该网络是一个两级结构，整个网络可以作为独立的检测器对输入图像进行目标检测，也可以只使用第二级网络对检测出的目标进行跟踪。其中，第一级网络是候选检测框提取网络(第一级提取网络)，因此若目标丢失，则直接运行第一级网络即可重新获得多个包括目标的候选框；第二级网络是检测框细化网络(即第二级检测网络，可以细化第一级网络输出的候选框，得到最终的目标框)，既可以输入第一级网络的候选框，以得到输入图像的目标检测结果，也可以输入上一视频帧的目标框的位置，以得到当前视频帧的跟踪结果。

本申请实施例提供的网络是一个简单高效的联合检测跟踪框架，同时也是一个无预设框的检测方法，可以适应更大的目标尺度范围，得到更精确的检测框或跟踪框。本申请实施例将目标检测网络拆分成两级网络，并将第二级网络与目标跟踪复用，有利于减小模型大小。

作为示例，将本申请实施例提供的网络应用于人脸目标跟踪，如图7所示，图7是本申请实施例提供的人脸目标跟踪示意图，通过方框701框出视频图像中的人脸，并能显示出从初始帧(第一帧图像)到当前视频帧方框经过的轨迹，其中，点702为初始帧中方框的中心点，线条703为人脸从初始帧到当前帧经过的轨迹。

下面，具体介绍本申请实施例提供的无预设框联合检测跟踪网络，该无预设框联合检测跟踪网络包括第一级网络和第二级网络。其中，第一级网络采用无预设框的单类别目标框回归技术。

关于无预设框的单类别目标框回归技术(无预设框的目标检测方法)：在目标检测领域，通过引入人工指定的预设框，然后以预设框为参考，回归真实目标框(包围框)偏移量的方式，基于深度的目标检测技术得到了快速发展，检测器效果也大幅提升。但是基于预设框的目标检测技术，还需要依赖于预设框的尺度设置，对于偏离所有预设框尺度的不常见尺度的目标，检测效果却很差。无预设框的技术在检测效果上也得到了大幅提升，相比于基于预设框的检测技术，无预设框的方法能够适应更广的尺度范围，同时速度会更快。

对于给定的待检测图像，经过一个下采样步长为s(自然数)的深度卷积网络(例如，ResNet18)提取特征图。对于特征图上的任意一个点(x，y)，回归一个中心点置信度(centerness)以及该点到真实检测框四个边界(端点)的距离，其回归目标定义如公式(1)-(4)所示：

其中，(x₀，y₀)表示第i个检测框(训练时，第i个检测框为距离点(x，y)最近的检测框，且该点(x，y)处于第i个检测框内)的左上角坐标，(x₁，y₁)表示第i个检测框的右下角坐标。对于centerness定义如公式(5)所示：

如图8所示，图8是本申请实施例提供的无预设框的目标检测示意图，点801表示任意点(x，y)，方框802表示第i个检测框，由图8可知，如果某一点越靠近检测框中心，则centerness的值越大，其中，centerness值的范围是[0，1]。

在模型训练时，对特征图上的某一点进行预测，将得到5个预测值，分别是l′*、t′*、r′*、b′*以及centerness′(每个点都会有预测的centerness′以及相应的坐标偏移量，通过偏移量可以计算出预测的检测框)，由于centerness′的取值范围是[0，1]，因此该预测值在输出前会经过激活函数(sigmoid)激活。

在模型推理时，centerness′的值将会作为对应预测出的检测框的置信度，然后通过非极大值抑制，置信度最高的检测框会被保留，作为最终的检测框。

关于第一级网络(目标候选框提取网络)：如图9所示，图9是本申请实施例提供的目标框提取网络示意图，也即是联合检测跟踪框架的第一级网络。第一级网络使用了上述无预设框的目标检测方法，由于第一级网络的输入是原图，而原图中往往存在尺度各异的目标，而第一级网络只有一个输出层，因此在待检测图像输入模型之前进行金字塔变换，缩放比例分别为0.25、0.5、1.0、1.5、2.0共五个尺度(相当于一张图在不同尺度检测五次来覆盖可能出现的目标)，以得到对应的尺度的检测结果，其中，本发明实施例并不局限于五个尺度，还可以是其他尺度。多个尺度的检测结果恢复至原图的尺寸，并集合在一起，统一进行非极大值抑制(其中，阈值为0.7，本发明实施例的阈值并不局限于0.7，也可以是其他的数值)，以得到多个候选框。

关于第二级网络(目标框细化网络)：如图10所示，图10是本申请实施例提供的目标框细化网络示意图，也即是联合检测跟踪框架的第二级网络，也使用了上述的无预设框的目标检测技术。该第二级网络有两个角色：一是可以作为检测框细化网络，即将第一级网络输出的候选框进行精确地回归，得出最终检测框的准确坐标(第一级网络输出的候选框会在原图中截取对应图像块后，送入第二级网络再做一次目标检测)；二是可以利用前一视频帧的跟踪框，在当前视频帧上截取相应图像块，然后回归出目标在当前视频帧中的位置，从而实现目标跟踪。

在训练时，使用第一级网络输出的所有候选框(不进行非极大值抑制)，将这些候选框与真实检测框进行匹配，得到对应的重叠度(IoU，Intersection over Union)，当重叠度大于0.5(本发明实施例并不局限于0.5)的候选框视为正样本，当重叠度小于0.3(本发明实施例并不局限于0.3)的候选框视为负样本。将这些候选框随机扩大1.0-1.5倍(本发明实施例并不局限于1.0-1.5)，然后送入第二级网络进行训练。

在测试时，当进行目标检测时，则首先将待检测图像输入第一级网络，以获得第一级网络的输出结果(非极大值抑制之后)，即多个候选框，然后将第一级网络的输出结果外扩1.2倍(本发明实施例并不局限于1.2)，并依次送入第二级网络进行检测框回归，最后选出置信度最高的检测框作为目标检测结果。当进行目标跟踪时，将上一视频帧的检测框作为候选框，然后在扩大1.2倍后在当前视频帧上截取对应图像块，然后将截取的图像块输入第二级网络，通过第二级网络输出目标在当前视频帧的跟踪结果。

本申请实施例提出的无预设框的联合检测跟踪框架，由于不使用预设框，因此能够适应更大尺度范围的目标，在这实际跟踪中非常重要，因为跟踪目标不停地在运动，从而离摄像头的距离会变化很大，进而导致其尺度变化很大。

综上，本申请实施例提供一种联合的单目标检测和跟踪方案(无预设框联合检测跟踪网络)，该无预设框联合检测跟踪网络是一个两级结构，第一级网络作为候选目标框提取网络，第二级网络以第一级网络的候选框作为输入，以得到细化的目标检测框。本申请实施例具有以下有益效果：

1)两级网络都使用了无预设框的方法，避免了人工指定大量预设框带来的泛化效果差的问题，同时也更高效，第二级网络可以同时回归出多个检测框，然后从中选出置信度最高的检测框作为最终的检测框；

2)第二级网络，即目标框细化网络，同时也可以直接用于目标跟踪，当目标跟踪失败后，直接调用第一级网络重新获取候选目标框即可，即本申请实施例的第二级网络与目标跟踪网络是共享的，从而可以大幅减少总的模型大小。

至此已经结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的基于人工智能的目标检测方法。本申请实施例还提供目标检测装置，实际应用中，目标检测装置中的各功能模块可以由电子设备(如终端设备、服务器或服务器集群)的硬件资源，如处理器等计算资源、通信资源(如用于支持实现光缆、蜂窝等各种方式通信)、存储器协同实现。图2示出了存储在存储器550中的目标检测装置555，其可以是程序和插件等形式的软件，例如，软件C/C++、Java等编程语言设计的软件模块、C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块、应用程序接口、插件、云服务等实现方式，下面对不同的实现方式举例说明。

示例一、目标检测装置是移动端应用程序及模块

本申请实施例中的目标检测装置555可提供为使用软件C/C++、Java等编程语言设计的软件模块，嵌入到基于Android或iOS等系统的各种移动端应用中(以可执行指令存储在移动端的存储介质中，由移动端的处理器执行)，从而直接使用移动端自身的计算资源完成相关的箱式结构检测任务，并且定期或不定期地通过各种网络通信方式将处理结果传送给远程的服务器，或者在移动端本地保存。

示例二、目标检测是服务器应用程序及平台

本申请实施例中的目标检测装置555可提供为使用C/C++、Java等编程语言设计的应用软件或大型软件系统中的专用软件模块，运行于服务器端(以可执行指令的方式在服务器端的存储介质中存储，并由服务器端的处理器运行)，服务器使用自身的计算资源完成相关的信息推荐任务。

本申请实施例还可以提供为在多台服务器构成的分布式、并行计算平台上，搭载定制的、易于交互的网络(Web)界面或其他各用户界面(UI，User Interface)，形成供个人、群体或单位使用的信息推荐平台等。

示例三、目标检测装置是服务器端应用程序接口(API，Application ProgramInterface)及插件

本申请实施例中的目标检测装置555可提供为服务器端的API或插件，以供用户调用，以执行本申请实施例的基于人工智能的目标检测方法，并嵌入到各类应用程序中。

示例四、目标检测装置是移动设备客户端API及插件

本申请实施例中的目标检测装置555可提供为移动设备端的API或插件，以供用户调用，以执行本申请实施例的基于人工智能的目标检测方法。

示例五、目标检测装置是云端开放服务

本申请实施例中的目标检测装置555可提供为向用户开发的目标检测云服务，供个人、群体或单位获取推荐列表。

其中，目标检测装置555包括一系列的模块，包括提取模块5551、第一处理模块5552、截图模块5553、第二处理模块5554、映射模块5555、变换模块5556以及跟踪模块5557。下面继续说明本申请实施例提供的目标检测装置555中各个模块配合实现目标检测的方案。

提取模块5551，用于对包括目标的待检测图像进行特征提取处理，以得到包括所述目标的特征图；第一处理模块5552，用于基于所述特征图对所述待检测图像进行基于第一级提取网络的目标预测处理，以得到所述待检测图像中的多个候选框；截图模块5553，用于基于所述多个候选框对所述待检测图像进行截图处理，以得到对应各所述候选框的图像块；第二处理模块5554，用于对对应各所述候选框的图像块进行基于第二级检测网络的目标预测处理，以确定包括所述目标的目标图像块以及所述目标图像块中包括所述目标的包围框；映射模块5555，用于将所述目标图像块中包括所述目标的包围框映射至所述待检测图像中，以得到所述待检测图像中包括所述目标的包围框。

在一些实施例中，用于目标检测的神经网络包括所述第一级提取网络；所述第一处理模块5552还用于针对所述特征图中的任一像素点执行以下处理：通过所述第一级提取网络对所述像素点进行目标预测处理，以得到所述像素点的坐标偏移量以及置信度，基于所述像素点的坐标以及坐标偏移量，确定所述像素点对应的候选框；基于多个所述像素点的置信度，对多个所述像素点分别对应的候选框进行筛选处理，以得到所述待检测图像中的多个候选框。

在一些实施例中，所述坐标偏移量包括所述像素点到所述对应的候选框的端点的距离；所述第一处理模块5552还用于将所述像素点的坐标与所述像素点的坐标偏移量相加，以得到所述像素点对应的候选框的端点坐标；对所述端点坐标进行连接处理，以得到所述像素点对应的候选框。

在一些实施例中，所述第一处理模块5552还用于将所述像素点的置信度作为所述对应的候选框的置信度，并将多个所述候选框存入候选框集合中；基于所述候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为所述待检测图像中的候选框；基于所述最大置信度所对应的候选框，对所述候选框集合中的候选框进行去重处理，以得到新的候选框集合；基于所述新的候选框集合中的候选框的置信度，将最大置信度所对应的候选框作为所述待检测图像中的候选框，并基于最大置信度所对应的候选框，对所述新的候选框集合中的候选框进行去重处理，直至所述新的候选框集合为空。

在一些实施例中，所述目标检测装置555还包括：变换模块5556，用于对包括所述目标的原始图像进行多次尺度变换处理，以得到多个对应尺度的尺度图像，并将所述尺度图像作为所述待检测图像；所述第一处理模块5552还用于针对多个所述尺度图像中的任一所述尺度图像执行以下处理：基于所述尺度图像的尺寸与所述原始图像的尺寸的对应关系，对所述尺度图像中的多个所述候选框进行尺度变换处理，将经过尺度变换处理的所述候选框存入所述候选框集合中。

在一些实施例中，所述第一处理模块5552还用于将所述候选框集合中最大置信度所对应的候选框作为参考候选框，并确定所述参考候选框与第一类其他候选框的重叠度，其中，所述第一类其他候选框包括所述候选框集合中除所述参考候选框外的候选框；当所述参考候选框与所述第一类其他候选框的重叠度大于第一重叠阈值时，从所述候选框集合中清除所述第一类其他候选框以及所述参考候选框；将所述新的候选框集合中最大置信度所对应的候选框作为新的参考候选框，并确定所述新的参考候选框与第二类其他候选框的重叠度，其中，所述第二类其他候选框包括所述新的候选框集合中除所述新的参考候选框外的候选框；当所述新的参考候选框与所述第二其他候选框的重叠度大于所述第一重叠阈值时，从所述新的候选框集合中清除所述第二其他候选框以及所述新的参考候选框。

在一些实施例中，用于目标检测的神经网络包括所述第二级检测网络；所述第二处理模块5554还用于针对多个所述图像块的任一所述图像块执行以下处理：通过所述第二级检测网络对所述图像块中的任一像素点进行目标预测处理，以得到所述像素点的坐标偏移量以及置信度，基于所述像素点的坐标以及坐标偏移量，确定所述像素点对应的候选框，将最大置信度所对应的像素点对应的候选框作为所述图像块的候选框，并将所述最大置信度作为所述图像块的置信度；基于各所述图像块的置信度，对所述图像块进行排序，将最大置信度所对应的图像块作为包括所述目标的目标图像块，并将最大置信度所对应的图像块的候选框作为包括所述目标的包围框。

在一些实施例中，所述目标检测装置555还包括：跟踪模块5557，用于对视频进行解码处理，以得到多个视频帧；将所述多个视频帧中的第一个视频帧作为所述待检测图像，以进行基于所述第一级提取网络的目标预测处理、以及基于所述第二级检测网络的目标预测处理；基于所述第一个视频帧的目标检测结果，对所述第一个视频帧的后续视频帧进行目标跟踪；其中，所述后续视频帧的解码时间戳晚于所述第一个视频帧的解码时间戳。

在一些实施例中，所述跟踪模块5557还用于当所述第一个视频帧的目标检测结果表征未检测到所述第一视频帧的包围框时，通过所述第一级提取网络以及所述第二级检测网络，对所述第一个视频帧的后续视频帧进行目标预测处理，直至检测到所述后续视频帧中包括所述目标的包围框；当所述第一个视频帧的目标检测结果表征检测到所述第一视频帧的包围框时，通过所述第二级检测网络对所述后续视频帧进行目标预测处理，以得到所述后续视频帧的目标检测结果。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的目标检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的目标检测方法，例如，如图3A-3C示出的基于人工智能的目标检测方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

用于目标检测的神经网络包括所述第一级提取网络；

所述基于所述特征图对所述待检测图像进行基于第一级提取网络的目标预测处理，以得到所述待检测图像中的多个候选框，包括：

针对所述特征图中的任一像素点执行以下处理：

3.根据权利要求2所述的方法，其特征在于，

所述坐标偏移量包括所述像素点到所述对应的候选框的端点的距离；

所述基于所述像素点的坐标以及坐标偏移量，确定所述像素点对应的候选框，包括：

将所述像素点的坐标与所述像素点的坐标偏移量相加，以得到所述像素点对应的候选框的端点坐标；

4.根据权利要求2所述的方法，其特征在于，所述对多个所述像素点分别对应的候选框进行筛选处理，以得到所述待检测图像中的多个候选框，包括：

将所述像素点的置信度作为所述对应的候选框的置信度，并将多个所述候选框存入候选框集合中；

5.根据权利要求4所述的方法，其特征在于，所述对包括目标的待检测图像进行特征提取处理之前，还包括：

对包括所述目标的原始图像进行多次尺度变换处理，以得到多个对应尺度的尺度图像，并将所述尺度图像作为所述待检测图像；

所述将多个所述候选框存入候选框集合中，包括：

针对多个所述尺度图像中的任一所述尺度图像执行以下处理：

6.根据权利要求4或5所述的方法，其特征在于，

所述对所述候选框集合中的候选框进行去重处理，包括：

将所述候选框集合中最大置信度所对应的候选框作为参考候选框，并确定所述参考候选框与第一类其他候选框的重叠度，其中，所述第一类其他候选框包括所述候选框集合中除所述参考候选框外的候选框；

所述对所述新的候选框集合中的候选框进行去重处理，包括：

7.根据权利要求1所述的方法，其特征在于，

用于目标检测的神经网络包括所述第二级检测网络；

所述对对应各所述候选框的图像块进行基于第二级检测网络的目标预测处理，以确定包括所述目标的目标图像块以及所述目标图像块中包括所述目标的包围框，包括：

针对多个所述图像块的任一所述图像块执行以下处理：

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对视频进行解码处理，以得到多个视频帧；

9.根据权利要求8所述的方法，其特征在于，所述基于所述第一个视频帧的目标检测结果，对所述第一个视频帧的后续视频帧进行目标跟踪，包括：

当所述第一个视频帧的目标检测结果表征未检测到所述第一视频帧的包围框时，通过所述第一级提取网络以及所述第二级检测网络，对所述第一个视频帧的后续视频帧进行目标预测处理，直至检测到所述后续视频帧中包括所述目标的包围框；

10.一种目标检测装置，其特征在于，所述装置包括：