CN112052787A

CN112052787A - 基于人工智能的目标检测方法、装置及电子设备

Info

Publication number: CN112052787A
Application number: CN202010913961.7A
Authority: CN
Inventors: 金肖莹
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-08
Anticipated expiration: 2040-09-03
Also published as: CN112052787B

Abstract

本申请提供了一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质；方法包括：对待检测图像进行特征提取处理，得到特征图；对所述特征图进行区域生成处理，得到多个检测框；对每个所述检测框进行预测处理，得到每个所述检测框包括待识别的目标的置信度；根据多个所述检测框之间的重合程度，对每个所述检测框包括所述目标的置信度进行抑制处理，得到新置信度；根据每个所述检测框包括所述目标的新置信度，对所述多个检测框进行筛选处理，将筛选得到的检测框作为包括所述目标的目标检测框。通过本申请，能够提升目标检测的精度，适用于目标分布较为密集的场景。

Description

基于人工智能的目标检测方法、装置及电子设备

技术领域

本申请涉及人工智能和计算机视觉技术，尤其涉及一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。计算机视觉技术(Computer Vision，CV)是人工智能的一个重要分支，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

目标检测是计算机视觉技术的一个重要应用，主要研究如何从待检测图像中检测出特定的目标，如人体、猫、狗或汽车等。在相关技术提供的方案中，通常是在得到待检测图像中多个检测框包括目标的置信度后，将置信度与设定的阈值进行对比，从而判断检测框是否包括目标。但是，在待检测图像包括较多数量的目标，即目标分布较为密集的情况下，相关技术提供的方案的检测精度低，容易导致误检和漏检。

发明内容

本申请实施例提供一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质，能够提升目标检测的精度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种基于人工智能的目标检测方法，包括：

对待检测图像进行特征提取处理，得到特征图；

对所述特征图进行区域生成处理，得到多个检测框；

对每个所述检测框进行预测处理，得到每个所述检测框包括待识别的目标的置信度；

根据多个所述检测框之间的重合程度，对每个所述检测框包括所述目标的置信度进行抑制处理，得到新置信度；

根据每个所述检测框包括所述目标的新置信度，对所述多个检测框进行筛选处理，将筛选得到的检测框作为包括所述目标的目标检测框。

本申请实施例提供一种基于人工智能的目标检测装置，包括：

特征提取模块，用于对待检测图像进行特征提取处理，得到特征图；

区域生成模块，用于对所述特征图进行区域生成处理，得到多个检测框；

预测模块，用于对每个所述检测框进行预测处理，得到每个所述检测框包括待识别的目标的置信度；

抑制模块，用于根据多个所述检测框之间的重合程度，对每个所述检测框包括所述目标的置信度进行抑制处理，得到新置信度；

筛选模块，用于根据每个所述检测框包括所述目标的新置信度，对所述多个检测框进行筛选处理，将筛选得到的检测框作为包括所述目标的目标检测框。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的基于人工智能的目标检测方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的基于人工智能的目标检测方法。

本申请实施例具有以下有益效果：

在对待检测图像进行特征提取处理及区域生成处理后，对得到的多个检测框进行预测处理，得到包括目标的置信度，然后，根据多个检测框之间的重合程度对置信度进行抑制处理，根据得到的新置信度从多个检测框中筛选出目标检测框，通过抑制置信度的方式，使得目标检测的过程适用于目标分布密集的场景，提升了目标检测的精度。

附图说明

图1是本申请实施例提供的基于人工智能的目标检测系统的一个可选的架构示意图；

图2是本申请实施例提供的终端设备的一个可选的架构示意图；

图3是本申请实施例提供的基于人工智能的目标检测装置的一个可选的架构示意图；

图4A是本申请实施例提供的基于人工智能的目标检测方法的一个可选的流程示意图；

图4B是本申请实施例提供的基于人工智能的目标检测方法的一个可选的流程示意图；

图4C是本申请实施例提供的基于人工智能的目标检测方法的一个可选的流程示意图；

图4D是本申请实施例提供的基于人工智能的目标检测方法的一个可选的流程示意图；

图5是本申请实施例提供的目标检测模型的一个可选的架构示意图；

图6是本申请实施例提供的生成检测框的一个可选的示意图；

图7是本申请实施例提供的特征图之间的对应关系的一个可选的示意图；

图8是本申请实施例提供的对检测框进行筛选的一个可选的示意图；

图9是本申请实施例提供的对检测框进行筛选的一个可选的示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)特征图(Feature Map)：对图像进行卷积计算后得到的结果，特征图中的像素点与原始的图像中的特定区域存在映射关系，特征图的感受野(Receptive Field)即是指与特征图中的像素点存在映射关系的、原始的图像中的区域。

2)置信度：表示可信程度，检测框包括待识别的目标的置信度越高，表示该检测框包括目标的可能性越大。

3)重合程度：表示两个检测框之间的相交关系，在本申请实施例中，重合程度可以是交并比(Intersection Over Union，IOU)，交并比为两个检测框的交集与并集之间的面积比值。当然，这并不构成对本申请实施例的限定，即重合程度也可表现为其他形式。

4)目标检测模型：指基于人工智能原理构建的、用于进行目标检测的模型，本申请实施例对目标检测模型的类型不做限定，例如可以是卷积神经网络(ConvolutionalNeural Networks，CNN)模型。

5)反向传播：模型的一种训练机制，以包括输入层、隐藏层和输出层的卷积神经网络模型为例，前向传播是指通过输入层-隐藏层-输出层的顺序，对输入的数据进行处理，得到处理结果；反向传播是指通过输出层-隐藏层-输入层的顺序，基于得到的处理结果对各个层的权重参数进行更新。

6)数据库(Database)：以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合，用户可以对数据库中的数据执行新增、查询、更新及删除等操作。

本申请实施例提供一种基于人工智能的目标检测方法、装置、电子设备及计算机可读存储介质，能够提升目标检测的精度，适用于目标分布密集的场景。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为终端设备，也可以实施为服务器。

电子设备通过运行本申请实施例提供的目标检测方案，能够提升得到的目标检测框的准确度，减少误检、漏检情况的出现，即提高电子设备自身的检测性能，适用于多种检测场景。例如，待识别的目标可以是人体，待检测图像可以是城市中某个路口的监控图像，电子设备通过对待检测图像进行目标检测处理，最终筛选出目标检测框，能够得到监控图像中人体的数量，进而可以进行人群密度分析，或者可对该路口红绿灯的绿灯显示时长进行适应性地调整，以便行人能够顺利地通过该路口，又或者可对多个监控图像中人体的活动轨迹进行跟踪；或者，待检测图像也可以是视频播放软件中正在播放的电视剧或电影的截图，即某一个视频帧，进行目标检测后，可以得到目标检测框，进而可以将视频帧中的目标检测框截取出来，实现人体抠图，以便于支持用户对目标检测框中的人体添加特效，或执行其他操作。

参见图1，图1是本申请实施例提供的基于人工智能的目标检测系统100的一个可选的架构示意图，终端设备400通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备是终端设备为例，本申请实施例提供的基于人工智能的目标检测方法可以由终端设备实现。例如，终端设备400在接收到待检测图像时，调用本地存储的目标检测模型，对待检测图像进行目标检测处理，得到多个检测框、以及每个检测框包括目标的置信度。然后，终端设备400根据多个检测框之间的重合程度，对每个检测框包括目标的置信度进行抑制处理，得到新置信度，并根据新置信度从多个检测框中筛选得到目标检测框。其中，待检测图像可以是终端设备400本地存储的图像，也可以是终端设备400实时拍摄的图像，还可以是终端设备400从外界(如互联网)获取到的图像，对此不做限定。

在一些实施例中，以电子设备是服务器为例，本申请实施例提供的基于人工智能的目标检测方法也可以由服务器实现。例如，服务器200根据数据库500中的样本图像及标注框，对目标检测模型的权重参数进行更新，并将更新后的目标检测模型存储在本地，例如存储至服务器200的分布式文件系统中。服务器200在接收到终端设备400发送的待检测图像时，调用目标检测模型对待检测图像进行目标检测处理，得到多个检测框、以及每个检测框包括目标的置信度，并进一步根据抑制处理后得到的新置信度，从多个检测框中筛选得到目标检测框，最终将目标检测框发送至终端设备400。值得说明的是，本申请实施例对样本图像的存储位置不做限定，并不限于数据库，例如还可以是服务器200的分布式文件系统或者区块链等位置。

终端设备400用于在图形界面410中，显示目标检测过程中的各种结果和最终结果。在图1中，以待识别的目标为人体进行举例，示出了待检测图像411、以及经过检测后得到的目标检测框412。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，其中，云服务可以是目标检测服务，供终端设备400进行调用，以根据终端设备400发送的待检测图像，检测得到目标检测框，并将目标检测框发送至终端设备400。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能电视等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

以本申请实施例提供的电子设备是终端设备为例说明，可以理解的，对于电子设备是服务器的情况，图2中示出的结构中的部分(例如用户接口、呈现模块和输入处理模块)可以缺省。参见图2，图2是本申请实施例提供的终端设备400的结构示意图，图2所示的终端设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的基于人工智能的目标检测装置455，其可以是程序和插件等形式的软件，包括以下软件模块：特征提取模块4551、区域生成模块4552、预测模块4553、抑制模块4554及筛选模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的基于人工智能的目标检测装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的基于人工智能的目标检测方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Pro grammable Gate Array)或其他电子元件。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的目标检测方法。

参见图3和图4A，图3是本发明实施例提供的基于人工智能的目标检测装置的架构示意图，示出了通过一系列模块实现目标检测的流程，图4A是本发明实施例提供的基于人工智能的目标检测方法的流程示意图，将结合图3对图4A示出的步骤进行说明。

在步骤101中，对待检测图像进行特征提取处理，得到特征图。

作为示例，参见图3，在特征提取模块4551中，通过卷积层对获取到的待检测图像进行特征提取处理，得到特征图。值得说明的是，图3示出的卷积层仅为示例结构，并不代表相应的处理仅由卷积层完成，也不代表相应的处理必须由卷积层完成，例如可以通过去掉全连接层的CNN来进行特征提取处理，该CNN除了卷积层之外，还包括其他的网络层，如池化层。在进行特征提取处理之前，还可以对待检测图像进行归一化处理，以将待检测图像的尺寸缩放至设定尺寸，便于计算，该设定尺寸可根据实际应用场景进行具体设定。

在步骤102中，对特征图进行区域生成处理，得到多个检测框。

作为示例，参见图3，在区域生成模块4552中，可以通过卷积层对提取得到的特征图进行区域生成处理，得到多个检测框。这里，得到的检测框虽然是对特征图进行区域生成处理得到的，但其面积和尺寸是相对于待检测图像的，即，得到的是待检测图像中的检测框。本申请实施例对区域生成处理的方式不做限定，例如可以特征图中的每个像素点为中心，创建符合设定的框尺寸的检测框。

在一些实施例中，可以通过这样的方式来实现上述的对特征图进行区域生成处理，得到多个检测框：确定由多个框面积中的任一框面积与多个宽高比中的任一宽高比形成的多个组合，并确定符合多个组合中每个组合的框尺寸；分别以特征图中的每个像素点为中心，创建符合每个框尺寸的检测框；其中，多个框面积与特征图的感受野面积相匹配

这里，若检测框的面积比特征图的感受野面积小很多，则会得到比所关心区域更大的区域的信息，导致判断难度增加；若检测框的面积比特征图的感受野面积大很多，则只会得到所关心区域的一部分，需要通过部分来判断整体，这两种情况都会在一定程度影响后续得到的置信度的精度。因此，在本申请实施例中，将多个框面积与多个宽高比进行两两的组合处理(如穷举式的组合处理)，得到多个组合，并分别确定符合得到的每个组合的框尺寸，其中，多个框面积与特征图的感受野面积相匹配，这里的匹配关系可以根据实际应用场景进行设定，例如当框面积与特征图的感受野面积之间的面积差值的绝对值小于面积差值阈值时，确定该框面积与该感受野面积相匹配。例如，常用的框面积包括{128^2，256^2，512^2}，本申请实施例中得到的特征图的感受野面积是843，则可以增设更小的框面积32^2和64^2，其中，^为指数符号；另外，针对待检测图像中目标分布可能较为密集的特点，在常用的宽高比{1:1，1:2，2:1}的基础上，可以增设1:3的宽高比。

举例来说，对于框面积32^2和宽高比1:3的组合来说，可以进一步确定符合该组合的框尺寸，即该框尺寸同时符合32^2的框面积以及1:1的宽高比。针对特征图中的每个像素点，分别创建符合多个框尺寸的检测框。通过上述方式，使得得到的检测框不会包括过于冗余的信息，也不会包括过于稀疏的信息，提升了后续预测处理的精度。

在一些实施例中，步骤102之后，还包括：对多个检测框中满足以下条件的进行丢弃处理：检测框超出待检测图像的边界。

本申请实施例的目的在于，从待检测图像中识别出目标，因此，在得到多个检测框后，可以对其中超出待检测图像的边界的检测框进行丢弃处理，从而防止对这些检测框进行后续处理所导致的计算资源的浪费。

在步骤103中，对每个检测框进行预测处理，得到每个检测框包括待识别的目标的置信度。

作为示例，参见图3，在预测模块4553中，可以通过卷积层对每个检测框进行预测处理，得到包括待识别的目标的置信度。值得说明的是，在得到包括目标的置信度之后，可以对多个检测框中包括目标的置信度小于置信度阈值的检测框进行丢弃处理，从而减少检测框的数量，提升后续的处理效果，其中，置信度阈值为大于0且小于1的数，可根据实际应用场景进行设定。本申请实施例对待识别的目标的类型不做限定，例如可为人体、帽子或背包等。

在步骤104中，根据多个检测框之间的重合程度，对每个检测框包括目标的置信度进行抑制处理，得到新置信度。

这里，针对待检测图像中目标分布可能较为密集的特点，根据多个检测框之间的重合程度，对每个检测框包括目标的置信度进行抑制处理，重合程度越高，则抑制处理的强度越大，得到的新置信度越小。如此，可以减少漏检情况的出现。

在步骤104之前，还可以如图3所示，通过卷积层对每个检测框进行位置回归处理，得到与目标之间的偏移位置，并根据偏移位置，对检测框进行位置调整处理，如此，可以提升检测框的位置的准确度。

在步骤105中，根据每个检测框包括目标的新置信度，对多个检测框进行筛选处理，将筛选得到的检测框作为包括目标的目标检测框。

作为示例，参见图3，在筛选模块4555中，以得到的新置信度为依据，对多个检测框进行筛选处理，例如，对多个检测框中包括目标的新置信度小于设定的抑制置信度阈值的检测框进行丢弃处理，将剩余的检测框作为目标检测框，当然，筛选处理的方式并不限于此。本申请实施例对目标检测框的应用不做限定，以待识别的目标为人体举例，可以抠取出待检测图像中的目标检测框，即进行人体抠图，以进行进一步处理，如添加特效或进行身份审核等；又例如，可以根据得到的目标检测框的数量，对待检测图像进行人群密度分析，从而为行人交通规划提供数据依据。

在一些实施例中，步骤105之后，还包括：对目标检测框中的每个像素点进行预测处理，得到每个像素点属于目标的置信度；根据每个像素点属于目标的置信度，对目标检测框进行像素级别的分割处理，得到包括目标的形状区域。

在实际应用场景中，待检测图像中目标的形状往往是不规则的，即并不是矩形形状，故在得到目标检测框之后，可以对目标检测框中的每个像素点进行预测处理，得到每个像素点属于目标的置信度。然后，根据每个像素点属于目标的置信度，对目标检测框进行像素级别的分割处理，例如，确定出属于目标的置信度大于或等于像素点置信度阈值的像素点，将确定出的像素点所构成的区域，确定为包括目标的形状区域，其中，像素点置信度阈值可根据实际应用场景进行设定，如设定为0.5。此外，在本申请实施例中，也可以先确定每个检测框包括目标的形状区域，并在确定出目标检测框后，输出目标检测框包括目标的形状区域。通过上述方式，使得形状区域能够更准确地表示目标的位置，提升后续应用(如人体抠图)的效果。

如图4A所示，本申请实施例在得到多个检测框及包括目标的置信度后，根据检测框之间的重合程度，对每个检测框包括目标的置信度进行抑制处理，并根据得到的新置信度从多个检测框中筛选出目标检测框，如此，能够在待检测图像中目标分布较为密集的情况下，提升目标检测的精度，当然，本申请实施例同样适用于目标分布较为稀疏的场景。

在一些实施例中，参见图4B，图4B是本申请实施例提供的基于人工智能的目标检测方法的一个可选的流程示意图，图4A示出的步骤104可以通过步骤201至步骤202实现，将结合各步骤进行说明。

在步骤201中，将多个检测框中包括目标的置信度最大的检测框标记为已访问，并将剩余的检测框标记为未访问。

在经预测处理，得到每个检测框包括目标的置信度后，将多个检测框中包括目标的置信度最大的检测框标记为已访问，并将剩余的检测框标记为未访问。

在步骤202中，针对每个未访问的检测框执行以下处理：根据已访问的检测框与未访问的检测框之间的重合程度，对未访问的检测框包括目标的置信度进行抑制处理，得到新置信度。

这里，针对每个未访问的检测框，根据最新标记为已访问的检测框(仅一个)与未访问的检测框之间的重合程度，对该未访问的检测框的置信度进行抑制处理，得到新置信度。

在一些实施例中，可以通过这样的方式来实现上述的根据已访问的检测框与未访问的检测框之间的重合程度，对未访问的检测框包括目标的置信度进行抑制处理，得到新置信度：当已访问的检测框与未访问的检测框之间的重合程度小于第一重合程度阈值时，将未访问的检测框包括目标的置信度作为新置信度；当重合程度大于或等于第一重合程度阈值时，根据重合程度，对未访问的检测框包括目标的置信度进行加权处理，以将加权处理后的置信度作为新置信度；其中，加权处理后的置信度小于加权处理前的置信度。

这里，当已访问的检测框与未访问的检测框之间的重合程度小于第一重合程度阈值时，确定两个检测框不包括同一个目标，故保持未访问的检测框包括目标的置信度不变，以作为新置信度；当该重合程度大于或等于第一重合程度阈值时，证明两个检测框有可能包括同一个目标，故根据该重合程度，对未访问的检测框包括目标的置信度进行加权处理，以将加权处理后的置信度作为新置信度。

本申请实施例对加权处理的方式不做限定，例如，可以将1减去重合程度得到的结果，与未访问的检测框包括目标的置信度进行乘积处理，得到加权处理后的置信度，在该方式中，可以将第一重合程度阈值设定为大于0且小于1的数。又例如，可以将重合程度的平方与设定系数进行相除处理，对相除处理得到的结果进行取负处理，并将以自然常数为底，且以取负处理得到的结果为指数进行计算后得到的结果，与未访问的检测框包括目标的置信度进行乘积处理，得到加权处理后的置信度，在该方式中，可以设定第一重合程度阈值为0或负数，即对所有未访问的检测框均进行加权处理。如此，通过加权处理的方式，能够对未访问的检测框包括目标的置信度进行有效衰减。

在图4B中，图4A示出的步骤105可以通过步骤203至步骤205实现，将结合各步骤进行说明。

在步骤203中，对满足以下条件的未访问的检测框进行丢弃处理：未访问的检测框包括目标的新置信度小于抑制置信度阈值。

根据最新标记为已访问的检测框，对每个未访问的检测框包括目标的置信度进行抑制处理后，在多个未访问的检测框中，对包括目标的新置信度小于抑制置信度阈值的检测框进行丢弃处理。

在步骤204中，在进行丢弃处理后剩余的多个未访问的检测框中，将包括目标的新置信度最大的检测框标记为已访问，并根据新的已访问的检测框再次进行抑制处理和丢弃处理，直至未访问的检测框的数量为零。

这里，在进行丢弃处理后剩余的多个未访问的检测框中，将包括目标的新置信度最大的检测框标记为已访问，即对最新标记为已访问的检测框进行更新。然后，根据最新标记为已访问的检测框，再次进行抑制处理和丢弃处理，即再次执行步骤202，直至未访问的检测框的数量为零。其中，再次执行步骤202时，是对未访问的检测框包括目标的新置信度进行抑制处理，即对新置信度进行更新。

在步骤205中，当未访问的检测框的数量为零时，将标记为已访问的检测框作为包括目标的目标检测框。

这里，若经过多轮抑制处理和丢弃处理后，未访问的检测框的数量为零，则将所有标记为已访问的检测框，作为包括目标的目标检测框，完成筛选。

如图4B所示，本申请实施例通过循环的方式，对多个检测框实现了有效筛选，适用于目标分布较为密集的场景。

在一些实施例中，参见图4C，图4C是本申请实施例提供的基于人工智能的目标检测方法的一个可选的流程示意图，基于图4A，在步骤103之后，还可以在步骤301中，根据包括目标的置信度，对多个检测框进行降序排序，并在排序靠前的第一设定数量的检测框中，将包括目标的置信度最大的检测框标记为已访问，将第一设定数量的检测框中剩余的检测框标记为未访问。

在本申请实施例中，经过区域生成处理得到的检测框的数量通常较多，例如可达到上万个，故可以进行两个阶段的筛选，在第一阶段进行粗选，过滤掉较多的检测框，在第二阶段再进行精选。对于第一阶段，根据每个检测框包括目标的置信度，对多个检测框进行筛选处理，将筛选得到的检测框作为候选检测框。下面，对第一阶段的筛选处理的方式进行示例说明，首先，根据包括目标的置信度，对多个检测框进行降序排序，并在排序靠前的第一设定数量的检测框中，将包括目标的置信度最大的检测框标记为已访问，将第一设定数量的检测框中剩余的检测框标记为未访问。

在一些实施例中，步骤301之前，还包括：对每个检测框进行位置回归处理，得到与目标之间的第一偏移位置；根据第一偏移位置，对检测框进行位置调整处理。

由于检测框是根据设定的规则，如设定的框尺寸生成的，其位置并不准确，故在本申请实施例中，在对每个检测框进行预测处理的同时，还可以对每个检测框进行位置回归处理，得到与目标之间的偏移位置，为了便于区分，将这里得到的偏移位置命名为第一偏移位置。针对每个检测框，根据得到的第一偏移位置，对检测框进行位置调整处理，如此，能够提升检测框的位置精确度，减少检测框包括的冗余信息。

在步骤302中，针对每个未访问的检测框执行以下处理：当已访问的检测框与未访问的检测框之间的重合程度大于或等于第二重合程度阈值时，对未访问的检测框进行丢弃处理。

针对每个未访问的检测框，当最新标记为已访问的检测框与未访问的检测框之间的重合程度大于或等于第二重合程度阈值时，对未访问的检测框进行丢弃处理；当该重合程度小于第二重合程度阈值时，则不做处理。其中，第二重合程度阈值可根据实际应用场景进行设定。

在步骤303中，在进行丢弃处理后剩余的多个未访问的检测框中，将包括目标的置信度最大的检测框标记为已访问，并根据新的已访问的检测框再次进行丢弃处理，直至未访问的检测框的数量为零。

完成丢弃处理后，在剩余多个未访问的检测框中，将包括目标的置信度最大的检测框标记为已访问，并根据最新标记为已访问的检测框再次进行丢弃处理，直至未访问的检测框的数量为零。

在步骤304中，当未访问的检测框的数量为零时，根据包括目标的置信度，对多个已访问的检测框进行降序排序，并将排序靠前的第二设定数量的检测框，作为候选检测框；其中，第一设定数量大于第二设定数量。

若经过多轮丢弃处理后，未访问的检测框的数量为零，则根据包括目标的置信度，对所有已访问的检测框进行降序排序，并将排序靠前的第二设定数量的检测框，作为候选检测框。其中，第一设定数量大于第二设定数量，可根据实际应用场景进行具体设定。

在步骤305中，对每个候选检测框再次进行预测处理，得到每个候选检测框包括目标的候选置信度。

这里，为了便于计算，可以根据特征图和候选检测框进行池化处理，以将多个候选检测框的尺寸调整为固定的尺寸。然后，对池化处理后的候选检测框再次进行预测处理，得到候选检测框包括目标的置信度，为了便于区分，将这里得到的置信度命名为候选置信度。

在一些实施例中，步骤304之后，还包括：对每个候选检测框进行位置回归处理，得到与目标之间的第二偏移位置；根据第二偏移位置，对候选检测框进行位置调整处理。

在对多个检测框进行第一阶段的筛选处理，得到候选检测框后，除了对候选检测框进行预测处理之外，还可以同时对候选检测框进行位置回归处理，得到与目标之间的第二偏移位置。然后，根据第二偏移位置，对候选检测框进行位置调整处理，如此，能够提升候选检测框的位置精确度。

在一些实施例中，步骤305之后，还包括：对多个候选检测框中满足以下条件的进行丢弃处理：候选检测框包括目标的候选置信度小于候选置信度阈值。

经过再次的预测处理，得到候选置信度后，可以在得到的多个候选检测框中，对包括目标的候选置信度小于候选置信度阈值的候选检测框进行丢弃处理。候选置信度小于候选置信度阈值，证明对应的候选检测框包括目标的可能性较小，通过丢弃这些候选检测框，能够提升后续处理的效率，同时避免计算资源的浪费。

在图4C中，图4A示出的步骤104可更新为步骤306，在步骤306中，根据多个候选检测框之间的重合程度，对每个候选检测框包括目标的候选置信度进行抑制处理，得到新置信度。

第一阶段的粗选完成后，进行第二阶段的精选，即根据多个候选检测框之间的重合程度，对每个候选检测框包括目标的候选置信度进行抑制处理，得到新置信度，抑制处理的方式在此不做赘述。

在图4C中，图4A示出的步骤105可更新为步骤307，在步骤307中，根据每个候选检测框包括目标的新置信度，对多个候选检测框进行筛选处理，将筛选得到的候选检测框作为包括目标的目标检测框。

根据抑制处理得到的新置信度，从多个候选检测框中筛选出目标检测框。

如图4C所示，本申请实施例对多个检测框进行两个阶段的筛选，能够快速且准确地得到包括目标的目标检测框，适用于检测框数量较多的场景。

在一些实施例中，参见图4D，图4D是本申请实施例提供的基于人工智能的目标检测方法的一个可选的流程示意图，基于图4A，在步骤101之前，还可以在步骤401中，通过目标检测模型对样本图像进行目标检测处理，得到多个样本检测框、以及每个样本检测框包括目标的置信度。

在本申请实施例中，可以通过目标检测模型来实现目标检测处理，其中目标检测处理包括特征提取处理、区域生成处理及预测处理，在应用目标检测模型之前，首先对目标检测模型进行训练。例如，获取样本图像、以及样本图像中包括目标的标注框，标注框可通过人为标注得到，然后，通过目标检测模型对样本图像进行目标检测处理，得到多个样本检测框、以及每个样本检测框包括目标的置信度。

在步骤402中，根据样本检测框包括目标的置信度、以及样本图像中包括目标的标注框，对目标检测模型的权重参数进行更新。

这里，根据目标检测模型的损失函数，对样本检测框包括目标的置信度、以及样本图像中包括目标的标注框进行处理，得到损失值。根据损失值在目标检测模型中进行反向传播，并在反向传播的过程中，沿梯度下降方向更新各个网络层的权重参数。值得说明的是，损失值可以包括两个部分的损失，第一部分是样本检测框包括目标的置信度与该样本检测框是否包括目标的实际结果之间的差异，其中，可以根据样本检测框包括目标的置信度来确定出预测结果(例如若包括目标的置信度大于或等于某个阈值，则确定为包括目标)，并计算预测结果与实际结果之间的差异，当然也可以直接计算置信度与实际结果之间的差异，根据具体的损失函数而定；第二部分是样本检测框的位置与标注框的位置之间的差异，其中，若对样本检测框进行了位置调整处理，则这里是指位置调整处理后的样本检测框的位置与标注框的位置之间的差异。

另外，在目标检测模型所实现的目标检测处理，还包括上述的第一阶段的粗选，如步骤301至步骤305时，可以将样本检测框的损失值与候选检测框(这里是指从多个样本检测框中筛选出的候选检测框)的损失值进行融合处理，并根据融合处理得到的损失值，更新目标检测模型的权重参数，这里对融合处理的方式不做限定，例如可以是加权求和。

在一些实施例中，步骤401之后，还包括：对样本检测框中的每个像素点进行预测处理，得到每个像素点属于目标的置信度；根据每个像素点属于目标的置信度，对样本检测框进行像素级别的分割处理，得到包括目标的样本形状区域；确定样本形状区域与标注框中包括目标的标注形状区域之间的差异，以对目标检测模型的权重参数进行更新。

在本申请实施例中，还可以结合目标的实际形状进行模型训练，在获取样本图像中包括目标的标注框的基础上，还获取包括目标的标注形状区域，如人形区域。在通过目标检测模型对样本检测框进行预测处理，得到包括目标的置信度的同时，还可以对样本检测框中的每个像素点进行预测处理，得到每个像素点属于目标的置信度。然后，根据每个像素点属于目标的置信度，对样本检测框进行像素级别的分割处理，得到包括目标的样本形状区域，例如，确定出属于目标的置信度大于或等于像素点置信度阈值的像素点，将确定出的像素点所构成的区域作为样本形状区域。将样本形状区域与标注形状区域之间的差异，例如样本形状区域的位置与标注形状区域的位置之间的差异，作为上述的损失值的一部分，以根据损失值对目标检测模型的权重参数进行更新。如此，对于更新后的目标检测模型来说，能够用于对待检测图像的目标检测框中的每个像素点进行预测处理，并对目标检测框进行像素级别的分割处理，得到包括目标的形状区域。

在一些实施例中，步骤401之后，还包括：当样本检测框与标注框之间的重合程度大于正样本重合程度阈值、或者重合程度大于标注框与其他所有样本检测框之间的重合程度时，将样本检测框确定为正样本框；当样本检测框与标注框之间的重合程度小于负样本重合程度阈值时，将样本检测框确定为负样本框；其中，正样本重合程度阈值大于负样本重合程度阈值；正样本框和负样本框用于对目标检测模型的权重参数进行更新。

在本申请实施例中，可以将这两种情况下的样本检测框作为正样本框：1)与任一标注框之间的重合程度大于正样本重合程度阈值；2)针对任一标注框来说，在多个样本检测框中，与该标注框具有最大的重合程度的样本检测框。同时，可以将与标注框之间的重合程度小于负样本重合程度阈值的样本检测框，作为负样本框。

根据选取得到的正样本框和负样本框，对目标检测模型的权重参数进行更新。其中，对于正样本框来说，计算其与重合程度最大的标注框之间的损失值，该损失值包括上述的两个部分；对于负样本框来说，仅计算上述的第一部分，即是将负样本框包括目标的置信度与该负样本框是否包括目标的实际结果之间的差异，作为该负样本框的损失值。

值得说明的是，在目标检测模型所实现的目标检测处理，还包括上述的第一阶段的粗选，如步骤301至步骤305时，可以根据同样的方式，来从多个候选检测框(指从多个样本检测框中筛选出的候选检测框)中选取正样本框和负样本框。其中，由于在第一阶段中，检测框的数量较多，故选取样本的条件可以设定得更加严格，例如设定从检测框中选取正样本框的正样本重合程度阈值大于从候选检测框中选取正样本框的正样本重合程度阈值。通过上述的选取样本的方式，能够使得模型训练更为有效，即提升训练效果。

在一些实施例中，还包括：将包括多个样本图像的样本集，划分为训练集和验证集；通过训练集，对目标检测模型的权重参数进行更新；通过验证集，确定更新后的目标检测模型的精确度指标；当精确度指标小于指标阈值时，通过训练集再次对目标检测模型的权重参数进行更新，直至新的精确度指标大于或等于指标阈值。

这里，可以将包括多个样本图像的样本集，划分为训练集和验证集，其中，训练集包括的样本图像的数量大于验证集，如以10:1的比例来划分训练集和验证集。通过划分的训练集对目标检测模型的权重参数进行更新，更新的方式参见步骤402，在此不做赘述。然后，通过验证集，确定更新后的目标检测模型的精确度指标，这里，对精确度指标的类型不做限定，例如可以是精确率(Pr ecision)、召回率(Recall)或F1分数等。当精确度指标大于或等于设定的指标阈值时，确定更新完成，目标检测模型可以投入使用；当精确度指标小于指标阈值时，通过训练集再次对目标检测模型的权重参数进行更新，直至新的精确度指标大于或等于指标阈值为止。通过上述方式，一方面能够防止训练次数过少所导致的训练效果差，另一方面能够加强模型的泛化能力，避免过度训练所导致的过拟合。

在一些实施例中，步骤402之前，还包括：对样本检测框进行遮挡处理及形变处理中的至少一种处理。

在本申请实施例中，可以对样本检测框进行造假，构造难以区分的样本检测框。例如，可以通过遮挡窗口在样本检测框上进行滑动，每次滑动后，将包括遮挡窗口的样本检测框，作为遮挡处理后的样本检测框，其中，遮挡窗口的尺寸可根据实际应用场景进行设定，如设定为样本检测框尺寸的1/9；又例如，通过设定的形变参数，对样本检测框进行形变处理，形变参数包括但不限于旋转角度、平移距离和缩放比例。值得说明的是，上述两种方式也可混合使用，如对样本检测框进行遮挡处理之后，再进行形变处理；或者先进行形变处理后，再进行遮挡处理。通过构造难以区分是否包括目标的样本检测框，能够进一步提升目标检测模型的检测能力。

在图4D中，图4A示出的步骤101至步骤103可更新为步骤403至步骤405，在步骤403中，通过更新后的目标检测模型，对待检测图像进行特征提取处理，得到特征图。

在步骤404中，通过更新后的目标检测模型，对特征图进行区域生成处理，得到多个检测框。

在步骤405中，通过更新后的目标检测模型，对每个检测框进行预测处理，得到每个检测框包括目标的置信度。

如图4D所示，本申请实施例通过对目标检测模型的权重参数进行更新，并通过更新后的目标检测模型进行目标检测处理，能够提升得到的检测框及置信度的准确性。

下面，将说明本申请实施例在实际的应用场景中的示例性应用，为了便于理解，以待识别的目标为人体进行举例，但这并不构成对本申请实施例的限定，例如待识别的目标还可以是帽子或背包等。这里，应用场景可以是对路口的监控图像进行人体检测，从而实现人群密度分析或人体活动轨迹检测等进一步应用，也可以是对电视剧或电影的视频帧进行人体检测，从而实现对人体的特效添加等进一步应用，当然，实际的应用场景并不限于此。

本申请实施例提供了如图5所示的目标检测模型的架构图，在图5中，目标检测模型包括网络51、第一阶段的网络52及第二阶段的网络53。首先，对输入的图像进行归一化处理，并通过网络51对归一化处理后的图像进行特征提取处理，得到特征图，例如，网络51可以是去掉全连接层的卷积神经网络CN N。特征提取处理是目标检测的关键，直接关系到检测结果的好坏，这里，提供了包括不同类型的CNN的目标检测模型在公共数据集上进行测试，得到的平均检测精度(mean Average Precision，mAP)，该mAP对应上文的精确度指标。

这里，将ResNet101作为用于进行特征提取处理的网络，进行举例说明。

经过特征提取处理后，通过图5示出的网络52，对得到的特征图进行区域生成处理，得到多个检测框。相较于选择性搜索的方式，通过网络52可以减少冗余的计算，并且使得区域生成处理的过程可以使用图形处理器(Graphics Pr ocessing Unit，GPU)进行加速，能够提高检测速度。

网络52是一种全卷积网络，包括512通道的3×3核卷积层、以及两个并行的1×1核卷积层，其中，一个1×1核卷积层用于进行分类(即预测处理)，另一个1×1核卷积层用于进行位置回归处理，对于这两个并行的1×1核卷积层来说，其通道数取决于特征图中每个像素点对应的检测框的数量，例如，用于进行分类的1×1核卷积层的通道数为每个像素点对应的检测框的数量×2，用于进行回归的1×1核卷积层的通道数为每个像素点对应的检测框的数量×4。对于网络52来说，其仅预测检测框包括目标的置信度，即仅区分前景和背景，并不预测检测框包括的具体是哪一个类型的目标，例如不区分是人体、猫及狗等；此外，网络52还通过位置回归处理，得到第一偏移位置，并通过第一偏移位置对检测框进行位置调整处理。网络52可以通过反向传播和随机梯度下降的机制，进行端到端的训练，此外，网络52可以与第二阶段的网络53共享网络51的权重参数。

对于位置的微调，使用四维信息，即中心点坐标、宽和高，来表示检测框的位置，在进行位置回归处理时，即是寻找一种映射关系，以对检测框中心点进行平移，对检测框的宽和高进行缩放，使其接近实际的目标所在的位置。当检测框的位置和标注框的位置较为接近时，可以认为映射关系是一种线性变换，可以使用线性回归进行微调。

检测框的本质可以理解为符合不同框尺寸的框，如图6所示，检测框根据滑动窗口的中心位置生成，随着滑动窗口的移动，这些框也在特征图上进行移动。检测框使用框面积和宽高比来定义其框尺寸，对于滑动窗口的中心位置，对应的检测框的数量等于框面积的数量与宽高比的数量的乘积结果。在相关技术中，常用的框面积为{128^2，256^2，512^2}，宽高比为{1:1，1:2，2:1}，如此，对于滑动窗口的中心位置，对应9种框尺寸的检测框。

检测框是基于特征图定义的，这里可以在特征图中的每个点创建检测框，但是检测框的框尺寸是相对于归一化处理后的图像的。由于使用的CNN中改变尺寸的层只包含卷积层和池化层，故特征图的尺寸和归一化处理后的图像的尺寸是成比例的，例如，归一化处理后的图像的尺寸为w×h，则得到的特征图的尺寸为(w/r)×(h/r)，其中，r表示子采样率(Subsampling Ratio)，例如可以设定为16。

在使用检测框时，需要确定其定义在哪一层特征图上，即需要确定检测框的面积和感受野面积之间的关系。在CNN结构中，卷积层输出的每个特征值都依赖于输入的某一个区域，该区域以外的值不会对该特征值产生影响，该区域即为感受野。如图7所示，特征图2左下角的特征值，是对特征图1左下角的3×3区域进行卷积计算得到的，那么该特征值的感受野即为这个3×3的区域；特征图3的特征值，是对特征图2的3×3区域进行卷积计算得到的，而特征图2的3×3区域是对特征图1的5×5区域进行卷积计算得到的，那么特征图3中的特征值的感受野就是特征图1的5×5区域。实际上，任意两个特征图(任意两个卷积层)之间都有对应关系，但本申请实施例中的感受野，指的是特征图到归一化处理后的图像的对应。

在计算机视觉任务中，通常是要求感受野尽量大，即网络越深越好，对于检测框来说，如果检测框的面积比感受野小很多，那么在使用特征时就会得到比希望得到的区域更大的区域的信息，会导致增加判断难度；如果检测框的面积比感受野大很多，那么只会得到所关心区域的一部分，需要通过部分来判断整体。因此，在本申请实施例中，将多个框面积与多个宽高比进行组合处理，并分别确定符合得到的每个组合的框尺寸，其中，多个框面积与特征图的感受野面积相匹配。例如，若使用ResNet101进行特征提取处理，则最终得到的特征图是conv4-23层输出的特征图，其感受野的面积为843，故可以在{128^2，256^2，512^2}的基础上，增加32^2和64^2的框面积。此外，针对图像中的人体较为密集的场景，可以在{1:1，1:2，2:1}的基础上，增加1:3的宽高比。

在网络52的训练过程中，根据检测框与图像中包括人体的标注框之间的I OU，确定该检测框是否参与训练。在两种情况下，会将检测框判断为正样本框，一是在所有检测框中，与某个标注框之间具有最大IOU的检测框；二是与某个标注框之间的IOU大于设定的正样本阈值(对应上文的正样本重合程度阈值)的检测框。若检测框与所有标注框之间的IOU均小于负样本阈值(对应上文的负样本重合程度阈值)，那么将该检测框作为负样本框。在此之前，可以对超过归一化处理后的图像的边界的检测框，进行丢弃处理。其中，正样本阈值可以设定为0.6，负样本阈值可以设定为0.3。在网络53的训练过程中，可以根据同样的方式来选取正样本框和负样本框，但是，正样本阈值可以设定得更小，如设定为0.5，这是由于在网络52中通常会生成上万个检测框，故网络52中选取正样本框和负样本框的条件更为严苛。

在通过网络52输出多个检测框后，可以对多个检测框进行筛选处理，得到候选检测框，以作为网络53的输入。在本申请实施例中，可以通过算法1)来实现对多个检测框的筛选，算法1)的输入为多个检测框、每个检测框包括目标的置信度、阈值Nt，输出为筛选出的检测框，这里的阈值Nt对应上文的第二重合程度阈值。算法1)的具体实现过程如下：

1)对于检测框的集合B，根据包括目标的置信度，对集合B内的多个检测框进行降序排序；

2)确定集合B中包括目标的置信度最大的检测框M，并将检测框M移出集合B，并放入输出(对应上文的标记为已访问)。计算集合B中其他的检测框bi(对应上文的未访问的检测框)与检测框M的IOU，若IOU大于或等于阈值Nt，则将集合B中对应的检测框移出集合B；

3)重复步骤2)，直至集合B为空。

算法1)可以表示为如下的公式形式：

其中，s_i表示集合B中第i个检测框。如图8所示，在针对某一个人体，存在对应的多个检测框(如图8示出的检测框81)时，通过算法1)，过滤掉冗余的检测框，保留1个检测框82。

在目标检测模型中，会在两个阶段进行筛选处理，第一个阶段是在网络52产生多个检测框时，第二个阶段是在网络53输出最终结果时。目标检测模型训练时的过程为输入、预处理、预测、计算损失、输出，输出为损失值，测试(指测试模型的训练效果)及应用时的过程为输入、预处理、预测、后处理、输出，输出为包括人体的目标检测框，其中，预处理是指基于算法1)进行筛选处理，后处理是指基于算法2)进行筛选处理。可见，在训练时没有后处理过程，并且不需要输出目标检测框。

对于第一阶段，在训练时，一个标注框可能对应多个检测框，故需要使用算法1)来筛选掉一些多余的检测框，在测试或应用时没有标注框，但是同样也会使用算法1)对网络52输出的多个检测框进行筛选。以测试的情况为例，对于一个归一化处理后的图像来说，通过网络52处理后会生成上万个检测框，首先对超出该归一化处理后的图像的边界的检测框进行丢弃处理，再根据包括目标的置信度，对保留下来的检测框进行降序排序，取前2000个(对应上文的第一设定数量)通过算法1)进行筛选，阈值Nt设为0.7，然后，根据包括目标的置信度，对通过算法1)筛选得到的多个检测框进行降序排序，取前300个(对应上文的第二设定数量)检测框传递给网络53。传递给网络53的300个检测框，即对应上文的候选检测框。

对于算法1)来说，会筛选得到数量不确定的检测框，故可以设定一个最大值，来统一数量，若筛选得到的检测框未达到该最大值，则用包括目标的置信度为0的检测框进行补齐。训练时的过程和测试时类似，只是得到的候选检测框更多，最终会选择2000个候选检测框传递给网络53。值得说明的是，对于网络52来说，虽然在训练过程中选择正样本框和负样本框时，会减少检测框的数量，但是，选取样本时并未采用算法1)。

但是，算法1)存在以下的问题：1)对于分布较为密集的目标，可能会出现如图9所示的情况，即检测框91包括人体的置信度为0.8，检测框92包括人体的置信度为0.95，虽然网络52检测到了全部的目标，但是通过算法1)将其中的一个过滤掉了；2)难以找到合适的阈值Nt，如果用一个很低的阈值，可能会移除掉相近的其他目标，导致漏检，特别是在目标高度重叠的地方；如果采用一个较高的阈值，就没有达到过滤多余检测框的目的，平均准确率可能会相应降低。因此，在第一阶段中通过算法1)进行筛选后，在第二阶段，使用算法2)进行筛选处理。

算法2)可以采用两种公式，公式1)为：

这里的阈值Nt对应上文的第一重合程度阈值，算法2)通过加权的方式对置信度进行抑制，如此，能够满足不包含任何目标的候选检测框经过衰减之后得到的新置信度，比包括目标的候选检测框的新置信度低。公式1)使用的线性加权存在一个问题，即在Nt点处函数不连续，因此也可以使用公式2)进行高斯加权：

其中，σ对应上文的设定系数，例如可取0.5。

算法2)的具体实现过程如下：

1)对于候选检测框的集合B，根据包括目标的置信度，对集合B内的多个候选检测框进行降序排序；

2)确定集合B中包括目标的置信度最大的候选检测框M，并将候选检测框M移出集合B，并放入输出。通过上述的公式1)或公式2)，对集合B中其他的候选检测框bi包括目标的置信度进行更新(重置)，并将包括目标的置信度小于抑制置信度阈值的候选检测框移出集合B；

3)重复步骤2)，直至集合B为空。

在算法2)中，除了线性和高斯函数，还可以应用其他的函数，对此不做限定。算法1)和算法2)的计算复杂度相同，因此算法2)不会增加额外的时间开销，而且后处理部分本身占用的时长就较短。

对于第二阶段，训练时已经知道包括目标的标注框，不需要再输出目标检测框，故不会采用算法2)；在测试或应用时，使用算法2)来呈现最好的检测结果。在使用算法2)之前，会先将低于某个阈值(对应上文的候选置信度阈值)的框丢弃掉，这样最后留下来的就是最终检测结果。在本申请实施例中，网络53可以执行二分类任务或者多分类任务，对于后者来说，可以仅针对待识别的目标的类型，通过算法2)对候选检测框进行筛选处理，例如网络53可识别的类型包括人体、猫和狗等，需要识别的目标的类型为人体，则可以仅根据包括人体的置信度，结合算法2)进行筛选处理。

另外，由于检测框的框尺寸存在多样性，并且网络52会通过回归的方式调整检测框的位置，所以最终得到的每个检测框的框尺寸不尽相同。在第二阶段中，会将特征送入全连接层，而全连接层的输入必须是固定的长度，故在本申请实施例中，增加一个池化层，以将不同框尺寸的检测框转换为固定的框尺寸。池化层包括两个输入，一个是固定尺寸的特征图，另一个是检测框的位置信息，池化层输出的尺寸不取决于两个输入的尺寸，池化层在本质上是对特征图进行最大池化操作。

在本申请实施例中，可以采用两种训练方式来训练目标检测模型，一种交替迭代训练，另一种是端到端的方法。交替迭代训练的方式如：①训练网络51和网络52；②根据网络52输出的检测框训练网络51和网络53，该步骤中的网络51是指未经过步骤①训练的网络51；③根据步骤②得到的网络51，训练网络52，在该步骤中，不对网络51进行训练；④固定步骤②得到的网络51、以及步骤③得到的网络52的权重参数，对网络53进行训练。通过不断地重复步骤①～④实现模型的收敛，

端到端的方法在训练时占用更少的内存，模型收敛的也快，并且在准确率上相差不大。例如，将包括多个样本图像的样本集，按照10:1的比例划分为训练集(用于训练)和验证集(用于测试)，将网络52的batch(即一个批次的样本图像的数量)设置为256，将网络53的batch设置为1，将初始的学习率设置为0.0003，迭代5000次后学习率降低为0.00003，设置迭代次数为10000次。这里，针对检测框的位置，可利用L2损失函数：

loss＝0.5×(weights×(predictions-targets))²

其中，weights表示每个样本图像的权重，为了便于计算，可以统一设置为1；predictions表示检测框的位置，targets表示标注框的位置。通过L2损失函数计算出的损失值，对应上文的第二部分的损失值。

针对检测框的预测结果，可利用Softmax损失函数：

其中，y_i表示第i个检测框是否包括目标(人体)的实际结果，predictions(y_i)表示预测结果。通过Softmax损失函数计算出的损失值，对应上文的第一部分的损失值。

值得说明的是，本申请实施例可以引入对抗网络来进行训练，从而使模型的检测性能和泛化能力达到平衡。对抗网络用于对检测框进行造假，例如进行遮挡处理及形变处理中的至少一种处理，从而构造难以区分是否包括目标的检测框，通过训练后，可以提升分类器的分类效果。另外，在样本集方面，可改变人体的标注形式，不再限制以方框的形式来标注，而可以是不规则的形状，通过这样的样本集进行模型训练后，能够使目标检测模型预测出准确的人体形状区域，更加适合进行进一步应用。

下面继续说明本申请实施例提供的基于人工智能的目标检测装置455实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的基于人工智能的目标检测装置455中的软件模块可以包括：特征提取模块4551，用于对待检测图像进行特征提取处理，得到特征图；区域生成模块4552，用于对特征图进行区域生成处理，得到多个检测框；预测模块4553，用于对每个检测框进行预测处理，得到每个检测框包括待识别的目标的置信度；抑制模块4554，用于根据多个检测框之间的重合程度，对每个检测框包括目标的置信度进行抑制处理，得到新置信度；筛选模块4555，用于根据每个检测框包括目标的新置信度，对多个检测框进行筛选处理，将筛选得到的检测框作为包括目标的目标检测框。

在一些实施例中，抑制模块4554，还用于：将多个检测框中包括目标的置信度最大的检测框标记为已访问，并将剩余的检测框标记为未访问；针对每个未访问的检测框执行以下处理：根据已访问的检测框与未访问的检测框之间的重合程度，对未访问的检测框包括目标的置信度进行抑制处理，得到新置信度。

在一些实施例中，筛选模块4555，还用于：对满足以下条件的未访问的检测框进行丢弃处理：未访问的检测框包括目标的新置信度小于抑制置信度阈值；在进行丢弃处理后剩余的多个未访问的检测框中，将包括目标的新置信度最大的检测框标记为已访问，并根据新的已访问的检测框再次进行抑制处理和丢弃处理，直至未访问的检测框的数量为零；当未访问的检测框的数量为零时，将标记为已访问的检测框作为包括目标的目标检测框。

在一些实施例中，抑制模块4554，还用于：当已访问的检测框与未访问的检测框之间的重合程度小于第一重合程度阈值时，将未访问的检测框包括目标的置信度作为新置信度；当重合程度大于或等于第一重合程度阈值时，根据重合程度，对未访问的检测框包括目标的置信度进行加权处理，以将加权处理后的置信度作为新置信度；其中，加权处理后的置信度小于加权处理前的置信度。

在一些实施例中，基于人工智能的目标检测装置455还包括：粗选模块，用于根据每个检测框包括目标的置信度，对多个检测框进行筛选处理，将筛选得到的检测框作为候选检测框；再次预测模块，用于对每个候选检测框再次进行预测处理，得到每个候选检测框包括目标的候选置信度；其中，候选置信度用于进行抑制处理，以从多个候选检测框中筛选得到目标检测框。

在一些实施例中，粗选模块还用于：根据包括目标的置信度，对多个检测框进行降序排序，并在排序靠前的第一设定数量的检测框中，将包括目标的置信度最大的检测框标记为已访问，将第一设定数量的检测框中剩余的检测框标记为未访问；针对每个未访问的检测框执行以下处理：当已访问的检测框与未访问的检测框之间的重合程度大于或等于第二重合程度阈值时，对未访问的检测框进行丢弃处理；在进行丢弃处理后剩余的多个未访问的检测框中，将包括目标的置信度最大的检测框标记为已访问，并根据新的已访问的检测框再次进行丢弃处理，直至未访问的检测框的数量为零；当未访问的检测框的数量为零时，根据包括目标的置信度，对多个已访问的检测框进行降序排序，并将排序靠前的第二设定数量的检测框，作为候选检测框；其中，第一设定数量大于第二设定数量。

在一些实施例中，基于人工智能的目标检测装置455还包括：第一回归模块，用于对每个检测框进行位置回归处理，得到与目标之间的第一偏移位置；第一调整模块，用于根据第一偏移位置，对检测框进行位置调整处理。

在一些实施例中，基于人工智能的目标检测装置455还包括：第二回归模块，用于对每个候选检测框进行位置回归处理，得到与目标之间的第二偏移位置；第二调整模块，用于根据第二偏移位置，对候选检测框进行位置调整处理。

在一些实施例中，基于人工智能的目标检测装置455还包括：丢弃模块，用于对多个候选检测框中满足以下条件的进行丢弃处理：候选检测框包括目标的候选置信度小于候选置信度阈值。

在一些实施例中，基于人工智能的目标检测装置455还包括：像素点预测模块，用于对目标检测框中的每个像素点进行预测处理，得到每个像素点属于目标的置信度；分割模块，用于根据每个像素点属于目标的置信度，对目标检测框进行像素级别的分割处理，得到包括目标的形状区域。

在一些实施例中，区域生成模块4552，还用于：确定由多个框面积中的任一框面积与多个宽高比中的任一宽高比形成的多个组合，并确定符合多个组合中每个组合的框尺寸；分别以特征图中的每个像素点为中心，创建符合每个框尺寸的检测框；其中，多个框面积与特征图的感受野面积相匹配。

在一些实施例中，基于人工智能的目标检测装置455还包括：样本检测模块，用于通过目标检测模型对样本图像进行目标检测处理，得到多个样本检测框、以及每个样本检测框包括目标的置信度；模型更新模块，用于根据样本检测框包括目标的置信度、以及样本图像中包括目标的标注框，对目标检测模型的权重参数进行更新；其中，更新后的目标检测模型用于对待检测图像进行目标检测处理，得到多个检测框、以及每个检测框包括目标的置信度。

在一些实施例中，基于人工智能的目标检测装置455还包括：样本像素点预测模块，用于对样本检测框中的每个像素点进行预测处理，得到每个像素点属于目标的置信度；样本分割模块，用于根据每个像素点属于目标的置信度，对样本检测框进行像素级别的分割处理，得到包括目标的样本形状区域；形状差异确定模块，用于确定样本形状区域与标注框中包括目标的标注形状区域之间的差异，以对目标检测模型的权重参数进行更新。

在一些实施例中，基于人工智能的目标检测装置455还包括：正样本选取模块，用于当样本检测框与标注框之间的重合程度大于正样本重合程度阈值、或者重合程度大于标注框与其他所有样本检测框之间的重合程度时，将样本检测框确定为正样本框；负样本选取模块，用于当样本检测框与标注框之间的重合程度小于负样本重合程度阈值时，将样本检测框确定为负样本框；其中，正样本重合程度阈值大于负样本重合程度阈值；正样本框和负样本框用于对目标检测模型的权重参数进行更新。

在一些实施例中，基于人工智能的目标检测装置455还包括：划分模块，用于将包括多个样本图像的样本集，划分为训练集和验证集；训练集更新模块，用于通过训练集，对目标检测模型的权重参数进行更新；验证集验证模块，用于通过验证集，确定更新后的目标检测模型的精确度指标；再次更新模块，用于当精确度指标小于指标阈值时，通过训练集再次对目标检测模型的权重参数进行更新，直至新的精确度指标大于或等于指标阈值。

在一些实施例中，基于人工智能的目标检测装置455还包括：造假模块，用于对样本检测框进行遮挡处理及形变处理中的至少一种处理。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的基于人工智能的目标检测方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4A、图4B、图4C或图4D示出的基于人工智能的目标检测方法。值得说明的是，计算机包括终端设备和服务器在内的各种计算设备。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本申请实施例能够实现以下技术效果：

1)根据抑制处理得到的新置信度，从多个检测框中筛选出目标检测框，如此，能够在待检测图像中目标分布较为密集的情况下，提升目标检测的精度，当然，本申请实施例同样适用于目标分布较为稀疏的场景。

2)将多个框面积与多个宽高比进行组合处理，进而得到多个框尺寸，并根据框尺寸来创建检测框，由于多个框面积与特征图的感受野面积相匹配，故能够使检测框不会包括过于冗余的信息，也不会包括过于稀疏的信息，提升后续预测处理的精度。

3)可以对目标检测框进行像素级别的分割处理，得到包括目标的形状区域，便于更好地支持目标抠图等应用。

4)在本申请实施例中，可以对多个检测框进行两个阶段的筛选，在第一阶段进行粗选，在第二阶段进行精选，从而能够快速且准确地得到包括目标的目标检测框，适用于检测框数量较多的场景。

5)可以通过更新后的目标检测模型来实现目标检测处理，提升得到的检测框及置信度的准确性；在目标检测模型的训练过程中，可以根据特定的阈值来选取样本，使得模型训练更为有效；此外，可以划分训练集和验证集，通过训练集来训练目标检测模型，通过验证集来确定训练效果(通过精确度指标体现)，如此，一方面能够防止训练次数过少所导致的训练效果差，另一方面能够加强模型的泛化能力，避免过度训练所导致的过拟合。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的目标检测方法，其特征在于，包括：

对待检测图像进行特征提取处理，得到特征图；

对所述特征图进行区域生成处理，得到多个检测框；

2.根据权利要求1所述的目标检测方法，其特征在于，所述根据多个所述检测框之间的重合程度，对每个所述检测框包括所述目标的置信度进行抑制处理，得到新置信度，包括：

将多个所述检测框中包括所述目标的置信度最大的检测框标记为已访问，并将剩余的检测框标记为未访问；

针对每个未访问的检测框执行以下处理：

根据已访问的检测框与所述未访问的检测框之间的重合程度，对所述未访问的检测框包括所述目标的置信度进行抑制处理，得到新置信度。

3.根据权利要求2所述的目标检测方法，其特征在于，所述根据每个所述检测框包括所述目标的新置信度，对所述多个检测框进行筛选处理，将筛选得到的检测框作为包括所述目标的目标检测框，包括：

对满足以下条件的未访问的检测框进行丢弃处理：所述未访问的检测框包括所述目标的新置信度小于抑制置信度阈值；

在进行所述丢弃处理后剩余的多个未访问的检测框中，将包括所述目标的新置信度最大的检测框标记为已访问，并根据新的已访问的检测框再次进行所述抑制处理和所述丢弃处理，直至未访问的检测框的数量为零；

当未访问的检测框的数量为零时，将标记为已访问的检测框作为包括所述目标的目标检测框。

4.根据权利要求2所述的目标检测方法，其特征在于，所述根据已访问的检测框与所述未访问的检测框之间的重合程度，对所述未访问的检测框包括所述目标的置信度进行抑制处理，得到新置信度，包括：

当所述已访问的检测框与所述未访问的检测框之间的重合程度小于第一重合程度阈值时，将所述未访问的检测框包括所述目标的置信度作为新置信度；

当所述重合程度大于或等于所述第一重合程度阈值时，根据所述重合程度，对所述未访问的检测框包括所述目标的置信度进行加权处理，以将加权处理后的置信度作为新置信度；

其中，加权处理后的置信度小于加权处理前的置信度。

5.根据权利要求1所述的目标检测方法，其特征在于，所述对每个所述检测框进行预测处理，得到每个所述检测框包括待识别的目标的置信度之后，还包括：

根据每个所述检测框包括所述目标的置信度，对所述多个检测框进行筛选处理，将筛选得到的检测框作为候选检测框；

对每个所述候选检测框再次进行预测处理，得到每个所述候选检测框包括所述目标的候选置信度；

其中，所述候选置信度用于进行抑制处理，以从多个所述候选检测框中筛选得到所述目标检测框。

6.根据权利要求5所述的目标检测方法，其特征在于，所述根据每个所述检测框包括所述目标的置信度，对所述多个检测框进行筛选处理，将筛选得到的检测框作为候选检测框，包括：

根据包括所述目标的置信度，对所述多个检测框进行降序排序，并

在排序靠前的第一设定数量的检测框中，将包括所述目标的置信度最大的检测框标记为已访问，将所述第一设定数量的检测框中剩余的检测框标记为未访问；

针对每个未访问的检测框执行以下处理：当已访问的检测框与所述未访问的检测框之间的重合程度大于或等于第二重合程度阈值时，对所述未访问的检测框进行丢弃处理；

在进行所述丢弃处理后剩余的多个未访问的检测框中，将包括所述目标的置信度最大的检测框标记为已访问，并根据新的已访问的检测框再次进行所述丢弃处理，直至未访问的检测框的数量为零；

当未访问的检测框的数量为零时，根据包括所述目标的置信度，对多个所述已访问的检测框进行降序排序，并将排序靠前的第二设定数量的检测框，作为候选检测框；

其中，所述第一设定数量大于所述第二设定数量。

7.根据权利要求5所述的目标检测方法，其特征在于，

所述根据每个所述检测框包括所述目标的置信度，对所述多个检测框进行筛选处理之前，还包括：

对每个所述检测框进行位置回归处理，得到与所述目标之间的第一偏移位置；

根据所述第一偏移位置，对所述检测框进行位置调整处理；

所述根据每个所述检测框包括所述目标的置信度，对所述多个检测框进行筛选处理，将筛选得到的检测框作为候选检测框之后，还包括：

对每个所述候选检测框进行位置回归处理，得到与所述目标之间的第二偏移位置；

根据所述第二偏移位置，对所述候选检测框进行位置调整处理。

8.根据权利要求5所述的目标检测方法，其特征在于，所述对每个所述候选检测框再次进行预测处理，得到每个所述候选检测框包括所述目标的候选置信度之后，还包括：

对多个所述候选检测框中满足以下条件的进行丢弃处理：所述候选检测框包括所述目标的候选置信度小于候选置信度阈值。

9.根据权利要求1所述的目标检测方法，其特征在于，还包括：

对所述目标检测框中的每个像素点进行预测处理，得到所述每个像素点属于所述目标的置信度；

根据所述每个像素点属于所述目标的置信度，对所述目标检测框进行像素级别的分割处理，得到包括所述目标的形状区域。

10.根据权利要求1所述的目标检测方法，其特征在于，所述对所述特征图进行区域生成处理，得到多个检测框，包括：

确定由多个框面积中的任一框面积与多个宽高比中的任一宽高比形成的多个组合，并确定符合所述多个组合中每个组合的框尺寸；

分别以所述特征图中的每个像素点为中心，创建符合每个所述框尺寸的检测框；

其中，所述多个框面积与所述特征图的感受野面积相匹配。

11.根据权利要求1至10任一项所述的目标检测方法，其特征在于，还包括：

通过目标检测模型对样本图像进行目标检测处理，得到多个样本检测框、以及每个所述样本检测框包括所述目标的置信度；

根据所述样本检测框包括所述目标的置信度、以及所述样本图像中包括所述目标的标注框，对所述目标检测模型的权重参数进行更新；

其中，更新后的所述目标检测模型用于对待检测图像进行目标检测处理，得到多个检测框、以及每个所述检测框包括所述目标的置信度。

12.根据权利要求11所述的目标检测方法，其特征在于，还包括：

对所述样本检测框中的每个像素点进行预测处理，得到所述每个像素点属于所述目标的置信度；

根据所述每个像素点属于所述目标的置信度，对所述样本检测框进行像素级别的分割处理，得到包括所述目标的样本形状区域；

确定所述样本形状区域与所述标注框中包括所述目标的标注形状区域之间的差异，以

对所述目标检测模型的权重参数进行更新。

13.一种基于人工智能的目标检测装置，其特征在于，包括：

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的基于人工智能的目标检测方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的基于人工智能的目标检测方法。