CN111738231A

CN111738231A - 目标对象检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111738231A
Application number: CN202010782118.XA
Authority: CN
Inventors: 王昌安
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-10-02
Anticipated expiration: 2040-08-06
Also published as: CN111738231B

Abstract

本申请涉及一种目标对象检测方法、装置、计算机设备和存储介质。所述方法包括：对待检测图像进行特征提取，获得初始图像特征；对所述初始图像特征进行特征增强处理，获得第一图像特征；根据所述第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识所述目标对象的初始预测框；对所述初始图像特征和所述第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征；根据所述第二图像特征和所述初始预测框进行针对所述目标对象的第二层级预测处理，以调整所述初始预测框，并根据调整后的预测框识别出所述待检测图像中的所述目标对象。采用本方法能够有效提高目标对象的检测准确度。

Description

目标对象检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种目标对象检测方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的迅速发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行检测越来越热门，尤其是在人脸识别和人体检测等场景的应用。对于复杂场景的图像，精准定位目标具有很大的挑战性。例如由于人脸尺度本身较小，以及人脸姿态变化较大，在复杂场景下难以准确定位人脸目标。

目前的目标检测方式通常是采用预设框分类和检测框回归预测的方式。例如首先对图像进行提取特征，然后在不同网络深度的层上进行不同尺度的目标检测，以根据预设框进行人脸框回归预测。然而实际场景中检测目标的尺度可能比较小，目前这种方式预测出的检测框的分类置信度并不高，导致目标定位精度下降，对于尺度较小的目标的检测准确性较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高目标对象的检测准确度的目标对象检测方法、装置、计算机设备和存储介质。

一种目标对象检测方法，所述方法包括：

对待检测图像进行特征提取，获得初始图像特征；

对所述初始图像特征进行特征增强处理，获得第一图像特征；

根据所述第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识所述目标对象的初始预测框；

对所述初始图像特征和所述第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征；

根据所述第二图像特征和所述初始预测框进行针对所述目标对象的第二层级预测处理，以调整所述初始预测框，并根据调整后的预测框识别出所述待检测图像中的所述目标对象。

一种目标对象检测装置，所述装置包括：

特征提取模块，用于对待检测图像进行特征提取，获得初始图像特征；

第一特征增强模块，用于对所述初始图像特征进行特征增强处理，获得第一图像特征；

第一预测模块，用于根据所述第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识所述目标对象的初始预测框；

第二特征增强模块，用于对所述初始图像特征和所述第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征；

第二预测模块，用于根据所述第二图像特征和所述初始预测框进行针对所述目标对象的第二层级预测处理，以调整所述初始预测框，并根据调整后的预测框识别出所述待检测图像中的所述目标对象。

在其中一个实施例中，所述特征提取模块还用于通过目标检测模型的特征提取层，对所述待检测图像进行多个预设尺度的特征提取，得到各所述预设尺度对应的特征图；通过所述目标检测模型的第一卷积层，对所述特征图进行特征增强处理，获得初始图像特征。

在其中一个实施例中，所述第一特征增强模块还用于通过目标检测模型的第一语义提取层，根据预设感受野参数对所述初始图像特征进行语义特征提取，得到所述初始图像特征的上下文语义信息；通过所述目标检测模型的第二卷积层，对所述上下文语义信息进行特征增强处理，获得所述第一图像特征。

在其中一个实施例中，所述第一预测模块还用于通过目标检测模型的第一预测层，根据所述第一图像特征预测所述待检测图像中针对检测对象的预测框；对所述检测对象的预测框进行分类，得到用于标识所述目标对象的初始预测框。

在其中一个实施例中，所述第二特征增强模块还用于将所述初始图像特征和所述第一图像特征输入至目标检测模型的第二语义提取层；根据所述初始图像特征和所述第一图像特征调整所述第二语义提取层的感受野参数，得到调整后的感受野参数；对所述初始图像特征和所述第一图像特征进行特征拼接，得到拼接后的特征；根据所述调整后的感受野参数，对所述拼接后的特征进行语义特征提取，得到所述拼接后的特征对应的上下文语义信息；通过所述目标检测模型的第三卷积层，对所述上下文语义信息进行特征增强处理，得到第二图像特征。

在其中一个实施例中，所述初始预测框包括至少一个预测框；所述第一预测模块还用于获取所述初始预测框中各预测框对应的置信度；对所述置信度未达到置信度阈值的预测框进行过滤，得到过滤后的预测框；根据所述过滤后的预测框的位置和所述第一图像特征对应的位置，对所述过滤后的预测框进行筛选，得到筛选后的预测框；所述第二预测模块还用于根据所述第二图像特征和所述筛选后的预测框进行针对所述目标对象的第二层级预测处理，以调整所述筛选后的预测框，并根据调整后的预测框识别出所述待检测图像中的所述目标对象。

在其中一个实施例中，所述第一图像特征对应第一特征图；所述第一预测模块还用于获取所述过滤后的预测框的中心点在所述第一特征图中的映射位置；根据所述映射位置对所述过滤后的预测框进行筛选，得到筛选后的预测框。

在其中一个实施例中，所述第一预测模块还用于当多个预测框的中心点在同一第一特征图的映射位置相同时，从所述多个预测框中选取其中一个预测框；根据不具有相同映射位置的预测框以及选取的所述预测框，得到筛选后的预测框。

在其中一个实施例中，所述第二预测模块还用于通过目标检测模型的第二预测层，根据所述第二图像特征从所述初始预测框中选取预测框；根据选取的所述预测框进行针对所述目标对象的更新预测，得到调整后的预测框，并根据所述调整后的预测框识别出所述待检测图像中的所述目标对象。

在其中一个实施例中，所述第二图像特征对应第二特征图；所述第二预测模块还用于获取所述初始预测框的位置在所述第二特征图中的映射位置；当多个初始预测框的位置在同一第二特征图中的映射位置相同时，获取各个初始预测框的置信度；根据所述置信度从所述初始预测框中选取最优置信度对应的预测框，得到选取的预测框。

在其中一个实施例中，所述目标对象检测方法是通过目标检测模型执行的；所述目标检测模型通过训练步骤训练获得，所述装置还包括模型训练模块，用于获取样本图像和训练标签；所述训练标签是所述样本图像中针对样本目标对象的标注标签；基于所述样本图像和所述训练标签对待训练的目标检测模型进行训练，当满足训练条件时停止训练，得到训练好的目标检测模型。

在其中一个实施例中，所述模型训练模块还用于将所述样本图像输入待训练的目标检测模型，提取所述样本图像的初始样本图像特征；通过所述目标检测模型的第一语义提取层，对所述初始样本图像特征进行特征增强处理，获得第一样本图像特征；通过所述目标检测模型的第一预测层，根据所述第一样本图像特征进行针对样本目标对象的第一层级预测处理，得到初始样本预测框；通过所述目标检测模型的第二语义提取层，对所述初始样本图像特征和所述第一样本图像特征进行特征拼接，并对拼接后的样本图像特征进行特征增强处理，获得第二样本图像特征；通过所述目标检测模型的第二预测层，根据所述第二样本图像特征和所述初始样本预测框进行针对所述样本目标对象的第二层级预测处理，得到针对样本目标对象的样本预测结果；基于所述样本预测结果与所述训练标签的差异，调整所述目标检测模型的参数，并继续训练，直至满足训练条件时停止训练。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

对待检测图像进行特征提取，获得初始图像特征；

根据所述第一图像特征进行第一层级预测处理，得到用于标识目标对象的初始预测框；

根据所述第二图像特征和所述初始预测框进行第二层级预测处理，以调整所述初始预测框，并根据调整后的预测框识别出所述待检测图像中的目标对象。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

对待检测图像进行特征提取，获得初始图像特征；

上述目标对象检测方法、装置、计算机设备和存储介质，通过对待检测图像进行特征提取，获得初始图像特征后，对初始图像特征进行特征增强处理，由此能够获得特征信息表示更强的第一图像特征。通过根据第一图像特征进行针对目标对象的第一层级预测处理，从而可得到用于标识目标对象的初始预测框。通过对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，由此能够得到进一步增强语义信息后的第二图像特征。根据第二图像特征和初始预测框进行针对目标对象的第二层级预测处理以调整初始预测框，由此能够更加精准地修正针对目标对象的定位区域，使得调整后的预测框更接近实际目标对象的区域，从而能够准确有效地检测出待检测图像中针对目标对象的预测框，进而有效提高了目标对象的检测精准度。

附图说明

图1为一个实施例中目标对象检测方法的应用环境图；

图2为一个实施例中目标对象检测方法的流程示意图；

图3为一个实施例中第一语义提取层的局部网络结构示意图；

图4为一个实施例中第二语义提取层的局部网络结构示意图；

图5为另一个实施例中目标对象检测方法的流程示意图；

图6为一个实施例中目标检测模型的训练步骤的流程示意图；

图7为一个实施例中目标检测模型的网络结构示意图；

图8为一个具体的实施例中目标对象检测方法的流程示意图；

图9为一个实施例中实施例中的待检测图像；

图10为一个实施例中对待检测图像进行处理后的人脸检测结果示意图；

图11为一个实施例中目标对象检测装置的结构框图；

图12为另一个实施例中目标对象检测装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的目标对象检测方法，可以应用于计算机设备中。计算机设备可以为终端或服务器。可以理解的是，本申请提供的目标对象检测方法可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。

本申请提供的目标对象检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。作为云计算的基础能力提供商，会建立云计算资源池(简称云平台，一般称为IaaS(Infrastructure as a Service，基础设施即服务)平台，在资源池中部署多种类型的虚拟资源，供外部客户选择使用。云计算资源池中主要包括：计算设备(为虚拟化机器，包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS（Infrastructure asa Service，基础设施即服务）层上可以部署PaaS(Platform as a Service,平台即服务)层，PaaS层之上再部署SaaS (Software as a Service,软件即服务)层，也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台，如数据库、web容器等。SaaS为各式各样的业务软件，如web门户网站、图像处理软件等。

具体地，终端102获取待检测图像，将待检测图像发送至服务器104。服务器104对待检测图像进行特征提取，获得初始图像特征后，对初始图像特征进行特征增强处理，获得第一图像特征。根据第一图像特征进行针对目标对象的第一层级预测处理，从而得到用于标识目标对象的初始预测框。通过对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，得到第二图像特征。根据第二图像特征和初始预测框进行针对目标对象的第二层级预测处理以调整初始预测框，从而根据调整后的预测框识别出待检测图像中的目标对象

可以理解，本申请各实施例中的目标对象检测方法，采用人工智能技术中的计算机视觉技术以及机器学习技术等，能够有效实现自动检测出图像中的目标对象。人工智能(Artificial Intelligence ,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。可以理解，本申请正是使用计算机视觉技术，从图像中检测识别出目标对象。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。可以理解，在本申请一些实施例中使用到的目标检测模型，就是使用机器学习技术训练得到的，基于该机器学习技术训练得到的目标检测模型，能够更为准确地从图像中检测出目标对象。

在一个实施例中，如图2所示，提供了一种目标对象检测方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

S202，对待检测图像进行特征提取，获得初始图像特征。

其中，待检测图像是包含待检测的各种物体对象的图像，例如待检测对象可以包括人脸、人体或其他物体等对象；待检测对象还可以是图像中人体的各个部位，或者各个部位的组合；例如可以是人脸、眼睛、鼻子、半身或者整个人体，但不限于此。

特征提取的主要目的是降维，通过将原始样本投影到一个低维特征空间，得到最能反应样本本质或进行样本区分的低维样本特征。初始图像特征是从待检测图像中提取的初始的图像特征。例如，图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征等。

可以理解，终端可以通过神经网络对待检测图像进行特征提取，对原始图像进行多次卷积处理，可提取得到相应尺寸的一个或多个特征图，并基于特征图进一步提取图像特征。其中，多个是指两个以上。

具体地，终端获取待检测图像后，对待检测图像进行特征提取，根据预设尺度参数提取多个尺度对应的特征图，从而能够得到待检测图像对应的图像特征。比如可以通过深度卷积网络提取图像特征，获得具有细节特征信息和高分辨率的特征图。终端还可以进一步对提取的特征图进行特征增强处理，从而得到待检测图像对应的初始图像特征。

S204，对初始图像特征进行特征增强处理，获得第一图像特征。

其中，特征增强是对特征的进一步提取，通常包括识别缺失值、删除有害数据、输入缺失值以及对数据进行归一化等至少一种处理。第一图像特征是指对得到的初始图像特征进行特征增强处理后，进一步得到的待检测图像对应的特征。

终端提取出待检测图像的初始图像特征后，接着对初始图像特征进行特征增强处理，通过特征增强处理能够进一步提取待检测图像的图像语义信息，从而有效获得特征信息表示更强的第一图像特征。

S206，根据第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识目标对象的初始预测框。

其中，预测框是指针对目标对象进行目标定位的定位框，即针对目标对象所预测的边界框。目标定位一般是用一个矩形框来框出目标对象所处的位置区域。初始预测框可以包括对目标对象的位置预测结果，即通过第一层级初始预测处理，预测出的待检测图像中目标对象所处的位置区域。

可以理解，待检测图像中目标对象对应的初始预测框可以为多个。当初始预测框为多个时，则表明第一层级预测输出的是多个可能存在目标对象的位置区域。在另外的实施例中，待检测图像中目标对象对应的初始预测框也可以一个，例如可从预测的多个可能存在目标对象的预测框中，选择目标对象类别概率选取最可能是目标对象的预测框，作为初始预测框。在此不作限定。

可以理解，本实施例中的目标对象检测方法中包括两个层级的预测处理，第一层级预测处理即在第一阶段针对目标对象的第一次预测处理。第二层级预测处理即在第二阶段针对目标对象的第二次预测处理。

终端根据第一图像特征进行第一层级预测处理时，根据第一图像特征对待检测图像中的物体进行识别定位，并判断所检测的物体是否为目标对象。若识别到所检测的区域为目标对象的定位区域，则根据所识别的定位区域生成相应的检测框。终端进而根据预测生成的检测框得到用于标识目标对象的初始预测框。

在其中一个实施例中，终端还可以通过预训练的第一检测器，根据第一图像特征进行第一层级预测，得到初始预测框。

S208，对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征。

在提取出待检测图像对应的初始图像特征，以及根据初始图像特征提取得到第一图像特征后，终端还进一步将初始图像特征和第一图像特征进行结合，对初始图像特征和第一图像特征进行特征拼接，以得到对拼接后的图像特征。终端进一步对拼接后的图像特征进行深层次的特征提取和特征增强处理，以获得同时具有高级语义信息和细节信息的图像特征。

具体地，终端将初始图像特征和第一图像特征进行特征拼接，拼接后的特征融合了多个尺度的上下文信息。通过对拼接后的特征进行语义特征提取，以捕捉初始图像特征和第一图像特征的上下文信息，并进一步对上下文信息进行特征增强处理，从而能够获得增强语义信息后的第二图像特征。

S210，根据第二图像特征和初始预测框进行针对目标对象的第二层级预测处理，以调整初始预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

其中，调整初始预测框是指通过进行针对目标对象的第二层级预测处理，对第一层级预测的初始预测框进行更新预测，以预测得到更加精准的针对目标对象的预测框。

终端获得第二图像特征和初始预测框后，首先根据第二图像特征对初始预测框进行筛选，接着根据第二图像特征和所选取的预测框进行第二层级预测，在第二层级预测处理的过程中，终端可以在所选取的初始预测框的基础上，进行更新预测，以对初始预测框进行调整，从而得到调整后的预测框。

通过根据第二图像特征和初始预测框进行第二层级预测处理，能够更加精准地修正针对目标对象的定位区域，从而能够准确有效地检测出待检测图像中针对目标对象的预测框。终端通过第二层级预测处理得到调整后的预测框，由此能够直接根据调整后的预测框识别出待检测图像中的目标对象。因此，本实施例中的目标对象检测方法还能够精准地检测出尺度较小的目标对象。

上述目标对象检测方法中，通过对待检测图像进行特征提取，获得初始图像特征后，对初始图像特征进行特征增强处理，由此能够获得特征信息表示更强的第一图像特征。通过根据第一图像特征进行针对目标对象的第一层级预测处理，从而可得到用于标识目标对象的初始预测框。通过对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，由此能够得到进一步增强语义信息后的第二图像特征。根据第二图像特征和初始预测框进行第二层级预测处理以调整初始预测框，由此能够更加精准地修正针对目标对象的定位区域，使得调整后的预测框更接近实际目标对象的区域，从而能够准确有效地检测出待检测图像中针对目标对象的预测框，进而有效提高了目标对象的检测精准度。

在一个实施例中，对待检测图像进行特征提取，获得初始图像特征，包括：通过目标检测模型的特征提取层，对待检测图像进行多个预设尺度的特征提取，得到各预设尺度对应的特征图；通过目标检测模型的第一卷积层，对特征图进行特征增强处理，获得初始图像特征。

其中，目标检测模型是预训练的神经网络模型，目标检测模型可以为级联的网络结构，具体包括特征提取层以及多层的深度卷积层。特征提取层用于提取待检测图像对应的多个预设尺度的特征图。例如，特征提取层可以采用基于VGG16（Visual GeometryGroup，卷积神经网络）、基于ResNet（残差网络）等的深度卷积神经网络。深度卷积层可以采用基于LFPN（Feature Pyramid Network,特征金字塔网络）或基于RPN（RegionProposalNetwork，区域生成网络)等的深度卷积网络。

具体地，终端获取待检测图像后，将待检测图像输入至预训练的目标检测模型。首先通过目标检测模型的特征提取层对待检测图像进行特征提取，从而能够获得待检测图像对应的多个预设尺度的特征图。

以特征提取层采用基于VGG16深度卷积网络为例，VGG16深度卷积网络中还可以包括多个卷积层、多个池化层以及多个全连接层。首先，将待检测图像输入至网络中，并调整输入图像的尺度。接着通过网络中多个卷积层通道的卷积核对输入图像进行多次Conv（向量卷积运算）卷积，每一次卷积可以提取相应尺度的特征图，每个卷积层都不会改变前一层的特征图的尺度。其中，池化层可以分布在卷积层之间，用于降低特征图尺度并且能够提高网络抗干扰能力。接着，对卷积层输出的各个预设尺度的特征图进行维度和尺度变换后，送入FC(fully connected layers)全连接层，通过全连接层将前面经过多次卷积后高度抽象化的特征进行整合，然后进行归一化，从而输出各个预设尺度的特征图。例如可以得到与VGG16深度卷积网络中的Conv3、Conv4、Conv5、fc6、fc7、fc8各个卷积层对应的六个预设尺度的输出特征图。通过VGG16深度卷积网络对待检测图像进行特征提取，能够有效地提取多个预设尺度的特征图。

终端进一步通过目标检测模型的第一卷积层，对提取的各个特征图进行特征增强处理，通过第一卷积层来增强每个尺度特征图的语义信息，得到初始图像特征，从而得到在所有尺度都具有高语义信息的一组高分辨率特征图，基于这些特征图进行目标对象预测能够大幅提升目标对象的检测精度。

本实施例中，通过目标检测模型的特征提取层对待检测图像进行特征提取，能够有效地提取出多个预设尺度的特征图。进一步对提取的特征图进行特征增强处理，从而能够获取较高语义信息的特征，由此能够进一步更加精准地对图像中的目标对象进行检测。

在一个实施例中，对初始图像特征进行特征增强处理，获得第一图像特征，包括：通过目标检测模型的第一语义提取层，根据预设感受野参数对初始图像特征进行语义特征提取，得到初始图像特征的上下文语义信息；通过目标检测模型的第二卷积层，对上下文语义信息进行特征增强处理，获得第一图像特征。

其中，上下文语义信息是指待检测图像的图像上下文语义信息。在卷积神经网络中，感受野（Receptive Field）是指卷积神经网络每一层输出的特征图（feature map）上的像素点在输入图片上映射的区域大小，即特征图上的一个点对应输入图上的区域。其中，感受野参数主要包括卷积特征图上移动一个像素映射在源图像（待检测图像）上实际移动的像素数量、感受野大小以及卷积特征图上左上角第一个像素对应到源图像上的感受域的中心点坐标。

目标检测模型中包括了第一语义提取层和第二卷积层。第一语义提取层是用于对图像特征进行深度语义提取和特征增强的网络结构层。例如第一语义提取层可以为CIM（Continuous Improvement Model，持续改进模型）。第一语义提取层具体可以采用基于CNN（Convolutional Neural Networks,卷积神经网络）、DNN(Deep Neural Networks，深度神经网络)或基于LSTM（Long Short-Term Memory，长短期记忆网络）等模型，在此不做限定。第二卷积层用于对输入的特征进行进一步的特征增强处理，以增强特征的信息表示。

如图3所示，为一个实施例中第一语义提取层的局部网络结构示意图。参照图3，第一语义提取层的网络结构可以采用残差连接，网络结构图中包括多个针对不同尺度的网络支路，即Channels。例如可以包括针对1x3、1x1、1x1、3x3等多个尺度的支路。还可以包括平均池化层，例如AvgPool，用于计算通道覆盖到的元素集合的平均值。其中，网络结构图中输入端对应的1x1卷积主要用来降低输入特征的通道数，从而可以降低计算量。通过Concatenate连接层将不同支路提取的特征拼接在一起，拼接后的特征融合了多个尺度的上下文信息。而输出端对应的1x1尺度的卷积则用来增加特征的通道数，从而可以跟输入特征的通道数保持一致，由此能够有效地对输入特征进行上下文语义增强。

具体地，终端通过对待检测图像进行特征提取，获得待检测图像的第一图像特征后，进一步将获得的初始图像特征输入至目标检测模型所包括的第一语义提取层。第一语义提取层中包括多个不同的网络支路，能够有效地针对不同尺度的特征图进行特征提取。这些支路的卷积具有不同的感受野参数，各个卷积支路的感受野参数可以是根据各个不同尺度预设的，从而可以基于这些感受野参数从不同尺度提取特征图的上下文信息。最后将不同支路提取的特征通过特征拼接的方式拼接在一起，由此拼接后的特征融合了多个尺度的上下文信息，从而有利于更加精准地对尺度较小的目标对象进行检测。

通过目标检测模型的第一语义提取层获得初始图像特征的上下文语义信息后，终端进一步将得到的上下文语义信息输入至目标检测模型的第二卷积层，通过第二卷积层进一步增强每个尺度特征图的语义信息，从而能够得到特征增强后的第一图像特征。

本实施例中，通过预训练的目标检测模型的第一语义提取层对初始图像特征进行语义特征提取，能够更加精准地捕捉不同尺度特征图对应的上下文语义信息。并进一步通过目标检测模型的第二卷积层根据上下文语义信息进行特征增强处理，从而能够有效地获得具有高语义信息和细节信息的第一图像特征。其中，高级语义信息可以判别是目标对象还是背景，细节信息可以更好地帮助网络确定目标对象的具体坐标。以第一图像特征为基础进行检测框的预测，能够有利于提高目标对象的检测准确度。

在一个实施例中，根据第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识目标对象的初始预测框，包括：通过目标检测模型的第一预测层，根据第一图像特征预测待检测图像中针对检测对象的预测框；对检测对象的预测框进行分类，得到用于标识目标对象的预测框。

其中，目标检测模型是预训练好的机器学习模型。目标检测模型中包括第一预测层，第一预测层还可以包括预训练的第一检测器，用于对待检测图像中的目标对象的检测框进行预测。第一检测器可以为基于回归预测的深度神经网络模型。例如，第一检测器可以采用基于SSD（Single Shot MultiBox Detector，目标检测算法）模型、FasterRCNN（FasterRegion Convolutional Neural Networks，深度学习的目标检测算法）模型等，但不限于此。

终端根据第一图像特征进行第一层级预测处理时，可通过目标检测模型所包括的第一预测层对待检测图像中的目标对象进行第一阶段预测，以获得针对目标对象检测的初始预测框。

具体地，终端提取出待检测图像的初始图像特征，并对初始图像特征进行特征增强处理，得到第一图像特征后。终端将第一图像特征输入至目标检测模型所包括的第一预测层，进而通过第一预测层包括的第一检测器根据第一图像特征进行，在不同网络深度层上进行不同尺度的目标检测，以根据预设尺度的预设框对待检测图像中的检测对象进行检测，并生成针对检测对象的预测框。接着，第一检测器则基于预设框进行目标对象检测回归，以对所生成的检测对象的预测框进行分类，从而获得针对目标对象的预测框，并利用第一检测器预测得到的预测框，生成用于标识目标对象的初始预测框。

本实施例中，通过目标检测模型所包括的第一预测层，对待检测图像中的目标对象进行预测，能够有效地获得针对目标对象的初始预测框。由于第一预测层是基于多次特征提取和特征增强处理得到的第一图像特征进行预测的，由此能够初步获得较为准确地预测出待检测图像中的目标对象。

在一个实施例中，对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征，包括：将初始图像特征和第一图像特征输入至目标检测模型的第二语义提取层；根据初始图像特征和第一图像特征调整第二语义提取层的感受野参数，得到调整后的感受野参数；对初始图像特征和第一图像特征进行特征拼接，得到拼接后的特征；根据调整后的感受野参数，对拼接后的特征进行语义特征提取，得到拼接后的特征对应的上下文语义信息；通过目标检测模型的第三卷积层，对上下文语义信息进行特征增强处理，得到第二图像特征。

其中，目标检测模型包括第一语义提取层和第二语义提取层，以及第一卷积层、第二卷积层和第三卷积层。第二语义提取层是用于对图像特征进行进一步深度语义提取和特征增强的网络结构层。例如，第一语义提取层和第二语义提取层均可以为CIM（ContinuousImprovement Model，持续改进模型），其中，第一语义提取层可以表示为CIM-A层，第二语义提取层可以表示为CIM-B层。第二语义提取层具体可以采用基于CNN、DNN等的可变形卷积网络（Deformable Convolutional Networks），在此不做限定。

在其中一个实施例中，可形变卷积网络还可以直接由已有的网络结构扩充构建得到，从而无需重新预训练。

第二语义提取层可以基于在网络中对空间采样的位置信息作进一步位移调整，该位移可在目标任务中学习得到。可形变卷积网络在目标检测中能够有效地抽取到效果较好的有用特征信息。第三卷积层则用于对输入的特征进行进一步的特征增强处理，以增强特征的信息表示。

如图4所示，为一个实施例中第二语义提取层的局部网络结构示意图。参照图4，第二语义提取层的网络结构可以采用残差连接，网络结构图中包括通过可变形卷积层，例如可以为DeformableConv 3x3。通过可形变卷积可根据输入特征自适应地调整感受野参数，对于不同尺度的目标对象可以使用不同的感受野大小提取相应的上下文信息。其中，网络结构图中输入端对应的1x1卷积主要用来降低输入特征的通道数，从而可以降低计算量。输出端对应的1x1卷积则用来增加特征的通道数，从而可以跟输入特征的通道数保持一致，由此能够有效地对输入特征进行进一步的上下文语义增强，以获得更加精准地上下文信息。

具体地，终端通过对待检测图像进行特征提取，获得待检测图像的初始图像特征后，通过第一语义提取层对初始图像特征，进行针对多个预设尺度的特征图的特征提取，能够有效获得增强后的第一图像特征。

终端获得待检测图像对应的初始图像特征和第一图像特征后，进一步将初始图像特征和第一图像特征输入至目标检测模型所包括的第二语义提取层。由于第二语义提取层是基于可形变卷积的网络结构，因此可以根据输入特征自动调整第二语义提取层的感受野参数，并得到调整后发感受野参数，从而能够根据所输入的初始图像特征和第一图像特征自适应地调整感受野的大小。

第二语义提取层中包括多层的卷积层，将初始图像特征和第一图像特征输入第二语义提取层后，将初始图像特征和第一图像特征在每一层卷积层上进行拼接，同时自适应地调整网络层的感受野参数。第二语义提取层然后根据调整后的感受野参数和拼接后的特征进行语义特征提取，获得拼接后的特征对应的上下文语义信息，从而对拼接后的特征进行上下文信息增强。

通过第二语义提取层输出拼接后的特征对应的上下文语义信息后，接着将所提取的上下文语义信息输入至目标检测模型的第三卷积层，由于第三卷积层的输入特征是经过多次特征增强和语义提取的特征，通过第三卷积层再次对输入特征进行特征增强，获得第二图像特征。从而能够更加精准地获得具有高级语义信息和细节信息的图像特征，进而基于这些增强处理后的特征进行目标对象预测，能够有效提高目标对象的检测准确度。

本实施例中，通过目标检测模型对待检测图像进行多层次的语义特征提取和特征增强处理，能够准确有效地提取出深度图像语义信息和针对图像中对象的多尺度特征信息，从而能够有利于更加精准地预测出待检测图像中的目标对象。

在一个实施例中，初始预测框包括至少一个预测框。如图5所示，提供了另一种目标对象检测方法，具体包括以下步骤：

S502，对待检测图像进行特征提取，获得初始图像特征。

S504，对初始图像特征进行特征增强处理，获得第一图像特征。

S506，根据第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识目标对象的初始预测框；

S508，对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征。

S510，获取初始预测框中各预测框对应的置信度。

S512，对置信度未达到置信度阈值的预测框进行过滤，得到过滤后的预测框。

S514，根据过滤后的预测框的位置和第一图像特征对应的位置，对过滤后的预测框进行筛选，得到筛选后的预测框。

S516，根据第二图像特征和筛选后的预测框进行针对目标对象的第二层级预测处理，以调整筛选后的预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

可以理解，通过第一层预测处理，可以获得针对待检测图像中目标对象的多个预设尺度的预测框，即初始预测框包括至少一个预测框。其中，置信度是表示对样本的目标概率估计的置信区间，置信区间给出了被测量参数的测量值的可信程度。通常而言，置信度越高，精确度越高；相反置信度越低，精确度越低。

终端对待检测图像的初始图像特征进行特征增强处理，获得第一图像特征，进而根据第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识目标对象的初始预测框后，终端进一步对获得的初始预测框进行过滤筛选。具体地，终端预测出初始预测框的过程中，还可以预测获得各个预测框的置信度。首先对各预测框对应的置信度进行判别，对置信度未达到置信度阈值的预测框进行过滤，从而得到过滤后的预测框。然后遍历保留下来的每个预测结果，根据过滤后的预测框的位置和第一特征图对应的位置，具体可以根据两者的投影位置确定过滤后的预测框与第一特征图的投影位置关系。例如，对于投影位置相同的预测框，则剔除其中重复冗余的预测框，以对过滤后的预测框进行筛选，从而得到筛选后的预测框。

终端则进一步根据第二图像特征和筛选后的预测框进行第二层级预测处理，以调整筛选后的预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

本实施例中，通过对初始预测框进行多层过滤和筛选，能够更加精准地抽取与实际目标对象的位置更接近的预测框，从而能够进一步精准地检测出待检测图像中的目标对象。

在一个实施例中，第一图像特征对应第一特征图；根据过滤后的预测框的位置和第一图像特征对应的位置，对过滤后的预测框进行筛选，得到筛选后的预测框，包括：获取过滤后的预测框的中心点在第一特征图中的映射位置；根据映射位置对过滤后的预测框进行筛选，得到筛选后的预测框。

可以理解，第一图像特征可以是基于各个尺度特征图对应的图像特征，因此第一图像特征对应了相应的第一特征图，特征图包括了在源图像中的位置区域。若第一图像特征对应了多个第一特征图，那么第一图像特征则包括了多个第一特征图对应的特征信息。

其中，预测框的中心点可为各个预测框边界对应的中心点坐标，中心点可以有效反映预测区域的语义信息，能够有效地区分其他类别的语义信息。因此中心点可用于筛选初始预测框中重复多余的或者误检的预测框。

通过根据第一图像特征进行针对目标对象的第一层级预测处理，可以得到用于标识目标对象的初始预测框集合，以及各个初始预测框集合中各个预测框对应的置信度。其中，初始预测框集合中可以包括多个初始预测所生成的预测框，以可以仅包括一个初始预测框。

可以理解，置信度越低，表示相应的预测所标记的目标对象的位置区域的准确度就越低。因此，终端获得初始预测框后，进一步根据置信度阈值对初始预测框进行的过滤。例如，终端可以过滤掉置信度小于0.01的预测框，得到过滤后的预测框集合。过滤后的预测框集合可以表示为第一预测框集合。

终端进一步获取第一预测框集合中各个预测框的中心点在第一特征图中的映射位置，即计算预测框的中心点在对应尺度特征图上的位置，中心点落入尺度特征图的位置即为相应的映射位置。

终端进而根据映射位置对过滤后的第一预测框集合进行筛选，根据中心点筛选预测框，能够有效地消除初始预测框中的误检框。例如，对于多个位置相近的预测框，可以采用预设算法筛选出最优的预测框并保留，从而得到筛选后的预测框。对第一预测框集合进行筛选后的预测框，可以表示为第二预测框集合。

在一个实施例中，根据映射位置对过滤后的预测框进行筛选，得到筛选后的预测框，包括：当多个预测框的中心点在同一第一特征图的映射位置相同时，从多个预测框中选取其中一个预测框；根据不具有相同映射位置的预测框以及选取的预测框，得到筛选后的预测框。

终端在对过滤后的预测框进行遍历以及筛选时，通过计算预测框的中心点在对应尺度特征图上的位置，确定各个预测框对应在第一特征图中的映射位置。

各个预测框对应在第一特征图中的映射位置，可能存在多个预测框的中心点在第一特征图的映射位置相同的情况，这种情况表示可能存在重复冗余的预测框，需要进一步筛选。还可能存在多个预测框的中心点在第一特征图中不具有相同映射位置，这种情况则表示这类预测框属于正常预测范围的预测框，这些预测框则可以直接保留。

具体地，在遍历完第一预测框集合中的预测框之后，对于每个第一特征图上的每个位置，要么没有对应任何一个预测框的中心，要么该位置对应多个预测框的中心点。因此如果多个预测框的中心点落入同一个特征图上的同一个位置，表示多个预测框的中心点在第一特征图的映射位置相同。终端则从多个预测框中选取其中一个预测框。具体地，终端可以采用预设算法选择其中一个预测框，例如可以采用蓄水池采样算法随机选取一个预测框、或者还可以将多个预测框的坐标按照置信度进行加权并按照加权结果选取最优选的预测框，以从多个预测框中选取其中一个预测框。具体选取方式在此不作限定。

终端进而利用不具有相同映射位置的预测框，以及所选取的预测框，得到筛选后的预测框。最终保留下来的筛选后的预测框可以表示为第二预测框集合。终端在进一步进行针对目标对象的第二层级预测处理时，则根据第二图像特征和第二预测框集合进行第二层级预测处理，以对初始预测框进行调整，并得到调整后的预测框，调整后的预测框则为最终的预测结果。由此根据调整后的预测框可以识别出待检测图像中的目标对象。

本实施例中，通过对初始预测框进行多次过滤和筛选处理，能够更加精准地抽取与实际目标对象的位置更接近的预测框，并且通过有效地过滤掉重复或冗余的预测框，以减少对进一步预测处理的干扰。从而能够更加精准地检测出待检测图像中的目标对象。

在一个实施例中，根据第二图像特征和初始预测框进行第二层级预测处理，以调整初始预测框，并根据调整后的预测框识别出待检测图像中的目标对象，包括：通过目标检测模型的第二预测层，根据第二图像特征从初始预测框中选取预测框；根据选取的预测框进行针对目标对象的更新预测，得到调整后的预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

其中，目标检测模型的第二预测层中还可以包括预训练的第二检测器。第二检测器是基于对输入特征和初始预测框进行预测的网络模型。例如，第二检测器可以采用基于DAN（Deep Adaptation Netowrk，深度适配网络）、DNN(Deep Neural Networks，深度神经网络)等神经网络模型，但不限于此。

可以理解，通过第二检测器进行第二层级预测时，可根据输入特征和初始预测框自适应调整第二检测器的预设框，即预设框的形状和大小可由输入特征和初始预测框相应的参数控制。由此通过第二层级预测处理，能够根据初始检测结果动态调整预设框的位置和大小，以对初始预测框进行调整。

具体地，终端在进行第二层级预测处理时，将提取的第二图像特征以及通过第一层级预测获得的初始图像特征作为第二层级预测处理的输入。在进行第二层及预测之前，还可以首先根据第二图像特征从初始框中选取满足置信度条件的预测框，将选取的预测框作为第二检测器的预设框，然后根据第二图像特征以及选取的预测框进行第二层级的预测，由此能够在第二层级预测的过程中针对目标对象的更新预测，以对初始预测框进行动态调整，从而获得更加贴合真实目标对象的预测框。

在一个实施例中，第二图像特征对应第二特征图；根据第二图像特征从初始预测框中选取预测框，包括：获取初始预测框的位置在第二特征图中的映射位置；当多个初始预测框的位置在同一第二特征图中的映射位置相同时，获取各个初始预测框的置信度；根据置信度从初始预测框中选取最优置信度对应的预测框，得到选取的预测框。

可以理解，第二图像特征也可以是基于各个尺度特征图对应的图像特征，因此第二图像特征对应了相应的第二特征图，特征图包括了在源图像中的位置区域。若第二图像特征对应了多个第二特征图，那么第二图像特征则包括了多个第二特征图对应的特征信息。

具体地，初始预测框还包括各个预测框的置信度。根据第二图像特征从初始框中选取预测框的过程中，首先计算各个初始预测框的位置在第二特征图中的映射位置。其中，各个初始预测框的位置在第二特征图中的映射位置，可以为各个初始预测框的整体位置区域在第二特征图中的投影位置。在另外的实施例中，映射位置，还可以是各个初始预测框的中心点在第二特征图中的投影位置。

若多个初始预测框的位置在同一第二特征图中的映射位置相同时，表示存在多个位置近似或相同的初始预测框。终端进而获取各个初始预测框的置信度，根据置信度从这些初始预测框中选取最优置信度对应的预测框，即选取出其中置信度最高的预测框，得到选取的预测框。第二预测层则根据选取的预测框进行第二层级预测处理，从而预测得到基于对初始预测框调整后的预测结果。

本实施例中，在针对目标对象进行第二层级预测处理时，通过根据第二图像特征对初始预测框进行筛选，能够有效地过滤掉置信度不高或者误检的预测框，进而通过将选取的预测框作为第二检测器的预设框，由此能够根据初始预测框动态调整第二层级预测的预测框的位置和大小，从而预测出更加贴合真实目标对象的预测框，进而有效提高了目标对象的检测准确度。

在一个实施例中，目标对象检测方法是通过目标检测模型执行的；目标检测模型通过训练步骤训练获得，训练步骤包括：获取样本图像和训练标签；训练标签是样本图像中针对样本目标对象的标注标签；基于样本图像和训练标签对待训练的目标检测模型进行训练，当满足训练条件时停止训练，得到训练好的目标检测模型。

其中，样本图像，是指作为模型训练样本数据的图像。训练标签用于对每次的训练结果进行调参等处理，以进一步训练和优化内容生成模型。样本图像的训练标签可以是对样本图像中的样本目标对象进行标注得到的。例如，训练标签具体可以是由人工标注获得。

可以理解，在模型训练的过程中，通常需要经过多轮迭代训练目标检测模型。每轮迭代训练通过调整每一轮的目标检测模型的模型参数，以逐步收敛模型，从而得到最终的目标检测模型。

在一个实施例中，如图6所示，为一个实施例中目标检测模型的训练步骤的流程示意图，该训练步骤具体包括：

S602，获取样本图像和训练标签；训练标签是样本图像中针对样本目标对象的标注标签。

S604，将样本图像输入待训练的目标检测模型，提取样本图像的初始样本图像特征。

S606，通过目标检测模型的第一语义提取层，对初始样本图像特征进行特征增强处理，获得第一样本图像特征。

S608，通过目标检测模型的第一预测层，根据第一样本图像特征进行针对样本目标对象的第一层级预测处理，得到初始样本预测框。

S610，通过目标检测模型的第二语义提取层，对初始样本图像特征和第一样本图像特征进行特征拼接，并对拼接后的样本图像特征进行特征增强处理，获得第二样本图像特征。

S612，通过目标检测模型的第二预测层，根据第二样本图像特征和初始样本预测框进行针对样本目标对象的第二层级预测处理，得到针对样本目标对象的样本预测结果。

S614，基于样本预测结果与训练标签的差异，调整目标检测模型的参数，并继续训练，直至满足训练条件时停止训练。

具体地，预构建的待训练的目标检测模型，包括第一预测层和第二预测层，还可以包括特征提取层、语义提取层和卷积层。其中，第一预测层还可以包括待训练的第一检测器，第二预测层还可以包括待训练的第二检测器。

终端获取样本图像后，将样本图像输入至待训练的目标检测模型中，首先，通过目标检测模型的特征提取层对样本图像进行特征提取，得到多个预设尺度的样本特征图，通过卷积层对样本特征图进行特征增强，获得样本图像的初始样本图像特征。接着通过第一语义提取层对初始样本图像特征进行语义特征提取，得到对应的上下文语义信息，进而对上下文语义信息进行特征增强处理，获得增强后的第一样本图像特征。终端进而将第一样本图像特征输入至目标检测模型的第一预测层，通过第一预测层所包括的第一检测器根据第一样本图像特征对目标对象的位置进行初始预测，生成初始样本预测框。

终端接着将获得的初始样本图像特征和第一样本图像特征输入至第二语义提取层，根据初始样本图像特征和第一样本图像特征调整第二语义提取层的感受参数，进而通过第二语义提取层将初始样本图像特征和第一样本图像特征进行特征拼接，对拼接后的特征进行语义特征提取，并通过卷积层进行特征增强，从而得到第二样本图像特征。获得初始样本预测框和第二图像特征后，此时，将初始样本预测框和第二样本图像特征输入至第二预测层，通过第二预测层所包括的第二检测器，根据初始样本预测框和第二样本图像特征进行再次预测，以对第一层的预测结果进行调整，得到样本预测结果。

终端进而基于样本预测结果与训练标签的差异，调整目标检测模型的参数并继续训练，直至满足训练条件时停止训练。

在其中一个实施例中，在训练第一检测器和第二检测器时通常需要进行IOU（Intersection Over Union，交并比，也称交叠率）匹配来对预设框分配所负责预测的真实检测框。对目标检测模型中的第一检测器和第二检测器的训练方式，具体包括：通过第一检测器根据第一样本图像特征进行第一层级预测处理，得到初始样本预测框后，获取初始样本预测框与样本标签的第一交叠率。通过第二检测器根据第二样本图像特征和初始样本预测框进行第二层级预测处理，得到样本预测结果后，还获取样本预测结果与样本标签的第二交叠率。终端进而根据第一交叠率和第二交叠率调整第一检测器和第二检测器的参数，以及调整目标检测模型的其他参数，并继续训练，直到满足训练停止条件时，从而得到训练好的第一检测器和第二检测器以及目标检测模型。

其中，样本预测结果与训练标签的差异的差异可以损失函数来衡量，例如可以选择平均绝对值损失函数（MAE）、平滑平均绝对误差（Huber损失）、交叉熵损失函数等函数作为损失函数。训练条件是结束模型训练的条件。训练停止条件可以是达到预设的迭代次数，或者是调整参数后的目标检测模型的预测性能指标达到预设指标。

在其中一个实施例中，目标检测模型中第一检测器和第二检测器的损失函数可以如下：

；

其中，c是分类预测输出，x是分类目标，即预测框和真实标注框的差异，l是坐标偏差预测输出，g是真实坐标偏差，L _conf是分类损失函数，通常是交叉熵损失函数。L _loc是坐标损失函数，通常使用smooth L1损失函数，N是正样本预设框的数量，α是对应损失函数的权重，通常取为1。具体表达式可以如下：

；

，

；

，

；

其中，m表示正样本的预测框的坐标，Pos m{cx,cy,w,h}是正样本的预测框的包围矩形的坐标；cx是正样本预测框对应的x轴坐标，cy是正样本预测框对应的y轴坐标，w是正样本预测框的宽；h是正样本预测框的高。i是指样本中所预测的预测框的索引，j是指样本中所标注的标注框的索引。

表示第i个样本预测框所预测出来的坐标偏差；

表示对样本中第j个检测框的预测值。

、

、

、

分别表示预测出的正样本中预测框的坐标值，

、

表示模型预测过程中所采用的预设框的尺寸，即预设框的宽与高。

其中，smooth L1损失函数定义如下：

可以理解，该函数为一个分段函数，x值在[-1,1]之间，采用L1损失函数；x值在[-1,1]区间外，采用L _conf分类损失函数。当预测值与目标值相差较大时，容易产生梯度爆炸通过使用Smooth _L1函数，在预测值与目标值相差较大时，由L _conf分类损失函数转为Smooth _L1函数，可解决Smooth _L1函数的不光滑问题和避免离群点梯度爆炸的问题。

其中，交叉熵损失函数定义如下：

;

其中，Pos为指定每一级参与训练的正样本的数目；Neg为指定每一级参与训练的负样本的数目。

为第i个预测框的预测概率值，

表示第i个预测框属于正样本的预测概率，

表示第i个预测框属于负样本的概率。具体可以采用IOU交叠率来评价预测框的指标，并根据评价指标在训练过程中持续收敛损失函数，使得预测框和真实标注框的差异更小。

本实施例中，通过对样本图像中目标对象的位置区域进行预测训练，得到样本预测结果，进而可以根据得到的样本预测结果与训练标签的差异，逐步对目标检测模型中的参数进行调整。由此在参数调整过程中，通过目标检测模型经过多次特征提取和特征增强，能够有效获得具有高级语义信息和细节信息的图像特征，能够有利于更加精准地识别样本图像中目标对象的位置区域，并基于初始预测结果和进一步提取的特征再次进行预测，能够更加精准地检测出目标对象的位置，并且能够有效地捕捉图像特征与预测框之间的关系，由此能够训练得到目标检测准确度较高的目标检测模型，从而提高了目标检测模型对目标对象的检测准确度。

在一个实施例中，如图7所示，为一个实施例中目标检测模型的网络结构示意图。参照图7，目标检测模型包括特征提取层、第一卷积层、第一语义提取层(即CIM-A网络层)、第二卷积层、第二语义提取层(即CIM-B网络层)、第三卷积层以及第一预测层和第二预测层。具体地，特征提取层可以为基于VGG16网络模型，第一卷积层、第二卷积层和第三卷积层可以为基于LFPN的卷积网络结构，第一语义提取层和第二语义提取层可以为基于CIM的网络结构。其中，第一卷积层、第二卷积层和第三卷积层可以分别分部在目标检测模型中的各个位置，例如，可以在特征提取层、第一语义提取层以及第二语义提取层之间部署相应的卷积层。

在一个具体的实施例中，如图8所示，提供了一种具体的目标对象检测方法，该目标对象检测方法通过预训练的目标检测模型执行，具体包括以下步骤：

S802，通过目标检测模型的特征提取层，对待检测图像进行特征提取，得到各预设尺度对应的特征图。

S804，通过目标检测模型的第一卷积层，对特征图进行特征增强处理，获得初始图像特征。

S806，通过目标检测模型的第一语义提取层，根据预设感受野参数对初始图像特征进行语义特征提取，得到初始图像特征的上下文语义信息。

S808，通过目标检测模型的第二卷积层，对初始图像特征的上下文语义信息进行特征增强处理，获得第一图像特征。

S810，通过目标检测模型的第一预测层，根据第一图像特征预测待检测图像中针对检测对象的预测框。

S812，对检测对象的预测框进行分类，得到用于标识目标对象的初始预测框。

S814，将初始图像特征和第一图像特征输入至目标检测模型的第二语义提取层；根据初始图像特征和第一图像特征调整第二语义提取层的感受野参数，得到调整后的感受野参数。

S816，对初始图像特征和第一图像特征进行特征拼接，得到拼接后的图像特征。

S818，根据调整后的感受野参数，对拼接后的图像特征进行语义特征提取，得到对应的上下文语义信息。

S820，通过目标检测模型的第三卷积层，对上下文语义信息进行特征增强处理，得到第二图像特征。

S822，通过目标检测模型的第二预测层，获取初始预测框的位置在第二图像特征图中的映射位置；第二图像特征对应第二特征图。

S824，当多个初始预测框的位置在同一第二特征图中的映射位置相同时，获取各个初始预测框的置信度；根据置信度从初始预测框中选取最优置信度对应的预测框，得到选取的预测框。

S826，根据选取的预测框进行针对目标对象的更新预测，得到调整后的预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

本实施例中，由于目标检测模型是经过训练得到的具有较高检测准确性的机器学习模型，通过预训练的目标检测模型对待检测图像进行特征提取，由此能够获得较高语义信息表示和细节信息表示的第一图像特征。通过根据第一图像特征进行针对目标对象的第一层级预测处理，可获得针对目标对象的初始预测框。通过目标检测模型更深层次对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，并根据进一步增强语义信息后的第二图像特征以及初始预测框，进行针对目标对象的第二层级预测处理以调整初始预测框，由此能够更加精准地修正针对目标对象的定位区域，使得调整后的预测框更接近实际目标对象的区域，从而能够准确有效地检测出待检测图像中针对目标对象的预测框，有效提高了目标对象的检测精准度。

本申请还提供一种应用场景，该应用场景应用上述的目标对象检测方法。具体地，该目标对象检测方法在该应用场景的应用如下：

可以理解，在目标检测中们可以将需要检测的目标对象确定为人脸。由于实际场景中的人脸尺度通常会非常小，这类人脸在检测时需要足够的定位精度才能够准确召回。基于上述目标对象检测方法，提供一种具体的人脸检测方法。

如图9所示，为一个实施例中的待检测图像。具体地，终端将待检测图像作为预训练的目标检测模型的输入，预训练的目标检测模型可以为基于DAN深度适配网络的神经网络模型。通过目标检测模型的特征提取层对待检测图像进行特征提取，并通过第一卷积层对提取的特征进行特征增强处理，获得初始图像特征。进一步提高目标检测模型的第一语义提取层对初始图像特征进行语义特征提取，获得对应的上下文语义信息，进而通过第二卷积层对上下文语义信息进行特征增强处理，由此能够获得特征信息表示更强的第一图像特征。接着将第一图像特征输入目标检测模型的第一预测层，通过第一预测层根据第一图像特征进行针对目标对象的第一层级预测处理，输出用于标识人脸的初始人脸预测框。

进一步地，目标检测模型获得初始图像特征和第一图像特征后，将初始图像特征和第一图像特征输入第二语义提取层，并根据初始图像特征和第一图像特征调整第二语义提取层的感受野参数，并将初始图像特征和第一图像特征进行拼接，进而基于调整后的感受野参数对拼接后的特征进行语义特征提取，得到对应的上下文语义信息。接着通过第三卷积层对提取的上下文语义信息进行特征增强处理，得到增强后的第二图像特征。

终端进而将获得的初始人脸预测框和第二图像特征，输入至目标检测模型的第二预测层，第二预测层进而根据第二图像特征和初始人脸预测框动态调整第二预测层的预设框，并根据第二图像特征和初始人脸预测框进行更新预测，以调整初始人脸预测框，从而得到人脸检测结果。由此能够更加精准地修正针对人脸的定位区域，使得调整后的预测框更接近实际人脸的位置区域。如图10所示，为一个实施例中对图9所示的待检测图像进行处理后的人脸检测结果示意图，通过目标检测模型对待检测图像进行人脸检测后，得到的检测结果中标识了针对待检测图像中人脸对应的检测框。

通过使用第一预测层的初始人脸预测框作为第二预测层的动态预设框，可以使得第二预测层的预设框形状更接近实际人脸框大小，从而能够大幅度提高第二预测层中小尺度人脸匹配到的预设框数量，同时也有利于预设框的分类器更准确地进行分类。通过结合多层的语义提取层和用于上下文增强的卷积层，能够对小尺度人脸更精准的检测。

在一个具体的试验测试的实施例中，以从Wider Face（人脸检测公开评测数据集）中获取的图像作为待检测图像。其中，Wider Face中包括Easy、Medium和Hard三个评测子集，每个集合中的数据根据人脸检测的难易程度分为“Easy”、“Medium”、“Hard”。通过上述预训练的目标检测模型对待检测图像进行人脸检测后，得到的人脸检测结果，在Easy、Medium和Hard三个评测子集中分别对应的测试性能如下表一所示。

Algorithm	Easy	Medium	Hard
				DAN	0.958	0.946	0.895

表一

由此可见，通过预训练的目标检测模型经过多次特征提取和预设框的调整，也能够精准地检测出各种尺度以及尺度较小的人脸，从而能够精准地检测出待检测图像中的人脸检测框，相较于传统的人脸检测方式，有效提高了人脸检测的精准度。

应该理解的是，虽然图2、5、6、8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5、6、8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种目标对象检测装置1100，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：特征提取模块1102、第一特征增强模块1104、第一预测模块1106、第二特征增强模块1108和第二预测模块1110，其中：

特征提取模块1102，用于对待检测图像进行特征提取，获得初始图像特征；

第一特征增强模块1104，用于对初始图像特征进行特征增强处理，获得第一图像特征；

第一预测模块1106，用于根据第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识目标对象的初始预测框；

第二特征增强模块1108，用于对初始图像特征和第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征；

第二预测模块1110，用于根据第二图像特征和初始预测框进行针对目标对象的第二层级预测处理，以调整初始预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

在一个实施例中，特征提取模块1102还用于通过目标检测模型的特征提取层，对待检测图像进行多个预设尺度的特征提取，得到各预设尺度对应的特征图；通过目标检测模型的第一卷积层，对特征图进行特征增强处理，获得初始图像特征。

在一个实施例中，第一特征增强模块1104还用于通过目标检测模型的第一语义提取层，根据预设感受野参数对初始图像特征进行语义特征提取，得到初始图像特征的上下文语义信息；通过目标检测模型的第二卷积层，对上下文语义信息进行特征增强处理，获得第一图像特征。

在一个实施例中，第一预测模块1106还用于通过目标检测模型的第一预测层，根据第一图像特征预测待检测图像中针对检测对象的预测框；对检测对象的预测框进行分类，得到用于标识目标对象的初始预测框。

在一个实施例中，第二特征增强模块1108还用于将初始图像特征和第一图像特征输入至目标检测模型的第二语义提取层；根据初始图像特征和第一图像特征调整第二语义提取层的感受野参数，得到调整后的感受野参数；对初始图像特征和第一图像特征进行特征拼接，得到拼接后的特征；根据调整后的感受野参数，对拼接后的特征进行语义特征提取，得到拼接后的特征对应的上下文语义信息；通过目标检测模型的第三卷积层，对上下文语义信息进行特征增强处理，得到第二图像特征。

在一个实施例中，初始预测框包括至少一个预测框；第一预测模块1006还用于获取初始预测框中各预测框对应的置信度；对置信度未达到置信度阈值的预测框进行过滤，得到过滤后的预测框；根据过滤后的预测框的位置和第一图像特征对应的位置，对过滤后的预测框进行筛选，得到筛选后的预测框；第二预测模块还用于根据第二图像特征和筛选后的预测框进行针对目标对象的第二层级预测处理，以调整筛选后的预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

在一个实施例中，第一图像特征对应第一特征图；第一预测模块1106还用于获取过滤后的预测框的中心点在第一特征图中的映射位置；根据映射位置对过滤后的预测框进行筛选，得到筛选后的预测框。

在一个实施例中，第一预测模块1106还用于当多个预测框的中心点在同一第一特征图的映射位置相同时，从多个预测框中选取其中一个预测框；根据不具有相同映射位置的预测框以及选取的预测框，得到筛选后的预测框。

在一个实施例中，第二预测模块1110还用于通过目标检测模型的第二预测层，根据第二图像特征从初始预测框中选取预测框；根据选取的预测框进行第二层级预测，得到调整后的预测框，并根据调整后的预测框识别出待检测图像中的目标对象。

在一个实施例中，第二图像特征对应第二特征图；第二预测模块1110还用于获取初始预测框的位置在第二特征图中的映射位置；当多个初始预测框的位置在同一第二特征图中的映射位置相同时，获取各个初始预测框的置信度；根据置信度从初始预测框中选取最优置信度对应的预测框，得到选取的预测框。

在一个实施例中，上述目标对象检测方法是通过目标检测模型执行的；目标检测模型通过训练步骤训练获得，如图12所示，上述目标对象检测装置1100还包括模型训练模块1101，用于获取样本图像和训练标签；训练标签是样本图像中针对样本目标对象的标注标签；基于样本图像和训练标签对待训练的目标检测模型进行训练，当满足训练条件时停止训练，得到训练好的目标检测模型。

在一个实施例中，模型训练模块1101还用于将样本图像输入待训练的目标检测模型，提取样本图像的初始样本图像特征；通过目标检测模型的第一语义提取层，对初始样本图像特征进行特征增强处理，获得第一样本图像特征；通过目标检测模型的第一预测层，根据第一样本图像特征进行针对样本目标对象的第一层级预测处理，得到初始样本预测框；通过目标检测模型的第二语义提取层，对初始样本图像特征和第一样本图像特征进行特征拼接，并对拼接后的样本图像特征进行特征增强处理，获得第二样本图像特征；通过目标检测模型的第二预测层，根据第二样本图像特征和初始样本预测框进行针对样本目标对象的第二层级预测处理，得到针对样本目标对象的样本预测结果；基于样本预测结果与训练标签的差异，调整目标检测模型的参数，并继续训练，直至满足训练条件时停止训练。

关于目标对象检测装置的具体限定可以参见上文中对于目标对象检测方法的限定，在此不再赘述。上述目标对象检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端或服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信。该计算机程序被处理器执行时以实现一种目标对象检测方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标对象检测方法，其特征在于，所述方法包括：

对待检测图像进行特征提取，获得初始图像特征；

2.根据权利要求1所述的方法，其特征在于，所述对待检测图像进行特征提取，获得初始图像特征，包括：

通过目标检测模型的特征提取层，对所述待检测图像进行多个预设尺度的特征提取，得到各所述预设尺度对应的特征图；

通过所述目标检测模型的第一卷积层，对所述特征图进行特征增强处理，获得初始图像特征。

3.根据权利要求1所述的方法，其特征在于，所述对所述初始图像特征进行特征增强处理，获得第一图像特征，包括：

通过目标检测模型的第一语义提取层，根据预设感受野参数对所述初始图像特征进行语义特征提取，得到所述初始图像特征的上下文语义信息；

通过所述目标检测模型的第二卷积层，对所述上下文语义信息进行特征增强处理，获得所述第一图像特征。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一图像特征进行针对目标对象的第一层级预测处理，得到用于标识所述目标对象的初始预测框，包括：

通过目标检测模型的第一预测层，根据所述第一图像特征预测所述待检测图像中针对检测对象的预测框；

对所述检测对象的预测框进行分类，得到用于标识所述目标对象的初始预测框。

5.根据权利要求1所述的方法，其特征在于，所述对所述初始图像特征和所述第一图像特征进行特征拼接，并对拼接后的图像特征进行特征增强处理，获得第二图像特征，包括：

将所述初始图像特征和所述第一图像特征输入至目标检测模型的第二语义提取层；

根据所述初始图像特征和所述第一图像特征调整所述第二语义提取层的感受野参数，得到调整后的感受野参数；

对所述初始图像特征和所述第一图像特征进行特征拼接，得到拼接后的图像特征；

根据所述调整后的感受野参数，对所述拼接后的图像特征进行语义特征提取，得到所述拼接后的图像特征对应的上下文语义信息；

通过所述目标检测模型的第三卷积层，对所述上下文语义信息进行特征增强处理，得到第二图像特征。

6.根据权利要求1所述的方法，其特征在于，所述初始预测框包括至少一个预测框；在所述根据所述第二图像特征和所述初始预测框进行针对所述目标对象的第二层级预测处理之前，还包括：

获取所述初始预测框中各预测框对应的置信度；

对所述置信度未达到置信度阈值的预测框进行过滤，得到过滤后的预测框；

根据所述过滤后的预测框的位置和所述第一图像特征对应的位置，对所述过滤后的预测框进行筛选，得到筛选后的预测框；

所述根据所述第二图像特征和所述初始预测框进行针对所述目标对象的第二层级预测处理，以调整所述初始预测框，并根据调整后的预测框识别出所述待检测图像中的所述目标对象，包括：

根据所述第二图像特征和所述筛选后的预测框进行针对所述目标对象的第二层级预测处理，以调整所述筛选后的预测框，并根据调整后的预测框识别出所述待检测图像中的所述目标对象。

7.根据权利要求6所述的方法，其特征在于，所述第一图像特征对应第一特征图；所述根据所述过滤后的预测框的位置和所述第一图像特征对应的位置，对所述过滤后的预测框进行筛选，得到筛选后的预测框，包括：

获取所述过滤后的预测框的中心点在所述第一特征图中的映射位置；

根据所述映射位置对所述过滤后的预测框进行筛选，得到筛选后的预测框。

8.根据权利要求7所述的方法，其特征在于，所述根据所述映射位置对所述过滤后的预测框进行筛选，得到筛选后的预测框，包括：

当多个预测框的中心点在同一第一特征图的映射位置相同时，从所述多个预测框中选取其中一个预测框；

根据不具有相同映射位置的预测框以及选取的所述预测框，得到筛选后的预测框。

9.根据权利要求1所述的方法，其特征在于，所述根据所述第二图像特征和所述初始预测框进行针对所述目标对象的第二层级预测处理，以调整所述初始预测框，并根据调整后的预测框识别出所述待检测图像中的所述目标对象，包括：

通过目标检测模型的第二预测层，根据所述第二图像特征从所述初始预测框中选取预测框；

根据选取的所述预测框进行针对所述目标对象的更新预测，得到调整后的预测框，并根据所述调整后的预测框识别出所述待检测图像中的所述目标对象。

10.根据权利要求9所述的方法，其特征在于，所述第二图像特征对应第二特征图；所述根据所述第二图像特征从所述初始预测框中选取预测框，包括：

获取所述初始预测框的位置在所述第二特征图中的映射位置；

当多个初始预测框的位置在同一第二特征图中的映射位置相同时，获取各个初始预测框的置信度；

根据所述置信度从所述初始预测框中选取最优置信度对应的预测框，得到选取的预测框。

11.根据权利要求1至10任意一项所述的方法，其特征在于，所述目标对象检测方法是通过目标检测模型执行的；所述目标检测模型通过训练步骤训练获得，所述训练步骤包括：

获取样本图像和训练标签；所述训练标签是所述样本图像中针对样本目标对象的标注标签；

基于所述样本图像和所述训练标签对待训练的目标检测模型进行训练，当满足训练条件时停止训练，得到训练好的目标检测模型。

12.根据权利要求11所述的方法，其特征在于，所述基于所述样本图像和所述训练标签对待训练的目标检测模型进行训练，当满足训练条件时停止训练，得到训练好的目标检测模型，包括：

将所述样本图像输入待训练的目标检测模型，提取所述样本图像的初始样本图像特征；

通过所述目标检测模型的第一语义提取层，对所述初始样本图像特征进行特征增强处理，获得第一样本图像特征；

通过所述目标检测模型的第一预测层，根据所述第一样本图像特征进行针对样本目标对象的第一层级预测处理，得到初始样本预测框；

通过所述目标检测模型的第二语义提取层，对所述初始样本图像特征和所述第一样本图像特征进行特征拼接，并对拼接后的样本图像特征进行特征增强处理，获得第二样本图像特征；

通过所述目标检测模型的第二预测层，根据所述第二样本图像特征和所述初始样本预测框进行针对所述样本目标对象的第二层级预测处理，得到针对样本目标对象的样本预测结果；

基于所述样本预测结果与所述训练标签的差异，调整所述目标检测模型的参数，并继续训练，直至满足训练条件时停止训练。

13.一种目标对象检测装置，其特征在于，所述装置包括：

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。