CN112766244B

CN112766244B - 目标对象检测方法、装置、计算机设备和存储介质

Info

Publication number: CN112766244B
Application number: CN202110371834.3A
Authority: CN
Inventors: 张博深; 王昌安; 王亚彪; 汪铖杰; 李季檩; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-06-08
Anticipated expiration: 2041-04-07
Also published as: CN112766244A; WO2022213879A1

Abstract

本申请涉及一种目标对象检测方法、装置、计算机设备和存储介质，包括：将包括标签标注框的训练图像输入待训练的目标对象检测模型；对通过对训练图像进行特征提取得到的各个初始训练特征图进行特征处理，得到初始训练特征图上各个预设标注框对应的初始预测标注框，基于预设标注框和标签标注框的位置差异从各个初始预测标注框中确定更新标注框；对初始训练特征图进行变换和融合得到目标训练特征图；基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；基于初始预测标注框、目标预测标注框分别和标签标注框的位置差异生成回归损失，基于回归损失训练目标对象检测模型，从而训练得到检测更准确的目标对象检测模型。

Description

目标对象检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种目标对象检测方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，出现了人脸检测技术，人脸检测在视频监控、社交娱乐、门禁打卡、表情分析、图像搜索等非常多的领域都有着重要的作用。

传统的人脸检测算法使用手工设计特征对图片进行特征提取，随后用滑动窗的方式对待检测图像进行模板匹配，如果图像区域和人脸模板的特征高度匹配，则认为该区域就是人脸区域。这种传统人脸检测算法的手工特征部分泛化性能有限，从而导致检测准确性低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高目标对象的检测准确性的目标对象检测方法、装置、计算机设备和存储介质。

一种目标对象检测方法，所述方法包括：

获取训练图像，将训练图像输入待训练的目标对象检测模型，训练图像包括目标对象对应的标签标注框；

对训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；

对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框；

基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到对应的目标训练特征图；

基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；

基于初始预测标注框和标签标注框的位置差异、目标预测标注框和标签标注框的位置差异生成回归损失，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

在一个实施例中，目标对象检测模型包括多个特征提取层，各个特征提取层依次连接，不同的特征提取层用于进行不同尺度的特征提取。对训练图像进行特征提取，得到多个尺度的初始训练特征图，包括：

将当前特征提取层输出的当前初始训练特征图输入下一特征提取层，得到与当前初始训练特征图尺度相邻的初始训练特征图。

在一个实施例中，对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框，包括：

分别对各个初始训练特征图进行特征处理，得到各个初始训练特征图分别对应的初始预测偏移量集合；初始预测偏移量集合包括初始训练特征图上各个预设标注框分别对应的初始预测偏移量；

基于预设标注框和对应的初始预测偏移量得到对应的初始预测标注框；

在当前初始训练特征图中，基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，将参考标注框对应的初始预测标注框作为当前初始训练特征图对应的中间预测标注框；

基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框。

在一个实施例中，基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，包括：

将最大重合度对应的预设标注框作为参考标注框。

在一个实施例中，基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框，包括：

在各个中间预测标注框中，将与标签标注框重合度最大的中间预测标注框作为更新标注框。

一种目标对象检测装置，所述装置包括：

图像获取模块，用于获取训练图像，将训练图像输入待训练的目标对象检测模型，训练图像包括目标对象对应的标签标注框；

特征提取模块，用于对训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；

初始特征处理模块，用于对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框；

特征融合模块，用于基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到对应的目标训练特征图；

目标特征处理模块，用于基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；

参数调整模块，用于基于初始预测标注框和标签标注框的位置差异、目标预测标注框和标签标注框的位置差异生成回归损失，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种目标对象检测方法，所述方法包括：

获取待检测图像；

将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框；

其中，目标对象检测模型的训练过程包括：获取训练图像，将训练图像输入待训练的目标对象检测模型，训练图像包括目标对象对应的标签标注框；对训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框；基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到对应的目标训练特征图；基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；基于初始预测标注框和标签标注框的位置差异、目标预测标注框和标签标注框的位置差异生成回归损失，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

在一个实施例中，将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框，包括：

对待检测图像进行特征提取，得到不同尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框；

对各个初始检测特征图进行特征处理，得到各个预设标注框对应的初始检测偏移量和初始置信度；

从各个初始置信度中确定中间置信度，基于中间置信度对应的预设标注框和初始检测偏移量生成初始检测标注框；

基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图；

基于初始检测标注框对目标检测特征图进行特征处理，得到初始检测标注框对应的目标检测偏移量和目标置信度；

从各个目标置信度中确定第一置信度，基于第一置信度对应的初始检测标注框和目标检测偏移量生成目标检测标注框。

一种目标对象检测装置，所述装置包括：

图像获取模块，用于获取待检测图像；

对象检测模块，用于将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框；

获取待检测图像；

上述目标对象检测方法、装置、计算机设备和存储介质，通过获取训练图像，将训练图像输入待训练的目标对象检测模型，训练图像包括目标对象对应的标签标注框；对训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框；基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到对应的目标训练特征图；基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；基于初始预测标注框和标签标注框的位置差异、目标预测标注框和标签标注框的位置差异生成回归损失，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。这样，对各个初始训练特征图进行特征处理，由此对预设标注框进行初步调整后得到初始预测标注框，通过融合不同特征图可以得到特征信息表示更强的目标训练特征图，基于更新标注框对目标训练特征图进行特征处理，由此对更新标注框进行进一步调整后得到目标预测标注框，使得目标预测标注框更接近于训练标签，进而基于两次调整结果和训练标签计算回归损失来调整模型参数，可以训练得到更准确的目标对象检测模型，从而基于已训练的目标对象检测模型进行目标对象检测能够有效提高检测准确性。

一种目标对象检测方法，所述方法包括：

获取待检测图像；

对待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框；

对各个初始检测特征图进行特征处理，得到待检测图像上目标对象对应的初始检测标注框；

基于初始检测标注框对目标检测特征图进行特征处理，得到待检测图像上目标对象对应的目标检测标注框。

一种目标对象检测装置，所述装置包括：

图像获取模块，用于获取待检测图像；

特征提取模块，用于对待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框；

初始特征处理模块，用于对各个初始检测特征图进行特征处理，得到待检测图像上目标对象对应的初始检测标注框；

特征融合模块，用于基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图；

目标特征处理模块，用于基于初始检测标注框对目标检测特征图进行特征处理，得到待检测图像上目标对象对应的目标检测标注框。

获取待检测图像；

上述目标对象检测方法、装置、计算机设备和存储介质，通过获取待检测图像，对待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框，对各个初始检测特征图进行特征处理，得到待检测图像上目标对象对应的初始检测标注框，基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图，基于初始检测标注框对目标检测特征图进行特征处理，得到待检测图像上目标对象对应的目标检测标注框。这样，对各个初始检测特征图进行特征处理，由此对预设标注框进行初步调整后得到初始检测标注框，通过融合不同特征图可以得到特征信息表示更强的目标训练特征图，基于更新标注框对目标训练特征图进行特征处理，由此对更新标注框进行进一步调整后得到目标预测标注框，目标预测标注框可以更准确地定位到目标对象，从而提高了目标对象的检测准确性。

附图说明

图1为一个实施例中目标对象检测方法的应用环境图；

图2为一个实施例中目标对象检测方法的流程示意图；

图3为一个实施例中初始训练特征图的结构示意图；

图4A为一个实施例中中间训练特征图的结构示意图；

图4B为一个实施例中生成目标训练特征图的结构示意图；

图5为一个实施例中基于回归损失和分类损失调整模型参考的流程示意图；

图6为一个实施例中基于回归损失、分类损失和知识损失调整模型参考的流程示意图；

图7为一个实施例中计算初始相似度的结构示意图；

图8为另一个实施例中目标对象检测方法的流程示意图；

图9为又一个实施例中目标对象检测方法的流程示意图；

图10A为一个实施例中计算回归损失的结构示意图；

图10B为一个实施例中人脸检测效果的示意图；

图11为一个实施例中目标对象检测装置的结构框图；

图12为另一个实施例中目标对象检测装置的结构框图；

图13为又一个实施例中目标对象检测装置的结构框图；

图14为一个实施例中计算机设备的内部结构图；

图15为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision, CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的计算机视觉技术、机器学习等技术，具体通过如下实施例进行说明：

本申请提供的目标对象检测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现，这些服务器也可以是区块链上的节点，用于存储用户的数据。

终端102和服务器104均可单独用于执行本申请实施例中提供的目标对象检测方法。

服务器获取训练图像，将训练图像输入待训练的目标对象检测模型。服务器通过目标对象检测模型对训练图像进行特征提取，得到多个尺度的初始训练特征图，对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框，基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到目标训练特征图，基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框。服务器基于初始预测标注框和标签标注框的位置差异、目标预测标注框和标签标注框的位置差异生成回归损失，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。服务器获取待检测图像，将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框。

终端基于训练图像训练目标对象检测模型。终端获取待检测图像，将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框。

终端对待检测图像进行数据处理，得到待检测图像上目标对象对应的目标检测标注框。

终端102和服务器104也可协同用于执行本申请实施例中提供的目标对象检测方法。

例如，服务器从终端获取训练图像，服务器基于训练图像训练目标对象检测模型。服务器将已训练的目标对象检测模型发送至终端，终端通过已训练的目标对象检测模型对待检测图像进行目标对象检测。

服务器从终端获取待检测图像，服务器对待检测图像进行数据处理，得到待检测图像上目标对象对应的目标检测标注框。服务器将目标检测标注框发送至终端，终端在待检测图像上展示目标对象对应的目标检测标注框。

在一个实施例中，如图2所示，提供了一种目标对象检测方法，以该方法应用于图1中的计算机设备为例进行说明，计算机设备可以是上述图1中的终端102或服务器104。参考图2，目标对象检测方法包括以下步骤：

步骤S202，获取训练图像，将训练图像输入待训练的目标对象检测模型，训练图像包括目标对象对应的标签标注框。

其中，训练图像是指用于模型训练的图像，训练图像中包含目标对象。目标对象具体可以是独立的生命体或者物体，比如动物、车辆、植物等，也可以是特定部位，比如面部、手部等。标注框是指针对目标对象进行目标定位的定位框。标注框通常是用一个矩形框来框出目标对象所处的位置区域。标签标注框是指预先准确标注的标注框，用于作为训练标签。训练图像中包括目标对象对应的标签标注框，也就是，训练图像是预先准确标注出目标对象所处位置区域的图像。目标对象检测模型是用于检测图像中的目标对象的机器学习模型。

具体地，计算机设备可以在本地、或从其他终端、服务器获取训练图像。计算机设备获取到训练图像后，将训练图像输入待训练的目标对象检测模型，通过训练图像对目标对象检测模型进行模型训练，从而得到已训练的目标对象检测模型。

步骤S204，对训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框。

其中，特征提取是指将图像投影到特征空间，得到能够表征图像本质、具有一定区分度的图像特征。预设标注框是指预先设置的、具有固定尺寸的标注框。预设标注框可以为多个不同尺寸的标注框，例如，预设标注框包括尺寸为10*10、20*20、30*30像素，宽高比为1:1、1:2、2:1，共九种类型的标注框。

具体地，计算机设备将训练图像输入目标对象检测模型后，可以通过目标对象检测模型对训练图像进行卷积处理，从而对训练图像进行特征提取，得到多个尺度的初始训练特征图，并在各个初始训练特征图上平铺各种预设标注框。

在一个实施例中，计算机设备可以在特征图上各个像素点分别平铺各种预设标注框。计算机设备也可以从特征图上选取部分像素点作为目标像素点，在目标像素点上平铺各种预设标注框，其中，可以基于预设标注框的尺寸信息确定目标像素点，目标是让各个像素点至少被一个预设标注框覆盖。

在一个实施例中，目标对象检测模型包括多个特征提取层，各个特征提取层依次连接，不同的特征提取层用于进行不同尺度的特征提取。对训练图像进行特征提取，得到多个尺度的初始训练特征图，包括：将当前特征提取层输出的当前初始训练特征图输入下一特征提取层，得到与当前初始训练特征图尺度相邻的初始训练特征图。

具体地，目标对象检测模型包括多个特征提取层，各个特征提取层依次连接，不同的特征提取层用于进行不同尺度的特征提取。计算机设备将训练图像输入目标对象检测模型后，可以通过第一特征提取层对训练图像进行特征提取，得到第一初始训练特征图，将第一初始训练特征图输入第二特征提取层得到第二初始训练特征图，将第三初始训练特征图输入第三特征提取层得到第三初始训练特征图，以此类推，基于各个特征提取层的输出数据得到各个初始训练特征图。并且，相邻特征提取层输出的初始训练特征图的尺度也是相邻的，也就是，将当前特征提取层输出的当前初始训练特征图输入下一特征提取层，可以得到与当前初始训练特征图尺度相邻的初始训练特征图。

参考图3，目标对象检测模型包括六个特征提取层，训练图像输入第一特征提取层后，当前特征层输出的初始训练特征图作为下一特征提取层的输入数据，相邻特征提取层输出的初始训练特征图的尺度也是相邻的。目标对象检测模型对训练图像进行由浅入深的特征提取，得到表征不同尺度特征信息的初始训练特征图。可以理解，尺度较小的特征图上的一个像素点对应训练图像上较大的图像区域，因此尺度较小的特征图适合用于检测尺寸较大的目标对象，尺度较大的特征图上的一个像素点对应训练图像上较小的图像区域，因此尺度较大的特征图适合用于检测尺寸较小的目标对象。

在一个实施例中，特征提取层用于对输入数据进行普通卷积。特征提取层包括卷积网络、批量归一化网络和非线性激活网络。卷积网络用于对输入数据进行卷积处理，提取相应尺度的特征图，批量归一化层用于对特征数据进行归一化，从而对特征数据的分布进行额外的约束，以增强模型的泛化能力，非线性激活网络用于对归一化后的特征数据进行非线性处理，从而增强模型的拟合能力。特征提取层也可以用于对输入数据进行分组卷积，分组卷积具体是对输入数据进行分组，每组数据分别进行卷积。相比于普通卷积，分组卷积可以节省参数量，运算更快速。特征提取层也可以用于对输入数据进行深度可分离卷积，深度可分离卷积是指先对输入数据的每个通道分别进行卷积，再将每个通道卷积后的数据在深度方向上进行卷积。相比于普通卷积，深度可分离卷积也可以节省参数量，运算更快速。

步骤S206，对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框。

其中，特征处理是指对图像特征进行计算，得到标注框偏移量。初始预测标注框是指对预设标注框进行调整得到的预测标注框。

具体地，在得到初始训练特征图后，计算机设备可以对各个初始训练特征图进行特征处理，基于预设标注框所处位置区域的图像特征得到预设标注框对应的初始预测偏移量，基于初始预测偏移量调整对应的预设标注框，得到对应的初始预测标注框。通过特征处理后，各个初始训练特征图上的各个预设标注框都可以得到对应的初始预测标注框。计算机设备可以计算各个预设标注框和标签标注框之间的位置差异，基于位置差异从各个预设标注框中确定与标签标注框最接近的至少一个预设标注框作为参考标注框，将参考标注框对应的初始预测标注框作为更新标注框。

在一个实施例中，训练图像中的标签标注框可以有多个，也就是，训练图像中包括多个目标对象。那么，计算机设备可以从各个预设标注框中确定分别与各个标签标注框位置最接近的至少一个预设标注框作为对应的参考标注框，从而得到各个标签标注框分别对应的至少一个参考标注框。

步骤S208，基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到对应的目标训练特征图。

具体地，计算机设备可以对初始训练特征图进行特征缩放和关联处理，从而得到初始训练特征图对应的中间训练特征图。初始训练特征图和对应的中间训练特征图为尺度一致的特征图。计算机设备将初始训练特征图和对应的中间训练特征图进行融合，得到初始训练特征图对应的目标训练特征图。

在一个实施例中，计算机设备可以通过特征缩放和关联处理得到各个初始训练特征图分别对应的中间训练特征图，然后将各个初始训练特征图分别和对应的中间训练特征图进行融合，得到各个初始训练特征图分别对应的目标训练特征图。为了减少计算量，计算机设备也可以从各个初始训练特征图中选取部分初始训练特征图计算对应的中间训练特征图，将存在中间训练特征图的初始训练特征图和对应的中间训练特征图进行融合，得到对应的目标训练特征图。

在一个实施例中，多个尺度的初始训练特征图为按尺度大小排列的初始训练特征图。基于初始训练特征图得到初始训练特征图对应的中间训练特征图，包括：将当前初始训练特征图的尺度缩放为当前初始训练特征图对应的相邻尺度，将缩放后的当前初始训练特征图作为与缩放后的当前初始训练特征图尺度一致的初始训练特征图所对应的中间训练特征图。

具体地，计算机设备可以将当前初始训练特征图的尺度缩放为当前初始训练特征图对应的相邻尺度，进而将缩放后的当前初始训练特征图作为与当前初始训练特征图尺度相邻的初始训练特征图相匹配的中间训练特征图。后续，在将初始训练特征图与对应的中间训练特征图进行融合时，可以使得不同初始训练特征图之间可以进行信息交流，浅层特征传递给深层，深层特征又传递给浅层，进而有助于提高特征处理的准确性。

参考图4A，训练图像通过六个特征提取层后得到六个初始训练特征图，各个初始训练特征图的尺度依次递减。计算机设备可以将后一尺度对应的初始训练特征图的尺度放大为当前尺度，并将其作为与当前尺度对应的初始训练特征图所匹配的中间训练特征图。例如，将第二尺度对应的初始训练特征图放大为第一尺度，将放大后的初始训练特征图作为与第一尺度对应的初始训练特征图所匹配的中间训练特征图。将第三尺度对应的初始训练特征图放大为第二尺度，将放大后的初始训练特征图作为与第二尺度对应的初始训练特征图所匹配的中间训练特征图。其中，可以将第六尺度对应的初始训练特征图直接作为第六尺度对应的初始训练特征图所匹配的中间训练特征图。也可以将第五尺度对应的初始训练特征图缩小为第六尺度，将缩小后的初始训练特征图作为与第六尺度对应的初始训练特征图所匹配的中间训练特征图。可以理解，计算机设备也可以将前一尺度对应的初始训练特征图的尺度缩小为当前尺度，并将其作为与当前尺度对应的初始训练特征图所匹配的中间训练特征图。

参考图4B，当确定各个初始训练特征图分别对应的中间训练特征图后，计算机设备可以将初始训练特征图和对应中间训练特征图进行特征融合，得到各个初始训练特征图分别对应的目标训练特征图。

步骤S210，基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框。

其中，目标预测标注框是指对更新标注框进行调整得到的预测标注框。

具体地，计算机设备可以将更新标注框作为目标训练特征图中的预设标注框，对目标训练特征图进行特征处理，基于更新标注框所处位置区域的图像特征得到更新标注框对应的目标预测偏移量，基于目标预测偏移量调整更新标注框，得到对应的目标预测标注框。从整体上看，计算机设备对初始训练特征图进行特征处理，得到预设标注框对应的初始预测偏移量，对目标训练特征图进行特征处理，得到更新标注框对应的目标预测偏移量，最后基于目标预测偏移量、对应的初始预测偏移量调整对应的预设标注框得到目标预测标注框。也就是，先进行第一次预测得到初始预测偏移量，从而得到初始预测标注框，再进行二次预测得到目标预测偏移量，基于目标预测偏移量对对应的初始预测标注框进行修正，从而得到准确的目标预测标注框。

步骤S212，基于初始预测标注框和标签标注框的位置差异、目标预测标注框和标签标注框的位置差异生成回归损失，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

具体地，在确定初始预测标注框和目标预测标注框后，计算机设备可以计算初始预测标注框和标签标注框的位置差异、以及目标预测标注框和标签标注框的位置差异，基于计算得到的位置差异生成回归损失，基于回归损失进行反向传播更新，调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。收敛条件可以是回归损失小于损失值阈值、模型迭代次数达到迭代阈值等。

在一个实施例中，为了进一步提高目标对象检测模型的准确性，计算机设备可以基于回归损失和分类损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。此外，计算机设备也可以基于回归损失和知识损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。当然，计算机设备还可以基于回归损失、分类损失和知识损失共同调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。其中，分类损失和知识损失的计算过程可以参照后续实施例所述的方法。

上述目标对象检测方法中，对各个初始训练特征图进行特征处理，由此对预设标注框进行初步调整后得到初始预测标注框，通过融合不同特征图可以得到特征信息表示更强的目标训练特征图，基于更新标注框对目标训练特征图进行特征处理，由此对更新标注框进行进一步调整后得到目标预测标注框，使得目标预测标注框更接近于训练标签，进而基于两次调整结果和训练标签计算回归损失来调整模型参数，可以训练得到更准确的目标对象检测模型，从而基于已训练的目标对象检测模型进行目标对象检测能够有效提高检测准确性。

分别对各个初始训练特征图进行特征处理，得到各个初始训练特征图分别对应的初始预测偏移量集合；初始预测偏移量集合包括初始训练特征图上各个预设标注框分别对应的初始预测偏移量；基于预设标注框和对应的初始预测偏移量得到对应的初始预测标注框；在当前初始训练特征图中，基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，将参考标注框对应的初始预测标注框作为当前初始训练特征图对应的中间预测标注框；基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框。

具体地，计算机设备可以分别对各个初始训练特征图进行特征处理，得到各个初始训练特征图分别对应的初始预测偏移量集合，其中，初始预测偏移量集合包括初始训练特征图上各个预设标注框分别对应的初始预测偏移量。一个预设标注框对应的初始预测偏移量是基于对该预设标注框所处位置的图像特征进行数据分析得到的。然后，计算机设备可以基于初始预测偏移量调整对应的预设标注框，得到初始预测标注框，例如，预设标注框可以用（x，y，w，h）来表示，x和y表示预设标注框中心点的坐标，w表示预设标注框的宽，h表示预设标注框的高。对初始训练特征图进行特征处理，可以得到预设标注框对应的残差（Ox，Oy，Ow，Oh），Ox和Oy表示坐标偏移量，Ow表示宽偏移量，Oh表示高偏移量。最后，预设标注框对应的初始预测标注框为（x+ Ox，y+ Oy，w+ Ow，h+ Oh）。

在得到各个初始训练特征图中各个预设标注框分别对应的初始预测标注框后，计算机设备可以从各个初始训练特征图中查找与标签标注框最接近的预设标注框作为参考标注框，得到各个初始训练特征图分别对应的参考标注框。参考标注框的确定方法具体可以是在当前初始训练特征图中，计算各个预设标注框分别和标签标注框之间的重合度，基于重合度从各个预设标注框中确定参考标注框。具体可以是将重合度最高的预设标注框作为参考标注框，也可以是将重合度从大到小进行排序，将重合度排序靠前的若干个预设标注框作为参考标注框。然后，计算机设备可以将初始训练特征图中参考标注框对应的初始预测标注框作为初始训练特征图对应的中间预测标注框。最后，计算机设备基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框。也就是，计算机设备可以从各个参考标注框对应的初始预测标注框中确定更新标注框。具体可以是将与标签标注框重合度最大的中间预测标注框作为更新标注框，也可以是将与标签标注框重合度较大的若干个中间预测标注框作为更新标注框，还可以将各个中间预测标注框都作为更新标注框。

将最大重合度对应的预设标注框作为参考标注框。

具体地，在当前初始训练特征图中，计算机设备可以将最大重合度对应的预设标注框作为参考标注框。也就是，计算机设备可以过滤掉明显没有定位在目标对象上的预设标注框，保留当前定位最准确的预设标注框，将当前定位最准确的预设标注框作为参考标注框。可以理解，在计算预设标注框和标签标注框的重合度时，需要将预设标注框和标签标注框映射到同一尺度上进行比较。

具体地，在得到各个初始训练特征图分别对应的中间预测标注框后，计算机设备可以计算各个中间预测标注框分别和标签标注框之间的重合度，从中选取与标签标注框重合度最大的中间预测标注框作为更新标注框。也就是，计算机设备进一步优中选优，从当前定位较准确的若干个预设标注框对应的中间预测标注框中进一步选取最优的中间预测标注框作为更新标注框。可以理解，在计算中间预测标注框和标签标注框的重合度时，需要将中间预测标注框和标签标注框映射到同一尺度上进行比较。

本实施例中，对各个初始训练特征图进行特征处理，得到各个初始训练特征图上各个预设标注框分别对应的初始预测标注框，对各个初始预测标注框进行第一次筛选，从中筛选出各个初始训练特征图对应的中间预测标注框，对各个中间预测标注框进行第二次筛选，从中筛选出更新标注框。这样，经过两次筛选可以从各个尺度的初始训练特征图的特征处理结果中准确筛选出与标签标注框最接近的标注框。

在一个实施例中，基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框，包括：

基于各个初始训练特征图的尺度大小确定各个初始训练特征图之间的映射关系；基于映射关系将更新标注框映射到初始训练特征图对应的目标训练特征图上；对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框。

具体地，计算机设备在对目标训练特征图进行特征处理时，因为更新标注框是特定初始训练特征图上的初始预测标注框，该初始训练特征图和目标训练特图的尺度不一定一致，所以计算机设备需要将更新标注框同步映射到各个目标训练特征图上。计算机设备可以先基于各个初始训练特征图的尺度大小确定各个初始训练特征图之间的映射关系。映射关系是指在各个初始训练特征图之间，用于表示训练图像上同一原始像素点的各个特征像素点的对应关系。例如，第一初始训练特征图的尺度小于第二初始训练特征图，第一初始训练特征图上的一个特征像素点对应第二初始训练特征图上的一个图像区域，该特征像素点和该图像区域都表示训练图像上同一区域对应的图像特征，该特征像素点和该图像区域上的各个特征像素点存在对应关系。然后，计算机设备基于映射关系将更新标注框映射到初始训练特征图对应的目标训练特征图上，再对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框。在映射更新标注框时，计算机设备需要先确定更新标注框在目标训练特征图上的映射位置，然后在该映射位置上生成固定尺寸的更新标注框。也就是，各个目标训练特征图上的更新标注框的尺寸是相同的，坐标是不同的。可以理解，各个目标训练特征图的尺度不同，同样大小的更新标注框即使映射位置对应同一原始像素点，各个更新标注框也是对应训练图像上不同大小的图像区域。因此，对映射后的目标训练特征图进行特征处理，进一步预测更新标注框相对于目标对象的偏移量，可以更加精准地定位目标对象。

在一个实施例中，对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框，包括：

对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测偏移量；基于更新标注框和对应的目标预测偏移量得到对应的目标预测标注框。

具体地，计算机设备可以对映射后的目标训练特征图进行特征处理，基于更新标注框在目标训练特征图上所处位置的图像特征得到更新标注框对应的目标预测偏移量，再基于目标预测偏移量调整更新标注框得到对应的目标预测标注框。

本实施例中，将更新标注框映射到各个目标训练特征图上，对映射后的目标训练特征图进行特征处理，可以在第一次预测的基础上，综合各个尺度进行第二次预测，基于第二次预测结果对第一次预测的标注框进行修正，从而得到更准确的预测标注框。

在一个实施例中，如图5所示，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型，包括：

步骤S502，将与标签标注框的重合度大于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第一置信度，将与标签标注框的重合度小于或等于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第二置信度。

其中，参考置信度是用于确定标注框所定位的对象的类别。当标注框对应的置信度为第一置信度时，确定标注框定位的是目标对象。当标注框对应的置信度为第二置信度时，确定标注框定位的不是目标对象。第一置信度和第二置信度可以根据需要进行设置，例如，将第一置信度确定为1，第二置信度确定为0。预设阈值也可以根据需要进行设置，例如，将预设阈值设置为0.5。

具体地，为了进一步提高目标对象的检测准确性，除了训练模型修正预设标注框得到预测框，还可以进一步训练模型输出预测框的类别，从而综合预测框的位置和类别可以更准确地定位目标对象。计算机设备可以对初始训练特征图上的预设标注框进行分类，将与标签标注框重合度大于预设阈值的预设标注框作为正样本，将与标签标注框重合度小于或等于预设阈值的预设标注框作为负样本，同理，计算机设备也可以对目标训练特征图上的更新标注框进行分类，将与标签标注框重合度大于预设阈值的更新标注框作为正样本，将与标签标注框重合度小于或等于预设阈值的更新标注框作为负样本。计算机设备可以将正样本对应的参考置信度确定为第一参考置信度，将负样本对应的参考置信度确定为第二参考置信度。这样，计算机设备基于正样本和负样本可以对模型进行有监督训练，从而使模型准确预测标注框对应的置信度。

可以理解，在计算预设标注框和标签标注框之间的重合度，以及更新标注框和标签标注框之间的重合度时，需要将预设标注框和标签标注框映射到同一尺度后再进行计算，将更新标注框和标签标注框映射到同一尺度后再进行计算。

步骤S504，基于预设标注框对应的预测置信度和参考置信度、更新标注框对应的预测置信度和参考置信度生成分类损失；预设标注框对应的预测置信度是对初始训练特征图进行特征处理得到的，更新标注框对应的预测置信度是对目标训练特征图进行特征处理得到的。

步骤S506，基于回归损失和分类损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

具体地，在对初始训练特征图进行特征处理的时候，计算机设备不仅可以得到预设标注框对应的初始预测偏移量，还可以得到预设标注框对应的预测置信度，同理，在对目标训练特征图进行特征处理的时候，计算机设备不仅可以得到更新标注框对应的初始预测偏移量，还可以得到更新标注框对应的预测置信度。因此，计算机设备可以基于预设标注框对应的预测置信度和参考置信度之间的置信度差异、更新标注框对应的预测置信度和参考置信度之间的置信度差异计算分类损失，结合回归损失和分类损失进行反向传播更新，调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。这样，已训练的目标对象检测模型在应用时，结合标注框的位置和类别可以准确检测出目标对象。

本实施例中，基于回归损失和分类损失训练模型，能够让已训练的目标对象检测模型同时预测标注框的位置和类别，从而基于标注框的位置和类别准确定位目标对象。

在一个实施例中，如图6所示，基于回归损失和分类损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型，包括：

步骤S602，将训练图像输入已训练的参考对象检测模型，得到各个初始训练特征图对应的初始参考特征图和各个目标训练特征图对应的目标参考特征图；参考对象检测模型的模型参数量大于目标对象检测模型的模型参数量，参考对象检测模型和目标对象检测模型的特征提取层之间存在对应关系；

步骤S604，基于初始训练特征图和对应的初始参考特征图之间的初始相似度、目标训练特征图和对应的目标参考特征图之间的目标相似度生成知识损失；

步骤S606，基于回归损失、分类损失和知识损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

其中，参考对象检测模型为教师模型，目标对象检测模型为学生模型。教师模型的模型参数量大于学生模型的模型参数量，教师模型的模型结构和学生模型的模型结构可以相同可以不同。教师模型通过对输入图像进行特征提取得到的特征图的参数量比学习模型通过对输入图像进行特征提取得到的特征图的参数量大，主要在于教师模型提取得到的特征图的通道数更多。教师模型和学生模型都包括特征提取层，教师模型的特征提取层可以和学习模型的特征提取层的层数相同，当然，教师模型的特征提取层也可以比学生模型的特征提取层多。

具体地，目标对象检测模型在应用时对性能要求较高，传统的目标对象检测模型往往计算量很大，运算效率较低，因此，为了提高目标对象检测模型的检测效率，可以进一步对目标对象检测模型进行知识蒸馏，得到轻量级的目标对象检测模型。计算机设备可以获取已训练的参考对象检测模型，将同一训练图像分别输入参考对象检测模型和目标对象检测模型。计算机设备通过目标对象检测模型对训练图像进行数据处理，可以得到初始训练特征图和目标训练特征图，通过参考对象检测模型对训练图像进行数据处理，可以得到初始参考特征图和目标参考特征图。模型通过特征提取层对训练图像进行特征提取可以得到初始特征图，由存在对应关系的特征提取层输出的初始训练特征图和初始参考特征图也存在对应关系。模型对初始特征图进行缩放和融合可以得到对应的目标特征图，由存在对应关系的初始训练特征图和初始参考特征图通过融合得到的目标训练特征图和目标参考特征图也存在对应关系。

由于参考对象检测模型具有较强的特征表达能力，因此，知识蒸馏的目标是让初始训练特征图向初始参考特征图学习，让初始训练特征图向初始参考特征图靠近，让目标训练特征图向目标参考特征图学习，让目标训练特征图向目标参考特征图靠近。计算机设备可以计算初始训练特征图和对应的初始参考特征图之间的初始相似度，计算目标训练特征图和对应的目标参考特征图之间的目标相似度，基于初始相似度和目标相似度生成知识损失，结合回归损失、分类损失和知识损失共同进行反向传播更新，调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

在一个实施例中，参考对象检测模型是预先训练好的，训练过程和目标对象检测模型相同，都是基于回归损失、或回归损失和分类损失训练得到的。

在一个实施例中，参考对象检测模型和目标对象检测模型的特征提取层的层数相同，并且排序相同的特征提取层之前存在对应关系。例如，参考对象检测模型和目标对象检测模型均包括三个特征提取层，参考对象检测模型的第一特征提取层和目标对象检测模型的第一特征提取层对应，参考对象检测模型的第二特征提取层和目标对象检测模型的第二特征提取层对应，参考对象检测模型的第三特征提取层和目标对象检测模型的第三特征提取层对应。相应的，参考对象检测模型的第一特征提取层输出的第一初始参考特征图和目标对象检测模型的第一特征提取层输出的第一初始训练特征图对应，参考对象检测模型的第二特征提取层输出的第二初始参考特征图和目标对象检测模型的第二特征提取层输出的第二初始训练特征图对应，参考对象检测模型的第三特征提取层输出的第三初始参考特征图和目标对象检测模型的第三特征提取层输出的第三初始训练特征图对应。相应的，第一初始参考特征图对应的第一目标参考特征图和第一初始训练特征图对应的第一目标训练特征图存在对应关系，第二初始参考特征图对应的第二目标参考特征图和第二初始训练特征图对应的第二目标训练特征图存在对应关系，第三初始参考特征图对应的第三目标参考特征图和第三初始训练特征图对应的第三目标训练特征图存在对应关系。

在一个实施例中，参考对象检测模型的特征提取层多于目标对象检测模型的特征提取层。目标对象检测模型的第一个特征提取层和参考对象检测模型的第一个特征提取层对应，目标对象检测模型的最后一个特征提取层和参考对象检测模型的最后一个特征提取层对应，从而保障目标对象检测模型从图像中提取得到的浅层和深层特征接近于参考对象检测模型的能力。而目标对象检测模型的其他特征提取层分别和参考对象检测模型的一个特征提取层对应，但是需要注意的是，不可以交叉对应。例如，参考对象检测模型包括六个特征提取层，目标对象检测模型包括四个特征提取层，目标对象检测模型的第一特征提取层和参考对象检测模型中的第一特征提取层对应，目标对象检测模型的第四特征提取层和参考对象检测模型中的第六特征提取层对应，当目标对象检测模型的第二特征提取层和参考对象检测模型中的第三特征提取层对应时，目标对象检测模型的第三特征提取层不能和参考对象检测模型中的第二特征提取层对应，不能形成交叉对应，此时，目标对象检测模型的第三特征提取层只能和参考对象检测模型中的第四特征提取层或第五特征提取层对应。

本实施例中，在模型训练时，进一步对目标对象检测模型进行知识蒸馏，可以得到轻量级的目标对象检测模型，从而已训练的目标对象检测模型在应用时，既可以保障检测准确性，又可以保障检测速度快。

在一个实施例中，基于初始训练特征图和对应的初始参考特征图之间的初始相似度、目标训练特征图和对应的目标参考特征图之间的目标相似度生成知识损失，包括：

对各个初始训练特征图进行卷积处理，以使各个卷积处理后的初始训练特征图和对应的初始参考特征图的尺度一致；计算卷积处理后的初始训练特征图和对应的初始参考特征图之间的初始特征距离，基于各个初始特征距离得到初始相似度；对各个目标训练特征图进行卷积处理，以使各个卷积处理后的目标训练特征图和对应的目标参考特征图的尺度一致；计算卷积处理后的目标训练特征图和对应的目标参考特征图之间的目标特征距离，基于各个目标特征距离得到目标相似度；基于初始相似度和目标相似度生成知识损失。

具体地，由于参考对象检测模型的模型参数量大于目标对象模型的模型参数量，初始参考特征图的尺寸比对应的初始训练特征图大，目标参考特征图的尺寸比对应的目标训练特征图大。因此，在计算相似度时，需要将存在对应关系的特征图转化为同一尺度，通过尺度相同的特征图之间的欧式距离来衡量特征图之间的特征相似程度。计算机设备可以对各个初始训练特征图进行卷积处理，使得各个卷积处理后的初始训练特征图和对应的初始参考特征图的尺度一致，然后计算卷积处理后的初始训练特征图和对应的初始参考特征图之间的初始特征距离，基于初始特征距离得到初始训练特征图和对应的初始参考特征图之间的初始相似度。例如，直接将初始特征距离作为初始相似度。同理，计算机设备可以对各个目标训练特征图进行卷积处理，使得各个卷积处理后的目标训练特征图和对应的目标参考特征图的尺度一致，然后计算卷积处理后的目标训练特征图和对应的目标参考特征图之间的目标特征距离，基于目标特征距离得到目标训练特征图和对应的目标参考特征图之间的目标相似度。最后，计算机设备基于初始相似度和目标相似度生成知识损失，例如，将初始相似度和目标相似度的和作为知识损失。

以初始相似度为例说明相似度计算过程。参考图7，目标对象检测模型和参考对象检测模型均包括六个特征提取层，并且排序相同的特征提取层之前存在对应关系。同一训练图像分别输入目标对象检测模型和参考对象检测模型后，可以得到六个初始训练特征图和六个初始参考特征图。存在对应关系的特征提取层输出的初始训练特征图和初始参考特征图相互对应。计算机设备可以对初始训练特征图进行卷积处理，使初始训练特征图和对应的初始参考特征图的尺度一致，进而计算尺度一致的初始训练特征图和对应的初始参考特征图之间的欧式距离，得到六个欧式距离，然后基于六个欧式距离得到初始相似度。

本实施例中，将两个特征图转化为同一尺度后，再基于特征图之间的欧式距离得到特征图之间的相似度，能够准确衡量特征图之间的特征相似程度。

在一个实施例中，如图8所示，提供了一种目标对象检测方法，以该方法应用于图1中的计算机设备为例进行说明，计算机设备可以是上述图1中的终端102或服务器104。参考图8，目标对象检测方法包括以下步骤：

步骤S802，获取待检测图像。

步骤S804，将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框。

可以理解，训练目标对象检测模型的具体过程可以参照前述目标对象检测方法的各个相关实施例所述的方法，此处不再赘述。

待检测图像是指待检测目标对象的图像。目标检测标注框是指模型预测得到的、目标对象对应的定位框。

具体地，计算机设备可以在本地、或从其他终端、服务器获取待检测图像和已训练的目标对象检测模型，将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框。计算机设备可以将包含目标检测标注框的待检测图像进行展示。

对待检测图像进行特征提取，得到不同尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框；对各个初始检测特征图进行特征处理，得到各个预设标注框对应的初始检测偏移量和初始置信度；从各个初始置信度中确定中间置信度，基于中间置信度对应的预设标注框和初始检测偏移量生成初始检测标注框；基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图；基于初始检测标注框对目标检测特征图进行特征处理，得到初始检测标注框对应的目标检测偏移量和目标置信度；从各个目标置信度中确定第一置信度，基于第一置信度对应的初始检测标注框和目标检测偏移量生成目标检测标注框。

具体地，计算机设备将待检测图像输入已训练的目标对象检测模型后，可以通过目标对象检测模型对待检测图像进行特征提取，得到不同尺度的初始检测特征图，并在各个初始检测特征图上平铺各种预设标注框。然后，计算机设备通过目标对象检测模型可以对各个初始检测特征图进行特征处理，基于预设标注框所处位置区域的图像特征预测预设标注框对应的初始检测偏移量和初始置信度，从而得到各个预设标注框对应的初始检测偏移量和初始置信度。计算机设备可以将大于预设阈值的初始置信度作为中间置信度，进而基于中间置信度对应的预设标注框和初始检测偏移量生成初始检测标注框。在得到初始检测特征图后，计算机设备可以对初始检测特征图进行特征缩放和关联处理，从而得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图。初始检测特征图和对应的中间检测特征图为尺度一致的特征图。接着，计算机设备将初始检测标注框作为目标检测特征图中的预设标注框，对目标检测特征图进行特征处理，基于初始检测标注框所处位置区域的图像特征预测初始检测标注框对应的目标预测偏移量和目标置信度。计算机设备可以将大于预设阈值的目标置信度作为第一置信度，基于第一置信度对应的初始检测标注框和目标检测偏移量生成目标检测标注框。最后，目标对象检测模型输出目标检测标注框。

其中，对图像进行特征提取、对特征图进行特征处理、生成目标检测特征图的具体过程都可以参照前述目标对象检测方法的各个相关实施例所述的方法，此处不再赘述。

本实施例中，通过二次预测，并结合偏移量和置信度可以准确定位目标对象，从而提高了目标对象的检测效率。

在一个实施例中，如图9所示，提供了一种目标对象检测方法，以该方法应用于图1中的计算机设备为例进行说明，计算机设备可以是上述图1中的终端102或服务器104。参考图9，目标对象检测方法包括以下步骤：

步骤S902，获取待检测图像。

步骤S904，对待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框。

步骤S906，对各个初始检测特征图进行特征处理，得到待检测图像上目标对象对应的初始检测标注框。

步骤S908，基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图。

步骤S910，基于初始检测标注框对目标检测特征图进行特征处理，得到待检测图像上目标对象对应的目标检测标注框。

具体地，计算机设备可以在本地、或从其他终端、服务器获取待检测图像，例如，在视频监控场景下，服务器从终端获取商场入口的监控视频，将监控视频中的视频帧作为待检测图像，对待检测图像进行人脸检测。计算机设备可以对待检测图像进行特征提取，得到多个尺度的初始检测特征图，并在各个初始检测特征图上平铺至少一种预设标注框。计算机设备对各个初始检测特征图进行特征处理，得到各个预设标注框对应的候选检测标注框，从各个候选检测标注框中确定待检测图像上目标对象对应的初始检测标注框。计算机设备具体可以是从各个候选检测标注框中选择置信度大于预设阈值的候选检测标注框作为初始检测标注框，其中，置信度也是计算机设备对各个初始检测特征图进行特征处理得到的，预设标注框对应的候选检测标注框是对初始检测特征图进行特征处理得到各个预设标注框对应的初始检测偏移量，基于预设标注框和对应的初始检测偏移量得到的。接着，计算机设备对初始训练特征图进行特征缩放和关联处理，得到初始训练特征图对应的中间训练特征图，将初始训练特征图和对应的中间训练特征图进行融合，得到对应的目标训练特征图，其中，初始训练特征图和对应的中间训练特征图为尺度一致的特征图。计算机设备可以将初始检测标注框作为目标检测特征图上的预设标注框，对目标检测特征图进行特征处理，得到初始检测标注框对应的中间检测标注框，从各个中间检测标注框中确定待检测图像上目标对象对应的目标检测标注框。计算机设备具体可以是从各个中间检测标注框中选择置信度大于预设阈值的中间检测标注框作为目标检测标注框，其中，置信度也是计算机设备对目标检测特征图进行特征处理得到的，初始检测标注框对应的中间检测标注框是对目标检测特征图进行特征处理得到初始检测标注框对应的目标检测偏移量，基于初始检测标注框和对应的目标检测偏移量得到的。

可以理解，对图像进行特征提取、对特征图进行特征处理、生成目标检测特征图的具体过程都可以参照前述目标对象检测方法的各个相关实施例所述的方法，此处不再赘述。前述目标对象检测方法的各个相关实施例所述的方法不仅可以由模型实现，也可以设计相应算法或公式来实现。

在一个实施例中，计算机设备可以借助机器学习模型对待检测图像进行目标对象检测。计算机设备可以将待检测图像输入已训练的目标对象检测模型，模型输出待检测图像上目标对象对应的目标检测标注框。其中，目标对象检测模型的训练过程可以参照前述目标对象检测方法的各个相关实施例所述的方法，此处不再赘述。

上述目标对象检测方法，通过获取待检测图像，对待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框，对各个初始检测特征图进行特征处理，得到待检测图像上目标对象对应的初始检测标注框，基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图，基于初始检测标注框对目标检测特征图进行特征处理，得到待检测图像上目标对象对应的目标检测标注框。这样，对各个初始检测特征图进行特征处理，由此对预设标注框进行初步调整后得到初始检测标注框，通过融合不同特征图可以得到特征信息表示更强的目标训练特征图，基于更新标注框对目标训练特征图进行特征处理，由此对更新标注框进行进一步调整后得到目标预测标注框，目标预测标注框可以更准确地定位到目标对象，从而提高了目标对象的检测准确性。

本申请还提供一种应用场景，该应用场景应用上述的目标对象检测方法。具体地，该目标对象检测方法在该应用场景的应用如下：

人脸检测任务在视频监控、社交娱乐、门禁打卡、表情分析、图像搜索等非常多的领域都有着重要的作用。在人脸检测的应用场景中，服务器可以利用人脸检测模型检测出图像中的人脸。人脸检测模型可以基于锚框二次回归预测得到人脸框。

人脸检测模型的训练过程和使用过程如下：

1、模型训练

1-1、特征提取

服务器将训练图像输入待训练的人脸检测模型后，可以通过人脸检测模型对训练图像进行特征提取，得到不同尺度的初始训练特征图。基于不同尺度的初始训练特征图进行人脸框预测，可以充分考虑不同场景下的人脸尺度差异性。其中，训练图像包括标签人脸框。

1-2、特征处理

人脸检测模型在各个初始训练特征图上平铺不同尺寸的初始化锚框（即预设标注框），对各个初始训练特征图进行特征处理，得到各个初始化锚框对应的预测残差（即初始预测偏移量）和预测置信度。参加图10A，在锚框回归分支中，初始训练特征图尺度逐渐减小，特征信息由浅到深正向传递。在人脸回归分支中，基于后一尺度对应的初始训练特征图和当前尺度的初始训练特征图生成当前尺度的初始训练特征图对应的目标训练特征图，得到各个初始训练特征图对应的目标训练特征图，特征信息由深到浅反向传递。这样，初始训练特征图之间可以进行信息交流，浅层特征传递给深层，深层特征又传递给浅层，能够充分考虑各种尺度的特征。锚框回归分支还可以输出与人脸标注框重合度较高的至少一个初始化锚框对应的初始预测人脸框，将该初始预测人脸框作为人脸回归分支中新的初始化锚框。在人脸回归分支中，人脸检测模型在各个目标训练特征图上平铺新的初始化锚框，对各个目标训练特征图进行特征处理，得到各个新的初始化锚框对应的预测残差（即目标预测偏移量）和预测置信度。

1-3、损失函数

人脸检测模型的损失信号包括回归损失、人脸损失和知识损失，基于损失信号指导模型的训练。训练过程是端到端的，两个分支可以同时进行优化，这样可以省去很多模型优化的时间成本。

1-3-1、回归损失

参加图10A，基于各个初始训练特征图上各个初始化锚框对应的预测残差和真实残差可以得到锚框回归损失。各个初始化锚框对应的真实残差是指各个初始化锚框和标签人脸框之间的位置差异。在生成锚框回归损失时，可以对锚框进行筛选，基于筛选后的锚框对应的预测残差和真实残差得到锚框回归损失。具体可以是从各个初始训练特征图中筛选出与标签人脸框重合度较高的至少一个锚框。基于各个目标训练特征图上各个新的初始化锚框对应的预测残差和真实残差可以得到人脸回归损失。将锚框回归损失和人脸回归损失进行加和，得到回归损失。

1-3-2、分类损失

在锚框回归分支中，将与标签人脸框的重合度大于预设阈值的锚框作为正样本，其余锚框作为负样本。在人脸回归分支中，将与标签人脸框的重合度大于预设阈值的锚框作为正样本，其余锚框作为负样本。正样本对应的参考置信度为1，负样本对应的参考置信度为0。基于锚框回归分支中锚框对应的预测置信度和参考置信度、人脸回归分支中锚框对应的预测置信度和参考置信度生成分类损失。

1-3-3、知识损失

人脸检测模型在实际部署时候对性能要求很高，基于深度学习的人脸检测模型的主要耗时集中在特征提取部分。现有的骨干网络往往计算量很大，运算效率较低。因此为了提高运算速度，选择采用轻量级的人脸检测模型。但是考虑到轻量级的模型特征提取能力会差于拥有较大计算量的模型，因此引入知识蒸馏来提高轻量级模型的性能。设计一个拥有较大参数量的教师模型，并训练该模型至收敛状态，此时教师模型拥有很强的特征表达能力。将轻量级的人脸检测模型作为学生模型，让学生模型去学习教师模型的特征表达能力。学生模型和教师模型的特征提取层之间存在对应关系。

同一训练图像输入学生模型和教师模型后，学生模型可以得到初始训练特征图和目标训练特征图，教师模型可以得到初始参考特征图和目标参考特征图。存在对应关系的特征提取层输出的特征图也存在对应关系。因为教师模型输出的特征图的参数量更大，所有需要对学生模型进行卷积操作，使得卷积之后的特征图的尺寸和教师模型对应的特征图尺寸一致，然后计算对应特征图之间的欧式距离，通过欧式距离衡量特征图之间的特征相似程度，从而得到知识损失。将知识损失作为损失信号的一部分加到最终的损失函数中，对学生模型进行优化，这样就可以充分利用教师模型的特征来辅助学生模型进行训练。

2、模型使用

对于输入的待检测图像，首先通过锚框回归分支对锚框进行首次回归预测，随后通过人脸检测分支对锚框进行二次回归预测，二次回归之后得到的残差加上锚框本身的坐标，即可得到最终预测的人脸框。进一步的，还可以结合锚框对应的置信度得到最终预测的人脸框。参考图10B，1002为通过人脸检测模型预测到的人脸框。

本实施例中，针对人脸检测任务，利用锚框二次回归的检测方式可以有效提升人脸检测精度，同时为了兼顾运行效率，使用轻量级的机器学习模型设计以及知识蒸馏的方法，在降低计算量的同时保证了算法精度，可以为人脸识别、安防监控等多种场景提供可靠的人脸检测技术支持。

应该理解的是，虽然图2、5、6、8、9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、5、6、8、9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图11所示，提供了一种目标对象检测装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：图像获取模块1102、特征提取模块1104、初始特征处理模块1106、特征融合模块1108、目标特征处理模块1110和参数调整模块1112，其中：

图像获取模块1102，用于获取训练图像，将训练图像输入待训练的目标对象检测模型，训练图像包括目标对象对应的标签标注框；

特征提取模块1104，用于对训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；

初始特征处理模块1106，用于对各个初始训练特征图进行特征处理，得到各个预设标注框对应的初始预测标注框，基于各个预设标注框和标签标注框之间的位置差异，从各个初始预测标注框中确定更新标注框；

特征融合模块1108，用于基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到对应的目标训练特征图；

目标特征处理模块1110，用于基于更新标注框对目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；

参数调整模块1112，用于基于初始预测标注框和标签标注框的位置差异、目标预测标注框和标签标注框的位置差异生成回归损失，基于回归损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

在一个实施例中，目标对象检测模型包括多个特征提取层，各个特征提取层依次连接，不同的特征提取层用于进行不同尺度的特征提取。特征提取模块还用于将当前特征提取层输出的当前初始训练特征图输入下一特征提取层，得到与当前初始训练特征图尺度相邻的初始训练特征图。

在一个实施例中，初始特征处理模块还用于分别对各个初始训练特征图进行特征处理，得到各个初始训练特征图分别对应的初始预测偏移量集合；初始预测偏移量集合包括初始训练特征图上各个预设标注框分别对应的初始预测偏移量；基于预设标注框和对应的初始预测偏移量得到对应的初始预测标注框；在当前初始训练特征图中，基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，将参考标注框对应的初始预测标注框作为当前初始训练特征图对应的中间预测标注框；基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框。

在一个实施例中，初始特征处理模块还用于将最大重合度对应的预设标注框作为参考标注框。

在一个实施例中，初始特征处理模块还用于在各个中间预测标注框中，将与标签标注框重合度最大的中间预测标注框作为所述更新标注框。

在一个实施例中，不同尺度的初始训练特征图为按尺度大小排列的初始训练特征图。特征融合模块还用于将当前初始训练特征图的尺度缩放为当前初始训练特征图对应的相邻尺度，将缩放后的当前初始训练特征图作为与缩放后的当前初始训练特征图尺度一致的初始训练特征图所对应的中间训练特征图。

在一个实施例中，目标特征处理模块还用于基于各个初始训练特征图的尺度大小确定各个初始训练特征图之间的映射关系；基于映射关系将更新标注框映射到初始训练特征图对应的目标训练特征图上；对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框。

在一个实施例中，目标特征处理模块还用于对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测偏移量；基于更新标注框和对应的目标预测偏移量得到对应的目标预测标注框。

在一个实施例中，参数调整模块还用于将与标签标注框的重合度大于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第一置信度，将与标签标注框的重合度小于或等于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第二置信度；基于预设标注框对应的预测置信度和参考置信度、更新标注框对应的预测置信度和参考置信度生成分类损失，预设标注框对应的预测置信度是对初始训练特征图进行特征处理得到的，更新标注框对应的预测置信度是对目标训练特征图进行特征处理得到的；基于回归损失和分类损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

在一个实施例中，参数调整模块还用于将训练图像输入已训练的参考对象检测模型，得到各个初始训练特征图对应的初始参考特征图和各个目标训练特征图对应的目标参考特征图；参考对象检测模型的模型参数量大于目标对象检测模型的模型参数量，参考对象检测模型和目标对象检测模型的特征提取层之间存在对应关系；基于初始训练特征图和对应的初始参考特征图之间的初始相似度、目标训练特征图和对应的目标参考特征图之间的目标相似度生成知识损失；基于回归损失、分类损失和知识损失调整目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

在一个实施例中，参数调整模块还用于对各个初始训练特征图进行卷积处理，以使各个卷积处理后的初始训练特征图和对应的初始参考特征图的尺度一致；计算卷积处理后的初始训练特征图和对应的初始参考特征图之间的初始特征距离，基于各个初始特征距离得到初始相似度；对各个目标训练特征图进行卷积处理，以使各个卷积处理后的目标训练特征图和对应的目标参考特征图的尺度一致；计算卷积处理后的目标训练特征图和对应的目标参考特征图之间的目标特征距离，基于各个目标特征距离得到目标相似度；基于初始相似度和目标相似度生成知识损失。

在一个实施例中，如图12所示，提供了一种目标对象检测装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：图像获取模块1202和对象检测模块1204，其中：

图像获取模块1202，用于获取待检测图像；

对象检测模块1204，用于将待检测图像输入已训练的目标对象检测模型，得到待检测图像上目标对象对应的目标检测标注框；

在一个实施例中，对象检测模块还用于对待检测图像进行特征提取，得到不同尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框；对各个初始检测特征图进行特征处理，得到各个预设标注框对应的初始检测偏移量和初始置信度；从各个初始置信度中确定中间置信度，基于中间置信度对应的预设标注框和初始检测偏移量生成初始检测标注框；基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图；基于初始检测标注框对目标检测特征图进行特征处理，得到初始检测标注框对应的目标检测偏移量和目标置信度；从各个目标置信度中确定第一置信度，基于第一置信度对应的初始检测标注框和目标检测偏移量生成目标检测标注框。

在一个实施例中，如图13所示，提供了一种目标对象检测装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：图像获取模块1302、特征提取模块1304、初始特征处理模块1306、特征融合模块1308和目标特征处理模块1310，其中：

图像获取模块1302，用于获取待检测图像。

特征提取模块1304，用于对待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框。

初始特征处理模块1306，用于对各个初始检测特征图进行特征处理，得到待检测图像上目标对象对应的初始检测标注框。

特征融合模块1308，用于基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图。

目标特征处理模块1310，用于基于初始检测标注框对目标检测特征图进行特征处理，得到待检测图像上目标对象对应的目标检测标注框。

关于目标对象检测装置的具体限定可以参见上文中对于目标对象检测方法的限定，在此不再赘述。上述目标对象检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练图像、目标对象检测模型、参考对象检测模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标对象检测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种目标对象检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图14、15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-Only Memory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种目标对象检测方法，其特征在于，所述方法包括：

获取训练图像，将所述训练图像输入待训练的目标对象检测模型，所述训练图像包括目标对象对应的标签标注框；

对所述训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；

分别对各个初始训练特征图进行特征处理，得到各个初始训练特征图分别对应的初始预测偏移量集合，所述初始预测偏移量集合包括初始训练特征图上各个预设标注框分别对应的初始预测偏移量；

在当前初始训练特征图中，基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，将所述参考标注框对应的初始预测标注框作为所述当前初始训练特征图对应的中间预测标注框；

基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框；

基于所述更新标注框对所述目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；

基于所述初始预测标注框和所述标签标注框的位置差异、所述目标预测标注框和所述标签标注框的位置差异生成回归损失，基于所述回归损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

2.根据权利要求1所述的方法，其特征在于，所述目标对象检测模型包括多个特征提取层，各个特征提取层依次连接，不同的特征提取层用于进行不同尺度的特征提取；

所述对所述训练图像进行特征提取，得到多个尺度的初始训练特征图，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，包括：

将最大重合度对应的预设标注框作为所述参考标注框。

4.根据权利要求1所述的方法，其特征在于，所述基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框，包括：

在各个中间预测标注框中，将与标签标注框重合度最大的中间预测标注框作为所述更新标注框。

5.根据权利要求1所述的方法，其特征在于，所述多个尺度的初始训练特征图为按尺度大小排列的初始训练特征图；

所述基于初始训练特征图得到初始训练特征图对应的中间训练特征图，包括：

将当前初始训练特征图的尺度缩放为所述当前初始训练特征图对应的相邻尺度，将缩放后的当前初始训练特征图作为与所述缩放后的当前初始训练特征图尺度一致的初始训练特征图所对应的中间训练特征图。

6.根据权利要求1所述的方法，其特征在于，所述基于所述更新标注框对所述目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框，包括：

基于各个初始训练特征图的尺度大小确定各个初始训练特征图之间的映射关系；

基于映射关系将所述更新标注框映射到初始训练特征图对应的目标训练特征图上；

对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框。

7.根据权利要求6所述的方法，其特征在于，所述对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框，包括：

对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测偏移量；

基于更新标注框和对应的目标预测偏移量得到对应的目标预测标注框。

8.根据权利要求1所述的方法，其特征在于，所述基于所述回归损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型，包括：

将与标签标注框的重合度大于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第一置信度，将与标签标注框的重合度小于或等于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第二置信度；

基于预设标注框对应的预测置信度和参考置信度、更新标注框对应的预测置信度和参考置信度生成分类损失，所述预设标注框对应的预测置信度是对初始训练特征图进行特征处理得到的，所述更新标注框对应的预测置信度是对目标训练特征图进行特征处理得到的；

基于所述回归损失和所述分类损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

9.根据权利要求8所述的方法，其特征在于，所述基于所述回归损失和所述分类损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型，包括：

将所述训练图像输入已训练的参考对象检测模型，得到各个初始训练特征图对应的初始参考特征图和各个目标训练特征图对应的目标参考特征图；所述参考对象检测模型的模型参数量大于所述目标对象检测模型的模型参数量，所述参考对象检测模型和所述目标对象检测模型的特征提取层之间存在对应关系；

基于初始训练特征图和对应的初始参考特征图之间的初始相似度、目标训练特征图和对应的目标参考特征图之间的目标相似度生成知识损失；

基于所述回归损失、所述分类损失和所述知识损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

10.根据权利要求9所述的方法，其特征在于，所述基于初始训练特征图和对应的初始参考特征图之间的初始相似度、目标训练特征图和对应的目标参考特征图之间的目标相似度生成知识损失，包括：

对各个初始训练特征图进行卷积处理，以使各个卷积处理后的初始训练特征图和对应的初始参考特征图的尺度一致；

计算卷积处理后的初始训练特征图和对应的初始参考特征图之间的初始特征距离，基于各个初始特征距离得到所述初始相似度；

对各个目标训练特征图进行卷积处理，以使各个卷积处理后的目标训练特征图和对应的目标参考特征图的尺度一致；

计算卷积处理后的目标训练特征图和对应的目标参考特征图之间的目标特征距离，基于各个目标特征距离得到所述目标相似度；

基于所述初始相似度和所述目标相似度生成知识损失。

11.一种目标对象检测方法，其特征在于，所述方法包括：

获取待检测图像；

将所述待检测图像输入已训练的目标对象检测模型，得到所述待检测图像上目标对象对应的目标检测标注框；

其中，所述目标对象检测模型的训练过程包括：获取训练图像，将所述训练图像输入待训练的目标对象检测模型，所述训练图像包括目标对象对应的标签标注框；对所述训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；分别对各个初始训练特征图进行特征处理，得到各个初始训练特征图分别对应的初始预测偏移量集合，所述初始预测偏移量集合包括初始训练特征图上各个预设标注框分别对应的初始预测偏移量；基于初始训练特征图上预设标注框和对应的初始预测偏移量得到对应的初始预测标注框；在当前初始训练特征图中，基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，将所述参考标注框对应的初始预测标注框作为所述当前初始训练特征图对应的中间预测标注框；基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框；基于初始训练特征图得到初始训练特征图对应的中间训练特征图，将初始训练特征图与对应的中间训练特征图进行融合，得到对应的目标训练特征图；基于所述更新标注框对所述目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；基于所述初始预测标注框和所述标签标注框的位置差异、所述目标预测标注框和所述标签标注框的位置差异生成回归损失，基于所述回归损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

12.根据权利要求11所述的方法，其特征在于，所述将所述待检测图像输入已训练的目标对象检测模型，得到所述待检测图像上目标对象对应的目标检测标注框，包括：

对所述待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框；

对所述各个初始检测特征图进行特征处理，得到各个初始检测特征图上各个预设标注框对应的初始检测偏移量和初始置信度；

从各个初始置信度中确定中间置信度，基于所述中间置信度对应的预设标注框和初始检测偏移量生成初始检测标注框；

从各个目标置信度中确定第一置信度，基于所述第一置信度对应的初始检测标注框和目标检测偏移量生成所述目标检测标注框。

13.一种目标对象检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取训练图像，将所述训练图像输入待训练的目标对象检测模型；所述训练图像包括目标对象对应的标签标注框；

特征提取模块，用于对所述训练图像进行特征提取，得到多个尺度的初始训练特征图，各个初始训练特征图中包括对应的预设标注框；

初始特征处理模块，用于分别对各个初始训练特征图进行特征处理，得到各个初始训练特征图分别对应的初始预测偏移量集合，所述初始预测偏移量集合包括初始训练特征图上各个预设标注框分别对应的初始预测偏移量，基于预设标注框和对应的初始预测偏移量得到对应的初始预测标注框，在当前初始训练特征图中，基于各个预设标注框和标签标注框之间的重合度，从各个预设标注框中确定参考标注框，将所述参考标注框对应的初始预测标注框作为所述当前初始训练特征图对应的中间预测标注框，基于各个初始训练特征图分别对应的中间预测标注框得到更新标注框；

目标特征处理模块，用于基于所述更新标注框对所述目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框；

参数调整模块，用于基于所述初始预测标注框和所述标签标注框的位置差异、所述目标预测标注框和所述标签标注框的位置差异生成回归损失，基于所述回归损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

14.根据权利要求13所述的装置，其特征在于，所述目标对象检测模型包括多个特征提取层，各个特征提取层依次连接，不同的特征提取层用于进行不同尺度的特征提取；

所述特征提取模块还用于将当前特征提取层输出的当前初始训练特征图输入下一特征提取层，得到与当前初始训练特征图尺度相邻的初始训练特征图。

15.根据权利要求13所述的装置，其特征在于，所述初始特征处理模块还用于将最大重合度对应的预设标注框作为所述参考标注框。

16.根据权利要求13所述的装置，其特征在于，所述初始特征处理模块还用于在各个中间预测标注框中，将与标签标注框重合度最大的中间预测标注框作为所述更新标注框。

17.根据权利要求13所述的装置，其特征在于，所述多个尺度的初始训练特征图为按尺度大小排列的初始训练特征图；所述特征融合模块还用于将当前初始训练特征图的尺度缩放为所述当前初始训练特征图对应的相邻尺度，将缩放后的当前初始训练特征图作为与所述缩放后的当前初始训练特征图尺度一致的初始训练特征图所对应的中间训练特征图。

18.根据权利要求13所述的装置，其特征在于，所述目标特征处理模块还用于基于各个初始训练特征图的尺度大小确定各个初始训练特征图之间的映射关系，基于映射关系将所述更新标注框映射到初始训练特征图对应的目标训练特征图上，对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测标注框。

19.根据权利要求18所述的装置，其特征在于，所述目标特征处理模块还用于对映射后的目标训练特征图进行特征处理，得到更新标注框对应的目标预测偏移量，基于更新标注框和对应的目标预测偏移量得到对应的目标预测标注框。

20.根据权利要求13所述的装置，其特征在于，所述参数调整模块还用于将与标签标注框的重合度大于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第一置信度，将与标签标注框的重合度小于或等于预设阈值的预设标注框和更新标注框对应的参考置信度确定为第二置信度，基于预设标注框对应的预测置信度和参考置信度、更新标注框对应的预测置信度和参考置信度生成分类损失，所述预设标注框对应的预测置信度是对初始训练特征图进行特征处理得到的，所述更新标注框对应的预测置信度是对目标训练特征图进行特征处理得到的，基于所述回归损失和所述分类损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

21.根据权利要求20所述的装置，其特征在于，所述参数调整模块还用于将所述训练图像输入已训练的参考对象检测模型，得到各个初始训练特征图对应的初始参考特征图和各个目标训练特征图对应的目标参考特征图；所述参考对象检测模型的模型参数量大于所述目标对象检测模型的模型参数量，所述参考对象检测模型和所述目标对象检测模型的特征提取层之间存在对应关系，基于初始训练特征图和对应的初始参考特征图之间的初始相似度、目标训练特征图和对应的目标参考特征图之间的目标相似度生成知识损失，基于所述回归损失、所述分类损失和所述知识损失调整所述目标对象检测模型的模型参数，直至满足收敛条件，得到已训练的目标对象检测模型。

22.根据权利要求21所述的装置，其特征在于，所述参数调整模块还用于对各个初始训练特征图进行卷积处理，以使各个卷积处理后的初始训练特征图和对应的初始参考特征图的尺度一致，计算卷积处理后的初始训练特征图和对应的初始参考特征图之间的初始特征距离，基于各个初始特征距离得到所述初始相似度，对各个目标训练特征图进行卷积处理，以使各个卷积处理后的目标训练特征图和对应的目标参考特征图的尺度一致，计算卷积处理后的目标训练特征图和对应的目标参考特征图之间的目标特征距离，基于各个目标特征距离得到所述目标相似度，基于所述初始相似度和所述目标相似度生成知识损失。

23.一种目标对象检测装置，其特征在于，所述装置包括：

图像获取模块，用于获取待检测图像；

对象检测模块，用于将所述待检测图像输入已训练的目标对象检测模型，得到所述待检测图像上目标对象对应的目标检测标注框；

24.根据权利要求23所述的装置，其特征在于，所述对象检测模块还用于对所述待检测图像进行特征提取，得到多个尺度的初始检测特征图；各个初始检测特征图中包括对应的预设标注框，对所述各个初始检测特征图进行特征处理，得到各个初始检测特征图上各个预设标注框对应的初始检测偏移量和初始置信度，从各个初始置信度中确定中间置信度，基于所述中间置信度对应的预设标注框和初始检测偏移量生成初始检测标注框，基于初始检测特征图得到初始检测特征图对应的中间检测特征图，将初始检测特征图与对应的中间检测特征图进行融合，得到对应的目标检测特征图，基于初始检测标注框对目标检测特征图进行特征处理，得到初始检测标注框对应的目标检测偏移量和目标置信度，从各个目标置信度中确定第一置信度，基于所述第一置信度对应的初始检测标注框和目标检测偏移量生成所述目标检测标注框。

25.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10或11至12中任一项所述的方法的步骤。

26.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10或11至12中任一项所述的方法的步骤。