CN111008622A

CN111008622A - 一种图像对象检测方法、装置以及计算机可读存储介质

Info

Publication number: CN111008622A
Application number: CN202010164440.6A
Authority: CN
Inventors: 宋奕兵; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2020-04-14
Anticipated expiration: 2040-03-11
Also published as: CN111008622B

Abstract

本申请公开了一种图像对象检测方法、装置以及计算机可读存储介质，该方法包括：获取包含检测对象的样本图像；样本图像中包括检测对象的位置标签信息；通过原始检测模型预测样本图像中检测对象所在的预测对象图像区域；获取检测对象在所在的预测对象图像区域中的预测位置分布；获取预测位置分布与中心位置分布之间的位置分布差异；中心位置分布为检测对象在实际图像区域中的位置分布；根据位置分布差异得到分布差异损失，基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型。采用本申请，可提高针对图像中的对象所在位置的检测准确性。

Description

一种图像对象检测方法、装置以及计算机可读存储介质

技术领域

本申请涉及图像处理的技术领域，尤其涉及一种基于人工智能技术的图像对象检测方法、装置以及计算机可读存储介质。

背景技术

随着计算机网络的不断发展，在越来越多的生活场景中需要用到图像检测技术，其中，图像检测可以指对图像中的特定物体进行检测，从而检测得到图像中的特定物体在图像中所在的物体位置。

例如，在无人驾驶的小车的行驶过程中，小车可以利用所安装的摄像头捕获到小车视野前的景象，得到一帧帧的图像。小车可以对捕获到的每一帧图像进行检测，从而检测出每一帧图像中的障碍物体所在的图像区域，进而可以通过检测出的每一帧图像中的障碍物体所在的图像区域位置，计算得到障碍物体在行驶道路中的三维位置。无人驾驶小车可以通过该三维位置，操控小车绕过行驶道路中的障碍物体进行行驶，以实现小车的无人驾驶。

其中，检测图像中的障碍物体所在的图像区域位置是通过检测模型所实现的，现有技术中，当使用检测模型检测图像中的障碍物体时，若图像中的背景图像（即图像中除了障碍物体之外的图像）较为复杂，则该复杂的背景图像会对检测模型针对障碍物体的检测过程造成较大的干扰，导致检测模型最终所检测出的图像中的障碍物体所在图像区域位置并不准确。

发明内容

本申请提供了一种图像对象检测方法、装置以及计算机可读存储介质，可提高检测模型对图像中的对象所在位置的检测准确性。

本申请一方面提供了一种图像对象检测方法，包括：

获取包含检测对象的样本图像；样本图像中包括检测对象的位置标签信息；

通过原始检测模型预测样本图像中检测对象所在的预测对象图像区域；

根据检测对象所在的预测对象图像区域对应的区域预测置信度与样本图像的全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布；

获取预测位置分布与中心位置分布之间的位置分布差异；中心位置分布为检测对象在实际图像区域中的位置分布；实际图像区域为样本图像中位置标签信息所指示的检测对象的所在图像区域；

根据位置分布差异得到分布差异损失，基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型；分布差异损失用于使预测位置分布趋近于中心位置分布；分布差异损失用于提高原始检测模型针对检测对象的关注度。

其中，基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型，包括：

基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到第一修正检测模型；

基于第一修正检测模型，得到预测对象图像区域对应的修正对象图像区域；

当修正对象图像区域与位置标签信息所指示的图像区域之间的区域位置差异小于收敛区域位置差异时，将第一修正检测模型确定为检测模型。

其中，样本图像中还包括检测对象的对象类型标签；

通过原始检测模型预测样本图像中检测对象所在的预测对象图像区域，包括：

通过原始检测模型提取样本图像对应的全局图像特征；

根据全局图像特征，预测检测对象所在的预测对象图像区域，根据检测对象所在的预测对象图像区域预测检测对象对应的预测对象类型；

则，基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型，包括：

基于分布差异损失、对象类型标签、预测对象类型、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到第二修正检测模型；

基于第二修正检测模型得到位置分布差异对应的修正位置分布差异；

当修正位置分布差异对应的差异损失值小于收敛差异损失值时，将第二修正检测模型确定为检测模型。

其中，根据检测对象所在的预测对象图像区域预测检测对象对应的预测对象类型，包括：

根据检测对象所在的预测对象图像区域，分别获取检测对象针对每种目标对象类型的初始预测置信度；

将具有最高数值的初始预测置信度的目标对象类型，确定为检测对象对应的预测对象类型。

其中，根据检测对象所在的预测对象图像区域，分别获取检测对象针对每种目标对象类型的初始预测置信度，包括：

从全局图像特征中，获取检测对象所在的预测对象图像区域对应的局部图像特征；

根据局部图像特征，获取检测对象分别针对每种目标对象类型的初始预测置信度。

其中，目标对象类型包括前景对象类型和背景对象类型；区域预测置信度包括前景区域预测置信度和背景区域预测置信度；

根据检测对象所在的预测对象图像区域对应的区域预测置信度与样本图像的全局图像特征之间的梯度信息，得到检测对象在所在的预测对象图像区域中的预测位置分布，包括：

将预测对象类型所对应的初始预测置信度，确定为检测对象所在的预测对象图像区域对应的对象预测置信度；

将预测对象类型为前景对象类型的预测对象图像区域，确定为前景对象图像区域；

将预测对象类型为背景对象类型的预测对象图像区域，确定为背景对象图像区域；

根据前景对象图像区域对应的对象预测置信度，确定前景区域预测置信度，根据背景对象图像区域对应的对象预测置信度，确定背景区域预测置信度；

根据前景区域预测置信度和背景区域预测置信度分别与全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布。

其中，预测位置分布包括前景位置分布和背景位置分布；

根据前景区域预测置信度和背景区域预测置信度分别与全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布，包括：

根据前景区域预测置信度与全局图像特征之间的梯度信息，确定前景位置分布；

根据背景区域预测置信度与全局图像特征之间的梯度信息，确定背景位置分布。

其中，中心位置分布包括正向中心位置分布和反向中心位置分布；

获取预测位置分布与中心位置分布之间的位置分布差异，包括：

根据前景位置分布和正向中心位置分布，确定前景位置分布差异；

根据背景位置分布和反向中心位置分布，确定背景位置分布差异；

将前景位置分布差异和背景位置分布差异，确定为位置分布差异。

其中，还包括：

根据位置标签信息，从样本图像中获取检测对象所在的局部样本图像；

对局部样本图像进行高斯运算，得到检测对象对应的高斯核；

将高斯核，确定为中心位置分布。

本申请一方面提供了一种图像对象检测方法，包括：

通过检测模型获取包含检测对象的检测图像；检测模型是采用如上述任一项模型训练方法训练得到的；

预测检测图像中检测对象所在的预测对象图像区域；

输出预测对象图像区域的区域位置信息。

其中，检测图像为行驶设备在行驶过程中所捕获到的图像；检测对象为行驶设备在行驶过程中的障碍对象；还包括：

根据区域位置信息，获取行驶设备在行驶过程中的行驶路线信息；

根据行驶路线信息，获取方向操控指令；

根据方向操控指令操控行驶设备的行驶路线；行驶设备的行驶路线为行驶路线信息所指示的路线。

本申请一方面提供了一种图像对象检测装置，包括：

获取模块，用于获取包含检测对象的样本图像；样本图像中包括检测对象的位置标签信息；

预测模块，用于通过原始检测模型预测样本图像中检测对象所在的预测对象图像区域；

分布确定模块，用于根据检测对象所在的预测对象图像区域对应的区域预测置信度与样本图像的全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布；

差异获取模块，用于获取预测位置分布与中心位置分布之间的位置分布差异；中心位置分布为检测对象在实际图像区域中的位置分布；实际图像区域为样本图像中位置标签信息所指示的检测对象的所在图像区域；

修正模块，用于根据位置分布差异得到分布差异损失，基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型；分布差异损失用于使预测位置分布趋近于中心位置分布；分布差异损失用于提高原始检测模型针对检测对象的关注度。

其中，修正模块，包括：

第一修正单元，用于基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到第一修正检测模型；

修正区域获取单元，用于基于第一修正检测模型，得到预测对象图像区域对应的修正对象图像区域；

第一模型确定单元，用于当修正对象图像区域与位置标签信息所指示的图像区域之间的区域位置差异小于收敛区域位置差异时，将第一修正检测模型确定为检测模型。

其中，样本图像中还包括检测对象的对象类型标签；

预测模块，包括：

特征提取单元，用于通过原始检测模型提取样本图像对应的全局图像特征；

类型预测单元，用于根据全局图像特征，预测检测对象所在的预测对象图像区域，根据检测对象所在的预测对象图像区域预测检测对象对应的预测对象类型；

则，修正模块，包括：

第二修正单元，用于基于分布差异差异、对象类型标签、预测对象类型、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到第二修正检测模型；

分布差异获取单元，用于基于第二修正检测模型得到位置分布差异对应的修正位置分布差异；

第二模型确定单元，用于当修正位置分布差异对应的差异损失值小于收敛差异损失值时，将第二修正检测模型确定为检测模型。

其中，类型预测单元，包括：

第一置信度获取子单元，用于根据检测对象所在的预测对象图像区域，分别获取检测对象针对每种目标对象类型的初始预测置信度；

类型确定子单元，用于将具有最高数值的初始预测置信度的目标对象类型，确定为检测对象对应的预测对象类型。

其中，第一置信度获取子单元，包括：

局部特征获取子单元，用于从全局图像特征中，获取检测对象所在的预测对象图像区域对应的局部图像特征；

第二置信度获取子单元，用于根据局部图像特征，获取检测对象分别针对每种目标对象类型的初始预测置信度。

分布确定模块，包括：

对象置信度获取单元，用于将预测对象类型所对应的初始预测置信度，确定为检测对象所在的预测对象图像区域对应的对象预测置信度；

前景区域确定单元，用于将预测对象类型为前景对象类型的预测对象图像区域，确定为前景对象图像区域；

背景区域确定单元，用于将预测对象类型为背景对象类型的预测对象图像区域，确定为背景对象图像区域；

区域置信度确定单元，用于根据前景对象图像区域对应的对象预测置信度，确定前景区域预测置信度，根据背景对象图像区域对应的对象预测置信度，确定背景区域预测置信度；

位置分布确定单元，用于根据前景区域预测置信度和背景区域预测置信度分别与全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布。

其中，预测位置分布包括前景位置分布和背景位置分布；

位置分布确定单元，包括：

前景分布确定子单元，用于根据前景区域预测置信度与全局图像特征之间的梯度信息，确定前景位置分布；

背景分布确定子单元，用于根据背景区域预测置信度与全局图像特征之间的梯度信息，确定背景位置分布。

差异获取模块，包括：

第一差异获取单元，用于根据前景位置分布和正向中心位置分布，确定前景位置分布差异；

第二差异获取单元，用于根据背景位置分布和反向中心位置分布，确定背景位置分布差异；

第三差异获取单元，用于将前景位置分布差异和背景位置分布差异，确定为位置分布差异。

其中，图像对象检测装置，还包括：

局部图像获取模块，用于根据位置标签信息，从样本图像中获取检测对象所在的局部样本图像；

高斯模块，用于对局部样本图像进行高斯运算，得到检测对象对应的高斯核；

中心确定模块，用于将高斯核，确定为中心位置分布。

本申请一方面提供了一种图像对象检测装置，包括：

图像获取模块，用于通过检测模型获取包含检测对象的检测图像；检测模型是采用如上述任一项模型训练方法训练得到的；

区域预测模块，用于预测检测图像中检测对象所在的预测对象图像区域；

位置输出模块，用于输出预测对象图像区域的区域位置信息。

其中，检测图像为行驶设备在行驶过程中所捕获到的图像；检测对象为行驶设备在行驶过程中的障碍对象；图像对象检测装置，还包括：

路线获取模块，用于根据区域位置信息，获取行驶设备在行驶过程中的行驶路线信息；

指令获取模块，用于根据行驶路线信息，获取方向操控指令；

操控模块，用于根据方向操控指令操控行驶设备的行驶路线；行驶设备的行驶路线为行驶路线信息所指示的路线。

本申请一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如本申请中一方面中的方法。

本申请一方面提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令当被处理器执行时使该处理器执行上述一方面中的方法。

本申请可以获取包含检测对象的样本图像；样本图像中包括检测对象的位置标签信息；通过原始检测模型预测样本图像中检测对象所在的预测对象图像区域；获取检测对象在预测对象图像区域中的预测位置分布，获取预测位置分布与中心位置分布之间的位置分布差异；基于位置分布差异、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型。由此可见，本申请提出的方法可以通过原始检测模型所预测到的检测对象在样本图像中的预测对象图像区域，得到预测位置分布与中心位置分布之间的位置分布差异，进而可以通过该位置分布差异来修正原始检测模型的模型参数，使得原始检测模型可以对样本图像中的检测对象具有更多的关注度，进而使得通过修正原始检测模型的模型参数所得到的检测模型可以更加准确地识别图像中的对象所在位置。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种系统架构示意图；

图2是本申请提供的一种数据检测的场景示意图；

图3是本申请提供的一种图像对象检测方法的流程示意图；

图4a是本申请提供的一种二层残差块的结构示意图；

图4b是本申请提供的一种三层残差块的结构示意图；

图5是本申请提供的一种模型训练的场景示意图；

图6是本申请提供的另一种图像对象检测方法的流程示意图；

图7是本申请提供的另一种数据检测的场景示意图；

图8是本申请提供的一种图像对象检测装置的结构示意图；

图9是本申请提供的另一种图像对象检测装置的结构示意图；

图10是本申请提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision, CV)和机器学习(Machine Learning, ML)。

其中，计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR（Optical Character Recognition，光学字符识别）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D（3维）技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请中，尤其涉及到对图像中的检测对象的检测，对图像中的检测对象的检测是指识别出图像中的检测对象在图像中所在的位置区域以及识别出检测对象的对象类型，这不仅需要使用计算机视觉技术来获取图像中检测对象所在的位置区域，还需要借助机器学习来判断检测对象的对象类型。

请参见图1，是本申请提供的一种系统架构示意图。如图1所示，该系统架构示意图包括服务器100以及多个终端设备，多个终端设备具体包括终端设备200a、终端设备200b和终端设备200c。其中，终端设备200a、终端设备200b和终端设备200c均能通过网络与服务器100之间相互通信，终端设备可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备（mobile internet device, MID）、可穿戴设备（例如智能手表、智能手环等）。此处以终端设备200a与服务器100之间的通信为例进行说明。

请一并参见图2，是本申请提供的一种数据检测的场景示意图。本申请提供的方法可以应用在无人驾驶车辆的行驶场景中，因此，上述终端设备200a可以指无人驾驶车辆中的车载设备，该车载设备可以控制无人驾驶车辆的行驶路线，该车载设备是联网的，可以与服务器100之间相互进行通信。如图2所示，在场景100a（侧视图）中，上述终端设备200a可以是无人驾驶车辆101a中的车载设备，无人驾驶车辆101a在行驶路途中，在行驶道路上遇到了障碍物体102a。无人驾驶车辆中的车载设备还包括摄像设备，因此无人驾驶车辆101a中的终端200a（即车载设备）可以对无人驾驶车辆101a在行驶路途中的视野前的道路景象进行拍照，得到图像103a。如图2所示，图像103a中还包括障碍物体102a。终端设备200a可以将所获取到的图像103a发送给服务器100，服务器100可以调用已经训练好的检测模型104a对图像103a中的障碍物体进行检测，以检测出图像103a中障碍物体在图像103a中的位置。上述检测模型104a为通过大量包含障碍物体的样本图像训练完成，因此，该检测模型104a可以检测出所输入的图像中的障碍物体在图像中所处的图像区域的位置，并识别出所检测到的障碍物体的类型。其中，障碍物体的类型可以有多种，例如，障碍物体可以是石头、大树、人、滑板和各种动物（例如狗、羊和牛等）等。因此，此处服务器100可以调用检测模型104a检测出图像103a中的障碍物体102a在图像103a中所在的区域位置，得到障碍物体103a在图像103a中的位置信息105a，并识别出障碍物体102a的类型。

实际上，终端设备200a可以在行驶路途中持续地对道路视野前的景象进行拍照，得到若干帧图像（包含上述图像103a），终端设备200a可以将所获取到的每一帧图像都发送给服务器100，服务器100可以通过上述同样的方式检测出每一帧图像中障碍物体的位置信息（包括上述位置信息105a）。由于会有多帧图像都包含上述障碍物体102a，可以理解为，包含该障碍物体102a的每一帧图像具有一种方位上该障碍物体102a的位置信息，因此，通过检测包含障碍物体102a的每一帧图像，可以得到障碍物体102a在不同方位上的位置信息。因此，进一步地，服务器100可以通过障碍物体102a在不同方位上的位置信息，计算出障碍物体102a在行驶路途中的空间位置。如场景106a（俯视图）所示，服务器100可以将该空间位置发送给终端设备200a，终端设备200a可以根据获取到的空间位置，计算出无人驾驶车辆101a新的行驶路线107a，该新的行驶路线107a为使得无人驾驶车辆101a绕开障碍物体102a行驶的路线。终端设备200a可以根据该行驶路线107a，生成操控指令，该操控指令用于操控无人驾驶车辆101a的行驶方向，通过该操控指令可以使得无人驾驶车辆101a按照行驶路线107a进行行驶，以避开障碍物体102a。

可选的，也可以通过上述终端设备200a直接调用检测模型以实现对图像中的障碍物体的所在位置的检测，换句话说，上述服务器100所执行的各个步骤也可以由终端设备200a完成。本申请主要描述了如何训练得到上述检测模型104a，该检测模型104a为训练完成的原始检测模型101b。请参见图2，训练原始检测模型101b以得到检测模型104a的过程可以是：

对于图像中需要被检测的物体（例如上述障碍物体）的类型可以自行设定，设定完成之后，可以使用包含需要被检测的物体的图像作为样本图像对原始检测模型100b进行训练。用于对原始检测模型进行训练的样本图像可以多个，该多个样本图像中可以包括样本图像100b，每个样本图像的规格（所携带的标签信息以及均包含需要被检测的物体）均相同，此处以样本图像100b为例进行说明。样本图像100b中包括物体t1和物体t2，物体t1为人，物体t2为冲浪板，可以将样本图像中需要被检测的物体称之为检测对象，因此可以将物体t1和物体t2称之为样本图像100b中的检测对象t1和检测对象t2。样本图像100b中包含所包含的每个检测对象的位置标签信息，具体的，样本图像100b中包括检测对象t1在样本图像100b中的位置标签信息，该位置标签信息指示了检测对象t1在样本图像100b中实际所在的图像区域（可以是矩形区域）的位置，如图2所示，检测对象t1在样本图像100b中所在的图像区域为图像区域y1。同理，样本图像100b中还包括检测对象t2在样本图像100b中的位置标签信息，该位置标签信息指示了检测对象t2在样本图像100b中实际所在的图像区域，如图2所示，检测对象t2在样本图像100b中所在的图像区域为图像区域y2。此外，样本图像100b中还可以包含所包含的每个检测对象的对象类型标签，具体的，样本图像100b中包括检测对象t1的对象类型标签，该对象类型标签指示了检测对象t1的对象类型为“人”。样本图像100b中包括检测对象t2的对象类型标签，该对象类型标签指示了检测对象t2的对象类型为“冲浪板”。

可以将所有样本图像（包括样本图像100b）输入原始检测模型101b中进行训练，对于每个样本图像的训练过程均相同，此处也以样本图像100b为例进行说明。首先，通过原始检测模型101b可以获取到所检测到的样本图像100b中检测对象所在的图像区域，此处检测到了检测对象所在的5个图像区域，该5个图像区域分别为图像区域103b、图像区域104b、图像区域105b、图像区域106b和图像区域107b。原始检测模型101b中还包括分类器，通过该分类器可以对原始检测模型所检测出的上述5个图像区域的区域类型进行分类。其中，区域类型包括图像区域为前景对象图像区域的类型和图像区域为背景对象图像区域的类型，若分类器判别出某个图像区域中包括需要被检测的物体，则可以将该图像区域称之为前景对象图像区域，若分类器判别出某个图像区域中不包含需要被检测的物体，则可以将该图像区域称之为背景对象图像区域。原始检测模型101b所检测出来的每个图像区域均对应有一个置信度，该置信度即是判别出来的图像区域中所包含的物体为识别出的类型的置信度，例如某个图像区域中所包含的物体为“人”这一类型的置信度。此处，图像区域103b的置信度为0.3，图像区域104b的置信度为0.4，图像区域105b的置信度为0.5，图像区域106b的置信度为0.6，图像区域107b的置信度为0.6。并且，分类器判定出上述5个图像区域中图像区域103b、图像区域105b和图像区域106b的区域类型为前景对象图像区域，图像区域104b和图像区域107b的区域类型为背景对象图像区域。

在本申请中可以将上述针对样本图像100b的检测结果（即针对上述所检测出的图像区域对应的置信度）进行在原始检测模型中进行反向传播，以得到针对样本图像100b的关注度响应图（该关注度响应图为特征图），进而可以通过该关注度响应图得到关注度损失函数来进一步帮助修正原始检测模型101b的模型参数。上述关注度响应图可以表明原始检测模型101b在检测出上述5个图像区域（包括图像区域103b、图像区域104b、图像区域105b、图像区域106b和图像区域107b）的过程中，对样本图像100b中的检测对象（包括检测对象t1和检测对象t2）的关注度，因此，通过关注度损失函数来修正原始检测模型的模型参数可以提高原始检测模型针对样本图像100b中的检测对象的关注度。如下述：

可以将上述关注度响应图称之为关注度特征，该关注度特征可以包括前景关注度特征110b（即前景关注度特征）和背景关注度特征111b（即背景关注度特征）。其中，前景关注度特征110b的获取方式为：首先，可以对判别出的前景对象图像区域的置信度求和，如图2所示，即是将列表108b中的图像区域103b的置信度、图像区域105b的置信度和图像区域106b的置信度进行求和，得到前景对象图像区域对应的预测分值1.4，接着，可以通过该预测分值1.4对所输入的样本图像100b的特征图求偏导（即求梯度），即可得到上述前景关注度特征110b。背景关注度特征111b的获取方式为：首先，可以对判别出的背景对象图像区域的置信度求和，如图2所示，即是将列表109b中的图像区域104b的置信度和图像区域107b的置信度进行求和，得到背景对象图像区域对应的预测分值1.0，接着，可以通过该预测分值1.0对所输入的样本图像100b的特征图求偏导（即求梯度），即可得到上述背景关注度特征111b。

接着，即可通过上述前景关注度特征110b和背景关注度特征111b，得到关注度损失函数，得到关注度损失函数的具体过程可以参见下述图3中的步骤S103和步骤S104。通过该关注度损失函数可以修正原始检测模型101b的模型参数，实际上，还会存在其他损失函数来修正原始检测模型101b的模型参数，例如，所检测出来的图像区域在样本图像100b中的区域位置与样本图像100b中的检测对象的位置标签信息实际所指示的区域位置之间的位置差异对应的损失函数，再例如，识别出的图像区域中的物体的类型与样本图像100b中的检测对象的对象类型标签实际所指示的类型之间的差异对应的损失函数等。当通过所有的样本图像和损失函数（包括响应损失函数）对原始检测模型101b的模型参数修正完成时，即可得到检测模型104b。

在本申请中，由于增加了响应损失函数来修正原始检测模型的模型参数，使得原始检测模型可以对样本图像中的检测对象给予更高的关注度，进而使得最终所训练出的检测模型可以更加充分地学习到样本图像中的检测对象的对象特征。因此，在应用场景中，检测模型也可以更加准确地对所输入的需要被检测的图像中的检测对象的对象所在区域位置和对象种类进行检测。

请参见图3，是本申请提供的一种图像对象检测方法的流程示意图，该图像对象检测方法为通过训练原始检测模型得到检测模型的方法，如图3所示，该方法可以包括：

步骤S101，获取包含检测对象的样本图像；样本图像中包括检测对象的位置标签信息；

具体的，本实施例中的执行主体可以是原始检测模型，可以通过原始检测模型获取包含检测对象的样本图像。样本图像中的检测对象是需要被检测的对象，需要被检测的对象可以根据实际应用场景自行设定，对此不作限制。例如，检测对象的对象类型可以“人”、“大树”、“牛”、“羊”、“石头”、“滑板”等。样本图像中除了检测对象之外的图像可以称之为检测对象的背景图像。样本图像中还可以包括检测对象的位置标签信息，该位置标签信息指示了检测对象在样本图像中实际所在的图像区域（可以是矩形区域）的位置。样本图像中还包括检测对象的对象类型标签，该对象类型标签指示了对应的检测对象的对象类型，例如，该对象类型标签可以是“人”的标签、“大树”的标签、“石头”的标签以及“牛”的标签等。样本图像可以有若干个，每个样本图像可以包含不同的检测对象，对于样本图像的数量以及检测对象的类型不做限制。可以将所获取到的样本图像输入原始检测模型中对原始检测模型进行训练。

步骤S102，通过原始检测模型预测样本图像中检测对象所在的预测对象图像区域；

具体的，原始检测模型中可以包括深度残差网络（可以是ResNet50残差网络或者ResNet100残差网络）、区域生成网络RPN（RPN，RegionProposalNetwork）和分类器。首先，可以通过深度残差网络提取所输入的样本图像的图像特征，本申请中采用深度残差网络来提取样本图像的图像特征的好处有：可以解决深度卷积神经网络CNN在训练时由于网络深度太深（可理解为是网络层数较多）以带来的梯度消失或者或者梯度爆炸的问题，这种梯度消失或者梯度爆炸的问题会使得模型在训练时凡反而会有退化训练的效果。换句话说，利用深度残差网络来提取样本图像的图像特征，可以实现在较深的网络中可以对样本图像进行更加复杂的图像特征的提取，以达到充分提取样本图像中的图像特征的目的。

请参见图4a，是本申请提供的一种二层残差块的结构示意图。深度残差网络模型ResNet是由若干个残差块组合而成的。如图4a所示，提供了一种二层残差块m1，其输入为x，捷径连接跨越了权重层q1以及权重层q2，通过捷径连接可以将输入x作为后面层次的输出，此处输出H（x）为H（x）=F（x）+x，使得模型在进行训练时，不再是直接对输入输出进行训练，而是对残差F（x）进行训练，训练的目的为使得F（x）趋近于0。残差训练过程中层与层之间通过激活函数对输入进行激活，得到输出。请参见图4b，是本申请提供的一种三层残差块的结构示意图，其中三层残差块与二层残差块的实现原理一致。如图4b所示，残差块m2的捷径连接为实线，表明残差F（x）与输入x的通道相同，残差块m3的捷径连接为虚线，表明残差F（x）与输入x的通道不相同。深度残差网络是由残差块所构成的，在实际应用中，当深度残差网络ResNet层数较少，则可以采用层数较少的残差块，例如二层残差块（例如图4a所示的残差块），当深度残差网络模型ResNet层数较多，则可以采用层数较多的残差块，例如三层残差块（例如图4b所示的残差块）。通过深度残差网络可以在网络深度较深的情况下逐层提取输入图像（此处指输入的样本图像）的图像特征，并且所提取得到的图像特征包含了输入图像充分的图像特征。

通过深度残差网络对样本图像中的图像特征进行提取之后，可以得到样本图像对应的特征图，可以将该特征图称之为全局图像特征，该全局图像特征即是深度残差网络提取到的样本图像中的图像特征参数。原始检测模型可以将该全局图像特征输入到区域生成网络中，区域生成网络可以通过所输入的全局图像特征生成样本图像中的多个预测对象图像区域，该多个预测对象图像区域是通过区域生成网络预测得到的样本图像中包含检测对象的图像区域。区域生成网络可以将所生成的多个预测对象图像区域输入到分类器中进行分类。

步骤S103，根据检测对象所在的预测对象图像区域对应的区域预测置信度与样本图像的全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布；

具体的，原始检测模型中的分类器可以对上述区域生成网络所得到的每个预测对象图像区域中所包含的检测对象的对象类型进行预测，并得到每个预测对象图像区域中所包含的检测对象为每一种目标对象类型的初始预测置信度。目标对象类型是指需要检测的检测对象的对象类型，也就是需要最终训练完成的原始检测模型能够识别的检测对象的对象类型，换句话说，目标对象类型也就是用于训练原始检测模型的样本图像中所包含的检测对象的对象类型。例如，目标对象类型可以包括“人”的对象类型、“牛”的对象类型、“石头”的对象类型以及“大树”的对象类型等。需要进行说明的是，目标对象类型除了包括需要被检测的检测对象的对象类型（可以将此种目标对象类型称之为前景对象类型）之外，还包括背景对象类型，该背景对象类型为不是需要被检测的检测对象的对象类型。当分类器识别出某个预测对象图像区域中的检测对象为背景对象类型的初始预测置信度最高时，则可以判定该预测对象图像区域中并未包含需要被检测的检测对象，而是包含了需要被检测的检测对象的背景图像。换句话说，有可能预测得到的预测对象图像区域中不包含需要被检测的检测对象。

分类器在得到每个预测对象图像区域针对每种目标对象类型的初始预测置信度之后，即可以确切判定每个预测对象图像区域中所包含的检测对象的对象类型为哪一种。分类器可以将某个预测对象图像区域针对每种目标对象类型的初始预测置信度中为最大值的初始预测置信度（即具有最高数值的初始预测置信度），作为分类器识别出来的该个预测对象图像区域中的检测对象的对象类型，可以将分类器识别出来的预测对象图像区域中的检测对象的对象类型称之为针对对应预测对象图像区域中的检测对象的预测对象类型。举个例子，上述目标对象类型包括“人”的对象类型、“石头”的对象类型以及“大树”的对象类型。某个预测对象图像区域中的检测对象为“人”的对象类型的初始预测置信度为0.3，为“石头”的对象类型的初始预测置信度为0.5，为“大树”的对象类型的初始预测置信度为0.7，则可以得到该预测对象图像区域中的检测对象的预测对象类型为“大树”的对象类型。

其中，上述分类器获取预测对象图像区域中的检测对象分别针对每种目标对象类型的初始预测置信度的原始为：区域生成网络得到上述多个预测对象图像区域之后，可以根据每个预测对象图像区域从全局图像特征中分别获取每个预测对象图像区域对应的局部图像特征。一个预测对象图像区域对应于一个局部图像特征，全局图像特征为整个样本图像对应的图像特征，预测对象图像区域为样本图像中的部分图像区域，因此，可以理解的是，该局部图像特征是预测对象图像区域在样本图像中对应图像区域中的图像特征。区域生成网络可以将每个预测对象图像区域对应的局部图像特征输入到分类器中，分类器可以根据所获取到的每个局部图像特征分别识别出每个预测对象图像区域中的检测对象为每种目标对象类型的初始预测置信度。

基于上述，此处具体说明预测位置分布的获取过程：预测位置分布也为一个特征图，可以将预测位置分布称之为关注度响应图，该关注度响应图表征了原始检测模型在预测得到上述检测对象所在的多个预测对象图像区域以及每个预测对象图像区域中的检测对象的预测对象类型的过程中，对样本图像中实际的检测对象的关注度。可以将预测对象图像区域中的检测对象的预测对象类型对应的初始预测置信度，称之为该预测对象图像区域对应的对象预测置信度。可以将预测对象类型为前景对象类型的预测对象图像区域，称之为前景对象图像区域，将预测对象类型为背景对象类型的预测对象图像区域，称之为背景对象图像区域。

上述预测位置分布包括两种，一种为前景位置分布（可以称之为前景关注度响应图，如图2中的前景关注度特征110b），一种为背景位置分布（可以称之为背景关注度响应图，如图2中的背景关注度特征111b）。上述区域预测置信度也包括两种，一种为前景区域预测置信度，一种为背景区域预测置信度。分类器可以将上述前景对象图像区域对应的对象预测置信度相加（即求和），得到一个求和值，该求和值为原始检测模型对样本图像中的前景物体（即检测对象）的预测分值，可以将该预测分值称之为前景区域预测置信度。同理，分类器可以将上述背景对象图像区域对应的对象预测置信度相加（即求和），得到一个求和值，该求和值为原始检测模型对样本图像中的背景物体（即检测对象的背景图像）的预测分值，可以将该预测分值称之为背景区域预测置信度。分类器可以将上述前景区域预测置信度和背景区域预测置信度反向传播至区域生成网络，由区域生成网络根据反向传播所获取到的前景区域预测置信度和背景区域预测置信度得到上述预测位置分布。

其中，区域生成网络可以使用该前景区域预测置信度对上述得到的全局图像特征（即输入图像（也就是样本图像）的特征图，也就是区域生成网络的输入，该输入是由深度残差网络向其输入的）求偏导，得到前景区域预测置信度与全局图像特征之间的梯度信息，可以将该梯度信息作为上述前景位置分布。区域生成网络可以使用该背景区域预测置信度对全局图像特征（即输入图像（也就是样本图像）的特征图）求偏导，得到背景区域预测置信度与全局图像特征之间的梯度信息，可以将该梯度信息作为上述背景位置分布。如公式（1）和公式（2）所示：

（1）

（2）

其中，S_fg为前景区域预测置信度，input为全局图像特征，

为前景位置分布， S_bg为背景区域预测置信度，

为背景位置分布，x和y分别为样本图像中像素点的横坐标和纵坐标。

通过上述，即可得到检测对象在所在的预测对象图像区域中的预测位置分布，包括前景位置分布和背景位置分布。

步骤S104，获取预测位置分布与中心位置分布之间的位置分布差异；中心位置分布为检测对象在实际图像区域中的位置分布；实际图像区域为样本图像中位置标签信息所指示的检测对象的所在图像区域

具体的，上述中心位置分布实际上为上述预测位置分布的监督信号，该中心位置分布为样本图像中的检测对象在样本图像中实际所在区域中的分布。该中心位置分布也包括两种，一种是正向中心位置分布，一种是反向中心位置分布。本申请中，采用高斯信号作为对预测位置分布的监督信号。因此，正向中心位置分布的获取过程可以是：由于样本图像中包括检测对象的位置标签信息，因此，可以根据该位置标签信息获取检测对象在样本图像中所在的图像区域（可以为矩形区域）对应的局部样本图像（可以为矩形图像），可以以该局部样本图像的中心点为中心对该局部样本图像进行高斯运算，得到该局部样本图像对应的高斯核（可以记为G（x，y），其中，x和y分别为样本图像中像素点的横坐标和纵坐标），可以将该高斯核作为上述正向中心位置分布。可以将该高斯核对应的反向的高斯核（可以记为1-G（x，y））作为上述反向中心位置分布。需要进行说明的是，当一个样本图像中包括多个检测对象，则可以将每个检测对象所在的局部样本图像对应的高斯核相加，得到上述正向中心位置分布，同理，将每个检测对象所在的局部样本图像对应的反向的高斯核相加，得到上述反向中心位置分布。

可以将上述正向中心位置分布与前景位置分布之间的差值，称之为前景分布差异，可以将上述反向中心位置分布与背景位置分布之间的差值，称之为背景分布差异，可以将前景分布差异和背景分布差异统称为预测位置分布与中心位置分布之间的位置分布差异。

步骤S104，根据位置分布差异得到分布差异损失，基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型；分布差异损失用于使预测位置分布趋近于中心位置分布；分布差异损失用于提高原始检测模型针对检测对象的关注度；

具体的，通过上述位置分布差异可以得到关注度损失函数，该关注度损失函数可以称之为上述分布差异损失。通过该关注度损失函数可以监督原始检测模型对样本图像的学习过程，使得原始检测模型可以将更多的关注度放在样本图像中的检测对象上，也就是提高原始检测模型针对样本图像中的检测对象的关注度，进而使得原始检测模型可以更加充分地学习到样本图像中的检测对象的对象特征。其中，是通过关注度损失函数来修正原始检测模型的模型参数，在修正原始检测模型的模型参数的过程中，可以使得上述位置分布差异逐渐变小，即可以使得上述得到的检测对象的预测位置分布更趋近于检测对象的中心位置分布。原始检测模型得到的检测对象的预测位置分布越趋近于检测对象的中心位置分布，表明原始检测模型对检测对象的关注度越高。因此，通过此种方式训练得到的检测模型，后续在检测模型应用时可以对输入图像中的检测对象的对象所在区域位置以及对象类型实现更加准确的识别。其中，上述通过位置分布差异得到关注度损失函数的方式可以参见下述公式（3）：

（3）

其中，L^att即为关注度损失函数，G（x，y）为正向中心位置分布，1-G（x，y）为反向中心位置分布，

为前景分布差异，

为背景分布差异，x和y分别为样本图像中像素点的横坐标和纵坐标。

除了采用上述关注度损失函数对原始检测模型的模型参数进行修正之外，还存在以下几种损失函数同样会用于对原始检测模型的模型参数进行修正：一种是原始检测模型预测出的检测对象在样本图像中所在预测对象图像区域与检测对象在样本图像中实际所在的图像区域（即样本图像中的位置标签信息所指示的检测对象的所在图像区域）之间的区域位置差异所带来的损失函数。一种是识别出的预测对象图像区域中的检测对象的预测对象类型与样本图像中的检测对象的实际的对象类型（即样本图像中的对象类型标签所指示的检测对象的对象类型）之间的差异所带来的损失函数。一种是判断出的预测对象图像区域为前景对象图像区域还是为背景对象图像区域，与该预测对象图像区域实际为前景对象图像区域还是为背景对象图像区域之间的差异所带来的损失函数。其中，可以设定一个比例阈值，当预测对象图像区域与检测对象在样本图像中实际所在的图像区域之间的重叠区域的面积，与检测对象在样本图像中实际所在的图像区域的面积之间的比值大于或者等于上述比例阈值时，则认为该预测对象图像区域实际为前景对象图像区域，反之，若该比值小于上述比例阈值，则认为该预测对象图像区域实际为背景对象图像区域。可以将上述所有损失函数中，除了关注度损失函数之外的损失函数称之为原始检测模型的原始损失函数。

其中，由于原始检测模型中可以包括深度残差网络、区域生成网络和分类器，因此，原始检测模型的模型参数可以包括深度残差网络的网络参数、区域生成网络的网络参数以及分类器的网络参数。通过上述多个损失函数对原始检测模型的模型参数进行修正的原理为，调整原始检测模型的模型参数，使得每个损失函数达到最小值或者达到某个收敛值（可以自行设定），这会使得原始检测模型对样本图像的训练过程中，学习损失最小，当学习损失最小，所训练出的检测模型的检测准确度也就最高。因此，通过此种方式训练原始检测模型所得到的检测模型，具备准确识别图像中检测对象的对象所在区域位置和对象类型的能力。例如，当通过上述位置分布差异、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数之后，可以将此时的原始检测模型称之为第一修正检测模型。可以通过第一修正检测模型得到此时预测到的检测对象所在的图像区域，可以将该图像区域称之为修正对象图像区域。若是该修正对象图像区域与检测对象在样本图像中实际所在的图像区域（即位置标签信息所指示的检测对象所在的图像区域）之间的区域位置差异小于收敛位置差异（即一个收敛值）时，可以将上述第一修正检测模型作为最终得到的检测模型。再例如，当通过上述位置分布差异、对象类型标签、预测对象类型、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数之后，可以将此时的原始检测模型称之为第二修正检测模型。可以通过第二修正检测模型得到此时预测到的预测位置分布（第二修正检测模型重新预测得到的预测位置分布）与中心位置分布之间的位置分布差异，可以将该位置分布差异称之为修正位置分布差异。可以将该修正位置分布差异所带来的关注度损失函数的值称之为差异损失值，因此，当该差异损失值小于收敛差异损失值（设定的一个收敛值）时，可以将上述第二修正检测模型作为最终得到的检测模型。

可选的，也可以通过样本图像的数量来判断原始检测模型是否达到收敛，例如，当通过指定的足够数量（该数量可以自行设定）的样本图像对原始检测模型进行训练之后，可以认为此时原始检测模型训练至收敛状态，可以将此时的原始检测模型称之为训练完成的检测模型。需要进行说明的是，每个样本图像对原始检测模型进行训练的过程相同，该过程即是上述步骤S101到步骤S104所描述的过程，并且，后一个样本图像是在前一个样本图像对原始检测模型进行训练后的基础上继续进行训练的。后续，上述训练原始检测模型所得到的检测模型可以用于识别图像中的对象所在位置以及对象类型，识别的对象的类型为上述用于训练原始检测模型的样本图像中所包含的检测对象的对象类型。

请参见图5，是本申请提供的一种模型训练的场景示意图。如图5所示，图像100c为输入图像，也是样本图像，图像100c中包括检测对象。原始检测模型中可以包括深度残差网络101c和网络102c，其中，网络102c中又包括区域生成网络和分类器。首先可以将图像100c输入深度残差网络101c中进行特征提取（即ResNet CNN Feature Extractor），得到图像100c的特征图（即全局图像特征）。深度残差网络101c可以将提取得到的全局图像特征输入网络102c中的区域生成网络。区域生成网络可以生成样本图像中的多个预测对象图像区域，该预测对象图像区域即是区域生成网络所预测的包含检测对象的图像区域。区域生成网络可以将所生成的每个预测对象图像区域对应的局部图像特征（从全局图像特征中获取到的）输入到网络102c中的分类器中，分类器可以得到预测结果103c（该预测结果103c可以是一个矩阵）。预测结果103c中包括每个预测对象图像区域对应的预测对象类型以及对象预测置信度。如图5所示，预测结果中的S_man表明对应的预测对象图像区域的预测对象类型为人，且该预测对象图像区域的对象预测置信度等于S_man；预测结果中的S_plane表明对应的预测对象图像区域的预测对象类型为飞机，且该预测对象图像区域的对象预测置信度等于S_plane；预测结果中的S_car表明对应的预测对象图像区域的预测对象类型为车，且该预测对象图像区域的对象预测置信度等于S_car。

接着，分类器可以通过预测结果103c得到前景预测置信度以及背景预测置信度，如矩阵105c中的S_fg为前景预测置信度，S_bg为背景预测置信度。分类器可以将矩阵105c反向传播至区域生成网络，区域生成网络可以根据矩阵105c中的前景预测置信度和背景预测置信度分别对输入图像100c的特征图求偏导，得到前景位置分布106c（原理为

，input 为图像100c的全局图像特征，即特征图）和背景位置分布107c（原理为

）。原始检测模型可以根据前景位置分布106c和正向中心位置分布108c得到前景分布差异，根据背景位置分布107c和反向中心位置分布107c得到背景分布差异，进而可以通过所得到的前景分布差异和背景分布差异得到关注度损失函数。接着，可以通过原始损失函数和关注度损失函数一起对原始检测模型的模型参数进行修正（修正的原理为

，其中，Loss为损失函数，w 为模型参数）。其中，图5中的标签104c（可以是一个矩阵）为图像100c中的检测对象的对象类型标签，标签104c中的每个数字对应于一种目标对象类型，标签104c中的数字0表示图像 100c中的检测对象的对象类型不为对应的目标对象类型，数字1表示图像100c中的检测对象的对象类型就为对应的目标对象类型。

请参见图6，是本申请提供的另一种图像对象检测方法的流程示意图，如图6所示，该方法可以包括：

步骤S201，通过检测模型获取包含检测对象的检测图像；

具体的，本实施例中的执行主体为检测模型，该检测模型可以是在上述图3对应的实施例中训练原始检测模型所得到的。可以通过该检测模型获取包含检测对象的检测图像，检测图像中的检测对象的对象类型为图3中的样本图像所包含的检测对象的对象类型。本申请所提供的方法可以应用在无人驾驶小车（即行驶设备，还可以是其他行驶设备，例如机器人等）的行驶场景中，无人驾驶小车可以调用该检测模型，因此，该检测图像可以是无人驾驶小车在行驶路途中对小车视野前的道路所拍摄的照片，该检测图像可以有多个，该多个检测图像中可以包括同一个检测对象（该检测对象在无人驾驶小车的行驶应用场景中为行驶过程中的障碍对象），因此，可以理解的是，该多个检测图像中所包括的同一个检测对象为在不同视角方位上所拍摄得到的。无人驾驶小车可以将所获取到的检测图像输入到检测模型中。

步骤S202，预测检测图像中检测对象所在的预测对象图像区域；

具体的，检测模型可以对预测检测对象在检测图像中所在的图像区域，可以将该图像区域称之为预测对象图像区域。此外，检测模型还可以输出预测得到的检测图像中的检测对象的对象类型。

步骤S203，输出预测对象图像区域的区域位置信息；

具体的，检测模型可以输出上述所预测得到的预测对象图像区域在检测图像中的区域位置信息。预测对象图像区域可以是矩形区域，因此，区域位置信息可以是该矩形区域在检测图像中的4个矩形顶角的坐标信息。无人驾驶小车可以获取到检测模型所输出的区域位置信息，由于上述检测图像可以有多个，每个检测图像中可以均可以包括上述检测对象（同一个），因此上述区域位置信息也有多个，并且，该多个区域位置信息是针对同一个检测对象在不同方位上的区域位置信息。无人驾驶小车可以根据该多个区域位置信息计算出检测对象在行驶路途中的空间位置，无人驾驶小车可以根据该空间位置计算出行驶过程中的行驶路线信息，该行驶路线信息为绕开检测对象的路线，即该行驶路线信息可以指示无人驾驶小车避免撞上检测对象的路线。无人驾驶小车可以根据所得到的行驶路线信息，获取方向操控指令，无人驾驶小车可以根据该方向操控指令操控自己的行驶路线，使得自己的行驶路线可以与行驶路线信息所指示的路线相同，实现了无人驾驶小车在行驶路途中自动绕开障碍物体（即检测对象）进行行驶。

请参见图7，是本申请提供的另一种数据检测的场景示意图。如图7所示，可以将检测图像100d输入检测模型101d中。检测模型可以对图像100d中的检测对象进行检测，并得到检测结果102d。其中，检测结果102d中包括检测得到的区域103d和区域104d。其中，区域103d为检测模型检测到的检测图像100d中的一个检测对象所在的图像区域，区域104d为检测模型检测到的检测图像100d中的另一个检测对象所在的图像区域。检测结果102中还包括检测出的区域103d中的检测对象的对象类型为老鹰（如描述105d“区域103d中的检测对象的对象类型为：老鹰”所示），以及检测出的区域104d中的检测对象的对象类型为飞机（如描述106d“区域104d中的检测对象的对象类型为：飞机”所示）。其中，检测模型不仅可以输出上述检测结果102d，还可以输出上述区域103d以及区域104d在检测图像100d中的具体位置。其中，区域103d的具体位置可以通过区域103d的4个顶角（由于区域103d为矩形区域，因此，该4个顶角也就是对应矩形区域的4个顶点）在检测图像100d中的像素坐标位置体现，区域104d的具体位置也可以通过区域104d的4个顶角在检测图像100d中的像素坐标位置体现。

请参见图8，是本申请提供的一种图像对象检测装置的结构示意图。如图8所示，该图像对象检测装置1可以执行上述图3对应的实施例中所描述的图像对象检测方法。该图像对象检测装置1可以包括：获取模块11、预测模块12、分布确定模块13、差异获取模块14和修正模块15；

获取模块11，用于获取包含检测对象的样本图像；样本图像中包括检测对象的位置标签信息；

预测模块12，用于通过原始检测模型预测样本图像中检测对象所在的预测对象图像区域；

分布确定模块13，用于根据检测对象所在的预测对象图像区域对应的区域预测置信度与样本图像的全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布；

差异获取模块14，用于获取预测位置分布与中心位置分布之间的位置分布差异；中心位置分布为检测对象在实际图像区域中的位置分布；实际图像区域为样本图像中位置标签信息所指示的检测对象的所在图像区域；

修正模块15，用于根据位置分布差异得到分布差异损失，基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型；分布差异损失用于使预测位置分布趋近于中心位置分布；分布差异损失用于提高原始检测模型针对检测对象的关注度。

其中，获取模块11、预测模块12、分布确定模块13、差异获取模块14和修正模块15的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S105，这里不再进行赘述。

其中，修正模块15，包括：第一修正单元151、修正区域获取单元152和第一模型确定单元153；

第一修正单元151，用于基于分布差异损失、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到第一修正检测模型；

修正区域获取单元152，用于基于第一修正检测模型，得到预测对象图像区域对应的修正对象图像区域；

第一模型确定单元153，用于当修正对象图像区域与位置标签信息所指示的图像区域之间的区域位置差异小于收敛区域位置差异时，将第一修正检测模型确定为检测模型。

其中，第一修正单元151、修正区域获取单元152和第一模型确定单元153的具体功能实现方式请参见图3对应的实施例中的步骤S105，这里不再进行赘述。

其中，样本图像中还包括检测对象的对象类型标签；

预测模块12，包括：特征提取单元121和类型预测单元122；

特征提取单元121，用于通过原始检测模型提取样本图像对应的全局图像特征；

类型预测单元122，用于根据全局图像特征，预测检测对象所在的预测对象图像区域，根据检测对象所在的预测对象图像区域预测检测对象对应的预测对象类型；

则，修正模块15，包括：第二修正单元154、分布差异获取单元155和第二模型确定单元156；

第二修正单元154，用于基于分布差异损失、对象类型标签、预测对象类型、检测对象所在的预测对象图像区域以及位置标签信息，修正原始检测模型的模型参数，得到第二修正检测模型；

分布差异获取单元155，用于基于第二修正检测模型得到位置分布差异对应的修正位置分布差异；

第二模型确定单元156，用于当修正位置分布差异对应的差异损失值小于收敛差异损失值时，将第二修正检测模型确定为检测模型。

其中，特征提取单元121和类型预测单元122的具体功能实现方式请参见图3对应的实施例中的步骤S101-步骤S102，第二修正单元154、分布差异获取单元155和第二模型确定单元156的具体功能实现方式请参见图3对应的实施例中的步骤S105，这里不再进行赘述。

其中，类型预测单元122，包括：第一置信度获取子单元1221和类型确定子单元1222；

第一置信度获取子单元1221，用于根据检测对象所在的预测对象图像区域，分别获取检测对象针对每种目标对象类型的初始预测置信度；

类型确定子单元1222，用于将具有最高数值的初始预测置信度的目标对象类型，确定为检测对象对应的预测对象类型。

其中，第一置信度获取子单元1221和类型确定子单元1222的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

其中，第一置信度获取子单元1221，包括：局部特征获取子单元12211和第二置信度获取子单元12212；

局部特征获取子单元12211，用于从全局图像特征中，获取检测对象所在的预测对象图像区域对应的局部图像特征；

第二置信度获取子单元12212，用于根据局部图像特征，获取检测对象分别针对每种目标对象类型的初始预测置信度。

其中，局部特征获取子单元12211和第二置信度获取子单元12212的具体功能实现方式请参见图3对应的实施例中的步骤S102，这里不再进行赘述。

分布确定模块13，包括：对象置信度获取单元131、前景区域确定单元132、背景区域确定单元133、区域置信度确定单元134和位置分布确定单元135；

对象置信度获取单元131，用于将预测对象类型所对应的初始预测置信度，确定为检测对象所在的预测对象图像区域对应的对象预测置信度；

前景区域确定单元132，用于将预测对象类型为前景对象类型的预测对象图像区域，确定为前景对象图像区域；

背景区域确定单元133，用于将预测对象类型为背景对象类型的预测对象图像区域，确定为背景对象图像区域；

区域置信度确定单元134，用于根据前景对象图像区域对应的对象预测置信度，确定前景区域预测置信度，根据背景对象图像区域对应的对象预测置信度，确定背景区域预测置信度；

位置分布确定单元135，用于根据前景区域预测置信度和背景区域预测置信度分别与全局图像特征之间的梯度信息，确定检测对象在所在的预测对象图像区域中的预测位置分布。

其中，对象置信度获取单元131、前景区域确定单元132、背景区域确定单元133、区域置信度确定单元134和位置分布确定单元135的具体功能实现方式请参见图3对应的实施例中的步骤S103，这里不再进行赘述。

其中，预测位置分布包括前景位置分布和背景位置分布；

位置分布确定单元135，包括：前景分布确定子单元1351和背景分布确定子单元1352；

前景分布确定子单元1351，用于根据前景区域预测置信度与全局图像特征之间的梯度信息，确定前景位置分布；

背景分布确定子单元1352，用于根据背景区域预测置信度与全局图像特征之间的梯度信息，确定背景位置分布。

其中，前景分布确定子单元1351和背景分布确定子单元1352的具体功能实现方式请参见图3对应的实施例中的步骤S103，这里不再进行赘述。

差异获取模块14，包括：第一差异获取单元141、第二差异获取单元142和第三差异获取单元143；

第一差异获取单元141，用于根据前景位置分布和正向中心位置分布，确定前景位置分布差异；

第二差异获取单元142，用于根据背景位置分布和反向中心位置分布，确定背景位置分布差异；

第三差异获取单元143，用于将前景位置分布差异和背景位置分布差异，确定为位置分布差异。

其中，第一差异获取单元141、第二差异获取单元142和第三差异获取单元143的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

其中，图像对象检测装置1，还包括：局部图像获取模块16、高斯模块17和中心确定模块18；

局部图像获取模块16，用于根据位置标签信息，从样本图像中获取检测对象所在的局部样本图像；

高斯模块17，用于对局部样本图像进行高斯运算，得到检测对象对应的高斯核；

中心确定模块18，用于将高斯核，确定为中心位置分布。

其中，局部图像获取模块16、高斯模块17和中心确定模块18的具体功能实现方式请参见图3对应的实施例中的步骤S104，这里不再进行赘述。

请参见图9，是本申请提供的另一种图像对象检测装置的结构示意图。如图9所示，该图像对象检测装置2可以执行上述图6对应的实施例中所描述的图像对象检测方法。该图像对象检测装置2可以包括：图像获取模块21、区域预测模块22和位置输出模块23；

图像获取模块21，用于通过检测模型获取包含检测对象的检测图像；检测模型是采用如上述任一项模型训练方法训练得到的；

区域预测模块22，用于预测检测图像中检测对象所在的预测对象图像区域；

位置输出模块23，用于输出预测对象图像区域的区域位置信息。

其中，图像获取模块21、区域预测模块22和位置输出模块23的具体功能实现方式请参见图6对应的实施例中的步骤S201-步骤S203，这里不再进行赘述。

其中，检测图像为行驶设备在行驶过程中所捕获到的图像；检测对象为行驶设备在行驶过程中的障碍对象；图像对象检测装置2，还包括：路线获取模块24、指令获取模块25和操控模块26；

路线获取模块24，用于根据区域位置信息，获取行驶设备在行驶过程中的行驶路线信息；

指令获取模块25，用于根据行驶路线信息，获取方向操控指令；

操控模块26，用于根据方向操控指令操控行驶设备的行驶路线；行驶设备的行驶路线为行驶路线信息所指示的路线。

其中，路线获取模块24、指令获取模块25和操控模块26的具体功能实现方式请参见图6对应的实施例中的步骤S201-步骤S203，这里不再进行赘述。

请参见图10，是本申请提供的一种计算机设备的结构示意图。如图10所示，计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏（Display）、键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现前文图3和图6中任一个所对应实施例中对图像对象检测方法的描述。应当理解，本申请中所描述的计算机设备1000也可执行前文图8所对应实施例中对图像对象检测装置1的描述，以及图9所对应实施例中对图像对象检测装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的图像对象检测装置1和图像对象检测装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3和图6中任一个所对应实施例中对图像对象检测方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖范围。

Claims

1.一种图像对象检测方法，其特征在于，包括：

获取包含检测对象的样本图像；所述样本图像中包括所述检测对象的位置标签信息；

通过原始检测模型预测所述样本图像中所述检测对象所在的预测对象图像区域；

根据所述检测对象所在的预测对象图像区域对应的区域预测置信度与所述样本图像的全局图像特征之间的梯度信息，确定所述检测对象在所在的预测对象图像区域中的预测位置分布；

获取所述预测位置分布与中心位置分布之间的位置分布差异；所述中心位置分布为所述检测对象在实际图像区域中的位置分布；所述实际图像区域为所述样本图像中所述位置标签信息所指示的所述检测对象的所在图像区域；

根据所述位置分布差异得到分布差异损失，基于所述分布差异损失、所述检测对象所在的预测对象图像区域以及所述位置标签信息，修正所述原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型；所述分布差异损失用于使所述预测位置分布趋近于所述中心位置分布；所述分布差异损失用于提高所述原始检测模型针对所述检测对象的关注度。

2.根据权利要求1所述的方法，其特征在于，所述基于所述分布差异损失、所述检测对象所在的预测对象图像区域以及所述位置标签信息，修正所述原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型，包括：

基于所述分布差异损失、所述检测对象所在的预测对象图像区域以及所述位置标签信息，修正所述原始检测模型的模型参数，得到第一修正检测模型；

基于所述第一修正检测模型，得到所述预测对象图像区域对应的修正对象图像区域；

当所述修正对象图像区域与所述位置标签信息所指示的图像区域之间的区域位置差异小于收敛区域位置差异时，将所述第一修正检测模型确定为所述检测模型。

3.根据权利要求1所述的方法，其特征在于，所述样本图像中还包括所述检测对象的对象类型标签；

所述通过原始检测模型预测所述样本图像中所述检测对象所在的预测对象图像区域，包括：

通过所述原始检测模型提取所述样本图像对应的所述全局图像特征；

根据所述全局图像特征，预测所述检测对象所在的预测对象图像区域，根据所述检测对象所在的预测对象图像区域预测所述检测对象对应的预测对象类型；

则，所述基于所述分布差异损失、所述检测对象所在的预测对象图像区域以及所述位置标签信息，修正所述原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型，包括：

基于所述分布差异损失、所述对象类型标签、所述预测对象类型、所述检测对象所在的预测对象图像区域以及所述位置标签信息，修正所述原始检测模型的模型参数，得到第二修正检测模型；

基于所述第二修正检测模型得到所述位置分布差异对应的修正位置分布差异；

当所述修正位置分布差异对应的差异损失值小于收敛差异损失值时，将所述第二修正检测模型确定为所述检测模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述检测对象所在的预测对象图像区域预测所述检测对象对应的预测对象类型，包括：

根据所述检测对象所在的预测对象图像区域，分别获取所述检测对象针对每种目标对象类型的初始预测置信度；

将具有最高数值的初始预测置信度的目标对象类型，确定为所述检测对象对应的所述预测对象类型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述检测对象所在的预测对象图像区域，分别获取所述检测对象针对每种目标对象类型的初始预测置信度，包括：

从所述全局图像特征中，获取所述检测对象所在的预测对象图像区域对应的局部图像特征；

根据所述局部图像特征，获取所述检测对象分别针对所述每种目标对象类型的初始预测置信度。

6.根据权利要求4所述的方法，其特征在于，所述目标对象类型包括前景对象类型和背景对象类型；所述区域预测置信度包括前景区域预测置信度和背景区域预测置信度；

所述根据所述检测对象所在的预测对象图像区域对应的区域预测置信度与所述样本图像的全局图像特征之间的梯度信息，得到所述检测对象在所在的预测对象图像区域中的预测位置分布，包括：

将所述预测对象类型所对应的初始预测置信度，确定为所述检测对象所在的预测对象图像区域对应的对象预测置信度；

将所述预测对象类型为所述前景对象类型的预测对象图像区域，确定为前景对象图像区域；

将所述预测对象类型为所述背景对象类型的预测对象图像区域，确定为背景对象图像区域；

根据所述前景对象图像区域对应的对象预测置信度，确定所述前景区域预测置信度，根据所述背景对象图像区域对应的对象预测置信度，确定所述背景区域预测置信度；

根据所述前景区域预测置信度和所述背景区域预测置信度分别与所述全局图像特征之间的梯度信息，确定所述检测对象在所在的预测对象图像区域中的所述预测位置分布。

7.根据权利要求6所述的方法，其特征在于，所述预测位置分布包括前景位置分布和背景位置分布；

所述根据所述前景区域预测置信度和所述背景区域预测置信度分别与所述全局图像特征之间的梯度信息，确定所述检测对象在所在的预测对象图像区域中的所述预测位置分布，包括：

根据所述前景区域预测置信度与所述全局图像特征之间的梯度信息，确定所述前景位置分布；

根据所述背景区域预测置信度与所述全局图像特征之间的梯度信息，确定所述背景位置分布。

8.根据权利要求7所述的方法，其特征在于，所述中心位置分布包括正向中心位置分布和反向中心位置分布；

所述获取所述预测位置分布与中心位置分布之间的位置分布差异，包括：

根据所述前景位置分布和所述正向中心位置分布，确定所述前景位置分布差异；

根据所述背景位置分布和所述反向中心位置分布，确定所述背景位置分布差异；

将所述前景位置分布差异和所述背景位置分布差异，确定为所述位置分布差异。

9.根据权利要求1所述的方法，其特征在于，还包括：

根据所述位置标签信息，从所述样本图像中获取所述检测对象所在的局部样本图像；

对所述局部样本图像进行高斯运算，得到所述检测对象对应的高斯核；

将所述高斯核，确定为所述中心位置分布。

10.一种图像对象检测方法，其特征在于，包括：

通过检测模型获取包含检测对象的检测图像；所述检测模型是采用如权利要求1-9任一项所述的模型训练方法训练得到的；

预测所述检测图像中所述检测对象所在的预测对象图像区域；

输出所述预测对象图像区域的区域位置信息。

11.根据权利要求10所述的方法，其特征在于，所述检测图像为行驶设备在行驶过程中所捕获到的图像；所述检测对象为所述行驶设备在行驶过程中的障碍对象；还包括：

根据所述区域位置信息，获取所述行驶设备在行驶过程中的行驶路线信息；

根据所述行驶路线信息，获取方向操控指令；

根据所述方向操控指令操控所述行驶设备的行驶路线；所述行驶设备的行驶路线为所述行驶路线信息所指示的路线。

12.一种图像对象检测装置，其特征在于，包括：

获取模块，用于获取包含检测对象的样本图像；所述样本图像中包括所述检测对象的位置标签信息；

预测模块，用于通过原始检测模型预测所述样本图像中所述检测对象所在的预测对象图像区域；

分布确定模块，用于根据所述检测对象所在的预测对象图像区域对应的区域预测置信度与所述样本图像的全局图像特征之间的梯度信息，确定所述检测对象在所在的预测对象图像区域中的预测位置分布；

差异获取模块，用于获取所述预测位置分布与中心位置分布之间的位置分布差异；所述中心位置分布为所述检测对象在实际图像区域中的位置分布；所述实际图像区域为所述样本图像中所述位置标签信息所指示的所述检测对象的所在图像区域；

修正模块，用于根据所述位置分布差异得到分布差异损失，基于所述分布差异损失、所述检测对象所在的预测对象图像区域以及所述位置标签信息，修正所述原始检测模型的模型参数，得到用于识别图像中的对象所在位置的检测模型；所述分布差异损失用于使所述预测位置分布趋近于所述中心位置分布；所述分布差异损失用于提高所述原始检测模型针对所述检测对象的关注度。

13.一种图像对象检测装置，其特征在于，包括：

图像获取模块，用于通过检测模型获取包含检测对象的检测图像；所述检测模型是采用如权利要求1-9任一项所述的模型训练方法训练得到的；

区域预测模块，用于预测所述检测图像中所述检测对象所在的预测对象图像区域；

位置输出模块，用于输出所述预测对象图像区域的区域位置信息。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-11中任一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-11任一项所述的方法。