CN112307978B

CN112307978B - 目标检测方法、装置、电子设备及可读存储介质

Info

Publication number: CN112307978B
Application number: CN202011198087.XA
Authority: CN
Inventors: 赵子健; 谭川奇; 梅树起; 张�杰; 薛涛
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2022-05-24
Anticipated expiration: 2040-10-30
Also published as: CN112307978A

Abstract

本申请涉及图像处理技术领域，公开了一种目标检测方法、装置、电子设备及可读存储介质，目标检测方法包括：获取待检测的图像，从图像中提取至少一个尺度的特征图；获取图像的位置坐标通道，将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征；基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置；其中，检测模型是基于随机裁剪的样本图像，以及与样本图像同步裁剪后的样本坐标通道训练得到的。本申请提供的目标检测方法可以应用于地图导航中，通过人工智能技术使裁剪后的样本坐标通道适用于裁剪后的样本图像，从而提高检测模型的检测精度，进一步提高目标检测的准确率，并提高地图导航过程中的行车安全性。

Description

目标检测方法、装置、电子设备及可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，本申请涉及一种目标检测方法、装置、电子设备及可读存储介质。

背景技术

图像目标检测是指对图像中的目标进行位置检测并分类，可以应用于多种场景中，例如应用在车载移动端交通目标检测场景。

目前业界主要的目标检测算法都是基于当前输入较弱的绝对位置信息，但这种绝对位置信息难以适用检测任务中常用的随机剪裁的数据扩充方式，使得训练得到的检测网络的检测精度不够高。

发明内容

本申请的目的旨在至少能更准确的检测路况，特提出以下技术方案：

第一方面，提供了一种目标检测方法，包括：

获取待检测的图像，从图像中提取至少一个尺度的特征图；

获取图像的位置坐标通道，将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征；

基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置；

其中，检测模型是基于随机裁剪的样本图像以及与样本图像同步裁剪后的样本坐标通道训练得到的。

在第一方面的可选实施例中，检测模型的训练方式如下：

获取已设置有样本类别和样本位置的样本图像，对样本图像进行随机裁剪得到裁剪图像；

从裁剪图像中提取至少一个尺度的样本特征图；

获取样本图像的样本坐标通道，裁剪样本坐标通道，得到与至少一个尺度的样本特征图对应的裁剪坐标通道；其中，样本坐标通道的裁剪位置与样本图像的裁剪位置是同步对应的；

将至少一个尺度的样本特征图和对应的裁剪坐标通道融合，得到至少一个样本输入特征；

基于至少一个样本输入特征、样本类别和样本位置，对初始检测模型进行训练，得到检测模型。

在第一方面的可选实施例中，从裁剪图像中提取至少一个尺度的样本特征图，包括：

对裁剪图像进行特征提取和降采样，得到至少一个尺度的初始特征图；

对至少一个尺度的初始特征图进行上采样，得到至少一个尺度的样本特征图。

在第一方面的可选实施例中，获取样本图像的样本坐标通道，包括：

获取样本图像的坐标系和初始坐标通道；

对坐标系和初始坐标通道进行归一化，得到样本坐标通道。

在第一方面的可选实施例中，裁剪样本坐标通道，得到与至少一个尺度的样本特征图对应的裁剪坐标通道，包括：

基于所述裁剪图像在样本图形中的相对位置，对样本坐标通道进行裁剪，得到初始裁剪通道；

将初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸，得到裁剪坐标通道。

在第一方面的可选实施例中，将初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸，得到裁剪坐标通道，包括：

保持初始裁剪通道中的最大坐标值和最小坐标值不变，进行与至少一个尺度分别对应的双线性插值，得到裁剪坐标通道。

在第一方面的可选实施例中，将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征，包括：

针对任一尺度的特征图，将特征图和对应的位置坐标通道进行拼接，得到拼接特征；

将拼接特征进行融合，得到与尺度对应的输入特征。

在第一方面的可选实施例中，检测模型包括分类模型和边框预测模型；

基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置，包括：

基于分类模型对至少一个尺度的输入特征进行分类和回归，得到至少一个类别概率；

基于至少一个类别概率确定目标类别；

基于边框预测模型对至少一个尺度的输入特征进行预测，得到至少一个边界框位置；

基于至少一个边界框位置确定目标位置。

第二方面，提供了一种目标检测装置，包括：

提取模块，用于获取待检测的图像，从图像中提取至少一个尺度的特征图；

融合模块，用于获取图像的位置坐标通道，将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征；

检测模块，用于基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置；

在第二方面的可选实施例中，还包括训练模块，用于：

从裁剪图像中提取至少一个尺度的样本特征图；

在第二方面的可选实施例中，训练模块在从裁剪图像中提取至少一个尺度的样本特征图时，具体用于：

在第二方面的可选实施例中，训练模块在获取样本图像的样本坐标通道时，具体用于：

获取样本图像的坐标系和初始坐标通道；

对坐标系和初始坐标通道进行归一化，得到样本坐标通道。

在第二方面的可选实施例中，训练模块在裁剪样本坐标通道，得到与至少一个尺度的样本特征图对应的裁剪坐标通道时，具体用于：

在第二方面的可选实施例中，训练模块在将初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸，得到裁剪坐标通道时，具体用于：

在第二方面的可选实施例中，融合模块在将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征时，具体用于：

将拼接特征进行融合，得到与尺度对应的输入特征。

在第二方面的可选实施例中，检测模型包括分类模型和边框预测模型；

检测模块在基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置时，具体用于：

基于至少一个类别概率确定目标类别；

基于至少一个边界框位置确定目标位置。

第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本申请第一方面所示的目标检测方法。

第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的目标检测方法。

本申请提供的技术方案带来的有益效果是：

通过基于随机裁剪的样本图像，以及与样本图像同步裁剪后的样本坐标通道训练得到检测模型，裁剪后的样本坐标通道可以适用检测任务中常用的随机裁剪的数据扩充方式，在保留原始图像下的位置信息的同时，还可以使裁剪后的样本坐标通道适用于裁剪后的样本图像，从而提高检测模型的检测精度，进一步提高目标检测的准确率。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的一种目标检测方法的应用环境图；

图2为本申请实施例提供的一种目标检测方法的流程示意图；

图3为本申请实施例提供的获取特征图的示意图；

图4为本申请一个示例中位置坐标通道的示意图；

图5为本申请实施例中训练得到检测模型的方案的示意图；

图6为本申请实施例中样本坐标通道的裁剪位置与样本图像的裁剪位置同步对应的示意图；

图7为本申请实施例一个示例中确定路况信息的方案的示意图；

图8为本申请实施例一个示例中获取样本输入特征的方案的示意图；

图9为本申请提供的一个示例中获取输入特征的方案的示意图；

图10为本申请提供的一个示例中目标检测方法的示意图；

图11为本申请实施例提供的一种目标检测装置的结构示意图；

图12为本申请实施例提供的一种目标检测的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。

机器学习可以应用于自动架势技术中，在自动架势技术中，通常需要对架势过程中采集到的图像进行目标检测，目标检测是在图像中定位关注的物体(目标)，用边界框确定它的位置，并判断其类别。

目前业界主要的目标检测算法是没有融入图像的绝对位置信息的；依靠边缘补零(zero padding)方式学习到的都是基于当前输入较弱的绝对位置信息，而且训练过程中的随机剪裁会破坏相对于原图的位置信息。

在目标检测中，有的目标是具有规律的绝对位置的，例如交通场景的图像目标检测中，目标具有规律的绝对位置：比如斑马线，地标线都在图像下方的地面上；交通灯，标识牌都在上方。不同目标个体之间也有位置关联性：交通灯往往成组出现；交通灯附近往往会架有电子烟或者指示牌；斑马线两端往往会有红绿灯；路口斑马线前方往往会有地标线。物体在距离，尺寸和空间位置方面也有一定的规律性：如远处的物体尺寸小，多集中在图像中央道路最前方。以上先验信息对交通目标的检测具有重要的辅助作用，同时这些信息都依赖于物体在原始图像中的绝对坐标。

本申请提出的嵌入图像坐标位置信息的交通目标检测方法，可以保证在随机剪裁数据扩充时物体在原始图像下的绝对位置信息得到保留，在几乎不带来额外计算量的情况下，可有效提升目标检测的精度。

本申请提供的目标检测方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请提供的目标检测方法，可以应用于如图1所示的应用环境中。具体的，车载终端101获取待检测的图像，从图像中提取至少一个尺度的特征图；获取图像的位置坐标通道，将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征；基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置，即确定车辆100前方的目标类别和目标位置。

可以理解的是，图1表示的是一个示例中的应用场景，并不对本申请的目标检测方法的应用场景进行限定，上述场景中，是车载终端进行目标检测，在其他应用场景中，也可以是车载终端获取到图像，将图像上传服务器，由服务器进行检测，还可以是由其他终端或服务器来实现上述的目标检测方法。

本技术领域技术人员可以理解，这里所使用的“其他终端”可以是手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、MID(Mobile Internet Device，移动互联网设备)等；“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中提供了一种可能的实现方式，如图2所示，提供了一种目标检测方法，以该方法应用于图1中的车载终端为例进行说明，可以包括以下步骤：

步骤S201，获取待检测的图像，从图像中提取至少一个尺度的特征图。

具体的，可以对待检测的图像进行特征提取和降采样，得到至少一个尺度的初始特征图，再对降采样得到的初始特征图进行上采样，得到至少一个尺度的特征图。

以图3所示为例，可以对待检测的图像进行特征提取和降采样，降采样率分别为8倍，16倍，32倍，则可以得到降采样率为8的初始特征图、降采样率为16的初始特征图以及降采样率为32的初始特征图；再对三个尺度的初始特征图进行上采样，可以得到降采样率为8的特征图、降采样率为16的特征图以及降采样率为32的特征图。

步骤S202，获取图像的位置坐标通道，将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征。

其中，图像的位置坐标通道可以包括两个方向的通道，即X通道和Y通道，可以将图像的原始的位置坐标通道进行归一化到[-1,1]之间，得到位置坐标通道。

如图4所示，图4为一个示例中进行归一化后，5x5尺寸的位置坐标通道中X通道和Y通道的示意图，X通道和Y通道的范围均为[-1,1]。

具体的，将特征图与位置坐标通道融合的过程，可以是先将特征图与位置坐标通道进行拼接，将拼接后的特征输入到卷积网络进行融合，得到输入特征。

步骤S203，基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置。

其中，检测模型是基于随机裁剪的样本图像以及与样本图像同步裁剪后的样本坐标通道训练得到的，具体对检测模型的训练过程将在下文进行详细阐述。

其中，检测模型可以包括用于检测目标类别的分类模型，以及用于检测目标位置的边框预测模型，具体的，可以将输入特征分别输入到分类模型和边框预测模型中，得到目标类别和目标位置，具体的检测过程将在下文进行详细阐述。

上述实施例中，通过基于随机裁剪的样本图像，以及与样本图像同步裁剪后的样本坐标通道训练得到检测模型，裁剪后的样本坐标通道可以适用检测任务中常用的随机裁剪的数据扩充方式，在保留原始图像下的位置信息的同时，还可以使裁剪后的样本坐标通道适用于裁剪后的样本图像，从而提高检测模型的检测精度，进一步提高目标检测的准确率。

以下将结合附图和具体实施例进一步阐述检测模型的训练过程。

本申请实施例中提供了一种可能的实现方式，如图5所示，检测模型的训练方式如下：

步骤S501，获取已设置有样本类别和样本位置的样本图像，对样本图像进行随机裁剪得到裁剪图像。

其中，样本图像已标注有目标的样本类别和目标所在的样本位置，对样本图像可以进行多次的随机裁剪，每一次随机裁剪可以得到对应的裁剪图像，裁剪图像的尺寸可以是固定的。

步骤S502，从裁剪图像中提取至少一个尺度的样本特征图。

具体的，可以对裁剪图像先进行特征提取和降采样，然后进行上采样，获取至少一个尺度的样本特征图。

具体的，步骤S502从裁剪图像中提取至少一个尺度的样本特征图，可以包括：

(1)对裁剪图像进行特征提取和降采样，得到至少一个尺度的初始特征图。

具体的，可以设置降采样率，不同尺度对应的降采样率可以是2N或2ⁿ，其中，n和N均为正整数。

例如，可以输出三个尺度的初始特征图，降采样率分别为8倍、16倍和32倍。

(2)对至少一个尺度的初始特征图进行上采样，得到至少一个尺度的样本特征图。

具体的，对至少一个尺度的初始特征图进行上采样，可以是将不同尺度的初始特征图经过上采样后相加融合，在经过一层卷积运算输出，得到至少一个尺度的样本特征图。

例如，对降采样率分别为8倍、16倍和32倍的三个尺度的初始特征图进行上采样，将32倍降采样率的初始特征图的特征提与16倍降采样率的初始特征图融合；将16倍降采样率的初始特征图与8倍降采样率的初始特征图融合，得到降采样率分别为8倍、16倍和32倍的三个尺度的样本特征图。

步骤S503，获取样本图像的样本坐标通道，裁剪样本坐标通道，得到与至少一个尺度的样本特征图对应的裁剪坐标通道。

其中，样本坐标通道的裁剪位置与样本图像的裁剪位置是同步对应的。

如图6所示，样本坐标通道的裁剪位置与样本图像的裁剪位置是同步对应的，是指裁剪坐标通道相对于样本坐标通道的相对位置，与裁剪图像相对于样本图像的相对位置相同。

具体的，步骤S503获取样本图像的样本坐标通道，可以包括：

(1)获取样本图像的坐标系和初始坐标通道；

(2)对坐标系和初始坐标通道进行归一化，得到样本坐标通道。

具体的，可以对样本图像的坐标系和初始坐标通道均归一化到[-1,1]之间，得到样本坐标通道，具体获取样本图像的样本坐标通道的过程可以参考图4所示的对图像的位置坐标通道进行归一化的过程。

具体的，步骤S503裁剪样本坐标通道，得到与至少一个尺度的样本特征图对应的裁剪坐标通道，可以包括：

(1)基于所述裁剪图像在样本图形中的相对位置，对样本坐标通道进行裁剪，得到初始裁剪通道；

(2)将初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸，得到裁剪坐标通道。

具体的，样本坐标通道为[-1，1]之间，在样本坐标通道上施加随机剪裁的横纵坐标范围分别为(x₁,x₂)和(y₁,y₂)，其中x₁,x₂,y₁,y₂均在[-1,1]范围内，且x₁<x₂，y₁<y₂。

具体的，将初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸具体可以包括：保持初始裁剪通道中的最大坐标值和最小坐标值不变，进行与至少一个尺度分别对应的双线性插值，得到裁剪坐标通道。

步骤S504，将至少一个尺度的样本特征图和对应的裁剪坐标通道融合，得到至少一个样本输入特征。

具体的，可以将至少一个尺度的样本特征图和对应的裁剪坐标通道进行拼接，得到至少一个尺度的样本拼接特征，再将样本拼接特征分别输入到卷积层进行融合，得到至少一个样本输入特征。

步骤S505，基于至少一个样本输入特征、样本类别和样本位置，对初始检测模型进行训练，得到检测模型。

在一种实施方式中，可以将样本输入特征输入到初始检测模型，初始检测模型可以包括初始分类模型和初始边框预测模型，初始检测模型可以输出实时样本类别、实时边框位置，基于实时样本类别和样本类别计算初始分类模型的第一损失函数，并基于实时边框位置和样本位置计算初始边框预测模型的第二损失函数，基于第一损失函数和第二损失函数分别调整初始分类模型和初始边框预测模型的参数，得到训练后的检测模型。

在另一种实施方式中，还可以将步骤S501中用于进行随机裁剪的图像裁剪网络、步骤S502中用于进行特征提取的特征提取网络、步骤S503中用于对样本坐标通道进行裁剪的坐标裁剪网络、步骤S504中用于将样本特征图和对应的裁剪坐标通道融合的融合网络、初始分类模型和初始边框模型作为一个整体的目标检测网络，将样本图像输入到目标检测网络中，输出实时样本类别、实时边框位置，基于实时样本类别和样本类别计算第三损失函数，并基于实时边框位置和样本位置计算第四损失函数，基于第三损失函数和第四损失函数调整目标检测网络的参数，得到训练后的整体的目标检测网络。

具体训练过程中，可以是反复迭代使得第一损失函数和第二损失函数均为最小值，也可以是设置迭代次数，具体训练过程在此不作限制。

以下将结合示例进一步阐述获取检测模型的具体过程。

如图7所示，在一个示例中，获取检测模型的过程，可以包括如下步骤：

1)获取已设置有样本类别和样本位置的样本图像，对样本图像进行随机裁剪得到裁剪图像；

2)对裁剪图像进行特征提取和降采样，得到三个不同尺度的初始特征图，降采样率分别为8倍、16倍和32倍；可以使用多层卷积神经网络进行特征提取和降采样，例如MobileNet主干网络，其中，MobileNet主干网络是针对手机等嵌入式设备提出的一种轻量级的深层神经网络；

3)对三个不同尺度的初始特征图进行上采样，得到三个不同尺度的样本特征图，降采样率分别为8倍、16倍和32倍；可以采用特征金字塔网络(Feature Pyramid Network,FPN)进行上采样；其中，特征金字塔网络是一种多个空间尺度的特征提取与融合网络；

4)获取样本图像的样本坐标通道，包括X通道和Y通道；

5)对样本坐标通道按照样本图像进行裁剪并缩放，得到三个尺度对应的裁剪坐标通道；

6)将三个不同尺度的样本特征图分别与对应的裁剪坐标通道融合，得到三个样本输入特征；

7)将样本输入特征分别输入到初始分类模型和初始边框预测模型，以进行分类和进行边框回归，以对初始分类模型和初始边框预测模型的参数进行调整，得到检测模型。

上述实施例阐述了获取检测模型的具体过程，以下将结合具体实施例阐述对待检测的图像实时进行检测的过程。

本申请实施例中提供了一种可能的实现方式，步骤S202的将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征，可以包括：

(1)针对任一尺度的特征图，将特征图和对应的位置坐标通道进行拼接，得到拼接特征；

(2)将拼接特征进行融合，得到与尺度对应的输入特征。

具体的，可以将至少一个尺度的特征图和对应的位置坐标通道进行拼接，得到至少一个尺度的拼接特征，再将拼接特征分别输入到卷积层进行融合，得到至少一个输入特征。

需要注意的是，在线上对图像进行目标检测时，是不需要对图像进行随机裁剪的，也不需要对位置坐标通道进行裁剪；然而在训练得到检测模型的过程中，是需要对样本图像进行裁剪的，还需要对样本坐标通道进行同步裁剪。

如图8所示，在训练得到检测模型的过程中，先对样本图像进行裁剪的得到裁剪图像，从裁剪图像中提取样本特征图；并对样本坐标通道进行同步裁剪，将样本特征图和裁剪坐标通道进行拼接，得到样本拼接特征，再将样本拼接特征输入到卷积层进行融合，得到样本输入特征。

如图9所示，在线上对图像进行目标检测时，不需要对图像进行随机裁剪的，也不需要对位置坐标通道进行裁剪，直接将图像的特征图和位置坐标通道进行拼接，得到拼接特征，再将拼接特征输入到卷积层进行融合，得到输入特征。

本申请实施例中提供了一种可能的实现方式，检测模型包括分类模型和边框预测模型；步骤S203的基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置，可以包括：

(1)基于分类模型对至少一个尺度的输入特征进行分类和回归，得到至少一个类别概率。

其中，分类模型可以包括softmax分类器，也可以包括sigmoid分类器，具体的目标检测网络在此不限定；softmax分类器是一种线性分类器；Sigmoid分类器可以用于逻辑回归模型中的二类分类。

具体的，可以将至少一个尺度的输入特征输入到分类模型中，得到分类模型输出的至少一个类别概率。

(2)基于边框预测模型对至少一个尺度的输入特征进行预测，得到至少一个边界框位置。

其中，边框预测网络可以包括卷积神经网络。

具体的，将至少一个尺度的输入特征分别输入到边框预测模型，针对任一个输入特征，可以得到对应的多个边界框位置。

(3)基于至少一个类别概率和至少一个边界框位置，确定目标类别和目标位置。

具体的，可以采用NMS(Non-Maximum Suppression，非极大值抑制)从至少一个类别概率中确定出目标类别。例如在行人检测中，滑动窗口经提取特征，经分类器分类识别后，每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是行人的概率最大)，并且抑制那些分数低的窗口。

例如，定位一个车辆，最后算法就找出了一堆的方框，需要判别哪些矩形框(也就是本申请中的边界框)是没用的。非极大值抑制的方法是：先假设有6个矩形框，根据分类器的类别分类概率做排序，假设从小到大属于车辆的概率分别为A、B、C、D、E、F。

1)从最大概率矩形框F开始，分别判断A～E与F的重叠度IOU是否大于某个设定的阈值；

2)假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，则F是保留下来的；

3)从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是保留下来的第二个矩形框；

4)就这样一直重复，找到所有被保留下来的矩形框，从而确定最终的目标位置和目标类别。

为了更好地理解上述目标检测方法，如图10所示，以下详细阐述一个本发明的目标检测方法的示例：

在一个示例中，本申请提供的目标检测方法，可以包括如下步骤：

1)获取待检测的图像；

2)对图像进行特征提取和降采样，得到三个不同尺度的第一特征图，降采样率分别为8倍、16倍和32倍；

3)对三个不同尺度的第一特征图进行上采样，得到三个不同尺度的特征图，降采样率分别为8倍、16倍和32倍；

4)获取图像的位置坐标通道，包括X通道和Y通道；

5)将三个不同尺度的特征图分别与对应的裁剪坐标通道融合，得到三个输入特征；

7)将输入特征分别输入到训练后的检测模型，得到三种类别概率，以及与每一输入特征对应的多个边界框；

8)采用NMS方式基于三种类别概率和多个边界框确定目标类别和目标位置。

上述的目标检测方法，通过基于随机裁剪的样本图像，以及与样本图像同步裁剪后的样本坐标通道训练得到检测模型，裁剪后的样本坐标通道可以适用检测任务中常用的随机裁剪的数据扩充方式，在保留原始图像下的位置信息的同时，还可以使裁剪后的样本坐标通道适用于裁剪后的样本图像，从而提高检测模型的检测精度，进一步提高目标检测的准确率。

本申请实施例中提供了一种可能的实现方式，如图11所示，提供了一种目标检测装置110，该目标检测装置110可以包括：提取模块111、融合模块112和检测模块113，其中，

提取模块111，用于获取待检测的图像，从图像中提取至少一个尺度的特征图；

融合模块112，用于获取图像的位置坐标通道，将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征；

检测模块113，用于基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置；

本申请实施例中提供了一种可能的实现方式，还包括训练模块，用于：

从裁剪图像中提取至少一个尺度的样本特征图；

本申请实施例中提供了一种可能的实现方式，训练模块在从裁剪图像中提取至少一个尺度的样本特征图时，具体用于：

本申请实施例中提供了一种可能的实现方式，训练模块在获取样本图像的样本坐标通道时，具体用于：

获取样本图像的坐标系和初始坐标通道；

对坐标系和初始坐标通道进行归一化，得到样本坐标通道。

本申请实施例中提供了一种可能的实现方式，训练模块在裁剪样本坐标通道，得到与至少一个尺度的样本特征图对应的裁剪坐标通道时，具体用于：

本申请实施例中提供了一种可能的实现方式，训练模块在将初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸，得到裁剪坐标通道时，具体用于：

本申请实施例中提供了一种可能的实现方式，融合模块112在将至少一个尺度的特征图分别与位置坐标通道融合，得到嵌入位置的输入特征时，具体用于：

将拼接特征进行融合，得到与尺度对应的输入特征。

本申请实施例中提供了一种可能的实现方式，检测模型包括分类模型和边框预测模型；

检测模块113在基于检测模型对输入特征进行分类和回归，确定图像中的目标类别和目标位置时，具体用于：

基于至少一个类别概率和至少一个边界框位置，确定目标类别和目标位置。

上述的目标检测装置，通过基于随机裁剪的样本图像，以及与样本图像同步裁剪后的样本坐标通道训练得到检测模型，裁剪后的样本坐标通道可以适用检测任务中常用的随机裁剪的数据扩充方式，在保留原始图像下的位置信息的同时，还可以使裁剪后的样本坐标通道适用于裁剪后的样本图像，从而提高检测模型的检测精度，进一步提高目标检测的准确率。

本公开实施例的图片的目标检测装置可执行本公开的实施例所提供的一种图片的目标检测方法，其实现原理相类似，本公开各实施例中的图片的目标检测装置中的各模块所执行的动作是与本公开各实施例中的图片的目标检测方法中的步骤相对应的，对于图片的目标检测装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的目标检测方法中的描述，此处不再赘述。

基于与本公开的实施例中所示的方法相同的原理，本公开的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机操作指令；处理器，用于通过调用计算机操作指令执行实施例所示的目标检测方法。与现有技术相比，本申请中的目标检测方法可以使裁剪后的样本坐标通道适用于裁剪后的样本图像，从而提高检测模型的检测精度，进一步提高目标检测的准确率。

在一个可选实施例中提供了一种电子设备，如图12所示，图12所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图12示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请中的目标检测方法可以使裁剪后的样本坐标通道适用于裁剪后的样本图像，从而提高检测模型的检测精度，进一步提高目标检测的准确率。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，提取模块还可以被描述为“获取特征图的模块”。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种目标检测方法，其特征在于，包括：

获取待检测的图像，从所述图像中提取至少一个尺度的特征图；

获取所述图像的位置坐标通道，将所述至少一个尺度的特征图分别与所述位置坐标通道融合，得到嵌入位置的输入特征；

基于检测模型对所述输入特征进行分类和回归，确定所述图像中的目标类别和目标位置；

其中，所述检测模型是基于随机裁剪的样本图像以及与所述样本图像同步裁剪后的样本坐标通道训练得到的；

其中，所述检测模型的训练方式如下：

从所述裁剪图像中提取至少一个尺度的样本特征图；

获取所述样本图像的样本坐标通道，裁剪所述样本坐标通道，得到与所述至少一个尺度的样本特征图对应的裁剪坐标通道；其中，所述样本坐标通道的裁剪位置与所述样本图像的裁剪位置是同步对应的；所述裁剪坐标通道是基于所述裁剪图像在样本图像中的相对位置、对所述样本坐标通道进行裁剪和缩放得到的；

将所述至少一个尺度的样本特征图和对应的裁剪坐标通道融合，得到至少一个样本输入特征；

基于所述至少一个样本输入特征、所述样本类别和所述样本位置，对初始检测模型进行训练，得到所述检测模型。

2.根据权利要求1所述的目标检测方法，其特征在于，所述从所述裁剪图像中提取至少一个尺度的样本特征图，包括：

对所述裁剪图像进行特征提取和降采样，得到至少一个尺度的初始特征图；

对所述至少一个尺度的初始特征图进行上采样，得到至少一个尺度的所述样本特征图。

3.根据权利要求1所述的目标检测方法，其特征在于，所述获取所述样本图像的样本坐标通道，包括：

获取所述样本图像的坐标系和初始坐标通道；

对所述坐标系和初始坐标通道进行归一化，得到所述样本坐标通道。

4.根据权利要求1所述的目标检测方法，其特征在于，所述裁剪所述样本坐标通道，得到与所述至少一个尺度的样本特征图对应的裁剪坐标通道，包括：

基于所述裁剪图像在所述样本图像中的相对位置，对所述样本坐标通道进行裁剪，得到初始裁剪通道；

将所述初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸，得到裁剪坐标通道。

5.根据权利要求4所述的目标检测方法，其特征在于，所述将所述初始裁剪通道分别缩放至与至少一个尺度的样本特征图相同的尺寸，得到裁剪坐标通道，包括：

保持所述初始裁剪通道中的最大坐标值和最小坐标值不变，进行与至少一个尺度分别对应的双线性插值，得到所述裁剪坐标通道。

6.根据权利要求1至5任一项所述的目标检测方法，其特征在于，所述将所述至少一个尺度的特征图分别与所述位置坐标通道融合，得到嵌入位置的输入特征，包括：

针对任一尺度的特征图，将所述特征图和对应的位置坐标通道进行拼接，得到拼接特征；

将所述拼接特征进行融合，得到所述与所述尺度对应的输入特征。

7.根据权利要求1至5任一项所述的目标检测方法，其特征在于，所述检测模型包括分类模型和边框预测模型；

所述基于检测模型对所述输入特征进行分类和回归，确定所述图像中的目标类别和目标位置，包括：

基于所述分类模型对至少一个尺度的输入特征进行分类，得到至少一个类别概率；

基于所述边框预测模型对至少一个尺度的输入特征进行预测，得到至少一个边界框位置；

基于所述至少一个类别概率和所述至少一个边界框位置，确定所述目标类别和目标位置。

8.一种目标检测装置，其特征在于，包括：

提取模块，用于获取待检测的图像，从所述图像中提取至少一个尺度的特征图；

融合模块，用于获取所述图像的位置坐标通道，将所述至少一个尺度的特征图分别与所述位置坐标通道融合，得到嵌入位置的输入特征；

检测模块，用于基于检测模型对所述输入特征进行分类和回归，确定所述图像中的目标类别和目标位置；

还包括训练模块，用于：

从所述裁剪图像中提取至少一个尺度的样本特征图；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7任一项所述的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现权利要求1-7任一项所述的目标检测方法。