CN115116027A

CN115116027A - 目标物体定位方法、装置、可读存储介质及电子设备

Info

Publication number: CN115116027A
Application number: CN202210617361.5A
Authority: CN
Inventors: 徐亮; 刘祥
Original assignee: Hozon New Energy Automobile Co Ltd
Current assignee: Hozon New Energy Automobile Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-09-27
Also published as: WO2023231217A1

Abstract

本发明提供了一种目标物体定位方法、装置、可读存储介质及电子设备，涉及图像处理技术领域。所述方法包括：通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，第一图像特征对应的图像尺寸大于第一向量对应的图像尺寸；通过图像定位模型中的解码器，根据第一向量确定第二向量，其中，第二向量包括目标图像中目标物体对应的第一坐标；通过解码器，根据第二向量以及第一图像特征对目标物体进行缩放，以得到级联特征；根据级联特征确定目标物体对应的第二坐标。因此，能够解决现有技术中无法对图像中的物体进行快速识别定位的问题。

Description

目标物体定位方法、装置、可读存储介质及电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种目标物体定位方法、装置、可读存储介质及电子设备。

背景技术

交通场景下的车辆检测是自动驾驶汽车视觉系统的重要组成部分，是实现自动驾驶汽车在复杂交通场景下一系列自主驾驶功能的关键技术。虽然基于深度学习的车辆检测性能在GPU的辅助下已经非常好，但应用于自动驾驶汽车时，由于车规计算芯片的滞后以及车辆受到光照、天气、运动变形、遮挡等一系列不确定因素的影响，无法实现对车辆图像中车辆的快速识别定位。

发明内容

本发明实施例提供一种目标物体定位方法、装置、可读存储介质及电子设备，以解决现有技术中无法对图像中的物体进行快速识别定位的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了目标物体定位方法，所述方法包括：通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，所述第一图像特征对应的图像尺寸大于所述第一向量对应的图像尺寸；通过所述图像定位模型中的解码器，根据所述第一向量确定第二向量，其中，所述第二向量包括所述目标图像中目标物体对应的第一坐标；通过所述解码器，根据所述第二向量以及所述第一图像特征对所述目标物体进行缩放，以得到级联特征；根据所述级联特征确定所述目标物体对应的第二坐标。

进一步地，所述编码器包括依次连接的多个卷积层，其中，通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，包括：通过所述编码器中的第一卷积层，获取所述第一图像特征，其中，所述第一卷积层为所述多个卷积层中的首个卷积层；通过所述编码器中的输出卷积层，获取所述第一向量，其中，所述输出卷积层为所述多个卷积层中的末尾卷积层。

进一步地，根据所述第一向量确定第二向量，包括：通过所述解码器，对所述第一向量进行卷积，以得到所述第二向量，其中，所述第二向量包括所述第一坐标以及所述第一坐标的置信度。

进一步地，通过所述解码器，根据所述第二向量以及所述第一图像特征对所述目标物体进行缩放，以得到级联特征，包括：通过所述解码器中的缩放层，根据所述第一向量、所述第二向量以及所述第一图像特征，确定所述级联特征。

进一步地，通过所述解码器中的缩放层，根据所述第一向量、所述第二向量以及所述第一图像特征，确定所述级联特征，包括：通过所述缩放层，根据所述第一图像特征的图像尺寸，对所述第一向量、所述第二向量以及所述第一图像特征进行池化，以得到所述级联特征。

第二方面，本发明实施例另外提供了目标物体定位装置，所述装置包括：获取模块，用于通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，所述第一图像特征对应的图像尺寸大于所述第一向量对应的图像尺寸；第一确定模块，用于通过所述图像定位模型中的解码器，根据所述第一向量确定第二向量，其中，所述第二向量包括所述目标图像中目标物体对应的第一坐标；缩放模块，用于通过所述解码器，根据所述第二向量以及所述第一图像特征对所述目标物体进行缩放，以得到级联特征；第二确定模块，用于根据所述级联特征确定所述目标物体对应的第二坐标。

进一步地，所述缩放模块包括：确定子模块，用于通过所述解码器中的缩放层，根据所述第一向量、所述第二向量以及所述第一图像特征，确定所述级联特征。

进一步地，所述确定子模块包括：池化单元，用于通过所述缩放层，根据所述第一图像特征的图像尺寸，对所述第一向量、所述第二向量以及所述第一图像特征进行池化，以得到所述级联特征。

第三方面，本发明实施例另外提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如前第一方面所述的目标物体定位方法的步骤。

第四方面，本发明实施例另外提供了一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前第一方面所述的目标物体定位方法的步骤。

在本发明实施例中，通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，第一图像特征对应的图像尺寸大于第一向量对应的图像尺寸；通过图像定位模型中的解码器，根据第一向量确定第二向量，其中，第二向量包括目标图像中目标物体对应的第一坐标；通过解码器，根据第二向量以及第一图像特征对目标物体进行缩放，以得到级联特征；根据级联特征确定目标物体对应的第二坐标。本实施例中，基于目标物体的第一坐标、第一向量，在图像尺寸较大的第一图像特征中对目标物体进行尺度缩放，提高了目标物体定位的准确度，进而解决了现有技术中无法对图像中的物体进行快速识别定位的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的一种目标物体定位方法的步骤流程图；

图2是本发明实施例中的一种图像定位模型的结构示意图；

图3是本发明实施例中的又一种图像定位模型的结构示意图；

图4是本发明实施例中的一种图像特征处理的流程示意图；

图5是本发明实施例中的一种目标物体定位装置的结构流程图；

图6是本发明实施例中的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

详细介绍本发明实施例提供的一种目标物体定位方法。

参照图1，示出了本发明实施例中一种目标物体定位方法的步骤流程图。

步骤101，通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，第一图像特征对应的图像尺寸大于第一向量对应的图像尺寸；

步骤102，通过图像定位模型中的解码器，根据第一向量确定第二向量，其中，第二向量包括目标图像中目标物体对应的第一坐标；

步骤103，通过解码器，根据第二向量以及第一图像特征对目标物体进行缩放，以得到级联特征；

步骤104，根据级联特征确定目标物体对应的第二坐标。

本实施例中的目标图像中包括一个或多个物体，例如一张道路环境图像中包括人物、车辆、建筑等物体。本实施例中的图像定位模型通过对目标图像进行预测，可以预测目标图像中目标物体在目标图像中的位置坐标。

在本实施例中，图像定位模型用于针对某类物体进行定位预测，例如针对目标图像中车辆的预测；针对目标图像中人类的预测。

此外，目标物体在目标图像中的位置坐标为目标物体的中心点坐标，具体地，为目标物体的图像轮廓的中心点坐标。在一些实施例中，目标物体在目标图像中的位置坐标可以是目标物体所在区域的区域坐标，例如，假定每个目标物体所在区域均为矩形区域，则目标物体在目标图像中的位置坐标可以是目标物体所在矩形区域的区域坐标，分别为矩形区域四个顶点对应的坐标。

需要说明的是，在本实施例中，目标物体的位置坐标为平面坐标。

在本实施例中，对于目标物体在目标图像中的位置坐标，将目标图像输入至预先训练完成的图像定位模型中，由图像定位模型根据目标图像确定目标物体在目标图像中的位置坐标。

本实施例中的图像定位模型包括编码器以及解码器。编码器的任务是处理图像并提取丰富的抽象特征，其中包含执行检测的所有信息。编码器用于提取目标图像的图像特征，包括但不限于第一图像特征以及第一向量；解码器用于根据目标图像的图像特征来确定目标物体的位置坐标。

在本实施例中，编码器用于对目标图像进行图像识别以及特征提取，在识别到目标图像包括目标物体的情况下，提取包括目标物体的图像特征。例如，假定目标物体的车辆，在编码器识别到目标图像中包括车辆时，提取车辆的图像特征；若目标图像中不包括车辆时，则不对目标图像进行特征提取。

具体地，编码器由分类网络的卷积层和池化层组成，可以使用现有的分类网络，例如VGG神经网络和ResNet神经网络，可以采用现有预先训练的权重初始化编码器的权重，本实施例中对此不做限定。

如图2所示，图像定位模型包括编码器210和解码器220，其中，编码器210与图像定位模型的输入端连接，用于对输入至图像定位模型的目标图像进行特征提取，以得到目标图像对应的图像特征，解码器220与图像定位模型的输出端连接，用于根据目标图像的图像特征确定目标物体的位置坐标。

在本实施例中，通过图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，第一图像特征的图像尺寸大于第一向量的图像尺寸。然后通过图像定位模型中解码器对第一向量进行处理，可以确定目标图像中目标物体所在的第一坐标。此时，第一坐标是较为粗略、准确度较低的位置坐标。

为了提高目标物体的定位准确度，本实施例中，通过预测得到的第一坐标引入尺度不变性，根据图像尺寸更大(分辨率更高)的第一图像特征、第一向量以及第一坐标生成级联特征，即将目标物体的图像还原至原始的或者图像尺寸更大的图像尺寸中，得到级联特征。然后，基于级联特征可以实现更加准确地框选出目标物体，实现对目标物体的精准定位，获取目标物体的真实位置坐标。

本实施例实施时，首先需要训练图像定位模型。

在一些实施例中，根据预设数据库中存储的图像数据，构建训练样本集。训练样本集中的每条训练样本包括样本图像、样本物体以及样本物体对应的位置坐标。

首先，获取预设数据库中存储的图像数据。通常，每个图像数据中均会包括以下信息：环境信息、物体信息等。

然后，在一些实施例中，通过对图像数据进行处理，例如对图像数据的分辨率以及尺寸等信息进行处理或调整。然后针对图像定位模型需要识别的目标物体，对图像数据进行筛选。多滤掉不存在目标物体或与目标物体类别不同的图像数据，基于剩下的图像数据构建训练样本。

接下来，构建训练样本，每个训练样本包括样本图像、样本物体等信息。在一些实施例中，将每一个训练样本表示为一个三元组，包括<样本图像，样本物体所在的位置坐标、置信度>，其中，置信度用于表示预测的样本物体所在位置坐标的置信度或概率。例如，针对车辆为目标物体的训练样本，则为<车辆图像、坐标、置信度>。

之后，基于构建的训练样本集训练图像定位模型，以样本图像为输入，以样本物体所在的位置坐标以及置信度为模型目标，训练图像定位模型。

需要说明的是，在本发明实施例中，通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，第一图像特征对应的图像尺寸大于第一向量对应的图像尺寸；通过图像定位模型中的解码器，根据第一向量确定第二向量，其中，第二向量包括目标图像中目标物体对应的第一坐标；通过解码器，根据第二向量以及第一图像特征对目标物体进行缩放，以得到级联特征；根据级联特征确定目标物体对应的第二坐标。本实施例中，基于目标物体的第一坐标、第一向量，在图像尺寸较大的第一图像特征中对目标物体进行尺度缩放，提高了目标物体定位的准确度，进而解决了现有技术中无法对图像中的物体进行快速识别定位的问题。

可选地，在本实施例中，编码器包括依次连接的多个卷积层，其中，通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，包括但不限于：通过编码器中的第一卷积层，获取第一图像特征，其中，第一卷积层为多个卷积层中的首个卷积层；通过编码器中的输出卷积层，获取第一向量，其中，输出卷积层为多个卷积层中的末尾卷积层。

具体地，编码器包括多卷积神经网络，编码器中包括依次连接的多个卷积层，每个卷积层都对输入的图像特征依次进行卷积，因此每个卷积层输出的图像尺寸会依次变小。通过编码器中第一卷积层获取的第一图像特征的图像尺寸为最大的，由编码器中末尾卷积层得到的第一向量，为编码器输出的图像特征，为图像尺寸最小的。

在一个例子中，如图3所示，图像定位模型包括编码器31和解码器32，其中，编码器包括依次连接的卷积层310、卷积层312、卷积层314以及卷积层316；解码器32包括特征处理层320、缩放层322以及特征处理层324。通过卷积层310输出第一图像特征A1，由卷积层316输出第一向量A2。

通过上述实施例，通过编码器获取目标图像的不同图像尺寸的第一图像特征以及第一向量，以实现后续准确的框选目标物体。

可选地，在本实施例中，通过图像定位模型中的解码器，根据第一向量确定第二向量，包括但不限于：通过解码器，对第一向量进行卷积，以得到第二向量，其中，第二向量包括第一坐标以及第一坐标的置信度。

具体地，如图4所示的图像特征处理流程，输入图片为1248*384*3，使用编码器CNN卷积层传递图像特征，产生一个39*12*512大小的第一向量，即图像特征中包括39*12个网格，解码器对第一向量进行预测。通过对39*12*512的第一向量进行1*1的卷积，输出预测结果分辨率为39*12*6的第二向量，第二向量包括6个通道值，前两个通道产生目标图像中目标物体的初识预测，用于表示可能目标物体对应39*12网格中特定单元格的置信度。后面四个通道值表示这个单元格周围区域中目标边界框的第一坐标。

通过上述示例，通过解码器对第一向量进行卷积处理得到第二向量，以得到目标物体的第一坐标，实现了对目标图像中目标物体的初步定位。

可选地，在本实施例中，通过解码器，根据第二向量以及第一图像特征对目标物体进行缩放，以得到级联特征，包括但不限于：通过解码器中的缩放层，根据第一向量、第二向量以及第一图像特征，确定级联特征。

具体地，为了更加准确的框选出目标物体，在本实施中在解码器中加入了一个缩放层，该缩放层可以实现将第一向量以及第一图像特征连接生成级联特征。根据基于粗略预测的第二向量中的第一坐标，将第一向量中的目标物体还原至第一图像中，以得到级联特征。

可选地，在本实施例中，通过解码器中的缩放层，根据第一向量、第二向量以及第一图像特征，确定级联特征，包括但不限于：通过缩放层，根据第一图像特征的图像尺寸，对第一向量、第二向量以及第一图像特征进行池化，以得到级联特征。

以上述图4所示为例进行说明，使用编码器CNN卷积层传递图像特征，产生一个39*12*512大小的第一向量，即图像特征中包括39*12个网格，解码器对第一向量进行预测。通过对39*12*512的第一向量进行1*1的卷积，输出预测结果为第二向量39*12*6，假定第一图像特征为156*48*128，则对对第二向量、第一图像特征以及第一向量进行池化，以得到级联特征39*12*1526。

具体地，以图3为例进行说明，特征处理层320对第一向量A2进行分类，以确定第二向量A3；将第一图像特征A1、第一向量A2以及第二向量A3输入至缩放层322，根据第一图像特征A1的图像尺寸进行池化处理，以得到级联特征A4。

需要说明的是，本实施例中的缩放层可以根据第一图像特征的图像尺寸进行池化，缩放层包括但不限于ROI Align池化层。本实施例中，缩放层可以根据图像特征的尺寸进行对应尺寸的池化处理。

综上所述，在本发明实施例中，通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，第一图像特征对应的图像尺寸大于第一向量对应的图像尺寸；通过图像定位模型中的解码器，根据第一向量确定第二向量，其中，第二向量包括目标图像中目标物体对应的第一坐标；通过解码器，根据第二向量以及第一图像特征对目标物体进行缩放，以得到级联特征；根据级联特征确定目标物体对应的第二坐标。本实施例中，基于目标物体的第一坐标、第一向量，在图像尺寸较大的第一图像特征中对目标物体进行尺度缩放，提高了目标物体定位的准确度，进而解决了现有技术中无法对图像中的物体进行快速识别定位的问题。

实施例二

详细介绍本发明实施例提供的一种目标物体定位装置。

参照图5，示出了本发明实施例中一种目标物体定位装置的结构示意图。

本发明实施例的目标物体定位装置包括：获取模块50，第一确定模块52，缩放模块54以及第二确定模块56。

下面分别详细介绍各模块的功能以及各模块之间的交互关系。

获取模块50，用于通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，所述第一图像特征对应的图像尺寸大于所述第一向量对应的图像尺寸；

第一确定模块52，用于通过所述图像定位模型中的解码器，根据所述第一向量确定第二向量，其中，所述第二向量包括所述目标图像中目标物体对应的第一坐标；

缩放模块54，用于通过所述解码器，根据所述第二向量以及所述第一图像特征对所述目标物体进行缩放，以得到级联特征；

第二确定模块56，用于根据所述级联特征确定所述目标物体对应的第二坐标。

可选地，在本实施例中，所述缩放模块54包括：

确定子模块，用于通过所述解码器中的缩放层，根据所述第一向量、所述第二向量以及所述第一图像特征，确定所述级联特征。

可选地，在本实施例中，所述确定子模块包括：

池化单元，用于通过所述缩放层，根据所述第一图像特征的图像尺寸，对所述第一向量、所述第二向量以及所述第一图像特征进行池化，以得到所述级联特征。

而且，在本发明实施例中，通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，第一图像特征对应的图像尺寸大于第一向量对应的图像尺寸；通过图像定位模型中的解码器，根据第一向量确定第二向量，其中，第二向量包括目标图像中目标物体对应的第一坐标；通过解码器，根据第二向量以及第一图像特征对目标物体进行缩放，以得到级联特征；根据级联特征确定目标物体对应的第二坐标。本实施例中，基于目标物体的第一坐标、第一向量，在图像尺寸较大的第一图像特征中对目标物体进行尺度缩放，提高了目标物体定位的准确度，进而解决了现有技术中无法对图像中的物体进行快速识别定位的问题。

实施例三

图6为实现本发明各个实施例的一种终端设备的硬件结构示意图。

该终端设备600包括但不限于：射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、处理器610、以及电源611等部件。本领域技术人员可以理解，图6中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本发明实施例中，射频单元601可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器610处理；另外，将上行的数据发送给基站。通常，射频单元601包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元601还可以通过无线通信系统与网络和其他设备通信。

终端设备通过网络模块602为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元603可以将射频单元601或网络模块602接收的或者在存储器609中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元603还可以提供与终端设备600执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元603包括扬声器、蜂鸣器以及受话器等。

输入单元604用于接收音频或视频信号。输入单元604可以包括图形处理器(Graphics Processing Unit，GPU)6041和麦克风6042，图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元606上。经图形处理器6041处理后的图像帧可以存储在存储器609(或其它存储介质)中或者经由射频单元601或网络模块602进行发送。麦克风6042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元601发送到移动通信基站的格式输出。

终端设备600还包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板6061的亮度，接近传感器可在终端设备600移动到耳边时，关闭显示面板6061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器605还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元606用于显示由用户输入的信息或提供给用户的信息。显示单元606可包括显示面板6061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板6061。

用户输入单元607可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板6071上或在触控面板6071附近的操作)。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器610，接收处理器610发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板6071。除了触控面板6071，用户输入单元607还可以包括其他输入设备6072。具体地，其他输入设备6072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板6071可覆盖在显示面板6061上，当触控面板6071检测到在其上或附近的触摸操作后，传送给处理器610以确定触摸事件的类型，随后处理器610根据触摸事件的类型在显示面板6061上提供相应的视觉输出。虽然在图6中，触控面板6071与显示面板6061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板6071与显示面板6061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元608为外部装置与终端设备600连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元608可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到终端设备600内的一个或多个元件或者可以用于在终端设备600和外部装置之间传输数据。

存储器609可用于存储软件程序以及各种数据。存储器609可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器609可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器610是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器609内的软件程序和/或模块，以及调用存储在存储器609内的数据，执行终端设备的各种功能和处理数据，从而对终端设备进行整体监控。处理器610可包括一个或多个处理单元；优选的，处理器610可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器610中。

终端设备600还可以包括给各个部件供电的电源611(比如电池)，优选的，电源611可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，终端设备600包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供了一种终端设备，包括：处理器610，存储器609，存储在存储器609上并可在处理器610上运行的计算机程序，该计算机程序被处理器610执行时实现上述目标物体定位方法的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

实施例四

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述目标物体定位方法的实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random AccessMemory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

本领域普通技术人员可以意识到，结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标物体定位方法，其特征在于，所述方法包括：

通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，所述第一图像特征对应的图像尺寸大于所述第一向量对应的图像尺寸；

通过所述图像定位模型中的解码器，根据所述第一向量确定第二向量，其中，所述第二向量包括所述目标图像中目标物体对应的第一坐标；

通过所述解码器，根据所述第二向量以及所述第一图像特征对所述目标物体进行缩放，以得到级联特征；

根据所述级联特征确定所述目标物体对应的第二坐标。

2.根据权利要求1所述的方法，其特征在于，所述编码器包括依次连接的多个卷积层，其中，

通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，包括：

通过所述编码器中的第一卷积层，获取所述第一图像特征，其中，所述第一卷积层为所述多个卷积层中的首个卷积层；

通过所述编码器中的输出卷积层，获取所述第一向量，其中，所述输出卷积层为所述多个卷积层中的末尾卷积层。

3.根据权利要求1所述的方法，其特征在于，根据所述第一向量确定第二向量，包括：

通过所述解码器，对所述第一向量进行卷积，以得到所述第二向量，其中，所述第二向量包括所述第一坐标以及所述第一坐标的置信度。

4.根据权利要求1所述的方法，其特征在于，通过所述解码器，根据所述第二向量以及所述第一图像特征对所述目标物体进行缩放，以得到级联特征，包括：

通过所述解码器中的缩放层，根据所述第一向量、所述第二向量以及所述第一图像特征，确定所述级联特征。

5.根据权利要求4所述的方法，其特征在于，通过所述解码器中的缩放层，根据所述第一向量、所述第二向量以及所述第一图像特征，确定所述级联特征，包括：

通过所述缩放层，根据所述第一图像特征的图像尺寸，对所述第一向量、所述第二向量以及所述第一图像特征进行池化，以得到所述级联特征。

6.一种目标物体定位装置，其特征在于，所述装置包括：

获取模块，用于通过预先训练完成的图像定位模型中的编码器，获取目标图像的第一图像特征以及第一向量，其中，所述第一图像特征对应的图像尺寸大于所述第一向量对应的图像尺寸；

第一确定模块，用于通过所述图像定位模型中的解码器，根据所述第一向量确定第二向量，其中，所述第二向量包括所述目标图像中目标物体对应的第一坐标；

缩放模块，用于通过所述解码器，根据所述第二向量以及所述第一图像特征对所述目标物体进行缩放，以得到级联特征；

第二确定模块，用于根据所述级联特征确定所述目标物体对应的第二坐标。

7.根据权利要求6所述的装置，其特征在于，所述缩放模块包括：

8.根据权利要求7所述的装置，其特征在于，所述确定子模块包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的目标物体定位方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5所述的目标物体定位方法的步骤。