CN116258873A

CN116258873A - 一种位置信息确定方法、对象识别模型的训练方法及装置

Info

Publication number: CN116258873A
Application number: CN202310242370.5A
Authority: CN
Inventors: 王发发
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2023-03-14
Filing date: 2023-03-14
Publication date: 2023-06-13

Abstract

本发明实施例提供了一种位置信息确定方法、对象识别模型的训练方法及装置，应用于图像处理领域，该位置信息确定方法包括：对目标图像进行特征预提取，得到目标图像的第一初始特征图；利用第一初始特征图，识别目标图像中待识别对象所处的区域，作为第一区域；从第一初始特征图中，提取第一区域所对应的第一区域特征图；将第一初始特征图与第一区域特征图进行特征融合，得到融合特征图；基于融合特征图确定所述目标图像中所述待识别对象的位置信息。通过本方案，可以提高确定对象在图像中的位置信息的准确性。

Description

一种位置信息确定方法、对象识别模型的训练方法及装置

技术领域

本发明涉及图像处理技术领域，特别是涉及一种位置信息确定方法、对象识别模型的训练方法及装置。

背景技术

确定图像中对象的位置信息在深度学习领域是一种基础技术，在确定位置信息之后，可以利用位置信息进行对象识别等应用。上述对象可以包括：商标、水印、商品、人物等；对象识别可以是：确定商标的所属商家、水印的类型、商品的类型、人物的身份等。

由于图像获取场景的复杂性，导致图像中待识别对象可能存在多角度、模糊、遮挡、形变等质量问题，导致在图像中待识别对象存在质量问题时，很难准确确定对象在图像中的位置信息。

因此，如何提高确定对象在图像中的位置信息的准确性，是亟待解决的问题。

发明内容

本发明实施例的目的在于提供一种位置信息确定方法、对象识别模型的训练方法及装置，以提高确定对象在图像中的位置信息的准确性。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种位置信息确定方法，所述位置信息确定方法包括：

对目标图像进行特征预提取，得到所述目标图像的第一初始特征图；

利用所述第一初始特征图，识别所述目标图像中待识别对象所处的区域，作为第一区域；

从所述第一初始特征图中，提取所述第一区域所对应的第一区域特征图；

将所述第一初始特征图与所述第一区域特征图进行特征融合，得到融合特征图；

基于所述融合特征图确定所述目标图像中所述待识别对象的位置信息。

可选地，所述利用所述第一初始特征图，识别所述目标图像中待识别对象所处的区域，作为第一区域，包括：

利用预设的第一激活函数处理所述第一初始特征图，得到表征所述目标图像中待识别对象所处的区域，作为第一区域的第一掩膜图像。

可选地，所述基于所述融合特征图确定所述目标图像中所述待识别对象的位置信息，包括：

利用预设的第二激活函数处理所述融合特征图，得到表征所述目标图像中所述待识别对象的位置的第二掩膜图像。

可选地，所述方法还包括：

从所述待识别图像中，提取所述位置信息所指示位置的图像特征，得到目标特征图；

基于所述目标特征图确定所述待识别图像中待识别对象的识别结果。

可选地，所述基于所述目标特征图确定所述待识别图像中待识别对象的识别结果，包括：

确定预先建立的特征数据库中的各库存特征图，与所述目标特征图的特征相似度满足预设条件的目标库存特征图；其中，每一库存特征图为预先针对包含待识别对象的预设图像所提取的特征图；

根据预设的所述特征数据库中的各个库存特征图与对象信息的对应关系，确定与所述目标库存特征对应的对象信息作为所述识别结果。

可选地，所述特征数据库的建立过程包括：

针对多个所述预设图像中的每一所述预设图像进行特征预提取，得到该预设图像的第二初始特征图；

针对每一所述预设图像，利用该预设图像的第二初始特征图确定该预设图像的第二区域，并从所述第二初始特征图中，提取所述第二区域所对应的第二区域特征图，以及利用所述第二初始特征图和所述第二区域特征图，确定该预设图像中待识别对象的位置信息，提取该预设图像中所述位置信息所指示位置的特征，得到所述库存特征图；

针对每一所述预设图像，建立该预设图像对应的库存特征图与针对该预设图像所预设的对象信息的对应关系。

可选地，所述确定预先建立的特征数据库中的各库存特征图，与所述目标特征图的特征相似度满足预设条件的目标库存特征图，包括：

确定预先建立的特征数据库中的各库存特征图中，与所述目标特征图的特征相似度最大的库存特征图为目标库存特征图。

在本发明实施的第二方面，还提供了一种对象识别模型的训练方法，所述对象识别模型被执行时实现上述任一所述的位置信息确定方法的步骤，所述对象识别模型的训练方法包括：

获取样本图像；

将所述样本图像输入待训练的神经网络模型，以使所述待训练的神经网络模型对所述样本图像进行特征预提取，得到所述样本图像的第三初始特征图；利用所述第三初始特征图，识别所述样本图像中待识别对象所处的区域，作为第三区域；从所述第三初始特征图中，提取所述第三区域所对应的第三区域特征图；利用所述第三初始特征图和所述第三区域特征图，预测所述样本图像中待识别对象的位置预测信息；

基于所述位置预测信息与所述样本图像预先标定的对象位置真值确定所述待训练的神经网络模型的模型损失；

基于所得到的模型损失，调整所述待训练的神经网络模型中的模型参数。

可选地，所述基于所述位置预测信息与所述样本图像预先标定的对象位置真值确定所述待训练的神经网络模型的模型损失，包括：

将所述位置预测信息与所述对象位置真值输入预设的第一损失函数中，得到第一损失值；

将表征所述第三区域的区域信息和所述对象位置真值输入预设的第二损失函数中，得到第二损失值；

基于所述第一损失值和所述第二损失值确定所述待训练的神经网络模型的模型损失。

可选地，所述第一损失函数和所述第二损失函数均为交叉熵损失函数。

在本发明实施的第三方面，还提供了一种位置信息确定装置，所述装置包括：

预提取模块，用于对目标图像进行特征预提取，得到所述目标图像的第一初始特征图；

区域识别模块，用于利用所述第一初始特征图，识别所述目标图像中待识别对象所处的区域，作为第一区域；

区域特征图提取模块，用于从所述第一初始特征图中，提取所述第一区域所对应的第一区域特征图；

特征融合模块，用于将所述第一初始特征图与所述第一区域特征图进行特征融合，得到融合特征图；

位置信息确定模块，用于基于所述融合特征图确定所述目标图像中所述待识别对象的位置信息。

在本发明实施的第四方面，还提供了一种对象识别模型的训练装置，所述对象识别模型被执行时实现上述位置信息确定装置的步骤，所述训练装置包括：

获取模块，用于获取样本图像；

输入模块，用于将所述样本图像输入待训练的神经网络模型，以使所述待训练的神经网络模型对所述样本图像进行特征预提取，得到所述样本图像的第三初始特征图；利用所述第三初始特征图，识别所述样本图像中待识别对象所处的区域，作为第三区域；从所述第三初始特征图中，提取所述第三区域所对应的第三区域特征图；利用所述第三初始特征图和所述第三区域特征图，预测所述样本图像中待识别对象的位置预测信息；

损失确定模块，用于基于所述位置预测信息与所述样本图像预先标定的对象位置真值确定所述待训练的神经网络模型的模型损失；

调参模块，用于基于所得到的模型损失，调整所述待训练的神经网络模型中的模型参数。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述的位置信息确定方法或对象识别模型的训练方法。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的位置信息确定方法或对象识别模型的训练方法。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的位置信息确定方法或对象识别模型的训练方法。

本发明实施例提供的位置信息确定方法，对目标图像进行特征预提取，得到目标图像的第一初始特征图；利用第一初始特征图，识别目标图像中待识别对象所处的区域，作为第一区域；从第一初始特征图中，提取第一区域所对应的第一区域特征图；利用第一初始特征图和第一区域特征图，确定目标图像中待识别对象的位置信息；将第一初始特征图与第一区域特征图进行特征融合，得到融合特征图；基于融合特征图确定所述目标图像中所述待识别对象的位置信息。可见，本方案中，利用对目标图像进行特征预提取得到的第一初始特征图确定待识别对象所处的区域，作为第一区域，进而从第一初始特征的第一区域中提取第一区域特征图，能够提取到待识别对象更加精细化的特征信息，从而结合第一初始特征图和该第一区域特征图可以更加准确地确定目标图像中待识别对象的位置信息。因此，通过本方案，可以提高确定对象在图像中的位置信息的准确性。

并且，本发明实施例提供的对象识别模型的训练方法，通过将样本图像输入待训练的神经网络模型，以使待训练的神经网络模型对样本图像进行特征预提取，得到样本图像的第三初始特征图；利用第三初始特征图，识别样本图像中待识别对象所处的区域，作为第三区域；从第三初始特征图中，提取第三区域所对应的第三区域特征图；利用第三初始特征图和第三区域特征图，预测样本图像中待识别对象的位置预测信息；基于位置预测信息与样本图像预先标定的对象位置真值确定待训练的神经网络模型的模型损失；基于所得到的模型损失，调整待训练的神经网络模型中的模型参数。通过本方案训练得到的对象识别模型，能够对目标图像进行特征预提取得到的特征图确定待识别对象所处的区域，进而从该区域中进一步提取区域特征图，能够提取到待识别对象更加精细化的特征信息，并结合特征预提取得到的特征图和进一步提取得到的区域特征图进行位置信息确定，能够更加准确地确定目标图像中待识别对象的位置信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中位置信息确定方法的流程示意图；

图2为本发明实施例中确定第一区域的流程示意图；。

图3为本发明实施例中位置信息确定方法的另一流程示意图；

图4为本发明实施例中位置信息确定方法的又一流程示意图；

图5为本发明实施例中对象识别模型的训练方法的流程示意图；

图6为本发明实施例中确定识别结果的流程示意图；

图7为本发明实施例中位置信息确定装置的结构示意图；

图8为本发明实施例中对象识别模型的训练装置的结构示意图；

图9为本发明实施例中电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

目前，相关技术中，一般通过语义分割模型通过提取图像的特征，进而利用所提取的特征来确定图像中对象的位置信息，然而由于图像获取场景的复杂性，针对存在质量问题的图像，相关技术识别得到的对象的位置信息往往仅是粗略的区域，导致对象在图像中的位置信息不够准确。

为了提高确定对象在图像中的位置信息的准确性，本发明实施例提供了一种位置信息确定方法、对象识别模型的训练方法及装置。在具体应用中，本发明实施例所提供的位置信息确定方法、对象识别模型的训练方法可以应用于各类电子设备中，例如，个人电脑、服务器、手机以及其他具有数据处理能力的设备。并且，本发明实施例所提供的位置信息确定方法、对象识别模型的训练方法可以通过软件、硬件或软硬件结合的方式实现。

下面首先对本发明实施例所提供的位置信息确定方法进行介绍，该方法可以包括：

对目标图像进行特征预提取，得到目标图像的第一初始特征图；

利用第一初始特征图，识别目标图像中待识别对象所处的区域，作为第一区域；

从第一初始特征图中，提取第一区域所对应的第一区域特征图；

将第一初始特征图与第一区域特征图进行特征融合，得到融合特征图；

基于融合特征图确定目标图像中待识别对象的位置信息。

本实施例中，利用对目标图像进行特征预提取得到的第一初始特征图确定待识别对象所处的区域，作为第一区域，进而从第一初始特征的第一区域中提取区域特征图，能够提取到待识别对象更加精细化的特征信息，从而结合第一初始特征图和该第一区域特征图可以更加准确地确定目标图像中待识别对象的位置信息。因此，通过本方案，可以提高确定对象在图像中的位置信息的准确性。

下面结合附图对本发明实施例所提供的位置信息确定方法进行示例性介绍。如图1所示，本发明实施例所提供的位置信息确定方法可以包括以下步骤：

S101，对目标图像进行特征预提取，得到目标图像的第一初始特征图；

上述目标图像可以为需要进行待识别对象的位置信息确定的图像，其可以包含待识别对象，待识别对象可以为商标、水印、商品、人物等。目标图像可以为针对待识别对象进行图像采集所得到的图像，也可以为任意图像，还可以为视频中的一视频帧图像，或者多个视频帧图像。

上述对目标图像进行特征预提取的方式可以为：利用预先训练的神经网络模型进行特征预提取，所提取的特征可以包括图像的颜色特征、纹理特征等。

S102，利用第一初始特征图，识别目标图像中待识别对象所处的区域，作为第一区域；

在得到目标图像的第一初始特征图后，可以基于该第一初始特征图确定待识别对象所处的区域。一种实现方式中，可以利用目标检测算法，或者语义分割模型识别目标图像中待识别对象所处的第一区域。该第一区域可以为多个像素点的坐标位置的集合，其可以通过掩膜图像来表征。

一种实现方式中，可以利用预设的第一激活函数处理第一初始特征图，得到表征目标图像中待识别对象所处的区域，作为第一区域的第一掩膜图像。该预设的第一激活函数可以为sigmoid(S型生长曲线)函数，当得到第一初始特征图，可以利用该第一激活函数将其处理为掩膜图像，得到第一掩膜图像。

一种实现方式中，可以采用U-Net(一种全卷积神经网络的变形网络)模型实现对目标图像进行特征预提取，以及识别目标图像中待识别对象所处的第一区域的过程。如图2所示，U-Net模型是一种编码解码结构；初始输入一张图像，通过编码层的层层编码，得到各个层的编码特征，编码层可以是任意特征提取网络，在编码层的编码阶段可以对输入的图像提取其浅层特征图、中层特征图、深层特征图，解码阶段将经过池化处理后的深层特征图上采样，并与池化处理前的深层特征图concat(通道拼接)到一起，之后再进行上采样与中层特征图concat到一起，以及上采样后与浅层特征图concat到一起，最后经过堆叠的残差模块处理得到第一初始特征图，在编解码阶段还可以引入transformer(一种注意力机制)结构，来增加网络的特征编解码能力。再将所得到的第一初始特征图经过一个1×1卷积核进行卷积处理，及激活函数处理，如(sigmoid函数)，可以得到指示待识别对象所处的第一区域的掩膜图像。

S103，从第一初始特征图中，提取第一区域所对应的第一区域特征图；

本步骤中，在确定第一区域后，可以提取第一初始特征图中的第一区域所指示的特征。一种实现方式中，可以根据第一区域对第一初始特征图进行裁切，得到仅包含第一区域的第一初始特征图，进而将裁切后的第一初始特征图作为第一区域特征图。

另一实现方式中，由于掩膜图像中的每一像素点的值为0或1，为1的像素点表示该像素点为第一区域，为0的像素点表示该像素点不是第一区域，因此，可以将表征第一区域的掩膜图像与第一初始特征图点乘，从而得到第一区域所对应的第一区域特征图。

可见，通过先确定待识别对象区域，该区域可以视作粗略的区域，再提取该粗略的区域的特征图，可以得到更加精细化的特征图，并且，所提取的第一区域对应的第一区域特征图还可以和第一初始特征进行融合，从而抑制图像背景的干扰，得到更加精细化的特征，达到增强特征的表征能力的目的。

S104，将第一初始特征图与第一区域特征图进行特征融合，得到融合特征图；

本步骤中，在确定第一区域特征图后，可以结合第一初始特征图第一区域特征图确定目标图像中待识别对象的位置信息。即可以将第一初始特征图与第一区域特征图进行特征融合，得到融合特征图，进而基于融合特征图确定目标图像中待识别对象的位置信息。

上述特征融合的过程可以为：采用concat的方式对第一区域特征图和第一初始特征图进行融合，当然也可以不限于此。通过将所得到的第一区域特征图与第一初始特征图进行特征融合得到融合特征图，能够使得融合特征在包含精细化的特征信息的同时还具有信息的完整性。

S105，基于融合特征图确定目标图像中待识别对象的位置信息。

一种实现方式中，确定目标图像中待识别对象的位置信息的方式可以为：将所得到的融合特征图输入语义分割模型中，得到目标图像中待识别对象的位置信息。

另一实现方式中，可以利用预设的第二激活函数处理融合特征图，得到表征目标图像中待识别对象的位置的第二掩膜图像。

其中，该第二激活函数也可以为sigmoid函数。在利用第二激活函数处理融合特征图之前，还可以利用一个卷积核，例如1×1卷积核对融合特征图进行卷积处理，以进一步地提取特征。

在具体应用过程中，还可以先将第一初始特征图进行池化处理，再将池化处理后的第一初始特征图上采样至与第一区域特征图相同的尺寸，进而和第一区域特征图进行concat得到融合特征图，最后经过一个1×1卷积核进行卷积处理，及激活函数处理，得到指示目标图像中待识别对象所处准确位置的掩膜图像，该掩膜图像可以作为目标图像中待识别对象的位置信息。

可选地，在本发明的另一实施例中，如图3所示，本发明实施例所提供的位置信息确定方法可以包括以下步骤：

S301，对目标图像进行特征预提取，得到目标图像的第一初始特征图；

S302，利用第一初始特征图，识别目标图像中待识别对象所处的区域，作为第一区域；

S303，从第一初始特征图中，提取第一区域所对应的第一区域特征图；

S304，将第一初始特征图与第一区域特征图进行特征融合，得到融合特征图；

S305，基于融合特征图确定目标图像中待识别对象的位置信息；

以上步骤S301-S305与步骤S101-S105类似，在此不再赘述。

S306，从待识别图像中，提取位置信息所指示位置的图像特征，得到目标特征图；

本步骤中，可以先按照该位置信息将待识别图像中的待识别对象的区域分割出来，例如，可以对待识别图像进行裁切，或者利用指示待识别对象的位置信息的掩码图像对待识别图像进行处理。进而，可以利用预设的神经网络模型提取位置信息所指示位置处的特征，得到目标特征图。

S307，基于目标特征图确定待识别图像中待识别对象的识别结果。

其中，待识别对象的识别结果可以为该待识别对象的类型，例如，待识别对象为商标时，待识别对象的识别结果可以为商标的类型，在一种实现方式中，可以利用预先训练的分类模型对目标特征图进行处理，得到待识别图像中待识别对象的识别结果。

在另一实现方式中，还可以预先建立特征数据库，该特征数据库中可以存储多种类型的待识别对象的特征图，以及对应的对象信息，从而在基于目标特征图确定待识别图像中待识别对象的识别结果时，可以确定预先建立的特征数据库中的各库存特征图，与目标特征图的特征相似度满足预设条件的目标库存特征图，例如，可以确定预先建立的特征数据库中的各库存特征图中，与目标特征图的特征相似度最大的库存特征图为目标库存特征图，其中，每一库存特征图为预先针对包含待识别对象的预设图像所提取的特征图，计算特征相似度的方式可以为计算欧式距离，余弦距离等，进而根据预设的特征数据库中的各个库存特征图与对象信息的对应关系，确定与目标库存特征图对应的对象信息作为识别结果。此外，还可以将与各个库存特征图的相似度计算结果作为识别结果。

上述预设图像可以为包含待识别对象的图像，例如，包含商标的图像，且每一预设图像中包含至少一种类型的待识别图像。

在一种实现方式中，上述特征数据库的建立可以包括如下步骤：

步骤A1，针对多个预设图像中的每一预设图像进行特征预提取，得到该预设图像的第二初始特征图；

步骤A2，针对每一预设图像，利用该预设图像的第二初始特征图确定该预设图像中待识别对象所处的区域，作为第二区域，并从第二初始特征图中，提取第二区域所对应的第二区域特征图，以及利用第二初始特征图和第二区域特征图，确定该预设图像中待识别对象的位置信息，提取该预设图像中位置信息所指示位置的特征，得到库存特征图；

上述步骤A1-A2的过程可以与上述步骤S301-S306类似。

步骤A3，针对每一预设图像，建立该预设图像对应的库存特征图与针对该预设图像所预设的对象信息的对应关系。

在提取每一预设图像中位置信息所指示位置的特征得到各个库存特征图，可以针对每一预设图像，建立该预设图像对应的库存特征图与针对该预设图像所预设的对象信息的对应关系。其中，预设的对象信息可以为该待识别对象的类型，或者还可以包含其他描述信息，例如与该待识别对象关联的网络地址信息。示例性的，当待识别对象为商标时，对象信息可以为商标的类型，以及对该商标所属商家的介绍等信息。

在本实现方式中，通过建立特征数据库可以实现主动式的待识别对象的检测，能够提高识别的速度，同时，随着待识别对象类别的增加，也不需要重新训练模型，只需要将待识别对象的特征图存入该特征数据库中，就可以实现方便快捷的检索识别。

本实施例中，可以提高确定对象在图像中的位置信息确定的准确性。进一步的，由于所确定的位置信息更加准确，进而从待识别图像中，提取位置信息所指示位置的特征，得到目标特征图，并基于目标特征图确定待识别图像中待识别对象的识别结果，能够提高确定待识别图像中待识别对象的识别结果的准确性。

可选地，在本发明的另一实施例中，还提供了一种对象识别模型的训练方法，上述位置信息确定方法可以应用于该对象识别模型中。一种实现方式中，训练完成的对象识别模型可以部署于电子设备中，从而利用该训练完成的对象识别模型来执行上述位置信息确定方法的各个步骤。如图4所示，该对象识别模型的训练方法可以包括：

S401，获取样本图像；

其中，样本图像可以为包含待识别对象的图像，其也可以为视频中的图像帧，还可以为预先创建的样本集中的图像。每一次所获取的样本图像的数量可以根据需求确定，例如每次可以获取单张，也可以获取多张。

S402，将样本图像输入待训练的神经网络模型，以使待训练的神经网络模型对样本图像进行特征预提取，得到样本图像的第三初始特征图；利用第三初始特征图，识别样本图像中待识别对象所处的区域，作为第三区域；从第三初始特征图中，提取第三区域所对应的第三区域特征图；利用第三初始特征图和第三区域特征图，预测样本图像中待识别对象的位置预测信息；

该步骤中，待训练的神经网络模型对样本图像的处理过程与上述步骤S101-S104类似，在此不再赘述。

S403，基于位置预测信息与样本图像预先标定的对象位置真值确定待训练的神经网络模型的模型损失；

本步骤中，可以将位置预测信息和对象位置真值输入预设的损失函数中，从而计算该待训练的神经网络模型的模型损失。其中，对象位置真值可以是由人工预先针对样本图像中的待识别对象的所在位置所设定的位置信息，也可以是通过预先训练的语义分割模型针对样本图像进行处理所得到的位置信息。

在本发明实施例中，还可以将位置预测信息与对象位置真值输入预设的第一损失函数中，得到第一损失值，以及将表征第三区域的区域信息和对象位置真值输入预设的第二损失函数中，得到第二损失值，从而基于第一损失值和第二损失值确定待训练的神经网络模型的模型损失，例如可以将第一损失值和第二损失值相加，得到最终的模型损失。

上述第一损失函数和第二损失函数均可以为交叉熵损失函数，在位置预测信息、表征第三区域的区域信息和对象位置真值均用掩膜图像表征的情况下，模型损失的计算过程可以用公式表示如下：

Loss1＝-∑_ij(M_ijlogM”_ij+(1-M_ij)log(1-M”_ij))

Loss2＝-∑_ij(M_ijlogM’_ij+(1-M_ij)log(1-M’_ij))

Loss＝Loss1+Loss2

其中，Loss1为第一损失值，Loss2为第二损失值，M_ij为表征对象位置真值的掩膜图像中第i行、第j列的值；M’_ij为表征第三区域的掩膜图像中第i行、第j列的值；M”_ij为表征位置预测信息的掩膜图像中第i行、第j列的值；Loss为模型损失。

S404，基于所得到的模型损失，调整待训练的神经网络模型中的模型参数。

本步骤中，可以采用梯度下降法调整模型参数，并且在训练模型时，可以多次执行获取样本图像的步骤，以采用上述方法调整待训练的神经网络模型中的模型参数，直至该神经网络模型收敛，得到训练完成的对象识别模型。

本实施例中，通过将样本图像输入待训练的神经网络模型，以使待训练的神经网络模型对样本图像进行特征预提取，得到样本图像的第三初始特征图；利用第三初始特征图，识别样本图像中待识别对象所处的区域，作为第三区域；从第三初始特征图中，提取第三区域所对应的第三区域特征图；利用第三初始特征图和第三区域特征图，预测样本图像中待识别对象的位置预测信息；基于位置预测信息与样本图像预先标定的对象位置真值确定待训练的神经网络模型的模型损失；基于所得到的模型损失，调整待训练的神经网络模型中的模型参数。通过本方案训练得到的对象识别模型，能够对目标图像进行特征预提取得到的特征图确定待识别对象所处的区域，进而从该区域中进一步提取区域特征图，能够提取到待识别对象更加精细化的特征信息，并结合特征预提取得到的特征图和进一步提取得到的区域特征图进行位置信息确定，能够更加准确地确定目标图像中待识别对象的位置信息。

为了便于理解，下面结合附图对本发明所提供的对象识别模型的训练方法进行示例性介绍。

如图5所示，在训练过程中对样本图像进行特征预提取的过程也可以利用上述U-Net模型实现，即输入样本图像，在编码层的编码阶段可以对输入的样本图像提取其浅层特征图、中层特征图、深层特征图，解码阶段将经过池化处理后的深层特征图上采样，并与池化处理前的深层特征图concat(通道拼接)到一起，之后再进行上采样与中层特征图concat到一起，以及上采样后与浅层特征图concat到一起，最后经过堆叠的残差模块处理得到第三初始特征图Xm，再将所得到的第三初始特征图经过一个1×1卷积核进行卷积处理，及激活函数处理，如(sigmoid函数)，可以得到指示待识别对象所处的区域，即第三区域的掩膜图像M’；将M’应用于Xm，即将M’与Xm点乘后，经过池化层的池化处理，可以得到第三区域特征图Ym，之后将Ym与Xm concat到一起后，再通过一个1×1卷积核进行卷积处理，及激活函数处理，得到指示样本图像中待识别图像细化的位置信息的掩膜图像M”；进而，利用M”与表征对象位置真值的掩膜图像M计算交叉熵损失函数得到第一损失值Loss1，以及利用M’与M计算第二损失值Loss2，将Loss1与Loss2相加得到总的模型损失Loss用于模型训练特征返传。

本发明实施例中利用特征数据库确定待识别图像中待识别对象的识别结果的方式可以如图6所示：

首先，输入预设图像，对预设图像按照上述步骤S501-S505所介绍的方式进行特征提取，作为库存特征图存入该特征数据库。当需要待识别图像进行识别时，也可以输入待识别图像，并按照上述步骤S501-S505所介绍的方式进行特征提取，得到目标特征图，进而计算目标特征图与各个库存特征图的欧式距离，从而确定目标库存特征图，得到目标库存特征图对应的对象信息作为识别结果。

本实施例中，利用对目标图像进行特征预提取得到的第一初始特征图确定待识别对象所处的第一区域，进而从第一初始特征的第一区域中提取区域特征图，能够提取到待识别对象更加精细化的特征信息，从而结合第一初始特征图和该第一区域特征图可以更加准确地确定目标图像中待识别对象的位置信息。因此，通过本方案，可以提高确定对象在图像中的位置信息的准确性。

本发明实施例还提供了一种位置信息确定装置，如图7所示，该装置包括：

预提取模块701，用于对目标图像进行特征预提取，得到所述目标图像的第一初始特征图；

区域识别模块702，用于利用所述第一初始特征图，识别所述目标图像中待识别对象所处的第一区域；

区域特征图提取模块703，用于从所述第一初始特征图中，提取所述第一区域所对应的第一区域特征图；

特征融合模块704，用于将第一初始特征图与第一区域特征图进行特征融合，得到融合特征图；

位置信息确定模块705，用于基于融合特征图确定目标图像中待识别对象的位置信息。

可选地，区域识别模块，具体用于利用预设的第一激活函数处理第一初始特征图，得到表征目标图像中待识别对象所处的区域，作为第一区域的第一掩膜图像。

可选地，位置信息确定模块，具体用于利用预设的第二激活函数处理融合特征图，得到表征目标图像中待识别对象的位置的第二掩膜图像。

可选地，装置还包括：

目标特征图提取模块，用于从待识别图像中，提取位置信息所指示位置的图像特征，得到目标特征图；

识别结果确定模块，用于基于目标特征图确定待识别图像中待识别对象的识别结果。

可选地，识别结果确定模块，包括：

匹配子模块，用于确定预先建立的特征数据库中的各库存特征图，与目标特征图的特征相似度满足预设条件的目标库存特征图；其中，每一库存特征图为预先针对包含待识别对象的预设图像所提取的特征图；

识别结果确定子模块，用于根据预设的特征数据库中的各个库存特征图与对象信息的对应关系，确定与目标库存特征对应的对象信息作为识别结果。

可选地，特征数据库的建立过程包括：

针对多个预设图像中的每一预设图像进行特征预提取，得到该预设图像的第二初始特征图；针对每一预设图像，利用该预设图像的第二初始特征图确定该预设图像中待识别对象所处的区域，作为第二区域，并从第二初始特征图中，提取第二区域所对应的第二区域特征图，以及利用第二初始特征图和第二区域特征图，确定该预设图像中待识别对象的位置信息，提取该预设图像中位置信息所指示位置的特征，得到库存特征图；针对每一预设图像，建立该预设图像对应的库存特征与针对该预设图像所预设的对象信息的对应关系。

可选地，匹配子模块具体用于：

确定预先建立的特征数据库中的各库存特征图中，与目标特征图的特征相似度最大的库存特征图为目标库存特征图。

本发明实施还提供了一种对象识别模型的训练装置，该如图8所示，该对象识别模型被执行时实现上述位置信息确定装置的步骤，该训练装置包括：

获取模块801，用于获取样本图像；

输入模块802，用于将所述样本图像输入待训练的神经网络模型，以使所述待训练的神经网络模型对所述样本图像进行特征预提取，得到所述样本图像的第三初始特征图；利用所述第三初始特征图，识别所述样本图像中待识别对象所处的区域，作为第三区域；从所述第三初始特征图中，提取所述第三区域所对应的第三区域特征图；利用所述第三初始特征图和所述第三区域特征图，预测所述样本图像中待识别对象的位置预测信息；

损失确定模块803，用于基于所述位置预测信息与所述样本图像预先标定的对象位置真值确定所述待训练的神经网络模型的模型损失；

调参模块804，用于基于所得到的模型损失，调整所述待训练的神经网络模型中的模型参数。

可选地，所述损失确定模块，包括：

第一输入子模块，用于将所述位置预测信息与所述对象位置真值输入预设的第一损失函数中，得到第一损失值；

第二输入子模块，用于将表征所述第三区域的区域信息和所述对象位置真值输入预设的第二损失函数中，得到第二损失值；

损失确定子模块，用于基于所述第一损失值和所述第二损失值确定所述待训练的神经网络模型的模型损失。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现上述位置信息确定方法的步骤。

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的位置信息确定方法或对象识别模型的训练方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的位置信息确定方法或对象识别模型的训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种位置信息确定方法，其特征在于，所述位置信息确定方法包括：

2.根据权利要求1所述的方法，其特征在于，所述利用所述第一初始特征图，识别所述目标图像中待识别对象所处的区域，作为第一区域，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征图确定所述目标图像中所述待识别对象的位置信息，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标特征图确定所述待识别图像中待识别对象的识别结果，包括：

6.根据权利要求5所述的方法，其特征在于，所述特征数据库的建立过程包括：

针对每一所述预设图像，利用该预设图像的第二初始特征图确定该预设图像中待识别对象所处的区域，作为第二区域，并从所述第二初始特征图中，提取所述第二区域所对应的第二区域特征图，以及利用所述第二初始特征图和所述第二区域特征图，确定该预设图像中待识别对象的位置信息，提取该预设图像中所述位置信息所指示位置的特征，得到所述库存特征图；

7.根据权利要求5所述的方法，其特征在于，所述确定预先建立的特征数据库中的各库存特征图，与所述目标特征图的特征相似度满足预设条件的目标库存特征图，包括：

8.一种对象识别模型的训练方法，其特征在于，所述对象识别模型被执行时实现权利要求1-7任一所述的方法步骤，所述对象识别模型的训练方法包括：

获取样本图像；

将所述样本图像输入待训练的神经网络模型，以使所述待训练的神经网络模型对所述样本图像进行特征预提取，得到所述样本图像的第三初始特征图；利用所述第三初始特征图，识别所述样本图像中待识别对象所处的第三区域；从所述第三初始特征图中，提取所述第三区域所对应的第三区域特征图；利用所述第三初始特征图和所述第三区域特征图，预测所述样本图像中待识别对象的位置预测信息；

9.根据权利要求8所述的方法，其特征在于，所述基于所述位置预测信息与所述样本图像预先标定的对象位置真值确定所述待训练的神经网络模型的模型损失，包括：

10.根据权利要求9所述的方法，其特征在于，所述第一损失函数和所述第二损失函数均为交叉熵损失函数。

11.一种位置信息确定装置，其特征在于，所述位置信息确定装置包括：

区域识别模块，用于利用所述第一初始特征图，识别所述目标图像中待识别对象所处的第一区域；

12.一种对象识别模型的训练装置，其特征在于，所述对象识别模型被执行时实现权利要求11所述的装置步骤，所述训练装置包括：

获取模块，用于获取样本图像；

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7或8-10任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7或8-10任一所述的方法步骤。