CN110110787A

CN110110787A - 目标的位置获取方法、装置、计算机设备及存储介质

Info

Publication number: CN110110787A
Application number: CN201910371250.9A
Authority: CN
Inventors: 王宁; 宋奕兵; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-06
Filing date: 2019-05-06
Publication date: 2019-08-09
Also published as: US20210343041A1; EP3968223A1; JP7154678B2; EP3968223A4; WO2020224479A1; JP2022518745A; KR20210111833A

Abstract

本发明公开了一种目标的位置获取方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：获取多帧图像；调用位置获取模型，位置获取模型的模型参数基于目标在多帧样本图像中第一样本图像中的真实位置以及目标在第一样本图像中的预测位置训练得到；将多帧图像输入位置获取模型中，由位置获取模型基于模型参数以及目标在第一图像中的位置，对第二图像进行处理，输出目标在第二图像中的位置。本发明通过训练得到的位置获取模型对多帧图像进行处理，以获取目标在多帧图像中的位置，位置获取模型可以通过前向和反向过程，对初始模型进行训练，无需相关技术人员进行人工标注，减少了人工成本，提高了整个目标的位置获取过程的效率。

Description

目标的位置获取方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种目标的位置获取方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，人们通常可以对图像进行处理，得到各种各样的分析结果。例如，可以对多帧图像进行处理，根据一帧图像中确定的目标，对该多帧图像进行处理，获取该目标在其他图像中的位置，以实现对该目标的跟踪。

目前，目标的位置获取方法通常是在一帧图像中给定目标，基于目标跟踪算法对多帧图像进行处理，获取该目标在多帧图像中的位置。目标跟踪算法基于全监督式训练得到，需要在每帧样本图像中标注目标的真实位置，目标跟踪算法对每帧样本图像进行计算，确定目标的预测位置，再基于该目标的预测位置以及标注的目标的真实位置，对目标跟踪算法进行训练。

上述目标的位置获取方法中每帧样本图像均需要人工标注目标的真实位置，人工成本高，对图像处理过程繁琐，因而，上述目标的位置获取方法效率低。

发明内容

本发明实施例提供了一种目标的位置获取方法、装置、计算机设备及存储介质，可以解决相关技术中人工成本高、处理过程繁琐和效率低的问题。所述技术方案如下：

一方面，提供了一种目标的位置获取方法，所述方法包括：

获取多帧图像，所述多帧图像中的第一图像包括待检测的目标，所述第一图像为所述多帧图像中的任一帧图像；

调用位置获取模型，所述位置获取模型的模型参数基于目标在多帧样本图像中第一样本图像中的真实位置以及所述目标在所述第一样本图像中的预测位置训练得到，所述目标在所述第一样本图像中的预测位置基于所述目标在所述多帧样本图像中第二样本图像中的预测位置获取得到；

将所述多帧图像输入所述位置获取模型中，由所述位置获取模型基于所述模型参数以及所述目标在所述第一图像中的位置，对第二图像进行处理，输出所述目标在所述第二图像中的位置，所述第二图像为所述多帧图像中区别于所述第一图像的其它图像。

一方面，提供了一种目标的位置获取方法，所述方法包括：

获取多帧样本图像；

调用初始模型，将所述多帧样本图像输入所述初始模型中，由所述初始模型基于目标在多帧样本图像中第一样本图像中的真实位置，获取所述目标在第二样本图像中的预测位置，基于所述目标在第二样本图像中的预测位置，获取所述目标在所述第一样本图像中的预测位置，基于所述目标在第一样本图像中的真实位置和预测位置，对所述初始模型的模型参数进行调整，得到位置获取模型；

当获取到多帧图像时，调用所述位置获取模型，将所述多帧图像输入所述位置获取模型中，输出所述目标在所述多帧图像中的位置。

一方面，提供了一种目标的位置获取装置，所述装置包括：

图像获取模块，用于获取多帧图像，所述多帧图像中的第一图像包括待检测的目标，所述第一图像为所述多帧图像中的任一帧图像；

模型调用模块，用于调用位置获取模型，所述位置获取模型的模型参数基于目标在多帧样本图像中第一样本图像中的真实位置以及所述目标在所述第一样本图像中的预测位置训练得到，所述目标在所述第一样本图像中的预测位置基于所述目标在所述多帧样本图像中第二样本图像中的预测位置获取得到；

位置获取模块，用于将所述多帧图像输入所述位置获取模型中，由所述位置获取模型基于所述模型参数以及所述目标在所述第一图像中的位置，对第二图像进行处理，输出所述目标在所述第二图像中的位置，所述第二图像为所述多帧图像中区别于所述第一图像的其它图像。

一方面，提供了一种目标的位置获取装置，所述装置包括：

图像获取模块，用于获取多帧样本图像；

模型训练模块，用于调用初始模型，将所述多帧样本图像输入所述初始模型中，由所述初始模型基于目标在多帧样本图像中第一样本图像中的真实位置，获取所述目标在第二样本图像中的预测位置，基于所述目标在第二样本图像中的预测位置，获取所述目标在所述第一样本图像中的预测位置，基于所述目标在第一样本图像中的真实位置和预测位置，对所述初始模型的模型参数进行调整，得到位置获取模型；

位置获取模块，用于当获取到多帧图像时，调用所述位置获取模型，将所述多帧图像输入所述位置获取模型中，输出所述目标在所述多帧图像中的位置。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现所述目标的位置获取方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述目标的位置获取方法所执行的操作。

本发明实施例通过训练得到的位置获取模型对多帧图像进行处理，以获取目标在多帧图像中的位置，该位置获取模型可以通过前向和反向过程，利用该目标在第一样本图像中的真实位置和预测位置，对初始模型进行训练，无需相关技术人员进行人工标注，可以有效减少人工成本，提高模型训练的效率，对图像的处理过程简单，有效提高了整个目标的位置获取过程的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种目标的位置获取方法的实施环境；

图2是本发明实施例提供的一种位置获取模型训练方法的流程图；

图3是本发明实施例提供的一种多帧样本图像的获取过程示意图；

图4是本发明实施例提供的一种多帧样本图像的获取过程示意图

图5是本发明实施例提供的一种样本图像的示意图；

图6是本发明实施例提供的一种样本图像集合的示意图；

图7是本发明实施例提供的一种目标的位置获取方法的流程图；

图8是本发明实施例提供的一种目标的位置获取方法的流程图；

图9是本发明实施例提供的一种目标的位置获取装置的结构示意图；

图10是本发明实施例提供的一种目标的位置获取装置的结构示意图；

图11是本发明实施例提供的一种终端的结构示意图；

图12是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种目标的位置获取方法的实施环境，参见图1，该实施环境中可以包括至少一个计算机设备，其中，该多个计算机设备可以通过有线连接方式实现数据交互，也可以通过网络连接方式实现数据交互，本发明实施例对此不作限定。

在一种可能实现方式中，该至少一个计算机设备可以包括计算机设备101和计算机设备102，其中，计算机设备101可以用于对多帧图像进行处理，获取目标在该多帧图像中的位置。计算机设备102可以用于采集多帧图像，或者拍摄视频，并将采集到的图像或视频发送至计算机设备101，由计算机设备101对图像或视频进行处理，对目标进行跟踪。

在另一种可能实现方式中，该至少一个计算机设备可以仅包括计算机设备101，该计算机设备可以采集多帧图像，或拍摄视频等，从而进一步对采集到的多帧图像，或对拍摄的视频进行图像提取等处理后得到的多帧图像，又或者对下载得到的多帧图像，又或者对下载得到的视频进行图像提取等处理后得到的多帧图像进行处理，以确定目标在该多帧图像中的位置，实现目标跟踪。本发明实施例对目标的位置获取方法的应用场景不作限定。

需要说明的是，该目标的位置获取方法可以应用于各种目标跟踪的场景中，例如，对图像或视频中的场景进行分析，又例如，通过监控设备对目标进行跟踪，再例如，人机交互场景。当然，本发明实施例提供的目标的位置获取方法并不限定于这些场景，还有其他场景，在此不一一列举。

该计算机设备101和计算机设备102均可以被提供为终端，也可以被提供为服务器，本发明实施例对此不作限定。

图2是本发明实施例提供的一种位置获取模型训练方法的流程图，该位置获取模型训练方法可以应用于计算机设备，该计算机设备可以被提供为终端，也可以被提供为服务器，本发明实施例对此不作限定。参见图2，该方法可以包括以下步骤：

201、计算机设备获取多帧样本图像。

在本发明实施例中，计算机设备可以获取样本图像，并基于样本图像对初始模型进行训练，得到位置获取模型，该位置获取模型可以基于其中一帧图像中确定的目标，对该多帧图像进行处理，获取该目标在该多帧图像中各帧图像中的位置。

计算机设备可以获取多帧样本图像，将该多帧样本图像作为训练样本，对初始模型进行训练。在本发明实施例中，该多帧样本图像可以无需由相关技术人员人工标注目标，计算机设备可以直接对该多帧样本图像进行处理，对初始模型进行训练，从而实现无监督学习的过程，减少人工成本，提高模型训练的效率。

在一种可能实现方式中，该多帧样本图像包括多个样本图像集合，每个样本图像集合包括一帧第一样本图像和至少一帧第二样本图像，该第二样本图像为该第一样本图像之外的样本图像。

例如，该第一样本图像可以作为目标模板，该目标模板也即是用于确定待检测的目标的图像，第二样本图像可以作为搜索图像，该搜索图像是指可以搜索目标的位置的图像，也即是，可以基于目标模板中选取的目标来获取该目标在该搜索图像中的位置。在该实现方式中，每个样本图像集合为一个训练样本集合，每个样本图像集合中的多帧样本图像(一帧第一样本图像和至少一帧第二样本图像)中包括同一目标，计算机设备可以对该目标进行跟踪，获取该目标在各帧样本图像中的位置。

例如，每个样本图像集合可以包括一帧第一样本图像和两帧第二样本图像，比如，可以从一个视频文件的相邻10帧中选取三帧，其中一帧作为该第一样本图像，另外两帧作为第二样本图像。也即是，我们假设目标在该10帧的较短时间内不会移动出一定的区域。获取多帧第二样本图像，可以避免基于一帧第一样本图像和一帧第二样本图像进行处理时，碰巧得到的结果的误差值很高，但其实其处理过程中的中间数据是错误的，这样通过增加训练样本的方式可以减少这种偶然的情况，也可以扩大错误累积，从而对其进行纠正，这样可以提高位置获取模型的稳定性和误差值。

该计算机设备获取该多帧样本图像的过程可以包括多种方式，一方面，该多帧样本图像可以存储于该计算机设备，可以存储于其他计算机设备，该计算机设备可以从本地存储文件中获取该多帧样本图像，也可以向其他计算机设备发送图像获取请求，该其他计算机设备基于该图像获取请求向该计算机设备发送该多帧样本图像，从而该计算机设备获取到该多帧样本图像，本发明实施例对此不作限定。

另一方面，计算机设备可以直接获取多帧样本图像，也可以从视频文件中提取该多帧样本图像。具体地，该多帧样本图像可以存储于图像数据库中，该计算机设备可以从图像数据库中获取该多帧样本图像。该多帧样本图像所在的视频文件可以存储于视频数据库中，计算机设备可以视频数据库中获取至少一个视频文件，从而从至少一个视频文件中提取该多帧样本图像。本发明实施例对此不作限定。例如，在一个具体示例中，该多帧样本图像可以来源于ILSVRC 2015，ILSVRC 2015为一个用于视觉识别的数据集。该计算机设备还可以从网络上下载视频文件，从而进行图像提取，也正是由于本发明的样本图像无需携带标签数据，无需进行人工标注，因而，该多帧样本图像的获取非常便利，本发明实施例对具体采用哪种方式不作限定。

在一个具体的可能实施例中，该多帧样本图像还可以为提取或获取到的图像的裁剪图像，计算机设备可以通过上述方式提取或获取到多帧图像后，可以对该多帧图像进行裁剪，从而得到该多帧样本图像。具体地，计算机设备进行裁剪时，可以以多帧图像的中心为准，从该多帧图像中对以该中心为中心点的目标区域进行裁剪，得到该多帧样本图像。

例如，如图3所示，以该多帧样本图像包括多个样本图像集合，每个样本图像集合包括三帧样本图像为例，计算机设备可以从无标注的视频的图像序列中提取三帧图像，并对该三帧图像的中心区域进行裁剪，得到三帧样本图像，该三帧样本图像中可以包括模板和搜索图像块，其中，该模板即是指第一样本图像，搜索图像块即是指搜索图像，也即是第二样本图像。该图3中仅示出了获取一个样本图像集合的过程，计算机设备可以通过同理的方式获取得到大量样本图像，从而对初始模型进行训练。其中上述样本图像获取过程为基于一种基本假设实现的，该基本假设为：目标在一个较短时间内(10帧内)不会运动出一定的区域(图像的中心区域)。理想情况下，在图像的中心区域可以有完整的目标，但是很多时候中心区域可能包括局部目标，甚至是目标轮廓、背景物体等。图4示出了一些随机采集的训练数据，这种情况在后续图像处理过程还有相关设计，在此先不作过多赘述。

202、计算机设备调用初始模型，将该多帧样本图像输入该初始模型中，由该初始模型随机选取该多帧样本图像中的第一样本图像中目标区域作为待检测的目标。

计算机设备获取到多帧样本图像后，即可调用初始模型，基于该多帧样本图像，对初始模型进行训练。需要说明的是，该初始模型的模型参数为初始值，该初始模型可以基于模型参数对该多帧样本图像进行处理，对目标在该多帧样本图像中的位置进行预测，可能得到的预测结果并不准确，因而，计算机设备在该训练过程中可以对该初始模型的模型参数进行调整，以提高初始模型对图像进行处理的误差值，最终训练得到的位置获取模型则可以对图像进行误差值高的处理。

具体地，计算机设备可以执行该步骤202，将多帧样本图像输入初始模型中，由于该多帧样本图像并未经过人工标注，该多帧样本图像不包括给定的待检测的目标，则初始模型可以从第一样本图像中随机选取目标区域作为待检测的目标，进而对于该选定的目标继续获取其在第二样本图像中的位置，进行后续训练过程。

需要说明的是，该计算机设备随机选取目标区域的过程可以基于随机算法实现，该随机算法可以由相关技术人员根据需求进行设置，本发明实施例对此不作限定。

203、计算机设备中的初始模型基于该目标在该第一样本图像中的真实位置、该第一样本图像和第二样本图像，获取该目标在该第二样本图像中的预测位置。

计算机设备在第一样本图像中确定待检测的目标后，可以基于该选定的目标继续获取其在第二样本图像中的位置。可以理解地，计算机设备在第一样本图像中确定该目标，该目标在第一样本图像中的位置即为真实位置，因而，计算机设备可以将其作为一种真实数据来判定后续的预测数据的误差值，详见下述步骤203至步骤205，本发明实施例在此先不作过多赘述。

具体地，计算机设备中的初始模型可以基于该目标在第一样本图像中的真实位置，对该第一样本图像和第二样本图像进行处理，获取该目标在该第二样本图像中的预测位置。例如，该预测过程可以为一个前向过程，计算机设备可以在基于该目标在第一样本图像中的真实位置，来预测目标在第二样本图像中的位置，以实现目标跟踪过程。在一种可能实现方式中，该预测过程可以通过下述步骤一和步骤二实现：

步骤一、计算机设备中的初始模型基于该目标在该第一样本图像中的真实位置以及该第一样本图像，获取第一图像处理参数。

在该步骤一中，计算机设备中的初始模型在已知处理前的数据以及处理结果的情况下，可以确定第一图像处理参数，该第一图像处理参数用于表示如何对第一样本图像进行处理，以得到该目标在该第一样本图像中的真实位置。这样得到的该第一图像处理参数即可用于对第二样本图像进行同理的处理，从而得到目标在第二样本图像的预测位置。

在一种可能实现方式中，计算机设备中的初始模型可以先提取第一样本图像的图像特征，再对图像特征进行处理。具体地，该步骤一中，计算机设备中的初始模型可以基于该初始模型的模型参数，对该第一样本图像进行特征提取，得到该第一样本图像的图像特征。计算机设备中的初始模型基于该第一样本图像的图像特征和该目标在该第一样本图像中的真实位置，获取第一图像处理参数。其中，计算机设备中的初始模型基于第一图像处理参数对第一样本图像的图像特征进行处理，应该得到的结果为该目标在第一样本图像中的真实位置，因而，该第一图像处理参数可以用于表示如何对第一样本图像的图像特征进行处理，以得到该目标在该第一样本图像中的真实位置。

步骤二、计算机设备中的初始模型基于该第一图像处理参数，对第二样本图像进行处理，得到该目标在该第二样本图像中的预测位置。

在该步骤二中，计算机设备中的初始模型在确定了第一图像处理参数后，即获知如何对样本图像进行处理，因而可以对第二样本图像进行同理的处理，来预测目标在第二样本图像中的预测位置。

在步骤一中计算机设备中的初始模型可以先提取第一样本图像的图像特征再对图像特征进行处理的实现方式中，计算机设备中的初始模型可以基于该初始模型的模型参数，对该第二样本图像进行特征提取，得到该第二样本图像的图像特征。计算机设备基于该第一图像处理参数，对该第二样本图像的图像特征进行处理，得到该目标在该第二样本图像中的预测位置。

在一个具体的可能实施例中，该目标在该第一样本图像中的真实位置可以采用位置指示信息的形式来表示，因而，该步骤203中，计算机设备中的初始模型可以基于该目标在该第一样本图像中的真实位置，生成该第一样本图像对应的第一位置指示信息，该第一位置指示信息用于指示该目标在该第一样本图像中的真实位置。然后计算机设备中的初始模型可以基于该第一位置指示信息、该第一样本图像和第二样本图像，获取该第二样本图像对应的位置指示信息，该第二样本图像对应的位置指示信息用于表示该目标在该第二样本图像中的预测位置。

相应地，上述步骤二中，计算机设备中的初始模型基于该第一图像处理参数，对该第二样本图像的图像特征进行处理时，可以得到该第二样本图像对应的位置指示信息。在一个具体的可能实施例中，该初始模型可以对第一图像处理参数和第二样本图像的图像特征进行卷积，得到该第二样本图像对应的位置指示信息。

在一种可能实现方式中，第一位置指示信息和第二样本图像对应的位置指示信可以为响应图，该响应图的峰值所在位置为该目标所在位置。例如，该响应图可以为一个矩阵，该矩阵中的每个数值可以用于表示一个或多个像素点。则其实上述过程可以为：计算机设备中的初始模型选取目标后，可以基于第一样本图像以及该目标在该第一样本图像中的真实位置，生成第一位置指示信息，该第一位置指示信息即为该第一样本图像的真实标签，计算机设备中的初始模型基于模型参数，对第一样本图像进行特征提取，得到第一样本图像的图像特征，原本该计算机设备基于第一图像处理参数，对该第一样本图像的图像特征进行处理，应该得到该第一位置指示信息(响应图、真实标签)，现在已知第一样本图像的图像特征进行处理和该第一位置指示信息，则可以求解第一图像处理参数，再对第二样本图像特征提取，得到第二样本图像的图像特征，基于求解得到的第一图像处理参数，对第二样本图像的图像特征进行处理，得到该第二样本图像对应的位置指示信息，也是一个响应图。

在一个具体的可能实施例中，该第一位置指示信息可以为一个高斯形状的响应图。该第二样本图像对应的位置指示信息则可能因不规则而不是高斯形状的响应图。

例如，该初始模型可以包括双路网络，其中一路用于对第一样本图像进行处理，另一路用于对第二样本图像进行处理。上述第一图像处理参数可以为相关滤波器中的系数，以此为例，该步骤203中的过程可以如图5中(a)图和(b)图所示，以第一样本图像为模板图像、模板图像块，第二样本图像为搜索图像、搜索图像块，初始标签为第一位置指示信息、响应图为第二样本图像对应的位置指示信息为例，初始模型可以先在模板图像中确定目标，确定目标后，生成该初始标签，并基于卷积神经网络(Convolutional Neural Network,CNN)，对模板图像进行特征提取，并进行特征表达，从而基于初始标签和模板图像的图像特征，求解相关滤波器中的系数，初始模型可以对搜索图像进行特征提取，然后对该相关滤波器的系数和搜索图像的图像特征进行卷积，得到响应图，该响应图的峰值所在位置即为该目标在第二样本图像中的预测位置。

需要说明的是，本发明实施例对初始模型对模板图像和搜索图像进行特征提取的步骤的时序顺序不作限定，可以同时进行，可以分先后进行。该初始模型以及最终得到的位置获取模型极其轻量级。例如，可以仅包括两个卷积层，CNN滤波器的大小可以为3x3x32x32和3x3x32x32。当然，在最后一层还可以进行局部响应归一化。这个轻量级的网络结构可以使得对目标的跟踪效率极高。在一种可能实现方式中，在基于前向和反向的无监督式模型还可以学习到通用的特征表达，并在训练完成后实现良好的目标跟踪。

在一种可能实现方式中，该初始模型获取第一图像处理参数的过程可以基于下述公式一实现：

其中，表示CNN的特征提取操作，其中θ是网络需要学习的模型参数，Y_T是第一样本图像的第一位置指示信息，也即是初始标签。W_T为第一图像处理参数，也即是示例中的相关滤波器的系数，λ是正则化参数，⊙是元素间的点乘操作，是离散傅里叶变换，是离散傅里叶逆变换，★表示复共轭。该运算过程为在傅里叶域进行的运算过程。T用于标识第一样本图像。

初始模型在得到第一图像处理参数W_T后，可以对第二样本图像进行处理，该处理过程可以基于下述公式二实现：

其中，R_S为第二样本图像对应的位置指示信息，也即是上述示例中第二样本图像对应的响应图，W_T为第一图像处理参数，也即是示例中的相关滤波器的系数，是离散傅里叶变换，是离散傅里叶逆变换，★表示复共轭，⊙是元素间的点乘操作。T用于标识第一样本图像，S用于标识第二样本图像。表示CNN的特征提取操作。

204、计算机设备中的初始模型基于该目标在该第二样本图像中的预测位置、该第一样本图像和第二样本图像，获取该目标在该第一样本图像中的预测位置，该第二样本图像为该多帧样本图像中区别于该第一样本图像的样本图像。

在上述步骤中，计算机设备基于目标在第一样本图像中的真实位置，通过前向过程，获取到目标在第二样本图像中的预测位置，然后可以将该目标在第二样本图像中的预测位置作为第二样本图像的伪标签，也即是，该目标在第二样本图像中的预测位置并非真实数据，但可以将其假设为一种真实数据，来进行反向过程，获取该目标在该第一样本图像中的预测位置。该反向过程与上述前向过程的图像处理过程同理，只是第一样本图像和第二样本图像相互转换，将第二样本图像作为目标模板，将第一样本图像作为搜索图像，进行反向预测。

与上述步骤203所示的内容同理地，该步骤204也可以通过下述步骤一和步骤二实现：

步骤一、计算机设备中的初始模型基于该目标在该第二样本图像中的预测位置和该第二样本图像，获取该第二图像处理参数。

该步骤一与上述步骤203中的步骤一同理，只是将第一样本图像和第二样本图像进行转换，将第二样本图像作为目标模板，将第一样本图像作为搜索图像，进行同理的处理过程。该第二图像处理参数用于表示如何对第二样本图像进行处理，以得到目标在该第二样本图像中的预测位置。

与上述步骤203中的步骤一同理地，计算机设备中的初始模型也可以先提取图像特征，再进一步对图像特征进行处理。具体地，计算机设备中的初始模型可以基于该初始模型的模型参数，对该第二样本图像进行特征提取，得到该第二样本图像的图像特征。计算机设备中的初始模型基于该第二样本图像的图像特征和该目标在该第二样本图像中的预测位置，获取第二图像处理参数。

步骤二、计算机设备中的初始模型基于该第二图像处理参数，对该第一样本图像进行处理，得到该目标在该第一样本图像中的预测位置。

该步骤二与上述步骤203中的步骤二同理，只是将第一样本图像和第二样本图像进行转换，将第二样本图像作为目标模板，将第一样本图像作为搜索图像，进行同理的处理过程。

与上述步骤203中的步骤一同理地，计算机设备中的初始模型也可以基于该初始模型的模型参数，对该第一样本图像进行特征提取，得到该第一样本图像的图像特征。计算机设备基于该第二图像处理参数，对该第一样本图像的图像特征进行处理，得到该目标在该第一样本图像中的预测位置。

在上述步骤203所示的一种实现方式中，目标在图像中的位置可以通过位置指示信息来表示，该步骤204中，计算机设备中的初始模型也可以基于该第二样本图像对应的位置指示信息、该第一样本图像和该第二样本图像，获取该第一样本图像对应的第二位置指示信息，该第二位置指示信息用于表示该目标在该第一样本图像中的预测位置。

具体地，在同时采用上述先提取图像特征再处理的方式和通过位置指示信息的方式时，该步骤204可以为：计算机设备中的初始模型基于模型参数，对第二样本图像进行特征提取，得到第二样本图像的图像特征，并基于该图像特征和该第二样本图像对应的位置指示信息(该目标在第二样本图像中的预测位置)，获取第二图像处理参数，然后对第一样本图像进行特征提取，得到第一样本图像的图像特征，基于第二图像处理参数，对第一样本图像的图像特征进行处理，得到该第一样本图像对应的第二位置指示信息(该目标在第一样本图像中的预测位置)。

需要说明的是，步骤203为前向过程，步骤204为反向过程，通过前向+反向的过程，可以基于该目标在第一样本图像中的真实位置，通过第二样本图像的过渡，得到该目标在第一样本图像中的预测位置，从而基于该真实位置和预测位置，即可获知该初始模型对图像进行处理的误差值。例如，如图5中(b)图所示，步骤203对应前向跟踪过程，步骤204对应反向跟踪过程，在反向跟踪过程中，模板图像和搜索图像进行了调换，也即是，模板图像变成了第二样本图像，搜索图像变成了第一样本图像，但是对于模板图像和搜索图像进行的处理过程与前向跟踪过程同理，反向跟踪过程得到的响应图即为第一样本图像对应的第二位置指示信息。如图5中(a)图所示，该图5中的#1用于标识第一样本图像，#2用于标识第二样本图像，从图5中可以得到，对于#1中确定的目标，可以在#2中确定该目标的预测位置，然后再基于#2中目标的预测位置，再反向跟踪#1中目标的预测位置，从而再基于#1中目标的真实位置和预测位置，来确定该初始模型的误差值是否较好。也即是，对#1中确定的目标的位置以及通过#2再反向计算得到的预测位置进行一致性计算。

在一种可能实现方式中，计算机设备中的初始模型在执行该步骤204时也可以通过与上述公式一和公式二同理的公式实现，也即是，将公式一中的T替换成S，将Y_T替换成Y_S，Y_S即为R_S,或基于R_S生成的高斯形状的响应图，将公式二的S替换成T，将W_T替换成W_S，其中，Y_S为第二样本图像对应的位置指示信息或基于该R_S得到的高斯形状的位置指示信息，需要说明的是，在前向和反向跟踪过程中，CNN的模型参数是固定的。

205、计算机设备基于该目标在该第一样本图像中的真实位置和预测位置，获取该预测位置的误差值。

计算机设备在获取到目标在第一样本图像中的真实位置和预测位置后，即可来评估该初始模型预测的误差值，从而基于该目标在第一样本图像中的预测位置的误差值，来确定是否需要对初始模型的模型参数进行调整。在一种可能实现方式中，该误差值越小，该初始模型的模型参数越合适。在另一种可能实现方式中，该过程也可以通过奖励机制实现，该误差值越大，该初始模型的模型参数越合适。下述仅以该误差值越小，模型参数越合适为例进行说明。基于这样的原理，可以执行下述步骤206，对初始模型进行训练，得到预测误差值小的位置获取模型。

在一种可能实现方式中，该多帧样本图像可以包括多个样本图像集合，每个样本图像集合对应一个该预测位置的误差值。计算机设备可以基于样本图像集合中包括的第一样本图像和至少一帧第二样本图像，得到至少一个误差值，也即是，每帧第二样本图像可以对应一个误差值，该样本图像集合对应的误差值可以基于该至少一个误差值确定。

在一种可能实现方式中，该计算机设备可以获取该至少一个误差值的平均值，将该平均值作为该样本图像集合对应的误差值。在另一种可能实现方式中，该计算机设备可以对该至少一个误差值进行加权求和，得到该样本图像集合对应的误差值。本发明实施例对具体采用哪种实现方式不作限定。

206、计算机设备基于该误差值，对该初始模型的模型参数进行调整，直至符合目标条件时停止，得到位置获取模型。

计算机设备在获取到初始模型预测的误差值后，可以基于该误差值，对模型参数进行调整，直到误差值较小，得到位置获取模型，该位置获取模型预测的准确性则比较高。该目标条件可以为该误差值收敛或迭代次数达到目标次数。通过该目标条件得到的位置获取模型具有较好的图像处理能力，能实现误差值小的目标跟踪过程。

在一种可能实现方式中，该多帧样本图像可以包括多个样本图像集合，每个样本图像集合对应一个该预测位置的误差值。计算机设备可以根据每个样本图像集合对应的误差值，对初始模型的模型参数进行调整。

在另一种可能实现方式中，计算机设备还可以将训练样本分为多个批次，每个批次包括目标数量的样本图像集合，计算机设备可以基于每个批次对应的误差值，对初始模型的模型参数进行调整。具体地，对于该多个样本图像集合中每目标数量的样本图像集合，计算机设备可以基于该目标数量的样本图像集合对应的多个误差值，对该初始模型的模型参数进行调整。该目标数量可以由相关技术人员根据需求进行设置，本发明实施例对此不作限定。

在一个具体的可能实施例中，计算机设备在对初始模型的模型参数进行调整时，该多个样本图像集合中还可能包括不太好的样本，例如，样本图像集合中的多帧图像中，目标的移动位移很大，甚至移动出图像所包括的范围，则该样本图像集合对应的误差值对初始模型进行训练时所起的作用不大，应该削弱这部分样本的影响，这部分样本可以称为困难样本。具体地，计算机设备还可以执行下述方式中任一种方式：

方式一：计算机设备基于该目标数量的样本图像集合对应的多个误差值，去除该多个误差值中满足误差值条件的误差值，计算机设备基于剩下的多个误差值，对该初始模型的模型参数进行调整。

方式二：计算机设备基于该目标数量的样本图像集合对应的多个误差值，确定该多个误差值的第一权重，计算机设备基于该多个误差值的第一权重和该多个误差值，对该初始模型的模型参数进行调整，该多个误差值中满足误差值条件的误差值的第一权重为零。

上述方式一和方式二均是将多个误差值中满足误差值条件的误差值对模型参数调整时所起的作用减弱为零的过程，方式一中是直接将那一部分误差值去除，方式二中是为其设置第一权重，并将权重设置为零。该误差值条件可以为属于误差值最大的目标比例中的误差值。该误差值条件和目标比例均可以由相关技术人员根据需求进行设置，本发明实施例对此不作限定。例如，该目标比例可以为10％，计算机设备可以移除一个批次下训练样本的10％，将误差值最大的那10％移除，或者将误差值最大的那10％的误差值的权重置零。例如，在方式二中，引入了一个二值权重A_drop(第一权重)，满足误差值条件的误差值的权重A_drop为0，其余为1。从而减少噪声样本甚至是污染样本(存在遮挡问题)的影响，而不会因为这些训练样本影响模型训练的收敛。

在一个具体的可能实施例中，每个样本图像集合可以对应一个第二权重，该第二权重用于表示该样本图像集合的多帧图像中目标的位移情况。可以理解地，样本图像集合的多帧图像中目标的移动位移非常小，甚至为零时，对该目标进行跟踪，得到的误差值并不能体现初始模型的预测能力，因而，这部分误差值在对模型参数调整时所起的作用应该减弱。

在该实施例中，该步骤206中，计算机设备可以获取每个样本图像集合的误差值的第二权重，该第二权重与该每个样本图像集合中目标在多帧样本图像中的位移正相关。计算机设备获取到第二权重后，可以基于该目标数量的样本图像集合对应的多个误差值和多个第二权重，对该初始模型的模型参数进行调整。具体地，计算机设备可以基于该目标数量的样本图像集合对应的多个误差值和多个第二权重，获取该目标数量的样本图像集合对应的总误差值，从而基于该总误差值，对该初始模型的模型参数进行调整。

例如，在一个具体示例中，可以引入第二权重A_motion，计算机设备可以通过下述公式三得到第二权重：

其中，A_motion为第二权重，i为样本图像集合的标识，R_S为第二样本图像对应的位置指示信息，Y_T是第一样本图像对应的第一位置指示信息，Y_S为第二样本图像对应的位置指示信息或基于该R_S得到的高斯形状的位置指示信息。在该公式仅以样本图像集合包括一帧第一样本图像和两帧第二样本图像为例，T用于表示第一样本图像，S用于表示第二样本图像，S₁用于表示其中一帧第二样本图像，S₂用于表示另一帧第二样本图像。例如，如图6所示，采用一帧第一样本图像(模板图像块)和一帧第二样本图像(搜索图像块)的情况如左图中#1和#2所示，可能是巧合导致的成功。采用一帧第一样本图像和两帧第二样本图像的情况如右图中#1、#2和#3所示，右图中#2又可以称为搜索图像块#1，#3又可以称为搜索图像块#2，通过增加第二样本图像的方式，可以避免巧合导致的成功，可以进行错误积累，从而提高位置获取模型的准确性和稳定性。

在一种可能实现方式中，计算机设备可以综合上述第一权重和第二权重，对模型参数进行调整，也即是既考虑样本误差值太大的情况，又考虑位移情况。具体地，对于该目标数量的样本图像集合对应的多个误差值，计算机设备可以基于第一权重和第二权重，获取每个误差值的总权重，基于该多个误差值的总权重，对该多个误差值进行加权求和，得到该多个误差值的总误差值，基于该总误差值，对该初始模型的模型参数进行调整。

例如，该总误差值的获取过程可以通过下述公式四实现：

其中，A_drop为第一权重，A_motion为第二权重，n为目标数量，n为大于1的正整数，i为样本图像集合的标识。为总权重。

该总误差值可以采用小化重构误差来表示，例如，该总误差值的获取过程可以通过下述公式五实现：

其中，为目标在第一样本图像中的预测位置(第一样本图像对应的第二位置指示信息)，Y_T是目标在一样本图像中的真实位置(第一样本图像对应的第一位置指示信息)，n为目标数量，n为大于1的正整数，i为样本图像集合的标识。为目标数量的样本图像集合对应的总误差值。当然，在此仅为一种示例性说明，该总误差值还可以采用其他误差或奖励值表示，本发明实施例对此不作限定。

通过获取总权重的方式，对目标在多帧图像中位移非常小的情况进行了优化，对目标在多帧图像中位移特别大的情况也进行了优化，因而，可以得到较小的总误差值，基于此，对模型参数进行调整，得到的位置获取模型对图像处理的准确性也提高了。

需要说明的是，如果该样本图像集合中仅包括一帧第一样本图像和一帧第二样本图像，则该总误差值的获取过程可以通过下述公式六实现：

其中，为目标在第一样本图像中的预测位置(第一样本图像对应的第二位置指示信息)，Y_T是目标在一样本图像中的真实位置(第一样本图像对应的第一位置指示信息)，为目标数量的样本图像集合对应的总误差值。

在一种可能实现方式中，该模型参数调整过程可以通过梯度回传的方式实现，具体可以参见下述公式七，在此仅以此作为一种示例性说明，并不对调整过程造成限定：

其中，为偏微分符号。为目标数量的样本图像集合对应的总误差值。是离散傅里叶变换，是离散傅里叶逆变换，★表示复共轭。T用于标识第一样本图像，S用于标识第二样本图像。表示CNN的特征提取操作。

在一个具体示例中，可以将该位置获取模型称为跟踪器，该跟踪器可以前向和反向跟踪，即给定一个初始跟踪目标，跟踪器可以向前跟踪目标，同时以最后跟踪结束的位置为起始点，跟踪器应该能回溯到初始指定的位置。通过跟踪器的自我校正，可以进行无监督训练。不需要样本图像携带有标签，就可以训练一个鲁棒的跟踪器，且和全监督式训练的跟踪器有相近的性能。

本发明实施例通过初始模型随机选取第一样本图像中的目标，并基于第二样本图像进行过渡，通过前向和反向过程，得到目标在第一样本图像中的预测位置，通过该目标在第一样本图像中的真实位置和预测位置，对初始模型进行训练，无需相关技术人员进行人工标注，可以有效减少人工成本，提高模型训练的效率。

上述图2所示实施例对位置获取模型的训练过程进行了详细说明，下面通过图7所示实施例，对应用该位置获取模型，实现目标的位置获取过程进行说明。图7是本发明实施例提供的一种目标的位置获取方法的流程图，该目标的位置获取方法可以应用于计算机设备中，该计算机设备可以被提供为终端，也可以被提供为服务器，本发明实施例对此不做限定。参见图7，该方法可以包括以下步骤：

701、计算机设备获取多帧图像，该多帧图像中的第一图像包括待检测的目标，该第一图像为该多帧图像中的任一帧图像。

计算机设备可以获取多帧图像，并对该多帧图像进行处理，确定目标在该多帧图像中的位置。

该步骤701中，计算机设备可以通过多种方式来获取该多帧图像，具体地，在不同应用场景中，该计算机设备获取该多帧图像的方式也可以不同。例如，该计算机设备可以具有图像获取功能，该计算机设备可以拍摄图像，并对拍摄到的多帧图像进行下述图像处理过程，对该多帧图像中的目标进行跟踪。该计算机设备也可以接收图像采集设备发送的多帧图像，并执行下述图像处理过程，对该多帧图像中的目标进行跟踪。计算机设备还可以获取实时拍摄的视频，或目标地址存储的视频，从视频中提取多帧图像，并进行下述图像处理过程，对该多帧图像中的目标进行跟踪。本发明实施例对应用场景以及计算机设备获取多帧图像的方式不作限定。

在一种可能实现方式中，与上述步骤201同理地，计算机设备也可以对获取或提取的多帧图像进行裁剪，得到待处理的多帧图像。具体地，计算机设备可以从获取或提取到的多帧图像中，对以该多帧图像的中心为中心点的目标区域进行裁剪，得到待处理的多帧图像。本发明实施例在此不多做赘述。

702、计算机设备调用位置获取模型。

其中，该位置获取模型的模型参数基于目标在多帧样本图像中第一样本图像中的真实位置以及该目标在该第一样本图像中的预测位置训练得到，该目标在该第一样本图像中的预测位置基于该目标在该多帧样本图像中第二样本图像中的预测位置获取得到。该位置获取模型可以通过上述图2所示的模型训练过程训练得到。

需要说明的是，该图7所示的计算机设备可以为上述图2所示的计算机设备，也即是，这样计算机设备可以从本地存储数据中调用该位置获取模型，该图7所示的计算机设备和上述图2所示的计算机设备还可以为不同的计算机设备，上述图2所示的计算机设备可以将训练得到的位置获取模型封装后发送至该图7所示的计算机设备，由该计算机设备对其进行解压等处理，在需要进行图像处理时，可以调用该位置获取模型。当然，该图7所示的计算机设备还可以在需要进行图像处理时，实时调用图2所示的计算机设备中训练好的位置获取模型，本发明实施例对此不作限定。

703、计算机设备将该多帧图像输入该位置获取模型中，由该位置获取模型基于该位置获取模型的模型参数以及该目标在该第一图像中的位置，对第二图像进行处理，输出该目标在该第二图像中的位置，该第二图像为该多帧图像中区别于该第一图像的其它图像。

其中，该目标在该第一图像中的位置可以由相关技术人员人工标注得到，也可以由计算机设备基于扫描设置对第一图像进行扫描得到。例如，可以由技术人员根据需求，在第一图像中标注出一个目标区域，将其作为目标。又例如，可以在计算机设备中设置对人进行跟踪，因而，计算机设备可以对第一图像进行扫描和人脸识别，以确定人所在的位置，并将其作为待检测的目标。当然，在此仅提供了两种示例，该目标的位置获取方法还可以应用于其他应用场景，计算机设备还可以采用其他方式来确定待检测的目标在第一图像中的位置，本发明实施例对此不作限定。

该步骤703与上述步骤203同理，计算机设备可以通过下述步骤一和步骤二，获取到目标在第二图像中的位置。

步骤一、计算机设备中的位置获取模型基于该目标在该第一图像中的位置、该第一图像以及该模型参数，获取图像处理参数。

与上述步骤203中的步骤一同理地，计算机设备中的位置获取模型可以基于该目标在该第一图像中的位置，生成该第一图像对应的位置指示信息，该第一图像对应的位置指示信息用于表示该目标在该第一图像中的真实位置。计算机设备中的位置获取模型可以基于该第一图像对应的位置指示信息、该第一图像以及该模型参数，获取图像处理参数。

在一种可能实现方式中，该位置指示信息为响应图，该响应图的峰值所在位置为该目标所在位置。

同理地，在一个具体的可能实施例中，计算机设备中的位置获取模型可以基于该模型参数，对该第一图像进行特征提取，得到该第一图像的图像特征，然后基于该第一图像的图像特征和该第一图像对应的位置指示信息，获取图像处理参数。

步骤二、计算机设备中的位置获取模型基于该图像处理参数，对第二图像进行处理，输出该目标在该第二图像中的位置。

与上述步骤203中的步骤二同理地，计算机设备中的位置获取模型可以基于该图像处理参数，对第二图像进行处理，输出该第二图像对应的位置指示信息，该第二图像对应的位置指示信息用于表示该目标在该第二图像中的预测位置。

与上述步骤203中的步骤二同理地，计算机设备中的位置获取模型可以基于该模型参数，对该第二图像进行特征提取，得到该第二图像的图像特征，再基于该图像处理参数，对该第二图像的图像特征进行处理，输出该第二图像对应的位置指示信息。

该步骤703与上述步骤203同理，在此不多做赘述。

下面通过图8所示实施例对模型训练过程以及模型使用过程进行说明，图8是本发明实施例提供的一种目标的位置获取方法的流程图，参见图8，该方法可以包括以下步骤：

801、计算机设备获取多帧样本图像。

802、计算机设备调用初始模型，将该多帧样本图像输入该初始模型中，由该初始模型基于目标在多帧样本图像中第一样本图像中的真实位置，获取该目标在第二样本图像中的预测位置，基于该目标在第二样本图像中的预测位置，获取该目标在该第一样本图像中的预测位置，基于该目标在第一样本图像中的真实位置和预测位置，对该初始模型的模型参数进行调整，得到位置获取模型。

该步骤801和步骤802与上述图2所示实施例的内容同理，本发明实施例在此不多做赘述。

803、当获取到多帧图像时，计算机设备调用该位置获取模型，将该多帧图像输入该位置获取模型中，输出该目标在该多帧图像中的位置。

该步骤803与上述图7所示实施例的内容同理，本发明实施例在此不多做赘述。

本发明实施例通过初始模型随机选取第一样本图像中的目标，并基于第二样本图像进行过渡，通过前向和反向过程，得到目标在第一样本图像中的预测位置，通过该目标在第一样本图像中的真实位置和预测位置，对初始模型进行训练，无需相关技术人员进行人工标注，可以有效减少人工成本，提高模型训练的效率，且可以通过这样训练得到的位置获取模型对图像进行处理，以获取目标的位置，对图像的处理过程简单，有效提高了整个目标的位置获取过程的效率。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图9是本发明实施例提供的一种目标的位置获取装置的结构示意图，参见图9，该装置可以包括：

图像获取模块901，用于获取多帧图像，该多帧图像中的第一图像包括待检测的目标，该第一图像为该多帧图像中的任一帧图像；

模型调用模块902，用于调用位置获取模型，该位置获取模型的模型参数基于目标在多帧样本图像中第一样本图像中的真实位置以及该目标在该第一样本图像中的预测位置训练得到，该目标在该第一样本图像中的预测位置基于该目标在该多帧样本图像中第二样本图像中的预测位置获取得到；

位置获取模块903，用于将该多帧图像输入该位置获取模型中，由该位置获取模型基于该模型参数以及该目标在该第一图像中的位置，对第二图像进行处理，输出该目标在该第二图像中的位置，该第二图像为该多帧图像中区别于该第一图像的其它图像。

在一种可能实现方式中，该位置获取模块903用于：

基于该目标在该第一图像中的位置、该第一图像以及该模型参数，获取图像处理参数；

基于该图像处理参数，对第二图像进行处理，输出该目标在该第二图像中的位置。

在一种可能实现方式中，该位置获取模块903用于：

基于该目标在该第一图像中的位置，生成该第一图像对应的位置指示信息，该第一图像对应的位置指示信息用于表示该目标在该第一图像中的真实位置；

基于该第一图像对应的位置指示信息、该第一图像以及该模型参数，获取图像处理参数；

该基于该图像处理参数，对第二图像进行处理，输出该目标在该第二图像中的位置，包括：

基于该图像处理参数，对第二图像进行处理，输出该第二图像对应的位置指示信息，该第二图像对应的位置指示信息用于表示该目标在该第二图像中的预测位置。

在一种可能实现方式中，该位置获取模块903用于：

基于该模型参数，对该第一图像进行特征提取，得到该第一图像的图像特征；

基于该第一图像的图像特征和该第一图像对应的位置指示信息，获取图像处理参数；

该位置获取模块903用于：

基于该模型参数，对该第二图像进行特征提取，得到该第二图像的图像特征；

基于该图像处理参数，对该第二图像的图像特征进行处理，输出该第二图像对应的位置指示信息。

在一种可能实现方式中，该装置还包括模型训练模块，该模型训练模块用于：

获取多帧样本图像；

调用初始模型，将该多帧样本图像输入该初始模型中，由该初始模型随机选取该多帧样本图像中的第一样本图像中目标区域作为待检测的目标，基于该目标在该第一样本图像中的真实位置、该第一样本图像和第二样本图像，获取该目标在该第二样本图像中的预测位置，基于该目标在该第二样本图像中的预测位置、该第一样本图像和第二样本图像，获取该目标在该第一样本图像中的预测位置，该第二样本图像为该多帧样本图像中区别于该第一样本图像的样本图像；

基于该目标在该第一样本图像中的真实位置和预测位置，获取该预测位置的误差值；

基于该误差值，对该初始模型的模型参数进行调整，直至符合目标条件时停止，得到位置获取模型。

在一种可能实现方式中，该模型训练模块用于：

基于该目标在该第一样本图像中的真实位置以及该第一样本图像，获取第一图像处理参数；

基于该第一图像处理参数，对第二样本图像进行处理，得到该目标在该第二样本图像中的预测位置；

该模型训练模块用于：

基于该目标在该第二样本图像中的预测位置和该第二样本图像，获取第二图像处理参数；

基于该第二图像处理参数，对该第一样本图像进行处理，得到该目标在该第一样本图像中的预测位置。

该模型训练模块用于：

基于该初始模型的模型参数，对该第一样本图像进行特征提取，得到该第一样本图像的图像特征；

基于该第一样本图像的图像特征和该目标在该第一样本图像中的真实位置，获取第一图像处理参数；

该模型训练模块用于：

基于该初始模型的模型参数，对该第二样本图像进行特征提取，得到该第二样本图像的图像特征；

基于该第一图像处理参数，对该第二样本图像的图像特征进行处理，得到该目标在该第二样本图像中的预测位置。

在一种可能实现方式中，该模型训练模块用于：

基于该目标在该第一样本图像中的真实位置，生成该第一样本图像对应的第一位置指示信息，该第一位置指示信息用于指示该目标在该第一样本图像中的真实位置；

基于该第一位置指示信息、该第一样本图像和第二样本图像，获取该第二样本图像对应的位置指示信息，该第二样本图像对应的位置指示信息用于表示该目标在该第二样本图像中的预测位置；

该模型训练模块用于：

基于该第二样本图像对应的位置指示信息、该第一样本图像和该第二样本图像，获取该第一样本图像对应的第二位置指示信息，该第二位置指示信息用于表示该目标在该第一样本图像中的预测位置。

在一种可能实现方式中，该多帧样本图像包括多个样本图像集合，每个样本图像集合包括一帧第一样本图像和至少一帧第二样本图像，每个样本图像集合对应一个该预测位置的误差值；

该模型训练模块用于：

对于该多个样本图像集合中每目标数量的样本图像集合，基于该目标数量的样本图像集合对应的多个误差值，对该初始模型的模型参数进行调整。

在一种可能实现方式中，该模型训练模块用于执行下述任一项：

基于该目标数量的样本图像集合对应的多个误差值，去除该多个误差值中满足误差值条件的误差值；基于剩下的多个误差值，对该初始模型的模型参数进行调整；

基于该目标数量的样本图像集合对应的多个误差值，确定该多个误差值的第一权重；基于该多个误差值的第一权重和该多个误差值，对该初始模型的模型参数进行调整，该多个误差值中满足误差值条件的误差值的第一权重为零。

在一种可能实现方式中，每个样本图像集合对应一个第二权重；

该基于该目标数量的样本图像集合对应的多个误差值，对该初始模型的模型参数进行调整，包括：

获取每个样本图像集合的误差值的第二权重，该第二权重与该每个样本图像集合中目标在多帧样本图像中的位移正相关；

基于该目标数量的样本图像集合对应的多个误差值和多个第二权重，对该初始模型的模型参数进行调整。

本发明实施例提供的装置，通过训练得到的位置获取模型对多帧图像进行处理，以获取目标在多帧图像中的位置，该位置获取模型可以通过前向和反向过程，利用该目标在第一样本图像中的真实位置和预测位置，对初始模型进行训练，无需相关技术人员进行人工标注，可以有效减少人工成本，提高模型训练的效率，对图像的处理过程简单，有效提高了整个目标的位置获取过程的效率。

需要说明的是：上述实施例提供的目标的位置获取在获取目标的位置时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标的位置获取装置与目标的位置获取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本发明实施例提供的一种目标的位置获取装置的结构示意图，参见图10，该装置可以包括：

图像获取模块1001，用于获取多帧样本图像；

模型训练模块1002，用于调用初始模型，将该多帧样本图像输入该初始模型中，由该初始模型基于目标在多帧样本图像中第一样本图像中的真实位置，获取该目标在第二样本图像中的预测位置，基于该目标在第二样本图像中的预测位置，获取该目标在该第一样本图像中的预测位置，基于该目标在第一样本图像中的真实位置和预测位置，对该初始模型的模型参数进行调整，得到位置获取模型；

位置获取模块1003，用于当获取到多帧图像时，调用该位置获取模型，将该多帧图像输入该位置获取模型中，输出该目标在该多帧图像中的位置。

本发明实施例提供的装置，通过初始模型随机选取第一样本图像中的目标，并基于第二样本图像进行过渡，通过前向和反向过程，得到目标在第一样本图像中的预测位置，通过该目标在第一样本图像中的真实位置和预测位置，对初始模型进行训练，无需相关技术人员进行人工标注，可以有效减少人工成本，提高模型训练的效率，且可以通过这样训练得到的位置获取模型对图像进行处理，以获取目标的位置，对图像的处理过程简单，有效提高了整个目标的位置获取过程的效率。

上述计算机设备可以被提供为下述图11所示的终端，也可以被提供为下述图12所示的服务器，本发明实施例对此不作限定。

图11是本发明实施例提供的一种终端的结构示意图。该终端1100可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1100包括有：一个或多个处理器1101和一个或多个存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1101所执行以实现本发明中方法实施例提供的目标的位置获取方法。

在一些实施例中，终端1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、显示屏1105、摄像头1106、音频电路1107、定位组件1108和电源1109中的至少一种。

外围设备接口1103可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中，处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上；在一些其他实施例中，处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1104用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1104包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wirel ess Fidelity，无线保真)网络。在一些实施例中，射频电路1104还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏1105用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时，显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时，显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1105可以为一个，设置终端1100的前面板；在另一些实施例中，显示屏1105可以为至少两个，分别设置在终端1100的不同表面或呈折叠设计；在再一些实施例中，显示屏1105可以是柔性显示屏，设置在终端1100的弯曲表面上或折叠面上。甚至，显示屏1105还可以设置成非矩形的不规则图形，也即异形屏。显示屏1105可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1106用于采集图像或视频。可选地，摄像头组件1106包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1106还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1101进行处理，或者输入至射频电路1104以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1101或射频电路1104的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1107还可以包括耳机插孔。

定位组件1108用于定位终端1100的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1108可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源1109用于为终端1100中的各个组件进行供电。电源1109可以是交流电、直流电、一次性电池或可充电电池。当电源1109包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1100还包括有一个或多个传感器1110。该一个或多个传感器1110包括但不限于：加速度传感器1111、陀螺仪传感器1112、压力传感器1113、指纹传感器1114、光学传感器1115以及接近传感器1116。

加速度传感器1111可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1111可以用于检测重力加速度在三个坐标轴上的分量。处理器1101可以根据加速度传感器1111采集的重力加速度信号，控制显示屏1105以横向视图或纵向视图进行用户界面的显示。加速度传感器1111还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1112可以检测终端1100的机体方向及转动角度，陀螺仪传感器1112可以与加速度传感器1111协同采集用户对终端1100的3D动作。处理器1101根据陀螺仪传感器1112采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1113可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1113设置在终端1100的侧边框时，可以检测用户对终端1100的握持信号，由处理器1101根据压力传感器1113采集的握持信号进行左右手识别或快捷操作。当压力传感器1113设置在显示屏1105的下层时，由处理器1101根据用户对显示屏1105的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1114用于采集用户的指纹，由处理器1101根据指纹传感器1114采集到的指纹识别用户的身份，或者，由指纹传感器1114根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1101授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1114可以被设置终端1100的正面、背面或侧面。当终端1100上设置有物理按键或厂商Logo时，指纹传感器1114可以与物理按键或厂商Logo集成在一起。

光学传感器1115用于采集环境光强度。在一个实施例中，处理器1101可以根据光学传感器1115采集的环境光强度，控制显示屏1105的显示亮度。具体地，当环境光强度较高时，调高显示屏1105的显示亮度；当环境光强度较低时，调低显示屏1105的显示亮度。在另一个实施例中，处理器1101还可以根据光学传感器1115采集的环境光强度，动态调整摄像头组件1106的拍摄参数。

接近传感器1116，也称距离传感器，通常设置在终端1100的前面板。接近传感器1116用于采集用户与终端1100的正面之间的距离。在一个实施例中，当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变小时，由处理器1101控制显示屏1105从亮屏状态切换为息屏状态；当接近传感器1116检测到用户与终端1100的正面之间的距离逐渐变大时，由处理器1101控制显示屏1105从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图11中示出的结构并不构成对终端1100的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图12是本发明实施例提供的一种服务器的结构示意图，该服务器1200可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)1201和一个或多个的存储器1202，其中，该一个或多个存储器1202中存储有至少一条指令，该至少一条指令由该一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的目标的位置获取方法。当然，该服务器1200还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1200还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的目标的位置获取方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标的位置获取方法，其特征在于，所述方法包括：

将所述多帧图像输入所述位置获取模型中，由所述位置获取模型基于所述模型参数以及所述目标在所述第一图像中的位置，对第二图像进行处理，输出所述目标在所述第二图像中的位置，所述第二图像为所述多帧图像中区别于所述第一图像的图像。

2.根据权利要求1所述的方法，其特征在于，所述由所述位置获取模型基于所述模型参数以及所述目标在所述第一图像中的位置，对第二图像进行处理，输出所述目标在所述第二图像中的位置，包括：

基于所述目标在所述第一图像中的位置、所述第一图像以及所述模型参数，获取图像处理参数；

基于所述图像处理参数，对第二图像进行处理，输出所述目标在所述第二图像中的位置。

3.根据权利要求2所述的方法，其特征在于，所述基于所述目标在所述第一图像中的位置、所述第一图像以及所述模型参数，获取图像处理参数，包括：

基于所述目标在所述第一图像中的位置，生成所述第一图像对应的位置指示信息，所述第一图像对应的位置指示信息用于表示所述目标在所述第一图像中的真实位置；

基于所述第一图像对应的位置指示信息、所述第一图像以及所述模型参数，获取图像处理参数；

所述基于所述图像处理参数，对第二图像进行处理，输出所述目标在所述第二图像中的位置，包括：

基于所述图像处理参数，对第二图像进行处理，输出所述第二图像对应的位置指示信息，所述第二图像对应的位置指示信息用于表示所述目标在所述第二图像中的预测位置。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一图像对应的位置指示信息、所述第一图像以及所述模型参数，获取图像处理参数，包括：

基于所述模型参数，对所述第一图像进行特征提取，得到所述第一图像的图像特征；

基于所述第一图像的图像特征和所述第一图像对应的位置指示信息，获取图像处理参数；

所述基于所述图像处理参数，对第二图像进行处理，输出所述第二图像对应的位置指示信息，包括：

基于所述模型参数，对所述第二图像进行特征提取，得到所述第二图像的图像特征；

基于所述图像处理参数，对所述第二图像的图像特征进行处理，输出所述第二图像对应的位置指示信息。

5.根据权利要求1所述的方法，其特征在于，所述位置获取模型的训练过程包括：

获取多帧样本图像；

调用初始模型，将所述多帧样本图像输入所述初始模型中，由所述初始模型随机选取所述多帧样本图像中的第一样本图像中目标区域作为待检测的目标，基于所述目标在所述第一样本图像中的真实位置、所述第一样本图像和第二样本图像，获取所述目标在所述第二样本图像中的预测位置，基于所述目标在所述第二样本图像中的预测位置、所述第一样本图像和第二样本图像，获取所述目标在所述第一样本图像中的预测位置，所述第二样本图像为所述多帧样本图像中区别于所述第一样本图像的样本图像；

基于所述目标在所述第一样本图像中的真实位置和预测位置，获取所述预测位置的误差值；

基于所述误差值，对所述初始模型的模型参数进行调整，直至符合目标条件时停止，得到位置获取模型。

6.根据权利要求5所述的方法，其特征在于，所述基于所述目标在所述第一样本图像中的真实位置、所述第一样本图像和第二样本图像，获取所述目标在所述第二样本图像中的预测位置，包括：

基于所述目标在所述第一样本图像中的真实位置以及所述第一样本图像，获取第一图像处理参数；

基于所述第一图像处理参数，对第二样本图像进行处理，得到所述目标在所述第二样本图像中的预测位置；

所述基于所述目标在所述第二样本图像中的预测位置、所述第一样本图像和第二样本图像，获取所述目标在所述第一样本图像中的预测位置，包括：

基于所述目标在所述第二样本图像中的预测位置和所述第二样本图像，获取第二图像处理参数；

基于所述第二图像处理参数，对所述第一样本图像进行处理，得到所述目标在所述第一样本图像中的预测位置。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标在所述第一样本图像中的真实位置以及所述第一样本图像，获取第一图像处理参数，包括：

基于所述初始模型的模型参数，对所述第一样本图像进行特征提取，得到所述第一样本图像的图像特征；

基于所述第一样本图像的图像特征和所述目标在所述第一样本图像中的真实位置，获取第一图像处理参数；

所述基于所述第一图像处理参数，对第二样本图像进行处理，得到所述目标在所述第二样本图像中的预测位置，包括：

基于所述初始模型的模型参数，对所述第二样本图像进行特征提取，得到所述第二样本图像的图像特征；

基于所述第一图像处理参数，对所述第二样本图像的图像特征进行处理，得到所述目标在所述第二样本图像中的预测位置。

8.根据权利要求5-7任一项所述的方法，其特征在于，所述基于所述目标在所述第一样本图像中的真实位置、所述第一样本图像和第二样本图像，获取所述目标在所述第二样本图像中的预测位置，包括：

基于所述目标在所述第一样本图像中的真实位置，生成所述第一样本图像对应的第一位置指示信息，所述第一位置指示信息用于指示所述目标在所述第一样本图像中的真实位置；

基于所述第一位置指示信息、所述第一样本图像和第二样本图像，获取所述第二样本图像对应的位置指示信息，所述第二样本图像对应的位置指示信息用于表示所述目标在所述第二样本图像中的预测位置；

基于所述第二样本图像对应的位置指示信息、所述第一样本图像和所述第二样本图像，获取所述第一样本图像对应的第二位置指示信息，所述第二位置指示信息用于表示所述目标在所述第一样本图像中的预测位置。

9.根据权利要求5所述的方法，其特征在于，所述多帧样本图像包括多个样本图像集合，每个样本图像集合包括一帧第一样本图像和至少一帧第二样本图像，每个样本图像集合对应一个所述预测位置的误差值；

所述基于所述误差值，对所述初始模型的模型参数进行调整，包括：

对于所述多个样本图像集合中每目标数量的样本图像集合，基于所述目标数量的样本图像集合对应的多个误差值，对所述初始模型的模型参数进行调整。

10.根据权利要求9所述的方法，其特征在于，所述基于所述目标数量的样本图像集合对应的多个误差值，对所述初始模型的模型参数进行调整，包括下述任一项：

基于所述目标数量的样本图像集合对应的多个误差值，去除所述多个误差值中满足误差值条件的误差值；基于剩下的多个误差值，对所述初始模型的模型参数进行调整；

基于所述目标数量的样本图像集合对应的多个误差值，确定所述多个误差值的第一权重；基于所述多个误差值的第一权重和所述多个误差值，对所述初始模型的模型参数进行调整，所述多个误差值中满足误差值条件的误差值的第一权重为零。

11.根据权利要求9或10所述的方法，其特征在于，每个样本图像集合对应一个第二权重；

所述基于所述目标数量的样本图像集合对应的多个误差值，对所述初始模型的模型参数进行调整，包括：

获取每个样本图像集合的误差值的第二权重，所述第二权重与所述每个样本图像集合中目标在多帧样本图像中的位移正相关；

基于所述目标数量的样本图像集合对应的多个误差值和多个第二权重，对所述初始模型的模型参数进行调整。

12.一种目标的位置获取方法，其特征在于，所述方法包括：

获取多帧样本图像；

13.一种目标的位置获取装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求12任一项所述的目标的位置获取方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的目标的位置获取方法所执行的操作。