CN116580063A

CN116580063A - 目标追踪方法、装置、电子设备及存储介质

Info

Publication number: CN116580063A
Application number: CN202310863936.6A
Authority: CN
Inventors: 蒋召; 黄泽元
Original assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Current assignee: Shenzhen Xumi Yuntu Space Technology Co Ltd
Priority date: 2023-07-14
Filing date: 2023-07-14
Publication date: 2023-08-11
Anticipated expiration: 2043-07-14
Also published as: CN116580063B

Abstract

本申请涉及计算机技术领域，提供了一种目标追踪方法、装置、电子设备及存储介质。包括：获取包括待追踪目标的图像；使用特征提取网络提取图像的特征；使用检测网络，根据图像的特征确定目标的坐标；使用跨境追踪模型，根据图像的特征确定目标的外观信息；基于目标的坐标和目标的外观信息，识别目标；基于目标识别结果实现对目标的追踪；其中，使用特征提取网络提取图像的特征，包括：基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征；对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到图像的特征。该方法能提高跨领域目标追踪精度。

Description

目标追踪方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种目标追踪方法、装置、电子设备及存储介质。

背景技术

随着多目标追踪算法的发展，相关技术中出现了同时检测目标和学习跨境追踪（Person Re-Identification，ReID）特征的单阶段多目标追踪算法。然而，目前单阶段多目标追踪算法主要针对相同场景下的目标进行追踪，针对不同场景进行跨域追踪时性能不佳。

发明内容

有鉴于此，本申请实施例提供了一种目标追踪方法、装置、电子设备及存储介质，以解决现有技术中对目标进行追踪时，针对不同场景进行跨域追踪性能不佳的问题。

本申请实施例的第一方面，提供了一种目标追踪方法，包括：

获取包括待追踪目标的图像；

使用特征提取网络提取所述图像的特征；

使用检测网络，根据所述图像的特征确定所述目标的坐标；

使用跨境追踪模型，根据所述图像的特征确定所述目标的外观信息；

基于所述目标的坐标和所述目标的外观信息，识别所述目标；

基于目标识别结果实现对所述目标的追踪；

其中，所述使用特征提取网络提取所述图像的特征，包括：

基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，所述三维嵌入表达表的三个维度分别为通道、图像和特征；

对所述三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到所述图像的特征。

本申请实施例的第二方面，提供了一种目标追踪装置，包括：

获取模块，被配置为获取包括待追踪目标的图像；

特征提取模块，被配置为使用特征提取网络提取所述图像的特征；

坐标检测模块，被配置为使用检测网络，根据所述图像的特征确定所述目标的坐标；

外观检测模块，被配置为使用跨境追踪模型，根据所述图像的特征确定所述目标外观信息；

识别模块，被配置为基于所述目标的坐标和所述目标的外观信息，识别所述目标；

追踪模块，被配置为基于目标识别结果实现对所述目标的追踪；

其中，所述特征提取模块还被配置为：

本申请实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序，该处理器执行计算机程序时实现上述方法的步骤。

本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本申请实施例与现有技术相比存在的有益效果是：通过获取包括待追踪目标的图像；使用特征提取网络提取图像的特征；使用检测网络，根据图像的特征确定目标的坐标；使用跨境追踪模型，根据图像的特征确定目标外观信息；基于目标的坐标和目标的外观信息，识别目标；基于目标识别结果实现对目标的追踪；其中，使用特征提取网络提取图像的特征时，基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征；对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到图像的特征，能够提高特征提取网络针对不同场景的泛化能力，提高目标追踪精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是一种目标追踪算法的网络结构的示意图。

图2是本申请实施例提供的一种目标追踪方法的流程示意图。

图3是本申请实施例提供的一种对三维嵌入表达表中每个通道的图像进行实例归一化处理的方法的流程示意图。

图4是本申请实施例提供的一种目标追踪方法的流程示意图。

图5是本申请实施例提供的一种特征提取网络的部分结构示意图。

图6是本申请实施例提供的一种目标追踪装置的示意图。

图7是本申请实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

上文提及，随着多目标追踪算法的发展，相关技术中出现了同时检测目标和学习跨境追踪特征的单阶段多目标追踪算法。图1是一种目标追踪算法的网络结构的示意图。如图1所示，该目标追踪算法的网络结构包括：

输入模块，用于输入待追踪目标的信息。其中，待追踪目标的信息可以是待追踪目标的视频信息，或其他信息，此处不做限制。

特征提取网络，用于自待追踪目标的信息中提取目标相关的特征。可以使用诸如残差网络（Residual Network，ResNet）来提取输入信息中的特征。例如，待追踪目标的信息为待追踪目标的视频信息时，可以先提取视频中的帧，然后使用ResNet 50提取各帧图像中的特征。特征提取越准确性则追踪效果越好。

检测分支，用于实现目标检测任务，提取出输入信息中的目标，并实现目标的坐标回归，即检测出目标的坐标。仍然以待追踪目标的信息为待追踪目标的视频信息为例，可以通过目标检测算法检测各帧图像中目标的坐标，并使用全连接层实现坐标的回归，进而输出目标的坐标。

跨境追踪分支，用于使用跨境追踪模型提取目标的外观特征信息，以为后续确定目标轨迹提供信息。

然而，目前相关技术中的单阶段多目标追踪算法主要针对相同场景下的目标进行追踪，针对不同场景进行跨域追踪时性能不佳。也就是说，若单阶段多目标追踪算法中的特征提取网络是使用某一个场景中的数据训练得到的，那么在另一个场景下使用该特征提取网络来进行特征提取时，提取到的特征可能不够准确。此时基于该提取的特征进一步进行目标追踪时，追踪效果往往不好。

鉴于此，本申请实施例提供了一种目标追踪方法，通过获取包括待追踪目标的图像；使用特征提取网络提取图像的特征；使用检测网络，根据图像的特征确定目标的坐标；使用跨境追踪模型，根据图像的特征确定目标外观信息；基于目标的坐标和目标的外观信息，识别目标；基于目标识别结果实现对目标的追踪；其中，使用特征提取网络提取图像的特征时，基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征；对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，能够提高特征提取网络针对不同场景的泛化能力，提高目标追踪精度。

图2是本申请实施例提供的一种目标追踪方法的流程示意图。如图2所示，该方法包括如下步骤：

在步骤S201中，获取包括待追踪目标的图像。

在步骤S202中，使用特征提取网络提取图像的特征。

在步骤S203中，使用检测网络，根据图像的特征确定目标的坐标。

在步骤S204中，使用跨境追踪模型，根据图像的特征确定目标外观信息。

在步骤S205中，基于目标的坐标和目标的外观信息，识别目标。

在步骤S206中，基于目标识别结果实现对目标的追踪。

其中，步骤S202进一步包括：

在步骤S2021中，基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表。

其中，三维嵌入表达表的三个维度分别为通道、图像和特征。

在步骤S2022中，对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到图像的特征。

本申请实施例中，该目标追踪方法可以由终端设备或服务器执行。其中，终端设备可以是硬件，也可以是软件。当终端设备为硬件时，其可以是具有显示屏且支持与服务器通信的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等；当终端设备为软件时，其可以安装在如上所述的电子设备中。终端设备可以实现为多个软件或软件模块，也可以实现为单个软件或软件模块，本申请实施例对此不作限制。进一步地，终端设备上可以安装有各种应用，例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。

服务器可以是提供各种服务的服务器，例如，对与其建立通信连接的终端设备发送的请求进行接收的后台服务器，该后台服务器可以对终端设备发送的请求进行接收和分析等处理，并生成处理结果。服务器可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者还可以是一个云计算服务中心，本申请实施例对此不作限制。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，其可以是为终端设备提供各种服务的各种电子设备。当服务器为软件时，其可以是为终端设备提供各种服务的多个软件或软件模块，也可以是为终端设备提供各种服务的单个软件或软件模块，本申请实施例对此不作限制。

本申请实施例中，目标可以是任意需要进行运动跟踪的目标。例如，运动中的车辆、船只、飞行器、动物、游戏等应用中的角色和物体、医学影像中的对象等。

本申请实施例中，可以包括待追踪目标的图像。其中，待追踪目标的图像可以来自目标视频中的图像帧，例如监控视频中的图像帧。或者，待追踪目标的图像也可以来自人机交互界面图像。又或者，待追踪目标的图像还可以来自游戏、虚拟现实以及增强现实应用中的图像帧。再或者，待追踪目标的图像还可以来自医学影像中的图像。

进一步的，图像中可以包括待追踪目标以及一个或多个其他对象。例如，监控视频中可以包括待追踪的车辆，以及一个或多个其他车辆。人机交互界面图像中，可以包括待追踪的操作，以及一个或多个操作其他操作。游戏应用的图像帧中可以包括待追踪的道具，以及一个或多个其他角色和道具。医学影像的图像中，可以包括待追踪的器官，以及一个或多个其他器官。

本申请实施例中，可以使用特征提取网络提取图像的特征。其中，特征提取网络可以是预先训练好的神经网络。一示例中，可以首先获取某一个或多个场景下的目标图像以及目标的实际轨迹，使用初始化处理后的特征提取网络提取目标图像中的特征，基于提取的特征确定目标的坐标和目标的外观信息，基于目标的坐标和目标的外观信息识别目标，进而确定出目标的预测轨迹。将预测轨迹与实际轨迹进行比较，当两者的差值大于预设阈值时，修改特征提取网络的参数，重新对目标的图像进行特征提取，并重新确定目标的预测轨迹。如此迭代执行，直至预测轨迹与实际轨迹的差值小于或者等于预设阈值。

本申请实施例中，可以使用检测网络，根据特征提取网络提取的图像的特征确定目标的坐标。同时，还可以使用跨境追踪模型，根据特征提取网络提取的图像的特征确定目标的外观信息。随后，可以基于提取的目标的坐标和目标的外观信息，识别该待追踪目标，进而基于识别结果实现对目标的追踪。例如，可以在确定识别结果后，创建目标的轨迹标识，从而实现对目标的跟踪。

由于特征提取网络是基于一个或多个场景的目标数据训练得到的，训练数据不可能穷尽所有场景。因此当使用训练好的特征提取网络，对其他应用场景中的目标图像进行特征提取时，若该其他场景与训练用的场景的数据特征差异较大，则可能导致特征提取网络提取的特征不够准确，进而导致目标无法被正确识别，从而也无法被正确追踪。

鉴于此，本申请实施例提供的目标追踪方法中，在使用特征提取网络提取图像的特征时，还可以首先基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征，然后对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到图像的特征。采用实例归一化处理的方式，可以对特征进行场景对应的风格信息提取处理，结合批归一化处理得到的通用信息共同输入特征提取网络的后续网络继续进行特征提取处理，可以兼顾特征提取的通用性和特定性，从而提高特征提取网络的泛化能力，使得特征提取网络在不同场景下都能很好地工作。其中，场景对应的风格信息是指，特征与场景关联的信息。例如，若当前目标追踪对应对冬季某区域内某类动物进行追踪这一场景，则动物毛发较为厚重这一信息，就是与该场景关联的风格信息。

本申请实施例中，可以使用检测网络，根据图像的特征确定目标的坐标。进一步的，还可以使用跨境追踪模型，根据图像的特征确定目标的外观信息。结合待识别目标的坐标以及外观信息，可以识别出该待识别目标。即，通过跨境追踪模型识别出待识别目标，结合根据检测网络确定的目标的坐标，就可以对待识别目标在对应图像中的位置进行标注，得到待识别目标的标注框。进而，可以基于目标识别结果实现对待识别目标的跟踪。例如，可以通过基于标注框创建轨迹的方法实现对待识别目标的跟踪。另一些实施方式中，还可以通过基于标注框和预测器预测得到的预测框创建轨迹的方法实现对待识别目标的跟踪。

根据本申请实施例提供的技术方案，通过获取包括待追踪目标的图像；使用特征提取网络提取图像的特征；使用检测网络，根据图像的特征确定目标的坐标；使用跨境追踪模型，根据图像的特征确定目标外观信息；基于目标的坐标和目标的外观信息，识别目标；基于目标识别结果实现对目标的追踪；其中，使用特征提取网络提取图像的特征时，基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征；对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，能够提高特征提取网络针对不同场景的泛化能力，提高目标追踪精度。

本申请实施例中，批归一化处理可以包括，对每个通道中的所有特征进行归一化处理。实例归一化处理可以包括，对每个通道中的每个特征进行归一化处理。

具体的，对特征进行批归一化处理的流程可以包括：

使用公式计算均值，其中，/>为输入特征，/>为计算后的均值，i和m为正整数，i小于等于m。

使用公式计算方差，其中/>为方差。

使用公式进行批归一化处理，得到批归一化值，其中/>为一个极小的数，以防止公式中的除数为0。一示例中，/>可以取值为10^-9。

使用公式对批归一化值进行变化重构，恢复出这一层网络所要学到的分布，其中/>为尺度因子，/>为偏移因子，/>为重构后的值。至此，完成了对特征的批归一化处理。

当对特征进行实例归一化处理和批归一化处理的流程类似，不同的是，在进行批归一化处理时，是对一批数据（batch）中所有样本特征的同一通道进行归一化计算，而在进行实例归一化处理时，是对每个特征的单一通道值进行归一化。因此，对特征进行实例归一化处理的流程可以包括：

使用公式计算均值，其中，/>为输入特征，/>为计算后的均值，H为卷积层提取的特征图的高度，W为卷积层提取的特征图的宽度，i、j、H和W均为正整数，i小于等于H，j小于等于W。

使用公式计算方差，其中/>为方差。

使用公式进行实例归一化处理，得到实例归一化值，其中/>为一个极小的数，以防止公式中的除数为0。一示例中，/>可以取值为10^-9。

使用公式对实例归一化值进行变化重构，恢复出这一层网络所要学到的分布，其中/>为尺度因子，/>为偏移因子，/>为重构后的值。至此，完成了对特征的实例归一化处理。

当使用特征提取网络对输入的图像进行处理时，可以首先基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征。然后对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理。其中，对每个通道的图像进行批归一化处理可以提取同一通道中所有图像的通用特征，对每个通道的图像进行实例归一化处理可以提取同一通道中不同图像的包含各自风格信息的特定特征。

虽然实例归一化处理能够有效提取图像的风格信息，但实例归一化处理的均值和方差通常都在推理时在线计算得到，这将需要网络具备较强的在线计算能力。鉴于此，为降低处理复杂度，可以选择对同一通道中的部分图像进行实例归一化处理。

图3是本申请实施例提供的一种对三维嵌入表达表中每个通道的图像进行实例归一化处理的方法的流程示意图。如图3所示，该方法包括如下步骤：

在步骤S301中，获取图像的实时场景信息。

在步骤S302中，获取特征提取网络的训练场景信息。

在步骤S303中，基于实时场景信息和训练场景信息的相关度确定稀疏因子。

在步骤S304中，根据稀疏因子确定每个通道中的N幅图像。

在步骤S305中，对N幅图像进行归一化处理。

其中，N为正整数。

本申请实施例中，可以获取图像的实时场景信息，并获取特征提取网络的训练场景信息。其中，图像的实时场景信息可以根据包括待识别目标的图像的来源场景进行标注，特征提取网络的训练场景信息可以在特征提取网络训练时进行标注，且在对训练好的特征提取网络进行更新时，可以同步更新该训练场景信息。

本申请实施例中，可以计算实时场景信息和训练场景信息的相关度。例如，可以为不同的场景建立不同的关键词列表，通过匹配实时场景和训练场景分别对应的关键词列表中的关键词的匹配程度，来计算实时场景信息和训练场景信息的相关度。需要说明的是，实时场景信息和训练场景信息的相关度也可以使用其他方式计算得到，此处不做限制。

本申请实施例中，可以基于实时场景信息和训练场景信息的相关度确定系数因子，该稀疏因子用于在每个通道中选择部分图像进行实例归一化处理，从而降低计算复杂度。其中，稀疏因子的值由实时场景信息和训练场景信息的相关度确定，且实时场景信息和训练场景信息的相关度越大，该稀疏因子的取值越大，在每个通道中选择用于进行实例归一化处理的图像数量越少。

本申请实施例中，可以根据稀疏因子确定每个通道中的N幅图像，然后对N幅图像进行归一化处理。其中，根据稀疏因子确定每个通道中的N幅图像可以是，以稀疏因子为间隔，在每个通道的图像中均匀抽取N幅图像。举例而言，当实时场景与训练场景相关度较高时，由于场景差异不大，此时可以确定稀疏因子为一个较大的值。例如对于每个通道包括10幅图像的三维嵌入表达表，可以设稀疏因子为5，即每5幅图像抽取1幅图像进行实例归一化处理，确定出每个通道中的2幅图像进行实例归一化处理，以减少实例归一化处理的频率，在保证特征提取精度的基础上保证处理速度。反之，当实时场景与训练场景相关度较低时，由于场景差异较大，此时可以确定稀疏因子为一个较小的值。例如对于每个通道包括10幅图像的三维嵌入表达表，可以设稀疏因子为2，即每2幅图像抽取1幅图像进行实例归一化处理，确定出每个通道中的5幅图像进行实例归一化处理，首先确保特征提取精度。

根据本申请实施例提供的技术方案，通过基于实时场景信息和训练场景信息的相关度确定稀疏因子，进而根据稀疏因子确定每个通道中的N幅图像，对该N幅图像进行归一化处理，能够兼顾特征提取精度和速度，进而提高追踪效率。

图4是本申请实施例提供的一种目标追踪方法的流程示意图。其中，图4所示实施例中的步骤S401至步骤S406、步骤S2021至步骤S2022和图2所示实施例中的步骤S201至步骤S206、步骤S4021至步骤S4022分别相同，此处不再赘述。如图4所示，该方法还包括如下步骤：

在步骤S4023中，将批归一化处理后的特征和实例归一化处理后的特征输入第一阶段网络的激活函数层，得到特征提取网络的第一阶段输出。

在步骤S4024中，将第一阶段输出输入特征提取网络的第二阶段网络，得到图像的特征。

本申请实施例中，可以将批归一化处理后的特征与归一化处理后的特征一起输入第一阶段网络的下一层，例如激活函数层，从而得到特征提取网络的第一阶段输出。其中，激活函数可以是S型生长曲线函数（Sigmoid）、双曲函数（Tanh）或者整流线性单元函数（Relu）。进一步的，将第一阶段输出输入特征提取网络的第二阶段网络，从而得到图像的特征，即特征提取网络的输出。

其中，第二阶段网络包括至少一个网络，该至少一个网络中的每个网络，至少包括一个卷积层，以及一个批归一化层。也就是说，第二阶段网络可以由一个或多个网络组成。当第二阶段网络包括多个网络时，该多个网络串联连接。

例如，第二阶段网络可以由两个网络组成，该两个网络中的每个网络都可以包括卷积层和批归一化层，且这两个网络串联连接，接收第一阶段输出，并输出提取的图像的特征。

图5是本申请实施例提供的一种特征提取网络的部分结构示意图。如图5所示，该特征提取网络可以是ResNet50网络，其中该ResNet50网络的残差结构中，包括三个串联连接的网络。

ResNet50网络残差结构中的第一个网络为第一阶段网络，从输入到输出依次包括卷积层、归一化层和激活函数层。其中卷积层可以是卷积核为1*1的卷积层，归一化层包括并行的实例归一化处理层和批归一化处理层。激活函数层可以使用线性整流函数（Rectified Linear Unit，ReLU）进行激活。

ResNet50网络残差结构中的第二和第三个网络组成第二阶段网络，其中第二个网络从输入到输出依次包括卷积层、归一化处理层和激活函数层，第三个网络从输入到输出依次包括卷积层和归一化处理层。第二个网络中的卷积层可以是卷积核为3*3的卷积层，第三个网络中的卷积层可以是卷积核为1*1的卷积层。进一步的，第二个网络和第三个网络中的归一化处理层均包括批归一化处理层，而不包括实例归一化处理层，以避免特征提取的质量。第二个网络和第三个网络中的激活函数层也都可以使用ReLU函数进行激活。将第三个网络的输出结果与输入至第一个网络的输入相加后再次使用ReLU函数进行激活，从而得到提取图像的特征。

相关技术中，通常采用考虑重叠面积的目标检测损失函数（IoU Loss）对单阶段多目标追踪算法中的检测分支进行优化。然而，使用IoU Loss对检测分支进行优化存在如下问题：当检测框和标注框gt不重叠时，Loss为0，此时将无法进行优化。另外，当检测框和gt重叠面积相同时，其相交的位置可能是不同的，而IoU Loss没有考虑这种情况。

为解决上述问题，本申请实施例中，检测网络可以基于考虑重叠面积以及中心点距离的损失函数（DIoU Loss）作为目标检测损失函数实现优化。即，本申请实施例中，将DIoU Loss引入了单阶段多目标追踪算法。其中，DIoU Loss的计算公式为：，其中，b为检测框中心点，b^gt为gt框中心点，/>为检测框中心点和gt框中心点之间的欧氏距离，/>为检测框和gt框的最小闭包区域的对角线长度的平方。进一步的，IoU的计算公式为：/>，其中，A为检测框面积，B为gt框面积，/>为求交集运算，/>为求并集运算。

根据本申请实施例提供的技术方案，通过在单阶段多目标追踪算法中，使用DIoULoss代替IoU Loss进行检测网络的优化，能够提高监测网络的优化效果，提升追踪精度。

下面以对监控视频中的车辆进行追踪为例，说明本申请实施例提供的目标追踪算法的具体实现过程。

可以首先获取多个监控视频，该多个监控视频中包括相同的待追踪车辆，以及其他目标，例如其他车辆，或者建筑物等。基于该多个监控视频训练目标追踪模型。具体的，可以对监控视频进行分帧处理，可以得到多幅包括待追踪车辆的图像。使用特征提取网络提取图像的特征，该图像的特征包括该待追踪车辆的特征，以及其他目标的特征。使用检测网络，根据提取的图像的特征，确定待检测车辆的坐标，并使用跨境追踪模型，根据提取的图像的特征，确定待检测车辆的外观信息。基于待检测车辆的坐标和外观信息，识别该待检测车辆，对其进行标注，进而实现对该待检测车辆的追踪。将追踪结果与监控视频中待检测车辆的实际运动轨迹进行比较，当二者差异大于预设阈值时，调整目标追踪模型的参数重新训练，直至二者差异小于或者等于预设阈值。至此，完成了目标追踪模型的训练。

随后，获取待追踪目标的待追踪监控视频，对该待追踪监控视频进行分帧处理得到多幅图像。使用训练好的目标追踪模型中的特征提取网络提取图像的特征。其中，在使用特征提取网络提取图像的特征时，可以设置特征提取网络的残差网络中，第一阶段网络在使用卷积层构建三维嵌入表达表后，同时使用批归一化处理模块和实例归一化处理模块对特征进行归一化处理。其中，三维嵌入表达表的三个维度分别为通道、图像和特征，使用实例归一化处理模块对特征进行归一化处理可以提取出特征的域风格。

具体的，使用批归一化处理模块对特征进行归一化处理时，对三维嵌入表达表中每个通道的所有图像归一化处理，以保证数据分布的一致性，从而根据数据整体分布确定特征提取结果。

然而，针对不同场景，图像的特征可能对应不同的场景。例如，训练用的多个监控视频中可能包括夏季监控视频，其中待追踪车辆的车窗和天窗可能处于打开状态的较多，即该类视频中可能包括车辆的车窗和天窗打开这一风格信息。与此不同的是，追踪用的待追踪监控视频中可能还包括冬季监控视频，其中待追踪车辆的车窗和天窗可能大多处于关闭状态，且雨雪天气下某些车辆可能还安装了防滑链，即这类视频中可能包括车辆的车窗和天窗关闭、车辆安装有防滑链等风格信息。使用批归一化处理模块对图像进行归一化处理时，假设每个通道中有10幅图像，则该10幅图像将会包括训练用监控视频中的图像和待追踪监控视频中的图像。由于夏季场景和冬季场景对应的风格信息并非同一通道中所有图像的共性，因此在对一个通道中的图像进行归一化处理即进行批归一化处理时，为保证该通道数据分布的一致性，不会提取这些特征，而是提取通道中图像的共有特征。这将导致特征提取网络的泛化能力较差，无法针对不同场景准确提取出需要的特征。

鉴于此，本申请实施例同时使用批归一化处理模块和实例归一化处理模块对图像进行归一化处理。其中，使用实例归一化处理模块对图像进行归一化处理时，每次仅针对一个通道中的一幅图像进行归一化处理，该一幅图像可以是夏季监控视频中的图像，也可以是冬季监控视频中的图像。如此，可以提取出对应不同场景的图像的风格信息。

进一步的，由于实例归一化处理的均值和方差通常都在推理时在线计算得到，这将需要网络具备较强的在线计算能力。为降低处理复杂度，可以选择对同一通道中的部分图像进行实例归一化处理。

具体的，可以首先获取待追踪监控视频的实时场景信息，在本实施例中该场景信息可以包括冬季场景。随后，获取训练用监控视频的训练场景信息，在本实施例中该场景信息可以包括夏季场景。可以理解的是，实时场景信息和训练场景信息中都可以包括多个场景信息。

接下来，可以确定实时场景信息和训练场景信息的相关度。例如，可以根据实时场景信息和训练场景信息中各信息的语义相似性确定二者的相关度，也可以通过其他方式确定实时场景信息和训练场景信息的相关度，此处不做限制。例如，在本实施例中，假设实时场景信息和训练场景信息的差异仅为前者包括冬季场景，后者包括夏季场景，则实时场景信息和训练场景信息的相关度较高，其可以是一个较大的值。

然后，可以基于实时场景信息和所述训练场景信息的相关度确定稀疏因子。如前所示，在本实施例中，实时场景信息和训练场景信息的相关度较高为一个较大的值，此时可以确定稀疏因子同样为一个较大的值。

最后，根据稀疏因子确定每个通道中的N幅图像，对该N幅图像进行归一化处理。如前所示，在本实施例中，稀疏因子为一个较大的值，则可以基于稀疏因子对每个通道中的图像进行抽取，抽取的间隔即为该稀疏因子，从而得到N幅图像。对该N幅图像进行实例归一化处理，在保证特征提取精度的基础上保证处理速度。

将批归一化处理后的特征和实例归一化处理后的特征输入特征提取网络的第一阶段网络的激活函数层，可以得到特征提取网络的第一阶段输出，将第一阶段输出输入特征提取网络的第二阶段网络，可以得到图像的特征。可以使用检测网络，根据图像的特征确定待追踪车辆的坐标。可以使用跨境追踪模型，根据图像的特征确定待追踪车辆的外观信息。随后，基于待追踪车辆的坐标和待追踪车辆的外观信息，识别待追踪车辆，并基于待追踪车辆的识别结果即可实现对待追踪车辆的追踪。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图6是本申请实施例提供的一种目标追踪装置的示意图。如图6所示，该装置包括：

获取模块601，被配置为获取包括待追踪目标的图像。

特征提取模块602，被配置为使用特征提取网络提取图像的特征。

坐标检测模块603，被配置为使用检测网络，根据图像的特征确定目标的坐标。

外观检测模块604，被配置为使用跨境追踪模型，根据图像的特征确定目标外观信息。

识别模块605，被配置为基于目标的坐标和目标的外观信息，识别目标。

追踪模块606，被配置为基于目标识别结果实现对目标的追踪。

其中，特征提取模块还被配置为：

基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征；

对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到图像的特征。

本申请实施例提供的目标追踪装置中，在使用特征提取网络提取图像的特征时，可以首先基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征，然后对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到图像的特征。采用实例归一化处理的方式，可以对特征进行场景对应的风格信息提取处理，结合批归一化处理得到的通用信息共同输入特征提取网络的后续网络继续进行特征提取处理，可以兼顾特征提取的通用性和特定性，从而提高特征提取网络的泛化能力，使得特征提取网络在不同场景下都能很好地工作。其中，场景对应的风格信息是指，特征与场景关联的信息。例如，若当前目标追踪对应对冬季某区域内某类动物进行追踪这一场景，则动物毛发较为厚重这一信息，就是与该场景关联的风格信息。

根据本申请实施例提供的技术方案，通过获取包括待追踪目标的图像；使用特征提取网络提取图像的特征；使用检测网络，根据图像的特征确定目标的坐标；使用跨境追踪模型，根据图像的特征确定目标外观信息；基于目标的坐标和目标的外观信息，识别目标；基于目标识别结果实现对目标的追踪；其中，使用特征提取网络提取图像的特征时，基于特征提取网络的第一阶段网络的卷积层构建三维嵌入表达表，三维嵌入表达表的三个维度分别为通道、图像和特征；对三维嵌入表达表中每个通道的图像进行批归一化处理和实例归一化处理，得到图像的特征，能够提高特征提取网络针对不同场景的泛化能力，提高目标追踪精度。

本申请实施例中，批归一化处理包括：对同一通道中的所有图像进行归一化处理；实例归一化处理包括：对每个通道中的每个图像进行归一化处理。

本申请实施例中，对三维嵌入表达表中每个通道的图像进行实例归一化处理，包括：获取图像的实时场景信息；获取特征提取网络的训练场景信息；基于实时场景信息和训练场景信息的相关度确定稀疏因子；根据稀疏因子确定每个通道中的N幅图像；对N幅图像进行归一化处理；其中，N为正整数。

本申请实施例中，可以根据稀疏因子确定每个通道中的N幅图像，然后对N幅图像进行归一化处理。举例而言，当实时场景与训练场景相关度较高时，由于场景差异不大，此时可以确定稀疏因子为一个较大的值。例如对于每个通道包括10幅图像的三维嵌入表达表，可以设稀疏因子为5，即每5幅图像抽取1幅图像进行实例归一化处理，确定出每个通道中的2幅图像进行实例归一化处理，以减少实例归一化处理的频率，在保证特征提取精度的基础上保证处理速度。反之，当实时场景与训练场景相关度较低时，由于场景差异较大，此时可以确定稀疏因子为一个较小的值。例如对于每个通道包括10幅图像的三维嵌入表达表，可以设稀疏因子为2，即每2幅图像抽取1幅图像进行实例归一化处理，确定出每个通道中的5幅图像进行实例归一化处理，首先确保特征提取精度。

本申请实施例中，使用特征提取网络提取图像的特征，还包括：将批归一化处理后的特征和实例归一化处理后的特征输入第一阶段网络的激活函数层，得到特征提取网络的第一阶段输出；将第一阶段输出输入特征提取网络的第二阶段网络，得到图像的特征。

本申请实施例中，第二阶段网络包括至少一个网络，至少一个网络中的每个网络，至少包括一个卷积层，以及一个批归一化层。

本申请实施例中，响应于第二阶段网络包括多个网络，多个网络串联连接。

本申请实施例中，检测网络基于目标检测损失函数实现优化，目标检测损失函数包括考虑重叠面积以及中心点距离的损失函数。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图7是本申请实施例提供的电子设备的示意图。如图7所示，该实施例的电子设备7包括：处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者，处理器701执行计算机程序703时实现上述各装置实施例中各模块/单元的功能。

电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解，图7仅仅是电子设备7的示例，并不构成对电子设备7的限定，可以包括比图示更多或更少的部件，或者不同的部件。

处理器701可以是中央处理单元（Central Processing Unit，CPU），也可以是其它通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application SpecificIntegrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

存储器702可以是电子设备7的内部存储单元，例如，电子设备7的硬盘或内存。存储器702也可以是电子设备7的外部存储设备，例如，电子设备7上配备的插接式硬盘，智能存储卡（Smart Media Card，SMC），安全数字（Secure Digital，SD）卡，闪存卡（Flash Card）等。存储器702还可以既包括电子设备7的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可以存储在计算机可读存储介质中，该计算机程序在被处理器执行时，可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如，在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种目标追踪方法，其特征在于，包括：

获取包括待追踪目标的图像；

使用特征提取网络提取所述图像的特征；

使用检测网络，根据所述图像的特征确定所述目标的坐标；

基于目标识别结果实现对所述目标的追踪；

其中，所述使用特征提取网络提取所述图像的特征，包括：

2.根据权利要求1所述的方法，其特征在于，

所述批归一化处理包括：对同一通道中的所有图像进行归一化处理；

所述实例归一化处理包括：对每个通道中的每个图像进行归一化处理。

3.根据权利要求2所述的方法，其特征在于，所述对所述三维嵌入表达表中每个通道的图像进行实例归一化处理，包括：

获取所述图像的实时场景信息；

获取所述特征提取网络的训练场景信息；

基于所述实时场景信息和所述训练场景信息的相关度确定稀疏因子；

根据所述稀疏因子确定每个通道中的N幅图像；

对所述N幅图像进行归一化处理；

其中，N为正整数。

4.根据权利要求1所述的方法，其特征在于，所述使用特征提取网络提取所述图像的特征，还包括：

将批归一化处理后的特征和实例归一化处理后的特征输入所述第一阶段网络的激活函数层，得到所述特征提取网络的第一阶段输出；

将所述第一阶段输出输入所述特征提取网络的第二阶段网络，得到所述图像的特征。

5.根据权利要求4所述的方法，其特征在于，所述第二阶段网络包括至少一个网络，所述至少一个网络中的每个网络，至少包括一个卷积层，以及一个批归一化层。

6.根据权利要求5所述的方法，其特征在于，响应于所述第二阶段网络包括多个网络，所述多个网络串联连接。

7.根据权利要求1所述的方法，其特征在于，所述检测网络基于目标检测损失函数实现优化，所述目标检测损失函数包括考虑重叠面积以及中心点距离的损失函数。

8.一种目标追踪装置，其特征在于，包括：

获取模块，被配置为获取包括待追踪目标的图像；

其中，所述特征提取模块还被配置为：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。