CN114742112A

CN114742112A - 一种对象关联方法、装置及电子设备

Info

Publication number: CN114742112A
Application number: CN202210576171.3A
Authority: CN
Inventors: 邬紫阳; 罗兵华; 刘晓东; 杨涛; 宋荣
Original assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Current assignee: Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date: 2021-05-28
Filing date: 2022-05-24
Publication date: 2022-07-12
Also published as: CN113205072A

Abstract

本申请提供一种对象关联方法、装置及电子设备，包括：获取包含第一图像和第二图像的图像帧序列；第二图像的采集时间早于第一图像的采集时间；获取从第一图像中识别出的目标对象的目标位置信息和目标特征信息；获取从第二图像中识别出的跟踪对象的历史位置信息、历史特征信息和历史跟踪信息，并基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息；将目标对象的目标位置信息、跟踪对象的预测位置信息、历史跟踪信息、以及目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到目标对象与所述跟踪对象是否为同一目标，从而提高建立目标对象和跟踪对象关联关系的准确度。

Description

一种对象关联方法、装置及电子设备

技术领域

本申请涉及图像处理领域，尤其涉及一种对象关联方法、装置及电子设备。

背景技术

基于图像的目标对象跟踪技术是指：将从当前视频帧中识别出的至少一个目标对象与从之前视频帧中识别出的跟踪对象进行关联，并基于目标对象及其关联的跟踪对象的位置信息，确定出目标对象的运动轨迹，从而实现跟踪。

具体地，在从第一个视频帧中识别出至少一个目标对象的相关信息后，可将识别出的目标对象作为跟踪对象，并记录该跟踪对象及其相关信息。当从后续视频帧中识别出目标对象，可将目标对象与每一已跟踪对象进行匹配，若该目标对象与任一跟踪对象匹配，则确定该目标对象与该任一跟踪对象为同一对象，并建立该目标对象与任一跟踪对象的关联关系。然后，基于目标对象和其关联的已跟踪对象的位置信息，确定出目标对象的运动轨迹，从而实现目标对象的跟踪。

由此可见，如何建立目标对象和已跟踪对象的关联关系是实现目标对象跟踪的关键，所以建立目标对象和已跟踪对象的关联关系成为亟待解决的问题。

发明内容

有鉴于此，本申请提供一种对象关联方法、装置及电子设备，用于提高建立目标对象和已跟踪对象的关联关系的准确性。

具体地，本申请是通过如下技术方案实现的：

根据本申请的第一方面，提供一种对象关联方法，所述方法包括：

获取包含第一图像和第二图像的图像帧序列；其中，所述第二图像的采集时间早于所述第一图像的采集时间；

获取从第一图像中识别出的目标对象的目标位置信息和目标特征信息；

获取从第二图像中识别出的跟踪对象的历史位置信息、历史特征信息和历史跟踪信息，并基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息；

将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到所述目标对象与所述跟踪对象是否为同一目标。

可选的，所述目标对象的个数为至少一个，所述跟踪对象的个数为至少一个；

所述将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到所述目标对象与所述跟踪对象是否为同一目标，包括：

将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型；

所述相似度预测模型基于每一目标对象的目标位置信息和各个跟踪对象的预测位置信息，确定用于表示每一目标对象和各个跟踪对象之间的预测位置相似度的第一特征信息，以及，基于每一目标对象的目标特征信息和各个跟踪对象的历史特征信息，确定用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息，以及，对各跟踪对象的历史跟踪信息进行卷积得到注意力概率掩膜；

所述相似度预测模型将每一目标对象和各个跟踪对象之间的第一特征信息和第二特征信息进行融合，并将融合结果与所述注意力概率掩膜进行掩膜运算，得到每一目标对象和各个跟踪对象之间的相似度；

所述相似度预测模型基于已训练的相似度阈值，以及每一目标对象和各个跟踪对象之间的相似度，确定并输出每一目标对象与每一跟踪对象是否为同一目标。

可选的，将所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，包括：

对所述跟踪对象的历史特征信息进行聚类得到聚类结果，所述聚类结果包括：至少一个特征类别、以及至少一个特征类别分别对应的聚类簇；每个聚类簇中的历史特征信息与该聚类簇对应的特征类别匹配；

将目标对象的目标特征信息与至少一个聚类簇的聚类中心进行拼接，将拼接结果输入至已训练的相似度预测模型。

可选的，所述目标对象的个数为m个，所述跟踪对象的个数为n个，所述聚类簇个数为k个；

所述拼接结果通过(m*n)*k*2dims的张量表示；其中，m*n表示目标对象和跟踪对象的匹配对数，k表示聚类簇个数，2dims表示特征信息的维度数；

所述基于每一目标对象的目标特征信息和各个跟踪对象的历史特征信息，确定用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息，包括：

在2dims对应的维度上对所述拼接结果进行卷积运算，得到第一张量，所述第一张量通过(m*n)*k*p表示，p表示卷积运算结果的维度数；

将第一张量中k对应的维度和p对应的维度上的元素进行交换，得到第二张量，第二张量通过(m*n)*p*k表示；

在k对应的维度上对所述第二张量进行卷积运算，将得到的结果确定为用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息。

可选的，所述相似度预测模型通过相似度矩阵表示每一目标对象和各个跟踪对象之间的相似度，所述相似度矩阵中的每个元素表示一个目标对象和一个跟踪对象的相似度；

所述基于已训练的相似度阈值，以及每一目标对象和各个跟踪对象之间的相似度，确定并输出每一目标对象与每一跟踪对象是否为同一目标，包括：

采用所述相似度阈值对相似度矩阵进行扩展，以使扩展后的相似度矩阵包括相似度阈值；

基于扩展后的相似度矩阵的每一行上元素的取值，为该行元素设置权重，以及基于扩展后的相似度矩阵的每一行上元素的取值，为该列元素设置权重；

基于为每行元素和每列元素设置的权重对扩展后的相似度矩阵进行最小流计算，得到每一目标对象和各个跟踪对象的匹配值；

基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与每一跟踪对象是否为同一目标并输出。

可选的，所述目标对象的个数为m个，所述跟踪对象的个数为n个；所述相似度矩阵的尺寸为m*n；

所述采用相似度阈值对相似度矩阵进行扩展，包括：

对m*n的相似度矩阵进行扩展得到M*N的相似度矩阵；其中，M表示最大的可检测的目标对象的数量，N表示最大可跟踪的跟踪目标对象的数量；

采用相似度阈值对M*N的相似度矩阵进行扩展，得到2M*2N的相似度矩阵。

可选的，所述基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与每一跟踪对象是否为同一目标，包括：

针对每一目标对象，若该目标对象与任一跟踪对象的匹配值为第一预设值，则确定该目标对象与该任一跟踪对象为同一目标；

若该目标对象与所有跟踪对象的匹配至均为第二预设值，则表示该目标对象与所有跟踪对象均不是同一目标。

可选的，所述方法还包括：

针对每一目标对象，若该目标对象与所有跟踪对象均不是同一目标，则确定该目标对象为新出现对象；

针对每一跟踪对象，若该跟踪对象与所有目标对象均不是同一目标，则确定该跟踪对象在所述第一图像中消失。

可选的，所述相似度阈值是所述相似度预测模型的模型参数，所述相似度阈值随所述相似度预测模型训练得到。

根据本申请的第二方面，提供一种对象关联装置，所述装置包括：

获取单元，用于获取包含第一图像和第二图像的图像帧序列；其中，所述第二图像的采集时间早于所述第一图像的采集时间；获取从第一图像中识别出的目标对象的目标位置信息和目标特征信息；获取从第二图像中识别出的跟踪对象的历史位置信息、历史特征信息和历史跟踪信息；

预测单元，用于基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息；

输出单元，用于将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到所述目标对象与所述跟踪对象是否为同一目标。

所述输出单元，在将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到所述目标对象与所述跟踪对象是否为同一目标时，用于将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型；所述相似度预测模型基于每一目标对象的目标位置信息和各个跟踪对象的预测位置信息，确定用于表示每一目标对象和各个跟踪对象之间的预测位置相似度的第一特征信息，以及，基于每一目标对象的目标特征信息和各个跟踪对象的历史特征信息，确定用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息，以及，对各跟踪对象的历史跟踪信息进行卷积得到注意力概率掩膜；所述相似度预测模型将每一目标对象和各个跟踪对象之间的第一特征信息和第二特征信息进行融合，并将融合结果与所述注意力概率掩膜进行掩膜运算，得到每一目标对象和各个跟踪对象之间的相似度；所述相似度预测模型基于已训练的相似度阈值，以及每一目标对象和各个跟踪对象之间的相似度，确定并输出每一目标对象与每一跟踪对象是否为同一目标。

可选的，所述输出单元，在将所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型时，用于对所述跟踪对象的历史特征信息进行聚类得到聚类结果，所述聚类结果包括：至少一个特征类别、以及至少一个特征类别分别对应的聚类簇；每个聚类簇中的历史特征信息与该聚类簇对应的特征类别匹配；将目标对象的目标特征信息与至少一个聚类簇的聚类中心进行拼接，将拼接结果输入至已训练的相似度预测模型。

所述输入特征信息通过(m*n)*k*2dims的张量表示；其中，m*n表示目标对象和跟踪对象的匹配对数，k表示聚类簇个数，2dims表示特征信息的维度数；

所述输出单元，在基于每一目标对象的目标特征信息和各个跟踪对象的历史特征信息，确定用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息时，用于在2dims对应的维度上对所述拼接结果进行卷积运算，得到第一张量，所述第一张量通过(m*n)*k*p表示，p表示卷积运算结果的维度数；将第一张量中k对应的维度和p对应的维度上的元素进行交换，得到第二张量，第二张量通过(m*n)*p*k表示；在k对应的维度上对所述第二张量进行卷积运算，将得到的结果确定为用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息。

可选的，所述相似度预测模型通过相似度矩阵表示每一目标对象和各个跟踪对象之间的相似度，相似度矩阵的尺寸为m*n，相似度矩阵中的每个元素表示一个目标对象和一个跟踪对象的相似度；

所述输出单元，在基于已训练的相似度阈值，以及每一目标对象和各个跟踪对象之间的相似度，确定并输出每一目标对象与每一跟踪对象是否为同一目标时，用于采用相似度阈值对相似度矩阵进行扩展，以使扩展后的相似度矩阵包括相似度阈值；基于扩展后的相似度矩阵的每一行上元素的取值，为该行元素设置权重，以及基于扩展后的相似度矩阵的每一行上元素的取值，为该列元素设置权重；基于为每行元素和每列元素设置的权重对扩展后的相似度矩阵进行最小流计算，得到每一目标对象和各个跟踪对象的匹配值；基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与各跟踪对象之间的关联关系并输出。

所述输出单元，在采用相似度阈值对相似度矩阵进行扩展时，用于对m*n的相似度矩阵进行扩展得到M*N的相似度矩阵；其中，M表示最大的可检测的目标对象的数量，N表示最大可跟踪的跟踪目标对象的数量；采用相似度阈值对M*N的相似度矩阵进行扩展，得到2M*2N的相似度矩阵。

可选的，所述输出单元，基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与每一跟踪对象是否为同一目标时，用于针对每一目标对象，若该目标对象与任一跟踪对象的匹配值为第一预设值，则确定该目标对象与该任一跟踪对象为同一目标；若该目标对象与所有跟踪对象的匹配至均为第二预设值，则表示该目标对象与所有跟踪对象均不是同一目标。

可选的，所述输出单元，还用于针对每一目标对象，若该目标对象与所有跟踪对象均不是同一目标，则确定该目标对象为新出现对象；

根据本申请的第三方面，提供一种电子设备，所述电子设备包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现上述对象关联方法。

根据本申请的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述对象关联方法。

根据本申请的第五方面，提供一种计算机程序，计算机程序存储于计算机可读存储介质，并且当处理器执行计算机程序时，促使处理器实现上述对象关联方法。

由上述描述可知，一方面，电子设备可从第一图像中识别出目标对象的目标位置信息和目标特征信息。电子设备从采集时间在第一图像之前的第二图像中识别出跟踪对象的历史位置信息、历史特征信息和历史跟踪信息，并基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息。电子设备可将目标对象的目标位置信息、跟踪对象的预测位置信息、历史跟踪信息、以及m个目标对象的目标特征信息和跟踪对象的历史特征信息输入至已训练的相似度预测模型得到目标对象和跟踪对象是否为同一目标(或者说目标对象与跟踪对象是否关联)，从而实现了目标对象和跟踪对象之间的关联关系的建立。

另一方面，在本申请中，由于是通过有监督的相似度预测模型基于从目标对象和历史跟踪对象提取出的相关信息，预测出目标对象和跟踪对象是否为同一目标，而非是人工设定相似度阈值，以及人工设定度量函数来确定目标对象和跟踪对象是否为同一对象，所以本申请提供的确定目标对象和跟踪对象是否为同一目标的方式更为准确。

附图说明

图1是本申请一示例性实施例示出的一种对象关联方法的流程图；

图2是本申请一示例性实施例示出的一种聚类方法的示意图；

图3是本申请一示例性实施例示出的一种目标特征信息和聚类中心拼接的示意图；

图4是本申请一示例性实施例示出的一种相似度预测模型进行相似度预测的示意图；

图5是本申请一示例性实施例示出的一种对相似度矩阵进行扩展的示意图；

图6是本申请一示例性实施例示出的一种进行最小流计算的示意图；

图7是本申请一示例性实施例示出的一种电子设备的硬件结构图；

图8是本申请一示例性实施例示出的一种对象关联装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

基于图像的对象跟踪技术是指：将从当前视频帧中识别出的至少一个目标对象与从之前视频帧中识别出的跟踪对象进行关联，并基于目标对象及其关联的跟踪对象的位置信息，确定出目标对象的运动轨迹，从而实现跟踪。这里所述的关联，就是将目标对象与各个跟踪对象进行匹配，若目标对象与某一跟踪对象为同一目标，则将该目标对象与跟踪对象进行关联。

比如，电子设备可从第一个视频帧中识别出3个目标对象，并将这3个目标对象作为跟踪对象。当电子设备接收到第二个视频帧时，假设从第二个视频帧中识别出2个目标对象，为了实现对象的跟踪，电子设备需要将这2个目标对象与3个跟踪对象进行匹配。针对每一目标对象，若该目标对象与任一跟踪对象匹配成功，则确定该目标对象与该跟踪对象为同一目标，并建立该目标对象和跟踪对象的对应关系，并基于该跟踪对象的位置信息、该目标对象的位置信息确定出该对象的运动轨迹，从而实现该对象的跟踪。

由此可见，建立第一图像中的目标对象与历史帧中的跟踪对象的关联关系，是实现对象跟踪必不可少的环节。

有鉴于此，本申请旨在提出一种对象关联方法，一方面，电子设备可从第一图像中识别出目标对象的目标位置信息和目标特征信息。电子设备从采集时间在第一图像之前的第二图像中识别出跟踪对象的历史位置信息、历史特征信息和历史跟踪信息，并基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息。电子设备可将目标对象的目标位置信息、跟踪对象的预测位置信息、历史跟踪信息、以及m个目标对象的目标特征信息和跟踪对象的历史特征信息输入至已训练的相似度预测模型得到目标对象和跟踪对象是否为同一目标(或者说目标对象与跟踪对象是否关联)，从而实现了目标对象和跟踪对象之间的关联关系的建立。

另一方面，在本申请中，由于是通过有监督的相似度预测模型基于从目标对象和历史跟踪对象提取出的相关信息，预测出目标对象和跟踪对象相似度，然后依据相似度和随相似度预测模型一起训练得到的相似度阈值确定目标对象和跟踪对象是否为同一目标，而非是人工设定相似度阈值，以及人工设定度量函数来计算目标对象和跟踪对象的相似度，所以本申请确定目标对象和跟踪对象是否为同一目标更为准确。

在介绍本申请提供的对象关联方法之前，先对本申请涉及的概念进行介绍。

1、对象

在本申请中，对象是指需要跟踪的事物，比如，对象可以是交通工具、动物等等，这里只是对对象进行示例性地说明，不对其进行具体地限定。

此外，在本申请中，为了方便叙述，可将从第一图像中识别出的对象称之为目标对象，将从第一图像之前的历史帧识别出的对象称之为跟踪对象。

2、对象的位置信息

对象的位置信息，可以表示出对象在视频帧中的位置。该位置信息可以由框住对象的矩形框的位置信息表示，比如可以由矩形框左上角顶点的坐标、以及矩形框的宽和高表示，当然也可以由矩形框其他顶点坐标和矩形框的宽和高表示，或者由矩形框的各个顶点坐标表示，这里只是对目标对象的位置信息进行示例性地说明，不对其进行具体地限定。

3、对象的特征信息

对象的特征信息，可以是用于表示对象外观的表观特征等信息。

比如，当对象为车辆时，该表观特征可以是车的车辆特征(比如车牌特征、车辆颜色、品牌等等)。这里只是对对象的特征信息进行示例性地说明，不对其进行具体地限定。

4、对象的跟踪信息

在本申请中，可以从多个视频帧中识别出同一对象，电子设备可以基于该同一对象在多个视频帧中的相关信息，形成跟踪信息。

跟踪信息可以表示出同一跟踪对象在不同视频帧中的信息，因此可以将同一跟踪对象对应的不同视频帧的内在关联关系表示出来，对于后续计算相似度的准确性提供了帮助。

具体地，跟踪信息是指与跟踪对象的跟踪相关的信息、比如跟踪对象的轨迹长度、跟踪对象的丢失帧数、该跟踪对象和其跟踪他对象的重叠情况等。

其中，跟踪对象的轨迹长度是指一个跟踪对象从建立开始，到该跟踪对象已关联的对象所在视频帧的总帧数。例如，假设截止当前有10个视频帧，跟踪对象1与从第1帧到第4帧都识别到的某一对象关联，跟踪对象1与从第5帧到第10帧识别到的任一对象都不关联，则跟踪对象1的轨迹长度为4帧。

跟踪对象的丢失帧数，是指一个跟踪对象从建立开始起，连续的未关联对象的视频帧数。比如，假设跟踪对象1与第1帧到第3帧的某一对象关联，跟踪对象1与第4帧识别出的对象不关联，则在第1-4帧时，跟踪对象1的丢失帧数为0。假设，跟踪对象1与第5帧识别出的对象不关联，则在第5帧时跟踪对象1的丢失帧数为1。假设跟踪对象1与第6帧至第10帧中的某一对象关联，则在第6帧时，跟踪对象1的丢失帧数为2。在第7帧至第10帧时，跟踪对象的丢失帧数为0。

跟踪对象和其他跟踪对象的重叠情况是指：由于采集的图像会存在对象之间的遮挡，所以跟踪对象和其他跟踪对象所在的矩形框会出现重叠的现象，所以跟踪对象和其他跟踪对象的重叠情况可以是指跟踪对象和其他跟踪对象所在的矩形框的重叠情况来表示，比如重叠面积等等。

这里只是对跟踪信息进行示例性地说明，在实际应用中，凡是可以与跟踪对象的跟踪相关的信息都可以被称为跟踪信息，这里不对跟踪信息进行具体地限定。

在介绍完上述概念后，下面对本申请提供的对象关联方法进行详细地介绍。

参见图1，图1是本申请一示例性实施例示出的一种对象关联方法的流程图，该方法可应用在电子设备上，该电子设备可以是服务器、数据中心、计算机等，这里只是对电子设备进行示例性地说明，不对其进行具体地限定。

本申请的对象关联方法，适用于确定一个目标对象和一个跟踪对象是否为同一对象，也适用于确定一个目标对象与多个跟踪对象中的每一个跟踪对象是否为同一目标，也适用于确定多个目标对象中的每个目标对象与多个跟踪对象中的每个跟踪对象是否为同一目标，这里不对本方法的适用场景进行具体地限定。

该对象关联方法可包括如下所示步骤。

步骤101：电子设备获取包含第一图像和第二图像的图像帧序列；其中，所述第二图像的采集时间早于所述第一图像的采集时间。

在一种可选的实现方式中，前端采集设备将当前采集的图像发送给电子设备。电子设备可将当前采集的图像作为第一图像，并从前端采集设备之前采集的图像中，选择采集时间早于第一图像的第二图像，形成图像帧序列。

在另一种可选的实现方式中，电子设备记录了前端采集设备采集的所有图像。用户可指定一副图像进行多目标关联，电子设备可将用户指定的图像作为第一图像，将采集时间早于第一图像的第二图像，形成图像帧序列。

这里只是对获取图像帧序列的方式进行示例性地说明，不对其进行具体地限定。

步骤102：电子设备获取从第一图像中识别出目标对象的目标位置信息和目标特征信息。

在一种可选的实现方式中，前端采集设备对采集的各个图像进行对象识别，得到对象的位置信息和特征信息并发送给电子设备。电子设备可直接获取前端采集设备从第一图像中识别出的目标对象在第一图像中的目标位置信息和目标特征信息。

在另一种可选的实现方式中，电子设备可对第一图像进行识别，从第一图像中识别出目标对象在第一图像中的目标位置信息和目标特征信息。

这里只是对电子设备“如何获取从第一图像中识别出目标对象的目标位置信息和目标特征信息”进行示例性地说明，不对其进行具体地限定。

步骤103：电子设备获取从第二图像中识别出跟踪对象的历史位置信息、历史特征信息和历史跟踪信息，并基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息。

下面从步骤1031至步骤1032对步骤103进行详细地说明。

步骤1031：电子设备获取从第二图像中识别出n个跟踪对象的历史位置信息、历史特征信息和历史跟踪信息。

下面先介绍下跟踪对象的历史位置信息、历史特征信息以及历史跟踪信息是如何的记录的，再介绍步骤1031的实现方式。

1)跟踪对象的历史位置信息、历史特征信息以及历史跟踪信息的记录

在本申请中，电子设备在接收到每个视频帧时，除了获取从视频帧中识别出的对象的位置信息、特征信息外，还需要将识别出的对象与上一视频帧中识别出的对象进行关联，并基于关联关系生成该对象的跟踪信息，电子设备可将已识别出的对象作为跟踪对象，并记录该跟踪对象的信息。其中该跟踪对象的信息包括：从该视频帧中识别出的跟踪对象的位置信息、特征信息和跟踪信息。

比如，比如电子设备在接收到第一个视频帧后，识别出对象1、对象2和对象3这3个对象的位置信息和特征信息，还记录了这3个对象的重叠情况等与跟踪相关的信息。

电子设备在接收到第二个视频帧后，假设识别出两个对象，假设确定出这两个对象中的第一个对象与对象1匹配，第二个对象与对象2匹配，则可记录对象1和对象2分别在第二个视频帧中的位置信息以及特征信息，以及对象1和对象2在第二个视频帧中的重叠情况。

然后，截止至这两个视频帧，电子设备可确定对象1的轨迹由对象1在第一个视频帧中的位置和第二个视频帧中的位置组成，轨迹长度为2帧，丢失帧数为0帧，重叠情况可以由两个视频帧中的重叠情况表示。然后，电子设备可基于对象1的轨迹长度、丢失帧数、重叠情况等与跟踪相关的信息形成对象1的跟踪信息。

同理，电子设备可确定对象2的轨迹由对象2在第一个视频帧中的位置和第二个视频帧中的位置组成，轨迹长度为2帧，丢失帧数为0帧，重叠情况可以由两个视频帧中的重叠情况表示。然后，电子设备可基于对象2的轨迹长度、丢失帧数、重叠情况等与跟踪相关的信息形成对象2的跟踪信息。

电子设备可确定对象3的轨迹由对象3在第一个视频帧中的位置构成，轨迹长度为1帧，丢失帧数为0帧，重叠情况可以由第一个视频帧中的重叠情况表示。然后，电子设备可基于对象3的轨迹长度、丢失帧数、重叠情况等与跟踪相关的信息形成对象3的跟踪信息。

由此，电子设备记录了从已接收到的视频帧中识别出的各个跟踪对象的位置信息、特征信息和跟踪信息。

2)步骤1031的实现方式

在实现步骤1021时，电子设备可从已记录的各个跟踪对象的位置信息、特征信息和跟踪信息中，获取从第二图像中识别出跟踪对象的历史位置信息、历史特征信息和历史跟踪信息。

仍以上述例子为例，假设第三个视频帧为第一图像，电子设备可从已记录的跟踪对象的信息中，确定从前两个视频帧中识别出的3个跟踪对象的历史位置信息、历史特征信息和历史跟踪信息。

具体地，电子设备可获取出对象1分别在第一个视频帧、第二个视频帧中的历史位置信息，历史特征信息，和对象1的历史跟踪信息。电子设备可获取对象2分别在第一个视频帧、第二个视频帧中的历史位置信息，历史特征信息，对象2的历史跟踪信息。电子设备可获取对象3在第一个视频帧，历史特征信息，和对象1的历史跟踪信息。

步骤1032：电子设备基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息。

在实现时，针对每个跟踪对象，电子设备可将该跟踪对象在至少一个第二图像的历史位置信息输入至已训练好的位置预测模型，以由该位置预测模型输出该跟踪对象在第一图像中的预测位置信息。

比如，假设历史帧为视频帧1-视频帧10，第一图像为视频帧11。假设视频帧1-视频帧10均包含对象1。

电子设备可将对象1分别在视频帧1-视频帧10的历史位置信息输入至位置预测模型，以由位置预测模型输出对象1在视频帧11中的预测位置信息。

步骤104：电子设备将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到所述目标对象与所述跟踪对象是否为同一目标。

其中，目标对象的个数为至少一个，跟踪对象的个数为至少一个。

其中“得到所述目标对象与所述跟踪对象是否为同一目标”，可以包括如下几种情况：

得到一个目标对象与一个跟踪对象是否为同一目标；

得到一个目标对象与多个跟踪对象中的每个跟踪对象是否为同一目标；

得到多个目标对象中的每个目标对象、与多个跟踪对象中的每个跟踪对象是否为同一目标。

可选的，上述目标对象的个数为m个，m为大于等于1的整数，跟踪对象的个数为n个，n为大于等于1的整数。

下面通过步骤1041至步骤1044对步骤104进行详细地说明。

步骤1041：电子设备将m个目标对象的目标位置信息、n个跟踪对象的预测位置信息输入至已训练的相似度预测模型。

在实现时，为了简化相似度预测模型的计算量，以及为了使得输入的数据格式与相似度预测模型适配，电子设备可先对m个目标对象的目标位置信息、n个跟踪对象的预测位置信息的进行预处理，并将预处理后的m个目标对象的目标位置信息、n个跟踪对象的预测位置信息输入至已训练的相似度预测模型。

1)针对m个目标对象的目标位置信息的预处理

假设，本申请采用目标对象所在矩形框的位置信息，来表示目标对象的目标位置信息。

假设，矩形框的位置信息可包括：矩形框的左上角的顶点坐标(x₁,y₁)，矩形框的宽度w₁、矩形框高度h₁。进而该矩形框位置信息可表示为[x₁,y₁,w₁,h₁]

针对每一个目标对象，电子设备可对该目标对象的目标位置信息[x₁,y₁,w₁,h₁]进行归一化处理，归一化处理的公式可参见如下公式：

x_1g＝x₁/W；

y_1g＝y₁/H；

w_1g＝w₁/W；

h_1g＝h₁/H；

其中，W为一帧图像的宽度，H为一帧图像的高度。

归一化后的目标对象的目标位置信息可表示为[x_1g,y_1g,w_1g,h_1g]。

2)针对n个跟踪对象的预测位置信息的预处理

假设，本申请采用跟踪对象所在矩形框的位置信息，来表示跟踪对象的预测位置信息。

假设，矩形框的位置信息可包括：矩形框的左上角的顶点坐标(x₂,y₂)，矩形框的宽度w₂、矩形框高度h₂。进而跟踪对象的预测位置信息可表示为[x₂,y₂,w₂,h₂]；

针对每一个跟踪对象，电子设备可对该跟踪对象的预测位置信息[x₂,y₂,w₂,h₂]进行归一化处理，归一化处理的公式可参见如下公式：

x_2g＝x₂/W；

y_2g＝y₂/H；

w_2g＝w₂/W；

h_2g＝h₂/H；

其中，W为一帧图像的宽度，H为一帧图像的高度。

归一化后的跟踪对象的预测位置信息可表示为[x_2g,y_2g,w_2g,h_2g]。

然后，电子设备可将归一化后的各个目标对象的目标位置信息和各个跟踪对象的预测位置信息组成(m*n)*8的矩阵，然后将该矩阵输入至已训练的相似度预测模型中。

其中，m*n表示该目标对象和跟踪对象的匹配对数。例如假设目标对象有两个(即m＝2)，分别为目标对象1、目标对象2。跟踪对象有3个(即n＝3)，分别为跟踪对象1、跟踪对象2和跟踪对象3，则目标对象和跟踪对象形成的匹配对包括6个匹配对(即m*n)，分别为[目标对象1，跟踪对象1]、[目标对象1，跟踪对象2]、[目标对象1，跟踪对象3]、[目标对象2，跟踪对象1]、[目标对象2，跟踪对象2]、[目标对象2，跟踪对象3]。

上述(m*n)*8中的“8”表示位置信息的维度数，其中目标位置信息由[x_1g,y_1g,w_1g,h_1g]这4个维度表示，预测位置信息由[x_2g,y_2g,w_2g,h_2g]这4个维度表示，所以这里位置信息是由8个维度表示。

步骤1042：电子设备m个目标对象的目标特征信息和n个跟踪对象的历史特征信息输入至已训练的相似度预测模型。

下面通过步骤A1至步骤A2对步骤1042进行详细地说明。

步骤A1：电子设备对所述跟踪对象的历史特征信息进行聚类得到聚类结果，所述聚类结果包括：至少一个特征类别、以及至少一个特征类别分别对应的聚类簇；每个聚类簇中的历史特征信息与该聚类簇对应的特征类别匹配。

在实现时，通常一个对象的特征信息可包括多个类别。比如对象为汽车时，该汽车在行驶时的成像可以是该汽车的正面图像、背面图像或者侧面图像，为了后续相似度预测模型可以计算出更为准备的目标对象和跟踪对象之间的特征相似度，电子设备可对n个跟踪对象的历史特征信息进行分类，再将m个目标对象的目标特征信息与分类后的历史特征信息进行拼接并输入相似度预测模型，以使得相似度预测模型可以计算每个目标对象的目标特征信息和各个跟踪对象的不同类别的历史特征信息的相似度，进而得到更为准确的目标对象和跟踪对象之间的特征相似度。

具体地，电子设备可对n个跟踪对象的历史特征信息进行聚类得到聚类结果，该聚类结果包括：k个特征类别、以及k个特征类别分别对应的k个聚类簇；每个聚类簇中的历史特征信息与该聚类簇对应的特征类别匹配。

例如，如图2所示，三角形表示聚类中心，围绕三角形的圆形组成聚类簇。假设对n个跟踪对象的历史特征信息进行聚类得到3个聚类簇，分别为聚类簇1、聚类簇2和聚类簇3。这三个聚类簇的类别分别为正面特征、背面特征和侧面特征，则聚类簇1包含有一些跟踪对象的正面特征，聚类簇2包含有一些跟踪对象的背面特征，聚类簇3包含有一些跟踪对象的侧面特征。

步骤A2：电子设备可将m个目标对象的目标特征信息与k个聚类簇的聚类中心进行拼接，将拼接结果输入至已训练的相似度预测模型。

在拼接时，电子设备可m个目标对象的目标特征信息分别与k个聚类簇进行拼接，将拼接结果作为输入特征信息。

例如，如图3所示，假设k＝3，电子设备可将m个目标对象的目标特征信息与聚类簇1拼接得到拼接结果1，将m个目标对象的目标特征信息与聚类簇2拼接得到拼接结果2，将m个目标对象的目标特征信息与聚类簇3拼接得到拼接结果3，然后拼接结果1、拼接结果2和拼接结果3组成输入特征信息。

其中，该输入特征信息可以通过(m*n)*k*2dims的张量表示。

其中，m*n表示目标对象和跟踪对象的匹配对数，具体参见上文描述，这里不再赘述。

k表示聚类簇个数。

2dims表示特征信息(包括目标特征信息和历史特征信息)的维度数

此外，为了减少相似度预测模型的计算量，在聚类前，电子设备可先对m个目标对象的目标特征信息和n个跟踪对象的历史特征信息进行归一化处理。

比如，目标特征信息和历史特征信息一般是用一个多维度的特征向量表示(比如64维的特征向量或者是128维的特征向量)，电子设备可将代表目标特征信息和历史特征信息的特征向量F在长度上进行归一化处理，归一化处理公式如下所示：

其中，

是特征向量F在长度上进行归一化处理后得到的值。

步骤A2：电子设备可将输入特征信息输入至已训练的相似度预测模型。

在实现时，电子设备可将(m*n)*k*2dims这一张量表示的拼接结果输入至已训练的相似度预测模型。

步骤1043：电子设备将n个跟踪对象的历史跟踪信息输入至已训练的相似度预测模型。

为了简化相似度预测模型的计算量，电子设备可对n个跟踪对象的历史跟踪信息预处理，比如进行归一化处理等。

具体地，历史跟踪信息可包括：跟踪对象的轨迹长度、丢失帧数，重叠率等维度，所以电子设备可以将历史跟踪信息中的各个维度进行归一化处理。

比如，电子设备可通过如下公式对跟踪对象的轨迹长度l进行归一化处理：

其中，l_1g表示归一化后的轨迹长度，Lmax表示最大允许轨迹长度。

比如，电子设备可通过如下公式对跟踪对象的丢失帧数t进行归一化处理：

其中，t_1g表示归一化后的丢失帧数，Tmax表示最大允许丢失帧数。

然后，电子设备可将归一化处理的各个量组成(m*n)*q的矩阵，并将该矩阵输入至已训练的相似度预测模型。

q表示跟踪信息的维度数。比如跟踪信息所包括的轨迹长度、丢失帧数，重叠率都是跟踪信息的维度。若跟踪信息包括的轨迹长度、丢失帧数，重叠率这3个维度，则q为3。

步骤1044：相似度预测模型可以通过如下步骤得到每一目标对象与每一跟踪对象是否为同一目标。

其中，相似度预测模型可以是指有监督学习的模型。比如，该相似度预测模型可以神经网络等，这里只是对相似度预测模型进行示例性说明，不对其进行具体地限定。

如图4所示，相似度预测模型可以基于每一目标对象的目标位置信息和各跟踪对象的预测位置信息，确定每一目标对象和各个跟踪对象之间的位置相似度。相似度预测模型还可以基于所述输入特征信息确定每一目标对象和各个跟踪对象之间的特征相似度，以及对各跟踪对象的历史跟踪信息进行卷积得到注意力概率掩膜。

然后相似度预测模型可以将每一目标对象和各个跟踪对象之间的位置相似度和特征相似度进行融合，并将融合结果与所述注意力概率掩膜进行掩膜运算，得到每一目标对象和各个跟踪对象之间的相似度，以及基于所述相似度预测模型的模型参数确定出相似度阈值。

下面通过步骤B1至步骤B6对步骤1044进行详细地说明。

步骤B1：相似度预测模型可以基于每一目标对象的目标位置信息和各跟踪对象的预测位置信息，确定用于表示每一目标对象和各个跟踪对象之间的位置相似度的第一特征信息。

在实现时，如上文所述，电子设备可用(m*n)*8的矩阵表示每一目标对象的目标位置信息和每一跟踪对象的预测位置信息，并将该(m*n)*8的矩阵输入至相似度预测模型。

相似度预测模型可以对该(m*n)*8的矩阵进行至少一次全连接计算，比如进行3次全连接计算，得到(m*n)*p的位置相似度特征矩阵，该(m*n)*p的位置相似度特征矩阵为第一特征信息，可以表示每一目标对象和各个跟踪对象之间的位置相似度。

其中，p表示全连接层的数据元，或者换句话来说，p表示全连接结果的维度数。

步骤B2:相似度预测模型还可以基于每一目标对象的目标特征信息和各个跟踪对象的历史特征信息，确定用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息。

由上文描述可知，每一目标对象的目标特征信息和各个跟踪对象的历史特征信息是由拼接结果表示，所以相似度预测模型接收到的是用于表示每一目标对象的目标特征信息和各个跟踪对象的历史特征信息的拼接结果。

如上文所示，拼接结果可以通过(m*n)*k*2dims的张量表示；其中，m*n表示目标对象和跟踪对象的匹配对数，k表示聚类簇个数，2dims表示特征信息的维度数。

相似度预测模型可先在2dims对应的维度上对该拼接结果进行卷积运算，得到第一张量，第一张量通过(m*n)*k*p表示，p表示卷积运算结果的维度数。然后，相似度预测模型可以将第一张量中k对应的维度和p对应的维度上的元素进行交换，得到第二张量，第二张量通过(m*n)*p*k表示。然后，相似度预测模型可在k对应的维度上对所述第二张量进行卷积运算，得到(m*n)*p*1的张量，由于该张量的第三个维度为1，所以得到的(m*n)*p*1的张量实则为一个(m*n)*p的表观相似度特征矩阵，该(m*n)*p的表观相似度特征矩阵为第二特征信息，可以表示每一目标对象和各个跟踪对象之间的特征相似度。

需要说明的是，相似度预测模型先在2dims对应的维度上对该输入特征信息进行卷积运算，可以实现目标特征信息和k个聚类中心的相似性计算，相似度预测模型将第一张量中k对应的维度和p对应的维度上的元素进行交换得到第二张量，并在在k对应的维度上对所述第二张量进行卷积运算，可以实现目标特征信息与k类聚类中心的相似结果的融合。由此可见，本申请这种方式可将目标特征信息与不同类别的聚类中心进行相似计算，并进行相似结果重合，所以计算出的特征相似度更为准确。

步骤B3：相似度预测模型对各跟踪对象的历史跟踪信息进行卷积得到注意力概率掩膜。

由上述描述可知，该历史跟踪信息可以由(m*n)*q的矩阵表示。

相似度预测模型在接收到该(m*n)*q的矩阵后，可对该(m*n)*q进行卷积操作(比如进行1*1的卷积操作)。然后，相似度预测模型可以将卷积结果映射到[0,1]，得到注意力概率掩膜。

在映射时，相似度预测模型可以通过sigmoid函数(一种函数)将卷积结果映射到[0,1]，这里只是对映射方式进行示例性地说明，不对其进行具体地限定。

步骤B4：相似度预测模型可以将每一目标对象和各个跟踪对象之间的位置相似度和特征相似度进行融合，并将融合结果与所述注意力概率掩膜进行掩膜运算，得到每一目标对象和各个跟踪对象之间的相似度。

相似度预测模型可以将每一目标对象和各个跟踪对象之间的位置相似度和特征相似度进行拼接。然后，相似度预测模型对拼接后的位置相似度和特征相相似度通过至少一次全连接的方式进行融合。

相似度预测模型可以将融合结果与上述注意力概率掩膜进行掩膜运算(比如可以将融合结果与注意力概率掩膜相乘)，并将掩膜运算的进行全连接操作，将全连接操作结果映射到[0,1]区间，从而得到每一目标对象和各个跟踪对象之间的相似度。

其中，每一目标对象和各个跟踪对象之间的相似度可以以m*n的相似度矩阵表示，该相似度矩阵的尺寸为m*n，相似度矩阵中的每个元素表示一个目标对象和一个跟踪对象的相似度。

比如，如图4所示m*n的相似度矩阵所示，在图4所示的矩阵中，m＝4，n＝4，表示该例中具有4个跟踪对象，4个目标对象。

该矩阵的第一行第一列的元素取值为0.11，表示，第一个目标对象和第一个跟踪对象之间相似度为0.11。

步骤B5：相似度预测模型获取已训练出的相似度阈值。

在本申请中，将相似度阈值作为相似度预测模型的一个可学习参数来构建相似度预测模型，这就使得在相似度预测模型训练过程中，相似度阈值也会随着调整。

例如，在训练时，相似度预测模型会基于输入的样本得到相似度矩阵和相似度阈值，然后相似度预测模型利用相似度阈值对相似度矩阵进行扩展填充，得到每一检测对象和跟踪对象的关联结果，并计算得到的关联结果与实际的关联结果的误差，并将误差反向传递给相似度预测模型，以由相似度预测模型基于该误差调节该模型的参数，由于该相似度阈值是该相似度预测模型中的一个可学习参数，所以对相似度预测模型训练时，也会调节该相似度阈值，所以该相似度阈值是一个可学习的参数。具体训练过程可参见后文所述，这里只是简单叙述。

在获取相似度阈值时，相似度预测模型可以从本模型的模型参数中，确定出表示该相似度阈值的模型参数，并调用该确定出的模型参数作为相似度阈值。

当然，在实际应用中，也可以用相似度预测模型的多个参数来表示相似度阈值，相似度预测模型可以基于可以对这多个参数进行预设规则的运算，得到相似度阈值。

这里只是对相似度阈值的确定方式进行示例性地说明，不对其进行具体地限定。

需要说明的是：由上述描述可以看出，一方面，由于相似度预测模型在计算每一目标对象和各个跟踪对象的相似度时考虑了位置相似度、特征相似度等多个维度，所以计算出的相似度更为准确。此外，相比于将多个维度相似度(比如位置相似度、特征相似度等)加权计算得到相似度的方式，本申请采用了有监督的相似度预测模型(比如神经网络)来将多个维度的相似度的融合得到最终相似度，使得最终相似度的计算不局限于线性计算，使得计算结果更为准确。

另一方面，在计算相似度的时候，相似度预测模型还考虑了用于表征同一对象在不同帧的关联关系的跟踪信息，将跟踪信息作为掩膜与融合后的位置相似度和特征相似度进行掩膜运算，这样更使得预测模型得到的相似度更为准确。

第三方面，本申请的相似度阈值不再是人工设定的阈值，而是将相似度阈值作为相似度预测模型的一个参数，这使得相似度阈值会随着相似度预测模型的训练而不断调整，使得该相似度阈值成为可学习的相似度阈值，有利于后续确定目标对象和跟踪对象的关联关系。

步骤B6：电子设备基于已训练的相似度阈值，以及每一目标对象和各个跟踪对象之间的相似度，确定并输出每一目标对象与每一跟踪对象是否为同一目标。

在实现时，相似度预测模型会输出用于表示每一目标对象和各个跟踪对象的相似度的相似度矩阵。相似度矩阵的尺寸为m*n，相似度矩阵中的每个元素表示一个目标对象和一个跟踪对象的相似度。

电子设备可采用相似度阈值对相似度矩阵进行扩展，以使扩展后的相似度矩阵包括相似度阈值，并基于扩展后的相似度矩阵的每一行上元素的取值，为该行元素设置权重，以及基于扩展后的相似度矩阵的每一行上元素的取值，为该列元素设置权重。然后电子设备可基于为每行元素和每列元素设置的权重对扩展后的相似度矩阵进行最小流计算，得到每一目标对象和各个跟踪对象的匹配值，并基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与各跟踪对象之间的关联关系。

下面通过步骤B61至步骤B64对步骤B6进行详细地描述。

步骤B61：采用相似度阈值对相似度矩阵进行扩展，以使扩展后的相似度矩阵包括相似度阈值。

在实现时，电子设备可采用用于表示无效位的预设值将m*n的相似度矩阵扩展为M*N的相似度矩阵。其中，M表示预设的最大可检测的目标对象的数量，N表示预设的最大可跟踪的跟踪目标对象的数量。

例如，如图5所示，图5中的a表示m*n的相似度矩阵，电子设备可将第m行至M行，以及n列至N列的每一元素的取值设置为0，从而形成M*N的相似度矩阵，M*N的相似度矩阵如图5中的b所示。

其中，将m*n的相似度矩阵称之为M*N矩阵中的有效区域，参与后续的最小流计算，将M*N矩阵中用0填充的区域称之为无效区域，不参与后续的最小流计算。

采用表示无效位的预设值将m*n的相似度矩阵填充扩展为M*N的相似度矩阵，主要是为了使得每一帧对应的相似度矩阵的长宽尺寸一致。

在得到M*N的相似度矩阵后，电子设备可以使用相似度阈值对该M*N的相似度矩阵进行扩展，得到2M*2N的相似度矩阵。

例如，如图5所示，在扩展时，电子设备可在M*N的相似度矩阵(如图b所示)的下方和右侧进行pad操作(一种填充操作)，pad的取值为相似度阈值。换句话来说，电子设备在第M行至第2M行、第N列至第2N列的每一元素的取值设置为相似度阈值，从而形成2M*2N的相似度矩阵(如图5中的c所示)。

其中，将2M*2N矩阵中的用相似度阈值填充的区域称之为pad区域，参与后续的最小流计算。

步骤B62：电子设备基于扩展后的相似度矩阵的每一行上元素的取值，为该行元素设置权重，以及基于扩展后的相似度矩阵的每一行上元素的取值，为该列元素设置权重。

在设置权重时，为了使得2M*2N中的有效区域和pad区域参与后续的最小流计算，而使得无效区域不参与最小流计算，电子设备可将有效区域和pad区域的行、列的权重设置为1，将无效区域的行、列的权重设置为0。

在实现时，针对2M*2N中的每一行元素，若该行元素包括m*n的相似度矩阵中的元素，则将该行元素的权重设置为1，若该行元素不包括m*n的相似度矩阵中的元素，但包括0和相似度阈值，则将该行元素的权重设置为0，若该行元素只包括相似度阈值，则将该行元素的权重设置为1。

针对2M*2N中的每一列元素，若该列元素包括m*n的相似度矩阵中的元素，则将该列元素的权重设置为1，若该列元素不包括m*n的相似度矩阵中的元素，但包括0和相似度阈值，则将该列元素的权重设置为0，若该列元素只包括相似度阈值，则将该列元素的权重设置为1。

步骤B63：电子设备基于为每行元素和每列元素设置的权重对扩展后的相似度矩阵进行最小流计算，得到每一目标对象和各个跟踪对象的匹配值。

其中，最小流计算可以是匈牙利计算，也可以是EMD(Earth Mover’s Distance，地球搬运距离)算法，这里只是对最小流算法进行示例性地说明，不对其进行具体地限定。

如图6所示，在实现时，电子设备可基于为每行元素和每列元素设置的权重，对扩展后的2M*2N的相似度矩阵进行最小流计算，得到图6所示的匹配值矩阵，该匹配值矩阵的每一元素可以表示一个跟踪对象和一个目标对象的匹配值。

需要说明的是，在现有方式中，当得到每个目标对象和各个跟踪对象的相似度矩阵后，先进行最小流求解，得到每个目标对象和各个跟踪对象的匹配值。然后，针对每一个目标对象和每一跟踪对象的匹配值，将该匹配值与预设阈值进行比较，若该匹配值大于预设阈值，则确定该目标对象和该跟踪对象关联，若该匹配值小于预设阈值，则确定该目标对象和该跟踪对象不关联。

这样的不好之处在于：由于现有方式在求解最小流的过程中没有考虑相似度阈值，从而使得最终关联结果不是很准确。

而本申请是采用相似度阈值对相似度矩阵进行扩展填充，并设置各行各列的权重值，并基于权重对扩展填充后的相似度矩阵进行最小流计算。由于在最小流计算考虑可学习的相似度阈值，所以使得匹配结果更为准确。

步骤B64：相似度预测模型每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与每一跟踪对象是否为同一目标(即每一目标对象与每一跟踪对象是否关联)。

在实现时，针对每一目标对象，若该目标对象与任一跟踪对象的匹配值为第一预设值，则确定该目标对象与该任一跟踪对象为同一目标，即该目标对象与该任一跟踪对象关联；

若该目标对象与所有跟踪对象的匹配至均为第二预设值，则表示该目标对象与所有跟踪对象均不是同一目标，即该目标对象与所有跟踪对象均不关联。

其中，第一预设值可以由1表示，第二预设值可以由0表示，这里只是对第一预设值和第二预设值进行示例性地说明，不对其进行具体地限定。

例如，如上文所述，每一目标对象和各个跟踪对象的匹配值可以由图6中的匹配值矩阵进行表示。

以图6中的匹配值矩阵为例，由于第1行第3列的元素为第一预设值(即为1)，确定第一个跟踪对象与第三个目标对象关联。

由于第2行第4列的元素为1，则确定第2个跟踪对象与第4个目标对象是同一目标，即第2个跟踪对象与第4个目标对象关联。

由于第3行第2列的元素为1，则确定第3个跟踪对象与第2个目标对象是同一目标，即第3个跟踪对象与第2个目标对象关联。

由于第4行第1列的元素为1，则确定第4个跟踪对象与第1个目标对象是同一目标，即第4个跟踪对象与第1个目标对象关联。

由于第5列有效区域元素都为0，pad区域元素为1，则确定第5个目标对象与所有跟踪对象都不是同一目标，即第5个目标对象与所有跟踪对象都不关联。

此外，在本申请中，电子设备除了可以确定出每一目标对象与跟踪对象的关联关系，还可以确定第一图像中新出现对象，和第一图像中消失的跟踪对象。

具体地，针对每一目标对象，若该目标对象与所有跟踪对象均不关联，电子设备则可确定该目标对象为新出现对象。针对每一跟踪对象，若该跟踪对象与所有目标对象均不关联，电子设备则可确定该跟踪对象在所述第一图像中消失。

例如，以图6中的匹配值矩阵为例。

由于第5列有效区域元素都为0，第5列pad区域有元素为1，所以电子设备确定第5个目标对象与所有跟踪对象都不是同一目标，进而可确定第5个目标对象为新出现对象。

由于第5行有效区域元素都为0，第5行pad区域有元素为1，所以电子设备确定第5个跟踪对象与所有目标对象都不是同一目标，进而可确定第5个跟踪对象从第一图像中消失。

此外，在本申请中，电子设备可通过如下方式对相似度预测模型进行训练。其中，相似度阈值是相似度预测模型中的一个可学习参数。

在训练前，本申请提供了样本标签对。

其中，样本包括了：第N帧识别出的至少一个目标对象的位置信息、特征信息，以及从第N帧之前的视频帧识别出的至少一个跟踪对象的特征信息，以及预测出的各跟踪对象在第N帧中的预测位置信息，以及各跟踪对象的跟踪信息。

标签为每一目标对象和各个跟踪对象的匹配值。

电子设备可将样本和标签输入至相似度预测模型，相似度预测模型可以通过上文所述的方式，基于每一目标对象的目标位置信息和各跟踪对象的预测位置信息，确定用于表示每一目标对象和各个跟踪对象之间的位置相似度的第一特征信息，以及，基于每一目标对象的目标特征信息和各个跟踪对象的历史特征信息，确定用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息，以及，对各跟踪对象的历史跟踪信息进行卷积得到注意力概率掩膜。相似度预测模型将每一目标对象和各个跟踪对象之间的位置相似度和特征相似度进行融合，并将融合结果与所述注意力概率掩膜进行掩膜运算，得到用于表示每一目标对象和各个跟踪对象之间的相似度的相似度矩阵。

然后，相似度预测模型可以调用表示相似度阈值的模型参数、以及得到的相似度矩阵，得到每一目标对象和各个跟踪对象之间的匹配值。

具体地，相似度预测模型可利用作为相似度预测模型模型参数的相似度阈值对相似度矩阵进行扩展，并为扩展后的相似度矩阵设置行、列权重，并利用设置的权重对扩展后的相似度矩阵进行最小流计算，计算得到每一目标对象和各个跟踪对象的匹配值。

然后，电子设备可采用计算相似度预测模型得到的每一目标对象和各个跟踪对象的匹配值与标签之间的交叉熵损失，并将该交叉熵损失作为误差回传给相似度预测模型，以由相似度预测模型基于调整自己的模型参数，以达到训练的目的。

在训练过程中，由于相似度阈值是该相似度预测模型的一个可学习参数，所以相似度预测模型在调整自身模型参数时，也会调整该相似度阈值。换句话来说，相似度阈值会随着模型训练而不断学习，所以该相似度阈值是一个可学习的相似度阈值。

由上述描述可知，第一方面，在本申请中，由于是通过有监督的相似度预测模型基于从目标对象和历史跟踪对象提取出的相关信息，预测出目标对象和跟踪对象相似度，然后依据相似度和随相似度预测模型一起训练得到的相似度阈值确定目标对象和跟踪对象是否为同一目标，而非是人工设定相似度阈值，以及人工设定度量函数来计算目标对象和跟踪对象的相似度，所以本申请确定目标对象和跟踪对象是否为同一目标更为准确。

第二方面，在计算每一目标对象和跟踪对象的相似度时，由于相似度预测模型在计算每一目标对象和各个跟踪对象的相似度时考虑了位置相似度、特征相似度等多个维度，所以计算出的相似度更为准确。此外，相比于将多个维度相似度(比如位置相似度、特征相似度等)加权计算得到相似度的方式，本申请采用了有监督的相似度预测模型(比如神经网络)来将多个维度的相似度的融合得到最终相似度，使得最终相似度的计算不局限于线性计算，使得计算结果更为准确。

此外，计算相似度的时候，相似度预测模型还考虑了用于表征同一对象在不同帧的关联关系的跟踪信息，将跟踪信息作为掩膜与融合后的位置相似度和特征相似度进行掩膜运算，这样更使得预测模型得到的相似度更为准确。

此外，本申请的相似度阈值不再是人工设定的阈值，而是将相似度阈值作为相似度预测模型的一个参数，这使得相似度阈值会随着相似度预测模型的训练而不断调整，使得该相似度阈值成为可学习的相似度阈值，有利于后续确定目标对象和跟踪对象的关联关系。

第三方面，在基于相似度矩阵和相似度阈值确定每一目标对象和各个跟踪对象的关联关系时，本申请是采用相似度阈值对相似度矩阵进行扩展填充，并设置各行各列的权重值，并基于权重对扩展填充后的相似度矩阵进行最小流计算。由于在最小流计算考虑可学习的相似度阈值，所以使得匹配结果更为准确。

参见图7，图7是本申请一示例性实施例示出的一种电子设备的硬件结构图。

该电子设备包括：通信接口701、处理器702、机器可读存储介质703和总线704；其中，通信接口701、处理器702和机器可读存储介质703通过总线704完成相互间的通信。处理器702通过读取并执行机器可读存储介质703中与对象关联控制逻辑对应的机器可执行指令，可执行上文描述的对象关联方法。

参见图8，图8是本申请一示例性实施例示出的一种对象关联装置的框图，该装置可应用在电子设备上，可包括如下所示单元。

获取单元801，用于获取包含第一图像和第二图像的图像帧序列；其中，所述第二图像的采集时间早于所述第一图像的采集时间；获取从第一图像中识别出的目标对象的目标位置信息和目标特征信息；获取从第二图像中识别出的跟踪对象的历史位置信息、历史特征信息和历史跟踪信息；

预测单元802，用于基于每个跟踪对象的历史位置信息预测出该跟踪对象在第一图像中的预测位置信息；

输出单元803，用于将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到所述目标对象与所述跟踪对象是否为同一目标。

所述输出单元803，在将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，得到所述目标对象与所述跟踪对象是否为同一目标时，用于将所述目标对象的目标位置信息、所述跟踪对象的预测位置信息、历史跟踪信息、以及所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型；所述相似度预测模型基于每一目标对象的目标位置信息和各个跟踪对象的预测位置信息，确定用于表示每一目标对象和各个跟踪对象之间的预测位置相似度的第一特征信息，以及，基于每一目标对象的目标特征信息和各个跟踪对象的历史特征信息，确定用于表示每一目标对象和各个跟踪对象之间的特征相似度的第二特征信息，以及，对各跟踪对象的历史跟踪信息进行卷积得到注意力概率掩膜；所述相似度预测模型将每一目标对象和各个跟踪对象之间的第一特征信息和第二特征信息进行融合，并将融合结果与所述注意力概率掩膜进行掩膜运算，得到每一目标对象和各个跟踪对象之间的相似度；所述相似度预测模型基于已训练的相似度阈值，以及每一目标对象和各个跟踪对象之间的相似度，确定并输出每一目标对象与每一跟踪对象是否为同一目标。

可选的，所述输出单元803，在将所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型时，用于对所述跟踪对象的历史特征信息进行聚类得到聚类结果，所述聚类结果包括：至少一个特征类别、以及至少一个特征类别分别对应的聚类簇；每个聚类簇中的历史特征信息与该聚类簇对应的特征类别匹配；将目标对象的目标特征信息与至少一个聚类簇的聚类中心进行拼接，将拼接结果输入至已训练的相似度预测模型。

所述输出单元803，在基于已训练的相似度阈值，以及每一目标对象和各个跟踪对象之间的相似度，确定并输出每一目标对象与每一跟踪对象是否为同一目标时，用于采用相似度阈值对相似度矩阵进行扩展，以使扩展后的相似度矩阵包括相似度阈值；基于扩展后的相似度矩阵的每一行上元素的取值，为该行元素设置权重，以及基于扩展后的相似度矩阵的每一行上元素的取值，为该列元素设置权重；基于为每行元素和每列元素设置的权重对扩展后的相似度矩阵进行最小流计算，得到每一目标对象和各个跟踪对象的匹配值；基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与各跟踪对象之间的关联关系并输出。

所述输出单元803，在采用相似度阈值对相似度矩阵进行扩展时，用于对m*n的相似度矩阵进行扩展得到M*N的相似度矩阵；其中，M表示最大的可检测的目标对象的数量，N表示最大可跟踪的跟踪目标对象的数量；采用相似度阈值对M*N的相似度矩阵进行扩展，得到2M*2N的相似度矩阵。

可选的，所述输出单元803，基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与每一跟踪对象是否为同一目标时，用于针对每一目标对象，若该目标对象与任一跟踪对象的匹配值为第一预设值，则确定该目标对象与该任一跟踪对象为同一目标；若该目标对象与所有跟踪对象的匹配至均为第二预设值，则表示该目标对象与所有跟踪对象均不是同一目标。

可选的，所述输出单元803，还用于针对每一目标对象，若该目标对象与所有跟踪对象均不是同一目标，则确定该目标对象为新出现对象；

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述对象关联方法。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

本文中提到的计算机可读存储介质可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：易失存储器、非易失性存储器或者类似的存储介质。具体地，计算机可读存储介质可以是RAM(Radom Access Memory，随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

此外，本申请还提供一种计算机程序，计算机程序存储于计算机可读存储介质，并且当处理器执行计算机程序时，促使处理器实现上述对象关联方法。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种对象关联方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标对象的个数为至少一个，所述跟踪对象的个数为至少一个；

3.根据权利要求2所述的方法，其特征在于，将所述目标对象的目标特征信息和所述跟踪对象的历史特征信息输入至已训练的相似度预测模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述目标对象的个数为m个，所述跟踪对象的个数为n个，所述聚类簇个数为k个；

5.根据权利要求2所述的方法，其特征在于，所述相似度预测模型通过相似度矩阵表示每一目标对象和各个跟踪对象之间的相似度，所述相似度矩阵中的每个元素表示一个目标对象和一个跟踪对象的相似度；

6.根据权利要求5所述的方法，其特征在于，所述目标对象的个数为m个，所述跟踪对象的个数为n个；所述相似度矩阵的尺寸为m*n；

所述采用相似度阈值对相似度矩阵进行扩展，包括：

7.根据权利要求5所述的方法，其特征在于，所述基于每一目标对象和各个跟踪对象的匹配值，得到每一目标对象与每一跟踪对象是否为同一目标，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述相似度阈值是所述相似度预测模型的模型参数，所述相似度阈值随所述相似度预测模型训练得到。

10.一种对象关联装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括可读存储介质和处理器；

其中，所述可读存储介质，用于存储机器可执行指令；

所述处理器，用于读取所述可读存储介质上的所述机器可执行指令，并执行所述指令以实现权利要求1-9任一所述方法的步骤。