CN112528786A

CN112528786A - 车辆跟踪方法、装置及电子设备

Info

Publication number: CN112528786A
Application number: CN202011384131.6A
Authority: CN
Inventors: 张伟; 谭啸; 孙昊; 丁二锐
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-19
Anticipated expiration: 2040-11-30
Also published as: EP3876150A3; CN112528786B; US20210350146A1; EP3876150A2

Abstract

本申请公开了车辆跟踪方法、装置及电子设备，涉及计算机视觉和深度学习技术等人工智能领域。具体实现方案为：识别车辆行驶过程中采集的视频流中第一图像的第一车辆的第一位置信息；以及识别所述视频流中第二图像的第二车辆的第二位置信息；其中，所述第一图像为所述视频流中与所述第二图像相邻的前N帧图像，N为正整数；基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息；基于所述第一位置信息、第二位置信息以及第一位置偏移信息，确定所述第二车辆的跟踪结果。根据本申请的技术，解决了车辆跟踪技术存在的车辆跟踪准确性比较低的问题，提高了车辆跟踪的准确性。

Description

车辆跟踪方法、装置及电子设备

技术领域

本申请涉及人工智能领域，尤其涉及计算机视觉和深度学习技术领域，具体涉及一种车辆跟踪方法、装置及电子设备。

背景技术

对道路交通的视频进行结构化分析，确定图像中的车辆，并对车辆进行跟踪，是智能交通视觉感知的重要技术能力。

相关技术中，车辆跟踪技术主要分成两个阶段，第一个阶段通常利用实例分割模型对图像帧进行实例分割，确定图像帧中包含的检测框或分割掩膜；第二阶段通常是对检测框或分割掩膜进行特征提取，确定车辆的特征，并根据当前图像帧中的车辆特征与历史图像帧中的车辆特征间的匹配度，对车辆进行跟踪。

发明内容

本公开提供了一种车辆跟踪方法、装置及电子设备。

根据本公开的第一方面，提供了一种车辆跟踪方法，包括：

识别车辆行驶过程中采集的视频流中第一图像的第一车辆的第一位置信息；以及识别所述视频流中第二图像的第二车辆的第二位置信息；其中，所述第一图像为所述视频流中与所述第二图像相邻的前N帧图像，N为正整数；

基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息；

基于所述第一位置信息、第二位置信息以及第一位置偏移信息，确定所述第二车辆的跟踪结果。

根据本公开的第二方面，提供了一种车辆跟踪装置，包括：

第一识别模块，用于识别车辆行驶过程中采集的视频流中第一图像的第一车辆的第一位置信息；以及所述视频流中第二图像的第二车辆的第二位置信息；其中，所述第一图像为所述视频流中与所述第二图像相邻的前N帧图像，N为正整数；

预测模块，用于基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息；

第一确定模块，用于基于所述第一位置信息、第二位置信息以及第一位置偏移信息，确定所述第二车辆的跟踪结果。

根据本公开的第三方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行第一方面中的任一项方法。

根据本申请的技术解决了车辆跟踪技术存在的车辆跟踪准确性比较低的问题，提高了车辆跟踪的准确性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的车辆跟踪方法的流程示意图；

图2是对第二图像中的各个第二车辆进行标记的示意图；

图3是车辆跟踪方法的实现框架示意图；

图4是带注意力机制的编码器网络的结构示意图；

图5是根据本申请第二实施例的车辆跟踪装置的结构示意图；

图6是用来实现本申请实施例的车辆跟踪方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

第一实施例

如图1所示，本申请提供一种车辆跟踪方法，包括如下步骤：

步骤S101：识别车辆行驶过程中采集的视频流中第一图像的第一车辆的第一位置信息；以及识别所述视频流中第二图像的第二车辆的第二位置信息；其中，所述第一图像为所述视频流中与所述第二图像相邻的前N帧图像，N为正整数。

本申请实施例中，车辆跟踪方法涉及计算机视觉、深度学习等人工智能技术领域，其可以广泛应用于车辆监控、违章识别、车流统计等诸多场景。

实际使用时，本申请实施例的车辆跟踪方法，可以由本申请实施例的车辆跟踪装置执行。本申请实施例的车辆跟踪装置可以配置在任意电子设备中，以执行本申请实施例的车辆跟踪方法。该电子设备可以为服务器，也可以为终端，这里不做具体限定。

举例来说，本申请实施例的车辆跟踪装置可以配置在车辆(如自动驾驶车辆)中，用于对车辆行驶道路中的车辆进行跟踪，以对车辆的周围环境进行视觉感知，提升车辆行驶的安全性；或者，本申请实施例的车辆跟踪装置，还可以配置在交通管理系统的服务器中，用于对交通监控路口的车辆进行违章识别、车流统计等。

本申请实施例的车辆跟踪方法可以应用于实时的车辆跟踪场景中，也可以应用于非实时的车辆跟踪场景中，这里不做具体限定。

应用于实时的车辆跟踪场景中时，本申请实施例的视频流的获取途径与本申请实施例的车辆跟踪方法的应用场景有关。比如，在本申请实施例的车辆跟踪方法应用在车辆自动驾驶、辅助驾驶等领域时，车辆中的处理器可以与车辆中的视频采集设备建立通信连接，实时获取视频采集设备采集的视频流。

又比如，在本申请实施例的车辆跟踪方法应用在交通管理场景中，实现违章识别、车流统计等目的时，交通管理系统的服务器可以实时获取交通路口的监控设备采集的视频流。

相应的，所述第二图像可以为实时获取到的视频流中最新采集到的一帧图像，即将实时获取到的视频流中最新采集到的一帧图像确定为第二图像。

应用于非实时的车辆跟踪场景中时，可以对给定的视频流数据进行分析，确定特定车辆的行驶轨迹，或者监控某一个交通路口的车辆行驶轨迹。因此，本申请实施例的车辆跟踪装置还可以直接获取一段已经拍摄完成的视频流数据，并对视频流数据进行分析，将视频流数据中每帧图像依次确定为第二图像，或者将某一个交通路口采集到的图像确定为第二图像。

所述第一图像为所述第二图像的历史图像，具体为所述视频流中与所述第二图像相邻的前N帧图像，N为正整数。可以根据实际需要及具体的应用场景，确定N的取值，本申请实施例对此不做限定。

比如，本申请实施例的车辆跟踪方法应用在交通管理场景时，由于交通路口的监控设备是固定的，因此仅与第二图像相邻的前一帧图像进行比较，即可以得到比较准确第二车辆的跟踪结果，在该种应用场景下，N的取值可以为1。

又比如，本申请实施例的车辆跟踪方法应用在车辆自动驾驶、辅助驾驶等场景时，由于车辆行驶过程中视频采集设备的位置是不断变化的，且在车辆行驶过程中会出现超车与被超车的情况，如果仅与第二图像相邻的前一帧图像进行比较，容易导致车辆跟踪结果不准确，因此，可以将N确定为大于1的整数，以提升车辆跟踪的准确性。

所述第一图像和所述第二图像中均可以包括至少一个车辆，所述第一图像包括至少一个第一车辆，所述第二图像包括至少一个第二车辆。

所述第一位置信息可以用所述第一车辆的中心位置的坐标信息表征，也可以用所述第一车辆的其他位置如车头的坐标信息表征，这里不做具体限定。所述第二位置信息可以用所述第二车辆的中心位置的坐标信息表征，也可以用所述第二车辆的其他位置如车头的位置信息表征，这里不做具体限定。为了减少换算和计算量，所述第一位置信息和所述第二位置信息通常均用车辆相同位置的坐标信息表征，以下所述第一位置信息和第二位置信息均用车辆的中心位置的坐标信息表征为例进行详细说明。

所述坐标信息可以包括相互垂直的两个方向的坐标值，这两个方向可以称之为x方向和y方向。如所述第一图像的第一车辆的第一位置信息可以记为(x1，y1)，所述第二图像的第二车辆的第二位置信息可以记为(x2，y2)。

可以采用现有的或者新的实例分割网络识别所述第一图像的第一车辆的第一位置信息，以及识别所述第二图像的第二车辆的第二位置信息。

比如，可以采用现有的空间嵌入spatial embedding网络识别所述第一车辆的第一位置信息和所述第二车辆的第二位置信息。其中，spatial embedding网络可以包括一个编码器网络和若干个解码器网络，该编码器网络可以用于分别提取第一图像的特征和第二图像的特征，而若干个解码器网络中的其中一个解码器网络则可以用于分别预测第一图像中每个第一车辆的中心位置和第二图像中每个第二车辆的中心位置，得到每个第一车辆的第一位置信息以及每个第二车辆的第二位置信息。

又比如，可以采用新的实例分割网络识别所述第一车辆的第一位置信息和所述第二车辆的第二位置信息。该实例分割网络可以由spatial embedding网络进行重新构建得到，如将spatial embedding网络中的编码器网络进行更新，更新为一个带注意力机制的编码器网络，以重新构建一个新的实例分割网络。

其中，基于注意机制的编码器网络与spatial embedding网络中的编码器网络的功能类似，其目的是获取第一图像的特征，以对第一图像的第一车辆进行实例分割和车辆跟踪，以及获取第二图像的特征，以对第二图像的第二车辆进行实例分割和车辆跟踪。

步骤S102：基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息。

该步骤中，所述第一位置偏移信息可以指的是第二车辆的某一位置相对于第一车辆的相应位置的位置偏移信息，在一可选实施方式中，所述第一位置偏移信息可以指的是第二车辆的中心位置相对于第一车辆的中心位置的位置偏移信息。

所述第一位置偏移信息包括每个第二车辆相对于对应的第一车辆在x方向的中心位置的坐标偏移量和在y方向的中心位置的坐标偏移量。

在所述第一图像和所述第二图像中均包括多个车辆的情况下，需要将第二图像的每个第二车辆与所述第一图像的第一车辆进行关联，以确定所述第二图像中每个第二车辆相对于所述第一图像中对应的第一车辆的第一位置偏移信息。

可以有多种方式基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息。

比如，可以将所述第二图像的像素点与所述第一图像中的像素点进行比对，确定所述第一图像中与所述第二图像的像素点相似度大于第一预设阈值的像素点，并将所述第二图像的像素点与所述第一图像相似的像素点进行关联，根据关联的像素点之间的帧值确定所述第一位置偏移信息。

又比如，可以获取第一图像的第一特征和第二图像的第二特征，基于所述第一特征和第二特征预测所述第二车辆相对于所述第一车辆的第一位置偏移信息。在具体实现过程中，可以构建一个新的解码器网络，该解码器网络用于基于所述第一特征和第二特征将所述第二图像的第二车辆与所述第一图像的第一车辆关联，以预测所述第二图像中的每个第二车辆的中心位置相对于所述第一图像中对应的第一车辆的中心位置分别在x方向和y方向的偏移量，分别用dx和dy表示。

步骤S103：基于所述第一位置信息、第二位置信息以及第一位置偏移信息，确定所述第二车辆的跟踪结果。

该步骤中，可以有两种方式对所述第二车辆进行跟踪，第一种方式为以第二图像的采集位置为基准，确定所述第一图像中是否存在与第二车辆为同一车辆的第一车辆，若存在，则跟踪成功，若不存在，则跟踪失败，或者确定所述第二图像的采集位置为所述第二车辆的运行轨迹的起点。

具体的，可以将第二位置信息的坐标值和第一位置偏移信息的坐标值相减，计算第二车辆在前一帧图像中位置更新前的位置信息，将位置更新前的位置信息与所述第一图像中的第一车辆的第一位置信息进行匹配，若匹配成功，则表明所述第一图像中存在与第二车辆为同一车辆的第一车辆，跟踪成功。否则，跟踪失败。

可以根据第二车辆位置更新前的位置信息对应的位置与第一位置信息对应的位置之间的欧式距离，将位置更新前的位置信息与所述第一图像中的第一车辆的第一位置信息进行匹配。若存在欧式距离小于第二预设阈值的第一位置信息，则确定该第一位置信息对应的第一车辆与所述第二车辆为同一车辆，跟踪成功。

也可以分别比对第二车辆位置更新前的位置信息在x方向的坐标值与第一位置信息在x方向的坐标值的差值，以及y方向的坐标值与第一位置信息在y方向的坐标值的差值，将位置更新前的位置信息与所述第一图像中的第一车辆的第一位置信息进行匹配。若这两个方向的坐标值的差值均小于第三预设阈值，则确定该第一位置信息对应的第一车辆与所述第二车辆为同一车辆，跟踪成功。

比如，第一图像中包括两个第一车辆，标识为Car1和Car2，Car1的第一位置信息为(110，110)，Car2的第一位置信息为(200，200)，第二车辆的第二位置信息为(121，121)，所述第二车辆对应的第一位置偏移信息为(10，10)。第二车辆位置更新前的位置信息为(111，111)，可知，第二车辆位置更新前的位置信息与Car1的第一位置信息匹配，所述第二车辆与Car1为同一车辆，也记为Car1。

第二种方式为以第一图像的采集位置为基准，确定所述第二图像中是否存在与第一车辆为同一车辆的第二车辆，若存在，则跟踪成功，若不存在，则跟踪失败，或者确定所述第二图像的采集位置为所述第二车辆的运行轨迹的起点。

具体的，可以将第一位置信息的坐标值和第一位置偏移信息的坐标值相加，计算第一车辆在后一帧图像中位置更新后的位置信息，将第一车辆位置更新后的位置信息与所述第二图像中的第二车辆的第二位置信息进行匹配，若匹配成功，则表明所述第二图像中存在与第一车辆为同一车辆的第二车辆，跟踪成功。否则，跟踪失败。

比如，第一图像中包括两个第一车辆，标识为Car1和Car2，Car1的第一位置信息为(110，110)，Car2的第一位置信息为(200，200)，第二车辆的第二位置信息为(121，121)，所述第二车辆对应的第一位置偏移信息为(10，10)。Car1位置更新后的位置信息为(120，120)，Car2位置更新后的位置信息为(210，210)，可知，Car1位置更新后的位置信息与第二车辆的第二位置信息匹配，所述第二车辆与Car1为同一车辆，也记为Car1。

另外，在第二图像中包括多个第二车辆的情况下，可以针对每个第二车辆的第二位置信息、第一位置偏移信息以及第一图像中各个第一车辆的第一位置信息，确定每个第二车辆的跟踪结果。

在具体实现过程中，可以基于所述第一位置信息、第二位置信息以及第一位置偏移信息，结合主流的匈牙利算法，完成车辆跟踪。

在实际应用中，可以根据跟踪结果，确定每个第二车辆的运行轨迹。比如，第二图像中包括车辆A，在跟踪成功的情况下，可以根据第一图像中车辆A的运行轨迹与第二图像的采集位置，确定第二图像中车辆A的运行轨迹，并将第一图像中车辆A的标识确定为第二图像中车辆A的标识，并在第二图像中显示车辆A的标识，以对车辆A进行标记。

参见图2，图2是对第二图像中的各个第二车辆进行标记的示意图，如图2所示，若第一图像中车辆A的标识为“Car1”，在跟踪成功的情况下，则可以在第二图像中车辆A的顶部显示车辆A的标识“Car1”。

相应的，在跟踪失败的情况下，可以确定车辆A为在视频流中首次出现的新车辆，从而可以将第二图像的采集位置，确定为车辆A的运行轨迹的起点，并为车辆A分配新的车辆标识，并在第二图像中显示车辆A的标识，以对车辆A进行标记。

本实施例中，通过基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息，并基于识别的第一图像中第一车辆的第一位置信息、第二图像中第二车辆的第二位置信息以及所述第一位置偏移信息，从而可以确定所述第二车辆的跟踪结果。相对于现有技术中来说，本实施例在实现车辆跟踪时可以仅分为一个阶段，该阶段即是基于输入的图像识别的位置信息和基于输入的图像预测的位置偏移信息来进行车辆跟踪，而无需在车辆跟踪过程中，首先生成实例分割结果，再对实例分割结果进行特征提取后，基于提取的车辆特征进行车辆跟踪。如此，在车辆跟踪过程中，可以统一优化目标，避免优化目标不统一导致的模型优化效果折损，从而可以提高车辆跟踪的准确性。

可选的，所述步骤S102具体包括：

获取所述第一图像的第一特征；以及获取所述第二图像的第二特征；

基于所述第一特征和所述第二特征预测所述第二车辆相对于所述第一车辆的第一位置偏移信息。

本实施方式中，所述第一特征可以表征所述第一图像的语义信息和图像纹理信息，其可以通过对所述第一图像进行特征提取获取。

所述第二特征可以表征所述第二图像的语义信息和图像纹理信息，其可以通过对所述第二图像进行特征提取获取。

在具体实现过程中，可以基于spatial embedding网络中的编码器网络分别对第一图像和第二图像进行特征提取，得到所述第一特征和第二特征。也可以采用构建的新的实例分割网络中带注意力机制的编码器网络，分别对第一图像和第二图像进行特征提取，以得到融合前后帧信息的第一特征和融合前后帧信息的第二特征。

可以采用一个解码器网络，基于所述第一特征和第二特征，预测所述第二车辆相对于所述第一车辆的第一位置偏移信息。

所述解码器网络的输入为所述第一特征和所述第二特征，所述解码器网络可以基于所述第一特征和所述第二特征，通过像素点的帧值比较将所述第二图像中每个第二车辆与所述第一图像中每个第一车辆两两关联，最终得到每个第二车辆相对于对应的第一车辆的第一位置偏移信息。

比如，第二图像包括车辆A、车辆B和车辆C，第一图像包括车辆D、车辆E和车辆F，所述解码器网络的目的即是将第二图像中的三辆车与第一图像中的三辆车关联，如车辆A关联车辆D，车辆B关联车辆E，车辆C关联车辆F，最终得到车辆A的中心位置相对于车辆D的中心位置的第一位置偏移信息，车辆B的中心位置相对于车辆E的中心位置的第一位置偏移信息，以及车辆C的中心位置相对于车辆F的中心位置的第一位置偏移信息。

另外，可以构建一个端到端的目标模型，并采用该目标模型，基于所述第一图像和第二图像进行实例分割和车辆跟踪。端到端指的是输入第一图像和第二图像，即可直接输出跟踪结果，而无需首先基于实例分割模型进行实例分割，得到实例分割结果，再基于特征提取模型，对实例分割结果进行特征提取，最终基于提取的车辆特征进行车辆跟踪。

参见图3，图3是车辆跟踪方法的实现框架示意图，如图3所示，该目标模型可以包括一个编码器网络，所述编码器网络用于分别对所述第一图像和第二图像进行特征提取，以得到第一特征和第二特征。

其中，该编码器网络可以为spatial embedding网络中的编码器网络，也可以为由spatial embedding网络中的编码器网络替换的带注意力机制的编码器网络，这里不做具体限定。

如图3所示，该目标模型中还可以包括若干个解码器网络，以三个解码器网络为例，分别为解码器网络1、解码器网络2和解码器网络3，解码器网络1和解码器网络2可以与spatial embedding网络中的解码器网络结构类似，而解码器网络3可以看成是spatialembedding网络中新增的解码器网络。

解码器网络1可以用于基于编码器网络输出的第一特征，预测所述第一图像中各个第一车辆的中心位置，得到每个第一车辆第一位置信息，并基于第二特征，预测所述第二图像中各个第二车辆的中心位置，得到每个第二车辆的第二位置信息。

解码器网络2可以用于基于编码器网络输出的第一特征，预测所述第一图像中每个像素点相对于每个第一车辆的中心位置的偏移量，并基于所述第二特征，预测所述第二图像中每个像素点相对于每个第二车辆的中心位置的偏移量。

解码器网络3可以用于基于所述第一特征和第二特征，将所述第二图像中的第二车辆与所述第一图像中的第一车辆关联，并预测每个第二车辆的中心位置相对于对应的第一车辆的中心位置的偏移量。

最后，可以基于解码器网络1、解码器网络2和解码器网络3的输出，结合主流的匈牙利算法，完成所述第二图像中每个第二车辆的实例分割和车辆跟踪。

本实施方式中，通过获取第一图像的第一特征和第二图像的第二特征，并基于所述第一特征和第二特征预测所述第二车辆相对于所述第一车辆的第一位置偏移信息，如此，可以简化位置偏移信息的计算量。

并且，基于所述第一特征和第二特征预测所述第二车辆相对于所述第一车辆的第一位置偏移信息，可以使实例分割和车辆跟踪共用一个编码器网络，同时，可以添加一个新的解码器网络，如此，可以构造一个端到端的目标模型，对所述第二图像中每个第二车辆同时进行实例分割和车辆跟踪，从而可以实现端到端训练，进而可以进一步提高车辆跟踪的准确性。

可选的，所述获取所述第二图像的第二特征，包括：

对所述第一图像进行特征提取，得到所述第一图像的第一目标特征；

采用注意力机制的编码器网络，基于所述第一目标特征构建所述第二图像的特征增强矩阵；其中，所述特征增强矩阵用于表征所述第一图像与所述第二图像的特征关联关系；

对所述第二图像进行特征提取，得到所述第二图像的第二目标特征；并基于所述特征增强矩阵和所述第二目标特征，确定所述第二特征。

本实施方式中，可以基于一个带注意力机制的编码器网络，获取所述第二图像的第二特征。在具体实现过程中，可以将带注意力机制的编码器网络作为patial embedding网络中的编码器部分，替换掉原本的编码器网络。

具体的，参见图4，图4是带注意力机制的编码器网络的结构示意图，如图4所示，所述编码器网络可以包括两个部分，左边部分主要是基于历史图像的特征更新所述第二图像的特征增强矩阵，即全局上下文矩阵，该全局上下文矩阵用于表征历史图像与所述第二图像的特征关联关系。右边部分是基于所述第二图像的特征和所述特征增强矩阵，确定所述第二特征。

具体的，所述第一图像相对于所述第二图像为历史图像，可以对所述第一图像进行特征提取，得到所述第一图像的第一目标特征，之后左边部分可以基于所述第一图像的第一目标特征，基于注意力机制，生成所述第一图像的内容矩阵，其内容矩阵的生成如公式(1)所示。

C_t＝k(X_t)^Tυ(X_t) (1)

其中，C_t为当前帧图像的内容矩阵，而在当前时刻，其当前帧图像指的是第一图像，因此X_t指的是所述第一目标特征，k和υ分别为M和N两个维度的通道函数。

对全局上下文矩阵进行更新，如公式(2)所示。

其中，G_t为更新的全局上下文矩阵，可知，随着时间的累积，其融合了历史图像的特征。

随后，随着时间维度中时间的变化，当前帧图像为第二图像，可以根据时间维度对内容矩阵的累积，计算所述第二图像的第二特征，如公式(3)所示。

D_t＝q(X_t)G_t-1 (3)

其中，D_t为所述第二图像的第二特征，X_t为所述第二图像的第二目标特征，G_t-1为所述第二图像的特征增强矩阵，q为一维度的通道函数。

之后，可以基于所述第二目标特征，继续进行全局上下文矩阵的更新。

本实施方式中，引入全局注意力机制，利用全局注意力机制对前后帧关系进行建模，以基于历史图像的特征对所述第二图像进行特征增强，最终可以得到融合历史图像特征的所述第二特征，从而可以进一步提高实例分割和车辆跟踪的准确性。

可选的，所述第一图像包括至少两个第一车辆，所述步骤S103具体包括：

基于所述第二位置信息和第一位置偏移信息，确定所述第二车辆的第三位置信息；

在所述至少两个第一车辆中存在目标车辆的情况下，确定所述第二车辆与所述目标车辆为同一车辆；其中，所述目标车辆为第一位置信息与所述第三位置信息匹配的第一车辆；

在所述至少两个第一车辆中不存在所述目标车辆的情况下，确定所述第二图像的采集位置为所述第二车辆的运行轨迹的起点。

本实施方式中，可以将第二位置信息的坐标值和第一位置偏移信息的坐标值相减，计算所述第二车辆的第三位置信息，所述第三位置信息可以为第二车辆在前一帧图像中位置更新前的位置信息。

将所述第三位置信息与所述第一图像中的第一车辆的第一位置信息进行匹配，若匹配成功，则表明所述至少两个第一车辆中存在目标车辆，并确定所述第二车辆与所述目标车辆为同一车辆，跟踪成功，否则，跟踪失败。

可以根据第三位置信息对应的位置与第一位置信息对应的位置之间的欧式距离，将第三位置信息与所述第一图像中的第一车辆的第一位置信息进行匹配。若存在欧式距离小于第二预设阈值的第一位置信息，则确定该第一位置信息对应的第一车辆即目标车辆与所述第二车辆为同一车辆，跟踪成功。

也可以分别比对第三位置信息在x方向的坐标值与第一位置信息在x方向的坐标值的差值，以及y方向的坐标值与第一位置信息在y方向的坐标值的差值，将第三位置信息与所述第一图像中的第一车辆的第一位置信息进行匹配。若这两个方向的坐标值的差值均小于第三预设阈值，则确定该第一位置信息对应的第一车辆即目标车辆与所述第二车辆为同一车辆，跟踪成功。

比如，第一图像中包括两个第一车辆，标识为Car1和Car2，Car1的第一位置信息为(110，110)，Car2的第一位置信息为(200，200)，第二车辆的第二位置信息为(121，121)，所述第二车辆对应的第一位置偏移信息为(10，10)。基于所述第二位置信息和第一位置偏移信息确定的第三位置信息为(111，111)，可知，第三位置信息在x方向的坐标值与Car1的第一位置信息在x方向的坐标值相近，且第三位置信息在y方向的坐标值与Car1的第一位置信息在y方向的坐标值相近，因此，第三位置信息与Car1的第一位置信息匹配，所述第二车辆与Car1为同一车辆，也记为Car1。

另外，若匹配失败，则所述第一图像中不存在与第二车辆为同一车辆的第一车辆，此时可以将所述第二图像的采集位置确定为所述第二车辆的运行轨迹的起点。

本实施方式中，通过计算所述第二车辆在前一帧图像中位置更新前的第三位置信息，并将所述第三位置信息与所述第一图像中每个第一车辆的第一位置信息进行匹配，以确定在存在多个第一车辆的所述第一图像中是否存在目标车辆，从而可以实现多目标跟踪。

可选的，所述跟踪结果包括所述第二车辆的跟踪标识，所述步骤S101之后，还包括：

识别所述第二图像中每个像素点相对于所述第二车辆的第二位置偏移信息；

基于所述第二位置信息和第二位置偏移信息，确定所述第二车辆的实例分割结果；

基于所述实例分割结果，确定所述第二车辆的跟踪标识。

本实施方式中，除了实现车辆跟踪之外，还可以实现实例分割，以在车辆跟踪过程中，能够进行车辆标识。

具体的，可以采用如图3所示的解码器网络2基于所述第二图像的第二特征，预测所述第二图像中每个像素点相对于所述第二车辆的第二位置偏移信息。

并基于所述第二位置信息和第二位置偏移信息，确定所述第二车辆的实例分割结果。具体的，可以将第二位置偏移信息对应的偏移量距离第二车辆的中心位置小于第四预设阈值的像素点确定为该第二车辆的像素点，最终得到所述第二车辆的掩码，该掩码可以表征所述第二图像中所述第二车辆的像素点范围，即为所述第二车辆的实例分割结果。

之后，可以基于所述掩码，确定所述第二车辆的跟踪标识，所述跟踪标识可以包括所述掩码和所述第二车辆的标识，如图2所示。

本实施方式中，在进行车辆跟踪的同时，还可以进行实例分割，以更好地在车辆跟踪过程中进行车辆标识，提高车辆跟踪的效果。

第二实施例

如图5所示，本申请提供一种车辆跟踪装置500，包括：

第一识别模块501，用于识别车辆行驶过程中采集的视频流中第一图像的第一车辆的第一位置信息；以及所述视频流中第二图像的第二车辆的第二位置信息；其中，所述第一图像为所述视频流中与所述第二图像相邻的前N帧图像，N为正整数；

预测模块502，用于基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息；

第一确定模块503，用于基于所述第一位置信息、第二位置信息以及第一位置偏移信息，确定所述第二车辆的跟踪结果。

可选的，其中，所述预测模块502包括：

第一获取单元，用于获取所述第一图像的第一特征；

第二获取单元，用于获取所述第二图像的第二特征；

预测单元，用于基于所述第一特征和所述第二特征预测所述第二车辆相对于所述第一车辆的第一位置偏移信息。

可选的，其中，所述第二获取单元，具体用于对所述第一图像进行特征提取，得到所述第一图像的第一目标特征；采用注意力机制的编码器网络，基于所述第一目标特征构建所述第二图像的特征增强矩阵；其中，所述特征增强矩阵用于表征所述第一图像与所述第二图像的特征关联关系；对所述第二图像进行特征提取，得到所述第二图像的第二目标特征；并基于所述特征增强矩阵和所述第二目标特征，确定所述第二特征。

可选的，其中，所述第一图像包括至少两个第一车辆，所述第一确定模块503包括：

第一确定单元，用于基于所述第二位置信息和第一位置偏移信息，确定所述第二车辆的第三位置信息；

第二确定单元，用于在所述至少两个第一车辆中存在目标车辆的情况下，确定所述第二车辆与所述目标车辆为同一车辆；其中，所述目标车辆为第一位置信息与所述第三位置信息匹配的第一车辆；

第三确定单元，用于在所述至少两个第一车辆中不存在所述目标车辆的情况下，确定所述第二图像的采集位置为所述第二车辆的运行轨迹的起点。

可选的，所述跟踪结果包括所述第二车辆的跟踪标识，所述装置还包括：

第二识别模块，用于识别所述第二图像中每个像素点相对于所述第二车辆的第二位置偏移信息；

第二确定模块，用于基于所述第二位置信息和第二位置偏移信息，确定所述第二车辆的实例分割结果；

第三确定模块，用于基于所述实例分割结果，确定所述第二车辆的跟踪标识。

本申请提供的车辆跟踪装置500能够实现上述车辆跟踪方法实施例实现的各个过程，且能够达到相同的有益效果，为避免重复，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的车辆跟踪方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的车辆跟踪方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的车辆跟踪方法对应的程序指令/模块(例如，附图5所示的第一识别模块501、预测模块502和第一确定模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的车辆跟踪方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据本申请实施例的方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至车辆跟踪方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与本申请实施例的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。

本实施例中，通过基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息，并基于识别的第一图像中第一车辆的第一位置信息、第二图像中第二车辆的第二位置信息以及所述第一位置偏移信息，从而可以确定所述第二车辆的跟踪结果。相对于现有技术中来说，本实施例在实现车辆跟踪时可以仅分为一个阶段，该阶段即是基于输入的图像识别的位置信息和基于输入的图像预测的位置偏移信息来进行车辆跟踪，而无需在车辆跟踪过程中，首先生成实例分割结果，再对实例分割结果进行特征提取后，基于提取的车辆特征进行车辆跟踪。如此，在车辆跟踪过程中，可以统一优化目标，避免优化目标不统一导致的模型优化效果折损，从而可以提高车辆跟踪的准确性。因此，根据本申请实施例的技术方案，很好地解决了车辆跟踪技术存在的车辆跟踪准确性比较低的问题。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种车辆跟踪方法，包括：

2.根据权利要求1所述的方法，其中，所述基于所述第一图像和所述第二图像预测所述第二车辆相对于所述第一车辆的第一位置偏移信息，包括：

3.根据权利要求2所述的方法，其中，所述获取所述第二图像的第二特征，包括：

4.根据权利要求1所述的方法，其中，所述第一图像包括至少两个第一车辆，所述基于所述第一位置信息、第二位置信息以及第一位置偏移信息，确定所述第二车辆的跟踪结果，包括：

5.根据权利要求1所述的方法，所述跟踪结果包括所述第二车辆的跟踪标识，所述识别所述视频流中第二图像的第二车辆的第二位置信息之后，还包括：

基于所述实例分割结果，确定所述第二车辆的跟踪标识。

6.一种车辆跟踪装置，包括：

7.根据权利要求6所述的装置，其中，所述预测模块包括：

第一获取单元，用于获取所述第一图像的第一特征；

第二获取单元，用于获取所述第二图像的第二特征；

8.根据权利要求7所述的装置，其中，所述第二获取单元，具体用于对所述第一图像进行特征提取，得到所述第一图像的第一目标特征；采用注意力机制的编码器网络，基于所述第一目标特征构建所述第二图像的特征增强矩阵；其中，所述特征增强矩阵用于表征所述第一图像与所述第二图像的特征关联关系；对所述第二图像进行特征提取，得到所述第二图像的第二目标特征；并基于所述特征增强矩阵和所述第二目标特征，确定所述第二特征。

9.根据权利要求6所述的装置，其中，所述第一图像包括至少两个第一车辆，所述第一确定模块包括：

10.根据权利要求6所述的装置，所述跟踪结果包括所述第二车辆的跟踪标识，所述装置还包括：

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。