CN112184750A

CN112184750A - 基于视频图像的对象跟踪方法及装置

Info

Publication number: CN112184750A
Application number: CN201910509348.6A
Authority: CN
Inventors: 雷大力
Original assignee: Navinfo Co Ltd
Current assignee: Navinfo Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-01-05

Abstract

本发明提供一种基于视频图像的对象跟踪方法及装置，其中方法包括：确定对目标视频流中的对象进行跟踪时，第一时刻所使用的模板对象集合，检测目标视频流中，第一时刻到第二时刻的N帧视频图像包含的目标对象；根据N帧视频图像包含的目标对象和模板对象集合的匹配结果，更新模板对象集合；并在第二时刻后，使用更新后的目标对象集合对目标视频流中的对象进行跟踪。本发明提供的基于视频图像的对象跟踪方法及装置，通过N帧视频图像中包含的目标对象保证了准确地对模板对象集合的更新，从而在后续使用模板对象集合进行对象跟踪时，能够提高对视频图像中对象跟踪时的准确率。

Description

基于视频图像的对象跟踪方法及装置

技术领域

本发明涉及图像处理技术，尤其涉及一种基于视频图像的对象跟踪方法及装置。

背景技术

目前，随着电子技术以及汽车技术的不断发展，自动驾驶技术不断成熟并越来越多地应用在人们的日常生活中。在自动驾驶领域，自动驾驶汽车通过前方所设置的摄像装置获取汽车前方的视频图像后，由自动驾驶汽车内具备图像处理功能的电子设备识别视频图像内的目标对象，例如交通信号灯、交通指示牌等。从而确定出汽车前方的道路通行情况，并实时调整汽车的速度、方向等行驶参数，使得汽车按照交通规则实现自动驾驶。

现有技术中，基于视频图像处理技术的电子设备在对连续的视频图像中的目标对象进行检测时，电子设备会在视频流中一帧视频图像中检测到目标对象后，在后续视频图像中通过跟踪算法对目标对象进行跟踪，以减少计算量。

但是，采用现有技术，因在检测视频图像中的目标对象时，可能出现漏检或者错检等情况，而造成视频图像中对象跟踪的准确率较差。因此，如何提高对视频图像中对象进行跟踪时的准确率，是本领域亟待解决的技术问题。

发明内容

本发明提供一种基于视频图像的对象跟踪方法及装置，以提高对视频图像中对象跟踪时的准确率。

本发明第一方面提供一种基于视频图像的对象跟踪方法，包括：

确定在对目标视频流中的对象进行跟踪时，第一时刻所使用的模板对象集合；其中，所述模板对象集合包含M个待跟踪的对象，所述M为大于等于0的整数；

检测所述目标视频流中，所述第一时刻到第二时刻的N帧视频图像包含的目标对象；其中，所述N为大于等于2的整数；

根据所述N帧视频图像包含的目标对象和模板对象集合的匹配结果，更新所述模板对象集合；

在所述第二时刻后，使用所述更新后的模板对象集合对目标视频流中的对象进行跟踪。

本发明第二方面提供一种基于视频图像的对象跟踪装置，包括：

确定模块，用于确定在对目标视频流中的对象进行跟踪时，第一时刻所使用的模板对象集合；其中，所述模板对象集合包含M个待跟踪的对象，所述M为大于等于0的整数；

检测模块，用于检测所述目标视频流中，所述第一时刻到第二时刻的N帧视频图像包含的目标对象；其中，所述N为大于等于2的整数；

匹配模块，用于根据所述N帧视频图像包含的目标对象和模板对象集合的匹配结果，更新所述模板对象集合；其中，所述模板对象集合包含M个待跟踪的对象，所述M为大于等于0的整数；

跟踪模块，用于在所述第二时刻后，使用所述更新后的模板对象集合对目标视频流中的对象进行跟踪。

本发明第三方面提供一种电子设备，其特征在于，包括：处理器，存储器以及计算机程序；其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如前述第一方面所述的方法的指令。

本发明第四方面提供一种存储介质，所述存储介质存储有计算机程序，当所述计算机程序在计算机上运行时，使所述计算机执行如前述第一方面所述的方法。

综上，本发明提供一种基于视频图像的对象跟踪方法及装置，其中方法包括：确定在对目标视频流中的对象进行跟踪时，第一时刻所使用的模板对象集合，并检测目标视频流中，第一时刻到第二时刻的N帧视频图像包含的目标对象；根据N帧视频图像包含的目标对象和模板对象集合的匹配结果，更新模板对象集合；从而在第二时刻后，使用更新后的模板对象集合对目标视频流中的对象进行跟踪。本发明提供的基于视频图像的对象跟踪方法及装置，能够在对象跟踪过程中，根据实时的N帧视频图像的中包含的目标对象与第一时刻之前的模板对象集合的匹配结果对目标对象集合进行更新后，在第二时刻后的视频图像中使用更新后的目标对象集合对后续视频图像中的对象进行跟踪，从而通过N帧视频图像的检测结果保证了准确地对模板对象集合的更新，并在后续使用模板对象集合进行对象跟踪时，能够提高对视频图像中对象跟踪时的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明应用场景示意图；

图2为本发明提供的基于视频图像的对象跟踪方法一实施例的流程示意图；

图3为本发明提供的基于视频图像的对象跟踪方法应用示意图；

图4为本发明提供的基于视频图像的对象跟踪方法一实施例的流程示意图；

图5为本发明提供的基于视频图像的对象跟踪方法一实施例的逻辑结构示意图；

图6为本发明提供的基于视频图像的对象跟踪装置一实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面在介绍本发明实施例前，先结合图1对现有的基于视频图像的对象跟踪方法以及现有技术中存在的问题进行介绍。

其中，图1为本发明应用场景示意图；如图1所示，在现有技术中对视频流中的对象进行检测时，由于跟踪算法的复杂度以及所需的计算时间远小于检测算法。因此，作为执行主体的设备会按照时间顺序，首先对视频流中的一帧视频图像中的目标对象进行检测，得到该帧视频图像中包括的目标对象，并将目标对象的图像以集合的形式进行存储。例如，对于图1所示的视频流中视频图像1，电子设备使用检测算法检测出视频图像1中包括的对象A后，将对象A作为模板对象集合，并在视频流中视频图像1后的连续视频图像中，使用跟踪算法依次对每张视频图像中的对象A进行跟踪，以保证对实时的视频图像中的对象进行检测时的效率并保证实时性。而在预设时间之后，电子设备在视频流中视频图像1间隔预设时间的视频图像2使用检测算法进行检测，并得到新的模板对象B后，将对象B作为模板对象集合。并在视频流中视频图像2后续的连续视频图像中，依次使用跟踪算法对模板对象集合中的对象B进行跟踪。

但是，在现有技术中，由于检测算法并不做到对视频图像中所包含的对象进行完全准确的检测，很可能在某一帧图像的检测中发生对象的漏检或者错检。例如，在如图1所示的视频图像2中包含对象A和对象B，但是检测算法只检测出了对象B作为模板对象集合，使得视频流中视频图像2后的图像中即使均存在对象A和对象B，却只能根据模板对象集合对对象B进行跟踪。或者，在如图1所示的视频图像3中包含对象C，但是检测算法却检测出了对象A并作为模板对象集合，使得视频图像3后的图像中即使均存在对象C，却只能根据模板对象集合对对象A进行跟踪。

又例如，当本实施例应用在自动驾驶领域中的交通信号灯检测与跟踪时，所述的漏检和误检还包括如下场景：某一帧视频图像中包含的交通信号灯图像较小，或者，车辆经过交通路口时，视频图像中包含由其他公交车或客车的玻璃反射以及透射的交通信号灯。因此，现有技术中存在视频图像中对象跟踪的准确率较差的问题，而如何提高对视频图像中对象进行跟踪时的准确率，是本领域亟待解决的技术问题。

因此，本发明提供一种基于视频图像的对象跟踪方法及装置，通过N帧视频图像中包括的目标对象保证了准确地对模板对象集合的更新，而非现有技术中使用单次的检测结果对模板对象集合进行替换，对于单次的检测结果并不直接作为模板对象集合，而是检测N帧视频图像中的检测结果后，再对模板对象集合进行更新，从而保证了对跟踪时所使用的目标对象集合更新的准确率，进而能够在后续使用模板对象集合进行对象跟踪时，提高对视频图像中对象跟踪时的准确率。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本发明提供的基于视频图像的对象跟踪方法一实施例的流程示意图。如图2所示，实施例提供的基于视频图像的对象跟踪方法包括：

S101：确定在对目标视频流中的对象进行跟踪时，第一时刻所使用的模板对象集合。其中，模板对象集合中包括M个待跟踪的对象，M≥0。

具体地，本实施例的执行主体可以是任意具备相关数据处理功能的电子设备，例如：手机、平板电脑、笔记本电脑、台式电脑或者服务器等。或者，本实施例的执行主体还可以是电子设备中的芯片，例如：CPU或者GPU等。本发明以执行主体为电子设备为例进行说明，而非对其进行限定。则作为本实施例执行主体的电子设备，在对连续的视频图像中的对象进行跟踪时，需要确定或者更新模板对象集合，并在后续对模板对象集合中所包括的至少一个待跟踪的对象进行跟踪处理。

下面结合图3，对本实施例提供的方法进行说明，其中，图3为本发明提供的基于视频图像的对象跟踪方法应用示意图。如图3所示，在对目标视频流中的时间a记为第一时刻，其中，所述第一时刻可以是电子设备需要对用于对目标对象集合进行更新的时间，即在第一时刻a以及之前的时刻中，电子设备均通过模板对象集合A对连续视频图像中的对象进行跟踪，而电子设备在同模板对象集合A对视频图像进行跟踪一段时间后，由于视频图像中对象的移动、增减，需要按照预设的时间对目标对象集合进行更新。本申请对于所述预设的时间不进行限定，例如电子设备在通过模板对象集合对视频图像进行跟踪时，每间隔5秒对目标对象集合进行一次更新，则此时，所述第一时刻为电子设备需要更新目标对象集合的时刻。假设，模板对象集合A中包括对象1、对象2和对象3。则在本实施例S101中，电子设备用于获取第一时刻a用于对目标视频流的视频图像中的对象进行跟踪的模板对象集合A。

S102：获取N帧视频图像包含的目标对象；其中，所述N为大于等于2的整数。

其中，作为本实施例执行主体的电子设备可以在获取N帧视频图像后，对N帧视频图像分别进行检测处理，从而在连续的N帧视频图像中，检测出每帧视频图像包含的目标对象。

可选地，本实施例中的所述连续的N帧视频图像可以是自动驾驶应用场景中，摄像装置实时采集的N帧视频图像，则电子设备每收到一帧视频图像后均会对视频图像进行检测处理，以分别检测出每帧视频图像中所包括的目标对象。

例如：若目标对象是交通信号灯，则每接收到一帧视频图像后，对视频图像进行检测，并将检测出的交通信号灯加入到目标对象集合中。可选地，本实施例中所述的连续的N帧视频图像可以是摄像装置所获取的连续的视频图像，或者，可以是从连续的视频图像中间隔特定的帧数所选取的N帧视频图像。

同样地，以图3为例进行说明，其中，当通过S101获取第一时刻的模板对象集合A后，在目标视频流中第一时刻a后，从第一时刻a到第二时刻bN的连续N帧视频图像中，检测每张N帧视频图像中所包含的目标对象。例如，将如图3所示的第一时刻a后的时刻b的视频图像中，包含的目标对象所组成的集合记为B1，时刻b的视频图像中包含的目标对象所组成的集合记为B2，以此类推，共得到N帧视频图像分别包括的目标对象所组成的集合B1……BN。

可选地，在S102一种可能的实现方式中，对于每帧视频图像，确定视频图像中的目标对象集合具体包括如下步骤：

S1021：通过机器学习模型检测所述视频图像中包含的至少一个对象。

其中，本步骤中识别视频图像中对象所使用的机器学习模型包括但不限于例如：卷积神经网络、K-近邻算法(k-Nearest Neighbor，简称：KNN)、支持向量机(SupportVector Machine，简称：SVM)或者其他基于深度学习的机器学习模型等。

可选地，所述机器学习模型为卷积神经网络模型时，本实施例还提供一种对用于识别视频图像中对象的卷积神经网络模型进行优化的方法。其中，所述方法具体包括：将所述视频图像经过所述卷积神经网络模型处理后，所述卷积神经网络模型中每一层得到的特征进行特征融合，得到视频图像特征；随后，依次使用多个卷积特征尺度对所述视频图像特征进行识别，确定所述视频图像中包含的至少一个对象。

具体地，本实施例基于卷积神经网络的多层次结构中，较浅层的特征包含更多的上图像下文信息，而较深层的特征包含更多的图像语义信息，因此，本实施例可以将卷积神经网络中每层得到的特征进行融合后的特征作为视频图像的特征。其中，一种可能的融合方式为，将卷积神经网络中每层得到的特征相加后得到视频图像的特征，或者，按照特定的权值将卷积神经网络中每层得到的特征进行加权后相加得到视频图像的特征。

随后，在对视频图像进行处理时，还可以在不同的卷积特征尺度上对视频图像进行处理。其中，针对在视频图像的对象检测过程中，若视频图像中包括的对象由于距离较远而在视频图像中显示占比较小，有时可能在一帧视频图像中待检测的对象只占3-4个像素大小。此时如果还以整张图片为主体并使用一个统一的卷积特征尺度的进行检测时，可能无法检测到视频图像中较小的对象。因此，本实施例提供的卷积神经网络中，对同一视频图像，使用不同的卷积特征尺度进行处理。以根据较小尺度的卷积特征尺度能够检测到视频图像中占比较小的对象，而尺度较大的卷积特征尺度能够检测到视频图像中占比较大的对象。最终，根据多个卷积特征尺度的检测结果共同确定视频图像中的对象。可选地，本实施例中，卷积神经网络可以通过配置其anchor size参数实现不同卷积特征尺度的配置，对于卷积神经网络的原理以及实现方式，可参照现有技术，本发明不做限定。

S1022：将所述机器学习模型对所述至少一个对象的评分大于预设阈值的对象，作为所述目标对象。

进一步地，除了本实施例的S1021中能够检测出视频图像中包括的对象，为了保证所检测的对象的准确度，本实施例在S1022中还需要进一步地对机器学习模型所检测得到的对象进行进一步筛选，确保机器学习模型得到的对象真实有效，以减少后续对该些对象进行处理时可能出现的错误。

其中，由于机器学习模型所使用的检测方式为，对视频图像中每个可能的对象进行评分，并确定评分高于例如80的对象作为检测结果进行输出。而本实施例中，对机器学习模型所输出的检测结果中的至少一个对象的评分进行进一步判定，选取高于机器学习模型评分的分数例如90作为预设阈值。从而对机器学习模型确定的至少一个对象进行再次筛选，确保所筛选得到的对象是真实存在于视频图像中，并作为目标对象以备后续进行跟踪处理。对于不同的机器学习模型，本实施例所述的预设阈值可以根据不同的机器学习模型的评分标准以及准确度进行调整，可以以稍大于机器学习模型评分结果的数值作为预设阈值，实现原理相同，不再赘述。在一些可能的实现方式中，所述设置预设阈值的机器学习评分结果，又可被称为“强检测”。

可选地，在上述实施例中，除了根据S1022将评分大于预设阈值的对象作为目标对象，本实施例还提供一种在该基础上，对机器学习所确定的对象是否作为目标对象进行筛选的方式。其中，在S1021之后，还可以包括：确定S1021中所确定的至少一个对象外部图像的语义信息后，将外部图像的语义信息满足预设条件的对象，作为目标对象。

其中，本实施例针对自动驾驶领域的视频图像的应用场景，对于汽车的摄像装置所获取的视频图像中，若公交车或者大客车玻璃上反射、透射的对象被机器学习模型检测出之后，若对该些对象进行进一步进行处理，则可能会产生错误的处理结果。则本实施例中，当机器学习模型检测出视频图像中的至少一个对象后，还需要对至少一个对象外部图像的语义信息进行判断。在一种可能的实现方式中，所述的外部信息可以是对象所在矩形图像区域面积扩大一倍后的外侧图像区域，若该外部图像的语义信息指示该区域是一辆公交车的车体，则确定经过机器学习模型检测的该对象是公交车的车窗玻璃所反射的对象，而不会将该对象作为目标对象进行后续处理。则本实施例中所述的预设条件可以是，语义信息指示的外部区域不是公交车或大客车的对象，将满足该预设条件的对象作为目标对象。

可选地，在上述实施例的基础之上，本实施例还提供另一种对机器学习所确定的对象进行筛选从而确定目标对象的方式。其中，在S1021之后，还包括：确定S1021中所确定的至少一个对象与采集所述视频图像的设备之间的距离后；将所述距离小于预设距离的对象，作为所述目标对象。

其中，本实施例针对自动驾驶领域的视频图像的应用场景，对于汽车的摄像装置所获取的视频图像中，若视频图像中包括下一个路口的对象例如交通信号灯，则对该交通信号灯再进行处理是无效且可能出现错误。则本实施例中，当机器学习模型检测出视频图像中的至少一个对象后，还需要对至少一个对象距离拍摄视频图像的摄像装置之间的距离进行判断，以剔除距离较远的对象，而将机器学习模型检测出的对象中距离小于预设距离的对象，再作为目标对象集合而可以进行后续处理。可选地，本实施例中所述的可以通过对象的大小与距离的预设关系进行确定，例如，由于摄像装置以固定焦距获取视频图像，则可以对同样的对象在不同的距离拍摄得到视频图像后，建立该对象的距离与视频图像中大小的对应关系，则在本步骤的检测过程中，通过对象在视频图像的大小确定该对象的与摄像装置的距离。或者，还可以通过获取自动驾驶车辆上的测距装置所测量的对象的距离。

S103：根据所述N帧视频图像包含的目标对象和所述模板对象集合的匹配结果，更新所述模板对象集合。

具体地，在S103中，根据S102中所确定的N帧视频图像分别所包含的目标对象，对模板对象集合中的对象进行更新。其中，所述的更新包括对模板对象中的每个对象所进行的增加、修改、替换等操作。

可选地，本实施例中模板对象集合包含M个待跟踪的对象，所述M为大于等于0的整数。其中，当本实施例应用于首次检测视频图像时，初始的模板对象集合中不包括待跟踪的对象，则S103中对模板对象集合中的对象进行更新具体包括：将S102中所确定的目标对象均可加入模板对象集合中。而若模板对象集合中包含至少一个待跟踪对象，则S103中对模板对象集合中的对象进行更新具体包括如下三种情况，下面分别进行说明。

1、若N帧视频图像中包括第一对象的视频图像的数量大于第一阈值，且模板对象集合中不包括第一对象，则向模板对象集合中加入第一对象。

具体地，本实施例中针对可能新增或者之前的模板对象集合中未检测出的对象，例如，以图3为例，若在电子设备上一次确定的模板对象集合A中，不包括第一对象，而当本次所检测的N帧视频图像B1-BN中一定数量的视频图像中均检测到了模板对象集合中没有的第一对象，则说明第一对象一直存在而上一次在确定模板对象集合A时漏检了该第一对象、或者说明第一对象是视频图像B1-BN中新出现的。因此，若N帧视频图像B1-BN中包括第一对象的视频图像数量大于第一阈值，说明发生了新增或漏检第一对象的情况，则将第一对象加入模板对象集合中，以对模板对象进行更新，从而在后续视频图像中可以对模板对象集合中的第一对象进行跟踪。更为具体地，例如：N为10且第一阈值可以设置为7，则若获取10帧视频图像中的8帧视频图像都包括了第一对象，大于第一阈值7，则可以将第一对象加入模板对象集合中。

2、若N帧视频图像中包括第二对象的视频图像数量小于第二阈值，且模板对象集合中包括第二对象，则将模板对象集合中的第二对象删除。

具体地，本实施例针对减少视频图像中可能脱离视野的对象，或者之前的模板对象集合中误检测的对象，例如，同样以图3为例，若在电子设备上一次确定的模板对象集合A中，包括第二对象，而当本次所检测的N帧视频图像B1-BN中超过第二阈值的图像中都没有检测到第二对象，则说明第二对象可能不存在而上一次确定的目标对象集合A时误检了该第二对象、或者说明第二对象在视频图像B1-BN中已经移出视频图像的范围。因此，若N帧视频图像B1-BN中包括第二对象的视频图像数量小于第二阈值，说明发生了对象减少或者误检第二对象的情况，则将第二对象从模板对象集合A中移出，在后续得到的新的模板对象集合C中将不会包括第二对象。更为具体地，可以设置较小的第二阈值，例如：N为10且第二阈值可以设置为2，则若获取10帧视频图像中的仅2帧视频图像包括第二对象，小于第二阈值3，则确定将之前的模板对象中的第二对象进行删除，在后续的视频图像中不会继续对第二对象进行跟踪。

3、若N帧视频图像中包括第三对象的视频图像数量大于第三阈值，且模板对象集合中也包括第三对象，则保留模板对象集合中的第三对象。

具体地，本实施例针对一直在视频图像的视野中的第三对象，例如，同样以图3为例，若在电子设备上一次确定的模板对象集合A中，包括第三对象，而当本次所检测的N帧视频图像B1-BN中超过第三阈值的图像中也都检测到第三对象，则说明第三对象一直存在于连续的视频图像中，也说明上一次确定的模板对象集合A时没有出现漏检或者误检的情况。则当所检测的N帧视频图像大于第三阈值的视频图像中均包括第三对象，且第三对象也存在于模板对象集合中时，确定该第三对象依然需要跟踪，则保持模板对象集合中的第三对象，并在后续的视频图像中可以继续根据模板对象集合对第三对象进行跟踪。更为具体地，例如：N为10且第三阈可以设置为6，则若获取的10帧视频图像中7幅均包括第三对象，则保持第三对象集合，在后续得到的新的模板对象集合C中也将继续包括第三对象。

可选地，在上述步骤中，可以根据相似度度量算法，对N帧视频图像中包含的目标对象和模板对象集合中的对象进行匹配，参考多个衡量准则，例如两个对象边界框的距离代价函数、形状代价函数、特征代价函数和边界框的IOU等。并通过改变行、列的排布找到最大化的代价函数，类似转换为最短路径优化的问题。例如，假设检测出的目标对象的参数为为x、y、z，模板对象集合中的跟踪对象的参数为m、n、p、q，经过全局优化计算获得的最佳匹配方式为，目标对象-y匹配跟踪对象-m，目标对象-z匹配跟踪对象n，确定二者为相同的对象；而若目标对象与跟踪对象无法进行匹配，则确定二者为不同的对象。

具体地，图4为本发明提供的基于视频图像的对象跟踪方法一实施例的流程示意图，下面结合图4，对本实施例提供的模板对象集合的更新方法进行说明。其中，作为执行主体的电子设备同时能够进行视频图像中对象的检测与对象的跟踪。并在对视频图像中，对检测的视频图像进行强检测之后得到的目标对象，与跟踪过程中所使用的模板对象集合中的跟踪对象进行匹配。并对于检测到的目标对象不包括在模板对象集合中时，根目标对象在模板对象集合中创建新的跟踪对象；而当检测到的目标对象存在相同的模板对象集合时，将检测结果作为跟踪目标对象的跟踪结果；当对于模板对象集合中未检测到的跟踪对象，则删除模板对象集合中未检测到的跟踪对象。随后，可以根据连续的N帧图像的匹配结果，对模板对象集合的更新进行有效性判定，所述有效性判定可参照上述实施例中的步骤1-3。只有当N帧图像中的目标对象集合共同经过有效性判定后，才确定对模板对象集合进行更新。

S104：在所述第二时刻后，使用更新后的所述模板对象集合对目标视频流的对象进行跟踪。

随后，在S104中，当经过S103对模板对象集合进行了更新后，则对于N帧视频图像后预设时间范围内的图像，可以使用更新后的模板对象集合中的对象进行跟踪。可选地，本实施例中所述的对对象的跟踪，包括但不限于确定视频图像中对象的状态、尺寸、位置以及距离等信息。并且，当本实施例应用在自动驾驶领域时，作为执行主体的电子设备对模板对象集合中的对象进行跟踪后，将跟踪结果发送至显示装置进行显示或者发送至控制装置，使得控制装置根据跟踪结果实现自动驾驶参数的调整。

具体地，以图3为例进行，当S103中根据目标视频流中所获取的N帧视频图像得到的对象集合B1……BN对模板对象集合A进行更新后，得到新的更新后的模板对象集合C。随后，在目标视频流中第二时刻bN之后，也就是N帧视频图像之后，使用更新后的模板对象集合C，对视频图像b(N+1)中的对象进行跟踪。

因此，本实施例提供的目标对象集合更新方法中，对N帧视频图像中出现的不同目标对象，使用删除、添加和保留的方式对模板对象集合中存在的对象进行更新。根据如图3所示实施例与如图1所示的实施例对比可知，如图1所示的现有技术中，在视频图像1中检测出对象后，就会立即对模板对象集合进行替换；而在如图3所示的实施例中，不会根据某一帧视频图像的检测结果立即对模板对象集合进行替换，而是需要结合连续的N帧视频图像中所出现的对象，共同对模板对象集合进行更新后，才会使用更新后的模板对象集合对后续的视频图像中的对象进行跟踪。因此，本实施例与现有技术相比，极大地提高了跟踪模板对象集合更新的有效性和准确性，也进一步提高了根据模板对象集合对对象进行跟踪的准确性。

进一步地，图5为本发明提供的基于视频图像的对象跟踪方法一实施例的逻辑结构示意图。其中示出了当本实施例所述的基于视频图像的对象跟踪方法应用于自动驾驶领域中的交通信号灯检测与跟踪时的具体实现逻辑结构。其中，自动驾驶车辆40包括摄像头41、处理装置42，以及交互装置/处理装置43。则当自动驾驶车辆40的摄像头41采集到视频流后，将视频流发送至处理装置42。处理装置42根据本申请前述实施例中的方法，基于视频流中的视频图像，进行对象跟踪、检测以及匹配后，将对象跟踪的最终结果发送至交互装置/处理装置43。其中，交互装置43可以是显示器，则当显示器接收到匹配结果，可以在显示界面上向自动驾驶车辆40的乘客显示跟踪结果；或者，处理装置43进一步对跟踪结果进行处理，例如，根据跟踪结果确定自动驾驶车辆40的下一步行驶策略，并根据所确定的行驶策略控制自动驾驶车辆40。

因此，本申请提供的基于视频图像的对象跟踪方法中，可以根据实际道路中交通信号灯的外观、类别以及数目上种类更多的跟踪场景，通过检测、跟踪以及匹配的逻辑，能够更加准确地确定对象跟踪时所使用的模板对象集合，降低检测算法中所检测对象的漏检和误检，提升对视频图像跟踪的系统的性能。

图6为本发明提供的基于视频图像的对象跟踪装置一实施例的结构示意图。如图6所示，本实施例提供的基于视频图像的对象跟踪装置包括：确定模块601，检测模块602，匹配模块603和跟踪模块604。其中，确定模块601用于确定在对目标视频流中的对象进行跟踪时，第一时刻所使用的模板对象集合；其中，所述模板对象集合包含M个待跟踪的对象，所述M为大于等于0的整数；检测模块602用于检测目标视频流中，第一时刻到第二时刻的N帧视频图像包含的目标对象；其中，N为大于等于2的整数；匹配模块603用于根据N帧视频图像包含的目标对象和模板对象集合的匹配结果，更新模板对象集合；其中，模板对象集合包含M个待跟踪的物体，M为大于等于0的整数；跟踪模块604用于在第二时刻后，使用更新后的模板对象集合对目标视频流中的对象进行跟踪。

本实施例提供的基于视频图像的对象跟踪装置，可用于执行如图2所示的基于视频图像的对象跟踪方法，其实现方式与原理相同，不再赘述。

可选地，在上述实施例中，匹配模块603具体用于，若N帧视频图像中包括第一对象的视频图像的数量大于第一阈值，且模板对象集合中不包括第一对象，则向模板对象集合中加入第一对象；若N帧视频图像中包括第二对象的视频图像的数量小于第二阈值，且模板对象集合中包括第二对象，则将模板对象集合中的第二对象删除；若N帧视频图像中包括第三对象的视频图像的数量大于第三阈值，且模板对象集合中包括第三对象，则保留模板对象集合中的第三对象。

可选地，在上述实施例中，检测模块602具体用于，通过机器学习模型检测所述视频图像中包含的至少一个对象；

将所述机器学习模型对所述至少一个对象的评分大于预设阈值的对象，作为所述目标对象。

可选地，在上述实施例中，机器学习模型包括：卷积神经网络模型；则检测模块602具体用于，将所述视频图像经过所述卷积神经网络模型处理后，所述卷积神经网络模型中每一层得到的特征进行特征融合，得到视频图像特征；依次使用多个卷积特征尺度对所述视频图像特征进行识别，确定所述视频图像中包含的至少一个对象。

可选地，在上述实施例中，检测模块602还用于，确定所述视频图像中所述至少一个对象外部预设范围内的图像的语义信息；将外部图像的语义信息满足预设条件的对象，作为所述目标对象。

可选地，在上述实施例中，检测模块602还用于，确定所述至少一个对象与采集所述视频图像的设备之间的距离；将所述距离小于预设距离的对象，作为所述目标对象。

本实施例提供的基于视频图像的对象跟踪装置，可用于执行前述实施例中提供的基于视频图像的对象跟踪方法，其实现方式与原理相同，不再赘述。

本发明还提供一种电子设备，包括：处理器，存储器以及计算机程序；其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如前述任一项实施例所述的方法的指令。

本发明还提供一种存储介质，所述存储介质存储有计算机程序，当所述计算机程序在计算机上运行时，使得计算机执行如前述任一项实施例所述的方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于视频图像的对象跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述N帧视频图像包含的目标对象和模板对象集合的匹配结果，更新所述模板对象集合，包括：

若所述N帧视频图像中包括第一对象的视频图像的数量大于第一阈值，且所述模板对象集合中不包括所述第一对象，则向所述模板对象集合中加入所述第一对象；

若所述N帧视频图像中包括第二对象的视频图像的数量小于第二阈值，且所述模板对象集合中包括所述第二对象，则将所述模板对象集合中的所述第二对象删除；

若所述N帧视频图像中包括第三对象的视频图像的数量大于第三阈值，且所述模板对象集合中包括所述第三对象，则保留所述模板对象集合中的所述第三对象。

3.根据权利要求1或2所述的方法，其特征在于，对于所述N帧视频图像中的每帧视频图像，所述检测视频图像中包含的目标对象，包括：

通过机器学习模型检测所述视频图像中包含的至少一个对象；

4.根据权利要求3所述的方法，其特征在于，

所述机器学习模型包括：卷积神经网络模型；

所述通过机器学习模型识别所述视频图像中包含的至少一个对象，包括：

将所述视频图像经过所述卷积神经网络模型处理后，所述卷积神经网络模型中每一层得到的特征进行特征融合，得到视频图像特征；

依次使用多个卷积特征尺度对所述视频图像特征进行识别，确定所述视频图像中包含的至少一个对象。

5.根据权利要求3所述的方法，其特征在于，所述通过机器学习模型识别所述视频图像中包含的至少一个对象之后，包括：

确定所述视频图像中所述至少一个对象外部预设范围内的图像的语义信息，并将外部图像的语义信息满足预设条件的对象，作为所述目标对象；

和/或，

确定所述至少一个对象与采集所述视频图像的设备之间的距离，并将所述距离小于预设距离的对象，作为所述目标对象。

6.一种基于视频图像的对象跟踪装置，其特征在于，包括：

匹配模块，用于根据所述N帧视频图像包含的目标对象和模板对象集合的匹配结果，更新所述模板对象集合；

7.根据权利要求6所述的装置，其特征在于，所述匹配模块具体用于，

8.根据权利要求6或7所述的装置，其特征在于，所述检测模块具体用于，对于所述N帧视频图像中的每帧视频图像，

9.一种电子设备，其特征在于，包括：处理器，存储器以及计算机程序；其中，所述计算机程序被存储在所述存储器中，并且被配置为由所述处理器执行，所述计算机程序包括用于执行如权利要求1-5任一项所述的方法的指令。

10.一种存储介质，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序在计算机上运行时，使所述计算机执行如权利要求1-5任一项所述的方法。