CN107316322A

CN107316322A - 视频跟踪方法和装置、以及对象识别方法和装置

Info

Publication number: CN107316322A
Application number: CN201710501422.0A
Authority: CN
Inventors: 张波; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2017-06-27
Filing date: 2017-06-27
Publication date: 2017-11-03
Also published as: US11107225B2; US20200273179A1; US20180374219A1; US10726562B2

Abstract

本发明实施例提供了一种视频跟踪方法和装置、以及对象识别方法和装置，解决了现有视频跟踪方式因跟踪过程的不连续而导致跟丢跟踪对象的问题，以及现有的对象识别方式的过程复杂、识别效率低的问题。其中的视频跟踪方法包括：确定视频中的第一跟踪对象目标，并基于所述视频对所述第一跟踪对象目标进行视频跟踪；将视频跟踪过程的当前图像中的所述第一跟踪对象目标与过往图像中的所述第一跟踪对象目标进行面积重合度计算，其中所述过往图像为所述视频跟踪过程中在所述当前图像之前一次跟踪到所述第一跟踪对象目标时的图像；在对所述第一跟踪对象目标的视频跟踪过程中，提取所述视频中的所述第一跟踪对象目标的特征点各自的特征信息。

Description

视频跟踪方法和装置、以及对象识别方法和装置

技术领域

本发明涉及视频分析技术领域，具体涉及一种视频跟踪方法和装置、以及对象识别方法和装置。

背景技术

基于计算机视觉的视频跟踪和识别技术，已经被广泛地应用于公共安全、身份验证等场合。例如，通过对监控视频中的可疑对象进行持续的视频跟踪即可掌握可疑对象的行踪，再通过对可疑对象进行智能识别即可进一步掌握可疑对象的身份信息，从而为刑侦过程提供强有力的破案线索。

然而，由于监控视频的采样帧频不高，以及采样过程中摄像机可能会存在剧烈运动，现有的视频跟踪方式很难完成对于同一跟踪对象的连续跟踪。当跟踪过程发生断点时无法判断当前的跟踪对象是否与之前的跟踪对象为同一个对象，而这种跟踪过程的不连续则会导致跟丢跟踪对象。此外，现有的基于视频跟踪的对象识别方式也较为复杂，识别效率低。

发明内容

有鉴于此，本发明实施例提供了一种视频跟踪方法和装置、以及对象识别方法和装置，解决了现有视频跟踪方式因跟踪过程的不连续而导致跟丢跟踪对象的问题，以及现有的对象识别方式的过程复杂、识别效率低的问题。

本发明一实施例提供的一种视频跟踪方法包括：确定视频中的第一跟踪对象目标，并基于所述视频对所述第一跟踪对象目标进行视频跟踪；

将视频跟踪过程的当前图像中的所述第一跟踪对象目标与过往图像中的所述第一跟踪对象目标进行面积重合度计算，其中所述过往图像为所述视频跟踪过程中在所述当前图像之前一次跟踪到所述第一跟踪对象目标时的图像；

在对所述第一跟踪对象目标的视频跟踪过程中，提取所述视频中的所述第一跟踪对象目标的特征点各自的特征信息；

当所述面积重合度计算的结果小于或等于预设阈值时，将所提取的所述当前图像中所述第一跟踪对象目标的特征点各自的特征信息与所述过往图像中所述第一跟踪对象目标的相应的特征点各自的特征信息进行匹配；以及

若所提取的所述当前图像中的特征点中至少预设数量个特征点各自的特征信息的匹配结果为相匹配，继续对所述第一跟踪对象目标的视频跟踪过程。

本发明一实施例提供的一种视频跟踪装置包括：

跟踪对象目标确定模块，配置为确定视频中的第一跟踪对象目标；

跟踪执行模块，配置为基于所述视频对所述第一跟踪对象目标进行视频跟踪；

面积重合度计算模块，配置为将视频跟踪过程的当前图像中的所述第一跟踪对象目标与过往图像中的所述第一跟踪对象目标进行面积重合度计算，其中所述过往图像为所述视频跟踪过程中在所述当前图像之前一次跟踪到所述第一跟踪对象目标时的图像；

第一提取模块，配置为在对所述第一跟踪对象目标的视频跟踪过程中，提取所述视频中的所述第一跟踪对象目标的特征点各自的特征信息；以及

第一匹配模块，配置为当所述面积重合度计算的结果小于或等于预设阈值时，将所提取的所述当前图像中所述第一跟踪对象目标的特征点各自的特征信息与所述过往图像中所述第一跟踪对象目标的相应的特征点各自的特征信息进行匹配；

其中，所述跟踪执行模块进一步配置为若所提取的所述当前图像中的特征点中至少预设数量个特征点各自的特征信息的匹配结果为相匹配，继续对所述第一跟踪对象目标的视频跟踪过程。

本发明一实施例提供的一种对象识别方法包括如前所述的视频跟踪方法，还包括：

基于所述第一跟踪对象目标的视频跟踪过程的至少一帧图像提取对象识别特征向量；

将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配，其中，所述注册对象库基于对多个已注册对象的图像中的对象特征向量进行预学习而建立；以及

若所提取的对象识别特征向量与一个已注册对象的对象特征向量的匹配结果为相匹配，则将所述一个已注册对象作为识别结果。

本发明一实施例提供的一种对象识别装置包括如前所述的视频跟踪装置，还包括：

第二提取模块，配置为基于所述第一跟踪对象目标的视频跟踪过程的至少一帧图像提取对象识别特征向量；

第二匹配模块，配置为将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配，其中，所述注册对象库基于对多个已注册对象的图像中的对象特征向量进行预学习而建立；以及

识别执行模块，配置为若所提取的对象识别特征向量与一个已注册对象的对象特征向量的匹配结果为相匹配，则将所述一个已注册对象作为识别结果。

本发明一实施例提供的一种计算机设备，包括存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如前任一所述视频跟踪方法或对象识别方法的步骤。

本发明一实施例提供的一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前任一所述视频跟踪方法或对象识别方法的步骤。

本发明实施例提供的一种视频跟踪方法和装置，通过将视频跟踪过程的当前图像中的第一跟踪对象目标与过往图像中的该第一跟踪对象目标进行面积重合度计算，并进一步将该当前图像与过往图像中该第一跟踪对象目标的特征点的特征信息进行匹配，可有效地保持住对该第一跟踪对象目标的跟踪过程。这样即使监控视频的采样帧频低或采样过程中存在剧烈运动，使面积重合度偏低时，通过特征信息对比的方式，仍能够判断出该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标是否为同一个跟踪对象，并在特征信息的匹配结果为相匹配时，持续对该第一跟踪对象目标的视频跟踪过程，从而保证了对于同一跟踪对象的跟踪过程的连续性。

本发明实施例提供的一种对象识别方法和装置，通过建立基于对象特征向量的注册对象库，并将视频跟踪图像中该第一跟踪对象目标与该注册对象库中的已注册对象进行特征向量的匹配，缩小了识别过程中的对象检索范围，加快了识别速度，提高了识别过程的准确率和效率。

附图说明

图1所示为本发明一实施例提供的一种视频跟踪方法的流程示意图。

图1’所示为本发明另一实施例提供的一种视频跟踪方法的流程示意图。

图2所示为本发明一实施例提供的一种对象识别方法的流程示意图。

图3所示为本发明另一实施例提供的一种对象识别方法的流程示意图。

图4所示为本发明一实施例提供的一种视频跟踪装置的结构示意图。

图5所示为本发明一实施例提供的一种基于视频跟踪的对象识别装置的结构示意图。

图6所示为本发明一实施例提供的一种基于视频跟踪的对象识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示为本发明一实施例提供的一种视频跟踪方法的流程示意图。如图1所示，该视频跟踪方法包括如下步骤：

步骤101：确定视频中的第一跟踪对象目标，并基于视频对第一跟踪对象目标进行视频跟踪。

具体而言，可基于预设的跟踪对象特征从视频中检测得到该第一跟踪对象目标。例如当该第一跟踪对象目标为特定的人脸对象时，此时便可根据该特定人脸的一些面部特征来从视频中检测出该特定的人脸对象。然而应当理解，该第一跟踪对象目标的具体形式是由监控人员根据实际的监控需求而定的，而根据该第一跟踪对象目标的具体形式不同，在视频中确定该第一跟踪对象目标的方式也可能有所不同。本发明对该第一跟踪对象目标的具体形式，以及从视频中确定该第一跟踪对象目标的具体方式不做限定。

步骤102：将视频跟踪过程的当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标进行面积重合度计算，其中过往图像为视频跟踪过程中在该当前图像之前一次跟踪到该第一跟踪对象目标时的图像。

面积重合度计算为衡量两个视频对象在面积上的重合程度的一种计算方式，面积重合度计算的结果即为该两个对象在面积上的重合比例。由此可见，通过该面积重合度计算过程，即可初步判断该当前图像中的该第一跟踪对象目标是否与过往图像中的该第一跟踪对象目标为同一个对象。当面积重合度计算的结果大于了预设阈值时，则可初步认定为该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标为同一个对象；如果面积重合度计算的结果小于或等于预设阈值时，则可初步认定该当前图像中的该第一跟踪对象目标很有可能与过往图像中的该第一跟踪对象目标不是同一个对象。而当该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标为同一个对象时，即可认为该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标都为监控人员需要跟踪的第一跟踪对象。

应当理解，作为面积重合度计算以及后续特征信息匹配的判断基准，该过往图像可选自视频跟踪过程中在该当前图像之前一次跟踪到第一跟踪对象目标时的图像。例如，在本发明一实施例中，当该当前图像是实时提取的图像且一直保持着对该第一跟踪对象目标的跟踪时，该过往图像就可为跟踪到该第一跟踪对象目标的前一帧图像。由于该当前图像的提取过程是实时进行的，因此利用该过往图像进行面积重合度计算的过程也是实时进行的，从而保持住对该第一跟踪对象目标的持续跟踪。然而，本发明对该过往图像的具体选取原则不做具体限定，只要是上一次跟踪到该第一跟踪对象目标时的图像即可。

步骤103：在对该第一跟踪对象目标的视频跟踪过程中，提取视频中的该第一跟踪对象目标的特征点各自的特征信息。

具体而言，可先识别该视频中的第一跟踪对象目标的特征点，然后再提取所识别的特征点各自的特征信息。应当理解，如前所述，该第一视频跟踪对象的具体形式可由监控人员根据实际的监控需求而定，其对应的特征点以及特征信息也可根据该第一视频跟踪对象的具体形式而调整。仍以该第一视频跟踪对象为人脸对象为例，该人脸对象的特征点就可包括以下几项中的一种或多种：左眼特征点、右眼特征点、鼻尖特征点、左嘴角特征点以及右嘴角特征点。与特征点对应的特征信息可包括以下几项中的一种或多种：sift特征信息、fast特征信息和surf特征信息。然而，本发明对与该第一视频跟踪对象对应的特征点以及特征信息的具体形式同样不做限定。

在本发明一实施例中，该提取的图像可以是实时提取的当前图像，即，实时提取该视频跟踪过程的每帧图像中该第一跟踪对象目标的特征点各自的特征信息。这样便可保证每帧图像中的该第一跟踪对象目标都需要经过后续的与过往图像的匹配过程，可更好的保证视频跟踪过程的实时性和准确性。

步骤104：当面积重合度计算的结果小于或等于预设阈值时，将所提取的该当前图像中该第一跟踪对象目标的特征点各自的特征信息与过往图像中该第一跟踪对象目标的相应的特征点各自的特征信息进行匹配。

具体而言，为了进一步消除采样帧率和采样过程稳定性对面积重合度计算结果的影响，进一步提高跟踪过程的准确性，即使面积重合度计算的结果已经小于或等于预设阈值，还是要结合上述基于特征点的特征信息的匹配过程进一步判断该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标是否为同一个对象。

图1’所示为本发明另一实施例提供的一种视频跟踪方法的流程示意图。相比于图1所示的视频跟踪方法，图1’所示的视频跟踪方法进一步包括了步骤105～步骤108。

具体而言，如图1’所示，当面积重合度计算的结果大于预设阈值时，可以直接继续对该第一跟踪对象目标的视频跟踪过程(步骤108)，以此提高视频跟踪过程的效率。例如，当视频的采用帧率本身已经足够高，通过面积重合度计算已判定该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标为同一个对象时，则可确认跟踪的对象没有发生改变，此时可直接继续对该第一跟踪对象目标的跟踪过程。应当理解，这里所述的继续视频跟踪过程，其实可以是形成对该第一跟踪对象的连续视频跟踪码流的过程。例如，当视频跟踪过程已经出现断点时，则可将后续的对该第一跟踪对象的视频码流与之前的对该第一跟踪对象的视频码流相拼接。

在本发明一实施例中，由于其实只有当重合度计算结果判断为该当前图像中的该第一跟踪对象目标很有可能与过往图像中的该第一跟踪对象目标不是同一个对象时，才需要进一步结合上述基于特征点的特征信息的匹配过程进行进一步判断；虽然实时提取每帧图像中该第一跟踪对象目标的特征点各自的特征信息以用于上述匹配过程能够更好的保证跟踪过程的实时性和准确性，但为了能够进一步减轻后续匹配过程的特征信息提取负担以进一步提高效率，也可以只有当该当前图像的面积重合度计算的结果小于或等于预设阈值时，才提取该当前图像中的该第一跟踪对象目标的特征点各自的特征信息。即，只有面积重合度计算的结果小于或等于预设阈值的图像才会被提取特征点各自的特征信息，以通过上述匹配过程进一步判断该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标是否为同一个对象。

步骤105：若所提取的该当前图像中的特征点中至少预设数量个特征点各自的特征信息的匹配结果为相匹配，继续对该第一跟踪对象目标的视频跟踪过程。

具体而言，若所提取的该当前图像中的特征点中匹配结果为相匹配的特征点的数量大于或等于了预设数量，则可判断为该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标为同一个对象。即，该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标都为监控人员需要跟踪的第一跟踪对象，可继续对该第一跟踪对象目标的视频跟踪过程。

若所提取的该当前图像中的特征点中匹配结果为相匹配的特征点的数量少于预设数量，则可确定该第一跟踪对象目标不是该第一跟踪对象。此时，便可结束对该第一跟踪对象目标的视频跟踪过程(步骤106)；基于所提取的该当前图像中的特征点新建第二跟踪对象目标，并基于视频对该第二跟踪对象目标进行视频跟踪(步骤107)。由此便开启了对该第二跟踪对象目标的视频跟踪过程，后续便可通过步骤101～步骤107以保持对该第二跟踪对象目标的视频跟踪过程，在此不再赘述。

由此可见，本发明实施例提供的视频跟踪方法，通过将视频中的当前图像中的第一跟踪对象目标与过往图像中的该第一跟踪对象目标进行面积重合度计算，并进一步将该当前图像与过往图像中该第一跟踪对象目标的特征点的特征信息进行匹配，可有效地保持住对该第一跟踪对象目标的跟踪过程。这样即使监控视频的采样帧频低或采样过程中存在剧烈运动使面积重合度偏低时，通过特征信息对比的方式，仍能够判断出该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标是否为同一个跟踪对象，并在特征信息的匹配结果为相匹配时，持续对该第一跟踪对象目标的视频跟踪过程，从而保证了在采样帧频低或剧烈运动等情况下仍可以准确的对第一跟踪对象进行连续视频跟踪。

图2所示为本发明一实施例提供的一种对象识别方法的流程示意图。该对象识别方法包括了如前任一实施例所述的视频跟踪方法，如图2所示，该对象识别方法还包括了如下步骤：

步骤201：基于第一跟踪对象目标的视频跟踪过程的至少一帧图像提取对象识别特征向量。

虽然该视频跟踪过程的至少一帧图像中都包括了该第一跟踪对象目标，但该第一跟踪对象目标在该视频跟踪过程的至少一帧图像中的具体呈现形式可能有所不同。即，在该第一跟踪对象目标所有特征所构成的向量空间中，在不同的特征向量方向上的取值不同。根据该第一跟踪对象目标在该视频跟踪过程的至少一帧图像提取对象识别特征向量，即可利用该对象识别特征向来表征该第一跟踪对象目标，以在后续的匹配过程中与已注册对象的对象特征向量进行匹配。该对象识别特征向量的提取过程可基于通过深度学习生成的提取模型来实现。

应当理解，所选取的图像越多，对于该第一跟踪对象目标的表征效果越好，有助于提高后续匹配过程的准确度，然而也会增加后续匹配过程的计算负担，因此所选取的视频跟踪过程的图像数量可根据实际的需求而设定，本发明对此不做限定。

在本发明一实施例中，该用于提取对象识别特征向量的至少一帧图像可为从对第一跟踪对象目标进行视频跟踪过程所形成的照片流中检选而出，检选的条件可包括以下几项中的一种或多种：模糊程度、曝光程度和对象姿态。通过以上检选条件所选取的视频跟踪图像可保证对象识别特征向量的提取质量，有助于提高对象识别特征向量对于该第一跟踪对象目标的表征效果，提高后续匹配过程的准确度。

在本发明另一实施例中，为了进一步提高所选取的该至少一帧视频图像的检选质量和效率，还可在每次提取视频中的图像中的第一跟踪对象目标的特征点各自的特征信息之后，根据所提取的特征点在该图像中的位置，将该图像与预设的图像模板对齐；然后，从经过对齐过程的图像中检选而出用于提取对象识别特征向量的至少一帧图像，以保证该至少一帧图像的检选质量。例如，当在视频跟踪流程中为对每帧图像都实时提取特征信息时，每帧图像也就都会经过与预设的图像模板的对齐过程，由于该预设的图像模板上已经预设了与所要提取的对象识别特征向量对应的提取位置，因此对经过该对齐过程的图像所进行的对象识别特征向量提取过程可以更精准且效率更高。

步骤202：将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配，其中，注册对象库基于对多个已注册对象的图像中的对象特征向量进行预学习而建立。

具体而言，注册对象库中可包括多个已注册对象，由于注册对象库是基于对该多个已注册对象的图像中的对象特征向量进行预学习而建立，因此注册对象库中其实相当于存储了该多个已注册对象与各自对象特征向量之间的对应关系。这样将所提取的对象识别特征向量与注册对象库中的对象特征向量进行匹配，即可找出与所提取的对象识别特征向量所对应的已注册对象。

当用于提取该对象识别特征向量的图像有多帧时，可以基于该多帧图像中的每一帧图像分别提取一个对象识别特征向量，然后再将这些提取的对象识别特征向量分别与注册对象库中的已注册对象的对象特征向量进行匹配。而当提取该对象识别特征向量的图像只有一帧时，则基于该一帧图像提取对象识别特征向量，然后再将该提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量分别进行匹配即可。

步骤203：若所提取的对象识别特征向量与一个已注册对象的对象特征向量的匹配结果为相匹配，则将该一个已注册对象作为识别结果。

该基于特征向量的匹配过程可通过计算对象识别特征向量与对象特征向量之间的向量距离进行。具体而言，在本发明一实施例中，该基于特征向量的匹配过程可具体通过如下方式进行：基于N(N≥1)帧图像分别提取一个对象识别特征向量L_n(n＝1…N),然后再将该N个对象识别特征向量分别与注册对象库中的M(M≥2)个已注册对象中的每个已注册对象的对象特征向量P_m(m＝1…M)计算向量距离。该向量距离可通过D_nm表示，意为N帧图像中第n帧图像的对象识别特征向量L_n与M个已注册对象中第m个已注册对象的对象特征向量P_m之间的向量距离。这样注册对象库中的每个已注册对象都会获取距离该N个对象识别特征向量的N个向量距离。由于N帧图像中每帧图像的图像质量有所差别，因此该N帧图像中每帧图像对于匹配过程的贡献应是不同的，因此可为N帧图像中的每帧图像分配一个权重因子S_n(n＝1…N)，图像质量越高的图像的权重因子越大。这样注册对象库中的每个已注册对象都可以求得一个最终的匹配距离H_m(m＝1…M)，该匹配距离由与该已注册对象对应的N个向量距离做加权求和求得。例如，其中第3个已注册对象的匹配距离就可表示为H₃＝∑_n＝1… _NS_nD_n3。然后再获取该M个已注册对象各自的匹配距离H_m(m＝1…M)中最短的匹配距离。若该最短的匹配距离小于预设距离阈值，则认为该最短的匹配距离所对应的已注册对象的匹配结果为相匹配，并将该最短的匹配距离所对应的已注册对象作为识别结果。若该最短的匹配距离大于了预设距离阈值，则可以认为没有找到匹配结果为相匹配的已注册对象。而当并没有匹配结果为相匹配的已注册对象时，则说明该注册对象库中不存在与该第一跟踪对象目标对应的已注册对象。当然，也可省略对识别结果与预设距离阈值的比较步骤，默认将最短的匹配距离所对应的已注册对象作为相匹配的已注册对象输出。此时，可通过其他现有的方式来进一步识别该第一跟踪对象目标，在此不再赘述。应当理解，虽然在上面的描述中，以匹配距离的大小作为了衡量匹配结果的判断方式，并具体采用了将向量距离加权求和的方式以求得匹配距离，采用了权重因子作为向量距离加权求和的系数；但该匹配结果的具体判断方式其实并不限于上面所描述的方式。例如，在本发明一实施例中，也可以将向量距离直接叠加而不必参考该权重因子。在本发明另一实施例中，还可以求取向量距离的平均值来作为最终的匹配距离。本发明对该匹配结果的具体判断方式并不做严格限定。

由此可见，本发明实施例所提供的对象识别方法，通过建立基于对象特征向量的注册对象库，并将视频跟踪图像中该第一跟踪对象目标与该注册对象库中的已注册对象进行特征向量的匹配，缩小了识别过程中的对象检索范围，加快了识别速度，提高了识别过程的准确率和效率。

应当理解，虽然在上面的实施例中仅描述了针对该“第一跟踪对象目标”的对象识别流程，但这里的“第一跟踪对象目标”的概念其实是相对于当前跟踪过程中要识别的对象而言的。例如，当在对“第一跟踪对象目标”的视频跟踪的过程中开启了对“第二跟踪对象目标”的视频跟踪过程时(如前述步骤107所述)，对于“第二跟踪对象目标”的对象识别过程也可采用上述步骤201至203的方法流程进行。即，该“第一跟踪对象目标”的概念并不应用于限制本发明实施例所提供的对象识别方法的保护范围。

在本发明一实施例中，为了能够进一步缩小对象检索范围，进一步提高识别过程的准确率和效率，如图3所示，该对象识别方法可包括如下步骤：

步骤301：基于第一跟踪对象目标的视频跟踪过程的至少一帧图像提取对象识别特征向量和属性信息。

应当理解，属性信息为用于表征该第一跟踪对象目标的身份的信息，属性信息的具体内容和形式可根据该第一跟踪对象目标的具体形式而调整。例如，当第一跟踪对象目标为人脸对象时，属性信息就可包括以下几项中的一种或多种：性别信息以及年龄信息。性别信息以及年龄信息一般可以通过基于深度学习训练的模型从视频图像的第一跟踪对象目标中提取获得。

步骤302：筛选出注册对象库中与所提取的属性信息对应的已注册对象，其中，注册对象库基于对多个已注册对象的图像中的对象特征向量以及属性信息进行预学习而建立。

由于注册对象库是基于已注册对象的对象特征向量和属性信息进行预学习而建立的，因此注册对象库中其实还存储了已注册对象与属性信息的对应关系。例如，当注册对象库中的已注册对象都为人脸对象时，其实相当于建立了基于属性信息(例如，性别信息或年龄信息)的人脸对象分类。此时，基于所提取的属性信息对注册对象库中的已注册对象先进行一遍筛选，即可筛选出与所提取的属性信息对应的已注册对象。

步骤303：将所提取的对象识别特征向量与所筛选出的已注册对象各自的对象特征向量进行匹配。

所筛选出的已注册对象即为与所提取的属性信息对应的已注册对象，此时再针对这些所提取的已注册对象进行基于特征向量的匹配过程，基于特征向量的匹配过程的对象检索范围被进一步缩小，从而进一步加快了识别速度，提高了识别过程的准确率和效率。

步骤304：若所提取的对象识别特征向量与一个已注册对象的对象特征向量的匹配结果为相匹配，则将该一个已注册对象作为识别结果。

图4所示为本发明一实施例提供的一种视频跟踪装置的结构示意图。如图4所示，该视频跟踪装置40包括：跟踪对象目标确定模块41、跟踪执行模块42、第一提取模块43、面积重合度计算模块44以及第一匹配模块45。

跟踪对象目标确定模块41配置为确定视频中的第一跟踪对象目标；跟踪执行模块42配置为基于视频对第一跟踪对象目标进行视频跟踪；面积重合度计算模块43配置将视频跟踪过程的当前图像中的第一跟踪对象目标与过往图像中的第一跟踪对象目标进行面积重合度计算，其中过往图像为视频跟踪过程中在当前图像之前一次跟踪到第一跟踪对象目标时的图像；第一提取模块44配置为在对第一跟踪对象目标的视频跟踪过程中，提取视频中的第一跟踪对象目标的特征点各自的特征信息；第一匹配模块45，配置为当面积重合度计算的结果小于或等于预设阈值时，将所提取的当前图像中第一跟踪对象目标的特征点各自的特征信息与过往图像中第一跟踪对象目标的相应的特征点各自的特征信息进行匹配；跟踪执行模块42进一步配置为若所提取的当前图像中的特征点中至少预设数量个特征点各自的特征信息的匹配结果为相匹配，继续对第一跟踪对象目标的视频跟踪过程。

本发明实施例提供的视频跟踪装置40，通过将视频中的当前图像中的第一跟踪对象目标与过往图像中的该第一跟踪对象目标进行面积重合度计算，并进一步将该当前图像与过往图像中该第一跟踪对象目标的特征点的特征信息进行匹配，可有效地保持住对该第一跟踪对象目标的跟踪过程。这样即使监控视频的采样帧频低或采样过程中存在剧烈运动使面积重合度偏低时，通过特征信息对比的方式，仍能够判断出该当前图像中的该第一跟踪对象目标与过往图像中的该第一跟踪对象目标是否为同一个跟踪对象，并在特征信息的匹配结果为相匹配时，持续对该第一跟踪对象目标的视频跟踪过程，从而保证了在采样帧频低或剧烈运动等情况下仍可以准确的对第一跟踪对象进行连续视频跟踪。

在本发明一实施例中，第一提取模块44进一步配置为：当视频跟踪过程的当前图像的面积重合度计算的结果小于或等于预设阈值时，提取视频跟踪过程的当前图像中的第一跟踪对象目标的特征点各自的特征信息。这样可进一步减轻后续匹配过程的计算负担以进一步提高效率。或，第一提取模块44也可进一步配置为：实时提取视频跟踪过程的每帧图像中的第一跟踪对象目标的特征点各自的特征信息。这样便可将实时提取的特征信息用于后续的匹配过程，以更好的保证跟踪过程的实时性和准确性。

在本发明一实施例中，第一提取模块44包括：识别程序单元以及提取程序单元。识别程序单元配置为识别视频中的第一跟踪对象目标的特征点；提取程序单元配置为提取所识别的特征点各自的特征信息。

在本发明一实施例中，该视频跟踪装置40可进一步包括：判断模块，配置为若所提取的当前图像中的特征点中匹配结果为相匹配的特征点的数量少于预设数量，则确定第一跟踪对象目标不是第一跟踪对象。

在本发明一实施例中，跟踪对象目标确定模块41还可进一步配置为：若所提取的当前图像中的特征点中匹配结果为相匹配的特征点的数量少于预设数量，则基于所提取的该当前图像中的特征点新建第二跟踪对象目标；其中，跟踪执行模块42进一步配置为：基于视频对第二跟踪对象目标进行视频跟踪。由此便开启了对该第二跟踪对象目标的视频跟踪过程，后续便可通过跟踪执行模块42、第一提取模块44、面积重合度计算模块43以及第一匹配模块45保持对该第二跟踪对象目标的视频跟踪过程，在此不再赘述。

在本发明一实施例中，跟踪执行模块42还可进一步配置为：当面积重合度计算的结果大于预设阈值时，直接继续对第一跟踪对象目标的视频跟踪过程。这样当面积重合度计算的结果大于预设阈值时，就不用再通过第一匹配模块45执行后续的基于特征信息的匹配过程，而是可直接续对第一跟踪对象目标的视频跟踪过程，提高了视频跟踪过程的效率。

在本发明一实施例中，第一跟踪对象目标可为人脸对象，特征点可包括以下几项中的一种或多种：左眼特征点、右眼特征点、鼻尖特征点、左嘴角特征点以及右嘴角特征点。

在本发明一实施例中，特征点各自的特征信息可包括以下几项中的一种或多种：sift特征信息、fast特征信息和surf特征信息。

图5所示为本发明一实施例提供的一种基于视频跟踪的对象识别装置的结构示意图。该对象识别装置50包括如前任一实施例的视频跟踪装置40，如图5所示，该对象识别装置50还包括：第二提取模块51、第二匹配模块52以及识别执行模块53。

第二提取模块51配置为基于第一跟踪对象目标的视频跟踪过程的至少一帧图像提取对象识别特征向量；第二匹配模块52配置为将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配，其中，注册对象库基于对多个已注册对象的图像中的对象特征向量进行预学习而建立；识别执行模块53配置为若所提取的对象识别特征向量与一个已注册对象的对象特征向量的匹配结果为相匹配，则将该一个已注册对象作为识别结果。

由此可见，本发明实施例提供的对象识别装置50，通过建立基于对象特征向量的注册对象库，并将视频跟踪图像中该第一跟踪对象目标与该注册对象库中的已注册对象进行基于特征向量的匹配，缩小了识别过程中的对象检索范围，加快了识别速度，提高了识别过程的准确率和效率。

在本发明一实施例中，第二提取模块51可进一步配置为，在将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配之前，基于第一跟踪对象目标的视频跟踪过程的至少一帧图像提取属性信息；其中，对象识别装置50可进一步包括：筛选模块，配置为筛选出注册对象库中与所提取的属性信息对应的已注册对象，其中，注册对象库基于对多个已注册对象的图像中的对象特征向量以及属性信息进行预学习而建立；其中，第二匹配模块52进一步配置为将所提取的对象识别特征向量与筛选模块所筛选出的已注册对象各自的对象特征向量进行匹配。由于所筛选出的已注册对象即为与所提取的属性信息对应的已注册对象，此时再针对这些所筛选出的已注册对象进行基于特征向量的匹配过程，基于特征向量的匹配过程的对象检索范围被进一步缩小，从而加快了识别速度，提高了识别过程的准确率和效率。

在本发明一实施例中，第一跟踪对象目标可为人脸对象，属性信息包括以下几项中的一种或多种：性别信息以及年龄信息。

在本发明一实施例中，如图6所示，该对象识别装置50还可进一步包括：

检选模块54，配置为从对第一跟踪对象目标进行视频跟踪过程所形成的视频流中检选出用于提取对象识别特征向量的至少一帧图像，检选的条件包括以下几项中的一种或多种：模糊程度、曝光程度和对象姿态。通过检选模块54所选取的视频跟踪图像可保证对象识别特征向量的提取质量，有助于提高对象识别特征向量对于该第一跟踪对象目标的表征效果，提高后续匹配过程的准确度。

在本发明一实施例中，如图6所示，该对象识别装置50还可进一步包括：对齐模块55，配置为在提取视频的图像中的第一跟踪对象目标的特征点各自的特征信息之后，根据所提取的特征点在该图像中的位置，将该图像与预设的图像模板对齐；其中，检选模块54进一步配置为从经过对齐模块55的对齐过程的图像中检选出用于提取对象识别特征向量的至少一帧图像。这样当在视频跟踪流程中为对每帧图像都实时提取特征信息时，每帧图像也就都会经过与预设的图像模板的对齐过程，由于该预设的模板上已经预设了与所要提取的对象识别特征向量对应的提取位置，因此对经过该与图像模板的对齐过程后的图像的对象识别特征向量提取过程可以更精准且效率更高。

本发明一实施例还提供一种计算机设备，包括存储器、处理器以及存储在存储器上被处理器执行的计算机程序，处理器执行计算机程序时实现如前任一实施例所描述的视频跟踪方法或对象识别方法的步骤。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前任一实施例所描述的视频跟踪方法或对象识别方法的步骤。该计算机存储介质可以为任何有形媒介，例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。

应当理解，上述实施例所提供的视频跟踪装置40或对象识别装置50中记载的每个模块或单元都与前述的一个方法步骤相对应。由此，前述的方法步骤描述的操作和特征同样适用于视频跟踪装置40或对象识别装置50及其中所包含的对应的模块和单元，重复的内容在此不再赘述。

应当理解，虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产品，但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

应当理解，尽管在上文的详细描述中提及了装置的若干模块或单元，但是这种划分仅仅是示例性而非强制性的。实际上，根据本发明的示例性实施方式，上文描述的两个或更多模块/单元的特征和功能可以在一个模块/单元中实现，反之，上文描述的一个模块/单元的特征和功能可以进一步划分为由多个模块/单元来实现。此外，上文描述的某些模块/单元在某些应用场景下可被省略。

应当理解，为了不模糊本发明的实施方式，说明书仅对一些关键、未必必要的技术和特征进行了描述，而可能未对一些本领域技术人员能够实现的特征做出说明。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种视频跟踪方法，其特征在于，包括：

确定视频中的第一跟踪对象目标，并基于所述视频对所述第一跟踪对象目标进行视频跟踪；

2.根据权利要求1所述的方法，其特征在于，所述提取所述视频中的所述第一跟踪对象目标的特征点各自的特征信息包括：

当所述视频跟踪过程的当前图像的所述面积重合度计算的结果小于或等于预设阈值时，提取所述视频跟踪过程的当前图像中的所述第一跟踪对象目标的特征点各自的特征信息；

或，实时提取所述视频跟踪过程的每帧图像中的所述第一跟踪对象目标的特征点各自的特征信息。

3.根据权利要求1所述的方法，其特征在于，所述提取所述视频中的所述第一跟踪对象目标的特征点各自的特征信息包括：

识别所述视频中的所述第一跟踪对象目标的特征点；以及

提取所识别的特征点各自的特征信息。

4.根据权利要求1所述的方法，其特征在于，进一步包括：

若所提取的所述当前图像中的特征点中匹配结果为相匹配的特征点的数量少于预设数量，则确定所述第一跟踪对象目标不是第一跟踪对象。

5.根据权利要求1所述的方法，其特征在于，进一步包括：

若所提取的所述当前图像中的特征点中匹配结果为相匹配的特征点的数量少于预设数量，则基于所提取所述当前图像中的特征点新建第二跟踪对象目标，并基于所述视频对所述第二跟踪对象目标进行视频跟踪。

6.根据权利要求1所述的方法，其特征在于，在所述将视频跟踪过程的当前图像中的所述第一跟踪对象目标与过往图像中的所述第一跟踪对象目标进行面积重合度计算之后，进一步包括：

当所述面积重合度计算的结果大于预设阈值时，直接继续对所述第一跟踪对象目标的视频跟踪过程。

7.根据权利要求1所述的方法，其特征在于，所述第一跟踪对象目标为人脸对象，所述特征点包括以下几项中的一种或多种：左眼特征点、右眼特征点、鼻尖特征点、左嘴角特征点以及右嘴角特征点。

8.根据权利要求1所述的方法，其特征在于，所述特征点各自的特征信息包括以下几项中的一种或多种：sift特征信息、fast特征信息和surf特征信息。

9.一种对象识别方法，其特征在于，包括如权利要求1至8中任一所述的视频跟踪方法，还包括：

10.根据权利要求9所述的方法，其特征在于，在将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配之前，进一步包括：

基于所述第一跟踪对象目标的视频跟踪过程的至少一帧图像提取属性信息；

筛选出所述注册对象库中与所提取的属性信息对应的已注册对象，其中，所述注册对象库基于对所述多个已注册对象的图像中的对象特征向量以及属性信息进行预学习而建立；

其中，所述将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配包括：

将所提取的对象识别特征向量与所筛选出的已注册对象各自的对象特征向量进行匹配。

11.根据权利要求10所述的方法，其特征在于，所述第一跟踪对象目标为人脸对象，所述属性信息包括以下几项中的一种或多种：性别信息以及年龄信息。

12.根据权利要求9所述的方法，其特征在于，用于提取所述对象识别特征向量的所述至少一帧图像为从对所述第一跟踪对象目标进行视频跟踪过程所形成的照片流中检选而出，所述检选的条件包括以下几项中的一种或多种：模糊程度、曝光程度和对象姿态。

13.根据权利要求12所述的方法，其特征在于，在提取所述视频中的所述第一跟踪对象目标的特征点各自的特征信息之后，进一步包括：

根据所提取的特征点在所述视频中的图像中的位置，将所述视频中的图像与预设的图像模板对齐；

其中，用于提取所述对象识别特征向量的所述至少一帧图像为从经过所述对齐过程的图像中检选而出。

14.一种视频跟踪装置，其特征在于，包括：

15.根据权利要求14所述的视频跟踪装置，其特征在于，所述第一提取模块进一步配置为：

16.根据权利要求14所述的视频跟踪装置，其特征在于，所述第一提取模块包括：

识别程序单元，配置为识别所述视频中的所述第一跟踪对象目标的特征点；以及

提取程序单元，配置为提取所识别的特征点各自的特征信息。

17.根据权利要求14所述的视频跟踪装置，其特征在于，进一步包括：

判断模块，配置为若所提取的所述当前图像中的特征点中匹配结果为相匹配的特征点的数量少于预设数量，则确定所述第一跟踪对象目标不是第一跟踪对象。

18.根据权利要求14所述的视频跟踪装置，其特征在于，所述跟踪对象目标确定模块，进一步配置为：

若所提取的所述当前图像中的特征点中匹配结果为相匹配的特征点的数量少于预设数量，则基于所提取的所述当前图像中的特征点新建第二跟踪对象目标；

其中，所述跟踪执行模块进一步配置为：基于所述视频对所述第二跟踪对象目标进行视频跟踪。

19.根据权利要求14所述的视频跟踪装置，其特征在于，所述跟踪执行模块进一步配置为：

20.根据权利要求14所述的视频跟踪装置，其特征在于，所述第一跟踪对象目标为人脸对象，所述特征点包括以下几项中的一种或多种：左眼特征点、右眼特征点、鼻尖特征点、左嘴角特征点以及右嘴角特征点。

21.根据权利要求14所述的视频跟踪装置，其特征在于，所述特征点各自的特征信息包括以下几项中的一种或多种：sift特征信息、fast特征信息和surf特征信息。

22.一种基于视频跟踪的对象识别装置，其特征在于，包括如权利要求14至21中任一所述的视频跟踪装置，还包括：

23.根据权利要求22所述的对象识别装置，其特征在于，

所述第二提取模块进一步配置为，在将所提取的对象识别特征向量与注册对象库中的已注册对象的对象特征向量进行匹配之前，基于所述第一跟踪对象目标的视频跟踪过程的至少一帧图像提取属性信息；

其中，所述对象识别装置进一步包括：

筛选模块，配置为筛选出所述注册对象库中与所提取的属性信息对应的已注册对象，其中，所述注册对象库基于对所述多个已注册对象的图像中的对象特征向量以及属性信息进行预学习而建立；

其中，第二匹配模块进一步配置为将所提取的对象识别特征向量和与所述筛选模块所筛选出的已注册对象各自的对象特征向量进行匹配。

24.根据权利要求23所述的对象识别装置，其特征在于，所述第一跟踪对象目标为人脸对象，所述属性信息包括以下几项中的一种或多种：性别信息以及年龄信息。

25.根据权利要求22所述的对象识别装置，其特征在于，进一步包括：

检选模块，配置为从对所述第一跟踪对象目标进行视频跟踪过程所形成的视频流中检选出用于提取所述对象识别特征向量的所述至少一帧图像，所述检选的条件包括以下几项中的一种或多种：模糊程度、曝光程度和对象姿态。

26.根据权利要求25所述的对象识别装置，其特征在于，进一步包括：

对齐模块，配置为在提取所述视频中的所述第一跟踪对象目标的特征点各自的特征信息之后，根据所提取的特征点在所述视频中的图像中的位置，将所述视频中的图像与预设的图像模板对齐；

其中，所述检选模块进一步配置为从经过所述对齐模块的对齐过程的图像中检选出用于提取所述对象识别特征向量的所述至少一帧图像。

27.一种计算机设备，包括存储器、处理器以及存储在所述存储器上被所述处理器执行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至13中任一所述方法的步骤。

28.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述方法的步骤。