CN116563769B

CN116563769B - 一种视频目标识别追踪方法、系统、计算机及存储介质

Info

Publication number: CN116563769B
Application number: CN202310825886.2A
Authority: CN
Inventors: 樊飞燕; 吕莉; 陈谣; 栾辉; 樊棠怀; 侯家振
Original assignee: Nanchang Institute of Technology
Current assignee: Nanchang Institute of Technology
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-20
Anticipated expiration: 2043-07-07
Also published as: CN116563769A

Abstract

本发明提供一种视频目标识别追踪方法、系统、计算机及存储介质，方法包括：获取第一环境图像，于第一环境图像中对行人进行检测框标识；通过检测框的位置信息及变量信息进行位置预估，以获取若干个初选预测框；基于初选预测框与检测框之间的马氏距离，自若干个初选预测框中选定若干个次选预测框；获取第二环境图像，将若干个次选预测框标识于第二环境图像上，通过检测框与次选预测框之间的余弦距离，自若干个次选预测框中选定终选预测框，以完成视频目标识别追踪。通过判断次选预测框与检测框内信息的关联性，达到与目标的部分区域匹配的目的，避免因部分被遮挡导致识别追踪准确性降低，提升了视频目标检测识别的准确性及目标追踪的稳定性。

Description

一种视频目标识别追踪方法、系统、计算机及存储介质

技术领域

本申请涉及图像识别技术领域，特别是涉及一种视频目标识别追踪方法、系统、计算机及存储介质。

背景技术

面向智能化的交通视频监控、自动化驾驶等领域，道路中的目标一直是研究的热点方向。行人作为道路交通中的主要运动主体之一，同时作为交通工具的主要服务对象，对以行人为目标的追踪是研究的重中之重。

在科技迅速发展的时代，计算机视觉技术也得到了极大进步，实现了对以行人为目标的追踪。即通过于视频的当前帧中对行人进行标识，并于延续帧中再次识别该行人，以完成该行人的行动轨迹预测。

但道路上的行人较多，且图像容易受到光照和环境的影响，其不可避免的会使目标某些部分被遮挡，进而导致在延续帧中难以对行人进行准确的再次识别，影响视频目标检测识别的精度及目标追踪的稳定性。

发明内容

本申请实施例提供了一种视频目标识别追踪方法、系统、计算机及存储介质，以解决现有技术中以行人为目标进行检测追踪，因目标某些部分被遮挡的导致识别追踪的结果不准确，影响视频目标检测识别的精度和目标追踪的稳定性的技术问题。

第一方面，本申请实施例提供了一种视频目标识别追踪方法，包括以下步骤：

获取第一环境图像，于所述第一环境图像中对行人进行检测框标识；

通过所述检测框的位置信息及变量信息进行位置预估，以获取若干个初选预测框；

基于所述初选预测框与所述检测框之间的马氏距离，自若干个所述初选预测框中选定若干个次选预测框；

获取第二环境图像，将若干个所述次选预测框标识于所述第二环境图像上，通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框，以完成识别追踪。

进一步地，所述于所述第一环境图像中对行人进行检测框标识的步骤包括：

对所述第一环境图像进行预处理，以获取标定尺寸的输入图像；

将所述输入图像作为输入值输入特征提取网络模型，以获取所述第一环境图像中行人的中心点；

对所述中心点进行尺寸回归，以完成检测框标识。

进一步地，所述初选预测框的表达式为：

，

其中，表示初选预测框，/>表示初选预测框的中心点的横坐标值，/>表示初选预测框的中心点的纵坐标值，/>表示初选预测框的宽高比，/>表示初选预测框的高度；

且、/>、/>、，其中，/>表示检测框的中心点的横坐标值，/>表示检测框的中心点的纵坐标值，/>表示检测框的宽高比，/>表示检测框的高度，/>表示检测框到初选预测框的变化时间，/>、/>、/>、/>分别表示/>、/>、/>、/>的向量变化速度。

进一步地，所述基于所述初选预测框与所述检测框之间的马氏距离，自若干个所述初选预测框中选定若干个次选预测框的步骤包括：

分别计算若干个所述初选预测框与所述检测框之间的马氏距离，以获取若干个基准值；

判断所述基准值是否小于第一距离阈值；

若所述基准值小于所述第一距离阈值，则将与小于所述第一距离阈值的基准值对应的所述初选预测框选定为次选预测框。

进一步地，所述基准值的计算公式为：

，

其中，表示基准值，/>表示检测框的数据集信息，/>表示初选预测框的数据集信息，/>表示转置符，/>表示检测框与初选预测框之间的协方差。

进一步地，所述通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框的步骤包括：

提取所述检测框内若干个第一外观特征向量，以形成特征集，并提取所述次选预测框内全部的第二外观特征向量；

计算所述第二外观特征向量与所述特征集之间的最小余弦距离；

判断所述最小余弦距离是否小于第二距离阈值；

将小于所述第二距离阈值的最小余弦距离的数量最多的所述次选预测框选定为终选预测框。

进一步地，所述最小余弦距离的计算公式为：

，

其中，表示最小余弦距离，/>表示某一第二外观特征向量，/>表示特征集中某一第一外观特征向量，/>表示特征集中第一外观特征向量的序号。

第二方面，本申请实施例提供了一种视频目标识别追踪系统，应用如上述技术方案中的视频目标识别追踪方法，所述系统包括：

选择模块，用于获取第一环境图像，于所述第一环境图像中对行人进行检测框标识；

预测模块，用于通过所述检测框的位置信息及变量信息进行位置预估，以获取若干个初选预测框；

计算模块，用于基于所述初选预测框与所述检测框之间的马氏距离，自若干个所述初选预测框中选定若干个次选预测框；

执行模块，用于获取第二环境图像，将若干个所述次选预测框标识于所述第二环境图像上，通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框，以完成识别追踪。

第三方面，本申请实施例提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的视频目标识别追踪方法。

第四方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的视频目标识别追踪方法。

相比于相关技术，本发明的有益效果在于：在完成所述检测框的标识后，通过对检测框的位置变化进行预估，可避免大量的重复检测标识的过程，降低计算量，以更快的输出识别追踪的结果；通过所述马氏距离对所述初选预测框进行筛选，可增强所述次选预测框与所述检测框之间的关联性，降低偏差量对驾驶员带来的扰乱提示；通过计算所述余弦距离，可检测所述次选预测框内的信息与所述检测框内的信息的关联性，以达到与目标的部分区域匹配的目的，避免因目标的某些部分被遮挡而导致再识别的准确性降低的情况发生，有效的提升了视频目标检测识别的准确性及目标追踪的稳定性。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

图1为本发明第一实施例中视频目标识别追踪方法的流程图；

图2为本发明第二实施例中视频目标识别追踪系统的结构框图；

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

请参阅图1，本发明第一实施例提供的视频目标识别追踪方法，所述视频目标识别追踪方法包括以下：

步骤S10：获取第一环境图像，于所述第一环境图像中对行人进行检测框标识；

所述第一环境图像为所拍摄的视频流中当前帧的图像，完成所述检测框的标识，即完成了对行人的识别，一般情况下，在完成所述检测框的标识后，为所述检测框标注序号。

所述步骤S10包括：

S110：对所述第一环境图像进行预处理，以获取标定尺寸的输入图像；

优选地，所述标定尺寸为512*512*3。将所述第一环境图像处理为所述输入图像，可便于后续于特征提取网络模型中的计算。

S120：将所述输入图像作为输入值输入特征提取网络模型，以获取所述第一环境图像中行人的中心点；

所述特征提取网络模型将所述输入图像处理为热力图像，并于所述热力图像中进行行人的中心点的获取。

在本实施例中，所述特征提取网络模型为Hourglass网络模型，即堆叠漏斗神经网络，其由多个漏斗状的神经网络级联而成，每一个漏斗神经网络由编码器和解码器组成，负责提取特征和生成热力图像。将所述输入图像作为输入值输入Hourglass网络模型，Hourglass网络模型对所述输入图像进行若干个阶段的下采样及若干个阶段的上采样，以最终输出缩小到一定尺寸的含节点的热力图像，节点即所述中心点。

S130：对所述中心点进行尺寸回归，以完成检测框标识。

通过检测所述中心点来确定行人的位置，针对行人数据可以有更好的拟合能力，可以更多的关注行人的区域，减少对其它区域的关注，以更快的完成所述检测框的标识，提升识别追踪的速度。

步骤S20：通过所述检测框的位置信息及变量信息进行位置预估，以获取若干个初选预测框；

以所述输入图像的边缘建立直角坐标系，所述输入图像中每个点位均存在对应的横坐标值及纵坐标值，进而可将所述检测框通过其位置信息表达为：

，

其中，表示检测框的中心点的横坐标值，/>表示检测框的中心点的纵坐标值，/>表示检测框的宽高比，/>表示检测框的高度。

可以理解地，所述初选预测框的表达式为：

，

且、/>、/>、，其中，/>表示检测框到初选预测框的变化时间，/>、/>、/>、/>分别表示/>、/>、/>、/>的向量变化速度。

且因所述视频流中不同帧数下的图像之间存在相应的轨迹运动规律，因此，可获取与、/>、/>、/>一一对应的向量变化速度，其代表了所述检测框的变量信息。

所述初选预测框的作用是于第二环境图像中预测行人的位置，因此，所述检测框到所述初选预测框的变化时间即所述第一环境图像至所述第二环境图像的帧数变化时间。在完成所述检测框的标识后，通过对检测框的位置变化进行预估，可避免大量的重复检测标识的过程，降低计算量，以更快的输出识别追踪的结果。

步骤S30：基于所述初选预测框与所述检测框之间的马氏距离，自若干个所述初选预测框中选定若干个次选预测框；

通过所述马氏距离对所述初选预测框进行筛选，可增强所述次选预测框与所述检测框之间的关联性，降低偏差量带来的扰乱提示。

具体地，所述步骤S30包括：

S310：分别计算若干个所述初选预测框与所述检测框之间的马氏距离，以获取若干个基准值；

所述基准值的计算公式为：

，

S320：判断所述基准值是否小于第一距离阈值；

优选地，所述第一距离阈值为卡方分布的0.95分位点，通过将所述马氏距离与所述第一距离阈值之间进行比对，以确定所述初选预测框与所述检测框之间的运动距离是否匹配。

S330：若所述基准值小于所述第一距离阈值，则将与小于所述第一距离阈值的基准值对应的所述初选预测框选定为次选预测框。

步骤S40：获取第二环境图像，将若干个所述次选预测框标识于所述第二环境图像上，通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框，以完成识别追踪；

可以理解地，所述第二环境图像与所述第一环境图像为同一视频流下的图像，且所述第二环境图像为所述第一环境图像的延续帧图像，即在同一视频流中，当前帧图像为所述第一环境图像，下一帧图像为所述第二环境图像。

所述步骤S40包括：

S410：提取所述检测框内若干个第一外观特征向量，以形成特征集，并提取所述次选预测框内全部的第二外观特征向量；

所述第一外观特征向量及所述第二外观特征向量用于衡量所述检测框与所述次选预测框内的图像的相似度。

S420：计算所述第二外观特征向量与所述特征集之间的最小余弦距离；

所述最小余弦距离的计算公式为：

，

如提取所述检测框内100个所述第一特征向量，提取所述次选预测框内全部的200个所述第二特征向量，则分别计算某一所述第二特征向量与100个所述第一特征向量之间的余弦距离，以确定该所述第二特征向量与所述特征集之间的最小余弦距离，重复上述步骤，以确定每个所述第二特征向量与所述特征集之间的最小余弦距离。对每个所述次选预测框重复上述步骤，以获取每个所述次选预测框中全部的第二特征向量与所述特征集之间的最小余弦距离。

S430：判断所述最小余弦距离是否小于第二距离阈值；

S440：将小于所述第二距离阈值的最小余弦距离的数量最多的所述次选预测框选定为终选预测框。

若所述最小余弦距离小于所述第二距离阈值，则表示该第二特征向量与所述检测框中的第一特征向量存在相似性。比对不同的所述次选预测框中小于所述第二距离阈值的最小余弦距离的数量，数量最多的所述次选预测框内的图像即与所述检测框的图像外观相似度最高，即可判定为所述终选预测框，进而完成识别追踪。

若直接通过所述次选预测框及所述检测框进行视频目标识别追踪，在存在目标被部分遮挡的情况下，将出现较多的错误匹配，进而影响视频目标识别追踪的准确性。通过计算所述余弦距离，可检测所述次选预测框内的信息与所述检测框内的信息的关联性，以达到与目标的部分区域匹配的目的，避免因目标的某些部分被遮挡而导致再识别的准确性降低的情况发生，有效的提升了视频目标检测识别的准确性及目标追踪的稳定性。

请参阅图2，本发明第二实施例提供了一种视频目标识别追踪系统，该系统应用如上述实施例中的所述视频目标识别追踪方法，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

所述系统包括：

选择模块10，用于获取第一环境图像，于所述第一环境图像中对行人进行检测框标识；

所述选择模块10包括：

第一单元，用于获取第一环境图像，对所述第一环境图像进行预处理，以获取标定尺寸的输入图像；

第二单元，用于将所述输入图像作为输入值输入特征提取网络模型，以获取所述第一环境图像中行人的中心点；

第三单元，用于对所述中心点进行尺寸回归，以完成检测框标识。

预测模块20，用于通过所述检测框的位置信息及变量信息进行位置预估，以获取若干个初选预测框；

计算模块30，用于基于所述初选预测框与所述检测框之间的马氏距离，自若干个所述初选预测框中选定若干个次选预测框；

所述计算模块30包括：

第四单元，用于分别计算若干个所述初选预测框与所述检测框之间的马氏距离，以获取若干个基准值；

第五单元，用于判断所述基准值是否小于第一距离阈值；

第六单元，用于若所述基准值小于所述第一距离阈值，则将与小于所述第一距离阈值的基准值对应的所述初选预测框选定为次选预测框。

执行模块40，用于获取第二环境图像，将若干个所述次选预测框标识于所述第二环境图像上，通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框，以完成识别追踪。

所述执行模块40包括：

第七单元，用于获取第二环境图像，将若干个所述次选预测框标识于所述第二环境图像上，提取所述检测框内若干个第一外观特征向量，以形成特征集，并提取所述次选预测框内全部的第二外观特征向量；

第八单元，用于计算所述第二外观特征向量与所述特征集之间的最小余弦距离；

第九单元，用于判断所述最小余弦距离是否小于第二距离阈值；

第十单元，用于将小于所述第二距离阈值的最小余弦距离的数量最多的所述次选预测框选定为终选预测框。

本发明还提供了一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述技术方案中所述的视频目标识别追踪方法。

本发明还提供了一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述技术方案中所述的视频目标识别追踪方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频目标识别追踪方法，其特征在于，包括以下步骤：

所述初选预测框的表达式为：

，

且、/>、/>、，其中，/>表示检测框的中心点的横坐标值，/>表示检测框的中心点的纵坐标值，/>表示检测框的宽高比，/>表示检测框的高度，/>表示检测框到初选预测框的变化时间，/>、/>、/>、/>分别表示/>、/>、/>、/>的向量变化速度；

所述基于所述初选预测框与所述检测框之间的马氏距离，自若干个所述初选预测框中选定若干个次选预测框的步骤包括：

所述基准值的计算公式为：

，

其中，表示基准值，/>表示检测框的数据集信息，/>表示初选预测框的数据集信息，/>表示转置符，/>表示检测框与初选预测框之间的协方差；

判断所述基准值是否小于第一距离阈值；

若所述基准值小于所述第一距离阈值，则将与小于所述第一距离阈值的基准值对应的所述初选预测框选定为次选预测框；

获取第二环境图像，将若干个所述次选预测框标识于所述第二环境图像上，通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框，以完成识别追踪；

所述通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框的步骤包括：

所述最小余弦距离的计算公式为：

，

其中，表示最小余弦距离，/>表示某一第二外观特征向量，/>表示特征集中某一第一外观特征向量，/>表示特征集中第一外观特征向量的序号；

判断所述最小余弦距离是否小于第二距离阈值；

2.根据权利要求1所述的视频目标识别追踪方法，其特征在于，所述于所述第一环境图像中对行人进行检测框标识的步骤包括：

对所述中心点进行尺寸回归，以完成检测框标识。

3.一种视频目标识别追踪系统，应用如权利要求1~2任一项所述的视频目标识别追踪方法，其特征在于，所述系统包括：

所述初选预测框的表达式为：

，

所述计算模块包括：

所述基准值的计算公式为：

，

第五单元，用于判断所述基准值是否小于第一距离阈值；

第六单元，用于若所述基准值小于所述第一距离阈值，则将与小于所述第一距离阈值的基准值对应的所述初选预测框选定为次选预测框；

执行模块，用于获取第二环境图像，将若干个所述次选预测框标识于所述第二环境图像上，通过所述检测框与所述次选预测框之间的余弦距离，自若干个所述次选预测框中选定终选预测框，以完成识别追踪；

所述执行模块包括：

所述最小余弦距离的计算公式为：

，

4.一种计算机，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至2中任一项所述的视频目标识别追踪方法。

5.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至2中任一项所述的视频目标识别追踪方法。