CN112561956A

CN112561956A - 视频目标跟踪方法、装置、电子设备及存储介质

Info

Publication number: CN112561956A
Application number: CN202011345651.6A
Authority: CN
Inventors: 汤成; 程宝平; 谢小燕
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-26
Anticipated expiration: 2040-11-25
Also published as: CN112561956B

Abstract

本发明实施例涉及通信技术领域，公开了一种视频目标跟踪方法、装置、电子设备及存储介质。本发明中，方法包括：将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征；将所述第一图像特征和所述第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征；将所述第一回归特征和第二回归特征输入回归子网络中，获取所述回归子网络输出的所述跟踪视频帧的包围盒信息。通过上述技术手段，在视频跟踪中，仅通过回归特征提取网络确定图像的位置，提高视频跟踪的精确度与鲁棒性。

Description

视频目标跟踪方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及通信技术领域，特别涉及一种视频目标跟踪方法、装置、电子设备及存储介质。

背景技术

目标跟踪是计算机视觉中的重要研究内容之一，在安防、交通等领域有着广泛的应用。目标跟踪可以实现监控视频的自动分析从而得到感兴趣目标的运动轨迹，以及辅助人机交互增加对感兴趣目标的视觉导航。目标跟踪的主要任务是对给定目标在一段视频或图像序列中进行鲁棒的分类以及准确地估计目标的位置。目标跟踪方法的流程如下：首先确定待跟踪目标的参照图从而初始化跟踪器与检测器；其次对后续视频或图像序列使用检测器和跟踪器实现目标跟踪；最后得到跟踪到的目标运动序列。

然而，发明人发现现有技术中往往存在以下问题：待跟踪目标的参照图需要手动选择，不能进行端到端的自动化处理；传统的目标跟踪算法固定待跟踪目标参照图直到目标跟踪结束，这种方法对目标在长时运动过程中存在的形变、遮挡以及尺度变化不鲁棒，容易造成目标的漏检和误检，而简单地用新检测到的目标实时更新模型又会加速跟踪漂移。即，目标跟踪的稳定性差，且无法自动化提取参照物。

发明内容

本发明实施例的目的在于提供一种视频目标跟踪方法、装置、电子设备及存储介质，使得视频中对目标的跟踪具有更高的精确度与稳定性。

为解决上述技术问题，本发明的实施例提供了一种视频目标跟踪，包括：将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征；将所述第一图像特征和所述第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征；将所述第一回归特征和第二回归特征输入回归子网络中，获取所述回归子网络输出的所述跟踪视频帧的包围盒信息。

本发明的实施例还提供了一种视频目标跟踪装置，包括：特征提取模块，用于将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征；回归特征提取模块，用于将第一图像特征和第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征；包围盒输出模块，用于将第一回归特征和第二回归特征输入回归子网络中，获取回归子网络输出的跟踪视频帧的包围盒信息。

本发明的实施例还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述的视频目标跟踪方法。

本发明的实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如上述的视频目标跟踪方法。

本发明实施例相对于现有技术而言，在视频跟踪中，仅通过回归特征提取网络确定图像的位置，提高视频跟踪的精确度与鲁棒性。

另外，本实施例中在将目标参照图和第二视频帧输入特征提取网络得到第一图像特征及第二图像特征之后，还包括：将第一图像特征和第二图像特征输入分类特征提取网络中，得到第一分类特征和第二分类特征；将第一分类特征和第二分类特征输入分类子网络中，获取分类子网络输出的跟踪视频帧的跟踪质量评分；其中，跟踪质量评分用于指示跟踪目标的鲁棒性。

另外，本实施例中在获取回归子网络输出的跟踪视频帧的包围盒信息之后，还包括：根据跟踪视频帧的包围盒信息以及跟踪视频帧的跟踪质量评分将跟踪视频帧写入结果视频中。

另外，本实施例中根据跟踪视频帧的包围盒信息以及跟踪视频帧的跟踪质量评分将跟踪视频帧写入结果视频中，包括：判断跟踪视频帧的跟踪质量评分是否大于预设阈值；当跟踪视频帧的跟踪质量评分大于预设阈值，根据跟踪视频帧的包围盒信息将跟踪视频帧写入结果视频中。

另外，本实施例中在获取回归子网络输出的跟踪视频帧的包围盒信息之后，还包括：根据跟踪视频帧的时间位置获取滑动时间窗口内所有视频帧的跟踪质量评分；根据滑动时间窗口内所有视频帧的质量评分参数计算滑动平均值；当滑动平均值大于预设阈值时，根据滑动时间窗口内所有视频帧中跟踪质量评分最高的视频帧生成新的目标参照图。

另外，本实施例中在将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征之前，还包括：获取待检测的视频流并解码视频流得到多个视频帧；逐帧检测多个视频帧中是否存在跟踪目标；当从视频帧中检测到跟踪目标时，将具有跟踪目标的视频帧进行裁切和缩放得到目标参照图。

另外，本实施例中根据权利要求5的视频目标跟踪方法，其特征在于，滑动平均值通过以下公式计算：

其中，Q_ma表示跟踪质量评分的滑动平均值、n表示滑动窗口所包含视频帧的数量、Q表示跟踪视频帧的跟踪质量评分。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是根据本发明第一实施例中视频目标跟踪方法的流程图；

图2是根据本发明第二实施例中视频目标跟踪方法的流程图；

图3是根据本发明第二实施例中神经网络的结构示意图；

图4是根据本发明第三实施例中视频目标跟踪装置的结构示意图；

图5是根据本发明第四实施例中电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施例涉及一种视频目标跟踪方法。具体流程如图1所示，包括：将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征；将第一图像特征和第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征；将第一回归特征和第二回归特征输入回归子网络中，获取回归子网络输出的跟踪视频帧的包围盒信息。

下面对本实施例的视频目标跟踪方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施例中的视频目标跟踪方法如图1所示，具体包括：

步骤101，将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征。

具体地说，在视频目标跟踪中，目标参照图是计算机用于与跟踪目标进行对比的参照图像。分别通过两个特征提取网络对目标参照图和跟踪视频帧进行处理，通过比较目标参照图与跟踪视频帧中的图像特征，确定跟踪视频帧中跟踪目标的位置。特征提取网络是用于提取图像特征的神经网络，在本实施例中，为了保证从目标参照图中所提取的图像特征与从跟踪视频帧中提取的图像特征具有良好的一致性，对目标参照图进行识别的特征提取网络与对视频帧进行识别的特征提取网络具有相同的层次结构，且各层的权重占比设置为相同的大小。

在一个例子中，本实施例中进行目标跟踪的视频的目标参照图通过以下方式获取：获取待检测的视频流并解码视频流得到多个视频帧；逐帧检测多个视频帧中是否存在跟踪目标；当从视频帧中检测到跟踪目标时，将具有跟踪目标的视频帧进行裁切和缩放得到目标参照图。相较于本领域相关技术，能够自动采集跟踪目标的参照图，便于进行端到端的自动化处理。

步骤102，将第一图像特征和第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征。

具体地说，回归特征指的是用于获取空间仿射变换敏感的准确特征来确定目标位置的图像特征，本实施例中，通过回归特征来确定跟踪目标的包围盒信息，即能够将跟踪目标限定在一定范围内的矩形框信息。回归特征提取网络是用来提取第一图像特征和第二图像特征中回归特征的神经网络。

在一个例子中，本实施例中在将第一图像特征和第二图像特征输入回归特征提取网络时，同时也将第一图像特征和第二图像特征输入分类特征提取网络中，得到第一分类特征和第二分类特征；将第一分类特征和第二分类特征输入分类子网络中，获取分类子网络输出的跟踪视频帧的跟踪质量评分；其中，跟踪质量评分用于指示跟踪目标的鲁棒性。即，通过分类特征提取网络提取目标参照图的分类特征，以及跟踪视频帧的分类特征。并通过分类子网络比较两个分类特征后，输出跟踪质量评分，即通过比较目标参照图与跟踪视频帧中跟踪目标的相似程度来输出跟踪质量评分。

步骤103，将第一回归特征和第二回归特征输入回归子网络中，获取回归子网络输出的跟踪视频帧的包围盒信息。

具体地说，回归子网络用于对回归特征信息进行处理后，计算出具体的包围盒信息，包围盒信息包括：包围盒中心点坐标和长宽大小。根据包围盒信息，可以确定跟踪目标在跟踪视频帧中的具体位置，并在跟踪视频帧中生成包围盒的矩形框，实现目标跟踪的效果。在多个存在跟踪目标的视频帧中，能够出现连续变化的矩形框，始终将跟踪目标显示在矩形框内。

在一个例子中，跟据包围盒信息和跟踪视频帧的跟踪质量评分，生成结果视频，即将所有跟踪质量评分大于预设阈值的跟踪视频帧写入包围盒信息后，组成一个视频，即结果视频。在实际的应用中，通常将跟踪目标的包围盒全部位于跟踪视频帧内部的视频帧保留，并剔除质量评分低的跟踪视频帧。具体方式包括：判断跟踪视频帧的跟踪质量评分是否大于预设阈值；当跟踪视频帧的跟踪质量评分大于预设阈值，根据跟踪视频帧的包围盒信息将跟踪视频帧写入结果视频中。

与现有技术相比，本实施例通过将分类特征提取网络与回归特征提取网络进行解耦，分别采用分类特征提取网络与回归特征提取网络得到同一图像的分类特征和回归特征，从而降低分类特征与回归特征之间的耦合性，使得通过回归子网络得到的跟踪目标的位置更加精确稳定，提高了视频跟踪的精确度。

需要说明的是，本实施例中的上述各示例均为为方便理解进行的举例说明，并不对本发明的技术方案构成限定。

本发明的第二实施例涉及一种跟踪目标的。第二实施例与第一实施例大致相同，主要区别之处在于：在本发明第二实施例中，在获取回归子网络输出的跟踪视频帧的包围盒信息之后，还包括：根据跟踪视频帧的时间位置获取滑动时间窗口内所有视频帧的跟踪质量评分；根据滑动时间窗口内所有视频帧的质量评分参数计算滑动平均值；当所述滑动平均值大于预设阈值时，根据所述滑动时间窗口内所有视频帧中所述跟踪质量评分最高的视频帧生成新的目标参照图。

本实施例中的视频目标跟踪方法如图2所示，具体包括：

步骤201，将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征。

步骤202，将第一图像特征和第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征。

步骤203，将第一回归特征和第二回归特征输入回归子网络中，获取回归子网络输出的跟踪视频帧的包围盒信息。

步骤201至步骤203与本发明第一实施例中步骤101至步骤103相同，相关的实施细节已在本发明第一实施例中具体说明，在此不再赘述。

步骤204，根据跟踪视频帧的时间位置获取滑动时间窗口内所有视频帧的跟踪质量评分。

具体地说，在时间轴上逐帧对视频流进行目标跟踪时，获取一段时间内，即滑动时间窗口内所有视频帧的跟踪质量评分。

步骤205，根据滑动时间窗口内所有视频帧的质量评分计算滑动平均值。

步骤206，当滑动平均值大于预设阈值时，根据滑动时间窗口内所有视频帧中所述跟踪质量评分最高的视频帧生成新的目标参照图。

具体地说，将得到的质量评分滑动平均值与指定的更新阈值比较，若滑动平均值大于阈值，则使用当前滑动窗口内最佳目标(质量评分最大的跟踪帧)作为新的跟踪目标参照图，并更新目标跟踪网络的参照部分，使用滑动平均值动态更新到跟踪目标的参照图，可以较好地增加参照图与待跟踪目标的姿态相似性，进一步提升目标跟踪的鲁棒性。

在实际的应用中，本发明中所使用的神经网络结构如图3所示，包括：两个特征提取子网络、解耦的分类与回归特征提取网络、分类子网络和回归子网络。本实施例中的视频跟踪方法通过以下步骤执行：

步骤S1：获取本地或者视频存储服务器上的视频流后进行视频解码，得到一系列视频帧。

步骤S2：将步骤S1获取到的视频帧输入到目标检测模块，目标检测模板使用深度学习模型，优选地使用Faster-RCNN、YOLO等，当检测到目标后，记录当前帧的位置t，并裁剪检测目标区域图像缩放至127*127作为初始目标参照图。若未检测到目标，则判断当前帧是否为最后一帧，若是最后一帧则结束跟踪，否则对下一帧进行目标检测处理。

步骤S3：将步骤S2得到目标参照图，以及记录帧的位置t的后一帧(t+1)缩放至303*303 作为输入，进行目标跟踪网络推断，相较于传统的孪生目标跟踪网络，本发明针对目标跟踪网络在目标包围盒回归不够精确的问题，解耦了目标跟踪网络中的目标分类与状态估计，通过使用不同的特征(分类分支需要特征具有空间不变形，回归分支需要特征具有空间敏感得到目标中心的偏置信息)体现在分类与回归特征解耦部分：在分类子网络和回归子网络之前分别添加分类/回归特征提取模块，实现分类器专攻将目标物体与背景分离，而状态估计则产生更准确的包围盒，同时边界框回归联合分类信息进行训练时，分类置信度会导致性能的下降，本发明增加质量评分的分支输出，使用质量评分作为跟踪成功与否的判断。根据得到的质量评分判断目标是否还在图像空间内，若质量评分小于指定质量阈值则表示目标运动到图像空间外，跳转至步骤S5；否则将目标的状态(包围盒信息)以矩形框方式写入视频帧中，并按照预设的窗口大小计算更新质量评分的滑动平均值，计算公式如下：

其中，Q_ma表示质量评分的滑动平均值，n表示滑动窗口大小，Q表示当前质量评分。计算完成后跳转至步骤S4。

步骤S4：将步骤S4得到的质量评分滑动平均值与指定的更新阈值比较，若滑动平均值大于阈值，则使用当前滑动窗口内最佳目标(质量评分最大的跟踪目标)作为新的跟踪目标参照图，并更新目标跟踪网络的参照部分，使用滑动平均值动态更新到跟踪目标的参照图，可以较好地增加参照图与待跟踪目标的姿态相似性，进一步提升目标跟踪的鲁棒性。否则跳转至步骤S5。

步骤S5：判断处理的当前帧是否为视频最后一帧，若是最后一帧则结束跟踪，否则置t＝t+1, 跳转至步骤S2。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施例涉及一种视频目标跟踪装置，如图4所示，包括：

特征提取模块401，用于将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征。

回归特征提取模块402，用于将第一图像特征和第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征。

包围盒输出模块403，用于将第一回归特征和第二回归特征输入回归子网络中，获取回归子网络输出的跟踪视频帧的包围盒信息。

不难发现，本实施例为与第一实施例相对应的系统实施例，本实施例可与第一实施例互相配合实施。第一实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在第一实施例中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

由于第一、第二实施例与本实施例相互对应，因此本实施例可与第一、第二实施例互相配合实施。第一、第二实施例中提到的相关技术细节在本实施例中依然有效，在第一、第二实施例中所能达到的技术效果在本实施例中也同样可以实现，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在第一、第二实施例中。

本发明第四实施例涉及一种服务器，如图5所示，包括至少一个处理器501；以及，与至少一个处理器501通信连接的存储器502；其中，存储器502存储有可被至少一个处理器501执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行第一、或第二实施例中的视频目标跟踪方法。

其中，存储器502和处理器501采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器501。处理器501负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。

本发明第五实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施例是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种视频目标跟踪方法，其特征在于，包括：

将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征；

将所述第一图像特征和所述第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征；

将所述第一回归特征和第二回归特征输入回归子网络中，获取所述回归子网络输出的所述跟踪视频帧的包围盒信息。

2.根据权利要求1所述的视频目标跟踪方法，其特征在于，在所述将所述目标参照图和第二视频帧输入特征提取网络得到第一图像特征及第二图像特征之后，还包括：

将所述第一图像特征和所述第二图像特征输入分类特征提取网络中，得到第一分类特征和第二分类特征；

将所述第一分类特征和所述第二分类特征输入分类子网络中，获取所述分类子网络输出的跟踪视频帧的跟踪质量评分；其中，所述跟踪质量评分用于指示所述跟踪目标的鲁棒性。

3.根据权利要求2所述的视频目标跟踪方法，其特征在于，在所述获取所述回归子网络输出的所述跟踪视频帧的包围盒信息之后，还包括：

根据所述跟踪视频帧的包围盒信息以及所述跟踪视频帧的跟踪质量评分将跟踪视频帧写入结果视频中。

4.根据权利要求3所述的视频目标跟踪方法，其特征在于，所述根据所述跟踪视频帧的包围盒信息以及所述跟踪视频帧的跟踪质量评分将所述跟踪视频帧写入结果视频中，包括：

判断所述跟踪视频帧的跟踪质量评分是否大于预设阈值；

当所述跟踪视频帧的跟踪质量评分大于预设阈值，根据所述跟踪视频帧的包围盒信息将所述跟踪视频帧写入结果视频中。

5.根据权利要求2所述的视频目标跟踪方法，其特征在于，在所述获取所述回归子网络输出的所述跟踪视频帧的包围盒信息之后，还包括：

根据所述跟踪视频帧的时间位置获取滑动时间窗口内所有视频帧的跟踪质量评分；

根据所述滑动时间窗口内所有视频帧的质量评分计算滑动平均值；

当所述滑动平均值大于预设阈值时，根据所述滑动时间窗口内所有视频帧中所述跟踪质量评分最高的视频帧生成新的目标参照图。

6.根据权利要求1所述的视频目标跟踪方法，其特征在于，在将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征之前，还包括：

获取待检测的视频流并解码所述视频流得到多个视频帧；

逐帧检测所述多个视频帧中是否存在所述跟踪目标；

当从所述视频帧中检测到所述跟踪目标时，将所述具有跟踪目标的视频帧进行裁切和缩放得到所述目标参照图。

7.根据权利要求5所述的视频目标跟踪方法，其特征在于，所述滑动平均值通过以下公式计算：

其中，所述Q_ma表示所述跟踪质量评分的滑动平均值、所述n表示所述滑动窗口所包含视频帧的数量、所述Q表示所述跟踪视频帧的跟踪质量评分。

8.一种视频目标跟踪装置，其特征在于，包括：

特征提取模块，用于将目标参照图和跟踪视频帧输入特征提取网络得到第一图像特征及第二图像特征；

回归特征提取模块，用于将所述第一图像特征和所述第二图像特征输入回归特征提取网络中，得到第一回归特征和第二回归特征；

包围盒输出模块，用于将所述第一回归特征和第二回归特征输入回归子网络中，获取所述回归子网络输出的所述跟踪视频帧的包围盒信息。

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的视频目标跟踪方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的视频目标跟踪方法。