CN117456204A

CN117456204A - 目标跟踪方法、装置、视频处理系统、存储介质和终端

Info

Publication number: CN117456204A
Application number: CN202311249181.7A
Authority: CN
Inventors: 肖兵; 李正国; 杨婉香; 廖鑫; 李涛
Original assignee: Zhuhai Shixi Technology Co Ltd
Current assignee: Zhuhai Shixi Technology Co Ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-01-26

Abstract

本申请公开了一种目标跟踪方法、装置、视频处理系统、存储介质和终端，其中，方法包括：对第一跟踪目标进行目标跟踪；获取第一视频帧图像和第二视频帧图像，其中，第一视频帧图像为第一跟踪目标当前所在的视频帧图像，第二视频帧图像为与第一视频帧图像相邻的前一帧图像；计算第一视频帧图像与第二视频帧图像之间的多个图像相似度；根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像；若第一视频帧图像为转场帧图像，根据转场帧图像中标记的目标框，创建第二跟踪目标，并对第二跟踪目标进行目标跟踪。通过监测视频流中的场景转换帧，基于转换帧创建新的跟踪目标，避免视频转场带来的跟踪错误，提高目标跟踪的准确性。

Description

目标跟踪方法、装置、视频处理系统、存储介质和终端

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种目标跟踪方法、装置、视频处理系统、存储介质和终端。

背景技术

在计算机视觉领域，目标跟踪技术也越发普及，目标检测和跟踪广泛应用于各个不同领域中，如智能监控、视觉导航等等。其中，所谓的跟踪目标就是在视频序列中感兴趣的人或物等等，目标跟踪指的是在视频序列帧中持续发现跟踪目标位置的过程。然而，视频流可以为画面连续的连续型视频流或存在场景转换的非连续型视频流。如果视频流内存在场景转换，转场可能会导致跟踪目标的外观和运动发生剧烈变化，进而导致对跟踪目标的跟踪结果出现错误，使得跟踪结果准确性降低。

发明内容

有鉴于此，本申请提供了一种目标跟踪方法、装置、视频处理系统、存储介质和终端，主要目的在于解决现有技术中对存在场景转换的视频流的跟踪结果准确性较低的技术问题。

依据本申请第一方面，提供了一种目标跟踪方法，该方法包括：

响应于目标跟踪请求，对第一跟踪目标进行目标跟踪；

获取第一视频帧图像和第二视频帧图像，其中，第一视频帧图像为第一跟踪目标当前所在的视频帧图像，第二视频帧图像为与第一视频帧图像相邻的前一帧图像；

计算第一视频帧图像与第二视频帧图像之间的多个图像相似度；

根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像；

若第一视频帧图像为转场帧图像，根据转场帧图像中标记的目标框，创建第二跟踪目标，并对第二跟踪目标进行目标跟踪。

可选地，响应于目标跟踪请求，对第一跟踪目标进行目标跟踪的步骤，具体包括：

响应于目标跟踪请求，获取目标跟踪请求中包括的多个视频帧图像；

将多个视频帧图像输入目标检测器，识别出多个视频帧图像中的多个目标框，并在多个视频帧图像中标记出多个目标框；

根据第一帧图像中标记的目标框，确定第一跟踪目标；

将多个视频帧图像和多个目标框输入目标跟踪器，利用目标跟踪器对第一跟踪器进行目标跟踪。

可选地，计算第一视频帧图像与第二视频帧图像之间的多个图像相似度的步骤，具体包括：

分别将第一视频帧图像和第二视频帧图像转换为第一灰度图像和第二灰度图像；

按预设划分数量，分别将第一灰度图像和第二灰度图像划分为多个第一子图像和多个第二子图像；

根据多个第一子图像和多个第二子图像，生成多个第一特征向量和多个第二特征向量；

按照多个第一子图像的图像位置和多个第二子图像的图像位置，对多个第一特征向量和多个第二特征向量进行匹配；

计算每个第一特征向量与其匹配的第二特征向量之间的余弦夹角，生成每个第一子图像与其相同图像位置的第二子图像之间的图像相似度。

可选地，根据多个第一子图像和多个第二子图像，生成多个第一特征向量和多个第二特征向量的步骤，具体包括：

获取每个第一子图像中每个像素点的第一像素值，以及每个第二子图像中每个像素点的第二像素值；

根据第一像素值，确定每个第一子图像对应的第一直方图数组；

根据第二像素值，确定每个第二子图像对应的第二直方图数组；

根据第一直方图数组，生成每个第一子图像对应的第一特征向量；

根据第二直方图数组，生成每个第二子图像对应的第二特征向量。

可选地，根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像的步骤，具体包括：

依次将每个图像相似度与预设阈值进行比较；

若多个图像相似度均大于或等于预设阈值，确定第一视频帧图像为非转场帧图像；

若任一图像相似度小于预设阈值，确定第一视频帧图像为转场帧图像。

可选地，利用目标跟踪器对第二跟踪目标进行目标跟踪之后，还包括：

根据转场帧图像，确定与其相邻的多个目标视频帧图像；

根据转场帧图像和多个目标视频帧图像，生成视频序列；

获取第二跟踪目标在视频序列中的位置数据，以及第二跟踪目标在视频序列中的预设位置数据；

若位置数据与预设位置数据一致，利用目标跟踪器继续对第二跟踪目标进行目标跟踪；

若位置数据与预设位置数据不一致，根据位置数据，生成跟踪错误的提示信息；

将提示信息发送至目标终端。

可选地，该方法还包括：

若第一视频帧图像为非转场帧图像，继续对第一跟踪目标进行目标跟踪。

可选地，响应于目标跟踪请求，获取目标跟踪请求中包括的多个视频帧图像的步骤，具体包括：

响应于目标跟踪请求，接收视频采集装置发送的视频流；

读取视频流中的每一帧图像，得到多个视频帧图像。

可选地，响应于目标跟踪请求，获取目标跟踪请求中包括的多个视频帧图像的步骤，具体还包括：

响应于目标跟踪请求，调取预设数据库中的视频文件；

根据视频文件，确定多个视频帧图像。

依据本申请第二方面，提供了一种目标跟踪装置，该装置包括：

跟踪模块，用于响应于目标跟踪请求，对第一跟踪目标进行目标跟踪；

获取模块，用于获取第一视频帧图像和第二视频帧图像，其中，第一视频帧图像为第一跟踪目标当前所在的视频帧图像，第二视频帧图像为与第一视频帧图像相邻的前一帧图像；

计算模块，用于计算第一视频帧图像与第二视频帧图像之间的多个图像相似度；

判断模块，用于根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像；

创建模块，用于在第一视频帧图像为转场帧图像的情况下，根据第一视频帧图像中标记的目标框，创建第二跟踪目标；

跟踪模块还用于，对第二跟踪目标进行目标跟踪。

根据本发明的第三方面，提供了一种视频处理系统包括：如第二方面的目标跟踪装置；

视频采集装置，视频采集装置与目标跟踪装置通信连接，其中，视频采集装置，用于采集视频流，并将采集到的视频流发送至目标跟踪装置。

根据本发明的第四方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如第一方面的目标跟踪方法对应的操作。

根据本发明的第五方面，提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面的目标跟踪方法对应的操作。

借由上述技术方案，本申请提供的一种目标跟踪方法、装置、视频处理系统、存储介质和终端，相较于现有技术中，无论连续型视频流或存在场景转换的非连续型视频流，始终对第一帧创建的初始跟踪目标进行持续跟踪，直至跟踪结束的跟踪方式，当视频流中存在场景转换时，由于跟踪目标的形态、外观等条件会发生较大变化，难以正确匹配跟踪目标，使得跟踪过程中出现错误跟踪、漂移等，进而导致整体跟踪准确性较低的技术问题。本申请提出了在目标跟踪过程中，实时对当前跟踪的视频帧进行监测，判断当前帧是否为场景转换帧。若当前视频帧为转场帧图像，基于转场帧图像的目标框重新创建新的跟踪目标，进而自转场帧图像起，对新创建的跟踪目标进行目标跟踪。实现了无论对连续型视频流或是存在场景转换的非连续型视频流都可以精确跟踪，避免视频转场带来的跟踪错误，提高整体跟踪的准确性和可靠性，进而提高目标跟踪的质量和效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种目标跟踪方法流程示意图之一；

图2示出了本申请实施例提供的一种目标跟踪方法流程示意图之二；

图3示出了本申请实施例提供的一种目标跟踪方法流程示意图之三；

图4示出了本申请实施例提供的场景转换示意图之一；

图5示出了本申请实施例提供的场景转换示意图之二；

图6示出了本申请实施例提供的一种目标跟踪装置的结构示意图；

图7示出了本申请实施例提供的终端的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种目标跟踪方法，如图1所示，该方法包括：

S101、响应于目标跟踪请求，对第一跟踪目标进行目标跟踪。

本申请实施例提供的目标跟踪方法，适用于服务器。具体地，目标跟踪方法可以用于视频监控系统、视频会议系统、直播、教育和安全领域等。在接收到目标跟踪请求后，对第一个跟踪目标进行目标跟踪，其中，第一跟踪目标为跟踪的视频流中初始帧所包含的跟踪目标。

S102、获取第一视频帧图像和第二视频帧图像，其中，第一视频帧图像为第一跟踪目标当前所在的视频帧图像，第二视频帧图像为与第一视频帧图像相邻的前一帧图像。

在该步骤中，每次执行跟踪任务时，会利用特征提取、目标匹配和运动预测等算法来跟踪目标物体，在一些情况下，如目标物体发生形态或者外观的变化或颜色变化等，无法正确地将目标物体与先前跟踪的目标关联起来，这些都可能导致跟踪目标难以正确匹配。而对于待播出的影视节目类视频来说，为了增强视频的可视化效果和观赏性，视频中经常会有不同的镜头和场景的切换。这种存在场景转换的非连续型视频流中，在转场后，目标的外观可能会发生较大变化，使得在转场后的视频帧中，无法准确地预测目标的位置，导致跟踪结果出现错误。因此，为了确保最终跟踪结果的准确性，本申请提出了在跟踪过程中，获取当前跟踪的第一视频帧图像，以及与当前帧相邻的前一帧图像（第二视频帧图像），以前一帧图像为参照物，实时监测当前跟踪的第一视频帧图像是否为转场帧图像。以提高场景转换后目标跟踪的准确性，进而使得目标跟踪方法能够更好地适用于存在场景转换的视频数据。

S103、计算第一视频帧图像与第二视频帧图像之间的多个图像相似度。

S104、根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像，若是，进入步骤S105，若否，进入步骤S106。

在步骤S103和S104中，由于第二视频帧图像为已经跟踪完成的视频帧，即可确认该视频帧图像为非转场帧图像，此时以第二视频帧图像为参照对象，对当前跟踪的第一视频帧图像进行监测，通过计算两个视频帧图像之间的多个图像位置的多个图像相似度，并将多个图像相似度依次与预设阈值进行比较，基于比较结果，判断第一视频帧图像是否为转场帧图像。

S105、根据转场帧图像中标记的目标框，创建第二跟踪目标，并对第二跟踪目标进行目标跟踪。

在该步骤中，当确认当前跟踪的第一视频帧为转场帧图像的情况下，由于场景的变化，转场帧视频中的外观、形态可能都会发生较大变化。为了确保后续跟踪结果的准确性，自转场帧图像开始，对新创建的第二跟踪目标进行目标跟踪。

S106、继续对第一跟踪目标进行目标跟踪。

在该步骤中，若当前跟踪的第一视频帧图像为非转场帧图像，说明此时视频帧中跟踪目标的特征等未发生改变，可对第一跟踪目标持续跟踪。

本申请实施例提供的目标跟踪方法，相较于现有技术中，无论连续型视频流或存在场景转换的非连续型视频流，始终对第一帧创建的初始跟踪目标进行持续跟踪，直至跟踪结束的跟踪方式，当视频流中存在场景转换时，由于跟踪目标的形态、外观等条件会发生较大变化，难以正确匹配跟踪目标，使得跟踪过程中出现错误跟踪、漂移等，进而导致整体跟踪准确性较低的技术问题。本申请提出了在目标跟踪过程中，实时对当前跟踪的视频帧进行监测，判断当前帧是否为场景转换帧。若当前视频帧为转场帧图像，基于转场帧图像的目标框重新创建新的跟踪目标，进而自转场帧图像起，对新创建的跟踪目标进行目标跟踪。实现了无论对连续型视频流或是存在场景转换的非连续型视频流都可以精确跟踪，避免视频转场带来的跟踪错误，提高整体跟踪的准确性和可靠性，进而提高目标跟踪的质量和效果。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，本申请实施例提供了另一种目标跟踪方法，如图2所示，该方法包括：

S201、响应于目标跟踪请求，获取目标跟踪请求中包括的多个视频帧图像。

在该步骤中，在接收到目标跟踪请求后，获取请求中包含的待跟踪视频流，通过循环迭代来读取视频流中帧，得到多个视频帧图像。

在本申请的一个实施例中，可选地，步骤S201中，也即响应于目标跟踪请求，获取目标跟踪请求中包括的多个视频帧图像，具体包括：响应于目标跟踪请求，接收视频采集装置发送的视频流；读取视频流中的每一帧图像，得到多个视频帧图像。

在该实施例中，目标跟踪可以对实时采集的视频流进行跟踪，具体地，接收到目标跟踪请求后，接收视频采集装置实时采集的实时视频流，打开实时视频流，逐帧读取，并将每一帧保存为图像文件，进而获取每个时间点上的视频帧图像。

可选地，视频采集装置可以为摄像头。视频流可以为视频会议的视频、监控视频、直播视频等等，此时获取到的视频流为连续型视频。利用目标跟踪器对实时视频流中实时跟踪和识别感兴趣的目标（如人、车辆等）。

在本申请的一个实施例中，可选地，步骤S201中，也即响应于目标跟踪请求，获取目标跟踪请求中包括的多个视频帧图像，具体还包括：响应于目标跟踪请求，调取预设数据库中的视频文件；根据视频文件，确定多个视频帧图像。

在该实施例中，目标跟踪可以对离线视频文件进行跟踪，具体地，接收到目标跟踪请求后，基于目标跟踪请求，调取预设数据库中的离线视频文件。对视频文件进行逐帧读取，并将每一帧保存为图像文件，进而获取每个时间点上的视频帧图像。

可选地，离线视频文件可以为待播放的后期制作视频。在视频编辑和后期制作过程中，目标跟踪可以帮助实现特定的创意效果和故事叙述。通过跟踪特征目标的运动，可以在视频中添加特效、标签、文字说明等元素，增加视频的视觉吸引力和故事表达，需要说明的是，在视频编辑和后期制作过程中，所要操作的视频通常为剪辑后的视频，如影视节目的节目组素材视频等，也就是说，视频流也可以为非连续的，存在场景转换的视频。

S202、将多个视频帧图像输入目标检测器，识别出多个视频帧图像中的多个目标框，并在多个视频帧图像中标记出多个目标框。

S203、根据第一帧图像中标记的目标框，确定第一跟踪目标。

在步骤S202和S203中，目标框为检测出的每一帧图像所包含的目标区域，具体地，在获取多个视频帧图像后，将多个视频帧图像输入至目标检测器中进行推理，目标检测器会对每一帧图像进行分析，并在每个视频帧图像中识别并标记出目标区域，生成目标框。

进一步地，在每一视频帧图像中标记出目标框后，在第一帧图像中，选择图像中的目标框作为跟踪的起点，即为第一跟踪目标。

在实际应用中，目标检测器通常使用深度学习模型，如卷积神经网络（CNN）或基于Region Proposal的方法，来识别和定位图像中的目标。目标检测器在跟踪任务中常常用于初始化，例如在多个视频帧图像中的第一帧中检测目标并获取初始的目标位置信息。

S204、将多个视频帧图像和多个目标框输入目标跟踪器，利用目标跟踪器对第一跟踪目标进行目标跟踪。

在该步骤中，将标记目标框的多个视频帧图像输入目标跟踪器中，使得预设目标跟踪器基于多个视频帧图像中的多个目标框，对创建的第一跟踪目标进行目标跟踪。

可选地，目标跟踪器通常使用各种算法和技术，如光流法、相关滤波器，卡尔曼滤波器、深度学习等，来在连续帧之间估计目标的位置和速度。可以理解的是，任一帧中目标框可以为一个或多个，因此，第一帧图像中所确定的第一跟踪目标的数量也可以为一个或多个，若跟踪目标为多个，则利用目标跟踪器同时对多个跟踪目标进行跟踪。

S205、获取第一视频帧图像和第二视频帧图像，其中，第一视频帧图像为第一跟踪目标当前所在的视频帧图像，第二视频帧图像为与第一视频帧图像相邻的前一帧图像。

在该步骤中，每次执行跟踪任务时，目标跟踪器会使用特征提取、目标匹配和运动预测等算法来跟踪目标物体，在一些情况下，目标跟踪器无法正确地将目标物体与先前跟踪的目标关联起来，如目标物体发生形态或者外观的变化或颜色变化等，这些都可能使目标跟踪器难以正确匹配跟踪目标。而对于待播出的影视节目类视频来说，为了增强视频的可视化效果和观赏性，视频中经常会有不同的镜头和场景的切换。这种存在场景转换的非连续型视频流中，在转场后，目标的外观可能会发生较大变化，使得目标跟踪器无法准确地预测目标的位置，进而导致跟踪结果出现错误。因此，为了确保最终跟踪结果的准确性，本申请提出了在跟踪过程中，获取当前跟踪的第一视频帧图像，以及与当前帧相邻的前一帧图像（第二视频帧图像），以前一帧图像为参照物，实时监测当前跟踪的视频帧图像中是否为场景转换帧，以提高场景转换后目标跟踪的准确性，进而使得目标跟踪方法能够更好地适用于存在场景转换的视频数据。

S206、分别将第一视频帧图像和第二视频帧图像转换为第一灰度图像和第二灰度图像。

现有技术中，在检测视频流是否存在场景转换的方法，通常采用ffmpeg软件工具/库来识别场景转换，然而，ffmpeg软件工具在集成和自动化方面较为局限，识别方式较为繁琐，且ffmpeg在不同系统上的行为可能有所差异，可能需要针对不同系统进行适配和调试，增加了开发和维护的成本。为了能够实现更高的计算功能，本申请提出了比对当前帧与相邻的上一帧的图像相似度来判断是否发生场景转换。通过比较连续帧之间的相似度，可以量化场景之间的差异程度，进而能够更加精确地检测到场景之间的变化。同时，计算方式较为简单，可以及时捕捉到场景切换的发生，提高转场判断的实时性，此外，比对图像相似度主要依赖于图像自身的信息，无需额外的特征或标记，提高了场景转换判断的适用性和便利性。

具体地，视频帧图像通常由三个颜色通道（红、绿、蓝）组成的三色图像，每个通道的像素值范围是0到255。如果对彩色图像进行完整的直方图计算，需要处理三个维度的直方图，进而基于直方图计算图像相似度，计算量较大。为了减少计算量，加快计算速度，分别将第一视频帧图像转换为第一灰度图像，将第二视频帧图像转换为第二灰度图像。这样只需要处理一个维度的直方图，即灰度级的数量，遍历灰度图像的像素只需考虑一个通道的像素值。

S207、按预设划分数量，分别将第一灰度图像和第二灰度图像划分为多个第一子图像和多个第二子图像。

在该步骤中，为了提高采用图像相似度来分辨相邻两帧是否发生转场的精确度，按照预设划分数量，将第一灰度图像划分前后帧一致的多个第一子图像，同时，将第二灰度图像划分为前后帧一直的多个第二子图像。再分别进行第一子图像与第二子图像之间的相似度比较，有效提高相似度比较的准确性和可靠性。

可选地，预设划分规则数量可以根据图像的大小具体设定，例如2个、3个或4个，本申请在此不做具体限定。

可选地，在划分多个子图像后，可以对每帧图像中的多个子图像进行标号，并基于标号生成匹配信息，便于后续基于标号对前后帧图像的子图像进行比较。

S208、根据多个第一子图像和多个第二子图像，生成多个第一特征向量和多个第二特征向量。

S209、按照多个第一子图像的图像位置和多个第二子图像的图像位置，对多个第一特征向量和多个第二特征向量进行匹配。

S210、计算每个第一特征向量与其匹配的第二特征向量之间的余弦夹角，生成每个第一子图像与其相同图像位置的第二子图像之间的图像相似度。

在步骤S208至S210中，基于每个第一子图像中的像素值，生成每个第一子图像对应的第一特征向量，同时，基于每个第二子图像中的像素值，生成每个第二子图像对应的第二特征向量。其后，按照子图像所在的图像位置，将图像位置相同的子图像对应的第一特征向量和第二特征向量进行匹配。进一步地，依次计算匹配后的两个特征向量之间的余弦夹角，该余弦相似度即为两个子图像之间的图像相似度。

通过上述方式，将每帧划分为多个子图像，再根据相邻两帧的子图像对应关系，计算多组图像相似度并进行相似度比较。能够更好地捕捉图像局部的特征信息，进而提高对图像细节和局部结果的比较准确性，同时，减少因噪声、光照变化等因素影响比较结果的可能性，提高比较的鲁棒性和稳定性。

在本申请的一个实施例中，可选地，步骤S208中，也即根据多个第一子图像和多个第二子图像，生成多个第一特征向量和多个第二特征向量，具体包括：获取每个第一子图像中每个像素点的第一像素值，以及每个第二子图像中每个像素点的第二像素值；根据第一像素值，确定每个第一子图像对应的第一直方图数组；根据第二像素值，确定每个第二子图像对应的第二直方图数组；根据第一直方图数组，生成每个第一子图像对应的第一特征向量；根据第二直方图数组，生成每个第二子图像对应的第二特征向量。

在该实施例中，计算图像相似度之前，需要获取每个图像的直方图信息，其中，直方图信息表示图像中各灰度值/区间出现的次数或频次，属于统计所信息，和对应灰度值在图像中位置无关。也就是说，直方图不同的两张图其内容不一定相同，反之，直方图相同的两张图其内容未必相同。因此，获取每个第一子图像中的每个像素点的第一像素值，以及每个第二子图像中每个像素点的第二像素值。根据确定的像素值范围，创建一个具有相应范围的空直方图。对于灰度图像，直方图可以是一个1维数组，每个元素对应像素值的计数。遍历图像的每个像素，并根据像素的值更新直方图。具体地，可以简单地将对应像素值的计数加1，以构建每个子图像的直方图，得到直方图数组，而每个直方图数组即为一个表示不同特征的数字向量。

可选地，为了便于后续进行比较和匹配，可以对直方图进行归一化处理，以将计数值映射到0到1的范围，可帮助比较不同图像的像素值分布。

可选地，计算直方图数组，需要决定要计算的直方图的维度，对于灰度图像来说，通常将其定义为灰度级数量（比如256），以捕捉每个灰度级的像素数量。其后，初始化直方图，创建一个长度为直方图维度的数组（或矩阵），用于存储直方图的数值，其中，初始时将所有元素都设为0。对于每个图像像素，获取其像素值（即灰度级），根据像素值，将直方图对应的计数器加1，即对应的直方图的元素加1。最终，返回计算得到的直方图数组作为结果。

进一步地，对于场景连续的相邻两帧来说，期望结果为图像相似度判别不要过于灵敏，即不要判定为低相似度；对于发生场景转换的相邻两帧来说，期望结果为图像相似度的判别要有足够的区别度，即应判定为低相似度。直方图的灰度组数通常为256阶，即对应位256维向量，为避免256阶图像直方图过于敏感，可以将直方图由256阶转换为128阶甚至64阶。

S211、根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像，若是，进入步骤S212，若否，进入步骤S220。

在该步骤中，由于第二视频帧图像为已经跟踪完成的视频帧，即可确认该视频帧图像为非转场帧图像，此时以第二视频帧图像为参照对象，对当前跟踪的第一视频帧图像进行监测，通过计算两个视频帧图像之间的多个图像相似度，将多个图像相似度与预设阈值进行比较，基于比较结果，判断第一视频帧图像是否为转场帧图像。

在本申请的一个实施例中，可选地，步骤S211中，也即根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像，具体包括：依次将每个图像相似度与预设阈值进行比较；若多个图像相似度均大于或等于预设阈值，确定第一视频帧图像为非转场帧图像；若任一图像相似度小于预设阈值，确定第一视频帧图像为转场帧图像。

在该实施例中，依次计算相邻两帧中，相互匹配的多个子图像之间的多个图像相似度后，将每个图像相似度与预设阈值进行比较，根据比较结果，判断连续两帧之间是否存在场景转换。具体地，如果所有的图像相似度均大于或等于预设阈值，说明连续两帧中，两个子图像之间的图像相似度较高，即连续两帧的整体图像相似度很高，说明两个相邻视频帧图像较为接近，此时可确定连续两帧之间不存在场景转换，即第一视频帧图像为非转场帧图像。

进一步地，如果任一图像相似度小于预设阈值，即某一子图像与其匹配的子图像之间相似度较低，说明两个相邻视频帧图像之间存在差异，此时可确定连续两帧之间存在场景转换，即第一视频帧图像为转场帧图像。

可选地，预设阈值可以根据视频帧的实际场景而定，例如0.8。此外，还可以根据场景的变化调整相似度阈值来控制判断的准确性和灵敏度，以适应不同类型和强度的场景切换。

S212、根据第一视频帧图像中标记的目标框，创建第二跟踪目标，并对第二跟踪目标进行目标跟踪。

在该步骤中，当确认当前跟踪的第一视频帧为转场帧图像的情况下，由于场景的变化，转场帧视频中的外观、形态可能都会发生较大变化。为了确保后续跟踪结果的准确性，根据目标检测器检测出的转场帧图像中包含的目标框，将其作为新的跟踪目标（第二跟踪目标）的目标ID（Identity document，唯一编码）输入目标跟踪器，自转场帧起，对重新创建的第二跟踪目标进行目标跟踪。

在实际应用中，在确定视频存在转场后，可将目标跟踪器进行初始化，以将目标跟踪器中的历史跟踪目标（第一个跟踪目标）的跟踪数据清除。在完成对目标跟踪器初始化重置后，将自转场帧起的多个视频帧图像和标记的目标框重新输入目标跟踪器，使得目标跟踪器根据自转场帧起的跟踪数据，重新对第二跟踪目标进行目标跟踪。进一步地，可也在目标跟踪器中保留历史跟踪目标的跟踪数据，便于相关人员后续对目标跟踪数据进行追溯。

通过上述方式，监测到转场帧时，重新创建跟踪目标，使得目标跟踪器根据转场后的新的场景特征来进行跟踪，以确保目标跟踪器能够及时、准确地捕捉到目标物体，提高跟踪的精确度。

S213、根据转场帧图像，确定与转场帧图像相邻的多个目标视频帧图像。

S214、根据转场帧图像和多个目标视频帧图像，生成视频序列。

在步骤S213和S214中，通过观测常见非场景连续类视频（如待播放的影视节目）的场景转换频率，可以发现，转换间隔一般有3s至5s，也就是说，每两次转换帧之间的多个视频帧图像（即一个场景片段）是场景连续的，因此，可以将其当作场景连续的视频，对这段多个视频帧图像的跟踪结果进行校验。

具体地，在确定第一视频帧图像为转场帧图像后，选取后续与第一视频帧图像连接的多个目标视频帧图像，需要说明的是，多个目标视频帧图像为连续型视频帧。根据转场帧图像以及后续多个目标视频帧图像生成视频序列。

S215、获取第二跟踪目标在视频序列中的位置数据，以及第二跟踪目标在视频序列中的预设位置数据。

S216、判断位置数据和预设位置数据是否一致，若是，进入步骤S217，若否，进入步骤S218。

在步骤S215和S216中，在对新创建的第二跟踪目标进行目标跟踪过程中，获取第二跟踪目标在视频序列中的位置数据，以及该跟踪目标在视频序列中的预设位置数据。其中，位置数据为目标跟踪器跟踪出的第二跟踪目标在转场后连续多个视频帧中的目标框位置，预设位置数据指的是第二跟踪目标在视频序列中的真实目标框位置，将位置数据与预设位置数据进行比较，判断二者是否一致，并基于比较结果，确定对新创建的第二跟踪目标的跟踪结果是否可靠。

在实际应用中，可利用目标检测算法，如Faster R-CNN、YOLO等，对视频序列中的目标进行检测，给出边界框的坐标信息。其后，计算跟踪结果的边界框与真实目标框之间的重叠度，将跟踪结果的边界框与真实目标框的边界框进行比较，计算它们之间的IOU（Intersection over Union）值，以衡量跟踪结果的准确性，其中，IOU值越接近1，表示跟踪结果与真实目标框的匹配度越高，则认为跟踪结果是准确的，反之，则认为跟踪失败或不准确。

S217、利用目标跟踪器继续对第二跟踪目标进行目标跟踪。

在该步骤中，当位置数据与预设位置数均一致，说明目标跟踪器对于转场后的场景片段中的跟踪结果依然可靠，此时可继续执行对第二跟踪目标的目标跟踪以及其他数据采样相关操作。

S218、根据位置数据，生成跟踪错误的提示信息。

S219、将提示信息发送至目标终端。

在步骤S218和S219中，如果位置数据与预设位置数据不一致，说明目标跟踪器对于转场后的场景片段的跟踪结果出错，此时需要将跟踪错误的提示信息发送至相关工作人员的目标终端，以供工作人员基于提示信息进行错误检测，同时，停止对第二跟踪目标的目标跟踪操作。

S220、继续对第一跟踪目标进行目标跟踪。

在本申请的一个实施例中，如图3所示，本申请实施例的目标跟踪方法包括以下四个部分：

（1）打开离线视频文件或在线视频流，获取多个视频帧图像。

（2）确认视频类型：场景连续类视频流（如由相机拍摄录制且未经剪辑的视频）还是非场景连续类视频流（如待播出的影视节目等因剪辑而存在场景转换的视频）。

具体地，现有目标跟踪方法在视频画面发生场景转换时很容易出错，几乎完全失效。如图4所示，在第k-1帧中，画面中有两个跟踪目标，其跟踪ID分别为101、102。到了第k帧，发生了场景转换，此时跟踪结果完全错误：在101跟踪目标附近位置有另一个同类目标，被错误地匹配到101，而实际上101目标在第k帧已不存在；同时，第k帧中102目标也已不存在，但在跟踪过程中，当目标未被检出时，其跟踪目标一般不会马上被删除，而是在连续未匹配上的帧数超过设定阈值后才会被删除，也就是说，其跟踪目标仍会存留一段时间。这种情况下基于目标跟踪的训练数据采样方法显然会做出错误的决策，无法有效地进行数据采样。如图5所示，当识别到第k帧为转场帧图像时，对跟踪器进行重置。而后目标跟踪正常执行，跟踪器会为转场帧图像画面中的新目标框重新创建跟踪目标，这样跟踪结果就得到了纠正。

可选地，计算当前帧与上一帧的图像相似度，若图像相似度低于预设阈值，确认该视频流属于非场景连续类视频流，则对跟踪器进行重置。具体地，计算图像的直方图（256维向量），然后计算前后两帧图像直方图的余弦相似度。需要说明的是，由于整张图像直方图区分度有限，可以将图像固定划分为m（取2、3或4）个子图像（前后帧保持一致），记第k帧图像第i块子图的直方图为，第k-1帧与第k帧第i块子图像对应的余弦相似度为，则第k-1帧与第k帧之间的图像相似度为：

。

（3）对场景连续类视频流不做跟踪器重置处理。而对于非场景连续类视频流，识别视频流中的转场帧图像，在每次出现转场帧图像时，对跟踪器进行重置。

具体地，识别转场帧视频可通过计算当前帧与前一帧的图像相似度，当图像相似度低于预设阈值时，认为当前帧属于转场帧图像。

进一步地，对跟踪器进行重置操作包括：从跟踪目标列表中清空所有跟踪目标，可选地，包括将跟踪目标的ID归零，即重置后创建的跟踪目标的ID从零开始。

（4）继续执行目标跟踪及其他数据采样操作。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种目标跟踪装置300，如图6所示，该装置包括：

跟踪模块301，用于响应于目标跟踪请求，对第一跟踪目标进行目标跟踪；

获取模块302，用于获取第一视频帧图像和第二视频帧图像，其中，第一视频帧图像为第一跟踪目标当前所在的视频帧图像，第二视频帧图像为与第一视频帧图像相邻的前一帧图像；

计算模块303，用于计算第一视频帧图像与第二视频帧图像之间的多个图像相似度；

判断模块304，用于根据多个图像相似度和预设阈值，判断第一视频帧图像是否为转场帧图像；

创建模块305，用于在第一视频帧图像为转场帧图像的情况下，根据第一视频帧图像中标记的目标框，创建第二跟踪目标；

跟踪模块301还用于，对第二跟踪目标进行目标跟踪。

可选地，跟踪模块301，具体用于：响应于目标跟踪请求，获取目标跟踪请求中包括的多个视频帧图像；将多个视频帧图像输入目标检测器，识别出多个视频帧图像中的多个目标框，并在多个视频帧图像中标记出多个目标框；根据第一帧图像中标记的目标框，确定第一跟踪目标；将多个视频帧图像和多个目标框输入目标跟踪器，利用目标跟踪器对第一跟踪器进行目标跟踪。

可选地，计算模块303，具体用于：分别将第一视频帧图像和第二视频帧图像转换为第一灰度图像和第二灰度图像；按预设划分数量，分别将第一灰度图像和第二灰度图像划分为多个第一子图像和多个第二子图像；根据多个第一子图像和多个第二子图像，生成多个第一特征向量和多个第二特征向量；按照多个第一子图像的图像位置和多个第二子图像的图像位置，对多个第一特征向量和多个第二特征向量进行匹配；计算每个第一特征向量与其匹配的第二特征向量之间的余弦夹角，生成每个第一子图像与其相同图像位置的第二子图像之间的图像相似度。

可选地，该装置还包括：

生成模块306，具体用于：获取每个第一子图像中每个像素点的第一像素值，以及每个第二子图像中每个像素点的第二像素值；根据第一像素值，确定每个第一子图像对应的第一直方图数组；根据第二像素值，确定每个第二子图像对应的第二直方图数组；根据第一直方图数组，生成每个第一子图像对应的第一特征向量；根据第二直方图数组，生成每个第二子图像对应的第二特征向量。

可选地，判断模块304，具体用于：依次将每个图像相似度与预设阈值进行比较；若多个图像相似度均大于或等于预设阈值，确定第一视频帧图像为非转场帧图像；若任一图像相似度小于预设阈值，确定第一视频帧图像为转场帧图像。

可选地，该装置还包括：

确定模块307，用于根据转场帧图像，确定与转场帧图像相邻的多个目标视频帧图像。

可选地，生成模块306还用于，根据转场帧图像和多个目标视频帧图像，生成视频序列。

获取模块302还用于，获取第二跟踪目标在视频序列中的位置数据，以及第二跟踪目标在视频序列中的预设位置数据。

判断模块304还用于，将位置数据与预设位置数据进行比较。

跟踪模块301还用于，若位置数据与预设位置数据一致，利用目标跟踪器继续对第二跟踪目标进行目标跟踪；

生成模块306还用于，若位置数据与预设位置数据不一致，根据位置数据，生成跟踪错误的提示信息。

可选地，该装置还包括：

发送模块308，用于将提示信息发送至目标终端。

可选地，跟踪模块301还用于，若第一视频帧图像为非转场帧图像，继续对第一跟踪目标进行目标跟踪。

可选地，获取模块302，具体还用于：响应于目标跟踪请求，接收视频采集装置发送的视频流；读取视频流中的每一帧图像，得到多个视频帧图像。

可选地，获取模块302，具体还用于：响应于目标跟踪请求，调取预设数据库中的视频文件；根据视频文件，确定多个视频帧图像。

本申请实施例提供的目标跟踪装置300，相较于现有技术中，无论连续型视频流或存在场景转换的非连续型视频流，始终对第一帧创建的初始跟踪目标进行持续跟踪，直至跟踪结束的跟踪方式，当视频流中存在场景转换时，由于跟踪目标的形态、外观等条件会发生较大变化，难以正确匹配跟踪目标，使得跟踪过程中出现错误跟踪、漂移等，进而导致整体跟踪准确性较低的技术问题。本申请提出了在目标跟踪过程中，实时对当前跟踪的视频帧进行监测，判断当前帧是否为场景转换帧。若当前视频帧为转场帧图像，基于转场帧图像的目标框重新创建新的跟踪目标，进而自转场帧图像起，对新创建的跟踪目标进行目标跟踪。实现了无论对连续型视频流或是存在场景转换的非连续型视频流都可以精确跟踪，避免视频转场带来的跟踪错误，提高整体跟踪的准确性和可靠性，进而提高目标跟踪的质量和效果。

在示例性实施例中，本申请还提供了一种视频处理系统包括：如第二方面的目标跟踪装置；视频采集装置，视频采集装置与目标跟踪装置通信连接，其中，视频采集装置，用于采集视频流，并将采集到的视频流发送至目标跟踪装置。

在该实施例中，视频采集装置可以为传统的摄像机、网络拍摄机（IP摄像机）、运动捕捉系统或无人机等，利用视频采集装置来捕获视频流，提供高质量的实时视频。可以理解的是，视频采集装置采集到视频流后，可以将在线视频（摄像机预览流）实时发送至目标跟踪装置，以对模型进行优化。进一步地，还可以将捕获到的视频流存储在预设数据库中。当要对模型进行优化时，将存储的离线视频发送至目标跟踪模型。

在示例性实施例中，本申请还提供了一种存储介质，所述存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的目标跟踪方法。

在示例性实施例中，本申请还提供了一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

图7示出了根据本发明一个实施例提供的一种终端的结构示意图，本发明具体实施例并不对终端的具体实现做限定。

如图7所示，该终端可以包括：处理器(processor)402、通信接口(CommunicationsInterface)404、存储器(memory)406、以及通信总线408。

其中：处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器402，用于执行程序410，具体可以执行上述模块优化方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。终端包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序410具体可以用于使得处理器402执行图2中模块优化装置执行的方法，并实现模块优化装置在图2所示实施例的功能，本申请实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种目标跟踪方法，其特征在于，包括：

响应于目标跟踪请求，对第一跟踪目标进行目标跟踪；

获取第一视频帧图像和第二视频帧图像，其中，所述第一视频帧图像为所述第一跟踪目标当前所在的视频帧图像，所述第二视频帧图像为与所述第一视频帧图像相邻的前一帧图像；

计算所述第一视频帧图像与所述第二视频帧图像之间的多个图像相似度；

根据所述多个图像相似度和预设阈值，判断所述第一视频帧图像是否为转场帧图像；

若所述第一视频帧图像为转场帧图像，根据所述转场帧图像中标记的目标框，创建第二跟踪目标，并对所述第二跟踪目标进行目标跟踪。

2.根据权利要求1所述的方法，其特征在于，所述响应于目标跟踪请求，对第一跟踪目标进行目标跟踪的步骤，具体包括：

响应于所述目标跟踪请求，获取所述目标跟踪请求中包括的多个视频帧图像；

将所述多个视频帧图像输入目标检测器，识别出所述多个视频帧图像中的多个目标框，并在所述多个视频帧图像中标记出所述多个目标框；

根据第一帧图像中标记的目标框，确定所述第一跟踪目标；

将所述多个视频帧图像和所述多个目标框输入目标跟踪器，利用所述目标跟踪器对所述第一跟踪器进行目标跟踪。

3.根据权利要求1所述的方法，其特征在于，所述计算所述第一视频帧图像与所述第二视频帧图像之间的多个图像相似度的步骤，具体包括：

分别将所述第一视频帧图像和所述第二视频帧图像转换为第一灰度图像和第二灰度图像；

按预设划分数量，分别将所述第一灰度图像和所述第二灰度图像划分为多个第一子图像和多个第二子图像；

根据所述多个第一子图像和所述多个第二子图像，生成多个第一特征向量和多个第二特征向量；

按照所述多个第一子图像的图像位置和所述多个第二子图像的图像位置，对所述多个第一特征向量和所述多个第二特征向量进行匹配；

4.根据权利要求3所述的方法，其特征在于，所述根据所述多个第一子图像和所述多个第二子图像，生成多个第一特征向量和多个第二特征向量的步骤，具体包括：

根据所述第一像素值，确定每个第一子图像对应的第一直方图数组；

根据所述第二像素值，确定每个第二子图像对应的第二直方图数组；

根据所述第一直方图数组，生成所述每个第一子图像对应的第一特征向量；

根据所述第二直方图数组，生成所述每个第二子图像对应的第二特征向量。

5.根据权利要求1所述的方法，其特征在于，所述根据所述多个图像相似度和预设阈值，判断所述第一视频帧图像是否为转场帧图像的步骤，具体包括：

依次将每个图像相似度与所述预设阈值进行比较；

若所述多个图像相似度均大于或等于所述预设阈值，确定所述第一视频帧图像为非转场帧图像；

若任一图像相似度小于所述预设阈值，确定所述第一视频帧图像为转场帧图像。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述转场帧图像中标记的目标框，创建第二跟踪目标，并对所述第二跟踪目标进行目标跟踪之后，还包括：

根据所述转场帧图像，确定与转场帧图像相邻的多个目标视频帧图像；

根据所述转场帧图像和所述多个目标视频帧图像，生成视频序列；

获取所述第二跟踪目标在所述视频序列中的位置数据，以及所述第二跟踪目标在所述视频序列中的预设位置数据；

若所述位置数据与所述预设位置数据一致，利用所述目标跟踪器继续对所述第二跟踪目标进行目标跟踪；

若所述位置数据与所述预设位置数据不一致，根据所述位置数据，生成跟踪错误的提示信息；

将所述提示信息发送至目标终端。

7.一种目标跟踪装置，其特征在于，包括：

获取模块，用于获取第一视频帧图像和第二视频帧图像，其中，所述第一视频帧图像为第一跟踪目标当前所在的视频帧图像，所述第二视频帧图像为与所述第一视频帧图像相邻的前一帧图像；

计算模块，用于计算所述第一视频帧图像与所述第二视频帧图像之间的多个图像相似度；

判断模块，用于根据所述多个图像相似度和预设阈值，判断所述第一视频帧图像是否为转场帧图像；

创建模块，用于若所述第一视频帧图像为转场帧图像，根据所述转场帧图像中标记的目标框，创建第二跟踪目标；

所述跟踪模块还用于，对所述第二跟踪目标进行目标跟踪。

8.一种视频处理系统，其特征在于，包括：

如权利要求7所述的目标跟踪装置；

视频采集装置，所述视频采集装置与所述目标跟踪装置通信连接，其中，所述视频采集装置，用于采集视频流，并将采集到的所述视频流发送至所述目标跟踪装置。

9.一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-6中任一项所述的目标跟踪方法对应的操作。

10.一种终端，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的目标跟踪方法对应的操作。