CN116521934A

CN116521934A - 面向目标追踪查询的视频存储管理方法及系统

Info

Publication number: CN116521934A
Application number: CN202310458150.6A
Authority: CN
Inventors: 钟天雄; 张志威; 赵帅; 王国仁
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-08-01

Abstract

本发明公开了面向目标追踪查询的视频存储管理方法及系统，涉及多媒体信息存储查询技术领域，能够通过自适应的视频分块和语义索引技术，加快有关像素的取回，减少目标识别神经网络处理的像素数，从而缓解查询耗时长、能耗高的问题。取原始视频在每一帧中查找感兴趣区域；对感兴趣区域划分分块区域，任意感兴趣区域都落入且只落入一个分块区域，利用分块区域信息划分原始视频得到分块视频；分块视频编码，并建立语义索引，分块视频帧和语义索引对应存储，构建语义索引与标签的关联关系；查询时，接收查询类型标签，确定语义索引，筛选符合查询类型的视频帧作为查询结果帧，解码输出并执行目标识别和追踪操作，获得目标追踪轨迹结果。

Description

面向目标追踪查询的视频存储管理方法及系统

技术领域

本发明涉及多媒体信息存储查询技术领域，具体涉及一种面向目标追踪查询的视频存储管理方法及系统。

背景技术

随着摄像头成本的下降，监控摄像头、行车记录仪等摄像设备的数量正在快速上升。另一方面，得益于深度学习的快速发展，近年来诞生了许多高精度的图像和视频处理算法，使得使用机器分析视频中潜在的语义信息并执行查询操作成为可能。其中，目标追踪查询是最复杂的海量视频查询任务之一，目前主流的方法是基于目标识别结果进行追踪。然而，目标识别方法往往工作在昂贵的GPU设备，且在大规模视频数据上的计算速度并不乐观。因此，亟需能够在海量视频数据上高效、低能耗执行的查询算法。

现有的针对海量视频目标追踪查询方向的研究，耗时最长的是视频解码和目标识别过程，由于视频解码和神经网络计算的耗时均与处理的像素数正相关，当像素数增加时，系统处理耗时线性增加。而视频中可能存在大量与查询无关的区域，解码并处理这些区域的像素是导致目标追踪查询系统效率低、能耗高的主要问题之一。

主流神经网络的推理速度往往与输入总像素数，即视频的宽度、高度和帧数乘积，呈正相关。现有的技术往往通过减少目标识别网络的调用次数，从而在给定误差界限内加速查询。从另一角度，削减输入的视频帧分辨率，即宽度和高度，也能加速整个查询系统的处理速度。换而言之，通过排除不包含目标的像素输入目标识别网络能够增大系统的吞吐量。

HEVC编码器提出了视频分块的概念，其通过将一个视频片段在划分为互不重叠的矩形，为视频解码引入了帧内的随机访问点。得益于同态拼接，HEVC编解码器无需重新编码即可将分块恢复为完整视频帧。因此，将目标所在的区域编码为分块，能够有效减少视频解码和神经网络推理的开销。

因此针对海量视频目标的存储管理方面，要应用HEVC编码器以及主流神经网络，查询速度慢和资源开销大的问题较为突出。

发明内容

有鉴于此，本发明提供了面向目标追踪查询的视频存储管理方法及系统，能够通过自适应的视频分块和语义索引技术，加快有关像素的取回，减少目标识别神经网络处理的像素数，从而缓解查询耗时长、能耗高的问题。

为达到上述目的，本发明的技术方案包括如下步骤：

取原始视频作为输入，在每一帧中查找目标可能存在的区域作为候选区域，集合所有帧中的候选区域，并将相交的候选区域进行融合，得到感兴趣区域；

利用所获得的感兴趣区域进行分块区域划分，使得任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对原始视频进行划分得到分块视频，并记录分块区域信息以及是否包含感兴趣区域信息共同构成分块元信息。

对分块视频进行编码，并为分块视频中的每一帧建立语义索引，将分块视频中每一帧和语义索引对应存储，并构建语义索引与标签的关联关系。

在查询事件发生时，接收用户输入的查询类型标签，并确定查询类型标签对应的语义索引；筛选符合查询类型的分块视频帧作为查询结果帧，将查询结果帧进行解码并输出。

对输出的解码后的查询结果帧数据执行目标识别操作，并利用目标识别的结果进行目标追踪，输出目标追踪轨迹结果。

进一步地，取原始视频作为输入，在每一帧中查找目标可能存在的区域作为候选区域，集合所有帧中的候选区域，并将相交的候选区域进行融合，得到感兴趣区域，具体为：

利用前景检测分离原始视频帧中的前景像素和背景像素；若一个帧中不存在前景像素时，说明当前帧不存在候选区域；否则，同一帧中的前景像素产生数个连通域，每个连通域的外接矩形称作当前帧的一个候选区域；

原始视频由一系列连续的帧组成，独立编码帧即I帧将原始视频在时序上分割为数个分段，对于每个分段所有帧中的候选区域，将其按空间距离进行融合，即相交的候选区域合并为感兴趣区域。

进一步地，对分块视频进行编码，并为分块视频中的每一帧建立语义索引，将分块视频中每一帧和语义索引对应存储，并构建语义索引与标签的关联关系；具体为：

使用一预训练神经网络，分块视频中的帧即为分块视频帧，以分块视频帧作为预训练神经网络的输入，将预训练神经网络的输出层特征作为语义索引；将分块视频中每一帧和语义索引对应存储；针对所有分块视频帧对应的所有语义索引构成的集合，采用最远点采样算法，从语义索引集合中选择一个子集，子集中的每个语义索引记为代表向量；通过将代表向量对应的分块视频帧送入目标识别网络，输出的标签即为每个代表向量的关联标签；由此构建语义索引与标签的关联关系。

进一步地，在查询事件发生时，接收用户输入的查询类型标签，并确定查询类型标签对应的语义索引；筛选符合查询类型的分块视频帧作为查询结果帧，将查询结果帧进行解码并输出，具体为：

在查询事件发生时，接收用户输入的所需查询的视频帧编号和当前追踪目标类型标签；

当查询事件发生时，用户指定的查询类型以标签的形式给出，记为查询标签；主动由存储区域取出视频帧编号对应分块视频帧的分块元信息，过滤不包含感兴趣区域的分块区域；

从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧，剩余的分块视频帧其对应的语义索引同所有与查询标签相关联的代表向量分别计算余弦相似度；若一个语义索引与任意一个代表向量的相似度高于阈值，则说明该语义索引与当前查询类型相关，该语义索引对应的分块视频帧作为查询结果帧输出。

本发明另外一个实施例还提供了面向目标追踪查询的视频存储管理系统，包括感兴趣区域获取模块、分块编解码模块、语义索引管理模块、分块取回模块以及目标追踪模块。

感兴趣区域获取模块，取原始视频作为输入，在每一帧中查找目标可能存在的区域作为候选区域，集合所有帧中的候选区域，并将相交的候选区域进行融合，得到感兴趣区域；该模块利用所获得的感兴趣区域进行分块区域划分，使得任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对原始视频进行划分得到分块视频；

分块编解码模块，对来自感兴趣区域获取模块的分块视频进行编码操作之后送入存储区域进行存储；

语义索引模块，用于对存储区域中所有分块视频中的每一帧建立语义索引，将分块视频中每一帧和语义索引相关联存储，并构建语义索引与标签的关联关系；

目标追踪模块在查询发生时，渐进地向分块取回模块发送所需查询的视频帧编号和当前追踪目标类型标签；

分块取回模块用于在查询发生时，从目标追踪模块接收所需查询的视频帧编号和当前追踪目标类型标签；分块取回模块主动由存储区域取出视频帧编号对应分块视频帧的分块元信息，过滤不包含感兴趣区域的分块区域，然后调用语义索引管理模块从剩余的分块区域内过滤不包含当前追踪目标类型的分块视频帧；然后从分块编解码模块将获取查询结果帧的解码结果，返回给目标追踪模块；

语义索引模块，还用于在查询发生时，被分块取回模块调用，接收当前追踪目标类型标签，利用语义索引与标签的关联关系，从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧，输出与当前追踪目标类型相关的分块视频帧，记为查询结果帧，查询结果帧送入分块编解码模块；

分块编解码模块对来自语义索引模块的查询结果帧进行解码操作后送入分块取回模块；

目标追踪模块利用解码后的查询结果帧执行目标识别操作，并利用目标识别的结果进行目标追踪，输出目标追踪轨迹结果。

进一步地，分块编解码模块利用HEVC协议进行编码和解码；

编码过程将每个分块视频转化为码流文件并保存在磁盘上；

解码过程将指定的查询结果帧对应的码流文件从磁盘读取并解码为帧数据。

进一步地，感兴趣区域获取模块，利用前景检测分离原始视频帧中的前景像素和背景像素；若一个帧中不存在前景像素时，说明当前帧不存在候选区域；否则，同一帧中的前景像素产生数个连通域，每个连通域的外接矩形称作当前帧的一个候选区域；

原始视频由一系列连续的帧组成，独立编码帧即I帧将原始视频在时序上分割为数个分段，对于每个分段所有帧中的候选区域，将其按空间距离进行融合，即相交的候选区域合并为感兴趣区域；

感兴趣区域获取模块，还负责将整个视频帧划分为多个互不重叠的分块区域，保证任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对视频进行划分，得到分块视频，其中分块区域信息以及是否包含感兴趣区域信息共同构成分块元信息。

进一步地，语义索引模块，使用一预训练神经网络，分块视频中的帧即为分块视频帧，以分块视频帧作为预训练神经网络的输入，将预训练神经网络的输出层特征作为语义索引；

针对所有分块视频帧对应的所有语义索引构成的集合，采用最远点采样算法，从语义索引集合中选择一个子集，子集中的每个语义索引记为代表向量；通过将代表向量对应的分块视频帧送入目标识别网络，输出的标签即为每个代表向量的关联标签；

当查询发生时，用户指定的查询类型以标签的形式给出，记为查询标签，语义索引模块被调用，从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧，剩余的分块视频帧其对应的语义索引同所有与查询标签相关联的代表向量分别计算余弦相似度；若一个语义索引与任意一个代表向量的相似度高于阈值，则说明该语义索引与当前查询类型相关，该语义索引对应的分块视频帧作为查询结果帧输出。

进一步地，目标追踪模块主要包括目标识别单元和目标追踪单元两部分。

目标识别单元，用于接收用户的目标追踪请求，目标追踪请求包含所需查询的视频帧编号和当前追踪目标类型标签；目标识别单元将目目标最终请求发送至分块取回模块，并从分块取回模块处获取解码后的查询结果帧。

目标追踪单元，用于在解码后的查询结果帧基础上匹配对象、计算轨迹，内部保留上一帧的全部目标信息，通过与当前帧的目标进行匹配，确定追踪目标的轨迹信息。

有益效果：

1：本发明提供了面向目标追踪查询的视频存储管理方法和系统，针对视频采用自适应视频分块技术进行分块，主要是通过前景分割算法获取视频中的感兴趣区域，融合帧间和帧内距离接近的感兴趣区域，将使频段划分到多个分块区域并确保每个感兴趣区域落入唯一的分块区域，然后使用HEVC编码器对每个分块独立编码。其中，布局信息和感兴趣区域所在分块信息通过数据库记录。本发明针对视频分块采用语义索引技术，常见的轻量级图片分类神经网络被去除输出层，其输出的特征向量一定程度表示了图像中保留的语义信息，且运算速度远高于目标识别模型。通过少量标记样本和三元组损失可以强化特征向量之间的关系。另一方面，其通过少量标记样本将语义索引进行聚类，关联具有相似语义信息的分块视频帧。语义索引可以在目标追踪查询时进一步滤除与查询目标无关的视频分块，进而减少解码和输入目标识别模型的像素数，加速目标追踪查询速度。基于上述原理本发明能够通过自适应的视频分块和语义索引技术，加快有关像素的取回，减少目标识别神经网络处理的像素数，从而缓解查询耗时长、能耗高的问题。

2：本发明提供的面向目标追踪查询的视频存储管理方法和系统，其中基于语义索引的视频分块取回技术，其中，给定目标追踪算法所选定的追踪目标类型，其首先滤除所有不包含感兴趣区域的视频分块，其次根据语义索引聚类信息排除不符合条件的分块视频帧。即最终实际解码并输入目标识别模型的分块视频帧需包含给定追踪目标类型的对象。

附图说明

图1是本发明的总体架构示意图；

图2是本发明的目标追踪查询过程示意图；

图3是本发明的目标追踪查询流程图；

图4是本发明的视频摄入、分块和索引创建流程图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

实施例1：

本发明实施例提供了面向目标追踪查询的视频存储管理方法，包括如下步骤：

步骤1：取原始视频作为输入，在每一帧中查找目标可能存在的区域作为候选区域，集合所有帧中的候选区域，并将相交的候选区域进行融合，得到感兴趣区域。具体为：

步骤2：利用所获得的感兴趣区域进行分块区域划分，使得任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对原始视频进行划分得到分块视频，并记录分块区域信息以及是否包含感兴趣区域信息共同构成分块元信息。

步骤3：对分块视频进行编码，并为分块视频中的每一帧建立语义索引，将分块视频中每一帧和语义索引对应存储，并构建语义索引与标签的关联关系。

具体为：

使用一预训练神经网络，分块视频中的帧即为分块视频帧，以分块视频帧作为预训练神经网络的输入，将预训练神经网络的输出层特征作为语义索引；将分块视频中每一帧和语义索引对应存储。

针对所有分块视频帧对应的所有语义索引构成的集合，采用最远点采样算法，从语义索引集合中选择一个子集，子集中的每个语义索引记为代表向量；通过将代表向量对应的分块视频帧送入目标识别网络，输出的标签即为每个代表向量的关联标签。

由此构建语义索引与标签的关联关系。

步骤4：在查询事件发生时，接收用户输入的查询类型标签，并确定查询类型标签对应的语义索引；筛选符合查询类型的分块视频帧作为查询结果帧，将查询结果帧进行解码并输出。具体为：

当查询发生时，用户指定的查询类型以标签的形式给出，记为查询标签；主动由存储区域取出视频帧编号对应分块视频帧的分块元信息，过滤不包含感兴趣区域的分块区域。

取包含感兴趣区域的分块区域对应的分块视频帧，其对应的语义索引同所有与查询标签相关联的代表向量分别计算余弦相似度；若一个语义索引与任意一个代表向量的相似度高于阈值，则说明该语义索引与当前查询类型相关，该语义索引对应的分块视频帧作为查询结果帧输出。

步骤5：对输出的解码后的查询结果帧数据执行目标识别操作，并利用目标识别的结果进行目标追踪，输出目标追踪轨迹结果。

实施例2：

本实施例提供了面向目标追踪查询的视频存储管理系统，其特征在于，包括感兴趣区域获取模块、分块编解码模块、语义索引管理模块、分块取回模块以及目标追踪模块；图1为本发明的面相目标追踪查询的海量视频存储系统的总体架构示意图。其中感兴趣区域获取模块、分块编解码模块、语义索引管理模块、分块取回模块组成视频分块管理子系统；目标追踪模块则位于目标追踪子系统。

其中，视频分块管理子系统用于处理新摄入的视频、计算包含前景的感兴趣区域、根据感兴趣区域建立分块布局、为每个分块的每一帧建立语义索引、将每个分块编码为独立的视频序列并根据目标追踪系统请求的对象类型有选择的解码分块帧；

目标追踪子系统则向用户暴露接口，实现基于目标识别的目标追踪查询服务。目标识别系统将向视频分块管理系统传递目标识别类型，视频分块管理系统则根据目标类型返回相关的分块帧用于目标识别和目标追踪。

感兴趣区域获取模块，取原始视频作为输入，在每一帧中查找目标可能存在的区域作为候选区域，集合所有帧中的候选区域，并将相交的候选区域进行融合，得到感兴趣区域；该模块利用所获得的感兴趣区域进行分块区域划分，使得任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对原始视频进行划分得到分块视频。

具体地：感兴趣区域获取模块，利用前景检测分离原始视频帧中的前景像素和背景像素；若一个帧中不存在前景像素时，说明当前帧不存在候选区域；否则，同一帧中的前景像素产生数个连通域，每个连通域的外接矩形称作当前帧的一个候选区域；原始视频由一系列连续的帧组成，独立编码帧即I帧将原始视频在时序上分割为数个分段，对于每个分段所有帧中的候选区域，将其按空间距离进行融合，即相交的候选区域合并为感兴趣区域；感兴趣区域获取模块，还负责将整个视频帧划分为多个互不重叠的分块区域，保证任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对视频进行划分，得到分块视频，其中分块区域信息以及是否包含感兴趣区域信息共同构成分块元信息。

分块编解码模块，对来自感兴趣区域获取模块的分块视频进行编码操作之后送入存储区域进行存储。分块编解码模块利用HEVC协议进行编码和解码；编码过程将每个分块视频转化为码流文件并保存在磁盘上；解码过程将指定的查询结果帧对应的码流文件从磁盘读取并解码为帧数据。

语义索引模块，还用于在查询发生时，被分块取回模块调用，接收当前追踪目标类型标签，利用语义索引与标签的关联关系，从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧，输出与当前追踪目标类型相关的分块视频帧，记为查询结果帧，查询结果帧送入分块编解码模块。

具体地，语义索引模块，使用一预训练神经网络，分块视频中的帧即为分块视频帧，以分块视频帧作为预训练神经网络的输入，将预训练神经网络的输出层特征作为语义索引；针对所有分块视频帧对应的所有语义索引构成的集合，采用最远点采样算法，从语义索引集合中选择一个子集，子集中的每个语义索引记为代表向量；通过将代表向量对应的分块视频帧送入目标识别网络，输出的标签即为每个代表向量的关联标签。

当查询发生时，用户指定的查询类型以标签的形式给出，记为查询标签，语义索引模块被调用，从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧，剩余的分块视频帧其对应的语义索引，分块视频帧对应的语义索引同所有与查询标签相关联的代表向量分别计算余弦相似度；若一个语义索引与任意一个代表向量的相似度高于阈值，则说明该语义索引与当前查询类型相关，该语义索引对应的分块视频帧作为查询结果帧输出。

具体地目标追踪模块主要包括目标识别单元和目标追踪单元两部分；目标识别单元，用于接收用户的目标追踪请求，目标追踪请求包含所需查询的视频帧编号和当前追踪目标类型标签；目标识别单元将目目标最终请求发送至分块取回模块，并从分块取回模块处获取解码后的查询结果帧；

1)目标识别单元主要负责接收用户的目标追踪请求、向视频分块管理系统索取视频帧、对返回的视频帧执行目标识别操作、将目标识别的结果送入目标追踪模块。其中，本单元在用户指定的时间范围内选择适当的视频帧用于目标追踪任务，其会不断向视频分块管理系统发送对应帧编号和目标类型标签，并获取该帧内所有与目标类型相关的分块帧。本单元通过神经网络模型实现对目标的识别，将返回边界框、类别标签和置信度。

2)目标追踪单元主要负责在目标识别模块返回的结果基础上匹配对象、计算轨迹。其会在相邻两次目标识别的结果上尝试找到两组目标的最优匹配。当目标识别全部结束时，此单元会向用户返回最终的轨迹结果，并结束整个目标追踪过程。

实施例3：

本实施例对本发明的基于视频分块和语义索引的海量视频存储流程进行介绍，其中结合附图与实施例对本发明进行进一步的详细说明，其中图3是本发明的目标追踪查询流程图，图4是本发明的视频摄入、分块和索引创建流程图。

目标追踪查询流程包括：

步骤S11：用户发起目标追踪查询请求并指定查询对象类型，本实施例中设定多个查询对象类型标签。

步骤S12：目标追踪系统收到相关请求后，选择视频帧执行目标识别操作。目标识别模块通过传递帧编号和目标类型标签(由查询对象类型标签转化而来)，发送给向视频分块管理系统；

步骤S13：视频分块管理系统搜索该编号所处视频分段，并逐一查询该分段内所有分块元信息。对于任意分块，若其不包含感兴趣区域则跳过并检查下一分块，否则转到步骤S14。

步骤S14：分块取回模块向语义索引管理模块请求该分块对应帧编号的语义索引，并与所有与标签相关的代表向量计算余弦相似度。若与所有相关代表向量相似度均低于阈值，则说明该分块帧包含的语义信息与相关类别无关，该分块将被跳过，取下一分块回到步骤S13，否则转到步骤S15。

步骤S15：分块取回模块向分块编解码模块请求该分块帧，分块编解码模块读入对应分块的视频流文件并解码为帧图像返回给分块取回模块。

步骤S16：目标识别模块接收分块取回模块返回的分块帧，调用目标识别神经网络识别分块帧上所有的目标并筛选与当前查询类型相关的目标。

步骤S17：此时目标识别模块获取的目标位置是相对于原图的相对位置，因此需要通过分块取回模块提供的分块位置信息将目标坐标恢复到绝对位置。

步骤S18：当所有相关分块帧全部处理完毕，当前帧的目标信息会传入目标追踪模块；目标追踪模块内部保留上一帧的全部目标信息，通过与当前帧的目标进行匹配，确定相关对象的轨迹信息。

视频摄入、分块和索引创建流程包括：

步骤S21：用户输入新的视频到系统中。

步骤S22：感兴趣区域获取模块利用前景检测算法提取前景像素，将每个前景像素连通域的外接矩形称为一个感兴趣区域。

步骤S23：感兴趣区域获取模块将一个视频分段内所有的感兴趣区域按其距离进行融合，直到任意两个感兴趣区域无法进一步融合。

步骤S24：感兴趣区域获取模块生成N×M的分块布局，从而确保任意感兴趣区域落入且只落入唯一分块内。

步骤S25：按分块布局切割视频帧，并将包含感兴趣区域的分块内的所有视频帧依次送入语义索引管理模块的嵌入网络中以生成低维语义索引向量。按向量距离对少量标注样本的语义索引进行聚类产生代表向量，并将标注信息绑定到代表向量。

步骤S26：分块编解码模块将所有分块主意编码为独立的视频流文件并保存在磁盘中。

以上对目标追踪查询流程以及视频摄入、分块和索引创建流程的介绍，详细解释了本发明对面向目标追踪查询的海量视频存储这一技术的支持，证明了本发明在优化大规模视频数据目标追踪查询中提出了切实有效的解决方案。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.面向目标追踪查询的视频存储管理方法，其特征在于，包括如下步骤：

利用所获得的感兴趣区域进行分块区域划分，使得任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对原始视频进行划分得到分块视频，并记录分块区域信息以及是否包含感兴趣区域信息共同构成分块元信息；

对所述分块视频进行编码，并为分块视频中的每一帧建立语义索引，将分块视频中每一帧和语义索引对应存储，并构建语义索引与标签的关联关系；

在查询事件发生时，接收用户输入的查询类型标签，并确定查询类型标签对应的语义索引；筛选符合查询类型的分块视频帧作为查询结果帧，将查询结果帧进行解码并输出；

2.如权利要求1所述的面向目标追踪查询的视频存储管理方法，其特征在于，所述取原始视频作为输入，在每一帧中查找目标可能存在的区域作为候选区域，集合所有帧中的候选区域，并将相交的候选区域进行融合，得到感兴趣区域，具体为：

所述原始视频由一系列连续的帧组成，独立编码帧即I帧将所述原始视频在时序上分割为数个分段，对于每个分段所有帧中的候选区域，将其按空间距离进行融合，即相交的候选区域合并为感兴趣区域。

3.如权利要求1或2所述的面向目标追踪查询的视频存储管理方法，其特征在于，对所述分块视频进行编码，并为分块视频中的每一帧建立语义索引，将分块视频中每一帧和语义索引对应存储，并构建语义索引与标签的关联关系；

具体为：

使用一预训练神经网络，所述分块视频中的帧即为分块视频帧，以分块视频帧作为预训练神经网络的输入，将所述预训练神经网络的输出层特征作为语义索引；将分块视频中每一帧和语义索引对应存储；针对所有分块视频帧对应的所有语义索引构成的集合，采用最远点采样算法，从语义索引集合中选择一个子集，子集中的每个语义索引记为代表向量；通过将代表向量对应的分块视频帧送入目标识别网络，输出的标签即为每个代表向量的关联标签；由此构建语义索引与标签的关联关系。

4.如权利要求3所述的面向目标追踪查询的视频存储管理方法，其特征在于，所述在查询事件发生时，接收用户输入的查询类型标签，并确定查询类型标签对应的语义索引；筛选符合查询类型的分块视频帧作为查询结果帧，将查询结果帧进行解码并输出，具体为：

5.面向目标追踪查询的视频存储管理系统，其特征在于，包括感兴趣区域获取模块、分块编解码模块、语义索引管理模块、分块取回模块以及目标追踪模块；

所述感兴趣区域获取模块，取原始视频作为输入，在每一帧中查找目标可能存在的区域作为候选区域，集合所有帧中的候选区域，并将相交的候选区域进行融合，得到感兴趣区域；该模块利用所获得的感兴趣区域进行分块区域划分，使得任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对原始视频进行划分得到分块视频；

所述分块编解码模块，对来自感兴趣区域获取模块的所述分块视频进行编码操作之后送入存储区域进行存储；

所述语义索引模块，用于对存储区域中所有分块视频中的每一帧建立语义索引，将分块视频中每一帧和语义索引相关联存储，并构建语义索引与标签的关联关系；

所述目标追踪模块在查询发生时，渐进地向所述分块取回模块发送所需查询的视频帧编号和当前追踪目标类型标签；

所述分块取回模块用于在查询发生时，从目标追踪模块接收所需查询的视频帧编号和当前追踪目标类型标签；所述分块取回模块主动由存储区域取出视频帧编号对应分块视频帧的分块元信息，过滤不包含感兴趣区域的分块区域，然后调用语义索引管理模块从剩余的分块区域内过滤不包含当前追踪目标类型的分块视频帧；然后从分块编解码模块将获取查询结果帧的解码结果，返回给目标追踪模块；

所述语义索引模块，还用于在查询发生时，被分块取回模块调用，接收当前追踪目标类型标签，利用语义索引与标签的关联关系，从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧，输出与当前追踪目标类型相关的分块视频帧，记为查询结果帧，查询结果帧送入分块编解码模块；

所述分块编解码模块对来自语义索引模块的查询结果帧进行解码操作后送入分块取回模块；

所述目标追踪模块利用解码后的查询结果帧执行目标识别操作，并利用目标识别的结果进行目标追踪，输出目标追踪轨迹结果。

6.如权利要求5所述的面向目标追踪查询的视频存储管理系统，其特征在于，所述分块编解码模块利用HEVC协议进行编码和解码；

编码过程将每个分块视频转化为码流文件并保存在磁盘上；

7.如权利要求5或6所述的面向目标追踪查询的视频存储管理系统，其特征在于，所述感兴趣区域获取模块，利用前景检测分离原始视频帧中的前景像素和背景像素；若一个帧中不存在前景像素时，说明当前帧不存在候选区域；否则，同一帧中的前景像素产生数个连通域，每个连通域的外接矩形称作当前帧的一个候选区域；

所述原始视频由一系列连续的帧组成，独立编码帧即I帧将所述原始视频在时序上分割为数个分段，对于每个分段所有帧中的候选区域，将其按空间距离进行融合，即相交的候选区域合并为感兴趣区域；

所述感兴趣区域获取模块，还负责将整个视频帧划分为多个互不重叠的分块区域，保证任意感兴趣区域都落入且只落入一个分块区域内，利用分块区域信息对视频进行划分，得到分块视频，其中分块区域信息以及是否包含感兴趣区域信息共同构成分块元信息。

8.如权利要求7所述的面向目标追踪查询的视频存储管理系统，其特征在于，所述语义索引模块，使用一预训练神经网络，所述分块视频中的帧即为分块视频帧，以分块视频帧作为预训练神经网络的输入，将所述预训练神经网络的输出层特征作为语义索引；

当查询发生时，用户指定的查询类型以标签的形式给出，记为查询标签，所述语义索引模块被调用，从包含感兴趣区域的分块视频帧内过滤不包含当前追踪目标类型的分块视频帧，剩余的分块视频帧其对应的语义索引同所有与查询标签相关联的代表向量分别计算余弦相似度；若一个语义索引与任意一个代表向量的相似度高于阈值，则说明该语义索引与当前查询类型相关，该语义索引对应的分块视频帧作为查询结果帧输出。

9.如权利要求8所述的的面向目标追踪查询的视频存储管理系统，其特征在于，目标追踪模块主要包括目标识别单元和目标追踪单元两部分；

所述目标识别单元，用于接收用户的目标追踪请求，所述目标追踪请求包含所需查询的视频帧编号和当前追踪目标类型标签；目标识别单元将目所述目标最终请求发送至所述分块取回模块，并从分块取回模块处获取解码后的查询结果帧；

所述目标追踪单元，用于在解码后的查询结果帧基础上匹配对象、计算轨迹，内部保留上一帧的全部目标信息，通过与当前帧的目标进行匹配，确定追踪目标的轨迹信息。