CN116385946B

CN116385946B - 面向视频的目标片段定位方法、系统、存储介质及设备

Info

Publication number: CN116385946B
Application number: CN202310658383.0A
Authority: CN
Inventors: 罗昕; 王妍; 陈振铎; 许信顺
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-08-29
Anticipated expiration: 2043-06-06
Also published as: CN116385946A

Abstract

本发明涉及跨媒体检索技术领域，本发明公开了面向视频的目标片段定位方法、系统、存储介质及设备，包括：获取视频和查询，并分别进行特征提取；分别对视频特征和查询特征进行编码后，计算查询和视频之间的相似度，得到视频级别分数；对于编码后视频特征，使用时序卷积学习视频帧之间的时序关系后，生成若干候选片段，并得到每个候选片段的细粒度特征；同时，基于编码后查询特征，获取查询的细粒度特征；通过构造哈希空间，计算查询和候选片段之间的相似度，得到片段级别分数；对于每个查询，基于视频级别分数和片段级别分数，在所有视频的候选片段中筛选出目标片段。提高了检索速度、并实现了可扩展性。

Description

面向视频的目标片段定位方法、系统、存储介质及设备

技术领域

本发明涉及跨媒体检索技术领域，具体的说，是涉及面向视频的目标片段定位方法、系统、存储介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着城市化进程的加速和人口数量的增长，城市管理变得越来越复杂。为了实现城市智慧化，各种智能化技术被广泛采用，其中包括监控系统。监控系统已经成为城市管理的重要组成部分，它可以用于安全监控、交通管制、环境监测等多个方面。而监控视频由于冗长、信息密度低等特性，耗费了越来越多的人力成本和硬件资源，这为监控视频的智能化技术提出了新的挑战。

智慧城市中对监控视频的管理与分析是一个多学科交叉领域，涉及到计算机视觉、图像处理、深度学习、人工智能等多个技术领域，现有的技术涵盖了视频数据采集、处理、分析、存储等多个方面。具体来说，包括以下几类：首先是视频数据采集技术，这是视频监控系统的基础；进而是视频数据预处理技术，对该技术的良好运用可以有效提高视频处理效率，预处理技术包括视频去噪、运动补偿、图像增强、图像分割等多个方面，其中，运动补偿技术可以降低视频帧率，从而减少数据量，提高处理效率；然后是视频数据分析技术，这是智慧城市中监控视频应用的关键技术之一，视频数据分析技术可以分为两类，一类是基于规则的分析技术，另一类是基于机器学习的分析技术，基于规则的分析技术通常需要人工定义规则，而基于机器学习的分析技术则可以自动学习规律，提高分析效率和准确性，目前，视频数据分析技术主要应用于物体检测、行为识别、异常检测等方面；最后是视频数据存储和传输技术。

大规模目标片段定位技术是一种视频数据分析技术，其能够使用自然语言查询语句，面向信息密度较低的监控视频，对目标片段进行检索和定位的技术。该技术可以在语义层面上对查询语句和大规模语料库中的视频进行理解，从而定位到与查询语句在语义上最相关的目标视频片段，按照相关性返回片段的序列。通过大规模目标片段定位技术，可以实现对监控视频中的目标片段的追踪、分析和预测。

快速大规模目标片段定位方法的良好运用能够充分发挥监控视频的效用。比如，在城市交通管制方面，可以利用该技术快速分析大规模监控数据集，从而优化路况、预测事故、提高交通效率。在环境监测方面，可以利用该技术监控视频数据，从而检测污染源、预测气象变化等。此外，在智慧教育中，快速大规模目标片段定位方法可以实施即时监控与分析，如预测学生的行为模式，以及及时处理异常行为，从而应用于校园安全、学生行为监测等方面。总的来说，面向监控视频的快速大规模目标片段定位是智慧城市、智慧教育等领域的关键技术之一。

近年来，深度学习技术在视频检索领域取得了显著的进展，深度学习技术可以自动提取视频中的特征，通过学习和优化模型，可以实现更加准确和高效的视频检索。

但是，现有的快速大规模目标片段定位方法，使用实值特征对视频特征和文本特征进行存储，这增加了检索库中的存储空间；同时，视频特征和文本特征的提取过程是互相依赖的，这限制了模型的可扩展性。

发明内容

本发明为了解决上述问题，本发明提供面向视频的目标片段定位方法、系统、存储介质及设备，通过构造哈希空间进行检索，并将不同模态的特征提取和哈希编码过程分开进行，从而大大提高检索速度、并实现可扩展性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供面向视频的目标片段定位方法，其包括：

获取视频和查询，并分别进行特征提取，得到视频特征和查询特征；

分别对视频特征和查询特征进行编码，得到编码后视频特征和编码后查询特征后，计算查询和视频之间的相似度，得到视频级别分数；

对于编码后视频特征，使用时序卷积学习视频帧之间的时序关系后，生成若干候选片段，并得到每个候选片段的细粒度特征；同时，基于编码后查询特征，获取查询的细粒度特征；

基于候选片段的细粒度特征和查询的细粒度特征，通过构造哈希空间，计算查询和候选片段之间的相似度，得到片段级别分数；

对于每个查询，基于视频级别分数和片段级别分数，在所有视频的候选片段中筛选出目标片段。

进一步地，对于某个视频，提取外观特征和动作特征后，对外观特征和动作特征均进行池化，得到片段级特征；通过连接外观特征的片段级特征和动作特征的片段级特征，并进行归一化，得到的每个视频片段的特征；所有视频片段的特征构成所述视频的视频特征。

进一步地，对于某个查询，提取出上下文文本特征，并对查询语句进行微调后，将提取的上下文文本特征降维，并添加位置编码，得到查询特征。

进一步地，所述视频级别分数的计算方法为：对于某个视频和某个查询，基于编码后查询特征，计算查询中的每个查询单词相对于视频的注意力分数；基于注意力分数，对查询中的每个查询单词的编码后查询特征进行加权求和，生成模块化查询向量；基于编码后视频特征和模块化查询向量，通过余弦相似度计算，得到该查询和该视频之间的视频级别分数。

进一步地，对于编码后查询特征，利用多层感知机来获取查询的细粒度特征。

进一步地，所述片段级别分数的计算方法为：对于某个候选片段和某个查询，使用逐元素符号函数分别作用于候选片段的细粒度特征和查询的细粒度特征，得到候选片段的二值哈希码和查询的二值哈希码；基于候选片段的二值哈希码和查询的二值哈希码，通过海明距离计算，得到该查询和该候选片段之间的片段级别分数。

进一步地，所述目标片段的筛选步骤包括：使用超参数来调节视频级别分数及片段级别分数，得到综合分数；基于综合分数的排序，在所有视频的候选片段中选择出目标片段。

本发明的第二个方面提供一种基于第一方面所述的生物序列分析系统的生物序列分析系统，其包括：

特征提取模块，其被配置为：获取视频和查询，并分别进行特征提取，得到视频特征和查询特征；

粗粒度特征提取模块，其被配置为：分别对视频特征和查询特征进行编码，得到编码后视频特征和编码后查询特征后，计算查询和视频之间的相似度，得到视频级别分数；

细粒度特征提取模块，其被配置为：对于编码后视频特征，使用时序卷积学习视频帧之间的时序关系后，生成若干候选片段，并得到每个候选片段的细粒度特征；同时，基于编码后查询特征，获取查询的细粒度特征；

跨模特哈希模块，其被配置为：基于候选片段的细粒度特征和查询的细粒度特征，通过构造哈希空间，计算查询和候选片段之间的相似度，得到片段级别分数；

定位模块，其被配置为：对于每个查询，基于视频级别分数和片段级别分数，在所有视频的候选片段中筛选出目标片段。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的面向视频的目标片段定位方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的面向视频的目标片段定位方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明提供了面向视频的目标片段定位方法，其针对不同的模态（如视频和文本）进行独立处理，将不同模态的特征提取和哈希编码过程分开进行，从而实现可扩展性，在面对大规模数据时，可以更好地应对多种数据类型和数据来源。

本发明提供了面向视频的目标片段定位方法，其采用哈希码表示目标片段，通过计算哈希码之间的相似度进行检索，相比传统的基于特征向量的相似度计算方法，基于哈希码的相似度计算更加高效，大大提高检索速度。

本发明提供了面向视频的目标片段定位方法，其在大规模数据下，能够实现快速检索和准确定位目标片段，具有广泛的应用前景。

附图说明

构成本发明的一部分说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的限定。

图1为本发明的实施例一的面向视频的目标片段定位方法的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合下面结合附图与实施例对本发明作进一步说明。

术语解释：

深度跨模态哈希技术：将视频、音频等多媒体数据转换为哈希码，通过比较哈希码来实现视频检索。深度跨模态哈希技术可以将跨模态数据转换为二进制编码，使得跨模态数据可以被快速地检索和匹配。深度跨模态哈希技术可以用于对视频中的目标物体进行快速检索和匹配，其优势包括以下几个方面：高效性，深度跨模态哈希技术可以将跨模态数据转换为二进制编码，使得检索和匹配变得非常高效；可扩展性，深度跨模态哈希技术可以处理大规模数据集，并且可以实现对不同模态数据的独立处理和快速检索；稳健性，深度跨模态哈希技术可以处理不同类型的跨模态数据，包括图像、音频、视频等；隐私保护，深度跨模态哈希技术可以将跨模态数据转换为不可逆的二进制编码，保护用户的隐私。

ResNet：深度残差网络（Deep residual network），常见的ResNet有ResNet18、ResNet34、ResNet50、ResNet101、ResNet152这几种结构。

RoBERTa:强力优化的BERT（Robustly Optimized BERT），BERT的全称为Bidirectional Encoder Representation from Transformers，是预训练的语言表征模型。

实施例一

本实施例一的目的是提供面向视频的目标片段定位方法。

本实施例一提供的面向视频的目标片段定位方法，适用于大规模视频语料库。

本实施例提供的面向视频的目标片段定位方法，以包含视频帧的被检索模态，自然语句查询语句的检索模态为例，也可以自然地扩展到其他类型的模态数据中。

本实施例提供的面向视频的目标片段定位方法，如图1所示，包括以下步骤：

第一步，获取训练集或测试集，对训练集或测试集中的视频和查询，分别使用特征提取模块提取视频特征和查询特征。

其中，查询为自然语句。

对于视频，首先使用预训练的ResNet152模型提取外观特征；然后，使用预训练的双流膨胀3D卷积网络（I3D）模型提取动作特征；然后，对外观特征和动作特征，均通过每1.5秒进行池化，得到片段级特征；最后，通过连接外观特征的片段级特征和动作特征的片段级特征，并进行归一化，得到的每个视频片段的特征；视频v的所有视频片段的特征构成视频v的视频特征。

对于查询，首先使用预训练的RoBERTa模型提取上下文文本特征；然后，使用屏蔽语言模型(MLM)目标对查询语句进行微调后，使用线性层与激活函数ReLU将提取的上下文文本特征投影到低维空间中（即降维），并添加位置编码，得到第q个查询的查询特征。

第二步，将视频特征和查询特征输入粗粒度特征提取模块，分别使用基于自注意力的模型对视频特征和查询特征进行处理，获得视频级别分数和视频级别损失。具体包括以下步骤：

步骤201、对视频特征和查询特征分别使用自注意力编码器进行编码，得到编码后视频特征（单模态上下文特征）和编码后查询特征/>。

其中，自注意力编码器是一个常用结构，在Transformer（利用注意力来提高模型训练速度的模型）、BERT等模型中均有使用。自注意力编码器的结构包括：输入嵌入层、多头自注意力层、前馈神经网络层和输出嵌入层，并使用残差连接和层归一化来提升结构性能。

步骤202、基于编码后查询特征，应用可训练的模块化权重向量，计算每个查询单词相对于视频的注意力分数：

其中，指示查询语句中的查询单词，/>表示第q个查询语句长度，/>表示第q个查询中的第t个查询单词相对于视频v的注意力分数，/>表示用于学习注意力的权重向量，/>表示第q个查询中的第t个查询单词的编码后查询特征。

步骤203、基于注意力分数，对查询中的每个查询单词的编码后查询特征进行加权求和，生成模块化查询向量：

其中，表示一个查询对于视频v的模块化查询向量。

步骤204、基于编码后视频特征（单模态上下文特征）和一个查询对于视频v的模块化查询向量，通过计算每个查询和视频v之间的余弦相似度，得到每个查询和视频v之间的视频级别分数：

即，使用可训练的注意力机制计算模块化查询向量和单模态上下文特征之间的注意力得分的加权和，通过对加权和进行归一化来获得最终的视频级别分数。

进而，在训练阶段，能够得到由视频-查询正对及负对构造的视频级别分数矩阵：

其中，I代表训练集中视频的个数，J代表训练集中查询的个数,表示训练集中第i个视频与第j个查询之间的视频级别分数；i=1,2,…,I；j=1,2,…,J；训练集中视频和查询是成对出现的，所以I=J。

基于视频级别分数矩阵，通过铰链损失来构造视频级别损失函数：

其中，n表示的是训练集中样本个数（即训练集中视频和查询的对数），m表示margin，即为损失设置的边缘数。

第三步，将编码后查询特征和编码后视频特征/>输入细粒度特征提取模块；细粒度特征提取模块对编码后视频特征/>使用时序卷积学习视频帧之间的时序关系，并使用一维卷积生成若干视频候选片段；细粒度特征提取模块对编码后查询特征/>使用多层感知机MLP进行处理。具体包括以下步骤：

步骤301、从编码后视频特征中生成包含不同长度的候选片段集合/>并学习它们的表示。

细粒度特征提取模块包括视频的时序上下文建模和片段生成与表示两部分。

在时序上下文建模部分，为了完美地捕捉相对较长的视频的长期语义依赖，使用一种双向的时序卷积网络，从前后上下文信息中捕获每个视频片段的长期上下文依赖关系，来有效增强上下文表示。

在片段生成与表示部分，对获得的特征进行不同核大小的一维卷积运算，得到候选片段集合/>：

其中，表示卷积核大小，/>表示卷积核中/>位置的权重，/>为偏置，/>表示取出/>中第/>个时间步的所有帧的特征向量，即/>在时间维度上的一个滑动窗口，/>表示生成的第/>个候选片段的特征表示，N表示生成的候选片段的个数，t指示卷积目标，i指示卷积核位置。

将候选片段的特征表示放入多层感知机，获得候选片段的细粒度特征/>。

步骤303、基于编码后查询特征，利用三层的多层感知机来获取查询的细粒度特征/>。

第四步，将得到的候选片段的细粒度特征和查询的细粒度特征输入跨模态哈希模块，通过构造哈希空间进行视频模态和文本模态间相似度的计算，获得片段级别分数和片段级损失。具体包括以下步骤：

步骤401、使用逐元素符号函数作用于生成的/>，可以得到候选片段的二值哈希码：

步骤402、将逐元素符号函数作用于查询的细粒度特征，可以获得查询语句的二值哈希码：

步骤403、利用海明距离来计算候选片段与查询语句之间的相似性，得到片段级别分数：

其中，表示哈希码的长度，候选片段和查询语句的哈希码长度相同，均为L；表示/>和/>逐元素相乘。

在训练阶段，为确保哈希空间中的每个片段-查询对保持原始实值特征空间中的内在相似性，构造了基于语义相似性保持的损失函数：

其中，表示第i个查询的细粒度特征，/>表示第i个视频的所有候选片段的细粒度特征，/>表示范数计算，/>是哈希码的长度，n表示的是训练集中样本个数；/>是跨模态相似度矩阵，/>中的每个元素为一个生成的视频候选片段与真实标签之间的时序交集并集比。基于语义相似性保持的损失函数是为了确保哈希空间中的相似性与原始空间中的相似性一致。

为了确保获取最优的连续哈希码，通过单正则化二进制哈希码的差异性构造损失函数：

其中，F表示Frobenius norm（欧几里得范数），表示第i个查询语句的二值哈希码，/>表示第i个候选片段的二值哈希码。

由此，得到片段级别损失函数：

其中，是用于平衡两个片段级别损失的超参数。

在训练阶段，最终损失由视频级别损失和片段级别损失共同构成：

其中，是用于平衡视频级别损失和片段级别损失的超参数。

第五步，训练阶段结合视频级损失和片段级损失，对目标片段定位模型进行优化；测试阶段使用训练好的目标片段定位模型，对于每个查询，基于视频级别分数和片段级别分数，计算综合分数，并将综合分数由大到小进行排序，得到候选片段的综合分数排序，在所有视频的候选片段中筛选出目标片段，即将综合分数排序最靠前的候选片段作为目标片段。

其中，目标片段定位模型包括特征提取模块、粗粒度特征提取模块、细粒度特征提取模块、跨模态哈希模块。

在测试阶段，综合考虑视频级别分数和片段级别分数，并使用超参数来调节视频级别分数及片段级别分数，得到综合分数：

其中，表示第j个视频，/>表示第m个候选片段，/>表示第k个查询,/>表示第k个查询与第j个视频中的第m个候选片段之间的综合分数，/>表示第k个查询与第j个视频之间的视频级别分数，/>表示第k个查询与第j个视频中的第m个候选片段之间的片段级别分数。

本实施例提供的面向视频的目标片段定位方法，由两个阶段组成，分别是视频级别的检索阶段和片段级别的检索阶段组成。其中，视频级别的检索阶段包括对视频帧自然语言查询语句模态的特征提取模块及粗粒度特征提取模块；片段级别的检索阶段则包括细粒度特征提取模块和跨模态哈希模块。在特征提取模块，分别应用预训练的I3D网络和ResNet152网络来对视频特征进行提取，使用预训练的RoBERTa模型对查询语句进行特征提取。在粗粒度特征提取模块，使用基于自注意力机制的模型和多层感知机模型来获得模态内部的交互，并由此得到视频级别分数。在细粒度特征提取模块，应用时序卷积网络和多层感知机模型获得细致的模态交互表示（细粒度特征）。最后，在跨模态哈希模块中，利用学习好的细粒度特征来构建跨模态哈希空间，从而计算被检索模态和检索模态之间的相似度（片段级别分数）。同时，分别利用视频级别分数和片段级别分数来进行损失函数的构建。

本实施例提供的面向视频的目标片段定位方法，采用哈希码表示目标片段，通过计算哈希码之间的相似度进行检索，相比传统的基于特征向量的相似度计算方法，基于哈希码的相似度计算更加高效，大大提高检索速度。

本实施例提供的面向视频的目标片段定位方法，针对不同的模态（如视频和文本）进行独立处理，将不同模态的特征提取和哈希编码过程分开进行，从而实现可扩展性。在面对大规模数据时，可以更好地应对多种数据类型和数据来源。

本实施例提供的面向视频的目标片段定位方法，在大规模数据下，能够实现快速检索和准确定位目标片段，具有广泛的应用前景。

实施例二

本实施例二的目的是提供面向视频的目标片段定位系统，

粗粒度特征提取模块，其被配置为：分别对视频特征和查询特征进行编码，得到编码后视频特征和编码后查询特征后，计算查询和视频之间的相似度，得到视频级别分数，并得到视频级别损失；

跨模特哈希模块，其被配置为：基于候选片段的细粒度特征和查询的细粒度特征，通过构造哈希空间，计算查询和候选片段之间的相似度，得到片段级别分数，并得到片段级损失；

训练模块，其被配置为：结合视频级损失和片段级损失，对目标片段定位模型进行优化。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的面向视频的目标片段定位方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的面向视频的目标片段定位方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.面向视频的目标片段定位方法，其特征在于，包括：

对于每个查询，基于视频级别分数和片段级别分数，在所有视频的候选片段中筛选出目标片段；

对于某个视频，提取外观特征和动作特征后，对外观特征和动作特征均进行池化，得到片段级特征；通过连接外观特征的片段级特征和动作特征的片段级特征，并进行归一化，得到的每个视频片段的特征；所有视频片段的特征构成所述视频的视频特征。

2.如权利要求1所述的面向视频的目标片段定位方法，其特征在于，对于某个查询，提取出上下文文本特征，并对查询语句进行微调后，将提取的上下文文本特征降维，并添加位置编码，得到查询特征。

3.如权利要求1所述的面向视频的目标片段定位方法，其特征在于，所述视频级别分数的计算方法为：对于某个视频和某个查询，基于编码后查询特征，计算查询中的每个查询单词相对于视频的注意力分数；基于注意力分数，对查询中的每个查询单词的编码后查询特征进行加权求和，生成模块化查询向量；基于编码后视频特征和模块化查询向量，通过余弦相似度计算，得到该查询和该视频之间的视频级别分数。

4.如权利要求1所述的面向视频的目标片段定位方法，其特征在于，对于编码后查询特征，利用多层感知机来获取查询的细粒度特征。

5.如权利要求1所述的面向视频的目标片段定位方法，其特征在于，所述片段级别分数的计算方法为：对于某个候选片段和某个查询，使用逐元素符号函数分别作用于候选片段的细粒度特征和查询的细粒度特征，得到候选片段的二值哈希码和查询的二值哈希码；基于候选片段的二值哈希码和查询的二值哈希码，通过海明距离计算，得到该查询和该候选片段之间的片段级别分数。

6.如权利要求1所述的面向视频的目标片段定位方法，其特征在于，所述目标片段的筛选步骤包括：使用超参数来调节视频级别分数及片段级别分数，得到综合分数；基于综合分数的排序，在所有视频的候选片段中选择出目标片段。

7.面向视频的目标片段定位系统，其特征在于，包括：

定位模块，其被配置为：对于每个查询，基于视频级别分数和片段级别分数，在所有视频的候选片段中筛选出目标片段；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6中任一项所述的面向视频的目标片段定位方法中的步骤。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6中任一项所述的面向视频的目标片段定位方法中的步骤。