CN116226443B

CN116226443B - 基于大规模视频语料库的弱监督视频片段定位方法及系统

Info

Publication number: CN116226443B
Application number: CN202310523581.6A
Authority: CN
Inventors: 聂秀山; 谭智方; 刘新锋; 张立伟
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-21
Anticipated expiration: 2043-05-11
Also published as: CN116226443A

Abstract

本发明涉及视频数据识别技术领域，提出了一种基于大规模视频语料库的弱监督视频片段定位方法及系统，方法包括如下步骤：针对获取的训练数据集，采用自监督学习提取文本与视频间共同的语义信息，基于语义信息得到融合语义视频特征；针对融合语义视频特征以及对应的文本特征，采用弱监督方法的进行多尺度对比学习，确定视频特征与文本特征的空间映射关系并映射至度量空间中，得到训练后的度量空间；获取查询语句，在训练后的度量空间中搜索与查询语句相似的文本特征，将相似度最高的文本特征所对应的视频片段作为视频定位结果。本发明的定位方法能够实现从大规模视频数据库中直接准确快速的定位视频片段。

Description

基于大规模视频语料库的弱监督视频片段定位方法及系统

技术领域

本发明涉及视频数据识别相关技术领域，具体的说，是涉及一种基于大规模视频语料库的弱监督视频片段定位方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，并不必然构成在先技术。

基于大规模视频语料库的视频片段定位是指在拥有大量视频的数据中，可以依据一条查询语言定位相关的视频片段的技术。如今，很多情况下会使用到视频片段定位技术，例如安防领域，需要对长视频其中的一个视频片段进行定位，以快速搜索到目标片段。这项技术需要人为找到需要定位的长视频，然后使用查询语句进行定位。当视频数据库中含有大量的长视频时，人为的找到这段长视频是非常费力的。

发明人在研究中发现，现有的视频片段定位方法，大多数为监督方法的视频语料库的视频片段定位。少数采用弱监督方法是利用度量学习来实现的，通过训练模型学习一个视频与查询的联合特征空间，在联合特征空间中度量视频与查询之间的距离；现有的视频片段定位方法存在以下问题：一方面，用于训练视频片段定位任务的数据集需要对定位的真实时刻进行标注，工作量非常大。另一方面，在大规模视频语料库的视频片段定位问题上，现有方法定位精度不高、并且存在定位效率低的问题。

发明内容

本发明为了解决上述问题，提出了一种基于大规模视频语料库的弱监督视频片段定位方法及系统，能够实现从大规模视频数据库中直接准确快速的定位视频片段。

为了实现上述目的，本发明采用如下技术方案：

一个或多个实施例提供了一种基于大规模视频语料库的弱监督视频片段定位方法，包括如下步骤：

针对获取的训练数据集，采用自监督学习提取文本与视频间共同的语义信息，基于语义信息得到融合语义视频特征；

针对融合语义视频特征以及对应的文本特征，采用弱监督方法的进行多尺度对比学习，确定视频特征与文本特征的空间映射关系并映射至度量空间中，得到训练后的度量空间；

获取查询语句，在训练后的度量空间中搜索与查询语句相似的文本特征，将相似度最高的文本特征所对应的视频片段作为视频定位结果。

一个或多个实施例提供了一种基于大规模视频语料库的弱监督视频片段定位系统，包括：

共同语义感知模块：被配置为用于针对获取的训练数据集，采用自监督学习提取文本与视频间共同的语义信息，基于语义信息得到融合语义视频特征；

视频特征与文本特征的空间映射模块：被配置为用于针对融合语义视频特征以及对应的文本特征，采用弱监督方法的进行多尺度对比学习，确定视频特征与文本特征的空间映射关系并映射至度量空间中，得到训练后的度量空间；

匹配模块：被配置为用于获取查询语句，在度量空间中搜索与查询语句相似的文本特征，基于文本特征在训练后的度量空间中查询与文本特征相似度最高的视频片段，为视频定位结果。

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

与现有技术相比，本发明的有益效果为：

（1）本发明采用弱监督的方法，并不依赖数据集的标签，任何含有标题的视频数据都可以作为本方法的训练数据，大大减少了数据集的标注成本。

（2）对训练数据采用自监督学习的方式，提取文本与视频间共同的语义信息，获得了更良好的表征信息，将文本模态与视频模态对同一种事物的特征表达更相似，从而能够提高视频定位的准确性。

（3）定位过程中，优先搜索与新查询语句相似的文本特征，而不是直接用新的查询语句特征计算与视频特征在度量空间中的距离，可以减少计算量，大大提高了视频定位效率。

本发明的视频定位方法可以嵌入到任何视觉平台中，如视频娱乐、视频监控、无人驾驶等，可以大大提高用户体验。

本发明的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的限定。

图1是本发明实施例1的模态间共同语义感知信息识别方法流程图；

图2是本发明实施例1的视频特征与文本特征的空间映射方法流程示意图；

图3是本发明实施例1的多尺度对比学习中片段级学习方法流程示意图；

图4是本发明实施例1的多尺度对比学习中视频级学习方法流程示意图；

图5是本发明实施例1的视频片段定位方法整体流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本发明中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。

实施例1

在一个或多个实施方式公开的技术方案中，如图1至图5所示，一种基于大规模视频语料库的弱监督视频片段定位方法，包括如下步骤：

步骤1、针对获取的训练数据集，采用自监督学习提取文本与视频间共同的语义信息，基于语义信息得到融合语义视频特征；

步骤2、针对融合语义视频特征以及对应的文本特征，采用弱监督方法的进行多尺度对比学习，确定视频特征与文本特征的空间映射关系并映射至度量空间中，得到训练后的度量空间；

步骤3、获取查询语句，在训练后的度量空间中搜索与查询语句相似的文本特征，将相似度最高的文本特征所对应的视频片段作为视频定位结果。

本实施例采用弱监督的方法，并不依赖数据集的标签，任何含有标题的视频数据都可以作为本方法的训练数据，大大减少了数据集的标注成本。对训练数据采用自监督学习的方式，提取文本与视频间共同的语义信息，获得了更良好的表征信息，将文本模态与视频模态对同一种事物的特征表达更相似，从而能够提高视频定位的准确性；定位过程中，优先搜索与新查询语句相似的文本特征，而不是直接用新的查询语句特征计算与视频特征在度量空间中的距离，可以减少计算量，大大提高了视频定位效率。

步骤1中，训练数据集包括历史查询语句与对应的视频数据；查询语句进行特征提取后得到文本特征。

步骤1用于感知查询与视频两个模态间的共同语义信息，举例说明：查询中桌子与视频中的桌子具有相同的语义信息，那么查询中桌子的特征表示应该与视频中桌子的特征表示相近。

在一些实施例中，采用自监督学习提取文本与视频间共同的语义信息，基于语义信息得到融合语义视频特征的方法，如图1所示，包括如下步骤：

步骤11、可以采用主干网络对视频数据与查询语句进行特征提取，分别得到视频特征和文本特征；

步骤12、将得到的视频特征和文本特征（即为查询语句的特征）进行融合；

可选的，融合方法为将视频特征和文本特征进行加和与点乘之后，再进行拼接。

步骤13、将融合后的特征进行卷积操作；

本步骤中，卷积操作能够对特征数据进行降维，以获取更多的细节信息。

步骤14、利用卷积之后得到的视频特征，对文本特征进行预测，将原本的文本特征作为监督信息进行自监督训练；

步骤15、根据预测的文本特征与监督信息，计算重构损失，对于重构损失低于设定值的视频片段赋予更大的权重值，该权重值为重构奖励；

步骤16、将重构奖励加权到卷积之后得到的视频特征上，得到融合语义视频特征。

本实施例采用自监督学习，利用融合文本语义信息的视频特征对文本特征重新预测，能够获取更准确的文本-视频共同语义信息，使得文本模态与视频模态对同一种事物的特征表达更相似，从而在视频定位过程中，通过文本模态的特征能够更加准确找到对应的视频片段，提高视频定位的准确性。

步骤2中为联合度量学习步骤，联合度量空间学习旨在学习一个度量空间，将所有的视频片段以及查询文本放入度量空间中，依据空间中的相似度评估查询对应的视频片段。

在度量空间中实现高级视频特征与文本特征的空间映射，这一部分示意图如图2所示，先将步骤1中，得到的融合语义视频特征馈入GRU（长短期记忆网络）中，以此获取视频的时序信息。文本特征与高级视频特征在每一次训练结果映射至度量空间中，通过数次学习之后，文本与匹配度高的视频片段的距离拉近，与匹配度低的视频片段变远；不同的查询对（即不同的文本-视频）在空间中的距离变远。其中，文本与该文本匹配度高的视频片段组成一个查询对。

本实施例中，通过多尺度的对比学习可以得到更优秀的映射空间，多尺度对比学习包括：片段级的学习以及视频级的学习；片段级的学习是将查询文本与相似的视频片段的距离拉近，将查询文本不相似的视频片段推远；视频级的学习是将查询语句对应的视频与其他的视频距离推远。

本实施例中，对视频的学习分成了片段级和视频级，片段级是对视频中细节特征的学习，视频级是对整个视频学习。举例来说就是视频级的学习可以学到这个视频是体育视频或者是汽车视频，而片段级的特征是学习视频中是跳高还是举重。这两个尺度的学习是可以单独进行的。

本实施例中多尺度对比学习实现弱监督学习的关键，通过多尺度对比学习实现对度量空间的训练。

片段级学习是为了让文本特征与对应的视频片段的匹配度得分更高，片段级学习的方法包括如下步骤：

步骤21、将融合语义视频特征馈入GRU（长短期记忆网络）中，获取视频的时序信息，将获取的时序信息添加至融合语义视频特征中，得到高级视频特征；

步骤22、将文本特征与每个高级视频片段特征计算的匹配度得分放入定位器中，将得分高于设定值的开始和结束时间对应的视频片段进行标记作为正样本，未标记的视频作为负样本；

其中，定位器可以采用多层感知机融合归一化指数函数，即为MLP+softmax。通过归一化函数的输出每个文本片段-查询对的置信度得分。

归一化函数softmax的计算公式如下：

其中，p为置信度得分，为第i个片段的多层感知机的输出值，k表示共有k个片段。

针对文本特征与每个高级视频片段特征计算匹配度的方法，具体如下：

可以采用Tanh函数计算特征之间的匹配度，即匹配度由如下公式计算得到：

其中，表示时间步，/>表示高级视频片段特征，/>表示文本特征。

步骤23、设置对抗生成网络（GAN网络），生成与进行片段级学习的原视频类似的视频片段特征，这些生成的视频片段特征作为负样本；

一个具体的示例，视频A包含n个片段、/>…/>，依据查询语句B定位到视频A其中的片段/>，在训练GAN网络时需要输入视频A和查询B。这里GAN网络负责生成与视频A相似的片段特征，此处“原视频”就是指视频A，即通过GAN网络生成与训练视频（“原视频”）类似的视频片段级特征。

可选的，采用对抗生成网络（GAN网络）生成的负样本数量可以设置，如数量N被设置为100，即可以额外生成100个视频片段特征信息。

步骤24、基于识别的片段级正样本和负样本，通过余弦相似度量化样本之间的相似性；通过最小化损失函数以使得两个正样本之间相似的概率最大化，得到损失函数；

片段级对比学习的所有正样本和负样本都为片段级的样本，即一个样本为一个视频片段。

样本A与样本B之间的相似性定义为：

对正样本之间相似的概率进行计算，其中一个正样本对（的概率计算公式为：

其中，为正样本，N为全部样本个数，N中包括负样本。正对为（正样本，正样本），负对为（正样本，负样本），/>为自然对数的底数，是数学中一个常数，是一个无限不循环小数，且为超越数，约为2.71828。

通过最小化损失函数使得两个正样本之间相似的概率最大化，可以采用对数损失即：

通过上述方式进行对比学习，得到一个正样本之间更为相近的度量空间；

步骤25、得到损失函数之后，通过随机梯度下降算法，对片段级损失函数进行优化，优化至损失函数收敛，即可停止优化，约1000次迭代，得到片段级优化后的度量空间；

损失收敛是指：随着模型的训练，模型的损失函数的值逐渐减小，直至趋近于稳定状态。

在另一些实施例中，片段级对比学习的损失还可以采用合页损失（hinge loss）。

片段级学习和视频级学习都是训练过程，这两个是并行的，最终得到的结果是训练完成的模型。

视频级对比学习与片段级对比学习几乎完全相同，唯一区别是样本的不同，视频级的对比学习样本为一整个视频，片段级的样本为一个视频片段。

视频级学习是为了排除其他不相关的视频特征的干扰，视频级学习方法，包括如下步骤：

步骤2-1、将进行视频级学习的输入视频作为视频级对比学习的正样本，随机选择多个其他视频样本作为负样本；

可选的，负样本可以选择为随机的其他100个视频样本。

步骤2-2、基于识别的视频级正样本和负样本；通过余弦相似度量化样本之间的相似性；通过最小化损失函数使得两个正样本之间相似的概率最大化，得到损失函数；

步骤2-2中视频级正样本和负样本中的一个样本为整个视频。

通过余弦相似度量化视频级样本之间的相似性，即视频级样本A与视频级样本B之间的相似性定义为：

其中，为正样本，N为全部样本个数，N中包括负样本。正对为（正样本，正样本），负对为（正样本，负样本）。

通过最小化损失函数以使得最大化两个正样本之间相似的概率，可以采用对数损失即：

通过上述方式进行对比学习，得到一个不同视频间距离更远的度量空间；

步骤2-3、得到损失函数之后，通过随机梯度下降算法，对视频级损失函数进行优化。当优化至损失函数收敛后停止，约1000次迭代后损失即可收敛。

步骤2-4、通过优化损失函数，得到视频级优化后的度量空间；

在另一些实施例中，片段级对比学习的损失还可以采用合页损失（hinge loss）；

本实施例中，借助对比学习实现了弱监督训练的过程，并且创造性利用GAN网络生成了相似视频片段特征，增加了对比学习需要的负样本数据。

步骤3中，获取查询语句，在训练后的度量空间中搜索与查询语句相似的文本特征，将相似度最高的文本特征所对应的视频片段作为视频定位结果。

其中，在度量空间中搜索与查询语句相似的文本特征，通过哈希二值码实现，具体步骤如下：

步骤31、将度量空间中的文本特征通过哈希映射函数转换为哈希二值码，将哈希二值码作为文本-视频查询对的查询索引；

步骤32、将获取的查询语句优先与设定数量M的哈希二值码进行匹配，其中，M可以设置为10；

步骤33、匹配度最高的哈希二值码对应的视频片段，即为视频片段定位。定位到的视频片段的开始时间和结束时间即为输出的时间戳信息。

本实施例中，将文本哈希码作为文本-视频对的索引，优先搜索与新查询语句相似的文本特征，而不是直接用新的查询语句特征计算与视频特征在度量空间中的距离，提高了查询效率，可以减少计算量，约提速10倍左右，时间复杂度降低90%。

本实施例中，考虑到定位速度问题，采取了文本哈希码作为文本-视频整体索引的策略，有效节省了计算量，大大增加了定位速度。

实施例2

基于实施例1，本实施例中提供一种基于大规模视频语料库的弱监督视频片段定位系统，包括：

此处需要说明的是，本实施例中的各个模块与实施例1中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例3

本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步骤。

实施例4

本实施例提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1的方法所述的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大规模视频语料库的弱监督视频片段定位方法，其特征在于，包括如下步骤：

具体步骤为：可以采用主干网络对视频数据与查询语句进行特征提取，分别得到视频特征和文本特征；

将得到的视频特征和文本特征，即为查询语句的特征，进行融合；

融合方法为将视频特征和文本特征进行加和与点乘之后，再进行拼接；

将融合后的特征进行卷积操作；

卷积操作能够对特征数据进行降维，以获取更多的细节信息；

利用卷积之后得到的视频特征，对文本特征进行预测，将原本的文本特征作为监督信息进行自监督训练；

根据预测的文本特征与监督信息，计算重构损失，对于重构损失低于设定值的视频片段赋予更大的权重值，该权重值为重构奖励；

将重构奖励加权到卷积之后得到的视频特征上，得到融合语义视频特征；

具体为：多尺度对比学习包括：片段级的学习以及视频级的学习；片段级的学习是将查询文本与相似的视频片段的距离拉近，将查询文本不相似的视频片段推远；视频级的学习是将查询语句对应的视频与其他的视频距离推远；

对视频的学习分成了片段级和视频级，片段级是对视频中细节特征的学习，视频级是对整个视频学习；这两个尺度的学习是可以单独进行的；

多尺度对比学习实现弱监督学习的关键，通过多尺度对比学习实现对度量空间的训练；

将融合语义视频特征馈入GRU长短期记忆网络中，获取视频的时序信息，将获取的时序信息添加至融合语义视频特征中，得到高级视频特征；

将文本特征与每个高级视频片段特征计算的匹配度得分放入定位器中，将得分高于设定值的开始和结束时间对应的视频片段进行标记作为正样本，未标记的视频作为负样本；

其中，定位器可以采用多层感知机融合归一化指数函数，即为MLP+softmax；通过归一化函数的输出每个文本片段-查询对的置信度得分；

归一化函数softmax的计算公式如下：

其中，p为置信度得分，为第i个片段的多层感知机的输出值，k表示共有k个片段；

采用Tanh函数计算特征之间的匹配度，即匹配度由如下公式计算得到：

其中，表示时间步，/>表示高级视频片段特征，/>表示文本特征；

设置对抗生成网络GAN网络，生成与进行片段级学习的原视频类似的视频片段特征，这些生成的视频片段特征作为负样本；

基于识别的片段级正样本和负样本，通过余弦相似度量化样本之间的相似性；通过最小化损失函数以使得两个正样本之间相似的概率最大化，得到损失函数；

片段级对比学习的所有正样本和负样本都为片段级的样本，即一个样本为一个视频片段；

样本A与样本B之间的相似性定义为：

对正样本之间相似的概率进行计算，其中一个正样本对的概率计算公式为：

其中，为正样本，N为全部样本个数，N中包括负样本；正对为正样本、正样本，负对为正样本、负样本，/>为自然对数的底数，是数学中一个常数，是一个无限不循环小数，且为超越数，约为2.71828；

得到损失函数之后，通过随机梯度下降算法，对片段级损失函数进行优化，优化至损失函数收敛，即可停止优化，约1000次迭代，得到片段级优化后的度量空间；

将进行视频级学习的输入视频作为视频级对比学习的正样本，随机选择多个其他视频样本作为负样本；

负样本可以选择为随机的其他100个视频样本；

基于识别的视频级正样本和负样本；通过余弦相似度量化样本之间的相似性；通过最小化损失函数使得两个正样本之间相似的概率最大化，得到损失函数；

视频级正样本和负样本中的一个样本为整个视频；

其中，为正样本，N为全部样本个数，N中包括负样本；正对为正样本、正样本，负对为正样本、负样本；

得到损失函数之后，通过随机梯度下降算法，对视频级损失函数进行优化；当优化至损失函数收敛后停止，约1000次迭代后损失即可收敛；

通过优化损失函数，得到视频级优化后的度量空间；

2.如权利要求1所述的一种基于大规模视频语料库的弱监督视频片段定位方法，其特征在于：将得到的视频特征和文本特征进行融合，融合方法为将视频特征和文本特征进行加和与点乘之后，再进行拼接。

3.如权利要求1所述的一种基于大规模视频语料库的弱监督视频片段定位方法，其特征在于，在度量空间中搜索与查询语句相似的文本特征，通过哈希二值码实现，包括如下步骤：

将度量空间中的文本特征通过哈希映射函数转换为哈希二值码，将哈希二值码作为文本-视频查询对的查询索引；

将获取的查询语句优先与设定数量的哈希二值码进行匹配；

匹配度最高的哈希二值码对应的视频片段为定位结果。

4.一种基于大规模视频语料库的弱监督视频片段定位系统，利用如权利要求1所述的一种基于大规模视频语料库的弱监督视频片段定位方法实现，其特征在于，包括：

5.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-3任一项所述的一种基于大规模视频语料库的弱监督视频片段定位方法的步骤。

6.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-3任一项所述的一种基于大规模视频语料库的弱监督视频片段定位方法的步骤。