CN116069973B

CN116069973B - 一种基于语义自挖掘的视频摘要生成方法

Info

Publication number: CN116069973B
Application number: CN202310353019.3A
Authority: CN
Inventors: 张云佐; 刘亚猛; 张天; 武存宇; 郑宇鑫; 于璞泽; 刘婷; 康伟丽; 朱鹏飞
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-06-06
Anticipated expiration: 2043-04-04
Also published as: CN116069973A

Abstract

本发明公开了一种基于语义自挖掘的视频摘要生成方法。该方法包括：S1，读取视频帧序列，并利用特征提取器提取帧级视觉特征；S2，构建视频摘要生成模型，将所述帧级视觉特征送入所述视频摘要生成模型中生成预测得分向量；S3，构建均方误差损失函数，增加预测得分与人工标注得分之间的一致性，并迭代优化网络参数，训练所述视频摘要生成模型；S4，利用S3训练得到的视频摘要生成模型对输入视频执行上述S1和S2，根据预测得分向量生成关键镜头集合。所提方法可以有效地处理任意时长的视频，并且通过深入挖掘输入视频本身的语义表征使得该方法可以更加准确地定位视频中的关键片段。在基准数据集上的实验结果充分证明了其有效性和先进性。

Description

一种基于语义自挖掘的视频摘要生成方法

技术领域

本发明涉及一种基于语义自挖掘的视频摘要生成方法，属于计算机视觉技术领域。

背景技术

多年来，由各种视频捕获设备获取到的视频数量呈指数级增长。目前，人们在检索视频中感兴趣的内容时，需要完整地观看视频，这对于分析和存储这些海量数据来说既耗时又昂贵。视频摘要是视频理解领域的一项重要而基本的任务，它旨在分析视频中的时空特征后，从完整的视频中挑选关键片段。

受益于深度学习强大的特征表征能力，视频摘要的实现方式已逐渐从依赖于手工特征的传统方法转变为现代方法。这些方法可分为三类，分别为无监督方法、弱监督方法和有监督方法。无监督方法侧重于设计各种标准，弱监督方法重点探索与视频内容的相关信息的作用。与上述两种方法不同，有监督方法利用人工标注来学习有效的特征表示，因此其摘要性能最佳。

视频序列中的上下文信息对于视频摘要任务来说至关重要。当前的大多数方法通常在提取帧级视觉特征后采用聚合机制，例如递归神经网络（RNN），来挖掘上下文信息。例如，Zhang等人将帧级视觉特征输入到长短期记忆网络（LSTM）中以捕捉时间线索。Wei等人提出了一种语义参与网络，该网络通过最小化摘要视频的生成描述句子与原始视频的人类注释文本之间的距离来选择视频镜头。尽管RNN在处理顺序数据方面有着较好的表现，但它存在着梯度消失、梯度爆炸以及时间线索随着序列长度衰减的问题。为了提高模型的理解能力，Zhu等人在短序列和长序列中探索了多尺度注意力。然而，这些现存方法侧重于挖掘隐藏在帧序列中的上下文信息，很少考虑输入视频本身潜在的语义信息，对视频中的关键内容不敏感。因此，亟待一种有效的视频摘要方法来解决上述问题。

发明内容

本发明的目的在于提供一种基于语义自挖掘的视频摘要生成方法，旨在解决由于现有技术很少考虑输入视频本身潜在的语义信息，对视频中的关键内容不敏感的问题。

本发明提供了一种基于语义自挖掘的视频摘要生成方法，所述方法包括下述步骤：

S1，读取视频帧序列，并利用特征提取器提取帧级视觉特征；

S2，构建视频摘要生成模型，将所述帧级视觉特征送入所述视频摘要生成模型中生成预测得分向量，所述视频摘要生成模型包括：

图表征模块，所述图表征模块以所述帧级视觉特征作为输入，该模块通过在节点间建立时序边、视觉相似边和视觉差异边实现节点间充分的消息传递，使所述视频摘要生成模型完整地了解视频的故事线；

语义内容编码模块，所述语义内容编码模块以所述帧级视觉特征作为输入，该模块利用注意力机制从粗略的语义表征出发，动态地将完整的帧级视觉特征序列编码为简洁、信息丰富的精细的语义表征，实现由粗到细的语义感知过程；

信息交互模块，所述信息交互模块以所述图表征模块的输出和所述语义内容编码模块的输出共同作为输入，该模块用于将视频本身潜在的语义信息嵌入至捕获到的时间线索中，进一步提升模型对视频中关键内容的感知能力；

线性回归模块，所述线性回归模块将所述信息交互模块的输出作为输入，该模块利用全连接层将高维特征映射为预测得分向量来表示每帧被选择作为摘要结果的概率；

S3，构建均方误差损失函数，增加预测得分与人工标注得分之间的一致性，并迭代优化网络参数，训练所述视频摘要生成模型；

S4，利用S3训练得到的视频摘要生成模型对输入视频执行上述S1和S2，根据预测得分向量生成关键镜头集合。

优选地，构建所述图表征模块，包括：

将所述帧级视觉特征建模为图模型，其中图节点集由各个特征向量构成，图边集表示特征向量之间的交互关系；

构建用于建模局部时间线索的时序边和用于建模非局部时间线索的视觉相似边和视觉差异边；

在时序边上采用一维卷积运算，在视觉相似边和视觉差异边上采用二维卷积运算进行消息传递，并通过相加的方式输出时间线索。

优选地，所述时序边将图节点按照时间顺序进行连接，所述视觉相似边和所述视觉差异边由K最近邻算法计算得到，将与当前节点视觉上相似和不相似的节点进行连接。

优选地，构建所述语义内容编码模块，包括：

将所述帧级视觉特征沿时间维度进行全局平均池化，得到粗略的语义表征向量；

将所述粗略的语义表征向量作为查询特征，将所述帧级视觉特征作为键特征和值特征，利用多头注意力层实现由粗到细的语义表征编码，得到精细的语义表征向量。

优选地，构建所述信息交互模块，包括：

创建长度为

的瓶颈特征，将所述精细的语义表征沿时间维度进行复制，得到与所述帧级视觉特征长度相等的语义表征序列；

第一信息交互层，所述第一信息交互层将瓶颈特征作为查询特征，时间线索或语义表征序列作为键特征和值特征，利用多头注意力机制输出第一交互特征，并采用逐元素求和的方式得到瓶颈特征与第一交互特征的融合结果，得到中间交互特征；

第二特征交互层，所述第二特征交互层将时间线索或语义表征序列作为查询特征，中间交互特征作为键特征和值特征，利用多头注意力机制输出第二交互特征。

优选地，所述根据预测得分向量生成关键镜头集合，包括：

采用核时序分割算法检测视觉变化点并计算每个镜头内帧级预测得分的均值，得到镜头级预测得分向量；

创建背包问题，采用动态规划算法选择关键镜头得到所述关键镜头集合。

与现有技术相比，本发明至少具备以下有益效果：

1、本发明提供了一种基于语义自挖掘的视频摘要生成方法，该方法将视频建模为图模型，从多角度挖掘帧间依赖关系，有助于充分探索视频中的结构信息；

2、本发明引入了跨模态交互的思想，通过语义内容编码器将完整的视频序列编码为语义表征来表示输入视频中重要的语义信息，并通过信息交互将时间线索与语义信息进行融合，从而提升了网络对视频中关键内容的感知能力；

3、本发明在两个基准数据集SumMe和TVSum上进行了实验验证。实验结果表明，所提方法可以生成具有代表性的摘要结果，显著地提升了视频浏览的效率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的基于语义自挖掘的视频摘要生成方法的实现流程图；

图2为本发明实施例提供的基于语义自挖掘的视频摘要生成方法的整体框架图；

图3为本发明实施例提供的图表征模块的示意图；

图4为本发明实施例提供的语义内容编码模块的示意图；

图5为本发明实施例提供的信息交互层的示意图；

图6为本发明实施例提供的一个本发明生成的视频摘要结果；

图7为本发明实施例提供的一个本发明生成的预测得分曲线和人工标注得分曲线结果。

实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，为本发明提供的基于语义自挖掘的视频摘要生成方法的实现流程图。本实施例提供了一种基于语义自挖掘的视频摘要生成方法，包括如下步骤：

S2，构建视频摘要生成模型，将所述帧级视觉特征送入所述视频摘要生成模型中生成预测得分向量；

实施例一：

本发明提供了一个优选实施例执行S1，读取视频帧序列，并利用特征提取器提取帧级视觉特征。

本发明可以处理任意时长的视频，也可以处理任意类型的视频，例如监控、电影等。具体步骤如下：

给定一个视频

，首先以2FPS的采样速率对视频序列进行下采样，得到视频帧序列/>

，其中/>

表示第/>

个视频帧，/>

表示视频帧总数量。接着，利用在ImageNet数据集上预训练的GoogLeNet网络作为特征编码器为每一帧提取视觉特征，取GoogLeNet网络的pool5层的输出作为每一帧的特征表示，记为/>

，其中/>

表示第/>

个视频帧的特征向量，用来表征帧内的视觉内容。

实施例二：

本发明提供了一个实施例执行S2，构建视频摘要生成模型，将所述帧级视觉特征送入所述视频摘要生成模型中生成预测得分向量。

如图2所示，为本实施例网络模型的整体框架图。该网络包含4个部分：图表征模块、语义内容编码模块、信息交互模块和线性回归模块。下面将分别阐述各个模块的具体构建步骤：

S21，构建图表征模块，其示意图如图3所示。具体来说，该模块将帧级视觉特征序列视为一个图模型，从数学上表示为

，其中/>

表示图模型中的节点集合，每一个特征向量被视为一个图节点。/>

为图模型中的边集，它可以用来表征图节点间的交互关系。将视频建模为图模型可以通过在节点间进行关系推理从而充分挖掘视频当中的结构信息，从而充分地理解视频内容。本发明中设计了三种不同类型的边集，包括时序边、视觉相似边和视觉差异边。三种边的具体实现方式如下：

S211，搭建时序边。该边按照视频播放的时间顺序将视觉特征向量进行连接。例如第一帧

后连接第二帧/>

，第二帧/>

后连接第三帧/>

，以此类推，直至第/>

帧/>

后连接第/>

帧/>

，然后采用一维卷积逐步聚合帧序列中的局部时间线索。该过程可用公式表示为：

，

其中，

表示图表征模块沿时序边聚合得到的局部时间线索，它可以帮助所提方法挖掘特征序列中的细粒度信息，/>

表示一维卷积运算。

S212，搭建视觉相似边。对于每个节点，根据K最近邻算法（KNN，K-NearestNeighbor）计算与当前节点的欧式距离矩阵，再根据Top-k算法得到与当前节点特征的欧式距离最小的3个节点的特征，并在当前节点与得到的3个特征对应的图节点间建立连接边，即为视觉相似边。通过视觉相似边进行特征聚合可以帮助所提方法挖掘短距离内特征间的时间线索。具体计算步骤为：首先将当前节点对应的特征沿时间维度进行复制，得到长度为3的特征序列，然后将该特征序列与连接边对应的特征沿着通道维度进行拼接操作，采用二维卷积运算进行特征聚合。该过程用公式可以表示为：

，

，

，

其中，

为图表征模块沿视觉相似边聚合得到的时间线索，/>

为取平均操作，/>

表示将帧级空间特征和相似特征沿通道方向拼接得到的特征序列，/>

为拼接操作，

为对特征序列/>

经过复制得到的特征序列，/>

为根据K最近邻算法获得的视觉相似特征，/>

为选择相似图节点的K最近邻算法函数。

S213，搭建视觉差异边。对于每个节点，根据K最近邻算法计算与当前节点的欧式距离矩阵，再根据Top-k算法得到与当前节点特征的欧式距离最大的3个节点的特征，并在当前节点与得到的3个特征对应的图节点间建立连接边。通过视觉差异边进行特征聚合可以帮助所提方法挖掘远距离的时间线索，通过捕获不同视觉内容间的上下文依赖更有益于理解整个视频的故事线。具体计算步骤为：与视觉相似边相同，首先将当前节点对应的特征沿时间维度进行复制，然后进行特征拼接操作并进行特征聚合。该过程用公式可以表示为：

，

，

，

其中，

为语义理解模块沿视觉差异边聚合得到的非局部时间信息，/>

表示将帧级空间特征和差异特征沿通道方向拼接得到的特征序列，/>

为根据K最近邻算法获得的视觉差异特征，/>

为选择差异图节点的K最近邻算法函数。

基于上述根据时序边、视觉相似边和视觉差异边得到的局部和非局部时间线索，通过相加将聚合得到的局部和非局部时间线索融合在一起，并通过跳跃连接保留原始视觉特征。该过程从数学上可以表述为：

，

其中，

为最终的时间线索特征，/>

为修正线性单元。

S22，构建语义内容编码模块，其示意图如图4所示。该模块目的在于从粗糙的语义表征出发，动态地将完整的特征序列编码为简洁但信息丰富的精细的语义表征。基于多头注意力机制实现，可以通过简单的矩阵运算并行地计算注意力分数并进行特征聚合，相比于递归神经网络，它可以进行更加有效地特征聚合而不受序列长度的影响。

具体来说，该模块首先沿着时间维度采用全局平均池化计算得到粗略的语义表征

。然后，通过下述步骤动态地学习精细的语义表征：

，

，

，

其中，

，/>

和/>

为经过线性变换得到的特征序列，/>

，/>

，/>

和/>

为需要学习的权重，/>

为第/>

个注意力头的计算结果，/>

为特征维度，/>

表示注意力头数量，/>

为经过拼接得到的最终语义表征向量。

为了使表述更加方便和清晰，定义计算多头注意力机制的完整过程为

，相应地，上述过程可以表述为/>

。

S23，构建信息交互模块。该模块以时间线索和语义表征作为输入，通过引入瓶颈特征使两个特征中最有价值的信息进行交互，并且由于瓶颈特征的引入可以显著地降低计算复杂度。该模块的示意图如图5所示。具体来说，该信息交互模块的计算过程可以分为三步。

第一步，创建瓶颈特征序列

，其中/>

表示瓶颈特征序列的长度，并且/>

远小于输入的视觉特征序列的长度/>

。然后，将语义表征沿时间维度进行复制，得到与所述视觉特征长度相同的语义表征序列/>

；

第二步，执行第一信息交互层。具体计算步骤为，一方面将瓶颈特征

作为查询特征，将时间线索/>

作为键特征和值特征，采用多头注意力机制进行计算。另一方面，将中间特征序列/>

作为查询特征，将语义表征序列/>

作为键特征和值特征，同样采用多头注意力机制进行计算。最后，通过相加的方式得到压缩后的中间交互特征/>

。数学上可以表述为：

第三步，执行第二信息交互层。由于压缩得到的特征序列长度为

，而为了预测长度为/>

的视频序列的得分，需要对该特征长度进行扩展。具体计算步骤与第二步相似，也分为两个方面进行计算。一方面，将时间线索/>

作为查询特征，将压缩后的特征序列/>

作为键特征和值特征。另一方面，将语义表征序列/>

作为查询特征，将压缩后的特征序列/>

作为键特征和值特征。两者都通过多头注意力机制进行计算，最后经过相加得到最终交互特征/>

。该步骤表述下：

S24，构建线性回归模块，该模块利用全连接层将高维特征映射为预测得分用来表示被选择作为摘要结果的概率。具体来说，经过信息交互后得到的特征序列维度为1024。按照全连接层、ReLU激活函数、Dropout层、归一化层、全连接层和Sigmoid层的顺序对1024维特征进行降维，得到预测得分向量

。

实施例三：

基于上述实施例，本发明提供了一个优选实施例执行S3，构建均方误差损失函数，增加预测得分与人工标注得分之间的一致性，并迭代优化网络参数，训练所述视频摘要生成模型。

具体来说，人工标注得分表示为

。根据预测得分向量

定义损失函数loss为：

在本实施例当中，设置批大小为1，学习率和权重衰减都设置为

，使用Adam优化器优化网络参数，训练过程持续300轮。

实施例四：

基于上述实施例，本发明提供了一个优选实施例执行S4，利用S3训练得到的视频摘要生成模型对输入视频执行上述S1和S2，根据预测得分向量生成关键镜头集合。该过程可分为三步。

第一步，根据上述实施例中得到的训练好的视频摘要生成模型对处理好的视频帧级特征进行计算，预测得到帧级预测得分向量

。

第二步，采用核时序分割算法检测视觉变化点，将两个视觉变化点之间的帧看作一个视频镜头，计算每个镜头内帧级预测得分的均值作为镜头级预测得分

，其中/>

代表视频中的镜头数量。

第三步，规定摘要的最大长度不能超过输入视频总长度的15%，创建背包问题，根据动态规划算法进行求解。该过程可以表述如下：

,/>

其中

表示是否选择第/>

个镜头，/>

分别表示第/>

个镜头的镜头长度，/>

为视频的总长度。最后将选择得到的视频镜头进行组合，输出视频摘要结果。

为了验证以上实施例的有效性，将本发明应用于实际，通过计算F分数（%）来与其他先进方法进行对比，在两个基准数据集上对所提方法进行了实验验证，包括SumMe数据集和TVSum数据集。SumMe是一个流行的视频摘要数据集，共包括25个视频。该数据集涵盖多种类型的场景，每个视频具有至少15个用户注释的帧级重要度分数。TVSum包括了从YouTube收集的50个视频，涵盖10个类别，每个视频都由20个用户进行标注。

在标准评估设置下的实验结果如表1所示，本发明所提方法具有最佳的摘要性能表现。与传统方法（包括TVSum和MSDS-CC）相比，所提方法在SumMe和TVSum上分别获得至少10.9%和8.7%的绝对增益。这是因为这些传统方法缺乏强大的表达能力，在理解视频内容方面存在局限性。此外，vsLSTM、dppLSTM和DR-DSN都使用单个LSTM来聚合全局时间信息，其摘要性能显著低于所提出的方法。LMHA-SUM探索了序列内短距离和长距离的注意力，并且也有着优异的性能表现。但是，本发明采用标准的5折交叉验证在所有视频上测试所提方法，有效地降低了由于随机分割带来的随机性的问题。

表1 与先进方法的F-score对比结果

此外，为了更加全面地测试所提方法，还通过计算预测得分和标注分数之间的相关性系数来缓解当前度量标准对重要性得分计算中的差异不够敏感的问题。实验结果如表2所示。从表中可以看到，所提方法的相关系数显著高于其他最先进的方法。这是因为所提架构允许通过动态学习输入视频本身的语义信息来准确地定位有价值的部分。

表2 与先进方法的相关性系数对比结果

为了更直观地证明其有效性，从SumMe和TVSum数据集中选择了一个示例视频，并展示了生成的摘要结果。如图6所示，从提取到的关键镜头中，我们可以很容易地了解这些视频中的主题是什么以及发生了什么活动，这可以显著地提升视频浏览的效率。图7显示了所提方法得到的预测得分曲线，从中可以看到，该方法可以有效地感知重要部分，相应地赋予较高的得分，这些可视化结果充分证明了所提方法的有效性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下，可以任意组合使用。

Claims

1.一种基于语义自挖掘的视频摘要生成方法，其特征在于，包括下述步骤：

图表征模块，所述图表征模块以所述帧级视觉特征作为输入，该模块通过在节点间建立时序边、视觉相似边和视觉差异边实现节点间充分的消息传递，使所述视频摘要生成模型完整地了解视频的故事线，所述时序边是按照视频播放的时间顺序将视觉特征向量进行连接；所述视觉相似边是对于每个节点，根据K最近邻算法计算与当前节点的欧式距离矩阵，再根据Top-k算法得到与当前节点特征的欧式距离最小的3个节点的特征，并在当前节点与得到的3个特征对应的图节点间建立连接边；所述视觉差异边是对于每个节点，根据K最近邻算法计算与当前节点的欧式距离矩阵，再根据Top-k算法得到与当前节点特征的欧式距离最大的3个节点的特征，并在当前节点与得到的3个特征对应的图节点间建立连接边；

信息交互模块，所述信息交互模块以所述图表征模块的输出和所述语义内容编码模块的输出共同作为输入，该模块用于将视频本身潜在的语义信息嵌入至捕获到的时间线索中，进一步提升模型对视频中关键内容的感知能力，构建所述信息交互模块包括：

创建长度为b的瓶颈特征，并且b远小于输入的视觉特征序列的长度n，将所述精细的语义表征沿时间维度进行复制，得到与所述帧级视觉特征长度相等的语义表征序列；

第二特征交互层，所述第二特征交互层将时间线索或语义表征序列作为查询特征，中间交互特征作为键特征和值特征，利用多头注意力机制输出第二交互特征；

2.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法，其特征在于，构建所述图表征模块，包括：

3.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法，其特征在于，构建所述语义内容编码模块，包括：

4.根据权利要求1所述的基于语义自挖掘的视频摘要生成方法，其特征在于，所述根据预测得分向量生成关键镜头集合，包括：