CN113052149B

CN113052149B - 视频摘要生成方法、装置、计算机设备及介质

Info

Publication number: CN113052149B
Application number: CN202110552191.2A
Authority: CN
Inventors: 杨德杰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-13
Anticipated expiration: 2041-05-20
Also published as: CN113052149A

Abstract

本发明涉及人工智能技术领域，提供一种视频摘要生成方法、装置、计算机设备及介质，包括：将原始视频切分为多个视频片段，并识别每个视频片段的视频文本；提取视频片段的视觉特征向量及提取视频文本的文本语义向量；采用层级注意力机制将所述视觉特征向量及对应的所述文本语义向量进行融合得到融合特征向量；基于Bi‑LSTM构成视频片段选择器，使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度；以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练，得到最优的视频片段选择器；使用所述最优的视频片段选择器生成视频摘要。本发明融合了视频的图像特征和文本特征，生成的视频摘要准确度较高。

Description

视频摘要生成方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种视频摘要生成方法、装置、计算机设备及介质。

背景技术

在代理人培训场景下，需要代理人对所学视频课程进行及时复习。而视频课程时长往往过长，为提高代理人的复习效率，需要从原始课程视频中准确提取视频摘要，即整个视频课程的关键片段，帮助代理人有效学习课堂重点内容。

当前的视频摘要技术往往通过识别视频帧图像中人物动作变化，对整个视频构建的帧序列中不同帧进行打分，选取分数最高的几个帧组成视频摘要，只考虑图像蕴含的信息。但在课堂视频中，教师动作常常比较单一，不同帧之间的图像差异较小，教师授课的语言内容成为选取关键片段更重要的部分。另外，以帧为单位打分粒度过小，融合成的视频摘要会出现不连贯的问题，导致视频摘要抽取效果较差。

发明内容

鉴于以上内容，有必要提出一种视频摘要生成方法、装置、计算机设备及介质，生成的视频摘要准确度较高。

本发明的第一方面提供一种视频摘要生成方法，所述方法包括：

对原始视频进行断点检测，根据检测得到的多个断点将所述原始视频切分为多个视频片段，并识别每个视频片段的视频文本；

提取所述视频片段的第一视觉特征向量，计算所述第一视觉特征向量的第一向量维度，根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量；

提取所述视频文本的第一文本语义向量，计算所述第一文本语义向量的第二向量维度，根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量；

采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量；

基于Bi-LSTM构成视频片段选择器，使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度；

以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练，得到最优的视频片段选择器；

使用所述最优的视频片段选择器生成视频摘要。

根据本发明的一个可选的实施方式，所述使用所述最优的视频片段选择器生成视频摘要包括：

使用所述最优的视频片段选择器计算每个视频片段的目标重要度；

对所述目标重要度进行离散化处理得到离散值；

获取所述离散值中的目标离散值及获取所述目标离散值对应的目标视频片段；

根据所述目标视频片段生成视频摘要。

根据本发明的一个可选的实施方式，所述提取所述视频片段的第一视觉特征向量包括：

分割所述视频片段为多个视频帧；

利用DeepCNN提取所述视频帧的特征向量；

计算所述视频片段的多个视频帧的特征向量的均值，得到所述第一视觉特征向量。

根据本发明的一个可选的实施方式，所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括：

将所述第二视觉特征向量投影到目标空间得到第一投影向量，及将所述第二文本语义向量投影到所述目标空间得到第二投影向量；

计算所述第一投影向量在所述目标空间中的第一权重，及计算所述第二投影向量在所述目标空间中的第二权重；

根据所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重得到融合特征向量。

根据本发明的一个可选的实施方式，所述以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练包括：

创建多个损失函数；

根据所述多个损失函数生成目标损失函数；

通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量；

应用随机梯度变分贝叶斯估计方法，基于所述重建视频向量最小化所述目标损失函数，得到多个参数，所述多个参数包括最优的视频片段选择器的参数。

根据本发明的一个可选的实施方式，所述多个损失函数包括：稀疏损失函数，GAN结构生成器损失函数及GAN结构鉴别器损失函数，所述目标损失函数

，

表示所述稀疏损失函数，

表示所述GAN结构生成器损失函数中的重建损失函数，

表示所述GAN结构生成器损失函数中的先验损失函数，

表示所述GAN结构鉴别器损失函数，

为超参数。

根据本发明的一个可选的实施方式，所述基于所述重建视频向量最小化所述目标损失函数包括：

对所述GAN结构鉴别器损失函数的加权损失运用随机梯度变分贝叶斯估计得到最优鉴别器参数；

通过最小化所述稀疏损失函数，所述GAN结构生成器损失函数中的重建损失函数和所述GAN结构生成器损失函数中的先验损失函数，得到最优生成器参数与视频片段选择器参数。

本发明的第二方面提供一种视频摘要生成装置，所述装置包括：

视频切分模块，用于对原始视频进行断点检测，根据检测得到的多个断点将所述原始视频切分为多个视频片段，并识别每个视频片段的视频文本；

第一提取模块，用于提取所述视频片段的第一视觉特征向量，计算所述第一视觉特征向量的第一向量维度，根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量；

第二提取模块，用于提取所述视频文本的第一文本语义向量，计算所述第一文本语义向量的第二向量维度，根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量；

特征融合模块，用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量；

重要度计算模块，用于基于Bi-LSTM构成视频片段选择器，使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度；

优化训练模块，用于以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练，得到最优的视频片段选择器；

摘要生成模块，用于使用所述最优的视频片段选择器生成视频摘要。

本发明的第三方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述视频摘要生成方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述视频摘要生成方法。

综上所述，本发明所述的视频摘要生成方法、装置、计算机设备及介质，融合了视频的图像特征和文本特征，并基于层级注意力机制计算了图像特征和文本特征在视频中的权重，基于视频片段选择器根据权重计算每个视频片段的重要度，最后通过优化视频片段选择器来优化重要度，从而根据优化后的重要度生成视频摘要，生成的视频摘要准确度较高。

附图说明

图1是本发明实施例一提供的视频摘要生成方法的流程图。

图2是本发明实施例提供的为采用层级注意力机制计算融合特征向量的示意图。

图3是本发明实施例提供的对视频片段选择器进行优化训练的网络架构图。

图4是本发明实施例二提供的视频摘要生成装置的结构图。

图5是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例提供的视频摘要生成方法由计算机设备执行，相应地，视频摘要生成装置运行于计算机设备中。

图1是本发明实施例一提供的视频摘要生成方法的流程图。所述视频摘要生成方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，对原始视频进行断点检测，根据检测得到的多个断点将所述原始视频切分为多个视频片段，并识别每个视频片段的视频文本。

在教学场景中，所述原始视频可以为教学视频。

对于完整原始视频，可以利用语音端点检测（Voice Activity Detection，VAD）将原始视频截断为多个视频片段，使得每个视频片段为一个完整的语句。采用语音识别技术将每个视频片段中的视频语音转化为视频文本，其中，视频文本的时间轴与原始视频的时间轴是相对应的。

具体实施时，首先利用语音端点检测原始视频中每个完整的语句在原始视频中的开始时间与结束时间，并利用每个完整的语句的开始时间和结束时间分割原始视频，将原始视频

分割为

个视频片段：

，n为原始视频对应的原始视频文本

中完整语句的数量。例如：某个视频文本对应的完整语句在原始视频中的开始时间为第5秒，结束时间为第8秒，则将原始视频的第5秒至第8秒之间的视频帧截取出来作为一个视频片段。

本实施例，通过VAD检测原始视频中的断点，并根据断点分割原始视频，能够有效的确保分割得到的每个视频片段刚好对应原始视频中的一个完整的语句，从而在后续基于视频片段提取视觉特征向量和文本语义向量时，避免出现语义截断的问题，提取的视觉特征向量和文本语义向量准确度高。

S12，提取所述视频片段的第一视觉特征向量，计算所述第一视觉特征向量的第一向量维度，根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量。

其中，所述第一视觉特征向量为镜头级别的特征向量，也可以称之为视频图像特征。在提取每一个视频片段的第一视觉特征向量之后，计算每一个第一视觉特征向量的第一向量维度，将多个第一向量维度中的最大者确定为最大的第一向量维度，从而基于最大的第一向量维度对其他的第一向量维度对应的第一视觉特征向量进行扩充得到第二视觉特征向量。

在一个可选的实施方式中，所述提取所述视频片段的第一视觉特征向量包括：

分割所述视频片段为多个视频帧；

利用DeepCNN提取所述视频帧的特征向量；

该可选的实施方式中，可以根据原始视频的采样率将每一个视频片段分割为多个视频帧，多个视频帧可以构成视频片段的一个视频帧序列，原始视频的视频帧序列表示如下：

，其中，

为视频片段

内的视频帧数。

，

为原始视频

的总视频帧数，

为视频片段的总数。

利用DeepCNN提取每个视频片段内的每一个视频帧序列的特征向量，得到原始视频的特征向量

，对每个视频片段的所有视频帧的特征向量取平均，得到镜头级别的视觉特征向量：

。其中，

，为使

的第一向量维度相同，将第一向量维度固定为

, 对于第一视觉特征向量的维度不足的，可以在第一视觉特征向量的尾部位置补充0，如此，能够有效的保证得到的第二视觉特征向量具有相同的维度，便于后续进行计算。

S13，提取所述视频文本的第一文本语义向量，计算所述第一文本语义向量的第二向量维度，根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量。

可以利用bert-as-service工具提取所述视频文本的第一文本语义向量，bert模型由多个双向transformer结构组成，transformer中的自注意力机制能够使得生成的文本语义向量包含视频文本的长距离语义信息。

具体而言，通过bert将从原始视频中分割得到的每个完整的视频文本转化为一个第一文本语义向量。

表示第i个视频文本的第一文本语义向量。将每个第一文本语义向量的大小固定为

，

表示第i个第一文本语义向量的维度。对于第一文本语义向量的维度不足的，可以在第一文本语义向量的尾部位置补充0，如此，能够有效的保证得到的第二文本语义向量具有相同的维度，便于后续进行计算。

S14，采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量。

由于第二视觉特征向量

为图像级别的特征向量，而第二文本语义向量

为文本级别的特征向量，这两个特征向量中每个元素如

，

的长度均不同，因此需要将两个特征向量转化到同一空间中进行特征融合。可通过层级注意力机制将二者转化到同一空间，从而融合得到镜头级别下的视频的整体特征向量。

在一个可选的实施方式中，所述采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括：

对所述第二视觉特征向量及所述第一权重、所述第二文本语义向量及所述第二权重进行加权和计算，得到融合特征向量。

参阅图2所示，为采用层级注意力机制计算融合特征向量的示意图，假设令

表示第二视觉特征向量，

表示第二文本语义向量，则将第二视觉特征向量投影到目标空间得到第一投影向量

,将第二文本语义向量投影到同一目标空间得到第二投影向量

。其中

，k=1或者2。得到的每个特征向量

的大小都为

。

进而可求得第一投影向量在目标空间中的第一权重及第二投影向量在目标空间中的第二权重，第一投影向量和第二投影向量在同一空间中的权重表示为

。通过如下公式计算融合特征向量

,

。其中，

，

，

为模型训练过程中不断更新的参数矩阵。

该可选的实施例中，采用层级注意力机制进行融合，考虑了每个向量在视频融合后的总特征向量中的占比，将第二视觉特征向量与第二文本语义向量通过上述的第一权重和第二权重进行加权，可得到融合了视觉图像特征和文本语义特征的整体特征向量。

S15，基于Bi-LSTM构成视频片段选择器，使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度。

将融合特征向量

输入至由Bi-LSTM构成的视频片段选择器（下文也可称之为镜头选择器）中，通过视频片段选择器基于所述融合特征向量进行预测并输出每个视频片段的重要度

，

，重要度表示视频片段的重要性程度。

S16，以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练，得到最优的视频片段选择器。

视频片段选择器结合每个视频片段的重要度对原始视频的融合特征向量（整体特征向量）进行加权，输出离散结果

可以选择GAN框架的无监督模型优化视频片段选择器。参阅图3所示，为对视频片段选择器进行优化训练的网络架构图。由于基于GAN框架的模型为无监督模型，因此将GAN框架与上述视频片段选择器共同进行训练，通过GAN不断优化视频片段选择器，得到最优的视频片段选择器，并根据最优的视频片段选择器给出最优的视频片段的选择结果。

如图3所示，GAN框架（Generative adversarial nets，生成式对抗网络）由一个生成器（G）和一个鉴别器（D）构成，生成器用于将视频片段选择器生成的视频摘要还原为整体视频，鉴别器用于区分重建视频与原始视频，当鉴别器无法区分重建视频与原始视频时，表明模型训练已完成，将视频片段选择器当前选择的视频片段组成最终的视频摘要。

生成器

由VAE（Variational AutoEncoder，变分自动编码器）-LSTM构成，输入是视频特征，生成重建视频

。生成器的结构包括编码器和解码器两部分（如图3的右部分所示）。首先将视频片段选择器得到的加权后的融合特征向量

输入至一个由LSTM构成的编码器中，得到具有时序信息的深度隐向量特征表示

,接着将深度隐向量特征表示

输入至另一个由LSTM构成的解码器中，该解码器用于得到重建视频

，编码器和解码器两个LSTM结构组合成为一个VAE-LSTM结构。

鉴别器（D）同样由LSTM构成，可看作一个距离评估器，估计原始视频与重建视频之间的距离，通过训练不断最小化损失函数，优化鉴别器参数，得到性能最好的鉴别器，即对真实样本判定越准确的鉴别器。具体而言，将重建视频向量

与原始视频的融合特征向量

放入鉴别器

中，通过鉴别器估计原始视频和重建视频在特征空间中的分布差异

，即，原始视频与重建视频之间的距离，以实现对原始视频和重建视频的区分。生成器和鉴别器共同构成了GAN结构。

在一个可选的实施方式中，所述以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练包括：

（1）创建多个损失函数；

由于训练的是无监督模型，因而训练集为没有标注视频片段重要度标签的数据集，通过在模型中的每一环节定义损失函数，并不断优化损失函数以减小整体损失，来训练模型。

所述多个损失函数包括：稀疏损失函数，GAN结构生成器损失函数及GAN结构鉴别器损失函数。

所述稀疏损失函数

用于限制摘要长度，其定义为：

，其中，

为视频片段选择器的输出概率，即视频片段选择器输出的每个视频片段的重要度，

，

为视频片段选择器的参数，

为融合特征向量，

为每个完整语句的时长，n为对原始视频进行切分得到的视频片段的总数。由于最终需要根据重要度选取视频摘要片段，对重要度求平均，可得到视频片段在整个原始视频下的长度占比。

为视频摘要片段的时长占原始视频总时长的比例，一般为15%。稀疏损失越大，表明视频摘要片段长度与原始视频的长度差异越大。通过该损失函数可对视频片段选择器的参数进行优化。

由于GAN中的生成器为VAE结构，则GAN结构生成器（G）损失函数用于在训练过程中最小化生成损失，即在对原始视频编码和重建的过程中损失最小。VAE的学习是通过最小化数据分布的负对数似然函数完成的：

，

为观测向量

，即视频片段选择器输出的视频摘要结果向量；

为观测向量编码后生成的深度隐向量特征表示

；

为观测前的先验概率分布，通常设定为正态分布；

为把观测向量进行隐状态编码后，该编码的近似概率分布；

为编码后观测向量的条件概率分布，即重建视频向量

的概率分布。

GAN结构生成器（G）损失函数右侧的第二项表示先验损失

，其中

为KL散度，用于衡量两分布之间的差异，表示观测前后编码向量的分布差异大小，该损失函数用于确保模型学习到的视频摘要编码向量的分布，与原始编码的先验分布一致。生成器重建视频的目标是利用原始视频与重建视频之间的距离

来衡量重建误差，由于对数似然函数可用于进行样本相似性衡量，因此可衡量原始视频与重建视频之间的差异。将GAN结构生成器（G）损失函数右侧的第一项

的期望

作为将视频摘要重建为完整视频的重建的似然估计（重建损失函数）

，由于LSTM（GAN鉴别器）的最后一个隐藏层的输出会包含原始视频和重建视频整个序列的信息，包括原始视频的序列信息与重建视频的整个序列信息，且包含序列的上下文依赖关系，因此选取鉴别器LSTM的最后一个隐层的输出

替代

，则

。

在GAN结构鉴别器（D）损失函数中，令

为真实数据样本，

为先验编码的分布，

为生成器最终生成的重建视频。将原始视频

与生成器生成的重建视频

共同输入进鉴别器中，在输入进鉴别器时，同时输入鉴别标签，令原始视频的标签为1，重建视频的标签为0。

GAN的最终目标为在鉴别器D出错的概率最大的条件下，找到一个适合真实数据分布的生成器。公式为：

，

表示输入原始视频后，鉴别器对它的判定情况。鉴别器的输出在

之间，

越接近1则说明判定的越准确，

越接近0，对于

，

越小则鉴别器判定越准确，

越接近1，

越接近0，则总体越趋近0。

括号中的项

为GAN鉴别器的整体对抗损失函数

。即：

，用于衡量鉴别器的准确度。

（2）根据所述多个损失函数生成目标损失函数

目标损失函数

。

为稀疏损失函数，用于在视频片段选择器部分限制生成的视频摘要的长度。

分别为GAN结构生成器损失函数中的重建损失函数和先验损失函数，即重建视频的过程中产生的损失，衡量重建视频与原始视频之间的差异。

为GAN结构鉴别器损失函数，通过该损失函数定义鉴别器的判定效果，对生成器和鉴别器同时进行优化。

其中

为超参数，用于平衡生成过程和对抗过程。超参数一般通过随机搜索的方式得到最优值。

（3）通过生成式对抗网络基于所述第二视觉特征向量和所述第二文本语义向量生成重建视频向量。

将视频片段选择器与GAN结构共同进行训练，通过GAN无监督结构不断优化视频片段选择器。

首先，随机初始化层级注意力机制、视频片段选择器、GAN结构整体模型参数，将原始视频的第二文本语义向量

和所述第二视觉特征向量

输入模型中，经过模型的训练，得到重建视频向量

。

（4）应用随机梯度变分贝叶斯估计方法，基于所述重建视频向量最小化所述目标损失函数，得到多个参数，所述多个参数包括最优的视频片段选择器参数

。

通过不断优化目标损失函数，以更新模型中的参数

表示层级注意力机制中的参数，

表示视频片段选择器Bi-LSTM中的参数，

表示生成器的编码器encoder中的参数，

表示生成器的解码器decoder中的参数，

表示鉴别器D的参数。

在一个可选的实施方式中，所述基于所述重建视频向量最小化所述目标损失函数包括：

对GAN结构鉴别器损失函数的加权损失

运用随机梯度变分贝叶斯估计得到最优鉴别器参数

；

通过最小化所述稀疏损失函数

，GAN结构生成器损失函数中的重建损失函数

和GAN结构生成器损失函数中的先验损失函数

得到最优生成器参数

与视频片段选择器参数

。

由于稀疏损失函数

包含视频片段选择器的输出概率，该输出概率由当前视频片段选择器Bi-LSTM结构中的参数

决定。因此通过对上述优化方式，在优化GAN结构的同时不断优化Bi-LSTM结构的稀疏损失函数

，以更新视频片段选择器参数

。综上，通过GAN结构对视频片段选择器的选择结果不断进行无监督训练，最终得到最优的视频片段选择器参数

。

S17，使用所述最优的视频片段选择器生成视频摘要。

通过对视频片段选择器进行优化训练，得到最优的视频片段选择器，再使用最优的视频片段选择器选择最优的视频片段，从而基于最优的视频片段生成视频摘要。

在一个可选的实施方式中，所述使用所述最优的视频片段选择器生成视频摘要包括：

对所述目标重要度进行离散化处理得到离散值；

根据所述目标视频片段生成视频摘要。

该可选的实施方式中，由于当视频片段选择器的训练达到最优时，最优的视频片段选择器输出的每个视频片段的重要度也为最优结果。

将最优的视频片段选择器生成的目标重要度

进行离散化，当所述目标重要度中的任意一个元素大于预设阈值时，将所述任意一个元素更新为第一离散值，当所述目标重要度中的任意一个元素小于预设阈值时，将所述任意一个元素更新为第二离散值。对于所述目标重要度中的任意一个元素等于预设阈值时，既适用于大于预设阈值的情况，也适用于小于预设阈值的情况，本发明不做任何限制。

通过视频片段选择器得到的离散结果

，作为原始视频中的视频片段子序列，组合得到最终的视频摘要结果

，m为视频摘要中包含的视频片段的总个数。

示例性的，假设预设阈值为0.5，当

时，更新

为1，当

时，更新

为0，更新后的目标重要度

，可以选择重要度为1的视频片段构成原始视频的子视频片段序列，作为视频摘要片段集

，最后将选取的目标视频片段进行拼接得到最终的视频摘要。

本发明融合了视频的图像特征和文本特征，并基于层级注意力机制计算了图像特征和文本特征在视频中的权重，基于视频片段选择器根据权重计算每个视频片段的重要度，最后通过优化视频片段选择器来优化重要度，从而根据优化后的重要度生成视频摘要，生成的视频摘要准确度较高。

本发明所述的方法适合应用于教学视频场景中，抽取教学视频的视频摘要准确度较高。

图4是本发明实施例二提供的视频摘要生成装置的结构图。

在一些实施例中，所述视频摘要生成装置40可以包括多个由计算机程序段所组成的功能模块。所述视频摘要生成装置40中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行（详见图4描述）视频摘要生成的功能。

本实施例中，所述视频摘要生成装置40根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：视频切分模块401、第一提取模块402、第二提取模块403、特征融合模块404、重要度计算模块405、优化训练模块406、摘要生成模块407。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述视频切分模块401，用于对原始视频进行断点检测，根据检测得到的多个断点将所述原始视频切分为多个视频片段，并识别每个视频片段的视频文本。

在教学场景中，所述原始视频可以为教学视频。

分割为

个视频片段：

，n为原始视频对应的原始视频文本

所述第一提取模块402，用于提取所述视频片段的第一视觉特征向量，计算所述第一视觉特征向量的第一向量维度，根据最大的第一向量维度对所述第一视觉特征向量进行扩充得到第二视觉特征向量。

在一个可选的实施方式中，所述第一提取模块402提取所述视频片段的第一视觉特征向量包括：

分割所述视频片段为多个视频帧；

利用DeepCNN提取所述视频帧的特征向量；

，其中，

为视频片段

内的视频帧数。

，

为原始视频

的总视频帧数，

为视频片段的总数。

。其中，

，为使

的第一向量维度相同，将第一向量维度固定为

所述第二提取模块403，用于提取所述视频文本的第一文本语义向量，计算所述第一文本语义向量的第二向量维度，根据最大的第二向量维度对所述第一文本语义向量进行扩充得到第二文本语义向量。

，

所述特征融合模块404，用于采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量。

由于第二视觉特征向量

为图像级别的特征向量，而第二文本语义向量

为文本级别的特征向量，这两个特征向量中每个元素如

，

在一个可选的实施方式中，所述特征融合模块404采用层级注意力机制将所述第二视觉特征向量及对应的所述第二文本语义向量进行融合得到融合特征向量包括：

表示第二视觉特征向量，

, 将第二文本语义向量投影到同一目标空间得到第二投影向量

。其中

，k=1或者2。得到的每个特征向量

的大小都为

。

。通过如下公式计算融合特征向量

,

。其中，

，

，

为模型训练过程中不断更新的参数矩阵。

所述重要度计算模块405，用于基于Bi-LSTM构成视频片段选择器，使用所述视频片段选择器根据所述融合特征向量计算每个视频片段的重要度。

将融合特征向量

，

，重要度表示视频片段的重要性程度。

所述优化训练模块406，用于以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练，得到最优的视频片段选择器。

生成器

由VAE（Variational Auto Encoder，变分自动编码器）-LSTM构成，输入是视频特征，生成重建视频

,接着将深度隐向量特征表示

，编码器和解码器两个LSTM结构组合成为一个VAE-LSTM结构。

与原始视频的融合特征向量

放入鉴别器

，即，原始视频与重建视频之间的距离，以实现对区分原始视频和重建视频的区分。生成器和鉴别器共同构成了GAN结构。

在一个可选的实施方式中，所述优化训练模块406以GAN为网络框架，根据所述重要度对所述视频片段选择器进行优化训练包括：

（1）创建多个损失函数；

所述稀疏损失函数

用于限制摘要长度，其定义为：

，其中，

，

为视频片段选择器的参数，

为融合特征向量，

，

为观测向量

，即视频片段选择器输出的视频摘要结果向量；

为观测向量编码后生成的深度隐向量特征表示

；

为观测前的先验概率分布，通常设定为正态分布；

为把观测向量进行隐状态编码后，该编码的近似概率分布；

为编码后观测向量的条件概率分布，即重建视频向量

的概率分布。

GAN结构生成器（G）损失函数右侧的第二项表示先验损失

，其中

的期望

替代

，则

。

在GAN结构鉴别器（D）损失函数中，令

为真实数据样本，

为先验编码的分布，

为生成器最终生成的重建视频。将原始视频

与生成器生成的重建视频

，

之间，

越接近1则说明判定的越准确，

越接近0，对于

，

越小则鉴别器判定越准确，

越接近1，

越接近0，则总体越趋近0。

括号中的项

为GAN鉴别器的整体对抗损失函数

。即：

，用于衡量鉴别器的准确度。

（2）根据所述多个损失函数生成目标损失函数

目标损失函数

。

其中

和所述第二视觉特征向量

输入模型中，经过模型的训练，得到重建视频向量

。

。

通过不断优化目标损失函数，以更新模型中的参数

表示层级注意力机制中的参数，

表示视频片段选择器Bi-LSTM中的参数，

表示生成器的编码器encoder中的参数，

表示生成器的解码器decoder中的参数，

表示鉴别器D的参数。

对GAN结构鉴别器损失函数的加权损失

运用随机梯度变分贝叶斯估计得到最优鉴别器参数

；

通过最小化所述稀疏损失函数

，GAN结构生成器损失函数中的重建损失函数

和GAN结构生成器损失函数中的先验损失函数

得到最优生成器参数

与视频片段选择器参数

。

由于稀疏损失函数

，以更新视频片段选择器参数

。

所述摘要生成模块407，用于使用所述最优的视频片段选择器生成视频摘要。

在一个可选的实施方式中，所述摘要生成模块407使用所述最优的视频片段选择器生成视频摘要包括：

对所述目标重要度进行离散化处理得到离散值；

根据所述目标视频片段生成视频摘要。

将最优的视频片段选择器生成的目标重要度

通过视频片段选择器得到的离散结果

，m为视频摘要中包含的视频片段的总个数。

示例性的，假设预设阈值为0.5，当

时，更新

为1，当

时，更新

为0，更新后的目标重要度

本发明所述的装置适合应用于教学视频场景中，抽取教学视频的视频摘要准确度较高。

需要强调的是，为进一步保证上述视频片段选择器的私密性和安全性，上述视频片段选择器可存储于区块链的节点中。

参阅图5所示，为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中，所述计算机设备5包括存储器51、至少一个处理器52、至少一条通信总线53及收发器54。

本领域技术人员应该了解，图5示出的计算机设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备5还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备5是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备5还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备5仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器51中存储有计算机程序，所述计算机程序被所述至少一个处理器52执行时实现如所述的视频摘要生成方法中的全部或者部分步骤。所述存储器51包括只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable Read-Only Memory，PROM）、可擦除可编程只读存储器（Erasable Programmable Read-OnlyMemory，EPROM）、一次可编程只读存储器（One-time Programmable Read-Only Memory，OTPROM）、电子擦除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器52是所述计算机设备5的控制核心（Control Unit），利用各种接口和线路连接整个计算机设备5的各个部件，通过运行或执行存储在所述存储器51内的程序或者模块，以及调用存储在所述存储器51内的数据，以执行计算机设备5的各种功能和处理数据。例如，所述至少一个处理器52执行所述存储器中存储的计算机程序时实现本发明实施例中所述的视频摘要生成方法的全部或者部分步骤；或者实现视频摘要生成装置的全部或者部分功能。所述至少一个处理器52可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线53被设置为实现所述存储器51以及所述至少一个处理器52等之间的连接通信。

尽管未示出，所述计算机设备5还可以包括给各个部件供电的电源（比如电池），优选的，电源可以通过电源管理装置与所述至少一个处理器52逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，计算机设备，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。