CN115525782A

CN115525782A - 自适应图结构的视频摘要生成方法

Info

Publication number: CN115525782A
Application number: CN202211197783.8A
Authority: CN
Inventors: 武光利; 王圣焘; 张静; 王平; 张馨月; 田军; 牛君会
Original assignee: Gansu Eurasia Information Technology Co ltd
Current assignee: Gansu Eurasia Information Technology Co ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2022-12-27

Abstract

本发明涉及计算机视觉技术领域，公开了一种获取原始视频帧序列，并根据原始视频帧序列得到局部特征S_data；根据原始视频帧序列中每个镜头的SVD_frame和代表性帧构建邻接矩阵

在TAMGCN网络模型中采用注意力机制，根据当前层的输入S_data计算的注意力矩阵，得到整个层的图注意力输出

根据注意力矩阵得到TAMGCN网络模型的输出graph_feature；根据局部特征S_data计算时序特征Global_feature；将时序特征Global_feature与graph_feature进行特征融合，得到原始视频帧序列中每个镜头的得分；根据每个镜头的得分采用背包算法选取若干个的镜头进行组合，得到原始视频的视频摘要。本发明提供的方法，构对视频镜头有更好的处理能力，其中的注意力部分可以有效的关注到其中具有代表性和多样性的镜头，使得生成的摘要更具代表性和多样性。

Description

自适应图结构的视频摘要生成方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及一种自适应图结构的视频摘要生成方法。

背景技术

随着互联网技术的发展和移动通讯设备的进步，网络视频领域突飞猛进。《中国互联网络发展状况统计报告(2022)》显示，截至2021年12月，我国网民人均每周上网时长达到28.5小时。而在网民中，即时通信，网络视频，短视频用户使用率分别为97.5％、94.5％和90.5％，用户规模分别达10.07亿，9.75亿和9.34亿。这其中网络视频和短视频数据不仅数量庞大而且类型繁多，这使得网络视频内容的审核难度加大，同时用户对视频的快速浏览需求与日俱增。视频摘要技术的目的便是提取不同类型视频的关键信息，提升浏览效率。

研究视频摘要技术将有助于解决上述问题，视频摘要是以自动或半自动的方式，通过分析视频的结构和内容存在的时空冗余，从原始视频中提取关键帧或感兴趣的目标的活动信息自动生成视频摘要，使得用户可以通过少量的关键信息快速浏览原始视频的内容。视频摘要分为静态摘要和动态摘要，静态摘要通过提取若干关键帧合成为摘要，动态摘要则是组合关键镜头生成摘要。静态摘要最大的不足是合成的摘要不具有时序连贯性，给人一种快进的感觉，而动态摘要是将镜头进行组合，在不丢失关键内容的同时保留了视觉连贯性。现有的视频摘要生成方法将线性的视频序列输入深度学习网络，但是这种方式在输入序列过长时仍然具有很大的限制，并且未能充分考虑视频镜头在不同的时间点具有相同的语义。

发明内容

本发明提供了一种自适应图结构的视频摘要生成方法，构建基于图神经网络的自适应邻接矩阵网络TAMGCN，使用邻接矩阵表示镜头之间的关系，同时针对图神经网络中邻接矩阵不变的性质提出适应邻接矩阵的注意力机制动态的更改每一层邻接矩阵的权重大小，以对视频镜头有更好的处理能力，其中的注意力部分可以有效的关注到其中具有代表性和多样性的镜头，使得生成的摘要更具代表性和多样性。

本发明提供了一种自适应图结构的视频摘要生成方法，构建TAMGCN网络模型，包括：

获取原始视频帧序列，并根据所述原始视频帧序列得到局部特征S_data；

根据所述原始视频帧序列中每个镜头的SVD_frame和代表性帧构建邻接矩阵

根据注意力矩阵得到TAMGCN网络模型的输出graph_feature；

根据局部特征S_data计算时序特征Global_feature；

将所述时序特征Global_feature与graph_feature进行特征融合，得到所述原始视频帧序列中每个镜头的得分；

根据每个镜头的得分采用背包算法选取若干个的镜头进行组合，得到所述原始视频的视频摘要。

进一步地，所述获取原始视频帧序列，并根据所述原始视频帧序列得到局部特征S_data的步骤，包括：

定义所述原始视频帧序列为

其中，N为每一个视频中所含的视频帧的个数，w,h,3为每一帧图片的宽、高、通道数，x_n代表第n个视频帧；

采用KTS算法得到镜头序列

其中，M表示一个视频共划分了M个镜头，s_m表示第m个镜头中有T_m帧且

对所述镜头序列S采用预训练模型GoogLe Net提取图像特征

s′_m表示第m个镜头有T_m帧，F为每一帧的特征维度；

S_feature通过长短期记忆网络双向编码得到每个视频的局部特征，其公式为：

其中，BiLSTM(·)表示双向LSTM网络，BiLSTM(·)的输出为最后一层隐藏层

h_t的最后一帧编码了当前镜头中前向和后向的时序信息，取每个镜头输出h_t的最后一帧

并堆叠作为整个视频的局部特征

进一步地，所述根据所述原始视频帧序列中每个镜头的SVD_frame和代表性帧构建邻接矩阵

的步骤，包括：

通过计算每一个镜头中的帧和其余帧之间的2-范数，选择与其它平均范数最低帧作为该镜头的代表性帧，其公式为：

取右奇异矩阵的前n行作为每个镜头的SVD_frame，其公式为：

A＝U∑V^T

SVD_frame＝SVD(S_feature)＝V^T[n,:]

其中，U为左奇异矩阵，对行数进行压缩，V^T为右奇异矩阵，对列数进行压缩，Σ是奇异值；

定义每个视频的镜头作为节点，根据每个镜头的SVD_frame和代表性帧得到图上的节点特征为Spot_feature＝[present_frame||SVD_frame]；

计算两个镜头之间的相似程度作为对应节点的边，即邻接矩阵的值，并构建邻接矩阵

计算公式为：

其中，x为每个节点特征Spot_feature，[·||·]表示连接操作，φ(·)，

是以W_φ,

为基的线性变换，W_φ,

W_e都是可学习的参数。

进一步地，所述在TAMGCN网络模型中采用注意力机制，根据当前层的输入S_data计算的注意力矩阵，得到整个层的图注意力输出

的步骤，包括：

在TAMGCN网络模型中采用注意力机制，根据当前层的输入计算每一层的注意力，当前节点的注意力计算公式为：

其中，

为当前节点，

为邻居节点，

是可学习的权值矩阵，[·||·]表示连接操作，LeakyReLU(·)为激活函数，

为可学习的注意力分布矩阵；

计算注意力权重，公式为：

a_ij＝N_j(e_ij)

其中，a_ij为注意力权重，N(·)＝exp(·)/∑exp(·)为归一化算子，整个层的图注意力的输出为

进一步地，所述根据注意力矩阵得到TAMGCN网络模型的输出graph_feature的步骤，包括：

每一层的TAMGCN以GCN为基础建模得到：

其中，

为第l层的输出，l＝0,1,...,L-1andH⁽⁰⁾＝S_data，σ(·)为激活函数，

为每一层中可训练的权值矩阵，

是注意力调整后的邻接矩阵：

其中，att_map为根据每一层的H^(l)生成的注意力矩阵，TAMGCN的输出

H^(L-1)为最后一层的图输出，F_L-1为最后一层的TAMGCN输出的维度，F_L-1的维度与F的维度相同。

进一步地，所述根据局部特征S_data计算时序特征Global_feature的步骤，包括：

将局部特征S_data输入BiLSTM(·)网络，并取隐藏层的最后一层作为时序特征

输出，其中，计算公式为：

进一步地，所述将所述时序特征Global_feature与graph_feature进行特征融合，得到所述原始视频帧序列中每个镜头的得分的步骤，包括：

将

和时序特征Global_feature特征通过连接运算定义为

整个融合机制包括线性层和激活层：

其中，

和

为两个可学习的权重矩阵；

将局部特征

和R′特征融合，并通过多个全连接层FC(·)得出最后的镜头分数spot_score，其公式为：

Spot_score＝σ(FC(R′⊙Q+S_data⊙(1-Q)))

FC(·)＝BN(Linear(·))

其中，σ(·)为sigmoid(·)激活函数，

为每一个镜头的非负得分。

本发明还提供了一种自适应图结构的视频摘要生成装置，构建TAMGCN网络模型，包括：

获取模块，用于获取原始视频帧序列，并根据所述原始视频帧序列得到局部特征S_data；

构建模块，用于根据所述原始视频帧序列中每个镜头的SVD_frame和代表性帧构建邻接矩阵

第一计算模块，用于在TAMGCN网络模型中采用注意力机制，根据当前层的输入S_data计算的注意力矩阵，得到整个层的图注意力输出

输出模块，用于根据注意力矩阵得到TAMGCN网络模型的输出graph_feature；

第二计算模块，用于根据局部特征S_data计算时序特征Global_feature；

融合模块，用于将所述时序特征Global_feature与graph_feature进行特征融合，得到所述原始视频帧序列中每个镜头的得分；

选取模块，用于根据每个镜头的得分采用背包算法选取若干个的镜头进行组合，得到所述原始视频的视频摘要。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的有益效果为：

本发明首先将输入的视频划分镜头并通过卷积神经网络提取每个视频帧的图像特征；选择代表性帧的同时压缩镜头数据，并构建邻接矩阵；使用TAMGCN计算结构特征，最后特征融合并计算每一个镜头的得分，最后选取分数超过设定阈值的镜头组成视频摘要，使生成的摘要能更好的学习视频镜头之间的结构信息，解决在图卷积神经网络中邻接矩阵一旦确定就以固定的权重聚合邻居的问题。

附图说明

图1为本发明中TAMGCN网络模型的结构示意图。

图2为本发明中SVD分解示意图。

图3为本发明中自适应图结构的注意力模型示意图。

图4为本发明中镜头分数对比示意图。

图5为本发明中邻接矩阵分布示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

视频摘要是从原始的视频中提取具有代表性和多样性的关键帧或者关键镜头并以某一种方式呈现出来，使用户在不看原始视频的前提下快速掌握视频的主要内容。提出基于图神经网络的自适应邻接矩阵网络TAMGCN，使用邻接矩阵表示镜头之间的关系，同时针对图神经网络中邻接矩阵不变的性质提出适应邻接矩阵的注意力机制动态的更改每一层邻接矩阵的权重大小，注意力部分可以有效的关注到其中具有代表性和多样性的镜头，使得生成的摘要更具代表性和多样性。

设计的自适应图结构的视频摘要生成网络TAMGCN，模型结构如图1所示。TAMGCN网络主要包括5个部分：视频帧特征提取、邻接矩阵构建、图结构特征提取、时序特征提取、特征融合。视频帧特征提取部分通过Google Net提取视频帧的深度特征，邻接矩阵的构建部分将特征向量通过代表性特征和SVD分解特征计算每一个镜头的特征向量，计算完成构建邻接矩阵，最后经过前馈神经网络和再一次的残差连接和层正则化，图1中仅展示了一层，可根据需要添加若干层。时序特征部分由双向LSTM完成，进而通过特征融合机制特征融合，最后通过标注计算出对应的Loss。动态摘要是基于镜头的选择，因此通过算术平均将帧级分数转换成镜头分数。优化部分则由背包算法选出若干关键镜头组成摘要，最后通过MSE损失和稀疏损失完成对摘要的奖励值计算。

如图1所示，本发明提供了一种自适应图结构的视频摘要生成方法，构建TAMGCN网络模型，包括：

S1、获取原始视频帧序列，并根据所述原始视频帧序列得到局部特征S_data；对原始视频帧序列进行数据预处理，即视频特征提取，具体包括：

对输入的原始视频帧序列定义为

其中N代表每一个视频中所含的视频帧的个数，w,h,3代表每一帧图片的宽、高、通道数，x_n代表第n个视频帧。使用Kernel Temporal Segmentation(KTS)算法得到镜头序列

其中M表示一个视频共划分了M个镜头，s_m表示第m个镜头中有T_m帧且

对S使用预训练模型GoogLe Net，并提取图像特征

s′_m表示第m个镜头有T_m帧，F为每一帧的特征维度；每个视频的局部特征S_data由S_feature通过长短期记忆网络双向编码得到，其公式为：

其中，其中BiLSTM(·)表示双向LSTM网络，它是由两个不同方向的LSTM拼接组成。

BiLSTM(·)的输出为最后一层隐藏层

因为h_t的最后一帧编码了当前镜头中前向和后向的时序信息，取每个镜头输出h_t的最后一帧

并堆叠作为整个视频的局部特征

S2、根据所述原始视频帧序列中每个镜头的SVD_frame和代表性帧构建邻接矩阵

在应用图神经网络时，首先明确数据中的图结构。图结构通常有两种场景：结构性场景和非结构性场景。在结构化的场景中，图结构在应用中是显式的，如分子、物理系统、知识图等方面的应用。而在非结构化场景中，图是隐式的，因此首先从任务中建模图。在视频摘要任务中为视频帧或者镜头建模场景的无向图，在建模图之前，首先定义每个视频的镜头作为节点，图上的节点特征定义为：

Spot_feature＝[present_frame||SVD_frame]

节点特征

由代表性特征和奇异值特征拼接组成。

因此，步骤S2具体包括：

确定代表性帧：代表性特征

受到强化学习中的代表性奖励的启发，通过计算每一个镜头中的帧和其余帧之间的2-范数，选择与其它平均范数最低帧作为该镜头的代表性帧，其公式为：

确定奇异特征值：相比于QR等分解只能在方阵进行分解矩阵，如图2所示，奇异值(SVD)分解算法是一种可在任意规模进行分解的矩阵分解算法，其中U是左奇异矩阵，是对行数进行压缩，V^T是右奇异矩阵，对列数进行压缩，Σ是奇异值，并且奇异值∑中前n个奇异值占据了奇异值总和的大部分。

通常取左奇异矩阵U的前n列做该矩阵的主要特征，但是这种方式对于帧数不固定的镜头来说并不友好。对于不同的镜头来说，不同的帧数导致左奇异矩阵的前n列数据个数并不相同，并且一个不确定长度的数据在神经网络中是无法学习的，因此取右奇异矩阵的前n行作为每个镜头的SVD_frame，其公式为：

A＝U∑V^T

SVD_frame＝SVD(S_feature)＝V^T[n,:]

对于视频摘要并没有显式的邻接矩阵，因此需要生成邻接矩阵，如图5所示。在得到每一个节点特征之后，计算两个镜头之间的相似程度作为对应节点的边，即邻接矩阵的值，即：

是以W_φ,

为基的线性变换，W_φ,

W_e都是可学习的参数，通过以上方式构建邻接矩阵

S3、在TAMGCN网络模型中采用注意力机制，根据当前层的输入S_data计算的注意力矩阵，得到整个层的图注意力输出

因此，步骤S3具体包括：

如图3所示，为了克服每层GCN的每一层受到固定的邻接矩阵作用，在TAMGCN中使用注意力机制确保每一层邻接矩阵的作用效果都是不一样的。在TAMGCN网络模型中采用注意力机制，受到GAT的启发，每一层的注意力都是根据当前层的输入计算的，当前节点的注意力计算方式为：

其中，

为当前节点，

为邻居节点，

为可学习的注意力分布矩阵；

计算注意力权重，公式为：

a_ij＝N_j(e_ij)

S4、根据注意力矩阵得到TAMGCN网络模型的输出graph_feature；

步骤S4具体包括：

TAMGCN模型f(S_data,A_adj,att_map)学习视频镜头之间的关系，其中S_data代表输入视频的节点特征，att_map是根据当前层的输入S_data计算的注意力矩阵，A_adj为邻接矩阵。每一层的TAMGCN以GCN为基础建模得到：

其中，

为第l层的输出，l＝0,1,...,L-1andH⁽⁰⁾＝S_data，σ(·)为激活函数，如ReLu(·)＝max(0,·)，

为每一层中可训练的权值矩阵，

是注意力调整后的邻接矩阵：

其中，att_map为根据每一层的H^(l)生成的注意力矩阵，以此达到根据不同的输入数据动态调整邻居节点对当前节点的影响。TAMGCN的输出

H^(L-1)表示最后一层的图输出，F_L-1代表最后一层的TAMGCN输出的维度，为了模型便于移植，将F_L-1的维度设置成与F的维度相同，不会因为模型增加图部分而做额外的参数调整。

S5、根据局部特征S_data计算时序特征Global_feature；

步骤S5具体包括：

输出，其中，计算公式为：

S6、将所述时序特征Global_feature与graph_feature进行特征融合，得到所述原始视频帧序列中每个镜头的得分；

步骤S6具体包括：

为了使graph_feature具有视频序列的时序特征Global_feature，使用融合机制将

和时序特征Global_feature特征融合。

将

和时序特征Global_feature特征通过连接运算定义为

整个融合机制包括线性层和激活层：

其中，

和

为两个可学习的权重矩阵；为了保持原始镜头的语义信息，将局部特征

和R′特征融合，并通过多个全连接层FC(·)得出最后的镜头分数spot_score，如图4所示，图4为分数对比图，其公式为：

Spot_score＝σ(FC(R′⊙Q+S_data⊙(1-Q)))

FC(·)＝BN(Linear(·))

其中，σ(·)为sigmoid(·)激活函数，

为每一个镜头的非负得分，分数越高代表越有机会被选入视频摘要。

S7、根据每个镜头的得分采用背包算法选取若干个的镜头进行组合，得到所述原始视频的视频摘要。

步骤S7包括：

摘要的生成由镜头组成，模型的输出结果为帧级重要性分数，需要将其转化为镜头分数。完成转化，首先需要对视频进行镜头划分，采用KTS算法得到视频跳跃点进而划分出镜头，通过对镜头中每一帧分数加和求均值得到镜头分数。摘要的长度不宜超过原视频的15％同时最大化摘要分数。分数最大化问题视为NP难问题，采用0/1背包问题中的动态规划算法来完成镜头的选择：

其中，i表示镜头编号，j表示帧编号，K表示镜头个数，L表示视频包含的帧数，li表示第i个镜头包含帧的个数，yij表示第i个镜头中第j帧的分数，ui∈{0,1}，当ui＝1时表示第i个镜头被选中。

本发明基于预训练的Google Net网络完成输入视频帧的图像特征提取。后续，根据KTS算法划分的镜头，计算具有代表性的represent帧，同时为了represent帧具有一定的镜头信息，使用SVD算法分解镜头特征并选择一定量的特征值，之后将这两个特征级联起来作为节点特征。

Spot_feature＝[present_frame||SVD_frame]

在训练时，通过余弦距离计算镜头之间的相似度并构建邻接矩阵，进而使用TAMGCN提取视频镜头的结构特征，LSTM网络提取视频镜头的时序特征。

Spot_score＝σ(FC(R′⊙Q+S_data⊙(1-Q)))

其中，Q为通过时序特征计算的影响因子，R’为融合的时序特征，S_data表示镜头特征，采用fusion gate完成特征之间的融合。

完成构建TAMGCN网络模型后，通过MSE损失和稀疏性损失完成TAMGCN网络模型的优化。损失函数作为衡量模型预测值和真实值之间差异的函数，损失函数越小说明模型和参数越符合训练样本。采用均方误差(MSE)计算模型的损失，得到的误差表示预测值与实际值之间的欧氏距离，其中y_real表示真实的分数，y_score＝spot_score表示预测的分数：

此外，考虑视频摘要的目标是使用少量的镜头尽可能的表达整个视频的语义，在本模型中倾向于计算出的att_map应该是稀疏的，由此设计稀疏性损失Loss_att来约束att_map的稀疏性，定义如下：

本发明使生成的摘要能更好的学习视频镜头之间的结构信息，提出了自适应图结构的视频摘要网络TAMGCN，解决在图卷积神经网络中邻接矩阵一旦确定就以固定的权重聚合邻居的问题。首先将输入的视频划分镜头并通过卷积神经网络提取每个视频帧的图像特征；选择代表性帧的同时压缩镜头数据，并构建邻接矩阵；使用TAMGCN计算结构特征，最后特征融合并计算每一个镜头的得分。此外，设计稀疏性规则来训练网络，鼓励多样化的摘要被选择，使得模型拥有更强的学习能力，进一步提升预测准确性，生成更符合用户视觉的视频摘要。

在实验时选取其中80％作为训练集，剩余20％作为测试集。考虑到选取的数据不同带来的误差波动和模型复杂导致的过拟合，对两个数据集使用5折交叉验证。对于TvSum数据集，其中的视频多为用户自主拍摄，存在着较多的边界变化，因此20个人的标注得分差异较大；对于SumMe数据集，其中视频多为经过编辑的结构化视频，边界变化小，标注得分差异小，在计算F1-score时，对TvSum数据集取平均值，对SumMe数据集取最大值。

为了验证统一性奖励和有监督信息对模型的影响，在两个数据集上进行了消融实验。首先对不同的方法命名，如表1所示。TL-Ren为基于Transformer和LSTM的深度摘要网络，其中强化学习的奖励函数使用代表性奖励(Rep)和多样性奖励(Div)；TL-Ren_L在前者的基础上引入了有监督的信息；TL-Ren_Uni为奖励函数联合使用代表性奖励、多样性奖励和统一性奖励(Uni)的方法；TL-Ren_UL则是同时引入统一性奖励和有监督信息的方法。

表1不同模块对应名称

表2展示了不同方法在两个数据集上的结果对比，从表中可以看出TL-Ren_UL(使用了统一性和监督信息)方法在两个数据集上都取得了最好的效果，这表明该方法可以指导模型生成质量更高的视频摘要通过联合使用Rep、Div和Uni作为奖励函数以及引入有监督信息。此外，对比TL-Ren和TL-Ren_Uni可以看出统一性奖励的加入在两个数据集上的性能分别提高了0.6％和0.4％。实验结果表明，奖励函数中统一性的引入能提高升镜头的平稳性；同时，TvSum数据集存在较多的镜头变化，镜头的平稳性有助于性能的提升，因此在TvSum数据集上的表现优于SumMe。

表2不同模块对应结果

选取模块，用于选取得分超过设定阈值的镜头进行组合，得到所述原始视频的视频摘要。

在一个实施例中，获取模块，包括：

定义所述原始视频帧序列为

采用KTS算法得到镜头序列

对所述镜头序列S采用预训练模型GoogLe Net提取图像特征

s′_m表示第m个镜头有T_m帧，F为每一帧的特征维度；

并堆叠作为整个视频的局部特征

在一个实施例中，构建模块，包括：

取右奇异矩阵的前n行作为每个镜头的SVD_frame，其公式为：

A＝U∑V^T

SVD_frame＝SVD(S_feature)＝V^T[n,:]

计算公式为：

是以W_φ,

为基的线性变换，W_φ,

W_e都是可学习的参数。

在一个实施例中，第一计算模块，包括：

其中，

为当前节点，

为邻居节点，

为可学习的注意力分布矩阵；

计算注意力权重，公式为：

a_ij＝N_j(e_ij)

在一个实施例中，输出模块，包括：

每一层的TAMGCN以GCN为基础建模得到：

其中，

为每一层中可训练的权值矩阵，

是注意力调整后的邻接矩阵：

在一个实施例中，第二计算模块，包括：

输出，其中，计算公式为：

在一个实施例中，融合模块，包括：

将

和时序特征Global_feature特征通过连接运算定义为

整个融合机制包括线性层和激活层：

其中，

和

为两个可学习的权重矩阵；

将局部特征

Spot_score＝σ(FC(R′⊙Q+S_data⊙(1-Q)))

FC(·)＝BN(Linear(·))

其中，σ(·)为sigmoid(·)激活函数，

为每一个镜头的非负得分。

上述各模块均是用于对应执行上述自适应图结构的视频摘要生成方法中的各个步骤，其具体实现方式参照上述方法实施例所述，在此不再进行赘述。

本发明还提供了一种计算机设备，该计算机设备可以是服务器，其内部结构可以。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储自适应图结构的视频摘要生成方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现自适应图结构的视频摘要生成方法。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意一个自适应图结构的视频摘要生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。