CN115525782A - 自适应图结构的视频摘要生成方法 - Google Patents
自适应图结构的视频摘要生成方法 Download PDFInfo
- Publication number
- CN115525782A CN115525782A CN202211197783.8A CN202211197783A CN115525782A CN 115525782 A CN115525782 A CN 115525782A CN 202211197783 A CN202211197783 A CN 202211197783A CN 115525782 A CN115525782 A CN 115525782A
- Authority
- CN
- China
- Prior art keywords
- feature
- shot
- attention
- frame
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000011159 matrix material Substances 0.000 claims abstract description 85
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 230000007246 mechanism Effects 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 17
- 230000002123 temporal effect Effects 0.000 claims abstract description 16
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 230000004913 activation Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012512 characterization method Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/483—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/438—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/44—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,公开了一种获取原始视频帧序列,并根据原始视频帧序列得到局部特征Sdata;根据原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;根据局部特征Sdata计算时序特征Globalfeature;将时序特征Globalfeature与graphfeature进行特征融合,得到原始视频帧序列中每个镜头的得分;根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到原始视频的视频摘要。本发明提供的方法,构对视频镜头有更好的处理能力,其中的注意力部分可以有效的关注到其中具有代表性和多样性的镜头,使得生成的摘要更具代表性和多样性。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种自适应图结构的视频摘要生成方法。
背景技术
随着互联网技术的发展和移动通讯设备的进步,网络视频领域突飞猛进。《中国互联网络发展状况统计报告(2022)》显示,截至2021年12月,我国网民人均每周上网时长达到28.5小时。而在网民中,即时通信,网络视频,短视频用户使用率分别为97.5%、94.5%和90.5%,用户规模分别达10.07亿,9.75亿和9.34亿。这其中网络视频和短视频数据不仅数量庞大而且类型繁多,这使得网络视频内容的审核难度加大,同时用户对视频的快速浏览需求与日俱增。视频摘要技术的目的便是提取不同类型视频的关键信息,提升浏览效率。
研究视频摘要技术将有助于解决上述问题,视频摘要是以自动或半自动的方式,通过分析视频的结构和内容存在的时空冗余,从原始视频中提取关键帧或感兴趣的目标的活动信息自动生成视频摘要,使得用户可以通过少量的关键信息快速浏览原始视频的内容。视频摘要分为静态摘要和动态摘要,静态摘要通过提取若干关键帧合成为摘要,动态摘要则是组合关键镜头生成摘要。静态摘要最大的不足是合成的摘要不具有时序连贯性,给人一种快进的感觉,而动态摘要是将镜头进行组合,在不丢失关键内容的同时保留了视觉连贯性。现有的视频摘要生成方法将线性的视频序列输入深度学习网络,但是这种方式在输入序列过长时仍然具有很大的限制,并且未能充分考虑视频镜头在不同的时间点具有相同的语义。
发明内容
本发明提供了一种自适应图结构的视频摘要生成方法,构建基于图神经网络的自适应邻接矩阵网络TAMGCN,使用邻接矩阵表示镜头之间的关系,同时针对图神经网络中邻接矩阵不变的性质提出适应邻接矩阵的注意力机制动态的更改每一层邻接矩阵的权重大小,以对视频镜头有更好的处理能力,其中的注意力部分可以有效的关注到其中具有代表性和多样性的镜头,使得生成的摘要更具代表性和多样性。
本发明提供了一种自适应图结构的视频摘要生成方法,构建TAMGCN网络模型,包括:
获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata;
根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;
根据局部特征Sdata计算时序特征Globalfeature;
将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
进一步地,所述获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata的步骤,包括:
Sfeature通过长短期记忆网络双向编码得到每个视频的局部特征,其公式为:
通过计算每一个镜头中的帧和其余帧之间的2-范数,选择与其它平均范数最低帧作为该镜头的代表性帧,其公式为:
取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
SVDframe=SVD(Sfeature)=VT[n,:]
其中,U为左奇异矩阵,对行数进行压缩,VT为右奇异矩阵,对列数进行压缩,Σ是奇异值;
定义每个视频的镜头作为节点,根据每个镜头的SVDframe和代表性帧得到图上的节点特征为Spotfeature=[presentframe||SVDframe];
在TAMGCN网络模型中采用注意力机制,根据当前层的输入计算每一层的注意力,当前节点的注意力计算公式为:
计算注意力权重,公式为:
aij=Nj(eij)
进一步地,所述根据注意力矩阵得到TAMGCN网络模型的输出graphfeature的步骤,包括:
每一层的TAMGCN以GCN为基础建模得到:
进一步地,所述根据局部特征Sdata计算时序特征Globalfeature的步骤,包括:
进一步地,所述将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分的步骤,包括:
整个融合机制包括线性层和激活层:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
本发明还提供了一种自适应图结构的视频摘要生成装置,构建TAMGCN网络模型,包括:
获取模块,用于获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata;
输出模块,用于根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;
第二计算模块,用于根据局部特征Sdata计算时序特征Globalfeature;
融合模块,用于将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
选取模块,用于根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的有益效果为:
本发明首先将输入的视频划分镜头并通过卷积神经网络提取每个视频帧的图像特征;选择代表性帧的同时压缩镜头数据,并构建邻接矩阵;使用TAMGCN计算结构特征,最后特征融合并计算每一个镜头的得分,最后选取分数超过设定阈值的镜头组成视频摘要,使生成的摘要能更好的学习视频镜头之间的结构信息,解决在图卷积神经网络中邻接矩阵一旦确定就以固定的权重聚合邻居的问题。
附图说明
图1为本发明中TAMGCN网络模型的结构示意图。
图2为本发明中SVD分解示意图。
图3为本发明中自适应图结构的注意力模型示意图。
图4为本发明中镜头分数对比示意图。
图5为本发明中邻接矩阵分布示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
视频摘要是从原始的视频中提取具有代表性和多样性的关键帧或者关键镜头并以某一种方式呈现出来,使用户在不看原始视频的前提下快速掌握视频的主要内容。提出基于图神经网络的自适应邻接矩阵网络TAMGCN,使用邻接矩阵表示镜头之间的关系,同时针对图神经网络中邻接矩阵不变的性质提出适应邻接矩阵的注意力机制动态的更改每一层邻接矩阵的权重大小,注意力部分可以有效的关注到其中具有代表性和多样性的镜头,使得生成的摘要更具代表性和多样性。
设计的自适应图结构的视频摘要生成网络TAMGCN,模型结构如图1所示。TAMGCN网络主要包括5个部分:视频帧特征提取、邻接矩阵构建、图结构特征提取、时序特征提取、特征融合。视频帧特征提取部分通过Google Net提取视频帧的深度特征,邻接矩阵的构建部分将特征向量通过代表性特征和SVD分解特征计算每一个镜头的特征向量,计算完成构建邻接矩阵,最后经过前馈神经网络和再一次的残差连接和层正则化,图1中仅展示了一层,可根据需要添加若干层。时序特征部分由双向LSTM完成,进而通过特征融合机制特征融合,最后通过标注计算出对应的Loss。动态摘要是基于镜头的选择,因此通过算术平均将帧级分数转换成镜头分数。优化部分则由背包算法选出若干关键镜头组成摘要,最后通过MSE损失和稀疏损失完成对摘要的奖励值计算。
如图1所示,本发明提供了一种自适应图结构的视频摘要生成方法,构建TAMGCN网络模型,包括:
S1、获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata;对原始视频帧序列进行数据预处理,即视频特征提取,具体包括:
对输入的原始视频帧序列定义为其中N代表每一个视频中所含的视频帧的个数,w,h,3代表每一帧图片的宽、高、通道数,xn代表第n个视频帧。使用Kernel Temporal Segmentation(KTS)算法得到镜头序列其中M表示一个视频共划分了M个镜头,sm表示第m个镜头中有Tm帧且
其中,其中BiLSTM(·)表示双向LSTM网络,它是由两个不同方向的LSTM拼接组成。
在应用图神经网络时,首先明确数据中的图结构。图结构通常有两种场景:结构性场景和非结构性场景。在结构化的场景中,图结构在应用中是显式的,如分子、物理系统、知识图等方面的应用。而在非结构化场景中,图是隐式的,因此首先从任务中建模图。在视频摘要任务中为视频帧或者镜头建模场景的无向图,在建模图之前,首先定义每个视频的镜头作为节点,图上的节点特征定义为:
Spotfeature=[presentframe||SVDframe]
因此,步骤S2具体包括:
确定奇异特征值:相比于QR等分解只能在方阵进行分解矩阵,如图2所示,奇异值(SVD)分解算法是一种可在任意规模进行分解的矩阵分解算法,其中U是左奇异矩阵,是对行数进行压缩,VT是右奇异矩阵,对列数进行压缩,Σ是奇异值,并且奇异值∑中前n个奇异值占据了奇异值总和的大部分。
通常取左奇异矩阵U的前n列做该矩阵的主要特征,但是这种方式对于帧数不固定的镜头来说并不友好。对于不同的镜头来说,不同的帧数导致左奇异矩阵的前n列数据个数并不相同,并且一个不确定长度的数据在神经网络中是无法学习的,因此取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
SVDframe=SVD(Sfeature)=VT[n,:]
对于视频摘要并没有显式的邻接矩阵,因此需要生成邻接矩阵,如图5所示。在得到每一个节点特征之后,计算两个镜头之间的相似程度作为对应节点的边,即邻接矩阵的值,即:
因此,步骤S3具体包括:
如图3所示,为了克服每层GCN的每一层受到固定的邻接矩阵作用,在TAMGCN中使用注意力机制确保每一层邻接矩阵的作用效果都是不一样的。在TAMGCN网络模型中采用注意力机制,受到GAT的启发,每一层的注意力都是根据当前层的输入计算的,当前节点的注意力计算方式为:
计算注意力权重,公式为:
aij=Nj(eij)
S4、根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;
步骤S4具体包括:
TAMGCN模型f(Sdata,Aadj,attmap)学习视频镜头之间的关系,其中Sdata代表输入视频的节点特征,attmap是根据当前层的输入Sdata计算的注意力矩阵,Aadj为邻接矩阵。每一层的TAMGCN以GCN为基础建模得到:
其中,attmap为根据每一层的H(l)生成的注意力矩阵,以此达到根据不同的输入数据动态调整邻居节点对当前节点的影响。TAMGCN的输出H(L-1)表示最后一层的图输出,FL-1代表最后一层的TAMGCN输出的维度,为了模型便于移植,将FL-1的维度设置成与F的维度相同,不会因为模型增加图部分而做额外的参数调整。
S5、根据局部特征Sdata计算时序特征Globalfeature;
步骤S5具体包括:
S6、将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
步骤S6具体包括:
整个融合机制包括线性层和激活层:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
S7、根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
步骤S7包括:
摘要的生成由镜头组成,模型的输出结果为帧级重要性分数,需要将其转化为镜头分数。完成转化,首先需要对视频进行镜头划分,采用KTS算法得到视频跳跃点进而划分出镜头,通过对镜头中每一帧分数加和求均值得到镜头分数。摘要的长度不宜超过原视频的15%同时最大化摘要分数。分数最大化问题视为NP难问题,采用0/1背包问题中的动态规划算法来完成镜头的选择:
其中,i表示镜头编号,j表示帧编号,K表示镜头个数,L表示视频包含的帧数,li表示第i个镜头包含帧的个数,yij表示第i个镜头中第j帧的分数,ui∈{0,1},当ui=1时表示第i个镜头被选中。
本发明基于预训练的Google Net网络完成输入视频帧的图像特征提取。后续,根据KTS算法划分的镜头,计算具有代表性的represent帧,同时为了represent帧具有一定的镜头信息,使用SVD算法分解镜头特征并选择一定量的特征值,之后将这两个特征级联起来作为节点特征。
Spotfeature=[presentframe||SVDframe]
在训练时,通过余弦距离计算镜头之间的相似度并构建邻接矩阵,进而使用TAMGCN提取视频镜头的结构特征,LSTM网络提取视频镜头的时序特征。
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
其中,Q为通过时序特征计算的影响因子,R’为融合的时序特征,Sdata表示镜头特征,采用fusion gate完成特征之间的融合。
完成构建TAMGCN网络模型后,通过MSE损失和稀疏性损失完成TAMGCN网络模型的优化。损失函数作为衡量模型预测值和真实值之间差异的函数,损失函数越小说明模型和参数越符合训练样本。采用均方误差(MSE)计算模型的损失,得到的误差表示预测值与实际值之间的欧氏距离,其中yreal表示真实的分数,yscore=spotscore表示预测的分数:
此外,考虑视频摘要的目标是使用少量的镜头尽可能的表达整个视频的语义,在本模型中倾向于计算出的attmap应该是稀疏的,由此设计稀疏性损失Lossatt来约束attmap的稀疏性,定义如下:
本发明使生成的摘要能更好的学习视频镜头之间的结构信息,提出了自适应图结构的视频摘要网络TAMGCN,解决在图卷积神经网络中邻接矩阵一旦确定就以固定的权重聚合邻居的问题。首先将输入的视频划分镜头并通过卷积神经网络提取每个视频帧的图像特征;选择代表性帧的同时压缩镜头数据,并构建邻接矩阵;使用TAMGCN计算结构特征,最后特征融合并计算每一个镜头的得分。此外,设计稀疏性规则来训练网络,鼓励多样化的摘要被选择,使得模型拥有更强的学习能力,进一步提升预测准确性,生成更符合用户视觉的视频摘要。
在实验时选取其中80%作为训练集,剩余20%作为测试集。考虑到选取的数据不同带来的误差波动和模型复杂导致的过拟合,对两个数据集使用5折交叉验证。对于TvSum数据集,其中的视频多为用户自主拍摄,存在着较多的边界变化,因此20个人的标注得分差异较大;对于SumMe数据集,其中视频多为经过编辑的结构化视频,边界变化小,标注得分差异小,在计算F1-score时,对TvSum数据集取平均值,对SumMe数据集取最大值。
为了验证统一性奖励和有监督信息对模型的影响,在两个数据集上进行了消融实验。首先对不同的方法命名,如表1所示。TL-Ren为基于Transformer和LSTM的深度摘要网络,其中强化学习的奖励函数使用代表性奖励(Rep)和多样性奖励(Div);TL-RenL在前者的基础上引入了有监督的信息;TL-RenUni为奖励函数联合使用代表性奖励、多样性奖励和统一性奖励(Uni)的方法;TL-RenUL则是同时引入统一性奖励和有监督信息的方法。
表1不同模块对应名称
表2展示了不同方法在两个数据集上的结果对比,从表中可以看出TL-RenUL(使用了统一性和监督信息)方法在两个数据集上都取得了最好的效果,这表明该方法可以指导模型生成质量更高的视频摘要通过联合使用Rep、Div和Uni作为奖励函数以及引入有监督信息。此外,对比TL-Ren和TL-RenUni可以看出统一性奖励的加入在两个数据集上的性能分别提高了0.6%和0.4%。实验结果表明,奖励函数中统一性的引入能提高升镜头的平稳性;同时,TvSum数据集存在较多的镜头变化,镜头的平稳性有助于性能的提升,因此在TvSum数据集上的表现优于SumMe。
表2不同模块对应结果
本发明还提供了一种自适应图结构的视频摘要生成装置,构建TAMGCN网络模型,包括:
获取模块,用于获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata;
输出模块,用于根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;
第二计算模块,用于根据局部特征Sdata计算时序特征Globalfeature;
融合模块,用于将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
选取模块,用于选取得分超过设定阈值的镜头进行组合,得到所述原始视频的视频摘要。
在一个实施例中,获取模块,包括:
Sfeature通过长短期记忆网络双向编码得到每个视频的局部特征,其公式为:
在一个实施例中,构建模块,包括:
通过计算每一个镜头中的帧和其余帧之间的2-范数,选择与其它平均范数最低帧作为该镜头的代表性帧,其公式为:
取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
SVDframe=SVD(Sfeature)=VT[n,:]
其中,U为左奇异矩阵,对行数进行压缩,VT为右奇异矩阵,对列数进行压缩,Σ是奇异值;
定义每个视频的镜头作为节点,根据每个镜头的SVDframe和代表性帧得到图上的节点特征为Spotfeature=[presentframe||SVDframe];
在一个实施例中,第一计算模块,包括:
在TAMGCN网络模型中采用注意力机制,根据当前层的输入计算每一层的注意力,当前节点的注意力计算公式为:
计算注意力权重,公式为:
aij=Nj(eij)
在一个实施例中,输出模块,包括:
每一层的TAMGCN以GCN为基础建模得到:
在一个实施例中,第二计算模块,包括:
在一个实施例中,融合模块,包括:
整个融合机制包括线性层和激活层:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
上述各模块均是用于对应执行上述自适应图结构的视频摘要生成方法中的各个步骤,其具体实现方式参照上述方法实施例所述,在此不再进行赘述。
本发明还提供了一种计算机设备,该计算机设备可以是服务器,其内部结构可以。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储自适应图结构的视频摘要生成方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现自适应图结构的视频摘要生成方法。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一个自适应图结构的视频摘要生成方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种自适应图结构的视频摘要生成方法,其特征在于,构建TAMGCN网络模型,包括:
获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata;
根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;
根据局部特征Sdata计算时序特征Globalfeature;
将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
2.根据权利要求1所述的自适应图结构的视频摘要生成方法,其特征在于,所述获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata的步骤,包括:
Sfeature通过长短期记忆网络双向编码得到每个视频的局部特征,其公式为:
通过计算每一个镜头中的帧和其余帧之间的2-范数,选择与其它平均范数最低帧作为该镜头的代表性帧,其公式为:
取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
SVDframe=SVD(Sfeature)=VT[n,:]
其中,U为左奇异矩阵,对行数进行压缩,VT为右奇异矩阵,对列数进行压缩,Σ是奇异值;
定义每个视频的镜头作为节点,根据每个镜头的SVDframe和代表性帧得到图上的节点特征为Spotfeature=[presentframe||SVDframe];
7.根据权利要求6所述的自适应图结构的视频摘要生成方法,其特征在于,所述将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分的步骤,包括:
整个融合机制包括线性层和激活层:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
8.一种自适应图结构的视频摘要生成装置,其特征在于,构建TAMGCN网络模型,包括:
获取模块,用于获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata;
输出模块,用于根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;
第二计算模块,用于根据局部特征Sdata计算时序特征Globalfeature;
融合模块,用于将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
选取模块,用于根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197783.8A CN115525782A (zh) | 2022-09-29 | 2022-09-29 | 自适应图结构的视频摘要生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211197783.8A CN115525782A (zh) | 2022-09-29 | 2022-09-29 | 自适应图结构的视频摘要生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115525782A true CN115525782A (zh) | 2022-12-27 |
Family
ID=84698937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211197783.8A Withdrawn CN115525782A (zh) | 2022-09-29 | 2022-09-29 | 自适应图结构的视频摘要生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115525782A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117376502A (zh) * | 2023-12-07 | 2024-01-09 | 翔飞(天津)智能科技有限公司 | 一种基于ai技术的视频制作系统 |
-
2022
- 2022-09-29 CN CN202211197783.8A patent/CN115525782A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117376502A (zh) * | 2023-12-07 | 2024-01-09 | 翔飞(天津)智能科技有限公司 | 一种基于ai技术的视频制作系统 |
CN117376502B (zh) * | 2023-12-07 | 2024-02-13 | 翔飞(天津)智能科技有限公司 | 一种基于ai技术的视频制作系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423442B (zh) | 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备 | |
CN108846340A (zh) | 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备 | |
CN111428771B (zh) | 视频场景分类方法、装置和计算机可读存储介质 | |
CN113792682B (zh) | 基于人脸图像的人脸质量评估方法、装置、设备及介质 | |
Qin et al. | Data-efficient image quality assessment with attention-panel decoder | |
CN111611488B (zh) | 基于人工智能的信息推荐方法、装置、电子设备 | |
EP4287144A1 (en) | Video behavior recognition method and apparatus, and computer device and storage medium | |
CN113051468B (zh) | 一种基于知识图谱和强化学习的电影推荐方法及系统 | |
CN109543112A (zh) | 一种基于循环卷积神经网络的序列推荐方法及装置 | |
CN113128527B (zh) | 基于变换器模型和卷积神经网络的图像场景分类方法 | |
CN112149651A (zh) | 一种基于深度学习的人脸表情识别方法、装置及设备 | |
CN115525782A (zh) | 自适应图结构的视频摘要生成方法 | |
Long et al. | Trainable subspaces for low rank tensor completion: Model and analysis | |
CN113822790A (zh) | 一种图像处理方法、装置、设备及计算机可读存储介质 | |
Chen et al. | Deformable convolutional matrix factorization for document context-aware recommendation in social networks | |
Chen et al. | Image Aesthetics Assessment with Emotion-Aware Multi-Branch Network | |
Wang et al. | Blind Image Quality Assessment via Adaptive Graph Attention | |
CN116797850A (zh) | 基于知识蒸馏和一致性正则化的类增量图像分类方法 | |
CN116758379A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN117056721A (zh) | 模型参数的调整方法、装置、模型预测方法、设备及介质 | |
CN111552810A (zh) | 实体抽取与分类方法、装置、计算机设备和存储介质 | |
CN115470397B (zh) | 内容推荐方法、装置、计算机设备和存储介质 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN112287222B (zh) | 一种基于异质特征深度残差网络的内容推荐方法 | |
He et al. | Interest HD: An interest frame model for recommendation based on HD image generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221227 |