CN115525782A - 自适应图结构的视频摘要生成方法 - Google Patents

自适应图结构的视频摘要生成方法 Download PDF

Info

Publication number
CN115525782A
CN115525782A CN202211197783.8A CN202211197783A CN115525782A CN 115525782 A CN115525782 A CN 115525782A CN 202211197783 A CN202211197783 A CN 202211197783A CN 115525782 A CN115525782 A CN 115525782A
Authority
CN
China
Prior art keywords
feature
shot
attention
frame
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211197783.8A
Other languages
English (en)
Inventor
武光利
王圣焘
张静
王平
张馨月
田军
牛君会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gansu Eurasia Information Technology Co ltd
Original Assignee
Gansu Eurasia Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gansu Eurasia Information Technology Co ltd filed Critical Gansu Eurasia Information Technology Co ltd
Priority to CN202211197783.8A priority Critical patent/CN115525782A/zh
Publication of CN115525782A publication Critical patent/CN115525782A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/483Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉技术领域,公开了一种获取原始视频帧序列,并根据原始视频帧序列得到局部特征Sdata;根据原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure DDA0003871172150000011
在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure DDA0003871172150000012
根据注意力矩阵得到TAMGCN网络模型的输出graphfeature;根据局部特征Sdata计算时序特征Globalfeature;将时序特征Globalfeature与graphfeature进行特征融合,得到原始视频帧序列中每个镜头的得分;根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到原始视频的视频摘要。本发明提供的方法,构对视频镜头有更好的处理能力,其中的注意力部分可以有效的关注到其中具有代表性和多样性的镜头,使得生成的摘要更具代表性和多样性。

Description

自适应图结构的视频摘要生成方法
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种自适应图结构的视频摘要生成方法。
背景技术
随着互联网技术的发展和移动通讯设备的进步,网络视频领域突飞猛进。《中国互联网络发展状况统计报告(2022)》显示,截至2021年12月,我国网民人均每周上网时长达到28.5小时。而在网民中,即时通信,网络视频,短视频用户使用率分别为97.5%、94.5%和90.5%,用户规模分别达10.07亿,9.75亿和9.34亿。这其中网络视频和短视频数据不仅数量庞大而且类型繁多,这使得网络视频内容的审核难度加大,同时用户对视频的快速浏览需求与日俱增。视频摘要技术的目的便是提取不同类型视频的关键信息,提升浏览效率。
研究视频摘要技术将有助于解决上述问题,视频摘要是以自动或半自动的方式,通过分析视频的结构和内容存在的时空冗余,从原始视频中提取关键帧或感兴趣的目标的活动信息自动生成视频摘要,使得用户可以通过少量的关键信息快速浏览原始视频的内容。视频摘要分为静态摘要和动态摘要,静态摘要通过提取若干关键帧合成为摘要,动态摘要则是组合关键镜头生成摘要。静态摘要最大的不足是合成的摘要不具有时序连贯性,给人一种快进的感觉,而动态摘要是将镜头进行组合,在不丢失关键内容的同时保留了视觉连贯性。现有的视频摘要生成方法将线性的视频序列输入深度学习网络,但是这种方式在输入序列过长时仍然具有很大的限制,并且未能充分考虑视频镜头在不同的时间点具有相同的语义。
发明内容
本发明提供了一种自适应图结构的视频摘要生成方法,构建基于图神经网络的自适应邻接矩阵网络TAMGCN,使用邻接矩阵表示镜头之间的关系,同时针对图神经网络中邻接矩阵不变的性质提出适应邻接矩阵的注意力机制动态的更改每一层邻接矩阵的权重大小,以对视频镜头有更好的处理能力,其中的注意力部分可以有效的关注到其中具有代表性和多样性的镜头,使得生成的摘要更具代表性和多样性。
本发明提供了一种自适应图结构的视频摘要生成方法,构建TAMGCN网络模型,包括:
获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata
根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure BDA0003871172130000011
在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure BDA0003871172130000021
根据注意力矩阵得到TAMGCN网络模型的输出graphfeature
根据局部特征Sdata计算时序特征Globalfeature
将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
进一步地,所述获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata的步骤,包括:
定义所述原始视频帧序列为
Figure BDA0003871172130000022
其中,N为每一个视频中所含的视频帧的个数,w,h,3为每一帧图片的宽、高、通道数,xn代表第n个视频帧;
采用KTS算法得到镜头序列
Figure BDA0003871172130000023
其中,M表示一个视频共划分了M个镜头,sm表示第m个镜头中有Tm帧且
Figure BDA0003871172130000024
对所述镜头序列S采用预训练模型GoogLe Net提取图像特征
Figure BDA0003871172130000025
s′m表示第m个镜头有Tm帧,F为每一帧的特征维度;
Sfeature通过长短期记忆网络双向编码得到每个视频的局部特征,其公式为:
Figure BDA0003871172130000026
其中,BiLSTM(·)表示双向LSTM网络,BiLSTM(·)的输出为最后一层隐藏层
Figure BDA0003871172130000027
ht的最后一帧编码了当前镜头中前向和后向的时序信息,取每个镜头输出ht的最后一帧
Figure BDA0003871172130000028
并堆叠作为整个视频的局部特征
Figure BDA0003871172130000029
进一步地,所述根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure BDA00038711721300000210
的步骤,包括:
通过计算每一个镜头中的帧和其余帧之间的2-范数,选择与其它平均范数最低帧作为该镜头的代表性帧,其公式为:
Figure BDA0003871172130000031
取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
Figure BDA0003871172130000032
SVDframe=SVD(Sfeature)=VT[n,:]
其中,U为左奇异矩阵,对行数进行压缩,VT为右奇异矩阵,对列数进行压缩,Σ是奇异值;
定义每个视频的镜头作为节点,根据每个镜头的SVDframe和代表性帧得到图上的节点特征为Spotfeature=[presentframe||SVDframe];
计算两个镜头之间的相似程度作为对应节点的边,即邻接矩阵的值,并构建邻接矩阵
Figure BDA0003871172130000033
计算公式为:
Figure BDA0003871172130000034
其中,x为每个节点特征Spotfeature,[·||·]表示连接操作,φ(·),
Figure BDA0003871172130000035
是以Wφ,
Figure BDA0003871172130000036
为基的线性变换,Wφ,
Figure BDA0003871172130000037
We都是可学习的参数。
进一步地,所述在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure BDA0003871172130000038
的步骤,包括:
在TAMGCN网络模型中采用注意力机制,根据当前层的输入计算每一层的注意力,当前节点的注意力计算公式为:
Figure BDA0003871172130000039
其中,
Figure BDA00038711721300000310
为当前节点,
Figure BDA00038711721300000311
为邻居节点,
Figure BDA00038711721300000312
是可学习的权值矩阵,[·||·]表示连接操作,LeakyReLU(·)为激活函数,
Figure BDA00038711721300000313
为可学习的注意力分布矩阵;
计算注意力权重,公式为:
aij=Nj(eij)
其中,aij为注意力权重,N(·)=exp(·)/∑exp(·)为归一化算子,整个层的图注意力的输出为
Figure BDA0003871172130000041
进一步地,所述根据注意力矩阵得到TAMGCN网络模型的输出graphfeature的步骤,包括:
每一层的TAMGCN以GCN为基础建模得到:
Figure BDA0003871172130000042
其中,
Figure BDA0003871172130000043
为第l层的输出,l=0,1,...,L-1andH(0)=Sdata,σ(·)为激活函数,
Figure BDA0003871172130000044
为每一层中可训练的权值矩阵,
Figure BDA0003871172130000045
是注意力调整后的邻接矩阵:
Figure BDA0003871172130000046
其中,attmap为根据每一层的H(l)生成的注意力矩阵,TAMGCN的输出
Figure BDA0003871172130000047
H(L-1)为最后一层的图输出,FL-1为最后一层的TAMGCN输出的维度,FL-1的维度与F的维度相同。
进一步地,所述根据局部特征Sdata计算时序特征Globalfeature的步骤,包括:
将局部特征Sdata输入BiLSTM(·)网络,并取隐藏层的最后一层作为时序特征
Figure BDA0003871172130000048
输出,其中,计算公式为:
Figure BDA0003871172130000049
进一步地,所述将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分的步骤,包括:
Figure BDA00038711721300000410
和时序特征Globalfeature特征通过连接运算定义为
Figure BDA00038711721300000411
整个融合机制包括线性层和激活层:
Figure BDA00038711721300000412
Figure BDA0003871172130000051
其中,
Figure BDA0003871172130000052
Figure BDA0003871172130000053
为两个可学习的权重矩阵;
将局部特征
Figure BDA0003871172130000054
和R′特征融合,并通过多个全连接层FC(·)得出最后的镜头分数spotscore,其公式为:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
其中,σ(·)为sigmoid(·)激活函数,
Figure BDA0003871172130000055
为每一个镜头的非负得分。
本发明还提供了一种自适应图结构的视频摘要生成装置,构建TAMGCN网络模型,包括:
获取模块,用于获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata
构建模块,用于根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure BDA0003871172130000056
第一计算模块,用于在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure BDA0003871172130000057
输出模块,用于根据注意力矩阵得到TAMGCN网络模型的输出graphfeature
第二计算模块,用于根据局部特征Sdata计算时序特征Globalfeature
融合模块,用于将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
选取模块,用于根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的有益效果为:
本发明首先将输入的视频划分镜头并通过卷积神经网络提取每个视频帧的图像特征;选择代表性帧的同时压缩镜头数据,并构建邻接矩阵;使用TAMGCN计算结构特征,最后特征融合并计算每一个镜头的得分,最后选取分数超过设定阈值的镜头组成视频摘要,使生成的摘要能更好的学习视频镜头之间的结构信息,解决在图卷积神经网络中邻接矩阵一旦确定就以固定的权重聚合邻居的问题。
附图说明
图1为本发明中TAMGCN网络模型的结构示意图。
图2为本发明中SVD分解示意图。
图3为本发明中自适应图结构的注意力模型示意图。
图4为本发明中镜头分数对比示意图。
图5为本发明中邻接矩阵分布示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
视频摘要是从原始的视频中提取具有代表性和多样性的关键帧或者关键镜头并以某一种方式呈现出来,使用户在不看原始视频的前提下快速掌握视频的主要内容。提出基于图神经网络的自适应邻接矩阵网络TAMGCN,使用邻接矩阵表示镜头之间的关系,同时针对图神经网络中邻接矩阵不变的性质提出适应邻接矩阵的注意力机制动态的更改每一层邻接矩阵的权重大小,注意力部分可以有效的关注到其中具有代表性和多样性的镜头,使得生成的摘要更具代表性和多样性。
设计的自适应图结构的视频摘要生成网络TAMGCN,模型结构如图1所示。TAMGCN网络主要包括5个部分:视频帧特征提取、邻接矩阵构建、图结构特征提取、时序特征提取、特征融合。视频帧特征提取部分通过Google Net提取视频帧的深度特征,邻接矩阵的构建部分将特征向量通过代表性特征和SVD分解特征计算每一个镜头的特征向量,计算完成构建邻接矩阵,最后经过前馈神经网络和再一次的残差连接和层正则化,图1中仅展示了一层,可根据需要添加若干层。时序特征部分由双向LSTM完成,进而通过特征融合机制特征融合,最后通过标注计算出对应的Loss。动态摘要是基于镜头的选择,因此通过算术平均将帧级分数转换成镜头分数。优化部分则由背包算法选出若干关键镜头组成摘要,最后通过MSE损失和稀疏损失完成对摘要的奖励值计算。
如图1所示,本发明提供了一种自适应图结构的视频摘要生成方法,构建TAMGCN网络模型,包括:
S1、获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata;对原始视频帧序列进行数据预处理,即视频特征提取,具体包括:
对输入的原始视频帧序列定义为
Figure BDA0003871172130000071
其中N代表每一个视频中所含的视频帧的个数,w,h,3代表每一帧图片的宽、高、通道数,xn代表第n个视频帧。使用Kernel Temporal Segmentation(KTS)算法得到镜头序列
Figure BDA0003871172130000072
其中M表示一个视频共划分了M个镜头,sm表示第m个镜头中有Tm帧且
Figure BDA0003871172130000073
对S使用预训练模型GoogLe Net,并提取图像特征
Figure BDA0003871172130000074
s′m表示第m个镜头有Tm帧,F为每一帧的特征维度;每个视频的局部特征Sdata由Sfeature通过长短期记忆网络双向编码得到,其公式为:
Figure BDA0003871172130000075
其中,其中BiLSTM(·)表示双向LSTM网络,它是由两个不同方向的LSTM拼接组成。
BiLSTM(·)的输出为最后一层隐藏层
Figure BDA0003871172130000076
因为ht的最后一帧编码了当前镜头中前向和后向的时序信息,取每个镜头输出ht的最后一帧
Figure BDA0003871172130000077
并堆叠作为整个视频的局部特征
Figure BDA0003871172130000078
S2、根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure BDA0003871172130000079
在应用图神经网络时,首先明确数据中的图结构。图结构通常有两种场景:结构性场景和非结构性场景。在结构化的场景中,图结构在应用中是显式的,如分子、物理系统、知识图等方面的应用。而在非结构化场景中,图是隐式的,因此首先从任务中建模图。在视频摘要任务中为视频帧或者镜头建模场景的无向图,在建模图之前,首先定义每个视频的镜头作为节点,图上的节点特征定义为:
Spotfeature=[presentframe||SVDframe]
节点特征
Figure BDA00038711721300000710
由代表性特征和奇异值特征拼接组成。
因此,步骤S2具体包括:
确定代表性帧:代表性特征
Figure BDA00038711721300000711
受到强化学习中的代表性奖励的启发,通过计算每一个镜头中的帧和其余帧之间的2-范数,选择与其它平均范数最低帧作为该镜头的代表性帧,其公式为:
Figure BDA0003871172130000081
确定奇异特征值:相比于QR等分解只能在方阵进行分解矩阵,如图2所示,奇异值(SVD)分解算法是一种可在任意规模进行分解的矩阵分解算法,其中U是左奇异矩阵,是对行数进行压缩,VT是右奇异矩阵,对列数进行压缩,Σ是奇异值,并且奇异值∑中前n个奇异值占据了奇异值总和的大部分。
通常取左奇异矩阵U的前n列做该矩阵的主要特征,但是这种方式对于帧数不固定的镜头来说并不友好。对于不同的镜头来说,不同的帧数导致左奇异矩阵的前n列数据个数并不相同,并且一个不确定长度的数据在神经网络中是无法学习的,因此取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
Figure BDA0003871172130000082
SVDframe=SVD(Sfeature)=VT[n,:]
对于视频摘要并没有显式的邻接矩阵,因此需要生成邻接矩阵,如图5所示。在得到每一个节点特征之后,计算两个镜头之间的相似程度作为对应节点的边,即邻接矩阵的值,即:
Figure BDA0003871172130000083
其中,x为每个节点特征Spotfeature,[·||·]表示连接操作,φ(·),
Figure BDA0003871172130000084
是以Wφ,
Figure BDA0003871172130000085
为基的线性变换,Wφ,
Figure BDA0003871172130000086
We都是可学习的参数,通过以上方式构建邻接矩阵
Figure BDA0003871172130000087
S3、在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure BDA0003871172130000088
因此,步骤S3具体包括:
如图3所示,为了克服每层GCN的每一层受到固定的邻接矩阵作用,在TAMGCN中使用注意力机制确保每一层邻接矩阵的作用效果都是不一样的。在TAMGCN网络模型中采用注意力机制,受到GAT的启发,每一层的注意力都是根据当前层的输入计算的,当前节点的注意力计算方式为:
Figure BDA0003871172130000091
其中,
Figure BDA0003871172130000092
为当前节点,
Figure BDA0003871172130000093
为邻居节点,
Figure BDA0003871172130000094
是可学习的权值矩阵,[·||·]表示连接操作,LeakyReLU(·)为激活函数,
Figure BDA0003871172130000095
为可学习的注意力分布矩阵;
计算注意力权重,公式为:
aij=Nj(eij)
其中,aij为注意力权重,N(·)=exp(·)/∑exp(·)为归一化算子,整个层的图注意力的输出为
Figure BDA0003871172130000096
S4、根据注意力矩阵得到TAMGCN网络模型的输出graphfeature
步骤S4具体包括:
TAMGCN模型f(Sdata,Aadj,attmap)学习视频镜头之间的关系,其中Sdata代表输入视频的节点特征,attmap是根据当前层的输入Sdata计算的注意力矩阵,Aadj为邻接矩阵。每一层的TAMGCN以GCN为基础建模得到:
Figure BDA0003871172130000097
其中,
Figure BDA0003871172130000098
为第l层的输出,l=0,1,...,L-1andH(0)=Sdata,σ(·)为激活函数,如ReLu(·)=max(0,·),
Figure BDA0003871172130000099
为每一层中可训练的权值矩阵,
Figure BDA00038711721300000910
是注意力调整后的邻接矩阵:
Figure BDA00038711721300000911
其中,attmap为根据每一层的H(l)生成的注意力矩阵,以此达到根据不同的输入数据动态调整邻居节点对当前节点的影响。TAMGCN的输出
Figure BDA00038711721300000912
H(L-1)表示最后一层的图输出,FL-1代表最后一层的TAMGCN输出的维度,为了模型便于移植,将FL-1的维度设置成与F的维度相同,不会因为模型增加图部分而做额外的参数调整。
S5、根据局部特征Sdata计算时序特征Globalfeature
步骤S5具体包括:
将局部特征Sdata输入BiLSTM(·)网络,并取隐藏层的最后一层作为时序特征
Figure BDA0003871172130000101
输出,其中,计算公式为:
Figure BDA0003871172130000102
S6、将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
步骤S6具体包括:
为了使graphfeature具有视频序列的时序特征Globalfeature,使用融合机制将
Figure BDA0003871172130000103
和时序特征Globalfeature特征融合。
Figure BDA0003871172130000104
和时序特征Globalfeature特征通过连接运算定义为
Figure BDA0003871172130000105
整个融合机制包括线性层和激活层:
Figure BDA0003871172130000106
Figure BDA0003871172130000107
其中,
Figure BDA0003871172130000108
Figure BDA0003871172130000109
为两个可学习的权重矩阵;为了保持原始镜头的语义信息,将局部特征
Figure BDA00038711721300001010
和R′特征融合,并通过多个全连接层FC(·)得出最后的镜头分数spotscore,如图4所示,图4为分数对比图,其公式为:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
其中,σ(·)为sigmoid(·)激活函数,
Figure BDA00038711721300001011
为每一个镜头的非负得分,分数越高代表越有机会被选入视频摘要。
S7、根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
步骤S7包括:
摘要的生成由镜头组成,模型的输出结果为帧级重要性分数,需要将其转化为镜头分数。完成转化,首先需要对视频进行镜头划分,采用KTS算法得到视频跳跃点进而划分出镜头,通过对镜头中每一帧分数加和求均值得到镜头分数。摘要的长度不宜超过原视频的15%同时最大化摘要分数。分数最大化问题视为NP难问题,采用0/1背包问题中的动态规划算法来完成镜头的选择:
Figure BDA0003871172130000111
Figure BDA0003871172130000112
其中,i表示镜头编号,j表示帧编号,K表示镜头个数,L表示视频包含的帧数,li表示第i个镜头包含帧的个数,yij表示第i个镜头中第j帧的分数,ui∈{0,1},当ui=1时表示第i个镜头被选中。
本发明基于预训练的Google Net网络完成输入视频帧的图像特征提取。后续,根据KTS算法划分的镜头,计算具有代表性的represent帧,同时为了represent帧具有一定的镜头信息,使用SVD算法分解镜头特征并选择一定量的特征值,之后将这两个特征级联起来作为节点特征。
Spotfeature=[presentframe||SVDframe]
在训练时,通过余弦距离计算镜头之间的相似度并构建邻接矩阵,进而使用TAMGCN提取视频镜头的结构特征,LSTM网络提取视频镜头的时序特征。
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
其中,Q为通过时序特征计算的影响因子,R’为融合的时序特征,Sdata表示镜头特征,采用fusion gate完成特征之间的融合。
完成构建TAMGCN网络模型后,通过MSE损失和稀疏性损失完成TAMGCN网络模型的优化。损失函数作为衡量模型预测值和真实值之间差异的函数,损失函数越小说明模型和参数越符合训练样本。采用均方误差(MSE)计算模型的损失,得到的误差表示预测值与实际值之间的欧氏距离,其中yreal表示真实的分数,yscore=spotscore表示预测的分数:
Figure BDA0003871172130000113
此外,考虑视频摘要的目标是使用少量的镜头尽可能的表达整个视频的语义,在本模型中倾向于计算出的attmap应该是稀疏的,由此设计稀疏性损失Lossatt来约束attmap的稀疏性,定义如下:
Figure BDA0003871172130000114
本发明使生成的摘要能更好的学习视频镜头之间的结构信息,提出了自适应图结构的视频摘要网络TAMGCN,解决在图卷积神经网络中邻接矩阵一旦确定就以固定的权重聚合邻居的问题。首先将输入的视频划分镜头并通过卷积神经网络提取每个视频帧的图像特征;选择代表性帧的同时压缩镜头数据,并构建邻接矩阵;使用TAMGCN计算结构特征,最后特征融合并计算每一个镜头的得分。此外,设计稀疏性规则来训练网络,鼓励多样化的摘要被选择,使得模型拥有更强的学习能力,进一步提升预测准确性,生成更符合用户视觉的视频摘要。
在实验时选取其中80%作为训练集,剩余20%作为测试集。考虑到选取的数据不同带来的误差波动和模型复杂导致的过拟合,对两个数据集使用5折交叉验证。对于TvSum数据集,其中的视频多为用户自主拍摄,存在着较多的边界变化,因此20个人的标注得分差异较大;对于SumMe数据集,其中视频多为经过编辑的结构化视频,边界变化小,标注得分差异小,在计算F1-score时,对TvSum数据集取平均值,对SumMe数据集取最大值。
为了验证统一性奖励和有监督信息对模型的影响,在两个数据集上进行了消融实验。首先对不同的方法命名,如表1所示。TL-Ren为基于Transformer和LSTM的深度摘要网络,其中强化学习的奖励函数使用代表性奖励(Rep)和多样性奖励(Div);TL-RenL在前者的基础上引入了有监督的信息;TL-RenUni为奖励函数联合使用代表性奖励、多样性奖励和统一性奖励(Uni)的方法;TL-RenUL则是同时引入统一性奖励和有监督信息的方法。
表1不同模块对应名称
Figure BDA0003871172130000121
表2展示了不同方法在两个数据集上的结果对比,从表中可以看出TL-RenUL(使用了统一性和监督信息)方法在两个数据集上都取得了最好的效果,这表明该方法可以指导模型生成质量更高的视频摘要通过联合使用Rep、Div和Uni作为奖励函数以及引入有监督信息。此外,对比TL-Ren和TL-RenUni可以看出统一性奖励的加入在两个数据集上的性能分别提高了0.6%和0.4%。实验结果表明,奖励函数中统一性的引入能提高升镜头的平稳性;同时,TvSum数据集存在较多的镜头变化,镜头的平稳性有助于性能的提升,因此在TvSum数据集上的表现优于SumMe。
表2不同模块对应结果
Figure BDA0003871172130000122
Figure BDA0003871172130000131
本发明还提供了一种自适应图结构的视频摘要生成装置,构建TAMGCN网络模型,包括:
获取模块,用于获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata
构建模块,用于根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure BDA0003871172130000132
第一计算模块,用于在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure BDA0003871172130000133
输出模块,用于根据注意力矩阵得到TAMGCN网络模型的输出graphfeature
第二计算模块,用于根据局部特征Sdata计算时序特征Globalfeature
融合模块,用于将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
选取模块,用于选取得分超过设定阈值的镜头进行组合,得到所述原始视频的视频摘要。
在一个实施例中,获取模块,包括:
定义所述原始视频帧序列为
Figure BDA0003871172130000134
其中,N为每一个视频中所含的视频帧的个数,w,h,3为每一帧图片的宽、高、通道数,xn代表第n个视频帧;
采用KTS算法得到镜头序列
Figure BDA0003871172130000135
其中,M表示一个视频共划分了M个镜头,sm表示第m个镜头中有Tm帧且
Figure BDA0003871172130000136
对所述镜头序列S采用预训练模型GoogLe Net提取图像特征
Figure BDA0003871172130000137
s′m表示第m个镜头有Tm帧,F为每一帧的特征维度;
Sfeature通过长短期记忆网络双向编码得到每个视频的局部特征,其公式为:
Figure BDA0003871172130000138
其中,BiLSTM(·)表示双向LSTM网络,BiLSTM(·)的输出为最后一层隐藏层
Figure BDA0003871172130000139
ht的最后一帧编码了当前镜头中前向和后向的时序信息,取每个镜头输出ht的最后一帧
Figure BDA0003871172130000141
并堆叠作为整个视频的局部特征
Figure BDA0003871172130000142
在一个实施例中,构建模块,包括:
通过计算每一个镜头中的帧和其余帧之间的2-范数,选择与其它平均范数最低帧作为该镜头的代表性帧,其公式为:
Figure BDA0003871172130000143
取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
Figure BDA0003871172130000144
SVDframe=SVD(Sfeature)=VT[n,:]
其中,U为左奇异矩阵,对行数进行压缩,VT为右奇异矩阵,对列数进行压缩,Σ是奇异值;
定义每个视频的镜头作为节点,根据每个镜头的SVDframe和代表性帧得到图上的节点特征为Spotfeature=[presentframe||SVDframe];
计算两个镜头之间的相似程度作为对应节点的边,即邻接矩阵的值,并构建邻接矩阵
Figure BDA0003871172130000145
计算公式为:
Figure BDA0003871172130000146
其中,x为每个节点特征Spotfeature,[·||·]表示连接操作,φ(·),
Figure BDA0003871172130000147
是以Wφ,
Figure BDA0003871172130000148
为基的线性变换,Wφ,
Figure BDA0003871172130000149
We都是可学习的参数。
在一个实施例中,第一计算模块,包括:
在TAMGCN网络模型中采用注意力机制,根据当前层的输入计算每一层的注意力,当前节点的注意力计算公式为:
Figure BDA00038711721300001410
其中,
Figure BDA0003871172130000151
为当前节点,
Figure BDA0003871172130000152
为邻居节点,
Figure BDA0003871172130000153
是可学习的权值矩阵,[·||·]表示连接操作,LeakyReLU(·)为激活函数,
Figure BDA0003871172130000154
为可学习的注意力分布矩阵;
计算注意力权重,公式为:
aij=Nj(eij)
其中,aij为注意力权重,N(·)=exp(·)/∑exp(·)为归一化算子,整个层的图注意力的输出为
Figure BDA0003871172130000155
在一个实施例中,输出模块,包括:
每一层的TAMGCN以GCN为基础建模得到:
Figure BDA0003871172130000156
其中,
Figure BDA0003871172130000157
为第l层的输出,l=0,1,...,L-1andH(0)=Sdata,σ(·)为激活函数,
Figure BDA0003871172130000158
为每一层中可训练的权值矩阵,
Figure BDA0003871172130000159
是注意力调整后的邻接矩阵:
Figure BDA00038711721300001510
其中,attmap为根据每一层的H(l)生成的注意力矩阵,TAMGCN的输出
Figure BDA00038711721300001511
H(L-1)为最后一层的图输出,FL-1为最后一层的TAMGCN输出的维度,FL-1的维度与F的维度相同。
在一个实施例中,第二计算模块,包括:
将局部特征Sdata输入BiLSTM(·)网络,并取隐藏层的最后一层作为时序特征
Figure BDA00038711721300001512
输出,其中,计算公式为:
Figure BDA00038711721300001513
在一个实施例中,融合模块,包括:
Figure BDA00038711721300001514
和时序特征Globalfeature特征通过连接运算定义为
Figure BDA00038711721300001515
整个融合机制包括线性层和激活层:
Figure BDA00038711721300001516
Figure BDA0003871172130000161
其中,
Figure BDA0003871172130000162
Figure BDA0003871172130000163
为两个可学习的权重矩阵;
将局部特征
Figure BDA0003871172130000164
和R′特征融合,并通过多个全连接层FC(·)得出最后的镜头分数spotscore,其公式为:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
其中,σ(·)为sigmoid(·)激活函数,
Figure BDA0003871172130000165
为每一个镜头的非负得分。
上述各模块均是用于对应执行上述自适应图结构的视频摘要生成方法中的各个步骤,其具体实现方式参照上述方法实施例所述,在此不再进行赘述。
本发明还提供了一种计算机设备,该计算机设备可以是服务器,其内部结构可以。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储自适应图结构的视频摘要生成方法的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现自适应图结构的视频摘要生成方法。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一个自适应图结构的视频摘要生成方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种自适应图结构的视频摘要生成方法,其特征在于,构建TAMGCN网络模型,包括:
获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata
根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure FDA0003871172120000011
在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure FDA0003871172120000012
根据注意力矩阵得到TAMGCN网络模型的输出graphfeature
根据局部特征Sdata计算时序特征Globalfeature
将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
2.根据权利要求1所述的自适应图结构的视频摘要生成方法,其特征在于,所述获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata的步骤,包括:
定义所述原始视频帧序列为
Figure FDA0003871172120000013
其中,N为每一个视频中所含的视频帧的个数,w,h,3为每一帧图片的宽、高、通道数,xn代表第n个视频帧;
采用KTS算法得到镜头序列
Figure FDA0003871172120000014
其中,M表示一个视频共划分了M个镜头,sm表示第m个镜头中有Tm帧且
Figure FDA0003871172120000015
对所述镜头序列S采用预训练模型GoogLe Net提取图像特征
Figure FDA0003871172120000016
s′m表示第m个镜头有Tm帧,F为每一帧的特征维度;
Sfeature通过长短期记忆网络双向编码得到每个视频的局部特征,其公式为:
Figure FDA0003871172120000017
其中,BiLSTM(·)表示双向LSTM网络,BiLSTM(·)的输出为最后一层隐藏层
Figure FDA0003871172120000018
ht的最后一帧编码了当前镜头中前向和后向的时序信息,取每个镜头输出ht的最后一帧
Figure FDA0003871172120000019
并堆叠作为整个视频的局部特征
Figure FDA00038711721200000110
3.根据权利要求1所述的自适应图结构的视频摘要生成方法,其特征在于,所述根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure FDA0003871172120000021
的步骤,包括:
通过计算每一个镜头中的帧和其余帧之间的2-范数,选择与其它平均范数最低帧作为该镜头的代表性帧,其公式为:
Figure FDA0003871172120000022
取右奇异矩阵的前n行作为每个镜头的SVDframe,其公式为:
A=U∑VT
Figure FDA0003871172120000023
SVDframe=SVD(Sfeature)=VT[n,:]
其中,U为左奇异矩阵,对行数进行压缩,VT为右奇异矩阵,对列数进行压缩,Σ是奇异值;
定义每个视频的镜头作为节点,根据每个镜头的SVDframe和代表性帧得到图上的节点特征为Spotfeature=[presentframe||SVDframe];
计算两个镜头之间的相似程度作为对应节点的边,即邻接矩阵的值,并构建邻接矩阵
Figure FDA0003871172120000024
计算公式为:
Figure FDA0003871172120000025
其中,x为每个节点特征Spotfeature,[·||·]表示连接操作,φ(·),
Figure FDA0003871172120000026
是以Wφ,
Figure FDA0003871172120000027
为基的线性变换,Wφ,
Figure FDA0003871172120000028
We都是可学习的参数。
4.根据权利要求3所述的自适应图结构的视频摘要生成方法,其特征在于,所述在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure FDA0003871172120000029
的步骤,包括:
在TAMGCN网络模型中采用注意力机制,根据当前层的输入计算每一层的注意力,当前节点的注意力计算公式为:
Figure FDA0003871172120000031
其中,
Figure FDA0003871172120000032
为当前节点,
Figure FDA0003871172120000033
为邻居节点,
Figure FDA0003871172120000034
是可学习的权值矩阵,[·||·]表示连接操作,LeakyReLU(·)为激活函数,
Figure FDA0003871172120000035
为可学习的注意力分布矩阵;
计算注意力权重,公式为:
aij=Nj(eij)
其中,aij为注意力权重,N(·)=exp(·)/∑exp(·)为归一化算子,整个层的图注意力的输出为
Figure FDA0003871172120000036
5.根据权利要求4所述的自适应图结构的视频摘要生成方法,其特征在于,所述根据注意力矩阵得到TAMGCN网络模型的输出graphfeature的步骤,包括:
每一层的TAMGCN以GCN为基础建模得到:
Figure FDA0003871172120000037
其中,
Figure FDA0003871172120000038
为第l层的输出,l=0,1,...,L-1andH(0)=Sdata,σ(·)为激活函数,
Figure FDA0003871172120000039
为每一层中可训练的权值矩阵,
Figure FDA00038711721200000310
是注意力调整后的邻接矩阵:
Figure FDA00038711721200000311
其中,attmap为根据每一层的H(l)生成的注意力矩阵,TAMGCN的输出
Figure FDA00038711721200000312
H(L-1)为最后一层的图输出,FL-1为最后一层的TAMGCN输出的维度,FL-1的维度与F的维度相同。
6.根据权利要求5所述的自适应图结构的视频摘要生成方法,其特征在于,所述根据局部特征Sdata计算时序特征Globalfeature的步骤,包括:
将局部特征Sdata输入BiLSTM(·)网络,并取隐藏层的最后一层作为时序特征
Figure FDA0003871172120000041
输出,其中,计算公式为:
Figure FDA0003871172120000042
7.根据权利要求6所述的自适应图结构的视频摘要生成方法,其特征在于,所述将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分的步骤,包括:
Figure FDA0003871172120000043
和时序特征Globalfeature特征通过连接运算定义为
Figure FDA0003871172120000044
整个融合机制包括线性层和激活层:
Figure FDA0003871172120000045
Figure FDA0003871172120000046
其中,
Figure FDA0003871172120000047
Figure FDA0003871172120000048
为两个可学习的权重矩阵;
将局部特征
Figure FDA0003871172120000049
和R′特征融合,并通过多个全连接层FC(·)得出最后的镜头分数spotscore,其公式为:
Spotscore=σ(FC(R′⊙Q+Sdata⊙(1-Q)))
FC(·)=BN(Linear(·))
其中,σ(·)为sigmoid(·)激活函数,
Figure FDA00038711721200000410
为每一个镜头的非负得分。
8.一种自适应图结构的视频摘要生成装置,其特征在于,构建TAMGCN网络模型,包括:
获取模块,用于获取原始视频帧序列,并根据所述原始视频帧序列得到局部特征Sdata
构建模块,用于根据所述原始视频帧序列中每个镜头的SVDframe和代表性帧构建邻接矩阵
Figure FDA00038711721200000411
第一计算模块,用于在TAMGCN网络模型中采用注意力机制,根据当前层的输入Sdata计算的注意力矩阵,得到整个层的图注意力输出
Figure FDA00038711721200000412
输出模块,用于根据注意力矩阵得到TAMGCN网络模型的输出graphfeature
第二计算模块,用于根据局部特征Sdata计算时序特征Globalfeature
融合模块,用于将所述时序特征Globalfeature与graphfeature进行特征融合,得到所述原始视频帧序列中每个镜头的得分;
选取模块,用于根据每个镜头的得分采用背包算法选取若干个的镜头进行组合,得到所述原始视频的视频摘要。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211197783.8A 2022-09-29 2022-09-29 自适应图结构的视频摘要生成方法 Withdrawn CN115525782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211197783.8A CN115525782A (zh) 2022-09-29 2022-09-29 自适应图结构的视频摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211197783.8A CN115525782A (zh) 2022-09-29 2022-09-29 自适应图结构的视频摘要生成方法

Publications (1)

Publication Number Publication Date
CN115525782A true CN115525782A (zh) 2022-12-27

Family

ID=84698937

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211197783.8A Withdrawn CN115525782A (zh) 2022-09-29 2022-09-29 自适应图结构的视频摘要生成方法

Country Status (1)

Country Link
CN (1) CN115525782A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117376502A (zh) * 2023-12-07 2024-01-09 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117376502A (zh) * 2023-12-07 2024-01-09 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统
CN117376502B (zh) * 2023-12-07 2024-02-13 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统

Similar Documents

Publication Publication Date Title
CN107423442B (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
CN108846340A (zh) 人脸识别方法、装置及分类模型训练方法、装置、存储介质和计算机设备
CN111428771B (zh) 视频场景分类方法、装置和计算机可读存储介质
CN113792682B (zh) 基于人脸图像的人脸质量评估方法、装置、设备及介质
Qin et al. Data-efficient image quality assessment with attention-panel decoder
CN111611488B (zh) 基于人工智能的信息推荐方法、装置、电子设备
EP4287144A1 (en) Video behavior recognition method and apparatus, and computer device and storage medium
CN113051468B (zh) 一种基于知识图谱和强化学习的电影推荐方法及系统
CN109543112A (zh) 一种基于循环卷积神经网络的序列推荐方法及装置
CN113128527B (zh) 基于变换器模型和卷积神经网络的图像场景分类方法
CN112149651A (zh) 一种基于深度学习的人脸表情识别方法、装置及设备
CN115525782A (zh) 自适应图结构的视频摘要生成方法
Long et al. Trainable subspaces for low rank tensor completion: Model and analysis
CN113822790A (zh) 一种图像处理方法、装置、设备及计算机可读存储介质
Chen et al. Deformable convolutional matrix factorization for document context-aware recommendation in social networks
Chen et al. Image Aesthetics Assessment with Emotion-Aware Multi-Branch Network
Wang et al. Blind Image Quality Assessment via Adaptive Graph Attention
CN116797850A (zh) 基于知识蒸馏和一致性正则化的类增量图像分类方法
CN116758379A (zh) 一种图像处理方法、装置、设备及存储介质
CN117056721A (zh) 模型参数的调整方法、装置、模型预测方法、设备及介质
CN111552810A (zh) 实体抽取与分类方法、装置、计算机设备和存储介质
CN115470397B (zh) 内容推荐方法、装置、计算机设备和存储介质
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN112287222B (zh) 一种基于异质特征深度残差网络的内容推荐方法
He et al. Interest HD: An interest frame model for recommendation based on HD image generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20221227