CN115002559B - 基于门控多头位置注意力机制的视频摘要算法及系统 - Google Patents

基于门控多头位置注意力机制的视频摘要算法及系统 Download PDF

Info

Publication number
CN115002559B
CN115002559B CN202210504825.1A CN202210504825A CN115002559B CN 115002559 B CN115002559 B CN 115002559B CN 202210504825 A CN202210504825 A CN 202210504825A CN 115002559 B CN115002559 B CN 115002559B
Authority
CN
China
Prior art keywords
video
frame
attention
network
head
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210504825.1A
Other languages
English (en)
Other versions
CN115002559A (zh
Inventor
滕国伟
王坤阳
李仲秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Orange Display Electronic Technology Co ltd
University of Shanghai for Science and Technology
Original Assignee
Shanghai Orange Display Electronic Technology Co ltd
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Orange Display Electronic Technology Co ltd, University of Shanghai for Science and Technology filed Critical Shanghai Orange Display Electronic Technology Co ltd
Priority to CN202210504825.1A priority Critical patent/CN115002559B/zh
Publication of CN115002559A publication Critical patent/CN115002559A/zh
Application granted granted Critical
Publication of CN115002559B publication Critical patent/CN115002559B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于门控多头位置注意力机制的视频摘要算法及系统,包括如下步骤:通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征,获得视频深度语义信息;通过序列到序列的转换网络解析视频深度语义信息;按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合;预测视频每帧的重要性评分,通过均方误差与数据集的Ground‑Truth建立损失函数,训练优化;通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将选取的所述视频镜头组合成视频摘要。本发明提出了端到端的视频摘要网络,采用基于位置的注意力机制,高效地学习视频序列的高级语义信息获得关键的视频内容。

Description

基于门控多头位置注意力机制的视频摘要算法及系统
技术领域
本发明涉及视频处理技术领域,具体地,涉及一种基于门控多头位置注意力机制的视频摘要算法及系统。
背景技术
近年来,随着互联网和自媒体的快速发展,网络上视频数量呈指数式增长。根据视频网站YouTube统计,目前每分钟约有500小时的视频被上传到YouTube,这也意味着,每天会产生总时长约为82年的新视频。海量视频在丰富人们娱乐生活的同时也带来了新的挑战,例如,视频存储压力和浏览视频时间等。因此,如何高效地浏览、检索和存储视频是亟待解决的问题。
在此背景之下,视频摘要技术通过从原始视频中提取有意义的关键帧或片段,将较长视频压缩为结构紧凑的静态关键帧或较短的视频,提供了一个高效管理大量视频数据的方法。视频摘要技术极大的节省了视频存储空间,同时保留了原始视频中最相关和最重要的信息,提升了用户浏览视频的体验。
公开号为CN105357594B的专利文献公开了一种基于集群及H264的视频浓缩算法的海量视频摘要生成方法,包括如下步骤:选取原始视频,并对其进行切割,得到n个长度近似相等的片段,编码格式为H264,其中n为自然数;对切割后的各片段进行视频解码,根据运动估计以及背景图来获取前景目标,并通过基于稀疏光流的误报删除及漏检修复算法,对各片段的检测率进行完善,并更新背景图;将单个包含运动信息的片段视作浓缩单元,进行压缩,压缩完成后进行拼接,生成一段完整的视频摘要。但是该专利文献与本申请的技术方案不同。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于门控多头位置注意力机制的视频摘要算法及系统。
根据本发明提供的一种基于门控多头位置注意力机制的视频摘要算法,包括如下步骤:
步骤1:提取深度特征,通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征,获得视频深度语义信息;
步骤2:对视频深度语义特征解码,通过序列到序列的转换网络解析视频深度语义信息;
步骤3:对视频镜头进行分割,通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合;
步骤4:训练帧级重要性分数,通过回归网络预测视频每帧的重要性评分,通过均方误差与数据集的Ground-Truth建立损失函数,并训练优化;
步骤5:生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将选取的所述视频镜头组合成视频摘要。
优选的,所述步骤2中,所述序列到序列的转换网络包括多头位置自注意力网络、多头局部自注意力网络以及门控网络;
所述多头位置自注意网络学习视频帧之间的全局依赖关系,所述多头局部自注意网络学习视频帧之间的局部依赖关系,所述门控网络结合视频帧之间的全局依赖关系和局部依赖关系。
优选的,所述多头位置自注意网络包括相对位置编码模块、多头自注意力模块以及第一残差模块;
所述视频帧通过所述相对位置编码模块捕获长时间的依赖关系,最大相对位置长度为l,所述多头注意力模块采用h个头并行计算所述视频帧之间的权重系数,每个时刻的输出向量为所述视频帧特征向量的加权和,通过所述第一残差模块处理。
优选的,所述步骤2中,对所述视频帧的相对位置进行编码具体为:
将所述视频帧建模为一个有向的全连通图,输入的所述视频的第i帧的特征xi与第j帧的特征xj之间的边表示相对位置,其中da为每个位置表示的维数,将最大相对位置长度设置为l,并考虑2l+1个边标签,/>和/>定义如下:
clip(j-i,l)=max(-l,min(l,j-i)),
表示为视频第i帧与j帧相对位置的key分量,其中K为key分量,/>表示视频第i帧和第j帧相对位置的value分量,其中V为value分量,clip(k-i,l)表示截断函数,为了限制相对位置的长度,相对位置表示为/>和/>其中/>表示da维的特征向量,/>表示相对距离为clip(j-i,l)函数值的key分量的特征向量,表示相对距离为clip(j-i,l)函数值的value分量的特征向量,R表示特征空间,/>表示相对距离i时key分量的特征向量,/>表示相对距离i时value分量的特征向量。
优选的,基于相对位置编码的多头注意层,使用h个注意力头,并利用线性变换合并每个注意头的输出结果,每个注意力头输入为序列x=(x1,...,xn),其中n为帧数、 输出为长度相同的序列y=(y1,...,yn),其中/>每个输出元素yi被计算为:
其中,WV为输入特征变量的线性变换矩阵,为相对位置信息的value分量,αij为视频第i帧与第j帧的权重系数。
优选的,使用softmax函数计算每个权重系数αij
其中,eij为非标准化自我注意力权重,eij的计算公式为:
其中,WQ和WK为参数矩阵,dy为输出元素的特征尺寸,xi为视频第i帧的特征,xj为视频第j帧的特征,表示为视频第i帧与j帧相对位置的key分量。
优选的,所述位置编码与多头局部自注意网络包括绝对位置编码模块、多头局部自注意力模块以及第二残差模块;
所述视频帧通过所述绝对位置编码模块将顺序信息加入到特征数据中,所述多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数,每个时刻的输出向量为所述视频帧特征向量的加权和,再通过所述第二残差模块处理。
优选的,采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码:
其中,PE(pos,2i)为视频第pos帧在偶数特征维度2i上的位置编码,PE(pos,2i+1)为视频第pos帧在偶数特征维度2i+1上的位置编码,pos是所述视频帧的位置,i是所述视频帧特征的维度,dmod表示位置编码的维度。
优选的,局部多头局部注意力学习所述视频帧之间的短期的依赖关系,局部相邻视频帧之间的非标准化权重eij为:
其中,WQ和WK为参数矩阵,ds为输入特征的维度,xi与xj为视频的第i帧和第j帧的特征,Mlocal为关系矩阵控制视频帧局部范围;
使用softmax函数计算每个局部权重系数αij
局部多头注意力层每个输出元素si被计算为线性变换后的输出元素的加权和:
门控网络通过一个系数控制信息通过的权重,所述系数为0和1之间的实数,所述信息为视频帧之间的长期和短期的依赖关系,其中0表示“只让长期依赖关系通过”,1表示“只让短期依赖关系通过”;
门控网络层的输出元素为Ti
Ti=σ(λ)yi+(1-σ(λ))si
其中,yi为位置多头注意力层的输出向量,si为局部多头注意力层的输出向量,σ(λ)为0到1之间的实数。
本发明还提供一种基于门控多头位置注意力机制的视频摘要系统,包括如下步骤:
模块M1:提取深度特征,通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征,获得视频深度语义信息;
模块M2:对视频深度语义特征解码,通过序列到序列的转换网络解析视频深度语义信息;
模块M3:对视频镜头进行分割,通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合;
模块M4:训练帧级重要性分数,通过回归网络预测视频每帧的重要性评分,通过均方误差与数据集的Ground-Truth建立损失函数,并训练优化;
模块M5:生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将选取的所述视频镜头组合成视频摘要。
与现有技术相比,本发明具有如下的有益效果:
1、本发明提出了一种新颖的端到端的视频摘要网络(GMPAVS),采用基于位置的注意力机制,高效地学习视频序列的高级语义信息获得关键的视频内容;
2、本发明通过基于位置的全局和局部的多头注意力更加精确地捕获视频帧之间的长距离和短距离依赖关系;
3、本发明引入门控机制,调节视频帧之间的局部和全局通过的信息量,提高运算精度;
4、本发明在两个广泛使用的视频摘要数据集(SumMe和TVSum)上进行了大量实验,结果表明本发明与VASNet相比F-score在SumMe和TVSum数据集上分别提高了0.5%-0.9%和0.6%-1%。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的基于门控多头位置注意力机制的视频摘要算法的流程图;
图2为本发明的神经网络算法的结构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
如图1和图2所示,根据本发明提供的一种基于门控多头位置注意力机制的视频摘要算法,包括如下步骤:
步骤1:提取深度特征,通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征,获得视频深度语义信息。
步骤2:对视频深度语义特征解码,通过序列到序列的转换网络解析视频深度语义信息;序列到序列的转换网络包括多头位置自注意力网络、多头局部自注意力网络以及门控网络;
多头位置自注意网络学习视频帧之间的全局依赖关系,多头局部自注意网络学习视频帧之间的局部依赖关系,门控网络结合视频帧之间的全局依赖关系和局部依赖关系;
多头位置自注意网络包括相对位置编码模块、多头自注意力模块以及第一残差模块,视频帧通过相对位置编码模块捕获长时间的依赖关系,最大相对位置长度为l,多头注意力模块采用h个头并行计算视频帧之间的权重系数,每个时刻的输出向量为视频帧特征向量的加权和,通过第一残差模块处理;
对视频帧的相对位置进行编码具体为:将视频帧建模为一个有向的全连通图,输入的视频的第i帧的特征xi与第j帧的特征xj之间的边表示相对位置,其中da为每个位置表示的维数,将最大相对位置长度设置为l,并考虑2l+1个边标签,/>和/>定义如下:
clip(j-i,l)=max(-l,min(l,j-i)),
表示为视频第i帧与j帧相对位置的key分量,其中K为key分量,/>表示视频第i帧和第j帧相对位置的value分量,其中V为value分量,clip(j-i,l)表示截断函数,为了限制相对位置的长度,相对位置表示为/>和/>其中/>表示da维的特征向量,/>表示相对距离为clip(j-i,l)函数值的key分量的特征向量,/>表示相对距离为clip(j-i,l)函数值的value分量的特征向量,R表示特征空间,/>表示相对距离i时key分量的特征向量,/>表示相对距离i时value分量的特征向量。
基于相对位置编码的多头注意层,使用h个注意力头,并利用线性变换合并每个注意头的输出结果,每个注意力头输入为序列x=(x1,...,xn),其中n为帧数、输出为长度相同的序列y=(y1,...,yn),其中/>每个输出元素yi被计算为:
其中,WV为输入特征变量的线性变换矩阵,为相对位置信息的value分量,αij为视频第i帧与第j帧的权重系数;
使用softmax函数计算每个权重系数αij
其中,eij为非标准化自我注意力权重,eij的计算公式为:
其中,WQ和WK为参数矩阵,dy为输出元素的特征尺寸,xi为视频第i帧的特征,xj为视频第j帧的特征,表示为视频第i帧与j帧相对位置的key分量;
位置编码与多头局部自注意网络包括绝对位置编码模块、多头局部自注意力模块以及第二残差模块,视频帧通过绝对位置编码模块将顺序信息加入到特征数据中,多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数,每个时刻的输出向量为视频帧特征向量的加权和,再通过第二残差模块处理;
采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码:
其中,PE(pos,2i)为视频第pos帧在偶数特征维度2i上的位置编码,PE(pos,2i+1)为视频第pos帧在偶数特征维度2i+1上的位置编码,pos是视频帧的位置,i是视频帧特征的维度,dmod表示位置编码的维度;
局部多头局部注意力学习视频帧之间的短期的依赖关系,局部相邻视频帧之间的非标准化权重eij为:
其中,WQ和WK为参数矩阵,ds为输入特征的维度,xi与xj为视频的第i帧和第j帧的特征,Mlocal为关系矩阵控制视频帧局部范围;
使用softmax函数计算每个局部权重系数αij
局部多头注意力层每个输出元素si被计算为线性变换后的输出元素的加权和:
门控网络通过一个系数控制信息通过的权重,系数为0和1之间的实数,信息为视频帧之间的长期和短期的依赖关系,其中0表示“只让长期依赖关系通过”,1表示“只让短期依赖关系通过”;
门控网络层的输出元素为Ti
Ti=σ(λ)yi+(1-σ(λ))si
其中,yi为位置多头注意力层的输出向量,si为局部多头注意力层的输出向量,σ(λ)为0到1之间的实数。
步骤3:对视频镜头进行分割,通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合。
步骤4:训练帧级重要性分数,通过回归网络预测视频每帧的重要性评分,通过均方误差与数据集的Ground-Truth建立损失函数,并训练优化。
步骤5:生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将选取的视频镜头组合成视频摘要。
实施例2:
本实施例提供一种基于门控多头位置注意力机制的视频摘要系统,包括如下步骤:
模块M1:提取深度特征,通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征,获得视频深度语义信息;
模块M2:对视频深度语义特征解码,通过序列到序列的转换网络解析视频深度语义信息;
模块M3:对视频镜头进行分割,通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合;
模块M4:训练帧级重要性分数,通过回归网络预测视频每帧的重要性评分,通过均方误差与数据集的Ground-Truth建立损失函数,并训练优化;
模块M5:生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将选取的视频镜头组合成视频摘要。
实施例3:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例提供一种基于门控多头注意力机制的视频摘要算法,具体操作步骤如下:
步骤S1,提取深度特征,使用Image数据集上训练好的GoogleNet卷积神经网络(CNN)提取视频每帧的深度特征,获得视频深度语义信息;
步骤S2,深度特征序列的转换,通过序列到序列的转换网络(Sequence toSequence Network)解析视频深度语义信息;
步骤S3,视频镜头分割,使用核函数时间分割(KTS)中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合(shot sets);
步骤S4,训练帧级重要性分数,通过回归网络预测视频每帧的重要性评分,通过(均方误差)MSE与数据集的Ground-Truth建立损失函数,并训练优化;
步骤S5,生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将镜头组合成视频摘要。
序列到序列的转换网络(Sequence to Sequence Network)由三部分组成:多头位置自注意力网络(Multi-Head Position Self-Attention)、多头局部自注意力网络(Position Encoding and Multi-Head Local Self-Attention)、门控网络。
具体步骤如下:多头位置自注意网络主要由相对位置编码、多头自注意力、残差等模块组成。视频帧通过相对位置编码模块捕获长时间的依赖关系,最大相对位置长度为l,多头注意力模块采用h个头并行计算视频帧之间的权重系数,每个时刻的输出向量为视频帧特征向量的加权和,再通过残差模块处理防止梯度消失,本实例中的视频帧的数据(1*1024),Multi-Head Position Self-Attention模型输出(1*N*1024)的特征数据,其中N为视频的总帧数。
对于相对位置编码,将视频帧建模为一个有向的全连通图,输入的帧xi与xj之间的边表示相对位置,其中da为每个位置表示的维数。我们将最大相对位置长度设置为l,并考虑2l+1个边标签。/>和/>定义如下:
clip(j-i,l)=max(-l,min(l,j-i)) (3)
学习的相对位置表示是和/>其中/>
基于相对位置编码的多头注意层,使用h个注意力头,并利用线性变换合并每个注意头的输出结果。每个注意力头输入为序列x=(x1,...,xn),其中n为帧数、输出为长度相同的序列y=(y1,...,yn),其中/>每个输出元素yi被计算为:
其中,WV为输入特征变量的线性变换矩阵,为相对位置信息。
使用softmax函数计算每个权重系数αij
其中,eij为非标准化自我注意力权重。eij的计算公式为:
其中,WQ和WK为参数矩阵,dy为输出元素的特征尺寸。
位置编码与多头局部自注意网络主要由绝对位置编码、多头局部自注意力、残差等模块组成。视频帧通过绝对位置编码模块将顺序信息加入到特征数据(1*1024),多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数,每个时刻的输出向量为视频帧特征向量的加权和,再通过残差模块处理防止梯度消失。
采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码:
其中,pos是视频帧的位置,i是视频帧特征的维度。
局部多头注意力学习视频帧之间的短期的依赖关系,局部相邻视频帧之间的非标准化权重eij为:
其中,ds为输入特征的维度,Mlocal为关系矩阵控制视频帧局部范围。
使用softmax函数计算每个局部权重系数αij
局部多头注意力层每个输出元素si被计算为线性变换后的输出元素的加权和:
门控网络主要通过一个系数(在0和1之间的实数)控制信息(视频帧之间的长期和短期的依赖关系)通过的权重,其中0表示“只让长期依赖关系通过”,1表示“只让短期依赖关系通过”。
门控网络层的输出元素为Ti
Ti=σ(λ)yi+(1-σ(λ))si (12)
其中,σ(λ)为0到1之间的实数。
实施例4:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例提供一种基于门控多头位置注意力机制的视频摘要算法,具体操作步骤如下:
步骤S1,提取深度特征,使用Image数据集上训练好的GoogleNet卷积神经网络(CNN)提取每帧的深度特征,获得视频深度语义信息;
步骤S2,深度特征序列的转换,通过序列到序列的转换网络(Sequence toSequence Network)解析视频深度语义信息;
步骤S3,视频镜头分割,使用核函数时间分割(KTS)中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合(shot sets);
步骤S4,训练帧级重要性分数,输出的特征序列通过回归网络预测视频的重要性评分,使用(均方误差)MSE与数据集的Ground-Truth建立损失函数,并训练优化;
步骤S5,生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将镜头组合成视频摘要。
KTS镜头分割,具体步骤如下:
核函数时间分割(KTS)方法是按照场景不同将视频分割成不同镜头。首先将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:为描述符间的核函数;让/>为核函数K(.,.)的特征空间;记/>为相关映射图,/>为特征空间/>的正则化,最小化下面的目标:
其中s为变化点的个数,m(s,n)为误差项,Fs,n为段内核方差之和:
其中μp为段内均值;
在式(1)中目标分为两项,Fs,n为段内总体方差,m(s,n)为多段的误差项;使用带注释视频的验证集交叉验证B参数,因此得到了基于核函数的时态分割算法,该算法根据数据自动设置时态分割的分段数,ts-1表示第s-1段的时间间隔,n表示描述符总个数,表示描述符zt在特征空间/>中的映射。
首先,计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法对目标进行最小化式(2),迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量。
本实施例针对快速获取视频关键信息的能力,提出了一种基于门控多头位置注意力机制的视频摘要算法,该算法为了学习视频序列之间的高级语义信息,采用了序列到序列的策略,将视频摘要任务分成视频帧深度特征提取、深度特征序列的转换、视频镜头分割、训练帧级重要性分数、生成视频摘要五个部分。序列到序列的建模具有较高的性能和效率,利用全局和局部的多头位置注意力机制能较好的学习视频帧之间的全局和局部信息。
实施例5:
本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
本实施例提供一种基于多头位置注意力机制的视频摘要算法,算法流程如图1所示,首先对视频帧进行处理,通过GoogelNet深度卷积神经网络提取每一帧的特征;然后两个分支分别处理深度特征,第一个分支通过多头位置注意力机制实现视频特征序列到帧间相互依赖关系序列的转化,第二分支通过核函数时间分割算法(KTS)将视频分割为不同场景的镜头;最后通过损失函数优化网络参数,以预测的帧级重要性分数选择关键镜头。
如图2所示,本实施例的一种基于多头位置注意力机制的视频摘要算法,具体操作步骤如下:
步骤S1,深度卷积网络(GoogleNet)提取待处理视频帧vt(v1,v2,...,vn)的语义信息,获得原视频的深度特征(1024维度的特征向量)表示xt(x1,x2,...,xn);
步骤S2,头位置注意力机制将原始视频的深度特征序列xt(x1,x2,...,xn)转换为具有长距离依赖关系的序列yt(y1,y2,...,yn),同时利用局部多头位置注意力机制将原视频的深度特征序列xt(x1,x2,...,xn)转换为具有短距离依赖关系的序列st(s1,s2,...,sn),最后使用门控网络输出具有全局和局部依赖关系的序列Tt(T1,T2,...,Tn);
步骤S3,使用核函数时间分割(KTS)方法按照场景不同将视频分割成不同的镜头Si(S1,S2,...Sm);
步骤S4,将序列Tt(T1,T2,...,Tn)通过回归网络计算每帧的帧级重要性分数pt(p1,p2,...,pn),再通过训练损失函数,学习优化网络参数;
步骤S5,通过帧级重要性分数计算每个镜头的重要性分数,采用背包算法将高性价比的镜头以时间顺序组合成视频摘要。
本实施例中多头位置自注意网络主要由相对位置编码、多头自注意力、残差等模块组成。视频帧通过相对位置编码模块捕获长时间的依赖关系,最大相对位置长度为l,多头注意力模块采用h个头并行计算视频帧之间的权重系数,每个时刻的输出向量为视频帧特征向量的加权和,再通过残差模块处理防止梯度消失,本实例中的视频帧的数据(1*1024),Multi-Head Position Self-Attention模型输出(1*N*1024)的特征数据,其中N为视频的总帧数。
对于相对位置编码,将视频帧建模为一个有向的全连通图,输入的帧xi与xj之间的边表示相对位置,其中da为每个位置表示的维数。我们将最大相对位置长度设置为l,并考虑2l+1个边标签。/>和/>定义如下:
clip(j-i,l)=max(-l,min(l,j-i)) (15)
学习的相对位置表示是和/>其中/>
基于相对位置编码的多头注意层,使用h个注意力头,并利用线性变换合并每个注意头的输出结果。每个注意力头输入为序列x=(x1,...,xn),其中n为帧数、输出为长度相同的序列y=(y1,...,yn),其中/>每个输出元素yi被计算为:
其中,WV为输入特征变量的线性变换矩阵,为相对位置信息。
使用softmax函数计算每个权重系数αij
其中,eij为非标准化自我注意力权重。eij的计算公式为:
其中,WQ和WK为参数矩阵,dy为输出元素的特征尺寸。
位置编码与多头局部自注意网络主要由绝对位置编码、多头局部自注意力、残差等模块组成。视频帧通过绝对位置编码模块将顺序信息加入到特征数据(1*1024),多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数,每个时刻的输出向量为视频帧特征向量的加权和,再通过残差模块处理防止梯度消失。
采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码:
其中,pos是视频帧的位置,i是视频帧特征的维度。
局部多头注意力学习视频帧之间的短期的依赖关系,局部相邻视频帧之间的非标准化权重eij为:
其中,ds为输入特征的维度,Mlocal为关系矩阵控制视频帧局部范围。
使用softmax函数计算每个局部权重系数αij
局部多头注意力层每个输出元素si被计算为线性变换后的输出元素的加权和:
门控网络主要通过一个系数(在0和1之间的实数)控制信息(视频帧之间的长期和短期的依赖关系)通过的权重,其中0表示“只让长期依赖关系通过”,1表示“只让短期依赖关系通过”。
门控网络层的输出元素为Ti
Ti=σ(λ)yi+(1-σ(λ))si (24)
其中,σ(λ)为0到1之间的实数。
本发明提出了一种新颖的端到端的视频摘要网络,采用基于位置的注意力机制,高效地学习视频序列的高级语义信息获得关键的视频内容。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (9)

1.一种基于门控多头位置注意力机制的视频摘要算法,其特征在于,包括如下步骤:
步骤1:提取深度特征,通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征,获得视频深度语义信息;
步骤2:对视频深度语义特征解码,通过序列到序列的转换网络解析视频深度语义信息;
步骤3:对视频镜头进行分割,通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合;
步骤4:训练帧级重要性分数,通过回归网络预测视频每帧的重要性评分,通过均方误差与数据集的Ground-Truth建立损失函数,并训练优化;
步骤5:生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将选取的所述视频镜头组合成视频摘要;
所述步骤3中的对视屏镜头进行分割的步骤如下:
将视频分为一组描述符zp∈Z,(p=0,...,n-1)序列,让K:为描述符间的核函数;让/>为核函数K(.,.)的特征空间;记/> 为相关映射图,/>为特征空间/>的正则化,最小化下面的目标:
其中s为变化点的个数;
m(s,n)为误差项;
Fs,n为段内核方差之和:
其中μp为段内均值;
使用带注释视频的验证集交叉验证B参数,得到基于核函数的时态分割算法,所述基于核函数的时态分割算法算法根据数据自动设置时态分割的分段数,ts-1表示第s-1段的时间间隔,n表示描述符总个数,表示描述符zt在特征空间/>中的映射;
计算序列中每对描述符的相似度,然后计算每个可能的起点t和段持续时间d的段方差;然后采用动态规划算法对目标进行最小化式(2),迭代计算前i个描述符和j个变化点的最优目标值;最后,利用回溯法重建最优分割,由于动态规划算法已经为所有可能的段计数计算,因此惩罚引入了最小的计算量;
所述步骤2中,所述序列到序列的转换网络包括多头位置自注意力网络、多头局部自注意力网络以及门控网络;
所述多头位置自注意网络学习视频帧之间的全局依赖关系,所述多头局部自注意网络学习视频帧之间的局部依赖关系,所述门控网络结合视频帧之间的全局依赖关系和局部依赖关系。
2.根据权利要求1所述的基于门控多头位置注意力机制的视频摘要算法,其特征在于,所述多头位置自注意网络包括相对位置编码模块、多头自注意力模块以及第一残差模块;
所述视频帧通过所述相对位置编码模块捕获长时间的依赖关系,最大相对位置长度为l,所述多头注意力模块采用h个头并行计算所述视频帧之间的权重系数,每个时刻的输出向量为所述视频帧特征向量的加权和,通过所述第一残差模块处理。
3.根据权利要求2所述的基于门控多头位置注意力机制的视频摘要算法,其特征在于,所述步骤2中,对所述视频帧的相对位置进行编码具体为:
将所述视频帧建模为一个有向的全连通图,输入的所述视频的第i帧的特征xi与第j帧的特征xj之间的边 表示相对位置,其中da为每个位置表示的维数,将最大相对位置长度设置为l,并考虑2l+1个边标签,/>和/>定义如下:
clip(j-i,l)=max(-l,min(l,j-i)),
表示为视频第i帧与j帧相对位置的key分量,其中K为key分量,/>表示视频第i帧和第j帧相对位置的value分量,其中V为value分量,clip(j-i,l)表示截断函数,为了限制相对位置的长度,相对位置表示为/>和/>其中/> 表示da维的特征向量,/>表示相对距离为clip(j-i,l)函数值的key分量的特征向量,表示相对距离为clip(j-i,l)函数值的value分量的特征向量,R表示特征空间,/>表示相对距离i时key分量的特征向量,/>表示相对距离i时value分量的特征向量。
4.根据权利要求3所述的基于门控多头位置注意力机制的视频摘要算法,其特征在于,基于相对位置编码的多头注意层,使用h个注意力头,并利用线性变换合并每个注意头的输出结果,每个注意力头输入为序列x=(x1,...,xn),其中n为帧数、输出为长度相同的序列y=(y1,...,yn),其中/>每个输出元素yi被计算为:
其中,WV为输入特征变量的线性变换矩阵,为相对位置信息的value分量,αij为视频第i帧与第j帧的权重系数。
5.根据权利要求4所述的基于门控多头位置注意力机制的视频摘要算法,其特征在于,使用softmax函数计算每个权重系数αij
其中,eij为非标准化自我注意力权重,eij的计算公式为:
其中,WQ和WK为参数矩阵,dy为输出元素的特征尺寸,xi为视频第i帧的特征,xj为视频第j帧的特征,表示为视频第i帧与j帧相对位置的key分量。
6.根据权利要求1所述的基于门控多头位置注意力机制的视频摘要算法,其特征在于,所述位置编码与多头局部自注意网络包括绝对位置编码模块、多头局部自注意力模块以及第二残差模块;
所述视频帧通过所述绝对位置编码模块将顺序信息加入到特征数据中,所述多头局部注意力模块采用k个头并行计算当前视频帧与左右t帧之间的权重系数,每个时刻的输出向量为所述视频帧特征向量的加权和,再通过所述第二残差模块处理。
7.根据权利要求6所述的基于门控多头位置注意力机制的视频摘要算法,其特征在于,采用Transformer网络中的不同频率的正弦和余弦函数表示位置编码:
其中,PE(pos,2i)为视频第pos帧在偶数特征维度2i上的位置编码,PE(pos,2i+1)为视频第pos帧在偶数特征维度2i+1上的位置编码,pos是所述视频帧的位置,i是所述视频帧特征的维度,dmod表示位置编码的维度。
8.根据权利要求7所述的基于门控多头位置注意力机制的视频摘要算法,其特征在于,局部多头局部注意力学习所述视频帧之间的短期的依赖关系,局部相邻视频帧之间的非标准化权重eij为:
其中,WQ和WK为参数矩阵,ds为输入特征的维度,xi与xj为视频的第i帧和第j帧的特征,Mlocal为关系矩阵控制视频帧局部范围;
使用softmax函数计算每个局部权重系数αij
局部多头注意力层每个输出元素si被计算为线性变换后的输出元素的加权和:
门控网络通过一个系数控制信息通过的权重,所述系数为0和1之间的实数,所述信息为视频帧之间的长期和短期的依赖关系,其中0表示“只让长期依赖关系通过”,1表示“只让短期依赖关系通过”;
门控网络层的输出元素为Ti
Ti=σ(λ)yi+(1-σ(λ))si
其中,yi为位置多头注意力层的输出向量,si为局部多头注意力层的输出向量,σ(λ)为0到1之间的实数。
9.一种基于门控多头位置注意力机制的视频摘要系统,其特征在于,用于实现权利要求1-8所述的基于门控多头位置注意力机制的视频摘要算法,包括如下模块:
模块M1:提取深度特征,通过Image数据集上训练好的GoogleNet卷积神经网络提取视频每帧的深度特征,获得视频深度语义信息;
模块M2:对视频深度语义特征解码,通过序列到序列的转换网络解析视频深度语义信息;
模块M3:对视频镜头进行分割,通过核函数时间分割中的基于核函数的变换点检测算法按照场景不同将视频分割成不同的镜头,获得不重叠的镜头集合;
模块M4:训练帧级重要性分数,通过回归网络预测视频每帧的重要性评分,通过均方误差与数据集的Ground-Truth建立损失函数,并训练优化;
模块M5:生成视频摘要,通过帧级重要性分数和背包算法选取性价比高的一组镜头,按照时间顺序将选取的所述视频镜头组合成视频摘要。
CN202210504825.1A 2022-05-10 2022-05-10 基于门控多头位置注意力机制的视频摘要算法及系统 Active CN115002559B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210504825.1A CN115002559B (zh) 2022-05-10 2022-05-10 基于门控多头位置注意力机制的视频摘要算法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210504825.1A CN115002559B (zh) 2022-05-10 2022-05-10 基于门控多头位置注意力机制的视频摘要算法及系统

Publications (2)

Publication Number Publication Date
CN115002559A CN115002559A (zh) 2022-09-02
CN115002559B true CN115002559B (zh) 2024-01-05

Family

ID=83024569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210504825.1A Active CN115002559B (zh) 2022-05-10 2022-05-10 基于门控多头位置注意力机制的视频摘要算法及系统

Country Status (1)

Country Link
CN (1) CN115002559B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115731498B (zh) * 2022-12-01 2023-06-06 石家庄铁道大学 一种联合强化学习和对比学习的视频摘要生成方法
CN115942041A (zh) * 2022-12-22 2023-04-07 南京理工大学 基于上下文感知的深度视频拆条方法及装置
CN115695950B (zh) * 2023-01-04 2023-03-28 石家庄铁道大学 一种基于内容感知的视频摘要生成方法
CN116935292B (zh) * 2023-09-15 2023-12-08 山东建筑大学 一种基于自注意力模型的短视频场景分类方法及系统
CN117312603B (zh) * 2023-11-28 2024-03-01 苏州国科综合数据中心有限公司 一种基于双注意机制的无监督分段视频摘要方法
CN117376502B (zh) * 2023-12-07 2024-02-13 翔飞(天津)智能科技有限公司 一种基于ai技术的视频制作系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法
CN111984820A (zh) * 2019-12-19 2020-11-24 重庆大学 一种基于双自注意力胶囊网络的视频摘要方法
CN114020964A (zh) * 2021-11-15 2022-02-08 上海大学 一种利用记忆网络和门控循环单元实现视频摘要的方法
CN114399757A (zh) * 2022-01-13 2022-04-26 福州大学 多路并行位置关联网络的自然场景文本识别方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3923182A1 (en) * 2020-06-13 2021-12-15 Gust Vision, Inc Method for identifying a video frame of interest in a video sequence, method for generating highlights, associated systems
KR102247915B1 (ko) * 2020-07-24 2021-05-04 인하대학교 산학협력단 부분구간 선형 보간법을 이용한 비지도 비디오 요약을 위한 강화 학습

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning
CN111984820A (zh) * 2019-12-19 2020-11-24 重庆大学 一种基于双自注意力胶囊网络的视频摘要方法
CN111460979A (zh) * 2020-03-30 2020-07-28 上海大学 一种基于多层时空框架的关键镜头视频摘要方法
CN111526434A (zh) * 2020-04-24 2020-08-11 西北工业大学 基于转换器的视频摘要方法
CN114020964A (zh) * 2021-11-15 2022-02-08 上海大学 一种利用记忆网络和门控循环单元实现视频摘要的方法
CN114399757A (zh) * 2022-01-13 2022-04-26 福州大学 多路并行位置关联网络的自然场景文本识别方法及系统

Also Published As

Publication number Publication date
CN115002559A (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN115002559B (zh) 基于门控多头位置注意力机制的视频摘要算法及系统
Ji et al. Deep attentive video summarization with distribution consistency learning
Ji et al. Video summarization with attention-based encoder–decoder networks
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN108388900B (zh) 基于多特征融合和时空注意力机制相结合的视频描述方法
CN111460979A (zh) 一种基于多层时空框架的关键镜头视频摘要方法
CN109783691B (zh) 一种深度学习和哈希编码的视频检索方法
CN111783540B (zh) 一种视频中人体行为识别方法和系统
CN111526434B (zh) 基于转换器的视频摘要方法
Mei et al. Patch based video summarization with block sparse representation
Lal et al. Online video summarization: Predicting future to better summarize present
CN112016406B (zh) 一种基于全卷积网络的视频关键帧提取方法
CN112801068B (zh) 一种视频多目标跟踪与分割系统和方法
CN115731498B (zh) 一种联合强化学习和对比学习的视频摘要生成方法
Bolelli et al. A hierarchical quasi-recurrent approach to video captioning
Basavarajaiah et al. GVSUM: generic video summarization using deep visual features
CN115147676A (zh) 一种基于层级多视角的自监督动作识别方法及装置
Wei et al. Transformer-based domain-specific representation for unsupervised domain adaptive vehicle re-identification
CN113822368A (zh) 一种基于无锚的增量式目标检测方法
CN115695950A (zh) 一种基于内容感知的视频摘要生成方法
Mahum et al. A generic framework for generation of summarized video clips using transfer learning (SumVClip)
CN109800327A (zh) 一种基于多跳注意力的视频摘要方法
CN115640449A (zh) 媒体对象推荐方法、装置、计算机设备和存储介质
CN116662604A (zh) 一种基于分层Transformer的视频摘要方法
El Abyad et al. Deep Video Hashing Using 3DCNN with BERT.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant