CN111814844A - 一种基于位置编码融合的密集型视频描述方法 - Google Patents

一种基于位置编码融合的密集型视频描述方法 Download PDF

Info

Publication number
CN111814844A
CN111814844A CN202010563286.XA CN202010563286A CN111814844A CN 111814844 A CN111814844 A CN 111814844A CN 202010563286 A CN202010563286 A CN 202010563286A CN 111814844 A CN111814844 A CN 111814844A
Authority
CN
China
Prior art keywords
event
sequence
image
video
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010563286.XA
Other languages
English (en)
Other versions
CN111814844B (zh
Inventor
王瀚漓
杨思璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Publication of CN111814844A publication Critical patent/CN111814844A/zh
Application granted granted Critical
Publication of CN111814844B publication Critical patent/CN111814844B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对多个所述子事件特征图序列按序解码成自然语言描述。与现有技术相比,本发明具有事件定位能力强、描述准确性高等优点。

Description

一种基于位置编码融合的密集型视频描述方法
技术领域
本发明涉及计算机视觉技术领域,具体是涉及视频描述技术领域,尤其是涉及一种基于位置编码融合的密集型视频描述方法。
背景技术
传统的视频描述任务致力于实现视频的视觉感知和自然语言表达,将计算机视觉和自然语言处理有机地结合起来。与先前的视频摘要任务相比,视频描述不仅需要从视频中生成动作概念,而且需要生成完整的描述性语句。然而,复杂的长视频自动描述成为视频描述任务的瓶颈。通常,一条长视频包含多个子事件,且子事件之间具有强逻辑关联,甚至在时间域上重叠,而目前的主流视频描述模型只能集中关注一个或两个主要动作。近年来,随着大型活动数据集的引入,训练能够处理复杂视频的模型成为可能。
与密集型图像描述任务类似,密集型视频描述任务要求定位多条事件的发生,确定各事件的时域节点并分别生成完整描述。大多数现有的方法将该任务分成两个子任务:事件时域定位和事件自动描述,如CN110072142A。由于事件个体之间存在着不可分割的逻辑关系,因此构建模型需要考虑上下文的信息推理。早期研究通过使用滑动窗口实现事件的时域定位,这种方法建立在冗余迭代的基础上,缺乏与上下文的语义联系。一些工作基于递归神经网络(Recursive Neural Networks,RNNs)的相关模型在自然语言处理任务中的显著性,对视频中的帧序列进行编码并分析其相关性。虽然RNNs对于短事件定位的效果颇佳,但此类网络固有的长期依赖性(Long-term Dependency)增加了长事件定位的难度。目前,一些工作提出基于自注意力机制的转换器(Transformer)模型实现事件时域定位和视频描述,证实了其在训练上的显著并行性和学习长期依赖的潜力。现有的架构仅考虑了视频转化的图像序列中的绝对位置嵌入,在学习图像序列的相似度与事件定位时考虑了绝对位置的影响,而忽略了帧之间的相对位置偏差。然而,图像之间的相对位置偏差对于视频帧的自注意力机制及事件定位是必不可少的信息。通常认为,视频帧的所在位置及相对位置编码包含丰富的信息而现有的工作并没有充分利用绝对和相对位置信息学习事件的时域定位,事件定位与事件描述的性能仍具有较大的上升空间。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种事件定位能力强、描述准确性高的基于位置编码融合的密集型视频描述方法。
本发明的目的可以通过以下技术方案来实现:
一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对已定位的子事件特征图序列按序解码成自然语言描述。
进一步地,所述序列特征图提取具体为:
对所述待描述视频进行图像序列采样,对每帧图像进行特征提取,生成对应的特征图和光流图并拼接,得到序列特征图。
进一步地,所述绝对位置编码基于每帧图像在序列中的发生次序获得,表示为:
Figure BDA0002546925370000021
Figure BDA0002546925370000022
式中,ord表示图像在序列中的顺序标量,i表示特征图通道,dx表示图像特征的维度,
Figure BDA0002546925370000023
为图像特征的奇数通道添加余弦型绝对位置编码,
Figure BDA0002546925370000024
为图像特征的偶数通道添加正弦型绝对位置编码。
进一步地,所述位置偏差编码
Figure BDA0002546925370000025
为第i帧图像与第j帧图像的位置偏差。
进一步地,所述自注意力机制编码模型基于多头自注意力机制获取每一帧图像与上下文的图像相似度,最后获得的重编码为多个独立头部输出的加权和。
进一步地,所述图像相似度的计算式为:
Figure BDA0002546925370000026
Figure BDA0002546925370000031
式中,
Figure BDA0002546925370000032
表示图像xi、xj的特征向量,Wquery、Wkey、Wvalue表示一组自注意力机制相关的参数矩阵,U为位置编码融合权重矩阵,dx表示图像特征的维度,
Figure BDA0002546925370000033
为绝对位置编码,
Figure BDA0002546925370000034
为位置偏差编码,si,j为图像相似度。
进一步地,采用基于卷积神经网络的事件定位模型对视频中的子事件进行初始定位,获得子事件的时域节点与置信度得分,根据预设的置信度阈值筛选可描述事件,基于所述时域节点得到精确的事件边界后,采用掩码模块在序列特征图上提取事件特征图序列。
进一步地,所述事件定位模型中的事件边界点回归定位采用锚点偏移机制,基于真实标签事件的分布设置一组锚点,每个与真实事件标签关联的锚点以长度la和锚点中心ca表示,目标事件锚点以事件长度lp和事件中心cp表示,对目标事件锚点进行训练回归优化,获得事件的时域节点,表达式为:
Figure BDA0002546925370000035
式中,
Figure BDA0002546925370000036
为事件中心点偏移,
Figure BDA0002546925370000037
为事件长度偏移;
根据回归定位后的时域节点获取事件边界{Startp,Endp}:
Startp=cp-lp/2,Endp=cp+lp/2。
进一步地,采用基于自注意力机制与联合注意力机制的自动描述解码模型获得所述自然语言描述。
进一步地,所述自动描述解码模型中,在每个时间步,利用联合注意力机制计算目标事件与上下文的相关性得分,同时利用自注意力机制与掩码机制生成合适单词,在下一时间步,目标事件中已被描述的特征信息被掩码,掩码的特征序列以及已生成的单词序列作为下一时间步的输入,循环输出单词,直至所有子事件被完整描述。
与现有技术相比,本发明具有如下有益效果:
(1)本发明在密集型视频描述任务加入相对位置编码机制,将视频序列的每帧图像与上下文位置偏差信息融入视频特征序列,有助于提高自注意力机制学习图像间相关度的性能,进一步提高事件定位的能力。
(2)本发明将相对位置信息与绝对位置信息同时嵌入在视频特征序列中,有助于模型同时关注图像序列的不同位置信息,有效地提高事件定位的准确性,进一步提高描述的准确度及与上下文事件的关联度。
(3)本发明可以视具体情况扩增多种不同机制的位置编码,包括学习位置编码、对数型位置编码以及其他改进的相对位置编码机制,不仅限于示例的融合方法,在提高模型对密集型视频的事件定位及事件描述的性能上具有潜在提升空间。
(4)本发明的位置编码融合机制具有良好的可移植性,可应用于大多数采用基于自注意力机制的机器模型中,例如机器翻译任务、目标检测任务的现有模型等。
附图说明
图1为本发明的原理框架示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提供一种基于位置编码融合的密集型视频描述方法,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码与上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对已定位的子事件特征图序列按序解码成自然语言描述。
如图1所述,上述视频描述方法采用的原理框架包括视频预处理模块、自注意力机制编码模型、事件定位模型和自动描述解码模型,具体实现视频描述的过程包括以下步骤:
步骤1:构建视频预处理模块,包括抽帧处理和图像特征提取网络,抽帧处理采用每0.5秒/帧的采样频率进行图像采样,图像特征提取网络对每帧图像提取视觉图像特征及光流特征,生成对应的特征图和光流图并拼接,得到序列特征图。
本实施例中,分别采用ResNet-101网络的一维压平层(Flatten layer)提取图像特征,采用BN-Inception网络对每5帧连续图像提取光流图,这两个网络都在ActivityNet大型动作数据集上进行预训练,特征提取过程中继续微调。
步骤2:构建视频图像序列的绝对位置与相对位置编码器。在提取视频图像特征图序列基础上,增加了序列的位置信息与上下文的位置关联信息。
根据每帧图像在序列中的发生次序,得到各自的绝对位置编码,具体表示为:
Figure BDA0002546925370000051
Figure BDA0002546925370000052
式中,ord表示图像在序列中的顺序标量,i表示特征图通道,dx表示图像特征的维度。
Figure BDA0002546925370000053
为图像特征的奇数通道添加余弦型绝对位置编码,
Figure BDA0002546925370000054
为图像特征的偶数通道添加正弦型绝对位置编码,从而使每帧图像的每个通道得到位置编码矩阵,并融合到原本的特征图序列中。
根据每帧图像在序列中与其他图像的位置偏差,为每帧图像的特征图嵌入一个相对位置编码
Figure BDA0002546925370000055
以表示其在序列中与其它图像的相对位置偏移,Posi-j rel代表第j帧图像xj对于当前帧图像xi的相对距离,
Figure BDA0002546925370000056
是一个无需训练的正弦信号相对位置矩阵。
图像序列特征图、绝对位置编码、相对位置编码作为自注意力机制编码模型的输入,在自注意力机制模型中加权融合,不断根据训练反馈的损失优化权值。
步骤3:构建视频图像序列位置编码加权融合机制,具体实施时将该机制嵌入自注意力机制,与自注意力机制一同训练,学习其与上下文的相关度得分并归一化加权重编码,使重编码后的特征序列融合上下文的加权信息。编码模型基于多头自注意力机制获取每一帧与上下文的相似度,图像序列特征图及对应位置编码作为输入到点积注意力机制中获取相关度得分。其中,图像序列特征图作为自注意力机制的输入,由于数据集内视频长度不一致,模型设置最大序列窗口长度为500,以满足最大图像序列长度。
自注意力编码中,图像相似度得分表达式为:
Figure BDA0002546925370000057
Figure BDA0002546925370000058
相似度得分经归一化:
Figure BDA0002546925370000059
重编码后的序列特征为
Figure BDA00025469253700000510
相似度得分与图像特征加权求和重编码:
Figure BDA00025469253700000511
给定一组长度为L的视频序列输入X={x1,...,xL},对于每帧图像
Figure BDA0002546925370000061
定义有三个注意力机制的重要的相关向量qi,ki,
Figure BDA0002546925370000062
分别为:
Figure BDA0002546925370000063
Figure BDA0002546925370000064
Figure BDA0002546925370000065
其中,Wquery、Wkey、Wvalue表示一组自注意力机制相关的参数矩阵,在训练中更新,
Figure BDA0002546925370000066
表示图像xi的特征向量。
给定视频图像特征图序列、绝对位置编码序列、相对位置编码序列,输入自注意力编码器,生成图像相似度得分并更新融合机制权重。对于加入位置编码融合机制的自注意力模型,图像相似度得分为:
Figure BDA0002546925370000067
Figure BDA0002546925370000068
其中,U为模型训练中更新的位置编码融合权重矩阵。
为使模型同时注意到序列多个位置,所述自注意力机制编码模型基于多头自注意力机制获取每一帧图像与上下文的图像相似度,这种机制通过多个独立的表示子空间提高注意力的容量和准确度。每个头部利用相同的输入独立训练自注意力模块的参数矩阵Wquery、Wkey、Wvalue,独立获得注意力编码。最后获得的重编码为多个独立头部输出的加权和。本实施例中,在编码器模型中创建2层、8头的自注意力机制,第1层自注意力的输出作为第2层自注意力机制的输入,即:
Y1=MHA(X)
Y2=MHA(Y1)
式中,MHA(·)表示多头自注意力机制,Y1表示第1层输出,Y2表示第2层输出,X为图像序列特征。每个头以相同的图像序列特征作为输入,独立地训练和更新各自的参数矩阵,最后的输出为所有独立头部的加权和,为此另外添加一个权重矩阵Wo,其权值在训练中被更新,加权公式为:
Figure BDA0002546925370000069
步骤4,构建基于卷积神经网络的事件定位模型,以步骤3的输出作为网络的输入,对重编码后的特征序列解码预测子事件,获取多条子事件的时域节点及置信度得分,根据预设的分数阈值进行事件筛选。
基于卷积神经网络的事件定位模型训练时,对预测事件建议输出置信度得分P∈[0,1]和两项偏移值:事件中心点偏移
Figure BDA0002546925370000071
和事件长度偏移
Figure BDA0002546925370000072
事件定位模型的事件边界点回归定位采用锚点偏移机制,模型基于真实标签事件的分布设置一组锚点,每个与真实事件关联的锚点以长度la和锚点中心ca表示。通过ActivityNet Captions数据集训练回归优化目标事件锚点的事件长度lp和事件中心cp,获取事件的时域节点,其表达式为:
Figure BDA0002546925370000073
根据回归定位后的时域节点得到事件边界{Startp,Endp}:
Startp=cp-lp/2,Endp=cp+lp/2
事件定位模型输出事件的时域节点与置信度得分,根据预设的置信度阈值筛选可描述事件,掩码模块基于事件的时域节点在图像特征序列上提取事件特征图,作为自动描述解码模型的输入。
步骤5,构建基于注意力机制的自动描述解码模型,训练时以训练集的真实事件标签作为解码模型的输入。所述自动描述解码模型中,在每个时间步,利用联合注意力机制计算目标事件与上下文的相关性得分,同时利用自注意力机制与掩码机制使模型在每个时间步更为关注应当被描述的事件内容,生成合适单词,在下一时间步,目标事件中已被描述的特征信息被掩码,部分掩码的特征序列以及已生成的单词序列作为下一时间步的输入,循环输出单词,直至所有子事件被完整描述。
每个时间步t,对当前单词及已生成单词采取自注意力机制,获取单词序列间的相关度得分:
Figure BDA0002546925370000074
同时,在每个时间步t,采取掩码方式提取事件图像特征图序列,其表达式为:
Propt=Masking(Y,(start,end))
所述自动描述解码模型中,多头自注意力机制独立接受目标事件序列与上下文学习目标事件与背景信息相似度,利用上下文信息影响每个时间步的模型关注机制。目标事件特征图与上下文经多头联合注意力机制重编码后,对事件特征进行解码,基于已生成的单词序列获得当前单词的概率向量:
Probability(t|t-1,...,1)=Softmax(FF(MHA(Proptt)))
式中,FF(·)为前馈网络,MHA(·)为多头自注意力机制。基于单词概率向量中的概率最大值生成当前时间步的单词。
实际模型训练中,每一步均采用残差连接与前向网络简化参数更新步骤。
整个模型训练时以数据集的真实描述单词作为输入进行训练,采取端到端的训练方式,每个时间步生成的单词与真实描述比较计算损失函数,采用随机梯度下降法(SGD)优化参数矩阵降低损失。
本实施例中,采用随机梯度下降法定义4种独立的损失函数,在训练中不断优化各模块的参数:
(1)事件定位回归损失函数Lreg
(2)事件定位得分损失函数Lprop
(3)事件分类预测损失函数Lpred
(4)事件描述损失函数Lcap
总损失函数L定义为:
Figure BDA0002546925370000081
其中,λi,i∈{1,2,3,4}为端到端训练中调节各损失函数所占总体权重的超参数。
为了验证本发明的性能,设计了以下两组实验。
实验一:基于绝对位置编码(Abs-only)、相对位置编码(Rel-only)、位置编码融合(Fusion)三种不同机制,对包含2层子网络和8个独立头部的事件建议模型与描述模型单独训练。前述三种机制的实验在ActivityNet Captions数据集上的METEOR评分进行了测试和结果对比,2019年的新版本测试方式与2018年的旧版本测试方式都将被采用。
表1不同位置编码机制在ActivityNet Captions上的结果对比
METEOR(2018) METEOR(2019)
Abs-only 9.5600 6.6200
Rel-only 10.3252 7.1615
Fusion 10.3635 7.2181
在表1中比较了不同位置编码机制下模型的性能。基于相对位置的模型获得了10.3252(2018)和7.1615(2019)的METEOR得分,优于原始仅采用绝对位置编码的模型。而基于本发明的位置编码融合实验结果分别是10.3635(2018)和7.2181(2019),在两项指标上均获最高得分。
实验二:基于本发明的实验与DEM、DVC、MFT、Bi-LSTM和End-to-End Trans主流算法进行了比较,如表2。显然,与主流模型相比,本实验取得了具竞争力的结果。
表2实验与ActivityNet Captions上主流算法的结果对比
METEOR(2018) METEOR(2019)
DEM 4.8200 -
DVC 6.9300 -
MFT 7.0800 -
Bi-LSTM 9.6000 5.4200
End-to-end Trans 9.5600 6.6220
Fusion(Our Model) 10.3635 7.2181
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (10)

1.一种基于位置编码融合的密集型视频描述方法,其特征在于,该方法对待描述视频进行序列特征图提取,计算视频帧序列的绝对位置编码及上下文之间的相对位置编码,在自注意力机制编码模型中加权融合所述序列特征图、绝对位置编码和相对位置编码,计算图像相似度,对序列特征图进行重编码,基于重编码后的序列特征图对视频中的子事件进行定位并提取子事件特征图序列,基于注意力机制对已定位的子事件特征图序列按序解码成自然语言描述。
2.根据权利要求1所述的基于位置编码融合的密集型视频描述方法,其特征在于,所述序列特征图提取具体为:
对所述待描述视频进行图像序列采样,对每帧图像进行特征提取,生成对应的特征图和光流图并拼接,得到序列特征图。
3.根据权利要求1所述的基于位置编码融合的密集型视频描述方法,其特征在于,所述绝对位置编码基于每帧图像在序列中的发生次序获得,表示为:
Figure FDA0002546925360000011
Figure FDA0002546925360000012
式中,ord表示图像在序列中的顺序标量,i表示特征图通道,dx表示图像特征的维度,
Figure FDA0002546925360000013
为图像特征的奇数通道添加余弦型绝对位置编码,
Figure FDA0002546925360000014
为图像特征的偶数通道添加正弦型绝对位置编码。
4.根据权利要求1所述的基于位置编码融合的密集型视频描述方法,其特征在于,所述位置偏差编码
Figure FDA0002546925360000015
为第i帧图像与第j帧图像的位置偏差。
5.根据权利要求1所述的基于位置编码融合的密集型视频描述方法,其特征在于,所述自注意力机制编码模型基于多头自注意力机制获取每一帧图像与上下文的图像相似度,最后获得的重编码为多个独立头部输出的加权和。
6.根据权利要求1所述的基于位置编码融合的密集型视频描述方法,其特征在于,所述图像相似度的计算式为:
Figure FDA0002546925360000016
Figure FDA0002546925360000021
式中,
Figure FDA0002546925360000022
表示图像xi、xj的特征向量,Wquery、Wkey、Wvalue表示一组自注意力机制相关的参数矩阵,U为位置编码融合权重矩阵,dx表示图像特征的维度,
Figure FDA0002546925360000023
为绝对位置编码,
Figure FDA0002546925360000024
为位置偏差编码,si,j为图像相似度。
7.根据权利要求1所述的基于位置编码融合的密集型视频描述方法,其特征在于,采用基于卷积神经网络的事件定位模型对视频中的子事件进行初始定位,获得子事件的时域节点与置信度得分,根据预设的置信度阈值筛选可描述事件,基于所述时域节点得到精确的事件边界后,采用掩码模块在序列特征图上提取事件特征图序列。
8.根据权利要求7所述的基于位置编码融合的密集型视频描述方法,其特征在于,所述事件定位模型中的事件边界点回归定位采用锚点偏移机制,基于真实标签事件的分布设置一组锚点,每个与真实事件标签关联的锚点以长度la和锚点中心ca表示,目标事件锚点以事件长度lp和事件中心cp表示,对目标事件锚点进行训练回归优化,获得事件的时域节点,表达式为:
Figure FDA0002546925360000025
式中,
Figure FDA0002546925360000026
为事件中心点偏移,
Figure FDA0002546925360000027
为事件长度偏移;
根据回归定位后的时域节点获取事件边界{Startp,Endp}:
Startp=cp-lp/2,Endp=cp+lp/2。
9.根据权利要求1所述的基于位置编码融合的密集型视频描述方法,其特征在于,采用基于自注意力机制与联合注意力机制的自动描述解码模型获得所述自然语言描述。
10.根据权利要求9所述的基于位置编码融合的密集型视频描述方法,其特征在于,所述自动描述解码模型中,在每个时间步,利用联合注意力机制计算目标事件与上下文的相关性得分,同时利用自注意力机制与掩码机制生成合适单词,在下一时间步,目标事件中已被描述的特征信息被掩码,掩码的特征序列以及已生成的单词序列作为下一时间步的输入,循环输出单词,直至所有子事件被完整描述。
CN202010563286.XA 2020-03-17 2020-06-19 一种基于位置编码融合的密集型视频描述方法 Active CN111814844B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020101876691 2020-03-17
CN202010187669 2020-03-17

Publications (2)

Publication Number Publication Date
CN111814844A true CN111814844A (zh) 2020-10-23
CN111814844B CN111814844B (zh) 2023-07-11

Family

ID=72845267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010563286.XA Active CN111814844B (zh) 2020-03-17 2020-06-19 一种基于位置编码融合的密集型视频描述方法

Country Status (1)

Country Link
CN (1) CN111814844B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392717A (zh) * 2021-05-21 2021-09-14 杭州电子科技大学 一种基于时序特征金字塔的视频密集描述生成方法
CN113449741A (zh) * 2021-07-02 2021-09-28 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及系统
CN113569755A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于对偶关系网络的时序动作定位方法、系统、设备及介质
CN114812551A (zh) * 2022-03-09 2022-07-29 同济大学 一种室内环境机器人导航自然语言指令生成方法
CN115098727A (zh) * 2022-06-16 2022-09-23 电子科技大学 基于视觉常识知识表征的视频描述生成方法
CN116543146A (zh) * 2023-07-06 2023-08-04 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN117274823A (zh) * 2023-11-21 2023-12-22 成都理工大学 基于DEM特征增强的视觉Transformer滑坡识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1695197A (zh) * 2002-09-12 2005-11-09 松下电器产业株式会社 记录介质,播放设备,程序,播放方法,以及记录方法
CN103119936A (zh) * 2010-09-16 2013-05-22 皇家飞利浦电子股份有限公司 用于图像的改进的编码的设备和方法
CN105453570A (zh) * 2013-01-30 2016-03-30 英特尔公司 用于下一代视频的对分区数据的内容自适应熵编码
CN106416220A (zh) * 2014-05-22 2017-02-15 微软技术许可有限责任公司 将视频自动插入照片故事
US20170289624A1 (en) * 2016-04-01 2017-10-05 Samsung Electrônica da Amazônia Ltda. Multimodal and real-time method for filtering sensitive media
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法
US20190066732A1 (en) * 2010-08-06 2019-02-28 Vid Scale, Inc. Video Skimming Methods and Systems
CN110072142A (zh) * 2018-01-24 2019-07-30 腾讯科技(深圳)有限公司 视频描述生成方法、装置、视频播放方法、装置和存储介质
CN110222225A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 Gru编解码器训练方法、音频的摘要生成方法及装置
CN110418210A (zh) * 2019-07-12 2019-11-05 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1695197A (zh) * 2002-09-12 2005-11-09 松下电器产业株式会社 记录介质,播放设备,程序,播放方法,以及记录方法
US20190066732A1 (en) * 2010-08-06 2019-02-28 Vid Scale, Inc. Video Skimming Methods and Systems
CN103119936A (zh) * 2010-09-16 2013-05-22 皇家飞利浦电子股份有限公司 用于图像的改进的编码的设备和方法
CN105453570A (zh) * 2013-01-30 2016-03-30 英特尔公司 用于下一代视频的对分区数据的内容自适应熵编码
CN106416220A (zh) * 2014-05-22 2017-02-15 微软技术许可有限责任公司 将视频自动插入照片故事
US20170289624A1 (en) * 2016-04-01 2017-10-05 Samsung Electrônica da Amazônia Ltda. Multimodal and real-time method for filtering sensitive media
US20180189572A1 (en) * 2016-12-30 2018-07-05 Mitsubishi Electric Research Laboratories, Inc. Method and System for Multi-Modal Fusion Model
CN110072142A (zh) * 2018-01-24 2019-07-30 腾讯科技(深圳)有限公司 视频描述生成方法、装置、视频播放方法、装置和存储介质
CN108960063A (zh) * 2018-06-01 2018-12-07 清华大学深圳研究生院 一种面向事件关系编码的视频中多事件自然语言描述算法
CN110222225A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 Gru编解码器训练方法、音频的摘要生成方法及装置
CN110418210A (zh) * 2019-07-12 2019-11-05 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法

Non-Patent Citations (11)

* Cited by examiner, † Cited by third party
Title
CHENG HUANG 等: ""A novel key-frames selection framework for comprehensive video"", 《IEEE》 *
MATTHEW F.TANG 等: ""Neural dynamics of the attentional blink revealed by encoding orientation selectivity during rapid visual presentation"", 《NATURE COMMUNICATIONS》 *
SIYUAN WU 等: ""Object-oriented video prediction with pixel-level attention"", 《ICIMCS》 *
刘邦贵: ""基于深度学习的超声图像主题生成及验证系统"", 《中国博硕士学位论文全文数据库 信息科技辑》 *
廖伟胜: ""基于主题筛选下邻域更新及弱标签分集提升的图像标注研究"", 《中国优秀博硕士学位论文全文数据库 信息科技辑》 *
张莹: ""基于自适应排序函数和深度特征学习的行人搜索算法研究"", 《中国博士学位论文全文数据库》 *
徐彤阳等: ""数字图书馆中基于内容的视频拷贝检测关键技术研究"", 《现代情报》 *
李晓旭: ""基于神经网络的中小词汇量中国手语识别研究"", 《中国优秀博硕士学位论文全文数据库 信息科技辑》 *
沈秋: ""基于多维描述空间的视频自适应关键技术研究"", 《中国博士学位论文全文数据库 信息科技辑》 *
王廷蔚: ""基于鉴别主题和时序结构的动作识别"", 《中国博士学位论文全文数据库 信息科技辑》 *
许昊 等: ""深度神经网络图像描述综述"", 《计算机工程与应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392717A (zh) * 2021-05-21 2021-09-14 杭州电子科技大学 一种基于时序特征金字塔的视频密集描述生成方法
CN113392717B (zh) * 2021-05-21 2024-02-13 杭州电子科技大学 一种基于时序特征金字塔的视频密集描述生成方法
CN113449741A (zh) * 2021-07-02 2021-09-28 西安交通大学 一种基于语义推断和图像理解的遥感影像定位方法及系统
CN113569755A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于对偶关系网络的时序动作定位方法、系统、设备及介质
CN113569755B (zh) * 2021-07-29 2023-08-22 西安交通大学 基于对偶关系网络的时序动作定位方法、系统、设备及介质
CN114812551A (zh) * 2022-03-09 2022-07-29 同济大学 一种室内环境机器人导航自然语言指令生成方法
CN114812551B (zh) * 2022-03-09 2024-07-26 同济大学 一种室内环境机器人导航自然语言指令生成方法
CN115098727A (zh) * 2022-06-16 2022-09-23 电子科技大学 基于视觉常识知识表征的视频描述生成方法
CN116543146A (zh) * 2023-07-06 2023-08-04 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN116543146B (zh) * 2023-07-06 2023-09-26 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN117274823A (zh) * 2023-11-21 2023-12-22 成都理工大学 基于DEM特征增强的视觉Transformer滑坡识别方法
CN117274823B (zh) * 2023-11-21 2024-01-26 成都理工大学 基于DEM特征增强的视觉Transformer滑坡识别方法

Also Published As

Publication number Publication date
CN111814844B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN111814844A (zh) 一种基于位置编码融合的密集型视频描述方法
Kim et al. Efficient dialogue state tracking by selectively overwriting memory
CN114169330B (zh) 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN110933518B (zh) 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN111460824B (zh) 一种基于对抗迁移学习的无标注命名实体识别方法
CN110968660A (zh) 基于联合训练模型的信息抽取方法和系统
CN113971837B (zh) 一种基于知识的多模态特征融合的动态图神经手语翻译方法
CN114238649B (zh) 一种常识概念增强的语言模型预训练方法
CN113807079B (zh) 一种基于序列到序列的端到端实体和关系联合抽取方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
CN116340039A (zh) 基于预训练BERT句向量与Informer-encoder的日志异常检测方法
CN114155477B (zh) 一种基于平均教师模型的半监督视频段落定位方法
CN116010622A (zh) 融合实体类型的bert知识图谱补全方法及系统
CN115936001A (zh) 基于BERT-BiLSTM-CRF模型和注意力的电网IT运维实体识别方法及系统
CN115171870A (zh) 一种基于m-BERT预训练模型的就诊引导提示方法及系统
CN115860002A (zh) 一种基于事件抽取的作战任务生成方法及系统
Xin et al. Automatic annotation of text classification data set in specific field using named entity recognition
CN114756679A (zh) 基于交谈注意力机制的中文医学文本实体关系联合抽取方法
Chen et al. Transfer learning for context-aware spoken language understanding
Yang et al. Position embedding fusion on transformer for dense video captioning
CN117972435B (zh) 一种数字人文本动作模型训练方法及数字人动作生成方法
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法
CN117312928B (zh) 一种基于aigc识别用户设备信息的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant