CN114549317A - 一种基于时空超分辨率的视频描述方法及电子设备 - Google Patents
一种基于时空超分辨率的视频描述方法及电子设备 Download PDFInfo
- Publication number
- CN114549317A CN114549317A CN202210167971.XA CN202210167971A CN114549317A CN 114549317 A CN114549317 A CN 114549317A CN 202210167971 A CN202210167971 A CN 202210167971A CN 114549317 A CN114549317 A CN 114549317A
- Authority
- CN
- China
- Prior art keywords
- resolution
- super
- video
- video description
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000005070 sampling Methods 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000002123 temporal effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 239000004576 sand Substances 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 10
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000000007 visual effect Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 235000019987 cider Nutrition 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000006835 compression Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000001427 coherent effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 208000029257 vision disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明涉及一种基于时空超分辨率的视频描述方法及电子设备,所述方法基于一视频描述模型实现,包括以下步骤:获取输入视频,对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列;通过所述视频描述模型,对所述视频帧序列进行多模态特征提取和特征编码,动态融合编码后的多模态特征,逐步解码生成视频描述语句;其中,所述视频描述模型训练时,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以重构误差和解码预测误差构建损失函数,实现模型训练。与现有技术相比,本发明具有描述丰富准确、泛化能力强、计算开销低等优点。
Description
技术领域
本发明涉及计算机视觉和自然语言领域,尤其是涉及一种基于时空超分辨率的视频描述方法及电子设备。
背景技术
近些年来,随着5G网络的普及,视频作为一种信息交互的媒介在人们的日常生活中广泛传播开来,同时也带来了各种新的挑战,如大规模视频的自动分类、检索、动作和事件的检测等视频理解任务。而视频描述作为视频理解任务的关键任务之一,旨在对于一段给出的视频片段自动生成一句自然语言描述,在人机交互,婴幼儿教学以及视觉障碍辅助等领域具有非常广阔的应用前景。由于视频场景的丰富性以及复杂的时序性,对视频信息的建模存在一定的难度,相比于静态的图像描述任务,视频描述任务依然存在一定的发展空间。
随着深度学习在计算机科学领域的重大突破,基于深度模型的视频描述方法相继取得优秀成果,如专利CN106845411B公开的一种基于深度学习和概率图模型的视频描述生成方法。现有大部分方法对视频进行帧采样后,压缩至较小尺寸输送给预训练好的卷积神经网络进行特征提取,然后借助于编码器-解码器的结构对提取后的特征处理生成自然语言描述。然而这样的做法忽略了帧采样以及图片压缩过程导致的信息损失,同时如果不进行帧采样,并保持原图的高分辨率进行特征提取会引入大量的计算成本,模型运行速度显著下降。因此,如何设计出一种高效的且捕捉视频丰富视觉特征的视频描述方法,是目前亟待解决的研究问题之一。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种描述丰富准确、泛化能力强、计算开销低的基于时空超分辨率的视频描述方法及电子设备。
本发明的目的可以通过以下技术方案来实现:
一种基于时空超分辨率的视频描述方法,该方法基于一视频描述模型实现,包括以下步骤:
获取输入视频,对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列;
通过所述视频描述模型,对所述视频帧序列进行多模态特征提取和特征编码,动态融合编码后的多模态特征,逐步解码生成视频描述语句;
其中,所述视频描述模型训练时,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以重构误差和解码预测误差构建损失函数,实现模型训练。
进一步地,所述多模态特征包括图像特征、动作特征和局部特征。
通过二维卷积神经网络对每一视频帧进行所述图像特征的提取,利用Transformer编码器对所提取的图像特征的时间关联进行建模,实现特征编码。
进一步地,通过三维卷积神经网络对以每一视频帧为中心的连续16帧片段进行动作特征的提取,利用Transformer编码器对所提取的图动作征的时间关联进行建模,实现特征编码。
进一步地,通过场景图检测网络生成所述局部特征,该局部特征包含物体以及物体之间的语义关联,采用图神经网络对物体以及物体之间的语义联系进行建模,实现特征编码。
进一步地,通过超分辨率解码器融合所述图像特征和局部特征重构原始分辨率的帧,通过超分辨率解码器融合图像特征和动作特征还原丢失的相邻采样帧之间的中间帧。
进一步地,所述超分辨率解码器包括可感知位置的注意力层、前馈网络层和层归一化,所述可感知位置的注意力层包含一个可学习的相对位置矩阵和一个掩膜矩阵。
进一步地,所述逐步解码生成视频描述语句具体为:
在每一个时间步,首先使用词嵌入向量化上一个时间步的单词,然后动态融合多模态特征,将最后全连接层输出的向量通过softmax计算当前时刻的单词概率分布。
进一步地,构建的所述损失函数表示为:
L=Llang+λsLssr+λtLtsr
其中Llang代表描述解码预测误差的语言损失,Lssr代表空间维度的超分辨率损失,Ltsr代表时间维度的超分辨率损失,λs和λt代表用于平衡时间和空间超分辨率损失权重的超参数。
本发明还提供一种电子设备,包括:
一个或多个处理器;
存储器;
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于时空超分辨率的视频描述方法的指令。
与现有技术相比,本发明具有以下有益效果:
一、描述丰富准确:本发明高效地解决了帧采样以及图片压缩过程带来的信息损失,通过时空超分辨率增强各个编码器的表达能力,捕捉关键的物体细节信息并使得帧与帧之间更加连贯,从而丰富了编码器输出的视觉特征。同时,超分辨率解码器可以感知帧间的相对时间位置,并将注意力集中在当前帧周围,以更好地引导编码器的学习。因此,强化后的编码视觉特征让Transformer解码器可以解码生成语义信息更丰富,描述内容更准确的语句。
二、泛化能力强:本发明对于视频帧采样频率和压缩尺寸不再敏感,时空超分辨率引导编码器学习更加丰富而且鲁棒的视觉特征,且避免了高清图像的计算代价,具有较强的普适性和泛化性。
三、计算开销低:本发明无需增加采样频率和保留原始高清分辨率,通过时空超分辨率丰富视觉特征,本发明计算成本低,运行高效。
附图说明
图1为本发明基于时空超分辨率的视频描述方法示意图;
图2为超分辨率解码器及其变体的结构示意图;
图3为本发明生成的视频描述示例。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本实施例提出了一种基于时空超分辨率的视频描述方法,如图1所示,该方法基于一视频描述模型实现,包括以下步骤:获取输入视频,对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列;通过所述视频描述模型,对所述视频帧序列进行多模态特征提取和特征编码,动态融合编码后的多模态特征,逐步解码生成视频描述语句。所述视频描述模型训练时,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以重构误差和解码预测误差构建损失函数,实现模型训练。
1)视频采样
本实施例对输入视频进行视频采样,得到包含若干压缩尺寸帧的视频帧序列,该帧序列包含T张大小为224×224的视频帧。
2)特征提取
本实施例所考虑的多模态特征包括图像特征、动作特征和局部特征,具体地,使用二维卷积神经网络对帧序列中的每一帧提取图像特征,使用场景图检测网络对每一帧检测出可能存在的物体使用RoI Align的方式得到局部特征并建立物体之间的语义联系,使用三维卷积神经网络对以每一帧为中心的连续16帧片段提取动作特征。
3)特征编码
对于提取后的图像特征和动作特征,由于它们具有时序性,采用Transformer编码器对其进行时序建模。Transformer编码器一共有4层,每一层包含了自注意力层,前馈网络层以及层归一化,模型维度为512维,输出得到编码后图像特征和动作特征。对于局部特征,由于其自然的图结构,采用图神经网络对物体以及物体之间的语义联系进行建模。图神经网络一共有2层,每一层包含全连接层和ReLU激活函数,模型维度为512维,输出得到编码后的局部特征。
4)损失函数
在进行特征提取时,为了方便和减少计算开销,本发明和大部分现有方法一样采用了帧采样和图像压缩的方式,但在此过程中存在一定程度的信息丢失。因此本发明在训练视频描述模型、优化其模型参数时,通过视频超分辨率步骤,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以提高信息可靠性。
视频超分辨率步骤包括:
(1)空间超分辨率。空间维度上,图像特征因为压缩后丢失了很多细节信息,而局部特征恰好包含了丰富的物体信息和语义信息,因此本发明采用了一个超分辨率解码器基于编码后的图像特征结合局部特征来重构原始分辨率的帧特征,并使用均方误差损失函数来衡量重构特征,其计算方式如下:
(2)时间超分辨率。时间维度上,图像特征因为帧采样过程导致采样帧间的时间关联性减弱,而动作特征恰好捕获了丰富的时间动态变化,因此本发明采用了一个超分辨率解码器基于编码后的图像特征结合动作特征还原丢失的相邻采样帧的中间帧特征。使用均方误差衡量预测帧特征和真实帧特征的差异,其计算方式如下:
在还原超分辨率帧的过程中,对于t时刻的超分辨率帧,集中关注以它为中心半径为r的周围帧能有效地获取上下文信息,进一步得到帧间的相对时间位置关系能更好地还原超分辨率帧特征。本发明设计了一个超分辨率解码器,以实现上述视频超分辨率步骤。如图2所示,该超分辨率解码器包含了可感知位置的注意力层以及前馈网络层。假设帧序列的长度为T,相对时间位置的范围在[-T+1,T-1],对此范围内的相对位置进行参数化即可得到可感知位置矩阵,其第i行第j列的含义是第i帧相对于第j帧的相对位置。另外通过掩膜矩阵限制每一帧只能关注以其为中心最远距离不超过r的范围。得到这两个矩阵后,可感知位置注意力层由下式表示:
其中Q,K,V代表前一层输入线性变换之后的矩阵,d代表模型的维度,bpa代表可感知位置矩阵,bmask代表掩膜矩阵。接下来,前馈网络层可由下式表示:
feed-forward(x)=ReLU(xW1+b1)W2+b2
其中x代表输入向量,W1,W2,b1,b2代表可学习的参数。
本发明利用Transformer解码器逐步解码生成语句,初始时刻使用特殊单词<BOS>作为句首,接下来的每一个时间步骤,使用词嵌入向量化上一个时间步骤输出的单词,然后动态融合三个模态的特征F、M、O,将最后全连接层输出的向量通过softmax计算当前时刻的单词概率分布:
P(wt|w<t,F,M,O)=softmax(W3Ht+b3)
其中w<t代表t时刻之前生成的单词,W3和b3代表可学习参数,Ht代表t时刻解码器输出的隐层状态。假设整个描述有L个单词,使用交叉熵损失函数来衡量解码器预测能力:
进行训练时,总损失函数L由语言损失Llang、空间超分辨率损失Lssr和时间超分辨率损失Ltsr三者组成,公式定义如下:
L=Llang+λsLssr+λtLtsr
其中λs,λt代表用于平衡时间和空间超分辨率损失权重的超参数。
上述视频超分辨率步骤仅在模型训练中执行,而测试阶段或实际应用阶段则会移除,仅保留描述生成的工作线,提高运行效率。
如图3所示为利用本发明构建的视频描述模型进行视频描述的实例,由结果可知,本发明能够获得与人工标注更为接近的视频描述。
为了验证上述方法的性能,设计了以下实验。
本方法在MSVD和MSR-VTT两个基准数据集上进行了实验验证。其中,MSVD数据集包含1970个视频,均采自于YouTube网站包含多种活动,每一个视频有对应大约40句英文描述,本方法将此数据集划分为训练集(1200个视频),验证集(100个视频)和测试集(670个视频)。MSR-VTT数据集包含10000个视频来自20个主题种类包含音乐,运动,烹饪等等,每一个视频有对应的20句英文描述。本方法将此数据集划分为训练集(6513个视频),验证集(497个视频)和测试集(2990个视频)。
实验使用的客观评价指标包括BLEU@4,METEOR,ROUGE-L和CIDEr。其中,BLEU@4衡量词块在真实描述和生成描述之间的准确率,而METEOR衡量的不仅仅是准确率,还有召回率,并延展了匹配同义词。ROUGE-L计算真实描述和生成描述之间最长公共子序列的调和平均数。最后,CIDEr是专门为图片描述提出的一种基于共识的评价指标,通过度量生成描述语句和真实描述语句的相似性生成评价指标,这也是和人工评测最为一致的客观评价指标。
为了验证所提出方法的有效性,本发明方法的结果与现有研究中的模型结果进行了对比,结果如表1所示。其中,与本发明方法进行对比的10种方法具体细节如下:(1)TVT:采用Transformer结构动态融合多模态信息;(2)MARN:采用记忆结构来建模同义词之间的兼容性;(3)ORG-TRL:采用外部语料库来引导解码器的单词概率分布生成;(4)ST-Graph:采用时空图来对视频中的物体交互建模;(5)POS-CG:采用了全局的语法词性信息来辅助描述生成;(6)STAT:采用了空间注意力机制;(7)SGN:采用语义分组网络来捕捉最具判别性的短语;(8)RecNet:采用自编码器来重构图像特征;(9)Multi-Task:将视频描述和视频预测以及同义句生成任务共同训练;(10)SibNet:采用物体分支和语义分支分别重构图像特征和语义特征。表中每一列最优的指标值加粗表示,次优指标下划线表示。
表1 本发明方法在MSVD和MSR-VTT数据集上与现有方法的性能对比
从表1可以看出,在MSVD上,本发明提出的方法在三个指标下达得了最佳水平,特别是在CIDEr上显著提高了2.6%。在MSR-VTT上,本发明提出的方法取得了最好的CIDEr分数,提高了0.9%,并在其他指标下取得了次优结果。原因可能是MSR-VTT是一个大规模数据集,它更多地受益于ORG-TRL中使用的外部语料库。而CIDEr是专门为描述任务设计的更符合人类的判断,因此总的来说,本发明相比于大部分现有方法是取得了优异的成绩。
为了评估所提出的时间和空间两种超分辨率的作用,本方法设计了消融实验进行对比,结果如表2所示。
表2 本发明搭配不同种类超分辨率的性能对比
从表2可以看出,无论是使用时间超分辨率或者空间超分辨率,在两个数据集上4种评价指标都超过了基准模型,说明时间或者空间超分辨率都可以有效地提升编码器的学习能力,得到丰富而且连贯的视觉特征。另外,使用时空超分辨率相比于单独使用时间或者空间超分辨率有进一步地提升,说明时间和空间两个维度的超分辨率对于编码器的提升是互补的,时间维度侧重于提升视觉特征的连贯性而空间维度侧重于学习包含丰富细节信息的视觉特征。
为了验证本发明提出的超分辨率解码器的性能,本发明设计了消融实验对比超分辨率解码器及其变体(如图2所示)的性能,其中单模态解码器仅使用单一模态图像特征来还原超分辨率特征,多模态解码器采用了传统的多头注意力层,而本发明的超分辨率解码器不仅可以融合多模态信息,还具备可感知位置的注意力层。性能对比结果如表3所示。
表3 本发明搭配不同种类的超分辨率解码器的性能对比
从表3中可以看出,采用单模态解码器取得了最差的成绩,采用多模态解码器取得了第二名的成绩,而采用本发明提出的超分辨率解码器取得了最佳的成绩,这说明仅使用单一模态信息进行超分辨率解码是不足的,无法充分地引导多模态编码器的编码能力,另一方面加入可感知位置的注意力层能更加高效的聚合周围帧的信息,从而更加有效地引导多模态编码器的编码能力。
实验可以证实,在MSVD和MSR-VTT两个基准数据集上,本方法取得了优异的成绩,能够在大部分指标上性能好于现有方法,并且易于实施,无需额外的计算开销。在目前已知的视频描述生成方法中,本方法具有较强的优势和应用前景。
上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在另一实施例中提供一种电子设备,包括一个或多个处理器、存储器和被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如上所述基于时空超分辨率的视频描述方法的指令。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (10)
1.一种基于时空超分辨率的视频描述方法,其特征在于,该方法基于一视频描述模型实现,包括以下步骤:
获取输入视频,对该输入视频进行采样获得包含若干压缩尺寸帧的视频帧序列;
通过所述视频描述模型,对所述视频帧序列进行多模态特征提取和特征编码,动态融合编码后的多模态特征,逐步解码生成视频描述语句;
其中,所述视频描述模型训练时,从空间和时间两个维度上重构原始分辨率的帧和相邻采样帧之间的中间缺失帧,以重构误差和解码预测误差构建损失函数,实现模型训练。
2.根据权利要求1所述的基于时空超分辨率的视频描述方法,其特征在于,所述多模态特征包括图像特征、动作特征和局部特征。
3.根据权利要求2所述的基于时空超分辨率的视频描述方法,其特征在于,通过二维卷积神经网络对每一视频帧进行所述图像特征的提取,利用Transformer编码器对所提取的图像特征的时间关联进行建模,实现特征编码。
4.根据权利要求2所述的基于时空超分辨率的视频描述方法,其特征在于,通过三维卷积神经网络对以每一视频帧为中心的连续16帧片段进行动作特征的提取,利用Transformer编码器对所提取的图动作征的时间关联进行建模,实现特征编码。
5.根据权利要求2所述的基于时空超分辨率的视频描述方法,其特征在于,通过场景图检测网络生成所述局部特征,该局部特征包含物体以及物体之间的语义关联,采用图神经网络对物体以及物体之间的语义联系进行建模,实现特征编码。
6.根据权利要求2所述的基于时空超分辨率的视频描述方法,其特征在于,通过超分辨率解码器融合所述图像特征和局部特征重构原始分辨率的帧,通过超分辨率解码器融合图像特征和动作特征还原丢失的相邻采样帧之间的中间帧。
7.根据权利要求6所述的基于时空超分辨率的视频描述方法,其特征在于,所述超分辨率解码器包括可感知位置的注意力层、前馈网络层和层归一化,所述可感知位置的注意力层包含一个可学习的相对位置矩阵和一个掩膜矩阵。
8.根据权利要求1所述的基于时空超分辨率的视频描述方法,其特征在于,所述逐步解码生成视频描述语句具体为:
在每一个时间步,首先使用词嵌入向量化上一个时间步的单词,然后动态融合多模态特征,将最后全连接层输出的向量通过softmax计算当前时刻的单词概率分布。
9.根据权利要求1所述的基于时空超分辨率的视频描述方法,其特征在于,构建的所述损失函数表示为:
L=Llang+λsLssr+λtLtsr
其中Llang代表描述解码预测误差的语言损失,Lssr代表空间维度的超分辨率损失,Ltsr代表时间维度的超分辨率损失,λs和λt代表用于平衡时间和空间超分辨率损失权重的超参数。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
被存储在存储器中的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-9任一所述基于时空超分辨率的视频描述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210167971.XA CN114549317A (zh) | 2022-02-23 | 2022-02-23 | 一种基于时空超分辨率的视频描述方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210167971.XA CN114549317A (zh) | 2022-02-23 | 2022-02-23 | 一种基于时空超分辨率的视频描述方法及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114549317A true CN114549317A (zh) | 2022-05-27 |
Family
ID=81677864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210167971.XA Pending CN114549317A (zh) | 2022-02-23 | 2022-02-23 | 一种基于时空超分辨率的视频描述方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114549317A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115065841A (zh) * | 2022-06-25 | 2022-09-16 | 同济大学 | 基于多层次内容感知边界检测的视频处理方法及存储介质 |
CN116310984A (zh) * | 2023-03-13 | 2023-06-23 | 中国科学院微电子研究所 | 基于Token采样的多模态视频字幕生成方法 |
CN117058001A (zh) * | 2023-10-12 | 2023-11-14 | 深圳云天畅想信息科技有限公司 | 超分辨率视频融合重建方法、装置及计算机设备 |
-
2022
- 2022-02-23 CN CN202210167971.XA patent/CN114549317A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115065841A (zh) * | 2022-06-25 | 2022-09-16 | 同济大学 | 基于多层次内容感知边界检测的视频处理方法及存储介质 |
CN116310984A (zh) * | 2023-03-13 | 2023-06-23 | 中国科学院微电子研究所 | 基于Token采样的多模态视频字幕生成方法 |
CN116310984B (zh) * | 2023-03-13 | 2024-01-30 | 中国科学院微电子研究所 | 基于Token采样的多模态视频字幕生成方法 |
CN117058001A (zh) * | 2023-10-12 | 2023-11-14 | 深圳云天畅想信息科技有限公司 | 超分辨率视频融合重建方法、装置及计算机设备 |
CN117058001B (zh) * | 2023-10-12 | 2023-12-12 | 深圳云天畅想信息科技有限公司 | 超分辨率视频融合重建方法、装置及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657041B (zh) | 基于深度学习的问题自动生成方法 | |
CN114549317A (zh) | 一种基于时空超分辨率的视频描述方法及电子设备 | |
CN112613303B (zh) | 一种基于知识蒸馏的跨模态图像美学质量评价方法 | |
Yuan et al. | Transformer-based feature reconstruction network for robust multimodal sentiment analysis | |
CN109874029B (zh) | 视频描述生成方法、装置、设备及存储介质 | |
CN111428073B (zh) | 一种深度监督量化哈希的图像检索方法 | |
CN113423004B (zh) | 基于解耦译码的视频字幕生成方法和系统 | |
CN116343190B (zh) | 自然场景文字识别方法、系统、设备及存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN113111663A (zh) | 一种融合关键信息的摘要生成方法 | |
CN113971208B (zh) | 基于混合注意力机制的视频对象定位方法及系统 | |
CN116796251A (zh) | 一种基于图文多模态的不良网站分类方法、系统及设备 | |
CN116414962A (zh) | 一种基于注意力机制的问答匹配方法 | |
CN116628490A (zh) | 图文音多模态预训练模型方法、装置、电子设备和介质 | |
CN116208772A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN115661710A (zh) | 一种视频描述生成方法、装置及存储介质 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN113609330B (zh) | 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质 | |
CN114896969A (zh) | 一种基于深度学习的方面词提取方法 | |
CN110852066A (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
CN115050371A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN114462386A (zh) | 一种基于深度学习的端到端篇章事件抽取方法及系统 | |
CN113609355A (zh) | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 | |
Liu et al. | Global and Local Interactive Perception Network for Referring Image Segmentation | |
CN116958997B (zh) | 一种基于异质图神经网络的图文摘要方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |