CN111079532A - 一种基于文本自编码器的视频内容描述方法 - Google Patents

一种基于文本自编码器的视频内容描述方法 Download PDF

Info

Publication number
CN111079532A
CN111079532A CN201911108029.0A CN201911108029A CN111079532A CN 111079532 A CN111079532 A CN 111079532A CN 201911108029 A CN201911108029 A CN 201911108029A CN 111079532 A CN111079532 A CN 111079532A
Authority
CN
China
Prior art keywords
video
text
matrix
self
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911108029.0A
Other languages
English (en)
Other versions
CN111079532B (zh
Inventor
李平
张致远
徐向华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911108029.0A priority Critical patent/CN111079532B/zh
Publication of CN111079532A publication Critical patent/CN111079532A/zh
Application granted granted Critical
Publication of CN111079532B publication Critical patent/CN111079532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于文本自编码器的视频内容描述方法。本发明方法首先构建卷积神经网络提取视频的二维和三维特征;其次,构建文本自编码器,即分别用编码器‑文本卷积网络提取文本隐空间特征和解码器‑多头注意力残差网络重构文本;再次,通过自注意力机制及全连接映射得到估计文本隐空间特征;最后,通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。本发明方法通过文本自编码器的训练可充分挖掘视频内容语义和视频文本描述的潜在关系,通过自注意力机制捕捉视频长时间跨度的动作时序信息,提高了模型的计算效率,从而生成更符合视频真实内容的文本描述。

Description

一种基于文本自编码器的视频内容描述方法
技术领域
本发明属于计算机技术领域,具体是视频内容描述技术领域,涉及一种基于文本自编码器的视频内容描述方法。
背景技术
近年来,随着信息技术不断发展以及智能设备迭代升级,人们更加倾向利用视频来传达信息,使得各种类型的视频数据规模愈加庞大,同时也带来巨大挑战。例如,视频内容分享网站上每分钟都有成百上千的视频数据上传到服务器,若由人工来审核这些视频是否合规则非常耗时耗力,而借助视频描述的方法则可显著提高审核工作的效率,节省大量时间开销和人力成本。视频内容描述技术主要可广泛应用在于视频标题生成、视频检索、帮助视障人群理解视频等实际场景。
视频内容描述即利用一段自然流畅的文本对视频中的内容进行描述,其目标是反映视频中的目标对象(如行人或物体)、对象间的动作,以及所处的场景等,并理解其间的复杂关系,最终生成与视频内容相匹配且连贯的语句。传统视频描述方法主要基于人工设计特征和经典机器学习算法,例如使用支持向量机(Support Vector Machine,SVM)算法对视频进行描述,但这种方法难以生成正确且自然流畅的语句。
近年来,深度学习方法在视觉计算领域取得了很大成功,其中典型的模型包括卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)。前者主要捕获视觉样本的局部空间关系特征,后者主要捕获输入数据流的空间关系特征。目前,主流的视频描述方法采用编码器-解码器模型为基本框架,编码器主要利用卷积神经网络(CNN)提取视频特征并用张量表示,而解码器主要利用循环神经网络(RNN)将视频对应的张量表示进行解码得到视频的文本描述。考虑到视频数据具有时序关系,可以将卷积神经网络与循环神经网络相结合并作为编码器。为了反映局部显著性特征,也有方法采用视觉注意力机制,作用于注意力编码器的输出特征与解码器的输入特征,这使得模型能动态地调整参数权重,生成更加准确的描述文本。
上述方法的不足点主要表现在以下几个方面:第一,主流视频描述方法主要利用交叉熵计算损失,具有误差积累的缺点,虽然可用强化学习避免该缺点但是计算量很大且难以收敛重;第二,上述方法仅考虑视频特征,并没有充分利用视频文本蕴含的丰富特征,忽略了作为先验信息的文本对描述模型参数更新的指导作用;第三,循环神经网络属于顺序结构,当前时刻的单元依赖于之前所有单元的输出而不能并行处理,造成计算资源浪费,有时还出现梯度消失的情形而不能准确更新权重,从而难以准确生成与视频内容匹配且连贯的语句。基于这些考虑,针对动画电影字幕生成、视障人群看视频、视觉聊天机器人等实际应用场景,迫切需要设计一种能准确反映视频传达信息的视频内容描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于文本自编码器的视频内容描述方法,可以通过自编码器训练和隐空间学习,搭建视频内容与文本描述之间的桥梁,生成能准确与视频内容匹配且自然流畅的描述语句。
本发明方法首先获取视频数据集合,然后进行以下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;
步骤(4).通过自适应矩估计(Adam)算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。
进一步,步骤(1)具体方法是:
(1-1).设给定视频
Figure BDA00022718991000000210
含有N幅帧图像,表示为{X1,X2,…Xi,…,XN},其中
Figure BDA0002271899100000021
为第i帧图像,w,h,c分别为视频帧的宽度、高度、通道数;
(1-2).构建卷积神经网络模型提取视频的二维和三维特征,具体是:
对每个视频进行等间隔采样256帧,将采样后的每一帧裁剪为224×224大小的图像
Figure BDA0002271899100000022
该视频处理后的所有帧集合记作
Figure BDA0002271899100000023
将视频对应的视频帧
Figure BDA0002271899100000024
以16帧为间隔,划分成16个视频片段,记作
Figure BDA0002271899100000025
其中
Figure BDA0002271899100000026
利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧
Figure BDA0002271899100000027
中每一帧的特征,将所有帧的特征进行拼接得到视频的外观特征表示矩阵为
Figure BDA0002271899100000028
提取视频帧
Figure BDA0002271899100000029
中每一帧的特征是取平均池化层后的输出,并拉直为向量;
利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征,取全连接层fc6后的输出,将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵
Figure BDA0002271899100000031
进一步,步骤(2)具体方法是:
(2-1).用于描述视频的有序词汇表记为集合
Figure BDA0002271899100000032
对于不在词汇表中的单词用符号<UNK>表示,对于补全的单词用符号<PAD>表示;视频
Figure BDA0002271899100000033
对应的描述语句集合为
Figure BDA0002271899100000034
其中第k个单词为
Figure BDA0002271899100000035
L为描述语句的长度,单词wk采取独热编码,
Figure BDA0002271899100000036
为词汇表单词个数;
(2-2).处理视频对应的文本:先过滤长度超过L的描述文本并利用符号<PAD〉将长度不足L的描述文本进行补全,再将处理后的文本通过词汇表
Figure BDA0002271899100000037
进行映射得到对应内容描述
Figure BDA0002271899100000038
(2-3).通过文本卷积网络作为编码器提取文本隐空间特征,具体是:
设给定视频
Figure BDA0002271899100000039
的类别标记为
Figure BDA00022718991000000310
其中C表示视频集合所包含的类别总数,根据得到的视频内容描述
Figure BDA00022718991000000311
及其标记
Figure BDA00022718991000000312
构建文本卷积神经网络作为分类器;
对视频内容描述
Figure BDA00022718991000000313
进行词嵌入操作,得到其表示矩阵
Figure BDA00022718991000000314
其中
Figure BDA00022718991000000315
为单词yk的词嵌入表示向量,
Figure BDA00022718991000000316
为词嵌入权重矩阵;
利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext
所述的文本卷积神经网络主要利用一组大小分别为2×L、3×L、4×L、5×L的卷积核,其中每种不同大小的卷积核数目均设置为L(与描述文本的长度相同),然后对词嵌入表示矩阵M进行卷积计算,并对卷积后的特征进行拼接得到
Figure BDA00022718991000000317
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新,具体是:
利用一维最大池化和随机失活操作,即以0.5概率对特征的每一个位置赋值0,将文本隐空间特征矩阵Ftext进行映射得到特征向量
Figure BDA00022718991000000318
用于分类;
利用映射矩阵
Figure BDA00022718991000000319
和偏置项
Figure BDA00022718991000000320
将特征fsc映射为类别空间向量
Figure BDA00022718991000000321
fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布
Figure BDA0002271899100000041
其中
Figure BDA0002271899100000042
通过极大似然估计定义分类损失
Figure BDA0002271899100000043
其中指示函数Ik(·)表示视频样本是否属于第k个类别,
Figure BDA0002271899100000044
为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计(Adam)算法最小化该分类损失;
(2-5).采用多头注意力残差网络作为解码器重构文本,具体是:
将视频
Figure BDA0002271899100000045
对应的描述语句集合
Figure BDA0002271899100000046
中的单词整体向后移动一位,记为
Figure BDA0002271899100000047
将每个单词进行步骤(2-3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码;
所述的位置编码是指将词嵌入表示矩阵M′用三角函数刻画,即
Figure BDA0002271899100000048
其中pos表示单词的位置序号,feaq表示单词的第q个特征维度,然后将计算得到的值与M′对应元素相加的结果记为
Figure BDA0002271899100000049
利用映射矩阵
Figure BDA00022718991000000410
和偏置向量
Figure BDA00022718991000000411
将多头注意力残差网络的输出矩阵
Figure BDA00022718991000000412
映射到具有
Figure BDA00022718991000000413
维度的向量空间,并用Softmax(·)函数进行归一化处理,得到各单词的概率分布矩阵
Figure BDA00022718991000000414
通过极大似然估计方法定义模型的文本自编码器重构损失
Figure BDA00022718991000000415
其中指示函数Ik(·)表示正确单词是否位于有序词汇表
Figure BDA00022718991000000416
的第k个位置,
Figure BDA00022718991000000417
为对第j个视频预测文本中第t个位置预测为有序词汇表
Figure BDA00022718991000000418
的第k个位置的预测概率值,Z为训练视频的文本描述总数;计算概率分布矩阵
Figure BDA00022718991000000419
的各列向量概率值最大的索引,并从有序词汇表中找到索引对应的单词作为视频描述的单词;
所述的多头注意力残差网络由多个注意力机制模块组成,这些模块是由残差网络连接;残差网络为两层全连接层处理后特征与未处理的特征相加,未处理特征即为自注意力机制模块的结果
Figure BDA00022718991000000420
Figure BDA00022718991000000421
多头注意力残差网络的输出矩阵记为
Figure BDA00022718991000000422
所述的注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵(Query)、键矩阵(Key)和价值矩阵(Value),然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到
Figure BDA0002271899100000051
则整个注意力机制模块的输出矩阵记为
Figure BDA0002271899100000052
Figure BDA0002271899100000053
其中Ftext.,k表示矩阵Ftext第k个列向量,参数
Figure BDA0002271899100000054
为待学习的参数,⊙表示点积运算,即向量对应元素相乘;类似地,将Ftext复制两份分别记为询问矩阵(Query)和键矩阵(Key),将
Figure BDA0002271899100000055
作为价值矩阵(Value)再次进行上述操作,得到输出矩阵
Figure BDA0002271899100000056
进一步,步骤(3)具体方法是:
将视频的外观特征表示矩阵Fappearance在帧级维度上进行最大池化操作,得到池化后的表示矩阵
Figure BDA0002271899100000057
利用步骤(2)的注意力机制模块对视频外观特征表示矩阵
Figure BDA0002271899100000058
和视频动态特征表示矩阵Fdynamic进行处理,得到两个矩阵记为
Figure BDA0002271899100000059
Figure BDA00022718991000000510
并进行拼接;
利用一个大小为6144×He的全连接层将拼接后的特征进行映射,得到估计文本隐空间特征矩阵
Figure BDA00022718991000000511
利用估计文本隐空间特征矩阵
Figure BDA00022718991000000512
和原文本隐空间特征矩阵Ftext计算视频文本特征表示误差,即
Figure BDA00022718991000000513
其中||·||F表示矩阵Frobenious范数。
进一步,步骤(4)具体方法是:
(4-1).利用自适应矩估计(Adam)算法交替优化(2-5)所述的自编码器重构损失
Figure BDA00022718991000000514
和步骤(3)所述的视频文本特征表示误差
Figure BDA00022718991000000515
直至模型收敛,得到最终的视频内容描述模型;
(4-2).对于新视频
Figure BDA00022718991000000516
先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征;再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵
Figure BDA00022718991000000517
的各列向量概率值的最大索引,然后从步骤(2-1)的有序词汇表
Figure BDA00022718991000000518
中找到该最大索引对应的单词作为视频描述的单词,通过这种方式即可得到对应的视频内容描述。
本发明方法提出的视频内容描述方法包括文本自编码器构建和卷积神经网络模型构建两部分,其中前者用于重构视频文本,后者用于估计视频的文本隐空间特征矩阵。对于视频特征的处理可归结为数据拟合问题,即最小化从视频估计的文本隐空间特征矩阵与真实文本隐空间特征矩阵的误差。其优点在于:1)将视频内容描述任务进行了分解,即自然语言处理中的文本重构任务和视频文本特征矩阵估计两个子任务,降低了训练难度和模型构建开销;2)由自注意力模块和全连接映射构成的自注意力网络能够有效捕捉视频中的长时间动作时序特征并提升模型的计算效率,同时增强神经网络拟合数据的能力,即利用神经网络拟合文本隐空间特征矩阵,从而提高视频的内容描述质量;3)采用多头注意力残差网络作为解码器替代传统的循环神经网络等自回归型解码器,极大地提高了训练效率。该方法可广泛应用于动画电影字幕生成、无人驾驶、智慧家居等实际应用场景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
一种基于文本自编码器的视频内容描述方法,重点是构建文本自编码器学习相应的隐空间特征以及利用多头注意力残差网络重构文本,可生成更符合视频真实内容的文本描述,充分挖掘视频内容语义和视频文本描述的潜在关系。由自注意力模块和全连接映射构成的自注意力网络能够有效捕捉视频中的长时间动作时序特征并提升模型的计算效率,同时增强神经网络拟合数据的能力(即利用神经网络拟合文本隐空间特征矩阵),提高视频的内容描述质量;采用多头注意力残差网络结构能够提高模型的训练效率。通过这种方式,可以满足实际应用中的视频内容描述需求。
如图1,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征。具体方法是:
(1-1).设给定视频
Figure BDA0002271899100000061
含有N幅帧图像,表示为{X1,X2,…Xi,…,XN},其中
Figure BDA0002271899100000062
为第i帧图像,w,h,c分别为视频帧的宽度、高度、通道数;
(1-2).构建卷积神经网络模型提取视频的二维和三维特征:首先,对每个视频进行等间隔采样256帧,将采样后的每一帧裁剪为224×224大小的图像
Figure BDA0002271899100000063
该视频处理后的所有帧集合记作
Figure BDA0002271899100000064
其次,将视频对应的视频帧
Figure BDA0002271899100000065
以16帧为间隔,划分成16个视频片段,记作
Figure BDA0002271899100000066
其中
Figure BDA0002271899100000067
再次,利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧
Figure BDA0002271899100000068
中每一帧的特征(取平均池化层后的输出并拉直为向量),将所有帧的特征进行拼接得到视频的外观特征表示矩阵为
Figure BDA0002271899100000071
最后,利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征(取全连接层fc6后的输出),将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵
Figure BDA0002271899100000072
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本。具体方法是:
(2-1).用于描述视频的有序词汇表记为集合
Figure BDA0002271899100000073
对于不在词汇表中的单词用符号<UNK>表示,对于补全的单词用符号<PAD>表示;视频
Figure BDA0002271899100000074
对应的描述语句集合为
Figure BDA0002271899100000075
其中第k个单词为
Figure BDA0002271899100000076
L为描述语句的长度,单词wk采取独热编码,
Figure BDA0002271899100000077
为词汇表单词个数;
(2-2).处理视频对应的文本:先过滤长度超过L(如32)的描述文本,后利用符号<PAD>将长度不足L的描述文本进行补全,再将处理后的文本通过词汇表
Figure BDA0002271899100000078
进行映射得到对应内容描述
Figure BDA0002271899100000079
(2-3).通过文本卷积网络作为编码器提取文本隐空间特征:设给定视频
Figure BDA00022718991000000710
的类别标记为
Figure BDA00022718991000000711
其中C表示视频集合所包含的类别总数,根据上述得到的视频内容描述
Figure BDA00022718991000000712
及其标记
Figure BDA00022718991000000713
构建文本卷积神经网络作为分类器;对视频内容描述
Figure BDA00022718991000000714
进行词嵌入操作得到其表示矩阵
Figure BDA00022718991000000715
其中
Figure BDA00022718991000000716
为单词yk的词嵌入表示向量,
Figure BDA00022718991000000717
为词嵌入权重矩阵;利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext
所述的文本卷积神经网络主要利用一组大小分别为2×L、3×L、4×L、5×L的卷积核,其中每种不同大小的卷积核数目均设置为L(与描述文本的长度相同),然后对词嵌入表示矩阵M进行卷积计算,并对卷积后的特征进行拼接得到
Figure BDA00022718991000000718
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新:利用一维最大池化和随机失活操作(即以0.5概率对特征的每一个位置赋值0),将文本隐空间特征矩阵Ftext进行映射得到特征向量
Figure BDA00022718991000000719
用于分类;利用映射矩阵
Figure BDA00022718991000000720
和偏置项
Figure BDA0002271899100000081
将特征fsc映射为类别空间向量
Figure BDA0002271899100000082
fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布
Figure BDA0002271899100000083
其中
Figure BDA0002271899100000084
通过极大似然估计定义分类损失
Figure BDA0002271899100000085
其中指示函数Ik(·)表示视频样本是否属于第k个类别,
Figure BDA0002271899100000086
为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计(Adam)算法最小化该分类损失;
(2-5).通过采用多头注意力残差网络作为解码器重构文本:
将视频
Figure BDA0002271899100000087
对应的描述语句集合
Figure BDA00022718991000000821
中的单词整体向后移动一位(原第1个单词位置用<PAD>表示,原第1个单词移至原第2个单词的位置,以此类推,原最后一个单词舍弃),记为
Figure BDA0002271899100000088
将每个单词进行步骤(2-3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码;类似步骤(2-4)利用映射矩阵
Figure BDA0002271899100000089
和偏置向量
Figure BDA00022718991000000810
将多头注意力残差网络的输出矩阵
Figure BDA00022718991000000811
映射到具有
Figure BDA00022718991000000820
维度的向量空间,并用Softmax(·)函数进行归一化处理,得到各单词的概率分布矩阵
Figure BDA00022718991000000812
通过极大似然估计方法定义模型的文本自编码器重构损失
Figure BDA00022718991000000813
其中指示函数Ik(·)表示正确单词是否位于有序词汇表
Figure BDA00022718991000000814
的第k个位置,
Figure BDA00022718991000000815
为对第j个视频预测文本中第t个位置预测为有序词汇表
Figure BDA00022718991000000816
的第k个位置的预测概率值,Z为训练视频的文本描述总数;计算概率分布矩阵
Figure BDA00022718991000000817
的各列向量概率值最大的索引,并从有序词汇表中找到索引对应的单词作为视频描述的单词;
位置编码是指将词嵌入表示矩阵M′用三角函数刻画,即
Figure BDA00022718991000000818
其中pos表示单词的位置序号,feaq表示单词的第q个特征维度,然后将计算得到的值与M′对应元素相加的结果记为
Figure BDA00022718991000000819
注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵(Query)、键矩阵(Key)和价值矩阵(Value),然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到
Figure BDA0002271899100000091
则整个注意力机制模块的输出矩阵记为
Figure BDA0002271899100000092
Figure BDA0002271899100000093
其中Ftext.,k表示矩阵Ftext第k个列向量,参数
Figure BDA0002271899100000094
为待学习的参数,⊙表示点积运算,即向量对应元素相乘;类似地,将Ftext复制两份分别记为询问(Query)和键(Key),将
Figure BDA0002271899100000095
作为价值(Value)再次进行上述操作,得到输出矩阵
Figure BDA0002271899100000096
多头注意力残差网络主要由上述的多个注意力机制模块组成,这些模块是由残差网络连接;残差网络是指两层全连接层处理后特征与未处理的特征相加,这里未处理特征即为自注意力机制模块的结果
Figure BDA0002271899100000097
Figure BDA0002271899100000098
多头注意力残差网络的输出矩阵记为
Figure BDA0002271899100000099
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征。具体方法是:
先将视频的外观特征表示矩阵Fappearance在帧级维度上进行最大池化操作,得到池化后的表示矩阵
Figure BDA00022718991000000910
利用步骤(2)的注意力机制模块对视频外观特征表示矩阵
Figure BDA00022718991000000911
和视频动态特征表示矩阵Fdynamic进行处理(需改变相应输入特征),得到两个矩阵记为
Figure BDA00022718991000000912
Figure BDA00022718991000000913
并进行拼接;再次,利用一个大小为6144×He的全连接层将拼接后的特征进行映射,得到估计文本隐空间特征矩阵
Figure BDA00022718991000000914
利用估计文本隐空间特征矩阵
Figure BDA00022718991000000915
和原文本隐空间特征矩阵Ftext计算视频文本特征表示误差,即
Figure BDA00022718991000000916
其中||·||F表示矩阵Frobenious范数。
步骤(4).通过自适应矩估计(Adam)算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。具体方法是:
(4-1).利用自适应矩估计(Adam)算法交替优化(2-5)所述的自编码器重构损失
Figure BDA00022718991000000917
和步骤(3)所述的视频文本特征表示误差
Figure BDA00022718991000000918
直至模型收敛,得到最终的视频内容描述模型;
(4-2).对于新视频
Figure BDA0002271899100000101
先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征;再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵
Figure BDA0002271899100000102
的各列向量概率值的最大索引,然后从步骤(2-1)的有序词汇表
Figure BDA0002271899100000103
中找到该最大索引对应的单词作为视频描述的单词,通过这种方式即可得到对应的视频内容描述。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (8)

1.一种基于文本自编码器的视频内容描述方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;
步骤(4).通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。
2.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(1)具体方法是:
(1-1).设给定视频
Figure FDA00022718990900000110
含有N幅帧图像,表示为{X1,X2,…Xi,…,XN},其中
Figure FDA0002271899090000011
为第i帧图像,w,h,c分别为视频帧的宽度、高度、通道数;
(1-2).构建卷积神经网络模型提取视频的二维和三维特征,具体是:
对每个视频进行等间隔采样256帧,将采样后的每一帧裁剪为224×224大小的图像
Figure FDA0002271899090000012
该视频处理后的所有帧集合记作
Figure FDA0002271899090000013
将视频对应的视频帧
Figure FDA0002271899090000014
以16帧为间隔,划分成16个视频片段,记作
Figure FDA00022718990900000111
其中
Figure FDA0002271899090000015
利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧
Figure FDA0002271899090000016
中每一帧的特征,将所有帧的特征进行拼接得到视频的外观特征表示矩阵为
Figure FDA0002271899090000017
提取视频帧
Figure FDA0002271899090000018
中每一帧的特征是取平均池化层后的输出,并拉直为向量;
利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征,取全连接层fc6后的输出,将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵
Figure FDA0002271899090000019
3.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(2)具体方法是:
(2-1).用于描述视频的有序词汇表记为集合
Figure FDA0002271899090000021
对于不在词汇表中的单词用符号<UNK>表示,对于补全的单词用符号<PAD〉表示;视频
Figure FDA0002271899090000022
对应的描述语句集合为
Figure FDA0002271899090000023
其中第k个单词为
Figure FDA0002271899090000024
L为描述语句的长度,单词wk采取独热编码,
Figure FDA0002271899090000025
为词汇表单词个数;
(2-2).处理视频对应的文本:先过滤长度超过L的描述文本并利用符号<PAD>将长度不足L的描述文本进行补全,再将处理后的文本通过词汇表
Figure FDA0002271899090000026
进行映射得到对应内容描述
Figure FDA0002271899090000027
(2-3).通过文本卷积网络作为编码器提取文本隐空间特征:设给定视频
Figure FDA00022718990900000226
的类别标记为
Figure FDA0002271899090000028
其中C表示视频集合所包含的类别总数,根据上述得到的视频内容描述
Figure FDA0002271899090000029
及其标记
Figure FDA00022718990900000210
构建文本卷积神经网络作为分类器;对视频内容描述
Figure FDA00022718990900000211
进行词嵌入操作得到其表示矩阵
Figure FDA00022718990900000212
其中
Figure FDA00022718990900000213
为单词yk的词嵌入表示向量,
Figure FDA00022718990900000214
为词嵌入权重矩阵;利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新:利用一维最大池化和随机失活操作,即以0.5概率对特征的每一个位置赋值0,将文本隐空间特征矩阵Ftext进行映射得到特征向量
Figure FDA00022718990900000215
用于分类;利用映射矩阵
Figure FDA00022718990900000216
和偏置项
Figure FDA00022718990900000217
将特征fsc映射为类别空间向量
Figure FDA00022718990900000218
fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布
Figure FDA00022718990900000219
其中
Figure FDA00022718990900000220
通过极大似然估计定义分类损失
Figure FDA00022718990900000221
其中指示函数Ik(·)表示视频样本是否属于第k个类别,
Figure FDA00022718990900000222
为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计算法最小化该分类损失;
(2-5).通过采用多头注意力残差网络作为解码器重构文本:将视频
Figure FDA00022718990900000223
对应的描述语句集合
Figure FDA00022718990900000224
中的单词整体向后移动一位,记为
Figure FDA00022718990900000225
将每个单词进行步骤(2-3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码;
利用映射矩阵
Figure FDA0002271899090000031
和偏置向量
Figure FDA0002271899090000032
将多头注意力残差网络的输出矩阵
Figure FDA0002271899090000033
映射到具有
Figure FDA0002271899090000034
维度的向量空间,并用Softmax(·)函数进行归一化处理,得到各单词的概率分布矩阵
Figure FDA0002271899090000035
通过极大似然估计方法定义模型的文本自编码器重构损失
Figure FDA0002271899090000036
其中指示函数Ik(·)表示正确单词是否位于有序词汇表
Figure FDA0002271899090000037
的第k个位置,
Figure FDA0002271899090000038
为对第j个视频预测文本中第t个位置预测为有序词汇表
Figure FDA0002271899090000039
的第k个位置的预测概率值,Z为训练视频的文本描述总数;计算概率分布矩阵
Figure FDA00022718990900000310
的各列向量概率值最大的索引,并从有序词汇表中找到索引对应的单词作为视频描述的单词。
4.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(3)具体方法是:
将视频的外观特征表示矩阵Fappearance在帧级维度上进行最大池化操作,得到池化后的表示矩阵
Figure FDA00022718990900000311
利用步骤(2)的注意力机制模块对视频外观特征表示矩阵
Figure FDA00022718990900000312
和视频动态特征表示矩阵Fdynamic进行处理,得到两个矩阵记为
Figure FDA00022718990900000313
Figure FDA00022718990900000314
并进行拼接;
利用一个大小为6144×He的全连接层将拼接后的特征进行映射,得到估计文本隐空间特征矩阵
Figure FDA00022718990900000315
利用估计文本隐空间特征矩阵
Figure FDA00022718990900000316
和原文本隐空间特征矩阵Ftext计算视频文本特征表示误差,即
Figure FDA00022718990900000317
其中||·||F表示矩阵Frobenious范数。
5.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(4)具体方法是:
(4-1).利用自适应矩估计算法交替优化自编码器重构损失
Figure FDA00022718990900000318
和视频文本特征表示误差
Figure FDA00022718990900000319
直至模型收敛,得到最终的视频内容描述模型;
(4-2).对于新视频
Figure FDA00022718990900000320
先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征;再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵
Figure FDA00022718990900000321
的各列向量概率值的最大索引,然后从有序词汇表
Figure FDA0002271899090000041
中找到该最大索引对应的单词作为视频描述的单词,得到对应的视频内容描述。
6.如权利要求3所述的一种基于文本自编码器的视频内容描述方法,其特征在于:
所述的文本卷积神经网络是利用一组大小分别为2×L、3×L、4×L、5×L的卷积核,其中每种不同大小的卷积核数目均设置为L,然后对词嵌入表示矩阵M进行卷积计算,并对卷积后的特征进行拼接得到
Figure FDA0002271899090000042
7.如权利要求3所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的位置编码是指将词嵌入表示矩阵M′用三角函数刻画,即
Figure FDA0002271899090000043
其中pos表示单词的位置序号,feaq表示单词的第q个特征维度,然后将计算得到的值与M′对应元素相加的结果记为
Figure FDA0002271899090000044
8.如权利要求3所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的多头注意力残差网络由多个注意力机制模块组成,这些模块是由残差网络连接;残差网络为两层全连接层处理后特征与未处理的特征相加,未处理特征即为自注意力机制模块的结果
Figure FDA0002271899090000045
Figure FDA0002271899090000046
多头注意力残差网络的输出矩阵记为
Figure FDA0002271899090000047
所述的注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵、键矩阵和价值矩阵,然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到
Figure FDA0002271899090000048
则整个注意力机制模块的输出矩阵记为
Figure FDA0002271899090000049
Figure FDA00022718990900000410
其中Ftext.,k表示矩阵Ftext第k个列向量,参数
Figure FDA00022718990900000411
为待学习的参数,⊙表示点积运算,即向量对应元素相乘;将Ftext复制两份分别记为询问矩阵和键矩阵,将
Figure FDA00022718990900000412
作为价值矩阵再次进行上述操作,得到输出矩阵
Figure FDA00022718990900000413
CN201911108029.0A 2019-11-13 2019-11-13 一种基于文本自编码器的视频内容描述方法 Active CN111079532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911108029.0A CN111079532B (zh) 2019-11-13 2019-11-13 一种基于文本自编码器的视频内容描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911108029.0A CN111079532B (zh) 2019-11-13 2019-11-13 一种基于文本自编码器的视频内容描述方法

Publications (2)

Publication Number Publication Date
CN111079532A true CN111079532A (zh) 2020-04-28
CN111079532B CN111079532B (zh) 2021-07-13

Family

ID=70310897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911108029.0A Active CN111079532B (zh) 2019-11-13 2019-11-13 一种基于文本自编码器的视频内容描述方法

Country Status (1)

Country Link
CN (1) CN111079532B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639594A (zh) * 2020-05-29 2020-09-08 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN111860597A (zh) * 2020-06-17 2020-10-30 腾讯科技(深圳)有限公司 一种视频信息处理方法、装置、电子设备及存储介质
CN111914872A (zh) * 2020-06-04 2020-11-10 西安理工大学 一种标记与语义自编码融合的零样本图像分类方法
CN112084319A (zh) * 2020-09-29 2020-12-15 四川省人工智能研究院(宜宾) 一种基于动作的关系网络视频问答系统及方法
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN112307939A (zh) * 2020-10-28 2021-02-02 上海交通大学 一种利用位置掩码注意力机制的视频帧增强方法
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN113626597A (zh) * 2021-07-22 2021-11-09 杭州电子科技大学 一种基于门控三塔的智能制造装备故障预测方法
CN113762481A (zh) * 2021-09-13 2021-12-07 中国地震局地球物理研究所 一种基于深度学习的层析成像方法及系统
CN113988274A (zh) * 2021-11-11 2022-01-28 电子科技大学 一种基于深度学习的文本智能生成方法
CN114154016A (zh) * 2021-11-24 2022-03-08 杭州电子科技大学 基于目标空间语义对齐的视频描述方法
CN114494980A (zh) * 2022-04-06 2022-05-13 中国科学技术大学 多样化视频评论生成方法、系统、设备及存储介质
CN116630131A (zh) * 2023-07-25 2023-08-22 北京和人广智科技有限公司 屏幕隐形水印的编码、解码系统及方法
CN117612071A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于迁移学习的视频动作识别方法
CN117851897A (zh) * 2024-03-08 2024-04-09 国网山西省电力公司晋城供电公司 一种多维度特征融合的油浸式变压器在线故障诊断方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220335217A1 (en) * 2021-04-19 2022-10-20 International Business Machines Corporation Detecting contextual bias in text

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664967A (zh) * 2018-04-17 2018-10-16 上海交通大学 一种多媒体页面视觉显著性预测方法及系统
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108805036A (zh) * 2018-05-22 2018-11-13 电子科技大学 一种新的非监督的视频语义提取方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110298270A (zh) * 2019-06-14 2019-10-01 天津大学 一种基于跨模态重要性感知的多视频摘要方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664967A (zh) * 2018-04-17 2018-10-16 上海交通大学 一种多媒体页面视觉显著性预测方法及系统
CN108664632A (zh) * 2018-05-15 2018-10-16 华南理工大学 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN108805036A (zh) * 2018-05-22 2018-11-13 电子科技大学 一种新的非监督的视频语义提取方法
CN109492227A (zh) * 2018-11-16 2019-03-19 大连理工大学 一种基于多头注意力机制和动态迭代的机器阅读理解方法
CN110298270A (zh) * 2019-06-14 2019-10-01 天津大学 一种基于跨模态重要性感知的多视频摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张显炀等: "基于高斯混合-变分自编码器的轨迹预测算法", 《计算机工程》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111639594B (zh) * 2020-05-29 2023-09-22 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN111639594A (zh) * 2020-05-29 2020-09-08 苏州遐迩信息技术有限公司 图像描述模型的训练方法及装置
CN111914872A (zh) * 2020-06-04 2020-11-10 西安理工大学 一种标记与语义自编码融合的零样本图像分类方法
CN111914872B (zh) * 2020-06-04 2024-02-02 西安理工大学 一种标记与语义自编码融合的零样本图像分类方法
CN111860597A (zh) * 2020-06-17 2020-10-30 腾讯科技(深圳)有限公司 一种视频信息处理方法、装置、电子设备及存储介质
CN112199496A (zh) * 2020-08-05 2021-01-08 广西大学 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112084319A (zh) * 2020-09-29 2020-12-15 四川省人工智能研究院(宜宾) 一种基于动作的关系网络视频问答系统及方法
CN112307939A (zh) * 2020-10-28 2021-02-02 上海交通大学 一种利用位置掩码注意力机制的视频帧增强方法
CN112487143B (zh) * 2020-11-30 2022-11-18 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN112487143A (zh) * 2020-11-30 2021-03-12 重庆邮电大学 一种基于舆情大数据分析的多标签文本分类方法
CN113626597A (zh) * 2021-07-22 2021-11-09 杭州电子科技大学 一种基于门控三塔的智能制造装备故障预测方法
CN113762481A (zh) * 2021-09-13 2021-12-07 中国地震局地球物理研究所 一种基于深度学习的层析成像方法及系统
CN113762481B (zh) * 2021-09-13 2024-03-12 中国地震局地球物理研究所 一种基于深度学习的层析成像方法及系统
CN113988274B (zh) * 2021-11-11 2023-05-12 电子科技大学 一种基于深度学习的文本智能生成方法
CN113988274A (zh) * 2021-11-11 2022-01-28 电子科技大学 一种基于深度学习的文本智能生成方法
CN114154016B (zh) * 2021-11-24 2022-05-31 杭州电子科技大学 基于目标空间语义对齐的视频描述方法
CN114154016A (zh) * 2021-11-24 2022-03-08 杭州电子科技大学 基于目标空间语义对齐的视频描述方法
CN114494980A (zh) * 2022-04-06 2022-05-13 中国科学技术大学 多样化视频评论生成方法、系统、设备及存储介质
CN114494980B (zh) * 2022-04-06 2022-07-15 中国科学技术大学 多样化视频评论生成方法、系统、设备及存储介质
CN116630131A (zh) * 2023-07-25 2023-08-22 北京和人广智科技有限公司 屏幕隐形水印的编码、解码系统及方法
CN117612071A (zh) * 2024-01-23 2024-02-27 中国科学技术大学 一种基于迁移学习的视频动作识别方法
CN117612071B (zh) * 2024-01-23 2024-04-19 中国科学技术大学 一种基于迁移学习的视频动作识别方法
CN117851897A (zh) * 2024-03-08 2024-04-09 国网山西省电力公司晋城供电公司 一种多维度特征融合的油浸式变压器在线故障诊断方法

Also Published As

Publication number Publication date
CN111079532B (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
US20230359865A1 (en) Modeling Dependencies with Global Self-Attention Neural Networks
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN110728219A (zh) 基于多列多尺度图卷积神经网络的3d人脸生成方法
CN114418030B (zh) 图像分类方法、图像分类模型的训练方法及装置
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN112733768A (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN111709493A (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN113763385A (zh) 视频目标分割方法、装置、设备及介质
CN112668608A (zh) 一种图像识别方法、装置、电子设备及存储介质
CN114281982B (zh) 一种多模态融合技术的图书宣传摘要生成方法和系统
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN113837290A (zh) 一种基于注意力生成器网络的无监督非成对图像翻译方法
Fakhari et al. A new restricted boltzmann machine training algorithm for image restoration
CN113096133A (zh) 一种基于注意力机制的语义分割网络的构建方法
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN114708436B (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN114155560B (zh) 基于空间降维的高分辨率人体姿态估计模型的轻量化方法
CN115222998A (zh) 一种图像分类方法
CN110659962B (zh) 一种商品信息输出方法及相关装置
CN114330514A (zh) 一种基于深度特征与梯度信息的数据重建方法及系统
CN110390010B (zh) 一种自动文本摘要方法
CN113628107A (zh) 人脸图像超分辨率方法和系统
CN111325068B (zh) 基于卷积神经网络的视频描述方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant