CN111079532A - 一种基于文本自编码器的视频内容描述方法 - Google Patents
一种基于文本自编码器的视频内容描述方法 Download PDFInfo
- Publication number
- CN111079532A CN111079532A CN201911108029.0A CN201911108029A CN111079532A CN 111079532 A CN111079532 A CN 111079532A CN 201911108029 A CN201911108029 A CN 201911108029A CN 111079532 A CN111079532 A CN 111079532A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- matrix
- self
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于文本自编码器的视频内容描述方法。本发明方法首先构建卷积神经网络提取视频的二维和三维特征;其次,构建文本自编码器,即分别用编码器‑文本卷积网络提取文本隐空间特征和解码器‑多头注意力残差网络重构文本;再次,通过自注意力机制及全连接映射得到估计文本隐空间特征;最后,通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。本发明方法通过文本自编码器的训练可充分挖掘视频内容语义和视频文本描述的潜在关系,通过自注意力机制捕捉视频长时间跨度的动作时序信息,提高了模型的计算效率,从而生成更符合视频真实内容的文本描述。
Description
技术领域
本发明属于计算机技术领域,具体是视频内容描述技术领域,涉及一种基于文本自编码器的视频内容描述方法。
背景技术
近年来,随着信息技术不断发展以及智能设备迭代升级,人们更加倾向利用视频来传达信息,使得各种类型的视频数据规模愈加庞大,同时也带来巨大挑战。例如,视频内容分享网站上每分钟都有成百上千的视频数据上传到服务器,若由人工来审核这些视频是否合规则非常耗时耗力,而借助视频描述的方法则可显著提高审核工作的效率,节省大量时间开销和人力成本。视频内容描述技术主要可广泛应用在于视频标题生成、视频检索、帮助视障人群理解视频等实际场景。
视频内容描述即利用一段自然流畅的文本对视频中的内容进行描述,其目标是反映视频中的目标对象(如行人或物体)、对象间的动作,以及所处的场景等,并理解其间的复杂关系,最终生成与视频内容相匹配且连贯的语句。传统视频描述方法主要基于人工设计特征和经典机器学习算法,例如使用支持向量机(Support Vector Machine,SVM)算法对视频进行描述,但这种方法难以生成正确且自然流畅的语句。
近年来,深度学习方法在视觉计算领域取得了很大成功,其中典型的模型包括卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)。前者主要捕获视觉样本的局部空间关系特征,后者主要捕获输入数据流的空间关系特征。目前,主流的视频描述方法采用编码器-解码器模型为基本框架,编码器主要利用卷积神经网络(CNN)提取视频特征并用张量表示,而解码器主要利用循环神经网络(RNN)将视频对应的张量表示进行解码得到视频的文本描述。考虑到视频数据具有时序关系,可以将卷积神经网络与循环神经网络相结合并作为编码器。为了反映局部显著性特征,也有方法采用视觉注意力机制,作用于注意力编码器的输出特征与解码器的输入特征,这使得模型能动态地调整参数权重,生成更加准确的描述文本。
上述方法的不足点主要表现在以下几个方面:第一,主流视频描述方法主要利用交叉熵计算损失,具有误差积累的缺点,虽然可用强化学习避免该缺点但是计算量很大且难以收敛重;第二,上述方法仅考虑视频特征,并没有充分利用视频文本蕴含的丰富特征,忽略了作为先验信息的文本对描述模型参数更新的指导作用;第三,循环神经网络属于顺序结构,当前时刻的单元依赖于之前所有单元的输出而不能并行处理,造成计算资源浪费,有时还出现梯度消失的情形而不能准确更新权重,从而难以准确生成与视频内容匹配且连贯的语句。基于这些考虑,针对动画电影字幕生成、视障人群看视频、视觉聊天机器人等实际应用场景,迫切需要设计一种能准确反映视频传达信息的视频内容描述方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种基于文本自编码器的视频内容描述方法,可以通过自编码器训练和隐空间学习,搭建视频内容与文本描述之间的桥梁,生成能准确与视频内容匹配且自然流畅的描述语句。
本发明方法首先获取视频数据集合,然后进行以下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;
步骤(4).通过自适应矩估计(Adam)算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。
进一步,步骤(1)具体方法是:
(1-2).构建卷积神经网络模型提取视频的二维和三维特征,具体是:
利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧中每一帧的特征,将所有帧的特征进行拼接得到视频的外观特征表示矩阵为提取视频帧中每一帧的特征是取平均池化层后的输出,并拉直为向量;
进一步,步骤(2)具体方法是:
(2-1).用于描述视频的有序词汇表记为集合对于不在词汇表中的单词用符号<UNK>表示,对于补全的单词用符号<PAD>表示;视频对应的描述语句集合为其中第k个单词为L为描述语句的长度,单词wk采取独热编码,为词汇表单词个数;
(2-3).通过文本卷积网络作为编码器提取文本隐空间特征,具体是:
利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext;
所述的文本卷积神经网络主要利用一组大小分别为2×L、3×L、4×L、5×L的卷积核,其中每种不同大小的卷积核数目均设置为L(与描述文本的长度相同),然后对词嵌入表示矩阵M进行卷积计算,并对卷积后的特征进行拼接得到
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新,具体是:
利用映射矩阵和偏置项将特征fsc映射为类别空间向量fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布其中
(2-5).采用多头注意力残差网络作为解码器重构文本,具体是:
通过极大似然估计方法定义模型的文本自编码器重构损失其中指示函数Ik(·)表示正确单词是否位于有序词汇表的第k个位置,为对第j个视频预测文本中第t个位置预测为有序词汇表的第k个位置的预测概率值,Z为训练视频的文本描述总数;计算概率分布矩阵的各列向量概率值最大的索引,并从有序词汇表中找到索引对应的单词作为视频描述的单词;
所述的注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵(Query)、键矩阵(Key)和价值矩阵(Value),然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到则整个注意力机制模块的输出矩阵记为
其中Ftext.,k表示矩阵Ftext第k个列向量,参数为待学习的参数,⊙表示点积运算,即向量对应元素相乘;类似地,将Ftext复制两份分别记为询问矩阵(Query)和键矩阵(Key),将作为价值矩阵(Value)再次进行上述操作,得到输出矩阵
进一步,步骤(3)具体方法是:
进一步,步骤(4)具体方法是:
(4-2).对于新视频先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征;再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵的各列向量概率值的最大索引,然后从步骤(2-1)的有序词汇表中找到该最大索引对应的单词作为视频描述的单词,通过这种方式即可得到对应的视频内容描述。
本发明方法提出的视频内容描述方法包括文本自编码器构建和卷积神经网络模型构建两部分,其中前者用于重构视频文本,后者用于估计视频的文本隐空间特征矩阵。对于视频特征的处理可归结为数据拟合问题,即最小化从视频估计的文本隐空间特征矩阵与真实文本隐空间特征矩阵的误差。其优点在于:1)将视频内容描述任务进行了分解,即自然语言处理中的文本重构任务和视频文本特征矩阵估计两个子任务,降低了训练难度和模型构建开销;2)由自注意力模块和全连接映射构成的自注意力网络能够有效捕捉视频中的长时间动作时序特征并提升模型的计算效率,同时增强神经网络拟合数据的能力,即利用神经网络拟合文本隐空间特征矩阵,从而提高视频的内容描述质量;3)采用多头注意力残差网络作为解码器替代传统的循环神经网络等自回归型解码器,极大地提高了训练效率。该方法可广泛应用于动画电影字幕生成、无人驾驶、智慧家居等实际应用场景。
附图说明
图1是本发明方法的流程图。
具体实施方式
以下结合附图对本发明作进一步说明。
一种基于文本自编码器的视频内容描述方法,重点是构建文本自编码器学习相应的隐空间特征以及利用多头注意力残差网络重构文本,可生成更符合视频真实内容的文本描述,充分挖掘视频内容语义和视频文本描述的潜在关系。由自注意力模块和全连接映射构成的自注意力网络能够有效捕捉视频中的长时间动作时序特征并提升模型的计算效率,同时增强神经网络拟合数据的能力(即利用神经网络拟合文本隐空间特征矩阵),提高视频的内容描述质量;采用多头注意力残差网络结构能够提高模型的训练效率。通过这种方式,可以满足实际应用中的视频内容描述需求。
如图1,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征。具体方法是:
(1-2).构建卷积神经网络模型提取视频的二维和三维特征:首先,对每个视频进行等间隔采样256帧,将采样后的每一帧裁剪为224×224大小的图像该视频处理后的所有帧集合记作其次,将视频对应的视频帧以16帧为间隔,划分成16个视频片段,记作其中再次,利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧中每一帧的特征(取平均池化层后的输出并拉直为向量),将所有帧的特征进行拼接得到视频的外观特征表示矩阵为最后,利用在Sports-1M数据集上预训练好的C3D卷积神经网络提取每一个视频片段动态特征(取全连接层fc6后的输出),将所有视频片段的特征进行拼接得到视频的动态特征表示矩阵
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本。具体方法是:
(2-1).用于描述视频的有序词汇表记为集合对于不在词汇表中的单词用符号<UNK>表示,对于补全的单词用符号<PAD>表示;视频对应的描述语句集合为其中第k个单词为L为描述语句的长度,单词wk采取独热编码,为词汇表单词个数;
(2-3).通过文本卷积网络作为编码器提取文本隐空间特征:设给定视频的类别标记为其中C表示视频集合所包含的类别总数,根据上述得到的视频内容描述及其标记构建文本卷积神经网络作为分类器;对视频内容描述进行词嵌入操作得到其表示矩阵其中为单词yk的词嵌入表示向量,为词嵌入权重矩阵;利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext;
所述的文本卷积神经网络主要利用一组大小分别为2×L、3×L、4×L、5×L的卷积核,其中每种不同大小的卷积核数目均设置为L(与描述文本的长度相同),然后对词嵌入表示矩阵M进行卷积计算,并对卷积后的特征进行拼接得到
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新:利用一维最大池化和随机失活操作(即以0.5概率对特征的每一个位置赋值0),将文本隐空间特征矩阵Ftext进行映射得到特征向量用于分类;利用映射矩阵和偏置项将特征fsc映射为类别空间向量fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布其中通过极大似然估计定义分类损失其中指示函数Ik(·)表示视频样本是否属于第k个类别,为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计(Adam)算法最小化该分类损失;
(2-5).通过采用多头注意力残差网络作为解码器重构文本:
将视频对应的描述语句集合中的单词整体向后移动一位(原第1个单词位置用<PAD>表示,原第1个单词移至原第2个单词的位置,以此类推,原最后一个单词舍弃),记为将每个单词进行步骤(2-3)的词嵌入操作得到新的词嵌入表示矩阵M′并进行位置编码;类似步骤(2-4)利用映射矩阵和偏置向量将多头注意力残差网络的输出矩阵映射到具有维度的向量空间,并用Softmax(·)函数进行归一化处理,得到各单词的概率分布矩阵通过极大似然估计方法定义模型的文本自编码器重构损失其中指示函数Ik(·)表示正确单词是否位于有序词汇表的第k个位置,为对第j个视频预测文本中第t个位置预测为有序词汇表的第k个位置的预测概率值,Z为训练视频的文本描述总数;计算概率分布矩阵的各列向量概率值最大的索引,并从有序词汇表中找到索引对应的单词作为视频描述的单词;
位置编码是指将词嵌入表示矩阵M′用三角函数刻画,即
注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵(Query)、键矩阵(Key)和价值矩阵(Value),然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到则整个注意力机制模块的输出矩阵记为
其中Ftext.,k表示矩阵Ftext第k个列向量,参数为待学习的参数,⊙表示点积运算,即向量对应元素相乘;类似地,将Ftext复制两份分别记为询问(Query)和键(Key),将作为价值(Value)再次进行上述操作,得到输出矩阵
多头注意力残差网络主要由上述的多个注意力机制模块组成,这些模块是由残差网络连接;残差网络是指两层全连接层处理后特征与未处理的特征相加,这里未处理特征即为自注意力机制模块的结果或多头注意力残差网络的输出矩阵记为
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征。具体方法是:
利用步骤(2)的注意力机制模块对视频外观特征表示矩阵和视频动态特征表示矩阵Fdynamic进行处理(需改变相应输入特征),得到两个矩阵记为和并进行拼接;再次,利用一个大小为6144×He的全连接层将拼接后的特征进行映射,得到估计文本隐空间特征矩阵
步骤(4).通过自适应矩估计(Adam)算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。具体方法是:
(4-2).对于新视频先利用步骤(2)已构建的卷积神经网络提取视频的二维和三维特征;再利用步骤(2)已构建的文本自编码器中的解码器计算概率分布矩阵的各列向量概率值的最大索引,然后从步骤(2-1)的有序词汇表中找到该最大索引对应的单词作为视频描述的单词,通过这种方式即可得到对应的视频内容描述。
本实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (8)
1.一种基于文本自编码器的视频内容描述方法,其特征在于,该方法首先获取视频数据集,然后进行如下操作:
步骤(1).构建卷积神经网络模型提取视频的二维和三维特征;
步骤(2).构建文本自编码器,即通过文本卷积网络作为编码器提取文本隐空间特征,并采用多头注意力残差网络作为解码器重构文本;
步骤(3).通过自注意力机制及全连接映射得到估计文本隐空间特征;
步骤(4).通过自适应矩估计算法交替优化上述模型,对新视频利用已构建的文本自编码器和卷积神经网络得到对应的视频内容描述。
2.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(1)具体方法是:
(1-2).构建卷积神经网络模型提取视频的二维和三维特征,具体是:
利用在ImageNet数据集上预训练好的ResNet50卷积神经网络提取视频帧中每一帧的特征,将所有帧的特征进行拼接得到视频的外观特征表示矩阵为提取视频帧中每一帧的特征是取平均池化层后的输出,并拉直为向量;
3.如权利要求1所述的一种基于文本自编码器的视频内容描述方法,其特征在于步骤(2)具体方法是:
(2-1).用于描述视频的有序词汇表记为集合对于不在词汇表中的单词用符号<UNK>表示,对于补全的单词用符号<PAD〉表示;视频对应的描述语句集合为其中第k个单词为L为描述语句的长度,单词wk采取独热编码,为词汇表单词个数;
(2-2).处理视频对应的文本:先过滤长度超过L的描述文本并利用符号<PAD>将长度不足L的描述文本进行补全,再将处理后的文本通过词汇表进行映射得到对应内容描述(2-3).通过文本卷积网络作为编码器提取文本隐空间特征:设给定视频的类别标记为其中C表示视频集合所包含的类别总数,根据上述得到的视频内容描述及其标记构建文本卷积神经网络作为分类器;对视频内容描述进行词嵌入操作得到其表示矩阵其中为单词yk的词嵌入表示向量,为词嵌入权重矩阵;利用文本卷积神经网络对词嵌入表示矩阵M提取文本隐空间特征矩阵Ftext;
(2-4).通过视频文本分类对文本卷积神经网络的参数进行更新:利用一维最大池化和随机失活操作,即以0.5概率对特征的每一个位置赋值0,将文本隐空间特征矩阵Ftext进行映射得到特征向量用于分类;利用映射矩阵和偏置项将特征fsc映射为类别空间向量fclass=Wprojextfsc+bproject,其中Wproject和bproject将在网络训练中学习得到;用Softmax(·)函数对类别空间向量fclass进行归一化处理得到各类别的概率分布其中通过极大似然估计定义分类损失其中指示函数Ik(·)表示视频样本是否属于第k个类别,为对应类别k的概率值,Z为训练视频的文本描述总数,并通过自适应矩估计算法最小化该分类损失;
8.如权利要求3所述的一种基于文本自编码器的视频内容描述方法,其特征在于:所述的多头注意力残差网络由多个注意力机制模块组成,这些模块是由残差网络连接;残差网络为两层全连接层处理后特征与未处理的特征相加,未处理特征即为自注意力机制模块的结果或多头注意力残差网络的输出矩阵记为
所述的注意力机制模块是指先将自编码器的输入特征Fgt复制三份得到三个矩阵,分别记为询问矩阵、键矩阵和价值矩阵,然后用大小为1×1的卷积核对其分别进行卷积计算并对处理后的询问矩阵和键矩阵相乘,再利用Softmax(·)函数进行归一化处理得到则整个注意力机制模块的输出矩阵记为
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911108029.0A CN111079532B (zh) | 2019-11-13 | 2019-11-13 | 一种基于文本自编码器的视频内容描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911108029.0A CN111079532B (zh) | 2019-11-13 | 2019-11-13 | 一种基于文本自编码器的视频内容描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079532A true CN111079532A (zh) | 2020-04-28 |
CN111079532B CN111079532B (zh) | 2021-07-13 |
Family
ID=70310897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911108029.0A Active CN111079532B (zh) | 2019-11-13 | 2019-11-13 | 一种基于文本自编码器的视频内容描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079532B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639594A (zh) * | 2020-05-29 | 2020-09-08 | 苏州遐迩信息技术有限公司 | 图像描述模型的训练方法及装置 |
CN111652357A (zh) * | 2020-08-10 | 2020-09-11 | 浙江大学 | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 |
CN111860597A (zh) * | 2020-06-17 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 一种视频信息处理方法、装置、电子设备及存储介质 |
CN111914872A (zh) * | 2020-06-04 | 2020-11-10 | 西安理工大学 | 一种标记与语义自编码融合的零样本图像分类方法 |
CN112084319A (zh) * | 2020-09-29 | 2020-12-15 | 四川省人工智能研究院(宜宾) | 一种基于动作的关系网络视频问答系统及方法 |
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN112307939A (zh) * | 2020-10-28 | 2021-02-02 | 上海交通大学 | 一种利用位置掩码注意力机制的视频帧增强方法 |
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN113626597A (zh) * | 2021-07-22 | 2021-11-09 | 杭州电子科技大学 | 一种基于门控三塔的智能制造装备故障预测方法 |
CN113762481A (zh) * | 2021-09-13 | 2021-12-07 | 中国地震局地球物理研究所 | 一种基于深度学习的层析成像方法及系统 |
CN113988274A (zh) * | 2021-11-11 | 2022-01-28 | 电子科技大学 | 一种基于深度学习的文本智能生成方法 |
CN114154016A (zh) * | 2021-11-24 | 2022-03-08 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114494980A (zh) * | 2022-04-06 | 2022-05-13 | 中国科学技术大学 | 多样化视频评论生成方法、系统、设备及存储介质 |
CN116630131A (zh) * | 2023-07-25 | 2023-08-22 | 北京和人广智科技有限公司 | 屏幕隐形水印的编码、解码系统及方法 |
CN117612071A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种基于迁移学习的视频动作识别方法 |
CN117851897A (zh) * | 2024-03-08 | 2024-04-09 | 国网山西省电力公司晋城供电公司 | 一种多维度特征融合的油浸式变压器在线故障诊断方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220335217A1 (en) * | 2021-04-19 | 2022-10-20 | International Business Machines Corporation | Detecting contextual bias in text |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664967A (zh) * | 2018-04-17 | 2018-10-16 | 上海交通大学 | 一种多媒体页面视觉显著性预测方法及系统 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN108805036A (zh) * | 2018-05-22 | 2018-11-13 | 电子科技大学 | 一种新的非监督的视频语义提取方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110298270A (zh) * | 2019-06-14 | 2019-10-01 | 天津大学 | 一种基于跨模态重要性感知的多视频摘要方法 |
-
2019
- 2019-11-13 CN CN201911108029.0A patent/CN111079532B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108664967A (zh) * | 2018-04-17 | 2018-10-16 | 上海交通大学 | 一种多媒体页面视觉显著性预测方法及系统 |
CN108664632A (zh) * | 2018-05-15 | 2018-10-16 | 华南理工大学 | 一种基于卷积神经网络和注意力机制的文本情感分类算法 |
CN108805036A (zh) * | 2018-05-22 | 2018-11-13 | 电子科技大学 | 一种新的非监督的视频语义提取方法 |
CN109492227A (zh) * | 2018-11-16 | 2019-03-19 | 大连理工大学 | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 |
CN110298270A (zh) * | 2019-06-14 | 2019-10-01 | 天津大学 | 一种基于跨模态重要性感知的多视频摘要方法 |
Non-Patent Citations (1)
Title |
---|
张显炀等: "基于高斯混合-变分自编码器的轨迹预测算法", 《计算机工程》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111639594B (zh) * | 2020-05-29 | 2023-09-22 | 苏州遐迩信息技术有限公司 | 图像描述模型的训练方法及装置 |
CN111639594A (zh) * | 2020-05-29 | 2020-09-08 | 苏州遐迩信息技术有限公司 | 图像描述模型的训练方法及装置 |
CN111914872A (zh) * | 2020-06-04 | 2020-11-10 | 西安理工大学 | 一种标记与语义自编码融合的零样本图像分类方法 |
CN111914872B (zh) * | 2020-06-04 | 2024-02-02 | 西安理工大学 | 一种标记与语义自编码融合的零样本图像分类方法 |
CN111860597A (zh) * | 2020-06-17 | 2020-10-30 | 腾讯科技(深圳)有限公司 | 一种视频信息处理方法、装置、电子设备及存储介质 |
CN112199496A (zh) * | 2020-08-05 | 2021-01-08 | 广西大学 | 基于多头注意力机制与rcnn网络的电网设备缺陷文本分类方法 |
CN111652357A (zh) * | 2020-08-10 | 2020-09-11 | 浙江大学 | 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统 |
CN112084319A (zh) * | 2020-09-29 | 2020-12-15 | 四川省人工智能研究院(宜宾) | 一种基于动作的关系网络视频问答系统及方法 |
CN112307939A (zh) * | 2020-10-28 | 2021-02-02 | 上海交通大学 | 一种利用位置掩码注意力机制的视频帧增强方法 |
CN112487143B (zh) * | 2020-11-30 | 2022-11-18 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN112487143A (zh) * | 2020-11-30 | 2021-03-12 | 重庆邮电大学 | 一种基于舆情大数据分析的多标签文本分类方法 |
CN113626597A (zh) * | 2021-07-22 | 2021-11-09 | 杭州电子科技大学 | 一种基于门控三塔的智能制造装备故障预测方法 |
CN113762481A (zh) * | 2021-09-13 | 2021-12-07 | 中国地震局地球物理研究所 | 一种基于深度学习的层析成像方法及系统 |
CN113762481B (zh) * | 2021-09-13 | 2024-03-12 | 中国地震局地球物理研究所 | 一种基于深度学习的层析成像方法及系统 |
CN113988274B (zh) * | 2021-11-11 | 2023-05-12 | 电子科技大学 | 一种基于深度学习的文本智能生成方法 |
CN113988274A (zh) * | 2021-11-11 | 2022-01-28 | 电子科技大学 | 一种基于深度学习的文本智能生成方法 |
CN114154016B (zh) * | 2021-11-24 | 2022-05-31 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114154016A (zh) * | 2021-11-24 | 2022-03-08 | 杭州电子科技大学 | 基于目标空间语义对齐的视频描述方法 |
CN114494980A (zh) * | 2022-04-06 | 2022-05-13 | 中国科学技术大学 | 多样化视频评论生成方法、系统、设备及存储介质 |
CN114494980B (zh) * | 2022-04-06 | 2022-07-15 | 中国科学技术大学 | 多样化视频评论生成方法、系统、设备及存储介质 |
CN116630131A (zh) * | 2023-07-25 | 2023-08-22 | 北京和人广智科技有限公司 | 屏幕隐形水印的编码、解码系统及方法 |
CN117612071A (zh) * | 2024-01-23 | 2024-02-27 | 中国科学技术大学 | 一种基于迁移学习的视频动作识别方法 |
CN117612071B (zh) * | 2024-01-23 | 2024-04-19 | 中国科学技术大学 | 一种基于迁移学习的视频动作识别方法 |
CN117851897A (zh) * | 2024-03-08 | 2024-04-09 | 国网山西省电力公司晋城供电公司 | 一种多维度特征融合的油浸式变压器在线故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111079532B (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111079532B (zh) | 一种基于文本自编码器的视频内容描述方法 | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和系统 | |
US20230359865A1 (en) | Modeling Dependencies with Global Self-Attention Neural Networks | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
CN110728219A (zh) | 基于多列多尺度图卷积神经网络的3d人脸生成方法 | |
CN114418030B (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN113705313A (zh) | 文本识别方法、装置、设备及介质 | |
CN112733768A (zh) | 基于双向特征语言模型的自然场景文本识别方法及装置 | |
CN111709493A (zh) | 对象分类方法、训练方法、装置、设备及存储介质 | |
CN113763385A (zh) | 视频目标分割方法、装置、设备及介质 | |
CN112668608A (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN114281982B (zh) | 一种多模态融合技术的图书宣传摘要生成方法和系统 | |
CN107729885B (zh) | 一种基于多重残差学习的人脸增强方法 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
Fakhari et al. | A new restricted boltzmann machine training algorithm for image restoration | |
CN113096133A (zh) | 一种基于注意力机制的语义分割网络的构建方法 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN114708436B (zh) | 语义分割模型的训练方法、语义分割方法、装置和介质 | |
CN114155560B (zh) | 基于空间降维的高分辨率人体姿态估计模型的轻量化方法 | |
CN115222998A (zh) | 一种图像分类方法 | |
CN110659962B (zh) | 一种商品信息输出方法及相关装置 | |
CN114330514A (zh) | 一种基于深度特征与梯度信息的数据重建方法及系统 | |
CN110390010B (zh) | 一种自动文本摘要方法 | |
CN113628107A (zh) | 人脸图像超分辨率方法和系统 | |
CN111325068B (zh) | 基于卷积神经网络的视频描述方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |