CN111818397B - 一种基于长短时记忆网络变体的视频描述生成方法 - Google Patents

一种基于长短时记忆网络变体的视频描述生成方法 Download PDF

Info

Publication number
CN111818397B
CN111818397B CN202010602795.9A CN202010602795A CN111818397B CN 111818397 B CN111818397 B CN 111818397B CN 202010602795 A CN202010602795 A CN 202010602795A CN 111818397 B CN111818397 B CN 111818397B
Authority
CN
China
Prior art keywords
video
network
lstm
description
caption
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010602795.9A
Other languages
English (en)
Other versions
CN111818397A (zh
Inventor
王瀚漓
李秦渝
杨龙雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN202010602795.9A priority Critical patent/CN111818397B/zh
Publication of CN111818397A publication Critical patent/CN111818397A/zh
Application granted granted Critical
Publication of CN111818397B publication Critical patent/CN111818397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;2)输入待描述的视频,通过卷积神经网络获取初始视频特征;3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。与现有技术相比,本发明具有兼顾关键帧特征提取和全局特征提取、提升视频描述的质量和准确性等优点。

Description

一种基于长短时记忆网络变体的视频描述生成方法
技术领域
本发明涉及视频理解和自然语言处理交叉技术领域,尤其是涉及一种基于长短时记忆网络变体的视频描述生成方法。
背景技术
视频描述是视觉智能中的高级任务,要求模型具备对视频内容深度理解的能力,该任务通过机器学习模型,将视频信息自动转换为自然语言描述,在视频搜索、互联网内容审查、视频监控、机器人、智能医疗等领域都有广泛的应用前景,因此引起了国内外众多学者的研究兴趣,而视觉内容描述作为从视觉到语言的转化,是一项结合了计算机视觉和自然语言处理两个领域的综合任务,视频描述任务不仅要求算法模型能够识别视频中的对象,还需要识别对象的行为、理解对象之间的关系,再用自然语言进行描述,因此该任务也是机器学习领域的一大难点问题。
目前,大部分学者主要使用深度学习方法来实现视觉描述任务,最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征,再将视觉特征送入长短时记忆网络(LSTM)来生成自然语言描述,如中国专利CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集中到图片或视频中的某一区域这一机制,注意力网络(Attention Network)也被引入视觉描述任务,如中国专利CN108052512A,但目前的方法还存在缺乏生成自然语言所需的生动的语义信息以及容易产生噪声等问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于长短时记忆网络变体的视频描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:
1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;
2)输入待描述的视频,通过卷积神经网络获取初始视频特征;
3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;
4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。
所述的步骤3)具体为:
将初始视频特征按时间序列输入到第一LSTM中,获取带有语义信息的全局视频特征。
对于第一LSTM,在第i时间步,其第一LSTM的隐藏层
Figure BDA00025596674400000211
和细胞层
Figure BDA00025596674400000212
的计算式为:
Figure BDA0002559667440000021
Figure BDA0002559667440000022
其中,vi为第i时间步视频特征序列中的元素,
Figure BDA0002559667440000023
分别为第一LSTM的第i-1时间步的隐藏层和细胞层,
Figure BDA0002559667440000024
分别为第一LSTM的初始隐藏层和细胞层,LSTM1(·)为第一长短时记忆网络。
所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息,并生成句子特征,所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,即注意力视频特征,所述的CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和句子特征作为输入。
所述的步骤4)中,卷积神经网络输出的初始视频特征经维数变换后使其与注意力网络的维数一致,输入描述生成模块的注意力网络中。
对于第二LSTM,在第t时间步,其隐藏层
Figure BDA0002559667440000025
和细胞层
Figure BDA0002559667440000026
的计算式为:
Figure BDA0002559667440000027
Figure BDA0002559667440000028
其中,yt-1为上一时间步视频描述模型所生成的词,We为可学习的词嵌入矩阵,
Figure BDA0002559667440000029
分别为第二LSTM的第t-1时间步的隐藏层和细胞层,
Figure BDA00025596674400000210
为第二LSTM的初始隐藏层和细胞层,LSTM2(·)为第二长短时记忆网络。
在第t时间步,注意力视频特征的表达式为:
Figure BDA0002559667440000031
其中,
Figure BDA0002559667440000032
为注意力视频特征,αtj为概率分布,Vj′为经维数变换后的初始视频特征中的一个特征向量,K为经维数变换后的初始视频特征的个数。
对于CaptionNet网络,在第t时间步,CaptionNet网络的隐藏层
Figure BDA00025596674400000311
和细胞层
Figure BDA00025596674400000312
的表达式为:
Figure BDA0002559667440000033
Figure BDA0002559667440000034
其中,
Figure BDA0002559667440000035
为第二LSTM的隐藏层,
Figure BDA0002559667440000036
为上一个时间步CaptionNet网络的隐藏层和细胞层,
Figure BDA0002559667440000037
为注意力视频特征,CaptionNet(·)为变体长短时记忆网络,
Figure BDA0002559667440000038
为视频特征编码模块的输出,下标k表示第k时间步;
在CaptionNet网络中,采用隐藏层
Figure BDA0002559667440000039
预测下一个词的概率p(yt|y1,…yt-1),则有:
Figure BDA00025596674400000310
其中,Wp为可学习的参数矩阵,bp为可学习的偏置向量。
所述的步骤4)中,视频描述模型的具体训练过程具体为:
41)使用交叉损失函数对视频描述模型进行M轮训练;
42)使用强化学习方法优化视频描述模型,在优化过程中,卷积神经网络的参数固定,其他部分进行学习。
在步骤41)中,每轮训练的学习率递减。
与现有技术相比,本发明具有以下优点:
1、本发明将视频特征按时间序列输入到长短时记忆网络(LSTM)中,可以获得语义信息更加丰富的全局视频特征,进而提高视频描述准确性。
2、本发明针对现有经典模型缺失对某些关键帧特征的提取(如S2VT),或者缺失对全局特征的提取(如SA-LSTM)这一问题,对注意力模型进行改进,使其不仅可以提取某些关键帧特征,还可以进行全局特征提取,兼顾了现有经典模型的优点,从而帮助模型更加准确地生成描述信息。
3、本发明针对LSTM每一时间步只能接收一个输入,而基于注意力的视频描述生成模型往往有两个输入这一问题,对LSTM进行改进,使其能接收两个输入,以获得更多视频信息,减少前面时间步的句子信息对当前时间步输出的不利影响,显著提升视频描述的质量和准确性。
附图说明
图1为视频描述模型的整体框架图。
图2为视频特征编码模块的框架图。
图3为每个时间步使用注意力网络生成词的框架图。
图4为LSTM变体,即CaptionNet网络的内部结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明,本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于长短时记忆网络变体的视频描述生成方法,本方法利用一视频描述模型生成待识别视频的视频描述,如图1所示,视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块,卷积神经网络获得待识别视频的初始视频特征,视频特征编码模块对初始视频特征进行处理,视频特征编码模块的输出和初始视频特征同时作为描述生成模块的输入,描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。
如图2所示,视频特征编码模块的处理过程具体为:将初始视频特征按照时间序列输入至第一LSTM(记作LSTM1)中,获取带有语义信息的全局视频特征。
视频特征编码模块的具体过程包括:
1)将视频描述数据集MSR-VTT中的每一个视频按平均间隔提取30帧,将每一帧转化为RGB图像并调整大小为224×224,输入到已在ImageNet上预训练好的ResNet152中,取其最后一个卷积层的输出作为该帧的特征,记为
Figure BDA0002559667440000041
其中K=30为帧数,D=2048为每一帧的特征维数。
2)将初始视频特征V=[v1,v2,…vk]按时间序列输入到第一LSTM(LSTM1)中,以此进行全局特征编码。在每个时间步i,LSTM1的隐藏层
Figure BDA0002559667440000042
和细胞层
Figure BDA0002559667440000043
的计算方式为:
Figure BDA0002559667440000051
Figure BDA0002559667440000052
其中,LSTM内部的计算方式为:
ii=σ(Wivvi+Wihhi-1+bi)
fi=σ(Wfvvi+Wfhhi-1+bf)
oi=σ(Wovvi+Wohhi-1+bo)
gi=tanh(Wgvvi+Wghhi-1+bg)
ci=ii⊙gi+fi⊙ci-1
hi=oi⊙tanh(ci)
这里,ii,fi,oi,gi分别为LSTM的输入门、遗忘门、输出门和细胞输入。
3)为了使得V的维数与注意力网络的维数一致,作以下变换:
V′=ReLU(WvV+bv)
其中,Wv∈RD′×D,bv∈RD′为可学习的参数,D′=1024与LSTM隐藏层的维数大小相等。
如图3所示,描述生成模块包括依次连接的第二LSTM(记作LSTM2)、注意力网络和CaptionNet网络,第二LSTM用于描述CaptionNet网络前面时间步的句子信息,生成句子特征,注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和前面时间步的句子特征作为输入。
生成时间步t的词时,包括步骤:
1)使用LSTM2来对前面时间步的句子内容进行建模,LSTM2的隐藏层
Figure BDA0002559667440000057
和细胞层
Figure BDA0002559667440000053
的计算方式为:
Figure BDA0002559667440000054
Figure BDA0002559667440000055
其中,yt-1是上一个时间步模型所生成的词,We是可学习的词嵌入矩阵。
2)使用注意力网络在视频特征时间维度上生成一个概率分布αt
Figure BDA0002559667440000056
αt=softmax(zt)
其中,wa∈RH,Wva,Wha∈RH×H是待学习参数,之后,计算时间步t的注意力视频特征
Figure BDA00025596674400000621
Figure BDA0002559667440000062
3)使用CaptionNet预测时间步t生成的词,输入输出为:
Figure BDA0002559667440000063
Figure BDA0002559667440000064
其中,
Figure BDA0002559667440000065
是CaptionNet的隐藏层和细胞层。
如图4所示,CaptionNet的内部更新方式是只允许注意力视频特征
Figure BDA00025596674400000620
进入输入门i′t和细胞输入g′t,具体表示为:
Figure BDA0002559667440000066
Figure BDA0002559667440000067
对于CaptionNet的遗忘门f′t,需要注意力视频特征
Figure BDA0002559667440000068
和前面时间步的句子内容
Figure BDA0002559667440000069
共同输入,以决定舍弃那些已生成句子信息的视频特征,具体表示为:
Figure BDA00025596674400000610
对于CaptionNet的输出门o′t,也同样需要注意力视频特征
Figure BDA00025596674400000611
和前面时间步的句子内容
Figure BDA00025596674400000612
共同输入,以此训练模型决定哪些视频特征被输出到
Figure BDA00025596674400000613
中:
Figure BDA00025596674400000614
之后,CaptionNet细胞层和隐藏层的更新方式与LSTM相同:
Figure BDA00025596674400000615
Figure BDA00025596674400000616
4)使用
Figure BDA00025596674400000617
来预测下一个词的概率,具体表示为:
Figure BDA00025596674400000618
其中,Wp∈RG×H是可学习的参数矩阵,bp∈RG是可学习的偏置向量,G是词典的大小。
上述视频描述模型搭建完毕后的训练过程具体为:
1)使用交叉损失函数对视频描述模型进行M轮训练
本实施例中,设一个视频描述真实的词序列是
Figure BDA00025596674400000619
模型的全部待学习参数为θ,CNN不参与训练。学习率lr初始化为5e-4,学习率按如下公式递减:
lr=5×10-4·β[epoch/5」
其中,β=0.8为学习率的递减率。
交叉损失函数具体表示为:
Figure BDA0002559667440000071
2)使用强化学习方法优化视频描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
本实施例中,学习率为5e-5。设
Figure BDA0002559667440000072
是采样得到的词序列,使用以下损失函数对CIDEr指标进行优化,其梯度的近似计算方式为:
Figure BDA0002559667440000073
其中,r(·)是CIDEr指标结合BLEU指标的奖赏函数,
r(Y)=λ·CIDEr-D(Y)+(1-λ)·BLEU@4(Y)(λ=0.75)
b是模型经贪心搜索得到的词序列的奖赏,为了约束梯度变换的幅度。
为了验证本申请方法的性能,设计了以下实验。
在公开数据集MSR-VTT上使用本方法进行训练以及测试,使用BLEU、METEOR、ROUGE_L和CIDEr标准来对生成的句子进行评价。在MSR-VTT数据集上,随机选取2990个视频作为测试集,497个视频作为验证集,剩下的6513个视频作为训练集。每个视频有20个人工标注的英文句子。
表1本发明在MSR-VTT数据集上性能表现
Figure BDA0002559667440000074
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (6)

1.一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,包括以下步骤:
1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;
2)输入待描述的视频,通过卷积神经网络获取初始视频特征;
3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征,具体为:
将初始视频特征按时间序列输入到第一LSTM中,获取带有语义信息的全局视频特征;
4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子,所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息,并生成句子特征,所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,即注意力视频特征,所述的CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和句子特征作为输入,对于第二LSTM,在第t时间步,其隐藏层
Figure FDA0003200492870000011
和细胞层
Figure FDA0003200492870000012
的计算式为:
Figure FDA0003200492870000013
Figure FDA0003200492870000014
其中,yt-1为上一时间步视频描述模型所生成的词,We为可学习的词嵌入矩阵,
Figure FDA0003200492870000015
分别为第二LSTM的第t-1时间步的隐藏层和细胞层,
Figure FDA0003200492870000016
为第二LSTM的初始隐藏层和细胞层,LSTM2(·)为第二长短时记忆网络;
使用注意力网络在视频特征时间维度上生成一个概率分布αt,则有:
Figure FDA0003200492870000017
αt=softmax(zt)
其中,wa∈RH,Wva,Wha∈RH×H均为待学习参数;
视频描述模型的具体训练过程具体为:
41)使用交叉损失函数对视频描述模型进行M轮训练;
42)使用强化学习方法优化视频描述模型,在优化过程中,卷积神经网络的参数固定,其他部分进行学习,学习率为5e-5,设
Figure FDA0003200492870000021
为采样得到的词序列,使用损失函数对CIDEr指标进行优化,其梯度的近似计算方式为:
Figure FDA0003200492870000022
r(Y)=λ·CIDEr-D(Y)+(1-λ)·BLEU@4(Y)
其中,r(·)为CIDEr指标结合BLEU指标的奖赏函数,b为模型经贪心搜索得到的词序列的奖赏,用以约束梯度变换的幅度,θ为待学习参数,λ=0.75。
2.根据权利要求1所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,对于第一LSTM,在第i时间步,其第一LSTM的隐藏层
Figure FDA0003200492870000023
和细胞层
Figure FDA0003200492870000024
的计算式为:
Figure FDA0003200492870000025
Figure FDA0003200492870000026
其中,vi为第i时间步视频特征序列中的元素,
Figure FDA0003200492870000027
分别为第一LSTM的第i-1时间步的隐藏层和细胞层,
Figure FDA0003200492870000028
分别为第一LSTM的初始隐藏层和细胞层,LSTM1(·)为第一长短时记忆网络。
3.根据权利要求1所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,所述的步骤4)中,卷积神经网络输出的初始视频特征经维数变换后使其与注意力网络的维数一致,输入描述生成模块的注意力网络中。
4.根据权利要求1所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,在第t时间步,注意力视频特征的表达式为:
Figure FDA0003200492870000029
其中,
Figure FDA00032004928700000210
为注意力视频特征,αtj为概率分布,V′j为经维数变换后的初始视频特征中的一个特征向量,K为经维数变换后的初始视频特征的个数。
5.根据权利要求4所述的基于长短时记忆网络变体的视频描述生成方法,其特征在于,对于CaptionNet网络,在第t时间步,CaptionNet网络的隐藏层
Figure FDA00032004928700000211
和细胞层
Figure FDA00032004928700000212
的表达式为:
Figure FDA00032004928700000213
Figure FDA00032004928700000214
其中,
Figure FDA0003200492870000031
为第二LSTM的隐藏层,
Figure FDA0003200492870000032
为上一个时间步CaptionNet网络的隐藏层和细胞层,
Figure FDA0003200492870000033
为注意力视频特征,CaptionNet(·)为变体长短时记忆网络,
Figure FDA0003200492870000034
为视频特征编码模块的输出,下标k表示第k时间步;
在CaptionNet网络中,采用隐藏层
Figure FDA0003200492870000035
预测下一个词的概率p(yt|y1,…yt-1),则有:
Figure FDA0003200492870000036
其中,Wp为可学习的参数矩阵,bp为可学习的偏置向量。
6.根据权利要求1所述的基于长短时记忆网络变体的视频描述生成方法,其特征在于,在步骤41)中,每轮训练的学习率递减。
CN202010602795.9A 2020-06-29 2020-06-29 一种基于长短时记忆网络变体的视频描述生成方法 Active CN111818397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010602795.9A CN111818397B (zh) 2020-06-29 2020-06-29 一种基于长短时记忆网络变体的视频描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010602795.9A CN111818397B (zh) 2020-06-29 2020-06-29 一种基于长短时记忆网络变体的视频描述生成方法

Publications (2)

Publication Number Publication Date
CN111818397A CN111818397A (zh) 2020-10-23
CN111818397B true CN111818397B (zh) 2021-10-08

Family

ID=72855453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010602795.9A Active CN111818397B (zh) 2020-06-29 2020-06-29 一种基于长短时记忆网络变体的视频描述生成方法

Country Status (1)

Country Link
CN (1) CN111818397B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117152692B (zh) * 2023-10-30 2024-02-23 中国市政工程西南设计研究总院有限公司 基于视频监控的交通目标检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN110418210A (zh) * 2019-07-12 2019-11-05 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391505B (zh) * 2016-05-16 2020-10-23 腾讯科技(深圳)有限公司 一种图像处理方法及系统
US10176388B1 (en) * 2016-11-14 2019-01-08 Zoox, Inc. Spatial and temporal information for semantic segmentation
US20180350459A1 (en) * 2017-06-05 2018-12-06 University Of Florida Research Foundation, Inc. Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network
CN107391646B (zh) * 2017-07-13 2020-04-10 清华大学 一种视频图像的语义信息提取方法及装置
CN107563498B (zh) * 2017-09-08 2020-07-14 中国石油大学(华东) 基于视觉与语义注意力相结合策略的图像描述方法及系统
CN110598713B (zh) * 2019-08-06 2022-05-06 厦门大学 基于深度神经网络的智能图像自动描述方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN110418210A (zh) * 2019-07-12 2019-11-05 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Streaming Video QoE Modeling and Prediction: A Long Short-Term Memory Approach;Nagabhushan Eswara等;《IEEE Transactions on Circuits and Systems for Video Technology》;20190125;第30卷(第3期);661-673 *
基于CNN和LSTM的视频语义分析系统设计与实现;窦敏;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20190215;全文 *

Also Published As

Publication number Publication date
CN111818397A (zh) 2020-10-23

Similar Documents

Publication Publication Date Title
CN110532912B (zh) 一种手语翻译实现方法及装置
CN111753827A (zh) 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN107818306A (zh) 一种基于注意力模型的视频问答方法
CN108845990A (zh) 基于双向注意力机制的答案选择方法、装置和电子设备
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113537024B (zh) 多层时序注意力融合机制的弱监督神经网络手语识别方法
CN112270344A (zh) 一种基于cbam的图像描述生成模型方法
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
Zhang et al. Image caption generation with adaptive transformer
CN113361278A (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN111818397B (zh) 一种基于长短时记忆网络变体的视频描述生成方法
CN114548116A (zh) 一种基于语序与语义联合分析的中文文本检错方法及系统
CN112307778B (zh) 特定场景手语视频的翻译模型训练方法、翻译方法及系统
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111368898B (zh) 一种基于长短时记忆网络变体的图像描述生成方法
Yamazaki et al. Audio visual scene-aware dialog generation with transformer-based video representations
CN111079964B (zh) 基于人工智能的在线教育课程分配平台
CN116543289A (zh) 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
He et al. An optimal 3D convolutional neural network based lipreading method
CN113722536B (zh) 基于双线性自适应特征交互与目标感知的视频描述方法
Souza et al. Automatic recognition of continuous signing of brazilian sign language for medical interview
Zhang A Study on the Teaching Practice of Multimodal Data Analysis in International Chinese Language Education for International Students in China

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant