CN111818397B - 一种基于长短时记忆网络变体的视频描述生成方法 - Google Patents
一种基于长短时记忆网络变体的视频描述生成方法 Download PDFInfo
- Publication number
- CN111818397B CN111818397B CN202010602795.9A CN202010602795A CN111818397B CN 111818397 B CN111818397 B CN 111818397B CN 202010602795 A CN202010602795 A CN 202010602795A CN 111818397 B CN111818397 B CN 111818397B
- Authority
- CN
- China
- Prior art keywords
- video
- network
- lstm
- description
- caption
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;2)输入待描述的视频,通过卷积神经网络获取初始视频特征;3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。与现有技术相比,本发明具有兼顾关键帧特征提取和全局特征提取、提升视频描述的质量和准确性等优点。
Description
技术领域
本发明涉及视频理解和自然语言处理交叉技术领域,尤其是涉及一种基于长短时记忆网络变体的视频描述生成方法。
背景技术
视频描述是视觉智能中的高级任务,要求模型具备对视频内容深度理解的能力,该任务通过机器学习模型,将视频信息自动转换为自然语言描述,在视频搜索、互联网内容审查、视频监控、机器人、智能医疗等领域都有广泛的应用前景,因此引起了国内外众多学者的研究兴趣,而视觉内容描述作为从视觉到语言的转化,是一项结合了计算机视觉和自然语言处理两个领域的综合任务,视频描述任务不仅要求算法模型能够识别视频中的对象,还需要识别对象的行为、理解对象之间的关系,再用自然语言进行描述,因此该任务也是机器学习领域的一大难点问题。
目前,大部分学者主要使用深度学习方法来实现视觉描述任务,最基本的模型框架是使用卷积神经网络(CNN)来提取图片或视频的特征,再将视觉特征送入长短时记忆网络(LSTM)来生成自然语言描述,如中国专利CN110288029A。为了模仿人类做视觉描述时描述每个词大脑会将注意力集中到图片或视频中的某一区域这一机制,注意力网络(Attention Network)也被引入视觉描述任务,如中国专利CN108052512A,但目前的方法还存在缺乏生成自然语言所需的生动的语义信息以及容易产生噪声等问题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于长短时记忆网络变体的视频描述生成方法。
本发明的目的可以通过以下技术方案来实现:
一种基于长短时记忆网络变体的视频描述生成方法,包括以下步骤:
1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;
2)输入待描述的视频,通过卷积神经网络获取初始视频特征;
3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征;
4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子。
所述的步骤3)具体为:
将初始视频特征按时间序列输入到第一LSTM中,获取带有语义信息的全局视频特征。
所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息,并生成句子特征,所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,即注意力视频特征,所述的CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和句子特征作为输入。
所述的步骤4)中,卷积神经网络输出的初始视频特征经维数变换后使其与注意力网络的维数一致,输入描述生成模块的注意力网络中。
其中,yt-1为上一时间步视频描述模型所生成的词,We为可学习的词嵌入矩阵,分别为第二LSTM的第t-1时间步的隐藏层和细胞层,为第二LSTM的初始隐藏层和细胞层,LSTM2(·)为第二长短时记忆网络。
在第t时间步,注意力视频特征的表达式为:
其中,为第二LSTM的隐藏层,为上一个时间步CaptionNet网络的隐藏层和细胞层,为注意力视频特征,CaptionNet(·)为变体长短时记忆网络,为视频特征编码模块的输出,下标k表示第k时间步;
其中,Wp为可学习的参数矩阵,bp为可学习的偏置向量。
所述的步骤4)中,视频描述模型的具体训练过程具体为:
41)使用交叉损失函数对视频描述模型进行M轮训练;
42)使用强化学习方法优化视频描述模型,在优化过程中,卷积神经网络的参数固定,其他部分进行学习。
在步骤41)中,每轮训练的学习率递减。
与现有技术相比,本发明具有以下优点:
1、本发明将视频特征按时间序列输入到长短时记忆网络(LSTM)中,可以获得语义信息更加丰富的全局视频特征,进而提高视频描述准确性。
2、本发明针对现有经典模型缺失对某些关键帧特征的提取(如S2VT),或者缺失对全局特征的提取(如SA-LSTM)这一问题,对注意力模型进行改进,使其不仅可以提取某些关键帧特征,还可以进行全局特征提取,兼顾了现有经典模型的优点,从而帮助模型更加准确地生成描述信息。
3、本发明针对LSTM每一时间步只能接收一个输入,而基于注意力的视频描述生成模型往往有两个输入这一问题,对LSTM进行改进,使其能接收两个输入,以获得更多视频信息,减少前面时间步的句子信息对当前时间步输出的不利影响,显著提升视频描述的质量和准确性。
附图说明
图1为视频描述模型的整体框架图。
图2为视频特征编码模块的框架图。
图3为每个时间步使用注意力网络生成词的框架图。
图4为LSTM变体,即CaptionNet网络的内部结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明,本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明提供一种基于长短时记忆网络变体的视频描述生成方法,本方法利用一视频描述模型生成待识别视频的视频描述,如图1所示,视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块,卷积神经网络获得待识别视频的初始视频特征,视频特征编码模块对初始视频特征进行处理,视频特征编码模块的输出和初始视频特征同时作为描述生成模块的输入,描述生成模块中,基于注意力机制和长短时记忆网络变体生成描述句子。
如图2所示,视频特征编码模块的处理过程具体为:将初始视频特征按照时间序列输入至第一LSTM(记作LSTM1)中,获取带有语义信息的全局视频特征。
视频特征编码模块的具体过程包括:
1)将视频描述数据集MSR-VTT中的每一个视频按平均间隔提取30帧,将每一帧转化为RGB图像并调整大小为224×224,输入到已在ImageNet上预训练好的ResNet152中,取其最后一个卷积层的输出作为该帧的特征,记为其中K=30为帧数,D=2048为每一帧的特征维数。
其中,LSTM内部的计算方式为:
ii=σ(Wivvi+Wihhi-1+bi)
fi=σ(Wfvvi+Wfhhi-1+bf)
oi=σ(Wovvi+Wohhi-1+bo)
gi=tanh(Wgvvi+Wghhi-1+bg)
ci=ii⊙gi+fi⊙ci-1
hi=oi⊙tanh(ci)
这里,ii,fi,oi,gi分别为LSTM的输入门、遗忘门、输出门和细胞输入。
3)为了使得V的维数与注意力网络的维数一致,作以下变换:
V′=ReLU(WvV+bv)
其中,Wv∈RD′×D,bv∈RD′为可学习的参数,D′=1024与LSTM隐藏层的维数大小相等。
如图3所示,描述生成模块包括依次连接的第二LSTM(记作LSTM2)、注意力网络和CaptionNet网络,第二LSTM用于描述CaptionNet网络前面时间步的句子信息,生成句子特征,注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和前面时间步的句子特征作为输入。
生成时间步t的词时,包括步骤:
其中,yt-1是上一个时间步模型所生成的词,We是可学习的词嵌入矩阵。
2)使用注意力网络在视频特征时间维度上生成一个概率分布αt:
αt=softmax(zt)
3)使用CaptionNet预测时间步t生成的词,输入输出为:
之后,CaptionNet细胞层和隐藏层的更新方式与LSTM相同:
其中,Wp∈RG×H是可学习的参数矩阵,bp∈RG是可学习的偏置向量,G是词典的大小。
上述视频描述模型搭建完毕后的训练过程具体为:
1)使用交叉损失函数对视频描述模型进行M轮训练
lr=5×10-4·β[epoch/5」
其中,β=0.8为学习率的递减率。
交叉损失函数具体表示为:
2)使用强化学习方法优化视频描述模型,优化过程中,卷积神经网络的参数固定,其他部分进行学习。
其中,r(·)是CIDEr指标结合BLEU指标的奖赏函数,
r(Y)=λ·CIDEr-D(Y)+(1-λ)·BLEU@4(Y)(λ=0.75)
b是模型经贪心搜索得到的词序列的奖赏,为了约束梯度变换的幅度。
为了验证本申请方法的性能,设计了以下实验。
在公开数据集MSR-VTT上使用本方法进行训练以及测试,使用BLEU、METEOR、ROUGE_L和CIDEr标准来对生成的句子进行评价。在MSR-VTT数据集上,随机选取2990个视频作为测试集,497个视频作为验证集,剩下的6513个视频作为训练集。每个视频有20个人工标注的英文句子。
表1本发明在MSR-VTT数据集上性能表现
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。
Claims (6)
1.一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,包括以下步骤:
1)构建视频描述模型,该视频描述模型包括卷积神经网络、视频特征编码模块和描述生成模块;
2)输入待描述的视频,通过卷积神经网络获取初始视频特征;
3)将初始视频特征输入视频特征编码模块进行处理得到带有语义信息的全局视频特征,具体为:
将初始视频特征按时间序列输入到第一LSTM中,获取带有语义信息的全局视频特征;
4)以初始视频特征和带有语义信息的全局视频特征共同输入描述生成模块,并对视频描述模型进行训练,并使用训练好的视频描述模型生成描述句子,所述的描述生成模块包括依次连接的第二LSTM、注意力网络和CaptionNet网络,所述的第二LSTM用于描述CaptionNet网络前面时间步的句子信息,并生成句子特征,所述的注意力网络用于辅助模型选取与当前生成的词最为相关的帧特征,即注意力视频特征,所述的CaptionNet网络为LSTM变体,其输入门和细胞输入仅以注意力视频特征作为输入,其遗忘门和输出门同时以注意力视频特征和句子特征作为输入,对于第二LSTM,在第t时间步,其隐藏层和细胞层的计算式为:
其中,yt-1为上一时间步视频描述模型所生成的词,We为可学习的词嵌入矩阵,分别为第二LSTM的第t-1时间步的隐藏层和细胞层,为第二LSTM的初始隐藏层和细胞层,LSTM2(·)为第二长短时记忆网络;
使用注意力网络在视频特征时间维度上生成一个概率分布αt,则有:
αt=softmax(zt)
其中,wa∈RH,Wva,Wha∈RH×H均为待学习参数;
视频描述模型的具体训练过程具体为:
41)使用交叉损失函数对视频描述模型进行M轮训练;
r(Y)=λ·CIDEr-D(Y)+(1-λ)·BLEU@4(Y)
其中,r(·)为CIDEr指标结合BLEU指标的奖赏函数,b为模型经贪心搜索得到的词序列的奖赏,用以约束梯度变换的幅度,θ为待学习参数,λ=0.75。
3.根据权利要求1所述的一种基于长短时记忆网络变体的视频描述生成方法,其特征在于,所述的步骤4)中,卷积神经网络输出的初始视频特征经维数变换后使其与注意力网络的维数一致,输入描述生成模块的注意力网络中。
6.根据权利要求1所述的基于长短时记忆网络变体的视频描述生成方法,其特征在于,在步骤41)中,每轮训练的学习率递减。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010602795.9A CN111818397B (zh) | 2020-06-29 | 2020-06-29 | 一种基于长短时记忆网络变体的视频描述生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010602795.9A CN111818397B (zh) | 2020-06-29 | 2020-06-29 | 一种基于长短时记忆网络变体的视频描述生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111818397A CN111818397A (zh) | 2020-10-23 |
CN111818397B true CN111818397B (zh) | 2021-10-08 |
Family
ID=72855453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010602795.9A Active CN111818397B (zh) | 2020-06-29 | 2020-06-29 | 一种基于长短时记忆网络变体的视频描述生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111818397B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152692B (zh) * | 2023-10-30 | 2024-02-23 | 中国市政工程西南设计研究总院有限公司 | 基于视频监控的交通目标检测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
CN110418210A (zh) * | 2019-07-12 | 2019-11-05 | 东南大学 | 一种基于双向循环神经网络和深度输出的视频描述生成方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391505B (zh) * | 2016-05-16 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种图像处理方法及系统 |
US10176388B1 (en) * | 2016-11-14 | 2019-01-08 | Zoox, Inc. | Spatial and temporal information for semantic segmentation |
US20180350459A1 (en) * | 2017-06-05 | 2018-12-06 | University Of Florida Research Foundation, Inc. | Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network |
CN107391646B (zh) * | 2017-07-13 | 2020-04-10 | 清华大学 | 一种视频图像的语义信息提取方法及装置 |
CN107563498B (zh) * | 2017-09-08 | 2020-07-14 | 中国石油大学(华东) | 基于视觉与语义注意力相结合策略的图像描述方法及系统 |
CN110598713B (zh) * | 2019-08-06 | 2022-05-06 | 厦门大学 | 基于深度神经网络的智能图像自动描述方法 |
-
2020
- 2020-06-29 CN CN202010602795.9A patent/CN111818397B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388900A (zh) * | 2018-02-05 | 2018-08-10 | 华南理工大学 | 基于多特征融合和时空注意力机制相结合的视频描述方法 |
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
CN110418210A (zh) * | 2019-07-12 | 2019-11-05 | 东南大学 | 一种基于双向循环神经网络和深度输出的视频描述生成方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
Non-Patent Citations (2)
Title |
---|
Streaming Video QoE Modeling and Prediction: A Long Short-Term Memory Approach;Nagabhushan Eswara等;《IEEE Transactions on Circuits and Systems for Video Technology》;20190125;第30卷(第3期);661-673 * |
基于CNN和LSTM的视频语义分析系统设计与实现;窦敏;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20190215;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111818397A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532912B (zh) | 一种手语翻译实现方法及装置 | |
CN111753827A (zh) | 基于语义强化编码器解码器框架的场景文字识别方法及系统 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN107818306A (zh) | 一种基于注意力模型的视频问答方法 | |
CN108845990A (zh) | 基于双向注意力机制的答案选择方法、装置和电子设备 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN113779310B (zh) | 一种基于层级表征网络的视频理解文本生成方法 | |
CN111368142B (zh) | 一种基于生成对抗网络的视频密集事件描述方法 | |
CN113537024B (zh) | 多层时序注意力融合机制的弱监督神经网络手语识别方法 | |
CN112270344A (zh) | 一种基于cbam的图像描述生成模型方法 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 | |
Zhang et al. | Image caption generation with adaptive transformer | |
CN113361278A (zh) | 一种基于数据增强与主动学习的小样本命名实体识别方法 | |
CN111818397B (zh) | 一种基于长短时记忆网络变体的视频描述生成方法 | |
CN114548116A (zh) | 一种基于语序与语义联合分析的中文文本检错方法及系统 | |
CN112307778B (zh) | 特定场景手语视频的翻译模型训练方法、翻译方法及系统 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111368898B (zh) | 一种基于长短时记忆网络变体的图像描述生成方法 | |
Yamazaki et al. | Audio visual scene-aware dialog generation with transformer-based video representations | |
CN111079964B (zh) | 基于人工智能的在线教育课程分配平台 | |
CN116543289A (zh) | 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法 | |
He et al. | An optimal 3D convolutional neural network based lipreading method | |
CN113722536B (zh) | 基于双线性自适应特征交互与目标感知的视频描述方法 | |
Souza et al. | Automatic recognition of continuous signing of brazilian sign language for medical interview | |
Zhang | A Study on the Teaching Practice of Multimodal Data Analysis in International Chinese Language Education for International Students in China |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |