CN111460883B - 基于深度强化学习的视频行为自动描述方法 - Google Patents

基于深度强化学习的视频行为自动描述方法 Download PDF

Info

Publication number
CN111460883B
CN111460883B CN202010074922.2A CN202010074922A CN111460883B CN 111460883 B CN111460883 B CN 111460883B CN 202010074922 A CN202010074922 A CN 202010074922A CN 111460883 B CN111460883 B CN 111460883B
Authority
CN
China
Prior art keywords
word
generated
preset
video
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010074922.2A
Other languages
English (en)
Other versions
CN111460883A (zh
Inventor
代成
刘欣刚
许浩
倪铭昊
曾昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010074922.2A priority Critical patent/CN111460883B/zh
Publication of CN111460883A publication Critical patent/CN111460883A/zh
Application granted granted Critical
Publication of CN111460883B publication Critical patent/CN111460883B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度强化学习的视频行为自动描述方法,属于视频自动描述技术领域。本发明首先对视频数据进行图像预处理,将其转化为帧图像,然后提取空间域特征和时域特征,进行拼接后得到视频序列各帧的特征向量;再基于LSTM编码器将各帧编码为一个向量,以及基于LSTM解码器将固定向量解码成不同长度的自然语言。LSTM编码器和解码器所涉及的神经网络参数优化时的损失函数为生成词语与标注的参考语句的单词的交叉熵损失;从而获得准确的视频描述。进一步还可以对训练好的LSTM编码器、解码器进行强化学习,损失函数采用随机策略概率乘上随机策略奖励与最优策略奖励之差,以获得更高的描述准确率。

Description

基于深度强化学习的视频行为自动描述方法
技术领域
本发明涉及视频自动描述技术领域,具体涉及一种基于深度强化学习的视频自动描述方法。
背景技术
随着互联网技术的发展,视频逐渐成为一种重要的内容形式,每时每刻,有无数新的视频出现在互联网上。在海量的视频数据面前,对于视频的分析理解,成为一个重要的研究课题。视频内容分析包括视频检索、视频分类、视频行为识别、视频自动描述等。其中,视频自动描述任务是指利用人类自然语言,对视频中所发生的事件进行正确的描述。这对于人类而言轻而易举,但对于机器而言,是一个极具挑战性的任务。这要求机器从时序上理解视频的内容,将提取的信息翻译成语法正确的人类可理解的语言。这是两大传统研究领域,计算机视觉与自然语言处理的结合,引起了许多研究者的研究兴趣。
视频自动描述任务是指利用人类自然语言,对视频中所发生的事件进行正确的描述。输入是一段一分钟以内的短视频,输出是对段该视频的一句话描述。传统的视频自动描述方法基于语言模板对视频的内容进行描述。这种方法主要有两个步骤,第一步是识别视频中的内容,包括物体、动作和主要人物,第二步则是将第一步识别到的内容利用一定的规则嵌入到事先给定的句子模板当中。然而,这种方法生成的句子往往比较呆板,难以描述较复杂的场景。因此,基于深度学习的自动视频描述方法成为现在的研究热点。对于使用深度学习建模视频自动描述任务,主要有两个步骤,第一步是提取视频的特征信息,第二步是利用编码器-解码器结构生成自然语言描述。然而,通常的基于深度学习语言模型存在着误差累积的问题,且模型评估在训练时和测试时不能保持一致性。因此,需要运用强化学习算法,解决视频描述模型训练和测试的不一致性,并提高模型测试时的准确性。
发明内容
本发明的发明目的在于:针对现有技术中语言描述生成准确率低的技术问题,提供一种基于深度强化学习的视频自动描述方法。
本发明的基于深度强化学习的视频自动描述方法,包括下列步骤:
步骤S1:图像预处理:
将待描述的视频数据转化为帧图像,得到帧图像序列;
步骤S2:特征提取:
基于预置的第一卷积神经网络提取帧图像的空间域特征;
基于预置的第二卷积神经网络提取帧图像的时域特征;
拼接同一帧图像的空间域特征和时域特征,得到帧图像的特征向量xj,其中帧编号j=1,…,T,T表示帧图像序列的帧数;
步骤S3:特征编码:
采用LSTM(Long Short-Term Memory)网络作为编码器(即LSTM编码器),分别将各帧图像编码为一个固定向量;
将特征序列(x1,...,xT)输入LSTM编码器,基于编码器的输出得到注释序列(h1,...,hT);
并根据输出时刻的不同产生不同的固定向量ci
Figure GDA0003536571370000021
即固定向量ci是注释序列的加权和,其中i表示输出时刻,即对应帧图像序列的帧编号,权重
Figure GDA0003536571370000022
对齐模型eij=a(si-1,hj),si-1表示编码器第i-1时刻的隐藏状态;a(·)表示预置的激活函数;
步骤S4:特征解码:
采用LSTM网络作为编码器(即LSTM解码器),输出每帧图像的生成词;
预置视频描述的开始词和结束词;
生成任意第i帧的生成词(即生成第i个单词)具体为:
将前一个生成词基于预置的词向量映射函数映射为固定长度的词向量,记为yi-1;其中,首个生成词时,其对应的前一个单词为预置的开始词,例如“<BOS>”;
根据前一个生成词的词向量yi-1和解码器的上一个隐藏状态si-1生成解码器的当前隐藏状态si,即si=f([yi-1,ci]),[]表示向量拼接,f()为预置的激活函数,其中,解码器的初始隐藏状态s0为编码器生成的注释序列的最后一个值hT
再将LSTM网络的输出经过一个以Softmax为激活函数的全连接网络,得到该输出在预置的词库的每个单词的输出概率,并选择输出概率最高的单词作为当前的生成词;
基于预置的开始词和结束词,并按生成顺序组合所有生成词,得到待描述的视频数据的自动描述;
其中,步骤S3与步骤S4中所涉及的两个LSTM网络的神经网络参数在学习训练时所采用的损失函数为生成词语与标注的参考语句的单词的交叉熵损失:
Figure GDA0003536571370000023
其中,wt表示参考语句中的第t个单词,
Figure GDA0003536571370000031
表示第t个生成词,pθ(wt)表示神经网络参数为θ时,生成单词wt的概率。
即,对于本申请中所采用的两个LSTM网络神经网络参数,基于交叉熵损失L、以及抑制过拟合的方式对其进行优化(神经网络训练),当满足预设的迭代收敛条件时,结束优化处理,得到训练好的LSTM编码器和LSTM解码器。
为了提升生成的语言质量,本申请还可以对基于交叉熵损失L训练确定的LSTM网络的神经网络参数再进行强化学习,具体学习过程为:
(1)计算随机策略奖励:
在每次生成词的生成过程中,随机从预置的词库中选择一个单词作为当前生成词,记为
Figure GDA0003536571370000032
i∈[1,T];
基于预置的开始词和结束词,并按生成顺序组合所有生成词,得到第一生成语句;
计算第一生成语句在CIDEr(Consensus-based image description evaluation)指标上的得分,作为随机策略奖励,记为
Figure GDA0003536571370000033
(2)计算最优策略奖励:
在每次生成词的生成过程中,从预置的词库中选择对应LSTM解码器的当前输出的输出概率最大的单词作为当前生成词,记为
Figure GDA0003536571370000034
i∈[1,T];
基于预置的开始词和结束词,并按生成顺序组合所有生成词,得到第二生成语句;
计算第二生成语句在CIDEr指标上的得分,作为最优策略奖励,记为
Figure GDA0003536571370000035
(3)计算第二交叉熵损失L′:
Figure GDA0003536571370000036
其中,
Figure GDA0003536571370000037
表示神经网络参数为θ时,生成单词序列
Figure GDA0003536571370000038
的概率;
基于第二交叉熵损失L′、以及预置的抑制过拟合方式继续对神经网络参数进行优化,当满足预设的迭代收敛条件时,结束优化,得到最终的LSTM编码器和LSTM解码器。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明通过深度学习技术能够获得复杂场景下的视频时空特征,再使用带有注意力机制的LSTM编码器-解码器对视频特征序列进行编码解码,能够得到较准确的视频描述;同时基于深度学习的视频自动描述方法相对于传统的SVO(Semi-Direct MonocularVisual Odometry)模板方法更加灵活,并且能够获得更高的描述准确率。
附图说明
图1为具体实施方式中,本发明总体框架示意图。
图2为具体实施方式中,本发明中基于循环卷积神经网络和循环神经网络的基本视频自动描述模型示意图;
图3为具体实施方式中,本发明所构建的自校准(self-critical)策略示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
参见图1,本发明的基于深度强化学习的视频自动描述方法,包括如下步骤:
步骤S1:图像预处理,将视频数据转化为帧图像;
使用FFmpeg工具,完成视频到对应帧的转换。
本具体实施方式中,处理的视频长度大多在10秒钟到25秒钟之内的短视频文件,按每秒24帧计算,大约有240-600帧。为了减少计算量,提高计算速度,使用系统采样的方式,等间隔将视频帧进行采样80帧,并将每一帧处理为224*224*3的大小。这样,减少了计算量,且尽量保存视频信息不丢失。
步骤S2:特征提取。
将预处理后的帧图像序列(视频图像序列)输入到预训练的卷积神经网络中,用于提取视频的空间域和时域特征。
本具体实施方式中,为了简化对卷积神经网络的训练过程,所采用的用于提取空间域特征的卷积神经网络为:在ImageNet数据集上预训练的152层的ResNet网络,即ResNet-152;用于提取时域特征的卷积神经网络为:在Kinetics数据集上预训练的152层的C3D-ResNet网络,即C3D-ResNet-152。
由于上述数据集上预训练的ResNet-152与C3D-ResNet-152是用于分类处理,故将分类层的前一层输出作为视频序列特征。即分别基于预训练的ResNet-152与C3D-ResNet-152的分类层的前一层输出得到对应的特征提取结果。
然后,将这些提取到的特征以对象的形式进行保存。例如将这些特征以Numpy(Python语言的一个扩展程序库)的ndarray对象的形式保存到npy格式的文件中,以便于更好的读取这些特征数据,其中ndarray对象用于存放同类型元素的多维数组。
由于输入C3D-ResNet-152的每16帧视频图像对应输出1个向量,因此将所提取的空间域特征和时域特征进行特征拼接(concat)时,需要将对应的维度复制16次(图1中的tile指的就是这个复制的过程),从而得到所输入的帧图像序列的视频特征序列(x1,...,xT),其中T表示帧数。
步骤S3:特征编码。
使用LSTM将视频的各个帧编码为一个向量,即将视频特征序列输入到LSTM编码器(LSTM Encoder)中,生成注释序列(h1,...,hT),利用注意力机制,对于不同时刻,生成不同的上下文向量。
S31:使用LSTM编码器编码所输入的视频特征序列(x1,...,xT),得到一段注释序列(h1,...,hT);
S32:使用注意力机制,根据输出时刻的不同产生不同的固定词向量ci,它代表了不同时刻产生单词的上下文向量,它是注释序列的加权和:
Figure GDA0003536571370000051
其中,权重αij为:
Figure GDA0003536571370000052
eij=a(si-1,hj);
eij是一个对齐模型,用于评估位置j的输入与位置i的输出之间的匹配程度,即时刻j、i的输入之间的匹配程度,i,j=1,…,T;a(·)表示预置的激活函数,其输入为si-1和hj,输出为eij,其中si-1表示LSTM解码器第i-1时刻的隐藏状态。a(·)可以使用单层神经网络实现,如:a(si-1,hj)=hjWasi-1,其中,Wa是一个神经网络的待学习参数,表示单层神经网络的一种形式。Wa在网络初始化时为随机值,在更新编码器解码器网络参数时将被一同更新。
步骤S4:特征解码。
使用LSTM将特征编码步骤得到的固定向量解码成不同长度的自然语言。
生成一个单词时,将此时的上下文向量和前一个单词的词向量拼接后输入LSTM解码器(LSTM Decoder),LSTM解码器的初始隐藏状态s0是LSTM编码器生成的注释序列的最后一个值hT,再经过一个全连接网络,得到各个输出单词的概率,选择概率最大的词作为生成的单词。并计算与任选的一句参考语句的单词的交叉熵损失。
S41:生成第i个单词时,将前一个单词映射为固定长度的词向量;
S42:根据前一个单词的词向量yi-1、解码器LSTM的上一隐藏状态si-1,以及当前的上下文向量ci,生成解码器LSTM此刻的隐藏状态si:si=f(si-1,yi-1,ci);其中,f()为预置的激活函数,si-1由于是隐藏状态,具体实现时不显式输入,yi-1和ci拼接后输入到解码器。因此,也可以表示为si=f([yi-1,ci]),其中符号[]表示向量拼接;
S43:将LSTM网络的输出(si)经过一个以Softmax为激活函数的全连接网络,得到对应输出si,词库(词表)的每个词的输出概率。选择输出概率最高的词作为此时的输出词。对于生成的初始词,它的前一个词为开始标记,表示为<BOS>。句子的末尾为结束标记,表示为<EOS>。
S44:计算损失,更新模型参数。只需要更新编码器和解码器对应的神经网络参数。损失函数为与标注的参考语句的单词的交叉熵损失:
Figure GDA0003536571370000061
其中,wt代表参考语句中的第t个单词,
Figure GDA0003536571370000062
代表生成的第t个单词,pθ(wt)代表神经网络参数为θ时,生成单词wt的概率。
即,本发明对于待处理的视频,等间隔采样一定数量的帧图像,并将尺寸归一化后的各帧图像输入到卷积神经网络CNN,提取到对应的视频特征序列,然后输入到LSTM编码器中,生成注释序列(h1,...,hT)以及上下文向量;LSTM解码器基于上下文向量和生成的前一个单词确定当前生成的单词,且在生成的第一个单词前增加开始标记<BOS>,在最后一个生成的单词词后增加结束标记<EOS>,则基于单词序列得到待处理视频的自动描述,如图2中,所输入的一定数量的帧图像的自动描述为:<BOS>A dog is barking<EOS>。
步骤S5:强化学习,使用一种称为自校准(self-critical)的强化学习策略,作为一种训练技巧,运用到监督学习中,解决模型训练过程和测试过程不一致的缺陷,提高生成语言质量。即以自校准的方式继续训练模型(即训继续练编码和解码过程中所涉及的神经网络参数),只是特征解码的方式有所不同。参见图3,其具体包括下述步骤:
S51:将视频自动描述问题放入强化学习的框架中,语言模型是强化学习时的智能体,它与外部环境,即上一个单词(上一个生成词)的词向量交互。语言模型的参数定义了强化学习的策略网络,将前一个步骤训练的模型参数作为策略网络的初始参数。在单词序列的生成过程中,强化学习的每个动作指的是每一次预测序列中的下一个单词。
S52:生成一个单词时,以随机性策略选取动作,即按照此时单词的概率,随机地选择单词,而非直接选择概率最大的单词,生成完整的句子后,计算其在CIDEr(Consensus-based image description evaluation)指标上的得分,作为随机策略的奖励;
S53:生成一个单词时,以最优策略选取动作,即直接选择概率最大的单词,生成完整的句子后,计算其在CIDEr指标上的得分,作为最优策略的奖励;
S54:更新模型参数,损失函数定义为负的随机策略概率乘上随机策略奖励与最优策略奖励之差:
Figure GDA0003536571370000071
其中,
Figure GDA0003536571370000072
代表使用随机策略生成的第t个单词,
Figure GDA0003536571370000073
代表使用当前最优策略生成的第t个单词,pθ(w1,...wT)代表神经网络参数为θ时,生成单词序列(w1,...wT)的概率,r(w1,...wT)代表(w1,...wT)序列的CIDEr得分。
即,在步骤S5中,生成一个单词时,它的编码过程与原先的方式相同;解码时有两种策略,一种是随机性策略,也称为采样(sample),即按照此时单词的概率,随机地选择单词,而非直接选择概率最大的单词。另一种是最优性策略,也称为求最大值点(argmax),即直接选择概率最大的单词。解码时输入初始状态s0和初始单词<BOS>的词向量,以随机策略和最优策略分别生成单词编号序列并映射成句子,分别计算CIDEr得分,将随机策略的得分减去最优策略的得分作为强化学习的奖励,计算损失函数,更新LSTM编码器和LSTM解码器的神经网络参数。正常情况下,每个单词获得相同的奖励,但当句子到达末尾时,即出现EOS符号后,出现的单词不该获得奖励。因此,奖励需要乘上一个掩模(mask),即将EOS符号后的单词奖励置为0。训练时采用早停法,例如发现模型使用最优策略的CIDEr分数在验证集上低于最高值的情况发生低于预设的次数(例如50次)时,认为模型过拟合,停止训练,并将CIDEr分数处于最高值的模型作为训练的结果。并基于该训练结果实现对待处理的视频的自动描述输出。
本具体实施方式中,通过采用预训练的ResNet和C3D-ResNet卷积神经网络模型来进行视频特征的提取,并采用数据集为MSVD进行仿真实验。MSVD包含1970段来自视某频网站的视频片段,时长在10-25s之间,包括了多样的人物、动物和场景。每段视频都有多种语言标注,其中英文句子大约有40条,平均每句话包含8个单词。进行仿真实验时,将数据集做进一步划分,其中1200段视频作为训练数据,100段视频作为验证数据,670段视频作为测试数据。选择训练数据中出现次数超过一次的单词作为词汇表,共计9896个单词。使用coco-caption工具评估候选语句在给定参考语句下的得分,涉及的机器翻译评价指标包括:BLEU-4、METEOR、ROUGE和CIDEr。未使用强化学习策略时,各个指标上的得分为:BLEU-4:0.456,METEOR:0.339,ROUGE:0.698,CIDEr:0.787。使用强化学习策略后,各个指标上的得分为:BLEU-4:0.487,METEOR:0.340,ROUGE:0.709,CIDEr:0.854。通过仿真实验结果可知,利用强化学习策略进一步训练模型,可以有效提高视频自动描述语句的准确率,具有非常良好的应用前景。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (2)

1.基于深度强化学习的视频自动描述方法,其特征在于,包括下列步骤:
步骤S1:图像预处理:
将待描述的视频数据转化为帧图像,得到帧图像序列;
步骤S2:特征提取:
基于预置的第一卷积神经网络提取帧图像的空间域特征;
基于预置的第二卷积神经网络提取帧图像的时域特征;
拼接同一帧图像的空间域特征和时域特征,得到帧图像的特征向量xj,其中帧编号j=1,…,T,所述T表示帧图像序列的帧数;
步骤S3:特征编码,采用LSTM网络作为编码器,分别将T帧帧图像编码为T个固定向量:
将特征序列(x1,...,xT)输入编码器,基于编码器的输出得到注释序列(h1,...,hT);
并根据输出时刻的不同产生不同的固定向量ci
Figure FDA0003536571360000011
即固定向量ci是注释序列的加权和,其中i表示输出时刻,即对应帧图序列的帧编号,权重
Figure FDA0003536571360000012
对齐模型eij=a(si-1,hj),si-1表示编码器第i-1时刻的隐藏状态;a(·)表示预置的激活函数;
步骤S4:特征解码,采用LSTM网络作为解码器,输出每帧图像的生成词:
预置视频描述的开始词和结束词;
生成任意第i帧的生成词具体为:
将前一帧的生成词基于预置的词向量映射函数映射为固定长度的词向量,记为yi-1
根据前一帧的生成词的词向量yi-1和解码器的上一个隐藏状态si-1生成解码器的当前隐藏状态si:si=f([yi-1,ci]),[]表示向量拼接,f()为预置的激活函数,其中,解码器的初始隐藏状态s0为编码器生成的注释序列的最后一个值hT
将解码器的输出经过一个以Softmax为激活函数的全连接网络,得到该输出在预置的词库的每个单词的输出概率,并选择输出概率最高的单词作为当前的生成词;
基于预置的开始词和结束词,并按生成顺序组合所有生成词,得到待描述的视频数据的自动描述;
其中,编码器和解码器中所涉及的LSTM网络的神经网络参数在学习训练时所采用的损失函数为生成词语与标注的参考语句的单词的交叉熵损失:
Figure FDA0003536571360000013
其中,wt表示参考语句中的第t个单词,
Figure FDA0003536571360000021
表示第t个生成词,pθ(wt)表示神经网络参数为θ时,生成单词wt的概率;
对基于交叉熵损失L训练确定的LSTM网络的神经网络参数再进行强化学习,具体为:
(1)计算随机策略奖励:
在每次生成词的生成过程中,随机从预置的词库中选择一个单词作为当前生成词,记为
Figure FDA0003536571360000022
基于预置的开始词和结束词,并按生成顺序组合所有生成词,得到第一生成语句;
计算第一生成语句在CIDEr指标上的得分,作为随机策略奖励,记为
Figure FDA0003536571360000023
(2)计算最优策略奖励:
在每次生成词的生成过程中,从预置的词库中选择对应LSTM解码器的当前输出的输出概率最大的单词作为当前生成词,记为
Figure FDA0003536571360000024
基于预置的开始词和结束词,并按生成顺序组合所有生成词,得到第二生成语句;
计算第二生成语句在CIDEr指标上的得分,作为最优策略奖励,记为
Figure FDA0003536571360000025
(3)计算第二损失函数L′:
Figure FDA0003536571360000026
其中,
Figure FDA0003536571360000027
表示神经网络参数为θ时,生成单词序列
Figure FDA0003536571360000028
的概率;
基于第二损失函数L′、以及预置的抑制过拟合方式继续对神经网络参数进行优化,当满足预设的迭代收敛条件时,结束优化,得到最终的LSTM编码器和LSTM解码器。
2.如权利要求1所述的方法,其特征在于,第一卷积神经网络为预训练的ResNet模型,第二卷积神经网络为预训练的C3D-ResNet模型。
CN202010074922.2A 2020-01-22 2020-01-22 基于深度强化学习的视频行为自动描述方法 Expired - Fee Related CN111460883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010074922.2A CN111460883B (zh) 2020-01-22 2020-01-22 基于深度强化学习的视频行为自动描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010074922.2A CN111460883B (zh) 2020-01-22 2020-01-22 基于深度强化学习的视频行为自动描述方法

Publications (2)

Publication Number Publication Date
CN111460883A CN111460883A (zh) 2020-07-28
CN111460883B true CN111460883B (zh) 2022-05-03

Family

ID=71683161

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010074922.2A Expired - Fee Related CN111460883B (zh) 2020-01-22 2020-01-22 基于深度强化学习的视频行为自动描述方法

Country Status (1)

Country Link
CN (1) CN111460883B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972225B2 (en) * 2020-10-01 2024-04-30 Shrey Pathak Automated patent language generation
CN113408430B (zh) * 2021-06-22 2022-09-09 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN114462018B (zh) * 2022-01-10 2023-05-30 电子科技大学 一种基于Transformer模型和深度强化学习的密码猜测系统及方法
CN116089654B (zh) * 2023-04-07 2023-07-07 杭州东上智能科技有限公司 一种基于音频监督的可转移视听文本生成方法和系统
CN117198505A (zh) * 2023-08-23 2023-12-08 深圳大学 一种用于临床医学决策辅助的深度学习语言模型微调方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
CN109214518A (zh) * 2017-06-30 2019-01-15 上海交通大学 基于连续动作学习自动机的全局优化系统及方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN110321811A (zh) * 2019-06-17 2019-10-11 中国工程物理研究院电子工程研究所 深度逆强化学习的无人机航拍视频中的目标检测方法
CN110418210A (zh) * 2019-07-12 2019-11-05 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242090B (zh) * 2018-08-28 2020-06-26 电子科技大学 一种基于gan网络的视频描述及描述一致性判别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three
CN109214518A (zh) * 2017-06-30 2019-01-15 上海交通大学 基于连续动作学习自动机的全局优化系统及方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN110321811A (zh) * 2019-06-17 2019-10-11 中国工程物理研究院电子工程研究所 深度逆强化学习的无人机航拍视频中的目标检测方法
CN110418210A (zh) * 2019-07-12 2019-11-05 东南大学 一种基于双向循环神经网络和深度输出的视频描述生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
社交网络账号的智能分类方法;顾杰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20191215;I138-811 *

Also Published As

Publication number Publication date
CN111460883A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111460883B (zh) 基于深度强化学习的视频行为自动描述方法
CN110598713B (zh) 基于深度神经网络的智能图像自动描述方法
CN110111399B (zh) 一种基于视觉注意力的图像文本生成方法
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
CN107480144B (zh) 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN112685597B (zh) 一种基于擦除机制的弱监督视频片段检索方法和系统
CN107608943A (zh) 融合视觉注意力和语义注意力的图像字幕生成方法及系统
CN112989796B (zh) 一种基于句法指导的文本命名实体信息识别方法
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN112149603B (zh) 一种基于跨模态数据增广的连续手语识别方法
CN116431793B (zh) 一种基于知识生成的视觉问答方法、装置及存储介质
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN112182151B (zh) 基于多语言的阅读理解任务识别方法及装置
CN113423004A (zh) 基于解耦译码的视频字幕生成方法和系统
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN116030018A (zh) 用于门加工的来料合格检验系统及方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN111126059B (zh) 一种短文文本的生成方法、生成装置及可读存储介质
CN117217233A (zh) 文本纠正、文本纠正模型训练方法及装置
CN114417892B (zh) 一种用于电商直播场景的小样本多轮对话的生成模型
CN115659172A (zh) 基于关键信息掩码与拷贝的生成式文本摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220503