CN109242090B - 一种基于gan网络的视频描述及描述一致性判别方法 - Google Patents

一种基于gan网络的视频描述及描述一致性判别方法 Download PDF

Info

Publication number
CN109242090B
CN109242090B CN201810987113.3A CN201810987113A CN109242090B CN 109242090 B CN109242090 B CN 109242090B CN 201810987113 A CN201810987113 A CN 201810987113A CN 109242090 B CN109242090 B CN 109242090B
Authority
CN
China
Prior art keywords
network
video
lstm
output
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810987113.3A
Other languages
English (en)
Other versions
CN109242090A (zh
Inventor
徐杰
李林科
王菡苑
汪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201810987113.3A priority Critical patent/CN109242090B/zh
Publication of CN109242090A publication Critical patent/CN109242090A/zh
Application granted granted Critical
Publication of CN109242090B publication Critical patent/CN109242090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Abstract

本发明公开了一种基于GAN网络的视频描述及描述一致性判别方法,先分别训练GAN网络中的G网络和D网络,然后在此基础之上,交替训练G网络和D网络,从而得到训练好的GAN网络,最后再将待检测视频输入至训练好的GAN网络,通过G网络输出待检测视频的语义描述;通过D网络输出待检测视频语义描述的评价得分,进而判断描述的一致性。

Description

一种基于GAN网络的视频描述及描述一致性判别方法
技术领域
本发明属于光通信技术领域,更为具体地讲,涉及一种基于GAN网络的视频描述及描述一致性判别方法。
背景技术
视频描述模型是模型对给定视频内容使用依据话进行描述。基于深度学习的视频描述方法目前取得了快速的发展,Venugopalan将视频使用CNN提取图像特征后进行全局池化,然后送入基于LSTM进行解码输出,这构成了基于编解码模型的视频描述模型。由于视频数据相对于图像具有更加复杂的时空结构,为充分利用这些特征,提出了基于各种注意力机制的编码方法以及3D-CNN。使用这些方法能够有效的提取视频特征,提升模型效果。
虽然最近的研究在有效利用视频特征上取得了不错的进展,但是我们发现,大多数视频字幕系统都是通过最大似然估计(MLE)原理进行训练的,也称为交叉熵(XE)最小化。研究表明,MLE并未对句子进行整体性的评价吗,使其对异常值跟家敏感,而不是使生成接近人类语句相近的方向进行优化。
对MLE训练方法的一个改进方法就是是直接最大化利益目标。这可以通过强化学习(RL)框架使用REINFORCE等方法完成。在RL中,候选句子的分数被用作奖励信号,并且该模型试图最大化该奖励。如果选择的奖励指标是CIDEr得分,该指标旨在接近人类对适宜性和共识的判断,则可以教授该模型以生成更多类似人的字幕。论文即使用了强化学习的方法对模型进行优化,这种方式虽然能够对视频描述的结果起到一定的提升作用,但是显然这种方式不具有扩展性,其只针对于特定的评价指标具有提升,当出现新的评价指标,其能起到的作用是有限的。
为了能更好的对句子进行整体性的评价,使得模型能够产生能加自然的语句,我们提出了GAN网络通过对模型产生的语句和真实的语句进行对抗性的训练,使得模型更具有通用性,产生的语句能够更加接近真实的语句。
视频描述模型的训练通常是在给定当前时刻真实单词值的情况下使用反向传播来最大化下一个真实单词的概率,即使用交叉熵(XE)和最大似然估计(MLE)来训练模型和生成语句,这种训练方式对于视频描述模型带来了两个问题:
第一个问题是训练时未考虑句子的整体性。对于产生的语句,我们评价其好坏应该是从整体性出发,但是MLE的训练方式实质并未考虑到句子的整体性,而是对句子中单个单词的正确性进行了评估,这样的训练方式明显会使得模型具有偏差。
第二个问题是生成语句的单一性和非自然性。使用MLE的方法训练后在生成语句的过程中,将会使得模型会尽可能的产生训练集中出现频率最大的单词,这会导致其产生的语句大部分来自于训练集,而缺乏了多样性和自然性。
引言中我们提到目前已有使用强化学习的方法对模型进行优化,但是这种方式不具有扩展性,对于使用MLE训练视频描述模型所带来的问题,本文认为对于一个视频描述模型,其生成的语句应该具有以下特性:
第一是真实性,即生成的描述语句能够真实的反映视频所表达的内容。
第二是自然性,即生成的语句从整体上来说应该接近人类面对相同情况所表达出的语句,符合语法规则。
第三是多样性,即生成的语句应该尽量具有多样性,可以使用不同的语句来描述同一视频内容。
为使得我们的视频描述模型具有上述三个特性,本文提出了基于GAN和RL的视频描述模型。我们借鉴了其生成真实数据方面的能力,将GAN网络用于视频描述模型中,同时在G网络中引入了多样性随机变量,对D网络设计了特定的联合目标函数,希望通过训练使得模型能够生成更加真实、自然、多样的语句描述。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于GAN网络的视频描述及描述一致性判别方法,使城域网与接入网得到有效融合,同时具有可扩展、高灵活以及低成本的性能。
为实现上述发明目的,本发明一种基于GAN网络的视频描述及描述一致性判别方法,其特征在于,包括以下步骤:
(1)、预训练G网络
(1.1)、从视频库中随机提取M部视频,再将M部视频同时输入至G网络中的CNN;
(1.2)、设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,初始化为0向量;
利用CNN网络抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure GDA0002179034290000031
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,M;
(1.3)、设t=0时刻,LSTM的输出为h0,h0=fLSTM(z,VI),其中,z表示的是多样性随机变量,由均值为0的正态分布中采样得到;
(1.4)、将ht-1,wt-1送入G网络中的LSTM,得到当前时刻t时的LSTM输出和单词输出;
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,We、b为LSTM待训参数;
(1.5)、同理,按照步骤(1.1)-(1.4)所述方法,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;
(1.6)、令t=t+1,按照步骤(1.1)-(1.5)所述方法并行处理M部视频,得到M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
(1.7)、利用T个时刻下的LSTM输出和单词输出建立模型损失函数;
Figure GDA0002179034290000041
其中,PIt表示当前时刻t时第I部视频中单词的概率分布,Ω表示基于注意力机制的神经网络LSTM中所有待训参数;
(1.8)、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数Ω*
Ω*=argmaxLy
其中,Ω*表示神经网络LSTM中所有训练后得到的新参数;再用Ω*更新Ω更新为Ω*,结束本次训练;
(1.9)、重复步骤(1.1)-(1.8),完成H次的训练,得到训练好的G网络;
(2)、预训练D网络
(2.1)从视频库中随机提取M部视频,每一部视频对应的描述语句为SI,I=1,2,…,M;
将抽取的每一部视频按照步骤(1.1)-(1.6)所述方法,得到T个时刻的LSTM输出和单词输出,再将每部视频的单词输出拼接成描述语句,得到G网络下生成的描述语句
Figure GDA0002179034290000042
再在视频库中除M部视频外,随机提取M部视频,每一部视频对应的描述语句为
Figure GDA0002179034290000043
将三种不同描述语句对应的视频,组成一个3*M的视频集;
(2.2)、设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;
利用D网络中的CNN抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure GDA0002179034290000044
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,3M;
(2.3)将ht-1,wt-1送入D网络中的LSTM,得到当前时刻t时的D网络中的LSTM输出和单词输出;
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,We、b为LSTM待训参数;
同理,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;然后,令t=t+1,再并行处理3M部视频,得到3M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
(2.4)、将每部视频在D网络中的输出{h1,h2,...,hT}进行均值化,得到语义特征SI
Figure GDA0002179034290000051
(2.5)、将每一部视频的语义特征和视频特征进行融合,得到每一部视频的评分pI
Figure GDA0002179034290000052
pI=σ(f(feat))
其中,σ(·)表示激活函数,f(·)表示全连接函数;
(2.6)、按照步骤(2.4)-(2.5)所述方法并行处理其余部视频,然后对所有视频求目标函数:
L=-E1[logp]-α·E2[log(1-p)]-βE3[(1-logp)]
其中,E1表示对输入语句属于SI时求期望,E2表示对输入语句属于
Figure GDA0002179034290000061
时求期望,E3表示对输入语句属于
Figure GDA0002179034290000062
时求期望;p表示的是对应的视频得分,α、β为超参数;
(2.7)、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数φ*
φ*=argmaxL
其中,φ*表示D网络训练后得到的新参数,再用φ*更新φ,结束本次训练;
(2.8)、重复步骤(2.1)-(2.7),完成D网络的H次训练,得到预训练好的D网络;
(3)交替训练G网络和D网络
(3.1)、从视频库中随机提取M部视频,再将M部视频同时输入至G网络中的CNN;
(3.2)、设置每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,初始化为0向量;
利用G网络中的CNN抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure GDA0002179034290000063
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,M;
(3.3)、将h0,z,w0,Vz,V送入G网络中的LSTM,得到t=0时刻的G网络中的LSTM状态h0输出;
h0=fLSTM(z,V)
(3.4)、将ht-1,wt-1送入G网络中的LSTM网络,得到当前时刻t时的G网络中的LSTM输出和单词输出,以及t时刻的奖励Qt
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
Figure GDA0002179034290000071
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,Y1:t=(y1,......,yt),
Figure GDA0002179034290000072
表示蒙特卡洛搜索,D(·)表示在D网络中求评分,N'表示的是蒙特卡洛搜索重复次数;
(3.5)、令t=t+1,然后依次类推,直到得到T个时刻下的奖励值和G网络的输出,再利用其值求得G网络的梯度:
Figure GDA0002179034290000073
其中,G(·)表示在G网络中求损失值;
(3.6)、按照步骤(3.2)-(3.5)并行处理其余部视频得到其G网络的梯度,再根据梯度更新参数:
Figure GDA0002179034290000074
其中,lr表示学习率;
(3.7)重复步骤(3.1)-(3.6),完成G网络的g次训练后,得到重新训练好的G网络;
(3.8)、利用重新训练的G网络,按照步骤(2.1)-(2.7)所述方法重新训练的D网络d次,直到模型收敛,得到训练好的D网络,进而得到训练好的GAN网络;
(4)、将待检测视频输入至训练好的GAN网络,判断是否有有对应的输出语句,若没有对应的输出语句,则将待检测视频送至入GAN网络中的G网络,通过G网络输出每一时刻的单词yt,再将每一时刻的单词按顺序输出:sentence={y1,y2,......,yT},得到待检测视频的语义描述;若有对应的输出语句,则将待检测视频送至入GAN网络中的D网络,通过D网络输出每一部视频的视频特征,再将视频特征和对应的输出语句进行评价得分,当得分越高,说明该视频内容与所对应的语句一致性越强。
本发明的发明目的是这样实现的:
本发明一种基于GAN网络的视频描述及描述一致性判别方法,先分别训练GAN网络中的G网络和D网络,然后在此基础之上,交替训练G网络和D网络,从而得到训练好的GAN网络,最后再将待检测视频输入至训练好的GAN网络,通过G网络输出待检测视频的语义描述;通过D网络输出待检测视频语义描述的评价得分,进而判断描述的一致性。
附图说明
图1是本发明基于GAN网络的视频描述及描述一致性判别方法图;
图2是G网络的训练流程图;
图3是D网络的训练流程图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种基于GAN网络的视频描述及描述一致性判别方法流程图。
在本实施例中,GAN网络包括G网络和D网络两部分,G网络的目标是为了产生更自然真实的视频描述,而对于D网络来说,其目的是判别出视频对应的描述是来自于D网络还是来自于真实数据。
如图1所示,下面我们对本发明一种基于GAN网络的视频描述及描述一致性判别方法进行详细说明,具体包括以下步骤:
S1、预训练G网络
G网络用于视频描述的生成,在这里我们使用“编码-解码”模型框架,如图2所示.
S1.1、从视频库中随机提取M部视频,再将M部视频同时输入至G网络中的CNN;
S1.2、设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,初始化为0向量;
利用CNN网络抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure GDA0002179034290000091
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,M;
S1.3、设t=0时刻,LSTM的输出为h0,h0=fLSTM(z,VI),其中,z表示的是多样性随机变量,由均值为0的正态分布中采样得到;
S1.4、将ht-1,wt-1送入G网络中的LSTM,得到当前时刻t时的LSTM输出和单词输出;
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,We、b为LSTM待训参数;
S1.5、同理,按照步骤S1.1-S1.4所述方法,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;
S1.6、令t=t+1,按照步骤S1.1-S1.5所述方法并行处理M部视频,得到M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
S1.7、利用T个时刻下的LSTM输出和单词输出建立模型损失函数;
Figure GDA0002179034290000101
其中,PIt表示当前时刻t时第I部视频中单词的概率分布,Ω表示基于注意力机制的神经网络LSTM中所有待训参数;
S1.8、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数Ω*
Ω*=argmaxLy
其中,Ω*表示神经网络LSTM中所有训练后得到的新参数;再用Ω*更新Ω更新为Ω*,结束本次训练;
S1.9、重复步骤S1.1-S1.8,完成H次的训练,得到训练好的G网络。
在本实施例中,与普通的视频描述模型不同的是我们在进入LSTM网络前加入了一个多样性随机变量z,而z的作用在于通过对模型进行微小扰动,从而使得模型能够产生更加多样化的语句,克服原模型中只能产生单一语句的缺点。
S2、预训练D网络
D网络结构如图3所示,其主要分为三大模块,第一部分为视频特征提取模块,对得到的视频特征我们进行了我们首先送入CNN进行视频特征进行了编码,得到其视频特征;第二部分为语义特征提取模块,同样,我们使用LSTM作为特征提取,我们将语句描述也送入LSTM中得到其语义编码特征;最后第三部分即为评价模块。
D网络的主要作用在于对于给定一部视频和对应的描述语句如何确定其好坏程度,同时给出对应的值,而这个值将作为G网络的奖励值。因此,D网络如何判断描述语句的好坏程度,对于整个模型是起到至关重要的作用的。
S2.1、从视频库中随机提取M部视频,每一部视频对应的描述语句为SI,I=1,2,…,M;
将抽取的每一部视频按照步骤S1.1-S1.6所述方法,得到T个时刻的LSTM输出和单词输出,再将每部视频的单词输出拼接成描述语句,得到G网络下生成的描述语句
Figure GDA0002179034290000111
再在视频库中除M部视频外,随机提取M部视频,每一部视频对应的描述语句为
Figure GDA0002179034290000112
将三种不同描述语句对应的视频,组成一个3*M的视频集;
S2.2、设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;
利用D网络中的CNN抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure GDA0002179034290000113
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,3M;
S2.3、将ht-1,wt-1送入D网络中的LSTM,得到当前时刻t时的D网络中的LSTM输出和单词输出;
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,We、b为LSTM待训参数;
同理,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;然后,令t=t+1,再并行处理3M部视频,得到3M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
S2.4、将每部视频在D网络中的输出{h1,h2,...,hT}进行均值化,得到语义特征SI
Figure GDA0002179034290000121
S2.5、将每一部视频的语义特征和视频特征进行融合,得到每一部视频的评分pI
Figure GDA0002179034290000122
pI=σ(f(feat))
其中,σ(·)表示激活函数,f(·)表示全连接函数;
在本实施例中,我们的评价函数将会对生成语句的真实性、自然性、多样性这三个特性方面的性能进行评价打分,该得分会作为G网络训练中的rewad反馈给G网络,促使对G网络模型进行优化。
S2.6、按照步骤2.4-S2.5所述方法并行处理其余部视频,然后对所有视频求目标函数:
L=-E1[logp]-α·E2[log(1-p)]
-βE3[(1-logp)]
其中,E1表示对输入语句属于SI时求期望,E2表示对输入语句属于
Figure GDA0002179034290000123
时求期望,E3表示对输入语句属于
Figure GDA0002179034290000124
时求期望;p表示的是对应的视频得分,α、β为超参数;
S2.7、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数φ*
φ*=argmaxL
其中,φ*表示D网络训练后得到的新参数,再用φ*更新φ,结束本次训练;
S2.8、重复步骤S2.1-S2.7,完成D网络的H次训练,得到预训练好的D网络;
S3、交替训练G网络和D网络
将D网络作为G网络的奖励函数的一个重要的原因是在于GAN网络对抗训练的动态性,我们可以根据G网络的训练情况不断的动态优化我们的D网络,从而使得G网络和D网络的性能在相互作用下不断的提升。
S3.1、从视频库中随机提取M部视频,再将M部视频同时输入至G网络中的CNN;
S3.2、设置每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,初始化为0向量;
利用G网络中的CNN抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure GDA0002179034290000131
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,M;
S3.3、将h0,z,w0,Vz,V送入G网络中的LSTM,得到t=0时刻的G网络中的LSTM状态h0输出;
h0=fLSTM(z,V)
S3.4、将ht-1,wt-1送入G网络中的LSTM网络,得到当前时刻t时的G网络中的LSTM输出和单词输出,以及t时刻的奖励Qt
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
Figure GDA0002179034290000132
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,Y1:t=(y1,......,yt),
Figure GDA0002179034290000143
表示蒙特卡洛搜索,D(·)表示在D网络中求评分,N'表示的是蒙特卡洛搜索重复次数;
S3.5、令t=t+1,然后依次类推,直到得到T个时刻下的奖励值和G网络的输出,再利用其值求得G网络的梯度:
Figure GDA0002179034290000141
其中,G(·)表示在G网络中求损失值;
S3.6、按照步骤S3.2-S3.5并行处理其余部视频得到其G网络的梯度,再根据梯度更新参数:
Figure GDA0002179034290000142
其中,lr表示学习率;
S3.7重复步骤S3.1-S3.6,完成G网络的g次训练后,得到重新训练好的G网络;
S3.8、利用重新训练的G网络,按照步骤S2.1-S2.7所述方法重新训练的D网络d次,直到模型收敛,得到训练好的D网络,进而得到训练好的GAN网络;
S4、将待检测视频输入至训练好的GAN网络,判断是否有有对应的输出语句,若没有对应的输出语句,则将待检测视频送至入GAN网络中的G网络,通过G网络输出每一时刻的单词yt,再将每一时刻的单词按顺序输出:sentence={y1,y2,......,yT},得到待检测视频的语义描述;若有对应的输出语句,则将待检测视频送至入GAN网络中的D网络,通过D网络输出每一部视频的视频特征,再将视频特征和对应的输出语句进行评价得分,当得分越高,说明该视频内容与所对应的语句一致性越强。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (1)

1.一种基于GAN网络的视频描述及描述一致性判别方法,其特征在于,包括以下步骤:
(1)、预训练G网络
(1.1)、从视频库中随机提取M部视频,再将M部视频同时输入至G网络中的CNN;
(1.2)、设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,初始化为0向量;
利用CNN网络抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure FDA0002354847890000011
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,M;
(1.3)、设t=0时刻,LSTM的输出为h0,h0=fLSTM(z,VI),其中,z表示的是多样性随机变量,由均值为0的正态分布中采样得到;
(1.4)、将ht-1,wt-1送入G网络中的LSTM,得到当前时刻t时的LSTM输出和单词输出;
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,We、b为LSTM待训参数;
(1.5)、同理,按照步骤(1.1)-(1.4)所述方法,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;
(1.6)、令t=t+1,按照步骤(1.1)-(1.5)所述方法并行处理M部视频,得到M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
(1.7)、利用T个时刻下的LSTM输出和单词输出建立模型损失函数;
Figure FDA0002354847890000021
其中,PIt表示当前时刻t时第I部视频中单词的概率分布,Ω表示基于注意力机制的神经网络LSTM中所有待训参数;
(1.8)、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数Ω*
Ω*=arg max Ly
其中,Ω*表示神经网络LSTM中所有训练后得到的新参数;再用Ω*更新Ω更新为Ω*,结束本次训练;
(1.9)、重复步骤(1.1)-(1.8),完成H次的训练,得到训练好的G网络;
(2)、预训练D网络
(2.1)从视频库中随机提取M部视频,每一部视频对应的描述语句为SI,I=1,2,…,M;
将抽取的每一部视频按照步骤(1.1)-(1.6)所述方法,得到T个时刻的LSTM输出和单词输出,再将每部视频的单词输出拼接成描述语句,得到G网络下生成的描述语句
Figure FDA0002354847890000022
再在视频库中除M部视频外,随机提取M部视频,每一部视频对应的描述语句为
Figure FDA0002354847890000023
将三种不同描述语句对应的视频,组成一个3*M的视频集;
(2.2)、设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;
利用D网络中的CNN抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure FDA0002354847890000031
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,3M;
(2.3)将ht-1,wt-1送入D网络中的LSTM,得到当前时刻t时的D网络中的LSTM输出和单词输出;
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,We、b为LSTM待训参数;
同理,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;然后,令t=t+1,再并行处理3M部视频,得到3M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;
(2.4)、将每部视频在D网络中的输出{h1,h2,...,hT}进行均值化,得到语义特征SI
Figure FDA0002354847890000032
(2.5)、将每一部视频的语义特征和视频特征进行融合,得到每一部视频的评分pI
Figure FDA0002354847890000033
pI=σ(f(feat))
其中,σ(·)表示激活函数,f(·)表示全连接函数;
(2.6)、按照步骤(2.4)-(2.5)所述方法并行处理其余部视频,然后对所有视频求目标函数:
L=-E1[logp]-α·E2[log(1-p)]-βE3[(1-logp)]
其中,E1表示对输入语句属于SI时求期望,E2表示对输入语句属于
Figure FDA0002354847890000041
时求期望,E3表示对输入语句属于
Figure FDA0002354847890000042
时求期望;p表示的是对应的视频得分,α、β为超参数;
(2.7)、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数φ*
φ*=arg max L
其中,φ*表示D网络训练后得到的新参数,再用φ*更新φ,结束本次训练;
(2.8)、重复步骤(2.1)-(2.7),完成D网络的H次训练,得到预训练好的D网络;
(3)交替训练G网络和D网络
(3.1)、从视频库中随机提取M部视频,再将M部视频同时输入至G网络中的CNN;
(3.2)、设置每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,初始化为0向量;
利用G网络中的CNN抽取视频I={v1,v2,…,vK}的视觉特征,然后对抽取的视觉特征进行均值池化,得到视频I的特征,其中,vi表示第i帧的视频图像,i=1,2,…,K;
Figure FDA0002354847890000043
其中,fCNN(vi)表示第i帧视频图像的视觉特征;I=1,2,…,M;
(3.3)、将h0,z,w0,V z,V送入G网络中的LSTM,得到t=0时刻的G网络中的LSTM状态h0输出;
h0=fLSTM(z,V)
(3.4)、将ht-1,wt-1送入G网络中的LSTM网络,得到当前时刻t时的G网络中的LSTM输出和单词输出,以及t时刻的奖励Qt
ht=fLSTM(ht-1,z,wt-1)
yt~pt=softmax(Weht+b)
Figure FDA0002354847890000051
其中,wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布,Y1:t=(y1,......,yt),MCG表示蒙特卡洛搜索,D(·)表示在D网络中求评分,N'表示的是蒙特卡洛搜索重复次数;
(3.5)、令t=t+1,然后依次类推,直到得到T个时刻下的奖励值和G网络的输出,再利用其值求得G网络的梯度:
Figure FDA0002354847890000052
其中,G(·)表示在G网络中求损失值;
(3.6)、按照步骤(3.2)-(3.5)并行处理其余部视频得到其G网络的梯度,再根据梯度更新参数:
Figure FDA0002354847890000053
其中,lr表示学习率;
(3.7)重复步骤(3.1)-(3.6),完成G网络的g次训练后,得到重新训练好的G网络;
(3.8)、利用重新训练的G网络,按照步骤(2.1)-(2.7)所述方法重新训练的D网络d次,直到模型收敛,得到训练好的D网络,进而得到训练好的GAN网络;
(4)、将待检测视频输入至训练好的GAN网络,判断是否有有对应的输出语句,若没有对应的输出语句,则将待检测视频送至入GAN网络中的G网络,通过G网络输出每一时刻的单词yt,再将每一时刻的单词按顺序输出:sentence={y1,y2,......,yT},得到待检测视频的语义描述;若有对应的输出语句,则将待检测视频送至入GAN网络中的D网络,通过D网络输出每一部视频的视频特征,再将视频特征和对应的输出语句进行评价得分,当得分越高,说明该视频内容与所对应的语句一致性越强。
CN201810987113.3A 2018-08-28 2018-08-28 一种基于gan网络的视频描述及描述一致性判别方法 Active CN109242090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810987113.3A CN109242090B (zh) 2018-08-28 2018-08-28 一种基于gan网络的视频描述及描述一致性判别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810987113.3A CN109242090B (zh) 2018-08-28 2018-08-28 一种基于gan网络的视频描述及描述一致性判别方法

Publications (2)

Publication Number Publication Date
CN109242090A CN109242090A (zh) 2019-01-18
CN109242090B true CN109242090B (zh) 2020-06-26

Family

ID=65068522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810987113.3A Active CN109242090B (zh) 2018-08-28 2018-08-28 一种基于gan网络的视频描述及描述一致性判别方法

Country Status (1)

Country Link
CN (1) CN109242090B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885667A (zh) * 2019-01-24 2019-06-14 平安科技(深圳)有限公司 文本生成方法、装置、计算机设备及介质
CN110135473B (zh) * 2019-04-25 2021-03-30 暗物智能科技(广州)有限公司 图像描述模型中奖赏及图像描述模型的构建方法
CN110717421A (zh) * 2019-09-25 2020-01-21 北京影谱科技股份有限公司 一种基于生成对抗网络的视频内容理解方法及装置
CN110674772B (zh) * 2019-09-29 2022-08-05 国家电网有限公司技术学院分公司 电力作业现场智能安全管控辅助系统及方法
CN111460883B (zh) * 2020-01-22 2022-05-03 电子科技大学 基于深度强化学习的视频行为自动描述方法
CN111639547B (zh) * 2020-05-11 2021-04-30 山东大学 基于生成对抗网络的视频描述方法及系统
CN111563899B (zh) * 2020-06-09 2020-10-02 南京汇百图科技有限公司 一种髋关节ct图像中骨的分割方法
CN114994759B (zh) 2022-08-02 2022-12-02 中国科学院地质与地球物理研究所 基于gan网络的碳封存箱智能识别方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107256221A (zh) * 2017-04-26 2017-10-17 苏州大学 基于多特征融合的视频描述方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107392312A (zh) * 2017-06-01 2017-11-24 华南理工大学 一种基于dcgan性能的动态调整算法
WO2018152014A1 (en) * 2017-02-14 2018-08-23 Microsoft Technology Licensing, Llc Intelligent assistant with intent-based information resolution

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330444A (zh) * 2017-05-27 2017-11-07 苏州科技大学 一种基于生成对抗网络的图像自动文本标注方法
CN107967318A (zh) * 2017-11-23 2018-04-27 北京师范大学 一种采用lstm神经网络的中文短文本主观题自动评分方法和系统
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018152014A1 (en) * 2017-02-14 2018-08-23 Microsoft Technology Licensing, Llc Intelligent assistant with intent-based information resolution
CN107256221A (zh) * 2017-04-26 2017-10-17 苏州大学 基于多特征融合的视频描述方法
CN107392312A (zh) * 2017-06-01 2017-11-24 华南理工大学 一种基于dcgan性能的动态调整算法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《时空嵌入式生成对抗网络的地点预测方法》;孔德江 等;《模式识别与人工智能》;20180131;第31卷(第1期);第49-60页 *
Generating Image Sequence from Description with LSTM Conditional GAN;Xu Ouyang 等;《arXiv》;20180630;第1-6页 *

Also Published As

Publication number Publication date
CN109242090A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109242090B (zh) 一种基于gan网络的视频描述及描述一致性判别方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN110717334B (zh) 基于bert模型和双通道注意力的文本情感分析方法
CN110706692B (zh) 儿童语音识别模型的训练方法及系统
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN111966800B (zh) 情感对话生成方法、装置及情感对话模型训练方法、装置
CN109919221B (zh) 基于双向双注意力机制图像描述方法
CN110853670B (zh) 音乐驱动的舞蹈生成方法
CN111078866B (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN108665055B (zh) 一种图说生成方法及装置
CN111126488A (zh) 一种基于双重注意力的图像识别方法
CN111368142B (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113673535B (zh) 一种多模态特征融合网络的图像描述生成方法
CN113297370B (zh) 基于多交互注意力的端到端多模态问答方法及系统
CN112527993B (zh) 一种跨媒体层次化深度视频问答推理框架
CN112861945B (zh) 一种多模态融合谎言检测方法
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
CN115249062B (zh) 一种文本生成视频的网络模型、方法及装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111444328A (zh) 一种带有解释生成的自然语言自动预测推断方法
CN114332565A (zh) 一种基于分布估计的条件生成对抗网络文本生成图像方法
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN113807307B (zh) 一种用于视频多行为识别的多模态联合学习方法
CN113689514A (zh) 一种面向主题的图像场景图生成方法
Fernandez et al. Deep rapping: character level neural models for automated rap lyrics composition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant