CN109242090A

CN109242090A - 一种基于gan网络的视频描述及描述一致性判别方法

Info

Publication number: CN109242090A
Application number: CN201810987113.3A
Authority: CN
Inventors: 徐杰; 李林科; 王菡苑; 汪伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2019-01-18
Anticipated expiration: 2038-08-28
Also published as: CN109242090B

Abstract

本发明公开了一种基于GAN网络的视频描述及描述一致性判别方法，先分别训练GAN网络中的G网络和D网络，然后在此基础之上，交替训练G网络和D网络，从而得到训练好的GAN网络，最后再将待检测视频输入至训练好的GAN网络，通过G网络输出待检测视频的语义描述；通过D网络输出待检测视频语义描述的评价得分，进而判断描述的一致性。

Description

一种基于GAN网络的视频描述及描述一致性判别方法

技术领域

本发明属于光通信技术领域，更为具体地讲，涉及一种基于GAN网络的视频描述及描述一致性判别方法。

背景技术

视频描述模型是模型对给定视频内容使用依据话进行描述。基于深度学习的视频描述方法目前取得了快速的发展，Venugopalan将视频使用CNN提取图像特征后进行全局池化，然后送入基于LSTM进行解码输出，这构成了基于编解码模型的视频描述模型。由于视频数据相对于图像具有更加复杂的时空结构，为充分利用这些特征，提出了基于各种注意力机制的编码方法以及3D-CNN。使用这些方法能够有效的提取视频特征，提升模型效果。

虽然最近的研究在有效利用视频特征上取得了不错的进展，但是我们发现，大多数视频字幕系统都是通过最大似然估计(MLE)原理进行训练的，也称为交叉熵(XE)最小化。研究表明，MLE并未对句子进行整体性的评价吗，使其对异常值跟家敏感，而不是使生成接近人类语句相近的方向进行优化。

对MLE训练方法的一个改进方法就是是直接最大化利益目标。这可以通过强化学习(RL)框架使用REINFORCE等方法完成。在RL中，候选句子的分数被用作奖励信号，并且该模型试图最大化该奖励。如果选择的奖励指标是 CIDEr得分，该指标旨在接近人类对适宜性和共识的判断，则可以教授该模型以生成更多类似人的字幕。论文即使用了强化学习的方法对模型进行优化，这种方式虽然能够对视频描述的结果起到一定的提升作用，但是显然这种方式不具有扩展性，其只针对于特定的评价指标具有提升，当出现新的评价指标，其能起到的作用是有限的。

为了能更好的对句子进行整体性的评价，使得模型能够产生能加自然的语句，我们提出了GAN网络通过对模型产生的语句和真实的语句进行对抗性的训练，使得模型更具有通用性，产生的语句能够更加接近真实的语句。

视频描述模型的训练通常是在给定当前时刻真实单词值的情况下使用反向传播来最大化下一个真实单词的概率，即使用交叉熵(XE)和最大似然估计 (MLE)来训练模型和生成语句,这种训练方式对于视频描述模型带来了两个问题：

第一个问题是训练时未考虑句子的整体性。对于产生的语句，我们评价其好坏应该是从整体性出发，但是MLE的训练方式实质并未考虑到句子的整体性，而是对句子中单个单词的正确性进行了评估，这样的训练方式明显会使得模型具有偏差。

第二个问题是生成语句的单一性和非自然性。使用MLE的方法训练后在生成语句的过程中，将会使得模型会尽可能的产生训练集中出现频率最大的单词，这会导致其产生的语句大部分来自于训练集，而缺乏了多样性和自然性。

引言中我们提到目前已有使用强化学习的方法对模型进行优化，但是这种方式不具有扩展性，对于使用MLE训练视频描述模型所带来的问题，本文认为对于一个视频描述模型，其生成的语句应该具有以下特性：

第一是真实性，即生成的描述语句能够真实的反映视频所表达的内容。

第二是自然性，即生成的语句从整体上来说应该接近人类面对相同情况所表达出的语句，符合语法规则。

第三是多样性，即生成的语句应该尽量具有多样性，可以使用不同的语句来描述同一视频内容。

为使得我们的视频描述模型具有上述三个特性，本文提出了基于GAN和 RL的视频描述模型。我们借鉴了其生成真实数据方面的能力，将GAN网络用于视频描述模型中，同时在G网络中引入了多样性随机变量，对D网络设计了特定的联合目标函数，希望通过训练使得模型能够生成更加真实、自然、多样的语句描述。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于GAN网络的视频描述及描述一致性判别方法，使城域网与接入网得到有效融合，同时具有可扩展、高灵活以及低成本的性能。

为实现上述发明目的，本发明一种基于GAN网络的视频描述及描述一致性判别方法，其特征在于，包括以下步骤：

(1)、预训练G网络

(1.1)、从视频库中随机提取M部视频，再将M部视频同时输入至G网络中的CNN；

(1.2)、设置最大训练次数为H，每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w₀，初始化为0向量；

利用CNN网络抽取视频I＝{v₁,v₂,…,v_K}的视觉特征，然后对抽取的视觉特征进行均值池化，得到视频I的特征，其中，v_i表示第i帧的视频图像，i＝1,2,…,K；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,M；

(1.3)、设t＝0时刻，LSTM的输出为h₀，h₀＝f_LSTM(z,V_I)，其中，z表示的是多样性随机变量，由均值为0的正态分布中采样得到；

(1.4)、将h_t-1,w_t-1送入G网络中的LSTM，得到当前时刻t时的LSTM输出和单词输出；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

其中，w_t-1表示的是单词y_t-1的词向量，p_t表示单词的概率分布，W_e、b为LSTM 待训参数；

(1.5)、同理，按照步骤(1.1)-(1.4)所述方法，并行处理其余部视频，得到其余部视频在当前时刻t时的LSTM输出和单词输出；

(1.6)、令t＝t+1，按照步骤(1.1)-(1.5)所述方法并行处理M部视频，得到M部视频在下一时刻时的LSTM输出和单词输出，然后依次类推，直到得到T个时刻下的LSTM输出和单词输出；

(1.7)、利用T个时刻下的LSTM输出和单词输出建立模型损失函数；

其中，P_It表示当前时刻t时第I部视频中单词的概率分布,Ω表示基于注意力机制的神经网络LSTM中所有待训参数；

(1.8)、利用梯度下降算法求解模型损失函数，以达到最小化损失，从而得到新参数Ω^*；

Ω^*＝argmaxL_y

其中，Ω^*表示神经网络LSTM中所有训练后得到的新参数；再用Ω^*更新Ω更新为Ω^*，结束本次训练；

(1.9)、重复步骤(1.1)-(1.8)，完成H次的训练，得到训练好的G网络；

(2)、预训练D网络

(2.1)从视频库中随机提取M部视频，每一部视频对应的描述语句为S_I， I＝1,2,…,M；

将抽取的每一部视频按照步骤(1.1)-(1.6)所述方法，得到T个时刻的 LSTM输出和单词输出，再将每部视频的单词输出拼接成描述语句，得到G网络下生成的描述语句

再在视频库中除M部视频外，随机提取M部视频，每一部视频对应的描述语句为

将三种不同描述语句对应的视频，组成一个3*M的视频集；

(2.2)、设置最大训练次数为H，每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w₀，h₀初始化为0向量；

利用D网络中的CNN抽取视频I＝{v₁,v₂,…,v_K}的视觉特征，然后对抽取的视觉特征进行均值池化，得到视频I的特征，其中，v_i表示第i帧的视频图像， i＝1,2,…,K；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,3M；

(2.3)将h_t-1,w_t-1送入D网络中的LSTM，得到当前时刻t时的D网络中的 LSTM输出和单词输出；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

同理，并行处理其余部视频，得到其余部视频在当前时刻t时的LSTM输出和单词输出；然后，令t＝t+1，再并行处理3M部视频，得到3M部视频在下一时刻时的LSTM输出和单词输出，然后依次类推，直到得到T个时刻下的LSTM 输出和单词输出；

(2.4)、将每部视频在D网络中的输出{h₁,h₂,...,h_T}进行均值化，得到语义特征S_I；

(2.5)、将每一部视频的语义特征和视频特征进行融合，得到每一部视频的评分p_I：

p_I＝σ(f(feat))

其中，σ(·)表示激活函数，f(·)表示全连接函数；

(2.6)、按照步骤(2.4)-(2.5)所述方法并行处理其余部视频，然后对所有视频求目标函数：

L＝-E₁[logp]-α·E₂[log(1-p)] -βE₃[(1-logp)]

其中，E₁表示对输入语句属于S_I时求期望，E₂表示对输入语句属于时求期望，E₃表示对输入语句属于时求期望；p表示的是对应的视频得分，α、β为超参数；

(2.7)、利用梯度下降算法求解模型损失函数，以达到最小化损失，从而得到新参数φ^*；

φ^*＝argmaxL

其中，φ^*表示D网络训练后得到的新参数，再用φ^*更新φ，结束本次训练；

(2.8)、重复步骤(2.1)-(2.7)，完成D网络的H次训练，得到预训练好的D网络；

(3)交替训练G网络和D网络

(3.1)、从视频库中随机提取M部视频，再将M部视频同时输入至G网络中的CNN；

(3.2)、设置每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w₀，初始化为0向量；

利用G网络中的CNN抽取视频I＝{v₁,v₂,…,v_K}的视觉特征，然后对抽取的视觉特征进行均值池化，得到视频I的特征，其中，v_i表示第i帧的视频图像， i＝1,2,…,K；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,M；

(3.3)、将h₀,z,w₀,Vz,V送入G网络中的LSTM，得到t＝0时刻的G网络中的LSTM状态h₀输出；

h₀＝f_LSTM(z,V)

(3.4)、将h_t-1,w_t-1送入G网络中的LSTM网络，得到当前时刻t时的G网络中的LSTM输出和单词输出，以及t时刻的奖励Q_t；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

其中，w_t-1表示的是单词y_t-1的词向量，p_t表示单词的概率分布，表示蒙特卡洛搜索，D(·)表示在D网络中求评分，N'表示的是蒙特卡洛搜索重复次数；

(3.5)、令t＝t+1，然后依次类推，直到得到T个时刻下的奖励值和G网络的输出，再利用其值求得G网络的梯度：

其中，G(·)表示在G网络中求损失值；

(3.6)、按照步骤(3.2)-(3.5)并行处理其余部视频得到其G网络的梯度，再根据梯度更新参数：

其中，lr表示学习率；

(3.7)重复步骤(3.1)-(3.6)，完成G网络的g次训练后，得到重新训练好的G网络；

(3.8)、利用重新训练的G网络，按照步骤(2.1)-(2.7)所述方法重新训练的D网络d次，直到模型收敛，得到训练好的D网络，进而得到训练好的GAN 网络；

(4)、将待检测视频输入至训练好的GAN网络，判断是否有有对应的输出语句，若没有对应的输出语句，则将待检测视频送至入GAN网络中的G网络，通过G网络输出每一时刻的单词y_t，再将每一时刻的单词按顺序输出： sentence＝{y₁,y₂,......,y_T}，得到待检测视频的语义描述；若有对应的输出语句，则将待检测视频送至入GAN网络中的D网络，通过D网络输出每一部视频的视频特征，再将视频特征和对应的输出语句进行评价得分，当得分越高，说明该视频内容与所对应的语句一致性越强。

本发明的发明目的是这样实现的：

本发明一种基于GAN网络的视频描述及描述一致性判别方法，先分别训练 GAN网络中的G网络和D网络，然后在此基础之上，交替训练G网络和D网络，从而得到训练好的GAN网络，最后再将待检测视频输入至训练好的GAN 网络，通过G网络输出待检测视频的语义描述；通过D网络输出待检测视频语义描述的评价得分，进而判断描述的一致性。

附图说明

图1是本发明基于GAN网络的视频描述及描述一致性判别方法图；

图2是G网络的训练流程图；

图3是D网络的训练流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明一种基于GAN网络的视频描述及描述一致性判别方法流程图。

在本实施例中，GAN网络包括G网络和D网络两部分，G网络的目标是为了产生更自然真实的视频描述，而对于D网络来说，其目的是判别出视频对应的描述是来自于D网络还是来自于真实数据。

如图1所示，下面我们对本发明一种基于GAN网络的视频描述及描述一致性判别方法进行详细说明，具体包括以下步骤：

S1、预训练G网络

G网络用于视频描述的生成，在这里我们使用“编码-解码”模型框架，如图2所示.

S1.1、从视频库中随机提取M部视频，再将M部视频同时输入至G网络中的CNN；

S1.2、设置最大训练次数为H，每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w₀，初始化为0向量；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,M；

S1.3、设t＝0时刻，LSTM的输出为h₀，h₀＝f_LSTM(z,V_I)，其中，z表示的是多样性随机变量，由均值为0的正态分布中采样得到；

S1.4、将h_t-1,w_t-1送入G网络中的LSTM，得到当前时刻t时的LSTM输出和单词输出；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

S1.5、同理，按照步骤S1.1-S1.4所述方法，并行处理其余部视频，得到其余部视频在当前时刻t时的LSTM输出和单词输出；

S1.6、令t＝t+1，按照步骤S1.1-S1.5所述方法并行处理M部视频，得到M部视频在下一时刻时的LSTM输出和单词输出，然后依次类推，直到得到T个时刻下的LSTM输出和单词输出；

S1.7、利用T个时刻下的LSTM输出和单词输出建立模型损失函数；

S1.8、利用梯度下降算法求解模型损失函数，以达到最小化损失，从而得到新参数Ω^*；

Ω^*＝argmaxL_y

S1.9、重复步骤S1.1-S1.8，完成H次的训练，得到训练好的G网络。

在本实施例中，与普通的视频描述模型不同的是我们在进入LSTM网络前加入了一个多样性随机变量z，而z的作用在于通过对模型进行微小扰动，从而使得模型能够产生更加多样化的语句，克服原模型中只能产生单一语句的缺点。

S2、预训练D网络

D网络结构如图3所示,其主要分为三大模块，第一部分为视频特征提取模块，对得到的视频特征我们进行了我们首先送入CNN进行视频特征进行了编码，得到其视频特征；第二部分为语义特征提取模块，同样，我们使用LSTM作为特征提取，我们将语句描述也送入LSTM中得到其语义编码特征；最后第三部分即为评价模块。

D网络的主要作用在于对于给定一部视频和对应的描述语句如何确定其好坏程度，同时给出对应的值，而这个值将作为G网络的奖励值。因此，D网络如何判断描述语句的好坏程度，对于整个模型是起到至关重要的作用的。

S2.1、从视频库中随机提取M部视频，每一部视频对应的描述语句为S_I， I＝1,2,…,M；

将抽取的每一部视频按照步骤S1.1-S1.6所述方法，得到T个时刻的LSTM 输出和单词输出，再将每部视频的单词输出拼接成描述语句，得到G网络下生成的描述语句

将三种不同描述语句对应的视频，组成一个3*M的视频集；

S2.2、设置最大训练次数为H，每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w₀，h₀初始化为0向量；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,3M；

S2.3、将h_t-1,w_t-1送入D网络中的LSTM，得到当前时刻t时的D网络中的 LSTM输出和单词输出；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

S2.4、将每部视频在D网络中的输出{h₁,h₂,...,h_T}进行均值化，得到语义特征S_I；

S2.5、将每一部视频的语义特征和视频特征进行融合，得到每一部视频的评分p_I：

p_I＝σ(f(feat))

其中，σ(·)表示激活函数，f(·)表示全连接函数；

在本实施例中，我们的评价函数将会对生成语句的真实性、自然性、多样性这三个特性方面的性能进行评价打分,该得分会作为G网络训练中的rewad反馈给G网络,促使对G网络模型进行优化。

S2.6、按照步骤2.4-S2.5所述方法并行处理其余部视频，然后对所有视频求目标函数：

L＝-E₁[logp]-α·E₂[log(1-p)] -βE₃[(1-logp)]

S2.7、利用梯度下降算法求解模型损失函数，以达到最小化损失，从而得到新参数φ^*；

φ^*＝argmaxL

S2.8、重复步骤S2.1-S2.7，完成D网络的H次训练，得到预训练好的D网络；

S3、交替训练G网络和D网络

将D网络作为G网络的奖励函数的一个重要的原因是在于GAN网络对抗训练的动态性，我们可以根据G网络的训练情况不断的动态优化我们的D网络，从而使得G网络和D网络的性能在相互作用下不断的提升。

S3.1、从视频库中随机提取M部视频，再将M部视频同时输入至G网络中的CNN；

S3.2、设置每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w₀，初始化为0向量；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,M；

S3.3、将h₀,z,w₀,Vz,V送入G网络中的LSTM，得到t＝0时刻的G网络中的 LSTM状态h₀输出；

h₀＝f_LSTM(z,V)

S3.4、将h_t-1,w_t-1送入G网络中的LSTM网络，得到当前时刻t时的G网络中的LSTM输出和单词输出，以及t时刻的奖励Q_t；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

其中，w_t-1表示的是单词y_t-1的词向量，p_t表示单词的概率分布，表示蒙特卡洛搜索，D(·)表示，N'表示的是蒙特卡洛搜索重复次数；

S3.5、令t＝t+1，然后依次类推，直到得到T个时刻下的奖励值和G网络的输出，再利用其值求得G网络的梯度：

其中，G(·)表示,

S3.6、按照步骤S3.2-S3.5并行处理其余部视频得到其G网络的梯度，再根据梯度更新参数：

其中，lr表示学习率；

S3.7重复步骤S3.1-S3.6，完成G网络的g次训练后，得到重新训练好的G 网络；

S3.8、利用重新训练的G网络，按照步骤S2.1-S2.7所述方法重新训练的D 网络d次，直到模型收敛，得到训练好的D网络，进而得到训练好的GAN网络；

S4、将待检测视频输入至训练好的GAN网络，判断是否有有对应的输出语句，若没有对应的输出语句，则将待检测视频送至入GAN网络中的G网络，通过G网络输出每一时刻的单词y_t，再将每一时刻的单词按顺序输出： sentence＝{y₁,y₂,......,y_T}，得到待检测视频的语义描述；若有对应的输出语句，则将待检测视频送至入GAN网络中的D网络，通过D网络输出每一部视频的视频特征，再将视频特征和对应的输出语句进行评价得分，当得分越高，说明该视频内容与所对应的语句一致性越强。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于GAN网络的视频描述及描述一致性判别方法，其特征在于，包括以下步骤：

(1)、预训练G网络

利用CNN网络抽取视频I＝{v₁,v₂,…,v_K}的视觉特征，然后对抽抽取的视觉特征进行均值池化，得到视频I的特征，其中，v_i表示第i帧的视频图像，i＝1,2,…,K；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,M；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

其中，w_t-1表示的是单词y_t-1的词向量，p_t表示单词的概率分布，W_e、b为LSTM待训参数；

Ω^*＝argmaxL_y

(1.9)、重复步骤(1.1)-(1.8)，完成H次的训练，得到训练好的G网络。

(2)、预训练D网络

(2.1)从视频库中随机提取M部视频，每一部视频对应的描述语句为S_I，I＝1,2,…,M；

将抽取的每一部视频按照步骤(1.1)-(1.6)所述方法，得到T个时刻的LSTM输出和单词输出，再将每部视频的单词输出拼接成描述语句，得到G网络下生成的描述语句

将三种不同描述语句对应的视频，组成一个3*M的视频集；

利用D网络中的CNN抽取视频I＝{v₁,v₂,…,v_K}的视觉特征，然后对抽取的视觉特征进行均值池化，得到视频I的特征，其中，v_i表示第i帧的视频图像，i＝1,2,…,K；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,3M；

(2.3)将h_t-1,w_t-1送入入D网络中的LSTM，得到当前时刻t时的D网络中的LSTM输出和单词输出；

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

同理，并行处理其余部视频，得到其余部视频在当前时刻t时的LSTM输出和单词输出；然后，令t＝t+1，再并行处理3M部视频，得到3M部视频在下一时刻时的LSTM输出和单词输出，然后依次类推，直到得到T个时刻下的LSTM输出和单词输出；

p_I＝σ(f(feat))

其中，σ(·)表示激活函数，f(·)表示全连接函数；

L＝-E₁[logp]-α·E₂[log(1-p)]

-βE₃[(1-logp)]

φ^*＝argmaxL

(3)交替训练G网络和D网络

利用G网络中的CNN抽取视频I＝{v₁,v₂,…,v_K}的视觉特征，然后对抽取的视觉特征进行均值池化，得到视频I的特征，其中，v_i表示第i帧的视频图像，i＝1,2,…,K；

其中，f_CNN(v_i)表示第i帧视频图像的视觉特征；I＝1,2,…,M；

h₀＝f_LSTM(z,V)

h_t＝f_LSTM(h_t-1,z,w_t-1)

y_t～p_t＝softmax(W_eh_t+b)

其中，G(·)表示在G网络中求损失值；

其中，lr表示学习率；

(3.8)、利用重新训练的G网络，按照步骤(2.1)-(2.7)所述方法重新训练的D网络d次，直到模型收敛，得到训练好的D网络，进而得到训练好的GAN网络；

(4)、将待检测视频输入至训练好的GAN网络，判断是否有有对应的输出语句，若没有对应的输出语句，则将待检测视频送至入GAN网络中的G网络，通过G网络输出每一时刻的单词y_t，再将每一时刻的单词按顺序输出：sentence＝{y₁,y₂,......,y_T}，得到待检测视频的语义描述；若有对应的输出语句，则将待检测视频送至入GAN网络中的D网络，通过D网络输出每一部视频的视频特征，再将视频特征和对应的输出语句进行评价得分，当得分越高，说明该视频内容与所对应的语句一致性越强。