CN111368142A

CN111368142A - 一种基于生成对抗网络的视频密集事件描述方法

Info

Publication number: CN111368142A
Application number: CN202010296654.9A
Authority: CN
Inventors: 李玉华; 朱志杰; 李瑞轩; 辜希武
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-07-03
Anticipated expiration: 2040-04-15
Also published as: CN111368142B

Abstract

本发明公开了一种基于生成对抗网络的视频密集事件描述方法，属于深度学习和图像识别领域。包括：构建视频密集事件描述网络；该网络包括：视频特征提取模块，对视频帧进行特征提取，得到视频帧特征；时序动作特征提取模块，利用视频前向传播与反向传播的特点进行视频帧特征学习，得到各个时序动作特征；自然语言编码器，利用注意力机制融合视频帧特征与时序动作特征，得到自然语句；鉴别器，强化自然语句的准确性；利用训练好的视频密集事件描述模型进行视频密集事件描述。本发明充分考虑了视频双向传播的特点，同时学习自然语句生成时充分利用了视频特征及时序动作特征，并构建语法鉴别器与内容鉴别器，有效强化了自然语句准确性。

Description

一种基于生成对抗网络的视频密集事件描述方法

技术领域

本发明属于深度学习和图像识别领域，更具体地，涉及一种基于生成对抗网络的视频密集事件描述方法。

背景技术

近几年来，随着高清视频监控的逐步推广普及、短视频社交软件及直播软件等视频app的火爆发展，视频的数据爆炸式上升。而如何对这些海量的视频数据进行智能化分析，也成为视觉分析领域的一大热点。一般来说，视频密集事件描述算法是针对一个视频进行多个描述，包括三个部分，一是视频特征提取，二是视频时序动作检测，三是视频描述生成。

其中，视频描述生成任务是为视频生成相对应的自然语言描述，目前主流的方法有语言模板的描述生成和基于序列学习的描述生成两种方法。基于语言模板的描述生成需要提前设置好语言模板，通过得到关键字配合对应模板来生成句子序列。Rohrbach A.等人便使用了这种方法，首先通过two-steps来获得固定的主语、宾语、动词等关键字，在搭配设定好的语言模板来生成句子描述。基于序列学习的描述生成方法是Venugopalan S.等人先提出的，其使用卷积神经网络(Convolutional Neural Networks,CNN)来提取全部视频帧特征，之后平均池化后送入到长短期记忆网络(Long Short-Term Memory,LSTM)网络中，生成自然语言描述。该方法直接平均所有视频帧特征，并未考虑到视频的时序等特征。鉴于上述缺点，视频序列转文字序列(Sequence to Squence:video to text,S2VT)算法则是将每一帧视频特征利用LSTM网络进行编码，之后再将时序特征送入到LSTM解码器中生成自然语言描述，使得句子的生成考虑到了视频的时序特征，从而提高了生成句子的效果。

但是，现有的视频描述生成任务大部分仅考虑了视频时序的特征，却忽略了时序动作检测所涵盖的特征；同时现有的视频描述生成模型中，对生成的句子并没有很好的模型来判断生成的句子是否符合语法以及贴切事件本身，因此需要设计一个好的网络模型来解决以上问题。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于生成对抗网络的视频密集事件描述方法，其目的在于提高视频密集事件描述的准确性。

为实现上述目的，本发明提供了一种基于生成对抗网络的视频密集事件描述方法，包括：

S1.构建视频密集事件描述网络；所述视频动作描述网络包括：视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器；

所述视频特征提取模块，用于对输入视频进行帧提取，并对提取到的视频帧进行特征提取，得到视频帧特征；所述时序动作特征提取模块，用于利用视频前向传播与反向传播的特点进行视频帧特征学习，得到各个时序动作特征；所述自然语言编码器，用于利用注意力机制融合视频帧特征与时序动作特征，得到自然语句；所述鉴别器，用于强化自然语句的准确性；

S2.对所述视频密集事件描述网络进行迭代训练，得到训练好的视频密集事件描述模型；

S3.将待描述的视频输入训练好的视频密集事件描述模型，得到视频密集事件描述结果。

进一步地，所述视频特征提取模块由多个交替连接的三维卷积网络与池化层构成。

进一步地，所述时序动作特征提取模块采用时序分析模型。

进一步地，所述利用视频前向传播与反向传播的特点进行视频帧特征学习，得到各个时序动作特征，具体包括：

01.将视频帧特征输入至时序分析模型，得到正向时序特征E_f＝{e₁,e₂…,e_n}；其中，n表示视频帧特征数；

02.将视频帧特征逆向后，输入至时序分析模型，得到反向时序特征E_b＝{e′₁,e′₂…,e′_n}；

03.由E_total＝E_f+E_b得到视频整体的时序动作特征；

04.将视频整体的时序动作特征E_total输入至全连接层，得到以时间节点t为终点的k个尺度的区间置信度{p₁,p₂…,p_k}；其中，k为以时间节点t为终点的时间区间的个数；

05.通过设定的阈值筛选出置信度高的区间，得到L个时序动作特征V＝{v¹,v²,v³,…v^L}；其中，

j＝1,…，L，i＝1,…,k，

为设定的阈值，Z＝{z₁,z₂…,z_L}表示L个时序动作特征对应的视频帧特征。

进一步地，所述利用注意力机制融合视频帧特征与时序动作特征，得到自然语句，具体包括，

采用以下公式融合视频帧特征与时序动作特征；

M＝σ(W_zZ+b_z)+σ(W_vV+b_v)

其中，W_z与W_v是视频帧特征与时序动作特征的权重参数，σ(·)为非线性激活函数，M表示融合特征，b_z与b_v表示需要学习的偏置值；

将融合特征输入至自然语言解码器，得到对应时序动作的自然语句。

进一步地，所述鉴别器包括语法鉴别器和内容鉴别器；其中，语法鉴别器对自然语句进行评分，以鉴别生成的自然语句是否规范；内容鉴别器对自然语句进行评分，以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切；综合上述评分得到自然语句的准确度评分。

进一步地，上述自然语句的准确度评分方法具体为：

通过D_V＝p₁s₁+p₂s₂得到内容鉴别器的评分；其中，s₁，s₂分别表示视频帧特征与时序动作特征的评分；p₁，p₂分别表示视频帧特征与时序动作特征的评分的权值；

通过D_L＝σ(W_Lh+b_L)得到语法鉴别器的评分；其中，W_L，b_L为要学习的参数，h为将自然语句特征送入循环神经网络中得到的最后的隐藏层信息；

通过S_d＝a₁D_v+a₂D_L得到自然语句的最终评分；其中，a₁、a₂分别是语法鉴别器和内容鉴别器评分的权值，a₁+a₂＝1，且a₁，a₂>0。

进一步地，对所述视频密集事件描述网络进行迭代训练，具体包括：

将自然语言输入至鉴别器得到对应的评分S_D，通过梯度优化算法强化鉴别器的网络参数使得评分S_D变低，再将真实的自然语句执行同样的步骤，但通过损失函数强化鉴别器的网络参数使得评分S_D变高；

将自然语言输入至鉴别器得到对应的评分S_D，并通过梯度优化算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分S_D变高；

依次执行上述步骤作为一次迭代，重复该迭代至设定的次数，得到训练好的视频密集事件描述模型。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果。

(1)本发明所提供的基于生成对抗网络的视频密集事件描述方法，通过视频的前向传播与反向传播来得到事件的特征信息，相比传统的方法仅利用前向传播的特点来预测事件的结束时间，本发明中同时利用了视频的反向传播，进而能够更准确的捕捉事件的特征信息，为之后的自然语句生成提供便利。

(2)本发明所提供的基于生成对抗网络的视频密集事件描述方法，自然语句自动编码器不仅仅输入事件特征，而且结合了视频内容特征，通过注意力机制来得到每一个时间节点的所需要输入的数据，能够使每一个输出的字其不仅能够学习到事件的特征，同时能够学习到与这个事件相关的视频的特征，从而能够让自动编码器输出的结果更加的准确。

(3)本发明所提供的基于生成对抗网络的视频密集事件描述方法，利用了生成对抗网络算法的核心思想，建立了语法鉴别器与内容鉴别器来对自动编码器生成的自然语句进行评分，这两个鉴别器任务不同，其中，内容鉴别器是针对句子是否和视频内容、事件内容所匹配；语法鉴别器则是针对句子本身的语法是否正确。这样做能够更加有效的让生成的自然语句贴近真实的自然语句；且在训练过程中，依次训练鉴别器与生成器，使得两者进行对抗训练，最终能够让生成器达到最好的生成效果。

附图说明

图1为本发明实施例提供的视频密集事件描述方法流程示意图；

图2为本发明实施例提供的视频密集事件描述模型中时序动作特征提取模块的结构图

图3为本发明实施例提供的视频密集事件描述模型中自然语言编码器的结构图；

图4为本发明实施例提供的鉴别器的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

为达到本发明的目的，本发明所采用的技术方案是：结合视频事件的特点和深度学习算法，设计一种能够描述视频密集事件的神经网络模型。利用三维卷积网络(Convolutional 3Dimension Networks,C3D)来提取视频内容本身的空间和时序特征，从而得到关于每一帧关于视频内容的特征。利用视频前向转播和反向传播的特点，通过LSTM时序模型来串联所提取的视频内容特征，得到多个事件候选集，并通过阈值筛选与非极大值抑制的方法得到高质量的候选集。同时通过自动解码器对事件特征进行解码，得到对应的自然语句。最后分别利用内容鉴别器和语法鉴别器来鉴别所生成的自然语句，从而提高生成模型的正确率。

如图1所示，本发明实施例提供了一种基于生成对抗网络的视频密集事件描述方法，包括：

S1.构建视频密集事件描述网络；视频动作描述网络包括：视频特征提取模块、时序动作特征提取模块、自然语言编码器和鉴别器；视频特征提取模块，用于对输入视频进行帧提取，并对提取到的视频帧进行特征提取，得到视频帧特征；时序动作特征提取模块，用于利用视频前向传播与反向传播的特点进行视频帧特征学习，得到各个时序动作特征；自然语言编码器，用于利用注意力机制融合视频帧特征与时序动作特征，得到自然语句；所述鉴别器，用于强化自然语句的准确性；

具体地，本发明中视频特征提取模块由多个交替连接的三维卷积网络与池化层构成；时序动作特征提取模块采用LSTM时序模型，时序动作特征(也可称为事件特征)提取过程如图2所示，具体包括：

01.将视频帧特征输入至LSTM时序模型，得到正向时序特征E_f＝{e₁,e₂…,e_n}；其中，n表示视频帧特征数；02.将视频帧特征逆向后，输入至LSTM时序模型，得到反向时序特征E_b＝{e′₁,e′₂…,e′_n}；03.由E_total＝E_f+E_b得到视频整体的时序动作特征；04.将视频整体的时序动作特征E_total输入至全连接层，得到以时间节点t为终点的k个尺度的区间置信度{p₁,p₂…,p_k}；其中，k为以时间节点t为终点的时间区间的个数；05.通过设定的阈值筛选出置信度高的区间，得到L个时序动作特征V＝{v¹,v²,v³,…v^L}；其中，

j＝1,…，L，i＝1,…,k，

为设定的阈值，根据视频的密集事件程度取值，本发明实施例取值0.65，Z＝{z₁,z₂…,z_L}表示L个时序动作特征对应的视频帧特征。通过得到以每一个时间为事件的止点的k个区间，来保证真实的事件是包含于这些候选区间中；同时通过阈值筛选和非极大值抑制的方法来筛选出高质量的候选事件集。

本发明中自动解码器的输入不只是事件特征，同时还包括对应的视频帧特征，从而使得生成的自然语句与视频内容更加贴切，如图3所示，特征融合过程具体包括，

采用以下公式融合视频帧特征与时序动作特征；

M＝σ(W_zZ+b_z)+σ(W_vV+b_v)

将融合特征输入至自然语言解码器LSTM，得到相对应每个时刻的隐藏层{h₁,h₂,……h_t}，通过全连接层W_onehot＝Dense(h_i)，得到每个单词的one-hot(一位有效)编码，即得到了对应时序动作的自然语句。

进一步地，本发明分别采用内容鉴别器与语法鉴别器来对生成的自然语句进行评分，这样做可以鉴别所输入的语句是否和视频内容、事件内容匹配，同时也可以保证句子本身是流畅，没有语法问题。具体地，如图4所示，鉴别器包括语法鉴别器和内容鉴别器；其中，语法鉴别器对自然语句进行评分，以鉴别生成的自然语句是否规范；内容鉴别器对自然语句进行评分，以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切；综合上述评分得到自然语句的准确度评分。具体地评分方法如下：

1)通过D_V＝p₁s₁+p₂s₂得到内容鉴别器的评分；

其中，s₁，s₂分别表示视频帧特征与时序动作特征的评分；

s₁＝σ(tanh(U^TZ)⊙tanh(V^TW))

s₂＝σ(tanh(U^TV)⊙tanh(V^TW))

其中，σ()，tanh()为非线性激活函数，⊙为哈达玛积，U^T，V^T是两个线性层，W为自然语句的特征。

p₁，p₂分别表示视频帧特征与时序动作特征的评分的权值；

其中，x_i为要学习的参数；

2)通过D_L＝σ(W_Lh+b_L)得到语法鉴别器的评分；其中，W_L，b_L为要学习的参数，h为将自然语句特征送入LSTM循环神经网络中得到的最后的隐藏层信息；

3)通过S_D＝a₁D_v+a₂D_L得到自然语句的最终评分；其中，a₁、a₂分别是语法鉴别器和内容鉴别器评分的权值，a₁+a₂＝1，且a₁，a₂>0。

具体地，步骤S2包括：

将自然语言输入至鉴别器得到对应的评分S_D，通过自适应矩估计(A Method forStochastic Optimimzation,adam)梯度算法强化鉴别器的网络参数使得评分S_D变低，再将真实的自然语句执行同样的步骤，但通过损失函数强化鉴别器的网络参数使得评分S_D变高；

将自然语言输入至鉴别器得到对应的评分S_D，并通过adam梯度算法来强化时序动作特征提取模块和自然语言编码器的网络参数使得得到的评分S_D变高；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于生成对抗网络的视频密集事件描述方法，其特征在于，包括：

2.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法，其特征在于，所述视频特征提取模块由多个交替连接的三维卷积网络与池化层构成。

3.根据权利要求1所述的一种基于生成对抗网络的视频密集事件描述方法，其特征在于，所述时序动作特征提取模块采用时序分析模型。

4.根据权利要求1-3任一项所述的一种基于生成对抗网络的视频密集事件描述方法，其特征在于，所述利用视频前向传播与反向传播的特点进行视频帧特征学习，得到各个时序动作特征，具体包括：

02.将视频帧特征逆向后，输入至时序分析模型，得到反向时序特征E_b＝{e′₁，e′₂...，e′_n}；

03.由E_total＝E_f+E_b得到视频整体的时序动作特征；

04.将视频整体的时序动作特征E_total输入至全连接层，得到以时间节点t为终点的k个尺度的区间置信度{p₁，p₂...，p_k}；其中，k为以时间节点t为终点的时间区间的个数；

05.通过设定的阈值筛选出置信度高的区间，得到L个时序动作特征V＝{v¹，v²，v³，...v^L}；其中，

为设定的阈值，Z＝{z₁，z₂...，z_L}表示L个时序动作特征对应的视频帧特征。

5.根据权利要求1或4所述的一种基于生成对抗网络的视频密集事件描述方法，其特征在于，所述利用注意力机制融合视频帧特征与时序动作特征，得到自然语句，具体包括，

采用以下公式融合视频帧特征与时序动作特征；

M＝σ(W_zZ+b_z)+σ(W_vV+b_v)

6.根据权利要求1-5任一项所述的一种基于生成对抗网络的视频密集事件描述方法，其特征在于，所述鉴别器包括语法鉴别器和内容鉴别器；其中，语法鉴别器对自然语句进行评分，以鉴别生成的自然语句是否规范；内容鉴别器对自然语句进行评分，以鉴别生成的自然语句与时序动作是否吻合以及与视频内容是否贴切；综合上述评分得到自然语句的准确度评分。

7.根据权利要求6所述的一种基于生成对抗网络的视频密集事件描述方法，其特征在于，上述自然语句的准确度评分方法具体为：

通过S_D＝a₁D_v+a₂D_L得到自然语句的最终评分；其中，a₁、a₂分别是语法鉴别器和内容鉴别器评分的权值，a₁+a₂＝1，且a₁，a₂＞0。

8.根据权利要求1或7所述的一种基于生成对抗网络的视频密集事件描述方法，其特征在于，对所述视频密集事件描述网络进行迭代训练，具体包括：