CN108960063A

CN108960063A - 一种面向事件关系编码的视频中多事件自然语言描述算法

Info

Publication number: CN108960063A
Application number: CN201810558731.6A
Authority: CN
Inventors: 袁春; 杨大力
Original assignee: Shenzhen Graduate School Tsinghua University
Current assignee: Shenzhen Graduate School Tsinghua University
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-12-07
Anticipated expiration: 2038-06-01
Also published as: CN108960063B

Abstract

本发明公开了一种面向事件关系编码的视频中多事件自然语言描述算法，包括以下步骤：S1、采用一三维卷积神经网络，对给定的视频序列提取深度特征，得到若干个深度特征向量，构成一深度特征序列；S2、基于所述深度特征序列，采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间；S3、选定所述视频序列中需要进行描述的待描述事件，并根据所述事件的提议起止区间，对所述待描述事件在所述深度特征序列中对应的子序列进行再编码，得到所述待描述事件的描述子；S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码，得到用于描述所述待描述事件的自然语言。

Description

一种面向事件关系编码的视频中多事件自然语言描述算法

技术领域

本发明涉及自然语言描述技术领域，尤其是涉及从视频中检测事件并用自然语言描述事件的算法。

背景技术

视觉自然语言描述(Captioning)是把视觉信息转变为自然语言的任务。通常该任务使用了编-解码器架构作为关键技术。作为这一过程的主要步骤，编码器输出的特征质量与解码器的生成模型对最终的自然语言结果有重要影响。视觉自然语言描述在视频和图像两方面均有很多探索。通常地，现有技术流行使用基于神经网络的计算模型来解决架构的实际建模。图像上，卷积神经网络在众多视觉理解任务中都有良好的效果，在图像描述任务中的工作也都经常使用该方法作为编码器。在解码器方面，则是根据已知的编码结果生成词汇序列的建模方法，常用的神经网络结构如卷积神经网络和循环神经网络均可被用在解码器实现中。在视频中，编码器的类型相对更多，常用的有采用三维卷积在空间和时间上提取特征，这一方法主要面向动作类型的特征；同样地，单帧图像的二维卷积特征也被用作编码器。利用这两种特征之一，辅以序列模型编码时序信息，我们得以对众多视频中的视觉理解任务做出建模。其特征的后处理与图像描述算法基本相同。目前较多的算法仍以基于循环神经网络的模型作为其具体实现。

这里的图像/视频描述任务数学上可以抽象为一个将词汇表依概率的采样问题，正式建模为：

其中，y_k为第k个输出单词，p_θ表示一个参数化的概率分布，w表示词汇表Ω中的单词，w_k表示已有的第k个输出。模型在每一步应当输出给定视觉信息与已有词组下，概率最高的单词。在建模的时候，主要考虑语言序列和视觉信息的联合概率分布，所以通常情况下使用的方法论是通过交叉熵来使得模型逼近合理的概率分布。

给定该形式化的模型，目前主要的方法分别在编码器和解码器上做出不同改进。在编码器方面，除了用不同的主干神经网络试图获得更佳编码效果以外，有的方法也显式地使用了，视觉内容的属性——包括加入已标注好或使用检测算法标注的物体信息等方法。在解码阶段，最主要的改进方向是以特征加权形式出现的注意力模型，同时也有将问题从优化联合概率分布转变为自监督的类强化学习的方法用以直接提高语句的自然程度。但是在多事件视频的描述任务，已有的方法均有不同的缺点。最主要的问题在于：1)对于多事件视频的描述，这些方法都无法获取事件之间的关系；2)对于长短差别较大的视频片段，用统一的编码器-解码器架构的效果并不理想。这两方面的缺点造成描述语言的准确性和自然程度均下降。

以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案，其并不必然属于本专利申请的现有技术，在没有明确的证据表明上述内容在本专利申请的申请日前已经公开的情况下，上述背景技术不应当用于评价本申请的新颖性和创造性。

发明内容

针对传统的视觉自然语言描述算法在多事件视频的新任务中出现的问题，本发明提出了一种面向事件关系编码的视频中多事件自然语言描述算法，通过合理的编码方式获得对事件内部及互相关系的编码特征，以提高描述语言的准确性和自然程度。

本发明为达上述目的提出以下技术方案：

一种面向事件关系编码的视频中多事件自然语言描述算法，包括以下步骤：

S1、采用一三维卷积神经网络，对给定的视频序列提取深度特征，得到若干个深度特征向量，构成一深度特征序列；

S2、基于所述深度特征序列，采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间；

S3、选定所述视频序列中需要进行描述的待描述事件，并根据所述事件的提议起止区间，对所述待描述事件在所述深度特征序列中对应的子序列进行再编码，得到所述待描述事件的描述子；

S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码，得到用于描述所述待描述事件的自然语言。

本发明的上述技术方案相对于现有技术，具有以下有益效果：

1)使用了层次化的LSTM(长短时记忆循环神经网络，Long-Short Time Memory)作为主要的实现模型，在视觉信息编码阶段，可以在视频深度特征提取后，同时给出事件所处时间段的估计，通过计算事件内部和事件之间的关系编码来详细化地编码事件特征，实现层次化的多事件检测；

2)提出了基于事件的再编码。在步骤S1提取到视频深度特征与步骤S2事件区间估计后，使用层次化的LSTM的深层计算事件内部特征，更精细地刻画了视频信息，达到了更少的信息损失；此外，该层次化的LSTM也会根据各事件内部特征对事件间的联合分布建模，从而更好地表达了事件间的次序、因果等关系，使输出更加准确；

3)采用基于注意力模型的LSTM自适应解码器，通过结合注意力模型与信息门结构，保证了送入解码器时的特征符合模型容量，并且通过计算特征权值的方式得到给定词组序列下事件内特征权值的概率分布，以为编码器给予更好的特征信息。相比在编码阶段的特征降维，注意力模型加权地处理特征数据已经被证明有效。

附图说明

图1是本发明提出的面向事件关系编码的视频中多事件自然语言描述算法的流程图。

具体实施方式

下面结合附图和具体的实施方式对本发明作进一步说明。

本发明的具体实施方式提出了一种面向事件关系编码的视频中多事件自然语言描述算法，参考图1，该算法包括如下步骤S1至S4：

S1、采用一三维卷积神经网络，对给定的视频序列提取深度特征，得到若干个深度特征向量，构成一深度特征序列。对于给定的视频序列，可将从视频序列和事件提议得到的运算形式记为：其中，为句子的词汇序列，p＝{p_start,p_end}为给定的事件起止区间，表示视频序列的深度特征序列。

为得到该视频序列的深度特征序列，首先，对给定的该视频序列，取固定长度的连续的帧为一簇，以固定间隔对每一个簇采样，得到簇序列；再对所述簇序列中的每一个簇，采用三维卷积神经网络提取簇的深度特征向量，得到所述视频序列的所述深度特征序列其中，v₁,v₂,…,v_n为每一个簇对应的深度特征向量。例如，使用连续的16帧作为一簇输入送入三维卷积网络中，得到对应这一簇视频帧的深度特征向量，对于给定的所述视频序列，可以采用每隔8帧进行一次前述输入簇的采样，从而得到该视频序列的深度特征序列

S2、基于所述深度特征序列，采用循环神经网络作为时序分析方法计算所述视频序列中事件的提议起止区间。首先，采用长短时记忆循环神经网络(LSTM)对深度特征序列进行序列到序列的编码，得到长度与该深度特征序列相同的隐向量序列然后，对所述隐向量序列中的每一个隐向量，使用两个全连接层分别监测不同事件对应的时间戳和置信度(值在0～1之间)，得到所述事件的提议起止区间p。

S3、选定所述视频序列中需要进行描述的待描述事件，并根据所述事件的提议起止区间，对所述待描述事件在所述深度特征序列中对应的子序列进行再编码，得到所述待描述事件的描述子。待描述事件的选择，可以人工指定时间戳来选定，也可以根据上述计算的置信度，选择置信度大于某一设定阈值的时间戳来指定待描述事件。可将选定的待描述事件记为i，即“待描述事件i”指任意一个被选定的待描述事件。待描述事件i内部编码的形式化描述为其中输出代表待描述事件i的事件内描述子，为所述隐向量序列与待描述事件i的提议起止区间p_i的函数，记为F。

为了利用长期序列和短期序列，本发明采用了多个不同步长的LSTM用以编码事件内信息。根据所述视频序列的总长度和待描述事件i的提议起止区间，得到待描述事件i在所述深度特征序列V中对应的子序列，对待描述事件i所对应的子序列，采用m种步长的LSTM再次进行序列到序列的编码，得到m组隐向量和m个状态向量；将待描述事件i的m组隐向量池化至相同尺寸并沿隐向量的序列方向拼接为一组新的隐向量同时将m个状态向量取平均得到从而，得到待描述事件i的事件内描述子

根据待描述事件i的事件内描述子的将所有待描述事件按照在所述视频序列中的时间先后来排序，然后，对待描述事件i之前的事件和之后的事件分别使用不同的LSTM前向和后向地计算事件的上文和下文，并将用于前向计算的LSTM所输出的状态向量和用于后向计算的LSTM所输出的状态向量合并，作为待描述事件i的事件间描述子g_i，从而得到待描述事件i的描述子：

在一具体的实施例中，前述m取值为4，4种步长分别为1,2,4,8，采用0作为初始化步长；步骤S34中t＝32。即t＝m*q，m组隐向量池化至相同尺寸q。

S4、采用基于注意力模型的LSTM自适应解码器对所述描述子进行解码，得到用于描述所述待描述事件的自然语言。待描述事件i的描述子相对于传统方法得到的全部视频描述或单事件描述特征，维度更高。步骤S4具体包括S41～S44：

S41、在自适应解码器的第一层LSTM，对每一步的新词语生成，是通过输入所述事件内描述子的和上一步生成的单词w_k-1，得到当前步的隐向量h_k。

在实际中，不同于简单的最大池化或均值处理，本发明结合了注意力模型的思想为特征寻找一组自适应权重α_k，使得加权后的事件内特征具有与传统解码器相适应的大小。因此，步骤S42对当前步的隐向量h_k，建模为：

α_k＝softmax(a_k)

其中，a_j,k表示针对第k步输出的注意力权值中的第j个，每个注意力权值对应于中的一项；表示用于计算注意力权值的可学习参数，W_v表示从事件内描述子获取信息的参数；r_j表示事件内描述子中的各项，共n项；W_h表示针对解码器第一层LSTM输出的隐向量的可学习参数，表示解码器第一层LSTM输出的隐向量；a_k表示向量化的所有a_j,k；α_i,k表示α_k中的各项；为待描述事件i的事件内描述子各项的加权。

S43、对上述得到的通过计算来控制最终输入的事件间信息；其中，表示在第k步最终处理后的事件间描述子，σ表sigmoid函数，W_c表示针对的可学习参数，b表示一个偏移向量。

S44、将得到的和同时放入所述自适应解码器的第二层LSTM，其输出经过Softmax规范化后转化为一组词汇表的概率，该词汇表是预先确定的(任意指定一个合理的词汇表，涵盖需要生成的单词即可)；选取所述词汇表中概率最大的词语作为最终输出。不断循环步骤S41～S44，就可以得到用于描述所述待描述事件i的自然语言。对每一个选定的待描述事件，执行步骤S3的事件再编码和步骤S4，即可完成给定视频序列的多事件自然语言描述任务。

在算法的模型训练上，进行端到端训练，采用交叉熵作为损失函数优化模型的拟合：

其中，为损失函数，p_θ表示参数化的条件概率，T表示整个句子的长度，表示第k个单词，表示1～(k-1)个单词。在训练时，步骤S1及S2的事件提议部分和编-解码部分应当分两步训练。我们使用的数据集包含了视频中不同时间的标注，提议事件如果不完全与真实事件重合，则取与其重叠率最高的真实事件作为正样本。

为了验证本发明算法的有效性，我们在多事件描述任务的语境下对比研究了若干传统的视频描述方法以及Krishna等人在2017年发明的针对多事件描述的较新方法，见表1。传统方法包括用于生成多句描述的H-RNN方法、时序空间编码方法(S2VT)和时间轴平均方法(LSTM-YT)，传统方法只对比使用真实事件起止区间。这项对比用流行的Bleu(双语评价替代)、METEOR(显式位序翻译评价度量)和CIDEr(基于共识的图片描述评价)三种方法衡量了使用真实事件起止区间和提议事件起止区间两种情形下描述语言的准确性和自然度。

表1多事件视频描述任务下的语言输出对比

上表中B@z(z＝1、2、3)指代的是利用z-gram的Bleu指标，M和C分别为METEOR和CIDEr的简写。可以看出本方法效果很优。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种面向事件关系编码的视频中多事件自然语言描述算法，包括以下步骤：

2.如权利要求1所述的自然语言描述算法，其特征在于，步骤S1具体包括：

S11、对所述视频序列，取固定长度的连续的帧为一簇，以固定间隔对每一个簇采样，得到簇序列；

S12、对所述簇序列中的每一个簇，采用三维卷积神经网络提取簇的深度特征向量，得到所述视频序列的所述深度特征序列，记为其中，v₁,v₂,…,v_n为每一个簇对应的深度特征向量。

3.如权利要求2所述的自然语言描述算法，其特征在于，步骤S2具体包括：

S21、采用LSTM对所述深度特征序列进行序列到序列的编码，得到长度与所述深度特征序列相同的隐向量序列

S22、对所述隐向量序列中的每一个隐向量，使用两个全连接层分别监测不同事件对应的时间戳和置信度，得到所述事件的提议起止区间。

4.如权利要求3所述的自然语言描述算法，其特征在于，步骤S3具体包括：

S31、通过人工指定不同事件的时间戳，或者根据步骤S22中的所述置信度，取置信度大于一设定阈值的时间戳，来选定所述待描述事件；

S32、根据所述视频序列的总长度和待描述事件i的提议起止区间，得到待描述事件i在所述深度特征序列中对应的子序列；

S33、对待描述事件i所对应的子序列，采用m种步长的LSTM再次进行序列到序列的编码，得到m组隐向量和m个状态向量；

S34、将待描述事件i的m组隐向量池化至相同尺寸并沿隐向量的序列方向拼接为一组新的隐向量同时将m个状态向量取平均得到从而，得到待描述事件i的事件内描述子

S35、根据待描述事件i的事件内描述子的将所有待描述事件按照在所述视频序列中的时间先后来排序，然后，对待描述事件i之前的事件和之后的事件分别使用不同的LSTM前向和后向地计算事件的上文和下文，并将两个LSTM的前向和后向计算结果合并作为待描述事件i的事件间描述子g_i，从而得到待描述事件i的描述子：

和分别表示所述两个LSTM的状态向量，分别作为待描述事件i的上文和下文的描述子。

5.如权利要求4所述的自然语言描述算法，其特征在于，步骤S4具体包括：

S41、在自适应解码器的第一层LSTM，对每一步的新词语生成，是通过输入所述事件内描述子的和上一步生成的单词w_k-1，得到当前步的隐向量h_k；

S42、对当前步的隐向量h_k，建模为：

α_k＝softmax(a_k)

其中，a_j,k表示针对第k步输出的注意力权值中的第j个，每个注意力权值对应于中的一项；表示用于计算注意力权值的可学习参数，W_v表示从事件内描述子获取信息的参数；r_j表示事件内描述子中的各项，共n项；W_h表示针对解码器第一层LSTM输出的隐向量的可学习参数，表示解码器第一层LSTM输出的隐向量；a_k表示向量化的所有a_j,k；α_i,k表示α_k中的各项；为待描述事件i的事件内描述子各项的加权；

S43、对步骤S42得到的通过计算来控制最终输入的事件间信息；其中，表示在第k步最终处理后的事件间描述子，σ表sigmoid函数，W_c表示针对的可学习参数，b表示一个偏移向量；

S44、将得到的和同时放入所述自适应解码器的第二层LSTM，其输出经过Softmax规范化后转化为一组词汇表的概率，该词汇表是预先确定的；选取所述词汇表中概率最大的词语作为最终输出；

不断循环步骤S41至S44，得到词语序列，作为用于描述待描述事件i的自然语言。

6.如权利要求4所述的自然语言描述算法，其特征在于：步骤S33中m＝4，4种步长分别为1,2,4,8，采用0作为初始化步长；步骤S34中t＝32。

7.如权利要求1所述的自然语言描述算法，其特征在于：在算法的模型训练上，进行端到端训练，采用交叉熵作为损失函数优化模型的拟合：

其中，为损失函数，p_θ表示参数化的条件概率，T表示整个句子的长度，表示第k个单词，表示1～(k-1)个单词。