CN113779310B

CN113779310B - 一种基于层级表征网络的视频理解文本生成方法

Info

Publication number: CN113779310B
Application number: CN202111063055.3A
Authority: CN
Inventors: 高联丽; 雷雨; 曾鹏鹏; 宋井宽
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2023-06-02
Anticipated expiration: 2041-09-10
Also published as: CN113779310A

Abstract

本发明涉及视频理解技术领域，其公开了一种基于层级表征网络的视频理解文本生成方法，解决了由于视频信息的复杂性，不能很好地表示多层次概念的视频特征的问题，该方法包括：S1、视频帧特征提取；S2、对提取的视频帧特征进行多层编码，获得事件级、动作级和目标级视觉特征；S3、获取文本嵌套特征，并结合分层的视觉特征通过分层注意力机制获取分层的上下文信息；S4、根据分层的上下文信息利用语言模型生成单词，应用于视频问答任务或视频描述任务。

Description

一种基于层级表征网络的视频理解文本生成方法

技术领域

本发明涉及视频理解技术领域，具体涉及一种基于层级表征网络的视频理解文本生成方法。

背景技术

视频理解文本生成是多模态应用中的热点话题。其中视频描述和视频问答是非常重要的研究任务。视频描述旨在使用自然语言句子描述有关视频的开放域活动，而视频问答则是回答有关视频活动的问题。视频描述和视频问答任务均是在两种不同形式(视觉和语言)的信息之间进行翻译，最近受到了广泛关注[1]-[4]。因此，两个任务有着共同的挑战，即如何表示多层次的视频概念(即事件、动作和目标)以及如何获得高质量的与语言相关的视频理解。

第一个挑战是如何为上述两个任务表示多层次的视觉概念。以前的工作试图学习低级视觉特征并利用多模态表示，例如视频字幕[1]、[5]和视频问答[3]、[6]。然而，由于视频上复杂的时空动态，很难从视觉数据中识别语义概念。现有工作使用时间注意力[4]、[7]、[8]或分层编码器-解码器结构[9]-[11]来模拟复杂的时空概念，例如视频的目标关系。然而这些方法可能受限于检测任务的挑战，例如重度遮挡、小尺寸物体和长尾类。因此，最近的工作[12]、[13]利用目标之间的语义相关性和约束来作为丰富的视觉表示。

第二个挑战是如何获得高质量的与语言相关的视频理解，即生成的文本具有内容完整性和句法一致性。为了保持内容的完整性，Gao等人[2]和Wang等人[14]使用交叉视图模块或重建模块将生成的句子特征与视频描述中的视觉特征对齐。虽然生成内容的完整性有所提高，但句法结构的流畅性仍然不足。为此，有学者提出了一些语法感知方法，如：Wang等人[15]基于POS序列生成器预测生成的句子的全局句法POS(Part-Of-Speech)信息。为了处理由语言数据中的类不平衡引起的词偏差问题，Hou等人[16]捕捉高质量的语言相关视频理解。然而，高质量的语言相关视频理解离不开内容的完整性或句法的一致性。

[1]L.Yao,A.Torabi,K.Cho,N.Ballas,C.Pal,H.Larochelle,andA.Courville,“Describing videos by exploiting temporal structure,”inICCV,2015,pp.4507–4515.

[2]L.Gao,Z.Guo,H.Zhang,X.Xu,and H.T.Shen,“Video caption-ing withattention-based lstm and semantic consistency,”IEEE TMM,vol.19,no.9,pp.2045–2055,2017.

[3]J.Gao,R.Ge,K.Chen,and R.Nevatia,“Motion-appearance co-memorynetworks for video question answering,”inCVPR,2018,pp.6576–6585.

[4]D.Xu,Z.Zhao,J.Xiao,F.Wu,H.Zhang,X.He,and Y.Zhuang,“Videoquestionanswering via gradually refined attention over appearance andmotion,”inACMMM,2017,pp.1645–1653.

[5]Y.Chen,S.Wang,W.Zhang,and Q.Huang,“Less is more:Pickinginformativeframes for video captioning,”inECCV,2018,pp.358–373.

[6]E.Amrani,R.Ben-Ari,D.Rotman,and A.Bronstein,“Noise estimationusingdensity estimation for self-supervised multimodal learning,”arXivpreprintarXiv:2003.03186,2020.

[7]W.Pei,J.Zhang,X.Wang,L.Ke,X.Shen,and Y.-W.Tai,“Memory-attendedrecurrent network for video captioning,”inCVPR,2019.

[8]B.Zhao,X.Li,and X.Lu,“Cam-rnn:Co-attention model based rnnforvideo captioning,”IEEE TIP,vol.28,no.11,pp.5552–5565,2019.

[9]J.Zhang and Y.Peng,“Object-aware aggregation withbidirectionaltemporal graph for video captioning,”inCVPR,2019.

[10]N.Aafaq,N.Akhtar,W.Liu,S.Z.Gilani,and A.Mian，“Spatio-temporaldynamics and semantic attribute enriched visual encoding forvideocaptioning,”inCVPR,2019,pp.12 487–12 496.

[11]C.Fan,X.Zhang,S.Zhang,W.Wang,C.Zhang,and H.Huang,“Heterogeneousmemory enhanced multimodal attention model for videoquestion answering,”inCVPR,2019,pp.1999–2007.

[12]Z.Zhang,Y.Shi,C.Yuan,B.Li,P.Wang,W.Hu,and Z.-J.Zha,“Objectrelational graph with teacher-recommended learning for videocaptioning,”inCVPR,2020,pp.13 278–13 288.

[13]J.Hou,X.Wu,X.Zhang,Y.Qi,Y.Jia,and J.Luo,“Joint commonsenseandrelation reasoning for image and video captioning,”inAAAI,2020,pp.10 973–10980.

[14]B.Wang,L.Ma,W.Zhang,and W.Liu,“Reconstruction network forvideocaptioning,”inCVPR,2018,pp.7622–7631.

[15]B.Wang,L.Ma,W.Zhang,W.Jiang,J.Wang,and W.Liu,“Controllablevideocaptioning with pos sequence guidance based on gated fusionnetwork,”inICCV,2019,pp.2641–2650.

[16]J.Hou,X.Wu,W.Zhao,J.Luo,and Y.Jia,“Joint syntaxrepresentationlearning and visual cue translation for video captioning,”inICCV,2019,pp.8918–8927.

发明内容

本发明所要解决的技术问题是：提供一种基于层级表征网络的视频理解文本生成方法，解决了由于视频信息的复杂性，不能很好地表示多层次概念的视频特征的问题。

本发明解决上述技术问题采用的技术方案是：

一种基于层级表征网络的视频理解文本生成方法，应用于视频问答任务或视频描述任务，该方法包括以下步骤：

A、训练模型

A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取，获取视频帧特征信息，所述视频帧特征信息包括静态特征、动态特征和目标特征；

A2、将获取的视频帧特征信息输入多层级编码器，对静态特征进行均值化操作获得全局向量，作为视频帧序列V的事件级特征V_g；通过线性变换对动态特征和目标特征进行处理，对应获得视频帧序列V的动作级视觉特征V_a和目标级视觉特征V_o；

A3、对文本信息通过文本编码器进行编码，获得文本嵌套特征；

其中，针对视频问答任务，所述文本信息为输入的句子级文本信息，对句子中的各单词编码获得其词向量，并以各单词的词向量的均值作为文本嵌套特征；

针对视频描述任务，在首次迭代时，其文本信息为默认填充词，在首次迭代后，为上一步迭代中步骤A6获得的预测单词，并以该单词的词向量作为文本嵌套特征；

A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征V_g，输入注意力LSTM模型，基于注意力LSTM模型在上一步迭代获得的隐藏层信息

获得注意力LSTM模型在当前步的隐藏层信息/>

t表示当前步；在首次迭代时，所述/>

由默认初始化方法生成；

A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息

利用分层注意力网络，分别查询语言文本特征C、动作级视觉特征V_a和目标级视觉特征V_o，获得文本级上下文特征/>

动作级上下文特征/>

和目标级上下文特征信息/>

所述语言文本特征

其中，/>

表示LSTM语言模型在第m步迭代获得的细胞信息，t表示当前步；在首次迭代时，所述C由默认初始化方法生成；

A6、根据步骤A5获得的上下文特征

和/>

基于LSTM语言模型在上一步迭代获得的隐藏层信息/>

获得LSTM语言模型在当前步的隐藏层信息/>

和细胞信息/>

t表示当前步；在首次迭代时，所述/>

由默认初始化方法生成；

利用获得的LSTM语言模型在当前步的隐藏层信息

生成当前步的单词概率分布P^t，选择其中最大概率的单词，作为当前步预测的单词；

A7、基于设定的文本单词数量，判断是否完成文本生成，若完成，则进入步骤A8；若未完成，则跳转至步骤A3；在模型训练阶段，所述设定的文本单词数量为参考文本的单词数量；

A8、基于损失函数判断训练是否完成，若完成，则结束训练流程，获得完成训练的模型，若未完成，则跳转至A1；

B、基于设定的文本单词数量，利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。

具体的，所述步骤A2包括：

A21、通过对静态特征进行均值池化操作，获得全局视觉向量，作为视频帧序列的事件级特征V_g：

其中，

表示第i帧的静态特征，N表示视频帧序列的帧数；

A22、通过线性变换对动态特征和目标特征进行处理，对应获得视频帧序列的动作级视觉特征V_a和目标级视觉特征V_o：

其中，V_x为V_a、V_o的统一表示，

为/>

的统一表示，/>

为/>

的统一表示，x∈{a,o}，a代表动作级，o代表目标级；/>

表示第i帧的动作级视觉特征，/>

表示第i帧的目标级视觉表征，/>

表示第i帧的动态特征，/>

表示第i帧的目标特征，N表示视频帧序列的帧数，W_x是可学习的视觉嵌套参数。

具体的，所述步骤A4中，给定：

其中，LSTM_att表示注意力LSTM模型，[；]代表拼接操作，w^t-1表示文本嵌套特征，V_g表示事件级特征，W_d是可学习的单词嵌套参数，t表示当前步。

具体的，所述步骤A5中，给定：

Att(k,q)＝softmax(AF(k,q))k

其中，Att(k,q)为注意力机制的通用表达形式，AF(k,q)表示Att(k,q)的权重计算，k表示key，q表示query，W₁、W₂、W₃是可学习的参数，

分别表示文本注意力机制、动作注意力机制、目标注意力机制，t表示当前步。

具体的，所述步骤A6中，给定：

其中，LSTM_lang表示LSTM语言模型；W_z，b_z是网络可学习参数，t表示当前步。

作为一种优选，在步骤A6中，根据当前步获得的单词概率分布P^t，计算交叉熵损失函数

并给定：

在步骤A8中，通过在本轮训练中各步迭代的步骤A6获得的

生成损失函数L_CE，并给定：

其中，L表示设定的文本单词数量。

进一步的，针对视频问答任务和视频描述任务，在模型训练阶段，在所述步骤A2中，建立跨模态匹配任务，所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数，其根据输入的视觉特征检索对应的文本特征，获得视觉特征与文本特征匹配结果，并根据匹配结果获得对比损失函数L_M；其中，所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征，所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征；

针对视频描述任务，在模型训练阶段，在所述步骤A5中，建立语法引导任务，所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数，其根据输入的上下文特征预测当前步所生成单词的词性，并根据预测的词性结果，以参考文本中第t个单词的词性作为监督信息，获得当前步的KL散度损失函数

所述上下文特征为步骤A5中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征；在步骤A8中，通过在本轮训练中各步迭代的语法引导任务获得的/>

生成损失函数L_S，并给定：/>

其中，L表示设定的文本单词数量，t表示当前步；

在步骤A6中，根据当前步获得的单词概率分布P^t，计算交叉熵损失函数

在步骤A8中，通过在本轮训练中各步迭代的步骤A6获得的/>

生成损失函数L_CE，并给定：/>

其中，L表示设定的文本单词数量，t表示当前步；

针对视频问答任务和视频描述任务，在模型训练阶段，在所述步骤A8中，建立视觉辅助任务，所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数，其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息，对视觉信息进行重构，并对重构的视觉信息，以步骤A1获得的静态特征作为监督信息，获得距离损失函数L_V；

在步骤A8中，结合各损失函数构成本轮训练迭代的损失函数，并给定：

针对视频描述任务：L_total＝L_M+L_S+L_V+L_CE

针对视频问答任务：L_total＝L_M+L_V+L_CE。

具体的，所述跨模态匹配任务，包括如下步骤：

M1、基于语义图工具，对参考文本进行解析，分别生成事件级文本特征

动作级文本特征/>

目标级文本特征/>

M2、基于以下公式进行跨模态匹配：

/>

其中，

为/>

的统一表示，/>

为V_g、/>

和/>

的统一表示；/>

为/>

的统一表示，/>

为/>

的统一表示，/>

为/>

的统一表示，x∈{a,o}，a代表动作级，o代表目标级；[·]₊≡max(·,0),α是超参数，/>

表示第i帧视频与第j个文本信息的相似度，

表示第i帧视频与第j个文本信息的权重，/>

为匹配分数；

M3、根据如下公式进行损失函数计算：

L_M是跨模态匹配任务的对比损失函数，Δ是一个预定义的间隔，[·]^+/-代表对于视频和文本对的正负采样，

和/>

代表负样本对的匹配分数，/>

代表正样本对的匹配分数。

具体的，所述语法引导任务，包括如下步骤：

N1、针对分层注意力网络在当前步所生成的文本级上下文特征

动作级上下文特征/>

和目标级上下文特征/>

按如下公式进行计算：

其中，

为/>

的统一表示，/>

为/>

的统一表示，x∈{g,a,o}，g、a、o分别对应各上下文特征的下标，/>

为单词的词性，G表示一个取值范围在0至1的均匀采样噪声，τ是一个超参数；

N2、根据如下公式进行当前步的损失函数计算：

其中，KLD表示KL散度，

是参考文本的语法标签，one_hot是对标签的硬编码方式，t表示当前步。

具体的，所述视觉辅助任务，包括如下步骤：

V1、基于以下公式，对视觉信息进行重构：

其中，

表示在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息，LSTM_V表示视觉LSTM模型，/>

是LSTM_V在第i步的隐藏层信息，迭代次数为N，N为视频帧序列的帧数；在首次迭代时，所述/>

由默认初始化方法生成；/>

V2、根据如下公式进行损失函数计算：

其中，

是欧式距离，/>

是步骤A1中提取的视频帧的静态特征。

本发明的有益效果是：本发明提出了一种基于层级表征网络的新型端到端框架，利用分层表示，从多个层次来获取特征信息，可以更加细腻的表征视频特征，解决由于视频信息的复杂性，不能很好地表示多层次概念的视频特征的问题。

具体的讲，本发明的层级表征网络包含两个模块：一、层级编码模块，包括视觉特征提取器和多层级编码器，用以提取多层级视觉概念；二、文本生成模块，其由分层注意力网络和LSTM语言模型组成，其基于分层注意力网络，根据多层级视觉概念获取多层级的上下文信息，基于LSTM语言模型，根据多层级的上下文信息生成相关语言描述。

而进一步的，本发明的层级表征网络，在模型训练过程中，引入了三个辅助任务：跨模态匹配任务、语法引导任务和视觉辅助任务。其中，跨模态匹配任务能改进视觉表征效果，语法引导任务和视觉辅助任务，则是鼓励语言生成不仅与视频内容相似，而且语法与真实描述一致。因此，能进一步促进高质量的语言相关视频理解，获得内容完整和句法一致的语言生成。

附图说明

图1为实施例中的基于层级表征网络的视频理解文本生成方法的原理框架图；

图2为实施例中的基于层级表征网络的视频理解文本生成方法的训练流程图；

图3为实施例中的基于层级表征网络的视频理解文本生成方法的测试流程图；

图4为用于视频描述任务验证的视频帧序列；

图5为用于视频问答任务验证的视频帧序列。

具体实施方式

本发明旨在提出一种基于层级表征网络的视频理解文本生成方法，解决由于视频信息的复杂性，不能很好地表示多层次概念的视频特征以及在高质量的语言相关视频理解中，内容完整性和句法一致性不足的问题。该方法包括以下步骤：

A、训练模型

获得注意力LSTM模型在当前步的隐藏层信息/>

t表示当前步；在首次迭代时，所述/>

由默认初始化方法生成；

A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息

动作级上下文特征/>

和目标级上下文特征信息/>

所述语言文本特征

其中，/>

A6、根据步骤A5获得的上下文特征

和/>

基于LSTM语言模型在上一步迭代获得的隐藏层信息/>

获得LSTM语言模型在当前步的隐藏层信息/>

和细胞信息/>

t表示当前步；在首次迭代时，所述/>

由默认初始化方法生成；

利用获得的LSTM语言模型在当前步的隐藏层信息

如上所述，该方法的层级表征网络包含两个模块：

一、层级编码模块，如图1(A)所示，包括视觉特征提取器和多层级编码器，用以提取多层级视觉概念；

二、文本生成模块，如图1(B)所示，其由分层注意力网络和LSTM语言模型组成，其基于分层注意力网络，根据多层级视觉概念获取多层级的上下文信息，基于LSTM语言模型，根据多层级的上下文信息生成相关语言描述。

同时，如图2所示，在模型训练阶段，整体流程又包括两层迭代，每一轮的外层迭代均包含多步的内层迭代：所述外层迭代也即训练迭代，每轮迭代表示使用训练集的数据进行一轮训练；所述内层迭代，也即文本生成模块的迭代，每一步的迭代生成一个单词，迭代次数为设定的文本单词数量，所述文本单词数量也即最终输出的句子长度(单词数量)。

由于在训练过程中，需要基于参考文本进行监督学习，因此，在模型训练阶段，设定的文本单词数量为参考文本的单词数量。上述的监督信息为参考文本的对应单词，也即，参考文本中的第t个单词，t表示当前内层迭代的步数，也即当前步。上述参考文本也即训练任务的参考答案，在如图所示的实例中，具体是指训练集中视频帧序列的标签文本。

而在测试阶段及实际应用中，设定的文本单词数量按需设置，对于视频描述任务，就是输入视频，利用本发明的方法生成一句长度为设定的文本单词数量的可读的句子；对于视频问答任务，就是输入视频与其对应问题语句，利用本发明的方法生成对应问题的回答语句，回答语句的长度为设定的文本单词数量。

进一步的，为了能进一步促进高质量的语言相关视频理解，获得内容完整和句法一致的语言生成，在训练阶段，引入了如下的辅助任务，并对模型进行联合训练：

如图1(C)所示，针对视频问答任务和视频描述任务，在模型训练阶段，在所述步骤A2中，建立跨模态匹配任务，所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数，其根据输入的视觉特征检索对应的文本特征，获得视觉特征与文本特征匹配结果，并根据匹配结果获得对比损失函数L_M；其中，所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征，所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征；

如图1(D)所示，针对视频描述任务，在模型训练阶段，在所述步骤A5中，建立语法引导任务，所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数，其根据输入的上下文特征预测当前步所生成单词的词性，并根据预测的词性结果，以参考文本中第t个单词的词性作为监督信息，获得当前步的KL散度损失函数

生成损失函数L_S，并给定：

其中，L表示设定的文本单词数量，t表示当前步；

在步骤A8中，通过在本轮训练中各步迭代的步骤A6获得的/>

生成损失函数L_CE，并给定：/>

其中，L表示设定的文本单词数量，t表示当前步；

如图1(E)所示，针对视频问答任务和视频描述任务，在模型训练阶段，在所述步骤A8中，建立视觉辅助任务，所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数，其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息，对视觉信息进行重构，并对重构的视觉信息，以步骤A1获得的静态特征作为监督信息，获得距离损失函数L_V；

针对视频描述任务：L_total＝L_M+L_S+L_V+L_CE

针对视频问答任务：L_total＝L_M+L_V+L_CE。

上述的辅助任务，主要针对模型的训练，在测试阶段和实际应用中，并不执行。

实施例：

本实施例的基于层级表征网络和辅助任务的视频理解文本生成方法，原理框架如图1所示，其模型训练阶段，如图2所示，包括以下步骤：

S1、视频帧特征提取：

本步骤中，通过视觉特征提取器对输入的视频帧序列进行特征提取，获取视频帧特征信息，所述视频帧特征信息包括静态特征、动态特征和目标特征。

具体而言，使用视觉特征提取器可以生成多种特征，包括静态特征、动作特征和目标特征，给定：

其中，CNN代表视觉特征提取器，V表示视频帧序列，N表示视频帧序列的帧数，

表示获第i帧的静态特征，/>

表示第i帧的动态特征，/>

表示第i帧的目标特征；所述

统一表示为/>

x∈{a,o}，a代表动作级，o代表目标级。

S2、对提取的视频帧特征进行多层编码获得事件级、动作级和目标级视觉特征：

本步骤中，将步骤S1获取的视频帧特征信息输入多层级编码器，对静态特征进行均值化操作获得全局向量，作为视频帧序列V的事件级特征V_g；通过线性变换对动态特征和目标特征进行处理，对应获得视频帧序列V的动作级视觉特征V_a和目标级视觉特征V_o。具体而言，本步骤通过以下子步骤实现：

S21、通过对静态特征进行均值池化操作，获得全局视觉向量，作为事件级特征V_g：

通过对线性变换对动态特征和目标特征进行处理，对应获得动作级视觉特征和目标级视觉特征：

其中，V_g是事件级特征，

是第i帧的动作级视觉特征，/>

是第i帧的目标级视觉表征，V_a是视频帧序列的动作级视觉特征，V_o是视频帧序列的目标级视觉特征，W_x是可学习的视觉嵌套参数；所述/>

统一表示为/>

所述V_a、V_o统一表示为V_x，x∈{a,o}，a代表动作级，o代表目标级。

S22、针对视频问答任务和视频描述任务，在模型训练阶段，建立跨模态匹配任务，所述跨模态匹配任务与多层级编码器共享可学习参数W_x，其根据输入的视觉特征检索对应的文本特征，获得视觉特征与文本特征匹配结果，并根据匹配结果获得对比损失函数L_M；其中，所述视觉特征为上述步骤中获得的事件级特征、动作级视觉特征和目标级视觉特征，所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征，包括如下步骤：

S221、基于Spacy Tagging的语义图工具，对参考文本进行解析，分别生成事件级文本特征

动作级文本特征/>

目标级文本特征/>

所述/>

统一表示为/>

x∈{a,o}

S222、所述

统一表示为/>

所述V_g、/>

和/>

统一表示为/>

并基于以下公式进行跨模态匹配：

使用三种层级的特征，分别进行全局匹配s_g和局部匹配s_x的计算；在同一层级中，语义相近的文本特征和视觉特征相互关联，进而训练视觉特征表达高级语义信息。具体来说，就是对于输入的视觉特征去检索对应的文本特征，输出最终的匹配分数

其中，[·]₊≡max(·,0),α是超参数，

表示第i帧视频与第j个文本信息的相似度，/>

表示第i帧视频与第j个文本信息的权重，x∈{a,o}，a代表动作级，o代表目标级。

S223、对于步骤S222获得的匹配分数，根据如下公式进行损失函数计算：

和/>

代表负样本对的匹配分数，/>

代表正样本对的匹配分数；

S3、获取文本嵌套特征，并结合分层的视觉特征通过分层注意力机制获取上下文信息：

本步骤中，对文本信息通过文本编码器进行编码，获得文本嵌套特征，根据所述文本嵌套特征以及步骤S2获取的事件级特征、动作级视觉特征和目标级视觉特征，利用分层注意力网络获取文本级上下文特征、动作级上下文特征和目标级上下文特征。具体而言，包括以下子步骤：

S31、对于文本信息通过文本编码器word2vec进行编码。

特别地，针对视频问答任务，所述文本信息为输入的句子级文本信息，对句子中的各单词编码获得其词向量，并以各单词的词向量的均值作为文本嵌套特征w^t-1。

针对视频描述任务，采用上一步迭代中LSTM语言模型预测的单词，并以该单词的词向量作为文本嵌套特征w^t-1。由于，在首次迭代时，并不存在上一步迭代中LSTM语言模型预测的单词，因此，在首次迭代时，文本信息为默认填充词，具体的，在实施例中采用LSTM网络(长短期记忆循环神经网络)的起始标志“BOS”作为默认填充词，通常对“BOS”取1作为文本编码器的输入。

S32、对步骤S31获得的文本嵌套特征和步骤S21获得的视觉特征，通过注意力LSTM进行多特征融合，为了区分本发明中多个LSTM网络，对本步骤中的注意力LSTM称为注意力LSTM模型，符号为LSTM_att，具体包括：

拼接文本嵌套特征w^t-1及步骤S21获取的事件级特征V_g，输入注意力LSTM模型，基于注意力LSTM模型在上一步迭代获得的隐藏层信息

获得注意力LSTM模型在当前步的隐藏层信息/>

具体为：

其中，LSTM_att表示注意力LSTM模型，[；]代表拼接操作，W_d是可学习的单词嵌套参数。

由于，在首次迭代时，并不存在注意力LSTM模型在上一步的隐藏层信息

因此，在首次迭代时，初始的隐藏层信息，默认采用Xavier初始化方法生成。

S33、对步骤S32中获得的注意力LSTM模型在当前步的隐藏层信息

通过分层注意力网络生成上下文特征，本实施例中的分层注意力网络包括文本注意力机制/>

动作注意力机制/>

和目标注意力机制/>

具体的，根据以下公式，获得文本级上下文特征

动作级上下文特征/>

和目标级上下文特征/>

Att(k,q)＝softmax(AF(k,q))k

其中，Att(k,q)为注意力机制的通用表达形式，k表示key，q表示query，Att(k,q)代表对于不同的q访问k时，对于k的关注层度。例如：

即表示/>

去访问V_a，代表当前步t的隐藏层信息/>

对于V_a的一个关注度，最后的输出/>

数学意义就是一个加权平均值。AF(k,q)则表示Att(k,q)的权重计算，也即：对于输入的k和q，经过线性变换之后，通过tanh函数处理，再通过/>

线性变换，W₁、W₂、W₃是可学习的参数。

具体而言，也即使用

去访问视频帧序列的动作级视觉特征V_a和目标级视觉特征V_o以及和语言文本特征C，分别获得文本级上下文特征/>

动作级上下文特征/>

和目标级上下文特征/>

上述的语言文本特征C，基于LSTM语言模型的历史细胞状态，其中，/>

表示LSTM语言模型在第m步迭代获得的细胞信息，t表示当前步。由于，在首次迭代时，并不存在LSTM语言模型的历史细胞状态，因此，在首次迭代时，初始的语言文本特征，默认采用Xavier初始化方法生成。

S34、针对视频描述任务，在模型训练阶段，建立语法引导任务，所述语法引导任务与分层注意力网络共享可学习参数W₁、W₂、W₃，其根据输入的上下文特征预测当前步所生成单词的词性，并根据预测的词性结果，以参考文本中第t个单词的词性作为监督信息，获得当前步的KL散度损失函数

所述上下文特征为上述步骤中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征，具体包括如下步骤：

S341、针对分层注意力网络在当前步所生成的文本级上下文特征

动作级上下文特征/>

和目标级上下文特征/>

按如下公式进行计算，根据输入的上下文特征，通过Gumbel softmax函数预测当前步所生成单词的词性，是动词、名词还是其他词性：

其中，

统一表示为/>

统一表示为/>

x∈{g,a,o}，g、a、o分别对应各上下文特征的下标，/>

为单词的词性，G表示一个取值范围在0至1的均匀采样噪声，τ是一个超参数，代表温度参数，控制Gumbel softmax的强度；通过Gumbel Softmax函数获得的词性结果/>

是0和1的实值。

S342、根据如下公式进行损失函数计算：

其中，KLD(Kullback-Leibler divergence)表示KL散度，

是参考文本的语法标签，t表示当前步，也即参考文本的第t个单词的语法标签，使用Spacy Tagging进行标注，one_hot是对标签的硬编码方式。

具体而言，上述损失函数，也即对预测的当期步的词性结果

使用KL散度损失函数进行约束，使用参考文本中对应单词的词性作为监督标签，进行监督学习。

S4、根据分层的上下文信息利用语言模型生成单词：

本步骤中，根据所述文本级上下文特征、动作级上下文特征和目标级上下文特征，利用LSTM语言模型生成当前步的单词。为了区分本发明中多个LSTM网络，对本步骤中的注意力LSTM称为LSTM语言模型，符号为LSTM_lang。在具体实现上，包括以下子步骤：

S41、拼接步骤S3获取的文本级上下文特征

动作级上下文特征/>

和目标级上下文特征信息/>

输入LSTM语言模型，基于LSTM语言模型在上一步的隐藏层信息/>

获得LSTM语言模型在当前步的隐藏层信息/>

和细胞信息/>

并通过softmax函数获得当前步的单词概率分布：

其中，LSTM_lang表示LSTM语言模型；W_z，b_z是网络可学习参数；P^t是一个词汇表向量，表示对于当前词汇表中的每个单词在当前步中被选择的概率值，每个词汇的概率值在0-1之间。

选择其中最大概率的单词，作为当前步预测的单词。

由于，在首次迭代时，并不存在LSTM语言模型在上一步的隐藏层信息

S42、对于步骤S41中获得的单词概率分布，进行监督学习，使用交叉熵损失作为目标函数，监督信息为参考文本的对应单词，并给定：

S5、在完成步骤S4后，即判断是否完成本轮训练，若完成则进入步骤S6，若未完成则跳转至步骤S3进入下一步迭代。

S6、根据损失函数判断是否完成训练，若完成则获得完成训练的模型，若未完成则跳转至步骤S1进入下一轮训练，包括如下步骤：

S61、针对视频问答任务和视频描述任务，在模型训练阶段，建立视觉辅助任务，所述视觉辅助任务与LSTM语言模型共享可学习参数W_z，b_z，其根据在本轮训练中各步迭代的步骤S4获得的LSTM语言模型的隐藏层信息，对视觉信息进行重构，并对重构的视觉信息，以步骤S1获得的静态特征作为监督信息，获得距离损失函数L_V，包括如下步骤：

S611、根据LSTM语言模型在每一步迭代生成的隐藏层信息，基于以下公式对视觉信息进行重构：

其中，

表示在本轮训练中各步迭代的步骤S4获得的LSTM语言模型的隐藏层信息，LSTM_V表示视觉LSTM模型，/>

由默认初始化方法生成。

也即把LSTM_lang的

信息看作与视频信息语义一致的信息，把这个信息作为该任务的输入，分别通过一层新的注意力机制/>

和LSTM_V，获得重构的视觉信息/>

S612、根据如下公式进行损失函数计算：

其中，

是欧式距离，/>

是步骤S1中提取的视频帧的静态特征，N代表帧数。

也即把重构的视觉信息

和步骤S1中提取的视频帧的静态特征/>

进行对比，通过欧氏距离来进行约束，获得生成文本内容上与视觉内容上的一致性。

S62、通过在本轮训练中各步迭代的步骤S4获得的

生成损失函数L_CE，并给定：

其中，L表示设定的文本单词数量，t表示当前步

通过在本轮训练中各步迭代的语法引导任务获得的

生成损失函数L_S，并给定：/>

其中，L表示设定的文本单词数量，t表示当前步。

S63、采用联合训练的方法，基于损失函数L_total判断训练是否完成，若完成，则结束训练流程，获得完成训练的模型，若未完成，则跳转至S1，并给定：

针对视频描述任务：L_total＝L_M+L_S+L_V+L_CE

针对视频问答任务：L_total＝L_M+L_V+L_CE

在完成模型训练后，即可利用完成训练的模型对视频问答任务或视频描述任务进行文本生成，流程如图3所示。

测试：

测试条件：系统：Ubuntu 18.04，软件：Python 3.6，处理器：Intel Xeon(R)CPUE5-2620v4@2.10GHz×2，内存：256GB。

视频描述任务测试，输入的视频帧序列如图4所示，结果如下：

GT：a man is being held up by a crowd of people who are cheering

Ours：a group of people are cheering at a concert while a man is crowd surfing

上述GT表示数据集给出的参考文本，Ours表示基于上述实施例获得的最终模型。下划线部分文字代表生成了较好的内容。根据实验结果可以看到，本方案生成的视频描述文本，内容具有丰富且准确信息，并很好地保存了语义一致性。

视频问答任务测试，输入的视频帧序列如图5所示，结果如下：

Q：who is throwing a ball at a puppy？

GT:girl

Ours:girl

上述GT表示数据集给出的参考文本，Ours表示基于上述实施例获得的最终模型。根据实验结果可以看到，本方案生成的模型,能得到具体准确的回答(girl)，而不是简单笼统的(woman、man)这样的答案。

Claims

1.一种基于层级表征网络的视频理解文本生成方法，应用于视频问答任务或视频描述任务，该方法包括以下步骤：

A、训练模型

获得注意力LSTM模型在当前步的隐藏层信息/>

t表示当前步；在首次迭代时，所述/>

由默认初始化方法生成；

A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息

动作级上下文特征/>

和目标级上下文特征信息/>

所述语言文本特征

其中，/>

A6、根据步骤A5获得的上下文特征

和/>

基于LSTM语言模型在上一步迭代获得的隐藏层信息/>

获得LSTM语言模型在当前步的隐藏层信息/>

和细胞信息/>

t表示当前步；在首次迭代时，所述/>

由默认初始化方法生成；

利用获得的LSTM语言模型在当前步的隐藏层信息

2.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法，其特征在于，所述步骤A2包括：

其中，

表示第i帧的静态特征，N表示视频帧序列的帧数；

其中，V_x为V_a、V_o的统一表示，

为/>

的统一表示，/>

为/>

的统一表示，x∈{a,o}，a代表动作级，o代表目标级；/>

表示第i帧的动作级视觉特征，/>

表示第i帧的目标级视觉表征，/>

表示第i帧的动态特征，/>

3.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法，其特征在于，所述步骤A4中，给定：

4.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法，其特征在于，所述步骤A5中，给定：

Att(k,q)＝softmax(AF(k,q))k

5.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法，其特征在于，

所述步骤A6中，给定：

/>

6.如权利要求1、2、3、4或5所述的一种基于层级表征网络的视频理解文本生成方法，其特征在于，

并给定：

在步骤A8中，通过在本轮训练中各步迭代的步骤A6获得的

生成损失函数L_CE，并给定：

其中，L表示设定的文本单词数量。

7.如权利要求1、2、3、4或5所述的一种基于层级表征网络的视频理解文本生成方法，其特征在于，

针对视频问答任务和视频描述任务，在模型训练阶段，在所述步骤A2中，建立跨模态匹配任务，所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数，其根据输入的视觉特征检索对应的文本特征，获得视觉特征与文本特征匹配结果，并根据匹配结果获得对比损失函数L_M；其中，所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征，所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征；