CN113779310B - 一种基于层级表征网络的视频理解文本生成方法 - Google Patents

一种基于层级表征网络的视频理解文本生成方法 Download PDF

Info

Publication number
CN113779310B
CN113779310B CN202111063055.3A CN202111063055A CN113779310B CN 113779310 B CN113779310 B CN 113779310B CN 202111063055 A CN202111063055 A CN 202111063055A CN 113779310 B CN113779310 B CN 113779310B
Authority
CN
China
Prior art keywords
text
video
level
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111063055.3A
Other languages
English (en)
Other versions
CN113779310A (zh
Inventor
高联丽
雷雨
曾鹏鹏
宋井宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111063055.3A priority Critical patent/CN113779310B/zh
Publication of CN113779310A publication Critical patent/CN113779310A/zh
Application granted granted Critical
Publication of CN113779310B publication Critical patent/CN113779310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明涉及视频理解技术领域,其公开了一种基于层级表征网络的视频理解文本生成方法,解决了由于视频信息的复杂性,不能很好地表示多层次概念的视频特征的问题,该方法包括:S1、视频帧特征提取;S2、对提取的视频帧特征进行多层编码,获得事件级、动作级和目标级视觉特征;S3、获取文本嵌套特征,并结合分层的视觉特征通过分层注意力机制获取分层的上下文信息;S4、根据分层的上下文信息利用语言模型生成单词,应用于视频问答任务或视频描述任务。

Description

一种基于层级表征网络的视频理解文本生成方法
技术领域
本发明涉及视频理解技术领域,具体涉及一种基于层级表征网络的视频理解文本生成方法。
背景技术
视频理解文本生成是多模态应用中的热点话题。其中视频描述和视频问答是非常重要的研究任务。视频描述旨在使用自然语言句子描述有关视频的开放域活动,而视频问答则是回答有关视频活动的问题。视频描述和视频问答任务均是在两种不同形式(视觉和语言)的信息之间进行翻译,最近受到了广泛关注[1]-[4]。因此,两个任务有着共同的挑战,即如何表示多层次的视频概念(即事件、动作和目标)以及如何获得高质量的与语言相关的视频理解。
第一个挑战是如何为上述两个任务表示多层次的视觉概念。以前的工作试图学习低级视觉特征并利用多模态表示,例如视频字幕[1]、[5]和视频问答[3]、[6]。然而,由于视频上复杂的时空动态,很难从视觉数据中识别语义概念。现有工作使用时间注意力[4]、[7]、[8]或分层编码器-解码器结构[9]-[11]来模拟复杂的时空概念,例如视频的目标关系。然而这些方法可能受限于检测任务的挑战,例如重度遮挡、小尺寸物体和长尾类。因此,最近的工作[12]、[13]利用目标之间的语义相关性和约束来作为丰富的视觉表示。
第二个挑战是如何获得高质量的与语言相关的视频理解,即生成的文本具有内容完整性和句法一致性。为了保持内容的完整性,Gao等人[2]和Wang等人[14]使用交叉视图模块或重建模块将生成的句子特征与视频描述中的视觉特征对齐。虽然生成内容的完整性有所提高,但句法结构的流畅性仍然不足。为此,有学者提出了一些语法感知方法,如:Wang等人[15]基于POS序列生成器预测生成的句子的全局句法POS(Part-Of-Speech)信息。为了处理由语言数据中的类不平衡引起的词偏差问题,Hou等人[16]捕捉高质量的语言相关视频理解。然而,高质量的语言相关视频理解离不开内容的完整性或句法的一致性。
[1]L.Yao,A.Torabi,K.Cho,N.Ballas,C.Pal,H.Larochelle,andA.Courville,“Describing videos by exploiting temporal structure,”inICCV,2015,pp.4507–4515.
[2]L.Gao,Z.Guo,H.Zhang,X.Xu,and H.T.Shen,“Video caption-ing withattention-based lstm and semantic consistency,”IEEE TMM,vol.19,no.9,pp.2045–2055,2017.
[3]J.Gao,R.Ge,K.Chen,and R.Nevatia,“Motion-appearance co-memorynetworks for video question answering,”inCVPR,2018,pp.6576–6585.
[4]D.Xu,Z.Zhao,J.Xiao,F.Wu,H.Zhang,X.He,and Y.Zhuang,“Videoquestionanswering via gradually refined attention over appearance andmotion,”inACMMM,2017,pp.1645–1653.
[5]Y.Chen,S.Wang,W.Zhang,and Q.Huang,“Less is more:Pickinginformativeframes for video captioning,”inECCV,2018,pp.358–373.
[6]E.Amrani,R.Ben-Ari,D.Rotman,and A.Bronstein,“Noise estimationusingdensity estimation for self-supervised multimodal learning,”arXivpreprintarXiv:2003.03186,2020.
[7]W.Pei,J.Zhang,X.Wang,L.Ke,X.Shen,and Y.-W.Tai,“Memory-attendedrecurrent network for video captioning,”inCVPR,2019.
[8]B.Zhao,X.Li,and X.Lu,“Cam-rnn:Co-attention model based rnnforvideo captioning,”IEEE TIP,vol.28,no.11,pp.5552–5565,2019.
[9]J.Zhang and Y.Peng,“Object-aware aggregation withbidirectionaltemporal graph for video captioning,”inCVPR,2019.
[10]N.Aafaq,N.Akhtar,W.Liu,S.Z.Gilani,and A.Mian,“Spatio-temporaldynamics and semantic attribute enriched visual encoding forvideocaptioning,”inCVPR,2019,pp.12 487–12 496.
[11]C.Fan,X.Zhang,S.Zhang,W.Wang,C.Zhang,and H.Huang,“Heterogeneousmemory enhanced multimodal attention model for videoquestion answering,”inCVPR,2019,pp.1999–2007.
[12]Z.Zhang,Y.Shi,C.Yuan,B.Li,P.Wang,W.Hu,and Z.-J.Zha,“Objectrelational graph with teacher-recommended learning for videocaptioning,”inCVPR,2020,pp.13 278–13 288.
[13]J.Hou,X.Wu,X.Zhang,Y.Qi,Y.Jia,and J.Luo,“Joint commonsenseandrelation reasoning for image and video captioning,”inAAAI,2020,pp.10 973–10980.
[14]B.Wang,L.Ma,W.Zhang,and W.Liu,“Reconstruction network forvideocaptioning,”inCVPR,2018,pp.7622–7631.
[15]B.Wang,L.Ma,W.Zhang,W.Jiang,J.Wang,and W.Liu,“Controllablevideocaptioning with pos sequence guidance based on gated fusionnetwork,”inICCV,2019,pp.2641–2650.
[16]J.Hou,X.Wu,W.Zhao,J.Luo,and Y.Jia,“Joint syntaxrepresentationlearning and visual cue translation for video captioning,”inICCV,2019,pp.8918–8927.
发明内容
本发明所要解决的技术问题是:提供一种基于层级表征网络的视频理解文本生成方法,解决了由于视频信息的复杂性,不能很好地表示多层次概念的视频特征的问题。
本发明解决上述技术问题采用的技术方案是:
一种基于层级表征网络的视频理解文本生成方法,应用于视频问答任务或视频描述任务,该方法包括以下步骤:
A、训练模型
A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征;
A2、将获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo
A3、对文本信息通过文本编码器进行编码,获得文本嵌套特征;
其中,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征;
针对视频描述任务,在首次迭代时,其文本信息为默认填充词,在首次迭代后,为上一步迭代中步骤A6获得的预测单词,并以该单词的词向量作为文本嵌套特征;
A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征Vg,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息
Figure BDA0003257143230000031
获得注意力LSTM模型在当前步的隐藏层信息/>
Figure BDA0003257143230000032
t表示当前步;在首次迭代时,所述/>
Figure BDA0003257143230000033
由默认初始化方法生成;
A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息
Figure BDA0003257143230000034
利用分层注意力网络,分别查询语言文本特征C、动作级视觉特征Va和目标级视觉特征Vo,获得文本级上下文特征/>
Figure BDA0003257143230000035
动作级上下文特征/>
Figure BDA0003257143230000036
和目标级上下文特征信息/>
Figure BDA0003257143230000037
所述语言文本特征
Figure BDA0003257143230000038
其中,/>
Figure BDA0003257143230000039
表示LSTM语言模型在第m步迭代获得的细胞信息,t表示当前步;在首次迭代时,所述C由默认初始化方法生成;
A6、根据步骤A5获得的上下文特征
Figure BDA0003257143230000041
和/>
Figure BDA0003257143230000042
基于LSTM语言模型在上一步迭代获得的隐藏层信息/>
Figure BDA0003257143230000043
获得LSTM语言模型在当前步的隐藏层信息/>
Figure BDA0003257143230000044
和细胞信息/>
Figure BDA0003257143230000045
t表示当前步;在首次迭代时,所述/>
Figure BDA0003257143230000046
由默认初始化方法生成;
利用获得的LSTM语言模型在当前步的隐藏层信息
Figure BDA0003257143230000047
生成当前步的单词概率分布Pt,选择其中最大概率的单词,作为当前步预测的单词;
A7、基于设定的文本单词数量,判断是否完成文本生成,若完成,则进入步骤A8;若未完成,则跳转至步骤A3;在模型训练阶段,所述设定的文本单词数量为参考文本的单词数量;
A8、基于损失函数判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至A1;
B、基于设定的文本单词数量,利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。
具体的,所述步骤A2包括:
A21、通过对静态特征进行均值池化操作,获得全局视觉向量,作为视频帧序列的事件级特征Vg
Figure BDA0003257143230000048
其中,
Figure BDA0003257143230000049
表示第i帧的静态特征,N表示视频帧序列的帧数;
A22、通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列的动作级视觉特征Va和目标级视觉特征Vo
Figure BDA00032571432300000410
Figure BDA00032571432300000411
其中,Vx为Va、Vo的统一表示,
Figure BDA00032571432300000412
为/>
Figure BDA00032571432300000413
的统一表示,/>
Figure BDA00032571432300000414
为/>
Figure BDA00032571432300000415
的统一表示,x∈{a,o},a代表动作级,o代表目标级;/>
Figure BDA00032571432300000416
表示第i帧的动作级视觉特征,/>
Figure BDA00032571432300000417
表示第i帧的目标级视觉表征,/>
Figure BDA00032571432300000418
表示第i帧的动态特征,/>
Figure BDA00032571432300000419
表示第i帧的目标特征,N表示视频帧序列的帧数,Wx是可学习的视觉嵌套参数。
具体的,所述步骤A4中,给定:
Figure BDA00032571432300000420
其中,LSTMatt表示注意力LSTM模型,[;]代表拼接操作,wt-1表示文本嵌套特征,Vg表示事件级特征,Wd是可学习的单词嵌套参数,t表示当前步。
具体的,所述步骤A5中,给定:
Figure BDA0003257143230000051
Att(k,q)=softmax(AF(k,q))k
Figure BDA0003257143230000052
Figure BDA0003257143230000053
Figure BDA0003257143230000054
其中,Att(k,q)为注意力机制的通用表达形式,AF(k,q)表示Att(k,q)的权重计算,k表示key,q表示query,W1、W2、W3是可学习的参数,
Figure BDA0003257143230000055
分别表示文本注意力机制、动作注意力机制、目标注意力机制,t表示当前步。
具体的,所述步骤A6中,给定:
Figure BDA0003257143230000056
Figure BDA0003257143230000057
其中,LSTMlang表示LSTM语言模型;Wz,bz是网络可学习参数,t表示当前步。
作为一种优选,在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数
Figure BDA0003257143230000058
并给定:
Figure BDA0003257143230000059
在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的
Figure BDA00032571432300000510
生成损失函数LCE,并给定:
Figure BDA00032571432300000511
其中,L表示设定的文本单词数量。
进一步的,针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A2中,建立跨模态匹配任务,所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征;
针对视频描述任务,在模型训练阶段,在所述步骤A5中,建立语法引导任务,所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数
Figure BDA0003257143230000061
所述上下文特征为步骤A5中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征;在步骤A8中,通过在本轮训练中各步迭代的语法引导任务获得的/>
Figure BDA0003257143230000062
生成损失函数LS,并给定:/>
Figure BDA0003257143230000063
其中,L表示设定的文本单词数量,t表示当前步;
在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数
Figure BDA0003257143230000064
在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的/>
Figure BDA0003257143230000065
生成损失函数LCE,并给定:/>
Figure BDA0003257143230000066
Figure BDA0003257143230000067
其中,L表示设定的文本单词数量,t表示当前步;
针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A8中,建立视觉辅助任务,所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数,其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤A1获得的静态特征作为监督信息,获得距离损失函数LV
在步骤A8中,结合各损失函数构成本轮训练迭代的损失函数,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE
具体的,所述跨模态匹配任务,包括如下步骤:
M1、基于语义图工具,对参考文本进行解析,分别生成事件级文本特征
Figure BDA0003257143230000068
动作级文本特征/>
Figure BDA0003257143230000069
目标级文本特征/>
Figure BDA00032571432300000610
M2、基于以下公式进行跨模态匹配:
Figure BDA00032571432300000611
Figure BDA00032571432300000612
/>
Figure BDA00032571432300000613
Figure BDA00032571432300000614
其中,
Figure BDA00032571432300000615
为/>
Figure BDA00032571432300000616
的统一表示,/>
Figure BDA00032571432300000617
为Vg、/>
Figure BDA00032571432300000618
和/>
Figure BDA00032571432300000619
的统一表示;/>
Figure BDA00032571432300000620
为/>
Figure BDA00032571432300000621
的统一表示,/>
Figure BDA00032571432300000622
为/>
Figure BDA00032571432300000623
的统一表示,/>
Figure BDA00032571432300000624
为/>
Figure BDA00032571432300000625
的统一表示,x∈{a,o},a代表动作级,o代表目标级;[·]+≡max(·,0),α是超参数,/>
Figure BDA00032571432300000626
表示第i帧视频与第j个文本信息的相似度,
Figure BDA00032571432300000627
表示第i帧视频与第j个文本信息的权重,/>
Figure BDA0003257143230000071
为匹配分数;
M3、根据如下公式进行损失函数计算:
Figure BDA00032571432300000722
LM是跨模态匹配任务的对比损失函数,Δ是一个预定义的间隔,[·]+/-代表对于视频和文本对的正负采样,
Figure BDA0003257143230000072
和/>
Figure BDA0003257143230000073
代表负样本对的匹配分数,/>
Figure BDA0003257143230000074
代表正样本对的匹配分数。
具体的,所述语法引导任务,包括如下步骤:
N1、针对分层注意力网络在当前步所生成的文本级上下文特征
Figure BDA0003257143230000075
动作级上下文特征/>
Figure BDA0003257143230000076
和目标级上下文特征/>
Figure BDA0003257143230000077
按如下公式进行计算:
Figure BDA0003257143230000078
Figure BDA0003257143230000079
其中,
Figure BDA00032571432300000710
为/>
Figure BDA00032571432300000711
的统一表示,/>
Figure BDA00032571432300000712
为/>
Figure BDA00032571432300000713
的统一表示,x∈{g,a,o},g、a、o分别对应各上下文特征的下标,/>
Figure BDA00032571432300000714
为单词的词性,G表示一个取值范围在0至1的均匀采样噪声,τ是一个超参数;
N2、根据如下公式进行当前步的损失函数计算:
Figure BDA00032571432300000715
其中,KLD表示KL散度,
Figure BDA00032571432300000716
是参考文本的语法标签,one_hot是对标签的硬编码方式,t表示当前步。
具体的,所述视觉辅助任务,包括如下步骤:
V1、基于以下公式,对视觉信息进行重构:
Figure BDA00032571432300000717
Figure BDA00032571432300000718
其中,
Figure BDA00032571432300000719
表示在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,LSTMV表示视觉LSTM模型,/>
Figure BDA00032571432300000720
是LSTMV在第i步的隐藏层信息,迭代次数为N,N为视频帧序列的帧数;在首次迭代时,所述/>
Figure BDA00032571432300000721
由默认初始化方法生成;/>
V2、根据如下公式进行损失函数计算:
Figure BDA0003257143230000081
其中,
Figure BDA0003257143230000082
是欧式距离,/>
Figure BDA0003257143230000083
是步骤A1中提取的视频帧的静态特征。
本发明的有益效果是:本发明提出了一种基于层级表征网络的新型端到端框架,利用分层表示,从多个层次来获取特征信息,可以更加细腻的表征视频特征,解决由于视频信息的复杂性,不能很好地表示多层次概念的视频特征的问题。
具体的讲,本发明的层级表征网络包含两个模块:一、层级编码模块,包括视觉特征提取器和多层级编码器,用以提取多层级视觉概念;二、文本生成模块,其由分层注意力网络和LSTM语言模型组成,其基于分层注意力网络,根据多层级视觉概念获取多层级的上下文信息,基于LSTM语言模型,根据多层级的上下文信息生成相关语言描述。
而进一步的,本发明的层级表征网络,在模型训练过程中,引入了三个辅助任务:跨模态匹配任务、语法引导任务和视觉辅助任务。其中,跨模态匹配任务能改进视觉表征效果,语法引导任务和视觉辅助任务,则是鼓励语言生成不仅与视频内容相似,而且语法与真实描述一致。因此,能进一步促进高质量的语言相关视频理解,获得内容完整和句法一致的语言生成。
附图说明
图1为实施例中的基于层级表征网络的视频理解文本生成方法的原理框架图;
图2为实施例中的基于层级表征网络的视频理解文本生成方法的训练流程图;
图3为实施例中的基于层级表征网络的视频理解文本生成方法的测试流程图;
图4为用于视频描述任务验证的视频帧序列;
图5为用于视频问答任务验证的视频帧序列。
具体实施方式
本发明旨在提出一种基于层级表征网络的视频理解文本生成方法,解决由于视频信息的复杂性,不能很好地表示多层次概念的视频特征以及在高质量的语言相关视频理解中,内容完整性和句法一致性不足的问题。该方法包括以下步骤:
A、训练模型
A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征;
A2、将获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo
A3、对文本信息通过文本编码器进行编码,获得文本嵌套特征;
其中,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征;
针对视频描述任务,在首次迭代时,其文本信息为默认填充词,在首次迭代后,为上一步迭代中步骤A6获得的预测单词,并以该单词的词向量作为文本嵌套特征;
A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征Vg,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息
Figure BDA0003257143230000091
获得注意力LSTM模型在当前步的隐藏层信息/>
Figure BDA0003257143230000092
t表示当前步;在首次迭代时,所述/>
Figure BDA0003257143230000093
由默认初始化方法生成;
A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息
Figure BDA0003257143230000094
利用分层注意力网络,分别查询语言文本特征C、动作级视觉特征Va和目标级视觉特征Vo,获得文本级上下文特征/>
Figure BDA0003257143230000095
动作级上下文特征/>
Figure BDA0003257143230000096
和目标级上下文特征信息/>
Figure BDA0003257143230000097
所述语言文本特征
Figure BDA0003257143230000098
其中,/>
Figure BDA0003257143230000099
表示LSTM语言模型在第m步迭代获得的细胞信息,t表示当前步;在首次迭代时,所述C由默认初始化方法生成;
A6、根据步骤A5获得的上下文特征
Figure BDA00032571432300000910
和/>
Figure BDA00032571432300000911
基于LSTM语言模型在上一步迭代获得的隐藏层信息/>
Figure BDA00032571432300000912
获得LSTM语言模型在当前步的隐藏层信息/>
Figure BDA00032571432300000913
和细胞信息/>
Figure BDA00032571432300000914
t表示当前步;在首次迭代时,所述/>
Figure BDA00032571432300000915
由默认初始化方法生成;
利用获得的LSTM语言模型在当前步的隐藏层信息
Figure BDA00032571432300000916
生成当前步的单词概率分布Pt,选择其中最大概率的单词,作为当前步预测的单词;
A7、基于设定的文本单词数量,判断是否完成文本生成,若完成,则进入步骤A8;若未完成,则跳转至步骤A3;在模型训练阶段,所述设定的文本单词数量为参考文本的单词数量;
A8、基于损失函数判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至A1;
B、基于设定的文本单词数量,利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。
如上所述,该方法的层级表征网络包含两个模块:
一、层级编码模块,如图1(A)所示,包括视觉特征提取器和多层级编码器,用以提取多层级视觉概念;
二、文本生成模块,如图1(B)所示,其由分层注意力网络和LSTM语言模型组成,其基于分层注意力网络,根据多层级视觉概念获取多层级的上下文信息,基于LSTM语言模型,根据多层级的上下文信息生成相关语言描述。
同时,如图2所示,在模型训练阶段,整体流程又包括两层迭代,每一轮的外层迭代均包含多步的内层迭代:所述外层迭代也即训练迭代,每轮迭代表示使用训练集的数据进行一轮训练;所述内层迭代,也即文本生成模块的迭代,每一步的迭代生成一个单词,迭代次数为设定的文本单词数量,所述文本单词数量也即最终输出的句子长度(单词数量)。
由于在训练过程中,需要基于参考文本进行监督学习,因此,在模型训练阶段,设定的文本单词数量为参考文本的单词数量。上述的监督信息为参考文本的对应单词,也即,参考文本中的第t个单词,t表示当前内层迭代的步数,也即当前步。上述参考文本也即训练任务的参考答案,在如图所示的实例中,具体是指训练集中视频帧序列的标签文本。
而在测试阶段及实际应用中,设定的文本单词数量按需设置,对于视频描述任务,就是输入视频,利用本发明的方法生成一句长度为设定的文本单词数量的可读的句子;对于视频问答任务,就是输入视频与其对应问题语句,利用本发明的方法生成对应问题的回答语句,回答语句的长度为设定的文本单词数量。
进一步的,为了能进一步促进高质量的语言相关视频理解,获得内容完整和句法一致的语言生成,在训练阶段,引入了如下的辅助任务,并对模型进行联合训练:
如图1(C)所示,针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A2中,建立跨模态匹配任务,所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征;
如图1(D)所示,针对视频描述任务,在模型训练阶段,在所述步骤A5中,建立语法引导任务,所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数
Figure BDA0003257143230000101
所述上下文特征为步骤A5中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征;在步骤A8中,通过在本轮训练中各步迭代的语法引导任务获得的/>
Figure BDA0003257143230000102
生成损失函数LS,并给定:
Figure BDA0003257143230000103
其中,L表示设定的文本单词数量,t表示当前步;
在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数
Figure BDA0003257143230000104
在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的/>
Figure BDA0003257143230000111
生成损失函数LCE,并给定:/>
Figure BDA0003257143230000112
Figure BDA0003257143230000113
其中,L表示设定的文本单词数量,t表示当前步;
如图1(E)所示,针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A8中,建立视觉辅助任务,所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数,其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤A1获得的静态特征作为监督信息,获得距离损失函数LV
在步骤A8中,结合各损失函数构成本轮训练迭代的损失函数,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE
上述的辅助任务,主要针对模型的训练,在测试阶段和实际应用中,并不执行。
实施例:
本实施例的基于层级表征网络和辅助任务的视频理解文本生成方法,原理框架如图1所示,其模型训练阶段,如图2所示,包括以下步骤:
S1、视频帧特征提取:
本步骤中,通过视觉特征提取器对输入的视频帧序列进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征。
具体而言,使用视觉特征提取器可以生成多种特征,包括静态特征、动作特征和目标特征,给定:
Figure BDA0003257143230000114
Figure BDA0003257143230000115
其中,CNN代表视觉特征提取器,V表示视频帧序列,N表示视频帧序列的帧数,
Figure BDA0003257143230000116
表示获第i帧的静态特征,/>
Figure BDA0003257143230000117
表示第i帧的动态特征,/>
Figure BDA0003257143230000118
表示第i帧的目标特征;所述
Figure BDA0003257143230000119
统一表示为/>
Figure BDA00032571432300001110
x∈{a,o},a代表动作级,o代表目标级。
S2、对提取的视频帧特征进行多层编码获得事件级、动作级和目标级视觉特征:
本步骤中,将步骤S1获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo。具体而言,本步骤通过以下子步骤实现:
S21、通过对静态特征进行均值池化操作,获得全局视觉向量,作为事件级特征Vg
Figure BDA0003257143230000121
通过对线性变换对动态特征和目标特征进行处理,对应获得动作级视觉特征和目标级视觉特征:
Figure BDA0003257143230000122
Figure BDA0003257143230000123
其中,Vg是事件级特征,
Figure BDA0003257143230000124
是第i帧的动作级视觉特征,/>
Figure BDA0003257143230000125
是第i帧的目标级视觉表征,Va是视频帧序列的动作级视觉特征,Vo是视频帧序列的目标级视觉特征,Wx是可学习的视觉嵌套参数;所述/>
Figure BDA0003257143230000126
统一表示为/>
Figure BDA0003257143230000127
所述Va、Vo统一表示为Vx,x∈{a,o},a代表动作级,o代表目标级。
S22、针对视频问答任务和视频描述任务,在模型训练阶段,建立跨模态匹配任务,所述跨模态匹配任务与多层级编码器共享可学习参数Wx,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为上述步骤中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征,包括如下步骤:
S221、基于Spacy Tagging的语义图工具,对参考文本进行解析,分别生成事件级文本特征
Figure BDA0003257143230000128
动作级文本特征/>
Figure BDA0003257143230000129
目标级文本特征/>
Figure BDA00032571432300001210
所述/>
Figure BDA00032571432300001211
统一表示为/>
Figure BDA00032571432300001212
x∈{a,o}
S222、所述
Figure BDA00032571432300001213
统一表示为/>
Figure BDA00032571432300001214
所述Vg、/>
Figure BDA00032571432300001215
和/>
Figure BDA00032571432300001216
统一表示为/>
Figure BDA00032571432300001217
并基于以下公式进行跨模态匹配:
Figure BDA00032571432300001218
Figure BDA00032571432300001219
Figure BDA00032571432300001220
Figure BDA00032571432300001221
使用三种层级的特征,分别进行全局匹配sg和局部匹配sx的计算;在同一层级中,语义相近的文本特征和视觉特征相互关联,进而训练视觉特征表达高级语义信息。具体来说,就是对于输入的视觉特征去检索对应的文本特征,输出最终的匹配分数
Figure BDA0003257143230000131
其中,[·]+≡max(·,0),α是超参数,
Figure BDA0003257143230000132
表示第i帧视频与第j个文本信息的相似度,/>
Figure BDA0003257143230000133
表示第i帧视频与第j个文本信息的权重,x∈{a,o},a代表动作级,o代表目标级。
S223、对于步骤S222获得的匹配分数,根据如下公式进行损失函数计算:
Figure BDA0003257143230000134
LM是跨模态匹配任务的对比损失函数,Δ是一个预定义的间隔,[·]+/-代表对于视频和文本对的正负采样,
Figure BDA0003257143230000135
和/>
Figure BDA0003257143230000136
代表负样本对的匹配分数,/>
Figure BDA0003257143230000137
代表正样本对的匹配分数;
S3、获取文本嵌套特征,并结合分层的视觉特征通过分层注意力机制获取上下文信息:
本步骤中,对文本信息通过文本编码器进行编码,获得文本嵌套特征,根据所述文本嵌套特征以及步骤S2获取的事件级特征、动作级视觉特征和目标级视觉特征,利用分层注意力网络获取文本级上下文特征、动作级上下文特征和目标级上下文特征。具体而言,包括以下子步骤:
S31、对于文本信息通过文本编码器word2vec进行编码。
特别地,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征wt-1
针对视频描述任务,采用上一步迭代中LSTM语言模型预测的单词,并以该单词的词向量作为文本嵌套特征wt-1。由于,在首次迭代时,并不存在上一步迭代中LSTM语言模型预测的单词,因此,在首次迭代时,文本信息为默认填充词,具体的,在实施例中采用LSTM网络(长短期记忆循环神经网络)的起始标志“BOS”作为默认填充词,通常对“BOS”取1作为文本编码器的输入。
S32、对步骤S31获得的文本嵌套特征和步骤S21获得的视觉特征,通过注意力LSTM进行多特征融合,为了区分本发明中多个LSTM网络,对本步骤中的注意力LSTM称为注意力LSTM模型,符号为LSTMatt,具体包括:
拼接文本嵌套特征wt-1及步骤S21获取的事件级特征Vg,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息
Figure BDA0003257143230000138
获得注意力LSTM模型在当前步的隐藏层信息/>
Figure BDA0003257143230000139
具体为:
Figure BDA0003257143230000141
其中,LSTMatt表示注意力LSTM模型,[;]代表拼接操作,Wd是可学习的单词嵌套参数。
由于,在首次迭代时,并不存在注意力LSTM模型在上一步的隐藏层信息
Figure BDA0003257143230000142
因此,在首次迭代时,初始的隐藏层信息,默认采用Xavier初始化方法生成。
S33、对步骤S32中获得的注意力LSTM模型在当前步的隐藏层信息
Figure BDA0003257143230000143
通过分层注意力网络生成上下文特征,本实施例中的分层注意力网络包括文本注意力机制/>
Figure BDA0003257143230000144
动作注意力机制/>
Figure BDA0003257143230000145
和目标注意力机制/>
Figure BDA0003257143230000146
具体的,根据以下公式,获得文本级上下文特征
Figure BDA0003257143230000147
动作级上下文特征/>
Figure BDA0003257143230000148
和目标级上下文特征/>
Figure BDA0003257143230000149
Figure BDA00032571432300001410
Att(k,q)=softmax(AF(k,q))k
Figure BDA00032571432300001411
Figure BDA00032571432300001412
Figure BDA00032571432300001413
其中,Att(k,q)为注意力机制的通用表达形式,k表示key,q表示query,Att(k,q)代表对于不同的q访问k时,对于k的关注层度。例如:
Figure BDA00032571432300001414
即表示/>
Figure BDA00032571432300001415
去访问Va,代表当前步t的隐藏层信息/>
Figure BDA00032571432300001416
对于Va的一个关注度,最后的输出/>
Figure BDA00032571432300001417
数学意义就是一个加权平均值。AF(k,q)则表示Att(k,q)的权重计算,也即:对于输入的k和q,经过线性变换之后,通过tanh函数处理,再通过/>
Figure BDA00032571432300001418
线性变换,W1、W2、W3是可学习的参数。
具体而言,也即使用
Figure BDA00032571432300001419
去访问视频帧序列的动作级视觉特征Va和目标级视觉特征Vo以及和语言文本特征C,分别获得文本级上下文特征/>
Figure BDA00032571432300001420
动作级上下文特征/>
Figure BDA00032571432300001421
和目标级上下文特征/>
Figure BDA00032571432300001422
上述的语言文本特征C,基于LSTM语言模型的历史细胞状态,其中,/>
Figure BDA00032571432300001423
表示LSTM语言模型在第m步迭代获得的细胞信息,t表示当前步。由于,在首次迭代时,并不存在LSTM语言模型的历史细胞状态,因此,在首次迭代时,初始的语言文本特征,默认采用Xavier初始化方法生成。
S34、针对视频描述任务,在模型训练阶段,建立语法引导任务,所述语法引导任务与分层注意力网络共享可学习参数W1、W2、W3,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数
Figure BDA0003257143230000151
所述上下文特征为上述步骤中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征,具体包括如下步骤:
S341、针对分层注意力网络在当前步所生成的文本级上下文特征
Figure BDA0003257143230000152
动作级上下文特征/>
Figure BDA0003257143230000153
和目标级上下文特征/>
Figure BDA0003257143230000154
按如下公式进行计算,根据输入的上下文特征,通过Gumbel softmax函数预测当前步所生成单词的词性,是动词、名词还是其他词性:
Figure BDA0003257143230000155
Figure BDA0003257143230000156
其中,
Figure BDA0003257143230000157
统一表示为/>
Figure BDA0003257143230000158
统一表示为/>
Figure BDA0003257143230000159
x∈{g,a,o},g、a、o分别对应各上下文特征的下标,/>
Figure BDA00032571432300001510
为单词的词性,G表示一个取值范围在0至1的均匀采样噪声,τ是一个超参数,代表温度参数,控制Gumbel softmax的强度;通过Gumbel Softmax函数获得的词性结果/>
Figure BDA00032571432300001511
是0和1的实值。
S342、根据如下公式进行损失函数计算:
Figure BDA00032571432300001512
其中,KLD(Kullback-Leibler divergence)表示KL散度,
Figure BDA00032571432300001513
是参考文本的语法标签,t表示当前步,也即参考文本的第t个单词的语法标签,使用Spacy Tagging进行标注,one_hot是对标签的硬编码方式。
具体而言,上述损失函数,也即对预测的当期步的词性结果
Figure BDA00032571432300001514
使用KL散度损失函数进行约束,使用参考文本中对应单词的词性作为监督标签,进行监督学习。
S4、根据分层的上下文信息利用语言模型生成单词:
本步骤中,根据所述文本级上下文特征、动作级上下文特征和目标级上下文特征,利用LSTM语言模型生成当前步的单词。为了区分本发明中多个LSTM网络,对本步骤中的注意力LSTM称为LSTM语言模型,符号为LSTMlang。在具体实现上,包括以下子步骤:
S41、拼接步骤S3获取的文本级上下文特征
Figure BDA00032571432300001515
动作级上下文特征/>
Figure BDA00032571432300001516
和目标级上下文特征信息/>
Figure BDA00032571432300001517
输入LSTM语言模型,基于LSTM语言模型在上一步的隐藏层信息/>
Figure BDA00032571432300001518
获得LSTM语言模型在当前步的隐藏层信息/>
Figure BDA00032571432300001519
和细胞信息/>
Figure BDA00032571432300001520
并通过softmax函数获得当前步的单词概率分布:
Figure BDA0003257143230000161
Figure BDA0003257143230000162
其中,LSTMlang表示LSTM语言模型;Wz,bz是网络可学习参数;Pt是一个词汇表向量,表示对于当前词汇表中的每个单词在当前步中被选择的概率值,每个词汇的概率值在0-1之间。
选择其中最大概率的单词,作为当前步预测的单词。
由于,在首次迭代时,并不存在LSTM语言模型在上一步的隐藏层信息
Figure BDA0003257143230000163
因此,在首次迭代时,初始的隐藏层信息,默认采用Xavier初始化方法生成。
S42、对于步骤S41中获得的单词概率分布,进行监督学习,使用交叉熵损失作为目标函数,监督信息为参考文本的对应单词,并给定:
Figure BDA0003257143230000164
S5、在完成步骤S4后,即判断是否完成本轮训练,若完成则进入步骤S6,若未完成则跳转至步骤S3进入下一步迭代。
S6、根据损失函数判断是否完成训练,若完成则获得完成训练的模型,若未完成则跳转至步骤S1进入下一轮训练,包括如下步骤:
S61、针对视频问答任务和视频描述任务,在模型训练阶段,建立视觉辅助任务,所述视觉辅助任务与LSTM语言模型共享可学习参数Wz,bz,其根据在本轮训练中各步迭代的步骤S4获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤S1获得的静态特征作为监督信息,获得距离损失函数LV,包括如下步骤:
S611、根据LSTM语言模型在每一步迭代生成的隐藏层信息,基于以下公式对视觉信息进行重构:
Figure BDA0003257143230000165
Figure BDA0003257143230000166
其中,
Figure BDA0003257143230000167
表示在本轮训练中各步迭代的步骤S4获得的LSTM语言模型的隐藏层信息,LSTMV表示视觉LSTM模型,/>
Figure BDA0003257143230000168
是LSTMV在第i步的隐藏层信息,迭代次数为N,N为视频帧序列的帧数;在首次迭代时,所述/>
Figure BDA0003257143230000169
由默认初始化方法生成。
也即把LSTMlang
Figure BDA00032571432300001610
信息看作与视频信息语义一致的信息,把这个信息作为该任务的输入,分别通过一层新的注意力机制/>
Figure BDA0003257143230000171
和LSTMV,获得重构的视觉信息/>
Figure BDA0003257143230000172
S612、根据如下公式进行损失函数计算:
Figure BDA0003257143230000173
其中,
Figure BDA0003257143230000174
是欧式距离,/>
Figure BDA0003257143230000175
是步骤S1中提取的视频帧的静态特征,N代表帧数。
也即把重构的视觉信息
Figure BDA0003257143230000176
和步骤S1中提取的视频帧的静态特征/>
Figure BDA0003257143230000177
进行对比,通过欧氏距离来进行约束,获得生成文本内容上与视觉内容上的一致性。
S62、通过在本轮训练中各步迭代的步骤S4获得的
Figure BDA0003257143230000178
生成损失函数LCE,并给定:
Figure BDA0003257143230000179
其中,L表示设定的文本单词数量,t表示当前步
通过在本轮训练中各步迭代的语法引导任务获得的
Figure BDA00032571432300001710
生成损失函数LS,并给定:/>
Figure BDA00032571432300001711
其中,L表示设定的文本单词数量,t表示当前步。
S63、采用联合训练的方法,基于损失函数Ltotal判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至S1,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE
在完成模型训练后,即可利用完成训练的模型对视频问答任务或视频描述任务进行文本生成,流程如图3所示。
测试:
测试条件:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPUE5-2620v4@2.10GHz×2,内存:256GB。
视频描述任务测试,输入的视频帧序列如图4所示,结果如下:
GT:a man is being held up by a crowd of people who are cheering
Ours:a group of people are cheering at a concert while a man is crowd surfing
上述GT表示数据集给出的参考文本,Ours表示基于上述实施例获得的最终模型。下划线部分文字代表生成了较好的内容。根据实验结果可以看到,本方案生成的视频描述文本,内容具有丰富且准确信息,并很好地保存了语义一致性。
视频问答任务测试,输入的视频帧序列如图5所示,结果如下:
Q:who is throwing a ball at a puppy?
GT:girl
Ours:girl
上述GT表示数据集给出的参考文本,Ours表示基于上述实施例获得的最终模型。根据实验结果可以看到,本方案生成的模型,能得到具体准确的回答(girl),而不是简单笼统的(woman、man)这样的答案。

Claims (10)

1.一种基于层级表征网络的视频理解文本生成方法,应用于视频问答任务或视频描述任务,该方法包括以下步骤:
A、训练模型
A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征;
A2、将获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo
A3、对文本信息通过文本编码器进行编码,获得文本嵌套特征;
其中,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征;
针对视频描述任务,在首次迭代时,其文本信息为默认填充词,在首次迭代后,为上一步迭代中步骤A6获得的预测单词,并以该单词的词向量作为文本嵌套特征;
A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征Vg,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息
Figure FDA0003257143220000011
获得注意力LSTM模型在当前步的隐藏层信息/>
Figure FDA0003257143220000012
t表示当前步;在首次迭代时,所述/>
Figure FDA0003257143220000013
由默认初始化方法生成;
A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息
Figure FDA0003257143220000014
利用分层注意力网络,分别查询语言文本特征C、动作级视觉特征Va和目标级视觉特征Vo,获得文本级上下文特征/>
Figure FDA0003257143220000015
动作级上下文特征/>
Figure FDA0003257143220000016
和目标级上下文特征信息/>
Figure FDA0003257143220000017
所述语言文本特征
Figure FDA0003257143220000018
其中,/>
Figure FDA0003257143220000019
表示LSTM语言模型在第m步迭代获得的细胞信息,t表示当前步;在首次迭代时,所述C由默认初始化方法生成;
A6、根据步骤A5获得的上下文特征
Figure FDA00032571432200000110
和/>
Figure FDA00032571432200000111
基于LSTM语言模型在上一步迭代获得的隐藏层信息/>
Figure FDA00032571432200000112
获得LSTM语言模型在当前步的隐藏层信息/>
Figure FDA00032571432200000113
和细胞信息/>
Figure FDA00032571432200000114
t表示当前步;在首次迭代时,所述/>
Figure FDA00032571432200000115
由默认初始化方法生成;
利用获得的LSTM语言模型在当前步的隐藏层信息
Figure FDA00032571432200000116
生成当前步的单词概率分布Pt,选择其中最大概率的单词,作为当前步预测的单词;
A7、基于设定的文本单词数量,判断是否完成文本生成,若完成,则进入步骤A8;若未完成,则跳转至步骤A3;在模型训练阶段,所述设定的文本单词数量为参考文本的单词数量;
A8、基于损失函数判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至A1;
B、基于设定的文本单词数量,利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。
2.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述步骤A2包括:
A21、通过对静态特征进行均值池化操作,获得全局视觉向量,作为视频帧序列的事件级特征Vg
Figure FDA0003257143220000021
其中,
Figure FDA0003257143220000022
表示第i帧的静态特征,N表示视频帧序列的帧数;
A22、通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列的动作级视觉特征Va和目标级视觉特征Vo
Figure FDA0003257143220000023
Figure FDA0003257143220000024
其中,Vx为Va、Vo的统一表示,
Figure FDA0003257143220000025
为/>
Figure FDA0003257143220000026
的统一表示,/>
Figure FDA0003257143220000027
为/>
Figure FDA0003257143220000028
的统一表示,x∈{a,o},a代表动作级,o代表目标级;/>
Figure FDA0003257143220000029
表示第i帧的动作级视觉特征,/>
Figure FDA00032571432200000210
表示第i帧的目标级视觉表征,/>
Figure FDA00032571432200000211
表示第i帧的动态特征,/>
Figure FDA00032571432200000212
表示第i帧的目标特征,N表示视频帧序列的帧数,Wx是可学习的视觉嵌套参数。
3.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述步骤A4中,给定:
Figure FDA00032571432200000213
其中,LSTMatt表示注意力LSTM模型,[;]代表拼接操作,wt-1表示文本嵌套特征,Vg表示事件级特征,Wd是可学习的单词嵌套参数,t表示当前步。
4.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述步骤A5中,给定:
Figure FDA00032571432200000214
Att(k,q)=softmax(AF(k,q))k
Figure FDA0003257143220000031
Figure FDA0003257143220000032
Figure FDA0003257143220000033
其中,Att(k,q)为注意力机制的通用表达形式,AF(k,q)表示Att(k,q)的权重计算,k表示key,q表示query,W1、W2、W3是可学习的参数,
Figure FDA0003257143220000034
分别表示文本注意力机制、动作注意力机制、目标注意力机制,t表示当前步。
5.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,
所述步骤A6中,给定:
Figure FDA0003257143220000035
Figure FDA0003257143220000036
/>
其中,LSTMlang表示LSTM语言模型;Wz,bz是网络可学习参数,t表示当前步。
6.如权利要求1、2、3、4或5所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,
在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数
Figure FDA0003257143220000037
并给定:
Figure FDA0003257143220000038
在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的
Figure FDA0003257143220000039
生成损失函数LCE,并给定:
Figure FDA00032571432200000310
其中,L表示设定的文本单词数量。
7.如权利要求1、2、3、4或5所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,
针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A2中,建立跨模态匹配任务,所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征;
针对视频描述任务,在模型训练阶段,在所述步骤A5中,建立语法引导任务,所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数
Figure FDA0003257143220000041
所述上下文特征为步骤A5中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征;在步骤A8中,通过在本轮训练中各步迭代的语法引导任务获得的/>
Figure FDA0003257143220000042
生成损失函数LS,并给定:/>
Figure FDA0003257143220000043
其中,L表示设定的文本单词数量,t表示当前步;
在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数
Figure FDA0003257143220000044
在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的/>
Figure FDA0003257143220000045
生成损失函数LCE,并给定:/>
Figure FDA0003257143220000046
Figure FDA0003257143220000047
其中,L表示设定的文本单词数量,t表示当前步;
针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A8中,建立视觉辅助任务,所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数,其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤A1获得的静态特征作为监督信息,获得距离损失函数LV
在步骤A8中,结合各损失函数构成本轮训练迭代的损失函数,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE
8.如权利要求7所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述跨模态匹配任务,包括如下步骤:
M1、基于语义图工具,对参考文本进行解析,分别生成事件级文本特征
Figure FDA0003257143220000048
动作级文本特征/>
Figure FDA0003257143220000049
目标级文本特征/>
Figure FDA00032571432200000410
M2、基于以下公式进行跨模态匹配:
Figure FDA00032571432200000411
Figure FDA00032571432200000412
Figure FDA00032571432200000413
Figure FDA00032571432200000414
其中,
Figure FDA00032571432200000415
为/>
Figure FDA00032571432200000416
的统一表示,/>
Figure FDA00032571432200000417
为Vg、/>
Figure FDA00032571432200000418
和/>
Figure FDA00032571432200000419
的统一表示;/>
Figure FDA00032571432200000420
为/>
Figure FDA00032571432200000421
的统一表示,/>
Figure FDA00032571432200000422
为/>
Figure FDA00032571432200000423
的统一表示,/>
Figure FDA00032571432200000424
为/>
Figure FDA00032571432200000425
的统一表示,x∈{a,o},a代表动作级,o代表目标级;[·]+≡max(·,0),α是超参数,/>
Figure FDA00032571432200000426
表示第i帧视频与第j个文本信息的相似度,/>
Figure FDA00032571432200000427
表示第i帧视频与第j个文本信息的权重,/>
Figure FDA0003257143220000051
为匹配分数;
M3、根据如下公式进行损失函数计算:
Figure FDA0003257143220000052
Lm是跨模态匹配任务的对比损失函数,Δ是一个预定义的间隔,[·]+/-代表对于视频和文本对的正负采样,
Figure FDA0003257143220000053
和/>
Figure FDA0003257143220000054
代表负样本对的匹配分数,/>
Figure FDA0003257143220000055
代表正样本对的匹配分数。
9.如权利要求7所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,
所述语法引导任务,包括如下步骤:
N1、针对分层注意力网络在当前步所生成的文本级上下文特征
Figure FDA0003257143220000056
动作级上下文特征/>
Figure FDA0003257143220000057
和目标级上下文特征/>
Figure FDA0003257143220000058
按如下公式进行计算:
Figure FDA0003257143220000059
Figure FDA00032571432200000510
其中,
Figure FDA00032571432200000511
为/>
Figure FDA00032571432200000512
的统一表示,/>
Figure FDA00032571432200000513
为/>
Figure FDA00032571432200000514
的统一表示,x∈{g,a,o},g、a、o分别对应各上下文特征的下标,/>
Figure FDA00032571432200000515
为单词的词性,G表示一个取值范围在0至1的均匀采样噪声,τ是一个超参数;
N2、根据如下公式进行当前步的损失函数计算:
Figure FDA00032571432200000516
其中,KLD表示KL散度,
Figure FDA00032571432200000517
是参考文本的语法标签,one_hot是对标签的硬编码方式,t表示当前步。
10.如权利要求7所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,
所述视觉辅助任务,包括如下步骤:
V1、基于以下公式,对视觉信息进行重构:
Figure FDA00032571432200000518
Figure FDA00032571432200000519
其中,
Figure FDA00032571432200000520
表示在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,LSTMV表示视觉LSTM模型,/>
Figure FDA00032571432200000521
是LSTMV在第i步的隐藏层信息,迭代次数为N,N为视频帧序列的帧数;在首次迭代时,所述/>
Figure FDA00032571432200000522
由默认初始化方法生成;
V2、根据如下公式进行损失函数计算:
Figure FDA0003257143220000061
其中,
Figure FDA0003257143220000062
是欧式距离,/>
Figure FDA0003257143220000063
是步骤A1中提取的视频帧的静态特征。/>
CN202111063055.3A 2021-09-10 2021-09-10 一种基于层级表征网络的视频理解文本生成方法 Active CN113779310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111063055.3A CN113779310B (zh) 2021-09-10 2021-09-10 一种基于层级表征网络的视频理解文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111063055.3A CN113779310B (zh) 2021-09-10 2021-09-10 一种基于层级表征网络的视频理解文本生成方法

Publications (2)

Publication Number Publication Date
CN113779310A CN113779310A (zh) 2021-12-10
CN113779310B true CN113779310B (zh) 2023-06-02

Family

ID=78842568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111063055.3A Active CN113779310B (zh) 2021-09-10 2021-09-10 一种基于层级表征网络的视频理解文本生成方法

Country Status (1)

Country Link
CN (1) CN113779310B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115601553B (zh) * 2022-08-15 2023-08-18 杭州联汇科技股份有限公司 一种基于多层级图片描述数据的视觉模型预训练方法
CN116089654B (zh) * 2023-04-07 2023-07-07 杭州东上智能科技有限公司 一种基于音频监督的可转移视听文本生成方法和系统
CN116320622B (zh) * 2023-05-17 2023-08-18 成都索贝数码科技股份有限公司 一种广播电视新闻视频转图文稿制作系统和制作方法
CN117478978A (zh) * 2023-10-31 2024-01-30 西南大学 一种文本生成电影视频片段的方法、系统和设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
GB201911724D0 (en) * 2019-08-15 2019-10-02 Vision Semantics Ltd Text based image search
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
CN111814454A (zh) * 2020-07-10 2020-10-23 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112632230A (zh) * 2020-12-30 2021-04-09 中国科学院空天信息创新研究院 一种基于多层级图网络的事件联合抽取方法及装置
CN113033189A (zh) * 2021-04-08 2021-06-25 北京理工大学 一种基于注意力分散的长短期记忆网络的语义编码方法
CN113052149A (zh) * 2021-05-20 2021-06-29 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质
WO2021158692A1 (en) * 2020-02-07 2021-08-12 Apple Inc. Using text for avatar animation

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US11010561B2 (en) * 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN110298436A (zh) * 2019-06-28 2019-10-01 乐山金蜜工业卫士服务股份有限公司 基于指针生成网络的数据到文本的生成模型
GB201911724D0 (en) * 2019-08-15 2019-10-02 Vision Semantics Ltd Text based image search
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN110929587A (zh) * 2019-10-30 2020-03-27 杭州电子科技大学 一种基于层次注意力机制的双向重构网络视频描述方法
WO2021158692A1 (en) * 2020-02-07 2021-08-12 Apple Inc. Using text for avatar animation
CN111814454A (zh) * 2020-07-10 2020-10-23 重庆大学 一种社交网络上的多模态网络欺凌检测模型
CN112559698A (zh) * 2020-11-02 2021-03-26 山东师范大学 基于多模态融合模型的提高视频问答精度方法及系统
CN112632230A (zh) * 2020-12-30 2021-04-09 中国科学院空天信息创新研究院 一种基于多层级图网络的事件联合抽取方法及装置
CN113033189A (zh) * 2021-04-08 2021-06-25 北京理工大学 一种基于注意力分散的长短期记忆网络的语义编码方法
CN113052149A (zh) * 2021-05-20 2021-06-29 平安科技(深圳)有限公司 视频摘要生成方法、装置、计算机设备及介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Hierarchical Representation Network With Auxiliary Tasks for Video Captioning and Video Question Answering;Lianli Gao等;《IEEE Transactions on Image Processing》;202-215 *
Learning to discretely compose reasoning module networks for video captioning;Ganchao Tan等;《https://arxiv.org/abs/2007.09049》;video question LSTM KLD gumbel *
基于GFU和分层LSTM的组群行为识别研究方法;王传旭;薛豪;;电子学报(第08期);11-17 *
基于多特征的视频描述生成算法研究;曹磊;万旺根;侯丽;;电子测量技术(第16期);104-108 *
多模态特征融合与多任务学习的特种视频分类;吴晓雨;顾超男;王生进;;光学精密工程(第05期);186-195 *

Also Published As

Publication number Publication date
CN113779310A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
CN113779310B (zh) 一种基于层级表征网络的视频理解文本生成方法
Keneshloo et al. Deep reinforcement learning for sequence-to-sequence models
US11862145B2 (en) Deep hierarchical fusion for machine intelligence applications
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
Yan et al. Video captioning using global-local representation
CN113035311B (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
CN111460132B (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN114676234A (zh) 一种模型训练方法及相关设备
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
CN112131883A (zh) 语言模型训练方法、装置、计算机设备和存储介质
CN113392265A (zh) 多媒体处理方法、装置及设备
Ruwa et al. Mood-aware visual question answering
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
CN114387537A (zh) 一种基于描述文本的视频问答方法
CN111522924A (zh) 一种带有主题感知的情感聊天式回复生成方法
CN116912642A (zh) 基于双模多粒度交互的多模态情感分析方法、设备及介质
Zhang Ideological and political empowering English teaching: ideological education based on artificial intelligence in classroom emotion recognition
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统
Xie et al. A multimodal fusion emotion recognition method based on multitask learning and attention mechanism
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN116150334A (zh) 基于UniLM模型和Copy机制的中文共情语句训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant