CN113779310B - 一种基于层级表征网络的视频理解文本生成方法 - Google Patents
一种基于层级表征网络的视频理解文本生成方法 Download PDFInfo
- Publication number
- CN113779310B CN113779310B CN202111063055.3A CN202111063055A CN113779310B CN 113779310 B CN113779310 B CN 113779310B CN 202111063055 A CN202111063055 A CN 202111063055A CN 113779310 B CN113779310 B CN 113779310B
- Authority
- CN
- China
- Prior art keywords
- text
- video
- level
- features
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000000007 visual effect Effects 0.000 claims abstract description 106
- 230000009471 action Effects 0.000 claims abstract description 47
- 230000007246 mechanism Effects 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 70
- 230000006870 function Effects 0.000 claims description 53
- 230000003068 static effect Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 20
- 238000011423 initialization method Methods 0.000 claims description 15
- 230000009191 jumping Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 7
- 230000001419 dependent effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000945 filler Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及视频理解技术领域,其公开了一种基于层级表征网络的视频理解文本生成方法,解决了由于视频信息的复杂性,不能很好地表示多层次概念的视频特征的问题,该方法包括:S1、视频帧特征提取;S2、对提取的视频帧特征进行多层编码,获得事件级、动作级和目标级视觉特征;S3、获取文本嵌套特征,并结合分层的视觉特征通过分层注意力机制获取分层的上下文信息;S4、根据分层的上下文信息利用语言模型生成单词,应用于视频问答任务或视频描述任务。
Description
技术领域
本发明涉及视频理解技术领域,具体涉及一种基于层级表征网络的视频理解文本生成方法。
背景技术
视频理解文本生成是多模态应用中的热点话题。其中视频描述和视频问答是非常重要的研究任务。视频描述旨在使用自然语言句子描述有关视频的开放域活动,而视频问答则是回答有关视频活动的问题。视频描述和视频问答任务均是在两种不同形式(视觉和语言)的信息之间进行翻译,最近受到了广泛关注[1]-[4]。因此,两个任务有着共同的挑战,即如何表示多层次的视频概念(即事件、动作和目标)以及如何获得高质量的与语言相关的视频理解。
第一个挑战是如何为上述两个任务表示多层次的视觉概念。以前的工作试图学习低级视觉特征并利用多模态表示,例如视频字幕[1]、[5]和视频问答[3]、[6]。然而,由于视频上复杂的时空动态,很难从视觉数据中识别语义概念。现有工作使用时间注意力[4]、[7]、[8]或分层编码器-解码器结构[9]-[11]来模拟复杂的时空概念,例如视频的目标关系。然而这些方法可能受限于检测任务的挑战,例如重度遮挡、小尺寸物体和长尾类。因此,最近的工作[12]、[13]利用目标之间的语义相关性和约束来作为丰富的视觉表示。
第二个挑战是如何获得高质量的与语言相关的视频理解,即生成的文本具有内容完整性和句法一致性。为了保持内容的完整性,Gao等人[2]和Wang等人[14]使用交叉视图模块或重建模块将生成的句子特征与视频描述中的视觉特征对齐。虽然生成内容的完整性有所提高,但句法结构的流畅性仍然不足。为此,有学者提出了一些语法感知方法,如:Wang等人[15]基于POS序列生成器预测生成的句子的全局句法POS(Part-Of-Speech)信息。为了处理由语言数据中的类不平衡引起的词偏差问题,Hou等人[16]捕捉高质量的语言相关视频理解。然而,高质量的语言相关视频理解离不开内容的完整性或句法的一致性。
[1]L.Yao,A.Torabi,K.Cho,N.Ballas,C.Pal,H.Larochelle,andA.Courville,“Describing videos by exploiting temporal structure,”inICCV,2015,pp.4507–4515.
[2]L.Gao,Z.Guo,H.Zhang,X.Xu,and H.T.Shen,“Video caption-ing withattention-based lstm and semantic consistency,”IEEE TMM,vol.19,no.9,pp.2045–2055,2017.
[3]J.Gao,R.Ge,K.Chen,and R.Nevatia,“Motion-appearance co-memorynetworks for video question answering,”inCVPR,2018,pp.6576–6585.
[4]D.Xu,Z.Zhao,J.Xiao,F.Wu,H.Zhang,X.He,and Y.Zhuang,“Videoquestionanswering via gradually refined attention over appearance andmotion,”inACMMM,2017,pp.1645–1653.
[5]Y.Chen,S.Wang,W.Zhang,and Q.Huang,“Less is more:Pickinginformativeframes for video captioning,”inECCV,2018,pp.358–373.
[6]E.Amrani,R.Ben-Ari,D.Rotman,and A.Bronstein,“Noise estimationusingdensity estimation for self-supervised multimodal learning,”arXivpreprintarXiv:2003.03186,2020.
[7]W.Pei,J.Zhang,X.Wang,L.Ke,X.Shen,and Y.-W.Tai,“Memory-attendedrecurrent network for video captioning,”inCVPR,2019.
[8]B.Zhao,X.Li,and X.Lu,“Cam-rnn:Co-attention model based rnnforvideo captioning,”IEEE TIP,vol.28,no.11,pp.5552–5565,2019.
[9]J.Zhang and Y.Peng,“Object-aware aggregation withbidirectionaltemporal graph for video captioning,”inCVPR,2019.
[10]N.Aafaq,N.Akhtar,W.Liu,S.Z.Gilani,and A.Mian,“Spatio-temporaldynamics and semantic attribute enriched visual encoding forvideocaptioning,”inCVPR,2019,pp.12 487–12 496.
[11]C.Fan,X.Zhang,S.Zhang,W.Wang,C.Zhang,and H.Huang,“Heterogeneousmemory enhanced multimodal attention model for videoquestion answering,”inCVPR,2019,pp.1999–2007.
[12]Z.Zhang,Y.Shi,C.Yuan,B.Li,P.Wang,W.Hu,and Z.-J.Zha,“Objectrelational graph with teacher-recommended learning for videocaptioning,”inCVPR,2020,pp.13 278–13 288.
[13]J.Hou,X.Wu,X.Zhang,Y.Qi,Y.Jia,and J.Luo,“Joint commonsenseandrelation reasoning for image and video captioning,”inAAAI,2020,pp.10 973–10980.
[14]B.Wang,L.Ma,W.Zhang,and W.Liu,“Reconstruction network forvideocaptioning,”inCVPR,2018,pp.7622–7631.
[15]B.Wang,L.Ma,W.Zhang,W.Jiang,J.Wang,and W.Liu,“Controllablevideocaptioning with pos sequence guidance based on gated fusionnetwork,”inICCV,2019,pp.2641–2650.
[16]J.Hou,X.Wu,W.Zhao,J.Luo,and Y.Jia,“Joint syntaxrepresentationlearning and visual cue translation for video captioning,”inICCV,2019,pp.8918–8927.
发明内容
本发明所要解决的技术问题是:提供一种基于层级表征网络的视频理解文本生成方法,解决了由于视频信息的复杂性,不能很好地表示多层次概念的视频特征的问题。
本发明解决上述技术问题采用的技术方案是:
一种基于层级表征网络的视频理解文本生成方法,应用于视频问答任务或视频描述任务,该方法包括以下步骤:
A、训练模型
A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征;
A2、将获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo;
A3、对文本信息通过文本编码器进行编码,获得文本嵌套特征;
其中,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征;
针对视频描述任务,在首次迭代时,其文本信息为默认填充词,在首次迭代后,为上一步迭代中步骤A6获得的预测单词,并以该单词的词向量作为文本嵌套特征;
A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征Vg,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息获得注意力LSTM模型在当前步的隐藏层信息/>t表示当前步;在首次迭代时,所述/>由默认初始化方法生成;
A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息利用分层注意力网络,分别查询语言文本特征C、动作级视觉特征Va和目标级视觉特征Vo,获得文本级上下文特征/>动作级上下文特征/>和目标级上下文特征信息/>
A6、根据步骤A5获得的上下文特征和/>基于LSTM语言模型在上一步迭代获得的隐藏层信息/>获得LSTM语言模型在当前步的隐藏层信息/>和细胞信息/>t表示当前步;在首次迭代时,所述/>由默认初始化方法生成;
A7、基于设定的文本单词数量,判断是否完成文本生成,若完成,则进入步骤A8;若未完成,则跳转至步骤A3;在模型训练阶段,所述设定的文本单词数量为参考文本的单词数量;
A8、基于损失函数判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至A1;
B、基于设定的文本单词数量,利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。
具体的,所述步骤A2包括:
A21、通过对静态特征进行均值池化操作,获得全局视觉向量,作为视频帧序列的事件级特征Vg:
A22、通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列的动作级视觉特征Va和目标级视觉特征Vo:
其中,Vx为Va、Vo的统一表示,为/>的统一表示,/>为/>的统一表示,x∈{a,o},a代表动作级,o代表目标级;/>表示第i帧的动作级视觉特征,/>表示第i帧的目标级视觉表征,/>表示第i帧的动态特征,/>表示第i帧的目标特征,N表示视频帧序列的帧数,Wx是可学习的视觉嵌套参数。
具体的,所述步骤A4中,给定:
其中,LSTMatt表示注意力LSTM模型,[;]代表拼接操作,wt-1表示文本嵌套特征,Vg表示事件级特征,Wd是可学习的单词嵌套参数,t表示当前步。
具体的,所述步骤A5中,给定:
Att(k,q)=softmax(AF(k,q))k
其中,Att(k,q)为注意力机制的通用表达形式,AF(k,q)表示Att(k,q)的权重计算,k表示key,q表示query,W1、W2、W3是可学习的参数,分别表示文本注意力机制、动作注意力机制、目标注意力机制,t表示当前步。
具体的,所述步骤A6中,给定:
其中,LSTMlang表示LSTM语言模型;Wz,bz是网络可学习参数,t表示当前步。
其中,L表示设定的文本单词数量。
进一步的,针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A2中,建立跨模态匹配任务,所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征;
针对视频描述任务,在模型训练阶段,在所述步骤A5中,建立语法引导任务,所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数所述上下文特征为步骤A5中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征;在步骤A8中,通过在本轮训练中各步迭代的语法引导任务获得的/>生成损失函数LS,并给定:/>其中,L表示设定的文本单词数量,t表示当前步;
在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的/>生成损失函数LCE,并给定:/> 其中,L表示设定的文本单词数量,t表示当前步;
针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A8中,建立视觉辅助任务,所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数,其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤A1获得的静态特征作为监督信息,获得距离损失函数LV;
在步骤A8中,结合各损失函数构成本轮训练迭代的损失函数,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE。
具体的,所述跨模态匹配任务,包括如下步骤:
M2、基于以下公式进行跨模态匹配:
其中,为/>的统一表示,/>为Vg、/>和/>的统一表示;/>为/>的统一表示,/>为/>的统一表示,/>为/>的统一表示,x∈{a,o},a代表动作级,o代表目标级;[·]+≡max(·,0),α是超参数,/>表示第i帧视频与第j个文本信息的相似度,表示第i帧视频与第j个文本信息的权重,/>为匹配分数;
M3、根据如下公式进行损失函数计算:
具体的,所述语法引导任务,包括如下步骤:
N2、根据如下公式进行当前步的损失函数计算:
具体的,所述视觉辅助任务,包括如下步骤:
V1、基于以下公式,对视觉信息进行重构:
其中,表示在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,LSTMV表示视觉LSTM模型,/>是LSTMV在第i步的隐藏层信息,迭代次数为N,N为视频帧序列的帧数;在首次迭代时,所述/>由默认初始化方法生成;/>
V2、根据如下公式进行损失函数计算:
本发明的有益效果是:本发明提出了一种基于层级表征网络的新型端到端框架,利用分层表示,从多个层次来获取特征信息,可以更加细腻的表征视频特征,解决由于视频信息的复杂性,不能很好地表示多层次概念的视频特征的问题。
具体的讲,本发明的层级表征网络包含两个模块:一、层级编码模块,包括视觉特征提取器和多层级编码器,用以提取多层级视觉概念;二、文本生成模块,其由分层注意力网络和LSTM语言模型组成,其基于分层注意力网络,根据多层级视觉概念获取多层级的上下文信息,基于LSTM语言模型,根据多层级的上下文信息生成相关语言描述。
而进一步的,本发明的层级表征网络,在模型训练过程中,引入了三个辅助任务:跨模态匹配任务、语法引导任务和视觉辅助任务。其中,跨模态匹配任务能改进视觉表征效果,语法引导任务和视觉辅助任务,则是鼓励语言生成不仅与视频内容相似,而且语法与真实描述一致。因此,能进一步促进高质量的语言相关视频理解,获得内容完整和句法一致的语言生成。
附图说明
图1为实施例中的基于层级表征网络的视频理解文本生成方法的原理框架图;
图2为实施例中的基于层级表征网络的视频理解文本生成方法的训练流程图;
图3为实施例中的基于层级表征网络的视频理解文本生成方法的测试流程图;
图4为用于视频描述任务验证的视频帧序列;
图5为用于视频问答任务验证的视频帧序列。
具体实施方式
本发明旨在提出一种基于层级表征网络的视频理解文本生成方法,解决由于视频信息的复杂性,不能很好地表示多层次概念的视频特征以及在高质量的语言相关视频理解中,内容完整性和句法一致性不足的问题。该方法包括以下步骤:
A、训练模型
A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征;
A2、将获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo;
A3、对文本信息通过文本编码器进行编码,获得文本嵌套特征;
其中,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征;
针对视频描述任务,在首次迭代时,其文本信息为默认填充词,在首次迭代后,为上一步迭代中步骤A6获得的预测单词,并以该单词的词向量作为文本嵌套特征;
A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征Vg,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息获得注意力LSTM模型在当前步的隐藏层信息/>t表示当前步;在首次迭代时,所述/>由默认初始化方法生成;
A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息利用分层注意力网络,分别查询语言文本特征C、动作级视觉特征Va和目标级视觉特征Vo,获得文本级上下文特征/>动作级上下文特征/>和目标级上下文特征信息/>
A6、根据步骤A5获得的上下文特征和/>基于LSTM语言模型在上一步迭代获得的隐藏层信息/>获得LSTM语言模型在当前步的隐藏层信息/>和细胞信息/>t表示当前步;在首次迭代时,所述/>由默认初始化方法生成;
A7、基于设定的文本单词数量,判断是否完成文本生成,若完成,则进入步骤A8;若未完成,则跳转至步骤A3;在模型训练阶段,所述设定的文本单词数量为参考文本的单词数量;
A8、基于损失函数判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至A1;
B、基于设定的文本单词数量,利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。
如上所述,该方法的层级表征网络包含两个模块:
一、层级编码模块,如图1(A)所示,包括视觉特征提取器和多层级编码器,用以提取多层级视觉概念;
二、文本生成模块,如图1(B)所示,其由分层注意力网络和LSTM语言模型组成,其基于分层注意力网络,根据多层级视觉概念获取多层级的上下文信息,基于LSTM语言模型,根据多层级的上下文信息生成相关语言描述。
同时,如图2所示,在模型训练阶段,整体流程又包括两层迭代,每一轮的外层迭代均包含多步的内层迭代:所述外层迭代也即训练迭代,每轮迭代表示使用训练集的数据进行一轮训练;所述内层迭代,也即文本生成模块的迭代,每一步的迭代生成一个单词,迭代次数为设定的文本单词数量,所述文本单词数量也即最终输出的句子长度(单词数量)。
由于在训练过程中,需要基于参考文本进行监督学习,因此,在模型训练阶段,设定的文本单词数量为参考文本的单词数量。上述的监督信息为参考文本的对应单词,也即,参考文本中的第t个单词,t表示当前内层迭代的步数,也即当前步。上述参考文本也即训练任务的参考答案,在如图所示的实例中,具体是指训练集中视频帧序列的标签文本。
而在测试阶段及实际应用中,设定的文本单词数量按需设置,对于视频描述任务,就是输入视频,利用本发明的方法生成一句长度为设定的文本单词数量的可读的句子;对于视频问答任务,就是输入视频与其对应问题语句,利用本发明的方法生成对应问题的回答语句,回答语句的长度为设定的文本单词数量。
进一步的,为了能进一步促进高质量的语言相关视频理解,获得内容完整和句法一致的语言生成,在训练阶段,引入了如下的辅助任务,并对模型进行联合训练:
如图1(C)所示,针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A2中,建立跨模态匹配任务,所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征;
如图1(D)所示,针对视频描述任务,在模型训练阶段,在所述步骤A5中,建立语法引导任务,所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数所述上下文特征为步骤A5中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征;在步骤A8中,通过在本轮训练中各步迭代的语法引导任务获得的/>生成损失函数LS,并给定:其中,L表示设定的文本单词数量,t表示当前步;
在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的/>生成损失函数LCE,并给定:/> 其中,L表示设定的文本单词数量,t表示当前步;
如图1(E)所示,针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A8中,建立视觉辅助任务,所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数,其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤A1获得的静态特征作为监督信息,获得距离损失函数LV;
在步骤A8中,结合各损失函数构成本轮训练迭代的损失函数,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE。
上述的辅助任务,主要针对模型的训练,在测试阶段和实际应用中,并不执行。
实施例:
本实施例的基于层级表征网络和辅助任务的视频理解文本生成方法,原理框架如图1所示,其模型训练阶段,如图2所示,包括以下步骤:
S1、视频帧特征提取:
本步骤中,通过视觉特征提取器对输入的视频帧序列进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征。
具体而言,使用视觉特征提取器可以生成多种特征,包括静态特征、动作特征和目标特征,给定:
其中,CNN代表视觉特征提取器,V表示视频帧序列,N表示视频帧序列的帧数,表示获第i帧的静态特征,/>表示第i帧的动态特征,/>表示第i帧的目标特征;所述统一表示为/>x∈{a,o},a代表动作级,o代表目标级。
S2、对提取的视频帧特征进行多层编码获得事件级、动作级和目标级视觉特征:
本步骤中,将步骤S1获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo。具体而言,本步骤通过以下子步骤实现:
S21、通过对静态特征进行均值池化操作,获得全局视觉向量,作为事件级特征Vg:
通过对线性变换对动态特征和目标特征进行处理,对应获得动作级视觉特征和目标级视觉特征:
其中,Vg是事件级特征,是第i帧的动作级视觉特征,/>是第i帧的目标级视觉表征,Va是视频帧序列的动作级视觉特征,Vo是视频帧序列的目标级视觉特征,Wx是可学习的视觉嵌套参数;所述/>统一表示为/>所述Va、Vo统一表示为Vx,x∈{a,o},a代表动作级,o代表目标级。
S22、针对视频问答任务和视频描述任务,在模型训练阶段,建立跨模态匹配任务,所述跨模态匹配任务与多层级编码器共享可学习参数Wx,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为上述步骤中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征,包括如下步骤:
使用三种层级的特征,分别进行全局匹配sg和局部匹配sx的计算;在同一层级中,语义相近的文本特征和视觉特征相互关联,进而训练视觉特征表达高级语义信息。具体来说,就是对于输入的视觉特征去检索对应的文本特征,输出最终的匹配分数
S223、对于步骤S222获得的匹配分数,根据如下公式进行损失函数计算:
S3、获取文本嵌套特征,并结合分层的视觉特征通过分层注意力机制获取上下文信息:
本步骤中,对文本信息通过文本编码器进行编码,获得文本嵌套特征,根据所述文本嵌套特征以及步骤S2获取的事件级特征、动作级视觉特征和目标级视觉特征,利用分层注意力网络获取文本级上下文特征、动作级上下文特征和目标级上下文特征。具体而言,包括以下子步骤:
S31、对于文本信息通过文本编码器word2vec进行编码。
特别地,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征wt-1。
针对视频描述任务,采用上一步迭代中LSTM语言模型预测的单词,并以该单词的词向量作为文本嵌套特征wt-1。由于,在首次迭代时,并不存在上一步迭代中LSTM语言模型预测的单词,因此,在首次迭代时,文本信息为默认填充词,具体的,在实施例中采用LSTM网络(长短期记忆循环神经网络)的起始标志“BOS”作为默认填充词,通常对“BOS”取1作为文本编码器的输入。
S32、对步骤S31获得的文本嵌套特征和步骤S21获得的视觉特征,通过注意力LSTM进行多特征融合,为了区分本发明中多个LSTM网络,对本步骤中的注意力LSTM称为注意力LSTM模型,符号为LSTMatt,具体包括:
其中,LSTMatt表示注意力LSTM模型,[;]代表拼接操作,Wd是可学习的单词嵌套参数。
S33、对步骤S32中获得的注意力LSTM模型在当前步的隐藏层信息通过分层注意力网络生成上下文特征,本实施例中的分层注意力网络包括文本注意力机制/>动作注意力机制/>和目标注意力机制/>具体的,根据以下公式,获得文本级上下文特征动作级上下文特征/>和目标级上下文特征/>
Att(k,q)=softmax(AF(k,q))k
其中,Att(k,q)为注意力机制的通用表达形式,k表示key,q表示query,Att(k,q)代表对于不同的q访问k时,对于k的关注层度。例如:即表示/>去访问Va,代表当前步t的隐藏层信息/>对于Va的一个关注度,最后的输出/>数学意义就是一个加权平均值。AF(k,q)则表示Att(k,q)的权重计算,也即:对于输入的k和q,经过线性变换之后,通过tanh函数处理,再通过/>线性变换,W1、W2、W3是可学习的参数。
具体而言,也即使用去访问视频帧序列的动作级视觉特征Va和目标级视觉特征Vo以及和语言文本特征C,分别获得文本级上下文特征/>动作级上下文特征/>和目标级上下文特征/>上述的语言文本特征C,基于LSTM语言模型的历史细胞状态,其中,/>表示LSTM语言模型在第m步迭代获得的细胞信息,t表示当前步。由于,在首次迭代时,并不存在LSTM语言模型的历史细胞状态,因此,在首次迭代时,初始的语言文本特征,默认采用Xavier初始化方法生成。
S34、针对视频描述任务,在模型训练阶段,建立语法引导任务,所述语法引导任务与分层注意力网络共享可学习参数W1、W2、W3,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数所述上下文特征为上述步骤中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征,具体包括如下步骤:
S341、针对分层注意力网络在当前步所生成的文本级上下文特征动作级上下文特征/>和目标级上下文特征/>按如下公式进行计算,根据输入的上下文特征,通过Gumbel softmax函数预测当前步所生成单词的词性,是动词、名词还是其他词性:
其中,统一表示为/>统一表示为/>x∈{g,a,o},g、a、o分别对应各上下文特征的下标,/>为单词的词性,G表示一个取值范围在0至1的均匀采样噪声,τ是一个超参数,代表温度参数,控制Gumbel softmax的强度;通过Gumbel Softmax函数获得的词性结果/>是0和1的实值。
S342、根据如下公式进行损失函数计算:
其中,KLD(Kullback-Leibler divergence)表示KL散度,是参考文本的语法标签,t表示当前步,也即参考文本的第t个单词的语法标签,使用Spacy Tagging进行标注,one_hot是对标签的硬编码方式。
S4、根据分层的上下文信息利用语言模型生成单词:
本步骤中,根据所述文本级上下文特征、动作级上下文特征和目标级上下文特征,利用LSTM语言模型生成当前步的单词。为了区分本发明中多个LSTM网络,对本步骤中的注意力LSTM称为LSTM语言模型,符号为LSTMlang。在具体实现上,包括以下子步骤:
S41、拼接步骤S3获取的文本级上下文特征动作级上下文特征/>和目标级上下文特征信息/>输入LSTM语言模型,基于LSTM语言模型在上一步的隐藏层信息/>获得LSTM语言模型在当前步的隐藏层信息/>和细胞信息/>并通过softmax函数获得当前步的单词概率分布:
其中,LSTMlang表示LSTM语言模型;Wz,bz是网络可学习参数;Pt是一个词汇表向量,表示对于当前词汇表中的每个单词在当前步中被选择的概率值,每个词汇的概率值在0-1之间。
选择其中最大概率的单词,作为当前步预测的单词。
S42、对于步骤S41中获得的单词概率分布,进行监督学习,使用交叉熵损失作为目标函数,监督信息为参考文本的对应单词,并给定:
S5、在完成步骤S4后,即判断是否完成本轮训练,若完成则进入步骤S6,若未完成则跳转至步骤S3进入下一步迭代。
S6、根据损失函数判断是否完成训练,若完成则获得完成训练的模型,若未完成则跳转至步骤S1进入下一轮训练,包括如下步骤:
S61、针对视频问答任务和视频描述任务,在模型训练阶段,建立视觉辅助任务,所述视觉辅助任务与LSTM语言模型共享可学习参数Wz,bz,其根据在本轮训练中各步迭代的步骤S4获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤S1获得的静态特征作为监督信息,获得距离损失函数LV,包括如下步骤:
S611、根据LSTM语言模型在每一步迭代生成的隐藏层信息,基于以下公式对视觉信息进行重构:
其中,表示在本轮训练中各步迭代的步骤S4获得的LSTM语言模型的隐藏层信息,LSTMV表示视觉LSTM模型,/>是LSTMV在第i步的隐藏层信息,迭代次数为N,N为视频帧序列的帧数;在首次迭代时,所述/>由默认初始化方法生成。
S612、根据如下公式进行损失函数计算:
其中,L表示设定的文本单词数量,t表示当前步
其中,L表示设定的文本单词数量,t表示当前步。
S63、采用联合训练的方法,基于损失函数Ltotal判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至S1,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE
在完成模型训练后,即可利用完成训练的模型对视频问答任务或视频描述任务进行文本生成,流程如图3所示。
测试:
测试条件:系统:Ubuntu 18.04,软件:Python 3.6,处理器:Intel Xeon(R)CPUE5-2620v4@2.10GHz×2,内存:256GB。
视频描述任务测试,输入的视频帧序列如图4所示,结果如下:
GT:a man is being held up by a crowd of people who are cheering
Ours:a group of people are cheering at a concert while a man is crowd surfing
上述GT表示数据集给出的参考文本,Ours表示基于上述实施例获得的最终模型。下划线部分文字代表生成了较好的内容。根据实验结果可以看到,本方案生成的视频描述文本,内容具有丰富且准确信息,并很好地保存了语义一致性。
视频问答任务测试,输入的视频帧序列如图5所示,结果如下:
Q:who is throwing a ball at a puppy?
GT:girl
Ours:girl
上述GT表示数据集给出的参考文本,Ours表示基于上述实施例获得的最终模型。根据实验结果可以看到,本方案生成的模型,能得到具体准确的回答(girl),而不是简单笼统的(woman、man)这样的答案。
Claims (10)
1.一种基于层级表征网络的视频理解文本生成方法,应用于视频问答任务或视频描述任务,该方法包括以下步骤:
A、训练模型
A1、通过视觉特征提取器对输入的视频帧序列V进行特征提取,获取视频帧特征信息,所述视频帧特征信息包括静态特征、动态特征和目标特征;
A2、将获取的视频帧特征信息输入多层级编码器,对静态特征进行均值化操作获得全局向量,作为视频帧序列V的事件级特征Vg;通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列V的动作级视觉特征Va和目标级视觉特征Vo;
A3、对文本信息通过文本编码器进行编码,获得文本嵌套特征;
其中,针对视频问答任务,所述文本信息为输入的句子级文本信息,对句子中的各单词编码获得其词向量,并以各单词的词向量的均值作为文本嵌套特征;
针对视频描述任务,在首次迭代时,其文本信息为默认填充词,在首次迭代后,为上一步迭代中步骤A6获得的预测单词,并以该单词的词向量作为文本嵌套特征;
A4、拼接步骤A3获取的文本嵌套特征及步骤A2获取的事件级特征Vg,输入注意力LSTM模型,基于注意力LSTM模型在上一步迭代获得的隐藏层信息获得注意力LSTM模型在当前步的隐藏层信息/>t表示当前步;在首次迭代时,所述/>由默认初始化方法生成;
A5、根据步骤A4获得的注意力LSTM模型在当前步的隐藏层信息利用分层注意力网络,分别查询语言文本特征C、动作级视觉特征Va和目标级视觉特征Vo,获得文本级上下文特征/>动作级上下文特征/>和目标级上下文特征信息/>
A6、根据步骤A5获得的上下文特征和/>基于LSTM语言模型在上一步迭代获得的隐藏层信息/>获得LSTM语言模型在当前步的隐藏层信息/>和细胞信息/>t表示当前步;在首次迭代时,所述/>由默认初始化方法生成;
A7、基于设定的文本单词数量,判断是否完成文本生成,若完成,则进入步骤A8;若未完成,则跳转至步骤A3;在模型训练阶段,所述设定的文本单词数量为参考文本的单词数量;
A8、基于损失函数判断训练是否完成,若完成,则结束训练流程,获得完成训练的模型,若未完成,则跳转至A1;
B、基于设定的文本单词数量,利用完成训练的模型对视频问答任务或视频描述任务进行文本生成。
2.如权利要求1所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述步骤A2包括:
A21、通过对静态特征进行均值池化操作,获得全局视觉向量,作为视频帧序列的事件级特征Vg:
A22、通过线性变换对动态特征和目标特征进行处理,对应获得视频帧序列的动作级视觉特征Va和目标级视觉特征Vo:
7.如权利要求1、2、3、4或5所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,
针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A2中,建立跨模态匹配任务,所述跨模态匹配任务与所述步骤A2的多层级编码器共享可学习参数,其根据输入的视觉特征检索对应的文本特征,获得视觉特征与文本特征匹配结果,并根据匹配结果获得对比损失函数LM;其中,所述视觉特征为步骤A2中获得的事件级特征、动作级视觉特征和目标级视觉特征,所述文本特征为基于参考文本生成的事件级文本特征、动作级文本特征和目标级文本特征;
针对视频描述任务,在模型训练阶段,在所述步骤A5中,建立语法引导任务,所述语法引导任务与所述步骤A5的分层注意力网络共享可学习参数,其根据输入的上下文特征预测当前步所生成单词的词性,并根据预测的词性结果,以参考文本中第t个单词的词性作为监督信息,获得当前步的KL散度损失函数所述上下文特征为步骤A5中获得的当前步的文本级上下文特征、动作级上下文特征和目标级上下文特征;在步骤A8中,通过在本轮训练中各步迭代的语法引导任务获得的/>生成损失函数LS,并给定:/>其中,L表示设定的文本单词数量,t表示当前步;
在步骤A6中,根据当前步获得的单词概率分布Pt,计算交叉熵损失函数在步骤A8中,通过在本轮训练中各步迭代的步骤A6获得的/>生成损失函数LCE,并给定:/> 其中,L表示设定的文本单词数量,t表示当前步;
针对视频问答任务和视频描述任务,在模型训练阶段,在所述步骤A8中,建立视觉辅助任务,所述视觉辅助任务与所述步骤A6的LSTM语言模型共享可学习参数,其根据在本轮训练中各步迭代的步骤A6获得的LSTM语言模型的隐藏层信息,对视觉信息进行重构,并对重构的视觉信息,以步骤A1获得的静态特征作为监督信息,获得距离损失函数LV;
在步骤A8中,结合各损失函数构成本轮训练迭代的损失函数,并给定:
针对视频描述任务:Ltotal=LM+LS+LV+LCE
针对视频问答任务:Ltotal=LM+LV+LCE。
8.如权利要求7所述的一种基于层级表征网络的视频理解文本生成方法,其特征在于,所述跨模态匹配任务,包括如下步骤:
M2、基于以下公式进行跨模态匹配:
其中,为/>的统一表示,/>为Vg、/>和/>的统一表示;/>为/>的统一表示,/>为/>的统一表示,/>为/>的统一表示,x∈{a,o},a代表动作级,o代表目标级;[·]+≡max(·,0),α是超参数,/>表示第i帧视频与第j个文本信息的相似度,/>表示第i帧视频与第j个文本信息的权重,/>为匹配分数;
M3、根据如下公式进行损失函数计算:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111063055.3A CN113779310B (zh) | 2021-09-10 | 2021-09-10 | 一种基于层级表征网络的视频理解文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111063055.3A CN113779310B (zh) | 2021-09-10 | 2021-09-10 | 一种基于层级表征网络的视频理解文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779310A CN113779310A (zh) | 2021-12-10 |
CN113779310B true CN113779310B (zh) | 2023-06-02 |
Family
ID=78842568
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111063055.3A Active CN113779310B (zh) | 2021-09-10 | 2021-09-10 | 一种基于层级表征网络的视频理解文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779310B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115601553B (zh) * | 2022-08-15 | 2023-08-18 | 杭州联汇科技股份有限公司 | 一种基于多层级图片描述数据的视觉模型预训练方法 |
CN116089654B (zh) * | 2023-04-07 | 2023-07-07 | 杭州东上智能科技有限公司 | 一种基于音频监督的可转移视听文本生成方法和系统 |
CN116320622B (zh) * | 2023-05-17 | 2023-08-18 | 成都索贝数码科技股份有限公司 | 一种广播电视新闻视频转图文稿制作系统和制作方法 |
CN117478978A (zh) * | 2023-10-31 | 2024-01-30 | 西南大学 | 一种文本生成电影视频片段的方法、系统和设备 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763444A (zh) * | 2018-05-25 | 2018-11-06 | 杭州知智能科技有限公司 | 利用分层编码解码器网络机制来解决视频问答的方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
GB201911724D0 (en) * | 2019-08-15 | 2019-10-02 | Vision Semantics Ltd | Text based image search |
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
CN111814454A (zh) * | 2020-07-10 | 2020-10-23 | 重庆大学 | 一种社交网络上的多模态网络欺凌检测模型 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN112632230A (zh) * | 2020-12-30 | 2021-04-09 | 中国科学院空天信息创新研究院 | 一种基于多层级图网络的事件联合抽取方法及装置 |
CN113033189A (zh) * | 2021-04-08 | 2021-06-25 | 北京理工大学 | 一种基于注意力分散的长短期记忆网络的语义编码方法 |
CN113052149A (zh) * | 2021-05-20 | 2021-06-29 | 平安科技(深圳)有限公司 | 视频摘要生成方法、装置、计算机设备及介质 |
WO2021158692A1 (en) * | 2020-02-07 | 2021-08-12 | Apple Inc. | Using text for avatar animation |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10395118B2 (en) * | 2015-10-29 | 2019-08-27 | Baidu Usa Llc | Systems and methods for video paragraph captioning using hierarchical recurrent neural networks |
US11010561B2 (en) * | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
-
2021
- 2021-09-10 CN CN202111063055.3A patent/CN113779310B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763444A (zh) * | 2018-05-25 | 2018-11-06 | 杭州知智能科技有限公司 | 利用分层编码解码器网络机制来解决视频问答的方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
CN110298436A (zh) * | 2019-06-28 | 2019-10-01 | 乐山金蜜工业卫士服务股份有限公司 | 基于指针生成网络的数据到文本的生成模型 |
GB201911724D0 (en) * | 2019-08-15 | 2019-10-02 | Vision Semantics Ltd | Text based image search |
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
CN110929587A (zh) * | 2019-10-30 | 2020-03-27 | 杭州电子科技大学 | 一种基于层次注意力机制的双向重构网络视频描述方法 |
WO2021158692A1 (en) * | 2020-02-07 | 2021-08-12 | Apple Inc. | Using text for avatar animation |
CN111814454A (zh) * | 2020-07-10 | 2020-10-23 | 重庆大学 | 一种社交网络上的多模态网络欺凌检测模型 |
CN112559698A (zh) * | 2020-11-02 | 2021-03-26 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN112632230A (zh) * | 2020-12-30 | 2021-04-09 | 中国科学院空天信息创新研究院 | 一种基于多层级图网络的事件联合抽取方法及装置 |
CN113033189A (zh) * | 2021-04-08 | 2021-06-25 | 北京理工大学 | 一种基于注意力分散的长短期记忆网络的语义编码方法 |
CN113052149A (zh) * | 2021-05-20 | 2021-06-29 | 平安科技(深圳)有限公司 | 视频摘要生成方法、装置、计算机设备及介质 |
Non-Patent Citations (5)
Title |
---|
Hierarchical Representation Network With Auxiliary Tasks for Video Captioning and Video Question Answering;Lianli Gao等;《IEEE Transactions on Image Processing》;202-215 * |
Learning to discretely compose reasoning module networks for video captioning;Ganchao Tan等;《https://arxiv.org/abs/2007.09049》;video question LSTM KLD gumbel * |
基于GFU和分层LSTM的组群行为识别研究方法;王传旭;薛豪;;电子学报(第08期);11-17 * |
基于多特征的视频描述生成算法研究;曹磊;万旺根;侯丽;;电子测量技术(第16期);104-108 * |
多模态特征融合与多任务学习的特种视频分类;吴晓雨;顾超男;王生进;;光学精密工程(第05期);186-195 * |
Also Published As
Publication number | Publication date |
---|---|
CN113779310A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113779310B (zh) | 一种基于层级表征网络的视频理解文本生成方法 | |
Keneshloo et al. | Deep reinforcement learning for sequence-to-sequence models | |
US11862145B2 (en) | Deep hierarchical fusion for machine intelligence applications | |
Wen et al. | Dynamic interactive multiview memory network for emotion recognition in conversation | |
Yan et al. | Video captioning using global-local representation | |
CN113035311B (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN113723166A (zh) | 内容识别方法、装置、计算机设备和存储介质 | |
CN110888980A (zh) | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN112131883A (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
Ruwa et al. | Mood-aware visual question answering | |
Khan et al. | A deep neural framework for image caption generation using gru-based attention mechanism | |
CN116385937A (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN114387537A (zh) | 一种基于描述文本的视频问答方法 | |
CN111522924A (zh) | 一种带有主题感知的情感聊天式回复生成方法 | |
CN116912642A (zh) | 基于双模多粒度交互的多模态情感分析方法、设备及介质 | |
Zhang | Ideological and political empowering English teaching: ideological education based on artificial intelligence in classroom emotion recognition | |
CN111046157B (zh) | 一种基于平衡分布的通用英文人机对话生成方法和系统 | |
Xie et al. | A multimodal fusion emotion recognition method based on multitask learning and attention mechanism | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |