CN109815927B - 利用对抗双向交互网络解决视频时间文本定位任务的方法 - Google Patents

利用对抗双向交互网络解决视频时间文本定位任务的方法 Download PDF

Info

Publication number
CN109815927B
CN109815927B CN201910093894.6A CN201910093894A CN109815927B CN 109815927 B CN109815927 B CN 109815927B CN 201910093894 A CN201910093894 A CN 201910093894A CN 109815927 B CN109815927 B CN 109815927B
Authority
CN
China
Prior art keywords
video
text
representing
matrix
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910093894.6A
Other languages
English (en)
Other versions
CN109815927A (zh
Inventor
赵洲
成瑀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN201910093894.6A priority Critical patent/CN109815927B/zh
Publication of CN109815927A publication Critical patent/CN109815927A/zh
Application granted granted Critical
Publication of CN109815927B publication Critical patent/CN109815927B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用对抗双向交互网络解决视频时间文本定位任务的方法,主要包括如下步骤:1)设计一种对抗双向交互网络模型完成对于视频片段的定位及定位结果的判别。2)训练得到最终的对抗双向交互网络模型,利用该模型定位出与文本描述相关的视频片段。相比于一般的视频时间文本定位解决方案,本发明利用了对抗双向交互网络,能够更好地定位出与文本描述相关的视频片段。本发明在视频时间文本定位任务中所取得的效果相比于传统的方法更好。

Description

利用对抗双向交互网络解决视频时间文本定位任务的方法
技术领域
本发明涉及视频时间文本定位任务,尤其涉及一种利用对抗双向交互网络解决视频时间文本定位任务的方法。
背景技术
视频时间文本定位任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统可以针对于某个特定视频的描述,在视频中定位出与文本描述相关的视频片段。目前视频时间文本定位任务仍然是一个较为新颖的任务,对其的研究还不成熟。与一般的视频内容理解任务不同,视频时间文本定位任务需要对于视频及文本信息的综合理解,丰富复杂的视频及文本信息增加了该任务的难度。
目前已有的视频时间文本定位任务解决方法一般是利用视频动作定位的传统方法。使用一个滑动窗口结构来对于视频进行密集采样,之后分别计算采集的视频样本与所针对的视频描述文本之间的相关程度,将具有最大相关程度的视频样本作为视频时间文本定位的结果。此种方法由于采样的密集性需要巨大的计算量,同时该种方法缺乏了对于视频内容的长程语义理解。为了解决上述问题,本发明使用对抗双向交互网络来解决视频时间文本定位任务,提高视频时间文本定位任务形成视频定位片段的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频时间文本定位任务无法提供较为准确的视频定位片段的问题,本发明提供一种利用对抗双向交互网络解决视频时间文本定位任务的方法。本发明所采用的具体技术方案是:
利用对抗双向交互网络解决视频时间文本定位任务的方法,包含如下步骤:
1.设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段。
2.利用步骤1中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果。
3.利用步骤1设计的双向交互网络与步骤2设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。
上述步骤可具体采用如下实现方式:
对于视频时间文本定位任务中视频的每个帧输入到提前训练好的3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数。将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
Figure GDA0002711837350000031
Figure GDA0002711837350000032
Figure GDA0002711837350000033
Figure GDA0002711837350000034
其中,
Figure GDA0002711837350000035
Figure GDA0002711837350000036
分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,
Figure GDA0002711837350000037
Figure GDA0002711837350000038
代表前向LSTM网络计算第i次循环的隐层输出与状态值,
Figure GDA0002711837350000039
Figure GDA00027118373500000310
代表后向LSTM网络计算第i次循环的隐层输出与状态值,
Figure GDA00027118373500000311
代表视频中的第i个帧的语义表达,
Figure GDA00027118373500000312
代表将
Figure GDA00027118373500000313
Figure GDA00027118373500000314
进行连接计算。
对于视频时间文本定位任务中的输入文本,将文本中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数。将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
Figure GDA00027118373500000315
Figure GDA00027118373500000316
Figure GDA00027118373500000317
Figure GDA00027118373500000318
其中,
Figure GDA00027118373500000319
Figure GDA00027118373500000320
分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,
Figure GDA00027118373500000321
Figure GDA00027118373500000322
代表前向LSTM网络计算第j次循环的隐层输出与状态值,
Figure GDA0002711837350000041
Figure GDA0002711837350000042
代表后向LSTM网络计算第j次循环的隐层输出与状态值,
Figure GDA0002711837350000043
代表文本中的第j个单词的语义表达,
Figure GDA0002711837350000044
代表将
Figure GDA0002711837350000045
Figure GDA0002711837350000046
进行连接计算。
利用得到的视频各个帧的语义表达
Figure GDA0002711837350000047
与文本各个单词的语义表达
Figure GDA0002711837350000048
利用如下公式计算得到视频文本注意力矩阵M,M为n×m维矩阵,
Figure GDA0002711837350000049
其中,
Figure GDA00027118373500000410
Figure GDA00027118373500000411
代表可训练的权重矩阵,bm代表可训练的偏置向量,
Figure GDA00027118373500000412
代表可训练的权重向量wm的转置,tanh()代表双曲正切函数,Mij代表矩阵M第i行j列的元素。
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
Figure GDA00027118373500000413
Figure GDA00027118373500000414
其中,
Figure GDA00027118373500000415
代表矩阵Mrow的第i行j列的元素,
Figure GDA00027118373500000416
代表矩阵Mcol的第i行j列的元素,exp()代表以自然底数e为底的指数运算函数。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
Figure GDA00027118373500000417
其中,
Figure GDA0002711837350000051
代表矩阵Mcol的转置矩阵。
利用得到的视频自注意力矩阵D与视频各个帧的语义表达
Figure GDA0002711837350000052
Figure GDA0002711837350000053
按照如下公式计算得到视频利用文本指引的语义表达
Figure GDA0002711837350000054
Figure GDA0002711837350000055
Figure GDA0002711837350000056
其中,
Figure GDA0002711837350000057
代表视频第i帧对应的文本指引的自注意力输出,
Figure GDA0002711837350000058
代表将
Figure GDA0002711837350000059
Figure GDA00027118373500000510
进行连接计算。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
Figure GDA00027118373500000511
其中,
Figure GDA00027118373500000512
代表矩阵Mcol的转置矩阵。
利用得到的文本自注意力矩阵L与文本各个单词的语义表达
Figure GDA00027118373500000513
Figure GDA00027118373500000514
按照如下公式计算得到文本利用视频指引的语义表达
Figure GDA00027118373500000515
Figure GDA00027118373500000516
Figure GDA00027118373500000517
其中,
Figure GDA00027118373500000518
代表文本第i个单词对应的视频指引的自注意力输出,
Figure GDA00027118373500000519
代表将
Figure GDA00027118373500000520
Figure GDA00027118373500000521
进行连接计算。
利用得到的视频利用文本指引的语义表达
Figure GDA0002711837350000061
与文本利用视频指引的语义表达
Figure GDA0002711837350000062
按照如下公式计算得到注意力矩阵S,S为n×m维矩阵,
Figure GDA0002711837350000063
其中,
Figure GDA0002711837350000064
Figure GDA0002711837350000065
代表可训练的权重向量,bs代表可训练的偏置向量,
Figure GDA0002711837350000066
代表可训练的权重向量ws的转置,tanh()代表双曲正切函数,Sij代表矩阵S第i行j列的元素。
利用得到的视频利用文本指引的语义表达
Figure GDA0002711837350000067
文本利用视频指引的语义表达
Figure GDA0002711837350000068
注意力矩阵S,按照如下公式计算得到多模态混合表达
Figure GDA0002711837350000069
Figure GDA00027118373500000610
Figure GDA00027118373500000611
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij计算其对应注意力矩阵S第i行所有元素计算softmax函数值。
Figure GDA00027118373500000612
代表与视频第i帧相关的聚合文本表达,
Figure GDA00027118373500000613
代表多模态混合表达Hf第i维的表达,wf代表可训练的权重向量,bf代表可训练的偏置向量,
Figure GDA00027118373500000614
代表按元素相乘。
将得到的多模态混合表达
Figure GDA00027118373500000615
依次输入到双向LSTM网络中,得到多模态上下文表达
Figure GDA00027118373500000616
利用如下公式计算得到视频帧级别的相关程度分布
Figure GDA00027118373500000617
pf为n维向量,
Figure GDA0002711837350000071
其中,
Figure GDA0002711837350000072
代表可训练的权重向量wf的转置,bf代表可训练的偏置值,σ()代表sigmoid函数计算。
利用得到的视频帧级别的相关程度分布
Figure GDA0002711837350000073
按照如下公式计算得到拥有最大联合相关程度的视频目标片段的起始位置
Figure GDA0002711837350000074
与结尾位置
Figure GDA0002711837350000075
Figure GDA0002711837350000076
Figure GDA0002711837350000077
Figure GDA0002711837350000078
其中,pin代表在选取的视频目标片段内帧的联合相关程度,pout代表在选取的视频目标片段外帧的联合负相关程度,
Figure GDA0002711837350000079
Figure GDA00027118373500000710
代表视频帧级别的相关程度分布pf中第j维与第k维的值。
利用训练数据中真实的与文本描述相关的视频片段情况,得到真实的视频帧级别的相关程度分布
Figure GDA00027118373500000711
其中
Figure GDA00027118373500000712
代表视频的第i帧在真实的与文本描述相关的视频片段中,
Figure GDA00027118373500000713
代表视频的第i帧不在真实的与文本描述相关的视频片段中。
利用得到的视频帧级别的相关程度分布
Figure GDA00027118373500000714
与真实的视频帧级别的相关程度分布
Figure GDA00027118373500000715
按照如下公式计算得到视频时间文本定位的损失函数Lloc(θ),
Figure GDA00027118373500000716
Figure GDA0002711837350000081
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值。
在利用上述方法获得双向交互网络Gθ(v,s)后,可以得到视频帧级别的相关程度分布
Figure GDA0002711837350000082
与拥有最大联合相关程度的视频目标片段的起始位置
Figure GDA0002711837350000083
与结尾位置
Figure GDA0002711837350000084
利用得到的视频帧级别的相关程度分布
Figure GDA0002711837350000085
与视频各个帧的语义表达
Figure GDA0002711837350000086
按照如下公式计算得到全局视频特征vf
Figure GDA0002711837350000087
利用得到的真实的视频帧级别的相关程度分布
Figure GDA0002711837350000088
Figure GDA0002711837350000089
与视频各个帧的语义表达
Figure GDA00027118373500000810
按照如下公式计算得到真实的全局视频特征vgt
Figure GDA00027118373500000811
利用得到的文本各个单词的语义表达
Figure GDA00027118373500000812
按照如下公式计算得到全局文本特征sd
Figure GDA00027118373500000813
Figure GDA00027118373500000814
其中,
Figure GDA00027118373500000815
为可训练的权重向量wγ的转置。
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff
Figure GDA0002711837350000091
Figure GDA0002711837350000092
其中,wl
Figure GDA0002711837350000093
为可训练的权重向量,bl
Figure GDA0002711837350000094
代表可训练的偏置向量,
Figure GDA0002711837350000095
代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt
Figure GDA0002711837350000096
Figure GDA0002711837350000097
其中,wl′、
Figure GDA0002711837350000098
为可训练的权重向量,bl′、
Figure GDA0002711837350000099
代表可训练的偏置向量,
Figure GDA00027118373500000910
代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的全局视频特征与全局文本特征的匹配分数Ff及真实的全局视频特征与全局文本特征的匹配分数Fgt,按照如下公式对于双向交互网络Gθ(v,s)及辅助判别网络
Figure GDA00027118373500000911
进行训练,
Figure GDA00027118373500000912
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
对于辅助判别网络
Figure GDA00027118373500000913
训练时,训练损失函数为,
Figure GDA00027118373500000914
在对于对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
Figure GDA0002711837350000101
其中,N代表训练数据中样本数量,Lloc(θ)代表得到的视频时间文本定位的损失函数。
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
Figure GDA0002711837350000102
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表得到的视频时间文本定位的损失函数,Laux(θ)代表得到的双向交互网络Gθ(v,s)的损失函数。
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,
Figure GDA0002711837350000103
作为对抗双向交互网络中辅助判别网络
Figure GDA0002711837350000104
的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络
Figure GDA0002711837350000105
达到平衡。
在对抗双向交互网络训练完成后,对于输入的视频及文本描述,利用计算得到的拥有最大联合相关程度的视频目标片段的起始位置
Figure GDA0002711837350000106
与结尾位置
Figure GDA0002711837350000107
找到与文本描述相关的视频片段,完成视频时间文本定位任务。
附图说明
图1是根据本发明的一实施例的用于解决视频时间文本定位任务的对抗双向交互网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用对抗双向交互网络解决视频时间文本定位任务的方法包括如下步骤:
1)设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段;
2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1)获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果;
3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。
所述步骤1),其具体步骤为:
对于视频时间文本定位任务中视频的每个帧输入到提前训练好的3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数。将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
Figure GDA0002711837350000121
Figure GDA0002711837350000122
Figure GDA0002711837350000123
Figure GDA0002711837350000124
其中,
Figure GDA0002711837350000125
Figure GDA0002711837350000126
分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,
Figure GDA0002711837350000127
Figure GDA0002711837350000128
代表前向LSTM网络计算第i次循环的隐层输出与状态值,
Figure GDA0002711837350000129
Figure GDA00027118373500001210
代表后向LSTM网络计算第i次循环的隐层输出与状态值,
Figure GDA00027118373500001211
代表视频中的第i个帧的语义表达,
Figure GDA00027118373500001212
代表将
Figure GDA00027118373500001213
Figure GDA00027118373500001214
进行连接计算。
对于视频时间文本定位任务中的输入文本,将文本中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数。将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
Figure GDA00027118373500001215
Figure GDA00027118373500001216
Figure GDA00027118373500001217
Figure GDA00027118373500001218
其中,
Figure GDA00027118373500001219
Figure GDA00027118373500001220
分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,
Figure GDA00027118373500001221
Figure GDA00027118373500001222
代表前向LSTM网络计算第j次循环的隐层输出与状态值,
Figure GDA0002711837350000131
Figure GDA0002711837350000132
代表后向LSTM网络计算第j次循环的隐层输出与状态值,
Figure GDA0002711837350000133
代表文本中的第j个单词的语义表达,
Figure GDA0002711837350000134
代表将
Figure GDA0002711837350000135
Figure GDA0002711837350000136
进行连接计算。
利用得到的视频各个帧的语义表达
Figure GDA0002711837350000137
与文本各个单词的语义表达
Figure GDA0002711837350000138
利用如下公式计算得到视频文本注意力矩阵M,M为n×m维矩阵,
Figure GDA0002711837350000139
其中,
Figure GDA00027118373500001310
Figure GDA00027118373500001311
代表可训练的权重向量,bm代表可训练的偏置向量,
Figure GDA00027118373500001312
代表可训练的权重向量wm的转置,tanh()代表双曲正切函数,Mij代表矩阵M第i行j列的元素。
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
Figure GDA00027118373500001313
Figure GDA00027118373500001314
其中,
Figure GDA00027118373500001315
代表矩阵Mrow的第i行j列的元素,
Figure GDA00027118373500001316
代表矩阵Mcol的第i行j列的元素,exp()代表以自然底数e为底的指数运算函数。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
Figure GDA00027118373500001317
其中,
Figure GDA0002711837350000141
代表矩阵Mcol的转置矩阵。
利用得到的视频自注意力矩阵D与视频各个帧的语义表达
Figure GDA0002711837350000142
Figure GDA0002711837350000143
按照如下公式计算得到视频利用文本指引的语义表达
Figure GDA0002711837350000144
Figure GDA0002711837350000145
Figure GDA0002711837350000146
其中,
Figure GDA0002711837350000147
代表视频第i帧对应的文本指引的自注意力输出,
Figure GDA0002711837350000148
代表将
Figure GDA0002711837350000149
Figure GDA00027118373500001410
进行连接计算。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
Figure GDA00027118373500001411
其中,
Figure GDA00027118373500001412
代表矩阵Mcol的转置矩阵。
利用得到的文本自注意力矩阵L与文本各个单词的语义表达
Figure GDA00027118373500001413
Figure GDA00027118373500001414
按照如下公式计算得到文本利用视频指引的语义表达
Figure GDA00027118373500001415
Figure GDA00027118373500001416
Figure GDA00027118373500001417
其中,
Figure GDA00027118373500001418
代表文本第i个单词对应的视频指引的自注意力输出,
Figure GDA00027118373500001419
代表将
Figure GDA00027118373500001420
Figure GDA00027118373500001421
进行连接计算。
利用得到的视频利用文本指引的语义表达
Figure GDA0002711837350000151
与文本利用视频指引的语义表达
Figure GDA0002711837350000152
按照如下公式计算得到注意力矩阵S,S为n×m维矩阵,
Figure GDA0002711837350000153
其中,
Figure GDA0002711837350000154
Figure GDA0002711837350000155
代表可训练的权重向量,bs代表可训练的偏置向量,
Figure GDA0002711837350000156
代表可训练的权重向量ws的转置,tanh()代表双曲正切函数,Sij代表矩阵S第i行j列的元素。
利用得到的视频利用文本指引的语义表达
Figure GDA0002711837350000157
文本利用视频指引的语义表达
Figure GDA0002711837350000158
注意力矩阵S,按照如下公式计算得到多模态混合表达
Figure GDA0002711837350000159
Figure GDA00027118373500001510
Figure GDA00027118373500001511
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij,在矩阵S于列方向做softmax计算后的值。
Figure GDA00027118373500001512
代表与视频第i帧相关的聚合文本表达,
Figure GDA00027118373500001513
代表多模态混合表达Hf第i维的表达,wf代表可训练的权重向量,bf代表可训练的偏置向量,
Figure GDA00027118373500001514
代表按元素相乘。
将得到的多模态混合表达
Figure GDA00027118373500001515
依次输入到双向LSTM网络中,得到多模态上下文表达
Figure GDA00027118373500001516
利用如下公式计算得到视频帧级别的相关程度分布
Figure GDA00027118373500001517
pf为n维向量,
Figure GDA0002711837350000161
其中,
Figure GDA0002711837350000162
代表可训练的权重向量wf的转置,bf代表可训练的偏置值,σ()代表sigmoid函数计算。
利用得到的视频帧级别的相关程度分布
Figure GDA0002711837350000163
按照如下公式计算得到拥有最大联合相关程度的视频目标片段的起始位置
Figure GDA0002711837350000164
与结尾位置
Figure GDA0002711837350000165
Figure GDA0002711837350000166
Figure GDA0002711837350000167
Figure GDA0002711837350000168
其中,pin代表在选取的视频目标片段内帧的联合相关程度,pout代表在选取的视频目标片段外帧的联合负相关程度,
Figure GDA0002711837350000169
Figure GDA00027118373500001610
代表视频帧级别的相关程度分布pf中第j维与第k维的值。
利用训练数据中真实的与文本描述相关的视频片段情况,得到真实的视频帧级别的相关程度分布
Figure GDA00027118373500001611
其中
Figure GDA00027118373500001612
代表视频的第i帧在真实的与文本描述相关的视频片段中,
Figure GDA00027118373500001613
代表视频的第i帧不在真实的与文本描述相关的视频片段中。
利用得到的视频帧级别的相关程度分布
Figure GDA00027118373500001614
与真实的视频帧级别的相关程度分布
Figure GDA00027118373500001615
按照如下公式计算得到视频时间文本定位的损失函数Lloc(θ),
Figure GDA00027118373500001616
Figure GDA00027118373500001617
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值。
在利用上述方法获得双向交互网络Gθ(v,s)后,可以得到视频帧级别的相关程度分布
Figure GDA0002711837350000171
与拥有最大联合相关程度的视频目标片段的起始位置
Figure GDA0002711837350000172
与结尾位置
Figure GDA0002711837350000173
所述步骤2),其具体步骤为:
利用步骤1)得到的视频帧级别的相关程度分布
Figure GDA0002711837350000174
Figure GDA0002711837350000175
与视频各个帧的语义表达
Figure GDA0002711837350000176
按照如下公式计算得到全局视频特征vf
Figure GDA0002711837350000177
利用步骤1)得到的真实的视频帧级别的相关程度分布
Figure GDA0002711837350000178
Figure GDA0002711837350000179
与视频各个帧的语义表达
Figure GDA00027118373500001710
按照如下公式计算得到真实的全局视频特征vgt
Figure GDA00027118373500001711
利用步骤1)得到的文本各个单词的语义表达
Figure GDA00027118373500001712
按照如下公式计算得到全局文本特征sd
Figure GDA00027118373500001713
Figure GDA00027118373500001714
其中,
Figure GDA00027118373500001715
为可训练的权重向量wγ的转置。
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff
Figure GDA0002711837350000181
Figure GDA0002711837350000182
其中,wl
Figure GDA0002711837350000183
为可训练的权重向量,bl
Figure GDA0002711837350000184
代表可训练的偏置向量,
Figure GDA0002711837350000185
代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt
Figure GDA0002711837350000186
Figure GDA0002711837350000187
其中,wl′、
Figure GDA0002711837350000188
为可训练的权重向量,bl′、
Figure GDA0002711837350000189
代表可训练的偏置向量,
Figure GDA00027118373500001810
代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的全局视频特征与全局文本特征的匹配分数Ff及真实的全局视频特征与全局文本特征的匹配分数Fgt,按照如下公式对于双向交互网络Gθ(v,s)及辅助判别网络
Figure GDA00027118373500001811
进行训练,
Figure GDA00027118373500001812
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
对于辅助判别网络
Figure GDA00027118373500001813
训练时,训练损失函数为,
Figure GDA00027118373500001814
所述步骤3),其具体步骤为:
在对于对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
Figure GDA0002711837350000191
其中,N代表训练数据中样本数量,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数。
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
Figure GDA0002711837350000192
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数,Laux(θ)代表步骤3)得到的双向交互网络Gθ(v,s)的损失函数。
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,
Figure GDA0002711837350000193
作为对抗双向交互网络中辅助判别网络
Figure GDA0002711837350000194
的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络
Figure GDA0002711837350000195
达到平衡。
在对抗双向交互网络训练完成后,对于输入的视频及文本描述,利用计算得到的拥有最大联合相关程度的视频目标片段的起始位置
Figure GDA0002711837350000196
与结尾位置
Figure GDA0002711837350000197
找到与文本描述相关的视频片段,完成视频时间文本定位任务。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的ActivityNet实验数据集及TACoS实验数据集上进行实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对于ActivityNet实验数据集分别使用了平均交并比(mIoU),交并比@0.1(mIoU@0.1),交并比@0.3(mIoU@0.3),交并比@0.5(mIoU@0.5),交并比@0.7(mIoU@0.7)评价标准来对于本发明的效果进行评价,对于TACoS实验数据集分别使用了平均交并比(mIoU),交并比@0.1(mIoU@0.1),交并比@0.3(mIoU@0.3),交并比@0.5(mIoU@0.5)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为ABIN(full):
表1本发明针对于ActivityNet数据集的测试结果
Figure GDA0002711837350000211
表2本发明针对于TACoS数据集的测试结果
Figure GDA0002711837350000212

Claims (3)

1.利用对抗双向交互网络解决视频时间文本定位任务的方法,用于解决视频时间文本定位任务,其中视频时间文本定位任务包括用户输入的文本描述,由帧图像组成的视频,其特征在于包括如下步骤:
1)设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段;
2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1)获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果;
3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段,
其中所述步骤1),具体为:
对于视频时间文本定位任务中视频的每个帧图像输入到提前训练好的3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数;将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
Figure FDA0002711837340000011
Figure FDA0002711837340000012
Figure FDA0002711837340000013
Figure FDA0002711837340000021
Figure FDA0002711837340000022
其中,
Figure FDA0002711837340000023
Figure FDA0002711837340000024
分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,
Figure FDA0002711837340000025
Figure FDA0002711837340000026
代表前向LSTM网络计算第i次循环的隐层输出与状态值,
Figure FDA0002711837340000027
Figure FDA0002711837340000028
代表后向LSTM网络计算第i次循环的隐层输出与状态值,
Figure FDA0002711837340000029
代表视频中的第i个帧的语义表达,
Figure FDA00027118373400000210
代表将
Figure FDA00027118373400000211
Figure FDA00027118373400000212
进行连接计算;
对于视频时间文本定位任务中的输入的文本描述,将文本描述中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数;将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
Figure FDA00027118373400000213
Figure FDA00027118373400000214
Figure FDA00027118373400000215
Figure FDA00027118373400000216
其中,
Figure FDA00027118373400000217
Figure FDA00027118373400000218
分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,
Figure FDA00027118373400000219
Figure FDA00027118373400000220
代表前向LSTM网络计算第j次循环的隐层输出与状态值,
Figure FDA00027118373400000221
Figure FDA00027118373400000222
代表后向LSTM网络计算第j次循环的隐层输出与状态值,
Figure FDA00027118373400000223
代表文本中的第j个单词的语义表达,
Figure FDA00027118373400000224
代表将
Figure FDA00027118373400000225
Figure FDA00027118373400000226
进行连接计算;
利用得到的视频各个帧的语义表达
Figure FDA0002711837340000031
与文本各个单词的语义表达
Figure FDA0002711837340000032
利用如下公式计算得到视频文本注意力矩阵M,M为n×m维矩阵,
Figure FDA0002711837340000033
其中,
Figure FDA0002711837340000034
Figure FDA0002711837340000035
代表可训练的权重向量,bm代表可训练的偏置向量,
Figure FDA0002711837340000036
代表可训练的权重向量wm的转置,tanh()代表双曲正切函数,Mij代表矩阵M第i行j列的元素;
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
Figure FDA0002711837340000037
Figure FDA0002711837340000038
其中,
Figure FDA0002711837340000039
代表矩阵Mrow的第i行j列的元素,
Figure FDA00027118373400000310
代表矩阵Mcol的第i行j列的元素,exp()代表以自然底数e为底的指数运算函数;
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
Figure FDA00027118373400000313
其中,
Figure FDA00027118373400000314
代表矩阵Mcol的转置矩阵;
利用得到的视频自注意力矩阵D与视频各个帧的语义表达
Figure FDA00027118373400000311
Figure FDA00027118373400000312
按照如下公式计算得到视频利用文本指引的语义表达
Figure FDA0002711837340000041
Figure FDA0002711837340000042
Figure FDA0002711837340000043
其中,
Figure FDA0002711837340000044
代表视频第i帧对应的文本指引的自注意力输出,
Figure FDA0002711837340000045
代表将
Figure FDA0002711837340000046
Figure FDA0002711837340000047
进行连接计算;
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
Figure FDA00027118373400000418
其中,
Figure FDA00027118373400000419
代表矩阵Mcol的转置矩阵;
利用得到的文本自注意力矩阵L与文本各个单词的语义表达
Figure FDA0002711837340000048
按照如下公式计算得到文本利用视频指引的语义表达
Figure FDA0002711837340000049
Figure FDA00027118373400000410
Figure FDA00027118373400000411
其中,
Figure FDA00027118373400000412
代表文本第i个单词对应的视频指引的自注意力输出,
Figure FDA00027118373400000413
代表将
Figure FDA00027118373400000414
Figure FDA00027118373400000415
进行连接计算;
利用得到的视频利用文本指引的语义表达
Figure FDA00027118373400000416
与文本利用视频指引的语义表达
Figure FDA00027118373400000417
按照如下公式计算得到注意力矩阵S,S为n×m维矩阵,
Figure FDA0002711837340000051
其中,
Figure FDA0002711837340000052
Figure FDA0002711837340000053
代表可训练的权重向量,bs代表可训练的偏置向量,
Figure FDA0002711837340000054
代表可训练的权重向量wS的转置,tanh()代表双曲正切函数,Sij代表矩阵S第i行j列的元素;
利用得到的视频利用文本指引的语义表达
Figure FDA0002711837340000055
文本利用视频指引的语义表达
Figure FDA0002711837340000056
注意力矩阵S,按照如下公式计算得到多模态混合表达
Figure FDA0002711837340000057
Figure FDA0002711837340000058
Figure FDA0002711837340000059
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij,在矩阵S于列方向做softmax计算后的值;
Figure FDA00027118373400000510
代表与视频第i帧相关的聚合文本表达,
Figure FDA00027118373400000511
代表多模态混合表达Hf第i维的表达,wf代表可训练的权重向量,bf代表可训练的偏置向量,
Figure FDA00027118373400000512
代表按元素相乘;
将得到的多模态混合表达
Figure FDA00027118373400000513
依次输入到双向LSTM网络中,得到多模态上下文表达
Figure FDA00027118373400000514
利用如下公式计算得到视频帧级别的相关程度分布
Figure FDA00027118373400000515
pf为n维向量,
Figure FDA00027118373400000516
其中,
Figure FDA00027118373400000517
代表可训练的权重向量wf的转置,bf代表可训练的偏置值,σ()代表sigmoid函数计算;
利用得到的视频帧级别的相关程度分布
Figure FDA0002711837340000061
按照如下公式计算得到拥有最大联合相关程度的视频目标片段的起始位置
Figure FDA0002711837340000062
与结尾位置
Figure FDA0002711837340000063
Figure FDA0002711837340000064
Figure FDA0002711837340000065
Figure FDA0002711837340000066
其中,pin代表在选取的视频目标片段内帧的联合相关程度,pout代表在选取的视频目标片段外帧的联合负相关程度,
Figure FDA0002711837340000067
Figure FDA0002711837340000068
代表视频帧级别的相关程度分布pf中第j维与第k维的值;
利用训练数据中真实的与文本描述相关的视频片段情况,得到真实的视频帧级别的相关程度分布
Figure FDA0002711837340000069
其中
Figure FDA00027118373400000610
Figure FDA00027118373400000611
代表视频的第i帧在真实的与文本描述相关的视频片段中,
Figure FDA00027118373400000612
代表视频的第i帧不在真实的与文本描述相关的视频片段中;
利用得到的视频帧级别的相关程度分布
Figure FDA00027118373400000613
与真实的视频帧级别的相关程度分布
Figure FDA00027118373400000614
按照如下公式计算得到视频时间文本定位的损失函数Lloc(θ),
Figure FDA00027118373400000615
Figure FDA00027118373400000616
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值;
在利用上述方法获得双向交互网络Gθ(v,s)后,可以得到视频帧级别的相关程度分布
Figure FDA00027118373400000617
与拥有最大联合相关程度的视频目标片段的起始位置
Figure FDA0002711837340000071
与结尾位置
Figure FDA0002711837340000072
2.根据权利要求1所述的利用对抗双向交互网络解决视频时间文本定位任务的方法,其特征在于,所述步骤2),具体为:
利用步骤1)得到的视频帧级别的相关程度分布
Figure FDA0002711837340000073
Figure FDA0002711837340000074
与视频各个帧的语义表达
Figure FDA0002711837340000075
按照如下公式计算得到全局视频特征vf
Figure FDA0002711837340000076
利用步骤1)得到的真实的视频帧级别的相关程度分布
Figure FDA0002711837340000077
Figure FDA0002711837340000078
与视频各个帧的语义表达
Figure FDA0002711837340000079
按照如下公式计算得到真实的全局视频特征vgt
Figure FDA00027118373400000710
利用步骤1)得到的文本各个单词的语义表达
Figure FDA00027118373400000711
Figure FDA00027118373400000712
按照如下公式计算得到全局文本特征sd
Figure FDA00027118373400000713
Figure FDA00027118373400000714
其中,
Figure FDA00027118373400000715
为可训练的权重向量wγ的转置;
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff
Figure FDA00027118373400000716
Figure FDA00027118373400000717
其中,wl
Figure FDA0002711837340000081
为可训练的权重向量,bl
Figure FDA0002711837340000082
代表可训练的偏置向量,
Figure FDA0002711837340000083
代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算;
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt
Figure FDA0002711837340000084
Figure FDA0002711837340000085
其中,wl′、
Figure FDA0002711837340000086
为可训练的权重向量,bl′、
Figure FDA0002711837340000087
代表可训练的偏置向量,
Figure FDA0002711837340000088
代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算;
利用得到的全局视频特征与全局文本特征的匹配分数Ff及真实的全局视频特征与全局文本特征的匹配分数Fgt,按照如下公式对于双向交互网络Gθ(v,s)及辅助判别网络
Figure FDA0002711837340000089
进行训练,
Figure FDA00027118373400000810
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
对于辅助判别网络
Figure FDA00027118373400000811
训练时,训练损失函数为,
Figure FDA00027118373400000812
3.根据权利要求2所述的利用对抗双向交互网络解决视频时间文本定位任务的方法,其特征在于,所述步骤3)具体为:
在对于利用对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
Figure FDA0002711837340000091
其中,N代表训练数据中样本数量,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数;
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
Figure FDA0002711837340000092
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数,Laux(θ)代表步骤2)得到的双向交互网络Gθ(v,s)的损失函数;
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,
Figure FDA0002711837340000093
作为对抗双向交互网络中辅助判别网络
Figure FDA0002711837340000094
的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络
Figure FDA0002711837340000095
达到平衡;
在对抗双向交互网络训练完成后,对于输入的视频及文本描述,利用计算得到的拥有最大联合相关程度的视频目标片段的起始位置
Figure FDA0002711837340000096
与结尾位置
Figure FDA0002711837340000097
找到与文本描述相关的视频片段,完成视频时间文本定位任务。
CN201910093894.6A 2019-01-30 2019-01-30 利用对抗双向交互网络解决视频时间文本定位任务的方法 Active CN109815927B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910093894.6A CN109815927B (zh) 2019-01-30 2019-01-30 利用对抗双向交互网络解决视频时间文本定位任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910093894.6A CN109815927B (zh) 2019-01-30 2019-01-30 利用对抗双向交互网络解决视频时间文本定位任务的方法

Publications (2)

Publication Number Publication Date
CN109815927A CN109815927A (zh) 2019-05-28
CN109815927B true CN109815927B (zh) 2021-04-23

Family

ID=66605944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910093894.6A Active CN109815927B (zh) 2019-01-30 2019-01-30 利用对抗双向交互网络解决视频时间文本定位任务的方法

Country Status (1)

Country Link
CN (1) CN109815927B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377792B (zh) * 2019-06-14 2021-09-21 浙江大学 基于跨模型交互网络实现问题-视频片段抽取任务的方法
CN110378269A (zh) * 2019-07-10 2019-10-25 浙江大学 通过影像查询定位视频中未预习的活动的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193918A (zh) * 2010-03-01 2011-09-21 汉王科技股份有限公司 视频检索方法和装置
CN102595191A (zh) * 2012-02-24 2012-07-18 央视国际网络有限公司 体育赛事视频中赛事事件的搜索方法及装置
US10013487B2 (en) * 2015-11-04 2018-07-03 Viscovery Pte. Ltd. System and method for multi-modal fusion based fault-tolerant video content recognition
CN108596265A (zh) * 2018-05-02 2018-09-28 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193918A (zh) * 2010-03-01 2011-09-21 汉王科技股份有限公司 视频检索方法和装置
CN102595191A (zh) * 2012-02-24 2012-07-18 央视国际网络有限公司 体育赛事视频中赛事事件的搜索方法及装置
US10013487B2 (en) * 2015-11-04 2018-07-03 Viscovery Pte. Ltd. System and method for multi-modal fusion based fault-tolerant video content recognition
CN108596265A (zh) * 2018-05-02 2018-09-28 中山大学 基于文本描述信息和生成对抗网络的视频生成模型
CN108932304A (zh) * 2018-06-12 2018-12-04 山东大学 基于跨模态的视频时刻定位方法、系统及存储介质
CN108986186A (zh) * 2018-08-14 2018-12-11 山东师范大学 文字转化视频的方法和系统

Also Published As

Publication number Publication date
CN109815927A (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
CN110516085B (zh) 基于双向注意力的图像文本互检索方法
CN109948165B (zh) 基于混合注意力网络的细粒度情感极性预测方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN109766427B (zh) 一种基于协同注意力的虚拟学习环境智能问答方法
CN110188598A (zh) 一种基于MobileNet-v2的实时手部姿态估计方法
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
CN109655815B (zh) 基于ssd的声呐目标检测方法
CN110377792B (zh) 基于跨模型交互网络实现问题-视频片段抽取任务的方法
CN114841243B (zh) 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN110377711B (zh) 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN113204633B (zh) 一种语义匹配蒸馏方法及装置
CN108764280B (zh) 一种基于症状向量的医学数据处理方法和系统
CN109815927B (zh) 利用对抗双向交互网络解决视频时间文本定位任务的方法
CN110046271A (zh) 一种基于声音指导的遥感图像描述方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN111401105A (zh) 一种视频表情识别方法、装置及设备
CN116229519A (zh) 一种基于知识蒸馏的二维人体姿态估计方法
CN113609326B (zh) 基于外部知识和目标间关系的图像描述生成方法
CN114239612A (zh) 一种多模态神经机器翻译方法、计算机设备及存储介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN110032948A (zh) 一种基于交互时序信息的草图手势识别方法
CN108197320A (zh) 一种多视图图像自动标注方法
He et al. Image captioning algorithm based on multi-branch cnn and bi-lstm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant