CN109815927A - 利用对抗双向交互网络解决视频时间文本定位任务的方法 - Google Patents
利用对抗双向交互网络解决视频时间文本定位任务的方法 Download PDFInfo
- Publication number
- CN109815927A CN109815927A CN201910093894.6A CN201910093894A CN109815927A CN 109815927 A CN109815927 A CN 109815927A CN 201910093894 A CN201910093894 A CN 201910093894A CN 109815927 A CN109815927 A CN 109815927A
- Authority
- CN
- China
- Prior art keywords
- video
- text
- matrix
- represent
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用对抗双向交互网络解决视频时间文本定位任务的方法,主要包括如下步骤:1)设计一种对抗双向交互网络模型完成对于视频片段的定位及定位结果的判别。2)训练得到最终的对抗双向交互网络模型,利用该模型定位出与文本描述相关的视频片段。相比于一般的视频时间文本定位解决方案,本发明利用了对抗双向交互网络,能够更好地定位出与文本描述相关的视频片段。本发明在视频时间文本定位任务中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及视频时间文本定位任务,尤其涉及一种利用对抗双向交互网络解决视频时间文本定位任务的方法。
背景技术
视频时间文本定位任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统可以针对于某个特定视频的描述,在视频中定位出与文本描述相关的视频片段。目前视频时间文本定位任务仍然是一个较为新颖的任务,对其的研究还不成熟。与一般的视频内容理解任务不同,视频时间文本定位任务需要对于视频及文本信息的综合理解,丰富复杂的视频及文本信息增加了该任务的难度。
目前已有的视频时间文本定位任务解决方法一般是利用视频动作定位的传统方法。使用一个滑动窗口结构来对于视频进行密集采样,之后分别计算采集的视频样本与所针对的视频描述文本之间的相关程度,将具有最大相关程度的视频样本作为视频时间文本定位的结果。此种方法由于采样的密集性需要巨大的计算量,同时该种方法缺乏了对于视频内容的长程语义理解。为了解决上述问题,本发明使用对抗双向交互网络来解决视频时间文本定位任务,提高视频时间文本定位任务形成视频定位片段的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频时间文本定位任务无法提供较为准确的视频定位片段的问题,本发明提供一种利用对抗双向交互网络解决视频时间文本定位任务的方法。本发明所采用的具体技术方案是:
利用对抗双向交互网络解决视频时间文本定位任务的方法,包含如下步骤:
1.设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段。
2.利用步骤1中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果。
3.利用步骤1设计的双向交互网络与步骤2设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。
上述步骤可具体采用如下实现方式:
对于视频时间文本定位任务中视频的每个帧输入到提前训练好的 3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数。将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
其中,与分别代表双向LSTM网络中的前向 LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第i次循环的隐层输出与状态值,与代表后向LSTM网络计算第i次循环的隐层输出与状态值,代表视频中的第i个帧的语义表达,代表将与进行连接计算。
对于视频时间文本定位任务中的输入文本,将文本中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数。将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向 LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
其中,与分别代表双向LSTM网络中的前向 LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第j次循环的隐层输出与状态值,与代表后向LSTM网络计算第j次循环的隐层输出与状态值,代表文本中的第j个单词的语义表达,代表将与进行连接计算。
利用得到的视频各个帧的语义表达与文本各个单词的语义表达利用如下公式计算得到视频文本注意力矩阵M,M为n×m维矩阵,
其中,与代表可训练的权重矩阵,bm代表可训练的偏置向量,代表可训练的参数向量wm的转置,tanh()代表双曲正切函数,代表矩阵M第i行j列的元素。
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
其中,代表矩阵Mrow的第i行j列的元素,代表矩阵Mcol的第i行j列的元素,exp()代表以自然底数e为底的指数运算函数。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
其中,代表矩阵Mcol的转置矩阵。
利用得到的视频自注意力矩阵D与视频各个帧的语义表达按照如下公式计算得到视频利用文本指引的语义表达
其中,代表视频第i帧对应的文本指引的自注意力输出,代表将与进行连接计算。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
其中,代表矩阵Mcol的转置矩阵。
利用得到的文本自注意力矩阵L与文本各个单词的语义表达按照如下公式计算得到文本利用视频指引的语义表达
其中,代表文本第i个单词对应的视频指引的自注意力输出,代表将与进行连接计算。
利用得到的视频利用文本指引的语义表达与文本利用视频指引的语义表达按照如下公式计算得到注意力矩阵S,S为n×m维矩阵,
其中,与代表可训练的权重矩阵,bs代表可训练的偏置向量,代表可训练的参数向量ws的转置,tanh()代表双曲正切函数,代表矩阵S第i行j列的元素。
利用得到的视频利用文本指引的语义表达文本利用视频指引的语义表达注意力矩阵S,按照如下公式计算得到多模态混合表达
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij计算其对应注意力矩阵S第i行所有元素计算softmax函数值。代表与视频第i帧相关的聚合文本表达,代表多模态混合表达Hf第i维的表达,Wf代表可训练的权重矩阵,bf代表可训练的偏置向量,代表按元素相乘。
将得到的多模态混合表达依次输入到双向LSTM 网络中,得到多模态上下文表达利用如下公式计算得到视频帧级别的相关程度分布pf为n维向量,
其中,代表可训练的参数向量wf的转置,bf代表可训练的偏置值。
利用得到的视频帧级别的相关程度分布按照如下公式计算得到拥有最大联合相关程度的视频目标片段的起始位置与结尾位置
其中,pin代表在选取的视频目标片段内帧的联合相关程度,pout代表在选取的视频目标片段外帧的联合负相关程度,与代表视频帧级别的相关程度分布pf中第j维与第k维的值。
利用训练数据中真实的与文本描述相关的视频片段情况,得到真实的视频帧级别的相关程度分布其中代表视频的第i帧在真实的与文本描述相关的视频片段中,代表视频的第i帧不在真实的与文本描述相关的视频片段中。
利用得到的视频帧级别的相关程度分布与真实的视频帧级别的相关程度分布按照如下公式计算得到视频时间文本定位的损失函数Lloc(θ),
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值。
在利用上述方法获得双向交互网络Gθ(v,s)后,可以得到视频帧级别的相关程度分布与拥有最大联合相关程度的视频目标片段的起始位置与结尾位置
利用得到的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到全局视频特征vf,
利用得到的真实的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到真实的全局视频特征vgt,
利用得到的文本各个单词的语义表达按照如下公式计算得到全局文本特征sd,
其中,为可训练的权重向量wγ的转置。
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff,
其中,Wl、为可训练的权重矩阵,bl、代表可训练的偏置向量,代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt,
其中,Wl'、为可训练的权重矩阵,bl'、代表可训练的偏置向量,代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的全局视频特征与全局文本特征的匹配分数Ff及真实的全局视频特征与全局文本特征的匹配分数Fgt,按照如下公式对于双向交互网络Gθ(v,s)及辅助判别网络Dφ(p)进行训练,
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
对于辅助判别网络Dφ(p)训练时,训练损失函数为,
Ldis(φ)=-(log(Fgt)+log(1-Ff))
在对于对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
其中,N代表训练数据中样本数量,Lloc(θ)代表得到的视频时间文本定位的损失函数。
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表得到的视频时间文本定位的损失函数,Laux(θ)代表得到的双向交互网络 Gθ(v,s)的损失函数。
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,Ldis(φ)作为对抗双向交互网络中辅助判别网络Dφ(p)的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络Dφ(p)达到平衡。
在对抗双向交互网络训练完成后,对于输入的视频及文本描述,利用计算得到的拥有最大联合相关程度的视频目标片段的起始位置与结尾位置找到与文本描述相关的视频片段,完成视频时间文本定位任务。
附图说明
图1是根据本发明的一实施例的用于解决视频时间文本定位任务的对抗双向交互网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用对抗双向交互网络解决视频时间文本定位任务的方法包括如下步骤:
1)设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段;
2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1)获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果;
3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。
所述步骤1),其具体步骤为:
对于视频时间文本定位任务中视频的每个帧输入到提前训练好的 3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数。将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
其中,与分别代表双向LSTM网络中的前向 LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第i次循环的隐层输出与状态值,与代表后向LSTM网络计算第i次循环的隐层输出与状态值,代表视频中的第i个帧的语义表达,代表将与进行连接计算。
对于视频时间文本定位任务中的输入文本,将文本中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数。将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向 LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
其中,与分别代表双向LSTM网络中的前向 LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第j次循环的隐层输出与状态值,与代表后向LSTM网络计算第j次循环的隐层输出与状态值,代表文本中的第j个单词的语义表达,代表将与进行连接计算。
利用得到的视频各个帧的语义表达与文本各个单词的语义表达利用如下公式计算得到视频文本注意力矩阵M,M为n×m维矩阵,
其中,与代表可训练的权重矩阵,bm代表可训练的偏置向量,代表可训练的参数向量wm的转置,tanh()代表双曲正切函数,代表矩阵M第i行j列的元素。
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
其中,代表矩阵Mrow的第i行j列的元素,代表矩阵Mcol的第i行j列的元素,exp()代表以自然底数e为底的指数运算函数。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
其中,代表矩阵Mcol的转置矩阵。
利用得到的视频自注意力矩阵D与视频各个帧的语义表达按照如下公式计算得到视频利用文本指引的语义表达
其中,代表视频第i帧对应的文本指引的自注意力输出,代表将与进行连接计算。
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
其中,代表矩阵Mcol的转置矩阵。
利用得到的文本自注意力矩阵L与文本各个单词的语义表达按照如下公式计算得到文本利用视频指引的语义表达
其中,代表文本第i个单词对应的视频指引的自注意力输出,代表将与进行连接计算。
利用得到的视频利用文本指引的语义表达与文本利用视频指引的语义表达按照如下公式计算得到注意力矩阵S,S为n×m维矩阵,
其中,与代表可训练的权重矩阵,bs代表可训练的偏置向量,代表可训练的参数向量ws的转置,tanh()代表双曲正切函数,代表矩阵S第i行j列的元素。
利用得到的视频利用文本指引的语义表达文本利用视频指引的语义表达注意力矩阵S,按照如下公式计算得到多模态混合表达
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij计算其对应注意力矩阵S第i行所有元素计算softmax函数值。代表与视频第i帧相关的聚合文本表达,代表多模态混合表达Hf第i维的表达,Wf代表可训练的权重矩阵,bf代表可训练的偏置向量,代表按元素相乘。
将得到的多模态混合表达依次输入到双向LSTM 网络中,得到多模态上下文表达利用如下公式计算得到视频帧级别的相关程度分布pf为n维向量,
其中,代表可训练的参数向量wf的转置,bf代表可训练的偏置值。
利用得到的视频帧级别的相关程度分布按照如下公式计算得到拥有最大联合相关程度的视频目标片段的起始位置与结尾位置
其中,pin代表在选取的视频目标片段内帧的联合相关程度,pout代表在选取的视频目标片段外帧的联合负相关程度,与代表视频帧级别的相关程度分布pf中第j维与第k维的值。
利用训练数据中真实的与文本描述相关的视频片段情况,得到真实的视频帧级别的相关程度分布其中代表视频的第i帧在真实的与文本描述相关的视频片段中,代表视频的第i帧不在真实的与文本描述相关的视频片段中。
利用得到的视频帧级别的相关程度分布与真实的视频帧级别的相关程度分布按照如下公式计算得到视频时间文本定位的损失函数Lloc(θ),
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值。
在利用上述方法获得双向交互网络Gθ(v,s)后,可以得到视频帧级别的相关程度分布与拥有最大联合相关程度的视频目标片段的起始位置与结尾位置
所述步骤2),其具体步骤为:
利用步骤1)得到的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到全局视频特征vf,
利用步骤1)得到的真实的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到真实的全局视频特征vgt,
利用步骤1)得到的文本各个单词的语义表达按照如下公式计算得到全局文本特征sd,
其中,为可训练的权重向量wγ的转置。
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff,
其中,Wl、为可训练的权重矩阵,bl、代表可训练的偏置向量,代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt,
其中,Wl'、为可训练的权重矩阵,bl'、代表可训练的偏置向量,代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算。
利用得到的全局视频特征与全局文本特征的匹配分数Ff及真实的全局视频特征与全局文本特征的匹配分数Fgt,按照如下公式对于双向交互网络Gθ(v,s)及辅助判别网络Dφ(p)进行训练,
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
对于辅助判别网络Dφ(p)训练时,训练损失函数为,
Ldis(φ)=-(log(Fgt)+log(1-Ff))
所述步骤3),其具体步骤为:
在对于对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
其中,N代表训练数据中样本数量,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数。
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数,Laux(θ)代表步骤3)得到的双向交互网络Gθ(v,s)的损失函数。
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,Ldis(φ)作为对抗双向交互网络中辅助判别网络Dφ(p)的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络Dφ(p)达到平衡。
在对抗双向交互网络训练完成后,对于输入的视频及文本描述,利用计算得到的拥有最大联合相关程度的视频目标片段的起始位置与结尾位置找到与文本描述相关的视频片段,完成视频时间文本定位任务。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的ActivityNet实验数据集及TACoS实验数据集上进行实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对于ActivityNet实验数据集分别使用了平均交并比(mIoU), 交并比@0.1(mIoU@0.1),交并比@0.3(mIoU@0.3),交并比@0.5 (mIoU@0.5),交并比@0.7(mIoU@0.7)评价标准来对于本发明的效果进行评价,对于TACoS实验数据集分别使用了平均交并比(mIoU),交并比@0.1(mIoU@0.1),交并比@0.3(mIoU@0.3),交并比@0.5(mIoU@0.5)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为ABIN(full):
表1本发明针对于ActivityNet数据集的测试结果
表2本发明针对于TACoS数据集的测试结果。
Claims (4)
1.利用对抗双向交互网络解决视频时间文本定位任务的方法,用于解决视频时间文本定位任务,其中视频时间文本定位任务包括用户输入的文本描述,由帧图像组成的视频,其特征在于包括如下步骤:
1)设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段;
2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1)获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果;
3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。
2.根据权利要求1所述利用对抗双向交互网络解决视频时间文本定位任务的方法,其特征在于,所述步骤1),具体为:
对于视频时间文本定位任务中视频的每个帧图像输入到提前训练好的3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数;将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第i次循环的隐层输出与状态值,与代表后向LSTM网络计算第i次循环的隐层输出与状态值,代表视频中的第i个帧的语义表达,代表将与进行连接计算;
对于视频时间文本定位任务中的输入的文本描述,将文本描述中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数;将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第j次循环的隐层输出与状态值,与代表后向LSTM网络计算第j次循环的隐层输出与状态值,代表文本中的第j个单词的语义表达,代表将与进行连接计算;
利用得到的视频各个帧的语义表达与文本各个单词的语义表达利用如下公式计算得到视频文本注意力矩阵M,M为n×m维矩阵,
其中,与代表可训练的权重矩阵,bm代表可训练的偏置向量,代表可训练的参数向量wm的转置,tanh()代表双曲正切函数,代表矩阵M第i行j列的元素;
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
其中,代表矩阵Mrow的第i行j列的元素,代表矩阵Mcol的第i行j列的元素,exp()代表以自然底数e为底的指数运算函数;
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
其中,代表矩阵Mcol的转置矩阵;
利用得到的视频自注意力矩阵D与视频各个帧的语义表达按照如下公式计算得到视频利用文本指引的语义表达
其中,代表视频第i帧对应的文本指引的自注意力输出,代表将与进行连接计算;
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
其中,代表矩阵Mcol的转置矩阵;
利用得到的文本自注意力矩阵L与文本各个单词的语义表达按照如下公式计算得到文本利用视频指引的语义表达
其中,代表文本第i个单词对应的视频指引的自注意力输出,代表将与进行连接计算;
利用得到的视频利用文本指引的语义表达与文本利用视频指引的语义表达按照如下公式计算得到注意力矩阵S,S为n×m维矩阵,
其中,与代表可训练的权重矩阵,bs代表可训练的偏置向量,代表可训练的参数向量ws的转置,tanh()代表双曲正切函数,代表矩阵S第i行j列的元素;
利用得到的视频利用文本指引的语义表达文本利用视频指引的语义表达注意力矩阵S,按照如下公式计算得到多模态混合表达
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij计算其对应注意力矩阵S第i行所有元素计算softmax函数值;代表与视频第i帧相关的聚合文本表达,代表多模态混合表达Hf第i维的表达,Wf代表可训练的权重矩阵,bf代表可训练的偏置向量,代表按元素相乘;
将得到的多模态混合表达依次输入到双向LSTM网络中,得到多模态上下文表达利用如下公式计算得到视频帧级别的相关程度分布pf为n维向量,
其中,代表可训练的参数向量wf的转置,bf代表可训练的偏置值;
利用得到的视频帧级别的相关程度分布按照如下公式计算得到拥有最大联合相关程度的视频目标片段的起始位置与结尾位置
其中,pin代表在选取的视频目标片段内帧的联合相关程度,pout代表在选取的视频目标片段外帧的联合负相关程度,与代表视频帧级别的相关程度分布pf中第j维与第k维的值;
利用训练数据中真实的与文本描述相关的视频片段情况,得到真实的视频帧级别的相关程度分布其中代表视频的第i帧在真实的与文本描述相关的视频片段中,代表视频的第i帧不在真实的与文本描述相关的视频片段中;
利用得到的视频帧级别的相关程度分布与真实的视频帧级别的相关程度分布按照如下公式计算得到视频时间文本定位的损失函数Lloc(θ),
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值;
在利用上述方法获得双向交互网络Gθ(v,s)后,可以得到视频帧级别的相关程度分布与拥有最大联合相关程度的视频目标片段的起始位置与结尾位置
3.根据权利要求2所述的利用对抗双向交互网络解决视频时间文本定位任务的方法,其特征在于,所述步骤2),具体为:
利用步骤1)得到的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到全局视频特征vf,
利用步骤1)得到的真实的视频帧级别的相关程度分布与视频各个帧的语义表达按照如下公式计算得到真实的全局视频特征vgt,
利用步骤1)得到的文本各个单词的语义表达按照如下公式计算得到全局文本特征sd,
其中,为可训练的权重向量wγ的转置;
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff,
其中,Wl、为可训练的权重矩阵,bl、代表可训练的偏置向量,代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算;
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt,
其中,Wl'、为可训练的权重矩阵,bl'、代表可训练的偏置向量,代表按元素相乘,tanh()代表双曲正切函数,σ()代表sigmoid函数计算;
利用得到的全局视频特征与全局文本特征的匹配分数Ff及真实的全局视频特征与全局文本特征的匹配分数Fgt,按照如下公式对于双向交互网络Gθ(v,s)及辅助判别网络Dφ(p)进行训练,
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
对于辅助判别网络Dφ(p)训练时,训练损失函数为,
Ldis(φ)=-(log(Fgt)+log(1-Ff))。
4.根据权利要求3所述的利用对抗双向交互网络解决视频时间文本定位任务的方法,其特征在于,所述步骤3)具体为:
在对于利用对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
其中,N代表训练数据中样本数量,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数;
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数,Laux(θ)代表步骤3)得到的双向交互网络Gθ(v,s)的损失函数;
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,Ldis(φ)作为对抗双向交互网络中辅助判别网络Dφ(p)的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络Dφ(p)达到平衡;
在对抗双向交互网络训练完成后,对于输入的视频及文本描述,利用计算得到的拥有最大联合相关程度的视频目标片段的起始位置与结尾位置找到与文本描述相关的视频片段,完成视频时间文本定位任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093894.6A CN109815927B (zh) | 2019-01-30 | 2019-01-30 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093894.6A CN109815927B (zh) | 2019-01-30 | 2019-01-30 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815927A true CN109815927A (zh) | 2019-05-28 |
CN109815927B CN109815927B (zh) | 2021-04-23 |
Family
ID=66605944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910093894.6A Active CN109815927B (zh) | 2019-01-30 | 2019-01-30 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815927B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378269A (zh) * | 2019-07-10 | 2019-10-25 | 浙江大学 | 通过影像查询定位视频中未预习的活动的方法 |
CN110377792A (zh) * | 2019-06-14 | 2019-10-25 | 浙江大学 | 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193918A (zh) * | 2010-03-01 | 2011-09-21 | 汉王科技股份有限公司 | 视频检索方法和装置 |
CN102595191A (zh) * | 2012-02-24 | 2012-07-18 | 央视国际网络有限公司 | 体育赛事视频中赛事事件的搜索方法及装置 |
US10013487B2 (en) * | 2015-11-04 | 2018-07-03 | Viscovery Pte. Ltd. | System and method for multi-modal fusion based fault-tolerant video content recognition |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
-
2019
- 2019-01-30 CN CN201910093894.6A patent/CN109815927B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193918A (zh) * | 2010-03-01 | 2011-09-21 | 汉王科技股份有限公司 | 视频检索方法和装置 |
CN102595191A (zh) * | 2012-02-24 | 2012-07-18 | 央视国际网络有限公司 | 体育赛事视频中赛事事件的搜索方法及装置 |
US10013487B2 (en) * | 2015-11-04 | 2018-07-03 | Viscovery Pte. Ltd. | System and method for multi-modal fusion based fault-tolerant video content recognition |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377792A (zh) * | 2019-06-14 | 2019-10-25 | 浙江大学 | 一种利用跨模型交互网络解决以问题为基础的视频片段抽取任务的方法 |
CN110377792B (zh) * | 2019-06-14 | 2021-09-21 | 浙江大学 | 基于跨模型交互网络实现问题-视频片段抽取任务的方法 |
CN110378269A (zh) * | 2019-07-10 | 2019-10-25 | 浙江大学 | 通过影像查询定位视频中未预习的活动的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109815927B (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516085B (zh) | 基于双向注意力的图像文本互检索方法 | |
Venugopalan et al. | Captioning images with diverse objects | |
CN110021051A (zh) | 一种基于生成对抗网络通过文本指导的人物图像生成方法 | |
CN106355151A (zh) | 一种基于深度置信网络的三维sar图像目标识别方法 | |
CN108960330A (zh) | 基于快速区域卷积神经网络的遥感图像语义生成方法 | |
CN107463954B (zh) | 一种模糊异谱图像的模板匹配识别方法 | |
CN110728220A (zh) | 基于人体动作骨骼信息的体操辅助训练方法 | |
CN105550649B (zh) | 基于全耦合局部约束表示的极低分辨率人脸识别方法及系统 | |
WO2013105783A1 (ko) | 오브젝트 인식 장치, 분류 트리 학습 장치 및 그 동작 방법 | |
CN110288029A (zh) | 基于Tri-LSTMs模型的图像描述方法 | |
CN109711465A (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
KR102242994B1 (ko) | 인공 신경망을 이용하여 사용자 맞춤형 골프 클럽을 추천하는 방법 및 장치 | |
Guo et al. | Sign language recognition based on adaptive hmms with data augmentation | |
Ghotkar et al. | Dynamic hand gesture recognition using hidden Markov model by Microsoft Kinect sensor | |
CN110853670A (zh) | 音乐驱动的舞蹈生成方法 | |
CN110210462A (zh) | 一种基于卷积神经网络的仿生海马认知地图构建方法 | |
CN109815927A (zh) | 利用对抗双向交互网络解决视频时间文本定位任务的方法 | |
CN106846322A (zh) | 基于曲线波滤波器和卷积结构学习的sar图像分割方法 | |
CN108921047A (zh) | 一种基于跨层融合的多模型投票均值动作识别方法 | |
He et al. | Open-vocabulary multi-label classification via multi-modal knowledge transfer | |
CN105976395A (zh) | 一种基于稀疏表示的视频目标跟踪方法 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN107862329A (zh) | 一种基于深度置信网络的雷达一维距离像真假目标识别方法 | |
CN106326843A (zh) | 一种人脸识别方法 | |
CN106971189A (zh) | 一种低分辨率含噪星图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |