CN109815927B - 利用对抗双向交互网络解决视频时间文本定位任务的方法 - Google Patents
利用对抗双向交互网络解决视频时间文本定位任务的方法 Download PDFInfo
- Publication number
- CN109815927B CN109815927B CN201910093894.6A CN201910093894A CN109815927B CN 109815927 B CN109815927 B CN 109815927B CN 201910093894 A CN201910093894 A CN 201910093894A CN 109815927 B CN109815927 B CN 109815927B
- Authority
- CN
- China
- Prior art keywords
- video
- text
- representing
- matrix
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种利用对抗双向交互网络解决视频时间文本定位任务的方法,主要包括如下步骤:1)设计一种对抗双向交互网络模型完成对于视频片段的定位及定位结果的判别。2)训练得到最终的对抗双向交互网络模型,利用该模型定位出与文本描述相关的视频片段。相比于一般的视频时间文本定位解决方案,本发明利用了对抗双向交互网络,能够更好地定位出与文本描述相关的视频片段。本发明在视频时间文本定位任务中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及视频时间文本定位任务,尤其涉及一种利用对抗双向交互网络解决视频时间文本定位任务的方法。
背景技术
视频时间文本定位任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统可以针对于某个特定视频的描述,在视频中定位出与文本描述相关的视频片段。目前视频时间文本定位任务仍然是一个较为新颖的任务,对其的研究还不成熟。与一般的视频内容理解任务不同,视频时间文本定位任务需要对于视频及文本信息的综合理解,丰富复杂的视频及文本信息增加了该任务的难度。
目前已有的视频时间文本定位任务解决方法一般是利用视频动作定位的传统方法。使用一个滑动窗口结构来对于视频进行密集采样,之后分别计算采集的视频样本与所针对的视频描述文本之间的相关程度,将具有最大相关程度的视频样本作为视频时间文本定位的结果。此种方法由于采样的密集性需要巨大的计算量,同时该种方法缺乏了对于视频内容的长程语义理解。为了解决上述问题,本发明使用对抗双向交互网络来解决视频时间文本定位任务,提高视频时间文本定位任务形成视频定位片段的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术对于视频时间文本定位任务无法提供较为准确的视频定位片段的问题,本发明提供一种利用对抗双向交互网络解决视频时间文本定位任务的方法。本发明所采用的具体技术方案是:
利用对抗双向交互网络解决视频时间文本定位任务的方法,包含如下步骤:
1.设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段。
2.利用步骤1中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果。
3.利用步骤1设计的双向交互网络与步骤2设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。
上述步骤可具体采用如下实现方式:
对于视频时间文本定位任务中视频的每个帧输入到提前训练好的3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数。将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第i次循环的隐层输出与状态值,与代表后向LSTM网络计算第i次循环的隐层输出与状态值,代表视频中的第i个帧的语义表达,代表将与进行连接计算。
对于视频时间文本定位任务中的输入文本,将文本中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数。将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第j次循环的隐层输出与状态值,与代表后向LSTM网络计算第j次循环的隐层输出与状态值,代表文本中的第j个单词的语义表达,代表将与进行连接计算。
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij计算其对应注意力矩阵S第i行所有元素计算softmax函数值。代表与视频第i帧相关的聚合文本表达,代表多模态混合表达Hf第i维的表达,wf代表可训练的权重向量,bf代表可训练的偏置向量,代表按元素相乘。
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值。
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff,
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt,
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
在对于对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
其中,N代表训练数据中样本数量,Lloc(θ)代表得到的视频时间文本定位的损失函数。
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表得到的视频时间文本定位的损失函数,Laux(θ)代表得到的双向交互网络Gθ(v,s)的损失函数。
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,作为对抗双向交互网络中辅助判别网络的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络达到平衡。
附图说明
图1是根据本发明的一实施例的用于解决视频时间文本定位任务的对抗双向交互网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用对抗双向交互网络解决视频时间文本定位任务的方法包括如下步骤:
1)设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段;
2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1)获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果;
3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段。
所述步骤1),其具体步骤为:
对于视频时间文本定位任务中视频的每个帧输入到提前训练好的3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数。将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第i次循环的隐层输出与状态值,与代表后向LSTM网络计算第i次循环的隐层输出与状态值,代表视频中的第i个帧的语义表达,代表将与进行连接计算。
对于视频时间文本定位任务中的输入文本,将文本中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数。将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第j次循环的隐层输出与状态值,与代表后向LSTM网络计算第j次循环的隐层输出与状态值,代表文本中的第j个单词的语义表达,代表将与进行连接计算。
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij,在矩阵S于列方向做softmax计算后的值。代表与视频第i帧相关的聚合文本表达,代表多模态混合表达Hf第i维的表达,wf代表可训练的权重向量,bf代表可训练的偏置向量,代表按元素相乘。
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值。
所述步骤2),其具体步骤为:
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff,
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt,
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
所述步骤3),其具体步骤为:
在对于对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
其中,N代表训练数据中样本数量,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数。
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数,Laux(θ)代表步骤3)得到的双向交互网络Gθ(v,s)的损失函数。
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,作为对抗双向交互网络中辅助判别网络的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络达到平衡。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在构建的ActivityNet实验数据集及TACoS实验数据集上进行实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对于ActivityNet实验数据集分别使用了平均交并比(mIoU),交并比@0.1(mIoU@0.1),交并比@0.3(mIoU@0.3),交并比@0.5(mIoU@0.5),交并比@0.7(mIoU@0.7)评价标准来对于本发明的效果进行评价,对于TACoS实验数据集分别使用了平均交并比(mIoU),交并比@0.1(mIoU@0.1),交并比@0.3(mIoU@0.3),交并比@0.5(mIoU@0.5)评价标准来对于本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示,本方法表示为ABIN(full):
表1本发明针对于ActivityNet数据集的测试结果
表2本发明针对于TACoS数据集的测试结果
Claims (3)
1.利用对抗双向交互网络解决视频时间文本定位任务的方法,用于解决视频时间文本定位任务,其中视频时间文本定位任务包括用户输入的文本描述,由帧图像组成的视频,其特征在于包括如下步骤:
1)设计一种双向交互网络,基于视频的每个帧图像和输入的文本描述,获取与文本相关的视频帧级别的相关度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段;
2)利用步骤1)中获取的与文本相关的视频帧级别的相关程度分布及整个相关程度分布中具有最大联合相关程度的视频目标片段,设计一种辅助判别网络,验证步骤1)获取的与文本相关的视频目标片段的准确性,并利用对抗训练过程提高视频时间文本定位的效果;
3)利用步骤1)设计的双向交互网络与步骤2)设计的辅助判别网络,进行训练,利用训练出的双向交互网络及辅助判别网络获取与文本描述相关的视频片段,
其中所述步骤1),具体为:
对于视频时间文本定位任务中视频的每个帧图像输入到提前训练好的3维卷积网络中,获取视频的帧级别表达v=(v1,v2,...,vn),其中vi代表视频中的第i个帧的帧级别表达,n代表视频中的帧个数;将视频中各个帧的帧级别表达v=(v1,v2,...,vn)依次输入到双向LSTM网络中,按照如下公式计算得到视频各个帧的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第i次循环的隐层输出与状态值,与代表后向LSTM网络计算第i次循环的隐层输出与状态值,代表视频中的第i个帧的语义表达,代表将与进行连接计算;
对于视频时间文本定位任务中的输入的文本描述,将文本描述中的各个单词利用单词映射的方式,获得文本中各个单词的映射向量s=(s1,s2,...,sm),其中sj代表文本中的第j个单词的映射向量,m代表文本中的单词个数;将文本中各个单词的映射向量s=(s1,s2,...,sm)依次输入到双向LSTM网络中,按照如下公式计算得到文本各个单词的语义表达
其中,与分别代表双向LSTM网络中的前向LSTM网络计算与后向LSTM网络计算,与代表前向LSTM网络计算第j次循环的隐层输出与状态值,与代表后向LSTM网络计算第j次循环的隐层输出与状态值,代表文本中的第j个单词的语义表达,代表将与进行连接计算;
利用得到的视频文本注意力矩阵M,按照如下公式计算得到视频到文本矩阵Mrow与文本到视频矩阵Mcol,其中Mrow与Mcol均为n×m维矩阵,
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到视频自注意力矩阵D,D为n×n维矩阵,
利用得到的视频到文本矩阵Mrow与文本到视频矩阵Mcol,按照如下公式计算得到文本自注意力矩阵L,L为m×m维矩阵,
其中,softmax(Sij)代表对于注意力矩阵S中的第i行j列的元素Sij,在矩阵S于列方向做softmax计算后的值;代表与视频第i帧相关的聚合文本表达,代表多模态混合表达Hf第i维的表达,wf代表可训练的权重向量,bf代表可训练的偏置向量,代表按元素相乘;
其中log代表对数函数运算,Li代表视频第i帧对应的损失函数值;
2.根据权利要求1所述的利用对抗双向交互网络解决视频时间文本定位任务的方法,其特征在于,所述步骤2),具体为:
利用得到的全局视频特征vf与全局文本特征sd,按照如下公式计算得到全局视频特征与全局文本特征的匹配分数Ff,
利用得到的真实的全局视频特征vgt与全局文本特征sd,按照如下公式计算得到真实的全局视频特征与全局文本特征的匹配分数Fgt,
其中,对于双向交互网络Gθ(v,s)训练时,训练损失函数为,
Laux(θ)=-log(Ff)
3.根据权利要求2所述的利用对抗双向交互网络解决视频时间文本定位任务的方法,其特征在于,所述步骤3)具体为:
在对于利用对抗双向交互网络进行训练时,首先对于对抗双向交互网络中的双向交互网络Gθ(v,s)利用如下公式作为损失函数进行预训练,
其中,N代表训练数据中样本数量,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数;
经过预训练之后,按照如下公式计算得到对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数Lgen(θ),
其中,N代表训练数据中样本数量,α=5,β=1,Lloc(θ)代表步骤1)得到的视频时间文本定位的损失函数,Laux(θ)代表步骤2)得到的双向交互网络Gθ(v,s)的损失函数;
利用Lgen(θ)作为对抗双向交互网络中双向交互网络Gθ(v,s)的损失函数,作为对抗双向交互网络中辅助判别网络的损失函数,对于对抗双向交互网络进行训练,直到对抗双向交互网络中的双向交互网络Gθ(v,s)与辅助判别网络达到平衡;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093894.6A CN109815927B (zh) | 2019-01-30 | 2019-01-30 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093894.6A CN109815927B (zh) | 2019-01-30 | 2019-01-30 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109815927A CN109815927A (zh) | 2019-05-28 |
CN109815927B true CN109815927B (zh) | 2021-04-23 |
Family
ID=66605944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910093894.6A Active CN109815927B (zh) | 2019-01-30 | 2019-01-30 | 利用对抗双向交互网络解决视频时间文本定位任务的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109815927B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377792B (zh) * | 2019-06-14 | 2021-09-21 | 浙江大学 | 基于跨模型交互网络实现问题-视频片段抽取任务的方法 |
CN110378269A (zh) * | 2019-07-10 | 2019-10-25 | 浙江大学 | 通过影像查询定位视频中未预习的活动的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193918A (zh) * | 2010-03-01 | 2011-09-21 | 汉王科技股份有限公司 | 视频检索方法和装置 |
CN102595191A (zh) * | 2012-02-24 | 2012-07-18 | 央视国际网络有限公司 | 体育赛事视频中赛事事件的搜索方法及装置 |
US10013487B2 (en) * | 2015-11-04 | 2018-07-03 | Viscovery Pte. Ltd. | System and method for multi-modal fusion based fault-tolerant video content recognition |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
-
2019
- 2019-01-30 CN CN201910093894.6A patent/CN109815927B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193918A (zh) * | 2010-03-01 | 2011-09-21 | 汉王科技股份有限公司 | 视频检索方法和装置 |
CN102595191A (zh) * | 2012-02-24 | 2012-07-18 | 央视国际网络有限公司 | 体育赛事视频中赛事事件的搜索方法及装置 |
US10013487B2 (en) * | 2015-11-04 | 2018-07-03 | Viscovery Pte. Ltd. | System and method for multi-modal fusion based fault-tolerant video content recognition |
CN108596265A (zh) * | 2018-05-02 | 2018-09-28 | 中山大学 | 基于文本描述信息和生成对抗网络的视频生成模型 |
CN108932304A (zh) * | 2018-06-12 | 2018-12-04 | 山东大学 | 基于跨模态的视频时刻定位方法、系统及存储介质 |
CN108986186A (zh) * | 2018-08-14 | 2018-12-11 | 山东师范大学 | 文字转化视频的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109815927A (zh) | 2019-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110516085B (zh) | 基于双向注意力的图像文本互检索方法 | |
CN109948165B (zh) | 基于混合注意力网络的细粒度情感极性预测方法 | |
CN109948691B (zh) | 基于深度残差网络及注意力的图像描述生成方法和装置 | |
CN109766427B (zh) | 一种基于协同注意力的虚拟学习环境智能问答方法 | |
CN110188598A (zh) | 一种基于MobileNet-v2的实时手部姿态估计方法 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN109655815B (zh) | 基于ssd的声呐目标检测方法 | |
CN110377792B (zh) | 基于跨模型交互网络实现问题-视频片段抽取任务的方法 | |
CN114841243B (zh) | 跨模态检索模型训练方法、跨模态检索方法、设备及介质 | |
CN110377711B (zh) | 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 | |
CN113204633B (zh) | 一种语义匹配蒸馏方法及装置 | |
CN108764280B (zh) | 一种基于症状向量的医学数据处理方法和系统 | |
CN109815927B (zh) | 利用对抗双向交互网络解决视频时间文本定位任务的方法 | |
CN110046271A (zh) | 一种基于声音指导的遥感图像描述方法 | |
KR20200010672A (ko) | 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템 | |
CN112561718A (zh) | 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 | |
CN111401105A (zh) | 一种视频表情识别方法、装置及设备 | |
CN116229519A (zh) | 一种基于知识蒸馏的二维人体姿态估计方法 | |
CN113609326B (zh) | 基于外部知识和目标间关系的图像描述生成方法 | |
CN114239612A (zh) | 一种多模态神经机器翻译方法、计算机设备及存储介质 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN110032948A (zh) | 一种基于交互时序信息的草图手势识别方法 | |
CN108197320A (zh) | 一种多视图图像自动标注方法 | |
He et al. | Image captioning algorithm based on multi-branch cnn and bi-lstm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |