CN109902164B - 利用卷积双向自注意网络解决开放长格式视频问答的方法 - Google Patents

利用卷积双向自注意网络解决开放长格式视频问答的方法 Download PDF

Info

Publication number
CN109902164B
CN109902164B CN201910167951.0A CN201910167951A CN109902164B CN 109902164 B CN109902164 B CN 109902164B CN 201910167951 A CN201910167951 A CN 201910167951A CN 109902164 B CN109902164 B CN 109902164B
Authority
CN
China
Prior art keywords
attention
video
expression
convolution
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910167951.0A
Other languages
English (en)
Other versions
CN109902164A (zh
Inventor
璧垫床
赵洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN201910167951.0A priority Critical patent/CN109902164B/zh
Publication of CN109902164A publication Critical patent/CN109902164A/zh
Application granted granted Critical
Publication of CN109902164B publication Critical patent/CN109902164B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用卷积双向自注意网络解决开放长格式视频问答的方法,主要包括如下步骤:1)设计一种卷积双向自注意网络模型来获取开放长格式视频问答的相关答案;2)训练得到最终的卷积双向自注意网络模型,利用该模型生成长格式视频问答任务的答案。相比于一般的视频问答任务解决方案,本发明利用了卷积自注意力机制,能够更好地完成开放长格式视频问答任务。本发明在开放长格式视频问答任务中所取得的效果相比于传统的方法更好。

Description

利用卷积双向自注意网络解决开放长格式视频问答的方法
技术领域
本发明涉及开放长格式视频问答任务,尤其涉及一种利用卷积双向自注意网络解决开放长格式视频问答的方法。
背景技术
开放长格式视频问答任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频,回答用户提出的问题,并且用户的提问对象一般是较长的视频,用户提出的问题也是较长的自然语言文本。目前开放长格式视频问答任务的研究仍处于探索阶段。对于开放长格式视频问答任务的研究可以应用于众多领域之中。
目前已有的视频问答任务解决方法一般是关注解决短格式视频问答任务,对于开放长格式视频问答任务关注较少。传统的短格式视频问答任务解决方法,主要是利用多模态循环编解码器网络。这种方法由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好。
为了解决上述问题,本发明利用卷积双向自注意网络来解决开放长格式视频问答任务,提高开放长格式视频问答任务形成答案文本的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好的问题,本发明提供一种利用卷积双向自注意网络解决开放长格式视频问答的方法。本发明所采用的具体技术方案是:
利用卷积双向自注意网络解决开放长格式视频问答的方法,包含如下步骤:
1.设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达。
2.设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达。
3.设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2获取的最终多流视频语义表达,得到开放长格式视频问答的结果。
上述步骤可具体采用如下实现方式:
对于输入堆叠卷积序列模型的序列,需要与位置时间信号相加,获得带有位置信息的输入序列,位置时间信号计算方法如下列公式所示,
Figure BDA0001986958500000031
Figure BDA0001986958500000032
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第 t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度。
对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet 网络获取视频中的帧表达特征v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数。将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达 v={v1',v2',...,vn'}。
对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达q=(q1,q2,...,qr),其中r代表问题中含有的单词个数。将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'}。
对于堆叠卷积序列模型中第l个卷积序列层,其输入序列表达为
Figure BDA0001986958500000033
输出序列表达为
Figure BDA0001986958500000034
输入序列表达按照如下公式计算得到输出序列表达,
Figure BDA0001986958500000041
Figure BDA0001986958500000042
其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B 代表2d维向量[A,B]中的后d维度元素值构成的向量,
Figure BDA0001986958500000043
代表按元素相乘操作,δ()代表sigmoid函数计算。
将获得的带有位置信息的视频帧表达v={v1',v2',...,vn'}输入到L层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得帧级别的视频语义表达
Figure BDA0001986958500000044
将获得的带有位置信息的问题文本表达q={q1',q2',...,qn'}输入到K 层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得单词级别的问题语义表达
Figure BDA0001986958500000045
利用得到的帧级别的视频语义表达
Figure BDA0001986958500000046
与单词级别的问题语义表达
Figure BDA0001986958500000047
按照如下公式计算得到视频问题注意力矩阵S,
Figure BDA0001986958500000048
其中,
Figure BDA0001986958500000049
代表可训练的参数矩阵,bs代表可训练的偏置向量,
Figure BDA00019869585000000410
代表参数向量ws的转置,
Figure BDA00019869585000000411
代表视频问题注意力矩阵S中的第i行第j列的值。按照如下公式计算得到自注意力矩阵D,
D=S·ST
利用得到的自注意力矩阵D,分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向自注意力分数矩阵Dfw与负向自注意力分数 Dbw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素
Figure BDA0001986958500000051
Figure BDA0001986958500000052
取值如下,
Figure BDA0001986958500000053
Figure BDA0001986958500000054
利用得到的正向自注意力分数矩阵Dfw与负向自注意力分数Dbw,及帧级别的视频语义表达
Figure BDA0001986958500000055
按照如下公式计算得到视频每一帧的正向自注意力表达
Figure BDA0001986958500000056
与视频每一帧的负向自注意力表达
Figure BDA0001986958500000057
Figure BDA0001986958500000058
Figure BDA0001986958500000059
利用得到的视频每一帧的正向自注意力表达
Figure BDA00019869585000000510
视频每一帧的负向自注意力表达
Figure BDA00019869585000000511
与帧级别的视频语义表达
Figure BDA00019869585000000512
利用如下计算方法,得到最终多流视频语义表达
Figure BDA00019869585000000513
Figure BDA00019869585000000514
Figure BDA00019869585000000515
Figure BDA00019869585000000516
其中Wf、Wg为可训练的参数矩阵,bf、bg为可训练的参数偏置向量,δ()代表sigmoid函数计算,
Figure BDA0001986958500000061
代表按元素相乘操作。
设计一种卷积多步骤注意力解码器网络模型,该卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,其中,第z 个卷积注意力序列层的输入为序列表达
Figure BDA0001986958500000062
利用如下公式计算得到第z个卷积注意力序列层中卷积层的输出
Figure BDA0001986958500000063
Figure BDA0001986958500000064
Figure BDA0001986958500000065
其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B 代表2d维向量[A,B]中的后d维度元素值构成的向量,
Figure BDA0001986958500000066
代表按元素相乘操作。
利用得到的单词级别的问题语义表达
Figure BDA0001986958500000067
进行平均池化操作后得到全局问题表达hQ,利用得到的第z个卷积注意力序列层中卷积层的输出
Figure BDA0001986958500000068
平均池化操作后得到全局问题表达hQ与最终多流视频语义表达
Figure BDA0001986958500000069
按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出
Figure BDA00019869585000000610
Figure BDA00019869585000000611
Figure BDA00019869585000000612
其中,
Figure BDA00019869585000000613
为可训练的参数矩阵,bz为可训练的参数偏置向量,
Figure BDA00019869585000000614
为第z个卷积注意力序列层中注意力层的输出
Figure BDA0001986958500000071
中第i个向量。
利用如上方法,经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型,得到卷积多步骤注意力解码器网络模型的输出
Figure BDA0001986958500000072
按照如下公式计算得到所预测答案每个步骤的单词输出,
Figure BDA0001986958500000073
其中,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。
Figure BDA0001986958500000074
代表所预测答案中第i个单词
Figure BDA0001986958500000075
的取值概率,将预测概率分数高的单词取出作为所预测答案中的第i个单词。
按照如下公式作为整个模型的训练函数,训练获得最终的卷积双向自注意网络,
Figure BDA0001986958500000076
利用训练得到的卷积双向自注意网络,输入开放长格式视频问答任务中的视频及问题,可以获得开放长格式视频问答任务的预测答案。
附图说明
图1是根据本发明的一实施例的用于解决开放长格式视频问答任务的卷积双向自注意网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用卷积双向自注意网络解决开放长格式视频问答的方法包括如下步骤:
1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;
2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;
3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达,得到开放长格式视频问答的结果。
所述步骤1),其具体步骤为:
对于输入堆叠卷积序列模型的序列,需要与位置时间信号相加,获得带有位置信息的输入序列,位置时间信号计算方法如下列公式所示,
Figure BDA0001986958500000081
Figure BDA0001986958500000082
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第 t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度。
对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet 网络获取视频中的帧表达特征v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数。将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达 v={v1',v2',...,vn'}。
对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达q=(q1,q2,...,qr),其中r代表问题中含有的单词个数。将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'}。
对于堆叠卷积序列模型中第l个卷积序列层,其输入序列表达为
Figure BDA0001986958500000091
输出序列表达为
Figure BDA0001986958500000092
输入序列表达按照如下公式计算得到输出序列表达,
Figure BDA0001986958500000093
Figure BDA0001986958500000094
其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B 代表2d维向量[A,B]中的后d维度元素值构成的向量,
Figure BDA0001986958500000095
代表按元素相乘操作,δ()代表sigmoid函数计算。
将获得的带有位置信息的视频帧表达v={v1',v2',...,vn'}输入到L层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得帧级别的视频语义表达
Figure BDA0001986958500000101
将获得的带有位置信息的问题文本表达q={q1',q2',...,qn'}输入到K 层堆叠的卷积序列模型中,上一层堆叠的卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得单词级别的问题语义表达
Figure BDA0001986958500000102
所述步骤2),其具体步骤为:
利用得到的帧级别的视频语义表达
Figure BDA0001986958500000103
与单词级别的问题语义表达
Figure BDA0001986958500000104
按照如下公式计算得到视频问题注意力矩阵S,
Figure BDA0001986958500000105
其中,
Figure BDA0001986958500000106
代表可训练的参数矩阵,bs代表可训练的偏置向量,
Figure BDA0001986958500000107
代表参数向量ws的转置,
Figure BDA0001986958500000108
代表视频问题注意力矩阵S中的第i行第j列的值。按照如下公式计算得到自注意力矩阵D,
D=S·ST
利用得到的自注意力矩阵D,分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向自注意力分数矩阵Dfw与负向自注意力分数 Dbw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素
Figure BDA0001986958500000109
Figure BDA00019869585000001010
取值如下,
Figure BDA00019869585000001011
Figure BDA0001986958500000111
利用得到的正向自注意力分数矩阵Dfw与负向自注意力分数Dbw,及帧级别的视频语义表达
Figure BDA0001986958500000112
按照如下公式计算得到视频每一帧的正向自注意力表达
Figure BDA0001986958500000113
与视频每一帧的负向自注意力表达
Figure BDA0001986958500000114
Figure BDA0001986958500000115
Figure BDA0001986958500000116
利用得到的视频每一帧的正向自注意力表达
Figure BDA0001986958500000117
视频每一帧的负向自注意力表达
Figure BDA0001986958500000118
与帧级别的视频语义表达
Figure BDA0001986958500000119
利用如下计算方法,得到最终多流视频语义表达
Figure BDA00019869585000001110
Figure BDA00019869585000001111
Figure BDA00019869585000001112
Figure BDA00019869585000001113
其中Wf、Wg为可训练的参数矩阵,bf、bg为可训练的参数偏置向量,δ()代表sigmoid函数计算,
Figure BDA00019869585000001114
代表按元素相乘操作。
所述步骤3),其具体步骤为:
设计一种卷积多步骤注意力解码器网络模型,该卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,其中,第z 个卷积注意力序列层的输入为序列表达
Figure BDA00019869585000001115
利用如下公式计算得到第z个卷积注意力序列层中卷积层的输出
Figure BDA0001986958500000121
Figure BDA0001986958500000122
Figure BDA0001986958500000123
其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B 代表2d维向量[A,B]中的后d维度元素值构成的向量,
Figure BDA0001986958500000124
代表按元素相乘操作。
利用得到的单词级别的问题语义表达
Figure BDA0001986958500000125
进行平均池化操作后得到全局问题表达hQ,利用得到的第z个卷积注意力序列层中卷积层的输出
Figure BDA0001986958500000126
平均池化操作后得到全局问题表达hQ与最终多流视频语义表达
Figure BDA0001986958500000127
按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出
Figure BDA0001986958500000128
Figure BDA0001986958500000129
Figure BDA00019869585000001210
其中,
Figure BDA00019869585000001211
为可训练的参数矩阵,bz为可训练的参数偏置向量,
Figure BDA00019869585000001212
为第z个卷积注意力序列层中注意力层的输出
Figure BDA00019869585000001213
中第i个向量。
利用如上方法,经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型,得到卷积多步骤注意力解码器网络模型的输出
Figure BDA00019869585000001214
按照如下公式计算得到所预测答案每个步骤的单词输出,
Figure BDA00019869585000001215
其中,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。
Figure BDA0001986958500000131
代表所预测答案中第i个单词
Figure BDA0001986958500000132
的取值概率,将预测概率分数高的单词取出作为所预测答案中的第i个单词。
按照如下公式作为整个模型的训练函数,训练获得最终的卷积双向自注意网络,
Figure BDA0001986958500000133
利用训练得到的卷积双向自注意网络,输入开放长格式视频问答任务中的视频及问题,可以获得开放长格式视频问答任务的预测答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityNet实验数据集上进行实验。ActivityNet实验数据集的问题被分为“对象(object)”、“数字(number)”、“颜色(color)”、“地点(location)”、“动作(action)”五类,为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对每种问题分别采用了准确度(Accuracy),Wu-Palmer相似性@0.9 (WUPS@0.9),Wu-Palmer相似性@0.0(WUPS@0.0)方法来对本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-3所示,本方法表示为CBSA:
Figure BDA0001986958500000141
表1本发明针对于准确度(Accuracy)的测试结果
Figure BDA0001986958500000142
表2本发明针对于Wu-Palmer相似性@0.9(WUPS@0.9)的测试结果
Figure BDA0001986958500000143
表3本发明针对于Wu-Palmer相似性@0.0(WUPS@0.0)的测试结果

Claims (4)

1.利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,包括如下步骤:
1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;
对于输入堆叠卷积序列模型的序列,与位置时间信号相加,获得带有位置信息的输入序列;对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet网络获取视频中的帧表达特征以及带有位置信息的视频帧表达;对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达以及带有位置信息的问题文本表达;将获得的带有位置信息的视频帧表达输入到L层的堆叠卷积序列模型中,上一层堆叠卷积序列模型的输出作为下一层堆叠卷积序列模型的输入,获得帧级别的视频语义表达;将获得的带有位置信息的问题文本表达输入到K层堆叠卷积序列模型中,上一层堆叠卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得单词级别的问题语义表达;
2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;
给定计算方式,利用得到的帧级别的视频语义表达与单词级别的问题语义表达计算得到视频问题注意力矩阵,并进一步获取正向自注意力分数矩阵和负向注意力分数矩阵,通过给定计算方式基于视频每一帧的正向自注意力表达、视频每一帧的负向注意力表达与帧级别的视频语义表达获得最终多流视频语义表达;
3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达,得到开放长格式视频问答的结果;
其中卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达,利用得到的第z个卷积注意力序列层中卷积层的输出、平均池化操作后得到全局问题表达与最终多流视频语义表达,按照设定公式计算得到第z个卷积注意力序列层中注意力层的输出,经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型,得到卷积多步骤注意力解码器网络模型的输出,按照设定公式计算得到所预测答案每个步骤的单词输出,按照设定公式作为整个模型的训练函数,训练得到卷积双向自注意网络。
2.根据权利要求1所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤1)具体为:
位置时间信号计算方法如下列公式所示,
Figure FDA0002636151960000021
Figure FDA0002636151960000022
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度;
帧表达特征为v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数;将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达v={v1',v2',...,vn'};
单词级别的问题表达为q=(q1,q2,...,qr),其中r代表问题中含有的单词个数;将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'};
对于堆叠卷积序列模型中第l个卷积序列层,其输入序列表达为
Figure FDA0002636151960000031
输出序列表达为
Figure FDA0002636151960000032
输入序列表达按照如下公式计算得到输出序列表达,
Figure FDA0002636151960000033
Figure FDA0002636151960000034
其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B代表2d维向量[A,B]中的后d维度元素值构成的向量,
Figure FDA0002636151960000035
代表按元素相乘操作,δ()代表sigmoid函数计算;
帧级别的视频语义表达为
Figure FDA0002636151960000036
单词级别的问题语义表达为
Figure FDA0002636151960000041
3.根据权利要求2所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤2)具体为:
利用得到的帧级别的视频语义表达
Figure FDA0002636151960000042
与单词级别的问题语义表达
Figure FDA0002636151960000043
按照如下公式计算得到视频问题注意力矩阵S,
Figure FDA0002636151960000044
其中,Ws 1、Ws 2代表可训练的参数矩阵,bs代表可训练的偏置向量,
Figure FDA0002636151960000045
代表参数向量ws的转置,
Figure FDA0002636151960000046
代表视频问题注意力矩阵S中的第i行第j列的值;按照如下公式计算得到自注意力矩阵D,
D=S·ST
利用得到的自注意力矩阵D,分别加上正向位置矩阵Mfw与负向位置矩阵Mbw,得到正向自注意力分数矩阵Dfw与负向自注意力分数Dbw,正向位置矩阵Mfw与负向位置矩阵Mbw的元素
Figure FDA0002636151960000047
Figure FDA0002636151960000048
取值如下,
Figure FDA0002636151960000049
Figure FDA00026361519600000410
利用得到的正向自注意力分数矩阵Dfw与负向自注意力分数Dbw,及帧级别的视频语义表达
Figure FDA00026361519600000411
按照如下公式计算得到视频每一帧的正向自注意力表达
Figure FDA00026361519600000412
与视频每一帧的负向自注意力表达
Figure FDA0002636151960000051
Figure FDA0002636151960000052
Figure FDA0002636151960000053
利用得到的视频每一帧的正向自注意力表达
Figure FDA0002636151960000054
视频每一帧的负向自注意力表达
Figure FDA0002636151960000055
与帧级别的视频语义表达
Figure FDA0002636151960000056
利用如下计算方法,得到最终多流视频语义表达
Figure FDA0002636151960000057
Figure FDA0002636151960000058
Figure FDA0002636151960000059
Figure FDA00026361519600000510
其中Wf、Wg为可训练的参数矩阵,bf、bg为可训练的参数偏置向量,δ()代表sigmoid函数计算,
Figure FDA00026361519600000511
代表按元素相乘操作。
4.根据权利要求3所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤3)具体为:
该卷积多步骤注意力解码器网络模型中第z个卷积注意力序列层的输入为序列表达
Figure FDA00026361519600000512
利用如下公式计算得到第z个卷积注意力序列层中卷积层的输出
Figure FDA00026361519600000513
Figure FDA00026361519600000514
Figure FDA00026361519600000515
其中,A代表2d维向量[A,B]中的前d维度元素值构成的向量,B代表2d维向量[A,B]中的后d维度元素值构成的向量,
Figure FDA00026361519600000516
代表按元素相乘操作;
利用得到的单词级别的问题语义表达
Figure FDA0002636151960000061
进行平均池化操作后得到全局问题表达hQ,利用得到的第z个卷积注意力序列层中卷积层的输出
Figure FDA0002636151960000062
平均池化操作后得到全局问题表达hQ与最终多流视频语义表达
Figure FDA0002636151960000063
按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出
Figure FDA0002636151960000064
Figure FDA0002636151960000065
Figure FDA0002636151960000066
其中,Wz 1、Wz 2、Wz 3为可训练的参数矩阵,bz为可训练的参数偏置向量,
Figure FDA0002636151960000067
为第z个卷积注意力序列层中注意力层的输出
Figure FDA0002636151960000068
中第i个向量;
利用如上方法,经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型,得到卷积多步骤注意力解码器网络模型的输出
Figure FDA0002636151960000069
按照如下公式计算得到所预测答案每个步骤的单词输出,
Figure FDA00026361519600000610
其中,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量;
Figure FDA00026361519600000611
代表所预测答案中第i个单词
Figure FDA00026361519600000612
的取值概率,将预测概率分数高的单词取出作为所预测答案中的第i个单词;
按照如下公式作为整个模型的训练函数,训练获得最终的卷积双向自注意网络,
Figure FDA0002636151960000071
利用训练得到的卷积双向自注意网络,输入开放长格式视频问答任务中的视频及问题,获得开放长格式视频问答任务的预测答案。
CN201910167951.0A 2019-03-06 2019-03-06 利用卷积双向自注意网络解决开放长格式视频问答的方法 Active CN109902164B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910167951.0A CN109902164B (zh) 2019-03-06 2019-03-06 利用卷积双向自注意网络解决开放长格式视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910167951.0A CN109902164B (zh) 2019-03-06 2019-03-06 利用卷积双向自注意网络解决开放长格式视频问答的方法

Publications (2)

Publication Number Publication Date
CN109902164A CN109902164A (zh) 2019-06-18
CN109902164B true CN109902164B (zh) 2020-12-18

Family

ID=66946472

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910167951.0A Active CN109902164B (zh) 2019-03-06 2019-03-06 利用卷积双向自注意网络解决开放长格式视频问答的方法

Country Status (1)

Country Link
CN (1) CN109902164B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377711B (zh) * 2019-07-01 2022-04-01 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN110427490B (zh) * 2019-07-03 2021-11-09 华中科技大学 一种基于自注意力机制的情感对话生成方法与装置
CN110457450B (zh) * 2019-07-05 2023-12-22 平安科技(深圳)有限公司 基于神经网络模型的答案生成方法及相关设备
CN110378269A (zh) * 2019-07-10 2019-10-25 浙江大学 通过影像查询定位视频中未预习的活动的方法
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108763444B (zh) * 2018-05-25 2021-02-05 杭州一知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818306A (zh) * 2017-10-31 2018-03-20 天津大学 一种基于注意力模型的视频问答方法
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Open-Ended Long-Form Video Qestion Aanswering via adaptive hierarchical Reinforced networks";Zhou Zhao,Zhu Zhang,et al.;《Proceedings of the Twenty-Seventh International Joint Coference on Artificial Intelligence, IJCAI2018》;20180719;第3683页-3689页 *

Also Published As

Publication number Publication date
CN109902164A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109766427B (zh) 一种基于协同注意力的虚拟学习环境智能问答方法
CN108628935B (zh) 一种基于端到端记忆网络的问答方法
US10460039B2 (en) Method for controlling identification and identification control apparatus
CN110489567B (zh) 一种基于跨网络特征映射的节点信息获取方法及其装置
CN109829049B (zh) 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN108304587B (zh) 一种社区问答平台回答排序方法
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111400461B (zh) 智能客服问题匹配方法及装置
CN112948558B (zh) 面向开放域对话系统的上下文增强的问题生成方法及装置
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN113297364A (zh) 一种面向对话系统中的自然语言理解方法及装置
CN109637527A (zh) 对话语句的语义解析方法及系统
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN112612881A (zh) 基于Transformer的中文智能对话方法
CN112560502A (zh) 一种语义相似度匹配方法、装置及存储介质
CN115455985A (zh) 一种基于机器阅读理解的自然语言系统的处理方法
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN109840506B (zh) 利用结合关系互动的视频转换器解决视频问答任务的方法
CN113010655A (zh) 一种机器阅读理解的回答与干扰项生成方法、装置
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
CN108959467B (zh) 一种基于强化学习的问句和答案句相关度的计算方法
CN115905852A (zh) 基于预训练提示的故事生成方法、系统、存储介质和终端
CN115169472A (zh) 针对多媒体数据的音乐匹配方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant