CN108829756B - 一种利用分层注意力上下文网络解决多轮视频问答的方法 - Google Patents

一种利用分层注意力上下文网络解决多轮视频问答的方法 Download PDF

Info

Publication number
CN108829756B
CN108829756B CN201810517198.9A CN201810517198A CN108829756B CN 108829756 B CN108829756 B CN 108829756B CN 201810517198 A CN201810517198 A CN 201810517198A CN 108829756 B CN108829756 B CN 108829756B
Authority
CN
China
Prior art keywords
expression
video
question
context
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810517198.9A
Other languages
English (en)
Other versions
CN108829756A (zh
Inventor
俞新荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN201810517198.9A priority Critical patent/CN108829756B/zh
Publication of CN108829756A publication Critical patent/CN108829756A/zh
Application granted granted Critical
Publication of CN108829756B publication Critical patent/CN108829756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用分层注意力上下文网络解决多轮视频问答的方法。主要包括如下步骤:1)针对于一组多轮问答上下文及当前问题,结合上下文学习出问题的结合对话上下文的一致性表达。2)利用学习出的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达。3)利用循环迭代的方法,获取最终的结合问题语义的视频表达,利用该表达获取最终的问题答案。相比于一般的多轮视频问答解决方案,本发明利用时间及空间注意力机制更好地反映了视频、上下文与所问问题之间的相关关系,能够更准确地反映视频、对话上下文和问题的特性,并产生更加符合要求的答案。本发明在多轮视频问答问题中所取得的效果相比于已有的方法更好。

Description

一种利用分层注意力上下文网络解决多轮视频问答的方法
技术领域
本发明涉及视频多轮问答文本生成,尤其涉及一种利用分层注意力上下文网络解决多轮视频问答的方法。
背景技术
多轮视频问答问题是视频问答领域中的一个重要问题,该问题的目标是针对于相关的视频及上下文信息,结合最近给出的问题,自动生成答案。
现有的技术主要解决的是单轮视频问答问题,针对于多轮视频问答问题,采用的方法是简单地把单轮视频问答方法迁移到多轮视频问答上。虽然针对于单轮视频问答,可以取得很好的表现结果,但是这样的方法并不能很好地利用多轮视频问答中已有的上下文信息,所以不能取得较为满意的效果。
利用分层注意力上下文网络则能很好地弥补上述解决方案的不足。本方法将利用带有注意力机制的多层循环神经网络对对话上下文信息中的序列关系及与所问问题相关的重要信息进行建模,随后利用带有时空注意力机制的分层神经网络学习视频内容及带有上下文信息的问题映射的联合表达,之后本方法利用该表达结合分层注意力网络来综合地学习视频中关键帧序列及所问问题,随后通过多步的推理过程获取最终的问题答案。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中无法很好地利用上下文信息的不足,本发明提供一种利用分层注意力上下文网络解决多轮视频问答的方法。本发明所采用的具体技术方案是:
利用分层注意力上下文网络解决多轮视频问答问题,包含如下步骤:
1、针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达。
2、利用学习出的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达。
3、利用循环迭代的方法,对于步骤1-2综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达。
4、对于要回答的问题,根据生成的最终的结合问题语义的视频表达,在分层注意力上下文网络获取最终的问题答案。
上述步骤可具体采用如下实现方式:
1、对于给出的上下文数据u中第k轮的问题和答案,分别输入LSTM网络中,获取对应的问题表达
Figure BDA0001673746790000021
和答案表达
Figure BDA0001673746790000022
之后利用如下公式所示的问题答案对混合表达机制,结合问题表达
Figure BDA0001673746790000023
和答案表达
Figure BDA0001673746790000024
获取上下文数据u中第k轮上下文的混合表达uk
Figure BDA0001673746790000025
其中,W(q)和W(a)是参数矩阵,+代表按元素相加,g(.)代表按元素进行双曲正切函数计算。按照此方法,可以获取上下文数据u中每一轮问答的混合表达u=(u1,u2,...,uM)。将每一轮的混合表达依次输入LSTM网络中,获取对应于每一轮表达的映射
Figure BDA0001673746790000026
其中M为上下文数据中的问答轮数。
2、利用问题文本q,输入到LSTM网络中,获得问题的表达h(q),结合步骤1获得的上下文数据每一轮表达的映射
Figure BDA0001673746790000027
按照如下公式计算问题文本q针对上下文数据中第i轮问答的注意力分数值
Figure BDA0001673746790000028
Figure BDA0001673746790000029
其中,W(q)和W(u)是参数矩阵,
Figure BDA00016737467900000210
为偏置向量,w(q,u)为计算注意力分数的系数向量。针对于上下文中的每一轮数据,均可按照上述公式计算出注意力分数值
Figure BDA00016737467900000211
按照如下公式计算出对于上下文对话中第i轮混合表达ui对应的softmax 激活系数
Figure BDA00016737467900000212
Figure BDA00016737467900000213
则利用上下文对话中每一轮表达的映射
Figure BDA00016737467900000214
及混合表达对应的softmax 激活系数
Figure BDA00016737467900000215
计算出结合对话上下文的问题表达为
Figure BDA00016737467900000216
则结合对话上下文的问题的一致性表达为
Figure BDA00016737467900000217
3、利用2维卷积神经网络,针对于视频v的每一帧,获取其帧级别的特征表达
Figure BDA00016737467900000218
其中T(f)为视频的帧数,
Figure BDA00016737467900000219
为第i帧的区域特征集合。在第i帧的区域特征集合
Figure BDA00016737467900000220
中,
Figure BDA00016737467900000221
为候选区域特征,
Figure BDA00016737467900000222
为整体帧特征。利用第i帧的第j区域特征
Figure BDA00016737467900000223
及步骤2得到的结合上下文的问题的一致性表达
Figure BDA00016737467900000224
按照如下公式计算第i帧第j区域对应的空间注意力分数
Figure BDA00016737467900000225
Figure BDA0001673746790000031
其中,
Figure BDA0001673746790000032
和W(r)是参数矩阵,
Figure BDA0001673746790000033
为偏置向量,w(q,r)为计算注意力分数的系数向量。针对于第i帧的每一个区域特征,均可按照上述方法计算出对应的空间注意力分数
Figure BDA0001673746790000034
按照如下公式计算出第i帧第j区域对应的softmax激活系数
Figure BDA0001673746790000035
Figure BDA0001673746790000036
则利用第i帧的区域特征集合
Figure BDA0001673746790000037
与对应的区域softmax激活系数
Figure BDA0001673746790000038
可以计算出第i帧的空间注意力表达
Figure BDA0001673746790000039
利用该方法可以计算出视频每一帧的空间注意力表达
Figure BDA00016737467900000310
4、利用步骤3计算出的视频每一帧的空间注意力表达
Figure BDA00016737467900000311
输入到 LSTM网络中,获得对应的隐藏状态表达
Figure BDA00016737467900000312
利用第i帧的隐藏状态表达
Figure BDA00016737467900000313
与结合上下文的问题的一致性表达
Figure BDA00016737467900000314
可以按照如下公式计算出第i帧对应的时间注意力分数
Figure BDA00016737467900000315
Figure BDA00016737467900000316
其中,
Figure BDA00016737467900000317
和W(f)是参数矩阵,
Figure BDA00016737467900000318
为偏置向量,w(q,f)为计算注意力分数的系数向量。针对于视频的每一帧,均可按照上述方法计算出所有帧对应的时间注意力分数
Figure BDA00016737467900000319
按照如下公式计算出第i帧对应的softmax激活系数
Figure BDA00016737467900000320
Figure BDA00016737467900000321
则利用所有帧隐藏状态表达
Figure BDA00016737467900000322
与对应的区域softmax激活系数
Figure BDA00016737467900000323
可以计算出视频的帧级别时间注意力表达
Figure BDA00016737467900000324
5、利用3维卷积神经网络,针对于视频v,获取其分段级别的特征表达
Figure BDA00016737467900000325
其中T(s)为视频的分段数。将视频分段级别的特征表达
Figure BDA00016737467900000326
输入到LSTM网络中,获得对应的隐藏状态表达
Figure BDA00016737467900000327
利用第i分段的隐藏状态表达
Figure BDA00016737467900000328
与结合上下文的问题的一致性表达
Figure BDA00016737467900000329
可以按照如下公式计算出第i分段对应的时间注意力分数
Figure BDA00016737467900000330
Figure BDA0001673746790000041
其中,
Figure BDA0001673746790000042
和W(s)是参数矩阵,
Figure BDA0001673746790000043
为偏置向量,w(q,s)为计算注意力分数的系数向量。针对于视频的每一分段,均可按照上述方法计算出所有帧对应的时间注意力分数
Figure BDA0001673746790000044
按照如下公式计算出第i分段对应的softmax激活系数
Figure BDA0001673746790000045
Figure BDA0001673746790000046
则利用所有分段隐藏状态表达
Figure BDA0001673746790000047
与对应的区域softmax激活系数
Figure BDA0001673746790000048
可以计算出视频的分段级别时间注意力表达
Figure BDA0001673746790000049
6、利用步骤4得到的视频的帧级别时间注意力表达
Figure BDA00016737467900000410
与步骤5得到的视频的分段级别时间注意力表达
Figure BDA00016737467900000411
可以获得结合问题语义的视频表达
Figure BDA00016737467900000412
其中
Figure BDA00016737467900000413
代表按元素相乘。
7、为了进一步地提高多轮对话视频问答的表现,本发明将多个上面提出的分层注意力网络的推理过程进行合并。给定分层注意力网络y(.)、视频v、对话上下文,分层注意力网络的多步骤学习按照如下公式进行:
Figure BDA00016737467900000414
z0=yh(q)(u,v)
则分层注意力网络生成的结合问题的视频表达在经过第k次更新之后为zk
6、本发明中对于视频多轮问答文本生成中的问题对应答案选择,按照如下方式进行:对于利用步骤5所述方法获得的每一轮问题结合上下文文本及视频生成的结合问题的视频表达,记为z,通过如下公式计算候选语句作为答案的概率值向量
Figure BDA00016737467900000415
其中,W(z)为参数矩阵,
Figure BDA00016737467900000416
为偏置向量。随后按照此概率来输出概率最大的答案作为该轮视频问答的答案。本发明也可采用LSTM网络,利用上下文文本及视频生成的结合问题的视频表达z作为输入,生成自由格式的开放式该轮视频问答答案。
附图说明
图1是本发明所使用的对于视频多轮问答文本生成问题的分层注意力上下文网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用分层注意力上下文网络来解决多轮视频问答的方法包括如下步骤:
1)针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达;
2)针对步骤1)所得到的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达;
3)利用循环迭代的方法,对于步骤1)-2)综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达;
4)对于要回答的问题,根据生成的最终的结合问题语义的视频表达,在分层注意力上下文网络获取最终的问题答案。
所述的步骤1)针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达,其具体步骤为:
1.1)对于给出的上下文数据u中第k轮的问题和答案,分别输入LSTM网络中,获取对应的问题表达
Figure BDA0001673746790000051
和答案表达
Figure BDA0001673746790000052
之后利用如下公式所示的问题答案对混合表达机制,结合问题表达
Figure BDA0001673746790000053
和答案表达
Figure BDA0001673746790000054
获取上下文数据u中第k轮上下文的混合表达uk
Figure BDA0001673746790000055
其中,W(q)和W(a)是参数矩阵,+代表按元素相加,g(.)代表按元素进行双曲正切函数计算;按照此方法,可以获取上下文数据u中每一轮问答的混合表达u=(u1,u2,...,uM);将每一轮的混合表达依次输入LSTM网络中,获取对应于每一轮表达的映射
Figure BDA0001673746790000056
其中M为上下文数据中的问答轮数;
1.2)利用问题文本q,输入到LSTM网络中,获得问题的表达h(q),结合步骤1获得的上下文数据每一轮表达的映射
Figure BDA0001673746790000057
按照如下公式计算问题文本q针对上下文数据中第i轮问答的注意力分数值
Figure BDA0001673746790000058
Figure BDA0001673746790000059
其中,W(q)和W(u)是参数矩阵,
Figure BDA00016737467900000510
为偏置向量,w(q,u)为计算注意力分数的系数向量;针对于上下文中的每一轮数据,均可按照上述公式计算出注意力分数值
Figure BDA0001673746790000061
按照如下公式计算出对于上下文对话中第i轮混合表达ui对应的softmax 激活系数
Figure BDA0001673746790000062
Figure BDA0001673746790000063
则利用上下文对话中每一轮表达的映射
Figure BDA0001673746790000064
及混合表达对应的softmax激活系数
Figure BDA0001673746790000065
计算出结合上下文的问题表达为
Figure BDA0001673746790000066
则结合上下文的问题的一致性表达为
Figure BDA0001673746790000067
所述的步骤2)针对步骤1)所得到的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达,其具体步骤为:
2.1)利用2维卷积神经网络,针对于视频v的每一帧,获取其帧级别的特征表达
Figure BDA0001673746790000068
其中T(f)为视频的帧数,
Figure BDA0001673746790000069
为第i帧的区域特征集合;在第i帧的区域特征集合
Figure BDA00016737467900000610
中,
Figure BDA00016737467900000611
为候选区域特征,
Figure BDA00016737467900000612
为整体帧特征;利用第i帧的第j区域特征
Figure BDA00016737467900000613
及步骤1.2)得到的结合上下文的问题的一致性表达
Figure BDA00016737467900000614
按照如下公式计算第i帧第j区域对应的空间注意力分数
Figure BDA00016737467900000615
Figure BDA00016737467900000616
其中,
Figure BDA00016737467900000617
和W(r)是参数矩阵,
Figure BDA00016737467900000618
为偏置向量,w(q,r)为计算注意力分数的系数向量;针对于第i帧的每一个区域特征,均可按照上述方法计算出对应的空间注意力分数
Figure BDA00016737467900000619
按照如下公式计算出第i帧第j区域对应的softmax激活系数
Figure BDA00016737467900000620
Figure BDA00016737467900000621
则利用第i帧的区域特征集合
Figure BDA00016737467900000622
与对应的区域softmax激活系数
Figure BDA00016737467900000623
可以计算出第i帧的空间注意力表达
Figure BDA00016737467900000624
利用该方法可以计算出视频每一帧的空间注意力表达
Figure BDA00016737467900000625
2.2)利用步骤2.1)计算出的视频每一帧的空间注意力表达
Figure BDA00016737467900000626
输入到 LSTM网络中,获得对应的隐藏状态表达
Figure BDA00016737467900000627
利用第i帧的隐藏状态表达
Figure BDA00016737467900000628
与结合上下文的问题的一致性表达
Figure BDA00016737467900000629
可以按照如下公式计算出第i帧对应的时间注意力分数
Figure BDA00016737467900000630
Figure BDA0001673746790000071
其中,
Figure BDA0001673746790000072
和W(f)是参数矩阵,
Figure BDA0001673746790000073
为偏置向量,w(q,f)为计算注意力分数的系数向量;针对于视频的每一帧,均可按照上述方法计算出所有帧对应的时间注意力分数
Figure BDA0001673746790000074
按照如下公式计算出第i帧对应的softmax激活系数
Figure BDA0001673746790000075
Figure BDA0001673746790000076
则利用所有帧隐藏状态表达
Figure BDA0001673746790000077
与对应的区域softmax激活系数
Figure BDA0001673746790000078
可以计算出视频的帧级别时间注意力表达
Figure BDA0001673746790000079
2.3)利用3维卷积神经网络,针对于视频v,获取其分段级别的特征表达
Figure BDA00016737467900000710
其中T(s)为视频的分段数;将视频分段级别的特征表达
Figure BDA00016737467900000711
输入到LSTM网络中,获得对应的隐藏状态表达
Figure BDA00016737467900000712
利用第i分段的隐藏状态表达
Figure BDA00016737467900000713
与结合上下文的问题的一致性表达
Figure BDA00016737467900000714
可以按照如下公式计算出第i分段对应的时间注意力分数
Figure BDA00016737467900000715
Figure BDA00016737467900000716
其中,
Figure BDA00016737467900000717
和W(s)是参数矩阵,
Figure BDA00016737467900000718
为偏置向量,w(q,s)为计算注意力分数的系数向量;针对于视频的每一分段,均可按照上述方法计算出所有帧对应的时间注意力分数
Figure BDA00016737467900000719
按照如下公式计算出第i分段对应的softmax激活系数
Figure BDA00016737467900000720
Figure BDA00016737467900000721
则利用所有分段隐藏状态表达
Figure BDA00016737467900000722
与对应的区域softmax激活系数
Figure BDA00016737467900000723
可以计算出视频的分段级别时间注意力表达
Figure BDA00016737467900000724
2.4)利用步骤2.2)得到的视频的帧级别时间注意力表达
Figure BDA00016737467900000725
与步骤2.3)得到的视频的分段级别时间注意力表达
Figure BDA00016737467900000726
可以获得结合问题语义的视频表达
Figure BDA00016737467900000727
其中
Figure BDA00016737467900000728
代表按元素相乘。
所述的步骤3)利用循环迭代的方法,对于步骤1)-2)综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达,其具体步骤为:
给定分层注意力网络y(.)、视频v、对话上下文,分层注意力网络的多步骤学习按照如下公式进行:
Figure BDA0001673746790000081
z0=yh(q)(u,v)
则分层注意力网络生成的结合问题的视频表达在经过第k次更新之后为zk
所述步骤4)利用循环迭代的方法,对于步骤1)-2)综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达,其具体步骤为:
对于利用步骤3)得到的每一轮问题结合上下文文本及视频生成的结合问题的视频表达记为z,通过如下公式计算候选语句作为答案的概率值向量
Figure BDA0001673746790000082
其中,W(z)为参数矩阵,
Figure BDA0001673746790000083
为偏置向量;随后按照此概率来输出概率最大的答案作为该轮视频问答的答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在自己构建的数据集上面进行实验验证,包含30000条视频片段及110000条文字描述。我们使用70%的数据作为训练集,10%的数据作为验证集,20%的数据作为测试集:随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于每一个视频的每一帧都重置为224×224大小,随后利用VGGNet获取每一帧的4096 维的特征表达。
2)对于对话问答对,本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词向量的维度为256维。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了MRR、P@K和 MeanRank对于本发明的效果进行评价。对于本发明提出的方法记为HACN。按照具体实施方式中描述的步骤,所得的实验结果如表1所示:
Method MRR P@1 P@5 MeanRank
HACN 0.404 0.297 0.524 4.459
表1本发明针对于自构数据集的测试结果。

Claims (5)

1.一种利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于包括如下步骤:
1)针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达;
2)针对步骤1)所得到的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达;
3)利用循环迭代的方法,对于步骤1)-2)综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达;
4)对于要回答的问题,根据生成的最终的结合问题语义的视频表达,在分层注意力上下文网络获取最终的问题答案。
2.根据权利要求1所述利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于所述的步骤1)针对于一组多轮问答上下文及当前问题,结合所述一组多轮问答上下文学习出问题的结合对话上下文的一致性表达,其具体步骤为:
1.1)对于给出的上下文数据u中第k轮的问题和答案,分别输入LSTM网络中,获取对应的问题表达
Figure FDA0001673746780000011
和答案表达
Figure FDA0001673746780000012
之后利用如下公式所示的问题答案对混合表达机制,结合问题表达
Figure FDA0001673746780000013
和答案表达
Figure FDA0001673746780000014
获取上下文数据u中第k轮上下文的混合表达uk
Figure FDA0001673746780000015
其中,W(q)和W(a)是参数矩阵,+代表按元素相加,g(.)代表按元素进行双曲正切函数计算;按照此方法,可以获取上下文数据u中每一轮问答的混合表达u=(u1,u2,...,uM);将每一轮的混合表达依次输入LSTM网络中,获取对应于每一轮表达的映射
Figure FDA0001673746780000016
其中M为上下文数据中的问答轮数;
1.2)利用问题文本q,输入到LSTM网络中,获得问题的表达h(q),结合步骤1获得的上下文数据每一轮表达的映射
Figure FDA0001673746780000017
按照如下公式计算问题文本q针对上下文数据中第i轮问答的注意力分数值
Figure FDA0001673746780000018
Figure FDA0001673746780000019
其中,W(q)和W(u)是参数矩阵,
Figure FDA00016737467800000110
为偏置向量,w(q,u)为计算注意力分数的系数向量;针对于上下文中的每一轮数据,均可按照上述公式计算出注意力分数值
Figure FDA00016737467800000111
按照如下公式计算出对于上下文对话中第i轮混合表达ui对应的softmax激活系数
Figure FDA00016737467800000112
Figure FDA0001673746780000021
则利用上下文对话中每一轮表达的映射
Figure FDA0001673746780000022
及混合表达对应的softmax激活系数
Figure FDA0001673746780000023
计算出结合对话上下文的问题表达为
Figure FDA0001673746780000024
则结合对话上下文的问题的一致性表达为
Figure FDA0001673746780000025
3.根据权利要求1所述利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于所述的步骤2)针对步骤1)所得到的问题的一致性表达,利用分层注意力网络学习出结合问题语义的视频表达,其具体步骤为:
2.1)利用2维卷积神经网络,针对于视频v的每一帧,获取其帧级别的特征表达
Figure FDA0001673746780000026
其中T(f)为视频的帧数,
Figure FDA0001673746780000027
为第i帧的区域特征集合;在第i帧的区域特征集合
Figure FDA0001673746780000028
中,
Figure FDA0001673746780000029
为候选区域特征,
Figure FDA00016737467800000210
为整体帧特征;利用第i帧的第j区域特征
Figure FDA00016737467800000211
及步骤1.2)得到的结合上下文的问题的一致性表达
Figure FDA00016737467800000212
按照如下公式计算第i帧第j区域对应的空间注意力分数
Figure FDA00016737467800000213
Figure FDA00016737467800000214
其中,
Figure FDA00016737467800000215
和W(r)是参数矩阵,
Figure FDA00016737467800000216
为偏置向量,w(q,r)为计算注意力分数的系数向量;针对于第i帧的每一个区域特征,均可按照上述方法计算出对应的空间注意力分数
Figure FDA00016737467800000217
按照如下公式计算出第i帧第j区域对应的softmax激活系数
Figure FDA00016737467800000218
Figure FDA00016737467800000219
则利用第i帧的区域特征集合
Figure FDA00016737467800000220
与对应的区域softmax激活系数
Figure FDA00016737467800000221
可以计算出第i帧的空间注意力表达
Figure FDA00016737467800000222
利用该方法可以计算出视频每一帧的空间注意力表达
Figure FDA00016737467800000223
2.2)利用步骤2.1)计算出的视频每一帧的空间注意力表达
Figure FDA00016737467800000224
输入到LSTM网络中,获得对应的隐藏状态表达
Figure FDA00016737467800000225
利用第i帧的隐藏状态表达
Figure FDA00016737467800000226
与结合上下文的问题的一致性表达
Figure FDA00016737467800000227
可以按照如下公式计算出第i帧对应的时间注意力分数
Figure FDA00016737467800000228
Figure FDA00016737467800000229
其中,
Figure FDA0001673746780000031
和W(f)是参数矩阵,
Figure FDA0001673746780000032
为偏置向量,w(q,f)为计算注意力分数的系数向量;针对于视频的每一帧,均可按照上述方法计算出所有帧对应的时间注意力分数
Figure FDA0001673746780000033
按照如下公式计算出第i帧对应的softmax激活系数
Figure FDA0001673746780000034
Figure FDA0001673746780000035
则利用所有帧隐藏状态表达
Figure FDA0001673746780000036
与对应的区域softmax激活系数
Figure FDA0001673746780000037
可以计算出视频的帧级别时间注意力表达
Figure FDA0001673746780000038
2.3)利用3维卷积神经网络,针对于视频v,获取其分段级别的特征表达
Figure FDA0001673746780000039
其中T(s)为视频的分段数;将视频分段级别的特征表达
Figure FDA00016737467800000310
输入到LSTM网络中,获得对应的隐藏状态表达
Figure FDA00016737467800000311
利用第i分段的隐藏状态表达
Figure FDA00016737467800000312
与结合上下文的问题的一致性表达
Figure FDA00016737467800000313
可以按照如下公式计算出第i分段对应的时间注意力分数
Figure FDA00016737467800000314
Figure FDA00016737467800000315
其中,
Figure FDA00016737467800000316
和W(s)是参数矩阵,
Figure FDA00016737467800000317
为偏置向量,w(q,s)为计算注意力分数的系数向量;针对于视频的每一分段,均可按照上述方法计算出所有帧对应的时间注意力分数
Figure FDA00016737467800000318
按照如下公式计算出第i分段对应的softmax激活系数
Figure FDA00016737467800000319
Figure FDA00016737467800000320
则利用所有分段隐藏状态表达
Figure FDA00016737467800000321
与对应的区域softmax激活系数
Figure FDA00016737467800000322
可以计算出视频的分段级别时间注意力表达
Figure FDA00016737467800000323
2.4)利用步骤2.2)得到的视频的帧级别时间注意力表达
Figure FDA00016737467800000324
与步骤2.3)得到的视频的分段级别时间注意力表达
Figure FDA00016737467800000325
可以获得结合问题语义的视频表达
Figure FDA00016737467800000326
其中
Figure FDA00016737467800000327
代表按元素相乘。
4.根据权利要求1所述利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于所述的步骤3)利用循环迭代的方法,对于步骤1)-2)综合构成的分层注意力上下文网络,结合给出的上下文、相关视频及所提问题,进行迭代更新,获取最终的结合问题语义的视频表达,其具体步骤为:
给定分层注意力网络y(.)、视频v、对话上下文,分层注意力网络的多步骤学习按照如下公式进行:
Figure FDA0001673746780000043
z0=yh(q)(u,v)
则分层注意力网络生成的结合问题的视频表达在经过第k次更新之后为zk
5.根据权利要求1所述利用分层注意力上下文网络解决多轮视频问答的方法,其特征在于所述的步骤4)对于要回答的问题,根据生成的最终的结合问题语义的视频表达,在分层注意力上下文网络获取最终的问题答案,其具体步骤为:
对于对于利用步骤3)得到的每一轮问题结合上下文文本及视频生成的结合问题的视频表达记为z,通过如下公式计算候选语句作为答案的概率值向量
Figure FDA0001673746780000041
其中,W(z)为参数矩阵,
Figure FDA0001673746780000042
为偏置向量;随后按照此概率来输出概率最大的答案作为该轮视频问答的答案。
CN201810517198.9A 2018-05-25 2018-05-25 一种利用分层注意力上下文网络解决多轮视频问答的方法 Active CN108829756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810517198.9A CN108829756B (zh) 2018-05-25 2018-05-25 一种利用分层注意力上下文网络解决多轮视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810517198.9A CN108829756B (zh) 2018-05-25 2018-05-25 一种利用分层注意力上下文网络解决多轮视频问答的方法

Publications (2)

Publication Number Publication Date
CN108829756A CN108829756A (zh) 2018-11-16
CN108829756B true CN108829756B (zh) 2021-10-22

Family

ID=64145551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810517198.9A Active CN108829756B (zh) 2018-05-25 2018-05-25 一种利用分层注意力上下文网络解决多轮视频问答的方法

Country Status (1)

Country Link
CN (1) CN108829756B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287294A (zh) * 2018-12-27 2019-09-27 厦门智融合科技有限公司 知识产权概念自动解答方法及系统
CN109857909B (zh) * 2019-01-22 2020-11-20 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463609A (zh) * 2017-06-27 2017-12-12 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Adaptive attention fusion network for visual question answering;Geonmo Gu等;《2017 IEEE International Conference on Multimedia and Expo (ICME)》;20170831;997-1002 *
TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering;Yunseok Jang等;《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20170909;1359-1367 *
基于LSTM的大规模知识库自动问答;周博通等;《北京大学学报(自然科学版)》;20171105;第54卷(第2期);286-292 *

Also Published As

Publication number Publication date
CN108829756A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108052512B (zh) 一种基于深度注意力机制的图像描述生成方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109948691B (zh) 基于深度残差网络及注意力的图像描述生成方法和装置
CN108734276B (zh) 一种基于对抗生成网络的模仿学习对话生成方法
CN110428010B (zh) 知识追踪方法
CN109766427B (zh) 一种基于协同注意力的虚拟学习环境智能问答方法
CN110929515B (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN111652202B (zh) 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
US20180329884A1 (en) Neural contextual conversation learning
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
CN112685597B (zh) 一种基于擦除机制的弱监督视频片段检索方法和系统
CN106875940A (zh) 一种基于神经网络的机器自学习构建知识图谱训练方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109857909B (zh) 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN108897896B (zh) 基于强化学习的关键词抽取方法
CN110377711B (zh) 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN115964467A (zh) 一种融合视觉情境的富语义对话生成方法
CN110263143A (zh) 提高相关性的神经问题生成方法
CN106897671A (zh) 一种基于光流和FisherVector编码的微表情识别方法
CN115510814B (zh) 一种基于双重规划的篇章级复杂问题生成方法
CN114398976A (zh) 基于bert与门控类注意力增强网络的机器阅读理解方法
CN116402133B (zh) 一种基于结构聚合图卷积网络的知识图谱补全方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant