CN107766447A - 一种使用多层注意力网络机制解决视频问答的方法 - Google Patents

一种使用多层注意力网络机制解决视频问答的方法 Download PDF

Info

Publication number
CN107766447A
CN107766447A CN201710874931.8A CN201710874931A CN107766447A CN 107766447 A CN107766447 A CN 107766447A CN 201710874931 A CN201710874931 A CN 201710874931A CN 107766447 A CN107766447 A CN 107766447A
Authority
CN
China
Prior art keywords
mrow
video
msubsup
expression
notice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710874931.8A
Other languages
English (en)
Other versions
CN107766447B (zh
Inventor
赵洲
孟令涛
林靖豪
姜兴华
蔡登�
何晓飞
庄越挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710874931.8A priority Critical patent/CN107766447B/zh
Publication of CN107766447A publication Critical patent/CN107766447A/zh
Application granted granted Critical
Publication of CN107766447B publication Critical patent/CN107766447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

本发明公开了一种利用多层注意力网络机制解决视频问答的方法。主要包括如下步骤:1)针对于一组视频,利用预训练好的卷积神经网络,获得帧级别及分段级别视频表达。2)使用问题单词级别的注意力网络机制,得到针对问题单词级别的帧级别及分段级别视频表达。3)使用问题级别的时间注意力机制,得到与问题相关的帧级别及分段级别视频表达。4)利用问题级别的融合注意力网络机制,得到问题相关的联合视频表达。5)利用所得联合视频表达,获取针对视频所问问题答案。相比于一般视频问答解决方案,本发明利用多层注意力机制,能够更准确地反映视频和问题特性,产生更加符合的答案。本发明在视频问答中所取得的效果相比于传统方法更好。

Description

一种使用多层注意力网络机制解决视频问答的方法
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用多层注意力网络来生成与视频相关的问题的答案的方法。
背景技术
视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。
现有的技术主要解决的是关于静态图像相关的问答问题。虽然目前的技术针对于静态图像问答,可以取得很好的表现结果,但是这样的方法缺少对于视频中的时间动态信息的建模,所以不能很好地拓展到视频问答任务上面。
针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本方法将使用时间注意力机制来聚焦于视频与所问问题相关的目标帧,并且学习与问题相关的有效的视频表达。同时,使用分段级别的视频特征提取机制提取关于视频帧之中的物体外形及移动信息。
本方法将利用2维卷积神经网络进行帧级别的特征提取,利用3维卷积神经网络进行分段级别的视频特征提取。之后利用问题单词级别的注意力网络机制,来分别针对上面获取到的帧级别及分段级别的视频特征,学习得到针对所问问题的单词级别的视频表达。之后利用问题级别的时间注意力机制,学习得到问题相关的帧级别及分段级别的视频表达。最后本方法在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习出问题相关的联合视频表达来处理视频问答问题。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于视频中的时间动态信息的建模的问题,且针对于视频中经常包含对象物品的外形及其移动信息,并且与问题相关的视频信息是分散在视频的某些目标帧之中的情况,本发明提供一种利用多层注意力网络来生成与视频相关的问题的答案的方法。本发明所采用的具体技术方案是:
利用多层注意力网络来解决开放式视频问答问题,包含如下步骤:
1、针对于一组视频、问题、答案训练集,通过2维卷积神经网络获取帧级别的视频特征,通过3维卷积神经网络获取分段级别的视频特征。
2、使用问题单词级别的注意力网络机制,分别针对之前获取的帧级别及分段级别的视频特征,学习得到针对所问问题的单词级别的视频表达。
3、使用问题级别的时间注意力机制,学习得到与问题相关的帧级别及分段级别的视频表达。
4、在之前所学习得到的问题相关的帧级别及分段级别的视频表达的基础上,利用问题级别的融合注意力网络机制,学习出问题相关的联合视频表达。
5、利用学习得到的问题相关的联合视频表达,获取针对于视频所问问题的答案。
上述步骤可具体采用如下实现方式:
1、对于所给视频,使用预训练的2维卷积神经网络获取视频v的帧级别的特征其中M(f)代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达。使用预训练的3维卷积神经网络获取视频v的分段级别的特征其中M(s)代表视频分段表达v(s)中的分段数,代表视频第k分段的嵌入表达。则视频的双重特征表达(包含帧级别及分段级别的特征)为v=(v(f),v(s))。
2、针对于视频的帧级别、分段级别的表达和问题文本均为有着可变长度的序列化数据,本发明选择名为“长短期记忆网络”(Long-Short Term Memory network LSTM)的可变循环神经网络来学习其相关的特征表达,该网络单元的更新方法如下:
ft=δg(Wfxt+Ufht-1+bf)
it=δg(Wixt+Uiht-1+bi)
ot=δg(Woxt+Uoht-1+bo)
在上述公式中,xt代表输入向量,ht代表输出向量,ct代表单元状态向量,Ws和Us代表参数矩阵,bs代表偏置向量。激活函数δg(.)和δh(.)分别代表sigmoid函数与双曲正切函数。符号代表元素级相乘操作。
则对于通过LSTM网络取得的帧级别的视频特征表达记为其中代表视频第i帧的特征表达。对于通过LSTM网络取得的分段级别的视频特征表达记为其中代表视频第j分段的特征表达。则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s))。
对于通过LSTM网络取得的问题的输出状态表达记为其中为问题q的第k个单词的输出状态表达。
3、给定问题的输出状态表达及帧级别的视频特征表达按照如下公式获得针对第k个问题单词及第i个视频帧的单词级别的帧的注意力分数
其中,为参数矩阵,为偏置向量,p(f,w)为用来计算单词级别帧注意力分数的参数向量,tanh(.)为反正切函数,为视频v的第i帧的输出状态表达,为问题q的第k个单词的输出状态表达。
对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
即单词级别的帧注意力分数的标准化值。
则单词级别的第i帧的注意力表达为则视频第i帧的增广的帧表达为LSTM第i个输出状态表达及单词级别的第i帧的注意力表达的连接,记为
4、给定问题的输出状态表达及分段级别的视频特征表达按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的分段的注意力分数
其中,为参数矩阵,为偏置向量,p(s,w)为用来计算单词级别分段注意力分数的参数向量,tanh(.)为反正切函数,为视频v的第j帧的输出状态表达,为问题q的第k个单词的输出状态表达。
对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
即单词级别的分段注意力分数的标准化值。
则单词级别的第j分段的注意力表达为则视频第j分段的增广的分段表达为LSTM第j个输出状态表达及单词级别的第j分段的注意力表达的连接,记为
5、之后,将视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中。对于给定的视频增广的帧级别的表达输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为对于给定的视频增广的分段级别的表达则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
6、给定帧级别的视频增广表达及问题文本的最后输出状态则针对于视频第i个编码增广帧的问题级别的帧时间注意力分数为:
其中为参数矩阵,为偏置向量,p(f,q)为计算问题级别的帧时间注意力分数的参数向量。tanh(.)为反正切函数。为第i帧的视频编码增广表达。
对于每一个视频帧的编码增广表达其针对于问题的时间softmax激活函数为:
即问题级别的帧注意力分数的标准化值。
则问题级别的视频的帧注意力表达为将所有帧的注意力分数相加,即为:
7、给定分段级别的视频增广表达及问题文本的最后输出状态则针对于视频第j个编码增广分段的问题级别的分段时间注意力分数为:
其中为参数矩阵,为偏置向量,p(s,q)为计算问题级别的帧时间注意力分数的参数向量。tanh(.)为反正切函数。为第j分段的视频编码增广表达。
对于每一个视频分段的编码增广表达其针对于问题的时间softmax激活函数为:
即问题级别的分段注意力分数的标准化值。
则问题级别的视频的分段注意力表达为将所有分段的注意力分数相加,即为:
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
8、给定问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),则问题级别的针对于帧的混合注意力分数为:
问题级别的针对于分段的注意力分数为:
其中为参数矩阵,bs为偏置向量,p为计算混合注意力分数的参数向量,为问题文本的最后输出状态,tanh(.)为反正切函数。
9、则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
10、则给定问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sof max(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,soft max(.)为softmax函数。
随后根据获得的各个候选答案的概率分布输出最可能的答案作为所问问题的最终答案。
并且不仅对于有候选答案的视频问答可以利用本发明的方法获取最佳答案,也可以利用本发明中的问题相关的联合视频表达z,作为LSTM网络的输入,生成开放形式的结合视频内容的问题答案。
附图说明
图1是本发明所使用的对于视频问答问题的多层时空注意力网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用多层注意力网络机制来解决视频问答的方法包括如下步骤:
1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得答案的概率分布,再与真实的答案进行比较,更新整个多层注意力网络的参数,得到最终的多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的多层注意力网络,得到所预测的答案。
所述的步骤1)采用多层注意力网络来提取视频及问题的综合表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别及分段级别的特征表达;
1.2)利用步骤1.1)找出的视频的帧级别及分段级别的特征,通过LSTM网络,获取视频的帧级别及分段级别的时间特征表达;对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)利用步骤1.2)找出的视频的帧级别及分段级别的特征,结合步骤1.2)找出的问题的输出状态表达,通过注意力模型,找出视频增广的帧表达及增广的分段表达;
1.4)利用步骤1.3)找出的视频增广的帧表达及增广的分段表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题级别的双重时间注意力视频表达;
1.5)利用步骤1.4)得到的问题级别的双重时间注意力视频表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题相关的联合视频表达。
所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征其中M(f)代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达;使用预训练的3维卷积神经网络获取视频v的分段级别的特征其中M(s)代表视频分段表达v(s)中的分段数,代表视频第k分段的嵌入表达;则视频的双重特征表达(包含帧级别及分段级别的特征)为v=(v(f),v(s))。
所述的步骤1.2)具体为:
对于步骤1.1)获得的视频的帧级别的表达输入到LSTM网络中,获得帧级别的视频特征表达,记为其中代表视频第i帧的特征表达;对于步骤1.1)获得的视频的分段级别的表达输入到LSTM网络中,获得分段级别的视频特征表达,记为其中代表视频第j分段的特征表达;则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s));
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记为其中为问题q的第k个单词的输出状态表达。
所述的步骤1.3)具体为:
对于步骤1.2)获得的问题的输出状态表达及帧级别的视频特征表达按照如下公式获得针对第k个问题单词及第i个视频帧的单词级别的帧的注意力分数
其中,为参数矩阵,为偏置向量,p(f,w)为用来计算单词级别帧注意力分数的参数向量,tanh(.)为反正切函数,为视频v的第i帧的输出状态表达,为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
即单词级别的帧注意力分数的标准化值;
则单词级别的第i帧的注意力表达为则视频第i帧的增广的帧表达为LSTM第i个输出状态表达及单词级别的第i帧的注意力表达的连接,记为
对于步骤1.2)获得的问题的输出状态表达及分段级别的视频特征表达按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的帧的注意力分数
其中,为参数矩阵,为偏置向量,p(s,w)为用来计算单词级别分段注意力分数的参数向量,tanh(.)为反正切函数,为视频v的第j帧的输出状态表达,为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
即单词级别的分段注意力分数的标准化值;
则单词级别的第j分段的注意力表达为则视频第j分段的增广的分段表达为LSTM第j个输出状态表达及单词级别的第j分段的注意力表达的连接,记为
所述的步骤1.4)具体为:
将步骤1.3)获得的视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中;则对于给定的视频增广的帧级别的表达输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为对于给定的视频增广的分段级别的表达则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
结合所得到的针对于帧级别的视频增广表达的LSTM输出及问题文本的最后输出状态按如下公式获取针对于视频第i个编码增广帧的问题级别的帧时间注意力分数:
其中为参数矩阵,为偏置向量,p(f,q)为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,为第i帧的视频编码增广表达;
对于每一个视频帧的编码增广表达其针对于问题的时间softmax激活函数为:
即问题级别的帧注意力分数的标准化值;
则问题级别的视频的帧注意力表达为将所有帧的注意力分数相加,即为:
结合所得到的针对于分段级别的视频增广表达的LSTM输出及问题文本的最后输出状态按如下公式获取针对于视频第j个编码增广分段的问题级别的分段时间注意力分数:
其中为参数矩阵,为偏置向量,p(s,q)为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,为第j分段的视频编码增广表达;
对于每一个视频分段的编码增广表达其针对于问题的时间softmax激活函数为:
即问题级别的分段注意力分数的标准化值;
则问题级别的视频的分段注意力表达为将所有分段的注意力分数相加,即为:
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
所述的步骤1.5)具体为:
利用步骤1.4)获得的问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),按如下公式获得问题级别的针对于帧的混合注意力分数s(f)及问题级别的针对于分段的注意力分数s(s)
其中为参数矩阵,bs为偏置向量,p为计算混合注意力分数的参数向量,为问题文本的最后输出状态,tanh(.)为反正切函数;
则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
所述的步骤2)具体为:
利用步骤1.5)获得的问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sof max(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,soft max(.)为softmax函数;
随后根据获得的各个候选答案的概率分布与训练数据中真实的问题答案选择进行比较,根据比较的差值更新整个多层注意力网络。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在自己构建的数据集上面进行实验验证,一共构建了两份数据集,分别为YouTube2Text数据集和VideoClip数据集,其中YouTube2Text数据集包含1987条视频片段及122708条文字描述,VideoClip数据集包含201068条视频片段及287933条文字描述。本发明针对于两份数据集中的文字描述分别生成对应的问题答案对,对于YouTube2Text数据集,本发明生成四种问题答案对,分别与视频的对象、数目、地点、人物相关;对于VideoClip数据集,本发明生成四种问题答案对,分别与视频的对象、数目、颜色、地点相关。随后本发明对于构建的视频问答数据集进行如下预处理:
1)对于YouTube2Text数据集中的每一个视频取60帧,对于VideoClip数据集中的每一个视频取20帧,将所取的那些帧作为数据集中相应视频的帧级别表达。并且把每一帧都重置为224×224大小,随后利用预训练好的VGGNet获取每一帧的4096维的特征表达。
2)对于YouTube2Text数据集中的每一个视频,利用预训练好的C3DNet获取每一个视频的30个分段,对于VideoClip数据集中的每一个视频,利用预训练好的C3DNet获取每一个视频的5个分段,两个数据集中每个视频提取的每个分段均包含16帧。
3)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有6500个单词,单词向量的维度为300维。
4)对于YouTube2Text数据集,我们把预定义的答案种类数目设定为495。对于VideoClip数据集,我们把预定义的答案种类数目设定为300。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了Accuracy来对于本发明的效果进行评价。对于本发明提出的DLAN(Dual-Level AttentionNetwork)分为以下3类进行测试,DLAN(f)(仅包含帧级别的视频表达),DLAN(s)(仅包含分段级别的视频表达),DLAN(既包含帧级别也包含分段级别的视频表达)。对于实验中的LSTM网络中的初始权重为按高斯分布随机初始化,初始的学习率设定为1e-3,每一个LSTM网络之后设定的抛弃率(dropout rate)为0.6。训练时使用了以5次迭代为界的“早期停止”技术(early stopping),批数据集大小(batch size)设为100,使用了ADAM(Adaptive MomentEstimation)的梯度下降技术。另外,对于YouTube2Text数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、地点问题(Location)、人物问题(Person))分别求取测试结果,VideoClip数据集按照问题的分类(所有种类问题(all)、对象问题(Object)、数目问题(Count)、颜色问题(Color)、地点问题(Location))分别求取测试结果。按照具体实施方式中描述的步骤,所得的实验结果如表1-表2所示:
表1 本发明针对于YouTube2Text数据集不同种类问题的测试结果
表2 本发明针对于VideoClip数据集不同种类问题的测试结果。

Claims (8)

1.一种使用多层注意力网络机制解决视频问答的方法,其特征在于包括如下步骤:
1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达;
2)对于步骤1)所得到的问题相关的联合视频表达,利用神经网络获得答案的概率分布,再与真实的答案进行比较,更新整个多层注意力网络的参数,得到最终的多层注意力网络;
3)对于要预测答案的视频和问题,根据生成的多层注意力网络,得到所预测的答案。
2.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1)对于输入的视频及问题,训练出多层注意力网络来获取问题相关的联合视频表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别及分段级别的特征表达;
1.2)利用步骤1.1)找出的视频的帧级别及分段级别的特征,通过LSTM网络,获取视频的帧级别及分段级别的时间特征表达;对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)利用步骤1.2)找出的视频的帧级别及分段级别的特征,结合步骤1.2)找出的问题的输出状态表达,通过注意力模型,找出视频增广的帧表达及增广的分段表达;
1.4)利用步骤1.3)找出的视频增广的帧表达及增广的分段表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题级别的双重时间注意力视频表达;
1.5)利用步骤1.4)得到的问题级别的双重时间注意力视频表达,结合步骤1.2)找出的问题的输出状态表达的最后一层的表达,通过注意力模型,得到问题相关的联合视频表达。
3.根据权利要求2所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征其中M(f)代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达;使用预训练的3维卷积神经网络获取视频v的分段级别的特征其中M(s)代表视频分段表达v(s)中的分段数,代表视频第k分段的嵌入表达;则视频的双重特征表达为v=(v(f),v(s))。
4.根据权利要求2所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.2)为:
对于步骤1.1)获得的视频的帧级别的表达输入到LSTM网络中,获得帧级别的视频特征表达,记为其中代表视频第i帧的特征表达;对于步骤1.1)获得的视频的分段级别的表达输入到LSTM网络中,获得分段级别的视频特征表达,记为其中代表视频第j分段的特征表达;则对于多层视频表达的第一层LSTM的编码网络输出记为h(v)=(h(f),h(s));
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记为其中为问题q的第k个单词的输出状态表达。
5.根据权利要求2所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.3)具体为:
对于步骤1.2)获得的问题的输出状态表达及帧级别的视频特征表达按照如下公式获得针对第k个问题单词及第i个视频帧的单词级别的帧的注意力分数
<mrow> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msup> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>h</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>W</mi> <mrow> <mi>q</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>
其中,为参数矩阵,为偏置向量,p(f,w)为用来计算单词级别帧注意力分数的参数向量,tanh(.)为反正切函数,为视频v的第i帧的输出状态表达,为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第i帧利用softmax函数所得的激活值为:
<mrow> <msubsup> <mi>&amp;alpha;</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>k</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
即单词级别的帧注意力分数的标准化值;
则单词级别的第i帧的注意力表达为则视频第i帧的增广的帧表达为LSTM第i个输出状态表达及单词级别的第i帧的注意力表达的连接,记为
对于步骤1.2)获得的问题的输出状态表达及分段级别的视频特征表达按照如下公式获得针对第k个问题单词及第j个视频分段的单词级别的帧的注意力分数
<mrow> <msubsup> <mi>s</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msup> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>h</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>W</mi> <mrow> <mi>q</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>
其中,为参数矩阵,为偏置向量,p(s,w)为用来计算单词级别分段注意力分数的参数向量,tanh(.)为反正切函数,为视频v的第j帧的输出状态表达,为问题q的第k个单词的输出状态表达;
则对于问题q的第k个单词qk,其针对第j分段利用softmax函数所得的激活值为:
<mrow> <msubsup> <mi>&amp;alpha;</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>k</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>w</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
即单词级别的分段注意力分数的标准化值;
则单词级别的第j分段的注意力表达为则视频第j分段的增广的分段表达为LSTM第j个输出状态表达及单词级别的第j分段的注意力表达的连接,记为
6.根据权利要求2所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.4)为:
将步骤1.3)获得的视频增广的帧级别表达与视频增广的分段级别的表达分别输入到第二层LSTM网络中;则对于给定的视频增广的帧级别的表达输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为对于给定的视频增广的分段级别的表达则输入到第二层LSTM网络中取得的第二层LSTM编码网络的编码输出状态记为
结合所得到的针对于帧级别的视频增广表达的LSTM输出及问题文本的最后输出状态按如下公式获取针对于视频第i个编码增广帧的问题级别的帧时间注意力分数:
<mrow> <msubsup> <mi>s</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msup> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>z</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>z</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>W</mi> <mrow> <mi>q</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>N</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>
其中为参数矩阵,为偏置向量,为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,为第i帧的视频编码增广表达;
对于每一个视频帧的编码增广表达其针对于问题的时间softmax激活函数为:
<mrow> <msubsup> <mi>&amp;beta;</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>i</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
即问题级别的帧注意力分数的标准化值;
则问题级别的视频的帧注意力表达为将所有帧的注意力分数相加,即为:
<mrow> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msub> <mi>&amp;Sigma;</mi> <mi>i</mi> </msub> <msubsup> <mi>&amp;beta;</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>z</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msubsup> <mo>.</mo> </mrow>
结合所得到的针对于分段级别的视频增广表达的LSTM输出及问题文本的最后输出状态按如下公式获取针对于视频第j个编码增广分段的问题级别的分段时间注意力分数:
<mrow> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <msup> <mi>p</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msup> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>z</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>z</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>W</mi> <mrow> <mi>q</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>N</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow>
其中为参数矩阵,为偏置向量,p(s,q)为计算问题级别的帧时间注意力分数的参数向量,tanh(.)为反正切函数,为第j分段的视频编码增广表达;
对于每一个视频分段的编码增广表达其针对于问题的时间softmax激活函数为:
<mrow> <msubsup> <mi>&amp;beta;</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <mi>exp</mi> <mrow> <mo>(</mo> <msubsup> <mi>s</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
即问题级别的分段注意力分数的标准化值;
则问题级别的视频的分段注意力表达为将所有分段的注意力分数相加,即为:
则问题级别的双重时间注意力视频表达为(z(f,q),z(s,q))。
7.根据权利要求2所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤1.5)为:
利用步骤1.4)获得的问题级别的双重时间注意力视频表达为(z(f,q),z(s,q)),按如下公式获得问题级别的针对于帧的混合注意力分数s(f)及问题级别的针对于分段的注意力分数s(s)
<mrow> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>p</mi> <mi> </mi> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>z</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msubsup> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <msubsup> <mi>W</mi> <mrow> <mi>q</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>N</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>s</mi> </msub> <mo>)</mo> </mrow> </mrow>
<mrow> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>p</mi> <mi> </mi> <mi>tanh</mi> <mrow> <mo>(</mo> <msubsup> <mi>W</mi> <mrow> <mi>z</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <msubsup> <mi>W</mi> <mrow> <mi>q</mi> <mi>s</mi> </mrow> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>N</mi> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <msub> <mi>b</mi> <mi>s</mi> </msub> <mo>)</mo> </mrow> </mrow>
其中为参数矩阵,bs为偏置向量,p为计算混合注意力分数的参数向量,为问题文本的最后输出状态,tanh(.)为反正切函数;
则以问题级别的双重时间注意力视频表达(z(f,q),z(s,q))为基础的问题相关的联合视频表达为:
<mrow> <mi>z</mi> <mo>=</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mfrac> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <mfrac> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> <mrow> <mi>exp</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>f</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mi>exp</mi> <mrow> <mo>(</mo> <msup> <mi>s</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mfrac> <msup> <mi>z</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>,</mo> <mi>q</mi> <mo>)</mo> </mrow> </msup> <mo>.</mo> </mrow>
8.根据权利要求1所述使用多层注意力网络机制解决视频问答的方法,其特征在于所述的步骤2)为:
利用步骤1.5)获得的问题相关的联合视频表达z,使用如下softmax函数来获取z相关的某一候选问题答案a的概率分布值:
pa=sof max(Wzz+bz)
其中Wz为参数矩阵,bz为偏置向量,softmax(.)为softmax函数;
随后根据获得的各个候选答案的概率分布与训练数据中真实的问题答案选择进行比较,根据比较的差值更新整个多层注意力网络。
CN201710874931.8A 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法 Active CN107766447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710874931.8A CN107766447B (zh) 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710874931.8A CN107766447B (zh) 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法

Publications (2)

Publication Number Publication Date
CN107766447A true CN107766447A (zh) 2018-03-06
CN107766447B CN107766447B (zh) 2021-01-12

Family

ID=61266316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710874931.8A Active CN107766447B (zh) 2017-09-25 2017-09-25 一种使用多层注意力网络机制解决视频问答的方法

Country Status (1)

Country Link
CN (1) CN107766447B (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及系统
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN109002519A (zh) * 2018-07-09 2018-12-14 北京慧闻科技发展有限公司 基于卷积循环神经网络的答案选择方法、装置和电子设备
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109815364A (zh) * 2019-01-18 2019-05-28 上海极链网络科技有限公司 一种海量视频特征提取、存储和检索方法及系统
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109889923A (zh) * 2019-02-28 2019-06-14 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN110990628A (zh) * 2019-12-06 2020-04-10 浙江大学 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN111209439A (zh) * 2020-01-10 2020-05-29 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112106043A (zh) * 2018-12-07 2020-12-18 首尔大学校产学协力团 问题应答装置及方法
CN112395887A (zh) * 2020-11-05 2021-02-23 北京文思海辉金信软件有限公司 对话应答方法、装置、计算机设备和存储介质
CN112488111A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
WO2021174822A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 基于注意力机制的智能问答方法、装置、设备和存储介质
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330703A1 (en) * 2012-06-07 2013-12-12 Xerox Corporation Method and system for managing surveys
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330703A1 (en) * 2012-06-07 2013-12-12 Xerox Corporation Method and system for managing surveys
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549658B (zh) * 2018-03-12 2021-11-30 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108549658A (zh) * 2018-03-12 2018-09-18 浙江大学 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108681539B (zh) * 2018-05-07 2019-06-21 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN108681539A (zh) * 2018-05-07 2018-10-19 内蒙古工业大学 一种基于卷积神经网络的蒙汉神经翻译方法
CN108763444A (zh) * 2018-05-25 2018-11-06 杭州知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108829756A (zh) * 2018-05-25 2018-11-16 杭州知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108763444B (zh) * 2018-05-25 2021-02-05 杭州一知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN108804677B (zh) * 2018-06-12 2021-08-31 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及系统
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及系统
CN109002519A (zh) * 2018-07-09 2018-12-14 北京慧闻科技发展有限公司 基于卷积循环神经网络的答案选择方法、装置和电子设备
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN112106043A (zh) * 2018-12-07 2020-12-18 首尔大学校产学协力团 问题应答装置及方法
CN109815364B (zh) * 2019-01-18 2020-01-14 上海极链网络科技有限公司 一种海量视频特征提取、存储和检索方法及系统
CN109815364A (zh) * 2019-01-18 2019-05-28 上海极链网络科技有限公司 一种海量视频特征提取、存储和检索方法及系统
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109889923B (zh) * 2019-02-28 2021-03-26 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN109889923A (zh) * 2019-02-28 2019-06-14 杭州一知智能科技有限公司 利用结合视频描述的分层自注意力网络总结视频的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110263912A (zh) * 2019-05-14 2019-09-20 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110263916A (zh) * 2019-05-31 2019-09-20 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110287814A (zh) * 2019-06-04 2019-09-27 北方工业大学 一种基于图像目标特征和多层注意力机制的视觉问答方法
CN110348462B (zh) * 2019-07-09 2022-03-04 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110348462A (zh) * 2019-07-09 2019-10-18 北京金山数字娱乐科技有限公司 一种图像特征确定、视觉问答方法、装置、设备及介质
CN110516791A (zh) * 2019-08-20 2019-11-29 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
CN110727824B (zh) * 2019-10-11 2022-04-01 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN110727824A (zh) * 2019-10-11 2020-01-24 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
CN111008302B (zh) * 2019-11-18 2022-04-29 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN111008302A (zh) * 2019-11-18 2020-04-14 浙江大学 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN110990628A (zh) * 2019-12-06 2020-04-10 浙江大学 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN110933518A (zh) * 2019-12-11 2020-03-27 浙江大学 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法
CN111209439B (zh) * 2020-01-10 2023-11-21 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
CN111209439A (zh) * 2020-01-10 2020-05-29 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
WO2021174822A1 (zh) * 2020-03-02 2021-09-10 平安科技(深圳)有限公司 基于注意力机制的智能问答方法、装置、设备和存储介质
CN111652357A (zh) * 2020-08-10 2020-09-11 浙江大学 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
CN112395887A (zh) * 2020-11-05 2021-02-23 北京文思海辉金信软件有限公司 对话应答方法、装置、计算机设备和存储介质
CN112488055A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112488111B (zh) * 2020-12-18 2022-06-14 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN112488111A (zh) * 2020-12-18 2021-03-12 贵州大学 一种基于多层级表达引导注意力网络的指示表达理解方法
CN112860945A (zh) * 2021-01-07 2021-05-28 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN112860945B (zh) * 2021-01-07 2022-07-08 国网浙江省电力有限公司 利用帧-字幕自监督进行多模态视频问答的方法
CN113609330A (zh) * 2021-07-15 2021-11-05 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质
CN113609330B (zh) * 2021-07-15 2022-06-14 哈尔滨理工大学 一种基于文本注意力和细粒度信息的视频问答系统、方法、计算机及存储介质

Also Published As

Publication number Publication date
CN107766447B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
CN107766447A (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN109544524B (zh) 一种基于注意力机制的多属性图像美学评价系统
CN107463609B (zh) 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN109670576B (zh) 一种多尺度视觉关注图像描述方法
CN108875807A (zh) 一种基于多注意力多尺度的图像描述方法
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN107766794A (zh) 一种特征融合系数可学习的图像语义分割方法
CN110083700A (zh) 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN108763444A (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN109657156A (zh) 一种基于循环生成对抗网络的个性化推荐方法
CN110222178A (zh) 文本情感分类方法、装置、电子设备及可读存储介质
CN107066445A (zh) 一种属性情感词向量的深度学习方法
CN106326857A (zh) 基于人脸图像的性别识别方法及装置
CN110478883B (zh) 一种健身动作教学及矫正系统及方法
CN109829049A (zh) 利用知识库渐进时空注意力网络解决视频问答任务的方法
CN103440352B (zh) 基于深度学习的对象间的关联分析方法及其装置
CN108829756A (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN111144553A (zh) 一种基于时空记忆注意力的图像描述方法
CN112905762A (zh) 一种基于同等注意力图网络的视觉问答方法
CN112488055A (zh) 一种基于渐进图注意力网络的视频问答方法
CN113435685A (zh) 一种分层Attention深度学习模型的课程推荐方法
CN113408852A (zh) 基于在线学习行为和深度神经网络的元认知能力评估模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant