CN108763444A - 利用分层编码解码器网络机制来解决视频问答的方法 - Google Patents

利用分层编码解码器网络机制来解决视频问答的方法 Download PDF

Info

Publication number
CN108763444A
CN108763444A CN201810516611.XA CN201810516611A CN108763444A CN 108763444 A CN108763444 A CN 108763444A CN 201810516611 A CN201810516611 A CN 201810516611A CN 108763444 A CN108763444 A CN 108763444A
Authority
CN
China
Prior art keywords
video
answer
lstm
output
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810516611.XA
Other languages
English (en)
Other versions
CN108763444B (zh
Inventor
俞新荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yi Zhi Intelligent Technology Co Ltd
Original Assignee
Hangzhou Yi Zhi Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yi Zhi Intelligent Technology Co Ltd filed Critical Hangzhou Yi Zhi Intelligent Technology Co Ltd
Priority to CN201810516611.XA priority Critical patent/CN108763444B/zh
Publication of CN108763444A publication Critical patent/CN108763444A/zh
Application granted granted Critical
Publication of CN108763444B publication Critical patent/CN108763444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了利用分层编码解码器网络机制来解决开放式长视频问答的方法。主要包括如下步骤:1)针对于一组视频、问题、答案训练集,训练自适应分层编码神经网络,基于问题和视频学习自适应分割机制以分割长视频,从而得到视频片段和问题的联合表达。2)对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案,结合强化学习的思想,一起训练出解码神经网络,用来针对于视频和问题的联合表达输出对应的自然语言的答案。相比于一般的视频问答解决方案,本发明利用基于问题的自适应分层,能够更好地在长视频中锁定对于回答问题有利的片段,能够更好地反映视频的特性,同时利用了强化学习机制训练解码器,能够得到更加强大的解码器,并产生更加符合要求的答案。本发明在长视频问答问题中所取得的效果相比于传统的方法更好。

Description

利用分层编码解码器网络机制来解决视频问答的方法
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用分层编码解码器网络机制来生成与视频相关的问题的答案的方法。
背景技术
开放式的视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。开放式视频问答是视觉问答的根本问题,他根据给定的问题从引用的视频内容中自动生成自然语言答案。
目前大多数视频问答方法主要集中在短视频问答的问题,它们的方法大多是从LSTM网络层学习视频的语义表征,然后生成答案。虽然目前的技术针对于短视频问答房方面取得了很好的效果,但是由于缺少长视频内容的语义表征的建模,这些方法仍可能无法有效地应用在长视频问答上。
长视频内容通常包含在多个帧之间的复杂对象交互,这些帧具有长期的语义依赖性。因此根据给定的问题,现有的基于帧级别的LSTM网络的简单扩展对于长视频内容的语义表示难以建模。另一方面,虽然视频帧是局部一致的,但是他们有不同的语义内容。针对这两个问题,本方法提出根据给定问题将视频内容自适应分割,然后把问题和视频的语义信息联合的学习框架。
本方法将利用2维卷积神经网络进行帧级别的特征提取。之后根据问题信息利用具有二进制门函数的LSTM网络将视频进行分段,并把每一段视频分段针对问题进行注意力网络机制学习,得到分段针对问题级别的视频表达。之后利用针对问题级别的分段的视频表达,通过LSTM层得到问题级别的分段的视频时序表达,并用这个作为输入输入到解码器中。解码器则是在每一步利用问题级别的注意力网络机制,学习针对所问问题的问题级别分段的视频时序表达的注意力表达,作为LSTM的输入。然后在训练过程中结合强化学习的策略梯度的思想,指导整个模型的梯度,让整个模型收敛到更好的状态。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于长视频问答中的视频语义特征的建模,针对长视频里面多个帧之间不同语义的内容,且这些内容分散在视频视频里的各个不同的分段的情况,本发明提供了一种使用自适应分层强化学习编码解码器网络机制来解决开放式长视频问答的方法。本发明所采用的具体技术方案是:
利用分层编码解码器网络机制来解决开放式长视频问答问题,包含如下步骤:
1、对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络;
2、对于步骤1所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的得分来修正整个解码神经网络,从而获得更优的解码神经网络;
3、对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
上述步骤可具体采用如下实现方式:
1、对于视频和答案均为有着可变长度的序列化数据,本发明选择名为“长短期记忆网络”(Long Short-term Memory)的可变循环神经网络来学习相关的特征表达,该门单元的更新方法如下:
it=δ(Wixt+Giht-1+bi)
ft=δ(Wfxt+Gfht-1+bi)
ot=δ(Woxt+Goht-1+Voct+bo)
ht=ot·tanh(ct)
2、对于视频采用预训练的2维卷积神经网络获取视频的帧级别的特征 其中N代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达。
3、对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,
记为其中为问题q的第k个单词的输出状态表达。
4、对于步骤2获得的视频的帧级别的表达输入到LST M网络中。LSTM的计算:假设在第t步,LSTM会计算LSTM的隐藏状态然后结合第t+1帧,以及偏差值bγ计算二进制门函数的结果 其中代表视频第j帧的嵌入表达,是第t步LSTM的隐含状态;bγ是式子的偏差值,是可训练的;τ是阈值,也是超参数。δ(·)是sigmoid函数。 Wγv和Wγh是可训练的矩阵,是可训练的向量。LSTM下一步的隐藏状态和记忆部分状态由式子决定,即如果门函数得出的结果是1,那么不把LSTM这一步的状态传到下一步,以此来“截断”长视频。我们把这一步得到的编码网络输出记为得到的二进制门函数的输出记为 (γ12,...,γN)。
5、由步骤4我们可以得到视频的编码网络输出和二进制门函数的输出(γ12,...,γN)。二进制门函数的输出里面的值非0即1,这样我们可以通过结果是1的部分把长视频为成各个片段。假设当前第t步得到的γt等于1,那么我们就把之前的视频片段作一个问题相关的帧级别的注意力计算。
其中注意力的计算如下:假设当前是视频片段Sk,对于Sk里的每一帧,假设当前是第t帧是vt,我们由公式计算这一帧的分值,其中是可训练的矩阵,b(v)是可训练的偏置向量。对于每一个在视频片段Sk里的帧vt,我们可以计算出对应的分值,然后由softmax函数计算出每一帧的注意力分值。
最后我们可以得到视频片段Sk的基于问题注意的表征sk,其计算方法是
如果一个长视频被我们的模型分成了K段,那么我们能够得到K个视频片段的表征(s1,s2,...,sk)。
6、利用步骤5获得的K个视频片段的时间上问题注意力的表征(s1,s2,...,sk),把这些表征送入片段级别的LSTM,我们可以获得他们的时间语义表征 因而整个自适应编码网络的输出为
7、利用步骤6获得的自适应编码网络的输出假定问题的文本表征为h(q),解码器在第t步的隐含向量为当前是解码LSTM运行的第t步,我们可以计算出对于问题生成的第k个视频段落的分值:
其中都是可训练的参数矩阵,b(s)是可训练的偏置向量,P(s)是可训练的参数向量,用于计算各个视频段落的注意力分值。然后通过softmax公式:
我们能够算出每个段落对于问题生成的注意力分值最后通过下式计算出问题相关且在解码LSTM运行到第t步的视频片段的注意力表征
8、利用步骤7得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。
9、结合强化学习的思想,我们把下一个答案单词的生成视为一个行动(actio n),把在当前词序列a1:t-1存在的情况下,下一个词at的概率pθ(at|a1:t-1,f(v,q))视为策略。我们选择把生成的答案的词嵌入和真实答案a的词嵌入之间的向量距离当作奖励函数,其计算公式如下:
因此,假定已经生成了前t-1个单词,其序列是a1:t-1,那么此时的状态能得到的得分应该是由这t-1个单词a1:t-1能够产生的所有序列他们的得分的期望。但是如果计算期望的话,整个时间空间复杂度会指数倍增长,因此我们采用采样的方式,在解码器运行的每一步,进行蒙特卡洛采样。其采样过程如下,假设当前有t-1个词a1:t-1,那么当前状态的得分由下式计算得出:
当t小于生成答案的句子长度是,我们会通过从t+1步开始随机采样从而生成J 个答案,记为计算这些候选答案的得分,然后取平均值当作结果,如果t等于句子长度时,则直接计算得分即可。这样我们就可以得到解码 LSTM每一步的得分。
10、根据极大似然估计,生成答案的损失可以由下式计算:
但是这种方法无法让解码LSTM达到最优的状态,因此我们结合了强化学习的思想,引入策略梯度,利用步骤2.3)得到的得分,把它和损失相乘,再求梯度,这个梯度则被称为策略梯度,计算公式如下:
11、利用步骤7得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。取概率最大的作为生成的下一个词,或者根据概率随机采样一个单词作为下一个词。
附图说明
图1是本发明所使用的对于开放式长视频问答问题的分层编码解码器网络机制的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用自适应分层强化编码解码器网络机制来解决开放式长视频问答的方法包括如下步骤:
1)对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络;
2)对于步骤1)所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的reward来修正整个解码神经网络,从而获得更优的解码神经网络;
3)对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
所述的步骤1)对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别的特征表达;
1.2)对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)对于1.1)中的视频的帧级别的特征表达,我们建立了一个自适应循环神经网络,该网络中带有一个二进制门函数,能够决定是否传递LSTM参数到下一个状态。当二进制门函数返回结果为1时,标志着网络对视频的这一步进行分段。
1.4)利用步骤1.3)获得的视频分段的时间特征表达,对各个时间分段,结合步骤1. 2)问题的输出状态,通过注意力模型,得到问题相关的帧级别的时间注意力视频表达;
1.5)利用步骤1.4)得到的问题相关的帧级别的时间注意力视频表达,通过LSTM网络,得到片段级别的时间特征表达,最后得到视频片段和问题的联合表达。
所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频的帧级别的特征 其中N代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达。所述的步骤1.2)具体为:
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记为 其中为问题q的第k个单词的输出状态表达。
所述的步骤1.3)具体为:
对于步骤1.1)获得的视频的帧级别的表达输入到LSTM网络中。LSTM的计算:假设在第t步,LSTM会计算LSTM的隐藏状态然后结合第 t+1帧,以及偏差值bγ计算二进制门函数的结果 其中代表视频第j帧的嵌入表达,是第t步LSTM的隐含状态;bγ是式子的偏差值,是可训练的;τ是阈值,也是超参数。δ(·)是sigmoid函数。 Wγv和Wγh是可训练的矩阵,是可训练的向量。LSTM下一步的隐藏状态和记忆部分状态由式子决定,即如果门函数得出的结果是1,那么不把LSTM这一步的状态传到下一步,以此来“截断”长视频。我们把这一步得到的编码网络输出记为得到的二进制门函数的输出记为 (γ12,...,γN)。
所述的步骤1.4)具体为:
由步骤1.3)我们可以得到视频的编码网络输出和二进制门函数的输出(γ12,...,γN)。二进制门函数的输出里面的值非0即1,这样我们可以通过结果是1的部分把长视频为成各个片段。假设当前第t步得到的γt等于1,那么我们就把之前的视频片段作一个问题相关的帧级别的注意力计算。
其中注意力的计算如下:假设当前是视频片段Sk,对于Sk里的每一帧,假设当前是第t帧是vt,我们由公式计算这一帧的分值,其中是可训练的矩阵,b(v)是可训练的偏置向量。对于每一个在视频片段Sk里的帧vt,我们可以计算出对应的分值,然后由softmax函数计算出每一帧的注意力分值。
最后我们可以得到视频片段Sk的基于问题注意的表征sk,其计算方法是
如果一个长视频被我们的模型分成了K段,那么我们能够得到K个视频片段的表征(s1,s2,...,sk)。
所述的步骤1.5)具体为:
利用步骤1.4)获得的K个视频片段的时间上问题注意力的表征(s1,s2,...,sk),把这些表征送入片段级别的LSTM,我们可以获得他们的时间语义表征 因而整个自适应编码网络的输出为
所述的步骤2)是对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案,结合强化学习的思想,来训练解码神经网络。其具体步骤为:
2.1)利用步骤1.5)得到的视频片段和问题的联合表达,在LSTM的每一步,首先基于片段和问题以及LSTM的状态,对步骤1.5)得到的片段级别的时间特征表达作一个注意力的机制。得到向量et
2.2)把LSTM前一步输出和et作为当前步LSTM的输入。
2.3)结合策略梯度的思想,在每一步LSTM计算的时候,先通过蒙特卡洛算法采样一些结果,然后算出当前序列的得分。
2.4)在每一步,把LSTM的输出通过线性层,输出作为下一个词的可能的概率,该概率和真实答案的交叉熵再与步骤2.2)得到的得分相乘,作为这个模型的损失。
所述的步骤2.1)具体为:
首先解码器原理是通过一个LSTM在每一步产生下一个词的概率分布。其主要的原理是上一步的输出作为这一步的输入,然后进行LSTM内部的计算,得到隐含状态和输出。把输出通过一个线性层,我们就可以得到下一个词的概率分布。
利用步骤1.5)获得的自适应编码网络的输出假定问题的文本表征为h(q),解码器在第t步的隐含向量为当前是解码LSTM运行的第t步,我们可以计算出对于问题生成的第k个视频段落的分值:
其中都是可训练的参数矩阵,b(s)是可训练的偏置向量,P(s)是可训练的参数向量,用于计算各个视频段落的注意力分值。然后通过softmax公式:
我们能够算出每个段落对于问题生成的注意力分值最后通过下式计算出问题相关且在解码LSTM运行到第t步的视频片段的注意力表征
所述的步骤2.2)具体为:
利用步骤2.1)得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。
所述的步骤2.3)具体为:
结合强化学习的思想,我们把下一个答案单词的生成视为一个行动(action),把在当前词序列a1:t-1存在的情况下,下一个词at的概率pθ(at|a1:t-1,f(v,q))视为策略。我们选择把生成的答案的词嵌入和真实答案a的词嵌入之间的向量距离当作奖励函数,其计算公式如下:
因此,假定已经生成了前t-1个单词,其序列是a1:t-1,那么此时的状态能得到的得分应该是由这t-1个单词a1:t-1能够产生的所有序列他们的得分的期望。但是如果计算期望的话,整个时间空间复杂度会指数倍增长,因此我们采用采样的方式,在解码器运行的每一步,进行蒙特卡洛采样。其采样过程如下,假设当前有t-1个词a1:t-1,那么当前状态的得分由下式计算得出:
当t小于生成答案的句子长度是,我们会通过从t+1步开始随机采样从而生成J 个答案,记为计算这些候选答案的得分,然后取平均值当作结果,如果t等于句子长度时,则直接计算得分即可。这样我们就可以得到解码 LSTM每一步的得分。
所述的步骤2.4)具体为:
根据极大似然估计,生成答案的损失可以由下式计算:
但是这种方法无法让解码LSTM达到最优的状态,因此我们结合了强化学习的思想,引入策略梯度,利用步骤2.3)得到的得分,把它和损失相乘,再求梯度,这个梯度则被称为策略梯度,计算公式如下:
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在自己构建的数据集上面进行实验验证,包含50000条视频片段及20000 0条文字描述。我们使用70%的数据作为训练集,10%的数据作为验证集,20%的数据作为测试集:
1)对于数据集中的每一个视频,将所有帧作为数据集中相应视频的帧级别表达。并且把每一帧都重置为224×224大小,随后利用预训练好的VGGNet获取每一帧的40 96维的特征表达。
2)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有5000个单词,单词向量的维度为256维。
3)对于词汇表的大小,我们把它设置成8500个,最后加上“<eos>“和”<unk> “分别代码句子的结尾符和不在词汇表的单词。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了Accuracy。对于本发明提出的AHN(D adaptive hierarchical reinforced network)分为以下2类进行测试,AHN(ml)(在最后计算损失的时候,不采用策略梯度,而是用极大似然估计),AHN(rl)(在最后计算损失的时候,采用策略梯度)。对于实验中的LSTM网络中的初始权重为按高斯分布随机初始化,初始的学习率设定为0.001,每一个LSTM 网络之后设定的抛弃率(dropout rate)为0.6。训练时使用了以5次迭代为界的“早期停止”技术(earlystopping),批数据集大小(batch size)设为100,使用了ADAM(Adaptive MomentEstimation)的梯度下降技术,阈值设为0.3。另外,对于数据集按照问题的分类(对象问题(Object)、数目问题(Number)、人物问题(Person)、地点问题(Location)、动作问题(Action))分别求取测试结果。按照具体实施方式中描述的步骤,所得的实验结果如表1所示:
表1本发明针对自构数据集中不同种类问题的测试结果(ACC)。

Claims (11)

1.一利用分层编码解码器网络机制来解决视频问答的方法,其特征在于包括如下步骤:
1)对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络;
2)对于步骤1)所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的得分来修正整个解码神经网络,从而获得更优的解码神经网络;
3)对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
2.根据权利要求1所述的利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征再与所述的步骤1)和步骤2),其中步骤1)是训练出一个自适应分层编码网络,它能基于输入的视频及问题,训练出自适应的分割机制,对长视频进行分割,把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别的特征表达;
1.2)对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)对于1.1)中的视频的帧级别的特征表达,我们建立了一个自适应循环神经网络,该网络中带有一个二进制门函数,能够决定是否传递LSTM参数到下一个状态。当二进制门函数返回结果为1时,标志着网络对视频的这一步进行分段。
1.4)利用步骤1.3)获得的视频分段的时间特征表达,对各个时间分段,结合步骤1.2)问题的输出状态,通过注意力模型,得到问题相关的帧级别的时间注意力视频表达;
1.5)利用步骤1.4)得到的问题相关的帧级别的时间注意力视频表达,通过LSTM网络,得到片段级别的时间特征表达,最后得到视频片段和问题的联合表达。
步骤2)是对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案,结合强化学习的思想,来训练解码神经网络。其具体步骤为:
2.1)利用步骤1.5)得到的视频片段和问题的联合表达,在LSTM的每一步,首先基于片段和问题以及LSTM的状态,对步骤1.5)得到的片段级别的时间特征表达作一个注意力的机制。得到向量et
2.2)把LSTM前一步输出和et作为当前步LSTM的输入。
2.3)结合策略梯度的思想,在每一步LSTM计算的时候,先通过蒙特卡洛算法采样一些结果,然后算出当前序列的得分。
2.4)在每一步,把LSTM的输出通过线性层,输出作为下一个词的可能的概率,该概率和真实答案的交叉熵再与步骤2.2)得到的得分相乘,作为这个模型的损失。
3.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征 其中N代表视频帧表达v(f)中的帧数,代表视频第j帧的嵌入表达。
4.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤1.2)具体为:
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记 其中为问题q的第k个单词的输出状态表达。
5.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤1.3)具体为:
对于步骤1.1)获得的视频的帧级别的表达输入到LSTM网络中。LSTM的计算:假设在第t步,LSTM会计算LSTM的隐藏状态然后结合第t+1帧,以及偏差值bγ计算二进制门函数的结果 其中代表视频第j帧的嵌入表达,是第t步LSTM的隐含状态;bγ是式子的偏差值,是可训练的;τ是阈值,也是超参数。δ(·)是sigmoid函数。Wγv和Wγh是可训练的矩阵,是可训练的向量。LSTM下一步的隐藏状态和记忆部分状态由式子决定,即如果门函数得出的结果是1,那么不把LSTM这一步的状态传到下一步,以此来“截断”长视频。我们把这一步得到的编码网络输出记为得到的二进制门函数的输出记为(γ12,...,γN)。
6.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤1.4)为:
由步骤1.3)我们可以得到视频的编码网络输出和二进制门函数的输出(γ12,...,γN)。二进制门函数的输出里面的值非0即1,这样我们可以通过结果是1的部分把长视频为成各个片段。假设当前第t步得到的γt等于1,那么我们就把之前的视频片段作一个问题相关的帧级别的注意力计算。
其中注意力的计算如下:假设当前是视频片段Sk,对于Sk里的每一帧,假设当前是第t帧是vt,我们由公式计算这一帧的分值,其中是可训练的矩阵,b(v)是可训练的偏置向量。对于每一个在视频片段Sk里的帧vt,我们可以计算出对应的分值,然后由softmax函数计算出每一帧的注意力分值。
最后我们可以得到视频片段Sk的基于问题注意的表征sk,其计算方法是
如果一个长视频被我们的模型分成了K段,那么我们能够得到K个视频片段的表征(s1,s2,...,sk)。
7.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤1.5)为:
利用步骤1.4)获得的K个视频片段的时间上问题注意力的表征(s1,s2,...,sk),把这些表征送入片段级别的LSTM,我们可以获得他们的时间语义表征 因而整个自适应编码网络的输出为
8.根据权利要求2所述使利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤2.1)为:
首先解码器原理是通过一个LSTM在每一步产生下一个词的概率分布。其主要的原理是上一步的输出作为这一步的输入,然后进行LSTM内部的计算,得到隐含状态和输出。把输出通过一个线性层,我们就可以得到下一个词的概率分布。
利用步骤1.5)获得的自适应编码网络的输出假定问题的文本表征为h(q),解码器在第t步的隐含向量为当前是解码LSTM运行的第t步,我们可以计算出对于问题生成的第k个视频段落的分值:
其中都是可训练的参数矩阵,b(s)是可训练的偏置向量,P(s)是可训练的参数向量,用于计算各个视频段落的注意力分值。然后通过softmax公式:
我们能够算出每个段落对于问题生成的注意力分值最后通过下式计算出问题相关且在解码LSTM运行到第t步的视频片段的注意力表征
9.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤2.2)为:
利用步骤2.1)得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。
10.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤2.3)为:
结合强化学习的思想,我们把下一个答案单词的生成视为一个行动(action),把在当前词序列a1:t-1存在的情况下,下一个词at的概率pθ(at|a1:t-1,f(v,q))视为策略。我们选择把生成的答案的词嵌入和真实答案a的词嵌入之间的向量距离当作奖励函数,其计算公式如下:
因此,假定已经生成了前t-1个单词,其序列是a1:t-1,那么此时的状态能得到的得分应该是由这t-1个单词a1:t-1能够产生的所有序列他们的得分的期望。但是如果计算期望的话,整个时间空间复杂度会指数倍增长,因此我们采用采样的方式,在解码器运行的每一步,进行蒙特卡洛采样。其采样过程如下,假设当前有t-1个词a1:t-1,那么当前状态的得分由下式计算得出:
当t小于生成答案的句子长度是,我们会通过从t+1步开始随机采样从而生成J个答案,记为计算这些候选答案的得分,然后取平均值当作结果,如果t等于句子长度时,则直接计算得分即可。这样我们就可以得到解码LSTM每一步的得分。
11.根据权利要求2所述利用分层编码解码器网络机制来解决开放式长视频问答的方法,其特征在于所述的步骤2.4)为:
根据极大似然估计,生成答案的损失可以由下式计算:
但是这种方法无法让解码LSTM达到最优的状态,因此我们结合了强化学习的思想,引入策略梯度,利用步骤2.3)得到的得分,把它和损失相乘,再求梯度,这个梯度则被称为策略梯度,计算公式如下:
CN201810516611.XA 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法 Active CN108763444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810516611.XA CN108763444B (zh) 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810516611.XA CN108763444B (zh) 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法

Publications (2)

Publication Number Publication Date
CN108763444A true CN108763444A (zh) 2018-11-06
CN108763444B CN108763444B (zh) 2021-02-05

Family

ID=64005834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810516611.XA Active CN108763444B (zh) 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法

Country Status (1)

Country Link
CN (1) CN108763444B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN109711380A (zh) * 2019-01-03 2019-05-03 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN110377711A (zh) * 2019-07-01 2019-10-25 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
CN111291181A (zh) * 2018-12-10 2020-06-16 百度(美国)有限责任公司 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN111858862A (zh) * 2019-04-29 2020-10-30 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN113590879A (zh) * 2021-08-05 2021-11-02 哈尔滨理工大学 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
WO2024082914A1 (zh) * 2022-10-20 2024-04-25 华为技术有限公司 视频问答方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03184492A (ja) * 1989-12-14 1991-08-12 Fujitsu Ltd ニューラルネットワークを用いた適応型y/c分離方式
US7617164B2 (en) * 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03184492A (ja) * 1989-12-14 1991-08-12 Fujitsu Ltd ニューラルネットワークを用いた適応型y/c分離方式
US7617164B2 (en) * 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEJING XU,ZHOU ZHAO,JUN XIAO,ET AL.: ""Video Question Answering via Gradually Refined Attention over Appearance and Motion"", 《ACM MULTIMEDIA-2017》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763504B (zh) * 2018-05-30 2020-07-24 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
CN111291181B (zh) * 2018-12-10 2023-09-26 百度(美国)有限责任公司 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
CN111291181A (zh) * 2018-12-10 2020-06-16 百度(美国)有限责任公司 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
CN109711380A (zh) * 2019-01-03 2019-05-03 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109711380B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109857909A (zh) * 2019-01-22 2019-06-07 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109919358B (zh) * 2019-01-31 2021-03-02 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109902164A (zh) * 2019-03-06 2019-06-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN111858862B (zh) * 2019-04-29 2023-07-18 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN111858862A (zh) * 2019-04-29 2020-10-30 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN110377711A (zh) * 2019-07-01 2019-10-25 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111340006B (zh) * 2020-04-16 2024-06-11 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111858857B (zh) * 2020-07-31 2021-03-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN111858857A (zh) * 2020-07-31 2020-10-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN113590879A (zh) * 2021-08-05 2021-11-02 哈尔滨理工大学 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN113590879B (zh) * 2021-08-05 2022-05-31 哈尔滨理工大学 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN113807222A (zh) * 2021-09-07 2021-12-17 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113779310A (zh) * 2021-09-10 2021-12-10 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
WO2024082914A1 (zh) * 2022-10-20 2024-04-25 华为技术有限公司 视频问答方法及电子设备

Also Published As

Publication number Publication date
CN108763444B (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN108763444A (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN108681610B (zh) 生成式多轮闲聊对话方法、系统及计算机可读存储介质
CN108763284B (zh) 一种基于深度学习和主题模型的问答系统实现方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN109657041A (zh) 基于深度学习的问题自动生成方法
Lee et al. B-pref: Benchmarking preference-based reinforcement learning
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN108491514B (zh) 对话系统中提问的方法及装置、电子设备、计算机可读介质
KR102234850B1 (ko) 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
CN107748757A (zh) 一种基于知识图谱的问答方法
CN107341462A (zh) 一种基于注意力机制的视频分类方法
CN107766447A (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN113435211B (zh) 一种结合外部知识的文本隐式情感分析方法
CN110457661B (zh) 自然语言生成方法、装置、设备及存储介质
CN109271629B (zh) 基于强化学习的生成式文本摘要方法
CN109346063A (zh) 一种语音数据增强方法
CN110717843A (zh) 一种可复用的法条推荐框架
CN110413838A (zh) 一种无监督视频摘要模型及其建立方法
CN110991290A (zh) 基于语义指导与记忆机制的视频描述方法
Zhou et al. ICRC-HIT: A deep learning based comment sequence labeling system for answer selection challenge
CN114048301B (zh) 一种基于满意度的用户模拟方法及系统
CN113591988B (zh) 知识认知结构分析方法、系统、计算机设备、介质、终端
CN113807222A (zh) 基于稀疏采样进行端到端训练的视频问答方法与系统
CN112765333A (zh) 基于情感与提示词结合的自动对话生成方法及系统
CN113360618A (zh) 一种基于离线强化学习的智能机器人对话方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant