CN108763444B - 利用分层编码解码器网络机制来解决视频问答的方法 - Google Patents

利用分层编码解码器网络机制来解决视频问答的方法 Download PDF

Info

Publication number
CN108763444B
CN108763444B CN201810516611.XA CN201810516611A CN108763444B CN 108763444 B CN108763444 B CN 108763444B CN 201810516611 A CN201810516611 A CN 201810516611A CN 108763444 B CN108763444 B CN 108763444B
Authority
CN
China
Prior art keywords
video
lstm
network
output
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810516611.XA
Other languages
English (en)
Other versions
CN108763444A (zh
Inventor
俞新荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yizhi Intelligent Technology Co ltd
Original Assignee
Hangzhou Yizhi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yizhi Intelligent Technology Co ltd filed Critical Hangzhou Yizhi Intelligent Technology Co ltd
Priority to CN201810516611.XA priority Critical patent/CN108763444B/zh
Publication of CN108763444A publication Critical patent/CN108763444A/zh
Application granted granted Critical
Publication of CN108763444B publication Critical patent/CN108763444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了利用分层编码解码器网络机制来解决开放式长视频问答的方法。主要包括如下步骤:1)针对于一组视频、问题、答案训练集,训练自适应分层编码神经网络,基于问题和视频学习自适应分割机制以分割长视频,从而得到视频片段和问题的联合表达。2)对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案,结合强化学习的思想,一起训练出解码神经网络,用来针对于视频和问题的联合表达输出对应的自然语言的答案。相比于一般的视频问答解决方案,本发明利用基于问题的自适应分层,能够更好地在长视频中锁定对于回答问题有利的片段,能够更好地反映视频的特性,同时利用了强化学习机制训练解码器,能够得到更加强大的解码器,并产生更加符合要求的答案。本发明在长视频问答问题中所取得的效果相比于传统的方法更好。

Description

利用分层编码解码器网络机制来解决视频问答的方法
技术领域
本发明涉及视频问答答案生成,尤其涉及一种利用分层编码解码器网络机制来生成与视频相关的问题的答案的方法。
背景技术
开放式的视频问答问题是视频信息检索领域中的一个重要问题,该问题的目标是针对于相关的视频及对应的问题,自动生成答案。开放式视频问答是视觉问答的根本问题,他根据给定的问题从引用的视频内容中自动生成自然语言答案。
目前大多数视频问答方法主要集中在短视频问答的问题,它们的方法大多是从LSTM网络层学习视频的语义表征,然后生成答案。虽然目前的技术针对于短视频问答房方面取得了很好的效果,但是由于缺少长视频内容的语义表征的建模,这些方法仍可能无法有效地应用在长视频问答上。
长视频内容通常包含在多个帧之间的复杂对象交互,这些帧具有长期的语义依赖性。因此根据给定的问题,现有的基于帧级别的LSTM网络的简单扩展对于长视频内容的语义表示难以建模。另一方面,虽然视频帧是局部一致的,但是他们有不同的语义内容。针对这两个问题,本方法提出根据给定问题将视频内容自适应分割,然后把问题和视频的语义信息联合的学习框架。
本方法将利用2维卷积神经网络进行帧级别的特征提取。之后根据问题信息利用具有二进制门函数的LSTM网络将视频进行分段,并把每一段视频分段针对问题进行注意力网络机制学习,得到分段针对问题级别的视频表达。之后利用针对问题级别的分段的视频表达,通过LSTM层得到问题级别的分段的视频时序表达,并用这个作为输入输入到解码器中。解码器则是在每一步利用问题级别的注意力网络机制,学习针对所问问题的问题级别分段的视频时序表达的注意力表达,作为LSTM的输入。然后在训练过程中结合强化学习的策略梯度的思想,指导整个模型的梯度,让整个模型收敛到更好的状态。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺少对于长视频问答中的视频语义特征的建模,针对长视频里面多个帧之间不同语义的内容,且这些内容分散在视频视频里的各个不同的分段的情况,本发明提供了一种使用自适应分层强化学习编码解码器网络机制来解决开放式长视频问答的方法。本发明所采用的具体技术方案是:
利用分层编码解码器网络机制来解决开放式长视频问答问题,包含如下步骤:
1、对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络;
2、对于步骤1所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的得分来修正整个解码神经网络,从而获得更优的解码神经网络;
3、对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
上述步骤可具体采用如下实现方式:
1、对于视频和答案均为有着可变长度的序列化数据,本发明选择名为“长短期记忆网络”(Long Short-term Memory)的可变循环神经网络来学习相关的特征表达,该门单元的更新方法如下:
it=δ(Wixt+Giht-1+bi)
Figure BDA0001673401930000021
ft=δ(Wfxt+Gfht-1+bi)
Figure BDA0001673401930000022
ot=δ(Woxt+Goht-1+Voct+bo)
ht=ot·tanh(ct)
2、对于视频采用预训练的2维卷积神经网络获取视频的帧级别的特征
Figure BDA0001673401930000023
Figure BDA0001673401930000024
其中N代表视频帧表达v(f)中的帧数,
Figure BDA0001673401930000025
代表视频第j帧的嵌入表达。
3、对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记为
Figure BDA0001673401930000026
其中
Figure BDA0001673401930000027
为问题q的第k个单词的输出状态表达。
4、对于步骤2获得的视频的帧级别的表达
Figure BDA0001673401930000028
输入到LST M网络中。LSTM的计算:假设在第t步,LSTM会计算LSTM的隐藏状态
Figure BDA0001673401930000029
然后结合第t+1帧,以及偏差值bγ计算二进制门函数的结果
Figure BDA00016734019300000210
Figure BDA0001673401930000031
其中
Figure BDA0001673401930000032
代表视频第j帧的嵌入表达,
Figure BDA0001673401930000033
是第t步LSTM的隐含状态;bγ是式子的偏差值,是可训练的;τ是阈值,也是超参数。δ(·)是sigmoid函数。 Wγv和Wγh是可训练的矩阵,
Figure BDA0001673401930000034
是可训练的向量。LSTM下一步的隐藏状态和记忆部分状态由式子
Figure BDA0001673401930000035
Figure BDA0001673401930000036
决定,即如果门函数得出的结果是1,那么不把LSTM这一步的状态传到下一步,以此来“截断”长视频。我们把这一步得到的编码网络输出记为
Figure BDA0001673401930000037
得到的二进制门函数的输出记为 (γ12,...,γN)。
5、由步骤4我们可以得到视频的编码网络输出
Figure BDA0001673401930000038
和二进制门函数的输出(γ12,...,γN)。二进制门函数的输出里面的值非0即1,这样我们可以通过结果是1的部分把长视频为成各个片段。假设当前第t步得到的γt等于1,那么我们就把之前的视频片段作一个问题相关的帧级别的注意力计算。
其中注意力的计算如下:假设当前是视频片段Sk,对于Sk里的每一帧,假设当前是第t帧是vt,我们由公式
Figure BDA0001673401930000039
计算这一帧的分值,其中
Figure BDA00016734019300000310
Figure BDA00016734019300000311
是可训练的矩阵,b(v)是可训练的偏置向量。对于每一个在视频片段Sk里的帧vt,我们可以计算出对应的分值,然后由softmax函数
Figure BDA00016734019300000312
计算出每一帧的注意力分值。
最后我们可以得到视频片段Sk的基于问题注意的表征sk,其计算方法是
Figure BDA00016734019300000313
Figure BDA00016734019300000314
如果一个长视频被我们的模型分成了K段,那么我们能够得到K个视频片段的表征(s1,s2,...,sk)。
6、利用步骤5获得的K个视频片段的时间上问题注意力的表征(s1,s2,...,sk),把这些表征送入片段级别的LSTM,我们可以获得他们的时间语义表征
Figure BDA00016734019300000315
Figure BDA00016734019300000316
因而整个自适应编码网络的输出为
Figure BDA00016734019300000317
7、利用步骤6获得的自适应编码网络的输出
Figure BDA0001673401930000041
假定问题的文本表征为h(q),解码器在第t步的隐含向量为
Figure BDA0001673401930000042
当前是解码LSTM运行的第t步,我们可以计算出对于问题生成的第k个视频段落的分值:
Figure BDA0001673401930000043
其中
Figure BDA0001673401930000044
都是可训练的参数矩阵,b(s)是可训练的偏置向量,P(s)是可训练的参数向量,用于计算各个视频段落的注意力分值。然后通过softmax公式:
Figure BDA0001673401930000045
我们能够算出每个段落对于问题生成的注意力分值
Figure BDA0001673401930000046
最后通过下式计算出问题相关且在解码LSTM运行到第t步的视频片段的注意力表征
Figure BDA0001673401930000047
8、利用步骤7得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。
9、结合强化学习的思想,我们把下一个答案单词的生成视为一个行动(actio n),把在当前词序列a1:t-1存在的情况下,下一个词at的概率pθ(at|a1:t-1,f(v,q))视为策略。我们选择把生成的答案
Figure BDA0001673401930000048
的词嵌入和真实答案a的词嵌入之间的向量距离当作奖励函数,其计算公式如下:
Figure BDA0001673401930000049
因此,假定已经生成了前t-1个单词,其序列是a1:t-1,那么此时的状态能得到的得分应该是
Figure BDA00016734019300000410
由这t-1个单词a1:t-1能够产生的所有序列
Figure BDA00016734019300000411
他们的得分的期望。但是如果计算期望的话,整个时间空间复杂度会指数倍增长,因此我们采用采样的方式,在解码器运行的每一步,进行蒙特卡洛采样。其采样过程如下,假设当前有t-1个词a1:t-1,那么当前状态的得分由下式计算得出:
Figure BDA0001673401930000051
当t小于生成答案的句子长度是,我们会通过从t+1步开始随机采样从而生成J 个答案,记为
Figure BDA0001673401930000052
计算这些候选答案的得分,然后取平均值当作结果,如果t等于句子长度时,则直接计算得分即可。这样我们就可以得到解码 LSTM每一步的得分。
10、根据极大似然估计,生成答案的损失可以由下式计算:
Figure BDA0001673401930000053
但是这种方法无法让解码LSTM达到最优的状态,因此我们结合了强化学习的思想,引入策略梯度,利用步骤2.3)得到的得分,把它和损失相乘,再求梯度,这个梯度则被称为策略梯度,计算公式如下:
Figure BDA0001673401930000054
11、利用步骤7得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。取概率最大的作为生成的下一个词,或者根据概率随机采样一个单词作为下一个词。
附图说明
图1是本发明所使用的对于开放式长视频问答问题的分层编码解码器网络机制的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用自适应分层强化编码解码器网络机制来解决开放式长视频问答的方法包括如下步骤:
1)对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络;
2)对于步骤1)所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的reward来修正整个解码神经网络,从而获得更优的解码神经网络;
3)对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
所述的步骤1)对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达,其具体步骤为:
1.1)采用卷积神经网络提取视频的帧级别的特征表达;
1.2)对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;
1.3)对于1.1)中的视频的帧级别的特征表达,我们建立了一个自适应循环神经网络,该网络中带有一个二进制门函数,能够决定是否传递LSTM参数到下一个状态。当二进制门函数返回结果为1时,标志着网络对视频的这一步进行分段。
1.4)利用步骤1.3)获得的视频分段的时间特征表达,对各个时间分段,结合步骤1. 2)问题的输出状态,通过注意力模型,得到问题相关的帧级别的时间注意力视频表达;
1.5)利用步骤1.4)得到的问题相关的帧级别的时间注意力视频表达,通过LSTM网络,得到片段级别的时间特征表达,最后得到视频片段和问题的联合表达。
所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频的帧级别的特征
Figure BDA0001673401930000061
Figure BDA0001673401930000062
其中N代表视频帧表达v(f)中的帧数,
Figure BDA0001673401930000063
代表视频第j帧的嵌入表达。所述的步骤1.2)具体为:
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记为
Figure BDA0001673401930000064
Figure BDA0001673401930000065
其中
Figure BDA0001673401930000066
为问题q的第k个单词的输出状态表达。
所述的步骤1.3)具体为:
对于步骤1.1)获得的视频的帧级别的表达
Figure BDA0001673401930000071
输入到LSTM网络中。LSTM的计算:假设在第t步,LSTM会计算LSTM的隐藏状态
Figure BDA0001673401930000072
然后结合第 t+1帧,以及偏差值bγ计算二进制门函数的结果
Figure BDA0001673401930000073
Figure BDA0001673401930000074
其中
Figure BDA0001673401930000075
代表视频第j帧的嵌入表达,
Figure BDA0001673401930000076
是第t步LSTM的隐含状态;bγ是式子的偏差值,是可训练的;τ是阈值,也是超参数。δ(·)是sigmoid函数。 Wγv和Wγh是可训练的矩阵,
Figure BDA0001673401930000077
是可训练的向量。LSTM下一步的隐藏状态和记忆部分状态由式子
Figure BDA0001673401930000078
Figure BDA0001673401930000079
决定,即如果门函数得出的结果是1,那么不把LSTM这一步的状态传到下一步,以此来“截断”长视频。我们把这一步得到的编码网络输出记为
Figure BDA00016734019300000710
得到的二进制门函数的输出记为 (γ12,...,γN)。
所述的步骤1.4)具体为:
由步骤1.3)我们可以得到视频的编码网络输出
Figure BDA00016734019300000711
和二进制门函数的输出(γ12,...,γN)。二进制门函数的输出里面的值非0即1,这样我们可以通过结果是1的部分把长视频为成各个片段。假设当前第t步得到的γt等于1,那么我们就把之前的视频片段作一个问题相关的帧级别的注意力计算。
其中注意力的计算如下:假设当前是视频片段Sk,对于Sk里的每一帧,假设当前是第t帧是vt,我们由公式
Figure BDA00016734019300000712
计算这一帧的分值,其中
Figure BDA00016734019300000713
Figure BDA00016734019300000714
是可训练的矩阵,b(v)是可训练的偏置向量。对于每一个在视频片段Sk里的帧vt,我们可以计算出对应的分值,然后由softmax函数
Figure BDA00016734019300000715
计算出每一帧的注意力分值。
最后我们可以得到视频片段Sk的基于问题注意的表征sk,其计算方法是
Figure BDA00016734019300000716
Figure BDA00016734019300000717
如果一个长视频被我们的模型分成了K段,那么我们能够得到K个视频片段的表征(s1,s2,...,sk)。
所述的步骤1.5)具体为:
利用步骤1.4)获得的K个视频片段的时间上问题注意力的表征(s1,s2,...,sk),把这些表征送入片段级别的LSTM,我们可以获得他们的时间语义表征
Figure BDA0001673401930000081
Figure BDA0001673401930000082
因而整个自适应编码网络的输出为
Figure BDA0001673401930000083
所述的步骤2)是对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案,结合强化学习的思想,来训练解码神经网络。其具体步骤为:
2.1)利用步骤1.5)得到的视频片段和问题的联合表达,在LSTM的每一步,首先基于片段和问题以及LSTM的状态,对步骤1.5)得到的片段级别的时间特征表达作一个注意力的机制。得到向量et
2.2)把LSTM前一步输出和et作为当前步LSTM的输入。
2.3)结合策略梯度的思想,在每一步LSTM计算的时候,先通过蒙特卡洛算法采样一些结果,然后算出当前序列的得分。
2.4)在每一步,把LSTM的输出通过线性层,输出作为下一个词的可能的概率,该概率和真实答案的交叉熵再与步骤2.2)得到的得分相乘,作为这个模型的损失。
所述的步骤2.1)具体为:
首先解码器原理是通过一个LSTM在每一步产生下一个词的概率分布。其主要的原理是上一步的输出作为这一步的输入,然后进行LSTM内部的计算,得到隐含状态
Figure BDA0001673401930000084
和输出。把输出通过一个线性层,我们就可以得到下一个词的概率分布。
利用步骤1.5)获得的自适应编码网络的输出
Figure BDA0001673401930000085
假定问题的文本表征为h(q),解码器在第t步的隐含向量为
Figure BDA0001673401930000086
当前是解码LSTM运行的第t步,我们可以计算出对于问题生成的第k个视频段落的分值:
Figure BDA0001673401930000087
其中
Figure BDA0001673401930000088
都是可训练的参数矩阵,b(s)是可训练的偏置向量,P(s)是可训练的参数向量,用于计算各个视频段落的注意力分值。然后通过softmax公式:
Figure BDA0001673401930000089
我们能够算出每个段落对于问题生成的注意力分值
Figure BDA0001673401930000091
最后通过下式计算出问题相关且在解码LSTM运行到第t步的视频片段的注意力表征
Figure BDA0001673401930000092
所述的步骤2.2)具体为:
利用步骤2.1)得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。
所述的步骤2.3)具体为:
结合强化学习的思想,我们把下一个答案单词的生成视为一个行动(action),把在当前词序列a1:t-1存在的情况下,下一个词at的概率pθ(at|a1:t-1,f(v,q))视为策略。我们选择把生成的答案
Figure BDA0001673401930000093
的词嵌入和真实答案a的词嵌入之间的向量距离当作奖励函数,其计算公式如下:
Figure BDA0001673401930000094
因此,假定已经生成了前t-1个单词,其序列是a1:t-1,那么此时的状态能得到的得分应该是
Figure BDA0001673401930000095
由这t-1个单词a1:t-1能够产生的所有序列
Figure BDA0001673401930000096
他们的得分的期望。但是如果计算期望的话,整个时间空间复杂度会指数倍增长,因此我们采用采样的方式,在解码器运行的每一步,进行蒙特卡洛采样。其采样过程如下,假设当前有t-1个词a1:t-1,那么当前状态的得分由下式计算得出:
Figure BDA0001673401930000097
当t小于生成答案的句子长度是,我们会通过从t+1步开始随机采样从而生成J 个答案,记为
Figure BDA0001673401930000098
计算这些候选答案的得分,然后取平均值当作结果,如果t等于句子长度时,则直接计算得分即可。这样我们就可以得到解码 LSTM每一步的得分。
所述的步骤2.4)具体为:
根据极大似然估计,生成答案的损失可以由下式计算:
Figure BDA0001673401930000101
但是这种方法无法让解码LSTM达到最优的状态,因此我们结合了强化学习的思想,引入策略梯度,利用步骤2.3)得到的得分,把它和损失相乘,再求梯度,这个梯度则被称为策略梯度,计算公式如下:
Figure BDA0001673401930000102
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在自己构建的数据集上面进行实验验证,包含50000条视频片段及20000 0条文字描述。我们使用70%的数据作为训练集,10%的数据作为验证集,20%的数据作为测试集:
1)对于数据集中的每一个视频,将所有帧作为数据集中相应视频的帧级别表达。并且把每一帧都重置为224×224大小,随后利用预训练好的VGGNet获取每一帧的40 96维的特征表达。
2)对于问题和答案本发明利用提前训练好的word2vec模型来提取问题和答案的语义表达。特别地,单词集中含有5000个单词,单词向量的维度为256维。
3)对于词汇表的大小,我们把它设置成8500个,最后加上“<eos>“和”<unk> “分别代码句子的结尾符和不在词汇表的单词。
为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了Accuracy。对于本发明提出的AHN(D adaptive hierarchical reinforced network)分为以下2类进行测试,AHN(ml)(在最后计算损失的时候,不采用策略梯度,而是用极大似然估计),AHN(rl)(在最后计算损失的时候,采用策略梯度)。对于实验中的LSTM网络中的初始权重为按高斯分布随机初始化,初始的学习率设定为0.001,每一个LSTM 网络之后设定的抛弃率(dropout rate)为0.6。训练时使用了以5次迭代为界的“早期停止”技术(earlystopping),批数据集大小(batch size)设为100,使用了ADAM(Adaptive MomentEstimation)的梯度下降技术,阈值
Figure BDA0001673401930000112
设为0.3。另外,对于数据集按照问题的分类(对象问题(Object)、数目问题(Number)、人物问题(Person)、地点问题(Location)、动作问题(Action))分别求取测试结果。按照具体实施方式中描述的步骤,所得的实验结果如表1所示:
Figure BDA0001673401930000111
表1本发明针对自构数据集中不同种类问题的测试结果(ACC)。

Claims (10)

1.一种利用分层编码解码器网络机制来解决视频问答的方法,其特征在于,包括如下步骤:1)对于输入的视频及问题,训练出能够基于问题和视频信息从而自适应分段长视频,并把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达的编码神经网络,其中步骤1)是训练出一个自适应分层编码网络,它能基于输入的视频及问题,训练出自适应的分割机制,对长视频进行分割,把得到的视频分段和问题作进一步联合,得到的视频和问题的联合表达,其具体步骤为:1.1)采用卷积神经网络提取视频的帧级别的特征表达;1.2)对于视频相关的问题文本,通过LSTM网络,获取问题的输出状态表达;1.3)对于1.1)中的视频的帧级别的特征表达,建立了一个自适应循环神经网络,该网络中带有一个二进制门函数,能够决定是否传递LSTM参数到下一个状态,当二进制门函数返回结果为1时,标志着网络对视频的这一步进行分段;1.4)利用步骤1.3)获得的视频分段的时间特征表达,对各个时间分段,结合步骤1.2)问题的输出状态,通过注意力模型,得到问题相关的帧级别的时间注意力视频表达;1.5)利用步骤1.4)得到的问题相关的帧级别的时间注意力视频表达,通过LSTM网络,得到片段级别的时间特征表达,最后得到视频片段和问题的联合表达;
2)对于步骤1)所得到的视频和问题的联合表达,作为编码神经网络的输出;该输出再与相关答案一起训练解码神经网络,其中结合了强化学习的思想,通过提前采样得到当前状态的得分来修正整个解码神经网络,从而获得更优的解码神经网络,其中步骤2)是对于编码完成的得到视频问题联合表达的神经网络的输出,再与相关答案,结合强化学习的思想,来训练解码神经网络,其具体步骤为:2.1)利用步骤1.5)得到的视频片段和问题的联合表达,在LSTM的每一步,首先基于片段和问题以及LSTM的状态,对步骤1.5)得到的片段级别的时间特征表达作一个注意力的机制,得到向量et;2.2)把LSTM前一步输出和et作为当前步LSTM的输入;2.3)结合策略梯度的思想,在每一步LSTM计算的时候,先通过蒙特卡洛算法采样,然后算出当前序列的得分;2.4)在每一步,把LSTM的输出通过线性层,输出作为下一个词的可能的概率,该概率和真实答案的交叉熵再与步骤2.3)得到的得分相乘,作为这个模型的损失;
3)对于要预测答案的视频和问题,根据生成的编码神经网络和解码神经网络,得到所预测的答案。
2.根据权利要求1所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.1)具体为:
对于视频采用预训练的2维卷积神经网络获取视频v的帧级别的特征
Figure FDA0002802801390000021
其中N代表视频帧表达v(f)中的帧数,
Figure FDA0002802801390000022
代表视频第j帧的嵌入表达。
3.根据权利要求2所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.2)具体为:
对于问题文本,输入到LSTM网络中,获得问题的输出状态表达,记h
Figure FDA0002802801390000023
其中
Figure FDA0002802801390000024
为问题q的第k个单词的输出状态表达。
4.根据权利要求3所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.3)具体为:
对于步骤1.1)获得的视频的帧级别的表达
Figure FDA0002802801390000025
输入到LSTM网络中,LSTM的计算:假设在第t步,LSTM会计算LSTM的隐藏状态
Figure FDA0002802801390000026
然后结合第t+1帧,以及偏差值bγ计算二进制门函数的结果
Figure FDA0002802801390000027
其中
Figure FDA0002802801390000028
代表视频第j帧的嵌入表达,
Figure FDA0002802801390000029
是第t步LSTM的隐含状态;bγ是式子的偏差值,是可训练的;δ(·)是sigmoid函数,Wγv和Wγh是可训练的矩阵,
Figure FDA00028028013900000210
是可训练的向量,LSTM下一步的隐藏状态和记忆部分状态由式子
Figure FDA0002802801390000031
Figure FDA0002802801390000032
决定,即如果门函数得出的结果是1,那么不把LSTM这一步的状态传到下一步,以此来“截断”长视频,把这一步得到的编码网络输出记为
Figure FDA0002802801390000033
得到的二进制门函数的输出记为(γ1,γ2,...,γN)。
5.根据权利要求4所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.4)为:
由步骤1.3)可以得到视频的编码网络输出
Figure FDA0002802801390000034
和二进制门函数的输出(γ1,γ2,...,γN),二进制门函数的输出里面的值非0即1,这样可以通过结果是1的部分把长视频为成各个片段,假设当前第t步得到的γt等于1,那么就把之前的视频片段作一个问题相关的帧级别的注意力计算,
其中注意力的计算如下:假设当前是视频片段Sk,对于Sk里的每一帧,假设当前是第t帧是vt,由公式
Figure FDA0002802801390000035
计算这一帧的分值,其中
Figure FDA0002802801390000036
Figure FDA0002802801390000037
是可训练的矩阵,b(v)是可训练的偏置向量,对于每一个在视频片段Sk里的帧vt,可以计算出对应的分值,然后由softmax函数
Figure FDA0002802801390000038
计算出每一帧的注意力分值,
最后可以得到视频片段Sk的基于问题注意的表征sk,其计算方法是
Figure FDA0002802801390000039
如果一个长视频被模型分成了K段,那么能够得到K个视频片段的表征(S1,S2,...,Sk)。
6.根据权利要求5所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤1.5)为:
利用步骤1.4)获得的K个视频片段的时间上问题注意力的表征(S1,S2,...,Sk),把这些表征送入片段级别的LSTM,可以获得时间语义表征
Figure FDA0002802801390000041
因而整个自适应编码网络的输出为
Figure FDA0002802801390000042
7.根据权利要求6所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤2.1)为:
首先解码器原理是通过一个LSTM在每一步产生下一个词的概率分布,其主要的原理是上一步的输出作为这一步的输入,然后进行LSTM内部的计算,得到隐含状态
Figure FDA0002802801390000043
和输出,把输出通过一个线性层,就可以得到下一个词的概率分布,
利用步骤1.5)获得的自适应编码网络的输出
Figure FDA0002802801390000044
假定问题的文本表征为h(q),解码器在第t步的隐含向量为
Figure FDA0002802801390000045
当前是解码LSTM运行的第t步,可以计算出对于问题生成的第k个视频段落的分值:
Figure FDA0002802801390000046
其中
Figure FDA0002802801390000047
都是可训练的参数矩阵,b(s)是可训练的偏置向量,P(s)是可训练的参数向量,用于计算各个视频段落的注意力分值,然后通过softmax公式:
Figure FDA0002802801390000048
能够算出每个段落对于问题生成的注意力分值
Figure FDA0002802801390000049
最后通过下式计算出问题相关且在解码LSTM运行到第t步的视频片段的注意力表征
Figure FDA00028028013900000410
8.根据权利要求7所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤2.2)为:
利用步骤2.1)得到的视频片段的注意力表征et作为LSTM的输入,然后计算得出LSTM的输出,通过线性层,计算出下一个词的概率。
9.根据权利要求8所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤2.3)为:
结合强化学习的思想,把下一个答案单词的生成视为一个行动(action),把在当前词序列a1:t-1存在的情况下,下一个词at的概率Pθ(at|a1:t-1,f(v,q)视为策略,选择把生成的答案
Figure FDA0002802801390000051
的词嵌入和真实答案a的词嵌入之间的向量距离当作奖励函数,其计算公式如下:
Figure FDA0002802801390000052
因此,假定已经生成了前t-1个单词,其序列是a1:t-1,那么此时的状态能得到的得分应该是
Figure FDA0002802801390000053
由这t-1个单词a1:t-1能够产生的所有序列
Figure FDA0002802801390000054
他们的得分的期望,但是如果计算期望的话,整个时间空间复杂度会指数倍增长,因此采用采样的方式,在解码器运行的每一步,进行蒙特卡洛采样,其采样过程如下,假设当前有t-1个词a1:t-1,那么当前状态的得分由下式计算得出:
Figure FDA0002802801390000055
当t小于生成答案的句子长度时,会通过从t+1步开始随机采样从而生成J个答案,记为
Figure FDA0002802801390000056
计算这些候选答案的得分,然后取平均值当作结果,如果t等于句子长度时,则直接计算得分即可,这样就可以得到解码LSTM每一步的得分。
10.根据权利要求9所述的利用分层编码解码器网络机制来解决视频问答的方法,其特征在于所述的步骤2.4)为:
根据极大似然估计,生成答案的损失可以由下式计算:
Figure FDA0002802801390000061
但是这种方法无法让解码LSTM达到最优的状态,因此结合了强化学习的思想,引入策略梯度,利用步骤2.3)得到的得分,把它和损失相乘,再求梯度,这个梯度则被称为策略梯度,计算公式如下:
Figure FDA0002802801390000062
CN201810516611.XA 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法 Active CN108763444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810516611.XA CN108763444B (zh) 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810516611.XA CN108763444B (zh) 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法

Publications (2)

Publication Number Publication Date
CN108763444A CN108763444A (zh) 2018-11-06
CN108763444B true CN108763444B (zh) 2021-02-05

Family

ID=64005834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810516611.XA Active CN108763444B (zh) 2018-05-25 2018-05-25 利用分层编码解码器网络机制来解决视频问答的方法

Country Status (1)

Country Link
CN (1) CN108763444B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763504B (zh) * 2018-05-30 2020-07-24 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和系统
US11615311B2 (en) * 2018-12-10 2023-03-28 Baidu Usa Llc Representation learning for input classification via topic sparse autoencoder and entity embedding
CN109711380B (zh) * 2019-01-03 2022-09-16 电子科技大学 一种基于全局上下文信息的时序行为片段生成系统及方法
CN109857909B (zh) * 2019-01-22 2020-11-20 杭州一知智能科技有限公司 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN109919358B (zh) * 2019-01-31 2021-03-02 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN111858862B (zh) * 2019-04-29 2023-07-18 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN110377711B (zh) * 2019-07-01 2022-04-01 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN110969010A (zh) * 2019-12-06 2020-04-07 浙江大学 一种基于关系指导及双通道交互机制的问题生成方法
CN111340006A (zh) * 2020-04-16 2020-06-26 深圳市康鸿泰科技有限公司 一种手语识别方法及系统
CN111858857B (zh) * 2020-07-31 2021-03-30 前海企保科技(深圳)有限公司 一种跨文档长文本的分层融合阅读理解方法及系统
CN113590879B (zh) * 2021-08-05 2022-05-31 哈尔滨理工大学 一种缩短时间戳网络解决多事件视频问答系统、方法、计算机及存储介质
CN113807222B (zh) * 2021-09-07 2023-06-27 中山大学 基于稀疏采样进行端到端训练的视频问答方法与系统
CN113779310B (zh) * 2021-09-10 2023-06-02 电子科技大学 一种基于层级表征网络的视频理解文本生成方法
CN117917696A (zh) * 2022-10-20 2024-04-23 华为技术有限公司 视频问答方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03184492A (ja) * 1989-12-14 1991-08-12 Fujitsu Ltd ニューラルネットワークを用いた適応型y/c分離方式
US7617164B2 (en) * 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03184492A (ja) * 1989-12-14 1991-08-12 Fujitsu Ltd ニューラルネットワークを用いた適応型y/c分離方式
US7617164B2 (en) * 2006-03-17 2009-11-10 Microsoft Corporation Efficiency of training for ranking systems based on pairwise training with aggregated gradients
CN107066973A (zh) * 2017-04-17 2017-08-18 杭州电子科技大学 一种利用时空注意力模型的视频内容描述方法
CN107766447A (zh) * 2017-09-25 2018-03-06 浙江大学 一种使用多层注意力网络机制解决视频问答的方法
CN107818174A (zh) * 2017-11-15 2018-03-20 浙江大学 一种利用视频外表及动作上的渐进式优化注意力网络机制解决视频问答的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Video Question Answering via Gradually Refined Attention over Appearance and Motion";Dejing Xu,Zhou Zhao,Jun Xiao,et al.;《ACM multimedia-2017》;20171027;论文第1645-1653页 *

Also Published As

Publication number Publication date
CN108763444A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN108763444B (zh) 利用分层编码解码器网络机制来解决视频问答的方法
CN109657041B (zh) 基于深度学习的问题自动生成方法
CN107766447B (zh) 一种使用多层注意力网络机制解决视频问答的方法
CN108875807B (zh) 一种基于多注意力多尺度的图像描述方法
CN108763284B (zh) 一种基于深度学习和主题模型的问答系统实现方法
CN107484017B (zh) 基于注意力模型的有监督视频摘要生成方法
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN110929515B (zh) 基于协同注意力和自适应调整的阅读理解方法及系统
CN111858931B (zh) 一种基于深度学习的文本生成方法
CN112686058B (zh) Bert嵌入语音翻译模型训练方法、系统及语音翻译方法和设备
Fan et al. Recurrent attention network with reinforced generator for visual dialog
CN111143509B (zh) 一种基于静态-动态注意力变分网络的对话生成方法
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108389576A (zh) 压缩后的语音识别模型的优化方法及系统
Zhao et al. Open-ended video question answering via multi-modal conditional adversarial networks
CN112527966B (zh) 基于Bi-GRU神经网络和自注意力机制的网络文本情感分析方法
CN111666756B (zh) 一种基于主题融合的序列模型文本摘要生成方法
CN111046178B (zh) 一种文本序列生成方法及其系统
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN109740012B (zh) 基于深度神经网络对图像语义进行理解和问答的方法
CN112559706B (zh) 对话生成模型的训练方法、对话方法、设备以及存储介质
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111339274B (zh) 对话生成模型训练方法、对话生成方法及装置
CN109918484B (zh) 对话生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant