CN110377711B - 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 - Google Patents

一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 Download PDF

Info

Publication number
CN110377711B
CN110377711B CN201910585462.7A CN201910585462A CN110377711B CN 110377711 B CN110377711 B CN 110377711B CN 201910585462 A CN201910585462 A CN 201910585462A CN 110377711 B CN110377711 B CN 110377711B
Authority
CN
China
Prior art keywords
attention
layer
video
convolution
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910585462.7A
Other languages
English (en)
Other versions
CN110377711A (zh
Inventor
赵洲
孟令涛
张竹
袁晶
怀宝兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910585462.7A priority Critical patent/CN110377711B/zh
Publication of CN110377711A publication Critical patent/CN110377711A/zh
Application granted granted Critical
Publication of CN110377711B publication Critical patent/CN110377711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。主要包括如下步骤:1)针对视频与问题,分层卷积自注意力编码器网络获取多层视频语义表达。2)对获得的视频帧的多层视频语义表达,计算损失函数并训练模型,利用训练后的分层卷积自注意力网络,对开放式长视频问答任务进行回答语句生成。相比于一般的开放式长视频问答任务解决方案,本发明对多种有效信息进行综合利用。本发明在开放式长视频问答任务中所取得的效果相比于传统的方法更好。

Description

一种利用分层卷积自注意力网络解决开放式长视频问答任务 的方法
技术领域
本发明涉及以开放式长视频问答任务,尤其涉及一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。
背景技术
当下,开放式长视频问答任务成为一项重要的服务,但是目前已有该项服务的效果并不是很好。
现有的技术主要是利用多模型卷积编解码器网络解决短视频问答任务。由于缺乏对长范围依赖的建模并且计算开销过大,这种方法对长视频问答任务不适用。为了克服该缺陷,本方法将利用分层卷积自注意力网络解决开放式长视频问答任务。
本发明将利用一个分层卷积自注意力编码器对长视频内容进行建模,获取长视频内容的分层结构,并获取含有问题信息的视频上下文长范围依赖信息。之后本发明利用多范围注意力解码器合并多层视频表达来生成答案。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术中缺乏对长范围依赖的建模并且计算开销过大的问题,本发明提供一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法。本发明所采用的具体技术方案是:
一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法,包含如下步骤:
1、针对视频与问题语句,利用分层卷积自注意力编码器网络获取多层视频语义表达;
2、利用步骤1获取的多层视频语义表达,计算GRU注意力解码器输出向量,进一步得到分层卷积自注意力网络损失函数;
3、利用步骤2获取的分层卷积自注意力网络损失函数,对分层卷积自注意力网络进行训练,利用训练后的分层卷积自注意力网络,输入视频与对应问题语句,对开放式长视频问答任务进行回答语句生成。
进一步的,所述的步骤1具体为:
1.1针对视频,利用提前训练好的3D-Conv网络结合线性映射与位置编码器,获得视频帧表达v=(v1,v2,...,vn),其中vi代表视频中第i帧的帧表达向量,i=(1,2,...,n),n代表视频中的帧数;
1.2针对问题语句,利用提前训练好的word2vec模型获取问题语句的单词表达q=(q1,q2,...qm),其中qi代表问题语句中第i个单词的word2vec特征表达向量,m代表问题中的单词数;
1.3将问题语句的单词表达q=(q1,q2,...qm)输入到双向GRU网络中,按照如下公式获取问题语句的上下文单词表达
Figure BDA0002114410820000021
与全局问题表达hQ
Figure BDA0002114410820000022
Figure BDA0002114410820000023
Figure BDA0002114410820000024
Figure BDA0002114410820000025
其中
Figure BDA0002114410820000026
代表问题语句中第i个单词的上下文单词表达,i=(1,2,...,m),m代表问题中的单词数。
Figure BDA0002114410820000027
Figure BDA0002114410820000028
分别代表正向与反向GRU计算,
Figure BDA0002114410820000029
代表将第i个正向GRU计算的输出
Figure BDA00021144108200000210
与第i个反向GRU计算的输出
Figure BDA00021144108200000211
拼接,获得问题语句中第i个单词的上下文单词表达
Figure BDA00021144108200000212
Figure BDA00021144108200000213
代表将第m个正向GRU计算的输出
Figure BDA00021144108200000214
与第1个反向GRU计算的输出
Figure BDA00021144108200000215
拼接,获得全局问题表达hQ
1.4将所得到的视频帧表达v=(v1,v2,...,vn)、输入到L层卷积自注意力编码层中,所述L层卷积自注意力编码层包括L层完全相同的卷积自注意力编码层,每一层卷积自注意力编码层包括第一卷积单元、第二卷积单元、注意力分割单元和带有问题信息的自注意力单元;获得L层卷积自注意力编码层的输出向量(h1,h2,...,hL),将L层卷积自注意力编码层的输出向量堆叠起来,获得多层视频语义表达(h1,h2,...,hL)。
进一步的,所述的步骤1.4具体为:
1.4.1第1层卷积自注意力编码层的输入为视频帧表达v=(v1,v2,...,vn),第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列
Figure BDA00021144108200000216
其中
Figure BDA00021144108200000217
代表第l-1层卷积自注意力编码层的输出序列中的第i个向量,l=(1,2,...,L),nl-1代表第l-1层卷积自注意力编码层的输出序列长度;
1.4.2根据
Figure BDA00021144108200000218
得到第l层卷积自注意力编码层中第一卷积单元的输出
Figure BDA00021144108200000219
Figure BDA0002114410820000031
Y=[A;B]
Figure BDA0002114410820000032
Figure BDA0002114410820000033
其中,i=(1,2,...,nl-1),Y=[A;B]代表将2d维的向量Y拆解为两个d维向量A与B,d代表第l-1层卷积自注意力编码层的输出序列
Figure BDA0002114410820000034
中向量
Figure BDA0002114410820000035
的维度,j=(1,2,...,nl-1)。Wl代表可训练的权重矩阵,bl代表可训练的参数向量,
Figure BDA0002114410820000036
代表按元素相乘计算;
1.4.3将第l层卷积自注意力编码层中第一个卷积单元的输出
Figure BDA0002114410820000037
输入到第l层卷积自注意力编码层中第二个卷积单元,按照与第一个卷积单元相同的计算方法获得第l层卷积自注意力编码层中第二卷积单元的输出
Figure BDA0002114410820000038
1.4.4将第l层卷积自注意力编码层中第二卷积单元的输出
Figure BDA0002114410820000039
分割为nl个片段,每个片段所含元素数目为H,nl-1=H×nl;将nl个片段输入到第l层卷积自注意力编码层的注意力分割单元中,获得第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA00021144108200000310
对nl个片段中第i个片段,按照如下公式计算得到第i个片段的视频片段级别的表达
Figure BDA00021144108200000311
Figure BDA00021144108200000312
Figure BDA00021144108200000313
其中,i=(1,2,...,nl),softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,Ws 1、Ws 2代表可训练的权重矩阵,bs为可训练的偏置向量,
Figure BDA00021144108200000314
代表可训练的权重向量的转置;
1.4.5利用获得的第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA00021144108200000315
与问题语句的上下文单词表达
Figure BDA00021144108200000316
输入到第l层卷积自注意力编码层中带有问题信息的自注意力单元,按照如下方法得到第l层卷积自注意力编码层的输出序列
Figure BDA00021144108200000317
1.4.5.1利用获得的第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA00021144108200000318
与问题语句的上下文单词表达
Figure BDA00021144108200000319
按照如下公式计算得到视频到问题矩阵M,
Figure BDA00021144108200000320
其中,Mij代表视频到问题矩阵M的第i行第j列元素,i=(1,2,...,nl),j=(1,2,...,m),tanh()代表双曲正切函数计算,
Figure BDA0002114410820000041
代表可训练的权重矩阵,bm代表可训练的偏置向量,
Figure BDA0002114410820000042
代表可训练的权重向量的转置。
1.4.5.2利用得到的视频到问题矩阵M,按照如下公式计算得到第l层卷积自注意力编码层的输出序列
Figure BDA0002114410820000043
中第i个向量,
D=M·MT
Figure BDA0002114410820000044
其中,i=(1,2,...,nl),矩阵D代表视频自注意力矩阵,
Figure BDA0002114410820000045
代表对进行第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA0002114410820000046
进行聚合相加操作,softmax(·)代表softmax函数计算。
则按照如上方法,可以获得第l层卷积自注意力编码层的输出序列
Figure BDA0002114410820000047
l=(1,2,...,L),将L层卷积自注意力编码层的输出序列堆叠起来,可以获得多层视频语义表达(h1,h2,...,hL)。
进一步的,所述的步骤2具体为:
2.1利用步骤1获得的多层视频语义表达(h1,h2,...,hL),输入到GRU注意力解码器,循环生成第t步的解码器输出向量
Figure BDA0002114410820000048
计算公式如下,
Figure BDA0002114410820000049
其中,t=(1,2,...,r),r代表回答语句中的单词数;
Figure BDA00021144108200000410
为GRU注意力解码器生成的第t-1步的解码器输出向量,xt为第t步的解码器输入向量,xt计算公式如下,
Figure BDA00021144108200000411
其中,wt代表第t步的解码器输入单词嵌入向量,hQ代表步骤1获得的全局问题表达,
Figure BDA00021144108200000412
代表第t步对应的多范围视频表达,
Figure BDA00021144108200000413
计算方法如下,
针对步骤1获得的多层视频语义表达(h1,h2,...,hL),按照如下公式计算第t步对应的多范围视频表达
Figure BDA00021144108200000414
Figure BDA00021144108200000415
Figure BDA00021144108200000416
Figure BDA0002114410820000051
其中,softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,
Figure BDA0002114410820000052
代表可训练的权重矩阵,bg代表可训练的偏置向量,
Figure BDA0002114410820000053
代表可训练的权重向量的转置,
Figure BDA0002114410820000054
代表第t-1步的解码器输出向量,hQ代表步骤1获得的全局问题表达,
Figure BDA0002114410820000055
代表视频语义表达(h1,h2,...,hL)中的第l层卷积自注意力编码层的输出序列
Figure BDA0002114410820000056
中第i维向量,l=(1,2,...,nl),K代表提前设定好的注意力范围数。
2.2利用计算得到的GRU注意力解码器的第t步输出向量
Figure BDA0002114410820000057
按照如下公式计算得到分层卷积自注意力网络损失函数LML
Figure BDA0002114410820000058
Figure BDA0002114410820000059
其中,softmax(·)代表softmax函数计算,log(·)代表自然底数对数计算,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。
本发明的有益效果为:
(1)本发明对开放式长视频问答任务,利用分层卷积自注意力编码器网络,有效获取了长视频内容的分层结构,并且获取了含有问题信息的视频上下文长范围依赖信息;
(2)本发明利用一个多范围GRU注意力解码器,获取了视频中多层语义信息的合成,防止仅利用最上层视频语义信息导致的信息丢失,更有效地获得视频与问题相关的信息;
(3)本发明可以更有效地提取出视频中与问题语句相关的部分,并生成更符合问题需求的答案;在利用ActivityCaption数据集改造的开放式长视频问答任务数据集上进行实验,实验发现,本发明可以取得较好的效果。
附图说明
图1是本发明使用的用来解决开放式长视频问答任务的分层卷积自注意力网络模型示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,图1中a)代表利用L层卷积自注意力编码层生成多层视频语义表达,图1中b)代表利用解码器计算损失函数并生成答案。
本发明一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法包括如下步骤:
步骤一,针对视频与问题语句,利用分层卷积自注意力编码器网络获取多层视频语义表达,其具体步骤为:
针对视频,利用提前训练好的3D-Conv网络结合线性映射与位置编码器,获得视频帧表达v=(v1,v2,...,vn)。其中vi代表视频中第i帧的帧表达向量,i=(1,2,...,n),n代表视频中的帧数。
针对问题语句,利用提前训练好的word2vec模型获取问题语句的单词表达q=(q1,q2,...qm),其中qi代表问题语句中第i个单词的word2vec特征表达向量,m代表问题语句中的单词数。将问题语句的单词表达q=(q1,q2,...qm)输入到双向GRU网络中,按照如下公式获取问题语句的上下文单词表达
Figure BDA0002114410820000061
与全局问题表达hQ
Figure BDA0002114410820000062
Figure BDA0002114410820000063
Figure BDA0002114410820000064
Figure BDA0002114410820000065
其中
Figure BDA0002114410820000066
代表问题语句中第i个单词的上下文单词表达,i=(1,2,...,m),m代表问题语句中的单词数。
Figure BDA0002114410820000067
Figure BDA0002114410820000068
分别代表正向与反向GRU计算,
Figure BDA0002114410820000069
代表将第i个正向GRU计算的输出
Figure BDA00021144108200000610
与第i个反向GRU计算的输出
Figure BDA00021144108200000611
拼接,获得问题语句中第i个单词的上下文单词表达
Figure BDA00021144108200000612
Figure BDA00021144108200000613
代表将第m个正向GRU计算的输出
Figure BDA00021144108200000614
与第1个反向GRU计算的输出
Figure BDA00021144108200000615
拼接,获得全局问题表达hQ
之后将所得到的视频帧表达v=(v1,v2,...,vn)输入到L层卷积自注意力编码层中,获得L层卷积自注意力编码层的输出向量(h1,h2,...,hL),将L层卷积自注意力编码层的输出向量堆叠起来,获得多层视频语义表达(h1,h2,...,hL)。
第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列
Figure BDA00021144108200000616
l=(1,2,...,L),其中第1层卷积自注意力编码层的输入为视频帧表达v=(v1,v2,...,vn),nl-1代表第l-1层卷积自注意力编码层的输出序列长度。将
Figure BDA00021144108200000617
按照如下公式计算,得到第l层卷积自注意力编码层中第一个卷积单元的输出
Figure BDA00021144108200000618
Figure BDA0002114410820000071
Y=[A;B]
Figure BDA0002114410820000072
Figure BDA0002114410820000073
其中,i=(1,2,...,nl-1),Y=[A;B]代表将2d维的向量Y拆解为两个d维向量A与B,d代表第l-1层卷积自注意力编码层的输出序列
Figure BDA0002114410820000074
中向量
Figure BDA0002114410820000075
的维度,j=(1,2,...,nl-1)。Wl代表可训练的权重矩阵,bl代表可训练的参数向量,
Figure BDA0002114410820000076
代表按元素相乘计算。
将第l层卷积自注意力编码层中第一个卷积单元的输出
Figure BDA0002114410820000077
输入到第l层卷积自注意力编码层中第二个卷积单元,按照与第一个卷积单元相同的计算方法获得第l层卷积自注意力编码层中第二个卷积单元的输出
Figure BDA0002114410820000078
将第l层卷积自注意力编码层中第二个卷积单元的输出
Figure BDA0002114410820000079
分割为nl个片段,每个片段所含元素数目为H,nl-1=H×nl。将nl个片段输入到第l层卷积自注意力编码层的注意力分割单元中,获得第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA00021144108200000710
对nl个片段中第i个片段,按照如下公式计算得到第i个片段的视频片段级别的表达
Figure BDA00021144108200000711
Figure BDA00021144108200000712
Figure BDA00021144108200000713
其中,i=(1,2,...,nl),softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,Ws 1、Ws 2代表可训练的权重矩阵,bs为可训练的偏置向量,
Figure BDA00021144108200000714
代表可训练的权重向量的转置。
利用获得的第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA00021144108200000715
与问题语句的上下文单词表达
Figure BDA00021144108200000716
输入到第l层卷积自注意力编码层中带有问题信息的自注意力单元,按照如下方法得到第l层卷积自注意力编码层的输出序列
Figure BDA00021144108200000717
利用获得的第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA00021144108200000718
与问题语句的上下文单词表达
Figure BDA00021144108200000719
按照如下公式计算得到视频到问题矩阵M,
Figure BDA00021144108200000720
其中,Mij代表视频到问题矩阵M的第i行第j列元素,i=(1,2,...,nl),j=(1,2,...,m),tanh(·)代表双曲正切函数计算,
Figure BDA0002114410820000081
代表可训练的权重矩阵,bm代表可训练的偏置向量,
Figure BDA0002114410820000082
代表可训练的权重向量的转置。
利用得到的视频到问题矩阵M,按照如下公式计算得到第l层卷积自注意力编码层的输出序列
Figure BDA0002114410820000083
中第i个向量,
D=M·MT
Figure BDA0002114410820000084
其中,i=(1,2,...,nl),矩阵D代表视频自注意力矩阵,
Figure BDA0002114410820000085
代表对第l层卷积自注意力编码层中视频片段级别的表达
Figure BDA0002114410820000086
进行聚合相加操作,softmax(·)代表softmax函数计算。
则按照如上方法,可以获得第l层卷积自注意力编码层的输出序列
Figure BDA0002114410820000087
l=(1,2,...,L),将L层卷积自注意力编码层的输出序列堆叠起来,可以获得多层视频语义表达(h1,h2,...,hL)。
步骤二,利用步骤一获取的多层视频语义表达,计算得到分层卷积自注意力网络损失函数,其具体步骤为:
将步骤一获得的多层视频语义表达(h1,h2,...,hL)输入到GRU注意力解码器,循环生成第t步的解码器输出向量
Figure BDA0002114410820000088
计算公式如下,
Figure BDA0002114410820000089
其中,
Figure BDA00021144108200000810
为GRU注意力解码器生成的第t-1步的解码器输出向量,xt为第t步的解码器输入向量,xt计算公式如下,
Figure BDA00021144108200000811
其中,wt代表第t步的解码器输入单词嵌入向量,hQ代表步骤一获得的全局问题表达,
Figure BDA00021144108200000812
代表第t步对应的多范围视频表达,
Figure BDA00021144108200000813
计算方法如下。
针对步骤一获得的多层视频语义表达(h1,h2,...,hL),按照如下公式计算第t步对应的多范围视频表达
Figure BDA00021144108200000814
Figure BDA00021144108200000815
Figure BDA00021144108200000816
Figure BDA0002114410820000091
其中,t=(1,2,...,r),r代表回答语句中的单词数;softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,
Figure BDA0002114410820000092
代表可训练的权重矩阵,bg代表可训练的偏置向量,
Figure BDA0002114410820000093
代表可训练的权重向量的转置,
Figure BDA0002114410820000094
代表第t-1步的解码器输出向量,hQ代表步骤一获得的全局问题表达,
Figure BDA0002114410820000099
代表视频语义表达(h1,h2,...,hL)中的第l层卷积自注意力编码层的输出序列
Figure BDA0002114410820000095
中第i维向量,l=(1,2,...,nl),K代表提前设定好的注意力范围数。
利用计算得到的第t步的解码器输出向量
Figure BDA0002114410820000096
按照如下公式计算得到分层卷积自注意力网络损失函数LML
Figure BDA0002114410820000097
Figure BDA0002114410820000098
其中,softmax(·)代表softmax函数计算,log(·)代表自然底数对数计算,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量。
步骤三,利用步骤二获取的分层卷积自注意力网络损失函数,对分层卷积自注意力网络进行训练,利用训练后的分层卷积自注意力网络,对开放式长视频问答任务,输入视频与对应问题,生成视频问答任务答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityCaption数据集上进行实验。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了BLEU-1,WUPS@0.0,WUPS@0.9三种评价标准来对于本发明的效果进行评价,BLEU-1评价标准反映了生成的回答语句的单词匹配程度,WUPS@0.0与WUPS@0.9评价标准反映了生成的回答语句的单词级别的歧义程度。按照具体实施方式中描述的步骤,所得的实验结果如表1所示,本方法表示为HCSA。
表1的测试结果反映出,本发明可以有效地解决放式长视频问答任务,生成符合要求的回答语句。
表1
Method BLEU-1 WUPS@0.9 WUPS@0.0
HCSA 28.83 36.90 61.74

Claims (3)

1.一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法,其特征在于包括如下步骤:
1)针对视频与问题语句,利用分层卷积自注意力编码器网络获取多层视频语义表达;
2)利用步骤1)获取的多层视频语义表达,计算GRU注意力解码器输出向量,进一步得到分层卷积自注意力网络损失函数;所述的步骤2)具体为:
2.1)将步骤1)获得的多层视频语义表达(h1,h2,...,hL)输入到GRU注意力解码器,得到第t步的解码器输出向量
Figure FDA0003312640130000011
Figure FDA0003312640130000012
其中,t=(1,2,...,r),r代表回答语句中的单词数;xt为第t步的解码器输入向量,计算公式如下:
Figure FDA0003312640130000013
Figure FDA0003312640130000014
Figure FDA0003312640130000015
Figure FDA0003312640130000016
其中,wt代表第t步的解码器输入单词嵌入向量,
Figure FDA0003312640130000017
代表第t步对应的多范围视频表达,K代表提前设定好的注意力范围数,
Figure FDA0003312640130000018
代表可训练的权重矩阵,bg代表可训练的偏置向量,
Figure FDA0003312640130000019
代表可训练的权重向量的转置;
2.2)根据得到的第t步的解码器输出向量
Figure FDA00033126401300000110
按照如下公式计算得到分层卷积自注意力网络损失函数LML
Figure FDA00033126401300000111
Figure FDA00033126401300000112
其中,log(·)代表自然底数对数计算,Wa代表可训练的权重矩阵,ba代表可训练的偏置向量;
3)利用步骤2)得到的分层卷积自注意力网络损失函数,对分层卷积自注意力网络进行训练;输入视频与对应问题语句,利用训练后的分层卷积自注意力网络对开放式长视频问答任务进行回答语句生成。
2.根据权利要求1所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法,其特征在于所述的步骤1)具体为:
1.1)针对视频,利用提前训练好的3D-Conv网络结合线性映射与位置编码器,获得视频帧表达v=(v1,v2,...,vn),其中vi代表视频中第i帧的帧表达向量,n代表视频中的帧数;
1.2)针对问题语句,利用提前训练好的word2vec模型获取问题语句的单词表达q=(q1,q2,...qm),其中qi代表问题语句中第i个单词的word2vec特征表达向量,m代表问题语句中的单词数;
1.3)将问题语句的单词表达q=(q1,q2,...qm)输入到双向GRU网络中,按照如下公式获取问题语句的上下文单词表达
Figure FDA0003312640130000021
与全局问题表达hQ
Figure FDA0003312640130000022
Figure FDA0003312640130000023
Figure FDA0003312640130000024
Figure FDA0003312640130000025
其中
Figure FDA0003312640130000026
代表问题语句中第i个单词的上下文单词表达,i=(1,2,...,m);
Figure FDA0003312640130000027
Figure FDA0003312640130000028
分别代表正向与反向GRU计算;
Figure FDA0003312640130000029
代表将第i个正向GRU计算的输出
Figure FDA00033126401300000210
与第i个反向GRU计算的输出
Figure FDA00033126401300000211
拼接,获得问题语句中第i个单词的上下文单词表达
Figure FDA00033126401300000212
代表将第m个正向GRU计算的输出
Figure FDA00033126401300000213
与第1个反向GRU计算的输出
Figure FDA00033126401300000214
拼接,获得全局问题表达hQ
1.4)将步骤1.1)得到的视频帧表达v=(v1,v2,...,vn)输入到L层卷积自注意力编码层中,所述L层卷积自注意力编码层包括L层完全相同的卷积自注意力编码层,每一层卷积自注意力编码层包括第一卷积单元、第二卷积单元、注意力分割单元和带有问题信息的自注意力单元;获得L层卷积自注意力编码层的输出向量,将L层卷积自注意力编码层的输出向量堆叠起来,进一步获得多层视频语义表达(h1,h2,...,hL)。
3.根据权利要求2所述利用分层卷积自注意力网络解决开放式长视频问答任务的方法,其特征在于所述步骤1.4)具体为:
1.4.1)第1层卷积自注意力编码层的输入为步骤1.1)得到的视频帧表达v=(v1,v2,...,vn),第l层卷积自注意力编码层的输入为第l-1层卷积自注意力编码层的输出序列
Figure FDA00033126401300000215
Figure FDA00033126401300000216
代表第l-1层卷积自注意力编码层的输出序列中的第i个向量,nl-1代表第l-1层卷积自注意力编码层的输出序列长度;
1.4.2)计算第l层卷积自注意力编码层中的第一卷积单元的输出
Figure FDA0003312640130000031
Figure FDA0003312640130000032
Y=[A;B]
Figure FDA0003312640130000033
Figure FDA0003312640130000034
其中,i=(1,2,...,nl-1),l=(1,2,...,L),Y=[A;B]代表将2d维的向量Y拆解为两个d维向量A与B,d代表第l-1层卷积自注意力编码层的输出序列
Figure FDA0003312640130000035
中向量
Figure FDA0003312640130000036
的维度,j=(1,2,...,nl-1);Wl代表可训练的权重矩阵,bl代表可训练的参数向量,
Figure FDA0003312640130000037
代表按元素相乘计算;
1.4.3)将第l层卷积自注意力编码层中的第一卷积单元的输出
Figure FDA0003312640130000038
输入到第l层卷积自注意力编码层中的第二卷积单元,按照步骤1.4.2)中的计算方法获得第l层卷积自注意力编码层中的第二卷积单元的输出
Figure FDA0003312640130000039
1.4.4)将第l层卷积自注意力编码层中的第二卷积单元的输出
Figure FDA00033126401300000310
分割为nl个片段,每个片段所含元素数目为H,nl-1=H×nl;将nl个片段输入到第l层卷积自注意力编码层中的注意力分割单元中,获得第l层卷积自注意力编码层中视频片段级别的表达
Figure FDA00033126401300000311
Figure FDA00033126401300000312
Figure FDA00033126401300000313
其中,i=(1,2,...,nl),
Figure FDA00033126401300000314
代表第i个片段的视频片段级别的表达,softmax(·)代表softmax函数计算,tanh(·)代表双曲正切函数计算,Ws 1、Ws 2代表可训练的权重矩阵,bs为可训练的偏置向量,
Figure FDA00033126401300000315
代表可训练的权重向量的转置;
1.4.5)将步骤1.4.4)获得的第l层卷积自注意力编码层中视频片段级别的表达
Figure FDA00033126401300000316
与步骤1.3)获得的问题语句的上下文单词表达
Figure FDA00033126401300000317
输入到第l层卷积自注意力编码层中的带有问题信息的自注意力单元,得到第l层卷积自注意力编码层的输出序列
Figure FDA00033126401300000318
具体步骤如下:
1.4.5.1)利用获得的第l层卷积自注意力编码层中视频片段级别的表达
Figure FDA0003312640130000041
与问题语句的上下文单词表达
Figure FDA0003312640130000042
按照如下公式计算得到视频到问题矩阵M,
Figure FDA0003312640130000043
其中,Mij代表视频到问题矩阵M的第i行第j列元素,i=(1,2,...,nl),j=(1,2,...,m),
Figure FDA0003312640130000044
代表可训练的权重矩阵,bm代表可训练的偏置向量,
Figure FDA0003312640130000045
代表可训练的权重向量的转置;
1.4.5.2)根据视频到问题矩阵M,得到第l层卷积自注意力编码层的输出序列
Figure FDA0003312640130000046
将L层卷积自注意力编码层的输出序列堆叠起来,进一步获得多层视频语义表达(h1,h2,...,hL),
D=M·MT
Figure FDA0003312640130000047
其中,i=(1,2,...,nl),矩阵D代表视频自注意力矩阵,
Figure FDA0003312640130000048
代表对进行第l层卷积自注意力编码层中视频片段级别的表达
Figure FDA0003312640130000049
进行聚合相加操作。
CN201910585462.7A 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 Active CN110377711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910585462.7A CN110377711B (zh) 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910585462.7A CN110377711B (zh) 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Publications (2)

Publication Number Publication Date
CN110377711A CN110377711A (zh) 2019-10-25
CN110377711B true CN110377711B (zh) 2022-04-01

Family

ID=68251441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910585462.7A Active CN110377711B (zh) 2019-07-01 2019-07-01 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Country Status (1)

Country Link
CN (1) CN110377711B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160038A (zh) * 2019-12-16 2020-05-15 浙江大学 一种基于自注意机制进行视频对话答案与问题的生成方法
CN111275118B (zh) * 2020-01-22 2022-09-16 复旦大学 基于自我修正式标签生成网络的胸片多标签分类方法
CN111652202B (zh) * 2020-08-10 2020-12-01 浙江大学 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
CN113128237B (zh) * 2021-04-09 2023-04-07 青岛海大新星软件咨询有限公司 一种服务资源的语义表征模型构建方法
CN113450421B (zh) * 2021-07-16 2022-07-01 中国电子科技集团公司第二十八研究所 一种基于增强深度学习的无人机侦察图像压缩与解压方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10621218B2 (en) * 2015-03-30 2020-04-14 Avaya Inc. Systems and methods for compiling and dynamically updating a collection of frequently asked questions
CN107357789B (zh) * 2017-07-14 2020-10-02 哈尔滨工业大学 融合多语编码信息的神经机器翻译方法
CN107977361B (zh) * 2017-12-06 2021-05-18 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN108763444B (zh) * 2018-05-25 2021-02-05 杭州一知智能科技有限公司 利用分层编码解码器网络机制来解决视频问答的方法
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法

Also Published As

Publication number Publication date
CN110377711A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
CN110377711B (zh) 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN111368565B (zh) 文本翻译方法、装置、存储介质和计算机设备
Chen et al. Efficient approximation of deep relu networks for functions on low dimensional manifolds
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
CN111243579B (zh) 一种时域单通道多说话人语音识别方法与系统
CN108829756B (zh) 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN107798385B (zh) 基于块张量分解的循环神经网络稀疏连接方法
CN109829172B (zh) 一种基于神经翻译的双向解码自动语法改错模型
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN110570845B (zh) 一种基于域不变特征的语音识别方法
CN110210043A (zh) 文本翻译方法、装置、电子设备及可读存储介质
CN112015868A (zh) 基于知识图谱补全的问答方法
CN109857909A (zh) 多粒度卷积自注意力上下文网络解决视频对话任务的方法
CN106933785A (zh) 一种基于递归神经网络的摘要生成方法
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及系统
CN110442880A (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN110263143A (zh) 提高相关性的神经问题生成方法
CN111008302B (zh) 一种利用基于图论的多重交互网络机制解决视频问答问题的方法
CN113436224B (zh) 一种基于显式构图规则建模的智能图像裁剪方法及装置
CN113268565B (zh) 一种基于概念文本的词向量快速生成方法和装置
CN112966096A (zh) 一种基于多任务学习的云服务发现方法
CN109918484B (zh) 对话生成方法和装置
CN111783430A (zh) 句对匹配率的确定方法、装置、计算机设备和存储介质
CN109543724B (zh) 一种多层鉴别卷积稀疏编码学习方法
CN114239559B (zh) 文本纠错和文本纠错模型的生成方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant