CN109902164B - 利用卷积双向自注意网络解决开放长格式视频问答的方法 - Google Patents
利用卷积双向自注意网络解决开放长格式视频问答的方法 Download PDFInfo
- Publication number
- CN109902164B CN109902164B CN201910167951.0A CN201910167951A CN109902164B CN 109902164 B CN109902164 B CN 109902164B CN 201910167951 A CN201910167951 A CN 201910167951A CN 109902164 B CN109902164 B CN 109902164B
- Authority
- CN
- China
- Prior art keywords
- attention
- video
- expression
- convolution
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用卷积双向自注意网络解决开放长格式视频问答的方法,主要包括如下步骤:1)设计一种卷积双向自注意网络模型来获取开放长格式视频问答的相关答案;2)训练得到最终的卷积双向自注意网络模型,利用该模型生成长格式视频问答任务的答案。相比于一般的视频问答任务解决方案,本发明利用了卷积自注意力机制,能够更好地完成开放长格式视频问答任务。本发明在开放长格式视频问答任务中所取得的效果相比于传统的方法更好。
Description
技术领域
本发明涉及开放长格式视频问答任务,尤其涉及一种利用卷积双向自注意网络解决开放长格式视频问答的方法。
背景技术
开放长格式视频问答任务是一项十分有挑战性的任务,目前吸引了很多人的关注。在该任务中需要系统针对于某个特定视频,回答用户提出的问题,并且用户的提问对象一般是较长的视频,用户提出的问题也是较长的自然语言文本。目前开放长格式视频问答任务的研究仍处于探索阶段。对于开放长格式视频问答任务的研究可以应用于众多领域之中。
目前已有的视频问答任务解决方法一般是关注解决短格式视频问答任务,对于开放长格式视频问答任务关注较少。传统的短格式视频问答任务解决方法,主要是利用多模态循环编解码器网络。这种方法由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好。
为了解决上述问题,本发明利用卷积双向自注意网络来解决开放长格式视频问答任务,提高开放长格式视频问答任务形成答案文本的准确性。
发明内容
本发明的目的在于解决现有技术中的问题,为了克服现有技术由于缺乏对长格式视频内容中长格式语义依赖关系的建模,对开放长格式视频问答任务的解决效果不好的问题,本发明提供一种利用卷积双向自注意网络解决开放长格式视频问答的方法。本发明所采用的具体技术方案是:
利用卷积双向自注意网络解决开放长格式视频问答的方法,包含如下步骤:
1.设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达。
2.设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达。
3.设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2获取的最终多流视频语义表达,得到开放长格式视频问答的结果。
上述步骤可具体采用如下实现方式:
对于输入堆叠卷积序列模型的序列,需要与位置时间信号相加,获得带有位置信息的输入序列,位置时间信号计算方法如下列公式所示,
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第 t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度。
对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet 网络获取视频中的帧表达特征v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数。将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达 v={v1',v2',...,vn'}。
对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达q=(q1,q2,...,qr),其中r代表问题中含有的单词个数。将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'}。
D=S·ST
设计一种卷积多步骤注意力解码器网络模型,该卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,其中,第z 个卷积注意力序列层的输入为序列表达利用如下公式计算得到第z个卷积注意力序列层中卷积层的输出
利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达hQ,利用得到的第z个卷积注意力序列层中卷积层的输出平均池化操作后得到全局问题表达hQ与最终多流视频语义表达按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出
按照如下公式作为整个模型的训练函数,训练获得最终的卷积双向自注意网络,
利用训练得到的卷积双向自注意网络,输入开放长格式视频问答任务中的视频及问题,可以获得开放长格式视频问答任务的预测答案。
附图说明
图1是根据本发明的一实施例的用于解决开放长格式视频问答任务的卷积双向自注意网络的整体示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步阐述和说明。
如图1所示,本发明利用卷积双向自注意网络解决开放长格式视频问答的方法包括如下步骤:
1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;
2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;
3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达,得到开放长格式视频问答的结果。
所述步骤1),其具体步骤为:
对于输入堆叠卷积序列模型的序列,需要与位置时间信号相加,获得带有位置信息的输入序列,位置时间信号计算方法如下列公式所示,
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第 t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度。
对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet 网络获取视频中的帧表达特征v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数。将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达 v={v1',v2',...,vn'}。
对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达q=(q1,q2,...,qr),其中r代表问题中含有的单词个数。将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'}。
所述步骤2),其具体步骤为:
D=S·ST
所述步骤3),其具体步骤为:
设计一种卷积多步骤注意力解码器网络模型,该卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,其中,第z 个卷积注意力序列层的输入为序列表达利用如下公式计算得到第z个卷积注意力序列层中卷积层的输出
利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达hQ,利用得到的第z个卷积注意力序列层中卷积层的输出平均池化操作后得到全局问题表达hQ与最终多流视频语义表达按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出
按照如下公式作为整个模型的训练函数,训练获得最终的卷积双向自注意网络,
利用训练得到的卷积双向自注意网络,输入开放长格式视频问答任务中的视频及问题,可以获得开放长格式视频问答任务的预测答案。
下面将上述方法应用于下列实施例中,以体现本发明的技术效果,实施例中具体步骤不再赘述。
实施例
本发明在ActivityNet实验数据集上进行实验。ActivityNet实验数据集的问题被分为“对象(object)”、“数字(number)”、“颜色(color)”、“地点(location)”、“动作(action)”五类,为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,对每种问题分别采用了准确度(Accuracy),Wu-Palmer相似性@0.9 (WUPS@0.9),Wu-Palmer相似性@0.0(WUPS@0.0)方法来对本发明的效果进行评价。按照具体实施方式中描述的步骤,所得的实验结果如表1-3所示,本方法表示为CBSA:
表1本发明针对于准确度(Accuracy)的测试结果
表2本发明针对于Wu-Palmer相似性@0.9(WUPS@0.9)的测试结果
表3本发明针对于Wu-Palmer相似性@0.0(WUPS@0.0)的测试结果
Claims (4)
1.利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,包括如下步骤:
1)设计一种堆叠卷积序列模型,利用该堆叠卷积序列模型获得帧级别的视频语义表达与单词级别的问题语义表达;
对于输入堆叠卷积序列模型的序列,与位置时间信号相加,获得带有位置信息的输入序列;对于开放长格式视频问答任务的视频帧,利用训练好的ConvNet网络获取视频中的帧表达特征以及带有位置信息的视频帧表达;对于开放长格式视频问答任务的问题文本,输入到文本编码网络中,获取单词级别的问题表达以及带有位置信息的问题文本表达;将获得的带有位置信息的视频帧表达输入到L层的堆叠卷积序列模型中,上一层堆叠卷积序列模型的输出作为下一层堆叠卷积序列模型的输入,获得帧级别的视频语义表达;将获得的带有位置信息的问题文本表达输入到K层堆叠卷积序列模型中,上一层堆叠卷积序列模型的输出作为下一层堆叠的卷积序列模型的输入,获得单词级别的问题语义表达;
2)设计一种双向问题自注意力模型,利用该双向问题自注意力模型结合步骤1)中获取的帧级别的视频语义表达与单词级别的问题语义表达,获取最终多流视频语义表达;
给定计算方式,利用得到的帧级别的视频语义表达与单词级别的问题语义表达计算得到视频问题注意力矩阵,并进一步获取正向自注意力分数矩阵和负向注意力分数矩阵,通过给定计算方式基于视频每一帧的正向自注意力表达、视频每一帧的负向注意力表达与帧级别的视频语义表达获得最终多流视频语义表达;
3)设计卷积多步骤注意力解码器网络模型,利用该卷积多步骤注意力解码器网络模型结合步骤2)获取的最终多流视频语义表达,得到开放长格式视频问答的结果;
其中卷积多步骤注意力解码器网络模型由Z个卷积注意力序列层堆叠而成,利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达,利用得到的第z个卷积注意力序列层中卷积层的输出、平均池化操作后得到全局问题表达与最终多流视频语义表达,按照设定公式计算得到第z个卷积注意力序列层中注意力层的输出,经过Z个卷积注意力序列层堆叠而成的卷积多步骤注意力解码器网络模型,得到卷积多步骤注意力解码器网络模型的输出,按照设定公式计算得到所预测答案每个步骤的单词输出,按照设定公式作为整个模型的训练函数,训练得到卷积双向自注意网络。
2.根据权利要求1所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤1)具体为:
位置时间信号计算方法如下列公式所示,
其中,t代表计算位置时间信号中的第t个元素,i代表位置时间信号中的第t个元素的维度索引,timing(t,2i)代表位置时间信号中的第t个元素的偶数位置2i取值的计算取值方法,timing(t,2i+1)代表位置时间信号中的第t个元素的奇数位置2i+1取值的计算取值方法,d代表位置时间信号中的每个位置元素的维度;
帧表达特征为v={v1,v2,...,vn},其中n代表视频中含有的视频帧个数;将获取的视频中的帧表达特征v={v1,v2,...,vn}与计算得到的视频元素位置时间信号相加,获得带有位置信息的视频帧表达v={v1',v2',...,vn'};
单词级别的问题表达为q=(q1,q2,...,qr),其中r代表问题中含有的单词个数;将获取的单词级别的问题表达q=(q1,q2,...,qr)与计算得到的问题文本元素位置时间信号相加,获得带有位置信息的问题文本表达q={q1',q2',...,qn'};
3.根据权利要求2所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤2)具体为:
D=S·ST
4.根据权利要求3所述的利用卷积双向自注意网络解决开放长格式视频问答的方法,其特征在于,所述步骤3)具体为:
利用得到的单词级别的问题语义表达进行平均池化操作后得到全局问题表达hQ,利用得到的第z个卷积注意力序列层中卷积层的输出平均池化操作后得到全局问题表达hQ与最终多流视频语义表达按照如下公式计算得到第z个卷积注意力序列层中注意力层的输出
按照如下公式作为整个模型的训练函数,训练获得最终的卷积双向自注意网络,
利用训练得到的卷积双向自注意网络,输入开放长格式视频问答任务中的视频及问题,获得开放长格式视频问答任务的预测答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167951.0A CN109902164B (zh) | 2019-03-06 | 2019-03-06 | 利用卷积双向自注意网络解决开放长格式视频问答的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910167951.0A CN109902164B (zh) | 2019-03-06 | 2019-03-06 | 利用卷积双向自注意网络解决开放长格式视频问答的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902164A CN109902164A (zh) | 2019-06-18 |
CN109902164B true CN109902164B (zh) | 2020-12-18 |
Family
ID=66946472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910167951.0A Active CN109902164B (zh) | 2019-03-06 | 2019-03-06 | 利用卷积双向自注意网络解决开放长格式视频问答的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902164B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377711B (zh) * | 2019-07-01 | 2022-04-01 | 浙江大学 | 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法 |
CN110427490B (zh) * | 2019-07-03 | 2021-11-09 | 华中科技大学 | 一种基于自注意力机制的情感对话生成方法与装置 |
CN110457450B (zh) * | 2019-07-05 | 2023-12-22 | 平安科技(深圳)有限公司 | 基于神经网络模型的答案生成方法及相关设备 |
CN110378269A (zh) * | 2019-07-10 | 2019-10-25 | 浙江大学 | 通过影像查询定位视频中未预习的活动的方法 |
CN110516791B (zh) * | 2019-08-20 | 2022-04-22 | 北京影谱科技股份有限公司 | 一种基于多重注意力的视觉问答方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN108549658A (zh) * | 2018-03-12 | 2018-09-18 | 浙江大学 | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9965705B2 (en) * | 2015-11-03 | 2018-05-08 | Baidu Usa Llc | Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering |
US11409791B2 (en) * | 2016-06-10 | 2022-08-09 | Disney Enterprises, Inc. | Joint heterogeneous language-vision embeddings for video tagging and search |
CN107463609B (zh) * | 2017-06-27 | 2020-06-19 | 浙江大学 | 一种使用分层时空注意力编解码器网络机制解决视频问答的方法 |
CN108829756B (zh) * | 2018-05-25 | 2021-10-22 | 杭州一知智能科技有限公司 | 一种利用分层注意力上下文网络解决多轮视频问答的方法 |
CN108763444B (zh) * | 2018-05-25 | 2021-02-05 | 杭州一知智能科技有限公司 | 利用分层编码解码器网络机制来解决视频问答的方法 |
-
2019
- 2019-03-06 CN CN201910167951.0A patent/CN109902164B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766447A (zh) * | 2017-09-25 | 2018-03-06 | 浙江大学 | 一种使用多层注意力网络机制解决视频问答的方法 |
CN107818306A (zh) * | 2017-10-31 | 2018-03-20 | 天津大学 | 一种基于注意力模型的视频问答方法 |
CN108549658A (zh) * | 2018-03-12 | 2018-09-18 | 浙江大学 | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 |
Non-Patent Citations (1)
Title |
---|
"Open-Ended Long-Form Video Qestion Aanswering via adaptive hierarchical Reinforced networks";Zhou Zhao,Zhu Zhang,et al.;《Proceedings of the Twenty-Seventh International Joint Coference on Artificial Intelligence, IJCAI2018》;20180719;第3683页-3689页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109902164A (zh) | 2019-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902164B (zh) | 利用卷积双向自注意网络解决开放长格式视频问答的方法 | |
CN109766427B (zh) | 一种基于协同注意力的虚拟学习环境智能问答方法 | |
CN108628935B (zh) | 一种基于端到端记忆网络的问答方法 | |
US10460039B2 (en) | Method for controlling identification and identification control apparatus | |
CN110489567B (zh) | 一种基于跨网络特征映射的节点信息获取方法及其装置 | |
CN109829049B (zh) | 利用知识库渐进时空注意力网络解决视频问答任务的方法 | |
CN108304587B (zh) | 一种社区问答平台回答排序方法 | |
CN111125333B (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN111400461B (zh) | 智能客服问题匹配方法及装置 | |
CN112948558B (zh) | 面向开放域对话系统的上下文增强的问题生成方法及装置 | |
CN115510814B (zh) | 一种基于双重规划的篇章级复杂问题生成方法 | |
CN113239169A (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN113297364A (zh) | 一种面向对话系统中的自然语言理解方法及装置 | |
CN109637527A (zh) | 对话语句的语义解析方法及系统 | |
CN110990628A (zh) | 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法 | |
CN112612881A (zh) | 基于Transformer的中文智能对话方法 | |
CN112560502A (zh) | 一种语义相似度匹配方法、装置及存储介质 | |
CN115455985A (zh) | 一种基于机器阅读理解的自然语言系统的处理方法 | |
CN116821291A (zh) | 基于知识图谱嵌入与语言模型交替学习的问答方法及系统 | |
CN109840506B (zh) | 利用结合关系互动的视频转换器解决视频问答任务的方法 | |
CN113010655A (zh) | 一种机器阅读理解的回答与干扰项生成方法、装置 | |
CN110826341A (zh) | 一种基于seq2seq模型的语义相似度计算方法 | |
CN108959467B (zh) | 一种基于强化学习的问句和答案句相关度的计算方法 | |
CN115905852A (zh) | 基于预训练提示的故事生成方法、系统、存储介质和终端 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |