CN114936297B - 一种基于先验知识和对象敏感的视频问答方法 - Google Patents

一种基于先验知识和对象敏感的视频问答方法 Download PDF

Info

Publication number
CN114936297B
CN114936297B CN202210661707.1A CN202210661707A CN114936297B CN 114936297 B CN114936297 B CN 114936297B CN 202210661707 A CN202210661707 A CN 202210661707A CN 114936297 B CN114936297 B CN 114936297B
Authority
CN
China
Prior art keywords
knowledge
video
vector
features
appearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210661707.1A
Other languages
English (en)
Other versions
CN114936297A (zh
Inventor
许辉
曾鹏鹏
张浩楠
赵磊
宋井宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Artificial Intelligence Research Institute Yibin
Original Assignee
Sichuan Artificial Intelligence Research Institute Yibin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Artificial Intelligence Research Institute Yibin filed Critical Sichuan Artificial Intelligence Research Institute Yibin
Priority to CN202210661707.1A priority Critical patent/CN114936297B/zh
Publication of CN114936297A publication Critical patent/CN114936297A/zh
Application granted granted Critical
Publication of CN114936297B publication Critical patent/CN114936297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于先验知识和对象敏感的视频问答方法,首先提出了一种新的先验知识探索方式,即先验知识探索网络PKE,它以信息检索的方式引入了先验知识,以促进视频问答模型的推理能力;同时,PKE还可以通过将检索到的句子作为推理的证据来提供额外的可解释性。本发明还提出了一种新的对象敏感表示学习范式,即对象敏感表征网络ORL,它探索了跨空间和时间域的语义丰富的对象表示;该范式充分考虑了结构化的视觉信息,更符合人类注意机制的本质。本发明解决了传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致的视频分析推理能力差、答案预测不准确等问题。

Description

一种基于先验知识和对象敏感的视频问答方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于先验知识和对象敏感的视频问答方法的设计。
背景技术
近年来,随着深度神经网络的快速发展和图像文本等多媒体数据的爆炸式增长,图像描述、图文匹配等多模态技术已经日趋成熟,并被广泛应用于各个领域。但是,相较于静态的图像数据,视频数据因其存在大量时间线索和具备丰富外观和运动信息等特点,使得基于视频的多模态技术存在难以处理密集的时序信息,缺乏语义推理能力等问题,而未能得到广泛的支持和应用。
其中,视频问答任务是一种功能性较强,应用前景广泛的视频多模态技术,它利用用户提出的一段文本问题,对视频内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出正确的答案。由于视频问答技术满足了“用户提问,模型回答”的人机交互范式,因此该研究有助于在线教育、情景分析、视觉障碍辅助等领域的发展。
近年来,学习视频问答技术的一种主流解决方案是注意力机制,它旨在发现那些关键的视觉内容,以提高答案的预测准确度,例如位置自注意力、层级注意力、基于图网络的注意力等。视频问答的性能已经通过各种功能的注意力机制得到了显著的提高,然而,基于注意力的方法存在两个问题。首先,这些方法局限于探索视频和问题本身的信息,而未考虑先验性的知识信息,这与人类认知过程的本质并不一致。具体地,当被问及视频内容相关的问题时,人类会习惯性地从大脑中检索积累的经验性信息,作为推理过程中的指导;然而目前的视频问答方法并未涉及这一论点,造成模型认知能力不足,生成答案过于简单等问题。其次,基于注意力的方法主要关注那些问题引导下重要的视频外观或动作特征,而未能捕捉到帧内部各种对象区域的特定信息,导致这些方法忽略了结构化视频信息,对视频中的物体不敏感。实际上,与对象相关的问题广泛分布在视频问答数据集当中。在回答与物体相关的问题时,人类通常会关注视频中那些显著性物体区域,而不是视频整体。
发明内容
本发明的目的是为了解决传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致视频分析推理能力差的问题,提出了一种基于先验知识和对象敏感的视频问答方法。
本发明的技术方案为:一种基于先验知识和对象敏感的视频问答方法,包括以下步骤:
S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识。
S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量。
S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量。
S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失。
进一步地,步骤S1包括以下分步骤:
S11、将视频外观特征
Figure BDA0003688608760000021
视频运动特征
Figure BDA0003688608760000022
问题向量q和文本语料库输入先验知识探索网络PKE中;其中
Figure BDA0003688608760000023
表示视频外观特征Va中第l个特征向量,L表示视频外观特征Va中的特征向量总数,
Figure BDA0003688608760000024
表示视频运动特征Vm中第j个特征向量,C表示视频运动特征Vm中的特征向量总数,L≥C。
S12、在先验知识探索网络PKE中采用自注意力机制的方法,分别对视频外观特征Va和视频运动特征Vm进行聚合操作,剔除其中包含的冗余信息,得到增强后的全局外观特征
Figure BDA0003688608760000025
和全局运动特征
Figure BDA0003688608760000026
Figure BDA0003688608760000027
Figure BDA0003688608760000028
Figure BDA0003688608760000029
Figure BDA00036886087600000210
其中Agg(·)表示聚合操作,αl表示
Figure BDA00036886087600000211
的注意力分数,αj表示
Figure BDA00036886087600000212
的注意力分数,W1为可学习的参数。
S13、在先验知识探索网络PKE中构建一个先验知识检索器,将全局外观特征
Figure BDA00036886087600000213
全局运动特征
Figure BDA00036886087600000214
和问题向量q进行相加取均值,得到检索键值x:
Figure BDA00036886087600000215
S14、计算检索键值x与文本语料库中所有句子的余弦相似度:
sim(s,x)=sTx
其中sim(·)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置。
S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,ztopk},并将其作为先验知识。
进一步地,步骤S2具体为:
在先验知识探索网络PKE中,基于问题引导的注意力模块,利用乘法注意力机制将先验知识Z与问题向量q进行加权融合,得到知识感知的表征向量
Figure BDA0003688608760000031
Figure BDA0003688608760000032
Figure BDA0003688608760000033
Figure BDA0003688608760000034
其中FC(·)表示全连接层,[;]为特征拼接操作,
Figure BDA0003688608760000035
表示将topk个句子向量进行加权求和后得到的全局知识表征,βi为句子向量zi的注意力分数,
Figure BDA0003688608760000036
为哈达玛乘积,W2,W3,W4均为可学习参数。
进一步地,步骤S3包括以下分步骤:
S31、将知识感知的表征向量
Figure BDA0003688608760000037
视频外观特征Va和视频运动特征Vm输入对象敏感表征网络ORL中。
S32、在对象敏感表征网络ORL中,通过知识引导的聚合模块使用注意力机制将知识感知的表征向量
Figure BDA0003688608760000038
别与视频外观特征Va和视频运动特征Vm进行模态交互,得到知识感知的外观特征
Figure BDA0003688608760000039
和知识感知的动作特征
Figure BDA00036886087600000310
Figure BDA00036886087600000311
Figure BDA00036886087600000312
Figure BDA00036886087600000313
Figure BDA00036886087600000314
Figure BDA00036886087600000315
Figure BDA00036886087600000316
其中ATT(·)表示模态交互,
Figure BDA00036886087600000317
表示知识感知的外观特征
Figure BDA00036886087600000318
中第l个特征向量,
Figure BDA00036886087600000319
表示每一帧外观特征对先验知识的权重值,
Figure BDA0003688608760000041
表示知识感知的动作特征
Figure BDA0003688608760000042
中第j个特征向量,
Figure BDA0003688608760000043
表示每一帧运动特征对先验知识的权重值,W5,W6,W7均为可学习参数。
S33、在对象敏感表征网络ORL中,通过物体敏感的注意力模块将原始对象特征
Figure BDA0003688608760000044
分别与知识感知的外观特征
Figure BDA0003688608760000045
和知识感知的动作特征
Figure BDA0003688608760000046
进行模态交互,得到基于外观的对象特征
Figure BDA0003688608760000047
和基于运动的对象特征
Figure BDA0003688608760000048
Figure BDA0003688608760000049
Figure BDA00036886087600000410
其中ol表示始对象特征O的第l个特征向量,U(·)表示物体敏感的注意力机制。
S34、在对象敏感表征网络ORL中,通过知识引导的注意力模块将知识感知的表征向量
Figure BDA00036886087600000411
分别与基于外观的对象特征
Figure BDA00036886087600000412
和基于运动的对象特征
Figure BDA00036886087600000413
进行融合,再分别与全局外观特征
Figure BDA00036886087600000414
和全局运动特征
Figure BDA00036886087600000415
进行特征拼接,得到对象敏感的表征向量
Figure BDA00036886087600000416
Figure BDA00036886087600000417
Figure BDA00036886087600000418
Figure BDA00036886087600000419
其中F(·)表示知识引导的注意力机制。
进一步地,步骤S4中得到的候选答案的概率分布为:
Figure BDA00036886087600000420
其中p表示问题向量q的候选答案概率。
进一步地,步骤S4中分类损失的计算公式为:
Figure BDA00036886087600000421
其中Lcls表示分类损失,pi表示分类器对第i个答案的概率值,yi表示第i个答案的真实标签,||表示答案候选集中答案的数量。
本发明的有益效果是:
(1)本发明首次提出了一种新的先验知识探索方式,即先验知识探索网络PKE,它以信息检索的方式引入了先验知识,以促进视频问答模型的推理能力。同时,PKE还可以通过将检索到的句子作为推理的证据来提供额外的可解释性。
(2)本发明提出了一种新的对象敏感表示学习范式,即对象敏感表征网络ORL,它探索了跨空间和时间域的语义丰富的对象表示;该范式充分考虑了结构化的视觉信息,更符合人类注意机制的本质。
附图说明
图1所示为本发明实施例提供的一种基于先验知识和对象敏感的视频问答方法流程图。
图2所示为本发明实施例提供的一种基于先验知识和对象敏感的视频问答方法框架图。
图3所示为本发明实施例提供的现有视频问答方法与本发明方法的结果对比示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于先验知识和对象敏感的视频问答方法,如图1和图2共同所示,包括以下步骤S1~S4:
S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识。
如图2所示,步骤S1包括以下分步骤S11~S15:
S11、将视频外观特征
Figure BDA0003688608760000051
视频运动特征
Figure BDA0003688608760000052
问题向量q和文本语料库输入先验知识探索网络PKE中;其中
Figure BDA0003688608760000053
表示视频外观特征Va中第l个特征向量,L表示视频外观特征Va中的特征向量总数,
Figure BDA0003688608760000054
表示视频运动特征Vm中第j个特征向量,C表示视频运动特征Vm中的特征向量总数,L≥C。
S12、在先验知识探索网络PKE中采用自注意力机制的方法,分别对视频外观特征Va和视频运动特征Vm进行聚合操作,剔除其中包含的冗余信息,得到增强后的全局外观特征
Figure BDA0003688608760000055
和全局运动特征
Figure BDA0003688608760000056
Figure BDA0003688608760000057
Figure BDA0003688608760000058
Figure BDA0003688608760000059
Figure BDA00036886087600000510
其中Agg(·)表示聚合操作,αl表示
Figure BDA00036886087600000511
的注意力分数,αj表示
Figure BDA00036886087600000512
的注意力分数,W1为可学习的参数。
S13、在先验知识探索网络PKE中构建一个先验知识检索器,将全局外观特征
Figure BDA00036886087600000513
全局运动特征
Figure BDA00036886087600000514
和问题向量q进行相加取均值,得到检索键值x:
Figure BDA0003688608760000061
S14、计算检索键值x与文本语料库中所有句子的余弦相似度:
sim(s,x)=sTx
其中sim(·)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置。
S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,ztopk},并将其作为先验知识。
S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量。
如图2所示,本发明实施例中,在先验知识探索网络PKE中,基于问题引导的注意力模块,利用乘法注意力机制将先验知识Z与问题向量q进行加权融合,得到知识感知的表征向量
Figure BDA0003688608760000062
Figure BDA0003688608760000063
Figure BDA0003688608760000064
Figure BDA0003688608760000065
其中FC(·)表示全连接层,[;]为特征拼接操作,
Figure BDA0003688608760000066
表示将topk个句子向量进行加权求和后得到的全局知识表征,βi为句子向量zi的注意力分数,
Figure BDA0003688608760000067
为哈达玛乘积,W2,W3,W4均为可学习参数。
S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量。
如图2所示,步骤S3包括以下分步骤S31~S34:
S31、将知识感知的表征向量
Figure BDA0003688608760000068
视频外观特征Va和视频运动特征Vm输入对象敏感表征网络ORL中。
S32、在对象敏感表征网络ORL中,通过知识引导的聚合模块使用注意力机制将知识感知的表征向量
Figure BDA0003688608760000069
分别与视频外观特征Va和视频运动特征Vm进行模态交互,得到知识感知的外观特征
Figure BDA00036886087600000610
和知识感知的动作特征
Figure BDA00036886087600000611
Figure BDA00036886087600000612
Figure BDA00036886087600000613
Figure BDA0003688608760000071
Figure BDA0003688608760000072
Figure BDA0003688608760000073
Figure BDA0003688608760000074
其中ATT(·)表示模态交互,
Figure BDA0003688608760000075
表示知识感知的外观特征
Figure BDA0003688608760000076
中第l个特征向量,
Figure BDA0003688608760000077
表示每一帧外观特征对先验知识的权重值,
Figure BDA0003688608760000078
表示知识感知的动作特征
Figure BDA0003688608760000079
中第j个特征向量,
Figure BDA00036886087600000710
表示每一帧运动特征对先验知识的权重值,W5,W6,W7均为可学习参数。
S33、在对象敏感表征网络ORL中,通过物体敏感的注意力模块将原始对象特征
Figure BDA00036886087600000711
分别与知识感知的外观特征
Figure BDA00036886087600000712
和知识感知的动作特征
Figure BDA00036886087600000713
进行模态交互,得到基于外观的对象特征
Figure BDA00036886087600000714
和基于运动的对象特征
Figure BDA00036886087600000715
Figure BDA00036886087600000716
Figure BDA00036886087600000717
其中ol表示始对象特征O的第l个特征向量,U(·)表示物体敏感的注意力机制。
S34、在对象敏感表征网络ORL中,通过知识引导的注意力模块将知识感知的表征向量
Figure BDA00036886087600000718
分别与基于外观的对象特征
Figure BDA00036886087600000719
和基于运动的对象特征
Figure BDA00036886087600000720
进行融合,再分别与全局外观特征
Figure BDA00036886087600000721
和全局运动特征
Figure BDA00036886087600000722
进行特征拼接,得到对象敏感的表征向量
Figure BDA00036886087600000723
Figure BDA00036886087600000724
Figure BDA00036886087600000725
Figure BDA00036886087600000726
其中F(·)表示知识引导的注意力机制。
S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失。
本发明实施例中,候选答案的概率分布为:
Figure BDA00036886087600000727
其中p表示问题向量q的候选答案概率。
分类损失的计算公式为:
Figure BDA00036886087600000728
其中Lcls表示分类损失,pi表示分类器对第i个答案的概率值,yi表示第i个答案的真实标签,||表示答案候选集中答案的数量。
下面结合两个具体实验例对本发明的技术效果作进一步描述。
实验例一:
设置实验条件为:系统:Ubuntu 20.04,软件:Python 3.6,处理器:Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz×2,内存:256GB。
实验内容:利用目前已有的视频问答方法和本发明提供的基于先验知识和对象敏感的视频问答方法进行对比,将原始视频特征和对应的问题特征作为输入,给出对应的答案预测。进一步地,本发明提供的基于先验知识和对象敏感的视频问答方法为每个样例给出从语料库中检索得到的top3描述句子,结果如附图3所示。
实验结果分析:从图3可以看出,本发明提供的基于先验知识和对象敏感的视频问答方法预测的答案相比于现有视频问答方法更加准确,且更加符合视频中物体的语义内容。进一步地,从检索到的前3个句子可视化效果来看,本发明提出的PKE网络可以为模型提供充足的先验知识信息,来解释模型背后的推理过程,从而进一步证明了PKE的有效性和可解释性。
实验例二:
实验条件:系统:Ubuntu 20.04,软件:Python 3.6,处理器:Intel(R)Xeon(R)CPUE5-2678v3@2.50GHz×2,内存:256GB。
测试说明:实验中所使用的数据集都是以视频文本对的形式存在的,即一段视频对应若干个问题。具体地,依次使用每种算法对数据集中的训练集进行训练。训练完毕后,分别用每种算法对该数据集测试集上真实视频和问题进行预测,得到预测答案。
在实验中将测试集随机划分为若干个批次,每个批次包括了64个视频问题对(v,q)。
(1)考察预测的总体预测准确度:
对于每种算法,按批次将视频问题对送入模型进行训练,在测试集上计算模型对于每个样本的输出和真实标签是否一致,统计所有测试集样本,得到总体模型准确度ALL。
(2)考察具体问题类型的预测准确度:
数据集MSVD-QA和MSRVTT-QA中的问题类型分布包括5种:What,Who,How,When和Where。对于每种算法,分别统计5种问题类型的答案预测准确度。
(3)考察对于不同视频预测任务的预测准确度:
数据集TGIF-QA提供四种类型的任务:动作重复计数(Count)、帧内问答(FrameQA)、状态转换(Trans)以及重复动作(Action)。重复计数(Count)是一个开放任务,具体回答关于视频中一个动作的重复次数。帧内问答(FrameQA)的目标是在视频中找到一个能够回答问题的特定帧。状态转换(Trans)是一个多项选择任务,用于识别发生在另一个动作状态之前(或之后)的动作。重复动作(Action)被定义为一个识别在视频中的重复动作任务。以上四种任务的预测准确度计算均和(1)中所述一致。
表1
Figure BDA0003688608760000091
表2
Figure BDA0003688608760000092
表3
Figure BDA0003688608760000093
Figure BDA0003688608760000101
通过表1、表2和表3的数据分析对比,可以得知本发明提供的基于先验知识和对象敏感的视频问答方法预测答案的能力更优,这些结果验证了先验知识探索和对象敏感表示学习的有效性。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (3)

1.一种基于先验知识和对象敏感的视频问答方法,其特征在于,包括以下步骤:
S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识;
S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量;
S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量;
S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失;
所述步骤S1包括以下分步骤:
S11、将视频外观特征
Figure FDA0004055166820000011
视频运动特征
Figure FDA0004055166820000012
问题向量q和文本语料库输入先验知识探索网络PKE中;其中
Figure FDA0004055166820000013
表示视频外观特征Va中第l个特征向量,L表示视频外观特征Va中的特征向量总数,
Figure FDA0004055166820000014
表示视频运动特征Vm中第j个特征向量,C表示视频运动特征Vm中的特征向量总数,L≥C;
S12、在先验知识探索网络PKE中采用自注意力机制的方法,分别对视频外观特征Va和视频运动特征Vm进行聚合操作,剔除其中包含的冗余信息,得到增强后的全局外观特征
Figure FDA0004055166820000015
和全局运动特征
Figure FDA0004055166820000016
Figure FDA0004055166820000017
Figure FDA0004055166820000018
Figure FDA0004055166820000019
Figure FDA00040551668200000110
其中Agg(·)表示聚合操作,αl表示
Figure FDA00040551668200000111
的注意力分数,αj表示
Figure FDA00040551668200000112
的注意力分数,W1为可学习的参数;
S13、在先验知识探索网络PKE中构建一个先验知识检索器,将全局外观特征
Figure FDA00040551668200000113
全局运动特征
Figure FDA00040551668200000114
和问题向量q进行相加取均值,得到检索键值x:
Figure FDA0004055166820000021
S14、计算检索键值x与文本语料库中所有句子的余弦相似度:
sim(,x)=sTx
其中sim(·)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置;
S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,topk},并将其作为先验知识;
所述步骤S2具体为:
在先验知识探索网络PKE中,基于问题引导的注意力模块,利用乘法注意力机制将先验知识Z与问题向量q进行加权融合,得到知识感知的表征向量
Figure FDA00040551668200000216
Figure FDA0004055166820000022
Figure FDA0004055166820000023
Figure FDA0004055166820000024
其中FC(·)表示全连接层,[;]为特征拼接操作,
Figure FDA0004055166820000025
表示将topk个句子向量进行加权求和后得到的全局知识表征,βi为句子向量zi的注意力分数,
Figure FDA0004055166820000026
为哈达玛乘积,W2,W3,W4均为可学习参数;
所述步骤S3包括以下分步骤:
S31、将知识感知的表征向量
Figure FDA0004055166820000027
视频外观特征Va和视频运动特征Vm输入对象敏感表征网络ORL中;
S32、在对象敏感表征网络ORL中,通过知识引导的聚合模块使用注意力机制将知识感知的表征向量
Figure FDA0004055166820000028
分别与视频外观特征Va和视频运动特征Vm进行模态交互,得到知识感知的外观特征
Figure FDA0004055166820000029
和知识感知的动作特征
Figure FDA00040551668200000210
Figure FDA00040551668200000211
Figure FDA00040551668200000212
Figure FDA00040551668200000213
Figure FDA00040551668200000214
Figure FDA00040551668200000215
Figure FDA0004055166820000031
其中ATT(·)表示模态交互,
Figure FDA0004055166820000032
表示知识感知的外观特征
Figure FDA0004055166820000033
中第l个特征向量,
Figure FDA0004055166820000034
表示每一帧外观特征对先验知识的权重值,
Figure FDA0004055166820000035
表示知识感知的动作特征
Figure FDA0004055166820000036
中第j个特征向量,
Figure FDA0004055166820000037
表示每一帧运动特征对先验知识的权重值,W5,W6,W7均为可学习参数;
S33、在对象敏感表征网络ORL中,通过物体敏感的注意力模块将原始对象特征
Figure FDA0004055166820000038
分别与知识感知的外观特征
Figure FDA0004055166820000039
和知识感知的动作特征
Figure FDA00040551668200000310
进行模态交互,得到基于外观的对象特征
Figure FDA00040551668200000311
和基于运动的对象特征
Figure FDA00040551668200000312
Figure FDA00040551668200000313
Figure FDA00040551668200000314
其中ol表示始对象特征O的第l个特征向量,U(·)表示物体敏感的注意力机制;
S34、在对象敏感表征网络ORL中,通过知识引导的注意力模块将知识感知的表征向量
Figure FDA00040551668200000315
分别与基于外观的对象特征
Figure FDA00040551668200000316
和基于运动的对象特征
Figure FDA00040551668200000317
进行融合,再分别与全局外观特征
Figure FDA00040551668200000318
和全局运动特征
Figure FDA00040551668200000319
进行特征拼接,得到对象敏感的表征向量
Figure FDA00040551668200000320
Figure FDA00040551668200000321
Figure FDA00040551668200000322
Figure FDA00040551668200000323
其中F(·)表示知识引导的注意力机制。
2.根据权利要求1所述的视频问答方法,其特征在于,所述步骤S4中得到的候选答案的概率分布为:
Figure FDA00040551668200000324
其中p表示问题向量q的候选答案概率。
3.根据权利要求1所述的视频问答方法,其特征在于,所述步骤S4中分类损失的计算公式为:
Figure FDA00040551668200000325
其中Lcls表示分类损失,pi表示分类器对第i个答案的概率值,yi表示第i个答案的真实标签,||表示答案候选集中答案的数量。
CN202210661707.1A 2022-06-10 2022-06-10 一种基于先验知识和对象敏感的视频问答方法 Active CN114936297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210661707.1A CN114936297B (zh) 2022-06-10 2022-06-10 一种基于先验知识和对象敏感的视频问答方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210661707.1A CN114936297B (zh) 2022-06-10 2022-06-10 一种基于先验知识和对象敏感的视频问答方法

Publications (2)

Publication Number Publication Date
CN114936297A CN114936297A (zh) 2022-08-23
CN114936297B true CN114936297B (zh) 2023-03-14

Family

ID=82865647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210661707.1A Active CN114936297B (zh) 2022-06-10 2022-06-10 一种基于先验知识和对象敏感的视频问答方法

Country Status (1)

Country Link
CN (1) CN114936297B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN114387537A (zh) * 2021-11-30 2022-04-22 河海大学 一种基于描述文本的视频问答方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020070923A1 (ja) * 2018-10-05 2020-04-09 日本電信電話株式会社 対話装置、その方法、およびプログラム
US11657094B2 (en) * 2019-06-28 2023-05-23 Meta Platforms Technologies, Llc Memory grounded conversational reasoning and question answering for assistant systems
US11244167B2 (en) * 2020-02-06 2022-02-08 Adobe Inc. Generating a response to a user query utilizing visual features of a video segment and a query-response-neural network
CN111143540B (zh) * 2020-04-03 2020-07-21 腾讯科技(深圳)有限公司 智能问答方法、装置、设备及存储介质
CN114120166B (zh) * 2021-10-14 2023-09-22 北京百度网讯科技有限公司 视频问答方法、装置、电子设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110704601A (zh) * 2019-10-11 2020-01-17 浙江大学 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN114387537A (zh) * 2021-11-30 2022-04-22 河海大学 一种基于描述文本的视频问答方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering;Jianyu Wang等;《IEEE Transactions on Multimedia(Volume:24)》;全文 *
视觉语义表示模型在视频问答中的研究与应用;王博;《中国优秀硕士学位论文全文数据库 信息科技辑》(第6期);全文 *

Also Published As

Publication number Publication date
CN114936297A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
Liu et al. Ekt: Exercise-aware knowledge tracing for student performance prediction
Yu et al. A joint sequence fusion model for video question answering and retrieval
Torabi et al. Learning language-visual embedding for movie understanding with natural-language
CN108664932B (zh) 一种基于多源信息融合的学习情感状态识别方法
CN114398961A (zh) 一种基于多模态深度特征融合的视觉问答方法及其模型
Li et al. A competence-aware curriculum for visual concepts learning via question answering
CN111783709B (zh) 针对教育视频的信息预测方法及装置
CN113011172B (zh) 文本处理方法、装置、计算机设备和存储介质
Tan et al. Drill-down: Interactive retrieval of complex scenes using natural language queries
Bucher et al. Semantic bottleneck for computer vision tasks
CN111460118B (zh) 一种人工智能冲突语义识别方法及装置
CN114519397B (zh) 基于对比学习的实体链接模型的训练方法、装置、设备
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN118051630A (zh) 一种基于多模态共识感知和动量对比的图文检索系统及其方法
Chen et al. Subjects and their objects: Localizing interactees for a person-centric view of importance
Yu et al. Action search by example using randomized visual vocabularies
CN114936297B (zh) 一种基于先验知识和对象敏感的视频问答方法
Perez-Martin et al. Semantic search of memes on twitter
CN113361615B (zh) 基于语义相关性的文本分类方法
Zhang et al. Next-ood: Overcoming dual multiple-choice vqa biases
Selvi et al. Sentimental analysis of movie reviews in Tamil text
Sankar Study of deep learning models on educational channel video from YouTube for classification of Hinglish text
Zhou et al. Deep explanatory polytomous item-response model for predicting idiosyncratic affective ratings
Ding Online and Offline Mixed Teaching Mode Based on Multimedia Computer‐Aided Music Lessons during the Epidemic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant