CN114936297B - 一种基于先验知识和对象敏感的视频问答方法 - Google Patents
一种基于先验知识和对象敏感的视频问答方法 Download PDFInfo
- Publication number
- CN114936297B CN114936297B CN202210661707.1A CN202210661707A CN114936297B CN 114936297 B CN114936297 B CN 114936297B CN 202210661707 A CN202210661707 A CN 202210661707A CN 114936297 B CN114936297 B CN 114936297B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- video
- vector
- features
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/48—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于先验知识和对象敏感的视频问答方法,首先提出了一种新的先验知识探索方式,即先验知识探索网络PKE,它以信息检索的方式引入了先验知识,以促进视频问答模型的推理能力;同时,PKE还可以通过将检索到的句子作为推理的证据来提供额外的可解释性。本发明还提出了一种新的对象敏感表示学习范式,即对象敏感表征网络ORL,它探索了跨空间和时间域的语义丰富的对象表示;该范式充分考虑了结构化的视觉信息,更符合人类注意机制的本质。本发明解决了传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致的视频分析推理能力差、答案预测不准确等问题。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于先验知识和对象敏感的视频问答方法的设计。
背景技术
近年来,随着深度神经网络的快速发展和图像文本等多媒体数据的爆炸式增长,图像描述、图文匹配等多模态技术已经日趋成熟,并被广泛应用于各个领域。但是,相较于静态的图像数据,视频数据因其存在大量时间线索和具备丰富外观和运动信息等特点,使得基于视频的多模态技术存在难以处理密集的时序信息,缺乏语义推理能力等问题,而未能得到广泛的支持和应用。
其中,视频问答任务是一种功能性较强,应用前景广泛的视频多模态技术,它利用用户提出的一段文本问题,对视频内容进行表征学习和逻辑推理,通过进一步完成文本和视觉模态信息之间的语义对齐,最终给出正确的答案。由于视频问答技术满足了“用户提问,模型回答”的人机交互范式,因此该研究有助于在线教育、情景分析、视觉障碍辅助等领域的发展。
近年来,学习视频问答技术的一种主流解决方案是注意力机制,它旨在发现那些关键的视觉内容,以提高答案的预测准确度,例如位置自注意力、层级注意力、基于图网络的注意力等。视频问答的性能已经通过各种功能的注意力机制得到了显著的提高,然而,基于注意力的方法存在两个问题。首先,这些方法局限于探索视频和问题本身的信息,而未考虑先验性的知识信息,这与人类认知过程的本质并不一致。具体地,当被问及视频内容相关的问题时,人类会习惯性地从大脑中检索积累的经验性信息,作为推理过程中的指导;然而目前的视频问答方法并未涉及这一论点,造成模型认知能力不足,生成答案过于简单等问题。其次,基于注意力的方法主要关注那些问题引导下重要的视频外观或动作特征,而未能捕捉到帧内部各种对象区域的特定信息,导致这些方法忽略了结构化视频信息,对视频中的物体不敏感。实际上,与对象相关的问题广泛分布在视频问答数据集当中。在回答与物体相关的问题时,人类通常会关注视频中那些显著性物体区域,而不是视频整体。
发明内容
本发明的目的是为了解决传统基于注意力的视频问答方法难以模拟人类认知推理、忽略结构化视觉信息导致视频分析推理能力差的问题,提出了一种基于先验知识和对象敏感的视频问答方法。
本发明的技术方案为:一种基于先验知识和对象敏感的视频问答方法,包括以下步骤:
S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识。
S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量。
S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量。
S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失。
进一步地,步骤S1包括以下分步骤:
S11、将视频外观特征视频运动特征问题向量q和文本语料库输入先验知识探索网络PKE中;其中表示视频外观特征Va中第l个特征向量,L表示视频外观特征Va中的特征向量总数,表示视频运动特征Vm中第j个特征向量,C表示视频运动特征Vm中的特征向量总数,L≥C。
S14、计算检索键值x与文本语料库中所有句子的余弦相似度:
sim(s,x)=sTx
其中sim(·)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置。
S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,ztopk},并将其作为先验知识。
进一步地,步骤S2具体为:
进一步地,步骤S3包括以下分步骤:
其中ATT(·)表示模态交互,表示知识感知的外观特征中第l个特征向量,表示每一帧外观特征对先验知识的权重值,表示知识感知的动作特征中第j个特征向量,表示每一帧运动特征对先验知识的权重值,W5,W6,W7均为可学习参数。
其中ol表示始对象特征O的第l个特征向量,U(·)表示物体敏感的注意力机制。
S34、在对象敏感表征网络ORL中,通过知识引导的注意力模块将知识感知的表征向量分别与基于外观的对象特征和基于运动的对象特征进行融合,再分别与全局外观特征和全局运动特征进行特征拼接,得到对象敏感的表征向量和
其中F(·)表示知识引导的注意力机制。
进一步地,步骤S4中得到的候选答案的概率分布为:
其中p表示问题向量q的候选答案概率。
进一步地,步骤S4中分类损失的计算公式为:
其中Lcls表示分类损失,pi表示分类器对第i个答案的概率值,yi表示第i个答案的真实标签,||表示答案候选集中答案的数量。
本发明的有益效果是:
(1)本发明首次提出了一种新的先验知识探索方式,即先验知识探索网络PKE,它以信息检索的方式引入了先验知识,以促进视频问答模型的推理能力。同时,PKE还可以通过将检索到的句子作为推理的证据来提供额外的可解释性。
(2)本发明提出了一种新的对象敏感表示学习范式,即对象敏感表征网络ORL,它探索了跨空间和时间域的语义丰富的对象表示;该范式充分考虑了结构化的视觉信息,更符合人类注意机制的本质。
附图说明
图1所示为本发明实施例提供的一种基于先验知识和对象敏感的视频问答方法流程图。
图2所示为本发明实施例提供的一种基于先验知识和对象敏感的视频问答方法框架图。
图3所示为本发明实施例提供的现有视频问答方法与本发明方法的结果对比示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于先验知识和对象敏感的视频问答方法,如图1和图2共同所示,包括以下步骤S1~S4:
S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识。
如图2所示,步骤S1包括以下分步骤S11~S15:
S11、将视频外观特征视频运动特征问题向量q和文本语料库输入先验知识探索网络PKE中;其中表示视频外观特征Va中第l个特征向量,L表示视频外观特征Va中的特征向量总数,表示视频运动特征Vm中第j个特征向量,C表示视频运动特征Vm中的特征向量总数,L≥C。
S14、计算检索键值x与文本语料库中所有句子的余弦相似度:
sim(s,x)=sTx
其中sim(·)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置。
S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,ztopk},并将其作为先验知识。
S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量。
S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量。
如图2所示,步骤S3包括以下分步骤S31~S34:
其中ATT(·)表示模态交互,表示知识感知的外观特征中第l个特征向量,表示每一帧外观特征对先验知识的权重值,表示知识感知的动作特征中第j个特征向量,表示每一帧运动特征对先验知识的权重值,W5,W6,W7均为可学习参数。
其中ol表示始对象特征O的第l个特征向量,U(·)表示物体敏感的注意力机制。
S34、在对象敏感表征网络ORL中,通过知识引导的注意力模块将知识感知的表征向量分别与基于外观的对象特征和基于运动的对象特征进行融合,再分别与全局外观特征和全局运动特征进行特征拼接,得到对象敏感的表征向量和
其中F(·)表示知识引导的注意力机制。
S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失。
本发明实施例中,候选答案的概率分布为:
其中p表示问题向量q的候选答案概率。
分类损失的计算公式为:
其中Lcls表示分类损失,pi表示分类器对第i个答案的概率值,yi表示第i个答案的真实标签,||表示答案候选集中答案的数量。
下面结合两个具体实验例对本发明的技术效果作进一步描述。
实验例一:
设置实验条件为:系统:Ubuntu 20.04,软件:Python 3.6,处理器:Intel(R)Xeon(R)CPU E5-2678 v3@2.50GHz×2,内存:256GB。
实验内容:利用目前已有的视频问答方法和本发明提供的基于先验知识和对象敏感的视频问答方法进行对比,将原始视频特征和对应的问题特征作为输入,给出对应的答案预测。进一步地,本发明提供的基于先验知识和对象敏感的视频问答方法为每个样例给出从语料库中检索得到的top3描述句子,结果如附图3所示。
实验结果分析:从图3可以看出,本发明提供的基于先验知识和对象敏感的视频问答方法预测的答案相比于现有视频问答方法更加准确,且更加符合视频中物体的语义内容。进一步地,从检索到的前3个句子可视化效果来看,本发明提出的PKE网络可以为模型提供充足的先验知识信息,来解释模型背后的推理过程,从而进一步证明了PKE的有效性和可解释性。
实验例二:
实验条件:系统:Ubuntu 20.04,软件:Python 3.6,处理器:Intel(R)Xeon(R)CPUE5-2678v3@2.50GHz×2,内存:256GB。
测试说明:实验中所使用的数据集都是以视频文本对的形式存在的,即一段视频对应若干个问题。具体地,依次使用每种算法对数据集中的训练集进行训练。训练完毕后,分别用每种算法对该数据集测试集上真实视频和问题进行预测,得到预测答案。
在实验中将测试集随机划分为若干个批次,每个批次包括了64个视频问题对(v,q)。
(1)考察预测的总体预测准确度:
对于每种算法,按批次将视频问题对送入模型进行训练,在测试集上计算模型对于每个样本的输出和真实标签是否一致,统计所有测试集样本,得到总体模型准确度ALL。
(2)考察具体问题类型的预测准确度:
数据集MSVD-QA和MSRVTT-QA中的问题类型分布包括5种:What,Who,How,When和Where。对于每种算法,分别统计5种问题类型的答案预测准确度。
(3)考察对于不同视频预测任务的预测准确度:
数据集TGIF-QA提供四种类型的任务:动作重复计数(Count)、帧内问答(FrameQA)、状态转换(Trans)以及重复动作(Action)。重复计数(Count)是一个开放任务,具体回答关于视频中一个动作的重复次数。帧内问答(FrameQA)的目标是在视频中找到一个能够回答问题的特定帧。状态转换(Trans)是一个多项选择任务,用于识别发生在另一个动作状态之前(或之后)的动作。重复动作(Action)被定义为一个识别在视频中的重复动作任务。以上四种任务的预测准确度计算均和(1)中所述一致。
表1
表2
表3
通过表1、表2和表3的数据分析对比,可以得知本发明提供的基于先验知识和对象敏感的视频问答方法预测答案的能力更优,这些结果验证了先验知识探索和对象敏感表示学习的有效性。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (3)
1.一种基于先验知识和对象敏感的视频问答方法,其特征在于,包括以下步骤:
S1、在先验知识探索网络PKE中构建一个先验知识检索器,基于当前输入先验知识探索网络PKE的视频和问题,从文本语料库中搜索与视频和问题相关的描述性语句作为先验知识;
S2、在问题的引导下,采用注意力机制,将先验知识与问题进行加权融合,得到知识感知的表征向量;
S3、将知识感知的表征向量和视频特征输入对象敏感表征网络ORL中,进行跨空间域和跨时间域的对象表示学习,得到对象敏感的表征向量;
S4、采用非线性映射,将知识感知的表征向量和对象敏感的表征向量进行融合,并送入分类器中得到候选答案的概率分布,计算分类损失;
所述步骤S1包括以下分步骤:
S11、将视频外观特征视频运动特征问题向量q和文本语料库输入先验知识探索网络PKE中;其中表示视频外观特征Va中第l个特征向量,L表示视频外观特征Va中的特征向量总数,表示视频运动特征Vm中第j个特征向量,C表示视频运动特征Vm中的特征向量总数,L≥C;
S14、计算检索键值x与文本语料库中所有句子的余弦相似度:
sim(,x)=sTx
其中sim(·)表示余弦相似度,s表示文本语料库中的一个句子向量,T表示向量转置;
S15、对检索键值x与文本语料库中所有句子的余弦相似度进行排序,得到topk个与检索键值x最相似的句子向量Z={z1,...,topk},并将其作为先验知识;
所述步骤S2具体为:
所述步骤S3包括以下分步骤:
其中ATT(·)表示模态交互,表示知识感知的外观特征中第l个特征向量,表示每一帧外观特征对先验知识的权重值,表示知识感知的动作特征中第j个特征向量,表示每一帧运动特征对先验知识的权重值,W5,W6,W7均为可学习参数;
其中ol表示始对象特征O的第l个特征向量,U(·)表示物体敏感的注意力机制;
S34、在对象敏感表征网络ORL中,通过知识引导的注意力模块将知识感知的表征向量分别与基于外观的对象特征和基于运动的对象特征进行融合,再分别与全局外观特征和全局运动特征进行特征拼接,得到对象敏感的表征向量和
其中F(·)表示知识引导的注意力机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210661707.1A CN114936297B (zh) | 2022-06-10 | 2022-06-10 | 一种基于先验知识和对象敏感的视频问答方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210661707.1A CN114936297B (zh) | 2022-06-10 | 2022-06-10 | 一种基于先验知识和对象敏感的视频问答方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114936297A CN114936297A (zh) | 2022-08-23 |
CN114936297B true CN114936297B (zh) | 2023-03-14 |
Family
ID=82865647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210661707.1A Active CN114936297B (zh) | 2022-06-10 | 2022-06-10 | 一种基于先验知识和对象敏感的视频问答方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114936297B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
CN114387537A (zh) * | 2021-11-30 | 2022-04-22 | 河海大学 | 一种基于描述文本的视频问答方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020070923A1 (ja) * | 2018-10-05 | 2020-04-09 | 日本電信電話株式会社 | 対話装置、その方法、およびプログラム |
US11657094B2 (en) * | 2019-06-28 | 2023-05-23 | Meta Platforms Technologies, Llc | Memory grounded conversational reasoning and question answering for assistant systems |
US11244167B2 (en) * | 2020-02-06 | 2022-02-08 | Adobe Inc. | Generating a response to a user query utilizing visual features of a video segment and a query-response-neural network |
CN111143540B (zh) * | 2020-04-03 | 2020-07-21 | 腾讯科技(深圳)有限公司 | 智能问答方法、装置、设备及存储介质 |
CN114120166B (zh) * | 2021-10-14 | 2023-09-22 | 北京百度网讯科技有限公司 | 视频问答方法、装置、电子设备及存储介质 |
-
2022
- 2022-06-10 CN CN202210661707.1A patent/CN114936297B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704601A (zh) * | 2019-10-11 | 2020-01-17 | 浙江大学 | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 |
CN114387537A (zh) * | 2021-11-30 | 2022-04-22 | 河海大学 | 一种基于描述文本的视频问答方法 |
Non-Patent Citations (2)
Title |
---|
DualVGR: A Dual-Visual Graph Reasoning Unit for Video Question Answering;Jianyu Wang等;《IEEE Transactions on Multimedia(Volume:24)》;全文 * |
视觉语义表示模型在视频问答中的研究与应用;王博;《中国优秀硕士学位论文全文数据库 信息科技辑》(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114936297A (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Ekt: Exercise-aware knowledge tracing for student performance prediction | |
Yu et al. | A joint sequence fusion model for video question answering and retrieval | |
Torabi et al. | Learning language-visual embedding for movie understanding with natural-language | |
CN108664932B (zh) | 一种基于多源信息融合的学习情感状态识别方法 | |
CN114398961A (zh) | 一种基于多模态深度特征融合的视觉问答方法及其模型 | |
Li et al. | A competence-aware curriculum for visual concepts learning via question answering | |
CN111783709B (zh) | 针对教育视频的信息预测方法及装置 | |
CN113011172B (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
Tan et al. | Drill-down: Interactive retrieval of complex scenes using natural language queries | |
Bucher et al. | Semantic bottleneck for computer vision tasks | |
CN111460118B (zh) | 一种人工智能冲突语义识别方法及装置 | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN113761887A (zh) | 基于文本处理的匹配方法、装置、计算机设备和存储介质 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN118051630A (zh) | 一种基于多模态共识感知和动量对比的图文检索系统及其方法 | |
Chen et al. | Subjects and their objects: Localizing interactees for a person-centric view of importance | |
Yu et al. | Action search by example using randomized visual vocabularies | |
CN114936297B (zh) | 一种基于先验知识和对象敏感的视频问答方法 | |
Perez-Martin et al. | Semantic search of memes on twitter | |
CN113361615B (zh) | 基于语义相关性的文本分类方法 | |
Zhang et al. | Next-ood: Overcoming dual multiple-choice vqa biases | |
Selvi et al. | Sentimental analysis of movie reviews in Tamil text | |
Sankar | Study of deep learning models on educational channel video from YouTube for classification of Hinglish text | |
Zhou et al. | Deep explanatory polytomous item-response model for predicting idiosyncratic affective ratings | |
Ding | Online and Offline Mixed Teaching Mode Based on Multimedia Computer‐Aided Music Lessons during the Epidemic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |