CN113902964A - 基于关键词感知的多模态注意力视频问答方法与系统 - Google Patents
基于关键词感知的多模态注意力视频问答方法与系统 Download PDFInfo
- Publication number
- CN113902964A CN113902964A CN202111053387.3A CN202111053387A CN113902964A CN 113902964 A CN113902964 A CN 113902964A CN 202111053387 A CN202111053387 A CN 202111053387A CN 113902964 A CN113902964 A CN 113902964A
- Authority
- CN
- China
- Prior art keywords
- features
- modal
- keyword
- text
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008447 perception Effects 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 230000007246 mechanism Effects 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000000007 visual effect Effects 0.000 claims description 50
- 230000006870 function Effects 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 241001301648 Tradescantia ohiensis Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词感知的多模态注意力视频问答方法与系统。包括:运用多模态特征提取和预训练模型KeyBert关键词提取算法,提取输入视频的各个多模态特征;运用关键词感知的多模态注意力算法,处理提取的各多模态特征,输出经有效关联和融合后的多模态特征;将已融合的多模态特征经过多层感知机MLP,输出预测的答案。本发明还公开了一种基于关键词感知的多模态注意力视频问答计算机设备及计算机可读存储介质。本发明在提取视频特征时,结合更为隐式的关键词特征,提取更为丰富的视频特征;在特征融合时,结合自注意力机制捕获特征的时序性,应用双向注意力机制强调模态间互相关联的信息,更有效地融合多模态特征,显著提高视频问答的准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于关键词感知的多模态注意力视频问答方法、基于关键词感知的多模态注意力视频问答系统、计算机设备及计算机可读存储介质。
背景技术
近年来,随着人工智能技术的发展,视频问答技术应运而生。视频问答技术能够根据所提出的问题,快速有效地根据视频的内容预测相应的答案,从而帮助用户迅速地理解视频内容,获取想要的视频信息,减少人们在冗长的视频中筛选信息的时间。传统的视觉问答技术主要针对单个的静态图像,而视频是由大量的视频帧组成的,视频在语义上包含了视觉、文本和音频信息,且具有非结构化、多模态、时间性和空间性等特点。因此,视频问答技术必须处理更多的输入数据,同时需要具体的方法提取视觉内容和文本内容,并进行有效的融合。
目前大多数视频问答技术模型直接利用全部的视频信息来回答问题,难以精确提取核心的、有效的特征信息,通常受无效的、多余的信息影响而存在视频问答准确率低的劣势,难以广泛应用。
目前的现有技术之一,专利“一种基于动作的关系网络视频问答系统及方法”,使用时序动作检测网络的结果辅助视频特征的编码,强调了视频的动作因素,而后将动作概率分布与初始的视频特征被一起输入到神经网络的编码器中,以学习视频特征使最终的视频特征能够包含动作信息,最后,将输出的视频特征与问题特征输入一个多头的关系转换器网络中,通过此网络输出最后的结果进行视频问答。该技术的缺点在于,没有强调多模态特征中互相关联的部分,没有考虑视频的字幕模态。
目前的现有技术之二,专利“一种人工智能视频问答方法”,首先获取视觉特征和文字特征;然后进行视觉特征提取,对视觉特征和语义特征进行多模态融合,获得融合特征;最后根据融合特征和语义特征生成答案。该技术的缺点在于,采用的特征融合方法较为单一,没有很好关注多模态特征之间的相关信息。
目前的现有技术之三,专利“一种基于多模态融合模型的提高视频问答精度方法及系统”,将视频问答的问题输入训练好的多模态融合模型,获得问题答案;根据问题的特点针对不同的问题聚焦不同的目标实体实例,提高模型选择答案的准确率。该技术的缺点在于,虽然关联了模态之间的相关内容,但没有考虑到隐式的特征信息,没有结合关键词特征进一步关联关键信息。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于关键词感知的多模态注意力视频问答方法、系统、设备及存储介质。本发明解决的主要问题是,在视频问答中,与问题相关的答案仅出现在视频中的部分句子或单词中,而现有技术的方法大多都直接运用全局的视频信息,从而导致问答效率较低且冗余信息较多。即如何通过多模态特征提取算法和关键词提取算法对输入的视频帧、字幕文本和问题文本信息进行筛选和处理,从而更准确地输出预测答案的问题。
为了解决上述问题,本发明提出了一种基于关键词感知的多模态注意力视频问答方法,所述方法包括:
输入视频帧、字幕文本和问题文本信息,利用多模态特征提取和关键词提取算法,提取输入视频的多模态特征;
利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征;
利用多层感知机MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
优选地,所述利用多模态特征提取和关键词提取算法,提取输入视频的多模态特征,具体为:
利用卷积网络C3D提取所述视频帧的动作标签,使用对象检测算法Yolo提取所述视频帧的视觉标签,并将动作标签和视觉标签合为一个视觉标签集合;
将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用预训练模型KeyBert进行关键词提取,输出提取出的关键词集合;
利用预训练模型BERT和双向神经网络LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;
将所述视频帧输入神经网络ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示;
结合所述文本特征和所述视觉特征,得到多模态特征。
优选地,所述利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征,具体为:
利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
相似地,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
优选地,利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案,具体为:
定义一个两层MLP作为分类器,所述分类器的结构如下:
FC(2048)-ReLU-FC(n)
其中,FC为神经网络的全连接层,2048为神经元的个数;ReLU为神经网络的激活函数,n为全连接层其输出维度,由候选答案的个数决定;
经过MLP后,输出对于每个候选答案的预测得分,具体如下:
使用softmax函数对所述预测得分进行归一化,得到每个候选答案的预测概率;
使用argmax函数选取所有所述候选答案中预测概率的最大值,具体如下:
y=argmax(softmax(x))
其中,y为所述预测概率的最大值;
在训练时,使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距,具体公式如下:
其中,x为样本,概率分布p为真实答案的期望输出,概率分布q表示实际输出;所述两个概率分布越接近,该损失函数的值H(p,q)越小,则预测答案时的实际输出越接近真实答案的期望输出;反之,所述两个概率分布越远,该损失函数的值H(p,q)越大,则预测答案时的实际输出越偏离真实答案的期望输出。
相应地,本发明还提供了一种基于关键词感知的多模态注意力视频问答方法与系统,包括:
多模态特征提取单元,用于提取输入视频的多模态特征;
关键字幕文本特征融合单元,用于将所述已提取的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
关键问题文本特征融合单元,用于将所述已提取的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
多模态特征融合单元,用于对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
答案预测单元,用于对所述已融合的多模态特征进行处理,输出预测的答案。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述视频问答方法的步骤。
相应地,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频问答方法的步骤。
实施本发明,具有如下有益效果:
本发明在视频问答的特征提取上,结合了关键词这一更为隐式的特征,提取了更丰富的视频特征,并显著提高了视频问答的准确率;在视频问答的特征融合上,将软注意力机制应用于关联关键词集合和字幕文本,以及关联关键词集合与问题文本之间的信息,结合自注意力机制捕获特征的时序性,并应用双向注意力机制强调模态间互相关联的信息,更有效地融合了多模态特征。
附图说明
图1是本发明实施例的基于关键词感知的多模态注意力视频问答方法的总体流程图;
图2是本发明实施例的多模态特征表示部分的流程图;
图3是本发明实施例的关键词提取部分的流程图;
图4是本发明实施例的关键词感知的多模态注意力流程图;
图5是本发明实施例的问题答案预测部分的流程图;
图6是本发明实施例的基于关键词感知的多模态注意力视频问答系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是是本发明实施例的基于关键词感知的多模态注意力视频问答方法的总体流程图,如图1所示,该方法包括:
S1,在本发明实施例中,输入一部视频和待回答的问题(包括视频帧、字幕文本和问题文本),利用多模态特征提取算法和关键词提取算法,提取输入视频的多模态特征;
S2,利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征;
步骤S1,如图2所示,具体如下:
S1-1,利用C3D提取所述视频帧的动作标签,利用Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合;
S1-2,如图3所示,将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,然后将所述长句子输入KeyBert预训练模型进行关键词提取,输出提取出的关键词的集合;
S1-3,将所述视觉标签集合、问题文本、字幕文本和关键词集合分别输入BERT和双向LSTM编码器进行处理,得到所述文本特征的编码;
S1-4,将所述视频帧输入ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示,以保证视觉信号没有丢失。
步骤S2,如图4所示,具体如下:
S2-1,利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
相似地,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
S2-2,对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
S2-3,对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
步骤S3,如图5所示,具体如下:
S3-1,将本发明实施例中的视频问答任务视为一个多分类的任务,定义一个两层MLP作为分类器,所述分类器的结构为:
FC(2048)-ReLU-FC(n)。
其中,FC为神经网络的全连接层,2048为神经元的个数;ReLU为神经网络的激活函数,n为全连接层其输出维度,由候选答案的个数决定;
优选地,将所述已融合的多模态特征经过MLP后,输出对于每个候选答案的预测得分,具体如下:
S3-2,利用softmax函数对所述预测得分进行归一化,得到每个候选答案的预测概率,然后利用argmax函数选取所有候选答案中预测概率的最大值,具体如下:
y=argmax(softmax(x))
其中,y为所述预测概率的最大值;
S3-3,将本发明实施例中的预测候选答案视为神经网络中的多分类问题,在训练时,使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距,具体公式如下:
其中,x为样本,概率分布p为期望输出(真实答案),概率分布q表示实际输出;所述两个概率分布越接近,该损失函数的值H(p,q)越小,则预测答案时的实际输出越接近真实答案的期望输出;反之,所述两个概率分布越远,该损失函数的值H(p,q)越大,则预测答案时的实际输出越偏离真实答案的期望输出。
相应地,本发明还提供了一种基于关键词感知的多模态注意力视频问答方法与系统,如图6所示,包括:
多模态特征提取单元1,用于提取输入视频的多模态特征。
具体地,利用C3D提取所述视频帧的动作标签,利用Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合,本实施例中,视觉标签即例如“站立的人”、“蓝色上衣”、“灰色的门”等,动作标签即例如“跑步”、“行走”、“拿起”等;将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用KeyBert预训练模型进行关键词提取,输出提取的关键词集合;利用BERT和双向LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;将所述视频帧输入ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示;结合所述文本特征和所述视觉特征,得到多模态特征。
关键字幕文本特征融合单元2,用于将所述已提取的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征。
具体地,利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征。
关键问题文本特征融合单元3,用于将所述已提取的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征。
具体地,利用软注意力机制,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征。
多模态特征融合单元4,用于对经所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示。
具体地,对所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
答案预测单元5,用于对所述已融合的多模态特征进行处理,输出预测的答案。
具体地,利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
因此,本发明在视频问答的特征提取上,结合了关键词这一更为隐式的特征,提取了更丰富的视频特征,并显著提高了视频问答的准确率;在视频问答的特征融合上,将软注意力机制应用于关联关键词集合和字幕文本,以及关联关键词集合与问题文本之间的信息,结合自注意力机制捕获特征的时序性,并应用双向注意力机制强调模态间互相关联的信息,更有效地融合了多模态特征。
相应地,本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述视频问答方法的步骤。同时,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述视频问答方法的步骤。
以上对本发明实施例所提供的基于关键词感知的多模态注意力视频问答方法、系统、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种基于关键词感知的多模态注意力视频问答方法,其特征在于,所述方法包括:
输入视频帧、字幕文本和问题文本信息,利用多模态特征提取算法和关键词提取算法,提取输入视频的多模态特征;
利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征;
利用多层感知机MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
2.如权利要求1所述的基于关键词感知的多模态注意力视频问答方法,其特征在于,将所述输入的视频帧、字幕文本和问题文本信息,利用多模态特征提取算法和关键词提取算法,提取输入视频的多模态特征,具体为:
利用卷积网络C3D提取所述视频帧的动作标签,利用对象检测算法Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合;
将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用预训练模型KeyBert进行关键词提取,输出提取的关键词集合;
利用预训练模型BERT和双向神经网络LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;
将所述视频帧输入神经网络ResNet,直接提取所述视频帧对应图片的视觉特征,并输入双向LSTM获得视觉特征表示;
结合所述文本特征和所述视觉特征,得到多模态特征。
3.如权利要求1所述的基于关键词感知的多模态注意力视频问答方法,其特征在于,所述利用关键词感知的多模态注意力算法,对所述视频的多模态特征进行处理,经有效关联和融合后,输出已融合的多模态特征,具体为:
利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
相似地,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
4.如权利要求1所述的基于关键词感知的多模态注意力视频问答方法,其特征在于,利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案,具体为:
定义一个两层MLP作为分类器,所述分类器的结构如下:
FC(2048)-ReLU-FC(n)
其中,FC为神经网络的全连接层,2048为神经元的个数;ReLU为神经网络的激活函数,n为全连接层其输出维度,由候选答案的个数决定;
经过MLP后,输出对每个候选答案的预测得分,具体如下:
使用softmax函数对所述预测得分进行归一化,得到每个候选答案的预测概率;
使用argmax函数选取所有所述候选答案中预测概率的最大值,具体如下:
y=atgmax(softmax(x))
其中,y为所述预测概率的最大值;
在训练时,使用交叉熵损失函数来衡量模型的输出与真实的输出之间的差距,具体公式如下:
其中,x为样本,概率分布p为真实答案的期望输出,概率分布q为实际输出;所述两个概率分布越接近,该损失函数的值H(p,q)越小,则预测答案时的实际输出越接近真实答案的期望输出;反之,所述两个概率分布越远,该损失函数的值H(p,q)越大,则预测答案时的实际输出越偏离真实答案的期望输出。
5.一种基于关键词感知的多模态注意力视频问答系统,其特征在于,所述系统包括:
多模态特征提取单元,用于提取输入视频的多模态特征;
关键字幕文本特征融合单元,用于将所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征;
关键问题文本特征融合单元,用于将所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征;
多模态特征融合单元,用于对所述多模态特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;
答案预测单元,用于对所述已融合的多模态特征进行处理,输出预测的答案。
6.如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述多模态特征提取单元,需要利用C3D提取所述视频帧的动作标签,利用Yolo提取所述视频帧的视觉标签,并将所述动作标签和视觉标签合为一个视觉标签集合;将所述视觉标签集合、问题文本和字幕文本整合为一个长句子,利用KeyBert进行关键词提取,输出提取的关键词集合;利用BERT和双向LSTM编码器,对所述视觉标签集合、问题文本、字幕文本和关键词集合进行处理,得到所述文本特征的编码;将所述视频帧输入ResNet,直接提取所述视频帧对应图片的视觉特征,并输入LSTM获得视觉特征表示;结合所述文本特征和所述视觉特征,得到多模态特征。
7.如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述关键字幕文本特征融合单元,需要利用软注意力机制,对所述多模态特征中的关键词特征和字幕文本特征进行关联,筛选出与所述关键词特征更相关的字幕文本,并将所述两个特征合为一个关键字幕文本特征。
8.如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述关键问题文本特征融合单元,需要利用软注意力机制,对所述多模态特征中的关键词特征和问题文本特征进行关联,筛选出与所述关键词特征更相关的问题文本,并将所述两个特征合为一个关键问题文本特征。
9.如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述多模态特征融合单元,需要对所述视觉特征、关键字幕文本特征和关键问题文本特征分别应用自注意力机制,增强所述特征的时序性,并分别输出各模态的特征表示;对所述各模态特征两两之间应用双向注意力机制,关联不同模态特征中的相关信息,以提高特征融合的效果。
10.如权利要求5所述的基于关键词感知的多模态注意力视频问答系统,其特征在于,所述答案预测单元,需要利用MLP,对所述已融合的多模态特征进行处理后,输出预测的答案。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111053387.3A CN113902964A (zh) | 2021-09-09 | 2021-09-09 | 基于关键词感知的多模态注意力视频问答方法与系统 |
PCT/CN2022/085751 WO2023035610A1 (zh) | 2021-09-09 | 2022-04-08 | 基于关键词感知的多模态注意力视频问答方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111053387.3A CN113902964A (zh) | 2021-09-09 | 2021-09-09 | 基于关键词感知的多模态注意力视频问答方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113902964A true CN113902964A (zh) | 2022-01-07 |
Family
ID=79188763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111053387.3A Pending CN113902964A (zh) | 2021-09-09 | 2021-09-09 | 基于关键词感知的多模态注意力视频问答方法与系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113902964A (zh) |
WO (1) | WO2023035610A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114398505A (zh) * | 2022-01-19 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 目标词语的确定方法、模型的训练方法、装置及电子设备 |
CN114611529A (zh) * | 2022-03-15 | 2022-06-10 | 平安科技(深圳)有限公司 | 意图识别方法和装置、电子设备及存储介质 |
WO2023035610A1 (zh) * | 2021-09-09 | 2023-03-16 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
CN116246213A (zh) * | 2023-05-08 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385937B (zh) * | 2023-04-07 | 2024-07-30 | 哈尔滨理工大学 | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 |
CN116401390B (zh) * | 2023-05-19 | 2023-10-20 | 中国科学技术大学 | 一种视觉问答处理方法、系统、存储介质及电子设备 |
CN116661803B (zh) * | 2023-07-31 | 2023-11-17 | 腾讯科技(深圳)有限公司 | 多模态网页模板的处理方法、装置和计算机设备 |
CN116932731B (zh) * | 2023-09-18 | 2024-01-30 | 上海帜讯信息技术股份有限公司 | 面向5g消息的多模态知识问答方法及系统 |
CN117095659B (zh) * | 2023-10-18 | 2024-01-05 | 中国传媒大学 | 一种双模态歌曲情感分类方法 |
CN117648976A (zh) * | 2023-11-08 | 2024-03-05 | 北京医准医疗科技有限公司 | 基于医学影像的答案生成方法、装置、设备及存储介质 |
CN117710694A (zh) * | 2024-01-12 | 2024-03-15 | 中国科学院自动化研究所 | 多模特征信息的获取方法及系统、电子设备及存储介质 |
CN117611845B (zh) * | 2024-01-24 | 2024-04-26 | 浪潮通信信息系统有限公司 | 多模态数据的关联识别方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609891B (zh) * | 2019-09-18 | 2021-06-08 | 合肥工业大学 | 一种基于上下文感知图神经网络的视觉对话生成方法 |
CN112861580A (zh) * | 2019-11-27 | 2021-05-28 | 腾讯科技(北京)有限公司 | 基于视频信息处理模型的视频信息处理方法及装置 |
CN112559698B (zh) * | 2020-11-02 | 2022-12-09 | 山东师范大学 | 基于多模态融合模型的提高视频问答精度方法及系统 |
CN113297370B (zh) * | 2021-07-27 | 2021-11-16 | 国网电子商务有限公司 | 基于多交互注意力的端到端多模态问答方法及系统 |
CN113902964A (zh) * | 2021-09-09 | 2022-01-07 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
-
2021
- 2021-09-09 CN CN202111053387.3A patent/CN113902964A/zh active Pending
-
2022
- 2022-04-08 WO PCT/CN2022/085751 patent/WO2023035610A1/zh unknown
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023035610A1 (zh) * | 2021-09-09 | 2023-03-16 | 中山大学 | 基于关键词感知的多模态注意力视频问答方法与系统 |
CN114398505A (zh) * | 2022-01-19 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 目标词语的确定方法、模型的训练方法、装置及电子设备 |
CN114611529A (zh) * | 2022-03-15 | 2022-06-10 | 平安科技(深圳)有限公司 | 意图识别方法和装置、电子设备及存储介质 |
CN114611529B (zh) * | 2022-03-15 | 2024-02-02 | 平安科技(深圳)有限公司 | 意图识别方法和装置、电子设备及存储介质 |
CN116246213A (zh) * | 2023-05-08 | 2023-06-09 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备以及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023035610A1 (zh) | 2023-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113902964A (zh) | 基于关键词感知的多模态注意力视频问答方法与系统 | |
Cheng et al. | Fully convolutional networks for continuous sign language recognition | |
WO2021233112A1 (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN111931795B (zh) | 基于子空间稀疏特征融合的多模态情感识别方法及系统 | |
CN110390363A (zh) | 一种图像描述方法 | |
KR102352128B1 (ko) | 심층 영상 이해를 이용한 영상 기반 대화 시스템 | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN113486669B (zh) | 应急救援输入语音的语义识别方法 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN115223020B (zh) | 图像处理方法、装置、设备、存储介质及计算机程序产品 | |
CN112712068B (zh) | 一种关键点检测方法、装置、电子设备及存储介质 | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
CN112036276A (zh) | 一种人工智能视频问答方法 | |
CN116524593A (zh) | 一种动态手势识别方法、系统、设备及介质 | |
CN113792177A (zh) | 基于知识引导深度注意力网络的场景文字视觉问答方法 | |
CN114663915A (zh) | 基于Transformer模型的图像人-物交互定位方法及系统 | |
CN116385937B (zh) | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 | |
CN114780775B (zh) | 一种基于内容选择和引导机制的图像描述文本生成方法 | |
Xue et al. | Lcsnet: End-to-end lipreading with channel-aware feature selection | |
CN116662591A (zh) | 一种基于对比学习的鲁棒视觉问答模型训练方法 | |
CN117746078B (zh) | 一种基于用户自定义类别的物体检测方法及系统 | |
CN114625849A (zh) | 一种上下文感知的渐进式注意的视频问答方法与系统 | |
CN113177112B (zh) | 基于kr积融合多模态信息的神经网络视觉对话装置及方法 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN112651225B (zh) | 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |