CN113971208A - 基于混合注意力机制的视频对象定位方法及系统 - Google Patents
基于混合注意力机制的视频对象定位方法及系统 Download PDFInfo
- Publication number
- CN113971208A CN113971208A CN202111577033.9A CN202111577033A CN113971208A CN 113971208 A CN113971208 A CN 113971208A CN 202111577033 A CN202111577033 A CN 202111577033A CN 113971208 A CN113971208 A CN 113971208A
- Authority
- CN
- China
- Prior art keywords
- video
- features
- semantic role
- word
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/7867—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了基于混合注意力机制的视频对象定位方法及系统,本发明属于视频处理技术领域,包括:获得视频数据以及自然语言描述数据;针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;针对提取对象提议的视觉特征,剔除每个对象提议中不被语义角色文本特征中的语义角色期待的特征表示,获得被增强的对象提议的视觉特征;对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得多模态特征;对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,进行视频对象定位。
Description
技术领域
本发明属于视频处理技术领域,尤其涉及基于混合注意力机制的视频对象定位方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
视频对象定位()任务是利用自然语言描述作为查询条件,以求获取视频中与自然语言描述相关的对象位置信息,它是综合了计算机视觉领域与自然语言领域的一项基本任务,是目前计算机视觉的核心问题之一。该项任务无论在互联网领域还是国防安全领域都存在一定的应用场景。比如需要查询某段视频中的目标人物时,由于视频本身存在的信息量庞大且复杂,而对于用人工去逐帧判别的方法,十分费力。该任务可以有效缓解以上问题,既不会带有个人的认知偏差,也省去了大量的人力和物力。
但是,对视频对象定位任务的研究,存在一定的困难,具体原因如下:
1)同一对象类别下包含多个实例。对于单实例任务,也就是说,视频中只包含一个人,一个球或者一只猫,仅仅依赖目标检测系统就能很好的解决该类问题。但是,这类任务并不具备一般性。对于实际应用场景下的视频,同一对象类别大多包含多个实例。也就是说,视频中不应当只包含一个人,一个球,或一只猫,而是多个人,多个球或者多只猫存在于同一视频中。较之单实例任务,该类多实例任务更加复杂,其不仅需要依靠对象的外貌特征和行为特征对各个实例进行区分,还需对不同对象或者不同实例之间的隐含关系进行探索。
2)跨模态匹配。视频和自然语言描述属于不同模态空间,为了让视频和自然语言描述之间更好地建立匹配关系,需要在两个异构空间之间建立联系。而为两个不同的模态空间建立连接,一个非常重要的问题是,需要获取更加有效的视觉和文本特征。但是,从目标检测系统中获得的提议()质量稂莠不齐,如何抑制低质量提议所带来的负影响,也是解决该问题的挑战之一。
围绕上述挑战,一个基于语义角色的视频对象定位方法被提出。其首先利用语义角色标注工具从自然语言描述中获取不同的语义角色词组,而后基于这些语义角色词组对视频中的目标实体进行定位。虽然取得了不错的定位结果,但是该方法存在一定的局限性,具体如下:一方面,上述方法只探索了两个对象之间的位置关系,并没有考虑由于提议本身质量不佳而导致虚假提议的问题。另一方面,该方法只是单纯的将语义角色中第一个词和最后一个词的表示提炼出来,作为语义角色词组的表征,忽略了词组中其他有意义词语的作用。此外,并未探究词组中是否所有词均具有实质的语义信息。若考虑无意义的词语过多,会使语义角色表征中蕴含噪声信息,这并不利于目标对象的精准定位。
发明内容
为克服上述现有技术的不足,本发明提供了基于混合注意力机制的视频对象定位方法及系统,本发明使得视频对象定位任务的准确度有一定的提高。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了基于混合注意力机制的视频对象定位方法,包括:
获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
作为进一步的技术方案,获得视频数据之后,将视频数据均等分为多个视频片段,从每个视频片段中抽取中间帧,并将抽取的所有中间帧组成视频输入。
作为进一步的技术方案,获得自然语言描述数据之后,利用语义角色标注工具为查询语句分配多个语义角色标签,其中,自然语言描述即为查询语句。
作为进一步的技术方案,提取对象提议的视觉特征时,使用目标检测系统对视频输入中的每一帧提取对象提议集合以及对象提议的位置信息,其中,对象提议集合中包括对象提议视觉特征;
优选的,利用动作分类系统提取视频的全局视觉特征;
优选的,分别对视频所有对象提议特征组成的矩阵以及视频的全局视觉特征利用一层线性结构和激活函数进行维度映射。
作为进一步的技术方案,针对自然语言描述数据,提取词隐藏向量表示,具体为:
记查询语句词向量的初始表示;
令初始表示输入至双向长短期记忆网络,在该网络中将相关的上下文信息编码内嵌入各自词向量,得到词隐藏向量表示;
将词隐藏向量表示的维度通过一层线性结构和激活函数映射到与对象提议特征或全局视觉特征同一维度,得到单词级特征及句子级特征。
作为进一步的技术方案,还包括:将查询语句的单词级特征与句子级特征进行融合,得到嵌入全局信息的词级表示;
令嵌入全局信息的词级表示中词向量表示与各个语义角色中词的位置对照,则得到由词向量组成的多个语义角色的表示。
作为进一步的技术方案,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征,具体为:
利用文本自注意力机制学习语义角色中每一个单词的注意力分数;
每个语义角色的注意力分数表示中的每一个分数分别与其对应的语义角色的词向量表示进行元素乘法,得到削弱/增强的单词表示;
将得到的每个语义角色所含的所有单词信息进行求和,得到最终的语义角色文本特征。
作为进一步的技术方案,获得被增强的对象提议的视觉特征的过程为:
计算语义角色文本特征与对象提议视觉特征之间的相似性得分,构建对象提议基于每个语义角色间的注意力权重矩阵;
利用对象提议基于每个语义角色间的注意力权重矩阵完成对视频内对象提议节点的过滤。
作为进一步的技术方案,对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,具体为:
串联视觉对象融合特征和语义角色文本特征,获得多模态特征;
计算视觉对象与语义角色两两之间的匹配度矩阵,预测与查询描述相关的对象位置信息。
第二方面,公开了基于混合注意力机制的视频对象定位系统,包括:
输入数据处理模块,被配置为:获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
语义角色编码模块,被配置为:针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
语义角色感知的注意力模块,被配置为:针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
局部-全局视觉特征聚合模块,被配置为:对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
跨模态特征融合模块,被配置为:对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
以上一个或多个技术方案存在以下有益效果:
针对视频对象多实例问题,本发明提出了语义角色感知的注意力模块,它能够有效的抑制视频对象无关实例信息,让模型学习的注意力集中在视频目标对象上。
为避免在语义角色信息编码过程中引入过多无实质意义的词语信息,本发明将全局句子信息作为指导信息,利用自注意力学习模块,促使模型过滤无关信息,并关注于有益于精炼表征语义角色的词编码信息。
较之之前的方法,本发明使得视频对象定位任务的准确度有一定的提高。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例的流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
步骤一:输入数据处理步骤,其中,输入数据包括视频数据、自然语言描述(查询语句)数据;
关于视频数据:
然后,从每个视频片段中抽取中间帧,并将抽取的所有中间帧组成视频输入,记为,为第个视频片段的中间帧。通过上述方式处理视频,一方面,可以保证输入视频时序长度相同;另一方面,可以保证在尽可能保留完整信息的情况下,防止信息量过多所造成的模型计算困难问题,其依据在于,对于提议对象节点来说,一个较小间隔内,其静态特征基本不会有太大浮动,所以小间隔内取代表,可以保证提议对象节点信息完整。
关于自然语言描述(查询语句)数据:
假设查询语句,为查询语句中第个单词。利用语义角色标注工具为查询语句分配个语义角色标签,每个语义角色标签记为,所以查询语句被分为个语义角色,此时被标注后的查询语句记为,,其中,的长度只与该语义角色的表征意义有关,即每个的不同。
分配语义角色标签,一方面,任务目标定位的就是上述语义角色信息,而对查询语句进行划分处理,更有利于定位;另一方面,候选提议框有干扰信息,语义角色标签相较于较长的语言查询,包含的语义信息更加明确,利于过滤实现。
步骤二:编码器处理步骤:
2-1)利用视频编码器对视频数据进行处理:
第一步,提议对象视觉特征以及位置信息提取;
全局视觉特征提取:
至此,对象提议视觉特征为
2-2)利用查询编码器对自然语言描述(查询语句)数据处理:
第一步,词隐藏向量表示提取。我们令经过2层双向(注:双向输入维度为,输出维度为)将相关的上下文信息编码内嵌入各自词向量,并得到它们隐藏向量表示(注:当时,初始隐藏向量,),此时得到,为的第个隐藏向量表示。
步骤三:语义角色编码处理步骤:
3-3)为了成功过滤各个语义角色中无实质意义的单词信息,增强重要的特征信息,本发明引入自注意力机制,具体地:
第二步,获得精炼的语义角色特征。
步骤四:语义角色感知的注意力处理步骤:
4-1)计算对象提议基于每个语义角色的注意力权重值。
上诉描述可以用公式简化为:
步骤五:局部-全局视觉特征聚合步骤:
步骤六:跨模态特征融合步骤:
该部分分为初步融合与最终融合两个子模块:
6-1)初步融合,获得多模态特征。
6-2)最终融合。
第一步,计算相对位置信息编码。首先,计算同帧两两对象提议之间的相对距离,接着利用一层线性结构和激活函数把维度由5映射为3,记相对位置信息编码为,其中为第帧图像内和(和可以相等且最大值只可取到)两个对象提议之间的相对位置信息编码。
第二步,获得跨模态融合特征。
首先,将相对位置信息编码作为额外注意线索与自注意力机制相结合,并入模型中。接着,将初步融合的多模态特征经过不同的权重矩阵,,打包为,,作为上诉(注:输入维度为,输出维度为)模型的输入,最终得到视频的对象提议与查询语句的语义角色的跨模态融合特征,,;
第三步,计算各个语义角色与视频中所有对象提议的匹配分数矩阵。经过两层线性层与一个激活函数得到最终查询语句中各个语义角色与视频中所有对象提议的匹配分数矩阵,记为,,,,为第个语义角色与视频内第对象提议的匹配分数。
步骤七:损失处理步骤:
将视频-查询对输入到训练好的网络模型中进行预测,得到与自然语言描述内语义角色相符的目标对象位置信息。
实施例二
本实施例的目的是提供了基于混合注意力机制的视频对象定位系统,包括:
输入数据处理模块,被配置为:获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
语义角色编码模块,被配置为:针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
语义角色感知的注意力模块,被配置为:针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
局部-全局视觉特征聚合模块,被配置为:对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
跨模态特征融合模块,被配置为:对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
编码器包括:
上述语义角色编码模块利用自注意力机制增强具有实质语义的词向量信息,同时过滤了无关语义的词向量信息,由此来获取语义角色的文本特征。
本发明语义角色感知的注意力模块用于:获取视频帧内所含的每个对象提议与所有语义角色的潜在联系,自适应的获得对象提议基于每个语义角色的注意力权重值。
使用对象提议的注意力权重矩阵完成对视频内对象提议节点的过滤,最大保留有用信息,抑制不符合语义角色期待的对象提议节点信息。
跨模态特征融合模块:首先,串联视觉对象融合特征和语义角色文本特征,获得多模态特征;接着,利用将相对位置信息编码和自注意力机制相结合的模型,获得嵌入相关上下文信息的跨模态融合特征;最后,计算视觉对象与语义角色两两之间的匹配度矩阵,预测与查询描述相关的对象位置信息。
还包括损失模块:目标函数为二元交叉熵损失
以上实施例二与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.基于混合注意力机制的视频对象定位方法,其特征是,包括:
获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
2.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,获得视频数据之后,将视频数据均等分为多个视频片段,从每个视频片段中抽取中间帧,并将抽取的所有中间帧组成视频输入。
3.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,获得自然语言描述数据之后,利用语义角色标注工具为查询语句分配多个语义角色标签,其中,自然语言描述即为查询语句。
4.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,提取对象提议的视觉特征时,使用目标检测系统对视频输入中的每一帧提取对象提议集合以及对象提议的位置信息,其中,对象提议集合中包括对象提议视觉特征;
利用动作分类系统提取视频的全局视觉特征;
分别对视频所有对象提议特征组成的矩阵以及视频的全局视觉特征利用一层线性结构和激活函数进行维度映射。
5.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,针对自然语言描述数据,提取词隐藏向量表示,具体为:
记查询语句词向量的初始表示;
令初始表示输入至双向长短期记忆网络,在该网络中将相关的上下文信息编码内嵌入各自词向量,得到词隐藏向量表示;
将词隐藏向量表示的维度通过一层线性结构和激活函数映射到与对象提议特征或全局视觉特征同一维度,得到单词级特征及句子级特征。
6.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,还包括:将查询语句的单词级特征与句子级特征进行融合,得到嵌入全局信息的词级表示;
令嵌入全局信息的词级表示中词向量表示与各个语义角色中词的位置对照,则得到由向量组成的多个语义角色的表示。
7.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征,具体为:
利用文本自注意力机制学习语义角色中每一个单词的注意力分数;
每个语义角色的注意力分数表示中的每一个分数分别与其对应的语义角色的词向量表示进行元素乘法,得到削弱/增强的单词表示;
将得到的每个语义角色所含的所有单词信息进行求和,得到最终的语义角色文本特征。
8.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,获得被增强的对象提议的视觉特征的过程为:
计算语义角色文本特征与对象提议视觉特征之间的相似性得分,构建对象提议基于每个语义角色间的注意力权重矩阵;
利用对象提议基于每个语义角色间的注意力权重矩阵完成对视频内对象提议节点的过滤。
10.基于混合注意力机制的视频对象定位系统,其特征是,包括:
输入数据处理模块,被配置为:获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
语义角色编码模块,被配置为:针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
语义角色感知的注意力模块,被配置为:针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
局部-全局视觉特征聚合模块,被配置为:对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
跨模态特征融合模块,被配置为:对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111577033.9A CN113971208B (zh) | 2021-12-22 | 2021-12-22 | 基于混合注意力机制的视频对象定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111577033.9A CN113971208B (zh) | 2021-12-22 | 2021-12-22 | 基于混合注意力机制的视频对象定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113971208A true CN113971208A (zh) | 2022-01-25 |
CN113971208B CN113971208B (zh) | 2022-05-06 |
Family
ID=79590774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111577033.9A Active CN113971208B (zh) | 2021-12-22 | 2021-12-22 | 基于混合注意力机制的视频对象定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113971208B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581821A (zh) * | 2022-02-23 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 一种视频检测方法、系统及存储介质和服务器 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN117152669A (zh) * | 2023-10-30 | 2023-12-01 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
CN116824461B (zh) * | 2023-08-30 | 2023-12-08 | 山东建筑大学 | 一种问题理解导向的视频问答方法及系统 |
CN118016326A (zh) * | 2024-04-09 | 2024-05-10 | 吉林大学 | 基于互联网的患者护理智能随访系统及方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
WO2019179496A1 (en) * | 2018-03-22 | 2019-09-26 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and system for retrieving video temporal segments |
US20200193245A1 (en) * | 2018-12-17 | 2020-06-18 | Sri International | Aligning symbols and objects using co-attention for understanding visual content |
CN111464881A (zh) * | 2019-01-18 | 2020-07-28 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
EP3703381A1 (en) * | 2019-02-28 | 2020-09-02 | InterDigital CE Patent Holdings | Method and device for the search of content based on user search habits |
CN112000818A (zh) * | 2020-07-10 | 2020-11-27 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
CN112380385A (zh) * | 2020-11-18 | 2021-02-19 | 湖南大学 | 一种基于多模态关系图的视频时刻定位方法及设备 |
-
2021
- 2021-12-22 CN CN202111577033.9A patent/CN113971208B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019179496A1 (en) * | 2018-03-22 | 2019-09-26 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and system for retrieving video temporal segments |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
US20200193245A1 (en) * | 2018-12-17 | 2020-06-18 | Sri International | Aligning symbols and objects using co-attention for understanding visual content |
CN111464881A (zh) * | 2019-01-18 | 2020-07-28 | 复旦大学 | 基于自优化机制的全卷积视频描述生成方法 |
EP3703381A1 (en) * | 2019-02-28 | 2020-09-02 | InterDigital CE Patent Holdings | Method and device for the search of content based on user search habits |
CN112000818A (zh) * | 2020-07-10 | 2020-11-27 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
CN112380385A (zh) * | 2020-11-18 | 2021-02-19 | 湖南大学 | 一种基于多模态关系图的视频时刻定位方法及设备 |
Non-Patent Citations (2)
Title |
---|
GAO J: "Intelligent Video Fusion Technology Base on FPGA", 《COMPUTER MEASUREMENT & CONTROL》 * |
任泽裕: "多模态数据融合综述", 《计算机工程与应用》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114581821A (zh) * | 2022-02-23 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 一种视频检测方法、系统及存储介质和服务器 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115223086B (zh) * | 2022-09-20 | 2022-12-06 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN116824461B (zh) * | 2023-08-30 | 2023-12-08 | 山东建筑大学 | 一种问题理解导向的视频问答方法及系统 |
CN117152669A (zh) * | 2023-10-30 | 2023-12-01 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
CN117152669B (zh) * | 2023-10-30 | 2024-02-06 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
CN118016326A (zh) * | 2024-04-09 | 2024-05-10 | 吉林大学 | 基于互联网的患者护理智能随访系统及方法 |
CN118016326B (zh) * | 2024-04-09 | 2024-05-31 | 吉林大学 | 基于互联网的患者护理智能随访系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113971208B (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113971208B (zh) | 基于混合注意力机制的视频对象定位方法及系统 | |
CN111488931B (zh) | 文章质量评估方法、文章推荐方法及其对应的装置 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN114064918B (zh) | 一种多模态事件知识图谱构建方法 | |
CN112131883B (zh) | 语言模型训练方法、装置、计算机设备和存储介质 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统 | |
CN112800292A (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN114663915A (zh) | 基于Transformer模型的图像人-物交互定位方法及系统 | |
CN113392265A (zh) | 多媒体处理方法、装置及设备 | |
CN115438674A (zh) | 实体数据处理、实体链接方法、装置和计算机设备 | |
CN113705191A (zh) | 样本语句的生成方法、装置、设备及存储介质 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN114519397B (zh) | 基于对比学习的实体链接模型的训练方法、装置、设备 | |
CN115269781A (zh) | 模态关联度预测方法、装置、设备、存储介质及程序产品 | |
CN116910307A (zh) | 一种跨模态视频文本检索方法、系统、设备及介质 | |
CN115964560A (zh) | 基于多模态预训练模型的资讯推荐方法及设备 | |
CN114417874A (zh) | 一种基于图注意力网络的中文命名实体识别方法和系统 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN116226347A (zh) | 一种基于多模态数据的细粒度视频情绪内容问答方法和系统 | |
CN115659242A (zh) | 一种基于模态增强卷积图的多模态情感分类方法 | |
CN113741759B (zh) | 评论信息的展示方法、装置、计算机设备和存储介质 | |
CN113032567A (zh) | 位置嵌入解释方法、装置、计算机设备及存储介质 | |
CN112287690A (zh) | 基于条件句子生成和跨模态重排的手语翻译方法 | |
CN116702094B (zh) | 一种群体应用偏好特征表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |