CN113971208B - 基于混合注意力机制的视频对象定位方法及系统 - Google Patents

基于混合注意力机制的视频对象定位方法及系统 Download PDF

Info

Publication number
CN113971208B
CN113971208B CN202111577033.9A CN202111577033A CN113971208B CN 113971208 B CN113971208 B CN 113971208B CN 202111577033 A CN202111577033 A CN 202111577033A CN 113971208 B CN113971208 B CN 113971208B
Authority
CN
China
Prior art keywords
video
semantic role
features
visual
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111577033.9A
Other languages
English (en)
Other versions
CN113971208A (zh
Inventor
刘萌
周迪
田传发
齐孟津
郭杰
马玉玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202111577033.9A priority Critical patent/CN113971208B/zh
Publication of CN113971208A publication Critical patent/CN113971208A/zh
Application granted granted Critical
Publication of CN113971208B publication Critical patent/CN113971208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提出了基于混合注意力机制的视频对象定位方法及系统,本发明属于视频处理技术领域,包括:获得视频数据以及自然语言描述数据;针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;针对提取对象提议的视觉特征,剔除每个对象提议中不被语义角色文本特征中的语义角色期待的特征表示,获得被增强的对象提议的视觉特征;对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得多模态特征;对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,进行视频对象定位。

Description

基于混合注意力机制的视频对象定位方法及系统
技术领域
本发明属于视频处理技术领域,尤其涉及基于混合注意力机制的视频对象定位方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
视频对象定位(
Figure 670011DEST_PATH_IMAGE001
)任务是利用自然语言描述作为查询条件,以求获取视频中与自然语言描述相关的对象位置信息,它是综合了计算机视觉领域与自然语言领域的一项基本任务,是目前计算机视觉的核心问题之一。该项任务无论在互联网领域还是国防安全领域都存在一定的应用场景。比如需要查询某段视频中的目标人物时,由于视频本身存在的信息量庞大且复杂,而对于用人工去逐帧判别的方法,十分费力。该任务可以有效缓解以上问题,既不会带有个人的认知偏差,也省去了大量的人力和物力。
但是,对视频对象定位任务的研究,存在一定的困难,具体原因如下:
1)同一对象类别下包含多个实例。对于单实例任务,也就是说,视频中只包含一个人,一个球或者一只猫,仅仅依赖目标检测系统就能很好的解决该类问题。但是,这类任务并不具备一般性。对于实际应用场景下的视频,同一对象类别大多包含多个实例。也就是说,视频中不应当只包含一个人,一个球,或一只猫,而是多个人,多个球或者多只猫存在于同一视频中。较之单实例任务,该类多实例任务更加复杂,其不仅需要依靠对象的外貌特征和行为特征对各个实例进行区分,还需对不同对象或者不同实例之间的隐含关系进行探索。
2)跨模态匹配。视频和自然语言描述属于不同模态空间,为了让视频和自然语言描述之间更好地建立匹配关系,需要在两个异构空间之间建立联系。而为两个不同的模态空间建立连接,一个非常重要的问题是,需要获取更加有效的视觉和文本特征。但是,从目标检测系统中获得的提议(
Figure 162173DEST_PATH_IMAGE002
)质量稂莠不齐,如何抑制低质量提议所带来的负影响,也是解决该问题的挑战之一。
围绕上述挑战,一个基于语义角色的视频对象定位方法被提出。其首先利用语义角色标注工具从自然语言描述中获取不同的语义角色词组,而后基于这些语义角色词组对视频中的目标实体进行定位。虽然取得了不错的定位结果,但是该方法存在一定的局限性,具体如下:一方面,上述方法只探索了两个对象之间的位置关系,并没有考虑由于提议本身质量不佳而导致虚假提议的问题。另一方面,该方法只是单纯的将语义角色中第一个词和最后一个词的表示提炼出来,作为语义角色词组的表征,忽略了词组中其他有意义词语的作用。此外,并未探究词组中是否所有词均具有实质的语义信息。若考虑无意义的词语过多,会使语义角色表征中蕴含噪声信息,这并不利于目标对象的精准定位。
发明内容
为克服上述现有技术的不足,本发明提供了基于混合注意力机制的视频对象定位方法及系统,本发明使得视频对象定位任务的准确度有一定的提高。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
第一方面,公开了基于混合注意力机制的视频对象定位方法,包括:
获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
作为进一步的技术方案,获得视频数据之后,将视频数据均等分为多个视频片段,从每个视频片段中抽取中间帧,并将抽取的所有中间帧组成视频输入。
作为进一步的技术方案,获得自然语言描述数据之后,利用语义角色标注工具为查询语句分配多个语义角色标签,其中,自然语言描述即为查询语句。
作为进一步的技术方案,提取对象提议的视觉特征时,使用目标检测系统对视频输入中的每一帧提取对象提议集合以及对象提议的位置信息,其中,对象提议集合中包括对象提议视觉特征;
优选的,利用动作分类系统提取视频的全局视觉特征;
优选的,分别对视频所有对象提议特征组成的矩阵以及视频的全局视觉特征利用一层线性结构和激活函数进行维度映射。
作为进一步的技术方案,针对自然语言描述数据,提取词隐藏向量表示,具体为:
记查询语句词向量的初始表示;
令初始表示输入至双向长短期记忆网络,在该网络中将相关的上下文信息编码内嵌入各自词向量,得到词隐藏向量表示;
将词隐藏向量表示的维度通过一层线性结构和激活函数映射到与对象提议特征或全局视觉特征同一维度,得到单词级特征及句子级特征。
作为进一步的技术方案,还包括:将查询语句的单词级特征与句子级特征进行融合,得到嵌入全局信息的词级表示;
令嵌入全局信息的词级表示中词向量表示与各个语义角色中词的位置对照,则得到由词向量组成的多个语义角色的表示。
作为进一步的技术方案,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征,具体为:
利用文本自注意力机制学习语义角色中每一个单词的注意力分数;
每个语义角色的注意力分数表示中的每一个分数分别与其对应的语义角色的词向量表示进行元素乘法,得到削弱/增强的单词表示;
将得到的每个语义角色所含的所有单词信息进行求和,得到最终的语义角色文本特征。
作为进一步的技术方案,获得被增强的对象提议的视觉特征的过程为:
计算语义角色文本特征与对象提议视觉特征之间的相似性得分,构建对象提议基于每个语义角色间的注意力权重矩阵;
利用对象提议基于每个语义角色间的注意力权重矩阵完成对视频内对象提议节点的过滤。
作为进一步的技术方案,对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,具体为:
串联视觉对象融合特征和语义角色文本特征,获得多模态特征;
利用将相对位置信息编码和自注意力机制相结合的
Figure 138219DEST_PATH_IMAGE003
模型,获得嵌入相关上下文信息的跨模态融合特征;
计算视觉对象与语义角色两两之间的匹配度矩阵,预测与查询描述相关的对象位置信息。
第二方面,公开了基于混合注意力机制的视频对象定位系统,包括:
输入数据处理模块,被配置为:获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
语义角色编码模块,被配置为:针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
语义角色感知的注意力模块,被配置为:针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
局部-全局视觉特征聚合模块,被配置为:对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
跨模态特征融合模块,被配置为:对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
以上一个或多个技术方案存在以下有益效果:
针对视频对象多实例问题,本发明提出了语义角色感知的注意力模块,它能够有效的抑制视频对象无关实例信息,让模型学习的注意力集中在视频目标对象上。
为避免在语义角色信息编码过程中引入过多无实质意义的词语信息,本发明将全局句子信息作为指导信息,利用自注意力学习模块,促使模型过滤无关信息,并关注于有益于精炼表征语义角色的词编码信息。
较之之前的方法,本发明使得视频对象定位任务的准确度有一定的提高。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例的流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
参见附图1所示,本实施例公开了基于混合注意力机制的视频对象定位方法,(
Figure 678922DEST_PATH_IMAGE004
Figure 135442DEST_PATH_IMAGE005
为可学习参数),包括:
步骤一:输入数据处理步骤,其中,输入数据包括视频数据、自然语言描述(查询语句)数据;
关于视频数据:
假设视频
Figure 470608DEST_PATH_IMAGE006
Figure 261847DEST_PATH_IMAGE007
为视频中第
Figure 29077DEST_PATH_IMAGE008
Figure 589371DEST_PATH_IMAGE009
的图像,
Figure 95439DEST_PATH_IMAGE010
Figure 863720DEST_PATH_IMAGE011
的宽度,
Figure 808542DEST_PATH_IMAGE012
Figure 161026DEST_PATH_IMAGE013
的高度,上述参数将用于计算提议对象节点位置信息。
首先,
Figure 729673DEST_PATH_IMAGE014
帧被均等分为
Figure 167607DEST_PATH_IMAGE015
个视频片段,即
Figure 401273DEST_PATH_IMAGE016
,其中,
Figure 873843DEST_PATH_IMAGE017
为第
Figure 721713DEST_PATH_IMAGE018
个视频片段。
然后,从每个视频片段
Figure 709261DEST_PATH_IMAGE019
中抽取中间帧,并将抽取的所有中间帧组成视频输入,记为
Figure 684301DEST_PATH_IMAGE020
Figure 824427DEST_PATH_IMAGE021
为第
Figure 108778DEST_PATH_IMAGE022
个视频片段的中间帧。通过上述方式处理视频,一方面,可以保证输入视频时序长度相同;另一方面,可以保证在尽可能保留完整信息的情况下,防止信息量过多所造成的模型计算困难问题,其依据在于,对于提议对象节点来说,一个较小间隔内,其静态特征基本不会有太大浮动,所以小间隔内取代表,可以保证提议对象节点信息完整。
关于自然语言描述(查询语句)数据:
假设查询语句
Figure 334354DEST_PATH_IMAGE023
Figure 909823DEST_PATH_IMAGE024
为查询语句中第
Figure 717504DEST_PATH_IMAGE025
个单词。利用语义角色标注工具为查询语句分配
Figure 172756DEST_PATH_IMAGE026
个语义角色标签,每个语义角色标签记为
Figure 134896DEST_PATH_IMAGE027
,所以查询语句
Figure 701006DEST_PATH_IMAGE028
被分为
Figure 625096DEST_PATH_IMAGE029
个语义角色,此时被标注后的查询语句记为
Figure 313566DEST_PATH_IMAGE030
Figure 700685DEST_PATH_IMAGE031
,其中,
Figure 617957DEST_PATH_IMAGE032
的长度只与该语义角色的表征意义有关,即每个
Figure 587181DEST_PATH_IMAGE033
Figure 384236DEST_PATH_IMAGE034
不同。
分配语义角色标签,一方面,任务目标定位的就是上述语义角色信息,而对查询语句进行划分处理,更有利于定位;另一方面,候选提议框有干扰信息,语义角色标签相较于较长的语言查询,包含的语义信息更加明确,利于过滤实现。
步骤二:编码器处理步骤:
2-1)利用视频编码器对视频数据进行处理:
第一步,提议对象视觉特征以及位置信息提取;
对象提议:使用
Figure 806121DEST_PATH_IMAGE035
目标检测系统对
Figure 979613DEST_PATH_IMAGE036
中的每一帧
Figure 990295DEST_PATH_IMAGE037
提取对象提议集合
Figure 771300DEST_PATH_IMAGE038
以及对象提议的位置信息
Figure 867432DEST_PATH_IMAGE039
,其中,
Figure 126506DEST_PATH_IMAGE040
为第
Figure 257273DEST_PATH_IMAGE041
帧第
Figure 458447DEST_PATH_IMAGE042
个对象的提议视觉特征,
Figure 605657DEST_PATH_IMAGE043
为每帧对象提议的个数,记视频所有对象提议特征组成的矩阵为
Figure 855373DEST_PATH_IMAGE044
,记对象提议的位置信息为
Figure 840646DEST_PATH_IMAGE045
Figure 212722DEST_PATH_IMAGE046
为第
Figure 283446DEST_PATH_IMAGE047
帧第
Figure 149902DEST_PATH_IMAGE048
个对象的提议位置信息。
全局视觉特征提取:
利用
Figure 740415DEST_PATH_IMAGE049
动作分类系统提取视频的全局视觉特征
Figure 221074DEST_PATH_IMAGE050
,其中,
Figure 575832DEST_PATH_IMAGE051
为第
Figure 432930DEST_PATH_IMAGE052
个视频动作片段的全局表示。原则上
Figure 127217DEST_PATH_IMAGE053
不单靠
Figure 580108DEST_PATH_IMAGE054
生成,需要考虑当前帧的前后帧信息。
第二步,分别对
Figure 376157DEST_PATH_IMAGE055
Figure 833683DEST_PATH_IMAGE056
利用一层线性结构和激活函数
Figure 382476DEST_PATH_IMAGE057
把维度映射为同一维度
Figure 470518DEST_PATH_IMAGE058
,即:
Figure 550601DEST_PATH_IMAGE059
Figure 296971DEST_PATH_IMAGE060
Figure 965850DEST_PATH_IMAGE061
Figure 37842DEST_PATH_IMAGE062
至此,对象提议视觉特征为
Figure 526592DEST_PATH_IMAGE063
Figure 529183DEST_PATH_IMAGE064
;全局视觉特征为
Figure 114885DEST_PATH_IMAGE065
Figure 279150DEST_PATH_IMAGE066
上述将
Figure 520776DEST_PATH_IMAGE067
Figure 874528DEST_PATH_IMAGE068
映射为同一维度的方式,便于后续融合处理(“局部-全局视觉特征聚合”阶段),同时可以降低参数量。
2-2)利用查询编码器对自然语言描述(查询语句)数据处理:
记查询语句词向量(词向量是从现有词表中,通过查单词索引位置而得到的词嵌入表示)初始表示为
Figure 252420DEST_PATH_IMAGE069
第一步,词隐藏向量表示提取。我们令
Figure 915482DEST_PATH_IMAGE070
经过2层双向
Figure 254191DEST_PATH_IMAGE071
(注:双向
Figure 270688DEST_PATH_IMAGE072
输入维度为
Figure 768666DEST_PATH_IMAGE073
,输出维度为
Figure 291045DEST_PATH_IMAGE074
)将相关的上下文信息编码内嵌入各自词向量,并得到它们隐藏向量表示
Figure 507263DEST_PATH_IMAGE075
(注:当
Figure 389768DEST_PATH_IMAGE076
时,初始隐藏向量
Figure 804569DEST_PATH_IMAGE077
Figure 356904DEST_PATH_IMAGE078
),此时得到
Figure 607888DEST_PATH_IMAGE079
Figure 294084DEST_PATH_IMAGE080
Figure 501075DEST_PATH_IMAGE081
的第
Figure 676841DEST_PATH_IMAGE082
个隐藏向量表示。
第二步,将词隐藏向量的维度通过一层线性结构和激活函数
Figure 602072DEST_PATH_IMAGE083
映射到与对象提议特征(或全局视觉特征)同一维度
Figure 639429DEST_PATH_IMAGE084
,即
Figure 966505DEST_PATH_IMAGE085
Figure 250856DEST_PATH_IMAGE086
至此得到单词级特征
Figure 460120DEST_PATH_IMAGE087
Figure 488119DEST_PATH_IMAGE088
;句子级特征
Figure 482751DEST_PATH_IMAGE089
Figure 938003DEST_PATH_IMAGE090
上述将
Figure 837826DEST_PATH_IMAGE091
映射为与
Figure 466254DEST_PATH_IMAGE056
(或者
Figure 502343DEST_PATH_IMAGE092
)同一维度的方式,便于后续融合处理(“跨模态融合”阶段),获得多模态特征,同时可以降低参数量。
步骤三:语义角色编码处理步骤:
3-1)引入全局信息,将查询语句的单词级特征
Figure 941546DEST_PATH_IMAGE093
与句子级特征
Figure 63085DEST_PATH_IMAGE094
进行融合,得到嵌入全局信息的词级表示
Figure 432887DEST_PATH_IMAGE095
Figure 651379DEST_PATH_IMAGE096
3-2)令
Figure 448433DEST_PATH_IMAGE097
中词向量表示与各个语义角色中词的位置对照,则得到了由向量组成的
Figure 882037DEST_PATH_IMAGE098
个语义角色的表示,记为
Figure 789950DEST_PATH_IMAGE099
Figure 800632DEST_PATH_IMAGE100
为用隐藏词向量组成的第
Figure 830905DEST_PATH_IMAGE102
个语义角色表示序列,
Figure 927037DEST_PATH_IMAGE103
Figure 451690DEST_PATH_IMAGE104
中第
Figure 582457DEST_PATH_IMAGE105
个隐藏词向量,每个
Figure 721314DEST_PATH_IMAGE106
Figure 101480DEST_PATH_IMAGE107
不同。
3-3)为了成功过滤各个语义角色中无实质意义的单词信息,增强重要的特征信息,本发明引入自注意力机制,具体地:
第一步,利用自注意力机制学习语义角色中每一个单词的注意力分数,
Figure 616775DEST_PATH_IMAGE108
公式表示如下:
Figure 415098DEST_PATH_IMAGE109
其中
Figure 724856DEST_PATH_IMAGE110
为第
Figure 530001DEST_PATH_IMAGE111
个语义角色的注意力分数向量,
Figure 645725DEST_PATH_IMAGE112
为所有语义角色自注意力分数组成的集合。
第二步,获得精炼的语义角色特征。
首先,第
Figure 485505DEST_PATH_IMAGE102
个语义角色的注意力分数表示
Figure 966165DEST_PATH_IMAGE113
中的每一个分数分别与其对应的语义角色的词向量表示
Figure 337235DEST_PATH_IMAGE114
进行相乘,得到削弱/增强的单词表示
Figure 928753DEST_PATH_IMAGE115
。精炼后的语义角色表示集合记为
Figure 950936DEST_PATH_IMAGE116
Figure 602497DEST_PATH_IMAGE117
接着,将得到的每个语义角色所含的所有单词信息进行求和,得到最终精炼的语义角色文本特征
Figure 382234DEST_PATH_IMAGE118
Figure 590492DEST_PATH_IMAGE119
为第
Figure 404865DEST_PATH_IMAGE120
个语义角色特征向量;
步骤四:语义角色感知的注意力处理步骤:
4-1)计算对象提议基于每个语义角色的注意力权重值。
使用余弦函数计算语义角色特征
Figure 289644DEST_PATH_IMAGE121
与对象提议视觉特征
Figure 556677DEST_PATH_IMAGE122
之间的相似性得分,构建对象提议基于每个语义角色间的注意力权重矩阵
Figure 755578DEST_PATH_IMAGE123
Figure 237506DEST_PATH_IMAGE124
为第
Figure 230869DEST_PATH_IMAGE125
帧第
Figure 47516DEST_PATH_IMAGE126
个对象提议分别与
Figure 50107DEST_PATH_IMAGE127
个语义角色的相似性得分向量表示,
Figure 573492DEST_PATH_IMAGE128
为第
Figure 550806DEST_PATH_IMAGE129
帧中的第
Figure 730115DEST_PATH_IMAGE130
个对象提议与第
Figure 270818DEST_PATH_IMAGE131
个语义角色的相似性得分。
上诉描述可以用公式简化为:
Figure 461759DEST_PATH_IMAGE132
4-2)利用对象提议基于每个语义角色间的注意力权重矩阵
Figure 62504DEST_PATH_IMAGE133
完成对视频内对象提议节点
Figure 588164DEST_PATH_IMAGE134
的过滤。
第一步,对
Figure 932557DEST_PATH_IMAGE135
Figure 164956DEST_PATH_IMAGE136
进行扩充。将
Figure 749652DEST_PATH_IMAGE137
扩充为
Figure 700290DEST_PATH_IMAGE138
Figure 645113DEST_PATH_IMAGE139
扩充为
Figure 997596DEST_PATH_IMAGE140
第二步,利用
Figure 940145DEST_PATH_IMAGE141
抑制无关对象提议信息。对
Figure 191129DEST_PATH_IMAGE142
与对象提议视觉特征
Figure 877325DEST_PATH_IMAGE143
使用元素乘法,抑制每个对象提议中不被
Figure 146632DEST_PATH_IMAGE144
个语义角色期待的特征表示,
Figure 260082DEST_PATH_IMAGE145
Figure 185312DEST_PATH_IMAGE146
为第
Figure 222670DEST_PATH_IMAGE125
帧中的第
Figure 549746DEST_PATH_IMAGE147
个对象提议经第
Figure 630834DEST_PATH_IMAGE148
个语义角色过滤后的部分。
第三步,获得对象提议经
Figure 43361DEST_PATH_IMAGE127
个语义角色过滤后的整体表示。将对象提议经被
Figure 71360DEST_PATH_IMAGE149
个语义角色过滤后所保留的关联特征表示累加并取均值,记
Figure 65992DEST_PATH_IMAGE150
Figure 521244DEST_PATH_IMAGE151
Figure 217804DEST_PATH_IMAGE152
第四步,经过一层线性结构与激活函数
Figure 783915DEST_PATH_IMAGE153
,至此,得到的被增强的对象提议视觉特征记为:
Figure 85583DEST_PATH_IMAGE154
Figure 524786DEST_PATH_IMAGE155
为第
Figure 646326DEST_PATH_IMAGE125
帧第
Figure 78444DEST_PATH_IMAGE042
个被增强的对象提议视觉特征。
步骤五:局部-全局视觉特征聚合步骤:
5-1)对被增强的对象提议视觉特征
Figure 234619DEST_PATH_IMAGE156
与视频的全局视觉特征
Figure 31674DEST_PATH_IMAGE157
进行初步融合。
第一步,对视频的全局视觉特征维度进行扩充,
Figure 453559DEST_PATH_IMAGE158
扩充为
Figure 361472DEST_PATH_IMAGE159
第二步,令每个对象的提议视觉特征嵌入所属的视频的片段视觉信息。采用对象提议视觉特征
Figure 434470DEST_PATH_IMAGE160
与视频的全局视觉特征
Figure 402426DEST_PATH_IMAGE161
串联的方法,得到初步的视觉融合特征
Figure 498558DEST_PATH_IMAGE162
Figure 23212DEST_PATH_IMAGE163
为第
Figure 888400DEST_PATH_IMAGE052
帧第
Figure 89574DEST_PATH_IMAGE164
个对象提议特征与第
Figure 673002DEST_PATH_IMAGE022
个视频片段的视觉特征的串联视觉特征。
5-2)将
Figure 188297DEST_PATH_IMAGE165
通过单向
Figure 709322DEST_PATH_IMAGE166
(注:单向
Figure 19080DEST_PATH_IMAGE167
输入维度为
Figure 152121DEST_PATH_IMAGE168
,输出维度为
Figure 205528DEST_PATH_IMAGE169
),进一步探索对象之间有关时序上的关系,
Figure 45308DEST_PATH_IMAGE170
至此,记最终的视觉融合特征表示为
Figure 339017DEST_PATH_IMAGE171
Figure 897038DEST_PATH_IMAGE172
为第
Figure 550873DEST_PATH_IMAGE129
帧第
Figure 245159DEST_PATH_IMAGE173
个已融合时序关系的对象提议视觉特征。
步骤六:跨模态特征融合步骤:
该部分分为初步融合与最终融合两个子模块:
6-1)初步融合,获得多模态特征。
第一步,对视觉融合特征表示
Figure 975349DEST_PATH_IMAGE174
和语义角色文本特征
Figure 755086DEST_PATH_IMAGE175
进行维度扩充。
Figure 212612DEST_PATH_IMAGE176
扩充为
Figure 26985DEST_PATH_IMAGE177
Figure 662496DEST_PATH_IMAGE178
扩充为
Figure 929530DEST_PATH_IMAGE179
第二步,将语义角色文本特征嵌入到视觉特征中。对
Figure 128430DEST_PATH_IMAGE180
Figure 859626DEST_PATH_IMAGE181
采用串联的方法,
Figure 852989DEST_PATH_IMAGE182
,得到的初步融合的多模态特征记为
Figure 420368DEST_PATH_IMAGE183
Figure 157380DEST_PATH_IMAGE184
为第
Figure 680765DEST_PATH_IMAGE185
语义角色与第
Figure 172926DEST_PATH_IMAGE018
帧第
Figure 414552DEST_PATH_IMAGE126
个对象视觉特征的串联特征。
6-2)最终融合。
第一步,计算相对位置信息编码。首先,计算同帧两两对象提议之间的相对距离,接着利用一层线性结构和激活函数
Figure 502725DEST_PATH_IMAGE186
把维度由5映射为3,记相对位置信息编码为
Figure 146196DEST_PATH_IMAGE187
,其中
Figure 481362DEST_PATH_IMAGE188
为第
Figure 272600DEST_PATH_IMAGE173
帧图像内
Figure 351415DEST_PATH_IMAGE189
Figure 662442DEST_PATH_IMAGE190
Figure 434089DEST_PATH_IMAGE189
Figure 384727DEST_PATH_IMAGE191
可以相等且最大值只可取到
Figure 329549DEST_PATH_IMAGE192
)两个对象提议之间的相对位置信息编码。
Figure 682033DEST_PATH_IMAGE193
Figure 437631DEST_PATH_IMAGE194
两个对象提议的位置信息分别为
Figure 875565DEST_PATH_IMAGE195
Figure 296182DEST_PATH_IMAGE196
,则上诉过程可以表示为:
Figure 831069DEST_PATH_IMAGE197
Figure 944518DEST_PATH_IMAGE198
第二步,获得跨模态融合特征。
首先,将相对位置信息编码作为额外注意线索与自注意力机制相结合,并入
Figure 682798DEST_PATH_IMAGE199
模型中。接着,将初步融合的多模态特征
Figure 907106DEST_PATH_IMAGE200
经过不同的权重矩阵
Figure 968603DEST_PATH_IMAGE201
Figure 315271DEST_PATH_IMAGE202
Figure 727798DEST_PATH_IMAGE203
打包为
Figure 755797DEST_PATH_IMAGE204
Figure 750429DEST_PATH_IMAGE205
Figure 940102DEST_PATH_IMAGE206
作为上诉
Figure 902241DEST_PATH_IMAGE207
(注:
Figure 468352DEST_PATH_IMAGE208
输入维度为
Figure 770020DEST_PATH_IMAGE209
,输出维度为
Figure 943644DEST_PATH_IMAGE210
)模型的输入,最终得到视频的对象提议与查询语句的语义角色的跨模态融合特征
Figure 330763DEST_PATH_IMAGE211
Figure 762881DEST_PATH_IMAGE212
Figure 653477DEST_PATH_IMAGE213
Figure 263581DEST_PATH_IMAGE214
第三步,计算各个语义角色与视频中所有对象提议的匹配分数矩阵。经过两层线性层与一个激活函数
Figure 872417DEST_PATH_IMAGE215
得到最终查询语句中各个语义角色与视频中所有对象提议的匹配分数矩阵,记为
Figure 45909DEST_PATH_IMAGE216
Figure 118907DEST_PATH_IMAGE217
Figure 86863DEST_PATH_IMAGE218
Figure 996044DEST_PATH_IMAGE219
Figure 707649DEST_PATH_IMAGE220
为第
Figure 572836DEST_PATH_IMAGE221
个语义角色与视频内第
Figure 774011DEST_PATH_IMAGE222
对象提议的匹配分数。
步骤七:损失处理步骤:
针对上述结果,利用二元交叉熵损失(
Figure 357439DEST_PATH_IMAGE223
)作为目标函数,以令预测结果与真实值(
Figure 420204DEST_PATH_IMAGE224
)重叠为训练目标,不断进行反向传播训练,保存最小损失网络模型。
将视频-查询对输入到训练好的网络模型中进行预测,得到与自然语言描述内语义角色相符的目标对象位置信息。
实施例二
本实施例的目的是提供了基于混合注意力机制的视频对象定位系统,包括:
输入数据处理模块,被配置为:获得视频数据以及自然语言描述数据;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
语义角色编码模块,被配置为:针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
语义角色感知的注意力模块,被配置为:针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
局部-全局视觉特征聚合模块,被配置为:对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
跨模态特征融合模块,被配置为:对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位。
其中,输入数据处理模块中,视频数据:利用均匀采样的方法,从视频中抽取
Figure 405477DEST_PATH_IMAGE225
帧作为视频输入。
自然语言描述(查询语句)数据:利用语义角色标注工具(
Figure 715236DEST_PATH_IMAGE226
)为查询语句显性标注语义角色标签,得到语义角色词组信息。
编码器包括:
视频编码器:对视频数据使用
Figure 848277DEST_PATH_IMAGE227
目标检测系统进行对象提议检测,同时获取对象提议的视觉特征信息。与此同时,利用时序分段网络(
Figure 901684DEST_PATH_IMAGE228
,简称
Figure 554513DEST_PATH_IMAGE229
)将视频按动作类别划分视频片段,并提取视频的全局视觉特征信息。
查询编码器:运用双向
Figure 35173DEST_PATH_IMAGE230
为每个单词内嵌入相关的上下文信息,获取单词级特征与句子级特征。
上述语义角色编码模块利用自注意力机制增强具有实质语义的词向量信息,同时过滤了无关语义的词向量信息,由此来获取语义角色的文本特征。
本发明语义角色感知的注意力模块用于:获取视频帧内所含的每个对象提议与所有语义角色的潜在联系,自适应的获得对象提议基于每个语义角色的注意力权重值。
使用对象提议的注意力权重矩阵完成对视频内对象提议节点的过滤,最大保留有用信息,抑制不符合语义角色期待的对象提议节点信息。
局部-全局视觉特征聚合模块:首先,为每个对象引入对应视频片段的全局视觉特征信息;接着,利用单向
Figure 327614DEST_PATH_IMAGE231
网络,使得对象提议学习时序上的关系编码,从而完成视频中每个对象相关信息的聚合,获得视觉对象融合特征。
跨模态特征融合模块:首先,串联视觉对象融合特征和语义角色文本特征,获得多模态特征;接着,利用将相对位置信息编码和自注意力机制相结合的
Figure 247028DEST_PATH_IMAGE232
模型,获得嵌入相关上下文信息的跨模态融合特征;最后,计算视觉对象与语义角色两两之间的匹配度矩阵,预测与查询描述相关的对象位置信息。
还包括损失模块:目标函数为二元交叉熵损失
Figure 941315DEST_PATH_IMAGE233
)。
以上实施例二与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (7)

1.基于混合注意力机制的视频对象定位方法,其特征是,包括:
获得视频数据以及自然语言描述数据;具体的,获得自然语言描述数据之后,利用语义角色标注工具为查询语句分配多个语义角色标签,其中,自然语言描述即为查询语句;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
其中,获得词隐藏向量表示的过程为:
记查询语句词向量的初始表示;
令初始表示输入至双向长短期记忆网络,在该网络中将相关的上下文信息编码内嵌入各自词向量,得到词隐藏向量表示;
其中,获得语义角色文本特征的过程为:
利用文本自注意力机制学习语义角色中每一个单词的注意力分数;
每个语义角色的注意力分数表示中的每一个分数分别与其对应的语义角色的词向量表示进行元素乘法,得到削弱/增强的单词表示;
将得到的每个语义角色所含的所有单词信息进行求和,得到最终的语义角色文本特征;
针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
其中,获得被增强的对象提议的视觉特征的过程为:
计算语义角色文本特征与对象提议视觉特征之间的相似性得分,构建对象提议基于每个语义角色间的注意力权重矩阵;
利用对象提议基于每个语义角色间的注意力权重矩阵完成对视频内对象提议节点的过滤,获得被增强的对象提议的视觉特征;
对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
其中,获得视觉对象融合特征的过程为:
为每个对象引入对应视频片段的全局视觉特征信息;
利用单向LSTM网络,使得对象提议学习时序上的关系编码,从而完成视频中每个对象相关信息的聚合,获得视觉对象融合特征;
对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位;
其中,获得跨模态融合特征的过程为:
串联视觉对象融合特征和语义角色文本特征,获得多模态特征;
利用将相对位置信息编码和自注意力机制相结合的Transformer模型,获得嵌入相关上下文信息的跨模态融合特征。
2.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,获得视频数据之后,将视频数据均等分为多个视频片段,从每个视频片段中抽取中间帧,并将抽取的所有中间帧组成视频输入。
3.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,提取对象提议的视觉特征时,使用目标检测系统对视频输入中的每一帧提取对象提议集合以及对象提议的位置信息,其中,对象提议集合中包括对象提议视觉特征;
利用动作分类系统提取视频的全局视觉特征;
分别对视频所有对象提议特征组成的矩阵以及视频的全局视觉特征利用一层线性结构和激活函数进行维度映射。
4.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征,具体包括:
将词隐藏向量表示的维度通过一层线性结构和激活函数映射到与对象提议特征或全局视觉特征同一维度,得到单词级特征及句子级特征。
5.如权利要求4所述的基于混合注意力机制的视频对象定位方法,其特征是,还包括:
将查询语句的单词级特征与句子级特征进行融合,得到嵌入全局信息的词级表示;
令嵌入全局信息的词级表示中词向量表示与各个语义角色中词的位置对照,则得到由向量组成的多个语义角色的表示。
6.如权利要求1所述的基于混合注意力机制的视频对象定位方法,其特征是,对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位,具体还包括:
计算视觉对象与语义角色两两之间的匹配度矩阵,预测与查询描述相关的对象位置信息。
7.基于混合注意力机制的视频对象定位系统,其特征是,包括:
输入数据处理模块,被配置为:获得视频数据以及自然语言描述数据;具体的,获得自然语言描述数据之后,利用语义角色标注工具为查询语句分配多个语义角色标签,其中,自然语言描述即为查询语句;
针对视频数据,提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征;
语义角色编码模块,被配置为:针对自然语言描述数据,提取词隐藏向量表示,利用文本自注意力机制处理词隐藏向量表示,获取语义角色文本特征;
其中,获得词隐藏向量表示的过程为:
记查询语句词向量的初始表示;
令初始表示输入至双向长短期记忆网络,在该网络中将相关的上下文信息编码内嵌入各自词向量,得到词隐藏向量表示;其中,获得语义角色文本特征的过程为:
利用文本自注意力机制学习语义角色中每一个单词的注意力分数;
每个语义角色的注意力分数表示中的每一个分数分别与其对应的语义角色的词向量表示进行元素乘法,得到削弱/增强的单词表示;
将得到的每个语义角色所含的所有单词信息进行求和,得到最终的语义角色文本特征;
语义角色感知的注意力模块,被配置为:针对提取对象提议的视觉特征,抑制每个对象提议中不被语义角色期待的特征表示,获得被增强的对象提议的视觉特征;
其中,获得被增强的对象提议的视觉特征的过程为:
计算语义角色文本特征与对象提议视觉特征之间的相似性得分,构建对象提议基于每个语义角色间的注意力权重矩阵;
利用对象提议基于每个语义角色间的注意力权重矩阵完成对视频内对象提议节点的过滤,获得被增强的对象提议的视觉特征;
局部-全局视觉特征聚合模块,被配置为:对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合,获得视觉对象融合特征;
其中,获得视觉对象融合特征的过程为:
为每个对象引入对应视频片段的全局视觉特征信息;
利用单向LSTM网络,使得对象提议学习时序上的关系编码,从而完成视频中每个对象相关信息的聚合,获得视觉对象融合特征;
跨模态特征融合模块,被配置为:对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合,得到跨模态融合特征,利用跨模态融合特征进行视频对象定位;
其中,获得跨模态融合特征的过程为:
串联视觉对象融合特征和语义角色文本特征,获得多模态特征;
利用将相对位置信息编码和自注意力机制相结合的Transformer模型,获得嵌入相关上下文信息的跨模态融合特征。
CN202111577033.9A 2021-12-22 2021-12-22 基于混合注意力机制的视频对象定位方法及系统 Active CN113971208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111577033.9A CN113971208B (zh) 2021-12-22 2021-12-22 基于混合注意力机制的视频对象定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111577033.9A CN113971208B (zh) 2021-12-22 2021-12-22 基于混合注意力机制的视频对象定位方法及系统

Publications (2)

Publication Number Publication Date
CN113971208A CN113971208A (zh) 2022-01-25
CN113971208B true CN113971208B (zh) 2022-05-06

Family

ID=79590774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111577033.9A Active CN113971208B (zh) 2021-12-22 2021-12-22 基于混合注意力机制的视频对象定位方法及系统

Country Status (1)

Country Link
CN (1) CN113971208B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115223086B (zh) * 2022-09-20 2022-12-06 之江实验室 基于交互注意力引导与修正的跨模态动作定位方法与系统
CN117152669B (zh) * 2023-10-30 2024-02-06 华中科技大学 一种跨模态时域视频定位方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019179496A1 (en) * 2018-03-22 2019-09-26 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Method and system for retrieving video temporal segments
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
US11210572B2 (en) * 2018-12-17 2021-12-28 Sri International Aligning symbols and objects using co-attention for understanding visual content
CN111464881B (zh) * 2019-01-18 2021-08-13 复旦大学 基于自优化机制的全卷积视频描述生成方法
EP3703381A1 (en) * 2019-02-28 2020-09-02 InterDigital CE Patent Holdings Method and device for the search of content based on user search habits
CN112000818B (zh) * 2020-07-10 2023-05-12 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置
CN112380385B (zh) * 2020-11-18 2023-12-29 湖南大学 一种基于多模态关系图的视频时刻定位方法及设备

Also Published As

Publication number Publication date
CN113971208A (zh) 2022-01-25

Similar Documents

Publication Publication Date Title
CN112613303B (zh) 一种基于知识蒸馏的跨模态图像美学质量评价方法
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN113971208B (zh) 基于混合注意力机制的视频对象定位方法及系统
Yan et al. Video captioning using global-local representation
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
Tan et al. Drill-down: Interactive retrieval of complex scenes using natural language queries
CN114663915A (zh) 基于Transformer模型的图像人-物交互定位方法及系统
CN112800292A (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN115438674B (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN111683294B (zh) 一种信息抽取的弹幕评论推荐方法
CN113392265A (zh) 多媒体处理方法、装置及设备
CN110659392B (zh) 检索方法及装置、存储介质
CN114549317A (zh) 一种基于时空超分辨率的视频描述方法及电子设备
CN115311465A (zh) 一种基于双注意力模型的图像描述方法
CN116910307A (zh) 一种跨模态视频文本检索方法、系统、设备及介质
Chauhan et al. Analysis of Intelligent movie recommender system from facial expression
CN113963304A (zh) 基于时序-空间图的跨模态视频时序动作定位方法及系统
CN113741759B (zh) 评论信息的展示方法、装置、计算机设备和存储介质
CN115659242A (zh) 一种基于模态增强卷积图的多模态情感分类方法
CN116226320A (zh) 一种预测下文信息的方法、装置、电子设备及存储介质
CN112749556A (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN116702094B (zh) 一种群体应用偏好特征表示方法
CN116661940B (zh) 组件识别方法、装置、计算机设备和存储介质
CN113392221B (zh) 一种对薄实体的处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant