CN113971208B

CN113971208B - 基于混合注意力机制的视频对象定位方法及系统

Info

Publication number: CN113971208B
Application number: CN202111577033.9A
Authority: CN
Inventors: 刘萌; 周迪; 田传发; 齐孟津; 郭杰; 马玉玲
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-05-06
Anticipated expiration: 2041-12-22
Also published as: CN113971208A

Abstract

本发明提出了基于混合注意力机制的视频对象定位方法及系统，本发明属于视频处理技术领域，包括：获得视频数据以及自然语言描述数据；针对视频数据，提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征；针对自然语言描述数据，提取词隐藏向量表示，利用文本自注意力机制处理词隐藏向量表示，获取语义角色文本特征；针对提取对象提议的视觉特征，剔除每个对象提议中不被语义角色文本特征中的语义角色期待的特征表示，获得被增强的对象提议的视觉特征；对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合，获得多模态特征；对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，进行视频对象定位。

Description

基于混合注意力机制的视频对象定位方法及系统

技术领域

本发明属于视频处理技术领域，尤其涉及基于混合注意力机制的视频对象定位方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

视频对象定位（

）任务是利用自然语言描述作为查询条件，以求获取视频中与自然语言描述相关的对象位置信息，它是综合了计算机视觉领域与自然语言领域的一项基本任务，是目前计算机视觉的核心问题之一。该项任务无论在互联网领域还是国防安全领域都存在一定的应用场景。比如需要查询某段视频中的目标人物时，由于视频本身存在的信息量庞大且复杂，而对于用人工去逐帧判别的方法，十分费力。该任务可以有效缓解以上问题，既不会带有个人的认知偏差，也省去了大量的人力和物力。

但是，对视频对象定位任务的研究，存在一定的困难，具体原因如下：

1）同一对象类别下包含多个实例。对于单实例任务，也就是说，视频中只包含一个人，一个球或者一只猫，仅仅依赖目标检测系统就能很好的解决该类问题。但是，这类任务并不具备一般性。对于实际应用场景下的视频，同一对象类别大多包含多个实例。也就是说，视频中不应当只包含一个人，一个球，或一只猫，而是多个人，多个球或者多只猫存在于同一视频中。较之单实例任务，该类多实例任务更加复杂，其不仅需要依靠对象的外貌特征和行为特征对各个实例进行区分，还需对不同对象或者不同实例之间的隐含关系进行探索。

2）跨模态匹配。视频和自然语言描述属于不同模态空间，为了让视频和自然语言描述之间更好地建立匹配关系，需要在两个异构空间之间建立联系。而为两个不同的模态空间建立连接，一个非常重要的问题是，需要获取更加有效的视觉和文本特征。但是，从目标检测系统中获得的提议（

）质量稂莠不齐，如何抑制低质量提议所带来的负影响，也是解决该问题的挑战之一。

围绕上述挑战，一个基于语义角色的视频对象定位方法被提出。其首先利用语义角色标注工具从自然语言描述中获取不同的语义角色词组，而后基于这些语义角色词组对视频中的目标实体进行定位。虽然取得了不错的定位结果，但是该方法存在一定的局限性，具体如下：一方面，上述方法只探索了两个对象之间的位置关系，并没有考虑由于提议本身质量不佳而导致虚假提议的问题。另一方面，该方法只是单纯的将语义角色中第一个词和最后一个词的表示提炼出来，作为语义角色词组的表征，忽略了词组中其他有意义词语的作用。此外，并未探究词组中是否所有词均具有实质的语义信息。若考虑无意义的词语过多，会使语义角色表征中蕴含噪声信息，这并不利于目标对象的精准定位。

发明内容

为克服上述现有技术的不足，本发明提供了基于混合注意力机制的视频对象定位方法及系统，本发明使得视频对象定位任务的准确度有一定的提高。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了基于混合注意力机制的视频对象定位方法，包括：

获得视频数据以及自然语言描述数据；

针对视频数据，提取对象提议的视觉特征、对象提议的位置信息以及全局视觉特征；

针对自然语言描述数据，提取词隐藏向量表示，利用文本自注意力机制处理词隐藏向量表示，获取语义角色文本特征；

针对提取对象提议的视觉特征，抑制每个对象提议中不被语义角色期待的特征表示，获得被增强的对象提议的视觉特征；

对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合，获得视觉对象融合特征；

对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，得到跨模态融合特征，利用跨模态融合特征进行视频对象定位。

作为进一步的技术方案，获得视频数据之后，将视频数据均等分为多个视频片段，从每个视频片段中抽取中间帧，并将抽取的所有中间帧组成视频输入。

作为进一步的技术方案，获得自然语言描述数据之后，利用语义角色标注工具为查询语句分配多个语义角色标签，其中，自然语言描述即为查询语句。

作为进一步的技术方案，提取对象提议的视觉特征时，使用目标检测系统对视频输入中的每一帧提取对象提议集合以及对象提议的位置信息，其中，对象提议集合中包括对象提议视觉特征；

优选的，利用动作分类系统提取视频的全局视觉特征；

优选的，分别对视频所有对象提议特征组成的矩阵以及视频的全局视觉特征利用一层线性结构和激活函数进行维度映射。

作为进一步的技术方案，针对自然语言描述数据，提取词隐藏向量表示，具体为：

记查询语句词向量的初始表示；

令初始表示输入至双向长短期记忆网络，在该网络中将相关的上下文信息编码内嵌入各自词向量，得到词隐藏向量表示；

将词隐藏向量表示的维度通过一层线性结构和激活函数映射到与对象提议特征或全局视觉特征同一维度，得到单词级特征及句子级特征。

作为进一步的技术方案，还包括：将查询语句的单词级特征与句子级特征进行融合，得到嵌入全局信息的词级表示；

令嵌入全局信息的词级表示中词向量表示与各个语义角色中词的位置对照，则得到由词向量组成的多个语义角色的表示。

作为进一步的技术方案，利用文本自注意力机制处理词隐藏向量表示，获取语义角色文本特征，具体为：

利用文本自注意力机制学习语义角色中每一个单词的注意力分数；

每个语义角色的注意力分数表示中的每一个分数分别与其对应的语义角色的词向量表示进行元素乘法，得到削弱/增强的单词表示；

将得到的每个语义角色所含的所有单词信息进行求和，得到最终的语义角色文本特征。

作为进一步的技术方案，获得被增强的对象提议的视觉特征的过程为：

计算语义角色文本特征与对象提议视觉特征之间的相似性得分，构建对象提议基于每个语义角色间的注意力权重矩阵；

利用对象提议基于每个语义角色间的注意力权重矩阵完成对视频内对象提议节点的过滤。

作为进一步的技术方案，对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，具体为：

串联视觉对象融合特征和语义角色文本特征，获得多模态特征；

利用将相对位置信息编码和自注意力机制相结合的

模型，获得嵌入相关上下文信息的跨模态融合特征；

计算视觉对象与语义角色两两之间的匹配度矩阵，预测与查询描述相关的对象位置信息。

第二方面，公开了基于混合注意力机制的视频对象定位系统，包括：

输入数据处理模块，被配置为：获得视频数据以及自然语言描述数据；

语义角色编码模块，被配置为：针对自然语言描述数据，提取词隐藏向量表示，利用文本自注意力机制处理词隐藏向量表示，获取语义角色文本特征；

语义角色感知的注意力模块，被配置为：针对提取对象提议的视觉特征，抑制每个对象提议中不被语义角色期待的特征表示，获得被增强的对象提议的视觉特征；

局部-全局视觉特征聚合模块，被配置为：对被增强的对象提议视觉特征与视频的全局视觉特征进行初步融合，获得视觉对象融合特征；

跨模态特征融合模块，被配置为：对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，得到跨模态融合特征，利用跨模态融合特征进行视频对象定位。

以上一个或多个技术方案存在以下有益效果：

针对视频对象多实例问题，本发明提出了语义角色感知的注意力模块，它能够有效的抑制视频对象无关实例信息，让模型学习的注意力集中在视频目标对象上。

为避免在语义角色信息编码过程中引入过多无实质意义的词语信息，本发明将全局句子信息作为指导信息，利用自注意力学习模块，促使模型过滤无关信息，并关注于有益于精炼表征语义角色的词编码信息。

较之之前的方法，本发明使得视频对象定位任务的准确度有一定的提高。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例的流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

参见附图1所示，本实施例公开了基于混合注意力机制的视频对象定位方法，（

，

为可学习参数），包括：

步骤一：输入数据处理步骤，其中，输入数据包括视频数据、自然语言描述（查询语句）数据；

关于视频数据：

假设视频

，

为视频中第

帧

的图像，

为

的宽度，

为

的高度，上述参数将用于计算提议对象节点位置信息。

首先，

帧被均等分为

个视频片段，即

，其中，

为第

个视频片段。

然后，从每个视频片段

中抽取中间帧，并将抽取的所有中间帧组成视频输入，记为

，

为第

个视频片段的中间帧。通过上述方式处理视频，一方面，可以保证输入视频时序长度相同；另一方面，可以保证在尽可能保留完整信息的情况下，防止信息量过多所造成的模型计算困难问题，其依据在于，对于提议对象节点来说，一个较小间隔内，其静态特征基本不会有太大浮动，所以小间隔内取代表，可以保证提议对象节点信息完整。

关于自然语言描述（查询语句）数据：

假设查询语句

，

为查询语句中第

个单词。利用语义角色标注工具为查询语句分配

个语义角色标签，每个语义角色标签记为

，所以查询语句

被分为

个语义角色，此时被标注后的查询语句记为

，

，其中，

的长度只与该语义角色的表征意义有关，即每个

的

不同。

分配语义角色标签，一方面，任务目标定位的就是上述语义角色信息，而对查询语句进行划分处理，更有利于定位；另一方面，候选提议框有干扰信息，语义角色标签相较于较长的语言查询，包含的语义信息更加明确，利于过滤实现。

步骤二：编码器处理步骤：

2-1）利用视频编码器对视频数据进行处理：

第一步，提议对象视觉特征以及位置信息提取；

对象提议：使用

目标检测系统对

中的每一帧

提取对象提议集合

以及对象提议的位置信息

，其中，

为第

帧第

个对象的提议视觉特征，

为每帧对象提议的个数，记视频所有对象提议特征组成的矩阵为

，记对象提议的位置信息为

。

为第

帧第

个对象的提议位置信息。

全局视觉特征提取：

利用

动作分类系统提取视频的全局视觉特征

，其中，

为第

个视频动作片段的全局表示。原则上

不单靠

生成，需要考虑当前帧的前后帧信息。

第二步，分别对

与

利用一层线性结构和激活函数

把维度映射为同一维度

，即：

，

，

，

，

至此，对象提议视觉特征为

，

；全局视觉特征为

，

。

上述将

和

映射为同一维度的方式，便于后续融合处理（“局部-全局视觉特征聚合”阶段），同时可以降低参数量。

2-2）利用查询编码器对自然语言描述（查询语句）数据处理：

记查询语句词向量（词向量是从现有词表中，通过查单词索引位置而得到的词嵌入表示）初始表示为

。

第一步，词隐藏向量表示提取。我们令

经过2层双向

（注：双向

输入维度为

，输出维度为

）将相关的上下文信息编码内嵌入各自词向量，并得到它们隐藏向量表示

（注：当

时，初始隐藏向量

，

），此时得到

，

为

的第

个隐藏向量表示。

第二步，将词隐藏向量的维度通过一层线性结构和激活函数

映射到与对象提议特征（或全局视觉特征）同一维度

，即

，

。

至此得到单词级特征

，

；句子级特征

，

。

上述将

映射为与

（或者

）同一维度的方式，便于后续融合处理（“跨模态融合”阶段），获得多模态特征，同时可以降低参数量。

步骤三：语义角色编码处理步骤：

3-1）引入全局信息，将查询语句的单词级特征

与句子级特征

进行融合，得到嵌入全局信息的词级表示

，

。

3-2）令

中词向量表示与各个语义角色中词的位置对照，则得到了由向量组成的

个语义角色的表示，记为

，

为用隐藏词向量组成的第

个语义角色表示序列，

为

中第

个隐藏词向量，每个

的

不同。

3-3）为了成功过滤各个语义角色中无实质意义的单词信息，增强重要的特征信息，本发明引入自注意力机制，具体地：

第一步，利用自注意力机制学习语义角色中每一个单词的注意力分数，

公式表示如下：

其中

为第

个语义角色的注意力分数向量，

为所有语义角色自注意力分数组成的集合。

第二步，获得精炼的语义角色特征。

首先，第

个语义角色的注意力分数表示

中的每一个分数分别与其对应的语义角色的词向量表示

进行相乘，得到削弱/增强的单词表示

。精炼后的语义角色表示集合记为

，

。

接着，将得到的每个语义角色所含的所有单词信息进行求和，得到最终精炼的语义角色文本特征

。

为第

个语义角色特征向量；

步骤四：语义角色感知的注意力处理步骤：

4-1）计算对象提议基于每个语义角色的注意力权重值。

使用余弦函数计算语义角色特征

与对象提议视觉特征

之间的相似性得分，构建对象提议基于每个语义角色间的注意力权重矩阵

。

为第

帧第

个对象提议分别与

个语义角色的相似性得分向量表示，

为第

帧中的第

个对象提议与第

个语义角色的相似性得分。

上诉描述可以用公式简化为：

4-2）利用对象提议基于每个语义角色间的注意力权重矩阵

完成对视频内对象提议节点

的过滤。

第一步，对

与

进行扩充。将

扩充为

，

扩充为

；

第二步，利用

抑制无关对象提议信息。对

与对象提议视觉特征

使用元素乘法，抑制每个对象提议中不被

个语义角色期待的特征表示，

，

为第

帧中的第

个对象提议经第

个语义角色过滤后的部分。

第三步，获得对象提议经

个语义角色过滤后的整体表示。将对象提议经被

个语义角色过滤后所保留的关联特征表示累加并取均值，记

，

，

；

第四步，经过一层线性结构与激活函数

，至此，得到的被增强的对象提议视觉特征记为：

，

为第

帧第

个被增强的对象提议视觉特征。

步骤五：局部-全局视觉特征聚合步骤：

5-1）对被增强的对象提议视觉特征

与视频的全局视觉特征

进行初步融合。

第一步，对视频的全局视觉特征维度进行扩充，

扩充为

。

第二步，令每个对象的提议视觉特征嵌入所属的视频的片段视觉信息。采用对象提议视觉特征

与视频的全局视觉特征

串联的方法，得到初步的视觉融合特征

。

为第

帧第

个对象提议特征与第

个视频片段的视觉特征的串联视觉特征。

5-2）将

通过单向

（注：单向

输入维度为

，输出维度为

），进一步探索对象之间有关时序上的关系，

。

至此，记最终的视觉融合特征表示为

，

为第

帧第

个已融合时序关系的对象提议视觉特征。

步骤六：跨模态特征融合步骤：

该部分分为初步融合与最终融合两个子模块：

6-1）初步融合，获得多模态特征。

第一步，对视觉融合特征表示

和语义角色文本特征

进行维度扩充。

扩充为

；

扩充为

。

第二步，将语义角色文本特征嵌入到视觉特征中。对

与

采用串联的方法，

，得到的初步融合的多模态特征记为

，

为第

语义角色与第

帧第

个对象视觉特征的串联特征。

6-2）最终融合。

第一步，计算相对位置信息编码。首先，计算同帧两两对象提议之间的相对距离，接着利用一层线性结构和激活函数

把维度由5映射为3，记相对位置信息编码为

，其中

为第

帧图像内

和

（

和

可以相等且最大值只可取到

）两个对象提议之间的相对位置信息编码。

令

和

两个对象提议的位置信息分别为

与

，则上诉过程可以表示为：

，

第二步，获得跨模态融合特征。

首先，将相对位置信息编码作为额外注意线索与自注意力机制相结合，并入

模型中。接着，将初步融合的多模态特征

经过不同的权重矩阵

，

，

打包为

，

，

作为上诉

（注：

输入维度为

，输出维度为

）模型的输入，最终得到视频的对象提议与查询语句的语义角色的跨模态融合特征

，

，

；

第三步，计算各个语义角色与视频中所有对象提议的匹配分数矩阵。经过两层线性层与一个激活函数

得到最终查询语句中各个语义角色与视频中所有对象提议的匹配分数矩阵，记为

，

，

，

，

为第

个语义角色与视频内第

对象提议的匹配分数。

步骤七：损失处理步骤：

针对上述结果，利用二元交叉熵损失（

）作为目标函数，以令预测结果与真实值（

）重叠为训练目标，不断进行反向传播训练，保存最小损失网络模型。

将视频-查询对输入到训练好的网络模型中进行预测，得到与自然语言描述内语义角色相符的目标对象位置信息。

实施例二

本实施例的目的是提供了基于混合注意力机制的视频对象定位系统，包括：

其中，输入数据处理模块中，视频数据：利用均匀采样的方法，从视频中抽取

帧作为视频输入。

自然语言描述（查询语句）数据：利用语义角色标注工具（

）为查询语句显性标注语义角色标签，得到语义角色词组信息。

编码器包括：

视频编码器：对视频数据使用

目标检测系统进行对象提议检测，同时获取对象提议的视觉特征信息。与此同时，利用时序分段网络（

，简称

）将视频按动作类别划分视频片段，并提取视频的全局视觉特征信息。

查询编码器：运用双向

为每个单词内嵌入相关的上下文信息，获取单词级特征与句子级特征。

上述语义角色编码模块利用自注意力机制增强具有实质语义的词向量信息，同时过滤了无关语义的词向量信息，由此来获取语义角色的文本特征。

本发明语义角色感知的注意力模块用于：获取视频帧内所含的每个对象提议与所有语义角色的潜在联系，自适应的获得对象提议基于每个语义角色的注意力权重值。

使用对象提议的注意力权重矩阵完成对视频内对象提议节点的过滤，最大保留有用信息，抑制不符合语义角色期待的对象提议节点信息。

局部-全局视觉特征聚合模块：首先，为每个对象引入对应视频片段的全局视觉特征信息；接着，利用单向

网络，使得对象提议学习时序上的关系编码，从而完成视频中每个对象相关信息的聚合，获得视觉对象融合特征。

跨模态特征融合模块：首先，串联视觉对象融合特征和语义角色文本特征，获得多模态特征；接着，利用将相对位置信息编码和自注意力机制相结合的

模型，获得嵌入相关上下文信息的跨模态融合特征；最后，计算视觉对象与语义角色两两之间的匹配度矩阵，预测与查询描述相关的对象位置信息。

还包括损失模块：目标函数为二元交叉熵损失

（

）。

以上实施例二与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于混合注意力机制的视频对象定位方法，其特征是，包括：

获得视频数据以及自然语言描述数据；具体的，获得自然语言描述数据之后，利用语义角色标注工具为查询语句分配多个语义角色标签，其中，自然语言描述即为查询语句；

其中，获得词隐藏向量表示的过程为：

记查询语句词向量的初始表示；

其中，获得语义角色文本特征的过程为：

将得到的每个语义角色所含的所有单词信息进行求和，得到最终的语义角色文本特征；

其中，获得被增强的对象提议的视觉特征的过程为：

利用对象提议基于每个语义角色间的注意力权重矩阵完成对视频内对象提议节点的过滤，获得被增强的对象提议的视觉特征；

其中，获得视觉对象融合特征的过程为：

为每个对象引入对应视频片段的全局视觉特征信息；

利用单向LSTM网络，使得对象提议学习时序上的关系编码，从而完成视频中每个对象相关信息的聚合，获得视觉对象融合特征；

对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，得到跨模态融合特征，利用跨模态融合特征进行视频对象定位；

其中，获得跨模态融合特征的过程为：

利用将相对位置信息编码和自注意力机制相结合的Transformer模型，获得嵌入相关上下文信息的跨模态融合特征。

2.如权利要求1所述的基于混合注意力机制的视频对象定位方法，其特征是，获得视频数据之后，将视频数据均等分为多个视频片段，从每个视频片段中抽取中间帧，并将抽取的所有中间帧组成视频输入。

3.如权利要求1所述的基于混合注意力机制的视频对象定位方法，其特征是，提取对象提议的视觉特征时，使用目标检测系统对视频输入中的每一帧提取对象提议集合以及对象提议的位置信息，其中，对象提议集合中包括对象提议视觉特征；

利用动作分类系统提取视频的全局视觉特征；

分别对视频所有对象提议特征组成的矩阵以及视频的全局视觉特征利用一层线性结构和激活函数进行维度映射。

4.如权利要求1所述的基于混合注意力机制的视频对象定位方法，其特征是，针对自然语言描述数据，提取词隐藏向量表示，利用文本自注意力机制处理词隐藏向量表示，获取语义角色文本特征，具体包括：

5.如权利要求4所述的基于混合注意力机制的视频对象定位方法，其特征是，还包括：

将查询语句的单词级特征与句子级特征进行融合，得到嵌入全局信息的词级表示；

令嵌入全局信息的词级表示中词向量表示与各个语义角色中词的位置对照，则得到由向量组成的多个语义角色的表示。

6.如权利要求1所述的基于混合注意力机制的视频对象定位方法，其特征是，对视觉对象融合特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，得到跨模态融合特征，利用跨模态融合特征进行视频对象定位，具体还包括：

7.基于混合注意力机制的视频对象定位系统，其特征是，包括：

输入数据处理模块，被配置为：获得视频数据以及自然语言描述数据；具体的，获得自然语言描述数据之后，利用语义角色标注工具为查询语句分配多个语义角色标签，其中，自然语言描述即为查询语句；

其中，获得词隐藏向量表示的过程为：

记查询语句词向量的初始表示；

令初始表示输入至双向长短期记忆网络，在该网络中将相关的上下文信息编码内嵌入各自词向量，得到词隐藏向量表示；其中，获得语义角色文本特征的过程为：

其中，获得被增强的对象提议的视觉特征的过程为：

其中，获得视觉对象融合特征的过程为：

为每个对象引入对应视频片段的全局视觉特征信息；

跨模态特征融合模块，被配置为：对多模态特征、对象提议的位置信息以及语义角色文本特征进行跨模态特征融合，得到跨模态融合特征，利用跨模态融合特征进行视频对象定位；

其中，获得跨模态融合特征的过程为：