CN116258931B

CN116258931B - 基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统

Info

Publication number: CN116258931B
Application number: CN202211611986.7A
Authority: CN
Inventors: 张格格; 朱世强; 宋伟; 顾建军; 郭方泰; 孟森森
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-12-14
Filing date: 2022-12-14
Publication date: 2023-09-15
Anticipated expiration: 2042-12-14
Also published as: CN116258931A

Abstract

基于ViT和滑窗注意力融合的视觉指代表达理解方法，包括：获取训练图像和对应的指代表达文本；对图像和指代表达文本进行预处理；构建基于ViT和滑窗注意力融合策略的视觉指代网络；输入训练的图像及对应的指代表达文本，对视觉指代网络进行训练；将测试图像及描述图像中感兴趣目标的指代表达文本，输入到训练好的视觉指代网络模型，获得视觉指代表达理解的结果。本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统。本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征，大大降低了模型的计算量和推理时间，同时视觉指代表达理解能够帮助机器人对人的意图进行理解，从而提高人机交互的能力。

Description

基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统

技术领域

本发明涉及模式识别领域，具体涉及一种基于ViT(Vision Transformer)和滑窗注意力融合的视觉指代消解方法和系统。

背景技术

视觉指代表达理解是多模态领域的关键任务，其目标是在图像中定位到指代表达文本所描述的目标区域，用来衔接人所下发的自然语言指令和物理世界中的视觉内容。该技术的研究，能够推动视觉语言理解的发展，是多模态推理任务的基础。该项技术可以用于机器人领域，帮助机器人更好的理解人的意图，从而提升人机交互的能力。

现有的视觉指代表达理解的方法主要利用了目标检测的网络框架，主要可以分为两类：两阶段方法和一阶段方法。其中，两阶段方法，首先利用现有的检测器，从图像中生成一系列的检测框，然后使用自然语言来对候选框的图像进行匹配，最后选择匹配度最高的候选框作为最终结果。两阶段方法能够很好的建模多模态特征之间的关系，但是需要事先生成候选框，并且从预定义好的位置提取的视觉特征可能无法充分利用视觉上下文和属性信息，从而限制网络的性能。而一阶段方法会在目标检测器的中间层进行视觉和语言的融合，然后融合后的特征使用滑窗的方式来进行目标框的预测。一阶段方法抛弃了两阶段方法中计算量大的候选框生成和区域特征提取的过程，非常有效，但是缺点是目标特征主要关注的是点的特征，与自然语言表达中的详细描述连接不够灵活。由于两阶段方法和一阶段方法都依赖人工设计的机制来请求推理和多模态融合，网络性能容易受到限制，因此，出现了基于Transformer的方法，这类方法抛弃目标检测的框架，将视觉表达理解的任务直接定义为目标的坐标回归的问题，通过使用Transformer来对多模态的特征进行交互融合，最后直接对目标框进行回归预测，这类方法的优点是不需要事先生成候选框或者锚框，直接对目标框进行坐标回归，模态之间的特征融合比较充分，但是由于使用了多次多头注意力，所以计算量大，推理速度比较慢。

发明内容

为了解决现有基于目标检测框架方法性能受限以及基于Transformer的方法中存在的计算量大，推理速度慢的问题，本发明提出了一种基于ViT和滑窗注意力融合的视觉指代表达理解方法和系统。

基于ViT和滑窗注意力融合的视觉指代表达理解方法，包括以下步骤：

步骤S101，获取训练图像和对应的指代表达文本；

步骤S102，对图像和指代表达文本进行预处理；

步骤S103，构建基于ViT和滑窗注意力融合的视觉指代网络；

步骤S104，输入训练的图像及对应的指代表达文本，对视觉指代网络进行训练优化；

步骤S105，将测试图像及描述图像中感兴趣目标的指代表达文本输入训练好的视觉指代网络，获得视觉指代表达理解的结果。

进一步的，步骤S101所述的图像需要是自然场景下的彩色图像，所述的指代表达文本所指代的目标需要为图像中包含的物体目标，指代表达文本的表述可包含物体的类别、物体的外观属性、物体的相对位置、物体的绝对位置等一种或者多种信息。

进一步的，步骤S102所述的对图像进行预处理，包括对图像进行随机缩放，亮度、对比度、饱和度的调整，随机水平翻转等数据增强；对增强后的图像进行归一化，调整为固定的尺寸大小。

步骤S102所述的对指代表达文本进行预处理，包括对文本进行序列化，设定指代表达文本的长度，若处理的文本超过固定长度，就进行截断，否则进行补全。

进一步的，步骤S103所述的基于ViT和滑窗注意力融合的视觉指代网络包括：语言特征提取网络，视觉特征提取网络，预测网络三个部分，其中视觉特征提取网络主要包含两种模块：基于窗口注意力的视觉特征提取模块和基于滑窗的多模态特征融合模块。其中，所述的语言特征提取网络用来提取指代表达文本的特征，所述的视觉特征提取网络，主要用来提取图像的视觉特征，以及融合语言特征进行增强，其中基于窗口注意力的视觉特征提取模块通过使用窗口注意力来降低计算量，并提取图像的视觉特征，所述基于滑窗的多模态融合模块主要利用基于滑窗的多头交叉注意力来融合提取到的语言特征与视觉特征，从而获取到增强的视觉特征，所述的预测网络用来对增强的视觉特征进行目标框的回归。

进一步的，步骤S104所述的训练指代网络的输入数据包含图像和用来描述图像中感兴趣目标的指代表达文本，网络的输出是指代表达所描述目标的目标框，用4维向量进行表示，其中/>代表预测目标框的中心点坐标，/>表示预测目标框的宽，/>表示预测目标框的高。

步骤S104所述的基于ViT和滑窗注意力融合的视觉指代网络的损失函数包含两个部分：SmoothL1损失函数和GIoU损失函数，其中SmoothL1损失函数用来衡量预测的目标框坐标与真实目标框坐标的数值差异，而GIoU损失函数来衡量坐标之间的相关性，使用这两种损失函数，能够让预测的目标框更逼近真实的目标框b＝(x,y,w,h)。

所述的SmoothL1损失函数的公式为：

所述的GIoU损失函数计算公式为：

其中GIoU的计算公式如下：

其中，A表示的是预测的目标框，B表示真实的目标框，C表示的是能包含预测框和真实框最小的外接矩形框，A∩B表示A与B的交集，A∪B表示A与B的并集，S_C、S_A∪B、S_A∩B分别表示这几个矩形框的面积。

所以，整个指代网络的损失函数为：

本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统，包括：

训练图像和指代表达文本获取模块，用于获取训练的图像和对应的指代表达文本；

图像和指代表达文本预处理模块，用于对图像和指代表达文本进行预处理；

视觉指代网络构建模块，用于构建基于ViT和滑窗注意力融合的视觉指代网络；

视觉指代网络训练优化模块，用于输入训练的图像及对应的指代表达文本，对视觉指代网络进行训练优化；

视觉指代表达理解结果获得模块，用于将测试图像及描述图像中感兴趣目标的指代表达文本，输入训练好的视觉指代网络，获得视觉指代表达理解的结果。

本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现本发明的基于ViT和滑窗注意力融合的视觉指代表达理解方法。

本发明还包括一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的基于ViT和滑窗注意力融合的视觉指代表达理解方法。

本发明的有益效果是：

本发明针对现有基于目标检测框架方法进行指代表达理解存在的性能受限以及基于Transformer的视觉指代表达理解存在的计算量大，推理速度慢的问题，提出了一种基于ViT和滑窗注意力融合的视觉指代理解方法，该方法基于ViT的模型结构，使用窗口注意力来提取视觉特征，并且基于滑窗来进行多模态特征融合，大大降低了模型的计算量，提升了模型的推理速度，并且能够帮助机器人更好的理解人的意图，提升人机交互的能力。

附图说明

图1为基于ViT和滑窗注意力融合的视觉指代表达理解方法的流程图；

图2为基于ViT和滑窗注意力融合的视觉指代网络结构示意图；

图3为基于窗口注意力的视觉特征提取模块结构示意图；

图4为基于滑窗的多模态特征融合模块结构示意图；

图5是本发明的系统结构图。

具体实施方式

本发明提出了一种基于ViT和滑窗注意力融合的视觉指代表达理解方法，为了使本发明的目的、技术方法及方案更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的本发明的精髓和范围做的替代、修改、等效方法以及方案。进一步，为了使公众对于本发明有更好的了解，在下文对本发明的细节描述中，详见描述了一些特定的细节部分。

一种基于ViT和滑窗注意力融合的视觉指代理解方法，流程图如图1所示，具体可以包括以下步骤：

步骤S101，获取训练图像和对应的指代表达文本。

所述的图像需要是自然场景下的彩色图像，所述的指代表达文本所指代的目标需要为图像中包含的物体目标，指代表达文本的表述可包含物体的类别(如杯子、人等)、物体的外观属性(如黄色的杯子、戴眼镜的人)、物体的相对位置(如地上的包、桌子上的茶杯等)、物体的绝对位置(如左边第一个人等)等一种或者多种信息。

步骤S102，对图像和指代表达文本进行预处理。

具体地，对图像进行预处理，包括对图像进行随机尺度缩放，随机缩放的尺度大小有448，480，512，544，576，608，640，以0.4的概率对亮度、对比度、饱和度进行调整，以0.5的概率对图像进行随机水平翻转等数据增强；对增强后的图像进行归一化，调整为固定的尺寸大小(640，640)。调整的方式为创建一张新的像素值均为0的图片，把原始图片的左上角位置对齐新图片的左上角位置，对相同位置的像素进行赋值。对指代表达文本进行预处理，包括使用Bert开源的tokenizer对文本进行序列化，并在文本的开始添加[CLS]单词，标志文本的开始，设定指代表达文本的长度为18，若处理的文本长度超过此固定长度，就进行截断，否则使用[PAD]这个单词进行补全，最后在文本添加结束标志单词[SEP],根据单词的词典，获取每个单词的id，将其转换为one-hot向量，并生成掩码，对补全的单词进行掩盖，避免后续注意力的计算。

步骤S103，构建基于ViT和滑窗注意力融合的视觉指代网络。

如图2所示，图2为基于ViT和滑窗注意力融合的视觉指代网络的结构示意图，它包含语言特征提取网络，视觉特征提取网络，预测网络三个部分，其中视觉特征提取网络主要包含两种模块：基于窗口注意力的视觉特征提取模块和基于滑窗的多模态特征融合模块。其中，所述的语言特征提取网络用来提取指代表达文本的特征，所述的视觉特征提取网络，用来提取图像的视觉特征，以及融合语言特征进行增强，其中基于窗口注意力的视觉特征提取模块通过使用窗口注意力来降低计算量，并提取图像的视觉特征，所述基于滑窗的多模态融合模块利用基于滑窗的多头注意力来融合提取到的语言特征与视觉特征，从而获取到增强的视觉特征，所述的预测网络用来对增强的视觉特征进行目标框的回归。

如图2所示，语言特征提取网络使用开源的Bert模型结构，模型输入为预处理后的文本one-hot向量其中，N_c表示文本的长度，设置为20，C_von表示使用单词字典的总单词数，这里使用的是开源的bert-base-uncased词典，总共有30522个单词，通过一个Embedding层，将其编码为文本的token序列/>其中C_c＝768，然后使用12层的Transformer编码结构，来对语言视觉指代表达进行特征提取，接着为了后续与视觉特征进行融合，使用一个全连接层，对提取到的语言特征进行映射，网络的输出特征为其中C_c-o＝384。

视觉特征提取网络基于ViT进行改进，模型的输入为图像I_v∈R^3×H×w，H为图像的高，设置为640，W为图像的宽，设置为640，首先网络使用Patch Embedding层对图像进行序列化，划分的patch大小为(32，32)，得到图像的token序列N_v表示图像划分的patch数量，根据图像大小和patch大小，可计算出N_v＝40，C_v表示编码后的向量维度，设置为384，另外，设置一个可学习的/>用来表示增强后的视觉特征，以便进行后续目标框的回归计算。将[REG]与F_v进行级联，然后输入到4个视觉特征处理单元，每个单元包含两个基于窗口注意力的视觉特征提取模块和一个基于滑窗的多模态特征融合模块。其中基于窗口注意力的视觉特征提取模块如图3所示，其在ViT的编码结构中将自注意力层改进为窗口注意力层，通过计算窗口内的自注意力，关注区域内的全局特征，在提取视觉特征的同时降低计算量，这里的窗口大小设置为10。假设第n个模块的输入为/>基于窗口注意力的视觉特征提取模块的计算公式如下：

其中LN表示Layer Normalization层，用来对特征的每一行进行归一化计算，表示对输入特征进行多头窗口注意力的计算，由于需要划分窗口，因此把[REG]代表的第一维的特征去除掉，在完成窗口注意力计算之后，再进行级联，/>表示前向神经网络，用来对特征进一步的提取。

基于滑窗的多模态特征融合模块的结构如图4所示，其主要用来将语言特征与视觉特征进行融合，该模块在ViT的编码结构基础上，将多头自注意力层计算得到的视觉特征，与语言特征进行多头交叉注意力计算，由于视觉指代表达理解任务关注的是区域的特征，因此，使用滑窗的方式，将窗口内所有patch特征的平均值作为该窗口的特征，并与语言的token特征进行注意力的计算，在进行注意力权重计算之后，对加权后的特征进行插值，使得到的特征维度，与输入特征维度保持相同，并与原来的视觉特征进行求和，这里窗口大小设置为10。假设第n个模块的视觉特征输入为语言特征输入为该模块的计算公式为：

其中表示多头自注意力计算，/>表示基于滑窗的多头交叉注意力计算，同样地，由于需要进行窗口的划分，因此把[REG]代表的第一维的特征去除掉，在完成交叉注意力计算和残差求和之后，再进行级联。

每个单元的输出特征作为下一个单元的输入特征，最后得到视觉特征提取网络的输出特征为其中C_v-o＝384，接着将第一维的特征/>输入到预测网络进行目标框的回归。

预测网络由4层全连接层组成，其中最后一层的输出特征为F_p-o∈R^1×‘，代表模型预测的目标框其中/>代表预测目标框的中心点坐标，/>表示预测目标框的宽，/>表示预测目标框的高。

步骤S104，输入训练的图像及对应的指代表达文本，对视觉指代网络进行训练优化。

输入步骤S101所述的图像和对应的指代表达文本，来对所述基于ViT和滑窗注意力融合的视觉指代网络进行训练。该网络的损失函数包含两个部分：SmoothL1损失函数和GIoU损失函数，其中SmoothL1损失函数用来衡量预测的目标框坐标与真实目标框坐标的数值差异，而GIoU损失函数来衡量坐标之间的相关性，使用这两种损失函数，能够让预测的目标框更逼近真实的目标框b＝(x,y,w,h)。

所述的SmoothL1损失函数的公式为：

所述的GIoU损失函数计算公式为：

其中GIoU的计算公式如下：

所以，整个指代网络的损失函数为：

在训练阶段，语言特征提取网络使用Bert的预训练模型进行初始化，并在训练的前5个epoch对权重进行冻结，不进行训练，视觉特征网络使用ViT-small进行初始化，使用学习率随着训练步数衰减的策略来动态调整学习率，并使用AdamW的优化方法来对网络进行训练优化。

步骤S105，将测试图像及描述图像中感兴趣目标的指代表达文本，输入训练好的视觉指代网络，获得视觉指代表达理解的结果。

所述训练好的视觉指代网络代表的是在验证集上损失最低，训练已经收敛的模型权重，可以直接使用，也可转换为TorchScript格式进行部署，将测试图像以及感兴趣目标的指代表达文本输入到训练好的网络模型中，就能获得视觉指代表达理解的结果，即感兴趣目标的位置。

如图5，本发明还包括基于ViT和滑窗注意力融合的视觉指代表达理解系统，包括：

本发明基于ViT的结构使用窗口注意力进行视觉特征提取和基于滑窗策略来融合多模态特征，大大降低了模型的计算量和推理时间，同时视觉指代表达理解能够帮助机器人对人的意图进行理解，从而提高人机交互的能力。

Claims

1.基于ViT和滑窗注意力融合的视觉指代表达理解方法，其特征在于，包括：

步骤S101，获取训练的图像和对应的指代表达文本；

步骤S102，对图像和指代表达文本进行预处理；

步骤S103，构建基于ViT和滑窗注意力融合的视觉指代网络；包括：

所述基于ViT和滑窗注意力融合的视觉指代网络包括：语言特征提取网络，基于ViT的视觉特征提取网络，预测网络三个部分，其中基于ViT的视觉特征提取网络包含两种模块：基于窗口注意力的视觉特征提取模块和基于滑窗的多模态特征融合模块；其中，所述的语言特征提取网络用来提取指代表达文本的特征，所述的基于ViT的视觉特征提取网络，用来提取图像的视觉特征，以及融合语言特征进行增强，其中基于窗口注意力的视觉特征提取模块通过使用窗口注意力来降低计算量，并提取图像的视觉特征，所述基于滑窗的多模态融合模块利用基于滑窗的多头交叉注意力来融合提取到的语言特征与视觉特征，从而获取到增强的视觉特征，所述的预测网络用来对增强的视觉特征进行目标框的回归；

步骤S104，输入训练的图像及对应的指代表达文本，对基于ViT和滑窗注意力融合的视觉指代网络进行训练优化；

所述的基于ViT和滑窗注意力融合的视觉指代网络的输入数据包含图像和对应图像中某一目标的指代表达文本，网络的输出是指代表达所描述目标的目标框，用4维向量进行表示，其中/>代表预测目标框的中心点坐标，/>表示预测目标框的宽，/>表示预测目标框的高；

所述的基于ViT和滑窗注意力融合的视觉指代网络的损失函数包含两个部分：SmoothL1损失函数和GIoU损失函数，其中Smooth L1损失函数用来衡量预测的目标框坐标与真实目标框坐标的数值差异，而GIoU损失函数来衡量坐标之间的相关性，使用这两种损失函数，能够让预测的目标框更逼近真实的目标框b＝(x,y,w,h)；

所述的Smooth L1损失函数的公式为：

所述的GIoU损失函数计算公式为：

其中GIoU的计算公式如下：

其中，A表示的是预测的目标框，B表示真实的目标框，C表示的是能包含预测框和真实框最小的外接矩形框，A∩B表示A与B的交集，A∪B表示A与B的并集，S_C、S_A∪B、S_A∩B分别表示这几个矩形框的面积；

所以，整个基于ViT和滑窗注意力融合的视觉指代网络的损失函数为：

步骤S105，将测试图像及描述图像中感兴趣目标的指代表达文本，输入训练好的基于ViT和滑窗注意力融合的视觉指代网络，获得视觉指代表达理解的结果。

2.如权利要求1所述的基于ViT和滑窗注意力融合的视觉指代表达理解方法，其特征在于，所述步骤S101，包括：

所述的图像需要是自然场景下的彩色图像，所述的指代表达文本所指代的目标需要为图像中包含的物体目标，指代表达文本的表述包含物体的类别、物体的外观属性、物体的相对位置、物体的绝对位置的一种或者多种信息。

3.如权利要求1所述的基于ViT和滑窗注意力融合的视觉指代表达理解方法，其特征在于，所述步骤S102所述的对图像进行预处理，包括对图像进行数据增强，数据增强包括随机缩放，亮度、对比度、饱和度的调整，以及随机水平翻转；对增强后的图像进行归一化，调整为固定的尺寸大小。

4.如权利要求1所述的基于ViT和滑窗注意力融合的视觉指代表达理解方法，其特征在于，所述步骤S102所述的对指代表达文本进行预处理，包括对文本进行序列化，设定指代表达文本的长度，若处理的文本超过固定长度，就进行截断，否则进行补全。

5.基于ViT和滑窗注意力融合的视觉指代表达理解系统，其特征在于，包括：

视觉指代网络构建模块，用于构建基于ViT和滑窗注意力融合的视觉指代网络；所述基于ViT和滑窗注意力融合的视觉指代网络包括：语言特征提取网络，基于ViT的视觉特征提取网络，预测网络三个部分，其中基于ViT的视觉特征提取网络包含两种模块：基于窗口注意力的视觉特征提取模块和基于滑窗的多模态特征融合模块；其中，所述的语言特征提取网络用来提取指代表达文本的特征，所述的基于ViT的视觉特征提取网络，用来提取图像的视觉特征，以及融合语言特征进行增强，其中基于窗口注意力的视觉特征提取模块通过使用窗口注意力来降低计算量，并提取图像的视觉特征，所述基于滑窗的多模态融合模块利用基于滑窗的多头交叉注意力来融合提取到的语言特征与视觉特征，从而获取到增强的视觉特征，所述的预测网络用来对增强的视觉特征进行目标框的回归；

视觉指代网络训练优化模块，用于输入训练的图像及对应的指代表达文本，对基于ViT和滑窗注意力融合的视觉指代网络进行训练优化；所述的基于ViT和滑窗注意力融合的视觉指代网络的输入数据包含图像和对应图像中某一目标的指代表达文本，网络的输出是指代表达所描述目标的目标框，用4维向量进行表示，其中/>代表预测目标框的中心点坐标，/>表示预测目标框的宽，/>表示预测目标框的高；

所述的Smooth L1损失函数的公式为：

所述的GIoU损失函数计算公式为：

其中GIoU的计算公式如下：

视觉指代表达理解结果获得模块，用于将测试图像及描述图像中感兴趣目标的指代表达文本，输入训练好的基于ViT和滑窗注意力融合的视觉指代网络，获得视觉指代表达理解的结果。

6.基于ViT和滑窗注意力融合的视觉指代表达理解装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-4中任一项所述的基于ViT和滑窗注意力融合的视觉指代表达理解方法。

7.计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-4中任一项所述的基于ViT和滑窗注意力融合的视觉指代表达理解方法。