CN110827312A

CN110827312A - 一种基于协同视觉注意力神经网络的学习方法

Info

Publication number: CN110827312A
Application number: CN201911099526.9A
Authority: CN
Inventors: 刘峡壁; 贡晓朋
Original assignee: Guangdong Schen Industrial Investment Co Ltd; BEIJING DEEP AI INTELLIGENT TECHNOLOGY Co Ltd
Current assignee: Guangdong Schen Industrial Investment Co Ltd; BEIJING DEEP AI INTELLIGENT TECHNOLOGY Co Ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-02-21
Anticipated expiration: 2039-11-12
Also published as: CN110827312B

Abstract

本发明涉及一种基于协同视觉注意力神经网络的学习方法，属于图像相关性提取技术领域。采用多幅图像输入，提取其中相关性，并根据相关性引导对图像中需要关注的视觉信息进行加强，以提高后续处理效果，针对一组具有相关性的视觉数据进行视觉注意力提取，可应用于图像协同分割、图像匹配等各种需要同时输入多幅相关图像的视觉信息加强问题。所述方法充分利用不同角度上所获得的物体与背景图像之间的相关性以及同一图像上物体与背景之间所应具有的差异性等有效的先验信息，实现了完全自动且高效、高可靠的物体抠取实现了准确、快速、高精度分割。

Description

一种基于协同视觉注意力神经网络的学习方法

技术领域

本发明涉及一种基于协同视觉注意力神经网络的学习方法，属于图像相关性提取技术领域。

背景技术

视觉注意力是指机器对人类感知行为中的注意力进行模拟以提高机器感知能力的手段。对于人工神经网络中的注意力模型，其目的是通过计算注意力概率分布，让神经网络在获得数据语义表示时能体现语义的位置特性，从而可重点关注那些需要注意的信息。基于注意力模型的人工神经网络广泛应用在图像识别、图像分割、看图说话等各种不同类型的机器学习任务中。本发明主要涉及视觉注意力模型，尤其是协同视觉注意力，这是一种双向的注意力，涉及两个以上的图像。

现有的视觉注意力模型主要分为两类：硬注意力(hard attention)和软注意力(soft attention)。硬注意力更加关注‘点’，也就是图像中的每个点都有可能延伸出注意力，同时硬注意力是一个随机的预测过程，更强调动态变化。传统的硬注意力模型具体方法一般主要分为两种过程：自下而上(bottom-up)和自上而下(top-down)。在自下而上过程中，主要应用像素聚类等方法将某一物体的像素聚类到一起形成很多小区域；而自上而下过程则一般根据聚类的结果进行过滤处理，将背景区域排除，从而获得感兴趣的图像区域。随着深度学习的发展，硬注意力主要应用在循环神经网络和强化学习中。目前硬注意力方法主要包含以下基本特点：1)在局部特征区域进行随机裁剪的过程；2)依赖强化学习训练权重，无法嵌入到网络中收敛学习；3)硬注意力的特征采集权重一般是局部区域作为一个整体(权重可以理解为只有0,1两个情况)，局部特征之间的关系需要经过神经网络进一步学习。

不同于硬注意力，软注意力更关注‘区域’或者‘通道’。软注意力可以直接通过网络生成。软注意力是可微的，因此软注意力可以通过神经网络算出梯度并且可以通过前向传播和后向反馈来学习得到注意力的权重。已有软注意力模型的共同特点是利用相关特征学习权重分布，再用学出来的权重施加在特征之上进一步提取相关知识。软注意力模型可分为自注意力(self-attention)和协同注意力(co-attention)两种。对于自注意力,根据施加权重的方式分为以下四种：1)加权作用在原图上。应用高斯核直接在原图上提取注意力；2)加权作用在空间尺度上，给不同空间区域加权。将注意力的区域对应到输入的每一个像素上；3)加权作用在通道尺度上，给不同通道特征加权。特征通道上学习提取注意力特征，然后通过相关激活网络结构把注意力特征结合到特征图上；4)加权作用在不同时刻历史特征上，结合循环结构添加权重。基于某一时刻学习目标区域定位并且提取相关知识为下一时刻的学习做增强处理。

硬注意力是一个不可微的注意力，在深度学习中无法嵌入到网络中收敛学习，应用局限性大。而现有软注意力模型大都是自注意力。这种注意力虽然能获取图像自身通道或空间的注意力，却无法通过注意力获取多幅图像之间的相关性。即使存在一些协同注意力模型，但也都是“图像”与“文字”信息的之间协同，而不是两幅或多幅“图像”之间的协同方法，因此现有的注意力机制尚不能用于挖掘一组相关图像的协同注意力信息。

发明内容

本发明的目的是针对现有图像分割中存在的分割准确率低的技术缺陷，采用多幅图像输入，提取其中相关性，并根据相关性引导对图像中需要关注的视觉信息进行加强，以提高后续处理效果，提出了一种基于协同视觉注意力神经网络的学习方法，针对一组具有相关性的视觉数据进行视觉注意力提取，可应用于图像协同分割、图像匹配等各种需要同时输入多幅相关图像的视觉信息加强问题。

本发明是基于以下技术方案实现的。

所述基于协同视觉注意力神经网络的学习方法，包括如下步骤：

步骤1、输入N张图片，用每两张图片组合的方式得到

图片组；

步骤2、遍历步骤1中的每组图片，通过卷积神经网络编码得到对应的一组中间特征图；

其中，卷积神经网络包括但不限于U型孪生深度网络；

步骤3、对步骤2得到的每组中间特征图用topK平均池化方法映射成一个向量，该向量再通过softmax函数，得到一组通道协同注意力描述符；

其中，topK平均池化方法，通过公式(1)计算实现：

其中，K为比例；H为中间特征图的高；W为中间特征图的宽；c为中间特征图的通道数；i为中间特征图的每个通道上的第几个点；该topK平均池化方法将每个中间特征图映射得到一个具有与中间特征图相同通道数量的向量；TopK是对中间特征图每个通道上所有值进行降序排列后从大到小取比例为K的数据，然后求平均，得到一个能够代表每个通道的值；

步骤4、对步骤2得到的每组中间特征图通过卷积操作，得到一组单通道的二维矩阵；每组二维矩阵再通过内积的方式得到一组特征图；再通过卷积操作将该组特征图压缩为一组单通道二维矩阵，再通过softmax函数得到一组空间协同注意力描述符；

步骤5、分别将步骤3得到的所有通道协同注意力描述符以及步骤4得到的所有空间协同注意力描述符求平均，得到平均后的通道协同注意力描述符和空间协同注意力描述符；再将平均后的通道及空间协同注意力描述符逐像素相乘得到混合的协同注意力描述符；

步骤6、混合的协同注意力描述符与步骤2得到的每一组中间特征图相乘得到该组中间特征图对应的相关性特征图；

步骤7、通过卷积神经网络对步骤6得到的相关性特征图进行解码，得到

个具有双通道的特征图；

其中，双通道特征图上的点代表原图对应位置上属于前景或背景的概率；

步骤8、对步骤7得到的特征图用argmax的方法对每个像素点进行分类，得到

个分割掩码图。

有益效果

本发明所提的一种基于协同视觉注意力神经网络的学习方法，与现有图像分割技术相比，具有以下有益效果：

(1)本发明充分利用不同角度上所获得的物体与背景图像之间的相关性以及同一图像上物体与背景之间所应具有的差异性等有效的先验信息，实现了完全自动且高效、高可靠的物体抠取；

(2)本发明通过使用步骤3得到的通道协同注意力描述符，使得多图之间通过注意力的互相引导，有效且正确地选择了图像前景，保证组内图像协同分割的准确性。通过使用topK平均池化方法，减少背景对通道描述符的影响，有效保证描述符对其他特征图引导的正确性；

(3)本发明通过步骤4得到的空间协同注意力描述符，对多图在空间上进行相关性抽取，在图像之间互相引导前景选择的同时，有效提升了图像分割的精度；

(4)本发明通过融合通道和空间上的协同注意力描述符，使得模型能够同时具有通道协同注意力和空间协同注意力的特点，提高图像最终的分割准确性；

(5)能实现快速、高精度、高可靠、完全自动的图像物体抠取功能，在固定背景下，对于各种不同物体，均能提取出令人满意的物体区域。

附图说明

图1是本发明一种基于协同视觉注意力神经网络的学习方法实施例流程图；

图2是本发明一种基于协同视觉注意力神经网络的学习方法的步骤3的示意图；

图3是本发明一种基于协同视觉注意力神经网络的学习方法的步骤4的示意图；

图4是本发明一种基于协同视觉注意力神经网络的学习方法的步骤5的示意图；

图5是本发明一种基于协同视觉注意力神经网络的学习方法的U型孪生网络结构。

具体实施方式

根据上述技术方案，下面通过具体实施例对本发明协同视觉注意力模型与方法进行详细说明。

实施例1

本实施例叙述了使用本发明所述的一种基于协同视觉注意力神经网络的学习方法在步骤1中卷积神经网络选择为“改进的U型孪生深度网络”的具体实施。

在商品三维成像中，需要拍摄一组旋转物体进行商品展示。此时，就需要对一组相似的图片进行协同分割。在协同分割中，分割网络会将一组图片中通过相互作用把共有的前景分割出来。

为了达到上述协同分割多张图像的目的，步骤1中选用了改进的U型孪生深度网络，与传统U型网络不同，具体差异体现在：编码器和解码器中间加入了协同注意力模型。

图1是本发明一种基于协同视觉注意力神经网络的学习方法实施例流程图；图4是整个网络框架，其中，中间层Co-Attention Block是相关性层，它通过在图像之间使用本发明提出的协同注意力模型互相引导来进行图像分割。相关层左侧是输入图和编码器，编码器使用基于resnet50的siamese双通道网络。A和B是中间特征图。右侧分别是相关性特征图A'和B'，解码器以及输入图。

对于Co-Attention Block，它包括通道注意力模块和空间注意力模块。本实例直接融合了这两个模块，称之为融合注意力模块。

图2是一种基于协同视觉注意力神经网络的学习方法的步骤3的示意图。使用topK方法代替传统的全局平均池化，将中间特征图降维到一个向量，之后通过一个softmax函数得到通道注意力描述符Y_B，Y_A。最后Y_B，Y_A分别与中间特征图A，B相乘得到相关性特征图A'，B'。其中topK方法是对特征图每个通道上所有值进行降序排列后取前比例为K的数据，然后求平均，得到一个能够代表该通道的一个值。

图3是一种基于协同视觉注意力神经网络的学习方法的步骤4的示意图。首先将中间特征图通过卷积操作压缩到具有一个通道的二维矩阵。两个矩阵通过内积的方式得到两个中间特征图。在通过卷积操作压缩到具有一个通道的二维矩阵，之后通过一个softmax函数得到空间注意力描述符。最后R_A，R_B分别与中间特征图A，B相乘得到相关性特征图A'，B'。

图4是一种基于协同视觉注意力神经网络的学习方法的步骤5的示意图。将通道注意力描述符和空间注意力描述符通过element-wise multiplication方式做计算得到一个与中间特征图相同维度的混合描述符。用该描述符分别与对应的中间特征图对应点相乘，得到相关性特征图A'，B'。融合协同注意力模块更能有效的抠取图像共同物体。

通过实施本技术，可快速、高精度、高可靠、全自动地从固定背景下的多幅图像中去除背景，获得仅包含物体的图像。例如本发明已在商品三维成像等领域中得到实际应用，用360度拍照装置获得商品不同角度的图像后，可将所有图像中的背景去除，获得令人满意的商品360度展示效果，其实测数据表明：通过使用本发明的技术方法，对于各种不同类型商品，图像背景去除的精确度平均达99％以上；在当前主流GPU计算服务器上，平均每幅图像的处理时间<＝1秒

本实例采用本发明提出的协同视觉注意力模型与方法在商品三维成像中的商品抠取场景下实施。

步骤1、将商品放在云台上，使其随云台进行360度旋转，在此过程中，从固定位置处对该商品拍摄若干张图像，比如18张、36张等，以下假定拍摄18张图像。

步骤2、对于张图片，用每两张图片组合的方式得到

图片组；

步骤3、遍历步骤2中的每组图片，通过卷积神经网络编码得到对应的一组中间特征图；

其中，卷积神经网络包括但不限于U型孪生深度网络；

步骤4、对步骤3得到的每组中间特征图用topK平均池化方法映射成一个向量，该向量再通过softmax函数，得到一组通道协同注意力描述符；

步骤5、对步骤3得到的每组中间特征图通过卷积操作，得到一组单通道的二维矩阵；每组二维矩阵再通过内积的方式得到一组特征图；再通过卷积操作将该组特征图压缩为一组单通道二维矩阵，再通过softmax函数得到一组空间协同注意力描述符；

步骤6、分别将步骤4得到的所有通道协同注意力描述符以及步骤5得到的所有空间协同注意力描述符求平均，得到平均后的通道协同注意力描述符和空间协同注意力描述符；再将平均后的通道及空间协同注意力描述符逐像素相乘得到混合的协同注意力描述符；

步骤7、混合的协同注意力描述符与步骤3得到的每一组中间特征图相乘得到该组中间特征图对应的相关性特征图；

步骤8、通过卷积神经网络对步骤7得到的相关性特征图进行解码，得到

个具有双通道的特征图；

步骤9、对步骤8得到的特征图用argmax的方法对每个像素点进行分类，得到

个分割掩码图。

步骤10、针对每个掩码图与对应的输入图像进行前景选择，完成物体抠取过程。

图5是本发明按照技术方案中所述的方法整体网络。

需要强调的是，对于本领域技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些也应视为属于本发明的保护范围。

Claims

1.一种基于协同视觉注意力神经网络的学习方法，包括如下步骤：

步骤1、输入N张图片，用每两张图片组合的方式得到

图片组；

个具有双通道的特征图；

个分割掩码图。

2.根据权利要求1所述的一种基于协同视觉注意力神经网络的学习方法，其特征在于：步骤2中，卷积神经网络包括但不限于U型孪生深度网络。

3.根据权利要求1所述的一种基于协同视觉注意力神经网络的学习方法，其特征在于：步骤3中，topK平均池化方法，通过公式(1)计算实现：

步骤3中，K为比例；H为中间特征图的高；W为中间特征图的宽；c为中间特征图的通道数；i为中间特征图的每个通道上的第几个点；该topK平均池化方法将每个中间特征图映射得到一个具有与中间特征图相同通道数量的向量；TopK是对中间特征图每个通道上所有值进行降序排列后从大到小取比例为K的数据，然后求平均，得到一个能够代表每个通道的值。

4.根据权利要求1所述的一种基于协同视觉注意力神经网络的学习方法，其特征在于：步骤7中，双通道特征图上的点代表原图对应位置上属于前景或背景的概率。