CN114510594A

CN114510594A - 一种基于自注意力机制的传统纹样子图检索方法

Info

Publication number: CN114510594A
Application number: CN202210105755.2A
Authority: CN
Inventors: 赵海英; 高子惠
Original assignee: BEIJING INTERNATIONAL STUDIES UNIVERSITY; Beijing University of Posts and Telecommunications
Current assignee: BEIJING INTERNATIONAL STUDIES UNIVERSITY; Beijing University of Posts and Telecommunications
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-17

Abstract

本发明公开了一种基于自注意力机制的传统纹样子图检索方法，该方法包括以下步骤：利用训练数据集对子图检索模型进行训练；提取不同层次的特征图，并利用特征金字塔进行融合；进行全局特征及局部特征的提取；进行注意力权重计算，并对加权后的融合特征图进行聚合得到子图特征；计算查询子图特征与数据库图像特征的相似度，将数据库按照相似度进行排序实现子图检索。本发明将具有丰富语义信息的高层特征与相应的具有丰富的空间信息的底层特征图进行融合，使Transformer生成的预选框可以捕捉更小的细节，利用attention机制对融合特征计算自注意力权重，对子图特征图加权，忽略大多不重要的信息，以取得更好的检索结果。

Description

一种基于自注意力机制的传统纹样子图检索方法

技术领域

本发明涉及图像处理和计算机视觉技术领域，具体来说，涉及一种基于自注意力机制的传统纹样子图检索方法。

背景技术

随着网络和数字经济的发展，多媒体数据也不断迅猛增长，越来越多的数据可以保存为图像的形式，种类更加复杂，如何在大量的图像中寻找自己所需的图像成为一个难题。自20世纪70年代以来，图像检索一直是一个非常活跃的研究领域。图像检索方法可以分为两类：基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR)，图像中的全部视觉内容有时很难用文字表达，因此TBIR会产生不相关的结果。CBIR是指利用图像的颜色、纹理、轮廓、空间关系等信息检索图像。

随着深度学习的发展，研究的重点开始转向基于深度学习的方法。早期利用DCNN进行图像检索的研究一般采用全连接层特征作为描述子。但该方法存在特征维度高、图片输入有限制等问题。随着检索任务复杂程度的增加以及研究的深入，发现相比于全连接层，卷积层特征包含一定的位置特征信息，使其更适合作为图像描述子。因此，图像特征描述子研究逐渐由全连接层转向卷积层。卷积神经网具备三个重要的特性：一定程度的缩放、旋转不变性；共享权值和局部感受野；捕捉到从细节到整体层次化的特征。这些特性使得卷积神经网非常适合处理计算机视觉任务，成为深度学习时代CV领域的基石。

2017年提出Transformer之后，Transformer成功应用于许多NLP任务中，2020年，Vision Transformer以最小的改动将Transformer应用于CV领域。Transformer的核心就是Attention注意力机制，Attention模仿了生物观察行为的内部过程，可以从大量信息中有筛选出少量重要信息，忽略大多不重要的信息，并聚焦到这些重要信息上。子图是指用户从原图中分割提取得到的图像，已去除原图中的背景，在子图中只有特定的区域有助于构造有区别的全局特征。子图检索是一个新的挑战，一个新的探索，如何提取子图中的特定区域，更好地满足用户的需求，解决子图检索的难题，提高检索效率是业内亟待解决的难题。

发明内容

针对相关技术中的问题，本发明提出一种基于自注意力机制的传统纹样子图检索方法，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

一种基于自注意力机制的传统纹样子图检索方法，该方法包括以下步骤：

S1、构建基于传统纹样图片的数据集，并利用该数据集对预先构建的子图检索模型进行训练；

S2、利用卷积神经网络提取一系列处于不同层次的特征图，并将提取到的特征图利用特征金字塔进行融合；

S3、利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取；

S4、利用Vision Transformer对用户输入的子图进行注意力权重计算，并对加权后的融合特征图进行聚合得到子图特征；

S5、计算查询子图特征与数据库图像特征的相似度，并按照相似性得分进行排序实现子图检索。

进一步的，所述构建基于传统纹样图片的数据集，并利用该数据集对预先构建的子图检索模型进行训练包括以下步骤：

S11、获取预设数量的传统纹样图片，并对传统纹样图片中的目标位置及类别信息进行手动标注，得到标注好的数据集；

S12、将整个数据库随机划分为训练集和测试集两个集合，训练集与测试集的比例为8：2，在训练过程中使用训练集训练拟合模型，使用测试集进行模型预测，衡量模型的性能和能力，并记录准确率；

S13、利用图像处理工具对整理后的数据库图像进行图像中子元素的分割提取，并去除背景得到查询子图数据集；

S14、构建子图检索模型，并利用数据集对该子图检索模型进行训练。

进一步的，所述子图检索模型在DETR模型的基础上增加特征融合模块，采用ResNet作为主干提取图像不同卷积层的特征，进行特征融合后得到1024维的特征图，输入Transformer结构中，Transformer会生成N个预测，所用的损失函数如下：

其中，y_i表示ground truth，即数据集中已标记的类别与目标位置，

表示Transormer生成的第σ(i)个预测，

表示ground truth y_i与预测

之间的类别损失与IoU损失的和，由于N的数量会大于ground truth的数量，因此，对y_i使用空集补齐为N，使其与N个预测进行二部图匹配，当N个元素之间的排列

使得损失最小，则为两个集合之间最优二部图匹配，

表示预测集与ground truth最优的二部图匹配。进一步的，所述利用卷积神经网络提取一系列处于不同层次的特征图，并将提取到的特征图利用特征金字塔进行融合包括以下步骤：

S21、利用残差网络提取输入图像每个阶段最后一个残差结构的特征激活输出，并采用{L1，L2，L3，L4}表示，其中L1至L4表示不同的残差网络卷积组；

S22、利用1*1的卷积层将L4特征图的通道数降低至与L3特征图的通道数一致；

S23、利用最近邻插值法进行上采样，将L4特征图的维度调整为与L3特征图的维度一致；

S24、将调整后的L4特征图与L3特征图进行逐元素相加，得到融合后的特征图；

S25、利用1*1的卷积层对融合后的特征图进行通道数降低处理，并采用最近邻插值法进行上采样后与L2特征图相加，得到最终的融合特征图；

S26、利用3*3的卷积层对生成的融合特征图进行融合，生成最终通道数为1024维的特征图。

进一步的，所述融合后的特征图在特征融合时的计算公式如下：

G_f(s，t，j)＝G_L(s，t，d)*δ(3，3，d)；

其中，δ(1，1，k)表示k维1x1的卷积核，δ(3，3，d)表示d维3x3的卷积核，

表示L_i层宽为m高为n通道数为k的特征图，

表示L_i层特征通道数降为d的特征图，

表示L_i-1层宽为s高为t通道数为d的特征图，G_L(s，t，d)表示L_i与L_i-1层的特征图合并后的宽为s高为t通道数为d的特征图，G_f(s，t，j)表示最终生成的宽为s高为t通道数为j的融合特征图，F_upsample[*]表示上采样。

进一步的，所述利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取包括以下步骤：

S31、将融合特征图作为数据库图像全局特征图，输入Transformer中生成预选框，并将预选框映射回融合特征图中提取局部特征图；

S32、利用R-MAC算法对全局特征图及局部特征图进行聚合，生成数据库图像的全局特征及局部特征并保存至数据库。

进一步的，所述Transformer在生成预选框时无需经过预测，将预选框的坐标映射回融合特征图中，提取局部卷积特征图，每个局部卷积特征图通过下式得到：

其中，X表示图像的卷积特征图，本质上是个三维矩阵，w和h分别表示卷积特征的宽和高，用x_min，x_max，y_min，y_max表示生成预选框的在原图中的坐标位置，I_w，I_h表示图像的宽、高，数据库中的图像输入进Transformer中会生成多个目标区域，下标i表示生成的第i个预选框，

表示向上取整，

表示向下取整。

进一步的，所述利用Vision Transformer对用户输入的子图进行注意力权重计算，并对加权后的融合特征图进行聚合得到子图特征包括以下步骤：

S41、采用卷积神经网络对用户输入的查询子图进行融合后全局特征图的提取；

S42、利用Vision Transformer计算自注意力权重，并采用R-MAC算法对加权后的融合特征图进行聚合得到子图特征；

其中，所述S42中加权的计算的公式如下：

F_attention(s，t，j)＝Attention(G_f(s，t，j))*G_f(s，t，j)；

式中s、t表示特征图的宽、高，j表示特征图的通道数，G_f(s，t，j)表示S2中所提取到的融合特征图，Attention(G_f(s，t，j))表示G_f(s，t，j)输入进Vision Transformer后所生成的注意力权重，F_attention(s，t，j)表示将G_f(s，t，j)加权后的结果。

进一步的，所述计算查询子图特征与数据库图像特征的相似度，并按照相似性得分进行排序实现子图检索包括以下步骤：

S51、获取查询子图特征及数据库图像的全局特征及局部特征，并逐一计算欧式距离，并选取最小的距离值作为相似性得分；

S52、选取与查询子图的特征向量最为相似的数据库图像的特征向量作为数据库图像的表征向量，并按照相似性得分进行排序实现子图检索。

进一步的，所述相似性得分的计算公式如下：

sim(D，Q)＝min[dist(x₀，y)，dist(x₁，y)，...，dist(x_n，y)]；

其中，D和Q分别表示数据库图像与查询子图，y表示查询子图的全局特征向量，x₁，x₂，...，x_n表示数据库图像的全局特征向量与局部特征向量，dist(x_n，y)表示数据库图像第n个区域的特征与查询子图特征的距离。

本发明的有益效果为：本发明提出的基于自注意力机制的传统纹样子图检索方法在卷积神经网与Transformer之间增加特征融合模块，将具有丰富语义信息的高层特征与相应的具有丰富的空间信息的底层特征图进行融合，使Transformer生成的预选框可以捕捉更小的细节。利用attention机制对融合特征计算自注意力权重，对子图特征图加权，忽略大多不重要的信息，以取得更好的检索结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于自注意力机制的传统纹样子图检索方法的流程示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

根据本发明的实施例，提供了一种基于自注意力机制的传统纹样子图检索方法。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明实施例的一种基于自注意力机制的传统纹样子图检索方法，该方法包括以下步骤：

其中，所述构建基于传统纹样图片的数据集，并利用该数据集对预先构建的子图检索模型进行训练包括以下步骤：

S11、获取预设数量的传统纹样图片(收集整理大量传统纹样图片)，并对传统纹样图片中的目标位置及类别信息进行手动标注，得到标注好的数据集；

S13、利用图像处理工具对标注好的数据库图像进行图像中子元素的分割提取，并去除背景得到查询子图数据集；

具体的，所述子图检索模型在DETR模型的基础上增加特征融合模块，采用ResNet作为主干提取图像不同卷积层的特征，进行特征融合后得到1024维的特征图，输入Transformer结构中，Transformer会生成N个预测，所用的损失函数如下：

表示Transormer生成的第σ(i)个预测，

表示ground truth y_i与预测

使得损失最小，则为两个集合之间最优二部图匹配，

表示预测集与ground truth最优的二部图匹配。

其中，所述利用卷积神经网络提取一系列处于不同层次的特征图，并将提取到的特征图利用特征金字塔进行融合包括以下步骤：

S21、利用残差网络(ResNet)提取输入图像每个阶段最后一个残差结构的特征激活输出，用{L1，L2，L3，L4}表示，其中L1至L4表示不同的残差网络卷积组，由于L1层噪声太多，因此只采用{L2，L3，L4}；

S23、利用最近邻插值法进行上采样，将L4特征图的维度调整为与L3特征图的维度一致，最近邻插值法可以最大程度地保留特征图的语义信息；

S26、利用3*3的卷积层对生成的融合特征图进行融合，消除上采样过程带来的重叠效应，生成最终通道数为1024维的特征图。

具体的，所述融合后的特征图在特征融合时的计算公式如下：

G_f(s，t，j)＝G_L(s，t，d)*δ(3，3，d)

表示L_i层宽为m高为n通道数为k的特征图，

表示L_i层特征通道数降为d的特征图，

其中，所述利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取包括以下步骤：

S31、对于数据库图像生成的融合特征图，将融合特征图作为数据库图像全局特征图，输入Transformer中生成预选框，并将预选框映射回融合特征图中提取局部特征图；

S32、利用R-MAC算法对全局特征图及局部特征图进行聚合，生成数据库图像的全局特征及局部特征并保存至数据库，R-MAC算法为2015年提取的区域聚合算法，采用变窗口的方式在特征平面上滑动采样，选择区域大小为R_s的滑窗对卷积特征进行采样，两个滑动窗口间需要保持重叠区域最少为40％，采样之后，R-MAC会对所有的区域特征图进行最大池化、L2归一化和PCA，之后使用求和池化获得全局特征向量后，再进行一次L2归一化。

具体的，所述Transformer在生成预选框时不需要再经过后层FFN的预测，将预选框的坐标映射回融合特征图中，提取局部卷积特征图，每个局部卷积特征图通过下式得到：

表示向上取整，

表示向下取整。

其中，所述利用Vision Transformer对用户输入的子图进行注意力权重计算，并对加权后的融合特征图进行聚合得到子图特征包括以下步骤：

S41、对用户输入的查询子图，采用卷积神经网络对用户输入的查询子图进行融合后全局特征图的提取；

S42、由于用户输入的是从原图中分割提取得到，已去除原图中的背景，在子图中只有特定的区域有助于构造有区别的全局特征，因此采用VisionTransformer计算自注意力权重图，并与融合特征图进行加权，之后用R-MAC算法进行聚合得到子图特征；

其中，所述S42中加权的计算的公式如下：

F_attention(s，t，j)＝Attention(G_f(s，t，j))*G_f(s，t，j)

其中，所述计算查询子图特征与数据库图像特征的相似度，并按照相似性得分进行排序实现子图检索包括以下步骤：

具体的，所述相似性得分的计算公式如下：

sim(D，Q)＝min[dist(x₀，y)，dist(x₁，y)，...，dist(x_n，y)]；

其中，D和Q分别表示数据库图像与查询子图，y表示查询子图的全局特征向量，x₁，x₂，…，x_n表示数据库图像的全局特征向量与局部特征向量，dist(x_n，y)表示数据库图像第n个区域的特征与查询子图特征的距离。

综上所述，借助于本发明的上述技术方案，本发明提出的基于自注意力机制的传统纹样子图检索方法在卷积神经网与Transformer之间增加特征融合模块，将具有丰富语义信息的高层特征与相应的具有丰富的空间信息的底层特征图进行融合，使Transformer生成的预选框可以捕捉更小的细节。利用attention机制对融合特征计算自注意力权重，对子图特征图加权，忽略大多不重要的信息，以取得更好的检索结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自注意力机制的传统纹样子图检索方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述构建基于传统纹样图片的训练数据集，并利用该数据集对预先构建的子图检索模型进行训练包括以下步骤：

3.根据权利要求2所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述子图检索模型在DETR模型的基础上增加特征融合模块，采用ResNet作为主干提取图像不同卷积层的特征，进行特征融合后得到1024维的特征图，输入Transformer结构中，Transformer会生成N个预测，所用的损失函数如下：

表示Transormer生成的第σ(i)个预测，

表示ground truthy_i与预测

使得损失最小，则为两个集合之间最优二部图匹配，

表示预测集与ground truth最优的二部图匹配。

4.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述利用卷积神经网络提取一系列处于不同层次的特征图，并将提取到的特征图利用特征金字塔进行融合包括以下步骤：

5.根据权利要求4所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述融合后的特征图在特征融合时的计算公式如下：

G_f(s，t，j)＝G_L(s，t，d)*δ(3，3，d)；

其中，δ(1,1,k)表示k维1x1的卷积核，δ(3,3,d)表示d维3x3的卷积核，

表示L_i层宽为m高为n通道数为k的特征图，

表示L_i层特征通道数降为d的特征图，

6.根据权利要求4所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取包括以下步骤：

7.根据权利要求6所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述Transformer在生成预选框时无需经过预测，将预选框的坐标映射回融合特征图中，提取局部卷积特征图，每个局部卷积特征图通过下式得到：

表示向上取整，

表示向下取整。

8.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述利用Vision Transformer对用户输入的子图进行注意力权重计算，并对加权后的融合特征图进行聚合得到子图特征包括以下步骤：

其中，所述S42中加权的计算的公式如下：

F_attention(s，t，j)＝Attention(G_f(s，t，j))*G_f(s，t，j)；

式中s、t表示特征图的宽、高，j表示特征图的通道数，G_f(s，t，j)表示融合特征图，Attention(G_f(s，t，j))表示G_f(s，t，j)输入进Vision Transformer后所生成的注意力权重，F_attention(s，t，j)表示将G_f(s，t，j)加权后的结果。

9.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述计算查询子图特征与数据库图像特征的相似度，并按照相似性得分进行排序实现子图检索包括以下步骤：

10.根据权利要求9所述的一种基于自注意力机制的传统纹样子图检索方法，其特征在于，所述相似性得分的计算公式如下：

sim(D，Q)＝min[dist(x₀，y)，dist(x₁，y)，...，dist(x_n，y)]；