CN114510594A - 一种基于自注意力机制的传统纹样子图检索方法 - Google Patents

一种基于自注意力机制的传统纹样子图检索方法 Download PDF

Info

Publication number
CN114510594A
CN114510594A CN202210105755.2A CN202210105755A CN114510594A CN 114510594 A CN114510594 A CN 114510594A CN 202210105755 A CN202210105755 A CN 202210105755A CN 114510594 A CN114510594 A CN 114510594A
Authority
CN
China
Prior art keywords
feature
subgraph
features
graph
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210105755.2A
Other languages
English (en)
Inventor
赵海英
高子惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING INTERNATIONAL STUDIES UNIVERSITY
Beijing University of Posts and Telecommunications
Original Assignee
BEIJING INTERNATIONAL STUDIES UNIVERSITY
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING INTERNATIONAL STUDIES UNIVERSITY, Beijing University of Posts and Telecommunications filed Critical BEIJING INTERNATIONAL STUDIES UNIVERSITY
Priority to CN202210105755.2A priority Critical patent/CN114510594A/zh
Publication of CN114510594A publication Critical patent/CN114510594A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自注意力机制的传统纹样子图检索方法,该方法包括以下步骤:利用训练数据集对子图检索模型进行训练;提取不同层次的特征图,并利用特征金字塔进行融合;进行全局特征及局部特征的提取;进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征;计算查询子图特征与数据库图像特征的相似度,将数据库按照相似度进行排序实现子图检索。本发明将具有丰富语义信息的高层特征与相应的具有丰富的空间信息的底层特征图进行融合,使Transformer生成的预选框可以捕捉更小的细节,利用attention机制对融合特征计算自注意力权重,对子图特征图加权,忽略大多不重要的信息,以取得更好的检索结果。

Description

一种基于自注意力机制的传统纹样子图检索方法
技术领域
本发明涉及图像处理和计算机视觉技术领域,具体来说,涉及一种基于自注意力机制的传统纹样子图检索方法。
背景技术
随着网络和数字经济的发展,多媒体数据也不断迅猛增长,越来越多的数据可以保存为图像的形式,种类更加复杂,如何在大量的图像中寻找自己所需的图像成为一个难题。自20世纪70年代以来,图像检索一直是一个非常活跃的研究领域。图像检索方法可以分为两类:基于文本的图像检索(TBIR)和基于内容的图像检索(CBIR),图像中的全部视觉内容有时很难用文字表达,因此TBIR会产生不相关的结果。CBIR是指利用图像的颜色、纹理、轮廓、空间关系等信息检索图像。
随着深度学习的发展,研究的重点开始转向基于深度学习的方法。早期利用DCNN进行图像检索的研究一般采用全连接层特征作为描述子。但该方法存在特征维度高、图片输入有限制等问题。随着检索任务复杂程度的增加以及研究的深入,发现相比于全连接层,卷积层特征包含一定的位置特征信息,使其更适合作为图像描述子。因此,图像特征描述子研究逐渐由全连接层转向卷积层。卷积神经网具备三个重要的特性:一定程度的缩放、旋转不变性;共享权值和局部感受野;捕捉到从细节到整体层次化的特征。这些特性使得卷积神经网非常适合处理计算机视觉任务,成为深度学习时代CV领域的基石。
2017年提出Transformer之后,Transformer成功应用于许多NLP任务中,2020年,Vision Transformer以最小的改动将Transformer应用于CV领域。Transformer的核心就是Attention注意力机制,Attention模仿了生物观察行为的内部过程,可以从大量信息中有筛选出少量重要信息,忽略大多不重要的信息,并聚焦到这些重要信息上。子图是指用户从原图中分割提取得到的图像,已去除原图中的背景,在子图中只有特定的区域有助于构造有区别的全局特征。子图检索是一个新的挑战,一个新的探索,如何提取子图中的特定区域,更好地满足用户的需求,解决子图检索的难题,提高检索效率是业内亟待解决的难题。
发明内容
针对相关技术中的问题,本发明提出一种基于自注意力机制的传统纹样子图检索方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种基于自注意力机制的传统纹样子图检索方法,该方法包括以下步骤:
S1、构建基于传统纹样图片的数据集,并利用该数据集对预先构建的子图检索模型进行训练;
S2、利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合;
S3、利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取;
S4、利用Vision Transformer对用户输入的子图进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征;
S5、计算查询子图特征与数据库图像特征的相似度,并按照相似性得分进行排序实现子图检索。
进一步的,所述构建基于传统纹样图片的数据集,并利用该数据集对预先构建的子图检索模型进行训练包括以下步骤:
S11、获取预设数量的传统纹样图片,并对传统纹样图片中的目标位置及类别信息进行手动标注,得到标注好的数据集;
S12、将整个数据库随机划分为训练集和测试集两个集合,训练集与测试集的比例为8:2,在训练过程中使用训练集训练拟合模型,使用测试集进行模型预测,衡量模型的性能和能力,并记录准确率;
S13、利用图像处理工具对整理后的数据库图像进行图像中子元素的分割提取,并去除背景得到查询子图数据集;
S14、构建子图检索模型,并利用数据集对该子图检索模型进行训练。
进一步的,所述子图检索模型在DETR模型的基础上增加特征融合模块,采用ResNet作为主干提取图像不同卷积层的特征,进行特征融合后得到1024维的特征图,输入Transformer结构中,Transformer会生成N个预测,所用的损失函数如下:
Figure BDA0003493448340000031
其中,yi表示ground truth,即数据集中已标记的类别与目标位置,
Figure BDA0003493448340000032
表示Transormer生成的第σ(i)个预测,
Figure BDA0003493448340000033
表示ground truth yi与预测
Figure BDA0003493448340000036
之间的类别损失与IoU损失的和,由于N的数量会大于ground truth的数量,因此,对yi使用空集补齐为N,使其与N个预测进行二部图匹配,当N个元素之间的排列
Figure BDA0003493448340000034
使得损失最小,则为两个集合之间最优二部图匹配,
Figure BDA0003493448340000037
表示预测集与ground truth最优的二部图匹配。进一步的,所述利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合包括以下步骤:
S21、利用残差网络提取输入图像每个阶段最后一个残差结构的特征激活输出,并采用{L1,L2,L3,L4}表示,其中L1至L4表示不同的残差网络卷积组;
S22、利用1*1的卷积层将L4特征图的通道数降低至与L3特征图的通道数一致;
S23、利用最近邻插值法进行上采样,将L4特征图的维度调整为与L3特征图的维度一致;
S24、将调整后的L4特征图与L3特征图进行逐元素相加,得到融合后的特征图;
S25、利用1*1的卷积层对融合后的特征图进行通道数降低处理,并采用最近邻插值法进行上采样后与L2特征图相加,得到最终的融合特征图;
S26、利用3*3的卷积层对生成的融合特征图进行融合,生成最终通道数为1024维的特征图。
进一步的,所述融合后的特征图在特征融合时的计算公式如下:
Figure BDA0003493448340000035
Figure BDA0003493448340000045
Gf(s,t,j)=GL(s,t,d)*δ(3,3,d);
其中,δ(1,1,k)表示k维1x1的卷积核,δ(3,3,d)表示d维3x3的卷积核,
Figure BDA0003493448340000041
表示Li层宽为m高为n通道数为k的特征图,
Figure BDA0003493448340000042
表示Li层特征通道数降为d的特征图,
Figure BDA0003493448340000043
表示Li-1层宽为s高为t通道数为d的特征图,GL(s,t,d)表示Li与Li-1层的特征图合并后的宽为s高为t通道数为d的特征图,Gf(s,t,j)表示最终生成的宽为s高为t通道数为j的融合特征图,Fupsample[*]表示上采样。
进一步的,所述利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取包括以下步骤:
S31、将融合特征图作为数据库图像全局特征图,输入Transformer中生成预选框,并将预选框映射回融合特征图中提取局部特征图;
S32、利用R-MAC算法对全局特征图及局部特征图进行聚合,生成数据库图像的全局特征及局部特征并保存至数据库。
进一步的,所述Transformer在生成预选框时无需经过预测,将预选框的坐标映射回融合特征图中,提取局部卷积特征图,每个局部卷积特征图通过下式得到:
Figure BDA0003493448340000044
其中,X表示图像的卷积特征图,本质上是个三维矩阵,w和h分别表示卷积特征的宽和高,用xmin,xmax,ymin,ymax表示生成预选框的在原图中的坐标位置,Iw,Ih表示图像的宽、高,数据库中的图像输入进Transformer中会生成多个目标区域,下标i表示生成的第i个预选框,
Figure BDA0003493448340000046
表示向上取整,
Figure BDA0003493448340000047
表示向下取整。
进一步的,所述利用Vision Transformer对用户输入的子图进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征包括以下步骤:
S41、采用卷积神经网络对用户输入的查询子图进行融合后全局特征图的提取;
S42、利用Vision Transformer计算自注意力权重,并采用R-MAC算法对加权后的融合特征图进行聚合得到子图特征;
其中,所述S42中加权的计算的公式如下:
Fattention(s,t,j)=Attention(Gf(s,t,j))*Gf(s,t,j);
式中s、t表示特征图的宽、高,j表示特征图的通道数,Gf(s,t,j)表示S2中所提取到的融合特征图,Attention(Gf(s,t,j))表示Gf(s,t,j)输入进Vision Transformer后所生成的注意力权重,Fattention(s,t,j)表示将Gf(s,t,j)加权后的结果。
进一步的,所述计算查询子图特征与数据库图像特征的相似度,并按照相似性得分进行排序实现子图检索包括以下步骤:
S51、获取查询子图特征及数据库图像的全局特征及局部特征,并逐一计算欧式距离,并选取最小的距离值作为相似性得分;
S52、选取与查询子图的特征向量最为相似的数据库图像的特征向量作为数据库图像的表征向量,并按照相似性得分进行排序实现子图检索。
进一步的,所述相似性得分的计算公式如下:
sim(D,Q)=min[dist(x0,y),dist(x1,y),...,dist(xn,y)];
其中,D和Q分别表示数据库图像与查询子图,y表示查询子图的全局特征向量,x1,x2,...,xn表示数据库图像的全局特征向量与局部特征向量,dist(xn,y)表示数据库图像第n个区域的特征与查询子图特征的距离。
本发明的有益效果为:本发明提出的基于自注意力机制的传统纹样子图检索方法在卷积神经网与Transformer之间增加特征融合模块,将具有丰富语义信息的高层特征与相应的具有丰富的空间信息的底层特征图进行融合,使Transformer生成的预选框可以捕捉更小的细节。利用attention机制对融合特征计算自注意力权重,对子图特征图加权,忽略大多不重要的信息,以取得更好的检索结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种基于自注意力机制的传统纹样子图检索方法的流程示意图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种基于自注意力机制的传统纹样子图检索方法。
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明实施例的一种基于自注意力机制的传统纹样子图检索方法,该方法包括以下步骤:
S1、构建基于传统纹样图片的数据集,并利用该数据集对预先构建的子图检索模型进行训练;
其中,所述构建基于传统纹样图片的数据集,并利用该数据集对预先构建的子图检索模型进行训练包括以下步骤:
S11、获取预设数量的传统纹样图片(收集整理大量传统纹样图片),并对传统纹样图片中的目标位置及类别信息进行手动标注,得到标注好的数据集;
S12、将整个数据库随机划分为训练集和测试集两个集合,训练集与测试集的比例为8:2,在训练过程中使用训练集训练拟合模型,使用测试集进行模型预测,衡量模型的性能和能力,并记录准确率;
S13、利用图像处理工具对标注好的数据库图像进行图像中子元素的分割提取,并去除背景得到查询子图数据集;
S14、构建子图检索模型,并利用数据集对该子图检索模型进行训练。
具体的,所述子图检索模型在DETR模型的基础上增加特征融合模块,采用ResNet作为主干提取图像不同卷积层的特征,进行特征融合后得到1024维的特征图,输入Transformer结构中,Transformer会生成N个预测,所用的损失函数如下:
Figure BDA0003493448340000071
其中,yi表示ground truth,即数据集中已标记的类别与目标位置,
Figure BDA0003493448340000072
表示Transormer生成的第σ(i)个预测,
Figure BDA0003493448340000073
表示ground truth yi与预测
Figure BDA0003493448340000074
之间的类别损失与IoU损失的和,由于N的数量会大于ground truth的数量,因此,对yi使用空集补齐为N,使其与N个预测进行二部图匹配,当N个元素之间的排列
Figure BDA0003493448340000075
使得损失最小,则为两个集合之间最优二部图匹配,
Figure BDA0003493448340000076
表示预测集与ground truth最优的二部图匹配。
S2、利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合;
其中,所述利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合包括以下步骤:
S21、利用残差网络(ResNet)提取输入图像每个阶段最后一个残差结构的特征激活输出,用{L1,L2,L3,L4}表示,其中L1至L4表示不同的残差网络卷积组,由于L1层噪声太多,因此只采用{L2,L3,L4};
S22、利用1*1的卷积层将L4特征图的通道数降低至与L3特征图的通道数一致;
S23、利用最近邻插值法进行上采样,将L4特征图的维度调整为与L3特征图的维度一致,最近邻插值法可以最大程度地保留特征图的语义信息;
S24、将调整后的L4特征图与L3特征图进行逐元素相加,得到融合后的特征图;
S25、利用1*1的卷积层对融合后的特征图进行通道数降低处理,并采用最近邻插值法进行上采样后与L2特征图相加,得到最终的融合特征图;
S26、利用3*3的卷积层对生成的融合特征图进行融合,消除上采样过程带来的重叠效应,生成最终通道数为1024维的特征图。
具体的,所述融合后的特征图在特征融合时的计算公式如下:
Figure BDA0003493448340000081
Figure BDA0003493448340000082
Gf(s,t,j)=GL(s,t,d)*δ(3,3,d)
其中,δ(1,1,k)表示k维1x1的卷积核,δ(3,3,d)表示d维3x3的卷积核,
Figure BDA0003493448340000083
表示Li层宽为m高为n通道数为k的特征图,
Figure BDA0003493448340000084
表示Li层特征通道数降为d的特征图,
Figure BDA0003493448340000085
表示Li-1层宽为s高为t通道数为d的特征图,GL(s,t,d)表示Li与Li-1层的特征图合并后的宽为s高为t通道数为d的特征图,Gf(s,t,j)表示最终生成的宽为s高为t通道数为j的融合特征图,Fupsample[*]表示上采样。
S3、利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取;
其中,所述利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取包括以下步骤:
S31、对于数据库图像生成的融合特征图,将融合特征图作为数据库图像全局特征图,输入Transformer中生成预选框,并将预选框映射回融合特征图中提取局部特征图;
S32、利用R-MAC算法对全局特征图及局部特征图进行聚合,生成数据库图像的全局特征及局部特征并保存至数据库,R-MAC算法为2015年提取的区域聚合算法,采用变窗口的方式在特征平面上滑动采样,选择区域大小为Rs的滑窗对卷积特征进行采样,两个滑动窗口间需要保持重叠区域最少为40%,采样之后,R-MAC会对所有的区域特征图进行最大池化、L2归一化和PCA,之后使用求和池化获得全局特征向量后,再进行一次L2归一化。
具体的,所述Transformer在生成预选框时不需要再经过后层FFN的预测,将预选框的坐标映射回融合特征图中,提取局部卷积特征图,每个局部卷积特征图通过下式得到:
Figure BDA0003493448340000086
其中,X表示图像的卷积特征图,本质上是个三维矩阵,w和h分别表示卷积特征的宽和高,用xmin,Xmax,ymin,ymax表示生成预选框的在原图中的坐标位置,Iw,Ih表示图像的宽、高,数据库中的图像输入进Transformer中会生成多个目标区域,下标i表示生成的第i个预选框,
Figure BDA0003493448340000091
表示向上取整,
Figure BDA0003493448340000092
表示向下取整。
S4、利用Vision Transformer对用户输入的子图进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征;
其中,所述利用Vision Transformer对用户输入的子图进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征包括以下步骤:
S41、对用户输入的查询子图,采用卷积神经网络对用户输入的查询子图进行融合后全局特征图的提取;
S42、由于用户输入的是从原图中分割提取得到,已去除原图中的背景,在子图中只有特定的区域有助于构造有区别的全局特征,因此采用VisionTransformer计算自注意力权重图,并与融合特征图进行加权,之后用R-MAC算法进行聚合得到子图特征;
其中,所述S42中加权的计算的公式如下:
Fattention(s,t,j)=Attention(Gf(s,t,j))*Gf(s,t,j)
式中s、t表示特征图的宽、高,j表示特征图的通道数,Gf(s,t,j)表示S2中所提取到的融合特征图,Attention(Gf(s,t,j))表示Gf(s,t,j)输入进Vision Transformer后所生成的注意力权重,Fattention(s,t,j)表示将Gf(s,t,j)加权后的结果。
其中,所述计算查询子图特征与数据库图像特征的相似度,并按照相似性得分进行排序实现子图检索包括以下步骤:
S51、获取查询子图特征及数据库图像的全局特征及局部特征,并逐一计算欧式距离,并选取最小的距离值作为相似性得分;
S52、选取与查询子图的特征向量最为相似的数据库图像的特征向量作为数据库图像的表征向量,并按照相似性得分进行排序实现子图检索。
具体的,所述相似性得分的计算公式如下:
sim(D,Q)=min[dist(x0,y),dist(x1,y),...,dist(xn,y)];
其中,D和Q分别表示数据库图像与查询子图,y表示查询子图的全局特征向量,x1,x2,…,xn表示数据库图像的全局特征向量与局部特征向量,dist(xn,y)表示数据库图像第n个区域的特征与查询子图特征的距离。
综上所述,借助于本发明的上述技术方案,本发明提出的基于自注意力机制的传统纹样子图检索方法在卷积神经网与Transformer之间增加特征融合模块,将具有丰富语义信息的高层特征与相应的具有丰富的空间信息的底层特征图进行融合,使Transformer生成的预选框可以捕捉更小的细节。利用attention机制对融合特征计算自注意力权重,对子图特征图加权,忽略大多不重要的信息,以取得更好的检索结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自注意力机制的传统纹样子图检索方法,其特征在于,该方法包括以下步骤:
S1、构建基于传统纹样图片的数据集,并利用该数据集对预先构建的子图检索模型进行训练;
S2、利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合;
S3、利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取;
S4、利用Vision Transformer对用户输入的子图进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征;
S5、计算查询子图特征与数据库图像特征的相似度,并按照相似性得分进行排序实现子图检索。
2.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述构建基于传统纹样图片的训练数据集,并利用该数据集对预先构建的子图检索模型进行训练包括以下步骤:
S11、获取预设数量的传统纹样图片,并对传统纹样图片中的目标位置及类别信息进行手动标注,得到标注好的数据集;
S12、将整个数据库随机划分为训练集和测试集两个集合,训练集与测试集的比例为8:2,在训练过程中使用训练集训练拟合模型,使用测试集进行模型预测,衡量模型的性能和能力,并记录准确率;
S13、利用图像处理工具对标注好的数据库图像进行图像中子元素的分割提取,并去除背景得到查询子图数据集;
S14、构建子图检索模型,并利用数据集对该子图检索模型进行训练。
3.根据权利要求2所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述子图检索模型在DETR模型的基础上增加特征融合模块,采用ResNet作为主干提取图像不同卷积层的特征,进行特征融合后得到1024维的特征图,输入Transformer结构中,Transformer会生成N个预测,所用的损失函数如下:
Figure FDA0003493448330000011
其中,yi表示ground truth,即数据集中已标记的类别与目标位置,
Figure FDA0003493448330000021
表示Transormer生成的第σ(i)个预测,
Figure FDA0003493448330000022
表示ground truthyi与预测
Figure FDA0003493448330000023
之间的类别损失与IoU损失的和,由于N的数量会大于ground truth的数量,因此,对yi使用空集补齐为N,使其与N个预测进行二部图匹配,当N个元素之间的排列
Figure FDA0003493448330000024
使得损失最小,则为两个集合之间最优二部图匹配,
Figure FDA0003493448330000025
表示预测集与ground truth最优的二部图匹配。
4.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述利用卷积神经网络提取一系列处于不同层次的特征图,并将提取到的特征图利用特征金字塔进行融合包括以下步骤:
S21、利用残差网络提取输入图像每个阶段最后一个残差结构的特征激活输出,并采用{L1,L2,L3,L4}表示,其中L1至L4表示不同的残差网络卷积组;
S22、利用1*1的卷积层将L4特征图的通道数降低至与L3特征图的通道数一致;
S23、利用最近邻插值法进行上采样,将L4特征图的维度调整为与L3特征图的维度一致;
S24、将调整后的L4特征图与L3特征图进行逐元素相加,得到融合后的特征图;
S25、利用1*1的卷积层对融合后的特征图进行通道数降低处理,并采用最近邻插值法进行上采样后与L2特征图相加,得到最终的融合特征图;
S26、利用3*3的卷积层对生成的融合特征图进行融合,生成最终通道数为1024维的特征图。
5.根据权利要求4所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述融合后的特征图在特征融合时的计算公式如下:
Figure FDA0003493448330000026
Figure FDA0003493448330000027
Gf(s,t,j)=GL(s,t,d)*δ(3,3,d);
其中,δ(1,1,k)表示k维1x1的卷积核,δ(3,3,d)表示d维3x3的卷积核,
Figure FDA0003493448330000028
表示Li层宽为m高为n通道数为k的特征图,
Figure FDA0003493448330000029
表示Li层特征通道数降为d的特征图,
Figure FDA0003493448330000031
表示Li-1层宽为s高为t通道数为d的特征图,GL(s,t,d)表示Li与Li-1层的特征图合并后的宽为s高为t通道数为d的特征图,Gf(s,t,j)表示最终生成的宽为s高为t通道数为j的融合特征图,Fupsample[*]表示上采样。
6.根据权利要求4所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征的提取包括以下步骤:
S31、将融合特征图作为数据库图像全局特征图,输入Transformer中生成预选框,并将预选框映射回融合特征图中提取局部特征图;
S32、利用R-MAC算法对全局特征图及局部特征图进行聚合,生成数据库图像的全局特征及局部特征并保存至数据库。
7.根据权利要求6所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述Transformer在生成预选框时无需经过预测,将预选框的坐标映射回融合特征图中,提取局部卷积特征图,每个局部卷积特征图通过下式得到:
Figure FDA0003493448330000032
其中,X表示图像的卷积特征图,本质上是个三维矩阵,w和h分别表示卷积特征的宽和高,用xmin,xmax,ymin,ymax表示生成预选框的在原图中的坐标位置,Iw,Ih表示图像的宽、高,数据库中的图像输入进Transformer中会生成多个目标区域,下标i表示生成的第i个预选框,
Figure FDA0003493448330000033
表示向上取整,
Figure FDA0003493448330000034
表示向下取整。
8.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述利用Vision Transformer对用户输入的子图进行注意力权重计算,并对加权后的融合特征图进行聚合得到子图特征包括以下步骤:
S41、采用卷积神经网络对用户输入的查询子图进行融合后全局特征图的提取;
S42、利用Vision Transformer计算自注意力权重,并采用R-MAC算法对加权后的融合特征图进行聚合得到子图特征;
其中,所述S42中加权的计算的公式如下:
Fattention(s,t,j)=Attention(Gf(s,t,j))*Gf(s,t,j);
式中s、t表示特征图的宽、高,j表示特征图的通道数,Gf(s,t,j)表示融合特征图,Attention(Gf(s,t,j))表示Gf(s,t,j)输入进Vision Transformer后所生成的注意力权重,Fattention(s,t,j)表示将Gf(s,t,j)加权后的结果。
9.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述计算查询子图特征与数据库图像特征的相似度,并按照相似性得分进行排序实现子图检索包括以下步骤:
S51、获取查询子图特征及数据库图像的全局特征及局部特征,并逐一计算欧式距离,并选取最小的距离值作为相似性得分;
S52、选取与查询子图的特征向量最为相似的数据库图像的特征向量作为数据库图像的表征向量,并按照相似性得分进行排序实现子图检索。
10.根据权利要求9所述的一种基于自注意力机制的传统纹样子图检索方法,其特征在于,所述相似性得分的计算公式如下:
sim(D,Q)=min[dist(x0,y),dist(x1,y),...,dist(xn,y)];
其中,D和Q分别表示数据库图像与查询子图,y表示查询子图的全局特征向量,x1,x2,...,xn表示数据库图像的全局特征向量与局部特征向量,dist(xn,y)表示数据库图像第n个区域的特征与查询子图特征的距离。
CN202210105755.2A 2022-01-28 2022-01-28 一种基于自注意力机制的传统纹样子图检索方法 Pending CN114510594A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210105755.2A CN114510594A (zh) 2022-01-28 2022-01-28 一种基于自注意力机制的传统纹样子图检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210105755.2A CN114510594A (zh) 2022-01-28 2022-01-28 一种基于自注意力机制的传统纹样子图检索方法

Publications (1)

Publication Number Publication Date
CN114510594A true CN114510594A (zh) 2022-05-17

Family

ID=81550379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210105755.2A Pending CN114510594A (zh) 2022-01-28 2022-01-28 一种基于自注意力机制的传统纹样子图检索方法

Country Status (1)

Country Link
CN (1) CN114510594A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115329118A (zh) * 2022-10-14 2022-11-11 山东省凯麟环保设备股份有限公司 一种面向垃圾图像的图像相似性检索方法及系统
CN115496976A (zh) * 2022-08-29 2022-12-20 锋睿领创(珠海)科技有限公司 多源异构数据融合的视觉处理方法、装置、设备及介质
CN117576513A (zh) * 2023-11-24 2024-02-20 铜陵学院 端到端航天器组件检测方法、装置及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115496976A (zh) * 2022-08-29 2022-12-20 锋睿领创(珠海)科技有限公司 多源异构数据融合的视觉处理方法、装置、设备及介质
CN115496976B (zh) * 2022-08-29 2023-08-11 锋睿领创(珠海)科技有限公司 多源异构数据融合的视觉处理方法、装置、设备及介质
CN115329118A (zh) * 2022-10-14 2022-11-11 山东省凯麟环保设备股份有限公司 一种面向垃圾图像的图像相似性检索方法及系统
CN115329118B (zh) * 2022-10-14 2023-02-28 山东省凯麟环保设备股份有限公司 一种面向垃圾图像的图像相似性检索方法及系统
CN117576513A (zh) * 2023-11-24 2024-02-20 铜陵学院 端到端航天器组件检测方法、装置及介质
CN117576513B (zh) * 2023-11-24 2024-05-14 铜陵学院 端到端航天器组件检测方法、装置及介质

Similar Documents

Publication Publication Date Title
CN107679250B (zh) 一种基于深度自编码卷积神经网络的多任务分层图像检索方法
CN107066559B (zh) 一种基于深度学习的三维模型检索方法
CN108595636A (zh) 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110717534B (zh) 一种基于网络监督的目标分类和定位方法
CN110956185A (zh) 一种图像显著目标的检测方法
CN114510594A (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN111177446A (zh) 一种用于足迹图像检索的方法
CN114241273B (zh) 基于Transformer网络和超球空间学习的多模态图像处理方法及系统
CN106649487A (zh) 基于兴趣目标的图像检索方法
CN108875076B (zh) 一种基于Attention机制和卷积神经网络的快速商标图像检索方法
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN111680176A (zh) 基于注意力与双向特征融合的遥感图像检索方法及系统
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其系统
CN113657450B (zh) 基于注意机制的陆战场图像-文本跨模态检索方法及其系统
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN110826609B (zh) 一种基于强化学习的双流特征融合图像识别方法
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
Gao et al. Group-pair convolutional neural networks for multi-view based 3d object retrieval
JP4937395B2 (ja) 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN114972506B (zh) 一种基于深度学习和街景图像的图像定位方法
CN115035341A (zh) 一种自动选择学生模型结构的图像识别知识蒸馏方法
CN110569761A (zh) 一种基于对抗学习的手绘草图检索遥感图像的方法
CN114627312B (zh) 零样本图像分类方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination