CN114911967B - 一种基于自适应域增强的三维模型草图检索方法 - Google Patents
一种基于自适应域增强的三维模型草图检索方法 Download PDFInfo
- Publication number
- CN114911967B CN114911967B CN202210574993.8A CN202210574993A CN114911967B CN 114911967 B CN114911967 B CN 114911967B CN 202210574993 A CN202210574993 A CN 202210574993A CN 114911967 B CN114911967 B CN 114911967B
- Authority
- CN
- China
- Prior art keywords
- domain
- feature
- features
- representing
- dimensional model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 230000008485 antagonism Effects 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 74
- 238000011176 pooling Methods 0.000 claims description 53
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 17
- 238000012935 Averaging Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 230000006835 compression Effects 0.000 claims description 8
- 238000007906 compression Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自适应域增强的三维模型草图检索方法,可有效嵌入到现有的跨域检索框架中,在特征提取过程中捕获跨域互信息增强的全局特征,在域内通过双线性池化学习增强局部判别特征,并且通过对抗学习完成自适应的特征融合,使网络自适应地关注全局特征和局部特征中更具区分性的表示特征,进一步适应输入草图的多样性,提高检索性能。
Description
技术领域
本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种基于自适应域增强的三维模型草图检索方法。
背景技术
跨模态检索是计算机视觉中一个长期存在且具有挑战性的问题,应用范围非常广泛,例如文本图像检索、图像视频检索、文本视频检索等,其中由于近年来触屏设备的普及3D建模技术的成熟,草图三维模型逐渐成为了新的研究热点。目前,基于深度学习的三维模型方法性能普遍优于传统手工设计特征的方法,此类方法大多使用两个独立的网络分别提取草图域和三维模型域的特征表示,然后构建一个公共的嵌入空间实现跨域对齐。然而,在基于草图的三维模型检索任务中,三维模型精准且信息丰富的,而草图是粗略和抽象的,两者之间具有巨大的域间差异,仅在特征嵌入阶段使用损失函数忽略了域间互信息对彼此域特征的优化作用,约束能力有限。此外,由于输入草图的主观性和抽象性,其判别性表示可能在于整体轮廓或局部细节中,大部分方法只关注了全局特征的提取而忽略了局部判别特征的学习。
发明内容
本发明的目的在于克服现有技术缺点与不足,针对目前基于草图的三维模型检索任务,提出了一种基于自适应域增强的三维模型草图检索方法,在特征提取过程中捕获跨域互信息增强的全局特征,在域内通过双线性池化学习增强局部判别特征,并且通过对抗学习完成自适应的特征融合,使网络自适应地关注全局特征和局部特征中更具区分性的表示特征,进一步适应输入草图的多样性,提高检索性能。
为实现上述目的,本发明所提供的技术方案如下:一种基于自适应域增强的三维模型草图检索方法,包括以下步骤:
S1、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生初始特征向量x1和x2,其中上标1和2分别表示来自于草图域和三维模型域;对特征向量x1和x2进行拼接操作,获得混合特征向量xb;
S2、对混合特征向量xb同时进行三个卷积操作,构造出三个域间嵌入特征空间ψ(xb)、ξ(xb)、ζ(xb);然后对特征空间ψ(xb)进行平均池化操作,对特征空间ξ(xb)进行最大池化操作;将特征空间ψ(xb)、ξ(xb)经过池化操作后得到的显著特征进行矩阵计算,求出混合特征相关性矩阵B,B表示了域间特征的相关程度;
S3、将混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到的域间相关性特征与混合特征向量xb相加,获得细化的混合特征向量o(xb),o(xb)表示了跨域特征间的相关性;
S4、通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过激活函数生成域间增强注意力权重ac,ac表示了跨域特征的域间增强注意力权重;
S5、将初始特征向量x1和x2通过平均池化操作获得初始特征fg,1和fg,2;将域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层进行降维压缩,获得初始判别特征fa,1和fa,2;
S6、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生三个初始特征向量其中m∈{1,2}表示特征来自于草图域和三维模型域;然后同时进行三个卷积操作,构造出三个域内嵌入特征空间/>和使用这三个不同的嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征之间的相关性;
S7、通过元素乘法集成扩展特征以捕获域内局部特征的交互,之后通过平均池化操作高维特征压缩为紧凑特征Δ1,m、Δ2,m、Δ3,m;并通过线性映射生成域内增强的局部判别性特征fd,m,即fd,1和fd,2;
S8、通过构造多层线性映射将fg,1、fg,2、fd,1和fd,2进行对抗学习,使网络能够根据不同的输入,自适应地从全局特征和局部特征中学习输入图像的判别性表示;
S9、为了与初始判别特征fa,1和fa,2区别表示,定义经过对抗学习后网络获得的最终判别特征为和/>在此基础上构建联合损失函数,减小了跨域特征间的巨大差异性,提高了检索性能。
进一步,在步骤S1中,基础网络是由卷积神经网络构成,对输入到网络的草图图像和三维模型多视图图像进行特征提取,基础网络将输入图像提取特征为w×h×c的特征向量x1和x2,其中w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征向量x1和x2进行Concat拼接操作,获得混合特征向量xb,公式如下:
xb=fconcat(x1,x2)∈Rw×h×2c
式中,R代表一个集合。
进一步,在步骤S2中,对特征向量xb进行的三个卷积操作,均为1×1×2c的卷积,获得三个嵌入特征空间,其中,ψ(xb)∈Rw×h×2c,ξ(xb)∈Rw×h×2c和ζ(xb)∈Rw×h×2c,式中,R代表一个集合,w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征空间ψ(xb)进行平均池化,对特征空间ξ(xb)进行最大池化,由此得到两个大小为1×2c的全局特征矩阵A、M,公式如下:
平均池化:A=favg-pooling(ψ(xb))∈R1×2c
最大池化:M=fmax-pooling(ξ(xb))∈R1×2c
将特征空间ψ(xb)平均池化得到的全局特征矩阵,与ξ(xb)最大池化得到全局特征的转置矩阵做矩阵相乘运算,最终得到一个2c×2c大小的特征相关矩阵B,B表示了域间特征的相关程度,公式如下:
B=AMT,B∈R2c×2c。
进一步,在步骤S3中,域间相关性特征由混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到,再与混合特征向量xb相加,得到细化的混合特征向量o(xb),其中O(xb)的公式如下:
O(xb)=θ(ζ(xb)B)+xb,o(xb)∈Rn×2c,θ∈[0,1]
式中,R代表一个集合,c代表特征向量的通道数,n=h×w表示特征图的尺寸,w代表特征向量的宽度,h代表特征向量的高度,θ是可训练的参数,θ的作用有两个,首先,当θ是初始化为0时,能够使用任何预训练好的模型且不破坏其最初的网络结构;其次,通过学习,使域间相关性特征和混合特征向量xb的权重能够进行自动调整。
进一步,在步骤S4中,通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过Sigmoid函数生成域间增强注意力权重ac,其中φ(·)的维度为[2c,c],c代表特征向量的通道数,ac公式为下:
ac=fsigmoid[φ(favg-pooling(o(xb)))],ac∈R1×c
式中,R代表一个集合。
进一步,在步骤S5中,通过平均池化操作作用在初始特征向量x1和x2上获得初始全局特征fg,1和fg,2,公式如下:
fg,1=favg-pooling(x1)
fg,2=favg-pooling(x2)
将步骤S4中得到的域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层[2c,c]进行降维,c代表特征向量的通道数,获得初始判别特征fa,1和fa,2,公式如下:
fa,1=ffc(fdot_product(ac,fg,1))
fa,2=ffc(fdot_product(ac,fg,2))
式中,ffc代表一个全连接层,fdot_product代表点乘操作。
进一步,在步骤S6中,从基础网络中分别提取出草图域和三维模型域的整体语义特征,用表示,其中m∈{1,2}表示特征来自于草图域和三维模型域;分别对草图域和三维模型域的整体语义特征进行三个卷积操作,均为1×1×c的卷积,c代表特征向量的通道数,获得对应的三个域内嵌入特征空间,分别用/>和表示,使用这三个不同的域内嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征间的相关性。
进一步,在步骤S7中,采用矩阵乘法操作对域内嵌入特征空间进行相乘,获得不同层级间的细粒度特征空间,并使用全局平均池化进行压缩获得紧凑特征Δ1,m、Δ2,m、Δ3,m,突出域内局部判别特征,定义如下:
式中,R代表一个集合,c代表特征向量的通道数;
再通过Concat操作将不同域间的3个紧凑特征拼接起来,以此获得完整的细粒度表示,然后通过1×1×c的卷积进行线性映射,生成域内增强的局部判别性特征fd,m:
fd,m=f1×1(fconcat(Δ1,m,Δ2,m,Δ3,m))∈R1×c
式中,f1×1代表1×1×c的卷积操作。
进一步,在步骤S8中,构造3个线性映射层组成判别器,用于预测输入特征的来源,即特征来自于初始特征fg,1、fg,2或局部判别性特征fd,1、fd,2;引入了梯度反转层Rγ(·),它在前向传播过程中应用恒等函数Rγ(f)=f,而反向传播过程中将梯度乘以元参数-γ,从而反转流经CNN的梯度;为了使判别器从全局特征和局部判别性特征中提取共享的判别性表示特征,选择二值交叉熵作为损失函数,对于每一个特征损失lt定义如下:
式中,f表示送入判别器中的特征,fD表示构建的3个线性映射层组成判别器,表示梯度反转操作,t表示0和1代表全局特征和局部判别特征,超参数γD从0到1;则一个批次内的对抗损失LA定义如下:
式中,i表示每个批次N中的样本索引,fi g,1表示来自草图域的初始全局特征,fi g,2表示来自三维模型域的初始全局特征,fi d,1表示来自草图域的局部判别性特征,fi d,2表示来自三维模型域的局部判别性特征,l0表示特征损失lt中t=0,l1表示特征损失lt中t=1。
进一步,在步骤S9中,对于加入了对抗学习后的最终特征和/>分别加入交叉熵损失和三元组中心损失构建联合损失函数,提高检索性能;联合损失函数L定义为:
L=LA+LC+LT
式中,LA代表一个批次内的对抗损失,LC代表交叉熵损失,LT代表三元组中心损失;
交叉熵损失LC定义如下:
式中,i表示每个批次N中的样本索引,其中对于输入特征和/> 表示每个批次中第i个样本分类正确的概率,/>表示预测分类概率,yj表示第i个样本的预测标签,yi表示第i个样本的真实标签,pi表示一个常数,如果yj=yi则pi=1,否则pi=0;
三元组中心损失LT定义如下:
式中,D(·)表示欧式距离,表示类别yi的中心,j表示样本i与对应的最近的负样本类别,δj表示类别yj的中心,τ表示边界阈值,通过加入三元组中心损失,使得样本i与对应的类别中心/>的距离和最近的负样本类别中心δj的距离间总保持一个阈值τ。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明可以适用于其它的跨域检索框架中,提高检索性能。
2、本发明可以捕捉域间同类别样本中的互信息,可以增强跨域特征间的相似性。
3、本发明可以关注局部细节区域,捕捉局部显著性信息,增强域内显著性特征。
4、本发明可以自适应地完成全局特征与局部显著性特征的融合,迫使网络学习到判别性特征,提高检索效果。
附图说明
图1为卷积神经网络中加入了本发明方法的架构图。
图2为域间特征增强架构图。
图3为域内特征增强架构图。
图4为本发明方法与其它方法在SHREC2013数据集上的精度比较图。
图5为本发明方法与其它方法在SHREC2013数据集上的P-R曲线图。
图6为本发明方法与其它方法在SHREC2014数据集上的精度比较图。
图7为本发明方法与其它方法在SHREC2014数据集上的P-R曲线图。
图8为本发明方法在SHREC2013数据集上一些检索结果图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
参见图1至图3所示,本实施例提供了一种基于自适应域增强的三维模型草图检索方法,可以适应于其它跨域检索任务中,提升检索效果,具体包括以下步骤:
1)基础网络从草图域和三维模型域的图像中提取特征,产生维度为w×h×c特征向量x1和x2,其中上标1和2分别表示来自于草图域和三维模型域,w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数,基础网络是由卷积神经网络构成,对输入到网络的草图图像和三维模型多视图图像进行特征提取;在图2中,对特征向量x1和x2进行Concat拼接操作,获得混合特征向量xb,公式如下:
xb=fconcat(x1,x2)∈Rw×h×2c
式中,R代表一个集合。
2)对混合特征向量xb进行三个卷积操作,均为1×1×2c的卷积,获得三个域间嵌入特征空间,ψ(xb)∈Rw×h×2c,ξ(xb)∈Rw×h×2c和ζ(xb)∈Rw×h×2c,使用三个不同的域间嵌入特征空间代替单一的特征空间,使网络更好的动态学习域间特征之间的相关性。对特征空间ψ(xb)进行平均池化,对特征空间ξ(xb)进行最大池化,由此得到两个大小为1×2c的全局特征矩阵A、M,公式如下:
平均池化:A=favg-pooling(ψ(xb))∈R1×2c
最大池化:M=fmax-pooling(ζ(xb))∈R1×2c
然后将特征空间ψ(xb)平均池化得到的全局特征矩阵,与ξ(xb)最大池化得到全局特征的转置矩阵做矩阵相乘运算,最终得到一个2c×2c大小的特征相关矩阵B,B表示了域间特征的相关程度,公式如下:
B=AMT,B∈R2c×2c
3)域间相关性特征由混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到,再与混合特征向量xb相加,得到细化的混合特征向量o(xb),其中o(xb)的公式如下:
o(xb)=θ(ζ(xb)B)+xb,o(xb)∈Rn×2c,θ∈[0,1]
其中,n=h×w表示特征图的尺寸,θ是可训练的参数,θ的作用有两个,首先,当θ是初始化为0时,可使用任何预训练好的模型且不破坏其最初的网络结构;其次,通过学习,使域间相关性特征和混合特征向量xb的权重可以进行自动调整。
4)通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过Sigmoid函数生成域间增强注意力权重ac,ac表示了跨域特征的域间增强注意力权重,其中φ(·)的维度为[2c,c],ac公式为下:
ac=fsigmoid[φ(favg-pooling(o(xb)))],ac∈R1×c
5)通过平均池化操作作用在初始特征向量x1和x2上获得初始全局特征fg,1和fg,2,公式如下:
fg,1=favg-pooling(x1)
fg,2=favg-pooling(x2)
将域间增强注意力权重ac与初始全局特征fg,1和fg,2进行点乘,并通过一层全连接层[2c,c]进行降维,获得初始判别特征fa,1和fa,2,公式如下:
fa,1=ffc(fdot_product(ac,fg,1))
fa,2=ffc(fdot_product(ac,fg,2))
式中,ffc代表一个全连接层,fdot_product代表点乘操作。
6)从草图和三维模型多视图图像中分别提取出对应域的语义特征其中m∈{1,2}表示特征来自于草图域和三维模型域。在图3中,分别对草图域和三维模型域的整体语义特征进行三个卷积操作,均为1×1×c的卷积,获得对应的三个域内嵌入特征空间,分别用/>和/>表示,使用这三个不同的域内嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征间的相关性。
7)采用矩阵乘法操作对域内嵌入特征空间进行相乘,获得不同层级间的细粒度特征空间,并使用全局平均池化进行压缩获得紧凑特征(Δ1,m,Δ2,m,Δ3,m),突出域内局部判别特征,公式如下:
然后通过Concat操作将不同域间的3个紧凑特征拼接起来,以此获得完整的细粒度表示,然后通过1×1×c的卷积进行线性映射,生成局部判别性特征fd,m(即fd,1和fd,2):
fd,m=f1×1(fconcat(Δ1,m,Δ2,m,Δ3,m))∈R1×c
式中,f1×1代表1×1×c的卷积操作。
8)构造3个线性映射层将fg,m和fd,m进行对抗学习,用于预测输入特征的来源,即特征来自于初始特征fg,1、fg,2或局部判别性特征fd,1、fd,2,使网络可以根据不同的输入,自适应的从全局特征和局部特征中学习输入图像的判别性表示;因此,我们引入了梯度反转层Rγ(·),它在前向传播过程中应用恒等函数Rγ(f)=f,而反向传播过程中将梯度乘以元参数-γ,从而反转流经CNN的梯度。并且选择二值交叉熵作为损失函数,对于每一个特征损失lt定义如下:
式中,f表示送入判别器中的特征,fD表示构建的3个线性映射层组成判别器,表示梯度反转操作,t表示0和1代表全局特征和局部判别特征,超参数γD从0到1;则一个批次内的对抗损失LA定义如下:
式中,i表示每个批次N中的样本索引,fi g,1表示来自草图域的初始全局特征,fi g,2表示来自三维模型域的初始全局特征,fi d,1表示来自草图域的局部判别性特征,fi d,2表示来自三维模型域的局部判别性特征,l0表示特征损失lt中t=0,l1表示特征损失lt中t=1。
9)为了与初始判别特征fa,1和fa,2区别表示,定义经过对抗学习后网络获得的最终判别特征为和/>在此基础上构建联合损失函数,减小了跨域特征间的巨大差异性,提高了检索性能。对于加入了对抗学习后的最终特征/>和/>分别加入交叉熵损失和三元组中心损失构建联合损失函数,提高检索性能。联合损失函数L定义为:
L=LA+LC+LT
式中,LA代表一个批次内的对抗损失,LC代表交叉熵损失,LT代表三元组中心损失;
交叉熵损失LC定义如下:
式中,i表示每个批次N中的样本索引,其中对于输入特征和/> 表示每个批次中第i个样本分类正确的概率,/>表示预测分类概率,yj表示第i个样本的预测标签,yi表示第i个样本的真实标签,pi表示一个常数,如果yj=yi则pi=1,否则pi=0;
三元组中心损失LT定义如下:
式中,D(·)表示欧式距离,yi表示第i个样本的真实标签,表示类别yi的中心,j表示样本i与对应的最近的负样本类别,δj表示类别yj的中心,τ表示边界阈值,通过加入三元组中心损失,使得样本i与对应的类别中心/>的距离和最近的负样本类别中心δj的距离间总保持一个阈值τ。
图4为本发明方法与其它方法在SHREC2013数据集上的精度比较图,由图4可知,本发明方法(称为HDA2L)在评价指标NN、FT、ST、E、DCG和综合指标mAP分别取得了84.7%、86.0%、91.4%、43.2%、91.2%、88.4%,5项最优1项次优,表明了本发明方法在SHREC2013数据集检索性能达到了目前最优。图5为本发明方法与其它方法在SHREC2013数据集上的P-R曲线图,由图5可知,本发明方法(称为HDA2L)的P-R曲线与横纵坐标轴围成的面积在所有方法中最大,表明检索效果最优。图6为本发明方法与其它方法在SHREC2014数据集上的精度比较图,由图6可知,本发明方法(称为HDA2L)在评价指标NN、FT、ST、E、DCG和综合指标mAP分别取得了81.0%、82.6%、86.4%、41.8%、89.0%、83.4%,5项次优,表明了本发明方法在SHREC2014数据集检索性能仅次于目前的最优方法SUL,在所有方法中取得了次优的检索效果。图7为本发明方法与其它方法在SHREC2014数据集上的P-R曲线图,由图7可知,本发明方法(称为HDA2L)的P-R曲线与横纵坐标轴围成的面积在所有方法中仅次于SUL,即检索效果仅次于目前最优方法SUL。图8为本发明方法在SHREC2013数据集上一些检索结果图,对于左侧每个查询草图,右侧第一行为不加入本发明方法的检索结果,第二行为本发明方法的检索结果,椭圆形虚线圈起来的为检索错误结果。由图8可知,本发明方法的检索结果明显优于不加入本发明方法的检索结果,错误结果更少,检索效果更好。
实验配置:本文实验的硬件环境为Intel Core i7 2600k+Tesla V100 32GB+16GBRAM,软件环境为Windows 10x64+CUDA10.0+CuDNN 7.1+Pytorch1.1.0+Python3.6+Matlab。
数据集:本文试验所用数据集为SHREC2013和SHREC2014数据集。这些数据集包含数个不同类别的草图图片和三维模型。表1给出了本文选用数据集的基本信息。
表1本文选用数据集的基本信息
表2给出了对应的评价指标。
表2评价指标
因此,综上所述,我们可以看到,与其它方法相比,本文所提出的基于自适应域增强的三维模型草图检索方法,在两个大型公开数据集中取得了先进的结果,也可适用于其它跨域检索任务中。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
Claims (10)
1.一种基于自适应域增强的三维模型草图检索方法,其特征在于,包括以下步骤:
S1、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生初始特征向量x1和x2,其中上标1和2分别表示来自于草图域和三维模型域;对特征向量x1和x2进行拼接操作,获得混合特征向量xb;
S2、对混合特征向量xb同时进行三个卷积操作,构造出三个域间嵌入特征空间ψ(xb)、ξ(xb)、ζ(xb);然后对特征空间ψ(xb)进行平均池化操作,对特征空间ξ(xb)进行最大池化操作;将特征空间ψ(xb)、ξ(xb)经过池化操作后得到的显著特征进行矩阵计算,求出混合特征相关性矩阵B,B表示了域间特征的相关程度;
S3、将混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到的域间相关性特征与混合特征向量xb相加,获得细化的混合特征向量o(xb),o(xb)表示了跨域特征间的相关性;
S4、通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过激活函数生成域间增强注意力权重ac,ac表示了跨域特征的域间增强注意力权重;
S5、将初始特征向量x1和x2通过平均池化操作获得初始特征fg,1和fg,2;将域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层进行降维压缩,获得初始判别特征fa,1和fa,2;
S6、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生三个初始特征向量其中m∈{1,2}表示特征来自于草图域和三维模型域;然后同时进行三个卷积操作,构造出三个域内嵌入特征空间/>和使用这三个不同的嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征之间的相关性;
S7、通过元素乘法集成扩展特征以捕获域内局部特征的交互,之后通过平均池化操作高维特征压缩为紧凑特征Δ1,m、Δ2,m、Δ3,m;并通过线性映射生成域内增强的局部判别性特征fd,m,即fd,1和fd,2;
S8、通过构造多层线性映射将fg,1、fg,2、fd,1和fd,2进行对抗学习,使网络能够根据不同的输入,自适应地从全局特征和局部特征中学习输入图像的判别性表示;
S9、为了与初始判别特征fa,1和fa,2区别表示,定义经过对抗学习后网络获得的最终判别特征为和/>在此基础上构建联合损失函数,减小了跨域特征间的巨大差异性,提高了检索性能。
2.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S1中,基础网络是由卷积神经网络构成,对输入到网络的草图图像和三维模型多视图图像进行特征提取,基础网络将输入图像提取特征为w×h×c的特征向量x1和x2,其中w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征向量x1和x2进行Concat拼接操作,获得混合特征向量xb,公式如下:
xb=fconcat(x1,x2)∈Rw×h×2c
式中,R代表一个集合。
3.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S2中,对特征向量xb进行的三个卷积操作,均为1×1×2c的卷积,获得三个嵌入特征空间,其中,ψ(xb)∈Rw×h×2c,ξ(xb)∈Rw×h×2c和ζ(xb)∈Rw×h×2c,式中,R代表一个集合,w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征空间ψ(xb)进行平均池化,对特征空间ξ(xb)进行最大池化,由此得到两个大小为1×2c的全局特征矩阵A、M,公式如下:
平均池化:A=favg-pooling(ψ(xb))∈R1×2c
最大池化:M=fmax-pooling(ξ(xb))∈R1×2c
将特征空间ψ(xb)平均池化得到的全局特征矩阵,与ξ(xb)最大池化得到全局特征的转置矩阵做矩阵相乘运算,最终得到一个2c×2c大小的特征相关矩阵B,B表示了域间特征的相关程度,公式如下:
B=AMT,B∈R2c×2c。
4.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S3中,域间相关性特征由混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到,再与混合特征向量xb相加,得到细化的混合特征向量o(xb),其中o(xb)的公式如下:
o(xb)=θ(ζ(xb)B)+xb,o(xb)∈Rn×2c,θ∈[0,1]
式中,R代表一个集合,c代表特征向量的通道数,n=h×w表示特征图的尺寸,w代表特征向量的宽度,h代表特征向量的高度,θ是可训练的参数,θ的作用有两个,首先,当θ是初始化为0时,能够使用任何预训练好的模型且不破坏其最初的网络结构;其次,通过学习,使域间相关性特征和混合特征向量xb的权重能够进行自动调整。
5.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S4中,通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过Sigmoid函数生成域间增强注意力权重ac,其中φ(·)的维度为[2c,c],c代表特征向量的通道数,ac公式为下:
ac=fsigmoid[φ(favg-pooling(o(xb)))],ac∈R1×c
式中,R代表一个集合。
6.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S5中,通过平均池化操作作用在初始特征向量x1和x2上获得初始全局特征fg,1和fg,2,公式如下:
fg,1=favg-pooling(x1)
fg,2=favg-pooling(x2)
将步骤S4中得到的域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层[2c,c]进行降维,c代表特征向量的通道数,获得初始判别特征fa,1和fa,2,公式如下:
fa,1=ffc(fdot_product(ac,fg,1))
fa,2=ffc(fdot_product(ac,fg,2))
式中,ffc代表一个全连接层,fdot_product代表点乘操作。
7.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S6中,从基础网络中分别提取出草图域和三维模型域的整体语义特征,用表示,其中m∈{1,2}表示特征来自于草图域和三维模型域;分别对草图域和三维模型域的整体语义特征进行三个卷积操作,均为1×1×c的卷积,c代表特征向量的通道数,获得对应的三个域内嵌入特征空间,分别用/>和/>表示,使用这三个不同的域内嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征间的相关性。
8.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S7中,采用矩阵乘法操作对域内嵌入特征空间进行相乘,获得不同层级间的细粒度特征空间,并使用全局平均池化进行压缩获得紧凑特征Δ1,m、Δ2,m、Δ3,m,突出域内局部判别特征,定义如下:
式中,R代表一个集合,c代表特征向量的通道数;
再通过Concat操作将不同域间的3个紧凑特征拼接起来,以此获得完整的细粒度表示,然后通过1×1×c的卷积进行线性映射,生成域内增强的局部判别性特征fd,m:
fd,m=f1×1(fconcat(Δ1,m,Δ2,m,Δ3,m))∈R1×c
式中,f1×1代表1×1×c的卷积操作。
9.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S8中,构造3个线性映射层组成判别器,用于预测输入特征的来源,即特征来自于初始特征fg,1、fg,2或局部判别性特征fd,1、fd,2;引入了梯度反转层Rγ(·),它在前向传播过程中应用恒等函数Rγ(f)=f,而反向传播过程中将梯度乘以元参数-γ,从而反转流经CNN的梯度;为了使判别器从全局特征和局部判别性特征中提取共享的判别性表示特征,选择二值交叉熵作为损失函数,对于每一个特征损失lt定义如下:
式中,f表示送入判别器中的特征,fD表示构建的3个线性映射层组成判别器,表示梯度反转操作,t表示0和1代表全局特征和局部判别特征,超参数γD从0到1;则一个批次内的对抗损失LA定义如下:
式中,i表示每个批次N中的样本索引,表示来自草图域的初始全局特征,/>表示来自三维模型域的初始全局特征,/>表示来自草图域的局部判别性特征,/>表示来自三维模型域的局部判别性特征,l0表示特征损失lt中t=0,l1表示特征损失lt中t=1。
10.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S9中,对于加入了对抗学习后的最终特征和/>分别加入交叉熵损失和三元组中心损失构建联合损失函数,提高检索性能;联合损失函数L定义为:
L=LA+LC+LT
式中,LA代表一个批次内的对抗损失,LC代表交叉熵损失,LT代表三元组中心损失;
交叉熵损失LC定义如下:
式中,i表示每个批次N中的样本索引,其中对于输入特征和/> 表示每个批次中第i个样本分类正确的概率,/>表示预测分类概率,yj表示第i个样本的预测标签,yi表示第i个样本的真实标签,pi表示一个常数,如果yj=yi则pi=1,否则pi=0;
三元组中心损失LT定义如下:
式中,D(·)表示欧式距离,表示类别yi的中心,j表示样本i与对应的最近的负样本类别,δj表示类别yj的中心,τ表示边界阈值,通过加入三元组中心损失,使得样本i与对应的类别中心/>的距离和最近的负样本类别中心δj的距离间总保持一个阈值τ。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210574993.8A CN114911967B (zh) | 2022-05-25 | 2022-05-25 | 一种基于自适应域增强的三维模型草图检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210574993.8A CN114911967B (zh) | 2022-05-25 | 2022-05-25 | 一种基于自适应域增强的三维模型草图检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114911967A CN114911967A (zh) | 2022-08-16 |
CN114911967B true CN114911967B (zh) | 2024-03-29 |
Family
ID=82769049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210574993.8A Active CN114911967B (zh) | 2022-05-25 | 2022-05-25 | 一种基于自适应域增强的三维模型草图检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114911967B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757857B (zh) * | 2023-01-09 | 2023-05-23 | 吉林大学 | 一种水下三维跨模态联合检索方法、存储介质和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2991037A1 (en) * | 2013-04-23 | 2016-03-02 | Tsinghua University | Method of generating three-dimensional scene model |
CN110188228A (zh) * | 2019-05-28 | 2019-08-30 | 北方民族大学 | 基于草图检索三维模型的跨模态检索方法 |
-
2022
- 2022-05-25 CN CN202210574993.8A patent/CN114911967B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2991037A1 (en) * | 2013-04-23 | 2016-03-02 | Tsinghua University | Method of generating three-dimensional scene model |
CN110188228A (zh) * | 2019-05-28 | 2019-08-30 | 北方民族大学 | 基于草图检索三维模型的跨模态检索方法 |
Non-Patent Citations (1)
Title |
---|
面向细粒度草图检索的对抗训练三元组网络;陈健;白琮;马青;郝鹏翼;陈胜勇;;软件学报;20200715(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114911967A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cong et al. | Global-and-local collaborative learning for co-salient object detection | |
CN108537743A (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN109359541A (zh) | 一种基于深度迁移学习的素描人脸识别方法 | |
CN108427921A (zh) | 一种基于卷积神经网络的人脸识别方法 | |
CN110598018B (zh) | 一种基于协同注意力的草图图像检索方法 | |
CN111489405B (zh) | 基于条件增强生成对抗网络的人脸草图合成系统 | |
CN110032951A (zh) | 一种基于塔克分解与主成分分析的卷积神经网络压缩方法 | |
CN114119993B (zh) | 一种基于自注意力机制的显著目标检测方法 | |
CN107918761A (zh) | 一种基于多流形核鉴别分析的单样本人脸识别方法 | |
CN112307995A (zh) | 一种基于特征解耦学习的半监督行人重识别方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
Zhao et al. | Disentangled representation learning and residual GAN for age-invariant face verification | |
CN114782977B (zh) | 一种基于拓扑信息和亲和度信息引导行人重识别方法 | |
Tian et al. | Multi-scale hierarchical residual network for dense captioning | |
Zou et al. | A new approach for small sample face recognition with pose variation by fusing Gabor encoding features and deep features | |
CN114911967B (zh) | 一种基于自适应域增强的三维模型草图检索方法 | |
CN116452862A (zh) | 基于领域泛化学习的图像分类方法 | |
CN117935299A (zh) | 基于多阶特征分支和局部注意力的行人重识别模型 | |
CN118230391A (zh) | 一种基于点云和rgb图像的3d人脸增强识别系统 | |
Sun et al. | Face image-sketch synthesis via generative adversarial fusion | |
Gao et al. | Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition | |
CN117576753A (zh) | 基于面部关键点的注意力特征融合的微表情识别方法 | |
CN117150069A (zh) | 基于全局与局部语义对比学习的跨模态检索方法及系统 | |
Muthukumar et al. | Vision based hand gesture recognition for Indian sign languages using local binary patterns with support vector machine classifier | |
CN116978096A (zh) | 一种基于生成对抗网络的人脸对抗攻击方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |