CN114911967A - 一种基于自适应域增强的三维模型草图检索方法 - Google Patents

一种基于自适应域增强的三维模型草图检索方法 Download PDF

Info

Publication number
CN114911967A
CN114911967A CN202210574993.8A CN202210574993A CN114911967A CN 114911967 A CN114911967 A CN 114911967A CN 202210574993 A CN202210574993 A CN 202210574993A CN 114911967 A CN114911967 A CN 114911967A
Authority
CN
China
Prior art keywords
domain
feature
features
dimensional model
sketch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210574993.8A
Other languages
English (en)
Other versions
CN114911967B (zh
Inventor
白静
白少进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Minzu University
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN202210574993.8A priority Critical patent/CN114911967B/zh
Publication of CN114911967A publication Critical patent/CN114911967A/zh
Application granted granted Critical
Publication of CN114911967B publication Critical patent/CN114911967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应域增强的三维模型草图检索方法,可有效嵌入到现有的跨域检索框架中,在特征提取过程中捕获跨域互信息增强的全局特征,在域内通过双线性池化学习增强局部判别特征,并且通过对抗学习完成自适应的特征融合,使网络自适应地关注全局特征和局部特征中更具区分性的表示特征,进一步适应输入草图的多样性,提高检索性能。

Description

一种基于自适应域增强的三维模型草图检索方法
技术领域
本发明涉及计算机图形学、计算机视觉与智能识别的技术领域,尤其是指一种基于自适应域增强的三维模型草图检索方法。
背景技术
跨模态检索是计算机视觉中一个长期存在且具有挑战性的问题,应用范围非常广泛,例如文本图像检索、图像视频检索、文本视频检索等,其中由于近年来触屏设备的普及3D建模技术的成熟,草图三维模型逐渐成为了新的研究热点。目前,基于深度学习的三维模型方法性能普遍优于传统手工设计特征的方法,此类方法大多使用两个独立的网络分别提取草图域和三维模型域的特征表示,然后构建一个公共的嵌入空间实现跨域对齐。然而,在基于草图的三维模型检索任务中,三维模型精准且信息丰富的,而草图是粗略和抽象的,两者之间具有巨大的域间差异,仅在特征嵌入阶段使用损失函数忽略了域间互信息对彼此域特征的优化作用,约束能力有限。此外,由于输入草图的主观性和抽象性,其判别性表示可能在于整体轮廓或局部细节中,大部分方法只关注了全局特征的提取而忽略了局部判别特征的学习。
发明内容
本发明的目的在于克服现有技术缺点与不足,针对目前基于草图的三维模型检索任务,提出了一种基于自适应域增强的三维模型草图检索方法,在特征提取过程中捕获跨域互信息增强的全局特征,在域内通过双线性池化学习增强局部判别特征,并且通过对抗学习完成自适应的特征融合,使网络自适应地关注全局特征和局部特征中更具区分性的表示特征,进一步适应输入草图的多样性,提高检索性能。
为实现上述目的,本发明所提供的技术方案如下:一种基于自适应域增强的三维模型草图检索方法,包括以下步骤:
S1、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生初始特征向量x1和x2,其中上标1和2分别表示来自于草图域和三维模型域;对特征向量x1和x2进行拼接操作,获得混合特征向量xb
S2、对混合特征向量xb同时进行三个卷积操作,构造出三个域间嵌入特征空间ψ(xb)、ξ(xb)、ζ(xb);然后对特征空间ψ(xb)进行平均池化操作,对特征空间ξ(xb)进行最大池化操作;将特征空间ψ(xb)、ξ(xb)经过池化操作后得到的显著特征进行矩阵计算,求出混合特征相关性矩阵B,B表示了域间特征的相关程度;
S3、将混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到的域间相关性特征与混合特征向量xb相加,获得细化的混合特征向量o(xb),o(xb)表示了跨域特征间的相关性;
S4、通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过激活函数生成域间增强注意力权重ac,ac表示了跨域特征的域间增强注意力权重;
S5、将初始特征向量x1和x2通过平均池化操作获得初始特征fg,1和fg,2;将域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层进行降维压缩,获得初始判别特征fa,1和fa,2
S6、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生三个初始特征向量
Figure BDA0003661782070000021
其中m∈{1,2}表示特征来自于草图域和三维模型域;然后同时进行三个卷积操作,构造出三个域内嵌入特征空间
Figure BDA0003661782070000022
Figure BDA0003661782070000023
使用这三个不同的嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征之间的相关性;
S7、通过元素乘法集成扩展特征以捕获域内局部特征的交互,之后通过平均池化操作高维特征压缩为紧凑特征Δ1,m、Δ2,m、Δ3,m;并通过线性映射生成域内增强的局部判别性特征fd,m,即fd,1和fd,2
S8、通过构造多层线性映射将fg,1、fg,2、fd,1和fd,2进行对抗学习,使网络能够根据不同的输入,自适应地从全局特征和局部特征中学习输入图像的判别性表示;
S9、为了与初始判别特征fa,1和fa,2区别表示,定义经过对抗学习后网络获得的最终判别特征为
Figure BDA0003661782070000031
Figure BDA0003661782070000032
在此基础上构建联合损失函数,减小了跨域特征间的巨大差异性,提高了检索性能。
进一步,在步骤S1中,基础网络是由卷积神经网络构成,对输入到网络的草图图像和三维模型多视图图像进行特征提取,基础网络将输入图像提取特征为w×h×c的特征向量x1和x2,其中w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征向量x1和x2进行Concat拼接操作,获得混合特征向量xb,公式如下:
xb=fconcat(x1,x2)∈Rw×h×2c
式中,R代表一个集合。
进一步,在步骤S2中,对特征向量xb进行的三个卷积操作,均为1×1×2c的卷积,获得三个嵌入特征空间,其中,ψ(xb)∈Rw×h×2c,ξ(xb)∈Rw×h×2c和ζ(xb)∈Rw×h×2c,式中,R代表一个集合,w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征空间ψ(xb)进行平均池化,对特征空间ξ(xb)进行最大池化,由此得到两个大小为1×2c的全局特征矩阵A、M,公式如下:
平均池化:A=favg-pooling(ψ(xb))∈R1×2c
最大池化:M=fmax-pooling(ξ(xb))∈R1×2c
将特征空间ψ(xb)平均池化得到的全局特征矩阵,与ξ(xb)最大池化得到全局特征的转置矩阵做矩阵相乘运算,最终得到一个2c×2c大小的特征相关矩阵B,B表示了域间特征的相关程度,公式如下:
B=AMT,B∈R2c×2c
进一步,在步骤S3中,域间相关性特征由混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到,再与混合特征向量xb相加,得到细化的混合特征向量o(xb),其中O(xb)的公式如下:
O(xb)=θ(ζ(xb)B)+xb,o(xb)∈Rn×2c,θ∈[0,1]
式中,R代表一个集合,c代表特征向量的通道数,n=h×w表示特征图的尺寸,w代表特征向量的宽度,h代表特征向量的高度,θ是可训练的参数,θ的作用有两个,首先,当θ是初始化为0时,能够使用任何预训练好的模型且不破坏其最初的网络结构;其次,通过学习,使域间相关性特征和混合特征向量xb的权重能够进行自动调整。
进一步,在步骤S4中,通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过Sigmoid函数生成域间增强注意力权重ac,其中φ(·)的维度为[2c,c],c代表特征向量的通道数,ac公式为下:
ac=fsigmoid[φ(favg-pooling(o(xb)))],ac∈R1×c
式中,R代表一个集合。
进一步,在步骤S5中,通过平均池化操作作用在初始特征向量x1和x2上获得初始全局特征fg,1和fg,2,公式如下:
fg,1=favg-pooling(x1)
fg,2=favg-pooling(x2)
将步骤S4中得到的域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层[2c,c]进行降维,c代表特征向量的通道数,获得初始判别特征fa,1和fa,2,公式如下:
fa,1=ffc(fdot_product(ac,fg,1))
fa,2=ffc(fdot_product(ac,fg,2))
式中,ffc代表一个全连接层,fdot_product代表点乘操作。
进一步,在步骤S6中,从基础网络中分别提取出草图域和三维模型域的整体语义特征,用
Figure BDA0003661782070000051
表示,其中m∈{1,2}表示特征来自于草图域和三维模型域;分别对草图域和三维模型域的整体语义特征进行三个卷积操作,均为1×1×c的卷积,c代表特征向量的通道数,获得对应的三个域内嵌入特征空间,分别用
Figure BDA0003661782070000052
Figure BDA0003661782070000053
表示,使用这三个不同的域内嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征间的相关性。
进一步,在步骤S7中,采用矩阵乘法操作对域内嵌入特征空间进行相乘,获得不同层级间的细粒度特征空间,并使用全局平均池化进行压缩获得紧凑特征Δ1,m、Δ2,m、Δ3,m,突出域内局部判别特征,定义如下:
Figure BDA0003661782070000054
Figure BDA0003661782070000055
Figure BDA0003661782070000056
式中,R代表一个集合,c代表特征向量的通道数;
再通过Concat操作将不同域间的3个紧凑特征拼接起来,以此获得完整的细粒度表示,然后通过1×1×c的卷积进行线性映射,生成域内增强的局部判别性特征fd,m
fd,m=f1×1(fconcat1,m2,m3,m))∈R1×c
式中,f1×1代表1×1×c的卷积操作。
进一步,在步骤S8中,构造3个线性映射层组成判别器,用于预测输入特征的来源,即特征来自于初始特征fg,1、fg,2或局部判别性特征fd,1、fd,2;引入了梯度反转层Rγ(·),它在前向传播过程中应用恒等函数Rγ(f)=f,而反向传播过程中将梯度乘以元参数-γ,从而反转流经CNN的梯度;为了使判别器从全局特征和局部判别性特征中提取共享的判别性表示特征,选择二值交叉熵作为损失函数,对于每一个特征损失lt定义如下:
Figure BDA0003661782070000061
式中,f表示送入判别器中的特征,fD表示构建的3个线性映射层组成判别器,
Figure BDA0003661782070000062
表示梯度反转操作,t表示0和1代表全局特征和局部判别特征,超参数γD从0到1;则一个批次内的对抗损失LA定义如下:
Figure BDA0003661782070000063
式中,i表示每个批次N中的样本索引,fi g,1表示来自草图域的初始全局特征,fi g,2表示来自三维模型域的初始全局特征,fi d,1表示来自草图域的局部判别性特征,fi d,2表示来自三维模型域的局部判别性特征,l0表示特征损失lt中t=0,l1表示特征损失lt中t=1。
进一步,在步骤S9中,对于加入了对抗学习后的最终特征
Figure BDA0003661782070000064
Figure BDA0003661782070000065
分别加入交叉熵损失和三元组中心损失构建联合损失函数,提高检索性能;联合损失函数L定义为:
L=LA+LC+LT
式中,LA代表一个批次内的对抗损失,LC代表交叉熵损失,LT代表三元组中心损失;
交叉熵损失LC定义如下:
Figure BDA0003661782070000071
式中,i表示每个批次N中的样本索引,其中对于输入特征
Figure BDA0003661782070000072
Figure BDA0003661782070000073
Figure BDA0003661782070000074
表示每个批次中第i个样本分类正确的概率,
Figure BDA0003661782070000075
表示预测分类概率,yj表示第i个样本的预测标签,yi表示第i个样本的真实标签,pi表示一个常数,如果yj=yi则pi=1,否则pi=0;
三元组中心损失LT定义如下:
Figure BDA0003661782070000076
式中,D(·)表示欧式距离,
Figure BDA0003661782070000077
表示类别yi的中心,j表示样本i与对应的最近的负样本类别,δj表示类别yj的中心,τ表示边界阈值,通过加入三元组中心损失,使得样本i与对应的类别中心
Figure BDA0003661782070000078
的距离和最近的负样本类别中心δj的距离间总保持一个阈值τ。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明可以适用于其它的跨域检索框架中,提高检索性能。
2、本发明可以捕捉域间同类别样本中的互信息,可以增强跨域特征间的相似性。
3、本发明可以关注局部细节区域,捕捉局部显著性信息,增强域内显著性特征。
4、本发明可以自适应地完成全局特征与局部显著性特征的融合,迫使网络学习到判别性特征,提高检索效果。
附图说明
图1为卷积神经网络中加入了本发明方法的架构图。
图2为域间特征增强架构图。
图3为域内特征增强架构图。
图4为本发明方法与其它方法在SHREC2013数据集上的精度比较图。
图5为本发明方法与其它方法在SHREC2013数据集上的P-R曲线图。
图6为本发明方法与其它方法在SHREC2014数据集上的精度比较图。
图7为本发明方法与其它方法在SHREC2014数据集上的P-R曲线图。
图8为本发明方法在SHREC2013数据集上一些检索结果图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
参见图1至图3所示,本实施例提供了一种基于自适应域增强的三维模型草图检索方法,可以适应于其它跨域检索任务中,提升检索效果,具体包括以下步骤:
1)基础网络从草图域和三维模型域的图像中提取特征,产生维度为w×h×c特征向量x1和x2,其中上标1和2分别表示来自于草图域和三维模型域,w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数,基础网络是由卷积神经网络构成,对输入到网络的草图图像和三维模型多视图图像进行特征提取;在图2中,对特征向量x1和x2进行Concat拼接操作,获得混合特征向量xb,公式如下:
xb=fconcat(x1,x2)∈Rw×h×2c
式中,R代表一个集合。
2)对混合特征向量xb进行三个卷积操作,均为1×1×2c的卷积,获得三个域间嵌入特征空间,ψ(xb)∈Rw×h×2c,ξ(xb)∈Rw×h×2c和ζ(xb)∈Rw×h×2c,使用三个不同的域间嵌入特征空间代替单一的特征空间,使网络更好的动态学习域间特征之间的相关性。对特征空间ψ(xb)进行平均池化,对特征空间ξ(xb)进行最大池化,由此得到两个大小为1×2c的全局特征矩阵A、M,公式如下:
平均池化:A=favg-pooling(ψ(xb))∈R1×2c
最大池化:M=fmax-pooling(ζ(xb))∈R1×2c
然后将特征空间ψ(xb)平均池化得到的全局特征矩阵,与ξ(xb)最大池化得到全局特征的转置矩阵做矩阵相乘运算,最终得到一个2c×2c大小的特征相关矩阵B,B表示了域间特征的相关程度,公式如下:
B=AMT,B∈R2c×2c
3)域间相关性特征由混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到,再与混合特征向量xb相加,得到细化的混合特征向量o(xb),其中o(xb)的公式如下:
o(xb)=θ(ζ(xb)B)+xb,o(xb)∈Rn×2c,θ∈[0,1]
其中,n=h×w表示特征图的尺寸,θ是可训练的参数,θ的作用有两个,首先,当θ是初始化为0时,可使用任何预训练好的模型且不破坏其最初的网络结构;其次,通过学习,使域间相关性特征和混合特征向量xb的权重可以进行自动调整。
4)通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过Sigmoid函数生成域间增强注意力权重ac,ac表示了跨域特征的域间增强注意力权重,其中φ(·)的维度为[2c,c],ac公式为下:
ac=fsigmoid[φ(favg-pooling(o(xb)))],ac∈R1×c
5)通过平均池化操作作用在初始特征向量x1和x2上获得初始全局特征fg,1和fg,2,公式如下:
fg,1=favg-pooling(x1)
fg,2=favg-pooling(x2)
将域间增强注意力权重ac与初始全局特征fg,1和fg,2进行点乘,并通过一层全连接层[2c,c]进行降维,获得初始判别特征fa,1和fa,2,公式如下:
fa,1=ffc(fdot_product(ac,fg,1))
fa,2=ffc(fdot_product(ac,fg,2))
式中,ffc代表一个全连接层,fdot_product代表点乘操作。
6)从草图和三维模型多视图图像中分别提取出对应域的语义特征
Figure BDA0003661782070000101
其中m∈{1,2}表示特征来自于草图域和三维模型域。在图3中,分别对草图域和三维模型域的整体语义特征进行三个卷积操作,均为1×1×c的卷积,获得对应的三个域内嵌入特征空间,分别用
Figure BDA0003661782070000102
Figure BDA0003661782070000103
表示,使用这三个不同的域内嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征间的相关性。
7)采用矩阵乘法操作对域内嵌入特征空间进行相乘,获得不同层级间的细粒度特征空间,并使用全局平均池化进行压缩获得紧凑特征(Δ1,m2,m3,m),突出域内局部判别特征,公式如下:
Figure BDA0003661782070000104
Figure BDA0003661782070000105
Figure BDA0003661782070000106
然后通过Concat操作将不同域间的3个紧凑特征拼接起来,以此获得完整的细粒度表示,然后通过1×1×c的卷积进行线性映射,生成局部判别性特征fd,m(即fd,1和fd,2):
fd,m=f1×1(fconcat1,m2,m3,m))∈R1×c
式中,f1×1代表1×1×c的卷积操作。
8)构造3个线性映射层将fg,m和fd,m进行对抗学习,用于预测输入特征的来源,即特征来自于初始特征fg,1、fg,2或局部判别性特征fd,1、fd,2,使网络可以根据不同的输入,自适应的从全局特征和局部特征中学习输入图像的判别性表示;因此,我们引入了梯度反转层Rγ(·),它在前向传播过程中应用恒等函数Rγ(f)=f,而反向传播过程中将梯度乘以元参数-γ,从而反转流经CNN的梯度。并且选择二值交叉熵作为损失函数,对于每一个特征损失lt定义如下:
Figure BDA0003661782070000111
式中,f表示送入判别器中的特征,fD表示构建的3个线性映射层组成判别器,
Figure BDA0003661782070000112
表示梯度反转操作,t表示0和1代表全局特征和局部判别特征,超参数γD从0到1;则一个批次内的对抗损失LA定义如下:
Figure BDA0003661782070000113
式中,i表示每个批次N中的样本索引,fi g,1表示来自草图域的初始全局特征,fi g,2表示来自三维模型域的初始全局特征,fi d,1表示来自草图域的局部判别性特征,fi d,2表示来自三维模型域的局部判别性特征,l0表示特征损失lt中t=0,l1表示特征损失lt中t=1。
9)为了与初始判别特征fa,1和fa,2区别表示,定义经过对抗学习后网络获得的最终判别特征为
Figure BDA0003661782070000114
Figure BDA0003661782070000115
在此基础上构建联合损失函数,减小了跨域特征间的巨大差异性,提高了检索性能。对于加入了对抗学习后的最终特征
Figure BDA00036617820700001211
Figure BDA00036617820700001210
分别加入交叉熵损失和三元组中心损失构建联合损失函数,提高检索性能。联合损失函数L定义为:
L=LA+LC+LT
式中,LA代表一个批次内的对抗损失,LC代表交叉熵损失,LT代表三元组中心损失;
交叉熵损失LC定义如下:
Figure BDA0003661782070000121
式中,i表示每个批次N中的样本索引,其中对于输入特征
Figure BDA0003661782070000122
Figure BDA0003661782070000123
Figure BDA0003661782070000124
表示每个批次中第i个样本分类正确的概率,
Figure BDA0003661782070000125
表示预测分类概率,yj表示第i个样本的预测标签,yi表示第i个样本的真实标签,pi表示一个常数,如果yj=yi则pi=1,否则pi=0;
三元组中心损失LT定义如下:
Figure BDA0003661782070000126
式中,D(·)表示欧式距离,yi表示第i个样本的真实标签,
Figure BDA0003661782070000127
表示类别yi的中心,j表示样本i与对应的最近的负样本类别,δj表示类别yj的中心,τ表示边界阈值,通过加入三元组中心损失,使得样本i与对应的类别中心
Figure BDA0003661782070000128
的距离和最近的负样本类别中心δj的距离间总保持一个阈值τ。
图4为本发明方法与其它方法在SHREC2013数据集上的精度比较图,由图4可知,本发明方法(称为HDA2L)在评价指标NN、FT、ST、E、DCG和综合指标mAP分别取得了84.7%、86.0%、91.4%、43.2%、91.2%、88.4%,5项最优1项次优,表明了本发明方法在SHREC2013数据集检索性能达到了目前最优。图5为本发明方法与其它方法在SHREC2013数据集上的P-R曲线图,由图5可知,本发明方法(称为HDA2L)的P-R曲线与横纵坐标轴围成的面积在所有方法中最大,表明检索效果最优。图6为本发明方法与其它方法在SHREC2014数据集上的精度比较图,由图6可知,本发明方法(称为HDA2L)在评价指标NN、FT、ST、E、DCG和综合指标mAP分别取得了81.0%、82.6%、86.4%、41.8%、89.0%、83.4%,5项次优,表明了本发明方法在SHREC2014数据集检索性能仅次于目前的最优方法SUL,在所有方法中取得了次优的检索效果。图7为本发明方法与其它方法在SHREC2014数据集上的P-R曲线图,由图7可知,本发明方法(称为HDA2L)的P-R曲线与横纵坐标轴围成的面积在所有方法中仅次于SUL,即检索效果仅次于目前最优方法SUL。图8为本发明方法在SHREC2013数据集上一些检索结果图,对于左侧每个查询草图,右侧第一行为不加入本发明方法的检索结果,第二行为本发明方法的检索结果,椭圆形虚线圈起来的为检索错误结果。由图8可知,本发明方法的检索结果明显优于不加入本发明方法的检索结果,错误结果更少,检索效果更好。
实验配置:本文实验的硬件环境为Intel Core i7 2600k+Tesla V100 32GB+16GBRAM,软件环境为Windows 10x64+CUDA10.0+CuDNN 7.1+Pytorch1.1.0+Python3.6+Matlab。
数据集:本文试验所用数据集为SHREC2013和SHREC2014数据集。这些数据集包含数个不同类别的草图图片和三维模型。表1给出了本文选用数据集的基本信息。
表1本文选用数据集的基本信息
Figure BDA0003661782070000131
Figure BDA0003661782070000141
表2给出了对应的评价指标。
表2评价指标
Figure BDA0003661782070000142
Figure BDA0003661782070000151
因此,综上所述,我们可以看到,与其它方法相比,本文所提出的基于自适应域增强的三维模型草图检索方法,在两个大型公开数据集中取得了先进的结果,也可适用于其它跨域检索任务中。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于自适应域增强的三维模型草图检索方法,其特征在于,包括以下步骤:
S1、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生初始特征向量x1和x2,其中上标1和2分别表示来自于草图域和三维模型域;对特征向量x1和x2进行拼接操作,获得混合特征向量xb
S2、对混合特征向量xb同时进行三个卷积操作,构造出三个域间嵌入特征空间ψ(xb)、ξ(xb)、ζ(xb);然后对特征空间ψ(xb)进行平均池化操作,对特征空间ξ(xb)进行最大池化操作;将特征空间ψ(xb)、ξ(xb)经过池化操作后得到的显著特征进行矩阵计算,求出混合特征相关性矩阵B,B表示了域间特征的相关程度;
S3、将混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到的域间相关性特征与混合特征向量xb相加,获得细化的混合特征向量o(xb),o(xb)表示了跨域特征间的相关性;
S4、通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过激活函数生成域间增强注意力权重ac,ac表示了跨域特征的域间增强注意力权重;
S5、将初始特征向量x1和x2通过平均池化操作获得初始特征fg,1和fg,2;将域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层进行降维压缩,获得初始判别特征fa,1和fa,2
S6、基础网络从草图和三维模型多视图图像中分别提取出对应域的语义特征,产生三个初始特征向量
Figure FDA0003661782060000011
其中m∈{1,2}表示特征来自于草图域和三维模型域;然后同时进行三个卷积操作,构造出三个域内嵌入特征空间
Figure FDA0003661782060000012
Figure FDA0003661782060000013
使用这三个不同的嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征之间的相关性;
S7、通过元素乘法集成扩展特征以捕获域内局部特征的交互,之后通过平均池化操作高维特征压缩为紧凑特征Δ1,m、Δ2,m、Δ3,m;并通过线性映射生成域内增强的局部判别性特征fd,m,即fd,1和fd,2
S8、通过构造多层线性映射将fg,1、fg,2、fd,1和fd,2进行对抗学习,使网络能够根据不同的输入,自适应地从全局特征和局部特征中学习输入图像的判别性表示;
S9、为了与初始判别特征fa,1和fa,2区别表示,定义经过对抗学习后网络获得的最终判别特征为
Figure FDA0003661782060000021
Figure FDA0003661782060000022
在此基础上构建联合损失函数,减小了跨域特征间的巨大差异性,提高了检索性能。
2.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S1中,基础网络是由卷积神经网络构成,对输入到网络的草图图像和三维模型多视图图像进行特征提取,基础网络将输入图像提取特征为w×h×c的特征向量x1和x2,其中w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征向量x1和x2进行Concat拼接操作,获得混合特征向量xb,公式如下:
xb=fconcat(x1,x2)∈Rw×h×2c
式中,R代表一个集合。
3.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S2中,对特征向量xb进行的三个卷积操作,均为1×1×2c的卷积,获得三个嵌入特征空间,其中,ψ(xb)∈Rw×h×2c,ξ(xb)∈Rw×h×2c和ζ(xb)∈Rw×h×2c,式中,R代表一个集合,w代表特征向量的宽度,h代表特征向量的高度,c代表特征向量的通道数;对特征空间ψ(xb)进行平均池化,对特征空间ξ(xb)进行最大池化,由此得到两个大小为1×2c的全局特征矩阵A、M,公式如下:
平均池化:A=favg-pooling(ψ(xb))∈R1×2c
最大池化:M=fmax-pooling(ξ(xb))∈R1×2c
将特征空间ψ(xb)平均池化得到的全局特征矩阵,与ξ(xb)最大池化得到全局特征的转置矩阵做矩阵相乘运算,最终得到一个2c×2c大小的特征相关矩阵B,B表示了域间特征的相关程度,公式如下:
B=AMT,B∈R2c×2c
4.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S3中,域间相关性特征由混合特征相关性矩阵B和跨域特征空间ζ(xb)相乘得到,再与混合特征向量xb相加,得到细化的混合特征向量o(xb),其中o(xb)的公式如下:
o(xb)=θ(ζ(xb)B)+xb,o(xb)∈Rn×2c,θ∈[0,1]
式中,R代表一个集合,c代表特征向量的通道数,n=h×w表示特征图的尺寸,w代表特征向量的宽度,h代表特征向量的高度,θ是可训练的参数,θ的作用有两个,首先,当θ是初始化为0时,能够使用任何预训练好的模型且不破坏其最初的网络结构;其次,通过学习,使域间相关性特征和混合特征向量xb的权重能够进行自动调整。
5.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S4中,通过全局池化操作与一个非线性映射层φ(·)对细化的混合特征向量o(xb)进行压缩,然后通过Sigmoid函数生成域间增强注意力权重ac,其中φ(·)的维度为[2c,c],c代表特征向量的通道数,ac公式为下:
ac=fsigmoid[φ(favg-pooling(o(xb)))],ac∈R1×c
式中,R代表一个集合。
6.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S5中,通过平均池化操作作用在初始特征向量x1和x2上获得初始全局特征fg,1和fg,2,公式如下:
fg,1=favg-pooling(x1)
fg,2=favg-pooling(x2)
将步骤S4中得到的域间增强注意力权重ac与初始特征fg,1和fg,2进行点乘,并通过一层全连接层[2c,c]进行降维,c代表特征向量的通道数,获得初始判别特征fa,1和fa,2,公式如下:
fa,1=ffc(fdot_product(ac,fg,1))
fa,2=ffc(fdot_product(ac,fg,2))
式中,ffc代表一个全连接层,fdot_product代表点乘操作。
7.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S6中,从基础网络中分别提取出草图域和三维模型域的整体语义特征,用
Figure FDA0003661782060000041
表示,其中m∈{1,2}表示特征来自于草图域和三维模型域;分别对草图域和三维模型域的整体语义特征进行三个卷积操作,均为1×1×c的卷积,c代表特征向量的通道数,获得对应的三个域内嵌入特征空间,分别用
Figure FDA0003661782060000042
Figure FDA0003661782060000043
表示,使用这三个不同的域内嵌入特征空间代替单一的特征空间,使网络更好地动态学习域内特征间的相关性。
8.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S7中,采用矩阵乘法操作对域内嵌入特征空间进行相乘,获得不同层级间的细粒度特征空间,并使用全局平均池化进行压缩获得紧凑特征Δ1,m、Δ2,m、Δ3,m,突出域内局部判别特征,定义如下:
Figure FDA0003661782060000051
Figure FDA0003661782060000052
Figure FDA0003661782060000053
式中,R代表一个集合,c代表特征向量的通道数;
再通过Concat操作将不同域间的3个紧凑特征拼接起来,以此获得完整的细粒度表示,然后通过1×1×c的卷积进行线性映射,生成域内增强的局部判别性特征fd,m
fd,m=f1×1(fconcat1,m2,m3,m))∈R1×c
式中,f1×1代表1×1×c的卷积操作。
9.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S8中,构造3个线性映射层组成判别器,用于预测输入特征的来源,即特征来自于初始特征fg,1、fg,2或局部判别性特征fd,1、fd,2;引入了梯度反转层Rγ(·),它在前向传播过程中应用恒等函数Rγ(f)=f,而反向传播过程中将梯度乘以元参数-γ,从而反转流经CNN的梯度;为了使判别器从全局特征和局部判别性特征中提取共享的判别性表示特征,选择二值交叉熵作为损失函数,对于每一个特征损失lt定义如下:
Figure FDA0003661782060000054
式中,f表示送入判别器中的特征,fD表示构建的3个线性映射层组成判别器,
Figure FDA0003661782060000055
表示梯度反转操作,t表示0和1代表全局特征和局部判别特征,超参数γD从0到1;则一个批次内的对抗损失LA定义如下:
Figure FDA0003661782060000056
式中,i表示每个批次N中的样本索引,
Figure FDA0003661782060000061
表示来自草图域的初始全局特征,
Figure FDA0003661782060000062
表示来自三维模型域的初始全局特征,
Figure FDA0003661782060000063
表示来自草图域的局部判别性特征,
Figure FDA0003661782060000064
表示来自三维模型域的局部判别性特征,l0表示特征损失lt中t=0,l1表示特征损失lt中t=1。
10.根据权利要求1所述的一种基于自适应域增强的三维模型草图检索方法,其特征在于:在步骤S9中,对于加入了对抗学习后的最终特征
Figure FDA0003661782060000065
Figure FDA0003661782060000066
分别加入交叉熵损失和三元组中心损失构建联合损失函数,提高检索性能;联合损失函数L定义为:
L=LA+LC+LT
式中,LA代表一个批次内的对抗损失,LC代表交叉熵损失,LT代表三元组中心损失;
交叉熵损失LC定义如下:
Figure FDA0003661782060000067
式中,i表示每个批次N中的样本索引,其中对于输入特征
Figure FDA0003661782060000068
Figure FDA0003661782060000069
Figure FDA00036617820600000610
表示每个批次中第i个样本分类正确的概率,
Figure FDA00036617820600000611
表示预测分类概率,yj表示第i个样本的预测标签,yi表示第i个样本的真实标签,pi表示一个常数,如果yj=yi则pi=1,否则pi=0;
三元组中心损失LT定义如下:
Figure FDA00036617820600000612
式中,D(·)表示欧式距离,
Figure FDA00036617820600000613
表示类别yi的中心,j表示样本i与对应的最近的负样本类别,δj表示类别yj的中心,τ表示边界阈值,通过加入三元组中心损失,使得样本i与对应的类别中心
Figure FDA0003661782060000071
的距离和最近的负样本类别中心δj的距离间总保持一个阈值τ。
CN202210574993.8A 2022-05-25 2022-05-25 一种基于自适应域增强的三维模型草图检索方法 Active CN114911967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210574993.8A CN114911967B (zh) 2022-05-25 2022-05-25 一种基于自适应域增强的三维模型草图检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210574993.8A CN114911967B (zh) 2022-05-25 2022-05-25 一种基于自适应域增强的三维模型草图检索方法

Publications (2)

Publication Number Publication Date
CN114911967A true CN114911967A (zh) 2022-08-16
CN114911967B CN114911967B (zh) 2024-03-29

Family

ID=82769049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210574993.8A Active CN114911967B (zh) 2022-05-25 2022-05-25 一种基于自适应域增强的三维模型草图检索方法

Country Status (1)

Country Link
CN (1) CN114911967B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2991037A1 (en) * 2013-04-23 2016-03-02 Tsinghua University Method of generating three-dimensional scene model
CN110188228A (zh) * 2019-05-28 2019-08-30 北方民族大学 基于草图检索三维模型的跨模态检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2991037A1 (en) * 2013-04-23 2016-03-02 Tsinghua University Method of generating three-dimensional scene model
CN110188228A (zh) * 2019-05-28 2019-08-30 北方民族大学 基于草图检索三维模型的跨模态检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈健;白琮;马青;郝鹏翼;陈胜勇;: "面向细粒度草图检索的对抗训练三元组网络", 软件学报, no. 07, 15 July 2020 (2020-07-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757857A (zh) * 2023-01-09 2023-03-07 吉林大学 一种水下三维跨模态联合检索方法、存储介质和电子设备

Also Published As

Publication number Publication date
CN114911967B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110598018B (zh) 一种基于协同注意力的草图图像检索方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN114596520A (zh) 一种第一视角视频动作识别方法及装置
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN113743484A (zh) 基于空间和通道注意力机制的图像分类方法与系统
CN113723295A (zh) 一种基于图像域频域双流网络的人脸伪造检测方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN114005154A (zh) 一种基于ViT和StarGAN的驾驶员表情识别方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
CN114782977A (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
CN116452862A (zh) 基于领域泛化学习的图像分类方法
CN114911967B (zh) 一种基于自适应域增强的三维模型草图检索方法
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
US11908222B1 (en) Occluded pedestrian re-identification method based on pose estimation and background suppression
Gao et al. Adaptive random down-sampling data augmentation and area attention pooling for low resolution face recognition
CN111489405B (zh) 基于条件增强生成对抗网络的人脸草图合成系统
CN114944002B (zh) 文本描述辅助的姿势感知的人脸表情识别方法
CN116167014A (zh) 一种基于视觉和语音的多模态关联型情感识别方法及系统
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
CN111881794B (zh) 一种视频行为识别方法及系统
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Mishra et al. Multi-stage attention based visual question answering
Wang et al. Feature extraction method of face image texture spectrum based on a deep learning algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant