CN111339342B - 一种基于角度三元中心损失的三维模型检索方法 - Google Patents
一种基于角度三元中心损失的三维模型检索方法 Download PDFInfo
- Publication number
- CN111339342B CN111339342B CN201911084984.5A CN201911084984A CN111339342B CN 111339342 B CN111339342 B CN 111339342B CN 201911084984 A CN201911084984 A CN 201911084984A CN 111339342 B CN111339342 B CN 111339342B
- Authority
- CN
- China
- Prior art keywords
- dimensional model
- ternary
- feature vector
- feature
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/56—Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明涉及一种基于角度三元中心损失的三维模型检索方法,将三维模型投影到二维图像,设计多视角融合深度神经网络;设计三元中心损失函数;替换距离函数,角度三元中心损失函数;网络参数的更新;提取模型的特征向量;根据特征向量进行三维模型检索。本发明在三维模型领域具有广泛的应用。在深度学习模型基础上添加了全新的损失函数进行监督,能够增强深度神经网络的特征提取能力。同时,本发明采用余弦距离进行检索,检索系统的速度和准确性都有很大的提升。
Description
技术领域
本发明涉及一种基于角度三元中心损失的三维模型检索方法,属于深度学习以及计算机视觉领域。
背景技术
传统的三维模型检索方法依赖于人工设计的特征向量。通过设计具有鲁棒性的特征提取器,这些方法首先将三维模型转换为具有辨别力的特征向量,然后在特征空间进行相应的检索任务。在传统检索算法中,SIFT(Scale-invariant feature transform)算法是设计特征向量最常用的算法。SIFT算法首先提取三维模型的局部特征,对于各种几何变换,例如旋转、尺度缩放、亮度变化保持不变等具有特征不变性,同时对视角变化、仿射变换、噪声等干扰因素也有很强的鲁棒性。一个三维模型往往有多个特征,形成的一个特征集合代表了这个三维物体。在各种SIF变体算法中,特征集合的独特性得到了体现。进一步通过结合相应的集合匹配算法,SIFT能够快速检索特征库以实现三维模型检索的任务。
近些年来,随着计算机视觉和深度学习的发展,基于深度神经网络的三维模型检索算法取得了很大的进步。由于三维模型有多种表示方法,例如体素、点云、多边形等,各种基于深度学习三维模型检索算法可以根据处理对象的形式分为两类:基于视图算法和基于模型算法。基于模型的算法将整个三维模型整体或者分部分输入到神经网络中进行特征提取。三维模型的检索依赖于模型的三维几何性质和所在的场景,而基于模型的算法能够获取到物体的整体结构信息,所以能够获取更多的三维特征性质。但是整体模型的输入带来了巨大的运算负载,这反而限制了此类算法对于模型特征的提取能力。而基于视图的算法首先要将三维模型进行投影,这一过程中虚拟相机在各个视角下将三维模型渲染成一个二维图像,以整个二维图像集作为模型的表示。然后,通过神经网络处理一组二维图像信息进而获取三维模型的几何特征,在后续中加入特征向量处理步骤,最后通过后续算法处理完成检索任务。
随着三维模型的应用越来越广泛,工业产品设计、虚拟现实、三维游戏、教育等领域广泛使用三维模型检索技术。
发明内容
本发明的技术解决问题是:克服现有三维模型检索系统的训练与测试度量方式不一致的缺点,提供一种基于角度三元中心损失的三维模型检索方法,可以保持训练时的高精度,提高检索性能。同时兼顾类内距离和类间距离的优化,在角度空间中来设计损失函数,使得本发明可以应用到各种类型的三维数据上。
本发明设计的算法应用深度神经网络,是一种基于角度三元中心损失的三维模型检索方法,步骤如下:
步骤一:将三维模型投影到二维图像
设一个三维模型s,首先通过计算机图形学投影法在8个不同视角上将s渲染为8张图像。所有的图片均为深度图,表示为一个频道的灰度图,灰度值从0到255表示距离虚拟相机的远近。
步骤二:设计多视角融合深度神经网络
使用了传统的VGGM网络结构,此网络包含5个卷积层和3个全连接层。在训练和测试的时候,整个模型的渲染图是整个输入到网络中的,我们在最后一层卷积层后边添加了一个最大化操作,8张特征图融合为一个特征图,然后输入到网络后续的全连接层中。
步骤三:设计三元中心损失函数
在深度度量学习中,三元损失函数是一个常用的选择。在应用此损失函数时,我们首先需要从数据集中组成三元组(a,p,n)。其中a是从数据集中随机抽取的三维模型,p是与a同类别的一个模型,称为正样本而n是与a异类别的一个模型,称为负样本。
用均值为0,方差为0.01的高斯分布随机初始化类中心{c1,c2,…,ck},其中k为数据集的类别数。在这里,中心可以看作类别特征的几何中心。然后,我们用三元组(a,ca,cn)来组成三元中心损失函数:
其中m是余量,yi是模型a对应的类别,yi∈Y,Y={1,2,…,k}。这样,我们就避免了繁琐的三元组的挑选,直接在特征和中心之间优化距离分布。
步骤四:替换距离函数
在上述的三元中心损失函数中,距离选择使用的是欧几里得距离。然而随着神经网络架构选择的不同以及同一架构下特征层选择的不同,特征向量的模长分布有着很大的方差,因此很难确定余量m的值。因此,这里将欧几里得距离替换为角度距离,这样距离就处在[0,π]的区间内,余量m的值就有着更好的解释意义。具体地,我们提出用角度距离函数替换欧几里得距离函数:
角度可以通过两个向量的内积和模长间接求得。
步骤五:角度三元中心损失函数
在训练的过程中,可以求得距离原始样本最近的负样本中心,即:
因为在角度距离中,中心代表着相应类别特征向量分布的方向,我们在损失函数中首先要将中心和特征进行归一化操作:
由此退出损失函数的公式为:
步骤六:网络参数的更新
Li=max(αi+m-βi,0)
这样,由数学公式推导得到的反向传播公式为:
其中:
步骤七:提取模型的特征向量
用上述的角度三元中心损失函数进行监督,在整个数据集上进行训练和学习。在损失收敛完成网络学习之后,将三维模型s输入到网络中,得到网络倒数第二层的输出作为特征向量进行后续的检索任务。在此过程中,网络中的参数都是固定的,不再进行更新。由于一个模型8张渲染图输入到网络中只得到一个向量,所以直接进行距离测量。
步骤八:根据特征向量进行三维模型检索
假设三维模型s经过神经网络后提取到的特征向量为fs,待检索的数据库为S,那么对于任意的模型sr∈S,同样提取它的特征向量fr,模型s和sr之间的距离为他们对应特征向量的余弦距离。这样根据距离完成检索任务。
本发明与现有技术相比的优点及功效在于:
(1)本发明在三维模型领域具有广泛的应用。在深度学习模型基础上添加了全新的损失函数进行监督,能够增强深度神经网络的特征提取能力。同时,本发明采用余弦距离进行检索,检索系统的速度和准确性都有很大的提升。
(2)横向比较而言,本发明运用类别的特征中心解决了三元组样本过多的问题,不仅简化了训练的流程、节约了时间,同样促进了整个神经网络的收敛,避免了网络的过拟合。同时运用了角度距离来设计损失函数,在角度空间内直接进行距离优化,从而克服了基于欧几里得距离的损失函数的各项缺点,进而提升了检索的性能。
附图说明
图1为本发明所述方法流程图;
图2为本发明中的VGGM的网络结构图,并在网络最后一层加入角度三元中心损失函数。
具体实施方式
为了更好地理解本发明,先对一些概念进行一下解释说明。
1.深度神经网络是一个从图片映射到特征向量的多参数映射函数,用fθ(·)来表示。对于给定的数据集X={x1,x2,…,xn}及其对应的标签集合Y={y1,y2,…,yn},通常用fi=fθ(xi)来表示数据相对应的特征向量。
2.向量间的距离最常用的欧几里德距离(Euclidean Distance),为n维空间中两点之间的线段长度。对于给定的两个点p=(p1,p2…,pn),q=(q1,q2…,qn),他们的距离计算如下:
而向量间的角度公式为:
整个实现过程如下:
本发明一种基于角度三元中心损失的三维模型检索方法,如图1所示,该方法包括有下列实施步骤:
步骤一:将三维模型投影到二维图像
设一个三维模型s,首先通过计算机图形学投影法在8个不同视角{v1,v2,…,v8}上将s渲染为8张图像{m1,m2,…,m8}。所有的图片均为深度图,表示为一个频道的灰度图,灰度值从0到255表示距离虚拟相机的远近。
步骤二:设计多视角融合深度神经网络
使用VGGM网络结构,此网络包含5个卷积层和3个全连接层。在训练和测试的时候,整个模型的渲染图是整个输入到网络中的,为了将多个渲染图片的特征图进行融合,在最后一层卷积层后边添加了一个最大化操作,在特征图的各个位置上取8个值中的最大值。在最大化操作之后,8张特征图融合为一个特征图,输入到网络后续的全连接层中。采用统计随机梯度下降的优化方法进行学习,目标是将损失降到最低直至收敛。
步骤三:设计三元中心损失函数
在深度度量学习中,三元损失函数是一个常用的选择。在应用此损失函数时,首先需要从数据集中组成三元组(a,p,n)。其中a是从数据集中随机抽取的三维模型,p是与a同类别的一个模型,称为正样本而n是与a异类别的一个模型,称为负样本。假设三元组的特征为(fa,fp,fn),三元损失函数可以表示为:
其中M是批训练的大小,Dp和Dn表示距离函数:
受此启发,首先引入类别中心的概念,然后用类别中心替代三元组中正负样本,以此减少抽样的复杂性。具体地,我们用均值为0,方差为0.01的高斯分布随机初始化类中心{c1,c2,…,ck},其中k为数据集的类别数。在这里,中心可以看作类别特征的几何中心。然后,用三元组(a,ca,cn)来组成三元中心损失函数:
其中m是余量,yi是模型a对应的类别,yi∈Y,Y={1,2,…,k}。这样,就避免了繁琐的三元组的挑选,直接在特征和中心之间优化距离分布。
步骤四:替换距离函数
在上述的三元中心损失函数中,距离选择使用的是欧几里得距离。然而随着神经网络架构选择的不同以及同一架构下特征层选择的不同,特征向量的模长分布有着很大的方差,因此很难确定余量m的值。在实际应用中,m的大小也是人工设计的,并不能通过神经网络学习到。因此,将欧几里得距离替换为角度距离,这样距离就处在[0,π]的区间内,余量m的值就有着更好的解释意义。
具体地,提出用角度距离函数替换欧几里得距离函数:
角度可以通过两个向量的内积和模长间接求得。在我们实际实验过程中,我们发现余量m=1能够取得最好的检索效果。
步骤五:角度三元中心损失函数
由上面的变换得到角度三元中心损失函数,并将神经网络最后一层的特征作为输入,可以得到每批次优化目标的损失值。在训练的过程中,可以求得距离原始样本最近的负样本中心,即:
因为在角度距离中,中心代表着相应类别特征向量分布的方向,我们在损失函数中首先要将中心和特征进行归一化操作:
由此退出损失函数的公式为:
步骤六:VGGM网络参数的更新
Li=max(αi+m-βi,0)
这样,由数学公式推导得到的反向传播公式为:
其中m是余量,αi,βi分别表示正角度和负角度,并且:
而且在中心的更新过程中使用了平均化的方法。
步骤七:提取模型的特征向量
用上述的角度三元中心损失函数进行监督,在整个数据集上进行训练和学习。在损失收敛完成网络学习之后,将三维模型s输入到网络中,得到网络倒数第二层的输出作为特征向量进行后续的检索任务。在此过程中,网络中的参数都是固定的,不再进行更新。由于一个模型8张渲染图输入到网络中只得到一个向量,所以可以直接进行距离测量。
步骤八:根据特征向量进行三维模型检索
假设三维模型s经过神经网络后提取到的特征向量为fs,待检索的数据库为S,那么对于任意的模型sr∈S,同样提取它的特征向量fr,模型s和sr之间的距离为他们对应特征向量的余弦距离。这样检索数据库S中所有的三维模型,距离s越近的模型意味着相似度越大,由此找出最近的三维模型或者最近的多个模型。
本发明应用于大规模三维模型数据库的检索,方法快速、高效、准确。如将其应用于城市的三维建筑模型图,利用手机图片检索整个城市的特定建筑和区域,达到定位的作用。
总之,本发明利用了神经网络强大的特征提取能力,大大提升了深度学习为基础的检索系统的准确性。同时通过简化运算,检索速度也进一步提升,进而得到综合平衡最优。
本发明未详细描述的部分属于本领域公知技术。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。
Claims (9)
1.一种基于角度三元中心损失的三维模型检索方法,其特征在于,包括以下步骤:
步骤一:对三维模型数据库中的三维模型基于多个视角进行渲染,得到三维模型的渲染图像;
步骤二:根据步骤一中得到的渲染图像,利用多视角融合深度神经网络对三维模型进行特征提取,得到模型的特征向量;
步骤三:设计三元中心损失函数,将步骤二中得到的特征向量输入到三元中心损失函数中;
步骤四:将三元中心损失函数中的距离函数替换为角度距离,得到与检索相匹配的度量方法;
步骤五:根据替换的距离函数,得到角度三元中心损失函数;
步骤六:根据步骤五得到的角度三元中心损失函数,利用梯度下降法更新神经网络参数,最终得到训练好的神经网络模型;
步骤七:利用所述训练好的神经网络提取待检索三维模型的特征向量;
步骤八:根据得到的特征向量,在三维模型库中进行检索,最后得到与待检索模型同类别的三维模型。
2.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法,其特征在于:所述步骤一中,具体如下:
设一个三维模型s,首先通过计算机图形学投影法在8个不同视角上将三维模型s渲染为8张图像;在实验中,发现8张二维渲染图像足够完整表示一个三维模型的几何特征,实际应用中可以渲染更多图片增加检索性能,所有的图像均为深度图,表示为一个频道的灰度图,灰度值从0到255表示距离虚拟相机的远近。
3.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法,其特征在于:所述步骤二中,多视角融合深度神经网络的结构如下:
使用VGGM网络结构,此网络结构包括5个卷积层和3个全连接层,在训练和测试时,将整个三维模型的渲染图输入到VGGM网络中,在最后一层的卷积层后添加一个最大化操作,所有的特征向量融合为一个特征图,然后输入到VGGM网络后续的全连接层中。
4.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法,其特征在于:所述步骤三中,设计三元中心损失函数并输入特征向量的步骤如下:
在神经网络的损失函数中,选择三元损失函数,在应用此三元损失函数时,首先从三维模型检索数据集中组成三元组(a,p,n),其中a是从该数据集中随机抽取的三维模型,p是与a同类别的一个三维模型,称为正样本;n是与a异类别的一个三维模型,称为负样本;正负样本共同构成一个三元组输入到损失函数中;
然后,用三元组(a,ca,cn)组成三元中心损失函数LTC:
8.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法,其特征在于:所述步骤七中,提取三维模型的特征向量过程如下:
三维模型的所有渲染图像输入到训练好的神经网络中,网络倒数第二层的输出即为此三维模型的特征向量。
9.根据权利要求1所述的基于角度三元中心损失的三维模型检索方法,其特征在于:所述步骤八中,根据特征向量进行三维模型检索的过程如下:
三维模型s经过神经网络后提取到的特征向量为fs,待检索的数据库为S,对于任意的三维模型sr∈S,同样提取sr的特征向量fr,模型s和sr之间的距离为他们对应特征向量的余弦距离,根据余弦距离完成检索任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911084984.5A CN111339342B (zh) | 2019-11-08 | 2019-11-08 | 一种基于角度三元中心损失的三维模型检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911084984.5A CN111339342B (zh) | 2019-11-08 | 2019-11-08 | 一种基于角度三元中心损失的三维模型检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339342A CN111339342A (zh) | 2020-06-26 |
CN111339342B true CN111339342B (zh) | 2023-05-05 |
Family
ID=71182140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911084984.5A Active CN111339342B (zh) | 2019-11-08 | 2019-11-08 | 一种基于角度三元中心损失的三维模型检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339342B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361557A (zh) * | 2020-12-21 | 2021-09-07 | 南京仁智网络科技有限公司 | 基于振动数据的井工煤矿灭火控制的神经网络的训练方法 |
CN113360700B (zh) * | 2021-06-30 | 2023-09-29 | 北京百度网讯科技有限公司 | 图文检索模型的训练和图文检索方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093045A (zh) * | 2013-01-10 | 2013-05-08 | 浙江工业大学 | 一种交互式产品配置平台 |
CN105791881A (zh) * | 2016-03-15 | 2016-07-20 | 深圳市望尘科技有限公司 | 一种基于光场摄像机的三维场景录播的实现方法 |
CN106408644A (zh) * | 2016-09-12 | 2017-02-15 | 海南师范大学 | 三维控制笼构造方法 |
CN106980641A (zh) * | 2017-02-09 | 2017-07-25 | 上海交通大学 | 基于卷积神经网络的无监督哈希快速图片检索系统及方法 |
CN110059206A (zh) * | 2019-03-29 | 2019-07-26 | 银江股份有限公司 | 一种基于深度表征学习的大规模哈希图像检索方法 |
-
2019
- 2019-11-08 CN CN201911084984.5A patent/CN111339342B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103093045A (zh) * | 2013-01-10 | 2013-05-08 | 浙江工业大学 | 一种交互式产品配置平台 |
CN105791881A (zh) * | 2016-03-15 | 2016-07-20 | 深圳市望尘科技有限公司 | 一种基于光场摄像机的三维场景录播的实现方法 |
CN106408644A (zh) * | 2016-09-12 | 2017-02-15 | 海南师范大学 | 三维控制笼构造方法 |
CN106980641A (zh) * | 2017-02-09 | 2017-07-25 | 上海交通大学 | 基于卷积神经网络的无监督哈希快速图片检索系统及方法 |
CN110059206A (zh) * | 2019-03-29 | 2019-07-26 | 银江股份有限公司 | 一种基于深度表征学习的大规模哈希图像检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111339342A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298404B (zh) | 一种基于三重孪生哈希网络学习的目标跟踪方法 | |
Yu et al. | Robust robot pose estimation for challenging scenes with an RGB-D camera | |
CN103729885A (zh) | 多视角投影与三维注册联合的手绘场景三维建模方法 | |
CN111125397B (zh) | 一种基于卷积神经网络的布料图像检索方法 | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN111339342B (zh) | 一种基于角度三元中心损失的三维模型检索方法 | |
CN112364881B (zh) | 一种进阶采样一致性图像匹配方法 | |
CN116664892A (zh) | 基于交叉注意与可形变卷积的多时相遥感图像配准方法 | |
CN111798453A (zh) | 用于无人驾驶辅助定位的点云配准方法及其系统 | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN112085117B (zh) | 一种基于MTLBP-Li-KAZE-R-RANSAC的机器人运动监测视觉信息融合方法 | |
Darmon et al. | Learning to guide local feature matches | |
CN112766102A (zh) | 一种基于空谱特征融合的无监督高光谱视频目标跟踪方法 | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 | |
CN109740405B (zh) | 一种非对齐相似车辆前窗差异信息检测方法 | |
Cheng et al. | An augmented reality image registration method based on improved ORB | |
CN114817595A (zh) | 基于草图的三维模型检索方法、装置、设备及介质 | |
CN113705731A (zh) | 一种基于孪生网络的端到端图像模板匹配方法 | |
Tang et al. | A GMS-guided approach for 2D feature correspondence selection | |
CN113160291A (zh) | 一种基于图像配准的变化检测方法 | |
CN112529081A (zh) | 基于高效注意力校准的实时语义分割方法 | |
Bi et al. | A segmentation-driven approach for 6D object pose estimation in the crowd | |
He et al. | Minimum spanning tree based stereo matching using image edge and brightness information | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN116680435B (zh) | 一种基于多层特征提取的相似图像检索匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |