CN109684499B - 一种自由视角的立体对象检索方法与系统 - Google Patents

一种自由视角的立体对象检索方法与系统 Download PDF

Info

Publication number
CN109684499B
CN109684499B CN201811600073.9A CN201811600073A CN109684499B CN 109684499 B CN109684499 B CN 109684499B CN 201811600073 A CN201811600073 A CN 201811600073A CN 109684499 B CN109684499 B CN 109684499B
Authority
CN
China
Prior art keywords
retrieval
neural network
database
unit
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811600073.9A
Other languages
English (en)
Other versions
CN109684499A (zh
Inventor
高跃
黄正跃
马楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Beijing Union University
Original Assignee
Tsinghua University
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Beijing Union University filed Critical Tsinghua University
Priority to CN201811600073.9A priority Critical patent/CN109684499B/zh
Publication of CN109684499A publication Critical patent/CN109684499A/zh
Application granted granted Critical
Publication of CN109684499B publication Critical patent/CN109684499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种自由视角的立体对象检索方法与系统,其中,该立体对象检索方法包括:步骤1,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型;步骤2,根据检索神经网络模型,提取对象数据库中所有标准对象对应的特征,构建检索特征数据库,其中,检索特征数据库包括多个检索立体对象;步骤3,根据输入的检索对象与检索立体对象之间的欧氏距离,输出检索对象对应的检索立体对象。通过本申请中的技术方案,增强了投影视图检索网络中提取的特征向量,给予投影视图检索网络可以支持任意位置,任意数目视图的输入,而且达到稳定可靠的性能。

Description

一种自由视角的立体对象检索方法与系统
技术领域
本申请涉及计算机视觉的技术领域,具体而言,涉及一种自由视角的立体对象检索方法以及一种自由视角的立体对象检索系统。
背景技术
随着技术进步,立体对象模型的采集和获取变得越来越容易,同时,立体对象的数据规模越来越庞大,如Google 3D Warehouse,人们对立体对象数据检索的需求也是与日俱增,它在众多学科众多领域上都有相当的潜在价值。得益于深度学习取得的巨大进步和计算机视觉技术飞速发展,基于深度学习的立体对象特征提取方法取得了前所未有的发展。这些方法针对立体对象的多种表征形式,如体素,点云和投影视图提出了各种方法,特别是基于投影视图的特征提取方法,能够克服基于体素方法分辨率不足导致的细节丢失问题和基于点云方法的网络结构设计问题,能充分利用传统平面视觉对象领域积累的丰富经验和模型。
而现有技术中,采用基于投影试图的特征提取方法,需要以固定的相机角度进行图像获取,再利用获取的图像进行特征提取,导致在实际应用过程中,限制了基于投影试图的特征提取方法的应用。而导致这一问题的根源在于,训练深度学习模型进行立体对象检索时,对于固定的相机角度,存在图像特征向量过拟合的可能性,使得深度神经网络无法泛化到自由角度获取有影视图的应用场景。
发明内容
本申请的目的在于:提高了在立体对象检索中深度学习模型的泛化能力,降低了图像特征向量过拟合的可能性,进而解除相机位置的约束,提高了立体对象图像获取过程中拍摄角度的灵活性。
本申请第一方面的技术方案是:提供了一种自由视角的立体对象检索方法,该立体对象检索方法包括:步骤1,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型;步骤2,根据检索神经网络模型,提取对象数据库中所有标准对象对应的特征,构建检索特征数据库,其中,检索特征数据库包括多个检索立体对象;步骤3,根据输入的检索对象与检索立体对象之间的欧氏距离,输出检索对象对应的检索立体对象。
上述任一项技术方案中,进一步地,步骤1中,具体包括:步骤11,获取图像数据库中至少一个标准对象的不同视角的至少两张投影视图;步骤12,根据多视图卷积神经网络和投影视图,提取标准对象对应的一组特征,记作初步特征向量组;步骤13,将初步特征向量组中的特征分量由大到小进行排序,并以预设概率将与预设数量相等的初步特征向量置为零;步骤14,将置为零的初步特征向量对应的反向回传梯度置为零;步骤15,根据置为零的初步特征向量,利用最大池化算法和线性分类算法,生成第一模态特征,并计算损失函数,根据第一模态特征,构建检索神经网络模型。
上述任一项技术方案中,进一步地,步骤15之后,还包括:步骤16,计算检索神经网络模型的性能指标;步骤17,判断检索神经网络模型的性能指标是否收敛,若是,执行步骤3,若否,执行步骤11。
上述任一项技术方案中,进一步地,步骤3中,具体包括:步骤31,根据数据模态输入检索对象;步骤32,提取检索对象的特征向量;步骤33,计算检索对象和检索特征数据库中检索立体对象之间的欧氏距离;步骤34,根据欧氏距离,按照从小到大的顺序对检索立体对象进行排序,并输出排序后的检索立体对象。
本申请第二方面的技术方案是:提供了一种自由视角的立体对象检索系统,该立体对象检索系统包括:网络构建模块,数据库构建模块以及检索结果输出模块;网络构建模块被配置为,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型;数据库构建模块被配置为,根据检索神经网络模型,提取对象数据库中所有标准对象对应的特征,构建检索特征数据库,其中,检索特征数据库包括多个检索立体对象;检索结果输出模块被配置为,根据输入的检索对象与检索立体对象之间的欧氏距离,输出检索对象对应的检索立体对象。
上述任一项技术方案中,进一步地,网络构建模块中,具体包括:图像获取单元,特征提取单元,排序单元,置零单元以及模型构建单元;图像获取单元用于,获取图像数据库中至少一个标准对象的不同视角的至少两张投影视图;特征提取单元用于,根据多视图卷积神经网络和投影视图,提取标准对象对应的一组特征,记作初步特征向量组;排序单元用于,将初步特征向量组中的特征分量由大到小进行排序,并以预设概率将与预设数量相等的初步特征向量置为零;置零单元用于,将置为零的初步特征向量对应的反向回传梯度置为零;模型构建单元用于,根据置为零的初步特征向量,利用最大池化算法和线性分类算法,生成第一模态特征,并计算损失函数,根据第一模态特征,构建检索神经网络模型。
上述任一项技术方案中,进一步地,网络构建模块,还包括:指标计算单元以及判断单元;指标计算单元用于,计算检索神经网络模型的性能指标;判断单元用于,判断检索神经网络模型的性能指标是否收敛,若否,重新获取投影视图。
上述任一项技术方案中,进一步地,检索结果输出模块,具体包括:输入单元,提取单元,距离计算单元以及输出单元;输入单元用于,根据数据模态输入检索对象;提取单元用于,提取检索对象的特征向量;距离计算单元用于,计算检索对象和检索特征数据库中检索立体对象之间的欧氏距离;输出单元用于,根据欧氏距离,按照从小到大的顺序对检索立体对象进行排序,并输出排序后的检索立体对象。
本申请的有益效果是:通过提取投影视图中的特征向量,并将特征向量以预设概率将与预设数量置为零,构建检索神经网络模型,并利用检索神经网络模型对检索对象进行检索,增强了投影视图检索网络中提取的特征向量,解决了多视图检索网络中的对固定相机位置输入的过拟合问题,使得给予投影视图检索网络可以支持任意位置,任意数目视图的输入,而且达到稳定可靠的性能,使得目前基于投影视图的深度学习检索方法有实际应用的可能。
附图说明
本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本申请的一个实施例的自由视角的立体对象检索方法的示意流程图;
图2是根据本申请的一个实施例的检索性能对比图;
图3是根据本申请的一个实施例的自由视角的立体对象检索系统的示意框图。
具体实施方式
为了能够更清楚地理解本申请的上述目的、特征和优点,下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。
在下面的描述中,阐述了很多具体细节以便于充分理解本申请,但是,本申请还可以采用其他不同于在此描述的其他方式来实施,因此,本申请的保护范围并不受下面公开的具体实施例的限制。
实施例一:
以下结合图1至图2对本申请的实施例一进行说明。
如图1所示,本实施例提供了一种自由视角的立体对象检索方法,包括:
步骤1,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型;
该步骤1中,具体包括:
步骤11,获取所述图像数据库中至少一个标准对象的不同视角的至少两张投影视图;
具体地,在图像数据库中获取m个标准对象的不同视角的12张投影视图,作为构建检索神经网络模型的基础数据,其中,m为大于或等于1的正整数,m的具体取值由模型要求的精度确定。
步骤12,根据多视图卷积神经网络和投影视图,提取标准对象对应的一组特征,记作初步特征向量组;
具体地,使用开放图形数据库(Open Graphics Library,OpenGL)渲染原始三维对象文件(标准对象),采集m个标准对象不同视角的12张投影视图(或者照片),设定投影视图的大小为224×224,由于在开放图形数据库中,每张投影视图由三个传输通道进行传输,因此,将每张投影视图v记作v∈R224×224×3。并利用大型可视化数据库ImageNet中预训练的多视图卷积神经网络对采集到的对象c的投影视图进行特征提取,得到初步特征向量组{feati+(c),其中,feati∈R1024,i=1,2,…,12,c=1,2,…,m。
步骤13,将初步特征向量组中的特征分量由大到小进行排序,并以预设概率将与预设数量相等的初步特征向量置为零;
步骤14,将置为零的初步特征向量对应的反向回传梯度置为零;
具体地,将接收到的初步特征向量{feati}(c)中每一个特征向量的分量按照数值由大到小进行排序,并标记前预设数量k个初步特征向量。
再按照预设概率p将被标记的特征分量数值置为零,得到增强特征向量组
Figure GDA0002636484150000051
其中,i=1,2,…,12。与此同时,将对应的反向回传梯度设置为零,以便强制多视图卷积神经网络对数值较小的特征分量进行学习。
优选地,预设概率的取值为0.1至0.8,预设数量的取值为300至600。
具体地,通过大量的试验,预设概率p的取值在0.1-0.8范围内,且预设数量k的取值在300到600范围内时,检索神经网络模型能产生稳定可靠的结果。本实施例中,设定预设概率p的取值为0.4,预设数量k的取值为500。
步骤15,根据置为零的初步特征向量,利用最大池化算法和线性分类算法,生成第一模态特征,计算损失函数,根据第一模态特征,构建检索神经网络模型。
具体地,将处理后的增强特征向量组
Figure GDA0002636484150000061
作为输入,利用最大池化算法,得到描述标准对象c的第一模态特征f(c),对应的计算公式为:
Figure GDA0002636484150000062
i=1,…,12,
式中,
Figure GDA0002636484150000063
代表对第一模态特征f(c)中每一个特征分量
Figure GDA0002636484150000064
j=1,…1024。
进行元素级最大化操作(elementwise max),操作后,
Figure GDA0002636484150000065
的取值为特征向量组
Figure GDA0002636484150000066
中所有特征向量第j个元素的最大值。
再将第一模态特征f(c)作为输入,利用线性分类算法进行运算,输出神经网络预测的对象的分类结果,使用神经网络预测的对象的分类结果和标准对象的分类标签用交叉熵损失函数(Cross Entropy Loss)计算损失(loss),利用随机梯度下降算法(StochasticGradient Descent,SGD),进行梯度回传,构建检索神经网络模型。用上标c表示向量对应的对象索引,根据步骤11采集的标准对象数目c=1,2,…,m,一次迭代的交叉熵损失函数对应的计算公式为:
Figure GDA0002636484150000067
Figure GDA0002636484150000068
式中,s(c)表示线性分类算法的输出,W表示线性分类算法的内在参数,y(c)表示第c个对象的分类标记,由训练数据集给出。
进一步地,在步骤15之后,还包括:
步骤16,计算检索神经网络模型的性能指标;
步骤17,判断检索神经网络模型的性能指标是否收敛,若是,执行步骤3,若否,执行步骤11。
具体地,判断交叉熵损失函数loss的取值是否稳定收敛,这里判断标准是连续3次迭代的loss取值保持相对稳定且没有下降趋势。若稳定收敛,则行步骤3,若否,执行步骤11。
优选地,在执行步骤15之前,还包括:
步骤1a,判断检索模式是否为跨模态检索,若是,执行步骤1b,若否,执行步骤15;
步骤1b,获取标准对象对应的另一模态的第二模态特征,更新检索神经网络模型中的参数;
具体地,设定另一模态为点云,获取标准对象在点云模态下对应的第二模态特征,第二模态特征获取的过程可以采用任一种现有技术,此处不再赘述。
具体地,将得到的第一模态特征f和对应的第二模态特征h作为输入量,利用triplet-center-loss(f,p)计算损失函数值,然后梯度回传,更新网络参数,其中,triplet-center-loss是广为使用的检索任务loss。
步骤2,使用步骤1训练得到的检索神经网络模型,提取对象数据库中所有标准对象对应的特征,构建检索立体对象对应的检索特征数据库。
具体地,如果对象数据库中表征对象的模态为视图,则提取该对象的第一模态特征,存入数据库。如果表征对象的模态为点云,则提取该对象的第二模态特征,存入数据库。数据库中不区分第一和第二模态特征,都以相同的方式存储和处理。
步骤3,根据输入的检索对象与检索立体对象之间的欧氏距离,输出检索对象对应的检索立体对象。
该步骤3中,具体包括:
步骤31,根据数据模态输入检索对象。
具体地,输入任一立体对象任意角度的视图。根据实际情况,输入采集到的任一立体对象的人一角度的多张或一张视图。对于视图获取,可以是已经拍摄好的图片也可以是对立体对象渲染得到的投影视图。如果步骤1中训练的是跨模态检索的网络,则还可以支持输入任一立体对象的点云模态数据。
步骤32,提取检索对象的特征向量。
具体地,使用步骤1训练好的检索网络提取输入对象的特征向量。如果输入数据模态为视图,则提取第一模态特征,如果是点云,则提取第二模态特征。特征提取好后不区分模态,以相同方式做后续处理。这里为了表示方便将输入对象提取的特征记作finput
步骤33,计算检索对象和步骤2建立的检索特征数据库中所有检索立体对象之间的欧氏距离。
具体地,计算输入对象和数据库中所有立体对象的距离,这个距离使用立体对象的特征的欧氏距离衡量,设数据库中某个立体对象的特征向量为fdatabase,则距离d由以下公式计算:
d=‖finput-fdatabase2
步骤34,根据步骤33中计算的欧氏距离,按照从小到大的顺序排序检索特征数据库中所有检索立体对象,然后输出这个排序结果。
在本申请中,如图2所示,将现有的多视图卷积神经网络作为对比模型,以单模态检索为例,对同一个待检索立体对象进行图像检索,其中,检索神经网络模型使用在ImageNet上预训练过的VGG11和ResNet50作为主干网络,在不同输入数目的检索视图情况下,VGG11主干网络对应的检索性能曲线如图2(A)所示,ResNet50主干网络对应的检索性能曲线如图2(B)所示,采用本申请的检索神经网络模型对应的检索性能曲线分别为曲线201和曲线203,采用对比模型对应的检索性能曲线分别为曲线202和曲线204,通过对比可知,特别是在输入视图缺失(视图数量较少)的情况下,本申请中检索神经网络模型的检索性能得到了提升。
在进行跨模态检索时,以点云模态和投影视图模态为例,采用本申请中的检索神经网络模型和现有的多视图卷积神经网络对待检索立体对象进行图像检索,得到的性能对比结果如表2所示。
表2
Figure GDA0002636484150000091
由表2可知,特别是在缺失视图情况下,本申请中的图像检索性能有十分明显的提升。
实施例二:
如图3所示,本实施例提供了一种自由视角的立体对象检索系统10,包括:网络构建模块100,数据库构建模块200以及检索结果输出模块300;
网络构建模块100被配置为,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型;
进一步地,网络构建模块100中,具体包括:图像获取单元101,特征提取单元102,排序单元103,置零单元104以及模型构建单元105;图像获取单元101用于,获取图像数据库中至少一个标准对象的不同视角的至少两张投影视图;
具体地,在图像数据库中获取m个标准对象的不同视角的12张投影视图,作为构建检索神经网络模型的基础数据,其中,m为大于或等于1的正整数,m的具体取值由模型的精度确定。
特征提取单元102用于,根据多视图卷积神经网络和投影视图,提取标准对象对应的一组特征,记作初步特征向量组;
具体地,使用开放图形数据库(Open Graphics Library,OpenGL)渲染原始三维对象文件(标准对象),采集m个标准对象不同视角的12张投影视图(或者照片),设定投影视图的大小为224×224,由于在开放图形数据库中,每张投影视图由三个传输通道进行传输,因此,将每张投影视图v记作v∈R224×224×3。并利用大型可视化数据库ImageNet中预训练的多视图卷积神经网络对采集到的对象c的投影视图进行特征提取,得到初步特征向量组{feati+(c),其中,feati∈R1024,i=1,2,…,12,c=1,2,…,m。
排序单元103用于,将初步特征向量组中的特征分量由大到小进行排序,并以预设概率将与预设数量相等的初步特征向量置为零;
置零单元104用于,将置为零的初步特征向量对应的反向回传梯度置为零;
具体地,将接收到的初步特征向量{feati}(c)中每一个特征向量的分量按照数值由大到小进行排序,并标记前预设数量k个初步特征向量。
再按照预设概率p将被标记的特征分量数值置为零,得到增强特征向量组
Figure GDA0002636484150000101
其中,i=1,2,…,12。与此同时,将对应的反向回传梯度设置为零,以便强制多视图卷积神经网络对数值较小的特征分量进行学习。
优选地,预设概率的取值为0.1至0.8,预设数量的取值为300至600。
具体地,通过大量的试验,预设概率p的取值在0.1-0.8范围内,且预设数量k的取值在300到600范围内时,检索神经网络模型能产生稳定可靠的结果。本实施例中,设定预设概率p的取值为0.4,预设数量k的取值为500。
模型构建单元105用于,根据置为零的初步特征向量,利用最大池化算法和线性分类算法,生成第一模态特征,并计算损失函数,根据第一模态特征,构建检索神经网络模型。
具体地,将处理后的增强特征向量组
Figure GDA0002636484150000111
作为输入,利用最大池化算法,得到描述标准对象c的第一模态特征f(c),对应的计算公式为:
Figure GDA0002636484150000112
i=1,…,12,
式中,
Figure GDA0002636484150000113
代表对第一模态特征f(c)中每一个特征分量
Figure GDA0002636484150000114
j=1,…1024。
进行元素级最大化操作(elementwise max),操作后,
Figure GDA0002636484150000115
的取值为特征向量组
Figure GDA0002636484150000116
中所有特征向量第j个元素的最大值。
再将第一模态特征f(c)作为输入,利用线性分类算法进行运算,输出神经网络预测的对象的分类结果,使用神经网络预测的对象的分类结果和标准对象的分类标签用交叉熵损失函数(Cross Entropy Loss)计算损失(loss),利用随机梯度下降算法(StochasticGradient Descent,SGD),进行梯度回传,构建检索神经网络模型。用上标c表示向量对应的对象索引,根据步骤11采集的标准对象数目c=1,2,…,m,一次迭代的交叉熵损失函数对应的计算公式为:
Figure GDA0002636484150000117
Figure GDA0002636484150000118
式中,s(c)表示线性分类算法的输出,W表示线性分类算法的内在参数,y(c)表示第c个对象的分类标记,由训练数据集给出。
进一步地,网络构建模块100,还包括:指标计算单元106以及判断单元107;指标计算单元106用于,计算检索神经网络模型的性能指标;
判断单元107用于,判断检索神经网络模型的性能指标是否收敛,若否,重新获取投影视图。
具体地,判断交叉熵损失函数loss的取值是否稳定收敛,这里判断标准是连续3次迭代的loss取值保持相对稳定且没有下降趋势。若稳定收敛,则行步骤3,若否,执行步骤11。
数据库构建模块200被配置为,根据检索神经网络模型,提取对象数据库中所有标准对象对应的特征,构建检索特征数据库,其中,检索特征数据库包括多个检索立体对象;
具体地,如果对象数据库中表征对象的模态为视图,则提取该对象的第一模态特征,存入数据库。如果表征对象的模态为点云,则提取该对象的第二模态特征,存入数据库。数据库中不区分第一和第二模态特征,都以相同的方式存储和处理。
检索结果输出模块300被配置为,根据输入的检索对象与检索立体对象之间的欧氏距离,输出检索对象对应的检索立体对象。
进一步地,检索结果输出模块300,具体包括:输入单元301,提取单元302,距离计算单元303以及输出单元304;
输入单元301用于,根据数据模态输入检索对象;
具体地,输入任一立体对象任意角度的视图。根据实际情况,输入采集到的任一立体对象的人一角度的多张或一张视图。对于视图获取,可以是已经拍摄好的图片也可以是对立体对象渲染得到的投影视图。如果训练的是跨模态检索的网络,则还可以支持输入任一立体对象的点云模态数据。
提取单元302用于,提取检索对象的特征向量;
具体地,使用训练好的检索网络提取输入对象的特征向量。如果输入数据模态为视图,则提取第一模态特征,如果是点云,则提取第二模态特征。特征提取好后不区分模态,以相同方式做后续处理。这里为了表示方便将输入对象提取的特征记作finput
距离计算单元303用于,计算检索对象和检索特征数据库中检索立体对象之间的欧氏距离;
具体地,计算输入对象和数据库中所有立体对象的距离,这个距离使用立体对象的特征的欧氏距离衡量,设数据库中某个立体对象的特征向量为fdatabase,则距离d由以下公式计算:
d=‖finput-fdatabase2
输出单元304用于,根据欧氏距离,按照从小到大的顺序对检索立体对象进行排序,并输出排序后的检索立体对象。
以上结合附图详细说明了本申请的技术方案,本申请提出了一种自由视角的立体对象检索方法与系统,其中,该立体对象检索方法包括:步骤1,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型;步骤2,根据检索神经网络模型,提取对象数据库中所有标准对象对应的特征,构建检索特征数据库,其中,检索特征数据库包括多个检索立体对象;步骤3,根据输入的检索对象与检索立体对象之间的欧氏距离,输出检索对象对应的检索立体对象。通过本申请中的技术方案,增强了投影视图检索网络中提取的特征向量,给予投影视图检索网络可以支持任意位置,任意数目视图的输入,而且达到稳定可靠的性能。
本申请中的步骤可根据实际需求进行顺序调整、合并和删减。
本申请装置中的单元可根据实际需求进行合并、划分和删减。
尽管参考附图详地公开了本申请,但应理解的是,这些描述仅仅是示例性的,并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定,并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。

Claims (6)

1.一种自由视角的立体对象检索方法,其特征在于,所述立体对象检索方法包括:
步骤1,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型,其中,所述步骤1中,具体包括:
步骤11,获取图像数据库中至少一个所述标准对象的不同视角的至少两张所述投影视图;
步骤12,根据所述多视图卷积神经网络和所述投影视图,提取所述标准对象对应的一组特征,记作初步特征向量组
Figure 801083DEST_PATH_IMAGE001
,其中,
Figure DEST_PATH_IMAGE002
,投影视图个数
Figure 514961DEST_PATH_IMAGE003
,对象个数
Figure DEST_PATH_IMAGE004
步骤13,将所述初步特征向量组中的特征分量由大到小进行排序,并以预设概率将与预设数量相等的初步特征向量置为零;
步骤14,将置为零的所述初步特征向量对应的反向回传梯度置为零,得到增强特征向量组
Figure 825857DEST_PATH_IMAGE005
步骤15,根据所述增强特征向量组
Figure 486645DEST_PATH_IMAGE005
,利用最大池化算法和线性分类算法,生成第一模态特征,并计算损失函数,根据所述第一模态特征,构建所述检索神经网络模型,其中,所述第一模态特征的计算公式为:
Figure DEST_PATH_IMAGE006
式中,
Figure 333641DEST_PATH_IMAGE007
为元素级最大化操作;
步骤2,根据所述检索神经网络模型,提取对象数据库中所有所述标准对象对应的特征,构建检索特征数据库,其中,所述检索特征数据库包括多个检索立体对象;
步骤3,根据输入的检索对象与所述检索立体对象之间的欧氏距离,输出所述检索对象对应的所述检索立体对象。
2.如权利要求1所述的自由视角的立体对象检索方法,其特征在于,所述步骤15之后,还包括:
步骤16,计算所述检索神经网络模型的性能指标;
步骤17,判断所述检索神经网络模型的所述性能指标是否收敛,若是,执行步骤3,若否,执行步骤11。
3.如权利要求1所述的自由视角的立体对象检索方法,其特征在于,所述步骤3中,具体包括:
步骤31,根据数据模态输入所述检索对象;
步骤32,提取所述检索对象的特征向量;
步骤33,计算所述检索对象和所述检索特征数据库中所述检索立体对象之间的欧氏距离;
步骤34,根据所述欧氏距离,按照从小到大的顺序对所述检索立体对象进行排序,并输出排序后的所述检索立体对象。
4.一种自由视角的立体对象检索系统,其特征在于,所述立体对象检索系统包括:网络构建模块,数据库构建模块以及检索结果输出模块;
所述网络构建模块被配置为,根据多视图卷积神经网络和标准对象的投影视图,构建检索神经网络模型,其中,所述网络构建模块中,具体包括:图像获取单元,特征提取单元,排序单元,置零单元以及模型构建单元;
所述图像获取单元用于,获取所述图像数据库中至少一个所述标准对象的不同视角的至少两张所述投影视图;
所述特征提取单元用于,根据所述多视图卷积神经网络和所述投影视图,提取所述标准对象对应的一组特征,记作初步特征向量组
Figure 421682DEST_PATH_IMAGE001
,其中,
Figure 954295DEST_PATH_IMAGE002
,投影视图个数
Figure 418774DEST_PATH_IMAGE003
,对象个数
Figure 353232DEST_PATH_IMAGE004
所述排序单元用于,将所述初步特征向量组中的特征分量由大到小进行排序,并以预设概率将与预设数量相等的初步特征向量置为零;
所述置零单元用于,将置为零的所述初步特征向量对应的反向回传梯度置为零,得到增强特征向量组
Figure 612175DEST_PATH_IMAGE005
所述模型构建单元用于,根据所述增强特征向量组
Figure 897663DEST_PATH_IMAGE005
,利用最大池化算法和线性分类算法,生成第一模态特征,并计算损失函数,根据所述第一模态特征,构建所述检索神经网络模型,其中,所述第一模态特征的计算公式为:
Figure 900254DEST_PATH_IMAGE006
式中,
Figure 689218DEST_PATH_IMAGE007
为元素级最大化操作;
所述数据库构建模块被配置为,根据所述检索神经网络模型,提取对象数据库中所有所述标准对象对应的特征,构建检索特征数据库,其中,所述检索特征数据库包括多个检索立体对象;
所述检索结果输出模块被配置为,根据输入的检索对象与所述检索立体对象之间的欧氏距离,输出所述检索对象对应的所述检索立体对象。
5.如权利要求4所述的自由视角的立体对象检索系统,其特征在于,所述网络构建模块,还包括:指标计算单元以及判断单元;
所述指标计算单元用于,计算所述检索神经网络模型的性能指标;
所述判断单元用于,判断所述检索神经网络模型的所述性能指标是否收敛,若否,重新获取所述投影视图。
6.如权利要求4所述的自由视角的立体对象检索系统,其特征在于,所述检索结果输出模块,具体包括:输入单元,提取单元,距离计算单元以及输出单元;
所述输入单元用于,根据数据模态输入所述检索对象;
所述提取单元用于,提取所述检索对象的特征向量;
所述距离计算单元用于,计算所述检索对象和所述检索特征数据库中所述检索立体对象之间的欧氏距离;
所述输出单元用于,根据所述欧氏距离,按照从小到大的顺序对所述检索立体对象进行排序,并输出排序后的所述检索立体对象。
CN201811600073.9A 2018-12-26 2018-12-26 一种自由视角的立体对象检索方法与系统 Active CN109684499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811600073.9A CN109684499B (zh) 2018-12-26 2018-12-26 一种自由视角的立体对象检索方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811600073.9A CN109684499B (zh) 2018-12-26 2018-12-26 一种自由视角的立体对象检索方法与系统

Publications (2)

Publication Number Publication Date
CN109684499A CN109684499A (zh) 2019-04-26
CN109684499B true CN109684499B (zh) 2020-11-06

Family

ID=66188474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811600073.9A Active CN109684499B (zh) 2018-12-26 2018-12-26 一种自由视角的立体对象检索方法与系统

Country Status (1)

Country Link
CN (1) CN109684499B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334237B (zh) * 2019-07-15 2022-03-01 清华大学 一种基于多模态数据的立体对象检索方法与系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937453A (zh) * 2010-08-27 2011-01-05 南京大学 一种基于加权拓扑约束比较的三维模型检索方法
CN105930382A (zh) * 2016-04-14 2016-09-07 严进龙 一种用2d图片搜索3d模型的方法
CN107122396A (zh) * 2017-03-13 2017-09-01 西北大学 基于深度卷积神经网络的三维模型检索算法
CN108898128A (zh) * 2018-07-11 2018-11-27 宁波艾腾湃智能科技有限公司 一种通过照片匹配数字化三维模型的防伪方法及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8847947B2 (en) * 2010-11-17 2014-09-30 Dassault Systemes Automatic tolerancing of geometrical templates
CN108875813B (zh) * 2018-06-04 2021-10-08 北京工商大学 一种基于几何图像的三维网格模型检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937453A (zh) * 2010-08-27 2011-01-05 南京大学 一种基于加权拓扑约束比较的三维模型检索方法
CN105930382A (zh) * 2016-04-14 2016-09-07 严进龙 一种用2d图片搜索3d模型的方法
CN107122396A (zh) * 2017-03-13 2017-09-01 西北大学 基于深度卷积神经网络的三维模型检索算法
CN108898128A (zh) * 2018-07-11 2018-11-27 宁波艾腾湃智能科技有限公司 一种通过照片匹配数字化三维模型的防伪方法及设备

Also Published As

Publication number Publication date
CN109684499A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
Choudhary et al. Visibility probability structure from sfm datasets and applications
CN109658445A (zh) 网络训练方法、增量建图方法、定位方法、装置及设备
CN109166144B (zh) 一种基于生成对抗网络的图像深度估计方法
CN104424634B (zh) 对象跟踪方法和装置
CN106156693B (zh) 用于面部识别的基于多模型表示的鲁棒错误纠正方法
CN109871821B (zh) 自适应网络的行人重识别方法、装置、设备及存储介质
CN112562081B (zh) 一种用于视觉分层定位的视觉地图构建方法
CN111310821B (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN107169117B (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN114298122B (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN114694185B (zh) 一种跨模态目标重识别方法、装置、设备及介质
CN105069424A (zh) 面部快速识别系统和方法
CN110147460B (zh) 基于卷积神经网络与多视角图的三维模型检索方法及装置
CN109063549A (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN113515656A (zh) 一种基于增量学习的多视角目标识别与检索方法、及装置
Nie et al. SHREC’18 track: 2D scene sketch-based 3D scene retrieval
CN108875828A (zh) 一种相似图像的快速匹配方法和系统
CN109857895B (zh) 基于多环路视图卷积神经网络的立体视觉检索方法与系统
CN109684499B (zh) 一种自由视角的立体对象检索方法与系统
CN113762019B (zh) 特征提取网络的训练方法、人脸识别方法和装置
CN104778272B (zh) 一种基于区域挖掘和空间编码的图像位置估计方法
CN114708449B (zh) 相似视频的确定方法、实例表征模型的训练方法及设备
CN113824989B (zh) 一种视频处理方法、装置和计算机可读存储介质
CN112861944B (zh) 一种基于混合模态输入的图像检索方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant