CN109684499B

CN109684499B - 一种自由视角的立体对象检索方法与系统

Info

Publication number: CN109684499B
Application number: CN201811600073.9A
Authority: CN
Inventors: 高跃; 黄正跃; 马楠
Original assignee: Tsinghua University; Beijing Union University
Current assignee: Tsinghua University; Beijing Union University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-11-06
Anticipated expiration: 2038-12-26
Also published as: CN109684499A

Abstract

本申请公开了一种自由视角的立体对象检索方法与系统，其中，该立体对象检索方法包括：步骤1，根据多视图卷积神经网络和标准对象的投影视图，构建检索神经网络模型；步骤2，根据检索神经网络模型，提取对象数据库中所有标准对象对应的特征，构建检索特征数据库，其中，检索特征数据库包括多个检索立体对象；步骤3，根据输入的检索对象与检索立体对象之间的欧氏距离，输出检索对象对应的检索立体对象。通过本申请中的技术方案，增强了投影视图检索网络中提取的特征向量，给予投影视图检索网络可以支持任意位置，任意数目视图的输入，而且达到稳定可靠的性能。

Description

一种自由视角的立体对象检索方法与系统

技术领域

本申请涉及计算机视觉的技术领域，具体而言，涉及一种自由视角的立体对象检索方法以及一种自由视角的立体对象检索系统。

背景技术

随着技术进步，立体对象模型的采集和获取变得越来越容易，同时，立体对象的数据规模越来越庞大，如Google 3D Warehouse，人们对立体对象数据检索的需求也是与日俱增，它在众多学科众多领域上都有相当的潜在价值。得益于深度学习取得的巨大进步和计算机视觉技术飞速发展，基于深度学习的立体对象特征提取方法取得了前所未有的发展。这些方法针对立体对象的多种表征形式，如体素，点云和投影视图提出了各种方法，特别是基于投影视图的特征提取方法，能够克服基于体素方法分辨率不足导致的细节丢失问题和基于点云方法的网络结构设计问题，能充分利用传统平面视觉对象领域积累的丰富经验和模型。

而现有技术中，采用基于投影试图的特征提取方法，需要以固定的相机角度进行图像获取，再利用获取的图像进行特征提取，导致在实际应用过程中，限制了基于投影试图的特征提取方法的应用。而导致这一问题的根源在于，训练深度学习模型进行立体对象检索时，对于固定的相机角度，存在图像特征向量过拟合的可能性，使得深度神经网络无法泛化到自由角度获取有影视图的应用场景。

发明内容

本申请的目的在于：提高了在立体对象检索中深度学习模型的泛化能力，降低了图像特征向量过拟合的可能性，进而解除相机位置的约束，提高了立体对象图像获取过程中拍摄角度的灵活性。

本申请第一方面的技术方案是：提供了一种自由视角的立体对象检索方法，该立体对象检索方法包括：步骤1，根据多视图卷积神经网络和标准对象的投影视图，构建检索神经网络模型；步骤2，根据检索神经网络模型，提取对象数据库中所有标准对象对应的特征，构建检索特征数据库，其中，检索特征数据库包括多个检索立体对象；步骤3，根据输入的检索对象与检索立体对象之间的欧氏距离，输出检索对象对应的检索立体对象。

上述任一项技术方案中，进一步地，步骤1中，具体包括：步骤11，获取图像数据库中至少一个标准对象的不同视角的至少两张投影视图；步骤12，根据多视图卷积神经网络和投影视图，提取标准对象对应的一组特征，记作初步特征向量组；步骤13，将初步特征向量组中的特征分量由大到小进行排序，并以预设概率将与预设数量相等的初步特征向量置为零；步骤14，将置为零的初步特征向量对应的反向回传梯度置为零；步骤15，根据置为零的初步特征向量，利用最大池化算法和线性分类算法，生成第一模态特征，并计算损失函数，根据第一模态特征，构建检索神经网络模型。

上述任一项技术方案中，进一步地，步骤15之后，还包括：步骤16，计算检索神经网络模型的性能指标；步骤17，判断检索神经网络模型的性能指标是否收敛，若是，执行步骤3，若否，执行步骤11。

上述任一项技术方案中，进一步地，步骤3中，具体包括：步骤31，根据数据模态输入检索对象；步骤32，提取检索对象的特征向量；步骤33，计算检索对象和检索特征数据库中检索立体对象之间的欧氏距离；步骤34，根据欧氏距离，按照从小到大的顺序对检索立体对象进行排序，并输出排序后的检索立体对象。

本申请第二方面的技术方案是：提供了一种自由视角的立体对象检索系统，该立体对象检索系统包括：网络构建模块，数据库构建模块以及检索结果输出模块；网络构建模块被配置为，根据多视图卷积神经网络和标准对象的投影视图，构建检索神经网络模型；数据库构建模块被配置为，根据检索神经网络模型，提取对象数据库中所有标准对象对应的特征，构建检索特征数据库，其中，检索特征数据库包括多个检索立体对象；检索结果输出模块被配置为，根据输入的检索对象与检索立体对象之间的欧氏距离，输出检索对象对应的检索立体对象。

上述任一项技术方案中，进一步地，网络构建模块中，具体包括：图像获取单元，特征提取单元，排序单元，置零单元以及模型构建单元；图像获取单元用于，获取图像数据库中至少一个标准对象的不同视角的至少两张投影视图；特征提取单元用于，根据多视图卷积神经网络和投影视图，提取标准对象对应的一组特征，记作初步特征向量组；排序单元用于，将初步特征向量组中的特征分量由大到小进行排序，并以预设概率将与预设数量相等的初步特征向量置为零；置零单元用于，将置为零的初步特征向量对应的反向回传梯度置为零；模型构建单元用于，根据置为零的初步特征向量，利用最大池化算法和线性分类算法，生成第一模态特征，并计算损失函数，根据第一模态特征，构建检索神经网络模型。

上述任一项技术方案中，进一步地，网络构建模块，还包括：指标计算单元以及判断单元；指标计算单元用于，计算检索神经网络模型的性能指标；判断单元用于，判断检索神经网络模型的性能指标是否收敛，若否，重新获取投影视图。

上述任一项技术方案中，进一步地，检索结果输出模块，具体包括：输入单元，提取单元，距离计算单元以及输出单元；输入单元用于，根据数据模态输入检索对象；提取单元用于，提取检索对象的特征向量；距离计算单元用于，计算检索对象和检索特征数据库中检索立体对象之间的欧氏距离；输出单元用于，根据欧氏距离，按照从小到大的顺序对检索立体对象进行排序，并输出排序后的检索立体对象。

本申请的有益效果是：通过提取投影视图中的特征向量，并将特征向量以预设概率将与预设数量置为零，构建检索神经网络模型，并利用检索神经网络模型对检索对象进行检索，增强了投影视图检索网络中提取的特征向量，解决了多视图检索网络中的对固定相机位置输入的过拟合问题，使得给予投影视图检索网络可以支持任意位置，任意数目视图的输入，而且达到稳定可靠的性能，使得目前基于投影视图的深度学习检索方法有实际应用的可能。

附图说明

本申请的上述和/或附加方面的优点在结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本申请的一个实施例的自由视角的立体对象检索方法的示意流程图；

图2是根据本申请的一个实施例的检索性能对比图；

图3是根据本申请的一个实施例的自由视角的立体对象检索系统的示意框图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施方式对本申请进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中，阐述了很多具体细节以便于充分理解本申请，但是，本申请还可以采用其他不同于在此描述的其他方式来实施，因此，本申请的保护范围并不受下面公开的具体实施例的限制。

实施例一：

以下结合图1至图2对本申请的实施例一进行说明。

如图1所示，本实施例提供了一种自由视角的立体对象检索方法，包括：

步骤1，根据多视图卷积神经网络和标准对象的投影视图，构建检索神经网络模型；

该步骤1中，具体包括：

步骤11，获取所述图像数据库中至少一个标准对象的不同视角的至少两张投影视图；

具体地，在图像数据库中获取m个标准对象的不同视角的12张投影视图，作为构建检索神经网络模型的基础数据，其中，m为大于或等于1的正整数，m的具体取值由模型要求的精度确定。

步骤12，根据多视图卷积神经网络和投影视图，提取标准对象对应的一组特征，记作初步特征向量组；

具体地，使用开放图形数据库(Open Graphics Library，OpenGL)渲染原始三维对象文件(标准对象)，采集m个标准对象不同视角的12张投影视图(或者照片)，设定投影视图的大小为224×224，由于在开放图形数据库中，每张投影视图由三个传输通道进行传输，因此，将每张投影视图v记作v∈R^224×224×3。并利用大型可视化数据库ImageNet中预训练的多视图卷积神经网络对采集到的对象c的投影视图进行特征提取，得到初步特征向量组{feat_i+^(c)，其中，feat_i∈R¹⁰²⁴，i＝1，2，…，12，c＝1，2，…，m。

步骤13，将初步特征向量组中的特征分量由大到小进行排序，并以预设概率将与预设数量相等的初步特征向量置为零；

步骤14，将置为零的初步特征向量对应的反向回传梯度置为零；

具体地，将接收到的初步特征向量{feat_i}^(c)中每一个特征向量的分量按照数值由大到小进行排序，并标记前预设数量k个初步特征向量。

再按照预设概率p将被标记的特征分量数值置为零，得到增强特征向量组

其中，i＝1,2,…,12。与此同时，将对应的反向回传梯度设置为零，以便强制多视图卷积神经网络对数值较小的特征分量进行学习。

优选地，预设概率的取值为0.1至0.8，预设数量的取值为300至600。

具体地，通过大量的试验，预设概率p的取值在0.1-0.8范围内，且预设数量k的取值在300到600范围内时，检索神经网络模型能产生稳定可靠的结果。本实施例中，设定预设概率p的取值为0.4，预设数量k的取值为500。

步骤15，根据置为零的初步特征向量，利用最大池化算法和线性分类算法，生成第一模态特征，计算损失函数，根据第一模态特征，构建检索神经网络模型。

具体地，将处理后的增强特征向量组

作为输入，利用最大池化算法，得到描述标准对象c的第一模态特征f^(c)，对应的计算公式为：

i＝1,…，12，

式中，

代表对第一模态特征f^(c)中每一个特征分量

j＝1,…1024。

进行元素级最大化操作(elementwise max)，操作后，

的取值为特征向量组

中所有特征向量第j个元素的最大值。

再将第一模态特征f^(c)作为输入，利用线性分类算法进行运算，输出神经网络预测的对象的分类结果，使用神经网络预测的对象的分类结果和标准对象的分类标签用交叉熵损失函数(Cross Entropy Loss)计算损失(loss)，利用随机梯度下降算法(StochasticGradient Descent，SGD)，进行梯度回传，构建检索神经网络模型。用上标c表示向量对应的对象索引，根据步骤11采集的标准对象数目c＝1,2,…,m，一次迭代的交叉熵损失函数对应的计算公式为：

式中，s^(c)表示线性分类算法的输出，W表示线性分类算法的内在参数，y^(c)表示第c个对象的分类标记,由训练数据集给出。

进一步地，在步骤15之后，还包括：

步骤16，计算检索神经网络模型的性能指标；

步骤17，判断检索神经网络模型的性能指标是否收敛，若是，执行步骤3，若否，执行步骤11。

具体地，判断交叉熵损失函数loss的取值是否稳定收敛，这里判断标准是连续3次迭代的loss取值保持相对稳定且没有下降趋势。若稳定收敛，则行步骤3，若否，执行步骤11。

优选地，在执行步骤15之前，还包括：

步骤1a，判断检索模式是否为跨模态检索，若是，执行步骤1b，若否，执行步骤15；

步骤1b，获取标准对象对应的另一模态的第二模态特征，更新检索神经网络模型中的参数；

具体地，设定另一模态为点云，获取标准对象在点云模态下对应的第二模态特征，第二模态特征获取的过程可以采用任一种现有技术，此处不再赘述。

具体地，将得到的第一模态特征f和对应的第二模态特征h作为输入量，利用triplet-center-loss(f,p)计算损失函数值，然后梯度回传，更新网络参数，其中，triplet-center-loss是广为使用的检索任务loss。

步骤2，使用步骤1训练得到的检索神经网络模型，提取对象数据库中所有标准对象对应的特征，构建检索立体对象对应的检索特征数据库。

具体地，如果对象数据库中表征对象的模态为视图，则提取该对象的第一模态特征，存入数据库。如果表征对象的模态为点云，则提取该对象的第二模态特征，存入数据库。数据库中不区分第一和第二模态特征，都以相同的方式存储和处理。

步骤3，根据输入的检索对象与检索立体对象之间的欧氏距离，输出检索对象对应的检索立体对象。

该步骤3中，具体包括：

步骤31，根据数据模态输入检索对象。

具体地，输入任一立体对象任意角度的视图。根据实际情况，输入采集到的任一立体对象的人一角度的多张或一张视图。对于视图获取，可以是已经拍摄好的图片也可以是对立体对象渲染得到的投影视图。如果步骤1中训练的是跨模态检索的网络，则还可以支持输入任一立体对象的点云模态数据。

步骤32，提取检索对象的特征向量。

具体地，使用步骤1训练好的检索网络提取输入对象的特征向量。如果输入数据模态为视图，则提取第一模态特征，如果是点云，则提取第二模态特征。特征提取好后不区分模态，以相同方式做后续处理。这里为了表示方便将输入对象提取的特征记作f_input。

步骤33，计算检索对象和步骤2建立的检索特征数据库中所有检索立体对象之间的欧氏距离。

具体地，计算输入对象和数据库中所有立体对象的距离，这个距离使用立体对象的特征的欧氏距离衡量，设数据库中某个立体对象的特征向量为f_database,则距离d由以下公式计算：

d＝‖f_input-f_database‖₂。

步骤34，根据步骤33中计算的欧氏距离，按照从小到大的顺序排序检索特征数据库中所有检索立体对象，然后输出这个排序结果。

在本申请中，如图2所示，将现有的多视图卷积神经网络作为对比模型，以单模态检索为例，对同一个待检索立体对象进行图像检索，其中，检索神经网络模型使用在ImageNet上预训练过的VGG11和ResNet50作为主干网络，在不同输入数目的检索视图情况下，VGG11主干网络对应的检索性能曲线如图2(A)所示，ResNet50主干网络对应的检索性能曲线如图2(B)所示，采用本申请的检索神经网络模型对应的检索性能曲线分别为曲线201和曲线203，采用对比模型对应的检索性能曲线分别为曲线202和曲线204，通过对比可知，特别是在输入视图缺失(视图数量较少)的情况下，本申请中检索神经网络模型的检索性能得到了提升。

在进行跨模态检索时，以点云模态和投影视图模态为例，采用本申请中的检索神经网络模型和现有的多视图卷积神经网络对待检索立体对象进行图像检索，得到的性能对比结果如表2所示。

表2

由表2可知，特别是在缺失视图情况下，本申请中的图像检索性能有十分明显的提升。

实施例二：

如图3所示，本实施例提供了一种自由视角的立体对象检索系统10，包括：网络构建模块100，数据库构建模块200以及检索结果输出模块300；

网络构建模块100被配置为，根据多视图卷积神经网络和标准对象的投影视图，构建检索神经网络模型；

进一步地，网络构建模块100中，具体包括：图像获取单元101，特征提取单元102，排序单元103，置零单元104以及模型构建单元105；图像获取单元101用于，获取图像数据库中至少一个标准对象的不同视角的至少两张投影视图；

具体地，在图像数据库中获取m个标准对象的不同视角的12张投影视图，作为构建检索神经网络模型的基础数据，其中，m为大于或等于1的正整数，m的具体取值由模型的精度确定。

特征提取单元102用于，根据多视图卷积神经网络和投影视图，提取标准对象对应的一组特征，记作初步特征向量组；

排序单元103用于，将初步特征向量组中的特征分量由大到小进行排序，并以预设概率将与预设数量相等的初步特征向量置为零；

置零单元104用于，将置为零的初步特征向量对应的反向回传梯度置为零；

模型构建单元105用于，根据置为零的初步特征向量，利用最大池化算法和线性分类算法，生成第一模态特征，并计算损失函数，根据第一模态特征，构建检索神经网络模型。

具体地，将处理后的增强特征向量组

i＝1,…，12，

式中，

代表对第一模态特征f^(c)中每一个特征分量

j＝1,…1024。

进行元素级最大化操作(elementwise max)，操作后，

的取值为特征向量组

中所有特征向量第j个元素的最大值。

进一步地，网络构建模块100，还包括：指标计算单元106以及判断单元107；指标计算单元106用于，计算检索神经网络模型的性能指标；

判断单元107用于，判断检索神经网络模型的性能指标是否收敛，若否，重新获取投影视图。

数据库构建模块200被配置为，根据检索神经网络模型，提取对象数据库中所有标准对象对应的特征，构建检索特征数据库，其中，检索特征数据库包括多个检索立体对象；

检索结果输出模块300被配置为，根据输入的检索对象与检索立体对象之间的欧氏距离，输出检索对象对应的检索立体对象。

进一步地，检索结果输出模块300，具体包括：输入单元301，提取单元302，距离计算单元303以及输出单元304；

输入单元301用于，根据数据模态输入检索对象；

具体地，输入任一立体对象任意角度的视图。根据实际情况，输入采集到的任一立体对象的人一角度的多张或一张视图。对于视图获取，可以是已经拍摄好的图片也可以是对立体对象渲染得到的投影视图。如果训练的是跨模态检索的网络，则还可以支持输入任一立体对象的点云模态数据。

提取单元302用于，提取检索对象的特征向量；

具体地，使用训练好的检索网络提取输入对象的特征向量。如果输入数据模态为视图，则提取第一模态特征，如果是点云，则提取第二模态特征。特征提取好后不区分模态，以相同方式做后续处理。这里为了表示方便将输入对象提取的特征记作f_input。

距离计算单元303用于，计算检索对象和检索特征数据库中检索立体对象之间的欧氏距离；

d＝‖f_input-f_database‖₂。

输出单元304用于，根据欧氏距离，按照从小到大的顺序对检索立体对象进行排序，并输出排序后的检索立体对象。

以上结合附图详细说明了本申请的技术方案，本申请提出了一种自由视角的立体对象检索方法与系统，其中，该立体对象检索方法包括：步骤1，根据多视图卷积神经网络和标准对象的投影视图，构建检索神经网络模型；步骤2，根据检索神经网络模型，提取对象数据库中所有标准对象对应的特征，构建检索特征数据库，其中，检索特征数据库包括多个检索立体对象；步骤3，根据输入的检索对象与检索立体对象之间的欧氏距离，输出检索对象对应的检索立体对象。通过本申请中的技术方案，增强了投影视图检索网络中提取的特征向量，给予投影视图检索网络可以支持任意位置，任意数目视图的输入，而且达到稳定可靠的性能。

本申请中的步骤可根据实际需求进行顺序调整、合并和删减。

本申请装置中的单元可根据实际需求进行合并、划分和删减。

尽管参考附图详地公开了本申请，但应理解的是，这些描述仅仅是示例性的，并非用来限制本申请的应用。本申请的保护范围由附加权利要求限定，并可包括在不脱离本申请保护范围和精神的情况下针对发明所作的各种变型、改型及等效方案。