CN110163091B

CN110163091B - 基于lstm网络多模态信息融合的三维模型检索方法

Info

Publication number: CN110163091B
Application number: CN201910296553.9A
Authority: CN
Inventors: 刘安安; 龙行健; 聂为之
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-04-13
Filing date: 2019-04-13
Publication date: 2023-05-26
Anticipated expiration: 2039-04-13
Also published as: CN110163091A

Abstract

一种基于LSTM网络多模态信息融合的三维模型检索方法，对给定的三维模型，提取三维模型按旋转角度顺序排列的若干张视图；采用多任务多角度的方式提取出若干张视图的骨架特征，由骨架特征得到三维模型的结构化信息；提取出若干张视图的视图特征向量，输入到一层LSTM网络结构中；看是否还要继续提取其他特征向量；将骨架特征向量和经过一层LSTM的视图特征向量相连接构成新的特征向量，输入到第二层LSTM网络结构中去进行融合；看是否还有待融合的其他特征向量，有则再次构成新的特征向量，输入到下一层LSTM网络结构中去进行融合；将最近一次融合的输出作为三维模型的最终的特征向量Q，结合相似性度量方法，完成最终的三维模型的检测过程。

Description

基于LSTM网络多模态信息融合的三维模型检索方法

技术领域

本发明涉及一种三维模型检索方法。特别是涉及一种基于LSTM网络多模态信息融合的三维模型检索方法。

背景技术

近年来，得益于相关技术的快速发展，三维模型的数量得到了井喷式的发展。一方面，深度相机的出现和发展使得通过采集现实世界来获得三维模型成为可能；另一方面，显卡和CPU性能的增强，以及三维建模软件的出现，使得虚拟建模的变得简单易行。此外，互联网的高速发展使得模型的传播变得更加简单和快速^[1]-[4]。鉴于此，三维模型在各行各业的应用越来越广泛^[6][7]。在实际使用的过程中，随着三维模型数据库逐渐增大，又由于三维模型数据的特殊性，人们想要从庞大的数据库中查找特定的模型变的越来越困难。为了解决从大规模数据库中检索三维模型的问题，研究人员提出了一些三维模型检索算法。

基于模型的算法：大多数早期的研究都使用基于模型的算法。提取形状描述符是基于模型方法的关键步骤。一般来说，基于模型的形状描述符可分为低级特征和高级特征两类^[8]-[10]。

代表性的低级特征包括模型的表面相似性^[11]、体积信息^[12]、几何矩^[13]、体素分布^[14]，他们都属于模型的拓扑信息或几何特征。典型的高级特征有球形谐波和矩^[15]、骨架特征^[16]、多边形网格，如三角形区域^[17]和Reeb图(RG)^[18]，这些特征主要分析三维物体各组成部分的结构关系。提取这些手工设计的特征描述符是基于模型的三维模型算法的最关键部分。一个可能可行的方法是在预先定义的三维体素网格上计算三维模型顶点的概率分布将其作为该三维模型的特征^[19]。Kazhdan等人提出的球形谐波描述符^[20]可以解决模型的旋转不变性问题。谢等人^[21]的方法是首先构建三维模型多尺度热核特征直方图，然后将该直方图输入到一个自编码器中。通过Pickup等人^[22]提出的经典多维标度法，可以逐步提高形状描述符的性能。另一方面，一些研究人员开始关注基于体素的三维模型表示。相较于传统上直接捕获整个三维物体的特征，徐等人^[23]首先将三维模型分割成若干层，然后将这些层投影到一个二值图像中提取特征，最后将来自不同层的特征结合起来作为最终的特征。此外，吴等人^[24]利用三维卷积网络学习基于体素的形状描述符。但是，基于模型的方法通常性能较差，处理速度较低。当处理复杂的三维模型时，速度和性能就成为实际应用的瓶颈。

基于视图的算法：基于视图的方法在最近的三维模型检索研究中很流行。通过用多张二维平面视图的方法描述三维模型，该方法将三维空间的信息特征提取和信息比较过程转化到二维平面上，从多视图二维图像描述三维对象。因此，它需要获取三维模型的多视角图像。

为了保留多模态和多视图的信息，刘等人提出了MCG方法来表征一个三维模型^[25]。吴等人利用了深度图像预测通过多次卷积处理三维模型的最佳视角。王等人^[26]描述由六个不同视图中构成的三维模型，可用于基于图像的三维模型检索方法。在这种方法中，每个模型的六个视图被分成三对，并且然后计算所有对应对的距离之和作为相似度评价标准。实验表明，不同视角的选择会显著影响基于视图的算法的性能。因此，Ansary等人^[27]开发了适应视图集群(AVC)方法，可以自适应的选择最佳的视图数。

目前三维模型检索目前面临的主要挑战为：

1)由于立体模型包含的信息量较大，如何将数据库中的模型进行描述，提取出区分度较高的特征，使得相似模型之间的特征尽量接近，不同模型间的特征尽量在相似度度量空间里有较大的距离；

2)在保证检索结果准确性的同时，还要考虑到计算量要尽量小，算法复杂度不能过高，以保证在实际应用场景中对检索系统实时性的要求。

发明内容

本发明所要解决的技术问题是，提供一种可以达到更加准确检索结果的基于LSTM网络多模态信息融合的三维模型检索方法。

本发明所采用的技术方案是：一种基于LSTM网络多模态信息融合的三维模型检索方法，包括如下步骤：

1)对给定的每个三维模型，使用OpenGL工具分别提取每个三维模型按旋转角度顺序排列的若干张视图；

2)对于从每个三维模型提取出来的若干张视图，采用多任务多角度的方式提取出骨架特征，由骨架特征得到三维模型的结构化信息；

3)对于从每个三维模型提取出来的若干张视图，提取出视图特征向量，并输入到一层LSTM网络结构中去，得到若干张视图的具有时间连续性信息的特征向量；

4)判断是否还要继续提取其他特征向量，是则提取其他特征向量后进入下一步骤，否则进入下一步骤；

5)将骨架特征向量和经过一层LSTM的视图特征向量相连接构成新的特征向量，并输入到第二层LSTM网络结构中去，融合两种为不同模态的特征向量，得到若干张视图本次融合后的具有加强的时间连续性信息的特征向量；

6)判断是否还有待融合的其他特征向量，有则将得到的最近一次融合后具有加强的时间连续性信息的特征向量与所述的其他特征向量中的一种特征向量相连接，再次构成新的特征向量，输入到下一层LSTM网络结构中去，融合两种为不同模态的特征向量，得到若干张视图的本次融合后的具有加强的时间连续性信息的特征向量；没有则进入下一步骤；

7)将最近一次融合的输出作为每个三维模型的最终的特征向量Q，结合相似性度量方法，完成最终的每个三维模型的检测过程。

步骤1)所述的提取每个三维模型按旋转角度顺序排列的若干张视图，包括：

(1)首先使用NPCA的方法分别对每个三维模型数据进行归一化处理，保证三维模型的方向出与设定的方向一致，三维模型的尺度在设定的大小空间内；

(2)使用OpenGL工具提取三维模型的视图时，以Z轴为旋转轴，每隔设定角度的旋转角度提取一张视图。

步骤2)所述的采用多任务多角度的方式提取出骨架特征向量，是采用多任务的网络并行结构使用VGG 16层网络，同时完成骨架像素点的定位和骨架尺度的估计，具体是：

(1)利用VGG 16层网络的一组尺度相关的旁路输出信息，来定位视图中的骨架像素点的位置；

(2)利用VGG 16层网络另一组旁路输出信息来预测和估计视图中的骨架的尺度；

(3)根据骨架像素点的位置和骨架的尺度提取出骨架特征向量G，表示为：

其中

是形式地表示所述骨架特征向量提取过程的一个函数。

步骤3)具体是使用预训练的VGG-16网络结构，完成从每个三维模型提取出来的若干张视图的视图特征向量的提取；所提取出的视图特征向量F，表示为：

F＝{f₁,f₂,…,f₁₂},f_i＝φ(v_i),f_i∈R⁴⁰⁹⁶

其中φ(·)是形式地表示所述视图特征向量提取过程的一个函数。

步骤5)所述的得到若干张视图本次融合后的具有加强的时间连续性信息的特征向量，包括：

(1)由于若干张视图是按设定角度绕Z轴旋转得到的，具有空间的连续性信息，需将空间的连续性信息转化为采集视图时的时间连续性；

(2)将按旋转角度顺序排列的若干张视图的特征向量看作时间有序的序列，依次输入到一个LSTM网络结构中，以保存和利用特征向量的时间连续性信息；

所述的LSTM网络结构具有以下的参数特征：

遗忘门f_t部分：

输入门

和i_t部分：

输出门o_t和部分：

h_t＝o_t⊙tanh(c_t)

其中，c_t表示细胞输出，f_t表示激活函数，i_t表示输出门的输入，o_t表示输出门输出，h_t表示细胞输出的激活函数，b_f表示偏置，W_f表示系数矩阵，x_t表示当前时刻的输入，g_k表示特征向量。

步骤7)所述的结合相似性度量方法，完成最终的每个三维模型的检测过程，包括：

(1)使用欧几里得距离作为度量特征间的相似度的公式：

其中，m_i和m_j表示不同的模型，

和/>

表示不同的特征向量；

(2)将待检索的三维模型的最终的特征向量Q，根据相似度的公式计算出所述最终的特征向量Q与三维模型库中其他的三维模型的特征向量之间的距离，根据如下公式得到匹配的模型M*：

其中

表示三维模型数据库中的特征向量，M*是数据库中最接近最终的特征向量Q的模型的特征向量。

本发明的基于LSTM网络多模态信息融合的三维模型检索方法，通过两层LSTM网络结构，在保存和利用视图间的时间连续性信息的同时，将具有结构化信息的骨架特征和视图特征进行了融合，得到了一组较好的表征三维模型的特征向量，使得对立体模型的描述更加全面，可以达到更加准确的检索结果。本发明的有益效果是：

1、本发明在提取模型的特征的时候，既使用了与与细节相关的视图特征，又提取了含有结构化信息的骨架特征，由这两个方面的特征融合而得的新特征作为最终的特征，提高了特征的区分能力；

2、本发明在融合两种模态的特征信息的时候，创新性的采用了双层LSTM的网络结构，保留了视图之间的时序信息，从而保留了更多的来自模型的特征；

3、通过我们的网络结构设计，可以完成更多模态的特征融合，从而为融合不同模态信息提供了一个新思路；

4、本发明是第一个采用骨架信息和视图信息并使用多层LSTM融合不同模态信息的网络结构；

5、本发明避免了仅采用基于立体模型方法的巨大计算量，或基于视图的方法导致的立体模型信息提取不完整，本方法能够保证计算立体模型相似度的科学性和准确性。

附图说明

图1是本发明基于LSTM网络多模态信息融合的三维模型检索方法的流程图；

图2是立体模型数据库内容的一个从十二个角度渲染的多视角示例图；

图3是两层LSTM网络结构示意图；

图4是本发明的包含骨架信息的模型以及不添加骨架信息时的模型在台湾大学数据库的PR曲线的示意图；

图5是本发明的包含骨架信息的模型以及不添加骨架信息时的模型在台湾大学数据库使用四种评价标准的结果的示意图；

图6是本发明模型与其他模型(CCFV,Liu,NN和AVC)在台湾大学数据库上的PR曲线图；

图7是本发明模型与其他模型(CCFV,Liu,NN和AVC)在台湾大学数据库上使用四种评价标准的结果的示意图；

图8是本发明模型与其他模型(CCFV,Liu,NN和AVC)在Model-Net 40数据库上使用四种评价标准的结果的示意图。

具体实施方式

下面结合实施例和附图对本发明的基于LSTM网络多模态信息融合的三维模型检索方法做出详细说明。

如图1所示，本发明的基于LSTM网络多模态信息融合的三维模型检索方法，包括如下步骤：

1)如图2所示，对给定的每个三维模型，使用OpenGL工具分别提取每个三维模型按旋转角度顺序排列的若干张视图；

所述的提取每个三维模型按旋转角度顺序排列的若干张视图，包括：

所述的采用多任务多角度的方式提取出骨架特征向量，是采用多任务的网络并行结构使用VGG 16层网络，同时完成骨架像素点的定位和骨架尺度的估计，具体是：

(1)利用VGG 16层网络的一组尺度相关的旁路输出(Scale-associated SideOutputs)信息，来定位视图中的骨架像素点的位置；

其中

是形式地表示所述骨架特征向量提取过程的一个函数。

具体是使用预训练的VGG-16网络结构，完成从每个三维模型提取出来的若干张视图的视图特征向量的提取；所提取出的视图特征向量F，表示为：

F＝{f₁,f₂,…,f₁₂},f_i＝φ(v_i),f_i∈R⁴⁰⁹⁶

5)如图3所示，将骨架特征向量和经过一层LSTM的视图特征向量相连接构成新的特征向量，并输入到第二层LSTM网络结构中去，融合两种为不同模态的特征向量，得到若干张视图本次融合后的具有加强的时间连续性信息的特征向量；

所述的得到若干张视图本次融合后的具有加强的时间连续性信息的特征向量，包括：

1)由于若干张视图是按设定角度绕Z轴旋转得到的，具有空间的连续性信息，需将空间的连续性信息转化为采集视图时的时间连续性；

2)将按旋转角度顺序排列的若干张视图的特征向量看作时间有序的序列，依次输入到一个LSTM网络结构中，以保存和利用特征向量的时间连续性信息；

所述的LSTM网络结构具有以下的参数特征：

遗忘门f_t部分：

/>

输入门

和i_t部分：

输出门o_t和部分：

h_t＝o_t⊙tanh(c_t)

所述的结合相似性度量方法，完成最终的每个三维模型的检测过程，包括：

1)使用欧几里得距离作为度量特征间的相似度的公式：

其中，m_i和m_j表示不同的模型，

和/>

表示不同的特征向量；

2)将待检索的三维模型的最终的特征向量Q，根据相似度的公式计算出所述最终的特征向量Q与三维模型库中其他的三维模型的特征向量之间的距离，根据如下公式得到匹配的模型M*：

其中

本发明的基于LSTM网络多模态信息融合的三维模型检索方法，既提取了模型的视图特征，也提取了包含结构话信息的骨架特征，并且LSTM的网络结构还保留了视图之间的时序信息。本发明的一个重要的贡献在于使用多层LSTM的网络结构融合多模态的特征信息，为多模态信息的融合提供了一个可靠和有效的解决方案。视图特征方面，本发明采用预训练的VGG-NET16模型来计算每张视图的特征向量，然后将这些向量看作时间有序的序列，将其依次输入到一个LSTM网络结构中去，以保存和利用时间连续性信息；骨架特征方面，采用Wei Shen等人提出的DeepSkeleton模型^[28],利用DeepSkeleton网络的一组尺度相关的旁路输出(Scale-associated Side Outputs)信息，来定位图片中的骨架像素点的位置，利用网络的另一组旁路输出信息来预测和估计图片中的骨架的尺度。最后将骨架信息与第一层LSTM的视图特征输出连接起来，输入到第二层LSTM中完成最终的多模态信息的融合。

本发明的基于LSTM网络多模态信息融合的三维模型检索方法，最重要的是获取多模态的特征信息，包括视图特征信息和骨架特征信息，以及如何将多模态信息进行融合。另外，本发明所提出的双层LSTM结构还有利于保存视图之间的时序信息。由于三维模型的信息量较文本和图片更大，相关特征提取算法在遇到较复杂场景的时候容易遇到性能瓶颈，达不到实时性的要求。本发明专利采用并行计算的方式提取多个模态的特征信息。

实施例1

具体实施步骤如下：

101：对于给定的三维模型，需要首先进行归一化处理，然后提取其按顺序排列的视图；

1)首先需要使用NPCA的方法对三维模型数据进行归一化处理，保证三维模型的方向出与给定的朝向，三维模型的尺度在给定的大小空间内；

2)使用OpenGL的可视化工具提取三维模型的视图时，以Z轴为旋转轴，每隔30度的旋转角度提取一张视图。

102：对于视图序列，提取其视图特征；进一步的，还需要提取包含结构化信息的骨架特征；提取的时候采用并行计算的方法以提高计算特征的速度；

使用预训练的VGG-16网络结构，完成三维模型的视图特征的提取过程。

由此方法提取的视图特征向量可表示为F＝{f₁,f₂,…,f₁₂},f_i＝φ(v_i),f_i∈R⁴⁰⁹⁶，其中φ(·)是形式地表示上述视图特征提取过程的一个函数。

103：计算骨架特征的步骤为：

1)利用网络的一组尺度相关的旁路输出(Scale-associated Side Outputs)信息，来定位图片中的骨架像素点的位置；

2)利用网络的另一组旁路输出信息来预测和估计图片中的骨架的尺度。

由此方法提取的骨架特征向量可表示为

其中/>

是形式地表示上述骨架特征提取过程的一个函数。

104：设计双层LSTM结构的网络，以视图特征和骨架特征作为输入，得到融合了两种模态信息的特征，并且这个特征由于采用了LSTM网络结构，有效的包含了视图之间的时序特征。

1)考虑到十二张视图之间是按固定角度绕Z轴旋转得到的，将空间的连续性信息转化为采集视图时的时间连续性。

2)将按顺序提取的十二个视图特征向量看作时间有序的序列，依次输入到一个LSTM网络结构中，以保存和利用其时间连续性信息。

105：利用多模态特征融合，可以同时利用多种模态的特征信息，结合相似度度量的方法完成最终的模型检索过程。

使用欧几里得距离作为度量特征间的相似度的方法：

其中，m_i和m_j表示不同的模型，

和/>

表示不同的特征向量；对应的距离越接近，S值越大，两个对象越相似。/>

综上所述，本发明实施例通过上述步骤101-步骤105提取到视图特征信息和骨架特征两种不同类型的信息，并将其融合为一种新的特征，使得对立体模型的描述更加全面，在相似度的量化方面更加准确和科学性。

下面结合具体的计算公式、图1、图2、图3对实施例1中的方案进行进一步地介绍，详见下文描述：

使用F＝{f₁,f₂,…,f₁₂},f_i＝φ(v_i),f_i∈R⁴⁰⁹⁶，表示提取的视图特征向量，其中φ(·)是形式地表示上述视图特征提取过程的一个函数。初始的视图特征向量的维度是4096维，使用随机梯度下降法的反向传播算法来完成训练过程，学习率设为0.001，每一轮学习过后，我们用验证集的数据验证模型。如果验证集上的对数似然函数(损失函数)值增大，我们开始新一轮的训练，如果对数似然函数的值没有显著的变化，则将学习率减半。如果经过多轮验证，损失函数收敛，则训练过程结束。本实施例采用了台湾大学数据库，大概在60-100次的训练之后收敛。

综上所述，本发明实施例通过上述步骤增强了三维模型的表达性，排除了三维模型单一特征对相似度求取结果的影响，使三维模型检索的准确性得到提高，并降低了计算量，使检索效率得到提高，同时也为多模态信息的融合提供了新的思路。

下面结合具体的实例，对实施例1中的方案进行可行性验证，详见下文描述：

本发明实施例中的数据库是基于台湾大学数据库和ModelNet-40的数据库来进行的。台湾大学三维模型数据库包含了46类共549个三维模型。对于每个三维模型，都提供了60个角度的多视角视图。ModelNet是一个更大的数据库，包含了662类共127915个三维模型数据。我们采用的ModelNet-40是ModelNet数据库的一个子集，包含了40类共12311个拥有有效标注的三维模型数据。

本发明实施例采用了4种评价标准，分别是：

Nearest Neighbor(NN):计算最匹配返回结果中隶属于检索类别的比例，越高越好；

First Tier(FT):计算K个最相关匹配结果的查全率，K表示检索的类别数，越高越好；

Second Tier(ST):计算2K个最相关匹配结果的查全率，K表示检索的类别数，越高越好；

F-measure:是一种比较能够综合评价给定数目检索结果的查准率和查全率的评价标准，越高越好；

Precision-Recall curve(PR):表征查准率和查全率的一种重要方法。

本发明实施例提出的一个立体模型数据集示例如图2所示。实验的结果如图4-8所示，为了表明多模态信息融合方法的性能，我们设置了一组除去了骨架信息的模型的对照实验，结果表明，多模态信息融合的方法比单模态(仅包含视图信息的方法)分别在NN,FT,ST和F-measure标准上分别提高了3.61％,2.43％,3.87％,和4.63％。

PR曲线的结果也说明了多模态方法相对于单模态能取得较高的效果提升。其中，Precision是查准率，Recall是查全率，查全查准曲线与横纵坐标所围的面积越大，代表检索性能越好。

图6和图8显示本方法性能在台湾大学数据库和ModelNet-40数据库下较好，在台湾大学数据库、ModelNet40数据库上，与传统的方法相比，本方法与横纵坐标轴围城的面积最大，验证了本方法的可行性，满足了实际应用中的多种需要。

参考文献

[1]S.Zhao,H.Yao,Y.Zhang,Y.Wang,S.Liu,View-based 3d object retrievalvia multi-modal graph learning,Signal Processing 112(2015)110-118

[2]L.Nie,M.Wang,Z.-J.Zha,T.-S.Chua,Oracle in image search:a content-based approach to performance255 prediction,ACM Transactions on InformationSystems(TOIS)30(2)(2012)13.

[3]M.Conrad,R.W.De Doncker,M.Schniedenharn,A.Diatlov,Packaging forpower semiconductors basedon the 3d printing technology selective lasermelting,in:European Conference on Power Electronics andApplications,2014,pp.1-7

[4]A.A.Liu,Y.T.Su,W.Z.Nie,M.Kankanhalli,Hierarchical clusteringmulti-task learning for joint human260 action grouping and recognition,IEEETransactions on Pattern Analysis Machine Intelligence 39(1)(2016)102-114.

[5]A.Liu,W.Nie,Y.Gao,Y.Su,Multi-modal clique-graph matching for view-based 3dmodel retrieval,IEEE Transactions on Image Processing 25(5)(2016)2103-2116.

[6]A.Liu,W.Nie,Y.Gao,Y.Su,View-based 3-d model retrieval:A benchmark,IEEE Transactions on265 Systems,Man,and Cybernetics 48(2018)916-928.

[7]W.Nie,A.Liu,Y.Gao,Y.Su,Hyper-clique graph matching andapplications,IEEE Transactions onCircuits and Systems for Video Technology(2018)1-1.

[8]G.Yue,W.Meng,T.Dacheng,J.Rongrong,D.Qionghai,3-d object retrievaland recognition withhypergraph analysis,IEEE Transactions on Image Processing21(9)(2012)4290-4303.270

[9]Y.Gao,Y.Zhen,H.Li,T.Chua,Filtering of brand-related microblogsusing social-smooth multiviewembedding,IEEE Transactions on Multimedia 18(10)(2016)2115-2126.

[10]X.Zhao,N.Wang,Y.Zhang,S.Du,Y.Gao,J.Sun,Beyond pairwise matching:Person reidentificationvia high-order relevance learning,IEEE Transactions onNeural Networks 29(8)(2018)3701-3714.

[11]B.Bustos,Feature-based similarity search in 3d object databases,Acm Computing Surveys 37(4)(2005)345-387.

[12]A.Liu,Z.Wang,W.Nie,Y.Su,Graph-based characteristic view setextraction and matching for 3d modelretrieval,Information Sciences 320(2015)429-442.

[13]E.Paquet,M.Rioux,A.Murching,T.Naveen,A.Tabatabai,Description ofshape information for 2-d and3-d objects,Signal Processing ImageCommunication 16(s 12)(2000)103-122.

[14]A.D.Papoiu,N.M.Emerson,T.S.Patel,R.A.Kraft,R.Valdes-Rodriguez,L.A.Nattkemper,R.C.315Coghill,G.Yosipovitch,Voxel-based morphometry andarterial spin labeling fmri reveal neuropathic andneuroplastic features ofbrain processing of itch in end-stage renal disease.,Journal ofNeurophysiology 112(7)(2014)1729-38.

[15]Q.Liu,A survey of recent view-based 3d model retrieval methods,arXiv preprint arXiv:1208.3670.

[16]H.Sundar,D.Silver,N.Gagvani,S.Dickinson,Skeleton based shapematching and retrieval,in:Shape320 Modeling International,2003,p.130.

[17]J.W.Tangelder,R.C.Veltkamp,Polyhedral model retrieval usingweighted point sets,Internationaljournal of image and graphics 3(01)(2003)209-229.

[18]Y.Shinagawa,T.L.Kunii,Constructing a reeb graph automaticallyfrom cross sections,IEEE ComputerGraphics and Applications 11(6)(1991)44-51.

[19]K.Xu,Y.Shi,L.Zheng,J.Zhang,M.Liu,H.Huang,H.Su,D.Cohen-Or,B.Chen,3dattention-drivendepth acquisition for object identification,ACMTransactions on Graphics(TOG)35(6)(2016)238.

[20]M.Kazhdan,T.Funkhouser,S.Rusinkiewicz,Rotation invariantspherical harmonic representation of 3dshape descriptors,in:Symposium ongeometry processing,Vol.6,2003,pp.156-164.

[21]S.Bu,Z.Liu,J.Han,J.Wu,R.Ji,Learning high-level feature by deepbelief networks for3-d model330 retrieval and recognition,IEEE Transactionson Multimedia 16(8)(2014)2154{2167.

[22]D.Pickup,X.Sun,P.L.Rosin,R.R.Martin,Z.Cheng,S.Nie,L.Jin,Canonicalforms for non-rigid 3dshape retrieval,in:Eurographics Workshop on 3d ObjectRetrieval,2015,pp.99{106.

[23]M.Irfanoglu,B.Gokberk,L.Akarun,3d shape-based face recognitionusing registered surface similarity,in:Signal Processing and CommunicationsApplications Conference,2004.Proceedings of the IEEE 12th,IEEE,2004,pp.571-574.

[24]Z.Wu,S.Song,A.Khosla,F.Yu,3d shapenets:A deep representation forvolumetric shapes,in:IEEEConference on Computer Vision and PatternRecognition,2015,pp.1912-1920.

[25]C.B.Akg¨ul,B.Sankur,Y.Yemez,F.Schmitt,3d model retrieval usingprobability density-based shapedescriptors,IEEE Transactions on PatternAnalysis and Machine Intelligence31(6)(2009)1117-1133.

[26]B.Cao,Y.Kang,S.Lin,X.Luo,S.Xu,Z.Lv,Style-sensitive 3d modelretrieval through sketch-basedqueries,Journal of Intelligent&Fuzzy Systems 31(5)(2016)2637{2644.

[27]J.Xie,Y.Fang,F.Zhu,E.Wong,Deepshape:Deep learned shape descriptorfor 3d shape matching andretrieval,in:Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2015,pp.1275-1283.

[28]W.Shen,K.Zhao,Y.Jiang,Y.Wang,X.Bai,A.Yuille,Deepskeleton:Learningmulti-task scale-associateddeep side outputs for object skeleton extractionin natural images,IEEE Transactions on Image Processing PP(99)(2016)1-1

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LSTM网络多模态信息融合的三维模型检索方法，其特征在于，包括如下步骤：

所述的采用多任务多角度的方式提取出骨架特征向量，是采用多任务的网络并行结构使用VGG 16网络，同时完成骨架像素点的定位和骨架尺度的估计，具体是：

(1)利用VGG 16网络的一组尺度相关的旁路输出信息，来定位视图中的骨架像素点的位置；

(2)利用VGG 16网络另一组旁路输出信息来预测和估计视图中的骨架的尺度；

其中

是形式地表示所述骨架特征向量提取过程的一个函数；

5)将骨架特征向量和经过一层LSTM的视图特征向量相连接构成新的特征向量，并输入到第二层LSTM网络结构中去，融合两种不同模态的特征向量，得到若干张视图本次融合后的具有加强的时间连续性信息的特征向量；

6)判断是否还有待融合的其他特征向量，有则将得到的最近一次融合后具有加强的时间连续性信息的特征向量与所述的其他特征向量中的一种特征向量相连接，再次构成新的特征向量，输入到下一层LSTM网络结构中去，融合两种不同模态的特征向量，得到若干张视图的本次融合后的具有加强的时间连续性信息的特征向量；没有则进入下一步骤；

2.根据权利要求1所述的基于LSTM网络多模态信息融合的三维模型检索方法，其特征在于，步骤1)所述的提取每个三维模型按旋转角度顺序排列的若干张视图，包括：

3.根据权利要求1所述的基于LSTM网络多模态信息融合的三维模型检索方法，其特征在于，步骤3)具体是使用预训练的VGG 16网络结构，完成从每个三维模型提取出来的若干张视图的视图特征向量的提取；所提取出的视图特征向量F，表示为：

F＝{f₁,f₂,…,f₁₂},f_i＝φ(v_i),f_i∈R⁴⁰⁹⁶

4.根据权利要求1所述的基于LSTM网络多模态信息融合的三维模型检索方法，其特征在于，步骤5)所述的得到若干张视图本次融合后的具有加强的时间连续性信息的特征向量，包括：

所述的LSTM网络结构具有以下的参数特征：