CN109241321A

CN109241321A - 基于深度领域适应的图像和模型联合分析方法

Info

Publication number: CN109241321A
Application number: CN201810797133.4A
Authority: CN
Inventors: 吴子朝; 秦飞巍; 张运辉; 王毅刚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2019-01-18

Abstract

本发明公开了一种基于深度领域适应的图像和模型联合分析方法，该方法具体包括数据预处理，通过深度领域适应算法进行特征抽取和进行特征表示融合；本发明能支持不同形式的跨模态数据检索，即以图像来检索三维模型，和以三维模型来检索图像。另外，在支持基于语义的数据检索，例如基于语义的图像检索，基于语义的三维模型检索。在公开数据集上的实验证明该方法具有很高的准确性。

Description

基于深度领域适应的图像和模型联合分析方法

技术领域

本发明涉及人工智能的领域迁移技术，拟采用深度领域迁移来协同分析图像与三维模型。

背景技术

随着互联网技术的快速发展，产生了大量的媒体数据，如：图像、视频和三维模型。这些模型都从不同的角度描述了这些实体。当前，产业界的一个挑战在于如何有效的识别、检索和组织这些数据。针对这些问题，目前很多学者提出了很多方法，然后这些方法绝大多数都从同一领域的角度来处理这些问题，并没有充分挖掘不同领域间信息和数据的连接与共享信息。显然，不同模态间的数据存在很强的关联性质，例如三维模型和二维图像可以从光照、纹理、遮挡等角度描述同一实体。

极少数的工作考虑到联合分析二维图像与三维模型问题，这些工作主要将三维模型表示成一系列渲染好的二维图像，然后从图像的角度来联合分析处理这些数据。他们证明了通过联合分析三维模型和二维图像，能显著改善诸如以模型搜索图像、以图像搜索模型、三维模型识别等。

发明内容

本发明针对现有技术的不足，设计一种新型的领域适应深度网络模型，可以对不同领域的数据进行自适应，并将这些数据投影到一致的语义的空间中。

本发明基于深度领域适应的图像和模型联合分析方法，该方法具体包括以下步骤：

步骤一：数据预处理

将三维模型都预处理成渲染好的二维图像；具体为：将12个虚拟像机置于三维模型周围，这些相机都朝向三维模型的中心，并且均匀摆放成圆形环绕这个三维模型，最后，采用phong模型对三维模型进行渲染，每个相机一个，得到12个渲染后的图像。

步骤二：通过深度领域适应算法进行特征抽取

设计深度神经网格框架，包含两个子网络：源网络模型和目标网络模型；这两个模型相互配合，同时进行训练；

源网络模型和目标网络模型都含有五个卷积层、两个全连接层、一个全连接的融合层和一个输出层；其中卷积层的目的是从输入的图像中学习得到它们的局部特征表示；全连接层的作用在于抽取得到高维全局语义特征表示；融合层的作用在于计算得到两个网络模型的交叉熵，并对两个网络模型的特征表示进行约束；输出层用来对两个网络模型的输入图像的语义信息进行学习，得到分类结果。

以X_S和X_T分别表示源数据和目标数据，假设X_T为稀疏标注，把X_S和X_T中标好分类的数据集合描述成X_L。假设当前有C类数据定义在X_L上，以Y表示为样本的标注；领域适应网络模型的输出定义为标准的软最大分类损失函数：

其中，ρ为软最大分类激活值，y为具体样本的分类值。

另外采用最大化平均差异来对不同的网络模型进行领域适应，具体的领域适应损失函数定义为：

其中为共享的特征抽取器；

最后采用软类名指派来保证源数据和目标数据在类空间分布也一致；具体的标签分布损失函数定义为：

其中，l_k是所有样本属于第k类软激活的平均值；通过联合如上软最大分类损失函数，领域适应损失函数和标签分布损失函数，总的能量函数定义为：

L＝L_S(X_S，X_L)+αL_D(X_S，X_T)+βL_L(X_T，Y)

基于总的能量函数求得神经网络模型的参数，即类别分类器f(·)；

步骤三：进行特征表示融合。

本发明针对三维模型和图像数据，发明方法利用图像数据辅助模型数据的分类与识别，也可以利用模型数据辅助图像数据的分类与识别。本发明方法可应用于图像检索，三维模型检索，图像识别，三维模型识别。

本发明相对于现有技术所具有的有益效果：本发明能支持不同形式的跨模态数据检索，即以图像来检索三维模型，和以三维模型来检索图像。另外，在支持基于语义的数据检索，例如基于语义的图像检索，基于语义的三维模型检索。在公开数据集上的实验证明该方法具有很高的准确性。

附图说明

图1.本发明网络框架流程图；

图2.模型不同角度的投影；

图3.领域迁移示例；

图4.模型检索示例结果。

具体实施方式

结合附件，通过具体实施示例，对本发明的技术方案进行清楚、完整的描述。

1.网络结构图

如图1所示，系统网络图包含有两个子网络，分别是源网络和目标网络。源网络主要处理图像数据，目标网络主要处理三维模型数据。两个网络均有类似的结构，即五个卷积层，三个全连接层，一个领域适应层。

我们初始化参数输入的图像规格为：224*224*3(RGB图像)，经过预处理后变为227*227*3。类似的，我们使用了96个大小规格为11*11的过滤器filter，或者称为卷积核，进行特征提取，值得注意的是因为原始的图是三通道的，我们设计的这96个过滤器也是三通道的，也就是我们使用的实际大小规格为11*11*3，在卷积的时候，我们会依据这个公式来提取特征图：[img_size-filter_size]/stride+1＝new_feture_size，所以这里我们得到96个55*55大小的特征图。

在激活函数选择上，我们使用RELU激励函数，来确保特征图的值范围在合理范围之内，比如{0，1}，{0，255}。在降采样层，本发明对图片最最大化池化操作，池化的大小为3*3，每次池化移动的步长为2。因为网络中参数较多，所以需要考虑过拟合的问题。Dropout通常用来减少了神经元之间的共适应关系，使得一个神经元不再依赖另一个神经元，强迫网络学习到更加鲁棒的特征表示。即训练过程中以概率1-p将隐含层节点的输出值清0，而用反向传播更新权值时，不再更新与该节点相连的权值。最后我们使用随机递度下降方法进行训练，其中批大小为128，超参数动量大小为0.9，加权学习率为0.0005。更新网络中参数的方式为：

w＝w-l*g

其中l表示学习率，g表示梯度。

网络总能量函数的源领域损失函数权重定义为α＝0.01，分类损失函数权重定义为β＝0.1。

2.模型多视图表示

图2展示我们对模型进行多视图投影的过程。给定一个三维模型，首先将模型自适应到同一尺度。通过放置12个虚拟相机至模型的周边，每个相机都平均遍历30度角，朝向模型的质心。采用“冯”模型对其作渲染，其中像机采用透视投影，渲染端像素的颜色取决于模型多边型顶点的差值。

3.网络输出说明

图3展示网络结构的输出，通过对源网络和目标网络进行融合，两个不同领域的数据将会嵌入到同一个空间中。即每个图像或者三维模型都会得到一个特征描述。相同种类的特征表示较为接近。不同种类的数据相距较远。

4.模型应用示例

图4展示了本模型的应用领域，如基于图像的三维模型检索，和基于三维模型的图像检索。基于该发明的网络模型，图片和三维模型表示成了一系列的特征表示，基于该特征表示，可以通过近邻搜索，找到某一个数据的附近数据。从而支持诸如图像检索、三维模型检索等应用。特别的，通过判断近邻数据的模态，我们能方便的实现跨模态数据检索，例如：基于图像搜索三维模型和基于三维模型寻找类似图像。

Claims

1.基于深度领域适应的图像和模型联合分析方法，其特征在于，该方法具体包括以下步骤：

步骤一：数据预处理

将三维模型都预处理成渲染好的二维图像；具体为：将12个虚拟像机置于三维模型周围，这些相机都朝向三维模型的中心，并且均匀摆放成圆形环绕这个三维模型，最后，采用phong模型对三维模型进行渲染，每个相机一个，得到12个渲染后的图像；

步骤二：通过深度领域适应算法进行特征抽取

源网络模型和目标网络模型都含有五个卷积层、两个全连接层、一个全连接的融合层和一个输出层；其中卷积层的目的是从输入的图像中学习得到它们的局部特征表示；全连接层的作用在于抽取得到高维全局语义特征表示；融合层的作用在于计算得到两个网络模型的交叉熵，并对两个网络模型的特征表示进行约束；输出层用来对两个网络模型的输入图像的语义信息进行学习，得到分类结果；

以X_S和X_T分别表示源数据和目标数据，假设X_T为稀疏标注，把X_S和X_T中标好分类的数据集合描述成X_L；假设当前有C类数据定义在X_L上，以Y表示为样本的标注；领域适应网络模型的输出定义为标准的软最大分类损失函数：

其中，ρ为软最大分类激活值，y为具体样本的分类值；

其中为共享的特征抽取器；

L＝L_S(X_S，X_L)+αL_D(X_S，X_T)+βL_L(X_T，Y)

步骤三：进行特征表示融合。