CN111488951B

CN111488951B - 一种用于rgb-d图像分类的对抗度量学习模型生成方法

Info

Publication number: CN111488951B
Application number: CN202010444044.9A
Authority: CN
Inventors: 史颖欢; 陈建蓉; 高阳
Original assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Current assignee: Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd; Nanjing University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-11-28
Anticipated expiration: 2040-05-22
Also published as: CN111488951A

Abstract

本发明公开了一种用于RGB‑D图像分类的对抗度量学习模型生成方法，属于计算机应用领域。其中，该方法引入对抗学习的思想从多视图特征的视图内和视图间两个角度学习度量距离，1)对于每个单独的视图，该方法生成了难以与原始正样本区分的难区分负样本。对抗地学习原始样本和合成的难区分负样本的视图内度量距离，目的是更好地区分特定视图；2)为了整合多个视图以挖掘视图共享关系，该方法生成具有挑战性的公共子空间，对抗地学习视图间度量来区分这些生成的具有挑战性的样本；本发明的有益效果为：在RGB‑D目标识别数据集JHUIT‑50准确率达到了97.2％。同时在各种基准多视图数据集上进行的大量实验证明了本发明有效性，最终模型精度高，适用性强。

Description

一种用于RGB-D图像分类的对抗度量学习模型生成方法

技术领域

本发明涉及一种用于RGB-D图像分类的对抗度量学习模型生成方法，属于计算机应用领域。

背景技术

让机器人拥有和人类一样识别物体的能力一直是机器人视觉的主要目标之一。机器人需要理解和操作一组对象来完成一项任务。物体是场景理解、动作识别和交互预测的关键元素。物体识别是视觉场景描述等高级任务的基础。因此，在图像或视频中识别它们的过程是过去几十年的一个重要研究课题。

RGB-D摄像机的出现为机器人视觉方向的重大飞跃铺平了道路。RGB即是代表红、绿、蓝三种颜色，三通道的组合涵盖了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。D代表深度图(Depth)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道，类似于灰度图像。RGB-D数据集中通常RGB图像和深度图像是配准的，像素点之间具有一对一的对应关系。

尽管RGB-D数据提供了丰富的多视图信息来描述对象(物体)，但是如何有效地表示每种视图并融合这两种视图仍然是一个悬而未决的问题。

同时，有研究表明对抗度量学习对于单视图数据的有效性，但如何实现多源数据的对抗性度量方法仍有有待研究。如何更好地利用视图内和视图间关系，多源度量学习在视图内和视图间的对抗性考虑仍然是一个未解决的问题。

发明内容

本发明针对RGB-D目标识别任务，提出了一种对抗度量学习方法，以解决现有技术存在的上述问题。该对抗度量学习方法包括如下步骤：

步骤(1)选取多视图数据集，并划分训练集和测试集，分别提取数据特征，可以训练深度网络自动提取特征。

步骤(2)基于数据集获取到的特征，构建特征三元组。

步骤(3)在深度学习框架Pytorch中，构建多视图对抗度量学习模型，其中包含基于特定视图的由视图内生成器和视图内判别器构成的视图内对抗单元和基于多个视图的由视图间生成器和视图间判别器构成的视图间对抗单元；

步骤(4)使用梯度下降的方法训练多视图对抗度量学习模型，待模型收敛后保存模型参数，学习得到视图内度量距离、视图间度量距离以及视图间转换矩阵，将原始多个视图特征级联为一个特征向量表示；

步骤(5)测试模型，利用合成的特征向量进行后续分类/聚类任务。

在进一步的实施例中，所述步骤(1)特征提取，针对RGB-D目标识别任务，本发明采用了深度学习的经典VGG模型提取分别提取RGB图像特征和深度图像特征，分别针对RGB和深度视图训练两个单独的VGG模型，对于每个VGG模型都会进行微调以获得最佳性能，模型最后一层全连接层的输出被视为两个不同视图的原始特征，两个视图的特征表示均为4096维。

在进一步的实施例中，所述步骤(2)构建特征三元组，三元组的被设置为10n，其中n是每个数据集中训练样本的数量。

在进一步的实施例中，所述步骤(3)在深度学习框架Pytorch中，构建多视图对抗度量学习模型，分别构造视图内对抗单元和视图间对抗单元，视图内对抗单元由视图内生成器和视图内判别器构成，目标是学习视图内度量距离L_A和L_B。视图间对抗单元由视图间生成器和视图间判别器构成，目标是学习视图间度量距离L_AB以及转换矩阵T_A和T_B。其中A和B代表两个视图。

在进一步的实施例中，所述步骤(4)在深度学习框架Pytorch中，训练对抗度量学习模型。使用单位矩阵初始化转换矩阵T_a和T_b，使用大间隔最近邻居(LMNN)分类算法的输出初始化视图内度量距离L_A,L_B和视图间度量距离L_AB。使用梯度下降的方法求解各项梯度，依次更新L_A、L_B、L_AB、T_A和T_B直到收敛。待模型收敛后保存模型参数，学习得到视图内度量距离、视图间度量距离以及视图间转换矩阵，将原始多个视图特征级联为一个特征向量表示。

在进一步的实施例中，所述步骤(5)测试阶段特征向量的表示，利用步骤(4)学习到的度量距离L_A、L_B、L_AB以及转换矩阵T_A和T_B合成的特征向量进行后续分类/聚类任务。对于第i个测试样本经过步骤(4)可以得到其视图内的表示/>和视图间的表示这三种表示形式将被串联合并为一个特征向量/>用于表示当前第i个测试样本。最终评价指标为RGB-D目标识别的准确率。

本发明的有益效果为：在RGB-D多视图数据集JHUIT-50准确率达到了97.2％，结果优于其他度量学习方法，同时在各种基准多视图数据集上进行的大量实验证明了本发明有效性。此外验证了本发明对单视图分类任务的较好的泛化能力。最终模型精度高，适用性强。

附图说明

图1本发明方法构建图。

图2本发明中由视图内生成器和视图内判别器构成的视图内对抗单元示意图。

图3本发明中由视图间生成器和视图间判别器构成的视图间对抗单元示意图。

图4本发明中多视图对抗度量学习模型示意图。

具体实施方式：

为细致展示本发明的目的、特征和优点，下面将结合附图和具体的实施案例来对本发明做进一步详细说明。

尽管使用标准RGB图像进行目标识别就已经取得了很好的结果，但由于将三维环境投射到二维图像平面上而造成的数据丢失。只用标准RGB图像存在局限性，因为在实际应用中，物体的图像通常会出现较大的光照、视角、分辨率和遮挡等变化，使用标准RGB图像并不能完全解决真实场景中发生的形状变化、变形、遮挡和光照变化。

RGB图像包含颜色、纹理和外观信息，深度图像则包含了额外的几何信息和照明颜色变化等。深度信息为复杂问题的场景及目标分类提供有用的额外信息。深度信息对于照明，视点和分辨率的变化具有鲁棒性。研究表明，融合深度信息的RGB-D目标识别具有更好的分类准确率及稳健性。

如图1所示，本发明针对RGB-D目标识别任务，提出了一种基于对抗度量学习的方法。在模型训练阶段包括如下具体步骤：

步骤(1)选取RGB-D目标识别数据集，并划分训练集和测试集，分别针对RGB和深度视图预先训练两个单独的VGG模型。对于每个VGG模型都会进行微调以获得最佳性能。模型最后一层全连接层的输出被视为两个不同视图的原始特征。VGG模型最后一层全连接层的维度为4096维，两个视图的特征表示均为4096维。

步骤(2)利用特征样本，构建特征样本三元组。为了简化描述，将RGB-D数据中的RGB、深度两个视图定义视图A和视图B。在不同的视图中分别构造三元组和对于在视图A构造的样本三元组/>均为视图A的随机选择的样本，其中第i个和第j个样本具有相同的标签(即yⁱ＝y^j)，均为正样本，而第k个样本的标签与二者均不同(即y^k≠y^j,y^k≠yⁱ)，均为负样本。此约束同理也适用于视图B中的三元组

步骤(3)如图2、3所示，在深度学习框架Pytorch中，构建用于视图内对抗单元和视图间对抗单元。如图4所示，通过组合两个对抗单元，完成多视图对抗度量学习模型的构造。

步骤(4)如图4所示，基于训练数据集上预处理后的数据，训练对抗度量学习模型。使用单位矩阵初始化转换矩阵T_A和T_B，使用大间隔最近邻居(LMNN)分类算法的输出初始化视图内度量距离L_A,L_B和视图间度量距离L_AB。使用梯度下降的方法求解各项梯度，依次更新L_A、L_B、L_AB、T_A和T_B直到收敛。待模型收敛后保存模型参数。

步骤(5)如图4所示，在步骤(4)保存的模型中，可以得到其视图内的表示和视图间的表示/>这三种表示形式将特征级联为一个特征向量，即/>用于表示当前第i个测试样本，输入到后续的分类器，生成最终的测试结果，完成分类任务。

本发明包括如下若干部分：

1)深度网络特征提取模块。

2)用于单个视图数据的视图内对抗单元。

3)基于多个视图数据的视图间对抗单元。

4)多视图对抗度量学习模型。

1、深度网络特征提取模块:

特征提取系本发明的算法流程的第一步。特征提取的方法优劣不是本对抗度量学习方法的研究重点。以在RGB-D目标识别数据集JHUIT-50上的实践为例，鉴于深度网络在图像识别人物的出色表现，本方法选择使用经典模型VGG分别提取RGB特征和深度特征：

a)分别针对RGB和深度视图训练两个单独的VGG16模型。

b)使用另一个RGB-D对象数据集(RGB-D object Dataset)对VGG模型都会进行训练微调以获得最佳性能。用RGB图像数据训练RGB的VGG模型，用深度图像数据训练深度图像的VGG模型

c)训练好的两个VGG模型最后一个全连接层的输出被视为两个不同视图的原始特征。两个视图的特征表示均为4096维。

2、视图内对抗单元：

为了学习视图内度量，本发明从已有的特征三元组合成难区分负样本的方法来学习的视图内度量。以视图A为例，目标是学习视图内度量距离L_A。视图内对抗单元如图2所示，构造生成器G_A和判别器D_A。

生成器利用三元组生成难区分负样本/>参数为θ_A，θ_A由三层全连接的网络实现，即/>生成器G_A的目标函数/>可表示为：

其中h[z]是hinge损失函数(max(0,z)，λ_A是权重参数，f是马氏距离函数

判别器利用合成的难区分负样本(即)，要学习视图内度量距离L_A，判别器D_A尝试拉近(即最小化距离)具有相同标签的样本，同时推开(即最大化距离)具有不同标签的样本。判别器D_A的目标函数/>可表示为：

通过G_A和D_A的对抗训练，获得能够区分难区分负样本的距离度量L_A。联合对抗损失如下所示：

其中λ₁是需要预定义的权重参数。

类似地，以相同的方式可获得视图B的度量距离L_B

3、视图间对抗单元：

同一个物体的不同视图图像之前的信息存在关联，本发明基于共享视图，设计了视图间对抗单元，视图间对抗单元如图2所示，构造生成器G_AB和判别器D_AB。

生成器G_AB负责生成一个具有挑战性的公共子空间，在该子空间中，不同视图中的相应样本在通过各自的投影矩阵(即T_A和T_B)变换后应尽可能一致，具有不同标签的样本之间的距离不会明显大于具有相同标签的样本之间的距离。

判别器D_AB则负责通过视图间度量L_AB负责在公共子空间中分离不同类别的样本。视图间对抗学习过程之后，同时能获得投影矩阵T_A、T_B和在公共子空间中视图间度量距离L_AB。

生成器G_AB利用视图A的三元组和视图B的三元组/>生成公共子空间，参数包括转换矩阵T_A、T_B，目标损失函数为：

其中是用来度量视图a和b之间分歧的矩阵，定义如下：

在生成的公共子空间上，判别器D_AB负责试图区分不同的标签的样本。目标函数可以表示为：

其中xⁱ公共子空间中第i个样本的在不同视图特征表示的均值，即 f是马氏距离函数。

通过迭代的方式来训练投影矩阵T_A和T_B以及视图间距离度L_AB，联合对抗损失可以表示为：

其中λ₂是需要预定义的权重参数。

4、多视图对抗度量学习模型：

本发明设计了多视图对抗度量学习模型，有效地提高模型在多视图数据的学习能力。如图4所示，原始的图像经过深度网络特征提取模块得到的特征，会分别输入给视图内对抗单元和视图间对抗单元，使用梯度下降的方法求解各项梯度，依次更新L_A、L_B、L_AB、T_A和T_B直到收敛。待模型收敛后保存模型参数。

最终输入模型的第i个样本，可以得到其视图内的表示和视图间的表示这三种表示形式将特征级联为一个特征向量/> 输入到后续的分类器，生成最终的测试结果，完成分类任务。

Claims

1.一种用于RGB-D图像分类的对抗度量学习模型生成方法，其特征在于，包括如下步骤：

步骤(1)选取RGB-D图像多视图数据集，并划分训练集和测试集，分别提取数据特征，可以训练深度网络自动提取特征；

步骤(2)基于数据集获取到的特征，构建特征三元组；

步骤(3)在深度学习框架Pytorch中，构建多视图对抗度量学习模型，其中包含基于特定视图的由视图内生成器和视图内判别器构成的视图内对抗单元，视图内生成器G_A利用特定视图的三元组成难区分负样本，视图内判别器D_A利用生成的难区分负样本获得视图内的度量距离，视图内对抗单元的目标是学习视图内度量距离L_A和L_B，和基于多个视图的由视图间生成器和视图间判别器构成的视图间对抗单元，视图间生成器G_AB利用视图A的三元组和视图B的三元组生成公共子空间，视图间判别器D_AB负责在公共子空间中区分不同的标签的样本，视图间对抗单元的目标是学习视图间度量距离L_AB以及转换矩阵T_A和T_B，其中A和B代表两个视图；

2.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法，其特征在于，所述步骤(1)特征提取，采用了深度学习的经典VGG模型分别提取RGB图像特征和深度图像特征，分别针对RGB和深度视图训练两个单独的VGG模型，对于每个VGG模型都会进行微调以获得最佳性能，模型最后一层全连接层的输出被视为两个不同视图的原始特征，两个视图的特征表示均为4096维。

3.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法，其特征在于，所述步骤(2)构建特征三元组，三元组的被设置为10n，其中n是每个数据集中训练样本的数量。

4.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法，其特征在于，所述步骤(4)训练模型，使用单位矩阵或大间隔最近邻居分类算法的输出对转换矩阵和度量距离进行初始化，使用梯度下降的方法求解各项梯度，依次更新L_A、L_B、L_AB、T_A和T_B直到收敛。

5.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法，其特征在于，所述步骤(5)测试模型阶段，利用步骤(4)学习到的度量距离L_A、L_B、L_AB以及转换矩阵T_A和T_B合成的特征向量进行后续分类/聚类任务，对于第i个测试样本可以得到其视图内的表示/>和视图间的表示/>这三种表示形式将被合并为一个特征向量，即/>用于表示当前第i个测试样本。