CN111488951B - 一种用于rgb-d图像分类的对抗度量学习模型生成方法 - Google Patents

一种用于rgb-d图像分类的对抗度量学习模型生成方法 Download PDF

Info

Publication number
CN111488951B
CN111488951B CN202010444044.9A CN202010444044A CN111488951B CN 111488951 B CN111488951 B CN 111488951B CN 202010444044 A CN202010444044 A CN 202010444044A CN 111488951 B CN111488951 B CN 111488951B
Authority
CN
China
Prior art keywords
view
inter
model
rgb
countermeasure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010444044.9A
Other languages
English (en)
Other versions
CN111488951A (zh
Inventor
史颖欢
陈建蓉
高阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Original Assignee
Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd, Nanjing University filed Critical Jiangsu Wanwei Aisi Network Intelligent Industry Innovation Center Co ltd
Priority to CN202010444044.9A priority Critical patent/CN111488951B/zh
Publication of CN111488951A publication Critical patent/CN111488951A/zh
Application granted granted Critical
Publication of CN111488951B publication Critical patent/CN111488951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种用于RGB‑D图像分类的对抗度量学习模型生成方法,属于计算机应用领域。其中,该方法引入对抗学习的思想从多视图特征的视图内和视图间两个角度学习度量距离,1)对于每个单独的视图,该方法生成了难以与原始正样本区分的难区分负样本。对抗地学习原始样本和合成的难区分负样本的视图内度量距离,目的是更好地区分特定视图;2)为了整合多个视图以挖掘视图共享关系,该方法生成具有挑战性的公共子空间,对抗地学习视图间度量来区分这些生成的具有挑战性的样本;本发明的有益效果为:在RGB‑D目标识别数据集JHUIT‑50准确率达到了97.2%。同时在各种基准多视图数据集上进行的大量实验证明了本发明有效性,最终模型精度高,适用性强。

Description

一种用于RGB-D图像分类的对抗度量学习模型生成方法
技术领域
本发明涉及一种用于RGB-D图像分类的对抗度量学习模型生成方法,属于计算机应用领域。
背景技术
让机器人拥有和人类一样识别物体的能力一直是机器人视觉的主要目标之一。机器人需要理解和操作一组对象来完成一项任务。物体是场景理解、动作识别和交互预测的关键元素。物体识别是视觉场景描述等高级任务的基础。因此,在图像或视频中识别它们的过程是过去几十年的一个重要研究课题。
RGB-D摄像机的出现为机器人视觉方向的重大飞跃铺平了道路。RGB即是代表红、绿、蓝三种颜色,三通道的组合涵盖了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。D代表深度图(Depth)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道,类似于灰度图像。RGB-D数据集中通常RGB图像和深度图像是配准的,像素点之间具有一对一的对应关系。
尽管RGB-D数据提供了丰富的多视图信息来描述对象(物体),但是如何有效地表示每种视图并融合这两种视图仍然是一个悬而未决的问题。
同时,有研究表明对抗度量学习对于单视图数据的有效性,但如何实现多源数据的对抗性度量方法仍有有待研究。如何更好地利用视图内和视图间关系,多源度量学习在视图内和视图间的对抗性考虑仍然是一个未解决的问题。
发明内容
本发明针对RGB-D目标识别任务,提出了一种对抗度量学习方法,以解决现有技术存在的上述问题。该对抗度量学习方法包括如下步骤:
步骤(1)选取多视图数据集,并划分训练集和测试集,分别提取数据特征,可以训练深度网络自动提取特征。
步骤(2)基于数据集获取到的特征,构建特征三元组。
步骤(3)在深度学习框架Pytorch中,构建多视图对抗度量学习模型,其中包含基于特定视图的由视图内生成器和视图内判别器构成的视图内对抗单元和基于多个视图的由视图间生成器和视图间判别器构成的视图间对抗单元;
步骤(4)使用梯度下降的方法训练多视图对抗度量学习模型,待模型收敛后保存模型参数,学习得到视图内度量距离、视图间度量距离以及视图间转换矩阵,将原始多个视图特征级联为一个特征向量表示;
步骤(5)测试模型,利用合成的特征向量进行后续分类/聚类任务。
在进一步的实施例中,所述步骤(1)特征提取,针对RGB-D目标识别任务,本发明采用了深度学习的经典VGG模型提取分别提取RGB图像特征和深度图像特征,分别针对RGB和深度视图训练两个单独的VGG模型,对于每个VGG模型都会进行微调以获得最佳性能,模型最后一层全连接层的输出被视为两个不同视图的原始特征,两个视图的特征表示均为4096维。
在进一步的实施例中,所述步骤(2)构建特征三元组,三元组的被设置为10n,其中n是每个数据集中训练样本的数量。
在进一步的实施例中,所述步骤(3)在深度学习框架Pytorch中,构建多视图对抗度量学习模型,分别构造视图内对抗单元和视图间对抗单元,视图内对抗单元由视图内生成器和视图内判别器构成,目标是学习视图内度量距离LA和LB。视图间对抗单元由视图间生成器和视图间判别器构成,目标是学习视图间度量距离LAB以及转换矩阵TA和TB。其中A和B代表两个视图。
在进一步的实施例中,所述步骤(4)在深度学习框架Pytorch中,训练对抗度量学习模型。使用单位矩阵初始化转换矩阵Ta和Tb,使用大间隔最近邻居(LMNN)分类算法的输出初始化视图内度量距离LA,LB和视图间度量距离LAB。使用梯度下降的方法求解各项梯度,依次更新LA、LB、LAB、TA和TB直到收敛。待模型收敛后保存模型参数,学习得到视图内度量距离、视图间度量距离以及视图间转换矩阵,将原始多个视图特征级联为一个特征向量表示。
在进一步的实施例中,所述步骤(5)测试阶段特征向量的表示,利用步骤(4)学习到的度量距离LA、LB、LAB以及转换矩阵TA和TB合成的特征向量进行后续分类/聚类任务。对于第i个测试样本经过步骤(4)可以得到其视图内的表示/>和视图间的表示这三种表示形式将被串联合并为一个特征向量/>用于表示当前第i个测试样本。最终评价指标为RGB-D目标识别的准确率。
本发明的有益效果为:在RGB-D多视图数据集JHUIT-50准确率达到了97.2%,结果优于其他度量学习方法,同时在各种基准多视图数据集上进行的大量实验证明了本发明有效性。此外验证了本发明对单视图分类任务的较好的泛化能力。最终模型精度高,适用性强。
附图说明
图1本发明方法构建图。
图2本发明中由视图内生成器和视图内判别器构成的视图内对抗单元示意图。
图3本发明中由视图间生成器和视图间判别器构成的视图间对抗单元示意图。
图4本发明中多视图对抗度量学习模型示意图。
具体实施方式:
为细致展示本发明的目的、特征和优点,下面将结合附图和具体的实施案例来对本发明做进一步详细说明。
尽管使用标准RGB图像进行目标识别就已经取得了很好的结果,但由于将三维环境投射到二维图像平面上而造成的数据丢失。只用标准RGB图像存在局限性,因为在实际应用中,物体的图像通常会出现较大的光照、视角、分辨率和遮挡等变化,使用标准RGB图像并不能完全解决真实场景中发生的形状变化、变形、遮挡和光照变化。
RGB图像包含颜色、纹理和外观信息,深度图像则包含了额外的几何信息和照明颜色变化等。深度信息为复杂问题的场景及目标分类提供有用的额外信息。深度信息对于照明,视点和分辨率的变化具有鲁棒性。研究表明,融合深度信息的RGB-D目标识别具有更好的分类准确率及稳健性。
如图1所示,本发明针对RGB-D目标识别任务,提出了一种基于对抗度量学习的方法。在模型训练阶段包括如下具体步骤:
步骤(1)选取RGB-D目标识别数据集,并划分训练集和测试集,分别针对RGB和深度视图预先训练两个单独的VGG模型。对于每个VGG模型都会进行微调以获得最佳性能。模型最后一层全连接层的输出被视为两个不同视图的原始特征。VGG模型最后一层全连接层的维度为4096维,两个视图的特征表示均为4096维。
步骤(2)利用特征样本,构建特征样本三元组。为了简化描述,将RGB-D数据中的RGB、深度两个视图定义视图A和视图B。在不同的视图中分别构造三元组对于在视图A构造的样本三元组/>均为视图A的随机选择的样本,其中第i个和第j个样本具有相同的标签(即yi=yj),均为正样本,而第k个样本的标签与二者均不同(即yk≠yj,yk≠yi),均为负样本。此约束同理也适用于视图B中的三元组
步骤(3)如图2、3所示,在深度学习框架Pytorch中,构建用于视图内对抗单元和视图间对抗单元。如图4所示,通过组合两个对抗单元,完成多视图对抗度量学习模型的构造。
步骤(4)如图4所示,基于训练数据集上预处理后的数据,训练对抗度量学习模型。使用单位矩阵初始化转换矩阵TA和TB,使用大间隔最近邻居(LMNN)分类算法的输出初始化视图内度量距离LA,LB和视图间度量距离LAB。使用梯度下降的方法求解各项梯度,依次更新LA、LB、LAB、TA和TB直到收敛。待模型收敛后保存模型参数。
步骤(5)如图4所示,在步骤(4)保存的模型中,可以得到其视图内的表示和视图间的表示/>这三种表示形式将特征级联为一个特征向量,即/>用于表示当前第i个测试样本,输入到后续的分类器,生成最终的测试结果,完成分类任务。
本发明包括如下若干部分:
1)深度网络特征提取模块。
2)用于单个视图数据的视图内对抗单元。
3)基于多个视图数据的视图间对抗单元。
4)多视图对抗度量学习模型。
1、深度网络特征提取模块:
特征提取系本发明的算法流程的第一步。特征提取的方法优劣不是本对抗度量学习方法的研究重点。以在RGB-D目标识别数据集JHUIT-50上的实践为例,鉴于深度网络在图像识别人物的出色表现,本方法选择使用经典模型VGG分别提取RGB特征和深度特征:
a)分别针对RGB和深度视图训练两个单独的VGG16模型。
b)使用另一个RGB-D对象数据集(RGB-D object Dataset)对VGG模型都会进行训练微调以获得最佳性能。用RGB图像数据训练RGB的VGG模型,用深度图像数据训练深度图像的VGG模型
c)训练好的两个VGG模型最后一个全连接层的输出被视为两个不同视图的原始特征。两个视图的特征表示均为4096维。
2、视图内对抗单元:
为了学习视图内度量,本发明从已有的特征三元组合成难区分负样本的方法来学习的视图内度量。以视图A为例,目标是学习视图内度量距离LA。视图内对抗单元如图2所示,构造生成器GA和判别器DA
生成器利用三元组生成难区分负样本/>参数为θA,θA由三层全连接的网络实现,即/>生成器GA的目标函数/>可表示为:
其中h[z]是hinge损失函数(max(0,z),λA是权重参数,f是马氏距离函数
判别器利用合成的难区分负样本(即),要学习视图内度量距离LA,判别器DA尝试拉近(即最小化距离)具有相同标签的样本,同时推开(即最大化距离)具有不同标签的样本。判别器DA的目标函数/>可表示为:
通过GA和DA的对抗训练,获得能够区分难区分负样本的距离度量LA。联合对抗损失如下所示:
其中λ1是需要预定义的权重参数。
类似地,以相同的方式可获得视图B的度量距离LB
3、视图间对抗单元:
同一个物体的不同视图图像之前的信息存在关联,本发明基于共享视图,设计了视图间对抗单元,视图间对抗单元如图2所示,构造生成器GAB和判别器DAB
生成器GAB负责生成一个具有挑战性的公共子空间,在该子空间中,不同视图中的相应样本在通过各自的投影矩阵(即TA和TB)变换后应尽可能一致,具有不同标签的样本之间的距离不会明显大于具有相同标签的样本之间的距离。
判别器DAB则负责通过视图间度量LAB负责在公共子空间中分离不同类别的样本。视图间对抗学习过程之后,同时能获得投影矩阵TA、TB和在公共子空间中视图间度量距离LAB
生成器GAB利用视图A的三元组和视图B的三元组/>生成公共子空间,参数包括转换矩阵TA、TB,目标损失函数为:
其中是用来度量视图a和b之间分歧的矩阵,定义如下:
在生成的公共子空间上,判别器DAB负责试图区分不同的标签的样本。目标函数可以表示为:
其中xi公共子空间中第i个样本的在不同视图特征表示的均值,即 f是马氏距离函数。
通过迭代的方式来训练投影矩阵TA和TB以及视图间距离度LAB,联合对抗损失可以表示为:
其中λ2是需要预定义的权重参数。
4、多视图对抗度量学习模型:
本发明设计了多视图对抗度量学习模型,有效地提高模型在多视图数据的学习能力。如图4所示,原始的图像经过深度网络特征提取模块得到的特征,会分别输入给视图内对抗单元和视图间对抗单元,使用梯度下降的方法求解各项梯度,依次更新LA、LB、LAB、TA和TB直到收敛。待模型收敛后保存模型参数。
最终输入模型的第i个样本,可以得到其视图内的表示和视图间的表示这三种表示形式将特征级联为一个特征向量/> 输入到后续的分类器,生成最终的测试结果,完成分类任务。

Claims (5)

1.一种用于RGB-D图像分类的对抗度量学习模型生成方法,其特征在于,包括如下步骤:
步骤(1)选取RGB-D图像多视图数据集,并划分训练集和测试集,分别提取数据特征,可以训练深度网络自动提取特征;
步骤(2)基于数据集获取到的特征,构建特征三元组;
步骤(3)在深度学习框架Pytorch中,构建多视图对抗度量学习模型,其中包含基于特定视图的由视图内生成器和视图内判别器构成的视图内对抗单元,视图内生成器GA利用特定视图的三元组成难区分负样本,视图内判别器DA利用生成的难区分负样本获得视图内的度量距离,视图内对抗单元的目标是学习视图内度量距离LA和LB,和基于多个视图的由视图间生成器和视图间判别器构成的视图间对抗单元,视图间生成器GAB利用视图A的三元组和视图B的三元组生成公共子空间,视图间判别器DAB负责在公共子空间中区分不同的标签的样本,视图间对抗单元的目标是学习视图间度量距离LAB以及转换矩阵TA和TB,其中A和B代表两个视图;
步骤(4)使用梯度下降的方法训练多视图对抗度量学习模型,待模型收敛后保存模型参数,学习得到视图内度量距离、视图间度量距离以及视图间转换矩阵,将原始多个视图特征级联为一个特征向量表示;
步骤(5)测试模型,利用合成的特征向量进行后续分类/聚类任务。
2.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法,其特征在于,所述步骤(1)特征提取,采用了深度学习的经典VGG模型分别提取RGB图像特征和深度图像特征,分别针对RGB和深度视图训练两个单独的VGG模型,对于每个VGG模型都会进行微调以获得最佳性能,模型最后一层全连接层的输出被视为两个不同视图的原始特征,两个视图的特征表示均为4096维。
3.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法,其特征在于,所述步骤(2)构建特征三元组,三元组的被设置为10n,其中n是每个数据集中训练样本的数量。
4.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法,其特征在于,所述步骤(4)训练模型,使用单位矩阵或大间隔最近邻居分类算法的输出对转换矩阵和度量距离进行初始化,使用梯度下降的方法求解各项梯度,依次更新LA、LB、LAB、TA和TB直到收敛。
5.根据权利要求1所述的一种用于RGB-D图像分类的对抗度量学习模型生成方法,其特征在于,所述步骤(5)测试模型阶段,利用步骤(4)学习到的度量距离LA、LB、LAB以及转换矩阵TA和TB合成的特征向量进行后续分类/聚类任务,对于第i个测试样本可以得到其视图内的表示/>和视图间的表示/>这三种表示形式将被合并为一个特征向量,即/>用于表示当前第i个测试样本。
CN202010444044.9A 2020-05-22 2020-05-22 一种用于rgb-d图像分类的对抗度量学习模型生成方法 Active CN111488951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010444044.9A CN111488951B (zh) 2020-05-22 2020-05-22 一种用于rgb-d图像分类的对抗度量学习模型生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010444044.9A CN111488951B (zh) 2020-05-22 2020-05-22 一种用于rgb-d图像分类的对抗度量学习模型生成方法

Publications (2)

Publication Number Publication Date
CN111488951A CN111488951A (zh) 2020-08-04
CN111488951B true CN111488951B (zh) 2023-11-28

Family

ID=71796638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010444044.9A Active CN111488951B (zh) 2020-05-22 2020-05-22 一种用于rgb-d图像分类的对抗度量学习模型生成方法

Country Status (1)

Country Link
CN (1) CN111488951B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858991A (zh) * 2020-08-06 2020-10-30 南京大学 一种基于协方差度量的小样本学习算法
CN112308113A (zh) * 2020-09-23 2021-02-02 济南浪潮高新科技投资发展有限公司 一种基于半监督的目标识别方法、设备及介质
CN115205632B (zh) * 2022-07-07 2023-07-18 山西大学 黎曼空间下的半监督多视图度量学习方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169505A (zh) * 2017-04-01 2017-09-15 南京邮电大学 一种基于核统计不相关的多视图的图像分类方法
CN108108769A (zh) * 2017-12-29 2018-06-01 咪咕文化科技有限公司 一种数据的分类方法、装置及存储介质
CN108304864A (zh) * 2018-01-17 2018-07-20 清华大学 深度对抗度量学习方法及装置
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169505A (zh) * 2017-04-01 2017-09-15 南京邮电大学 一种基于核统计不相关的多视图的图像分类方法
CN108108769A (zh) * 2017-12-29 2018-06-01 咪咕文化科技有限公司 一种数据的分类方法、装置及存储介质
CN108304864A (zh) * 2018-01-17 2018-07-20 清华大学 深度对抗度量学习方法及装置
CN110413924A (zh) * 2019-07-18 2019-11-05 广东石油化工学院 一种半监督多视图学习的网页分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
池虹雨.《基于多视图特征融合的三维物体识别与检索》.《中国优秀硕士学位论文全文数据库信息科技辑》.2020,(第1期),I138-2051. *

Also Published As

Publication number Publication date
CN111488951A (zh) 2020-08-04

Similar Documents

Publication Publication Date Title
CN108520535B (zh) 基于深度恢复信息的物体分类方法
Chen et al. Fsrnet: End-to-end learning face super-resolution with facial priors
CN108537743B (zh) 一种基于生成对抗网络的面部图像增强方法
CN107766850B (zh) 基于结合人脸属性信息的人脸识别方法
CN111488951B (zh) 一种用于rgb-d图像分类的对抗度量学习模型生成方法
CN108038420B (zh) 一种基于深度视频的人体行为识别方法
Tang et al. Geometric correspondence network for camera motion estimation
CN111368943B (zh) 图像中对象的识别方法和装置、存储介质及电子装置
CN108509920B (zh) 基于CNN的多patch多通道联合特征选择学习的人脸识别方法
CN105138998B (zh) 基于视角自适应子空间学习算法的行人重识别方法及系统
CN107203745B (zh) 一种基于跨域学习的跨视角动作识别方法
WO2023024658A1 (zh) 一种基于深度视频联动特征的行为识别方法
CN111881716A (zh) 一种基于多视角生成对抗网络的行人重识别方法
CN117095128A (zh) 一种无先验多视角人体服饰编辑方法
Tang et al. Research on 3D human pose estimation using RGBD camera
CN114882537A (zh) 一种基于神经辐射场的手指新视角图像生成方法
CN114743162A (zh) 一种基于生成对抗网络的跨模态行人重识别方法
Li et al. Few-shot hyperspectral image classification with self-supervised learning
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN108876803A (zh) 一种基于谱聚类社团划分的彩色图像分割方法
Ocegueda-Hernandez et al. A lightweight convolutional neural network for pose estimation of a planar model
CN106228163B (zh) 一种基于特征选择的局部差三进制序列图像特征描述方法
CN113591797B (zh) 一种深度视频行为识别方法
CN105447468B (zh) 彩色图像过完整分块特征抽取方法
CN111178163B (zh) 基于立方体投影格式的立体全景图像显著区域预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant