CN112784782B

CN112784782B - 一种基于多视角双注意网络的三维物体识别方法

Info

Publication number: CN112784782B
Application number: CN202110120015.1A
Authority: CN
Inventors: 蔡宇; 王文举; 王涛
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-04-07
Anticipated expiration: 2041-01-28
Also published as: CN112784782A

Abstract

本发明提供了一种基于多视角双注意网络的三维物体识别方法，包括以下步骤：步骤1，将原始三维物体从n个视角投影到二维平面渲染得到n个视图，将n个视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征；步骤2，将n个视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符；步骤3，将n个视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符；步骤4，将视觉空间描述符和视觉通道描述符进行联合得到三维形状描述符，将该三维形状描述符输入到全连接网络中完成物体识别，得到原始三维物体的预测识别分类结果。

Description

一种基于多视角双注意网络的三维物体识别方法

技术领域

本发明涉及一种三维物体识别方法，具体涉及一种基于多视角双注意网络的三维物体识别方法。

背景技术

近几年来随着三维成像传感器和三维重建技术的发展，人们可以从生活中便捷地捕获大量的三维物体结构信息。三维对象的识别已经成为计算机视觉和人工智能领域中最基本的问题之一。随着大规模三维数据库和深度学习的快速发展，已经提出了各种方法用于三维物体识别。三维物体识别研究根据方法不同主要分为二大类：早期的传统方法和近期深度学习的方法。早期三维物体识别一般采用人工设计的三维数据描述特征和机器学习的方法分类识别。近期基于深度学习的三维物体识别可分为：基于体素的方法，基于点云的方法和基于多视图的方法。

基于体素的代表方法是是美国卡内基梅隆大学Maturana等人提出的VoxNet，引入了一个称为VoxNet的体积占用网络来实现鲁棒性的三维目标识别。基于体素的方法体素形式的数据精度依赖于其分辨率，高分辨率所带来的庞大计算量限制了其发展。

基于点云的方法代表作是是美国斯坦福大学Charles Qi等人提出的PointNet和PointNet++。对于三维物体识别问题，这种直接使用无序点云进行卷积神经网络处理的方法一直是三维对象分类和分割的追求。但是它突出的问题是缺乏足够的高质量训练数据。尽管有许多相关数据集，这些仍然不能与像ImageNet这样的二维图像数据集的大小相比。另一个关键挑战是点云数据的无序性和非均匀性，这些特性意味着直接应用空间卷积非常具有挑战性。

基于视图的方法从多个角度渲染，得到三维对象不同角度拍摄的视图。其代表方法美国马萨诸塞大学阿默斯特Su等人提出MVCNN。此类基于多视角的三维物体识别能够运用海量的数据集如ImageNet 进行预训练，直接在二维卷积神经网络上应用渲染后的二维视角图像，实现93％以上的正确类别级别识别性能。但相比与传统二维图像分类，基于多视图的三维物体识别分类精度还有较大提升空间，有待于进一步深入研究。

发明内容

本发明是为了解决上述问题而进行的，目的在于提供一种基于多视角双注意网络的三维物体识别方法。

本发明提供了一种基于多视角双注意网络的三维物体识别方法，具有这样的特征，包括以下步骤：步骤1，将原始三维物体从n个视角投影到二维平面渲染得到n个视图，将n个视图分别经过基础CNN 模型进行特征提取对应得到n个视觉特征；步骤2，将n个视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符；步骤3，将n个视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符；步骤4，将视觉空间描述符和视觉通道描述符进行联合得到三维形状描述符，将该三维形状描述符输入到全连接网络中完成物体识别，得到原始三维物体的预测识别分类结果。

在本发明提供的基于多视角双注意网络的三维物体识别方法中，还可以具有这样的特征：其中，步骤1包括以下子步骤：

步骤1-1，对于原始三维物体M，将其从n个视角投影到二维平面渲染成n个视图，X→(x₁，x₂，…，x_i，…，x_n)，其中，x_i为第i个视图；步骤1-2，n个视图经过基础CNN模型后得到n个不同视角下的视觉特征(f₁，f₂，…，f_i，…，f_n)，其中，f_i为第i个视图的视觉特征，f_i∈R^C ^×H×W。

在本发明提供的基于多视角双注意网络的三维物体识别方法中，还可以具有这样的特征：其中，步骤2中包括以下子步骤：

步骤2-1，将输入的视觉特征用第一总体特征

进行表示，将第一总体特征馈入两个卷积层，分别生成两个新的特征映射Query和Key，如公式(1)、(2)，

Query＝Z(f_s) (1)

Key＝T(Z(f_s)) (2)

公式(1)和公式(2)中，Z是卷积核大小为1*1的卷积层，T 为转置操作，

将其reshape为

其中N＝H₁×W₁为第一总体特征f_s的空间大小，

在Query的转置和Key之间进行矩阵乘法，并应用一层softmax 层来计算得到空间注意力矩阵S∈R^N×N，softmax函数用于保证视图特征的权重总和为1，如公式(3)，

公式(3)中，S_ij为视图空间注意力模块得到的空间注意力矩阵，用于度量视图内i^th位置对j^th位置的相关性，权重越大越相似；

步骤2-2，将第一总体特征f_s馈入另一分支，此分支为原始特征空间分支，该分支的特征与输入的视图特征具有相同的分辨率来保存原始特征信息，将第一总体特征f_s经过卷积处理生成一个新的特征映射Value∈R^C1×H1×W1，并将Value进行reshape为∈R^C×N，然后将其与空间注意力矩阵S进行矩阵乘法，再与第一总体特征f_s进行元素求和运算来保证经过视图空间注意力模块之后的特征所学习的信息丰富度不低于原始输入的视觉特征的信息丰富度，得到空间特征P，如公式(4)，

公式(4)中，θ为尺度参数，该尺度参数θ自适应控制得到的空间注意力特征，初始化为0，并逐渐地学习分配到更大的权重；

步骤2-3，进行最大池化操作来聚集视图特征，将空间特征P汇集到一个全局描述符中得到空间形状描述符Vs，如公式(5)，

V_S＝MAP(P) (5)

公式(5)中，MAX为最大池化操作。

在本发明提供的基于多视角双注意网络的三维物体识别方法中，还可以具有这样的特征：其中，步骤3包括以下子步骤：

步骤3-1，将输入的n个视角下的视觉特征用第二总体特征f_c进行表示，

令C₂＝n，将第二总体特征f_c转化为n×H₂×W₂大小，再将空间大小为H₂×W₂大小的第二总体特征f_c通过全局空间信息收缩得到一个R∈Rⁿ的通道向量，如公式(6)，

该通道向量R的大小为n×1×1，即具有n个视图通道，每个视图通道的信息均用该视图通道的全局平均池化值进行表示；

步骤3-2，对通道向量采用两层全连接层和一层ReLu层的视图选取机制并应用sigmoid函数激活，计算得到的通道注意力向量S_c，如公式(7)，

S_c＝σ(W₂δ(W₁R)) (7)

两层全连接层分别为一个衰减比为r的降维层和一个升维层，其中r＝n，即将视图通道的数量归一化，公式(7)中，W₁和W₂分别为降维层和升维层的参数，

和

δ为ReLu层的激活函数，σ为sigmoid函数，用于将输出映射为(0，1)区间得到通道注意力向量S_c；

步骤3-3，将大小为n×1×1的视图注意力权重向量S_c与n个视角的第二总体特征f_c进行element-wise的点乘操作得到

如公式 (8)，

公式(8)中，“·”为Hadamard Product，

再将

加上第二总体特征f_c得到经视图通道变换后的视图特征

保证经过视图通道注意力模块之后的特征所学习的视图信息丰富度不低于原始输入的视觉特征的信息丰富度，如公式(9)，

步骤3-4，对视图特征

进行Conv操作将其组合汇集到一个全局描述符中得到通道形状描述符V_c，如公式(10)，

公式(10)中，Conv为一层卷积核大小为1×n的卷积层，使用 1×n卷积核相当于n视角的视角窗口，经过视角窗口的滑动融合n 个视角的视图特征得到通道形状描述符V_c。

发明的作用与效果

根据本发明所涉及的一种基于多视角双注意网络的三维物体识别方法，因为通过视图空间注意力模块对多个视图的视觉特征进行处理并生成视图空间描述符，能够更加关注于视图内更具有类别判别特征的细节部分内容；因为通过视图通道注意力模块对多个视图的视觉特征进行处理并生成视图通道描述符，通过寻找目标视角间的关联性，能够更加关注于所有视角中的具有关键特征的视角；再通过整合视觉空间描述符和视觉通道描述符共同生成三维形状描述符将对三维物体模型具有可判别能力的特征响应更强烈，因此本发明能够用于高精度三维模型分类物体识别。

附图说明

图1是本发明的实施例中的一种基于多视角双注意网络的三维物体识别方法的流程示意图；

图2是本发明的实施例中的多视角双注意网络的结构示意图；

图3是本发明的实施例中视图空间注意力模块的流程示意图；

图4是本发明的实施例中壁炉与钢琴在不同视角下的细节比较图；

图5是本发明的实施例中视图通道注意力模块的流程示意图；

图6是本发明的实施例中壁炉与杯子在不同视角下的细节比较图；

图7是本发明的实施例中对三维物体设置不同视角数量的示意图。

具体实施方式

为了使本发明实现的技术手段与功效易于明白了解，以下结合实施例及附图对本发明作具体阐述。

<实施例>

图1是本发明的实施例中的一种基于多视角双注意网络的三维物体识别方法的流程示意图；图2是本发明的实施例中的多视角双注意网络的结构示意图。

如图1和图2所示，本实施例的一种基于多视角双注意网络的三维物体识别方法，包括以下步骤：

步骤1，将原始三维物体从n个视角投影到二维平面渲染得到n 个视图，将n个视图分别经过基础CNN模型进行特征提取对应得到 n个视觉特征。

步骤1包括以下子步骤：

步骤2，将n个视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符。

图3是本发明的实施例中视图空间注意力模块的流程示意图。

如图3所示，步骤2中包括以下子步骤：

步骤2-1，将输入的视觉特征用第一总体特征

Query＝Z(f_s) (1)

Key＝T(Z(f_s)) (2)

将其reshape为

其中N＝H₁×W₁为第一总体特征f_s的空间大小，

公式(3)中，S_ij为视图空间注意力模块得到的空间注意力矩阵，用于度量视图内i^th位置对j^th位置的相关性，权重越大越相似。

公式(4)中，θ为尺度参数，该尺度参数θ自适应控制得到的空间注意力特征，初始化为0，并逐渐地学习分配到更大的权重。

通过该步骤2-2能够为原始特征空间分支Value中的每个位置分配不同的重要性，从而关注每个视图中的显著特征。视图内每个区域的空间特征P可以通过视图空间注意力模块自适应地学习周围的信息上下文，并通过空间注意力矩阵S编码更准确的区分区域，在一定程度上避免了来自无关区域的一些无关信息。

V_S＝MAX(P) (5)

公式(5)中，MAX为最大池化操作。

本实施例中，通过壁炉与钢琴在三个视角下的不同视图进行细节比较来对视图空间注意力模块的作用进行阐述，图4是本发明的实施例中壁炉与钢琴在不同视角下的细节比较图。

如图4所示，图中展示了原始三维物体渲染后数据集中类別壁炉和类别钢琴中任意三个不同视角(视角一、视角二、视角三)的样例，使用视图空间注意力模块的目的在于，让每一个类别都有一些细节被重点关注。例如对于类別壁炉，视角一中没有显示出壁炉类别的关键特征，与类别钢琴很难区分。而在视角二、视角三中，壁炉隔板和钢琴的琴键就成了分辨两个样例的类别的关键特征。因此，通过视图空间注意力模块，能够让视图内更具有判别能力的细节部分(壁炉隔板、钢琴琴键)的响应更强烈。

图5是本发明的实施例中视图通道注意力模块的流程示意图。

如图5所示，步骤3，将n个视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符。

步骤3包括以下子步骤：

该通道向量R的大小为n×1×1，即具有n个视图通道，每个视图通道的信息均用该视图通道的全局平均池化值GAP进行表示。

S_c＝σ(W₂δ(W₁R)) (7)

和

δ为ReLu层的激活函数，σ为sigmoid函数，用于将输出映射为(0，1)区间得到通道注意力向量S_c。

通过步骤3-2来完全捕获视图通道间关系，且满足了两个功能标准：首先，能够衡量各个视图的重要程度。特别是，能够学习视图之间的相互作用。其次，能够估计每个视角的内容区分度，改变了传统多视角的视角贡献一致性，强调多个有利视图信息，抑制无关视图信息，使所有视图可以根据它们的注意力分配权重让每个视角对三维物体的特征都有不同程度的贡献。

如公式 (8)，

公式(8)中，“·”为Hadamard Product，

再将

加上第二总体特征f_c得到经视图通道变换后的视图特征

步骤3-4，对视图特征

本实施例中，通过壁炉与杯子在三个视角下的不同视图进行细节比较来对视图通道注意力模块的作用进行阐述，图6是本发明的实施例中壁炉与杯子在不同视角下的细节比较图。

如图6所示，图中展示了原始三维物体渲染后数据集类別杯子和类别钢琴任意三个不同视角(视角一、视角二、视角三)的样例。使用视图通道注意力模块的目的在于，寻找目标视角间的关联性，让所有视角中的具有区分性的视角被重点关注的。例如，在视角一中两个样例忽略了杯子把手和琴凳两个关键特征，但是在第二视角和第三视角显示出这两个关键特征，通过视图通道注意力模块强调重要视角而抑制不重要视角，让这些更具有判别能力的视角(视角二、视角三) 的响应更强烈。因此，由于不同视角下的特征存在一些差异，这些差异做出的贡献程度也不一致，将影响识别精度，所以通过视图通道注意力模块学习视图的相对重要性可以更好地表示三维形状描述符，从而提高分类性能。

步骤4，将视觉空间描述符和视觉通道描述符进行联合得到三维形状描述符，将该三维形状描述符输入到全连接网络中完成物体识别，得到原始三维物体的预测识别分类结果。

本实施例中，采用ResNet网络作为基础CNN模型，移除原始 ResNet最后一层全连接层，并连接视图空间注意力模块与视图通道注意力模块，两个模块并行作用得到相应的视图空间描述符和视图通道描述符，将两个描述符联合得到最终的三维形状描述符。该三维形状描述符最终通过全连接层后得到三维物体的预测识别分类结果。

本实施例中，还对本发明的基于多视角双注意网络的三维物体识别方法进行对比实验来评估分类识别效果。对于三维形状分类识别，被学术界认可最多的数据集是Princeton ModelNet系列数据集，因此选择在Princeton ModelNet数据集上进行分类识别实验来评估分类识别效果。该数据集包含来自40个类别的12311个3D CAD模型，其中有9843个训练模型和2468个测试模型。由于不同类别之间的样本数量并不相等，本次实验精度指标为每个样本的总体精度(OA)和每个类别的平均精度(AA)，其中总体精度(OA)计算所有样本中正确预测的百分比，而平均精度(AA)是每个类别精度的平均值。

在实验过程中，为了产生3D形状的多视角渲染图，使用Phong 反射模型对3D模型在透视投影下渲染，像素颜色通过插值多边形顶点的反射强度来确定。假定输入的3D形状按照一个恒定的轴(Z-轴) 竖直的摆放，通过在3D模型周围每隔30度放置12个指向质心的虚拟摄影机来渲染三维模型。如图7所示，为了进行对比，还设置3视角(每隔120度)和6视角(每隔60度)进行实验。

在实验中，使用在ImageNet数据集上预先训练的ResNet作为本发明的基础CNN模型。训练时共有两个阶段，第一阶段仅对单个视图进行分类，用于微调模型。第二阶段对每个三维模型的所有视角的图像进行训练，用于训练整个分类框架。在测试时，仅使用第二阶段进行预测。实验室环境为Nvidia GTX 1080Ti，初始学习率设置为 0.0001、两个阶段均使用的Adam优化器，并使用学习率衰减和L2 正则化权重衰减来减少模型过拟合。

与本发明方法进行对比实验的方法包括：使用手工描述符的方法 SPH和LFD；基于体素的方法包括ShapeNets、VoxNet和Pointgrid；基于点的方法包括PointNet，PointNet++，Mo-Net和3D Capsule；基于视图的同类方法包括MVCNN，MVCNN-MultiRes，RelationNetwork,RCPCNN,GVCNN和MHBN。识别结果如表1所示，

表1不同三维物体识别方法的识别精度对比结果

如表1所示，本发明在12个视角下，三维物体分类识别的总体精度OA为96.6，平均精度AA为95.5，均高于其余三维物体识别方法，因此，本发明在三维形状分类精度上具有先进性能，能够用于三维物体高精度识别。

实施例的作用与效果

根据本实施例所涉及的一种基于多视角双注意网络的三维物体识别方法，因为通过视图空间注意力模块对多个视图的视觉特征进行处理并生成视图空间描述符，能够更加关注于视图内更具有类别判别特征的细节部分内容，因为通过视图通道注意力模块对多个视图的视觉特征进行处理并生成视图通道描述符，通过寻找目标视角间的关联性，能够更加关注于所有视角中的具有关键特征的视角。再通过整合视觉空间描述符和视觉通道描述符共同生成三维形状描述符将对三维物体模型具有可判别能力的特征响应更强烈，因此本实施例能够用于高精度三维模型分类物体识别。

上述实施方式为本发明的优选案例，并不用来限制本发明的保护范围。

Claims

1.一种基于多视角双注意网络的三维物体识别方法，其特征在于，包括以下步骤：

步骤1，将原始三维物体从n个视角投影到二维平面渲染得到n个视图，将n个所述视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征；

步骤2，将n个所述视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符；

步骤3，将n个所述视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符；

步骤4，将所述视觉空间描述符和所述视觉通道描述符进行联合得到三维形状描述符，将该三维形状描述符输入到全连接网络中完成物体识别，得到所述原始三维物体的预测识别分类结果，

其中，采用ResNet网络作为所述基础CNN模型，移除原始ResNet最后一层全连接层，并连接视图空间注意力模块与视图通道注意力模块，

其中，所述步骤2中包括以下子步骤：

步骤2-1，将输入的所述视觉特征用第一总体特征

进行表示，将所述第一总体特征馈入两个卷积层，分别生成两个新的特征映射Query和Key，如公式(1)、(2)，

Query＝Z(f_s) (1)

Key＝T(Z(f_s)) (2)

公式(1)和公式(2)中，Z是卷积核大小为1*1的卷积层，T为转置操作，

将其reshape为

其中N＝H₁×W₁为所述第一总体特征f_s的空间大小，

在Query的转置和Key之间进行矩阵乘法，并应用一层softmax层来计算得到空间注意力矩阵S∈R^N×N，softmax函数用于保证所述视图特征的权重总和为1，如公式(3)，

公式(3)中，S_ij为所述视图空间注意力模块得到的所述空间注意力矩阵，用于度量所述视图内i^th位置对j^th位置的相关性，权重越大越相似；

步骤2-2，将所述第一总体特征f_s馈入另一分支，此分支为原始特征空间分支，该分支的特征与输入的所述视图特征具有相同的分辨率来保存原始特征信息，将所述第一总体特征f_s经过卷积处理生成一个新的特征映射Value∈R^C1×H1×W1，并将Value进行reshape为∈R^C×N，然后将其与所述空间注意力矩阵S进行矩阵乘法，再与所述第一总体特征f_s进行元素求和运算来保证经过所述视图空间注意力模块之后的特征所学习的信息丰富度不低于原始输入的所述视觉特征的信息丰富度，得到空间特征P，如公式(4)，