CN112784782B - 一种基于多视角双注意网络的三维物体识别方法 - Google Patents

一种基于多视角双注意网络的三维物体识别方法 Download PDF

Info

Publication number
CN112784782B
CN112784782B CN202110120015.1A CN202110120015A CN112784782B CN 112784782 B CN112784782 B CN 112784782B CN 202110120015 A CN202110120015 A CN 202110120015A CN 112784782 B CN112784782 B CN 112784782B
Authority
CN
China
Prior art keywords
view
visual
channel
features
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110120015.1A
Other languages
English (en)
Other versions
CN112784782A (zh
Inventor
蔡宇
王文举
王涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110120015.1A priority Critical patent/CN112784782B/zh
Publication of CN112784782A publication Critical patent/CN112784782A/zh
Application granted granted Critical
Publication of CN112784782B publication Critical patent/CN112784782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于多视角双注意网络的三维物体识别方法,包括以下步骤:步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n个视图,将n个视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征;步骤2,将n个视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符;步骤3,将n个视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符;步骤4,将视觉空间描述符和视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到原始三维物体的预测识别分类结果。

Description

一种基于多视角双注意网络的三维物体识别方法
技术领域
本发明涉及一种三维物体识别方法,具体涉及一种基于多视角双注意网络的三维物体识别方法。
背景技术
近几年来随着三维成像传感器和三维重建技术的发展,人们可以从生活中便捷地捕获大量的三维物体结构信息。三维对象的识别已经成为计算机视觉和人工智能领域中最基本的问题之一。随着大规模三维数据库和深度学习的快速发展,已经提出了各种方法用于三维物体识别。三维物体识别研究根据方法不同主要分为二大类:早期的传统方法和近期深度学习的方法。早期三维物体识别一般采用人工设计的三维数据描述特征和机器学习的方法分类识别。近期基于深度学习的三维物体识别可分为:基于体素的方法,基于点云的方法和基于多视图的方法。
基于体素的代表方法是是美国卡内基梅隆大学Maturana等人提出的VoxNet,引入了一个称为VoxNet的体积占用网络来实现鲁棒性的三维目标识别。基于体素的方法体素形式的数据精度依赖于其分辨率,高分辨率所带来的庞大计算量限制了其发展。
基于点云的方法代表作是是美国斯坦福大学Charles Qi等人提出的PointNet和PointNet++。对于三维物体识别问题,这种直接使用无序点云进行卷积神经网络处理的方法一直是三维对象分类和分割的追求。但是它突出的问题是缺乏足够的高质量训练数据。尽管有许多相关数据集,这些仍然不能与像ImageNet这样的二维图像数据集的大小相比。另一个关键挑战是点云数据的无序性和非均匀性,这些特性意味着直接应用空间卷积非常具有挑战性。
基于视图的方法从多个角度渲染,得到三维对象不同角度拍摄的视图。其代表方法美国马萨诸塞大学阿默斯特Su等人提出MVCNN。此类基于多视角的三维物体识别能够运用海量的数据集如ImageNet 进行预训练,直接在二维卷积神经网络上应用渲染后的二维视角图像,实现93%以上的正确类别级别识别性能。但相比与传统二维图像分类,基于多视图的三维物体识别分类精度还有较大提升空间,有待于进一步深入研究。
发明内容
本发明是为了解决上述问题而进行的,目的在于提供一种基于多视角双注意网络的三维物体识别方法。
本发明提供了一种基于多视角双注意网络的三维物体识别方法,具有这样的特征,包括以下步骤:步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n个视图,将n个视图分别经过基础CNN 模型进行特征提取对应得到n个视觉特征;步骤2,将n个视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符;步骤3,将n个视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符;步骤4,将视觉空间描述符和视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到原始三维物体的预测识别分类结果。
在本发明提供的基于多视角双注意网络的三维物体识别方法中,还可以具有这样的特征:其中,步骤1包括以下子步骤:
步骤1-1,对于原始三维物体M,将其从n个视角投影到二维平面渲染成n个视图,X→(x1,x2,…,xi,…,xn),其中,xi为第i个视图;步骤1-2,n个视图经过基础CNN模型后得到n个不同视角下的视觉特征(f1,f2,…,fi,…,fn),其中,fi为第i个视图的视觉特征,fi∈RC ×H×W
在本发明提供的基于多视角双注意网络的三维物体识别方法中,还可以具有这样的特征:其中,步骤2中包括以下子步骤:
步骤2-1,将输入的视觉特征用第一总体特征
Figure BDA0002922066020000031
进行表示,将第一总体特征馈入两个卷积层,分别生成两个新的特征映射Query和Key,如公式(1)、(2),
Query=Z(fs)        (1)
Key=T(Z(fs))      (2)
公式(1)和公式(2)中,Z是卷积核大小为1*1的卷积层,T 为转置操作,
Figure 1
将其reshape为
Figure BDA0002922066020000033
其中N=H1×W1为第一总体特征fs的空间大小,
在Query的转置和Key之间进行矩阵乘法,并应用一层softmax 层来计算得到空间注意力矩阵S∈RN×N,softmax函数用于保证视图特征的权重总和为1,如公式(3),
Figure BDA0002922066020000041
公式(3)中,Sij为视图空间注意力模块得到的空间注意力矩阵,用于度量视图内ith位置对jth位置的相关性,权重越大越相似;
步骤2-2,将第一总体特征fs馈入另一分支,此分支为原始特征空间分支,该分支的特征与输入的视图特征具有相同的分辨率来保存原始特征信息,将第一总体特征fs经过卷积处理生成一个新的特征映射Value∈RC1×H1×W1,并将Value进行reshape为∈RC×N,然后将其与空间注意力矩阵S进行矩阵乘法,再与第一总体特征fs进行元素求和运算来保证经过视图空间注意力模块之后的特征所学习的信息丰富度不低于原始输入的视觉特征的信息丰富度,得到空间特征P,如公式(4),
Figure BDA0002922066020000042
公式(4)中,θ为尺度参数,该尺度参数θ自适应控制得到的空间注意力特征,初始化为0,并逐渐地学习分配到更大的权重;
步骤2-3,进行最大池化操作来聚集视图特征,将空间特征P汇集到一个全局描述符中得到空间形状描述符Vs,如公式(5),
VS=MAP(P)       (5)
公式(5)中,MAX为最大池化操作。
在本发明提供的基于多视角双注意网络的三维物体识别方法中,还可以具有这样的特征:其中,步骤3包括以下子步骤:
步骤3-1,将输入的n个视角下的视觉特征用第二总体特征fc进行表示,
Figure BDA0002922066020000051
令C2=n,将第二总体特征fc转化为n×H2×W2大小,再将空间大小为H2×W2大小的第二总体特征fc通过全局空间信息收缩得到一个R∈Rn的通道向量,如公式(6),
Figure BDA0002922066020000052
该通道向量R的大小为n×1×1,即具有n个视图通道,每个视图通道的信息均用该视图通道的全局平均池化值进行表示;
步骤3-2,对通道向量采用两层全连接层和一层ReLu层的视图选取机制并应用sigmoid函数激活,计算得到的通道注意力向量Sc,如公式(7),
Sc=σ(W2δ(W1R))         (7)
两层全连接层分别为一个衰减比为r的降维层和一个升维层,其中r=n,即将视图通道的数量归一化,公式(7)中,W1和W2分别为降维层和升维层的参数,
Figure BDA0002922066020000053
Figure BDA0002922066020000054
δ为ReLu层的激活函数,σ为sigmoid函数,用于将输出映射为(0,1)区间得到通道注意力向量Sc
步骤3-3,将大小为n×1×1的视图注意力权重向量Sc与n个视角的第二总体特征fc进行element-wise的点乘操作得到
Figure BDA0002922066020000055
如公式 (8),
Figure BDA0002922066020000056
公式(8)中,“·”为Hadamard Product,
再将
Figure BDA0002922066020000057
加上第二总体特征fc得到经视图通道变换后的视图特征
Figure BDA0002922066020000061
保证经过视图通道注意力模块之后的特征所学习的视图信息丰富度不低于原始输入的视觉特征的信息丰富度,如公式(9),
Figure BDA0002922066020000062
步骤3-4,对视图特征
Figure BDA0002922066020000063
进行Conv操作将其组合汇集到一个全局描述符中得到通道形状描述符Vc,如公式(10),
Figure BDA0002922066020000064
公式(10)中,Conv为一层卷积核大小为1×n的卷积层,使用 1×n卷积核相当于n视角的视角窗口,经过视角窗口的滑动融合n 个视角的视图特征得到通道形状描述符Vc
发明的作用与效果
根据本发明所涉及的一种基于多视角双注意网络的三维物体识别方法,因为通过视图空间注意力模块对多个视图的视觉特征进行处理并生成视图空间描述符,能够更加关注于视图内更具有类别判别特征的细节部分内容;因为通过视图通道注意力模块对多个视图的视觉特征进行处理并生成视图通道描述符,通过寻找目标视角间的关联性,能够更加关注于所有视角中的具有关键特征的视角;再通过整合视觉空间描述符和视觉通道描述符共同生成三维形状描述符将对三维物体模型具有可判别能力的特征响应更强烈,因此本发明能够用于高精度三维模型分类物体识别。
附图说明
图1是本发明的实施例中的一种基于多视角双注意网络的三维物体识别方法的流程示意图;
图2是本发明的实施例中的多视角双注意网络的结构示意图;
图3是本发明的实施例中视图空间注意力模块的流程示意图;
图4是本发明的实施例中壁炉与钢琴在不同视角下的细节比较图;
图5是本发明的实施例中视图通道注意力模块的流程示意图;
图6是本发明的实施例中壁炉与杯子在不同视角下的细节比较图;
图7是本发明的实施例中对三维物体设置不同视角数量的示意图。
具体实施方式
为了使本发明实现的技术手段与功效易于明白了解,以下结合实施例及附图对本发明作具体阐述。
<实施例>
图1是本发明的实施例中的一种基于多视角双注意网络的三维物体识别方法的流程示意图;图2是本发明的实施例中的多视角双注意网络的结构示意图。
如图1和图2所示,本实施例的一种基于多视角双注意网络的三维物体识别方法,包括以下步骤:
步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n 个视图,将n个视图分别经过基础CNN模型进行特征提取对应得到 n个视觉特征。
步骤1包括以下子步骤:
步骤1-1,对于原始三维物体M,将其从n个视角投影到二维平面渲染成n个视图,X→(x1,x2,…,xi,…,xn),其中,xi为第i个视图;步骤1-2,n个视图经过基础CNN模型后得到n个不同视角下的视觉特征(f1,f2,…,fi,…,fn),其中,fi为第i个视图的视觉特征,fi∈RC ×H×W
步骤2,将n个视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符。
图3是本发明的实施例中视图空间注意力模块的流程示意图。
如图3所示,步骤2中包括以下子步骤:
步骤2-1,将输入的视觉特征用第一总体特征
Figure BDA0002922066020000081
进行表示,将第一总体特征馈入两个卷积层,分别生成两个新的特征映射Query和Key,如公式(1)、(2),
Query=Z(fs)         (1)
Key=T(Z(fs))      (2)
公式(1)和公式(2)中,Z是卷积核大小为1*1的卷积层,T 为转置操作,
Figure 2
将其reshape为
Figure BDA0002922066020000083
其中N=H1×W1为第一总体特征fs的空间大小,
在Query的转置和Key之间进行矩阵乘法,并应用一层softmax 层来计算得到空间注意力矩阵S∈RN×N,softmax函数用于保证视图特征的权重总和为1,如公式(3),
Figure BDA0002922066020000084
公式(3)中,Sij为视图空间注意力模块得到的空间注意力矩阵,用于度量视图内ith位置对jth位置的相关性,权重越大越相似。
步骤2-2,将第一总体特征fs馈入另一分支,此分支为原始特征空间分支,该分支的特征与输入的视图特征具有相同的分辨率来保存原始特征信息,将第一总体特征fs经过卷积处理生成一个新的特征映射Value∈RC1×H1×W1,并将Value进行reshape为∈RC×N,然后将其与空间注意力矩阵S进行矩阵乘法,再与第一总体特征fs进行元素求和运算来保证经过视图空间注意力模块之后的特征所学习的信息丰富度不低于原始输入的视觉特征的信息丰富度,得到空间特征P,如公式(4),
Figure BDA0002922066020000091
公式(4)中,θ为尺度参数,该尺度参数θ自适应控制得到的空间注意力特征,初始化为0,并逐渐地学习分配到更大的权重。
通过该步骤2-2能够为原始特征空间分支Value中的每个位置分配不同的重要性,从而关注每个视图中的显著特征。视图内每个区域的空间特征P可以通过视图空间注意力模块自适应地学习周围的信息上下文,并通过空间注意力矩阵S编码更准确的区分区域,在一定程度上避免了来自无关区域的一些无关信息。
步骤2-3,进行最大池化操作来聚集视图特征,将空间特征P汇集到一个全局描述符中得到空间形状描述符Vs,如公式(5),
VS=MAX(P)     (5)
公式(5)中,MAX为最大池化操作。
本实施例中,通过壁炉与钢琴在三个视角下的不同视图进行细节比较来对视图空间注意力模块的作用进行阐述,图4是本发明的实施例中壁炉与钢琴在不同视角下的细节比较图。
如图4所示,图中展示了原始三维物体渲染后数据集中类別壁炉和类别钢琴中任意三个不同视角(视角一、视角二、视角三)的样例,使用视图空间注意力模块的目的在于,让每一个类别都有一些细节被重点关注。例如对于类別壁炉,视角一中没有显示出壁炉类别的关键特征,与类别钢琴很难区分。而在视角二、视角三中,壁炉隔板和钢琴的琴键就成了分辨两个样例的类别的关键特征。因此,通过视图空间注意力模块,能够让视图内更具有判别能力的细节部分(壁炉隔板、钢琴琴键)的响应更强烈。
图5是本发明的实施例中视图通道注意力模块的流程示意图。
如图5所示,步骤3,将n个视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符。
步骤3包括以下子步骤:
步骤3-1,将输入的n个视角下的视觉特征用第二总体特征fc进行表示,
Figure BDA0002922066020000101
令C2=n,将第二总体特征fc转化为n×H2×W2大小,再将空间大小为H2×W2大小的第二总体特征fc通过全局空间信息收缩得到一个R∈Rn的通道向量,如公式(6),
Figure BDA0002922066020000102
该通道向量R的大小为n×1×1,即具有n个视图通道,每个视图通道的信息均用该视图通道的全局平均池化值GAP进行表示。
步骤3-2,对通道向量采用两层全连接层和一层ReLu层的视图选取机制并应用sigmoid函数激活,计算得到的通道注意力向量Sc,如公式(7),
Sc=σ(W2δ(W1R))       (7)
两层全连接层分别为一个衰减比为r的降维层和一个升维层,其中r=n,即将视图通道的数量归一化,公式(7)中,W1和W2分别为降维层和升维层的参数,
Figure BDA0002922066020000111
Figure BDA0002922066020000112
δ为ReLu层的激活函数,σ为sigmoid函数,用于将输出映射为(0,1)区间得到通道注意力向量Sc
通过步骤3-2来完全捕获视图通道间关系,且满足了两个功能标准:首先,能够衡量各个视图的重要程度。特别是,能够学习视图之间的相互作用。其次,能够估计每个视角的内容区分度,改变了传统多视角的视角贡献一致性,强调多个有利视图信息,抑制无关视图信息,使所有视图可以根据它们的注意力分配权重让每个视角对三维物体的特征都有不同程度的贡献。
步骤3-3,将大小为n×1×1的视图注意力权重向量Sc与n个视角的第二总体特征fc进行element-wise的点乘操作得到
Figure BDA0002922066020000113
如公式 (8),
Figure BDA0002922066020000114
公式(8)中,“·”为Hadamard Product,
再将
Figure BDA0002922066020000115
加上第二总体特征fc得到经视图通道变换后的视图特征
Figure BDA0002922066020000116
保证经过视图通道注意力模块之后的特征所学习的视图信息丰富度不低于原始输入的视觉特征的信息丰富度,如公式(9),
Figure BDA0002922066020000121
步骤3-4,对视图特征
Figure BDA0002922066020000122
进行Conv操作将其组合汇集到一个全局描述符中得到通道形状描述符Vc,如公式(10),
Figure BDA0002922066020000123
公式(10)中,Conv为一层卷积核大小为1×n的卷积层,使用 1×n卷积核相当于n视角的视角窗口,经过视角窗口的滑动融合n 个视角的视图特征得到通道形状描述符Vc
本实施例中,通过壁炉与杯子在三个视角下的不同视图进行细节比较来对视图通道注意力模块的作用进行阐述,图6是本发明的实施例中壁炉与杯子在不同视角下的细节比较图。
如图6所示,图中展示了原始三维物体渲染后数据集类別杯子和类别钢琴任意三个不同视角(视角一、视角二、视角三)的样例。使用视图通道注意力模块的目的在于,寻找目标视角间的关联性,让所有视角中的具有区分性的视角被重点关注的。例如,在视角一中两个样例忽略了杯子把手和琴凳两个关键特征,但是在第二视角和第三视角显示出这两个关键特征,通过视图通道注意力模块强调重要视角而抑制不重要视角,让这些更具有判别能力的视角(视角二、视角三) 的响应更强烈。因此,由于不同视角下的特征存在一些差异,这些差异做出的贡献程度也不一致,将影响识别精度,所以通过视图通道注意力模块学习视图的相对重要性可以更好地表示三维形状描述符,从而提高分类性能。
步骤4,将视觉空间描述符和视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到原始三维物体的预测识别分类结果。
本实施例中,采用ResNet网络作为基础CNN模型,移除原始 ResNet最后一层全连接层,并连接视图空间注意力模块与视图通道注意力模块,两个模块并行作用得到相应的视图空间描述符和视图通道描述符,将两个描述符联合得到最终的三维形状描述符。该三维形状描述符最终通过全连接层后得到三维物体的预测识别分类结果。
本实施例中,还对本发明的基于多视角双注意网络的三维物体识别方法进行对比实验来评估分类识别效果。对于三维形状分类识别,被学术界认可最多的数据集是Princeton ModelNet系列数据集,因此选择在Princeton ModelNet数据集上进行分类识别实验来评估分类识别效果。该数据集包含来自40个类别的12311个3D CAD模型,其中有9843个训练模型和2468个测试模型。由于不同类别之间的样本数量并不相等,本次实验精度指标为每个样本的总体精度(OA)和每个类别的平均精度(AA),其中总体精度(OA)计算所有样本中正确预测的百分比,而平均精度(AA)是每个类别精度的平均值。
在实验过程中,为了产生3D形状的多视角渲染图,使用Phong 反射模型对3D模型在透视投影下渲染,像素颜色通过插值多边形顶点的反射强度来确定。假定输入的3D形状按照一个恒定的轴(Z-轴) 竖直的摆放,通过在3D模型周围每隔30度放置12个指向质心的虚拟摄影机来渲染三维模型。如图7所示,为了进行对比,还设置3视角(每隔120度)和6视角(每隔60度)进行实验。
在实验中,使用在ImageNet数据集上预先训练的ResNet作为本发明的基础CNN模型。训练时共有两个阶段,第一阶段仅对单个视图进行分类,用于微调模型。第二阶段对每个三维模型的所有视角的图像进行训练,用于训练整个分类框架。在测试时,仅使用第二阶段进行预测。实验室环境为Nvidia GTX 1080Ti,初始学习率设置为 0.0001、两个阶段均使用的Adam优化器,并使用学习率衰减和L2 正则化权重衰减来减少模型过拟合。
与本发明方法进行对比实验的方法包括:使用手工描述符的方法 SPH和LFD;基于体素的方法包括ShapeNets、VoxNet和Pointgrid;基于点的方法包括PointNet,PointNet++,Mo-Net和3D Capsule;基于视图的同类方法包括MVCNN,MVCNN-MultiRes,RelationNetwork,RCPCNN,GVCNN和MHBN。识别结果如表1所示,
表1不同三维物体识别方法的识别精度对比结果
Figure BDA0002922066020000141
Figure BDA0002922066020000151
如表1所示,本发明在12个视角下,三维物体分类识别的总体精度OA为96.6,平均精度AA为95.5,均高于其余三维物体识别方法,因此,本发明在三维形状分类精度上具有先进性能,能够用于三维物体高精度识别。
实施例的作用与效果
根据本实施例所涉及的一种基于多视角双注意网络的三维物体识别方法,因为通过视图空间注意力模块对多个视图的视觉特征进行处理并生成视图空间描述符,能够更加关注于视图内更具有类别判别特征的细节部分内容,因为通过视图通道注意力模块对多个视图的视觉特征进行处理并生成视图通道描述符,通过寻找目标视角间的关联性,能够更加关注于所有视角中的具有关键特征的视角。再通过整合视觉空间描述符和视觉通道描述符共同生成三维形状描述符将对三维物体模型具有可判别能力的特征响应更强烈,因此本实施例能够用于高精度三维模型分类物体识别。
上述实施方式为本发明的优选案例,并不用来限制本发明的保护范围。

Claims (2)

1.一种基于多视角双注意网络的三维物体识别方法,其特征在于,包括以下步骤:
步骤1,将原始三维物体从n个视角投影到二维平面渲染得到n个视图,将n个所述视图分别经过基础CNN模型进行特征提取对应得到n个视觉特征;
步骤2,将n个所述视觉特征输入视图空间注意力模块进行处理后得到视觉空间描述符;
步骤3,将n个所述视觉特征输入视图通道注意力模块进行处理后得到视觉通道描述符;
步骤4,将所述视觉空间描述符和所述视觉通道描述符进行联合得到三维形状描述符,将该三维形状描述符输入到全连接网络中完成物体识别,得到所述原始三维物体的预测识别分类结果,
其中,采用ResNet网络作为所述基础CNN模型,移除原始ResNet最后一层全连接层,并连接视图空间注意力模块与视图通道注意力模块,
其中,所述步骤2中包括以下子步骤:
步骤2-1,将输入的所述视觉特征用第一总体特征
Figure FDA0004034497730000011
进行表示,将所述第一总体特征馈入两个卷积层,分别生成两个新的特征映射Query和Key,如公式(1)、(2),
Query=Z(fs) (1)
Key=T(Z(fs)) (2)
公式(1)和公式(2)中,Z是卷积核大小为1*1的卷积层,T为转置操作,
Figure FDA0004034497730000021
将其reshape为
Figure FDA0004034497730000024
其中N=H1×W1为所述第一总体特征fs的空间大小,
在Query的转置和Key之间进行矩阵乘法,并应用一层softmax层来计算得到空间注意力矩阵S∈RN×N,softmax函数用于保证所述视图特征的权重总和为1,如公式(3),
Figure FDA0004034497730000022
公式(3)中,Sij为所述视图空间注意力模块得到的所述空间注意力矩阵,用于度量所述视图内ith位置对jth位置的相关性,权重越大越相似;
步骤2-2,将所述第一总体特征fs馈入另一分支,此分支为原始特征空间分支,该分支的特征与输入的所述视图特征具有相同的分辨率来保存原始特征信息,将所述第一总体特征fs经过卷积处理生成一个新的特征映射Value∈RC1×H1×W1,并将Value进行reshape为∈RC×N,然后将其与所述空间注意力矩阵S进行矩阵乘法,再与所述第一总体特征fs进行元素求和运算来保证经过所述视图空间注意力模块之后的特征所学习的信息丰富度不低于原始输入的所述视觉特征的信息丰富度,得到空间特征P,如公式(4),
Figure FDA0004034497730000023
公式(4)中,θ为尺度参数,该尺度参数θ自适应控制得到的空间注意力特征,初始化为0,并逐渐地学习分配到更大的权重;
步骤2-3,进行最大池化操作来聚集视图特征,将所述空间特征P汇集到一个全局描述符中得到所述空间形状描述符Vs,如公式(5),
VS=MAX(P)      (5)
公式(5)中,MAX为最大池化操作;
其中,所述步骤3包括以下子步骤:
步骤3-1,将输入的n个所述视角下的所述视觉特征用第二总体特征fc进行表示,
Figure FDA0004034497730000031
令C2=n,将所述第二总体特征fc转化为n×H2×W2大小,再将空间大小为H2×W2大小的所述第二总体特征fc通过全局空间信息收缩得到一个R∈Rn的所述通道向量,如公式(6),
Figure FDA0004034497730000032
该通道向量R的大小为n×1×1,即具有n个视图通道,每个所述视图通道的信息均用该视图通道的全局平均池化值进行表示;
步骤3-2,对所述通道向量采用两层全连接层和一层ReLu层的视图选取机制并应用sigmoid函数激活,计算得到的通道注意力向量Sc,如公式(7),
Sc=σ(W2δ(W1R))          (7)
所述两层全连接层分别为一个衰减比为r的降维层和一个升维层,其中r=n,即将所述视图通道的数量归一化,公式(7)中,W1和W2分别为所述降维层和所述升维层的参数,
Figure FDA0004034497730000033
Figure FDA0004034497730000034
δ为ReLu层的激活函数,σ为sigmoid函数,用于将输出映射为(0,1)区间得到所述通道注意力向量Sc
步骤3-3,将大小为n×1×1的所述视图注意力权重向量Sc与n个所述视角的所述第二总体特征fc进行element-wise的点乘操作得到
Figure FDA0004034497730000041
如公式(8),
Figure FDA0004034497730000042
公式(8)中,“·”为Hadamard Product,
再将
Figure FDA0004034497730000043
加上所述第二总体特征fc得到经视图通道变换后的视图特征
Figure FDA0004034497730000044
保证经过所述视图通道注意力模块之后的特征所学习的视图信息丰富度不低于原始输入的所述视觉特征的信息丰富度,如公式(9),
Figure FDA0004034497730000045
步骤3-4,对所述视图特征
Figure FDA0004034497730000046
进行Conv操作将其组合汇集到一个全局描述符中得到通道形状描述符Vc,如公式(10),
Figure FDA0004034497730000047
公式(10)中,Conv为一层卷积核大小为1×n的卷积层,使用1×n卷积核相当于n视角的视角窗口,经过所述视角窗口的滑动融合n个视角的所述视图特征得到通道形状描述符Vc
2.根据权利要求1所述的基于多视角双注意网络的三维物体识别方法,其特征在于:
其中,所述步骤1包括以下子步骤:
步骤1-1,对于所述原始三维物体M,将其从n个视角投影到二维平面渲染成n个所述视图,X→(x1,x2,…,xi,…,xn),其中,xi为第i个视图;
步骤1-2,n个所述视图经过所述基础CNN模型后得到n个不同视角下的所述视觉特征(f1,f2,…,fi,…,fn),其中,fi为第i个所述视图的所述视觉特征,fi∈RC×H×W
CN202110120015.1A 2021-01-28 2021-01-28 一种基于多视角双注意网络的三维物体识别方法 Active CN112784782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110120015.1A CN112784782B (zh) 2021-01-28 2021-01-28 一种基于多视角双注意网络的三维物体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110120015.1A CN112784782B (zh) 2021-01-28 2021-01-28 一种基于多视角双注意网络的三维物体识别方法

Publications (2)

Publication Number Publication Date
CN112784782A CN112784782A (zh) 2021-05-11
CN112784782B true CN112784782B (zh) 2023-04-07

Family

ID=75759467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110120015.1A Active CN112784782B (zh) 2021-01-28 2021-01-28 一种基于多视角双注意网络的三维物体识别方法

Country Status (1)

Country Link
CN (1) CN112784782B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022236802A1 (zh) * 2021-05-14 2022-11-17 中国科学院深圳先进技术研究院 一种物体模型的重建方法、装置、终端设备和存储介质
CN114529757B (zh) * 2022-01-21 2023-04-18 四川大学 一种跨模态单样本三维点云分割方法
CN114550162B (zh) * 2022-02-16 2024-04-02 北京工业大学 一种视图重要性网络与自注意力机制相结合的三维物体识别方法
CN117149944B (zh) * 2023-08-07 2024-04-23 北京理工大学珠海学院 一种基于宽时间范畴的多模态情境情感识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111325155A (zh) * 2020-02-21 2020-06-23 重庆邮电大学 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11361470B2 (en) * 2019-05-09 2022-06-14 Sri International Semantically-aware image-based visual localization
CN111462208A (zh) * 2020-04-05 2020-07-28 北京工业大学 一种基于双目视差和外极线约束的无监督深度预测方法
CN111695494A (zh) * 2020-06-10 2020-09-22 上海理工大学 一种基于多视角卷积池化的三维点云数据分类方法
CN112184683A (zh) * 2020-10-09 2021-01-05 深圳度影医疗科技有限公司 一种超声图像的识别方法、终端设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126488A (zh) * 2019-12-24 2020-05-08 威创集团股份有限公司 一种基于双重注意力的图像识别方法
CN111325155A (zh) * 2020-02-21 2020-06-23 重庆邮电大学 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法

Also Published As

Publication number Publication date
CN112784782A (zh) 2021-05-11

Similar Documents

Publication Publication Date Title
CN112784782B (zh) 一种基于多视角双注意网络的三维物体识别方法
CN110532920B (zh) 基于FaceNet方法的小数量数据集人脸识别方法
CN112907602B (zh) 一种基于改进k-近邻算法的三维场景点云分割方法
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
JP2023545199A (ja) モデル訓練方法、人体姿勢検出方法、装置、デバイスおよび記憶媒体
CN112489119B (zh) 一种增强可靠性的单目视觉定位方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN114399533B (zh) 一种基于多层次注意力机制的单目标追踪方法
CN109190511A (zh) 基于局部与结构约束低秩表示的高光谱分类方法
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN115661246A (zh) 一种基于自监督学习的姿态估计方法
CN111680579A (zh) 一种自适应权重多视角度量学习的遥感图像分类方法
Fan et al. A novel sonar target detection and classification algorithm
CN106844620A (zh) 一种基于视图的特征匹配三维模型检索方法
CN115311502A (zh) 基于多尺度双流架构的遥感图像小样本场景分类方法
CN115222954A (zh) 弱感知目标检测方法及相关设备
CN116071410A (zh) 一种基于深度学习的点云配准方法、系统、设备及介质
CN117522990B (zh) 基于多头注意力机制和迭代细化的类别级位姿估计方法
Sima et al. Composite kernel of mutual learning on mid-level features for hyperspectral image classification
CN117934849A (zh) 一种基于深度学习的rgb-d图像语义分割方法
Balachandar et al. Deep learning technique based visually impaired people using YOLO V3 framework mechanism
Wu et al. Deep texture exemplar extraction based on trimmed T-CNN
CN117078956A (zh) 一种基于点云多尺度并行特征提取和注意力机制的点云分类分割网络
CN116758419A (zh) 针对遥感图像的多尺度目标检测方法、装置和设备
Chen Classification and model method of convolutional features in sketch images based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant