CN110633640A - 优化PointNet对于复杂场景的识别方法 - Google Patents

优化PointNet对于复杂场景的识别方法 Download PDF

Info

Publication number
CN110633640A
CN110633640A CN201910744339.5A CN201910744339A CN110633640A CN 110633640 A CN110633640 A CN 110633640A CN 201910744339 A CN201910744339 A CN 201910744339A CN 110633640 A CN110633640 A CN 110633640A
Authority
CN
China
Prior art keywords
global
feature
feature vector
pointnet
pyramid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910744339.5A
Other languages
English (en)
Inventor
颜成钢
郭凡锋
孙垚棋
张继勇
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910744339.5A priority Critical patent/CN110633640A/zh
Publication of CN110633640A publication Critical patent/CN110633640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种优化PointNet对于复杂场景的识别方法。本方法提出用金字塔池化模块优化PointNet在复杂场景中的识别能力。将经过PointNet处理后得到的特征向量接入金字塔池化模块。金字塔池化模块能改善复杂场景解析中的开放词汇对象和填充识别的性能。利用全局文本信息基于不同区域的上下文聚合的能力。我们的全局先验表示对于在场景解析任务中产生高质量结果是有效的,对于复杂场景解析金字塔模块为整体场景解释提供了良好的描述,知识图依赖于场景上下文的先验信息,而金字塔池化模块能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。因此金字塔模块的加入能让对于在三维空间中的对象分类,部分分割和语义分割等任务具有更高的准确度。

Description

优化PointNet对于复杂场景的识别方法
技术领域
本发明属于图像检索领域,涉及一种优化PointNet对于复杂场景的识别方法。
背景技术
随着互联网及深度学习的快速发展,我们对二维图像已经有了大量研究,但是对于3D点云,任然对我们是一个挑战。3D点云数据是一种无序的点集,典型的卷积结构需要高度规则的输入数据格式,所以我们要将将这些数据转换为常规3D体素网格或图像集合(例如视图),然后将其提供给深网络体系结构。然而,这种数据表示变换使得得到的数据不必要地大量增加。同时引入了可以模糊数据的自然不变性的定量化伪像。PointNet网络直接将点云作为输入并输出整个输入的类标签或输入的每个点的每个点段/部件标签。从这一点上来说,PointNet具有极其重要的意义。在处理一些复杂场景的识别任务中,先验信息有着至关重要的地位。例如:不匹配的关系语境,由于缺乏可靠性选择的背景信息可能会造成预测错误,若提前告知当前语境则可以很容易避免该错误。不显眼的类场景包含任意大小的对象,这些细节对于复杂场景的识别也很重要,在没有先验信息的辅助下可能无法解析出细节的对象。总结这些观察结果,许多错误与不同接收领域的背景关系和全球信息部分或完全相关。因此,具有合适的全局场景级先验的深度网络可以大大提高场景解析的性能。金字塔池化模块(pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。为了结合合适的全局特征,我们引入了金字塔场景解析模块(PyramidPooling Module)。
发明内容
本发明的目的是对于PointNet在复杂场景中的识别能力的优化,PointNet能够很好的处理三维空间中的点云数据,但是由于PointNet只捕获由度量空间点引起的局部结构,限制了它识别细粒度图案和泛化到复杂场景的能力。基于此,提出了PointNet网络与金字塔池化模块(Pyramid Pooling Module)相结合的方法,优化PointNet网络对于复杂场景中的识别能力。
本发明解决其技术问题所采用的技术方案如下:
步骤1、将原始的点云数据输入到PointNet网络中,并将点云数据的n个点的三维点云作为输入,即:
N1=3×n;其中,N1为三维点云个数,n为点云数据中点的个数;
步骤2、对原始的点云数据应用第一次输入变换,通过一个3D空间变换矩阵预测网络T-Net(3)实现数据的对齐。对齐之后通过卷积层进行特征提取,对齐后的数据会以点为单位,通过一个共享参数的双层感知机模型(mlp)进行特征提取。
步骤3、对步骤2提取出的特征应用第二次输入变换,通过特征空间变换矩阵预测网络T-Net(64)实现特征的对齐。对齐之后通过卷积层进行特征提取,即同步骤2一样利用三层感知机(mlp)进行特征提取,得到维度为1024的特征。
步骤4、把提取出的特征在特征空间的维度上进行最大池化聚合,提取出点云数据的全局特征向量图。
步骤5、将提取出的全局特征向量图输入到金字塔模块中,为了充分获取全局信息,对输入的全局特征向量图进行全局平均池化处理,获取处理后的全局特征向量图。
步骤6、利用金字塔模块(Pyramid Pooling Module)来收集全局特征向量图中不同的子区域的特征表示,即用金字塔模块的不同等级将特征向量图分为不同的级别,例如第一级别不将特征向量图分解,第二级别将特征向量图分为四块,不同级别的输出包含具有不同大小的特征映射。为了维持全局特征的权值,在每一级别使用一个1×1卷积层来降低维度。
步骤7、对低维特征向量图进行上采样,使其和原始输入特征图尺寸一样大小。最后将不同级别的特征向量图相连接。
步骤8、最后通过一个卷积层得到最终输出的预测图。
本发明的特点及有益效果:
本发明实现了一种在三维空间中处理3D识别任务,包括对象分类,部分分割和语义分割等任务。点云是三维空间中的重要数据,由于其不规则的格式,大多数研究人员改变了这些数据的三维图像或图像。然而,这会使数据不必要地大量增加并导致计算量过大,像素点失真问题,同时引入了可以模糊数据的自然不变性的定量化伪像。出于这个原因我们只使用点云来关注3D几何的不同输入表示。本方法引用了PointNet网络来直接处理点云数据。PointNet是一种直接消耗点云的新型神经网络,它很好地尊重了输入点的置换不变性,为对象分类,部分分割到场景语义分析等各种应用提供统一的架构。PointNet有三大模块:最大池层作为对称函数,用于聚合来自所有点的信息,本地和全局信息组合结构,以及两个对齐输入点和点要素的联合对齐网络。解决了点云数据输入的无序性,本地和全局信息聚合,三维图像旋转的不变性三个问题。根据实验数据验证了PointNet非常有效且高效。但PointNet不捕获由度量空间点引起的局部结构,限制了它识别细粒度图案和泛化到复杂场景的能力。本方法提出用金字塔池化模块(Pyramid Pooling Module)优化PointNet在复杂场景中的识别能力。我们把经过PointNet处理后得到的特征向量接入金字塔池化模块。金字塔池化模块能改善复杂场景解析中的开放词汇对象和填充识别的性能。利用全局文本信息基于不同区域的上下文聚合的能力。我们的全局先验表示对于在场景解析任务中产生高质量结果是有效的,对于复杂场景解析金字塔模块为整体场景解释提供了良好的描述,知识图依赖于场景上下文的先验信息,而金字塔池化模块能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。因此金字塔模块的加入能让对于在三维空间中的对象分类,部分分割和语义分割等任务具有更高的准确度。
附图说明
图1为本发明流程图
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1所示,本发明实现了一种在三维空间中处理3D识别任务,包括对象分类,部分分割和语义分割等任务,具体实现步骤如下:
S1、输入数据:将点云数据的n个点的三维点云(n*3)作为输入。
S2、通过迷你网络(T-net)预测一个有效的变换矩阵,并直接将这种变换应用于输入点的坐标。进行输入变化,对空间中的点云(无序向量)进行调整,旋转出一个更利于予以分割的角度。输入点云数据,首先进行T-Net进行仿射变换,具体表现为原始数据通过一个3D空间变换矩阵预测网络T-Net(3),估计出3x3的变换矩阵T(3)并作用在原始数据上,实现数据的对齐。对齐后的数据会以点为单位,通过一个共享参数的双层感知机模型进行特征提取。
S3、进行相同的特征变换,具体操作为乘以64*64的转换矩阵,随后通过卷积层进行特征提取,对提取出的64维特征进行对齐,即在特征层面对点云进行变换。以上两部能解决3维图像在空间中旋转的不变性,当我们进行例如旋转、上移等操作时,不论是目标分类还是部分分割,都应保证其结果不变。经过两个空间变换网络和两个mlp神经网络之后,对每一个点提取1024维特征,经过变成1x1024的全局特征。其中,mlp是通过共享权重的卷积实现的,第一层卷积核大小是1x3,之后的每一层卷积核大小都是1x1。
S4、通过最大池化聚合点特征,网络对每个点进行了一定程度的特征提取之后,最大池化可以对点云的整体提取出全局特征。PointNet中,作者使用了Max Pooling层做为主要的对称函数。为了解决点云数据的无序性,PointNet使用简单对称函数来聚合每个点的信息。对称函数将n个向量作为输入,并输出对输入顺序不变的新向量。PointNet中+是通过在集合中应用非对称函数转换元素来近似定义a point set上的一般函数:
f({x1,…,xn})≈g(h(x1),…,h(xn)) (1)
Figure BDA0002165058160000041
Figure BDA0002165058160000051
Figure BDA0002165058160000052
是对称函数
h表示特征提取层,g为对称方法;
S5、随后将全局特征生成特征图作为金字塔池化模块(Pyramid Pooling Module)的输入,将提取出的特征值向量输入到金字塔模块中,为了充分获取全局信息,对输入的特征向量图进行全局平均池化处理。
S6、使用金字塔池模块来收集上下文信息。使用我们的4级金字塔,池化内核覆盖图像的整个,一半和一小部分。它们融合为全球先验。该模块融合了4种不同金字塔尺度的特征,第一行红色是最粗糙的特征–全局池化生成单个bin输出,后面三行是不同尺度的池化特征。为了保持全局特征的权重,我们在每个金字塔等级之后使用1×1卷积层,以便在金字塔的等级大小为N的情况下将上下文表示的维度减少到原始值的1/N;最后,不同级别的特征被连接为最终的金字塔汇集全局特征。
S7、然后我们直接上采样低维特征映射到目标特征映射特征映射随机插值。最后将经过金字塔池化模块的得到的特征向量图与在上采样与池化前的特征向量图相连接。
S8、最后来再通过一层卷积层输出最终预测图。

Claims (1)

1.优化PointNet对于复杂场景的识别方法,其特征在于包括如下步骤:
步骤1、将原始的点云数据输入到PointNet网络中,并将点云数据的n个点的三维点云作为输入,即:
N1=3×n;其中,N1为三维点云个数,n为点云数据中点的个数;
步骤2、对原始的点云数据应用第一次输入变换,通过一个3D空间变换矩阵预测网络T-Net(3)实现数据的对齐;对齐之后通过卷积层进行特征提取,对齐后的数据会以点为单位,通过一个共享参数的双层感知机模型进行特征提取;
步骤3、对步骤2提取出的特征应用第二次输入变换,通过特征空间变换矩阵预测网络T-Net实现特征的对齐;对齐之后通过卷积层进行特征提取,即同步骤2一样利用三层感知机进行特征提取,得到维度为1024的特征;
步骤4、把提取出的特征在特征空间的维度上进行最大池化聚合,提取出点云数据的全局特征向量图;
步骤5、将提取出的全局特征向量图输入到金字塔模块中,为了充分获取全局信息,对输入的全局特征向量图进行全局平均池化处理,获取处理后的全局特征向量图;
步骤6、利用金字塔模块来收集全局特征向量图中不同的子区域的特征表示,即用金字塔模块的不同等级将特征向量图分为不同的级别:第一级别不将特征向量图分解,第二级别将特征向量图分为四块,不同级别的输出包含具有不同大小的特征映射;为了维持全局特征的权值,在每一级别使用一个1×1卷积层来降低维度;
步骤7、对低维特征向量图进行上采样,使其和原始输入特征图尺寸一样大小;最后将不同级别的特征向量图相连接;
步骤8、最后通过一个卷积层得到最终输出的预测图。
CN201910744339.5A 2019-08-13 2019-08-13 优化PointNet对于复杂场景的识别方法 Pending CN110633640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910744339.5A CN110633640A (zh) 2019-08-13 2019-08-13 优化PointNet对于复杂场景的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910744339.5A CN110633640A (zh) 2019-08-13 2019-08-13 优化PointNet对于复杂场景的识别方法

Publications (1)

Publication Number Publication Date
CN110633640A true CN110633640A (zh) 2019-12-31

Family

ID=68970361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910744339.5A Pending CN110633640A (zh) 2019-08-13 2019-08-13 优化PointNet对于复杂场景的识别方法

Country Status (1)

Country Link
CN (1) CN110633640A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461129A (zh) * 2020-04-02 2020-07-28 华中科技大学 一种基于上下文先验的场景分割方法和系统
CN111931790A (zh) * 2020-08-10 2020-11-13 武汉慧通智云信息技术有限公司 一种激光点云提取方法及装置
CN112085066A (zh) * 2020-08-13 2020-12-15 南京邮电大学 基于图卷积神经网络的体素化三维点云场景分类方法
WO2021218469A1 (zh) * 2020-04-30 2021-11-04 腾讯科技(深圳)有限公司 影像数据检测方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100124377A1 (en) * 2008-11-19 2010-05-20 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding
CN106991382A (zh) * 2017-03-13 2017-07-28 南京信息工程大学 一种遥感场景分类方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN109766866A (zh) * 2019-01-22 2019-05-17 杭州美戴科技有限公司 一种基于三维重建的人脸特征点实时检测方法和检测系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100124377A1 (en) * 2008-11-19 2010-05-20 Nec Laboratories America, Inc. Linear spatial pyramid matching using sparse coding
CN106991382A (zh) * 2017-03-13 2017-07-28 南京信息工程大学 一种遥感场景分类方法
CN108062756A (zh) * 2018-01-29 2018-05-22 重庆理工大学 基于深度全卷积网络和条件随机场的图像语义分割方法
CN109523552A (zh) * 2018-10-24 2019-03-26 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN109766866A (zh) * 2019-01-22 2019-05-17 杭州美戴科技有限公司 一种基于三维重建的人脸特征点实时检测方法和检测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张松龙,等: ""基于级联全卷积神经网络的显著性检测"", 《激光与光电子学进展》 *
张蕊: ""基于激光点云的复杂三维场景多态目标语义分割技术研究"", 《中国博士学位论文全文数据库 基础科学辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461129A (zh) * 2020-04-02 2020-07-28 华中科技大学 一种基于上下文先验的场景分割方法和系统
CN111461129B (zh) * 2020-04-02 2022-08-02 华中科技大学 一种基于上下文先验的场景分割方法和系统
WO2021218469A1 (zh) * 2020-04-30 2021-11-04 腾讯科技(深圳)有限公司 影像数据检测方法、装置、计算机设备和存储介质
CN111931790A (zh) * 2020-08-10 2020-11-13 武汉慧通智云信息技术有限公司 一种激光点云提取方法及装置
CN112085066A (zh) * 2020-08-13 2020-12-15 南京邮电大学 基于图卷积神经网络的体素化三维点云场景分类方法
CN112085066B (zh) * 2020-08-13 2022-08-26 南京邮电大学 基于图卷积神经网络的体素化三维点云场景分类方法

Similar Documents

Publication Publication Date Title
Haut et al. A new deep generative network for unsupervised remote sensing single-image super-resolution
Wu et al. ORSIm detector: A novel object detection framework in optical remote sensing imagery using spatial-frequency channel features
Yeh et al. Lightweight deep neural network for joint learning of underwater object detection and color conversion
Jiang et al. Edge-enhanced GAN for remote sensing image superresolution
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
Wang et al. Ultra-dense GAN for satellite imagery super-resolution
CN110633640A (zh) 优化PointNet对于复杂场景的识别方法
CN112052899A (zh) 一种基于生成对抗网络的单幅舰船目标sar图像生成方法
CN113888547A (zh) 基于gan网络的无监督域自适应遥感道路语义分割方法
CN111709307B (zh) 一种基于分辨率增强的遥感图像小目标检测方法
CN114037640A (zh) 图像生成方法及装置
CN114943893A (zh) 一种土地覆盖分类的特征增强网络
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN112149526A (zh) 一种基于长距离信息融合的车道线检测方法及系统
CN115713632A (zh) 一种基于多尺度注意力机制的特征提取方法及装置
Zuo et al. A remote sensing image semantic segmentation method by combining deformable convolution with conditional random fields
Li et al. Enhanced bird detection from low-resolution aerial image using deep neural networks
Guo et al. Scale region recognition network for object counting in intelligent transportation system
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN112819832A (zh) 基于激光点云的城市场景语义分割细粒度边界提取方法
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
Xu et al. Super-resolving blurry face images with identity preservation
Hüsem et al. A survey on image super-resolution with generative adversarial networks
CN113344110B (zh) 一种基于超分辨率重建的模糊图像分类方法
Katageri et al. Abd-net: Attention based decomposition network for 3d point cloud decomposition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191231