CN116912486A - 基于边缘卷积和多维特征融合的目标分割方法、电子装置 - Google Patents
基于边缘卷积和多维特征融合的目标分割方法、电子装置 Download PDFInfo
- Publication number
- CN116912486A CN116912486A CN202310555337.8A CN202310555337A CN116912486A CN 116912486 A CN116912486 A CN 116912486A CN 202310555337 A CN202310555337 A CN 202310555337A CN 116912486 A CN116912486 A CN 116912486A
- Authority
- CN
- China
- Prior art keywords
- point cloud
- channel
- point
- convolution
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000011218 segmentation Effects 0.000 title claims abstract description 44
- 230000004927 fusion Effects 0.000 title claims abstract description 31
- 238000013135 deep learning Methods 0.000 claims abstract description 19
- 230000002776 aggregation Effects 0.000 claims abstract description 13
- 238000004220 aggregation Methods 0.000 claims abstract description 13
- 238000004364 calculation method Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000008901 benefit Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于边缘卷积和多维特征融合的目标分割方法、电子装置。通过获取三维空间图像的点云数据;基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,为每个点赋予的部件标签;点云深度学习网络模型包括用于执行边缘卷积的边缘卷积模块、以及用于执行多维特征融合的空间与通道融合注意力机制模块;基于每个点的部件标签,将相同部件标签对应的点确定为分割目标。相比于现有技术,通过将边缘卷积提取的局部邻域特征输入CBAM进行加权计算与特征聚合获取具有更深层次语义信息的特征,以密集连接的方式将不同层次获得的特征在通道维度进行拼接,从而提升网络最终的目标分割效果以及识别精度。
Description
技术领域
本发明涉及目标分割技术领域,具体而言,涉及一种基于边缘卷积和多维特征融合的目标分割方法、电子装置。。
背景技术
三维点云是近年来最流行的三维物体表示之一,由空间中的多个点组成,每个点可以包含几何坐标、法向量、颜色等多种属性,它能够以较低的内存需求表示高度复杂的3D对象。随着雷达激光扫描仪、深度相机等多种3D扫描设备的迅速发展,点云数据的采集也变得更加高效与便捷。此外,基于深度学习的点云分类与分割技术也为自动驾驶、机器人。和室内自动导航等多个领域的发展提供了重要的理论支撑。
深度学习技术在二维图像分类、检测以及分割等任务中均已经具有较为成熟的理论体系与实际应用。然而,由于点云数据的不规则性、无序性和稀疏性导致其特征提取不同于传统图像,这给点云分类与分割任务仍带来了极大的挑战。传统的卷积神经网络与循环神经网络都需要以有规则的图片或者有序的序列作为输入进行处理,为此需要将无规则的点云数据转换为有序数据。早期的众多研究人员从该角度出发,提出了将点云转换为多视图图像或映射成结构化体素网格的方法。但是这些方法通常会存在无法权衡内存开销与特征信息丢失等问题,因而直接利用深度学习对原始点云进行处理成为了研究热点。
现有技术工作在点云的分类与分割任务中已经取得了较好的效果,但大多是围绕全局特征或单个邻域内各点之间的局部特征做特征提取,无法挖掘出局部邻域内包含更高维度语义信息的特征,导致分割效果不够精确,识别精度还不够高。
发明内容
有鉴于此,本发明实施例的目的在于提供通过将边缘卷积提取的局部邻域特征输入CBAM进行加权计算与特征聚合获取具有更深层次语义信息的特征,并以密集连接的方式将不同层次获得的特征在通道维度进行拼接,从而提升网络最终的目标分割效果以及识别精度。
本发明的第一方面提供了一种基于边缘卷积和多维特征融合的目标分割方法,所述方法包括:
获取三维空间图像的点云数据,点云数据包含n个点且维度为D;将点云数据表示为:其中,pi代表点云中的第i个点,由(xj,yi,zi)三个坐标构成;
基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,为每个点赋予的部件标签;所述点云深度学习网络模型包括用于执行边缘卷积的边缘卷积模块、以及用于执行多维特征融合的空间与通道融合注意力机制模块;
基于所述每个点的部件标签,将相同部件标签对应的点确定为分割目标。
优选地,所述边缘卷积模块,包括执行:
以pi作为中心点,通过K近邻算法找到其最近邻的k个顶点{pi1,pi2,…,pik},由此构造的局部有向图G中的V和E可以表示为:
V={pi|i=1,2,…,n}
其中,V代表的是点云中所有点的集合,E代表的是pi与其相邻k个顶点的有向边的集合;
对所述局部有向图G中的各顶点的边缘特征进行提取;采用多层感知机fΘ对边缘特征进行提取,边缘特征定义为:
其中,Θ代表的是一组可被学习的参数,Θ=(θ1,θ2,...,θc,φ1,φ2,...,φc),c代表当前特征通道的维度;
经过批归一化层和激活函数层,最后通过最大池化操作对边缘特征进行聚合,设聚合之后的特征为Fi,则Fi具体表示为:
优选地,所述空间与通道融合注意力机制模块包括通道注意力模块与空间注意力模块;
通道注意力模块计算通道注意力权重的流程,包括:
首先,使用全局最大池化和全局平均池化来聚合特征图的空间信息,生成两个不同的空间上下文描述符:F1∈R1×D和F2∈R1×D;
之后,将两个描述符输入至共享权重的MLP,再让得到的两个一维特征向量按通道做累加,得到通道注意力权重Mc(F);具体计算如下式所示:
Mc(F)=σ(MaxPool(F)+AvgPool(F))
=σ(W1(W0(F1))+W1(W0(F2)))
其中,σ表示Sigmoid函数,W0和W1是多层感知机的共享权重,W0∈RC/r×C,W1∈RC×C/r,r是用于控制MLP输出维度的缩减系数;
根据通道注意力权重Mc(F)对输入的特征进行加权获得加权后的特征F′;
优选地,所述空间注意力模块计算空间注意力权重的流程,包括:
首先,将经过通道注意力加权后的特征F′作为输入特征;在通道维度分别做最大池化与平均池化操作得到特征图F3∈RN×1和F4∈RN×1;
将得到的特征图在通道维度进行特征拼接,接着利用卷积核大小为1的卷积层将拼接后的特征进行编码与融合得到空间注意力权重MS,最后使用MS与F′相乘得到输出特征F″;该过程的计算式如下所示:
其中,f1×1表示卷积核大小为1×1的卷积层,代表矩阵乘法。
优选地,所述基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,包括:
在使用K近邻算法构造局部邻域后,输入到MLP中提取特征,最后经过最大池化聚合得到边缘卷积模块的输出;其中,各中间层的输入都是前面所有特征拼接后的特征,每层边缘卷积模块在提取邻域特征后再使用CBAM模块做进一步的特征聚合;之后通过预定维数的全连接层来进行全局特征的提取,最后通过四层的全连接层来得到各类的分割得分。
此外,本发明的第二方面提供了一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上第一方面所述的基于边缘卷积和多维特征融合的目标分割方法步骤。
此外,本发明的第三方面提供了一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如上第一方面所述的基于边缘卷积和多维特征融合的目标分割方法步骤。
本发明的方案中,通过获取三维空间图像的点云数据,点云数据包含n个点且维度为D;基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,为每个点赋予的部件标签;所述点云深度学习网络模型包括用于执行边缘卷积的边缘卷积模块、以及用于执行多维特征融合的空间与通道融合注意力机制模块;基于所述每个点的部件标签,将相同部件标签对应的点确定为分割目标。相比于现有技术,通过将边缘卷积提取的局部邻域特征输入CBAM进行加权计算与特征聚合获取具有更深层次语义信息的特征,避免当当前邻域各点较为相似时边缘向量趋于零的问题,从而获得信息更加丰富的边缘特征;并进一步以密集连接的方式将不同层次获得的特征在通道维度进行拼接,从而提升网络最终的目标分割效果以及识别精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例公开的点云深度学习网络模型结构示意图;
图2是本发明实施例公开的基于边缘卷积和多维特征融合的目标分割方法的流程示意图;
图3是本发明实施例公开的局部有向图构造流程示意图;
图4是本发明实施例公开的CBAM模块的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
如图1所示为本实施例关于点云深度学习网络模型结构示意图。网络的初始输入均为具有N个点的三维点云,不同的线条代表这些特征将会在送入多层感知机处理前进行特征拼接。本实施例的总体实现原理说明如下:
分类网络中使用了四层边缘卷积做特征提取,边缘卷积模块如图1左下方虚线框所示,输入大小为N×f,其中N代表的是点的数量,f代表的是点的维度。在使用K近邻(K-Nearest Neighbor,KNN)算法构造局部邻域后,输入到MLP中提取特征,Di表示的是第i层的输出维度,最后经过最大池化聚合得到边缘卷积模块的输出。各中间层的输入都是前面所有特征拼接后的特征,每层边缘卷积模块在提取邻域特征后再使用CBAM模块做进一步的特征聚合。之后通过1024维全连接层来进行全局特征的提取,最后通过输出维度分别为512,256,c三层的全连接层来得到各类的分类得分,c表示的类别数目。
对于分割网络而言,由于点云分割对于特征的细粒度要求更高,因此首先需要使用空间转换网络计算出空间变换矩阵对输入点云进行坐标对齐,空间转换网络如图1右下方虚线框所示。特征提取的方式与分类网络相似,调整了边缘卷积模块中MLP的数量与最后全连接层的层数,分割网络的最终输出为点云中每个点属于m类标签的分割得分。
本实施例的第一方面提供了一种基于边缘卷积和多维特征融合的目标分割方法。如图2所示为本实施例基于边缘卷积和多维特征融合的目标分割方法的流程示意图。所述方法包括:
S101,获取三维空间图像的点云数据,点云数据包含n个点且维度为D;将点云数据表示为:其中,pi代表点云中的第i个点,由(xi,yi,zi)三个坐标构成。
具体地,本实施例,点云数据获取一般是通过深度相机采集得到的。点云数据是由空间中的点所组成的,还可以包含颜色和法向量等其他信息。在此设输入的点云数据包含n个点且维度为D,可以将该点云数据表示为:
其中,pi代表点云中的第i个点,由(xi,yi,zi)三三个坐标构成。若输入点云仅包含坐标信息时D=3,并且随着网络每一层的特征映射,维度D会进一步转变为对应的特征维度。
S102,基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,为每个点赋予的部件标签;所述点云深度学习网络模型包括用于执行边缘卷积的边缘卷积模块、以及用于执行多维特征融合的空间与通道融合注意力机制模块。
图神经网络是一种适用于处理点云的方法,因为它可以忽略各节点的输入顺序,并提取边来学习两个节点之间的依赖关系信息。要将图神经网络应用于点云,首先需要将其转换为有向图。有向图G由顶点V和有向边E所组成,可以表示为:
由于为点云构建边全连接的有向图会消耗大量资源,因此本实施例采用KNN算法来构造局部有向图,具体的,局部有向图构造流程如图3所示,彩色的点代表被选中的邻域点。
进一步,步骤S102中,所述边缘卷积模块,包括执行:
以pi作为中心点,通过K近邻算法找到其最近邻的k个顶点{pi1,pi2,…,pik},由此构造的局部有向图G中的V和E可以表示为:
V={pi|i=1,2,...,n}
其中,V代表的是点云中所有点的集合,E代表的是pi与其相邻k个顶点的有向边的集合。
在实现了局部图的构建后,接下来需要对图中各顶点的边缘特征进行提取,本实施例按照DGCNN中所提出的以中心点与其相邻点的差值来获取局部特征的方式进行计算,该方法同时考虑了点云的局部邻域信息与全局空间信息。
对所述局部有向图G中的各顶点的边缘特征进行提取;本实施例,采用多层感知机fΘ对边缘特征进行提取,边缘特征定义为:
其中,Θ代表的是一组可被学习的参数,Θ=(θ1,θ2,...,θc,φ1,φ2,...,φc),c代表当前特征通道的维度。
在对各中心点的边缘特征提取之后,还需要经过批归一化层(BatchNormalization,BN)和激活函数层(Leaky Rectified Linear Unit,LeakyReLU),最后通过最大池化操作对边缘特征进行聚合,设聚合之后的特征为Fi,则Fi可以具体表示为:
通过边缘卷积模块已经可以提取局部几何信息,为了进一步获取更深层次的上下文语义信息,本实施例进一步引入了一种空间与通道融合注意力机制模块(ConvolutionalBlock Attention Module,CBAM)。CBAM由通道注意力模块与空间注意力模块两部分组成,通过注意力机制来获取局部图中关键邻域点的潜在有效信息,并为包含更多上下文信息的邻域点赋予更高的权重,从而提升网络整体的特征提取能力。
如图4所示为本实施例的CBAM模块的示意图,记上一边缘卷积层的输出特征为F∈RN×D,N为采样点的个数,D表示特征图的通道数。特征图的每个通道通常被视作是特征检测器,通过通道注意力模块可以使网络聚焦于通道中更有价值的语义信息。
通道注意力模块计算通道注意力权重的流程,包括:
首先,使用全局最大池化和全局平均池化来聚合特征图的空间信息,生成两个不同的空间上下文描述符:F1∈R1×D和F2∈R1×D;
之后,将两个描述符输入至共享权重的MLP,再让得到的两个一维特征向量按通道做累加,得到通道注意力权重Mc(F);具体计算如下式所示:
Mc(F)=σ(MaxPool(F)+AvgPool(F))
=σ(W1(W0(F1))+W1(W0(F2)))
其中,σ表示Sigmoid函数,W0和W1是多层感知机的共享权重,W0∈RC/r×C,W1∈RC×C/r,r是用于控制MLP输出维度的缩减系数;
根据通道注意力权重Mc(F)对输入的特征进行加权获得加权后的特征F′。
进一步,空间注意力模块与通道注意力模块的不同点在于其更注重于点与点之间的空间关系,为了计算空间注意力权重首先需要将经过通道注意力加权后的特征F′作为输入特征。在通道维度分别做最大池化与平均池化操作得到特征图F3∈RN×1和F4∈RN×1;将得到的特征图在通道维度进行特征拼接,接着利用卷积核大小为1的卷积层将拼接后的特征进行编码与融合得到空间注意力权重Ms,最后使用Ms与F'相乘得到输出特征F″,该过程的计算式如下所示:
其中,f1×1表示卷积核大小为1×1的卷积层,代表矩阵乘法。
优选地,步骤S102中,所述基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,包括:
在使用K近邻算法构造局部邻域后,输入到MLP中提取特征,最后经过最大池化聚合得到边缘卷积模块的输出;其中,各中间层的输入都是前面所有特征拼接后的特征,每层边缘卷积模块在提取邻域特征后再使用CBAM模块做进一步的特征聚合;之后通过预定维数的全连接层来进行全局特征的提取,最后通过四层的全连接层来得到各类的分割得分。
S103,基于所述每个点的部件标签,将相同部件标签对应的点确定为分割目标。
具体地,本实施例,有了每个点的部件标签,就可以检测和分割。比如,这个点的标签就是电脑类别,那就会对应为电脑;把同样是电脑类别的点汇聚到一块的图形,就成了检测为电脑这一部件的分割图像。
本实施例基于提出的基于边缘卷积和多维特征融合的点云分类与分割网络(即,点云深度学习网络模型),通过使用空间与通道融合注意力模块来获取局部图中关键邻域点的所有潜在信息,并为包含更多有效信息的邻域点赋予更高的权重以增强具有高维语义信息的局部特征,而后将各层的局部特征做特征拼接来融合不同维度的特征,进一步提升网络的特征提取能力,并基于提出的网络模型执行对目标分割与识别,提高了目标分割效果以及识别精度。
此外,本实施例的第二方面提供了一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上第一方面所述的基于adb命令的可视化文件管理方法步骤。
此外,本实施例的第三方面提供了一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如上第一方面所述的基于adb命令的可视化文件管理方法步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网格设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于边缘卷积和多维特征融合的目标分割方法,其特征在于,所述方法包括:
获取三维空间图像的点云数据,点云数据包含n个点且维度为D;将点云数据表示为:其中,pi代表点云中的第i个点,由(xi,yi,zi)三个坐标构成;
基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,为每个点赋予的部件标签;所述点云深度学习网络模型包括用于执行边缘卷积的边缘卷积模块、以及用于执行多维特征融合的空间与通道融合注意力机制模块;
基于所述每个点的部件标签,将相同部件标签对应的点确定为分割目标。
2.根据权利要求1所述的基于边缘卷积和多维特征融合的目标分割方法,其特征在于,所述边缘卷积模块,包括执行:
以pi作为中心点,通过K近邻算法找到其最近邻的k个顶点{pi1,pi2,…,pik},由此构造的局部有向图G中的V和E可以表示为:
V={pi|i=1,2,…,n}
其中,V代表的是点云中所有点的集合,E代表的是pi与其相邻k个顶点的有向边的集合;
对所述局部有向图G中的各顶点的边缘特征进行提取;采用多层感知机fΘ对边缘特征进行提取,边缘特征定义为:
其中,Θ代表的是一组可被学习的参数,Θ=(θ1,θ2,...,θc,φ1,φ2,...,φc),c代表当前特征通道的维度;
经过批归一化层和激活函数层,最后通过最大池化操作对边缘特征进行聚合,设聚合之后的特征为Fi,则Fi具体表示为:
3.根据权利要求2所述的基于边缘卷积和多维特征融合的目标分割方法,其特征在于,所述空间与通道融合注意力机制模块包括通道注意力模块与空间注意力模块;
通道注意力模块计算通道注意力权重的流程,包括:
首先,使用全局最大池化和全局平均池化来聚合特征图的空间信息,生成两个不同的空间上下文描述符:F1∈R1×D和F2∈R1×D;
之后,将两个描述符输入至共享权重的MLP,再让得到的两个一维特征向量按通道做累加,得到通道注意力权重Mc(F);具体计算如下式所示:
Mc(F)=σ(MaxPool(F)+AvgPool(F))
=σ(W1(W0(F1))+W1(W0(F2)))
其中,σ表示Sigmoid函数,W0和W1是多层感知机的共享权重,W0∈RC/r×C,W1∈RC×C/r,r是用于控制MLP输出维度的缩减系数;
根据通道注意力权重Mc(F)对输入的特征进行加权获得加权后的特征F'。
4.根据权利要求3所述的基于边缘卷积和多维特征融合的目标分割方法,其特征在于,所述空间注意力模块计算空间注意力权重的流程,包括:
首先,将经过通道注意力加权后的特征F'作为输入特征;在通道维度分别做最大池化与平均池化操作得到特征图F3∈RN×1和F4∈RN×1;
将得到的特征图在通道维度进行特征拼接,接着利用卷积核大小为1的卷积层将拼接后的特征进行编码与融合得到空间注意力权重MS,最后使用MS与F'相乘得到输出特征F”;该过程的计算式如下所示:
其中,f1×1表示卷积核大小为1×1的卷积层,代表矩阵乘法。
5.根据权利要求4所述的基于边缘卷积和多维特征融合的目标分割方法,所述基于点云深度学习网络模型预测点云数据中每个点的对应各个类别的分割得分,包括:
在使用K近邻算法构造局部邻域后,输入到MLP中提取特征,最后经过最大池化聚合得到边缘卷积模块的输出;其中,各中间层的输入都是前面所有特征拼接后的特征,每层边缘卷积模块在提取邻域特征后再使用CBAM模块做进一步的特征聚合;之后通过预定维数的全连接层来进行全局特征的提取,最后通过四层的全连接层来得到各类的分割得分。
6.一种电子装置,所述电子装置包括:一个或多个处理器,存储器,所述存储器用于存储一个或多个计算机程序;其特征在于,所述计算机程序被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1-5任一项所述的基于边缘卷积和多维特征融合的目标分割方法步骤。
7.一种存储介质,所述存储介质存储有计算机程序;所述程序由处理器加载并执行以实现如权利要求1-5任一项所述的基于边缘卷积和多维特征融合的目标分割方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310555337.8A CN116912486A (zh) | 2023-05-16 | 2023-05-16 | 基于边缘卷积和多维特征融合的目标分割方法、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310555337.8A CN116912486A (zh) | 2023-05-16 | 2023-05-16 | 基于边缘卷积和多维特征融合的目标分割方法、电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116912486A true CN116912486A (zh) | 2023-10-20 |
Family
ID=88355245
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310555337.8A Pending CN116912486A (zh) | 2023-05-16 | 2023-05-16 | 基于边缘卷积和多维特征融合的目标分割方法、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912486A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422848A (zh) * | 2023-10-27 | 2024-01-19 | 神力视界(深圳)文化科技有限公司 | 三维模型的分割方法及装置 |
-
2023
- 2023-05-16 CN CN202310555337.8A patent/CN116912486A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117422848A (zh) * | 2023-10-27 | 2024-01-19 | 神力视界(深圳)文化科技有限公司 | 三维模型的分割方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Deep learning for 3d point clouds: A survey | |
Adarsh et al. | YOLO v3-Tiny: Object Detection and Recognition using one stage improved model | |
Ma et al. | Multi-scale point-wise convolutional neural networks for 3D object segmentation from LiDAR point clouds in large-scale environments | |
Liu et al. | Multi-modal clique-graph matching for view-based 3D model retrieval | |
CN112488210A (zh) | 一种基于图卷积神经网络的三维点云自动分类方法 | |
Munoz et al. | Directional associative markov network for 3-d point cloud classification | |
US20230206603A1 (en) | High-precision point cloud completion method based on deep learning and device thereof | |
CN106133756A (zh) | 用于过滤、分割并且识别无约束环境中的对象的系统 | |
CN111625667A (zh) | 一种基于复杂背景图像的三维模型跨域检索方法及系统 | |
Chen et al. | Background-aware 3-D point cloud segmentation with dynamic point feature aggregation | |
Liu et al. | 3D Point cloud analysis | |
Lomio et al. | Classification of building information model (BIM) structures with deep learning | |
CN111310821A (zh) | 多视图特征融合方法、系统、计算机设备及存储介质 | |
CN114445633A (zh) | 图像处理方法、装置和计算机可读存储介质 | |
CN112330825A (zh) | 一种基于二维图像信息的三维模型检索方法 | |
Alsanad et al. | Real-time fuel truck detection algorithm based on deep convolutional neural network | |
CN116912486A (zh) | 基于边缘卷积和多维特征融合的目标分割方法、电子装置 | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
Bazazian et al. | DCG-net: Dynamic capsule graph convolutional network for point clouds | |
Huang et al. | An object detection algorithm combining semantic and geometric information of the 3D point cloud | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
Wang et al. | Salient object detection using biogeography-based optimization to combine features | |
Ding et al. | An efficient 3D model retrieval method based on convolutional neural network | |
Qayyum et al. | Deep convolutional neural network processing of aerial stereo imagery to monitor vulnerable zones near power lines | |
Zhao et al. | DHA: Lidar and vision data fusion-based on road object classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |