CN115294343B - 一种基于跨位置及通道的注意力机制的点云特征增强方法 - Google Patents

一种基于跨位置及通道的注意力机制的点云特征增强方法 Download PDF

Info

Publication number
CN115294343B
CN115294343B CN202210819738.5A CN202210819738A CN115294343B CN 115294343 B CN115294343 B CN 115294343B CN 202210819738 A CN202210819738 A CN 202210819738A CN 115294343 B CN115294343 B CN 115294343B
Authority
CN
China
Prior art keywords
point cloud
matrix
feature
module
linear projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210819738.5A
Other languages
English (en)
Other versions
CN115294343A (zh
Inventor
张新钰
王力
刘华平
高涵文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Jiashibao Intelligent Technology Co ltd
Original Assignee
Suzhou Jiashibao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Jiashibao Intelligent Technology Co ltd filed Critical Suzhou Jiashibao Intelligent Technology Co ltd
Priority to CN202210819738.5A priority Critical patent/CN115294343B/zh
Publication of CN115294343A publication Critical patent/CN115294343A/zh
Application granted granted Critical
Publication of CN115294343B publication Critical patent/CN115294343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及自动驾驶技术、机器人环境感知等领域,尤其涉及一种基于跨位置及通道的注意力机制的点云特征增强方法,所述方法包括:将点云特征输入点云特征增强模型,得到特征增强的特征矩阵;所述点云特征增强模型,基于自注意力机制,利用不同位置的不同通道元素的显式相关性实现点云特征的增强。本发明通过建模输入不同位置的不同通道元素的显式相关性进行特征重新校准,网络可以学会使用全局信息,有选择地强调信息特征,并抑制不太有用的特征;本发明将自注意表示为核特征映射的线性点积,并利用矩阵乘积的结合性来降低复杂度。

Description

一种基于跨位置及通道的注意力机制的点云特征增强方法
技术领域
本发明涉及自动驾驶技术、机器人环境感知等领域,尤其涉及一种基于跨位置及通道的注意力机制的点云特征增强方法。
背景技术
目前,随着自动驾驶研究的热度增加,三维目标检测技术在高速发展。在三维目标检测中,一种主要用到的数据是激光雷达检测到的空间物体的点云信息。由于三维点云在结构上与图像不同,无法立即应用计算机视觉中常用的标准的深度网络设计,例如基于离散卷积算子的网络。
因此,目前基于三维点云信息的目标检测算法中,一部分方法体素化三维空间,以启用三维离散卷积进行目标检测,这类方法会导致大量的计算和内存成本,并没有充分利用三维中点集的稀疏性;一部分方法设计直接对点进行操作,并通过池化算子或连续卷积传播信息;一部分方法将点集连接到用于消息传递的图中,利用图神经网络对点云进行处理。
无论是哪种方法进行三维目标检测,本质上都利用深度神经网络处理点云信息,而捕获输入数据内各部分长期依赖关系在深度神经网络中至关重要。对于顺序数据(例如,语音、语言数据),循环操作是远程依赖建模的主要解决方案。对于图像数据,捕获其长期依赖关系是由卷积操作的深层堆叠形成的大接收域建模而得到的。卷积和递归运算都处理输入数据的一个局部邻域,无论是在空间上还是在时间上,因此,只有当这些操作被重复应用,并通过数据逐步传播信号时,才能捕获长期依赖关系。然而,不断重复这些操作有几个缺点:首先,它的计算效率很低;其次,它会造成优化困难,需要认真解决。最后,这些挑战使得长距离依赖关系建模变得困难,例如,当消息需要在长距离位置之间来回传递时。点云数据往往空间规模较大,所以对深度神经网络分析点云数据中各部分之间的关系的能力提出了更高的要求。
发明内容
本发明的目的在于克服现有技术的缺陷,提出了一种基于跨位置及通道的注意力机制的点云特征增强方法。通过学习通道中所有元素之间的显式相关性来增强点云特征的表达能力。
为了实现上述目的,本发明提出了一种基于跨位置及通道的注意力机制的点云特征增强方法,所述方法包括:
将点云特征输入点云特征增强模型,得到特征增强的特征矩阵;
所述点云特征增强模型,基于自注意力机制,利用不同位置的不同通道元素的显式相关性实现点云特征的增强。
作为上述方法的一种改进,所述点云特征增强模型包括并联的Q、K和V三个分支以及聚合模块、最终线性投影层和相加模块;其中,
所述Q、K和V三个分支,用于将输入的点云x映射到三个不同的特征空间;
所述聚合模块,用于对Q、K和V三个分支的输出进行特征聚合,对点云的不同位置不同通道的特征进行增强,得到矩阵Q';
所述线性投影层,用于对矩阵Q'进行线性投影,并输入相加模块;
所述相加模块,用于对线性投影后的输出与输入的点云x进行相加,得到增强的特征矩阵Z。
作为上述方法的一种改进,
Q分支包括依次连接的线性投影层、展平模块和指数线性单位;Q分支的输出为Φ(Q),其中,Φ()表示指数线性单位;矩阵Q满足下式:
Q=flatten(xWQ)。
式中,x表示输入的点云特征,flatten()表示将矩阵展平为向量,WQ为x在Q映射空间的特征表达;
K分支包括依次连接的线性投影层、展平模块、指数线性单位和转置模块;K分支的输出为Φ(K)T,其中,T表示转置,矩阵K满足下式:
K=flatten(xWK)
式中,WK为x在K映射空间的特征表达;
V分支包括依次连接的线性投影层和展平模块,V分支的输出为:
V=flatten(xWV)
式中,WV为x在V映射空间的特征表达。
作为上述方法的一种改进,所述聚合模块对Q分支的输出Φ(Q),K分支的输出Φ(K)T,以及V分支的输出V,进行特征聚合,对点云的不同位置不同通道的特征进行增强,得到矩阵Q'满足下式:
Q'=Φ(Q)(Φ(K)TV)。
作为上述方法的一种改进,所述相加模块对线性投影后的输出Q'WQ'与输入的点云x进行相加,得到增强的特征矩阵Z:
Z=x+Q′WQ'
式中,WQ'为线性投影层的参数。
一种基于跨位置及通道的注意力机制的点云特征增强系统,所述系统包括:特征增强模块和点云特征增强模型;其中,
所述特征增强模块,用于将点云特征输入点云特征增强模型,得到特征增强的特征矩阵;
所述点云特征增强模型,基于自注意力机制,利用不同位置的不同通道元素的显式相关性实现点云特征的增强。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述所述的方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上述所述的方法。
与现有技术相比,本发明的优势在于:
1、本发明通过建模输入中不同位置的不同通道元素的显式相关性进行特征重新校准,通过这种机制,网络可以学会使用全局信息,有选择地强调信息特征,并抑制不太有用的特征;
2、本发明将自注意表示为核特征映射的线性点积,并利用矩阵乘积的结合性来降低复杂度。
附图说明
图1是本发明的基于自注意力机制的特征增强模型示意图。
具体实施方式
受经典的非局部图像滤波方法的启发,最近提出的非局部神经网络注意力机制解决了这一挑战,它通过在单个模块中直接建模特征映射中任意两个位置之间的相关性。这种非局部方法可以大大提高现有网络在许多视频分类基准上的性能。
由于在二维计算机视觉任务中也表现良好,一些工作尝试将基于注意力机制的transformer模型应用于点云信息的处理中,transformer模型之所以适用于点云处理,是因为作为transformer网络核心的自注意力算子本质上是一个集合算子,不受输入集合内元素的排列顺序的影响。在transformer模型中,需要对每个输入的向量进行位置编码,而点云本质上是嵌入在三维空间中的向量集合,可以将原始的三维点云的位置坐标信息用于位置编码。以上这些原因使得transformer模型天然地适合点云深度学习中的信息处理。
虽然transformer是处理序列信息的强大模型,但是它的两次矩阵乘法使得计算复杂度为O(N2),需要的时间和内存随序列长度呈二次方增长,使得transformer模型在处理长序列信息时内存和时间的消耗急剧增大。而点云信息提供的点云数量一般比较庞大,尤其是由车载激光雷达采集的数据的点云量都会达到百万级别。目前已有的许多工作都在讨论在保证性能的前提下降低transformer的计算复杂度,力图追求将transformer的计算复杂度降为O(N),以在长序列信息处理中发挥更好的性能。同时,原始的非局部神经网络虽然性能优良,但通过合并通道只考虑全局的时空相关性,可能会错失精细但重要的跨通道线索,无法区分细粒度的物体。
针对以上问题,本发明提出的核特征映射将transformer的计算复杂度降为O(N),同时它可以建模点云输入中不同位置的不同通道元素的显式相关性来显著增强特征。
针对上述问题提出了本发明。本发明通过建模输入中不同位置的不同通道元素的显式相关性进行特征重新校准,通过这种机制,网络可以学会使用全局信息,有选择地强调信息特征,并抑制不太有用的特征。同时由于自注意力机制本身的二次复杂度,相对于输入长度而言,对于非常长的序列来说,它的速度非常慢。为了解决这一局限性,在提出的该模块中,将自注意表示为核特征映射的线性点积,并利用矩阵乘积的结合性来降低复杂度。
应当理解,在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
下面结合附图和实施例对本发明的技术方案进行详细的说明。
实施例1
本发明的实施例1提出了一种基于跨位置及通道的注意力机制的点云特征增强方法。
根据本发明,提供了一种自注意力机制的特征增强模块,包含步骤如下:
步骤1、给定输入点云特征x∈RN×F,利用三个线性投影层将输入点云映射到三个不同的特征空间:
q = x WQ (1)
k = x WK (2)
v= x WV, (3)
1式中,WQ∈RF×D,WK∈RF×D,WV∈RF×D为映射参数q∈RN×D,k∈RN×D,v∈RN×D为x在不同映射空间的特征表达,在经典的transformer中被称为查询、键和值;
步骤2、将步骤1得到的q、k和v展平,得到Q∈RND×1,K∈RND×1,V∈RND×1
Q分支包括依次连接的线性投影层、展平模块和指数线性单位;Q分支的输出为Φ(Q),其中,Φ()表示指数线性单位;矩阵Q满足下式:
Q=flatten(x WQ)。
式中,x表示输入的点云特征,flatten()表示将矩阵展平为向量,WQ为x在Q映射空间的特征表达;
K分支包括依次连接的线性投影层、展平模块、指数线性单位和转置模块;K分支的输出为Φ(K)T,其中,T表示转置,矩阵K满足下式:
K=flatten(x WK)
式中,WK为x在K映射空间的特征表达;
V分支包括依次连接的线性投影层和展平模块,V分支的输出为:
V=flatten(x WV)
式中,WV为x在V映射空间的特征表达。
步骤3、经典的transformer实现一种称为softmax的特定形式的自注意,其中相似性得分是查询和键之间的点积的指数:
Figure GDA0004103042840000061
但是由于矩阵乘法造成的二次复杂度,用传统的自注意力机制来建模不同位置不同通道元素的相关性会造成计算量特别大,为了解决这一缺陷,将自注意表示为核特征映射的线性点积,并利用矩阵乘积的结合性来降低复杂度。
假设Qi表示矩阵Q的第i行向量,Kj表示矩阵K的第j行向量,可以写出任何相似函数的广义注意力方程:
Figure GDA0004103042840000062
上式关于注意力机制的定义是通用的,可以用于其它注意力的实现比如多项式核函数、高斯核函数,值得注意的是当令
Figure GDA0004103042840000063
时上式与经典的transformer实现形式相同。同时,为了使上式定义一个相似函数,需要对sim()施加的唯一约束是非负的,这种相似函数包括所有的核函数k(x,y)。
根据核函数的性质,可以将式改写为:
Figure GDA0004103042840000064
利用矩阵乘法的结合率可以进一步写为:
Figure GDA0004103042840000065
当分子写成如下的向量化形式时,上面的方程更简单:
(Φ(Q)Φ(K)T)V = Φ(Q)(Φ(K)TV), (8)
式中,Φ()是按行应用于Q和K的。
由公式可知,传统的transformer公式的计算复杂度是O(N2),N是序列长度。内存需求也是如此,因为必须存储完整的注意力矩阵来计算关于查询、键和值的梯度。相反,提出的核特征映射的线性点积具有时间复杂度和空间复杂度O(N),因为对于每个query只需要计算一次
Figure GDA0004103042840000071
Figure GDA0004103042840000072
在实验中,使用如下的核函数:
Φ(x)=elu(x)+1,                          (9)
式中,elu()为指数线性单位激活函数;
步骤4、将步骤2得到的Q、K和V经过公式进行特征聚合后,对点云的不同位置不同通道的特征都进行了增强:
Q'=Φ(Q)(Φ(K)TV)                        (10)
步骤5、将步骤4得到Q'的经过一个线性投影层之后,最终和输入的点云相加得到最后的输出:
Z=x+Q′WQ',                          (11)
式中,WQ'为最终线性投影层的参数。
实施例2
一种基于跨位置及通道的注意力机制的点云特征增强系统,基于实施例1的方法实现,该系统包括:特征增强模块和点云特征增强模型;其中,
所述特征增强模块,用于将点云特征输入点云特征增强模型,得到特征增强的特征矩阵;
所述点云特征增强模型,基于自注意力机制,利用不同位置的不同通道元素的显式相关性实现点云特征的增强。
实施例3
本发明的实施例3还可提供的一种计算机设备,包括:至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
其中,用户接口可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。
在本上述的实施例中,还可通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于:
执行实施例1的方法的步骤。
实施例1的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行实施例1中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合实施例1所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
实施例4
本发明实施例4还可提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于跨位置及通道的注意力机制的点云特征增强方法,所述方法包括:
将点云特征输入点云特征增强模型,得到特征增强的特征矩阵;
所述点云特征增强模型,基于自注意力机制,利用不同位置的不同通道元素的显式相关性实现点云特征的增强;
所述点云特征增强模型包括并联的Q、K和V三个分支以及聚合模块、最终线性投影层和相加模块;其中,
所述Q、K和V三个分支,用于将输入的点云x映射到三个不同的特征空间;
所述聚合模块,用于对Q、K和V三个分支的输出进行特征聚合,对点云的不同位置不同通道的特征进行增强,得到矩阵Q';
所述线性投影层,用于对矩阵Q'进行线性投影,并输入相加模块;
所述相加模块,用于对线性投影后的输出与输入的点云x进行相加,得到增强的特征矩阵Z。
2.根据权利要求1所述的基于跨位置及通道的注意力机制的点云特征增强方法,其特征在于,
Q分支包括依次连接的线性投影层、展平模块和指数线性单位;Q分支的输出为Φ(Q),其中,Φ()表示指数线性单位;矩阵Q满足下式:
Q=flatten(xWQ),
式中,x表示输入的点云特征,flatten()表示将矩阵展平为向量,WQ为x在Q映射空间的特征表达;
K分支包括依次连接的线性投影层、展平模块、指数线性单位和转置模块;K分支的输出为Φ(K)T,其中,T表示转置,矩阵K满足下式:
K=flatten(xWK)
式中,WK为x在K映射空间的特征表达;
V分支包括依次连接的线性投影层和展平模块,V分支的输出为:
V=flatten(xWV)
式中,WV为x在V映射空间的特征表达。
3.根据权利要求2所述的基于跨位置及通道的注意力机制的点云特征增强方法,其特征在于,所述聚合模块对Q分支的输出Φ(Q),K分支的输出Φ(K)T,以及V分支的输出V,进行特征聚合,对点云的不同位置不同通道的特征进行增强,得到矩阵Q′:
Q'=Φ(Q)(Φ(K)TV)。
4.根据权利要求3所述的基于跨位置及通道的注意力机制的点云特征增强方法,其特征在于,所述相加模块对线性投影后的输出Q'WQ'与输入的点云x进行相加,得到增强的特征矩阵Z:
Z=x+Q′WQ′
式中,WQ'为线性投影层的参数。
5.一种基于跨位置及通道的注意力机制的点云特征增强系统,其特征在于,所述系统包括:特征增强模块和点云特征增强模型;其中,
所述特征增强模块,用于将点云特征输入点云特征增强模型,得到特征增强的特征矩阵;
所述点云特征增强模型,基于自注意力机制,利用不同位置的不同通道元素的显式相关性实现点云特征的增强;
所述点云特征增强模型包括并联的Q、K和V三个分支以及聚合模块、最终线性投影层和相加模块;其中,
所述Q、K和V三个分支,用于将输入的点云x映射到三个不同的特征空间;
所述聚合模块,用于对Q、K和V三个分支的输出进行特征聚合,对点云的不同位置不同通道的特征进行增强,得到矩阵Q';
所述线性投影层,用于对矩阵Q'进行线性投影,并输入相加模块;
所述相加模块,用于对线性投影后的输出与输入的点云x进行相加,得到增强的特征矩阵Z。
6.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至4任一项所述的方法。
CN202210819738.5A 2022-07-13 2022-07-13 一种基于跨位置及通道的注意力机制的点云特征增强方法 Active CN115294343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210819738.5A CN115294343B (zh) 2022-07-13 2022-07-13 一种基于跨位置及通道的注意力机制的点云特征增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210819738.5A CN115294343B (zh) 2022-07-13 2022-07-13 一种基于跨位置及通道的注意力机制的点云特征增强方法

Publications (2)

Publication Number Publication Date
CN115294343A CN115294343A (zh) 2022-11-04
CN115294343B true CN115294343B (zh) 2023-04-18

Family

ID=83822484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210819738.5A Active CN115294343B (zh) 2022-07-13 2022-07-13 一种基于跨位置及通道的注意力机制的点云特征增强方法

Country Status (1)

Country Link
CN (1) CN115294343B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612435B (zh) * 2023-07-18 2023-10-27 吉林隆源农业服务有限公司 一种玉米高产栽培方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950467A (zh) * 2020-08-14 2020-11-17 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN114120270A (zh) * 2021-11-08 2022-03-01 同济大学 一种基于注意力和采样学习的点云目标检测方法
CN114444613A (zh) * 2022-02-11 2022-05-06 吉林大学 一种基于3d点云信息的物体分类与物体分割方法
CN114612660A (zh) * 2022-03-01 2022-06-10 浙江工业大学 一种基于多特征融合点云分割的三维建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733885A (zh) * 2020-12-23 2021-04-30 西人马帝言(北京)科技有限公司 点云识别模型的确定方法、点云识别的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950467A (zh) * 2020-08-14 2020-11-17 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN114120270A (zh) * 2021-11-08 2022-03-01 同济大学 一种基于注意力和采样学习的点云目标检测方法
CN114444613A (zh) * 2022-02-11 2022-05-06 吉林大学 一种基于3d点云信息的物体分类与物体分割方法
CN114612660A (zh) * 2022-03-01 2022-06-10 浙江工业大学 一种基于多特征融合点云分割的三维建模方法

Also Published As

Publication number Publication date
CN115294343A (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
Gwak et al. Generative sparse detection networks for 3d single-shot object detection
Liu et al. Polarized self-attention: Towards high-quality pixel-wise mapping
US11328180B2 (en) Method for updating neural network and electronic device
WO2022105125A1 (zh) 图像分割方法、装置、计算机设备及存储介质
US11934949B2 (en) Composite binary decomposition network
CN115147598B (zh) 目标检测分割方法、装置、智能终端及存储介质
US20200257902A1 (en) Extraction of spatial-temporal feature representation
WO2020211611A1 (zh) 用于语言处理的循环神经网络中隐状态的生成方法和装置
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
CN115294343B (zh) 一种基于跨位置及通道的注意力机制的点云特征增强方法
US20230135109A1 (en) Method for processing signal, electronic device, and storage medium
CN117876845A (zh) 基于双向状态空间模型的视觉表征方法与装置
CN114708436B (zh) 语义分割模型的训练方法、语义分割方法、装置和介质
CN118096961B (zh) 图像处理方法和装置
CN117273074A (zh) 一种数据处理方法及其装置
CN113421267A (zh) 一种基于改进PointConv的点云语义与实例联合分割方法及系统
WO2024046144A1 (zh) 一种视频处理方法及其相关设备
CN113127615A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN116189208A (zh) 用于文本识别的方法、装置、设备和介质
CN114595741A (zh) 一种基于邻域关系的高维数据快速降维方法以及系统
CN114612572A (zh) 一种基于深度学习的激光雷达与相机外参标定方法及装置
Zhu et al. Uncertainty-aware boundary attention network for real-time semantic segmentation
Hu et al. Ship Target Detection in SAR Images Based on FPGA
CN117935291B (zh) 草图生成模型的训练方法、草图生成方法、终端及介质
ZiWen et al. FasterMDE: A real-time monocular depth estimation search method that balances accuracy and speed on the edge

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Wang Li

Inventor after: Gao Hanwen

Inventor before: Zhang Xinyu

Inventor before: Wang Li

Inventor before: Liu Huaping

Inventor before: Gao Hanwen

CB03 Change of inventor or designer information