CN114445816A

CN114445816A - 一种基于二维图像和三维点云的花粉分类方法

Info

Publication number: CN114445816A
Application number: CN202210077307.6A
Authority: CN
Inventors: 杨敬平; 石宝; 杨德志; 徐喜媛; 武敏; 田红军; 宣鹏飞; 王宏燕; 王慧; 郝馨钰; 李淑荣
Original assignee: Inner Mongolia International Mongolian Hospital; Inner Mongolia Baogang Hospital; Inner Mongolia University of Technology
Current assignee: Inner Mongolia International Mongolian Hospital; Inner Mongolia Baogang Hospital; Inner Mongolia University of Technology
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-05-06

Abstract

本发明涉及计算机视觉技术领域，具体涉及一种基于二维图像和三维点云的花粉分类方法，该方法包括采用二维图像分类网络输出二维分类概率向量，采用三维点云分类网络输出三维分类概率向量；根据所述二维图像分类网络输出的所述二维分类概率向量和所述三维点云分类网络输出的所述三维分类概率向量，采用多层感知机网络进行融合，并输出融合分类概率向量。该方法，从二维图像和三维点云两个维度出发对花粉分类进行研究，训练两个独立的网络结构通道，结合平面和空间两个维度的信息，融合两个网络所提取的不同的特征表达，进一步对花粉进行分类识别，极大的提高了花粉分类的准确率。

Description

一种基于二维图像和三维点云的花粉分类方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于二维图像和三维点云的花粉分类方法。

背景技术

近年来伴随着深度学习的兴起，计算机视觉的诸多领域逐步进入人们的视野和应用，其中图像识别技术相关的研究和应用进展较为突出。2006年多伦多大学的Hinton首次提出了一种神经网络训练方法，从而发展出深度学习算法。深度学习相对于传统的图像分类技术而言，不需要人工提取图像特征，降低了训练难度。另外，传统的图像分类技术得到的特征往往是单层特征，而深度学习能够将浅层的特征进行抽象变换，从而得到图像的层次化特征，这使得深度学习相较于传统的图像分类技术而言，有更好的分类能力。ImageNet竞赛自2012年以来，在图像识别、图像检测、人脸识别等领域中，深度学习在其中扮演了越来越重要的作用，展现了其越来越大的研究与应用价值。从2015年开始，基于深度学习的图像识别技术在ImageNet中的图像识别能力已经高于人类。

目标识别技术的发展经历了文字识别、二维图像识别、三维物体识别等三个阶段。识别的难度越来越大，识别的目标越来越接近真实三维世界。目前，三维目标识别已成为计算机视觉领域中一个热门的研究课题，在智能交通、生物医学、工业自动化等多个领域具有大量的应用需求，同时也被应用于无人驾驶汽车等复杂场景的理解和交互。随着3D采集技术的快速发展，包括各种类型的3D扫描仪、激光雷达和RGB-D相机。这些传感器获取的三维数据可以提供丰富的几何、形状和比例信息。借助于二维图像，三维数据为更好地了解机器周围环境提供了机会。三维数据在不同领域有着广泛的应用，包括自动驾驶、机器人技术、遥感和医疗。三维数据通常可以用不同的格式表示，包括深度图像、点云、网格和体积网格。点云表示作为一种常用的表示格式，在三维空间中保留了原始的几何信息，而不需要进行任何离散化。因此，它是许多场景理解相关应用的首选表示，如自主驾驶和机器人技术。近年来，深度学习技术已成为计算机视觉、语音识别、自然语言处理等领域的研究热点。

因此，亟需一种基于二维图像和三维点云的花粉分类方法。

发明内容

本发明为了解决目前基于二维图像或三维点云花粉分类方法准确率低的问题，提供了一种基于二维图像和三维点云的花粉分类方法。

本发明为了实现上述目的，本发明提供了一种基于二维图像和三维点云的花粉分类方法，该方法包括：

S1、采用二维图像分类网络输出二维分类概率向量；

S2、采用三维点云分类网络输出三维分类概率向量；

S3、根据所述二维图像分类网络输出的所述二维分类概率向量和所述三维点云分类网络输出的所述三维分类概率向量，采用多层感知机网络进行融合，并输出融合分类概率向量。

优选地，根据所述二维分类概率向量、所述三维分类概率向量和所述融合分类概率向量各自的损失函数，加权成全局损失函数，以用于优化所述融合分类概率向量。

优选地，所述二维图像分类网络包括：

设置补丁编码组件，重新划分2D花粉图片的尺寸并进行向量映射，生成补丁序列；

设置窗口注意力模块，对补丁序列进行多头注意力计算；

设置补丁合并组件，减少补丁的数量，并增加补丁的维度。

优选地，所述窗口注意力模块包括多头注意力窗口组件和多头注意力转换窗口组件。

优选地，所述多头注意力窗口组件包括：

设置层标准化，对补丁序列进行规范；

设置窗口注意力机制，对补丁序列进行多头注意力计算；

设置前馈网络，对补丁序列的注意力特征图进行融合，并使其可以投影到所需的维度。

优选地，所述窗口注意力机制对补丁序列进行多头注意力计算的方式包括：

在补丁序列上划分M个窗口，每个窗口内有m×m个补丁，对每个窗口内的m×m个补丁进行多头注意力计算；

其中，所述多头注意力转换窗口组件包括设置转换窗口注意力机制，对窗口位置进行移动，并得到M₁个不重合且大小不相等的窗口，其中，M₁＞M。

优选地，所述三维点云分类网络包括：

设置T-net网络，对输入的点云数据集进行校准对齐；

设置多层感知机网络，对经所述T-net网络校准对齐的点云数据进行点云特征提取。

优选地，所述三维点云分类网络还包括设置对称网络，聚合所有点云数据在各个维度上的特征并以此得到最终的全局特征。

优选地，所述点云数据集为一组三维点云数据{P_i|i＝1，…，n}；

其中，每个点P_i是欧式空间中(x，y，z)坐标加上特征通道，所述特征通道包括颜色向量和法线向量。

优选地，所述T-net网络通过采样法和插值法以空间变换的方式对所述点云数据集进行校准。

根据上述技术方案，运用所述基于二维图像和三维点云的花粉分类方法，在实际应用过程中，采用二维图像分类网络输出二维分类概率向量，采用三维点云分类网络输出三维分类概率向量，再根据二维图像分类网络输出的二维分类概率向量和三维点云分类网络输出的三维分类概率向量，采用多层感知机网络进行融合，并输出融合分类概率向量。使输出的融合分类概率向量，融合了平面和空间两个维度的信息，极大的提高了花粉分类的准确率。

同时，通过设置加权了二维分类概率向量、三维分类概率向量以及融合分类概率向量各自损失函数的全局损失函数，对输出的融合分类概率向量进行优化，不仅使最后融合分类概率向量包括二维特征，三维特征，以及两者融合后的特征表达所携带的信息，还融合了两个维度对特征提取的优点，进一步提高了花粉分类的准确率。

通过设置多头注意力窗口组件，在窗口内执行注意力运算，降低了计算的复杂度，减少了冗余运算，又增加了对图片像素级的建模密度，实现了细粒度的任务处理，提高了图像分类的准确率。

通过设置多头注意力转换窗口组件，对窗口位置进行移动，极大的增加了窗口注意力机制的感受野，增加了对图片特征的表达。

通过设置补丁合并组件，减少补丁的数量，增加补丁的维度，实现了空间下采样和局部感受野，增加了像素空间表示的丰富性和多样性。

通过设置T-net网络，对输入点云数据集进行校准和对齐，保证了点云数据集对特征空间转换的不变形，增加了对点云分类语义信息的准确率，有效解决了三维空间中点云数据旋转，变形后所造成的语义缺失问题。

通过设置对称网络，可有效聚合所有点云数据在各个维度上的特征并以此得到最终的全局特征。

附图说明

图1是基于二维图像和三维点云的花粉分类方法的流程图；

图2是基于二维图像和三维点云的花粉分类模型的示意图；

图3是基于二维图像和三维点云的花粉分类模型的二维图像分类网络的示意图；

图4是二维图像分类网络的窗口注意力模块的示意图；

图5是多头注意力窗口组件窗口向多头注意力转换窗口组件窗口转换的示意图；

图6是基于二维图像和三维点云的花粉分类模型的三维点云分类网络示意图。

具体实施方式

以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，并不用于限制本发明实施例。

本发明提供了一种基于二维图像和三维点云的花粉分类方法，如图1-6所示，该基于二维图像和三维点云的花粉分类方法包括：

采用二维图像分类网络输出二维分类概率向量；

采用三维点云分类网络输出三维分类概率向量；

根据所述二维图像分类网络输出的所述二维分类概率向量和所述三维点云分类网络输出的所述三维分类概率向量，采用多层感知机网络进行融合，并输出融合分类概率向量。

根据本发明的一种优选的实施方式，根据所述二维分类概率向量、所述三维分类概率向量和所述融合分类概率向量各自的损失函数，加权成全局损失函数，以用于优化所述融合分类概率向量。

在本发明实施例中，所述融合分类概率向量的计算公式如下所示：

Y_final＝softmax(MLP(Z_2D+Z_3D)W+b)；

所述全局损失函数的计算公式如下所示：

其中，Y_final为融合分类概率向量，softmax和

是激活函数，MLP为多层感知机网络，Z_2D为二维分类概率向量，Z_3D为三维分类概率向量，W和B分别是权值矩阵及偏置，L_global是全局损失函数，L_CE是交叉熵损失，y是正确标签，λ是超参数，λ超参数用于调节二维图像分类网络和三维点云分类网络输出量的重要性比例。

根据本发明的一种优选的实施方式，所述二维图像分类网络包括：

设置窗口注意力模块，对补丁序列进行多头注意力计算；

设置补丁合并组件，减少补丁的数量，并增加补丁的维度。

进一步地，所述窗口注意力模块包括多头注意力窗口组件和多头注意力转换窗口组件。

进一步地，所述多头注意力窗口组件包括：

设置层标准化，对补丁序列进行规范；

设置窗口注意力机制，对补丁序列进行多头注意力计算；

进一步地，所述窗口注意力机制对补丁序列进行多头注意力计算的方式包括：

在本发明实施例中，所述二维图像分类网络为Windows-Transformer模型，如图3所示，Windows-Transformer模型使用所述补丁编码组件将花粉图像补丁编码为1D的补丁序列作为所述窗口注意力模块的输入，通过基于窗口的所述窗口注意力模块对补丁序列执行全局的多头注意力运算，使用所述补丁合并组件减少补丁的数量，增加每个补丁的维度，再依次进入所述窗口注意力模块、所述补丁合并组件和所述窗口注意力模块，以保证满足多尺度空间建模的要求，并最终输出注意力特征图，最后通过多层感知机网络聚合所有特征输出所述二维分类概率向量。

进一步，所述Windows-Transformer模型的所述补丁编码组件将2D的花粉图片编码为1D的补丁序列作为所述窗口注意力模块的输入。具体地，所述补丁编码组件将输入花粉图片xεR^H×W×C划分为2D补丁序列x_PεR^N×(P^2˙C1)，H、W是输入花粉图像的尺寸，C是RGB通道数，R是补丁序列的集合，N是补丁的个数，(P，P)是每个补丁的尺寸，C1是每个补丁的维数(或通道数)。其中，以上由公式H×W×C→N×(P²˙C1)计算所得，N＝HW/P²。示例性的，取P＝4，得到x_PεN×48的序列长度，N＝HW/16＝H/4×W/4，然后使用可训练线性变换对输入所述窗口注意力模块中的补丁的维度进行重新映射，得到(N，D)的补丁序列。其中N是补丁个数，D是每个补丁的维数。

进一步，所述窗口注意力模块包括多头注意力窗口组件和多头注意力转换窗口组件，其中，所述多头注意力窗口组件和所述多头注意力转换窗口组件分别对应如图4所示左和右虚线框，二者的区别在于执行多头注意力时所用的注意力机制不同。经所述补丁编码组件编码成的补丁序列，首先，通过层标准化(即层标准化函数LayerNorm(x))，对经所述补丁编码组件编码成的补丁序列进行规范，接着将每个补丁线性投影为可训练的三组向量值，分别为查询Q、键K、值V，并且通过以下公式执行注意力运算：

其中，QεR^n×d _k，KεR^m×d _k，VεR^m×d _v。Q，K，V分别表示查询、键、值，softmax为激活函数，d_k为键的维度，d_v为值的维度，

为比例因子。Q和K点积的结果除以比例因子，可增大激活函数反向传播时的梯度值，避免梯度消失。通过所有补丁的K对Q进行点积生成注意力特征图，并且除以

然后经过softmax激活函数作为V的权重输出至下一阶段，该注意力特征图计算每个所述多头注意力窗口组件内所有补丁之间的长距离的依赖关系，并对补丁之间的全局关联进行建模。

所述窗口注意力机制还利用不同的权值矩阵将每个输入补丁线性投影到h个不同的子空间，每个子空间再并行地执行注意力机制，将它们的输出值连接起来再次进行投影，得到最终的值，公式如下：

MultiΗead(Q,K,V)＝Concat(head₁,···,head_h)W^O

where head_i＝Αttention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中参数为投影矩阵W_i ^QεR^dmodel×d _k，W_i ^KεR^dmodel×d _k，W_i ^VεR^dmodel×d _v，W^OεR^hd _v ^×dmodel。Concat为向量拼接操作，h为多头注意力的头数，W^O是对各个头的注意力输出进行拼接后的向量线性映射函数。

经过所述窗口注意力机制计算完多头注意力后的补丁序列，再经过层标准化进行规范后通过所述前馈网络，所述前馈网络主要包括多层感知机网络(MLP)以及GELU激活函数，主要作用是对补丁序列的注意力特征图进行融合，并投影到所需的维度。其中，在所述窗口注意力机制、所述转换窗口注意力机制和所述前馈网络的后面均运用残差连接。

现有技术中，普通的全局注意力机制计算每个补丁和其他所有补丁之间的注意力特征图，全局自注意力机制的计算复杂度为O(N²d)，其中N是补丁个数，d是线性投影后的维度。全局自注意力机制的计算复杂度与序列长度N成平方关系，当需要处理的图片分辨力较高或处理密集预测任务时，如语义分割时需要处理像素级密度，自注意力机制的计算复杂度与序列长度的平方成正比，导致计算量过大。因此，本发明放弃全局的自注意力机制，采用一个基于窗口的所述窗口注意力模块。

具体地，基于所述窗口注意力机制在经层标准化规范的补丁序列的补丁上划分M个窗口，每个窗口内有m×m个补丁，对每个窗口内的m×m个补丁进行多头注意力计算(即计算每个窗口内所有补丁的注意力特征图)，由于窗口内的补丁数量远小于总体的补丁数，所以基于窗口的所述窗口注意力机制与序列长度N＝hw成线性关系。二者的计算复杂度如下所示。

Ω(MSA)＝4hwC²+2(hw)²C

Ω(W-MSA)＝4hwC²+2M²hwC

其中MSA和W-MSA分别为多头注意力机制和基于窗口的所述窗口注意力机制，hw为图片尺寸，C为线性投影后的维度，M为窗口数。

基于窗口的所述窗口注意力机制大幅节约了计算量，提高了对图片像素建模的密度，但牺牲了所有窗口之间关系的建模，不重合的窗口之间缺乏信息交流影响了所述Windows-Transformer模型的表征能力，本发明为了解决这个问题，在所述窗口注意模块中使用所述多头注意力窗口组件和所述多头注意力转换窗口组件交替进行，如图5所示。在所述多头注意力窗口组件中将N＝n×n个补丁划分为M个窗口，在每个窗口内对m×m个补丁执行多头注意力运算。在所述多头注意力转换窗口组件中，对窗口位置进行移动得到M₁个不重合且大小不相等的窗口，且M₁＞M，通过所述转换窗口注意力机制的划分方式在所述窗口注意力机制相邻的不重合窗口之间引入连接，极大的增加了所述窗口注意力机制的感受野以及对图片特征的表达。

所述窗口注意力模块的整体公式流程如下所示：

其中W-MSA为多头注意力窗口组件，SW-MSA为多头注意力转换窗口组件，MLP为多层感知机网络，LN为层标准化函数。

进一步，所述补丁合并组件的补丁合并操作与补丁编码类似，目的在于减少补丁的数量，增加补丁的维度。具体地，将得到的上一层输出为H/4×W/4×D的张量，通过补丁合并把相邻的2×2个补丁结合到一起，得到的补丁维度为4D，然后再通过一次线性变换对每个补丁进行降维至2D，至此通过补丁合并将维度为H/4×W/4×D的张量变成了维度为H/8×W/8×2D的张量。同样地，后续的每个阶段的补丁合并操作都会对补丁的数量和维度进行更改。补丁的维度变换如下所示：

其中HW为图片尺寸，4，8，16，32为每个阶段的补丁尺寸，D，2D，4D，8D为每个阶段的补丁维度。

通过四个阶段的补丁合并后得到维度为H/32×W/32×8D的补丁注意力特征图，通过作用到补丁注意力特征图的数量上的自适应全局平均函数来聚合所有补丁的全局信息，再利用补丁注意力特征图的平移不变形增加所述Windows-Transformer模型的鲁棒性。

根据一种优选的实施方式，所述三维点云分类网络包括：

设置T-net网络，对输入的点云数据集进行校准对齐；

进一步地，所述三维点云分类网络还包括设置对称网络，聚合所有点云数据在各个维度上的特征并以此得到最终的全局特征。

进一步地，所述点云数据集为一组三维点云数据{P_i|i＝1，…，n}；

进一步地，所述T-net网络通过采样法和插值法以空间变换的方式对所述点云数据集进行校准。

在本发明实施例中，如图6所示，所述三维点云分类网络为PointNet网络，所述PointNet网络直接使用无序的所述点云数据集作为输入，所述点云数据集为一组3维点云数据{P_i|i＝1，…，n}，其中每个点P_i是欧式空间中(x，y，z)坐标加上特征通道(如颜色，法线等向量)。具体地，所述PointNet网络接收维度为N×3的2D张量作为输入，其中N代表点云数量，3代表对应的欧式空间坐标。输入的所述点云数据集先通过一个所述T-Net网络并相乘来保证对齐，同时保证所述点云数据集对特征空间转换的不变形。然后通过多层感知机网络(MLP)对每个点云数据进行特征提取，然后再利用一个所述T-Net网络对特征进行对齐后，再使用多层感知机网络(MLP)进行点云特征提取，然后使用所述对称网络聚合所有点云在各个维度上的特征，并以此得到最终的全局特征，最后将全局特征通过多层感知机网络(MLP)融合输出所述三维分类概率向量。

进一步，为保持点云数据在空间中经过某些几何变换后的语义信息不发生改变，使用所述T-Net网络通过采样法和插值法对所述点云数据集进行空间变换以达到校准的效果。所述T-Net网络用来预测放射变换矩阵，并直接将此变换应用于输入点的坐标，所述T-Net网络类似于主干中的大网络，由点云特征提取，最大池化层和全连接层等基本模块组成，学习到的变换矩阵将保证点云数据在空间变换下的不变性。具体地，对输入的维度为N×3的点云数据通过T-Net网络学习得到一个3×3的旋转矩阵，该旋转矩阵可将空间中旋转后的点云数据进行校准处理。同时，还可以将学习到的变换矩阵进一步应用到特征空间上，对特征空间中的高维点云数据进行对齐。具体地，将点云数据通过特征提取到k维的冗余空间后，用学习到的k×k变换矩阵对k维的点云特征做进一步的空间校准，并在softmax训练损失中加入一个正则化项，将特征变换矩阵约束为类似正交矩阵，通过添加正则化项，使优化变得更加稳定，从而使所述三维点云分类网络获得更好的性能。正则化项如下所示：

L_reg＝‖I-AA^T‖²

其中L_reg为正则化损失，I为点云数据，A为学习到的变换矩阵。

进一步，为了保证网络对输入序列的不变性，应用所述对称网络即基于对称函数MaxPooling的对称网络，无论输入的顺序是什么，MaxPooling都会得到相同的结果。具体地，上一层经过变换矩阵映射的校准点云数据经过多层感知机网络(MLP)提取点云特征，然后通过MaxPooling聚合高维特征空间中的所有点云数据来得到最终的全局特征，每个点云数据之间共享MLP层的权值。通过多层感知机网络(MLP)和MaxPooling函数来估计并且得到一个定义在点云数据集上的一般函数，如下所示：

f{x₁,…,x_n}≈g(h(x₁),…,h(x_n))

其中x₁,…,x_n为n个点云数据，h为多层感知机网络，R为点云数据特征的集合，g为MaxPooling函数，f为输入点云数据映射到高维特征空间进行分类的一般函数。

在计算过全局特征的点云向量之后，通过将全局特征与未经过上述一般函数的单个点云特征相连，将全局信息反馈于每个点云特征，通过这种连接得到基于每个点云数据的局部语义信息和全局语义信息。

本发明提供的基于二维图像和三维点云的花粉分类方法，在实际应用过程中，采用二维图像分类网络输出二维分类概率向量，采用三维点云分类网络输出三维分类概率向量，再根据二维图像分类网络输出的二维分类概率向量和三维点云分类网络输出的三维分类概率向量，采用多层感知机网络进行融合，并输出融合分类概率向量。使输出的融合分类概率向量，融合了平面和空间两个维度的信息，极大的提高了花粉分类的准确率。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于此。在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。但这些简单变型和组合同样应当视为本发明所公开的内容，均属于本发明的保护范围。

Claims

1.一种基于二维图像和三维点云的花粉分类方法，其特征在于，所述基于二维图像和三维点云的花粉分类方法包括：

采用二维图像分类网络输出二维分类概率向量；

采用三维点云分类网络输出三维分类概率向量；

2.根据权利要求1所述的基于二维图像和三维点云的花粉分类方法，其特征在于，根据所述二维分类概率向量、所述三维分类概率向量和所述融合分类概率向量各自的损失函数，加权成全局损失函数，以用于优化所述融合分类概率向量。

3.根据权利要求1所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述二维图像分类网络包括：

设置窗口注意力模块，对补丁序列进行多头注意力计算；

设置补丁合并组件，减少补丁的数量，并增加补丁的维度。

4.根据权利要求3所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述窗口注意力模块包括多头注意力窗口组件和多头注意力转换窗口组件。

5.根据权利要求4所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述多头注意力窗口组件包括：

设置层标准化，对补丁序列进行规范；

设置窗口注意力机制，对补丁序列进行多头注意力计算；

6.根据权利要求5所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述窗口注意力机制对补丁序列进行多头注意力计算的方式包括：

7.根据权利要求1所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述三维点云分类网络包括：

设置T-net网络，对输入的点云数据集进行校准对齐；

8.根据权利要求7所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述三维点云分类网络还包括设置对称网络，聚合所有点云数据在各个维度上的特征并以此得到最终的全局特征。

9.根据权利要求7所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述点云数据集为一组三维点云数据{P_i|i＝1，…，n}；

10.根据权利要求7所述的基于二维图像和三维点云的花粉分类方法，其特征在于，所述T-net网络通过采样法和插值法以空间变换的方式对所述点云数据集进行校准。