CN117392392B

CN117392392B - 一种割胶线识别与生成方法

Info

Publication number: CN117392392B
Application number: CN202311705674.7A
Authority: CN
Inventors: 蔡磊; 吴韶华
Original assignee: Henan Institute of Science and Technology
Current assignee: Henan Institute of Science and Technology
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-02-13
Anticipated expiration: 2043-12-13
Also published as: CN117392392A

Abstract

本发明提供一种割胶线识别与生成方法，包括以下步骤：搭建网络模型，并对网络模型进行训练，将待处理图像输入网络模型，并输出特征图，对特征图进行多尺度特征融合，使用softmax函数对多尺度特征融合输出结果中的像素点进行分类，得到最终的分割结果。在编码器中，图像中每个像素点的特征映射都会通过一个注意力模块生成一个注意力权重，用于调整解码器路径中相应特征映射的权重；然后，ASPP模块通过多尺度特征融合生成更强大的特征表示，并将生成的特征传递给解码器路径，从而提高网络的分割性能；最后，在解码器路径中，将编码器路径中的特征映射解码为分割结果，并将注意力权重应用于特征映射，以进一步优化分割结果。

Description

一种割胶线识别与生成方法

技术领域

本发明涉及割胶线识别与生产技术，具体涉及一种割胶线识别与生成方法。

背景技术

割胶线识别与生成是推进自主化割胶作业的必要前提。然而，由于光照变化、背景噪声的存在等原因，造成了割胶线识别效果不佳的问题，这使得在低光照条件或复杂背景环境下，割胶线的检测精度受到限制；而且，在割胶过程中可能出现的割胶线断线和连线情况，使得新割胶线的路径生成难度增加；同时，因为割胶线与树皮的颜色和纹理相似，造成了割胶线与树皮难以区分的问题，这使得算法在处理图像时容易产生误判，从而影响了割胶线的定位精度；最后，因为橡胶树的割胶过程中，割胶线的宽度和厚度是不同的，造成了割胶线识别难度增加的问题，这使得算法难以准确识别不同宽度和厚度的割胶线，从而影响了割胶的精度和效率。

传统的技术方法也为实现割胶线的识别与生成做出了一定的贡献。比如说：为了能够在弱光条件下捕获和检测图像中的割胶线，提出了一种近距离天然橡胶图像采集技术和割胶线检测算法；为了去除背景中的干扰因素，采用OTSU方法将图片中割胶线和橡胶分离，可以得到精确的割胶线和橡胶二值图像；为了提高割胶线检测时像素分类的精度，提出了一种多分支深度卷积网络，同时也对使用机械臂的割胶机器人视觉系统进行了细节描述；利用密集卷积骨干网络和残差块中的特征重用原理提高网络的学习能力，同时实现对目标的高效检测；采用Mish激活函数代替ReLU系列激活函数来提高网络训练的动态性和准确性，但这会产生更大的计算量。

以上方法在各自研究背景下进行的割胶线识别均有优秀的表现，但均有一定的局限性，无法满足因气候、环境等因素导致的割胶线多样化识别与生成需求。

发明内容

针对现有技术中的问题，提供一种割胶线识别与生成方法，目的在于实现在实际场景中进行割胶线的识别与生成。

一种割胶线识别与生成方法，包括以下步骤：

步骤1：搭建网络模型，网络模型搭建包括以下步骤：

步骤1.1：对输入图像进行预处理，并得到图像大小固定的572×572单通道的特征图；

步骤1.2：将特征图输入到网络模型中；

步骤1.3：通过编码器路经对特征图进行四次下采样处理；

步骤1.4：计算输入数据的权重分布，调整输入数据的权重分布，使得模型能够聚焦于输入数据的重要部分，忽略其他不太相关的信息；采用空洞卷积来捕捉更大范围的上下文信息，同时使用多尺度特征融合来将不同空间尺度的特征进行融合；

步骤1.5：通过解码器路经对512通道特征图进行四次上采样处理，完成网络模型搭建；

步骤2：对网络模型进行训练；

步骤3：将待处理图像输入网络模型，并输出特征图，对特征图/>进行多尺度特征融合；

多尺度特征融合包括一下步骤：

步骤3.1：将特征图进行1×1卷积操作；

步骤3.2：分别通过GMP与GAP后的两个结果均进行全连接操作得到特征图与；

步骤3.3：将与/>逐元素求和得到通道注意力特征图/>；

步骤3.4：获得一维数组，/>；

步骤3.5：利用空洞率为6，12，18的3个3×3空洞卷积分别对特征图进行处理，并分别得到特征图/> ；

步骤3.6：利用Concat操作将特征图进行融合，并得到空间注意力特征图/>，/>；

其中，c( )为卷积操作；为Concat操作；/>为空洞率为/>的空洞卷积操作；/>为空间注意力特征图，/>经过一层1×1卷积运算转化为一个一维数组/>，一维数组/>包含了该空间注意力特征图中特征点的所有信息；

步骤3.7：最终多尺度特征融合输出结果为：

表示原始图片中局部细节特征的集合，集合中每一个元素/>表示图像中的一个特征点；

步骤4：使用softmax函数对中每个像素点进行分类，得到最终的分割结果。

进一步为：步骤2具体包括以下步骤：

步骤2.1：准备数据集，数据集包括图像X和对应的标签或掩码图像Y，其中掩码图像Y包含了每个像素的分类标签或分割掩码；

步骤2.2：对图像数据进行标注得到图像像素的分类标签；在对目标框和关键区域进行标注时，本发明标注两个部分，第一部分是橡胶树树干上适合取胶的区域，第二部分是橡胶树树干上已有的割胶线区域；

步骤2.3：将训练图像X通过编码器部分传递，以获取特征表示；

步骤2.4：注意力权重通过全连接层和激活函数进行计算：

其中，表示全连接层，/>是特征图，/>是用于计算注意力的目标；

步骤2.5：将计算得到的权值通过网络模型，前向传播结束，计算模型输出标签与真实标签/>之间的损失：

其中，表示损失值，/>表示真实标签，/>表示模型预测结果；

步骤2.6：然后根据损失函数的梯度信息进行反向传播，计算输出值与目标值之间的误差以调整权重参数，计算过程表示为：

其中，表示关于权重参数/>的梯度，/>表示关于该层的激活函数的梯度，表示学习率；

步骤2.7：跳转到步骤2.4并在损失L接近稳定时，执行步骤2.8；

步骤2.8：得到训练过的网络模型。

进一步为：网络模型包括：

编码器，用于逐步减小特征图的尺寸并提取特征；

中间层，用于整合编码器提取的特征，捕获特征图中不同尺度的特征；

解码器，用于逐步恢复编码器中特征图的尺寸，并精细调整分割结果；

跳跃连接模块，将编码器路经中的特征与解码器路经中的特征连接在一起，跳跃连接模块将编码器中特征图直接连接到解码器中对应层或下一层的卷积神经网络中；

最终分类层，用于生成分割掩模，该分割掩模对图像中的每个像素进行分类；最终分类层通常由一个或多个全连接层组成，在本发明中为了最大程度减少计算量，采用一个1×1卷积层代替全连接层的作用。

进一步为：编码器包括卷积层，用于从输入图像中提取特征；激活函数，用于将池化层的线性输出通过非线性激活函数处理；最大池化层，用于将输入特征图分成2x2的窗口，并在每个窗口中选择最大值作为输出，以减小特征图的尺寸。

进一步为：中间层包括：

注意力机制模块CBAM，用于通过计算输入数据的权重分布，调整输入数据的权重分布，使得模型能够聚焦于输入数据的重要部分，忽略其它不相关的信息，不相关信息是指原始图像背景中比如杂草、光线、不规则橡胶树干等对割胶线识别有干扰的特征；

ASPP模块，用于利用空洞卷积来捕捉更大范围的上下文信息，同时使用多尺度特征融合来将不同空间尺度的特征进行融合。

进一步为：解码器包括转置卷积层，用于通过扩大输入图像的尺寸，将低分辨率的图像恢复至原始分辨率，并融合跳跃连接中提取的特征；卷积层，其卷积核依为3×3，padding值为1，用以生成分割掩膜并对图像中每个像素进行分类。

进一步为：下采样处理包括以下步骤：

步骤1.3.1：通过卷积层对高维输入数据进行降维处理，并自动提取原始数据的核心特征，使得网络能够学习特定于数据的特征；

步骤1.3.2：通过激活函数引入非线性特性，使神经网络适应特征映射关系。

步骤1.3.3：通过最大池化层，对邻域内的特征点取最大；

步骤1.3.4：得到尺寸为32×32的512通道特征图。

进一步为：四次上采样处理包括以下步骤：

步骤1.5.1：通过扩大输入图像的尺寸，将低分辨率的图像恢复至原始分辨率；

步骤1.5.2：通过跳跃连接将原始输入直接与最后一个最大池化层输出相加或拼接起来；融合方式为：第一次下采样过程中卷积层输出的尺寸为285×285、通道数为64的特征图与第四次上采样输出的尺寸同样为285×285、通道数为64的特征图进行拼接组成尺寸为285×285、通道数为128的特征图；

步骤1.5.3：每一次上采样的结果均与临近的一次下采样过程中卷积层的结果之间进行跳跃连接，临近的一次指的是第一次下采样与第四次上采样、第二次下采样与第三次上采样、第三次下采样与第二次上采样或第四次下采样与第一次上采样；

步骤1.5.4：生成分割掩膜对图像中每个像素进行分类；

步骤1.5.5：得到一个281×281的特征图。

进一步为：四次上采样结束，特征图会进来一次3×3卷积和一次1×1卷积，以生成分割掩膜；生成的分割掩膜是指用于标识图像中不同物体或区域的掩膜，将图像中的不同对象分离出来，生成对应的二值图或多值图，表示每个对象的位置和形状。

进一步为：步骤4中的分类过程如下：

其中，表示特征图中不同通道/>中第/>个位置上的特征点；/>表示特征点/>通过激活函数后的输出；/>表示/>经过交叉熵运算后产生的概率值。

本发明的有益效果：在编码器中，图像中每个像素点的特征映射都会通过一个注意力模块生成一个注意力权重，用于调整解码器路径中相应特征映射的权重；然后，ASPP模块通过多尺度特征融合生成更强大的特征表示，并将生成的特征传递给解码器路径，从而提高网络的分割性能；最后，在解码器路径中，将编码器路径中的特征映射解码为分割结果，并将注意力权重应用于特征映射，以进一步优化分割结果。

附图说明

图1为本发明的流程框图；

图2为最大池化层的输入特征图图示。

具体实施方式

下面结合附图对本发明做详细说明。下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本发明实施例中的左、中、右、上、下等方位用语，仅是互为相对概念或是以产品的正常使用状态为参考的，而不应该认为是具有限制性的。

一种割胶线识别与生成方法，包括以下步骤：

步骤1：搭建网络模型，该网络模型包括：

编码器，用于逐步减小特征图的尺寸并提取特征；

编码器包括卷积层，用于从输入图像中提取特征；激活函数，用于将池化层的线性输出通过非线性激活函数处理，从而可模拟任意函数，进而增强网络的表征能力；最大池化层，用于将输入特征图分成2x2的窗口，并在每个窗口中选择最大值作为输出，以减小特征图的尺寸；

网络中加入激活函数用于引入非线性特性，由于大多数现实世界的问题是非线性的，所以需要使用非线性的激活函数来模拟这些复杂的关系；通过使用非线性的激活函数，神经网络可以学习和理解更复杂的映射关系，进而可以模拟任意函数；进而增强网络的表征能力；

在最大池化层中将输入特征图分成2x2的窗口；然后，在每个窗口中选择最大值作为输出；通过这种方式，每个2x2的输入特征图窗口将变为一个单一的输出值，从而减小了特征图的尺寸，实现了在保持信息的同时提高计算效率，帮助网络捕获特征的空间分布；如图2所示为输入特征图，数字表示像素点的值，最大池化操作通过筛选每个2x2窗口中的最大像素值，得到不同颜色区域中的最大元素值作为输出，实现减小特征图尺寸的目的；

中间层包括：注意力机制模块CBAM，用于通过计算输入数据的权重分布，调整输入数据的权重分布，使得模型能够聚焦于输入数据的重要部分，忽略其它不相关的信息，“不相关信息”是指原始图像背景中比如杂草、光线、不规则橡胶树干等对割胶线识别有干扰的特征；ASPP模块，用于利用空洞卷积来捕捉更大范围的上下文信息，同时使用多尺度特征融合来将不同空间尺度的特征进行融合；

解码器包括转置卷积层，用于通过扩大输入图像的尺寸，将低分辨率的图像恢复至原始分辨率，并融合跳跃连接中提取的特征；卷积层，其卷积核依为3×3，padding值为1，用以生成分割掩膜并对图像中每个像素进行分类；

跳跃连接模块，将编码器路经中的特征与解码器路经中的特征连接在一起；跳跃连接模块将编码器中某一层的特征图直接连接到解码器中对应层或下一层的卷积神经网络中；这种连接方式允许解码器访问编码器中更丰富的特征信息，从而增强了网络的特征提取和重建能力；

最终分类层，用于生成分割掩模，该分割掩模对图像中的每个像素进行分类；最终分类层通常由一个或多个全连接层（也称为密集层）组成，在本发明中为了最大程度减少计算量，采用一个1×1卷积层代替全连接层的作用；1×1卷积层的作用主要是调整网络层的通道数量和控制模型复杂性，它不识别空间模式，只融合通道，可以有效地调整特征图的通道数，使得网络可以更好地适应各种复杂的特征映射关系，从而提升网络的表征能力，全连接层作为最终分类层，采用softmax函数输出一个概率分布，表示输入数据属于每个类别的概率；

网络模型搭建包括以下步骤：

步骤1.2：将特征图输入到网络模型中；

步骤1.3：通过编码器路经对特征图进行四次下采样处理；

下采样处理包括以下步骤：

步骤1.3.1：通过卷积层对高维输入数据进行降维

处理，并自动提取原始数据的核心特征，使得网络能够学习特定于数据的特征；

步骤1.3.2：通过激活函数引入非线性特性，使神经网络适应特征映射关系，从而提升网络的表征能力。

步骤1.3.3：通过最大池化层，本发明采用最大池化，对邻域内的特征点取最大；池化操作可以去除杂余信息，保留关键信息；

步骤1.3.4：得到尺寸为32×32的512通道特征图。

步骤1.5：通过解码器路经对512通道特征图进行四次上采样处理：

四次上采样处理包括以下步骤：

步骤1.5.2：通过跳跃连接将原始输入直接与最后一个最大池化层输出相加或拼接起来，保留原始图像中更多的细节和语义信息；融合方式为：第一次下采样过程中卷积层输出的尺寸为285×285、通道数为64的特征图与第四次上采样输出的尺寸同样为285×285、通道数为64的特征图进行拼接组成尺寸为285×285、通道数为128的特征图；

步骤1.5.3：每一次上采样的结果均与临近的一次下采样过程中卷积层的结果之间进行跳跃连接，临近的一次指的是第一次下采样与第四次上采样、第二次下采样与第三次上采样、第三次下采样与第二次上采样或第四次下采样与第一次上采样；这一操作通过将下采样后的特征与上采样的特征相结合，有助于网络捕获多尺度的信息以提高了分割性能；同时，有效缓解了梯度消失的问题，使的梯度能够更轻松地传播回较早的层，从而有助于训练更深的网络；

步骤1.5.4：生成分割掩膜对图像中每个像素进行分类；四次上采样结束，特征图会进来一次3×3卷积和一次1×1卷积，以生成分割掩膜；生成的分割掩膜是指用于标识图像中不同物体或区域的掩膜，可以将图像中的不同对象分离出来，生成对应的二值图或多值图，表示每个对象的位置和形状；

步骤1.5.5：得到一个281×281的特征图，降低了模型训练过程中的计算复杂度，提高了模型的泛化能力，完成网络模型搭建。

步骤2：对网络模型进行训练，包括以下步骤：

步骤2.1：准备数据集，数据集包括图像X和对应的标签或掩码图像Y，其中Y包含了每个像素的分类标签或分割掩码；

步骤2.4：注意力权重通过全连接层和激活函数进行计算：

全连接层为中间层的一部分，是对CBAM与ASPP模块的重构后的补充；

其中，表示损失值，/>表示真实标签，/>表示模型预测结果；

步骤2.6：然后根据损失函数的梯度信息进行反向传播，计算输出值与目标值之间的误差以调整权重参数，计算过程可表示为：

步骤2.7：跳转到步骤2.4并在损失L接近稳定时，执行步骤2.8；

步骤2.8：得到训练过的网络模型。

多尺度特征融合包括一下步骤：

步骤3.1：将特征图进行1×1卷积操作；

步骤3.3：将与/>逐元素求和得到通道注意力特征图/>；

步骤3.4：获得一维数组，/>；

其中，c( )为卷积操作；为Concat操作；/>为空洞率为的空洞卷积操作；/>为空间注意力特征图，/>经过一层1×1卷积运算转化为一个一维数组/>，一维数组/>包含了该空间注意力特征图中特征点的所有信息；

步骤3.7：最终多尺度特征融合输出结果为：

步骤4：使用softmax函数对中每个像素点进行分类，得到最终的分割结果；

分类过程如下：

其内容主要分为三部分：网络模型搭建、模型训练、多尺度特征融合与分割结果生成。首先，在编码器路径中卷积层和池化层交替出现，逐步减小特征图的尺寸并提取特征。其次，在解码器路径中卷积层和解码器层交替出现，逐步恢复特征图的尺寸并精细调整分割结果。最后，通过扩展模块在多个尺度上提取特征，并将这些特征合并起来进一步优化分割结果。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种割胶线识别与生成方法，其特征在于：包括以下步骤：

步骤1：搭建网络模型，网络模型搭建包括以下步骤：

步骤1.2：将特征图输入到网络模型中；

步骤1.3：通过编码器路经对特征图进行四次下采样处理；

步骤1.4：计算输入数据的权重分布，调整输入数据的权重分布，使得模型能够聚焦于输入数据的重要部分；采用空洞卷积来捕捉更大范围的上下文信息，同时使用多尺度特征融合来将不同空间尺度的特征进行融合；

步骤2：对网络模型进行训练；

步骤3：将待处理图像输入网络模型，并输出特征图m，对特征图m进行多尺度特征融合；

多尺度特征融合包括一下步骤：

步骤3.1：将特征图进行1×1卷积操作；

步骤3.2：分别通过GMP与GAP后的两个结果均进行全连接操作得到特征图m_m与m_a；

步骤3.3：将m_m与m_a逐元素求和得到通道注意力特征图m_c；

步骤3.4：获得一维数组J₁，J₁＝m·m_c；

步骤3.5：利用空洞率为6，12，18的3个3×3空洞卷积分别对特征图J₁进行处理，并分别得到特征图d₆(J₁)，d₁₂(J₁)，d₁₈(J₁)；

步骤3.6：利用Concat操作将特征图d₆(J₁)，d₁₂(J₁)，d₁₈(J₁)进行融合，并得到空间注意力特征图m_s，m_s＝C[d₆(J₁)，d₁₂(J₁)，d₁₈(J₁)]；

其中，c()为卷积操作；C[]为Concat操作；d_i为空洞率为i的空洞卷积操作；m_s为空间注意力特征图，m_s经过一层1×1卷积运算转化为一个一维数组J₂，一维数组J₂包含了该空间注意力特征图中特征点的所有信息；

步骤3.7：最终多尺度特征融合输出结果为：

O＝J₁·J₂

O表示原始图片中局部细节特征的集合，集合中每一个元素x表示图像中的一个特征点；

步骤4：使用softmax函数对O中每个像素点进行分类，得到最终的分割结果。

2.根据权利要求1所述的割胶线识别与生成方法，其特征在于：步骤2具体包括以下步骤：

步骤2.4：注意力权重通过全连接层和激活函数进行计算：

其中，FC表示全连接层，是特征图，τ是用于计算注意力的目标；

步骤2.5：将计算得到的权值通过网络模型，前向传播结束，计算模型输出标签Y′与真实标签Y之间的损失：

L＝-Σ(Y*log(Y′)+(1-Y)*log(1-Y′))

其中，L表示损失值，Y表示真实标签，Y′表示模型预测结果；

步骤2.6：然后根据损失函数的梯度信息进行反向传播，计算输出值与目标值之间的误差以调整权重参数θ^l，计算过程表示为：

其中，表示关于权重参数θ^l的梯度，/>表示关于该层的激活函数的梯度，α表示学习率；

步骤2.7：跳转到步骤2.4并在损失L接近稳定时，执行步骤2.8；

步骤2.8：得到训练过的网络模型。

3.根据权利要求1所述的割胶线识别与生成方法，其特征在于：网络模型包括：

编码器，用于逐步减小特征图的尺寸并提取特征；

最终分类层，用于生成分割掩模，该分割掩模对图像中的每个像素进行分类；最终分类层通常由一个或多个全连接层组成。

4.根据权利要求1所述的割胶线识别与生成方法，其特征在于：编码器包括卷积层，用于从输入图像中提取特征；激活函数，用于将池化层的线性输出通过非线性激活函数处理；最大池化层，用于将输入特征图分成2x2的窗口，并在每个窗口中选择最大值作为输出，以减小特征图的尺寸。

5.根据权利要求1所述的割胶线识别与生成方法，其特征在于：中间层包括：

注意力机制模块CBAM，用于通过计算输入数据的权重分布，调整输入数据的权重分布，使得模型能够聚焦于输入数据的重要部分，去除其它不相关的信息，不相关信息是指原始图像背景中对割胶线识别有干扰的特征，即杂草、光线和不规则橡胶树干；

6.根据权利要求1所述的割胶线识别与生成方法，其特征在于：解码器包括转置卷积层，用于通过扩大输入图像的尺寸，将低分辨率的图像恢复至原始分辨率，并融合跳跃连接中提取的特征；卷积层，其卷积核依为3×3，padding值为1，用以生成分割掩膜并对图像中每个像素进行分类。

7.根据权利要求1所述的割胶线识别与生成方法，其特征在于：下采样处理包括以下步骤：

步骤1.3.3：通过最大池化层，对邻域内的特征点取最大；

步骤1.3.4：得到尺寸为32×32的512通道特征图。

8.根据权利要求1所述的割胶线识别与生成方法，其特征在于：四次上采样处理包括以下步骤：

步骤1.5.3：每一次上采样的结果均与临近的一次下采样过程中卷积层的结果之间进行跳跃连接；其中，临近的一次指的是第一次下采样与第四次上采样、第二次下采样与第三次上采样、第三次下采样与第二次上采样或第四次下采样与第一次上采样；

步骤1.5.4：生成分割掩膜对图像中每个像素进行分类；

步骤1.5.5：得到一个281×281的特征图。

9.根据权利要求8所述的割胶线识别与生成方法，其特征在于：所述步骤1.5.4具体为：四次上采样结束，特征图会进来一次3×3卷积和一次1×1卷积，以生成分割掩膜；生成的分割掩膜是指用于标识图像中不同物体或区域的掩膜，将图像中的不同对象分离出来，生成对应的二值图或多值图，表示每个对象的位置和形状。

10.根据权利要求1所述的割胶线识别与生成方法，其特征在于：步骤4中的分类过程如下：

其中，x表示特征图中不同通道k中第i个位置上的特征点；a_k(x_i)表示特征点x通过激活函数后的输出；P_k(x_i)表示a_k(x_i)经过交叉熵运算后产生的概率值。