CN117392392B - 一种割胶线识别与生成方法 - Google Patents
一种割胶线识别与生成方法 Download PDFInfo
- Publication number
- CN117392392B CN117392392B CN202311705674.7A CN202311705674A CN117392392B CN 117392392 B CN117392392 B CN 117392392B CN 202311705674 A CN202311705674 A CN 202311705674A CN 117392392 B CN117392392 B CN 117392392B
- Authority
- CN
- China
- Prior art keywords
- image
- feature map
- layer
- feature
- cutting line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 229920001971 elastomer Polymers 0.000 title claims abstract description 49
- 238000005520 cutting process Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 11
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 34
- 238000005070 sampling Methods 0.000 claims description 32
- 230000008569 process Effects 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 21
- 238000010586 diagram Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 10
- 244000043261 Hevea brasiliensis Species 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 238000011282 treatment Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 241000196324 Embryophyta Species 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000001788 irregular Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims 1
- 238000010079 rubber tapping Methods 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000003213 activating effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920003052 natural elastomer Polymers 0.000 description 1
- 229920001194 natural rubber Polymers 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种割胶线识别与生成方法,包括以下步骤:搭建网络模型,并对网络模型进行训练,将待处理图像输入网络模型,并输出特征图,对特征图进行多尺度特征融合,使用softmax函数对多尺度特征融合输出结果中的像素点进行分类,得到最终的分割结果。在编码器中,图像中每个像素点的特征映射都会通过一个注意力模块生成一个注意力权重,用于调整解码器路径中相应特征映射的权重;然后,ASPP模块通过多尺度特征融合生成更强大的特征表示,并将生成的特征传递给解码器路径,从而提高网络的分割性能;最后,在解码器路径中,将编码器路径中的特征映射解码为分割结果,并将注意力权重应用于特征映射,以进一步优化分割结果。
Description
技术领域
本发明涉及割胶线识别与生产技术,具体涉及一种割胶线识别与生成方法。
背景技术
割胶线识别与生成是推进自主化割胶作业的必要前提。然而,由于光照变化、背景噪声的存在等原因,造成了割胶线识别效果不佳的问题,这使得在低光照条件或复杂背景环境下,割胶线的检测精度受到限制;而且,在割胶过程中可能出现的割胶线断线和连线情况,使得新割胶线的路径生成难度增加;同时,因为割胶线与树皮的颜色和纹理相似,造成了割胶线与树皮难以区分的问题,这使得算法在处理图像时容易产生误判,从而影响了割胶线的定位精度;最后,因为橡胶树的割胶过程中,割胶线的宽度和厚度是不同的,造成了割胶线识别难度增加的问题,这使得算法难以准确识别不同宽度和厚度的割胶线,从而影响了割胶的精度和效率。
传统的技术方法也为实现割胶线的识别与生成做出了一定的贡献。比如说:为了能够在弱光条件下捕获和检测图像中的割胶线,提出了一种近距离天然橡胶图像采集技术和割胶线检测算法;为了去除背景中的干扰因素,采用OTSU方法将图片中割胶线和橡胶分离,可以得到精确的割胶线和橡胶二值图像;为了提高割胶线检测时像素分类的精度,提出了一种多分支深度卷积网络,同时也对使用机械臂的割胶机器人视觉系统进行了细节描述;利用密集卷积骨干网络和残差块中的特征重用原理提高网络的学习能力,同时实现对目标的高效检测;采用Mish激活函数代替ReLU系列激活函数来提高网络训练的动态性和准确性,但这会产生更大的计算量。
以上方法在各自研究背景下进行的割胶线识别均有优秀的表现,但均有一定的局限性,无法满足因气候、环境等因素导致的割胶线多样化识别与生成需求。
发明内容
针对现有技术中的问题,提供一种割胶线识别与生成方法,目的在于实现在实际场景中进行割胶线的识别与生成。
一种割胶线识别与生成方法,包括以下步骤:
步骤1:搭建网络模型,网络模型搭建包括以下步骤:
步骤1.1:对输入图像进行预处理,并得到图像大小固定的572×572单通道的特征图;
步骤1.2:将特征图输入到网络模型中;
步骤1.3:通过编码器路经对特征图进行四次下采样处理;
步骤1.4:计算输入数据的权重分布,调整输入数据的权重分布,使得模型能够聚焦于输入数据的重要部分,忽略其他不太相关的信息;采用空洞卷积来捕捉更大范围的上下文信息,同时使用多尺度特征融合来将不同空间尺度的特征进行融合;
步骤1.5:通过解码器路经对512通道特征图进行四次上采样处理,完成网络模型搭建;
步骤2:对网络模型进行训练;
步骤3:将待处理图像输入网络模型,并输出特征图,对特征图/>进行多尺度特征融合;
多尺度特征融合包括一下步骤:
步骤3.1:将特征图进行1×1卷积操作;
步骤3.2:分别通过GMP与GAP后的两个结果均进行全连接操作得到特征图与;
步骤3.3:将与/>逐元素求和得到通道注意力特征图/>;
步骤3.4:获得一维数组,/>;
步骤3.5:利用空洞率为6,12,18的3个3×3空洞卷积分别对特征图进行处理,并分别得到特征图/> ;
步骤3.6:利用Concat操作将特征图 进行融合,并得到空间注意力特征图/>,/>;
其中,c( )为卷积操作;为Concat操作;/>为空洞率为/>的空洞卷积操作;/>为空间注意力特征图,/>经过一层1×1卷积运算转化为一个一维数组/>,一维数组/>包含了该空间注意力特征图中特征点的所有信息;
步骤3.7:最终多尺度特征融合输出结果为:
表示原始图片中局部细节特征的集合,集合中每一个元素/>表示图像中的一个特征点;
步骤4:使用softmax函数对中每个像素点进行分类,得到最终的分割结果。
进一步为:步骤2具体包括以下步骤:
步骤2.1:准备数据集,数据集包括图像X和对应的标签或掩码图像Y,其中掩码图像Y包含了每个像素的分类标签或分割掩码;
步骤2.2:对图像数据进行标注得到图像像素的分类标签;在对目标框和关键区域进行标注时,本发明标注两个部分,第一部分是橡胶树树干上适合取胶的区域,第二部分是橡胶树树干上已有的割胶线区域;
步骤2.3:将训练图像X通过编码器部分传递,以获取特征表示;
步骤2.4:注意力权重通过全连接层和激活函数进行计算:
其中,表示全连接层,/>是特征图,/>是用于计算注意力的目标;
步骤2.5:将计算得到的权值通过网络模型,前向传播结束,计算模型输出标签与真实标签/>之间的损失:
其中,表示损失值,/>表示真实标签,/>表示模型预测结果;
步骤2.6:然后根据损失函数的梯度信息进行反向传播,计算输出值与目标值之间的误差以调整权重参数,计算过程表示为:
其中,表示关于权重参数/>的梯度,/>表示关于该层的激活函数的梯度,表示学习率;
步骤2.7:跳转到步骤2.4并在损失L接近稳定时,执行步骤2.8;
步骤2.8:得到训练过的网络模型。
进一步为:网络模型包括:
编码器,用于逐步减小特征图的尺寸并提取特征;
中间层,用于整合编码器提取的特征,捕获特征图中不同尺度的特征;
解码器,用于逐步恢复编码器中特征图的尺寸,并精细调整分割结果;
跳跃连接模块,将编码器路经中的特征与解码器路经中的特征连接在一起,跳跃连接模块将编码器中特征图直接连接到解码器中对应层或下一层的卷积神经网络中;
最终分类层,用于生成分割掩模,该分割掩模对图像中的每个像素进行分类;最终分类层通常由一个或多个全连接层组成,在本发明中为了最大程度减少计算量,采用一个1×1卷积层代替全连接层的作用。
进一步为:编码器包括卷积层,用于从输入图像中提取特征;激活函数,用于将池化层的线性输出通过非线性激活函数处理;最大池化层,用于将输入特征图分成2x2的窗口,并在每个窗口中选择最大值作为输出,以减小特征图的尺寸。
进一步为:中间层包括:
注意力机制模块CBAM,用于通过计算输入数据的权重分布,调整输入数据的权重分布,使得模型能够聚焦于输入数据的重要部分,忽略其它不相关的信息,不相关信息是指原始图像背景中比如杂草、光线、不规则橡胶树干等对割胶线识别有干扰的特征;
ASPP模块,用于利用空洞卷积来捕捉更大范围的上下文信息,同时使用多尺度特征融合来将不同空间尺度的特征进行融合。
进一步为:解码器包括转置卷积层,用于通过扩大输入图像的尺寸,将低分辨率的图像恢复至原始分辨率,并融合跳跃连接中提取的特征;卷积层,其卷积核依为3×3,padding值为1,用以生成分割掩膜并对图像中每个像素进行分类。
进一步为:下采样处理包括以下步骤:
步骤1.3.1:通过卷积层对高维输入数据进行降维处理,并自动提取原始数据的核心特征,使得网络能够学习特定于数据的特征;
步骤1.3.2:通过激活函数引入非线性特性,使神经网络适应特征映射关系。
步骤1.3.3:通过最大池化层,对邻域内的特征点取最大;
步骤1.3.4:得到尺寸为32×32的512通道特征图。
进一步为:四次上采样处理包括以下步骤:
步骤1.5.1:通过扩大输入图像的尺寸,将低分辨率的图像恢复至原始分辨率;
步骤1.5.2:通过跳跃连接将原始输入直接与最后一个最大池化层输出相加或拼接起来;融合方式为:第一次下采样过程中卷积层输出的尺寸为285×285、通道数为64的特征图与第四次上采样输出的尺寸同样为285×285、通道数为64的特征图进行拼接组成尺寸为285×285、通道数为128的特征图;
步骤1.5.3:每一次上采样的结果均与临近的一次下采样过程中卷积层的结果之间进行跳跃连接,临近的一次指的是第一次下采样与第四次上采样、第二次下采样与第三次上采样、第三次下采样与第二次上采样或第四次下采样与第一次上采样;
步骤1.5.4:生成分割掩膜对图像中每个像素进行分类;
步骤1.5.5:得到一个281×281的特征图。
进一步为:四次上采样结束,特征图会进来一次3×3卷积和一次1×1卷积,以生成分割掩膜;生成的分割掩膜是指用于标识图像中不同物体或区域的掩膜,将图像中的不同对象分离出来,生成对应的二值图或多值图,表示每个对象的位置和形状。
进一步为:步骤4中的分类过程如下:
其中,表示特征图中不同通道/>中第/>个位置上的特征点;/>表示特征点/>通过激活函数后的输出;/>表示/>经过交叉熵运算后产生的概率值。
本发明的有益效果:在编码器中,图像中每个像素点的特征映射都会通过一个注意力模块生成一个注意力权重,用于调整解码器路径中相应特征映射的权重;然后,ASPP模块通过多尺度特征融合生成更强大的特征表示,并将生成的特征传递给解码器路径,从而提高网络的分割性能;最后,在解码器路径中,将编码器路径中的特征映射解码为分割结果,并将注意力权重应用于特征映射,以进一步优化分割结果。
附图说明
图1为本发明的流程框图;
图2为最大池化层的输入特征图图示。
具体实施方式
下面结合附图对本发明做详细说明。下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。本发明实施例中的左、中、右、上、下等方位用语,仅是互为相对概念或是以产品的正常使用状态为参考的,而不应该认为是具有限制性的。
一种割胶线识别与生成方法,包括以下步骤:
步骤1:搭建网络模型,该网络模型包括:
编码器,用于逐步减小特征图的尺寸并提取特征;
编码器包括卷积层,用于从输入图像中提取特征;激活函数,用于将池化层的线性输出通过非线性激活函数处理,从而可模拟任意函数,进而增强网络的表征能力;最大池化层,用于将输入特征图分成2x2的窗口,并在每个窗口中选择最大值作为输出,以减小特征图的尺寸;
网络中加入激活函数用于引入非线性特性,由于大多数现实世界的问题是非线性的,所以需要使用非线性的激活函数来模拟这些复杂的关系;通过使用非线性的激活函数,神经网络可以学习和理解更复杂的映射关系,进而可以模拟任意函数;进而增强网络的表征能力;
在最大池化层中将输入特征图分成2x2的窗口;然后,在每个窗口中选择最大值作为输出;通过这种方式,每个2x2的输入特征图窗口将变为一个单一的输出值,从而减小了特征图的尺寸,实现了在保持信息的同时提高计算效率,帮助网络捕获特征的空间分布;如图2所示为输入特征图,数字表示像素点的值,最大池化操作通过筛选每个2x2窗口中的最大像素值,得到不同颜色区域中的最大元素值作为输出,实现减小特征图尺寸的目的;
中间层,用于整合编码器提取的特征,捕获特征图中不同尺度的特征;
中间层包括:注意力机制模块CBAM,用于通过计算输入数据的权重分布,调整输入数据的权重分布,使得模型能够聚焦于输入数据的重要部分,忽略其它不相关的信息,“不相关信息”是指原始图像背景中比如杂草、光线、不规则橡胶树干等对割胶线识别有干扰的特征;ASPP模块,用于利用空洞卷积来捕捉更大范围的上下文信息,同时使用多尺度特征融合来将不同空间尺度的特征进行融合;
解码器,用于逐步恢复编码器中特征图的尺寸,并精细调整分割结果;
解码器包括转置卷积层,用于通过扩大输入图像的尺寸,将低分辨率的图像恢复至原始分辨率,并融合跳跃连接中提取的特征;卷积层,其卷积核依为3×3,padding值为1,用以生成分割掩膜并对图像中每个像素进行分类;
跳跃连接模块,将编码器路经中的特征与解码器路经中的特征连接在一起;跳跃连接模块将编码器中某一层的特征图直接连接到解码器中对应层或下一层的卷积神经网络中;这种连接方式允许解码器访问编码器中更丰富的特征信息,从而增强了网络的特征提取和重建能力;
最终分类层,用于生成分割掩模,该分割掩模对图像中的每个像素进行分类;最终分类层通常由一个或多个全连接层(也称为密集层)组成,在本发明中为了最大程度减少计算量,采用一个1×1卷积层代替全连接层的作用;1×1卷积层的作用主要是调整网络层的通道数量和控制模型复杂性,它不识别空间模式,只融合通道,可以有效地调整特征图的通道数,使得网络可以更好地适应各种复杂的特征映射关系,从而提升网络的表征能力,全连接层作为最终分类层,采用softmax函数输出一个概率分布,表示输入数据属于每个类别的概率;
网络模型搭建包括以下步骤:
步骤1.1:对输入图像进行预处理,并得到图像大小固定的572×572单通道的特征图;
步骤1.2:将特征图输入到网络模型中;
步骤1.3:通过编码器路经对特征图进行四次下采样处理;
下采样处理包括以下步骤:
步骤1.3.1:通过卷积层对高维输入数据进行降维
处理,并自动提取原始数据的核心特征,使得网络能够学习特定于数据的特征;
步骤1.3.2:通过激活函数引入非线性特性,使神经网络适应特征映射关系,从而提升网络的表征能力。
步骤1.3.3:通过最大池化层,本发明采用最大池化,对邻域内的特征点取最大;池化操作可以去除杂余信息,保留关键信息;
步骤1.3.4:得到尺寸为32×32的512通道特征图。
步骤1.4:计算输入数据的权重分布,调整输入数据的权重分布,使得模型能够聚焦于输入数据的重要部分,忽略其他不太相关的信息;采用空洞卷积来捕捉更大范围的上下文信息,同时使用多尺度特征融合来将不同空间尺度的特征进行融合;
步骤1.5:通过解码器路经对512通道特征图进行四次上采样处理:
四次上采样处理包括以下步骤:
步骤1.5.1:通过扩大输入图像的尺寸,将低分辨率的图像恢复至原始分辨率;
步骤1.5.2:通过跳跃连接将原始输入直接与最后一个最大池化层输出相加或拼接起来,保留原始图像中更多的细节和语义信息;融合方式为:第一次下采样过程中卷积层输出的尺寸为285×285、通道数为64的特征图与第四次上采样输出的尺寸同样为285×285、通道数为64的特征图进行拼接组成尺寸为285×285、通道数为128的特征图;
步骤1.5.3:每一次上采样的结果均与临近的一次下采样过程中卷积层的结果之间进行跳跃连接,临近的一次指的是第一次下采样与第四次上采样、第二次下采样与第三次上采样、第三次下采样与第二次上采样或第四次下采样与第一次上采样;这一操作通过将下采样后的特征与上采样的特征相结合,有助于网络捕获多尺度的信息以提高了分割性能;同时,有效缓解了梯度消失的问题,使的梯度能够更轻松地传播回较早的层,从而有助于训练更深的网络;
步骤1.5.4:生成分割掩膜对图像中每个像素进行分类;四次上采样结束,特征图会进来一次3×3卷积和一次1×1卷积,以生成分割掩膜;生成的分割掩膜是指用于标识图像中不同物体或区域的掩膜,可以将图像中的不同对象分离出来,生成对应的二值图或多值图,表示每个对象的位置和形状;
步骤1.5.5:得到一个281×281的特征图,降低了模型训练过程中的计算复杂度,提高了模型的泛化能力,完成网络模型搭建。
步骤2:对网络模型进行训练,包括以下步骤:
步骤2.1:准备数据集,数据集包括图像X和对应的标签或掩码图像Y,其中Y包含了每个像素的分类标签或分割掩码;
步骤2.2:对图像数据进行标注得到图像像素的分类标签;在对目标框和关键区域进行标注时,本发明标注两个部分,第一部分是橡胶树树干上适合取胶的区域,第二部分是橡胶树树干上已有的割胶线区域;
步骤2.3:将训练图像X通过编码器部分传递,以获取特征表示;
步骤2.4:注意力权重通过全连接层和激活函数进行计算:
其中,表示全连接层,/>是特征图,/>是用于计算注意力的目标;
全连接层为中间层的一部分,是对CBAM与ASPP模块的重构后的补充;
步骤2.5:将计算得到的权值通过网络模型,前向传播结束,计算模型输出标签与真实标签/>之间的损失:
其中,表示损失值,/>表示真实标签,/>表示模型预测结果;
步骤2.6:然后根据损失函数的梯度信息进行反向传播,计算输出值与目标值之间的误差以调整权重参数,计算过程可表示为:
其中,表示关于权重参数/>的梯度,/>表示关于该层的激活函数的梯度,表示学习率;
步骤2.7:跳转到步骤2.4并在损失L接近稳定时,执行步骤2.8;
步骤2.8:得到训练过的网络模型。
步骤3:将待处理图像输入网络模型,并输出特征图,对特征图/>进行多尺度特征融合;
多尺度特征融合包括一下步骤:
步骤3.1:将特征图进行1×1卷积操作;
步骤3.2:分别通过GMP与GAP后的两个结果均进行全连接操作得到特征图与;
步骤3.3:将与/>逐元素求和得到通道注意力特征图/>;
步骤3.4:获得一维数组,/>;
步骤3.5:利用空洞率为6,12,18的3个3×3空洞卷积分别对特征图进行处理,并分别得到特征图/> ;
步骤3.6:利用Concat操作将特征图 进行融合,并得到空间注意力特征图/>,/>;
其中,c( )为卷积操作;为Concat操作;/>为空洞率为的空洞卷积操作;/>为空间注意力特征图,/>经过一层1×1卷积运算转化为一个一维数组/>,一维数组/>包含了该空间注意力特征图中特征点的所有信息;
步骤3.7:最终多尺度特征融合输出结果为:
表示原始图片中局部细节特征的集合,集合中每一个元素/>表示图像中的一个特征点;
步骤4:使用softmax函数对中每个像素点进行分类,得到最终的分割结果;
分类过程如下:
其中,表示特征图中不同通道/>中第/>个位置上的特征点;/>表示特征点/>通过激活函数后的输出;/>表示/>经过交叉熵运算后产生的概率值。
其内容主要分为三部分:网络模型搭建、模型训练、多尺度特征融合与分割结果生成。首先,在编码器路径中卷积层和池化层交替出现,逐步减小特征图的尺寸并提取特征。其次,在解码器路径中卷积层和解码器层交替出现,逐步恢复特征图的尺寸并精细调整分割结果。最后,通过扩展模块在多个尺度上提取特征,并将这些特征合并起来进一步优化分割结果。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种割胶线识别与生成方法,其特征在于:包括以下步骤:
步骤1:搭建网络模型,网络模型搭建包括以下步骤:
步骤1.1:对输入图像进行预处理,并得到图像大小固定的572×572单通道的特征图;
步骤1.2:将特征图输入到网络模型中;
步骤1.3:通过编码器路经对特征图进行四次下采样处理;
步骤1.4:计算输入数据的权重分布,调整输入数据的权重分布,使得模型能够聚焦于输入数据的重要部分;采用空洞卷积来捕捉更大范围的上下文信息,同时使用多尺度特征融合来将不同空间尺度的特征进行融合;
步骤1.5:通过解码器路经对512通道特征图进行四次上采样处理,完成网络模型搭建;
步骤2:对网络模型进行训练;
步骤3:将待处理图像输入网络模型,并输出特征图m,对特征图m进行多尺度特征融合;
多尺度特征融合包括一下步骤:
步骤3.1:将特征图进行1×1卷积操作;
步骤3.2:分别通过GMP与GAP后的两个结果均进行全连接操作得到特征图mm与ma;
步骤3.3:将mm与ma逐元素求和得到通道注意力特征图mc;
步骤3.4:获得一维数组J1,J1=m·mc;
步骤3.5:利用空洞率为6,12,18的3个3×3空洞卷积分别对特征图J1进行处理,并分别得到特征图d6(J1),d12(J1),d18(J1);
步骤3.6:利用Concat操作将特征图d6(J1),d12(J1),d18(J1)进行融合,并得到空间注意力特征图ms,ms=C[d6(J1),d12(J1),d18(J1)];
其中,c()为卷积操作;C[]为Concat操作;di为空洞率为i的空洞卷积操作;ms为空间注意力特征图,ms经过一层1×1卷积运算转化为一个一维数组J2,一维数组J2包含了该空间注意力特征图中特征点的所有信息;
步骤3.7:最终多尺度特征融合输出结果为:
O=J1·J2
O表示原始图片中局部细节特征的集合,集合中每一个元素x表示图像中的一个特征点;
步骤4:使用softmax函数对O中每个像素点进行分类,得到最终的分割结果。
2.根据权利要求1所述的割胶线识别与生成方法,其特征在于:步骤2具体包括以下步骤:
步骤2.1:准备数据集,数据集包括图像X和对应的标签或掩码图像Y,其中掩码图像Y包含了每个像素的分类标签或分割掩码;
步骤2.2:对图像数据进行标注得到图像像素的分类标签;在对目标框和关键区域进行标注时,本发明标注两个部分,第一部分是橡胶树树干上适合取胶的区域,第二部分是橡胶树树干上已有的割胶线区域;
步骤2.3:将训练图像X通过编码器部分传递,以获取特征表示;
步骤2.4:注意力权重通过全连接层和激活函数进行计算:
其中,FC表示全连接层,是特征图,τ是用于计算注意力的目标;
步骤2.5:将计算得到的权值通过网络模型,前向传播结束,计算模型输出标签Y′与真实标签Y之间的损失:
L=-Σ(Y*log(Y′)+(1-Y)*log(1-Y′))
其中,L表示损失值,Y表示真实标签,Y′表示模型预测结果;
步骤2.6:然后根据损失函数的梯度信息进行反向传播,计算输出值与目标值之间的误差以调整权重参数θl,计算过程表示为:
其中,表示关于权重参数θl的梯度,/>表示关于该层的激活函数的梯度,α表示学习率;
步骤2.7:跳转到步骤2.4并在损失L接近稳定时,执行步骤2.8;
步骤2.8:得到训练过的网络模型。
3.根据权利要求1所述的割胶线识别与生成方法,其特征在于:网络模型包括:
编码器,用于逐步减小特征图的尺寸并提取特征;
中间层,用于整合编码器提取的特征,捕获特征图中不同尺度的特征;
解码器,用于逐步恢复编码器中特征图的尺寸,并精细调整分割结果;
跳跃连接模块,将编码器路经中的特征与解码器路经中的特征连接在一起,跳跃连接模块将编码器中特征图直接连接到解码器中对应层或下一层的卷积神经网络中;
最终分类层,用于生成分割掩模,该分割掩模对图像中的每个像素进行分类;最终分类层通常由一个或多个全连接层组成。
4.根据权利要求1所述的割胶线识别与生成方法,其特征在于:编码器包括卷积层,用于从输入图像中提取特征;激活函数,用于将池化层的线性输出通过非线性激活函数处理;最大池化层,用于将输入特征图分成2x2的窗口,并在每个窗口中选择最大值作为输出,以减小特征图的尺寸。
5.根据权利要求1所述的割胶线识别与生成方法,其特征在于:中间层包括:
注意力机制模块CBAM,用于通过计算输入数据的权重分布,调整输入数据的权重分布,使得模型能够聚焦于输入数据的重要部分,去除其它不相关的信息,不相关信息是指原始图像背景中对割胶线识别有干扰的特征,即杂草、光线和不规则橡胶树干;
ASPP模块,用于利用空洞卷积来捕捉更大范围的上下文信息,同时使用多尺度特征融合来将不同空间尺度的特征进行融合。
6.根据权利要求1所述的割胶线识别与生成方法,其特征在于:解码器包括转置卷积层,用于通过扩大输入图像的尺寸,将低分辨率的图像恢复至原始分辨率,并融合跳跃连接中提取的特征;卷积层,其卷积核依为3×3,padding值为1,用以生成分割掩膜并对图像中每个像素进行分类。
7.根据权利要求1所述的割胶线识别与生成方法,其特征在于:下采样处理包括以下步骤:
步骤1.3.1:通过卷积层对高维输入数据进行降维处理,并自动提取原始数据的核心特征,使得网络能够学习特定于数据的特征;
步骤1.3.2:通过激活函数引入非线性特性,使神经网络适应特征映射关系。
步骤1.3.3:通过最大池化层,对邻域内的特征点取最大;
步骤1.3.4:得到尺寸为32×32的512通道特征图。
8.根据权利要求1所述的割胶线识别与生成方法,其特征在于:四次上采样处理包括以下步骤:
步骤1.5.1:通过扩大输入图像的尺寸,将低分辨率的图像恢复至原始分辨率;
步骤1.5.2:通过跳跃连接将原始输入直接与最后一个最大池化层输出相加或拼接起来;融合方式为:第一次下采样过程中卷积层输出的尺寸为285×285、通道数为64的特征图与第四次上采样输出的尺寸同样为285×285、通道数为64的特征图进行拼接组成尺寸为285×285、通道数为128的特征图;
步骤1.5.3:每一次上采样的结果均与临近的一次下采样过程中卷积层的结果之间进行跳跃连接;其中,临近的一次指的是第一次下采样与第四次上采样、第二次下采样与第三次上采样、第三次下采样与第二次上采样或第四次下采样与第一次上采样;
步骤1.5.4:生成分割掩膜对图像中每个像素进行分类;
步骤1.5.5:得到一个281×281的特征图。
9.根据权利要求8所述的割胶线识别与生成方法,其特征在于:所述步骤1.5.4具体为:四次上采样结束,特征图会进来一次3×3卷积和一次1×1卷积,以生成分割掩膜;生成的分割掩膜是指用于标识图像中不同物体或区域的掩膜,将图像中的不同对象分离出来,生成对应的二值图或多值图,表示每个对象的位置和形状。
10.根据权利要求1所述的割胶线识别与生成方法,其特征在于:步骤4中的分类过程如下:
其中,x表示特征图中不同通道k中第i个位置上的特征点;ak(xi)表示特征点x通过激活函数后的输出;Pk(xi)表示ak(xi)经过交叉熵运算后产生的概率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311705674.7A CN117392392B (zh) | 2023-12-13 | 2023-12-13 | 一种割胶线识别与生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311705674.7A CN117392392B (zh) | 2023-12-13 | 2023-12-13 | 一种割胶线识别与生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117392392A CN117392392A (zh) | 2024-01-12 |
CN117392392B true CN117392392B (zh) | 2024-02-13 |
Family
ID=89463552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311705674.7A Active CN117392392B (zh) | 2023-12-13 | 2023-12-13 | 一种割胶线识别与生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117392392B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
CN112017191A (zh) * | 2020-08-12 | 2020-12-01 | 西北大学 | 基于注意力机制的肝脏病理图像分割模型建立及分割方法 |
CN112634276A (zh) * | 2020-12-08 | 2021-04-09 | 西安理工大学 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
CN113850821A (zh) * | 2021-09-17 | 2021-12-28 | 武汉兰丁智能医学股份有限公司 | 一种注意力机制和多尺度融合的白细胞分割方法 |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
WO2022199143A1 (zh) * | 2021-03-26 | 2022-09-29 | 南京邮电大学 | 一种基于u型网络的医学图像分割方法 |
CN115424103A (zh) * | 2022-08-18 | 2022-12-02 | 重庆理工大学 | 基于注意力机制和多尺度特征融合的改进U-Net脑肿瘤分割方法 |
WO2023130648A1 (zh) * | 2022-01-10 | 2023-07-13 | 苏州浪潮智能科技有限公司 | 一种图像数据增强方法、装置、计算机设备和存储介质 |
CN116434077A (zh) * | 2023-03-22 | 2023-07-14 | 南京信息工程大学 | 多尺度位置注意聚合的土地覆盖检测方法、系统和设备 |
CN116596966A (zh) * | 2023-05-10 | 2023-08-15 | 长春理工大学 | 一种基于注意力和特征融合的分割与跟踪方法 |
CN117078943A (zh) * | 2023-10-17 | 2023-11-17 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11922679B2 (en) * | 2022-06-30 | 2024-03-05 | Xi'an Jiaotong University | Automatic seismic facies identification method based on combination of self-attention mechanism and u-shape network architecture |
-
2023
- 2023-12-13 CN CN202311705674.7A patent/CN117392392B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210485A (zh) * | 2019-05-13 | 2019-09-06 | 常熟理工学院 | 基于注意力机制指导特征融合的图像语义分割方法 |
CN112017191A (zh) * | 2020-08-12 | 2020-12-01 | 西北大学 | 基于注意力机制的肝脏病理图像分割模型建立及分割方法 |
US11222217B1 (en) * | 2020-08-14 | 2022-01-11 | Tsinghua University | Detection method using fusion network based on attention mechanism, and terminal device |
CN112634276A (zh) * | 2020-12-08 | 2021-04-09 | 西安理工大学 | 一种基于多尺度视觉特征提取的轻量级语义分割方法 |
WO2022199143A1 (zh) * | 2021-03-26 | 2022-09-29 | 南京邮电大学 | 一种基于u型网络的医学图像分割方法 |
CN113850821A (zh) * | 2021-09-17 | 2021-12-28 | 武汉兰丁智能医学股份有限公司 | 一种注意力机制和多尺度融合的白细胞分割方法 |
WO2023130648A1 (zh) * | 2022-01-10 | 2023-07-13 | 苏州浪潮智能科技有限公司 | 一种图像数据增强方法、装置、计算机设备和存储介质 |
CN115424103A (zh) * | 2022-08-18 | 2022-12-02 | 重庆理工大学 | 基于注意力机制和多尺度特征融合的改进U-Net脑肿瘤分割方法 |
CN116434077A (zh) * | 2023-03-22 | 2023-07-14 | 南京信息工程大学 | 多尺度位置注意聚合的土地覆盖检测方法、系统和设备 |
CN116596966A (zh) * | 2023-05-10 | 2023-08-15 | 长春理工大学 | 一种基于注意力和特征融合的分割与跟踪方法 |
CN117078943A (zh) * | 2023-10-17 | 2023-11-17 | 太原理工大学 | 融合多尺度特征和双注意力机制的遥感影像道路分割方法 |
Non-Patent Citations (2)
Title |
---|
宋廷强 ; 李继旭 ; 张信耶 ; .基于深度学习的高分辨率遥感图像建筑物识别.计算机工程与应用.2020,(08),全文. * |
寇墨林 ; 卓力 ; 张菁 ; 张辉 ; .无人机影像目标检测技术研究进展.测控技术.2020,(08),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117392392A (zh) | 2024-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN112949565B (zh) | 基于注意力机制的单样本部分遮挡人脸识别方法及系统 | |
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN112926396B (zh) | 一种基于双流卷积注意力的动作识别方法 | |
CN112541503B (zh) | 基于上下文注意力机制和信息融合的实时语义分割方法 | |
CN111612807B (zh) | 一种基于尺度和边缘信息的小目标图像分割方法 | |
CN111274869B (zh) | 基于并行注意力机制残差网进行高光谱图像分类的方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN117037119A (zh) | 基于改进YOLOv8的道路目标检测方法及系统 | |
CN115359372A (zh) | 一种基于光流网络的无人机视频运动目标检测方法 | |
CN117197763A (zh) | 基于交叉注意引导特征对齐网络的道路裂缝检测方法和系统 | |
CN117274608A (zh) | 基于空间细节感知和注意力引导的遥感图像语义分割方法 | |
CN113139502A (zh) | 无监督视频分割方法 | |
CN115830094A (zh) | 一种基于无监督的立体匹配方法 | |
CN114445620A (zh) | 一种改进Mask R-CNN的目标分割方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
CN117392392B (zh) | 一种割胶线识别与生成方法 | |
CN116434074A (zh) | 基于邻支互补显著性和多先验稀疏表征的目标识别方法 | |
CN115661451A (zh) | 一种深度学习单帧红外弱小目标高分辨率分割方法 | |
CN114155165A (zh) | 一种基于半监督的图像去雾方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |