CN115953784A - 基于残差和特征分块注意力的激光打码字符分割方法 - Google Patents

基于残差和特征分块注意力的激光打码字符分割方法 Download PDF

Info

Publication number
CN115953784A
CN115953784A CN202211713446.XA CN202211713446A CN115953784A CN 115953784 A CN115953784 A CN 115953784A CN 202211713446 A CN202211713446 A CN 202211713446A CN 115953784 A CN115953784 A CN 115953784A
Authority
CN
China
Prior art keywords
feature
attention
segmentation
channel
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211713446.XA
Other languages
English (en)
Inventor
吴静静
肖天行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202211713446.XA priority Critical patent/CN115953784A/zh
Publication of CN115953784A publication Critical patent/CN115953784A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了基于残差和特征分块注意力的激光打码字符分割方法,属于工业检测图像处理领域。本发明的激光打码字符分割方法,图像特征提取部分设计了注意力‑残差单元,此单元中的特征分块注意力机制添加了改进后的4GD‑SAM特征分块空间注意力以增强微弱笔画特征。上采样路径设计了融合改进损失函数的多重监督模块,能够改善网络的收敛能力,抑制干扰,提高有效特征提取能力。最后使用解码器将特征图像进行二值还原,完成显著分割。本发明能有效地对激光打码字符进行特征增强和高精度分割,同时具有较少的网络参数量,提升了分割效率。

Description

基于残差和特征分块注意力的激光打码字符分割方法
技术领域
本发明涉及基于残差和特征分块注意力的激光打码字符分割方法,属于工业检测图像处理领域。
背景技术
当今激光打码技术广泛应用于金属工件表面印字及食品易拉罐包装生产日期刻印,但由于激光发生器质量不一、工作参数的不确定性及激光的高温对金属产生灼烧等原因,易导致打码字符出现高噪声、低对比度缺陷,很大程度影响自动化检测工序中对字符目标的分割提取。因此需要研究一种能克服高噪声、低对比度问题的激光打码字符分割方法。
早期用于字符分割的方法主要是阈值分割法和灰度聚类法等,辅以基于统计学和基于匹配模型的方法完成后续字符分类。模板匹配的方法被用于乳品包装日期字符识别(孙晓娜,刘继超,高国华.基于视觉的乳品包装日期喷码缺陷检测技术[J].食品与机械,2018,34(10):100-103+108.),“马玲,罗晓曙,蒋品群.基于模板匹配和支持向量机的点阵字符识别研究[J].计算机工程与应用,2020,56(04):134-139.”提出将模板匹配结合支持向量机(SVM)对点阵字符进行高精度识别,两者的字符分割方式均采用最大类间方差法(OTSU),它对目标图像具有较高的信噪比要求,在背景具有干扰时鲁棒性较差,对亮度稍有变化的字符分割精度低。“林冬婷,程洋,欧阳,等.基于喷点融合特征的点阵字符分割方法[J].制造业自动化,2021,43(08):52-57.”利用改进自适应阈值化去除噪点,优化亮度不均条件下字符分割效果。同时高斯差分尺度空间和最大熵分割法的结合(张家财,张良力,曾飞.钢坯表面点印字符图像自适应阈值分割方法[J].现代电子技术,2021,44(19):49-54.)也被用于消除金属表面打印字符的复杂背景。然而传统方法对特征的感知和提取方式较为单一,性能有限。故融合多特征或是建立可自动提取深层特征的高精度分割模型对复杂情况下的字符分割工作至关重要。
为了进一步提升分割网络模型的精度和效率,人们提出在端到端分割模型的编解码结构上直接进行改进的思路。基于编解码结构的U型网络UNet是一种不依赖大样本即可得到较好结果的端到端分割模型(Ronneberger O,Fischer P,Brox T.U-net:Convolutional networks for biomedical image segmentation[C]//Proceedings ofthe 18th International Conference on MICCAI,Cham,Switzerland:Springer,2015:234-241.),而原始UNet模型在下采样路径中使用普通的两次卷积,具有部分细节丢失,且随着下采样层数的加深,存在网络退化和梯度回传不稳定导致分割性能不良的问题,如图1所示,其中,(a)为原图;(b)为字符细节;(c)为大津法分割结果;(d)为原UNet分割结果。
发明内容
为了提升激光打码字符分割的速度和精度,本发明提供了基于残差和特征分块注意力的激光打码字符分割方法,所述技术方案如下:
本发明的第一个目的在于提供一种激光打码字符分割方法,包括:
步骤1:下采样编码阶段;
利用4个串接的注意力-残差特征提取单元构成ResNet18编码器主干结构,对待分割图像进行下采样,同时引入1×1卷积降低编码器输出特征通道数;
步骤2:上采样解码阶段;
利用双线性插值法进行图像上采样,使其与将要拼接的特征图具有相同尺寸,特征图拼接后进行两次3×3卷积进行解编码器的特征融合和图像信息还原,且每层各设置一个侧输出;
步骤3:将每层的侧输出输入至多重监督模块与真实值进行损失计算和梯度回传,以提高分割精度和网络收敛速度;最后利用一次上采样和1×1卷积使图像尺寸和通道数还原成原图尺寸与通道数,输出最终的分割二值图。
可选的,所述注意力-残差特征提取单元包括:2个残差结构和1个特征分块注意力机制;
所述残差结构包括2组依次连接的:卷积层、BN层和ReLU函数层;
所述特征分块注意力机制连接在所述2个残差结构之后,依次连接有:CAM通道注意力机制和4GD-SAM特征分块空间注意力机制。
可选的,所述特征分块注意力机制的实施步骤包括:
步骤11:使用所述通道注意力机制CAM通过对输入特征图在通道维度分别进行一次全局平均池化和全局最大池化提取通道的全局高层语义特征,通过多层感知机MLP分别对其进行一次通道压缩和扩张,利用权值学习的方式对通道间特征进行跟踪和筛选,最后通过Sigmoid激活,生成通道注意力权值描述子Mc(F),计算方法如下:
Figure BDA0004019427220000021
其中,F为输入特征图,σ为Sigmoid函数,W1和W0为多层感知机的通道变换权重矩阵;
步骤12:将输入的特征图在通道维度平均分成4块,再将每个子特征独立地进行平均池化和最大池化,形成8个通道的特征图,公式如下,其中chunk为通道切块:
F'=chunkc/4(F)                               (3)
步骤13:最后将其进行通道拼接、卷积和激活,形成最终经过特征标定的空间注意力描述子M4GD-S(F),具体计算如下:
Figure BDA0004019427220000031
其中cat表示通道拼接,卷积核大小为变量k。
可选的,所述多重监督模块在编码器最后一层和解码器前三层设置4个侧输出,同最终结果共取出5个不同语义层级的特征图;并通过上采样至与原图尺寸一致,使用改进的BID损失函数进行损失计算;最后将5个损失求和作为最终损失值;
所述改进的BID损失函数为:
lbid=A·lbce+B·lIoU+C·ldice
其中,lbce为交叉熵损失函数值,lIoU为IoU损失函数值,ldice为Dice损失函数值,A、B、C分别为三个损失函数的加权系数。
可选的,所述三个损失函数的加权系数A、B、C的比例为2:1:1。
可选的,所述残差结构中卷积层的卷积核大小为3。
可选的,所述4GD-SAM从上到下4个尺度层级特征图使用的卷积核大小分别为7,7,3,3。
本发明的第二个目的在于提供一种激光打码字符分割系统,包括:
至少一个存储介质,所述至少一个存储介质存储有至少一个指令集用于对含激光打码字符的图片进行分割;以及至少一个处理器,与所述至少一个存储介质通信连接,
其中,当所述激光打码字符分割系统运行时,所述至少一个处理器读取所述至少一个指令集并实施上述的激光打码字符分割方法。
可选的,还包括图像采集装置,用于采集待检测待分割的含激光打码字符的图片。
可选的,还包括显示装置,用于输出最终分割结果。
本发明有益效果是:
针对激光打码字符的背景复杂、对比度低、噪声高和字符笔画较细导致分割精度不高的问题,本发明设计了一种基于残差和特征分块注意力的Res18-UNet高精度激光打码字符分割模型。基于ResNet18主干网络提出了注意力残差单元,提高网络性能同时减少网络参数。设计了包含改进SAM的特征分块注意力机制,在原有空间注意力对全局进行池化的基础上将通道数进行分块后进行池化然后拼接,减少了由于抽象度过高引起的注意力不均导致笔画细节丢失情况,有效提高分割精度。设计了融合改进的BID Loss的多重监督模块,进一步提升分割性能,同时加快了整个分割网络的训练收敛速度。与其他方法对比实验证明其对复杂条件下的字符图像具有更高的分割精度和更快的推理速度。对于类似条件的分割场景具有一定的参考价值和较好的工业应用前景。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是激光打码字符图像及现有分割结果图。
图2是本发明激光打码字符分割方法的流程图。
图3是本发明的Res18-UNet模型整体框架图。
图4是本发明的注意力-残差特征提取单元结构图。
图5是本发明的特征分块注意力机制结构图。
图6是本发明的多重监督模块结构图。
图7是本发明的Grad-CAM注意力分布热力图。
图8是本发明的采用BID Loss(2:1:1)在有DS和无DS时的模型训练表现点线图。
图9是本发明方法与其它分割方法结果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种激光打码字符分割方法,包括:
步骤1:下采样编码阶段;
利用4个串接的注意力-残差特征提取单元构成ResNet18编码器主干结构,对待分割图像进行下采样,同时引入1×1卷积降低编码器输出特征通道数;
步骤2:上采样解码阶段;
利用双线性插值法进行图像上采样,使其与将要拼接的特征图具有相同尺寸,特征图拼接后进行两次3×3卷积进行解编码器的特征融合和图像信息还原,且每层各设置一个侧输出;
步骤3:将每层的侧输出输入至多重监督模块与真实值进行损失计算和梯度回传,以提高分割精度和网络收敛速度;最后利用一次上采样和1×1卷积使图像尺寸和通道数还原成原图尺寸与通道数,输出最终的分割二值图。
实施例二:
本实施例提供一种基于残差和特征分块注意力的激光打码字符分割方法,方法流程参见图2,图像特征提取部分设计了注意力-残差单元,此单元中的特征分块注意力机制添加了改进后的4GD-SAM特征分块空间注意力以增强微弱笔画特征。上采样路径设计了融合改进损失函数的多重监督模块,能够改善网络的收敛能力,抑制干扰,提高有效特征提取能力。最后使用解码器将特征图像进行二值还原,完成显著分割。
本实施例提出的字符高精度分割模型算法Res18-UNet如图3所示,其实施步骤具体包括:
Step1.此模型的编码器结构中设计了4个高效的注意力-残差特征提取单元(A-Runit)代替原有的卷积下采样,共同构成了ResNet18编码器主干结构,提高模型分割精度的同时减小了网络参数。同时引入1×1卷积降低编码器输出特征通道数,便于进行编解码器同层特征图的拼接操作,平衡拼接两者的语义水平,提高语义信息融合效率。
Step2.上采样解码阶段使用双线性插值法进行图像上采样,使其与将要拼接的特征图具有相同尺寸,特征图拼接后进行两次3×3卷积进行解编码器的特征融合和图像信息还原,且每层各设置一个侧输出。
Step3.将每层的侧输出输入至多重监督模块(DS module)与真实值进行损失计算和梯度回传,以提高分割精度和网络收敛速度。最后利用一次上采样和1×1卷积使图像尺寸和通道数还原成原图尺寸与通道数,输出最终的分割二值图。
具体地,本实施例中注意力-残差特征提取单元(A-R unit)如图4所示,由左侧的2个残差结构(Res-block)和右侧的1个特征分块注意力机制(Feature-grouped attention)组成,用于特征提取和下采样。每个残差结构由两次卷积、BN(批归一化)层和ReLU(修正线性单元)函数组成,其中卷积核大小为3。BN层将样本变成均值为0、方差为1的正态分布,在图像样本不均的情况下优化网络收敛,改善梯度消散。ReLU函数使得卷积输出具有拟合非线性的能力,提高网络泛化性。2个残差结构之后连接了图4右侧改进的特征分块注意力机制,其中依次添加了CAM通道注意力和本发明4GD-SAM特征分块空间注意力,完成通道和空间的特征选择和增强,以提高分割精度。
再具体地,本实施例中的特征分块注意力机制如图5所示。由于激光打码字符周围噪声高,且存在特征微弱,对比度低问题。为了增强重要的特征,抑制如噪声等干扰特征,本发明设计了改进的特征分块注意力机制。字符与其他语义分割对象的不同之处在于,字符笔画特征微弱,笔画端点、转折处细节丰富且多变,而原空间注意力将所有特征通道做全局平均和最大池化,特征抽象度过高,用在字符分割时会造成字符细节的丢失,反而使分割精度下降。基于上述问题,本发明的特征分块注意力机制由通道注意力CAM和根据字符细长特点改进的特征分块空间注意力4GD-SAM顺序组成,先在通道维度将无效信息进行初步筛除,然后在空间维度使用特征分块策略进一步增强低对比度微弱字符的有效特征表达,同时抑制无效信息干扰。计算方法如下:
Figure BDA0004019427220000061
其中F为输入特征图,
Figure BDA0004019427220000062
表示矩阵对应位置相乘,M4GD-S表示特征分块空间注意力4GD-SAM的描述子,MC表示通道注意力CAM的描述子特征分块注意力机制具体实施步骤如下:
Step1.使用通道注意力CAM通过对输入特征图在通道维度分别进行一次全局平均池化和全局最大池化提取通道的全局高层语义特征,通过多层感知机(MLP)分别对其进行一次通道压缩和扩张,利用权值学习的方式对通道间特征进行跟踪和筛选,最后通过Sigmoid激活,生成通道注意力权值描述子Mc(F),计算方法如下:
Figure BDA0004019427220000063
其中σ为Sigmoid函数,W1和W0为多层感知机的通道变换权重矩阵。
Step2.将输入的特征图在通道维度平均分成4块,再将每个子特征独立地进行平均池化和最大池化,形成8个通道的特征图,公式如下,其中chunk为通道切块:
F'=chunkc/4(F)                               (3)
Step3.最后将其进行通道拼接、卷积和激活,形成最终经过特征标定的空间注意力描述子M4GD-S(F)。具体计算如下:
Figure BDA0004019427220000071
其中cat表示通道拼接,卷积核大小为变量k,本实施例在从上到下4个尺度层级特征图使用的4GD-SAM卷积核大小分别为7,7,3,3,以适应对应层级的特征图大小和语义水平,尽可能保留字符细节特征,最终实现分割精度的提高。特征分块策略一定程度上降低了原SAM方法全局操作的特征抽象程度,更好保留了字符的细节纹理信息,同时提高了空间注意力的分布均匀性,避免由于特征太过抽象导致的笔画变形、连接处断裂等问题,以及注意力分布不均导致的噪声误分割或字符信息漏分割问题,提高了分割精度。
为了优化网络收敛,进一步提高分割精度,本实施例设计了融合改进损失函数的多重监督模块(DS module)。如图6所示,在编码器最后一层和解码器前三层设置4个侧输出,同最终结果共取出5个不同语义层级的特征图;通过上采样至与原图尺寸一致,将其与标签(GT)使用改进的BID损失函数进行损失计算;最后将5个损失求和作为最终损失值,图中up表示双线性插值上采样,S为Sigmoid函数。语义分割中常用的损失函数为交叉熵(BCE)损失函数,但面对正负样本不均衡的情况,交叉熵损失函数具有一定局限性,而IoU损失函数和Dice损失函数能将更多关注度聚焦于前景,提高整体前景区的概率值,但是在细节结构上容易产生假阳性,这一点能通过BCE损失函数对于所有像素的平滑效果进行补偿,三者相辅相成,达到效果最优。
本实施例将交叉熵损失函数、IoU损失函数和Dice损失函数进行融合成为BIDLoss,代替交叉熵损失函数,并使用多重监督机制优化训练过程,其中:
Figure BDA0004019427220000072
Figure BDA0004019427220000073
Figure BDA0004019427220000074
式(5)(6)(7)中y表示标签值,
Figure BDA0004019427220000075
为预测输出值,smooth是为了防止分子分母为0所加的极小值。由此,本实施例的BID Loss如式(8)得到:
lbid=A·lbce+B·lIoU+C·ldice                          (8)
上式A、B、C为三个损失函数的加权系数,本发明取2:1:1的比例。根据式(6)(7),IoU和Dice损失函数在0到1之间,随着迭代次数增加而趋于0,但BCE损失函数的值始终大于它们,所以能保证仍有足够的梯度来驱动学习过程,达到优化整体训练效果,进一步提高分割精度的目的。
为了进一步说明本发明的有益效果,进行了实验,按照本发明设计的分割方法流程,基于自建数据集进行激光打码字符分割算法有效性测试。
试验环境为:Windows10操作系统,深度学习框架为Pytorch 1.10.0,使用的硬件资源为Intel Core i9-12900k CPU,GeForce RTX 3090GPU。
数据集为:国内某知名自动化设备公司在易拉罐灌装生产线上使用工业相机采集的罐底激光打码字符灰度图像,尺寸为1280×960,选用其中较困难的分割图像688张,分成560张训练图像和128张测试图像,每张对应有一个经过标注的真值标签二值图(GT),在训练过程中使用交叉验证方法,每次迭代随机抽取15%的训练图像作为验证集,以进行更细致的训练性能监督。本发明网络模型在多次超参数调整实验后,选用batch size为6;训练轮数200;在优化器方面选用Adam;学习率初始设置为0.001,训练过程中自动衰减至0.00005。在此超参数下,网络训练达到收敛,训练耗时5h40mins。
本发明设计的实验安排如下:
消融实验1:A-R unit使用不同层数的ResNet作为全局主干网络时的性能对比;
消融实验2:注意力模块的有无,改进前后性能对比;
消融实验3:不同的损失函数,以及有无多重监督机制对网络性能影响对比。
对比实验:与其他图像分割算法包括大津双阈值法、自适应阈值分割+连通域去噪、高斯差分尺度空间+最大熵法及应用于医学分割的方法,包括UNe,UNet++,MSR+UNet,RA-UNet,改进型UNet以及RV-GAN共9种方法进行对比实验,从分割精度和算法效率两个角度评价算法的综合性能。
消融实验1结果分析:
针对本发明提出的分割网络模型,在其他结构与参数不变的基础上,A-R unit在全局上分别采用ResNet14(残差结构个数为2,2,2)、ResNet18(残差结构个数为2,2,2,2)和ResNet34(残差结构个数为3,4,6,3)作为主干网络进行消融实验。实验结果如表1所示,虽然ResNet14在速度上较ResNet18略有了1.4FPS(每秒处理的图像数)的提高,但是mIoU、Dice系数和F1分数分别下降了1.6%、0.9%和1.0%,而ResNet34在分割精度和速度方面都不如本发明的ResNet18,ResNet18层数适中,获得了最好的分割精度,且兼顾了执行速度,性能最佳。
表1不同主干网络对性能影响
Figure BDA0004019427220000091
注:本说明书所有表中的加粗字体均为对应列最优值。
消融实验2结果分析:
本发明设计了特征分块注意力机制,且提出4GD-SAM使其更加适应字符图像的特征提取,此实验基于以上改进,分别在不添加注意力模块、使用CBAM模块和使用本发明改进4GD-SAM的特征分块注意力机制这三种条件下进行了对比实验,验证本发明注意力机制的合理性。为了更好地分析改进SAM之后网络注意力的表现情况,此实验使用Grad-CAM方法将网络中的输出卷积层进行了可视化,Grad-CAM基于网络层反向传播后的梯度计算,生成的热力图中颜色分布表示网络对图像的关注分布情况,计算方法如下:
Figure BDA0004019427220000092
其中A代表某个层,k代表A的第k通道,c代表类别c,
Figure BDA0004019427220000093
代表针对Ak的权重。本试验对4张图像进行了注意力可视化,结果如图7所示,其中,(a)为原图;(b)无注意力机制;(c)CBAM模块;(d)本发明中的特征分块注意力机制。
实验结果数据如表2:
表2注意力模块对网络性能的影响
Figure BDA0004019427220000094
数据结果显示使用CBAM模块的模型性能稍好于无注意力模块,而使用包含本发明4GD-SAM的特征分块注意力机制后性能均好于前两者。通过Grad-CAM热力图可以明显发现,本发明的方法相较于原始的SAM,不仅使得网络注意力更加均匀地聚焦于字符本身,加强了对字符整体的关注,减少由于关注不均导致的字符漏分割,而且对于罐底周边有可能出现字符的区域也分布有均匀的轻微关注力,避免了无注意力或是CBAM模块带来的周边关注力不均引起的对噪声的过分割。这得益于4GD-SAM的特征分块策略减缓了特征的过度抽象化,更好保留了字符细节区域的集中关注力和周边可能出现字符区域的均匀轻微关注力。
消融实验3结果分析:
多重监督模块(DS module)以及改进的损失函数设置对网络性能会产生重要影响,前者主要影响网络收敛表现,后者对最终分割精度影响较大。本发明算法的损失函数BID Loss由BCE Loss、IoU Loss和Dice Loss融合而成,而后两者都是对分割结果和真值重叠率的描述,具有一定相似的意义,所以拟设置加权系数来放大BCE Loss的影响力,平衡后两者的影响,所以此实验分别设置加权系数A、B、C分别为1:1:1和2:1:1,与单独采用BCELoss做性能对比,同时效果好的那组再添加多重监督进行多重监督模块对网络性能影响比较。
各方法的结果数据如表3,其中权值系数为2:1:1的BID Loss取得了最佳性能。在此基础上再添加DS机制进行了训练过程监测,有无DS机制的训练表现(轮数与Dice的关系)如图8,可以看出添加DS时训练的收敛速度快于无DS时,表3中采用收敛轮数指标定量描述收敛速度,收敛轮数这里指达到99%最大Dice系数所用的轮数,无DS情况下需要102轮,而有DS时仅需56轮,但两者训练最终达到的分割精度几乎相同。结果表明采用BID Loss(2:1:1)分割性能最佳,添加DS收敛速度更快。
表3损失函数及多重监督对网络性能的影响
Figure BDA0004019427220000101
对比实验结果分析:
为了验证本发明分割方法的性能,设置与其他先进方法的分割对比实验。实验结果在表4中呈现,其中参数量(Params)和浮点计算量(FLOPs)用来衡量网络结构复杂程度和算法效率,其输入均以本发明中罐底激光打码字符数据集的尺寸计算,在本试验硬件下的实际处理速度以FPS表现(包括i/o时长)。结果表明本发明的方法在所对比的方法中具有最好的分割精度和最快的处理速度,表明引入残差模块不仅使网络性能提升,同时也降低了网络复杂度,同时引入1×1卷积也起到了减少网络参数的效果。
表4不同分割方法性能对比
Figure BDA0004019427220000102
Figure BDA0004019427220000111
图9为4张测试集样本图像的对比实验结果图,其中,(a)原图;(b)GT;(c)大津双阈值法;(d)自适应阈值分割+连通域去噪;(e)高斯差分尺度空间+最大熵法;(f)UNet;(g)UNet++;(h)MSR+UNet;(i)RA-UNet;(j)改进型UNet;(k)RV-GAN;(l)本发明方法。
为了更清晰表达分割效果,取图(a)中的方框ROI局部区域显示。其中用于打码字符的分割方法由于无法提取深层语义信息,未能有效克服低对比度和噪声问题,结果普遍表现为字符缺失和严重噪点。医学分割方法中,原始UNet以及结合MSR的UNet分割结果都存在轻微噪声和笔画缺失,UNet++的周围噪声较严重,而RA-UNet和改进型UNet也均出现少量笔画缺失,RV-GAN作为视网膜血管分割的较好方法,对于字符细节保留度较高,但是去除噪声效果不佳。本发明方法的分割效果最接近真实值。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种激光打码字符分割方法,其特征在于,所述激光打码字符分割方法包括:
步骤1:下采样编码阶段;
利用4个串接的注意力-残差特征提取单元构成ResNet18编码器主干结构,对待分割图像进行下采样,同时引入1×1卷积降低编码器输出特征通道数;
步骤2:上采样解码阶段;
利用双线性插值法进行图像上采样,使其与将要拼接的特征图具有相同尺寸,特征图拼接后进行两次3×3卷积进行解编码器的特征融合和图像信息还原,且每层各设置一个侧输出;
步骤3:将每层的侧输出输入至多重监督模块与真实值进行损失计算和梯度回传,以提高分割精度和网络收敛速度;最后利用一次上采样和1×1卷积使图像尺寸和通道数还原成原图尺寸与通道数,输出最终的分割二值图。
2.根据权利要求1所述的激光打码字符分割方法,其特征在于,所述注意力-残差特征提取单元包括:2个残差结构和1个特征分块注意力机制;
所述残差结构包括2组依次连接的:卷积层、BN层和ReLU函数层;
所述特征分块注意力机制连接在所述2个残差结构之后,依次连接有:CAM通道注意力机制和4GD-SAM特征分块空间注意力机制。
3.根据权利要求2所述的激光打码字符分割方法,其特征在于,所述特征分块注意力机制的实施步骤包括:
步骤11:使用所述通道注意力机制CAM通过对输入特征图在通道维度分别进行一次全局平均池化和全局最大池化提取通道的全局高层语义特征,通过多层感知机MLP分别对其进行一次通道压缩和扩张,利用权值学习的方式对通道间特征进行跟踪和筛选,最后通过Sigmoid激活,生成通道注意力权值描述子Mc(F),计算方法如下:
Figure FDA0004019427210000011
其中,F为输入特征图,σ为Sigmoid函数,W1和W0为多层感知机的通道变换权重矩阵;
步骤12:将输入的特征图在通道维度平均分成4块,再将每个子特征独立地进行平均池化和最大池化,形成8个通道的特征图,公式如下,其中chunk为通道切块:
F'=chunkc/4(F)                               (3)
步骤13:最后将其进行通道拼接、卷积和激活,形成最终经过特征标定的空间注意力描述子M4GD-S(F),具体计算如下:
Figure FDA0004019427210000021
其中cat表示通道拼接,卷积核大小为变量k。
4.根据权利要求1所述的激光打码字符分割方法,其特征在于,所述多重监督模块在编码器最后一层和解码器前三层设置4个侧输出,同最终结果共取出5个不同语义层级的特征图;并通过上采样至与原图尺寸一致,使用改进的BID损失函数进行损失计算;最后将5个损失求和作为最终损失值;
所述改进的BID损失函数为:
lbid=A·lbce+B·lIoU+C·ldice
其中,lbce为交叉熵损失函数值,lIoU为IoU损失函数值,ldice为Dice损失函数值,A、B、C分别为三个损失函数的加权系数。
5.根据权利要求4所述的激光打码字符分割方法,其特征在于,所述三个损失函数的加权系数A、B、C的比例为2:1:1。
6.根据权利要求2所述的激光打码字符分割方法,其特征在于,所述残差结构中卷积层的卷积核大小为3。
7.根据权利要求3所述的激光打码字符分割方法,其特征在于,所述4GD-SAM从上到下4个尺度层级特征图使用的卷积核大小分别为7,7,3,3。
8.一种激光打码字符分割系统,其特征在于,所述激光打码字符分割系统包括:
至少一个存储介质,所述至少一个存储介质存储有至少一个指令集用于对含激光打码字符的图片进行分割;以及至少一个处理器,与所述至少一个存储介质通信连接,
其中,当所述激光打码字符分割系统运行时,所述至少一个处理器读取所述至少一个指令集并实施如权利要求1-7中任一项所述的激光打码字符分割方法。
9.根据权利要求8所述的激光打码字符分割系统,其特征在于,还包括图像采集装置,用于采集待检测待分割的含激光打码字符的图片。
10.根据权利要求8所述的激光打码字符分割系统,其特征在于,还包括显示装置,用于输出最终分割结果。
CN202211713446.XA 2022-12-27 2022-12-27 基于残差和特征分块注意力的激光打码字符分割方法 Pending CN115953784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211713446.XA CN115953784A (zh) 2022-12-27 2022-12-27 基于残差和特征分块注意力的激光打码字符分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211713446.XA CN115953784A (zh) 2022-12-27 2022-12-27 基于残差和特征分块注意力的激光打码字符分割方法

Publications (1)

Publication Number Publication Date
CN115953784A true CN115953784A (zh) 2023-04-11

Family

ID=87285422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211713446.XA Pending CN115953784A (zh) 2022-12-27 2022-12-27 基于残差和特征分块注意力的激光打码字符分割方法

Country Status (1)

Country Link
CN (1) CN115953784A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664845A (zh) * 2023-07-28 2023-08-29 山东建筑大学 基于块间对比注意力机制的智慧工地图像分割方法及系统
CN116935167A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 目标追踪模型的训练方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116664845A (zh) * 2023-07-28 2023-08-29 山东建筑大学 基于块间对比注意力机制的智慧工地图像分割方法及系统
CN116664845B (zh) * 2023-07-28 2023-10-13 山东建筑大学 基于块间对比注意力机制的智慧工地图像分割方法及系统
CN116935167A (zh) * 2023-09-12 2023-10-24 深圳须弥云图空间科技有限公司 目标追踪模型的训练方法及装置
CN116935167B (zh) * 2023-09-12 2024-05-10 深圳须弥云图空间科技有限公司 目标追踪模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN110335290B (zh) 基于注意力机制的孪生候选区域生成网络目标跟踪方法
KR20220066945A (ko) 이미지 프로세싱 방법, 장치, 전자 디바이스 및 컴퓨터 판독가능 저장 매체
CN115953784A (zh) 基于残差和特征分块注意力的激光打码字符分割方法
CN115661144B (zh) 基于可变形U-Net的自适应医学图像分割方法
CN111723585A (zh) 一种风格可控的图像文本实时翻译与转换方法
CN111754446A (zh) 一种基于生成对抗网络的图像融合方法、系统及存储介质
CN108154519A (zh) 眼底图像中血管的分割方法、装置及存储介质
CN112150354B (zh) 联合轮廓增强与去噪统计先验的单幅图像超分辨率方法
CN117253154B (zh) 一种基于深度学习的集装箱弱小序列号目标检测识别方法
CN111696046A (zh) 一种基于生成式对抗网络的水印去除方法和装置
CN114332133A (zh) 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统
CN110930327A (zh) 基于级联深度残差网络的视频去噪方法
CN115565043A (zh) 结合多表征特征以及目标预测法进行目标检测的方法
CN116977844A (zh) 一种轻量级水下目标实时检测方法
CN113658206B (zh) 一种植物叶片分割方法
CN109871790B (zh) 一种基于混合神经网络模型的视频去色方法
CN114677349A (zh) 编解码端边缘信息增强和注意引导的图像分割方法及系统
CN117593275A (zh) 一种医学图像分割系统
CN117437423A (zh) 基于sam协同学习和跨层特征聚合增强的弱监督医学图像分割方法及装置
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
CN112419335A (zh) 一种细胞核分割网络的形状损失计算方法
CN116778164A (zh) 一种基于多尺度结构改进DeeplabV3+网络的语义分割方法
CN116363064A (zh) 融合目标检测模型和图像分割模型的缺陷识别方法及装置
CN116129417A (zh) 一种基于低质量图像的数字仪表读数检测方法
CN114821067A (zh) 基于点标注数据的病理图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination