CN117523543B - 一种基于深度学习的金属压印字符识别方法 - Google Patents
一种基于深度学习的金属压印字符识别方法 Download PDFInfo
- Publication number
- CN117523543B CN117523543B CN202410025124.9A CN202410025124A CN117523543B CN 117523543 B CN117523543 B CN 117523543B CN 202410025124 A CN202410025124 A CN 202410025124A CN 117523543 B CN117523543 B CN 117523543B
- Authority
- CN
- China
- Prior art keywords
- module
- image
- feature
- attention mechanism
- convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000002184 metal Substances 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 85
- 230000004913 activation Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 26
- 238000011176 pooling Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004049 embossing Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 239000007769 metal material Substances 0.000 description 5
- 229910000831 Steel Inorganic materials 0.000 description 3
- 239000010959 steel Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/09—Recognition of logos
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像识别技术领域,公开了一种基于深度学习的金属压印字符识别方法,包括获取待检测金属压印字符图像;构建金属压印字符检测模型并进行预训练;利用所述反光特征融合模块将待检测金属压印字符图像中的反光噪声转换为包含字符特征信息的反光特征,再将从不同角度图像提取的反光特征进行融合,生成反光特征融合图像;利用特征提取网络、多尺度特征融合网络和预测网络对反光特征融合图像进行特征提取、多尺度特征融合和特征预测,得到金属压印字符识别结果。本发明可以满足不同反光条件下对压印字符的特征增强,解决现有压印字符识别方法存在的图像特征信息提取不准确、识别准确率低的技术问题。
Description
技术领域
本发明涉及图像识别技术领域,具体涉及一种基于深度学习的金属压印字符识别方法。
背景技术
铁路货车在目前的货物运载任务中扮演着越来越重要的角色,铁路货车所承载的运载工作日益增加,为保证铁路货车的正常运行,对铁路货车进行必要的维护维修显得至关重要。其中,对铁路货车线缆的检测是其中重要的任务之一,为避免线缆因老化、外因破损等情况,导致铁路货车运载出现重大安全隐患,需要定期采用相应的技术手段对检修的压印的检修时间进行识别。目前,对于承载线路检修时间压印字符铭牌的识别主要采用人工记录的方式,在铁路货车停靠在专门检修站时,由特定工种的技术人员定期到现场进行一一观察记录,因而存在主观性大且效率低下等问题。因此,为提高铁路货车线缆检修时间压印字符铭牌识别的自动化程度和检修的时效性,迫切需要开发高校准确的箱号自动识别方法。
现有技术提出了一种基于YOLOv5s算法的钢印字符识别方法,运用YOLOv5s算法提取图像的特征,实现了对钢印字符的识别。YOLOv5s将模型分为3个部分,即Backbone网络部分、Neck特征增强部分和Prediction部分。由于该方法检测的钢印字符对象干扰信息较少,且钢印字符表面平整性较高,因此不能正确处理因反光造成的钢印字符铭牌难以识别的情况。
目前对于压印字符识别方法存在以下两个问题:
1)现在铭牌压印字符识别干扰信息少。现有方法针对的压印字符识别,主要是在一块表面平整度高的钢板上,压印字符与钢板具有对比度较高的特点,且钢板上除压印字符外,无其它干扰信息。
2)缺乏对强反光的金属压印字符识别。目前的检测方法,主要针对的是反光较弱的金属材质压印字符识别,压印字符在整张图像数据中的质量较高,没有考虑反光严重导致压印字符识别难度大的情况。
发明内容
针对现有压印字符识别存在的铭牌压印字符识别干扰信息少、缺乏对强反光的金属压印字符识别的问题,本发明提供了一种基于深度学习的金属压印字符识别方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于深度学习的金属压印字符识别方法,包括以下步骤:
获取待检测金属压印字符图像;所述待检测金属压印字符图像包括同一高度不同角度的采集图像;
构建金属压印字符检测模型并进行预训练;所述金属压印字符检测模型包括主干网络、多尺度特征融合网络和预测网络;所述主干网络包括反光特征融合模块和特征提取网络;
利用所述反光特征融合模块将待检测金属压印字符图像中的反光噪声转换为包含字符特征信息的反光特征,再将从不同角度图像提取的反光特征进行融合,生成反光特征融合图像;
利用特征提取网络、多尺度特征融合网络和预测网络对反光特征融合图像进行特征提取、多尺度特征融合和特征预测,得到金属压印字符识别结果。
作为可选地,所述反光特征融合模块具体包括:
反光特征提取单元和反光特征融合单元;
所述反光特征提取单元用于先对输入的原始图像进行线性插值,得到尺度减小后的第一图像;然后对第一图像进行模糊处理,得到消除压印字符后的第二图像;再对第二图像进行线性插值,得到尺度还原后的灰度背景图像;最后将原始图像减去灰度背景图像,得到反光特征图像;
所述反光特征融合单元用于将对不同角度的原始图像处理得到的反光特征图像进行融合,生成反光特征融合图像。
作为可选地,所述反光特征提取单元具体包括:
依次连接的第一线性插值层、第一中值滤波层和第二线性插值层;
所述第一线性插值层的输入图像与第二线性插值层的输出图像进行灰度相减,得到反光特征提取单元输出的反光特征图像。
作为可选地,所述反光特征图像的计算方式为:
其中,表示反光特征图像,/>表示原始图像,/>表示灰度背景图像,表示对图像进行线性插值运算,/>表示对图像进行中值滤波,n表示放大因子,/>为图像像素坐标。
作为可选地,所述反光特征融合图像的计算方式为:
其中,表示反光特征融合图像,/>表示反光特征图像/>与反光特征图像/>的差值图像,/>表示反光特征图像/>与反光特征图像的差值图像,/>表示在0度方向上的反光特征图像,/>表示在90度方向上的反光特征图像,/>表示在180度方向上的反光特征图像,/>表示在270度方向上的反光特征图像。
作为可选地,所述特征提取网络具体包括:
依次连接的切片模块、第一卷积块注意力模块、第一注意力机制混合模块、第二卷积块注意力模块、第二注意力机制混合模块、第三卷积块注意力模块、第三注意力机制混合模块、第四卷积块注意力模块、第四注意力机制混合模块、第五卷积块注意力模块和特征转换模块;
所述第一注意力机制混合模块、第二注意力机制混合模块、第三注意力机制混合模块和第四注意力机制混合模块均用于对输入的特征图提取包含方向信息和位置信息的特征图。
作为可选地,所述多尺度特征融合网络具体包括:
依次连接的第六卷积块注意力模块、第一上采样模块、第一拼接模块、第五注意力机制混合模块、第七卷积块注意力模块、第二上采样模块、第二拼接模块和第六注意力机制混合模块形成的第一支路,以及依次连接的第八卷积块注意力模块、第三拼接模块、第七注意力机制混合模块、第九卷积块注意力模块、第四拼接模块和第八注意力机制混合模块形成的第二支路;
所述第六卷积块注意力模块的输入端与特征转换模块的输出端连接,所述第六卷积块注意力模块的输出端还与第四拼接模块的输入端连接;所述第一拼接模块的输入端与第四注意力机制混合模块的输出端连接;所述第七卷积块注意力模块的输出端还与第三拼接模块的输入端连接;所述第二拼接模块的输入端与第二注意力机制混合模块的输出端连接。
作为可选地,所述第一注意力机制混合模块、第二注意力机制混合模块、第三注意力机制混合模块、第四注意力机制混合模块、第五注意力机制混合模块、第六注意力机制混合模块、第七注意力机制混合模块、第八注意力机制混合模块的结构相同,具体包括:
第一卷积模块、瓶颈模块、第二卷积模块、第五拼接模块、第三卷积模块和注意力机制模块;
所述第一卷积模块的输入端与第二卷积模块的输入端连接;所述第二卷积模块的输出端和瓶颈模块的输出端均与第五拼接模块的输出端连接;所述第五拼接模块、第三卷积模块和注意力机制模块依次连接。
作为可选地,所述注意力机制模块具体包括:
宽度全局平均池化模块、高度全局平均池化模块、拼接和卷积模块、批量归一化和非线性激活模块、第四卷积模块、第五卷积模块、第一S函数激活模块、第二S函数激活模块和相乘模块;
所述宽度全局平均池化模块的输入端与高度全局平均池化模块的输入端及相乘模块的输入端连接,所述宽度全局平均池化模块的输出端与高度全局平均池化模块的输出端均与拼接和卷积模块的输入端连接;
所述拼接和卷积模块的输出端与批量归一化和非线性激活模块的输入端连接,所述批量归一化和非线性激活模块的输出端分别与第四卷积模块的输入端和第五卷积模块的输入端连接;
所述第四卷积模块的输出端与第一S函数激活模块的输入端连接,所述第五卷积模块的输出端与第二S函数激活模块的输入端连接;
所述相乘模块的输入端还与第一S函数激活模块的输出端及第二S函数激活模块的输出端连接。
作为可选地,所述预测网络的输入端分别与第六注意力机制混合模块的输出端、第七注意力机制混合模块的输出端及第八注意力机制混合模块的输出端连接。
本发明具有以下有益效果:
本发明通过获取同一高度不同角度的采集图像,并且在主干网络中设置反光特征融合模块,使反光噪声转换为携带着字符特征信息的反光特征,从而可以满足不同反光条件下对压印字符的特征增强,解决现有压印字符识别方法存在的图像特征信息提取不准确、识别准确率低的技术问题,有效地实现铁路货车线缆检修时间压印字符铭牌的自动识别。
附图说明
图1为本发明中一种基于深度学习的金属压印字符识别方法的流程示意图;
图2为本发明中金属压印字符检测模型的结构示意图;
图3为本发明中不同光照强度下的一个字符图像示意图;
图4为本发明中不同光照强度下的另一个字符图像示意图;
图5为本发明中图像采集示意图;
图6为本发明中0°角度采集的图像示意图;
图7为本发明中90°角度采集的图像示意图;
图8为本发明中180°角度采集的图像示意图;
图9为本发明中270°角度采集的图像示意图;
图10为本发明中反光特征融合模块的结构示意图;
图11为本发明中反光特征图像提取示意图;
图12为本发明中反光特征融合图像示意图;
图13为本发明中注意力机制混合模块的结构示意图;
图14为本发明中注意力机制模块的结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,本发明实施例提供了一种基于深度学习的金属压印字符识别方法,包括以下步骤S1至步骤S4:
S1、获取待检测金属压印字符图像;所述待检测金属压印字符图像包括同一高度不同角度的采集图像;
S2、构建金属压印字符检测模型并进行预训练;所述金属压印字符检测模型包括主干网络、多尺度特征融合网络和预测网络;所述主干网络包括反光特征融合模块和特征提取网络;
S3、利用所述反光特征融合模块将待检测金属压印字符图像中的反光噪声转换为包含字符特征信息的反光特征,再将从不同角度图像提取的反光特征进行融合,生成反光特征融合图像;
S4、利用特征提取网络、多尺度特征融合网络和预测网络对反光特征融合图像进行特征提取、多尺度特征融合和特征预测,得到金属压印字符识别结果。
如图2所示,本实施例构建的金属压印字符检测模型包括主干网络、多尺度特征融合网络和预测网络三部分;其中主干网络Backbone进行特征提取,该部分主要由切片模块(Focus)、卷积块注意力模块(CBA)和特征转换模块(SPP)组成,Focus对特征图进行切片操作,CBA由残差网络结构组成,解决梯度消失和过拟合现象,SPP解决了候选锚框与特征图各层之间的对齐问题。多尺度特征融合网络Neck采用特征金字塔从上向下传递语义信息和路径聚合结构来传递定位信息,提高特征层之间的交互性,对提取到的有效特征层信息进行交互融合,从而进一步提高模型的检测性能。检测头Head输出三个不同尺度大小的预测特征图并使用非最大抑制算法(NMS)筛选预测框,得到最终识别目标。
在采集金属铭牌压印字符图像的过程中,由于铭牌摆放角度、光线变化等原因,采集到的图像会有极为明显的反光噪声,图3和图4展示了不同光照强度下的字符图像,可以看到,不管光照强度的强弱,压印字符处均有反光噪声,且字符与背景过于相近不易辨认字符类别。为解决上述干扰信息对金属铭牌压印字符识别的影响,本发明通过获取同一高度不同角度的采集图像,并且在主干网络中设置反光特征融合模块(RFF),使反光噪声转换为携带着字符特征信息的反光特征,从而可以满足不同反光条件下对压印字符的特征增强,解决现有压印字符识别方法存在的图像特征信息提取不准确、识别准确率低的技术问题,有效地实现铁路货车线缆检修时间压印字符铭牌的自动识别。
在本发明的一个可选实施例中,本实施例获取待检测金属压印字符图像的方法如图5所示。建立竖直平面坐标系xoy,相机位于铭牌的正上方,铭牌放置于o点;在保持高度h一致的情况下,拍摄光源在同一圆周上的θ=0°、θ=90°、θ=180°、θ=270°四个位置的图像。图6至图9为采集到的图像示例。
在本发明的一个可选实施例中,本实施例设置的反光特征融合模块具体包括:
反光特征提取单元和反光特征融合单元;
所述反光特征提取单元用于先对输入的原始图像进行线性插值,得到尺度减小后的第一图像;然后对第一图像进行模糊处理,得到消除压印字符后的第二图像;再对第二图像进行线性插值,得到尺度还原后的灰度背景图像;最后将原始图像减去灰度背景图像,得到反光特征图像;
所述反光特征融合单元用于将对不同角度的原始图像处理得到的反光特征图像进行融合,生成反光特征融合图像。
其中,所述反光特征提取单元具体包括:
依次连接的第一线性插值层、第一中值滤波层和第二线性插值层;
所述第一线性插值层的输入图像与第二线性插值层的输出图像进行灰度相减,得到反光特征提取单元输出的反光特征图像。
具体而言,如图10所示,反光特征融合模块对采集到的图像数据集通过以下步骤提取和消除背景信息:
1)首先,使用线性插值算法来减小原始图像的大小;
2)其次,使用中值滤波算法对缩小后的图像进行模糊处理,以消除表面上的压印字符,从而获得近似的背景图像,其中保留了图像的整体亮度分布;
3)然后,使用线性插值算法将模糊图像放大回原始图像大小,并用作原始图像的背景;
4)最后,设置图像的参考灰度值128,通过从背景图像的灰度值中减去原始图像的灰度值来消除背景。
上述过程可以表示为:
其中,表示反光特征图像,/>表示原始图像,/>表示灰度背景图像,表示对图像进行线性插值运算,/>表示对图像进行中值滤波,n表示放大因子,/>为图像像素坐标。/>表示缩小因子,根据样本的压印字符宽度,将n设置为10。
图6是光源在Φ=0°位置处采集到的原图,经过灰度化和按上式提取到的特征图,如图11所示。
提取到四张反光特征图像后,采用反光特征融合单元进行反光特征融合,如图12所示。融合过程具体表示为:
其中,表示反光特征融合图像,/>表示反光特征图像/>与反光特征图像/>的差值图像,/>表示反光特征图像/>与反光特征图像的差值图像,即融合了两个方向上的反光特征的图像,/>表示在0度方向上的反光特征图像,/>表示在90度方向上的反光特征图像,/>表示在180度方向上的反光特征图像,/>表示在270度方向上的反光特征图像。
由于不同金属材料上呈现的压印字符质量变化较大,本实施例为了增加压印字符识别模型的通用性,在压印字符识别深度学习模型中添加反光特征融合模块RFF,增强压印字符特征信息,将反光噪声转变为可提取的反光特征,改善了因光照对金属铭牌压印字符识别结果的影响,可以满足不同反光条件下对压印字符的特征增强。
在本发明的一个可选实施例中,本实施例在网络结构中添加了反光特征融合模块后,考虑在网络结构中添加注意力机制。CBAM注意力是在通道注意力的基础上增添了空间注意力通道,但只考虑了局部区域信息。而CA注意力是通过对水平方向和垂直方向上分别进行平均池化,再使用转换器对空间信息进行编码,最后把空间信息通过加权的方式融合进通道中,这样就实现了CA注意力机制对空间信息和通道信息的全面考虑。因此,本实施例选择将CA注意力模块与C3模块相结合得到注意力机制混合模块(C3CA)来提高特征的表达能力,从而提高网络的检测精度和定位精度。
在本实施例中,所述特征提取网络具体包括:
依次连接的切片模块、第一卷积块注意力模块、第一注意力机制混合模块、第二卷积块注意力模块、第二注意力机制混合模块、第三卷积块注意力模块、第三注意力机制混合模块、第四卷积块注意力模块、第四注意力机制混合模块、第五卷积块注意力模块和特征转换模块;
所述第一注意力机制混合模块、第二注意力机制混合模块、第三注意力机制混合模块和第四注意力机制混合模块均用于对输入的特征图提取包含方向信息和位置信息的特征图。
在本实施例中,所述多尺度特征融合网络具体包括:
依次连接的第六卷积块注意力模块、第一上采样模块、第一拼接模块、第五注意力机制混合模块、第七卷积块注意力模块、第二上采样模块、第二拼接模块和第六注意力机制混合模块形成的第一支路,以及依次连接的第八卷积块注意力模块、第三拼接模块、第七注意力机制混合模块、第九卷积块注意力模块、第四拼接模块和第八注意力机制混合模块形成的第二支路;
所述第六卷积块注意力模块的输入端与特征转换模块的输出端连接,所述第六卷积块注意力模块的输出端还与第四拼接模块的输入端连接;所述第一拼接模块的输入端与第四注意力机制混合模块的输出端连接;所述第七卷积块注意力模块的输出端还与第三拼接模块的输入端连接;所述第二拼接模块的输入端与第二注意力机制混合模块的输出端连接。
在本实施例中,所述预测网络的输入端分别与第六注意力机制混合模块的输出端、第七注意力机制混合模块的输出端及第八注意力机制混合模块的输出端连接。
其中,所述第一注意力机制混合模块、第二注意力机制混合模块、第三注意力机制混合模块、第四注意力机制混合模块、第五注意力机制混合模块、第六注意力机制混合模块、第七注意力机制混合模块、第八注意力机制混合模块的结构相同,具体包括:
第一卷积模块、瓶颈模块、第二卷积模块、第五拼接模块、第三卷积模块和注意力机制模块;
所述第一卷积模块的输入端与第二卷积模块的输入端连接;所述第二卷积模块的输出端和瓶颈模块的输出端均与第五拼接模块的输出端连接;所述第五拼接模块、第三卷积模块和注意力机制模块依次连接。
具体而言,本实施例将CA注意力机制融入C3模块中,注意力机制混合模块结构如图13所示,首先,输入的特征图信息进入C3结构中,经过C3的Conv混合层处理后,残差网络会汇总卷积层(1*1)和卷积层(3*3)的结果,然后将上述混合层的结果与残差网络的结果相连接并再一次经过混合层处理,最终送入CA模块。
在本实施例中,如图14所示,所述注意力机制模块具体包括:
宽度全局平均池化模块、高度全局平均池化模块、拼接和卷积模块、批量归一化和非线性激活模块、第四卷积模块、第五卷积模块、第一S函数激活模块、第二S函数激活模块和相乘模块;
所述宽度全局平均池化模块的输入端与高度全局平均池化模块的输入端及相乘模块的输入端连接,所述宽度全局平均池化模块的输出端与高度全局平均池化模块的输出端均与拼接和卷积模块的输入端连接;
所述拼接和卷积模块的输出端与批量归一化和非线性激活模块的输入端连接,所述批量归一化和非线性激活模块的输出端分别与第四卷积模块的输入端和第五卷积模块的输入端连接;
所述第四卷积模块的输出端与第一S函数激活模块的输入端连接,所述第五卷积模块的输出端与第二S函数激活模块的输入端连接;
所述相乘模块的输入端还与第一S函数激活模块的输出端及第二S函数激活模块的输出端连接。
具体而言,CA模块分两步编码通道关系和空间关系。一个步骤是坐标信息嵌入,另一个是坐标注意力生成。具体过程如下:
1)首先利用宽度全局平均池化模块和高度全局平均池化模块对宽度和高度特征图进行编码,即在输入特征图的宽度和高度方向上分别进行全局平均池化处理。高度和宽度特征映射计算公式为:
其中,表示该层特征图的高度,/>表示该层特征图的宽度,/>表示沿/>方向的第/>个通道的输出结果,/>表示沿/>方向的第/>个通道的输出结果,/>表示输入特征图沿/>方向的输入,/>表示输入特征图沿/>方向的输入。
2)利用拼接和卷积模块和批量归一化和非线性激活模块将具有嵌入的特定方向信息的这两个特征图分别编码为2个注意力图,该过程为坐标注意力生成。对应产生的位置信息会被保存起来,存放在注意力图内。位置信息是指特征图沿方向提取的信息和沿/>方向提取的信息。编码过程表示为:
其中,表示沿空间维度的拼接操作,/>表示卷积操作,/>表示Sigmoid激活函数,表示在水平方向和垂直方向编码空间信息的中间特征图。
3)利用第四卷积模块、第五卷积模块、第一S函数激活模块和第二S函数激活模块对原始特征在宽度和高度方向分别进行1*1卷积运算和激活函数运算/>处理,表示为:
其中,和/>分别表示/>沿/>和/>两个方向的特征图,/>和/>是与输入特征具有相同通道数的注意力权重,F h表示原始特征在宽度上进行1*1卷积运算,F w表示原始特征在宽度上进行1*1卷积运算。
4)利用相乘模块将CA模块的输入特征图与具有宽度和高度的注意权值的特征图相乘,得到最终特征图,表示为:
其中,表示第/>个通道的输出,/>表示第/>个通道的输入,/>表示第个通道上沿/>方向的注意力权重,/>表示第/>个通道上沿/>方向的注意力权重。
由于不同金属材料的压印字符会呈现出不同程度的变形,为了增强压印字符识别模型对压印字符的感知能力,采用具有方向信息和位置信息的目标注意力模块C3CA,可以适应较大程度变形的压印字符识别,提高网络的检测精度和定位精度。
本发明通过在金属压印字符检测模型中融入反光特征融合模块RFF和C3CA注意力机制混合模块,可以有效实现反光金属材质上压印字符的识别,同时对不反光金属材料上的压印字符同样适用,适用范围广;并且提高自动化处理水平,可以极大地降低操作人员的工作量,及早发现需检修的时间,避免铁路货车运载重大安全隐患的出现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (6)
1.一种基于深度学习的金属压印字符识别方法,其特征在于,包括以下步骤:
获取待检测金属压印字符图像;所述待检测金属压印字符图像包括同一高度不同角度采集的图像;
构建金属压印字符检测模型并进行预训练;所述金属压印字符检测模型包括主干网络、多尺度特征融合网络和预测网络;所述主干网络包括反光特征融合模块和特征提取网络;
利用所述反光特征融合模块将待检测金属压印字符图像中的反光噪声转换为包含字符特征信息的反光特征,再将从不同角度图像提取的反光特征进行融合,生成反光特征融合图像;
所述反光特征融合模块具体包括:
反光特征提取单元和反光特征融合单元;
所述反光特征提取单元用于先对输入的原始图像进行线性插值,得到尺度减小后的第一图像;然后对第一图像进行模糊处理,得到消除压印字符后的第二图像;再对第二图像进行线性插值,得到尺度还原后的灰度背景图像;最后将原始图像减去灰度背景图像,得到反光特征图像;
所述反光特征融合单元用于将对不同角度的原始图像处理得到的反光特征图像进行融合,生成反光特征融合图像;
所述反光特征提取单元具体包括:
依次连接的第一线性插值层、第一中值滤波层和第二线性插值层;
所述第一线性插值层的输入图像与第二线性插值层的输出图像进行灰度相减,得到反光特征提取单元输出的反光特征图像;
所述反光特征图像的计算方式为:
其中,表示反光特征图像,/>表示原始图像,/>表示灰度背景图像,表示对图像进行线性插值运算,/>表示对图像进行中值滤波,n表示放大因子,/>为图像像素坐标;
所述反光特征融合图像的计算方式为:
其中,表示反光特征融合图像,/>表示反光特征图像/>与反光特征图像/>的差值图像,/>表示反光特征图像/>与反光特征图像/>的差值图像,/>表示在0度方向上的反光特征图像,/>表示在90度方向上的反光特征图像,/>表示在180度方向上的反光特征图像,/>表示在270度方向上的反光特征图像;
利用特征提取网络、多尺度特征融合网络和预测网络对反光特征融合图像进行特征提取、多尺度特征融合和特征预测,得到金属压印字符识别结果。
2.根据权利要求1所述的一种基于深度学习的金属压印字符识别方法,其特征在于,所述特征提取网络具体包括:
依次连接的切片模块、第一卷积块注意力模块、第一注意力机制混合模块、第二卷积块注意力模块、第二注意力机制混合模块、第三卷积块注意力模块、第三注意力机制混合模块、第四卷积块注意力模块、第四注意力机制混合模块、第五卷积块注意力模块和特征转换模块;
所述第一注意力机制混合模块、第二注意力机制混合模块、第三注意力机制混合模块和第四注意力机制混合模块均用于对输入的特征图提取包含方向信息和位置信息的特征图。
3.根据权利要求2所述的一种基于深度学习的金属压印字符识别方法,其特征在于,所述多尺度特征融合网络具体包括:
依次连接的第六卷积块注意力模块、第一上采样模块、第一拼接模块、第五注意力机制混合模块、第七卷积块注意力模块、第二上采样模块、第二拼接模块和第六注意力机制混合模块形成的第一支路,以及依次连接的第八卷积块注意力模块、第三拼接模块、第七注意力机制混合模块、第九卷积块注意力模块、第四拼接模块和第八注意力机制混合模块形成的第二支路;
所述第六卷积块注意力模块的输入端与特征转换模块的输出端连接,所述第六卷积块注意力模块的输出端还与第四拼接模块的输入端连接;所述第一拼接模块的输入端与第四注意力机制混合模块的输出端连接;所述第七卷积块注意力模块的输出端还与第三拼接模块的输入端连接;所述第二拼接模块的输入端与第二注意力机制混合模块的输出端连接。
4.根据权利要求3所述的一种基于深度学习的金属压印字符识别方法,其特征在于,所述第一注意力机制混合模块、第二注意力机制混合模块、第三注意力机制混合模块、第四注意力机制混合模块、第五注意力机制混合模块、第六注意力机制混合模块、第七注意力机制混合模块、第八注意力机制混合模块的结构相同,具体包括:
第一卷积模块、瓶颈模块、第二卷积模块、第五拼接模块、第三卷积模块和注意力机制模块;
所述第一卷积模块的输入端与第二卷积模块的输入端连接;所述第二卷积模块的输出端和瓶颈模块的输出端均与第五拼接模块的输出端连接;所述第五拼接模块、第三卷积模块和注意力机制模块依次连接。
5.根据权利要求4所述的一种基于深度学习的金属压印字符识别方法,其特征在于,所述注意力机制模块具体包括:
宽度全局平均池化模块、高度全局平均池化模块、拼接和卷积模块、批量归一化和非线性激活模块、第四卷积模块、第五卷积模块、第一S函数激活模块、第二S函数激活模块和相乘模块;
所述宽度全局平均池化模块的输入端与高度全局平均池化模块的输入端及相乘模块的输入端连接,所述宽度全局平均池化模块的输出端与高度全局平均池化模块的输出端均与拼接和卷积模块的输入端连接;
所述拼接和卷积模块的输出端与批量归一化和非线性激活模块的输入端连接,所述批量归一化和非线性激活模块的输出端分别与第四卷积模块的输入端和第五卷积模块的输入端连接;
所述第四卷积模块的输出端与第一S函数激活模块的输入端连接,所述第五卷积模块的输出端与第二S函数激活模块的输入端连接;
所述相乘模块的输入端还与第一S函数激活模块的输出端及第二S函数激活模块的输出端连接。
6.根据权利要求5所述的一种基于深度学习的金属压印字符识别方法,其特征在于,所述预测网络的输入端分别与第六注意力机制混合模块的输出端、第七注意力机制混合模块的输出端及第八注意力机制混合模块的输出端连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410025124.9A CN117523543B (zh) | 2024-01-08 | 2024-01-08 | 一种基于深度学习的金属压印字符识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410025124.9A CN117523543B (zh) | 2024-01-08 | 2024-01-08 | 一种基于深度学习的金属压印字符识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117523543A CN117523543A (zh) | 2024-02-06 |
CN117523543B true CN117523543B (zh) | 2024-03-19 |
Family
ID=89749893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410025124.9A Active CN117523543B (zh) | 2024-01-08 | 2024-01-08 | 一种基于深度学习的金属压印字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523543B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646193A (zh) * | 2012-03-23 | 2012-08-22 | 河海大学 | 一种环形排布字符图像分割方法 |
CN106384110A (zh) * | 2016-09-12 | 2017-02-08 | 上海汇众汽车制造有限公司 | 具有自适应能力的钢印字符在线自动识别方法 |
CN107092908A (zh) * | 2017-06-12 | 2017-08-25 | 华东交通大学 | 一种基于列车转向架上的平面压印字符自动识别方法 |
CN207051928U (zh) * | 2017-06-12 | 2018-02-27 | 华东交通大学 | 一种基于列车转向架上的平面压印字符自动识别装置 |
CN109919150A (zh) * | 2019-01-23 | 2019-06-21 | 浙江理工大学 | 一种3d压印字符无分割序列识别方法及系统 |
US10489682B1 (en) * | 2017-12-21 | 2019-11-26 | Automation Anywhere, Inc. | Optical character recognition employing deep learning with machine generated training data |
CN110889415A (zh) * | 2019-12-05 | 2020-03-17 | 上海交通大学 | 用于不同反光率表面的压印序列号字符分割方法 |
WO2021196873A1 (zh) * | 2020-03-30 | 2021-10-07 | 京东方科技集团股份有限公司 | 车牌字符识别方法、装置、电子设备和存储介质 |
CN113869300A (zh) * | 2021-09-30 | 2021-12-31 | 江西省通讯终端产业技术研究院有限公司 | 基于多视觉融合的工件表面缺陷和字符识别的方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733794B (zh) * | 2021-01-22 | 2021-10-15 | 腾讯科技(深圳)有限公司 | 人脸图像的视线矫正方法、装置、设备及存储介质 |
CN114821622B (zh) * | 2022-03-10 | 2023-07-21 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
-
2024
- 2024-01-08 CN CN202410025124.9A patent/CN117523543B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102646193A (zh) * | 2012-03-23 | 2012-08-22 | 河海大学 | 一种环形排布字符图像分割方法 |
CN106384110A (zh) * | 2016-09-12 | 2017-02-08 | 上海汇众汽车制造有限公司 | 具有自适应能力的钢印字符在线自动识别方法 |
CN107092908A (zh) * | 2017-06-12 | 2017-08-25 | 华东交通大学 | 一种基于列车转向架上的平面压印字符自动识别方法 |
CN207051928U (zh) * | 2017-06-12 | 2018-02-27 | 华东交通大学 | 一种基于列车转向架上的平面压印字符自动识别装置 |
US10489682B1 (en) * | 2017-12-21 | 2019-11-26 | Automation Anywhere, Inc. | Optical character recognition employing deep learning with machine generated training data |
CN109919150A (zh) * | 2019-01-23 | 2019-06-21 | 浙江理工大学 | 一种3d压印字符无分割序列识别方法及系统 |
CN110889415A (zh) * | 2019-12-05 | 2020-03-17 | 上海交通大学 | 用于不同反光率表面的压印序列号字符分割方法 |
WO2021196873A1 (zh) * | 2020-03-30 | 2021-10-07 | 京东方科技集团股份有限公司 | 车牌字符识别方法、装置、电子设备和存储介质 |
CN113869300A (zh) * | 2021-09-30 | 2021-12-31 | 江西省通讯终端产业技术研究院有限公司 | 基于多视觉融合的工件表面缺陷和字符识别的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117523543A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570396B (zh) | 一种基于深度学习的工业产品缺陷检测方法 | |
CN111223088B (zh) | 一种基于深层卷积神经网络的铸件表面缺陷识别方法 | |
CN104809422A (zh) | 基于图像处理的qr码识别方法 | |
CN109993154B (zh) | 变电站单指针式六氟化硫型仪表智能识别方法 | |
CN111160352A (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN107014819A (zh) | 一种太阳能电池板表面缺陷检测系统和方法 | |
CN107067015B (zh) | 一种基于多特征深度学习的车辆检测方法及装置 | |
CN111754466B (zh) | 传输机皮带损伤状况的智能检测方法 | |
CN109182081B (zh) | 一种基于图像处理模型的单细胞分选系统 | |
CN104573674A (zh) | 面向实时嵌入式系统的一维条码识别方法 | |
CN111539330B (zh) | 一种基于双svm多分类器的变电站数显仪表识别方法 | |
CN112116594B (zh) | 一种基于语义分割的风飘异物识别方法和装置 | |
CN112270658A (zh) | 一种基于机器视觉的电梯钢丝绳检测方法 | |
CN108197521A (zh) | 一种多相位二维码获取识别装置及方法 | |
CN109781737A (zh) | 一种软管表面缺陷的检测方法及其检测系统 | |
CN111462140A (zh) | 一种基于区块拼接的实时图像实例分割方法 | |
CN115775236A (zh) | 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统 | |
CN117523543B (zh) | 一种基于深度学习的金属压印字符识别方法 | |
Tribak et al. | Remote solar panels identification based on patterns localization | |
CN116739991A (zh) | 基于深度学习的液晶显示屏表面缺陷检测方法及电子装置 | |
CN116228637A (zh) | 基于多任务多尺寸网络的电子元器件缺陷识别方法及装置 | |
CN114037840A (zh) | 一种基于多特征融合的输电线路视物提取方法及系统 | |
CN112241707A (zh) | 一种风电场智能视频识别装置 | |
CN110569682A (zh) | 龙门吊末端的三维定位方法 | |
CN109344826A (zh) | 一种字符识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |