CN117095412B - 天然气数字仪表字符检测与识别方法、装置和存储介质 - Google Patents
天然气数字仪表字符检测与识别方法、装置和存储介质 Download PDFInfo
- Publication number
- CN117095412B CN117095412B CN202311353466.5A CN202311353466A CN117095412B CN 117095412 B CN117095412 B CN 117095412B CN 202311353466 A CN202311353466 A CN 202311353466A CN 117095412 B CN117095412 B CN 117095412B
- Authority
- CN
- China
- Prior art keywords
- image
- model
- character
- module
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 title claims abstract description 96
- 239000003345 natural gas Substances 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 68
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 44
- 230000004927 fusion Effects 0.000 claims description 41
- 238000012360 testing method Methods 0.000 claims description 36
- 230000002829 reductive effect Effects 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000013518 transcription Methods 0.000 claims description 5
- 230000035897 transcription Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 description 22
- 230000003044 adaptive effect Effects 0.000 description 13
- 238000001914 filtration Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开揭示了天然气数字仪表字符检测与识别方法、装置和存储介质,其方法包括:S100:采集待识别天然气数字仪表图像;S200:对图像预处理,以获得预处理后的图像;S300:构建字符区域检测模型并进行训练,将预处理后的图像输入训练好的字符区域检测模型以对图像中数字仪表上的字符位置进行检测并获得字符图像;S400:构建字符识别模型并进行训练,将所述字符图像输入训练好的字符识别模型以识别出字符图像中的字符。本公开能够在真实场景下更快更准确的通过天然气数字仪表字符检测与识别以获取天然气仪表中显示的天然气使用量。
Description
技术领域
本公开属于深度学习技术领域,具体涉及天然气数字仪表字符检测与识别方法、装置和存储介质。
背景技术
天然气净化厂数字仪表字符信息的读取,通常是依赖于人力进行定期检查记录显示屏上的字符信息,然后手动记录这些数据,以监控天然气净化过程。虽然,随着计算机视觉技术的发展,基于深度学习的检测识别方法可以自动识别数字仪表上的字符信息,但其对场景光照,拍摄角度等都有相应的要求,并且由于受限于推理速度的影响,对于天然气数字仪表上字符的动态变化响应较差,从而无法较好的检测出天然气数字仪表上字符的动态变化。
发明内容
针对现有技术中的不足,本公开的目的在于提供一种天然气数字仪表字符检测与识别方法,该方法对于各种环境有较强的抗干扰性,能够在真实场景下更快更准确的通过天然气数字仪表字符检测与识别,获取天然气仪表中显示的天然气使用量。
为实现上述目的,本公开提供以下技术方案:
一种天然气数字仪表字符检测与识别方法,包括如下步骤:
S100:采集待识别天然气数字仪表图像;
S200:对图像预处理,以获得预处理后的图像;
S300:构建字符区域检测模型并进行训练,将预处理后的图像输入训练好的字符区域检测模型以对图像中数字仪表上的字符位置进行检测并获得字符图像;
其中,字符区域检测模型包括特征提取模块和特征融合模块,其中,特征提取模块包括4个连续堆叠的改进后的局部卷积层,特征融合模块包括4个部分,每个部分均包括自适应空间融合模块;其中,每个改进后的局部卷积层均包括一个改进后的逐点卷积层、两个1×1卷积层和一个2×2卷积层,其中,改进后的逐点卷积层包括通道注意力模块和特征提取层;
S400:构建字符识别模型并进行训练,将字符图像输入训练好的字符识别模型以识别出字符图像中的字符;
其中,字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成,其中,改进后的特征卷积模块通过使用卷积核为3x3、步长为1、填充宽度为1的1×1的卷积将输入的特征的通道数扩大4倍,再经层标准化升维,再经GELU激活函数和批标准化层降维,并通过残差结构将输入的特征和降维后的特征相加,以保留更完整的图像信息。
优选的,步骤S200中,通过以下方法对图像预处理:
S201:对图像进行缩放;
S202:将缩放后的图像进行标准化处理。
优选的,步骤S300中,字符区域检测模型还包括上采样层和字符位置解码器。
优选的,步骤S300中,字符区域检测模型通过以下方法训练:
S301:获取天然气数字仪表图像集,对图像集中的图像预处理后进行数据增强以获得新的图像集,将新的图像集划分为训练集和测试集;其中,数据增强用于使得图像成倍的增长,以减弱数据量不足所带来的影响,并提升模型的鲁棒性、增加模型抗过拟合的能力,数据增强具体包括对图像的如下一种或多种处理以增加数据量:水平翻转、随机裁剪、缩放、角度变换、拉伸;
S302:设置训练参数,利用训练集对模型进行训练,训练策略设置为线性预测策略,当模型达到最大训练次数时,模型训练完成;
S303:利用测试集对训练后的模型进行测试,在测试的过程中,当模型的准确率达到0.95及以上时,模型测试通过;否则重新设置训练参数对模型进行训练,直至模型测试满足0.95的准确率。
优选的,步骤S300中,通过检测框对预处理后的图像进行透视变换处理,然后对透视变换处理后的图像进行缩放。
优选的,步骤S400中,字符识别模型还包括序列模块和转录模块。
优选的,步骤S400中,字符识别模型通过以下方法训练:
S401:收集多张天然气仪表字符图像,对图像进行数据增强后获得字符图像数据集并划分为训练集和测试集;其中,数据增强用于使得图像成倍的增长,以减弱数据量不足所带来的影响,并提升模型的鲁棒性、增加模型抗过拟合的能力,数据增强具体包括对图像的如下一种或多种处理以增加数据量:水平翻转、随机裁剪、缩放、角度变换、拉伸;
S402:设置训练参数,利用训练集对模型进行训练,训练策略设置为线性预测策略,当模型达到最大训练次数时,模型训练完成;
S403:利用测试集对训练后的模型进行测试,在测试的过程中,当模型的准确率达到0.95及以上时,模型测试通过;否则重新设置训练参数对模型进行训练,直至模型测试满足0.95的准确率。
本公开还提出一种天然气数字仪表字符检测与识别装置,包括:
采集模块,用于采集待识别天然气数字仪表图像;
预处理模块,用于对图像预处理,以获得预处理后的图像;
第一模型构建和训练模块,用于构建字符区域检测模型并进行训练,以及用于将预处理后的图像输入训练好的字符区域检测模型以对图像中数字仪表上的字符位置进行检测并获得字符图像;
其中,字符区域检测模型包括特征提取模块和特征融合模块,其中,特征提取模块包括4个连续堆叠的改进后的局部卷积层,特征融合模块包括4个部分,每个部分均包括自适应空间融合模块;其中,每个改进后的局部卷积层均包括一个改进后的逐点卷积层、两个1×1卷积层和一个2×2卷积层,其中,改进后的逐点卷积层包括通道注意力模块和特征提取层;
第二模型构建和训练模块,用于构建字符识别模型并进行训练,以及用于将字符图像输入训练好的字符识别模型以识别出字符图像中的字符;
其中,字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成,其中,改进后的特征卷积模块通过使用卷积核为3x3、步长为1、填充宽度为1的1×1的卷积将输入的特征的通道数扩大4倍,再经层标准化升维,再经GELU激活函数和批标准化层降维,并通过残差结构将输入的特征和降维后的特征相加,以保留更完整的图像信息;
字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成。
本公开还提出一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
处理器执行程序时实现如前任一的方法。
本公开还提出一种计算机存储介质,计算机存储介质存储有计算机可执行指令,计算机可执行指令用于执行如前任一的方法。
与现有技术相比,本公开带来的有益效果为:
本公开通过构建天然气仪表读数检测和识别模型,在自然场景下能够克服各种环境干扰,并且模型的运行推理速度较快,所以在真实场景下可以更快更准确的获取天然气仪表中显示的天然气使用量。
附图说明
图1是本公开一个实施例提供的一种天然气数字仪表字符检测与识别方法的流程图;
图2是本公开一个实施例提供的字符区域检测模型的结构示意图;
图3是图2中改进后的局部卷积层PW-block的结构示意图;
图4是本公开一个实施例提供的通道注意力模块Sort_SE的结构示意图;
图5是本公开一个实施例提供的特征提取层的结构示意图;
图6是图2中自适应空间融合模块ASF的结构示意图;
图7是本公开另一个实施例提供的字符识别模型的结构示意图;
图8是图7中特征卷积模块CX-block的结构示意图;
图9是图7中特征下采样模块DW-block的结构示意图。
具体实施方式
下面将参照附图1至图9详细地描述本公开的具体实施例。虽然附图中显示了本公开的具体实施例,然而应当理解,可以通过各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异作为区分组件的方式,而是以组件在功能上的差异作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本公开的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本公开的范围。本公开的保护范围当视所附权利要求所界定者为准。
为便于对本公开实施例的理解,下面将结合附图以具体实施例为例做进一步的解释说明,且各个附图并不构成对本公开实施例的限定。
一个实施例中,如图1所示,本公开提出一种天然气数字仪表字符检测与识别方法,包括如下步骤:
S100:采集待识别天然气数字仪表图像;
S200:对图像预处理,以获得预处理后的图像;
S300:构建字符区域检测模型并进行训练,将预处理后的图像输入训练好的字符区域检测模型以对图像中数字仪表上的字符位置进行检测并获得字符图像;
S400:构建字符识别模型并进行训练,将所述字符图像输入训练好的字符识别模型以识别出字符图像中的字符。
本实施例通过构建天然气仪表字符区域检测和识别模型,在面对自然场景下面对各种环境下聚友较强的抗干扰性,并且模型的运行推理速度较快,所以在真实场景下可以更快更准确的获取天然气仪表中显示的天然气使用量。
另一个实施例中,步骤S200中,通过以下方法对图像预处理:
S201:将图像大小缩放到640×640大小,此外,为了确保图像中待检测天然气数字仪表的形状和比例的准确性从而为模型提供准确的输入,需要对输入图像中高宽缺少部分进行灰色填充以保持输入图像的长宽比例;
S202:采用标准化方法对缩放后的图像的RGB分量进行归一化。
另一个实施例中,步骤S300中,所述字符区域检测模型包括:特征提取模块(PWNet)、特征融合模块(AFPN)、上采样层(CONCAT)和字符位置解码器(DB Head)。
本实施例中,特征提取模块用于提取天然气仪表图像的高维特征,如图2所示,特征提取模块包括一个输入层Input、一个2×2卷积下采样层Conv2d和4个连续堆叠的改进后的局部卷积层(PW_block)。由输入层Input输入的图像的维度为(640×640×3)(第一个640表示宽度,第二个640表示高度,3表示通道数,以下类似,不再赘述),经2×2卷积下采样层Conv2d下采样后输出维度为(320×320×32)的特征图,该特征图经第一个改进后的局部卷积层滤波处理后输出维度为(160×160×64)的特征图,该特征图经第二个改进后的局部卷积层滤波处理后输出维度为(80×80×128)的特征图,该特征图经第三个改进后的局部卷积层滤波处理后输出维度为(40×40×256)的特征图,该特征图经第四个改进后的局部卷积层滤波处理后输出维度为(20×20×512)的特征图。
上述特征提取模块中的每个改进后的局部卷积层(PW_block)的结构如图3所示。图3中,每个改进后的局部卷积层(PW_block)均至少包括一个改进后的逐点卷积层PWConv、两个1×1卷积层Conv1×1和一个2×2卷积层Conv2×2。其中,改进后的逐点卷积层PWConv包括如图4所示的通道注意力模块Sort_SE和如图5所示的特征提取层。在图4所示的通道注意力模块Sort_SE中,维度为(B,C,W,H)(B表示特征图像的数量,C表示通道数,W表示宽度,H表示高度)的输入特征图首先经过全局平均池化(GAP)以及维度变换和维度压缩后变为(B,1,C),然后通过一维卷积和sigmoid函数,得到(B,1,C)权重,最后按照该权重并根据SORT函数对特征通道进行排序以获得最终的输出特征图。
在逐点卷积层中,通道的特征是随机排序的,为了使得模型更加轻量化,并不会对所有通道数进行滤波操作,只会对整体通道数的二分之一进行滤波操作。因此,通过引入通道注意力模块Sort_SE的目的在于对传统逐点卷积层进行改进,并通过通道之间提取的图像信息获得每个特征通道的权重,然后按照权重对特征通道进行排序,后续只需要对权重高的重要特征通道进行滤波操作,如此能够减少需要进行滤波操作的特征通道数量,一方面能够使得滤波操作更有效以减少内存消耗,另一方面能够提升模型对于图像的处理速度,并且使得模型能够更好的学习到关键信息,而不会因为一些细节信息降低模型的泛化能力。
进一步的,通过引入通道注意力模块Sort_SE对特征通道进行排序后,使得图5所示的特征提取层只会针对权重较大的特征通道进行滤波操作。如图5所示,输入图像的维度为(B,C,W,H),特征提取层只对前C/2(图5中的k为kernel_size,表示卷积核大小)通道数的特征通道进行滤波操作,也就是滤波操作维度为(B,C/2,W,H),从而可以减少模型对内存的访问以及提升模型的速度,但这种减少浮点FLOATS的方法会导致模型精度下降,为了避免该问题,对于输入ipnut,本实施例在改进后的逐点卷积层PWConv后面使用如图3所示的两个1×1卷积层Conv1×1,对于逐点卷积层PWConv的输出,先将其输出(B,C,W,H)升维为(B,2*C,W,H),再降维为(B,C,W,H),即可融合多尺度信息有助于模型获得更加丰富的信息,从而使得模型可以更好地学习输入图像中的局部和全局特征,其中,局部特征包括图像中天然气数字仪表中字符的轮廓信息以及字符之间的间距等特征;全局特征包括图像的整体轮廓信息和定位区域信息等。然后,通过残差结构将输入input和第2个1×1卷积层Conv1×1的输出进行相加以实现融合,最后通过一个2×2卷积层Conv2×2输出维度为(B,C*2,W/2,H/2)的特征图,即特征图的高和宽降低了一半,通道数提升了一倍。
在利用特征提取模块提取到输入图像的高维特征后,可进一步通过如图2所示的特征融合模块(AFPN,Attention-Based Feature Pyramid Networks )对高维特征进行融合。现有技术中的其他特征融合FPN通常采用自上而下或者自下而上的结构,然而这两种结构存在非相邻层的特征之间融合削弱的问题,同时不同层次之间的特征也存在差异,特别是层次之间跨度越大,特征差异越大。而图2所示的特征融合模块AFPN则是从浅层到深层逐步融合,通过采用自适应融合的方式逐步融合不同层次之间的差异,该方式可以减少在交互融合过程中特征的丢失和退化。具体的,本发明的特征融合模块AFPN首先逐步融合底层信息,然后再逐步融合高层特征信息,这样通过多级过滤,使得模型可以保留不同层次的特征信息,从而缓解由于层次位置不同目标信息共存中存在的矛盾问题。因此,本发明的特征融合模块AFPN可以使得模型更好的融合不同层次的特征,从而使得模型可以更好的检测出天然气仪表上的字符区域。
如图2所示,特征融合模块包括4个部分,其中,第一部分包括一个输入层Input1和三个依次连接的自适应空间融合模块(ASF);第二部分包括一个输入层Input2和三个依次连接的自适应空间融合模块(ASF);第三部分包括一个输入层Input3和两个依次连接的自适应空间融合模块(ASF);第四部分包括一个输入层Input4和一个自适应空间融合模块(ASF)。输入层Input1用于输入第一个改进后的局部卷积层的输出,并经过三个自适应空间融合模块(ASF)后输入上采样层(CONCAT);输入层Input2用于输入第二个改进后的局部卷积层的输出,并经过三个自适应空间融合模块(ASF)后以两倍的上采样率(up×2表示上采样两倍)输入上采样层(CONCAT);输入层Input3用于输入第三个改进后的局部卷积层的输出,并经过两个自适应空间融合模块(ASF)后以四倍的上采样率(up×4表示上采样四倍)输入上采样层(CONCAT);输入层Input4用于输入第四个改进后的局部卷积层的输出,并经过一个自适应空间融合模块(ASF)后以八倍的上采样率(up×8表示上采样八倍)输入上采样层(CONCAT)。
其中,每个自适应空间融合模块(ASF)的结构如图6所示。图6中,自适应空间融合模块(ASF)采用由下到上的输入方式,具体包括三个分支,其中,第一分支包括一个输入层Input1,一个2×2卷积层Conv,一个1×1卷积层Conv;第二分支包括一个输入层Input2和一个1×1卷积层Conv;第三分支包括一个输入层Input3,一个1×1卷积层Conv,一个上采样层Upsample和一个1×1卷积层Conv。进一步的,自适应空间融合模块(ASF)还包括一个输出通道为3(out_channels=3)的3×3卷积层,一个激活函数softmax,一个3×3卷积层和一个输出层output,其中,三个分支的输出相加后输入第一个3×3卷积层。
在自适应空间融合模块(ASF)所示结构中,首先对输入进行上采样或者下采样,其中,上采样是使用1×1卷积和双线性插值上采样模块实现,下采样是通过2×2卷积并将步长(Stride)设置为2进行下采样,同理,对于不同的下采样率采用不同卷积和不同步长(Stride)的方式执行下采样。通过上采样和下采样方式,可以使得不同层次的维度变为相同,然后就可以进行特征融合,然后使用残差结构,通过使用1×1的卷积和softmax函数得到不同层级的权重,将权重乘以每个层级的特征,最后通过一个3×3卷积输出融合后的特征信息。
所述字符区域检测模型中的上采样层(CONCAT),其用于对特征融合模块输出的特征上采样到同一高度和宽度,以获得多尺度特征融合。
最后,所述字符区域检测模型利用字符位置解码器(DB Head)对特征融合模块输出的且经上采样层处理后的特征进行解码,具体解码方式为:过滤低于阈值的区域,然后将剩下区域聚集计算最小矩形,然后按照设置的参数扩展矩形得到检测框。通过解码,即可实现对特征图中天然气数字仪表中的字符区域进行定位。
另一个实施例中,步骤S300中,所述字符区域检测模型通过以下方法训练:
S301:获取天然气数字仪表图像集,对图像集中的图像预处理后进行数据增强以获得新的图像集,将新的图像集划分为训练集和测试集;其中,数据增强用于使得图像成倍的增长,以减弱数据量不足所带来的影响,并提升模型的鲁棒性、增加模型抗过拟合的能力,数据增强具体包括对图像的如下一种或多种处理以增加数据量:水平翻转、随机裁剪、缩放、角度变换、拉伸;
该步骤中,图像预处理例如将图像锐化、提高对比度、饱和度等,并维持图像形状的长宽比例的一致性,从而能够保持模型训练的一致性,有助于模型获得更加可靠的输出。
S302:设置训练参数,例如,优化器使用Adam优化器,学习率设置为0.01,设置衰减权重为0.007,动量设置为0.9,批次大小(batchsize)为32,利用训练集对模型进行训练,训练策略设置为线性预测策略(线性预测策略是一种训练模型的方法,该方法基于逐步微调模型的参数,以实现逐渐提高模型性能的目标。在每次训练迭代中,模型的参数会受到微小的调整,从而使模型逐步逼近最佳状态。这种策略的优势在于可以更快地使模型适应数据集的特征,从而提高模型在测试数据上的准确率),当模型达到最大训练次数时(例如最大训练次数设定为500次),模型训练完成;
S303:利用测试集对训练后的模型进行测试,在测试的过程中,当模型的准确率达到0.95及以上时,模型测试通过;否则重新设置训练参数对模型进行训练,直至模型测试满足0.95的准确率。
另一个实施例中,步骤S300中,利用检测框对预处理后的图像进行透视变换处理,然后将透视变换处理后的图像缩放为640×640。
该步骤中,透视变换主要通过改变图像的投影尺度等方式将一个视角的图像变换成另一个视角,具体步骤包含:选择变换关键点,计算透视变换矩阵,对原图使用透视变换矩阵重新定位图像中图像的像素位置以及插值,最后得到变换后的图像。
另一个实施例中,步骤S400中,如图7所示,所述字符识别模型包括:输入层(320×32×3)、特征提取模块、序列模块(BiLSTM)和转录模块(CTC)。
本实施例中,特征提取模块包括五个部分,每个部分均由一个改进后的特征卷积模块(CX-block)和一个特征下采样模块(DW-block)组成,特征卷积模块(CX-block)和特征下采样模块(DW-block)分别用于对由字符区域检测模型的输出,其输出为字符图像,进行特征提取和下采样,以获取图像中不同字符的形状特征、纹理特征、字符内外部的边缘轮廓信息以及字符的颜色信息等特征。在特征提取模块中,维度为(320×32×3)的输入图像经输入层Input输入,经特征提取模块的第一部分处理后获得维度为(160×16×32)的特征图,该特征图经第二部分处理后获得维度为(80×8×64)的特征图,该特征图经第三部分处理后获得维度为(40×4×128)的特征图,该特征图经第四部分处理后获得维度为(20×2×256)的特征图,该特征图经第五部分处理后获得维度为(20×1×512)的特征图。
现有的特征卷积模块通过使用残差连接可以有效降低随着网络深度加深而造成的退化问题,然而这种结构会使得模型丢失部分图像信息,为了解决这个问题,本实施例对现有的特征卷积模块作出了改进,提出了反向瓶颈设计,改进后的特征卷积模块(CX-block)如图8所示。图8中,通过使用卷积核为3x3(K=3×3,K表示卷积核大小kernel_size)、步长为1(S=1,S表示步长stride)、填充宽度为1(P=1,P表示填充padding)的1×1的卷积将输入的特征X的通道数扩大4倍,再经层标准化(LN,Layer Normalizaiton)升维,再经GELU激活函数和批标准化BN(Batch Normalizaiton)层降维,并通过残差结构将输入的特征X和降维后的特征相加,以保留更完整的图像信息。
特征下采样模块(DW-block)的结构如图9所示,图9表示通过卷积方式对改进后的特征卷积模块(CX-block)的输出进行下采样,即通过卷积核为3×3(K=3×3)、步长为2×2(S=2×2)、填充宽度为1(P=1)的1×1的卷积对输入的特征进行下采样,然后经过批标准化BN(Batch Normalizaiton)层和RELU激活函数的处理后输出。这种采样方式可以保证模型在下采样中的稳定性。该采样方式虽然会增加参数量,但相比池化下采样,由于卷积下采样只对不同区域进行大小比较,然后保留较大区域,从而能够保留更多的语义信息以及降低背景带来的冗余信息。
序列模块用于获取图像上字符的上下文信息,该模块使用双向LSTM结构,这样可以考虑每一个时间片中上下文的语义信息。
转录模块即是对序列模块的输出进行解码,其将一段连续的时间片按照序列结果映射为一组连续类别标签,通过冗余机制过滤掉相邻之间相同字符和空格,最后得到天然气数字。需要说明的是,在转录模块解码过程中并不需要每一个字符的具体位置,该模块将时间片作为序列,预测每一帧的概率,然后通过冗余机制对重复的字符和空白字符经行处理,获得预测标签,该过程称为解码,所以只需要对图像标签序列进行解码操作即可。然而这种做法的缺点就是单个字符会被切割为多个时间片,每个时间片中都包含了该字符的一部分信息。通过将相邻相同字符合并则可以很好的解决这个问题。例如:图片数字为“0201”,而图片却被划分了6个时间片,序列预测为“002001”,经过合并后得到“0201”。同时为适应存在相邻的相同字符,但如何区分在序列结果中相邻重复的字符是属于同一个字符还是不同字符,解决这个问题的方法就是使用“-”作为空白字符。它首先将重复字符合并,再将字符”-“删除则剩下的字符串就是预测结果。这样可以很好的解决标签上字符重复的问题。
另一个实施例中,步骤S400中,所述字符识别模型通过以下方法训练:
S401:收集多张天然气仪表字符图像,对图像进行数据增强后获得字符图像数据集并划分为训练集和测试集;其中,数据增强用于使得图像成倍的增长,以减弱数据量不足所带来的影响,并提升模型的鲁棒性、增加模型抗过拟合的能力,数据增强具体包括对图像的如下一种或多种处理以增加数据量:水平翻转、随机裁剪、缩放、角度变换、拉伸;
S402:设置训练参数,例如,使用Adadelta优化器,学习率设置为0.1,batchsize为32,利用训练集对模型进行训练,训练策略设置为线性预测策略,当模型达到最大训练次数时(例如最大训练次数设定为500次),模型训练完成;
S403:利用测试集对训练后的模型进行测试,在测试的过程中,当模型的准确率达到0.95及以上时,模型测试通过;否则重新设置训练参数对模型进行训练,直至模型测试满足0.95的准确率。
另一个实施例中,本公开还提出一种天然气数字仪表字符检测与识别装置,所述装置包括:
采集模块,用于采集待识别天然气数字仪表图像;
预处理模块,用于对图像预处理,以获得预处理后的图像;
第一模型构建和训练模块,用于构建字符区域检测模型并进行训练,以及用于将预处理后的图像输入训练好的字符区域检测模型以对图像中数字仪表上的字符位置进行检测并获得字符图像,其中,
所述字符区域检测模型包括输入层、特征提取模块,所述特征提取模块包括4个连续堆叠的改进后的局部卷积层,所述特征融合模块包括4个部分,每个部分均包括自适应空间融合模块;
第二模型构建和训练模块,用于构建字符识别模型并进行训练,以及用于将字符图像输入训练好的字符识别模型以识别出字符图像中的字符;
其中,字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成,其中,改进后的特征卷积模块通过使用卷积核为3x3、步长为1、填充宽度为1的1×1的卷积将输入的特征的通道数扩大4倍,再经层标准化升维,再经GELU激活函数和批标准化层BN(BatchNormalizaiton)降维,并通过残差结构将输入的特征和降维后的特征相加,以保留更完整的图像信息;
字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成。
另一个实施例中,本公开还提出一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如前任一所述的方法。
另一个实施例中,本公开还提出一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一所述的方法。
本公开申请人结合说明书附图对本公开的实施方案进行了详细的描述,但是本领域的技术人员应该理解,以上实施方案仅为本公开优选的实施示例,并不仅仅局限于上述的具体实施方案。详尽的说明知识为了帮助读者更好地理解本公开精神,而并非对本公开保护范围的限制,相反,任何基于本公开的发明精神所作的任何改进或变动都应当包含在本公开的保护范围之中。
Claims (9)
1.一种天然气数字仪表字符检测与识别方法,其特征在于,所述方法包括如下步骤:
S100:采集待识别天然气数字仪表图像;
S200:对图像预处理,以获得预处理后的图像;
S300:构建字符区域检测模型并进行训练,将预处理后的图像输入训练好的字符区域检测模型以对图像中数字仪表上的字符位置进行检测并获得字符图像;
其中,字符区域检测模型包括特征提取模块和特征融合模块,其中,特征提取模块包括4个连续堆叠的改进后的局部卷积层,特征融合模块包括4个部分,每个部分均包括自适应空间融合模块;其中,每个改进后的局部卷积层均包括一个改进后的逐点卷积层、两个1×1卷积层和一个2×2卷积层,其中,改进后的逐点卷积层包括通道注意力模块和特征提取层;
S400:构建字符识别模型并进行训练,将字符图像输入训练好的字符识别模型以识别出字符图像中的字符;
其中,字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成,其中,改进后的特征卷积模块通过使用卷积核为3x3、步长为1、填充宽度为1的1×1的卷积将输入的特征的通道数扩大4倍,再经层标准化升维,再经GELU激活函数和批标准化层降维,并通过残差结构将输入的特征和降维后的特征相加,以保留更完整的图像信息。
2.根据权利要求1所述的方法,其特征在于,步骤S200中,通过以下方法对图像预处理:
S201:对图像进行缩放;
S202:将缩放后的图像进行标准化处理。
3.根据权利要求1所述的方法,其特征在于,步骤S300中,所述字符区域检测模型还包括上采样层和字符位置解码器。
4.根据权利要求1所述的方法,其特征在于,步骤S300中,所述字符区域检测模型通过以下方法训练:
S301:获取天然气数字仪表图像集,对图像集中的图像预处理后进行数据增强以获得新的图像集,将新的图像集划分为训练集和测试集;其中,数据增强用于使得图像成倍的增长,以减弱数据量不足所带来的影响,并提升模型的鲁棒性、增加模型抗过拟合的能力,数据增强具体包括对图像的如下一种或多种处理以增加数据量:水平翻转、随机裁剪、缩放、角度变换、拉伸;
S302:设置训练参数,利用训练集对模型进行训练,训练策略设置为线性预测策略,当模型达到最大训练次数时,模型训练完成;
S303:利用测试集对训练后的模型进行测试,在测试的过程中,当模型的准确率达到0.95及以上时,模型测试通过;否则重新设置训练参数对模型进行训练,直至模型测试满足0.95的准确率。
5.根据权利要求1所述的方法,其特征在于,步骤S300中,所述字符图像通过以下方法获得:利用检测框对预处理后的图像进行透视变换处理,然后对透视变换处理后的图像进行缩放。
6.根据权利要求1所述的方法,其特征在于,步骤S400中,所述字符识别模型还包括序列模块和转录模块。
7.根据权利要求1所述的方法,其特征在于,步骤S400中,所述字符识别模型通过以下方法训练:
S401:收集多张天然气仪表字符图像,对图像进行数据增强后获得字符图像数据集并划分为训练集和测试集;其中,数据增强用于使得图像成倍的增长,以减弱数据量不足所带来的影响,并提升模型的鲁棒性、增加模型抗过拟合的能力,数据增强具体包括对图像的如下一种或多种处理以增加数据量:水平翻转、随机裁剪、缩放、角度变换、拉伸;
S402:设置训练参数,利用训练集对模型进行训练,训练策略设置为线性预测策略,当模型达到最大训练次数时,模型训练完成;
S403:利用测试集对训练后的模型进行测试,在测试的过程中,当模型的准确率达到0.95及以上时,模型测试通过;否则重新设置训练参数对模型进行训练,直至模型测试满足0.95的准确率。
8.一种天然气数字仪表字符检测与识别装置,其特征在于,所述装置包括:
采集模块,用于采集待识别天然气数字仪表图像;
预处理模块,用于对图像预处理,以获得预处理后的图像;
第一模型构建和训练模块,用于构建字符区域检测模型并进行训练,以及用于将预处理后的图像输入训练好的字符区域检测模型以对图像中数字仪表上的字符位置进行检测并获得字符图像;
其中,字符区域检测模型包括特征提取模块和特征融合模块,其中,特征提取模块包括4个连续堆叠的改进后的局部卷积层,特征融合模块包括4个部分,每个部分均包括自适应空间融合模块;其中,每个改进后的局部卷积层均包括一个改进后的逐点卷积层、两个1×1卷积层和一个2×2卷积层,其中,改进后的逐点卷积层包括通道注意力模块和特征提取层;
第二模型构建和训练模块,用于构建字符识别模型并进行训练,以及用于将字符图像输入训练好的字符识别模型以识别出字符图像中的字符;
其中,字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成,其中,改进后的特征卷积模块通过使用卷积核为3x3、步长为1、填充宽度为1的1×1的卷积将输入的特征的通道数扩大4倍,再经层标准化升维,再经GELU激活函数和批标准化层降维,并通过残差结构将输入的特征和降维后的特征相加,以保留更完整的图像信息;
字符识别模型包括特征提取模块,字符识别模型的特征提取模块包括5个部分,每个部分由一个改进后的特征卷积模块和一个特征下采样模块组成。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311353466.5A CN117095412B (zh) | 2023-10-19 | 2023-10-19 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311353466.5A CN117095412B (zh) | 2023-10-19 | 2023-10-19 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117095412A CN117095412A (zh) | 2023-11-21 |
CN117095412B true CN117095412B (zh) | 2023-12-15 |
Family
ID=88780113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311353466.5A Active CN117095412B (zh) | 2023-10-19 | 2023-10-19 | 天然气数字仪表字符检测与识别方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117095412B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276739A (zh) * | 2019-07-24 | 2019-09-24 | 中国科学技术大学 | 一种基于深度学习的视频去抖方法 |
WO2020051776A1 (en) * | 2018-09-11 | 2020-03-19 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
CN111062282A (zh) * | 2019-12-05 | 2020-04-24 | 武汉科技大学 | 基于改进yolov3模型的变电站指针式仪表识别方法 |
CN113283429A (zh) * | 2021-07-21 | 2021-08-20 | 四川泓宝润业工程技术有限公司 | 基于深度卷积神经网络的液位式表计读数方法 |
CN113469167A (zh) * | 2021-07-21 | 2021-10-01 | 浙江大华技术股份有限公司 | 仪表读数识别方法、装置、设备及存储介质 |
CN113486890A (zh) * | 2021-06-16 | 2021-10-08 | 湖北工业大学 | 基于注意力特征融合和空洞残差特征增强的文本检测方法 |
CN113936280A (zh) * | 2021-11-23 | 2022-01-14 | 河海大学 | 一种嵌入式仪表码盘字符自动识别系统及方法 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN116229077A (zh) * | 2023-03-13 | 2023-06-06 | 江苏科技大学 | 一种基于改进的Mask-R-CNN网络的数学函数图像实例分割方法 |
CN116363610A (zh) * | 2023-03-31 | 2023-06-30 | 河南大学 | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 |
TWI809957B (zh) * | 2022-06-30 | 2023-07-21 | 國立臺灣科技大學 | 物件偵測方法及電子裝置 |
-
2023
- 2023-10-19 CN CN202311353466.5A patent/CN117095412B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020051776A1 (en) * | 2018-09-11 | 2020-03-19 | Intel Corporation | Method and system of deep supervision object detection for reducing resource usage |
CN110276739A (zh) * | 2019-07-24 | 2019-09-24 | 中国科学技术大学 | 一种基于深度学习的视频去抖方法 |
CN111062282A (zh) * | 2019-12-05 | 2020-04-24 | 武汉科技大学 | 基于改进yolov3模型的变电站指针式仪表识别方法 |
CN113486890A (zh) * | 2021-06-16 | 2021-10-08 | 湖北工业大学 | 基于注意力特征融合和空洞残差特征增强的文本检测方法 |
CN113283429A (zh) * | 2021-07-21 | 2021-08-20 | 四川泓宝润业工程技术有限公司 | 基于深度卷积神经网络的液位式表计读数方法 |
CN113469167A (zh) * | 2021-07-21 | 2021-10-01 | 浙江大华技术股份有限公司 | 仪表读数识别方法、装置、设备及存储介质 |
CN113936280A (zh) * | 2021-11-23 | 2022-01-14 | 河海大学 | 一种嵌入式仪表码盘字符自动识别系统及方法 |
TWI809957B (zh) * | 2022-06-30 | 2023-07-21 | 國立臺灣科技大學 | 物件偵測方法及電子裝置 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN116229077A (zh) * | 2023-03-13 | 2023-06-06 | 江苏科技大学 | 一种基于改进的Mask-R-CNN网络的数学函数图像实例分割方法 |
CN116363610A (zh) * | 2023-03-31 | 2023-06-30 | 河南大学 | 一种基于改进YOLOv5的航拍车辆旋转目标检测方法 |
Non-Patent Citations (7)
Title |
---|
AFPN: Asymptotic Feature Pyramid Network for Object Detection;Guoyu Yang 等;《arXiv》;1-6 * |
An attention-based feature pyramid network for single-stage small object detection;Lin Jiao 等;《MultimediaToolsandApplications》;18529–18544 * |
Attention Feature Pyramid Network for Scene Text Detection;Hao Wu 等;《2022 IEEE the 8th International Conference on Computer and Communications》;1726-1731 * |
Pelee-Text++: A Tiny Neural Network for Scene Text Detection;MANUEL CÓRDOVA 等;《IEEE Access》;223172-223188 * |
Research on Small Acceptance Domain Text Detection Algorithm Based on Attention Mechanism and Hybrid Feature Pyramid;Mingzhu Liu 等;《electronics》;1-15 * |
改进 FCENet 的自然场景文本检测算法;周燕 等;《计算机工程与应用》;1-10 * |
轻量化 YOLO-v7 的数显仪表检测及读数;章芮宁 等;《计算机工程与应用》;1-11 * |
Also Published As
Publication number | Publication date |
---|---|
CN117095412A (zh) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111553406B (zh) | 基于改进yolo-v3的目标检测系统、方法及终端 | |
CN112766087A (zh) | 一种基于知识蒸馏的光学遥感图像舰船检测方法 | |
CN110956126B (zh) | 一种联合超分辨率重建的小目标检测方法 | |
CN112348770A (zh) | 一种基于多分辨率卷积网络的桥梁裂缝检测方法 | |
CN111462230A (zh) | 一种基于深度强化学习的台风中心定位方法 | |
CN112418165B (zh) | 基于改进型级联神经网络的小尺寸目标检测方法与装置 | |
CN112613375B (zh) | 一种轮胎受损检测识别方法和设备 | |
CN110599502B (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN112749578A (zh) | 一种基于深度卷积神经网络的遥感图像自动道路提取方法 | |
CN112257793A (zh) | 一种基于改进YOLO v3算法的远距离交通标志检测方法 | |
CN112800955A (zh) | 基于加权双向特征金字塔的遥感影像旋转目标检测方法及系统 | |
CN111462090B (zh) | 一种多尺度图像目标检测方法 | |
CN115546768A (zh) | 基于多尺度机制和注意力机制的路面标线识别方法及系统 | |
CN115457568A (zh) | 一种基于生成对抗网络的历史文档图像降噪方法及系统 | |
CN116645696A (zh) | 一种用于多模态行人检测的轮廓信息引导特征检测方法 | |
CN114418987B (zh) | 一种多阶段特征融合的视网膜血管分割方法及系统 | |
CN116168240A (zh) | 基于注意力增强的任意方向密集舰船目标检测方法 | |
CN111275126A (zh) | 样本数据集生成方法、装置、设备及存储介质 | |
CN114693966A (zh) | 一种基于深度学习的目标检测方法 | |
CN117095412B (zh) | 天然气数字仪表字符检测与识别方法、装置和存储介质 | |
CN114219757B (zh) | 一种基于改进Mask R-CNN的车辆智能定损方法 | |
CN115100428A (zh) | 一种利用上下文感知的目标检测方法 | |
CN112446292A (zh) | 一种2d图像显著目标检测方法及系统 | |
CN117935275A (zh) | 一种数字仪表字符检测与识别方法、系统及存储介质 | |
CN117392137B (zh) | 一种颅内动脉瘤图像检测方法、系统、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |