CN111339902B - 一种数显仪表的液晶屏示数识别方法及装置 - Google Patents
一种数显仪表的液晶屏示数识别方法及装置 Download PDFInfo
- Publication number
- CN111339902B CN111339902B CN202010108573.1A CN202010108573A CN111339902B CN 111339902 B CN111339902 B CN 111339902B CN 202010108573 A CN202010108573 A CN 202010108573A CN 111339902 B CN111339902 B CN 111339902B
- Authority
- CN
- China
- Prior art keywords
- liquid crystal
- crystal display
- image
- preset model
- display
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/02—Recognising information on displays, dials, clocks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Controls And Circuits For Display Device (AREA)
- Image Analysis (AREA)
- Control Of Indicators Other Than Cathode Ray Tubes (AREA)
Abstract
本发明实施例提供一种数显仪表的液晶屏示数识别方法及装置,所述方法包括:获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型;将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是CRNN。所述装置执行上述方法。本发明实施例提供的方法及装置,具有较强的鲁棒性和准确性,提高了总体模型的识别速度。
Description
技术领域
本发明涉及神经网络技术领域,尤其涉及一种数显仪表的液晶屏示数识别方法及装置。
背景技术
近年,随着信息化建设与人工智能的飞速发展,模式识别和机器视觉技术,例如人脸识别和车牌识别等,已广泛应用于各行各业,为生产制造和人们的生活带来了极大的便利,同时也给数显仪表的液晶屏图像数据的自动化识别奠定了基础,并且液晶屏成像技术也在不断进步,画质清晰度、色彩饱和度、亮度和稳定性等得到保障,也为技术实现提供了的基础。
以往各种液晶屏图像数据只能人工读取,效率低、易出错。将模式识别技术应用于数显仪表液晶屏图像,实现数字信息的精准自动化检测识别,在各领域都有着非常重要的应用。通过液晶屏图像数据识别,能够实现电网智能化管控,不受时间地点限制,高效精准获取数据。在实际生产及工程应用中,对各类工业设备进行数据的自动化读取,可实现生产作业线的自动化监管,减少人力资源的消耗,提高生产效率。在医疗领域,可以对医疗设备数据信息进行实时识别分析,尤其解决了部分设备需全天时监视管理,实时预警提示的问题需求。
虽然,对数显仪表液晶屏图像数据进行识别的需求存在,且意义重大。但是,目前针对该问题的研究较少,图像样本数据不足,目前已有的识别方法均存在诸多不足,例如:运用BP神经网络训练来识别的方法需用所有图像样本数据反复训练网络,计算复杂,识别速度慢且不同的网络结构对网络的训练和识别效果都会产生影响;对于基于模板匹配进行字符识别的方法,需要保证图像清晰度高,受噪声影响大,对大量字符识别用模板匹配时比较耗时。
发明内容
针对现有技术存在的问题,本发明实施例提供一种数显仪表的液晶屏示数识别方法及装置。
本发明实施例提供一种数显仪表的液晶屏示数识别方法,包括:
获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;
将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;
输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
其中,所述基于空间分辨率删减卷积层,包括:
获取卷积层的空间分辨率,并删减低于预设空间分辨率阈值的卷积层。
其中,所述第一预设模型的输出结果的获取,包括:
通过所述RFB Net的VGG-16网络对所述图像进行卷积处理,得到相应的特征向量;
利用所述RFB Net中训练好的参数模型计算与液晶屏示数区域相对应的候选框的置信度;
用非极大值抑制方法,将基于所述置信度确定的、与所述候选框相对应的局部最优框作为所述第一预设模型的输出结果。
其中,所述第二预设模型的输出结果的获取,包括:
通过所述CRNN的CNN提取所述图像切片的特征序列,采用所述CRNN的RNN对所述特征序列进行预测;
输入预测结果至所述CRNN的转录层,将所述转录层的输出结果作为所述第二预设模型的输出结果。
其中,在所述获取包含有数显仪表及液晶屏示数的图像的步骤之前,所述数显仪表的液晶屏示数识别方法还包括:
训练所述第一预设模型和所述第二预设模型。
相应的,在训练所述第一预设模型的步骤之前,所述数显仪表的液晶屏示数识别方法还包括:
采集所述数显仪表的液晶屏图像样本;
对所述液晶屏图像样本进行数据标注;
对数据标注后的液晶屏图像样本进行图像增广处理。
其中,所述对数据标注后的液晶屏图像样本进行图像增广处理,包括:
如下处理步骤中的至少一种:
按照顺时针方向或逆时针方向,在预设角度阈值之内随机旋转数据标注后的液晶屏图像样本;
在完整保留液晶屏示数的条件下,对数据标注后的液晶屏图像样本进行随机裁剪,以改变液晶屏在数据标注后的液晶屏图像样本中的位置及大小比例;
对数据标注后的液晶屏图像样本进行噪声预处理,以模拟在不同场景中采集到的图像;
对数据标注后的液晶屏图像样本进行亮度和对比度调整,以模拟不同光照条件对图像的影响。
其中,所述对数据标注后的液晶屏图像样本进行噪声预处理,具体包括:
添加椒盐噪声、添加高斯噪声、进行中值滤波处理和进行高斯模糊处理中的至少一种。
本发明实施例提供一种数显仪表的液晶屏示数识别装置,包括:
获取单元,用于获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;
切片单元,用于将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;
识别单元,用于输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
本发明实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,
所述处理器执行所述程序时实现如下方法步骤:
获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;
将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;
输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;
将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;
输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
本发明实施例提供的数显仪表的液晶屏示数识别方法及装置,通过将第一预设模型和第二预设模型组合,实现了分别检测液晶屏示数的定位信息及识别包含有液晶屏示数的图像切片,具有较强的鲁棒性和准确性,且通过基于空间分辨率删减卷积层,提高了第一预设模型的运算速度,进而提高了总体模型的识别速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数显仪表的液晶屏示数识别方法实施例流程图;
图2为本发明实施例包含有数显仪表及液晶屏示数的图像示意图;
图3为本发明实施例液晶屏示数的识别结果示意图;
图4为本发明数显仪表的液晶屏示数识别方法另一实施例流程图;
图5为本发明数显仪表的液晶屏示数识别装置实施例结构示意图;
图6为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明数显仪表的液晶屏示数识别方法实施例流程图,如图1所示,本发明实施例提供的一种数显仪表的液晶屏示数识别方法,包括以下步骤:
S101获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到。
具体的,获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到。执行该方法步骤的可以是计算机设备,具体可以是服务器。感受野阻滞网(Receptive FieldBlock Net,简称“RFB Net”)。数显仪表可以万用表、电表和医疗设备等,不作具体限定。图2为本发明实施例包含有数显仪表及液晶屏示数的图像,如图2所示,数显仪表为万用表,液晶屏示数为0.23,需要说明的是:本发明实施例旨在说明图2中的液晶屏示数,对于其他数据都可以满足充分公开的要求。
基于空间分辨率删减卷积层,可以具体包括:获取卷积层的空间分辨率,并删减低于预设空间分辨率阈值的卷积层。预设空间分辨率阈值可以根据实际情况自主设置,通常RFB Net中的conv10_2卷积层及conv11_2卷积层具有较低的空间分辨率,因此,删减conv10_2卷积层及conv11_2卷积层不会对第一预设模型的运算精度有明显影响,但是,可以明显提高第一预设模型的运算速度。可以将conv10_2卷积层及conv11_2卷积层删减,即将删减后剩余的网络结构作为RFB Net。
液晶屏示数的定位数据可以是框选液晶屏示数的矩形框的四个顶点的坐标数据,不作具体限定。
S102:将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片。
具体的,将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片。定位信息可以包括框选液晶屏示数的矩形框的四个顶点的坐标,不作具体限定。参照图2,对图2中的液晶屏示数区域(0.23)进行切片处理,得到图像切片即为包含“0.23”的图像。
S103:输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
具体的,输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。卷积递归神经网络(Convolutional Recurrent Neural Network,简称“CRNN”)。即本发明实施例通过CRNN识别图像切片中的液晶屏示数的具体数值。
液晶屏示数的示数数据可以是由阿拉伯数字表示的、表征液晶屏示数数值大小的数据。
图3为本发明实施例液晶屏示数的识别结果示意图,如图3所示,识别结果为0.23。需要说明的是:本发明实施例旨在说明图3中的液晶屏示数,对于其他数据都可以满足充分公开的要求。
本发明实施例针对数显仪表的不同尺寸、数显仪表的液晶屏在整体画面中占比较小和液晶屏示数差异大等,进行具有针对性的局部检测,具有较强的通用性和鲁棒性,同时使得第二预设模型针对较轻量的图像切片进行识别,提高了识别速度和准确性。
本发明实施例提供的数显仪表的液晶屏示数识别方法,通过将第一预设模型和第二预设模型组合,实现了分别检测液晶屏示数的定位信息及识别包含有液晶屏示数的图像切片,具有较强的鲁棒性和准确性,且通过基于空间分辨率删减卷积层,提高了第一预设模型的运算速度,进而提高了总体模型的识别速度。
在上述实施例的基础上,所述基于空间分辨率删减卷积层,包括:
具体的,获取卷积层的空间分辨率,并删减低于预设空间分辨率阈值的卷积层。可参照上述说明,不再赘述。
本发明实施例提供的数显仪表的液晶屏示数识别方法,进一步优化了RFB Net,从而明显提高了总体模型的识别速度。
在上述实施例的基础上,所述第一预设模型的输出结果的获取,包括:
具体的,通过所述RFB Net的VGG-16网络对所述图像进行卷积处理,得到相应的特征向量;利用所述RFB Net中训练好的参数模型计算与液晶屏示数区域相对应的候选框的置信度;用非极大值抑制方法,将基于所述置信度确定的、与所述候选框相对应的局部最优框作为所述第一预设模型的输出结果。从而实现对液晶屏示数的检测,将得到的包含液晶屏示数的最小外接矩形的四个顶点坐标,并存储至文本文件,以供第二预设模型调用该文本文件。上述候选框可以用特征向量进行表示。
非极大值抑制(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索,可以实现将置信度数值大于预设阈值的候选框确定为局部最优框。
本发明实施例提供的数显仪表的液晶屏示数识别方法,通过获取第一预设模型的输出结果,实现了准确定位液晶屏示数区域。
在上述实施例的基础上,所述第二预设模型的输出结果的获取,包括:
具体的,通过所述CRNN的CNN提取所述图像切片的特征序列,采用所述CRNN的RNN对所述特征序列进行预测;输入预测结果至所述CRNN的转录层,将所述转录层的输出结果作为所述第二预设模型的输出结果。CRNN的网络结构包括三个组成部分:卷积层、循环层和转录层,CNN即卷积神经网络,对应卷积层;RNN即递归神经网络,对应循环层;转录层是将LSTM网络预测的特征序列的结果进行整合,转换为最终输出的结果。
本发明实施例提供的数显仪表的液晶屏示数识别方法,通过获取第二预设模型的输出结果,实现了准确识别液晶屏示数的数值。
在上述实施例的基础上,在所述获取包含有数显仪表及液晶屏示数的图像的步骤之前,所述数显仪表的液晶屏示数识别方法还包括:
具体的,训练所述第一预设模型和所述第二预设模型。可以将训练数据集按7:3比例划分为训练集和测试集,对第一预设模型进行训练和测试。
对于第二预设模型:
在训练阶段,依据检测定位的坐标进行切片,并统一缩放至100×32(w×h),输入CRNN网络进行训练;在测试阶段,为避免字符拉伸导致识别率降低的问题,保持图像切片尺寸比例,将图像切片高度统一至32个像素,并输入CRNN。
相应的,在训练所述第一预设模型的步骤之前,所述数显仪表的液晶屏示数识别方法还包括:
具体的,采集所述数显仪表的液晶屏图像样本;可以使用相机等设备拍摄包括万用表、电表和医疗设备等的液晶屏的图像200张,其中,每类不少于50张。在拍摄过程中,可以有意变换一定的视角,液晶屏允许一定程度倾斜,但读数区域需要拍摄完整。
具体的,对所述液晶屏图像样本进行数据标注;可以用软件工具labelme对得来的液晶屏示数进行矩形标注,保存矩形框的高(h)、宽(w)及左上角点的坐标(x,y)4个变量,待后期进行模型训练。
具体的,对数据标注后的液晶屏图像样本进行图像增广处理。图像增广处理用于产生相似,但又不同的训练样本,扩大训练数据集的规模,是深度学习中常用的技巧之一,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力。
本发明实施例提供的数显仪表的液晶屏示数识别方法,通过有效处理液晶屏图像样本,保证了第一预设模型和第二预设模型的训练效果,进而提高模型鲁棒性、准确性和识别速度。
在上述实施例的基础上,所述对数据标注后的液晶屏图像样本进行图像增广处理,包括:
如下处理步骤中的至少一种:
具体的,按照顺时针方向或逆时针方向,在预设角度阈值之内随机旋转数据标注后的液晶屏图像样本;预设角度阈值可以根据实际情况自主设置,可选为15度。用于模拟不同角度的拍摄。
具体的,在完整保留液晶屏示数的条件下,对数据标注后的液晶屏图像样本进行随机裁剪,以改变液晶屏在数据标注后的液晶屏图像样本中的位置及大小比例;对随机裁剪的具体方式不作具体限定。
具体的,对数据标注后的液晶屏图像样本进行噪声预处理;具体包括:添加椒盐噪声、添加高斯噪声、进行中值滤波处理和进行高斯模糊处理中的至少一种,以模拟在不同场景中采集到的图像;椒盐噪声也称为脉冲噪声,是图像中经常见到的一种噪声,它是一种随机出现的白点或者黑点,可能是亮的区域有黑色像素或是在暗的区域有白色像素(或是两者皆有)。
高斯噪声是指它的概率密度函数服从高斯分布(即正态分布)的一类噪声。常见的高斯噪声包括起伏噪声、宇宙噪声、热噪声和散粒噪声等等。
中值滤波是一种非线性平滑技术,它将每一像素点的灰度值设置为该点某邻域窗口内的所有像素点灰度值的中值,中值滤波是基于排序统计理论的一种能有效抑制噪声的非线性信号处理技术。
高斯模糊也叫高斯平滑,是在Adobe Photoshop、GIMP以及Paint.NET等图像处理软件中广泛使用的处理效果,通常用它来减少图像噪声以及降低细节层次。
具体的,对数据标注后的液晶屏图像样本进行亮度和对比度调整,以模拟不同光照条件对图像的影响。尤其是较强亮度的光照对液晶屏示数的影响更大。
本发明实施例提供的数显仪表的液晶屏示数识别方法,进一步提高了总体模型的泛化能力。
在上述实施例的基础上,所述对数据标注后的液晶屏图像样本进行噪声预处理,具体包括:
具体的,添加椒盐噪声、添加高斯噪声、进行中值滤波处理和进行高斯模糊处理中的至少一种。可参照上述说明,不再赘述。
本发明实施例提供的数显仪表的液晶屏示数识别方法,进一步优化了噪声预处理过程。
本发明实施例先获取一个包含数显仪表的液晶屏示数图像的数据集,再采用对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的检测网络加CRNN识别网络的组合方法模型,针对数显仪表的液晶屏示数图像,结合基于感受野阻滞网RFB Net改进的网络的多感受野及速度和精度的三重优势、以及CRNN端到端的快速识别特点,构建了一种深度网络分阶段构架的数显仪表的液晶屏示数识别方法。
总体包括如下四个主要步骤:
第一步:仪表液晶屏示数的数据集制备
由于,网络上没有相关的公开数据集,本发明实施例制作了一种数显仪表的液晶屏示数的数据集。首先对自然场景下使用中的各类数显仪表进行了拍摄,并对拍摄后的图像进行液晶屏示数位置(即液晶屏示数区域)进行了标注,最后进行了数据增广。
第二步:对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的轻量级检测网络的数显仪表的液晶屏示数检测
针对数显仪表的不同尺寸、数显仪表的液晶屏在整体画面中占比较小和液晶屏示数差异大等,采用对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的检测网络加CRNN识别网络的组合方法模型,并利用第一步自制的数据集对其进行了训练。
检测过程中,将待检图片输入基于野阻滞网RFB Net改进的检测网络进行液晶屏示数检测定位,并将检测结果的目标框坐标储存于文本文件中。
第三步:待识别液晶屏示数的图像切片截取
读取第二步存储的目标框坐标的文本文件,对液晶屏示数位置进行切片处理,得到更小数据量、示数占比更大、背景相对简单的包含液晶屏示数的图像切片,并将图像切片输入CRNN识别网络中。
第四步:基于端到端识别网络CRNN的液晶屏示数识别
使用已训练好的CRNN网络对第三步得到的图像切片进行示数识别。在识别网络中,CRNN首先通过CNN将图片的特征提取出来,然后采用RNN对序列进行预测,最后通过一个转录层得到最终识别结果。
图4为本发明数显仪表的液晶屏示数识别方法另一实施例流程图,如图4所示,对上述四个主要步骤分别进行具体说明:
第一步:仪表液晶屏示数的数据集制备
第(1.1)步,仪表液晶屏图像的采集:采用相机等设备拍摄包括万用表、电表、某种医疗设备在内的液晶屏幕的图像200张,其中每类不少于50张。拍摄过程中,有意变换一定的视角,液晶屏允许一定程度倾斜,但读数区域需要拍摄完整。
第(1.2)步,数据标注:用labelme对上一步得来的液晶屏图像示数部分进行矩形标注,保存矩形框的高(h)、宽(w)及左上角点的坐标(x,y)4个变量,待后期进行模型训练。
第(1.3)步,图像增广:对步骤(1.1)得来的图像做一系列改变,来产生相似但又不同的训练样本,扩大训练数据集的规模。
1)对步骤(1.1)得来的图像按照顺时针方向或逆时针方向,在预设角度阈值之内随机旋转数据标注后的液晶屏图像样本。
2)对步骤(1.1),在完整保留液晶屏示数的条件下,对数据标注后的液晶屏图像样本进行随机裁剪,以改变液晶屏在数据标注后的液晶屏图像样本中的位置及大小比例。
3)对步骤(1.1)得来的图像添加椒盐或高斯噪声,进行中值滤波或高斯模糊,四种操作随机进行以模拟不同场景中采集到的图像。
4)对步骤(1.1)得来的图像进行亮度和对比度调整以模拟不同光照条件的影响。
经过上述增广处理,得到1000张不同仪表液晶屏图像数据。
第二步:对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的轻量级检测网络的仪表液晶屏示数检测
第(2.1)步,基于感受野阻滞网RFB net改进的轻量级检测网络建立及训练:所采用模型对RFB Net网络中分辨率较低的conv10_2及conv11_2卷积层进行了删减,使模型更具有针对性,同时更加轻量化,占用内存也更少。然后将第一步制备的数据集按7:3比例划分为训练集和测试集,对此模型进行训练。
第(2.2)步,液晶屏示数检测:使用第(2.1)步已训练好的基于感受野阻滞网RFBnet改进的网络对输入的待检测图像进行液晶屏示数检测。此网络首先通过VGG-16网络对输入图像进行卷积处理,得到相应的特征向量。然后利用RFB中训练好的参数模型计算出候选框相应置信度,最后用非极大值抑制的方法,将局部最优框作为输出结果,完成对液晶屏示数的检测。得到包含示数字条最小外接矩形的四个顶点坐标文本文件。
第三步:待识别液晶屏示数的图像切片截取
读取第二步得到的文本文件,即一个矩形框四个顶点的坐标值,i=1,2,3,4;基于这些坐标对液晶屏示数位置进行切片处理,得到更小数据量、示数占比更大、背景相对简单的示数图像切片,并将图像切片送入CRNN识别网络中。
第四步:基于端到端识别网络CRNN的液晶屏示数识别
第(4.1)步,CRNN识别网络训练:依据第一步标注的数据集坐标文档,对液晶屏示数位置进行切片处理,得到更小数据量的示数切片集,利用切片集作为输入对CRNN网络进行训练。
在训练阶段,依据检测定位的坐标进行切片并统一缩放至100×32(w×h)输入CRNN网络进行训练;在测试阶段,为避免字符拉伸导致识别率降低的问题,保持切片图像尺寸比例,将图像高度统一至32个像素输入CRNN。
第(4.2)步,图片特征序列提取:
1)将第三步得到的切片转换为灰度图。
2)保持切片尺寸比例,将其高度归一化至32个像素得到32×W×1大小图像,将图像输入到7层CNN网络进行特征提取,输出变为1×(W/4)×512,把特征图按列切分(Map-to-Sequence)每一个特征向量包含512维特征作为循环层在一个时间步(time step)的输入。
第(4.3)步,预测上一步获取的特征序列标签(真实值)分布:针对LSTM,设置T=(W/4)、D=512即可将上一步提取的特征序列输入到BiLSTM进行分类,再经过softmax操作,输出长度为字符类别数的向量构成的后验概率矩阵。其中列向量的每个元素代表对应字符预测概率。
第(4.4)步,将上一步预测的标签分布转换成识别结果:将上一步获取的后验概率矩阵传入转录层,得到最大概率路径,再经过序列去冗余及合并得到最终预测识别结果。
本发明实施例检测和识别过程均使用了深度学习网络,具有较强鲁棒性,在背景复杂、或光照不佳或仪表不正的情况下对仪表液晶屏位置的检测定位及示数的识别都具有较高的准确率。
相较现有检测网络而言,本方法中使用的基于感受野阻滞网RFB Net修改的检测网络拥有多个大小的感受野,更强的网络特征提取能力,可以在兼顾速度的同时,达到非常高的主干网络检测器的精度。
本方法中使用的CRNN网络为端到端识别网络:
1)相较于传统方法需要进行单字切割和分类任务,CRNN不需要进行字符分割和水平缩放操作环节,并且它可以识别任意长度的序列,只需要垂直方向缩放到固定长度既可;
2)CRNN利用BiLSTM和CTC部件学习字符图像中的上下文关系,较传统方式有效提升文本识别准确率,使得模型更加鲁棒;
3)CRNN模型速度更快、体积也更小。
图5为本发明数显仪表的液晶屏示数识别装置实施例结构示意图,如图5所示,本发明实施例提供了一种数显仪表的液晶屏示数识别装置,包括获取单元501、切片单元502和识别单元503,其中:
获取单元501用于获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;切片单元502用于将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;识别单元503用于输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
具体的,获取单元501用于获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;切片单元502用于将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;识别单元503用于输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
本发明实施例提供的数显仪表的液晶屏示数识别装置,通过将第一预设模型和第二预设模型组合,实现了分别检测液晶屏示数的定位信息及识别包含有液晶屏示数的图像切片,具有较强的鲁棒性和准确性,且通过基于空间分辨率删减卷积层,提高了第一预设模型的运算速度,进而提高了总体模型的识别速度。
本发明实施例提供的数显仪表的液晶屏示数识别装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图6为本发明实施例提供的电子设备实体结构示意图,如图6所示,所述电子设备包括:处理器(processor)601、存储器(memory)602和总线603;
其中,所述处理器601、存储器602通过总线603完成相互间的通信;
所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种数显仪表的液晶屏示数识别方法,其特征在于,包括:
获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减conv10_2卷积层和conv11_2卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;
将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;
输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
2.根据权利要求1所述的数显仪表的液晶屏示数识别方法,其特征在于,所述基于空间分辨率删减卷积层,包括:
获取卷积层的空间分辨率,并删减低于预设空间分辨率阈值的卷积层。
3.根据权利要求1所述的数显仪表的液晶屏示数识别方法,其特征在于,所述第一预设模型的输出结果的获取,包括:
通过所述RFB Net的VGG-16网络对所述图像进行卷积处理,得到相应的特征向量;
利用所述RFB Net中训练好的参数模型计算与液晶屏示数区域相对应的候选框的置信度;
用非极大值抑制方法,将基于所述置信度确定的、与所述候选框相对应的局部最优框作为所述第一预设模型的输出结果。
4.根据权利要求1所述的数显仪表的液晶屏示数识别方法,其特征在于,所述第二预设模型的输出结果的获取,包括:
通过所述CRNN的CNN提取所述图像切片的特征序列,采用所述CRNN的RNN对所述特征序列进行预测;
输入预测结果至所述CRNN的转录层,将所述转录层的输出结果作为所述第二预设模型的输出结果。
5.根据权利要求1所述的数显仪表的液晶屏示数识别方法,其特征在于,在所述获取包含有数显仪表及液晶屏示数的图像的步骤之前,所述数显仪表的液晶屏示数识别方法还包括:
训练所述第一预设模型和所述第二预设模型;
相应的,在训练所述第一预设模型的步骤之前,所述数显仪表的液晶屏示数识别方法还包括:
采集所述数显仪表的液晶屏图像样本;
对所述液晶屏图像样本进行数据标注;
对数据标注后的液晶屏图像样本进行图像增广处理。
6.根据权利要求5所述的数显仪表的液晶屏示数识别方法,其特征在于,所述对数据标注后的液晶屏图像样本进行图像增广处理,包括:
如下处理步骤中的至少一种:
按照顺时针方向或逆时针方向,在预设角度阈值之内随机旋转数据标注后的液晶屏图像样本;
在完整保留液晶屏示数的条件下,对数据标注后的液晶屏图像样本进行随机裁剪,以改变液晶屏在数据标注后的液晶屏图像样本中的位置及大小比例;
对数据标注后的液晶屏图像样本进行噪声预处理,以模拟在不同场景中采集到的图像;
对数据标注后的液晶屏图像样本进行亮度和对比度调整,以模拟不同光照条件对图像的影响。
7.根据权利要求6所述的数显仪表的液晶屏示数识别方法,其特征在于,所述对数据标注后的液晶屏图像样本进行噪声预处理,具体包括:
添加椒盐噪声、添加高斯噪声、进行中值滤波处理和进行高斯模糊处理中的至少一种。
8.一种数显仪表的液晶屏示数识别装置,其特征在于,包括:
获取单元,用于获取包含有数显仪表及液晶屏示数的图像,并输入所述图像至第一预设模型;所述第一预设模型是对感受野阻滞网RFB Net基于空间分辨率删减conv10_2卷积层和conv11_2卷积层后得到的模型,所述第一预设模型采用液晶屏示数的定位数据作为第一样本数据进行训练得到;
切片单元,用于将所述第一预设模型的输出结果作为所述液晶屏示数的定位信息,根据所述定位信息对所述图像中包含所述液晶屏示数的区域进行切片处理,得到图像切片;
识别单元,用于输入所述图像切片至第二预设模型,并将所述第二预设模型的输出结果作为所述液晶屏示数的识别结果;其中,所述第二预设模型是卷积递归神经网络CRNN,所述第二预设模型采用液晶屏示数的示数数据作为第二样本数据进行训练得到。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010108573.1A CN111339902B (zh) | 2020-02-21 | 2020-02-21 | 一种数显仪表的液晶屏示数识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010108573.1A CN111339902B (zh) | 2020-02-21 | 2020-02-21 | 一种数显仪表的液晶屏示数识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111339902A CN111339902A (zh) | 2020-06-26 |
CN111339902B true CN111339902B (zh) | 2023-10-10 |
Family
ID=71185554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010108573.1A Active CN111339902B (zh) | 2020-02-21 | 2020-02-21 | 一种数显仪表的液晶屏示数识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339902B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111985484B (zh) * | 2020-08-11 | 2024-09-06 | 云南电网有限责任公司电力科学研究院 | 基于cnn-lstm的温度仪表数字识别的方法及装置 |
CN112101336A (zh) * | 2020-09-09 | 2020-12-18 | 杭州测质成科技有限公司 | 一种基于计算机视觉的智能数据采集方式 |
CN113591819A (zh) * | 2021-09-30 | 2021-11-02 | 成都交大光芒科技股份有限公司 | 牵引变电所辅助监控液晶显示仪表的智能识别方法及装置 |
CN115082922A (zh) * | 2022-08-24 | 2022-09-20 | 济南瑞泉电子有限公司 | 基于深度学习的水表数字图片处理方法及系统 |
CN117173690B (zh) * | 2023-10-24 | 2024-01-26 | 四川泓宝润业工程技术有限公司 | 自动定位和读取天然气仪表读数的方法、装置及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263790A (zh) * | 2019-04-18 | 2019-09-20 | 汕头大学 | 一种基于卷积神经网络的电厂电表字符定位和识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704857B (zh) * | 2017-09-25 | 2020-07-24 | 北京邮电大学 | 一种端到端的轻量级车牌识别方法及装置 |
-
2020
- 2020-02-21 CN CN202010108573.1A patent/CN111339902B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110263790A (zh) * | 2019-04-18 | 2019-09-20 | 汕头大学 | 一种基于卷积神经网络的电厂电表字符定位和识别方法 |
Non-Patent Citations (1)
Title |
---|
Yiming Zhao, Jinzheng Zhao, Chunyu Zhao, Weiyu Xiong, Qingli Li, Junli Yang.Robust Real-Time Object Detection Based on Deep Learning for Very High Resolution Remote Sensing Images.IGARSS 2019 - 2019 IEEE International Geoscience and Remote Sensing Symposium.2019,第1314-1317页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111339902A (zh) | 2020-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339902B (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
CN110059694B (zh) | 电力行业复杂场景下的文字数据的智能识别方法 | |
CN111291629A (zh) | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 | |
CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
CN111652225B (zh) | 基于深度学习的非侵入式摄像读取方法及系统 | |
CN116994140A (zh) | 基于遥感影像的耕地提取方法、装置、设备和介质 | |
CN109472193A (zh) | 人脸检测方法及装置 | |
CN110930296A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114170227B (zh) | 产品表面缺陷检测方法、装置、设备及存储介质 | |
CN112989995B (zh) | 文本检测方法、装置及电子设备 | |
CN112686894A (zh) | 基于生成式对抗网络的fpcb板缺陷检测方法及装置 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN111950457A (zh) | 油田安全生产图像识别方法及系统 | |
CN112070137A (zh) | 训练数据集的生成方法、目标对象检测方法及相关设备 | |
CN116740528A (zh) | 一种基于阴影特征的侧扫声呐图像目标检测方法及系统 | |
Tosun et al. | Real-time object detection application for visually impaired people: Third eye | |
CN118334336A (zh) | 阴道镜图像分割模型构建方法、图像分类方法和装置 | |
CN113158965B (zh) | 一种实现海漂垃圾识别的仿视觉识别方法、设备和介质 | |
CN112232390A (zh) | 一种高像素大图像的识别方法和系统 | |
CN116994084A (zh) | 区域入侵检测模型训练方法及区域入侵检测方法 | |
CN116612272A (zh) | 一种图像处理智能数字化的检测系统及其检测方法 | |
CN116433596A (zh) | 一种边坡坡面植被覆盖率测量方法、装置及相关组件 | |
CN110728316A (zh) | 一种课堂行为检测方法、系统、装置和存储介质 | |
CN116152191A (zh) | 基于深度学习的显示屏裂纹缺陷检测方法、装置及设备 | |
CN116071307A (zh) | 路面缺陷检测模型建立方法、检测方法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |