CN112990213B - 一种基于深度学习的数字万用表字符识别系统和方法 - Google Patents

一种基于深度学习的数字万用表字符识别系统和方法 Download PDF

Info

Publication number
CN112990213B
CN112990213B CN202110175513.6A CN202110175513A CN112990213B CN 112990213 B CN112990213 B CN 112990213B CN 202110175513 A CN202110175513 A CN 202110175513A CN 112990213 B CN112990213 B CN 112990213B
Authority
CN
China
Prior art keywords
feature map
dial area
block
unit
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110175513.6A
Other languages
English (en)
Other versions
CN112990213A (zh
Inventor
岳秀超
张万绪
刘成
王新宇
孟娜
陈晓璇
李艳艳
周延
彭进业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NORTHWEST UNIVERSITY
Original Assignee
NORTHWEST UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NORTHWEST UNIVERSITY filed Critical NORTHWEST UNIVERSITY
Priority to CN202110175513.6A priority Critical patent/CN112990213B/zh
Publication of CN112990213A publication Critical patent/CN112990213A/zh
Application granted granted Critical
Publication of CN112990213B publication Critical patent/CN112990213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的数字万用表字符识别系统和方法,所述系统包括表盘区域提取网络模块和字符识别网络模块,其中,表盘区域提取网络模块包括深度可分离卷积单元、空间通道注意力单元、转置上采样卷积单元和图像分割单元,其中,深度可分离卷积单元用于对原始图片进行多次下采样,获得不同层次和尺寸的特征图;空间通道注意力单元用于对特征图进行特征增强;转置上采样卷积单元用于进行特征融合;图像分割单元用于获得表盘区域的分数图和顶点坐标,并以分割出表盘区域图像。该系统在表盘区域提取中引入卷积注意力机制,有效提高了万用表字符识别系统对复杂图像的信息提取能力,能够取得了高效准确的识别结果。

Description

一种基于深度学习的数字万用表字符识别系统和方法
技术领域
本发明属于数字万用表技术领域,具体涉及一种基于深度学习的数字万用表字符识别系统和方法。
背景技术
数字万用表广泛应用于航天、通讯、军事、教育和电力等领域,由于外部环境变化和内部电子元器件老化等原因,数字万用表经过一段时间的使用后显示数值与实际数值会存在一定的偏差,根据相关仪器仪表测量规定,必须对各种仪器仪表的精度等级按期进行检定和校准。然而普通数字万用表没有直接与计算机进行数据通信的接口,无法与计算机直接进行数据传输,现实生产活动中仍需采用人工方式获取读数,检定工作只能依靠计量部门人员手工记录测量值,再与标准值对比偏差进而对待检万用表的测量精度给出评价,人工检定方式存在出错率高、效率低、一致性差等一系列人工重复劳动而引起的问题。
随着计算机视觉技术的发展,利用计算机强大的计算力来自动识别仪表读数也逐步成为一种可实用的方式。基于传统字符识别方法的自动检定系统一般步骤分为对获取的原始图像进行预处理,方向校正,字符定位,字符分割,字符识别等多个阶段,以上都需要图片有较纯净的背景,略复杂的图片会导致识别失败,且受光照旋转等干扰影响大,因此无法处理复杂场景,存在适应性差、容错性低等缺陷。在仪表识别这一任务中,旋转变化、仿射变化对读数判定有很大影响,不仅拍摄的仪表图片可能具有较大的旋转变化、视角变化,而且仪表结构存在诸多变化性,包括不同子目标的放置位置差异、字体差异、颜色差异等等,这些变化性给仪表识别带来了很大的困难。因此,如何简化检测识别流程,减少繁琐复杂的中间环节,解决光照变化、角度旋转等干扰问题,提高识别系统的准确性、效率性和通用性,是一个非常值得关注的研究课题。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于深度学习的数字万用表字符识别系统和方法。本发明要解决的技术问题通过以下技术方案实现:
本发明提供了一种基于深度学习的数字万用表字符识别系统,包括表盘区域提取网络模块和字符识别网络模块,其中,
所述表盘区域提取网络模块包括深度可分离卷积单元、空间通道注意力单元、转置上采样卷积单元和图像分割单元,其中,所述深度可分离卷积单元用于对原始图片进行多次下采样,获得所述原始图像不同层次和尺寸的特征图;所述空间通道注意力单元用于对所述不同层次和尺寸的特征图进行特征增强,获得增强后的特征图;所述转置上采样卷积单元用于重建上采样特征,以与相应的下采样特征进行特征融合,获得融合后特征图;所述图像分割单元用于利用所述融合后特征图获得表盘区域的分数图和顶点坐标,并根据获得的分数图和顶点坐标在所述原始图像中分割出表盘区域图像;
所述字符识别网络模块用于对所述表盘区域图像进行字符序列识别并输出经识别的字符数据。
在本发明的一个实施例中,所述深度可分离卷积单元包括依次连接的普通卷积块、第一深度可分离卷积块、第二深度可分离卷积块和第三深度可分离卷积块,其中,所述普通卷积块用于对所述原始图像进行下采样,获得第一下采样特征图;所述第一深度可分离卷积块用于对所述第一下采样特征图进行下采样,获得第二下采样特征图;所述第二深度可分离卷积块用于对所述第二下采样特征图进行下采样,获得第三下采样特征图;所述第三深度可分离卷积块用于对所述第三下采样特征图进行下采样,获得第四下采样特征图。
在本发明的一个实施例中,所述空间通道注意力单元包括第一注意力块、第二注意力块和第三注意力块,所述转置上采样卷积单元包括第一转置上采样块、第二转置上采样块、第三转置上采样块和第四转置上采样块,其中,
所述第一转置上采样块用于对所述第四下采样特征图进行上采样,获得第一上采样特征图;所述第一注意力块用于对所述第三下采样特征图和所述第一上采样特征图融合后的特征图进行信息加权融合处理,获得第一加权处理特征图;所述第二转置上采样块用于对所述第一加权处理特征图进行上采样,获得第二上采样特征图,所述第二注意力块用于对所述第二下采样特征图和所述第二上采样特征图融合后的特征图进行信息加权融合处理,获得第二加权处理特征图,所述第三转置上采样块用于对所述第二加权处理特征图进行上采样,获得第三上采样特征图;所述第三注意力块用于对所述第三下采样特征图和所述第一上采样特征图融合后的特征图进行信息加权融合处理,获得第三加权处理特征图,所述第四转置上采样块用于对所述第三加权处理特征图进行上采样,并输出融合后的特征图。
在本发明的一个实施例中,所述第一注意力块的运算表达式为:
R(F)=F*σ(Conv(AvgPool(F)+MaxPool(F)))
其中,F表示输入的特征图,AvgPool()表示平均池化操作,MaxPool()表示最大池化操作,Conv()表示卷积操作,σ()表示Sigmoid函数。
在本发明的一个实施例中,所述表盘区域提取网络模块(1)的损失函数为:
Loss=Ls+Lg
其中,Ls表示分数图的损失:
Ls=-βY*logY-(1-β)(1-Y*)log(1-Y),
Y为经所述表盘区域提取网络模块获得的表盘区域的分数图,Y*为表盘区域的真实标注值,β表示不属于表盘区域的负样本像素所占比例;
Lg表示表盘区域四边形顶点的回归损失:
Q为经所述表盘区域提取网络模块获得的表盘区域四边形顶点坐标值,Q*表示表盘区域四边形顶点的预先标注值:
Q={qi}={(xi,yi)|i∈{1,2,3,4}},
表示四边形的短边长度。
在本发明的一个实施例中,所述字符识别网络模块包括依次连接的卷积神经网络单元、循环神经网络单元和时序连接分类单元,其中,所述卷积神经网络单元用于将输入的表盘区域图像编码为序列特征,所述循环神经网络单元用于对所述序列特征进行特征提取,所述时序连接分类单元用于将所述序列特征映射为字符序列。
本发明的另一方面提供了一种基于深度学习的数字万用表字符识别方法,利用上述实施例中任一项所述的基于深度学习的数字万用表字符识别系统执行,所述方法包括:
S1:利用表盘区域提取网络模块从原始图像中提取出表盘区域图像;
S2:利用字符识别模块对所述表盘区域图像进行字符序列识别,并输出经识别的字符数据。
在本发明的一个实施例中,所述S1包括:
对所述原始图片进行多次下采样,获得所述原始图像不同层次和尺寸的特征图;
对所述不同层次和尺寸的特征图进行特征增强,获得增强后的特征图;
重建上采样特征,以与相应的下采样特征进行特征融合,获得融合后特征图;
利用所述融合后特征图获得表盘区域的分数图和顶点坐标,并根据获得的分数图和顶点坐标在所述原始图像中分割出表盘区域图像。
与现有技术相比,本发明的有益效果在于:
1、本发明基于深度学习的数字万用表字符识别系统和方法,使用卷积神经网络提取图像特征,避免传统图像识别方法中人工设计特征等冗余过程,并引入深度可分离卷积、残差连接、卷积注意力机制等提高检测效果,在减少参数的同时提高检测效率,并能有效克服光照变化、噪声、旋转、缩放等干扰,有效提高了万用表字符识别系统对复杂图像的信息提取能力,在字符识别任务上结合循环神经网络,实现对数字万用表表盘字符序列的直接识别,避免字符分割等带来的问题,在整体上达到了可实用的检测识别准确率和实时性。
2、本发明基于深度学习的数字万用表字符识别系统和方法,基于语义分割和坐标回归,引入深度可分离卷积和卷积注意力机制,在保证提取准确率的前提下,使得表盘区域提取网络具有较少的参数,减少运算量,提高了网络速度。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1是本发明实施例提供的一种基于深度学习的数字万用表字符识别系统的模块示意图;
图2是本发明实施例提供的一种数字万用表字符识别过程示意图;
图3是本发明实施例提供的一种表盘区域提取网络模块的模块示意图;
图4是本发明实施例提供的一种表盘区域提取网络模块的结构示意图;
图5是本发明实施例提供的一种深度可分离卷积块的结构示意图;
图6是本发明实施例提供的一种注意力块的结构示意图;
图7是本发明实施例提供的一种转置上采样块的结构示意图;
图8是本发明实施例提供的一种字符识别网络模块的模块示意图;
图9是本发明实施例提供的一种字符识别网络模块的具体结构示意图;
图10是手机随机拍摄采集的多张万用表图片;
图11是对采集图片进行数据增强后的多张万用表图片;
图12是利用本发明实施例的数字万用表字符识别系统的表盘区域提取结果;
图13是字符识别数据集的部分图片;
图14是利用本发明实施例的数字万用表字符识别系统的字符识别结果。
具体实施方式
为了进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及具体实施方式,对依据本发明提出的一种基于深度学习的数字万用表字符识别系统和方法进行详细说明。
有关本发明的前述及其他技术内容、特点及功效,在以下配合附图的具体实施方式详细说明中即可清楚地呈现。通过具体实施方式的说明,可对本发明为达成预定目的所采取的技术手段及功效进行更加深入且具体地了解,然而所附附图仅是提供参考与说明之用,并非用来对本发明的技术方案加以限制。
应当说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的物品或者设备中还存在另外的相同要素。
实施例一
请一并参见图1至图3,图1是本发明实施例提供的一种基于深度学习的数字万用表字符识别系统的模块示意图;图2是本发明实施例提供的一种数字万用表字符识别过程示意图;图3是本发明实施例提供的一种表盘区域提取网络模块的模块示意图。本实施例的数字万用表字符识别系统包括表盘区域提取网络模块1和字符识别网络模块2,其中,表盘区域提取网络模块1包括深度可分离卷积单元11、空间通道注意力单元12、转置上采样卷积单元13和图像分割单元14,其中,深度可分离卷积单元11用于对原始图片进行多次下采样,获得原始图像不同层次和尺寸的特征图;空间通道注意力单元12用于对不同层次和尺寸的特征图进行特征增强,获得增强后的特征图;转置上采样卷积单元13用于重建上采样特征,以与相应的下采样特征进行特征融合,获得融合后特征图;图像分割单元14用于利用所述融合后特征图根据转置上采样卷积单元13输出的特征图获得表盘区域的分数图和顶点坐标,并根据获得的分数图和顶点坐标在所述原始图像中分割出表盘区域图像;字符识别网络模块2用于对表盘区域图像进行字符序列识别并输出经识别的字符数据。
具体地,表盘区域提取网络模块1基于语义分割和坐标回归,引入深度可分离卷积和空间通道注意力机制,在保证提取准确率的前提下,使得表盘区域提取网络具有较少的参数,减少运算量,提高了网络速度。采用语义分割方式区分表盘区域像素与背景像素,并结合回归出的区域四个顶点坐标得到精确的表盘区域。
请参见图4,图4是本发明实施例提供的一种表盘区域提取网络模块的结构示意图。在本实施例中,向表盘区域提取网络模块输入高宽均为512的RGB彩色图像,经过普通卷积块和多个深度可分离卷积块,提取图像不同层次的特征图,每次下采样使用最大池化方式,特征图的空间大小缩小为之前的1/2,之后对特征图进行上采样,放大2倍后,再与上一层相同大小的特征图进行融合拼接,得到一系列含有丰富信息的特征图。为了让该表盘区域提取网络模块获取更好的特征表达,在融合的特征图上添加空间通道注意力机制,注意力机制通过信息加权融合的方式,通过对更有用的特征图信息赋予更大的权重,并降低其他干扰信息的影响,从而使表盘区域提取网络对潜在表盘区域有更大的关注度。
具体地,深度可分离卷积单元11包括依次连接的普通卷积块CB、第一深度可分离卷积块DSCB1、第二深度可分离卷积块DSCB2和第三深度可分离卷积块DSCB3,其中,普通卷积块CB用于对原始图像进行下采样,获得第一下采样特征图;第一深度可分离卷积块DSCB1用于对第一下采样特征图进行下采样,获得第二下采样特征图;第二深度可分离卷积块DSCB2用于对第二下采样特征图进行下采样,获得第三下采样特征图;第三深度可分离卷积块DSCB3用于对第三下采样特征图进行下采样,获得第四下采样特征图。
进一步地,请参见图5,图5是本发明实施例提供的一种深度可分离卷积块的结构示意图,其中,BN为正则化层,ReLU为激活函数。普通卷积块CB中每个卷积核对输入图像的所有通道进行卷积再求和,而深度可分离卷积块(即第一深度可分离卷积块DSCB1、第二深度可分离卷积块DSCB2和第三深度可分离卷积块DSCB3)每个卷积核分别对输入图像的单通道进行卷积,最后再合并每个通道的输出特征图。所述深度可分离卷积块对输入的特征图进行深度分离卷积,引入残差连接防止网络过度拟合,并提高训练过程中的网络收敛速度。
本实施例的空间通道注意力单元12包括第一注意力块SCAB1、第二注意力块SCAB2和第三注意力块SCAB3,转置上采样卷积单元13包括第一转置上采样块TCB1、第二转置上采样块TCB2、第三转置上采样块TCB3和第四转置上采样块TCB4,其中,第一转置上采样块TCB1用于对第四下采样特征图进行上采样,获得第一上采样特征图;第一注意力块SCAB1用于对第三下采样特征图和第一上采样特征图融合后的特征图进行信息加权融合处理,获得第一加权处理特征图;第二转置上采样块TCB2用于对第一加权处理特征图进行上采样,获得第二上采样特征图,第二注意力块SCAB2用于对第二下采样特征图和第二上采样特征图融合后的特征图进行信息加权融合处理,获得第二加权处理特征图,第三转置上采样块TCB3用于对第二加权处理特征图进行上采样,获得第三上采样特征图;第三注意力块SCAB3用于对第三下采样特征图和第一上采样特征图融合后的特征图进行信息加权融合处理,获得第三加权处理特征图,第四转置上采样块TCB4用于对第三加权处理特征图进行上采样,并输出融合后的特征图。
具体地,请参见图6,图6是本发明实施例提供的一种注意力块的结构示意图,其中,max pool表示最大池化操作,avg pool表示平均池化操作,separable conv表示可分离卷积层,sigmoid表示sigmoid函数。
注意力机制可以聚焦重点关注区域,提高相关部分的表达能力,从而有效抑制背景中的阴影、纹理等无关干扰。所述注意力块(即第一注意力块SCAB1、第二注意力块SCAB2和第三注意力块SCAB3)有效提升了卷积神经网络的表现能力和性能,其能对提取到的特征图去芜存菁,对有用信息给予更大的关注度。每个注意力块由通道注意力模块和空间注意力模块串联而成,结构如图6所示,先分别使用最大池化和平均池化压缩特征图,再由分离卷积层融合两者信息,并经过Sigmoid函数得到注意力权重,与输入特征图进行相乘,得到增强后的特征图,计算式为:
R(F)=F*σ(Conv(AvgPool(F)+MaxPool(F)))
其中,F表示输入的特征图,AvgPool()表示平均池化操作,MaxPool()表示最大池化操作,Conv()表示卷积操作,σ()表示Sigmoid函数。
进一步地,请参见图7,图7是本发明实施例提供的一种转置上采样块的结构示意图,其中,transposed conv表示转置卷积层。由于进行了多次卷积下采样,特征图在空间维度上减小,在通道维度上增加,细节信息容易丢失,为了弥补细节信息的丢失,本实施例使用转置上采样块(第一转置上采样块TCB1、第二转置上采样块TCB2、第三转置上采样块TCB3和第四转置上采样块TCB4)对减小后的特征图进行放大,并与之前的相同空间大小的特征图进行特征融合,提高了最后输出特征图的信息丰富度与准确度。通过转置上采样卷积单元13,可以得到具有丰富信息和准确度的特征图。
在本实施例中,表盘区域提取网络模块1的输出包括了语义分割产生的分数图Fs和四边形的四个顶点坐标Qg,因此整个表盘区域提取网络模块1的损失函数为:
Loss=Ls+Lg
其中,Ls表示分数图的损失:
Ls=-βY*logY-(1-β)(1-Y*)log(1-Y),
Y为经所述表盘区域提取网络模块获得的表盘区域的分数图,Y*为表盘区域的真实标注值,使用了类平衡交叉熵解决类别不平衡问题,β表示不属于表盘区域的负样本像素所占比例;
Lg表示表盘区域四边形顶点的回归损失:
其中,对预测偏差使用smooth-L1正则化计算,Q为经所述表盘区域提取网络模块获得的表盘区域四边形顶点坐标值,Q*表示表盘区域四边形顶点的预先标注值:
Q={qi}={(xi,yi)|i∈{1,2,3,4}},
表示四边形的短边长度。
进一步地,图像分割单元14用于根据转置上采样卷积单元13输出的特征图获得表盘区域的分数图和顶点坐标,并根据获得的分数图和顶点坐标在所述原始图像中分割出表盘区域图像。本实施例的图像分割单元14包括两个普通卷积块CB和分割后处理子单元。具体地,将转置上采样卷积单元13输出的特征图分别输入所述两个普通卷积块CB,从而可以获得表盘区域的分数图和顶点坐标,在获得表盘区域的分数图和顶点坐标之后,利用所述分割后处理子单元在所述原始图像中分割出表盘区域图像。在本实施例中,可以利用opencv库进行表盘区域图像分割。
进一步地,请参见图8,图8是本发明实施例提供的一种字符识别网络模块的结构示意图。本实施例的字符识别网络模块2包括依次连接的卷积神经网络单元(CNN,Convolutional Neural Networks)、循环神经网络单元(RNN,Recurrent Neural Network)和时序连接分类单元(CTC,Connectionist Temporal Classification),其中,卷积神经网络单元CNN用于将输入的表盘区域图像编码为序列特征,循环神经网络单元RNN用于对序列特征进行特征提取,时序连接分类单元CTC用于将序列特征映射为字符序列。
具体地,请参见图9,图9是本发明实施例提供的一种字符识别网络模块的具体结构示意图,其中,C表示通道数,K表示卷积核大小,S表示卷积核步长,U表示隐藏单元个数。本实施例的字符识别网络模块可识别长度不定的字符序列且无需分割字符,极大地减少了人工标注数据时的工作量,提高了系统的简洁性。首先使用卷积神经网络CNN进行图像特征提取,改变图像特征的数据样式(reshape),转换为序列特征后,再由循环神经网络RNN(图9中具体为两层双向GRU)进行序列特征提取,最后由CTC将序列特征映射为字符序列。
本实施例基于深度学习的数字万用表字符识别系统,使用卷积神经网络提取图像特征,避免传统图像识别方法中人工设计特征等冗余过程,并引入深度可分离卷积、残差连接、卷积注意力机制等提高检测效果,在减少参数的同时提高检测效率,并能有效克服光照变化、噪声、旋转、缩放等干扰,有效提高了万用表字符识别系统对复杂图像的信息提取能力,在字符识别任务上结合循环神经网络,实现对数字万用表表盘字符序列的直接识别,避免字符分割等带来的问题,在整体上达到了可实用的检测识别准确率和实时性。该系统基于语义分割和坐标回归,引入深度可分离卷积和卷积注意力机制,在保证提取准确率的前提下,使得表盘区域提取网络具有较少的参数,减少运算量,提高了网络速度。
实施例二
在上述实施例的基础上,本实施例提供了一种基于深度学习的数字万用表字符识别方法,利用实施例一所述的数字万用表字符识别系统执行,所述方法包括:
S1:利用表盘区域提取网络模块从原始图像中提取出表盘区域图像;
S2:利用字符识别模块对所述表盘区域图像进行字符序列识别,并输出经识别的字符数据。
进一步地,所述S1包括:
S11:对所述原始图片进行多次下采样,获得所述原始图像不同层次和尺寸的特征图;
S12:对所述不同层次和尺寸的特征图进行特征增强,获得增强后的特征图;
S13:重建上采样特征,以与相应的下采样特征进行特征融合,获得融合后特征图;
S14:利用所述融合后特征图获得表盘区域的分数图和顶点坐标,并根据获得的分数图和顶点坐标在所述原始图像中分割出表盘区域图像。
需要说明的是,本实施例方法的具体操作过程请参见实施例一的相关描述,这里不再赘述。
以下通过实验对本发明实施例的于深度学习的数字万用表字符识别系统和方法进行进一步说明。
(1)表盘区域提取数据集及训练参数
请参见图10,手机随机拍摄采集了多张万用表的图片,万用表在整个图片中的不同位置,且占据整个图片的比例也不为定值,并带一定的角度倾斜,避免了机械固定和其他特殊硬件要求。由于考虑真实环境的复杂性和干扰性,对采集图片进行数据增强,包括对图片进行随机角度的旋转、加入高斯噪声和随机椒盐噪声、改变对比度等操作模拟环境干扰,增强后的部分训练样本如图11所示。在实验中,数据集共计2000张图片,按照8:2比例划分训练集和测试集,训练过程中使用自适应学习率Nadam优化器,初始学习率设置为0.001。
(2)表盘区域提取结果
请参见图12,图12是利用本发明实施例的数字万用表字符识别系统的表盘区域提取结果,可以看出,表盘区域提取网络从图像中准确找到表盘区域,裁剪出来即为后续需要识别的字符序列图像。
(3)字符识别数据集及训练参数
字符识别数据集使用之前表盘区域提取得到的图片,图13展示了部分字符识别的数据集。训练过程中使用Adam优化器,初始学习率设置为0.001。
(4)字符识别结果
在表盘区域提取的结果下,进行完整的区域提取和字符识别,部分识别结果如图14,本发明实施例的系统和方法在强光照、弱光照、模拟遮挡等干扰下能准确提取识别字符序列,达到98.5%以上的检测识别准确率,并具备高效的识别速度。具体地,在NVIDIARTX2070 GPU加速下,可以达到200ms+/图的检测识别速度。
本实施例基于深度学习的数字万用表字符识别系统和方法,避免了传统图像处理中的人工特征设计和其他冗余中间过程,在各种干扰下有良好的鲁棒性,能应对复杂多变的外界环境,具备在各种工业科研、室内室外等场景的实用性。
在本发明所提供的几个实施例中,应该理解到,本发明所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
本发明的又一实施例提供了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序用于执行上述实施例中所述的方法步骤。本发明的再一方面提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现如上述实施例所述方法的步骤。具体地,上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (4)

1.一种基于深度学习的数字万用表字符识别系统,其特征在于,包括表盘区域提取网络模块(1)和字符识别网络模块(2),其中,
所述表盘区域提取网络模块(1)包括深度可分离卷积单元(11)、空间通道注意力单元(12)、转置上采样卷积单元(13)和图像分割单元(14),其中,所述深度可分离卷积单元(11)用于对原始图片进行多次下采样,获得所述原始图像不同层次和尺寸的特征图;所述空间通道注意力单元(12)用于对所述不同层次和尺寸的特征图进行特征增强,获得增强后的特征图;所述转置上采样卷积单元(13)用于重建上采样特征,以与相应的下采样特征进行特征融合,获得融合后特征图;所述图像分割单元(14)用于利用所述融合后特征图获得表盘区域的分数图和顶点坐标,并根据获得的分数图和顶点坐标在所述原始图像中分割出表盘区域图像;
所述字符识别网络模块(2)用于对所述表盘区域图像进行字符序列识别并输出经识别的字符数据;
所述深度可分离卷积单元(11)包括依次连接的普通卷积块(CB)、第一深度可分离卷积块(DSCB1)、第二深度可分离卷积块(DSCB2)和第三深度可分离卷积块(DSCB3),其中,
所述普通卷积块(CB)用于对所述原始图像进行下采样,获得第一下采样特征图;所述第一深度可分离卷积块(DSCB1)用于对所述第一下采样特征图进行下采样,获得第二下采样特征图;所述第二深度可分离卷积块(DSCB2)用于对所述第二下采样特征图进行下采样,获得第三下采样特征图;所述第三深度可分离卷积块(DSCB3)用于对所述第三下采样特征图进行下采样,获得第四下采样特征图;
所述空间通道注意力单元(12)包括第一注意力块(SCAB1)、第二注意力块(SCAB2)和第三注意力块(SCAB3),所述转置上采样卷积单元(13)包括第一转置上采样块(TCB1)、第二转置上采样块(TCB2)、第三转置上采样块(TCB3)和第四转置上采样块(TCB4),其中,
所述第一转置上采样块(TCB1)用于对所述第四下采样特征图进行上采样,获得第一上采样特征图;所述第一注意力块(SCAB1)用于对所述第三下采样特征图和所述第一上采样特征图融合后的特征图进行信息加权融合处理,获得第一加权处理特征图;所述第二转置上采样块(TCB2)用于对所述第一加权处理特征图进行上采样,获得第二上采样特征图;所述第二注意力块(SCAB2)用于对所述第二下采样特征图和所述第二上采样特征图融合后的特征图进行信息加权融合处理,获得第二加权处理特征图;所述第三转置上采样块(TCB3)用于对所述第二加权处理特征图进行上采样,获得第三上采样特征图;所述第三注意力块(SCAB3)用于对所述第三下采样特征图和所述第一上采样特征图融合后的特征图进行信息加权融合处理,获得第三加权处理特征图;所述第四转置上采样块(TCB4)用于对所述第三加权处理特征图进行上采样,并输出融合后的特征图;
所述表盘区域提取网络模块(1)的损失函数为:
Loss=Ls+Lg
其中,Ls表示分数图的损失:
Ls=-βY*logY-(1-β)(1-Y*)log(1-Y)
Y为经所述表盘区域提取网络模块获得的表盘区域的分数图,Y*为表盘区域的真实标注值,β表示不属于表盘区域的负样本像素所占比例;
Lg表示表盘区域四边形顶点的回归损失:
Q为经所述表盘区域提取网络模块获得的表盘区域四边形顶点坐标值,Q*表示表盘区域四边形顶点的预先标注值:
Q*={qi *}={(xi *,yi *)|i∈{1,2,3,4}},
SQ*表示四边形的短边长度;
所述字符识别网络模块(2)包括依次连接的卷积神经网络单元(CNN)、循环神经网络单元(RNN)和时序连接分类单元(CTC),其中,所述卷积神经网络单元(CNN)用于将输入的表盘区域图像编码为序列特征,所述循环神经网络单元(RNN)用于对所述序列特征进行特征提取,所述时序连接分类单元(CTC)用于将所述序列特征映射为字符序列。
2.根据权利要求1所述的基于深度学习的数字万用表字符识别系统,其特征在于,所述第一注意力块(SCAB1)的运算表达式为:
R(F)=F*σ(Conv(AvgPool(F)+MaxPool(F)))
其中,F表示输入的特征图,AvgPool()表示平均池化操作,MaxPool()表示最大池化操作,Conv()表示卷积操作,σ()表示Sigmoid函数。
3.一种基于深度学习的数字万用表字符识别方法,其特征在于,利用权利要求1至2中任一项所述的基于深度学习的数字万用表字符识别系统执行,所述方法包括:
S1:利用表盘区域提取网络模块对原始图像进行特征提取,获得表盘区域图像;
S2:利用字符识别模块对所述表盘区域图像进行字符序列识别,并输出经识别的字符数据。
4.根据权利要求3所述的基于深度学习的数字万用表字符识别方法,其特征在于,所述S1包括:
对所述原始图片进行多次下采样,获得所述原始图像不同层次和尺寸的特征图;
对所述不同层次和尺寸的特征图进行特征增强,获得增强后的特征图;
重建上采样特征,以与相应的下采样特征进行特征融合,获得融合后特征图;
利用所述融合后特征图获得表盘区域的分数图和顶点坐标,并根据获得的分数图和顶点坐标在所述原始图像中分割出表盘区域图像。
CN202110175513.6A 2021-02-07 2021-02-07 一种基于深度学习的数字万用表字符识别系统和方法 Active CN112990213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110175513.6A CN112990213B (zh) 2021-02-07 2021-02-07 一种基于深度学习的数字万用表字符识别系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110175513.6A CN112990213B (zh) 2021-02-07 2021-02-07 一种基于深度学习的数字万用表字符识别系统和方法

Publications (2)

Publication Number Publication Date
CN112990213A CN112990213A (zh) 2021-06-18
CN112990213B true CN112990213B (zh) 2023-10-10

Family

ID=76392456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110175513.6A Active CN112990213B (zh) 2021-02-07 2021-02-07 一种基于深度学习的数字万用表字符识别系统和方法

Country Status (1)

Country Link
CN (1) CN112990213B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674300B (zh) * 2021-08-24 2022-10-28 苏州天准软件有限公司 用于cnc自动测量的模型训练方法、测量方法及系统、设备、介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569832A (zh) * 2018-11-14 2019-12-13 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN111008639A (zh) * 2019-10-17 2020-04-14 安徽清新互联信息科技有限公司 一种基于注意力机制的车牌字符识别方法
CN111754520A (zh) * 2020-06-09 2020-10-09 江苏师范大学 一种基于深度学习的脑血肿分割方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569832A (zh) * 2018-11-14 2019-12-13 安徽艾睿思智能科技有限公司 基于深度学习注意力机制的文本实时定位识别方法
CN111008639A (zh) * 2019-10-17 2020-04-14 安徽清新互联信息科技有限公司 一种基于注意力机制的车牌字符识别方法
CN111754520A (zh) * 2020-06-09 2020-10-09 江苏师范大学 一种基于深度学习的脑血肿分割方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的数显仪表字符识别;朱立倩;;计算机技术与发展(第06期);全文 *

Also Published As

Publication number Publication date
CN112990213A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN109508681B (zh) 生成人体关键点检测模型的方法和装置
CN112949565B (zh) 基于注意力机制的单样本部分遮挡人脸识别方法及系统
CN111080628B (zh) 图像篡改检测方法、装置、计算机设备和存储介质
CN108304765B (zh) 用于人脸关键点定位与语义分割的多任务检测装置
CN108171701B (zh) 基于u网络和对抗学习的显著性检测方法
CN111104962A (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
EP3332355A1 (en) Business discovery from imagery
CN107766864B (zh) 提取特征的方法和装置、物体识别的方法和装置
CN110619334B (zh) 基于深度学习的人像分割方法、架构及相关装置
CN110866938B (zh) 一种全自动视频运动目标分割方法
CN112132205B (zh) 一种基于卷积神经网络的遥感图像分类方法
CN110599455A (zh) 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质
CN112836625A (zh) 人脸活体检测方法、装置、电子设备
CN108363962B (zh) 一种基于多层次特征深度学习的人脸检测方法及系统
CN114445904A (zh) 基于全卷积神经网络的虹膜分割方法和装置、介质和设备
CN111209873A (zh) 一种基于深度学习的高精度人脸关键点定位方法及系统
CN114359297A (zh) 基于注意力金字塔的多分辨率语义分割方法及装置
CN110826534B (zh) 一种基于局部主成分分析的人脸关键点检测方法及系统
CN114022748B (zh) 目标识别方法、装置、设备及存储介质
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN112990213B (zh) 一种基于深度学习的数字万用表字符识别系统和方法
CN112396060B (zh) 基于身份证分割模型的身份证识别方法及其相关设备
CN110633666A (zh) 一种基于手指颜色贴片的手势轨迹识别方法
CN113496228B (zh) 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法
CN112634126A (zh) 人像减龄处理方法、训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant