CN112307919A - 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 - Google Patents
一种基于改进YOLOv3的单证图像中数字信息区域识别方法 Download PDFInfo
- Publication number
- CN112307919A CN112307919A CN202011137363.1A CN202011137363A CN112307919A CN 112307919 A CN112307919 A CN 112307919A CN 202011137363 A CN202011137363 A CN 202011137363A CN 112307919 A CN112307919 A CN 112307919A
- Authority
- CN
- China
- Prior art keywords
- handwritten
- document image
- target
- digital information
- yolov3
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000002372 labelling Methods 0.000 claims abstract description 7
- 238000004590 computer program Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 5
- 238000013138 pruning Methods 0.000 claims description 5
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000001629 suppression Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 101100465000 Mus musculus Prag1 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进YOLOv3的单证图像中数字信息区域识别方法,包括步骤:获取手写数字图片,并对获取的手写数字图片集合进行预处理与标注,得到训练集;训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域;训练卷积神经网络CNN,用以识别单个手写体数字;用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别。本发明有效提升了复杂场景下单证图像中手写数字信息识别的准确率。
Description
技术领域
本发明涉及图像识别技术领域,特别是一种基于改进YOLOv3的单证图像中数字信息区域识别方法。
背景技术
手写数字识别是日常生活和工业领域处理一些数据和信息的核心技术,比如:统计报表、财务报表、邮政编码、各种单证票据等等。手写体数字识别作为图像识别领域下的一个很重要的分支,同时也是模式识别下的一个传统研究领域,不仅具有重大的现实意义和应用价值,还有着极其关键的理论价值。在实际应用中尤其在金融领域对识别的精度有相当苛刻的要求,单个数字的正确与否就可能造成难以估量的损失。
在经典的模式识别中,一般是事先提取特征。提取诸多特征后,要对这些特征进行相关性分析,找到最能代表字符的特征,去掉对分类无关和自相关的特征。然而,这些特征的提取太过依赖人的经验和主观意识,提取到的特征的不同对分类性能影响很大,甚至提取的特征的顺序也会影响最后的分类性能。同时,图像预处理的好坏也会影响到提取的特征。
发明内容
有鉴于此,本发明的目的是提出一种基于改进YOLOv3的单证图像中数字信息区域识别方法,有效提升了复杂场景下单证图像中手写数字信息识别的准确率。
本发明采用以下方案实现:一种基于改进YOLOv3的单证图像中数字信息区域识别方法,具体包括以下步骤:
获取手写数字图片,并对获取的手写数字图片集合进行预处理与标注,得到训练集;
训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域;
训练卷积神经网络CNN,用以识别单个手写体数字;
用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别。
进一步地,所述对获取的手写数字图片集合进行预处理与标注,得到训练集具体包括以下步骤:
步骤S11:批量读入各类手写体数字图像;
步骤S12:对读入图像的颜色空间进行转换,使之转换为单通道灰度图像;
步骤S13:根据预设的阈值对单通道灰度图像进行处理,获得能够反映出图像特征的二值图像;
步骤S14:将得到的二值图像批量进行高斯滤波去噪以去除图像中的黑色噪点,然后用投影法去掉黑色手写体数字周围多余的白色边界,得到无边界手写体数字图片并批量制作数据集,将得到的部分图片作为训练集;批量标注单证图像中手写数字信息区域各个数字的边框,标签类别分别标为0、1、2、3、4、5、6、7、8、 9,数据集中的每一张图片都生成与其同名的xml文件,将图片和xml文件做成 VOC数据集格式,并生成训练测试时需要用到的train.txt和test.txt文件;
步骤S15:扩充训练集的数据量,进行数据增强,以提升模型的泛化性和鲁棒性。
进一步地,所述训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域具体包括以下步骤:
步骤S21:将经过批量标注的单证图像中手写数字信息区域图片作为YOLOv3 网络的输入,在YOLOv3网络中,首先通过特征提取网络,输出N*N的卷积特征图,生成N*N个Girdcell,再经过预测层输出目标的类别和预测框坐标,其中预测框坐标(Zbx,Zby,Zbw,Zbh)的计算公式如下:
Zbx=σ(qx)+cx;
Zby=σ(qy)+cy;
式中,qx,qy,qw,qh为YOLOv3网络中每个预测框的中心点坐标与预测框的宽、高,cx,cy为预测框的中心点坐标所在Gridcell的坐标偏移量,pw,ph为预测前anchor的宽高;首先确定输入图像中物体目标中心坐标落在哪个Gridcell,然后根据该Gridcell来预测目标,YOLOv3中每个Grid cell有三个锚点框,在计算预测坐标Zbx,Zby,Zbw,Zbh的目标损失函数时,选择三个锚点框中置信度最高的来计算;其中目标类别损失Lcla(o,c)采用的是二值交叉熵损失,计算公式如下所示:
其中,
步骤S22:进行多尺度的特征图融合,加强算法对小目标检测的精确度,使得每个Grid cell可以预测更多的锚点框,并对每一个目标预测目标框的位置信息、置信度和类别概率;
步骤S23:使用多块GPU并行计算,以加快YOLO3网络的训练速度,采用模型剪枝方法针对已训练完成的权重参数进行排序,直接裁剪权重小的卷积层,并进行微调训练;
步骤S24:采用非极大值抑制的算法剔除冗余的、低于预设阈值的置信度的目标框;包括:先根据筛选前预测目标框中的概率得分对各个目标框进行排序,然后将得分最高的框与余下所有框做面积交并比IOU2的计算,IOU2小于预设阈值的目标框被认为是指向不同目标的目标框,将被保留下来,IOU2大于等于与预设阈值的目标框被认为是与该最高概率得分的目标框指向同一目标的目标框,将被抑制,循环判断直到余下所有框的IOU2值都小于预设的阈值。
进一步地,所述训练卷积神经网络CNN,用以识别单个手写体数字具体包括以下步骤:
步骤S41:采用公开的手写体数字数据集进行处理,使输入的手写体数字图片的像素为28*28;
步骤S42:构建8层卷积神经网络CNN,其中前6层由卷积层和池化层交替,然后是全连接层,最后一层为softmax分类器;
步骤S43:将经过步骤S41处理后的手写数字数据集输入构建好的8层卷积神经网络模型CNN中进行训练得到单个手写数字识别网络模型。
进一步地,所述用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别具体包括以下步骤:
步骤S51:对读入的单证图像进行预处理;
步骤S52:使用训练好的YOLOv3网络对预处理之后的待识别单证图像数字信息区域中的手写数字进行检测和定位,并对手写数字类别进行初步识别;
步骤S53:将识别分类结果的精度显示在混淆矩阵里面,找出识别结果精度低于0.9的数字种类LB1,LB2,...LBm,并将识别结果为类别LB1,LB2,...LBm的矩形预测框的坐标输出,根据得到的坐标在待识别图像中截取相应矩形区域中的手写数字区域图片SZ1,SZ2,...SZn;
步骤S54:利用训练好的卷积神经网络模型CNN对单个手写数字区域图片 SZ1,SZ2,...SZn进行重识别,将n个识别结果作为这n个手写体数字的识别结果输出;
步骤S55:整合上述步骤中得到的手写数字识别结果,并按照预测框左上角横坐标从小到大的顺序依次输出该预测框所对应的标签,作为待识别单证图像中数字信息区域的手写数字最终识别结果。
本发明还提供了一种基于改进YOLOv3的单证图像中数字信息区域识别系统,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,实现如上文所述的方法步骤。
本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,实现如上文所述的方法步骤。
与现有技术相比,本发明有以下有益效果:
1、本发明构建的基于YOLOv3的单证图像数字信息区域识别方法能够有效解决在复杂场景,复杂特征物体下的特征提取的难题,充分发挥了深度学习方法提取特征的优势,能够不依赖人工的特征工程,从大量数据集中先学习简单的特征,再逐渐学习到更为复杂抽象的深层特征,完成不同类型单证图像中的手写数字信息区域的准确检测和识别。
2、本发明能够对图像质量较差的单证图像中的手写数字信息区域进行检测和识别,同时采用基于YOLOv3模型和基于卷积神经网络的单个字体识别模型对数字信息区域进行检测识别和重识别,有效提升了图像质量较差情况下手写数字识别的准确率。
3、本发明针对手写体数字识别中手写数字存在不规范性和多样性的问题,提出采用基于改进YOLOv3模型对单证图像中的手写数字信息区域进行检测定位和识别,相较于传统视觉方法,基于深度学习的手写体数字识别方法有更好的泛化性和鲁棒性。
4、本发明针对多层次、多参数神经网络在训练时消耗大量计算资源的问题,对基于Darknet框架的YOLOv3模型采用多尺度的特征图融合、网络剪枝、参数优化等改进方法,在保证手写数字检测识别精度的同时,极大提高了网络模型训练和测试的速度。
附图说明
图1为本发明实施例的YOLO3网络结构示意图。
图2为本发明实施例的神经网络CNN结构示意图。
图3为本发明实施例的方法流程示意图。
图4为本发明实施例的检测结果示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/ 或它们的组合。
如图3所示,本实施例提供了一种基于改进YOLOv3的单证图像中数字信息区域识别方法,具体包括以下步骤:
获取手写数字图片(本实施例收集800种书写风格不同的0、1、2、3、4、5、 6、7、8、9十类手写阿拉伯数字图片共8000张),并对获取的手写数字图片集合进行预处理(对收集到的8000张图片进行二值化、去噪、归一化等预处理操作,批量制作)与标注,得到训练集;
训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域;
训练卷积神经网络CNN,用以识别单个手写体数字;
用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别。
较佳的,在本实施例中,搭建实际的系统平台,固定扫描仪位置,对书写在 A4纸上的手写体数字进行批量扫描读取,并保存为JPG格式,以此来获取图片样本。
在本实施例中,所述对获取的手写数字图片集合进行预处理与标注,得到训练集具体包括以下步骤:
步骤S11:批量读入各类手写体数字图像;
步骤S12:对读入图像的颜色空间进行转换,使之转换为单通道灰度图像;三通道RGB图像经过灰度化处理,变为单通道灰度图像的所用的公式为:
Y=0.299×R+0.587×G+0.114×B;
式中,Y代表亮度,就是灰度值,R、G、B是图像中每一个像素的三个颜色分量;
步骤S13:根据预设的阈值对单通道灰度图像进行处理,获得能够反映出图像特征的二值图像;局部自适应阈值法的二值化阈值可变,像素的邻域块像素值的分布情况决定阈值的选取,自适应阈值算法将灰度图像变换为二值图像所用的公式:
式中,src(u,v)为原始值,dst(u,v)为输出值,T(u,v)为阈值,max_value是自适应灰度值;
步骤S14:将得到的二值图像批量进行高斯滤波去噪以去除图像中的黑色噪点,然后用投影法去掉黑色手写体数字周围多余的白色边界,得到无边界手写体数字图片并批量制作数据集,将得到的部分图片作为训练集;批量标注单证图像中手写数字信息区域各个数字的边框,标签类别分别标为0、1、2、3、4、5、6、7、8、 9,数据集中的每一张图片都生成与其同名的xml文件,将图片和xml文件做成 VOC数据集格式,并生成训练测试时需要用到的train.txt和test.txt文件;
步骤S15:扩充训练集的数据量,进行数据增强(采用旋转、裁剪、尺度变换等方法),以提升模型的泛化性和鲁棒性。
在本实施例中,所述训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域具体包括以下步骤:
步骤S21:将经过批量标注的单证图像中手写数字信息区域图片作为YOLOv3 网络的输入,在YOLOv3网络(如图1所示,YOLOv3使用的特征提取网络是 DarkNet53,这个网络由残差单元叠加而成,其中,特征提取网络特征即图1中的 2.backbone和3.neck层,能够更好的进行特征提取,4.prediction即预测层)中,首先通过特征提取网络,输出N*N的卷积特征图,生成N*N个Gird cell,再经过预测层输出目标的类别和预测框坐标,其中预测框坐标(Zbx,Zby,Zbw,Zbh)的计算公式如下:
Zbx=σ(qx)+cx;
Zby=σ(qy)+cy;
式中,qx,qy,qw,qh为YOLOv3网络中每个预测框的中心点坐标与预测框的宽、高,cx,cy为预测框的中心点坐标所在Gridcell的坐标偏移量,pw,ph为预测前 anchor的宽高;首先确定输入图像中物体目标中心坐标落在哪个Grid cell,然后根据该Grid cell来预测目标,YOLOv3中每个Grid cell有三个锚点框,在计算预测坐标Zbx,Zby,Zbw,Zbh的目标损失函数时,选择三个锚点框中置信度最高的来计算;其中目标类别损失Lcla(o,c)采用的是二值交叉熵损失,计算公式如下所示:
其中,
步骤S22:进行多尺度的特征图融合,加强算法对小目标检测的精确度,使得每个Grid cell可以预测更多的锚点框,并对每一个目标预测目标框的位置信息、置信度和C个类别概率,C>1;
步骤S23:使用多块GPU并行计算,以加快YOLO3网络的训练速度,采用模型剪枝方法针对已训练完成的权重参数进行排序,直接裁剪权重小的卷积层,并进行微调训练;
步骤S24:采用非极大值抑制的算法剔除冗余的、低于预设阈值的置信度的目标框;包括:先根据筛选前预测目标框中的概率得分对各个目标框进行排序,然后将得分最高的框与余下所有框做面积交并比IOU2的计算,IOU2小于预设阈值的目标框被认为是指向不同目标的目标框,将被保留下来,IOU2大于等于与预设阈值的目标框被认为是与该最高概率得分的目标框指向同一目标的目标框,将被抑制,循环判断直到余下所有框的IOU2值都小于预设的阈值。
在本实施例中,所述训练卷积神经网络CNN,用以识别单个手写体数字具体包括以下步骤:
步骤S41:采用公开的手写体数字数据集(MINST)进行处理,使输入的手写体数字图片的像素为28*28;
步骤S42:构建8层卷积神经网络CNN(如图2所示),其中前6层由卷积层和池化层交替,然后是全连接层,最后一层为softmax分类器;
步骤S43:将经过步骤S41处理后的手写数字数据集输入构建好的8层卷积神经网络模型CNN中进行训练得到单个手写数字识别网络模型。
在本实施例中,所述用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别具体包括以下步骤:
步骤S51:对读入的单证图像进行预处理,即进行灰度化、二值化、高斯滤波去噪等预处理操作;
步骤S52:使用训练好的YOLOv3网络对预处理之后的待识别单证图像数字信息区域中的手写数字进行检测和定位,并对手写数字类别进行初步识别;
步骤S53:将识别分类结果的精度显示在混淆矩阵里面,找出识别结果精度低于0.9的数字种类LB1,LB2,...LBm,并将识别结果为类别LB1,LB2,...LBm的矩形预测框的坐标输出,根据得到的坐标在待识别图像中截取相应矩形区域中的手写数字区域图片SZ1,SZ2,...SZn;
步骤S54:利用训练好的卷积神经网络模型CNN对单个手写数字区域图片 SZ1,SZ2,...SZn进行重识别,将n个识别结果作为这n个手写体数字的识别结果输出;
步骤S55:整合上述步骤中得到的手写数字识别结果,并按照预测框左上角横坐标从小到大的顺序依次输出该预测框所对应的标签,作为待识别单证图像中数字信息区域的手写数字最终识别结果。相较于使用单一网络模型对手写数字进行识别的方法,基于卷积神经网络的重识别有效提升了复杂场景下单证图像中手写数字信息识别的准确率。
本实施例还提供了一种基于改进YOLOv3的单证图像中数字信息区域识别系统,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,实现如上文所述的方法步骤。
本实施例还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,实现如上文所述的方法步骤。
本实施例针对手写体数字识别中手写数字存在不规范性和多样性的问题,提出采用改进YOLOv3模型对单证图像中的手写数字信息区域进行检测定位和初步识别,并采用基于卷积神经网络的单个数字识别模型对单个数字进行重识别,相较于传统视觉方法,基于深度学习的手写体数字识别方法有更好的泛化性和鲁棒性。同时对基于Darknet框架的YOLOv3模型采用多尺度的特征图融合、网络剪枝、参数优化等改进方法,在保证手写数字检测识别精度的同时,极大提高了网络模型训练和测试的速度。图4为采用本实施例方法所得到的识别结果示意图,其中(a)、(b)与(c)为三组不同的数字,从图4可以看出,每个数字都被准确的识别出来。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (7)
1.一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,包括以下步骤:
获取手写数字图片,并对获取的手写数字图片集合进行预处理与标注,得到训练集;
训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域;
训练卷积神经网络CNN,用以识别单个手写体数字;
用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别。
2.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,所述对获取的手写数字图片集合进行预处理与标注,得到训练集具体包括以下步骤:
步骤S11:批量读入各类手写体数字图像;
步骤S12:对读入图像的颜色空间进行转换,使之转换为单通道灰度图像;
步骤S13:根据预设的阈值对单通道灰度图像进行处理,获得能够反映出图像特征的二值图像;
步骤S14:将得到的二值图像批量进行高斯滤波去噪以去除图像中的黑色噪点,然后用投影法去掉黑色手写体数字周围多余的白色边界,得到无边界手写体数字图片并批量制作数据集,将得到的部分图片作为训练集;批量标注单证图像中手写数字信息区域各个数字的边框,标签类别分别标为0、1、2、3、4、5、6、7、8、9,数据集中的每一张图片都生成与其同名的xml文件,将图片和xml文件做成VOC数据集格式,并生成训练测试时需要用到的train.txt和test.txt文件;
步骤S15:扩充训练集的数据量,进行数据增强,以提升模型的泛化性和鲁棒性。
3.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,所述训练YOLOv3网络,用以检测和识别单证图像手写体数字信息区域具体包括以下步骤:
步骤S21:将经过批量标注的单证图像中手写数字信息区域图片作为YOLOv3网络的输入,在YOLOv3网络中,首先通过特征提取网络,输出N*N的卷积特征图,生成N*N个Girdcell,再经过预测层输出目标的类别和预测框坐标,其中预测框坐标(Zbx,Zby,Zbw,Zbh)的计算公式如下:
Zbx=σ(qx)+cx;
Zby=σ(qy)+cy;
式中,qx,qy,qw,qh为YOLOv3网络中每个预测框的中心点坐标与预测框的宽、高,cx,cy为预测框的中心点坐标所在Grid cell的坐标偏移量,pw,ph为预测前anchor的宽高;首先确定输入图像中物体目标中心坐标落在哪个Grid cell,然后根据该Grid cell来预测目标,YOLOv3中每个Grid cell有三个锚点框,在计算预测坐标Zbx,Zby,Zbw,Zbh的目标损失函数时,选择三个锚点框中置信度最高的来计算;其中目标类别损失Lcla(o,c)采用的是二值交叉熵损失,计算公式如下所示:
其中,
步骤S22:进行多尺度的特征图融合,加强算法对小目标检测的精确度,使得每个Gridcell可以预测更多的锚点框,并对每一个目标预测目标框的位置信息、置信度和类别概率;
步骤S23:使用多块GPU并行计算,以加快YOLO3网络的训练速度,采用模型剪枝方法针对已训练完成的权重参数进行排序,直接裁剪权重小的卷积层,并进行微调训练;
步骤S24:采用非极大值抑制的算法剔除冗余的、低于预设阈值的置信度的目标框;包括:先根据筛选前预测目标框中的概率得分对各个目标框进行排序,然后将得分最高的框与余下所有框做面积交并比IOU2的计算,IOU2小于预设阈值的目标框被认为是指向不同目标的目标框,将被保留下来,IOU2大于等于与预设阈值的目标框被认为是与该最高概率得分的目标框指向同一目标的目标框,将被抑制,循环判断直到余下所有框的IOU2值都小于预设的阈值。
4.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,所述训练卷积神经网络CNN,用以识别单个手写体数字具体包括以下步骤:
步骤S41:采用公开的手写体数字数据集进行处理,使输入的手写体数字图片的像素为28*28;
步骤S42:构建8层卷积神经网络CNN,其中前6层由卷积层和池化层交替,然后是全连接层,最后一层为softmax分类器;
步骤S43:将经过步骤S41处理后的手写数字数据集输入构建好的8层卷积神经网络模型CNN中进行训练得到单个手写数字识别网络模型。
5.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法,其特征在于,所述用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别具体包括以下步骤:
步骤S51:对读入的单证图像进行预处理;
步骤S52:使用训练好的YOLOv3网络对预处理之后的待识别单证图像数字信息区域中的手写数字进行检测和定位,并对手写数字类别进行初步识别;
步骤S53:将识别分类结果的精度显示在混淆矩阵里面,找出识别结果精度低于0.9的数字种类LB1,LB2,...LBm,并将识别结果为类别LB1,LB2,...LBm的矩形预测框的坐标输出,根据得到的坐标在待识别图像中截取相应矩形区域中的手写数字区域图片SZ1,SZ2,...SZn;
步骤S54:利用训练好的卷积神经网络模型CNN对单个手写数字区域图片SZ1,SZ2,...SZn进行重识别,将n个识别结果作为这n个手写体数字的识别结果输出;
步骤S55:整合上述步骤中得到的手写数字识别结果,并按照预测框左上角横坐标从小到大的顺序依次输出该预测框所对应的标签,作为待识别单证图像中数字信息区域的手写数字最终识别结果。
6.一种基于改进YOLOv3的单证图像中数字信息区域识别系统,其特征在于,包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,实现如权利要求1-5任一项所述的方法步骤。
7.一种计算机可读存储介质,其特征在于,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,实现如权利要求1-5任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011137363.1A CN112307919B (zh) | 2020-10-22 | 2020-10-22 | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011137363.1A CN112307919B (zh) | 2020-10-22 | 2020-10-22 | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307919A true CN112307919A (zh) | 2021-02-02 |
CN112307919B CN112307919B (zh) | 2023-03-24 |
Family
ID=74328476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011137363.1A Active CN112307919B (zh) | 2020-10-22 | 2020-10-22 | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307919B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883970A (zh) * | 2021-03-02 | 2021-06-01 | 湖南金烽信息科技有限公司 | 一种基于神经网络模型的数字识别方法 |
CN113647920A (zh) * | 2021-10-21 | 2021-11-16 | 青岛美迪康数字工程有限公司 | 读取监护设备中生命体征数据的方法及装置 |
CN113936277A (zh) * | 2021-09-14 | 2022-01-14 | 北京焦耳科技有限公司 | 一种手写姓名与学号的双模式识别方法、系统及介质 |
CN114241249A (zh) * | 2022-02-24 | 2022-03-25 | 北京猫猫狗狗科技有限公司 | 基于目标检测算法与卷积神经网络的图像分类方法和系统 |
CN116343212A (zh) * | 2023-05-18 | 2023-06-27 | 威海凯思信息科技有限公司 | 一种海关封识图像信息采集系统和方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153810A (zh) * | 2016-03-04 | 2017-09-12 | 中国矿业大学 | 一种基于深度学习的手写体数字识别方法及系统 |
US10528812B1 (en) * | 2019-01-29 | 2020-01-07 | Accenture Global Solutions Limited | Distributed and self-validating computer vision for dense object detection in digital images |
CN110751138A (zh) * | 2019-09-09 | 2020-02-04 | 浙江工业大学 | 一种基于yolov3和CNN的盘头标识识别方法 |
CN110796168A (zh) * | 2019-09-26 | 2020-02-14 | 江苏大学 | 一种基于改进YOLOv3的车辆检测方法 |
CN111768820A (zh) * | 2020-06-04 | 2020-10-13 | 上海森亿医疗科技有限公司 | 纸质病历数字化及目标检测模型训练方法、装置、存储介质 |
-
2020
- 2020-10-22 CN CN202011137363.1A patent/CN112307919B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153810A (zh) * | 2016-03-04 | 2017-09-12 | 中国矿业大学 | 一种基于深度学习的手写体数字识别方法及系统 |
US10528812B1 (en) * | 2019-01-29 | 2020-01-07 | Accenture Global Solutions Limited | Distributed and self-validating computer vision for dense object detection in digital images |
CN110751138A (zh) * | 2019-09-09 | 2020-02-04 | 浙江工业大学 | 一种基于yolov3和CNN的盘头标识识别方法 |
CN110796168A (zh) * | 2019-09-26 | 2020-02-14 | 江苏大学 | 一种基于改进YOLOv3的车辆检测方法 |
CN111768820A (zh) * | 2020-06-04 | 2020-10-13 | 上海森亿医疗科技有限公司 | 纸质病历数字化及目标检测模型训练方法、装置、存储介质 |
Non-Patent Citations (3)
Title |
---|
JUAN DU: ""Understanding of Object Detection Based on CNN Family and YOLO"", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 * |
徐颂民等: ""基于TensorFlow的CNN自由手写数字识别研究"", 《电脑知识与技术》 * |
鞠默然等: ""改进的 YOLOV3算法及其在小目标检测中的应用"", 《光学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883970A (zh) * | 2021-03-02 | 2021-06-01 | 湖南金烽信息科技有限公司 | 一种基于神经网络模型的数字识别方法 |
CN113936277A (zh) * | 2021-09-14 | 2022-01-14 | 北京焦耳科技有限公司 | 一种手写姓名与学号的双模式识别方法、系统及介质 |
CN113647920A (zh) * | 2021-10-21 | 2021-11-16 | 青岛美迪康数字工程有限公司 | 读取监护设备中生命体征数据的方法及装置 |
CN114241249A (zh) * | 2022-02-24 | 2022-03-25 | 北京猫猫狗狗科技有限公司 | 基于目标检测算法与卷积神经网络的图像分类方法和系统 |
CN114241249B (zh) * | 2022-02-24 | 2022-05-31 | 北京猫猫狗狗科技有限公司 | 基于目标检测算法与卷积神经网络的图像分类方法和系统 |
CN116343212A (zh) * | 2023-05-18 | 2023-06-27 | 威海凯思信息科技有限公司 | 一种海关封识图像信息采集系统和方法 |
CN116343212B (zh) * | 2023-05-18 | 2023-08-08 | 威海凯思信息科技有限公司 | 一种海关封识图像信息采集系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112307919B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307919B (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN111401372A (zh) | 一种扫描文档图文信息提取与鉴别的方法 | |
CN112232371B (zh) | 一种基于YOLOv3与文本识别的美式车牌识别方法 | |
US20200134382A1 (en) | Neural network training utilizing specialized loss functions | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112052845A (zh) | 图像识别方法、装置、设备及存储介质 | |
CN108681735A (zh) | 基于卷积神经网络深度学习模型的光学字符识别方法 | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN111626249B (zh) | 题目图像中几何图形的识别方法、装置和计算机存储介质 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN110991374B (zh) | 一种基于rcnn的指纹奇异点检测方法 | |
CN116188756A (zh) | 一种基于深度学习的仪表角度校正与示数识别方法 | |
CN115147418A (zh) | 缺陷检测模型的压缩训练方法和装置 | |
CN109902751B (zh) | 融合卷积神经网络和半字模板匹配的表盘数字字符识别法 | |
US11715288B2 (en) | Optical character recognition using specialized confidence functions | |
CN114882204A (zh) | 船名自动识别方法 | |
CN108268854B (zh) | 一种基于特征识别的教学辅助大数据智能分析方法 | |
CN118135584A (zh) | 一种基于深度学习的手写表单自动识别方法和系统 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN117437691A (zh) | 一种基于轻量化网络的实时多人异常行为识别方法及系统 | |
CN110766001B (zh) | 基于cnn和rnn的银行卡卡号定位与端到端识别方法 | |
US6694059B1 (en) | Robustness enhancement and evaluation of image information extraction | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
Singh et al. | A comprehensive survey on Bangla handwritten numeral recognition | |
CN116188755A (zh) | 一种基于深度学习的仪表角度校正与示数识别装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |