CN112307919B

CN112307919B - 一种基于改进YOLOv3的单证图像中数字信息区域识别方法

Info

Publication number: CN112307919B
Application number: CN202011137363.1A
Authority: CN
Inventors: 柯逍; 王俊强; 林艳
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-03-24
Anticipated expiration: 2040-10-22
Also published as: CN112307919A

Abstract

本发明涉及一种基于改进YOLOv3的单证图像中数字信息区域识别方法，包括步骤：获取手写数字图片，并对获取的手写数字图片集合进行预处理与标注，得到训练集；训练YOLOv3网络，用以检测和识别单证图像手写体数字信息区域；训练卷积神经网络CNN，用以识别单个手写体数字；用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别。本发明有效提升了复杂场景下单证图像中手写数字信息识别的准确率。

Description

一种基于改进YOLOv3的单证图像中数字信息区域识别方法

技术领域

本发明涉及图像识别技术领域，特别是一种基于改进YOLOv3的单证图像中数字信息区域识别方法。

背景技术

手写数字识别是日常生活和工业领域处理一些数据和信息的核心技术，比如：统计报表、财务报表、邮政编码、各种单证票据等等。手写体数字识别作为图像识别领域下的一个很重要的分支，同时也是模式识别下的一个传统研究领域，不仅具有重大的现实意义和应用价值，还有着极其关键的理论价值。在实际应用中尤其在金融领域对识别的精度有相当苛刻的要求，单个数字的正确与否就可能造成难以估量的损失。

在经典的模式识别中，一般是事先提取特征。提取诸多特征后，要对这些特征进行相关性分析，找到最能代表字符的特征，去掉对分类无关和自相关的特征。然而，这些特征的提取太过依赖人的经验和主观意识，提取到的特征的不同对分类性能影响很大，甚至提取的特征的顺序也会影响最后的分类性能。同时，图像预处理的好坏也会影响到提取的特征。

发明内容

有鉴于此，本发明的目的是提出一种基于改进YOLOv3的单证图像中数字信息区域识别方法，有效提升了复杂场景下单证图像中手写数字信息识别的准确率。

本发明采用以下方案实现：一种基于改进YOLOv3的单证图像中数字信息区域识别方法，具体包括以下步骤：

获取手写数字图片，并对获取的手写数字图片集合进行预处理与标注，得到训练集；

训练YOLOv3网络，用以检测和识别单证图像手写体数字信息区域；

训练卷积神经网络CNN，用以识别单个手写体数字；

用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别。

进一步地，所述对获取的手写数字图片集合进行预处理与标注，得到训练集具体包括以下步骤：

步骤S11：批量读入各类手写体数字图像；

步骤S12：对读入图像的颜色空间进行转换，使之转换为单通道灰度图像；

步骤S13：根据预设的阈值对单通道灰度图像进行处理，获得能够反映出图像特征的二值图像；

步骤S14：将得到的二值图像批量进行高斯滤波去噪以去除图像中的黑色噪点，然后用投影法去掉黑色手写体数字周围多余的白色边界，得到无边界手写体数字图片并批量制作数据集，将得到的部分图片作为训练集；批量标注单证图像中手写数字信息区域各个数字的边框，标签类别分别标为0、1、2、3、4、5、6、7、8、 9，数据集中的每一张图片都生成与其同名的xml文件，将图片和xml文件做成 VOC数据集格式，并生成训练测试时需要用到的train.txt和test.txt文件；

步骤S15：扩充训练集的数据量，进行数据增强，以提升模型的泛化性和鲁棒性。

进一步地，所述训练YOLOv3网络，用以检测和识别单证图像手写体数字信息区域具体包括以下步骤：

步骤S21：将经过批量标注的单证图像中手写数字信息区域图片作为YOLOv3 网络的输入，在YOLOv3网络中，首先通过特征提取网络，输出N*N的卷积特征图，生成N*N个Girdcell，再经过预测层输出目标的类别和预测框坐标，其中预测框坐标(Zb_x,Zb_y,Zb_w,Zb_h)的计算公式如下：

Zb_x＝σ(q_x)+c_x；

Zb_y＝σ(q_y)+c_y；

式中，q_x,q_y,q_w,q_h为YOLOv3网络中每个预测框的中心点坐标与预测框的宽、高，c_x,c_y为预测框的中心点坐标所在Gridcell的坐标偏移量，p^w，p^h为预测前anchor的宽高；首先确定输入图像中物体目标中心坐标落在哪个Gridcell，然后根据该Gridcell来预测目标，YOLOv3中每个Grid cell有三个锚点框，在计算预测坐标Zb_x,Zb_y,Zb_w,Zb_h的目标损失函数时，选择三个锚点框中置信度最高的来计算；其中目标类别损失L_cla(o，c)采用的是二值交叉熵损失，计算公式如下所示：

其中，

式中，o_ij∈{0，1}，表示预测目标边界框i是否存在目标，

表示网络预测目标边界框i内存在目标的Sigmoid概率，Pos表示坐标信息集合，cla表示类别信息集合；

步骤S22：进行多尺度的特征图融合，加强算法对小目标检测的精确度，使得每个Grid cell可以预测更多的锚点框，并对每一个目标预测目标框的位置信息、置信度和类别概率；

步骤S23：使用多块GPU并行计算，以加快YOLO3网络的训练速度，采用模型剪枝方法针对已训练完成的权重参数进行排序，直接裁剪权重小的卷积层，并进行微调训练；

步骤S24：采用非极大值抑制的算法剔除冗余的、低于预设阈值的置信度的目标框；包括：先根据筛选前预测目标框中的概率得分对各个目标框进行排序，然后将得分最高的框与余下所有框做面积交并比IOU2的计算，IOU2小于预设阈值的目标框被认为是指向不同目标的目标框，将被保留下来，IOU2大于等于与预设阈值的目标框被认为是与该最高概率得分的目标框指向同一目标的目标框，将被抑制，循环判断直到余下所有框的IOU2值都小于预设的阈值。

进一步地，所述训练卷积神经网络CNN，用以识别单个手写体数字具体包括以下步骤：

步骤S41：采用公开的手写体数字数据集进行处理，使输入的手写体数字图片的像素为28*28；

步骤S42：构建8层卷积神经网络CNN，其中前6层由卷积层和池化层交替，然后是全连接层，最后一层为softmax分类器；

步骤S43：将经过步骤S41处理后的手写数字数据集输入构建好的8层卷积神经网络模型CNN中进行训练得到单个手写数字识别网络模型。

进一步地，所述用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别具体包括以下步骤：

步骤S51：对读入的单证图像进行预处理；

步骤S52：使用训练好的YOLOv3网络对预处理之后的待识别单证图像数字信息区域中的手写数字进行检测和定位，并对手写数字类别进行初步识别；

步骤S53：将识别分类结果的精度显示在混淆矩阵里面，找出识别结果精度低于0.9的数字种类LB₁，LB₂，...LB_m，并将识别结果为类别LB₁，LB₂，...LB_m的矩形预测框的坐标输出，根据得到的坐标在待识别图像中截取相应矩形区域中的手写数字区域图片SZ₁，SZ₂，...SZ_n；

步骤S54：利用训练好的卷积神经网络模型CNN对单个手写数字区域图片 SZ₁，SZ₂，...SZ_n进行重识别，将n个识别结果作为这n个手写体数字的识别结果输出；

步骤S55：整合上述步骤中得到的手写数字识别结果，并按照预测框左上角横坐标从小到大的顺序依次输出该预测框所对应的标签，作为待识别单证图像中数字信息区域的手写数字最终识别结果。

本发明还提供了一种基于改进YOLOv3的单证图像中数字信息区域识别系统，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：

1、本发明构建的基于YOLOv3的单证图像数字信息区域识别方法能够有效解决在复杂场景，复杂特征物体下的特征提取的难题，充分发挥了深度学习方法提取特征的优势，能够不依赖人工的特征工程，从大量数据集中先学习简单的特征，再逐渐学习到更为复杂抽象的深层特征，完成不同类型单证图像中的手写数字信息区域的准确检测和识别。

2、本发明能够对图像质量较差的单证图像中的手写数字信息区域进行检测和识别，同时采用基于YOLOv3模型和基于卷积神经网络的单个字体识别模型对数字信息区域进行检测识别和重识别，有效提升了图像质量较差情况下手写数字识别的准确率。

3、本发明针对手写体数字识别中手写数字存在不规范性和多样性的问题，提出采用基于改进YOLOv3模型对单证图像中的手写数字信息区域进行检测定位和识别，相较于传统视觉方法，基于深度学习的手写体数字识别方法有更好的泛化性和鲁棒性。

4、本发明针对多层次、多参数神经网络在训练时消耗大量计算资源的问题，对基于Darknet框架的YOLOv3模型采用多尺度的特征图融合、网络剪枝、参数优化等改进方法，在保证手写数字检测识别精度的同时，极大提高了网络模型训练和测试的速度。

附图说明

图1为本发明实施例的YOLO3网络结构示意图。

图2为本发明实施例的神经网络CNN结构示意图。

图3为本发明实施例的方法流程示意图。

图4为本发明实施例的检测结果示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/ 或它们的组合。

如图3所示，本实施例提供了一种基于改进YOLOv3的单证图像中数字信息区域识别方法，具体包括以下步骤：

获取手写数字图片(本实施例收集800种书写风格不同的0、1、2、3、4、5、 6、7、8、9十类手写阿拉伯数字图片共8000张)，并对获取的手写数字图片集合进行预处理(对收集到的8000张图片进行二值化、去噪、归一化等预处理操作，批量制作)与标注，得到训练集；

训练卷积神经网络CNN，用以识别单个手写体数字；

较佳的，在本实施例中，搭建实际的系统平台，固定扫描仪位置，对书写在 A4纸上的手写体数字进行批量扫描读取，并保存为JPG格式，以此来获取图片样本。

在本实施例中，所述对获取的手写数字图片集合进行预处理与标注，得到训练集具体包括以下步骤：

步骤S11：批量读入各类手写体数字图像；

步骤S12：对读入图像的颜色空间进行转换，使之转换为单通道灰度图像；三通道RGB图像经过灰度化处理，变为单通道灰度图像的所用的公式为：

Y＝0.299×R+0.587×G+0.114×B；

式中，Y代表亮度，就是灰度值，R、G、B是图像中每一个像素的三个颜色分量；

步骤S13：根据预设的阈值对单通道灰度图像进行处理，获得能够反映出图像特征的二值图像；局部自适应阈值法的二值化阈值可变，像素的邻域块像素值的分布情况决定阈值的选取，自适应阈值算法将灰度图像变换为二值图像所用的公式：

式中，src(u,v)为原始值，dst(u,v)为输出值，T(u,v)为阈值，max_value是自适应灰度值；

步骤S15：扩充训练集的数据量，进行数据增强(采用旋转、裁剪、尺度变换等方法)，以提升模型的泛化性和鲁棒性。

在本实施例中，所述训练YOLOv3网络，用以检测和识别单证图像手写体数字信息区域具体包括以下步骤：

步骤S21：将经过批量标注的单证图像中手写数字信息区域图片作为YOLOv3 网络的输入，在YOLOv3网络(如图1所示，YOLOv3使用的特征提取网络是 DarkNet53，这个网络由残差单元叠加而成，其中，特征提取网络特征即图1中的 2.backbone和3.neck层，能够更好的进行特征提取，4.prediction即预测层)中，首先通过特征提取网络，输出N*N的卷积特征图，生成N*N个Gird cell，再经过预测层输出目标的类别和预测框坐标，其中预测框坐标(Zb_x,Zb_y,Zb_w,Zb_h)的计算公式如下：

Zb_x＝σ(q_x)+c_x；

Zb_y＝σ(q_y)+c_y；

式中，q_x,q_y,q_w,q_h为YOLOv3网络中每个预测框的中心点坐标与预测框的宽、高，c_x,c_y为预测框的中心点坐标所在Gridcell的坐标偏移量，p^w，p^h为预测前 anchor的宽高；首先确定输入图像中物体目标中心坐标落在哪个Grid cell，然后根据该Grid cell来预测目标，YOLOv3中每个Grid cell有三个锚点框，在计算预测坐标Zb_x,Zb_y,Zb_w,Zb_h的目标损失函数时，选择三个锚点框中置信度最高的来计算；其中目标类别损失L_cla(o，c)采用的是二值交叉熵损失，计算公式如下所示：

其中，

式中，o_ij∈{0，1}，表示预测目标边界框i是否存在目标，

表示网络预测目标边界框i内存在目标的Sigmoid概率，Pos表示位置坐标集合，cla表示类别集合；/>

步骤S22：进行多尺度的特征图融合，加强算法对小目标检测的精确度，使得每个Grid cell可以预测更多的锚点框，并对每一个目标预测目标框的位置信息、置信度和C个类别概率，C>1；

在本实施例中，所述训练卷积神经网络CNN，用以识别单个手写体数字具体包括以下步骤：

步骤S41：采用公开的手写体数字数据集(MINST)进行处理，使输入的手写体数字图片的像素为28*28；

步骤S42：构建8层卷积神经网络CNN(如图2所示)，其中前6层由卷积层和池化层交替，然后是全连接层，最后一层为softmax分类器；

在本实施例中，所述用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别具体包括以下步骤：

步骤S51：对读入的单证图像进行预处理，即进行灰度化、二值化、高斯滤波去噪等预处理操作；

步骤S55：整合上述步骤中得到的手写数字识别结果，并按照预测框左上角横坐标从小到大的顺序依次输出该预测框所对应的标签，作为待识别单证图像中数字信息区域的手写数字最终识别结果。相较于使用单一网络模型对手写数字进行识别的方法，基于卷积神经网络的重识别有效提升了复杂场景下单证图像中手写数字信息识别的准确率。

本实施例还提供了一种基于改进YOLOv3的单证图像中数字信息区域识别系统，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本实施例针对手写体数字识别中手写数字存在不规范性和多样性的问题，提出采用改进YOLOv3模型对单证图像中的手写数字信息区域进行检测定位和初步识别，并采用基于卷积神经网络的单个数字识别模型对单个数字进行重识别，相较于传统视觉方法，基于深度学习的手写体数字识别方法有更好的泛化性和鲁棒性。同时对基于Darknet框架的YOLOv3模型采用多尺度的特征图融合、网络剪枝、参数优化等改进方法，在保证手写数字检测识别精度的同时，极大提高了网络模型训练和测试的速度。图4为采用本实施例方法所得到的识别结果示意图，其中(a)、(b)与(c)为三组不同的数字，从图4可以看出，每个数字都被准确的识别出来。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/ 或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于改进YOLOv3的单证图像中数字信息区域识别方法，其特征在于，包括以下步骤：

训练卷积神经网络CNN，用以识别单个手写体数字；

用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别；

所述用训练好的YOLOv3网络和卷积神经网络模型CNN对单证图像中手写数字信息区域的进行检测识别和重识别具体包括以下步骤：

步骤S51：对读入的单证图像进行预处理；

步骤S54：利用训练好的卷积神经网络模型CNN对单个手写数字区域图片SZ₁，SZ₂，...SZ_n进行重识别，将n个识别结果作为这n个手写体数字的识别结果输出；

2.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法，其特征在于，所述对获取的手写数字图片集合进行预处理与标注，得到训练集具体包括以下步骤：

步骤S11：批量读入各类手写体数字图像；

步骤S14：将得到的二值图像批量进行高斯滤波去噪以去除图像中的黑色噪点，然后用投影法去掉黑色手写体数字周围多余的白色边界，得到无边界手写体数字图片并批量制作数据集，将得到的部分图片作为训练集；批量标注单证图像中手写数字信息区域各个数字的边框，标签类别分别标为0、1、2、3、4、5、6、7、8、9，数据集中的每一张图片都生成与其同名的xml文件，将图片和xml文件做成VOC数据集格式，并生成训练测试时需要用到的train.txt和test.txt文件；

3.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法，其特征在于，所述训练YOLOv3网络，用以检测和识别单证图像手写体数字信息区域具体包括以下步骤：

步骤S21：将经过批量标注的单证图像中手写数字信息区域图片作为YOLOv3网络的输入，在YOLOv3网络中，首先通过特征提取网络，输出N*N的卷积特征图，生成N*N个Girdcell，再经过预测层输出目标的类别和预测框坐标，其中预测框坐标(Zb_x,Zb_y,Zb_w,Zb_h)的计算公式如下：

Zb_x＝σ(q_x)+c_x；

Zb_y＝σ(q_y)+c_y；

式中，q_x,q_y,q_w,q_h为YOLOv3网络中每个预测框的中心点坐标与预测框的宽、高，c_x,c_y为预测框的中心点坐标所在Grid cell的坐标偏移量，p^w，p^h为预测前anchor的宽高；首先确定输入图像中物体目标中心坐标落在哪个Grid cell，然后根据该Grid cell来预测目标，YOLOv3中每个Grid cell有三个锚点框，在计算预测坐标Zb_x,Zb_y,Zb_w,Zb_h的目标损失函数时，选择三个锚点框中置信度最高的来计算；其中目标类别损失L_cla(o，c)采用的是二值交叉熵损失，计算公式如下所示：

其中，

式中，o_ij∈{0，1}，表示预测目标边界框i是否存在目标，

步骤S22：进行多尺度的特征图融合，加强算法对小目标检测的精确度，使得每个Gridcell可以预测更多的锚点框，并对每一个目标预测目标框的位置信息、置信度和类别概率；

步骤S24：采用非极大值抑制的算法剔除冗余的、低于预设阈值的置信度的目标框；包括：先根据筛选前预测目标框中的概率得分对各个目标框进行排序，然后将得分最高的框与余下所有框做面积交并比IOU2的计算，IOU2小于预设阈值的目标框被认为是指向不同目标的目标框，将被保留下来，IOU2大于等于与预设阈值的目标框被认为是与最高概率得分的目标框指向同一目标的目标框，将被抑制，循环判断直到余下所有框的IOU2值都小于预设的阈值。

4.根据权利要求1所述的一种基于改进YOLOv3的单证图像中数字信息区域识别方法，其特征在于，所述训练卷积神经网络CNN，用以识别单个手写体数字具体包括以下步骤：

5.一种基于改进YOLOv3的单证图像中数字信息区域识别系统，其特征在于，包括存储器、处理器以及存储在存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如权利要求1-4任一项所述的方法步骤。

6.一种计算机可读存储介质，其特征在于，其上存储有能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如权利要求1-4任一项所述的方法步骤。