CN110705488A

CN110705488A - 图像文字识别方法

Info

Publication number: CN110705488A
Application number: CN201910952417.0A
Authority: CN
Inventors: 黄威生
Original assignee: Guangzhou Pharmaceutical Information Technology Co Ltd
Current assignee: Guangzhou Pharmaceutical Information Technology Co Ltd
Priority date: 2019-10-09
Filing date: 2019-10-09
Publication date: 2020-01-17

Abstract

本发明公开了一种图像文字识别方法。方法包括输入待识别的图像，所述图像包括字符，二值化处理所述图像，其中，根据像素的邻域块的像素值分布确定所述像素位置上的二值化阈值；基于所述图像切割字符，水平投影所述图像以确定每一行的上界限和下界限，基于所述上界限和下界限行切割以获得行，垂直投影所述行以获得字符的左右边界，基于所述左右边界切割得到单个字符；读取字体库中的待识别文字的字符模型，切割的字符与字符模型对比得到识别结果，当字体库没有待识别文字的字符模型，读取训练数据以训练识别模型，将切割后的单个字符与训练得到的字符模型对比得到识别结果，读取待识别图像数据作为训练样本，基于反向传播神经网络训练得到字符模型。

Description

图像文字识别方法

技术领域

本发明涉及图像识别领域，特别是一种图像文字识别方法。

背景技术

图像文字识别，俗称光学字符识别，英文全称是Optical Character Recognition(简称OCR)，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；它是利用光学技术和计算机技术把印在或电子图像上的文字读取出来，并转换成一种计算机能够接受、人又可以理解的格式的技术。针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。它是计算机视觉研究领域的分支之一，归属于模式识别和人工智能，是计算机科学的重要组成部分。

当前国内票据以简体中文展示为主，由于汉字具有结构复杂、字符集巨大、字符间相似度高、字体风格变化多样等特点,其定位和识别相对于英文、数字字符具有更高的难度，直接导致传统的图像文字识别对中文支持不友好，对倾斜、模糊等字体识别成功率低，不能满足国内大部分的识别需求。

此外，票据图像的自身因素，也会导致识别成功率低，如：票面不整导致图像轮廓不全、光照不均匀导致图像光暗不齐、图像没摆正等。

有必要针对以上所述场景，提高票据图像文字识别的精度、成功率以及识别速度。

发明内容

本发明人等为了达成上述目的而进行了深入研究，具体而言，本发明提供了一种图像文字识别方法，图像文字识别方法步骤包括:

在第一步骤中：输入待识别的图像，所述图像包括字符，二值化处理所述图像，其中，根据像素的邻域块的像素值分布确定所述像素位置上的二值化阈值；

在第二步骤中：基于所述图像切割字符，水平投影所述图像以确定每一行的上界限和下界限，基于所述上界限和下界限行切割以获得行，垂直投影所述行以获得字符的左右边界，基于所述左右边界切割得到单个字符；

在第三步骤中：读取字体库中的待识别文字的字符模型，切割的字符与字符模型对比得到识别结果，当字体库没有待识别文字的字符模型，读取训练数据以训练识别模型，将切割后的单个字符与训练得到的字符模型对比得到识别结果，其中，读取待识别图像数据作为训练样本，基于反向传播神经网络训练得到字符模型。

所述的图像文字识别方法中，所述反向传播神经网络训练包括以下步骤，输入矢量从输入层正向传播到隐藏层，然后再传播到输出层；每个输出神经元的期望输出和实际输出计算出一个误差值；通过网络的权重，将误差值从输出神经元反向传播到隐藏层，再传播到输入层；根据误差调整参数值，不断迭代上述过程，直至收敛。

所述的图像文字识别方法中，在第二步骤，切割字符之前，基于图像梯度进行轮廓提取，按照长宽皆最大的轮廓获得最外围的图像轮廓，根据所述图像轮廓判定正向位置，透视仿射变换截除多余的图像部分以校正图像。

所述的图像文字识别方法中，在第一步骤中，输入待识别的图像后，判断所述图像的格式，如非预定的格式，则格式转换，使用最大值法将所述图像中的三分量亮度的最大值作为灰度图的灰度值灰化所述图像。

所述的图像文字识别方法中，在第一步骤中，所述像素值分布包括局部邻域块的均值和局部邻域块的高斯加权和。

所述的图像文字识别方法中，在第二步骤中，基于图像梯度进行轮廓提取前，基于小波域的小波阈值去噪处理已经进行二值化的图像，基于设定的检测阈值检测降噪后的图像的边缘，基于图像梯度对所检测的边缘进行轮廓提取。

所述的图像文字识别方法中，在第一步骤中，生成和输入待识别的图像，所述字符包括中文、数字或字母。

所述的图像文字识别方法中，在第三步骤中，读取字体库时，判断字体库索引是否存在待识别文字的字符模型字码，基于反向传播神经网络和Levenberg Marquardt算法训练得到字符模型。

所述的图像文字识别方法中，在第三步骤中，保存所述训练得到的字符模型包括：如已存在字体库，则保存模型到新字体库并合并新旧字体库；如不存在于字体库，则直接保存模型到字体库。

所述的图像文字识别方法中，基于指定位置确定待识别区域，基于所述待识别区域的图像切割字符和对比识别。

发明的效果

本发明针对简体中文环境下的打印体票据文字识别，图像文字可覆盖常用简体中文、数字、英文字符。根据本发明的图像文字识别方法，在原始图像中对先进行灰化后再使用局部自适应阈值法将图像进行二值化处理，同时进行降噪、倾斜校正等处理，可有效降低字符由于环境因素导致的切割不匀等影响，提高字符的切割准确率和成功率。同时，也可以使用参数专门指定图像的某一个区域进行识别，这样可以减少其他不必要区域对识别的影响，也能提供识别的效率，同时可改善图像不整齐、图像倾斜等环境下的识别效果。

上述说明仅是本发明技术方案的概述，为了能够使得本发明的技术手段更加清楚明白，达到本领域技术人员可依照说明书的内容予以实施的程度，并且为了能够让本发明的上述和其它目的、特征和优点能够更明显易懂，下面以本发明的具体实施方式进行举例说明。

附图说明

图1示出了本发明的一个实施例的图像文字识别方法的步骤示意图。

图2示出了本发明的一个实施例的图像文字识别方法的流程图。

图3示出了本发明的一个实施例的图像文字识别方法的图像图。

图4示出了本发明的一个实施例的图像文字识别方法的灰化图像图。

图5示出了本发明的一个实施例的图像文字识别方法的二值化的图像图。

图6示出了本发明的一个实施例的图像文字识别方法的倾斜校正的图像图。

图7示出了本发明的一个实施例的图像文字识别方法的提前第一行的结果图。

图8示出了本发明的一个实施例的图像文字识别方法的提出第一行第一列字符的结果图。

图9示出了本发明的一个实施例的图像文字识别方法的字符切割流程图。

图10示出了本发明的一个实施例的图像文字识别方法的训练新的字符模型的流程图。

图11示出了本发明的一个实施例的图像文字识别方法的字符识别流程图。

图12示出了本发明的一个实施例的图像文字识别方法的Levenberg Marquardt算法执行阶段图。

具体实施方式

下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个附图并不构成对本发明实施例的限定。

具体而言，如图1所示的本发明的图像文字识别方法的步骤示意图，图像文字识别方法步骤包括:

在第一步骤S1中：输入待识别的图像，所述图像包括字符，二值化处理所述图像，其中，根据像素的邻域块的像素值分布确定所述像素位置上的二值化阈值；

在第二步骤S2中：基于所述图像切割字符，水平投影所述图像以确定每一行的上界限和下界限，基于所述上界限和下界限行切割以获得行，垂直投影所述行以获得字符的左右边界，基于所述左右边界切割得到单个字符；

在第三步骤S3中：读取字体库中的待识别文字的字符模型，切割的字符与字符模型对比得到识别结果，当字体库没有待识别文字的字符模型，读取训练数据以训练识别模型，将切割后的单个字符与训练得到的字符模型对比得到识别结果，其中，读取待识别图像数据作为训练样本，基于反向传播神经网络训练得到字符模型。

为了进一步理解本发明，在一个实施例中，如图2所示，识别方法包括以下步骤：

步骤1：图像输入；

步骤2：灰化、二值化、降噪；

步骤3：边缘检测；

步骤4：轮廓提取；

步骤5：切斜校正；

步骤6：字符切割；

步骤7：识别指定区域文字内容。

对于含有简体中文的票据图像，同时也可以识别包含数字、英文字母的字符。此外，对于票据图像显示不整齐、光暗不一、倾斜等情况，本发明能有效地提供识别的成功率。

需要说明的是，本发明的文字识别方法能广泛应用于各种票据图像的文字识别。如图3所示，本发明使用增值税发票图像进行阐述，只是为了方便加以说明。

一些实施例中，所述步骤2，对所述对图像进行灰化，包括：

使用最大值法，将彩色图像中的三分量亮度的最大值作为灰度图的灰度值，将图像灰化。

步骤2中采用最大值法进行灰化处理，这种方法的最大好处是，转换后的灰度图亮度很高，如图4；

公式为：

一些实施例中，所述步骤2，对所述对图像进行二值化，包括：

使用局部自适应阈值法，对已经进行灰化的图像进行二值化处理。

步骤2中采用局部自适应阈值法进行二值化处理，如图5，原因在于每个像素位置处的二值化阈值不是固定不变的，而是由其周围邻域像素的分布来决定的。

亮度较高的图像区域的二值化阈值通常会较高，而亮度较低的图像区域的二值化阈值则会相适应地变小。

不同亮度、对比度、纹理的局部图像区域将会拥有相对应的局部二值化阈值。

一些实施例中，所述局部自适应阈值法，包括：

根据像素的邻域块的像素值分布来确定该像素位置上的二值化阈值；

局部自适应阈值有：局部邻域块的均值和局部邻域块的高斯加权和。

一些实施例中，所述步骤2，对所述对图像进行降噪，包括：

使用基于小波域的小波阈值去噪算法，对已经进行二值化的图像进行降噪处理。

步骤2中采用小波阈值去噪算法，是因为噪声经过小波变换，在小波阈仍然表现为很强的随机性，导致有效信号对应的系数很大，而噪声对应的系数很小；

小波阈值去噪过程：原始信号通过小波分解得到各尺度系数，进行阈值处理后，小波重构得到去噪后的信号。

一些实施例中，所述步骤3，对所述对图像进行边缘检测，包括：

设定检测阈值，采用Canny算法检测降噪后的图像的边缘，并进一步去除噪声。

一些实施例中，所述步骤4，对所述对图像进行轮廓提取，包括：

使用图像梯度算法对边缘检测的结果进行轮廓提取，寻找长宽皆最大的轮廓，得到最外围的图像轮廓。

一些实施例中，所述步骤5，对所述对图像进行倾斜校正，包括：

根据图像最外围的轮廓，判定票据的正向位置，使用透视仿射变换截除多余的图像部分从而将票据图像摆正，如图6。

一些实施例中，所述步骤6，对所述对图像进行字符切割，包括：

根据字符切割规则，对切斜校正后的图像进行水平投影，找到每一行的上界限和下界限，进行行切割；

对切割出来的每一行，进行垂直投影，找到每一个字符的左右边界，进行单个字符的切割；

步骤6的字符切割，也就是对增值税发票图像字符进行切割，按步骤可分为行切割如图7所示及列切割如图8所示。

字符切割的目是将图像上的字符信息切割为单个字符，然后送入识别模型进行字符的识别。所以字符切割的准确率将直接影响到下一步的字符识别。

本发明创新性地在原始图像中对先进行灰化后再使用局部自适应阈值法将图像进行二值化处理，同时进行降噪、倾斜校正等处理，可有效降低字符由于环境因素导致的切割不匀等影响，提高字符的切割准确率和成功率。同时，也可以使用参数专门指定图像的某一个区域进行识别，这样可以减少其他不必要区域对识别的影响，也能提供识别的效率。

图9 展示了本发明字符切割的流程。

一些实施例中，所述步骤7，对所述对图像进行文字识别，包括：

如有指定位置，获取指定位置的长方形区域；如无指定位置，则识别图像的全部文字；

读取字体库，判断字体库索引是否存在待识别文字的字符模型字码；

如存在，则进行文字识别；

如不存在，则需要为字体库训练新的字符模型后进行文字识别；

一些实施例中，所述训练新的字符模型，包括：

为减少训练误差，本发明使用高效的反向传播神经网络训练方法结合LevenbergMarquardt算法进行训练；

读取待识别图像数据作为训练样本，对初次识别结果进行判断；

如达到识别目标，则保存训练得到的字符模型；

如未达到目标，则进一步对识别训练参数进行调整，直至达到识别目标，然后保存训练得到的字符模型；

一些实施例中，所述反向传播神经网络训练方法，包括：

将一个输入矢量应用于网络，并从输入层正向传播到隐藏层，然后再传播到输出层；

使用网络中每个输出神经元的期望输出和实际输出计算出一个误差值；

通过网络的权重，将误差值从输出神经元反向传播到隐藏层，再传播到输入层；

根据误差调整各种参数的值，不断迭代上述过程，直至收敛。

图10展示了训练新的字符模型流程，具体步骤如下：

步骤1：首先需要检测当前系统内是否已经存在字符识别模型，如果存在，则直接执行步骤7，读取字符模型；

步骤2：如果步骤1中不存在识别模型，则需要读取训练数据，训练识别模型；如果存在，则执行步骤7，直接读取已经存在的字符识别模型；

步骤3：使用反向传播结合Levenberg Marquardt算法进行训练，同时测试训练的结果；

步骤4：判断训练结果是否满足识别需求，如果满足，则执行步骤6，保存字符识别模型；如果不满足，则执行步骤5，调整训练参数，然后继续执行训练流程；

步骤5：调整训练参数，继续执行训练流程；

步骤6：保存字符识别模型到指定位置；

步骤7：读取字符识别模型。

本发明的重要创新之一是可以根据区域参数，指定具体的图像识别区域，这样可以大大地提高识别的成功率和效率。

图11展示了字符识别的流程，具体步骤如下：

步骤1：扫描指定位置的字体库文件，作为识别的匹配模型。模型的生成，已经在图9进行说明；

步骤2：读取图像字符的切割结果。切割结果的生成，已经在图8进行说明；

步骤3：判断是否有指定识别的区域，如果有则执行步骤4，根据区域参数获取该区域的长方形区域的字符切割结果；如果没有则执行步骤5，读取图像的全部字符切割结果；

步骤6：根据步骤1中读取的字体库，载入全部字符模型；

步骤7：将切割后的单个字符，与字符模型对比，得到识别结果。

一些实施例中，所述保存训练得到的字符模型，包括：

如已存在字体库，则需要保存模型到新字体库并合并新旧字体库；

如不存在字体库，则直接保存模型到字体库作为识别系统字体库。

一些实施例中，所述的反向传播结合Levenberg Marquardt算法进行神经网络训练，详细说明如下：

一个从输入到输出的函数，这里表示为M(Zp, W)，其中输入就是Zp，表示第p个输入样本。

W就是模型可以学习的参数，神经网络里面就是两层之间的连接权重；

基于梯度学习的多层网络最简单的形式就是迭代一个模块，每个模块就是模型的一层。

这个模块可以表示为下面的函数：Xn=Fn(Wn, Xn-1)。这就是神经网络中著名的前向传播过程。向量Xn-1输入到这个模块Fn中，然后输出向量Xn。这个模型可以表示了一个可调参数的向量Wn。

如果网络的误差Ep对Xn的导数是可以知道的，那么Ep对Wn和Xn-1的导数就可以通过反向传播得到：

算式中，∂F(Wn,Xn-1)/∂W是F关于W在点(Wn, Xn-1)上的Jacobian雅可比行列式。

一个矢量函数的Jacobian是一个矩阵，矩阵元素是所有的输出关于所有的输入的空间导数。

如果上面的公式从第N层逆序应用到第一层，那么代价函数对网络所有的参数的导数都可以得到。

Wn是一个矩阵，列的数目和Xn-1的维度一致，行数和Xn的维度一致。F是一个矢量函数，对输入的每个元素计算sigmoid函数。Yn是一个向量，每个元素是第n层所有输入的加权和。

由于本发明所使用测试数据较大，包含全部常用简体中文字符、数字、英文字母的字体图像，数据量达到接近10G，一般常用的训练算法无法驱动这么庞大的训练，所以本发明采用Levenberg Marquardt算法进行。

LM算法Levenberg Marquardt是介于牛顿法与梯度下降法之间的一种非线性优化方法，对于过参数化问题不敏感，能有效处理冗余参数问题，使代价函数陷入局部极小值的机会大大减小。

它是使用最广泛的非线性最小二乘算法，解决最小二乘曲线拟合问题：给定一组m独立变量和因变量的经验数据对，找到模型曲线的参数，使得偏差的平方和最小化：

图12所示为本发明执行训练时LM算法迭代的过程，算法从执行开始不断迭代。可以看到，它的寻优速度是比较快的，在执行中段部分直接利用梯度大幅度提升，快到最最大值时经过几次尝试，最后达到最大值点，算法终止。

本发明所述的图像文字识别方法的优选实施方式中，所述反向传播神经网络训练包括以下步骤，输入矢量从输入层正向传播到隐藏层，然后再传播到输出层；每个输出神经元的期望输出和实际输出计算出一个误差值；通过网络的权重，将误差值从输出神经元反向传播到隐藏层，再传播到输入层；根据误差调整参数值，不断迭代上述过程，直至收敛。

本发明所述的图像文字识别方法的优选实施方式中，在第二步骤S2中，切割字符之前，基于图像梯度进行轮廓提取，按照长宽皆最大的轮廓获得最外围的图像轮廓，根据所述图像轮廓判定正向位置，透视仿射变换截除多余的图像部分以校正图像。

本发明所述的图像文字识别方法的优选实施方式中，在第一步骤S1中，输入待识别的图像后，判断所述图像的格式，如非预定的格式，则格式转换，使用最大值法将所述图像中的三分量亮度的最大值作为灰度图的灰度值灰化所述图像。

本发明所述的图像文字识别方法的优选实施方式中，在第一步骤S1中，所述像素值分布包括局部邻域块的均值和局部邻域块的高斯加权和。

本发明所述的图像文字识别方法的优选实施方式中，在第二步骤S2中，基于图像梯度进行轮廓提取前，基于小波域的小波阈值去噪处理已经进行二值化的图像，基于设定的检测阈值检测降噪后的图像的边缘，基于图像梯度对所检测的边缘进行轮廓提取。

本发明所述的图像文字识别方法的优选实施方式中，在第一步骤S1中，生成和输入待识别的图像，所述字符包括中文、数字或字母。

本发明所述的图像文字识别方法的优选实施方式中，在第三步骤S3中，读取字体库时，判断字体库索引是否存在待识别文字的字符模型字码，基于反向传播神经网络和Levenberg Marquardt算法训练得到字符模型。

本发明所述的图像文字识别方法的优选实施方式中，在第三步骤S3中，保存所述训练得到的字符模型包括：如已存在字体库，则保存模型到新字体库并合并新旧字体库；如不存在于字体库，则直接保存模型到字体库。

本发明所述的图像文字识别方法的优选实施方式中，基于指定位置确定待识别区域，基于所述待识别区域的图像切割字符和对比识别。

本发明可以根据特定的票据，设定不同参数识别指定区域的文字内容。本方法对票据轮廓及文字的校正，同时针对不同的票据字体训练生成不同的字体库，可大大提高在票据图像倾斜或不整齐的情况下的识别成功率。

工业实用性

本发明的图像文字识别方法可以在图像识别领域使用。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

Claims

1.一种图像文字识别方法，其步骤包括：

在第一步骤（S1）中：输入待识别的图像，所述图像包括字符，二值化处理所述图像，其中，根据像素的邻域块的像素值分布确定所述像素位置上的二值化阈值；

在第二步骤（S2）中：基于所述图像切割字符，水平投影所述图像以确定每一行的上界限和下界限，基于所述上界限和下界限行切割以获得行，垂直投影所述行以获得字符的左右边界，基于所述左右边界切割得到单个字符；

在第三步骤（S3）中：读取字体库中的待识别文字的字符模型，切割的字符与字符模型对比得到识别结果，当字体库没有待识别文字的字符模型，读取训练数据以训练识别模型，将切割后的单个字符与训练得到的字符模型对比得到识别结果，其中，读取待识别图像数据作为训练样本，基于反向传播神经网络训练得到字符模型。

2.根据权利要求1所述的图像文字识别方法，其特征在于：所述反向传播神经网络训练包括以下步骤，输入矢量从输入层正向传播到隐藏层，然后再传播到输出层；每个输出神经元的期望输出和实际输出计算出一个误差值；通过网络的权重，将误差值从输出神经元反向传播到隐藏层，再传播到输入层；根据误差调整参数值，不断迭代上述过程，直至收敛。

3.根据权利要求1所述的图像文字识别方法，其特征在于：在第二步骤（S2）中，切割字符之前，基于图像梯度进行轮廓提取，按照长宽皆最大的轮廓获得最外围的图像轮廓，根据所述图像轮廓判定正向位置，透视仿射变换截除多余的图像部分以校正图像。

4.根据权利要求1所述的图像文字识别方法，其特征在于：在第一步骤（S1）中，输入待识别的图像后，判断所述图像的格式，如非预定的格式，则格式转换，使用最大值法将所述图像中的三分量亮度的最大值作为灰度图的灰度值灰化所述图像。

5.根据权利要求1所述的图像文字识别方法，其特征在于：在第一步骤（S1）中，所述像素值分布包括局部邻域块的均值和局部邻域块的高斯加权和。

6.根据权利要求3所述的图像文字识别方法，其特征在于：在第二步骤（S2）中，基于图像梯度进行轮廓提取前，基于小波域的小波阈值去噪处理已经进行二值化的图像，基于设定的检测阈值检测降噪后的图像的边缘，基于图像梯度对所检测的边缘进行轮廓提取。

7.根据权利要求1所述的图像文字识别方法，其特征在于：在第一步骤（S1）中，生成和输入待识别的图像，所述字符包括中文、数字或字母。

8.根据权利要求1所述的图像文字识别方法，其特征在于：在第三步骤（S3）中，读取字体库时，判断字体库索引是否存在待识别文字的字符模型字码，基于反向传播神经网络和Levenberg Marquardt算法训练得到字符模型。

9.根据权利要求1所述的图像文字识别方法，其特征在于：在第三步骤（S3）中，保存所述训练得到的字符模型包括：如已存在字体库，则保存模型到新字体库并合并新旧字体库；如不存在于字体库，则直接保存模型到字体库。

10.根据权利要求1所述的图像文字识别方法，其特征在于：基于指定位置确定待识别区域，基于所述待识别区域的图像切割字符和对比识别。