CN106611174A

CN106611174A - 一种非常见字体的ocr识别方法

Info

Publication number: CN106611174A
Application number: CN201611250737.4A
Authority: CN
Inventors: 景亮; 刘世林; 康青杨; 唐涔轩
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-03

Abstract

本发明涉及图像识别处理领域，特别涉及一种非常见字体的OCR识别方法；根据需要识别的图像文字仅需构造少量的特征模板，基于投影法实现字符的切分，在字符切分的基础上结合特征模板，进行识别，无反复训练模型；就可以实现各种特殊字体文字图像的较好的识别效果。本发明方法针对OCR识别的主要困难：字符切分，采用了一套独特的切分方法：使用相应的规则条件，逐级的来判断切分后的子图片的切分质量，并对切分后的子图片进行相应的处理，层层筛选和处理的方式，保证子图片的切分质量，为识别准备了条件；在切分的基础上结合针对性的特征模板，进行识别。本发明方法对于识别任务的图像文字的针对性很强，因而能够达到更好的识别效果。

Description

一种非常见字体的OCR识别方法

技术领域

本发明图像识别领域，特别涉及一种非常见字体的OCR识别方法。

背景技术

随着社会的发展和科技的进步，人类创造的知识正以指数级的数量增加，在电子书籍出现之前，大部分的知识是以图书的方式进行传承，中华上下五千年，产生了大量优秀书籍，这些书籍在历史的长河中，或多或少都遭到了不同程度的损坏，因此对这些书籍进行数字化存储迫在眉睫；在图书管理领域，书籍内容的快速搜索对于快速定位书籍很有帮助，而由于书籍数量太多，加上早期印刷的图书没有作者的电子文稿，因此纸质书籍的电子化很有必要。

光学字符识别软件就是处理这种纸质图书到电子文档转化的利器，其主要利用大量的字符样本，经过复杂网络的学习，生成相应的模型文件，从而达到识别图片中字符的目的。

光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，现有技术中在进行图像中文字的识别时，首先需要将图像中的字符串切分开，形成包含单个文字的小图片，然后使用一定的方法对切分后的文字进行识别。而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影法找到两个文字之间的分界线，根据分界线将文字切分开来。然而当图像中的文字之间具有粘连，且图像中包含左右结构的汉字时，简单的投影方法就很难实现较好的切分效果；正是因为这个原因使得切分一直是OCR识别的难点，切分的质量将直接影响到文字的识别效果。

此外光学字符识别软件主要功能是识别拍摄、扫描图片中的字符，对于一些特殊字体的扫描件，公章，拍照，比如早期印刷的书籍，政府单位制作的证件等，由于历史原因以及保密与安全需要，其字体往往是特制的，现有的光学字符识别软件主要集中于机器学习的方法，模型运算量大，而且由于训练字体样本没有覆盖到特殊字体，导致特殊字体的识别准确率不高，严重影响纸质文档的电子化。

现有技术大多采用神经网络机器学习算法对字符进行识别，需要制作大量的样本，耗费大量的时间进行训练，且生成的模型文件非常庞大，且对于不同字体的字符，识别率不尽相同，对于某些特殊字体字符，识别率比较低，很难满足一些特殊场景下的字符识别。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种非常见字体的OCR识别方法，在对待识别图像文字进行有效切分的基础上，结合针对性的字符特征模板实现特殊字体准确识别。

为了实现上述发明目的，本发明提供了以下技术方案：一种非常见字体的OCR识别方法，包含以下实现步骤：

(1)根据待识别图像文字的字体，制作出对应的字符特征模板；

(2)对待处理图像中的字符进行切分，切分成各个仅包含单个字符的子图片；

(3)对切分后形成的子图片中的字符进行特征模板匹配，进而实现字符内容的识别。

具体的，所述步骤(1)包含以下实现步骤：

(1-1)对待识别图像文字进行行、列垂直投影，将其中的数字、字母和标点字符首先切分出来，形成对应的子图片；

(1-2)在每个数字、字母和标点对应的子图片中选择一张子图片，将子图中的字符，分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片，并对制成的特征图片进行对应的标注；

(1-3)根据待识别图像选择对应字体，生成样本图片；对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片；并对制成的特征图片进行对应的标注。

进一步的，所述步骤(2)中，使用投影法对数字、字母和标点以外的文字字符图片进行切分。

进一步的，文字字符图片的切分包含以下实现过程：

使用投影法找出文字字符图片的初始切分位置，根据初始切分位置将待识别图像片切分成初始子图片序列；

对序列中的初始子图片使用如下规则进行处理：

A、使用投影法待识别图像文字进行切分，切分成子图片序列；将其中的数字、字母和标点符号标记出来；

B、对未标记的子图片进行判断：是否满足L≤M*h，L为子图片字符投影的宽度，M为系数，h为行高；

对于不满足条件的子图片进行切分，切分位置根据以下公式进行确定：

f(x)＝g(x)t(x)

重复执行步骤B，直到序列中未标记的子图片均满足条件：L≤M*h；

C、对于序列中数字、字母和标点字图片以外的相邻两子图片的总宽度进行判断：是否满足L_合≤M*h；

如果满足，依序对满足条件的相邻子图片进行合并；

重复执行步骤C直到除数字、字母和标点以外的相邻子图片总宽度均不满足L_合≤M*h；

D、对序列中未标记的子图片进行判断：如果序列中存在三个相邻的子图片，且三个子图片满足：第一子图片和第三子图片的宽度L≤0.5h，且中间子图片的宽度L≥h，则将中间子图片根据公式：

f(x)＝g(x)t(x)

所确定的切分点进行切分；根据确定的切分点，将中间子图片切分成第一中间子图片和第二中间子图片；

将第一子图片和第一中间子图片合并；

将第二中间子图片和第三子图片合并。

进一步的，0.9≤M≤1.3。

作为一种优选：M＝1.2。

进一步的，(3-1)提取数字、字母和标点的子图片的对应直方图特征与所述步骤(1-2)中所建立的数字、字母和标点的特征模板的直方图特征进行比对；得到对应的识别结果；

(3-2)提取切分好后的文字字符子图片的对应直方图特征与所述步骤(1-3)中所建立的文字字符的特征图片的直方图特征进行比对，识别出对应子图片对应的文字。

进一步的，所述步骤(3-1)和，或(3-2)中采用K近邻算法找出与待识别字符距离最小的前K个样本特征模板，统计出现次数最多样本模板，其对应的字符标签即为字符的识别结果。

进一步的，K＝9。

与现有技术相比，本发明的有益效果：本发明提供一种非常见字体的OCR识别方法，根据需要识别的图像文字仅需构造少量的特征模板，无反复训练模型；就可以实现各种特殊字体文字图像的较好的识别效果；本发明方法对于识别任务的图像文字的针对性很强，因而能够达到更好的识别效果；并且，本发明方法针对OCR识别的主要困难：字符切分，采用了一套独特的切分方法：使用相应的规则条件，逐级的来判断切分后的子图片的切分质量，并对切分后的子图片进行相应的处理，层层筛选和处理的方式，保证子图片的切分质量；为最终的识别率，进一步准备了条件。

此外相比于传统的切分方法，本发明方法在幅值的基础上引入了修正值，将切分位置与字符边缘的距离作为了确定切分点的考虑因素，因此具有更高的准确性，而且当遇到特殊结构字符时出现多个较小值，或者极值点时，通过本公式可以快速的找出最优化的切分点，增加了切分的准确性，提高了切分的效率；对粘连字符的切分效果更好。

附图说明：

图1为本一种非常见字体的OCR识别方法的实现步骤图。

图2为本发明方法步骤(1)的实现过程图。

图3为数字模板的制作示意图。

图4为文字模板的制作示意图。

图5粘连文字图像样例图。

图6为修正值g(x)的分布示意图。

图7为图5中字符的幅值分布示意图。

图8为实施例1中待识别图片的样例。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明方法提供一种非常见字体的OCR识别方法，包含如图1所示的以下实现步骤：

(3)对切分后形成的子图片中的字符进行特征模板匹配，进而实现字符内容的识别。本发明方法根据待识别图像文字的字体，构造对应特征模板，具有更强的针对性，对于生僻字体的文字图像同样适用。

具体的，所述步骤(1)包含如图2所示的以下实现步骤：

(1-1)对待识别图像文字进行行、列垂直投影，将其中的数字、字母和标点字符切分出来，形成对应的子图片；由于数字，字母和标点相对于普通的文字字符来说具有明显的特征，比如说投影的宽度较窄(比如设置为＜0.4h)，投影的面积较小(0.5h*0.8h)，切割后形成的相邻子图片之间的距离明显大于普通字符图片的距离等，利用上述特征，可以首先将属于数字、字母和标点的子图片切分出来。

(1-2)在每个数字、字母和标点对应的子图片中选择一张子图片，将子图中的字符，分别向上、下、左、右、左上、左下、右上和右下移动设定距离l(距离l的设置范围根据实际应用的情况而设定)，如图3所示，制成对应的特征图片，并对制成的特征图片进行对应的标注。

(1-3)选取接近待识别图像文字的字体，生成样本图片；对样本图片中的字符分别向上、下、左、右、左上、左下、右上和右下移动设定距离l，制成对应的特征图片；并对制成的特征图片进行对应的标注。将模板中的字符分别移动设定的距离，超过子图片框范围的字符部分将被切除，向上述方向移动设局距离后形成的图片和原图片一起构成了同一字符的9张不同切分情形的参考样本图片如图4所示，这与实际操作中字符图片切分可能不规则，不完美的情况相对应，因此基于本方法形成的特征模板来实现的字符识别，具有更好的容错性。

进一步的，所述步骤(2)中，使用投影法对数字、字母和标点以外的文字字符图片进行切分。投影法实现的图像文字切分技术成熟，操作简单。

进一步的，文字字符图片的切分包含以下实现过程：

对序列中的初始子图片使用如下规则进行处理：

f(x)＝g(x)t(x)

重复执行步骤B，直到序列中未标记的子图片均满足条件：L≤M*h。

式中f(x)为幅值，x为列投影点在行方向上的坐标，h为当前字符的行高，g(x)为修正值，g(x)的值的分布如图6所示，t(x)为行投影值，两者共同决定投影点的幅值，当幅值最小时，即为两个字符之间的切割点；经过g(x)的修正所找到最小幅值点作为切分点，相比于简单的最小行投影值，本方法方法中所寻找的切分点，引入了切分点位置与字符边缘距离的考量因素，因此具有更高的准确性，而且当遇到特殊结构字符时出现多个较小值(本样例中的幅值分布如图7所示)，或者极值点时，通过本公式可以快速的找出最优化的切分点，增加了切分的准确性，提高了切分的效率。

如果满足，依序对满足条件的相邻子图片进行合并；

f(x)＝g(x)t(x)

将第一子图片和第一中间子图片合并：

将第二中间子图片和第三子图片合并。

在某些情况下：连续的两个左右结构的字符图片，中间具有粘连，那么在利用投影法进行切分时，可能将前后字符中间的部首切开，但是对于两个字符之间粘连的部首识别不了，而当成一个字符切分出来的情况；本发明方法对于这种情况有较好的处理效果，对于粘连的中间部分通过上述公式寻找到最佳的切分点，并将切分后的前后字符的部首进行重新的整合，达到了较好的切分效果。

上述规则依序循环使用，经过不断的迭代，最终形成了仅包含单个字符的子图片，良好的切分效果为图像文字识别准备了条件。

进一步的，0.9≤M≤1.3。子图片宽度阈值的设置在本范围内，均能实现较好的切分和识别效果。

作为一种优选：M＝1.2。经过实验反复验证，将M设置为1.2时，能够实现较好的切分效果。

进一步的，所述步骤(3-1)和，或(3-2)中采用K近邻算法找出与待识别字符距离最小的前K个样本特征模板，统计出现次数最多样本模板，其对应的字符标签即为字符的识别结果。KNN分类算法是数据挖掘分类技术中最简单的方法之一，使用简单方便。

进一步的，K＝9。与同一字符对应的9件特征模板对应。

实施例1

如图所示8，对图像中的文字进行识别时，经过观察，认为该图像中的文字与微软雅黑的字体较为接近，将图像文字进行二值化处理后，经过行投影，将图像中的文字行切分出来，对每一行文字图像进行列投影，找出初始切分点，根据初始切分对文字图片进行初步的切分，形成子图片，使用以下规则将其中的数字、字母和标点字符抽取出来，规则可以选择为：子图片的宽度L＜0.4h行高，将数字、字母和标点的子图片判断出来之后，对于同一个数字、字母和标点只选取其中的一张子图片进行模板的制备(图片的选择可以人工进行挑选，数字：0、1、2、3、4、5、6、7、8、9共计：10个，字母大小写共26*2＝52个，标点根据识别情况而定；数字、字母和标点的数量相比于庞大的汉字来说很少，少量的人工挑选不会影响识别的效率)。在选择的数字子图片的图片框范围内，将其中的字符向各个方向(比如：向上、下、左、右、左上、左下、右上和右下移)移动设定的像素，制成对应的模板。

在此基础上，对数字、字母和标点以外的文字字符子图片进行判断和处理，判断过程如下：将满足条件：A、宽度L≤1.2h的子图片提取出来；B、对于L＞1.2h的子图片，使用以下公式来进行切分点的判断：

f(x)＝g(x)t(x)

如图5所示的子图片，经过投影后像素的幅值分布为图7所示，可以发现当x点与行高h相距为0时，其修正值g(x)最小，为0.5，当x与h相距越大，修正越大，由于本文假设字符的宽度与行高相当，因此可以理解为字符投影点越靠近该字符所处的宽度处时，其修正值越小，这样可以避免幅值出现多个极值点。本子图片中字符的幅值在x＝19和20处出现极小值，该子图片字符的行高为19，经g(x)的修正，可以得出f(19)＝0.5000，f(20)＝0.5025；x＝19时f(x)的值最小，x＝19确定为切分点，并根据该切分点，将子图片字符切分出来。

在上述处理的基础上，对于切分满足规则C的子图片，进行合并。

在上述处理的基础上，对于满足规则D的子图片，根据规则D进行处理。

上述A、B、C、D规则循环使用，没有子图片能被切分或者合并时，停止切分。

本实施例中采用微软雅黑字体，来生成对应的特征模板，利用3501个常用字符生成汉字图片样本(每个样本按照向上、下、左、右、左上、左下、右上和右下移动1-2个像素，如图所示)，制成对应的特征图片；并进行对应的标注；

提取汉字样本的HOG(梯度方向直方图)特征制作样本特征模板，提取每一个待识别的汉字字符的HOG特征，利用K近邻算法找出与待识别字符距离最小的前K个(本文k＝9)样本特征模板，统计出现次数最多样本模板，其对应的汉字标签即为汉字识别结果。

经过上述过程，针对图片的识别结果如下：

“海口********客栈_违反税收管理

处罚名称：海口********客栈-违辰税收管理

行政处罚决定书文号：海口地税美兰区局罚(2015]80041号

处罚事由：未按照规定期限申报办理税务登记

处罚依据：《中华人民共和国税收征收管理法》第六十条第一款第(一)项

处罚类别1：其他(见处罚类别2)

处罚类别2：罚款

行政相对人名称：海口********客横

统一社会信用代码：

组织机构代码：

工商登记码：

税务登记号：46002619********22802

居民身份证号：460026********4228

法定代表人姓名：王**

处罚结果：罚款100元

处罚决定日期：2015/11/12

处罚机关：海口市地方税务局美兰区地方税务局

处罚状态：正常

地方编码：460100

数据更新时间戳：2016/06/05

备注：”

经过验证，本发明方法实现的OCR识别具有较高的准确率，本发明只需要收集特殊字体的有限张图片，提取出其中的数字样本(数字、字母、标点符号)，同时生成与待识别字体相似的常见汉字样本，对数字、字母、标点符号采用模板匹配进行识别，准确率非常高，对汉字字符采用HOG特征的K近邻进行识别，经过测试部门的测试，抽样120张图片，成功解析119张，其中，总字数42999(包括标点符号)，错误字符数680处，错误率：1.58％，即识别的准确率达到98.42％；另外，针对120张抽样图片，每100字耗时1.81439秒，平均每个图片字数在370个字左右，平均每张图片耗时6.75秒。

Claims

1.一种非常见字体的OCR识别方法，其特征在于，包含以下实现步骤：

2.如权利要求1所述的方法，其特征在于，所述步骤(1)包含以下实现步骤：

(1-1)对待识别图像文字进行行、列垂直投影，将其中的数字、字母和标点字符切分出来，形成对应的子图片；

3.如权利要求2所述的方法，其特征在于，所述步骤(2)使用投影法对数字、字母和标点以外的文字字符图片进行切分。

4.如权利要求3所述的方法，其特征在于，文字字符图片的切分包含以下实现过程：

f(x)＝g(x)t(x)

g (x) = \frac{1}{1 + e^{- 0.01 | x - h |}}

如果满足，依序对满足条件的相邻子图片进行合并；

f(x)＝g(x)t(x)

g (x) = \frac{1}{1 + e^{- 0.01 | x - 0.5 h |}}

将第一子图片和第一中间子图片合并；

将第二中间子图片和第三子图片合并。

5.如权利要求4所述的方法，其特征在于，0.9≤M≤1.3。

6.如权利要求5所述的方法，其特征在于，M＝1.2。

7.如权利要求6所述的方法，其特征在于，所述步骤(3)包含以下实现步骤：

(3-1)提取数字、字母和标点的子图片的对应直方图特征与所述步骤(1-2)中所建立的数字、字母和标点的图片的直方图特征进行比对；得到对应的识别结果；

8.如权利要求7所述的方法，其特征在于，所述步骤(3-1)和，或(3-2)中采用K近邻算法找出与待识别字符距离最小的前K个样本特征模板，统计出现次数最多样本模板，其对应的字符标签即为字符的识别结果。

9.如权利要求8所述的方法，其特征在于，K＝9。