CN104123550A

CN104123550A - 基于云计算的文本扫描识别方法

Info

Publication number: CN104123550A
Application number: CN201310145112.1A
Authority: CN
Inventors: 魏昊; 张磊
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-04-25
Filing date: 2013-04-25
Publication date: 2014-10-29

Abstract

本发明公开了一种基于云计算的文本扫描识别方法，包括以下步骤：文档图像预处理：针对从扫描仪直接扫描出的原始图像进行预处理；文档图像版面特征分析：将预处理文档图像加载到版面分析引擎进行处理：根据预处理文档图像的版面特征信息，添加掩膜并对关键域进行局部处理；碎片化：对经过文档图像掩膜步骤处理后的预处理文档图像进行切碎处理；碎片的OCR/ICR识别：识别小碎片，拼接并输出文字；语意识别：利用统计语言模型算法结合行业辞典，对OCR／ICR的结果进行逻辑校验。本发明利用图像特征识别，图像掩膜，图像碎片化，碎片的并发处理OCR／ICR，语意校验等特种方法综合使用，显著提高了文本扫描件的最终准确率。

Description

基于云计算的文本扫描识别方法

技术领域

本发明涉及一种文本扫描识别的方法，尤其涉及一种基于云计算的文本扫描识别方法。

背景技术

图像识别技术是人工智能的一个重要领域。为了编制模拟人类图像识别活动的计算机程序，人们提出了不同的图像识别模型。例如模板匹配模型。这种模型认为，识别某个图像，必须在过去的经验中有这个图像的记忆模式，又叫模板。当前的刺激如果能与大脑中的模板相匹配，这个图像也就被识别了。例如有一个字母A,如果在脑中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。这个模型简单明了，也容易得到实际应用。但这种模型强调图像必须与脑中的模板完全符合才能加以识别，而事实上人不仅能识别与脑中的模板完全一致的图像，也能识别与模板不完全一致的图像。例如,人们不仅能识别某一个具体的字母A,也能识别印刷体的、手写体的、方向不正、大小不同的各种字母A。同时,人能识别的图像是大量的，如果所识别的每一个图像在脑中都有一个相应的模板，也是不可能的。为了解决模板匹配模型存在的问题，格式塔心理学家又提出了一个原型匹配模型。这种模型认为，在长时记忆中存储的并不是所要识别的无数个模板，而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型，拿它来检验所要识别的图像。如果能找到一个相似的原型，这个图像也就被识别了。这种模型从神经上和记忆探寻的过程上来看，都比模板匹配模型更适宜，而且还能说明对一些不规则的，但某些方面与原型相似的图像的识别。但是，这种模型没有说明人是怎样对相似的刺激进行辨别和加工的，它也难以在计算机程序中得到实现。因此又有人提出了一个更复杂的模型，即“泛魔”识别模型。

具体而言，现有的影像识别技术有如下几种：国内的汉王，紫光文通，尚书7号，国外的Abbyy FineReader11 等。这些方案都着重于对于纯文字的识别率，即OCR，但对整体的识别准确率，特别是对有超高识别率要求的特别域－即有效识别率，没有太多的考虑和设计。同时，由于OCR／ICR的效率问题，往往处理速度较慢，无法应对高时效的要求。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种识别速度快、识别准确率高的基于云计算的文本扫描识别方法。

为实现上述技术目的，本发明采取的技术方案为一种基于云计算的文本扫描识别方法，其特征在于包括以下步骤：

第一步，文档图像预处理：针对从扫描仪直接扫描出的原始图像进行预处理，以将原始图像二值化并且去除原始图像噪点，将扭曲的原始图像还原，将原始图像压缩以便后续图像处理；

第二步，文档图像版面特征分析：将预处理文档图像加载到版面分析引擎进行处理，以获得预处理文档图像版面特征信息；

第三步，文档图像掩膜：根据预处理文档图像的版面特征信息，添加相应的掩膜，然后对关键域进行局部处理，即提取预处理文档图像的版面特征信息并与掩模的特征信息进行匹配；

第四步，碎片化：即文档图片定位与分割，具体为采用图像局部特征定位方法、表格识别方法和OCR关键字符识别定位方法，对经过文档图像掩膜步骤处理后的预处理文档图像进行切碎处理；

第五步：碎片的OCR/ICR识别：识别小碎片，拼接并输出文字，以便进行语意识别；

第六步，语意识别：利用统计语言模型算法结合行业辞典，对OCR／ICR的结果进行逻辑校验。

作为本发明进一步改进的技术方案，所述文档图像预处理包括以下步骤：

首先，对原始图像采用权平均法进行处理后，再采用最大类间方差进行二值化处理，将原始的真彩色以及高DPI的灰度图转化为二值化的黑白图；

其次，对二值化的黑白图进行图像去噪，以去除了扫描过程中由于电子信号干扰带来的图像噪点，形成预处理文档图像；

第三，对预处理文档图像进行纠偏处理，使扭曲的图像还原。

作为本发明进一步改进的技术方案，所述文档图像版面特征分析为：通过版面分析算法搜索整个预处理文档图像并对预处理文档图像进行区域划分和类型识别，以获得预处理文档图像的版面特征信息，所述版面特征信息包括区域分割线坐标信息、预处理文档图像的类型信息以及预处理文档图像中的文字对象的坐标信息；

作为本发明进一步改进的技术方案，所述预处理文档图像的类型信息包括文字、图章、图片、公式和条码。

作为本发明进一步改进的技术方案，所述文档图像掩膜为：分别用各类型的掩模依次覆盖和匹配经过文档图像版面特征分析步骤处理后的预处理文档图像，如果掩模的特征信息和预处理文档图像的版面特征信息相一致，则所述预处理文档图像与掩模的类型相一致并且将掩模的类型信息添加到预处理文档图像的版面特征信息中。

作为本发明进一步改进的技术方案，在文档图像掩步骤中，还包括根据具体的业务特征制作各种类型的掩模的步骤。

作为本发明进一步改进的技术方案，所述文档图片定位与分割包括以下步骤：

首先，将预处理文档图像进行定位分割，即根据预处理文档图像的版面特征信息中的掩膜的特征信息，提取掩膜的具体坐标信息；

其次，根据掩模的具体坐标信息，将具体的业务数据图像从整个的预处理文档图像中截取出来，形成具有具体业务数据的碎片图像。

作为本发明进一步改进的技术方案，所述碎片的OCR/ICR识别为对具有具体业务数据的碎片图像通过多路OCR引擎进行识别处理，以识别小碎片，拼接并输出文字。

作为本发明进一步改进的技术方案，在所述碎片的OCR/ICR识别过程中，采用大数据处理方案里的工作分解并发合成的方法对输出文字第四步中输出的文字进行分解并发与集成处理。

作为本发明进一步改进的技术方案，所述语意识别包括以下步骤：

首先，根据不同的行业特征建立行业词语库；

其次，对词语进行组合：针对不同专业，生成专业词语组合，并根据不同的行业，基于所述行业词语库，统计得出词语组合的概率分值；

第三，对OCR的结果句进行划分并自动替换不可识别词语，生成多种组合句；

第四，计算生成的多种组合句的各自的总概率分值，并将总概率分值最高的组合句保留。

本发明利用图像特征识别，图像掩膜，图像碎片化，碎片的并发处理OCR／ICR，语意校验等特种方法综合使用，显著提高了文本扫描件的最终准确率。

附图说明

图1为本发明的流程结构示意图。

下面结合附图对本发明的具体实施方式做进一步说明。

具体实施方式

参见图1，本基于云计算的文本扫描识别方法，包括以下步骤：

作为优选方案，所述文档图像预处理包括以下步骤：

作为优选方案，所述文档图像版面特征分析为：通过版面分析算法搜索整个预处理文档图像并对预处理文档图像进行区域划分和类型识别，以获得预处理文档图像的版面特征信息，所述版面特征信息包括区域分割线坐标信息、预处理文档图像的类型信息以及预处理文档图像中的文字对象的坐标信息。所述预处理文档图像的类型信息包括文字、图章、图片、公式和条码。

所述文档图像掩膜为：分别用各类型的掩模依次覆盖和匹配经过文档图像版面特征分析步骤处理后的预处理文档图像，如果掩模的特征信息和预处理文档图像的版面特征信息相一致，则所述预处理文档图像与掩模的类型相一致并且将掩模的类型信息添加到预处理文档图像的版面特征信息中。在文档图像掩步骤中，还包括根据具体的业务特征制作各种类型的掩模的步骤。

所述文档图片定位与分割包括以下步骤：

所述碎片的OCR/ICR识别为对具有具体业务数据的碎片图像通过多路OCR引擎进行识别处理，以识别小碎片，拼接并输出文字。在所述碎片的OCR/ICR识别过程中，采用大数据处理方案里的工作分解并发合成的方法对输出文字第四步中输出的文字进行分解并发与集成处理。

所述语意识别包括以下步骤：

首先，根据不同的行业特征建立行业词语库；

关于文档图像预处理：图像灰度化首先采用权平均法进行第一步处理，灰度化后采用最大类间方差进行二值化处理。平滑去噪，纠偏。二值化的好处是显而易见的：影像文件大小显著降低，后期处理速度加快。步骤是针对从扫描仪直接扫描出的原始图像进行预处理。本处理分为三步骤：第一步对原始图像进行二值化处理将原始的真彩色/高DPI的灰度图转化为二值化的黑白图，该步骤大大减小了图像文件的大小提高了后期处理中文件的加载和识别速率。第二步图像去噪，该步骤去除了扫描过程中由于电子信号干扰带来的图像噪点，进一步提高图像识别准确率。第三步二值化图像的纠偏，该步骤解决了扭曲图像的原始还原大大提高了识别的准确率。

关于：文档图像版面特征分析：采用经典的游程版面分析法——run-length algorithm——自底向上的分析算法，同时兼顾分析处理的时间消耗及准确性而引入了二分法，还采用基于背景空白的版面分割法、基于图像纹理特征的版面分割法、基于形态学处理的版面分割法。本步骤将经过文档图像预处理后的图像加载到版面分析引擎进行处理，即通过版面分析算法搜索整个图像，对图像进行区域划分、类型识别等，本步骤处理完成后会计算出如下信息：图像区域分割线坐标，文字、图章、图片、公式、条码等对象类型，文字对象的坐标信息。

关于文档图像掩膜：本步骤基于预处理文档图像的版面特征，添加特别设计的掩膜，对关键域进行局部处理，其中掩膜可以基于特征自适应。具体而言，将通过文档图像版面特征分析后的预处理文档图像，提取其局部特征信息与掩模特征匹配如果掩模和局部特征一致，将该图像划分为该掩模类型。本步骤处理完成后，预处理文档图像带有了掩模类型信息，并可根据预处理文档图像的掩模类型对图像进行分类，为下一步图像的分割做准备。

关于碎片化及碎片的OCR/ICR识别：本步骤采用图像局部特征定位、表格识别和OCR关键字符识别定位等方法对文档图像进行切碎处理，本步骤完成后会产生一系列具有具体业务数据的碎片图像，产生的碎片图大大提高了识别的准确率，再通过多路OCR引擎的处理大大提高了识别的速率。本步骤运用了国际著名的大数据处理方案Hadoop里的工作分解并发合成的方法，即Map－Reduce，创新的应用到了图像识别里。这样就很好的解决了高性能派发，大范围分包的任务分解并发与集成的问题。

关于语意识别：本步骤利用统计语言模型算法结合行业辞典，对OCR／ICR的结果进行逻辑校验：首先基于建立一个词语库；第二步，对词语进行组合，针对不同专业，生成专业词语组合，并根据行业，统计得出概率分值；第三步，对OCR的结果句进行划分并自动替换不可识别词语，生成多种组合句；第四步，生成多种组合比对总概率分值，保留最高者。比如：“清华大X”，X是不可识别文字。经过比对，“清华大学”的概率远远高于“清华大人”或者“清华大班”等，保留“清华大学”作为识别结果。所述行业词语库是根据不同的行业特征建立，如电信行业词库，医药行业词库。这样，处理的目标比较有方向性，容易找到正确的结果。同时，这个库不是静态的，它是可以基于影像处理结果，自动添加新词，也可以通过网络爬虫学习新词。

本实施例中，包括文档图像预处理、文档图像版面特征分析、文档图像掩膜、碎片化、碎片的OCR/ICR识别和语意识别六个步骤，各步骤的工作要点及目标如表1所示。本实施例整体的有效识别率高可达99.8％，而且处理速度加快，在相同条件下，效率提高45％。

表1：各步骤的工作要点及目标对应表

编号	步骤	输入	工作要点	目标
					1	文档图像预处理	未处理	1a.二值化 1b.纠偏 1c.去噪	扫描原始图像的预处理。去除图像噪点，还原扭曲图像，压缩文件大小以便后续图像处理。
2	文档图像版面特征分析	清理的图像	2a. 版面分析后定位图像线，点，文字，条码，图章，公式等特征信息。 2b. 比对预先设定的图像特征 2c. 基于图像特征分类	找到图像特征，以便基于图像特征，使用不同的掩膜来对图像进行专业化的处理
					3	文档图像掩膜	分类的图像	3a. 基于图像特征识别结果，匹配预先设定的掩膜 3b. 基于掩膜，初步判定扫描内容是否在掩膜外 3c.掩膜校对 3d. 基于掩膜窗口，再次预处理，去处干扰	添加了掩膜的影像，缩小OCR的范围，加快速度，增加精度
4	碎片化	添加了掩膜的影像	4a. 基于掩膜，切割图像 4b. 切片进一步切割成更小的碎片	为了可以并行处理，保证信息安全，把大的影像打成碎片
					5	碎片的OCR/ICR识别	碎片	OCR/ICR	识别小碎片，拼接并输出文字，以便语意模块进行语意识别
6	语意识别	初步OCR的文字	6a. 自动划分语句，生成词组 6b. 基于词语库替换不可识别的字（可能有多个组合） 6c. 对于不同组合计算总概率分数 6d. 输出概率最高的语句	精准匹配的文字

Claims

1.一种基于云计算的文本扫描识别方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于云计算的文本扫描识别方法，其特征在于所述文档图像预处理包括以下步骤：

3.根据权利要求2所述的基于云计算的文本扫描识别方法，其特征在于所述文档图像版面特征分析为：通过版面分析算法搜索整个预处理文档图像并对预处理文档图像进行区域划分和类型识别，以获得预处理文档图像的版面特征信息，所述版面特征信息包括区域分割线坐标信息、预处理文档图像的类型信息以及预处理文档图像中的文字对象的坐标信息。

4.根据权利要求3所述的基于云计算的文本扫描识别方法，其特征在于：所述预处理文档图像的类型信息包括文字、图章、图片、公式和条码。

5.根据权利要求4所述的基于云计算的文本扫描识别方法，其特征在于所述文档图像掩膜为：分别用各类型的掩模依次覆盖和匹配经过文档图像版面特征分析步骤处理后的预处理文档图像，如果掩模的特征信息和预处理文档图像的版面特征信息相一致，则所述预处理文档图像与掩模的类型相一致并且将掩模的类型信息添加到预处理文档图像的版面特征信息中。

6.根据权利要求5所述的基于云计算的文本扫描识别方法，其特征在于：在文档图像掩步骤中，还包括根据具体的业务特征制作各种类型的掩模的步骤。

7.根据权利要求6所述的基于云计算的文本扫描识别方法，其特征在于所述文档图片定位与分割包括以下步骤：

8.根据权利要求7所述的基于云计算的文本扫描识别方法，其特征在于:所述碎片的OCR/ICR识别为对具有具体业务数据的碎片图像通过多路OCR引擎进行识别处理，以识别小碎片，拼接并输出文字。

9.根据权利要求8所述的基于云计算的文本扫描识别方法，其特征在于: 在所述碎片的OCR/ICR识别过程中，采用大数据处理方案里的工作分解并发合成的方法对输出文字第四步中输出的文字进行分解并发与集成处理。

10.根据权利要求7所述的基于云计算的文本扫描识别方法，其特征在于所述语意识别包括以下步骤：

首先，根据不同的行业特征建立行业词语库；