CN112926456B

CN112926456B - 一种基于状态机的识别文字逻辑重组方法

Info

Publication number: CN112926456B
Application number: CN202110218850.9A
Authority: CN
Inventors: 孙全亮; 吕震宇; 王蕊
Original assignee: Gexue Education Science And Technology Tangshan Co ltd; North China University of Science and Technology
Current assignee: Gexue Education Science And Technology Tangshan Co ltd; North China University of Science and Technology
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2022-11-15
Anticipated expiration: 2041-02-26
Also published as: CN112926456A

Abstract

本发明公开一种基于状态机的识别文字逻辑重组方法，包括以下步骤：获取待处理图片，对图片进行预处理；根据每行文字的图像特征构建出每行文字的行状态信息；压缩掉文字块间空白和文字行间空白重构图像进行文字识别；实现状态跃迁构建逻辑上下文状态机；所识别的文字输入到逻辑上下文状态机，利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误；逻辑上下文状态机对识别文字行进行逻辑重构，输出具有逻辑关系的识别结果。该方法识别效率高，上下文逻辑组装准确，能够智能识别潜在OCR错误，解决了传统OCR只重视文字不重视内容的问题，可以应用在多种需要识别文字逻辑关系的OCR场景中。

Description

一种基于状态机的识别文字逻辑重组方法

技术领域

本发明涉及文字识别再处理领域，特别涉及一种基于状态机的识别文字逻辑重组方法。

背景技术

图像OCR文字识别是目前较为成熟的技术，然而该技术只能将图像中的文字识别出来，无法根据文字上下文关系对内容进行重构，具体体现在：

1、难以识别和处理文字块中行与行之间的复杂上下文逻辑关系；

2、尽管可以通过图像特征找出不同文字行的特征，然而这些特征往往有限，难以完全支撑复杂的逻辑上下文识别；如图2所示，根据每行文字突出与缩进位置，可以找到三种版式特征（下文中也称“行状态”，指代的是相同的内容），分别是高校首行、专业首行、普通文字。按照版式特征，第9行到第12行均为普通文字，然而第9行实际上是第8行的延续，共同组合成专业名称，第10行至第12行应该是对该专业的注释信息。因此单纯的版式特征不足以表达复杂的文字逻辑上下文关系；

3、OCR识别过程中会有潜在的识别错误，在OCR识别过程中，经常将大写字母“O”和数字“0”识别错误。这种识别错误校对非常困难。

综上，针对图像中识别文字，利用文字上下文关系对内容进行重构是文字识别领域需要深入研究的问题。

发明内容

本发明目的之一是解决复杂逻辑关系文本的有效文字识别。

本发明目的之二是提供一种有效的利用上下文关系对识别文字的逻辑重组方法。

本发明目的之三是构建文字行与行之间的上下文关系识别出潜在的OCR错误或业务逻辑错误。

本发明采用以下的技术方案：一种基于状态机的识别文字逻辑重组方法，其特征在于，包括以下步骤:

S1：获取待处理图像，对图像进行预处理；

S2：根据每行文字的图像特征构建出每行文字的行状态信息；

S3：压缩掉文字块间空白和文字行间空白重构图像进行文字识别；

S4：根据原始图像构建基础行状态状态机；

S5：基础行状态状态机结合S2、S3结果实现状态跃迁，构建逻辑上下文状态机；

S6：S2中行状态信息，S3中所识别的文字输入到S5逻辑上下文状态机，利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误；

S7：逻辑上下文状态机对识别文字行进行逻辑重构，输出具有逻辑关系的识别结果。

进一步的，所述文字识别为OCR文字识别。

进一步的，所述S1中图片预处理是：对扫描得到的图像进行黑白二值化处理；进行倾斜矫正并去除噪点；根据图像水平、垂直投影特征点切分板块；根据每个板块水平投影特征切分文字行；根据每个文字行垂直投影特征切分文字块。

进一步的，所述去除噪点使用最小连通区域法。

进一步的，所述S2中行状态信息存储于文件，每行为逗号分割的6列数据，第1列为行号，第2至第5列四个数字为该行文本在重构后图像中的位置信息，格式为：x, y, width,height，其中x为矩形左上角水平坐标，y为左上角垂直坐标，width为矩形区域宽度，height为矩形区域高度，第6列为行状态。

本发明有益效果：本发明充分利用图像中的“版式”信息识别出每行文字的“版式行状态”，同时引入OCR识别结果中的“行文字特征”，实现状态跃迁，构建出更为复杂的用于表述行与行之间上下文关系的“状态机”。以此状态机为基础，结合“版式行状态”和“OCR识别结果行文字特征”，可以对OCR识别出来的纯文本文字进行逻辑重构，使得最终识别的结果是具有明确逻辑关系的文本信息而非零散的文字片段。该方法还能充分利用业务逻辑和状态机有限状态迁移特征，对OCR识别结果进行有效性校验，及时发现OCR识别错误。

该方法识别效率高，上下文逻辑组装准确，能够智能识别潜在OCR错误，解决了传统OCR只重视文字不重视内容的问题，可以应用在多种需要识别文字逻辑关系的OCR场景中。

附图说明

图1高考招生计划中文字之间复杂上下文关系图；

图2待识别图像部分行特征描述示意图；

图3 切分文字板块示意图；

图4 提取“行状态”标记物示意图；

图5 从原始图像信息中提取行状态、图像重组示意图；

图6 文字逻辑重构需要的行状态示意图；

图7 状态跃迁后的状态机逻辑关系图；

图8 文字逻辑输出示意图；

图9 前期处理流程图；

图10使用状态机检查并标注错误位置示意图。

具体实施方式

下面结合实施例对本发明的技术内容做进一步说明，下述实施例是说明性的，不是限定的，不能以下述实施例来限定本发明的保护范围。

本发明针对识别图片中复杂逻辑关系的文字提出一种结合状态机和文字识别结果的识别文字重组方法。

实施例1：本实施例以识别高考招生计划为例。一个高校信息下面可能会包含多个专业信息，一条专业信息下面可能是另外一个专业的专业信息，也可能是这条专业信息文字太长写不下的换行数据，对这些高校和专业数据的逻辑重组难度更大如图1所示。

一种基于状态机的识别文字逻辑重组方法，包括以下步骤：

S1：获取待处理图片，对图片进行预处理；对扫描得到的图像进行黑白二值化处理；进行倾斜矫正并去除噪点；根据图像水平、垂直投影特征点切分板块；根据每个板块水平投影特征切分文字行；根据每个文字行垂直投影特征切分文字块。

使用最小连通区域法去除图像噪点，然后对图像做水平投影和垂直投影，根据投影特征切分文字板块。如图3所示：

S2：根据每行文字的图像特征构建出每行文字的行状态信息；根据板块位置信息找出“行状态”标记物，在图4所示案例中，行状态标记物为两条竖线和行首特征字符“[”的图像。

图5显示了根据每行文字的位置信息识别出了四种行状态：（1）高校首行（University）。该类型行左侧超出了第一条标识线；（2）专业首行（Major）。该类型行左侧在第一条和第二条标识线中间；（3）学费首行（[）。该行左侧没有突出，但第一个字符为“[”；（4）普通行（Normal）。其它没有明显特征的行。

图5中间给出了识别出来的行状态以及重构后的图像文件。行状态以文本文件存储，每行为逗号分割的6列数据，第1列为行号，第2至第5列四个数字为该行文本在重构后图像中的位置信息，格式为（x, y, width ,height），其中x为矩形左上角水平坐标，y为左上角垂直坐标，width为矩形区域宽度，height为矩形区域高度。在使用状态机对OCR结果纠错时，该坐标将用来在图像中高亮显示错误行的位置。第6列为行状态，其中“U n v”代表高校首行，“Major”代表专业首行，“[”代表学费首行，“空”代表普通行Normal。

根据行与“行状态”标记物之间的关系，识别“行状态”。同时压缩掉每行文字块之间的空白，对文字图像进行重组。文字图像重组的目的是为了在云OCR识别过程中不至于产生多余的空格符，同时避免云OCR对版式的误推断导致识别错误增加。图5右侧给出的是去掉空白的重组图像，在此基础上进行文字识别。图9给出了S1，S2，S3步骤的处理流程。

S4：根据原始图像构建基础行状态状态机；

根据原始图像相对位置信息能够得到的行状态是有限的，还不足以构建上下文完成对文字的逻辑重组，因此需要结合“行状态”和“OCR识别结果”实现状态跃迁，如图6右侧是二者结合实现的状态跃迁。例如针对图6中的第4行信息，我们可以结合版式信息识别出来的“Normal”行状态外加OCR识别出来的前四个字为“院校地址”，推测出第4行的行状态为“高校地址首行”。

状态跃迁后构建状态机，以实现复杂的上下文关系，从而实现全面的文字逻辑重组如图7所示。

状态机可以实现OCR文字识别纠错以及上下文环境纠错，在图2的案例中，高校首行前四个字符应该是数字，专业首行前两个字符应该是数字或大写字母，如果OCR识别结果不符合这个伴随行状态的业务规范，系统将自动识别出潜在的OCR错误。并通过图5中行状态X,Y坐标高亮显示以便查找，如图10所示。另外针对业务逻辑错误，由于招生计划里面一个高校至少要包含一个专业，因此如果某行的版式特征为“高校首行”，那么这行的下一行版式特征一定不可能是“高校首行”。如果在文字逻辑重构过程中发现了这种情况，说明OCR逻辑重构出现了问题，需要修正。

使用行状态状态机，结合识别出来的文字信息和行状态信息，对文字进行逻辑重组，并生成具有逻辑关系的文字识别结果。假设当前行行状态是高校首行，如果下一行文字的行状态为“Major”，则当前状态迁移至“专业首行”状态，同时根据状态迁移特征对文字进行逻辑重构，让该专业隶属于上一个高校。通过状态机，不但将行与行之间的逻辑关系清晰的识别出来，同时将高校和专业之间的包含关系、专业注释和专业之间的隶属关系、高校名称附加行与高校名称之间的关系都准确的识别并进行了逻辑再组装。形成有效逻辑输出如图8所示。

以上所述实施例仅为说明本发明的技术构思及特点，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于状态机的识别文字逻辑重组方法，其特征在于，包括以下步骤：

S1：获取待处理图像，对图像进行预处理；

S2：根据每行文字的图像特征构建出每行文字的行状态信息，所述行状态信息包括：行号、该行文本在重构后图像中的位置信息、行状态；

S4：根据原始图像构建基础行状态状态机；

S5：基础行状态状态机结合S2、S3结果实现状态跃迁，构建逻辑上下文状态机，所述状态跃迁是根据原始图像相对位置信息能够得到的行状态，结合文字识别结果推测出新的行状态，完成对文字的逻辑重组；

2.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法，其特征在于，所述文字识别为OCR文字识别。

3.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法，其特征在于，所述S1中图片预处理是：对扫描得到的图像进行黑白二值化处理；进行倾斜矫正并去除噪点；根据图像水平、垂直投影特征点切分板块；根据每个板块水平投影特征切分文字行；根据每个文字行垂直投影特征切分文字块。

4.根据权利要求3所述的一种基于状态机的识别文字逻辑重组方法，其特征在于，所述去除噪点使用最小连通区域法。

5.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法，其特征在于，所述S2中行状态信息存储于文件，每行为逗号分割的6列数据，第1列为行号，第2至第5列四个数字为该行文本在重构后图像中的位置信息，格式为：x, y, width, height，其中x为矩形左上角水平坐标，y为左上角垂直坐标，width为矩形区域宽度，height为矩形区域高度，第6列为行状态，其中“U n v”代表高校首行，“Major”代表专业首行，“[”代表学费首行，“空”代表普通行Normal。