CN112926456A - 一种基于状态机的识别文字逻辑重组方法 - Google Patents
一种基于状态机的识别文字逻辑重组方法 Download PDFInfo
- Publication number
- CN112926456A CN112926456A CN202110218850.9A CN202110218850A CN112926456A CN 112926456 A CN112926456 A CN 112926456A CN 202110218850 A CN202110218850 A CN 202110218850A CN 112926456 A CN112926456 A CN 112926456A
- Authority
- CN
- China
- Prior art keywords
- logic
- state machine
- character
- line
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
Abstract
本发明公开一种基于状态机的识别文字逻辑重组方法,包括以下步骤:获取待处理图片,对图片进行预处理;根据每行文字的图像特征构建出每行文字的行状态信息;压缩掉文字块间空白和文字行间空白重构图像进行文字识别;实现状态跃迁构建逻辑上下文状态机;所识别的文字输入到逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。该方法识别效率高,上下文逻辑组装准确,能够智能识别潜在OCR错误,解决了传统OCR只重视文字不重视内容的问题,可以应用在多种需要识别文字逻辑关系的OCR场景中。
Description
技术领域
本发明涉及文字识别再处理领域,特别涉及一种基于状态机的识别文字逻辑重组方法。
背景技术
图像OCR文字识别是目前较为成熟的技术,然而该技术只能将图像中的文字识别出来,无法根据文字上下文关系对内容进行重构,具体体现在:
1、难以识别和处理文字块中行与行之间的复杂上下文逻辑关系;
2、尽管可以通过图像特征找出不同文字行的特征,然而这些特征往往有限,难以完全支撑复杂的逻辑上下文识别;如图2所示,根据每行文字突出与缩进位置,可以找到三种版式特征(下文中也称“行状态”,指代的是相同的内容),分别是高校首行、专业首行、普通文字。按照版式特征,第9行到第12行均为普通文字,然而第9行实际上是第8行的延续,共同组合成专业名称,第10行至第12行应该是对该专业的注释信息。因此单纯的版式特征不足以表达复杂的文字逻辑上下文关系;
3、OCR识别过程中会有潜在的识别错误,在OCR识别过程中,经常将大写字母“O”和数字“0”识别错误。这种识别错误校对非常困难。
综上,针对图像中识别文字,利用文字上下文关系对内容进行重构是文字识别领域需要深入研究的问题。
发明内容
本发明目的之一是解决复杂逻辑关系文本的有效文字识别。
本发明目的之二是提供一种有效的利用上下文关系对识别文字的逻辑重组方法。
本发明目的之三是构建文字行与行之间的上下文关系识别出潜在的OCR错误或业务逻辑错误。
本发明采用以下的技术方案:一种基于状态机的识别文字逻辑重组方法,其特征在于,包括以下步骤:
S1:获取待处理图像,对图像进行预处理;
S2:根据每行文字的图像特征构建出每行文字的行状态信息;
S3:压缩掉文字块间空白和文字行间空白重构图像进行文字识别;
S4:根据原始图像构建基础行状态状态机;
S5:基础行状态状态机结合S2、S3结果实现状态跃迁,构建逻辑上下文状态机;
S6:S2中行状态信息,S3中所识别的文字输入到S5逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;
S7:逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。
进一步的,所述文字识别为OCR文字识别。
进一步的,所述S1中 图片预处理是:对扫描得到的图像进行黑白二值 化 处理;进行倾斜矫正并去除噪点;根据图像水平、垂直投影特征点切分板块;根据每个 板块水平投影特征切分文字行;根据每个文字行垂直投影特征切分文字块。
进一步的,所述去除噪点 使用最小连通区域法。
进一步的,所述S2中行状态信息存储于文件,每行为逗号分割的6列数据,第1列为行号,第2至第5列四个数字为该行文本在重构后图像中的位置信息,格式为:x, y, width,height,其中x为矩形左上角水平坐标,y为左上角垂直坐标,width为矩形区域宽度,height为矩形区域高度,第6列为行状态。
本发明有益效果:本发明充分利用图像中的“版式”信息识别出每行文字的“版式行状态”,同时引入OCR识别结果中的“行文字特征”,实现状态跃迁,构建出更为复杂的用于表述行与行之间上下文关系的“状态机”。以此状态机为基础,结合“版式行状态”和“OCR识别结果行文字特征”,可以对OCR识别出来的纯文本文字进行逻辑重构,使得最终识别的结果是具有明确逻辑关系的文本信息而非零散的文字片段。该方法还能充分利用业务逻辑和状态机有限状态迁移特征,对OCR识别结果进行有效性校验,及时发现OCR识别错误。
该方法识别效率高,上下文逻辑组装准确,能够智能识别潜在OCR错误,解决了传统OCR只重视文字不重视内容的问题,可以应用在多种需要识别文字逻辑关系的OCR场景中。
附图说明
图1高考招生计划中文字之间复杂上下文关系图;
图2待识别图像部分行特征描述示意图;
图3 切分文字板块示意图;
图4 提取“行状态”标记物示意图;
图5 从原始图像信息中提取行状态、图像重组示意图;
图6 文字逻辑重构需要的行状态示意图;
图7 状态跃迁后的状态机逻辑关系图;
图8 文字逻辑输出示意图;
图9 前期处理流程图;
图10使用状态机检查并标注错误位置示意图。
具体实施方式
下面结合实施例对本发明的技术内容做进一步说明,下述实施例是说明性的,不是限定的,不能以下述实施例来限定本发明的保护范围。
本发明针对识别图片中复杂逻辑关系的文字提出一种结合状态机和文字识别结果的识别文字重组方法。
实施例1:本实施例以识别高考招生计划为例。一个高校信息下面可能会包含多个专业信息,一条专业信息下面可能是另外一个专业的专业信息,也可能是这条专业信息文字太长写不下的换行数据,对这些高校和专业数据的逻辑重组难度更大如图1所示。
一种基于状态机的识别文字逻辑重组方法,包括以下步骤:
S1:获取待处理图片,对图片进行预处理;对扫描得到的图像进行黑白二值 化处理;进行倾斜矫正并去除噪点;根据图像水平、垂直投影特征点切分板块;根据每个 板块水平投影特征切分文字行;根据每个文字行垂直投影特征切分文字块。
使用最小连通区域法去除图像噪点,然后对图像做水平投影和垂直投影,根据投影特征切分文字板块。如图3所示:
S2:根据每行文字的图像特征构建出每行文字的行状态信息;根据板块位置信息找出“行状态”标记物,在图4所示案例中,行状态标记物为两条竖线和行首特征字符“[”的图像。
图5显示了根据每行文字的位置信息识别出了四种行状态:(1)高校首行(University)。该类型行左侧超出了第一条标识线;(2)专业首行(Major)。该类型行左侧在第一条和第二条标识线中间;(3)学费首行([)。该行左侧没有突出,但第一个字符为“[”;(4)普通行(Normal)。其它没有明显特征的行。
图5中间给出了识别出来的行状态以及重构后的图像文件。行状态以文本文件存储,每行为逗号分割的6列数据,第1列为行号,第2至第5列四个数字为该行文本在重构后图像中的位置信息,格式为(x, y, width ,height),其中x为矩形左上角水平坐标,y为左上角垂直坐标,width为矩形区域宽度,height为矩形区域高度。在使用状态机对OCR结果纠错时,该坐标将用来在图像中高亮显示错误行的位置。第6列为行状态,其中“U n v”代表高校首行,“Major”代表专业首行,“[”代表学费首行,“空”代表普通行Normal。
S3:压缩掉文字块间空白和文字行间空白重构图像进行文字识别;
根据行与“行状态”标记物之间的关系,识别“行状态”。同时压缩掉每行文字块之间的空白,对文字图像进行重组。文字图像重组的目的是为了在云OCR识别过程中不至于产生多余的空格符,同时避免云OCR对版式的误推断导致识别错误增加。图5右侧给出的是去掉空白的重组图像,在此基础上进行文字识别。图9给出了S1,S2,S3步骤的处理流程。
S4:根据原始图像构建基础行状态状态机;
S5:基础行状态状态机结合S2、S3结果实现状态跃迁,构建逻辑上下文状态机;
根据原始图像相对位置信息能够得到的行状态是有限的,还不足以构建上下文完成对文字的逻辑重组,因此需要结合“行状态”和“OCR识别结果”实现状态跃迁,如图6右侧是二者结合实现的状态跃迁。例如针对图6中的第4行信息,我们可以结合版式信息识别出来的“Normal”行状态外加OCR识别出来的前四个字为“院校地址”,推测出第4行的行状态为“高校地址首行”。
状态跃迁后构建状态机,以实现复杂的上下文关系,从而实现全面的文字逻辑重组如图7所示。
S6:S2中行状态信息,S3中所识别的文字输入到S5逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;
状态机可以实现OCR文字识别纠错以及上下文环境纠错,在图2的案例中,高校首行前四个字符应该是数字,专业首行前两个字符应该是数字或大写字母,如果OCR识别结果不符合这个伴随行状态的业务规范,系统将自动识别出潜在的OCR错误。并通过图5中行状态X,Y坐标高亮显示以便查找,如图10所示。另外针对业务逻辑错误,由于招生计划里面一个高校至少要包含一个专业,因此如果某行的版式特征为“高校首行”,那么这行的下一行版式特征一定不可能是“高校首行”。如果在文字逻辑重构过程中发现了这种情况,说明OCR逻辑重构出现了问题,需要修正。
S7:逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。
使用行状态状态机,结合识别出来的文字信息和行状态信息,对文字进行逻辑重组,并生成具有逻辑关系的文字识别结果。假设当前行行状态是高校首行,如果下一行文字的行状态为“Major”,则当前状态迁移至“专业首行”状态,同时根据状态迁移特征对文字进行逻辑重构,让该专业隶属于上一个高校。通过状态机,不但将行与行之间的逻辑关系清晰的识别出来,同时将高校和专业之间的包含关系、专业注释和专业之间的隶属关系、高校名称附加行与高校名称之间的关系都准确的识别并进行了逻辑再组装。形成有效逻辑输出如图8所示。
以上所述实施例仅为说明本发明的技术构思及特点,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于状态机的识别文字逻辑重组方法,其特征在于,包括以下步骤:
S1:获取待处理图像,对图像进行预处理;
S2:根据每行文字的图像特征构建出每行文字的行状态信息;
S3:压缩掉文字块间空白和文字行间空白重构图像进行文字识别;
S4:根据原始图像构建基础行状态状态机;
S5:基础行状态状态机结合S2、S3结果实现状态跃迁,构建逻辑上下文状态机;
S6:S2中行状态信息,S3中所识别的文字输入到S5逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;
S7:逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。
2.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述文字识别为OCR文字识别。
3.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述S1中 图片预处理是:对扫描得到的图像进行黑白二值 化 处理;进行倾斜矫正并去除噪点;根据图像水平、垂直投影特征点切分板块;根据每个 板块水平投影特征切分文字行;根据每个文字行垂直投影特征切分文字块。
4.根据权利要求3所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述去除噪点 使用最小连通区域法。
5.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述S2中行状态信息存储于文件,每行为逗号分割的6列数据,第1列为行号,第2至第5列四个数字为该行文本在重构后图像中的位置信息,格式为:x, y, width, height,其中x为矩形左上角水平坐标,y为左上角垂直坐标,width为矩形区域宽度,height为矩形区域高度,第6列为行状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218850.9A CN112926456B (zh) | 2021-02-26 | 2021-02-26 | 一种基于状态机的识别文字逻辑重组方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218850.9A CN112926456B (zh) | 2021-02-26 | 2021-02-26 | 一种基于状态机的识别文字逻辑重组方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926456A true CN112926456A (zh) | 2021-06-08 |
CN112926456B CN112926456B (zh) | 2022-11-15 |
Family
ID=76172289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110218850.9A Active CN112926456B (zh) | 2021-02-26 | 2021-02-26 | 一种基于状态机的识别文字逻辑重组方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926456B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN109033225A (zh) * | 2018-06-29 | 2018-12-18 | 福州大学 | 中文地址识别系统 |
CN109196866A (zh) * | 2016-06-09 | 2019-01-11 | 高通股份有限公司 | 用于显示流压缩的子流多路复用 |
CN109565587A (zh) * | 2016-08-25 | 2019-04-02 | 英特尔公司 | 具有上下文解码和重构旁路的视频编码的方法和系统 |
CN111444906A (zh) * | 2020-03-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法和相关装置 |
CN112231431A (zh) * | 2020-12-11 | 2021-01-15 | 江苏苏宁银行股份有限公司 | 一种异常地址识别方法、设备和计算机可读存储介质 |
-
2021
- 2021-02-26 CN CN202110218850.9A patent/CN112926456B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN109196866A (zh) * | 2016-06-09 | 2019-01-11 | 高通股份有限公司 | 用于显示流压缩的子流多路复用 |
CN109565587A (zh) * | 2016-08-25 | 2019-04-02 | 英特尔公司 | 具有上下文解码和重构旁路的视频编码的方法和系统 |
CN108268445A (zh) * | 2018-01-11 | 2018-07-10 | 苏宁云商集团股份有限公司 | 一种处理地址信息的方法及装置 |
CN109033225A (zh) * | 2018-06-29 | 2018-12-18 | 福州大学 | 中文地址识别系统 |
CN111444906A (zh) * | 2020-03-24 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 基于人工智能的图像识别方法和相关装置 |
CN112231431A (zh) * | 2020-12-11 | 2021-01-15 | 江苏苏宁银行股份有限公司 | 一种异常地址识别方法、设备和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112926456B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933756B (zh) | 基于ocr的图像转档方法、装置、设备及可读存储介质 | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN112528863A (zh) | 表格结构的识别方法、装置、电子设备及存储介质 | |
US20190294663A1 (en) | Method and device for positioning table in pdf document | |
CN101375278B (zh) | 用于处理注释的策略 | |
Ma et al. | Joint layout analysis, character detection and recognition for historical document digitization | |
TW201719505A (zh) | 從成像檔案擷取正文之方法、設備以及有形電腦可讀儲存媒體 | |
JP2010510561A (ja) | 2次元コード及びそのデコード方法、その2次元コードを適用する印刷出版物 | |
JP4395188B2 (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
US8208726B2 (en) | Method and system for optical character recognition using image clustering | |
CN113283355A (zh) | 一种表格图像的识别方法、装置、计算机设备及存储介质 | |
CN112668289A (zh) | 一种嵌套表格的提取方法及装置、存储介质 | |
CN112749606A (zh) | 一种文本定位方法和装置 | |
CN112329548A (zh) | 一种文档章节分割方法、装置及存储介质 | |
CN114863408A (zh) | 文档内容分类方法、系统、装置及计算机可读存储介质 | |
CN100501762C (zh) | 图像连通元快速标记的方法 | |
Tripathy | Reconstruction of oriya alphabets using Zernike moments | |
WO2023065397A1 (zh) | 一种手写汉字图像的笔顺识别方法及系统 | |
Handley | Table analysis for multiline cell identification | |
CN111125221A (zh) | 基于Excel格式的数据提取系统及配置方法 | |
CN112926456B (zh) | 一种基于状态机的识别文字逻辑重组方法 | |
CN112560855B (zh) | 图像信息提取方法、装置、电子设备及存储介质 | |
CN109919153A (zh) | 基于手写识别人工智能技术的自动单据录入系统及方法 | |
CN116384344A (zh) | 一种文档转换方法、装置及存储介质 | |
CN110414497A (zh) | 对象电子化的方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |