CN112926456B - 一种基于状态机的识别文字逻辑重组方法 - Google Patents

一种基于状态机的识别文字逻辑重组方法 Download PDF

Info

Publication number
CN112926456B
CN112926456B CN202110218850.9A CN202110218850A CN112926456B CN 112926456 B CN112926456 B CN 112926456B CN 202110218850 A CN202110218850 A CN 202110218850A CN 112926456 B CN112926456 B CN 112926456B
Authority
CN
China
Prior art keywords
logic
line
character
state machine
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110218850.9A
Other languages
English (en)
Other versions
CN112926456A (zh
Inventor
孙全亮
吕震宇
王蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gexue Education Science And Technology Tangshan Co ltd
North China University of Science and Technology
Original Assignee
Gexue Education Science And Technology Tangshan Co ltd
North China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gexue Education Science And Technology Tangshan Co ltd, North China University of Science and Technology filed Critical Gexue Education Science And Technology Tangshan Co ltd
Priority to CN202110218850.9A priority Critical patent/CN112926456B/zh
Publication of CN112926456A publication Critical patent/CN112926456A/zh
Application granted granted Critical
Publication of CN112926456B publication Critical patent/CN112926456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明公开一种基于状态机的识别文字逻辑重组方法,包括以下步骤:获取待处理图片,对图片进行预处理;根据每行文字的图像特征构建出每行文字的行状态信息;压缩掉文字块间空白和文字行间空白重构图像进行文字识别;实现状态跃迁构建逻辑上下文状态机;所识别的文字输入到逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。该方法识别效率高,上下文逻辑组装准确,能够智能识别潜在OCR错误,解决了传统OCR只重视文字不重视内容的问题,可以应用在多种需要识别文字逻辑关系的OCR场景中。

Description

一种基于状态机的识别文字逻辑重组方法
技术领域
本发明涉及文字识别再处理领域,特别涉及一种基于状态机的识别文字逻辑重组方法。
背景技术
图像OCR文字识别是目前较为成熟的技术,然而该技术只能将图像中的文字识别出来,无法根据文字上下文关系对内容进行重构,具体体现在:
1、难以识别和处理文字块中行与行之间的复杂上下文逻辑关系;
2、尽管可以通过图像特征找出不同文字行的特征,然而这些特征往往有限,难以完全支撑复杂的逻辑上下文识别;如图2所示,根据每行文字突出与缩进位置,可以找到三种版式特征(下文中也称“行状态”,指代的是相同的内容),分别是高校首行、专业首行、普通文字。按照版式特征,第9行到第12行均为普通文字,然而第9行实际上是第8行的延续,共同组合成专业名称,第10行至第12行应该是对该专业的注释信息。因此单纯的版式特征不足以表达复杂的文字逻辑上下文关系;
3、OCR识别过程中会有潜在的识别错误,在OCR识别过程中,经常将大写字母“O”和数字“0”识别错误。这种识别错误校对非常困难。
综上,针对图像中识别文字,利用文字上下文关系对内容进行重构是文字识别领域需要深入研究的问题。
发明内容
本发明目的之一是解决复杂逻辑关系文本的有效文字识别。
本发明目的之二是提供一种有效的利用上下文关系对识别文字的逻辑重组方法。
本发明目的之三是构建文字行与行之间的上下文关系识别出潜在的OCR错误或业务逻辑错误。
本发明采用以下的技术方案:一种基于状态机的识别文字逻辑重组方法,其特征在于,包括以下步骤:
S1:获取待处理图像,对图像进行预处理;
S2:根据每行文字的图像特征构建出每行文字的行状态信息;
S3:压缩掉文字块间空白和文字行间空白重构图像进行文字识别;
S4:根据原始图像构建基础行状态状态机;
S5:基础行状态状态机结合S2、S3结果实现状态跃迁,构建逻辑上下文状态机;
S6:S2中行状态信息,S3中所识别的文字输入到S5逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;
S7:逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。
进一步的,所述文字识别为OCR文字识别。
进一步的,所述S1中 图片预处理是:对扫描得到的图像进行黑白二值 化 处理;进行倾斜矫正并去除噪点;根据图像水平、垂直投影特征点切分板块;根据每个 板块水平投影特征切分文字行;根据每个文字行垂直投影特征切分文字块。
进一步的,所述去除噪点 使用最小连通区域法。
进一步的,所述S2中行状态信息存储于文件,每行为逗号分割的6列数据,第1列为行号,第2至第5列四个数字为该行文本在重构后图像中的位置信息,格式为:x, y, width,height,其中x为矩形左上角水平坐标,y为左上角垂直坐标,width为矩形区域宽度,height为矩形区域高度,第6列为行状态。
本发明有益效果:本发明充分利用图像中的“版式”信息识别出每行文字的“版式行状态”,同时引入OCR识别结果中的“行文字特征”,实现状态跃迁,构建出更为复杂的用于表述行与行之间上下文关系的“状态机”。以此状态机为基础,结合“版式行状态”和“OCR识别结果行文字特征”,可以对OCR识别出来的纯文本文字进行逻辑重构,使得最终识别的结果是具有明确逻辑关系的文本信息而非零散的文字片段。该方法还能充分利用业务逻辑和状态机有限状态迁移特征,对OCR识别结果进行有效性校验,及时发现OCR识别错误。
该方法识别效率高,上下文逻辑组装准确,能够智能识别潜在OCR错误,解决了传统OCR只重视文字不重视内容的问题,可以应用在多种需要识别文字逻辑关系的OCR场景中。
附图说明
图1高考招生计划中文字之间复杂上下文关系图;
图2待识别图像部分行特征描述示意图;
图3 切分文字板块示意图;
图4 提取“行状态”标记物示意图;
图5 从原始图像信息中提取行状态、图像重组示意图;
图6 文字逻辑重构需要的行状态示意图;
图7 状态跃迁后的状态机逻辑关系图;
图8 文字逻辑输出示意图;
图9 前期处理流程图;
图10使用状态机检查并标注错误位置示意图。
具体实施方式
下面结合实施例对本发明的技术内容做进一步说明,下述实施例是说明性的,不是限定的,不能以下述实施例来限定本发明的保护范围。
本发明针对识别图片中复杂逻辑关系的文字提出一种结合状态机和文字识别结果的识别文字重组方法。
实施例1:本实施例以识别高考招生计划为例。一个高校信息下面可能会包含多个专业信息,一条专业信息下面可能是另外一个专业的专业信息,也可能是这条专业信息文字太长写不下的换行数据,对这些高校和专业数据的逻辑重组难度更大如图1所示。
一种基于状态机的识别文字逻辑重组方法,包括以下步骤:
S1:获取待处理图片,对图片进行预处理;对扫描得到的图像进行黑白二值 化处理;进行倾斜矫正并去除噪点;根据图像水平、垂直投影特征点切分板块;根据每个 板块水平投影特征切分文字行;根据每个文字行垂直投影特征切分文字块。
使用最小连通区域法去除图像噪点,然后对图像做水平投影和垂直投影,根据投影特征切分文字板块。如图3所示:
S2:根据每行文字的图像特征构建出每行文字的行状态信息;根据板块位置信息找出“行状态”标记物,在图4所示案例中,行状态标记物为两条竖线和行首特征字符“[”的图像。
图5显示了根据每行文字的位置信息识别出了四种行状态:(1)高校首行(University)。该类型行左侧超出了第一条标识线;(2)专业首行(Major)。该类型行左侧在第一条和第二条标识线中间;(3)学费首行([)。该行左侧没有突出,但第一个字符为“[”;(4)普通行(Normal)。其它没有明显特征的行。
图5中间给出了识别出来的行状态以及重构后的图像文件。行状态以文本文件存储,每行为逗号分割的6列数据,第1列为行号,第2至第5列四个数字为该行文本在重构后图像中的位置信息,格式为(x, y, width ,height),其中x为矩形左上角水平坐标,y为左上角垂直坐标,width为矩形区域宽度,height为矩形区域高度。在使用状态机对OCR结果纠错时,该坐标将用来在图像中高亮显示错误行的位置。第6列为行状态,其中“U n v”代表高校首行,“Major”代表专业首行,“[”代表学费首行,“空”代表普通行Normal。
S3:压缩掉文字块间空白和文字行间空白重构图像进行文字识别;
根据行与“行状态”标记物之间的关系,识别“行状态”。同时压缩掉每行文字块之间的空白,对文字图像进行重组。文字图像重组的目的是为了在云OCR识别过程中不至于产生多余的空格符,同时避免云OCR对版式的误推断导致识别错误增加。图5右侧给出的是去掉空白的重组图像,在此基础上进行文字识别。图9给出了S1,S2,S3步骤的处理流程。
S4:根据原始图像构建基础行状态状态机;
S5:基础行状态状态机结合S2、S3结果实现状态跃迁,构建逻辑上下文状态机;
根据原始图像相对位置信息能够得到的行状态是有限的,还不足以构建上下文完成对文字的逻辑重组,因此需要结合“行状态”和“OCR识别结果”实现状态跃迁,如图6右侧是二者结合实现的状态跃迁。例如针对图6中的第4行信息,我们可以结合版式信息识别出来的“Normal”行状态外加OCR识别出来的前四个字为“院校地址”,推测出第4行的行状态为“高校地址首行”。
状态跃迁后构建状态机,以实现复杂的上下文关系,从而实现全面的文字逻辑重组如图7所示。
S6:S2中行状态信息,S3中所识别的文字输入到S5逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;
状态机可以实现OCR文字识别纠错以及上下文环境纠错,在图2的案例中,高校首行前四个字符应该是数字,专业首行前两个字符应该是数字或大写字母,如果OCR识别结果不符合这个伴随行状态的业务规范,系统将自动识别出潜在的OCR错误。并通过图5中行状态X,Y坐标高亮显示以便查找,如图10所示。另外针对业务逻辑错误,由于招生计划里面一个高校至少要包含一个专业,因此如果某行的版式特征为“高校首行”,那么这行的下一行版式特征一定不可能是“高校首行”。如果在文字逻辑重构过程中发现了这种情况,说明OCR逻辑重构出现了问题,需要修正。
S7:逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。
使用行状态状态机,结合识别出来的文字信息和行状态信息,对文字进行逻辑重组,并生成具有逻辑关系的文字识别结果。假设当前行行状态是高校首行,如果下一行文字的行状态为“Major”,则当前状态迁移至“专业首行”状态,同时根据状态迁移特征对文字进行逻辑重构,让该专业隶属于上一个高校。通过状态机,不但将行与行之间的逻辑关系清晰的识别出来,同时将高校和专业之间的包含关系、专业注释和专业之间的隶属关系、高校名称附加行与高校名称之间的关系都准确的识别并进行了逻辑再组装。形成有效逻辑输出如图8所示。
以上所述实施例仅为说明本发明的技术构思及特点,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于状态机的识别文字逻辑重组方法,其特征在于,包括以下步骤:
S1:获取待处理图像,对图像进行预处理;
S2:根据每行文字的图像特征构建出每行文字的行状态信息,所述行状态信息包括:行号、该行文本在重构后图像中的位置信息、行状态;
S3:压缩掉文字块间空白和文字行间空白重构图像进行文字识别;
S4:根据原始图像构建基础行状态状态机;
S5:基础行状态状态机结合S2、S3结果实现状态跃迁,构建逻辑上下文状态机,所述状态跃迁是根据原始图像相对位置信息能够得到的行状态,结合文字识别结果推测出新的行状态,完成对文字的逻辑重组;
S6:S2中行状态信息,S3中所识别的文字输入到S5逻辑上下文状态机,利用逻辑上下文状态机和业务逻辑识别潜在的识别文字错误或行状态错误;
S7:逻辑上下文状态机对识别文字行进行逻辑重构,输出具有逻辑关系的识别结果。
2.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述文字识别为OCR文字识别。
3.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述S1中 图片预处理是:对扫描得到的图像进行黑白二值 化 处理;进行倾斜矫正并去除噪点;根据图像水平、垂直投影特征点切分板块;根据每个 板块水平投影特征切分文字行;根据每个文字行垂直投影特征切分文字块。
4.根据权利要求3所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述去除噪点 使用最小连通区域法。
5.根据权利要求1所述的一种基于状态机的识别文字逻辑重组方法,其特征在于,所述S2中行状态信息存储于文件,每行为逗号分割的6列数据,第1列为行号,第2至第5列四个数字为该行文本在重构后图像中的位置信息,格式为:x, y, width, height,其中x为矩形左上角水平坐标,y为左上角垂直坐标,width为矩形区域宽度,height为矩形区域高度,第6列为行状态,其中“U n v”代表高校首行,“Major”代表专业首行,“[”代表学费首行,“空”代表普通行Normal。
CN202110218850.9A 2021-02-26 2021-02-26 一种基于状态机的识别文字逻辑重组方法 Active CN112926456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110218850.9A CN112926456B (zh) 2021-02-26 2021-02-26 一种基于状态机的识别文字逻辑重组方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110218850.9A CN112926456B (zh) 2021-02-26 2021-02-26 一种基于状态机的识别文字逻辑重组方法

Publications (2)

Publication Number Publication Date
CN112926456A CN112926456A (zh) 2021-06-08
CN112926456B true CN112926456B (zh) 2022-11-15

Family

ID=76172289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110218850.9A Active CN112926456B (zh) 2021-02-26 2021-02-26 一种基于状态机的识别文字逻辑重组方法

Country Status (1)

Country Link
CN (1) CN112926456B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN108268445A (zh) * 2018-01-11 2018-07-10 苏宁云商集团股份有限公司 一种处理地址信息的方法及装置
CN109196866A (zh) * 2016-06-09 2019-01-11 高通股份有限公司 用于显示流压缩的子流多路复用
CN109565587A (zh) * 2016-08-25 2019-04-02 英特尔公司 具有上下文解码和重构旁路的视频编码的方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033225A (zh) * 2018-06-29 2018-12-18 福州大学 中文地址识别系统
CN111444906B (zh) * 2020-03-24 2023-09-29 腾讯科技(深圳)有限公司 基于人工智能的图像识别方法和相关装置
CN112231431B (zh) * 2020-12-11 2021-03-23 江苏苏宁银行股份有限公司 一种异常地址识别方法、设备和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN109196866A (zh) * 2016-06-09 2019-01-11 高通股份有限公司 用于显示流压缩的子流多路复用
CN109565587A (zh) * 2016-08-25 2019-04-02 英特尔公司 具有上下文解码和重构旁路的视频编码的方法和系统
CN108268445A (zh) * 2018-01-11 2018-07-10 苏宁云商集团股份有限公司 一种处理地址信息的方法及装置

Also Published As

Publication number Publication date
CN112926456A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
US10853565B2 (en) Method and device for positioning table in PDF document
Chaudhry et al. Leaf-qa: Locate, encode & attend for figure question answering
Yu et al. A generic system for form dropout
CN111160352B (zh) 一种基于图像分割的工件金属表面文字识别方法及系统
CN112528863A (zh) 表格结构的识别方法、装置、电子设备及存储介质
TWI606406B (zh) 從成像檔案擷取正文之方法、設備以及有形電腦可讀儲存媒體
CN102194123B (zh) 表格模板定义方法和装置
Ma et al. Joint layout analysis, character detection and recognition for historical document digitization
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
CN111191652A (zh) 一种证件图像识别方法、装置、电子设备及存储介质
CN112819004B (zh) 一种用于医疗票据ocr识别的图像预处理方法及系统
CN112749606A (zh) 一种文本定位方法和装置
CN105160343A (zh) 应用于胶片按需打印系统的信息识别方法和装置
CN100501762C (zh) 图像连通元快速标记的方法
Tripathy Reconstruction of oriya alphabets using Zernike moments
WO2023065397A1 (zh) 一种手写汉字图像的笔顺识别方法及系统
CN112926456B (zh) 一种基于状态机的识别文字逻辑重组方法
CN111428446B (zh) 问卷识别方法及问卷识别系统
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN110516674A (zh) 一种文本图像的手写汉字分割方法及系统
Berriche et al. Seam carving-based Arabic handwritten sub-word segmentation
JP3898645B2 (ja) 帳票書式編集装置および帳票書式編集プログラム
Gupta et al. Table detection and metadata extraction in document images
CN112836632A (zh) 自定义模板文字识别的实现方法及系统
TW200926013A (en) Method for correct twist of business card image and method for managing business card information and system thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant