CN115249362B - 基于像素在稳定方向上连通性的ocr表格识别方法及系统 - Google Patents

基于像素在稳定方向上连通性的ocr表格识别方法及系统 Download PDF

Info

Publication number
CN115249362B
CN115249362B CN202211140020.XA CN202211140020A CN115249362B CN 115249362 B CN115249362 B CN 115249362B CN 202211140020 A CN202211140020 A CN 202211140020A CN 115249362 B CN115249362 B CN 115249362B
Authority
CN
China
Prior art keywords
area
character
text
image
coating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211140020.XA
Other languages
English (en)
Other versions
CN115249362A (zh
Inventor
李思伟
蓝建敏
申鑫
池沐霖
纪绿彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Excellence Information Technology Co ltd
Original Assignee
Excellence Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Excellence Information Technology Co ltd filed Critical Excellence Information Technology Co ltd
Priority to CN202211140020.XA priority Critical patent/CN115249362B/zh
Publication of CN115249362A publication Critical patent/CN115249362A/zh
Application granted granted Critical
Publication of CN115249362B publication Critical patent/CN115249362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于像素在稳定方向上连通性的OCR表格识别方法及系统,先接收客户端发送的涂层信息,并根据涂层信息对待识别图像进行涂层叠加,根据叠加后的图像进行区域划分,划分出表格结构区域和表格内容区域。然后利用OCR技术对两个区域采用不同的文字识别流程,再在生成表格文本时,先利用表格结构区域中的表头区域、表行区域和表列区域构建出初始表格,最后对初始表格中的空白区域进行内容填入,并根据内容文本进行行线和列线的填充,生成表格文本。本发明实施例只需OCR技术的文字识别即能对表格进行识别,降低识别和应用门槛。

Description

基于像素在稳定方向上连通性的OCR表格识别方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于像素在稳定方向上连通性的OCR表格识别方法及系统。
背景技术
OCR(Optical Character Recognition),中文叫做光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着科技的发展,越来越多的应用场景(比如:涉及金融、保险、智慧安防、地产、教育的应用场景)都需要OCR的技术支持,以识别证件印刷体中的文本信息。
而OCR技术在表格识别的应用上通常是对整个图片进行全图切分,对切分后的区域进行OCR技术的腐蚀操作,用以确定图片是否存在表格。在确定存在表格后再通过OCR的文字识别技术,将表格中单元格内的图片文字进行识别,形成文字的字符串后,根据切分逻辑还原表格结构并填入对应的字符串,生成表格的结构化文本,如申请号为:CN201910558402.6 的发明专利。
但是,现有技术需要对整个表格进行OCR识别,对OCR识别模型的精度有较高的要求。另外,参考专利需要对所有切分区域进行迭代,识别数量量大,且重新生成表格时需要先根据切分图片进行单元格的构建,再填入对应的字符内容,若表格结构存在识别误差导致还原失败,轻则表格内容填入时发生偏移,重则表格数据错乱影响表格识别结构。
发明内容
本发明实施例提供一种基于像素在稳定方向上连通性的OCR表格识别方法及系统,仅需OCR文字识别即可识别出表格,降低运算量的同时减少表格生成失败的概率。
第一方面,本发明实施例提供了一种基于像素在稳定方向上连通性的OCR表格识别方法,包括:
接收客户端发送的涂层信息,并根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像;其中,所述涂层信息是所述客户端响应用户对所述待识别图像的涂层操作而生成,所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,并根据划分后的区域内各像素点的像素坐标,分别在所述待识别图像上映射出表格结构区域和表格内容区域;其中,所述表格结构区域包括:表头区域、表行区域和表列区域;
通过OCR技术对表格结构区域内的文字内容进行识别,获得若干个结构区域文本,并根据所述表格结构区域和所述结构区域文本,构建初始表格;其中,所述初始表格中的内容区域为空白区域;
通过OCR技术对表格内容区域内的文字内容进行识别,获得若干个文字字符,并分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息;
在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,并根据所述内容文本填充行线和列线,生成表格文本。
本发明实施例通过接收客户端发送的涂层信息,将待识别图像与涂层区域进行叠加,并利用第一叠加图像对待识别图像中的表格结构区域进行识别,在待识别图像中划分出结构区域和内容区域后,利用OCR技术对两个区域采用不同的识别流程,能够减少运算量,提高识别速率。而且在生成表格文本时,先利用表格结构区域中的表头区域、表行区域和表列区域构建出初始表格,再对初始表格中的空白区域进行内容填入。内容填入时,通过各个文字字符的相对位置信息,在确定一个文字字符后即可定位所有文字字符,形成内容文本,最后再根据内容文本进行行线和列线的填充,生成表格文本。相比于现有技术同时需要OCR进行图形和文字的识别,以及表格生成时先将单元格边框生成再填入内容的技术方案,本发明实施例只需OCR技术的文字识别即能对表格进行识别,降低识别和应用门槛,而且在表格生成时,先内容后框线的流程能够克服现有技术单元格内文字内容偏移的问题,提高了表格生成的准确性,也减少了表格生成失败的概率。
作为本实施例的优选,所述根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像,具体为:
根据各涂层区域的位置信息,定位待识别图像上的待叠加区域,并将各待叠加区域内各像素点的灰度值设置为所述第一预设值,生成第一叠加图像。
本优选例子利用灰度值对第一叠加图像进行划分时,由于将第一预设值设定为待识别图像上没有的灰度值,因此只需以第一预设值为界限,即可划分出第一区域和第二区域,无需复杂运行,进一步提高识别效率。
作为本实施例的优选,所述根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,具体为:
筛选出所述第一叠加图像中灰度值等于第一预设值的像素点,作为第一像素点集合;所述第一预设值为所述待识别图像上所有像素点均没有的灰度值;
迭代处理所述第一像素点集合中各像素点,判断各像素点是否存在邻域像素点为所述第一预设值的像素点;
若存在,则将该像素点保留在所述第一像素点集合;
若不存在,则将该像素点从所述第一像素点集合中剔除;
将迭代处理后第一像素点集合中各像素点在所述第一叠加图像上所形成的区域划分为第一区域,将所述第一叠加图像上的剩余区域划分为第二区域。
作为本实施例的优选,所述根据所述表格结构区域和所述结构区域文本,构建初始表格,具体为:
计算所述表格结构区域的最小外接矩形,并生成与所述最小外接矩形尺寸相同的表格模板;
在所述表格模板中划分所述表头区域、表行区域和表列区域,并将所述表格模板中剩余的空白区域划分为内容区域;
分别将结构区域文本填入到对应的区域,生成初始表格。
作为本实施例的优选,所述分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息,具体为:
获取待计算文字字符;
判断所述待计算文字字符的8邻域中是否存在文字字符;
若均不存在,则计算所述待计算文字字符与标定点之间的第一向量,将第一向量数据和标定点的坐标信息作为所述待计算文字字符的相对位置信息;其中,所述标定点设置在所述待识别图像上;
若存在一个,则计算所述待计算文字字符与存在的邻域文字字符之间的第二向量,将第二向量数据和邻域文字字符的坐标信息作为所述待计算文字字符的相对位置信息;
若存在至少两个,则任意选取两个邻域文字字符,计算所述待计算文字字符与选取的文字字符之间的距离,将距离数据和选取文字字符的坐标信息作为所述待计算文字字符的相对位置信息。
本优选例子在对文字字符进行识别后,通过每个字符的8邻域中是否存在文字字符来确定相对位置信息的计算方法,能够简化计算流程,提高识别准确度;而且在相对位置信息的选取时,为了后续能够由一个文字字符定位所有文字字符,通过设置标定点降低误差以及通过向量数据和距离数量作为参考量,能够提高识别的鲁棒性。
作为本实施例的优选,所述在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,具体为:
根据所述标定点的坐标信息,设置所述空白区域内的标定字符的位置;
根据所述标定字符的位置,查询所有文字字符中距离所述标定字符最近的文字字符,并计算所述距离最近的文字字符与所述标定点在待识别图像上的第三向量;
根据所述第三向量和所述标定字符的位置,确定所述距离最近的文字字符在所述空白区域内的位置;
根据相对位置信息和已确定位置的文字字符,迭代计算各文字字符的位置信息,并在每次迭代计算时更新已确定位置的文字字符,直到所有文字字符均确定在所述空白区域内的位置。
本优选例子,在进行内容文本形成时,通过标定点设置对应的标定字符,并以标定字符确定第一个文字字符的位置,相比于现有基于识别内容的坐标进行定位,本实施例的定位更准确,而且不受识别结果或数据读取结果的影响。在定位一个文字字符后,通过迭代计算进行字符定位,直到所有文字字符均确定在空白区域内的位置,确保表格内容无损漏,进一步提高识别准确性。
作为本实施例的优选,在生成表格文本之后,还包括:
将所述表格文本发送给所述客户端,以使所述客户端向用户展示所述表格文本;
接收所述客户端对所述涂层信息的调整操作请求,并根据所述调整操作请求,更新所述涂层信息,根据更新后的涂层信息,重新生成新的表格文本后,向所述客户端反馈新的表格文本。
本优选例子,将表格文本发给客户端,并接收客户端反馈的涂层信息调整操作请求,以此更新涂层信息并重新生成表格,提高本发明的实用性和适用范围。
第二方面,本发明实施例提供了一种基于像素在稳定方向上连通性的OCR表格识别系统,包括:客户端和服务器;
所述客户端用于与用户进行人机交互,响应所述用户对待识别图像的涂层操作,并根据所述涂层操作生成涂层信息;所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
所述客户端还用于将所述涂层信息发送给服务器;
所述服务器包括:叠加模块、区域划分模块、初始表格构建模块、内容识别模块和表格文本生成模块;
其中,所述叠加模块用于接收客户端发送的涂层信息,并根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像;其中,所述涂层信息是所述客户端响应用户对所述待识别图像的涂层操作而生成,所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
所述区域划分模块用于根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,并根据划分后的区域内各像素点的像素坐标,分别在所述待识别图像上映射出表格结构区域和表格内容区域;其中,所述表格结构区域包括:表头区域、表行区域和表列区域;
所述初始表格构建模块用于通过OCR技术对表格结构区域内的文字内容进行识别,获得若干个结构区域文本,并根据所述表格结构区域和所述结构区域文本,构建初始表格;其中,所述初始表格中的内容区域为空白区域;
所述内容识别模块用于通过OCR技术对表格内容区域内的文字内容进行识别,获得若干个文字字符,并分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息;
所述表格文本生成模块用于在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,并根据所述内容文本填充行线和列线,生成表格文本。
附图说明
图1是本发明提供的基于像素在稳定方向上连通性的OCR表格识别方法的一种实施例的流程示意图;
图2为本实施例提供的8邻域的一种示意图;
图3是本发明提供的基于像素在稳定方向上连通性的OCR表格识别系统的一种实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明提供的基于像素在稳定方向上连通性的OCR表格识别方法的一种实施例的流程示意图。本发明的识别方法适用于后台服务器,包括步骤101至步骤105,各步骤具体如下:
步骤101:接收客户端发送的涂层信息,并根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像;其中,所述涂层信息是所述客户端响应用户对所述待识别图像的涂层操作而生成,所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值。
在本实施例中,表格识别方法由后台服务器进行识别,但在真实的应用场景中往往是前端的客户端进行应用,若将识别流程设置在客户端,则会受限于客户端的算力,识别速度偏低,因此通过后台服务器进行识别运算,能够提高识别效率和准确度。但是后台服务器的识别速度也不能过低,太高的数据延迟也会影响用户体验,因此本实施例在保证表格识别的准确率同时,减少运算量提高识别效率,进而提高客户端的响应速度和用户的使用体验。
在本实施例中,客户端用于与用户进行人机交互,也用于进行待识别图像的采集,如实时拍照等。待识别图像也可以是预先存储在服务器中的图像,在处理前发给客户端以供用户操作。客户端接收用对待识别图像的涂层操作,并以此生成涂层信息。用户输入的涂层操作具体为在待识别图像中进行颜色填充,但涂层操作的对象为待识别图像中表格的表头、表列和表行。譬如,用户对表行进行涂层操作是:在原图上通过移动具有预设宽度的画笔,从左到右在表行的文字上进行覆盖移动,从而使得表行上的文字被预设颜色所覆盖,类似在现实场景中通过画笔将表行、表列和表头划掉。覆盖后的文字内容能否被查阅取决于透明度,用户可以根据情况设置不同的透明度。画笔颜色所对应的灰度值可以的但不限于为第一预设值,也可以是其他数值,但在生成涂层信息时,需要将其转换为第一预设值。
在本实施例中,通过多次用户操作会的多个涂层区域,客户端根据涂层区域的位置信息和第一预设值,生成涂层信息,并将其发给服务器。第一预设值可以但不限于为待识别图像上所有像素点均没有的灰度值,也可以选择固定数值,但后续的处理过程需要相应调整。
在本实施例中,根据涂层信息对待识别图像进行涂层叠加,获得第一叠加图像,具体为:根据各涂层区域的位置信息,定位待识别图像上的待叠加区域,并将各待叠加区域内各像素点的灰度值设置为所述第一预设值,生成第一叠加图像。由于涂层操作是在待识别图像上进行的,因此涂层区域能在待识别图像上找到相应的待叠加区域,并以此生成第一叠加图像。采用第一叠加图像进行区域定位,能够不影响原来的待识别图像,提高后续动作流程的准确性。
在本实施例中,第一叠加图像为新生成的图像并不会影响原来的待识别图像,也不会改动待识别图像内容,而是根据与待识别图像相同的图像信息,结合涂层信息而生成。
步骤102:根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,并根据划分后的区域内各像素点的像素坐标,分别在所述待识别图像上映射出表格结构区域和表格内容区域;其中,所述表格结构区域包括:表头区域、表行区域和表列区域。
在本实施例中,根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,具体为:
筛选出所述第一叠加图像中灰度值等于第一预设值的像素点,作为第一像素点集合;所述第一预设值为所述待识别图像上所有像素点均没有的灰度值;迭代处理所述第一像素点集合中各像素点,判断各像素点是否存在邻域像素点为所述第一预设值的像素点;若存在,则将该像素点保留在所述第一像素点集合;若不存在,则将该像素点从所述第一像素点集合中剔除;将迭代处理后第一像素点集合中各像素点在所述第一叠加图像上所形成的区域划分为第一区域,将所述第一叠加图像上的剩余区域划分为第二区域。
在本实施例中,将第一预设值设定为待识别图像上没有的灰度值,因此只需将等于第一预设值的像素点筛选处理,即可获得初步的第一区域。为了进一步提高准确性,通过对各像素点的邻域像素点进行二次判断,由于上一步中将各像素点设置为第一预设值,所以在同一区域内的像素点必然存在一个邻域像素点等于第一预设值,通过二次判断以及迭代筛选的方式,提高区域划分的准确性。
作为本实施例的一种举例,若第一预设值在设定时,在待识别图上也存在相同灰度值的像素点时,则根据用户反馈的指令对划分后的第一区域和第二区域进行确认,删除不符合要求的区域,以提高本发明的适用性。
在本实施例中,在获得第一区域和第二区域后,通过各区域内像素坐标,分别在待识别图像上映射出表格结构区域和表格内容区域。其中,第一区域对应表格结构区域,第二区域对应表格内容区域。由于用户的涂层信息是在表头、表行、表列进行的,因此能保证第一区域能够对应表格的结构信息。此外,作为本实施例的一种举例,用户也可以对表格内容进行涂层操作,以此来触发本申请的技术方案,只需在映射时候互换对象即可。
步骤103:通过OCR技术对表格结构区域内的文字内容进行识别,获得若干个结构区域文本,并根据所述表格结构区域和所述结构区域文本,构建初始表格;其中,所述初始表格中的内容区域为空白区域。
在本实施例中,通过OCR文字识别技术对表格结构区域内的文字内容进行识别,获得文字字符串,并根据文字字符串的内容得到若干个结构区域文本。结构区域文本对应的是表头文本、表行文本和表列文本。
在本实施例中,根据所述表格结构区域和所述结构区域文本,构建初始表格,具体为:计算所述表格结构区域的最小外接矩形,并生成与所述最小外接矩形尺寸相同的表格模板;在所述表格模板中划分所述表头区域、表行区域和表列区域,并将所述表格模板中剩余的空白区域划分为内容区域;分别将结构区域文本填入到对应的区域,生成初始表格。
由于表格结构区域为表格的最外围图像,因此只需根据区域大小生成最小外接矩形即可得到表格的最大面积,并根据各区域的位置,能够将表格模板划分为内容区域和结构区域,填入表头文本、表列文本和表行文本后即可获得初始表格。
步骤104:通过OCR技术对表格内容区域内的文字内容进行识别,获得若干个文字字符,并分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息。
在本实施例中,通过OCR文字识别技术对表格结构区域内的文字内容进行识别,获得文字字符串,并根据文字字符串的内容得到若干个文字字符。本实施例中,分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息,具体为:
获取待计算文字字符;
判断所述待计算文字字符的8邻域中是否存在文字字符;
若均不存在,则计算所述待计算文字字符与标定点之间的第一向量,将第一向量数据和标定点的坐标信息作为所述待计算文字字符的相对位置信息;其中,所述标定点设置在所述待识别图像上;
若存在一个,则计算所述待计算文字字符与存在的邻域文字字符之间的第二向量,将第二向量数据和邻域文字字符的坐标信息作为所述待计算文字字符的相对位置信息;
若存在至少两个,则任意选取两个邻域文字字符,计算所述待计算文字字符与选取的文字字符之间的距离,将距离数据和选取文字字符的坐标信息作为所述待计算文字字符的相对位置信息。
在本实施例中,参见图2,图2为本实施例提供的8邻域的一种示意图。图中中心(黑色部分)四周的空格即为中心部分的8邻域。对于灰度值在V集合中的像素p和q,如果q在p的8邻域中(即N8(p)),那么称像素p和q是8连通的。本实施例通过像素在连通性上关系确定像素点之间的相对关系,为后续执行步骤105进行技术支持。
如果文字字符的8邻域都没有其他文字字符,则通过文字字符与标定点之间的第一向量,生成相对位置信息。标点点设置在待识别图像上,可以由用户进行设置或者预先设置,如设置在四角或表格中心等。通过两点之间的向量以及坐标的对应关系,后续能够以此定位待计算文字字符的在空白区域上的位置。相对于现有技术,只考虑坐标信息的对应关系进行文字填入,本技术方案更强调内容文本的整体,由于各文字字符的相对位置能够得到保证,所以无需重新对文字字符进行排版和形式调整。
如果存在一个,则也可以将两个文字字符之间的向量和坐标信息作为待计算文字字符相对位置信息。如果存在至少两个,则选取两个邻域文字字符,这时无需计算向量,而是通过字符距离实现定位,由于两条线能够定位一个点,因此通过距离数据和坐标信息即可定位待计算文字字符。
作为本实施例的举例,也可以所有文字字符都与标定点的向量作为相对位置,但可能造成误识别等问题。此外,在存在多个邻域字符时,也可以多选择几个文字字符进行定位,提高定位的准确性。而本实施例选择距离数据作为主要的相对位置信息,相比于向量计算的计算量更少,无需关注向量方向,进一步提高运算速率。
本实施例在对文字字符进行识别后,通过每个字符的8邻域中是否存在文字字符来确定相对位置信息的计算方法,能够简化计算流程,提高识别准确度;而且在相对位置信息的选取时,为了后续能够由一个文字字符定位所有文字字符,通过设置标定点降低误差以及通过向量数据和距离数量作为参考量,能够提高识别的鲁棒性。
步骤105:在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,并根据所述内容文本填充行线和列线,生成表格文本。
在本实施例中,在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,具体为:
根据所述标定点的坐标信息,设置所述空白区域内的标定字符的位置;根据所述标定字符的位置,查询所有文字字符中距离所述标定字符最近的文字字符,并计算所述距离最近的文字字符与所述标定点在待识别图像上的第三向量;根据所述第三向量和所述标定字符的位置,确定所述距离最近的文字字符在所述空白区域内的位置;根据相对位置信息和已确定位置的文字字符,迭代计算各文字字符的位置信息,并在每次迭代计算时更新已确定位置的文字字符,直到所有文字字符均确定在所述空白区域内的位置。
在本实施例中,通过标定点的坐标,在空白区域先设置相应的标定字符位置,再以标定字符为起点,先找到最近的文字字符并通过步骤104的方法计算该文字字符与标定字符的第三向量,即可在空白区域定位该文字字符的位置。然后以该文字字符与其他文字字符的关系不断迭代定位,直到所有文字字符均确定在空白区域内的位置上。
本实施例在进行内容文本形成时,通过标定点设置对应的标定字符,并以标定字符确定第一个文字字符的位置,相比于现有基于识别内容的坐标进行定位,本实施例的定位更准确,而且不受识别结果或数据读取结果的影响。在定位一个文字字符后,通过迭代计算进行字符定位,直到所有文字字符均确定在空白区域内的位置,确保表格内容无损漏,进一步提高识别准确性。
在本实施例中,在内容文本生成后,根据整体形式自动填充行线和列线为现有技术,在此不再赘述。
作为本实施例的一种举例,在步骤105之后还可以包括:将所述表格文本发送给所述客户端,以使所述客户端向用户展示所述表格文本;接收所述客户端对所述涂层信息的调整操作请求,并根据所述调整操作请求,更新所述涂层信息,根据更新后的涂层信息,重新生成新的表格文本后,向所述客户端反馈新的表格文本。本举例将表格文本发给客户端,并接收客户端反馈的涂层信息调整操作请求,以此更新涂层信息并重新生成表格,提高本发明的实用性和适用范围。
相应地,参见图3,图3是本发明提供的基于像素在稳定方向上连通性的OCR表格识别系统,包括:客户端301和服务器302。
客户端301用于与用户进行人机交互,响应所述用户对待识别图像的涂层操作,并根据所述涂层操作生成涂层信息;所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
客户端301还用于将所述涂层信息发送给服务器302。
服务器302包括:叠加模块3021、区域划分模块3022、初始表格构建模块3023、内容识别模块3024和表格文本生成模块3025。
其中,所述叠加模块3021用于接收客户端发送的涂层信息,并根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像;其中,所述涂层信息是所述客户端响应用户对所述待识别图像的涂层操作而生成,所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
所述区域划分模块3022用于根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,并根据划分后的区域内各像素点的像素坐标,分别在所述待识别图像上映射出表格结构区域和表格内容区域;其中,所述表格结构区域包括:表头区域、表行区域和表列区域;
所述初始表格构建模块3023用于通过OCR技术对表格结构区域内的文字内容进行识别,获得若干个结构区域文本,并根据所述表格结构区域和所述结构区域文本,构建初始表格;其中,所述初始表格中的内容区域为空白区域;
所述内容识别模块3024用于通过OCR技术对表格内容区域内的文字内容进行识别,获得若干个文字字符,并分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息;
所述表格文本生成模块3025用于在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,并根据所述内容文本填充行线和列线,生成表格文本。
由上可见,本实施例具有以下有益效果:
本发明实施例通过接收客户端发送的涂层信息,将待识别图像与涂层区域进行叠加,并利用第一叠加图像对待识别图像中的表格结构区域进行识别,在待识别图像中划分出结构区域和内容区域后,利用OCR技术对两个区域采用不同的识别流程,能够减少运算量,提高识别速率。而且在生成表格文本时,先利用表格结构区域中的表头区域、表行区域和表列区域构建出初始表格,再对初始表格中的空白区域进行内容填入。内容填入时,通过各个文字字符的相对位置信息,在确定一个文字字符后即可定位所有文字字符,形成内容文本,最后再根据内容文本进行行线和列线的填充,生成表格文本。相比于现有技术同时需要OCR进行图形和文字的识别,以及表格生成时先将单元格边框生成再填入内容的技术方案,本发明实施例只需OCR技术的文字识别即能对表格进行识别,降低识别和应用门槛,而且在表格生成时,先内容后框线的流程能够克服现有技术单元格内文字内容偏移的问题,提高了表格生成的准确性,也减少了表格生成失败的概率。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (6)

1.一种基于像素在稳定方向上连通性的OCR表格识别方法,其特征在于,包括:
接收客户端发送的涂层信息,并根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像;其中,所述涂层信息是所述客户端响应用户对所述待识别图像的涂层操作而生成,所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,并根据划分后的区域内各像素点的像素坐标,分别在所述待识别图像上映射出表格结构区域和表格内容区域;其中,所述表格结构区域包括:表头区域、表行区域和表列区域;
通过OCR技术对表格结构区域内的文字内容进行识别,获得若干个结构区域文本,并根据所述表格结构区域和所述结构区域文本,构建初始表格;其中,所述初始表格中的内容区域为空白区域;
通过OCR技术对表格内容区域内的文字内容进行识别,获得若干个文字字符,并分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息;
在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,并根据所述内容文本填充行线和列线,生成表格文本;
所述根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像,具体为:根据各涂层区域的位置信息,定位待识别图像上的待叠加区域,并将各待叠加区域内各像素点的灰度值设置为所述第一预设值,生成第一叠加图像;
所述根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,具体为:
筛选出所述第一叠加图像中灰度值等于第一预设值的像素点,作为第一像素点集合;所述第一预设值为所述待识别图像上所有像素点均没有的灰度值;
迭代处理所述第一像素点集合中各像素点,判断各像素点是否存在邻域像素点为所述第一预设值的像素点;
若存在,则将该像素点保留在所述第一像素点集合;
若不存在,则将该像素点从所述第一像素点集合中剔除;
将迭代处理后第一像素点集合中各像素点在所述第一叠加图像上所形成的区域划分为第一区域,将所述第一叠加图像上的剩余区域划分为第二区域。
2.根据权利要求1所述的基于像素在稳定方向上连通性的OCR表格识别方法,其特征在于,所述根据所述表格结构区域和所述结构区域文本,构建初始表格,具体为:
计算所述表格结构区域的最小外接矩形,并生成与所述最小外接矩形尺寸相同的表格模板;
在所述表格模板中划分所述表头区域、表行区域和表列区域,并将所述表格模板中剩余的空白区域划分为内容区域;
分别将结构区域文本填入到对应的区域,生成初始表格。
3.根据权利要求1所述的基于像素在稳定方向上连通性的OCR表格识别方法,其特征在于,所述分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息,具体为:
获取待计算文字字符;
判断所述待计算文字字符的8邻域中是否存在文字字符;
若均不存在,则计算所述待计算文字字符与标定点之间的第一向量,将第一向量数据和标定点的坐标信息作为所述待计算文字字符的相对位置信息;其中,所述标定点设置在所述待识别图像上;
若存在一个,则计算所述待计算文字字符与存在的邻域文字字符之间的第二向量,将第二向量数据和邻域文字字符的坐标信息作为所述待计算文字字符的相对位置信息;
若存在至少两个,则任意选取两个邻域文字字符,计算所述待计算文字字符与选取的文字字符之间的距离,将距离数据和选取文字字符的坐标信息作为所述待计算文字字符的相对位置信息。
4.根据权利要求3所述的基于像素在稳定方向上连通性的OCR表格识别方法,其特征在于,所述在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,具体为:
根据所述标定点的坐标信息,设置所述空白区域内的标定字符的位置;
根据所述标定字符的位置,查询所有文字字符中距离所述标定字符最近的文字字符,并计算所述距离最近的文字字符与所述标定点在待识别图像上的第三向量;
根据所述第三向量和所述标定字符的位置,确定所述距离最近的文字字符在所述空白区域内的位置;
根据相对位置信息和已确定位置的文字字符,迭代计算各文字字符的位置信息,并在每次迭代计算时更新已确定位置的文字字符,直到所有文字字符均确定在所述空白区域内的位置。
5.根据权利要求1至4任意一项所述的基于像素在稳定方向上连通性的OCR表格识别方法,其特征在于,在生成表格文本之后,还包括:
将所述表格文本发送给所述客户端,以使所述客户端向用户展示所述表格文本;
接收所述客户端对所述涂层信息的调整操作请求,并根据所述调整操作请求,更新所述涂层信息,根据更新后的涂层信息,重新生成新的表格文本后,向所述客户端反馈新的表格文本。
6.一种基于像素在稳定方向上连通性的OCR表格识别系统,其特征在于,包括:客户端和服务器;
所述客户端用于与用户进行人机交互,响应所述用户对待识别图像的涂层操作,并根据所述涂层操作生成涂层信息;所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
所述客户端还用于将所述涂层信息发送给服务器;
所述服务器包括:叠加模块、区域划分模块、初始表格构建模块、内容识别模块和表格文本生成模块;
其中,所述叠加模块用于接收客户端发送的涂层信息,并根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像;其中,所述涂层信息是所述客户端响应用户对所述待识别图像的涂层操作而生成,所述涂层信息包括:若干个涂层区域,且每个涂层区域中所有像素点的灰度值均为第一预设值;
所述区域划分模块用于根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,并根据划分后的区域内各像素点的像素坐标,分别在所述待识别图像上映射出表格结构区域和表格内容区域;其中,所述表格结构区域包括:表头区域、表行区域和表列区域;
所述初始表格构建模块用于通过OCR技术对表格结构区域内的文字内容进行识别,获得若干个结构区域文本,并根据所述表格结构区域和所述结构区域文本,构建初始表格;其中,所述初始表格中的内容区域为空白区域;
所述内容识别模块用于通过OCR技术对表格内容区域内的文字内容进行识别,获得若干个文字字符,并分别计算每个文字字符与其8邻域内各文字字符的距离,作为每个文字字符的相对位置信息;
所述表格文本生成模块用于在确定任一文字字符在所述空白区域内的位置时,根据各所述文字字符的相对位置信息,在所述空白区域形成内容文本,并根据所述内容文本填充行线和列线,生成表格文本;
所述根据所述涂层信息对待识别图像进行涂层叠加,获得第一叠加图像,具体为:根据各涂层区域的位置信息,定位待识别图像上的待叠加区域,并将各待叠加区域内各像素点的灰度值设置为所述第一预设值,生成第一叠加图像;
所述根据灰度值对所述第一叠加图像进行区域划分,获得第一区域和第二区域,具体为:
筛选出所述第一叠加图像中灰度值等于第一预设值的像素点,作为第一像素点集合;所述第一预设值为所述待识别图像上所有像素点均没有的灰度值;
迭代处理所述第一像素点集合中各像素点,判断各像素点是否存在邻域像素点为所述第一预设值的像素点;
若存在,则将该像素点保留在所述第一像素点集合;
若不存在,则将该像素点从所述第一像素点集合中剔除;
将迭代处理后第一像素点集合中各像素点在所述第一叠加图像上所形成的区域划分为第一区域,将所述第一叠加图像上的剩余区域划分为第二区域。
CN202211140020.XA 2022-09-20 2022-09-20 基于像素在稳定方向上连通性的ocr表格识别方法及系统 Active CN115249362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211140020.XA CN115249362B (zh) 2022-09-20 2022-09-20 基于像素在稳定方向上连通性的ocr表格识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211140020.XA CN115249362B (zh) 2022-09-20 2022-09-20 基于像素在稳定方向上连通性的ocr表格识别方法及系统

Publications (2)

Publication Number Publication Date
CN115249362A CN115249362A (zh) 2022-10-28
CN115249362B true CN115249362B (zh) 2022-12-27

Family

ID=83699319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211140020.XA Active CN115249362B (zh) 2022-09-20 2022-09-20 基于像素在稳定方向上连通性的ocr表格识别方法及系统

Country Status (1)

Country Link
CN (1) CN115249362B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168409B (zh) * 2023-04-20 2023-07-21 广东聚智诚科技有限公司 一种应用于标准、专利分析报告自动生成系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408937A (zh) * 2008-11-07 2009-04-15 东莞市微模式软件有限公司 一种字符行定位的方法及装置
CN108427959A (zh) * 2018-02-07 2018-08-21 北京工业大数据创新中心有限公司 基于图像识别的机台状态采集方法及系统
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN111325110A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
CN113705576A (zh) * 2021-11-01 2021-11-26 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242257B2 (en) * 2017-05-18 2019-03-26 Wipro Limited Methods and devices for extracting text from documents
US11200413B2 (en) * 2018-07-31 2021-12-14 International Business Machines Corporation Table recognition in portable document format documents
CN109993112B (zh) * 2019-03-29 2021-04-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408937A (zh) * 2008-11-07 2009-04-15 东莞市微模式软件有限公司 一种字符行定位的方法及装置
CN108427959A (zh) * 2018-02-07 2018-08-21 北京工业大数据创新中心有限公司 基于图像识别的机台状态采集方法及系统
CN109522816A (zh) * 2018-10-26 2019-03-26 北京慧流科技有限公司 表格识别方法及装置、计算机存储介质
CN111325110A (zh) * 2020-01-22 2020-06-23 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
CN113705576A (zh) * 2021-11-01 2021-11-26 江西中业智能科技有限公司 一种文本识别方法、装置、可读存储介质及设备

Also Published As

Publication number Publication date
CN115249362A (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
US20210271917A1 (en) Image processing method and apparatus, electronic device, and storage medium
CN109753953B (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN111027563A (zh) 一种文本检测方法、装置及识别系统
US9959475B2 (en) Table data recovering in case of image distortion
CN111259878A (zh) 一种检测文本的方法和设备
CN113343740B (zh) 表格检测方法、装置、设备和存储介质
CN115249362B (zh) 基于像素在稳定方向上连通性的ocr表格识别方法及系统
CN111275139A (zh) 手写内容去除方法、手写内容去除装置、存储介质
CN102360505B (zh) 一种图形验证码生成方法
CN111814716A (zh) 印章去除方法、计算机设备和可读存储介质
CN112149561A (zh) 图像处理方法和装置、电子设备和存储介质
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
JP7035656B2 (ja) 情報処理装置及びプログラム
CN112906532B (zh) 图像处理方法和装置、电子设备和存储介质
US11030488B1 (en) Book scanning using machine-trained model
CN114332883A (zh) 发票信息识别方法、装置、计算机设备及存储介质
KR102223754B1 (ko) 객체 이미지 개선 방법 및 장치
CN113537184A (zh) Ocr模型训练方法、装置、计算机设备、存储介质
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
WO2023066142A1 (zh) 全景图像的目标检测方法、装置、计算机设备和存储介质
CN116704518A (zh) 一种文本识别方法及装置、电子设备、存储介质
CN111274863A (zh) 一种基于文本山峰概率密度的文本预测方法
CN115797939A (zh) 一种基于深度学习的两阶段斜体字符识别方法及装置
CN116030472A (zh) 文字坐标确定方法及装置
CN115953744A (zh) 一种基于深度学习的车辆识别追踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant