CN114926852A - 表格识别重构方法、装置、设备、介质及程序产品 - Google Patents

表格识别重构方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN114926852A
CN114926852A CN202210264155.0A CN202210264155A CN114926852A CN 114926852 A CN114926852 A CN 114926852A CN 202210264155 A CN202210264155 A CN 202210264155A CN 114926852 A CN114926852 A CN 114926852A
Authority
CN
China
Prior art keywords
target
target image
image
text
line segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210264155.0A
Other languages
English (en)
Inventor
夏伯谦
王洪彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210264155.0A priority Critical patent/CN114926852A/zh
Publication of CN114926852A publication Critical patent/CN114926852A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本说明书实施例公开了一种表格识别重构方法、装置、设备、介质及程序产品。其中,该方法包括:通过根据包括表格的目标图像进行文字识别得到的上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置,以及上述目标图像中的表格进行直线检测得到的至少四条目标线段以及每条上述目标线段对应的位置,重构上述目标图像中的表格。

Description

表格识别重构方法、装置、设备、介质及程序产品
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种表格识别重构方法、装置、设备、介质及程序产品。
背景技术
在各行各业中都存在着表格的大量提取,录入工作。例如在保险行业,理赔核算需要提取发票表格明细和相关信息。如果完全依赖人力提取,不仅需要高昂的人力成本,同时还易造成提取错误。目前,在机器进行发票表格识别的实际过程中,发票表格版式多样,基于规则的发票表格识别方法或传统图像识别方法均需要通过不断调整提取规则或传统图像算法设置的阈值才能满足识别新发票表格类型的需求。
发明内容
本说明书实施例提供了一种表格识别重构方法、装置、设备、介质及程序产品,通过对目标图像中的表格进行直线检测,从而实现目标图像中表格的重构,既提高表格识别重构的鲁棒性,又能够帮助企业或者个人无需在不同场景下进行阈值和规则的调整,就可以实现表格的识别,降低企业或者个人信息提取的成本,提高表格识别重构的效率。所述技术方案如下:
第一方面,本说明书实施例提供了一种表格识别重构方法,包括:
获取包含表格的目标图像;
对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置;上述目标文本包括至少一个上述目标文字;
对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果;上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置;
根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格。
在一种可能的实现方式中,上述获取目标图像之后,上述对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置之前,上述方法还包括:
对上述目标图像进行预处理,得到预处理后的目标图像;
上述对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置,包括:
对上述预处理后的目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述预处理后的目标图像中对应的位置;
上述对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果,包括:
对上述预处理后的目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果。
在一种可能的实现方式中,上述预处理包括对上述目标图像进行质量增强处理和/或对上述目标图像进行图像矫正处理。
在一种可能的实现方式中,上述根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格,包括:
删除上述直线检测结果中的重复目标线段,得到非重复目标线段集合;上述非重复目标线段集合包括至少四条非重复目标线段;
根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述非重复目标线段集合以及上述非重复目标线段集合中每条非重复目标线段对应的位置重构上述目标图像中的表格。
在一种可能的实现方式中,上述删除上述直线检测结果中的重复目标线段之前,上述方法还包括:
根据上述直线检测结果中每条目标线段对应的位置确定上述直线检测结果中的重复目标线段。
在一种可能的实现方式中,上述删除上述直线检测结果中的重复目标线段之前,上述方法还包括:
计算上述直线检测结果中每两条上述目标线段之间的相似度;
若上述相似度大于预设阈值,则按照第一预设规则将上述相似度对应的两条目标线段中的一条目标线段确定为重复目标线段。
在一种可能的实现方式中,上述根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述非重复目标线段集合以及上述非重复目标线段集合中每条非重复目标线段对应的位置重构上述目标图像中的表格,包括:
基于上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及上述至少一个目标单元格对应的坐标信息;
基于上述至少一个目标单元格对应的坐标信息以及上述目标文本中每个目标文字在上述目标图像中对应的位置,将上述目标文本和上述至少一个目标单元格按照第三预设规则进行整合,得到上述目标图像中的表格。
在一种可能的实现方式中,上述基于上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及上述至少一个目标单元格对应的坐标信息,包括:
根据上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段进行连接,得到至少一个目标单元格;
确定上述非重复目标线段集合中的非重复目标线段之间的交点坐标;
根据上述交点坐标确定上述至少一个目标单元格对应的坐标信息。
在一种可能的实现方式中,上述基于上述至少一个目标单元格对应的坐标信息以及上述目标文本中每个目标文字在上述目标图像中对应的位置,将上述目标文本和上述至少一个目标单元格按照第三预设规则进行整合,得到上述目标图像中的表格,包括:
根据上述目标文本中每个目标文字在上述目标图像中对应的位置确定上述目标文本中每个目标文字对应的中心坐标;
若上述目标文字对应的中心坐标在上述目标单元格的坐标信息对应的范围内,则将上述目标文字填入上述目标单元格中,得到上述目标图像中的表格。
在一种可能的实现方式中,上述根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格之后,上述方法还包括:
按照预设格式输出上述表格。
第二方面,本说明书实施例提供了一种表格识别重构装置,包括:
获取模块,用于获取包含表格的目标图像;
文字识别模块,用于对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置;上述目标文本包括至少一个上述目标文字;
直线检测模块,用于对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果;上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置;
重构模块,用于根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格。
在一种可能的实现方式中,上述装置还包括:
预处理模块,用于对上述目标图像进行预处理,得到预处理后的目标图像;
上述文字识别模块具体用于:
对上述预处理后的目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述预处理后的目标图像中对应的位置;
上述直线检测模块具体用于:
对上述预处理后的目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果。
在一种可能的实现方式中,上述预处理包括对上述目标图像进行质量增强处理和/或对上述目标图像进行图像矫正处理。
在一种可能的实现方式中,上述重构模块包括:
删除单元,用于删除上述直线检测结果中的重复目标线段,得到非重复目标线段集合;上述非重复目标线段集合包括至少四条非重复目标线段;
重构单元,用于根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述非重复目标线段集合以及上述非重复目标线段集合中每条非重复目标线段对应的位置重构上述目标图像中的表格。
在一种可能的实现方式中,上述重构模块还包括:
第一确定单元,用于根据上述直线检测结果中每条目标线段对应的位置确定上述直线检测结果中的重复目标线段。
在一种可能的实现方式中,上述重构模块还包括:
计算单元,用于计算上述直线检测结果中每两条上述目标线段之间的相似度;
第二确定单元,用于若上述相似度大于预设阈值,则按照第一预设规则将上述相似度对应的两条目标线段中的一条目标线段确定为重复目标线段。
在一种可能的实现方式中,上述重构单元包括:
第一整合子单元,用于基于上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及上述至少一个目标单元格对应的坐标信息;
第二整合子单元,用于基于上述至少一个目标单元格对应的坐标信息以及上述目标文本中每个目标文字在上述目标图像中对应的位置,将上述目标文本和上述至少一个目标单元格按照第三预设规则进行整合,得到上述目标图像中的表格。
在一种可能的实现方式中,上述第一整合子单元具体用于:
根据上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段进行连接,得到至少一个目标单元格;
确定上述非重复目标线段集合中的非重复目标线段之间的交点坐标;
根据上述交点坐标确定上述至少一个目标单元格对应的坐标信息。
在一种可能的实现方式中,上述第二整合子单元具体用于:
根据上述目标文本中每个目标文字在上述目标图像中对应的位置确定上述目标文本中每个目标文字对应的中心坐标;
若上述目标文字对应的中心坐标在上述目标单元格的坐标信息对应的范围内,则将上述目标文字填入上述目标单元格中,得到上述目标图像中的表格。
在一种可能的实现方式中,上述装置还包括:
输出模块,用于按照预设格式输出上述表格。
第三方面,本说明书实施例提供了一种电子设备,包括:处理器以及存储器;
上述处理器与上述存储器相连;
上述存储器,用于存储可执行程序代码;
上述处理器通过读取上述存储器中存储的可执行程序代码来运行与上述可执行程序代码对应的程序,以用于执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。
第四方面,本说明书实施例提供了一种计算机存储介质,上述计算机存储介质存储有多条指令,上述指令适于由处理器加载并执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的方法。
第五方面,本说明书实施例提供了一种包含指令的计算机程序产品,当上述计算机程序产品在计算机或处理器上运行时,使得上述计算机或上述处理器执行本说明书实施例第一方面或第一方面的任意一种可能的实现方式提供的表格识别重构方法。
本说明书实施例通过对包含表格的目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置,并通过对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果,上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置,然后根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格,从而实现目标图像中表格的重构,既提高表格识别重构的鲁棒性,又能够帮助企业或者个人无需在不同场景下进行阈值和规则的调整,就可以实现表格的识别,降低企业或者个人信息提取的成本,提高表格识别重构的效率。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一示例性实施例提供的一种表格识别重构系统的架构示意图;
图2为本说明书一示例性实施例提供的一种表格识别重构方法的流程示意图;
图3A为本说明书一示例性实施例提供的一种目标图像的示意图;
图3B为本说明书一示例性实施例提供的一种文字识别的示意图;
图4A为本说明书一示例性实施例提供的另一种目标图像的示意图;
图4B为本说明书一示例性实施例提供的一种按照预设格式输出的表格的示意图;
图5为本说明书一示例性实施例提供的一种表格重构的实现流程示意图;
图6A-图6B为本说明书一示例性实施例提供的一种重复目标线段的示意图;
图7为本说明书一示例性实施例提供的另一种重复目标线段的示意图;
图8为本说明书一示例性实施例提供的一种第二预设规则的实现流程示意图;
图9为本说明书一示例性实施例提供的一种得到目标单元格的过程示意图;
图10为本说明书一示例性实施例提供的一种第三预设规则的实现流程示意图;
图11为本说明书一示例性实施例提供的一种得到重构表格的过程示意图;
图12为本说明书一示例性实施例提供的另一种表格识别重构方法的流程示意图;
图13为本说明书一示例性实施例提供的一种表格识别重构装置的结构示意图;
图14为本说明书一示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述。
本说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
请参考图1,图1为本说明书一示例性实施例提供的一种表格识别重构系统的架构示意图。如图1所示,表格识别重构系统可以包括:第一终端集群和服务器120。其中:
第一终端集群可以为用户端,具体包括一个或多个用户端,其中多个用户端可以包括用户端110a、用户端110b、用户端110c…等。在第一终端集群中可安装用户版的软件,用于实现用户线上输入包括表格的目标图像等功能。第一终端集群中任意一个用户端均可以建立与网络之间的数据关系,并通过该网络和服务器120建立数据连接关系,例如发送表格的目标图像、接收目标图像进行表格识别重构后的表格等。其中,第一终端集群中任意一个用户端可以但不限于是安装有用户版软件的手机、平板电脑、笔记本电脑等设备。需要说明的是,本说明书实施例中的任意一个用户端可以安装有广角摄像头。该广角摄像头可用于获取包括表格的目标图像。该用户端可以对该目标图像进行裁剪处理,并将处理后的目标图像发送给其他终端或服务器120。
服务器120可以是能提供多种表格识别重构的服务器,可以接收网络或用户端发送的包括表格的目标图像等数据,并对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置,并通过对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果,上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置,然后根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格。服务器120还可以将上述重构的目标图像中的表格输出至第一终端集群中任意一个用户端等。服务器120可以但不限于是硬件服务器、虚拟服务器、云服务器等。
上述目标图像中表格的识别重构不限于上述服务器120执行,还可以是第一终端集群中任意一个用户端。上述用户端可以通过该用户端上安装的广角摄像头获取包含表格的目标图像,或通过网络接收其它用户端发送的包含表格的目标图像等,并对上述目标图像进行文字识别,以及对上述目标图像中的表格进行直线检测,从而根据上述文字识别得到的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格。本说明书实施例对此不作具体限定,以下实施例全部以由服务器120执行上述目标图像中表格的识别重构为例进行说明。
网络可以是在服务器120和第一终端集群中任意一个用户端之间提供通信链路的介质,也可以是包含网络设备和传输介质的互联网,不限于此。传输介质可以是有线链路(例如但不限于,同轴电缆、光纤和数字用户线路(digital subscriber line,DSL)等)或无线链路(例如但不限于,无线上网(wireless fidelity,WIFI)、蓝牙和移动设备网络等)。
可以理解地,图1所示的表格识别重构系统中的第一终端集群以及服务器120的数目仅作为示例,在具体实现中,该表格识别重构系统中可以包含任意数目的用户端和服务器。本说明书实施例对此不作具体限定。例如但不限于,服务器120可以是多个服务器组成的服务器集群。
接下来结合图1,介绍本说明书实施例提供的表格识别重构方法。具体请参考图2,其为本说明书一示例性实施例提供的一种表格识别重构方法的流程示意图。如图2所示,该表格识别重构方法包括以下几个步骤:
步骤202,获取包含表格的目标图像。
具体地,当由服务器120执行目标图像中表格的识别重构时,可通过网络接收第一终端集群中任意一个用户端发送的需要识别重构的包含表格的目标图像;当由第一终端集群中的用户端执行目标图像中表格的识别重构时,该用户端也可以通过网络接收第一终端集群中的其它用户端发送的包含表格的目标图像,或通过该用户端上安装的广角摄像头获取需要识别重构的包含表格的目标图像。上述目标图像中表格的数量可以为一个,也可以为多个,本说明书实施例对此不作限定。
步骤204,对目标图像进行文字识别,得到目标图像中的目标文本以及目标文本中每个目标文字在目标图像中对应的位置。
具体地,可以采用预设文字识别算法对目标图像进行文字识别,从而得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在目标图像中对应的位置。上述目标文本包括至少一个目标文字。上述目标文字包括但不限于字母、数字、运算符号、标点符号等。上述预设文字识别算法包括光学字符识别(Optical Character Recognition,OCR)算法、深度学习文字识别算法等,本说明书实施例对此不作限定。上述目标文字在目标图像中对应的位置包括但不限于每个目标文字在目标图像中对应的最小外接矩形的左上顶点像素坐标以及右下顶点像素坐标或右上顶点像素坐标以及左下顶点像素坐标等。即可以先识别出目标图像中的目标文本,然后再根据上述目标文本中的每个目标文字在上述目标图像中对应的多个像素点坐标确定每个目标文字在目标图像中对应的最小外接矩形,然后根据上述最小外接矩形的左上顶点像素坐标以及右下顶点像素坐标或右上顶点像素坐标以及左下顶点像素坐标确定上述每个目标文字在上述目标图像中对应的位置。
示例性地,若识别出图3A所示的目标图像a中的目标文字310“发”在目标图像a中对应的多个像素点坐标的最小横坐标为88、最大横坐标为600、最小纵坐标为80、最大坐标为999,则如图3B所示,可以确定上述目标文字310“发”在目标图像a中对应的最小外接矩形320以及上述最小外接矩形320在目标图像a中的左上顶点像素坐标A(3880,180)以及右下顶点像素坐标C(4600,1999)、右上顶点像素坐标B(4600,180)以及左下顶点像素坐标D(3880,1999),并将上述左上顶点像素坐标A(3880,180)以及右下顶点像素坐标C(4600,1999)或右上顶点像素坐标B(4600,180)以及左下顶点像素坐标D(3880,1999)确定为上述目标文字310“发”在目标图像a中对应的位置。
可选地,可以直接将上述目标图像输入文字识别模型中,从而输出得到目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置。上述目标文本包括至少一个目标文字。上述目标文字包括但不限于字母、数字、运算符号、标点符号等。上述文字识别模型通过已知目标文本以及上述目标文本中每个目标文字在图像中对应的位置的图像训练得到。
步骤206,对目标图像中的表格进行直线检测,得到表格对应的直线检测结果。
具体地,可以采用预设直线检测算法对目标图像中的表格进行直线检测,从而得到上述表格对应的直线检测结果。上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置。上述至少四条目标线段可以根据上述各条目标线段对应的位置排列连接,组成至少一个封闭的单元格。上述目标线段对应的位置包括但不限于上述目标线段在目标图像中对应的两端像素点的像素坐标或上述目标线段在目标图像中对应的中心像素点的像素坐标以及上述目标线段的长度。上述预设直线检测算法可以是通过对图像中每一个像素点进行分类,确定每个点的类别,并将数量大于预设数量的类别相同且各自对应的水平位置或竖直位置的差值在预设范围的多个连续像素点所组成的物体确定为目标线段,也即上述目标线段为水平的线段或竖直的线段,并将上述目标线段两端像素点的像素坐标或中心像素点的像素坐标以及上述目标线段的长度即包括像素点的个数确定为上述目标线段对应的位置。上述预设数量可以为1000、10000等,本说明书实施例对此不作限定。上述预设范围可以为2、10、15等,本说明书对此不作限定。
可选地,可以直接将上述目标图像输入直线检测模型中,从而输出得到上述表格对应的至少四条目标线段以及每条上述目标线段对应的位置。上述至少四条目标线段可以根据上述各条目标线段对应的位置排列连接,组成至少一个封闭的矩形单元格。上述直线检测模型基于包含已知组成表格的全部目标线段以及上述各目标线段对应的位置的上述表格的图像进行训练得到。
步骤208,根据目标文本以及目标文本中每个目标文字在目标图像中对应的位置和直线检测结果重构目标图像中的表格。
具体地,可以采用信息整合重构模块对直线检测结果中的目标线段进行整合和调整,得到由上述目标线段组成的至少一个单元格以及上述至少一个单元格对应的坐标信息,并根据目标文本中每个目标文字在目标图像中对应的位置以及上述至少一个单元格对应的坐标信息,将上述目标文本中每个目标文字与上述至少一个单元格进行整合,从而得到重构的目标图像中的表格。
可选地,为了满足不同用户对识别重构后的表格不同格式的存储、查看、编辑等需求,降低企业信息提取的成本,提高效率,在根据上述目标文本以及上述目标文本中每个目标文字在目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格之后,若上述表格识别重构由服务器120执行,则上述服务器120还可以按照预设格式将上述表格输出至用户端,若上述表格识别重构由用户端执行,则上述用户端也可以按照预设格式输出上述表格,并将上述表格按照上述预设格式显示在用户端的页面中,以供用户对上述表格进行存储、查看、编辑、信息提取等操作。上述预设格式包括但不限于word、excel、xml格式文件等,用户也可根据需求进行选择和设定。
示例性地,若获取如图4A所示的目标图像b,输出的预设格式为excel格式,则当上述目标图像b进行表格识别重构得到上述目标图像b中的表格后,如图4B所示,可以按照上述excel格式输出上述目标图像b中的表格,以供用户对上述目标图像b中表格的内容进行存储、查看、编辑、信息提取等操作。
本说明书实施例通过对包含表格的目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置,并通过对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果,上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置,然后根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格,从而实现目标图像中表格的重构,既提高表格识别重构的鲁棒性,又能够帮助企业或者个人无需在不同场景下进行阈值和规则的调整,就可以实现表格的识别,降低企业或者个人信息提取的成本,提高表格识别重构的效率。
由于目标图像的质量、表格的拍摄角度以及直线检测算法的性能等因素,可能会存在对目标图像中的表格进行直线检测时,检测出了重复目标线段的情况,例如针对组成上述表格的一条长目标线段,同时检测出多条具有重复像素点坐标的短目标线段,或不仅检测出上述长目标线段,还检测出与上述长目标线段的各像素点坐标接近的目标线段等,从而导致在利用上述直线检测得到直线检测结果中的目标线段重构上述目标图像中的表格时,表格重构的准确率较低等问题。为了解决上述问题,接下来结合图1-图4B,介绍本说明书实施例提供的表格识别重构方法中上述步骤208,根据目标文本以及目标文本中每个目标文字在目标图像中对应的位置和直线检测结果重构目标图像中的表格的一种具体实现过程。具体请参考图5,其为本说明书一示例性实施例提供的一种重构表格的实现流程示意图。如图5所示,该重构表格的实现流程包括以下几个步骤:
步骤502,删除直线检测结果中的重复目标线段,得到非重复目标线段集合。
具体地,为了避免重复目标线段对表格重构的影响,可以先删除对目标图像中的表格进行直线检测得到的表格对应的直线检测结果中的重复目标线段,从而得到非重复目标线段集合。上述非重复目标线段集合包括至少四条非重复目标线段。上述至少四条非重复目标线段中包括至少两条水平的非重复目标线段以及至少两条竖直的非重复目标线段。上述重复目标线段可以用于表征全部像素点的像素坐标均已被其它目标线段中的像素点的像素坐标覆盖的目标线段,也可以用于表征上述直线检测结果包括的至少四条目标线段中由数量大于预设数量的具有相同的像素坐标的像素点组成的线段,本说明书对此不作限定。上述预设数量可以为1000、10000等,本说明书实施例对此不作限定。
可选地,可以先根据直线检测结果中每条目标线段对应的位置确定上述直线检测结果中的重复目标线段,即可以根据目标线段对应的两端像素点的像素坐标(起始点坐标和终点坐标)或中心像素点的像素坐标以及上述目标线段的长度,将上述直线检测结果包括的至少四条目标线段中重复的像素坐标所对应的像素点构成的线段确定为重复目标线段,然后再删除上述直线检测结果中确定的上述重复目标线段,从而得到非重复目标线段集合。
示例性地,如图6A所示,若目标线段610对应的位置为(100,200)、(900,200),目标线段620对应的位置为(200,200)、(500,200),则可根据上述目标线段610对应的位置以及上述目标线段620对应的位置确定上述两条目标线段中重复的像素坐标所对应的像素点构成的线段对应的位置为(200,200)、(500,200),即长的目标线段610中包括了短的目标线段620,从而可以将上述短的目标线段620确定为重复目标线段。
示例性地,如图6B所示,若目标线段630对应的位置为(100,100)、(100,500),目标线段640对应的位置为(100,300)、(100,900),则可根据上述目标线段630对应的位置以及上述目标线段640对应的位置确定上述两条目标线段中重复的像素坐标所对应的像素点构成的线段650对应的位置为(100,300)、(100,500),即上述目标线段630和上述目标线段640中存在重复部分,从而可以将上述目标线段630和上述目标线段640的重复部分即线段650确定为重复目标线段。
可选地,除了可以通过上述根据直线检测结果中每条目标线段对应的位置确定上述直线检测结果中的重复目标线段之外,还可以通过计算上述直线检测结果中每两条目标线段之间的相似度,当上述相似度大于预设阈值时,按照第一预设规则将上述相似度对应的两条目标线段中的一条目标线段确定为重复目标线段。上述相似度用于表征两条目标线段对应的多个像素坐标之间相似性。当上述两条目标线段的长度不同时,计算上述直线检测结果中每两条目标线段之间的相似度可以通过计算两条目标线段中较长的目标线段对应的多个像素坐标中与较短的目标线段对应的多个像素坐标相似的概率得到。当上述两条目标线段的长度不同时,上述第一预设规则可以是将上述两条目标线段中较短的那条目标线段确定为重复目标线段;当上述两条目标线段的长度相同时,上述第一预设规则可以是将上述两条目标线段中的任意一条确定为重复目标线段或根据其它目标线段的位置进行确定等,本说明实施例对此不作限定。上述预设阈值可以为0.8、0.9等,本说明书实施例对此不作限定。
示例性地,当进行相似度计算的两条目标线段的长度不同时,如图7所示,若上述两条目标线段中较长的目标线段710对应16000个像素坐标,较短的目标线段720对应10000个像素坐标,且上述较长的目标线段710与上述较短的目标线段720中相似的像素坐标数量为9900个,则可以计算得到上述较长的目标线段710与上述较短的目标线段720之间的相似度为0.99,若预设阈值为0.9,即可以将上述较短的目标线段720确定为重复目标线段。
步骤504,根据目标文本以及目标文本中每个目标文字在目标图像中对应的位置和非重复目标线段集合以及非重复目标线段集合中每条非重复目标线段对应的位置重构目标图像中的表格。
具体地,可以先基于非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及上述至少一个目标单元格对应的坐标信息,然后再基于上述至少一个目标单元格对应的坐标信息以及上述目标文本中每个目标文字在目标图像中对应的位置,将上述目标文本和上述至少一个目标单元格按照第三预设规则进行整合,从而得到上述目标图像中的表格。
进一步地,如图8所示,上述第二预设规则包括以下几个步骤:
步骤802,根据非重复目标线段集合中每条非重复目标线段对应的位置,将非重复目标线段集合中的非重复目标线段进行连接,得到至少一个目标单元格。
具体地,可以将非重复目标线段集合中所有的非重复目标线段按照每条非重复目标线段分别对应的位置进行连接,从而得到至少四个交点,并根据上述至少四个交点确定至少一个目标单元格。上述目标单元格用于表征上述至少四个交点中位于同一直线上的两个相邻的交点以及平行于上述直线的相邻直线上的与上述两个相邻的交点对应的水平坐标或垂直坐标分别相同的两个交点所围成的矩形。
示例性地,如图9所示,若非重复目标线段集合中有四条非重复目标线段,其中,非重复目标线段910对应的位置为(1000,1000)、(9000,1000),非重复目标线段920对应的位置为(800,9000)、(9500,9000),非重复目标线段930对应的位置为(1000,200)、(1000,12000),非重复目标线段940对应的位置为(9000,1000)、(9000,9000),则可以确定上述四条非重复目标线段之间的四个交点坐标为(1000,1000)、(9000,1000)、(9000,9000)、(1000,9000),从而可以得到如图9所示的目标单元格950。
步骤804,确定非重复目标线段集合中的非重复目标线段之间的交点坐标。
具体地,可以将非重复目标线段集合中的非重复目标线段中相同的像素坐标确定为上述非重复目标线段集合中的非重复目标线段之间的交点坐标。
步骤806,根据交点坐标确定至少一个目标单元格对应的坐标信息。
具体地,可以将目标单元格中左上角的交点坐标和右下角的交点坐标或左下角的交点坐标和右上角的交点坐标确定为目标单元格对应的坐标信息。
进一步地,如图10所示,上述第三预设规则包括以下几个步骤:
步骤1002,根据目标文本中每个目标文字在目标图像中对应的位置确定目标文本中每个目标文字对应的中心坐标。
具体地,可以根据目标文本中每个目标文字在目标图像中对应的位置,即最小外接矩形的左上顶点像素坐标以及右下顶点像素坐标或右上顶点像素坐标以及左下顶点像素坐标,计算得到每个目标文字在目标图像中对应的最小外接矩形的中心坐标,并将上述中心坐标确定为上述目标文本中每个目标文字对应的中心坐标。
示例性地,若目标文字“A”在目标图像中对应的位置为(2000,4000)、(4000,8000),则可以计算得到上述目标文字“A”在目标图像中对应的最小外接矩形的中心坐标为(3000,6000),并将上述中心坐标(3000,6000)确定为上述目标文字“A”对应的中心坐标。
步骤1004,若目标文字对应的中心坐标在目标单元格的坐标信息对应的范围内,则将目标文字填入目标单元格中,得到目标图像中的表格。
具体地,当确定了目标文本中每个目标文字对应的中心坐标以及目标单元格对应的坐标信息之后,可先判断目标文字对应的中心坐标是否位于目标单元格的坐标信息对应的范围内,若上述目标文字对应的中心坐标在目标单元格的坐标信息对应的范围内,即上述目标文字对应的中心坐标在目标单元格所对应的矩形范围内,则可以直接将上述目标文字按照第四预设规则填写入对应的目标单元格中,从而得到目标图像中的表格。上述第四预设规则可以包括但不限于预设的目标文字字体、预设的目标文字大小、预设的目标文字间距等。上述第四预设规则还可以是直接根据识别出的目标文字的位置确定需要填入目标单元格的对应目标文字的大小,本说明书对此不作限定。
示例性地,如图11所示,若目标文字1110“口”对应的中心坐标1120为(2000,4000),某个目标单元格1130对应的坐标信息为E(1000,2000)、F(6000,9000),则可以确定上述目标单元格1130的坐标信息对应的水平范围为大于1000且小于6000,垂直范围为大于2000且小于9000,从而判断上述目标文字1110“口”在上述目标单元格1130的坐标信息对应的范围内,即可以将上述目标文字1110“口”填入目标单元格1130中,得到如图11所示的目标图像中的表格1140。
可选地,若目标文字对应的中心坐标不在目标单元格的坐标信息对应的范围内,例如表格外的表头、落款等目标文字,可以将根据上述目标文字对应的中心坐标将上述目标文字填写在目标单元格之外对应的位置坐标上,也可以直接删除上述中心坐标在目标单元格的坐标信息对应的范围之外的目标文字,本说明书对此不作限定。
在本说明书实施例中,通过删除对目标图像中的表格进行直线检测得到直线检测结果中的重复目标线段,得到非重复目标线段集合,并根据目标文本以及目标文本中每个目标文字在目标图像中对应的位置和上述非重复目标线段集合以及非重复目标线段集合中每条非重复目标线段对应的位置重构目标图像中的表格,既能够避免检测出的重复目标线段对表格重构的影响,提高表格识别重构的鲁棒性,又能够提高表格识别重构的效率和准确率。
由于获取的目标图像中的表格可能存在模糊、倾斜等实际问题,若直接对上述目标图像进行表格识别重构,将会导致表格识别重构的鲁棒性较差,以及表格识别重构的效率和准确率较低等问题。为了解决上述问题,接下来结合图1-图11,介绍本说明书实施例提供的另一种表格识别重构方法的流程示意图。如图12所示,该表格识别重构方法包括以下几个步骤:
步骤1202,获取包含表格的目标图像。
具体地,步骤1202与步骤202一致,此处不再赘述。
步骤1204,对目标图像进行预处理,得到预处理后的目标图像。
具体地,为了提高表格识别重构的效率和准确率,可以先对获取的包含表格的目标图像进行一些预处理操作,从而得到预处理后的目标图像。上述预处理操作包括但不限于对上述目标图像进行质量增强处理和/或对上述目标图像进行图像矫正处理。对目标图像进行质量增强处理和图像矫正处理时,可以先对目标图像进行质量增强处理,再对目标图像进行图像矫正处理,也可以先对目标图像进行图像矫正处理,再对目标图像进行质量增强处理,本说明书实施例对此不作限定。上述质量增强处理包括但不限于图像去模糊处理、图像亮度增强处理、图像对比度增强处理、图像超分辨率重建处理等。上述图像矫正处理包括但不限于图像四方向旋转技术、透视矫正技术等。
步骤1206,对预处理后的目标图像进行文字识别,得到预处理后的目标图像中的目标文本以及目标文本中每个目标文字在预处理后的目标图像中对应的位置。
具体地,可以采用文字识别模块对预处理后的目标图像进行文字识别,得到上述预处理后的目标图像中的目标文本以及目标文本中每个目标文字在预处理后的目标图像中对应的位置。上述目标文本包括至少一个目标文字。上述文字识别模块可以包括EasyOCR、tesseract-ocr等,也可以使用各种预设文字识别算法进行替代,本说明书对此不作限定。上述预设文字识别算法包括光学字符识别(Optical Character Recognition,OCR)算法、深度学习神经网络文字识别算法等,本说明书实施例对此不作限定。上述深度学习神经网络文字识别算法包括但不限于通过已知目标文本以及目标文本中每个目标文字在图像中对应的位置的图像训练得到的文字识别模型。
步骤1208,对预处理后的目标图像中的表格进行直线检测,得到表格对应的直线检测结果。
具体地,可以采用直线检测模块对预处理后的目标图像中的表格进行直线检测,得到表格对应的直线检测结果。上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置。上述至少四条目标线段可以根据上述各条目标线段对应的位置排列连接,组成至少一个封闭的矩形单元格。上述直线检测模块可以包括直线检测模型,也可以使用预设语义分割算法进行替代,本说明书对此不作限定。上述直线检测模型基于包含已知组成表格的全部目标线段以及上述各目标线段对应的位置的上述表格的图像进行训练得到。语义分割算法是将标签或类别与图片的每个像素关联的一种算法,用于识别构成可区分类别的像素集合,即对图像中每一个像素点进行分类,确定每个点的类别,从而进行区域划分。上述预设语义分割算法包括基于纹理基元森林(Texton Forest)的语义分割算法、基于随机森林(Random Forest)的语义分割算法、深度学习语义分割算法等,本说明书对此不作限定。
步骤1210,根据目标文本以及目标文本中每个目标文字在预处理后的目标图像中对应的位置和直线检测结果重构目标图像中的表格。
具体地,可以根据目标文本中每个目标文字在预处理后的目标图像中对应的位置,将上述目标文本中每个目标文字分别填入对应的由直线检测结果中的目标线段组成的单元格中,从而实现重构目标图像中的表格。
在本说明书实施例中,通过先对获取的包含表格的目标图像进行质量增强和/或图像矫正等预处理操作,然后再对经过上述预处理操作后的目标图像进行文字识别和直线检测,并根据上述文字识别得到的目标文本以及目标文本中每个目标文字在预处理后的目标图像中对应的位置和上述直线检测得到的直线检测结果重构目标图像中的表格,能够实现包含表格的目标图像的质量增强和/或大方向和小角度的矫正,既增强了表格识别重构的鲁棒性,又提高了表格识别重构的效率和准确率。
请参考图13,图13为本说明书一示例性实施例提供的一种表格识别重构装置。该表格识别重构装置1300包括:
获取模块1310,用于获取包含表格的目标图像;
文字识别模块1320,用于对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置;上述目标文本包括至少一个上述目标文字;
直线检测模块1330,用于对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果;上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置;
重构模块1340,用于根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格。
在一种可能的实现方式中,上述表格识别重构装置1300还包括:
预处理模块,用于对上述目标图像进行预处理,得到预处理后的目标图像;
上述文字识别模块1320具体用于:
对上述预处理后的目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述预处理后的目标图像中对应的位置;
上述直线检测模块1330具体用于:
对上述预处理后的目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果。
在一种可能的实现方式中,上述预处理包括对上述目标图像进行质量增强处理和/或对上述目标图像进行图像矫正处理。
在一种可能的实现方式中,上述重构模块1340包括:
删除单元,用于删除上述直线检测结果中的重复目标线段,得到非重复目标线段集合;上述非重复目标线段集合包括至少四条非重复目标线段;
重构单元,用于根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述非重复目标线段集合以及上述非重复目标线段集合中每条非重复目标线段对应的位置重构上述目标图像中的表格。
在一种可能的实现方式中,上述重构模块1340还包括:
第一确定单元,用于根据上述直线检测结果中每条目标线段对应的位置确定上述直线检测结果中的重复目标线段。
在一种可能的实现方式中,上述重构模块1340还包括:
计算单元,用于计算上述直线检测结果中每两条上述目标线段之间的相似度;
第二确定单元,用于若上述相似度大于预设阈值,则按照第一预设规则将上述相似度对应的两条目标线段中的一条目标线段确定为重复目标线段。
在一种可能的实现方式中,上述重构单元包括:
第一整合子单元,用于基于上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及上述至少一个目标单元格对应的坐标信息;
第二整合子单元,用于基于上述至少一个目标单元格对应的坐标信息以及上述目标文本中每个目标文字在上述目标图像中对应的位置,将上述目标文本和上述至少一个目标单元格按照第三预设规则进行整合,得到上述目标图像中的表格。
在一种可能的实现方式中,上述第一整合子单元具体用于:
根据上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段进行连接,得到至少一个目标单元格;
确定上述非重复目标线段集合中的非重复目标线段之间的交点坐标;
根据上述交点坐标确定上述至少一个目标单元格对应的坐标信息。
在一种可能的实现方式中,上述第二整合子单元具体用于:
根据上述目标文本中每个目标文字在上述目标图像中对应的位置确定上述目标文本中每个目标文字对应的中心坐标;
若上述目标文字对应的中心坐标在上述目标单元格的坐标信息对应的范围内,则将上述目标文字填入上述目标单元格中,得到上述目标图像中的表格。
在一种可能的实现方式中,上述装置1300还包括:
输出模块,用于按照预设格式输出上述表格。
上述表格识别重构装置中各模块的划分仅用于举例说明,在其他实施例中,可将表格识别重构装置按照需要划分为不同的模块,以完成上述表格识别重构装置的全部或部分功能。本说明书实施例中提供的表格识别重构装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在终端或服务器的存储器上。该计算机程序被处理器执行时,实现本说明书实施例中所描述的表格识别重构方法的全部或部分步骤。
请参阅图14,图14为本说明书一示例性实施例提供的一种电子设备的结构示意图。如图14所示,该电子设备1400可以包括:至少一个处理器1410、至少一个通信总线1420、用户接口1430、至少一个网络接口1440、存储器1450。
其中,通信总线1420可用于实现上述各个组件的连接通信。
其中,用户接口1430可以包括显示屏(Display)和摄像头(Camera),可选用户接口还可以包括标准的有线接口、无线接口。
其中,网络接口1440可选的可以包括蓝牙模块、近场通信(Near FieldCommunication,NFC)模块、无线保真(Wireless Fidelity,Wi-Fi)模块等。
其中,处理器1410可以包括一个或者多个处理核心。处理器1410利用各种接口和线路连接整个电子设备1400内的各个部分,通过运行或执行存储在存储器1450内的指令、程序、代码集或指令集,以及调用存储在存储器1450内的数据,执行路由电子设备1400的各种功能和处理数据。可选的,处理器1410可以采用数字信号处理(Digital SignalProcessing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1410可集成处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1410中,单独通过一块芯片进行实现。
其中,存储器1450可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。可选的,该存储器1450包括非瞬时性计算机可读介质。存储器1450可用于存储指令、程序、代码、代码集或指令集。存储器1450可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如获取功能、文字识别功能、直线检测功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1450可选的还可以是至少一个位于远离前述处理器1410的存储装置。如图14所示,作为一种计算机存储介质的存储器1450中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。
具体地,处理器1410可以用于调用存储器1450中存储的程序指令,并具体执行以下操作:
获取包含表格的目标图像。
对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置;上述目标文本包括至少一个上述目标文字。
对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果;上述直线检测结果包括至少四条目标线段以及每条上述目标线段对应的位置。
根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格。
在一些可能的实施例中,上述处理器1410执行获取目标图像之后,对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置之前,还用于执行:
对上述目标图像进行预处理,得到预处理后的目标图像。
上述对上述目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置时,具体用于执行:
对上述预处理后的目标图像进行文字识别,得到上述目标图像中的目标文本以及上述目标文本中每个目标文字在上述预处理后的目标图像中对应的位置。
上述对上述目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果时,具体用于执行:
对上述预处理后的目标图像中的表格进行直线检测,得到上述表格对应的直线检测结果。
在一些可能的实施例中,上述预处理包括对上述目标图像进行质量增强处理和/或对上述目标图像进行图像矫正处理。
在一些可能的实施例中,上述处理器1410执行根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格时,具体用于执行:
删除上述直线检测结果中的重复目标线段,得到非重复目标线段集合;上述非重复目标线段集合包括至少四条非重复目标线段。
根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述非重复目标线段集合以及上述非重复目标线段集合中每条非重复目标线段对应的位置重构上述目标图像中的表格。
在一些可能的实施例中,上述处理器1410执行删除上述直线检测结果中的重复目标线段之前,还用于执行:
根据上述直线检测结果中每条目标线段对应的位置确定上述直线检测结果中的重复目标线段。
在一些可能的实施例中,上述处理器1410执行删除上述直线检测结果中的重复目标线段之前,还用于执行:
计算上述直线检测结果中每两条上述目标线段之间的相似度。
若上述相似度大于预设阈值,则按照第一预设规则将上述相似度对应的两条目标线段中的一条目标线段确定为重复目标线段。
在一些可能的实施例中,上述处理器1410执行根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述非重复目标线段集合以及上述非重复目标线段集合中每条非重复目标线段对应的位置重构上述目标图像中的表格时,具体用于执行:
基于上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及上述至少一个目标单元格对应的坐标信息。
基于上述至少一个目标单元格对应的坐标信息以及上述目标文本中每个目标文字在上述目标图像中对应的位置,将上述目标文本和上述至少一个目标单元格按照第三预设规则进行整合,得到上述目标图像中的表格。
在一些可能的实施例中,上述处理器1410执行基于上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及上述至少一个目标单元格对应的坐标信息,包括:
根据上述非重复目标线段集合中每条非重复目标线段对应的位置,将上述非重复目标线段集合中的非重复目标线段进行连接,得到至少一个目标单元格。
确定上述非重复目标线段集合中的非重复目标线段之间的交点坐标。
根据上述交点坐标确定上述至少一个目标单元格对应的坐标信息。
在一些可能的实施例中,上述处理器1410执行基于上述至少一个目标单元格对应的坐标信息以及上述目标文本中每个目标文字在上述目标图像中对应的位置,将上述目标文本和上述至少一个目标单元格按照第三预设规则进行整合,得到上述目标图像中的表格时,具体用于执行:
根据上述目标文本中每个目标文字在上述目标图像中对应的位置确定上述目标文本中每个目标文字对应的中心坐标。
若上述目标文字对应的中心坐标在上述目标单元格的坐标信息对应的范围内,则将上述目标文字填入上述目标单元格中,得到上述目标图像中的表格。
在一些可能的实施例中,上述处理器1410执行根据上述目标文本以及上述目标文本中每个目标文字在上述目标图像中对应的位置和上述直线检测结果重构上述目标图像中的表格之后,还用于执行:
按照预设格式输出上述表格。
本说明书实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述实施例中的一个或多个步骤。上述表格识别重构装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本说明书实施例上述的流程或功能。上述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。上述计算机指令可以存储在计算机可读存储介质中,或者通过上述计算机可读存储介质进行传输。上述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。上述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。上述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(DigitalVersatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。
以上所述的实施例仅仅是本说明书的优选实施例方式进行描述,并非对本说明书的范围进行限定,在不脱离本说明书的设计精神的前提下,本领域普通技术人员对本说明书的技术方案作出的各种变形及改进,均应落入权利要求书确定的保护范围内。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (14)

1.一种表格识别重构方法,所述方法包括:
获取包含表格的目标图像;
对所述目标图像进行文字识别,得到所述目标图像中的目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置;所述目标文本包括至少一个所述目标文字;
对所述目标图像中的表格进行直线检测,得到所述表格对应的直线检测结果;所述直线检测结果包括至少四条目标线段以及每条所述目标线段对应的位置;
根据所述目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置和所述直线检测结果重构所述目标图像中的表格。
2.如权利要求1所述的方法,所述获取目标图像之后,所述对所述目标图像进行文字识别,得到所述目标图像中的目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置之前,所述方法还包括:
对所述目标图像进行预处理,得到预处理后的目标图像;
所述对所述目标图像进行文字识别,得到所述目标图像中的目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置,包括:
对所述预处理后的目标图像进行文字识别,得到所述目标图像中的目标文本以及所述目标文本中每个目标文字在所述预处理后的目标图像中对应的位置;
所述对所述目标图像中的表格进行直线检测,得到所述表格对应的直线检测结果,包括:
对所述预处理后的目标图像中的表格进行直线检测,得到所述表格对应的直线检测结果。
3.如权利要求2所述的方法,所述预处理包括对所述目标图像进行质量增强处理和/或对所述目标图像进行图像矫正处理。
4.如权利要求1所述的方法,所述根据所述目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置和所述直线检测结果重构所述目标图像中的表格,包括:
删除所述直线检测结果中的重复目标线段,得到非重复目标线段集合;所述非重复目标线段集合包括至少四条非重复目标线段;
根据所述目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置和所述非重复目标线段集合以及所述非重复目标线段集合中每条非重复目标线段对应的位置重构所述目标图像中的表格。
5.如权利要求4所述的方法,所述删除所述直线检测结果中的重复目标线段之前,所述方法还包括:
根据所述直线检测结果中每条目标线段对应的位置确定所述直线检测结果中的重复目标线段。
6.如权利要求4所述的方法,所述删除所述直线检测结果中的重复目标线段之前,所述方法还包括:
计算所述直线检测结果中每两条所述目标线段之间的相似度;
若所述相似度大于预设阈值,则按照第一预设规则将所述相似度对应的两条目标线段中的一条目标线段确定为重复目标线段。
7.如权利要求4-6任意一项所述的方法,所述根据所述目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置和所述非重复目标线段集合以及所述非重复目标线段集合中每条非重复目标线段对应的位置重构所述目标图像中的表格,包括:
基于所述非重复目标线段集合中每条非重复目标线段对应的位置,将所述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及所述至少一个目标单元格对应的坐标信息;
基于所述至少一个目标单元格对应的坐标信息以及所述目标文本中每个目标文字在所述目标图像中对应的位置,将所述目标文本和所述至少一个目标单元格按照第三预设规则进行整合,得到所述目标图像中的表格。
8.如权利要求7所述的方法,所述基于所述非重复目标线段集合中每条非重复目标线段对应的位置,将所述非重复目标线段集合中的非重复目标线段按照第二预设规则进行整合,得到至少一个目标单元格以及所述至少一个目标单元格对应的坐标信息,包括:
根据所述非重复目标线段集合中每条非重复目标线段对应的位置,将所述非重复目标线段集合中的非重复目标线段进行连接,得到至少一个目标单元格;
确定所述非重复目标线段集合中的非重复目标线段之间的交点坐标;
根据所述交点坐标确定所述至少一个目标单元格对应的坐标信息。
9.如权利要求7所述的方法,所述基于所述至少一个目标单元格对应的坐标信息以及所述目标文本中每个目标文字在所述目标图像中对应的位置,将所述目标文本和所述至少一个目标单元格按照第三预设规则进行整合,得到所述目标图像中的表格,包括:
根据所述目标文本中每个目标文字在所述目标图像中对应的位置确定所述目标文本中每个目标文字对应的中心坐标;
若所述目标文字对应的中心坐标在所述目标单元格的坐标信息对应的范围内,则将所述目标文字填入所述目标单元格中,得到所述目标图像中的表格。
10.如权利要求1所述的方法,所述根据所述目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置和所述直线检测结果重构所述目标图像中的表格之后,所述方法还包括:
按照预设格式输出所述表格。
11.一种表格识别重构装置,所述装置包括:
获取模块,用于获取包含表格的目标图像;
文字识别模块,用于对所述目标图像进行文字识别,得到所述目标图像中的目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置;所述目标文本包括至少一个所述目标文字;
直线检测模块,用于对所述目标图像中的表格进行直线检测,得到所述表格对应的直线检测结果;所述直线检测结果包括至少四条目标线段以及每条所述目标线段对应的位置;
重构模块,用于根据所述目标文本以及所述目标文本中每个目标文字在所述目标图像中对应的位置和所述直线检测结果重构所述目标图像中的表格。
12.一种电子设备,包括:处理器和存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1-10任一项所述的方法。
13.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-10任一项的方法步骤。
14.一种包含指令的计算机程序产品,当所述计算机程序产品在计算机或处理器上运行时,使得所述计算机或所述处理器执行如权利要求1-10任一项所述的表格识别重构方法。
CN202210264155.0A 2022-03-17 2022-03-17 表格识别重构方法、装置、设备、介质及程序产品 Pending CN114926852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210264155.0A CN114926852A (zh) 2022-03-17 2022-03-17 表格识别重构方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210264155.0A CN114926852A (zh) 2022-03-17 2022-03-17 表格识别重构方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN114926852A true CN114926852A (zh) 2022-08-19

Family

ID=82805406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210264155.0A Pending CN114926852A (zh) 2022-03-17 2022-03-17 表格识别重构方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN114926852A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN101981583A (zh) * 2008-03-28 2011-02-23 智能技术Ulc公司 用于识别手绘表格的方法和工具
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
WO2020140698A1 (zh) * 2019-01-04 2020-07-09 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN113139445A (zh) * 2021-04-08 2021-07-20 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN113283355A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 一种表格图像的识别方法、装置、计算机设备及存储介质
WO2021237909A1 (zh) * 2020-05-29 2021-12-02 深圳壹账通智能科技有限公司 一种表格还原方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101981583A (zh) * 2008-03-28 2011-02-23 智能技术Ulc公司 用于识别手绘表格的方法和工具
CN101866335A (zh) * 2010-06-14 2010-10-20 深圳市万兴软件有限公司 一种文档转换中的表格处理方法及装置
CN109446487A (zh) * 2018-11-01 2019-03-08 北京神州泰岳软件股份有限公司 一种解析便携式文档格式文档表格的方法及装置
WO2020140698A1 (zh) * 2019-01-04 2020-07-09 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
WO2021147252A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
WO2021237909A1 (zh) * 2020-05-29 2021-12-02 深圳壹账通智能科技有限公司 一种表格还原方法、装置、设备及存储介质
CN113139445A (zh) * 2021-04-08 2021-07-20 招商银行股份有限公司 表格识别方法、设备及计算机可读存储介质
CN113283355A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 一种表格图像的识别方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邓小宁;孙琳;陈念年;张玉浦;: "基于HOG特征的财务报表图像识别", 电子设计工程, no. 10, 20 May 2019 (2019-05-20) *

Similar Documents

Publication Publication Date Title
CN108229470B (zh) 文字图像处理方法、装置、设备及存储介质
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN110458918B (zh) 用于输出信息的方法和装置
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
CN109308681B (zh) 图像处理方法和装置
CN109993749B (zh) 提取目标图像的方法和装置
CN113538450B (zh) 用于生成图像的方法及装置
CN114581926B (zh) 多行文本识别方法、装置、设备及介质
CN116645678A (zh) 一种基于矢量图形绘制的图像处理方法及装置
CN112347288A (zh) 一种字图的矢量化方法
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN111767889A (zh) 公式识别方法、电子设备及计算机可读介质
CN111145202A (zh) 模型生成方法、图像处理方法、装置、设备及存储介质
CN112583900A (zh) 云计算的数据处理方法及相关产品
CN108804652B (zh) 封面图片的生成方法、装置、存储介质和电子装置
CN116052195A (zh) 文档解析方法、装置、终端设备和计算机可读存储介质
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN114926852A (zh) 表格识别重构方法、装置、设备、介质及程序产品
CN115909449A (zh) 文件处理方法、装置、电子设备、存储介质及程序产品
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
CN111127310B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN114627464A (zh) 文本识别方法、装置、电子设备和存储介质
CN111291758B (zh) 用于识别印章文字的方法和装置
CN114612647A (zh) 图像处理方法、装置、电子设备及存储介质
CN113343663A (zh) 一种票据结构化方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination