CN110956087A - 一种图片中表格的识别方法、装置、可读介质和电子设备 - Google Patents

一种图片中表格的识别方法、装置、可读介质和电子设备 Download PDF

Info

Publication number
CN110956087A
CN110956087A CN201911020974.5A CN201911020974A CN110956087A CN 110956087 A CN110956087 A CN 110956087A CN 201911020974 A CN201911020974 A CN 201911020974A CN 110956087 A CN110956087 A CN 110956087A
Authority
CN
China
Prior art keywords
cell
picture
position information
pictures
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911020974.5A
Other languages
English (en)
Other versions
CN110956087B (zh
Inventor
王长洞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyiyun Technology Co ltd
Original Assignee
Tianjin Happiness Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happiness Life Technology Co ltd filed Critical Tianjin Happiness Life Technology Co ltd
Priority to CN201911020974.5A priority Critical patent/CN110956087B/zh
Publication of CN110956087A publication Critical patent/CN110956087A/zh
Application granted granted Critical
Publication of CN110956087B publication Critical patent/CN110956087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种图片中表格的识别方法、装置、计算机可读存储介质和电子设备,方法包括:根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息;根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息;根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。通过本发明的技术方案,可降低单元格错位、遗漏等情况出现的可能性,从而可更为准确地识别图片中的表格。

Description

一种图片中表格的识别方法、装置、可读介质和电子设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种图片中表格的识别方法、装置、可读介质和电子设备。
背景技术
随着互联网+概念渗透到各行各业,越来越多的现实场景使用到互联网技术;传统行业、新兴行业对数据的处理分析技术需求更为强烈,表格是文档中常用的数据资料载体,通常需要识别图片中的表格,以便获得电子表格图片,从而进行传输、分析以及各种需求场景。
目前,主要通过专业解析软件(比如,光学字符识别软件)识别图片中表格的内容,之后确定表格的内容的位置,从而生成表格。
但是,专业解析软件通常是逐行识别图片中表格的内容,容易造成单元格错位、遗漏等情况,从而降低了对图片中表格识别的准确性。
发明内容
本发明提供了一种图片中表格的识别方法、装置、计算机可读存储介质和电子设备,可降低单元格错位、遗漏等情况出现的可能性,从而可更为准确地识别图片中的表格。
第一方面,本发明提供了一种图片中表格的识别方法,包括:
根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息;
根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息;
根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
优选地,所述根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息,包括:
对待识别表格图片进行网格线识别,确定所述网格线的第二区域位置信息;
根据所述网格线的第二区域位置信息,裁切所述待识别表格图片生成多个矩阵图片,并确定多个所述矩形图片分别对应的第三区域位置信息;
根据多个所述矩形图片分别对应的第三区域位置信息,对多个所述矩形图片进行矩阵计算,确定多个所述矩形图片中单元格图片的第一区域位置信息。
优选地,所述根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息,包括:
根据多个所述单元格图片分别对应的第一区域位置信息,确定表格数据结构图片;
根据所述表格数据结构图片,确定多个所述单元格图片分别对应的表格位置信息。
优选地,所述根据多个所述单元格图片分别对应的第一区域位置信息,确定表格数据结构图片,包括:
根据多个所述单元格图片的第一区域位置信息,对多个所述单元格图片进行组合形成表格数据结构图片。
优选地,所述根据所述表格数据结构图片,确定多个所述单元格图片分别对应的表格位置信息,包括:
针对每个所述单元格图片,确定所述单元格图片对应在所述表格数据结构图片中的行数对应的第一字段名和列数对应的第二字段名;
将所述第一字段名和所述第二字段名作为所述单元格图片对应的表格位置信息。
优选地,所述方法还包括:
根据预设数据校验规则,对所述单元格数据进行数据校验,以确定所述单元格数据的校验标签;
根据所述单元格数据的校验标签和所述第一目标电子表格,确定第二目标电子表格。
优选地,所述根据所述单元格数据的校验标签和所述第一目标电子表格,确定第二目标电子表格,包括:
根据所述单元格数据的校验标签对所述第一目标电子表格中的单元格数据进行异常数据的标注,以确定第二目标电子表格;
或者,
根据所述单元格数据的校验标签对所述第一目标电子表格中的单元格数据进行异常数据的更正,以确定第二目标电子表格。
第二方面,本发明提供了一种图片中表格的识别装置,包括:
第一信息确定模块,用于根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息;
第二信息确定模块,用于根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息;
生成模块,用于根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
第三方面,本发明提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
本发明提供了一种图片中表格的识别方法、装置、计算机可读存储介质和电子设备,该方法通过待识别表格图片中的网格线,从而确定出多个单元格图片分别对应的第一区域位置信息,第一区域位置信息指示了单元格图片在待识别表格图片中的位置,考虑到表格中单元格位置的相对不变性,根据第一区域位置信息即可确定单元格图片的表格位置信息,从而准确的确定出单元格在表格中的确切位置,之后,根据多个单元格图片分别对应的单元格数据和表格位置信息,自动生成第一目标电子表格,考虑到利用单元格图片的表格位置信息,可更为准确地确定出单元格数据对应在表格的位置,确保了第一目标电子表格的数据结构的正确性,使得第一目标电子表格的准确性相对较高。综上所述,本发明的技术方案通过网格线得到单元格图片在待识别表格图片中的位置,利用单元格图片在待识别表格图片中的位置,确定单元格图片在表格中的确切位置,基于单元格图片对应的单元格数据和其在表格中的确切位置,从而可更为准确地识别图片中的表格。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种图片中表格的识别方法的流程示意图;
图2为本发明一实施例提供的另一种图片中表格的识别方法的流程示意图;
图3为本发明一实施例提供的又一种图片中表格的识别方法的流程示意图;
图4为本发明一实施例提供的一种图片中表格的识别装置的结构示意图;
图5为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例和相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
前述已知,目前主要是逐行识别图片中表格的内容,确定表格的内容的位置,从而生成表格。但是,逐行识别容易造成单元格错位、遗漏等问题,从而降低了对图片中表格识别的准确性。本发明实施例则基于网格线对图片进行裁切后得到单元格图片,之后,确定出单元格图片在表格中的确切位置,基于识别出的单元格图片的单元格数据和单元格图片在表格中的确切位置,自动生成第一目标电子表格。所以相对于传统方法,本发明实施例可更为准确地识别图片中的表格。
参照图1所示,为本发明所述图片中表格的识别方法的一个具体实施例。本发明实施例中所述方法包括以下步骤:
步骤101,根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息。
表格是文档中常用的数据资料载体,目前大量应用于商业、社会调查等各种场合。通常在获得表格后,需要对表格内容进行统计分析。如果表格是纸质或图片格式的,常常是由人工在电子设备上将纸质表格制成电子表格,然后再进行后续的统计分析工作,但是这样会浪费大量的人力、物力。因此,目前主要通过电子设备识别待识别表格图片中的表格。
待识别表格图片是包含表格的图片,可以是拍照或者扫描得到的图片。待识别表格图片包括一个或多个表格,表格具体指按所需的内容项目由网格线画成的若干个单元格,在若干个单元格中分别填写数据,从而便于统计查看,是一种可视化交流模式,也是一种组织整理数据的手段。网格线具体指的是组成单元格的四条线段,单元格是表格中行与列的交叉部分,是组成表格的最小单位,可拆分或者合并。本发明实施例中的待识别表格图片中的表格中的每个单元格由网格线组成的。
考虑到待识别表格图片中的表格中通常具有网格线,而单元格是组成表格的最小单位,同时考虑到现有技术对图片中表格每行字符的识别精度,为了确保待识别表格图片中表格数据的完整准确,以及能够准确的了解到待识别表格图片中表格的数据结构,通常需要根据待识别表格图片中的网格线,对待识别表格图片进行裁切以确定单元格图片,进一步确定单元格图片的第一区域位置信息。单元格图片具体指的是待识别表格图片中组成表格的单元格所在的区域,单元格图片的数量和待识别表格图片中表格的行数和列数的乘积所得的值相同。在这里,单元格图片的四周是没有网格线的。第一区域位置信息指示了单元格图片在待识别表格图片中的位置。
需要说明的是,待识别表格图片中存在多个表格时,本发明实施例中不考虑对表格的识别,只是按照网格线对待识别表格图片进行裁切,确定单元格图片的第一区域位置信息即可。
步骤102,根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息。
为了更为准确地确定出单元格图片在表格中的位置,通常需要根据多个单元格图片分别对应的第一区域位置信息,确定多个单元格图片分别对应的表格位置信息,表格位置信息指示了单元格图片在表格中的准确位置,比如,单元格在表格中的行数和列数。
步骤103,根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
考虑到逐行识别的准确性较低,为了更为准确的恢复待识别表格图片中表格的数据,需要对每个单元格图片进行字符识别,从而确定出单元格数据,单元格数据指的是单元格图片中的内容。相对于逐行识别图片中的表格的字符,对单元格图片进行字符识别的识别率和准确性相对较高。同时直接将单元格图片对应的表格位置信息确定对应的单元格数据的位置信息,从而可更为准确的确定出单元格数据的位置,无需再次定位文字位置,从而可提高图片中表格识别的效率。
在这里,可以预先设置一个待填写表格,根据多个单元格图片分别对应的表格位置信息,将单元格数据对应的填入待填写表格中,进而生成第一目标电子表格,第一目标电子表格即为对图片中表格的识别结果。考虑到单元格图片对应的表格位置信息的准确性以及对单元格图片进行字符识别的识别率和准确性相对较高,从而确保了第一目标电子表格的准确性。
通过以上技术方案可知,本发明实施例所述方法具备的有益效果是:
本发明实施例通过考虑待识别表格图片中的网格线,不选择对待识别表格图片中的表格进行识别,而是直接根据网格线确定出指示单元格图片在待识别表格图片中位置的第一区域位置信息,基于单元格图片的第一区域位置信息确定单元格图片之间的位置关系,进而确定出指示单元格图片在表格中位置的表格位置信息,然后,对单元格图片进行字符识别,确定单元格图片对应的单元格数据,之后,根据单元格数据和其对应的表格位置信息,生成准确性相对较高的第一目标电子表格。综上,本发明实施例通过网格线确定待识别表格图片中表格对应的多个单元格图片,确定单元格图片在表格中的位置,通过对单元格图片进行字符识别以确定单元格数据,可避免在对图片识别过程中逐行识别所造成的单元格错位、遗漏等问题,能够提高字符识别的识别率和准确率,基于单元格数据和其对应在表格中的位置,可自动生成准确性相对较高的第一目标电子表格,不需要人工识别,降低了人工成本。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明所述图片中表格的识别方法的另一个具体实施例。本发明实施例在前述实施例的基础上,对于图片中表格的识别过程进行了更具体的描述和一定程度的优化。本发明实施例所述方法的目的在于结合单元格图片的表格位置信息、单元格数据和单元格数据的校验标签,自动生成第二目标电子表格。
本发明实施例中所述方法包括以下步骤:
步骤201、对待识别表格图片进行网格线识别,确定网格线的第二区域位置信息。
网格线是组成表格中的单元格的特征之一,为了准确的从待识别表格图片中分割出单元格图片,通常需要对待识别表格图片进行网格线识别,从而确定网格线的第二区域位置信息,第二区域位置信息指示了网格线在待识别表格图片中的位置,在一种可能的实现方式中,第二区域位置信息包括待识别表格图片中网格线的像素坐标区间,通常待识别表格图像是二维的,因此,像素坐标区间像素坐标区间包括两个一维像素坐标的范围,一维像素坐标指示了在一个坐标轴上的坐标,两个一维像素坐标分别对应一个坐标轴,这两个坐标轴通常是横轴和纵轴。在另一种可能的实现方式中,第二区域位置信息包括待识别表格图片中网格线组成的单元格对应的四个顶点的像素坐标,像素坐标包括网格线在待识别表格图片中的横向行数和纵向列数。当然如果待识别表格图片中的表格中的行对应的线条相对于水平线的倾斜角度较小,第二区域位置信息也可以是待识别表格图片中网格线组成的单元格对应的两个相对顶点的像素坐标。
考虑到电子设备的存储空间,第二区域位置信息通常不会包括网格线对应在待识别表格图片中的所有像素点的像素坐标。需要说明的是,待识别表格图片本身是由像素点组成的位图,例如,待识别表格图片的大小为1024×768,也就是说待识别表格图片的纵向有1024列,横向有768行,这些行和列相互交叉会形成一个一个的小格,这些小格都是像素点,像素坐标为400×300,400×300指的是处于横向400列和纵向300行上的像素点。假设第二区域位置信息为(400~410)×(300~310),(400~410)×(300~310)指示了网格线位于横向400行到410行和纵向300列到310列形成的区域内。
步骤202、根据所述网格线的第二区域位置信息,裁切所述待识别表格图片生成多个矩形图片,并确定多个所述矩形图片分别对应的第三区域位置信息。
在了解到网格线在待识别表格图片中的位置之后,即可根据网格线在待识别表格图片中的第二区域位置信息对待识别表格图片进行裁切,从而确定出若干个矩形图片分别对应的第三区域位置信息。
具体地,第三区域位置信息指示了矩形图片在待识别表格图片中的位置,可以包括待识别表格图片中矩形图片的像素坐标区间或者矩形图片的四个顶点的像素坐标。
需要说明的是,矩形图片通常是由四条线段围成的格子对应的区域,考虑到单元格四周的网格线对单元格图片的字符识别的影响,矩形图片中通常是不包含网格线,即将待识别表格图片中网格线内的区域裁切出来。因此,矩形图片的第三区域位置信息对应在待识别表格图片的区域,该区域位于网格线的第二区域位置信息对应在待识别表格图片的区域内。
具体的,将第二区域位置信息中的像素坐标区间或者四个顶点的像素坐标缩小到一定比例,每个第二区域位置信息的缩小比例应该相同,缩小的比例应当考虑待识别表格图片中单元格的内容与网格线之间的最小距离,根据缩小的像素坐标区间或者四个顶点的像素坐标形成的连接线段对待识别表格图片进行裁切即可。
步骤203、根据多个所述矩形图片分别对应的第三区域位置信息,对所述矩形图片进行矩阵计算,确定多个所述矩形图片中单元格图片的第一区域位置信息。
考虑到待识别表格图片中的网格线不仅仅存在表格中,可能会存在待识别表格图片的其他干扰区域,干扰区域指的是存在网格线,但是不存在表格的区域,导致对待识别表格图片进行裁切得到的若干个矩形图片中可能存在不是单元格的矩形图片,因此,需要从若干个矩形图片中筛选出单元格图片。考虑到表格都是矩形,显而易见的,在保证待识别表格图片中的网格线识别准确性较高的前提下,不能和其他矩形图片形成矩形的很可能不是单元格,具体地,通过对待识别表格图片进行矩阵计算,从而将单元格对应的矩阵图片筛选出来,筛选出的单元格对应的矩形图片即为单元格图片,从而确保单元格图片的准确性。具体地,单元格图片都是从矩形图片中筛选出来的,因此,单元格图片的第一区域位置信息可以是单元格图片对应的矩形图片的第四区域位置信息。当然,可以从第三区域位置信息中选择出某一个像素坐标作为单元格图片的第一区域位置信息,比如,单元格图片的中心像素坐标。本发明对此不做限定,第一区域位置信息能够指示出单元格图片在待识别表格图片中的位置即可,第一区域位置信息通常为像素坐标。
步骤204、根据多个所述单元格图片分别对应的第一区域位置信息,对多个所述单元格图片进行组合形成表格数据结构图片。
为了确保待识别表格图片中表格的数据结构的准确性,通过单元格图片的第一区域位置信息,确定表格数据结构图片,在这里,考虑到单元格图片的第一区域位置信息的准确性,从而确保了表格数据结构图片的准确性。表格数据结构图片指示了单元格图片之间的位置关系以及单元格图片在表格中的位置。
需要说明的是,为了便于处理,表格数据结构图片通常包含若干张,每张表格数据结构图片包含一个表格。具体地,待识别表格图片包括若干个表格时,确定一张包含所有表格的表格数据结构图片,因为表格数据结构图片是基于单元格图片的第一区域位置信息确定的,不同表格的单元格图片的第一区域位置信息存在明显的区别,而单元格图片的第一区域位置信息的准确性较高,因此,这张表格数据结构图片中出现单元格错位的概率相对较小,之后,对包含若干个表格的表格数据结构图片进行分割,即可确定出若干张包含一张表格的表格数据结构图片。
不同的单元格图片的第一区域位置信息不同,考虑到单元格图片在表格中的相对位置是固定的,因此按照第一区域位置信息,可对单元格图片进行组合,在这里,对单元格图片进行组合具体指的是按照从左到右或从上到小的顺序对单元格图片进行排列,显而易见的,也可以直接将单元格图片投射到相应的位置上从而完成对单元格图片的组合,组合后的单元格图片形成的图片的外轮廓形状是矩形,即组合后的单元格图片形成的图片能够指示表格,因此,组合后的单元格图片形成的图片即可确定为表格数据结构图片,单元格图片的第一区域位置信息能够指示单元格图片在待识别表格图片中表格的数据结构,从而确保表格数据结构图片的准确有效。
步骤205、针对每个所述单元格图片,确定所述单元格图片对应在所述表格数据结构图片中的行数对应的第一字段名和列数对应的第二字段名;将所述第一字段名和所述第二字段名确定为所述单元格图片对应的表格位置信息。
需要说明的是,在确定了表格数据结构图片后通常需要对表格数据结构图片中的行数和列数进行命名,以确定行数对应的字段名和列数对应的字段名,以不同的字段名来表现表格的不同的行和列,在这里,不同行数分别对应的字段名不同,从而确保行数对应的字段名能够指示不同的行数,不同列数对应的字段名不同,从而确保列数对应的字段名能够指示不同的列数,从而确定表格数据结构图片能够更为准确的确定出单元格在表格中的位置。具体地,确定单元格图片对应在表格数据结构图片中的行数对应的第一字段名和列数对应的第二字段名,将第一字段名和第二字段名确定为表格位置信息。第一字段名指示了单元格图片在表格数据结构图片中的行数,第二字段名指示了单元格图片在表格数据结构图片中的列数,表格位置信息指示了单元格图片在表格数据结构图片中的行数和列数的交叉区域。
举例来说,将表格数据结构图片中的列数以26个英文字母的顺序进行命名,从而确定出不同列数分别对应的字段名,将表格数据结构图片中的行数按照阿拉伯数字的大小进行命名,从而确定出不同行数分别对应的字段名,则,某一个单元格图片的表格位置信息为“B5”,具体的,“B5”指的是单元格图片位于表格数据结构图片中的“B”列与第“5”行的交叉位置。
步骤206、根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
根据光学字符识别模型识别单元格图片内的字符串;按照预设存储数据格式,对识别出单元格图片内的字符串进行数据格式转换,以确定单元格数据。当然,利用现有技术中对单元格图片内的字符串进行识别即可,本发明实施例对此不做限定。
光学字符识别(Optical Character Recognition,简称OCR)是对图像文件进行识别以提取字符和版面信息的过程。目前,主要通过对大量样本词组进行训练以得到光学字符识别模型,利用光学字符识别模型识别图像文件中的字符和版面信息。单元格图片中的字符串可以是打印字体的字符串,也可以是手写字体的字符串,由于打印字体和手写字体对应的字符串存在差异,若使用同一光学识别字符模型来识别打印字体和手写字体,则会降低字符识别的准确率。因此,光学字符识别模型通常包括打印字体和手写字体分别对应的光学字符识别模型,并可以根据需要选择光学字符识别模型的类型。在这里,字符串具体指的是若干个字符组成的连续序列,一个字符是一个单位的字形、类字形单位或符号的基本信息,字符包括但不限于字母、数字、文字和符号。
光学字符识别模型能够识别单元格图片中的字符串,考虑到光学字符识别模型识别出来的字符串可能不是数据库支持的数据格式,在这里,数据库支持的存储数据格式都是预先确定好的,因此,根据预设存储数据格式,对光学字符识别模型识别出的字符串进行数据格式的转换,并将转换后的字符串确定为单元格数据,从而确保单元格数据的数据格式是数据库支持的数据格式,以实现对单元格数据的存储,从而实现对单元格数据的自动化整合。在这里,单元格数据包括但不限于数字、字母、文字、符号。
考虑到光学字符识别模型对单词、短语、短句等识别率较高,但是逐行识别图片中表格的字符的识别率相对较低,容易出现单元格错位、遗漏等情况,考虑到上述问题,通过对单元格图片中的字符串进行识别,可降低逐行识别图片中表格的字符所造成的单元格错位、遗漏等情况出现的可能性,从而可更为准确地识别图片中的表格。
需要说明的是,预设待填写表格和表格数据结构图片中的行数和列数分别对应的字段名应当相同或者存在映射关系,从而确保生成的第一目标电子表格的准确性。
在本发明实施例中,通过识别出的网格线在待识别表格图片的位置,对待识别表格图片进行裁切,确定单元格图片在待识别表格图片的位置,根据单元格图片在待识别表格图片的位置对单元格图片进行组合,从而恢复表格数据结构,进而确定单元格图片在表格中的位置,对单元格图片进行字符识别以确定单元格数据,可降低逐行识别图片中表格的字符所造成的单元格错位、遗漏等情况出现的可能性,基于单元格数据以及单元格图片在表格中的位置,自动生成准确性较高的第一目标电子表格。
另外优选地,本发明实施例中所述方法还可以包括:
步骤207、根据预设数据校验规则,对所述单元格数据进行数据校验,以确定所述单元格数据的校验标签。
由于待识别表格图片的原因(比如,有些字符比较淡)而出现没有识别出单元格图片中的字符串或者识别出的单元格图片中的字符串错误的情况。考虑上述情况,需要对单元格数据进行数据校验,以确定识别出的单元格数据是否正确,从而确定出每个单元格数据的校验标签,校验标签可指示出识别错误或者没有识别出来的字符串。举例来说,单元格数据是没有识别出来的字符串,则校验标签可以是未识别出。
数据校验规则具体指的是如何对数据进行校验的方法,提前设置好即可,比如,数据校验规则可以根据表格中不同字段的单元格数据的种类数,字符类型等确定。
步骤208、根据所述单元格数据的校验标签对所述第一目标电子表格中的单元格数据进行异常数据的标注,以确定第二目标电子表格。
异常数据具体指的是识别错误或者没有识别出来的单元格数据。根据校验标签对第一目标电子表格中的单元格数据的异常数据进行标注,比如,可以将异常数据用不同的颜色标注出来,以确定第二目标电子表格,第二目标电子表格中的单元格数据经过数据校验,使得第二目标电子表格的准确性较高。在第二目标电子表格中的异常数据被标注出来的前提下,当人工对第二目标电子表格进行检验时,直接对第二目标电子表格上的标注的异常数据进行更正,即提供了对单元格图片进行字符识别的反馈,从而提高了检验效率,只需要人工针对性的修正识别结果即可,节约时间和人力。
通过以上技术方案可知,本发明实施例所述方法在图1所示实施例的基础上,进一步实现的有益效果是:本发明实施例中详细公开了利用网格线裁切待识别表格图片、确定表格数据结构图片、单元格图片的表格位置信息和单元格图片字符识别的过程,并且进一步包括了对于单元格数据的校验步骤。由此保障了目标电子表格的准确性,提高了人工对目标电子表格修正的效率,从而使得所述图片中表格的识别方法整体上更加精确。
如图3所示,为本发明所述图片中表格的识别方法的又一个具体实施例。本发明实施例在前述实施例的基础上,对于第二目标电子表格的过程进行了更具体的描述和一定程度的优化。
本发明实施例中,所述图片中表格的识别方法包括以下步骤:
步骤301、对待识别表格图片进行网格线识别,确定网格线的第二区域位置信息。
步骤302、根据所述网格线的第二区域位置信息,裁切所述待识别表格图片生成多个矩形图片,并确定多个所述矩形图片分别对应的第三区域位置信息。
步骤303、根据多个所述矩形图片分别对应的第四区域位置信息,对所述矩形图片进行矩阵计算,确定多个所述矩形图片中单元格图片的第一区域位置信息。
步骤304、根据多个所述单元格图片分别对应的第一区域位置信息,对多个所述单元格图片进行组合形成表格数据结构图片。
步骤305、针对每个所述单元格图片,确定所述单元格图片对应在所述表格数据结构图片中的行数对应的第一字段名和列数对应的第二字段名;将所述第一字段名和所述第二字段名确定为所述单元格图片对应的表格位置信息。
步骤306、根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
步骤307、根据预设数据校验规则,对所述单元格数据进行数据校验,以确定所述单元格数据的校验标签。
在这里,校验标签指示了单元格数据是否存在识别错误或没有识别出来,以及存在识别错位或没有识别出来后单元格数据的更正方法或更正值,这个更正值可以是人为配置好的,也可以是重新对单元格图片进行字符识别得到的字符串,当然该字符串如果不是数据库存储数据对应的数据格式,也是需要对字符串进行数据格式转换的。显而易见的,重新对单元格图片进行字符识别的模型可以是先前的光学字符识别模型,也可以是其他的能够更为准确的识别字符的模型。更正方法可以是重新对单元格图片进行识别,可以利用现有的光学字符识别模型也可以换个字符识别模型,确保识别结果的准确性。
步骤308、根据所述单元格数据的校验标签对所述第一目标电子表格中的单元格数据进行异常数据的更正,以确定第二目标电子表格。
当校验标签指示了单元格数据的更正值时,利用校验标签对第一目标电子表格中的单元格数据进行异常值的更正,即可确定第二目标电子表格。当校验标签指示了单元格数据的更正方法时,利用校验标签指示的更正方法,对第一目标电子表格中的单元格数据中的异常数据进行操作,从而实现对第一目标表格中的单元格数据进行异常数据的更正,从而确定第二目标电子表格,减少人力投入,实现目标电子表格的自动校验。显而易见的,更正后的单元格数据依旧是异常数据的,可以直接标注出来,人为更正即可。
通过以上技术方可知,本发明实施例在前述实施例的基础上,进一步实现的有益效果是:描述了通过校验标签对第一目标电子表格中的单元格数据进行自动更正的过程,以确定第二目标电子表格。由此进一步提高了目标电子表格的准确性。
基于与本发明方法实施例相同的构思,请参考图4,本发明实施例还提供了一种图片中表格的识别装置,包括:
第一信息确定模块401,用于根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息;
第二信息确定模块402,用于根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息;
生成模块403,用于根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
图5是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器501以及存储有执行指令的存储器502,可选地还包括内部总线503和网络接口504。其中,存储器502可能包含内存5021,例如高速随机存取存储器(Random-AccessMemory,RAM),也可能还包括非易失性存储器5022(non-volatile memory),例如至少1个磁盘存储器等;处理器501、网络接口504和存储器502可以通过内部总线503相互连接,该内部总线503可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等;内部总线503可以分为地址总线、数据总线、控制总线等,为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。当然,该电子设备还可能包括其他业务所需要的硬件。当处理器501执行存储器502存储的执行指令时,处理器501执行本发明任意一个实施例中的方法,并至少用于执行如图1、图2、图3所示的方法。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成一种图片中表格的识别装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的一种图片中表格的识别方法。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤和逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明实施例还提供了一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行执行指令时,所述处理器执行本发明任意一个实施例中提供的方法。该电子设备具体可以是如图5所示的电子设备;执行指令是一种图片中表格的识别装置所对应计算机程序。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者锅炉不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者锅炉所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者锅炉中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种图片中表格的识别方法,其特征在于,包括:
根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息;
根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息;
根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
2.根据权利要求1所述的方法,其特征在于,所述根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息,包括:
对待识别表格图片进行网格线识别,确定所述网格线的第二区域位置信息;
根据所述网格线的第二区域位置信息,裁切所述待识别表格图片生成多个矩形图片,并确定多个所述矩形图片分别对应的第三区域位置信息;
根据多个所述矩形图片分别对应的第三区域位置信息,对多个所述矩形图片进行矩阵计算,确定多个所述矩形图片中单元格图片的第一区域位置信息。
3.根据权利要求1所述的方法,其特征在于,所述根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息,包括:
根据多个所述单元格图片分别对应的第一区域位置信息,确定表格数据结构图片;
根据所述表格数据结构图片,确定多个所述单元格图片分别对应的表格位置信息。
4.根据权利要求3所述的方法,其特征在于,所述根据多个所述单元格图片分别对应的第一区域位置信息,确定表格数据结构图片,包括:
根据多个所述单元格图片的第一区域位置信息,对多个所述单元格图片进行组合形成表格数据结构图片。
5.根据权利要求3所述的方法,其特征在于,所述根据所述表格数据结构图片,确定多个所述单元格图片分别对应的表格位置信息,包括:
针对每个所述单元格图片,确定所述单元格图片对应在所述表格数据结构图片中的行数对应的第一字段名和列数对应的第二字段名;
将所述第一字段名和所述第二字段名作为所述单元格图片对应的表格位置信息。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:
根据预设数据校验规则,对所述单元格数据进行数据校验,以确定所述单元格数据的校验标签;
根据所述单元格数据的校验标签和所述第一目标电子表格,确定第二目标电子表格。
7.根据权利要求6所述的方法,其特征在于,所述根据所述单元格数据的校验标签和所述第一目标电子表格,确定第二目标电子表格,包括:
根据所述单元格数据的校验标签对所述第一目标电子表格中的单元格数据进行异常数据的标注,以确定第二目标电子表格;
或者,
根据所述单元格数据的校验标签对所述第一目标电子表格中的单元格数据进行异常数据的更正,以确定第二目标电子表格。
8.一种图片中表格的识别装置,其特征在于,包括:
第一信息确定模块,用于根据待识别表格图片中的网格线,确定单元格图片的第一区域位置信息;
第二信息确定模块,用于根据多个所述单元格图片分别对应的第一区域位置信息,确定多个所述单元格图片分别对应的表格位置信息;
生成模块,用于根据多个所述单元格图片分别对应的单元格数据和表格位置信息,生成第一目标电子表格。
9.一种计算机可读存储介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
10.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1至7中任一所述的方法。
CN201911020974.5A 2019-10-25 2019-10-25 一种图片中表格的识别方法、装置、可读介质和电子设备 Active CN110956087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911020974.5A CN110956087B (zh) 2019-10-25 2019-10-25 一种图片中表格的识别方法、装置、可读介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911020974.5A CN110956087B (zh) 2019-10-25 2019-10-25 一种图片中表格的识别方法、装置、可读介质和电子设备

Publications (2)

Publication Number Publication Date
CN110956087A true CN110956087A (zh) 2020-04-03
CN110956087B CN110956087B (zh) 2024-04-19

Family

ID=69975791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911020974.5A Active CN110956087B (zh) 2019-10-25 2019-10-25 一种图片中表格的识别方法、装置、可读介质和电子设备

Country Status (1)

Country Link
CN (1) CN110956087B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563453A (zh) * 2020-05-07 2020-08-21 北京百度网讯科技有限公司 用于确定表格顶点的方法、装置、设备和介质
CN113657274A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 表格生成方法、装置、电子设备、存储介质及产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030123727A1 (en) * 1998-09-11 2003-07-03 Tomotoshi Kanatsu Table recognition method and apparatus, and storage medium
US20110164813A1 (en) * 2010-01-06 2011-07-07 Canon Kabushiki Kaisha Apparatus and method for digitizing documents
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030123727A1 (en) * 1998-09-11 2003-07-03 Tomotoshi Kanatsu Table recognition method and apparatus, and storage medium
US20110164813A1 (en) * 2010-01-06 2011-07-07 Canon Kabushiki Kaisha Apparatus and method for digitizing documents
CN109961008A (zh) * 2019-02-13 2019-07-02 平安科技(深圳)有限公司 基于文字定位识别的表格解析方法、介质及计算机设备
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110334585A (zh) * 2019-05-22 2019-10-15 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563453A (zh) * 2020-05-07 2020-08-21 北京百度网讯科技有限公司 用于确定表格顶点的方法、装置、设备和介质
CN111563453B (zh) * 2020-05-07 2023-07-04 北京百度网讯科技有限公司 用于确定表格顶点的方法、装置、设备和介质
CN113657274A (zh) * 2021-08-17 2021-11-16 北京百度网讯科技有限公司 表格生成方法、装置、电子设备、存储介质及产品

Also Published As

Publication number Publication date
CN110956087B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN109993112B (zh) 一种图片中表格的识别方法及装置
US11450081B2 (en) Examination paper correction method and apparatus, electronic device, and storage medium
CN110069767B (zh) 基于电子书的排版方法、电子设备及计算机存储介质
CN109685870B (zh) 信息标注方法及装置、标注设备及存储介质
US8280175B2 (en) Document processing apparatus, document processing method, and computer readable medium
CN112100979A (zh) 基于电子书的排版处理方法、电子设备及存储介质
CN110956087B (zh) 一种图片中表格的识别方法、装置、可读介质和电子设备
CN114399623B (zh) 一种通用答题识别方法、系统、存储介质及计算设备
US8787702B1 (en) Methods and apparatus for determining and/or modifying image orientation
CN112380824A (zh) 自动识别分栏的pdf文档处理方法、装置、设备及存储介质
CN114998905A (zh) 一种复杂结构化文档内容的校验方法、装置与设备
CN110008960A (zh) 一种检测字符片段完整性的方法及终端
CN115908977A (zh) 一种图像数据标注方法、装置、电子设备及存储介质
CN113011131B (zh) 基于图片类电子书的排版方法、电子设备及存储介质
CN104156345A (zh) 识别便携文件格式文件中图注的方法和装置
CN112100978B (zh) 基于电子书的排版处理方法、电子设备及存储介质
CN110263310B (zh) 数据图生成方法、装置及计算机可读存储介质
CN111401365B (zh) Ocr图像自动生成方法及装置
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN112364679A (zh) 一种图像区域识别方法及电子设备
CN112434641A (zh) 一种试题图像处理方法、装置、设备和介质
CN106503634B (zh) 一种图像对齐方法及装置
CN113011274B (zh) 图像识别方法、装置、电子设备及存储介质
CN113435331B (zh) 图像文字识别方法、系统、电子设备及存储介质
CN113177995B (zh) Cad图纸的文本重组方法和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230217

Address after: Room 304, Unit 1, Floor 4, Building 9, West District, No. 9 Courtyard, Linglong Road, Haidian District, Beijing, 100089

Applicant after: BEIJING YIYIYUN TECHNOLOGY Co.,Ltd.

Address before: 301800 220-41, customs building, energy saving and environmental protection industrial zone, Baodi District, Tianjin

Applicant before: TIANJIN HAPPINESS LIFE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant