CN110008809B - 表格数据的获取方法、装置和服务器 - Google Patents

表格数据的获取方法、装置和服务器 Download PDF

Info

Publication number
CN110008809B
CN110008809B CN201910006706.1A CN201910006706A CN110008809B CN 110008809 B CN110008809 B CN 110008809B CN 201910006706 A CN201910006706 A CN 201910006706A CN 110008809 B CN110008809 B CN 110008809B
Authority
CN
China
Prior art keywords
morphological
rectangular
image data
combined graph
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910006706.1A
Other languages
English (en)
Other versions
CN110008809A (zh
Inventor
张林江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910006706.1A priority Critical patent/CN110008809B/zh
Publication of CN110008809A publication Critical patent/CN110008809A/zh
Priority to PCT/CN2019/124101 priority patent/WO2020140698A1/zh
Application granted granted Critical
Publication of CN110008809B publication Critical patent/CN110008809B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本说明书提供了一种表格数据的获取方法、装置和服务器。其中,方法包括:获取待处理文本的图像数据;从图像数据中提取组合图,组合图为包含有交叉的形态学竖线和形态学横线的图形;将组合图分割成多个矩形单元;对矩形单元分别进行光学字符识别,确定矩形单元的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。在本说明书实施例中,先通过获取并根据图像数据中的形态学竖线和形态学横线等图形特征得到组合图;再将组合图分割成多个矩形单元分别进行光学字符识别,得到矩形单元的文本信息,并根据位置坐标进行组合还原得到表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题。

Description

表格数据的获取方法、装置和服务器
技术领域
本说明书属于互联网技术领域,尤其涉及一种表格数据的获取方法、装置和服务器。
背景技术
在生活、工作中常常会涉及到这样一类文本数据(例如,合同文件)除了包含有单独的文本字符(例如单纯的文字符号)外,还会包含有表格数据(例如,关于价格的统计列表),且这类表格数据在某些场景中还具有较高的信息价值,包含有人们较为关注的信息内容。
现有的数据获取方法往往是直接对包含有文本数据的扫描图片等图像数据进行光学字符识别,以识别并提取出图像数据中的文本信息,得到对应文本的电子档数据。
基于现有的数据获取方法,在对图像数据中单独的文本字符进行识别提取时,具有相对较好的效果。但是,文本数据中的表格数据区别于上述单独的文本字符,除了包含有文本字符所携带的文本信息外,还具有一定的图形特征,例如,包含有分隔线、分隔框等。相对于单独的文本字符,表格数据的结构更为复杂,识别起来更为困难。导致通过现有的数据获取方法在识别图像数据中的表格数据时,很容易出现误差。例如,会将表格中的分隔栏错误识别成了数字。或者,对表格中N行M列中的文本字符的识别出现错位等等。因此,亟需一种能够精确识别,并完整恢复得到图像数据中的表格数据的方法。
发明内容
本说明书目的在于提供一种表格数据的获取方法、装置和服务器,以解决现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。
本说明书提供的一种表格数据的获取方法、装置和服务器是这样实现的:
一种表格数据的获取方法,包括:获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
一种表格数据的获取装置,包括:获取模块,用于获取待处理文本的图像数据;提取模块,用于从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;分割模块,用于将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;识别模块,用于对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;组合模块,用于根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
本说明书提供的一种表格数据的获取方法、装置和服务器,由于先通过获取并根据图像数据中的形态学竖线和形态学横线等图形特征提取得到组合图;再将组合图分割成多个矩形单元分,对各个矩形单元别进行光学字符识别,得到各个矩形单元所包含的文本信息,进而根据矩形单元的位置坐标将包含有文本信息的矩形单元进行组合,还原得到完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;
图2是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;
图3是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的表格数据的获取方法的一种实施例的示意图;
图5是本说明书实施例提供的表格数据的获取方法的流程的一种实施例的示意图;
图6是本说明书实施例提供的服务器的结构的一种实施例的示意图;
图7是本说明书实施例提供的表格数据的获取装置的结构的一种实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
考虑到现有的数据获取方法大多是针对包含有待处理文本的图像数据中的单独的文本字符的识别设计的。因此,在识别、提取图像数据中的文本字符所表征的文本信息时具有较好的准确度。但是,有些类型的文本数据,例如合同文本,还会包含有一些表格内容。这类表格内容相对与单独的文本字符结构更为复杂,通常除了包含有文本字符外,还具有一定的图形特征,例如还会同时包含有一些图形形态学的结构。导致对这类表格数据的识别、提取以及重建更加复杂、困难。通过现有的数据获取方法对图形数据中的这类表格数据直接进行识别、提取时,容易将文本字符和图形特征混淆,无法精准地区分、处理其中的文本字符和图形特征,导致容易出现误差,例如,将表格数据中的分隔栏等图形结构错误地识别成了文本字符,或者对表格数据中不同位置的文本信息的识别提取出现错位等。即,通过现有的获取方法处理图像数据中的表格数据时效果往往不够理想,存在提取表格数据误差大、不准确的技术问题。
针对产生上述问题的根本原因,本说明书具体分析了表格数据所同时具备的文本字符与图形结构两种不同属性对象识别时的不同特点,通过先获取图像数据中的形态学竖线和形态学横线等图像结构特征,从图像数据中找到可能形成表格数据的组合图;再将上述组合图分割成多个矩形单元,对各个矩形单元分别单独进行光学字符识别,以得到矩形单元的文本信息;进而根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,以恢复、重建图像的完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。
本说明书实施方式提供一种表格数据方法的获取方法,所述表格数据的获取方法具体可以应用于包含有多个服务器的图像数据处理系统中。例如,法务合同扫描图片的处理系统。
其中,上述系统具体可以包括有一个用于负责从图像数据中识别、获取文本数据内的表格数据的服务器。该服务器具体实施时,可以通过检测图像数据中的形态学竖线、形态学横线等图形结构特征,从所获取的待处理文本的图像数据中提取出组合图;再将组合图根据坐标分割成多个矩形单元,对多个矩形单元中的各个矩形单元分别进行光学字符识别,以识别、确定出各个矩形单元所包含的文本信息;进而根据矩形单元的坐标,组合、拼接上述包含有文本信息的矩形单元,从而得到完整的表格数据。
在本实施方式中,所述服务器可以理解为是一种应用于业务系统一侧的,能够实现数据传输、数据处理等功能的业务服务器。具体的,所述服务器可以为一个具有数据运算、存储功能以及网络交互功能的电子设备;也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施方式中,并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在一个场景示例中,可以参阅图1所示,可以应用本说明书实施例提供的表格数据的获取方法对法务平台所接收到的包含有合同的图像数据进行处理,以提取合同中的表格数据。
在本场景示例中,法务平台可以将用户输入的包含有待处理合同的图像数据分配给平台中用于获取表格数据的服务器中。
其中,上述法务平台具体可以用于将用户上传输入的包含有合同的图像数据(例如包含有合同的扫描图片或者照片)中的文本信息进行识别、提取,以将合同内容转化为电子档数据,保存于法务平台的数据库中,方便用户的调取、管理。
服务器在接收到包含有合同的图像数据后,可以参阅图2所示先对图像进行预处理,以减少误差干扰,提高后续识别、获取表格数据的精度。
具体的,上述服务器具体可以配置有OpenCV(即Open source Computer VisionLibrary,源代码计算机视觉库)。其中,上述OpenCV具体可以理解为一种关于计算机视觉的源代码的API函数库,该库中所包含的函数代码都经过了优化处理,调用、计算的效率相对较高。具体实施时,服务器可以通过上述OpenCV调用相应的函数代码,高效地对图像数据进行数据处理。
具体的,服务器可以先将图像数据进行灰度转换得到对应的灰度图像,再对灰度图像进行高斯平滑,以过滤掉灰度图像中比较明显的噪声信息,提高图像数据的精度,从而完成对图像数据的预处理。当然,需要说明的是,上述预处理过程中仅以将图像数据转换为灰度图像为例进行示意性说明。具体实施时,根据具体场景和精度要求,也可以将图像数据先转换为二值图,再基于二值图进行后续的表格数据的获取。对此,本说明书不作限定。
在完成对包含有合同的图像数据的预处理后,服务器可以先基于形态学,对图像数据中的图形结构特征(例如结构元素等)进行扫描检索,以便先从图像数据中找到区别于单独的文本字符的,具有一定图形特征的,可能形成表格的图形:组合图。
具体实施时,以图像数据中具体的某一帧图像为例,例如,以包含有合同的图像数据中的第五页图像为例。服务器可以扫描、搜索该帧图像中的形态学竖线和形态学横线。
上述形态学竖线、形态学横线具体可以理解为一种区别于文本字符的,与图形相关的结构元素。可以参阅图3所示。上述形态学竖线具体可以是图像中包含有沿垂直方向的直线段的图像单元或者结构元素。上述形态学横线具体可以是图像中包含有沿水平方向的直线段的图像单元或者结构元素。
具体的,服务器可以通过调用getStructuringElement函数对图像中的结构元素进行搜索,从中找到所有的形态学竖线和形态学横线。当然,需要说明的是上述所列举的通过调用getStructuringElement函数从图像中获取形态学竖线和形态学横线的方式只是一种示意性说明。具体实施时,根据具体情况,也可以通过其他合适的方式获取图像中的形态学竖线和形态学横线。对此,本说明书不作限定。
考虑到在表格数据中每一个形态学横线大多是与形态学竖线中的一个或多个相交。因此,服务器在获取得到该帧图像中的形态学竖线和形态学横线后,可以进一步搜索出包含有相交的形态学竖线和形态学横线的结构的图形作为可能形成的表格数据的组合图,以避免对明显不具备表格数据的图形特征的图形结构进行后续处理,提高了处理效率。
在本场景示例中,为了避免所识别提取的形态学横线和形态学竖线发生错位,可以在原图像上直接进行形态学横线和形态学竖线的提取,并将所提取得到的形态学横线和形态学竖线覆盖在提取位置处。
在获取得到了上述具备较为明显的数据表格的图形特征、可能形成表格数据的组合图后,可以对该组合图进行进一步检测,通过检测该组合图是否满足预设的表格格式要求,以更加精确地判断该组合图是否为数据表格。
其中,上述预设的表格格式要求具体可以理解为一种用于描述数据表格区别于其他图形结构的图形特征的规则集。
例如,考虑到数据表格不同于其他的图形,其中每一个格子图形(或称矩形框,可以参阅图3所示)都是用于填充具体的字符设计的,即数据表格中每一个格子图形的最小面积应当至少能够容得下一个完整的字符。因此,可以设置有如下的针对图形面积特征的规则:数据表格中的格子图形的最小面积应当大于预设的面积阈值。又考虑到基于人们通常的排版习惯,在编辑表格数据时会将表格数据设置为居中的位置。因此,还可以设置有如下针对图形位置特征的规则:数据表格的左侧边界与图像的左侧边界的距离同数据表格右侧边界与图像的右侧边界的距离的差值的绝对值小于预设的距离阈值。还考虑到在使用表格数据的目的,通常为了将至少两个或者更多个数据列成表格进行对比、比较,以便更加清晰地展示不同数据之间的差异。因此,还可以设置有如下针对图形的数量特征的规则:数据表格中的格子图形的数量大于等于预设的数量阈值(例如,2个)等。
当然,需要说明的是,上述所列举的预设的表格格式要求所包含的具体规则只是为了更好地说明本说明书实施方式。具体实施时,根据具体的应用场景和处理要求,还可以引入其他类型或内容的规则作为上述预设的表格格式要求。对此,本说明书不作限定。
在本场景示例中,服务器为了确定所提取的组合图是否满足预设的表格格式要求,具体实施时,可以先检索组合图中形态学横线与形态学竖线在图像位置相同的点,作为交点,进而确定所述组合图中的各个交点在该帧图像中的位置坐标。
其中,上述交点具体可以理解为在该帧图像中,组合图中形态学竖线和形态学横线相交位置处的像素点。具体可以参阅图3所示。
具体的,服务器可以通过调用opencv bitwise_and函数搜索并获取图像中所述组合图中的交点坐标。当然,需要说明的是,上述所列举的通过opencv bitwise_and函数获取交点坐标只是一种示意性说明。具体实施时,服务器也可以根据具体情况,采用其他合适的方式获取组合图中的交点的坐标。对此,本说明书不作限定。
同时,服务器还可以对上述组合图进行进一步的图形结构元素的搜索,寻找到具有矩形(或者方形)结构(即对应表格中的一个格子)的图形元素作为所述组合图中的矩形框。可以参阅图3所示。
具体的,服务器可以通过调用findContours函数搜索并获取所述组合图中的矩形框。当然,需要说明的是,上述所列举的通过findContours函数获取组合图中的矩形框只是一种示意性说明。具体实施时,服务器也可以根据具体情况,采用其他合适的方式获取组合图中的矩形框。对此,本说明书不作限定。
进一步,服务器可以根据所确定的上述交点坐标以及组合图中的矩形框,通过位置比较,分别确定组合图中的各个矩形框的四个端点处的端点坐标。进而可以根据组合图中矩形框的端点坐标,判断组合图是否满足预设的表格格式要求。
例如,服务器可以根据矩形框的端点坐标,计算出该矩形框的长度和宽度,进而根据长度和宽度计算出矩形框的面积。再将矩形框的面积与预设的面积阈值进行比较。如果组合图中各个矩形框的面积都大于预设的面积阈值,则可以判断组合图满足预设的表格格式要求。
又例如,服务器还可以比较组合图中各个矩形框的端点坐标的横坐标的数值,找到横坐标数值最小的端点作为组合图左侧边界上的端点,并将该端点的横坐标确定为左侧边界的横坐标,再根据上述左侧边界的横坐标计算组合图左侧边界与图像的左侧边界的距离,记为d1。类似的,服务通过比较端点的横坐标的数值,找到横坐标数值最大的端点作为组合图右侧边界上的端点,并将该端点的横坐标确定为右侧边界的横坐标,再根据上述右侧边界的横坐标计算组合图右侧边界与图形的右侧边界的距离,记为d2。进一步,服务器可以计算d1与d2的差值的绝对值,并将上述差值的绝对值与预设的距离阈值进行比较。如果上述差值的绝对值小于等于预设的距离阈值,则可以判断上述组合图的整体位于图像居中的位置,即满足预设的表格格式要求等。
当然,需要说明的是,上述所列举的判断组合图是否满足预设的表格格式要求的方式只是为了更好地说明本说明书实施方式。具体实施时,根据具体情况和精度要求,可以将上述两种判断方式组合,也可以引入其他合适的判断方式来判断组合图是否符合预设的表格格式要求。对此,本说明书不作限定。
在确定组合图符合预设的表格格式后,服务器可以确定当前提取的组合图确实是图像中数据表格。可以对该组合图进行后续的文本信息的提取。
考虑到上述组合图通常会包含有多个格子图形或者矩形框,直接对组合图中的文本信息进行识别提取容易出现错位等问题。因此,服务器可以先将上述组合图分割为多个矩形单元。其中,每个矩形单元分别与组合图中的一个矩形框一一对应;但又不同于矩形框这种单独的图形结构元素,每一个矩形单元内部包含有文本字符或者空白状态信息。进而可以对每个矩形单元分别进行单独的光学字符识别,以准确地识别出矩形单元中的文本字符,确定出各个矩形单元所包含的文本信息。
具体的,服务器可以先根据矩形框的端点坐标确定出围成矩形框的轮廓线作为分割线,进而可以沿着轮廓线进行切割,从组合图中分割对应该矩形框的矩形单元。例如,参阅图4所示。对于组合图中某一个矩形框的四个端点坐标分别为A(15,60)、B(15,40)、C(30,40)和D(30,60)。具体实施时,服务器可以从端点A出发,按照预设的划分规则,保持横坐标15不变,寻找到纵坐标不同的端点,即端点B,进而将端点A与端点B相连。然后,服务器再从端点B出发,按照预设的划分规则,保持纵坐标40不变,寻找到横坐标不同的端点,即端点C,进而将端点B与端点C相连。接着,服务器再从端点C出发,按照预设的划分规则,保持横坐标30不变,寻找到纵坐标不同的端点,即端点D,进而将端点C与端点D相连。最后,服务器再从端点D出发,按照预设的划分规则,保持纵坐标60不变,寻找到横坐标不同的端点,即端点A,进而将端点D与端点A相连。这样可以得到一段封闭的连接线:A到B到C到D到A,即该矩形框轮廓线。进一步,服务器可以以上述轮廓线作为分割线,沿着上述轮廓线将组合图中包含有文本信息的矩形框分割出来,得到对应的矩形单元。
按照上述方式可以分割出组合图中的各个矩形单元。当然,需要说明的是,上述所列举的分割矩形单元的方式只是为了更好地说明本说明书实施方式。具体实施时,根据具体情况也可以采用其他合适的方式从所述组合图中分割出多个矩形单元。对此,本说明书不作限定。
需要说明的是,在分割组合图的过程中,服务器还会根据矩形框的端点坐标生成矩形单元对应的位置坐标。
其中,上述位置坐标具体可以理解为一种用于指示矩形单元在组合图的图像中的位置或者描述组合图的图像中矩形单元与其他相邻的矩形单元的位置关系的参数数据。
具体的,服务器可以根据矩形框的四个端点的端点坐标,计算该矩形框中心点的坐标作为对应的矩形单元的位置坐标。也可以服务器先分别计算出各个矩形框的中心点的坐标,再按照预设的排列顺序,例如,按照从上到下从左到右的顺序,根据各个矩形框的中心点的坐标,确定出各个矩形单元的行编号和列编号,作为对应的矩形单元的位置坐标。例如,根据矩形框的中心点的坐标,确定矩形框A位于为组合图中的第一行第二列,即对应的行编号为1,列编号为2,因此可以将“1-2”作为矩形框A所对应的矩形单元的位置坐标。当然,需要说明的是上述所列举的确定矩形单元的位置坐标的方式只是一种示意性说明。具体实施时,根据具体情况,还可以采用其他合适的方式确定矩形单元的位置坐标。对此,本说明书不作限定。
在分割组合图得到多个对应的矩形单元后,服务器可以对多个矩形单元中的各个矩形单元分别进行光学字符识别(即OCR,Optical Character Recognition)识别确定出各个矩形单元中的文本字符,进而确定出各个矩形单元所包含的文本信息。如果矩形单元中没有识别到文本字符,则将该矩形单元所包含的文本信息置空。这样就可以得到多个分别包含有对应的文本信息的矩形单元。
进一步,服务器可以根据各个矩形单元的位置坐标,将上述得到的包含有文本信息的矩形单元进行组合拼接。例如,可以根据矩形单元的位置坐标“1-2”,将包含有文本信息的矩形单元设置在第一行第二列的位置处。按照上述方式,依次将多个包含有文本信息的矩形单元设置到对应的位置处,从而可以还原得到完整的数据表格。当然,需要说明的是,上述所列举的组合方式只是一种示意性说明。具体实施时,也可以根据其他类型的位置坐标,采用其他的组合方式进行组合拼接。对此,本说明书不作限定。
按照上述方式,服务器可以分别对包含有待处理合同的图像数据中的每张图像分别进行表格数据的检测,在确定存在表格数据的情况下再进行表格数据的获取,从而提取得到图像数据中完整的表格数据,并将提取到的表格数据反馈给法务平台,以便整理生成针对该合同的电子档数据进行保存。
在另一个场景示例中,为了使得所获取的表格数据中表格线条更加的清晰,以提高后续进行光学字符识别提取文本信息的精度,具体实施时,服务器在通过扫描、搜索得到该帧图像中的形态学竖线和形态学横线后,进一步还可以对所得到的形态学竖线和形态学横线分别进行特征强化处理,使得所得到的形态学竖线、形态学横线更加清晰。
其中,上述特征强化处理具体可以是一种形态学处理,具体可以包括腐蚀处理和/或膨胀处理。具体实施时,基于形态处理,可以通过将卷积核的区域滑动至该帧图像中,以对区域中间的像素点的数据值进行重置(重置为0或1)。具体的,可以先进行腐蚀处理,再进行膨胀处理。
具体的,上述腐蚀处理,可以理解为一种做与运算,具体通过根据卷积核的大小,将靠近前景的像素点腐蚀(即将对应像素点的数值重置变为0),使得前景物体变小,进而可以使得形态学竖线或形态学横线周围的白色区域减少,达到去除白噪声的效果;同时还可以将与上述形态学竖线或形态学横线相邻甚至相连的结构元素断开。
在进行完腐蚀处理后,由于腐蚀会使得图像的结构元素相对发生缩小,因此,可以继续对腐蚀处理后的形态学竖线或形态学横线进行膨胀处理。
上述膨胀处理,可以理解为一种做或运算,与腐蚀处理相反,通过膨胀可以对腐蚀后的图像进行放大复原,从而得到相对较清晰的、大小不变的形态学竖线和形态学横线。
由上述场景示例可见,本说明书提供的表格数据的获取方法,由于通过获取并根据图像数据中的形态学竖线和形态学横线等图形特征提取得到组合图;再将组合图分割成多个矩形单元分,对各个矩形单元别进行光学字符识别,得到各个矩形单元所包含的文本信息,进而根据矩形单元的位置坐标将包含有文本信息的矩形单元进行组合还原得到完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。
参阅图5所示,本说明书实施例还提供了一种表格数据的获取方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容:
S51:获取待处理文本的图像数据。
在本实施例中,上述待处理文本具体可以是待处理的合同文本,也可以是待处理的章程文本,还可以是待处理的说明书文本等。相应的,上述待处理文本的图像数据可以是包含有上述文本内容的扫描图片,也可以是包含有上述文本内容的照片,还可以是包含有上述文本内容的视频等等。对于上述待处理文本的图像数据的具体内容和形式,本说明书不作限定。
S53:从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形。
在本实施例中,上述形态学竖线、形态学横线具体可以理解为一种区别于文本字符的,与图形相关的结构元素。上述形态学竖线具体可以是图像中包含有沿垂直方向的直线段的图像单元或者结构元素。上述形态学横线具体可以是图像中包含有沿水平方向的直线段的图像单元或者结构元素。
在本实施例中,上述组合图具体可以理解为图像数据中具有与表格数据类似的图形特征的,例如也包含有交叉的形态学竖线和形态学横线的图形结构元素的组合图形。
在本实施例中,上述从所述图像数据中提取组合图,具体实施时,可以包括以下内容:搜索并获取所述图像数据中的形态学竖线和形态学横线;连接所述形态学竖线和所述形态学横线,得到所述组合图。
在本实施例中,上述搜索并获取所述图像数据中的形态学竖线和形态学横线,具体实施时,可以包括以下内容:通过调用OpenCV中的getStructuringElement函数对图像中的结构元素进行搜索,从中找到图像数据中的形态学竖线和形态学横线。当然,需要说明的是上述所列举的通过调用getStructuringElement函数从图像中获取形态学竖线和形态学横线的方式只是一种示意性说明。具体实施时,根据具体情况,也可以通过其他合适的方式获取图像中的形态学竖线和形态学横线。对此,本说明书不作限定。
在本实施例中,通过上述方式获取得到的形态学竖线和形态学横线还携带有在图像数据中的位置信息,进而可以根据形态学竖线和形态学横线的位置信息,连接对应的形态学竖线和形态学横线,得到所述组合图。
S55:将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标。
在本实施例中,上述矩形单元具体可以理解为一种与组合图中的一个矩形框一一对应,但又区别矩形框,包含有文本信息(例如填充有文本字符或者置空)的图像单元。
在本实施例中,上述矩形框具体可以理解为由两段形态学竖线和两段形态学横线组成的,单纯只包含图形特征的,矩形或方形形状的图形元素。其中,每一个矩形框可以认为是表格中的一个格子。
在本实施例中,将所述组合图分割成多个矩形单元,具体实施时,可以包括以下内容:获取所述组合图中的交点坐标;搜索并获取所述组合图中的矩形框;根据所述组合图中的交点坐标,确定所述矩形框的端点坐标;根据所述矩形框的端点坐标,将所述组合图分割成多个矩形单元。
在本实施例中,上述交点具体可以理解为组合图中形态学竖线和形态学横线相交位置处的像素点。
在本实施例中,具体实施时,可以通过调用OpenCV中的opencv bitwise_and函数搜索并获取图像中所述组合图中的交点坐标。当然,需要说明的是,上述所列举的通过opencv bitwise_and函数获取交点坐标只是一种示意性说明。具体实施时,服务器也可以根据具体情况,采用其他合适的方式获取组合图中的交点的坐标。对此,本说明书不作限定。
在本实施例中,具体实施时,可以通过调用OpenCV中的findContours函数搜索并获取所述组合图中的矩形框。当然,需要说明的是,上述所列举的通过findContours函数获取组合图中的矩形框只是一种示意性说明。具体实施时,服务器也可以根据具体情况,采用其他合适的方式获取组合图中的矩形框。对此,本说明书不作限定。
在本实施例中,上述OpenCV(Open source Computer Vision Library,源代码计算机视觉库)具体可以理解为一种关于计算机视觉的源代码的API函数库,该库中所包含的函数代码都经过了优化处理,调用、计算的效率相对较高。具体实施时,服务器可以通过上述OpenCV调用相应的函数代码,高效地对图像数据进行数据处理。
在本实施例中,上述根据所述矩形框的端点坐标,将所述组合图分割成多个矩形单元,具体实施时,可以包括以下内容:根据所述组合图中的交点坐标,确定所述矩形框的端点坐标;根据矩形框的端点坐标确定分割线;根据所述分割线将所述组合图分割成多个矩形单元。
在本实施例中,上述根据所述组合图中的交点坐标,确定所述矩形框的端点坐标,具体实施时,可以包括以下内容:将所述组合图中的交点坐标与所述矩形框进行位置比较,以从交点中确定出各个矩形框的4个端点,进而确定出各个矩形框的端点坐标。
在本实施例中,上述根据矩形框的端点坐标确定分割线,具体实施时,可以包括以下内容:根据各个矩形框的4个端点坐标确定出围成矩形框的轮廓线作为对应的分割线。进而后续可以沿着上述分割线进行分割,从组合图中分割得到各个矩形单元。
在本实施例中,在分割所述组合图得到多个矩形单元的同时,所述方法还包括有以下内容:根据所述矩形框的端点坐标,生成矩形单元的位置坐标。
在本实施例中,上述矩形单元的位置坐标,具体可以理解为一种用于指示矩形单元在组合图的图像中的位置或者描述组合图的图像中矩形单元与其他相邻的矩形单元的位置关系的参数数据。
在本实施例中,具体实施时,可以根据矩形框的四个端点的端点坐标,计算该矩形框中心点的坐标作为对应的矩形单元的位置坐标。也可以先分别计算出各个矩形框的中心点的坐标,再按照预设的排列顺序,例如,按照从上到下从左到右的顺序,根据各个矩形框的中心点的坐标,按顺序排列各个矩形单元,并确定出排序后的各个矩形单元的行编号和列编号,作为对应的矩形单元的位置坐标等。当然,需要说明的是上述所列举的确定矩形单元的位置坐标的方式只是一种示意性说明。具体实施时,根据具体情况,还可以采用其他合适的方式确定矩形单元的位置坐标。对此,本说明书不作限定。
S57:对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息。
在本实施例中,具体实施时,可以对所述多个矩形单元中的各个矩形单元分别进行单独的光学字符识别,以分别识别出各个矩形单元中的文本字符,进而确定出各个矩形单元所包含的文本信息。
在本实施例中,具体实施时,在从矩形单元中没有识别得到文本字符时,可以将该矩形单元所包含的文本信息置空。
S59:根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
在本实施例中,具体实施时,可以根据各个矩形单元的位置坐标,将位置坐标相邻的包含有文本信息的矩形单元进行拼接,并按照位置坐标将包含有文本信息的矩形单元放置于对应的位置处,从而组合得到了完整的表格数据。
在本实施例中,由于通过获取并根据图像数据中的形态学竖线和形态学横线等图形特征提取得到组合图;再将组合图分割成多个矩形单元分,对各个矩形单元别进行光学字符识别,得到各个矩形单元所包含的文本信息,进而根据矩形单元的位置坐标将包含有文本信息的矩形单元进行组合还原得到完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容。
在一个实施例中,为了减少噪声干扰,提高表格数据的获取精度,在获取待处理文本的图像数据后,所述方法具体实施时还可以包括以下内容:对所述待处理文本的图像数据进行预处理,其中,所述预处理包括:将所述图像数据转换为灰度图像;和/或,对所述图像数据进行高斯平滑处理,以过滤掉噪声干扰。当然,需要说明的是,上述所列举的预处理方式只是为了更好地说明本说明书实施方式。具体实施时,根据具体情况和精度要求还可以采用其他合适的处理方式进行预处理。对此,本说明书不作限定。
在一个实施例中,上述从所述图像数据中提取组合图,具体实施时,可以包括以下内容:搜索并获取所述图像数据中的形态学竖线和形态学横线;连接所述形态学竖线和所述形态学横线,得到所述组合图。
在一个实施例中,上述搜索并获取所述图像数据中的形态学竖线和形态学横线,具体实施时,可以包括以下内容:通过getStructuringElement函数搜索并获取所述图像数据中的形态学竖线和形态学横线。
在一个实施例中,为了使得所获取的形态学竖线和形态学横线清晰,减少对后续文本信息识别的误差影响,在搜索并获取所述图像数据中的形态学竖线和形态学横线后,所述方法具体实施时还可以包括以下内容:对所述获取的形态学竖线和形态学横线分别进行特征强化处理,其中,所述特征强化处理包括以下至少之一:腐蚀处理和膨胀处理。
在本实施例中,具体实施时,可以先对形态学竖线和形态学横线进行腐蚀处理,再对腐蚀处理后的形态学竖线和形态学横线进行膨胀处理。
在本实施例中,通过腐蚀处理可以消除形态学竖线和形态学横线的前景所产生的白噪声,使得形态学竖线和形态学横线更加清晰,但也会将形态学竖线和形态学横线的图形元素进行缩小。因此,在对形态学竖线和形态学横线进行腐蚀处理后,还可以通过膨胀处理恢复得到更加清晰,但大小不变的形态学竖线和形态学横线。
在一个实施例中,考虑到上述组合图只是图形特征与表格数据近似,但也有可能不是表格数据。例如,尺寸较大的文本字符“田”也具有与表格数据近似的图形特征。因此,可以进行所提取的组合图进行检测,以确定组合图是否满足预设的表格格式要求,以更加精确地判断出组合图是否为真正的表格数据,进而后续可以仅对确定为表格数据的组合图进行数据处理,从而减少了资源的浪费,提高了处理效率。
在一个实施例中,在从所述图像数据中提取组合图后,所述方法具体实施时,还可以包括以下内容:获取所述组合图中的交点坐标,其中,所述交点为所述组合图中形态学竖线和形态学横线相交位置处的像素点;搜索并获取所述组合图中的矩形框;根据所述组合图中的交点坐标,确定所述矩形框的端点坐标;根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求。
在本实施例中,具体实施时,可以通过调用opencv bitwise_and函数搜索并获取图像中所述组合图中的交点坐标。当然,需要说明的是,上述所列举的通过opencvbitwise_and函数获取交点坐标只是一种示意性说明。具体实施时,服务器也可以根据具体情况,采用其他合适的方式获取组合图中的交点的坐标。对此,本说明书不作限定。
在本实施例中,具体实施时,可以通过调用findContours函数搜索并获取所述组合图中的矩形框。当然,需要说明的是,上述所列举的通过findContours函数获取组合图中的矩形框只是一种示意性说明。具体实施时,服务器也可以根据具体情况,采用其他合适的方式获取组合图中的矩形框。对此,本说明书不作限定。
在本实施例中,上述预设的表格格式要求具体可以理解为一种用于描述数据表格区别于其他图形结构的图形特征的规则集。
具体实施时,可以根据具体情况,灵活设置上述预设的表格格式要求所包含的具体规则。例如,考虑到数据表格不同于其他的图形,其中每一个格子图形(或称矩形框)都是用于填充具体的字符设计的,即数据表格中每一个格子图形的最小面积应当至少能够容得下一个完整的字符。因此,可以设置有如下的针对图形面积特征的规则:数据表格中的格子图形的最小面积应当大于预设的面积阈值。又考虑到基于人们通常的排版习惯,在编辑表格数据时会将表格数据设置为居中的位置。因此,还可以设置有如下针对图形位置特征的规则:数据表格的左侧边界与图像的左侧边界的距离同数据表格右侧边界与图像的右侧边界的距离的差值的绝对值小于预设的距离阈值。还考虑到在使用表格数据的目的,通常为了将至少两个或者更多个数据列成表格进行对比、比较,以便更加清晰地展示不同数据之间的差异。因此,还可以设置有如下针对图形的数量特征的规则:数据表格中的格子图形的数量大于等于预设的数量阈值(例如,2个)等。
当然,需要说明的是,上述所列举的预设的表格格式要求所包含的具体规则只是为了更好地说明本说明书实施方式。具体实施时,根据具体的应用场景和处理要求,还可以引入其他类型或内容的规则作为上述预设的表格格式要求。对此,本说明书不作限定。
在一个实施例中,上述根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求,具体实施时,可以包括以下内容:根据所述矩形框的端点坐标,计算所述矩形框的面积;检测所述矩形框的面积是否大于预设的面积阈值。如果所述矩形框的面积大于预设的面积阈值,判断所述组合图满足预设的表格格式要求。
在一个实施例中,上述根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求,具体实施时,也可以包括以下内容:根据组合图中矩形框的端点坐标分别确定组合图中左侧边界的横坐标与右侧边界的横坐标;根据所述组合图中左侧边界的横坐标计算组合图的左侧边界与图像数据的左侧边界的距离,记为第一距离;根据所述组合图中右侧边界的横坐标计算组合图的右侧边界与图像数据的右侧边界的距离,记为第二距离;计算第一距离与第二距离的距离差值的绝对值,将所述差值的绝对值与预设的距离阈值进行比较,检测所述距离差值的绝对值是否小于预设的距离阈值。如果所述距离差值的绝对值小于预设的距离阈值,判断组合图满足预设的表格格式要求。
当然,需要说明的是,上述所列举的判断组合图是否满足预设的表格格式要求的方式只是为了更好地说明本说明书实施方式。具体实施时,根据具体情况和精度要求,可以将上述两种判断方式组合,也可以引入其他合适的判断方式来判断组合图是否符合预设的表格格式要求。对此,本说明书不作限定。
在一个实施例中,上述将所述组合图分割成多个矩形单元,具体实施时,可以包括以下内容:根据矩形框的端点坐标确定分割线;根据所述分割线将所述组合图分割成多个矩形单元,并根据所述矩形框的端点坐标生成与所述矩形框对应的矩形单元的位置坐标。
在一个实施例中,所述待处理文本的图像数据具体可以包括:包含待处理合同的扫描图像或照片等。当然,需要说明的是,上述所列举的待处理文本的图像数据只是为了更好地说明本说明书实施方式。具体实施时,根据具体的应用场景和处理要求,上述待处理文本的图像数据还可以包括其他类型、内容的图像数据,例如,包含有待处理说明书的视频截图等等。对此,本说明书不作限定。
由上可见,本说明书实施例提供的表格数据的获取方法,由于通过获取并根据图像数据中的形态学竖线和形态学横线等图形特征提取得到组合图;再将组合图分割成多个矩形单元分,对各个矩形单元别进行光学字符识别,得到各个矩形单元所包含的文本信息,进而根据矩形单元的位置坐标将包含有文本信息的矩形单元进行组合还原得到完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容;还通过在提取得到组合图后,根据组合图所包含的交点、矩形框等图形因素,检测所提取的组合图是否是文本中的表格数据,从而避免将非表格数据错误识别成了表格,减少了误差,提高了获取表格数据的精度。
本说明书实施例还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
为了能够更加准确地完成上述指令,参阅图6所示,本说明书还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口601、处理器602以及存储器603,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口601,具体可以用于输入待处理文本的图像数据;
所述处理器602,具体可以用于从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
所述存储器603,具体可以用于存储经网络通信端口601输入的待处理文本的图像数据,以及存储处理器602所基于的相应的指令程序。
在本实施方式中,所述网络通信端口601可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的80号端口,也可以是负责进行FTP数据通信的21号端口,还可以是负责进行邮件数据通信的25号端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施方式中,所述处理器602可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施方式中,所述存储器603可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述表格数据的获取方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取待处理文本的图像数据;从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图7所示,在软件层面上,本说明书实施例还提供了一种表格数据的获取装置,该装置具体可以包括以下的结构模块:
获取模块71,具体可以用于获取待处理文本的图像数据;
提取模块72,具体可以用于从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;
分割模块73,具体可以用于将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;
识别模块74,具体可以用于对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;
组合模块75,具体可以用于根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据。
在一个实施例中,所述提取模块71具体可以包括以下结构单元:
第一搜索单元,具体可以用于搜索并获取所述图像数据中的形态学竖线和形态学横线;
连接单元,具体可以用于连接所述形态学竖线和所述形态学横线,得到所述组合图。
在一个实施例中,所述装置具体还可以包括检测模块,用于检测所述组合图是否满足预设的表格格式要求。其中,所述检测模块具体可以包括以下结构单元:
获取单元,具体可以用于获取所述组合图中的交点坐标,其中,所述交点具体可以为所述组合图中形态学竖线和形态学横线相交位置处的像素点;
第二搜索单元,具体可以用于搜索并获取所述组合图中的矩形框;
第一确定单元,具体可以用于根据所述组合图中的交点坐标,确定所述矩形框的端点坐标;
第二确定单元,具体可以用于根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求。
在一个实施例中,所述第二确定单元具体可以用于根据所述矩形框的端点坐标,计算所述矩形框的面积;检测所述矩形框的面积是否大于预设的面积阈值。
在一个实施例中,所述分割模块73具体可以包括以下结构单元:
第三确定单元,具体可以用于根据矩形框的端点坐标确定分割线;
分割单元,具体可以用于根据所述分割线将所述组合图分割成多个矩形单元,并根据所述矩形框的端点坐标生成与所述矩形框对应的矩形单元的位置坐标。
在一个实施例中,所述装置还具体可以包括预处理模块,用于对所述待处理文本的图像数据进行预处理,其中,所述预处理具体可以包括:将所述图像数据转换为灰度图像;和/或,对所述图像数据进行高斯平滑处理等等。
在一个实施例中,所述待处理文本的图像数据具体可以包括:包含待处理合同的扫描图像或照片等。当然,需要说明的是,上述所列举的待处理文本的图像数据只是为了更好地说明本说明书实施方式。具体实施时,根据具体的应用场景和处理要求,上述待处理文本的图像数据还可以包括其他类型、内容的图像数据,例如,包含有待处理说明书的视频截图等等。对此,本说明书不作限定。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,本说明书实施例提供的表格数据的获取装置,由于通过提取模块获取并根据图像数据中的形态学竖线和形态学横线等图形特征提取得到组合图;再通过分割模块和识别模块将组合图分割成多个矩形单元分,并对各个矩形单元别进行光学字符识别,得到各个矩形单元所包含的文本信息,进而通过组合模块根据矩形单元的位置坐标将包含有文本信息的矩形单元进行组合还原得到完整的表格数据,从而解决了现有方法中存在的提取表格数据误差大、不准确的技术问题,达到能够高效、精确地识别,并完整还原得到图像数据中的表格内容;还通过在提取得到组合图后,通过组合模块根据组合图所包含的交点、矩形框等图形因素,检测所提取的组合图是否是文本中的表格数据,从而避免将非表格数据错误识别成了表格,减少了误差,提高了获取表格数据的精度。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (14)

1.一种表格数据的获取方法,包括:
获取待处理文本的图像数据;
从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;
将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;
对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;
根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据;
在从所述图像数据中提取组合图后,所述方法还包括:检测所述组合图是否满足预设的表格格式要求;在确定所述组合图满足所述预设的表格格式要求的情况下,对所述组合图进行处理;其中,所述检测所述组合图是否满足预设的表格格式要求包括:检测组合图中的矩形框的面积是否大于预设的面积阈值;检测组合图的左侧边界与图像数据的左侧边界的距离同组合图的右侧边界与图像数据的右侧边界的距离的差值的绝对值是否小于预设的距离阈值;检测组合图中矩形框的数量是否大于等于预设的数量阈值;
其中,从所述图像数据中提取组合图,包括:搜索并获取所述图像数据中的形态学竖线和形态学横线;连接所述形态学竖线和所述形态学横线,得到所述组合图;并且,在提取所述组合图的过程中,还包括:在原图像数据上进行形态学横线和形态学竖线的提取,并将所提取得到的形态学横线和形态学竖线覆盖在提取位置处。
2.根据权利要求1所述的方法,在从所述图像数据中提取组合图后,所述方法还包括:
获取所述组合图中的交点坐标,其中,所述交点为所述组合图中形态学竖线和形态学横线相交位置处的像素点;
搜索并获取所述组合图中的矩形框;
根据所述组合图中的交点坐标,确定所述矩形框的端点坐标;
根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求。
3.根据权利要求2所述的方法,根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求,包括:
根据所述矩形框的端点坐标,计算所述矩形框的面积;
检测所述矩形框的面积是否大于预设的面积阈值。
4.根据权利要求2所述的方法,将所述组合图分割成多个矩形单元,包括:
根据矩形框的端点坐标确定分割线;
根据所述分割线将所述组合图分割成多个矩形单元,并根据所述矩形框的端点坐标生成与所述矩形框对应的矩形单元的位置坐标。
5.根据权利要求1所述的方法,在获取待处理文本的图像数据后,所述方法还包括:
对所述待处理文本的图像数据进行预处理,其中,所述预处理包括:将所述图像数据转换为灰度图像;和/或,对所述图像数据进行高斯平滑处理。
6.根据权利要求1所述的方法,所述待处理文本的图像数据包括:包含待处理合同的扫描图像或照片。
7.一种表格数据的获取装置,包括:
获取模块,用于获取待处理文本的图像数据;
提取模块,用于从所述图像数据中提取组合图,其中,所述组合图为包含有交叉的形态学竖线和形态学横线的图形;
分割模块,用于将所述组合图分割成多个矩形单元,其中,所述多个矩形单元分别携带有位置坐标;
识别模块,用于对所述多个矩形单元分别进行光学字符识别,确定所述多个矩形单元分别包含的文本信息;
组合模块,用于根据矩形单元的位置坐标,组合包含有文本信息的矩形单元,得到表格数据;
在所述提取模块从所述图像数据中提取组合图后,所述装置还用于检测所述组合图是否满足预设的表格格式要求;在确定所述组合图满足所述预设的表格格式要求的情况下,对所述组合图进行处理;其中,所述检测所述组合图是否满足预设的表格格式要求包括:检测组合图中的矩形框的面积是否大于预设的面积阈值;检测组合图的左侧边界与图像数据的左侧边界的距离同组合图的右侧边界与图像数据的右侧边界的距离的差值的绝对值是否小于预设的距离阈值;检测组合图中矩形框的数量是否大于等于预设的数量阈值;
其中,所述提取模块包括:第一搜索单元,用于搜索并获取所述图像数据中的形态学竖线和形态学横线;连接单元,用于连接所述形态学竖线和所述形态学横线,得到所述组合图;并且,所述提取模块在提取所述组合图的过程中,还用于在原图像数据上进行形态学横线和形态学竖线的提取,并将所提取得到的形态学横线和形态学竖线覆盖在提取位置处。
8.根据权利要求7所述的装置,所述装置还包括检测模块,所述检测模块包括:
获取单元,用于获取所述组合图中的交点坐标,其中,所述交点为所述组合图中形态学竖线和形态学横线相交位置处的像素点;
第二搜索单元,用于搜索并获取所述组合图中的矩形框;
第一确定单元,用于根据所述组合图中的交点坐标,确定所述矩形框的端点坐标;
第二确定单元,用于根据所述矩形框的端点坐标,确定所述组合图是否满足预设的表格格式要求。
9.根据权利要求8所述的装置,所述第二确定单元具体用于根据所述矩形框的端点坐标,计算所述矩形框的面积;检测所述矩形框的面积是否大于预设的面积阈值。
10.根据权利要求8所述的装置,所述分割模块包括:
第三确定单元,用于根据矩形框的端点坐标确定分割线;
分割单元,用于根据所述分割线将所述组合图分割成多个矩形单元,并根据所述矩形框的端点坐标生成与所述矩形框对应的矩形单元的位置坐标。
11.根据权利要求7所述的装置,所述装置还包括预处理模块,用于对所述待处理文本的图像数据进行预处理,其中,所述预处理包括:将所述图像数据转换为灰度图像;和/或,对所述图像数据进行高斯平滑处理。
12.根据权利要求7所述的装置,所述待处理文本的图像数据包括:包含待处理合同的扫描图像或照片。
13.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至6中任一项所述方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至6中任一项所述方法的步骤。
CN201910006706.1A 2019-01-04 2019-01-04 表格数据的获取方法、装置和服务器 Active CN110008809B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910006706.1A CN110008809B (zh) 2019-01-04 2019-01-04 表格数据的获取方法、装置和服务器
PCT/CN2019/124101 WO2020140698A1 (zh) 2019-01-04 2019-12-09 表格数据的获取方法、装置和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910006706.1A CN110008809B (zh) 2019-01-04 2019-01-04 表格数据的获取方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN110008809A CN110008809A (zh) 2019-07-12
CN110008809B true CN110008809B (zh) 2020-08-25

Family

ID=67165348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910006706.1A Active CN110008809B (zh) 2019-01-04 2019-01-04 表格数据的获取方法、装置和服务器

Country Status (2)

Country Link
CN (1) CN110008809B (zh)
WO (1) WO2020140698A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008809B (zh) * 2019-01-04 2020-08-25 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器
CN110675384B (zh) * 2019-09-24 2022-06-07 广东博智林机器人有限公司 图像处理方法及装置
CN111126409B (zh) * 2019-12-26 2023-08-18 南京巨鲨显示科技有限公司 一种医学图像区域识别方法及系统
CN111160234B (zh) * 2019-12-27 2020-12-08 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN111027521B (zh) * 2019-12-30 2023-12-29 上海智臻智能网络科技股份有限公司 文本处理方法及系统、数据处理设备及存储介质
CN111325110B (zh) * 2020-01-22 2024-04-05 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置及存储介质
CN113343740B (zh) * 2020-03-02 2022-05-06 阿里巴巴集团控股有限公司 表格检测方法、装置、设备和存储介质
CN111460774B (zh) * 2020-04-02 2023-06-30 北京易优联科技有限公司 曲线中数据的还原方法、装置、存储介质、电子设备
CN111640130A (zh) * 2020-05-29 2020-09-08 深圳壹账通智能科技有限公司 表格还原方法及装置
CN111757182B (zh) * 2020-07-08 2022-05-31 深圳创维-Rgb电子有限公司 图像花屏检测方法、设备、计算机设备和可读存储介质
CN111881883A (zh) * 2020-08-10 2020-11-03 晶璞(上海)人工智能科技有限公司 一种基于卷积特征提取与形态学处理的表格文档提取方法
CN111985506A (zh) * 2020-08-21 2020-11-24 广东电网有限责任公司清远供电局 一种图表信息提取方法、装置和存储介质
CN112149397A (zh) * 2020-09-30 2020-12-29 杭州拼便宜网络科技有限公司 一种电子表单的解析方法、系统及相关装置
CN112200117B (zh) * 2020-10-22 2023-10-13 长城计算机软件与系统有限公司 表格识别方法及装置
CN112364834A (zh) * 2020-12-07 2021-02-12 上海叠念信息科技有限公司 一种基于深度学习和图像处理的表格识别的还原方法
CN112712014B (zh) * 2020-12-29 2024-04-30 平安健康保险股份有限公司 表格图片结构解析方法、系统、设备和可读存储介质
CN112733855B (zh) * 2020-12-30 2024-04-09 科大讯飞股份有限公司 表格结构化方法、表格恢复设备及具有存储功能的装置
CN112861736B (zh) * 2021-02-10 2022-08-09 上海大学 基于图像处理的文献表格内容识别与信息提取方法
CN113569677B (zh) * 2021-07-16 2024-07-16 国网天津市电力公司 一种基于扫描件的纸质试验报告生成方法
CN114926852A (zh) * 2022-03-17 2022-08-19 支付宝(杭州)信息技术有限公司 表格识别重构方法、装置、设备、介质及程序产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086714A (zh) * 2018-07-31 2018-12-25 国科赛思(北京)科技有限公司 表格识别方法、识别系统及计算机装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6996295B2 (en) * 2002-01-10 2006-02-07 Siemens Corporate Research, Inc. Automatic document reading system for technical drawings
JP5769131B2 (ja) * 2011-07-12 2015-08-26 富士ゼロックス株式会社 画像処理装置およびプログラム
CN104462044A (zh) * 2014-12-16 2015-03-25 上海合合信息科技发展有限公司 表格图像识别编辑方法及装置
CN105426856A (zh) * 2015-11-25 2016-03-23 成都数联铭品科技有限公司 一种图像表格文字识别方法
CN107622230B (zh) * 2017-08-30 2019-12-06 中国科学院软件研究所 一种基于区域识别与分割的pdf表格数据解析方法
CN107943857A (zh) * 2017-11-07 2018-04-20 中船黄埔文冲船舶有限公司 自动读取AutoCAD表格的方法、装置、终端设备与存储介质
CN108132916B (zh) * 2017-11-30 2022-02-11 厦门市美亚柏科信息股份有限公司 解析pdf表格数据的方法、存储介质
CN110008809B (zh) * 2019-01-04 2020-08-25 阿里巴巴集团控股有限公司 表格数据的获取方法、装置和服务器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086714A (zh) * 2018-07-31 2018-12-25 国科赛思(北京)科技有限公司 表格识别方法、识别系统及计算机装置

Also Published As

Publication number Publication date
WO2020140698A1 (zh) 2020-07-09
CN110008809A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110008809B (zh) 表格数据的获取方法、装置和服务器
CN109933756B (zh) 基于ocr的图像转档方法、装置、设备及可读存储介质
CN109753953B (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN109670500B (zh) 一种文字区域获取方法、装置、存储介质及终端设备
KR101690981B1 (ko) 형태 인식 방법 및 디바이스
CN105528614B (zh) 一种漫画图像版面的识别方法和自动识别系统
CN108108731B (zh) 基于合成数据的文本检测方法及装置
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
JP2021135993A (ja) テキスト認識方法及びテキスト認識装置、電子設備、記憶媒体
CN112016551A (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN109508716B (zh) 一种图像文字的定位方法及装置
CN112651953A (zh) 图片相似度计算方法、装置、计算机设备及存储介质
CN115620321B (zh) 表格识别方法及装置、电子设备和存储介质
CN114049499A (zh) 用于连续轮廓的目标对象检测方法、设备及存储介质
CN109447117A (zh) 双层车牌识别方法、装置、计算机设备及存储介质
CN114758340A (zh) 物流地址智能识别方法、装置、设备及存储介质
CN110147785B (zh) 图像识别方法、相关装置和设备
CN114429640A (zh) 图纸分割方法、装置及电子设备
CN113378837A (zh) 车牌遮挡识别方法、装置、电子设备和存储介质
CN112507938A (zh) 一种文本图元的几何特征计算方法及识别方法、装置
CN109145879B (zh) 一种打印字体识别的方法、设备及存储介质
JP4967045B2 (ja) 背景判別装置、方法及びプログラム
US9378428B2 (en) Incomplete patterns
CN114550062A (zh) 图像中运动对象的确定方法、装置、电子设备和存储介质
CN114120305A (zh) 文本分类模型的训练方法、文本内容的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: Greater Cayman, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.