CN111611883A - 基于最小单元格聚类的表格版面分析方法、系统及设备 - Google Patents

基于最小单元格聚类的表格版面分析方法、系统及设备 Download PDF

Info

Publication number
CN111611883A
CN111611883A CN202010377442.3A CN202010377442A CN111611883A CN 111611883 A CN111611883 A CN 111611883A CN 202010377442 A CN202010377442 A CN 202010377442A CN 111611883 A CN111611883 A CN 111611883A
Authority
CN
China
Prior art keywords
minimum
cells
analyzed
format
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010377442.3A
Other languages
English (en)
Other versions
CN111611883B (zh
Inventor
么新新
侯志强
张学龙
谭培波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhitong Yunlian Technology Co Ltd
Original Assignee
Beijing Zhitong Yunlian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhitong Yunlian Technology Co Ltd filed Critical Beijing Zhitong Yunlian Technology Co Ltd
Priority to CN202010377442.3A priority Critical patent/CN111611883B/zh
Publication of CN111611883A publication Critical patent/CN111611883A/zh
Application granted granted Critical
Publication of CN111611883B publication Critical patent/CN111611883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于最小单元格聚类的表格版面分析方法、系统及设备,用于封闭表格,该方法包括:读取待分析的表格图像,将表格图像的方向标准化,并进行图像二值化处理和倾斜校正;根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;基于真实表格格式,获取待分析表格的最小单元格,将待分析表格转化为最小单元格格式;基于真实表格格式,对最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。

Description

基于最小单元格聚类的表格版面分析方法、系统及设备
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种基于最小单元格聚类的表格版面分析方法、系统及设备。
背景技术
在现有技术中,表格可以将信息高度集中,方便人们的快速读取和分析。在物流、金融等多个行业的印刷体文档中存在大量的表格,若采用人工录入代价极高,因此表格的版面识别解析具有很重要的意义。
目前常用的表格图像处理流程具体为:1、进行表格图片的二值化;2、进行表格线的提取、倾斜校正;3、特征点的获取;4、表格单元集合的获取。但是,上述处理流程存在以下问题:
问题1,因印刷体文档本身的清晰度或者扫描质量的问题,表格线上会有断线的情况,从而影响表格线的提取。
问题2,最终获取的表格单元集合之间无关联,不利于后续的信息分析。
因此,目前急需一种表格版面分析方法解决上述问题。
发明内容
本发明的目的在于提供一种基于最小单元格聚类的表格版面分析方法、系统及设备,旨在解决现有技术中的上述问题。
本发明提供一种基于最小单元格聚类的表格版面分析方法,用于封闭表格,包括:
读取待分析的表格图像,将表格图像的方向标准化,并进行图像二值化处理和倾斜校正;
根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;
基于真实表格格式,获取待分析表格的最小单元格,将待分析表格转化为最小单元格格式;
基于真实表格格式,对最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。
本发明提供一种基于最小单元格聚类的表格版面分析系统,用于封闭表格,包括:
预处理模块,用于读取待分析的表格图像,将表格图像的方向标准化,并进行图像二值化处理和倾斜校正;
真实表格格式获取模块,用于根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;
最小单元格格式获取模块,用于基于真实表格格式,获取待分析表格的最小单元格,将待分析表格转化为最小单元格格式;
合并模块,用于基于真实表格格式,对最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。
本发明实施例还提供一种基于最小单元格聚类的表格版面分析设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述基于最小单元格聚类的表格版面分析方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传递的实现程序,程序被处理器执行时实现上述基于最小单元格聚类的表格版面分析方法的步骤。
采用本发明实施例,解决了断线的影响,并且通过真实表格中单元格与原始表格中最小单元格关系可以推断真实表格中每个单元格之间的关联,有利于后续的信息关联分析。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的基于最小单元格聚类的表格版面分析方法的流程图;
图2是本发明实施例的待分析的表格图像的示意图;
图3是本发明实施例的方向标准化的表格图像的示意图;
图4是本发明实施例的待分析表格中的表格线获取的示意图;
图5是本发明实施例的由最小单元格组成的待分析表格的示意图;
图6是本发明实施例的最小单元格的初始类别的示意图;
图7是本发明实施例的最小单元格的行聚类的示意图;
图8是本发明实施例的最小单元格的列聚类的示意图;
图9是本发明实施例的同类最小单元格合并的示意图;
图10是本发明实施例的基于最小单元格聚类的表格版面分析系统的示意图;
图11是本发明实施例的基于最小单元格聚类的表格版面分析设备的示意图。
具体实施方式
本发明实施例提出了一种基于最小单元格聚类的版面分析的技术方案,对于闭合表格,模拟利用excel制作表格的过程,将表格拆分成最小单元格,得到m行n列的原始表格,然后根据相邻的最小单元格中间是否有线段进行聚类合并得到真实的表格。
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“坚直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种基于最小单元格聚类的表格版面分析方法,图1是本发明实施例的基于最小单元格聚类的表格版面分析方法的流程图,如图1所示,根据本发明实施例的基于最小单元格聚类的表格版面分析方法具体包括:
步骤101,读取待分析的表格图像,将表格图像的方向标准化,并进行图像二值化处理和倾斜校正;在此步骤后,会得到一个二值化图像。步骤101具体包括如下处理:
以矩阵或数组的形式读取待分析的表格图像;
通过牛津大学计算机视觉组(Visual Geometry Group,简称为VGG)的VGG16模型将表格图像的方向标准化;具体地,因版面尺寸的限制以及扫描时纸张方向的影响,表格图像的方向可能是0度、90度、180度、270度。基于VGG16模型判断表格的方向然后将表格的方向标准化到0度。例如,针对图2所示的表格图像,经过VGG16模型判断其表格方向为90度,将其旋转得到如图3所示的方向标准化的图片。
将表格图像进行二值化处理,即将图像中的像素点的数值设置为0或255,并对表格图像进行倾斜校正,将整个表格图像呈现出明显的黑白效果。不同于上述方向标准化,此处的倾斜校正是小角度的校正。
步骤102,根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;步骤102具体包括:通过水平方向的腐蚀和膨胀获取表格图像的横线,通过垂直方向的腐蚀和膨胀获取表格图像的竖线,获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格。通常图像处理获取的表格线中都会出现断线的情况,如图4中椭圆圈出部分,但处理中闭合表格中的每个单元格是个连通区域,因此会影响表格的版面分析。本发明实施例的后续处理会解决这个问题。
步骤103,基于真实表格格式,获取待分析表格的最小单元格,将待分析表格转化为最小单元格格式;
步骤103具体包括:基于真实表格格式,通过水平投影和垂直投影计算待分析表格的边界,在待分析表格的边界区域内,将横线水平延伸,竖线垂直延伸,得到由最小单元格组成的m行n列的待分析表格,即得到由最小单元组成的m行n列的原始表格(待分析表格),如图5所示的12行8列的原始表格。
步骤104,基于真实表格格式,对最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。在此步骤中,同excel中制作表格一样,根据业务需要将单元格合并。根据真实表格中线的特征(即真实表格格式)对原始表格中的最小单元格进行合并。
步骤104具体包括:
对每个最小单元格进行类别初始化:对m行n列的最小单元格格式的待分析表格中的每一行,从左到右将最小单元格的类别分别设为i-1、i-2、i-3、……、i-n,其中i代表第i行;如图6所示,将图5的原始表格中每个最小单元格的类别进行了初始化。
基于真实表格格式,对最小单元格进行水平方向的类别聚类:对m行n列类别初始化后的待分析表格中的每一行,从左到右依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含垂直线,若不包含垂直线,则确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;若包含垂直线,则判断垂直线的高度是否大于或等于第一预设阈值(在本发明实施例中,可以设置第一预设阈值为两个最小单元格高度*0.5),如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别,如图7所示,左上角椭圆圈出部分的两个相邻单元格因真实表格图片中无线段的存在,故两者的类别是一致的。
基于真实表格格式,对最小单元格进行垂直方向的类别聚类:对进行水平方向聚类处理后的m行n列待分析表格中的每一列,从上到下依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含水平线,若不包含水平线,则确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;若包含水平线,则判断水平线的长度是否大于或等于第二预设阈值(在本发明实施例中,可以设置第二预设阈值为两个最小单元格长度*0.5),如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别,如图8所示,经过上述处理后,椭圆圈出部分的四个相邻的最小单元格的类别是一致的。
根据水平方向和垂直方向的类别聚类结果进行同类最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格:对经过水平方向和垂直方向聚类处理后的m行n列的待分析表格,将类别相同的最小单元格进行合并,最终输出闭合的含有单元格之间关联信息的真实表格,其中,单元格之间关联信息包括:合并后单元格的类别以及水平方向和垂直方向所包括的最小单元格的数目。如图9所示,经过同类最小单元格合并处理后即得到真实表格,其中每个单元格的文字“i-j,j_step,i_step”表示该单元格是由图5原始表格中以第i行、j列的最小单元格开始向右移动(j_step-1)个最小单元格,向下移动(i_step-1)个最小单元格进行合并得到的,即该单元格包含i_step行j_step列的最小单元格。
综上,本发明实施例采用基于最小单元格聚类的方法对表格进行版面分析,对于表格图像处理中表格线的断线,通过模拟excel中表格的制作的过程,先计算包含最小单元格的原始表格,然后进行相邻最小单元格是否可合并的判断,最终得到真实的表格,解决了断线的影响,并且通过真实表格中单元格与原始表格中最小单元格关系可以推断真实表格中每个单元格之间的关联,通过ocr识别有利于后续的信息关联分析。
系统实施例
根据本发明实施例,提供了一种基于最小单元格聚类的表格版面分析系统,用于封闭表格,图10是本发明实施例的基于最小单元格聚类的表格版面分析系统的示意图,如图10所示,根据本发明实施例的基于最小单元格聚类的表格版面分析系统具体包括:
预处理模块100,用于读取待分析的表格图像,将表格图像的方向标准化,并进行图像二值化处理和倾斜校正;预处理模块100具体用于:
以矩阵或数组的形式读取待分析的表格图像;
通过VGG16模型将表格图像的方向标准化;
将表格图像进行二值化处理,即将图像的像素点数值设置为0或255;并对表格图像进行倾斜校正;
真实表格格式获取模块102,用于根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;真实表格格式获取模块102具体用于:
通过水平方向的腐蚀和膨胀获取表格图像的横线,通过垂直方向的腐蚀和膨胀获取表格图像的竖线,获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;
最小单元格格式获取模块104,用于基于真实表格格式,获取待分析表格的最小单元格,将待分析表格转化为最小单元格格式;最小单元格格式获取模块104具体用于:
基于真实表格格式,通过水平投影和垂直投影计算待分析表格的边界,在待分析表格的边界区域内,将横线水平延伸,竖线垂直延伸,得到由最小单元组成的m行n列的待分析表格;
合并模块106,用于基于真实表格格式,对最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。
合并模块106具体用于:
对每个最小单元格进行类别初始化:对每个最小单元格进行类别初始化:对m行n列的最小单元格格式的待分析表格中的每一行,从左到右将最小单元格的类别分别设为i-1、i-2、i-3、……、i-n,其中i代表第i行;
基于真实表格格式,对最小单元格进行水平方向的类别聚类:对m行n列类别初始化后的待分析表格中的每一行,从左到右依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含垂直线,若不包含垂直线,则确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;若包含垂直线,则判断垂直线的高度是否大于或等于第一预设阈值,如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;
基于真实表格格式,对最小单元格进行垂直方向的类别聚类:基于真实表格格式,对最小单元格进行垂直方向的聚类具体包括:
对进行水平方向聚类处理后的m行n列待分析表格中的每一列,从上到下依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含水平线,若不包含水平线,则确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;若包含水平线,则判断水平线的长度是否大于或等于第二预设阈值,如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;
根据水平方向和垂直方向的类别聚类结果进行同类最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格:针对经过水平方向和垂直方向聚类处理后的m行n列的待分析表格,将类别相同的最小单元格进行合并,最终输出闭合的含有单元格之间关联信息的真实表格,其中,单元格之间关联信息包括:合并后单元格的类别以及水平方向和垂直方向所包括的最小单元格的数目。
综上,本发明实施例采用基于最小单元格聚类的方法对表格进行版面分析,对于表格图像处理中表格线的断线,通过模拟excel中表格的制作的过程,先计算包含最小单元格的原始表格,然后进行相邻最小单元格是否可合并的判断,最终得到真实的表格,解决了断线的影响,并且通过真实表格中单元格与原始表格中最小单元格关系可以推断真实表格中每个单元格之间的关联,通过ocr识别有利于后续的信息关联分析。
本发明实施例是与上述方法实施例对应的系统实施例,可以参照对于方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种基于最小单元格聚类的表格版面分析设备,如图11所示,包括:存储器110、处理器112及存储在存储器110上并可在处理器112上运行的计算机程序,计算机程序被处理器112执行时实现如下方法步骤:
步骤101,读取待分析的表格图像,将表格图像的方向标准化,并进行图像二值化处理和倾斜校正;在此步骤后,会得到一个二值化图像。步骤101具体包括如下处理:
以矩阵或数组的形式读取待分析的表格图像;
通过VGG 16模型将表格图像的方向标准化;具体地,因版面尺寸的限制以及扫描时纸张方向的影响,表格图像的方向可能是0度、90度、180度、270度。基于VGG16模型判断表格的方向然后将表格的方向标准化到0度。例如,针对图2所示的表格图像,经过VGG16模型判断其表格方向为90度,将其旋转得到如图3所示的方向标准化的图片。
将表格图像进行二值化处理,即将图像中的像素点的数值设置为0或255,并对表格图像进行倾斜校正,将整个表格图像呈现出明显的黑白效果。不同于上述方向标准化,此处的倾斜校正是小角度的校正。
步骤102,根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;步骤102具体包括:通过水平方向的腐蚀和膨胀获取表格图像的横线,通过垂直方向的腐蚀和膨胀获取表格图像的竖线,获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格。通常图像处理获取的表格线中都会出现断线的情况,如图4中椭圆圈出部分,但处理中闭合表格中的每个单元格是个连通区域,因此会影响表格的版面分析。本发明实施例的后续处理会解决这个问题。
步骤103,基于真实表格格式,获取待分析表格的最小单元格,将待分析表格转化为最小单元格格式;
步骤103具体包括:基于真实表格格式,通过水平投影和垂直投影计算待分析表格的边界,在待分析表格的边界区域内,将横线水平延伸,竖线垂直延伸,得到由最小单元格组成的m行n列的待分析表格,即得到由最小单元组成的m行n列的原始表格(待分析表格),如图5所示的12行8列的原始表格。
步骤104,基于真实表格格式,对最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。在此步骤中,同excel中制作表格一样,根据业务需要将单元格合并。根据真实表格中线的特征(即真实表格格式)对原始表格中的最小单元格进行合并。
步骤104具体包括:
对每个最小单元格进行类别初始化:对m行n列的最小单元格格式的待分析表格中的每一行,从左到右将最小单元格的类别分别设为i-1、i-2、i-3、……、i-n,其中i代表第i行;如图6所示,将图5的原始表格中每个最小单元格的类别进行了初始化。
基于真实表格格式,对最小单元格进行水平方向的类别聚类:对m行n列类别初始化后的待分析表格中的每一行,从左到右依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含垂直线,若不包含垂直线,则确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;若包含垂直线,则判断垂直线的高度是否大于或等于第一预设阈值(在本发明实施例中,可以设置第一预设阈值为两个最小单元格高度*0.5),如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别,如图7所示,左上角椭圆圈出部分的两个相邻单元格因真实表格图片中无线段的存在,故两者的类别是一致的。
基于真实表格格式,对最小单元格进行垂直方向的类别聚类:对进行水平方向聚类处理后的m行n列待分析表格中的每一列,从上到下依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含水平线,若不包含水平线,则确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;若包含水平线,则判断水平线的长度是否大于或等于第二预设阈值(在本发明实施例中,可以设置第二预设阈值为两个最小单元格长度*0.5),如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别,如图8所示,经过上述处理后,椭圆圈出部分的四个相邻的最小单元格的类别是一致的。
根据水平方向和垂直方向的类别聚类结果进行同类最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格:对经过水平方向和垂直方向聚类处理后的m行n列的待分析表格,将类别相同的最小单元格进行合并,最终输出闭合的含有单元格之间关联信息的真实表格,其中,单元格之间关联信息包括:合并后单元格的类别以及水平方向和垂直方向所包括的最小单元格的数目。如图9所示,经过同类最小单元格合并处理后即得到真实表格,其中每个单元格的文字“i-j,j_step,i_step”表示该单元格是由图5原始表格中以第i行、j列的最小单元格开始向右移动(j_step-1)个最小单元格,向下移动(i_step-1)个最小单元格进行合并得到的,即该单元格包含i_step行j_step列的最小单元格。
装置实施例二
本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传输的实现程序,程序被处理器112执行时实现如下方法步骤:
步骤101,读取待分析的表格图像,将表格图像的方向标准化,并进行图像二值化处理和倾斜校正;在此步骤后,会得到一个二值化图像。步骤101具体包括如下处理:
以矩阵或数组的形式读取待分析的表格图像;
通过VGG 16模型将表格图像的方向标准化;具体地,因版面尺寸的限制以及扫描时纸张方向的影响,表格图像的方向可能是0度、90度、180度、270度。基于VGG16模型判断表格的方向然后将表格的方向标准化到0度。例如,针对图2所示的表格图像,经过VGG16模型判断其表格方向为90度,将其旋转得到如图3所示的方向标准化的图片。
将表格图像进行二值化处理,即将图像中的像素点的数值设置为0或255,并对表格图像进行倾斜校正,将整个表格图像呈现出明显的黑白效果。不同于上述方向标准化,此处的倾斜校正是小角度的校正。
步骤102,根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;步骤102具体包括:通过水平方向的腐蚀和膨胀获取表格图像的横线,通过垂直方向的腐蚀和膨胀获取表格图像的竖线,获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格。通常图像处理获取的表格线中都会出现断线的情况,如图4中椭圆圈出部分,但处理中闭合表格中的每个单元格是个连通区域,因此会影响表格的版面分析。本发明实施例的后续处理会解决这个问题。
步骤103,基于真实表格格式,获取待分析表格的最小单元格,将待分析表格转化为最小单元格格式;
步骤103具体包括:基于真实表格格式,通过水平投影和垂直投影计算待分析表格的边界,在待分析表格的边界区域内,将横线水平延伸,竖线垂直延伸,得到由最小单元格组成的m行n列的待分析表格,即得到由最小单元组成的m行n列的原始表格(待分析表格),如图5所示的12行8列的原始表格。
步骤104,基于真实表格格式,对最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。在此步骤中,同excel中制作表格一样,根据业务需要将单元格合并。根据真实表格中线的特征(即真实表格格式)对原始表格中的最小单元格进行合并。
步骤104具体包括:
对每个最小单元格进行类别初始化:对m行n列的最小单元格格式的待分析表格中的每一行,从左到右将最小单元格的类别分别设为i-1、i-2、i-3、……、i-n,其中i代表第i行;如图6所示,将图5的原始表格中每个最小单元格的类别进行了初始化。
基于真实表格格式,对最小单元格进行水平方向的类别聚类:对m行n列类别初始化后的待分析表格中的每一行,从左到右依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含垂直线,若不包含垂直线,则确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;若包含垂直线,则判断垂直线的高度是否大于或等于第一预设阈值(在本发明实施例中,可以设置第一预设阈值为两个最小单元格高度*0.5),如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别,如图7所示,左上角椭圆圈出部分的两个相邻单元格因真实表格图片中无线段的存在,故两者的类别是一致的。
基于真实表格格式,对最小单元格进行垂直方向的类别聚类:对进行水平方向聚类处理后的m行n列待分析表格中的每一列,从上到下依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含水平线,若不包含水平线,则确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;若包含水平线,则判断水平线的长度是否大于或等于第二预设阈值(在本发明实施例中,可以设置第二预设阈值为两个最小单元格长度*0.5),如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别,如图8所示,经过上述处理后,椭圆圈出部分的四个相邻的最小单元格的类别是一致的。
根据水平方向和垂直方向的类别聚类结果进行同类最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格:对经过水平方向和垂直方向聚类处理后的m行n列的待分析表格,将类别相同的最小单元格进行合并,最终输出闭合的含有单元格之间关联信息的真实表格,其中,单元格之间关联信息包括:合并后单元格的类别以及水平方向和垂直方向所包括的最小单元格的数目。如图9所示,经过同类最小单元格合并处理后即得到真实表格,其中每个单元格的文字“i-j,j_step,i_step”表示该单元格是由图5原始表格中以第i行、j列的最小单元格开始向右移动(j_step-1)个最小单元格,向下移动(i_step-1)个最小单元格进行合并得到的,即该单元格包含i_step行j_step列的最小单元格。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于最小单元格聚类的表格版面分析方法,其特征在于,用于封闭表格,所述方法具体包括:
读取待分析的表格图像,将所述表格图像的方向标准化,并进行图像二值化处理和倾斜校正;
根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;
基于所述真实表格格式,获取所述待分析表格的最小单元格,将所述待分析表格转化为最小单元格格式;
基于所述真实表格格式,对所述最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。
2.根据权利要求1所述的方法,其特征在于,读取待分析的表格图像,将所述表格图像的方向标准化,并进行图像二值化处理和倾斜校正具体包括:
以矩阵或数组的形式读取待分析的表格图像;
通过牛津大学计算机视觉组VGG16模型将所述表格图像的方向标准化;
将表格图像进行二值化处理,即将图像中的像素点的数值设置为0或255,并对表格图像进行倾斜校正。
3.根据权利要求1所述的方法,其特征在于,根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格具体包括:
通过水平方向的腐蚀和膨胀获取表格图像的横线,通过垂直方向的腐蚀和膨胀获取表格图像的竖线,获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格。
4.根据权利要求1所述的方法,其特征在于,基于所述真实表格格式,获取所述待分析表格的最小单元格,将所述待分析表格转化为最小单元格格式具体包括:
基于所述真实表格格式,通过水平投影和垂直投影计算待分析表格的边界,在待分析表格的边界区域内,将横线水平延伸,竖线垂直延伸,得到由最小单元格组成的m行n列的待分析表格。
5.根据权利要求1所述的方法,其特征在于,基于所述真实表格格式,对所述最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格具体包括:
对每个最小单元格进行类别初始化;
基于所述真实表格格式,对最小单元格进行水平方向的类别聚类;
基于所述真实表格格式,对最小单元格进行垂直方向的类别聚类;
根据水平方向和垂直方向的类别聚类结果进行同类最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。
6.根据权利要求5所述的方法,其特征在于,
对每个最小单元格进行类别初始化具体包括:
对m行n列的最小单元格格式的待分析表格中的每一行,从左到右将最小单元格的类别分别设为i-1、i-2、i-3、……、i-n,其中i代表第i行;
基于所述真实表格格式,对最小单元格进行水平方向的类别聚类具体包括:
对m行n列类别初始化后的待分析表格中的每一行,从左到右依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含垂直线,若不包含垂直线,则确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;若包含垂直线,则判断所述垂直线的高度是否大于或等于第一预设阈值,如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;
基于所述真实表格格式,对最小单元格进行垂直方向的类别聚类具体包括:
对进行水平方向聚类处理后的m行n列待分析表格中的每一列,从上到下依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含水平线,若不包含水平线,则确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;若包含水平线,则判断所述水平线的长度是否大于或等于第二预设阈值,如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;
根据水平方向和垂直方向的类别聚类结果进行同类最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格具体包括:
对经过水平方向和垂直方向聚类处理后的m行n列的待分析表格,将类别相同的最小单元格进行合并,最终输出闭合的含有单元格之间关联信息的真实表格,其中,所述单元格之间关联信息包括:合并后单元格的类别以及水平方向和垂直方向所包括的最小单元格的数目。
7.一种基于最小单元格聚类的表格版面分析系统,其特征在于,用于封闭表格,所述系统具体包括:
预处理模块,用于读取待分析的表格图像,将所述表格图像的方向标准化,并进行图像二值化处理和倾斜校正;
真实表格格式获取模块,用于根据表格图像获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;
最小单元格格式获取模块,用于基于所述真实表格格式,获取所述待分析表格的最小单元格,将所述待分析表格转化为最小单元格格式;
合并模块,用于基于所述真实表格格式,对所述最小单元格格式的待分析表格进行最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格。
8.根据权利要求7所述的系统,其特征在于,
所述预处理模块具体用于:
以矩阵或数组的形式读取待分析的表格图像;
通过VGG16模型将所述表格图像的方向标准化;
将表格图像进行二值化处理,即将图像的像素点数值设置为0或255;并对表格图像进行倾斜校正;
所述真实表格格式获取模块具体用于:
通过水平方向的腐蚀和膨胀获取表格图像的横线,通过垂直方向的腐蚀和膨胀获取表格图像的竖线,获取不含有文字信息仅包括横线和竖线的真实表格格式的待分析表格;
所述最小单元格格式获取模块具体用于:
基于所述真实表格格式,通过水平投影和垂直投影计算待分析表格的边界,在待分析表格的边界区域内,将横线水平延伸,竖线垂直延伸,得到由最小单元组成的m行n列的待分析表格;
所述合并模块具体用于:
对每个最小单元格进行类别初始化:对m行n列的最小单元格格式的待分析表格中的每一行,从左到右将最小单元格的类别分别设为i-1、i-2、i-3、……、i-n,其中i代表第i行;
基于所述真实表格格式,对最小单元格进行水平方向的类别聚类:对m行n列类别初始化后的待分析表格中的每一行,从左到右依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含垂直线,若不包含垂直线,则确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;若包含垂直线,则判断所述垂直线的高度是否大于或等于第一预设阈值,如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将后一个最小单元格的类别设置为前一个最小单元格的类别;
基于所述真实表格格式,对最小单元格进行垂直方向的类别聚类:基于所述真实表格格式,对最小单元格进行垂直方向的聚类具体包括:
对进行水平方向聚类处理后的m行n列待分析表格中的每一列,从上到下依次处理相邻的两个最小单元格,根据真实表格格式的待分析表格判断两个最小单元格中间区域是否包含水平线,若不包含水平线,则确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;若包含水平线,则判断所述水平线的长度是否大于或等于第二预设阈值,如果判断为是,则确定两个最小单元格的类别不同,否则,确定两个最小单元格的类别相同,将下一个最小单元格的类别设置为上一个最小单元格的类别;
根据水平方向和垂直方向的类别聚类结果进行同类最小单元格的合并,最终输出闭合的含有单元格之间关联信息的真实表格:针对经过水平方向和垂直方向聚类处理后的m行n列的待分析表格,将类别相同的最小单元格进行合并,最终输出闭合的含有单元格之间关联信息的真实表格,其中,所述单元格之间关联信息包括:合并后单元格的类别以及水平方向和垂直方向所包括的最小单元格的数目。
9.一种基于最小单元格聚类的表格版面分析设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的基于最小单元格聚类的表格版面方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至6中任一项所述的基于最小单元格聚类的表格版面分析方法的步骤。
CN202010377442.3A 2020-05-07 2020-05-07 基于最小单元格聚类的表格版面分析方法、系统及设备 Active CN111611883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010377442.3A CN111611883B (zh) 2020-05-07 2020-05-07 基于最小单元格聚类的表格版面分析方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010377442.3A CN111611883B (zh) 2020-05-07 2020-05-07 基于最小单元格聚类的表格版面分析方法、系统及设备

Publications (2)

Publication Number Publication Date
CN111611883A true CN111611883A (zh) 2020-09-01
CN111611883B CN111611883B (zh) 2023-08-15

Family

ID=72204881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010377442.3A Active CN111611883B (zh) 2020-05-07 2020-05-07 基于最小单元格聚类的表格版面分析方法、系统及设备

Country Status (1)

Country Link
CN (1) CN111611883B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881659A (zh) * 2020-09-28 2020-11-03 江西汉辰信息技术股份有限公司 表格图片的处理方法、系统、可读存储介质及计算机设备
CN112232048A (zh) * 2020-11-12 2021-01-15 腾讯科技(深圳)有限公司 一种基于神经网络的表格处理方法以及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336404A1 (en) * 2017-05-18 2018-11-22 Wipro Limited Methods and devices for extracting text from documents
CN110110313A (zh) * 2019-05-09 2019-08-09 上海微投股权投资基金管理有限公司 文档表格解析方法及装置
CN110210440A (zh) * 2019-06-11 2019-09-06 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN110598575A (zh) * 2019-08-21 2019-12-20 科大讯飞股份有限公司 表格版面分析与提取方法及相关装置
CN110688825A (zh) * 2019-08-13 2020-01-14 北京众信博雅科技有限公司 一种版式文档中的含线表格信息提取方法
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336404A1 (en) * 2017-05-18 2018-11-22 Wipro Limited Methods and devices for extracting text from documents
CN110110313A (zh) * 2019-05-09 2019-08-09 上海微投股权投资基金管理有限公司 文档表格解析方法及装置
CN110210440A (zh) * 2019-06-11 2019-09-06 中国农业银行股份有限公司 一种表格图像版面分析方法及系统
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN110688825A (zh) * 2019-08-13 2020-01-14 北京众信博雅科技有限公司 一种版式文档中的含线表格信息提取方法
CN110598575A (zh) * 2019-08-21 2019-12-20 科大讯飞股份有限公司 表格版面分析与提取方法及相关装置
CN110796031A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 基于人工智能的表格识别方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881659A (zh) * 2020-09-28 2020-11-03 江西汉辰信息技术股份有限公司 表格图片的处理方法、系统、可读存储介质及计算机设备
CN111881659B (zh) * 2020-09-28 2021-02-26 江西汉辰信息技术股份有限公司 表格图片的处理方法、系统、可读存储介质及计算机设备
CN112232048A (zh) * 2020-11-12 2021-01-15 腾讯科技(深圳)有限公司 一种基于神经网络的表格处理方法以及相关装置

Also Published As

Publication number Publication date
CN111611883B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN111401371B (zh) 一种文本检测识别方法、系统及计算机设备
US10817717B2 (en) Method and device for parsing table in document image
CN110942074B (zh) 字符切分识别方法、装置、电子设备、存储介质
CN101908136B (zh) 一种表格识别处理方法及系统
CN110751143A (zh) 一种电子发票信息的提取方法及电子设备
CN112185520B (zh) 一种医疗病理报告图片的文本结构化处理系统和方法
CN111062259A (zh) 表格识别方法和装置
WO2021042505A1 (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN111914805A (zh) 表格结构化方法、装置、电子设备及存储介质
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN113486828A (zh) 图像处理方法、装置、设备和存储介质
CN113569863B (zh) 一种单据稽查的方法、系统、电子设备及存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN111611883A (zh) 基于最小单元格聚类的表格版面分析方法、系统及设备
CN112560850A (zh) 基于自定义模板的身份证信息自动提取和真伪校验方法
CN113111880A (zh) 证件图像校正方法、装置、电子设备及存储介质
CN115082941A (zh) 表格文档影像的表格信息获取方法及装置
US20230154217A1 (en) Method for Recognizing Text, Apparatus and Terminal Device
US11887393B2 (en) End-to-end system for extracting tabular data present in electronic documents and method thereof
CN116030469A (zh) 一种处理方法、装置、设备和计算机可读存储介质
CN115731550A (zh) 一种基于深度学习的药品说明书自动识别方法、系统及存储介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN114332898A (zh) 连线试题的自动批改方法、装置及存储介质
CN116311301B (zh) 无线表格识别方法及系统
CN110751140A (zh) 字符批量识别方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant