CN113688688A - 图片中表格线条的补全方法与图片中表格的识别方法 - Google Patents

图片中表格线条的补全方法与图片中表格的识别方法 Download PDF

Info

Publication number
CN113688688A
CN113688688A CN202110854741.6A CN202110854741A CN113688688A CN 113688688 A CN113688688 A CN 113688688A CN 202110854741 A CN202110854741 A CN 202110854741A CN 113688688 A CN113688688 A CN 113688688A
Authority
CN
China
Prior art keywords
lines
picture
line
completion
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110854741.6A
Other languages
English (en)
Inventor
曾丹梦
朱耀邦
李瀚清
高翔
纪达麒
陈运文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Data Suzhou Co ltd
Original Assignee
Daguan Data Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daguan Data Suzhou Co ltd filed Critical Daguan Data Suzhou Co ltd
Priority to CN202110854741.6A priority Critical patent/CN113688688A/zh
Publication of CN113688688A publication Critical patent/CN113688688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种图片中表格线条的补全方法,所述补全方法包括添加横线和/或竖线,其特征在于,所述添加竖线包括:s11针对识别出表格的目标区域,去除跨列的合并单元格;s12对目标区域进行垂直投影,得到表格列之间的空白区域;s13利用空白区域的边界作为表格竖线。本发明的表格识别方法具有更高的识别准确率、更强的鲁棒性。

Description

图片中表格线条的补全方法与图片中表格的识别方法
技术领域
本发明属于表格识别领域,具体涉及一种图片中表格线条的补全方法与图片中表格的识别方法。
背景技术
工业界常用的表格识别方法:
1.基于规则的表格识别方法:首先利用ocr技术检测出文本,从文本框的位置信息推导出行列及单元格信息,然后生成电子表格。缺陷:极度依赖ocr检测结果和人工设计的规则,需要做针对性开发,推广性较差。
2.基于线条纹理的表格识别方法:运用形态学变换、纹理提取、边缘检测等手段,提取表格线,再由表格线推导出行列及合并单元格信息。缺陷:依赖传统图像处理算法,在鲁棒性方面较欠缺,针对无线表格的行列信息挑战较大。
3.基于深度学习的方法:利用神经网络进行端到端的学习表格信息,将表格图片转化为某种结构化描述语言(比如html定义表格结构)。缺陷:表格结构一旦出现错误,无法从中间步骤快速干预修复,只能重新调整模型,不适合工程落地。
发明内容
针对现有技术中存在的问题,本发明提供一种图片中表格线条的补全方法,本发明的部分实施例能够具有较高的通用性,适用于全线、少线、无线的电子表格表格,并且对于质量较差的扫描件、手持拍摄图片同样具有较强的抗干扰能力。该系统通过融合线条纹理,文本框位置,文本框语义多模态信息快速重建出表格的结构及文本信息,实现纸质文档一键转化为直接可编辑的电子文档,解决传统方案中识别内容丢失和文档格式不兼容等问题,减少了用户后期重复编辑的时间,大大提升了用户的工作效率。
为实现上述目的,本发明采用以下技术方案:
一种图片中表格线条的补全方法,所述补全方法包括添加横线和/或竖线,所述添加竖线包括:s11针对识别出表格的目标区域,去除跨列的合并单元格;s12对目标区域进行垂直投影,得到表格列之间的空白区域;s13利用空白区域的边界作为表格竖线。
优选地,所述添加横线包括:s21对表格文本内容进行细粒度的分行及分列处理;s22利用强规则判断行是否进行合并;s23利用nlp信息判断是否合并剩余的同列文本框。
一种图片中表格的识别方法,所述识别方法包括:s31矫正图片;s32定位图片中的表格区域;s33检测表格中已有的实际线条;s34通过补全方法添加虚拟线条;s35重构单元格。
优选地,所述s32还包括:s321使用深度学习目标检测算法定位表格区域;s322判断表格类型;s323过滤噪声表格。
优选地,所述s33还包括:s331使用卷积神经网络算法对实际线条进行检测;s332用线条纹理模态使用几何分析得到每条横竖线的位置;s333过滤噪声线条。
优选地,所述s35还包括:s351利用表格线条重构出单元格,包括行、列、单元格位置信息;s352利用文本及单元格的相对位置进行内容填充。
一种计算机可读存储介质,所述可读存储介质存储有计算机指令,所述指令被处理器运行时实现任一所述的图片中表格的识别方法。
一种图片中表格的识别装置,所述识别装置包括:矫正单元,用来矫正图片;定位单元,用来定位图片中的表格区域;检测单元,用来检测表格中已有的实际线条;补全单元,用来通过补全方法添加虚拟线条;重构单元,用来重构单元格。
与现有技术相比,本发明的有益效果为:能够充分利用多模态的协同表示高准确率的重构出表格结构;具有通用级别的文档矫正模块;支持透视、倾斜、背景色、印章等表格文档的识别;具有方便的功能拓展能力,具有丰富的参数与脚本,能够快速对接不同的表格识别场景
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为实施例中一种基于多模态的通用表格识别系统的处理流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1所示,本实施例提供一种基于多模态的通用表格识别系统,主要包括以下几个模块:数据预处理模块、基于图像分割网络的图片矫正模块、基于深度学习的的表格区域检测模块、基于卷积神经网络的实际线条检测模块、ocr识别模块、基于文本位置及nlp语义信息的虚拟线条添加模块及单元格重构模块。
该系统充分利用数据的多样性,通过实际线条纹理、文本位置、文本语义等多模态的协同表示,重构出更加准确的表格结构,相对于传统规则及基于深度学习的表格识别方法具有更高的识别准确率、更强的鲁棒性。
一种基于多模态的通用表格识别系统,其处理流程如下:
1.数据预处理:输入支持docx、doc、pdf、txt、png、jpg、jpeg、tif、tiff、扫描件等多种文档格式,将文档转化为单页图片。
2.图片矫正:
a)为了提高后处理及ocr识别的质量,对图片进行倾斜矫正。使用深度学习分割网络对文本区域进行像素级分割。
b)利用几何方法计算出文本区域的外接四边形,为了得到更多的图片信息,对外接四边形的四条边平移相交于图片边界得到最值。
c)然后使用四个点的最值进行透视变换,得到矫正后的图片。
3.表格区域定位步骤:
a)使用改进版本的轻量级的多尺度深度学习目标检测算法定位表格区域,同时判断出表格类型(全线、少线、无线)
b)噪声表格过滤
4.实际线条检测步骤:
a)使用优化后的卷积神经网络算法对实际线条进行检测
b)利用线条纹理模态使用几何分析得到每条横竖线的位置
c)噪声线条的过滤
5.添加虚拟线条步骤:
a)针对少线及无线表格进行加虚拟横线处理
i.首先对表格文本内容进行细粒度的分行及分列处理
ii.首先利用强规则判断行是否进行合并:比如带百分位的数字不能合并,特定格式的日期需要合并等
iii.然后利用nlp信息判断是否合并剩余的同列文本框
b)针对少线及无线表格进行加虚拟竖线处理
i.竖直方向去除跨列的合并单元格,得到非合并单元格(此处,去除指将合并单元格背景化,比如整个合并单元格区域做暂时性的白色覆盖处理)
ii.针对非合并单元格进行垂直投影,得到列之间的空白区域
其中,垂直投影的实现步骤包括:
1图像二值化,物体为黑,背景为白;
2循环各列,依次判断每一行的像素值是否为黑,统计该列所有黑像素的个数。
6.单元格重构
a)利用表格线条重构出单元格(行、列、单元格位置信息)
i.横线个数减一作为表格行数m,竖线个数减一作为表格列数n
ii.单元格个数为m*n
iii.单元格i*j的位置由第i及i+1的横线位置,第j及j+1的竖线位置构成
b)利用文本及单元格的相对位置进行内容填充
c)合并单元格重构:利用线条和单元格的位置判断该单元格是否为合并单元格。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。

Claims (8)

1.一种图片中表格线条的补全方法,所述补全方法包括添加横线和/或竖线,其特征在于,所述添加竖线包括:
s11针对识别出表格的目标区域,去除跨列的合并单元格;
s12对目标区域进行垂直投影,得到表格列之间的空白区域;
s13利用空白区域的边界作为表格竖线。
2.根据权利要求1所述的图片中表格线条的补全方法,其特征在于,所述添加横线包括:
s21对表格文本内容进行细粒度的分行及分列处理;
s22利用强规则判断行是否进行合并;
s23利用nlp信息判断是否合并剩余的同列文本框。
3.一种图片中表格的识别方法,其特征在于,所述识别方法包括:
s31矫正图片;
s32定位图片中的表格区域;
s33检测表格中已有的实际线条;
s34通过补全方法添加虚拟线条;
s35重构单元格。
4.根据权利要求3所述的图片中表格的识别方法,其特征在于,所述s32还包括:
s321使用深度学习目标检测算法定位表格区域;
s322判断表格类型;
s323过滤噪声表格。
5.根据权利要求4所述的图片中表格的识别方法,其特征在于,所述s33还包括:
s331使用卷积神经网络算法对实际线条进行检测;
s332用线条纹理模态使用几何分析得到每条横竖线的位置;
s333过滤噪声线条。
6.根据权利要求5所述的图片中表格的识别方法,其特征在于,所述s35还包括:
s351利用表格线条重构出单元格,包括行、列、单元格位置信息;
s352利用文本及单元格的相对位置进行内容填充。
7.一种计算机可读存储介质,其特征在于,所述可读存储介质存储有计算机指令,所述指令被处理器运行时实现权利要求3-6中任一所述的图片中表格的识别方法。
8.一种图片中表格的识别装置,其特征在于,所述识别装置包括:
矫正单元,用来矫正图片;
定位单元,用来定位图片中的表格区域;
检测单元,用来检测表格中已有的实际线条;
补全单元,用来通过补全方法添加虚拟线条;
重构单元,用来重构单元格。
CN202110854741.6A 2021-07-28 2021-07-28 图片中表格线条的补全方法与图片中表格的识别方法 Pending CN113688688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110854741.6A CN113688688A (zh) 2021-07-28 2021-07-28 图片中表格线条的补全方法与图片中表格的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110854741.6A CN113688688A (zh) 2021-07-28 2021-07-28 图片中表格线条的补全方法与图片中表格的识别方法

Publications (1)

Publication Number Publication Date
CN113688688A true CN113688688A (zh) 2021-11-23

Family

ID=78578036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110854741.6A Pending CN113688688A (zh) 2021-07-28 2021-07-28 图片中表格线条的补全方法与图片中表格的识别方法

Country Status (1)

Country Link
CN (1) CN113688688A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022888A (zh) * 2022-01-06 2022-02-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN114511863A (zh) * 2021-12-20 2022-05-17 北京百度网讯科技有限公司 表格结构提取方法、装置、电子设备及存储介质
CN115713775A (zh) * 2023-01-05 2023-02-24 达而观信息科技(上海)有限公司 一种从文档中提取表格的方法、系统和计算机设备
CN117523592A (zh) * 2024-01-04 2024-02-06 南昌航空大学 一种印章区域表格线检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN112528724A (zh) * 2020-09-17 2021-03-19 上海海隆软件有限公司 表格单元格抽出方法、装置、设备及计算机可读存储介质
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190266394A1 (en) * 2018-02-26 2019-08-29 Abc Fintech Co., Ltd. Method and device for parsing table in document image
CN109635268A (zh) * 2018-12-29 2019-04-16 南京吾道知信信息技术有限公司 Pdf文件中表格信息的提取方法
CN110516208A (zh) * 2019-08-12 2019-11-29 深圳智能思创科技有限公司 一种针对pdf文档表格提取的系统及方法
CN112528724A (zh) * 2020-09-17 2021-03-19 上海海隆软件有限公司 表格单元格抽出方法、装置、设备及计算机可读存储介质
CN112906695A (zh) * 2021-04-14 2021-06-04 数库(上海)科技有限公司 适配多类ocr识别接口的表格识别方法及相关设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114511863A (zh) * 2021-12-20 2022-05-17 北京百度网讯科技有限公司 表格结构提取方法、装置、电子设备及存储介质
CN114511863B (zh) * 2021-12-20 2023-10-03 北京百度网讯科技有限公司 表格结构提取方法、装置、电子设备及存储介质
CN114022888A (zh) * 2022-01-06 2022-02-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN114022888B (zh) * 2022-01-06 2022-04-08 上海朝阳永续信息技术股份有限公司 用于识别pdf表格的方法、设备和介质
CN115713775A (zh) * 2023-01-05 2023-02-24 达而观信息科技(上海)有限公司 一种从文档中提取表格的方法、系统和计算机设备
CN117523592A (zh) * 2024-01-04 2024-02-06 南昌航空大学 一种印章区域表格线检测方法
CN117523592B (zh) * 2024-01-04 2024-04-02 南昌航空大学 一种印章区域表格线检测方法

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN113688688A (zh) 图片中表格线条的补全方法与图片中表格的识别方法
JP4170441B2 (ja) 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体
US8401333B2 (en) Image processing method and apparatus for multi-resolution feature based image registration
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN105528614B (zh) 一种漫画图像版面的识别方法和自动识别系统
Gatos et al. Segmentation based recovery of arbitrarily warped document images
JP4395188B2 (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
CN113435240B (zh) 一种端到端的表格检测和结构识别方法及系统
CN108563984B (zh) 一种流程模型图的自动识别与理解方法
CN112115774A (zh) 结合rpa和ai的文字识别方法、装置、电子设备和存储介质
CN112949455B (zh) 一种增值税发票识别系统及方法
CN111914805A (zh) 表格结构化方法、装置、电子设备及存储介质
CN113705673A (zh) 一种文字检测方法、装置、设备及存储介质
Boudraa et al. An improved skew angle detection and correction technique for historical scanned documents using morphological skeleton and progressive probabilistic hough transform
CN114782974A (zh) 表格识别方法、系统、智能终端及计算机可读存储介质
CN112364863B (zh) 证照文档的文字定位方法及系统
CN113033559A (zh) 一种基于目标检测的文本检测方法及装置、存储介质
CN112036294A (zh) 一种纸质表格结构自动识别的方法及装置
Mujumdar et al. Simultaneous optimisation of image quality improvement and text content extraction from scanned documents
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
CN112418210A (zh) 一种杆塔巡检信息智能分类方法
Huang et al. Scene character detection and recognition based on multiple hypotheses framework
CN114332866A (zh) 一种基于图像处理的文献曲线分离与坐标信息提取方法
Biswas et al. Text extraction from scanned land map images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination