CN111881659B - 表格图片的处理方法、系统、可读存储介质及计算机设备 - Google Patents

表格图片的处理方法、系统、可读存储介质及计算机设备 Download PDF

Info

Publication number
CN111881659B
CN111881659B CN202011037842.6A CN202011037842A CN111881659B CN 111881659 B CN111881659 B CN 111881659B CN 202011037842 A CN202011037842 A CN 202011037842A CN 111881659 B CN111881659 B CN 111881659B
Authority
CN
China
Prior art keywords
cell
cells
row
picture
merging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011037842.6A
Other languages
English (en)
Other versions
CN111881659A (zh
Inventor
甘宇
张雷
王君
夏志超
李振刚
刘斯凡
袁海光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jingfa Technology Holding Co ltd
Jiangxi Hanchen Information Technology Co ltd
Original Assignee
Shenzhen Jingfa Technology Holding Co ltd
Jiangxi Hanchen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jingfa Technology Holding Co ltd, Jiangxi Hanchen Information Technology Co ltd filed Critical Shenzhen Jingfa Technology Holding Co ltd
Priority to CN202011037842.6A priority Critical patent/CN111881659B/zh
Publication of CN111881659A publication Critical patent/CN111881659A/zh
Application granted granted Critical
Publication of CN111881659B publication Critical patent/CN111881659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种表格图片的处理方法、系统、可读存储介质及计算机设备,所述方法包括:根据原始表格图片获取每个单元格的位置信息,所述位置信息包括所述单元格的四个顶点位置;判断当前单元格的任一非顶点位置与相邻单元格的任一顶点位置是否重合;若是,则判定所述当前单元格为合并单元格,在当前单元格的相邻位置插入单元格;通过获取每个单元格的四个顶点位置作为位置信息,并根据所述位置信息为参考插入新的单元格;通过本发明的方案,不需要生成表格点,从而避免了表格点因参数设置缺失,处理表格点时可能导致无法插入单元格的问题。

Description

表格图片的处理方法、系统、可读存储介质及计算机设备
技术领域
本发明涉及数据处理技术领域,特别是涉及表格图片的处理方法、系统、可读存储介质及计算机设备。
背景技术
日常工作中,经常需要将含有表格的文件电子化,以对表格内容进行操作、编辑,比如纸质财务报表的电子化处理,通常使用终端设备对财务报表进行拍照,或通过扫描设备对纸质财务报表进行扫描,利用图像识别技术将文件电子化。而现有的含表格图片电子化后,其表格内容依旧是不可编辑的,还需将其转化为可编辑的表格格式(如Excel格式),首先将表格图片按合并单元格分割成合并单元格图片,使用图片文字识别技术识别其中的文字内容,再还原各合并单元格至表格中的初始位置,最后写入合并单元格对应的文字内容,完成不可编辑的表格图片内容转为可编辑的表格内容。
常见表格分割及还原方法为:首先生成表格点,单元格顶点位置附近可能存在多个表格点,对位置附近的表格点归一,只保留一个表格点,然后通过表格点之间的相对位置,对单元格进行分割并保存各单元格的相对位置,再通过单元格的相对位置信息对其还原。此方法存在以下问题:一是表格线可能扭曲或倾斜或行之间间隙过小,计算表格点相对位置时容易出错,导致无法分割;二是生成表格点时因参数设置原因(图片质量千差万别,很难用某固定参数适用所有情况),导致某些单元格位置上表格点缺失;而出现合并单元格时,其也表现出表格点缺失的现象,因此无法判断表格点缺失是因参数设置导致还是存在合并单元格导致。基于以上缺陷,该方法只能适用于表格线较平直且无合并单元格情况。
发明内容
本发明的目的在于提出一种表格图片的处理方法,以解决现有的表格分割方法只适用于表格线较平直且无合并单元格的情况。
一种表格图片的处理方法,其特征在于,所述方法包括:
根据原始表格图片获取每个单元格的位置信息,所述位置信息包括所述单元格的四个顶点位置;
判断当前单元格的任一非顶点位置与相邻单元格的任一顶点位置是否重合;
若是,则判定所述当前单元格为合并单元格,在当前单元格的相邻位置插入单元格。
根据本发明提出的表格图片的处理方法,通过获取每个单元格的四个顶点位置作为单元格的位置信息,对相邻的单元格位置信息判断是否为合并单元格,并对所有的合并单元格的相邻位置插入新的单元格进行分割;通过本发明的方案,不需要生成表格点,从而避免了表格点因参数设置缺失,处理表格点时可能导致无法分割单元格的问题。
另外,根据本发明提供的表格图片的处理方法,还可以具有如下附加的技术特征:
进一步地,
所述获取每个单元格的位置信息的具体步骤包括:
将所述原始表格图片二值化去噪处理;
通过膨胀和腐蚀方法识别表格线,获取只含表格线信息的处理图片;
获取所述处理图片中的每个单元格的封闭轮廓的所述四个顶点位置;
根据所述单元格所述四个顶点位置去除不符合单元格长度或宽度的轮廓。
进一步地,所述判断当前单元格的任一非顶点位置与相邻单元格的任一顶点位置是否重合的步骤具体包括:
根据第一行第一列的单元格的所述位置信息为起点,按行的顺序由上至下分别判断每一行的每个单元格是否为合并单元格;
若当前单元格的右侧的顶点位置的距离与所述处理图片的表格线信息宽度一致,则转移至下一行进行判断。
进一步地,所述判定所述当前单元格为合并单元格,在当前单元格的相邻位置插入单元格的步骤包括:
将第N行的单元格数量减去第N-1行单元格的数量,得到差值X,其中,N为大于1的正整数;
当差值X小于0时,将所述第N行的单元格数量增加为与所述第N-1行的单元格数量一致;
当差值X大于0时,将所述第N-1行与所述第N-1行之前的所有行的单元格数量增加为与所述第N行的单元格数量一致。
进一步地,所述处理方法还包括:
当差值X为0时,将之前已插入的单元格合并还原。
进一步地,所述插入单元格后合并还原的步骤具体包括:
在插入所述单元格时,将插入得到的单元格的内容标记为空。
进一步地,
所述插入单元格后合并还原的步骤还包括:
在插入所述合并单元格时,将插入得到的插入单元格赋予方向信息,所述方向信息包括所述插入单元格与相邻单元格合并还原形成所述合并单元格的方向。
本发明提出一种表格的处理系统,所述系统包括:
获取模块,用于获取每个单元格的位置信息,所述位置信息包括所述单元格的四个顶点位置;
判断模块,用于判断当前单元格的任意非顶点位置与相邻单元格的任一顶点位置是否重合;
插入模块,用于判定所述当前单元格为合并单元格后,在当前单元格的相邻位置插入单元格。
根据本发明提出的表格的处理系统,通过获取每个单元格的四个顶点位置作为单元格的位置信息,对相邻的单元格位置信息判断是否为合并单元格,在判断为合并单元格的相邻位置插入新的单元格;通过本发明的方案,不需要生成表格点,从而避免了表格点因参数设置缺失,处理表格点时可能导致无法插入单元格的问题。
进一步地,所述获取模块还包括:
处理单元,用于将所述原始表格图片二值化去噪处理,并通过膨胀和腐蚀方法识别表格线,获取只含表格线信息的处理图片;
获取单元,用于获取所述处理图片中的每个单元格的封闭轮廓的所述四个顶点位置,并根据所述单元格四个顶点位置去除不符合单元格长度或宽度的轮廓。
进一步地,所述判断模块包括:
顺序单元,用于根据第一行第一列的单元格的所述位置信息为起点,按行的顺序由上至下分别判断每一行的每个单元格是否为合并单元格;若当前单元格的右侧的顶点位置的距离与所述处理图片的表格线信息宽度一致,则转移至下一行进行判断。
进一步地,所述插入模块包括:
执行单元,用于将第N行的单元格数量减去第N-1行单元格的数量,得到差值X,其中,N为大于1的正整数;当差值X小于0时,将所述第N行的单元格数量增加为与所述第N-1行的单元格数量一致;当差值X大于0时,将所述第N-1行与所述第N-1行之前的所有行的单元格数量增加为与所述第N行的单元格数量一致。
进一步地,所述系统还包括还原模块,所述还原模块用于当差值X为0时,将之前已插入的单元格合并还原。
进一步地,所述还原模块还包括:
内容标记单元,用于在插入所述单元格时,将插入得到的单元格的内容标记为空;
方向标记单元,用于在插入所述单元格时,将插入得到的单元格赋予方向信息,所述方向信息包括所述单元格与相邻单元格合并还原形成所述合并单元格的方向。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述的表格图片的处理方法。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上述的表格图片的处理方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明第一实施例中的表格图片的处理方法的流程示意图;
图2为本发明第一实施例中的一种表格图片的示意图;
图3为本发明第二实施例中的一种表格图片的示意图;
图4为本发明另一实施例中的表格图片的处理系统的结构示意图。
具体实施方式
为使本发明的目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
请参阅图1,本发明第一实施例中的表格图片的处理方法,包括步骤S11~S14。
S11,根据原始表格图片获取每个单元格的位置信息,所述位置信息包括所述单元格的四个顶点位置。
其中,所述原始表格图片以img表示,并将所述原始表格图片的宽定义为W,高定义为H。
上述的位置信息为所述单元格的四个顶点位置,单元格一般为矩形结构,通过单元格的四个顶点位置来表示所述单元格的外廓。
S12,判断当前单元格的任一非顶点位置与相邻单元格的任一顶点位置是否重合。
上述的相邻单元格可以包括,上下相邻的两单元格,或左右相邻的两单元格。通过相邻的单元格来进行分析是否出现合并单元格,例如上侧的一个单元格下方对应有两个相邻的单元格,则上侧的单元格在非顶点位置的边框线上与下侧的两个单元格的顶点重合,即上侧为合并单元格;又例如左侧的一个单元格右侧对应有两个相邻的单元格,则左侧的单元格在非顶点位置的边框线上与右侧的两个单元格的顶点重合,即左侧为合并单元格;以此来对是否还有合并单元格进行判定。
请参阅图2,以图2所示的表格图片为例对本发明第一实施例进行说明,表格图片中包括上下两行,第一行包括1个单元格,该单元格命名为单元格1,单元格1包括四个顶点位置1-1、1-2、1-3和1-4;第二行包括2个相邻的单元格,将其分别命名为单元格2与单元格3,单元格2包括四个顶点位置2-1、2-2、2-3和2-4,单元格3包括四个顶点位置3-1、3-2、3-3和3-4。
在表格图片中,单元格1的宽度等于单元格2加单元格3的宽度总和,而当前单元格2的顶点位置2-2与单元格1的非顶点位置1-5重合,也即单元格2的宽度小于单元格1的宽度,也即说明表格图片中第一行单元格数量小于第二行单元格数量,因此能够判定单元格1为合并单元格,并完成对单元格1是否为合并单元格的判定。
S13,若是,则判定所述当前单元格为合并单元格,在当前单元格的相邻位置插入单元格。
下面仍以图2所示的表格图片为例对本发明第一实施例进行说明,在判断单元格1为合并单元格后,例如第2行单元格数量为2个,第2-1行单元格数量为1个,则判断第2-1行存在一合并单元格,并在2-1行内插入一个新的单元格,以便于后续通过模型识别其中的内容。
本实施例中,通过获取每个单元格的四个顶点位置作为位置信息,并根据所述位置信息来插入新的单元格;通过本发明的方案,不需要生成表格点,从而避免了表格点因参数设置缺失,处理表格点时可能导致无法插入单元格的问题。
本发明第二实施例中的表格的处理方法,包括步骤S21~S24:
S21,将所述原始表格图片二值化去噪处理,通过膨胀和腐蚀方法识别表格线,获取只含表格线信息的处理图片,获取所述处理图片中的每个单元格的封闭轮廓的所述四个顶点位置,根据所述单元格所述四个顶点位置去除不符合单元格长度或宽度的轮廓。
其中,所述原始表格图片以img表示,并将所述原始表格图片的宽定义为W,高定义为H。将img格式的所述原始表格图片二值化去噪处理。
上述的二值化去噪处理采用自适应阈值二值化去噪,其中,待处理的所述原始表格图片的像素值在0-255之间,二值化去噪就是每个像素值与阈值比较,当该像素大于阈值时,则调整像素为255,即为白色,当该像素小于阈值时,则调整像素为0,即为黑色,以此来达到自适应阈值来调整像素,将所述原始表格图片的像素全部调整为0或255两个数值,从而完成二值化去噪处理。
随后,将二值化去噪处理的所述原始表格图片通过膨胀和腐蚀方法识别表格线来得到处理图片,所述处理图片中只含有表格线,从而方便进行下一步操作;其中,膨胀和腐蚀方法采用常规技术,不在此处进行展开描述。
在上一步中的处理图片中,只剩下了表格线,此时再读取表格线更加的清晰。
上述的单元格封闭轮廓,即为表格线围成轮廓的最大外接矩形的四个顶点,通过这四个顶点即可确定该最大外接矩形的位置及形状,即确定的该单元格的位置和形状。
具体的,当已知单元格封闭轮廓,即已知了矩形四个顶点的位置,此时可以方便的去除矩形外的不符合单元格长度或宽度的轮廓,以免对分割单元格造成影响。
S22,根据第一行第一列的单元格的所述位置信息为起点,按行的顺序由上至下分别判断每一行的每个单元格是否为合并单元格;若当前单元格的右侧的顶点位置的距离与与所述处理图片的表格线信息宽度一致,则转移至下一行进行判断。
例如,从第一行第一列的单元格,从左向右依次判断是否为合并单元格。完成判断一行的单元格是否为合并单元格后,再判断下一行的单元格是否为合并单元格。
具体的,所述判断一行的单元格是否为合并单元格的具体步骤为:
判断当前单元格的所述四个顶点位置中,右侧的顶点位置的距离与所述处理图片的表格线信息宽度是否一致;若一致,则当开始判断下一行的单元格。
其中,当前单元格的右侧的顶点宽度即为当前行从首端(最左端)的单元格的左端定位位置,到当前单元格右侧的顶点的位置长度,当该长度与所述处理图片的表格线信息宽度一致时,即当前单元格为本行的最后一个单元格。
S23,在判断为合并单元格的当前单元格的相邻位置插入新的单元格。
具体的,对合并单元格相邻位置插入新的单元格的步骤包括:
将第N行的单元格数量减去第N-1行单元格的数量,得到差值X,其中,N为大于1的正整数;当差值X小于0时,将所述第N行的单元格数量增加为与所述第N-1行的单元格数量一致;当差值X大于0时,将所述第N-1行与所述第N-1行之前的所有行的单元格数量增加为与所述第N行的单元格数量一致。
具体的,将后一行的单元格数量减去前一行单元格的数量,当差值为正数时,则说明后一行的单元格数量更多,即前一行的单元格存在合并单元格的情况,因此需要对前一行插入新的单元格,同时在前一行之前的所有行,由于单元格数量均与前一行的单元格数量一致,则前一行之前的所有行都需进行插入新的单元格;当差值为负数时,则说明前一行的单元格数量更多,即后一行的单元格存在合并单元格的情况,只需要对后一行插入新的单元格即可,保证后一行的单元格数量与前一行及前一行之前的所有行的单元格数量相等。
S24,当差值X为0时,将之前已插入的单元格合并还原。
具体的,当差值X为0时,则说明任意相邻的两行的单元格数量相同,即可判定任意相邻的两行之间不存在合并单元格,则可以判定不需要插入新的单元格;所有的被判定为合并单元格的相邻位置均已插入新的单元格之后,通过模型可以更清楚的识别出各单元格内的文字内容,识别完成后,再将插入的单元格进行合并还原成初始状态,使得识别出来的文字内容重新填入合并单元格中。
S25,在插入所述单元格时,将插入得到的单元格的内容标记为空,同时将所述单元格赋予方向信息,所述方向信息包括插入得到的单元格与相邻单元格合并还原形成所述合并单元格的方向。
上述将插入得到的单元格的内容标记为空的目的是,当进行合并还原单元格时,内容标记为空的单元格与相邻的单元格合并,不会影响合并后的内容。
上述将插入得到的单元格赋予方向信息的目的是,在还原单元格时,插入得到的单元格能够通过方向信息直接朝指定的方向与相邻的单元格合并。
如图3所示,本实施例中以图3中的表格为例进行插入和还原操作演示,其中,按从左至右,从上至下的顺序,依次对单元格从1开始进行命名,即单元格1、单元格2……单元格9;同时,对每个单元格的四个顶点,按从左至右,从上至下的顺序,也依次进行命名,例如,在单元格1中,其四个顶点分别为1-1、1-2、1-3和1-4,其他的单元格的四个顶点也以此为例进行命名;同时,对于合并单元格默认为向右或向下合并而得到的。
然后进行单元格匹配工作,即首先确定第1个单元格的第一个顶点,本实施例中以单元格1的顶点1-1作为起始点;通过获取第1个单元格的第二个顶点1-2重合的点2-1来获取与其相邻的单元格2;然后将单元格2的第二个顶点2-2的宽与整个表格的宽进行比较,此处比较得到顶点2-2的宽与整个表格的宽一致,则证明单元格2为该行的最后一个单元格,即可开始下一行操作。
通过获取单元格1的第三个顶点1-3重合的点3-1获取下一行的单元格3,然后比较第一行和第二行的单元格数量,如图3所示,第二行的单元格数量为3,第一行的单元格数量为2,将第二行的单元格数量减去第一行单元格的数量差值大于0,即需要更新第一行的单元格。由于单元格4的第一个顶点4-1在第一行中不存在重合的顶点,因此需要在单元格1的右侧插入一个新的单元格,以使得第一行中同时具有三个单元格。
同理,按上述的分析方法,第三行中的单元格6的第二个顶点6-2不存在重合的顶点,因此在单元格4的下方插入一新的单元格,从而使得该列具有四个单元格。
第四行的单元格数量为2,第三行的单元格数量为3,将第四行的单元格数量减去第三行单元格的数量差值小于0,即需要更新第四行的单元格。由于单元格4的第三个顶点4-3和第四个顶点4-4在第四行中不存在重合的顶点,因此单元格9是通过在右侧增加两个新的单元格,以使得第四行具有四个单元格。
上述的方法大致说明了匹配单元格的整个过程,下面通过数值的形式进一步说明,以便理解。
在下述的说明中,使用“value”保存各个单元格的位置信息,“nul”则表示合并单元格分割后的单元格内容,以表示分割出来的单元格内容标记为空;同时由于单元格合并存在方向性,因此使用“info”来保存各个单元格的方向信息,其中,“1”表示无合并信息,“right”表示向右合并得到的合并单元格,“down”表示向下合并得到的合并单元格。
具体结合图3来说,第一行的单元格数值表示为:
value=[1,2],info=[1,1],此处,代表第一行具有单元格1和单元格2,此时单元格1和单元格2无合并信息。
第二行的单元格数值表示为:
Figure 571769DEST_PATH_IMAGE001
,此处,在第一行的单元格基础上,增加了第二行单元格的内容,即第二行具有单元格3、单元格4和单元格5,此时单元格3、单元格4和单元格5无合并信息。
将第二行的单元格数量与第一行单元格的数量进行比较,发现第二行的单元格数量大于第一行,则需要增加并更新第一行的单元格数值,更新后的数值表示为:
Figure 659811DEST_PATH_IMAGE002
,此处,更新后的第一行数值,代表第一行具有单元格1、单元格nul(代表增加得到的内容标记为空的单元格,下同)和单元格2,同时第一行的单元格nul的方向信息标记为“right”,即代表在还原时,单元格1向右与第一行的单元格nul合并还原得到合并单元格1。
按上述的方法,对第三行的数值进行更新,得到:
Figure 458003DEST_PATH_IMAGE003
,即更新后的第三行数值,代表第三行具有单元格6、单元格nul、单元格7,同时第三行的单元格nul的方向信息标记为“down”,即代表在还原时,单元格4向下与相邻的第三行的单元格nul合并得到合并单元格4。
继续记录第四行的单元格数值:
Figure 188061DEST_PATH_IMAGE004
,此处,代表第四行具有单元格8和单元格9,此时单元格8和单元格9无合并信息。
将第四行的单元格数量与第三行单元格的数量进行比较,发现第四行的单元格数量小于第三行,则需要增加并更新第四行的单元格数值,更新后的数值表示为:
Figure 388098DEST_PATH_IMAGE005
;即更新后的第四行数值,代表第四行具有单元格8、单元格9和两个单元格nul,同时,两个单元格nul的方向信息均标记为“right”,即代表在还原时,单元格9向右将两个单元格nul合并为合并单元格9。
此时,更新完第四行的数值后,第四行的单元格数量大于第三行,而第一行和第二行的单元格数量与第三行一致,则需依次增加第三行、第二行和第一行单元格的数值;
按上述方法,对第三行的单元格数值进行更新,得到
Figure 912621DEST_PATH_IMAGE006
;然后对第二行的单元格数值进行更新,得到
Figure 198108DEST_PATH_IMAGE007
,
Figure 200700DEST_PATH_IMAGE008
最后对第一行的单元格数值进行更新,得到
Figure 255243DEST_PATH_IMAGE009
此时,第一行至第四行的单元格数值均相同,则完成对图3中的表格的插入工作,得到了四行四列的新的表格。
最后,表格还原时,通过各个单元格的方向信息对表格进行合并还原,同时分割产生的单元格nul由于内容标记为空,在还原时不会对合并的单元格内容造成影响。
如图4所示,本发明的另一实施例还提出了表格的处理系统,所述系统包括:
获取模块,用于根据原始表格图片获取每个单元格的位置信息,所述位置信息由所述单元格的四个顶点位置组成;
判断模块,用于根据原始表格图片获取每个单元格的位置信息,所述位置信息由所述单元格的四个顶点位置组成;
插入模块,用于判定所述当前单元格为合并单元格后,在当前单元格的相邻位置插入单元格。
根据本发明提出的表格的处理系统,通过获取每个单元格的四个顶点位置作为单元格的位置信息,对相邻的单元格位置信息判断是否为合并单元格,在判断为合并单元格的相邻位置插入新的单元格;通过本发明的方案,不需要生成表格点,从而避免了表格点因参数设置缺失,处理表格点时可能导致无法插入单元格的问题。
进一步地,所述获取模块还包括:
处理单元,用于将所述原始表格图片二值化去噪处理,并通过膨胀和腐蚀方法识别表格线,获取只含表格线信息的处理图片;
获取单元,用于获取所述处理图片中的每个单元格的封闭轮廓的所述四个顶点位置,并根据所述单元格四个顶点位置去除不符合单元格长度或宽度的轮廓。
进一步地,所述判断模块包括:
顺序单元,用于根据第一行第一列的单元格的所述位置信息为起点,按行的顺序由上至下分别判断每一行的每个单元格是否为合并单元格;若当前单元格的右侧的顶点位置的距离与所述处理图片的表格线信息宽度一致,则转移至下一行进行判断。
进一步地,所述插入模块包括:
执行单元,用于将第N行的单元格数量减去第N-1行单元格的数量,得到差值X,其中,N为大于1的正整数;当差值X小于0时,将所述第N行的单元格数量增加为与所述第N-1行的单元格数量一致;当差值X大于0时,将所述第N-1行与所述第N-1行之前的所有行的单元格数量增加为与所述第N行的单元格数量一致。
进一步地,所述系统还包括还原模块,所述还原模块用于当差值X为0时,将之前已插入的单元格合并还原。
进一步地,所述还原模块还包括:
内容标记单元,用于在插入所述单元格时,将插入得到的单元格的内容标记为空;
方向标记单元,用于在插入所述单元格时,将插入得到的单元格赋予方向信息,所述方向信息包括所述单元格与相邻单元格合并还原形成所述合并单元格的方向。
本发明还提出一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上所述的表格图片的处理方法。
本发明还提出一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如上所述的表格图片的处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种表格图片的处理方法,其特征在于,所述方法包括:
根据原始表格图片获取每个单元格的位置信息,所述位置信息包括所述单元格的四个顶点位置;
判断当前单元格的任一非顶点位置与相邻单元格的任一顶点位置是否重合;
根据第一行第一列的单元格的所述位置信息为起点,按行的顺序由上至下分别判断每一行的每个单元格是否为合并单元格;若是,则判定当前单元格为合并单元格,在当前单元格的相邻位置插入单元格;若当前单元格的右侧的顶点位置的距离与处理后原始表格图片的表格线信息宽度一致,则转移至下一行进行判断;
其中,在插入所述单元格时,将插入得到的单元格赋予方向信息,所述方向信息包括所述插入单元格与相邻单元格合并还原形成所述合并单元格的方向;
根据所述方向信息,将所有插入的单元格和与所述单元格相邻的所述合并单元格合并,以得到可编辑的电子表格。
2.根据权利要求1所述的表格图片的处理方法,其特征在于,所述获取每个单元格的位置信息的具体步骤包括:
将所述原始表格图片二值化去噪处理;
通过膨胀和腐蚀方法识别表格线,获取只含表格线信息的处理图片;
获取所述处理图片中的每个单元格的封闭轮廓的所述四个顶点位置;
根据所述单元格所述四个顶点位置去除不符合单元格长度或宽度的轮廓。
3.根据权利要求1所述的表格图片的处理方法,其特征在于,所述判定所述当前单元格为合并单元格,在当前单元格的相邻位置插入单元格的步骤包括:
将第N行的单元格数量减去第N-1行单元格的数量,得到差值X,其中,N为大于1的正整数;
当差值X小于0时,将所述第N行的单元格数量增加为与所述第N-1行的单元格数量一致;
当差值X大于0时,将所述第N-1行与所述第N-1行之前的所有行的单元格数量增加为与所述第N行的单元格数量一致。
4.根据权利要求3所述的表格图片的处理方法,其特征在于,所述处理方法还包括:
当差值X为0时,将之前已插入的单元格合并还原。
5.根据权利要求4所述的表格图片的处理方法,其特征在于,所述插入单元格后合并还原的步骤具体包括:
在插入所述单元格时,将插入得到的单元格的内容标记为空。
6.一种表格图片的处理系统,其特征在于,所述系统包括:
获取模块,用于根据原始表格图片获取每个单元格的位置信息,所述位置信息包括所述单元格的四个顶点位置;
判断模块,用于判断当前单元格的任一非顶点位置与相邻单元格的任一顶点位置是否重合;所述判断模块还包括顺序单元;
顺序单元,用于根据第一行第一列的单元格的所述位置信息为起点,按行的顺序由上至下分别判断每一行的每个单元格是否为合并单元格;若当前单元格的右侧的顶点位置的距离与处理后原始表格图片的表格线信息宽度一致,则转移至下一行进行判断;
插入模块,用于判定所述当前单元格为合并单元格后,在当前单元格的相邻位置插入单元格;
还原模块,所述还原模块包括方向标记单元,用于在插入所述单元格时,将插入得到的单元格赋予方向信息,所述方向信息包括所述单元格与相邻单元格合并还原形成所述合并单元格的方向;所述还原模块还用于根据所述方向信息,将所有插入的单元格和与所述单元格相邻的所述合并单元格合并,以得到可编辑的电子表格。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任意一项所述的方法。
8.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任意一项所述的方法。
CN202011037842.6A 2020-09-28 2020-09-28 表格图片的处理方法、系统、可读存储介质及计算机设备 Active CN111881659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011037842.6A CN111881659B (zh) 2020-09-28 2020-09-28 表格图片的处理方法、系统、可读存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011037842.6A CN111881659B (zh) 2020-09-28 2020-09-28 表格图片的处理方法、系统、可读存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN111881659A CN111881659A (zh) 2020-11-03
CN111881659B true CN111881659B (zh) 2021-02-26

Family

ID=73199239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011037842.6A Active CN111881659B (zh) 2020-09-28 2020-09-28 表格图片的处理方法、系统、可读存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN111881659B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183511A (zh) * 2020-12-01 2021-01-05 江西博微新技术有限公司 一种图像导出表格的方法、系统、存储介质及设备
CN112487775A (zh) * 2020-12-03 2021-03-12 上海众言网络科技有限公司 网页代码转换方法和装置
CN112632934B (zh) * 2020-12-22 2023-01-17 上海精密计量测试研究所 基于比例计算还原表格图片为可编辑的word文件表格的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
CN110059687A (zh) * 2019-03-19 2019-07-26 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110502985A (zh) * 2019-07-11 2019-11-26 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
KR20200013297A (ko) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 스프레드시트 문서 내 병합된 셀의 콘텐트를 표시하는 전자 장치 및 그의 동작 방법
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN111611883A (zh) * 2020-05-07 2020-09-01 北京智通云联科技有限公司 基于最小单元格聚类的表格版面分析方法、系统及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR200318313Y1 (ko) * 1998-12-24 2003-08-19 주식회사 대우일렉트로닉스 와인통 겸용 병 수납장치_
CN101046800A (zh) * 2007-04-18 2007-10-03 北京润乾信息系统技术有限公司 一种子报表引入方法
US10740123B2 (en) * 2017-01-26 2020-08-11 Nice Ltd. Method and system for accessing table content in a digital image of the table
GB2574608B (en) * 2018-06-11 2020-12-30 Innoplexus Ag System and method for extracting tabular data from electronic document

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156761A (zh) * 2016-08-10 2016-11-23 北京交通大学 面向移动终端拍摄的图像表格检测与识别方法
KR20200013297A (ko) * 2018-07-30 2020-02-07 주식회사 한글과컴퓨터 스프레드시트 문서 내 병합된 셀의 콘텐트를 표시하는 전자 장치 및 그의 동작 방법
CN110059687A (zh) * 2019-03-19 2019-07-26 平安科技(深圳)有限公司 图片信息识别方法、装置、计算机设备和存储介质
CN110502985A (zh) * 2019-07-11 2019-11-26 新华三大数据技术有限公司 表格识别方法、装置及表格识别设备
CN111160234A (zh) * 2019-12-27 2020-05-15 掌阅科技股份有限公司 表格识别方法、电子设备及计算机存储介质
CN111611883A (zh) * 2020-05-07 2020-09-01 北京智通云联科技有限公司 基于最小单元格聚类的表格版面分析方法、系统及设备

Also Published As

Publication number Publication date
CN111881659A (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111881659B (zh) 表格图片的处理方法、系统、可读存储介质及计算机设备
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
CN112906695B (zh) 适配多类ocr识别接口的表格识别方法及相关设备
CN114529459A (zh) 一种对图像边缘进行增强处理的方法和系统及介质
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
US8472078B2 (en) Image processing apparatus for determining whether a region based on a combined internal region is a table region
CN114663897A (zh) 表格提取方法与表格提取系统
CN112733855B (zh) 表格结构化方法、表格恢复设备及具有存储功能的装置
CN111932483B (zh) 图片处理方法、装置、存储介质及计算机设备
CN112329641A (zh) 一种表格识别方法、装置、设备及可读存储介质
CN112800824A (zh) 扫描文件的处理方法、装置、设备及存储介质
CN117095417A (zh) 一种屏摄表单图像文本识别方法、装置、设备及存储介质
CN116030472A (zh) 文字坐标确定方法及装置
CN113793264B (zh) 一种基于卷积模型的档案图像处理方法、系统和电子设备
JP4825888B2 (ja) 文書画像処理装置および文書画像処理方法
CN113837119A (zh) 一种基于灰度图像识别易混淆字符的方法及设备
CN111898402A (zh) 一种智能排版系统
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
CN112825141B (zh) 识别文本的方法、装置、识别设备和存储介质
JP7402931B2 (ja) 方法、コンピュータ可読プログラムおよびシステム
CN113286053B (zh) 一种文件扫描方法、设备、介质及产品
CN116563048B (zh) 一种财务报销方法、系统及计算机
JPH04255080A (ja) 画像入力装置
JP2908495B2 (ja) 文字画像抽出装置
JP3566738B2 (ja) 網掛け領域処理方法および網掛け領域処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant