CN112183511A - 一种图像导出表格的方法、系统、存储介质及设备 - Google Patents

一种图像导出表格的方法、系统、存储介质及设备 Download PDF

Info

Publication number
CN112183511A
CN112183511A CN202011379126.6A CN202011379126A CN112183511A CN 112183511 A CN112183511 A CN 112183511A CN 202011379126 A CN202011379126 A CN 202011379126A CN 112183511 A CN112183511 A CN 112183511A
Authority
CN
China
Prior art keywords
image
row
column
information
cells
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011379126.6A
Other languages
English (en)
Inventor
朱林生
万慧建
于雪
熊慧江
曾江佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Booway New Technology Co ltd
Original Assignee
Jiangxi Booway New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Booway New Technology Co ltd filed Critical Jiangxi Booway New Technology Co ltd
Priority to CN202011379126.6A priority Critical patent/CN112183511A/zh
Publication of CN112183511A publication Critical patent/CN112183511A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Abstract

本发明提供一种图像导出表格的方法、系统、存储介质及设备,该方法包括:获取扫描图像中的表格的轮廓信息;基于轮廓信息对表格进行行列划分,得到表格的行列信息及行列索引序号;对比行列索引序号与行列信息,判断表格的行列是否存在合并关系;若是,根据行列索引序号与行列信息,拆分表格并输出。在本方案中,通过检测扫描图像中的表格的轮廓信息,对表格进行单元格的行列划分,截取划分后的行列信息进行识别,有效地提高文字识别的准确率和位置准确度,另外,计算了单元格的合并关系,使得识别的结果能够导出为表格文件供用户做进一步的数据分析,解决了现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。

Description

一种图像导出表格的方法、系统、存储介质及设备
技术领域
本发明涉及图像识别技术领域,特别涉及一种图像导出表格的方法、系统、存储介质及设备。
背景技术
随着图像文字的深入发展,越来越多种类的图像文字资料,被纳入图像文字识别的范畴中,其中表格作为文字数据记录汇总最精简表达方式,在各行各业应用的广泛性不言而喻。
现有技术当中,采用的OCR文字识别(Optical Character Recognition,光学字符识别)技术是基于开源的流行OCR引擎Tesseract,Tesseract识别图像中的文字时,受表格线的影响导致识别率很低,而表格线在扫描图像中也不是理想的直线,无法识别单元格的合并信息,难以通过去除直线的方式完全避免表格的干扰,而且识别的坐标位置也很不准确。
发明内容
基于此,本发明的目的是提供一种图像导出表格的方法、系统、存储介质及设备,用于解决现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。
为实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供了一种图像导出表格的方法,所述方法包括:
获取扫描图像中的表格的轮廓信息;
基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;
对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系;
若是,根据所述行列索引序号与所述行列信息,拆分所述表格并输出。
进一步地,所述基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号的步骤包括:
根据单元格左顶点纵坐标的值,提取属于同一行单元格;
根据单元格左顶点横坐标的值,提取属于同一列单元格;
根据单元格行列对应关系,提取表格的行数和列数,求取每一行高和列宽,及单元格所在的行列索引序号。
进一步地,所述对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系的步骤包括:
若一行单元格的数量小于表格总列数,则该行存在合并单元格,遍历该行单元格,如果单元格高度明显高于行高,则上下存在合并关系;如果元格宽度明显宽于所在列宽,则左右存在合并关系,将合并的单元格索引记录成一组。
进一步地,所述获取扫描图像中的表格的轮廓信息的步骤包括:
对所述扫描图像进行预处理,得到二值图像;
根据所述二值图像,得出所述表格的外框数据;
根据所述外框数据,得出所述表格的线框数据。
进一步地,所述对所述扫描图像进行预处理,得到二值图像的步骤包括:
输入源图像,彩色图像转换为灰度图;
缩放灰度图像,使图像最大边长为1000像素,扫描文档图像通常尺寸为2479像素×3508像素,且主要区域较大,缩小图像再处理可缩短时间;
对缩小图像进行二值化,获取二值图像。
进一步地,所述根据所述二值图像,得出所述表格的外框数据的步骤包括:
对所述二值图像使用尺寸为3像素×3像素的结构元素,进行形态学闭操作,连接断了一点的表格线;
对形态学闭操作后的二值图像分别使用尺寸为1像素×(0.07*图像高)像素、(0.1*图像宽)像素×3像素的结构元素先后进行形态学腐蚀和膨胀操作,分别得到垂直线图像和水平线图像;
将所述垂直线图像和所述水平线图像分别合并、求交集,得到直线合并图像和交点图像;
对所述直线合并图像进行外轮廓查找,独立、面积大、近似矩形且包含至少4个交点的外轮廓即为表格外框。
进一步地,所述根据所述外框数据,得出所述表格的线框数据的步骤包括:
根据所述直线合并图像,再对所述表格的外框内部进行轮廓分析,近似矩形且包含至少4个交点的轮廓即为表格单元格,将找到的所有单元格外框绘制出来,即可得到整个表格的线框。
第二方面,本申请实施例还提供了一种图像导出表格的系统,所述系统包括:
获取模块,用于获取扫描图像中的表格的轮廓信息;
划分模块,基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;
判断模块,用于对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系
输出模块,用于当所述表格的行列存在合并关系时,拆分所述表格并输出。
第三方面,本申请实施例还提供了一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的方法。
第四方面,本申请实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的方法。
本申请的有益效果是:
本申请提供一种图像导出表格的方法、系统、存储介质及设备,通过检测扫描图像中的表格的轮廓信息,对表格进行单元格的行列划分,截取划分后的行列信息进行识别,有效地提高文字识别的准确率和位置准确度,另外,通过对行列索引序号与行列信息进行对比分析,计算了单元格的合并关系,使得识别的结果能够导出为表格文件供用户做进一步的数据分析,解决了现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。
附图说明
图1为本发明第一实施例中图像导出表格的方法流程图;
图2为本发明第一实施例中获取扫描图像中的表格的轮廓信息流程图;
图3为本发明第一实施例中垂直线图像示意图;
图4为本发明第一实施例中水平线图像示意图;
图5为本发明第一实施例中合并图像示意图;
图6为本发明第一实施例中交点图像示意图;
图7为本发明第一实施例中表格线框示意图;
图8为本发明第二实施例中图像导出表格的系统的框架图;
图9为本发明第三实施例中计算机设备框架图。
主要元件符号说明:
获取模块 11 划分模块 12
判断模块 13 输出模块 14
处理器 10 存储器 20
计算机程序 30 图像导出表格的系统 100
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
请参阅图1,所示为本发明第一实施例中的图像导出表格的方法,所述方法包括步骤S101至步骤S104:
S101,获取扫描图像中的表格的轮廓信息;
在本申请中,所述轮廓信息包括位置信息与大小信息,所述位置信息包括外框数据,所述大小信息包括线框数据,即表格内的单元格数据信息。
S102,基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;
S103,对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系;
在本申请中,提取所述单元格的行列信息,求取所述单元格的每一行高及列宽,以及所述单元格所在的行、列索引序号,分别对比所述行高与所述行索引序号以及所述列宽与所述列索引序号,判断单元格是否存在合并关系。
若是,则执行步骤S104,
S104,根据所述行列索引序号与所述行列信息,拆分所述表格并输出。
若否,则执行步骤S105,
S105,根据所述行列索引序号与所述行列信息,直接导出。
综上,本发明上述实施例当中的图像导出表格的方法,通过检测扫描图像中的表格的轮廓信息,对表格进行单元格的行列划分,截取划分后的行列信息进行识别,有效地提高文字识别的准确率和位置准确度,另外,通过对行列索引序号与行列信息进行对比分析,计算了单元格的合并关系,使得识别的结果能够导出为表格文件供用户做进一步的数据分析,解决了现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。
可选地,上述步骤S102:基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号,包括:
(1)根据单元格左顶点纵坐标的值,提取属于同一行单元格。具体的,一行对应多个单元格。
(2)根据单元格左顶点横坐标的值,提取属于同一列单元格。具体的,一列对应多个单元格。
(3)根据单元格行列对应关系,提取表格的行数和列数,求取每一行高和列宽,及单元格所在的行列索引序号。
可选地,上述步骤S103:对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系,包括:
(1)若一行单元格的数量小于表格总列数,则该行存在合并单元格,遍历该行单元格,如果单元格高度明显高于行高,则上下存在合并关系;如果元格宽度明显宽于所在列宽,则左右存在合并关系,将合并的单元格索引记录成一组。
可选地,上述步骤S101:获取扫描图像中的表格的轮廓信息,包括步骤S201至步骤S203,请查阅图2:
S201,对所述扫描图像进行预处理,得到二值图像;
具体的,预处理阶段包括:
(1)输入源图像,彩色图像转换为灰度图;
(2)缩放灰度图像,使图像最大边长为1000像素,扫描文档图像通常尺寸为2479像素×3508像素左右,且主要区域较大,缩小图像再处理可缩短时间;
(3)对缩小图像进行二值化,获取二值图像。
在本申请中,对缩小图像进行Ostu二值化(Ostu方法又名最大类间差方法,通过统计整个图像的直方图特性来实现全局阈值T的自动选取),需要另外说明的是,对于本身已经是二值图像的源图像,使用固定阈值240进行二值化。
S202,根据所述二值图像,得出所述表格的外框数据;
具体地,所述根据所述二值图像,得出所述表格的外框数据的步骤包括:
(1)对所述二值图像使用尺寸为3像素×3像素的结构元素,进行形态学闭操作,连接断了一点的表格线;
(2)对形态学闭操作后的二值图像分别使用尺寸为1像素×(0.07*图像高)像素、(0.1*图像宽)像素×3像素的结构元素先后进行形态学腐蚀和膨胀操作,分别得到垂直线图像(如图3所示)和水平线图像(如图4所示);
(3)将所述垂直线图像和所述水平线图像分别合并、求交集,得到直线合并图像(如图5所示)和交点图像(如图6所示);
(4)对所述直线合并图像进行外轮廓查找,独立、面积大、近似矩形且包含至少4个交点的外轮廓即为表格外框。
S203,根据所述外框数据,得出所述表格的线框数据。
具体地,所述根据所述外框数据,得出所述表格的线框数据的步骤包括:
根据所述直线合并图像,再对所述表格的外框内部进行轮廓分析,近似矩形且包含至少4个交点的轮廓即为表格单元格,将找到的所有单元格外框绘制出来,即可得到整个表格的线框,如下图7所示,表格外框和单元格均以矩形框数据(顶点(x,y)坐标、宽、高)缓存。
实施例二
请查阅图8所示为本发明第二实施例中的一种图像导出表格的系统,包括:
获取模块11,用于获取扫描图像中的表格的轮廓信息;
划分模块12,基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;
判断模块13,用于对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系
输出模块14,用于当所述表格的行列存在合并关系时,拆分所述表格并输出。
可选地,划分模块12包括:
第一提取单元,用于根据单元格左顶点纵坐标的值,提取属于同一行单元格;
第二提取单元,用于根据单元格左顶点横坐标的值,提取属于同一列单元格;
第三提取单元,用于根据单元格行列对应关系,提取表格的行数和列数,求取每一行高和列宽,及单元格所在的行列索引序号。
可选地,判断模块13包括:
合并单元,用于若一行单元格的数量小于表格总列数,则该行存在合并单元格,遍历该行单元格,如果单元格高度明显高于行高,则上下存在合并关系;如果元格宽度明显宽于所在列宽,则左右存在合并关系,将合并的单元格索引记录成一组。
可选地,获取模块11包括:
预处理单元,用于对所述扫描图像进行预处理,得到二值图像;
外框数据单元,用于根据所述二值图像,得出所述表格的外框数据;
线框数据单元,用于根据所述外框数据,得出所述表格的线框数据。
进一步地,获取模块11还包括:
转换单元,用于输入源图像,彩色图像转换为灰度图;
缩放单元,用于缩放灰度图像,使图像最大边长为1000像素,扫描文档图像通常尺寸为2479像素×3508像素,且主要区域较大,缩小图像再处理可缩短时间;
获取单元,用于对缩小图像进行二值化,获取二值图像。
进一步地,获取模块11还包括:
操作单元,用于对所述二值图像使用尺寸为3像素×3像素的结构元素,进行形态学闭操作,连接断了一点的表格线;
拾取单元,用于对形态学闭操作后的二值图像分别使用尺寸为1像素×(0.07*图像高)像素、(0.1*图像宽)像素×3像素的结构元素先后进行形态学腐蚀和膨胀操作,分别得到垂直线图像和水平线图像;
合并单元,用于将所述垂直线图像和所述水平线图像分别合并、求交集,得到直线合并图像和交点图像;
查找单元,用于对所述直线合并图像进行外轮廓查找,独立、面积大、近似矩形且包含至少4个交点的外轮廓即为表格外框。
进一步地,获取模块11还包括:
分析单元,用于根据所述直线合并图像,再对所述表格的外框内部进行轮廓分析,近似矩形且包含至少4个交点的轮廓即为表格单元格,将找到的所有单元格外框绘制出来,即可得到整个表格的线框。
综上,本发明上述实施例当中的图像导出表格的系统,通过检测扫描图像中的表格的轮廓信息,对表格进行单元格的行列划分,截取划分后的行列信息进行识别,有效地提高文字识别的准确率和位置准确度,另外,通过对行列索引序号与行列信息进行对比分析,计算了单元格的合并关系,使得识别的结果能够导出为表格文件供用户做进一步的数据分析,解决了现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,以实现上述的方法。
实施例三
本发明还提供一种计算机设备,请参阅图9,所示为本发明第三实施例当中的数据处理设备,包括存储器20、处理器10以及存储在存储器上并可在处理器上运行的计算机程序30,所述处理器执行所述程序时实现如上述的数据处理方法。
其中,处理器10在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器20中存储的程序代码或处理数据,例如执行访问限制程序等。
其中,存储器20至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器20在一些实施例中可以是数据处理设备的内部存储单元,例如该数据处理设备的硬盘。存储器20在另一些实施例中也可以是数据处理设备的外部存储装置,例如数据处理设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,存储器20还可以既包括数据处理设备的内部存储单元也包括外部存储装置。存储器20不仅可以用于存储安装于数据处理设备的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
需要指出的是,图9示出的结构并不构成对数据处理设备的限定,在其它实施例当中,该数据处理设备可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
综上,上述计算机设备,通过检测扫描图像中的表格的轮廓信息,对表格进行单元格的行列划分,截取划分后的行列信息进行识别,有效地提高文字识别的准确率和位置准确度,另外,通过对行列索引序号与行列信息进行对比分析,计算了单元格的合并关系,使得识别的结果能够导出为表格文件供用户做进一步的数据分析,解决了现有技术中通过直线的相交关系确认表格位置的方案无法识别单元格合并信息的技术问题。
本领域技术人员可以理解,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或它们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种图像导出表格的方法,其特征在于,所述方法包括如下步骤:
获取扫描图像中的表格的轮廓信息;
基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;
对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系;
若是,根据所述行列索引序号与所述行列信息,拆分所述表格并输出。
2.根据权利要求1所述的图像导出表格的方法,其特征在于,所述基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号的步骤包括:
根据单元格左顶点纵坐标的值,提取属于同一行单元格;
根据单元格左顶点横坐标的值,提取属于同一列单元格;
根据单元格行列对应关系,提取表格的行数和列数,求取每一行高和列宽,及单元格所在的行列索引序号。
3.根据权利要求2所述的图像导出表格的方法,其特征在于,所述对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系的步骤包括:
若一行单元格的数量小于表格总列数,则该行存在合并单元格,遍历该行单元格,如果单元格高度明显高于行高,则上下存在合并关系;如果单元格宽度明显宽于所在列宽,则左右存在合并关系,将合并的单元格索引记录成一组。
4.根据权利要求1所述的图像导出表格的方法,其特征在于,所述获取扫描图像中的表格的轮廓信息的步骤包括:
对所述扫描图像进行预处理,得到二值图像;
根据所述二值图像,得出所述表格的外框数据;
根据所述外框数据,得出所述表格的线框数据。
5.根据权利要求4所述的图像导出表格的方法,其特征在于,所述对所述扫描图像进行预处理,得到二值图像的步骤包括:
输入源图像,彩色图像转换为灰度图;
缩放灰度图像,使图像最大边长为1000像素,扫描文档图像通常尺寸为2479像素×3508像素,且主要区域较大,缩小图像再处理可缩短时间;
对缩小图像进行二值化,获取二值图像。
6.根据权利要求4所述的图像导出表格的方法,其特征在于,所述根据所述二值图像,得出所述表格的外框数据的步骤包括:
对所述二值图像使用尺寸为3像素×3像素的结构元素,进行形态学闭操作,连接断了一点的表格线;
对形态学闭操作后的二值图像分别使用尺寸为1像素×(0.07*图像高)像素、(0.1*图像宽)像素×3像素的结构元素先后进行形态学腐蚀和膨胀操作,分别得到垂直线图像和水平线图像;
将所述垂直线图像和所述水平线图像分别合并、求交集,得到直线合并图像和交点图像;
对所述直线合并图像进行外轮廓查找,独立、面积大、近似矩形且包含至少4个交点的外轮廓即为表格外框。
7.根据权利要求6所述的图像导出表格的方法,其特征在于,所述根据所述外框数据,得出所述表格的线框数据的步骤包括:
根据所述直线合并图像,再对所述表格的外框内部进行轮廓分析,近似矩形且包含至少4个交点的轮廓即为表格单元格,将找到的所有单元格外框绘制出来,即可得到整个表格的线框。
8.一种图像导出表格的系统,其特征在于,所述系统包括:
获取模块,用于获取扫描图像中的表格的轮廓信息;
划分模块,基于所述轮廓信息对所述表格进行行列划分,得到所述表格的行列信息及行列索引序号;
判断模块,用于对比所述行列索引序号与所述行列信息,判断所述表格的行列是否存在合并关系;
输出模块,用于当所述表格的行列存在合并关系时,拆分所述表格并输出。
9.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任意一项所述的方法。
10.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任意一项所述的方法。
CN202011379126.6A 2020-12-01 2020-12-01 一种图像导出表格的方法、系统、存储介质及设备 Withdrawn CN112183511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011379126.6A CN112183511A (zh) 2020-12-01 2020-12-01 一种图像导出表格的方法、系统、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011379126.6A CN112183511A (zh) 2020-12-01 2020-12-01 一种图像导出表格的方法、系统、存储介质及设备

Publications (1)

Publication Number Publication Date
CN112183511A true CN112183511A (zh) 2021-01-05

Family

ID=73918328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011379126.6A Withdrawn CN112183511A (zh) 2020-12-01 2020-12-01 一种图像导出表格的方法、系统、存储介质及设备

Country Status (1)

Country Link
CN (1) CN112183511A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505762A (zh) * 2021-09-09 2021-10-15 冠传网络科技(南京)有限公司 一种表格识别方法和装置、终端及存储介质
CN113536951A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113705175A (zh) * 2021-08-18 2021-11-26 厦门海迈科技股份有限公司 一种电子表格行列精简的方法、服务器及存储介质
CN114782970A (zh) * 2022-06-22 2022-07-22 广州市新文溯科技有限公司 一种表格提取方法、系统及可读介质
CN115617815A (zh) * 2022-11-21 2023-01-17 四川省公路规划勘察设计研究院有限公司 一种利用限高模型冗余空间搭载索引信息的方法及系统
CN115658778A (zh) * 2022-07-27 2023-01-31 重庆忽米网络科技有限公司 用于可视化应用创建的基于Excel数据源的数据处理方法
CN115983223A (zh) * 2023-03-21 2023-04-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质
CN116861912A (zh) * 2023-08-31 2023-10-10 合肥天帷信息安全技术有限公司 一种基于深度学习的表格实体抽取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695553A (zh) * 2020-06-05 2020-09-22 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
CN111814443A (zh) * 2020-07-21 2020-10-23 北京来也网络科技有限公司 结合rpa和ai的表格生成方法及装置、计算设备、存储介质
CN111881659A (zh) * 2020-09-28 2020-11-03 江西汉辰信息技术股份有限公司 表格图片的处理方法、系统、可读存储介质及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695553A (zh) * 2020-06-05 2020-09-22 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
CN111814443A (zh) * 2020-07-21 2020-10-23 北京来也网络科技有限公司 结合rpa和ai的表格生成方法及装置、计算设备、存储介质
CN111881659A (zh) * 2020-09-28 2020-11-03 江西汉辰信息技术股份有限公司 表格图片的处理方法、系统、可读存储介质及计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卞静潇: "复杂版面文档图像表格与图的提取及分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536951A (zh) * 2021-06-22 2021-10-22 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113536951B (zh) * 2021-06-22 2023-11-24 科大讯飞股份有限公司 表格识别方法及相关装置和电子设备、存储介质
CN113705175A (zh) * 2021-08-18 2021-11-26 厦门海迈科技股份有限公司 一种电子表格行列精简的方法、服务器及存储介质
CN113705175B (zh) * 2021-08-18 2024-02-23 厦门海迈科技股份有限公司 一种电子表格行列精简的方法、服务器及存储介质
CN113505762B (zh) * 2021-09-09 2021-11-30 冠传网络科技(南京)有限公司 一种表格识别方法和装置、终端及存储介质
CN113505762A (zh) * 2021-09-09 2021-10-15 冠传网络科技(南京)有限公司 一种表格识别方法和装置、终端及存储介质
CN114782970A (zh) * 2022-06-22 2022-07-22 广州市新文溯科技有限公司 一种表格提取方法、系统及可读介质
CN114782970B (zh) * 2022-06-22 2022-09-16 广州市新文溯科技有限公司 一种表格提取方法、系统及可读介质
CN115658778B (zh) * 2022-07-27 2023-09-12 重庆忽米网络科技有限公司 用于可视化应用创建的基于Excel数据源的数据处理方法
CN115658778A (zh) * 2022-07-27 2023-01-31 重庆忽米网络科技有限公司 用于可视化应用创建的基于Excel数据源的数据处理方法
CN115617815A (zh) * 2022-11-21 2023-01-17 四川省公路规划勘察设计研究院有限公司 一种利用限高模型冗余空间搭载索引信息的方法及系统
CN115983223B (zh) * 2023-03-21 2023-07-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质
CN115983223A (zh) * 2023-03-21 2023-04-18 中信证券股份有限公司 报表文档审核方法、装置、电子设备和计算机可读介质
CN116861912A (zh) * 2023-08-31 2023-10-10 合肥天帷信息安全技术有限公司 一种基于深度学习的表格实体抽取方法及系统
CN116861912B (zh) * 2023-08-31 2023-12-05 合肥天帷信息安全技术有限公司 一种基于深度学习的表格实体抽取方法及系统

Similar Documents

Publication Publication Date Title
CN112183511A (zh) 一种图像导出表格的方法、系统、存储介质及设备
CN110309824B (zh) 文字检测方法、装置以及终端
CN104298982A (zh) 一种文字识别方法及装置
CN111753706B (zh) 一种基于图像统计学的复杂表格交点聚类提取方法
CN107273883B (zh) 决策树模型训练方法、确定ocr结果中数据属性方法及装置
CN110738030A (zh) 表格重建方法、装置、电子设备及存储介质
CN112906695B (zh) 适配多类ocr识别接口的表格识别方法及相关设备
CN111126383A (zh) 车牌检测方法、系统、装置及存储介质
CN113468905B (zh) 图形码识别方法、装置、计算机设备和存储介质
US20230169784A1 (en) Text processing method and apparatus, and electronic device and storage medium
US10997407B2 (en) Detecting document objects
CN113033562A (zh) 一种图像处理方法、装置、设备及存储介质
CN115935928A (zh) 文档信息的提取方法和装置
CN116071774A (zh) 表格图像单元格行列信息索引方法、计算机装置及存储介质
CN112861843A (zh) 基于特征图像识别的选择框解析方法及装置
CN115063817A (zh) 一种基于形态学检测的表格识别方法、系统以及储存介质
CN114495144A (zh) 文本图像中表格key-value信息的提取方法及装置
CN114140620A (zh) 一种物体直线轮廓检测方法
CN114155544A (zh) 一种无线表格识别方法、装置、计算机设备及存储介质
CN112580452A (zh) 故障树的处理方法、装置、计算机可读存储介质以及处理器
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
CN112364876B (zh) 一种高效的条码二值化方法及系统
CN112215783B (zh) 一种图像噪点识别方法、装置、存储介质及设备
CN112149646B (zh) 版面分析方法、装置、设备及存储介质
CN111368847B (zh) 一种字符识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210105