CN114529922A - 一种无线框表格图像表格结构识别方法 - Google Patents
一种无线框表格图像表格结构识别方法 Download PDFInfo
- Publication number
- CN114529922A CN114529922A CN202111672896.4A CN202111672896A CN114529922A CN 114529922 A CN114529922 A CN 114529922A CN 202111672896 A CN202111672896 A CN 202111672896A CN 114529922 A CN114529922 A CN 114529922A
- Authority
- CN
- China
- Prior art keywords
- line
- column
- scanning
- image
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000001514 detection method Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
- G06F2218/14—Classification; Matching by matching peak patterns
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种无线框表格图像表格结构识别方法,所述方法包括以下步骤:获取无线框表格图像;对图像进行处理转换为灰度图像;将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;对行投影进行扫描获得行波峰和行波谷;对列投影进行扫描获得列波峰和列波谷;根据行波谷和列波谷计算表格线位置得到表格结构;能够有效地对无线框表格图像进行检测识别生成含有框线的表格结构,对于后期的文档图像版面分析与识别工作有着重要的意义;提升了表格识别效率和准确性。
Description
技术领域
本发明涉及图像表格识别技术领域,尤其涉及一种无线框表格图像表格结构识别方法。
背景技术
随着计算机技术的快速发展,电子文档的使用越来越普及,而且由于纸质文档易损毁、不易保存等问题,经常需要将纸质文档转化为数字形式,并存储在计算机中。例如,可以通过拍照或扫描等技术,将纸质文档转变为数字图像,再利用图像处理与光学字符识别(OpticalCharacterRecognition,OCR)等技术,识别数字图像中的文字,以进行进一步的编辑或其它应用。在这些的纸质文档资料中,有一类特殊的资料文档——表格文档,例如银行流水单,增值税发票,公司报表等等,其在我们的日常生活工作有着非常广泛的应用。文档表格线将整个文档划分为不同区域,是文档版面分析与识别信息结构化处理的重要的依据,因此对文档图像表格线的检测与去除的研究具有重要意义。
然而,现在很多的情况下,一些表格文档资料虽然是根据表格生成的,却没有生成表格框线,这些文档资料需要转到电子文档时,无法准确识别并生成表格进行表述,也就是因为没有框线无法识别并生成准确的电子表格。
发明内容
鉴于目前表格识别技术领域存在的无法识别无线框的表格图像生成表格的问题,本发明提供一种无线框表格图像表格结构识别方法,通过像素行、列投影获得行、列波谷进行表格结构的计算生成。
为达到上述目的,本发明的实施例采用如下技术方案:
一种无线框表格图像表格结构识别方法,所述方法包括以下步骤:
获取无线框表格图像;
对图像进行处理转换为灰度图像;
将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;
将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;
对行投影进行扫描获得行波峰和行波谷;
对列投影进行扫描获得列波峰和列波谷;
根据行波谷和列波谷计算表格线位置得到表格结构。
依照本发明的一个方面,所述根据行波谷和列波谷计算表格线位置得到表格结构包括以下步骤:
过行波谷的中点画水平线,过列波谷的中点画垂直线;所有水平线的集合形成水平线集,所有垂直线的集合形成垂直线集;
每一条水平线与每一条垂直线相交得到一个交点,设置一个点集,包含所有交点;
将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
依照本发明的一个方面,所述对行投影进行扫描获得行波峰和行波谷包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值的连续区间作为行波谷,除了行波谷的其他区域作为行波峰。
依照本发明的一个方面,所述对列投影进行扫描获得列波峰和列波谷包括:对列投影逐列进行扫描,根据列投影值的大小,将列投影值小于第二阈值的连续区间作为列波谷,除了列波谷的其他区域作为列波峰。
依照本发明的一个方面,所述方法包括:在步骤对行投影进行扫描获得行波峰和行波谷执行后,再次对杭波峰和行波谷分别进行扫描获得二次杭波峰和二次行波谷,将二次行波谷作为计算表格线位置得到表格结构的依据。
依照本发明的一个方面,所述对杭波峰和行波谷分别进行扫描获得二次杭波峰和二次行波谷包括以下步骤:
在行波峰的基础上,以范围最小的行波峰为行波峰单位;
对一个行波峰从行波峰单位开始以上下各固定个像素点为扫描框进行扫描;
若扫描框中的行波峰的灰度值的平均值小于这一个行波峰的灰度值的平均值,则认为扫描框中的行波峰属于二次行波谷部分,得到一个二次行波峰;
以二次行波峰的终点作为扫描七点,用扫描框逐行进行扫描,当扫描到二次行波谷之后出现扫描框中的行波峰的灰度值的平均值大于这一个行波峰的灰度值的平均值时,则认为一个二次行波谷扫描完成,得到二次行波谷。
依照本发明的一个方面,所述方法包括:在步骤对列投影进行扫描获得列波峰和列波谷执行后,再次对列波峰和列波谷分别进行扫描获得二次列波峰和二次列波谷,将二次列波谷作为计算表格线位置得到表格结构的依据。
依照本发明的一个方面,所述对列波峰和列波谷分别进行扫描获得二次列波峰和二次列波谷包括以下步骤:
在得到列波谷和列波峰的基础上,对一个列波峰从左至右进行扫描,寻找到列波峰中的极大值点集和极小值点集;
将极大值点及其附近的点与其两侧的极小值及其附近的点的分别求斜率,得到左斜率集和右斜率集;
以一个极大值点为中心求出的两侧斜率最大的部分为一个二次列波峰,一个列波峰中除检测出的二次列波峰外均为二次列波谷。
依照本发明的一个方面,所述方法还包括步骤:对灰度图像进行直线检测,根据检测到的直线对表格结构进行修正。
依照本发明的一个方面:以一定格式将识别到的表格结构输入到后缀为json的文档中。本发明实施的优点:能够有效地对无线框表格图像进行检测识别生成含有框线的表格结构,对于后期的文档图像版面分析与识别工作有着重要的意义;提升了表格识别效率和准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一和实施例二所述的无线框表格图像表格结构识别方法流程图;
图2为本发明实施例三所述的无线框表格图像表格结构识别方法流程图;
图3为本发明所述的无线框表格图像列的灰度图,图中蓝圈为被正确检测为一次波谷的位置,红圈为未被检测为一次波谷的位置;
图4为本发明所述的无线框表格图像列的灰度图,图中红框表示为第一次扫描后实际被检测为波峰的范围;
图5为本发明所述的无线框表格图像列的灰度图,图中红点表示第一个一次波峰扫描得到的极大值点,蓝点表示第一个一次波峰扫描得到的极小值点。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1、图3、图4和图5所示,一种无线框表格图像表格结构识别方法,所述方法包括以下步骤:
步骤S1:获取无线框表格图像;
在本步骤中,可通过扫描或拍照等获得无线框的表格图像,图像可为RGB或任意图像格式。本实施例中,设获取的无线框表格图像Io,图像高度为H,图像宽度为W。
步骤S2:对图像进行处理转换为灰度图像;
首先对无线框表格图像Io进行二值化处理为灰度图像Ig,具体为:利用图像二值化算法,将获取到的无线框表格图像Io由原来的RGB图像转化为灰度图像Ig,将Ig中第i行第j列的像素点的灰度值用Pix(i,j)表示。
步骤S3:将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;
步骤S31:将Ig第i行的像素点的像素值累加得到Ig这一行的行投影,记为Hpi,可表示为如下公式:
Pix(i,j)为Ig中第i行第j列的像素点的灰度值。
步骤S32:对Ig每行重复步骤S31进行投影,得到Ig每行的行投影,称之为灰度图像的行投影,简称为行投影,记为Hp,集合Hp可表示为:
Hp={Hpi|i=0,1,...(H-1)}
步骤S4:将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;
步骤S41:将Ig第j列的像素点的像素值累加得到Ig这一列的列投影,记为Vpi,可表示为如下公式:
步骤S42:对Ig每列重复步骤S41,得到Ig每列的列投影,称之为灰度图像的列投影,简称为列投影,记为Vp,集合Vp可表示为;
Vp={Vpj|j=0,1,...(W-1)}
在实际应用中,所述步骤S3和步骤S4可同步执行或任意顺序先后执行。
步骤S5:对行投影进行扫描获得行波峰和行波谷;
所述步骤S5对行投影进行扫描获得行波峰和行波谷包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值的连续区间作为行波谷,除了行波谷的其他区域作为行波峰。
在本实施例中,具体包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值FHTh的连续区间称为行波谷区域,简称为行波谷,记为Htrough。除了行波谷的其他区域称为行波峰区域,简称为行波峰,记为Hpeak。集合Htrough和集合Hpeak分别可表示为:
Htrough={(Hp1i,Hp2i)|i=0,1,...,(H-1)∩Hp1i<Hp2i<FHTh}
Hpeak=Hp-Htrough。
步骤S6:对列投影进行扫描获得列波峰和列波谷;
所述步骤S6所述对列投影进行扫描获得列波峰和列波谷包括:对列投影逐列进行扫描,根据列投影值的大小,将列投影值小于第二阈值的连续区间作为列波谷,除了列波谷的其他区域作为列波峰。
在本实施例中,具体包括:对列投影逐列进行扫描,根据列投影值的大小,将行投影值小于第二阈值FVTh的连续区间称为列波谷区域,简称为列波谷,记为Vtrough。除了列波谷的其他区域称为列波峰区域,简称为列波峰,记为Vpeak;
Vtrough={(Vp1j,Vp2j)|j=0,1,...,(W-1)∩Vp1j<Vp2j<FVTh}
Vpeak=Vp-Vtrough。
在实际应用中,所述步骤S5和步骤S6可同步执行或任意顺序先后执行。
步骤S7:根据行波谷和列波谷计算表格线位置得到表格结构。
在本实施例中,所述根据行波谷和列波谷计算表格线位置得到表格结构包括:过行波谷的中点画水平线,过列波谷的中点画垂直线;所有水平线的集合形成水平线集,所有垂直线的集合形成垂直线集;每一条水平线与每一条垂直线相交得到一个交点,设置一个点集,包含所有交点;将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
在本实施例中,具体包括以下步骤:
步骤S71:以行波谷和列波谷的中点分别为该无线框表格图像的水平线段和垂直线段的纵坐标和横坐标;
步骤S72:将水平线段和垂直线段分别从已知的纵坐标和横坐标进行延伸,若线段经过区域存在文本,则将线段分成两段,得到水平线集和垂直线集;
步骤S73:利用水平线集和垂直线集求出每条水平线段和每条垂直线段的交点,得到点集;
步骤S74:将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
在本实施例中,具体计算过程可为:
以行波谷和列波谷的中点分别为该无线框表格图像的水平线段和垂直线段的纵坐标y和横坐标x;
将水平线段和垂直线段分别从已知的y坐标和x坐标进行延伸,若线段经过区域存在文本,则将线段分成两段,得到水平线集Horizontal和垂直线集Vertical;
设n为Horizontal中元素个数,m为Vertical中元素个数。Horizontali为Horizontal中第i条直线,Verticalj为Vertical中第j条直线;
Hx1i表示Horizontali的起点的横坐标,Hy1i表示Horizontali起点的纵坐标,Hx2i表示Horizontali终点的横坐标,Hy2i表示Horizontali终点的纵坐标;
Vx1j表示Verticalj起点的横坐标,Vy1j表示Verticalj起点的纵坐标,Vx2j表示Verticalj终点的横坐标,Vx2j表示Verticalj终点的纵坐标;
利用Horizontal和Vertical求出每条水平线段和每条垂直线段的交点,得到点集P;
将Horizontal1和Vertical1的交点为左上角LT,Horizontal1和Verticalm的交点为右上角RT,Horizontaln和Vertical1的交点为左下角LL,Horizontaln和Verticalm的交点为右下角RL,即得到了所有表格线的表格结构。
在实际应用中,还可包括:将得到的表格线向外扩充10个像素,即:
Hy11=Hy11-10
Hy21=Hy21-10
Hy1n=Hy1n+10
Hy2n=Hy2n+10
Vx11=Vx11-10
Vx21=Vx21-10
Vx1m=Vx1m+10
Vx2m=Vx2m+10
得到一个表格旁边有余量空白的完整表格。
以一定格式将识别到的无线框表格图像表格结构输入到后缀为json的文档中。
实施例二
如图1、图3、图4和图5所示,一种无线框表格图像表格结构识别方法,所述方法包括以下步骤:
步骤S1:获取无线框表格图像;
在本步骤中,可通过扫描或拍照等获得无线框的表格图像,图像可为RGB或任意图像格式。本实施例中,设获取的无线框表格图像Io,图像高度为H,图像宽度为W。
步骤S2:对图像进行处理转换为灰度图像;
首先对无线框表格图像Io进行二值化处理为灰度图像Ig,具体为:利用图像二值化算法,将获取到的无线框表格图像Io由原来的RGB图像转化为灰度图像Ig,将Ig中第i行第j列的像素点的灰度值用Pix(i,j)表示。
步骤S3:将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;
步骤S31:将Ig第i行的像素点的像素值累加得到Ig这一行的行投影,记为Hpi,可表示为如下公式:
Pix(i,j)为Ig中第i行第j列的像素点的灰度值。
步骤S32:对Ig每行重复步骤S31进行投影,得到Ig每行的行投影,称之为灰度图像的行投影,简称为行投影,记为Hp,集合Hp可表示为:
Hp={Hpi|i=0,1,...(H-1)}
步骤S4:将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;
步骤S41:将Ig第j列的像素点的像素值累加得到Ig这一列的列投影,记为Vpi,可表示为如下公式:
步骤S42:对Ig每列重复步骤S41,得到Ig每列的列投影,称之为灰度图像的列投影,简称为列投影,记为Vp,集合Vp可表示为;
Vp={Vpj|j=0,1,...(W-1)}
在实际应用中,所述步骤S3和步骤S4可同步执行或任意顺序先后执行。
步骤S5:对行投影进行扫描获得行波峰和行波谷;
所述步骤S5对行投影进行扫描获得行波峰和行波谷包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值的连续区间作为行波谷,除了行波谷的其他区域作为行波峰。
在本实施例中,具体包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值FHTh的连续区间称为行波谷区域,简称为行波谷,记为Htrough。除了行波谷的其他区域称为行波峰区域,简称为行波峰,记为Hpeak。集合Htrough和集合Hpeak分别可表示为:
Htrough={(Hp1i,Hp2i)|i=0,1,...,(H-1)∩Hp1i<Hp2i<FHTh}
Hpeak=Hp-Htrough。
步骤S6:对列投影进行扫描获得列波峰和列波谷;
所述步骤S6所述对列投影进行扫描获得列波峰和列波谷包括:对列投影逐列进行扫描,根据列投影值的大小,将列投影值小于第二阈值的连续区间作为列波谷,除了列波谷的其他区域作为列波峰。
在本实施例中,具体包括:对列投影逐列进行扫描,根据列投影值的大小,将行投影值小于第二阈值FVTh的连续区间称为列波谷区域,简称为列波谷,记为Vtrough。除了列波谷的其他区域称为列波峰区域,简称为列波峰,记为Vpeak;
Vtrough={(Vp1j,Vp2j)|j=0,1,...,(W-1)∩Vp1j<Vp2j<FVTh}
Vpeak=Vp-Vtrough。
在实际应用中,所述步骤S5和步骤S6可同步执行或任意顺序先后执行。
步骤S7:根据行波谷和列波谷计算表格线位置得到表格结构。
在本实施例中,所述根据行波谷和列波谷计算表格线位置得到表格结构包括:过行波谷的中点画水平线,过列波谷的中点画垂直线;所有水平线的集合形成水平线集,所有垂直线的集合形成垂直线集;每一条水平线与每一条垂直线相交得到一个交点,设置一个点集,包含所有交点;将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
在本实施例中,具体包括以下步骤:
步骤S71:以行波谷和列波谷的中点分别为该无线框表格图像的水平线段和垂直线段的纵坐标和横坐标;
步骤S72:将水平线段和垂直线段分别从已知的纵坐标和横坐标进行延伸,若线段经过区域存在文本,则将线段分成两段,得到水平线集和垂直线集;
步骤S73:利用水平线集和垂直线集求出每条水平线段和每条垂直线段的交点,得到点集;
步骤S74:将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
在本实施例中,具体计算过程可为:
以行波谷和列波谷的中点分别为该无线框表格图像的水平线段和垂直线段的纵坐标y和横坐标x;
将水平线段和垂直线段分别从已知的y坐标和x坐标进行延伸,若线段经过区域存在文本,则将线段分成两段,得到水平线集Horizontal和垂直线集Vertical;
设n为Horizontal中元素个数,m为Vertical中元素个数。Horizontali为Horizontal中第i条直线,Verticalj为Vertical中第j条直线;
Hx1i表示Horizontali的起点的横坐标,Hy1i表示Horizontali起点的纵坐标,Hx2i表示Horizontali终点的横坐标,Hy2i表示Horizontali终点的纵坐标;
Vx1j表示Verticalj起点的横坐标,Vy1j表示Verticalj起点的纵坐标,Vx2j表示Verticalj终点的横坐标,Vx2j表示Verticalj终点的纵坐标;
利用Horizontal和Vertical求出每条水平线段和每条垂直线段的交点,得到点集P;
将Horizontal1和Vertical1的交点为左上角LT,Horizontal1和Verticalm的交点为右上角RT,Horizontaln和Vertical1的交点为左下角LL,Horizontaln和Verticalm的交点为右下角RL,即得到了所有表格线的表格结构。
在实际应用中,还可包括:将得到的表格线向外扩充10个像素,即:
Hy11=Hy11-10
Hy21=Hy21-10
Hy1n=Hy1n+10
Hy2n=Hy2n+10
Vx11=Vx11-10
Vx21=Vx21-10
Vx1m=Vx1m+10
Vx2m=Vx2m+10
得到一个表格旁边有余量空白的完整表格。
步骤S8:对灰度图像进行直线检测,根据检测到的直线对表格结构进行修正。
以一定格式将识别到的无线框表格图像表格结构输入到后缀为json的文档中。
实施例三
如图2、图3、图4和图5所示,一种无线框表格图像表格结构识别方法,所述方法包括以下步骤:
步骤S1:获取无线框表格图像;
在本步骤中,可通过扫描或拍照等获得无线框的表格图像,图像可为RGB或任意图像格式。本实施例中,设获取的无线框表格图像Io,图像高度为H,图像宽度为W。
步骤S2:对图像进行处理转换为灰度图像;
首先对无线框表格图像Io进行二值化处理为灰度图像Ig,具体为:利用图像二值化算法,将获取到的无线框表格图像Io由原来的RGB图像转化为灰度图像Ig,将Ig中第i行第j列的像素点的灰度值用Pix(i,j)表示。
步骤S3:将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;
步骤S31:将Ig第i行的像素点的像素值累加得到Ig这一行的行投影,记为Hpi,可表示为如下公式:
Pix(i,j)为Ig中第i行第j列的像素点的灰度值。
步骤S32:对Ig每行重复步骤S31进行投影,得到Ig每行的行投影,称之为灰度图像的行投影,简称为行投影,记为Hp,集合Hp可表示为:
Hp={Hpi|i=0,1,...(H-1)}
步骤S4:将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;
步骤S41:将Ig第j列的像素点的像素值累加得到Ig这一列的列投影,记为Vpi,可表示为如下公式:
步骤S42:对Ig每列重复步骤S41,得到Ig每列的列投影,称之为灰度图像的列投影,简称为列投影,记为Vp,集合Vp可表示为;
Vp={Vpj|j=0,1,...(W-1)}
在实际应用中,所述步骤S3和步骤S4可同步执行或任意顺序先后执行。
步骤S5:对行投影进行扫描获得行波峰和行波谷;
所述步骤S5对行投影进行扫描获得行波峰和行波谷包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值的连续区间作为行波谷,除了行波谷的其他区域作为行波峰。
在本实施例中,具体包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于阈值FHTh的连续区间称为行波谷区域,简称为行波谷,记为Htrough。除了行波谷的其他区域称为行波峰区域,简称为行波峰,记为Hpeak。集合Htrough和集合Hpeak分别可表示为:
Htrough={(Hp1i,Hp2i)|i=0,1,...,(H-1)∩Hp1i<Hp2i<FHTh}
Hpeak=Hp-Htrough。
步骤S6:对列投影进行扫描获得列波峰和列波谷;
所述步骤S6所述对列投影进行扫描获得列波峰和列波谷包括:对列投影逐列进行扫描,根据列投影值的大小,将列投影值小于第二阈值的连续区间作为列波谷,除了列波谷的其他区域作为列波峰。
在本实施例中,具体包括:对列投影逐列进行扫描,根据列投影值的大小,将行投影值小于阈值FVTh的连续区间称为列波谷区域,简称为列波谷,记为Vtrough。除了列波谷的其他区域称为列波峰区域,简称为列波峰,记为Vpeak;
Vtrough={(Vp1j,Vp2j)|j=0,1,...,(W-1)∩Vp1j<Vp2j<FVTh}
Vpeak=Vp-Vtrough。
在实际应用中,所述步骤S5和步骤S6可同步执行或任意顺序先后执行。
步骤S5和步骤S6中得到的行波谷和列波谷统称为波谷,记为trough,行波峰和列波峰统称为波峰,记为peak:
trough=Htrough+Vtrough
peak=Hpeak+Vpeak
为与后续步骤中得到的波谷、波峰进行区分,将步骤S5和步骤S6中得到行波谷、行波峰称为一次行波谷、一次行波峰,分别记为First_Htrough、First_Hpeak;列波谷、列波峰称为一次列波谷、一次列波峰,分别记为First_Vtrough、First_Vpeak;波谷、波峰称为一次波谷、一次波峰,分别记为First_trough、First_peak,表示公式和集合元素与前述步骤中相同。将后续步骤中得到的行波谷、行波峰称为二次行波谷、二次行波峰,分别记为Second_Htrough、Second_Hpeak;列波谷、列波峰称为二次列波谷、二次列波峰,分别记为Second_Vtrough、Second_Vpeak;波谷、波峰称为二次波谷、二次波峰,分别记为Second_trough、Second_peak。
步骤S7:对杭波峰和行波谷分别进行扫描获得二次杭波峰和二次行波谷;
在行波峰的基础上,以范围最小的行波峰为行波峰单位;
对一个行波峰从行波峰单位开始以上下各固定个像素点为扫描框进行扫描;
若扫描框中的行波峰的灰度值的平均值小于这一个行波峰的灰度值的平均值,则认为扫描框中的行波峰属于二次行波谷部分,得到一个二次行波峰;
以二次行波峰的终点作为扫描七点,用扫描框逐行进行扫描,当扫描到二次行波谷之后出现扫描框中的行波峰的灰度值的平均值大于这一个行波峰的灰度值的平均值时,则认为一个二次行波谷扫描完成,得到二次行波谷。
在本实施例中,具体可为:
步骤S71:二次行波峰扫描。记PR为波峰范围,First_Hpeakv为First_Hpeak中第v个一次行波峰,First_Hpeak1v为其波峰起始位置,First_Hpeak2v为其波峰终止位置,其波峰范围PRv可表示为:
PRv=First_Hpeak2v-First_Hpeak1v
步骤S72:在一次行波峰First_Hpeak的基础上,称范围最小的一次行波峰为行波峰单位,记为PU,即:
PU=min(PR)
步骤S73:利用行的大致等距性质对一个一次行波峰从PU开始以上下各5个像素点为扫描框进行扫描,扫描框记为:Scan_Box((x,y),h,w),(x,y)表示扫描框左上角的坐标,h表示矩形框的。第i行的扫描框可表示为:
Scan_Boxi((i-5,0),10,W)(i=PU,(PU+1),...,)
步骤S74:若该扫描框中的行波峰的灰度值的平均值PartAve小于该一次行波峰的灰度值的平均值TotalAve,即PartAve<TotalAve,则认为扫描框中的行波峰属于二次行波谷部分。一个二次行波峰扫描完成,得到一个二次行波峰Second_Hpeak1(Hp1i,Hp2i)。
步骤S75:二次行波谷扫描,第i个二次行波峰Second_Hpeaki的终点Hp2i作为扫描的起点,用扫描框Scan_Box逐行进行扫描。当扫描到二次行波谷之后出现PartAve>TotalAve时,则认为一个二次行波谷扫描完成,得到第i个二次行波谷Second_Htroughi(Hp2i,Hp3i);
步骤S76:以第i个二次行波谷Second_Htroughi的终点Hp3i为第i+1个二次波峰Second_Hpeaki+1的起点并增加PU继续进行二次行波峰扫描,即:
Hpi+1=Hp3i+PU
步骤S77:重复步骤S75和步骤S76,当该一次波峰全部扫描完成,或一个二次行波谷扫描完成后该行波峰中剩下的部分不足一个波峰单位,则停止重复;
步骤S78:对每个一次行波峰均重复步骤S71至步骤S77,得到二次行波峰和二次行波谷,即:
Second_Hpeak={Second_Hpeaki|0≤i<H}
Second_Htrough={Second_Htroughi|0≤i<H}+First_Htrough。
步骤S8:对列波峰和列波谷分别进行扫描获得二次列波峰和二次列波谷;
在得到列波谷和列波峰的基础上,对一个列波峰从左至右进行扫描,寻找到列波峰中的极大值点集和极小值点集;
将极大值点及其附近的点与其两侧的极小值及其附近的点的分别求斜率,得到左斜率集和右斜率集;
以一个极大值点为中心求出的两侧斜率最大的部分为一个二次列波峰,一个列波峰中除检测出的二次列波峰外均为二次列波谷。
步骤S81:二次列波峰扫描。在得到的一次列波谷、一次列波峰的基础上,对一个一次列波峰从左至右进行扫描,寻找到一次列波峰中的极大值点集Maximum_Point和极小值点集Minimum_Point。
步骤S82:将极大值点及其附近的点与其两侧的极小值及其附近的点的分别求斜率,得到左斜率集LiftK和右斜率集RightK;
步骤S83:以一个极大值点为中心求出的两侧斜率最大的部分为一个二次列波峰Second_Vpeakj,一个一次列波峰中除检测出的二次列波峰外均为二次列波谷,即:
Second_Vtroughj=First_Vpeakj-Second_Vpeakj
步骤S84:对每个一次列波峰均重复步骤S81至步骤S83,得到二次列波峰和二次列波谷,即:
Second_Vpeak={Second_Vpeakj|0≤j<W}
Second_Vtrough={Second_Vtroughj|0≤j<W}+First_Vtrough。
步骤S9:根据行波谷和列波谷计算表格线位置得到表格结构。
在本实施例中,所述根据行波谷和列波谷计算表格线位置得到表格结构包括:过二次行波谷的中点画水平线,过二次列波谷的中点画垂直线;所有水平线的集合形成水平线集,所有垂直线的集合形成垂直线集;每一条水平线与每一条垂直线相交得到一个交点,设置一个点集,包含所有交点;将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
在本实施例中,具体包括以下步骤:
步骤S91:以二次行波谷和二次列波谷的中点分别为该无线框表格图像的水平线段和垂直线段的纵坐标和横坐标;
步骤S92:将水平线段和垂直线段分别从已知的纵坐标和横坐标进行延伸,若线段经过区域存在文本,则将线段分成两段,得到水平线集和垂直线集;
步骤S93:利用水平线集和垂直线集求出每条水平线段和每条垂直线段的交点,得到点集;
步骤S94:将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
在本实施例中,具体计算过程可为:
以行波谷和列波谷的中点分别为该无线框表格图像的水平线段和垂直线段的纵坐标y和横坐标x;
将水平线段和垂直线段分别从已知的y坐标和x坐标进行延伸,若线段经过区域存在文本,则将线段分成两段,得到水平线集Horizontal和垂直线集Vertical;
设n为Horizontal中元素个数,m为Vertical中元素个数。Horizontali为Horizontal中第i条直线,Verticali为Vertical中第j条直线;
Hx1i表示Horizontali的起点的横坐标,Hy1i表示Horizontali起点的纵坐标,Hx2i表示Horizontali终点的横坐标,Hy2i表示Horizontali终点的纵坐标;
Vx1j表示Verticalj起点的横坐标,Vy1j表示Verticalj起点的纵坐标,Vx2j表示Verticalj终点的横坐标,Vx2j表示Verticalj终点的纵坐标;
利用Horizontal和Vertical求出每条水平线段和每条垂直线段的交点,得到点集P;
将Horizontal1和Vertical1的交点为左上角LT,Horizontal1和Verticalm的交点为右上角RT,Horizontaln和Vertical1的交点为左下角LL,Horizontaln和Verticalm的交点为右下角RL,即得到了所有表格线的表格结构。
在实际应用中,还可包括:将得到的表格线向外扩充10个像素,即:
Hy11=Hy11-10
Hy21=Hy21-10
Hy1n=Hy1n+10
Hy2n=Hy2n+10
Vx11=Vx11-10
Vx21=Vx21-10
Vx1m=Vx1m+10
Vx2m=Vx2m+10
得到一个表格旁边有余量空白的完整表格。
以一定格式将识别到的无线框表格图像表格结构输入到后缀为json的文档中。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种无线框表格图像表格结构识别方法,所述方法包括步骤:获取图像;对图像进行处理转换为灰度图像;其特征在于,所述方法还包括以下步骤:
将灰度图像单行的像素点的像素值累加,得到灰度图像的行投影;
将灰度图像单列的像素点的像素值累加,得到灰度图像的列投影;
对行投影进行扫描获得行波峰和行波谷;
对列投影进行扫描获得列波峰和列波谷;
根据行波谷和列波谷计算表格线位置得到表格结构。
2.根据权利要求1所述的无线框表格图像表格结构识别方法,其特征在于,所述根据行波谷和列波谷计算表格线位置得到表格结构包括以下步骤:
过行波谷的中点画水平线,过列波谷的中点画垂直线;所有水平线的集合形成水平线集,所有垂直线的集合形成垂直线集;
每一条水平线与每一条垂直线相交得到一个交点,设置一个点集,包含所有交点;
将水平线集第一条线段和垂直线集第一条线段的交点作为左上角,将水平线集第一条线段和垂直线集最后一条线段的交点作为右上角,将水平线集最后一条线段和垂直线集第一条线段的交点作为左下角,将水平线集最后一条线段和垂直线集最后一条线段的交点作为右下角,生成表格结构。
3.根据权利要求1所述的无线框表格图像表格结构识别方法,其特征在于,所述对行投影进行扫描获得行波峰和行波谷包括:对行投影逐行进行扫描,根据行投影值的大小,将行投影值小于第一阈值的连续区间作为行波谷,除了行波谷的其他区域作为行波峰。
4.根据权利要求1所述的无线框表格图像表格结构识别方法,其特征在于,所述对列投影进行扫描获得列波峰和列波谷包括:对列投影逐列进行扫描,根据列投影值的大小,将列投影值小于第二阈值的连续区间作为列波谷,除了列波谷的其他区域作为列波峰。
5.根据权利要求1所述的无线框表格图像表格结构识别方法,其特征在于,所述方法包括:在步骤对行投影进行扫描获得行波峰和行波谷执行后,再次对杭波峰和行波谷分别进行扫描获得二次杭波峰和二次行波谷,将二次行波谷作为计算表格线位置得到表格结构的依据。
6.根据权利要求5所述的无线框表格图像表格结构识别方法,其特征在于,所述对杭波峰和行波谷分别进行扫描获得二次杭波峰和二次行波谷包括以下步骤:
在行波峰的基础上,以范围最小的行波峰为行波峰单位;
对一个行波峰从行波峰单位开始以上下各固定个像素点为扫描框进行扫描;
若扫描框中的行波峰的灰度值的平均值小于这一个行波峰的灰度值的平均值,则认为扫描框中的行波峰属于二次行波谷部分,得到一个二次行波峰;
以二次行波峰的终点作为扫描七点,用扫描框逐行进行扫描,当扫描到二次行波谷之后出现扫描框中的行波峰的灰度值的平均值大于这一个行波峰的灰度值的平均值时,则认为一个二次行波谷扫描完成,得到二次行波谷。
7.根据权利要求1所述的无线框表格图像表格结构识别方法,其特征在于,所述方法包括:在步骤对列投影进行扫描获得列波峰和列波谷执行后,再次对列波峰和列波谷分别进行扫描获得二次列波峰和二次列波谷,将二次列波谷作为计算表格线位置得到表格结构的依据。
8.根据权利要求7所述的无线框表格图像表格结构识别方法,其特征在于,所述对列波峰和列波谷分别进行扫描获得二次列波峰和二次列波谷包括以下步骤:
在得到列波谷和列波峰的基础上,对一个列波峰从左至右进行扫描,寻找到列波峰中的极大值点集和极小值点集;
将极大值点及其附近的点与其两侧的极小值及其附近的点的分别求斜率,得到左斜率集和右斜率集;
以一个极大值点为中心求出的两侧斜率最大的部分为一个二次列波峰,一个列波峰中除检测出的二次列波峰外均为二次列波谷。
9.根据权利要求1至8中任一所述的无线框表格图像表格结构识别方法,其特征在于,所述方法还包括步骤:对灰度图像进行直线检测,根据检测到的直线对表格结构进行修正。
10.根据权利要求9所述的无线框表格图像表格结构识别方法,其特征在于,所述方法包括:以一定格式将识别到的表格结构输入到后缀为json的文档中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111672896.4A CN114529922A (zh) | 2021-12-31 | 2021-12-31 | 一种无线框表格图像表格结构识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111672896.4A CN114529922A (zh) | 2021-12-31 | 2021-12-31 | 一种无线框表格图像表格结构识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114529922A true CN114529922A (zh) | 2022-05-24 |
Family
ID=81619979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111672896.4A Pending CN114529922A (zh) | 2021-12-31 | 2021-12-31 | 一种无线框表格图像表格结构识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114529922A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052193A (zh) * | 2023-04-03 | 2023-05-02 | 杭州实在智能科技有限公司 | Rpa界面动态表格的拾取和匹配方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN110210440A (zh) * | 2019-06-11 | 2019-09-06 | 中国农业银行股份有限公司 | 一种表格图像版面分析方法及系统 |
-
2021
- 2021-12-31 CN CN202111672896.4A patent/CN114529922A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN110210440A (zh) * | 2019-06-11 | 2019-09-06 | 中国农业银行股份有限公司 | 一种表格图像版面分析方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052193A (zh) * | 2023-04-03 | 2023-05-02 | 杭州实在智能科技有限公司 | Rpa界面动态表格的拾取和匹配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507251B (zh) | 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质 | |
CN108875723B (zh) | 对象检测方法、装置和系统及存储介质 | |
JP4694613B2 (ja) | 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体 | |
EP0483343A1 (en) | A polygon-based method for automatic extraction of selected text in a digitized document | |
CN109948521B (zh) | 图像纠偏方法和装置、设备及存储介质 | |
CN111737478B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN104978576A (zh) | 一种文字识别方法及装置 | |
RU2626656C2 (ru) | Способ и система определения ориентации изображения текста | |
CN111428700B (zh) | 表格识别方法、装置、电子设备、存储介质 | |
JP2011248702A (ja) | 画像処理装置、画像処理方法、画像処理プログラム及びプログラム記憶媒体 | |
CN115661848A (zh) | 一种基于深度学习的表格提取和识别方法及系统 | |
CN115619656A (zh) | 数字化档案纠偏矫正方法及系统 | |
CN115082935A (zh) | 用于对文档图像进行矫正的方法、设备及存储介质 | |
CN114529922A (zh) | 一种无线框表格图像表格结构识别方法 | |
CN109635729B (zh) | 一种表格识别方法及终端 | |
CN112036294B (zh) | 一种纸质表格结构自动识别的方法及装置 | |
JPH0418351B2 (zh) | ||
CN112800824A (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
CN115410191B (zh) | 文本图像识别方法、装置、设备和存储介质 | |
CN114529923A (zh) | 一种表格合并单元格检测方法 | |
Amarnath et al. | Automatic localization and extraction of tables from handheld mobile-camera captured handwritten document images | |
CN112825141B (zh) | 识别文本的方法、装置、识别设备和存储介质 | |
JP3095470B2 (ja) | 文字認識装置 | |
CN114332108B (zh) | 一种图片中的虚实线局部区域的提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |