CN117523592A - 一种印章区域表格线检测方法 - Google Patents
一种印章区域表格线检测方法 Download PDFInfo
- Publication number
- CN117523592A CN117523592A CN202410012916.2A CN202410012916A CN117523592A CN 117523592 A CN117523592 A CN 117523592A CN 202410012916 A CN202410012916 A CN 202410012916A CN 117523592 A CN117523592 A CN 117523592A
- Authority
- CN
- China
- Prior art keywords
- line
- coordinates
- line segment
- vertical line
- vertical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012216 screening Methods 0.000 claims description 18
- 241000024287 Areas Species 0.000 claims description 17
- 238000005304 joining Methods 0.000 claims description 12
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000002411 adverse Effects 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000003860 storage Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/147—Determination of region of interest
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/162—Quantising the image signal
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种印章区域表格线检测方法,该方法包括以下步骤:步骤S1;读取表格文档图像,对表格文档图像进行预处理;步骤S2;检测表格文档图像中的表格线,对表格线进行类型判断;步骤S3;对表格线进行排序;步骤S4;对表格文档图像的边界线进行检测;步骤S5;对表格文档图像中的印章区域进行检测;步骤S6;对印章区域内的线段自动补齐。本发明主要基于表格文档图像内表格线之间的关系,结合表格文档图像中的印章区域特征,对包含印章的表格文档图像中印章区域内的表格线进行自动检测和补齐。本发明适用于检测并还原包含印章的表格文档图像的表格线,可有效避免印章对表格线检测的不良影响,表格线还原准确,检测速度快。
Description
技术领域
本发明属于文档图像表格识别技术领域,具体涉及一种印章区域表格线检测方法。
背景技术
表格是一种常用的数据信息存储介质,广泛应用于各个领域。人工查阅表格等纸质文档的方法费时费力,并且信息时代下的数字化存储需求越来越高,这使得表格文档具备极大的数字处理价值。表格等纸质文档,通过手机、相机等数码设备可以转变为一类图像数据信息,即表格文档图像,如何简易且高效地提取表格文档图像中包含的数据信息,表格线具有重要作用,获取清晰的表格线结构,将有效提高处理表格文档图像的工作效率。
印章是表格文档图像中的常见组成元素,对于含印章区域的表格文档图像,在进行表格线检测时,印章的存在会对表格线的提取过程造成一定程度的干扰,导致无法获取清晰的表格线结构,例如,印章图案遮挡了表格线段,这会使得表格文档图像中的数据信息的提取出现错误,造成表格线提取不全。为避免印章的干扰,提出一种针对携带印章区域的表格文档图像进行表格线检测的算法是具有一定程度必要性的。
针对带有印章的表格文档,如名称为“印章去除方法及设备”(公开号为“CN110533748A”)的专利文献,提供了一种印章去除方法,其中步骤包括检测印章、印章裁剪和基于图像重建的印章去除方法对印章进行去除并保留印章下的文本信息,但是块状去除印章容易对原本的表格线造成破坏,难以较好地还原表格数据。又如名称为“文字检测识别方法、装置、电子设备及存储介质”(公开号为“CN113920295A”)的专利文献,采用原始图像的背景颜色的均值对印章进行填充,随后进行表格框线检测,得到文字识别结果,在此过程中模糊了印章对表格线的干扰,存在表格线还原不全的问题。
发明内容
为解决上述技术问题,本发明提出一种印章区域表格线检测方法。该算法能够对表格文档中的印章区域进行检测、处理,还原印章区域的表格线段,实现印章区域的表格线的检测。
本发明提出的一种印章区域表格线检测方法,该方法包括以下步骤:
步骤S1;表格文档图像预处理:读取表格文档图像I,将表格文档图像I转换成灰度图像I g ,采用图像二值化算法对灰度图像I g 进行图像二值化操作,得到二值化图像I b ;
步骤S2;表格线类型判断:对二值化图像I b 进行直线检测,得到表格线集合L,对表格线集合L中的每一条直线进行类型判断,其中表格线类型分为竖线段和横线段;
步骤S3;表格线排序:根据竖线段的x坐标,按照从小到大的顺序,对竖线段集合L v 中的每一条竖线段进行排序;根据横线段的y坐标,按照从小到大的顺序,对横线段集合L h 中的每一条横线段进行排序;
步骤S4;表格文档图像边界线检测:根据已排序的竖线段集合L v 和横线段集合L h ,对表格上边界线、下边界线/>、左边界线/>、右边界线/>进行检测;
步骤S5;印章区域检测:采用印章检测算法对表格文档图像I中的印章区域进行检测,将检测到的印章区域加入印章区域集合S;
步骤S6;印章区域内线段自动补齐:对起点或终点位于印章区域内的线段进行自动补齐。
进一步地,步骤S2中对表格线集合L中的每一条直线进行类型判断,具体步骤如下:
步骤S21,令l表示当前正在判断的线段,令和/>分别表示当前正在判断的线段l的起始点的y坐标和x坐标,令/>和/>分别表示当前正在判断的线段l的结束点的y坐标和x坐标;
步骤S22,如果,则判定当前正在判断的线段l为竖线段,将当前正在判断的线段l加入竖线段集合L v ;如果/>,则判定当前正在判断的线段l为横线段,将当前正在判断的线段l加入横线段集合L h ;
否则,对当前正在判断的线段l采用如下公式计算线段斜率k:
;
步骤S23,如果,则判定当前正在判断的线段l为竖线段,将当前正在判断的线段l加入竖线段集合L v ,否则,判定当前正在判断的线段l为横线段,将当前正在判断的线段l加入横线段集合L h 。
进一步地,步骤S4中对表格上边界线进行检测,具体步骤如下:
步骤S411,顺序遍历横线段集合L h 中的每一条横线段,令l h,i 表示当前遍历的第i条横线段,i=1,2,…,n,n为横线段集合L h 中的表格线的条数;令表示当前遍历的第i条横线段l h,i 的左端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的左端点的y坐标;令表示当前遍历的第i条横线段l h,i 的右端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的右端点的y坐标;
步骤S412,设置上边界线交点变量p s ,上边界线交点变量p s 初始化值为0,设置交点距离阈值t d1;
步骤S413,遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的条数;令表示当前遍历的第j条竖线段l v,j 上端点的y坐标;如果/>,则上边界线交点变量p s 增加1;
步骤S414,当时,判定当前遍历的第i条横线段l h,i 为表格文档图像I的上边界线/>,并结束对横线段集合L h 中余下横线段的遍历;否则,判定当前遍历的第i条横线段l h,i 不为表格文档图像I的边界线。
进一步地,步骤S4中对表格下边界线进行检测,具体步骤如下:
步骤S421,逆序遍历横线段集合L h 中的每一条横线段,令l h,i 表示当前遍历的第i条横线段,i=1,2,…,n,n为横线段集合L h 中的表格线的条数;令表示当前遍历的第i条横线段l h,i 的左端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的左端点的y坐标;令表示当前遍历的第i条横线段l h,i 的右端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的右端点的y坐标;
步骤S422,设置下边界线交点变量为p e ,下边界线交点变量p e 初始化值为0,设置交点距离阈值t d1;
步骤S423,遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;令表示当前遍历的第j条竖线段l v,j 下端点的y坐标,如果/>,则下边界线交点变量p e 增加1;
步骤S424,当时,判定当前遍历的第i条横线段l h,i 为表格文档图像I的下边界线/>,并结束对横线段集合L h 中余下横线段的遍历;否则,判定当前遍历的第i条横线段l h,i 不为表格文档图像I的边界线。
进一步地,步骤S4中对表格左边界线、右边界线/>进行检测,具体步骤如下:
步骤S431,令表示上边界线/>左端点的x坐标、/>表示上边界线/>左端点的y坐标,令/>表示上边界线/>右端点的x坐标、/>表示上边界线/>右端点的y坐标;
令表示下边界线/>左端点的x坐标、/>表示下边界线/>左端点的y坐标,令/>表示下边界线/>右端点的x坐标、/>表示下边界线/>右端点的y坐标;
步骤S432,顺序遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;令表示当前遍历的第j条竖线段l v,j 的上端点的x坐标,令/>表示当前遍历的第j条竖线段l v,j 的下端点的x坐标;
步骤S433,设置端点距离阈值t d2,采用下列公式计算两端点之间的距离:
;
;
其中,d lu 表示上边界线左端点和当前遍历的第j条竖线段l v,j 上端点之间的绝对距离;d dl 表示下边界线/>左端点和当前遍历的第j条竖线段l v,j 下端点之间的绝对距离;
步骤S434,当且/>时,判定当前遍历的第j条竖线段l v,j 为表格文档图像I的左边界线/>,并结束对竖线段集合L v 中余下竖线段的遍历;否则,判定当前遍历的第j条竖线段l v,j 不为表格文档图像I的边界线;
步骤S435,逆序遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;
步骤S436,设置端点距离阈值t d2,采用下列公式计算两端点之间的距离:
;
;
其中,d dr 表示下边界线右端点和当前遍历的第j条竖线段l v,j 下端点之间的绝对距离;d ru 表示上边界线/>右端点和当前遍历的第j条竖线段l v,j 上端点之间的绝对距离;
步骤S437,当且/>时,判定当前遍历的第j条竖线段l v,j 为表格文档图像I的右边界线,并结束对竖线段集合L v 中余下竖线段的遍历;否则,判定当前遍历的第j条竖线段l v,j 不为表格文档图像I的边界线。
进一步地,步骤S6中对起点或终点位于印章区域内的竖线段和横线段进行自动补齐,具体步骤为:
步骤S61,令表示检测到的表格文档图像I的左边界线/>的x坐标,令/>表示检测到的表格文档图像I的右边界线/>的x坐标,令/>表示检测到的表格文档图像I的上边界线/>的y坐标,令/>表示检测到的表格文档图像I的下边界线/>的y坐标;采用以下公式计算表格文档图像I的中心点坐标:
;
其中,表示表格文档图像I中心点的x坐标;/>表示表格文档图像I中心点的y坐标;
步骤S62,遍历印章区域集合S中的每一个印章区域s i ,i=1,2,…,v,v表示印章区域集合S中印章区域的个数;
步骤S63,计算印章区域中心点坐标:令表示印章区域s i 的左边界线的x坐标,令/>表示印章区域s i 的右边界线的x坐标,令/>表示印章区域s i 的上边界线的y坐标,令表示印章区域s i 的下边界线的y坐标;采用以下公式计算印章区域s i 的中心点坐标:
;
其中,表示印章区域s i 中心点的x坐标;/>表示印章区域s i 中心点的y坐标;
步骤S64,采用以下方法对印章区域s i 的方位进行判定:
如果,则判定印章区域s i 位于表格文档图像I的左方位;
如果,则判定印章区域s i 位于表格文档图像I的右方位;
如果,则判定印章区域s i 位于表格文档图像I的上方位;
如果,则判定印章区域s i 位于表格文档图像I的下方位;
其中,每一个印章区域s i 的方位划分为:左上方位、左下方位,右上方位、右下方位;
步骤S65,印章区域最近线获取;从印章区域s i 的上边界线往上找到距印章区域s i 的上边界线最近的一条横线段h n1,令表示横线段h n1的中心点的y坐标;从印章区域s i 的下边界线往下找到距印章区域s i 的下边界线最近的一条横线段h n2,令/>表示横线段h n2的中心点的y坐标;从印章区域s i 的左边界线往左找到距印章区域s i 的左边界线最近的一条竖线段v n1,令/>表示竖线段v n1的中心点的x坐标;从印章区域s i 的右边界线往右找到距印章区域s i 的右边界线最近的一条竖线段v n2,令/>表示竖线段v n2的中心点的x坐标。
进一步地,对印章区域s i 内的竖线段进行自动补齐,具体步骤为:
步骤S661,从竖线段集合L v 中筛选出其中一个端点的x坐标在区域、y坐标在区域/>的所有竖线段,将其加入到待补齐竖线段集合L sv ;对于待补齐竖线段集合L sv 中的当前遍历的第j条竖线段l v,j ,其中/>,z为待补齐竖线段集合L sv 中的表格线的条数,令/>表示当前遍历的第j条竖线段l v,j 的上端点的y坐标,令/>表示当前遍历的第j条竖线段l v,j 的下端点的y坐标;
步骤S662,参考竖线段确定;当印章区域s i 位于表格文档图像I的左方位时,从印章区域s i 的右边界线往右查找x坐标大于印章区域最近左边界线的x坐标的第一条竖线段l v0 ,令其为参考竖线段;当印章区域s i 位于表格文档图像I的右方位时,从印章区域s i 的左边界线往左查找x坐标小于印章区域最近左边界线的x坐标/>的第一条竖线段l v0 ,令其为参考竖线段;令/>表示参考竖线段l v0 的上端点的y坐标,令/>表示参考竖线段l v0 的下端点的y坐标;
步骤S663,当印章区域s i 位于表格文档图像I的上方位时:
从横线段集合L h 中筛选出距离参考竖线段l v0 的上端点最近的横线段l h1 ;
如果,则将当前遍历的第j条竖线段l v,j 沿着向上端点的方向延长至与横线段l h1 相交的位置;
如果,则设置投影框宽度值d1,取以当前遍历的第j条竖线段l v,j 为中心线、投影框宽度值为d1、上边界线的y坐标为/>、下边界线y坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条竖线段l v,j 沿着向上端点的方向延长至与横线段l h1 相交的位置;
步骤S664,当印章区域s i 位于表格文档图像I的下方位时:
从横线段集合L h 中筛选出距离参考竖线段l v0 的下端点最近的横线段l h2 ;
如果,则将当前遍历的第j条竖线段l v,j 沿着向下端点的方向延长至与横线段l h2 相交的位置;
如果,则设置投影框宽度值d1,取以当前遍历的第j条竖线段l v,j 为中心线、宽度为d1、上边界线的y坐标为/>、下边界线y坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条竖线段l v,j 沿着向下端点的方向延长至与横线段l h2 相交的位置。
进一步地,对印章区域s i 内的横线段进行自动补齐,具体步骤为:
步骤S671,从横线段集合L h 中筛选出其中一个端点的x坐标在区域、y坐标在区域/>的所有横线段,将其加入到待补齐横线段集合L sh ;对于待补齐横线段集合L sh 中的每一条当前遍历的第j条横线段l h,j ,其中/>,u为待补齐横线段集合L sh 中的表格线的条数,令/>表示当前遍历的第j条横线段l h,j 的左端点的x坐标,令/>表示当前遍历的第j条横线段l h,j 的右端点的x坐标;
步骤S672,参考横线段确定;当印章区域s i 位于表格文档图像I的上方位时,从印章区域s i 的下边界线往下查找y坐标大于的第一条横线段l h0 ,令其为参考横线段;当印章区域s i 位于表格文档图像I的下方位时,从印章区域s i 的上边界线往上查找y坐标小于的第一条横线段l h0 ,令其为参考横线段;令/>表示参考横线段l h0 的左端点的x坐标,令表示参考横线段l h0 的右端点的x坐标;
步骤S673,当印章区域s i 位于表格文档图像I的右方位时:
从竖线段集合L v 中筛选出距离参考横线段l h0 的右端点最近的竖线段l v1 ;
如果,则将当前遍历的第j条横线段l h,j 沿着向右端点的方向延长至与竖线段l v1 相交的位置;
如果,则设置投影框宽度值d2,取以当前遍历的第j条横线段l h,j 为中心线、宽度为d2、右边界线的x坐标为/>、左边界线x坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条横线段l h,j 沿着向右端点的方向延长至与竖线段l v1 相交的位置;
步骤S674,当印章区域s i 位于表格文档图像I的左方位时:
从竖线段集合L v 中筛选出距离参考横线段l h0 的左端点最近的竖线段l v2 ;
如果,则将当前遍历的第j条横线段l h,j 沿着向左端点的方向延长至与竖线段l v2 相交的位置;
如果,则设置投影框宽度值d2,取以当前遍历的第j条横线段l h,j 为中心线、宽度为d2、右边界线的x坐标为/>、左边界线x坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条横线段l h,j 沿着向左端点的方向延长至与竖线段l v2 相交的位置。
本发明的有益效果是:本发明主要基于表格文档图像内表格线之间的关系,结合表格文档图像中的印章特征,对包含印章的表格文档图像中印章区域内的表格线进行自动检测和补齐。本发明适用于检测并还原包含印章的表格文档图像的表格线,可有效避免印章对表格线检测的不良影响,表格线还原准确,检测速度快。
附图说明
下面结合附图和具体实施方式对本发明作进一步地详细说明。
图1是本发明实施例的方法流程图;
图2是本发明实施例的表格文档图像I;
图3是本发明实施例步骤S1得到的二值化图像I b ;
图4是本发明实施例步骤S6得到的自动补齐后灰度图像I g 。
具体实施方式
下面将结合本发明实施例中的附图,对本发明的具体实施方式作进一步详细说明。需要注意的是,此处根据本发明一种印章区域表格线检测方法的具体实施例仅作为举例,并不用于限定本发明。
本实施例结合一张宽为744、高为702的表格文档图像I,对本发明所提出的一种印章区域表格线检测方法进行说明。如图1算法流程图所示,本发明采用以下步骤检测表格文档图像中印章区域的表格线:
步骤S1;表格文档图像预处理:读取表格文档图像I,如图2所示;将表格文档图像I转换成灰度图像I g ,采用图像二值化算法对灰度图像I g 进行图像二值化操作,得到二值化图像I b ,如图3所示;
上述步骤中的图像二值化算法,是一种常见的用于图像二值化的方法;
步骤S2;表格线类型判断:对二值化图像I b 进行直线检测,得到表格线集合L,对表格线集合L中的每一条直线进行类型判断,其中表格线类型分为竖线段和横线段;
上述步骤中的直线检测算法,是一种常见的用于检测直线段的方法,具有良好的鲁棒性和抗干扰能力;
步骤S3;表格线排序:根据竖线段的x坐标,按照从小到大的顺序,对竖线段集合L v 中的每一条竖线段进行排序;根据横线段的y坐标,按照从小到大的顺序,对横线段集合L h 中的每一条横线段进行排序;
步骤S4;表格文档图像边界线检测:根据已排序的竖线段集合L v 和横线段集合L h ,对表格上边界线、下边界线/>、左边界线/>、右边界线/>进行检测;
步骤S5;印章区域检测:采用印章检测算法对表格文档图像I中的印章区域进行检测,将检测到的印章区域加入印章区域集合S;
上述步骤中的印章检测算法,是一种常见的用于检测图像中印章的方法;
步骤S6;印章区域内线段自动补齐:对起点或终点位于印章区域内的线段进行自动补齐,补齐后灰度图像I g 如图4所示。
进一步地,上述步骤S2中对表格线集合L中的线段进行类型判断,具体步骤如下:
步骤S21;令l表示当前正在判断的线段,令和/>分别表示当前正在判断的线段l的起始点的y坐标和x坐标,令/>和/>分别表示当前正在判断的线段l的结束点的y坐标和x坐标;
步骤S22;如果,则判定当前正在判断的线段l为竖线段,将当前正在判断的线段l加入竖线段集合L v ;如果/>,则判定当前正在判断的线段l为横线段,将当前正在判断的线段l加入横线段集合L h ;
否则,对当前正在判断的线段l采用如下公式计算线段斜率k:
;
步骤S23;如果,则判定当前正在判断的线段l为竖线段,将当前正在判断的线段l加入竖线段集合L v ,否则,判定当前正在判断的线段l为横线段,将当前正在判断的线段l加入横线段集合L h 。
进一步地,上述步骤S4中对表格的上边界线进行检测,具体步骤如下:
步骤S411;顺序遍历横线段集合L h 中的每一条横线段,令l h,i 表示当前遍历的第i条横线段,i=1,2,…,n,n为横线段集合L h 中的表格线的条数;令表示当前遍历的第i条横线段l h,i 的左端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的左端点的y坐标;令表示当前遍历的第i条横线段l h,i 的右端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的右端点的y坐标;
步骤S412;设置上边界线交点变量p s ,上边界线交点变量p s 初始化值为0,设置交点距离阈值t d1=5;
步骤S413;遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的条数;令表示当前遍历的第j条竖线段l v,j 上端点的y坐标;如果/>,则上边界线交点变量p s 增加1;
步骤S414;当时,判定当前遍历的第i条横线段l h,i 为表格文档图像I的上边界线/>,并结束对横线段集合L h 中余下横线段的遍历;否则,判定当前遍历的第i条横线段l h,i 不为表格文档图像I的边界线。
进一步地,上述步骤S4中对表格的下边界线进行检测,具体步骤如下:
步骤S421;逆序遍历横线段集合L h 中的每一条横线段,令l h,i 表示当前遍历的第i条横线段,i=1,2,…,n,n为横线段集合L h 中的表格线的条数;令表示当前遍历的第i条横线段l h,i 的左端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的左端点的y坐标;令表示当前遍历的第i条横线段l h,i 的右端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的右端点的y坐标;
步骤S422;设置下边界线交点变量为p e ,下边界线交点变量p e 初始化值为0,设置交点距离阈值t d1=5;
步骤S423;遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;令表示当前遍历的第j条竖线段l v,j 下端点的y坐标,如果/>,则下边界线交点变量p e 增加1;
步骤S424;当时,判定当前遍历的第i条横线段l h,i 为表格文档图像I的下边界线/>,并结束对横线段集合L h 中余下横线段的遍历;否则,判定当前遍历的第i条横线段l h,i 不为表格文档图像I的边界线。
进一步地,上述步骤S4中对表格的左边界线、右边界线/>进行检测,具体步骤如下:
步骤S431;令表示上边界线/>左端点的x坐标、/>表示上边界线/>左端点的y坐标,令/>表示上边界线/>右端点的x坐标、/>表示上边界线/>右端点的y坐标;
令表示下边界线/>左端点的x坐标、/>表示下边界线/>左端点的y坐标,令/>表示下边界线/>右端点的x坐标、/>表示下边界线/>右端点的y坐标;
步骤S432;顺序遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;令表示当前遍历的第j条竖线段l v,j 的上端点的x坐标,令/>表示当前遍历的第j条竖线段l v,j 的下端点的x坐标;
步骤S433;设置端点距离阈值t d2=5,采用下列公式计算两端点之间的距离:
;
;
其中,d lu 表示上边界线左端点和当前遍历的第j条竖线段l v,j 上端点之间的绝对距离;d dl 表示下边界线/>左端点和当前遍历的第j条竖线段l v,j 下端点之间的绝对距离;
步骤S434;当且/>时,判定当前遍历的第j条竖线段l v,j 为表格文档图像I的左边界线/>,并结束对竖线段集合L v 中余下竖线段的遍历;否则,判定当前遍历的第j条竖线段l v,j 不为表格文档图像I的边界线;
步骤S435;逆序遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;
步骤S436; 设置端点距离阈值t d2=5,采用下列公式计算两端点之间的距离:
;
;
其中,d dr 表示下边界线右端点和当前遍历的第j条竖线段l v,j 下端点之间的绝对距离;d ru 表示上边界线/>右端点和当前遍历的第j条竖线段l v,j 上端点之间的绝对距离;
步骤S437;当且/>时,判定当前遍历的第j条竖线段l v,j 为表格文档图像I的右边界线,并结束对竖线段集合L v 中余下竖线段的遍历;否则,判定当前遍历的第j条竖线段l v,j 不为表格文档图像I的边界线。
进一步地,上述步骤S6中对起点或终点位于印章区域内的竖线段和横线段进行自动补齐,具体步骤为:
步骤S61;令表示检测到的表格文档图像I的左边界线/>的x坐标,令/>表示检测到的表格文档图像I的右边界线/>的x坐标,令/>表示检测到的表格文档图像I的上边界线/>的y坐标,令/>表示检测到的表格文档图像I的下边界线/>的y坐标;采用以下公式计算表格文档图像I的中心点坐标:
;
其中,表示表格文档图像I中心点的x坐标;/>表示表格文档图像I中心点的y坐标;
步骤S62;遍历印章区域集合S中的每一个印章区域s i ,i=1,2,…,v,v表示印章区域集合S中印章区域的个数;
步骤S63;计算印章区域中心点坐标:令表示印章区域s i 的左边界线的x坐标,令/>表示印章区域s i 的右边界线的x坐标,令/>表示印章区域s i 的上边界线的y坐标,令表示印章区域s i 的下边界线的y坐标;采用以下公式计算印章区域s i 的中心点坐标:
;
其中,表示印章区域s i 中心点的x坐标;/>表示印章区域s i 中心点的y坐标;
步骤S64;采用以下方法对印章区域s i 的方位进行判定:
如果,则判定印章区域s i 位于表格文档图像I的左方位;
如果,则判定印章区域s i 位于表格文档图像I的右方位;
如果,则判定印章区域s i 位于表格文档图像I的上方位;/>
如果,则判定印章区域s i 位于表格文档图像I的下方位;
其中,每一个印章区域s i 的方位划分为:左上方位、左下方位,右上方位、右下方位;
步骤S65;印章区域最近线获取;从印章区域s i 的上边界线往上找到距印章区域s i 的上边界线最近的一条横线段h n1,令表示横线段h n1的中心点的y坐标;从印章区域s i 的下边界线往下找到距印章区域s i 的下边界线最近的一条横线段h n2,令/>表示横线段h n2的中心点的y坐标;从印章区域s i 的左边界线往左找到距印章区域s i 的左边界线最近的一条竖线段v n1,令/>表示竖线段v n1的中心点的x坐标;从印章区域s i 的右边界线往右找到距印章区域s i 的右边界线最近的一条竖线段v n2,令/>表示竖线段v n2的中心点的x坐标。
进一步地,对印章区域s i 内的竖线段进行自动补齐,具体步骤为;
步骤S661;从竖线段集合L v 中筛选出其中一个端点的x坐标在区域、y坐标在区域/>的所有竖线段,将其加入到待补齐竖线段集合L sv ;对于待补齐竖线段集合L sv 中的当前遍历的第j条竖线段l v,j ,其中/>,z为待补齐竖线段集合L sv 中的表格线的条数,令/>表示当前遍历的第j条竖线段l v,j 的上端点的y坐标,令/>表示当前遍历的第j条竖线段l v,j 的下端点的y坐标;
步骤S662;参考竖线段确定;当印章区域s i 位于表格文档图像I的左方位时,从印章区域s i 的右边界线往右查找x坐标大于印章区域最近左边界线的x坐标的第一条竖线段l v0 ,令其为参考竖线段;当印章区域s i 位于表格文档图像I的右方位时,从印章区域s i 的左边界线往左查找x坐标小于印章区域最近左边界线的x坐标/>的第一条竖线段l v0 ,令其为参考竖线段;令/>表示参考竖线段l v0 的上端点的y坐标,令/>表示参考竖线段l v0 的下端点的y坐标;
步骤S663;当印章区域s i 位于表格文档图像I的上方位时:
从横线段集合L h 中筛选出距离参考竖线段l v0 的上端点最近的横线段l h1 ;
如果,则将当前遍历的第j条竖线段l v,j 沿着向上端点的方向延长至与横线段l h1 相交的位置;
如果,则设置投影框宽度值d1=5,取以当前遍历的第j条竖线段l v,j 为中心线、投影框宽度值为d1、上边界线的y坐标为/>、下边界线y坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p =0.14,如果/>,则将当前遍历的第j条竖线段l v,j 沿着向上端点的方向延长至与横线段l h1 相交的位置;
步骤S664;当印章区域s i 位于表格文档图像I的下方位时:
从横线段集合L h 中筛选出距离参考竖线段l v0 的下端点最近的横线段l h2 ;
如果,则将当前遍历的第j条竖线段l v,j 沿着向下端点的方向延长至与横线段l h2 相交的位置;
如果,则设置投影框宽度值d1=5,取以当前遍历的第j条竖线段l v,j 为中心线、宽度为d1、上边界线的y坐标为/>、下边界线y坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p =0.14,如果/>,则将当前遍历的第j条竖线段l v,j 沿着向下端点的方向延长至与横线段l h2 相交的位置。
进一步地,对印章区域s i 内的横线段进行自动补齐,具体步骤为;
步骤S671;从横线段集合L h 中筛选出其中一个端点的x坐标在区域、y坐标在区域/>的所有横线段,将其加入到待补齐横线段集合L sh ;对于待补齐横线段集合L sh 中的每一条当前遍历的第j条横线段l h,j ,其中/>,u为待补齐横线段集合L sh 中的表格线的条数,令/>表示当前遍历的第j条横线段l h,j 的左端点的x坐标,令/>表示当前遍历的第j条横线段l h,j 的右端点的x坐标;
步骤S6672;参考横线段确定;当印章区域s i 位于表格文档图像I的上方位时,从印章区域s i 的下边界线往下查找y坐标大于的第一条横线段l h0 ,令其为参考横线段;当印章区域s i 位于表格文档图像I的下方位时,从印章区域s i 的上边界线往上查找y坐标小于的第一条横线段l h0 ,令其为参考横线段;令/>表示参考横线段l h0 的左端点的x坐标,令表示参考横线段l h0 的右端点的x坐标;
步骤S6673;当印章区域s i 位于表格文档图像I的右方位时:
从竖线段集合L v 中筛选出距离参考横线段l h0 的右端点最近的竖线段l v1 ;
如果,则将当前遍历的第j条横线段l h,j 沿着向右端点的方向延长至与竖线段l v1 相交的位置;
如果,则设置投影框宽度值d2=5,取以当前遍历的第j条横线段l h,j 为中心线、宽度为d2、右边界线的x坐标为/>、左边界线x坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p =0.14,如果/>,则将当前遍历的第j条横线段l h,j 沿着向右端点的方向延长至与竖线段l v1 相交的位置;
步骤S674;当印章区域s i 位于表格文档图像I的左方位时:
从竖线段集合L v 中筛选出距离参考横线段l h0 的左端点最近的竖线段l v2 ;
如果,则将当前遍历的第j条横线段l h,j 沿着向左端点的方向延长至与竖线段l v2 相交的位置;
如果,则设置投影框宽度值d2=5,取以当前遍历的第j条横线段l h,j 为中心线、宽度为d2、右边界线的x坐标为/>、左边界线x坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p =0.14,如果/>,则将当前遍历的第j条横线段l h,j 沿着向左端点的方向延长至与竖线段l v2 相交的位置。
以上所述为本发明的较佳实施例,并不用以限制本发明,凡不脱离本发明所公开的精神下完成的等效或修改,均应包含在本发明保护的范围之内。
Claims (8)
1.一种印章区域表格线检测方法,其特征在于:该方法包括以下步骤:
步骤S1;表格文档图像预处理:读取表格文档图像I,将表格文档图像I转换成灰度图像I g ,采用图像二值化算法对灰度图像I g 进行图像二值化操作,得到二值化图像I b ;
步骤S2;表格线类型判断:对二值化图像I b 进行直线检测,得到表格线集合L,对表格线集合L中的每一条直线进行类型判断,其中表格线类型分为竖线段和横线段;
步骤S3;表格线排序:根据竖线段的x坐标,按照从小到大的顺序,对竖线段集合L v 中的每一条竖线段进行排序;根据横线段的y坐标,按照从小到大的顺序,对横线段集合L h 中的每一条横线段进行排序;
步骤S4;表格文档图像边界线检测:根据已排序的竖线段集合L v 和横线段集合L h ,对表格上边界线、下边界线/>、左边界线/>、右边界线/>进行检测;
步骤S5;印章区域检测:采用印章检测算法对表格文档图像I中的印章区域进行检测,将检测到的印章区域加入印章区域集合S;
步骤S6;印章区域内线段自动补齐:对起点或终点位于印章区域内的线段进行自动补齐。
2.根据权利要求1所述的一种印章区域表格线检测方法,其特征在于:步骤S2中对表格线集合L中的每一条直线进行类型判断,具体步骤如下:
步骤S21,令l表示当前正在判断的线段,令和/>分别表示当前正在判断的线段l的起始点的y坐标和x坐标,令/>和/>分别表示当前正在判断的线段l的结束点的y坐标和x坐标;
步骤S22,如果,则判定当前正在判断的线段l为竖线段,将当前正在判断的线段l加入竖线段集合L v ;如果/>,则判定当前正在判断的线段l为横线段,将当前正在判断的线段l加入横线段集合L h ;
否则,对当前正在判断的线段l采用如下公式计算线段斜率k:
;
步骤S23,如果,则判定当前正在判断的线段l为竖线段,将当前正在判断的线段l加入竖线段集合L v ,否则,判定当前正在判断的线段l为横线段,将当前正在判断的线段l加入横线段集合L h 。
3.根据权利要求2所述的一种印章区域表格线检测方法,其特征在于:步骤S4中对表格上边界线进行检测,具体步骤如下:
步骤S411,顺序遍历横线段集合L h 中的每一条横线段,令l h,i 表示当前遍历的第i条横线段,i=1,2,…,n,n为横线段集合L h 中的表格线的条数;令表示当前遍历的第i条横线段l h,i 的左端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的左端点的y坐标;令/>表示当前遍历的第i条横线段l h,i 的右端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的右端点的y坐标;
步骤S412,设置上边界线交点变量p s ,上边界线交点变量p s 初始化值为0,设置交点距离阈值t d1;
步骤S413,遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的条数;令表示当前遍历的第j条竖线段l v,j 上端点的y坐标;如果/>,则上边界线交点变量p s 增加1;
步骤S414,当时,判定当前遍历的第i条横线段l h,i 为表格文档图像I的上边界线,并结束对横线段集合L h 中余下横线段的遍历;否则,判定当前遍历的第i条横线段l h,i 不为表格文档图像I的边界线。
4.根据权利要求3所述的一种印章区域表格线检测方法,其特征在于:步骤S4中对表格下边界线进行检测,具体步骤如下:
步骤S421,逆序遍历横线段集合L h 中的每一条横线段,令l h,i 表示当前遍历的第i条横线段,i=1,2,…,n,n为横线段集合L h 中的表格线的条数;令表示当前遍历的第i条横线段l h,i 的左端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的左端点的y坐标;令/>表示当前遍历的第i条横线段l h,i 的右端点的x坐标,令/>表示当前遍历的第i条横线段l h,i 的右端点的y坐标;
步骤S422,设置下边界线交点变量为p e ,下边界线交点变量p e 初始化值为0,设置交点距离阈值t d1;
步骤S423,遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;令表示当前遍历的第j条竖线段l v,j 下端点的y坐标,如果/>,则下边界线交点变量p e 增加1;
步骤S424,当时,判定当前遍历的第i条横线段l h,i 为表格文档图像I的下边界线,并结束对横线段集合L h 中余下横线段的遍历;否则,判定当前遍历的第i条横线段l h,i 不为表格文档图像I的边界线。
5.根据权利要求4所述的一种印章区域表格线检测方法,其特征在于:步骤S4中对表格左边界线、右边界线/>进行检测,具体步骤如下:
步骤S431,令表示上边界线/>左端点的x坐标、/>表示上边界线/>左端点的y坐标,令/>表示上边界线/>右端点的x坐标、/>表示上边界线/>右端点的y坐标;
令表示下边界线/>左端点的x坐标、/>表示下边界线/>左端点的y坐标,令/>表示下边界线/>右端点的x坐标、/>表示下边界线/>右端点的y坐标;
步骤S432,顺序遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;令表示当前遍历的第j条竖线段l v,j 的上端点的x坐标,令/>表示当前遍历的第j条竖线段l v,j 的下端点的x坐标;
步骤S433,设置端点距离阈值t d2,采用下列公式计算两端点之间的距离:
;
;
其中,d lu 表示上边界线左端点和当前遍历的第j条竖线段l v,j 上端点之间的绝对距离;d dl 表示下边界线/>左端点和当前遍历的第j条竖线段l v,j 下端点之间的绝对距离;
步骤S434,当且/>时,判定当前遍历的第j条竖线段l v,j 为表格文档图像I的左边界线,并结束对竖线段集合L v 中余下竖线段的遍历;否则,判定当前遍历的第j条竖线段l v,j 不为表格文档图像I的边界线;
步骤S435,逆序遍历竖线段集合L v 中的每一条竖线段,令l v,j 表示当前遍历的第j条竖线段,j=1,2,…,m,m为竖线段集合L v 中的竖线段的条数;
步骤S436,设置端点距离阈值t d2,采用下列公式计算两端点之间的距离:
;
;
其中,d dr 表示下边界线右端点和当前遍历的第j条竖线段l v,j 下端点之间的绝对距离;d ru 表示上边界线/>右端点和当前遍历的第j条竖线段l v,j 上端点之间的绝对距离;
步骤S437,当且/>时,判定当前遍历的第j条竖线段l v,j 为表格文档图像I的右边界线,并结束对竖线段集合L v 中余下竖线段的遍历;否则,判定当前遍历的第j条竖线段l v,j 不为表格文档图像I的边界线。
6.根据权利要求5所述的一种印章区域表格线检测方法,其特征在于:步骤S6中对起点或终点位于印章区域内的竖线段和横线段进行自动补齐,具体步骤为:
步骤S61,令表示检测到的表格文档图像I的左边界线/>的x坐标,令/>表示检测到的表格文档图像I的右边界线/>的x坐标,令/>表示检测到的表格文档图像I的上边界线/>的y坐标,令/>表示检测到的表格文档图像I的下边界线/>的y坐标;采用以下公式计算表格文档图像I的中心点坐标:
;
其中,表示表格文档图像I中心点的x坐标;/>表示表格文档图像I中心点的y坐标;
步骤S62,遍历印章区域集合S中的每一个印章区域s i ,i=1,2,…,v,v表示印章区域集合S中印章区域的个数;
步骤S63,计算印章区域中心点坐标:令表示印章区域s i 的左边界线的x坐标,令表示印章区域s i 的右边界线的x坐标,令/>表示印章区域s i 的上边界线的y坐标,令表示印章区域s i 的下边界线的y坐标;采用以下公式计算印章区域s i 的中心点坐标:
;
其中,表示印章区域s i 中心点的x坐标;/>表示印章区域s i 中心点的y坐标;
步骤S64,采用以下方法对印章区域s i 的方位进行判定:
如果,则判定印章区域s i 位于表格文档图像I的左方位;
如果,则判定印章区域s i 位于表格文档图像I的右方位;
如果,则判定印章区域s i 位于表格文档图像I的上方位;
如果,则判定印章区域s i 位于表格文档图像I的下方位;
其中,每一个印章区域s i 的方位划分为:左上方位、左下方位,右上方位、右下方位;
步骤S65,印章区域最近线获取;从印章区域s i 的上边界线往上找到距印章区域s i 的上边界线最近的一条横线段h n1,令表示横线段h n1的中心点的y坐标;从印章区域s i 的下边界线往下找到距印章区域s i 的下边界线最近的一条横线段h n2,令/>表示横线段h n2的中心点的y坐标;从印章区域s i 的左边界线往左找到距印章区域s i 的左边界线最近的一条竖线段v n1,令/>表示竖线段v n1的中心点的x坐标;从印章区域s i 的右边界线往右找到距印章区域s i 的右边界线最近的一条竖线段v n2,令/>表示竖线段v n2的中心点的x坐标。
7.根据权利要求6所述的一种印章区域表格线检测方法,其特征在于:对印章区域s i 内的竖线段进行自动补齐,具体步骤为:
步骤S661,从竖线段集合L v 中筛选出其中一个端点的x坐标在区域、y坐标在区域/>的所有竖线段,将其加入到待补齐竖线段集合L sv ;对于待补齐竖线段集合L sv 中的当前遍历的第j条竖线段l v,j ,其中/>,z为待补齐竖线段集合L sv 中的表格线的条数,令/>表示当前遍历的第j条竖线段l v,j 的上端点的y坐标,令/>表示当前遍历的第j条竖线段l v,j 的下端点的y坐标;
步骤S662,参考竖线段确定;当印章区域s i 位于表格文档图像I的左方位时,从印章区域s i 的右边界线往右查找x坐标大于印章区域最近左边界线的x坐标的第一条竖线段l v0 ,令其为参考竖线段;当印章区域s i 位于表格文档图像I的右方位时,从印章区域s i 的左边界线往左查找x坐标小于印章区域最近左边界线的x坐标/>的第一条竖线段l v0 ,令其为参考竖线段;令/>表示参考竖线段l v0 的上端点的y坐标,令/>表示参考竖线段l v0 的下端点的y坐标;
步骤S663,当印章区域s i 位于表格文档图像I的上方位时:
从横线段集合L h 中筛选出距离参考竖线段l v0 的上端点最近的横线段l h1 ;
如果,则将当前遍历的第j条竖线段l v,j 沿着向上端点的方向延长至与横线段l h1 相交的位置;
如果,则设置投影框宽度值d1,取以当前遍历的第j条竖线段l v,j 为中心线、投影框宽度值为d1、上边界线的y坐标为/>、下边界线y坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条竖线段l v,j 沿着向上端点的方向延长至与横线段l h1 相交的位置;
步骤S664,当印章区域s i 位于表格文档图像I的下方位时:
从横线段集合L h 中筛选出距离参考竖线段l v0 的下端点最近的横线段l h2 ;
如果,则将当前遍历的第j条竖线段l v,j 沿着向下端点的方向延长至与横线段l h2 相交的位置;
如果,则设置投影框宽度值d1,取以当前遍历的第j条竖线段l v,j 为中心线、宽度为d1、上边界线的y坐标为/>、下边界线y坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条竖线段l v,j 沿着向下端点的方向延长至与横线段l h2 相交的位置。
8.根据权利要求7所述的一种印章区域表格线检测方法,其特征在于:对印章区域s i 内的横线段进行自动补齐,具体步骤为:
步骤S671,从横线段集合L h 中筛选出其中一个端点的x坐标在区域、y坐标在区域/>的所有横线段,将其加入到待补齐横线段集合L sh ;对于待补齐横线段集合L sh 中的每一条当前遍历的第j条横线段l h,j ,其中/>,u为待补齐横线段集合L sh 中的表格线的条数,令/>表示当前遍历的第j条横线段l h,j 的左端点的x坐标,令/>表示当前遍历的第j条横线段l h,j 的右端点的x坐标;
步骤S672,参考横线段确定;当印章区域s i 位于表格文档图像I的上方位时,从印章区域s i 的下边界线往下查找y坐标大于的第一条横线段l h0 ,令其为参考横线段;当印章区域s i 位于表格文档图像I的下方位时,从印章区域s i 的上边界线往上查找y坐标小于/>的第一条横线段l h0 ,令其为参考横线段;令/>表示参考横线段l h0 的左端点的x坐标,令/>表示参考横线段l h0 的右端点的x坐标;
步骤S673,当印章区域s i 位于表格文档图像I的右方位时:
从竖线段集合L v 中筛选出距离参考横线段l h0 的右端点最近的竖线段l v1 ;
如果,则将当前遍历的第j条横线段l h,j 沿着向右端点的方向延长至与竖线段l v1 相交的位置;
如果,则设置投影框宽度值d2,取以当前遍历的第j条横线段l h,j 为中心线、宽度为d2、右边界线的x坐标为/>、左边界线x坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条横线段l h,j 沿着向右端点的方向延长至与竖线段l v1 相交的位置;
步骤S674,当印章区域s i 位于表格文档图像I的左方位时:
从竖线段集合L v 中筛选出距离参考横线段l h0 的左端点最近的竖线段l v2 ;
如果,则将当前遍历的第j条横线段l h,j 沿着向左端点的方向延长至与竖线段l v2 相交的位置;
如果,则设置投影框宽度值d2,取以当前遍历的第j条横线段l h,j 为中心线、宽度为d2、右边界线的x坐标为/>、左边界线x坐标为/>的矩形框,对矩形框进行水平方向投影;令投影得到的一维数组中非零元素个数和占矩形框中所有元素个数比例为p z ,给定比例阈值t p ,如果/>,则将当前遍历的第j条横线段l h,j 沿着向左端点的方向延长至与竖线段l v2 相交的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410012916.2A CN117523592B (zh) | 2024-01-04 | 2024-01-04 | 一种印章区域表格线检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410012916.2A CN117523592B (zh) | 2024-01-04 | 2024-01-04 | 一种印章区域表格线检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117523592A true CN117523592A (zh) | 2024-02-06 |
CN117523592B CN117523592B (zh) | 2024-04-02 |
Family
ID=89745988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410012916.2A Active CN117523592B (zh) | 2024-01-04 | 2024-01-04 | 一种印章区域表格线检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117523592B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09188053A (ja) * | 1996-01-05 | 1997-07-22 | King Jim Co Ltd | 文字情報処理方法及び装置 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN113139445A (zh) * | 2021-04-08 | 2021-07-20 | 招商银行股份有限公司 | 表格识别方法、设备及计算机可读存储介质 |
CN113688688A (zh) * | 2021-07-28 | 2021-11-23 | 达观数据(苏州)有限公司 | 图片中表格线条的补全方法与图片中表格的识别方法 |
CN114239508A (zh) * | 2021-12-20 | 2022-03-25 | 北京金山办公软件股份有限公司 | 表格还原方法和装置、存储介质及电子设备 |
CN115063817A (zh) * | 2022-05-12 | 2022-09-16 | 吉林省吉林祥云信息技术有限公司 | 一种基于形态学检测的表格识别方法、系统以及储存介质 |
-
2024
- 2024-01-04 CN CN202410012916.2A patent/CN117523592B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09188053A (ja) * | 1996-01-05 | 1997-07-22 | King Jim Co Ltd | 文字情報処理方法及び装置 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN113139445A (zh) * | 2021-04-08 | 2021-07-20 | 招商银行股份有限公司 | 表格识别方法、设备及计算机可读存储介质 |
CN113688688A (zh) * | 2021-07-28 | 2021-11-23 | 达观数据(苏州)有限公司 | 图片中表格线条的补全方法与图片中表格的识别方法 |
CN114239508A (zh) * | 2021-12-20 | 2022-03-25 | 北京金山办公软件股份有限公司 | 表格还原方法和装置、存储介质及电子设备 |
CN115063817A (zh) * | 2022-05-12 | 2022-09-16 | 吉林省吉林祥云信息技术有限公司 | 一种基于形态学检测的表格识别方法、系统以及储存介质 |
Non-Patent Citations (3)
Title |
---|
LINGJUN KONG: "A Gradient heatmap based Table Structure Recognition", 《ICMLC ’21》, 21 June 2021 (2021-06-21) * |
张云锦: "文档图像表格提取算法研究", 《中国优秀硕士学位论文全文数据库》, 15 April 2022 (2022-04-15) * |
武双艺: "发票火车票结构化识别方法研究", 《中国优秀硕士学位论文全文数据库》, 15 March 2022 (2022-03-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117912039A (zh) * | 2024-03-20 | 2024-04-19 | 南昌航空大学 | 一种文档图像版面分析方法 |
CN117912039B (zh) * | 2024-03-20 | 2024-05-24 | 南昌航空大学 | 一种文档图像版面分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117523592B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117523592B (zh) | 一种印章区域表格线检测方法 | |
CN106960208B (zh) | 一种仪表液晶数字自动切分和识别的方法及系统 | |
CN107045634B (zh) | 一种基于最大稳定极值区域与笔画宽度的文本定位方法 | |
US5594815A (en) | OCR image preprocessing method for image enhancement of scanned documents | |
JP3348167B2 (ja) | 画像2値化装置 | |
JP3950777B2 (ja) | 画像処理方法、画像処理装置および画像処理プログラム | |
CN111881659B (zh) | 表格图片的处理方法、系统、可读存储介质及计算机设备 | |
JP4371911B2 (ja) | 関数化処理方法及び関数化処理装置 | |
CN112669301B (zh) | 一种高铁底板脱漆故障检测方法 | |
CN115661848A (zh) | 一种基于深度学习的表格提取和识别方法及系统 | |
CN110135407B (zh) | 样本标注方法及计算机存储介质 | |
JP3411472B2 (ja) | パターン抽出装置 | |
CN115620322A (zh) | 一种基于关键点检测的全线表表格结构识别方法 | |
CN116311259A (zh) | 一种pdf业务文档的信息抽取方法 | |
CN110321887B (zh) | 文档图像处理方法、文档图像处理装置及存储介质 | |
CN111611783B (zh) | 一种图形表格的定位分割方法及装置 | |
CN111583156B (zh) | 文档图像底纹去除方法及系统 | |
CN113362361B (zh) | 形态学先验约束的甲骨文字检测的图像数据集构建方法 | |
CN112017199B (zh) | 一种楼层边界检测方法、装置、设备及存储介质 | |
CN115187744A (zh) | 一种基于激光点云的机柜识别方法 | |
CN113837119A (zh) | 一种基于灰度图像识别易混淆字符的方法及设备 | |
CN110570437B (zh) | 一种基于边界识别的电力通道自动化巡检数据处理方法 | |
JP4244692B2 (ja) | 文字認識装置及び文字認識プログラム | |
JP2009193170A (ja) | 文字認識装置及び文字認識方法 | |
CN113158999B (zh) | 基于模板匹配的电气设计图纸中端子跳线识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |