CN109800625A - 一种基于区域生长的表格框线检测方法 - Google Patents

一种基于区域生长的表格框线检测方法 Download PDF

Info

Publication number
CN109800625A
CN109800625A CN201811428101.3A CN201811428101A CN109800625A CN 109800625 A CN109800625 A CN 109800625A CN 201811428101 A CN201811428101 A CN 201811428101A CN 109800625 A CN109800625 A CN 109800625A
Authority
CN
China
Prior art keywords
image
straight line
carried out
processing
region growing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811428101.3A
Other languages
English (en)
Inventor
周康明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eye Control Technology Co Ltd
Original Assignee
Shanghai Eye Control Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eye Control Technology Co Ltd filed Critical Shanghai Eye Control Technology Co Ltd
Priority to CN201811428101.3A priority Critical patent/CN109800625A/zh
Publication of CN109800625A publication Critical patent/CN109800625A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于区域生长的表格框线检测方法,包括:从服务器下载表格图片;对所述表格图片进行图像倾斜校正处理;对所述表格图片进行图像预处理;对所述表格图片进行自适应二值化处理;在所述表格图片的二值化处理图上面,确定直线的起始游程段;对每一段游程段按照一定的规则区域生长出整个直线的方向;对所述表格图片进行后期处理,包括直线的连接和筛选。本发明能够对表格外框进行有效检测,并能够对表格单据褶皱、不清晰等干扰保持较好的鲁棒性。

Description

一种基于区域生长的表格框线检测方法
技术领域
本发明涉及表格单据电子化技术领域,特别涉及一种基于区域生长的表格框线检测方法。
背景技术
当前,表格单据的数据分析基本上还是基于人工阅读审核的方式,效率低,无法实现审批自动化。银行的信审部分,传统的人工审核方式已经严重阻碍了银行信审的效率和业务开展。其实,信审的依据是表格单据上的核心数据,只要提高表格单据数据的采集工作,银行信审的效率就会大幅提高,表格单据电子化帮助银行、税务、审计等提高效率,构建自动化的信审系统。如何准确、快速地对表格单据报表电子化,同时避免人工核对成本高,易疲劳,易疏忽等弊端,是急需解决的技术问题。
然而,现有的表格自动技术,在表格的自动识别过程中,检测表格框线及其重要,检测结果直接关乎计算机对表格的正确识别。但是在实际操作过程中表格图片质量差,表格框线出现断裂、倾斜和模糊等情况,极大的干扰了表格框线的检测。
发明内容
针对上述现有技术中存在的问题,本发明的目的是:提出一种基于区域生长的表格框线检测方法,其能够对表格外框进行有效检测,并能够对表格单据褶皱、不清晰等干扰保持较好的鲁棒性。
本发明解决其技术问题所采用的技术方案是:
一种基于区域生长的表格框线检测方法,包括:
S1、从服务器下载表格图片;
S2、对所述表格图片进行图像倾斜校正处理;
S3、对所述表格图片进行图像预处理;
S4、对所述表格图片进行自适应二值化处理;
S5、在所述表格图片的二值化处理图上面,确定直线的起始游程段;
S6、对每一段游程段按照一定的规则区域生长出整个直线的方向;
S7、对所述表格图片进行后期处理,包括直线的连接和筛选。
进一步,所述图像倾斜校正处理的步骤如下:
S2-1、为减少查找直线的计算量,运用canny边缘检测算法对所述表格图片进行边缘检测,获得边缘检测图;
S2-2、运用hough变换在边缘检测图上检测直线;
S2-3、筛选符合条件的直线,并记录其倾斜角度;
S2-4、采用投票机制确定票数最多的倾斜角度为图像的倾斜角度;
S2-5、利用仿射变换对图像旋转。
进一步,所述图像预处理的步骤如下:
S3-1、对图像进行图像灰度化处理;
S3-2、对图像进行基于伽马变换的图像增强处理;
S3-3、在获得横线之前,用水平核函数对图像进行高斯滤波,增强图像水平方向上关联性。
进一步,所述自适应二值化处理的步骤如下:
S4-1、采用图像膨胀腐蚀操作的方法查找轮廓,并获得轮廓图;
S4-2、采用投票思想,将获得最多的轮廓矩形高度设定为表格内容字符的高度;
S4-3、根据字符高度自适应设置adaptiveThreshold函数里面参数blocksize。
进一步,所述确定直线的起始游程段的步骤如下:
S5-1:在二值图上面纵向检测每一个前景点;
S5-2:判断连续纵向前景点个数,若个数过多则表明不是横线直线的起始游程段,过少则是噪音点。
进一步,所述后期处理的具体步骤如下:
S7-1:连接坐标相近的直线簇;
S7-2:过滤过短的直线簇。
本发明的有益效果是:本发明实现了财务报表外框智能检测,是财务单据表报表电子化的前提。实现各类财务报表、单据等纸质扫描文件的快速识别和结构化入库,帮助行业客户解决大量的纸质单据录入的问题,节省人力成本,提高企业效率。
附图说明
图1是本发明的流程图。
具体实施方式
本发明主要是基于图像倾斜校正、图像预处理、自适应二值化处理和基于区域生成的直线查找等处理方法来进行的。
针对从服务器下载下来的一张财务报表图片,具体的讲:
首先,需对获得的财务报表图片进行图像倾斜校正处理,方法如下:
S2-1、为减少查找直线的计算量,运用canny边缘检测算法对财务报表图片进行边缘检测,获得边缘检测图;
S2-2、运用hough变换在边缘检测图上检测直线;
S2-3、筛选符合条件的直线,并记录其倾斜角度;
S2-4、采用投票机制确定票数最多的倾斜角度为图像的倾斜角度;
S2-5、利用仿射变换对图像旋转。
其中,Canny边缘检测算法是John F.Canny于1986年开发出来的一个多级边缘检测算法,其目标是找到一个最优的边缘检测算法。
Canny边缘检测算法可以分为以下5个步骤:
1、应用高斯滤波来平滑图像,目的是去除噪声;
2、找寻图像的强度梯度(intensity gradients);
3、应用非最大抑制(non-maximum suppression)技术来消除边误检(本来不是但检测出来是);
4、应用双阈值的方法来决定可能的(潜在的)边界;
5、利用滞后技术来跟踪边界。
Hough变换是一种使用表决原理的参数估计技术。其原理是利用图像空间和Hough参数空间的点-线对偶性,把图像空间中的检测问题转换到参数空间。
其次,对校正后的财务报表图片进行图像预处理,具体步骤如下:
S3-1、对图像进行图像灰度化处理;
S3-2、对图像进行基于伽马变换的图像增强处理;该步骤对于图片画面过曝或者过暗的图像有着关键的作用,经过基于伽马变换的图像增强处理,便于后面的图像处理。
S3-3、在获得横线之前,用水平核函数对图像进行高斯滤波,增强图像水平方向上关联性,从而便于后续查找水平直线。
其次,对预处理后的图像进行自适应二值化处理,在自适应二值化处理过程中,我们需要知道表格图片中字符高度为adaptiveThreshold函数动态的调整参数。因此,首先进行粗二值化运用查找轮廓的方法获得轮廓图,因为表格中字符的轮廓会占大部分,采取投票的方法获取票数最多的轮廓高度为字符高度。每一张图用字符高度设置自适应二值化中的各个参数。具体步骤如下:
S4-1、采用图像膨胀腐蚀操作的方法查找轮廓,并获得轮廓图;
S4-2、采用投票思想,将获得最多的轮廓矩形高度设定为表格内容字符的高度;
S4-3、根据字符高度自适应设置adaptiveThreshold函数里面参数blocksize。
其次,确定线段的起始游程段,定义数据结构struct segment{Point(x,y);intgap_up;int gap_down;int continue_up;int continue_down};其中,Point(x,y)表示基准点,gap_up,gap_down分别表示离基准点上下前景点的间隔,continue_up和continue_down分别表示上下连续前景点的长度。当纵向游程段较长说明不是横线,只有当纵向游程段较短表明可能是一条横线的游程段记录。具体步骤如下:
S5-1:在二值图上面纵向检测每一个前景点;
S5-2:判断连续纵向前景点个数,若个数过多则表明不是横线直线的起始游程段,过少则是噪音点。
其次,根据每一段游程段按照一定的规则区域生长出整个直线的方向,在实际中设置两个阈值T_gap和T_continue,T_gap表示离基准点允许的最大间隔,T_continue表示连续前景点的长度阈值。以下这里分不同的情况介绍:
(1)若沿着基准点向上向下都没有找到前景点,即gap_up、gap_down、continue_up、continue_down都为0则停止检测,记录长度L;
(2)若向上检测到一段向下没有检测到线段,即gap_up*continue_up!=0,gap_down=0,continue_down=0,若gap_up>T_gap即离基准点太远,停止检测,记录长度L;若gap_up<T_gap且continue_up<T_continue,即离基准点较近且长度较短,则取新段的中间点为基准点继续检测;若gap_up<T_gap且continue_up>T_continue,即离基准点较近且长度较长,可能是纵横直线交接,跳过该段,以Point(x+1,y)为下一次查找的基准点。如果向下检测到一段向上没有检测到,处理方法同向上检测方法一样。
(3)若向上和向下都检测到线段,即gap_up*continue_up!=0,gap_down*continue_down!=0。若向上或者向下检测的线段离基准点太远,只考虑一段线段,则处理方式和方式(2)一样;若gap_up>T_gap且gap_down>T_gap上下都离基准点太远停止检测;若向上或向下的线段离基准点较近且长度较长gap_up<T_gap且continue_up<T_continue或gap_down<T_gap且continue_down<T_continue则处理情况与方式(2)的情况3相同;若向上和向下的直线离基准点较近且长度较短,即gap_up<T_gap且continue_up<T_continue且gap_down<T_gap且continue_down<T_continue,若continue_up+continue_down<T_continue则以该段的中间点做下一次检测的基准点。continue_up+continue_down>T_continue则跳过该段,以Point(x+1,y)为下一次查找的基准点。
以上,就是依据这些规则生长出直线的方向。若检测到一段直线后,将该直线标记以防止后面重复检测。然后对所检测到的直线初步筛选,假设T_length为横向阈值,若检测的直线长度小于T_length,则可能是噪音点或者是文字段删除。
其次,对表格线的进行后期处理,包括直线的连接和筛选。具体讲,由于在实际表格检测的图片中,很大部分都是质量不清晰,褶皱的,导致一根线断裂。为解决该情况,本申请的方案是:把阈值T_gap调大T_continue调小T_length调小就可以很好适应不同图片质量下情况。如果一条直线断裂成两条或者若干条线段,它们之间的坐标相差不大,并且斜率也很接近。如果满足一定的阈值就将其连接,否则不连接。最后线的筛选,在连接后的直线的总长度仍然小于设定的表格线长度阈值则认为其不是表格线丢弃,否则保留。
后期处理的具体步骤如下:
S7-1:连接坐标相近的直线簇;
S7-2:过滤过短的直线簇。
以上显示和描述了本方案的基本原理和主要特征和本方案的优点。本行业的技术人员应该了解,本方案不受上述实施例的限制,上述实施例和说明书中描述的只是说明本方案的原理,在不脱离本方案精神和范围的前提下,本方案还会有各种变化和改进,这些变化和改进都落入要求保护的本方案范围内。本方案要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于区域生长的表格框线检测方法,其特征在于,包括:
S1、从服务器下载表格图片;
S2、对所述表格图片进行图像倾斜校正处理;
S3、对所述表格图片进行图像预处理;
S4、对所述表格图片进行自适应二值化处理;
S5、在所述表格图片的二值化处理图上面,确定直线的起始游程段;
S6、对每一段游程段按照一定的规则区域生长出整个直线的方向;
S7、对所述表格图片进行后期处理,包括直线的连接和筛选。
2.如权利要求1所述的一种基于区域生长的表格框线检测方法,其特征在于,所述图像倾斜校正处理的步骤如下:
S2-1、为减少查找直线的计算量,运用canny边缘检测算法对所述表格图片进行边缘检测,获得边缘检测图;
S2-2、运用hough变换在边缘检测图上检测直线;
S2-3、筛选符合条件的直线,并记录其倾斜角度;
S2-4、采用投票机制确定票数最多的倾斜角度为图像的倾斜角度;
S2-5、利用仿射变换对图像旋转。
3.如权利要求1所述的一种基于区域生长的表格框线检测方法,其特征在于,所述图像预处理的步骤如下:
S3-1、对图像进行图像灰度化处理;
S3-2、对图像进行基于伽马变换的图像增强处理;
S3-3、在获得横线之前,用水平核函数对图像进行高斯滤波,增强图像水平方向上关联性。
4.如权利要求1所述的一种基于区域生长的表格框线检测方法,其特征在于,所述自适应二值化处理的步骤如下:
S4-1、采用图像膨胀腐蚀操作的方法查找轮廓,并获得轮廓图;
S4-2、采用投票思想,将获得最多的轮廓矩形高度设定为表格内容字符的高度;
S4-3、根据字符高度自适应设置adaptiveThreshold函数里面参数blocksize。
5.如权利要求1所述的一种基于区域生长的表格框线检测方法,其特征在于,所述确定直线的起始游程段的步骤如下:
S5-1:在二值图上面纵向检测每一个前景点;
S5-2:判断连续纵向前景点个数,若个数过多则表明不是横线直线的起始游程段,过少则是噪音点。
6.如权利要求1所述的一种基于区域生长的表格框线检测方法,其特征在于,所述后期处理的具体步骤如下:
S7-1:连接坐标相近的直线簇;
S7-2:过滤过短的直线簇。
CN201811428101.3A 2018-11-27 2018-11-27 一种基于区域生长的表格框线检测方法 Pending CN109800625A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811428101.3A CN109800625A (zh) 2018-11-27 2018-11-27 一种基于区域生长的表格框线检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811428101.3A CN109800625A (zh) 2018-11-27 2018-11-27 一种基于区域生长的表格框线检测方法

Publications (1)

Publication Number Publication Date
CN109800625A true CN109800625A (zh) 2019-05-24

Family

ID=66556382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811428101.3A Pending CN109800625A (zh) 2018-11-27 2018-11-27 一种基于区域生长的表格框线检测方法

Country Status (1)

Country Link
CN (1) CN109800625A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861603A (zh) * 2020-12-17 2021-05-28 西安理工大学 一种有限表格自动识别与解析方法
CN113378666A (zh) * 2021-05-28 2021-09-10 山东大学 一种票据图像倾斜校正方法、票据识别方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861603A (zh) * 2020-12-17 2021-05-28 西安理工大学 一种有限表格自动识别与解析方法
CN112861603B (zh) * 2020-12-17 2023-12-22 西安理工大学 一种有限表格自动识别与解析方法
CN113378666A (zh) * 2021-05-28 2021-09-10 山东大学 一种票据图像倾斜校正方法、票据识别方法及系统

Similar Documents

Publication Publication Date Title
Hoang Detection of surface crack in building structures using image processing technique with an improved Otsu method for image thresholding
Wang et al. Research on crack detection algorithm of the concrete bridge based on image processing
Yu et al. Efficient crack detection method for tunnel lining surface cracks based on infrared images
Ying et al. Beamlet transform‐based technique for pavement crack detection and classification
Li et al. A visual detection system for rail surface defects
Sun et al. Weighted neighborhood pixels segmentation method for automated detection of cracks on pavement surface images
CN104239850B (zh) 基于图像综合特征的答题卡填涂信息自动识别方法
Lokeshwor et al. Robust method for automated segmentation of frames with/without distress from road surface video clips
Lin et al. Welding defect detection based on local image enhancement
US9679354B2 (en) Duplicate check image resolution
CN107016394B (zh) 一种交叉纤维特征点匹配方法
Kumar et al. Power-law transformation for enhanced recognition of born-digital word images
CN107516085B (zh) 一种基于文档图像自动去除黑边的方法
Zhang et al. Efficient system of cracking-detection algorithms with 1-mm 3D-surface models and performance measures
CN112734729B (zh) 适用于夜间补光条件的水尺水位线图像检测方法、装置及存储介质
CN109800625A (zh) 一种基于区域生长的表格框线检测方法
Mustafa et al. Review of different binarization approaches on degraded document images
CN110009633A (zh) 一种基于反向高斯差分的钢轨表面缺陷检测方法
Li et al. [Retracted] A Pavement Crack Detection Method Based on Multiscale Attention and HFS
Ma et al. An automatic detection method of Mura defects for liquid crystal display
CN103218819A (zh) 基于四叉树分解的超声图像最优同质区域自动选取方法
CN114693776A (zh) 一种电缆位置信息确定方法、装置、设备和存储介质
Govindaraju et al. Assessment of image quality to predict readability of documents
Yuhan et al. Detection of road surface crack based on PYNQ
CN114937167A (zh) 一种复杂背景下桥梁路面裂缝图像裂缝检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190524

WD01 Invention patent application deemed withdrawn after publication