CN109902534A - 一种定位医疗票据表格四边的方法 - Google Patents
一种定位医疗票据表格四边的方法 Download PDFInfo
- Publication number
- CN109902534A CN109902534A CN201711287394.3A CN201711287394A CN109902534A CN 109902534 A CN109902534 A CN 109902534A CN 201711287394 A CN201711287394 A CN 201711287394A CN 109902534 A CN109902534 A CN 109902534A
- Authority
- CN
- China
- Prior art keywords
- image
- bill
- connected domain
- image data
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明涉及一种定位医疗票据表格四边的方法,所述方法包括如下步骤:步骤1:获取票据图像数据;步骤2:票据图像去黑边,图像黑边填充的颜色为RGB三通道的均值;步骤3:步骤2后,通过直线检测的方法,对图像进行转正;步骤4:步骤3后,通过对表格连通域的处理来定位表格的4个顶点;步骤5:结束,输出结果。本发明采用图像处理技术的方法可自动定位票据图像表格的四边位置,为后续定位表格中的内容信息及识别字符的准确性提供了保证。
Description
技术领域
本发明涉及图像处理技术领域,更具体的说是涉及一种定位医疗票据表格四边的方法。
背景技术
表格表单是一种高度精炼,集中的信息表达手段,纸质表格被广泛的应用于数据采集,但是传统的人工数据录入方式效率低下、差错率高、成本昂贵,因此将纸质表格数据转换成电子数据是信息化必然趋势。医疗票据OCR的出现有效地辅助了办公人员进行票据扫描识别等单据的信息录入,提高资料电子化、数据格式化的效率。
医疗票据是一种表格。表格一般具有十分相似的表现形式,并且大多具有一些特定的表格要素。首先表格一般具有表头,标识了表格的用途;再者,表格一般还具有格线,限定了表格的信息区域并将各个填写区域划分开来。表格中一般还有填写单元的说明,如打印体的“姓名”表明了此项中应填写姓名而不是其他信息。这些表格的基本元素一般都出现在表格的固定位置,如表头一般出现在表格的顶部。他们构成了一张表格的概貌。这些固定信息能够帮助计算机确定要识别内容的大概位置。因此,表格的准确定位是票据识别的关键步骤,表格定位的质量直接影响到识别的内容是否完整。
医疗票据表格定位的难点在于图像中存在一些复杂的背景,如底纹、印章和图案等等,扫描过程中难免会造成图像光照不均匀、图像倾斜、黑边等问题,这些都会影响到表格的定位。
因此,提供一种不受外界因素干扰,可以对票据进行精准定位的方法是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种定位医疗票据表格四边的方法,利用图像处理领域的技术,能够准确提取出医疗票据表格四边,为后续的待识别内容的定位和识别识别提供了保证。
为了实现上述目的,本发明提供如下技术方案:
一种定位医疗票据表格四边的方法,具体包括以下步骤:
步骤1:获取票据图像数据;
步骤2:票据图像去黑边,图像黑边填充的颜色为RGB三通道的均值;
步骤3:步骤2后,通过直线检测的方法,对图像进行转正;
步骤4:步骤3后,通过对表格连通域的处理来定位表格的4个顶点;
步骤5:结束。
优选的,在上述一种定位医疗票据表格四边的方法中,所述步骤1中获取票据图像的方法包括:
①用数码相机拍摄得到的图像数据;
②用手机拍摄得到的图像数据;
③用扫描仪得到的图像数据;
④打开一个预先存在的包含影像图像数据的文件,读取该文件中的数据
并按照标准算法解压后得到的图像数据。
优选的,在上述一种定位医疗票据表格四边的方法中,所述步骤3具体包括以下步骤:
步骤3.1:图像二值化;
步骤3.2:计算二值图像的连通域,得到面积大于thresh值得连通域区域;
步骤3.3:通过LSD直线检测的方法,检测出步骤3.2中的连通域中所有的直线;
步骤3.4:将水平距离在图像宽1%以及角度在9度范围内的直线的进行合并;
步骤3.5:选取出最长的一条直线,以此直线与水平方向的夹角作为图像的旋转角度。
优选的,在上述一种定位医疗票据表格四边的方法中,所述步骤4具体包括以下步骤:
步骤4.1:彩色图像转为灰度图像,对灰度图像进行直方图均衡化、图像卷积、图像滤波预处理操作;
步骤4.2:对灰度图进行二值化和形态学操作,得到连通域的宽、高和面积大于设定阈值的连通域;
步骤4.3:对步骤4.2得到的连通域进行水平投影,选取水平方向上像素个数大于一定阈值的位置作为候选的表格top和bottom的坐标点,再结合票据表格尺寸的先验知识,对候选坐标进行进一步的筛选,得到最后的top和bottom坐标点;
步骤4.4:对步骤4.2得到的连通域进行垂直投影,选取垂直方向上像素个数大于一定阈值的位置作为候选的表格left和right的坐标点,再结合票据表格尺寸的先验知识,对候选坐标进行进一步的筛选,得到最后的left和right坐标点;
步骤4.5:由left,top,right,bottom组成表格的矩形区域。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种定位医疗票据表格四边的方法,首先获取票据图像数据,票据图像可以经过多种途径获取,灵活方便;其次票据图像去黑边,有效避免了复杂混乱的背景对表格定位带来的不利影响;然后通过直线检测把倾斜的图像进行转正处理,直线检测的方法不仅算法简单,运行快速而且准确率极高;最后通过对表格连通域的处理来定位表格的四个顶点,仅仅通过表格四顶点的选取定位即可获得整个数据表格的精准定位。本发明的方法步骤简单、层次清晰,不仅有效克服了图像中存在一些复杂的背景,如底纹、印章和图案等;而且解决了扫描过程中因图像光照不均匀、图像倾斜、黑边等问题带来定位不精准的问题,利用图像处理领域的技术,准确得提取了医疗票据表格四边,为后续的待识别内容的定位和识别提供了保证。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明定位医疗票据表格四边的方法流程图;
图2是步骤3图像转正的具体流程图;
图3是步骤4定位表格四边的具体流程图;
图4是上海医疗票据的图像,对个人信息做了遮蔽处理;
图5是经过去黑边处理后的图像;
图6是表格连通域的示意图;
图7是表格四边标记的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
请参阅图1,本发明揭示了一种定位医疗票据表格四边的方法,具体包括以下步骤:
步骤1:获取医疗票据图像数据。
获取影像图像数据的方法包括如下四种之一:
①是用数码相机拍摄得到的图像数据;
②是用手机拍摄得到的图像数据;
③是用扫描仪得到的图像数据;
④是打开一个预先存在的包含影像图像数据的文件,读取该文件中的数据并按照标准算法解压后得到的图像数据。
步骤2:票据图像去黑边,图像黑边填充的颜色为RGB三通道的均值;
步骤3:步骤2后,通过直线检测的方法,对图像进行转正;
请参阅图2,步骤3具体包括如下步骤:
步骤3.1:图像二值化;
步骤3.2:计算二值图像的连通域,得到面积大于thresh值得连通域区域;
步骤3.3:通过LSD直线检测的方法,检测出步骤3.2中的连通域中所有的直线;
步骤3.4:将水平距离在图像宽1%以及角度在9度范围内的直线进行合并;
步骤3.5:选取出最长的一条直线,以此直线与水平方向的夹角作为图像的旋转角度。
步骤4:步骤3后,通过对表格连通域的处理来定位表格的4个顶点。
请参阅图2,步骤4具体包含如下步骤:
步骤4.1:彩色图像转为灰度图像,对灰度图像进行直方图均衡化、图像卷积、图像滤波预处理操作;
步骤4.2:对灰度图进行二值化和形态学操作,得到连通域的宽、高和面积大于设定阈值的连通域;
步骤4.3:对步骤4.2得到的连通域进行水平投影,选取水平方向上像素个数大于一定阈值的位置作为候选的表格top和bottom的坐标点,再结合票据表格尺寸的先验知识,对候选坐标进行进一步的筛选,得到最后的top和bottom坐标点;
步骤4.4:对步骤4.2得到的连通域进行垂直投影,选取垂直方向上像素个数大于一定阈值的位置作为候选的表格left和right的坐标点,再结合票据表格尺寸的先验知识,对候选坐标进行进一步的筛选,得到最后的left和right坐标点;
步骤4.5:由left,top,right,bottom组成表格的矩形区域。
步骤5:结束,输出。
实施例二
在一般的计算机上,对扫描得到的上海市医疗门(急)诊收费票据如图4所示,图中对涉及个人隐私信息做了擦除处理,使用本发明所述的方法,经过步骤1获得影像的图像数据后,经过步骤2和步骤3处理后得到如图5所示的结果,步骤4中步骤4.2处理后的结果如图6所示,执行完步骤4得到的表格四边的位置信息,如图7所示。
实施例三
在智能手机上,该手机自带1200万像素的摄像头,使用本发明的方法,对拍摄得到的医疗票据图像,能够自动定位出表格四边。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (4)
1.一种定位医疗票据表格四边的方法,其特征在于,包括以下步骤:
步骤1:获取票据图像数据;
步骤2:票据图像去黑边,图像黑边填充的颜色为RGB三通道的均值;
步骤3:步骤2后,通过直线检测的方法,对图像进行转正;
步骤4:步骤3后,通过对表格连通域的处理来定位表格的4个顶点;
步骤5:结束。
2.根据权利要求1所述的一种定位医疗票据表格四边的方法,其特征在于,所述步骤1中获取票据图像数据的方法包括:
①用数码相机拍摄得到的图像数据;
②用手机拍摄得到的图像数据;
③用扫描仪得到的图像数据;
④打开一个预先存在的包含影像图像数据的文件,读取该文件中的数据并按照标准算法解压后得到的图像数据。
3.根据权利要求1所述的一种定位医疗票据表格四边的方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1:图像二值化;
步骤3.2:计算二值图像的连通域,得到面积大于thresh值得连通域区域;
步骤3.3:通过LSD直线检测的方法,检测出步骤3.2中的连通域中所有的直线;
步骤3.4:将水平距离在图像宽1%以及角度在9度范围内的直线的进行合并;
步骤3.5:选取出最长的一条直线,以此直线与水平方向的夹角作为图像的旋转角度。
4.根据权利要求1所述的一种定位医疗票据表格四边的方法,其特征在于,所述步骤4具体包括以下步骤:
步骤4.1:彩色图像转为灰度图像,对灰度图像进行直方图均衡化、图像卷积、图像滤波预处理操作;
步骤4.2:对灰度图进行二值化和形态学操作,得到连通域的宽、高和面积大于设定阈值的连通域;
步骤4.3:对步骤4.2得到的连通域进行水平投影,选取水平方向上像素个数大于一定阈值的位置作为候选的表格top和bottom的坐标点,再结合票据表格尺寸的先验知识,对候选坐标进行进一步的筛选,得到最后的top和bottom坐标点;
步骤4.4:对步骤4.2得到的连通域进行垂直投影,选取垂直方向上像素个数大于一定阈值的位置作为候选的表格left和right的坐标点,再结合票据表格尺寸的先验知识,对候选坐标进行进一步的筛选,得到最后的left和right坐标点;
步骤4.5:由left,top,right,bottom组成表格的矩形区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287394.3A CN109902534A (zh) | 2017-12-07 | 2017-12-07 | 一种定位医疗票据表格四边的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711287394.3A CN109902534A (zh) | 2017-12-07 | 2017-12-07 | 一种定位医疗票据表格四边的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109902534A true CN109902534A (zh) | 2019-06-18 |
Family
ID=66939407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711287394.3A Pending CN109902534A (zh) | 2017-12-07 | 2017-12-07 | 一种定位医疗票据表格四边的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902534A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258201A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种融合全局和局部信息的表格线提取方法 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN107358232A (zh) * | 2017-06-28 | 2017-11-17 | 中山大学新华学院 | 基于插件的发票识别方法、及识别与管理系统 |
-
2017
- 2017-12-07 CN CN201711287394.3A patent/CN109902534A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258201A (zh) * | 2013-04-26 | 2013-08-21 | 四川大学 | 一种融合全局和局部信息的表格线提取方法 |
CN105654072A (zh) * | 2016-03-24 | 2016-06-08 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN107358232A (zh) * | 2017-06-28 | 2017-11-17 | 中山大学新华学院 | 基于插件的发票识别方法、及识别与管理系统 |
Non-Patent Citations (2)
Title |
---|
何柳: "表单识别中的关键问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 06, 15 June 2016 (2016-06-15) * |
胡小平 等: "《导航技术基础》", 国防工业出版社, pages: 132 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654072B (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
CN103714327B (zh) | 一种图像方向校正方法及系统 | |
CN104143094B (zh) | 一种无需答题卡的试卷自动阅卷处理方法及系统 | |
KR101399709B1 (ko) | 모델-기반 디워핑 방법 및 장치 | |
JP3768052B2 (ja) | カラー画像処理方法、カラー画像処理装置、及びそのための記録媒体 | |
JP3809404B2 (ja) | 画像処理方法、装置およびシステム | |
US5140650A (en) | Computer-implemented method for automatic extraction of data from printed forms | |
US8457403B2 (en) | Method of detecting and correcting digital images of books in the book spine area | |
WO2007127085A1 (en) | Generating a bitonal image from a scanned colour image | |
CN103034856B (zh) | 定位图像中文字区域的方法及装置 | |
CN114283156B (zh) | 一种用于去除文档图像颜色及手写笔迹的方法及装置 | |
CN108875737B (zh) | 一种纸质处方单据中检测复选框是否勾选的方法及系统 | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
CN108146093A (zh) | 一种去除票据印章的方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN110866932A (zh) | 多通道舌体边缘检测装置、方法及存储介质 | |
CN105225218B (zh) | 用于文档图像的畸变校正方法和设备 | |
CN105516590B (zh) | 一种图片处理方法及装置 | |
CN108197624A (zh) | 证书图像校正识别方法及装置、计算机存储介质 | |
CN108021913A (zh) | 证件照片信息识别方法及装置 | |
JP6542230B2 (ja) | 投影ひずみを補正するための方法及びシステム | |
CN110210467A (zh) | 一种文本图像的公式定位方法、图像处理装置、存储介质 | |
CN110059600B (zh) | 一种基于指向手势的单行文字识别方法 | |
CN111445402A (zh) | 一种图像去噪方法及装置 | |
CN109902534A (zh) | 一种定位医疗票据表格四边的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |