CN111126382B - 一种用于ocr识别的基于关键点定位的票据矫正方法 - Google Patents

一种用于ocr识别的基于关键点定位的票据矫正方法 Download PDF

Info

Publication number
CN111126382B
CN111126382B CN201911224712.0A CN201911224712A CN111126382B CN 111126382 B CN111126382 B CN 111126382B CN 201911224712 A CN201911224712 A CN 201911224712A CN 111126382 B CN111126382 B CN 111126382B
Authority
CN
China
Prior art keywords
image
connected domain
key points
bill
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911224712.0A
Other languages
English (en)
Other versions
CN111126382A (zh
Inventor
段强
李锐
金长新
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Scientific Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Scientific Research Institute Co Ltd filed Critical Shandong Inspur Scientific Research Institute Co Ltd
Priority to CN201911224712.0A priority Critical patent/CN111126382B/zh
Publication of CN111126382A publication Critical patent/CN111126382A/zh
Application granted granted Critical
Publication of CN111126382B publication Critical patent/CN111126382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/2016Testing patterns thereon using feature extraction, e.g. segmentation, edge detection or Hough-transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明提供一种用于OCR识别的基于关键点定位的票据矫正方法,属于图像识别,目标检测,图像几何矫正技术领域,本发明通过综合两种关键定定位的方法,包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法,以及基于局部特征匹配PatchMatch的关键点定位方法。对图像做矫正可以保证文字的规范性,有助于提升后续文字识别的效果。

Description

一种用于OCR识别的基于关键点定位的票据矫正方法
技术领域
本发明涉及图像识别,目标检测,图像几何矫正技术,尤其涉及一种用于OCR识别的基于关键点定位的票据矫正方法。
背景技术
目前用于OCR识别中的主流的图像矫正技术仍集中于提取图像中的感兴趣区域(ROI,region of interests)的边缘并做一系列直线拟合、模式识别等工作,找到四边形区域,并做矫正。这样做存在两个不足,一是处理不了没有明显边界或边界与背景区分度不足的图像,二是基于直线拟合的方法是从一个低阈值的结果中遍历可能存在的四边形模式,计算复杂且存在一定误差。
在人工智能发展的浪潮当中,将重复且机械的工作用机器替代人类是一个必然的趋势。在目前已有的人工智能应用中,文字识别已经非常成熟,而且不仅限于打印字体的识别,还包括手写体的识别。但是如果想做到更加智能化、自动化,在文字识别之前,还要有一步图像的规范化,如图像的视角矫正和去畸变。当图像中视角倾斜时,文字也会随之倾斜,而往往文字识别的训练数据中都是规范的文字。如果考虑倾斜的情况,训练集的大小可能会成倍的增加,训练时间和训练效果也会随之下降。
现有的技术存在如下劣势:
1、计算复杂,直线拟合需要遍历n^2次以求得最优解
2、不适用于没有明显边界的图像
因此,对图像做矫正可以保证文字的规范性,有助于提升后续文字识别的效果。
发明内容
为了解决以上技术问题,本发明提出了一种用于OCR识别的基于关键点定位的票据矫正方法,灵活使用现有技术,扬长避短,提出一种简洁可行且适用性较广的票据图像矫正方法,结果较为稳定可靠。
本方法中使用到的技术主要包括一些基本的图像处理操作,如图像的二值化,图像形态学处理,图像的连通域分析,生成最小矩形区域,局部特征匹配,图像的单应性变换(投影变换)等技术。
本发明的技术方案是:
一种用于OCR识别的基于关键点定位的票据矫正方法,通过综合两种关键定定位的方法(包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法,以及基于局部特征匹配PatchMatch的关键点定位方法)找到至少四个关键点,并定义出它们矫正后的坐标,通过投影变换将票据进行矫正。
得益于票据图像的规则排版和固定的边框位置,该方法可用性较强,效果普遍较好,不受制于边缘检测的准确度,且计算过程不复杂。该方法需要至少四个关键点的坐标,提供更多关键点且关键点分布的越均匀,矫正的效果越好。
给定一个已知的票据模板和需要矫正的图像,首先对图像进行二值化,得到一个便于进行处理的二值化图像,这里采用OpenCV的自适应二值化方法,调整合适的阈值对图像进行二值化。
由于这里综合采用两种关键点定位的方法,因此需要根据情况进行分别处理。
对于基于连通域分析和最小生成矩形的关键点定位方法
首先要对二值化图像进行图像形态学操作,例如膨胀/腐蚀,或开/闭操作。将二值化图像中所有元素在某个小区域内连成一整个连通域。
然后对二值图像做连通域分析,并使用寻找最小矩形区域的方法(如OpenCV中的minAreaRect)将各个连通域标注出来。
由于矩形框只包含宽、高和位置信息,因此适用于定位某个相对位置特征明显的,或宽高数值、比例独特的关键区域的定位,例如增值税发票的标题、二维码、购买物品的文字区域等。定位到文本框之后,关键点可以选取边缘、角点、中心点等。
对于基于局部区域特征匹配的PatchMatch方法
首先要定义出局部特征的模板,该模板应该为图像上较为独特的特征,如二维码的角点,发票专用章的曲形边缘等。通过使用局部特征描述子(如SIFT,SURF,FAST,ORB等)对模板和图像分别进行处理,得到两批候选描述子。这些描述子通常是一些多维向量,包含对某个点特征的描述,具有尺度和旋转不变形。
然后在目标图像中做遍历,寻找最近邻的一个点或者最近邻的多个点。然后依然将图像进行二值化并做图像形态学处理,将二值图像进行连通域分析。如果大多数模板中的点落入了某个连通域,就定义这个连通域为要寻找的模板所在区域。该区域的边、角或中心的坐标就可以作为关键点被提取出来。
找到关键点后,定义好它们所对应的矫正坐标,通过投影变换算法计算出矫正所需要的投影矩阵,例如OpenCV中的findHomography或getPerspectiveTransform函数。得到投影矩阵后,使用OpenCV的warpPerspective函数可以将图像进行矫正。
本发明使用了自适应阈值检测和投影变换,可以得到稳定且可靠的结果;且可以处理没有边缘信息的图像,方法简单明了;基于局部特征的描述子有较强通用性;计算量较小,不需要强大硬件支持;综合了两种方法,结果稳定,适用性较强。
本发明的有益效果是
本发明灵活利用已有技术,规避其缺点,发挥其长处,提出了综合两种关键点定位的方法,并结合投影变换票据矫正方法,有以下优势:
1、使用了自适应阈值检测和投影变换,可以得到稳定且可靠的结果
2、可以处理没有边缘信息的图像,
3、方法简单明了,基于局部特征的描述子有较强通用性
4、计算量较小,不需要强大硬件支持
5、综合了两种方法,结果稳定,适用性较强。
附图说明
图1是本发明的工作流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一种用于OCR识别的基于关键点定位的票据矫正方法,通过综合两种关键定定位的方法(包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法,以及基于局部特征匹配PatchMatch的关键点定位方法)找到至少四个关键点,并定义出它们矫正后的坐标,通过投影变换将票据进行矫正。得益于票据图像的规则排版和固定的边框位置,该方法可用性较强,效果普遍较好,不受制于边缘检测的准确度,且计算过程不复杂。该方法需要至少四个关键点的坐标,提供更多关键点且关键点分布的越均匀,矫正的效果越好。
具体实施步骤如下
第一步,获得输入图像,拍照或者扫描均可;
第二步,将图像进行自适应二值化,得到二值化图;
第三步,通过图像形态学操作将相邻区域闭合成不同连通域,并进行连通域分析;
第四步,通过最小矩形区域算法找生成矩形框,并根据所定义的矩形框特征找到目标矩形框;
第五步,定义出局部特征匹配所需要的模板,并返回执行第二、第三步;
第六步,找到大多数模板中的描述子所在的目标区域的连通域;
第七步,综合第四步和第六步的结果,找出边角或中心点作为关键点;
第八步,定义出所找关键点对应校正后图像中的位置坐标,并计算投影矩阵;
第九步,根据第八步中的投影矩阵将票据图像进行矫正。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (2)

1.一种用于OCR识别的基于关键点定位的票据矫正方法,其特征在于,
通过综合两种关键定位的方法包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法,以及基于局部特征匹配PatchMatch的关键点定位方法,找到至少四个关键点,并定义出它们矫正后的坐标,通过投影变换将票据进行矫正;
给定一个已知的票据模板和需要矫正的图像,首先对图像进行二值化,得到一个便于进行处理的二值化图像,采用OpenCV的自适应二值化方法,调整合适的阈值对图像进行二值化;
对于基于连通域分析和最小生成矩形的关键点定位方法,
首先要对二值化图像进行图像形态学操作,将二值化图像中所有元素在某个小区域内连成一整个连通域;
然后对二值图像做连通域分析,并使用寻找最小矩形区域的方法将各个连通域标注出来;
对于基于局部区域特征匹配的PatchMatch方法,首先定义出局部特征的模板,通过使用局部特征描述子对模板和图像分别进行处理,得到两批候选描述子;
在目标图像中做遍历,寻找最近邻的一个点或者最近邻的一个以上的点,然后依然将图像进行二值化并做图像形态学处理,将二值图像进行连通域分析;
如果一半以上模板中的点落入了某个连通域,那就定义这个连通域为寻找的模板所在区域;该区域的边、角或中心的坐标就作为关键点被提取出来;
所述描述子是多维向量,包含对一个点特征的描述,具有尺度和旋转不变形;
具体实施步骤如下
第一步,获得输入图像,拍照或者扫描均可;
第二步,将图像进行自适应二值化,得到二值化图;
第三步,通过图像形态学操作将相邻区域闭合成不同连通域,并进行连通域分析;
第四步,通过最小矩形区域算法找生成矩形框,并根据所定义的矩形框特征找到目标矩形框;
第五步,定义出局部特征匹配所需要的模板,并返回执行第二、第三步;
第六步,找到大多数模板中的描述子所在的目标区域的连通域;
第七步,综合第四步和第六步的结果,找出边角或中心点作为关键点;
第八步,定义出所找关键点对应校正后图像中的位置坐标,并计算投影矩阵;
第九步,根据第八步中的投影矩阵将票据图像进行矫正。
2.根据权利要求1所述的方法,其特征在于,
找到关键点后,定义它们所对应的矫正坐标,通过投影变换算法计算出矫正所需要的投影矩阵,得到投影矩阵后,使用OpenCV的warpPerspective函数将图像进行矫正。
CN201911224712.0A 2019-12-04 2019-12-04 一种用于ocr识别的基于关键点定位的票据矫正方法 Active CN111126382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911224712.0A CN111126382B (zh) 2019-12-04 2019-12-04 一种用于ocr识别的基于关键点定位的票据矫正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911224712.0A CN111126382B (zh) 2019-12-04 2019-12-04 一种用于ocr识别的基于关键点定位的票据矫正方法

Publications (2)

Publication Number Publication Date
CN111126382A CN111126382A (zh) 2020-05-08
CN111126382B true CN111126382B (zh) 2023-12-05

Family

ID=70497404

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911224712.0A Active CN111126382B (zh) 2019-12-04 2019-12-04 一种用于ocr识别的基于关键点定位的票据矫正方法

Country Status (1)

Country Link
CN (1) CN111126382B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085885A (zh) * 2020-09-24 2020-12-15 理光图像技术(上海)有限公司 票证识别装置以及票证信息管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839058A (zh) * 2012-11-21 2014-06-04 方正国际软件(北京)有限公司 一种基于标准模版的文档图像的信息定位方法
CN105069452A (zh) * 2015-08-07 2015-11-18 武汉理工大学 基于局部结构分析的直线移除方法
CN106529591A (zh) * 2016-11-07 2017-03-22 湖南源信光电科技有限公司 一种基于改进的mser图像匹配算法
CN110097054A (zh) * 2019-04-29 2019-08-06 济南浪潮高新科技投资发展有限公司 一种基于图像投影变换的文本图像纠偏方法
CN110210584A (zh) * 2019-05-14 2019-09-06 武汉工程大学 一种基于改进surf复合算法的高速动态二维码识别方法
CN110309831A (zh) * 2019-06-10 2019-10-08 北京工业大学 基于机器视觉的非智能水表识读方法
CN110349111A (zh) * 2019-07-16 2019-10-18 济南浪潮高新科技投资发展有限公司 一种包含二维码图像的矫正方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10136103B2 (en) * 2015-11-23 2018-11-20 Lexmark International, Inc. Identifying consumer products in images
US9824288B1 (en) * 2016-05-04 2017-11-21 Bank Of America Corporation Programmable overlay for negotiable instrument electronic image processing

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103839058A (zh) * 2012-11-21 2014-06-04 方正国际软件(北京)有限公司 一种基于标准模版的文档图像的信息定位方法
CN105069452A (zh) * 2015-08-07 2015-11-18 武汉理工大学 基于局部结构分析的直线移除方法
CN106529591A (zh) * 2016-11-07 2017-03-22 湖南源信光电科技有限公司 一种基于改进的mser图像匹配算法
CN110097054A (zh) * 2019-04-29 2019-08-06 济南浪潮高新科技投资发展有限公司 一种基于图像投影变换的文本图像纠偏方法
CN110210584A (zh) * 2019-05-14 2019-09-06 武汉工程大学 一种基于改进surf复合算法的高速动态二维码识别方法
CN110309831A (zh) * 2019-06-10 2019-10-08 北京工业大学 基于机器视觉的非智能水表识读方法
CN110349111A (zh) * 2019-07-16 2019-10-18 济南浪潮高新科技投资发展有限公司 一种包含二维码图像的矫正方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
表格型票据图像手写体特殊符号的混合检测算法;宋晓宁;《南京理工大学学报》;第36卷(第6期);909-914 *

Also Published As

Publication number Publication date
CN111126382A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
Saxena Niblack’s binarization method and its modifications to real-time applications: a review
Lazzara et al. Efficient multiscale Sauvola’s binarization
Gatos et al. Automatic table detection in document images
CN110020692B (zh) 一种基于印刷体模板的手写体分离与定位方法
Gilly et al. A survey on license plate recognition systems
CN108256518B (zh) 文字区域检测方法及装置
CN113903024A (zh) 一种手写票据数值信息识别方法、系统、介质及装置
Jia et al. Document image binarization using structural symmetry of strokes
CN111126382B (zh) 一种用于ocr识别的基于关键点定位的票据矫正方法
CN107330434A (zh) 一种基于phog特征的电路图中电气符号识别方法
CN111898408B (zh) 一种快速人脸识别方法及装置
Seraogi et al. Employing CNN to Identify Noisy Documents Thereafter Accomplishing Text Line Segmentation
CN112200053A (zh) 一种融合局部特征的表格识别方法
CN111178111A (zh) 二维码检测方法、电子设备、存储介质及系统
Katona et al. Distance transform and template matching based methods for localization of barcodes and QR codes
CN116030472A (zh) 文字坐标确定方法及装置
CN115239595A (zh) 一种包装印刷品二维码合格性检测方法
Bal et al. Interactive degraded document enhancement and ground truth generation
Soumya et al. Enhancement and segmentation of historical records
Sherkat et al. Use of colour for hand-filled form analysis and recognition
KR101437286B1 (ko) 디지털 컨텐츠 식별 방법 및 장치
Li et al. Skew correction and line extraction in binarized printed text images
Araújo et al. Segmenting and recognizing license plate characters
Song et al. Point symbol recognition algorithm based on improved generalized hough transform and nonlinear mapping
Yang et al. A novel approach for license plate localization based on SVM classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231017

Address after: 250100 building S02, No. 1036, Langchao Road, high tech Zone, Jinan City, Shandong Province

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: North 6th floor, S05 building, Langchao Science Park, 1036 Langchao Road, hi tech Zone, Jinan City, Shandong Province, 250100

Applicant before: SHANDONG INSPUR ARTIFICIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20200508

Assignee: Shandong Inspur Digital Business Technology Co.,Ltd.

Assignor: Shandong Inspur Scientific Research Institute Co.,Ltd.

Contract record no.: X2023980053547

Denomination of invention: A ticket correction method based on key point localization for OCR recognition

Granted publication date: 20231205

License type: Exclusive License

Record date: 20231226