CN110097054A - 一种基于图像投影变换的文本图像纠偏方法 - Google Patents

一种基于图像投影变换的文本图像纠偏方法 Download PDF

Info

Publication number
CN110097054A
CN110097054A CN201910355195.4A CN201910355195A CN110097054A CN 110097054 A CN110097054 A CN 110097054A CN 201910355195 A CN201910355195 A CN 201910355195A CN 110097054 A CN110097054 A CN 110097054A
Authority
CN
China
Prior art keywords
image
text
transformation
correcting error
projection transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910355195.4A
Other languages
English (en)
Inventor
段强
李锐
于治楼
王相成
宗云兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Inspur Hi Tech Investment and Development Co Ltd
Original Assignee
Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Inspur Hi Tech Investment and Development Co Ltd filed Critical Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority to CN201910355195.4A priority Critical patent/CN110097054A/zh
Publication of CN110097054A publication Critical patent/CN110097054A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines

Abstract

本发明特别涉及一种基于图像投影变换的文本图像纠偏方法。该基于图像投影变换的文本图像纠偏方法,首先通过图像二值化后对含文本区域的四条边框的提取获得四个坐标点,根据给定宽高比选择一条边作为标准边并计算出规范矩形的四个角点的坐标,计算投影矩阵对原图像进行投影变换;使用OpenCV生成最小外接矩形和偏转角度;然后根据偏转角度旋转图像使文字方向变为水平方向。该基于图像投影变换的文本图像纠偏方法,使用自适应阈值检测和投影变换自动处理输入图像,计算量较小,不需要强大硬件支持,不仅能得到稳定且可靠的结果,对于规范排版的文本图像场景有较强通用性,同时还省去了人工处理的流程,提高了图像识别效率和处理能力。

Description

一种基于图像投影变换的文本图像纠偏方法
技术领域
本发明涉及OCR图像识别技术领域,特别涉及一种基于图像投影变换的文本图像纠偏方法。
背景技术
在人工智能发展的浪潮当中,将重复且机械的工作用机器替代人类是一个必然的趋势。在目前已有的人工智能应用中,文字识别已经非常成熟,而且不仅限于打印字体的识别,还包括手写体的识别。但是如果想做到更加智能化、自动化,在文字识别之前,还要有一步图像的规范化,如找出文字的正确方向,以保证后续文本框标注、文字分隔、文字识别等一系列步骤的可靠性和准确度。
目前主流的OCR((Optical Character Recognition,光学字符识别)识别算法和框架中,对图像的文字方向要求比较高,通常上要求文字方向水平。因此在传统的OCR应用中,往往通过人为规定图片的输入格式和方向对图像进行规范,并设置标准框和手动旋转按钮以方便调节。但是,这样做需要耗费人力且不适用于大批量的文字识别场景,不适用于目前大数据发展的自动化的趋势。
给定一幅包含规范排版文字的图像,由于照片拍摄的视角差异,可能会导致矩形的证件、票据等变形为不规则的四边形,且方向偏转,不利于OCR的识别。例如,火车票的常规宽高比约为1.574,但摄像头拍摄的图像和文字会发生变形。此时,传统的OCR应用识别火车票图像时就会发生文字识别错误。
基于此,本发明提出了一种基于图像投影变换的文本图像纠偏方法。用于给定宽高比的OCR图像识别的预处理部分,目的是消除照片的拍摄视角差异导致的图片形状不规则和图片方向偏转。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于图像投影变换的文本图像纠偏方法。
本发明是通过如下技术方案实现的:
一种基于图像投影变换的文本图像纠偏方法,其特征在于,包括以下步骤:
(1)首先通过自适应的阈值获得原始图像的二值化图像;
(2)通过图像二值化后对含文本区域的四条边框的提取获得四个坐标点,根据给定宽高比选择一条边作为标准边并计算出规范矩形的四个角点的坐标,计算投影矩阵对原图像进行投影变换(projective transformation);
(3)使用OpenCV的MinAreaRect函数生成最小外接矩形,并以此获得该矩形的偏转角度;
(4)然后根据计算得到的偏转角度旋转图像使文字方向变为水平方向。
所述步骤(1)中,使用OpenCV的adaptiveThreshold函数根据图像某个区域的图像明暗变化自动设置的阈值将图像二值化。
所述步骤(2)中,获取二值化后图像中文字排版的四个方向的边缘所在的直线,根据四条直线延长线相交所围成的不规则四边形,得到投影变换前的ROI((region ofinterest,感兴趣区域)。
通过边缘检测或者霍夫变换(Hough transformation)找到图像中文字排版的四个方向的边缘所在的直线。
所述步骤(2)中,当获得或者选定了一条标准边后,根据给定的宽高比绘制出一个标准的矩形,所述标准矩形的四个角点作为投影变换的目标位置。
所述步骤(2)中,得到不规则四边形四个角点的坐标以及符合设定宽高比的标准矩形的四个角点的坐标后,通过投影变换(projective transformation)得到一个3×3的投影矩阵,通过构建齐次矩阵并运用矩阵乘法即可将不规则的四边形变为标准矩形。
所述步骤(3)中,使用OpenCV的minAreaRect函数生成包含文字区域的最小外接矩形,返回最小外接矩形的中心点,宽度,高度和偏转角度。
所述步骤(4)中,将偏转角度输入get Rotation Matrix 2D函数,即可得到水平标准化的图像。
本发明的有益效果是:该基于图像投影变换的文本图像纠偏方法,使用自适应阈值检测和投影变换自动处理输入图像,计算量较小,不需要强大硬件支持,不仅能得到稳定且可靠的结果,对于规范排版的文本图像场景有较强通用性,同时还省去了人工处理的流程,提高了图像识别效率和处理能力。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于图像投影变换的文本图像纠偏方法,包括以下步骤:
(1)首先通过自适应的阈值获得原始图像的二值化图像;
(2)通过图像二值化后对含文本区域的四条边框的提取获得四个坐标点,根据给定宽高比选择一条边作为标准边并计算出规范矩形的四个角点的坐标,计算投影矩阵对原图像进行投影变换(projective transformation);
(3)使用OpenCV的MinAreaRect函数生成最小外接矩形,并以此获得该矩形的偏转角度;
(4)然后根据计算得到的偏转角度旋转图像使文字方向变为水平方向。
所述步骤(1)中,使用OpenCV的adaptiveThreshold函数根据图像某个区域的图像明暗变化自动设置的阈值将图像二值化。
所述步骤(2)中,获取二值化后图像中文字排版的四个方向的边缘所在的直线,根据四条直线延长线相交所围成的不规则四边形,得到投影变换前的ROI((region ofinterest,感兴趣区域)。
通过边缘检测或者霍夫变换(Hough transformation)找到图像中文字排版的四个方向的边缘所在的直线。
所述步骤(2)中,当获得或者选定了一条标准边后,根据给定的宽高比绘制出一个标准的矩形,所述标准矩形的四个角点作为投影变换的目标位置。例如,火车票的常规宽高比约为1.574。
所述步骤(2)中,得到不规则四边形四个角点的坐标以及符合设定宽高比的标准矩形的四个角点的坐标后,通过投影变换(projective transformation)得到一个3×3的投影矩阵,通过构建齐次矩阵并运用矩阵乘法即可将不规则的四边形变为标准矩形。
所述步骤(3)中,使用OpenCV的minAreaRect函数生成包含文字区域的最小外接矩形,返回最小外接矩形的中心点,宽度,高度和偏转角度。
所述步骤(4)中,将偏转角度输入get Rotation Matrix 2D函数,即可得到水平标准化的图像。
综上所述,该基于图像投影变换的文本图像纠偏方法,具体步骤如下:
第一步,获得输入含有完整目标文本区域的图像,拍照或者扫描均可,确保其包含目标文字区域且包含边框;
第二步,设定图像二值化的阈值,通过利用OpenCV的adaptiveThreshold函数设定自适应阈值,尽可能的减小噪音,最终将图像背景和文字部分分别用0,1表示为一个二值图像;
第三步,通过霍夫变换或边缘检测将文本对齐形成的边框提取出来,四个方向上的边框可以围出一个四边形区域,提取该不规则四边形区域的四个角点坐标;
第四步,选择出不规则四边形区域的一条边作为标准边,并根据给定的宽高比确定标准矩形所对应的四个角点坐标;
第五步,根据两组角点坐标通过投影变换(projective transformation)得到一个3×3的投影矩阵,并根据投影变换,将不规则四边形变换为规则的矩形;
第六步,利用OpenCV的minAreaRect函数生成包含文字区域的最小外接矩形,并获得偏转角度;
第七步,使用OpenCV的getRotationMatrix2D函数,根据偏转角度将图像通过旋转变换等操作旋转至水平方向。
该基于图像投影变换的文本图像纠偏方法,输入一幅含有完整目标文本区域的图像(该图像可以与水平方向不平行且存在透视视角差异),并给出其宽高比(否则不保证纠偏效果较好),经过文本图像纠偏处理后,输出结果为一个纠正文字排版方向且规范化到标准矩形的图像。该基于图像投影变换的文本图像纠偏过程可以作为OCR识别的预处理步骤,提高OCR识别的准确率和可靠性。
目前,现有的技术不仅需要人工进行图片的旋转和角度纠正,同时早纠正时不考虑文本区域的规范化,会影响到OCR识别的效果和性能。与现有及时相比,该基于图像投影变换的文本图像纠偏方法,具有以下特点:
1.自动处理输入图像,省去了人工处理的流程,提高了效率和处理能力。
2.使用了自适应阈值检测和投影变换,可以得到稳定且可靠的结果。
3.方法简单明了,对于规范排版的文本图像场景有较强通用性。
4.计算量较小,不需要强大硬件支持。

Claims (8)

1.一种基于图像投影变换的文本图像纠偏方法,其特征在于,包括以下步骤:
(1)首先通过自适应的阈值获得原始图像的二值化图像;
(2)通过图像二值化后对含文本区域的四条边框的提取获得四个坐标点,根据给定宽高比选择一条边作为标准边并计算出规范矩形的四个角点的坐标,计算投影矩阵对原图像进行投影变换;
(3)使用OpenCV的MinAreaRect函数生成最小外接矩形,并以此获得该矩形的偏转角度;
(4)然后根据计算得到的偏转角度旋转图像使文字方向变为水平方向。
2.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法,其特征在于:所述步骤(1)中,使用OpenCV的adaptiveThreshold函数根据图像某个区域的图像明暗变化自动设置的阈值将图像二值化。
3.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法,其特征在于:所述步骤(2)中,获取二值化后图像中文字排版的四个方向的边缘所在的直线,根据四条直线延长线相交所围成的不规则四边形,得到投影变换前的ROI。
4.根据权利要求3所述的基于图像投影变换的文本图像纠偏方法,其特征在于:通过边缘检测或者霍夫变换找到图像中文字排版的四个方向的边缘所在的直线。
5.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法,其特征在于:所述步骤(2)中,当获得或者选定了一条标准边后,根据给定的宽高比绘制出一个标准的矩形,所述标准矩形的四个角点作为投影变换的目标位置。
6.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法,其特征在于:所述步骤(2)中,得到不规则四边形四个角点的坐标以及符合设定宽高比的标准矩形的四个角点的坐标后,通过投影变换得到一个3×3的投影矩阵,通过构建齐次矩阵并运用矩阵乘法即可将不规则的四边形变为标准矩形。
7.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法,其特征在于:所述步骤(3)中,使用OpenCV的minAreaRect函数生成包含文字区域的最小外接矩形,返回最小外接矩形的中心点,宽度,高度和偏转角度。
8.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法,其特征在于:所述步骤(4)中,将偏转角度输入get Rotation Matrix 2D函数,即可得到水平标准化的图像。
CN201910355195.4A 2019-04-29 2019-04-29 一种基于图像投影变换的文本图像纠偏方法 Pending CN110097054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910355195.4A CN110097054A (zh) 2019-04-29 2019-04-29 一种基于图像投影变换的文本图像纠偏方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910355195.4A CN110097054A (zh) 2019-04-29 2019-04-29 一种基于图像投影变换的文本图像纠偏方法

Publications (1)

Publication Number Publication Date
CN110097054A true CN110097054A (zh) 2019-08-06

Family

ID=67446374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910355195.4A Pending CN110097054A (zh) 2019-04-29 2019-04-29 一种基于图像投影变换的文本图像纠偏方法

Country Status (1)

Country Link
CN (1) CN110097054A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659370A (zh) * 2019-08-12 2020-01-07 深圳市华付信息技术有限公司 一种高效数据标注方法
CN110796082A (zh) * 2019-10-29 2020-02-14 上海眼控科技股份有限公司 铭牌文本检测方法、装置、计算机设备和存储介质
CN110837796A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 图像处理方法及装置
CN111126382A (zh) * 2019-12-04 2020-05-08 山东浪潮人工智能研究院有限公司 一种用于ocr识别的基于关键点定位的票据矫正方法
CN112767433A (zh) * 2021-03-15 2021-05-07 北京玄马知能科技有限公司 一种巡检机器人图像自动纠偏、分割与识别方法
WO2022089263A1 (zh) * 2020-10-27 2022-05-05 深圳Tcl数字技术有限公司 显示图像的校正方法、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1937698A (zh) * 2006-10-19 2007-03-28 上海交通大学 图像畸变自动校正的图像处理方法
CN104933399A (zh) * 2014-03-20 2015-09-23 富士通株式会社 图像校正装置和图像校正方法
US20160180163A1 (en) * 2014-12-19 2016-06-23 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images using vertical projections of center zones of characters
CN107169494A (zh) * 2017-06-01 2017-09-15 中国人民解放军国防科学技术大学 基于手持终端的车牌图像分割校正方法
CN108427946A (zh) * 2018-03-16 2018-08-21 福州大学 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1937698A (zh) * 2006-10-19 2007-03-28 上海交通大学 图像畸变自动校正的图像处理方法
CN104933399A (zh) * 2014-03-20 2015-09-23 富士通株式会社 图像校正装置和图像校正方法
US20160180163A1 (en) * 2014-12-19 2016-06-23 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images using vertical projections of center zones of characters
CN107169494A (zh) * 2017-06-01 2017-09-15 中国人民解放军国防科学技术大学 基于手持终端的车牌图像分割校正方法
CN108427946A (zh) * 2018-03-16 2018-08-21 福州大学 复杂场景下基于内特征和文本域布局的驾驶证检测识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ADRIAN ROSEBROCK: "Text skew correction with OpenCV and Python", 《PYIMAGESEARCH》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110659370A (zh) * 2019-08-12 2020-01-07 深圳市华付信息技术有限公司 一种高效数据标注方法
CN110659370B (zh) * 2019-08-12 2024-04-02 深圳市华付信息技术有限公司 一种高效数据标注方法
CN110796082A (zh) * 2019-10-29 2020-02-14 上海眼控科技股份有限公司 铭牌文本检测方法、装置、计算机设备和存储介质
CN110796082B (zh) * 2019-10-29 2020-11-24 上海眼控科技股份有限公司 铭牌文本检测方法、装置、计算机设备和存储介质
CN110837796A (zh) * 2019-11-05 2020-02-25 泰康保险集团股份有限公司 图像处理方法及装置
CN111126382A (zh) * 2019-12-04 2020-05-08 山东浪潮人工智能研究院有限公司 一种用于ocr识别的基于关键点定位的票据矫正方法
CN111126382B (zh) * 2019-12-04 2023-12-05 山东浪潮科学研究院有限公司 一种用于ocr识别的基于关键点定位的票据矫正方法
WO2022089263A1 (zh) * 2020-10-27 2022-05-05 深圳Tcl数字技术有限公司 显示图像的校正方法、设备及计算机可读存储介质
CN112767433A (zh) * 2021-03-15 2021-05-07 北京玄马知能科技有限公司 一种巡检机器人图像自动纠偏、分割与识别方法

Similar Documents

Publication Publication Date Title
CN110097054A (zh) 一种基于图像投影变换的文本图像纠偏方法
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN109409366B (zh) 基于角点检测的畸变图像校正方法及装置
JP4738469B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
US11392787B2 (en) Method for grasping texture-less metal parts based on bold image matching
CN109389121A (zh) 一种基于深度学习的铭牌识别方法及系统
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
JPS60167069A (ja) 図形認識装置
CN111401449B (zh) 一种基于机器视觉的图像匹配方法
CN113160285B (zh) 一种基于局部深度图像关键性的点云匹配方法
CN109426814A (zh) 一种发票图片特定板块的定位、识别方法、系统、设备
CN108133216A (zh) 基于机器视觉的可实现小数点读取的数码管读数识别方法
CN111680689A (zh) 一种基于深度学习的目标检测方法、系统及存储介质
CN112634125B (zh) 一种基于离线人脸数据库的自动面部替换方法
CN109993161A (zh) 一种文本图像旋转矫正方法及系统
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
US20230095142A1 (en) Method and apparatus for improving object image
CN111243051A (zh) 基于肖像照片的简笔画生成方法、系统及存储介质
CN112862674A (zh) 一种基于AutoStitch算法的多图像自动拼接方法和系统
CN114140794A (zh) 一种基于ocr的通用图像校正方法
CN114241197A (zh) 一种基于图像的数显式仪表智能识别方法及设备
CN113989604A (zh) 基于端到端深度学习的轮胎dot信息识别方法
CN110610163B (zh) 一种自然场景下基于椭圆拟合的表格提取方法及系统
CN115937537A (zh) 一种目标图像的智能识别方法、装置、设备及存储介质
CN115761285A (zh) 一种基于虚拟位姿与场景感知匹配学习的辅助装配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190806

RJ01 Rejection of invention patent application after publication