CN104809436B - 一种弯曲书面文字识别方法 - Google Patents

一种弯曲书面文字识别方法 Download PDF

Info

Publication number
CN104809436B
CN104809436B CN201510200517.XA CN201510200517A CN104809436B CN 104809436 B CN104809436 B CN 104809436B CN 201510200517 A CN201510200517 A CN 201510200517A CN 104809436 B CN104809436 B CN 104809436B
Authority
CN
China
Prior art keywords
line
datum line
written
value
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510200517.XA
Other languages
English (en)
Other versions
CN104809436A (zh
Inventor
肖夏
田健飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201510200517.XA priority Critical patent/CN104809436B/zh
Publication of CN104809436A publication Critical patent/CN104809436A/zh
Application granted granted Critical
Publication of CN104809436B publication Critical patent/CN104809436B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种弯曲书面文字识别方法,包括:采集弯曲书面的曲面图像;对曲面图像进行预处理,获取各个文本行连通区域;求取各个文本行的基准线及基准线方程;检测弯曲书面所有基准线中,最长的直线部分;将图像顺时针旋转相应的角度,使图像展平的方向变为水平方向,并得到全新的基准线方程;图像展平;对经过上述操作展平的弯曲书面图像进行文字识别。本发明具有速度快,效果好的优点。

Description

一种弯曲书面文字识别方法
所属技术领域
本发明属于数字图像处理技术,涉及一种弯曲书面文字识别方法。
背景技术
随着现代科技的不断进步和发展,电子产品的大量普及,越来越多的人们选择在电子平台进行阅读和学习。但是大量的文档只有纸质版,这就需要将大量的纸质文档进行电子化并进行文字识别。由于数码相机的便携性、方便性,越来越多的人采用数码相机对文档进行图像采集,在对书面进行电子化的时候,一些文档由于厚度较大,不能完全的展平,因此采集的图像大多会出现类似于柱面中间凸、两边凹的现象。为了便于阅读和识别,后期处理需要将弯曲书面图像展平。现如今存在的曲面展平技术大多需要曲面多个角度的图像组合一起,求出图像的3D信息,然后进行展平,这种技术图像采集比较麻烦,因此如何更方便、更准确、更简单的进行弯曲书面矫正,为文字识别创造好的基础成为人们追求的目标。
发明内容
本发明的目的是提供一种速度快效果好的弯曲书面文字识别方法。本发明的技术方案如下:
一种弯曲书面文字识别方法,包括下列步骤:
1)采集弯曲书面的曲面图像;
2)对曲面图像进行预处理,获取各个文本行连通区域;
3)求取各个文本行的基准线及基准线方程fn(x),x∈(0,len),n∈(1,N),N为基准线数量,len曲面图像的宽度,fn(x)表示基准线的纵坐标值,x表示基准线的横坐标值,下标n表示不同的基准线;
4)采用Hough变换检测弯曲书面所有基准线中,最长的直线部分,直线所在方向即为弯曲书面图像展平的方向;
5)求出Hough变换所得最长直线部分的角度,并将图像顺时针旋转相应的角度,使图像展平的方向变为水平方向,并且3)中得到的基准线方程也要进行相应的变换,得到全新的基准线方程Fn(x);
6)求出每条基准线方程Fn(x)斜率为0时,其横坐标的值x0,并求得其对应纵坐标的值Fn(x0),斜率为0时纵坐标的值,决定着其所在基准线展开后纵坐标的值。
7)曲面中最顶部一条基准线F1(x)上面的区域只有一边存在基准线,对此区域每列像素竖直向下移动F1(x)-Fn(x0)像素距离,将此区域下边的基准线变为水平的;
8)曲面中最顶部一条基准线F1(x)和最底部一条基准线FN(x)中间区域两边都存在基准线,图像展平后两边基准线之间的距离Fn+1(x0)-Fn(x0)与图像展平前两边基准线之间的差值Fn+1(x)-Fn(x)不一定相等,所以对此区域每列像素进行竖直移动加缩放处理,采用双线性内插值算法进行缩放;
9)曲面中最底部一条基准线FN(x)下面的区域只有一边存在基准线,对此区域每列像素竖直向下移动FN(x)-FN(x0)像素距离,将此区域上边的基准线变为水平的;
10)对经过上述操作展平的弯曲书面图像进行文字识别。
作为优选实施方式,步骤2)采用如下的预处理方法:
a)根据图像的像素大小和经验值,删除二值图像中面积小于一个标点符号面积的对象,去除噪声的影响,得到经过预处理后的二值图像;
b)设定一个矩形,其长度根据两个字体中心之间的水平距离确定,宽度根据字体高度的1/2确定,利用此矩形对二值图像进行形态学的开闭运算,将每行文本连成同一连通区域。
c)根据文本行的高度预设一个高度阈值,根据文本行的长度预设一个长度阈值;
d)计算出每个连通区域的高度值和宽度值,将高度值大于高度阈值的连通区域去除,消除书面中高度较高的插图的影响;将长度值短于长度阈值的连通区域去除,消除书面中长度较短的文本行的影响;然后删除面积小于一个字体面积的对象,最终得到各个文本行连通区域;
步骤3)采用的方法为:根据得到的各个文本行连通区域的上边界和下边界,求出每组上边界和下边界对应横坐标的中值,对中值采用三阶函数进行曲线拟合,得到弯曲书面的各个文本行的基准线及其对应的方程基准线方程fn(x)=anx2+bnx2+cnx+dn,an,bn,cn,dn为常数。
本发明采用矩形结构对图像进行形态学的开闭运算,求出的文本行连通区域上下边界能够跟文本行的上下边界紧密贴合,使其连通区域不受字体内部比重的影响,求出的中线具有更高的精度。本方法只采用几种形态学的开闭运算和三阶曲线拟合运算来定位基准线,运算简单,具有更高的速度,用此类基准线进行曲面书面展开后的图像具有更平的效果,从而为之后的文字识别打下良好基础。本发明的文字识别方法,在进行弯曲书面展平过程中只需单幅图像,不需要弯曲书面进行多次图像采集,展开过程简单、方便。
附图说明
图1初始图像
图2形态学开闭运算后的模糊图像
图3只含有较长文本行部分的模糊图像
图4中线定位结果的局部放大图像(文本行中白色线条表示中线)
图5基准线定位结果(文本行中黑色线条表示基准线)
图6基准线定位结果的局部放大图像(文本行中黑色线条表示基准线)
图7基准线图(粗白线部分为检测出的最长直线)
图8每条基准线斜率为0时的位置(基准线中o点的位置)
图9顶部区域展平
图10中部区域展平
图11底部区域展平
图12前后部分区域对比图,(a)、(c)、(e)为展平前的部分区域,(b)、(d)、(f)为对应的展平后区域。
图13本发明采用的基于基准线的弯曲书面展平流程图
具体实施方式
下面结合附图和实施例对本发明进行说明。本发明具体包括下列步骤:
1)采集弯曲书面的曲面图像,如图1所示。
2)对曲面图像进行灰度变换,并进行二值化。然后根据图像的像素大小和经验值,删除二值图像中面积小于一个标点符号面积的对象,去除噪声的影响,得到经过预处理后的二值图像。
3)设定一个矩形,其长度根据两个字体中心之间的水平距离确定,宽度根据字体高度的1/2确定,利用此矩形对图像进行形态学的开闭运算,将每行文本连成同一连通区域,如图2所示。
4)根据文本行的高度预设一个高度阈值,大小约为文本行高度的三倍;根据文本行的长度预设一个长度阈值,大小约为文本行最大长度的3/4;
5)计算出每个连通区域的高度值和宽度值,将高度值大于高度阈值的连通区域去除,消除书面中高度较高的插图的影响;将长度值短于长度阈值的连通区域去除,消除书面中长度较短的文本行的影响;然后删除面积小于一个字体面积的对象,最终得到剩下的文本行连通区域。如图3所示。
6)分别求5)中得到的各个文本行连通区域的上边界和下边界,然后求出每组上边界和下边界对应横坐标的中值,如图4所示。对中值采用三阶函数进行曲线拟合,得到弯曲书面的各个文本行的基准线及其对应的方程基准线方程fn(x)=anx2+bnx2+cnx+dn,x∈(0,len),n∈(1,N),N为基准线数量,len曲面图像的宽度,fn(x)表示基准线的纵坐标值,x表示基准线的横坐标值,an,bn,cn,dn为常数,下标n表示不同的基准线。基准线如图5所示。
7)采用Hough变换检测一张弯曲书面所有基准线中,最长的直线部分,直线所在方向即为弯曲书面图像展平的方向。如图7所示。
8)求出Hough变换所得最长直线部分的角度,并将图像顺时针旋转相应的角度,使图像展平的方向变为水平方向,并且6)中得到的基准线方程也要进行相应的变换,得到全新的基准线方程
Fn(x)=Anx2+Bnx2+Cnx。
9)求出每条基准线方程Fn(x)斜率为0时,其横坐标(列数)的值x0,然后代入8)中得到的基准线方程Fn(x)中,求出其对应纵坐标(行数)的值Fn(x0)。斜率为0时纵坐标的值,决定着其所在基准线展开后纵坐标(列数)的值。如图8所示。
10)曲面中最顶部一条基准线F1(x)上面的区域只有一边存在基准线,对此区域每列像素竖直向下移动F1(x)-Fn(x0)像素距离,将此区域下边的基准线变为水平的。如图9所示。
11)曲面中最顶部一条基准线F1(x)和最底部一条基准线FN(x)中间区域两边都存在基准线,图像展平后两边基准线之间的距离Fn+1(x0)-Fn(x0)与图像展平前两边基准线之间的差值Fn+1(x)-Fn(x)不一定相等,所以对此区域每列像素进行竖直移动加缩放处理,采用双线性内插值算法进行缩放。如图10所示。
12)曲面中最底部一条基准线FN(x)下面的区域只有一边存在基准线,对此区域每列像素竖直向下移动FN(x)-FN(x0)像素距离,将此区域上边的基准线变为水平的。如图11所示。图12给出了几个局部的展开效果图。
13)展平后,再进行文字识别。文字识别的成熟算法很多,本发明不再对此展开说明。
本发明中线的定位只需要求出每个文本行连通区域的上下边界,再求出上下边界的中线即可,计算量小,同时利于硬件实现,具有实际应用的价值。
本发明的文字识别所采用的弯曲书面图像的方法,基于文本行中线确定的N条基准线,把弯曲书面图像由上到下分为N+1个区域,顶部区域和底部区域只有一边存在基准线,所以根据顶部和底部基准线方程分别求基准线变为直线后基准线上每点需要移动的距离(即为顶部和底部区域展平每列需要移动的距离)。中间区域展平时,两边都有基准线,需要求两边基准线方程横坐标相同时纵坐标的差值和展平后两边基准线纵坐标的差值,然后根据展平前后基准线差值的比值确定图像展平过程中的缩放比例,最终采用双线性内插值算法确定展平后每个像素点的值。

Claims (3)

1.一种弯曲书面文字识别方法,包括下列步骤:
1)采集弯曲书面的曲面图像;
2)对曲面图像进行预处理,获取各个文本行连通区域;
3)求取各个文本行的基准线及基准线方程fn(x),x∈(0,len),n∈[1,N],N为基准线数量,len曲面图像的宽度,fn(x)表示基准线的纵坐标值,x表示基准线的横坐标值,下标n表示不同的基准线;
4)采用Hough变换检测弯曲书面所有基准线中,最长的直线部分,直线所在方向即为弯曲书面图像展平的方向;
5)求出Hough变换所得最长直线部分的角度,并将图像顺时针旋转相应的角度,使图像展平的方向变为水平方向,并且步骤3)中得到的基准线方程也要进行相应的变换,得到全新的基准线方程Fn(x);
6)求出每条基准线方程Fn(x)斜率为0时,其横坐标的值x0,并求得其对应纵坐标的值Fn(x0),斜率为0时纵坐标的值,决定着其所在基准线展开后纵坐标的值;
7)曲面中最顶部一条基准线F1(x)上面的区域只有一边存在基准线,对此区域每列像素竖直向下移动F1(x)-Fn(x0)像素距离,将此区域下边的基准线变为水平的;
8)曲面中最顶部一条基准线F1(x)和最底部一条基准线FN(x)中间区域两边都存在基准线,图像展平后两边基准线之间的距离Fn+1(x0)-Fn(x0)与图像展平前两边基准线之间的差值Fn+1(x)-Fn(x)不一定相等,所以对此区域每列像素进行竖直移动加缩放处理,采用双线性内插值算法进行缩放;
9)曲面中最底部一条基准线FN(x)下面的区域只有一边存在基准线,对此区域每列像素竖直向下移动FN(x)-FN(x0)像素距离,将此区域上边的基准线变为水平的;
10)对经过上述操作展平的弯曲书面图像进行文字识别。
2.根据权利要求1所述的弯曲书面文字识别方法,其特征在于,步骤2)采用如下的预处理方法:
a)根据图像的像素大小和经验值,删除二值图像中面积小于一个标点符号面积的对象,去除噪声的影响,得到经过预处理后的二值图像;
b)设定一个矩形,其长度根据两个字体中心之间的水平距离确定,宽度根据字体高度的1/2确定,利用此矩形对二值图像进行形态学的开闭运算,将每行文本连成同一连通区域;
c)根据文本行的高度预设一个高度阈值,根据文本行的长度预设一个长度阈值;
d)计算出每个连通区域的高度值和宽度值,将高度值大于高度阈值的连通区域去除,消除书面中高度较高的插图的影响;将长度值短于长度阈值的连通区域去除,消除书面中长度较短的文本行的影响;然后删除面积小于一个字体面积的对象,最终得到各个文本行连通区域。
3.根据权利要求1或2所述的弯曲书面文字识别方法,其特征在于,步骤3)采用的方法为:根据得到的各个文本行连通区域的上边界和下边界,求出每组上边界和下边界对应横坐标的中值,对中值采用三阶函数进行曲线拟合,得到弯曲书面的各个文本行的基准线及其对应的方程基准线方程fn(x)=anx3+bnx2+cnx+dn,an,bn,cn,dn为常数。
CN201510200517.XA 2015-04-23 2015-04-23 一种弯曲书面文字识别方法 Expired - Fee Related CN104809436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510200517.XA CN104809436B (zh) 2015-04-23 2015-04-23 一种弯曲书面文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510200517.XA CN104809436B (zh) 2015-04-23 2015-04-23 一种弯曲书面文字识别方法

Publications (2)

Publication Number Publication Date
CN104809436A CN104809436A (zh) 2015-07-29
CN104809436B true CN104809436B (zh) 2017-12-15

Family

ID=53694247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510200517.XA Expired - Fee Related CN104809436B (zh) 2015-04-23 2015-04-23 一种弯曲书面文字识别方法

Country Status (1)

Country Link
CN (1) CN104809436B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016387B (zh) * 2016-01-28 2020-02-28 苏宁云计算有限公司 一种识别标签的方法及装置
CN106951855B (zh) * 2017-03-16 2020-04-10 深圳市六六六国际旅行社有限公司 一种图片中文档定位和裁切方法
CN108647680B (zh) * 2018-04-28 2021-11-12 北京盒子鱼教育科技有限公司 图像定位框检测方法和装置
CN110503102A (zh) * 2019-08-27 2019-11-26 上海眼控科技股份有限公司 车辆识别码检测方法、装置、计算机设备和存储介质
CN110751151A (zh) * 2019-10-12 2020-02-04 上海眼控科技股份有限公司 车身图像的文本字符检测方法及设备
CN112825141B (zh) * 2019-11-21 2023-02-17 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
CN111476235B (zh) * 2020-03-31 2023-04-25 成都数之联科技股份有限公司 一种3d曲面文本图片的合成方法
CN111967463A (zh) * 2020-06-23 2020-11-20 南昌大学 一种检测自然场景中弯曲文本的曲线拟合的方法
CN112418123B (zh) * 2020-11-30 2021-08-03 西南交通大学 一种基于Hough变换的工程图图线及线型识别的方法
CN113033533A (zh) * 2021-02-26 2021-06-25 珠海迪沃航空工程有限公司 一种低对比度曲面小字识别方法及系统
CN113033543B (zh) * 2021-04-27 2024-04-05 中国平安人寿保险股份有限公司 曲形文本识别方法、装置、设备及介质
CN114973292B (zh) * 2022-07-29 2022-11-15 山东矩阵软件工程股份有限公司 一种基于不规则表面的文字识别方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458770A (zh) * 2008-12-24 2009-06-17 北京文通科技有限公司 一种文字识别的方法和系统
CN102084378A (zh) * 2008-05-06 2011-06-01 计算机连接管理中心公司 基于照相机的文档成像
CN102208025A (zh) * 2011-05-27 2011-10-05 中国科学院自动化研究所 一种文本图像几何畸变的矫正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4219542B2 (ja) * 2000-09-07 2009-02-04 富士ゼロックス株式会社 画像処理装置、画像処理方法および画像処理プログラムが格納された記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102084378A (zh) * 2008-05-06 2011-06-01 计算机连接管理中心公司 基于照相机的文档成像
CN101458770A (zh) * 2008-12-24 2009-06-17 北京文通科技有限公司 一种文字识别的方法和系统
CN102208025A (zh) * 2011-05-27 2011-10-05 中国科学院自动化研究所 一种文本图像几何畸变的矫正方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于文本行重构的扭曲文档快速校正方法;曾凡锋等;《计算机工程与设计》;20140228;第35卷(第2期);第573-577页 *
改进的文档图像扭曲校正方法;宋丽丽等;《计算机工程》;20110131;第37卷(第1期);第204-206页 *
曲面表面文字平面化的算法;李响等;《浙江大学学报(工学版)》;20120131;第46卷(第1期);第130-135页 *

Also Published As

Publication number Publication date
CN104809436A (zh) 2015-07-29

Similar Documents

Publication Publication Date Title
CN104809436B (zh) 一种弯曲书面文字识别方法
CN109409366B (zh) 基于角点检测的畸变图像校正方法及装置
US8457403B2 (en) Method of detecting and correcting digital images of books in the book spine area
US8787695B2 (en) Image rectification using text line tracks
CN105117727B (zh) 一种车牌快速定位方法
CN105205439B (zh) 指纹重叠区域面积的计算方法及电子装置
JP5055449B2 (ja) ページ境界を検出する方法及び装置
CN106485182B (zh) 一种基于仿射变换的模糊qr码复原方法
CN106934806B (zh) 一种基于结构清晰度的无参考图失焦模糊区域分割方法
US20110123114A1 (en) Character recognition device and method and computer-readable medium controlling the same
US10586321B2 (en) Automatic detection, counting, and measurement of lumber boards using a handheld device
CN102222229A (zh) 手指静脉图像预处理方法
CN102289668A (zh) 基于像素邻域特征的自适应文字图像的二值化处理方法
CN105469026A (zh) 针对文档图像的水平和垂直线检测和移除
CN104835120B (zh) 一种基于基准线的弯曲书面展平方法
Meng et al. Nonparametric illumination correction for scanned document images via convex hulls
JP2018518770A (ja) 取り込まれた画像を補正する方法、ノートブックの1ページ又は2つの隣接するページに描かれた図を選択する方法、スマートフォン、ハードカバーのノートブック、及びハードカバーのアジェンダのための関連するアプリケーション
CN101667297B (zh) 一种乳腺钼靶x线图像中的乳腺区域提取方法
CN113748429B (zh) 单词识别方法、设备及存储介质
CN108961182B (zh) 针对视频图像的竖直方向灭点检测方法及视频扭正方法
US9008444B2 (en) Image rectification using sparsely-distributed local features
CN111753693B (zh) 一种静态场景下目标检测方法
KR101377910B1 (ko) 화상 처리 방법 및 화상 처리 장치
US8855419B2 (en) Image rectification using an orientation vector field
WO2015018337A1 (zh) 在图像中线段吸附的方法及装置,构造多边形的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171215

CF01 Termination of patent right due to non-payment of annual fee