CN101697228A - 一种文本图像处理方法 - Google Patents

一种文本图像处理方法 Download PDF

Info

Publication number
CN101697228A
CN101697228A CN200910110509A CN200910110509A CN101697228A CN 101697228 A CN101697228 A CN 101697228A CN 200910110509 A CN200910110509 A CN 200910110509A CN 200910110509 A CN200910110509 A CN 200910110509A CN 101697228 A CN101697228 A CN 101697228A
Authority
CN
China
Prior art keywords
image
text
images
image sensing
line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910110509A
Other languages
English (en)
Inventor
杨昊民
邱光益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DONGGUAN BUBUGAO EDUCATION ELECTRONIC PRODUCT Co Ltd
Original Assignee
DONGGUAN BUBUGAO EDUCATION ELECTRONIC PRODUCT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DONGGUAN BUBUGAO EDUCATION ELECTRONIC PRODUCT Co Ltd filed Critical DONGGUAN BUBUGAO EDUCATION ELECTRONIC PRODUCT Co Ltd
Priority to CN200910110509A priority Critical patent/CN101697228A/zh
Publication of CN101697228A publication Critical patent/CN101697228A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及一种文本图像处理方法包括:基于最大互信息配准并拼接移动扫描的图像;使用阈值将图像分成对象和背景;基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。这种文本图像处理方法,采用二值化、倾斜校正、平滑去噪、文本行分离、规一化处理进行图像处理,有效抵消了移动扫描产生的图像倾斜、尺度变化等变形以及单帧图像中能存在多行文字的不利影响,满足了移动扫描后OCR文字识别的要求。

Description

一种文本图像处理方法
技术领域
本发明涉及图像处理,具体涉及一种文本图像处理方法。
背景技术
传统的光学字符识别(OCR)系统一般是通过静态扫描获得整幅文档的图像,并借助计算机强大的存储和处理能力对图像进行预处理和文本分离等操作,最后由识别程序完成对文字或字符的识别。而手持扫描设备是在内部集成小体积扫描传感器,决定了其扫描方式只能是移动扫描。所谓移动扫描,是指因为不能同时获得整幅文档的有效图像,只能由使用者通过手持的方式对文档从左至右逐行逐字进行扫描,得到的不是整幅图像,而是局部图像的帧序列。由于手的抖动等影响,移动扫描得到的图像会产生倾斜、尺度变化等变形,单帧图像中能存在多行文字,等等。因此,传统的OCR识别系统无法直接适用移动扫描。
发明内容
本发明需要解决的技术问题是,如何提供一种文本图像处理方法,能去除移动扫描的影响,使处理后的文本图像满足OCR识别需要。
本发明的技术问题这样解决:构建一种图像传感同步方法,包括以下步骤:
1.1)帧间配准与拼接:基于最大互信息配准并拼接移动扫描的图像;
1.2)二值化:使用阈值将图像分成对象和背景;
1.3)倾斜校正:基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。
按照本发明提供的图像传感同步方法,该方法还包括平滑去噪步骤:根据噪声与文本图像区别特征去除对象中与文本不相干的内容,用于去除扫描图像中原始噪声。
按照本发明提供的图像传感同步方法,所述平滑去噪步骤位于步骤1.2)~1.3)之间。
按照本发明提供的图像传感同步方法,所述平滑去噪步骤位于步骤1.3)之后。
按照本发明提供的图像传感同步方法,该方法还包括行切分步骤:结合所述倾斜角度识别行间距并切分文本行。
按照本发明提供的图像传感同步方法,所述行切分还包括根据连续非零像素段、连续零像素段相互交迭的规律等因素进行切分。
本发明提供的文本图像处理方法,采用二值化、倾斜校正、平滑去噪、文本行分离、规一化处理进行图像处理,有效抵消了移动扫描产生的图像倾斜、尺度变化等变形和单帧图像中能存在多行文字的不利影响,满足了移动扫描后OCR文字识别的要求。
附图说明
下面结合附图和具体实施例进一步对本发明进行详细说明。
图1是本发明具体实施例手持移动扫描设备的软件流程示意图。
具体实施方式
如图1所示,本发明具体实施例的手持扫描设备软件流程包括接触式图像传感器(CIS)输入数据、图像处理和OCR识别,其中图像处理可以细分为二值化、倾斜校正、平滑去噪、文本行分离、规一化处理等五个步骤,具体如下:
帧间配准与拼接:
根据摄像头接口(CIM)取得N×M个数据,每个中断取得的M个数据进行匹配,然后在根据N个中断拼接成一副扫描精度(DPI)是N×M的图像。把一幅图像看作是像素点的集合,图像配准就是寻求一个点集到另一个点集之间的映射的过程,即找出两幅图像中具有相同性质的点,并计算其对应的变换关系。这种变换可以是简单的刚体变换(即图像之间只存在旋转和平移),也可以是较复杂的弹性变换(图像拉伸、缩放、扭曲变形等)。
基于统计的配准方法通常是指最大互信息MI(X,Y)的图像配准方法,MI(X,Y)=H(X)+H(Y)-H(X,Y)
其中,X/Y代表参加配准的两幅图,H(X)/H(Y)是X/Y图的熵,H(X,Y)是X图和Y图的联合熵。
为了使得衡量参量对两图重叠的大小具有不变性,我们改用归一化互信息NMI:
NMI(X,Y)=(H(X)+H(Y))/H(X,Y)。
最终,我们选择使得归一化互信息NMI为最大的配准偏移量。
上述各熵计算如下:
1假设两图都是W*H大小的。把两图的灰度值分为K个区间,即将其灰度值从原来的[0,255]区间,量化为[0,K-1]区间。
2形成一个统计二维量N,其大小是K*K的。初始化N[i,j]为0。
3对两图的重叠区域中的每个点,检查其量化灰度值,假设X图此点的量化灰度值为a,Y图对应点的量化灰度值为b,则让N[a,b]=N[a,b]+1。如此,得到最终的N矩形的值。
4则计算各概率为
P XY ( i , j ) = N ( i , j ) / Σ i Σ j N ( i , j )
P X ( i ) = Σ j P XY ( i , j )
P Y ( j ) = Σ i P XY ( i , j )
5进而,根据传统信息论,可以得到上述需要的各熵的值,从而可计算出归一化互信息NMI。
该方法的突出优点是鲁棒性好、配准精度高、人工干预少。基于互信息的图像配准是用两幅图像的联合概率分布与完全独立时的概率分布的广义距离来估计互信息,并作为多模态图像配准的测度。当两幅图像达到最佳配准时,它们的对应象素的互信息应为最大。
倾斜检测与校正
在文字图像扫描输入的过程中,图像或多或少会出现某种程度的倾斜,这种倾斜不仅会给下一步文本行分离造成困难,也会影响最终的文字识别的正确率。所以,倾斜校正也是文字识别过程中必须要考虑的一个重要环节。通常情况下,应快速准确测量出扫描图像的倾斜角度,从而对图像进行旋转校正。
检测文本倾斜角的基本思路是,文本中任何水平方向和垂直方向的线条或者文字行的倾斜方向都与文本的倾斜方向保持一致,因此可以通过这些线条和文字行来估计文本的倾斜角度。
本机采用了基于文本行的文档倾斜校正方法:通常文本行是沿水平方向排列的,且相邻文本行之间的距离相对固定,因此检测页面图像的倾角不必对整个图像进行扫描计算,选择合适的文本子区域,其文本行的方向角对应于整个文档图像的倾斜角。具体采用Hough变换法和投影法检测文本图像的倾斜角,具体计算是:
在二维图像空间里,直线可表示为xcosθ+ysinθ=ρ,
其中ρ和θ为参数,定义了一个从原点到该直线最近点的向量(ρ,θ),显然这个向量与该直线垂直。
实现Hough变换对文本图像倾斜角检测的算法,详细描述如下。
1、在ρ,θ合适的最大值ρmax,θmax和最小值ρmin,θmin之间,建立一个离散的参数空间:(ρ,θ),其中ρ={ρimin≤ρi≤ρmax,1≤i≤m}、θ={θjmin≤θj≤θmax,1≤j≤n}。
2、建立一个累加器矩阵A(ρ,θ)(大小为m×n),并初始化每一个元素为k,k是0-100常量。
3、对图像中每一个目标像素(即二值化后图像中的前景)(x,y),对每一个θ的取值θj(1≤j≤n),都计算ρi=xcosθj+ysinθj,相应累加器A(ρi,θj)=A(ρi,θj)+1。
4、先求最后取max(A(θj))所对应的角度θDmax,即为Hough变换算法检测的文字图像的倾斜角。
二值化:
图像的二值化处理就是把扫描图像分成对象和背景两个区域,求其阈值,去掉不必要的噪声和干扰。因此可以说,二值化的过程,就是阈值选取的过程。
阈值是把背景和前景区分开的标尺,其选取的原则是,要在尽可能保存文字信息的同时又尽可能地削除噪声的干扰。本机采用二维Otsu二值化法进行二值化处理CIS部分得到的数据,具体计算是:
设一幅图像的像素点数为N,它有L个灰度级(1,2,...,L-1),灰度级为i的像素点数为ni,且有
Figure G2009101105090D0000061
利用N对图像直方图进行归一化,可以得到灰度级为i的像素点的概率
Figure G2009101105090D0000062
假设阈值t将图像分成两类C0和C1(物体和背景),即C0和C1分别对应具有灰度级{0,1,...,t}和{t+1,t+2,...,L-1}的像素,C0和C1发生的概率分别为
Figure G2009101105090D0000063
Figure G2009101105090D0000064
C0和C1类的均值分别为
Figure G2009101105090D0000065
Figure G2009101105090D0000066
其中
Figure G2009101105090D0000067
这样就有:
w 0 u 0 + w 1 u 1 = u T w 0 + w 1 = 1 ,
两类的类间方差为:
σB 2=w0(u0-uT)2+w1(u1-uT)2
最佳阈值t′是指让类间方差σB 2取大值时所对应的t(1≤t<L),即:
t &prime; = max ( &sigma; B 2 , 1 &le; t < L ) .
平滑去噪:
经过倾斜校正后的文字图像会附加一定的噪声,这种噪声主要表现为斑点和空洞。其中斑点指的是图像背景中的污点、毛刺之类的与文本图中的文本不相干的内容,一般相对笔划而言较小,成点状。而所谓空洞指的是文字笔划中的小的像素缺失,一般被0像素(即黑像素)包围。应用的算法可以是邻域相关法、均值滤波法以及形态学的方法等。
Figure G2009101105090D0000071
邻域相关法。
邻域相关法是指根据当前像素点一定窗口内的邻域像素点的特性来判断该像素点是否为背景点。例如,选定3×3的辅助窗对图像进行扫描,对图像中各点进行如下处理:
(1)对于背景点,若其四邻域有三个点为笔划点,则将它设为笔划点。这一步主要目的是消除空洞。
(2)对于笔划点,则分三种情况讨论:若其四邻域点都是背景点,且对角线四个点有任意两个同一边的点(即同在该点的左边、右边,或同在该点的上方、下方),则设该点为背景点,这一步的目的是消除独立的噪声点;如果该笔划点的八个邻边只有一个是目标像素,证明这一点是悬空点,必须清除;如果该点的四个方向中只有一个方向的三个像素全为目标点,而其他方向全是背景点,说明该点为凸点噪声,也必须清除。
Figure G2009101105090D0000072
均值滤波法。
均值滤波法的原理是采用如下式所示的平滑模板H对图像进行平滑处理。
Figure G2009101105090D0000073
0<n≤1000
其作用是通过像素点与其邻域点的均值运算(通常为平均运算)来去除突然变化的点,从而达到消除一定噪声的目的。
Figure G2009101105090D0000081
形态学方法
形态学运算中,开启运算通过消除边缘的突起而使图像的边界得以平滑,而闭合运算则是通过先膨胀后腐蚀的处理方法来填充图像内部空隙并连接临近的物体。因此,通过一次开启和闭合运算,就可以消除二值图中的随机噪声。
行切分:
经扫描得到的文本图像中可能包含若干行文字,一般情况下,图像的中间部分质量比较好,而两端部分有可能形变比较大,不利于后续处理,因此要对图像进行行切分,称为行分离。
对二值图像的行切分过程可以描述为:对于纠偏后的二值图像,统计水平方向每行中的前景点数量,生成投影曲线。由于文本行与行之间存在明显的间距,得到的投影曲线必定是连续非零像素段、连续零像素段相互交迭,其中非零像素段表示文本行,零像素段表示行间距。找出靠近图像正中间的行并进行切分,切分出了我们感兴趣的行。
图像规格化处理:
在移动扫描的过程中,由于手的抖动,扫描得到的图像容易产生变形,导致连续两帧图像中文字的字体大小产生变化,从而使切分出来的文字行图像规格不一样(指图像产生了缩放)。为了便于下一步进行文字行图像的配准和拼接,可把图像规格化成相同大小。可用插值法对图像进行插值放大或缩小,以保证所有切分出的文本行图像高度一致,本机采用双线性插值把源图像变化为目标图像,具体是:设f(i,j)表示源图像(i,j)处的的像素值,则可用源图像中坐标为(i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)的四个像素的值,计算目标像素点的值。先通过从目标图像坐标到源图像坐标的反向变换,得到目标图像中的某点,在源图像中的坐标为(i+u,j+v),其中i、j均为非负整数,u、v为[0,1]区间的浮点数,则目标图像中此象素点的值,即取为f(i+u,j+v),且f(i+u,j+v)=(1-u)(1-v)f(i,j)+(1-u)vf(i,j+1)+u(1-v)f(i+1,j)+uvf(i+1,j+1)。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求范围所做的均等变化与修饰,皆应属本发明权利要求的涵盖范围。

Claims (6)

1.一种图像传感同步方法,其特征在于,包括以下步骤:
1.1)基于最大互信息配准并拼接移动扫描的图像;
1.2)使用阈值将图像分成对象和背景;
1.3)基于文本行或线条测量图像倾斜角度并对图像进行旋转校正。
2.根据权利要求1所述图像传感同步方法,其特征在于,该方法还包括平滑去噪步骤:根据噪声与文本图像区别特征去除对象中与文本不相干的内容。
3.根据权利要求1所述图像传感同步方法,其特征在于,所述平滑去噪步骤位于步骤1.2)~1.3)之间。
4.根据权利要求1所述图像传感同步方法,其特征在于,所述平滑去噪步骤位于步骤1.3)之后。
5.根据权利要求1所述图像传感同步方法,其特征在于,该方法还包括行切分步骤:结合所述倾斜角度识别行间距并切分文本行。
6.根据权利要求5所述图像传感同步方法,其特征在于,所述行切分包括根据连续非零像素段、连续零像素段相互交迭的规律进行切分。
CN200910110509A 2009-10-15 2009-10-15 一种文本图像处理方法 Pending CN101697228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910110509A CN101697228A (zh) 2009-10-15 2009-10-15 一种文本图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910110509A CN101697228A (zh) 2009-10-15 2009-10-15 一种文本图像处理方法

Publications (1)

Publication Number Publication Date
CN101697228A true CN101697228A (zh) 2010-04-21

Family

ID=42142331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910110509A Pending CN101697228A (zh) 2009-10-15 2009-10-15 一种文本图像处理方法

Country Status (1)

Country Link
CN (1) CN101697228A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073847A (zh) * 2010-12-24 2011-05-25 汉王科技股份有限公司 一种扫描装置和扫描方法
CN102693424A (zh) * 2012-05-28 2012-09-26 上海交通大学 基于Harr-like特征的文档倾斜校正方法
CN103258201A (zh) * 2013-04-26 2013-08-21 四川大学 一种融合全局和局部信息的表格线提取方法
CN104376574A (zh) * 2014-12-03 2015-02-25 歌尔声学股份有限公司 一种图像污点测量方法及系统
CN104536999A (zh) * 2014-09-15 2015-04-22 湖南千码防伪科技有限公司 基于图像处理的随机纤维码防伪数据库构建方法
CN103258198B (zh) * 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
CN105704398A (zh) * 2016-03-11 2016-06-22 咸阳师范学院 一种视频处理方法
CN106096569A (zh) * 2016-06-20 2016-11-09 广州中国科学院先进技术研究所 一种手指静脉识别方法
CN106131362A (zh) * 2016-07-12 2016-11-16 珠海赛纳打印科技股份有限公司 一种图像处理方法、装置及图像形成设备
CN106228166A (zh) * 2016-07-27 2016-12-14 北京交通大学 字符图像的识别方法
CN108009546A (zh) * 2016-10-28 2018-05-08 北京京东尚科信息技术有限公司 信息识别方法和装置
CN108038825A (zh) * 2017-12-12 2018-05-15 维沃移动通信有限公司 一种图像处理方法及移动终端
CN108121983A (zh) * 2016-11-29 2018-06-05 蓝盾信息安全技术有限公司 一种基于傅里叶变换的文本图像纠偏方法
CN108335266A (zh) * 2017-04-14 2018-07-27 陈思远 一种文档图像畸变的矫正方法
CN109284756A (zh) * 2018-08-01 2019-01-29 河海大学 一种基于ocr技术的计算机终端保密检查方法
CN109416731A (zh) * 2016-05-25 2019-03-01 电子湾有限公司 文档光学字符识别
CN111062874A (zh) * 2019-12-12 2020-04-24 腾讯科技(深圳)有限公司 文本图像显示方法、装置、设备及存储介质
CN112418408A (zh) * 2020-12-08 2021-02-26 中山大学 一种基于抑制不相关特征的神经网络可解释性方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073847A (zh) * 2010-12-24 2011-05-25 汉王科技股份有限公司 一种扫描装置和扫描方法
CN102693424B (zh) * 2012-05-28 2014-07-02 上海交通大学 基于Harr-like特征的文档倾斜校正方法
CN102693424A (zh) * 2012-05-28 2012-09-26 上海交通大学 基于Harr-like特征的文档倾斜校正方法
CN103258198B (zh) * 2013-04-26 2015-12-23 四川大学 一种表格文档图像中字符提取方法
CN103258201B (zh) * 2013-04-26 2016-04-06 四川大学 一种融合全局和局部信息的表格线提取方法
CN103258201A (zh) * 2013-04-26 2013-08-21 四川大学 一种融合全局和局部信息的表格线提取方法
CN104536999A (zh) * 2014-09-15 2015-04-22 湖南千码防伪科技有限公司 基于图像处理的随机纤维码防伪数据库构建方法
CN104376574A (zh) * 2014-12-03 2015-02-25 歌尔声学股份有限公司 一种图像污点测量方法及系统
CN104376574B (zh) * 2014-12-03 2017-08-18 歌尔股份有限公司 一种图像污点测量方法及系统
CN105704398A (zh) * 2016-03-11 2016-06-22 咸阳师范学院 一种视频处理方法
CN109416731A (zh) * 2016-05-25 2019-03-01 电子湾有限公司 文档光学字符识别
US11893611B2 (en) 2016-05-25 2024-02-06 Ebay Inc. Document optical character recognition
CN109416731B (zh) * 2016-05-25 2022-09-23 电子湾有限公司 文档光学字符识别
CN106096569A (zh) * 2016-06-20 2016-11-09 广州中国科学院先进技术研究所 一种手指静脉识别方法
CN106096569B (zh) * 2016-06-20 2019-07-09 广州中国科学院先进技术研究所 一种手指静脉识别方法
US10582085B2 (en) 2016-07-12 2020-03-03 Zhuhai Seine Technology Co., Ltd. Method and device for image processing, and apparatus for image formation
CN106131362A (zh) * 2016-07-12 2016-11-16 珠海赛纳打印科技股份有限公司 一种图像处理方法、装置及图像形成设备
CN106228166B (zh) * 2016-07-27 2019-05-21 北京交通大学 字符图像的识别方法
CN106228166A (zh) * 2016-07-27 2016-12-14 北京交通大学 字符图像的识别方法
CN108009546A (zh) * 2016-10-28 2018-05-08 北京京东尚科信息技术有限公司 信息识别方法和装置
CN108121983A (zh) * 2016-11-29 2018-06-05 蓝盾信息安全技术有限公司 一种基于傅里叶变换的文本图像纠偏方法
CN108335266A (zh) * 2017-04-14 2018-07-27 陈思远 一种文档图像畸变的矫正方法
CN108038825A (zh) * 2017-12-12 2018-05-15 维沃移动通信有限公司 一种图像处理方法及移动终端
CN109284756A (zh) * 2018-08-01 2019-01-29 河海大学 一种基于ocr技术的计算机终端保密检查方法
CN111062874A (zh) * 2019-12-12 2020-04-24 腾讯科技(深圳)有限公司 文本图像显示方法、装置、设备及存储介质
CN111062874B (zh) * 2019-12-12 2023-03-31 腾讯科技(深圳)有限公司 文本图像显示方法、装置、设备及存储介质
CN112418408A (zh) * 2020-12-08 2021-02-26 中山大学 一种基于抑制不相关特征的神经网络可解释性方法
CN112418408B (zh) * 2020-12-08 2023-09-05 中山大学 一种基于抑制不相关特征的神经网络可解释性方法

Similar Documents

Publication Publication Date Title
CN101697228A (zh) 一种文本图像处理方法
US8170368B2 (en) Correcting device and method for perspective transformed document images
CN102790841B (zh) 书籍的书脊区域中数字图像的检测和校正方法
Gatos et al. Segmentation based recovery of arbitrarily warped document images
JP4847592B2 (ja) 歪み文書画像を補正する方法及びシステム
US6347156B1 (en) Device, method and storage medium for recognizing a document image
US10289924B2 (en) System and method for scanned document correction
US8331670B2 (en) Method of detection document alteration by comparing characters using shape features of characters
JP5082637B2 (ja) 画像処理プログラム、画像処理方法及び画像処理装置
CN111127339B (zh) 一种文档图像的梯形畸变矫正方法及装置
US9959475B2 (en) Table data recovering in case of image distortion
CN101896920A (zh) 基于移动扫描的图像处理方法及装置
KR20110057536A (ko) 문자인식장치 및 그 제어방법
JP4395188B2 (ja) 文書画像認識装置および文書画像認識プログラムの記憶媒体
KR101377910B1 (ko) 화상 처리 방법 및 화상 처리 장치
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
CN100363940C (zh) 一种文稿图像几何畸变的校正方法
JP5005732B2 (ja) 画像形成装置及び画像処理方法
JP4208520B2 (ja) 画像処理装置および画像処理方法、プログラムおよび記憶媒体
JP4132766B2 (ja) 画像処理装置および方法
JP5424694B2 (ja) 画像認識装置、及びプログラム
US20020164087A1 (en) System and method for fast rotation of binary images using block matching method
JP4847378B2 (ja) 画像処理装置、画像処理方法、プログラム及びコンピュータ読取可能な記録媒体
JP2008258980A (ja) 画像情報処理装置および画像傾斜角度算出方法
CN107680046A (zh) 影像矫正方法、装置、存储介质和计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20100421