CN103400130B - 基于能量最小化框架的文档图像倾斜度检测与纠正方法 - Google Patents
基于能量最小化框架的文档图像倾斜度检测与纠正方法 Download PDFInfo
- Publication number
- CN103400130B CN103400130B CN201310321375.3A CN201310321375A CN103400130B CN 103400130 B CN103400130 B CN 103400130B CN 201310321375 A CN201310321375 A CN 201310321375A CN 103400130 B CN103400130 B CN 103400130B
- Authority
- CN
- China
- Prior art keywords
- status information
- file
- straight line
- picture
- foreground pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
- Image Processing (AREA)
Abstract
本发明提出了一种基于能量最小化框架的文档图像倾斜度检测和纠正方法,该方法的研究对象为机打文档图像,文档图像中的内容可以是文字、表格、图片等。本发明首先需要使用扫描仪将文档扫描成电子文档图像,然后估算前景像素状态信息,然后利用前景像素状态信息构建能量函数,然后利用图像处理技术和直线拟合技术计算初始的倾斜度,最后进行能量最小化过程得到最终的倾斜度并将文档图像进行纠正。本发明能适用于多种不同类型的文档,使得倾斜度检测更加精确,在保证精度的同时也提高了倾斜度检测的速度。
Description
技术领域
本发明涉及文档分析与应用领域,具体涉及一种基于能量最小化框架的文档图像倾斜度检测与纠正方法。
背景技术
随着数字化技术的不断发展,电子文档的出现在人们日常生活中变得越来越流行,比如使用相机或扫描仪来记录管理日志,存储历史文件等。相对纸质文档,电子文档具有方便性,永久性等优势。在获取或采集电子文档图像时,发生一定的倾斜是不可避免。然而,大部分文档系统(例如光学字符识别,文档页面布局分析等)对文档图像的倾斜度是敏感的。因此,倾斜度检测和纠正在文档图像分析与应用领域中变成一个重要的问题。为了纠正倾斜度,在数字化过程中,文档对齐预处理操作是必要的。
文档图像可以分为两种:手写文档图像和机打文档图像。当在一个不受约束的条件下书写文本时,从手写文档图像中检测倾斜度是一个相对困难的任务。相对手写文档图像,机打文档图像通常是规则排列的而且内容具有多样性(文字,表格,图像等等)。尽管目前已有大量科研人员在研究机打文档图像的倾斜度检测和纠正方法,但是它仍然是一个具有挑战性的问题。
发明内容
基于以上不足之处,本发明提出了一种基于能量最小化框架的文档图像倾斜度检测和纠正方法,该方法的研究对象为机打文档图像,文档图像中的内容可以是文字、表格、图片等。本发明首先需要使用扫描仪将文档扫描成电子文档图像,然后估算前景像素状态信息,然后利用前景像素状态信息构建能量函数,然后利用图像处理技术和直线拟合技术计算初始的倾斜度,最后进行能量最小化过程得到最终的倾斜度并将文档图像进行纠正。
该方法包括三个过程,具体如下:
(1)计算前景像素状态信息
在计算前景像素状态信息之前,首先对扫描得到的文档图像进行二值化,用黑色表示前景,白色表示背景像素,给定一个前二值文档图像I之后,前景像素的状态计算过程如下:一个边界框定义为一个文档图像的边界,用P记作整个前景像素的集合,(W,H)记作文档图像I的大小,那么对每一个前景像素p∈P,它的状态信息为sp=(xp,yp,wp,hp),其中xp,yp,wp,hp分别为p到图像最左、最上、最右和最下边的距离;
(2)利用直线拟合技术估算初始倾斜度
接下来利用文档图像中最外围的前景像素的状态信息来估算初始倾斜度,一个边界框有四个边:上、下、左和右,对每一边都能得到其最外围的前景像素状态信息子集,用以下方式得到上边最外围前景像素状态信息子集,记为
yi∈si∩yi=min{yp|yp∈sp∩xp∈sp∩xp=i}.
将TS中每个元素的xp做为x坐标,yp作为y坐标画图,图中下面的点拟合成一条直线,边界框剩下的三边都经过该处理,将使用直线拟合的技术来估算文档图像的初始倾斜度,在直线拟合之前先对TP进行采样,用如下方式将TP划分为N个互不重叠的部分STSi:
N=32,接下来用如下方式构建一个子集FTS,即计算每个部分STSi中yi最小的那个前景像素状态信息:
yi∈si∩yi=min{yp|yp∈sp∩sp∈STSi}
进行采样操作完之后,需要通过以下方式进一步消除没用的状态信息得到有效的用来进行直线拟合的状态信息VTS
然后采用穷举搜索的方式在VTS中做直线拟合直到找到两个状态信息使得有最多的其他状态信息到由这两个状态信息确定的直线之间的距离小于指定的阈值D;
对边界框的四边都进行直线拟合之后得到四条直线,接下来就是找到拟合最好的那条直线,同时该直线对应的倾斜角就是文档图像的初始倾斜角;用{lt,lb,li,lr}记作拟合的四条直线,{LSt,LSb,LSi,LSr}记作靠近相应直线的状态信息,要是某条直线对应的状态信息的个数小于M,在下面的操作中将不再考虑该直线,对每条直线li,计算所有直线状态信息Lsi和直线li之间的距离之和,然后用如下方式计算比值Ri:
其中f(·)计算一个集合中元素的个数,{Rt,Rb,Rt,Rr}中的最小值对应的直线就是最佳拟合的直线,最终最佳拟合的直线对应的倾斜角就是文档图像的初始倾斜角,其中D=5,M=5;
(3)使用能量最小化过程计算最终倾斜度
得到初始倾斜角之后,然后用能量最小化过程计算最终倾斜角,如下式所示:
该过程包括能量函数构建和能量最小化两个步骤,如下式所示:
E(S)=ωEB(S)+(1-ω)EF(S)(7)
ω=0.98,其中EB(S)考虑了全局背景信息,如下式所示:
设置和φ(·)为:
Yi={sp|sp∈S∩yp∈sp∩yp=i}(9)
Xj={sp|sp∈S∩xp∈sp∩xp=j}
其中Sgn(·)是一个符号函数,定义为:
EF(S)反应了全局的前景信息,如下式所示:
EF(S)=δ(S)+λ(S)(11)
设置δ(·)和λ(·)为:
其中 MY=max{f(Yi)|Yi∈Y},MX=max{f(Xi)|Xi∈X},且f(·)计算一个集合中元素的个数;
构造完能量函数以后,根据直线拟合得到的初始倾斜角和所有前景像素的状态信息,通过反复地计算能量函数和旋转前景像素的状态信息,找到使得能量函数值最小时所旋转的角度,这个角度就是最终的倾斜角;
状态信息的旋转过程如下:
S′=rotate(S,θ)(13)
其中rotate(·)计算每个前景像素的状态信息sp∈S旋转后的结果sp′,计算过程如下:
wp′=W-xp′,hp′=H-yp′
本发明的优点:
1.本发明中的文档图像倾斜度检测和纠正方法,它不考虑文档图像中的具体内容,考虑的是文档图像的全局结构。这样使得本发明能适用于多种不同类型的文档。
2.本发明中的方法是基于能量最小化框架,且提出了一个新的能量代价函数,该函数综合考虑了文档图像中的全局背景信息和前景信息,从而使得倾斜度检测更加精确。
3.本发明在检测文档图像倾斜度时,是一个由粗到细的过程。先通过直线拟合技术得到初始倾斜度,再通过能量最小化得到最终倾斜度,这样在保证精度的同时也提高了倾斜度检测的速度。
4.本发明中直线拟合技术和能量最小化技术是两个独立的过程,因此可以设计出其他的方法替换它们,同时也可根据具体应用的需要可以选择其中一个技术或两个技术来完成倾斜度检测。这样提高了本发明的使用灵敏性。
附图说明
图1为基于能量最小化的倾斜度检测方法的框图
图2为初始倾斜度计算过程图,
其中,(a):前景像素状态信息计算过程图,(b):最外围状态信息(x,y)坐标图,(c):直线拟合过程图;
图3为能量最小化过程图,
其中,(a):初始倾斜度,(b):能量最小化过程,(c):倾斜度纠正后图像;
图4为漫画文档图像倾斜度检测和纠正实例图,
其中,(a):原始图像,(b):能量最小化过程,(c):倾斜度纠正后图像;
图5为图表文档图像倾斜度检测和纠正实例图,
其中,(a):原始图像,(b):能量最小化过程,(c):倾斜度纠正后图像;
图6为建筑结构图文档图像倾斜度检测和纠正实例图,
其中,(a):原始图像,(b):能量最小化过程,(c):倾斜度纠正后图像。
具体实施方式
本发明提出了一种基于能量最小化框架的文档图像倾斜度检测和纠正方法,图1给出了该方法的框图。如图所示,该方法主要包括三个过程:计算前景像素状态、使用直线拟合技术得到初始倾斜度和进行能量最小化过程得到最终倾斜度。下面分别详细地描述这三个步骤。
1.计算前景像素状态信息
在计算前景像素状态信息之前,首先对扫描得到的文档图像进行二值化,用黑色表示前景,白色表示背景像素。给定一个前二值文档图像I之后,如图2(a)所示,前景像素的状态计算过程如下:一个边界框定义为一个文档图像的边界,如图2(a)中的最外侧矩形框。用P记作整个前景像素的集合,(W,H)记作文档图像I的大小。那么对每一个前景像素p∈P,它的状态信息为sp=(xp,yp,wp,hp),其中xp,yp,wp,hp分别为p到图像最左、最上、最右和最下边的距离,若将原点设置在图像的左上角,则(xp,yp)为像素p在图像I中的位置的坐标,wp=W-xp,hp=H-yp。用S={(xp,yp,wp,hp)}p∈P记为图像中所有前景像素点P的状态信息。
2.利用直线拟合技术估算初始倾斜度
接下来利用文档图像中最外围的前景像素的状态信息来估算初始倾斜度。如图2(a)所示,一个边界框有四个边:上、下、左和右。对每一边都能得到其最外围的前景像素状态信息子集。下面以上边为例,我们用以下方式得到上边最外围前景像素状态信息子集,记为
yi∈si∩yi=min{yp|yp∈sp∩xp∈sp∩xp=i}
将TS中每个元素的xp做为x坐标,yp作为y坐标画图,如图2(b)左上角的子图所示。由图可知,图中下面的点可以拟合成一条直线。同理边界框剩下的三边都可以经过以上处理。这样在拟合得到的四条直线中,至少有一条直线的倾斜角与文档图像本身的倾斜角很接近。因此本发明将使用直线拟合的技术来估算文档图像的初始倾斜度。下面以TP为例,详细描述本发明中的直线拟合方法。
为了加快整个直线拟合的过程并估计得到更精确的初始倾斜度,本发明在直线拟合之前先对TP进行采样。即用如下方式将TP划分为N个互不重叠的部分STSi:
在本发明中,N被设置为N=32。接下来用如下方式构建一个子集FTS,即计算每个部分STSi中yi最小的那个前景像素状态信息:
yi∈si∩yi=min{yp|yp∈sp∩sp∈STSi}
图2(c)给出了对应图2(b)采样后的结果。
进行采样操作完之后,尽管大部分远离理想拟合的直线的状态信息被移除了,但是我还需要通过以下方式进一步消除没用的状态信息得到有效的用来进行直线拟合的状态信息VTS(如图2(c)中虚线以下的状态信息):
对边界框的四边都进行直线拟合之后得到四条直线,接下来就是找到拟合最好的那条直线,同时该直线对应的倾斜角就是文档图像的初始倾斜角。用{Lt,lb,li,lr}记作拟合的四条直线,{LSt,LSb,LSi,LSr}记作靠近相应直线的状态信息(如图2(c)中的十字点)。要是某条直线对应的状态信息的个数小于M,在下面的操作中将不再考虑该直线。对每条直线li,计算所有直线状态信息LSi和直线li之间的距离之和,然后用如下方式计算比值Ri:
其中f(·)计算一个集合中元素的个数。{Rt,Rb,Ri,Rr}中的最小值对应的直线就是最佳拟合的直线(如图2(c)右上角和图3(a)拟合的直线)。最终最佳拟合的直线对应的倾斜角就是文档图像的初始倾斜角。其中D和M本发明确定为D=5,M=5。
3.使用能量最小化过程计算最终倾斜度
得到初始倾斜角之后,然后用能量最小化过程计算最终倾斜角,如下式所示:
该过程包括能量函数构建和能量最小化两个步骤。本发明构建的能量函数既考虑到了全局的前景信息又考虑到了全局的背景信息,如下式所示:
E(S)=ωEB(S)+(1-ω)EF(S)(21)
其中EB(S)考虑了全局背景信息,即文本图像在水平和垂直方面上投影后,没有前景像素出现的空白区域的长度,如下式所示:
我们设置和φ(·)为:
Yi={sp|sp∈S∩yp∈sp∩yp=i}(23)
Xj={sp|sp∈S∩xp∈sp∩xp=j}
其中Sgn(·)是一个符号函数,定义为:
EF(S)反应了全局的前景信息,即文本图像在每行每列上前景像素个数的方差,如下式所示:
EF(S)=δ(S)+λ(S)(25)
我们设置δ(·)和λ(·)为:
其中 MY=max{f(Yi|Yi∈Y},MX=max{f(Xi)|Xi∈X},且f(·)计算一个集合中元素的个数。
构造完能量函数以后,根据直线拟合得到的初始倾斜角和所有前景像素的状态信息,通过反复地计算能量函数和旋转前景像素的状态信息,找到使得能量函数值最小时所旋转的角度,这个角度就是最终的倾斜角。状态信息的旋转过程如下:
S′=rotate(S,θ)(27)
其中rotate(·)计算每个前景像素的状态信息sp∈S旋转后的结果sp′,计算过程如下:
wp′=W-xp′,hp′=H-yp′
整个能量最小化过程概括为Algorithm1,如下所示:
本发明中ω=0.98。图3(b)给出了能量最小化后的最终倾斜角,且图3(c)给出了图2(a)经过倾斜度纠正之后的结果。图4-6给出了3个不同类型文档图像对应的倾斜度检测和纠正实例。图4-6(a)给出的是原始图像,图4-6(b)给出的是对应图像的能量最小化过程,图4-6(c)给出的是进行倾斜度纠正后的结果图。
Claims (1)
1.基于能量最小化框架的文档图像倾斜度检测与纠正方法,其特征在于,该方法包括三个过程:
(1)计算前景像素状态信息
在计算前景像素状态信息之前,首先对扫描得到的文档图像进行二值化,用黑色表示前景,白色表示背景像素,给定一个前二值文档图像I之后,前景像素的状态计算过程如下:一个边界框定义为一个文档图像的边界,用P记作整个前景像素的集合,(W,H)记作文档图像I的大小,那么对每一个前景像素p∈P,它的状态信息为sp=(xp,yp,wp,hp),其中xp,yp,wp,hp分别为p到图像最左、最上、最右和最下边的距离;
(2)利用直线拟合技术估算初始倾斜度
接下来利用文档图像中最外围的前景像素的状态信息来估算初始倾斜度,一个边界框有四个边:上、下、左和右,对每一边都能得到其最外围的前景像素状态信息子集,用以下方式得到上边最外围前景像素状态信息子集,记为
将TS中每个元素的xp做为x坐标,yp作为y坐标画图,图中的点拟合成一条直线,边界框剩下的三边都经过该处理,将使用直线拟合的技术来估算文档图像的初始倾斜度,在直线拟合之前先对TS进行采样,用如下方式将TS划分为N个互不重叠的部分STSi:
N=32,接下来用如下方式构建一个子集FTS,即计算每个部分STSi中yi最小的那个前景像素状态信息:
进行采样操作完之后,需要通过以下方式进一步消除没用的状态信息得到有效的用来进行直线拟合的状态信息VTS:
然后采用穷举搜索的方式在VTS中做直线拟合直到找到两个状态信息使得有最多的其他状态信息到由这两个状态信息确定的直线之间的距离小于指定的阈值D;
对边界框的四边都进行直线拟合之后得到四条直线,接下来就是找到拟合最好的那条直线,同时该直线对应的倾斜角就是文档图像的初始倾斜角;用{lt,lb,ll,lr}记作拟合的四条直线,{LSt,LSb,LSl,LSr}记作靠近相应直线的状态信息,要是某条直线对应的状态信息的个数小于M,在下面的操作中将不再考虑该直线,对每条直线li∈{lt,lb,ll,lr},计算其对应的所有状态信息LSi和直线li之间的距离之和SDi,然后用如下方式计算比值Ri:
其中f(·)计算一个集合中元素的个数,{Rt,Rb,Rl,Rr}中的最小值对应的直线就是最佳拟合的直线,最终最佳拟合的直线对应的倾斜角就是文档图像的初始倾斜角,其中D=5,M=5;
(3)使用能量最小化过程计算最终倾斜度
得到初始倾斜角之后,然后用能量最小化过程计算最终倾斜角,如下式所示:
该过程包括能量函数构建和能量最小化两个步骤,如下式所示:
E(S)=ωEB(S)+(1-ω)EF(S)(7)
ω=0.98,其中EB(S)考虑了全局背景信息,如下式所示:
设置和φ(·)为:
其中Sgn(·)是一个符号函数,定义为:
EF(S)反应了全局的前景信息,如下式所示:
EF(S)=δ(S)+λ(S)(11)
设置δ(·)和λ(·)为:
其中MY=max{f(Yi)|Yi∈Y},MX=max{f(Xi)|Xi)∈X},且f(·)计算一个集合中元素的个数;
构造完能量函数以后,根据直线拟合得到的初始倾斜角和所有前景像素的状态信息,通过反复地计算能量函数和旋转前景像素的状态信息,找到使得能量函数值最小时所旋转的角度,这个角度就是最终的倾斜角;
状态信息的旋转过程如下:
S′=rotate(S,θ)(13)
其中rotate(·)计算每个前景像素的状态信息sp∈S旋转后的结果sp′,计算过程如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310321375.3A CN103400130B (zh) | 2013-07-22 | 2013-07-22 | 基于能量最小化框架的文档图像倾斜度检测与纠正方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310321375.3A CN103400130B (zh) | 2013-07-22 | 2013-07-22 | 基于能量最小化框架的文档图像倾斜度检测与纠正方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103400130A CN103400130A (zh) | 2013-11-20 |
CN103400130B true CN103400130B (zh) | 2016-07-20 |
Family
ID=49563748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310321375.3A Active CN103400130B (zh) | 2013-07-22 | 2013-07-22 | 基于能量最小化框架的文档图像倾斜度检测与纠正方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103400130B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184294B (zh) * | 2015-09-22 | 2018-12-04 | 成都数联铭品科技有限公司 | 一种基于像素追踪的倾斜文字判断识别方法 |
CN110032996B (zh) * | 2018-01-11 | 2021-06-04 | 台达电子工业股份有限公司 | 分类基础式的字符倾斜校正装置及其方法 |
CN109299763B (zh) * | 2018-10-17 | 2021-11-02 | 国网江苏省电力有限公司无锡供电分公司 | 基于rfid密钥链的纸质涉密载体防篡改伪造方法 |
CN109784332B (zh) * | 2019-01-17 | 2021-03-05 | 京东数字科技控股有限公司 | 一种文档图像倾斜检测的方法和装置 |
CN113255413B (zh) * | 2020-02-13 | 2024-04-05 | 北京小米松果电子有限公司 | 确定文档边框的方法、装置及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4953230A (en) * | 1982-02-05 | 1990-08-28 | Ricoh Company, Ltd. | Document image processing system |
US5506918A (en) * | 1991-12-26 | 1996-04-09 | Kabushiki Kaisha Toshiba | Document skew detection/control system for printed document images containing a mixture of pure text lines and non-text portions |
CN101149801A (zh) * | 2007-10-23 | 2008-03-26 | 北京大学 | 一种复杂结构文档图像倾斜快速检测方法 |
CN101425142A (zh) * | 2008-09-17 | 2009-05-06 | 北大方正集团有限公司 | 页面倾斜角度的确定方法和装置 |
-
2013
- 2013-07-22 CN CN201310321375.3A patent/CN103400130B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4953230A (en) * | 1982-02-05 | 1990-08-28 | Ricoh Company, Ltd. | Document image processing system |
US5506918A (en) * | 1991-12-26 | 1996-04-09 | Kabushiki Kaisha Toshiba | Document skew detection/control system for printed document images containing a mixture of pure text lines and non-text portions |
CN101149801A (zh) * | 2007-10-23 | 2008-03-26 | 北京大学 | 一种复杂结构文档图像倾斜快速检测方法 |
CN101425142A (zh) * | 2008-09-17 | 2009-05-06 | 北大方正集团有限公司 | 页面倾斜角度的确定方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103400130A (zh) | 2013-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10810734B2 (en) | Computer aided rebar measurement and inspection system | |
US9519838B2 (en) | Character recognition method | |
US9292739B1 (en) | Automated recognition of text utilizing multiple images | |
CN103400130B (zh) | 基于能量最小化框架的文档图像倾斜度检测与纠正方法 | |
Keller et al. | A new benchmark for stereo-based pedestrian detection | |
Mascetti et al. | Zebrarecognizer: Pedestrian crossing recognition for people with visual impairment or blindness | |
Baatz et al. | Leveraging 3D city models for rotation invariant place-of-interest recognition | |
CN105260733A (zh) | 用于处理图像信息的方法和装置 | |
CN102622593B (zh) | 一种文本识别方法及系统 | |
US20160210507A1 (en) | Image processing system with layout analysis and method of operation thereof | |
US20200380711A1 (en) | Method and device for joint segmentation and 3d reconstruction of a scene | |
US20120134588A1 (en) | Rectification of characters and text as transform invariant low-rank textures | |
JPH10208056A (ja) | 直線検出方法 | |
CN103984502A (zh) | 一种截取屏幕内容的方法及便携式终端 | |
CN103593832A (zh) | 一种基于高斯二阶差分特征检测算子的图像拼接方法 | |
CN104156965A (zh) | 一种矿井监控图像自动快速拼接方法 | |
Lelore et al. | Super-resolved binarization of text based on the fair algorithm | |
Meng et al. | Exploiting vector fields for geometric rectification of distorted document images | |
US9317766B2 (en) | Method and device for extracting distorted straight line from image | |
CN104899831A (zh) | 一种无人机影像数据实时处理方法及系统 | |
CN103489254A (zh) | 彩票的识别方法及系统 | |
CN103700082A (zh) | 基于对偶四元数相对定向的图像拼接方法 | |
Islam et al. | MVS‐SLAM: Enhanced multiview geometry for improved semantic RGBD SLAM in dynamic environment | |
Turk et al. | Computer vision for mobile augmented reality | |
Qiu et al. | Image mosaics algorithm based on SIFT feature point matching and transformation parameters automatically recognizing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |