CN102890826B - 一种扫描版文档重排版的方法 - Google Patents

一种扫描版文档重排版的方法 Download PDF

Info

Publication number
CN102890826B
CN102890826B CN201110302266.8A CN201110302266A CN102890826B CN 102890826 B CN102890826 B CN 102890826B CN 201110302266 A CN201110302266 A CN 201110302266A CN 102890826 B CN102890826 B CN 102890826B
Authority
CN
China
Prior art keywords
word
value
binary map
level
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110302266.8A
Other languages
English (en)
Other versions
CN102890826A (zh
Inventor
安宇
王川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING DUOKE TECHNOLOGY Co Ltd
Original Assignee
BEIJING DUOKE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING DUOKE TECHNOLOGY Co Ltd filed Critical BEIJING DUOKE TECHNOLOGY Co Ltd
Priority to CN201110302266.8A priority Critical patent/CN102890826B/zh
Publication of CN102890826A publication Critical patent/CN102890826A/zh
Application granted granted Critical
Publication of CN102890826B publication Critical patent/CN102890826B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种扫描版文档重排版的方法,将扫描版文档生成图像,进行采样获得待处理的彩色图像,转化为二值图,对二值图进行游程平滑、求取连通域,将初始块进行水平合并,得出文字的行信息和图片位置,再进行垂直合并,得出文字段落位置,根据文字段落位置和图片位置,对段落进行文字切分,确定各段文字的阅读顺序后,根据文字段落位置、图片位置和文字段落中文字的位置,将文字和图片按照预先指定的全图宽度和高度排版成新的图像。采用了本发明的技术方案,能够将扫描版文档根据电子阅读设备的显示器的尺寸进行重排版,方便用户阅读,提高用户使用电子阅读设备的感受度。

Description

一种扫描版文档重排版的方法
技术领域
本发明涉及电子阅读技术领域,尤其涉及一种扫描版文档重排版的方法。
背景技术
在科学技术日新月异的今天,尤其是伴随着互联网技术的高速发展,人们的阅读习惯不再只局限于传统的纸质出版物阅读,电子阅读已经非常普及并且比重正在逐渐加大。由于电子阅读设备(电子书、手机等)的便携性,人们可以在生活中的碎片时间里进行电子阅读,比如乘坐公交车、地铁时,甚至在排队买票的几分钟时间里也可以进行电子阅读。
电子阅读素材的来源多种多样,有些来自电子出版物,有些来自纸质出版物的扫描版本。但是由于电子阅读设备的便携性,必然造成阅读屏幕的尺寸受限。在当前各种电子阅读设备的阅读体验中,对于扫描版文档的阅读非常不方便,如果将书页大小尺寸的扫描图片全部显示在小尺寸屏幕中会觉得字太小,如果采用将扫描图片局部放大的方式阅读,由于一屏不能显示完整的一行,阅读一行文字就会产生放大区域的切换,阅读一篇文章将会产生频繁的翻页。
发明内容
本发明的目的在于提出一种扫描版文档重排版的方法,能够将扫描版文档根据电子阅读设备的显示器的尺寸进行重排版,方便用户阅读,提高用户使用电子阅读设备的感受度。
为达此目的,本发明采用以下技术方案:
一种扫描版文档重排版的方法,包括以下步骤:
A、将扫描版文档生成图像,对生成的图像进行采样获得待处理的彩色图像;
B、将采样获得的彩色图像转化为二值图;
C、对二值图进行游程平滑;
D、对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息;
E、将初始块进行水平合并,得出文字的行信息和图片位置;
F、将水平合并后的块进行垂直合并,得出文字段落位置;
G、根据文字段落位置和图片位置,对段落进行文字切分,首先在段落区域位置内进行水平投影,确定每行文字的位置,然后在一行的区域位置内进行垂直投影,确定每个文字的位置;
H、确定各段文字的阅读顺序;
I、根据文字段落位置、图片位置和文字段落中文字的位置,将文字和图片按照预先指定的全图宽度和高度排版成新的图像。
还包括以下步骤:
J、将排版后的新图像放大或缩小至电子阅读设备需要显示的尺寸。
步骤A中,对生成的图像进行采样,采样值采用矩阵fjk形式来表示,矩阵中的每一元素fjk取值如下:
fjk = f(X0+j*dX,Y0+k*dY),
其中,j为0到Mx–1的整数,k为0到My–1的整数,X0和Y0为初始坐标,dX和dY为步长,Mx和My分别为矩阵fjk的列数和行数,即在X、Y方向的采样点数。
步骤B进一步包括以下步骤:
B1、将采样获得的彩色图像转化为灰度图;
B2、采用全局自适应阈值方法将灰度图转换为二值图。
步骤B1中,将采样获得的彩色图像转化为灰度图采用以下公式:
Y=0.299*R+0.587*G+0.114*B,其中R、G和B分别为彩色图像的红色、绿色和蓝色分量,Y为灰度值。
步骤B2中,如果灰度图是白底黑字,则二值图中文字部分所在像素取值为0,其余部分取值为1。
步骤B2中,还包括对二值图进行矫正,进一步包括以下步骤:
采用侧面投影的方法确定图像的倾斜角度,
即采用f(x,y)表示白底黑字的二值图,图像外区域f(x,y) = 1,二值图Mx列、My行,当前的投影方向与X轴成θ角,
Sk=∑jf(Xj,Yk+Xj*tanθ),为一行的投影值,
若Sk等于Mx则取Sk=1,表示该行投影上无黑点,
若Sk小于Mx则取Sk=0,表示该行投影上有黑点,
Tθ= ∑kSk,表示θ角对应的全图投影值,
在限定范围内以预定步长变换θ值,Tθ值最大的角度就是图像的倾斜角度;
根据计算出的倾斜角度,采用二次线性插值将灰度图进行旋转,然后重复步骤B2得到矫正后的二值图。
步骤C中,对二值图进行游程平滑是根据二值图中的数据0和数据1的个数来处理的,预定一个平滑值C,当二值图中连续的1的个数小于等于C时,这一串1将被0所取代。
步骤E中,依据初始块的尺寸和初始块与初始块之间的水平间距将初始块进行水平合并,高度大于预设值的初始块不参加水平合并,被认定为图片,高度小于预设值且水平间距小于预设值的初始块水平合并为一个块。
步骤F中,依据水平合并后的块的尺寸和水平合并后的块与水平合并后的块之间的垂直间距将水平合并后的块进行垂直合并,被认定为图片的初始块不参加垂直合并,高度差小于预设值且垂直间距小于预设值的水平合并后的块垂直合并为一个块。
采用了本发明的技术方案,对电子阅读设备中扫描版文档进行重排版,将扫描版文档根据显示器的尺寸进行重排版,在文字大小方便阅读的前提下将完整的一行显示在当前屏幕中,减少翻页的频率,从而提高用户使用电子阅读设备的感受度。
附图说明
图1是本发明具体实施方式中扫描版文档重排版的流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明具体实施方式中扫描版文档重排版的流程图。如图1所示,该扫描版文档重排版的流程适用于电子阅读设备,包括以下步骤:
步骤101、将扫描版文档生成图像,对生成的图像进行采样获得待处理的彩色图像。
采样值采用矩阵fjk形式来表示,矩阵中的每一元素fjk取值如下:
fjk = f(X0+j*dX,Y0+k*dY),
其中,j为0到Mx–1的整数,k为0到My–1的整数,X0和Y0为初始坐标,dX和dY为步长,Mx和My分别为矩阵fjk的列数和行数,即在X、Y方向的采样点数。如果按照原图尺寸进行处理,则取X0=Y0=0,dX=dY=1,如果出于处理速度考虑,需要减小待处理彩色图像的尺寸,则适当增大dX和dY的值。
步骤102、将采样获得的彩色图像转化为灰度图,采用以下公式:
Y=0.299*R+0.587*G+0.114*B,其中R、G和B分别为彩色图像的红色、绿色和蓝色分量,Y为灰度值。
步骤103、采用全局自适应阈值方法将灰度图转换为二值图。如果灰度图是白底黑字,则二值图中文字部分所在像素取值为0,其余部分取值为1。
如果图像本身有倾斜,还需要对二值图进行矫正,进一步包括以下步骤:
首先采用侧面投影的方法确定图像的倾斜角度,投影即把二维平面上的图像信息映射为一维方向上叠加数据,其值的大小表示这个方向上图像白点数目的总和,它表示的是图像的一个全局特征。
采用f(x,y)表示白底黑字的二值图,图像外区域f(x,y) = 1,二值图Mx列、My行,当前的投影方向与X轴成θ角,
Sk=∑jf(Xj,Yk+Xj*tanθ),为一行的投影值,
若Sk等于Mx则取Sk=1,表示该行投影上无黑点,
若Sk小于Mx则取Sk=0,表示该行投影上有黑点,
Tθ= ∑kSk,表示θ角对应的全图投影值,
在限定范围内以预定步长变换θ值,Tθ值最大的角度就是图像的倾斜角度;
根据计算出的倾斜角度,采用二次线性插值将灰度图进行旋转,然后重复将灰度图转换为二值图,得到矫正后的二值图。
步骤104、确定图像中的文字和图片的位置,为重排版做好准备。首先对二值图进行游程平滑,是根据二值图中的数据0和数据1的个数来处理的,预定一个平滑值C,当二值图中连续的1的个数小于等于C时,这一串1将被0所取代。例如C = 4时的平滑结果,
原数值:11111100011110011000111110010011111
平滑后:11111100000000000000111110000011111。
步骤105、对游程平滑处理后的二值图求取值为0的连通域,把同值为0的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息。
步骤106、将初始块进行水平合并,得出文字的行信息和图片位置。依据初始块的尺寸和初始块与初始块之间的水平间距将初始块进行水平合并,高度大于预设值的较大初始块不参加水平合并,被认定为图片,高度较小、小于预设值且水平间距小于预设值的初始块水平合并为一个块。
步骤107、将水平合并后的块进行垂直合并,得出文字段落位置。依据水平合并后的块的尺寸和水平合并后的块与水平合并后的块之间的垂直间距将水平合并后的块进行垂直合并,被认定为图片的初始块不参加垂直合并,高度相近、高度差小于预设值且垂直间距小于预设值的水平合并后的块垂直合并为一个块。
步骤108、根据文字段落位置和图片位置,对段落进行文字切分,首先在段落区域位置内进行水平投影,确定每行文字的位置,然后在一行的区域位置内进行垂直投影,确定每个文字的位置,同时要对过小的块进行合并,过大的块进行分裂。
步骤109、确定各段文字的阅读顺序,根据先验知识确定各段文字的阅读顺序,即从左至右,从上至下的阅读顺序。
步骤110、根据文字段落位置、图片位置和文字段落中文字的位置,将文字和图片按照预先指定的全图宽度和高度排版成新的图像,如果排不全则分多页显示。
步骤111、将排版后的新图像放大或缩小至电子阅读设备需要显示的尺寸。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种扫描版文档重排版的方法,其特征在于,包括以下步骤:
A、将扫描版文档生成图像,对生成的图像进行采样获得待处理的彩色图像;
B、将采样获得的彩色图像转化为二值图;
C、对二值图进行游程平滑;
D、对游程平滑处理后的二值图求取连通域,把同值的且连通的一块区域的外接矩形的位置记录下来,作为初始块位置信息;
E、将初始块进行水平合并,得出文字的行信息和图片位置,依据初始块的尺寸和初始块与初始块之间的水平间距将初始块进行水平合并,高度大于预设值的初始块不参加水平合并,被认定为图片,高度小于预设值且水平间距小于预设值的初始块水平合并为一个块;
F、将水平合并后的块进行垂直合并,得出文字段落位置,依据水平合并后的块的尺寸和水平合并后的块与水平合并后的块之间的垂直间距将水平合并后的块进行垂直合并,被认定为图片的初始块不参加垂直合并,高度差小于预设值且垂直间距小于预设值的水平合并后的块垂直合并为一个块;
G、根据文字段落位置和图片位置,对段落进行文字切分,首先在段落区域位置内进行水平投影,确定每行文字的位置,然后在一行的区域位置内进行垂直投影,确定每个文字的位置;
H、确定各段文字的阅读顺序;
I、根据文字段落位置、图片位置和文字段落中文字的位置,将文字和图片按照预先指定的全图宽度和高度排版成新的图像。
2.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,还包括以下步骤:
J、将排版后的新图像放大或缩小至电子阅读设备需要显示的尺寸。
3.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤A中,对生成的图像进行采样,采样值采用矩阵fjk形式来表示,矩阵中的每一元素fjk取值如下:
fjk=f(X0+j*dX,Y0+k*dY),
其中,j为0到Mx–1的整数,k为0到My–1的整数,X0和Y0为初始坐标,dX和dY为步长,Mx和My分别为矩阵fjk的列数和行数,即在X、Y方向的采样点数。
4.根据权利要求1所述的一种扫描版文档重排版的方法,其特征在于,步骤B进一步包括以下步骤:
B1、将采样获得的彩色图像转化为灰度图;
B2、采用全局自适应阈值方法将灰度图转换为二值图。
5.根据权利要求4所述的一种扫描版文档重排版的方法,其特征在于,步骤B1中,将采样获得的彩色图像转化为灰度图采用以下公式:
Y=0.299*R+0.587*G+0.114*B,其中R、G和B分别为彩色图像的红色、绿色和蓝色分量,Y为灰度值。
6.根据权利要求4所述的一种扫描版文档重排版的方法,其特征在于,步骤B2中,如果灰度图是白底黑字,则二值图中文字部分所在像素取值为0,其余部分取值为1。
7.根据权利要求4或者6所述的一种扫描版文档重排版的方法,其特征在于,步骤B2中,还包括对二值图进行矫正,进一步包括以下步骤:
采用侧面投影的方法确定图像的倾斜角度,
即采用f(x,y)表示白底黑字的二值图,图像外区域f(x,y)=1,二值图Mx列、My行,当前的投影方向与X轴成θ角,
Sk=∑jf(Xj,Yk+Xj*tanθ),为一行的投影值,
若Sk等于Mx则取Sk=1,表示该行投影上无黑点,
若Sk小于Mx则取Sk=0,表示该行投影上有黑点,
Tθ=∑kSk,表示θ角对应的全图投影值,
j为0到Mx-1的整数,k为0到My-1的整数,Xj为当X的初始坐标为X0时,沿X轴第j个点的X坐标值,Yk为当Y的初始坐标为Y0时,沿Y轴第k个点的Y坐标值,
在限定范围内以预定步长变换θ值,Tθ值最大的角度就是图像的倾斜角度;
根据计算出的倾斜角度,采用二次线性插值将灰度图进行旋转,然后重复步骤B2得到矫正后的二值图。
8.根据权利要求1或者6所述的一种扫描版文档重排版的方法,其特征在于,步骤C中,对二值图进行游程平滑是根据二值图中的数据0和数据1的个数来处理的,预定一个平滑值C,当二值图中连续的1的个数小于等于C时,这一串1将被0所取代。
CN201110302266.8A 2011-08-12 2011-10-09 一种扫描版文档重排版的方法 Active CN102890826B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110302266.8A CN102890826B (zh) 2011-08-12 2011-10-09 一种扫描版文档重排版的方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN201110230651 2011-08-12
CN2011102306516 2011-08-12
CN201110230651.6 2011-08-12
CN201110302266.8A CN102890826B (zh) 2011-08-12 2011-10-09 一种扫描版文档重排版的方法

Publications (2)

Publication Number Publication Date
CN102890826A CN102890826A (zh) 2013-01-23
CN102890826B true CN102890826B (zh) 2015-09-09

Family

ID=47534318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110302266.8A Active CN102890826B (zh) 2011-08-12 2011-10-09 一种扫描版文档重排版的方法

Country Status (1)

Country Link
CN (1) CN102890826B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103092989A (zh) * 2013-02-08 2013-05-08 广州市渡明信息技术有限公司 适应终端屏幕的图片显示方法及设备
CN103488619B (zh) * 2013-07-05 2017-05-24 百度在线网络技术(北京)有限公司 一种用于进行文档文件处理的方法及装置
CN105389165B (zh) * 2015-10-21 2019-04-30 广州视睿电子科技有限公司 一种文档图片显示方法、装置及终端
CN108804978B (zh) * 2017-04-28 2022-04-12 腾讯科技(深圳)有限公司 一种版面分析方法及装置
CN108133214B (zh) * 2017-12-25 2021-01-26 广东小天才科技有限公司 一种基于图片纠正的信息搜索方法及移动终端
CN109934210B (zh) 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN110706310B (zh) * 2019-08-23 2021-10-22 华为技术有限公司 一种图文融合方法、装置及电子设备
CN110728129B (zh) * 2019-09-03 2023-06-23 北京字节跳动网络技术有限公司 对图片中的文本内容进行排版的方法、装置、介质和设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276363B (zh) * 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
CN101876967B (zh) * 2010-03-25 2012-05-02 深圳市万兴软件有限公司 一种pdf文本段落生成的方法
CN101937428B (zh) * 2010-08-11 2015-07-22 优视科技有限公司 移动终端设备的带文字内容的图片的重新排版方法及系统

Also Published As

Publication number Publication date
CN102890826A (zh) 2013-01-23

Similar Documents

Publication Publication Date Title
CN102890826B (zh) 一种扫描版文档重排版的方法
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
TWI244047B (en) Image processing device, image processing method, and record medium on which the same is recorded
CN110298282B (zh) 文档图像处理方法、存储介质和计算设备
JP5488530B2 (ja) 画像処理装置及び画像処理プログラム
CN103034856B (zh) 定位图像中文字区域的方法及装置
JP2015122614A (ja) 画像補正装置、及び画像補正方法、プログラム
CN101155248B (zh) 图像处理设备及产生轮廓图像数据的方法
CN102567300A (zh) 图片文档的处理方法及装置
JP2000228722A (ja) 傾き調整及び写真配置のための方法、装置および記録媒体
JP2006246435A (ja) 画像処理装置及びその制御方法、プログラム
JP2011129114A (ja) 検出装置、検出方法、検出プログラム、および記録媒体
CN110163786B (zh) 一种去除水印的方法、装置及设备
US10455163B2 (en) Image processing apparatus that generates a combined image, control method, and storage medium
CN110516554A (zh) 一种多场景多字体中文文字检测识别方法
CN106934806A (zh) 一种基于结构清晰度的无参考图失焦模糊区域分割方法
TWI497420B (zh) 可快速解碼之等灰度二維光學辨識碼裝置及解碼方法
GB2560456A (en) Billboard containing encoded information
CN109543525B (zh) 一种通用表格图像的表格提取方法
CN102915429B (zh) 一种扫描图片匹配方法和装置
WO2011112497A2 (en) Resolution adjustment of an image that includes text undergoing an ocr process
CN100363940C (zh) 一种文稿图像几何畸变的校正方法
CN102890827B (zh) 一种扫描版文档重排版的方法
CN104933430B (zh) 一种用于移动终端的交互式图像处理方法及系统
CN111027545A (zh) 卡证图片标志检测方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant