CN101540041B

CN101540041B - 一种扫描文档浏览适配方法

Info

Publication number: CN101540041B
Application number: CN2008101024953A
Authority: CN
Inventors: 蒋树强; 黄庆明; 陈熙霖; 高文
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2008-03-21
Filing date: 2008-03-21
Publication date: 2012-06-27
Anticipated expiration: 2028-03-21
Also published as: CN101540041A

Abstract

本发明公开了一种扫描文档浏览适配方法，包括下列步骤：步骤A，对输入的扫描文档的原始页面图像，进行预处理，去掉噪音和不必要的背景信息；步骤B，判断并将所述原始页面图像划分为多个大横向部分，对每个大横向部分根据电子设备的屏幕宽度大小进行适配的分析处理；步骤C，根据分析处理结果，确定新的适配页面图像的版式安排，生成最后结果。其对扫描的图像格式的电子文档，自动转换为可供小尺寸屏幕阅读的版面模式，方便用户的使用。

Description

一种扫描文档浏览适配方法

技术领域

本发明涉及计算机图像处理及多媒体领域，特别是涉及一种扫描电子文档的图像在小尺寸屏幕上浏览时的浏览适配方法。

背景技术

随着移动通信技术的飞速发展，手机等小屏幕设备的普及面越来越广。手机的功能已经不仅仅是在打电话和发短信，拍照、听歌、录音、观看本地视频等多媒体功能也已经出现。

但是，手机等移动设备的屏幕往往非常有限，通常只有2.5英寸左右，并且较高的分辨率也就是达到240×320左右。

很多手机等小屏幕电子设备都可以用来阅读电子书中的电子文档，有面向文本格式的(如TXT、DOC等格式)，这种电子文档中的内容版式(包括字体格式、字体大小、行距、背景颜色)可以根据屏幕大小进行调整。

但是，很多电子书中的电子文档都是以某种图像模式扫描而成的，如超星公司的pdg格式，Adobe公司的pdf格式等。这种图像格式电子文档的页面篇幅都比较大，不适合在较小屏幕的手机等电子设备上阅读，这种情况下或者屏幕中的字非常小，不能阅读，或者只显示电子文档图片中的一部分内容，需要繁琐的不断调整才可以看完整页，而不能像文本格式的电子书中的电子文档一样可以直接适配浏览。

发明内容

本发明的目的在于提供一种扫描文档浏览适配方法，其对扫描的图像格式的电子文档，自动转换为可供小尺寸屏幕阅读的版面模式，方便用户的使用。

为实现本发明目标而提供的一种扫描文档浏览适配方法，包括下列步骤：

步骤A，对输入的扫描文档的原始页面图像，进行预处理，去掉噪音和不必要的背景信息；

步骤B，判断并将所述原始页面图像划分为多个大横向部分，对每个大横向部分根据电子设备的屏幕宽度大小进行适配的分析处理；

步骤C，根据分析处理结果，确定新的适配页面图像的版式安排，生成最后结果。

所述步骤A包括下列步骤：

步骤A1，针对输入所述原始页面图像，采用中值滤波去噪方法去除各种噪声；

步骤A2，通过图像二值化或者锐化处理把所述原始页面图像中的主要内容凸现出来；

步骤A3，通过直线检测图像处理方法确定所述原始页面图像中是否有整体的页框，是否有页眉和页脚信息，若有则记录保存。

所述步骤A1中，所述噪声包括原始扫描文档中存在的噪声、在扫描过程中产生的噪声、以及图像版面中与主要内容无关的背景噪音中的一种或者一种以上的组合。

所述步骤B包括下列步骤：

步骤B1，投影并判断所述原始页面图像，将所述原始页面图像划分为多个大横向部分；

步骤B2，对每一个大横向部分进行分析，判定是否为整体插图部分，并进行分析处理；

步骤B3，对每一个非整体插图的大横向部分进行分析，确定此部分是否有分栏以及相应的栏数；

步骤B4，对每一个非整体插图的大横向部分进行分析，确定此部分是否有栏内的插图；

步骤B5，对每一个非整体插图的大横向部分进行分析，确定该部分中的文字段落数，以及每一段之间的位置信息；

步骤B6，对原始页面图像中的每一个文字段落，根据显示屏幕的宽度重新分行成段，进行适配转换，生成新的文字段落适配子图像；

步骤B7，对于原始页面图像中出现的插图进行处理，并生成转化的插图适配子图像。

所述步骤B1包括下列步骤：

对所述原始页面图像首先进行横向投影处理，通过对投影结果的模式进行统计分析，判断其中的大横向部分，并记下各大横向部分的纵向开始和结束点，该各大横向部分的坐标原点可以为原始页面图像或者各大横向部分图像的左上角。

所述大横向部分，包括正文部分或者正文中的一部分文字段落，以及标题信息部分、作者信息部分、章节标题部分、整行的插图及其标号部分中的一种或者一种以上的组合。

所述步骤B1，还包括下列步骤：

对原始页面图像，重复进行多次的横向投影处理，直到把所有可能的大横向部分都提取出来。

所述步骤B1中，所述判断过程为：

对原始页面图像，判断其是否有一致的模式；或者判断大横向部分是否有明显的分隔区域。

所述步骤B2包括下列步骤：

对每一个横向部分看成一个图像，提取特征，根据预设的训练数据，采用C4.5决策树训练出分类模型，并据此进行大横向部分的插图检测，并记下插图的纵向起始坐标和横向起始坐标。

所述特征为采用图像特征为横向和纵向的投影向量、投影向量的均值和方差、共生矩阵纹理特征中的一种或者一种以上的组合。

所述步骤B3包括下列步骤：

在每一个大横向部分的分栏检测中，对其进行纵向投影，对投影向量进行统计分析，根据每栏之间的距离分隔都较大的特点，判断该部分是否有分栏，以及分为几栏，并记下对每栏的起始和终止坐标，若只有一栏则记下该横向部分的起始和终止坐标。

所述步骤B4包括下列步骤：

如果扫描页面中的大横向部分有分栏，则对每一栏进行纵向投影，确定每一栏的小横向部分，并对每一小横向部分，按照与整体插图检测方法一样的步骤，即重复步骤B2，检测出分栏中的插图，并记下插图的纵向起始坐标和横向起始坐标。

所述步骤B5包括下列步骤：

首先采用纵向投影的方法把横向部分的每一行检测出来，并记下每一行的纵向开始和结束坐标，以及行高和行间距信息，以及每一行的横向开始和结束坐标；

如果大横向部分为标题或者章节标题部分，则通过横向和纵向投影的方法进行检测并把标题看成为一个文字段落；

对于大横向部分的正文段落，根据正文段落的特点，以及所提取的每行的横向坐标信息，检测出每个横向部分的文字段落，并记录其纵向的开始和结束坐标。

所述步骤B6包括下列步骤：

步骤B61，确定随后需要产生适配子图像的页边左空白和右空白，它们对所有文字段落子图像都是一致的；

步骤B62，对每一个文字段落进行处理，并生成转化的文字段落适配子图像。

所述步骤B62包括下列步骤：

步骤B621，对原始文字段落的第一行，选取两字之间的分隔点位置，使得该分隔点的横坐标与该行起始点的横坐标之差小于目标子图像的宽度，同时下一个两字间分隔点的横坐标与该行起始点的横坐标之差大于目标子图像的宽度，并把该行的这一部分截取下来，作为目标子图像的第一行，行高仍为文字段落的每一行的行高；

步骤B622，选取下两字之间的分隔点位置，使得该分隔点的横坐标与分隔点的横坐标之差小于目标子图像的宽度，同时下一个两字间分隔点的横坐标与分隔点的横坐标之差大于目标子图像的宽度，并把该行的这一部分截取下来，作为子图像的下一行，行距仍为文字段落的行距；并刷新目标的分隔点的横坐标为分隔点的横坐标；

步骤B623，重复步骤B622，直到该行的结束点坐标与分隔点的横坐标之差小于目标子图像的宽度；

步骤B624，选取第二行的两字之间的分隔点位置，使得该分隔点的横坐标与该行起始点的横坐标之差小于目标子图像的宽度与分隔点的横坐标之差，同时下一个两字间的分隔点的横坐标与该行起始点的横坐标之差大于目标子图像的宽度与分隔点的横坐标之差，并把上一行中的最后部分和此行中的开始部分合为一行作为适配页面图像的新一行，并刷新目前分隔点的横坐标；

步骤B625，按照步骤B624依次重复下去，直到该文字段落中所有的行都被处理，这样就生成了该文字段落的适配子图像。

所述步骤B62还包括下列步骤：

步骤B626，最后一行根据纵向投影的分析结果可确定最后的字符，因此最后一行只处理到最后的字符即可。

所述步骤B62还包括下列步骤：

在重新分行成段时，若该扫描页有页眉和页脚，则重复步骤B621～B626进行处理，生成页眉和页脚段落的子图像，且其行间距和行高都不变。

所述步骤B7包括下列步骤：

对于原始图像页中出现的插图，包括整体插图和栏内插图，首先确定其对应的图标和说明行，并采用图像处理的技术，转化成电子设备的屏幕宽度大小适配尺度，得到插图子图像，并确定转换后的插图在最后结果中的位置。

所述步骤C中，根据分析结果，把所有的子图像合并到一起，生成最后的适配页面图像，包括下列步骤：

步骤C1，确定适配页面图像的页边上空白；

步骤C2，若原始页面图像有页眉，则在适配页面图像中把页眉段落子图像排在页边上空白之后，两边分别加上左页边空白和右页边空白，并在最后加上一行直线，以显示为页眉区域；

步骤C3，对其它产生的文字段落子图像或插图子图像，根据其在原始页面图像的顺序位置，按先后顺序分别排在适配页面图像上，两边分别加上左页边空白和右页边空白；直到对所有的非页脚文字段落或插图进行了处理；

步骤C4，若原始页面图像有页脚，则在上一个文字段落之后加入一行直线，以显示为页脚区域；并在适配页面图像中把页脚文字段落子图像排在直线之后，两边分别加上左页边空白和右页边空白；

步骤C5，确定适配页面图像的页边下空白。

所述的扫描文档浏览适配方法，还包括下列步骤：

步骤D，判断是否有未处理的扫描文档的原始页面图像，如果有，则重复步骤A～C，对新的未处理的原始页面图像进行处理；否则，结束返回。

本发明的有益效果是：本发明的扫描文档浏览适配方法，对图像格式的电子扫描文档页面进行分析，采用图像处理的方法，将扫描文档转换成适合小尺寸屏幕浏览的页面，可以使手机等小屏幕设备更方便、智能的浏览电子文档内容，其一方面可以促进电子版的图书信息更广泛传播，另一方面也使得手机、PDA等小屏幕电子设备的功能更强大、智能性更强。

附图说明

图1为本发明扫描文档浏览适配方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种扫描文档浏览适配方法进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明对图像格式的扫描电子文档进行分析，并给出可以自动转换给小尺寸屏幕设备的浏览适配方法，下面结合附图详细说明本发明的扫描文档浏览适配方法，包括如下步骤：

步骤S100，对输入的扫描文档的原始页面图像，进行预处理，去掉噪音和不必要的背景信息；

针对输入的扫描文档的原始图像页OriginalImage，本发明首先采用中值滤波等去噪方法去除各种噪声，包括原始扫描文档中存在的噪声、在扫描过程中产生的噪声、以及图像版面中与主要内容无关的背景噪音；其次，可以通过图像二值化或者锐化处理把原始图像页中的主要内容凸现出来；再次，通过直线检测等图像处理方法确定该原始图像页中是否有整体的页框，是否有页眉和页脚信息，若有则记录保存。

步骤S200，判断并将所述原始页面图像划分为多个大横向部分，对每个大横向部分进行根据电子设备的屏幕宽度大小进行适配的分析处理；

该步骤S200包括下列步骤：

步骤S210，投影并判断原始页面图像，将所述原始页面图像划分为多个大横向部分；

对原始页面图像首先进行横向的投影处理，通过对投影结果的模式进行统计分析，判断其中的大横向部分，并记下各大横向部分的纵向开始和结束点，该各大横向部分的坐标原点按照图像处理的常用习惯可以为原始页面图像或者该各大横向部分图像的左上角。

较佳地，对原始页面图像，重复进行多次的横向投影处理，直到把所有可能的大横向部分都提取出来。

作为一种可实施方式，所述判断可以是对原始页面图像，判断其是否有一致的模式，如字体大小、行间距是否一致，其相同度大于规定的阀值等；或者判断大横向部分是否有明显的分隔区域，即其分隔区域大于规定的阀值。

步骤S220，对每一个大横向部分进行分析，判定是否为整体插图部分，并进行分析处理；

对每个大横向部分进行分类，以确定其为插图部分，还是文字部分。在这个步骤中，对每一个横向部分看成一个图像，提取特征，可采用图像特征为横向和纵向的投影向量、投影向量的均值和方差、共生矩阵纹理特征等，根据预设的训练数据，采用C4.5决策树训练出分类模型，并据此进行大横向部分的插图检测，并记下插图的纵向起始坐标和横向起始坐标。

步骤S230，对每一个非整体插图的大横向部分进行分析，确定此部分是否有分栏以及相应的栏数；

在每一个大横向部分的分栏检测中，对其进行纵向投影，对投影向量进行统计分析，根据每栏之间的距离分隔都较大的特点，判断该部分是否有分栏(纵向部分)，以及分为几栏等，并记下对每栏的起始和终止坐标，若只有一栏则记下该横向部分的起始和终止坐标。

步骤S240，对每一个非整体插图的大横向部分进行分析，确定此部分是否有栏内的插图；

如果扫描页面中的大横向部分有分栏，则对每一栏进行纵向投影，确定每一栏的小横向部分，并对每一小横向部分，按照与整体插图检测方法一样的步骤，即重复步骤S220，检测出分栏中的插图，并记下插图的纵向起始坐标和横向起始坐标。

步骤S250，对每一个非整体插图的大横向部分进行分析，确定该部分中的文字段落数，以及每一段之间的位置信息；

对大横向部分检测文字段落。首先采用纵向投影的方法把横向部分的每一行检测出来，并记下每一行的纵向开始和结束坐标，以及行高和行间距等信息，以及每一行的横向开始和结束坐标。

如果大横向部分为标题或者章节标题部分，一般只占有一行或者居中多行，则可以通过横向和纵向投影的方法进行检测并把标题看成为一个文字段落。

对于大横向部分的正文段落，一般具有以下特点：1)首行一般有缩进；2)最后一行一般比段中的其它行先结束。根据这两个特点，以及所提取的每行的横向坐标信息，检测出每个横向部分的文字段落，并记录其纵向的开始和结束坐标。

较佳地，如果有分栏，则对每一栏进行分析处理，若分栏中有栏内的插图，则隔开此部分进行处理；

步骤S260，对扫描页中的每一个文字段落根据显示屏幕的宽度重新分行成段，进行适配转换，生成新的文字段落子图像；

具体地，所述步骤S260包括下列步骤：

步骤S261，确定随后需要产生适配子图像的页边左空白和右空白，它们对所有文字段落子图像都是一致的；

设目标电子设备的屏幕大小的宽度和高度分别为Tar_x和Tar_y，那么一个确定子图像的页边左空白和右空白的方法可设为：左空白＝Tar_x/10，右空白＝Tar_x/10。

步骤S262，对每一个文字段落进行处理，并生成转化的文字段落适配子图像。

设目标子图像的宽度为Tarimage_x＝(Tar_x)*4/5。

作为一种可实施方式，设文字段落的每一行的行高line_x，行宽为line_y(第一行的宽度从缩进前开始计算)，行距为lineD_x，对文字段落中的每一行进行纵向投影，据此获得分隔行中两字的中间分隔点。

具体的适配转换过程为：

对原始文字段落的第一行，选取两字之间的分隔点位置，使得该分隔点的横坐标与该行起始点的横坐标之差小于Tarimage_x，同时下一个两字间分隔点的横坐标与该行起始点的横坐标之差大于Tarimage_x，并把该行的这一部分截取下来，作为目标子图像的第一行，行高仍为line_x。

记分隔点的横坐标为O_x，选取下两字之间的分隔点位置，使得该分隔点的横坐标与O_x之差小于Tarimage_x，同时下一个两字间分隔点的横坐标与O_x之差大于Tarimage_x，并把该行的这一部分截取下来，作为子图像的下一行，行距仍为lineD_x；并刷新目标的分隔点的横坐标为O_x。

重复此步骤，直到该行的结束点坐标与O_x之差小于Tarimage_x。

选取第二行的两字之间的分隔点位置，使得该分隔点的横坐标与该行起始点的横坐标之差小于Tarimage_x-O_x，同时下一个两字间的分隔点的横坐标与该行起始点的横坐标之差大于Tarimage_x-O_x，并把上一行中的最后部分和此行中的开始部分合为一行作为适配页面图像的新一行，并刷新目前分隔点的横坐标O_x；

按照此步骤依次重复下去，直到该文字段落中所有的行都被处理，这样就生成了该文字段落的适配子图像。

较佳地，最后一行根据纵向投影的分析结果可确定最后的字符，因此最后一行只处理到最后的字符即可。

更佳地，在重新分行成段时，若该扫描页有页眉和页脚，则采用同样的方法进行处理，生成页眉和页脚段落的子图像，且其行间距和行高都不变。

步骤S270，对于原始图像页中出现的插图进行处理，并生成转化的插图适配子图像。

对于原始图像页中出现的插图，包括整体插图和栏内插图，首先确定其对应的图标和说明行，并采用图像处理的技术，如Photoshop等图像处理技术，转化成电子设备的屏幕宽度大小适配尺度，得到插图子图像，并确定转换后的插图在最后结果中的位置。

对每一个插图进行处理，并生成转化的插图适配子图像。设目标子图像的宽度为Tarimage_x＝(Tar_x)*4/5。

设原始插图的高度和宽度分别为Graph_x和Graph_y，则目标子图像的高度为Graph_y*Tarimage_x/Graph_x，通过图像的Resize操作，对原始插图调整成目标图像的大小。

设该插图出现原始页面的文字段落为ParaA，则在最后的适配页面中该插图适配子图像的出现位置为ParaA的文字段落转换子图像的后面。

步骤S300，根据分析处理结果，确定新的适配页面图像的版式安排，生成最后结果。

根据步骤S200对扫描文档的原始页面图像的分析处理结果，确定新的图像版式安排，把页眉和页脚子图像分别放在新生成的电子版面的最前和最后；然后把每一个文字段落子图像按照先后顺序安排在新的结果图像上，插图子图像则根据其确定位置插入其中，生成最后结果。

具体地，根据步骤S200的分析结果，把所有的子图像合并到一起，生成最后的适配页面图像ResultImage，宽度为Tar_x。具体的步骤如下：

步骤S310，确定适配页面图像ResultImage的页边上空白；

作为一种可实施的方式，一个确定子图像的页边上空白方法为：上空白＝Tar_y/3；

步骤S320，若原始页面图像OriginalImage有页眉，则在适配页面图像ResultImage中把页眉段落子图像排在页边上空白之后，两边分别加上左页边空白和右页边空白，并在最后加上一行直线，以显示为页眉区域；

步骤S330，对其它产生的文字段落子图像或插图子图像，根据其在原始页面图像OriginalImage的顺序位置，按先后顺序分别排在适配页面图像ResultImage上，两边分别加上左页边空白和右页边空白；直到对所有的非页脚文字段落或插图进行了处理；

步骤S340，若原始页面图像OriginalImage有页脚，则在上一个文字段落之后加入一行直线，以显示为页脚区域；并在适配页面图像ResultImage中把页脚文字段落子图像排在直线之后，两边分别加上左页边空白和右页边空白；

步骤S350，确定适配页面图像ResultImage的页边下空白。

作为一种可实施方式，一个确定子图像的页边下空白方法为：下空白＝Tar_y/3。

步骤S400，判断是否有未处理的扫描文档的原始页面图像，如果有，则重复步骤S100～S300，对新的未处理的原始页面图像进行处理；否则，结束返回。

通过以上的方法，可以把原始扫描文档中的扫描页图像自动转换为供小屏幕设备进行阅读的适配格式，该方法对可能出现的页面情况都进行了考虑，如页眉页脚、(图书、论文、章节)标题、插图等。每一幅输入的原始图像可以转化为适配的结果图像，这样就可以使用户在使用小屏幕设备时，只需按上下按键就可以方便地阅读页面。更佳地，若有多幅页面进行处理，则可以采用同样的方法产生。

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

Claims

1.一种扫描文档浏览适配方法，其特征在于，包括下列步骤：

步骤C，根据分析处理结果，确定新的适配页面图像的版式安排，生成最后结果；

所述步骤B包括下列步骤：

步骤B7，对于原始页面图像中出现的插图进行处理，并生成转化的插图适配子图像；

所述步骤B1包括下列步骤：

对所述原始页面图像首先进行横向投影处理，通过对投影结果的模式进行统计分析，判断其中的大横向部分，并记下各大横向部分的纵向开始和结束点，所述各大横向部分的坐标原点为原始页面图像或者所述各大横向部分图像的左上角。

2.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤A包括下列步骤：

3.根据权利要求2所述的扫描文档浏览适配方法，其特征在于，所述步骤A1中，所述噪声包括原始扫描文档中存在的噪声、在扫描过程中产生的噪声、以及图像版面中与主要内容无关的背景噪音中的一种或者一种以上的组合。

4.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述大横向部分，包括正文部分或者正文中的一部分文字段落，以及标题信息部分、作者信息部分、章节标题部分、整行的插图及其标号部分中的一种或者一种以上的组合。

5.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B1，还包括下列步骤：

6.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B1中，所述判断过程为：

7.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B2包括下列步骤：

8.根据权利要求7所述的扫描文档浏览适配方法，其特征在于，所述特征为采用图像特征为横向和纵向的投影向量、投影向量的均值和方差、共生矩阵纹理特征中的一种或者一种以上的组合。

9.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B3包括下列步骤：

10.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B4包括下列步骤：

11.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B5包括下列步骤：

12.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B6包括下列步骤：

13.根据权利要求12所述的扫描文档浏览适配方法，其特征在于，所述步骤B62包括下列步骤：

14.根据权利要求13所述的扫描文档浏览适配方法，其特征在于，所述步骤B62还包括下列步骤：

15.根据权利要求13或14所述的扫描文档浏览适配方法，其特征在于，所述步骤B62还包括下列步骤：

16.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤B7包括下列步骤：

17.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，所述步骤C中，根据分析结果，把所有的子图像合并到一起，生成最后的适配页面图像，包括下列步骤：

步骤C1，确定适配页面图像的页边上空白；

步骤C5，确定适配页面图像的页边下空白。

18.根据权利要求1所述的扫描文档浏览适配方法，其特征在于，还包括下列步骤：