CN103970723A - 基于图像检测和切割的电子文档屏幕显示方法 - Google Patents

基于图像检测和切割的电子文档屏幕显示方法 Download PDF

Info

Publication number
CN103970723A
CN103970723A CN201410209178.7A CN201410209178A CN103970723A CN 103970723 A CN103970723 A CN 103970723A CN 201410209178 A CN201410209178 A CN 201410209178A CN 103970723 A CN103970723 A CN 103970723A
Authority
CN
China
Prior art keywords
electronic document
line space
row
image
screen display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410209178.7A
Other languages
English (en)
Inventor
翟岩慧
张晶
陈红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi University
Original Assignee
Shanxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi University filed Critical Shanxi University
Priority to CN201410209178.7A priority Critical patent/CN103970723A/zh
Publication of CN103970723A publication Critical patent/CN103970723A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供了一种基于图像检测和切割的电子文档屏幕显示方法,步骤包括:利用文档的图像信息检测文档的格式信息;估算最佳缩放比例并根据最佳缩放比对文档进行缩放;通过目标设备的分辨率来估算可放置行文本图像的宽度,并根据该宽度生成适合屏幕显示的电子文档。本发明能够有效解决由于电子文档中的字体偏大或偏小,而不适合屏幕显示的问题,节约了手工制作电子文档屏幕显示的人力和时间。

Description

基于图像检测和切割的电子文档屏幕显示方法
技术领域
本发明涉及电子信息技术,具体属于一种基于图像检测和切割的电子文档屏幕显示方法。
背景技术
计算机的迅速发展,引发了信息存储的重大变革;而电子文档的出现,也改变了人类的阅读习惯。电子书以其低碳环保(无需木材、煤、化工原料)、简单易携(容量为4G存储器可以存储1000本电子图书)、时间利用率高(可以利用各种零碎时间进行阅读学习)、查找搜索方便(可以利用索引链接、目录链接、模糊查询等快速查找手段)、价廉(电子书的销售价格远低于纸质书)、易复制存储、无损耗等优点迅速吸引了消费者。
然而,由于各种原因,许多不能编辑的电子文档(如PDF、CAJ、PDG、Djvu等格式)的屏幕显示效果并不好。例如,16开本和32开本的电子扫描书的字体并不一致,屏幕阅读体验也不同;有些书籍的字体可能偏大或偏小,需要读者缩放显示。特别是当这些电子文档需要屏幕显示时(如播放幻灯片),这种矛盾尤其突出。专家建议,当使用幻灯片进行电子投影时,所选字体的字号一般要大于28号,而且要设置1.3~1.5倍的行间距。为了达到这一要求,最方便有效的方式是对电子文档进行缩放显示,然而,缩放后的页面宽度和高度一般会远大于屏幕宽度和高度,尤其是字体偏小的电子文档,这一缺点尤其明显。一般来说,页面的高度大于屏幕高度并不会造成阅读的不便,因为演讲者可以通过上下拖动鼠标来调整可视部分;但如果页面的宽度大于屏幕宽度,则演讲者需要每行都来回拖动鼠标来调整可视部分,严重地中断了演讲者和听讲者的思路,影响了演讲或阅读效果。而通过电子文档手工制作幻灯片的方法费时费力,造成了极大的人力浪费。
发明内容
本发明的目的在于,针对电子文档中的字体偏大或偏小,不适合屏幕显示或播放,而手工制作电子幻灯片又造成了极大的人力浪费,提供一种基于图像检测和切割的电子文档屏幕显示方法。
本发明提供的一种基于图像检测和切割的电子文档屏幕显示方法,包括如下步骤:
步骤1:利用图像信息检测电子文档信息,包括电子文档的背景、行间距、行高、行首缩进和段落:
(1)对电子文档的图像进行采样,并根据采样结果计算最有可能的背景颜色。所述的电子文档图像可以通过打印、另存或屏幕截图得到。采样数越多,估算的结果就越准确。该步骤基于假设:电子文档图像中颜色重复出现最多的是背景颜色;
(2)通过对电子文档进行水平图像扫描,得到行间距分布、行高分布和左页边距分布,并估计行间距、行高和行首缩进。此处需注意,行间距可能会在标题、段落前后、甚至含有公式的行表现出显著差异。该步骤基于假设:(1)通过对文档图像中连续出现的相同宽度的背景色块进行检测,可以得到行间距分布和左页边距分布。一般来说,可能的行间距为满足如下条件的块的高度:块的宽度等于文档图像宽度。重复出现次数最多的可能行间距应该为真实行间距。可能的页边距为满足如下条件的块的宽度:块的宽度小于文档图像的一半宽度。重复出现次数最多的可能页边距应该为真实页边距,重复出现次数次多的应该为真实的行首缩进;(2)通过对文档图像中连续出现的相同宽度的非背景色块进行检测,可以得到行高分布。一般来说,重复出现次数最多的可能行高应该为真实行高。
(3)综合行间距分布和行首缩进信息得到段落划分。该步骤基于假设:如果行间距的分布不均匀,就表明该电子文档可能是通过段间距来划分段落的(有些英文文档是通过段间距而非行首缩进来划分段落的);如果行间距的分布均匀,就需要通过行首缩进来划分段落(一些英文文档和大部分中文文档都是通过行首缩进来划分段落的)。
步骤2:通过公式:像素大小=字号*96/72,来计算最终字号的像素大小,再通过公式:最佳缩放比=像素大小/行高,来计算最佳缩放比;
步骤3:根据最佳缩放比对文档图像进行缩放处理,必要时可以对图像进行平滑处理,以强化显示效果;
步骤4:根据最佳缩放比对行间距进行更新:新行间距=旧行间距*最佳缩放比;
步骤5:通过获取目标设备的分辨率来估算可放置的行文本图像的宽度,并依据该宽度生成适合屏幕显示的电子文档,具体子步骤为:
(1)获取目标设备的分辨率,并估算可放置的行文本图像的宽度;
(2)根据更新后的新行间距对电子文档图像按行进行切割得到行文本图像;
(3)根据估算得到的行文本图像宽度对行文本图像进行切割,要保证切割点位于单词和单词或汉字和汉字之间;
(4)根据切割结果编排成最终的电子文档,需要保证段间距大于等于1.5倍的新行间距,行间距调整为1.3~1.5倍的新行间距。
与现有技术相比本发明的优点在于:
(1)因为该发明采用了图像检测和切割的方式来生成最终的电子文档,因此最终生成的电子文档不失真;
(2)该发明基于电子文档图像来生成最终的电子文档,因此能处理任何可以在屏幕上显示的电子文档,包括但不局限于PDF、CAJ、PDG、Djvu等文档格式;
(3)该发明最终生成了基于图像的电子文档,因此可以嵌入到各种支持图像插入的软件中,包括Word、PowerPoint、Photoshop、Excel等软件。
附图说明
图1 为本发明具体实施方式流程图
图2 为本发明具体实施方式采用的实验电子文档
图3 为本发明具体实施方式的文档背景颜色检测
图4 为本发明具体实施方式的行间距检测结果
图5 为本发明具体实施方式的行高检测结果
图6 为本发明具体实施方式的行首缩进检测结果
图7 为本发明具体实施方式的最终显示效果
具体实施方式
下面将结合实例给出具体的实施方案。
步骤1:利用图像信息检测电子文档信息:
(1)对电子文档的图像进行采样,并根据采样结果计算最有可能的背景颜色。电子文档图像如图2所示,其分辨率为2776×1831。我们采样100个点,并计算采样结果。结果表明,100个采样点中有96个点的颜色为白色(255,255,225),因此该电子文档的背景色为白色。部分采样结果如图3所示,为了演示效果,我们对采样点进行了圆圈标注。
(2)通过对电子文档进行水平图像扫描,得到行间距分布、行高分布和左页边距分布,并估计行间距、行高和行首缩进。算法运行表明:该电子文档共有45个可能的行间距(均为宽度等于1831像素的背景色块):
139 13 45 11 12 12 12 12 12 12 12 11 11 12 12 12 12 12 12 11 37 11 1212 12 12 12 12 12 11 37 12 12 12 12 12 12 11 11 11 117 73 55 66 139
其中,可能行间距为12像素的色块占57.78%,为11像素的色块占20.8%,因此该文档的可能行间距为12像素。可能行间距在图4中进行了标注,图中并没有对取值为12像素和11像素的行间距进行标注。计算还发现,该电子文档有44个可能的行高:
31 5 39 39 38 38 38 38 38 38 39 39 39 38 38 38 38 38 39 39 39 39 3838 38 38 38 38 39 39 39 38 38 38 38 38 39 39 39 39 30 39 38 41
其中,可能行高为38像素的文字块占52.27%,为39像素的文字块占38.64%,因此该文档可能行高为38像素。可能行高在图5中进行了标注,图中并没有对取值为38像素和39像素的行高进行标注。另外,宽度小于文档图像的一半宽度的块主要分布在218像素和270像素,这说明页边距应该为218像素,行首缩进应该为270像素,如图6所示。
(3)综合行间距分布和行首缩进信息得到段落划分。对行间距的分布进行分析发现,行间距的变化主要集中在文档的开头和结尾,这说明该电子文档是使用行首缩进来划分段落的。因此可以根据行首缩进得到段落划分。注意图6中对编号文本的缩进检测结果与段落的缩进检测结果一致,为了防止将编号项认定为段落,可以尝试记录含有数字编号行的缩进,并与后续的文本缩进进行对比。如果后续多行文本的缩进基本相等,并且大于数字编号行的缩进,就可以判定这些文本行属于项目编号项或项目符号项。
步骤2:通过公式:像素大小=字号*96/72,来计算最终字号的像素大小,再通过公式:最佳缩放比=像素大小/行高,来计算最佳缩放比。我们需要42号字体,因此需要42*96/72≈56像素大小的字体,而56/38≈1.5即为最佳缩放比。
步骤3:根据最佳缩放比对文档图像进行缩放处理。我们需要对该电子文档图像放大1.5倍。
步骤4:根据最佳缩放比对行间距进行更新:新行间距=旧行间距*1.5。我们得到新行间距为12*1.5=18像素。
步骤5:通过获取目标设备的分辨率来估算可放置的行文本图像的宽度,并依据该宽度生成适合屏幕显示的电子文档:
(1)获取目标设备的分辨率,并估算可放置的行文本图像的宽度。我们设备的分辨率为:1024×768。为了演示效果,我们添加了左右页边距各50像素,因此使用1024-50*2=924像素作为可放置的行文本图像的宽度;
(2)根据更新后的新行间距对电子文档图像按行进行切割得到行文本图像;
(3)根据估算得到的行文本图像宽度对行文本图像进行切割;
(4)根据切割结果编排成最终的电子文档,需要保证段间距大于等于1.5倍的新行间距,行间距调整为1.3~1.5倍的新行间距。我们将段间距设置为1.5倍的新行间距:1.5*18=27像素,将行间距设置为1.3倍的新行间距:1.3*18≈23像素。我们将切割后的图像嵌入到MicrosoftPowerPoint中,部分编排结果如图7所示,其中的图像边框是为了演示切割效果而加上的。
以上所述仅为本发明的主要实施方式而已,对于含有干扰信息的电子文档(如文档含有水印、文档含有边注、文档为双栏或多栏),我们可以对这些情况进行额外处理。上述实施方式并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (3)

1.一种基于图像检测和切割的电子文档屏幕显示方法,其特征在于包括如下步骤:
步骤1:利用图像信息检测电子文档信息,包括电子文档的背景颜色、行间距、行高、行首缩进和段落;
步骤2:通过公式:像素大小=字号*96/72,来计算最终字号的像素大小,再通过公式:最佳缩放比=像素大小/行高,来计算最佳缩放比;
步骤3:根据最佳缩放比对电子文档进行缩放处理;
步骤4:根据最佳缩放比对行间距进行更新:新行间距=旧行间距*最佳缩放比;
步骤5:通过获取目标设备的分辨率来估算可放置的行文本图像的宽度,并依据该宽度生成适合屏幕显示的电子文档。
2.根据权利要求1所述的一种基于图像检测和切割的电子文档屏幕显示方法,其特征在于:步骤1中所述的利用图像信息检测电子文档信息,是按照如下子步骤实现的:
(1)对电子文档的图像进行采样,并根据采样结果计算最有可能的背景颜色;
(2)通过对电子文档进行水平图像扫描,得到行间距分布、行高分布和左页边距分布,并估计行间距、行高和行首缩进;
(3)综合行间距和行首缩进的信息得到段落划分。
3.根据权利要求1所述的一种基于图像检测和切割的电子文档屏幕显示方法,其特征在于:步骤5中所述的生成适合屏幕显示的电子文档,是按照如下子步骤实现的:
(1)获取目标设备的分辨率,并估算可放置的行文本图像的宽度;
(2)根据更新后的新行间距对电子文档图像按行进行切割得到行文本图像;
(3)根据估算得到的行文本图像宽度对行文本图像进行切割,要保证切割点位于单词和单词或汉字和汉字之间;
(4)根据切割结果编排成最终的电子文档,需要保证段间距大于或等于1.5倍的新行间距,行间距调整为1.3~1.5倍的新行间距。
CN201410209178.7A 2014-05-16 2014-05-16 基于图像检测和切割的电子文档屏幕显示方法 Pending CN103970723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410209178.7A CN103970723A (zh) 2014-05-16 2014-05-16 基于图像检测和切割的电子文档屏幕显示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410209178.7A CN103970723A (zh) 2014-05-16 2014-05-16 基于图像检测和切割的电子文档屏幕显示方法

Publications (1)

Publication Number Publication Date
CN103970723A true CN103970723A (zh) 2014-08-06

Family

ID=51240241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410209178.7A Pending CN103970723A (zh) 2014-05-16 2014-05-16 基于图像检测和切割的电子文档屏幕显示方法

Country Status (1)

Country Link
CN (1) CN103970723A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882033A (zh) * 2015-06-19 2015-09-02 山西大学 一种交互式电子板装置及有效利用电子教学资源的方法
CN105528333A (zh) * 2015-12-15 2016-04-27 网易(杭州)网络有限公司 一种文档优化显示的方法和装置
CN108549643A (zh) * 2018-04-08 2018-09-18 北京百度网讯科技有限公司 翻译处理方法和装置
CN112685924A (zh) * 2021-03-17 2021-04-20 北京润尼尔网络科技有限公司 虚拟仿真资源与虚拟仿真实验管理平台数据交互方法
CN114969464A (zh) * 2021-10-15 2022-08-30 淮阴师范学院 基于毫米波通信的智能可视化显示系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313577A1 (en) * 2005-12-20 2009-12-17 Liang Xu Method for displaying documents
CN102057369A (zh) * 2008-04-15 2011-05-11 Opera软件股份公司 用于当显示电子文档的选定区域时动态地文本换行的方法和设备
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN103049167A (zh) * 2011-11-02 2013-04-17 微软公司 文档中的对象和文本的最佳显示和缩放

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090313577A1 (en) * 2005-12-20 2009-12-17 Liang Xu Method for displaying documents
CN102057369A (zh) * 2008-04-15 2011-05-11 Opera软件股份公司 用于当显示电子文档的选定区域时动态地文本换行的方法和设备
CN103049167A (zh) * 2011-11-02 2013-04-17 微软公司 文档中的对象和文本的最佳显示和缩放
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104882033A (zh) * 2015-06-19 2015-09-02 山西大学 一种交互式电子板装置及有效利用电子教学资源的方法
CN104882033B (zh) * 2015-06-19 2018-01-05 山西大学 一种交互式电子板装置及有效利用电子教学资源的方法
CN105528333A (zh) * 2015-12-15 2016-04-27 网易(杭州)网络有限公司 一种文档优化显示的方法和装置
CN105528333B (zh) * 2015-12-15 2019-06-07 网易(杭州)网络有限公司 一种文档优化显示的方法和装置
CN108549643A (zh) * 2018-04-08 2018-09-18 北京百度网讯科技有限公司 翻译处理方法和装置
CN108549643B (zh) * 2018-04-08 2022-08-05 北京百度网讯科技有限公司 翻译处理方法和装置
CN112685924A (zh) * 2021-03-17 2021-04-20 北京润尼尔网络科技有限公司 虚拟仿真资源与虚拟仿真实验管理平台数据交互方法
CN114969464A (zh) * 2021-10-15 2022-08-30 淮阴师范学院 基于毫米波通信的智能可视化显示系统

Similar Documents

Publication Publication Date Title
US8593666B2 (en) Method and system for printing a web page
CN103020619B (zh) 一种自动切分电子化笔记本中手写条目的方法
US8515176B1 (en) Identification of text-block frames
CN103970723A (zh) 基于图像检测和切割的电子文档屏幕显示方法
US20140325348A1 (en) Conversion of a document of captured images into a format for optimized display on a mobile device
US20150228045A1 (en) Methods for embedding and extracting a watermark in a text document and devices thereof
CN104574454B (zh) 图像的处理方法及装置
US8712166B2 (en) Difference detecting apparatus, difference output apparatus, and medium
US20130227407A1 (en) Method and device for displaying an electronic document
US8386943B2 (en) Method for query based on layout information
US8804139B1 (en) Method and system for repurposing a presentation document to save paper and ink
CN104915332A (zh) 一种生成排版模板的方法及装置
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
US9734132B1 (en) Alignment and reflow of displayed character images
US20140157116A1 (en) Method and Device for Determining a Display Mode of Electronic Documents
CN107103312A (zh) 一种图片处理方法及装置
CN102799398B (zh) 表体缩放装置和表体缩放方法
US10095677B1 (en) Detection of layouts in electronic documents
CN109522539A (zh) 基于移动设备的pdf学术论文重排版系统及方法
CN102521219A (zh) 版式与流式混合排版系统及其排版方法
CN104516919B (zh) 一种引用注释处理方法和系统
US9110926B1 (en) Skew detection for vertical text
CN107861931B (zh) 模板文件处理方法、装置、计算机设备和存储介质
CN111198664A (zh) 一种文档打印的方法、装置、计算机存储介质及终端
CN112365402B (zh) 智能组卷方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140806

RJ01 Rejection of invention patent application after publication