CN103853849B

CN103853849B - 高压缩可回流文件的建立和绘制方法

Info

Publication number: CN103853849B
Application number: CN201410121306.2A
Authority: CN
Inventors: 龚如宾
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-03-28
Filing date: 2014-03-28
Publication date: 2017-01-11
Anticipated expiration: 2034-03-28
Also published as: CN103853849A

Abstract

本发明涉及一种高压缩可回流文件的建立和绘制方法，通过对文件几何区域的位置信息和类型信息分析，生成高压缩版式文件及版式文档结构描述信息；针对版式数字书籍通过将页面图像按照压缩特性分成不同的层，使用基于Mixed Raster Content技术进行压缩；针对文字格式的版式数字书籍，也可使用基于更高压缩率的文字格式版式书籍压缩技术进行压缩；针对使用标记语言描述的版式文档页面描述信息和逻辑结构描述信息，使用标记语言感知压缩技术进行压缩；大幅提高压缩效率；并提出了版式文档页面图像展开和版式文档结构描述信息展开的并行处理方法；和按页和按照文档逻辑结构进行可回流两种绘制方式，保证在不同尺寸的输出媒体上根据输出媒体的尺寸来进行自适应绘制。

Description

高压缩可回流文件的建立和绘制方法

技术领域

本发明涉及一种数字化信息管理技术，特别涉及一种高压缩可回流文件的建立和绘制方法。

背景技术

目前文字格式的数字书籍已经成为移动阅读的主流，比如EPUB格式的书籍和美国AMAZON公司的AZW格式的数字书籍等等。使用文字格式数字书籍的优势在于容量小、支持检索和可回流阅读等功能。很多传统的出版机构或个人需要把纸书籍扫描成可以在移动终端上阅读的数字书籍，以便能够移动阅读。

目前在移动终端上阅读数字书籍的瓶颈主要在于扫描的数字书籍，比如扫描的PDF或TIFF格式的书籍属于版式文档，不含有数字书籍版面逻辑结构和几何结构的描述，无法根据屏幕的尺寸进行屏幕自适应阅读。另外，图像格式的版式文档往往容量很大，通过移动终端在线下载往往耗费大量的时间，因此需要有效的压缩算法来对数字书籍图像和数字书籍版面逻辑结构和几何结构的描述进行压缩，以适应在线阅读的要求。如果使用传统的光学字符识别OCR技术，在字符识别和字体识别上目前都存在问题，往往需要大量的校对和纠错工作，需要较高的成本,转换出来的文字格式的数字书籍丢失了字体等信息。

和本发明相关的技术文献一、专利文件1: 中国专利，申请号：201310188492.7 ，基于层次式索引的版式可回流文件建立和绘制方法，此专利里对于版式数字书籍，使用层次式索引的版式可回流文件建立和绘制方法，提出的统一注释技术，通过记录可回流文字的包围框，文本行或文本列参数，区域包围框等来描述版式文件的几何结构，使用XML语言、SGML语言等标记语言来表示层次式索引结构。针对扫描图像的屏幕自适应阅读问题，使用专利文件1中的技术，可以克服光学字符识别技术的缺点，在不对文字进行识别的前提下，实现屏幕自适应阅读，并可保证按原来的字体以屏幕自适应的方式来阅读扫描的版式文件。各种版式文件都可通过此发明中的层次式索引描述方法来对版式数字书籍进行注释。但是在生成层次式索引描述后，如何有效地压缩该数字书籍版面层次式索引信息，以便移动终端能高速地无线下载数字书籍，该公报没有给出解决方案。如何有效地利用数字书籍页面图像的几何版面信息，来压缩数字书籍，该公报也没有给出解决方案。

非专利文件2: L. Bottou et al., "High quality document imagecompression with "DjVu"", Journal of Electronic Imaging, vol. 7(3), pp. 410-424, Jul. 1998.

非专利文件3: Ricardo de Queiroz, Robert Buckley and Ming Xu，MixedRaster Content (MRC) Model for Compound Image Compression

非专利文件4: ITU-T Recommendation T.44 Mixed Raster Content (MRC),T.44

非专利文件2﹑非专利文件3和非专利文件4中将版式文档的页面图像分离成颜色层，2值文字图形层和背景层，针对不同层的压缩特性选用不同的编码器来进行压缩，并使用非专利文件4中记载的分层图像压缩格式(MRC—Mixed Raster Content)来记录压缩后的数据，以实现版式文档页面图像的高压缩。目前支持Mixed Raster Content格式的文件格式主要有PDF和DjVu等等。通过使用上述分层图像压缩技术，移动终端通过无线网络可以高速下载和在线阅读图像格式的版式文档。由于版式文档中不包含数字书籍版面逻辑结构信息和几何版面信息，因此无法在移动终端上以屏幕自适应的方式来进行阅读。如何有效利用颜色层图像﹑背景层图像和2值文字图形层图像的信息，来生成版式文档几何版面信息和逻辑版面信息，以实现版式文档的屏幕自适应显示，在文献2﹑文献3和文献4中没有给出相关解决方案。

针对版式文档的移动阅读的要求，目前迫切需要一种方法将版式文档转化成容量小，并含有文档逻辑结构信息和几何版面信息的方法，以便移动终端高速下载和以屏幕自适应的方式来阅读该类版式文档。

非专利文件5:Keysers, D., Shafait, F., and Breuel, T. M., "Documentimage zone classification - a simple high-performance approach," inProceedings of the 2nd Int. Conf. on Computer Vision Theory and Applications,44-51 (2007).

专利文件6: 中国专利，申请号 201310580015.5，一种基于不定长标识码的XML的压缩方法和装置。

非专利文件7:J. Ziv and A. Lempel. A universal algorithm forsequential data compression. IEEE Transactions on Information Theory, 23(3):337-343, 1977。

专利文件8: 中国专利，申请号 200910183399.0，基于画质限制条件的颜色数和代表颜色值的决定方法。

发明内容

本发明针对版式文档在移动终端上高速下载和屏幕自适应显示的需求，提出了一种高压缩可回流文件的建立和绘制方法。针对版式文件，提供了一种把版式文件转换成高压缩可回流文件的方法，使用此方法可以高效地压缩版式文档，并生成版式文档的逻辑结构信息和几何版面信息的高压缩数据，以支持版式文档的移动阅读。

本发明的技术方案为：高压缩可回流文件的建立和绘制方法，其特征在于，包括如下具体步骤：

第一步：高压缩可回流文件的建立：

1）取得版式文档的页面图像：通过成像设备、存储服务器、软件工具读入版式数字书籍文档，并计算得到页面图像；

2）使用几何版面分析技术，得到版式文档页面中的几何区域的位置和几何区域的类型；

3）进行版式文档结构描述压缩数据生成和版式文档压缩处理：

版式文档结构描述压缩数据生成：

A：利用版面理解和版面识别技术，根据显示特性，页面几何区域分类为不可回流区域、孤立文字区域、逻辑句区域和段落区域四种几何区域类型；并根据阅读规则确定页面内几何区域间的阅读优先次序；计算逻辑句区域和段落区域包含的文本行/列区域,确定同一逻辑句区域和段落区域内文本行/列区域间的阅读优先次序；计算文本行/列区域中包含的可回流单元, 确定同一文本行/列区域内可回流单元间的阅读优先次序；

B：利用版面理解和版面识别技术，得到版式文档的逻辑结构；并确定几何区域和逻辑区域间的包含关系；确定逻辑区域和逻辑区域间的包含关系；确定逻辑区域间的阅读优先次序；确定同一逻辑区域内不同几何区域间的阅读优先次序；

C：建立版式文档结构描述信息；

D：对版式文档结构描述信息进行压缩，生成版式文档结构描述压缩数据；

版式文档压缩处理：

E：根据压缩特性，将几何区域类型分类成前景区域类型和背景区域类型；

F：根据E)中几何区域的类型，把版式文档页面图像分离为2值文字图形层图像、颜色层图像和背景层图像； G：对2值文字图形层图像﹑颜色层和背景层使用各自适合的算法进行压缩，并对压缩数据进行合并；

4）将步骤3）所得的版式文档的结构描述压缩数据和版式文档压缩数据合并；

第二步：高压缩可回流数据的绘制：

5）通过网络或者存储介质得到高压缩可回流数据；

6）分析高压缩可回流数据的格式，对结构描述压缩数据进行解压，得到解压后的结构描述信息；

7）分析高压缩可回流数据的格式，对版式文档压缩数据进行解压，解析版面文档得到页面图像数据；

8）读取当前阅读位置信息；根据此阅读位置信息，获取结构描述信息中对应于此阅读位置的区域位置信息；根据区域位置信息中包含的当前位置几何区域的包围框信息，从页面图像数据中获取区域图像数据；根据区域位置信息中包含的当前位置几何区域的类型信息和绘制参数,对区域图像数据在输出媒体上进行不同的绘制处理；

9）如果绘制还没有完成，则根据阅读优先次序，设置下一阅读位置对应的区域位置信息，跳转到步骤8）。

所述步骤3)中步骤D）中对版式文档结构描述信息进行压缩，对使用标记语言表达的结构描述信息,采用标记语言感知压缩算法进行压缩。

所述步骤3)中版式文档压缩处理，如果原版式文档是文字格式的版式文档，可选择使用针对文字格式版式文档的压缩方法来进行压缩和减少容量。

所述步骤1）中读取的版式文档中包含的页面图像已压缩过，所述步骤3）中的版式文档压缩处理步骤可以不执行。

所述步骤1）中读取的版式文档已经有版式文档结构描述信息，所述步骤3）中的结构描述压缩数据生成步骤中的A)、B)和C)步骤可以不执行。

所述步骤1）中读取的版式文档已经有版式文档结构描述压缩数据，所述步骤3）中的版式文档结构描述压缩数据生成步骤可以不执行。

所述步骤4) 版式文档的结构描述压缩数据和版式文档压缩数据合并,版式文档结构描述压缩数据和版式文档压缩数据可以打包在同一文件里,也可以分离以不同的文件来存放,或者通过压缩方法压缩在同一文件里。

所述步骤3)中的步骤C）中的结构描述信息,包括版式文档页面内的几何区域信息和版式文档逻辑结构信息。

所述步骤8)和9）中的区域位置信息：

如果按照文档逻辑结构来进行可回流绘制时，区域位置信息包含：逻辑区域索引；页面内的块区域索引，此处的块区域类型包括段落区域、不可回流区域、逻辑句区域和孤立文字区域四种类型；文本行/列区域索引；可回流单元索引；

如果按照文档页面来进行可回流绘制时，版式文档结构描述信息无须包含版式文档的逻辑结构，步骤3中的步骤B)无须执行，此时区域位置信息包含：页索引；页面内的块区域索引，此处的块区域类型包括段落区域、不可回流区域、逻辑句区域和孤立文字区域四种类型；文本行/列区域索引；可回流单元索引。

所述步骤3)中的版式文档结构描述压缩数据生成子步骤可以和版式文档压缩处理子步骤并行执行。

所述步骤6)和步骤7)可以并行执行。

本发明的有益效果在于：本发明提出的高压缩可回流文件的建立和绘制方法，可以满足移动终端无线高速下载电子书籍的需要，也可满足移动终端上屏幕自适应阅读的需要。本发明通过利用几何版面分析后得到的几何区域的位置信息和类型信息，来生成高压缩版式文件及版面逻辑结构信息和几何版面信息；针对图像格式的版式数字书籍，使用基于图像分层的高压缩技术（如基于MRC格式的压缩）来进行压缩；针对文字格式的版式数字书籍，使用具有更高压缩率的文字格式的版式书籍压缩技术来进行压缩；针对描述版式数字书籍版面逻辑结构信息和几何版面信息的标记文件(如XML文件)中含有大量长元素名、长属性名和大量重复属性值的特点，本发明提出了元素名、属性名和属性值的替换压缩技术，使用较短的标识码来替换原标记文件中的元素名、属性名和属性值，实现标记语言感知压缩。通过使用以上压缩处理，可以大幅提高压缩效率；在高压缩可回流文件的绘制部分，通过分析高压缩可回流文件的解压和绘制过程，提出了引用区域信息和区域图像数据在不同尺寸输出媒体上绘制的方式;提出了版式文档页面图像展开生成和和版式文档结构描述信息展开生成的并行处理方法，能够在移动终端等媒体上高效率地绘制高压缩可回流版式文件。

附图说明

图1为本发明的典型实施系统示意图；

图2为本发明高压缩可回流文件转换服务器结构示意图；

图3为阅读终端结构图；

图4为本发明图像格式的版式文件转换成高压缩可回流文件流程图；

图5为本发明图像格式版式文档的分层压缩技术流程图；

图6为高压缩可回流文件的屏幕自适应绘制流程图；

图7为使用XML语言表达版式文档结构描述信息的示例图；

图8为版式文档逻辑结构信息结构图；

图9为版式文档页面结构信息结构图；

图10为从分层压缩格式文件转换成高压缩可回流文件示例图。

具体实施方式

本发明提供了一种基于图像格式版式文件的高压缩可回流文件的建立和绘制方法。该方法对图像格式版式文件先进行页面几何版面分析；利用几何版面分析的结果将几何区域按照压缩特性分类成适合使用PNG,TIFF G4等离散色调压缩算法压缩的前景区域类型和适合使用JPEG或JPEG2000等连续色调压缩算法压缩的背景区域类型；并利用前景区域类型来生成颜色层图像，2值文字图形层图像；利用2值文字图形层图像和原始页面图像数据来生成光滑的背景层图像，以便使用分层压缩技术来压缩图像格式版式文件。而版式文档结构描述信息生成模块利用几何版面分析的结果，结合版面理解和识别技术将几何区域按照阅读显示特性分类成不可回流区域，逻辑句区域和段落区域，并生成逻辑句区域和段落区域内的文本行/列区域，确定同一逻辑句区域和段落区域内的文本行/列区域的阅读次序；计算文本行/列内的可回流单元，确定同一文本行/列内可回流单元间的阅读优先次序；并计算逻辑区域，以便按照逻辑结构来阅读文档；计算并记录各逻辑区域间的阅读优先次序，逻辑区域包含的几何区域；并综合上述几何区域和逻辑区域来生成版式文档结构描述信息。该结构描述信息可以使用标记语言（如XML等）来进行描述。对结构描述信息进行压缩，并和页面图像分层压缩数据进行合并。其中版式文档结构描述压缩数据可以和页面图像分层压缩数据分离存放；也可以归档在一个文件中。所合并生成的高压缩可回流文件可以满足移动阅读中数字书籍高速下载的要求，同时可以满足不同尺寸终端或上版式文件的媒体尺寸自适应绘制的需求。

在进行几何版面分析处理得到版面上各区域的几何位置和区域类型信息后，可利用该几何区域信息来进行版式文档压缩处理和版式文档结构描述信息生成处理。由于版式文档压缩处理模块和版式文档结构描述信息生成模块的处理相互独立，可以使用并行的方法来实现，以提高转换速度。此处的并行处理可以使用多核技术实现，也可以使用分布式并行处理技术来实现。

本发明提供了一种基于版式文件的高压缩可回流文件的绘制方法。首先解压压缩数据得到版式文档结构描述信息和版式文档页面数据，并计算版式文档页面图像。根据当前的阅读位置等来索引对应的版式文档结构描述信息，得到当前阅读位置对应的几何区域；根据几何区域的位置取得页面图像数据；根据几何区域的类型，选择不同的绘制方法，以达到屏幕自适应的阅读效果。此处根据需要绘制区域的类型，选择不同的版面自适应绘制方法是指：

①对写真/线画等不可回流区域对这些区域进行缩放以实现屏幕自适应阅读效果；

②而由可回流单元组成的逻辑句区域或段落区域，将可根据媒体尺寸自动实现换行绘制，以实现媒体尺寸自适应显示效果。

③对孤立文字区域，按照对齐属性单独进行绘制。

由于版式文档结构描述信息的解压处理和页面图像数据的解压和解析处理相互独立，可以使用并行处理的方法来实现，以提高执行效率。此处的并行处理可以使用多核技术实现，也可以使用分布式并行处理技术来实现。

图1提供了一个本发明的典型实施系统示意图。系统包括高压缩可回流文件转换服务器105和客户端102，两者通过网络101进行相互通信。此处的网络包括比如局域网﹑广域网在内的可交换数据的网络，可以通过无线网络，也可以通过有线网络相互通信。高压缩可回流文件转换服务器105可以从与网络连接的版式数字书籍文件存储服务器104或版式数字文件成像设备103中获得数据，并将版式数字书籍文件转换成高压缩可回流文件并传送到与网络连接的高压缩可回流文件存储服务器106中去。高压缩可回流文件转换服务器105在转换过程中还可以记录已转换页面的枚数和转换每枚图像所耗费的计算资源信息。此处的存储服务器104和106可以是单机服务器，也可以是由多台机器组成的集成存储服务器，比如公有云上的分布式存储系统等等；存取方式可以在局域网内通过网络存取，也可以通过公网进行存取。此处的高压缩可回流文件转换服务器105可以是单机服务器，也可以是由多台机器组成的集成服务器，也可以是以虚拟机形式运行的服务器，比如在公有云的计算资源池上的虚拟机上运行的服务器。

在本实现形态中，客户端102可以通过有线或者无线网络101从高压缩可回流文件存储服务器106中下载和接收一个或多个高压缩可回流文件，并在输出媒体上根据输出媒体的尺寸进行自适应绘制。比如通过运行在客户端中的阅读程序（包括WEB浏览器）在显示设备上或在印刷媒体上根据绘制窗口或绘制媒体的尺寸进行版面自适应绘制。

图1中所示的高压缩可回流文件转换服务器105、数字书籍文件存储服务器104、版式数字文件成像设备103、高压缩可回流文件存储服务器106和管理中心107从逻辑上划分为不同的部分。当然这只是逻辑上的划分，可以将它们部属在不同的实体上，也可以部属在同一个实体上。总之，可以根据需要灵活部署。比如高压缩可回流文件转换服务器105和版式数字文件成像设备103也可以在同一个装置中实现，比如在版式数字文件成像设备103中嵌入计算机系统，使得版式数字文件成像设备103兼具高压缩可回流文件转换服务器的功能。另外版式数字书籍文件存储服务器104、高压缩可回流文件存储服务器106和版式数字文件成像设备103也可以在同一个装置中实现。同时可以使用此装置附属的显示装置来预览生成的高压缩可回流文件。在版式数字文件成像设备103中集成存储服务器106，使得版式数字文件成像设备103兼具存储服务器的存取功能，用来存取版式数字书籍文件数据和高压缩可回流文件数据。另外高压缩可回流文件转换服务器105上也可集成存储服务器系统，使得高压缩可回流文件转换服务器105兼具存储服务器的存取功能，用来存取版式数字书籍文件数据和高压缩可回流文件数据。连接在网络上的管理中心107可以进行用户管理﹑负荷管理﹑并承担监视统计和计费管理等功能，并可设定高压缩可回流文件转换服务器105上文件格式转换用参数，并可设置高压缩可回流文件的版权信息和日期信息等，以便105生成的高压缩可回流文件含有版权信息。管理中心107用于从高压缩可回流文件转换服务器105上或者高压缩可回流文件存储服务器106上获取已转换页面的枚数和转换每枚图像所耗费的计算资源等等。

图2为本发明高压缩可回流文件转换服务器结构示意图。图2中的高压缩可回流文件转换服务器通过网络接口200和网络101相连，可通过网络接口200传输数据，控制信号，数据请求等。例如向网络101传送高压缩可回流文件数据。高压缩可回流文件转换服务器105另外还包括处理器201，内存202，计算机可读媒体驱动器205（读写盘）、高压缩可回流文件库和运行信息213和输入输出接口等，它们都通过总线208相互连接，可以相互传送数据。输入输出接口接输入设备207，输出通过显示适配器203接显示设备204，输入设备207包括摄影机，扫描仪，相机，复印机，扫描笔等。输出通过显示设备204来显示高压缩可回流文件转换服务器中的相关数据，比如以屏幕自适应方法预览高压缩可回流文件的页面，转换的版式页面图像的枚数，转换每张版式页面图像耗费的CPU资源和内存资源等等。另外输入输出接口还可以和打印适配器相连，用来在打印媒体上根据输出媒体的尺寸绘制高压缩可回流文件。此处的输入输出接口还可以和外部设备，比如键盘，鼠标，笔，触摸屏或其他设备相连，用来接收用户的输入。处理器201用来处理内存202中的程序。程序的执行也可以由FPGA，ASIC，DSP等硬件来完成。内存202中还可以包括版式数字书籍文件和生成的高压缩可回流文件数据。

内存202一般包含RAM、ROM、永久存储器。内存202存储了操作系统209来控制高压缩可回流文件转换服务器的操作。操作系统209可以使UNIX，LINUX，或者WINDOWS等系统。内存202中还包含了几何版面分析模块，版面分析模块，版面理解和识别等光学字符识别(OCR)相关模块212。此处的光学字符识别相关模块212既可以包括商用的也可以包括非商用的。版式文档结构描述信息和压缩模块210中包含了程序和数据来处理从网络接口200或输入设备207等接收到的数字书籍版式文件，并生成版式文档结构描述信息，并进行压缩处理。版式文件高压缩相关模块211中既可以包括商用的也可以包括非常用的图像格式版式页面分层压缩软件或库（如能实现Mixed Raster Content格式压缩的软件）。高压缩可回流文件库和运行信息213用来存储当前生成的高压缩可回流文件和相关运行信息，并可通过网络接口200将这些数据送到管理中心107，运行数据将被用于监视统计﹑负荷均衡管理和计费管理等等。管理中心107可以通过网络接口200来设置转换用参数和版权保护信息等，给内存中的210、211和212使用。图2中的实现以软件的方式实现，在实际应用中相关模块也可以在FPGA、ASIC或DSP等器件或芯片上实现，通过使用控制程序和芯片内的处理模块协同工作，提高处理速度。

图3为客户终端结构图。客户端包括处理器302，内存303，还可包括计算机可读媒体驱动器306，用于读写高压缩可回流文件。客户终端102可通过网络接口309向高压缩可回流文件存储服务器106提出请求进行用户认证，高压缩可回流文件存储服务器106认证通过后可以从服务器106处下载高压缩可回流文件到本地高压缩可回流文件存储媒体313上。其中在内存303中存储了操作系统311和绘制程序312，此处的绘制程序可以是自己开发的屏幕自适应阅读程序或者通过安装WEB浏览器插件进行阅读的程序，也可以是在打印媒体上的打印绘制程序等。此处的处理器302执行绘制程序312，并通过输入输出接口307发送绘制指令到媒体输出适配器304，根据媒体输出设备305的尺寸自适应地在显示器、显示窗口或输出媒体上绘制下载的高压缩可回流文件。此处的媒体输出设备305可以是移动阅读器终端，也可以是打印机等媒体输出设备。输入输出接口307还可连接输入设备308，此处的输入设备308包括鼠标、键盘或者触摸屏等可以输入数据和指令的设备，用以传送显示指令。

图4为版式文档转换成高压缩可回流文件的处理示例。该示例提供了版式文档结构描述信息生成和压缩模块210和版式文件高压缩模块211的一个典型实施方法，用以生成高压缩可回流文件。本方法首先通过步骤401取得版式文档的页面图像：读入版式数字书籍文档，并计算得到页面图像。此步骤对版式数字书籍文档的格式没有特别的限制，比如可以包括JPEG、TIFF、GIF、BMP、PDF、XPS和CEB等格式。版式文档可以通过相机或扫描仪等成像设备来生成，也可以通过程序转换来生成,或者通过调用第三方的模块来生成。

进行步骤402，版式文档页面图像通过212模块中的几何版面分析软件来进行几何版面分析，确定数字书籍页面图像中几何区域的位置和类型，比如确定文字区域、数学/化学公式区域、徽标区域、表格区域、线画区域、写真区域和噪音区域等的区域位置和其类型。具体实现比如可以参照非专利文件5中的方法来得到各区域的类型。区域的位置和形状可以使用多边形包围框来表示，也可以使用二进制MASK图像来表示。经过步骤402分析后的版式文档和几何版面信息分别输入步骤412得到结构描述信息和步骤413来对版式文档进行压缩。

版式文档结构描述信息生成模块412主要包括步骤403～406，用来生成版式文档的几何版面描述信息和逻辑结构描述信息。在得到版式文档结构描述信息后，需要对该信息进行压缩。可以使用2进制方法来保存压缩或以标记语言的方式来保存压缩。当以2进制方式保存压缩时，由于结构化数据中的几何区域包围框的坐标值、几何区域和逻辑区域的类型名等数据在多处重复出现,可以使用索引技术为多次重复的数据建立索引表,并使用索引号来替换对应的值,以减少记录数据的容量，并将索引号和对应的值记录在映射表中。在进行索引替换后,可以将该替换后的数据结构和映射表按照2进制数据的方式进行熵压缩(如使用LZW等算法),进一步降低容量。阅读程序通过熵解压，得到映射表和替换后的数据结构；然后通过使用索引号，从映射表中取得对应的值。

如果版式文档结构描述信息以XML或者SGML等标记语言的方式进行保存时，在步骤407中，可以根据标记数据中标签名的频度统计信息或总耗费字节数统计信息，使用更短的标识码来替换原标记数据中的标签名。还可根据标记数据中属性值的频度统计信息或总耗费字节数统计信息，使用更短的属性值标识码来替换原标记数据中的属性值；并将原标签和替换后的标签，原属性值和替换后的属性值标识码保存在映射表中，以便阅读程序解压时使用。替换完成后，可使用通用的熵编码压缩算法进行压缩，如非专利文件7中的算法，对版式文档结构描述信息做进一步压缩。此处的具体实现可以参考使用XML感知压缩器对版式文档结构描述信息进行压缩，如XMill技术或专利文件6中记载的压缩方法。对于使用其它标记语言记述的版式文档结构描述信息，可以参考XML文件压缩技术进行压缩，比如使用标签替换技术,属性值替换技术来进行压缩,替换压缩结束后, 可使用熵编码技术进行进一步压缩。

下面详细讲述版式文档结构描述信息生成模块412中的步骤403～406。

步骤403根据表1中的规则来对不同类型的几何区域进行分类。将其他非文字区域划分为不可回流区域，比如数学/化学公式区域,徽标区域,表格区域,线画区域,写真区域和噪音区域等都设置成不可回流区域。并将属于不可回流区域的文字区域合并进该不可回流区域, 比如表格中的文字和写真区域/线画区域上的文字等都将被合并。此处的合并指把不可回流区域和属于它的文字区域算作一个大的不可回流区域。此处的属于包含两种可能：一种是文字区域和不可回流区域在几何上重叠，比如表格上的文字或写真上的文字，此时可以将文字区域合并进不可回流区域；另一种可能是即使几何上没有重叠，但是文字区域作为该不可回流区域（比如说线画区域）的说明，在逻辑概念上属于该不可回流区域,比如漫画中人物的发言属于该漫画区域,比如坐标图上的坐标值属于该坐标图等等。可以使用文档的先验知识和领域相关知识，利用版面理解和识别的方法来判别该文字区域是否在逻辑上属于该不可回流区域；比如对于曼哈顿版面的页面，可以使用XY-CUT等算法来判断某文字是否属于线画图像。此外还要记录不可回流区域的对齐等式样信息。对剩下的文字区域，需要进一步细分。

表1

步骤404中对于不可回流区域，计算其包围框，包围框形状可为长方形、曲线、椭圆或者多边形形状，并记录对象包围框顶点的坐标或该包围框所包围区域；

而对于余下的文字区域，使用版面分析和版面理解技术，对文字区域进行合并,并结合使用表2中的规则来对新的文字区域进行类型细分。

首先对单个文字区域进行合并，以得到行区域或列区域，确定单个文字区域所属的行或列,具体实施方法可以使用从底到上的聚合算法,结合版面的先验知识来进行合并。如果某文字区域不属于任何行或列，则将其划分为孤立文字区域，并为该孤立文字区域分配一个索引号。孤立文字区域类型属于不可回流区域类型，无需和上下文结合在一起进行显示，如页码、页眉或页尾等文字区域属于孤立文字区域。

在确定了行区域或列区域后，记录行对准线和列对准线，记录行/列的显示式样，比如对齐特征和缩进特征等。并为每行/列分配一个索引号，此处索引号码的分配按照事先约定的规则来分配，比如可按照阅读优先次序来从小到大来分配索引号码；对于其中每行，通过行内字/单词切割技术,得到行内的可回流单元（比如拉丁文中的单词区域，单个汉字区域或标点符号区域等属于可回流单元）,并记录各可回流单元的包围框;对每列，通过列内字/单词切割技术,计算列内可回流单元的包围框,并记录行内或列内可回流单元的包围框顶点的坐标。并为每个可回流单元区域分配一个行内或列内的局部索引号，以确保对每行或每列来讲，行内或列内每个可回流单元的局部索引号码是不同的；此处可回流单元的包围框的形状没有限制，比如包围框形状可以是长方形或者更复杂的多边形形状；为了确定行内或列内可回流单元间的阅读优先次序，局部索引号码的分配可以按照阅读优先次序来进行从小到大的分配。也可以对行内或列内的可回流单元不分配索引号码，则需要约定按照何种方式来表达各可回流对象间的阅读先后次序，比如在英语文章中缺省阅读优先次序可按照从左到右的方式来表达阅读优先次序。

在得到文字行/列区域后，对文字行/列区域进行合并,以确定文字行/列区域所属的段落区域,具体实施方法可以使用从底到上的聚合算法,结合版面的先验知识来合并行/列区域。

如果某文字行/列区域不属于任何段落区域，则该文字行或文字列区域被设定为逻辑句区域。逻辑句区域主要包含图表的标题区域、诗歌中的一行或列表中的一项等等区域，如表2所示。需要为每一逻辑句区域分配一个索引号。逻辑句区域通常只有一行或二行,或者一列或两列,不可以和上下文的段落区域结合起来以可回流的方式进行显示;但当显示窗口尺寸不够，无法完整显示逻辑句区域中的一行或一列时，该逻辑句区域内行/列区域的可回流单元可以按可回流的方式来进行绘制。

在确定了段落区域后，为每一段落区域分配一个索引号；并记录段落的显示式样，如缩进特征和对齐特性等。并记录段落区域所包含的行或列区域，可以通过按照阅读优先次序来列举索引号码等方式来表达包含关系和阅读优先次序关系。此处段落区域由行/列区域等几何区域组成。

在对页面内的几何区域分类成逻辑句区域、不可回流区域、段落区域和孤立文字区域后，需要结合版面理解和识别确定这四类几何区域间的阅读优先关系。

表2

在步骤405中，基于步骤403和404中得到的几何区域,利用文档和版面的类型知识和先验知识，使用版面理解和识别技术来进行逻辑版面分析和理解：计算版式文档的逻辑区域。通过调用212中的版面理解模块来对单张或多张数字书籍页面进行版面识别和理解。比如对于科技期刊数字文档，可得到章，节，句子，标题，子标题，摘要，作者等版面逻辑区域信息, 并为每个逻辑区域分配一个索引号。确定包含于逻辑区域的几何区域和子逻辑区域，比如章逻辑区域包含了节子逻辑区域，节逻辑区域包含了段落等子逻辑区域；但是章逻辑区域同时又包含和引用了页、图表区域、公式区域、段落区域等几何区域。此处将使用逻辑句区域或段落区域来表达页、章或节等更高级别的逻辑区域，以提高表达效率，减少表达所需的数据容量。为了记录区域间的包含关系，可通过记录父区域所包含子区域的索引号来表达区域间的包含关系。如果采用数据结构来表达包含关系，则可在父区域结构中设置指针，指向所包含的子区域。

可根据版面的阅读规则等先验知识来识别和理解各区域间的阅读优先次序。为了表达同一区域的各子区域间的阅读优先次序，可通过按阅读优先次序排列子区域的指针的方法，或通过按照阅读优先次序排列索引号的方法来进行表达；或者在各个子区域中设置NEXT属性，来指向下一子区域。类似于EPUB格式OPF文档中spine元素名中属性的表达。具体实施例可以参见图7的说明。

在确定完区域间的包含关系和阅读先后次序后，步骤406还要将上述生成信息记录在版式文档的结构描述信息中。此处的版式文档结构描述信息包括:版式文档页面内的几何区域信息和版式文档逻辑版面信息。

其中版式文档页面内的几何区域信息包括：不可回流区域信息、孤立文字区域信息、逻辑句区域和段落区域信息，上述几何区域间的阅读优先关系信息。每个几何区域信息还包括：包围框信息，对齐和缩进样式信息。逻辑句区域和段落区域内还包含文本行/列信息，文本行/列内的可回流单元间信息和它们之间的阅读优先次序信息。

版式文档逻辑版面信息包括：逻辑区域信息、逻辑区域间的包含关系信息、逻辑区域和几何区域间包含关系信息，逻辑区域间的阅读优先次序、直属于同一逻辑区域的不同几何区域间的阅读优先次序，直属于同一逻辑区域的不同子逻辑区域间的阅读优先次序。

可根据版面的阅读规则和版面先验知识来识别和理解各逻辑区域间的阅读优先次序以及各逻辑区域包含的子区域信息。如果仅仅按页面来对版式文档进行可回流绘制,则版式文档结构描述信息中可不包括版式文档逻辑版面信息，具体实施方案可参见图9,此时图4中的逻辑版面理解和识别步骤405也可以不执行。如果需要按照文档的逻辑结构来对版式文档进行可回流绘制,则需要包含版式文档页面内的几何区域信息和版式文档逻辑版面信息,以便通过从对应的章节开始绘制文档内容。

此处结构描述信息还可以使用XML，SGML或PDF中的描述语言或自定义的语言或自定义的数据结构等来描述。此处不限制记录的语法和描述语言或使用的数据结构。上述描述使用索引号来表达版式文档的逻辑区域间的包含关系、文档的逻辑区域和页面几何区域之间的包含关系、段落区域和文本行/列区域间的包含关系，文本行/列区域和所属的可回流单元之间的包含关系，如果在数据结构中或在2进制文件中使用指针等来表示上述包含关系，本发明的技术方案同样适用。

图像格式数字书籍高压缩模块413主要包括步骤408～410，利用几何版面分析提取到的区域位置和类型信息，来对图像格式的数字书籍进行进一步压缩。步骤408中根据表3中的规则将几何区域按照压缩特性来进行分类，分类为前景区域类型和背景区域类型两种。分类方法如表3所示，比如文字区域﹑数学/化学公式区域和表格区域将被设置为前景区域类型；写真区域和噪音区将被设置为背景区域类型；而徽标区域,线画区域将需要进一部细分。线画区域需要细分，可以尝试使用不同的压缩方法，比较适用不同压缩方法后图像的画质和所使用的字节数，来判定和设置区域类型，将区域类型设置为前景区域类型或背景区域类型中的一种。具体实施方法可以参见专利文件8，通过计算区域的颜色数目，然后比较使用离散色调压缩技术（TIFF G4，PNG等）和使用连续色调压缩技术（JPEG等）压缩后的画质和耗费比特数，来最终判定区域类型。

设置为前景区域类型的区域适合使用离散色调压缩技术（TIFF G4、PNG、JBIG2或MMR等算法）来对来进行压缩；设置为背景区域类型的区域将适合使用连续色调压缩技术（JPEG或JPEG2000等）来压缩。具体示例参见图5的说明和专利文件8的说明。

表3

步骤409中对于前景区域，使用2值分类算法得到文字图形部分像素和背景部分像素。并生成2值文字图形层MASK图像。对于属于文字图形部分的像素:1)计算其像素的颜色，以生成颜色层图像；2)计算其背景层像素的颜色, 以生成背景层图像。具体实施参见图5的说明。

步骤410中对2值文字图形层MASK图像﹑颜色层图像和背景层图像使用各自的方法进行压缩，具体实施方式参见图5的说明，以生成分层压缩数据，便于使用Mixed RasterContent等格式来记录。

此处版式文档结构描述信息生成压缩模块412和407与图像格式数字书籍高压缩模块413由于执行不同的处理，写操作没有冲突，因此可以使用并行处理的方式来执行。此处的并行处理是指在不同的线程或进程上来执行。可以在同一处理器上执行，也可以在不同处理器上执行。可以在同一台计算机上执行，也可以在分布在不同的计算机上执行。当在多核处理器上执行的时候，指的是可以在不同的核上执行。

步骤411中将版式文档结构描述压缩数据和版式文档压缩数据合并。此处的合并是指，数字书籍版面逻辑结构和几何结构描述的压缩数据可以和版式文档压缩数据分离存放；也可以写入一个文件中；或者将压缩后的数字书籍版面逻辑结构和几何结构的描述数据和版式文档压缩数据打包或压缩在一个文件里面。

如果原来的版式文档是文字格式的，如文字格式的PDF、文字格式的XPS文件或文字格式的CEB文件，则可以使用针对文字格式版式文档的压缩方法来进行压缩,而不使用高压缩模块413中记述的针对图像格式数字书籍的压缩处理技术。以PDF格式为例,可以使用具有更高压缩率的压缩算法(如Flate算法或LZW算法等)来对PDF文档中的文字对象进行压缩;使用具有更高压缩率的压缩算法(如JBIG2算法或JPEG2000算法等) 、降低图像的分辨率或降低画质等方法来对PDF文档中的图像和音视频数据进行压缩;或者通过放弃无效书签，放弃无效链接，放弃未引用的对象,优化页面内容提高Flate算法的压缩率等方法来压缩PDF文档。具体实施中使用的压缩技术或库可以包括商用的或者非商用的,如可以使用Adobe Acrobat软件中的PDF优化器选项中的压缩或文件瘦身方法。

对于XPS,CEB等其它文字格式版式文档的压缩,可以参照PDF格式文件压缩的原理,使用商用或非商用的压缩方法或文件瘦身方法来减少容量,以生成高压缩的版式文挡。

合并时直接将压缩后的文字格式的版式文档和结构描述压缩信息进行合并；或者使用压缩率更高的版式文档格式来压缩原来的文字格式版式文档，以提高版式文档的压缩率。

此外版权保护信息，包括用户名和用户密钥，文件的生成时间等也可以一起写入生成的高压缩可回流文件中，用于保护高压缩可回流文件的版权。

在转换完成后，记录下转换的日期和时间，转换的页面枚数和转换每张页面所耗费的计算资源等信息。发送给管理中心107，提供给第三方来使用这些数据资源。

图5为图像格式版式文档分层压缩技术的流程图，给出了将页面图像501分离成颜色层502，2值文字图形层502和背景层504,对不同层的图像使用不同压缩技术的示例。

为了提高背景层图像的压缩效率，对2值文字图形层中属于文字图形部分的像素，在背景层图像中对这些像素的值进行置换,以便生成平滑的背景层图像504，便于使用JPEG或JPEG2000等压缩器(此类压缩器对于连续色调图像有效)进行压缩。此处置换的方法可以使用邻近背景层像素的颜色来对这些像素进行置换。如图504中,文字行区域的背景色都被设为白色,以便得到平滑的背景层图像。在计算好颜色层502，2值文字图形层503和背景层504图像后，对各层图像进行不同的压缩算法或压缩参数,以生成分层压缩的高压缩文件505。目前具体支持的分层压缩格式主要有DjVu和PDF等。在实际应用中也可以分别存储颜色层，2值文字图形层和背景层3枚图像，由阅读程序使用此3枚图像来合成页面图像。

在实际应用中也可以不生成颜色层图像，而是使用诸如Adobe portabledocument format version 1.3以上版本包含的方法，通过指定2值文字图形文字区域的颜色,来为该区域设置颜色。从而可以以更小的开销来显示文字区域的颜色。

图6为高压缩可回流文件的屏幕自适应绘制流程图，描述了高压缩可回流文件的屏幕等媒体自适应绘制的一个典型的实施方法，能够根据输出媒体的尺寸和形状自适应地绘制版式文件。

在步骤601中，通过进行用户认证，认证成功后从网络存储服务器106上下载高压缩可回流数字书籍，同时在网络存储服务器上记录用户信息和下载的文件信息，比如文件号码或页码号等等。在移动终端上得到高压缩可回流文件后，分析该文件格式，得到版式文档结构描述压缩数据和高压缩版式文件；在步骤602中，解压版式文档结构描述压缩数据；在步骤608中，解压高压缩版式文件，计算生成版式文档的页面图像；

由于步骤602和步骤608分别处理不同的数据，采用不同的算法来解压，因此可以并行的方式来执行。此处的并行执行方式是指在在不同的线程或进程上执行。如果在多核处理器上，可以在中央处理单元（CPU）的不同计算引擎上执行，以提高计算效率。

在步骤603中，获取绘制区域的尺寸，绘制区域形状。比如对于移动终端来说，绘制区域的尺寸是绘制窗口的尺寸；而对打印媒体来说，绘制区域的尺寸和打印媒体，如打印纸张的尺寸相关。此处的绘制区域形状，不仅仅指移动终端窗口的形状，而且对打印媒体来说，和打印媒体的形状相关；比如可以打印到椭圆的纸张上或其他不规则的打印纸或打印媒体上（如把带有结构描述信息的版式文档按照输出媒体的尺寸和形状打印到CD，DVD等盘片上）。在步骤603中，用户可以选择需要的绘制式样，比如通过选择使用XSLT可扩展样式表转换语言或XSL(Extensible stylesheet language)或CSS层叠样式表等来指定绘制样式。此处还可以选择缩放比例，按照比例放大或缩小来进行绘制。

在步骤604中，读取当前阅读或绘制位置; 并根据阅读或绘制位置访问版式文档对应页面几何区域;

当选择按照逻辑结构来进行可回流绘制时，使用图8中描述的方法来获得当前位置。按图8中的说明，比如对于科技期刊数字文档，此处的当前位置包括如下内容：当前章、当前节和当前几何区域；另外对于段落区域或逻辑句区域，当前位置还应包括：当前行/列的索引号和当前可回流单元的索引号。

当选择按页面来进行可回流绘制时,使用图9中描述的方法来获得当前位置。按图9中的说明，此处的当前位置包括如下内容：当前页和当前几何区域；另外对于段落区域或逻辑句区域，当前位置还应包括：当前行/列的索引号和当前可回流单元的索引号。

得到当前位置后，还需读取当前几何区域的信息：包括区域类型、该几何区域包含的文本行/列区域等和几何区域内的图像数据等。

在步骤605中，根据当前几何区域的类型选择不同的绘制方式:1)对于段落区域,执行步骤607；2)对于孤立文字区域,执行步骤610；3)对于不可回流区域,执行步骤606；4)对于逻辑句区域,执行步骤609。

在步骤606中，通过放大或缩小该几何区域, 根据绘制参数，在输出媒体上绘制不可回流区域，此处的绘制参数包括对齐特性，放大缩小倍数值等。

在步骤607中,确定行距或列距, 按行或按列在输出媒体上按绘制方向，根据绘制参数，以可回流的方式逐个绘制段落区域内各文本行/列区域内的可回流单元。

在步骤609中,对于逻辑句区域,在输出媒体上按阅读样式指定的绘制方向，根据绘制参数，逐个绘制该逻辑句区域内文本行/列区域内的可回流单元。如果绘制宽度/高度超过绘制窗口的宽度/高度,则另起一行/列来绘制余下的可回流单元；

对于段落区域和逻辑句区域，还必须记录当前绘制可回流单元的文件行索引和可回流单元索引的位置。以便翻页时能够移动到该区域内的下一可回流单元来进行绘制。

在步骤610中,对于孤立文字区域,当以可回流的方式进行阅读时,页码、页眉和页尾可以不必显示。阅读器也可以选择在每屏的顶面或底部显示页码、页眉和页尾等孤立文字区域。

如果当前屏幕窗口还有空白区域有待绘制，则根据步骤611将当前阅读位置根据阅读优先关系移动到下一阅读位置，并返回步骤604，否则结束本屏的绘制。步骤611中位置的定义和步骤604中位置的定义相同。其中当前几何区域类型包括以下4种区域类型:段落区域、逻辑句区域、孤立文字区域和不可回流区域。对于如何设置当前逻辑区域位置和当前几何区域位置, 具体实施可参见图8和图9的说明。

以上描述了高压缩可回流文件绘制类应用的处理流程,对于文件格式变换类应用。比如对于使用XML等语言描述的数字书籍逻辑结构信息，则可使用XSLT，CSS等样式描述来将高压缩可回流文件中的逻辑结构XML描述转换成其它语言的描述格式，比如可通过XSLT将高压缩可回流文件中的逻辑结构XML描述变换为使用其它格式(如XHTML、EPUB和DOCX等格式)的标签来描述，以便转换成XHTML等其它格式。

图6中给出的说明既可以用于在移动终端上进行屏幕自适应绘制，也可以在不同尺寸的打印媒体上进行媒体自适应绘制。比如将高压缩可回流文件打印到A4尺寸的纸张上，或打印到A7等尺寸的纸张上，由于高压缩可回流文件的段落区域可以可回流绘制，因此在尺寸小的A7纸张上进行绘制时，可以在保证文字能够清晰阅读的前提下，以可回流的方式来绘制或打印，不需要过分缩小文字区域来进行绘制，能够保证阅读质量。

为了表达区域间的包含关系和从属关系,同时为了表达区域间的阅读优先次序关系,可以使用数据结构中的指针来表达区域之间的关系。

为了便于交换和保存,也可以使用XML、SGML等标签语言来描述上述关系。为了节省存储容量,对每个区域可以使用一个索引号码来代表,这样在描述区域间的包含关系或从属关系时,直接使用索引号码来索引对应的区域,而不需要重复描述区域的位置和属性。图7为使用XML语言表达版式文档的示例图，在此示例中使用Document来表示根节点。此Document从几何版面上来讲是由页Page组成。而Page又是由区域Zone组成，每个Zone可由多个行Line组成。而每行由多个可回流单元组成,此处的可回流单元可以使Word﹑单个的汉字或者标点符号等等。

每个几何版面区域结构被赋予一个索引号码，如本例中PageID，ZoneID，LineID，WordID等分别代表对应几何区域的索引号码。高层的几何结构可以使用低层几何结构的索引号码来表达几何结构间的包含关系。每个几何结构的包围框在本例中使用多个点组成的多边形凸包来表示，而点的表示使用Vertex元素中的x和y来进行表示。每个几何结构中可以包含该区域的属性，区域中文字的朝向CharOrient和阅读方向ReadingDir等。另外为了表示区域间的阅读优先关系:本例中使用PageNext来表达页面间的优先次序，ZoneNext来表达几何区域间的优先次序,而使用WordNext来表达单词间的阅读优先次序关系。以确保绘制程序能改按照阅读循序来遍历该结构化描述信息。在几何结构表示完成的基础上，可以使用几何结构的索引号码来表达逻辑结构。如本示例中逻辑结构主要由Title，Chapter，Section，Paragraph等来组成。而且逻辑结构也可以赋予一个索引号码，供高层的逻辑结构索引使用低层的逻辑结构或几何结构。如本例中ParaID=2的Paragraph利用索引号P001Zone003来索引第一页中的第三个区域。其中子标题也使用索引的方法来使用。如ChapterID=2的章的子标题为P002Zone001,指向对应的第二页第一个区域。提供了版式文档的逻辑结构表示后，易于将版式文件能转化成有逻辑结构的流式文件。便于在不同尺寸媒体上绘制,便于转换成EPUB和DOCX等格式。

高层的逻辑结构使用直属的低层逻辑结构或几何结构时，直接使用低层的逻辑结构或几何结构的索引号码来表达包含关系或从属关系，而不需要重复描述所包含或所使用的子区域的详细信息，能大幅减少描述数据的容量，提高压缩率和网络传送率。

另外在几何结构和逻辑结构表达过程中，没有必要为每个不同的区域或逻辑结构分配一个不同的索引号码。比如一本书有6万个单词形成，使用本方法没有必要为每个WordID分配一个从0到60000的号码。由于该发明的表达存在层次式关系，在如上的例子中，对于不同PageID，不同的ZoneID和不同的LineID，WordID的值可以重复。只需要保证从根开始到不同节点的路径上，经过的节点的索引号码的组合具有唯一性，那么就可以使用该路径上的索引号码的组合来标识结构描述信息中的任意一个节点。比如PageId=1和PageId=2中分别包含一个Zone区域，这两个Zone区域的ZoneID可以相同，因为从根节点到这两个Zone所路过的路径的索引号码的组合的组合不同，这两条路径中索引号码的组合分别是P001Zone002和P002Zone002，因此使用索引号码的组合能够唯一索引其中任意一个节点。在该例中根据索引号码的组合除了可以判断几何区域间的阅读优先次序外，还可以判断几何区域间的包含关系。比如P001Zone002索引号码的组合中，P001包含Zone002区域。此处的索引号码组合序列的分配可按照字母顺序，或按照数字从小到大等顺序，按照字典排序(Lexicographical order)等方法来形成索引号码组合序列。并根据阅读优先次序来分配索引号码。通过使用这种办法，可以减少表达索引号码所需要的比特数。因此可以进一部降低存储容量，提高数据查询效率和传输效率。

在实际应用中也可按照版式文件结构化数据建立和绘制程序间的默认约定来确定版式文件结构化数据内各区域间的阅读优先次序。比如使用树状数据结构表达版式文档中各区域和它们间的关系时，各叶子节点间的阅读优先次序可以按照先根遍历的顺序来表示。绘制程序可采用先根遍历的次序来确定各叶子节点区域间的阅读优先次序。而不必使用显示的索引号码或者索引号码的组合来表示各叶子节点间的阅读优先次序。

图8中的版式文档逻辑结构信息结构图,表达了版式文档结构描述信息的逻辑结构信息和页面结构信息,具有层次式分布的特点。当选择按文档逻辑结构来进行可回流绘制时,按如下步骤进行绘制:

8.1)按章、节和小节等逻辑单位来指定需要绘制的区域。绘制程序设置指定的章、节和小节等逻辑区域为当前逻辑区域（如801所示）;

8.2)读取当前位置逻辑区域包含的四类几何区域：段落区域、不可回流区域、逻辑句区域和孤立文字区域,并根据几何区域的类型,按照阅读优先次序设置当前需要绘制的几何区域（如802所示）;

8.3)对当前几何区域进行绘制,绘制处理的具体实现可参照图6中的步骤606、步骤607、步骤609和步骤610;

8.4)当前几何区域绘制完成后,如果绘制媒体上还有绘制空间,则按照阅读优先次序设置下一几何区域为当前绘制几何区域,跳转到8.3);

8.5)当前逻辑区域绘制完成后,如果绘制媒体上还有绘制空间,则按照阅读优先次序设置下一逻辑区域为当前逻辑区域,跳转到步骤8.2)。否则本屏绘制处理完成。

在步骤8.4)和8.5)中如果绘制媒体上没有绘制空间,则保存当前逻辑区域和几何区域,当前几何区域为段落区域和逻辑句区域时，还需保存当前文本行/列索引号（如803所示）和当前可回流单元的索引号（如804所示）。具体下一几何区域和下一逻辑区域的确定方式，对图8所示的层次式数据，可按照深度优先搜索的方式来确定下一几何区域何和下一逻辑区域的位置。

图9中的版式文档页面结构信息结构图,表达了版式文档结构页面结构信息,不包含章或节等逻辑结构信息，但文档、页节点、页内几何区域节点间也具有层次式关系的特点。当选择按页面来进行可回流绘制时,按如下步骤进行绘制:

9.1)按页面为单位来指定需要进行的绘制处理。绘制程序设置指定页为当前页；

9.2)读取当前页中包含的四类几何区域：段落区域、不可回流区域、逻辑句区域和孤立文字区域,如页节点901中包含的区域所示。并根据几何区域的类型,按照阅读优先次序设置当前需要绘制的几何区域;

9.3)对当前几何区域进行绘制,绘制处理的具体实现可参照图6中的步骤606、步骤607、步骤609和步骤610;

9.4)当前几何区域绘制完成后,如果绘制媒体上还有绘制空间,则按照阅读优先次序设置下一几何区域设置为当前绘制几何区域,跳转到9.3);此处的下一几何区域是页索引号和9.2）中四类几何区域索引号的组合。如果是段落区域和逻辑句区域，则该组合还要包括文本行/列索引号和可回流单元的索引号。对图9所示的层次式数据，按照深度优先搜索的方式来确定下一区域的位置。

9.5)当前页面绘制完成后,如果绘制媒体上还有绘制空间,则按照阅读优先次序设置下一页为当前页,跳转到步骤9.2)。

在步骤9.4)和9.5)中如果绘制媒体上没有绘制空间,则记录保存当前页面号和当前绘制几何区域,当前几何区域为段落区域和逻辑句区域时，还需记录保存当前文本行/列的索引号（如902所示）和当前可回流单元的索引号（如903所示）,以便用户翻页时继续绘制。本次绘制处理完成。

图4第一实施方式中给出了从版式页面图像中生成高压缩可回流文件的实施方式。另外目前很多图书馆已经有很多分层压缩的数字书籍，如DjVu格式书籍，分层压缩PDF格式书籍等等。可以利用现有的分层压缩格式的数字书籍中已经分离好的2值文字图形层图像数据，来直接提取文字区域，进而判别文字区域的可回流特性。而不需要从彩色页面图像中再次提取文字区域，可以有效地减少计算量，降低算法的复杂性。

第二实施例的示例图如图10所示，用于将分层压缩格式的数字书籍 (如DjVu格式的数字书籍)转换成高压缩可回流文件。在步骤1001中，将分层压缩格式的版式文件解压，得到各页面的颜色层、2值文字图形层图像和背景层图像。通过合成上述三种图像，可以得到彩色页面图像。

在步骤1002中，直接从2值文字图形层图像上计算连通区域，通过对连通区域分类可以检测出文字区域、数学/化学公式区域、徽标区域、表格区域和线画区域等区域，具体实施例参见非专利文件5；另外还可以计算出背景层图像上的连通区域，通过对这些区域分类得到写真区域、线画区域和噪音区域；

在步骤1003中，使用表1的方法，从步骤1002中得到的几何区域中判断出不可回流区域类型，并将属于不可回流区域的文字区域合并进该不可回流区域。此处的合并指把不可回流区域和属于它的文字区域算作一个大的不可回流区域，以便在绘制时，可以把不可回流区域和属于它的文字区域统一绘制处理。

此处的属于包含两层意思：一种是文字区域和不可回流区域在几何上重叠，比如表格上的文字或写真上的文字，此时可以将文字区域合并进该不可回流区域；另一层意思是即使几何上没有重叠，但是文字区域作为不可回流区域（比如说线画区域）的说明，在逻辑概念上属于该不可回流区域。可以使用领域相关知识，利用版面理解和识别等方法来判别该文字区域是否在逻辑上属于该不可回流区域。比如漫画中人物的发言,坐标图中的坐标值等等,在逻辑上属于该不可回流区域。

在步骤1004中，对于不可回流区域，计算其包围框，包围框形状可为长方形、曲线、椭圆或者多边形形状，并记录对象包围框顶点的坐标或该包围框所包围区域，并记录不可回流区域的对齐等显示信息；

对于余下的文字区域，使用版面理解技术，结合使用表2中的规则来对文字区域类型进行细分。首先使用从底向上的方法来确定页面中的所有的文本行/列。如果某文字区域不属于任何行或列，则将其划分为孤立文字区域，并为该孤立文字区域分配一个索引号。孤立文字区域类型属于不可回流区域类型，无需和上下文结合在一起进行显示，如页码、页眉或页尾等文字区域属于孤立文字区域。

对于页面中的每行/列，则确定其行对准线和列对准线，并为该行/列区域分配一个索引号，此处索引号码的分配按照事先约定的规则来分配，比如可按照阅读优先次序来从小到大来分配索引号码；对于其中每行，计算行内可回流单元的包围框;对每列，计算列内可回流单元的包围框，并记录行内或列内可回流单元（比如拉丁文中的单词区域，单个汉字区域或标点符号区域等）的包围框顶点的坐标，并为每个可回流单元包围框分配一个行内或列内的局部索引号，确保对每行或每列来讲，行内或列内每个可回流单元的局部索引号码是不同的；并记录各行/列的对齐属性、缩进属性和阅读方向等显示属性。

在确定完文字行/列区域后，需要将属于同一段落区域的行/列合并起来，具体实施和步骤404中的处理相同，可以使用从底到上的版面分析和理解算法来得到段落区域。

如果某文字行/列区域不属于任何段落区域，则该文字行/列区域被设定为逻辑句区域。逻辑句区域主要包含图表的标题区域、诗歌中的一行或列表中的一项等等区域。需要为每一逻辑句区域分配一个索引号。逻辑句区域通常只有一行或二行,或者一列或两列,不可以和上下文结合起来以可回流的方式进行显示;但当绘制窗口宽度不够(按行方向绘制)时,该逻辑句区域内的可回流单元可以按可回流的方式进行换行绘制。同时需要记录逻辑句区域的显示属性，如对齐和缩进等属性。

对于段落区域，并为每一段落区域分配一个索引号，确定段落区域所包含的文本行/列。同时记录段落的缩进，对齐等特征。段落区域内的文字可以按可回流的方式来进行绘制。

在对页面内的几何区域分类成逻辑句区域、不可回流区域、段落区域和孤立文字区域后，需要结合版面理解和识别技术,根据阅读习惯等先验知识来确定这四类几何区域间的阅读优先关系。

在步骤1005中，利用文档和版面的先验知识和领域知识，进行逻辑版面理解和识别：通过调用212中的版面理解库或程序来对单张或多张数字书籍页面进行版面识别和理解，得到章，节，句子，标题，子标题，摘要，作者等版面逻辑区域信息；为每个逻辑区域分配一个索引号；确定从属于逻辑区域的几何区域和子逻辑区域，比如章逻辑区域包含了节逻辑区域，节逻辑区域包含了段落等逻辑区域；但是章逻辑区域同时又包含和引用了页、段落区域等几何区域。此处为了记录区域间的包含关系，可通过记录父区域所包含子区域的索引号来表达区域间的包含关系。如果采用数据结构来表达包含关系，则可在父区域结构中使用指针等方法，指向所包含的子区域。为了表达子区域间的阅读优先次序，可通过按阅读优先次序排列子区域的指针，或按阅读优先次序关系排列子区域的索引号。具体表达例可以参见图7的说明。

在确定完上述区域间的包含关系和阅读次序后，步骤1006还要将上述信息记录在版式文档的结构描述信息中。此处的版式文档结构描述信息包括:版式文档页面内的几何区域信息和版式文档逻辑版面信息。

版式文档逻辑版面信息包括：逻辑区域信息、逻辑区域间的包含关系信息、逻辑区域和几何区域间包含关系信息，逻辑区域间的阅读优先次序、同一逻辑区域内不同几何区域间的阅读优先次序。

如果按页面来进行可回流绘制的处理方法，版式文档结构描述信息中也可以不包括版式文档逻辑版面信息，如图9中实施所示。由于无需逻辑版面结构,因此不要执行版面理解和识别步骤,比如图10中的步骤。

此处版式文件的描述可以使用XML，SGML或PDF中的描述语言或自定义的语言或自定义的数据结构等来描述。此处不限制记录的语法和描述语言或使用的数据结构,只要在实施中使用指针或索引等方法来表达版式文档的逻辑结构和页面几何结构间的包含关系、段落几何结构和可回流单元间的包含关系、逻辑句和可回流单元间的包含关系,则都应该属于本发明的保护范围。

在步骤1007中，需要对步骤1006中生成的版式文档结构描述信息进行压缩。具体实施参见步骤407。如果使用标记语言来表示该结构信息，具体实现可以参考使用XML感知压缩器对版式文档结构描述信息进行压缩，如XMill技术中的方法或专利文件6中记载的压缩方法。对于使用其它标记语言记述的版式文档结构描述信息可以参考XML文件压缩方法进行压缩，比如使用替换技术和熵编码压缩技术来进行标记语言感知压缩。

如果版式文档结构描述信息以数据结构的方式按照2进制方式保存，对2进制数据中多次出现的同一模式进行替换,实现替换压缩。具体来说就是为多次出现的同一模式在映射表中申请索引号，使用映射表中的索引号来替换该值。完成替换压缩后，可用熵压缩来压缩替换后的2进制数据。

在步骤1008中，文档结构描述压缩数据和分层压缩的高压缩页面图像数据合并。此处的合并是指，版式文档结构描述压缩数据可以和分层压缩的高压缩页面图像数据分离存放；也可以写入一个文件中；或者将版式文档结构描述压缩数据和分层压缩的高压缩页面图像数据打包或压缩在一个文件里面。

此处版式文件的描述可以使用XML，SGML，DOCX，EPUB中的描述语言或自定义的语言或自定义的数据结构等来描述。此处不限制记录的语法和描述语言或使用的数据结构,只要在实施中使用了索引或指针等方法来描述了上述版式文档结构描述信息，都应该属于本发明的保护范围。

Claims

1.一种高压缩可回流文件的建立和绘制方法，其特征在于，包括如下具体步骤：

第一步：高压缩可回流文件的建立：

版式文档结构描述压缩数据生成：

C：建立版式文档结构描述信息；

版式文档压缩处理：

F：根据E中几何区域的类型，把版式文档页面图像分离为2值文字图形层图像、颜色层图像和背景层图像； G：对2值文字图形层图像﹑颜色层和背景层使用各自适合的算法进行压缩，并对压缩数据进行合并；

第二步：高压缩可回流数据的绘制：

5）通过网络或者存储介质得到高压缩可回流数据；

2.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤3)中步骤D中对版式文档结构描述信息进行压缩，对使用标记语言表达的结构描述信息,采用标记语言感知压缩算法进行压缩。

3.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤3)中版式文档压缩处理，如果原版式文档是文字格式的版式文档，可选择使用针对文字格式版式文档的压缩方法来进行压缩和减少容量。

4.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤1）中读取的版式文档中包含的页面图像已压缩过，所述步骤3）中的版式文档压缩处理步骤可以不执行。

5.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤1）中读取的版式文档已经有版式文档结构描述信息，所述步骤3）中的结构描述压缩数据生成步骤中的A、B和C步骤可以不执行。

6.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤1）中读取的版式文档已经有版式文档结构描述压缩数据，所述步骤3）中的版式文档结构描述压缩数据生成步骤可以不执行。

7.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤4)版式文档的结构描述压缩数据和版式文档压缩数据合并,版式文档结构描述压缩数据和版式文档压缩数据可以打包在同一文件里,也可以分离以不同的文件来存放,或者通过压缩方法压缩在同一文件里。

8.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤3)中的步骤C中的结构描述信息,包括版式文档页面内的几何区域信息和版式文档逻辑结构信息。

9.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤8)和9）中的区域位置信息：

如果按照文档页面来进行可回流绘制时，版式文档结构描述信息无须包含版式文档的逻辑结构，步骤3）中的步骤B无须执行，此时区域位置信息包含：页索引；页面内的块区域索引，此处的块区域类型包括段落区域、不可回流区域、逻辑句区域和孤立文字区域四种类型；文本行/列区域索引；可回流单元索引。

10.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤3)中的版式文档结构描述压缩数据生成子步骤可以和版式文档压缩处理子步骤并行执行。

11.根据权利要求1所述高压缩可回流文件的建立和绘制方法，其特征在于，所述步骤6)和步骤7)可以并行执行。