一种转换文档格式的方法和装置
技术领域
本发明涉及通信领域技术,尤其涉及一种转换文档格式的方法和装置。
背景技术
在文档格式转换领域,可以通过虚拟打印将流式文档转换到版式文档。但是,在虚拟打印过程中会丢失一些流式文档的文档结构信息,如段落、标题、分栏、是否跨页、是否为表格以及是否为公式等信息。所以,一般情况下,版式文档中仅保留了原流式文档在排版软件中的原始版式。但是,这样的版式文档在手持阅读设备等设备上阅读时,如手机、电子书阅读器,无法做到屏幕自适应排版。也就是,无法有效地保持与原文档一样的段落顺序,无法很好地区分一个完整的表格或公式。所以,在手持阅读设备上阅读时,一般都需要另外生成一种文档格式,专门供手持设备流式显示,无法共用同一个文档。
发明内容
本发明实施例提供了一种转换文档格式的方法和装置,可以生成兼有版式和流式格式信息的文档格式,使其既能符合电脑显示时的格式要求,又符合移动阅读设备上显示时的格式要求。
本发明实施例提供了一种转换文档格式的方法,包括:
利用排版工具对原始流式文档进行排版;
提取所述排版后的原始流式文档中图元的第一逻辑结构信息;
将所述排版后的原始流式文档中的属于同一图元的版式元素,映射到所述图元第一逻辑结构信息构成的矩形框中;
将所述矩形框中版式元素的转换为目标文档格式中的第二逻辑结构信息的描述形式后进行保存。
相应的,本发明实施例提供了一种转换文档格式的装置,包括:
排版模块,用于利用排版工具对原始流式文档进行排版;
提取模块,用于提取所述排版后的原始流式文档的第一逻辑结构信息;
映射模块,用于将所述排版后的原始流式文档中的属于同一图元的版式元素,映射到所述图元第一逻辑结构信息构成的矩形框中;
转换模块,用于将所述矩形框中的版式元素转换为目标文档格式中的第二逻辑结构信息的描述形式后进行保存。
本发明实施例提供了一种转换文档格式的方法和装置,用于利用排版工具对原始流式文档进行排版;提取所述排版后的原始流式文档中图元的第一逻辑结构信息;将所述排版后的原始流式文档中的属于同一图元的版式元素,映射到所述图元第一逻辑结构信息构成的矩形框中;将所述矩形框中版式元素的转换为目标文档格式中的第二逻辑结构信息的描述形式后进行保存。使用本发明实施例提供的转换文档格式的方法和装置,通过提取原始流式文档中的图元的逻辑结构信息,并获得这些逻辑结构信息构成的矩形框;然后将相应位置的版式元素映射到矩形框中,再将版式元素转换为目标文档格式需要的类型。由此,可以生成兼有版式和流式格式信息的文档格式,使其既能符合电脑显示时的格式要求,又符合移动阅读设备上显示时的格式要求。而且,使得一个文档同时符合两种显示要求,节约了转换文档格式的成本。
附图说明
图1为本发明实施例中转换文档格式的方法流程示意图;
图2为本发明实施例中提取段落的第一逻辑结构信息的流程示意图;
图3为本发明另一实施例中提取段落的第一逻辑结构信息的流程示意图;
图4为本发明另一实施例中提取表格的第一逻辑结构信息的流程示意图;
图5为本发明另一实施例中转换文档格式的装置示意图。
具体实施方式
下面结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
现有技术中将流式文档转化为版式文档后,该版式文档仅适用在电脑上进行显示,而无法适用于移动终端上的显示方式。为了解决现有技术存在的问题,本发明实施例提供了一种转换文档格式的方法,如图1所示,包括以下步骤:
步骤101、利用排版工具对原始流式文档进行排版;
步骤102、提取排版后的原始流式文档中图元的第一逻辑结构信息;
步骤103、将排版后的原始流式文档中的属于同一图元的版式元素,映射到图元第一逻辑结构信息构成的矩形框中;
步骤104、将矩形框中版式元素的转换为目标文档格式中的第二逻辑结构信息的描述形式后进行保存。
具体的,将含有原始逻辑结构信息的原始流式文档进行排版,使原始逻辑结构信息转换为具有位置信息和/或属性信息的第一逻辑结构信息。流式文档中包括多种图元,例如标题、段落、表格、公式、图片、复合图元等。使用排版工具对该流式文档进行排版后,使每个图元均具有位置信息和/或属性信息,这样每个图元的第一逻辑结构信息包括了上述位置信息和/或属性信息。例如,图元为段落时,其第一逻辑结构信息可以包括段落是否跨页、是否具有分栏格式、是否包含标题、是否首行缩进、对齐方式、位置区域等。
然后,可以提取该文档中图元的第一逻辑结构信息,以便获知文档的具体结构,例如:图元为段落时,提取排版后的原始流式文档中图元的第一逻辑结构信息,如图2所示,包括以下步骤:
步骤201、获取当前的段落;
步骤202、判断该段落是否跨页;若未跨页,执行步骤203;若跨页,执行步骤204;具体的,将当前段落的第一个字符和最后一个字符所在的页码进行比较,若页码相同,则表明该段落未跨页;若页码不相同,则表明该段落跨页。
步骤203、将段落作为一个矩形框单元,获取段落的位置信息。
步骤204、将每页中段落作为一个矩形框单元,分别保存每个矩形框单元的位置信息,并将该段落的所有矩形框单元均标记统一标识,标明属于同一段落。而且,获取段落的位置信息的同时,还可以获取段落的属性信息,例如标题、段落样式等信息。
图元为段落时,提取排版后的原始流式文档中图元的第一逻辑结构信息,还可以为提取该段落是否分栏,如图3所示,包括以下步骤:
步骤301、获取当前的段落;
步骤302、判断该段落是否具有分栏结构;若不具有分栏结构,执行步骤303;若具有分栏结构,则执行步骤304;具体的,获取当前段落中文本栏的数量,若文本栏数量大于1,则说明该段落具有分栏结构;若文本栏数量等于1,则说明该段落不具有分栏结构。
步骤303、将该段落作为一个矩形框单元,获取段落的位置信息;
步骤304、将每一栏作为一个矩形框单元,分别保存每个矩形框单元的位置信息,并将该段落的所有矩形框单元均标记统一标识,标明属于同一段落。
对于同一个段落判断是否分栏和是否跨页,没有既定的先后顺序。但从实践角度,可以先判断该段落是否分栏,再判断该段落是否跨页,这样的效果较佳。
当图元为表格时,提取排版后的原始流式文档中图元的第一逻辑结构信息,如图4所示,可以包括以下步骤:
步骤401、获取当前的表格;
步骤402、判断该表格是否跨页;若未跨页,执行步骤403;若跨页,执行步骤404;具体的,将当前表格的第一个单元格和最后一个单元格所在的页码进行比较,若页码相同,则表明该表格未跨页;若页码不相同,则表明该表格跨页。
步骤403、将表格作为一个矩形框单元,获取表格的位置信息。
步骤404、将每页中表格作为一个矩形框单元,分别保存每个矩形框单元的位置信息,并将该表格的所有矩形框单元均标记统一标识,标明属于同一表格。而且,获取表格的位置信息的同时,还可以获取表格的属性信息,例如标题、段落样式等信息。
通过获取上述文档中图元的第一逻辑结构信息,可以将该文档由多个矩形框构成,然后,将相应内容映射到矩形框中即可。具体的,获取排版后的原始流式文档中的属于同一图元的版式元素,将版式元素按照位置信息,映射到图元的第一逻辑结构信息构成的具有相应位置信息矩形框单元中。可以获取版式元素(例如字符)的位置信息,判断其位于哪个矩形框单元内,并与具有相应位置信息矩形框单元建立映射关系。
最后,将每个矩形框单元中的版式元素转换为目标文档格式中的第二逻辑结构信息的描述形式并保存。该目标文档格式可以为版式文档格式或者其他文档格式。
通过上述描述,可以看出,使用本发明实施例提供的转换文档格式的方法,通过提取原始流式文档中的图元的逻辑结构信息,并获得这些逻辑结构信息构成的矩形框;然后将相应位置的版式元素映射到矩形框中,再将版式元素转换为目标文档格式需要的类型。由此,可以生成兼有版式和流式格式信息的文档格式,使其既能符合电脑显示时的格式要求,又符合移动阅读设备上显示时的格式要求。而且,使得一个文档同时符合两种显示要求,节约了转换文档格式的成本。
相应的,本发明实施例还提供一种转换文档格式的装置,如图5所示,具体包括:
排版模块501,用于利用排版工具对原始流式文档进行排版;
提取模块502,用于提取所述排版后的原始流式文档的第一逻辑结构信息;
映射模块503,用于将所述排版后的原始流式文档中的属于同一图元的版式元素,映射到所述图元第一逻辑结构信息构成的矩形框中;
转换模块504,用于将所述矩形框中的版式元素转换为目标文档格式中的第二逻辑结构信息的描述形式后进行保存。
较佳的,所述排版模块501,具体用于将含有原始逻辑结构信息的所述原始流式文档进行排版,使所述原始逻辑结构信息转换为具有位置信息和/或属性信息的第一逻辑结构信息。
较佳的,所述图元为段落或表格时,所述提取模块502用于判断所述段落或表格是否跨页;若未跨页,将所述段落或表格作为一个矩形框单元,获取所述段落或表格的位置信息;若跨页,将每页中所述段落或表格作为一个矩形框单元,分别保存每个矩形框单元的位置信息,并将所述段落或表格的所有矩形框单元均标记统一标识,标明属于同一段落或表格;或者
所述图元为段落时,所述提取模块502,用于判断所述段落是否分栏结构;若不具有分栏结构,则将所述段落作为一个矩形框单元,获取所述段落的位置信息;若具有分栏结构,则将每一栏作为一个矩形框单元,分别保存每个矩形框单元的位置信息,并将所述段落的所有矩形框单元均标记统一标识,标明属于同一段落或表格。
较佳的,所述映射模块503,具体用于获取所述排版后的原始流式文档中的属于同一图元的版式元素,将所述版式元素按照位置信息,映射到所述图元的第一逻辑结构信息构成的具有相应位置信息矩形框单元中。
通过上述描述,可以看出,使用本发明实施例提供的转换文档格式的方法和装置,通过提取原始流式文档中的图元的逻辑结构信息,并获得这些逻辑结构信息构成的矩形框;然后将相应位置的版式元素映射到矩形框中,再将版式元素转换为目标文档格式需要的类型。由此,可以生成兼有版式和流式格式信息的文档格式,使其既能符合电脑显示时的格式要求,又符合移动阅读设备上显示时的格式要求。而且,使得一个文档同时符合两种显示要求,节约了转换文档格式的成本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。