具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一个实施例提供一种文档格式转换的方法,如图1所示,该方法包括:
101、将原始文档进行排版,获取排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息。
其中,所述原始文档可以为但不局限于流式文档;将原始文档进行排版时,可以通过固有的排版系统对所述原始文档进行排版,但本发明实施例对此不进行限制,现有技术中的任一种排版方法都可以用于本发明实施例中。
其中,对所述原始文档进行排版后,可以获取所述原始文档中图文的逻辑结构信息,该逻辑结构信息包括标题、段落、公式、表格、分栏等的外接最小矩形位置信息。
102、按照与对所述原始文档进行排版时使用的相同规格的纸张,对排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息。
这里需要特别说明的是,为例保证目标文档与原始文档具有相同的流式的逻辑结构信息,在对排版后的所述原始文档进行虚拟打印时,虚拟打印使用的纸张的规格必须与对所述原始文档进行排版时使用纸张的规格相同,否则将无法实现目标文档与原始文档具有相同流式的逻辑结构信息。
103、根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档。
其中,所述根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档,可以采用但不局限于以下方法,该方法包括:
首先,根据所述逻辑结构位置信息,将排版后的所述原始文档中的图文所在最小外接矩形进行排序,得到所述离散图文在目标文档中所在最小外接矩形的逻辑结构。
其次,根据所述离散图文的位置信息和所述逻辑结构位置信息,得到所述离散图文在目标文档中所对应的最小外接矩形,并将属于同一个最小外接矩形的所述离散图文生成一个所述目标文档格式中预定义的图元描述。其中,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息;所述逻辑结构信息包括标题、段落、公式、表格、分栏等的外接最小矩形位置信息。
其中,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息;所述根据所述离散图文的位置信息和所述逻辑结构位置信息,得到所述离散图文在目标文档中所对应的最小外接矩形,可以采用以下的方法,包括:
将所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,与排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息进行匹配;若所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息,则确定对应的所述排版后的所述原始文档中的图文所在最小外接矩形,为所述离散图文在目标文档中所对应的最小外接矩形;若所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,不存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息,则根据所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,为所述离散图文目标文档中新建一个所述离散图文所在最小外接矩形。
再次,根据所述离散图文的属性,将生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档;
其中,所述根据所述离散图文的属性,将生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档,可以采用以下方法,包括:
根据离散图文的图文属性判断每个所述目标文档格式中预定义的图元描述对应的离散图文,是否为具有整体阅读性特点的逻辑结构的图文;若所述离散图文为具有整体阅读性特点的逻辑结构的图文,则根据所述离散图文的位置信息,将所述离散图文组合成一个复合图文,并将所述复合图文添加到所述复合图文在目标文档中所对应的最小外接矩形中的对应位置;若所述离散图文的属性为不具有整体阅读性特点的逻辑结构的图文,则根据所述离散图文的位置信息,将所述离散图文添加到在目标文档中所对应的最小外接矩形中的对应位置。其中,具有整体阅读性特点的逻辑结构的图文,例如,表格或者公式等,其必须将组成表格或者公式的离散图文组成具有一定逻辑结构的整体,才能使用户知道其所要表达的意思。
例如,在现实文档转换领域,将MS Office文档向Apabi CEBX(此格式可包含流式信息和版式信息)文档格式转换时,就可以先用Microsoft Word软件打开DOC/DOCX文档,对该MS Office文档进行排版,再利用MS Word提供的二次开发接口获得该文档中图文(标题、段落、公式、表格、分栏等)所在最小外接矩形的逻辑结构位置信息。将排版后的MS Office文档提交给Founder CEBXConverter打印机进行虚拟打印,在使用Founder CEBX Converter虚拟打印机对所述排版后的MS Office文档进行虚拟打印的过程中,获取排版后的MS Office文档中离散图文的位置信息;根据所述逻辑结构位置信息将排版后的MS Office文档中的图文所在最小外接矩形进行排序,确定所述离散图文在CEBX文档中所在最小外接矩形的逻辑结构,并将这些离散的图文信息重新按排版后的MSOffice文档中的逻辑结构信息进行组合,使生成的CEBX文档既有版式信息,又保留了源文档的逻辑结构信息。这样,同一份CEBX文件,不仅可以在不同操作系统平台上保持原版原式进行阅读或打印,又可以在不同的手持阅读设备上进行内容重排,做到一文多用。这种转换方法同样适用于WPS Office、永中Office或其它文字排版软件。
本发明实施例中,通过对原始文档进行排版,获取原始文档排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息,并通过虚拟打印的形式,对所述排版后的原始文档进行虚拟打印,从而获取排版后的所述原始文档中离散图文的位置信息,之后再根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档;从而使目标文档既含有版式信息,使目标文档能够在不同平台上阅读和打印保持原版原式的文档;又能保持原始文档的流式信息,使目标文档能够在手持移动设备上进行重排,屏幕自适应阅读,并保持各图元正确的阅读顺序。
本发明的又一个实施例还提供一种文档格式转换的装置,如图2所示,该装置包括:排版单元21、第一获取单元22、第二获取单元23和重组单元24。
排版单元21,用于将原始文档进行排版;其中,所述原始文档可以为但不局限于流式文档;所述排版单元21将原始文档进行排版时,可以通过固有的排版系统对所述原始文档进行排版,但本发明实施例对此不进行限制,现有技术中的任一种排版方法都可以用于本发明实施例中。
第一获取单元22,用于获取所述排版单元21排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息。其中,所述原始文档中图文可以为文字、图片、公式、表格等。
第二获取单元23,用于按照与对所述原始文档进行排版时使用的相同规格的纸张,对所述排版单元21排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息。
重组单元24,用于根据所述第一获取单元22获取的所述逻辑结构位置信息和所述第二获取单元23获取的所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档。
进一步的,如图3所示,所述重组单元24包括:第一确定模块241、第二确定模块242、生成模块243和处理模块244。
第一确定模块241,用于根据所述第一获取单元22获取的所述逻辑结构位置信息,将排版后的所述原始文档中的图文所在最小外接矩形进行排序,得到所述离散图文在目标文档中所在最小外接矩形的逻辑结构;
第二确定模块242,用于根据所述第二获取单元23获取的所述离散图文的位置信息和所述第一获取单元22获取的所述逻辑结构位置信息,确定所述离散图文在目标文档中所对应的最小外接矩形;
生成模块243,用于将属于同一个最小外接矩形的所述离散图文生成一个所述目标文档格式中预定义的图元描述;
处理模块244,用于根据所述离散图文的属性,将所述生成模块243生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档。
进一步的,如图4所示,所述第二确定模块242包括:匹配子模块2421、第一确定子模块2422和创建子模块2423。
匹配子模块2421,用于将所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,与排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息进行匹配,其中,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信。
第一确定子模块2422,用当所述匹配子模块2421确定所述匹配子模块确定所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息时,确定所述排版后的所述原始文档中的图文所在最小外接矩形,为所述离散图文在目标文档中所对应的最小外接矩形。
创建子模块2423,用于当所述匹配子模块2421确定所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,不存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息时,根据所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,为所述离散图文在目标文档中新建一个所述离散图文所在最小外接矩形。
进一步的,如图5所示,所述处理模块244包括:判断子模块2441、第一处理子模块2442和第二处理子模块2443。
判断子模块2441,用于根据离散图文的图文属性判断所述每个所述目标文档格式中预定义的图元描述对应的离散图文,是否为具有整体阅读性特点的逻辑结构的图文。
第一处理子模块2442,用于在所述判断子模块2441判定所述离散图文为具有整体阅读性特点的逻辑结构的图文时,根据所述离散图文的位置信息,将所述离散图文组合成一个复合图文,并将所述复合图文添加到所述复合图文在目标文档中所对应的对应位置。
第二处理子模块2443,用于在所述判断子模块2441判定所述离散图文的属性为不具有整体阅读性特点的逻辑结构的图文时,根据所述离散图文的位置信息,将所述离散图文添加到在目标文档中所对应的最小外接矩形中的对应位置。
本发明实施例中,通过对原始文档进行排版,获取原始文档排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息,并通过虚拟打印的形式,对所述排版后的原始文档进行虚拟打印,从而获取排版后的所述原始文档中离散图文的位置信息,之后再根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档;从而使目标文档既含有版式信息,使目标文档能够在不同平台上阅读和打印保持原版原式的文档;又能保持原始文档的流式信息,使目标文档能够在手持移动设备上进行重排,屏幕自适应阅读,并保持各图元正确的阅读顺序。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。