CN102591849B - 文档格式转换的方法及装置 - Google Patents

文档格式转换的方法及装置 Download PDF

Info

Publication number
CN102591849B
CN102591849B CN201110002795.6A CN201110002795A CN102591849B CN 102591849 B CN102591849 B CN 102591849B CN 201110002795 A CN201110002795 A CN 201110002795A CN 102591849 B CN102591849 B CN 102591849B
Authority
CN
China
Prior art keywords
text
picture
positional information
typesetting
original document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110002795.6A
Other languages
English (en)
Other versions
CN102591849A (zh
Inventor
何震生
曹佳胤
王毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University Founder Research and Development Center
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN201110002795.6A priority Critical patent/CN102591849B/zh
Publication of CN102591849A publication Critical patent/CN102591849A/zh
Application granted granted Critical
Publication of CN102591849B publication Critical patent/CN102591849B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明实施例公开了一种文档格式转换的方法及装置,涉及电子文档技术领域,能够使同一份目标文档在不同平台、不同设备上以相同的版式和流式进行阅读。本发明的方法包括:将原始文档进行排版,获取排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息;按照与对所述原始文档进行排版时使用的相同规格的纸张,对排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息;根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档。本发明实施例主要用户文档格式的转换过程中。

Description

文档格式转换的方法及装置
技术领域
本发明涉及电子文档技术领域,尤其涉及一种文档格式转换的方法及装置。
背景技术
在文档格式转换领域,很多格式的文档可通过虚拟打印将文档从一种格式转换成另外一种格式。但在虚拟打印过程中,原文档的文档结构信息如段落、标题、分栏、是否跨页、是否是表格、是否是公式等逻辑结构信息就丢失了,而且虚拟打印驱动程序获得的图文顺序并不与原文档的阅读顺序一致。在现有技术条件下,当目标文档格式是版式文档格式时,仅可以保留原文档在排版软件中的原版原式,但当该目标文档想要在手持阅读设备如手机、电子书阅读器等设备上阅读时,版式文档就无法做到内容重排,屏幕自适应排版,无法有效地保持与原文档一样的段落阅读顺序,无法很好地区分一个完整的表格或公式。所以在手持阅读设备上阅读时,版式文档一般都无法满足重排的需求,无法进行屏幕自适应阅读,只能对版式文档重新进行版式分析,但遇到有分栏、公式、表格的情况,效果很差,只能再通过人工标引方式处理,费时费力且正确性不能保证。
发明内容
本发明的实施例提供一种文档格式转换的方法及装置,能够使同一份目标文档在不同平台、不同设备上以相同的版式和流式进行阅读。
为达到上述目的,本发明的实施例采用如下技术方案:
一种文档格式转换的方法,包括:
将原始文档进行排版,获取排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息;
按照与对所述原始文档进行排版时使用的相同规格的纸张,对排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息;
根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档。
一种文档格式转换的装置,包括:
排版单元,用于将原始文档进行排版;
第一获取单元,用于获取所述排版单元排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息;
第二获取单元,用于按照与对所述原始文档进行排版时使用的相同规格的纸张,对排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息;
重组单元,用于根据所述第一获取单元获取的所述逻辑结构位置信息和所述第二获取单元获取的所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档。
本发明实施例提供的技术方案,通过对原始文档进行排版,获取原始文档排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息,并通过虚拟打印的形式,对所述排版后的原始文档进行虚拟打印,从而获取排版后的所述原始文档中离散图文的位置信息,之后再根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档;从而使目标文档既含有版式信息,使目标文档能够在不同平台上阅读和打印保持原版原式的文档;又能保持原始文档的流式信息,使目标文档能够在手持移动设备上进行重排,屏幕自适应阅读,并保持各图元正确的阅读顺序。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例中的文档格式转换的方法流程图;
图2为本发明的又一个实施例中的一种文档格式转换的装置组成框图;
图3为本发明的又一个实施例中的又一种文档格式转换的装置组成框图;
图4为本发明的又一个实施例中的又一种文档格式转换的装置组成框图;
图5为本发明的又一个实施例中的又一种文档格式转换的装置组成框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一个实施例提供一种文档格式转换的方法,如图1所示,该方法包括:
101、将原始文档进行排版,获取排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息。
其中,所述原始文档可以为但不局限于流式文档;将原始文档进行排版时,可以通过固有的排版系统对所述原始文档进行排版,但本发明实施例对此不进行限制,现有技术中的任一种排版方法都可以用于本发明实施例中。
其中,对所述原始文档进行排版后,可以获取所述原始文档中图文的逻辑结构信息,该逻辑结构信息包括标题、段落、公式、表格、分栏等的外接最小矩形位置信息。
102、按照与对所述原始文档进行排版时使用的相同规格的纸张,对排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息。
这里需要特别说明的是,为例保证目标文档与原始文档具有相同的流式的逻辑结构信息,在对排版后的所述原始文档进行虚拟打印时,虚拟打印使用的纸张的规格必须与对所述原始文档进行排版时使用纸张的规格相同,否则将无法实现目标文档与原始文档具有相同流式的逻辑结构信息。
103、根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档。
其中,所述根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档,可以采用但不局限于以下方法,该方法包括:
首先,根据所述逻辑结构位置信息,将排版后的所述原始文档中的图文所在最小外接矩形进行排序,得到所述离散图文在目标文档中所在最小外接矩形的逻辑结构。
其次,根据所述离散图文的位置信息和所述逻辑结构位置信息,得到所述离散图文在目标文档中所对应的最小外接矩形,并将属于同一个最小外接矩形的所述离散图文生成一个所述目标文档格式中预定义的图元描述。其中,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息;所述逻辑结构信息包括标题、段落、公式、表格、分栏等的外接最小矩形位置信息。
其中,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息;所述根据所述离散图文的位置信息和所述逻辑结构位置信息,得到所述离散图文在目标文档中所对应的最小外接矩形,可以采用以下的方法,包括:
将所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,与排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息进行匹配;若所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息,则确定对应的所述排版后的所述原始文档中的图文所在最小外接矩形,为所述离散图文在目标文档中所对应的最小外接矩形;若所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,不存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息,则根据所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,为所述离散图文目标文档中新建一个所述离散图文所在最小外接矩形。
再次,根据所述离散图文的属性,将生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档;
其中,所述根据所述离散图文的属性,将生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档,可以采用以下方法,包括:
根据离散图文的图文属性判断每个所述目标文档格式中预定义的图元描述对应的离散图文,是否为具有整体阅读性特点的逻辑结构的图文;若所述离散图文为具有整体阅读性特点的逻辑结构的图文,则根据所述离散图文的位置信息,将所述离散图文组合成一个复合图文,并将所述复合图文添加到所述复合图文在目标文档中所对应的最小外接矩形中的对应位置;若所述离散图文的属性为不具有整体阅读性特点的逻辑结构的图文,则根据所述离散图文的位置信息,将所述离散图文添加到在目标文档中所对应的最小外接矩形中的对应位置。其中,具有整体阅读性特点的逻辑结构的图文,例如,表格或者公式等,其必须将组成表格或者公式的离散图文组成具有一定逻辑结构的整体,才能使用户知道其所要表达的意思。
例如,在现实文档转换领域,将MS Office文档向Apabi CEBX(此格式可包含流式信息和版式信息)文档格式转换时,就可以先用Microsoft Word软件打开DOC/DOCX文档,对该MS Office文档进行排版,再利用MS Word提供的二次开发接口获得该文档中图文(标题、段落、公式、表格、分栏等)所在最小外接矩形的逻辑结构位置信息。将排版后的MS Office文档提交给Founder CEBXConverter打印机进行虚拟打印,在使用Founder CEBX Converter虚拟打印机对所述排版后的MS Office文档进行虚拟打印的过程中,获取排版后的MS Office文档中离散图文的位置信息;根据所述逻辑结构位置信息将排版后的MS Office文档中的图文所在最小外接矩形进行排序,确定所述离散图文在CEBX文档中所在最小外接矩形的逻辑结构,并将这些离散的图文信息重新按排版后的MSOffice文档中的逻辑结构信息进行组合,使生成的CEBX文档既有版式信息,又保留了源文档的逻辑结构信息。这样,同一份CEBX文件,不仅可以在不同操作系统平台上保持原版原式进行阅读或打印,又可以在不同的手持阅读设备上进行内容重排,做到一文多用。这种转换方法同样适用于WPS Office、永中Office或其它文字排版软件。
本发明实施例中,通过对原始文档进行排版,获取原始文档排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息,并通过虚拟打印的形式,对所述排版后的原始文档进行虚拟打印,从而获取排版后的所述原始文档中离散图文的位置信息,之后再根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档;从而使目标文档既含有版式信息,使目标文档能够在不同平台上阅读和打印保持原版原式的文档;又能保持原始文档的流式信息,使目标文档能够在手持移动设备上进行重排,屏幕自适应阅读,并保持各图元正确的阅读顺序。
本发明的又一个实施例还提供一种文档格式转换的装置,如图2所示,该装置包括:排版单元21、第一获取单元22、第二获取单元23和重组单元24。
排版单元21,用于将原始文档进行排版;其中,所述原始文档可以为但不局限于流式文档;所述排版单元21将原始文档进行排版时,可以通过固有的排版系统对所述原始文档进行排版,但本发明实施例对此不进行限制,现有技术中的任一种排版方法都可以用于本发明实施例中。
第一获取单元22,用于获取所述排版单元21排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息。其中,所述原始文档中图文可以为文字、图片、公式、表格等。
第二获取单元23,用于按照与对所述原始文档进行排版时使用的相同规格的纸张,对所述排版单元21排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息。
重组单元24,用于根据所述第一获取单元22获取的所述逻辑结构位置信息和所述第二获取单元23获取的所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档。
进一步的,如图3所示,所述重组单元24包括:第一确定模块241、第二确定模块242、生成模块243和处理模块244。
第一确定模块241,用于根据所述第一获取单元22获取的所述逻辑结构位置信息,将排版后的所述原始文档中的图文所在最小外接矩形进行排序,得到所述离散图文在目标文档中所在最小外接矩形的逻辑结构;
第二确定模块242,用于根据所述第二获取单元23获取的所述离散图文的位置信息和所述第一获取单元22获取的所述逻辑结构位置信息,确定所述离散图文在目标文档中所对应的最小外接矩形;
生成模块243,用于将属于同一个最小外接矩形的所述离散图文生成一个所述目标文档格式中预定义的图元描述;
处理模块244,用于根据所述离散图文的属性,将所述生成模块243生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档。
进一步的,如图4所示,所述第二确定模块242包括:匹配子模块2421、第一确定子模块2422和创建子模块2423。
匹配子模块2421,用于将所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,与排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息进行匹配,其中,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信。
第一确定子模块2422,用当所述匹配子模块2421确定所述匹配子模块确定所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息时,确定所述排版后的所述原始文档中的图文所在最小外接矩形,为所述离散图文在目标文档中所对应的最小外接矩形。
创建子模块2423,用于当所述匹配子模块2421确定所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,不存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息时,根据所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,为所述离散图文在目标文档中新建一个所述离散图文所在最小外接矩形。
进一步的,如图5所示,所述处理模块244包括:判断子模块2441、第一处理子模块2442和第二处理子模块2443。
判断子模块2441,用于根据离散图文的图文属性判断所述每个所述目标文档格式中预定义的图元描述对应的离散图文,是否为具有整体阅读性特点的逻辑结构的图文。
第一处理子模块2442,用于在所述判断子模块2441判定所述离散图文为具有整体阅读性特点的逻辑结构的图文时,根据所述离散图文的位置信息,将所述离散图文组合成一个复合图文,并将所述复合图文添加到所述复合图文在目标文档中所对应的对应位置。
第二处理子模块2443,用于在所述判断子模块2441判定所述离散图文的属性为不具有整体阅读性特点的逻辑结构的图文时,根据所述离散图文的位置信息,将所述离散图文添加到在目标文档中所对应的最小外接矩形中的对应位置。
本发明实施例中,通过对原始文档进行排版,获取原始文档排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息,并通过虚拟打印的形式,对所述排版后的原始文档进行虚拟打印,从而获取排版后的所述原始文档中离散图文的位置信息,之后再根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档;从而使目标文档既含有版式信息,使目标文档能够在不同平台上阅读和打印保持原版原式的文档;又能保持原始文档的流式信息,使目标文档能够在手持移动设备上进行重排,屏幕自适应阅读,并保持各图元正确的阅读顺序。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种文档格式转换的方法,其特征在于,包括: 
将原始文档进行排版,获取排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息; 
按照与对所述原始文档进行排版时使用的相同规格的纸张,对排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息; 
根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档;
其中,所述根据所述逻辑结构位置信息和所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档,包括: 
根据所述逻辑结构位置信息,将排版后的所述原始文档中的图文所在最小外接矩形进行排序,得到所述离散图文在目标文档中所在最小外接矩形的逻辑结构; 
根据所述离散图文的位置信息和所述逻辑结构位置信息,确定所述离散图文在目标文档中所对应的最小外接矩形,并将属于同一个最小外接矩形的所述离散图文生成一个所述目标文档格式中预定义的图元描述; 
根据所述离散图文的属性,将生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档。 
2.根据权利要求1所述的方法,其特征在于,所述根据所述离散图文的位置信息和所述逻辑结构位置信息,确定所述离散图文在目标文档中所对应的最小外接矩形,包括: 
将所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,与排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息进行匹配,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息; 
若所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的 逻辑结构位置信息相同的逻辑结构位置信息,则确定对应的所述排版后的所述原始文档中的图文所在最小外接矩形,为所述离散图文在目标文档中所对应的最小外接矩形; 
若所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,不存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息,则根据所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,为所述离散图文在目标文档中新建一个所述离散图文所在最小外接矩形。 
3.根据权利要求1所述的方法,其特征在于,所述根据所述离散图文的属性,将生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档,包括: 
根据离散图文的图文属性判断每个所述目标文档格式中预定义的图元描述对应的离散图文,是否为具有整体阅读性特点的逻辑结构的图文; 
若所述离散图文为具有整体阅读性特点的逻辑结构的图文,则根据所述离散图文的位置信息,将所述离散图文组合成一个复合图文,并将所述复合图文添加到所述复合图文在目标文档中所对应的最小外接矩形中的对应位置; 
若所述离散图文的属性为不具有整体阅读性特点的逻辑结构的图文,则根据所述离散图文的位置信息,将所述离散图文添加到所述离散图文在目标文档中所对应的最小外接矩形中的对应位置。 
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述原始文档为流式文档。 
5.一种文档格式转换的装置,其特征在于,包括: 
排版单元,用于将原始文档进行排版; 
第一获取单元,用于获取所述排版单元排版后的所述原始文档中图文所在最小外接矩形的逻辑结构位置信息; 
第二获取单元,用于按照与对所述原始文档进行排版时使用的相同规格的纸张,对所述排版单元排版后的所述原始文档进行虚拟打印,获取排版后的所述原始文档中离散图文的位置信息; 
重组单元,用于根据所述第一获取单元获取的所述逻辑结构位置信息和所述第二获取单元获取的所述离散图文的位置信息,重组所述离散图文,得到与所述原始文档具有相同版式和相同流式的目标文档;
其中,所述重组单元包括: 
第一确定模块,用于根据所述第一获取单元获取的所述逻辑结构位置信息,将排版后的所述原始文档中的图文所在最小外接矩形进行排序,得到所述离散图文在目标文档中所在最小外接矩形的逻辑结构; 
第二确定模块,用于根据所述第二获取单元获取的所述离散图文的位置信息和所述第一获取单元获取的所述逻辑结构位置信息,确定所述离散图文在目标文档中所对应的最小外接矩形; 
生成模块,用于将属于同一个最小外接矩形的所述离散图文生成一个所述目标文档格式中预定义的图元描述; 
处理模块,用于根据所述离散图文的属性,将所述生成模块生成的每个所述目标文档格式中预定义的图元描述对应的离散图文进行处理,得到与所述原始文档具有相同版式和流式的目标文档。 
6.根据权利要求5所述的装置,其特征在于,所述第二确定模块包括: 
匹配子模块,用于将所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,与排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息进行匹配,所述离散图文的位置信息包含所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信; 
第一确定子模块,用于当所述匹配子模块确定所述匹配子模块确定所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位置信息时,确定对应的所述排版后的所述原始文档中的图文所在最小外接矩形,为所述离散图文在目标文档中所对应的最小外接矩形; 
创建子模块,用于当所述匹配子模块确定所述排版后的所述原始文档中的图文所在最小外接矩形的逻辑结构位置信息中,不存在与所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息相同的逻辑结构位 置信息时,根据所述离散图文在排版后的所述原始文档中所在最小外接矩形的逻辑结构位置信息,为所述离散图文在目标文档中新建一个所述离散图文所在最小外接矩形。 
7.根据权利要求5所述的装置,其特征在于,所述处理模块包括: 
判断子模块,用于根据离散图文的图文属性判断所述每个所述目标文档格式中预定义的图元描述对应的离散图文,是否为具有整体阅读性特点的逻辑结构的图文; 
第一处理子模块,用于在所述判断子模块判定所述离散图文为具有整体阅读性特点的逻辑结构的图文时,根据所述离散图文的位置信息,将所述离散图文组合成一个复合图文,并将所述复合图文添加到所述复合图文在目标文档中所对应的最小外接矩形中的对应位置; 
第二处理子模块,用于在所述判断子模块判定所述离散图文的属性为不具有整体阅读性特点的逻辑结构的图文时,根据所述离散图文的位置信息,将所述离散图文添加到所述离散图文在目标文档中所对应的最小外接矩形中的对应位置。 
8.根据权利要求5至7中任一项所述的装置,其特征在于,所述原始文档为流式文档。 
CN201110002795.6A 2011-01-07 2011-01-07 文档格式转换的方法及装置 Expired - Fee Related CN102591849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110002795.6A CN102591849B (zh) 2011-01-07 2011-01-07 文档格式转换的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110002795.6A CN102591849B (zh) 2011-01-07 2011-01-07 文档格式转换的方法及装置

Publications (2)

Publication Number Publication Date
CN102591849A CN102591849A (zh) 2012-07-18
CN102591849B true CN102591849B (zh) 2014-07-30

Family

ID=46480518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110002795.6A Expired - Fee Related CN102591849B (zh) 2011-01-07 2011-01-07 文档格式转换的方法及装置

Country Status (1)

Country Link
CN (1) CN102591849B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111913B (zh) * 2013-04-16 2017-10-03 北大方正集团有限公司 一种流式文档的处理方法及装置
CN104331391B (zh) * 2013-07-22 2018-02-02 北大方正集团有限公司 文档格式转换装置和文档格式转换方法
CN105446946B (zh) * 2014-07-17 2019-08-02 阿里巴巴集团控股有限公司 版式文档的重排方法、系统及电子阅读终端
CN104281562B (zh) * 2014-09-28 2017-12-12 百度在线网络技术(北京)有限公司 一种电子文档的处理方法及装置
CN109542554B (zh) * 2018-10-26 2022-06-10 金蝶软件(中国)有限公司 文档布局转换的方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739223A (zh) * 2008-11-10 2010-06-16 北大方正集团有限公司 一种通过虚拟打印实现文档格式转换的方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739223A (zh) * 2008-11-10 2010-06-16 北大方正集团有限公司 一种通过虚拟打印实现文档格式转换的方法及系统

Also Published As

Publication number Publication date
CN102591849A (zh) 2012-07-18

Similar Documents

Publication Publication Date Title
US20140325348A1 (en) Conversion of a document of captured images into a format for optimized display on a mobile device
US9594987B2 (en) Printing system, printing method and computer-readable recording medium
US7710590B2 (en) Automatic maintenance of page attribute information in a workflow system
CN102591849B (zh) 文档格式转换的方法及装置
CN109635525A (zh) 水印的添加方法、装置、设备及存储介质
US20130063745A1 (en) Generating a page of an electronic document using a multifunction printer
US9141895B2 (en) Information processing apparatus, data editing method, and computer program product
US9218327B2 (en) Optimizing the layout of electronic documents by reducing presentation size of content within document sections so that when combined a plurality of document sections fit within a page
CN103699314A (zh) 实现手写签字的方法及终端
CN102681976A (zh) 文档形成方法、一致性判断方法及系统、成像设备及系统
US8467087B2 (en) Method and system for reducing materials usage associated with document printing
CN111198664B (zh) 一种文档打印的方法、装置、计算机存储介质及终端
US9779263B2 (en) Access right estimation apparatus and non-transitory computer readable medium
US20100088584A1 (en) Methods and systems for processing a document in a print-production system
CN104281562A (zh) 一种电子文档的处理方法及装置
US8860994B2 (en) Electronic replacement of pre-printed forms
KR20110024874A (ko) 웹 컨텐츠 스크랩 시스템 및 그 방법
CN101458614A (zh) 输出监控系统、方法以及计算机可读取介质
JP2010105191A (ja) 画像処理装置
US20150124269A1 (en) Apparatus and method for controlling printing
CN110795046B (zh) 一种文档打印的方法、装置、计算机存储介质及终端
JP2006165863A (ja) 情報処理システム
CN103179308B (zh) 图像形成装置及图像形成方法
US10789030B2 (en) Document pooling mechanism
CN110929481A (zh) 一种文档编辑的方法、装置、计算机存储介质及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220914

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PEKING University FOUNDER R & D CENTER

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140730

CF01 Termination of patent right due to non-payment of annual fee