CN104346322B - 文档格式处理装置和文档格式处理方法 - Google Patents

文档格式处理装置和文档格式处理方法 Download PDF

Info

Publication number
CN104346322B
CN104346322B CN201310344315.3A CN201310344315A CN104346322B CN 104346322 B CN104346322 B CN 104346322B CN 201310344315 A CN201310344315 A CN 201310344315A CN 104346322 B CN104346322 B CN 104346322B
Authority
CN
China
Prior art keywords
document
data information
information
source data
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310344315.3A
Other languages
English (en)
Other versions
CN104346322A (zh
Inventor
李赟
丁力
边琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Apabi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Apabi Technology Co Ltd filed Critical Founder Information Industry Holdings Co Ltd
Priority to CN201310344315.3A priority Critical patent/CN104346322B/zh
Priority to US14/104,400 priority patent/US20150046797A1/en
Publication of CN104346322A publication Critical patent/CN104346322A/zh
Application granted granted Critical
Publication of CN104346322B publication Critical patent/CN104346322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种文档格式处理装置和一种文档格式处理方法,文档格式处理装置包括:获取单元,用于获取待处理文档处于第一格式时的元素信息;解析单元,用于从元素信息中解析出源数据信息;转换单元,用于将源数据信息转换为待处理文档处于第二格式时的目标数据信息;文档处理单元,用于对目标数据信息进行处理。这样,当处理不支持格式的文档时,通过将待处理的文档所包括的源数据格式转换为目标数据格式即可,不需要对现在的编辑器进行完整的开发,因此,降低了复杂度,同时,由于不需要借助其他格式转换工具来对文档格式进行转换,因此,降低了实现成本及处理时间。

Description

文档格式处理装置和文档格式处理方法
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种文档格式处理装置和一种文档格式处理方法。
背景技术
随着电脑的不断普及,无纸化办公得到越来越多的应用,各种各样的文档也大量的出现在用户的面前,不仅文档的种类出现变化,而且,同一种格式的文档也在不断地更新换代,其中,文档是以数据方式存在于计算机中的文件,也可称为电子文档,文档中具体保存的信息,如:文字、图片等,称为文档内容。
在使用计算机对文档进行编码时,需要按照一定的格式进行编辑,进而保存,该格式称为文档格式,目前,常见的文档格式有:Word、OFD(Open Fixed layout Document,开放版式文档)、PDF(Portable Document Format,便携文件格式)、CEBX(Common e-Documentof Blending XML,基于混合XML的公共电子文档),XML(Extensible Markup Language,可扩展标记语言)等。通常,文档处理编辑器在对文档进行操作时,需要先按照文档格式进行文档内容的解析,然后,对解析后的文档内容执行相应的功能操作。由于文档格式的版本会有差别,而每个文档处理编辑器只能处理特定格式下的特定版本的文档,因此,如何使相应的文档处理编辑器能够对不同格式的文档进行操作是一个值得研究的课题。并且随着数字出版技术的发展,电子文档格式也在不断地更新换代,如何以最小的代价使现有的无奈的处理编辑器支持新文档格式也是一个值得研究的课题。
为了解决上述问题,相关技术中主要通过如下方法进行实现:
一、基于现有的文档处理编辑器框架及底层解析、绘制引擎,针对文档格式新版本开发完整的解析、显示、编辑等功能,整合到新版本的文档处理编辑器和产品中,该方法的优点为:模块独立性较好,可以完整地支持新文档格式的各种特性,但存在实现过程中运算量较大、复杂度较高、耗时较长的缺点;
二、提供格式转换工具,用于将文档格式的新版本转换为文档处理编辑器已支持的文档格式的版本,该方法的优点为几乎不用修改现有文档处理编辑器,但存在耗费转换工具的费用以及耗费较长的文档转换时间的问题。
发明内容
考虑到相关技术中出现的技术问题,本发明所要解决的技术问题在于,提供一种兼容不同文档格式的实现技术,用以解决现有技术在兼容不同文档格式的实现过程中存在的复杂度较高、耗时长、成本高的问题。
有鉴于此,根据本发明的一个方面,提供了一种文档格式处理装置,包括:获取单元,用于获取待处理文档处于第一格式时的元素信息;解析单元,用于从所述元素信息中解析出源数据信息;转换单元,用于将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息;文档处理单元,用于对所述目标数据信息进行处理。
本发明通过获取待处理文档处于第一格式时的元素信息,并解析出元素信息包括的源数据信息;然后,将源数据信息转换为待处理文档处于第二格式时的目标数据信息,对目标数据信息进行处理,这样,当对不支持的格式的文档进行处理时,将待处理的文档所包括的源数据的格式转换为目标数据的格式即可,不需要对现在的文档处理编辑器进行完整的开发,因此,降低了复杂度,同时,由于不需要借助其他格式转换工具来对文档格式进行转换,因此,降低了实现成本及消耗时间。
根据本发明的另一方面,还提供了一种文档格式处理方法,包括:获取待处理文档处于第一格式时的元素信息,并从所述元素信息中解析出源数据信息;将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息,对所述目标数据信息进行处理。
本发明通过获取待处理文档处于第一格式时的元素信息,并解析出元素信息包括的源数据信息;然后,将源数据信息转换为待处理文档处于第二格式时的目标数据信息,对目标数据信息进行处理,这样,当对不支持的格式的文档进行处理时,将待处理的文档所包括的源数据的格式转换为目标数据的格式即可,不需要对现在的文档处理编辑器进行完整的开发,因此,降低了复杂度,同时,由于不需要借助其他格式转换工具来对文档格式进行转换,因此,降低了实现成本及消耗时间。
附图说明
图1示出了根据本发明的一个实施例的文档格式处理装置的框图;
图2示出了根据本发明的一个实施例的文档格式处理方法的流程图;
图3示出了根据本发明的另一实施例的对ODF文档进行格式处理的流程图;
图4A示出了根据本发明的实施例的OFD文档的元素信息示意图;
图4B示出了根据本发明的实施例的CEBX文档的元素信息示意图;
图5示出了根据本发明的实施例的对HTML文档进行格式处理的流程图;
图6示出了根据本发明的又一实施例的文档格式处理方法的流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1示出了根据本发明的一个实施例的文档格式处理装置的框图。
如图1所示,根据本发明的实施例的文档格式处理装置100,包括:获取单元102,用于获取待处理文档处于第一格式时的元素信息;解析单元104,用于从元素信息中解析出源数据信息;转换单元106,用于将源数据信息转换为待处理文档处于第二格式时的目标数据信息;文档处理单元108,用于对该目标数据信息进行处理。
通过获取待处理文档处于第一格式时的元素信息,并解析出元素信息包括的源数据信息;然后,将源数据信息转换为待处理文档处于第二格式时的目标数据信息,对目标数据信息进行处理,这样,当对不支持的格式的文档进行处理时,将待处理的文档所包括的源数据的格式转换为目标数据的格式即可,不需要对现在的文档处理编辑器进行完整的开发,因此,降低了复杂度,同时,由于不需要借助其他格式转换工具来对文档格式进行转换,因此,降低了实现成本及消耗时间。
优选的,获取单元102通过执行消息响应函数获取待处理文档处于第一格式时的元素信息,具体为,提供消息重定向或回调机制,并在插件中定义针对消息响应函数,然后,利用该消息响应函数获取待处理文档处于第一格式时的元素信息;或者,通过接收到的其他工具(例如文档处理编辑器)返回的获取消息确定待处理文档处于第一格式时的元素信息,其中,获取消息中包括获取待处理文档处于第一格式时的元素信息。
在上述任一技术方案中,优选的,上述获取单元102可以包括版式文档获取子单元1022和流式文档获取子单元1024,版式文档获取子单元1022用于在待处理文档的第一格式为版式格式时,直接获取待处理文档处于第一格式时的元素信息;流式文档获取子单元1024用于在待处理文档的第一格式为流式格式时,先对待处理文档进行排版和预分页,再根据排版和预分页结果获取待处理文档处于第一格式时的元素信息。
由于待处理文档的版式不同,因此获取待处理文档处于第一格式时的元素信息的方式也会有所不同,例如,若待处理文档为版式文档,直接获取待处理文档处于第一格式时的元素信息;若待处理文档为流式文档,则要先对待处理文档进行排版和预分页,然后,再根据排版和预分页结果获取待处理文档处于第一格式时的元素信息。
其中,版式是将文字、图片、图形等可视化信息元素在版面布局上调整位置、大小,使版面布局条理化的过程,在阅读时版面呈现方式中,流式排版和版式排版是两种不同的阅读排版方式。版式排版相对于流式排版最大的区别是其版面是固定的,阅读过程中始终以原始编辑版式显示,缩放后不会自动根据页宽进行重新排版。如利用扫描得到的初始图片稿件制成的PDF文件,还有一些就是固定版式制作的PDF图文与纯文本文件了。
流式排版相对于版式排版而言,指对文档包含的文字、数字、表格和图形图像不进行针对性的排版,只存储逻辑结构信息,保存后的内容是原始的图元,用户通过阅读编辑器能查看到排版后的页面,并且可以在不同的缩放比率间自适应版面大小显示。在小屏幕的电子书阅读器上则最好的表现是放大后能够对初始版面自动重排,根据屏幕宽度调整段落的换行以适应单页的视野范围。
在上述任一技术方案中,优选的,转换单元106在实现装置100包括编辑接口时,通过编辑接口直接将源数据信息转换目标数据信息,以及在实现装置100不包括编辑接口时,先将源数据信息生成目标元素信息,再解析出目标元素信息包括的目标数据信息。因此,在具有编辑接口时,无需修改原有的编辑接口即可完成数据的转换。
在上述任一技术方案中,优选的,文档格式处理装置100还可以包括:编辑结果保存单元110,用于在将源数据信息转换为待处理文档处于第二格式时的目标数据信息的过程中,记录生成的目标数据信息与源数据信息的对应关系,根据对应关系修改与编辑的目标数据信息相对应的源数据信息,并保存修改后的源数据信息以及修改后的处于第一格式时的待处理文档。
在上述任一技术方案中,优选的,文档格式处理装置100还可以包括:缓存单元112,用于在解析出元素信息包括的源数据信息后,将源数据信息转换为待处理文档处于第二格式时的目标数据信息之前,将源数据信息进行缓存,在接收到请求处理消息时,将源数据信息转换为待处理文档处于第二格式时的目标数据信息。
解析出元素信息包括的源数据信息后,可以立即对该源数据信息进行处理,也可以先将该源数据信息进行缓存,若接收到请求处理消息时,确定处于第一格式时的待处理文档未发生变化,则再将缓存的源数据信息转换为目标数据信息。若接收到请求处理消息时,确定处于第一格式时的待处理文档发生变化,则重新获取待处理文档的元素信息,并解析出重新获取的元素信息包括的源数据信息,然后,再将重新解析出的源数据信息转换为目标数据信息。
在上述任一技术方案中,优选的,所述待处理文档处于第一格式时的源数据信息,及处于第二格式时的目标数据信息包括:基本信息和/或页数据,其中,所述基本信息包括以下至少之一或其组合:元数据、大纲数据、封面数据,所述页数据包括以下至少之一或其组合:文字、数字、表格、图形图像、音视频。
在上述提到文档的版式不同,则获取待处理文档处于第一格式时的元素信息的方式不同,具体为指获取页数据的方式不同,获取基本信息的方式可以相同,也就是说,若文档版式为流式版式,则在获取基本信息时,也可以直接获取,不用先对待处理文档进行排版和预分页,但是,在获取页数据时,要先对待处理文档进行排版和预分页,然后,从处理后的文档获取对应的页数据。
图2示出了根据本发明的一个实施例的文档格式处理方法的流程图。
如图2所示,根据本发明的实施例的文档格式处理方法可以包括以下技术方案:步骤202,获取待处理文档处于第一格式时的元素信息,并从元素信息中解析出源数据信息;步骤204,将源数据信息转换为待处理文档处于第二格式时的目标数据信息,对目标数据信息进行处理。
通过获取待处理文档处于第一格式时的元素信息,并解析出元素信息包括的源数据信息;然后,将源数据信息转换为待处理文档处于第二格式时的目标数据信息,对目标数据信息进行处理,这样,当对不支持的格式的文档进行处理时,将待处理的文档所包括的源数据的格式转换为目标数据的格式即可,不需要对现在的文档处理编辑器进行完整的开发,因此,降低了复杂度,同时,由于不需要借助其他格式转换工具来对文档格式进行转换,因此,降低了实现成本及消耗时间。
在上述任一技术方案中,优选的,通过执行消息响应函数获取待处理文档处于第一格式时的元素信息,具体为,提供消息重定向或回调机制,并在插件中定义针对消息响应函数,然后,利用该消息响应函数获取待处理文档处于第一格式时的元素信息;或者,通过接收到的其他工具(例如文档处理编辑器)返回的获取消息确定待处理文档处于第一格式时的元素信息,其中,获取消息中包括获取待处理文档处于第一格式时的元素信息。
优选的,获取待处理文档处于第一格式时的元素信息的步骤包括:若待处理文档的第一格式为版式格式,则直接获取待处理文档处于第一格式时的元素信息;若待处理文档的第一格式为流式格式,则先对待处理文档进行排版和预分页,再根据排版和预分页结果获取待处理文档处于第一格式时的元素信息。
由于待处理文档的版式不同,因此获取待处理文档处于第一格式时的元素信息的方式也会有所不同,例如,若待处理文档为版式文档,直接获取待处理文档处于第一格式时的元素信息;若待处理文档为流式文档,则要先对待处理文档进行排版和预分页,然后,再根据排版和预分页结果获取待处理文档处于第一格式时的元素信息。
其中,版式是将文字、图片、图形等可视化信息元素在版面布局上调整位置、大小,使版面布局条理化的过程,在阅读时版面呈现方式中,流式排版和版式排版是两种不同的阅读排版方式。版式排版相对于流式排版最大的区别是其版面是固定的,阅读过程中始终以原始编辑版式显示,缩放后不会自动根据页宽进行重新排版。如利用扫描得到的初始图片稿件制成的PDF文件,还有一些就是固定版式制作的PDF图文与纯文本文件了。
流式排版相对于版式排版而言,指对文档包含的文字、数字、表格和图形图像不进行针对性的排版,只存储逻辑结构信息,保存后的内容是原始的图元,用户通过阅读编辑器能查看到排版后的页面,并且可以在不同的缩放比率间自适应版面大小显示。在小屏幕的电子书阅读器上则最好的表现是放大后能够对初始版面自动重排,根据屏幕宽度调整段落的换行以适应单页的视野范围。
在上述任一技术方案中,优选的,将源数据信息转换为待处理文档处于第二格式时的目标数据信息的步骤包括:若包括编辑接口,则通过编辑接口直接将源数据信息转换目标数据信息;若不包括编辑接口,则先将源数据信息生成目标元素信息,再解析出目标元素信息包括的目标数据信息。
在上述任一技术方案中,优选的,还可以包括以下步骤:若支持编辑及保存编辑结果,则在将源数据信息转换为待处理文档处于第二格式时的目标数据信息的过程中,记录生成的目标数据信息与源数据信息的对应关系,根据对应关系修改与编辑的目标数据信息相对应的源数据信息,并保存修改后的源数据信息以及修改后的处于第一格式时的待处理文档。
在上述任一技术方案中,优选的,在解析出元素信息包括的源数据信息后,将源数据信息转换为待处理文档处于第二格式时的目标数据信息之前,将源数据信息进行缓存,在接收到请求处理消息时,将源数据信息转换为待处理文档处于第二格式时的目标数据信息。
解析出元素信息包括的源数据信息后,可以立即对该源数据信息进行处理,也可以先将该源数据信息进行缓存,若接收到请求处理消息时,确定处于第一格式时的待处理文档未发生变化,则再将缓存的源数据信息转换为目标数据信息。若接收到请求处理消息时,确定处于第一格式时的待处理文档发生变化,则重新获取待处理文档的元素信息,并解析出重新获取的元素信息包括的源数据信息,然后,再将重新解析出的源数据信息转换为目标数据信息。
在上述任一技术方案中,优选的,待处理文档处于第一格式时的源数据信息,及处于第二格式时的目标数据信息包括:基本信息和/或页数据,其中,基本信息包括以下至少之一或其组合:元数据、大纲数据、封面数据,页数据包括以下至少之一或其组合:文字、数字、表格、图形图像、音视频。
在上述提到文档的版式不同,则获取待处理文档处于第一格式时的元素信息的方式不同,具体为指获取页数据的方式不同,获取基本信息的方式可以相同,也就是说,若文档版式为流式版式,则在获取基本信息时,也可以直接获取,不用先对待处理文档进行排版和预分页,但是,在获取页数据时,要先对待处理文档进行排版和预分页,然后,从处理后的文档获取对应的页数据。
为了更好地理解本发明实施例,以下给出具体应用场景(参阅图3至图5),针对实现兼容不同文档格式的过程,作出进一步详细描述:
文档处理编辑器为阿帕比阅读器Apabi Reader,待处理文档为ODF文档,ODF文档的元素信息示意图为图4A所示。
Apabi Reader是一款面向电子书、电子公文、电子报纸、电子期刊等多种文档类型的阅读器,支持CEBX、PDF、ePub等版式文档格式的解析显示,并提供文档注释等简单编辑功能,其中,CEBX文档的元素信息示意图为图4B所示。
OFD是由电子文件存储与交换格式标准工作组起草,并拟申请电子文件存储与交换格式文书类版式文档,是国家标准的一种版式文档格式。
文档处理编辑器Apabi Reader,为了支持OFD文档的显示,快速适应OFD规范在制订和完善过程中的变化,依赖对CEBX文档的解析、显示和编辑方式,采用本发明所提供的方案进行实现,包括如下步骤(参考图3):
步骤302:Apabi Reader通过消息响应函数直接获取ODF文档的元素信息。
在该步骤中,Apabi Reader可以在打开ODF文档时,调用插件中的消息响应函数,获取ODF文档的元素信息,也可以在获取ODF文档的某一页面对应的页数据时,调用插件中的消息响应函数,获取ODF文档的元素信息。
步骤304:解析出元素信息所包括的源数据信息。
在该步骤中,解析出元素信息所包括的源数据信息至少包括:基本信息和页数据,其中,基本信息至少包括元数据、大纲数据、封面数据。
步骤306:通过编辑接口将文档为ODF格式时的源数据信息转换为文档为CEBX格式时的目标数据信息。
在该步骤中,将源数据信息转换为ODF文档为CEBX文档时的目标数据信息,且在转换的过程中,记录目标数据信息与源数据信息的对应关系,其中,目标数据信息至少包括:基本信息和页数据。
步骤308:将CEBX文档的目标数据信息进行缓存,在接收到处理缓存信息请求消息时,判断ODF文档是否发生变化,若是,则执行步骤302;否则,执行步骤310。
步骤310:对CEBX文档的目标数据信息进行编辑,并保存编辑结果。
在该步骤中,若在转换后的CEBX文档的页面上添加注释,由于在步骤306中记录了目标数据信息与源数据信息的对应关系,因此,可以根据该对应关系将CEBX文档上的注释描述,转换为ODF文档的注释描述,并保存到ODF文档中。
图4A和图4B分别为OFD及CEBX两种版式文档格式在对象及层次关系上的详细示意图,可以看出上述两种格式在基本信息和页数据的描述有较大的相似性,多数情况下可以将OFD文档解析出的源数据信息经过适当变换后直接添加为CEBX文档的元素信息。当然,上述两个文档格式也存在差异,具体如下:
OFD文档与CEBX文档对于图元的定义不同:在OFD文档中,图元直接描述页面上的文字、路径、图片和多媒体等可显示单元,而在CEBX文档中,图元定义为一种资源并保存在资源文件中,页面上则使用图元引用,可以通过资源ID引用一个图元,并进一步设置其坐标变换、绘制参数引用等。因此,在上述实施例中,在转换为CEBX文档的目标数据信息时的页数据时,需要将OFD图元对象与其绘制参数、坐标变换等属性分离,并分别对应生成CEBX的图元及图元引用。
OFD文档与CEBX文档对于底纹渐变的定义不同:在OFD文档中,将底纹渐变定义为一种复杂颜色空间,允许在图元的绘制参数中用作填充色;在CEBX文档中,将底纹、渐变也定义为普通图元的一种、允许通过裁剪区控制其有效绘制区域。因此,在上述实施例中,在转换为CEBX文档的目标数据信息时的页数据时,需要根据带扩展颜色填充的图元创建与CEBX文档相应的底纹或渐变对象,再将原先待填充的图元经过变换后添加为对象的裁剪区。
OFD文档与CEBX文档对于注释对象的定义不同:在OFD文档中,将注释对象单独定义在文档层,并记录了出现的页以及关联的图元对象;在CEBX文档中,注释对象定义为图元对象的属性之一。因此,在上述实施例中,在转换为CEBX文档的目标数据信息时的页数据时,需要预先解析并记录每个注释出现的页以及关联的图元对象,在添加CEBX文档的图元对象时查找并添加其注释属性。
另外,对于CEBX文档无法直接表示的OFD文档的描述,采用扁平化近似处理策略,将OFD文档中的描述转换为近似描述或直接输出为图以保证显示效果。
参阅图5,在本实施例中,文档处理编辑器为阿帕比阅读器ApabiReader,待处理文档为HTML文档。
步骤502:Apabi Reader对HTML文档排版和预分页。
在该步骤中,Apabi Reader可以在打开HTML文档时,调用插件中的消息响应函数,获取HTML文档的元素信息,也可以在获取HTML文档的某一页面对应的页数据时,调用插件中的消息响应函数,获取HTML文档的元素信息。
步骤504:Apabi Reader通过消息响应函数根据排版和预分页结果获取HTML文档的元素信息。
该步骤中,Apabi Reader根据排版和预分页结果记录总页数及各页始末流式位置等,并取页面对应的始末流式位置之间的数据获取HTML文档的元素信息。
步骤506:解析出元素信息包括的源数据信息。
该步骤中,解析出元素信息包括的源数据信息,源数据信息至少包括:基本信息和页数据,其中,基本信息至少包括元数据、大纲数据、封面数据。
步骤508:通过编辑接口将文档为HTML格式时的源数据信息转换为文档为CEBX格式时的目标数据信息。
在该步骤中,将源数据信息转换为HTML文档为CEBX文档时的目标数据信息,且在转换的过程中,记录目标数据信息与源数据信息的对应关系,其中,目标数据信息至少包括:基本信息和页数据。
步骤510:将CEBX文档的目标数据信息进行缓存,接收到处理缓存信息请求消息时,判断HTML文档是否发生变化,若是,则执行步骤502;否则,执行步骤512。
步骤512:对CEBX文档的目标数据信息进行编辑,并保存编辑结果。
在该步骤中,若在转换后的CEBX文档的页面上添加注释,由于在步骤508中记录了目标数据信息与源数据信息的对应关系,因此,可以根据该对应关系将CEBX文档上的注释描述,转换为HTML文档的注释描述,并保存到HTML文档中。
下面结合图6进一步说明根据本发明的技术方案。
如图6所示,步骤602,在现有版式文档处理软件(Apabi Reader)的基础上,通过支持外部插件,在打开尚未支持的新格式文档时,或者获取尚未支持的新格式文档中的某一页面对应的页数据时,调用插件中注册的响应函数,重定向文档消息。
步骤604,判断消息类型,在消息类型是打开文档消息时,执行步骤606,在消息类型是获取页数据消息时,执行步骤612。
步骤606,检测缓存中是否有可用的文档数据,若是,则执行614,否则,执行步骤608。
步骤608,从源文档中解析出源数据信息。步骤610,将源数据信息动态转换成目标数据信息并缓存,在转换过程中记录目标数据信息与源数据信息的对应关系。
步骤624,将该目标数据信息交由文档处理编辑器处理。步骤626,保存编辑结果到原文档中。
步骤612,在判断出消息类型是获取页数据消息时,检查缓存中是否有可用的数据,若是,则执行步骤614,提取对应的缓存,将提取的缓存数据交由文档处理编辑器处理,否则执行步骤616。
步骤616,判断源文档类型,在源文档类型为流式文档时,执行步骤620,在源文档类型为版式文档时,执行步骤618。
步骤620,使用排版引擎进行排版分页并获取排版结果页。步骤618,根据页码解析对应页。步骤622,根据相应页的源数据生成相应页的目标数据并缓存,进入步骤624和步骤626。
需说明的是,在文档处理阅读器初次获取总页数或页面的消息时,打开新格式的源文档,按照预设排板参数执行文档数据解析和排板预分页操作,记录总页数及各页始末流式位置等。
在获取页数据时,利用解析和排板预分页的结果,取页面对应的始末流式位置之间的数据,重新排版并动态生成目标页数据。
所述解析和排板预分页操作需要扫描并处理整个文档,因此对于较大的文档需要一些预处理时间,为了获得更好的阅读体验,客户端可以考虑在初次打开文档时显示进度条,或者预先执行预处理和缓存操作。由于采用了按照页动态解析、动态生成的策略,配合页面数据缓存策略,文档预处理方式与采用文档转换方式相比所需时间要小很多,因此可以获得更好的用户体验。
综上所述,本发明获取待处理文档处于第一格式时的元素信息,并解析出元素信息包括的源数据信息;然后,将源数据信息转换为待处理文档处于第二格式时的目标数据信息,对目标数据信息进行处理,这样,当对不支持的格式的文档进行处理时,对待处理的文档所包括的源数据格式转换为目标数据格式即可,不需要对现在的文档处理编辑器进行完整的开发,因此,降低了复杂度,同时,由于不需要借助其他格式转换工具来对文档格式进行转换,因此,降低了实现成本及消耗时间。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文档格式处理装置,其特征在于,包括:
获取单元,用于获取待处理文档处于第一格式时的元素信息;
解析单元,用于从所述元素信息解析出源数据信息;
转换单元,用于将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息;
文档处理单元,用于对所述目标数据信息进行处理;
所述获取单元包括版式文档获取子单元和流式文档获取子单元,
所述版式文档获取子单元用于在所述待处理文档的第一格式为版式格式时,直接获取所述待处理文档处于第一格式时的元素信息;
所述流式文档获取子单元用于在所述待处理文档的第一格式为流式格式时,先对所述待处理文档进行排版和预分页,再根据排版和预分页结果获取所述待处理文档处于第一格式时的元素信息;
编辑结果保存单元,用于在将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息的过程中,记录生成的目标数据信息与源数据信息的对应关系,根据所述对应关系修改与编辑的目标数据信息相对应的源数据信息,并保存修改后的源数据信息。
2.根据权利要求1所述的文档格式处理装置,其特征在于,所述转换单元在实现装置包括编辑接口时,通过所述编辑接口直接将所述源数据信息转换目标数据信息,以及在所述实现装置不包括编辑接口时,先将所述源数据信息生成目标元素信息,再解析出所述目标元素信息包括的目标数据信息。
3.根据权利要求1所述的文档格式处理装置,其特征在于,所述获取单元通过执行消息响应函数获取待处理文档处于第一格式时的元素信息,或者,通过接收到的其他工具返回的获取消息确定待处理文档处于第一格式时的元素信息,其中,所述获取消息中包括所述获取待处理文档处于第一格式时的元素信息。
4.根据权利要求1所述的文档格式处理装置,其特征在于,还包括:
缓存单元,用于在解析出所述元素信息包括的源数据信息后,将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息之前,将所述源数据信息进行缓存,在接收到请求处理消息时,将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息。
5.根据权利要求1至4中任一项所述的文档格式处理装置,其特征在于,所述待处理文档处于第一格式时的源数据信息,及处于第二格式时的目标数据信息包括:基本信息和/或页数据,其中,所述基本信息包括以下至少之一或其组合:元数据、大纲数据、封面数据,所述页数据包括以下至少之一或其组合:文字、数字、表格、图形图像、音视频。
6.一种文档格式处理方法,其特征在于,包括:
获取待处理文档处于第一格式时的元素信息,并解析出所述元素信息包括的源数据信息;
将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息,对所述目标数据信息进行处理;
所述获取待处理文档处于第一格式时的元素信息的步骤包括:
若所述待处理文档的第一格式为版式格式,则直接获取所述待处理文档处于第一格式时的元素信息;
若所述待处理文档的第一格式为流式格式,则先对所述待处理文档进行排版和预分页,再根据排版和预分页结果获取所述待处理文档处于第一格式时的元素信息;
若支持编辑及保存编辑结果,则在将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息的过程中,记录生成的目标数据信息与源数据信息的对应关系,根据所述对应关系修改与编辑的目标数据信息相对应的源数据信息,并保存修改后的源数据信息。
7.根据权利要求6所述的文档格式处理方法,其特征在于,所述将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息的步骤包括:若包括编辑接口,则通过所述编辑接口直接将所述源数据信息转换目标数据信息;
若不包括编辑接口,则先将所述源数据信息生成目标元素信息,再解析出所述目标元素信息包括的目标数据信息。
8.根据权利要求6所述的文档格式处理方法,其特征在于,所述获取待处理文档处于第一格式时的元素信息的步骤包括:
通过执行消息响应函数获取待处理文档处于第一格式时的元素信息;或者,
通过接收到的其他工具返回的获取消息确定待处理文档处于第一格式时的元素信息,其中,所述获取消息中包括所述获取待处理文档处于第一格式时的元素信息。
9.根据权利要求6所述的文档格式处理方法,其特征在于,在解析出所述元素信息包括的源数据信息后,将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息之前,将所述源数据信息进行缓存,在接收到请求处理消息时,将所述源数据信息转换为所述待处理文档处于第二格式时的目标数据信息。
10.根据权利要求6至9中任一项所述的文档格式处理方法,其特征在于,所述待处理文档处于第一格式时的源数据信息,及处于第二格式时的目标数据信息包括:基本信息和/或页数据,其中,所述基本信息包括以下至少之一或其组合:元数据、大纲数据、封面数据,所述页数据包括以下至少之一或其组合:文字、数字、表格、图形图像、音视频。
CN201310344315.3A 2013-08-08 2013-08-08 文档格式处理装置和文档格式处理方法 Active CN104346322B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310344315.3A CN104346322B (zh) 2013-08-08 2013-08-08 文档格式处理装置和文档格式处理方法
US14/104,400 US20150046797A1 (en) 2013-08-08 2013-12-12 Document format processing apparatus and document format processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310344315.3A CN104346322B (zh) 2013-08-08 2013-08-08 文档格式处理装置和文档格式处理方法

Publications (2)

Publication Number Publication Date
CN104346322A CN104346322A (zh) 2015-02-11
CN104346322B true CN104346322B (zh) 2018-07-10

Family

ID=52449709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310344315.3A Active CN104346322B (zh) 2013-08-08 2013-08-08 文档格式处理装置和文档格式处理方法

Country Status (2)

Country Link
US (1) US20150046797A1 (zh)
CN (1) CN104346322B (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9792276B2 (en) * 2013-12-13 2017-10-17 International Business Machines Corporation Content availability for natural language processing tasks
US11074261B1 (en) * 2016-12-16 2021-07-27 Amazon Technologies, Inc. Format independent processing for distributed data
CN107291673A (zh) * 2017-05-19 2017-10-24 广州视源电子科技股份有限公司 一种文档的处理方法、系统、可读存储介质及计算机设备
CN107832272A (zh) * 2017-11-02 2018-03-23 山东浪潮云服务信息科技有限公司 基于国产cpu的多格式文件自动转换嵌入流式文件方法
CN107844465A (zh) * 2017-11-11 2018-03-27 江西金格科技股份有限公司 一种ofd格式文档支持脚本的方法
CN107943915B (zh) * 2017-11-20 2020-05-08 福建亿榕信息技术有限公司 基于html5的ofd文件在线显示的方法以及装置
KR20190058005A (ko) * 2017-11-21 2019-05-29 그린캣소프트(주) Svg 포맷의 편집 방법, 시스템 및 컴퓨터 판독 가능한 기록매체
CN107977346B (zh) * 2017-11-23 2021-06-15 深圳市亿图软件有限公司 一种pdf文档编辑方法及终端设备
CN108415887B (zh) * 2018-02-09 2021-04-16 武汉大学 一种pdf文件向ofd文件转化的方法
CN108492172A (zh) * 2018-03-13 2018-09-04 四川享宇金信金融服务外包有限公司 贷款材料打包方法以及装置
CN110765123A (zh) * 2018-07-09 2020-02-07 株式会社日立制作所 基于树形结构的材料数据的存储方法、装置和系统
CN110930302B (zh) * 2018-08-30 2024-03-26 珠海金山办公软件有限公司 一种图片处理方法、装置、电子设备及可读存储介质
CN110889261A (zh) * 2018-09-06 2020-03-17 陕西国博政通信息科技有限公司 一种电子公文业务处理自动化的方法
CN109542554B (zh) * 2018-10-26 2022-06-10 金蝶软件(中国)有限公司 文档布局转换的方法、装置、计算机设备和存储介质
CN109492211A (zh) * 2018-11-13 2019-03-19 江西金格科技股份有限公司 一种基于ofd文档的表格提取方法
CN112183021A (zh) * 2019-07-04 2021-01-05 珠海金山办公软件有限公司 一种数字生成方法及装置
CN111046629B (zh) * 2019-12-16 2022-03-01 北大方正集团有限公司 大纲显示方法、装置及设备
CN111126005A (zh) * 2019-12-24 2020-05-08 广州众鑫达科技有限公司 Afm文件处理方法、电子设备及存储介质
CN111191216B (zh) * 2019-12-26 2024-02-06 航天信息股份有限公司 具有java接口的ofd签章客户端及其用于签章验章的方法和系统
CN111797595A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种基于xml模板生成ofd版式页面的方法和装置
CN111767491A (zh) * 2020-06-30 2020-10-13 杭州天谷信息科技有限公司 一种基于浏览器的ofd文档解析展示的方法及系统
CN111753500B (zh) * 2020-07-07 2021-05-04 江苏中威科技软件系统有限公司 版式化后的电子表单与ofd合并展现及目录生成的方法
CN111914519B (zh) * 2020-07-27 2023-10-03 平安证券股份有限公司 目标对象生成方法及装置、电子设备、存储介质
CN112528593B (zh) * 2020-12-11 2023-09-01 北京百度网讯科技有限公司 文档处理方法、装置、电子设备及存储介质
CN112612750A (zh) * 2020-12-15 2021-04-06 北京天融信网络安全技术有限公司 文件内容处理方法、装置、电子设备及可读存储介质
CN112732654B (zh) * 2021-01-12 2021-11-02 江苏中威科技软件系统有限公司 将文件的生命周期信息注册到ofd版式文件的方法
CN112800742B (zh) * 2021-04-14 2022-04-01 北京智慧易科技有限公司 一种编写标准文件的方法、系统及设备
CN113239661A (zh) * 2021-04-30 2021-08-10 北京方正阿帕比技术有限公司 一种基于版流结合的多终端电子文档的编辑方法和装置
CN113255317B (zh) * 2021-05-31 2021-11-30 深圳高灯计算机科技有限公司 一种基于云服务的ofd版式发票解析方法、系统及设备
CN113515928B (zh) * 2021-07-13 2023-03-28 抖音视界有限公司 电子文本生成方法、装置、设备及介质
CN113641810A (zh) * 2021-08-16 2021-11-12 润申标准化技术服务(上海)有限公司 数据引用方法、装置及电子设备
CN113961531B (zh) * 2021-11-05 2022-08-30 江苏中威科技软件系统有限公司 多格式文件合并为一个ofd文件的方法及装置
CN114118023B (zh) * 2021-12-02 2022-07-26 江苏中威科技软件系统有限公司 一种用于转换ofd文件的方法
CN114048174A (zh) * 2022-01-13 2022-02-15 泰山信息科技有限公司 Ofd文档处理方法、装置及电子设备
CN116048354A (zh) * 2023-03-10 2023-05-02 福昕鲲鹏(北京)信息科技有限公司 图片格式调整方法、系统及计算机可读存储介质
CN116384356B (zh) * 2023-06-02 2023-08-22 福昕鲲鹏(北京)信息科技有限公司 Ofd文件的表格行创建方法、装置、设备及介质
CN116432617A (zh) * 2023-06-13 2023-07-14 福昕鲲鹏(北京)信息科技有限公司 Ofd文件的合并方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479215A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 文件自动导出的方法及电子阅读装置
CN103186510A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种转换文档格式的方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030167271A1 (en) * 2001-08-28 2003-09-04 Wolfram Arnold RDO-to-PDF conversion tool
JP2009271780A (ja) * 2008-05-08 2009-11-19 Canon Inc 電子文書変換装置および電子文書変換方法
US20100005115A1 (en) * 2008-07-03 2010-01-07 Sap Ag Method and system for generating documents usable by a plurality of differing computer applications
US8645822B2 (en) * 2008-09-25 2014-02-04 Microsoft Corporation Multi-platform presentation system
CN103164388B (zh) * 2011-12-09 2016-07-06 北大方正集团有限公司 一种版式文件中结构化信息获取的方法及装置
WO2013110288A1 (en) * 2012-01-23 2013-08-01 Microsoft Corporation Fixed format document conversion engine

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479215A (zh) * 2010-11-30 2012-05-30 汉王科技股份有限公司 文件自动导出的方法及电子阅读装置
CN103186510A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种转换文档格式的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
格式信息在文档理解中的作用;李宁 等;《北京信息科技大学学报》;20121231;第27卷(第6期);第1、2.1部分 *

Also Published As

Publication number Publication date
CN104346322A (zh) 2015-02-11
US20150046797A1 (en) 2015-02-12

Similar Documents

Publication Publication Date Title
CN104346322B (zh) 文档格式处理装置和文档格式处理方法
US9875229B2 (en) Template-based page layout for web content
WO2016008347A1 (zh) 版式文档的重排方法、系统及电子阅读终端
US20040128280A1 (en) System, method and program for printing an electronic document
CN111241801A (zh) 文件生成方法、装置、设备及计算机可读存储介质
JP2004287595A (ja) 複合メディアコンテンツの変換装置及び変換方法並びに複合メディアコンテンツ変換プログラム
KR20150015062A (ko) 이미지를 추천하는 장치 및 방법
KR101147256B1 (ko) 표준화된 전자책 생성장치 및 방법
JP2014524623A (ja) テンプレートファイルの処理方法及び装置
CN106933887A (zh) 一种数据可视化方法及装置
US9569554B2 (en) System and computer-implemented method for incorporating an image into a page of content for transmission over a telecommunications network
JP2007048154A5 (zh)
CN107657011A (zh) 视频内容搜索方法、装置及其设备
CN105956133B (zh) 智能终端上显示文件的方法及装置
CN106560805A (zh) 基于html标准的所见即所得文档编辑器的页面布局方法
CN108509504A (zh) 文档在线预览方法、装置、设备、客户端及存储介质
US10063738B2 (en) Digital content access using a machine-readable link
JP4704217B2 (ja) アルバム作成システム、アルバム作成方法およびアルバム作成プログラム
CN109815451A (zh) 一种pdf生成方法、装置及设备
CN116384356B (zh) Ofd文件的表格行创建方法、装置、设备及介质
US20120050284A1 (en) Method and apparatus for implementing three-dimensional image
US8127219B1 (en) Printing and rendering hyperlink destinations
CN103870543B (zh) 一种用于文档文件重构的方法及装置
JP4308448B2 (ja) 出力装置に応じたコンテンツの生成
Schwärzler et al. Fast accurate soft shadows with adaptive light source sampling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220920

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: FOUNDER APABI TECHNOLOGY Ltd.

Address before: 100871, Beijing, Haidian District Cheng Fu Road 298, founder building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER APABI TECHNOLOGY Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.