CN102831151B - 电子文档的生成方法和装置 - Google Patents

电子文档的生成方法和装置 Download PDF

Info

Publication number
CN102831151B
CN102831151B CN201210218353.XA CN201210218353A CN102831151B CN 102831151 B CN102831151 B CN 102831151B CN 201210218353 A CN201210218353 A CN 201210218353A CN 102831151 B CN102831151 B CN 102831151B
Authority
CN
China
Prior art keywords
file data
electronic document
information
document
needed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210218353.XA
Other languages
English (en)
Other versions
CN102831151A (zh
Inventor
樊彪
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210218353.XA priority Critical patent/CN102831151B/zh
Publication of CN102831151A publication Critical patent/CN102831151A/zh
Application granted granted Critical
Publication of CN102831151B publication Critical patent/CN102831151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种电子文档的生成方法和装置。该方法包括:获取原始文件数据;根据生成所述电子文档所需的数据内容,对所述原始文件数据进行对应处理,从而生成每个所述数据内容所需的文档生成信息;将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档;生成的所述电子文档中的每个所述数据内容均由所述文档生成信息处理得到。本发明实现了将不同类型的源文档生成为基于Web的统一的电子文档格式,提高了电子文档中内容的浏览和搜索效率。

Description

电子文档的生成方法和装置
技术领域
本发明涉及数字信息领域,尤其涉及一种电子文档的生成方法和装置。
背景技术
随着计算机技术和无纸办公自动化技术的发展,电子文档的应用也越来越广泛,电子文档给人们的工作带来了方便。但是,随着B/S(Browser/Server,浏览器/服务器模式)结构的发展和变化,不同格式的电子文档在Web系统中的管理存在很大的困难。
在现有技术下,Javahelp(Java帮助)是利用Java技术开发的一种跨平台的Web电子文档格式。Javahelp利用Java提供的API(ApplicationProgramming Interface,应用程序编程接口)将HTML(Hypertext MarkupLanguage,超文本标记语言)源文档格式制作成特定的Javahelp电子文档格式,并可以通过Java提供的API浏览和搜索电子文档的内容。
基于Java技术的Javahelp电子文档格式所支持的浏览和搜索功能较差,而且不支持非HTML源文档制作成Javahelp电子文档格式,也不支持在预安装的Web系统中双击直接运行电子文档。
发明内容
本发明实施例提供了一种电子文档的生成方法和装置,实现了将不同类型的源文档生成为基于Web系统的统一的电子文档格式,提高了电子文档中内容的浏览和搜索效率。
一方面,本发明实施例提供了一种电子文档的生成方法,所述方法包括:
获取原始文件数据;
按照生成所述电子文档所需的数据内容,对所述原始文件数据进行对应处理,从而生成每个所述数据内容所需的文档生成信息;
将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档;生成的所述电子文档中的每个所述数据内容均由所述文档生成信息处理得到。
另一方面,本发明实施例提供了一种电子文档的生成装置,所述装置包括:
获取单元,用于获取原始文件数据;
处理单元,用于根据生成所述电子文档所需的数据内容,对所述原始文件数据进行对应处理,从而生成每个所述数据内容所需的文档生成信息;
生成单元,用于将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档;生成的所述电子文档中的每个所述数据内容均由所述文档生成信息处理得到。
本发明实施例中,电子文档生成工具在获取原始文件数据后;根据生成电子文档所需的数据内容,对原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息;将文档生成信息按照电子文档的生成格式进行处理,生成电子文档。本发明实施例中,电子文档生成工具可以将各种类型的源文档生成为一种统一电子文档格式,实现了用户可以在Web系统中阅读多种格式的文档,该电子文档格式的浏览和搜索功能较强,提高了用户浏览和搜索电子文档内容的便利性。
附图说明
图1为本发明实施例提供的一种电子文档的生成方法流程图;
图2为本发明实施例提供的一种电子文档的目录结构示意图;
图3为本发明实施例提供的一种电子文档的生成装置示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本发明实施例针对现有技术下制作电子文档的缺陷,提供了一种电子文档的生成方法和装置,在实际应用时该电子文档的生成方法可应用于需要管理多种格式的电子文档的Web系统中。当电子文档生成工具获取用于生成电子文档的原始文件数据后;按照生成电子文档所需的数据内容,对原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息;将文档生成信息按照电子文档的生成格式进行处理,生成电子文档。本实施例提供的电子文档生成工具可以将各种类型的源文档生成为一种统一电子文档格式,实现了用户可以在Web系统中阅读多种格式的文档,该电子文档格式的浏览和搜索功能较强,提高了用户浏览和搜索电子文档内容的便利性。
图1为本发明实施例提供的一种电子文档的生成方法流程图。该实施例主体是电子文档生成工具,其中详细描述了电子文档生成工具将不同类型的原始文件数据生成为基于Web的统一格式的电子文档的方法。如图1所示,本实施例包括以下步骤:
步骤101,电子文档生成工具获取原始文件数据。
这里的原始文件数据对应的源文档的类型可以为HTMLHELP文档、JAVAHELP文档,还可以为PDF文档、MS Office文档、TXT文本文档、HTML文档等。电子文档生成工具可以通过下面的操作步骤将接收到的各种格式的源文档生成为统一的电子文档,实现统一的浏览、搜索。
步骤102,电子文档生成工具根据生成所述电子文档所需的数据内容,对所述原始文件数据进行对应处理,从而生成每个所述数据内容所需的文档生成信息。
生成电子文档所需的数据内容可以包括导航文件数据、摘要文件数据、图像文件数据、属性文件数据、索引文件数据,电子文档生成工具在接收到原始文件数据时,首先对原始文件数据中的某些信息进行处理,生成用来生成每个数据内容的生成信息。例如,如果要生成电子文档中的摘要文件数据,则首先需要对原始文件进行处理,处理后得到生成摘要文件数据所需要的摘要文件生成信息,然后再对这些生成信息按照一定的格式,如压缩文件的格式进行相应的处理,从而生成电子文档。
下面分别介绍通过对原始文件数据进行处理以生成每个数据内容所需的文档生成信息的方法。
电子文档生成工具获取原始文件数据后,首先创建电子文档的导航文件信息,电子文档的导航文件信息用于在用户浏览电子文档时向用户展示一个全局的源文档节点树,便于用户快速了解该电子文档,提高用户浏览该电子文档的效率。源文档为HTMLHELP文档或JAVAHELP文档时,由于这两种类型的文档本身就具有导航信息,因此生成导航文件数据所需的文档生成信息的方法具体为:提取所述原始文件数据中的原始导航信息,将所述原始文件数据中的原始导航信息转换为生成所述导航文件数据所需的导航文件数据生成信息。除了这两种类型的源文档,其他类型的源文档,如果本身就有导航信息,也可以用这种方法生成导航文件数据所需的文档生成信息。
源文档为PDF文档、MS Office文档、TXT文档或HTML文档等文档时,这些文档本身一般没有导航信息,生成导航文件数据所需的文档生成信息的方法具体为:遍历所述原始文件数据中的原始文件数据块,针对所述原始文件数据中的每一个原始文件数据块,生成所述电子文档的每一个文件数据块的导航文件数据所需的导航文件数据生成信息;所述导航文件数据生成信息包括所述电子文档的每一个文件数据块的标识信息、名称信息、相对路径信息、电子文档包标识信息、电子文档包版本信息。
需要说明的是,重新组合导航文件的结构,便可以形成一个全新的电子文档导航文件。
电子文档的导航文件是结构化的,典型的电子文档导航文件结构如下所示:
上面简单介绍了生成导航文件数据所需的文档生成信息的方法,下面介绍生成摘要文件数据所需的文档生成信息的方法。
电子文档摘要文件是用来唯一标识电子文档是否发生变化的文件,用户可以通过电子文档的摘要文件数据判断该电子文档是否完整和真实。当电子文档产生补丁版本时,可以用电子文档的文件数据块的摘要信息判断电子文档中的对应的文件数据块是否发生了变化。生成摘要文件数据所需的文档生成信息的方法为:对所述原始文件数据中的每一个原始文件数据块进行处理,生成所述电子文档的每一个文件数据块的摘要文件数据所需的第一摘要文件数据生成信息;所述第一摘要文件数据生成信息包括所述电子文档的每一个文件数据块的摘要信息、数据块标识信息、数据块相对路径信息、电子文档包标识信息、电子文档包版本信息。
生成电子文档补丁版本的摘要文件信息的方法具体为:生成第二摘要文件数据生成信息,所述第二摘要文件数据生成信息为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的信息;所述第一摘要文件数据生成信息包括所述电子文档补丁的每一个文件数据块的摘要信息、数据块标识信息、数据块相对路径信息、电子文档补丁包标识信息、电子文档补丁包版本信息;根据所述电子文档的每一个文件数据块的数据块标识信息,比较所述第一摘要文件数据生成信息中的摘要信息与所述第二摘要文件数据生成信息中的摘要信息是否一致,如果一致,则将所述第一摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息;否则,将所述第二摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息。
电子文档的摘要信息主要是通过对电子文档的对应的文件数据块中的文本内容进行散列获得的。这里的一个文件数据块可以为一个页面文件,文件数据块也可以有其他的形式,这里为了描述方便,以页面文件进行描述。
需要说明的是,电子文档的摘要文件数据不仅包括电子文档的每一个文件数据块的摘要信息,还包括文件数据块的数据块标识信息、数据块相对路径信息、电子文档包标识信息、电子文档包版本信息等。生成电子文档补丁版本的摘要文件数据所需的文档生成信息时,如果电子文档补丁版本中的某些文件数据块与电子文档的对应的文件数据块相比没有发生变化,则继续保存电子文档的对应的文件数据块的的摘要信息、数据块标识信息、数据块相对路径信息、电子文档包标识信息、电子文档包版本信息作为生成摘要文件数据所需的文档生成信息;如果电子文档补丁版本中的某些文件数据块与电子文档的对应的文件数据块相比发生了变化,即文件数据块的摘要信息发生了变化,则将变化后的摘要信息、数据块标识信息、数据块相对路径信息、电子文档补丁包标识信息、电子文档补丁包版本信息作为生成电子文档补丁版本的页面摘要文件数据的文档生成信息。
电子文档的摘要文件数据是结构化的,典型的电子文档的摘要文件数据结构如下所示:
需要说明的是,生成电子文档的摘要文件数据后,可将电子文档的摘要文件数据以文本文件形式保存在磁盘上。
上面简单介绍了生成摘要文件数据所需的文档生成信息的方法,下面介绍生成图像文件数据所需的文档生成信息的方法。
电子文档的图像文件数据包括所述图像的图像摘要信息、所述图像所属文件数据块的数据块标识信息、所述图像所属电子文档包的电子文档包标识信息、所述图像所属电子文档包的电子文档包版本信息。
生成电子文档的图像文件数据所需的文档生成信息的方法具体为:循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;提取所述电子文档的每一个文件数据块中的图像信息;对所述图像信息进行处理,生成所述图像文件数据所需的图像文件数据生成信息;所述图像文件数据生成信息包括所述图像的图像摘要信息、所述图像所属文件数据块的数据块标识信息、所述图像所属电子文档包的电子文档包标识信息、所述图像所属电子文档包的电子文档包版本信息。
在生成电子文档的图像文件信息的过程中,电子文档生成工具将遍历由源文档中的每一个原始文件数据块生成的所述电子文档的每一个文件数据块,将其中包含的图像信息提取出来,对图像信息进行散列计算,生成可以识别图像真实性和完整性的图像摘要信息,以及图像的关联信息,如图像源自于的页面文件的页面标识信息、图像所在的电子文档包的标识信息和版本信息等。
电子文档的图像文件是结构化的,典型的电子文档的图像文件结构如下所示:
需要说明的是,电子文档生成工具生成电子文档的图像文件数据后,可将电子文档的图像文件信息以文本文件形式保存在磁盘上。
上面描述了电子文档的图像文件数据所需的文档生成信息的生成方法,下面介绍电子文档的索引文件数据所需的文档生成信息的生成方法。
电子文档的索引文件信息主要用于提供对电子文档内容的搜索功能的支持。
生成电子文档的索引文件数据所需的文档生成信息的方法具体为:循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;提取所述电子文档的每一个文件数据块中的文本信息;对所述电子文档的每一个文件数据块中的文本信息根据词条数据库中的信息进行分词处理,生成所述电子文档的索引文件数据所需的索引文件数据生成信息。
在生成电子文档的索引文件数据的过程中,电子文档生成工具将遍历由源文档中的每个原始文件数据块生成的文件数据块,根据扩展名的不同,使用不同的爬虫程序提取出文件数据块的文本内容,对文本内容信息按照词库中的词条信息进行分词并索引到电子文档的索引文件中。由此,便可以使用该电子文档的索引文件数据为用户搜索提供支持。
需要说明的是,电子文档的索引文件是非结构化的文件,可以为二进制文件。
下面讲述生成所述属性文件数据所需的文档生成信息的方法。
电子文档的属性文件主要用于标识该电子文档,用于在用户终端上通过界面形式显示给用户,向用户展示该电子文档的相关信息。电子文档的属性文件信息包括电子文档的文档包名称、电子文档的名称和版本等信息。
生成所述属性文件数据所需的文档生成信息的方法具体为:提取所述原始文件数据中的属性信息,根据所述原始文件数据中的属性信息,生成所述属性文件数据所需的属性文件数据生成信息;所述属性文件数据生成信息包括所述电子文档的版本信息、所述电子文档的电子文档包名称信息。
电子文档的属性文件数据是结构化的,典型的电子文档的属性文件数据结构如下所示:
需要说明的是,电子文档生成工具生成电子文档的属性文件数据所需的文档生成信息后,可将该文档生成信息以文本文件形式保存在磁盘上。
步骤103,生成文档生成工具将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档;生成的所述电子文档中的每个所述数据内容均由所述文档生成信息处理得到。
将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档的具体方法为:将所述文档生成信息按照Zip压缩格式压缩为Zip压缩格式的文件数据;然后将所述Zip压缩格式的文件数据进行处理,生成所述电子文档。
将电子文档的导航文件数据、摘要文件数据、图像文件数据、索引文件数据和属性文件数据等文件数据的生成信息使用Zip标准压缩格式压缩成Zip压缩文件之后,再将压缩后的Zip压缩格式的文件数据进行处理,也即是,将压缩后的Zip压缩格式的文件数据的后缀,如.zip修改为Web系统可以识别的,如后缀为.hdx的文件数据类型,即基于Web的统一的电子文档格式,有利于在网络中传输该电子文档。
本发明实施例中,生成的电子文档格式是一个类Zip的压缩格式,其基本的文件结构可以参考图2。图2为本发明实施例提供的一种电子文档的目录结构示意图。如图2所示,该电子文档目录结构包括以下信息:
电子文档根目录所指示的位置包括resources文件夹以及属性文件profile.xml文件。profile文件则用于描述电子文档的基础属性文件,而resources文件夹中包括本发明实施例生成的电子文档源文件、电子文档索引文件、图像文件、摘要文件、导航文件等则是与电子文档内容相关的文件。
如图2所示的电子文档目录结构只是一种本发明的具体实施方式,并不用于限定本发明的保护范围。将电子文档的各种文件自由组合,可生成该电子文档的一种新的目录结构。
本发明实施例中,电子文档生成工具在获取用于生成电子文档的原始文件数据后;按照生成电子文档所需的数据内容,对原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息;将文档生成信息按照电子文档的生成格式进行处理,生成电子文档。由于电子文档生成工具可以将各种类型的源文档生成为一种统一电子文档格式,因此实现了用户可以在Web系统中阅读多种格式的文档,并且由于该电子文档格式的浏览和搜索功能较强,所以提高了用户浏览和搜索电子文档内容的便利性。
相应地,本发明实施例还提供了一种电子文档的生成装置。图3为本发明实施例提供的一种电子文档的生成装置示意图。如图3所示,本实施例包括以下单元:
获取单元301,用于获取原始文件数据。
这里的原始文件数据对应的源文档的类型可以为HTMLHELP文档、JAVAHELP文档,还可以为PDF文档、MS Office文档、TXT文本文档、HTML文档等。电子文档生成工具可以通过下面的操作步骤将接收到各种格式的源文档生成为统一的电子文档,实现统一的浏览、搜索。
处理单元302,用于根据生成所述电子文档所需的数据内容,对所述原始文件数据进行对应处理,从而生成每个所述数据内容所需的文档生成信息。
处理单元302包括第一处理子单元304,第一处理子单元304用于生成所述电子文档的导航文件数据所需的文档生成信息,原始文件数据对应的源文档的类型为HTMLHELP文档、JAVAHELP文档时,第一处理子单元304具体用于:提取所述原始文件数据中的原始导航信息,将所述原始文件数据中的原始导航信息转换为生成所述导航文件数据所需的导航文件数据生成信息。
原始文件数据对应的源文档的类型为PDF文档、MS Office文档、TXT文本文档、HTML文档时,第一处理子单元304具体用于:遍历所述原始文件数据中的原始文件数据块,针对所述原始文件数据中的每一个原始文件数据块,生成所述电子文档的每一个文件数据块的导航文件数据所需的导航文件数据生成信息;所述导航文件数据生成信息包括所述电子文档的每一个文件数据块的标识信息、名称信息、相对路径信息、电子文档包标识信息、电子文档包版本信息。
导航文件用于在用户浏览电子文档时向用户展示一个全局的源文档节点树,便于用户快速了解该电子文档,提高用户浏览该电子文档的效率。
处理单元302包括第二处理子单元305,第二处理子单元305用于生成摘要文件数据所需的文档生成信息,生成电子文档的摘要文件数据所需的文档生成信息时,第二处理子单元305具体用于:对所述原始文件数据中的每一个原始文件数据块进行处理,生成所述电子文档的每一个文件数据块的摘要文件数据所需的第一摘要文件数据生成信息。所述第一摘要文件数据生成信息包括所述电子文档的每一个文件数据块的摘要信息、数据块标识信息、数据块相对路径信息、电子文档包标识信息、电子文档包版本信息。
生成电子文档补丁版本的摘要文件数据所需的文档生成信息时,第二处理子单元305具体用于:生成第二摘要文件数据生成信息,所述第二摘要文件数据生成信息为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的信息;根据所述电子文档的每一个文件数据块的数据块标识信息,比较所述第一摘要文件数据生成信息中的摘要信息与所述第二摘要文件数据生成信息中的摘要信息是否一致,如果一致,则将所述第一摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息;否则,将所述第二摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息。其中,第二摘要文件数据生成信息包括所述电子文档补丁的每一个文件数据块的摘要信息、数据块标识信息、数据块相对路径信息、电子文档补丁包标识信息、电子文档补丁包版本信息。
电子文档的摘要文件是用来唯一标识电子文档是否发生变化的文件,用户可以通过电子文档的摘要文件判断该电子文档是否完整和真实。
处理单元302包括第三处理子单元306,第三处理子单元306用于生成图像文件数据所需的文档生成信息。第三处理子单元306具体用于:循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;提取所述电子文档的每一个文件数据块中的图像信息;对所述图像信息进行处理,生成所述图像文件数据所需的图像文件数据生成信息;所述图像文件数据生成信息包括所述图像的图像摘要信息、所述图像所属文件数据块的数据块标识信息、所述图像所属电子文档包的电子文档包标识信息、所述图像所属电子文档包的电子文档包版本信息。
处理单元302包括第四处理子单元307,第四处理子单元307用于生成属性文件数据所需的文档生成信息。第四处理子单元307具体用于:提取所述原始文件数据中的属性信息,根据所述原始文件数据中的属性信息,生成所述属性文件数据所需的属性文件数据生成信息;所述属性文件数据生成信息包括所述电子文档的版本信息、所述电子文档的电子文档包名称信息。
电子文档的属性文件数据主要用于标识该电子文档,用于在用户终端上通过界面形式显示给用户,向用户展示该电子文档的相关信息。电子文档的属性文件数据包括电子文档的文档包名称、电子文档的名称和版本等信息。
处理单元302包括第五处理子单元308,第五处理子单元308用于生成电子文档的索引文件数据所需的文档生成信息。第五处理子单元308具体用于:循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;提取所述电子文档的每一个文件数据块中的文本信息;对所述电子文档的每一个文件数据块中的文本信息根据词条数据库中的信息进行分词处理,生成所述电子文档的索引文件数据所需的索引文件数据生成信息。
电子文档的索引文件数据主要用于提供对电子文档内容的搜索功能的支持。在生成电子文档的索引文件数据的过程中,电子文档生成工具将遍历由源文档中的每个原始文件数据块生成的文件数据块,根据扩展名的不同,使用不同的爬虫程序提取出文件数据块的文本内容,对文本内容信息按照词库中的词条信息进行分词并索引到电子文档的索引文件中。由此,便可以使用该电子文档的索引文件数据为用户搜索提供支持。
生成单元303,用于将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档;生成的所述电子文档中的每个所述数据内容均由所述文档生成信息处理得到。
生成单元303具体用于:将所述文档生成信息按照Zip压缩格式压缩为Zip压缩格式的文件数据;修改压缩后的所述Zip压缩格式的文件数据的格式,生成所述电子文档。
将电子文档的导航文件数据、摘要文件数据、图像文件数据、索引文件数据和属性文件数据等文件数据的生成信息使用Zip标准压缩格式压缩成Zip压缩文件之后,再将压缩后的Zip压缩格式的文件数据进行处理,生成基于Web的统一的电子文档格式,有利于在网络中传输该电子文档。
本发明实施例中,电子文档生成工具在获取用于生成电子文档的原始文件数据后;按照生成电子文档所需的数据内容,对原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息;将文档生成信息按照电子文档的生成格式进行处理,生成电子文档。由于电子文档生成工具可以将各种类型的源文档生成为一种统一电子文档格式,因此实现了用户可以在Web系统中阅读多种格式的文档,并且由于该电子文档格式的浏览和搜索功能较强,所以提高了用户浏览和搜索电子文档内容的便利性。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种电子文档的生成方法,其特征在于,所述方法包括:
获取原始文件数据;
根据生成所述电子文档所需的数据内容,对所述原始文件数据进行对应处理,从而生成每个所述数据内容所需的文档生成信息;
将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档;生成的所述电子文档中的每个所述数据内容均由所述文档生成信息处理得到;
其中,所述数据内容为摘要文件数据时,所述对所述原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息,具体为:
对所述原始文件数据中的每一个原始文件数据块进行处理,生成所述电子文档的每一个文件数据块的摘要文件数据所需的第一摘要文件数据生成信息;
生成电子文档补丁版本的摘要文件信息的方法具体为:
生成第二摘要文件数据生成信息,所述第二摘要文件数据生成信息为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的信息;
根据所述电子文档的每一个文件数据块的数据块标识信息,比较所述第一摘要文件数据生成信息中的摘要信息与所述第二摘要文件数据生成信息中的摘要信息是否一致,如果一致,则将所述第一摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息;否则,将所述第二摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息。
2.如权利要求1所示的电子文档的生成方法,其特征在于,所述数据内容为导航文件数据时,所述对所述原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息,具体为:
提取所述原始文件数据中的原始导航信息,将所述原始文件数据中的原始导航信息转换为生成所述导航文件数据所需的导航文件数据生成信息;或
遍历所述原始文件数据中的原始文件数据块,针对所述原始文件数据中的每一个原始文件数据块,生成所述电子文档的每一个文件数据块的导航文件数据所需的导航文件数据生成信息。
3.如权利要求1所示的电子文档的生成方法,其特征在于,所述数据内容为图像文件数据时,所述对所述原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息,具体为:
循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;
提取所述电子文档的每一个文件数据块中的图像信息;
对所述图像信息进行处理,生成所述图像文件数据所需的图像文件数据生成信息。
4.如权利要求1所示的电子文档的生成方法,其特征在于,所述数据内容为属性文件数据时,所述对所述原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息,具体为:
提取所述原始文件数据中的属性信息;
根据所述原始文件数据中的属性信息,生成所述属性文件数据所需的属性文件数据生成信息。
5.如权利要求1所示的电子文档的生成方法,其特征在于,所述数据内容为索引文件数据时,所述对所述原始文件数据进行对应处理,从而生成每个数据内容所需的文档生成信息,具体为:
循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;
提取所述电子文档的每一个文件数据块中的文本信息;
对所述电子文档的每一个文件数据块中的文本信息根据词条数据库中的信息进行分词处理,生成所述电子文档的索引文件数据所需的索引文件数据生成信息。
6.如权利要求1所示的电子文档的生成方法,其特征在于,所述将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档,具体为:
将所述文档生成信息按照Zip压缩格式压缩为Zip压缩格式的文件数据;
修改压缩后的所述Zip压缩格式的文件数据的格式,生成所述电子文档。
7.一种电子文档的生成装置,其特征在于,所述装置包括:
获取单元,用于获取原始文件数据;
处理单元,用于根据生成所述电子文档所需的数据内容,对所述原始文件数据进行对应处理,从而生成每个所述数据内容所需的文档生成信息;
生成单元,用于将所述文档生成信息按照所述电子文档的生成格式进行处理,生成所述电子文档;生成的所述电子文档中的每个所述数据内容均由所述文档生成信息处理得到;
其中,所述处理单元包括第二处理子单元,所述第二处理子单元具体用于:
对所述原始文件数据中的每一个原始文件数据块进行处理,生成所述电子文档的每一个文件数据块的摘要文件数据所需的第一摘要文件数据生成信息;
生成电子文档补丁版本的摘要文件数据所需的文档生成信息时,所述第二处理子单元还用于:
生成第二摘要文件数据生成信息,所述第二摘要文件数据生成信息为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的信息;
根据所述电子文档的每一个文件数据块的数据块标识信息,比较所述第一摘要文件数据生成信息中的摘要信息与所述第二摘要文件数据生成信息中的摘要信息是否一致,如果一致,则将所述第一摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息;否则,将所述第二摘要文件数据生成信息作为生成所述电子文档补丁版本的每一个文件数据块的摘要文件数据所需的摘要文件数据生成信息。
8.如权利要求7所示的电子文档的生成装置,其特征在于,所述处理单元包括第一处理子单元,所述第一处理子单元具体用于:提取所述原始文件数据中的原始导航信息,将所述原始文件数据中的原始导航信息转换为生成导航文件数据所需的导航文件数据生成信息;或
遍历所述原始文件数据中的原始文件数据块,针对所述原始文件数据中的每一个原始文件数据块,生成所述电子文档的每一个文件数据块的导航文件数据所需的导航文件数据生成信息。
9.如权利要求7所示的电子文档的生成装置,其特征在于,所述处理单元包括第三处理子单元,所述第三处理子单元具体用于:
循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;
提取所述电子文档的每一个文件数据块中的图像信息;
对所述图像信息进行处理,生成图像文件数据所需的图像文件数据生成信息。
10.如权利要求7所示的电子文档的生成装置,其特征在于,所述处理单元包括第四处理子单元,所述第四处理子单元具体用于:
提取所述原始文件数据中的属性信息;
根据所述原始文件数据中的属性信息,生成属性文件数据所需的属性文件数据生成信息。
11.如权利要求7所示的电子文档的生成装置,其特征在于,所述处理单元包括第五处理单元,所述第五处理单元具体用于:
循环遍历所述原始文件数据中的每一个原始文件数据块,将所述每一个原始文件数据块转换为所述电子文档的每一个文件数据块;
提取所述电子文档的每一个文件数据块中的文本信息;
对所述电子文档的每一个文件数据块中的文本信息根据词条数据库中的信息进行分词处理,生成所述电子文档的索引文件数据所需的索引文件数据生成信息。
12.如权利要求7所示的电子文档的生成装置,其特征在于,所述生成单元具体用于:
将所述文档生成信息按照Zip压缩格式压缩为Zip压缩格式的文件数据;
修改压缩后的所述Zip压缩格式的文件数据的格式,生成所述电子文档。
CN201210218353.XA 2012-06-28 2012-06-28 电子文档的生成方法和装置 Active CN102831151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210218353.XA CN102831151B (zh) 2012-06-28 2012-06-28 电子文档的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210218353.XA CN102831151B (zh) 2012-06-28 2012-06-28 电子文档的生成方法和装置

Publications (2)

Publication Number Publication Date
CN102831151A CN102831151A (zh) 2012-12-19
CN102831151B true CN102831151B (zh) 2015-07-08

Family

ID=47334288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210218353.XA Active CN102831151B (zh) 2012-06-28 2012-06-28 电子文档的生成方法和装置

Country Status (1)

Country Link
CN (1) CN102831151B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105721591A (zh) * 2016-02-26 2016-06-29 浪潮通用软件有限公司 一种电子公文传送方法
US10489502B2 (en) * 2017-06-30 2019-11-26 Accenture Global Solutions Limited Document processing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627288A (zh) * 2003-12-10 2005-06-15 鸿富锦精密工业(深圳)有限公司 文件转换系统与方法
CN101739391A (zh) * 2009-12-16 2010-06-16 彭扬 生成二进制文件格式电子书的方法及其生成的电子书

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5304282B2 (ja) * 2009-01-30 2013-10-02 富士ゼロックス株式会社 印刷情報変換装置、印刷装置、印刷システム及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627288A (zh) * 2003-12-10 2005-06-15 鸿富锦精密工业(深圳)有限公司 文件转换系统与方法
CN101739391A (zh) * 2009-12-16 2010-06-16 彭扬 生成二进制文件格式电子书的方法及其生成的电子书

Also Published As

Publication number Publication date
CN102831151A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN107038207B (zh) 一种数据查询方法、数据处理方法及装置
US9619448B2 (en) Automated document revision markup and change control
US7487174B2 (en) Method for storing text annotations with associated type information in a structured data store
KR101122629B1 (ko) 데이터베이스의 데이터를 변환하여 xml 문서를 생성하는 방법
KR20120124581A (ko) 개선된 유사 문서 탐지 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN105468605A (zh) 一种实体信息图谱生成方法及装置
US10417267B2 (en) Information processing terminal and method, and information management apparatus and method
US10430490B1 (en) Methods and systems for providing custom crawl-time metadata
CN104850554A (zh) 一种搜索方法和系统
CN104317948A (zh) 页面数据抓取方法和系统
CN102651002A (zh) 一种网页信息抽取方法及其系统
CN103838796A (zh) 一种网页结构化信息抽取方法
CN103559234A (zh) RESTful Web服务的自动化语义标注系统和方法
CN103345532A (zh) 一种网页信息抽取方法及装置
TW201415254A (zh) 語意標註建議方法及其系統
CN107748748B (zh) 水利水电技术标准全文检索系统
CN115168401A (zh) 数据分级处理方法及装置、电子设备及计算机可读介质
CN102831151B (zh) 电子文档的生成方法和装置
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置
Dixit et al. Design of an ontology based adaptive crawler for hidden web
CN104281693A (zh) 一种语义搜索方法及系统
CN108614821B (zh) 地质资料互联互查系统
CN113343140B (zh) 一种基于neo4j图形数据库自动提取网页正文内容的方法
YesuRaju et al. A language independent web data extraction using vision based page segmentation algorithm
CN102591859A (zh) 一种重用行业标准格式文件的方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant