CN105426480A

CN105426480A - 一种用于HTML转换为Word文档的方法及装置

Info

Publication number: CN105426480A
Application number: CN201510802212.6A
Authority: CN
Inventors: 李振华; 梅红波; 李旸; 何彪
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2016-03-23

Abstract

本发明公开了一种用于HTML转换为Word文档的方法，通过解析HTML文本，从解析结果中获取文本内容和文本样式，用具有Word文档排版风格的Java实体类将文本内容和文本样式组成XML文件，由于Java语言本身具有可以跨平台使用的特点，因此，本方法对系统平台没有限制，可移植性比较好。再将XML文件以及对应的资源文件、配置文件进行压缩，得到压缩后的文件，将压缩后的文件的扩展名转换为Word文档的扩展名进行发布，得到Word格式的文档。采用本发明提供的方法，能够跨平台实现HTML转换为Word文档。

Description

一种用于HTML转换为Word文档的方法及装置

技术领域

本发明涉及办公自动化技术领域，特别是涉及一种用于HTML转换为Word文档的方法及装置。

背景技术

HTML格式文件是在Web浏览器上浏览的文件，作为一种标记语言，HTML具有简易性、可扩展性、平台无关性、通用性等特点，因此，HTML格式文件在WEB浏览器上广泛应用，但是，HTML文档在格式上不如DOCX文档功能丰富，特别是在撰写各类报告的时候，很多用户都习惯制作成企业内部所惯用的报告或报表格式。而且MS-Word的图形化界面以及其便捷高效的文本编辑方式也是Web编辑器无法企及的。

现有的Word格式转换技术中，通常是通过JACOB(JAVACOMBridge)将要转换的内容写入Word格式的文档中。本发明人发现：使用JACOB的Java的应用程序，其目标系统必须是Windows操作系统，也就是说，采用JACOB的方式进行格式转换的平台只能是Windows操作系统，对于Linux操作系统不适用。显然，在Linux操作系统日益广泛使用的今天，该方法限制了许多用户使用。

发明内容

本发明提供了一种用于HTML转换为Word文档的方法及装置，能够跨平台的将HTML文本转换为Word文本。其中，一种用于HTML转换为Word文档的方法，包括：

解析HTML文本，从解析结果中获取文本内容和文本样式；

用具有Word文档排版风格的Java实体类将所述文本内容和所述文本样式组成XML文件；

将所述XML文件以及对应的资源文件、配置文件进行压缩，得到压缩后的文件；

读取所述压缩后的文件的扩展名，将所述压缩后的文件的扩展名转换为Word文档的扩展名。

所述用具有Word文档排版风格的Java实体类将所述文本内容和所述文本样式组成XML文件，具体包括：

从所述文本内容中获取页眉、页脚和正文，从所述文本样式中获取页眉的样式、页脚的样式以及正文的样式；

按照具有Word文档排版风格的Java实体类，将所述页眉及其样式，所述页脚及其样式，以及所述正文及其样式组成XML文件。

从所述文本内容中获取正文中的每个段落，对每个段落分别获取所述段落中的所有的字符串；

从所述文本样式中获取所述正文的样式中的各字符串对应的引用信息、排版样式；

用具有Word文档排版风格的Java实体类将所有的字符串和所述字符串对应的引用信息、排版样式组成XML文件。

所述将所述XML文件以及对应的资源文件、配置文件进行压缩，具体包括：

获取所述XML文件中的每个组成部分，对每个组成部分获取对应的资源文件和配置文件，将所述XML文件中的每个组成部分及其对应的资源文件和配置文件放置在同一地址中组成数据包，对所述数据包压缩，得到压缩后的文件。

所述解析HTML文本，从解析结果中获取文本内容和文本样式，具体包括：用HTMLParser解析HTML文本，从解析结果中获取文本内容和文本样式。

一种用于HTML转换为Word文档的装置，包括：

解析模块，用于解析HTML文本，从解析结果中获取文本内容和文本样式；

重组模块，用于用具有Word文档排版风格的Java实体类将所述文本内容和所述文本样式组成XML文件；

压缩模块，用于将所述XML文件以及对应的资源文件、配置文件进行压缩，得到压缩后的文件；

发布模块，用于读取所述压缩后的文件的扩展名，将所述压缩后的文件的扩展名转换为Word文档的扩展名。

所述重组模块，具体包括：

第一获取子模块，用于从所述文本内容中获取页眉、页脚和正文；

第二获取子模块，用于从所述文本样式中获取页眉的样式、页脚的样式以及正文的样式；

第一重组子模块，用于按照具有Word文档排版风格的Java实体类，将所述页眉及其样式，所述页脚及其样式，以及所述正文及其样式组成XML文件。

所述重组模块，具体包括：

第三获取子模块，用于从所述文本内容中正文中的每个段落，对每个段落分别获取所述段落中的所有的字符串；

第四获取子模块，用于从所述文本样式中获取所述正文的样式中的各字符串对应的引用信息、排版样式；

第二重组子模块，用于用具有Word文档排版风格的Java实体类将所有的字符串和所述字符串对应的引用信息、排版样式组成XML文件。

所述压缩模块，具体包括：

所述解析模块，具体包括：用HTMLParser解析HTML文本，从解析结果中获取文本内容和文本样式。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

通过本发明，可以解析HTML文本，从解析结果中获取文本内容和文本样式，用具有Word文档排版风格的Java实体类将文本内容和文本样式组成XML文件，由于Java语言本身具有可以跨平台使用的特点，因此，本方法对系统平台没有限制，可移植性比较好。再将XML文件以及对应的资源文件、配置文件进行压缩，得到压缩后的文件，将压缩后的文件的扩展名转换为Word文档的扩展名进行发布，得到Word格式的文档。采用本发明提供的方法，能够跨平台实现HTML转换为Word文档。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种用于HTML转换为Word文档的方法流程图；

图2是本发明实施例提供的主体内容XML文件示意图；

图3是本发明实施例提供的内容类型定义文件示意图；

图4是本发明实施例提供的映射关系文件示意图；

图5是本发明实施例提供的一种用于HTML转换为Word文档的装置框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种用于HTML转换为Word文档的方法，如图1所示，包括：

步骤101：解析HTML文本，从解析结果中获取文本内容和文本样式；

在本发明实施例中，可以采用HTMLParser解析HTML文本，从得到的解析结果中获取文本内容和文本样式。其中，HTMLParser是一个纯Java语言编写的HTML解析库。采用HTMLParser能够快速、准确地解析HTML文本。文本内容中可以包括页眉、页脚和正文。文本样式包括文本内容中各部分对应的样式，可以包括页眉的样式、页脚的样式以及正文的样式。

步骤102：用具有Word文档排版风格的Java实体类将文本内容和文本样式组成XML文件；

在本发明实施例中，对于从上述步骤101中获取到的文本内容何文本样式，可以从文本内容中获取页眉、页脚和正文，从文本样式中获取页眉的样式、页脚的样式以及正文的样式。在获取到页眉和页眉的样式、页脚和页脚的样式、正文和正文的样式之后，可以按照各部分具体的内容及样式组织相应类型的文件，在本发明实施例中，可以按照具有Word文档排版风格的Java实体类，将页眉及其样式，页脚及其样式，以及正文及其样式组成XML文件。

组成XML文件时，可以从文本内容中获取正文中的每个段落，对每个段落分别获取段落中的所有的字符串，从文本样式中获取正文的样式中的各字符串对应的引用信息、排版样式。然后，用具有Word文档排版风格的Java实体类将所有的字符串和字符串对应的引用信息、排版样式组成XML文件。

例如，文本内容和文本样式注入到具有Word文档排版风格的Java实体类中。该Java实体类命名为Document,其中包含三个Header、Body、Footer三个属性。Header和Footer中分别存放的是页眉和页脚，且都包含了内容、样式两个属性；Body中存放的是文本内容，其中Body中包含若干个段落和若干个字符串。对于每个字符串中包含存放的该字符串的引用信息和排版样式。将该Java实体类按具有Word文档排版风格组成XML文件：在本发明实施例中，可以将XML文件存放在“/document.xml”文件里。其中包含一对<w:body></w:body>标签，<w:body></w:body>又包含若干对<w:p></w:p>标签。每对<w:p></w:p>都表示一个段落，中间可以包含若干对<w:r></w:r>标签和一个用以描述段落样式的<w:pPr/>标签。每对<w:r></w:r>表示一串连续的字符，里面包含一用以描述字符串样式的<w:rPr/>标签和一对存放字符串的<w:t></w:t>标签。此处不再详述。

步骤103：将XML文件以及对应的资源文件、配置文件进行压缩，得到压缩后的文件；

在本发明实施例中，可以对上述步骤102中组成的XML文件，及其对应的资源文件和配置文件组成一个数据包，再进行压缩。具体为获取该XML文件中的每个组成部分，对每个组成部分获取对应的资源文件和配置文件，将XML文件中的每个组成部分及其对应的资源文件和配置文件放置在同一地址中组成数据包，对该数据包压缩，得到压缩后的文件。

对于Word类型的文档，其是按OPC(OpenPackagingConventions)公约进行封装的，而OPC公约可以用ZIP格式对文档实例进行打包压缩。从逻辑上来讲，一个XML文件就是一个OPC包，这个OPC包又是一套完整的各部分的集合。每个部分都由一个不区分大小写的路径名，路径名也可以称为该XML文件对应的资源文件。这个路径名是一个形如“/pres/slides/slide1.xml”用左斜杠“/”分割段名的字符串，且每个部分都有其特定的内容类型。从物理结构来说，通过OPC公约封装的ZIP文件也就是一个OPC包，每一个ZIP文件都对应OPC包中的一部分，且路径名也和OPC包中该部分的路径名相一致。在这个OPC包中，“/[Content_Types].xml”被用来定义各个部分的内容类型。包中的每个部分也包含了和其他部分以及外部资源的明确映射关系。该映射关系也可以称作为该XML文件对应的配置文件。这一系列的映射关系都被存放在relationships部分。所有的映射关系部分都以“…/_rels/….rels”的形式命名。例如一个部分的路径名为“/a/b/c.xml”，那么它的映射关系路径名则为“/a/b/_rels/c.xml.rels”。整个OPC包中最主要的文档内容是被记录在document部分里，在这个部分用“/document.xml”这个文件记录文档的主要内容。其中，内容类型定义文件“/[Content_Types].xml”如图3所示，映射关系文件“/_rels/.rels”如图4所示，主体内容XML文件“/document.xml”如图2所示。将上述三个文件用ZIP格式压缩成一个ZIP包。

步骤104：读取压缩后的文件的扩展名，将压缩后的文件的扩展名转换为Word文档的扩展名。

在本发明实施例中，对于上述步骤103中得到的压缩后的文件，可以通过修改扩展名的方式，改变文件的类型。具体可以读取该压缩后的文件的扩展名，将该压缩后的文件的扩展名修改为Word文档的扩展名。

例如，对步骤103中得到的ZIP包，将其扩展名修改为Word文档的扩展名docx。

在本发明实施例中，提供一种用于HTML转换为Word文档的装置，如图5所示，包括：

解析模块201，用于解析HTML文本，从解析结果中获取文本内容和文本样式；

在本发明实施例中，解析模块201，具体包括：用HTMLParser解析HTML文本，从解析结果中获取文本内容和文本样式。其中，HTMLParser是一个纯Java语言编写的HTML解析库。采用HTMLParser能够快速、准确地解析HTML文本。文本内容中可以包括页眉、页脚和正文。文本样式包括文本内容中各部分对应的样式，可以包括页眉的样式、页脚的样式以及正文的样式。

重组模块202，用于用具有Word文档排版风格的Java实体类将文本内容和文本样式组成XML文件；

在本发明实施例中，对于解析模块201中获取到的文本内容何文本样式，重组模块202，具体包括：

第一获取子模块，用于从文本内容中获取页眉、页脚和正文；

第二获取子模块，用于从文本样式中获取页眉的样式、页脚的样式以及正文的样式；

第一重组子模块，用于按照具有Word文档排版风格的Java实体类，将页眉及其样式，页脚及其样式，以及正文及其样式组成XML文件。

在本发明实施例中，重组模块202还包括：

第三获取子模块，用于从文本内容中正文中的每个段落，对每个段落分别获取段落中的所有的字符串；

第四获取子模块，用于从文本样式中获取正文的样式中的各字符串对应的引用信息、排版样式；

第二重组子模块，用于用具有Word文档排版风格的Java实体类将所有的字符串和字符串对应的引用信息、排版样式组成XML文件。

压缩模块203，用于将XML文件以及对应的资源文件、配置文件进行压缩，得到压缩后的文件；

在本发明实施例中，压缩模块203具体包括：获取XML文件中的每个组成部分，对每个组成部分获取对应的资源文件和配置文件，将XML文件中的每个组成部分及其对应的资源文件和配置文件放置在同一地址中组成数据包，对数据包压缩，得到压缩后的文件。

发布模块204，用于读取压缩后的文件的扩展名，将压缩后的文件的扩展名转换为Word文档的扩展名。

在本发明实施例中，可以通过修改扩展名的方式，改变文件的类型。发布模块204，具体用于读取该压缩后的文件的扩展名，将该压缩后的文件的扩展名修改为Word文档的扩展名。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本发明所提供的一种用于HTML转换为Word文档的方法及装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于HTML转换为Word文档的方法，其特征在于，包括：

解析HTML文本，从解析结果中获取文本内容和文本样式；

2.如权利要求1所述的方法，其特征在于，所述用具有Word文档排版风格的Java实体类将所述文本内容和所述文本样式组成XML文件，具体包括：

3.如权利要求1或2所述的方法，其特征在于，所述用具有Word文档排版风格的Java实体类将所述文本内容和所述文本样式组成XML文件，具体包括：

4.如权利要求1所述的方法，其特征在于，所述将所述XML文件以及对应的资源文件、配置文件进行压缩，具体包括：

5.如权利要求1所述的方法，其特征在于，所述解析HTML文本，从解析结果中获取文本内容和文本样式，具体包括：用HTMLParser解析HTML文本，从解析结果中获取文本内容和文本样式。

6.一种用于HTML转换为Word文档的装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述重组模块，具体包括：

8.如权利要求6或7所述的装置，其特征在于，所述重组模块，具体包括：

9.如权利要求6所述的装置，其特征在于，所述压缩模块，具体包括：

10.如权利要求6所述的装置，其特征在于，所述解析模块，具体包括：用HTMLParser解析HTML文本，从解析结果中获取文本内容和文本样式。