CN110083805B

CN110083805B - 一种将Word文件转换为EPUB文件的方法及系统

Info

Publication number: CN110083805B
Application number: CN201810071710.1A
Authority: CN
Inventors: 高良才; 陈嘉云; 汤帜
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2020-11-27
Anticipated expiration: 2038-01-25
Also published as: CN110083805A

Abstract

本发明公布了一种将Word格式文件转换为EPUB格式文件的方法与系统。针对.docx格式的Word文件，通过对Word源文件的目录进行识别与处理，能够识别源Word文档目录结构，自动生成EPUB电子书，其步骤包括：Word文件解析、XML文件解析、Word文件拆分、HTML文件生成以及EPUB文件生成。本发明提供的能够识别源Word文件目录的EPUB电子书自动生成办法，解决了现有技术转换效果不佳、手动添加标题目录的转换过程操作繁琐、效率低下等问题，保障了文档内容的完整性，提升了文档的转换效果并提高了工作效率。

Description

一种将Word文件转换为EPUB文件的方法及系统

技术领域

本发明涉及文档处理技术，尤其涉及一种将Word格式文件转换为EPUB(Electronic Publication，电子出版)格式文件的方法及系统。

背景技术

在数字出版和“互联网+”的时代，随着移动通信和网络出版的快速发展，电子书变得越来越普及与流行。数字时代的到来改变了人们的阅读习惯，通过电子阅读器、智能手机等设备进行碎片化阅读与移动阅读已成为大众接受与喜爱的阅读方式，而由于设备、平台、出版媒介等方面的差异，市面上涌现出各种各样的电子书格式，如TXT、PDF、EPUB、Mobi、Azw3、CEB/CEBX、CAJ、PDG等等。在各种流行的电子书格式中，EPUB作为国际数位出版论坛(IDPF)的正式标准，因其支持多种复杂排版、可自适应设备屏幕等优点，与PDF、Mobi并列为电子书三大主流格式；而Word与PDF作为最常见的办公室文档格式，成为出版行业中最常用的两种文档稿件格式。在电子书的出版、发行过程中，常常需要实现不同电子书格式之间的转换，而在许多软件开发的过程中也常常遇到不同格式文档之间进行相互转换的需求。

Microsoft Office Word是目前最常见的电子文档工具，而Word文件包括.doc与.docx格式，前者属于MS-Word二进制文件，后者则遵循微软开发的以XML为基础并以ZIP格式压缩的电子文件规范OOXML(Office Open XML)。通用的Word文件解析办法是，从解压后的Word文件中提取相应信息，将其转化为对应的HTML文件来进行下一步的处理。

EPUB格式遵循ZIP压缩技术，解压后的EPUB文件主要包含三部分内容：用以说明EPUB的文件格式的mimetype文件；存放OPF、NCX、CSS、HTML等包含EPUB电子书核心内容文件的OEBPS文件夹；以及包含若干EPUB电子书属性内容的META-INF文件夹。通用的EPUB电子书生成主要包含四个步骤：添加mimetype文件；打包所有资源文件；创建opf、ncx等核心内容文件；最后再创建相应的属性文件，并压缩合成EPUB格式。

目前有许多在用的文件格式转换工具，其形式包括在线服务、桌面应用程序与API接口。对于不同格式文档的转换效果，文本、图表、标签、目录结构等内容的完整性，标题、字体、字号等属性的保留程度，以及特殊文档的处理等因素都是常见的考虑指标。现有常见的文件格式转换功能涉及Word、PDF、EPUB、Excel等格式，而对于将Word文件转换为EPUB格式文件的技术方案却相对较少。特别地，对于包含目录结构的Word文件，无论是带有导航标签的文件还是带有不含跳转链接的目录页的文件，现有技术的转换效果均不佳，容易发生目录结构丢失、文本混乱等状况。

发明内容

为了克服上述现有技术的不足，本发明提供一种将Word格式文件转换为EPUB格式文件的方法与系统，针对.docx格式的Word文件，通过对Word源文件的目录进行识别与处理，能够提取源Word文件的目录结构，自动生成EPUB电子书。

本发明的技术方案是：

一种将Word文件转换为EPUB文件的方法，包括如下步骤：

1)Word文件解析：获取待转换的Word文件(.docx格式文件)并进行解压，生成相应的资源文件及文件夹，其中包含若干XML文档、图片等文件；

2)XML文件解析：根据所述资源文件进行XML解析，从而得到源Word文件的文档目录、标题结构、文本样式等内容，并提取出文本、段落、字体、字号等信息用于后续HTML文件的生成；

3)Word文件拆分：根据源Word文件的解析结果，独创性地分情况处理不同的Word文件，即对包含目录结构的源文件进行目录识别，得到源文件的目录；对不包含目录的源文件进行标题识别，从而提取出源文件的目录；并根据目录将源Word文件以章节为单位拆分为多个子文件；

4)HTML文件生成：根据XML文件解析的结果，利用文本段落、字体字号等结构信息，将子文件转换为相应的HTML文件；

5)EPUB文件生成：根据所述HTML文件，结合源Word文件解压后得到的图片、元数据等资源文件以及解析后得到的目录文件，打包生成EPUB格式文件。

本发明还提供一种利用上述方法实现的将Word文件转换为EPUB文件的系统，包括：1)Word文件解析模块，获取待转换的Word文件(.docx格式文件)并进行解压，生成相应的资源文件及文件夹，其中包含若干XML文档、图片等文件；2)XML文件解析模块，根据所述资源文件进行XML解析，从而得到源Word文件的文档目录、标题结构、文本样式等内容，并提取出文本、段落、字体、字号等信息用于后续HTML文件的生成；3)Word文件拆分模块，根据源Word文件的解析结果，独创性地分情况处理不同的Word文件，即对包含目录结构的源文件进行目录识别；对不包含目录的源文件进行标题识别，从而提取出文件的目录；并根据目录将源Word文件以章节为单位拆分为多个子文件；4)HTML文件生成模块，根据XML文件解析的结果，利用文本段落、字体字号等结构信息，将子文件转换为相应的HTML文件；5)EPUB文件生成模块，结合源Word文件解压后得到的图片、元数据等资源文件以及解析后得到的目录文件，打包生成EPUB格式文件。以下对各模块进行详细说明。

Word文件解析模块。对于Microsoft Word 2007及以上版本的Word文件，其后缀名为.docx，遵循基于zip+xml格式的OOXML电子文件规范。将Word文件后缀名修改为.zip，使用解压软件对文件进行解压后，可得到[Content_Types].xml文件(记录内容为包含的所有文件的名称及类型)以及_rels、docProps、word三个文件夹。其中docProps文件夹主要记录Word文档的属性内容，包括：记录页数、字数等统计属性的app.xml文件，记录文档的创建时间、作者等核心属性的core.xml文件以及文档的缩略图thumbnail.emf文件；word文件夹包含记录文档正文内容的document.xml文件，记录文档脚注内容的footnotes.xml文件，记录文档尾注内容的endnotes.xml文件，记录文档样式信息的styles.xml文件，记录编号顺序的numbering.xml文件，以及记录图片资源的media文件夹等内容。

XML文件解析模块。把Word文件解压后获得的XML文件遵循OOXML标准，其中document.xml文件包含源Word文件的主要内容，其结构主要由段落和表格等元素构成。对于Word而言，OOXML文档的XML标签元素主要包括段落、文本、表格、编号、节、样式、字体、标题、页脚、域、链接、目录等等。XML文件本身遵循树结构，通用的解析步骤包括划分数据块，利用多线程并行解析各数据块，识别数据标签、属性内容，以及一定的后处理过程。利用OpenXMLSDK等开源工具，解析所述的document.xml、app.xml、endnotes.xml、footnotes.xml、numbering.xml、styles.xml等文件中嵌套的XML文件结构，从而获取其中Word文件内容及相关样式，特别是，获取文件的目录及标题结构。

Word文件拆分模块。利用XML解析的结果，提取出源Word文件的目录结构，根据相应的章节结构将源文件拆分为多个Word子文件。其中Word文件目录的提取需分三种情况处理：

a)源文件自带导航目录结构，Word文档通过包含标题层级、特定样式的TOC域表示目录结构，提取相应标签内容则可直接转换为EPUB文件的目录结构；

b)源文件不包含目录结构，但存在包含纯文本内容的目录页。这一类文件的目录页常常包含特定的排版特征，利用这些排版特征筛选并确定目录页，进一步解析目录页、提炼标题与页码，最后匹配到对应的文档内容，生成目录结构；

c)源文件不包含目录结构或具有特定排版特征的目录页，针对此类文件，采用SVM等分类方法，结合页面空白、章标题字体、页眉页脚的分析结果，提取文档的各项标题与相应的段落内容；利用相同层级的标题具有风格一致性的特点，采用聚类的方法提炼出标题间的层级结构，从而生成相应的目录。

得到源文件的目录结构后，根据XML元素定位章节段落的起始位置，从而对源文件进行摘取拆分。特别地，大部分电子书目录只包含两级标题以划分书籍的章节结构，此处的Word文件转换为EPUB电子书格式文件在按目录划分子文件的时候，亦可仅考虑两层目录标题。

HTML文件生成模块。针对拆分后的Word子文件，根据XML解析的结果，生成HTML的资源索引文件，对应Word子文件中出现的图片文件等资源地址，结合Word文本内容，最终将各个子文件转换为相应的HTML格式文件。转换后的HTML文件主要用于合成EPUB格式文件，其文件名对应于转换后的EPUB文件目录中章节的链接地址。

EPUB文件生成模块。EPUB格式遵循ZIP压缩技术，在生成EPUB电子书的过程中，首先在目标存放位置添加mimetype文件，以声明EPUB格式；根据所述目录结构，创建EPUB的ncx文件，添加以HTML文件名称为标识的导航链接，从而生成EPUB文件目录；根据源文件的元数据信息以及EPUB包含的目录、文件信息，创建opf文件并拷贝HTML文件及其对应的资源文件，存放至OPS文件夹中；根据所述opf文件，创建container.xml文件并存放至META-INF文件夹中；最后将上述mimetype文件、OPS文件夹、META-INF文件夹打包，并删除中间文件，生成最终转换后的EPUB格式文件。

与现有技术相比，本发明的积极效果为：

本发明提供一种将Word格式文件转换为EPUB格式文件的方法与系统，可广泛应用于常见的文件格式转换场景中，尤其是大量使用Word、EPUB文档稿件的出版行业。本发明提供的能够识别源Word文件目录的EPUB电子书自动生成办法，解决了现有技术转换效果不佳、手动添加标题目录的转换过程操作繁琐、效率低下等问题，保障了文档内容的完整性，提升了文档的转换效果并提高了工作效率。

附图说明

图1为OOXML文档的示例图。

图2为本发明实施例带有目录结构的Word文件的截图。

图3为本发明实施例带有纯文本目录页的Word文件的截图。

图4为本发明实施例不包含目录的Word文件的截图。

图5为本发明实施例转换后的带目录的EPUB文件的截图。

图6为本发明方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种将Word格式文件转换为EPUB格式文件的方法与系统，针对.docx格式的Word文件，通过对Word源文件的目录进行识别与处理，能够提取源Word文件的目录结构，自动生成EPUB电子书。本发明方法主要包括Word文件解析、XML文件解析、Word文件拆分、HTML文件生成和EPUB文件生成五个步骤，参见图6。

以下通过对一篇《浮生六记》的.docx格式文件(以下简称为文档一)进行转换来说明本发明的实施方法，具体实例如下：

1)获取并解压待转换的Word文件，得到若干XML文件等资源文件。

将文档一修改为ZIP格式，使用解压工具对其进行解压后，得到的内容包括：[Content_Types].xml文件、_rels文件夹、customXml文件夹、docProps文件夹以及word文件夹。各文件夹中包含若干XML文件，其中word文件夹中包含文档一的核心内容，包括：记录正文内容的document.xml文件、记录编号顺序的numbering.xml文件等等。

2)根据所述XML文件，解析并提取文本、段落、标题等内容。

使用第三方开源API对XML文件进行解析，得到XML的各项标签名称、属性及文本内容。对于嵌套的段落内容，递归解析得到相应的层级关系。譬如，<w:p>对应段落，<w:t>对应文本，<w:hyperlink>对应链接，<w:bookmarkStart>对应标签起始位置，<w:bookmarkEnd>对应标签终止位置等等。

3)根据所述内容信息，提取源文件的目录结构。

对于文档一而言，其自身含有带导航功能的目录结构，搜索document.xml文件中的TOC域，解析其所在标签，可以获得目录中的各个标题。譬如，document.xml文件中以w:hyperlink元素标记链接，以w:anchor记录链接对应地址如_Toc502003199，搜索文本中w:name为_Toc502003199的标签，即可获取目录中标题对应的跳转链接地址。循环处理文档中的所有TOC域标签，即可提取源文件的目录结构。

4)根据所述目录结构，以章节为单位拆分源文件。

将文档一提取的目录转存为方便处理的数据结构，利用文档处理工具，根据目录中各个一级标题对应的段落地址，将源文档拆分为多个子文件。也就是说，文档中的“卷一闺房记乐(1)”、“卷二闲情记趣(1)”、“卷二闲情记趣(2)”等章节各存为单独的子文件。

5)根据所述子文件内容，将其转换为对应的HTML文件。

根据拆分后的子文件内容以及相关的XML解析结果，使用文档处理工具，将各个子文件转换为对应的HTML文件，并遵循文档的层级结构对HTML文件进行编号命名。譬如，“卷二闲情记趣(1)”这一章节内容转换后的HTML文件可命名为“chapter2_1.html”。

6)根据所述HTML格式文件及相关资源文件，打包生成EPUB文件。

在目标存放位置，首先创建mimetype文件以说明EPUB格式；根据子文件对应的HTML文件，创建EPUB的目录文件，其中ncx文件中的<navLabel>标签以文件的标题名为文本，<navPoint>标签的id对应所在章节的HTML文件名，接着根据文档的核心内容创建opf等文件；最后打包所有资源文件，生成最终的EPUB格式文件。

利用上述方法，本发明实现了将Word文件转换为EPUB文件的系统，包括：

1)Word文件解析模块，获取待转换的Word文件(.docx格式文件)并进行解压，生成相应的资源文件及文件夹，其中包含若干XML文档、图片等文件；

2)XML文件解析模块，根据所述资源文件进行XML解析，从而得到源Word文件的文档目录、标题结构、文本样式等内容，并提取出文本、段落、字体、字号等信息用于后续HTML文件的生成；

图1为OOXML文档的示例图。对于Word而言，OOXML文档的XML标签元素主要包括段落、文本、表格、编号、节、样式、字体、标题、页脚、域、链接、目录等等。XML文件本身遵循树结构，通用的解析步骤包括划分数据块，利用多线程并行解析各数据块，识别数据标签、属性内容，以及一定的后处理过程。利用OpenXMLSDK等开源工具，解析所述的document.xml、app.xml、endnotes.xml、footnotes.xml、numbering.xml、styles.xml等文件中嵌套的XML文件结构，从而获取其中Word文件内容及相关样式，特别是，获取文件的目录及标题结构。

3)Word文件拆分模块，根据源Word文件的解析结果，独创性地分情况处理不同的Word文件，即对包含目录结构的源文件进行目录识别；对不包含目录的源文件进行标题识别，从而提取出文件的目录；并根据目录将源Word文件以章节为单位拆分为多个子文件；

其中Word文件目录的提取需分三种情况处理：

a)源文件自带导航目录结构，其表现在于，解析得到的document.xml文件中包含TOC(Table of Contents，目录)域。Word文档通过包含标题层级、特定样式的TOC域表示目录结构，提取相应标签内容则可直接转换为EPUB文件的目录结构，具体实例见图2；

b)源文件不包含目录结构，但存在包含纯文本内容的目录页。这一类文件的目录页常常包含特定的排版特征，如文本包含“目录”字样、存在大量圆点符号、存在大量断行和缩进符号、每行以数字开头等等。利用这些排版特征筛选并确定目录页，进一步解析目录页、提炼标题与页码，最后匹配到对应的文档内容，生成目录结构，具体实例见图3；

c)源文件不包含目录结构或具有特定排版特征的目录页，针对此类文件，采用SVM等分类方法，结合页面空白、章标题字体、页眉页脚的分析结果，提取文档的各项标题与相应的段落内容；利用相同层级的标题具有风格一致性的特点，采用聚类的方法提炼出标题间的层级结构，从而生成相应的目录，具体实例见图4。

得到源文件的目录结构后，根据XML元素定位章节段落的起始位置，从而对源文件进行摘取拆分。特别地，大部分电子书目录只包含两级标题以划分书籍的章节结构，此处的Word文件转换为EPUB电子书格式文件在按目录划分子文件的时候，亦可仅考虑两层目录标题。图5为转换后的EPUB文件实例。

4)HTML文件生成模块，根据XML文件解析的结果，利用文本段落、字体字号等结构信息，将子文件转换为相应的HTML文件；

5)EPUB文件生成模块，结合源Word文件解压后得到的图片、元数据等资源文件以及解析后得到的目录文件，打包生成EPUB格式文件。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种将Word文件转换为EPUB文件的方法，包括如下步骤：

1)解析待转换的Word源文件：对待转换的Word源文件进行解析，生成相应的资源文件及文件夹，包括多个XML文件和图片文件；所述待转换的源Word文件为.docx格式文件，遵循基于ZIP+XML格式的OOXML电子文件规范；解析得到的XML文档遵循OOXML电子文件规范；

2)解析XML文件：对得到的资源文件中的多个XML文件进行XML解析，提取得到Word源文件的文本、段落、字体字号、标题信息；

3)拆分Word源文件：利用步骤2)的解析XML的结果，提取得到Word源文档的目录结构，根据相应的章节结构将Word源文件拆分为多个Word子文件；

4)生成HTML文件：将各个子文件转换为HTML文件；

具体是：针对拆分得到的Word子文件，根据XML解析结果，生成HTML的资源索引文件，对应Word子文件中出现的图片文件资源地址；结合Word文本内容，将各个子文件转换为相应的HTML格式文件，用于合成EPUB格式文件，并对应转换后的EPUB目录链接地址；

5)生成EPUB文件：根据步骤4)生成的HTML文件、资源索引文件和步骤3)得到的目录结构，打包生成EPUB格式文件。

2.如权利要求1所述的将Word文件转换为EPUB文件的方法，其特征是，步骤1)解析待转换的Word源文件，具体是：将Word源文件后缀名修改为.zip，使用解压软件对.zip文件进行解压，得到[Content_Types].xml文件、docProps文件夹和word文件夹；其中[Content_Types].xml文件记录包含的所有文件的名称及类型；docProps文件夹包含app.xml文件、core.xml文件和thumbnail.emf文件；word文件夹包含document.xml文件、footnotes.xml文件、endnotes.xml文件、styles.xml文件、numbering.xml文件和media文件夹。

3.如权利要求2所述的将Word文件转换为EPUB文件的方法，其特征是，步骤2)解析XML文件具体利用XML文档解析工具，解析资源文件中的多个XML文件中嵌套的XML文档结构；XML标签元素包括段落、文本、表格、编号、节、样式、字体、标题、页脚、域、链接、目录；XML文档解析步骤包括划分数据块、利用多线程并行解析各数据块、识别数据标签、识别数据属性内容和后处理过程；由此获取Word源文件的文档内容及相关样式。

4.如权利要求1所述的将Word文件转换为EPUB文件的方法，其特征是，步骤3)拆分Word源文件包括以下情况：

a)若Word源文件包含目录结构，则对Word源文件进行目录识别，得到Word源文件的目录；解析得到的Word源文件的document.xml文件中包含TOC目录域，通过包含标题层级、特定样式的TOC域表示目录结构，提取相应标签内容，直接转换为EPUB文件的目录结构；

b)若Word源文件不包含目录结构，但存在包含纯文本内容的目录页，目录页包含特定的排版特征，利用排版特征筛选并确定目录页，进一步解析目录页，提炼标题与页码，再匹配到对应的文档内容，由此生成目录结构；

c)若Word源文件不包含目录结构或具有排版特征的目录页，则对Word源文件进行标题识别，采用支持向量机SVM分类方法，根据页面空白、章标题字体、页眉页脚的分析结果，提取文档的各项标题与相应的段落内容；并利用相同层级标题之间风格一致性的特点，采用聚类的方法提炼出标题间的层级结构，从而生成相应的目录。

5.如权利要求1所述的将Word文件转换为EPUB文件的方法，其特征是，步骤5)生成EPUB文件具体是：

首先在目标存放位置添加mimetype文件，用于声明EPUB格式；

根据目录结构，创建EPUB的ncx文件，添加以HTML文件名称为标识的导航链接，从而生成EPUB的文件目录；

创建opf文件、container.xml文件，并拷贝HTML文件及其对应的资源文件；

最后将上述文件打包，最终生成EPUB格式文件。

6.一种将Word文件转换为EPUB文件的系统，包括：Word解析模块、XML解析模块、Word拆分模块、HTML生成模块、EPUB生成模块；

1)Word文件解析模块，用于对待转换的Word文件进行解压，生成相应的资源文件及文件夹，包含多个XML文件；

2)XML文件解析模块，用于根据所述资源文件对Word文件进行XML解析，提取得到文本、段落、字体字号、标题信息；

3)Word文件拆分模块，用于对包含目录结构的Word源文件进行目录识别，对不包含目录的Word源文件进行标题识别，从而提取出Word源文件的目录，并根据目录将Word源文件以章节为单位拆分为多个子文件；

4)HTML文件生成模块，用于将子文件转换为相应的HTML文件；

针对拆分得到的Word子文件，根据XML解析结果，生成HTML的资源索引文件，对应Word子文件中出现的图片文件资源地址；结合Word文本内容，将各个子文件转换为相应的HTML格式文件，用于合成EPUB格式文件，并对应转换后的EPUB目录链接地址；

5)EPUB文件生成模块，根据HTML文件、资源索引及目录，打包生成EPUB格式文件。

7.如权利要求6所述将Word文件转换为EPUB文件的系统，其特征是，Word文件解析模块具体是：将Word源文件后缀名修改为.zip，使用解压软件对.zip文件进行解压，得到[Content_Types].xml文件、docProps文件夹和word文件夹；其中，[Content_Types].xml文件记录包含的所有文件的名称及类型；docProps文件夹包含app.xml文件、core.xml文件和thumbnail.emf文件；word文件夹包含document.xml文件、footnotes.xml文件、endnotes.xml文件、styles.xml文件、numbering.xml文件和media文件夹。

8.如权利要求6所述将Word文件转换为EPUB文件的系统，其特征是，XML文件解析模块具体利用XML文档解析工具，解析资源文件中的多个XML文件中嵌套的XML文档结构；XML标签元素包括段落、文本、表格、编号、节、样式、字体、标题、页脚、域、链接、目录；XML文档解析步骤包括划分数据块、利用多线程并行解析各数据块、识别数据标签、识别数据属性内容和后处理过程；由此获取Word源文件的文档内容及相关样式。

9.如权利要求6所述将Word文件转换为EPUB文件的系统，其特征是，Word文件拆分模块包括以下情况：

a)若Word源文件包含目录结构，则对Word源文件进行目录识别，得到Word源文件的目录；解析得到的Word源文件的document.xml文件中包含TOC目录，通过包含标题层级、特定样式的TOC域表示目录结构，提取相应标签内容，直接转换为EPUB文件的目录结构；

c)若Word源文件不包含目录结构或具有排版特征的目录页，则对Word源文件进行标题识别，采用支持向量机SVM分类方法，利用页面空白、章标题字体、页眉页脚的分析结果，提取文档的各项标题与相应的段落内容；并利用相同层级标题之间风格一致性的特点，采用聚类的方法提炼出标题间的层级结构，从而生成相应的目录。