CN111062187A

CN111062187A - 一种对docx格式文档进行结构化解析方法及系统

Info

Publication number: CN111062187A
Application number: CN201911184347.5A
Authority: CN
Inventors: 刘磊; 张琍; 蔡娜; 王旭初
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-24

Abstract

本发明公开了一种对docx格式文档进行结构化解析方法及系统，该方法包括将被改成ZIP后缀的文件进行解压；提取解压文件中的document.xml文件；对document.xml文件进行段落内容解析，得到段落文本内容；对document.xml文件进行表格解析；对document.xml文件进行图片解析；将段落文本内容、表格内容和图片按照在所述document.xml文件出现的顺序排版，得到完整docx格式文档。本发明能够根据XML格式文件即可解析成完整准确的docx格式文档。

Description

一种对docx格式文档进行结构化解析方法及系统

技术领域

本发明涉及文档解析技术领域，特别是涉及一种对docx格式文档进行结构化解析方法及系统。

背景技术

docx格式的文档是Microsoft Office2007版本之后使用的文档格式，用新的基于XML的压缩文件格式取代了其目前专有的默认文件格式，在传统的文件名扩展名后面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。

docx格式文件的主要内容是保存为XML格式的，但文件并非直接保存于磁盘。它是保存在一个ZIP文件中，然后取扩展名为docx。而在现有技术中并没有能够解析还原该docx格式文件相关技术方案，也就不能准确的得到完整的docx格式文件，因此，对docx格式文档进行完整解析成为本领域亟待解决的问题。

发明内容

本发明的目的是提供一种对docx格式文档进行结构化解析方法及系统，以能够根据XML格式文件即可解析成完整准确的docx格式文档。

为实现上述目的，本发明提供了一种对docx格式文档进行结构化解析方法，所述方法包括：

将被改成ZIP后缀的文件进行解压，得到解压文件；

提取所述解压文件中的document.xml文件；

对所述document.xml文件进行段落内容解析，得到段落文本内容；

和/或对所述document.xml文件进行表格解析，得到表格内容；

和/或对所述document.xml文件进行图片解析，得到图片；

将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版，得到完整docx格式文档。

可选的，所述将被改成ZIP后缀的文件进行解压，得到解压文件，具体包括：

将扩展名为docx的文件改成ZIP后缀，得到被改成ZIP后缀的文件；

利用解压软件对被改成ZIP后缀的文件进行解压，得到解压文件。

可选的，所述提取所述解压文件中的document.xml文件具体包括：

获取所述解压文件中word文件夹；

打开所述word文件夹找到document.xml文件；

提取所述word文件夹中的Media文件存储的图片。

可选的，所述对document.xml文件进行段落内容解析，得到段落文本内容，具体包括：

利用正则表达式提取所述document.xml文件所有<w:p>的内容；

利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容；

将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接，得到段落文本内容。

可选的，所述对所述document.xml文件进行表格解析，得到表格内容，具体包括：

利用正则表达式提取所述document.xml文件所有<w:tbl>的内容；

利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容；

利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容，得到所有单元格；

利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容；

利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容，得到单元格内文本；

将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接，得到表格。

可选的，所述对所述document.xml文件进行图片解析，得到图片，具体包括：

提取所述document.xml文件中所有<a:blip r:embed＝"rId11">的内容；

并获取"rId11"在document.xml.rels文件中的定义；

根据所述定义确定所述解压文件中media文件夹内的对应图片；

按照所述<a:blip r:embed＝"rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。

本发明还提供了一种对docx格式文档进行结构化解析系统，所述系统包括：

解压单元，用于将被改成ZIP后缀的文件进行解压，得到解压文件；

xml文件提取单元，用于提取所述解压文件中的document.xml文件；

文本解析单元，用于对所述document.xml文件进行段落内容解析，得到段落文本内容；

和/或表格解析单元，用于对所述document.xml文件进行表格解析，得到表格内容；

和/或图片解析单元，用于对所述document.xml文件进行图片解析，得到图片；

排版拼接单元，用于将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版，得到完整docx格式文档。

可选的，所述文本解析单元具体包括：

<w:p>内容提取模块，用于利用正则表达式提取所述document.xml文件所有<w:p>的内容；

<w:t>内容提取模块，用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容；

文本拼接模块，用于将所述所有<w:t>的内容按照在所述document.xml文件出现的顺序拼接，得到段落文本内容。

可选的，所述表格解析单元具体包括：

<w:tbl>的内容提取模块，用于利用正则表达式提取所述document.xml文件所有<w:tbl>的内容；

<w:tr>内容提取模块，用于利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容；

单元格提取模块，用于利用正则表达式在每一<w:tr>的内容中提取所有<w:tc>的内容，得到所有单元格；

单元格内<w:p>内容提取模块，用于利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容；

单元格内文本提取模块，用于利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容，得到单元格内文本；

表格拼接模块，用于将所述单元格和所述单元格内文本按照在所述document.xml文件出现的顺序拼接，得到表格。

可选的，所述图片解析单元具体包括：

图片标记提取模块，用于提取所述document.xml文件中所有<a:blip r:embed＝"rId11">的内容；

标记定义提取模块，用于并获取"rId11"在document.xml.rels文件中的定义；

图片确定模块，用于根据所述定义确定所述解压文件中media文件夹内的对应图片；

图片排布模块，用于按照所述<a:blip r:embed＝"rId11">内容在所述document.xml文件中出现的位置排布确定的对应图片。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本发明提供的对docx格式文档进行结构化解析方法及系统能够准确完整的得到docx文档的文本、表格、图片等内容，并按照原始顺序拼接，即可还原出一个完整的docx文档。也可以将所有文本内容入库、索引，做到文档内容的全文检索。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的对docx格式文档进行结构化解析方法的流程图；

图2为本发明实施例提供的对docx格式文档进行结构化解析系统框图；

图3为document.xml文件的代码内容；

图4为document.xml文件的每个<w:p>内容的代码。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本实施例提供的对docx格式文档进行结构化解析方法包括：

步骤101：将被改成ZIP后缀的文件进行解压，得到解压文件。

该步骤101具体包括：

在实际应用中，该解压文件中包含有_rels文件夹、docProps文件夹、word文件夹和[Content_Types].Xml文件。

步骤102：提取所述解压文件中的document.xml文件。

该步骤102具体包括：

获取所述解压文件中word文件夹；

打开所述word文件夹找到document.xml文件；

提取所述word文件夹中的Media文件存储的图片。

在实际应用中，word文件夹中含有_rels文件夹、embeddings文件夹、Media文件夹、theme文件夹、document.xml文件、endnotes.xml文件、fondTable.xml文件、footnotes.xml文件、settings.xml文件、styles.xml文件、webSettings.xml文件。

步骤103：对所述document.xml文件进行段落内容解析，得到段落文本内容。

该步骤103具体包括：

利用正则表达式提取所述document.xml文件所有<w:p>的内容；

利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容；

如图3所示代码内容，经过内容对比分析可以知道：<w:p></w:p>表示的一个段落。如果提取出每个段落的文本并返回一个数组，每一项就是一个段落的内容，这样就能够完整的解析出整个word的内容，关键在于如何提取每个<w:p>的内容，继续展开一个<w:p>进行观察，如图4，发现内容虽多，其实文本都保存在<w:t>标签中间。<w:t>的匹配，有可能是<w:t xml:space＝"preserve">这种格式，需要特殊处理。

步骤104：和/或对所述document.xml文件进行表格解析，得到表格内容。

并不是每一个文档都含有表格，当有表格信息时，本实施例可以通过以下步骤实现：

利用正则表达式提取所述document.xml文件所有<w:tbl>的内容；

利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容；

利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容；

步骤105：和/或对所述document.xml文件进行图片解析，得到图片；

实际上，并不是每一个文档都含有图片，当有图片时，本实施例可以通过以下步骤实现：

提取所述document.xml文件中所有<a:blip r:embed＝"rId11">的内容；

并获取"rId11"在document.xml.rels文件中的定义；

步骤106：将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版，得到完整docx格式文档。

如图2所示，本实施例还提供了一种与上述对docx格式文档进行结构化解析方法相对应的系统，所述系统包括：

解压单元201，用于将被改成ZIP后缀的文件进行解压，得到解压文件；

xml文件提取单元202，用于提取所述解压文件中的document.xml文件；

文本解析单元203，用于对所述document.xml文件进行段落内容解析，得到段落文本内容；

和/或表格解析单元204，用于对所述document.xml文件进行表格解析，得到表格内容；

和/或图片解析单元205，用于对所述document.xml文件进行图片解析，得到图片；

排版拼接单元206，用于将所述段落文本内容、所述表格内容和所述图片按照在所述document.xml文件出现的顺序排版，得到完整docx格式文档。

所述文本解析单元203具体包括：

所述表格解析单元204具体包括：

所述图片解析单元205具体包括：

经过内容对比分析可以知道：<a:blip r:embed＝"rId11"/>表示的一个图片，其中，rId11表示的是该图片的ID。而rId11是在文件document.xml.rels中定义的，内容如下：<Relationship Id＝"rId11"Type＝"http://schemas.openxmlformats.org/officeDocument/2006/relationships/image"Target＝"media/image1.png"/>，由该定义可以分析出，图片对应的文件为media文件夹下的image1.png文件。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种对docx格式文档进行结构化解析方法，其特征在于，所述方法包括：

将被改成ZIP后缀的文件进行解压，得到解压文件；

提取所述解压文件中的document.xml文件；

和/或对所述document.xml文件进行表格解析，得到表格内容；

和/或对所述document.xml文件进行图片解析，得到图片；

将所述段落文本内容、所述表格内容和所述图片按照所述document.xml文件出现的顺序排版，得到完整docx格式文档。

2.根据权利要求1所述的对docx格式文档进行结构化解析方法，其特征在于，所述将被改成ZIP后缀的文件进行解压，得到解压文件，具体包括：

3.根据权利要求1所述的对docx格式文档进行结构化解析方法，其特征在于，所述提取所述解压文件中的document.xml文件具体包括：

获取所述解压文件中word文件夹；

打开所述word文件夹找到document.xml文件；

提取所述word文件夹中的Media文件存储的图片。

4.根据权利要求1所述的对docx格式文档进行结构化解析方法，其特征在于，所述对document.xml文件进行段落内容解析，得到段落文本内容，具体包括：

利用正则表达式提取所述document.xml文件所有<w:p>的内容；

利用正则表达式在每一<w:p>的内容中提取所有<w:t>的内容；

5.根据权利要求1所述的对docx格式文档进行结构化解析方法，其特征在于，所述对所述document.xml文件进行表格解析，得到表格内容，具体包括：

利用正则表达式提取所述document.xml文件所有<w:tbl>的内容；

利用正则表达式在每一<w:tbl>的内容中提取所有<w:tr>的内容；

利用正则表达式每一<w:tc>的内容中提取所有<w:p>的内容；

6.根据权利要求1所述的对docx格式文档进行结构化解析方法，其特征在于，所述对所述document.xml文件进行图片解析，得到图片，具体包括：

提取所述document.xml文件中所有<a:blip r:embed＝"rId11">的内容；

并获取"rId11"在document.xml.rels文件中的定义；

7.一种对docx格式文档进行结构化解析系统，其特征在于，所述系统包括：

排版拼接单元，用于将所述段落文本内容、所述表格内容和所述图片按照所述document.xml文件出现的顺序排版，得到完整docx格式文档。

8.根据权利要求7所述的对docx格式文档进行结构化解析系统，其特征在于，所述文本解析单元具体包括：

9.根据权利要求7所述的对docx格式文档进行结构化解析系统，其特征在于，所述表格解析单元具体包括：

10.根据权利要求7所述的对docx格式文档进行结构化解析系统，其特征在于，所述图片解析单元具体包括：