CN108763176A

CN108763176A - 一种文档处理方法及装置

Info

Publication number: CN108763176A
Application number: CN201810318221.1A
Authority: CN
Inventors: 安怡; 高翔; 纪达麒; 陈运文
Original assignee: Information Technology (shanghai) Co Ltd
Current assignee: Information Technology (shanghai) Co Ltd
Priority date: 2018-04-10
Filing date: 2018-04-10
Publication date: 2018-11-06

Abstract

本申请公开了一种文档处理方法及装置。该方法包括判定待处理文档种类；得到所述待处理文档种类判断结果；根据所述判断结果对待处理文档执行预设处理，其中，所述预设处理至少包括如下一种或两种处理方式：处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。本申请解决了原始文档的段落信息和表格信息不能完整有效解析的技术问题。

Description

一种文档处理方法及装置

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种文档处理方法及装置。

背景技术

随着社会的发展，纸质材料记录日益减少，各种类型的电子材料日益增多。与此同时，对于文档的智能化处理也不断丰富，有智能文档解析系统，智能文档审阅系统，智能文档比对系统等。而不同的智能文档系统基础就是各种不同格式的文档，Word格式、PDF格式、Excel格式等。这些不同的文档格式对于用户有着较大的区分，其本身也有不同的样式区分，尤其是文档中的段落信息、表格信息等。但对于计算机而言，不同的文本格式都会变成其所需要的纯文本内容，段落信息、表格信息会变成相应的字符信息，如若在解析的过程中，丧失这些携带重要信息的字符，则会导致解析出的文档没有任何格式，对后续的文档解析系统带来一定的困难。

因此，将多种类型的文档有效地解析成纯文本内容是研究文档智能化的基础，能够在解析过程中保持原文档的格式(包括段落信息、表格信息等)是文档解析研究的重点内容。

针对相关技术中原始文档的段落信息和表格信息不能完整有效解析的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种文档处理方法及装置，以解决原始文档的段落信息和表格信息不能完整有效解析的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种文档处理方法。

根据本申请的文档处理方法包括：判定待处理文档种类；得到所述待处理文档种类判断结果；根据所述判断结果对所述待处理文档执行预设处理，其中，所述预设处理至少包括如下一种或两种处理方式：处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。

进一步的，根据所述判断结果对所述待处理文档执行预设处理包括：所述判断结果为PDF待处理文档时，则提取所述PDF待处理文档中的文字信息、文字的位置信息以及线条信息；根据所述线条信息进行表格内容解析；根据所述文字信息和所述文字的位置信息进行段落解析。

进一步的，所述表格内容解析包括：根据所述线条信息还原表格边框；根据所述文字信息、文字的位置信息得到所述表格文本信息。

进一步的，所述段落解析包括：根据预设方法判断所述段落的当前句与下一句是否相连，其中，所述预设方法至少包括：词典匹配法、命名实体识别法和分类法。

进一步的，根据所述词典匹配法判断所述段落的当前句与下一句是否相连包括：将词汇添加到所述词典中；判断所述当前句的末尾词与所述下一句的开始词是否在字典中出现；如果所述当前句的末尾词与所述下一句的开始词在字典中出现，则将所述当前句与所述下一句合并。

进一步的，根据所述判断结果对所述待处理文档执行预设处理包括：所述判断结果为Word待处理文档时，则判定所述Word待处理文档的后缀名，其中，所述后缀名至少包括：.doc和.docx；若所述Word待处理文档的后缀名为.doc，则将所述.doc格式的Word待处理文档转化为.docx格式的Word待处理文档；若所述Word待处理文档的后缀名不为.doc，直接使用python-docx对所述.docx格式的Word待处理文档进行文档段落格式解析和表格解析。

进一步的，根据所述判断结果对所述待处理文档执行预设处理包括：所述判断结果为Excel待处理文档时，则使用python的xlrd库或java语言对所述Excel待处理文档进行解析。

进一步的，所述预设处理还包括：所述判断结果为Excel待处理文档时，则判断所述Excel待处理文档的内容是否包含日期；如果所述Excel待处理文档的内容包含日期，则所述xlrd库或所述java语言将所述日期处理成浮点数。

进一步的，所述预设处理还包括：所述判断结果为Excel待处理文档时，则判断所述Excel待处理文档的内容是否包含合并单元格内容；如果所述Excel待处理文档的内容包含合并单元格内容，则采用所述xlrd库的参数进行解析。

为了实现上述目的，根据本申请的另一方面，提供了一种文档处理装置。

根据本申请的文档处理装置包括：判定模块，用于判定待处理文档种类；判定结果输出模块，用于输出所述待处理文档种类判断结果；解析模块，根据所述判断结果对待处理文档执行预设处理；保存模块，得到所述待处理文档的文档处理结果；其中，所述解析模块的所述预设处理至少包括如下一种或两种处理方式：处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。

在本申请实施例中，通过针对不同文档采用不同处理方法，达到了有效将不同类型的文档进行解析的目的，从而实现了能最大程度上保证其段落信息、表格信息的一致性的技术效果，进而解决了原始文档的段落信息和表格信息不能完整有效解析的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的文档处理方法示意图；

图2是根据本申请实施例的文档解析方法流程图；

图3是根据本申请实施例的PDF文档处理方法示意图；

图4是根据本申请实施例的PDF文档解析流程图；

图5是根据本申请实施例的Word文档处理方法示意图；

图6是根据本申请实施例的段落解析示意图；

图7是根据本申请实施例的Word文档处理方法流程图；

图8是根据本申请实施例的Excel文档处理方法示意图；以及

图9是根据本申请实施例的文档处理装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，本申请涉及一种文档处理方法，该方法包括：

步骤S101，判定待处理文档种类；

步骤S102，得到所述待处理文档种类判断结果；

步骤S103，根据所述判断结果对所述待处理文档执行预设处理。

其中，所述预设处理至少包括如下一种或两种处理方式：处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。

如图2所示，根据文档的后缀名判定文档的种类，由于不同的文档类型有着其独特的结构，因此，不同的文档类型对应着不同的解析方法。

PDF文档格式：PDF全称是可移植文档格式(英文全称：Portable DocumentFormat，简称：PDF)，该种类型是一种独立于应用程序、硬件、操作系统的文档格式，每个PDF文件包含固定布局的平面文档的完整描述，包括文本、图形及其他需要现实的信息文档格式；

Word文档格式：Word文档格式指的是微软公司的一个收费文字处理应用程序，Microsoft Word在当前使用中是占有巨大优势的文字处理器，这使得Word专用的文件格式Word文件(.doc或者.docx)成为事实上最通用的文档存储格式，也是文档最常见的形式之一；

Excel文档格式：Excel文档格式指的是微软公司的电子表格程序，该格式的电子表格现已成为表格中占比最多的一种形式；

针对不同的文档格式，有着不同的解析方法和使用的工具。

如图3所示，根据所述判断结果对所述待处理文档执行预设处理包括：

步骤S201，所述判断结果为PDF待处理文档时，则提取所述PDF待处理文档中的文字信息、文字的位置信息以及线条信息；

步骤S202，根据所述线条信息进行表格内容解析；根据所述文字信息和所述文字的位置信息进行段落解析。

如图4所示，PDF文档处理方法流程具体如下：提取出PDF文档中的文字信息、文字的位置信息以及线条信息等；

优选的，所述表格内容解析包括：根据所述线条信息还原表格边框；根据所述文字信息、文字的位置信息得到所述表格文本信息。

根据提取的线条信息，即就是纵轴坐标(y轴)以及横轴坐标(x轴)确定表格的基本维度(表的行数和列数)，达到还原表格边框的效果；

根据文字的信息、文字的位置信息可以得到表格所需的文本信息，然后按照其正确的坐标信息，可将表格内容放置相应的内容中；

如图5所示，段落解析就是判断当前句子是否与下一句相连，判断是否相连的方法主要有词典匹配法、命名实体识别法、分类法。

优选的，所述段落解析包括：根据预设方法判断所述段落的当前句与下一句是否相连，其中，所述预设方法至少包括：词典匹配法、命名实体识别法和分类法。

优选的，根据所述词典匹配法判断所述段落的当前句与下一句是否相连包括：将词汇添加到所述词典中；判断所述当前句的末尾词与所述下一句的开始词是否在字典中出现；如果所述当前句的末尾词与所述下一句的开始词在字典中出现，则将所述当前句与所述下一句合并。判断这两句是否应该相连，主要是看当前句的末尾词，和下句的开始词。如果该词在字典中出现，则将这两句进行合并，以此循环，完成整个文档的遍历。

作为本实施例的优选，命名实体识别法：命名实体识别(英文全称：Named EntityRecognition，简称：NER)，又称作“专名识别”，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。在段落解析中其主要用途就是增加词典的内容。首先，可将解析出的换行文本中换行信息去掉，使用NER技术识别文中有意义的实体，将此实体加入到字典中，随后采用词典匹配的方法进行段落的解析。

作为本实施例的优选，分类法：判断当前句子和下句是否相连可以看作是个‘二分类’问题，即就是：连接，不连接。因此，采用分类的思想来完成该任务。首先，得到一批已经有正确段落信息的文本(训练集)。其次，根据此训练集进行模型训练，最后，将此模型作用于未有正确段落信息的文本中，完成段落的解析。

如图6所示，根据所述判断结果对所述待处理文档执行预设处理包括：

步骤S301，所述判断结果为Word待处理文档时，则判定所述Word待处理文档的后缀名，其中，所述后缀名至少包括：.doc和.docx；

步骤S302，若所述Word待处理文档的后缀名为.doc，则将所述.doc格式的Word待处理文档转化为.docx格式的Word待处理文档；

步骤S303，若所述Word待处理文档的后缀名不为.doc，直接使用python-docx对所述.docx格式的Word待处理文档进行文档段落格式解析和表格解析。

其中，Word格式文档主要分为.doc和.docx两种格式，这两种格式虽然都是微软的文档格式结构，但是其存在着巨大的差异。doc文档是二进制存储的文档，包含其相关的格式和信息。docx基本上是一个zip文件，包含与文档有关的XML文件。因此，若要有效正确的解析Word文档，则需将.doc文档格式转化成为.docx格式，进而完成Word文档的解析。

如图7所示，Word文档解析首先就是需要将.doc格式转化为.docx格式，实现该种文档类型转化的方式有很多，例如：unoconv、Libreoffice、Openoffice等。其次，需要对.docx文档格式进行解析，可以选用编程语言Python，Python对.docx文档解析有个功能强大的库`python-docx`。python-docx包含了Word文档的相关对象集合，包括：段落集合、表格集合、节集合、样式集合等。因此，使用python-docx库能够对Word的段落、表格进行有效地解析。

如图8所示，根据所述判断结果对所述待处理文档执行预设处理包括：

步骤S401，所述判断结果为Excel待处理文档时，则使用python的xlrd库或java语言对所述Excel待处理文档进行解析；

步骤S402，所述判断结果为Excel待处理文档时，则判断所述Excel待处理文档的内容是否包含日期；

步骤S403，如果所述Excel待处理文档的内容包含日期，则所述xlrd库或所述java语言将所述日期处理成浮点数。

优选的，所述预设处理还包括：所述判断结果为Excel待处理文档时，则判断所述Excel待处理文档的内容是否包含合并单元格内容；如果所述Excel待处理文档的内容包含合并单元格内容，则采用所述xlrd库的参数进行解析。

如图9所示，该装置包括：判定模块1，用于判定待处理文档种类；判定结果输出模块2，用于输出所述待处理文档种类判断结果；解析模块3，根据所述判断结果对待处理文档执行预设处理；保存模块4，得到所述待处理文档的文档处理结果；其中，所述解析模块3的所述预设处理至少包括如下一种或两种处理方式：处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。

从以上的描述中，可以看出，本申请实现了如下技术效果：本发明针对不同类型文档的解析提出其对应的解析方法，该方法能有效将不同类型的文档进行解析，能最大程度上保证其段落信息、表格信息的一致性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文档处理方法，其特征在于，包括：

判定待处理文档种类；

得到所述待处理文档种类判断结果；

根据所述判断结果对所述待处理文档执行预设处理，

2.根据权利要求1所述的文档处理方法，其特征在于，根据所述判断结果对所述待处理文档执行预设处理包括：

所述判断结果为PDF待处理文档时，则提取所述PDF待处理文档中的文字信息、文字的位置信息以及线条信息；

根据所述线条信息进行表格内容解析；

根据所述文字信息和所述文字的位置信息进行段落解析。

3.根据权利要求2所述的文档处理方法，其特征在于，所述表格内容解析包括：

根据所述线条信息还原表格边框；

根据所述文字信息、文字的位置信息得到所述表格文本信息。

4.根据权利要求2所述的文档处理方法，其特征在于，所述段落解析包括：

根据预设方法判断所述段落的当前句与下一句是否相连，

其中，所述预设方法至少包括：词典匹配法、命名实体识别法和分类法。

5.根据权利要求4所述的文档处理方法，其特征在于，根据所述词典匹配法判断所述段落的当前句与下一句是否相连包括：

将词汇添加到所述词典中；

判断所述当前句的末尾词与所述下一句的开始词是否在字典中出现；

如果所述当前句的末尾词与所述下一句的开始词在字典中出现，则将所述当前句与所述下一句合并。

6.根据权利要求1所述的文档处理方法，其特征在于，根据所述判断结果对所述待处理文档执行预设处理包括：

所述判断结果为Word待处理文档时，则判定所述Word待处理文档的后缀名，

其中，所述后缀名至少包括：.doc和.docx；

若所述Word待处理文档的后缀名为.doc，则将所述.doc格式的Word待处理文档转化为.docx格式的Word待处理文档；

若所述Word待处理文档的后缀名不为.doc，直接使用python-docx对所述.docx格式的Word待处理文档进行文档段落格式解析和表格解析。

7.根据权利要求1所述的文档处理方法，其特征在于，根据所述判断结果对所述待处理文档执行预设处理包括：

所述判断结果为Excel待处理文档时，则使用python的xlrd库或java语言对所述Excel待处理文档进行解析。

8.根据权利要求7所述的文档处理方法，其特征在于，所述预设处理还包括：

所述判断结果为Excel待处理文档时，则判断所述Excel待处理文档的内容是否包含日期；

如果所述Excel待处理文档的内容包含日期，则所述xlrd库或所述java语言将所述日期处理成浮点数。

9.根据权利要求7所述的文档处理方法，其特征在于，所述预设处理还包括：

所述判断结果为Excel待处理文档时，则判断所述Excel待处理文档的内容是否包含合并单元格内容；

如果所述Excel待处理文档的内容包含合并单元格内容，则采用所述xlrd库的参数进行解析。

10.一种文档处理装置，其特征在于，包括：

判定模块，用于判定待处理文档种类；

判定结果输出模块，用于输出所述待处理文档种类判断结果；

解析模块，根据所述判断结果对待处理文档执行预设处理；

保存模块，得到所述待处理文档的文档处理结果；

其中，所述解析模块的所述预设处理至少包括如下一种或两种处理方式：处理所述待处理文档的文档段落格式、处理所述待处理文档的表格信息。