CN112417819A

CN112417819A - 一种Word文档信息提取方法、装置、电子设备及介质

Info

Publication number: CN112417819A
Application number: CN202011407110.1A
Authority: CN
Inventors: 祝彦森; 孙靖文; 孙泽懿; 徐凯波
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-02-26

Abstract

本申请提供了一种Word文档信息提取方法、装置、电子设备及介质，其中，该方法包括：检测当前Word文档的文件扩展名是否为docx；若当前Word文档的文件扩展名为docx，则将所述当前Word文档转换为xml文件；提取所述xml文件中不同文件类型的文件；针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取。本申请实施例提供的Word文档信息提取方案无需手工维护大量规则，可以提高兼容度，同时大幅度降低维护成本。

Description

一种Word文档信息提取方法、装置、电子设备及介质

技术领域

本申请涉及文档提取技术领域，尤其是涉及一种Word文档信息提取方法、装置、电子设备及介质。

背景技术

Microsoft Word在当前使用中是占有巨大优势的文字处理器，这使得Word专用的档案格式Word文件(.doc)成为事实上最通用的标准。Word文件格式的详细资料并不对外公开。Word文件格式不只一种，因为随Word软件本身的更新，文件格式也会或多或少的改版，新版的格式不一定能被旧版的程序读取(大致上是因为旧版并未内建支援新版格式的能力)。

目前的Word文件基本都以docx为文件扩展名，docx是微软Word的文件扩展名，Microsoft Office2007之后版本使用，其基于Office Open XML标准的压缩文件格式取代了其以前专有的默认文件格式，在传统的文件名扩展名后面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。docx文件比doc文件所占用空间更小，docx格式的文件本质上是一个ZIP文件。

现有技术中，对Word文档信息提取的方案主要使用主流开放源码函式库进行文本格式的数据进行读写，然后将其组织成预设格式。

申请人在研究中发现，现有技术中当文本中的数据列增加或者减少时需要重新修改代码，对于文本中存在换行、分栏等情况未做考虑，导致文本合并存在错误较多的情况，所以该方案兼容度差且维护成本高。

发明内容

有鉴于此，本申请的目的在于提供一种Word文档信息提取方法、装置、电子设备及介质，无需手工维护大量规则，可以提高兼容度，同时大幅度降低维护成本。

第一方面，本申请实施例提供了一种Word文档信息提取方法，包括：

检测当前Word文档的文件扩展名是否为docx；

若当前Word文档的文件扩展名为docx，则将所述当前Word文档转换为xml文件；

提取所述xml文件中不同文件类型的文件；

针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取。

在一种可能的实施方式中，所述文件类型包括文本类型、表格类型和图片类型中的至少一种。

在一种可能的实施方式中，针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，包括：

针对文本类型，采用正则表达式技术和/或命名实体识别技术提取所述文本类型的文件的文本信息。

针对表格类型，提取所述表格类型的文件的文档名称、表格描述的相关信息以及表格内部信息所对应的列名和行名中的至少一项。

针对图片类型，提取所述图片类型的文件的文档名称和图片描述的相关信息中的至少一项。

在一种可能的实施方式中，还包括：将不同文件类型的文件所提取到的信息整合成用于构建知识图谱的节点。

在一种可能的实施方式中，还包括：若当前Word文档的文件扩展名为doc，则将文件扩展名为doc的所述当前Word文档转换为文件扩展名为docx的所述当前Word文档。

第二方面，本申请实施例还提供一种Word文档信息提取装置，包括：

检测模块，用于检测当前Word文档的文件扩展名是否为docx；

转换模块，用于在当前Word文档的文件扩展名为docx时，将所述当前Word文档转换为xml文件；

第一提取模块，用于提取所述xml文件中不同文件类型的文件；

第二提取模块，用于针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面的中任一种可能的实施方式中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

本申请实施例提供的一种Word文档信息提取方法、装置、电子设备及介质，采用检测当前Word文档的文件扩展名是否为docx；若是则将所述当前Word文档转换为xml文件；提取所述xml文件中不同文件类型的文件；针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，与现有技术中对Word文档信息提取的方案主要使用主流开放源码函式库进行文本格式的数据进行读写，然后将其组织成预设格式。当文本中的数据列增加或者减少时需要重新修改代码，对于文本中存在换行、分栏等情况未做考虑，导致文本合并存在错误较多的情况，所以该方案兼容度差且维护成本高相比，其将文件扩展名为docx的当前Word文档转换为xml文件，提取所述xml文件中不同文件类型的文件，针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，无需手工维护大量规则，可以提高兼容度，同时大幅度降低维护成本。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种Word文档信息提取方法的流程图；

图2示出了本申请实施例所提供的一种Word文档信息提取装置的结构示意图；

图3示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中对Word文档信息提取的方案主要使用主流开放源码函式库进行文本格式的数据进行读写，然后将其组织成预设格式。当文本中的数据列增加或者减少时需要重新修改代码，对于文本中存在换行、分栏等情况未做考虑，导致文本合并存在错误较多的情况，所以该方案兼容度差且维护成本高。基于此，本申请实施例提供了一种Word文档信息提取方法、装置、电子设备及介质，下面通过实施例进行描述。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种Word文档信息提取方法进行详细介绍。

请参照图1，图1为本申请实施例所提供的一种Word文档信息提取方法的流程图。如图1所示，所述方法可以包括以下步骤：

S101、检测当前Word文档的文件扩展名是否为docx，若否，转入步骤S102，若是，转入步骤S103；

S102、将文件扩展名为doc的所述当前Word文档转换为文件扩展名为docx的所述当前Word文档，转入步骤S103；

S103、将所述当前Word文档转换为xml文件；

S104、提取所述xml文件中不同文件类型的文件；

S105、针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取。

步骤S101中，Word，即Microsoft Office Word，是微软公司的一个文字处理器应用程序。

“docx”是微软Word的文件扩展名，Microsoft Office2007之后版本使用，其基于Office Open XML标准的压缩文件格式取代了其以前专有的默认文件格式，在传统的文件名扩展名后面添加了字母“x”(即“.docx”取代“.doc”)。

“doc”是电脑文件常见文件扩展名的一种，亦是Word2003以前版本的文本文档。

在本步骤中，通过检测当前Word文档的文档名称是否以“.docx”结尾，来检测当前Word文档的文件扩展名是否为docx。若检测到当前Word文档的文档名称以“.docx”结尾，则确定当前Word文档的文件扩展名为docx。若检测到当前Word文档的文档名称以“.doc”结尾，则确定当前Word文档的文件扩展名为doc。

步骤S102中，由于文件扩展名为doc的所述当前Word文档不支持直接进行文档信息提取，文件扩展名为docx的所述当前Word文档支持直接进行文档信息提取，因此将文件扩展名为doc的所述当前Word文档转换为文件扩展名为docx的所述当前Word文档。

步骤S103中，将文件扩展名为docx的所述当前Word文档转换为xml文件。

xml文件，即可扩展标记语言文件，标准通用标记语言的子集，简称XML文件。XML是一种用于标记电子文件使其具有结构性的标记语言。

步骤S104中，提取所述xml文件中不同文件类型的文件，例如文本类型、表格类型和图片类型中的至少一种。

步骤S105中，针对文本类型、表格类型和图片类型中的每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取。

例如，针对文本类型，采用正则表达式技术和/或命名实体识别技术提取所述文本类型的文件的文本信息。具体地，首先提取所述文本类型的文件的文档名称；然后针对较容易提取的相关内容，可以使用简单且效果较好的正则表达式进行提取，比如电话号码、邮箱等文本信息；针对需要构建知识图谱的实体节点，使用命名实体识别技术提取实体的文本信息以及类型。最后，整理成需要的格式(例如json格式)，包括文档名称、实体、实体描述的相关信息等。

其中，正则表达式(Regular Expression，regex、regexp或RE)是对字符串(包括普通字符(例如，a到z之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式，该模式描述在搜索文本时要匹配的一个或多个字符串。

命名实体识别(Named Entity Recognition，NER)，实体抽取是自然语言处理领域中的一些复杂任务的基础问题之一，诸如智能问答，关系抽取，图谱构建等过程中都涉及到命名实体识别。实体识别的效果会直接影响后续任务的效果，因此也是NLP研究的一个基础性问题。命名实体识别是从非结构化文本中找出相关实体，并标注其文本中的所在位置以及类型。

在步骤S105之后，还可以将不同文件类型的文件所提取到的信息整合成用于构建知识图谱的节点，方便后续的使用，比如问答系统、推荐系统等。其中，知识图谱(KnowledgeGraph)本质上是一种揭示实体之间关系的语义网络，其结点代表实体(entity)或者概念(concept)，边代表实体/概念之间的各种语义关系。

本申请实施例提供的一种Word文档信息提取方法，采用检测当前Word文档的文件扩展名是否为docx；若是则将所述当前Word文档转换为xml文件；提取所述xml文件中不同文件类型的文件；针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，与现有技术中对Word文档信息提取的方案主要使用主流开放源码函式库进行文本格式的数据进行读写，然后将其组织成预设格式。当文本中的数据列增加或者减少时需要重新修改代码，对于文本中存在换行、分栏等情况未做考虑，导致文本合并存在错误较多的情况，所以该方案兼容度差且维护成本高相比，其将文件扩展名为docx的当前Word文档转换为xml文件，提取所述xml文件中不同文件类型的文件，针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，无需手工维护大量规则，可以提高兼容度，同时大幅度降低维护成本。

基于相同的技术构思，本申请实施例还提供一种Word文档信息提取装置、电子设备、以及计算机存储介质等，具体可参见以下实施例。

请参照图2，图2为本申请实施例所提供的一种Word文档信息提取装置的结构示意图。如图2所示，所述装置可以包括：

检测模块10，用于检测当前Word文档的文件扩展名是否为docx；

转换模块20，用于在当前Word文档的文件扩展名为docx时，将所述当前Word文档转换为xml文件；

第一提取模块30，用于提取所述xml文件中不同文件类型的文件；

第二提取模块40，用于针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取。

在一种可能的实施方式中，第二提取模块40具体用于：针对文本类型，采用正则表达式技术和/或命名实体识别技术提取所述文本类型的文件的文本信息。

在一种可能的实施方式中，第二提取模块40具体用于：针对表格类型，提取所述表格类型的文件的文档名称、表格描述的相关信息以及表格内部信息所对应的列名和行名中的至少一项。

在一种可能的实施方式中，第二提取模块40具体用于：针对图片类型，提取所述图片类型的文件的文档名称和图片描述的相关信息中的至少一项。

在一种可能的实施方式中，还包括：整合模块(图2中未示出)，用于将不同文件类型的文件所提取到的信息整合成用于构建知识图谱的节点。

在一种可能的实施方式中，还包括：文档转换模块(图2中未示出)，用于在当前Word文档的文件扩展名为doc时，将文件扩展名为doc的所述当前Word文档转换为文件扩展名为docx的所述当前Word文档。

本申请实施例公开了一种电子设备，如图3所示，包括：处理器301、存储器302和总线303，所述存储器302存储有所述处理器301可执行的机器可读指令，当电子设备运行时，所述处理器301与所述存储器302之间通过总线303通信。

所述机器可读指令可用于执行前面方法实施例中所述的方法的步骤：

检测当前Word文档的文件扩展名是否为docx；

提取所述xml文件中不同文件类型的文件；

在一种可能的实施方式中，处理器301针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，包括：

在一种可能的实施方式中，处理器301还用于执行以下步骤：将不同文件类型的文件所提取到的信息整合成用于构建知识图谱的节点。

在一种可能的实施方式中，处理器301还用于执行以下步骤：若当前Word文档的文件扩展名为doc，则将文件扩展名为doc的所述当前Word文档转换为文件扩展名为docx的所述当前Word文档。

本申请实施例所提供的进行Word文档信息提取的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种Word文档信息提取方法，其特征在于，包括：

检测当前Word文档的文件扩展名是否为docx；

提取所述xml文件中不同文件类型的文件；

2.根据权利要求1所述的方法，其特征在于，所述文件类型包括文本类型、表格类型和图片类型中的至少一种。

3.根据权利要求2所述的方法，其特征在于，针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，包括：

4.根据权利要求2所述的方法，其特征在于，针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，包括：

5.根据权利要求2所述的方法，其特征在于，针对每一种文件类型，采用与该文件类型对应的提取方式，对该文件类型的文件进行信息提取，包括：

6.根据权利要求1所述的方法，其特征在于，还包括：

将不同文件类型的文件所提取到的信息整合成用于构建知识图谱的节点。

7.根据权利要求1所述的方法，其特征在于，还包括：

若当前Word文档的文件扩展名为doc，则将文件扩展名为doc的所述当前Word文档转换为文件扩展名为docx的所述当前Word文档。

8.一种Word文档信息提取装置，其特征在于，包括：

检测模块，用于检测当前Word文档的文件扩展名是否为docx；

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至7任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一所述方法的步骤。