CN116612491A

CN116612491A - 一种arm麒麟word文件内容提取方法

Info

Publication number: CN116612491A
Application number: CN202310872770.4A
Authority: CN
Inventors: 张郭勇; 阎德劲; 赵晓虎; 雷文强; 刘法; 熊可欣; 黎乾隆; 郑大安; 袁焦; 顾海燕; 邓欣; 丁栋威; 奂锐
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2023-08-18

Abstract

本发明公开了一种ARM麒麟WORD文件内容提取方法，涉及自然语言处理技术领域，包括：步骤S1：将待处理WORD文档转换为HTML格式；步骤S2：将待处理WORD文档中的图片进行分离，转换为PNG格式；步骤S3：根据关键词进行检索，得到待处理WORD文档的多模态检索信息；步骤S4：重新关联检索结果中的多模态信息；本发明，通过对不同模态数据分开提取再进行关联合并，实现了内容完整、结构准确的WORD内容有效提取，且可用于ARM架构国产麒麟操作系统，解决了目前国产麒麟操作系统环境中WORD文档内容提取结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。

Description

一种ARM麒麟WORD文件内容提取方法

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种ARM麒麟WORD文件内容提取方法。

背景技术

本节中的陈述仅提供与本公开相关的背景信息，并且可能不构成现有技术。

为了进一步智能化工业设计与制造领域，高效率的利用领域内多年积攒的技术、规范等文档，需要对文档内容进行提取，WORD文档的内容提取是重要的一环。同时，为了应对国际环境的变化，发展面向国产ARM麒麟操作系统的WORD文档内容提取方法也非常必要。然而，国内外关于WORD文档内容提取的研究主要集中在Windows操作系统上，面向国产操作系统的研究相对较少。且WORD文档内容存在文字、表格、图片等多模态数据，也存在段落、标题、字体等多种文本结构格式，如何将文档内容尽可能完全的提取出来并按照原文档的格式显示到前端是一个挑战。

WORD文档内容提取是一项比较新的技术，它经历了不断的发展和完善。早期，在Word 97 和 2000 版本中，Microsoft Word 就自带了一些基本的内容提取功能，如“自动摘要”、“搜索和替换”等。这些功能只能提取文本信息，并且提取的准确性有限。这些功能的优点是操作简单，不需要额外的工具或软件，而且可以适用于大多数类型的 Word 文档。缺点是提取的准确性可能不够高，而且有些功能只能提取文本信息，无法提取其他类型的信息，例如表格和图表。随着 Word 的版本不断升级，这些功能也得到了一定的改进和扩展，例如 Word 2003 版本新增了“转换为纯文本”功能，可以去除文本中的格式和样式。但即使有了改进，也无法每次都保证其处理结果的准确性和效率。

2000 年代初期，随着 OCR（Optical Character Recognition，光学字符识别）技术的不断发展和普及，一些第三方 OCR 工具开始涉足 Word 文档内容提取领域。这些工具可以将 Word 文档中的图像和扫描文件转换为文本格式，提高了提取的准确性和全面性。目前市面上有很多第三方工具可以用来提取 Word 文档的内容，例如 Adobe Acrobat、ABBYY FineReader、Foxit Reader 等。这些工具通常具有更加先进和准确的内容提取功能，可以提取文本、表格、图表等多种类型的信息。优点是提取准确性高，而且有些工具还可以进行语音识别等高级功能。缺点是仍然需要额外的付费，而且有些工具可能不适用于某些特定类型的环境或者特定类型的 Word 文档。

2007年左右，Microsoft 推出了基于 OpenXML（Office Open XML）标准的Microsoft Office 2007 版本，为编写程序提取 Word 文档内容提供了更为便捷和高效的方式。开发者可以通过编写 C#、VB.NET 等编程语言来操作 Word 文档内容，提取和处理文本、表格、图片、超链接等信息。目前，许多第三方库和框架也可以用来编写程序提取 Word文档内容，例如 Aspose.Words、win32com、VBScript等。这些库和框架提供了丰富的 API和组件，可以实现高度自定义的操作，并且具有较高的可扩展性和兼容性。总体来说，自己编写程序提取 Word 文档内容可以实现高度自定义和灵活的操作，可以满足特定需求和场景下的数据处理要求。但是，这种技术需要掌握编程语言和相关的 API 和框架，需要较高的技术门槛和开发成本；而且很多库和第三方框架都只兼容部分环境（Windows环境），可迁移性差，无法满足目标环境（国产ARM麒麟操作系统环境）的运行要求。

然而针对现有研究情况，当前的WORD文档内容提取方法有如下问题：

1、现有的处理技术很难直接与ARM架构Linux环境兼容，在国产麒麟操作系统上运行的处理结果会有不同程度的信息丢失。

2、WORD文档内容提取过程中，原文档的格式容易失真；

3、缺乏对WORD文档中WMF格式和VISIO格式的图片的处理能力；

4、缺乏对WORD文档中表格、图片、文字多模态信息的关联能力。

发明内容

本发明的目的在于：针对现有技术中存在的问题，基于格式转换和图片分离，提供了一种ARM麒麟WORD文件内容提取方法，其先将WORD文件转换为HTML格式再进行内容提取，并且单独分离出WMF/VISIO格式的图片，将图片的格式都转成PNG，再放回HTML中的原位置，最后对不同模态（文本、图片、表格）的提取内容进行关联合并，解决了目前国产麒麟操作系统环境中WORD文档内容提取结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。

本发明的技术方案如下：

一种ARM麒麟WORD文件内容提取方法，包括：

步骤S1：将待处理WORD文档转换为HTML格式；

步骤S2：将待处理WORD文档中的图片进行分离，转换为PNG格式；

步骤S3：根据关键词进行检索，得到待处理WORD文档的多模态检索信息；

步骤S4：重新关联检索结果中的多模态信息。

进一步地，所述图片，包括：WMF格式的图片和VISIO格式的图片。

进一步地，所述步骤S1，包括：

步骤S11：结合工具，构建适配ARM麒麟操作系统的WORD文档格式转换工具；

步骤S12：基于所述WORD文档格式转换工具将待处理WORD文档转换为包含文字、格式、层次内容的HTML格式文档。

进一步地，所述工具，包括：Aspose for Java。

进一步地，所述步骤S2，包括：

步骤S21：将待处理WORD文档中所有图片提取出来，同时记录其在原文中的图片原始位置；

步骤S22：使用适配ARM麒麟操作系统的转换工具，将其中的WMF以及VISIO格式的图片均转化为PNG格式。

进一步地，所述适配ARM麒麟操作系统的转换工具，包括：LibreOffice。

进一步地，所述步骤S3，包括：

对待处理WORD文档中的文本、表格和图片标题使用基于关键词的模糊匹配算法，得到待处理WORD文档的多模态检索信息。

进一步地，所述步骤S4，包括：

步骤S41：基于在HTML格式文档中对图片原始位置的标记，将图片对应回相应的章节和标题；

步骤S42：将所有表格与文字内容匹配。

与现有的技术相比本发明的有益效果是：

1、一种ARM麒麟WORD文件内容提取方法，包括：步骤S1：将待处理WORD文档转换为HTML格式；步骤S2：将待处理WORD文档中的图片进行分离，转换为PNG格式；步骤S3：根据关键词进行检索，得到待处理WORD文档的多模态检索信息；步骤S4：重新关联检索结果中的多模态信息；本发明，通过对不同模态数据分开提取再进行关联合并，实现了内容完整、结构准确的WORD内容有效提取，且可用于ARM架构国产麒麟操作系统，解决了目前国产麒麟操作系统环境中WORD文档内容提取结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。

2、一种ARM麒麟WORD文件内容提取方法，先将WORD文档转换为HTML格式文档再提取内容，这样能够最大化保留原本WORD文件的结构信息。

3、一种ARM麒麟WORD文件内容提取方法，将WMF以及VISIO格式的图片均转化为PNG格式，这样避免了流程框图中的文字信息丢失，保证了文件提取内容的完整性和准确性。

附图说明

图1为一种ARM麒麟WORD文件内容提取方法的流程图。

具体实施方式

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

目前现有的WORD内容提取技术很难直接与ARM架构Linux环境兼容，在国产麒麟操作系统上运行的处理结果会有不同程度的信息丢失。为了解决这些问题，本实施例提出一种基于格式转换和图片分离的ARM麒麟WORD文件内容提取方法，先将WORD文件转换为HTML格式再进行内容提取，并且单独分离出WMF/VISIO格式的图片，将图片的格式转成PNG，再放回HTML中的原位置，最后对不同模态（文本、图片、表格）的提取内容进行关联合并，解决了目前国产麒麟操作系统环境中，WORD文档内容提取有结构信息易丢失、WMF/VISIO格式的图片处理能力缺乏、多模态信息的关联能力缺乏的问题。

下面结合附图对本发明的具体实施方式做进一步的详细说明。如图1所示，本发明提供了一种基于格式转换和图片分离的ARM麒麟WORD文件内容提取方法，包括以下步骤：

步骤S1：将待处理WORD文档转换为HTML格式；需要说明的是，可以使用任何格式转换工具，只要准确地达到格式转换的目的即可；

步骤S2：将待处理WORD文档中WMF/VISIO格式的图片进行分离，转换为PNG格式；

步骤S4：重新关联检索结果中的多模态信息。

在本实施例中，具体的，所述步骤S1的将待处理文档转换为HTML格式，具体包括：

S11：结合多种工具（如Aspose for Java等），构建适配ARM麒麟操作系统的WORD文档格式转换工具；

步骤S12：基于所述WORD文档格式转换工具将待处理WORD文档转换为包含文字、格式、层次内容的HTML格式文档；需要说明的是，后续的步骤S2、步骤S3、步骤S4均是基于该HTML格式文档，将在后续步骤中将该HTML格式文档定义为待处理WORD文档。

在本实施例中，具体的，所述步骤S2，包括：

步骤S22：使用适配ARM麒麟操作系统的转换工具（如LibreOffice等），将其中的WMF以及VISIO格式的图片均转化为PNG格式。

在本实施例中，具体的，所述步骤S3，包括：

对待处理WORD文档中的文本、表格和图片标题使用基于关键词的模糊匹配算法，得到待处理WORD文档的多模态检索信息；需要说明的是，基于关键词的模糊匹配算法属于本领域的常规算法，在本发明中，仅是进行了应用并未进行创造性改进，本领域的技术人员应当知晓，在此不再进行赘述。

在本实施例中，具体的，所述步骤S4，包括：

步骤S42：将所有表格与文字内容匹配。

进一步地，所述步骤S4的重新关联检索结果中的多模态信息，具体包括：

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

提供本背景技术部分是为了大体上呈现本发明的上下文，当前所署名的发明人的工作、在本背景技术部分中所描述的程度上的工作以及本部分描述在申请时尚不构成现有技术的方面，既非明示地也非暗示地被承认是本发明的现有技术。

Claims

1.一种ARM麒麟WORD文件内容提取方法，其特征在于，包括：

步骤S1：将待处理WORD文档转换为HTML格式；

步骤S4：重新关联检索结果中的多模态信息。

2.根据权利要求1所述的一种ARM麒麟WORD文件内容提取方法，其特征在于，所述图片，包括：WMF格式的图片和VISIO格式的图片。

3.根据权利要求2所述的一种ARM麒麟WORD文件内容提取方法，其特征在于，所述步骤S1，包括：

4.根据权利要求3所述的一种ARM麒麟WORD文件内容提取方法，其特征在于，所述工具，包括：Aspose for Java。

5.根据权利要求3所述的一种ARM麒麟WORD文件内容提取方法，其特征在于，所述步骤S2，包括：

6.根据权利要求5所述的一种ARM麒麟WORD文件内容提取方法，其特征在于，所述适配ARM麒麟操作系统的转换工具，包括：LibreOffice。

7.根据权利要求5所述的一种ARM麒麟WORD文件内容提取方法，其特征在于，所述步骤S3，包括：

8.根据权利要求7所述的一种ARM麒麟WORD文件内容提取方法，其特征在于，所述步骤S4，包括：

步骤S42：将所有表格与文字内容匹配。