CN117787214A

CN117787214A - 一种复合文档文本提取方法、装置、电子设备及存储介质

Info

Publication number: CN117787214A
Application number: CN202311603840.2A
Authority: CN
Inventors: 魏海宇; 宋春良; 刘庆林; 吕宗辉; 陈健; 李小琼; 郭猛善; 谢辉; 杨晓峰; 刘海洋
Original assignee: Beijing Zorelworld Information Technology Co ltd
Current assignee: Beijing Zorelworld Information Technology Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-03-29

Abstract

本申请公开了一种复合文档文本提取方法、装置、电子设备及存储介质。该方法包括首先获取目标复合文档，解析目标复合文档的OLE文件头；根据OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构；然后进行解析获得数据流偏移；最后确定数据流偏移所对应的数据流结构，并在数据流偏移中获取文本数据偏移以及文本数据。本申请能够兼容各个软件，并且解析大文件占用内存小。

Description

一种复合文档文本提取方法、装置、电子设备及存储介质

技术领域

本发明涉及复合文档数据处理技术领域，特别涉及一种复合文档文本提取方法、装置、电子设备及存储介质。

背景技术

复合文档(Compound Document)是一种不仅包含文本而且包括图形、电子表格数据、声音、视频图像以及其它信息的文档。MS-DOC是复合文档(OLE文件)，所有文件数据都是存储在一个或多个流中。每个流都有一个相似的数据结构，用于存储元数据的数据结构。这些元数据有用户和系统的信息、文件属性、格式信息、文本内容、媒体内容。宏代码信息也是以这种方式存储在复合文档中的。

目前，由于微软发布的新DOCX均是使用压缩文件的格式，所以对于老版本的MS-DOC(复合文档)解析已经没有一种完整有效的解决方案。而对于一些老版本的Office文档，虽然可以使用转格式的方式获取其中的内容，但是我们还是希望能够在不改变原有文档结构的情况下解析获取其中的内容。

目前对于DOC、DOT还是没有一个特别完善的解决方案。例如：

1、Wps或其他软件生成的MS-DOC(复合文档)和官方生成的有一定的区别，有的解决方案可以顺利解析官方Office生成的DOC、DOT，但是对于使用Wps或其他软件生成的DOC、DOT却无法解析；

2、有的MS-DOC(复合文档)可能特别大，解析的时候将内容读取到内存中可能就会导致占用非常大的设备内存。

发明内容

基于此，本申请实施例提供了一种复合文档文本提取方法、装置、电子设备及存储介质，既可以解析官方生成的MS-DOC文档，又可以解析使用wps或其他软件生成的MS-DOC文档的完整方案，并且在解析提取大文件过程中不会占用过多的内存，不仅释放了资源还提高了效率。

第一方面，提供了一种复合文档文本提取方法，该方法包括：

获取目标复合文档，解析所述目标复合文档的OLE文件头；

根据所述OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构；

对Fat索引表数据、MiniFat索引表数据和目录结构进行解析获得数据流偏移；

确定数据流偏移所对应的数据流结构，并在数据流偏移中获取文本数据偏移以及文本数据。

可选地，根据所述OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构，包括：

以二进制方式读取复合文档一个扇区数据，将其解析成文件头格式；其中，一个扇区具体为512字节；

根据NumFatSects和SectorShift字段获取Fat索引表偏移并解析获取Fat索引表数据；

根据NumMiniFatSects、MiniFatSect1和MiniSecShift字段获取MiniFat索引表偏移并解析获取MiniFat索引表数据；

根据DirSect字段和Fat索引表获取目录扇区偏移并解析获取各个目录结构。

可选地，所述NumFatSects字段用于表征Fat索引表扇区扇区数、SectorShift字段用于表征每个Fat大小；

NumMiniFatSects字段用于表征MiniFat索引表扇区扇区数、MiniFatSect1字段用于表征MiniFat索引表扇区偏移索引、MiniSecShift字段用于表征每个MiniFat大小；

DirSect字段用于表征目录扇区偏移索引。

可选地，所述目录结构使用的字段包括EleName、CbEleName、StartSect以及Size；

EleName字段用于表征目录名、CbEleName字段用于表征目录名大小、StartSect字段用于表征目录数据索引、Size字段用于表征数据大小。

可选地，对Fat索引表数据、MiniFat索引表数据和目录结构进行解析获得数据流偏移，包括：

获取Root目录和WordDocument目录结构，判断WordDocument目录中的数据大小是否大于文件头中MiniStrMax字段的值：

当大于时，则只根据WordDocument目录结构中的StartSect字段和Fat索引表获取WordDocument目录数据；

当小于时，则根据Root目录结构中的StartSect字段、WordDocument目录结构中的StartSect字段和MiniFat索引表获取WordDocument目录数据，并以流的方式存储；

可选地，确定数据流偏移所对应的数据流结构，并在数据流偏移中获取文本数据偏移以及文本数据，包括：

根据WordDocument流数据中Fib结构中的fWhichTblStm字段获取文档使用的table目录流；

根据Fib结构中的fcClx、lcbClx字段以流的方式获取存储Clx结构数据流；

根据Clx结构中PCD结构中fc中的fcCompressed判断文本编码，若为Ansi编码则文本位置存储在偏移量为fc/2位置，若为Unicode编码则文本位置存储在偏移量为fc位置；

偏移到对应的位置，读取所有的文本数据。

可选地，在根据Fib结构中的fcClx、lcbClx字段以流的方式获取存储Clx结构数据流中，若lcbClx为0时，具体包括：

将第一个字节固定为0x02，第二个字节固定为0x10；

使用CcpText、CcpFtn、CcpHdd、CcpMcr、CcpAtn、CcpEdn、CcpTxbx、CcpHdrTxbx总数获取Clx结构中的10到13字节；

Fcmin字段值左移1位后和0x40000000做或运算得到16到19字节，从而计算Clx结构。

第二方面，提供了一种复合文档文本提取装置，该装置包括：

获取模块，用于获取目标复合文档，解析所述目标复合文档的OLE文件头；

第一解析模块，用于根据所述OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构；

第二解析模块，用于对Fat索引表数据、MiniFat索引表数据和目录结构进行解析获得数据流偏移；

确定模块，用于确定数据流偏移所对应的数据流结构，并在数据流偏移中获取文本数据偏移以及文本数据。

第三方面，提供了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的复合文档文本提取方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的复合文档文本提取方法。

本申请实施例提供的技术方案中，首先获取目标复合文档，解析目标复合文档的OLE文件头；根据OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构；然后对Fat索引表数据、MiniFat索引表数据和目录结构进行解析获得数据流偏移；最后确定数据流偏移所对应的数据流结构，并在数据流偏移中获取文本数据偏移以及文本数据。可以看出，本申请能够兼容各个软件，并且解析大文件占用内存小。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本申请实施例提供的复合文档(OLE)结构图；

图2为本申请实施例提供的总体文档解析流程图；

图3为本申请实施例提供的doc、dot文档解析流程图；

图4为WordDocument目录数据数据存储结构图；

图5为WordDocument目录数据以流方式存储的存储结构图；

图6为本申请实施例提供的一种复合文档文本提取装置的框图；

图7为本申请实施例提供的一种电子设备的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本发明的描述中，术语“包括”、“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包括了一系列步骤或单元的过程、方法、系统、产品或设备不必限于已明确列出的那些步骤或单元，而是还可包含虽然并未明确列出的但对于这些过程、方法、产品或设备固有的其它步骤或单元，或者基于本发明构思进一步的优化方案所增加的步骤或单元。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种复合文档文本提取方法进行详细介绍。本申请中复合文档(OLE)结构主要包含OLE文档头、Fat索引表扇区、MiniFat索引表扇区、目录扇区(包含各种目录流目录)、各种数据流。如图1，给出了复合文档(OLE)结构图。其中：

OLE文档头：主要标识文件为复合文档(OLE)，以及包含版本号、索引记录类型、各个扇区的索引位置和大小等。

Fat索引表扇区：记录各个流的索引。

MiniFat索引表扇区：记录各个Mini流的索引。

目录扇区：记录各个流的名字、类型、大小和位置等。

数据流：记录各个流的数据。

请参考图2，其示出了本申请实施例提供的一种复合文档文本提取方法的流程图，该方法可以包括以下步骤：

S1，获取目标复合文档，解析文档的OLE文件头。

在本实施例中，复合文档(OLE)中均是以小端方式存储

1、以二进制方式读取复合文档(OLE)一个扇区(512字节)数据，将其解析成文件头格式，使用到的字段具体见下表1；

表1文件头使用字段表

S2，根据OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构。

在本实施例中，根据NumFatSects和SectorShift字段获取Fat索引表偏移并解析获取Fat索引表数据。

根据NumMiniFatSects、MiniFatSect1和MiniSecShift字段获取MiniFat索引表偏移并解析获取MiniFat索引表数据。

根据DirSect字段和Fat索引表获取目录扇区偏移并解析获取各个目录结构，目录结构使用的字段如下：

表2目录结构使用字段表

偏移位置	字段名	大小(字节)	字段含义
				00H-3FH	EleName	64	目录名
40H-41H	CbEleName	2	目录名大小
				74H-77H	StartSect	4	目录数据索引
78H-7FH	Size	8	数据大小

S3，对Fat索引表数据、MiniFat索引表数据和目录结构进行解析获得数据流偏移。

S4，确定数据流偏移所对应的数据流结构，并在数据流偏移中获取文本数据偏移以及文本数据。

如图3，给出了doc、dot文档解析流程图。以下给出具体解析流程：

(1)若大于其值，则只根据WordDocument目录结构中的StartSect字段和Fat索引表获取WordDocument目录数据，其数据存储结构如图4所示；

(2)若小于其值，则根据Root目录结构中的StartSect字段、WordDocument目录结构中的StartSect字段和MiniFat索引表获取WordDocument目录数据，并以流的方式存储，其结构存储如图5所示；

根据WordDocument流数据中Fib结构中的fWhichTblStm字段获取文档使用的table目录流，Fib结构使用字段如表3所所示：

表3Fib结构使用字段表

偏移位置	字段名	大小(字节)	字段含义
				00H-01H	wIdent	2	文件标识
06H	fWhichTblStm	1位	使用table
				18H-1BH	Fcmin	4	Clx相关
4CH-4FH	CcpText	4	正文字数
				50H-53H	CcpFtn	4	页脚字数
54H-57H	CcpHdd	4	页眉字数
				58H-5BH	CcpMcr	4	批注字数
5CH-5FH	CcpAtn	4	尾注字数
				60H-63H	CcpEdn	4
64H-67H	CcpTxbx	4	文本框字数
				68H-6BH	CcpHdrTxbx	4	页眉文本框字数
1A2H-1A5H	fcClx	4	Clx偏移位置
				1A6H-1A9H	lcbClx	4	Clx大小

根据Fib结构中的fcClx、lcbClx字段以流的方式获取存储Clx结构数据流，若lcbClx为0则使用以下计算方式计算Clx结构：

(1)第一个字节固定为0x02，第二个字节固定为0x10。

(2)使用CcpText、CcpFtn、CcpHdd、CcpMcr、CcpAtn、CcpEdn、CcpTxbx、CcpHdrTxbx总数获取Clx结构中的10到13字节。

(3)Fcmin字段值左移1位后和0x40000000做或运算得到16到19字节。

Clx结构如表4所示：

表4Clx结构使用字段表

PCD中fc结构如表5所示:

表5PCD中fc结构使用字段表

偏移位置	字段名	大小(字节)	字段含义
				02H-05H	fc	30位	文本偏移量
05H	fcCompressed	1位	文本编码
				05H	r1	1位

根据Clx结构中PCD结构中fc中的fcCompressed判断文本编码(Ansi-1/Unicode-0)，若为Ansi编码则文本位置存储在偏移量为fc/2位置，若为Unicode编码则文本位置存储在偏移量为fc位置。

偏移到对应的位置，读取所有的文本数据。

综上可以看出，本申请使用流的方式以小内存的方案解决大文件解析占用内存问题。同时兼容解析各个软件生成的MS-DOC复合文档(OLE)，提供MS-DOC复合文档(OLE)文本解析的一个完整方案。

请参考图6，其示出了本申请实施例提供的一种复合文档文本提取装置的框图。

获取模块，用于获取目标复合文档，解析目标复合文档的OLE文件头；

第一解析模块，用于根据OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构；

关于复合文档文本提取装置的具体限定可以参见上文中对于复合文档文本提取方法的限定，在此不再赘述。上述复合文档文本提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是计算机，其内部结构图可以如图7所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于复合文档文本提取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种复合文档文本提取方法。

本领域技术人员可以理解，如图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述复合文档文本提取方法的步骤。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以M种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种复合文档文本提取方法,其特征在于，所述方法包括：

获取目标复合文档，解析所述目标复合文档的OLE文件头；

2.根据权利要求1所述的复合文档文本提取方法，其特征在于，根据所述OLE文件头寻找对应的Fat索引表扇区偏移、MiniFat索引表扇区偏移和目录扇区偏移，并对寻找到的各个扇区偏移进行解析得到Fat索引表数据、MiniFat索引表数据和目录结构，包括：

3.根据权利要求2所述的复合文档文本提取方法，其特征在于，所述NumFatSects字段用于表征Fat索引表扇区扇区数、SectorShift字段用于表征每个Fat大小；

DirSect字段用于表征目录扇区偏移索引。

4.根据权利要求2所述的复合文档文本提取方法，其特征在于，所述目录结构使用的字段包括EleName、CbEleName、StartSect以及Size；

5.根据权利要求1所述的复合文档文本提取方法，其特征在于，对Fat索引表数据、MiniFat索引表数据和目录结构进行解析获得数据流偏移，包括：

当小于时，则根据Root目录结构中的StartSect字段、WordDocument目录结构中的StartSect字段和MiniFat索引表获取WordDocument目录数据，并以流的方式存储。

6.根据权利要求5所述的复合文档文本提取方法，其特征在于，确定数据流偏移所对应的数据流结构，并在数据流偏移中获取文本数据偏移以及文本数据，包括：

偏移到对应的位置，读取所有的文本数据。

7.根据权利要求6所述的复合文档文本提取方法，其特征在于，在根据Fib结构中的fcClx、lcbClx字段以流的方式获取存储Clx结构数据流中，若lcbClx为0时，具体包括：

将第一个字节固定为0x02，第二个字节固定为0x10；

8.一种复合文档文本提取装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的复合文档文本提取方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的复合文档文本提取方法。