CN115391516A

CN115391516A - 一种非结构化文档提取方法、装置、设备及介质

Info

Publication number: CN115391516A
Application number: CN202211343139.7A
Authority: CN
Inventors: 林海峰; 赵炜煜; 陈琛; 王尚超; 刘翔锋; 孙健庭; 罗佳丽; 刘志波; 邱权; 雷霭荻; 张历记; 范东皖; 谭丽娟
Original assignee: Chengdu Aircraft Industrial Group Co Ltd
Current assignee: Chengdu Aircraft Industrial Group Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2022-11-25
Anticipated expiration: 2042-10-31
Also published as: CN115391516B

Abstract

本申请公开了一种非结构化文档提取方法、装置、设备及介质，涉及文档提取技术领域，该方法接收输入的目标文档信息，所述目标文档信息包括目标文档类型信息、目标文档数据单位信息和目标文档名称信息；基于所述目标文档类型信息，从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵；基于所述目标文档数据单位信息、所述目标文档名称信息以及多个所述目标文档元胞矩阵，获得各目标文档元胞矩阵对应的文档提取分数值；基于各目标文档元胞矩阵对应的文档提取分数值，提取所述目标文档。通过上述技术方案可以更快速准确的提取到目标文档。

Description

一种非结构化文档提取方法、装置、设备及介质

技术领域

本申请涉及文档提取技术领域，尤其涉及非结构化文档提取方法、装置、设备及介质。

背景技术

文档是记录重要资料的载体，因此对文档的管理显得至关重要，某些数据库中包括数量非常庞大的文档，很多时候需要对数据库中的文档进行提取，以便相关人员对提取的文档进行查阅。但是，现有技术中不能快速准确的提取到目标文档。

发明内容

本申请的主要目的在于提供非结构化文档提取方法、装置、设备及介质，旨在解决现有技术中不能快速准确的提取到目标文档的技术问题。

为实现上述目的，本申请第一方面提供了一种非结构化文档提取方法，所述方法包括：

接收输入的目标文档信息，所述目标文档信息包括目标文档类型信息、目标文档数据单位信息和目标文档名称信息；

基于所述目标文档类型信息，从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵；其中，所述文档元胞矩阵模型中包括若干文档对应的若干文档元胞矩阵，每个所述文档元胞矩阵包括对应文档的文档数据单位信息、文档名称信息和文档类型信息；

基于所述目标文档数据单位信息、所述目标文档名称信息以及多个所述目标文档元胞矩阵，获得各目标文档元胞矩阵对应的文档提取分数值；其中，所述文档提取分数值用于表征各目标文档元胞矩阵与所述目标文档信息的相似度；

基于各目标文档元胞矩阵对应的文档提取分数值，提取所述目标文档。

优选地，所述基于各目标文档元胞矩阵对应的文档提取分数值，提取所述目标文档，包括：

对所述文档提取分数值由高到低的顺序排序；

提取所述目标文档；所述目标文档为所述文档提取分数值排在第一位对应的文档。

优选地，所述基于所述目标文档数据单位信息、所述目标文档名称信息以及多个所述目标文档元胞矩阵，获得各目标文档元胞矩阵对应的文档提取分数值，包括：

其中，

为文档数据单位信息在文档中存在的种类数，

为输入的目标文档数据单位信息的种类数，

为输入目标文档名称信息与文档元胞矩阵模型中文档名称信息的字符交集，

为输入的目标文档名称信息，s表示文档提取分数值，

表示目标文档数据单位信息的权重，m表示目标文档类型信息是否从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与目标文档类型信息匹配的目标文档元胞列矩阵的参数，且m=0或1。

优选地，在所述接收输入的目标文档信息的步骤之前，还包括：

提取若干文档的文档特征数据，其中，所述文档特征数据中包括文档数据单位信息和文档名称；

基于所述文档特征数据，构建所述文档元胞矩阵模型。

可选地，所述基于所述文档特征数据，构建所述文档元胞矩阵模型，包括：

基于所述文档数据单位信息，构建文档元胞组；

对所述文档名称进行拆分，以获得文档名称信息和文档类型信息；

根据所述文档名称信息和文档类型信息，构建名称元胞组；

基于所述文档元胞组和所述名称元胞组，构建所述文档元胞矩阵模型。

可选地，所述基于所述文档元胞组和所述名称元胞组，构建所述文档元胞矩阵模型，包括：

将所述文档元胞组和所述名称元胞组组合，以获得二维元胞矩阵，其中，所述二维元胞矩阵中包括所述文档数据单位信息、所述文档名称信息和所述文档类型信息间的映射关系；

基于所述二维元胞矩阵，构建所述文档元胞矩阵模型。

可选地，在所述接收输入的目标文档信息的步骤之后，还包括：

若未从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵，则更换所述目标文档类型信息；

基于更换的所述目标文档类型信息，从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵。

第二方面，本申请提供了一种非结构化文档提取装置，所述装置包括：

接收模块，用于接收输入的目标文档信息，所述目标文档信息包括目标文档类型信息、目标文档数据单位信息和目标文档名称信息；

筛选模块，用于基于所述目标文档类型信息，从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵；其中，所述文档元胞矩阵模型中包括若干文档对应的若干文档元胞矩阵，每个所述文档元胞矩阵包括对应文档的文档数据单位信息、文档名称信息和文档类型信息；

获得模块，用于基于所述目标文档数据单位信息、所述目标文档名称信息以及多个所述目标文档元胞矩阵，获得各目标文档元胞矩阵对应的文档提取分数值；其中，所述文档提取分数值用于表征各目标文档元胞矩阵与所述目标文档信息的相似度；

提取模块，用于基于各目标文档元胞矩阵对应的文档提取分数值，提取所述目标文档。

第三方面，本申请提供了一种计算机设备，该计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序，实现实施例中所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，处理器执行所述计算机程序，实现实施例中所述的方法。

通过上述技术方案，本申请至少具有如下有益效果：

本申请实施例提出的非结构化文档提取方法、装置、设备及介质，该方法通过先接收输入的目标文档信息，所述目标文档信息包括目标文档类型信息、目标文档数据单位信息和目标文档名称信息；基于所述目标文档类型信息，从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵；其中，所述文档元胞矩阵模型中包括若干文档对应的若干文档元胞矩阵，每个所述文档元胞矩阵包括对应文档的文档数据单位信息、文档名称信息和文档类型信息；基于所述目标文档数据单位信息、所述目标文档名称信息以及多个所述目标文档元胞矩阵，获得各目标文档元胞矩阵对应的文档提取分数值；其中，所述文档提取分数值用于表征各目标文档元胞矩阵与所述目标文档信息的相似度；基于各目标文档元胞矩阵对应的文档提取分数值，提取所述目标文档。即通过提取符合目标文档类型信息的目标文档元胞列矩阵，可以筛选出很大一部分不符合要求的目标文档元胞列矩阵，且由于提取的对象是非结构化文档，非结构化文档的文档数据单位信息未被标准化，未被标准化的文档数据单位信息针对性更强，通过目标文档数据单位信息和目标文档名称信息可以得到目标文档元胞矩阵对应的文档提取分数值，最后基于每个目标文档元胞列矩阵的文档提取分数值，提取目标文档，由于极大的缩小了目标文档的提取范围，且基于文档提取分数值可以更加直观的知道该提取范围内每个目标文档元胞列矩阵与目标文档间的相识度，因此可以更快速准确的提取到目标文档。

附图说明

图1为本申请实施例涉及的硬件运行环境的计算机设备结构示意图；

图2为本申请实施例的非结构化文档提取方法的流程示意图；

图3为本申请实施例中步骤S14的流程示意图；

图4为本申请实施例构建文档元胞矩阵模型的流程示意图；

图5为本申请实施例中步骤S21的流程示意图；

图6为本申请实施例的非结构化文档提取装置的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

文档是记录重要资料的载体，因此对文档的管理显得至关重要，某些数据库中包括数量非常庞大的文档，很多时候需要对数据库中的文档进行提取，以便相关人员对提取的文档进行查阅。在多种非结构化文档管理方式中，这些方式大多通过部分结构化或半结构化的方式使文档便于分类管理。如对业务规范信息进行了分析和重新数据组织，确保良好的检索时效与准确率，系统应用后能快速应对业务变化，在已有的大量的规定、规范、标准和公文函件中迅速、准确、全面地查找有关资料信息。在数据治理流程中，流程数据模型没有建立的情况下识别文档中的业务对象是不准确的，先识别非结构化文档中的主数据、字段属性等并不会对未完成的流程和主数据的建立产生特别有效的帮助，但是会浪费大量的人力物力，因为数据治理是一个漫长的过程，流程和主数据的建立也需要比较长的时间才能完成，而不去识别这些文档在数据治理的前期不能很好的体现出效果。综上，目前对目标文档的提取（搜索或获取）由于输入的限制过多，提取的特征过多，因此不能快速准确的提取到目标文档。

为了解决上述技术问题，本申请提供了一种非结构化文档提取方法、装置、设备及介质，在介绍本申请的具体技术方案之前，先介绍下本申请实施例方案涉及的硬件运行环境。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的计算机设备结构示意图。

如图1所示，该计算机设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM）存储器，也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及电子程序。

在图1所示的计算机设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明计算机设备中的处理器1001、存储器1005可以设置在计算机设备中，所述计算机设备通过处理器1001调用存储器1005中存储的非结构化文档提取装置，并执行本申请实施例提供的非结构化文档提取方法。

如图2所示，基于前述实施例的硬件环境，本申请的实施例提供了一种非结构化文档提取方法，该方法包括：

S10：接收输入的目标文档信息，所述目标文档信息包括目标文档类型信息、目标文档数据单位信息和目标文档名称信息。

目标文档类型信息为工作人员输入的文档类型信息，包括文档的类型、名称和数据单位，该方法提取的目标文档为非结构化文档，非结构化文档的文档数据单位信息未被标准化。

S11：基于所述目标文档类型信息，从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵；其中，所述文档元胞矩阵模型中包括若干文档对应的若干文档元胞矩阵，每个所述文档元胞矩阵包括对应文档的文档数据单位信息、文档名称信息和文档类型信息。

用提取出的标准数据建立文档元胞组，文档元胞组中每一个元素皆为一个带单位的标准数据，将全部非结构化文档的文档元胞组放在一起，建立元胞列矩阵，矩阵中每一行元素为一个文档元胞组，文档元胞矩阵模型中包括若干个文档元胞列矩阵，文档元胞列矩阵中包括文档数据单位信息、文档名称信息和文档类型信息，通过目标文档类型信息可以在文档元胞矩阵模型中搜索到相应的文档类型信息，及相应的目标文档元胞列矩阵。

S12：基于所述目标文档数据单位信息、所述目标文档名称信息以及多个所述目标文档元胞矩阵，获得各目标文档元胞矩阵对应的文档提取分数值；其中，所述文档提取分数值用于表征各目标文档元胞矩阵与所述目标文档信息的相似度。

通过目标文档数据单位信息、目标文档名称信息以及筛选出的多个目标文档元胞矩阵，可以得到筛选出的目标文档元胞矩阵对应的文档提取分数值。

S13：基于各目标文档元胞矩阵对应的文档提取分数值，提取所述目标文档。

本实施例中，通过提取符合目标文档类型信息的目标文档元胞列矩阵，可以筛选出很大一部分不符合要求的目标文档元胞列矩阵，且由于提取的对象是非结构化文档，非结构化文档的文档数据单位信息未被标准化，未被标准化的文档数据单位信息针对性更强，通过目标文档数据单位信息和目标文档名称信息可以得到目标文档元胞矩阵对应的文档提取分数值，最后基于每个目标文档元胞列矩阵的文档提取分数值，提取目标文档，由于极大的缩小了目标文档的提取范围，且基于文档提取分数值可以更加直观的知道该提取范围内每个目标文档元胞列矩阵与目标文档间的相识度，因此可以更快速准确的提取到目标文档。

在一些实施例中，在所述接收输入的目标文档信息的步骤之后，且在所述基于所述目标文档类型信息，从文档元胞矩阵模型中的若干文档元胞矩阵中筛选出与所述目标文档类型信息匹配的若干目标文档元胞列矩阵的步骤之前，还包括：

本实施例给出了在目标文档信息不符合文档元胞矩阵模型中的若干文档元胞矩阵的情况下，也就是工作人员输入目标文档类型信息后，在文档元胞矩阵模型中没有搜索到文档，则需要工作人员更换搜索的目标文档类型信息，如此循环，直到在文档元胞矩阵模型中搜索到目标文档元胞列矩阵。

在一些实施例中，如图3所示，所述基于各目标文档元胞矩阵对应的文档提取分数值，提取所述目标文档的步骤包括：

S141：对所述文档提取分数值由高到低的顺序排序。

S142：提取所述目标文档；所述目标文档为所述文档提取分数值排在第一位对应的文档。

通过如下关系式，获得文档提取分数值包括：

其中，

为文档数据单位信息在文档中存在的种类数，

为输入的目标文档数据单位信息的种类数，

为输入的目标文档名称信息，s表示文档提取分数值，

本实施例中，文档数据单位信息的权重值可以由工作人员根据实际情况自行取值，比如若工作人员判断相对文档名称信息通过文档数据单位信息更容易提取到目标文档，则可以将文档数据单位信息的权重值取得大些，文档数据单位信息的权重取值范围为0-1；当工作人员想要搜索（提取）对应的目标文档时，先用目标文档类型信息进行精确筛选，通过目标文档类型信息可以筛选出与目标文档类型信息匹配的若干目标文档元胞列矩阵，通过上述获得文档提取分数的关系式，可以为筛选出的目标文档元胞列矩阵进行打分，也就是筛选出的这些文档中每个文档都对应有一个文档提取分数值，文档提取分数值越高说明该目标文档元胞列矩阵越符合目标文档，因此将文档提取分数排在第一位对应的文档作为提取的目标文档，如此将在一定条件下（文档类型信息、文档名称信息和文档数据单位信息）筛选出的所有文档与目标文档的相似度均进行打分，因此可以对筛选出的文档进行数据化，从而可以更加直观、快速的提取到目标文档，进而可以减少工作人员的工作量，以及节省提取目标文档的时间，具有更高的实际应用价值。

在一些实施例中，如图4所示，在所述接收输入的目标文档信息的步骤之前还包括：

S20：提取若干文档的文档特征数据，其中，所述文档特征数据中包括文档数据单位信息和文档名称。

非结构化文档中存在大量带单位的数据，这些数据单位采用行业或企业标准，在企业业务实现中不会有太大改动，采用遍历文档的方式提取出这些文档特征数据。

S21：基于所述文档特征数据，构建所述文档元胞矩阵模型。

用提取出的文档特征数据建立文档元胞矩阵模型，文档元胞矩阵模型中每一个元素皆为一个带单位的标准数据，也就是包括文档数据单位信息和文档名称信息。

本实施例中，由于构建的文档元胞矩阵模型中包括文档数据单位信息和文档名称信息，因此在提取目标文档的时候，可以从文档数据单位信息和文档名称信息两个不同的维度进行搜索文档，由于文档数据单位信息和文档名称信息这两个维度对目标文档的提取更精准，而且输入的维度数不多，因此对提取目标文档的限制更少，计算机运行的速度自然会更高，从而可以更快速准确的提取到目标文档。

在一些实施例中，如图5所示，所述基于所述文档特征数据，构建文档元胞矩阵模型的步骤包括：

S211：基于所述文档数据单位信息，构建文档元胞组。

文档元胞组中每一个元素皆为一个带单位的标准数据。

S212：对所述文档名称进行拆分，以获得文档名称信息和文档类型信息。

将文档名称信息拆分为两个元素，一个元素为文档名称信息，另一个元素为文档类型信息（如报告、总结、表格等），即可获得文档名称信息和文档类型信息。

S213：根据所述文档名称信息和文档类型信息，构建名称元胞组。

S214：基于所述文档元胞组和所述名称元胞组，构建所述文档元胞矩阵模型。

本实施例中，可以先将所述文档元胞组和所述名称元胞组组合，以获得二维元胞矩阵，其中，所述二维元胞矩阵中包括所述文档数据单位信息、所述文档名称信息和所述文档类型信息间的映射关系，也就是每个文档都有相应的文档名称信息、文档类型信息和文档数据单位信息，而且同一个文档的文档名称信息、文档类型信息和文档数据单位信息是相互对应的，具有映射关系，比如某个文档名称信息对应有文档类型信息和文档数据单位信息，某个文档类型信息包括了相应的一个或多个文档名称信息，文档名称信息再对应有文档数据单位信息，某个文档数据单位信息对应有一个或多个文档名称，相应的文档名称再对应有文档类型；然后基于所述二维元胞矩阵，构建所述文档元胞矩阵模型因此构建出的文档元胞矩阵模型不仅包括了文档数据单位信息、文档名称信息和文档类型信息，还包括文档数据单位信息、文档名称信息和文档类型信息间的映射关系，如此更加便于提取出目标文档。

在另一实施例中，如图6所示，本申请还提供了一种非结构化文档提取装置，该装置包括：

需要说明的是，本实施例中非结构化文档提取装置中各模块是与前述实施例中的非结构化文档提取方法中的各步骤一一对应，因此，本实施例的具体实施方式和达到的技术效果可参照前述非结构化文档提取方法的实施方式，这里不再赘述。

此外，在一种实施例中，本申请还提供一种计算机设备，所述计算机设备包括处理器，存储器以及存储在所述存储器中的计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法。

此外，在一种实施例中，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器运行时实现前述实施例中方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文档系统中的文档，可以可被存储在保存其它程序或数据的文档的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文档中，或者，存储在多个协同文档（例如，存储一个或多个模块、子程序或代码部分的文档）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台多媒体终端设备(可以是手机，计算机，电视接收机，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。