CN115422125B

CN115422125B - 一种基于智能算法的电子文档自动归档方法与系统

Info

Publication number: CN115422125B
Application number: CN202211199213.2A
Authority: CN
Inventors: 王玲丽; 蔡利华; 郑望献; 周蕾; 楼新园; 陈平刚
Original assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Current assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-05-19
Anticipated expiration: 2042-09-29
Also published as: CN115422125A

Abstract

本发明提供一种基于智能算法的电子文档自动归档方法与系统，属于计算机技术领域，具体包括：基于图像分割算法对电子文档进行分割，获取电子文档的版面结构，确定电子文档的基础文档类型，并基于基础文档类型，构建关键词提取模型，对电子文档的关键词进行提取，并基于关键词对基础文档类型进行修正，确定电子文档的文档类型，并与文档数据库中的文档类型相同的历史电子文档的关键词进行匹配得到匹配结果；基于匹配结果进行重复文档的识别，当且仅当文档数据库中不存在重复文档时，基于电子文档的关键词对所述电子文档进行自动分档，从而进一步提升了电子文档自动归档的准确性以及效率。

Description

一种基于智能算法的电子文档自动归档方法与系统

技术领域

本发明属于计算机技术领域，具体涉及一种基于智能算法的电子文档自动归档方法与系统。

背景技术

在国内外各个国家，机关文件资料的存储管理都在逐渐实现信息化。自上世纪90年代以来，计算机技术与现代通讯技术的结合，使世界各国的档案工作正朝着数字化、网络化的方向发展。在档案的数字化管理和网络化利用方面，越来越多的国家先后着手推进档案信息化建设。

为了实现对电子文档的自动归档，在中国发明专利公告号CN112733658A《电子文档归档方法及其装置》中通过采用图像分割算法对待归档电子文档的版面进行分析，根据版面结构，对具有关键信息的区域再进行OCR识别，从而实现对电子文档的分类与归目，避免了大量OCR识别导致的资源占用和数据冗余，进一步提高电子文档归档的精度和效率，但是却具有以下技术问题：

1)没有对电子文档的重复性进行检查，从而使得重复性的进行文件的存储，造成了极大的存储空间的浪费，并且造成了不小的经济损失；

2)没有同时结合版本结构和关键字识别结果对电子文档进行自动归档，仅仅采用版面结构或者关键字识别结果进行归档，有很多的版面结构类似的文档其内容和分类差别很大，同时若不能根据电子文档的版面结构，基于特定的关键字提取模型对文字识别结果进行提取和解析，会导致不能准确的对文档的类型进行判断，从而使得分类结果较为混乱，不能满足合理有序的文档管理的需要。

基于上述技术问题，需要设计及一种基于智能算法的电子文档自动归档方法与系统。

发明内容

本发明的目的是提供一种基于智能算法的电子文档自动归档方法与系统。

为了解决上述技术问题，本发明第一方面提供了一种基于智能算法的电子文档自动归档方法，包括：

S100基于图像分割算法对电子文档进行分割，获取所述电子文档的版面结构；

S102基于所述电子文档的版面结构，确定所述电子文档的基础文档类型，并基于所述基础文档类型，构建关键词提取模型；

S104基于所述关键词提取模型，对所述电子文档的关键词进行提取，并基于所述关键词对所述基础文档类型进行修正，确定所述电子文档的文档类型，并与文档数据库中的文档类型相同的历史电子文档的关键词进行匹配得到匹配结果；

S106基于所述匹配结果进行重复文档的识别，当且仅当所述文档数据库中不存在重复文档时，基于所述电子文档的关键词对所述电子文档进行自动分档。

通过首先对电子文档的版面结构的识别，从而可以得到电子文档的基础文档类型，具体的可以通过映射模型或者机器学习算法实现对基础文档类型的识别和确定，在此基础上，基于基础文档类型，进行关键词提取模型的构建，对于不同的基础文档类型，需要提取的版面结构的区域不相同，同时采用的关键词提取模型也不相同，必须按照自身的基本文档类型进行关键词提取模型的构建，从而解决了原来没有同时结合版本结构和关键字识别结果对电子文档进行自动归档的技术问题，使得分档结果变得更加的准确，与此同时，通过提取得到的关键词，从而可以更加明确文档类型，对基础文档类型进行修正得到文档类型，再对相同文档类型的历史电子文档进行重复查询，在不存在重复时，再进行自动分档，从而解决了原来的没有考虑重复的技术问题，进一步提升了存储的利用率，提升了经济效益。

通过基于基本文档类型进行关键词提取模型的构建，从而使得对于关键词的提取更加准确，能够更加准确的对需要提取的版面结构的关键词的提取，同时结合基本文档类型，也使得对于关键词本身的提取结合基本文档类型领域的要求，提升了关键词提取的准确率和全面性，进一步保证了最终的自动分档结果的准确性。

通过对基本文档类型的修正，从而可以全面考虑关键词和版面结构两方面的因素，实现对文档类型的确认，在此基础上再进行文档的自动分档，提升了文档类型确认的可靠性，也使得自动分档的结果变得更加的准确。

通过对重复电子文档的查询，从而避免了重复的电子文档的存储，极大的节约了存储空间，同时也具有较好的经济效益，也兼顾了文档管理的有序性和可靠性。

进一步的技术方案在于，所述图像分割算法采用U-Net图像分割算法。

进一步的技术方案在于，确定所述电子文档的文档类型的具体步骤为：

S200提取所述电子文档的版面结构，建立基于版面结构与所述基本文档类型的映射关系；

S202基于所述电子文档的版面结构与所述映射关系得到所述电子文档的基础文档类型，并提取所述电子文档的关键词；

S204将所述电子文档的关键词送入到基于机器学习算法的预测模型中，得到疑似文档类型；

S206基于所述疑似文档类型与所述基础文档类型确认所述电子文档的文档类型。

进一步的技术方案在于，所述机器学习算法采用BP神经网络算法，所述BP神经网络算法的隐含层数量的计算公式为:

其中M、N分别为输入层和输出层节点数，K₁、K₂、a为常数，t₁、P₁分别根据模型对于时效的要求确定的权值以及根据误差的要求确定的权值，取值范围均在1到2之间，其中误差要求越大，P₁越大，时效要求越高，t₁越小。

通过基于模型对于时效的要求以及误差的要求对隐含层的数量进行确定，从而可以与实际的应用场合相结合，从而可以同时兼顾时效和误差的要求，进一步保证了模型的稳定性和效率。

进一步的技术方案在于，提取关键词的具体步骤为：

S300基于所述基本文档类型和版面结构，确定所述电子文档需要进行OCR识别的版面结构，并采用基于OCR识别算法对所述版面结构进行识别，得到文字识别结果；

S302采用基于TF-IDF算法对所述文字识别结果进行提取得到初始关键词；

S304基于所述基本文档类型，基于所述基本文档类型领域的专家算法对所述初始关键词进行二次筛选，并基于所述二次筛选结果提取得到关键词。

通过基于基本文档类型实现对版面结构的筛选以及对于关键词的二次筛选，提升了关键词提取的全面性和专业性，使得关键词提取的结果能够更加准确的反应实际的电子文档的具体情况。

进一步的技术方案在于，当所述初始关键词数量小于第一阈值时，则不再对所述初始关键词进行二次筛选，同时采用基于基本文档类型领域的专家算法对文字识别结果进行关键词提取得到叠加关键词，基于所述初始关键词与所述叠加关键词去重后提取得到关键词。

通过两者去重，从而使得得到的关键词数量能够维持在一定的数量之上，同样保证了在重复率识别时的准确性和筛选的有效性，提升了在电子文档重复率识别的效率。

进一步的技术方案在于，进行重复文档的识别的具体步骤为:

S400基于所述电子文档的页数，得到所述文档数据库中的文档类型相同且页数相同的历史疑似电子文档；

S401基于所述电子文档的字数，判断是否存在与所述电子文档的字数相同的历史疑似电子文档，若是，则将与所述电子文档的字数相同的历史疑似电子文档作为类似电子文档，并进入步骤S402，若否，则输出文档数据库中不存在重复文档；

S402基于所述电子文档的关键词，判断是否存在与所述电子文档的关键词的匹配度大于第一匹配阈值的类似电子文档，若是，则将所述匹配度大于第一匹配阈值的类似电子文档作为高度接近电子文档，并进入步骤S404,若否，则输出文档数据库中不存在重复文档；

S404对所述电子文档进行全文OCR识别得到识别结果，并基于所述识别结果与所述高度接近电子文档的文字进行匹配得到OCR全文匹配结果，并根据所述OCR全文匹配结果进行重复文档的识别。

通过首先基于页数、字数对电子文档进行重复性识别，在不进行较为复杂的匹配的基础上，首先将历史电子书文档的数量降低了不少，因此提升了重复文档识别的效率，再次基础上，再根据关键词识别的结果确定是否进行全文OCR识别，从而不仅使得重复性识别的过程具有较高的效率，也具有很好的准确性。

进一步的技术方案在于，所述第一匹配阈值的计算公式为：

其中K₃、K₄为常数，Y₁为基础的匹配阈值，I、S分别为根据所述电子文档的重要性确定的权值、类似电子文档的数量，其中电子文档的重要性越大，电子文档的重要性确定的权值越大，取值范围在1到2之间。

通过基于电子文档的重要性以及类似电子文档的数量，从而使得第一匹配阈值能够自适应的进行调节，从而极大的提升了重要文档的识别的准确性和可靠性。

进一步的技术方案在于，还包括题目名词关键词匹配，当且仅当高度接近电子文档的题目名词关键词与所述电子文档的题目名词关键词一致时，再进行全文OCR识别。

由于题目名词关键词往往是反应最为核心的东西，当不一致时，则文档必定不属于重复文档，因此进一步保证了重复性识别的效率。

另一方面，本发明提供了一种基于智能算法的电子文档自动归档系统，采用上述的电子文档自动归档方法，包括版面结构分割模块，关键词提取模块，文档类型确定模块，重复文档识别模块，自动分档模块；

其中所述版面结构分割模块负责基于图像分割算法对电子文档进行分割，获取电子文档的版面结构；

所述关键词提取模块负责对所述电子文档的关键词进行提取；

所述文档类型确定模块负责确定所述电子文档的文档类型；

所述重复文档识别模块负责进行重复文档的识别；

所述自动分档模块负责对所述电子文档进行自动分档。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1是根据实施例1的一种基于智能算法的电子文档自动归档方法的流程图；

图2是实施例1中的确定所述电子文档的文档类型的具体步骤的流程图；

图3是实施例1中的提取关键词的具体步骤的流程图；

图4是实施例1中的进行重复文档的识别的具体步骤的流程图；

图5是实施例2中的一种基于智能算法的电子文档自动归档系统的框架图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。

实施例1

为解决上述问题，根据本发明的一个方面，如图1所示，提供了一种基于智能算法的电子文档自动归档方法，包括：

具体的举个例子，版面结构包括版面的数量、先后顺序、版面的大小等。

具体的举个例子，基础文档类型可以为论文、公文文件、邮件等大类的版面结构。

具体的举个例子，例如关键词为关于、通知，说明是一种通知类的公文文件。

在另外一种可能的实施例中，所述图像分割算法采用U-Net图像分割算法。

在另外一种可能的实施例中，如图2所示，确定所述电子文档的文档类型的具体步骤为：

在另外一种可能的实施例中，所述机器学习算法采用BP神经网络算法，所述BP神经网络算法的隐含层数量的计算公式为:

在另外一种可能的实施例中，如图3所示，提取关键词的具体步骤为：

在另外一种可能的实施例中，当所述初始关键词数量小于第一阈值时，则不再对所述初始关键词进行二次筛选，同时采用基于基本文档类型领域的专家算法对文字识别结果进行关键词提取得到叠加关键词，基于所述初始关键词与所述叠加关键词去重后提取得到关键词。

在另外一种可能的实施例中，如图4所示，进行重复文档的识别的具体步骤为:

进一步的技术方案在于，所述第一匹配阈值的计算公式为：

在另外一种可能的实施例中，还包括题目名词关键词匹配，当且仅当高度接近电子文档的题目名词关键词与所述电子文档的题目名词关键词一致时，再进行全文OCR识别。

实施例2

如图5所示，本申请实施例中提供一种基于智能算法的电子文档自动归档系统，采用上述的电子文档自动归档方法，包括版面结构分割模块，关键词提取模块，文档类型确定模块，重复文档识别模块，自动分档模块；

所述文档类型确定模块负责确定所述电子文档的文档类型；

所述重复文档识别模块负责进行重复文档的识别；

所述自动分档模块负责对所述电子文档进行自动分档。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于智能算法的电子文档自动归档方法，其特征在于，具体包括：

S106基于所述匹配结果进行重复文档的识别，当且仅当所述文档数据库中不存在重复文档时，基于所述电子文档的关键词对所述电子文档进行自动分档；

确定所述电子文档的文档类型的具体步骤为:

S200 提取所述电子文档的版面结构，建立基于版面结构与所述基础文档类型的映射关系；

S202 基于所述电子文档的版面结构与所述映射关系得到所述电子文档的基础文档类型，并提取所述电子文档的关键词；

S204 将所述电子文档的关键词送入到基于机器学习算法的预测模型中得到疑似文档类型；

S206 基于所述疑似文档类型与所述基础文档类型确认所述电子文档的文档类型。

2.如权利要求 1所述的电子文档自动归档方法，其特征在于，所述图像分割算法采用U-Net 图像分割。

3.如权利要求1所述的电子文档自动归档方法，其特征在于，所述机器学习算法采用BP神经网络算法，所述BP神经网络算法的隐含层数量的计算公式为:

4.如权利要求1所述的电子文档自动归档方法，其特征在于，提取关键词的具体步骤为：

S300基于所述基础文档类型和版面结构，确定所述电子文档需要进行OCR识别的版面结构，并采用基于OCR识别算法对所述版面结构进行识别，得到文字识别结果；

S304基于所述基础文档类型，基于基础文档类型领域的专家算法对所述初始关键词进行二次筛选，并基于所述二次筛选结果提取得到关键词。

5.如权利要求4所述的电子文档自动归档方法，其特征在于，当所述初始关键词数量小于第一阈值时，则不再对所述初始关键词进行二次筛选，同时采用基于基本文档类型领域的专家算法对文字识别结果进行关键词提取得到叠加关键词，基于所述初始关键词与所述叠加关键词去重后提取得到关键词。

6.如权利要求1所述的电子文档自动归档方法，其特征在于，进行重复文档的识别的具体步骤为:

7.如权利要求6所述的电子文档自动归档方法，其特征在于，所述第一匹配阈值的计算公式为：

8.如权利要求1所述的电子文档自动归档方法，其特征在于，还包括题目名词关键词匹配，当且仅当高度接近电子文档的题目名词关键词与所述电子文档的题目名词关键词一致时，再进行全文OCR识别。

9.一种基于智能算法的电子文档自动归档系统，采用权利要求1-8任意一项所述的电子文档自动归档方法，包括版面结构分割模块，关键词提取模块，文档类型确定模块，重复文档识别模块，自动分档模块；

所述文档类型确定模块负责确定所述电子文档的文档类型；

所述重复文档识别模块负责进行重复文档的识别；

所述自动分档模块负责对所述电子文档进行自动分档。