CN115391577B

CN115391577B - 一种基于机器学习算法的电子档案管理方法与系统

Info

Publication number: CN115391577B
Application number: CN202211199789.9A
Authority: CN
Inventors: 梁尔真; 蔡利华; 朱志辉; 夏磊; 袁学群; 留巍
Original assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Current assignee: Zhejiang Xinghan Information Technology Ltd By Share Ltd
Priority date: 2022-09-29
Filing date: 2022-09-29
Publication date: 2023-06-23
Anticipated expiration: 2042-09-29
Also published as: CN115391577A

Abstract

本发明提供一种基于机器学习算法的电子档案管理方法与系统，属于人工智能技术领域，具体包括：得到存档领域一致的一致文本文件、一致视频文件、一致图片文件；基于存档说明，确定一致文本文件的关键词、一致视频文件的关键词、一致图片文件的关键词；基于机器学习算法构建文本相似度评价模型，采用关键词，确定一致文本文件与一致视频文件之间的文件相似度且当大于一定阈值时，将一致文本文件、一致视频文件作为类似文本文件、类似视频文件；确定文本文件与一致图片文件的图片相似度且当大于一定阈值时，将一致图片文件作为类似图片文件；将类似图片文件、类似文本文件、类似视频文件进行统一归档存储，从而进一步提升了电子档案利用的效率。

Description

一种基于机器学习算法的电子档案管理方法与系统

技术领域

本发明属于人工智能技术领域，具体涉及一种基于机器学习算法的电子档案管理方法与系统。

背景技术

随着信息技术的发展，办公自动化和各类业务管理软件的普遍运用，档案管理对象也从单一的纸质文件转变为以电子档案为主，管理工作从后端延伸到前端。虽然电子档案管理实践一直在适应信息技术的发展而不断改进，但传统档案管理方式的影响仍然深远。

目前在进行档案管理时，往往将不同类型的电子档案文件，例如视频、图片、文本文件，通常放置于不同的档案库中，在进行档案的提取和查阅时，需要耗费大量的时间，因此降低了档案提取效率，并且也没有构建不同类型的电子档案文件之间的相似度模型，根据相似度模型的评价结果，将不同类型的电子档案文件，例如视频、图片、文本文件进行相似度评价，并根据评价结果将相似度较大的电子档案文件放置于一处，提升档案提取和查阅的效率。

基于上述技术问题，需要设计一种基于机器学习算法的电子档案管理方法与系统。

发明内容

本发明的目的是提供一种基于机器学习算法的电子档案管理方法与系统。

为了解决上述技术问题，本发明第一方面提供了一种基于机器学习算法的电子档案管理方法，其特征在于，具体包括：

S11基于文本文件的存档领域，基于视频文件的存档领域，基于图片文件的存档领域，得到存档领域一致的一致文本文件、一致视频文件、一致图片文件；

S12、基于所述一致文本文件的存档说明，确定所述一致文本文件的关键词，基于所述视频文件的存档说明，确定所述一致视频文件的关键词，基于所述图片文件的存档说明，确定所述一致图片文件的关键词；

S13基于机器学习算法构建文本相似度评价模型，采用所述一致文本文件的关键词、所述一致视频文件的关键词，确定所述一致文本文件与所述一致视频文件之间的文件相似度，当所述文件相似度大于第一相似度阈值时，将所述一致文本文件、一致视频文件作为类似文本文件、类似视频文件；

S14基于所述文本相似度评价模型，采用类似文本文件的关键词、一致图片文件的关键词，确定所述类似文本文件与所述一致图片文件的图片相似度，当所述图片相似度大于第一相似度阈值时，将所述一致图片文件作为类似图片文件；

S15将所述类似图片文件、类似文本文件、类似视频文件进行统一归档存储。

首先通过存档领域筛选得到领域一致的一致文本文件、一致视频文件、一致图片文件，并对上述一致的文件的存档说明的关键词进行提取，紧接着首先通过关键词，首先确定所述一致文本文件与所述一致视频文件之间的文件相似度，并当文件相似度大于第一相似度阈值时，将所述一致文本文件、一致视频文件作为类似文本文件、类似视频文件，然后根据类似文本文件以及一致图片文件的图片相似度，当所述图片相似度大于第一相似度阈值时，将所述一致图片文件作为类似图片文件，并将所述类似图片文件、类似文本文件、类似视频文件进行统一归档存储，从而解决了原来没有对不同类型的电子档案文件之间的相似度模型，根据相似度模型的评价结果，将不同类型的电子档案文件，例如视频、图片、文本文件进行相似度评价的技术问题以及原来没有将不同类型的电子档案文件统一归档存储的技术问题，提高了不同的文件之间的相似度评价准确性，也大大提升了电子档案文件提取的便捷性。

通过对不同类型的电子档案文件进行相似度评价，从而使得不同的电子档案文件的相似度评价结果进一步精确，同时也为不同的电子档案文件统一归档存储垫定了基础，也提高了不同类型的电子档案文件的相似度评价的效率。

通过将不同类型的电子档案文件进行统一归档存储，从而促进了不同类型的档案的提取和挖掘效率，提升了电子档案的利用率，也使得电子档案的提取人员的工作量得到进一步的降低。

进一步的技术方案在于，提取所述一致文本文件的关键词的具体步骤为：

S21基于TF-IDF算法对所述一致文本文件的题目进行关键词提取，得到所述一致文本文件的基础关键词；

S22基于所述一致文本文件的存档领域，采用关键词过滤模型，对所述基础关键词进行过滤，得到过滤关键词；

S23基于所述过滤关键词得到所述一致文本文件的关键词。

通过关键词过滤模型的设置，从而防止有过期或者不规范的关键词被提取到，从而极大的影响最终的相似度评价的准确性的技术问题的出现，并促进了相似度评价的效率得到进一步的提升。

进一步的技术方案在于，所述关键词过滤模型采用专家打分的方式确定，对于停用词进行过滤处理。

进一步的技术方案在于，确定一致文本文件与一致视频文件之间的文件相似度的具体步骤为：

S31基于所述一致文本文件的存档领域，构建关键词数据库，基于所述一致文本文件的关键词与所述关键词数据库的匹配结果，得到匹配关键词，对所述匹配关键词进行加权处理，得到匹配关键词的权值；

S32基于所述匹配关键词与所述一致视频文件的关键词进行匹配得到匹配结果，判断所述匹配结果是否存在匹配成功结果，若是，将匹配成功的匹配关键词作为匹配成功关键词，则进入步骤S33,若否，则确定一致文本文件与一致视频文件之间的相似度为零；

S33对除匹配关键词外的其它过滤关键词进行匹配，并将匹配成功的其它过滤关键词作为基础成功关键词；

S34基于所述匹配成功关键词以及其权值，基础成功关键词得到所述一致文本文件与一致视频文件之间的文件相似度。

通过首先构建匹配关键词，对匹配关键词首先进行匹配，从而极大的降低了匹配的难度，提升了匹配的效率，由于当匹配关键词没有类似的，则说明一致文本文件与一致视频文件相差巨大，从而极大的提升了评价的效率，也使得相似度评价的结果能够更加依靠关键的匹配关键词，从而使得相似度的评价结果变得更加的准确。

进一步的技术方案在于，所述匹配关键词的权值根据所述一致文本文件的存档领域的重要程度、关键词的重要程度，采用基于机器学习算法的预测模型得到。

进一步的技术方案在于，所述文件相似度的计算公式为：

其中c_i为第i个匹配成功关键词的权值，取值范围为大于1，K₁、K₂、K₃为常数，m、n分别为基础成功关键词的数量、匹配成功关键词的数量；

进一步的技术方案在于，第一相似度阈值根据所述一致文本文件的数量、一致视频文件的数量、一致图片文件的数量的最小值，存档领域的重要程度确定。

进一步的技术方案在于，还需要对所述类似图片文件与所述类似视频文件的视频相似度进行确定。

进一步的技术方案在于，当且仅当根据所述视频相似度、图片相似度、文件相似度构建得到综合相似度大于第二相似度阈值时，才将所述类似图片文件、类似文本文件、类似视频文件进行统一归档存储，其中所述综合相似度的计算公式为：

其中K₃、K₄为常数，P₁、P₂、P₃分别为文件相似度、视频相似度、图片相似度。

另一方面，本发明提供了一种基于机器学习算法的电子档案管理系统，采用上述的基于机器学习算法的电子档案管理方法，包括存档领域评价模块，相似度评价模块，存档处理模块；

其中所述存档领域评价模块负责得到存档领域一致的一致文本文件、一致视频文件、一致图片文件；

所述相似度评价模块负责对所述一致文本文件、一致视频文件、一致图片文件进行相似度评价；

所述存档处理模块负责将所述类似图片文件、类似文本文件、类似视频文件进行统一归档存储。

其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。

图1是根据实施例1的一种基于机器学习算法的电子档案管理方法的流程图；

图2是实施例1中的确定一致文本文件与一致视频文件之间的文件相似度的具体步骤的流程图；

图3是实施例2中的一种基于机器学习算法的电子档案管理系统的框架图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。

实施例1

为解决上述问题，根据本发明的一个方面，如图1所示，提供了一种基于机器学习算法的电子档案管理方法，其特征在于，具体包括：

具体举个例子，当存档领域均为通知电子档案，则得到存档领域一致的一致文本文件、一致视频文件、一致图片文件。

具体的举个例子，可以采用常见的关键词提取算法进行关键词的提取。

具体的举个例子，若文本相似度为2，第一相似度阈值为1，则将所述一致文本文件、一致视频文件作为类似文本文件、类似视频文件。

在另外一种可能的实施例中，提取所述一致文本文件的关键词的具体步骤为：

S23基于所述过滤关键词得到所述一致文本文件的关键词。

在另外一种可能的实施例中，所述关键词过滤模型采用专家打分的方式确定，对于停用词进行过滤处理。

在另外一种可能的实施例中，如图2所示，确定一致文本文件与一致视频文件之间的文件相似度的具体步骤为：

在另外一种可能的实施例中，所述匹配关键词的权值根据所述一致文本文件的存档领域的重要程度、关键词的重要程度，采用基于机器学习算法的预测模型得到。

在另外一种可能的实施例中，所述文件相似度的计算公式为：

在另外一种可能的实施例中，第一相似度阈值根据所述一致文本文件的数量、一致视频文件的数量、一致图片文件的数量的最小值，存档领域的重要程度确定。

在另外一种可能的实施例中，还需要对所述类似图片文件与所述类似视频文件的视频相似度进行确定。

在另外一种可能的实施例中，当且仅当根据所述视频相似度、图片相似度、文件相似度构建得到综合相似度大于第二相似度阈值时，才将所述类似图片文件、类似文本文件、类似视频文件进行统一归档存储，其中所述综合相似度的计算公式为：

实施例2

如图3所示，本申请实施例中提供一种基于机器学习算法的电子档案管理系统，采用上述的基于机器学习算法的电子档案管理方法，包括存档领域评价模块，相似度评价模块，存档处理模块；

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

Claims

1.一种基于机器学习算法的电子档案管理方法，其特征在于，具体包括：

2.如权利要求1所述的电子档案管理方法，其特征在于，提取所述一致文本文件的关键词的具体步骤为：

S23 基于所述过滤关键词得到所述一致文本文件的关键词。

3.如权利要求2所述的电子档案管理方法，其特征在于，所述关键词过滤模型采用专家打分的方式确定，对于停用词进行过滤处理。

4.如权利要求1所述的电子档案管理方法，其特征在于，确定一致文本文件与一致视频文件之间的文件相似度的具体步骤为：

S34基于所述匹配成功关键词、所述匹配成功关键词的权值、基础成功关键词得到所述一致文本文件与一致视频文件之间的文件相似度。

5.如权利要求4所述的电子档案管理方法，其特征在于，所述匹配关键词的权值根据所述一致文本文件的存档领域的重要程度、关键词的重要程度，采用基于机器学习算法的预测模型得到。

6.如权利要求4所述的电子档案管理方法，其特征在于，所述文件相似度的计算公式为：

其中c_i为第i个匹配成功关键词的权值，取值范围为大于1，K₁、K₂、K₃为常数，m、n分别为基础成功关键词的数量、匹配成功关键词的数量。

7.如权利要求1所述的电子档案管理方法，其特征在于，第一相似度阈值根据所述一致文本文件的数量、一致视频文件的数量、一致图片文件的数量的最小值和所述存档领域的重要程度确定。

8.如权利要求1所述的电子档案管理方法，其特征在于，还需要对所述类似图片文件与所述类似视频文件的视频相似度进行确定。

9.如权利要求8所述的电子档案管理方法，其特征在于，当且仅当根据所述视频相似度、图片相似度、文件相似度构建得到综合相似度大于第二相似度阈值时，才将所述类似图片文件、类似文本文件、类似视频文件进行统一归档存储，其中所述综合相似度的计算公式为：

10.一种基于机器学习算法的电子档案管理系统，采用权利要求1-9任意一项所述的基于机器学习算法的电子档案管理方法，包括存档领域评价模块，相似度评价模块，存档处理模块；