CN117408652A

CN117408652A - 一种档案数据分析管理方法及系统

Info

Publication number: CN117408652A
Application number: CN202311728608.1A
Authority: CN
Inventors: 谭志勇; 陈家祺; 陈鹏; 胡敏; 章艳; 姜珍云
Original assignee: Jiangxi Transportation Technology Co ltd
Current assignee: Jiangxi Transportation Technology Co ltd
Priority date: 2023-12-15
Filing date: 2023-12-15
Publication date: 2024-01-16

Abstract

本发明公开了一种档案数据分析管理方法及系统，具体涉及大数据技术领域，对获取到的档案进行处理，并将经所述处理后得到的档案数据存储在共享数据池中，通过统计每个词在档案中出现的频率，得到词频，通过在获取到的档案中统计包含词的档案数，得到逆文档频率，将词频和逆文档频率相乘得到的值作为每个词的权重，选择权重高的词作为关键词进行提取，将确定出的关键词对应的权重值，作为支持向量机的输入，分类标签作为监督学习的训练数据，训练出一个档案分类模型，选择具有最高权重值的关键词与共享数据池中的每个档案相关联，以监听用户的输入信号，根据用户的输入信号，判断用户是否需要查看某个档案。

Description

一种档案数据分析管理方法及系统

技术领域

本发明涉及大数据技术领域，更具体地说，本发明涉及一种档案数据分析管理方法及系统。

背景技术

随着信息技术的发展和应用，各行各业积累了大量的档案数据。档案数据作为组织和机构的重要资产，对于决策、管理和保护具有重要意义。然而，传统的档案管理方法往往存在信息碎片化、数据冗余、难以查询和利用等问题。因此，研究开发一种高效的档案数据分析管理方法及系统已成为迫切需求。

通过结合数据分析和管理技术，实现对档案数据的全面分析、智能化管理和有效利用，提高档案工作效率和服务质量。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种档案数据分析管理方法及系统，通过结合数据分析和管理技术，实现对档案数据的全面分析、智能化管理和有效利用，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案，一种档案数据分析管理方法，具体包括以下步骤：

对获取到的档案进行处理，并将经所述处理后得到的档案数据存储在共享数据池中；

对档案数据进行关键词提取，通过统计每个词在档案中出现的频率，得到词频，通过在获取到的档案中统计包含词的档案数，得到逆文档频率，将词频和逆文档频率相乘得到的值作为每个词的权重，选择权重高的词作为关键词进行提取；

将确定出的关键词对应的权重值，作为支持向量机的输入，分类标签作为监督学习的训练数据，训练出一个档案分类模型；

选择具有最高权重值的关键词与共享数据池中的每个档案相关联，以监听用户的输入信号，根据用户的输入信号，判断用户是否需要查看某个档案，对于不同的用户，设定查看档案权限；

其中所述通过统计每个词在档案中出现的频率，得到词频的步骤，包括使用哈希表来记录每个词的频次，统计每个词在档案中出现的频率，创建一个空的哈希表，用于记录每个词的频次，遍历档案中的每个词，对于每个词，检查是否已经在哈希表中出现过，当已经在哈希表中出现过，将对应的频次加一，否则将该词添加到哈希表，并将频次初始化为1，遍历完成后，哈希表中存储了每个词的频次信息，词频计算公式如下：

；其中，/>表示词频，/>表示词t在档案d中出现的次数，d表示档案，N表示档案d中所有词的总数。

在一个优选地实施方式中，所述对获取到的档案进行处理，并将经所述处理后得到的档案数据存储在共享数据池中的步骤，包括通过光学字符识别技术将电子档案中的文字内容进行提取，得到档案，利用文本清洗技术对获取到的档案进行处理，并将处理后的档案数据存储在共享数据池中，具体步骤如下：

步骤A1、对于纸质档案：通过扫描仪将档案转换成电子文件，利用光学字符识别技术将电子文件中的文字内容提取出来；

步骤A2、对于电子档案：当电子档案存储在第三方平台上，通过与平台的接口进行数据集成；

步骤A3、清洗：去除档案文字内容中的特殊符号和标点符号，以及空格、制表符和换行符，并将字母统一转换成小写形式，针对存在的拼写错误，使用拼写检查工具对文字内容进行检查和修正，确保档案中的单词拼写正确。

在一个优选地实施方式中，所述对档案数据进行关键词提取，通过统计每个词在档案中出现的频率，得到词频，通过在获取到的档案中统计包含词的档案数，得到逆文档频率，将词频和逆文档频率相乘得到的值作为每个词的权重，选择权重高的词作为关键词进行提取的步骤，包括使用哈希表来记录每个词的频次，统计每个词在档案中出现的频率，在获取到的档案中统计包含词的档案数，计算出逆文档频率，将词频和逆文档频率相乘得到每个词的值，将每个词的/>值作为每个词的权重，对计算得到的/>进行排序，选择权重高的词作为关键词进行提取，具体步骤如下：

步骤B1、词频统计：使用哈希表来记录每个词的频次，统计每个词在档案中出现的频率，创建一个空的哈希表，用于记录每个词的频次，遍历档案中的每个词，对于每个词，检查是否已经在哈希表中出现过，当已经在哈希表中出现过，将对应的频次加一，否则将该词添加到哈希表，并将频次初始化为1，遍历完成后，哈希表中存储了每个词的频次信息，词频计算公式如下：

，

其中，表示词频，/>表示词t在档案d中出现的次数，d表示档案，N表示档案d中所有词的总数；

步骤B2、在获取到的档案中统计包含词的档案数，计算出逆文档频率，将词频和逆文档频率相乘得到每个词的值，将每个词的/>值作为每个词的权重，对计算得到的/>进行排序，选择权重高的词作为关键词，具体计算公式如下：

，

其中，表示词频，/>表示逆文档频率，/>表示词频和逆文档频率相乘得到的值，/>表示词t在档案d中出现的次数，t表示词，d表示档案，N表示档案d中所有词的总数，D表示所有档案的总数，/>表示包含词t的档案数。

在一个优选地实施方式中，所述将确定出的关键词对应的权重值，作为支持向量机的输入，分类标签作为监督学习的训练数据，训练出一个档案分类模型的步骤，包括：

步骤C1、档案分类模型：将得到的权重作为支持向量机的输入进行分类，对于训练集/>，其中/>表示第n个档案的/>权重，/>表示第n个档案的类别标签，使用支持向量机分类器的数学公式进行分类，在最大化分类间隔的同时，减小分类误差和间隔误差支持向量机将找到一个最佳的超平面，使得所有样本点到这个超平面的距离最大化，实现对样本的有效分类，具体计算公式如下：

，

其中，w是模型的权重向量，b是模型的偏置，表示第i个档案的/>权重，/>表示第i个档案的类别标签，/>是松弛变量，C是惩罚参数，/>表示最小化函数，/>表示约束条件。

在一个优选地实施方式中，所述选择具有最高权重值的关键词与共享数据池中的每个档案相关联，以监听用户的输入信号，根据用户的输入信号，判断用户是否需要查看某个档案，对于不同的用户，设定查看档案权限的步骤，包括，设定一个阈值，表示只有当关键词权重加权平均值高于该阈值，特定权限级别的用户才能够查看档案，具体步骤如下：

步骤D1、关联关键词权重：将每个档案与一组关键词相关联，对于n个关键词，每个关键词的值分别用/>进行表示，对应的出现次数用/>表示，每个用户有一个权限级别L，表示其在组织结构中的级别，通过计算得到加权平均值，代表关键词权重的整体平均水平，具体计算公式如下：

，

其中，表示关键词权重加权平均值，/>代表第i个关键词的权重，/>代表第i个关键词的出现次数，n代表关键词的总数；

步骤D2、设定阈值：通过对一组关键词权重的样本数据，计算均值和标准差，根据正态分布曲线来设定一个阈值W，表示只有当关键词权重加权平均值高于该阈值，特定权限级别的用户才能够查看档案，具体包括以下步骤：

步骤S1、根据一组关键词权重的样本数据，计算均值和标准差，具体计算公式如下：

，

其中，表示平均关键词权重，/>表示关键词权重标准差，/>表示每个关键词的权重，n表示关键词的总数；

步骤S2、关键词权重阈值公式如下：

，

其中，表示平均关键词权重，/>表示关键词权重标准差，/>表示关键词权重上限阈值，/>表示关键词权重下限阈值；

步骤S3、确定是否允许用户查看某个档案，使用以下逻辑判断：

其中，L表示每个用户有一个权限级别，表示每个关键词的权重，函数满足以下条件：

当L表示的权限级别为领导级别，关键词权重加权平均值大于阈值W，允许查看；

当L不是领导级别，无论关键词权重如何，均不允许查看。

本申请还提供了一种档案数据分析管理系统，包括：

档案获取模块：对获取到的档案进行处理，并将经所述处理后得到的档案数据存储在共享数据池中；

关键词提取模块：对档案数据进行关键词提取，通过统计每个词在档案中出现的频率，得到词频，通过在获取到的档案中统计包含词的档案数，得到逆文档频率，将词频和逆文档频率相乘得到的值作为每个词的权重，选择权重高的词作为关键词进行提取；

分类处理模块：将确定出的关键词对应的权重值，作为支持向量机的输入，分类标签作为监督学习的训练数据，训练出一个档案分类模型；

查看档案权限模块：选择具有最高权重值的关键词与共享数据池中的每个档案相关联，以监听用户的输入信号，根据用户的输入信号，判断用户是否需要查看某个档案，对于不同的用户，设定查看档案权限；

本发明的有益效果是：对获取到的档案进行处理，并将经所述处理后得到的档案数据存储在共享数据池中，通过统计每个词在档案中出现的频率，得到词频，通过在获取到的档案中统计包含词的档案数，得到逆文档频率，将词频和逆文档频率相乘得到的值作为每个词的权重，选择权重高的词作为关键词进行提取，将确定出的关键词对应的权重值，作为支持向量机的输入，分类标签作为监督学习的训练数据，训练出一个档案分类模型，选择具有最高权重值的关键词与共享数据池中的每个档案相关联，以监听用户的输入信号，根据用户的输入信号，判断用户是否需要查看某个档案，对于不同的用户，设定查看档案权限，防止未经授权的访问，确保数据的安全性和完整性。

附图说明

图1为本发明的方法流程图；

图2为本发明的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请的描述中，术语“例如”一词用来表示“用作例子、例证或说明”。本申请中被描述为“例如”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本发明，给出了以下描述。在以下描述中，为了解释的目的而列出了细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本发明。在其它实例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本发明的描述变得晦涩。因此，本发明并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

本实施例提供了如图1和图2所示一种档案数据分析方法和管理系统，具体包括档案获取模块、关键词提取模块、分类处理模块，以及查看档案权限模块；

本实施例中，具体需要说明的是档案获取模块，所述档案获取模块，通过光学字符识别技术将电子档案中的文字内容进行提取，得到档案，利用文本清洗技术对获取到的档案进行处理，并将处理后的档案数据存储在共享数据池中，具体步骤如下：

本实施例中，具体需要说明的是关键词提取模块，所述关键词提取模块，对档案数据进行关键词提取，使用哈希表来记录每个词的频次，统计每个词在档案中出现的频率，在获取到的档案中统计包含词的档案数，计算出逆文档频率，将词频和逆文档频率相乘得到每个词的值，将每个词的/>值作为每个词的权重，对计算得到的/>进行排序，选择权重高的词作为关键词进行提取，具体步骤如下：

，

；其中，/>表示词频，/>表示逆文档频率，/>表示词频和逆文档频率相乘得到的值，/>表示词t在档案d中出现的次数，t表示词，d表示档案，N表示档案d中所有词的总数，D表示所有档案的总数，/>表示包含词t的档案数。

本实施例中，具体需要说明的是分类处理模块，所述分类处理模块，将确定出的关键词对应的权重值，作为支持向量机的输入，分类标签作为监督学习的训练数据，训练出一个档案分类模型，具体步骤如下：

，

本实施例中，具体需要说明的是查看档案权限模块，所述查看档案权限模块，选择具有最高值的关键词作为权重最大的关键词与共享数据池中的每个档案相关联，设定一个阈值，表示只有当关键词权重加权平均值高于该阈值，特定权限级别的用户才能够查看档案，具体步骤如下：

，

步骤S2、关键词权重阈值公式如下：

，

当L不是领导级别，无论关键词权重如何，均不允许查看。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种档案数据分析管理方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种档案数据分析管理方法，其特征在于：所述对获取到的档案进行处理，并将经所述处理后得到的档案数据存储在共享数据池中，包括通过光学字符识别技术将电子档案中的文字内容进行提取，得到档案，利用文本清洗技术对获取到的档案进行处理，并存储在共享数据池中。

3.根据权利要求2所述的一种档案数据分析管理方法，其特征在于：所述对档案数据进行关键词提取的步骤，包括统计包含词的档案数，计算出逆文档频率，将词频和逆文档频率相乘得到每个词的值，作为每个词的权重，对计算得到的/>进行排序，选择权重高的词作为关键词进行提取，具体计算公式如下：

，

4.根据权利要求3所述的一种档案数据分析管理方法，其特征在于：所述将确定出的关键词对应的权重值，作为支持向量机的输入，分类标签作为监督学习的训练数据，训练出一个档案分类模型的步骤，包括：

步骤C1、档案分类模型：将得到的权重作为支持向量机的输入进行分类，对于训练集/>，其中/>表示第n个档案的/>权重，/>表示第n个档案的类别标签，使用支持向量机分类器的数学公式进行分类，在最大化分类间隔的同时，减小分类误差和间隔误差支持向量机将找到一个最佳的超平面，使得所有样本点到这个超平面的距离最大化，具体计算公式如下：

，

5.根据权利要求4所述的一种档案数据分析管理方法，其特征在于：所述选择具有最高权重值的关键词与共享数据池中的每个档案相关联的步骤，包括将每个档案与一组关键词相关联，通过设定一个阈值，表示只有当关键词权重加权平均值高于该阈值，特定权限级别的用户才能够查看档案，对于n个关键词，每个关键词的值分别用/>进行表示，对应的出现次数用/>表示，每个用户有一个权限级别L，表示其在组织结构中的级别，通过计算得到加权平均值，代表关键词权重的整体平均水平，具体计算公式如下：

，

其中，表示关键词权重加权平均值，/>代表第i个关键词的权重，/>代表第i个关键词的出现次数，n代表关键词的总数。

6.根据权利要求5所述的一种档案数据分析管理方法，其特征在于：所述通过设定一个阈值，表示只有当关键词权重加权平均值高于该阈值，特定权限级别的用户才能够查看档案，通过对一组关键词权重的样本数据，计算均值和标准差，根据正态分布曲线来设定一个阈值W，具体包括以下步骤：

，

步骤S2、关键词权重阈值公式如下：

，

其中，表示平均关键词权重，/>表示关键词权重标准差，/>表示关键词权重上限阈值，/>表示关键词权重下限阈值。

7.根据权利要求6所述的一种档案数据分析管理方法，其特征在于：所述特定权限级别的用户才能够查看档案的步骤，包括确定是否允许用户查看某个档案，使用以下逻辑判断：

，

当L不是领导级别，无论关键词权重如何，均不允许查看。

8.一种档案数据分析管理系统，其特征在于，包括：