CN115409466A

CN115409466A - 基于大数据的数据采集管理系统

Info

Publication number: CN115409466A
Application number: CN202210916533.9A
Authority: CN
Inventors: 贾志亮
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-11-29

Abstract

本发明公开了基于大数据的数据采集管理系统，包括数据信息采集模块、数据处理分析模块和数据安全管理模块，所述数据信息采集模块用于采集企业的档案信息，所述数据处理分析模块用于对采集到的档案数据进行处理分析，所述数据安全管理模块用于对档案信息进行安全管理，所述数据处理分析模块与数据信息采集模块网络连接，所述数据安全管理模块与数据处理分析模块网络连接，数据信息采集模块包括档案存储数据库、档案录入模块、信息提取模块和词义消歧模块，数据处理分析模块包括识别校正模块、信息动态修改模块和涉密等级分类模块，本发明，具有提高数据录入效率和数据安全管理的特点。

Description

基于大数据的数据采集管理系统

技术领域

本发明涉及大数据技术领域，具体为基于大数据的数据采集管理系统。

背景技术

如今，大数据技术发展势头迅猛，在很多领域都产生了重大影响。其先进的技术理念，以及对海量数据的高效存储和计算能力，可提高行业生产力，帮助人们了解事务发展的客观规律，有助于科学决策，使相关领域拥有更好的发展前景。

在大数据时代下，如何更好地储存数据，挖掘更多有用的数据，为市场提供必要的需求，是企业档案管理工作开展中所面临的挑战，随着市场经济体制的逐步建立和不断完善，企业为了在竞争中取胜，以体制、机制、机构的变革，应对市场的风云变幻，在这个过程中，由于档案意识还很薄弱，企业注重的是直观的经济效益，看重的是与生产经营直接相关的部门或机构的工作，而忽略了文件收集、利用、归档工作，伴随变改中的人员流动，出现的是文件资料、技术资料流失的现象。目前大部分企业通常采用的是人工录入的方式，经常出现错录、漏录现象；各部门对信息系统的维护与升级能力相对较弱，导致系统建设不够完善，缺乏严谨的管理流程和信息安全防御能力，将降低企业档案管理工作效率，并产生档案信息安全风险。因此，设计提高数据录入效率和数据安全管理的基于大数据的数据采集管理系统是很有必要的。

发明内容

本发明的目的在于提供基于大数据的数据采集管理系统，以解决上述背景技术中提出的问题。

为了解决上述技术问题，本发明提供如下技术方案：基于大数据的数据采集管理系统，包括数据信息采集模块、数据处理分析模块和数据安全管理模块，所述数据信息采集模块用于采集企业档案信息，所述数据处理分析模块用于对采集到的档案数据进行处理分析，所述数据安全管理模块用于对档案信息进行安全管理，所述数据处理分析模块与数据信息采集模块网络连接，所述数据安全管理模块与数据处理分析模块网络连接。

根据上述技术方案，所述数据信息采集模块包括档案存储数据库、档案录入模块、信息提取模块和词义消歧模块，所述档案存储数据库用于存储企业档案信息，所述档案录入模块用于录入企业各部门人员档案信息，所述信息提取模块用于对录入的所有档案信息进行有效信息提取，所述词义消歧模块用于对部分词义存在歧义的信息进行消歧处理。

根据上述技术方案，所述数据处理分析模块包括识别校正模块、信息动态修改模块和涉密等级分类模块，所述识别校正模块用于在对数据信息进行识别的过程中，将错误信息自动校正，所述信息动态修改模块用于利用动态方式对各部门人员信息内容进行增减，所述涉密等级分类模块用于对涉密档案信息等级进行分类。

根据上述技术方案，所述数据安全管理模块包括权限设置模块、涉密变化模块和分级管理模块，所述权限设置模块用于对档案信息的查询修改调用进行权限设置，所述涉密变化模块用于根据档案信息涉密程度的变化实时变化其涉密等级，所述分级管理模块用于对系统进行分级管理，所述权限设置模块与涉密等级分类模块网络连接，所述分级管理模块与权限设置模块网络连接。

根据上述技术方案，所述数据信息采集模块的运行方法主要包括以下步骤：

步骤S1：建立档案存储数据库，将企业各部门人员档案信息存储至数据库中，所述信息包括部门人员身份信息、学历信息、职称评定信息、职务任免信息、奖惩信息以及部分工作内容、职位调动记录；

步骤S2：企业单位部门对各部门人员信息进行收集整理，递交至企业档案管理部门，进行档案录入；

步骤S3：对收集到的各部门人员信息进行筛选提取，录入档案模板内所需的有用信息；

步骤S4：对于信息提取过程中出现的职位地区信息简写，产生易产生歧义的指向性不明确的信息，通过就近匹配原则进行词义消歧；

步骤S5：在数据信息处理完毕后，档案部门工作人员对可存档的档案信息，根据信息内容对企业的影响程度进行数据信息的风险值评估，同时对档案数据信息中存在的需要保密处理的信息进行标记处理。

根据上述技术方案，所述数据处理分析模块的运行方法主要包括以下步骤：

步骤A1：对收集到的各纸质、电子档案或图片档案信息进行OCR识别，对识别转换后的数据，通过构建冲突词典，针对固定格式区的每个文本域，对出现错误的文本域使用冲突词典，对识别结果进行校正；

步骤A2：将部门人员档案目录作为链接路径，利用动态方式对个人信息内容进行增减，在系统中自动生成部门人员的相关信息；

步骤A3：根据各类数据的涉密程度对档案数据进行涉密等级分类。

根据上述技术方案，所述步骤A3进一步包括一下步骤：

步骤A31：数据处理分析模块获取各部门人员档案数据信息，根据信息内容对涉密档案数据信息进行涉密度的计算，判断数据信息是否涉密，可将其分为涉密档案与非涉密档案，再根据计算结果对其进行等级划分；

步骤A32：具体计算公式为：

式中，C为涉密数据信息的涉密度，N为档案信息中存在的涉密信息的数量，n为涉密信息涉及的终端用户的数量，Q为档案数据信息的风险评估值，K为受涉密信息数量、涉及用户数量和风险评估值综合影响的涉密度转换系数，为大于0的常数值；

步骤A33：设定数据采集管理系统的涉密等级划分临界值分别为C₁、C₂和C₃；

根据计算出的结果与临界值比对，将涉密的档案数据信息划分为绝密级、机密级、秘密级和非涉密级四个等级。

根据上述技术方案，所述数据安全管理模块的运行方法主要包括以下步骤：

步骤B1：设置访问权限，利用不同的安全保密方式对不同层级的身份进行识别，同时定期对数据库进行检查并做好备份工作；

步骤B2：根据涉密档案数据的保密范围以及时限对相关档案进行实时的等级变化管理；

步骤B3：数据安全管理模块对档案数据管理实行分级管理，根据不同等级分配不同权限。

根据上述技术方案，所述步骤B2进一步包括一下步骤：

步骤B21：数据安全管理模块获取到涉密等级分类模块定期计算的档案数据信息的涉密等级；

步骤B22：对于涉密度增加到上一等级的数据信息进行升密处理，对于涉密度减小到下一等级的数据信息进行降密处理，对于涉密度达到非涉密临界值的数据信息进行解密处理。

根据上述技术方案，所述步骤B3进一步包括一下步骤：

步骤B31：根据访问权限设置系统分级管理，设置分级管理人员为最高管理员、一级用户和二级用户；

步骤B32：所述最高管理员拥有本系统最高的使用权限，可以使用系统中所有的功能，同时进入系统需经过多重身份识别；

步骤B33：所述一级用户主要面向各级部门人员，不同级别的部门只能管理该级别所管辖范围内的人员信息；

步骤B34：所述二级用户主要面向其他单位的用户；

步骤B35：对各级人员每一次的档案数据操作进行过程记录。

与现有技术相比，本发明所达到的有益效果是：本发明通过设置有数据信息采集模块、数据处理分析模块和数据安全管理模块，将企业档案信息存储至数据库中，可自动对部分词义存在歧义的信息进行修正处理，数据处理分析模块对各档案信息内容进行涉密等级的划分，实现企业档案的安全管理，根据不同的涉密等级划分不同的安全管理等级，设置不同的访问权限，避免数据泄露问题，保证数据安全，根据涉密等级的实时变化，对数据信息进行升密、降密或解密处理，避免涉密档案堆积给管理工作带来不必要的压力，从而实现数据的高效率和安全管理。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的系统模块组成示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供技术方案：基于大数据的数据采集管理系统，包括数据信息采集模块、数据处理分析模块和数据安全管理模块，数据信息采集模块用于采集企业档案信息，数据处理分析模块用于对采集到的档案数据进行处理分析，数据安全管理模块用于对档案信息进行安全管理，数据处理分析模块与数据信息采集模块网络连接，数据安全管理模块与数据处理分析模块网络连接，通过设置有数据信息采集模块、数据处理分析模块和数据安全管理模块，将企业档案信息存储至数据库中，可自动对部分词义存在歧义的信息进行修正处理，数据处理分析模块对各档案信息内容进行涉密等级的划分，实现企业档案的安全管理，根据不同的涉密等级划分不同的安全管理等级，设置不同的访问权限，避免数据泄露问题，保证数据安全，根据涉密等级的实时变化，对数据信息进行升密、降密或解密处理，避免涉密档案堆积给管理工作带来不必要的压力，从而实现数据的高效率和安全管理。

数据信息采集模块包括档案存储数据库、档案录入模块、信息提取模块和词义消歧模块，档案存储数据库用于存储企业档案信息，档案录入模块用于录入企业各部门人员档案信息，信息提取模块用于对录入的所有档案信息进行有效信息提取，词义消歧模块用于对部分词义存在歧义的信息进行消歧处理。

数据处理分析模块包括识别校正模块、信息动态修改模块和涉密等级分类模块，识别校正模块用于在对数据信息进行识别的过程中，将错误信息自动校正，信息动态修改模块用于利用动态方式对各部门人员信息内容进行增减，涉密等级分类模块用于对涉密档案信息等级进行分类。

数据安全管理模块包括权限设置模块、涉密变化模块和分级管理模块，权限设置模块用于对档案信息的查询修改调用进行权限设置，涉密变化模块用于根据档案信息涉密程度的变化实时变化其涉密等级，分级管理模块用于对系统进行分级管理，权限设置模块与涉密等级分类模块网络连接，分级管理模块与权限设置模块网络连接。

数据信息采集模块的运行方法主要包括以下步骤：

步骤S1：建立档案存储数据库，将企业各部门人员档案信息存储至数据库中，信息包括部门人员身份信息、学历信息、职称评定信息、职务任免信息、奖惩信息以及部分工作内容、职位调动记录；

步骤S2：企业单位部门对各部门人员信息进行收集整理，递交至企业档案管理部门，进行档案录入，初步收集的部门人员信息包括其入职递交的个人简历信息，以及在工作过程中存在的需要入档的信息，可由企业档案工作人员直接录入或层级提交至直接管理员录入；

步骤S3：对收集到的各部门人员信息进行筛选提取，录入档案模板内所需的有用信息，由于个人资料信息众多，档案部门存在一定的档案保存模板，因此从各种信息中提取录入模板所需的信息，避免信息杂乱堆砌，后续查找时也可提高工作效率；

步骤S4：对于信息提取过程中出现的职位地区信息简写，产生易产生歧义的指向性不明确的信息，通过就近匹配原则进行词义消歧，实体歧义性主要表现在履历信息中地区或者单位信息的缺失，导致实体指向不明确，履历信息介绍时，同一地区或者同一单位任多个职位时，通常会将地区或者单位信息省去，造成了很大的歧义性，因此通过一定的词法转换规则，进行地点与职位的信息匹配；

步骤S5：在数据信息处理完毕后，档案部门工作人员对可存档的档案信息，根据信息内容对企业的影响程度进行数据信息的风险值评估，风险值评估由企业单位部门按照企业有关保密规定评估，同时对档案数据信息中存在的需要保密处理的信息进行标记处理。

数据处理分析模块的运行方法主要包括以下步骤：

步骤A1：对收集到的各纸质、电子档案或图片档案信息进行OCR识别，对识别转换后的数据，通过构建冲突词典，针对固定格式区的每个文本域，对出现错误的文本域使用冲突词典，对识别结果进行校正，固定格式文档中包括有多个固定字符和多个固定格式区，一般将表格中具有表征信息含义的固有字符作为固定字符，而固定字符所关联的表格区域作为相应的固定格式区，固定字符第一次识别进行校正后作为固定格式文档的模板标识，在后续的处理过程中，无需进行二次校正，只需根据位置属性对其固定格式区内待处理字符进行后处理，从而提高处理效率；

步骤A2：将部门人员档案目录作为链接路径，利用动态方式对个人信息内容进行增减，在系统中自动生成部门人员的相关信息，为后续的人员选拔、评级、调用等工作提供数据依据；

步骤A3：根据各类数据的涉密程度对档案数据进行涉密等级分类，企业单位人事档案内容有涉密与非涉密之分，其中涉密文件对个人、单位等利益有着密切的联系，因此需要对涉密档案进行涉密等级划分。

步骤A3进一步包括一下步骤：

步骤A32：具体计算公式为：

式中，C为涉密数据信息的涉密度，N为档案信息中存在的涉密信息的数量，涉密信息数量由信息存档时对保密信息进行标记的数量得到，n为涉密信息涉及的终端用户的数量，涉及的数量为涉密信息可查看的部门人员数量，可查看的人员越少，信息涉密等级越高，Q为档案数据信息的风险评估值，K为受涉密信息数量、涉及用户数量和风险评估值综合影响的涉密度转换系数，为大于0的常数值，档案数据信息中涉密信息越高、涉及用户数量越少、风险评估值越高，则此档案的涉密等级越高；

步骤A33：设定数据采集管理系统的涉密等级划分临界值分别为C₁、C₂和C₃，临界值由企业单位保密部门根据历史标准给出；

数据安全管理模块的运行方法主要包括以下步骤：

步骤B1：设置访问权限，利用不同的安全保密方式对不同层级的身份进行识别，避免数据泄露问题，保证数据安全，同时定期对数据库进行检查并做好备份工作，可以有效对丢失的数据进行恢复，防止出现因外部原因导致的数据丢失或损毁情况；

步骤B2：根据涉密档案数据的保密范围以及时限对相关档案进行实时的等级变化管理，避免涉密档案堆积给管理工作带来不必要的压力；

步骤B2进一步包括一下步骤：

步骤B21：数据安全管理模块获取到涉密等级分类模块定期计算的档案数据信息的涉密等级，由于各类文件的涉密程度深浅不一，同时档案保密期限、程度也会随着时间的推移而产生变化，需定期对其涉密等级进行等级变化；

步骤B22：对于涉密度增加到上一等级的数据信息进行升密处理，对于涉密度减小到下一等级的数据信息进行降密处理，对于涉密度达到非涉密临界值的数据信息进行解密处理，避免涉密档案堆积给管理工作带来不必要的压力。

步骤B3进一步包括一下步骤：

步骤B32：最高管理员拥有本系统最高的使用权限，可以使用系统中所有的功能，同时进入系统需经过多重身份识别，可为不同用户分配角色、为不同角色用户分配功能权限、系统操作日志信息的管理以及系统参数配置；

步骤B33：一级用户主要面向各级部门人员，不同级别的部门只能管理该级别所管辖范围内的人员信息，可进行部门人员基本信息的录入和修改，对职务变动管理、任免相关文书管理、离职退休人员的通知与提醒，负责部门人员档案接收、转出、报送日志的管理以及各种数据材料接收、上报和管理；

步骤B34：二级用户主要面向其他单位的用户，可负责部门人员基本信息的查看以及其他单位部门人员档案接收、转出、报送日志的管理；

步骤B35：对各级人员每一次的档案数据操作进行过程记录，在档案数据信息出现问题时可及时追溯源头，找出相关责任人，避免造成更大的损失。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的数据采集管理系统，包括数据信息采集模块、数据处理分析模块和数据安全管理模块，其特征在于：所述数据信息采集模块用于采集企业档案信息，所述数据处理分析模块用于对采集到的档案数据进行处理分析，所述数据安全管理模块用于对档案信息进行安全管理，所述数据处理分析模块与数据信息采集模块网络连接，所述数据安全管理模块与数据处理分析模块网络连接。

2.根据权利要求1所述的基于大数据的数据采集管理系统，其特征在于：所述数据信息采集模块包括档案存储数据库、档案录入模块、信息提取模块和词义消歧模块，所述档案存储数据库用于存储企业档案信息，所述档案录入模块用于录入企业各部门人员档案信息，所述信息提取模块用于对录入的所有档案信息进行有效信息提取，所述词义消歧模块用于对部分词义存在歧义的信息进行消歧处理。

3.根据权利要求2所述的基于大数据的数据采集管理系统，其特征在于：所述数据处理分析模块包括识别校正模块、信息动态修改模块和涉密等级分类模块，所述识别校正模块用于在对数据信息进行识别的过程中，将错误信息自动校正，所述信息动态修改模块用于利用动态方式对各部门人员信息内容进行增减，所述涉密等级分类模块用于对涉密档案信息等级进行分类。

4.根据权利要求3所述的基于大数据的数据采集管理系统，其特征在于：所述数据安全管理模块包括权限设置模块、涉密变化模块和分级管理模块，所述权限设置模块用于对档案信息的查询修改调用进行权限设置，所述涉密变化模块用于根据档案信息涉密程度的变化实时变化其涉密等级，所述分级管理模块用于对系统进行分级管理，所述权限设置模块与涉密等级分类模块网络连接，所述分级管理模块与权限设置模块网络连接。

5.根据权利要求4所述的基于大数据的数据采集管理系统，其特征在于：所述数据信息采集模块的运行方法主要包括以下步骤：

6.根据权利要求5所述的基于大数据的数据采集管理系统，其特征在于：所述数据处理分析模块的运行方法主要包括以下步骤：

7.根据权利要求6所述的基于大数据的数据采集管理系统，其特征在于：所述步骤A3进一步包括一下步骤：

步骤A32：具体计算公式为：

8.根据权利要求7所述的基于大数据的数据采集管理系统，其特征在于：所述数据安全管理模块的运行方法主要包括以下步骤：

9.根据权利要求8所述的基于大数据的数据采集管理系统，其特征在于：所述步骤B2进一步包括一下步骤：

10.根据权利要求9所述的基于大数据的数据采集管理系统，其特征在于：所述步骤B3进一步包括一下步骤：

步骤B34：所述二级用户主要面向其他单位的用户；

步骤B35：对各级人员每一次的档案数据操作进行过程记录。