CN118070341A

CN118070341A - 大数据管理方法及大数据管理系统

Info

Publication number: CN118070341A
Application number: CN202410455180.6A
Authority: CN
Inventors: 张霞; 平萍; 马丽敏
Original assignee: Jiangsu Doctor Innovation Big Data Co ltd
Current assignee: Jiangsu Doctor Innovation Big Data Co ltd
Priority date: 2024-04-16
Filing date: 2024-04-16
Publication date: 2024-05-24
Anticipated expiration: 2044-04-16
Also published as: CN118070341B

Abstract

本发明公开了大数据管理方法及大数据管理系统，涉及数据管理技术领域，用于解决当前的大数据管理系统存在数据安全风险的严重缺陷，容易发生数据泄密事件，导致严重的法律后果、财务损失以及声誉受损的问题，本发明包括数据收集模块、数据存储模块、数据安全监测模块及警示模块；数据收集模块，用于从多个数据源中收集数据；首先对多个数据源进行验证，对数据源的可靠性和合法性进行评估，具体通过数据源的信誉度、数据更新频率及安全性措施进行综合分析；本发明，通过数据的获取、存储及管理三个方面对数据安全提供多维度全面的保障，降低了大数据管理系统的数据安全风险，保护用户数据的隐私性和机密性。

Description

大数据管理方法及大数据管理系统

技术领域

本发明涉及数据管理技术领域，具体为大数据管理方法及大数据管理系统。

背景技术

随着互联网的快速发展，大数据已成为信息时代的重要资源。然而，大数据的快速增长和多样化给数据管理带来了巨大挑战。现有的数据管理系统往往面临着不同的缺陷；

在当前的大数据管理系统中，数据安全风险是一个最为严重的缺陷。由于大数据管理系统处理的数据量巨大，其中可能包含大量敏感信息，如个人身份信息、商业机密等。如果这些数据受到未经授权的访问、篡改或泄霁，将会对个人隐私和商业安全造成极大的威胁。

数据安全问题涉及数据加密、访问控制、身份认证等多个方面，而一旦发生数据泄密事件，可能会导致严重的法律后果、财务损失以及声誉受损。因此，保障大数据管理系统中数据的安全性是至关重要的，需要采取一系列有效的安全措施来防范潜在的数据安全风险，因此，设计一种大数据管理方法及大数据管理系统。

为了解决上述缺陷，现提供技术方案。

发明内容

本发明的目的在于解决当前的大数据管理系统存在数据安全风险的严重缺陷，容易发生数据泄密事件，导致严重的法律后果、财务损失以及声誉受损的问题，而提出大数据管理方法及大数据管理系统。

本发明的目的可以通过以下技术方案实现：

大数据管理方法，包括以下步骤：

S1：首先从多个数据源中收集数据；具体步骤如下：

S101：首先对多个数据源进行验证，对数据源的可靠性和合法性进行评估；

S102：对可靠性及合法性未达标的数据源向管理员终端发送更换数据源的提示，并确定所有数据的可靠性及合法性达标；

S103：在完成数据源的确定后，获取数据源的数据过程中，采用加密技术确保数据的机密性，同时在获取数据的过程中，对于敏感数据进行脱敏处理；

S104：再对数据的格式进行初步检验，确定数据格式符合预期；

S2：再采用分布式账本技术对数据存储；

S3：然后通过智能合约实现对存储的数据的访问权限进行动态管理；具体步骤如下：

S301：首先分析数据访问控制的需求，包括哪些用户及系统需要访问哪些数据，在哪些条件下可以访问；

S302：再根据分析结果，建立智能合约逻辑，定义合约的各种变量和函数；

S303：再使用智能合约支持的编程语言Solidity根据设计逻辑编写智能合约代码，然后将编写好的智能合约代码部署到区块链平台上；

S304：根据实际需求的变化，通过智能合约建立的更新机制修改访问控制逻辑或权限设置，并将修改后的智能合约重新部署或通过智能合约的升级机制应用更改；

S4：再对系统内的数据流动和访问行为进行实时监控，及时发现安全威胁并响应；

S5：最后根据预设的多级预警机制根据不同程度的安全威胁触发不同级别的预警。

进一步的，大数据管理系统，包括：

数据收集模块，用于从多个数据源中收集数据；

数据存储模块，用于采用分布式账本技术进行数据存储；

数据访问控制模块，用于通过智能合约实现对数据访问权限的动态管理；

数据安全监测模块，用于对系统内的数据流动和访问行为进行实时监控，及时发现安全威胁并响应；具体步骤如下：

针对数据流动监控，通过对数流参数进行检测并分析，判断是否存在异常，具体的数流参数包括：数据流动量、数据传输速度、数据传输路径、数据传输时间戳及数据完整性，根据数流参数分析分别得到量差值、速差值、异径值、异戳值及缺异值，并分别标定为lh、sc、yj、yc及qy，归一化处理后代入以下公式：

以得到流评值LCZ；

针对访问行为监控，通过对访问参数进行检测并分析，判断是否存在异常，具体的访问参数包括：访问频率、访问时间段、访问来源及访问持续时间，通过访问参数分别得到异访值、超量值、异源值及超续值，归一化处理后，以异访值与超量值之和作为底圆半径，异源值作为高，建立圆柱体，再以建立的圆柱体的质心为球心，超续值加上异访值与超量值之和作为球形体半径建立球形体，计算圆柱体与球形体形成的异形体体积，并记为访问异值；

再将得到的流评值和访问异值分别与预设的流评阈值及访问异阈值进行比对，当存在流评值大于或等于预设的流评阈值时，则判断数据流动存在安全威胁，当存在访问异值大于或等于预设的访问异阈值时，则判断访问行为存在安全威胁；针对上述两种安全威胁生成威胁警示信令向警示模块发送；

警示模块，用于对监测的安全威胁进行警示提醒。

进一步的，所述数据收集模块从多个数据源中收集数据的具体操作步骤如下：

首先对多个数据源进行验证，对数据源的可靠性和合法性进行评估，具体通过数据源的信誉度、数据更新频率及安全性措施进行综合分析，其中信誉度通过对数据源的声誉分、惩罚次数及业界推荐次数进行评价，将上述参数归一化处理后将声誉分与业界推荐次数求和后除以惩罚次数与常数k的乘积，得到源分值；

再将得到的源分值与预设的源分阈值进行比对，当源分值大于或等于预设的源分阈值时，则判断该数据源符合要求，反之，则判断该数据源的可靠性及合法性未达标，并向管理员终端发送更换数据源的提示；

在完成数据源的确定后，获取数据源的数据过程中，采用加密技术确保数据的机密性，避免数据在获取传输过程中被窃取或篡改，同时在获取数据的过程中，对于敏感数据进行脱敏处理，去除或替换个人身份等敏感数据，保护用户隐私；

最后对数据的格式进行初步检验，确定数据格式符合预期。

进一步的，所述数据存储模块采用分布式账本技术进行数据存储的具体操作步骤如下：

首先根据自身常见确定分布式账本技术，包括区块链或分布式数据库；再确定数据存储的结构和格式，包括数据的字段及索引；

然后部署分布式账本技术的节点并进行相对应的配置；

再将获取的数据通过接口写入分布式账本中，并确定每个节点同步并保存一份完整的数据副本；

再对每个节点部署审计机制和灾难恢复机制，审计机制包括记录数据的操作和访问日志；灾难恢复机制通过数据多重备份，确保数据在意外情况下的安全性和可持续性。

进一步的，所述数据访问控制模块通过智能合约实现对数据访问权限的动态管理的具体操作步骤如下：

首先分析数据访问控制的需求，包括哪些用户及系统需要访问哪些数据，在哪些条件下可以访问；

再根据分析结果，建立智能合约逻辑，定义合约的各种变量和函数，合约变量包括用户身份、数据分类及访问权限，函数包括权限验证及权限更新；

再使用智能合约支持的编程语言Solidity根据设计逻辑编写智能合约代码，然后将编写好的智能合约代码部署到区块链平台上，部署过程中，智能合约将被编译成字节码，并存储在区块链上；

当用户及系统尝试访问某项数据时，首先向智能合约发送权限验证请求，包括请求者的身份信息及请求访问的数据；

智能合约接收到请求后，根据其内部逻辑判断请求者是否具有相应的访问权限，包括验证请求者的身份及检查数据的访问策略；

智能合约处理完成后，将验证结果进行回执，当验证通过时，将允许访问者访问数据；当验证失败时，则拒绝访问；

再根据实际需求的变化，通过智能合约建立的更新机制修改访问控制逻辑或权限设置，并将修改后的智能合约重新部署或通过智能合约的升级机制应用更改。

进一步的，所述数据安全监测模块根据数流参数分析分别得到量差值、速差值、异径值、异戳值及缺异值的具体操作步骤如下：

数据流动量：为数据传输的大小，将数据传输的实际大小与预设的标准数据量计算差值，记为量差值；

数据传输速度：通过对数据进行流动传输的实时速度与记录的数据流动历史平均速度进行差值计算，并记为速差值；

数据传输路径：通过跟踪数据传输的路径，包括经过的网络节点和系统，检查传输路径上存在异常的路径数量，记为异径值；

数据传输时间戳：通过记录数据传输的时间戳信息，分析数据传输的时序关系，并将分析的数据传输时间戳信息与预设时间戳信息进行比对，筛选出异常的数据传输时间戳位置及对应位置的异常时间，并计算所有异常位时间戳位置及对应异常时间的总和，记为异戳值；

数据完整性：通过实施数据完整性校验机制，检查数据在传输过程中是否被篡改或缺失，并记录被篡改或缺失的数据大小，记为缺异值。

进一步的，所述数据安全监测模块通过访问参数分别得到异访值、超量值、异源值及超续值的具体操作步骤如下：

访问频率：通过统计每个用户及系统在一定时间内访问数据的次数，并计算平均访问频率，并根据平均访问频率配合预设限值，形成标准访问频率区间，再根据标准访问频率区间分析不处于该标准访问频率区间范围内的用户及系统数量，记为异访值；

访问时间段：通过将每天分为多个时间段，包括1h或0.5h，统计每个时间段数据访问的次数，针对访问次数高的时间段与预设访问次数阈值进行比对，并记录超过预设访问次数阈值的时间段数量，记为超量值；

访问来源：统计不同IP地址或地理位置对数据的访问次数，并识别访问次数最多的几个IP地址或地理位置，判断是否有异常的来源，记录异常的来源数量，记为异源值；

访问持续时间：通过记录每次数据访问的开始时间和结束时间，计算访问持续时间，通过计算的持续时间设定数据访问持续时间区间，并分析超出设定的数据访问持续时间区间的数量，记为超续值。

进一步的，所述警示模块对监测的安全威胁进行警示提醒的具体操作步骤如下：

当接收到威胁警示信令后，根据预设的多级预警机制根据安全威胁触发不同级别的预警，其中多级预警机制通过对流评值和访问异值分别对流评阈值及访问异阈值超出量进行分析，并对超出量与预设的三个超出区间进行比对，三个超出区间分别对应设置三个不同的预警级别，分别为低、中、高三个预警级别；

再对数据流动及访问行为存在的安全威胁进行数据回溯，分别将流评值和访问异值计算对应的量差值、速差值、异径值、异戳值及缺异值和异访值、超量值、异源值及超续值进行独立分析，通过与预设的对应阈值进行比对，从而判断数据流动及访问行为存在的安全威胁具体的威胁参数；

其中低预警级别通过电子邮件将具体的威胁参数向系统管理员终端进行发送，提示系统管理员时刻监控数据流动及访问行为的异常；

中预警级别通过短信或即时通讯工具通知管理员终端，提醒管理员向运维团队下派检查和处理的任务；

高预警级别通过自动通话呼叫或紧急会议召集的方式对管理员终端进行警示，提醒管理员终端对安全威胁进行紧急协商处理。

与现有技术相比，本发明的有益效果是：

（1）本发明，通过数据的获取、存储及管理三个方面对数据安全提供多维度全面的保障，降低了大数据管理系统的数据安全风险，保护用户数据的隐私性和机密性；

（2）本发明，采用先进的加密技术，对数据进行端到端的加密保护，并精细管理用户权限，确保只有授权人员可以访问特定数据，从而防止数据泄密或篡改；

（3）本发明，具备自动化的安全响应机制，不仅可通过多方位分析安全威胁的程度，同时能够快速应对安全事件，及时通知管理人员进行相应的预警。

附图说明

为了便于本领域技术人员理解，下面结合附图对本发明作进一步的说明；

图1为本发明的方法流程图；

图2为本发明的系统总框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，本披露的说明书和权利要求书中使用的术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本披露说明书和权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如图1所示，大数据管理方法，包括以下步骤：

S1：首先从多个数据源中收集数据；

S2：再采用分布式账本技术对数据存储；

S3：然后通过智能合约实现对存储的数据的访问权限进行动态管理；

参考图2，大数据管理系统，包括数据收集模块、数据存储模块、数据访问控制模块、数据安全监测模块及警示模块；

数据收集模块用于从多个数据源中收集数据；具体步骤如下：

首先对多个数据源进行验证，对数据源的可靠性和合法性进行评估，具体通过数据源的信誉度、数据更新频率及安全性措施进行综合分析，其中信誉度通过对数据源的声誉分、惩罚次数及业界推荐次数进行评价，将上述参数归一化处理后将声誉分与业界推荐次数求和后除以惩罚次数与常数k的乘积，常数k取值为1.113，得到源分值，并以此源分值作为衡量数据源的可靠性和合法性的标准，并将得到的源分值与预设的源分阈值进行比对，当源分值大于或等于预设的源分阈值时，则判断该数据源符合要求，反之，则判断该数据源的可靠性及合法性未达标，并向管理员终端发送更换数据源的提示；

在完成数据源的确定后，获取数据源的数据过程中，采用加密技术确保数据的机密性，避免数据在获取传输过程中被窃取或篡改，同时在获取数据的过程中，对于敏感数据进行脱敏处理，去除或替换个人身份等敏感数据，保护用户隐私；再对数据的格式进行初步检验，确定数据格式符合预期。

数据存储模块用于采用分布式账本技术进行数据存储；具体步骤如下：

首先根据自身常见确定分布式账本技术，包括区块链或分布式数据库；再确定数据存储的结构和格式，包括数据的字段及索引；然后部署分布式账本技术的节点并进行相对应的配置，确保每个节点之间的通信和协作；再将获取的数据通过接口写入分布式账本中，并确定每个节点同步并保存一份完整的数据副本；再对每个节点部署审计机制和灾难恢复机制，审计机制包括记录数据的操作和访问日志，便于事后的审计和追溯，发现异常行为；灾难恢复机制通过数据多重备份，确保数据在意外情况下的安全性和可持续性。

数据访问控制模块用于通过智能合约实现对数据访问权限的动态管理；

首先分析数据访问控制的需求，包括哪些用户及系统需要访问哪些数据，在哪些条件下可以访问；再根据分析结果，建立智能合约逻辑，定义合约的各种变量和函数，合约变量包括用户身份、数据分类及访问权限，函数包括权限验证及权限更新；再使用智能合约支持的编程语言Solidity根据设计逻辑编写智能合约代码，然后将编写好的智能合约代码部署到区块链平台上，部署过程中，智能合约将被编译成字节码，并存储在区块链上；当用户及系统尝试访问某项数据时，首先向智能合约发送权限验证请求，包括请求者的身份信息及请求访问的数据；智能合约接收到请求后，根据其内部逻辑判断请求者是否具有相应的访问权限，包括验证请求者的身份及检查数据的访问策略；智能合约处理完成后，将验证结果进行回执，当验证通过时，将允许访问者访问数据；当验证失败时，则拒绝访问；

根据实际需求的变化，通过智能合约建立的更新机制修改访问控制逻辑或权限设置，并将修改后的智能合约重新部署或通过智能合约的升级机制应用更改。

数据安全监测模块用于对系统内的数据流动和访问行为进行实时监控，及时发现安全威胁并响应；

针对数据流动监控，通过对数流参数进行检测并分析，判断是否存在异常，具体的数流参数包括：

数据流动量：为数据传输的大小，将数据传输的实际大小与预设的标准数据量计算差值，记为量差值，以此量差值作为衡量数据流动量平衡的标准；数据传输速度：通过对数据进行流动传输的实时速度与记录的数据流动历史平均速度进行差值计算，并记为速差值，以此速差值作为衡量数据传输速度偏差的标准；数据传输路径：通过跟踪数据传输的路径，包括经过的网络节点和系统，检查传输路径上存在异常的路径数量，记为异径值，以此异径值作为衡量数据传输路径的偏差标准；数据传输时间戳：通过记录数据传输的时间戳信息，分析数据传输的时序关系，并将分析的数据传输时间戳信息与预设时间戳信息进行比对，筛选出异常的数据传输时间戳位置及对应位置的异常时间，并计算所有异常位时间戳位置及对应异常时间的总和，记为异戳值，以此异戳值作为衡量数据传输时间戳异常的标准；数据完整性：通过实施数据完整性校验机制，检查数据在传输过程中是否被篡改或缺失，并记录被篡改或缺失的数据大小，记为缺异值，并以此缺异值作为衡量数据完整性的标准；

将分析得到的量差值、速差值、异径值、异戳值缺异值分别标定lh、sc、yj、yc及qy，归一化处理后代入以下公式：

以得到流评值LCZ；

针对访问行为监控，通过对访问参数进行检测并分析，判断是否存在异常，具体的访问参数包括：

访问频率：通过统计每个用户及系统在一定时间内访问数据的次数，并计算平均访问频率，并根据平均访问频率配合预设限值，形成标准访问频率区间，再根据标准访问频率区间分析不处于该标准访问频率区间范围内的用户及系统数量，记为异访值，以此异访值作为衡量访问频率异常的标准；访问时间段：通过将每天分为多个时间段，包括1h或0.5h，统计每个时间段数据访问的次数，针对访问次数高的时间段与预设访问次数阈值进行比对，并记录超过预设访问次数阈值的时间段数量，记为超量值，并以此超量值作为衡量访问次数过量的访问时间段标准；访问来源：统计不同IP地址或地理位置对数据的访问次数，并识别访问次数最多的几个IP地址或地理位置，判断是否有异常的来源，记录异常的来源数量，记为异源值，以此异源值作为衡量访问来源异常的标准；访问持续时间：通过记录每次数据访问的开始时间和结束时间，计算访问持续时间，通过计算的持续时间设定数据访问持续时间区间，并分析超出设定的数据访问持续时间区间的数量，记为超续值，并以此超续值作为衡量访问持续时间异常的标准；

再分别将得到的异访值、超量值、异源值及超续值归一化处理后，以异访值与超量值之和作为底圆半径，异源值作为高，建立圆柱体，再以建立的圆柱体的质心为球心，超续值加上异访值与超量值之和作为球形体半径建立球形体，计算圆柱体与球形体形成的异形体体积，并记为访问异值；

再将得到的流评值和访问异值分别与预设的流评阈值及访问异阈值进行比对，当存在流评值大于或等于预设的流评阈值时，则判断数据流动存在安全威胁，当存在访问异值大于或等于预设的访问异阈值时，则判断访问行为存在安全威胁；针对上述两种安全威胁生成威胁警示信令向警示模块发送。

警示模块用于对监测的安全威胁进行警示提醒；

其中低预警级别通过电子邮件将具体的威胁参数向系统管理员终端进行发送，提示系统管理员时刻监控数据流动及访问行为的异常；中预警级别通过短信或即时通讯工具通知管理员终端，提醒管理员向运维团队下派检查和处理的任务；高预警级别通过自动通话呼叫或紧急会议召集的方式对管理员终端进行警示，提醒管理员终端对安全威胁进行紧急协商处理。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.大数据管理方法，其特征在于，包括以下步骤：

S1：首先从多个数据源中收集数据；具体步骤如下：

S2：再采用分布式账本技术对数据存储；

2.大数据管理系统，其特征在于，包括：

数据收集模块，用于从多个数据源中收集数据；

数据存储模块，用于采用分布式账本技术进行数据存储；

以得到流评值LCZ；

警示模块，用于对监测的安全威胁进行警示提醒。

3.根据权利要求2所述的大数据管理系统，其特征在于，所述数据收集模块从多个数据源中收集数据的具体操作步骤如下：

最后对数据的格式进行初步检验，确定数据格式符合预期。

4.根据权利要求2所述的大数据管理系统，其特征在于，所述数据存储模块采用分布式账本技术进行数据存储的具体操作步骤如下：

然后部署分布式账本技术的节点并进行相对应的配置；

5.根据权利要求2所述的大数据管理系统，其特征在于，所述数据访问控制模块通过智能合约实现对数据访问权限的动态管理的具体操作步骤如下：

6.根据权利要求2所述的大数据管理系统，其特征在于，所述数据安全监测模块根据数流参数分析分别得到量差值、速差值、异径值、异戳值及缺异值的具体操作步骤如下：

7.根据权利要求2所述的大数据管理系统，其特征在于，所述数据安全监测模块通过访问参数分别得到异访值、超量值、异源值及超续值的具体操作步骤如下：

访问时间段：通过将每天分为多个时间段，统计每个时间段数据访问的次数，针对访问次数高的时间段与预设访问次数阈值进行比对，并记录超过预设访问次数阈值的时间段数量，记为超量值；

8.根据权利要求2所述的大数据管理系统，其特征在于，所述警示模块对监测的安全威胁进行警示提醒的具体操作步骤如下：

再对数据流动及访问行为存在的安全威胁进行数据回溯，分别将流评值和访问异值计算对应的量差值、速差值、异径值、异戳值及缺异值和异访值、超量值、异源值及超续值进行独立分析，通过与预设的对应阈值进行比对，判断数据流动及访问行为存在的安全威胁具体的威胁参数；