CN113239392A

CN113239392A - 一种基于数据中台敏感数据脱敏方法

Info

Publication number: CN113239392A
Application number: CN202110361377.XA
Authority: CN
Inventors: 杨启帆; 蒋鑫; 李宏发; 郑蔚涛; 杨劲怀; 张洁敏; 林灵婷; 李霆; 谢景宇; 蔡宇翔
Original assignee: Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Fujian Electric Power Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-08-10

Abstract

本发明公开了一种基于数据中台敏感数据脱敏方法，包括以下步骤：S1：获取需要进行脱敏的待处理数据；S2：建立脱敏模型，利用数据库对待处理的数据进行数据分类，提取出具有敏感类型的数据；S3：采用修正模型利用机器学习算法基于知识图谱对脱敏模型生成的敏感类型的数据进行处理，获取脱敏数据，将得到的脱敏数据进行加密处理。本发明利用聚类算法对数据进行初步处理，得到敏感类型数据，再利用强化学习算法和深度学习算法对数据进行脱敏，可有效提高数据脱敏的有效性，且人工智能算法不容易被破解，具有很强的灵活性，极大提高了数据的安全性，减少了人们信息泄露的安全隐患。

Description

一种基于数据中台敏感数据脱敏方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种基于数据中台敏感数据脱敏方法。

背景技术

随着信息技术的迅猛发展以及大数据的普及，数据流通越来越便利，也使得敏感数据在流通过程中缺乏管控，导致机密数据流失，给人们带来了不必要的风险与隐患，因此，需要利用有效的方法来对敏感数据进行管控，从而实现对数据的有效保护，防止敏感数据泄露，目前的敏感数据脱敏的方法主要采用计算机软件的方式进行数据处理，但目前的计算机软件在处理数据的过程中容易被破解，导致数据很难有效的处理敏感数据。

发明内容

为了至少解决或部分解决上述问题，提供一种基于数据中台敏感数据脱敏方法，采用具备灵活性的算法来解决目前脱敏效率低的问题，以及处理数据被破解的问题。

为了达到上述目的，本发明提供了如下的技术方案：

本发明一种基于数据中台敏感数据脱敏方法，包括以下步骤：

S1：获取需要进行脱敏的待处理数据；

S2：建立脱敏模型，利用数据库对待处理的数据进行数据分类，提取出具有敏感类型的数据；

S3：采用修正模型利用机器学习算法基于知识图谱对脱敏模型生成的敏感类型的数据进行处理，获取脱敏数据。

作为本发明的一种优选技术方案，所述脱敏模型中的数据分类采用kmeans聚类算法，将待处理的脱敏数据置于数据库中进行聚类处理，得到与待处理的脱敏数据的数据类型，根据得到的数据类型输出属于脱敏类型的待处理数据。

作为本发明的一种优选技术方案，所述修正模型中的知识图谱以提取出的敏感数据导致敏感程度的条件概率以及敏感程度到敏感数据的关联程度的条件概率为权重，将两个条件概率进行拼接，形成强化学习模型的动作选择。

作为本发明的一种优选技术方案，所述修正模型中的敏感数据与敏感程度的映射采用深度学习算法根据数据库进行建模，深度学习算法采用卷积神经网络完成，所述卷积神经网络由编码器路径和解码器路径组成，所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成。

作为本发明的一种优选技术方案，还包括将得到的脱敏数据进行加密处理的步骤。

作为本发明的一种优选技术方案，所述对脱敏数据进行加密处理的步骤包括：对得到的脱敏数据设置访问权限，访问权限包括密匙和用户名。

与现有技术相比，本发明的有益效果如下：

本发明利用聚类算法对数据进行初步处理，得到敏感类型数据，再利用强化学习算法和深度学习算法对数据进行脱敏，可有效提高数据脱敏的有效性，且人工智能算法不容易被破解，具有很强的灵活性，极大提高了数据的安全性，减少了人们信息泄露的安全隐患。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的方法流程示意图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

此外，如果已知技术的详细描述对于示出本发明的特征是不必要的，则将其省略。

实施例1

如图1所示，本发明提供一种基于数据中台敏感数据脱敏方法，包括以下步骤：

S1：获取需要进行脱敏的待处理数据；

进一步，所述脱敏模型中的数据分类采用kmeans聚类算法，将待处理的脱敏数据置于数据库中进行聚类处理，得到与待处理的脱敏数据的数据类型，根据得到的数据类型输出属于脱敏类型的待处理数据；

kmeans聚类算法将数据库中的数据分为k类，并为每个类别设置类心，计算当前待处理的数据的类心识别他的类别，输出具有脱敏类型的待处理数据，在输出脱敏类型的数据之后，还需要对脱敏类型数据里的敏感数据进行查验，因此，还需要利用修正模型中的知识图谱来提取出的敏感数据，所述修正模型采用q强化学习和LSTM深度神经网络结合的学习模型，其中，修正模型中的知识图谱以提取出的敏感数据导致敏感程度的条件概率以及敏感程度到敏感数据的关联程度的条件概率为权重，将两个条件概率进行拼接，形成强化学习模型的动作选择。

修正模型中的敏感数据与敏感程度的映射采用深度学习算法根据数据库进行建模，深度学习算法采用卷积神经网络完成，所述卷积神经网络由编码器路径和解码器路径组成，所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成，编码器路径利用卷积层生成编码器数据，然后使用归一化进行处理，Relu激活函数将其激活，解码器路径使用反卷积层对编码器生成的数据进行解码，利用后馈传播的方式进行学习调整，然后使用归一化进行处理，Relu激活函数将其激活。

在得到脱敏数据之后，需要对得到的脱敏数据进行加密处理。

对脱敏数据进行加密处理的步骤包括：对得到的脱敏数据设置访问权限，访问权限包括密匙和用户名，用以对敏感数据进行保护。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据中台敏感数据脱敏方法，其特征在于，包括以下步骤：

S1：获取需要进行脱敏的待处理数据；

2.根据权利要求1所述的一种基于数据中台敏感数据脱敏方法，其特征在于，所述脱敏模型中的数据分类采用kmeans聚类算法，将待处理的脱敏数据置于数据库中进行聚类处理，得到与待处理的脱敏数据的数据类型，根据得到的数据类型输出属于脱敏类型的待处理数据。

3.根据权利要求1所述的一种基于数据中台敏感数据脱敏方法，其特征在于，所述修正模型中的知识图谱以提取出的敏感数据导致敏感程度的条件概率以及敏感程度到敏感数据的关联程度的条件概率为权重，将两个条件概率进行拼接，形成强化学习模型的动作选择。

4.根据权利要求3所述的一种基于数据中台敏感数据脱敏方法，其特征在于，所述修正模型中的敏感数据与敏感程度的映射采用深度学习算法根据数据库进行建模，深度学习算法采用卷积神经网络完成，所述卷积神经网络由编码器路径和解码器路径组成，所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成。

5.根据权利要求1所述的一种基于数据中台敏感数据脱敏方法，其特征在于，还包括将得到的脱敏数据进行加密处理的步骤。

6.根据权利要求5所述的一种基于数据中台敏感数据脱敏方法，其特征在于，所述对脱敏数据进行加密处理的步骤包括：对得到的脱敏数据设置访问权限，访问权限包括密匙和用户名。