CN113239392A - 一种基于数据中台敏感数据脱敏方法 - Google Patents
一种基于数据中台敏感数据脱敏方法 Download PDFInfo
- Publication number
- CN113239392A CN113239392A CN202110361377.XA CN202110361377A CN113239392A CN 113239392 A CN113239392 A CN 113239392A CN 202110361377 A CN202110361377 A CN 202110361377A CN 113239392 A CN113239392 A CN 113239392A
- Authority
- CN
- China
- Prior art keywords
- data
- desensitization
- sensitive
- model
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种基于数据中台敏感数据脱敏方法,包括以下步骤:S1:获取需要进行脱敏的待处理数据;S2:建立脱敏模型,利用数据库对待处理的数据进行数据分类,提取出具有敏感类型的数据;S3:采用修正模型利用机器学习算法基于知识图谱对脱敏模型生成的敏感类型的数据进行处理,获取脱敏数据,将得到的脱敏数据进行加密处理。本发明利用聚类算法对数据进行初步处理,得到敏感类型数据,再利用强化学习算法和深度学习算法对数据进行脱敏,可有效提高数据脱敏的有效性,且人工智能算法不容易被破解,具有很强的灵活性,极大提高了数据的安全性,减少了人们信息泄露的安全隐患。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于数据中台敏感数据脱敏方法。
背景技术
随着信息技术的迅猛发展以及大数据的普及,数据流通越来越便利,也使得敏感数据在流通过程中缺乏管控,导致机密数据流失,给人们带来了不必要的风险与隐患,因此,需要利用有效的方法来对敏感数据进行管控,从而实现对数据的有效保护,防止敏感数据泄露,目前的敏感数据脱敏的方法主要采用计算机软件的方式进行数据处理,但目前的计算机软件在处理数据的过程中容易被破解,导致数据很难有效的处理敏感数据。
发明内容
为了至少解决或部分解决上述问题,提供一种基于数据中台敏感数据脱敏方法,采用具备灵活性的算法来解决目前脱敏效率低的问题,以及处理数据被破解的问题。
为了达到上述目的,本发明提供了如下的技术方案:
本发明一种基于数据中台敏感数据脱敏方法,包括以下步骤:
S1:获取需要进行脱敏的待处理数据;
S2:建立脱敏模型,利用数据库对待处理的数据进行数据分类,提取出具有敏感类型的数据;
S3:采用修正模型利用机器学习算法基于知识图谱对脱敏模型生成的敏感类型的数据进行处理,获取脱敏数据。
作为本发明的一种优选技术方案,所述脱敏模型中的数据分类采用kmeans聚类算法,将待处理的脱敏数据置于数据库中进行聚类处理,得到与待处理的脱敏数据的数据类型,根据得到的数据类型输出属于脱敏类型的待处理数据。
作为本发明的一种优选技术方案,所述修正模型中的知识图谱以提取出的敏感数据导致敏感程度的条件概率以及敏感程度到敏感数据的关联程度的条件概率为权重,将两个条件概率进行拼接,形成强化学习模型的动作选择。
作为本发明的一种优选技术方案,所述修正模型中的敏感数据与敏感程度的映射采用深度学习算法根据数据库进行建模,深度学习算法采用卷积神经网络完成,所述卷积神经网络由编码器路径和解码器路径组成,所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成。
作为本发明的一种优选技术方案,还包括将得到的脱敏数据进行加密处理的步骤。
作为本发明的一种优选技术方案,所述对脱敏数据进行加密处理的步骤包括:对得到的脱敏数据设置访问权限,访问权限包括密匙和用户名。
与现有技术相比,本发明的有益效果如下:
本发明利用聚类算法对数据进行初步处理,得到敏感类型数据,再利用强化学习算法和深度学习算法对数据进行脱敏,可有效提高数据脱敏的有效性,且人工智能算法不容易被破解,具有很强的灵活性,极大提高了数据的安全性,减少了人们信息泄露的安全隐患。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的方法流程示意图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
此外,如果已知技术的详细描述对于示出本发明的特征是不必要的,则将其省略。
实施例1
如图1所示,本发明提供一种基于数据中台敏感数据脱敏方法,包括以下步骤:
S1:获取需要进行脱敏的待处理数据;
S2:建立脱敏模型,利用数据库对待处理的数据进行数据分类,提取出具有敏感类型的数据;
S3:采用修正模型利用机器学习算法基于知识图谱对脱敏模型生成的敏感类型的数据进行处理,获取脱敏数据。
进一步,所述脱敏模型中的数据分类采用kmeans聚类算法,将待处理的脱敏数据置于数据库中进行聚类处理,得到与待处理的脱敏数据的数据类型,根据得到的数据类型输出属于脱敏类型的待处理数据;
kmeans聚类算法将数据库中的数据分为k类,并为每个类别设置类心,计算当前待处理的数据的类心识别他的类别,输出具有脱敏类型的待处理数据,在输出脱敏类型的数据之后,还需要对脱敏类型数据里的敏感数据进行查验,因此,还需要利用修正模型中的知识图谱来提取出的敏感数据,所述修正模型采用q强化学习和LSTM深度神经网络结合的学习模型,其中,修正模型中的知识图谱以提取出的敏感数据导致敏感程度的条件概率以及敏感程度到敏感数据的关联程度的条件概率为权重,将两个条件概率进行拼接,形成强化学习模型的动作选择。
修正模型中的敏感数据与敏感程度的映射采用深度学习算法根据数据库进行建模,深度学习算法采用卷积神经网络完成,所述卷积神经网络由编码器路径和解码器路径组成,所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成,编码器路径利用卷积层生成编码器数据,然后使用归一化进行处理,Relu激活函数将其激活,解码器路径使用反卷积层对编码器生成的数据进行解码,利用后馈传播的方式进行学习调整,然后使用归一化进行处理,Relu激活函数将其激活。
在得到脱敏数据之后,需要对得到的脱敏数据进行加密处理。
对脱敏数据进行加密处理的步骤包括:对得到的脱敏数据设置访问权限,访问权限包括密匙和用户名,用以对敏感数据进行保护。
本发明利用聚类算法对数据进行初步处理,得到敏感类型数据,再利用强化学习算法和深度学习算法对数据进行脱敏,可有效提高数据脱敏的有效性,且人工智能算法不容易被破解,具有很强的灵活性,极大提高了数据的安全性,减少了人们信息泄露的安全隐患。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于数据中台敏感数据脱敏方法,其特征在于,包括以下步骤:
S1:获取需要进行脱敏的待处理数据;
S2:建立脱敏模型,利用数据库对待处理的数据进行数据分类,提取出具有敏感类型的数据;
S3:采用修正模型利用机器学习算法基于知识图谱对脱敏模型生成的敏感类型的数据进行处理,获取脱敏数据。
2.根据权利要求1所述的一种基于数据中台敏感数据脱敏方法,其特征在于,所述脱敏模型中的数据分类采用kmeans聚类算法,将待处理的脱敏数据置于数据库中进行聚类处理,得到与待处理的脱敏数据的数据类型,根据得到的数据类型输出属于脱敏类型的待处理数据。
3.根据权利要求1所述的一种基于数据中台敏感数据脱敏方法,其特征在于,所述修正模型中的知识图谱以提取出的敏感数据导致敏感程度的条件概率以及敏感程度到敏感数据的关联程度的条件概率为权重,将两个条件概率进行拼接,形成强化学习模型的动作选择。
4.根据权利要求3所述的一种基于数据中台敏感数据脱敏方法,其特征在于,所述修正模型中的敏感数据与敏感程度的映射采用深度学习算法根据数据库进行建模,深度学习算法采用卷积神经网络完成,所述卷积神经网络由编码器路径和解码器路径组成,所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成。
5.根据权利要求1所述的一种基于数据中台敏感数据脱敏方法,其特征在于,还包括将得到的脱敏数据进行加密处理的步骤。
6.根据权利要求5所述的一种基于数据中台敏感数据脱敏方法,其特征在于,所述对脱敏数据进行加密处理的步骤包括:对得到的脱敏数据设置访问权限,访问权限包括密匙和用户名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361377.XA CN113239392A (zh) | 2021-04-02 | 2021-04-02 | 一种基于数据中台敏感数据脱敏方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110361377.XA CN113239392A (zh) | 2021-04-02 | 2021-04-02 | 一种基于数据中台敏感数据脱敏方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239392A true CN113239392A (zh) | 2021-08-10 |
Family
ID=77130955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110361377.XA Pending CN113239392A (zh) | 2021-04-02 | 2021-04-02 | 一种基于数据中台敏感数据脱敏方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239392A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742758A (zh) * | 2021-11-04 | 2021-12-03 | 浙江华云信息科技有限公司 | 基于中台的数据集权限管控方法、系统及存储介质 |
CN114691894A (zh) * | 2022-05-30 | 2022-07-01 | 国网浙江省电力有限公司 | 电子信息全链路知识图谱的无纸化财务数据管理方法 |
CN115550236A (zh) * | 2022-08-31 | 2022-12-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270370A1 (en) * | 2007-04-30 | 2008-10-30 | Castellanos Maria G | Desensitizing database information |
CN109977222A (zh) * | 2019-03-05 | 2019-07-05 | 广州海晟科技有限公司 | 数据敏感行为的识别方法 |
CN110851860A (zh) * | 2019-10-23 | 2020-02-28 | 国网天津市电力公司电力科学研究院 | 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法 |
CN111428273A (zh) * | 2020-04-23 | 2020-07-17 | 北京中安星云软件技术有限公司 | 基于机器学习的动态脱敏方法及装置 |
CN112163160A (zh) * | 2020-10-12 | 2021-01-01 | 广西师范大学 | 基于知识图谱的敏感识别方法 |
-
2021
- 2021-04-02 CN CN202110361377.XA patent/CN113239392A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080270370A1 (en) * | 2007-04-30 | 2008-10-30 | Castellanos Maria G | Desensitizing database information |
CN109977222A (zh) * | 2019-03-05 | 2019-07-05 | 广州海晟科技有限公司 | 数据敏感行为的识别方法 |
CN110851860A (zh) * | 2019-10-23 | 2020-02-28 | 国网天津市电力公司电力科学研究院 | 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法 |
CN111428273A (zh) * | 2020-04-23 | 2020-07-17 | 北京中安星云软件技术有限公司 | 基于机器学习的动态脱敏方法及装置 |
CN112163160A (zh) * | 2020-10-12 | 2021-01-01 | 广西师范大学 | 基于知识图谱的敏感识别方法 |
Non-Patent Citations (1)
Title |
---|
王毅: ""智能电站数据中台建设与应用"", 《中国电力》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742758A (zh) * | 2021-11-04 | 2021-12-03 | 浙江华云信息科技有限公司 | 基于中台的数据集权限管控方法、系统及存储介质 |
CN114691894A (zh) * | 2022-05-30 | 2022-07-01 | 国网浙江省电力有限公司 | 电子信息全链路知识图谱的无纸化财务数据管理方法 |
CN115550236A (zh) * | 2022-08-31 | 2022-12-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
CN115550236B (zh) * | 2022-08-31 | 2024-04-30 | 国网江西省电力有限公司信息通信分公司 | 一种面向安全中台资源池路由优化的数据保护方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239392A (zh) | 一种基于数据中台敏感数据脱敏方法 | |
CN111324911B (zh) | 一种隐私数据保护方法、系统及装置 | |
CN104462970B (zh) | 一种基于进程通信的Android应用程序权限滥用检测方法 | |
US10735403B1 (en) | Chaff password generation based on distribution-based modifications of base passwords | |
CN112765659B (zh) | 针对大数据云服务的数据泄露防护方法及大数据服务器 | |
Luo et al. | A CNN-based Approach to the Detection of SQL Injection Attacks | |
CN111737750A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN106951796A (zh) | 一种数据隐私保护的脱敏方法及其装置 | |
CN113221032A (zh) | 链接风险检测方法、装置以及存储介质 | |
CN107783877B (zh) | 基于变异分析的硬件木马有效激活的测试向量生成方法 | |
CN114863226A (zh) | 一种网络物理系统入侵检测方法 | |
WO2020234515A1 (en) | Compatible anonymization of data sets of different sources | |
CN114662133A (zh) | 一种基于差分隐私保护的积极防御方法及系统 | |
CN113946560A (zh) | 一种数据库安全管理方法及系统 | |
CN109670339B (zh) | 基于本体的面向隐私保护的访问控制方法及装置 | |
CN116150765A (zh) | 一种基于api依赖的模糊变异方法及装置 | |
KR102357630B1 (ko) | 제어시스템 보안이벤트의 공격전략 분류 장치 및 방법 | |
CN113676455A (zh) | 一种自适应跨域访问认证方法、系统、终端以及存储介质 | |
CN108830103B (zh) | 一种自动化生成用户隐私策略的方法及其装置、手持设备 | |
CN111611312A (zh) | 一种利用规则引擎、区块链技术为基础的数据脱敏方法 | |
CN111767575A (zh) | 数据防爬方法、装置、设备及计算机可读存储介质 | |
CN117216280B (zh) | 敏感数据识别模型的增量学习方法、识别方法和装置 | |
Mora et al. | Enforcing corporate security policies via computational intelligence techniques | |
CN117389155B (zh) | 一种无人机集群的自适应故障检测方法及系统 | |
CN114817937A (zh) | 键盘加密方法、设备、存储介质及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20230228 |