CN111813808A - 一种大数据快速脱敏的方法及装置 - Google Patents

一种大数据快速脱敏的方法及装置 Download PDF

Info

Publication number
CN111813808A
CN111813808A CN202010525129.XA CN202010525129A CN111813808A CN 111813808 A CN111813808 A CN 111813808A CN 202010525129 A CN202010525129 A CN 202010525129A CN 111813808 A CN111813808 A CN 111813808A
Authority
CN
China
Prior art keywords
data
sensitive
desensitization
private
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010525129.XA
Other languages
English (en)
Inventor
赵川
陈飞
王国平
赵莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan Power Grid Co Ltd
Original Assignee
Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan Power Grid Co Ltd filed Critical Yunnan Power Grid Co Ltd
Priority to CN202010525129.XA priority Critical patent/CN111813808A/zh
Publication of CN111813808A publication Critical patent/CN111813808A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及一种大数据快速脱敏的方法及装置。本发明包括:使用AI算法使用Ai算法对数据进行自动识别,筛选出敏感信息区,并对敏感信息进行分类,对各类隐私数据实现自动脱敏;脱敏步骤包括:对隐私数据进行打标签,将数据进行分类;对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;对不同类型的隐私数据进行移除或者脱敏。本发明能提供各类数据库数据转化的智能操作,实现了跨数据库的快速装载,实现了多数据拆分与数据整合操作,实现了业务及数据智能关联性分析。

Description

一种大数据快速脱敏的方法及装置
技术领域
本发明涉及一种大数据快速脱敏的方法及装置,属于大数据技术领域。
背景技术
伴随着互联网发展的迅猛发展和金融行业的持续进步,各类复杂的业务系统会产生大量的业务数据和用户数据,用户数据的安全性变的越来越重要,所以在测试环节和开发环节需要用到大量的生产数据区验证业务的可靠性和正确性,因此数据安全性就变的越来越重要。
因此数据从生产环境迁移到各类测试开发环境中需要制定完整的流程来符合安全要求、审计监管要求,主要是为了避免在数据传递转化过程中发生、损坏、泄露,带来严重的经济损失。
为了保证数据的安全性一般会使用一下一些常见的步骤去解决问题:
(1)通过数据库的基础功能完成全量或者增量部分的数据提取;
操作方式简单快捷可以直接获取;
确定:数据没有丝毫隐私可言,没有经过处理的数据DBA可以轻松获取泄露风险很大;
(2)数据移交测试部门和开发部门后进行脱敏和数据处理;
厂商人员省时省力,对第三方需要有完全信任;
如果第三方处理流程出现问题会存在严重的泄露风险;
第三发处理数据过程的水平良莠不齐,很多都是通过简单的数据处理方式对关键字段进行了模糊处理,如果多业务不熟悉会导致很多数据在脱敏后无法正常使用。
(3)通过ETL抽取数据的方式进行对关键字段的整理、合并、拆分等操作
对甲方数据管理人员要求较高,数据保密性好;
处理大量数据时会经常出现性能问题,有可能在处理百万数据过程中要出现以天为单位的处理时间。
发明内容
本发明提供了一种大数据快速脱敏的方法及装置,解决了数据从生产环境移植到测试环境和开发环境过程中的安全性,数据在迁移过程中只展示结构不展示数据;解决数据移植过程中性能问题保证百万级数据短时间窗口快速迁移完毕;解决了数据迁移过程中关键敏感字段的模糊化处理,保证关键字段数据的可用性和不可逆性;解决了数据迁移过程中的迁移量控制。
本发明的技术方案是:一种大数据快速脱敏的方法,包括:
使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;
批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义;
用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
进一步地,对各类隐私数据实现自动脱敏的具体步骤包括:
对隐私数据进行打标签,将数据进行分类;
对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;
对不同类型的隐私数据进行移除或者脱敏;
针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
一种大数据快速脱敏的装置,包括:
AI数据智能发现模块,用于使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
数据匹配识别模块,用于对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;
批量高性能数据抽取模块,用于批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
AI数据漂白算法模块,用于根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义;
数据快速抽取装载模块,用于用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
进一步地,所述AI数据智能发现模块还包括:
打标签模块,用于对隐私数据进行打标签,将数据进行分类;
识别模块,用于对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;
脱敏模块,用于对不同类型的隐私数据进行移除或者脱敏;
衡量模块,用于针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
本发明的有益效果是:
本发明帮助对数据敏感的企业及机构提供统一访问数据的方式,标准化数据脱敏的完整流程,在实施数据脱敏的过程中最大化的防止了私有化数据意外泄露的风险。
本发明主要是解决在数据脱敏过程中的数据保护问题,脱敏过程中大数据量的智能处理问题,最后帮助用户将数据对接到非生产环境中使用;
本发明能提供各类数据库数据转化的智能操作,实现了跨数据库的快速装载,实现了多数据拆分与数据整合操作,实现了业务及数据智能关联性分析。
附图说明
图1是根据示例性实施示出的实施流程图;
图2是示例性的示出了一种基本的流程图例;
图3是示例性的示出了一种脱敏前的实例表示图;
图4是示例性的示出了一种在实体序列化前对数据进行脱敏的具体流程图;
图5是示例性的示出了一种脱敏后的实例表示图。
具体实施方式
实施例1:一种大数据快速脱敏的方法,包括:
使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;
批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义;
用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
进一步地,对各类隐私数据实现自动脱敏的具体步骤包括:
对隐私数据进行打标签,将数据进行分类;
对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;
对不同类型的隐私数据进行移除或者脱敏;
针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
一种大数据快速脱敏的装置,包括:
AI数据智能发现模块,用于使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
数据匹配识别模块,用于对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;
批量高性能数据抽取模块,用于批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
AI数据漂白算法模块,用于根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义;
数据快速抽取装载模块,用于用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
进一步地,所述AI数据智能发现模块还包括:
打标签模块,用于对隐私数据进行打标签,将数据进行分类;
识别模块,用于对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;
脱敏模块,用于对不同类型的隐私数据进行移除或者脱敏;
衡量模块,用于针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
实施例2:如图1-5所示,一种大数据快速脱敏的方法,包括:
步骤一、AI数据智能发现:
用户的隐私数据保护和挖掘数据的价值是相互冲突的,彻底数据脱敏将会模糊所有的用户标识信息,使得数据的分析价值大大降低,但保留隐私数据信息又导致用户隐私泄露的风险无法控制。因此本数据脱敏设计的目的并不是使用算法将用户的隐私信息全部抹去,而是在可控数据泄露风险、可管理数据和可审计的前提下对用户隐私数据进行脱敏。
所以在想对隐私数据脱敏之前,我们需先识别出那些数据为敏感数据,以及敏感的严重程度,从而来决定对数据脱敏使用的算法和脱敏的程度。
使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
进一步地,对各类隐私数据实现自动脱敏的具体步骤包括:
S1、对隐私数据进行打标签,将数据分为4类,分别为:
1.可识别列:能确切定位到某个人的列,例如:身份证号,地址,姓名等。
2.半标识列:需要多个列一起来定位识别到某个人,单一列是不能定位到个人,如生日,性别,年龄等
3.包含用户敏感信息的列,如交易金额,疾病或收入等。
4.其他不包含用户敏感信息的列;
S2、对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型,以便使用不同的算法对敏感数据进行脱敏;
S3、对不同类型的隐私数据进行移除或者脱敏使得攻击者无法直接标识用户。这里用到的脱敏算法有如下:
1.Hiding:将数据替换成一个随机的常量,常用作不需要该敏感字段时,如543000->0;
2.Hashing:将数据映射为一个hash值,常用作将不定长数据映射成定长的hash值,如:mysql→45639876553;
3.Permutation:将数据映射成另一个值,可以通过映射值找回原始值,并且支持聚合或者连接操作。Python→spefde;
4.Shift/Floor(偏移或取整):通过随机移动数据的位置,来改变数据。Shift:为数据值增加一个固定的偏移量,隐藏数值部分特征,如:345—>1345,257—>1257,Floor:数据或日期取整,如:28—>20,20190506 12:30:14–>20190506;
5.Enumeration:将数据映射为新值,同时保持数据顺序。如5000→25000,400->20000;
6.Truncation:将数据尾部截断,只保留前半部分。023-555555→023;
7.Prefix-preserving:保持IP的前n位不变,混淆其他部分。10.199.90.105→10.199.32.12;
8.Mask(掩码屏蔽):数据长度不变,只保留部分数据信息,主要用在账户类数据的部分信息脱敏。如:123456789→123****89;
9.加密脱敏:线性散列算法:MD5,SHA1,HMAC;非对称性加密算法:RSA,DSA,ECC;对称性加密算法:AES,DES,3DES
S4、针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
下面是用到的衡量隐私数据泄露的算法:
1、K-Anonymity(匿名算法):要求对于任意一行数据,其所在的等价组(相等集)中的内纪录数量大于等于k,即针对大数据在进行链接攻击时,对于任意一条记录的攻击都,同时都有k-1条项目记录,这使得攻击者确定为确定用户隐私数据的概率为1/k,从而起到保护用户隐私的作用。对于K-Anonymity的数据集,攻击者可能通过同质属性攻击与背景知识攻击两种方式攻击用户的属性信息。
2、L-Diversity:要求每一个等价组(相等集)的敏感属性至少有L个不同的值,l-diversity使得攻击者在确定等价组的基础上只有1/L的概率确认某用户的敏感信息。下面是l-diversity的定义:如果RT{A1,A2,…,An}满足k-匿名,且同一等价类中的记录至少有L个"较好表现"(Well-represented)的值,则称匿名数据表RT{A1,A2,...An}是L-多样性的。这里的"较好表现"有下面多种解释:
1.不可区分:同一等价组至少出现L个不相同的敏感属性值。
2.基于熵:同一相等集中敏感属性的信息熵Entropy(E)>logL。相同组E的敏感属性的信息熵定义为:Entropy(E)=-∑s∈Sp(E,s)logp(E,s),这里的S为敏感属性值域,p(E,s)为敏感属性值s在相同组E中出现的概率。
3.递归:每个相同组都满足ri<c(rl+rl+1+…+rm)。这里的m表表示相同组中不同敏感属性值的个数,ri表示该相同组中第i(l≤i<<m)频繁的敏感属性值的个数。递归(c,l)-diversity保证了相同组中频率最高的敏感属性值出现的频率不会太高。L-Diversity只是用来衡量相等集的不同属性值数量,并没有衡量不同属性值的分布,所以其在衡量属性泄露风险上仍有不足之处。
3、T-Closeness:在l-diversity基础上,考虑到敏感属性的分布,要求如果一个相等组的敏感数据的分布尽量的接近敏感数据的全局分布。这样减弱半标识属性和特定敏感信息的联系,是的攻击者更难通过敏感信息的分布信息来推断出个人的敏感信息。
通过这3种算法来评估信息脱敏后信息的泄露风险,进而对脱敏算法进行优化,使得隐私数据泄露风险降低。
步骤二、数据匹配识别:
对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;数据匹配脱敏过程支持多级处理,数据反清洗功彻底保证数据安全性,保证隐私数据的完整性能准确性。
步骤三、批量高性能数据抽取:
批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
步骤四、AI数据漂白:
根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义:
无限接近真实数据模拟;
保证脱敏后业务数据的相关性;
保证脱敏后数据的非重复性和唯一性;
支持关键数据的多次转加密计算。
步骤五、转化数据快速抽取装载:
用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
如图2示例性的示出了一种基本的流程图,此图中包含的数据迁移处理基本步骤为:
第一步:自动读取全库表结构信息,生成数据库关联的逻辑拓扑;
第二步:选取需要抽取的各个表中的字段数据,关联脱敏标识信息;
第三步:自动执行数据抽取任务进行漂白脱敏及漂白操作;
第四步:将预处理数据进行分库分表管理,用户根据使用需求进行自动抽取灌装操作,操作过程支持批量模式和单笔模式和各类复杂的组合操作
图3是示例性的示出了一种脱敏前的实例表示图;如图3中,打日志之前,获得脱敏的数据就两个步骤:[拿到要输入的数据(user实体)]→[进行序列化],所以要进行数据脱敏可以考虑在这两个步骤上进行实现。第一个方法就是在序列化实体之前先把需要脱敏的字段进行处理,之后正常序列化;第二个方法就是在实体序列化的时候,对要脱敏的字段进行处理;图4是示例性的示出了一种在实体序列化前对数据进行脱敏的具体流程图;图5是示例性的示出了一种脱敏后的实例表示图。
一种大数据快速脱敏的装置,包括:
AI数据智能发现模块,用于使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
数据匹配识别模块,用于对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;
批量高性能数据抽取模块,用于批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
AI数据漂白算法模块,用于根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义;
数据快速抽取装载模块,用于用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
进一步地,所述AI数据智能发现模块还包括:
打标签模块,用于对隐私数据进行打标签,将数据进行分类;
识别模块,用于对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;
脱敏模块,用于对不同类型的隐私数据进行移除或者脱敏;
衡量模块,用于针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种大数据快速脱敏的方法,其特征在于,包括:
使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;
批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义;
用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
2.根据权利要求1所述的大数据快速脱敏的方法,其特征在于,对各类隐私数据实现自动脱敏的具体步骤包括:
对隐私数据进行打标签,将数据进行分类;
对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;
对不同类型的隐私数据进行移除或者脱敏;
针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
3.一种大数据快速脱敏的装置,其特征在于,包括:
AI数据智能发现模块,用于使用AI算法对数据进行建模,通过训练的模型来自动进行数据表的扫描分析,找到存在的敏感数据区以及敏感数据类型,对各类隐私数据实现自动脱敏;
数据匹配识别模块,用于对隐私数据进行敏感匹配,定位具体属于敏感数据的特征及数量,在处理过程中自动处理各类错误信息;
批量高性能数据抽取模块,用于批量对数据进行抽取,数据抽取后生产数据源能选择自动清空,只保证对新生成的数据源的可见性,抽取后的数据能放在数据缓冲区多次使用,对不可重复字段需求支持数据的二次清洗;
AI数据漂白算法模块,用于根据数据的隐私安全级别,内置了数据模拟规则AI引擎,同时支持手动的正则驱动引擎对数据规则进行定义;
数据快速抽取装载模块,用于用户可根据需求进行数据的抽取和选择,选择过程支持:数据库平台跨数据平台互转、能实现非转化数据自动抽取、全库数据操作、抽取数据高性能写入。
4.根据权利要求3所述的大数据快速脱敏的装置,其特征在于,所述AI数据智能发现模块还包括:
打标签模块,用于对隐私数据进行打标签,将数据进行分类;
识别模块,用于对需要进行脱敏的标签数据进行预处理,提取属于敏感数据的特征及数量,将特征数据使用神经网络算法,进行训练生成模型,然后再通过模型对数据进行自动扫描分析,识别出存在的敏感数据区以及敏感数据的类型;
脱敏模块,用于对不同类型的隐私数据进行移除或者脱敏;
衡量模块,用于针对不同的隐私数据泄露类型,采用不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险。
CN202010525129.XA 2020-06-10 2020-06-10 一种大数据快速脱敏的方法及装置 Pending CN111813808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010525129.XA CN111813808A (zh) 2020-06-10 2020-06-10 一种大数据快速脱敏的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010525129.XA CN111813808A (zh) 2020-06-10 2020-06-10 一种大数据快速脱敏的方法及装置

Publications (1)

Publication Number Publication Date
CN111813808A true CN111813808A (zh) 2020-10-23

Family

ID=72845785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010525129.XA Pending CN111813808A (zh) 2020-06-10 2020-06-10 一种大数据快速脱敏的方法及装置

Country Status (1)

Country Link
CN (1) CN111813808A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158233A (zh) * 2021-03-29 2021-07-23 重庆首亨软件股份有限公司 数据预处理方法、装置及计算机存储介质
CN113268771A (zh) * 2021-05-26 2021-08-17 深圳泰莱生物科技有限公司 一种人体临床数据脱敏方法
CN113868697A (zh) * 2021-08-25 2021-12-31 中通服公众信息产业股份有限公司 一种基于电信数据仓库实时分析数据脱敏的方法
CN115766211A (zh) * 2022-11-14 2023-03-07 江苏红网技术股份有限公司 一种基于灵活规则的敏感数据识别系统及其方法
CN116049877A (zh) * 2022-12-30 2023-05-02 中国—东盟信息港股份有限公司 一种隐私数据识别和脱敏的方法、系统、设备及存储介质
CN117786732A (zh) * 2023-05-05 2024-03-29 中国标准化研究院 一种基于大数据信息脱敏方法的智慧机关数据存储系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏系统及方法
CN110727761A (zh) * 2019-09-16 2020-01-24 腾讯科技(深圳)有限公司 对象信息获取方法、装置及电子设备
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏系统及方法
CN110727761A (zh) * 2019-09-16 2020-01-24 腾讯科技(深圳)有限公司 对象信息获取方法、装置及电子设备
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158233A (zh) * 2021-03-29 2021-07-23 重庆首亨软件股份有限公司 数据预处理方法、装置及计算机存储介质
CN113158233B (zh) * 2021-03-29 2023-06-27 重庆首亨软件股份有限公司 数据预处理方法、装置及计算机存储介质
CN113268771A (zh) * 2021-05-26 2021-08-17 深圳泰莱生物科技有限公司 一种人体临床数据脱敏方法
CN113868697A (zh) * 2021-08-25 2021-12-31 中通服公众信息产业股份有限公司 一种基于电信数据仓库实时分析数据脱敏的方法
CN113868697B (zh) * 2021-08-25 2024-04-19 中通服公众信息产业股份有限公司 一种基于电信数据仓库实时分析数据脱敏的方法
CN115766211A (zh) * 2022-11-14 2023-03-07 江苏红网技术股份有限公司 一种基于灵活规则的敏感数据识别系统及其方法
CN115766211B (zh) * 2022-11-14 2023-11-24 江苏红网技术股份有限公司 一种敏感数据识别系统的敏感数据识别方法
CN116049877A (zh) * 2022-12-30 2023-05-02 中国—东盟信息港股份有限公司 一种隐私数据识别和脱敏的方法、系统、设备及存储介质
CN116049877B (zh) * 2022-12-30 2024-05-28 中国—东盟信息港股份有限公司 一种隐私数据识别和脱敏的方法、系统、设备及存储介质
CN117786732A (zh) * 2023-05-05 2024-03-29 中国标准化研究院 一种基于大数据信息脱敏方法的智慧机关数据存储系统
CN117786732B (zh) * 2023-05-05 2024-05-31 中国标准化研究院 一种基于大数据信息脱敏方法的智慧机关数据存储系统

Similar Documents

Publication Publication Date Title
CN111813808A (zh) 一种大数据快速脱敏的方法及装置
US12056583B2 (en) Target variable distribution-based acceptance of machine learning test data sets
EP2565802B1 (en) Data masking setup
CA2564307C (en) Data record matching algorithms for longitudinal patient level databases
US20120041791A1 (en) Systems and methods for de-identification of personal data
US12008137B2 (en) Systems and method of contextual data masking for private and secure data linkage
US11386216B2 (en) Verification of privacy in a shared resource environment
US11386224B2 (en) Method and system for managing personal digital identifiers of a user in a plurality of data elements
US20200074104A1 (en) Controlling access to data in a database based on density of sensitive data in the database
US11893136B2 (en) Token-based data security systems and methods with cross-referencing tokens in freeform text within structured document
JP2000324094A (ja) 情報を非個人化する装置および方法
KR20040088036A (ko) 실시간 데이터 웨어하우징
Arita Species co‐occurrence analysis: pairwise versus matrix‐level approaches
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
JP2006350399A (ja) 重要度取得装置、セキュリティ設計支援システム、関連度取得装置及びプログラム
JP2020003989A (ja) 個人情報分析システム、及び個人情報分析方法
US20200320223A1 (en) Centralized system for sensitive data conversion
KR102418984B1 (ko) 사용환경에 대한 위험에 따른 정보집합물을 가명 처리하는 시스템 및 그 제어방법
CN116304251A (zh) 标签处理方法、装置、计算机设备和存储介质
CN114662095A (zh) 基于操作数据的安全监测方法、装置、设备及存储介质
US11443064B2 (en) Verifiable removal of item of confidential information from data of a record
KR102489574B1 (ko) 가명정보 파일을 판별하기 위한 정보집합물 내에 삽입된 서명을 포함하는 가명정보 파일의 생성 및 판별 방법, 장치 및 컴퓨터프로그램
EP3402117B1 (en) Method, apparatus, and computer-readable medium for automated construction of data masks
CN117114879A (zh) 合规性判定的业务确定方法、装置、电子设备和存储介质
CN118504036A (zh) 企业数据脱敏管控方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination