CN117708883A - 面向数据开放的高性能个人信息脱敏方法与系统 - Google Patents

面向数据开放的高性能个人信息脱敏方法与系统 Download PDF

Info

Publication number
CN117708883A
CN117708883A CN202410153939.5A CN202410153939A CN117708883A CN 117708883 A CN117708883 A CN 117708883A CN 202410153939 A CN202410153939 A CN 202410153939A CN 117708883 A CN117708883 A CN 117708883A
Authority
CN
China
Prior art keywords
personal information
desensitization
strategy
identification
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410153939.5A
Other languages
English (en)
Inventor
廖佳纯
陈海粟
董伟
姚思诚
焦文品
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanhu Laboratory
Original Assignee
Nanhu Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanhu Laboratory filed Critical Nanhu Laboratory
Priority to CN202410153939.5A priority Critical patent/CN117708883A/zh
Publication of CN117708883A publication Critical patent/CN117708883A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及信息安全技术领域,尤其涉及一种面向数据开放的高性能个人信息脱敏方法与系统。该方法包括通过待脱敏数据获取,确认需要识别的个人信息类型及其识别规则,并确认对应的个人信息类型在进行脱敏处理时的脱敏策略,个人信息识别与定位和对识别到的承载个人信息的字符进行自适应脱敏处理,并根据字符定位在副本数据表中完成替换。通过本发明的脱敏方法和系统实现的面向数据开放的个人信息脱敏处理,可兼顾个人信息保护和数据开放场景下数据的真实性和可用性。

Description

面向数据开放的高性能个人信息脱敏方法与系统
技术领域
本发明属于信息安全技术领域,具体涉及一种面向数据开放的高性能个人信息脱敏方法与系统。
背景技术
以公共数据的开放为例来刻画数据开放场景,公共数据是国家相关机构在依法履职或提供公共服务过程中收集、产生的数据,个人信息是其重要组成部分。在公共数据开放的场景下,适用的数据脱敏方法需要满足数据开放后的数据可用要求的同时又需要保障数据的安全,其中脱敏算法作用的基础是个人信息的识别和脱敏规则的设定。公共数据存在数据容量大、涉及方面广、数据结构杂的特点,其中的个人信息分布多样且有隐蔽性,现有技术提供的个人信息脱敏方法不能较好满足实际情况下对公共数据的合规开放及有效利用的需求。
现有技术存在的问题如下:(1)个人信息识别方式的不足。(2)基于字段层级的脱敏规则容易导致敏感信息披露:以遮盖填充的脱敏策略为例,如图1所示,在一个手机号字段中出现一个异常值,此时对手机号字段的脱敏规则设定为从左侧第三个字符开始脱敏四个字符,在基于作用于整个字段的脱敏规则的脱敏处理下,异常值中姓名“张五”被披露。因此目前的基于字段层级的脱敏规则也无法满足数据脱敏管理的有效性原则,容易导致敏感信息披露。(3)对公共数据在设定脱敏处理的策略上脱敏对象随意和脱敏方式随意:脱敏对象随意问题表现为脱敏处理的目标不明和对于需要脱敏的对象标准和要求不明甚至出现完全脱敏与完全不脱敏的两极分化;脱敏方式随意问题表现为选取的脱敏方式会导致数据集大量可用的非敏感信息丢失。如图2所示,该残疾人信息表对于个人信息字段使用无意义字符串填充,会导致数据信息无法使用使数据失去分析使用的价值。
发明内容
本发明的发明目的是提供一种面向数据开放的高性能个人信息脱敏方法与系统,在字符层级下进行个人信息识别与定位,并能对承载敏感信息的字符自适应选择脱敏策略进行脱敏处理,实现数据开放场景下对于数据表的字符层级的精准个人信息脱敏。
为实现上述发明目的,本发明的技术方案如下:
一种面向数据开放的高性能个人信息脱敏方法,包括如下步骤:
S1待脱敏数据获取:接入数据源,从数据源中获取待脱敏的原始数据表;
S2策略设定:包含设定个人信息类型及识别规则和设定个人信息脱敏规则两个部分,每个部分的设定均含有底线策略和策略自定义两个层级,
所述设定个人信息类型及识别规则包括设定需要识别的个人信息类型及其对应的识别规则,后续的处理步骤将基于设定的识别规则所识别到的个人信息,
所述设定个人信息脱敏规则包括设定对识别到的各类个人信息进行不同脱敏处理时所需要保留的信息粒度和脱敏形式;
S3个人信息识别与定位:按照已确认策略中设定的各类个人信息类型及识别规则,对待脱敏的原始数据表进行字符层级的检测识别和定位;
S4对识别到的承载个人信息的字符进行自适应脱敏处理:对记录的具体识别到的承载个人信息的字符,按照已确认策略中设定的个人信息脱敏规则自适应地进行字符层级的脱敏处理。
本发明面向数据开放的高性能个人信息脱敏方法与系统通过围绕基于字符层级的个人信息识别与定位的模式,在一定程度上解决了原先基于字段层级的个人信息识别方法和脱敏规则因数据结构规范和异常值导致的无法准确识别并高效脱敏数据中隐藏的个人信息的问题,有效避免了数据开放后导致的个人信息披露的问题。
在上述的面向数据开放的高性能个人信息脱敏方法中,所述步骤S2中,
所述个人信息类型及识别规则设定部分的底线策略层级包括基于数据开放的场景特点和个人信息保护要求罗列直接标识性个人信息,针对直接标识性个人信息类型编写特定的识别规则,设计具有个人信息保护底线思维的基础个人信息类型及识别规则,实现对承载个人信息的字符进行识别,
所述个人信息脱敏规则设定部分的底线策略层级包括对于已设定的基础个人信息类型,针对性设计具有个人信息保护底线思维的基础的个人信息脱敏规则,对各个人信息类型在保留其数据结构特征和数据统计特征的同时移除信息的敏感性。
所述个人信息类型及识别规则设定部分的底线策略层级具体如下:基于数据开放的场景特点和相关法律法规的个人信息保护要求,罗列如个人姓名、身份证号码、手机号码等典型的直接标识性个人信息;通过结合正则表达式、命名实体识别等技术,针对这些典型的直接标识性个人信息类型编写特定的识别规则,设计基础的个人信息类型及识别规则,实现对承载个人信息的字符进行识别。
如对于个人姓名的识别需要采用基于深度学习的命名实体识别方法,对包括结构化的个人姓名和对描述类的长文本中出现的个人姓名进行识别,识别出承载个人姓名信息的字符;又如对于身份证号码等具有统一编码特征的信息的识别需要采用正则表达式进行提取并使用身份证识别规则进行校验,识别出承载身份证号码信息的字符。
所述个人信息脱敏规则设定部分的底线策略层级具体如下:对应设定基础的个人信息类型,基于数据开放的场景特点和相关法律法规的个人信息保护要求以及规避个人数据关联风险的需求,针对性设计基础的个人信息脱敏规则,要求可在对各个人信息类型在保留其数据结构特征和数据统计特征的同时,进行适当的处理以移除信息的敏感性。以个人姓名和手机号码为例,基础的个人信息脱敏规则可保留个人姓名中常见姓氏、可保留手机号码的前三位和后四位。
本发明围绕数据开放的场景特点和法律法规要求,设定底线策略,确保常见的典型直接标识性个人信息不在数据开放过程中被披露,规避个人数据关联风险。
在上述的面向数据开放的高性能个人信息脱敏方法中,所述步骤S2中,
所述个人信息类型及识别规则设定部分的策略自定义层级在底线策略的基础上,通过增删、编辑或导入相关信息类型的识别规则,自定义扩大、缩小以及调整需要进行识别及后续脱敏处理的个人信息类型,
所述个人信息脱敏规则设定部分的策略自定义层级在底线策略的基础上,选定需要进行脱敏处理的个人信息类型,设定所需要保留的信息粒度和脱敏形式。
所述个人信息脱敏规则设定部分的策略自定义层级具体如下:
在个人信息脱敏规则设定部分的底线策略的基础上,根据实际应用的需要,选定需要进行脱敏处理的个人信息类型,可选将个人信息划分至更细粒度的信息。由于各类个人信息而言,其往往由更细粒度的信息构成。
所述包括掩藏或替换等不同形式,实际应用中根据需求进行不同脱敏形式的选择。
本发明提供的策略设定方法可对于构成个人信息的更细粒度的信息字符进行高自由度的选择并执行脱敏处理;此外,选定需要进行脱敏处理的个人信息类型,还可选处理承载个人信息的字符时执行遮掩或替换的具体形式,可以采用内容标签、特殊字符等方式进行遮掩或替换,也可以设定进行遮掩或替换的部分的其实位置、终止位置或长度。
基于对承载个人信息的字符进行脱敏的模式,采用可自定义式的脱敏策略,允许用户在细粒度选择在脱敏处理时可保留的信息,以及允许用户以多种形式高自由度地实现数据脱敏,适应当前不同场景中复杂多变的脱敏要求,保障业务的灵活与高效。同时结合底线策略和用户自定义策略,可以服务于无安全合规背景的用户,也可以适用于丰富的进阶场景需求。本发明在一定程度上满足了脱敏过程需保持用于后续分析的数据真实特征的需要,避免现有脱敏处理方式所导致大量可用的非敏感信息丢失的情况并兼顾数据的准确性,以助于实现数据相关业务需求。
在上述的面向数据开放的高性能个人信息脱敏方法中,所述步骤S3中包括,
S301创建待脱敏的原始数据表的副本数据表;
S302对待脱敏的原始数据表按照字段进行拆分,再对字段内容依照识别策略对字段内容下的单元格的内容进行字符层级的检测识别,获取每一字段内容下每一单元格中隐藏的承载个人信息的字符;
S303将具体识别到的承载个人信息的字符,记录其所在的记录行索引、字段索引、其所属的信息类型以及所在的单元格的值的原文,写入指定数据库。
本发明提出的基于字符层级的个人信息识别与定位和基于对承载个人信息的字符进行脱敏的模式,具有很强的适配性,不仅可用于数据静态脱敏,还可用于数据动态脱敏。
在上述的面向数据开放的高性能个人信息脱敏方法中,所述步骤S4中包括,
S401、依据识别到的承载个人信息的字符所属的个人信息类型,从已确认策略中设定的个人信息脱敏策略集中选择该个人信息类型对应的脱敏策略;
S402、对承载个人信息的字符依照对应的脱敏策略所设定的需要保留的信息粒度和进行遮掩或替换的形式进行处理,将脱敏处理后的字符根据已记录的个人信息定位,定位至原始数据表中承载该个人信息的字符所属的位置,并在待脱敏的原始数据表的副本数据表中将该承载个人信息的字符替换为脱敏处理后的字符。
本发明的信息识别、定位和脱敏方法围绕字符层级,没有对字段名称或数据属性采用关键词的方式获取数据值,有效解决因数据结构规范和异常值导致的无法准确识别并高效脱敏数据中隐藏的个人信息的问题。
一种面向数据开放的高性能个人信息脱敏系统,包括获取待脱敏数据表的数据获取模块、策略设定模块、个人信息识别与定位模块、自适应脱敏模块和输出模块,
所述策略设定模块,对待脱敏的原始数据执行处理时所依赖的个人信息识别策略集和脱敏策略进行设定,依次包含识别策略设定子模块和脱敏策略设定子模块,
所述识别策略设定子模块,进行个人信息识别与定位时所需要依赖的个人信息识别策略集的设定,所述脱敏策略设定子模块,对识别到的承载个人信息的字符进行处理的信息粒度和脱敏形式进行设定;
所述个人信息识别与定位模块,对待脱敏的原始数据表依照已确认的识别策略集进行字符层级的个人信息识别和定位;
所述自适应脱敏模块,对识别到的承载个人信息的字符依照已确认的脱敏策略集自适应选择对应该个人信息类型的脱敏策略并进行适合的脱敏处理,将脱敏处理后的字符按照该字符在原始数据表中的定位在副本数据表中进行替换。
本发明首先通过策略设定模块,确认需要识别的个人信息类型及其识别规则,并确认对应的个人信息类型在进行脱敏处理时的脱敏策略。再通过个人信息识别与定位模块对待脱敏的数据表创建副本并进行拆分,依据设定的识别策略集中的识别算法对数据表单元格内容在字符层级进行个人信息识别与定位,获得数据表中承载个人信息的字符、所属信息类型和字符定位。然后在自适应脱敏模块中依据设定的脱敏策略集中的脱敏策略对识别到的承载个人信息的字符进行自适应的脱敏处理,并根据字符定位在副本数据表中完成替换。
在上述的面向数据开放的高性能个人信息脱敏系统中,所述识别策略设定子模块包括内置默认的基础识别策略和自定义的识别策略,
所述基础的识别策略,围绕数据开放的场景特点和相关法律法规的个人信息保护要求,为对典型的直接标识性个人信息类型默认进行识别的具有个人信息保护底线思维的策略,
所述自定义的识别策略允许用户自定义需要进行识别的个人信息类型的识别策略,自定义识别策略确认后会形成识别策略库,识别算法依照识别策略库采用策略定义的方式识别个人信息类型。
所述内置默认的基础识别策略具体如下:围绕数据开放的场景特点和相关法律法规的个人信息保护要求以及规避个人数据关联风险,本发明实施例基于正则表达式、命名实体识别等技术针对典型的直接标示性个人信息类型设计了识别算法,可应对的个人信息类型有个人姓名、身份证号码、手机号码、邮箱地址、银行卡号码、车牌号码、IP地址等常见个人信息类。
所述自定义的识别策略具体如下:允许用户自定义增删或编辑需要进行识别和脱敏处理的个人信息类型,可自主设定识别策略或导入识别策略以定义需要进行识别和脱敏处理的个人信息类型。如用户要增加教师证执业编号的个人信息类型的识别,则可以导入教师证执业编号的识别规则。自定义识别策略确认后会形成识别策略库,识别算法依照识别策略库采用策略定义的方式识别个人信息类型。
在上述的面向数据开放的高性能个人信息脱敏系统中,所述脱敏策略设定子模块包括内置默认的基础脱敏策略和自定义脱敏策略,
所述基础脱敏策略,围绕数据开放的场景特点和相关法律法规的个人信息保护要求,在对各个人信息类型在保留其数据结构特征和数据统计特征的同时移除信息的敏感性,为对基础的识别策略中的各种典型的直接标识性个人信息类型默认进行脱敏处理的具有个人信息保护底线思维的策略,
所述自定义脱敏策略,允许用户对已确定的个人信息识别类型进行脱敏策略的自定义设定,自定义脱敏策略确认后会形成脱敏策略库,脱敏处理算法依照脱敏策略库采用策略定义的方式自适应掩盖信息。
所述内置默认的基础脱敏策略具体如下:对于内置默认的基础识别策略中包含的目标个人信息类型依照有效性和真实性的原则,设定了基础的脱敏策略,可在对各个人信息类型在保留其数据结构特征和数据统计特征的同时,进行相应的处理以移除信息的敏感性。以手机号码和身份证号码为例,默认的基础脱敏策略可保留手机号码的前三位和后四位,身份证号码保留前三位和最后一位。
所述自定义的脱敏策略具体如下:允许用户对已确定的个人信息识别类型进行脱敏策略的设定,自定义脱敏策略确认后会形成脱敏策略库,脱敏处理算法依照脱敏策略库采用策略定义的方式自适应掩盖信息。包含以下两个层次:
自定义脱敏处理的细粒度信息。用户可以编辑规则对承载个人信息的字符进行解构,将目标信息划分出更细粒度的信息类型,并且允许用户选择对于目标个人信息处理时可以保留的细粒度信息类型。
自定义掩藏或替换等的脱敏形式。对于敏感数据进行的脱敏处理,本发明允许用户对承载各类个人信息的字符,按照其承载的信息类型,配置多种脱敏形式进行掩藏和替换等处理。
在上述的面向数据开放的高性能个人信息脱敏系统中,所述个人信息识别与定位模块,包括数据表预处理、个人信息识别和定位记录,
所述数据表预处理包括对待脱敏的原始数据表创建副本后,对待脱敏的原始数据表按照字段进行拆分,再对字段内容进行拆分至单元格,
所述个人信息识别包括对字段内容下的单元格的内容依照设定的识别策略集中的各识别规则构成的识别算法进行字符层级的检测识别,获取每一字段内容下每一单元格中隐藏的承载个人信息的字符,
所述定位记录包括对识别到的承载个人信息的字符按照字段索引、记录行索引、其所属的信息类型以及所在的单元格的值的原文,写入登记至指定数据库。
在上述的面向数据开放的高性能个人信息脱敏系统中,所述数据获取模块,对数据源进行获取,通过客户端接入并同步数据源导入数据表,在导入的数据表中选定待脱敏的数据表作为原始数据执行后续脱敏处理;
所述输出模块,将脱敏处理后的数据表进行脱敏效果评估对经过脱敏的各类敏感属性,进行评估指标的对比,辅助用户查看脱敏结果、验证脱敏效果,并返还输出至客户端进行展示,以供用户操作。
输出模块将脱敏处理后的数据表进行脱敏效果评估对经过脱敏的各类敏感属性,进行“等价类大小”、“信息熵”等评估指标的对比,辅助用户高效便捷地查看脱敏结果、验证脱敏效果,并返还输出至客户端进行展示,以供用户对比查看、编辑和后续进行数据开放等系列操作。
与现有技术相比,本发明的有益效果体现在:
(1)本发明面向以公共数据开放为例的数据开放场景,提出了一种高性能个人信息脱敏方法与系统,来实现数据开放场景下对于数据表的字符层级的精准个人信息脱敏。解决了当前基于字段层级的个人信息识别方法、脱敏规则导致的个人信息泄漏和个人信息未正确脱敏,以及设定脱敏策略时脱敏对象和脱敏方式随意导致的非敏感但有价值的信息丢失等问题,并且兼顾个人信息保护和数据开放场景下数据的真实性和可用性。
(2)本发明通过围绕基于字符层级的个人信息识别与定位的模式,在一定程度上解决了原先基于字段层级的个人信息识别方法和脱敏规则因数据结构规范和异常值导致的无法准确识别并高效脱敏数据中隐藏的个人信息的问题,有效避免了数据开放后导致的个人信息披露的问题。
(3)本发明围绕数据开放的场景特点和法律法规要求,设定底线策略,确保常见的典型直接标识性个人信息不在数据开放过程中被披露,规避个人数据关联风险。并且基于对承载个人信息的字符进行脱敏的模式,采用可自定义式的脱敏策略,允许用户在细粒度选择在脱敏处理时可保留的信息,以及允许用户以多种形式高自由度地实现数据脱敏,在细粒度进行信息的脱敏处理,适应当前不同场景中复杂多变的脱敏要求,保障业务的灵活与高效。同时结合底线策略和用户自定义策略,可以服务于无安全合规背景的用户,也可以适用于丰富的进阶场景需求。
(4)本发明在一定程度上满足了脱敏过程需保持用于后续分析的数据真实特征的需要,避免现有脱敏处理所导致大量可用的非敏感信息丢失的情况并兼顾数据的准确性,以助于实现数据相关业务需求。
(5)本发明提出的基于字符层级的个人信息识别与定位和基于对承载个人信息的字符进行脱敏的模式,具有很强的适配性,不仅可用于数据静态脱敏,还可用于数据动态脱敏。
(6)本发明的信息识别、定位和脱敏方法围绕字符层级,没有对字段名称或数据属性采用关键词的方式获取数据值,有效解决因数据结构规范和异常值导致的无法准确识别并高效脱敏数据中隐藏的个人信息的问题。
附图说明
图1为现有基于字段层级的脱敏规则的异常值脱敏前后情况示意图;
图2为脱敏方式随意情况示意图;
图3为身份证号码细粒度信息构成示意图;
图4为本发明面向数据开放的高性能个人信息脱敏方法流程示意图;
图5为本发明面向数据开放的高性能个人信息脱敏系统的模块流程示意图;
图6为本发明面向数据开放的高性能个人信息脱敏系统模块间的详细交互流程示意图。
具体实施方式
下面列举具体实施方式对本发明的技术方案做进一步详细说明。
实施例1
如图4所示,本实施例提供了一种面向数据开放的高性能个人信息脱敏方法,包括如下步骤:
S1待脱敏数据获取:接入数据源,从数据源中获取待脱敏的原始数据表。
S2策略设定:包含两个部分,每个部分的设定均含有两个层级,底线策略和策略自定义;
一是个人信息类型及识别规则的设定,个人信息类型及识别规则的设定为 设定需要识别的个人信息类型及其对应的识别规则,后续的处理步骤将基于设定的识别规则所识别到的个人信息;
S201、个人信息类型及识别规则设定部分的底线策略层级:基于数据开放的场景特点和相关法律法规的个人信息保护要求,罗列如个人姓名、身份证号码、手机号码等典型的直接标识性个人信息;通过结合正则表达式、命名实体识别等技术,针对这些典型的直接标识性个人信息类型编写特定的识别规则,设计基础的个人信息类型及识别规则,实现对承载个人信息的字符进行识别;
如对于个人姓名的识别需要采用基于深度学习的命名实体识别方法,对包括结构化的个人姓名和对描述类的长文本中出现的个人姓名进行识别,识别出承载个人姓名信息的字符;又如对于身份证号码等具有统一编码特征的信息的识别需要采用正则表达式进行提取并使用身份证识别规则进行校验,识别出承载身份证号码信息的字符;
S202个人信息类型及识别规则设定部分的策略自定义层级:在S201中个人信息类型及识别规则设定部分的底线策略的基础上,根据实际应用的需要,通过增删、编辑或导入相关信息类型的识别规则,可自定义扩大、缩小以及调整需要进行识别及后续脱敏处理的个人信息类型;
二是个人信息脱敏规则的设定;个人信息脱敏规则的设定为对识别到的各类个人信息设定不同脱敏处理时所需要保留的信息粒度和进行掩藏或替换等的脱敏形式;
S211、个人信息脱敏规则设定部分的底线策略层级:对应S201中设定基础的个人信息类型,基于数据开放的场景特点和相关法律法规的个人信息保护要求以及规避个人数据关联风险的需求,针对性设计基础的个人信息脱敏规则,要求可在对各个人信息类型在保留其数据结构特征和数据统计特征的同时,进行适当的处理以移除信息的敏感性;以个人姓名和手机号码为例,基础的个人信息脱敏规则可保留个人姓名中常见姓氏、可保留手机号码的前三位和后四位;
S212个人信息脱敏规则设定部分的策略自定义层级:在S211中个人信息脱敏规则设定部分的底线策略的基础上,根据实际应用的需要,选定需要进行脱敏处理的个人信息类型,可选将个人信息划分至更细粒度的信息。由于各类个人信息而言,其往往由更细粒度的信息构成。如图3所示,以身份证号码为例,身份证号码由地址编码、出生日期、顺序码和校验码构成,更细粒度的信息包含由省份、城市和区县信息构成的户口所在地址信息、由年月日信息构成的生日信息以及性别信息等。本实施例提供的策略设定方法可对于构成个人信息的更细粒度的信息字符进行高自由度的选择并执行脱敏处理;
此外,选定需要进行脱敏处理的个人信息类型,还可选处理承载个人信息的字符时执行遮掩或替换的具体形式,可以采用内容标签、特殊字符等方式进行遮掩或替换,也可以设定进行遮掩或替换的部分的其实位置、终止位置或长度。
S3个人信息识别与定位:按照已确认策略中设定的各类个人信息类型及识别规则,对待脱敏的原始数据表进行字符层级的检测识别和定位;具体步骤包括:
S301创建待脱敏的原始数据表的副本数据表;
S302首先对待脱敏的原始数据表按照字段进行拆分,再对字段内容依照识别策略对字段内容下的单元格的内容进行字符层级的检测识别,获取每一字段内容下每一单元格中隐藏的承载个人信息的字符;
S302将具体识别到的承载个人信息的字符,记录其所在的记录行索引、字段索引、其所属的信息类型以及所在的单元格的值的原文,写入指定数据库。
S4对识别到的承载个人信息的字符进行自适应脱敏处理:对记录的具体识别到的承载个人信息的字符,按照已确认策略中设定的个人信息脱敏规则自适应地进行字符层级的脱敏处理;具体步骤包括:
S401、依据识别到的承载个人信息的字符所属的个人信息类型,从已确认策略中设定的个人信息脱敏策略集选择该个人信息类型对应的脱敏策略;
S402、对承载个人信息的字符依照对应的脱敏策略所设定的需要保留的信息粒度和进行遮掩或替换的形式,进行相应的处理。将脱敏处理后的字符根据已记录的个人信息定位,定位至原始数据表中承载该个人信息的字符所属的位置,并在待脱敏的原始数据表的副本数据表中将该承载个人信息的字符替换为脱敏处理后的字符。
实施例2
如图5所示,本实施例提供了一种面向数据开放的高性能个人信息脱敏系统,该系统模块流程模块间的详细交互流程如图6所示,包括:
数据获取模块,用于对数据源进行获取,通过客户端接入并同步数据源,从数据源中导入数据表,格式为各类形式的结构化的数据表。在导入的数据表中选定待脱敏的数据表作为原始数据执行后续脱敏处理。
策略设定模块,包含两个子模块,首先是识别策略设定子模块,其次是脱敏策略设定子模块。用于对待脱敏的原始数据执行处理时所依赖的个人信息识别策略集和脱敏策略进行设定;
识别策略设定子模块,用于设定进行个人信息识别与定位时所需要依赖的个人信息识别策略集;具体包括:
内置默认的基础识别策略,围绕数据开放的场景特点和相关法律法规的个人信息保护要求以及规避个人数据关联风险,本实施例基于正则表达式、命名实体识别等技术针对典型的直接标示性个人信息类型设计了识别算法,可应对的个人信息类型有个人姓名、身份证号码、手机号码、邮箱地址、银行卡号码、车牌号码、IP地址等常见个人信息类;
自定义的识别策略,允许用户自定义增删或编辑需要进行识别和脱敏处理的个人信息类型,可自主设定识别策略或导入识别策略以定义需要进行识别和脱敏处理的个人信息类型。如用户要增加教师证执业编号的个人信息类型的识别,则可以导入教师证执业编号的识别规则。自定义识别策略确认后会形成识别策略库,识别算法依照识别策略库采用策略定义的方式识别个人信息类型;
脱敏策略设定子模块,用于设定对识别到的承载个人信息的字符进行处理的信息粒度和脱敏形式;具体包括:
内置默认的基础脱敏策略,本实施例对于内置默认的基础识别策略中包含的目标个人信息类型依照有效性和真实性的原则,设定了基础的脱敏策略,可在对各个人信息类型在保留其数据结构特征和数据统计特征的同时,进行相应的处理以移除信息的敏感性。以手机号码和身份证号码为例,默认的基础脱敏策略可保留手机号码的前三位和后四位,身份证号码保留前三位和最后一位;
自定义的脱敏策略,允许用户对已确定的个人信息识别类型进行脱敏策略的设定,自定义脱敏策略确认后会形成脱敏策略库,脱敏处理算法依照脱敏策略库采用策略定义的方式自适应掩盖信息。包含以下两个层次:
自定义脱敏处理的细粒度信息,用户可以编辑规则对承载个人信息的字符进行解构,将目标信息划分出更细粒度的信息类型,并且允许用户选择对于目标个人信息处理时可以保留的细粒度信息类型。仍以身份证号码为例,在设定目标个人信息的细粒度信息构成规则后,若用户选择保留省份信息和性别信息和校验码,则会将图3的示例身份证处理为44**************61;
自定义掩藏或替换等的脱敏形式,对于敏感数据进行的脱敏处理,本实施例支持用户对承载各类个人信息的字符,按照其承载的信息类型,配置多种脱敏形式进行掩藏和替换等处理,如下:
A可选择以内容标签的方式进行信息替换。以个人姓名为例,可将张三替换为<姓名>或<姓氏><名字>的形式,
B可选择以#和*等遮盖符进行遮盖填充。以手机号码为例,用户选择保留除区号以外的信息,则将13933334444处理为139####4444或139****4444,
C可设定进行对承载信息的字符进行处理的起始位置、终止位置或者长度。以银行卡号为例,设定起始位置为第4位字符,终止位置为倒数第4位字符或者将掩藏或替换长度设定为8个字符,则会将银行卡号6217 1234 5678 9123处理为6217 **** **** 9123,
D 可设定对目标承载信息的字符进行泛化。以个人地址为例,用户自由选择需要保留的粗粒度地址信息,可将详细地址泛化至用户所设定的粗粒度范围,如上海市长宁区虹桥路2550号泛化为上海市长宁区。
个人信息识别与定位模块,用于对待脱敏的原始数据表依照已确认的识别策略集进行字符层级的个人信息识别和定位,具体包括:
数据表预处理,对待脱敏的原始数据表创建副本后,对待脱敏的原始数据表按照字段进行拆分,再对字段内容进行拆分至单元格;
个人信息识别,对字段内容下的单元格的内容依照设定的识别策略集中的各识别规则构成的识别算法进行字符层级的检测识别,获取每一字段内容下每一单元格中隐藏的承载个人信息的字符;
定位记录,对识别到的承载个人信息的字符按照字段索引、记录行索引、其所属的信息类型以及所在的单元格的值的原文,写入登记至指定数据库。
自适应脱敏模块,用于对识别到的承载个人信息的字符依照已确认的脱敏策略集自适应选择对应该个人信息类型的脱敏策略并进行适合的脱敏处理,将脱敏处理后的字符按照该字符在原始数据表中的定位在副本数据表中进行替换。
输出模块,将脱敏处理后的数据表进行脱敏效果评估对经过脱敏的各类敏感属性,进行“等价类大小”、“信息熵”等评估指标的对比,辅助用户高效便捷地查看脱敏结果、验证脱敏效果,并返还输出至客户端进行展示,以供用户对比查看、编辑和后续进行数据开放等系列操作。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种面向数据开放的高性能个人信息脱敏方法,其特征在于:包括如下步骤:
S1待脱敏数据获取:接入数据源,从数据源中获取待脱敏的原始数据表;
S2策略设定:包含设定个人信息类型及识别规则和设定个人信息脱敏规则两个部分,每个部分的设定均含有底线策略和策略自定义两个层级,
所述设定个人信息类型及识别规则包括设定需要识别的个人信息类型及其对应的识别规则,后续的处理步骤将基于设定的识别规则所识别到的个人信息,
所述设定个人信息脱敏规则包括对识别到的各类个人信息设定不同脱敏处理时所需要保留的信息粒度和脱敏形式;
S3个人信息识别与定位:按照已确认策略中设定的各类个人信息类型及识别规则,对待脱敏的原始数据表进行字符层级的检测识别和定位;
S4对识别到的承载个人信息的字符进行自适应脱敏处理:对记录的具体识别到的承载个人信息的字符,按照已确认策略中设定的个人信息脱敏规则自适应地进行字符层级的脱敏处理。
2.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S2中,
所述个人信息类型及识别规则设定部分的底线策略层级包括基于数据开放的场景特点和个人信息保护要求罗列直接标识性个人信息,针对直接标识性个人信息类型编写特定的识别规则,设计具有个人信息保护底线思维的基础个人信息类型及识别规则,实现对承载个人信息的字符进行识别,
所述个人信息脱敏规则设定部分的底线策略层级包括对于已设定的基础个人信息类型,针对性设计具有个人信息保护底线思维的基础的个人信息脱敏规则,对各个人信息类型在保留其数据结构特征和数据统计特征的同时移除信息的敏感性。
3.如权利要求2所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S2中,
所述个人信息类型及识别规则设定部分的策略自定义层级在底线策略的基础上,通过增删、编辑或导入相关信息类型的识别规则,自定义扩大、缩小以及调整需要进行识别及后续脱敏处理的个人信息类型,
所述个人信息脱敏规则设定部分的策略自定义层级在底线策略的基础上,选定需要进行脱敏处理的个人信息类型,设定所需要保留的信息粒度和脱敏形式。
4.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S3中包括,
S301创建待脱敏的原始数据表的副本数据表;
S302对待脱敏的原始数据表按照字段进行拆分,再对字段内容依照识别策略对字段内容下的单元格的内容进行字符层级的检测识别,获取每一字段内容下每一单元格中隐藏的承载个人信息的字符;
S303将具体识别到的承载个人信息的字符,记录其所在的记录行索引、字段索引、其所属的信息类型以及所在的单元格的值的原文,写入指定数据库。
5.如权利要求1所述的面向数据开放的高性能个人信息脱敏方法,其特征在于:所述步骤S4中包括,
S401、依据识别到的承载个人信息的字符所属的个人信息类型,从已确认策略中设定的个人信息脱敏策略集中选择该个人信息类型对应的脱敏策略;
S402、对承载个人信息的字符依照对应的脱敏策略所设定的需要保留的信息粒度和进行遮掩或替换的形式进行处理,将脱敏处理后的字符根据已记录的个人信息定位,定位至原始数据表中承载该个人信息的字符所属的位置,并在待脱敏的原始数据表的副本数据表中将该承载个人信息的字符替换为脱敏处理后的字符。
6.一种面向数据开放的高性能个人信息脱敏系统,其特征在于:包括获取待脱敏数据表的数据获取模块、策略设定模块、个人信息识别与定位模块、自适应脱敏模块和输出模块,
所述策略设定模块,对待脱敏的原始数据执行处理时所依赖的个人信息识别策略集和脱敏策略进行设定,依次包含识别策略设定子模块和脱敏策略设定子模块,
所述识别策略设定子模块,进行个人信息识别与定位时所需要依赖的个人信息识别策略集的设定,所述脱敏策略设定子模块,对识别到的承载个人信息的字符进行处理的信息粒度和脱敏形式进行设定;
所述个人信息识别与定位模块,对待脱敏的原始数据表依照已确认的识别策略集进行字符层级的个人信息识别和定位;
所述自适应脱敏模块,对识别到的承载个人信息的字符依照已确认的脱敏策略集自适应选择对应该个人信息类型的脱敏策略并进行适合的脱敏处理,将脱敏处理后的字符按照该字符在原始数据表中的定位在副本数据表中进行替换。
7.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于: 所述识别策略设定子模块包括内置默认的基础识别策略和自定义的识别策略,
所述基础的识别策略,围绕数据开放的场景特点和相关法律法规的个人信息保护要求,为对典型的直接标识性个人信息类型默认进行识别的具有个人信息保护底线思维的策略,
所述自定义的识别策略,允许用户自定义需要进行识别的个人信息类型的识别策略,自定义识别策略确认后会形成识别策略库,识别算法依照识别策略库采用策略定义的方式识别个人信息类型。
8.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于:所述脱敏策略设定子模块包括内置默认的基础脱敏策略和自定义脱敏策略,
所述基础脱敏策略,围绕数据开放的场景特点和相关法律法规的个人信息保护要求,在对各个人信息类型在保留其数据结构特征和数据统计特征的同时移除信息的敏感性,为对基础的识别策略中的各种典型的直接标识性个人信息类型默认进行脱敏处理的具有个人信息保护底线思维的策略,
所述自定义脱敏策略,允许用户对已确定的个人信息识别类型进行脱敏策略的自定义设定,自定义脱敏策略确认后会形成脱敏策略库,脱敏处理算法依照脱敏策略库采用策略定义的方式自适应掩盖信息。
9.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于:所述个人信息识别与定位模块,包括数据表预处理、个人信息识别和定位记录,
所述数据表预处理包括对待脱敏的原始数据表创建副本后,对待脱敏的原始数据表按照字段进行拆分,再对字段内容进行拆分至单元格,
所述个人信息识别包括对字段内容下的单元格的内容依照设定的识别策略集中的各识别规则构成的识别算法进行字符层级的检测识别,获取每一字段内容下每一单元格中隐藏的承载个人信息的字符,
所述定位记录包括对识别到的承载个人信息的字符按照字段索引、记录行索引、其所属的信息类型以及所在的单元格的值的原文,写入登记至指定数据库。
10.如权利要求6所述的面向数据开放的高性能个人信息脱敏系统,其特征在于:所述数据获取模块,对数据源进行获取,通过客户端接入并同步数据源导入数据表,在导入的数据表中选定待脱敏的数据表作为原始数据执行后续脱敏处理;
所述输出模块,将脱敏处理后的数据表进行脱敏效果评估对经过脱敏的各类敏感属性,进行评估指标的对比,辅助用户查看脱敏结果、验证脱敏效果,并返还输出至客户端进行展示,以供用户操作。
CN202410153939.5A 2024-02-04 2024-02-04 面向数据开放的高性能个人信息脱敏方法与系统 Pending CN117708883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410153939.5A CN117708883A (zh) 2024-02-04 2024-02-04 面向数据开放的高性能个人信息脱敏方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410153939.5A CN117708883A (zh) 2024-02-04 2024-02-04 面向数据开放的高性能个人信息脱敏方法与系统

Publications (1)

Publication Number Publication Date
CN117708883A true CN117708883A (zh) 2024-03-15

Family

ID=90162753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410153939.5A Pending CN117708883A (zh) 2024-02-04 2024-02-04 面向数据开放的高性能个人信息脱敏方法与系统

Country Status (1)

Country Link
CN (1) CN117708883A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254456A1 (en) * 2014-03-10 2015-09-10 Xerox Corporation Low-cost specification and enforcement of a privacy-by-consent- policy for online services
CN106203145A (zh) * 2016-08-04 2016-12-07 北京网智天元科技股份有限公司 数据脱敏方法及相关设备
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
CN109271808A (zh) * 2018-09-07 2019-01-25 北明软件有限公司 一种基于数据库敏感发现的数据静态脱敏系统和方法
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN112256547A (zh) * 2020-11-04 2021-01-22 支付宝(杭州)信息技术有限公司 数据录制方法及装置
CN113486392A (zh) * 2021-06-07 2021-10-08 四川新网银行股份有限公司 一种基于大数据平台的敏感数据识别与脱敏方法
CN114625764A (zh) * 2022-02-23 2022-06-14 南方电网数字电网研究院有限公司 基于混合引擎的大数据处理系统与方法
CN115982765A (zh) * 2022-12-28 2023-04-18 中移信息技术有限公司 数据脱敏方法、装置、设备及计算机可读存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150254456A1 (en) * 2014-03-10 2015-09-10 Xerox Corporation Low-cost specification and enforcement of a privacy-by-consent- policy for online services
CN106203145A (zh) * 2016-08-04 2016-12-07 北京网智天元科技股份有限公司 数据脱敏方法及相关设备
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
CN109271808A (zh) * 2018-09-07 2019-01-25 北明软件有限公司 一种基于数据库敏感发现的数据静态脱敏系统和方法
CN109614816A (zh) * 2018-11-19 2019-04-12 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN112256547A (zh) * 2020-11-04 2021-01-22 支付宝(杭州)信息技术有限公司 数据录制方法及装置
CN113486392A (zh) * 2021-06-07 2021-10-08 四川新网银行股份有限公司 一种基于大数据平台的敏感数据识别与脱敏方法
CN114625764A (zh) * 2022-02-23 2022-06-14 南方电网数字电网研究院有限公司 基于混合引擎的大数据处理系统与方法
CN115982765A (zh) * 2022-12-28 2023-04-18 中移信息技术有限公司 数据脱敏方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王毛路;华跃;: "数据脱敏在政府数据治理及开放服务中的应用", 电子政务, no. 05, 10 May 2019 (2019-05-10) *

Similar Documents

Publication Publication Date Title
US9892278B2 (en) Focused personal identifying information redaction
KR102211374B1 (ko) 리스크 정보를 출력하고 리스크 정보를 구축하기 위한 방법 및 디바이스
CN110532797A (zh) 大数据的脱敏方法和系统
US11755777B2 (en) Selective anonymization of data maintained by third-party network services
CN105337928B (zh) 用户身份识别方法、安全保护问题生成方法及装置
TWI616762B (zh) 動態資料遮罩方法以及資料庫系統
US20220100899A1 (en) Protecting sensitive data in documents
CN110032568B (zh) 数据结构的读取及更新方法、装置、电子设备
CN107409040A (zh) 用于推荐数据加密而不影响程序语义的代码分析工具
CN110674188A (zh) 一种特征提取方法、装置及设备
CN103400074B (zh) 一种隐藏进程的检测方法及装置
US11275850B1 (en) Multi-faceted security framework for unstructured storage objects
CN116070267A (zh) 一种数据安全防护方法、装置、设备及机器可读存储介质
CN115168166A (zh) 业务数据变更的记录方法、装置、设备及存储介质
US11783072B1 (en) Filter for sensitive data
US20220269820A1 (en) Artificial intelligence based data redaction of documents
US20070088635A1 (en) Determining policy compliance based on existing compliance results
RU2309450C1 (ru) Способ защиты частной информации пользователя в системе обработки информации
CN117708883A (zh) 面向数据开放的高性能个人信息脱敏方法与系统
CN107392042A (zh) 电网数据监测方法和装置
US11314897B2 (en) Data identification method, apparatus, device, and readable medium
CN115827589A (zh) 一种权限验证方法、装置、电子设备及存储介质
JP4874670B2 (ja) ポリシー管理装置、ポリシー管理プログラムおよびポリシー管理方法
Chun Ubiquitous memory: I do not remember, we do not forget
AU2022215149B2 (en) Synthesizing user transactional data for de- identifying sensitive information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination