CN116756777A - 数据脱敏方法及装置、计算机设备和可读存储介质 - Google Patents

数据脱敏方法及装置、计算机设备和可读存储介质 Download PDF

Info

Publication number
CN116756777A
CN116756777A CN202311013195.9A CN202311013195A CN116756777A CN 116756777 A CN116756777 A CN 116756777A CN 202311013195 A CN202311013195 A CN 202311013195A CN 116756777 A CN116756777 A CN 116756777A
Authority
CN
China
Prior art keywords
data
desensitization
sensitive
attribute information
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311013195.9A
Other languages
English (en)
Other versions
CN116756777B (zh
Inventor
胡绍勇
缪钱勇
衡相忠
张乃淦
丁玉军
金宝
李聪
宋峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Data Security Solutions Co Ltd
Original Assignee
Information and Data Security Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Data Security Solutions Co Ltd filed Critical Information and Data Security Solutions Co Ltd
Priority to CN202311013195.9A priority Critical patent/CN116756777B/zh
Publication of CN116756777A publication Critical patent/CN116756777A/zh
Application granted granted Critical
Publication of CN116756777B publication Critical patent/CN116756777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本申请提出了一种数据脱敏方法及装置、计算机设备和可读存储介质,该方法包括:响应于指定脱敏关联事件的发生,获取与指定脱敏关联事件相关的第一数据的敏感关联属性信息;基于敏感关联属性信息,确定第一数据是否为敏感数据;若第一数据为敏感数据时,调用预设的数据规范化处理脚本对第一数据进行数据规范化处理,得到第二数据;基于第二数据的数据类型,在预设脱敏规则中为第二数据选择目标脱敏规则,并基于目标脱敏规则,对第二数据进行补充脱敏处理,得到第三数据;基于第三数据的敏感关联属性信息,确定第三数据的敏感度;若第三数据的敏感度处于预设敏感范围内,对第三数据进行补充脱敏处理。本申请全面提升了数据脱敏的可靠性和准确性。

Description

数据脱敏方法及装置、计算机设备和可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据脱敏方法及装置、计算机设备和可读存储介质。
背景技术
随着科学技术的发展,数据安全变得尤为重要。相关技术中,为保护数据安全,可对数据进行脱敏处理,即改变数据内与安全有关的敏感内容,并在数据传输等用到该数据的场景中传输脱敏后的数据,避免数据内的敏感内容泄露。
然而,现有的脱敏方式非常单一,往往仅针对数据进行预设的处理步骤,并未对处理结果进行敏感性的验证,容易对敏感内容进行漏检。
因此,如何提升数据脱敏处理的准确性,成为目前亟待解决的技术问题。
发明内容
本申请实施例提供了一种数据脱敏方法及装置、计算机设备和可读存储介质,旨在解决相关技术中数据脱敏处理结果准确性不足的技术问题。
第一方面,本申请实施例提供了一种数据脱敏方法,包括:
响应于指定脱敏关联事件的发生,获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息;
基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据;
若所述第一数据为敏感数据时,调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,得到第二数据;
基于所述第二数据的数据类型,在预设脱敏规则中为所述第二数据选择目标脱敏规则,并基于所述目标脱敏规则,对所述第二数据进行补充脱敏处理,得到第三数据;
基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度;
若所述第三数据的敏感度处于预设敏感范围内,对所述第三数据进行补充脱敏处理,所述补充脱敏处理用于降低所述第三数据的敏感度。
第二方面,本申请实施例提供了一种数据脱敏装置,包括:
敏感关联属性信息获取单元,用于响应于指定脱敏关联事件的发生,获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息;
敏感数据确认单元,用于基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据;
前置处理单元,用于若所述第一数据为敏感数据时,调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,得到第二数据;
脱敏处理单元,用于基于所述第二数据的数据类型,在预设脱敏规则中为所述第二数据选择目标脱敏规则,并基于所述目标脱敏规则,对所述第二数据进行补充脱敏处理,得到第三数据;
敏感度计算单元,用于基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度;
补充处理单元,用于若所述第三数据的敏感度处于预设敏感范围内,按照预设的补充脱敏规则对所述第三数据进行补充脱敏处理,所述补充脱敏处理用于降低所述第三数据的敏感度。
第三方面,本申请实施例提供了一种计算机设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面所述的方法。
以上技术方案,针对相关技术中数据脱敏处理结果准确性不足的技术问题,在脱敏处理前增加使用数据规范化处理脚本对数据进行预处理的步骤,并在以脱敏规则进行脱敏后,基于脱敏后数据的敏感度判断其是否仍有必要进行补充脱敏,全面提升了数据脱敏的可靠性和准确性,有助于数据安全性的提升。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本申请的一个实施例的数据脱敏方法的流程图;
图2示出了根据本申请的一个实施例的数据脱敏装置的框图;
图3示出了根据本申请的一个实施例的计算机设备的框图;
图4示出了根据本申请的一个实施例的计算机设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了根据本申请的一个实施例的数据脱敏方法的流程图。
如图1所示,根据本申请的一个实施例的数据脱敏方法,包括:
步骤102,响应于指定脱敏关联事件的发生,获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息。
其中,所述指定脱敏关联事件指的是带来数据安全水平变化的事件,其既可能发生在计算机设备的内部,也可能发生在计算机设备之间的数据通信中。
具体来说,所述指定脱敏关联事件包括以下一项或多项:发生数据增量、下载线上文件、更新本地文件、接收到指定对象的数据浏览请求和/或数据下载请求、接收到随机对象的数据浏览请求和/或数据下载请求、数据传输线程定时启动。
其中,所述敏感关联属性信息是与所述指定脱敏关联事件相关的第一数据所具备的、对第一数据的安全性具有足够影响的属性信息,一定程度上可反映第一数据的安全性,而安全性正是判断数据是否敏感的关键因素。
另外,基于此,在步骤102之前,还需要获取第一数据。
其中,获取第一数据的具体方式为:响应于所述指定脱敏关联事件的发生,将所述指定脱敏关联事件涉及到的全部数据确定为所述第一数据。
具体来说,所述敏感关联属性信息包括以下一项或多项:数据类型、数据传输方式、数据加密方式、数据内字段、数据大小、第一指定时间间隔内接收到的下载请求次数、第二指定时间间隔内接收到的更新请求次数和第三指定时间间隔内接收到的浏览请求次数。
步骤104,基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据。
所述敏感关联属性信息用于反映第一数据的安全性这一判断数据是否敏感的关键因素,故可基于所述敏感关联属性信息,识别第一数据是不是敏感数据。
具体来说,识别第一数据是不是敏感数据的具体方式包括:
首先,对所述第一数据的多种所述敏感关联属性信息依次进行数据清洗处理、数据标注处理、语义扩展处理以及分词处理,得到所述第一数据的多种所述敏感关联属性信息各自的初始数据。
数据清洗处理用于初步对第一数据进行去冗余,删减与安全性无关的冗余数据。
数据标注处理可标注处第一数据的数据类型、敏感字段等关键信息,便于基于标注的内容进行敏感性判断。
语义扩展处理则通过对第一数据进行语义扩展来扩充第一数据的样本容量,以便在进行敏感性判断时具有更多可参照样本,提升敏感数据识别的准确性。
分词处理可有效识别第一数据中的关键词,以便通过该关键词进行语义扩展。
至此,得到所述第一数据的多种所述敏感关联属性信息各自的初始数据。
接下来,对于所述第一数据的多种所述敏感关联属性信息各自的初始数据进行编码,得到第一特征值。每种敏感关联属性信息的初始数据转换所得的第一特征值用于反映该敏感关联属性信息对数据敏感性的贡献程度。
在一种可能的设计中,可对所述第一特征值进行归一化处理,以便将所有第一特征值调整至相同量级,便于后续计算。
然后,基于所述归一化处理后的第一特征值和预设Doc2Vec模型,确定所述第一数据的敏感度。
其中,所述预设Doc2Vec模型包含一种无监督算法,可在无需的多个第一特征值中学习得到固定长度的特征表示,而这一固定长度的特征表示即为所述第一数据的敏感度。预设Doc2Vec模型的优势在于,其能够接受不同长度的字段作为训练样本,可适应多种所述敏感关联属性信息各自的第一特征值量级不同的情况。其中,所述预设Doc2Vec模型是以历史敏感数据的敏感关联属性信息作为输入样本、以所述历史敏感数据的敏感度作为输出样本训练得到的。
最终,若所述第一数据的敏感度大于或等于预设敏感度阈值,确定所述第一数据为敏感数据。
其中,预设敏感度阈值指的是所述第一数据的多种敏感关联属性信息对第一数据的安全性影响足够大时所述第一数据的最低敏感度。因此,若所述第一数据的敏感度大于或等于预设敏感度阈值,说明所述第一数据的多种敏感关联属性信息对第一数据的安全性影响大,可认定所述第一数据为敏感数据。
在一种可能的设计中,在所述预设Doc2Vec模型的隐藏层和输出层之间植入Bi-GRU模型。
由于多种所述敏感关联属性信息各自的第一特征值量级不同,以多种所述敏感关联属性信息各自的第一特征值作为预设Doc2Vec模型的输入信息时,即使通过归一化处理对多种所述敏感关联属性信息各自的第一特征值的量级进行调整,仍会遇到无法完全抹除不同维度的信息间的量级表现差异的情况。而Bi-GRU模型具有缓解梯度消失或爆炸的作用,在所述预设Doc2Vec模型的隐藏层的输出信息输出甚至放大输出了多种所述敏感关联属性信息各自的第一特征值间的量级不平衡水平,此时,通过Bi-GRU模型可以对隐藏层的输出信息进行平衡和差异缓解。在通过Bi-GRU模型处理隐藏层的输出信息后,再将Bi-GRU模型的处理结果输入所述预设Doc2Vec模型的输出层进行处理。
步骤106,若所述第一数据为敏感数据时,调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,得到第二数据。
为提升对第一数据的脱敏处理效果,可在脱敏处理之前对第一数据的数据格式进行数据规范化处理。
具体来说,可通过预设的数据规范化处理脚本删除所述第一数据中的不可见字符和无效数据,并将所述第一数据设置为指定数据格式。换言之,可将删除所述第一数据中的不可见字符的功能以及删除所述第一数据中的无效数据的功能以脚本的形式植入脱敏处理进程,一旦确定所述第一数据为敏感数据,并进入脱敏处理进程,首先调用这些脚本在正式脱敏之前对第一数据的数据格式进行数据规范化处理。
可选地,可为不同的数据格式处理功能分别设置各自的数据规范化处理脚本。进一步地,可基于第一数据的数据类型,在预设的多种数据规范化处理脚本中选择符合第一数据的脱敏需求的若干个数据规范化处理脚本,以适应不同数据的脱敏需求。
步骤108,基于所述第二数据的数据类型,在预设脱敏规则中为所述第二数据选择目标脱敏规则,并基于所述目标脱敏规则,对所述第二数据进行补充脱敏处理,得到第三数据。
不同数据类型的数据对应有不同的目标脱敏规则,下文中将对不同数据类型下的目标脱敏规则进行展开举例。
步骤110,基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度。
步骤112,若所述第三数据的敏感度处于预设敏感范围内,对所述第三数据进行补充脱敏处理,所述补充脱敏处理用于降低所述第三数据的敏感度。
在完成对第二数据的脱敏后,可进一步补充第三数据是否脱敏成功,而敏感度则是脱敏结果衡量的一个关键因素。对此,可设置预设敏感范围,以反映第三数据仍具有安全隐患时其敏感度所处的范围。
因此,若所述第三数据的敏感度处于预设敏感范围内,说明第三数据的安全性仍不足,需要进一步对其进行补充脱敏处理。反之,若所述第三数据的敏感度未处于预设敏感范围内,说明第三数据的安全性充足,可终止进程。
进一步地,确定所述第三数据的敏感度的方式,具体包括:
首先,对所述第三数据的多种所述敏感关联属性信息依次进行数据清洗处理、数据标注处理、语义扩展处理以及分词处理,得到所述第三数据的多种所述敏感关联属性信息各自的初始数据。
其中,数据清洗处理用于初步对第三数据进行去冗余,删减与安全性无关的冗余数据。数据标注处理可标注处第三数据的数据类型、敏感字段等关键信息,便于基于标注的内容进行敏感性判断。语义扩展处理则通过对第三数据进行语义扩展来扩充第三数据的样本容量,以便在进行敏感性判断时具有更多可参照样本,提升敏感数据识别的准确性。分词处理可有效识别第三数据中的关键词,以便通过该关键词进行语义扩展。至此,得到所述第三数据的多种所述敏感关联属性信息各自的初始数据。
接着,对于所述第三数据的多种所述敏感关联属性信息各自的初始数据进行编码,得到多个第二特征值。其中,每种敏感关联属性信息的初始数据转换所得的第一特征值用于反映该敏感关联属性信息对数据敏感性的贡献程度。
在一种可能的设计中,可对所述第二特征值进行归一化处理,以便将所有第二特征值调整至相同量级,便于后续计算。
接着,基于归一化处理后的多个第二特征值,生成多个第三特征值,其中,每个所述第三特征值为所述第三数据的至少两项敏感关联属性信息对应的第二特征值的乘积。每个所述第三特征值为所述第三数据的至少两项敏感关联属性信息对应的第二特征值的乘积,可反映该至少两项敏感关联属性信息对第三数据的安全性的整体影响,换言之,每个第三特征值均为至少两项敏感关联属性信息对第三数据的安全性的合并影响的体现。
最终,基于所述多个第三特征值,生成敏感识别矩阵,并基于所述敏感识别矩阵,确定所述第三数据的敏感度。
可选地,设置敏感识别矩阵的第n行、第m列的元素为第三数据的第n个第三特征值与第m个第三特征值的乘积的开方值。
可选地,可在所述敏感识别矩阵中任一截取指定大小的子矩阵,以该子矩阵的秩作为所述第三数据的敏感度。
可选地,补充脱敏处理指的是通过预设脱敏规则中的目标脱敏规则以外的其他脱敏规则对第三数据继续进行脱敏处理。
可选地,可设置删除第三数据中指定位置的文本信息,以实现补充脱敏处理。
以上技术方案,在脱敏处理前增加使用数据规范化处理脚本对数据进行预处理的步骤,并在以脱敏规则进行脱敏后,基于脱敏后数据的敏感度判断其是否仍有必要进行补充脱敏,全面提升了数据脱敏的可靠性和准确性,有助于数据安全性的提升。
另外,需要补充的是,可为每种所述预设脱敏规则确定对应的数据还原规则;则在所述按照预设的补充脱敏规则对所述第三数据进行补充脱敏处理后,还包括:若接收到对所述第三数据的获取指令,基于对所述第三数据进行脱敏处理采用的目标脱敏规则,确定对应的数据还原规则,以供通过所述数据还原规则对脱敏后的第三数据进行还原。
也就是说,针对每种预设脱敏规则,均可设置对应的数据还原规则,以便在需要使用数据时,能够将该数据还原为脱敏前的数据,避免因数据脱敏影响数据的正常使用。
在一种可能的设计中,针对不同数据类型的数据,可为其对应设置适应其实际数据结构的目标脱敏规则。
具体地,在一种可能的设计中,对于数值类型的数据,可通过组合表达式对其进行脱敏。
比如,设置数值类型的数据对应的目标脱敏规则为table12.cost_sum =table12.cost_1 * table12.cost_2 ,即两个数值脱敏为两个数值的乘积。例如,对样本cost1中的数值1 和样本cost2中的数值4进行脱敏,得到脱敏结果为数值4。
在一种可能的设计中,设置脚本类型的数据对应的目标脱敏规则为table1.a1 =a1+1,即令脚本参数关联列中的数值增加1,作为其脱敏结果。
在一种可能的设计中,设置多列文本类型的数据对应的目标脱敏规则为列洗牌。具体来说,在保持行关联关系的同时对单列中各行的文本信息进行位置调换。比如,对于三列分别为人名、性别和联系方式的用户信息列表:
张三,男,1899900aaaa;
李四,女,1888899bbbb;
小明,男,1566666cccc;
对其进行列洗牌后得到脱敏结果为:
李四,男,1566666cccc;
张三,男,1888899bbbb;
小明,女,1899900aaaa。
在一种可能的设计中,设置日期类数据对应的目标脱敏规则为将原日期替换为随机日期。
在一种可能的设计中,对于任意类型的数据,如文本、空字段等,可将其替换为未来日期、周末日期等任意指定日期或随机日期。
在一种可能的设计中,对于任意类型的数据,如文本、空字段等,可将其替换为仅IPV4、仅IPV6、IPV4或IPV6等任意指定IP地址或随机IP地址。例如,对于文本信息“——”,可设置其对应的目标脱敏规则为将其替换为172.16.0.1/16。
进一步地,可设置在指定IP地址范围内选择需替换的IP地址。
在一种可能的设计中,对于任意类型的数据,如文本、空字段等,可将其替换为随机生成的身份证号或按照指定规则生成的身份证号。
其中,指定规则可选为,先随机生产一个身份证号,后续每次进行脱敏时,按照首个身份证号的后三位进行顺序递增,后三位超过999后,将身份证号中的生日日期增加1。
在一种可能的设计中,上述任一种脱敏规则可单独使用,也可组合使用,还可与打乱数据内的字符顺序、在数据中的随机位置或指定位置添加噪声信息、将数据转换为随机数或顺序数、将数据中的百分比等数值浮动指定百分比、对数据内数字进行泛化、将数据内名称转换为该名称所属的标签等多种预设规则进行组合使用。
多种脱敏规则的组合使用能够最大限度地去除数据的敏感性,避免单一脱敏规则泄露而导致数据泄露,使得数据破解难度加大,提升了数据的安全性。
图2示出了根据本申请的一个实施例的数据脱敏装置的框图。
如图2所示,根据本申请的一个实施例的数据脱敏装置200包括:
敏感关联属性信息获取单元202,用于响应于指定脱敏关联事件的发生,获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息;
敏感数据确认单元204,用于基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据;
前置处理单元206,用于若所述第一数据为敏感数据时,调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,得到第二数据;
脱敏处理单元208,用于基于所述第二数据的数据类型,在预设脱敏规则中为所述第二数据选择目标脱敏规则,并基于所述目标脱敏规则,对所述第二数据进行补充脱敏处理,得到第三数据;
敏感度计算单元210,用于基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度;
补充处理单元212,用于若所述第三数据的敏感度处于预设敏感范围内,按照预设的补充脱敏规则对所述第三数据进行补充脱敏处理,所述补充脱敏处理用于降低所述第三数据的敏感度。
在本申请的一个实施例中,可选地,所述指定脱敏关联事件包括以下一项或多项:发生数据增量、下载线上文件、更新本地文件、接收到指定对象的数据浏览请求和/或数据下载请求、接收到随机对象的数据浏览请求和/或数据下载请求、数据传输线程定时启动;所述敏感关联属性信息包括以下一项或多项:数据类型、数据传输方式、数据加密方式、数据内字段、数据大小、第一指定时间间隔内接收到的下载请求次数、第二指定时间间隔内接收到的更新请求次数和第三指定时间间隔内接收到的浏览请求次数。
在本申请的一个实施例中,可选地,所述数据脱敏装置200还包括:
第一数据获取单元,用于在所述获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息之前,响应于所述指定脱敏关联事件的发生,将所述指定脱敏关联事件涉及到的全部数据确定为所述第一数据;
在本申请的一个实施例中,可选地,所述敏感数据确认单元204用于:
对所述第一数据的多种所述敏感关联属性信息依次进行数据清洗处理、数据标注处理、语义扩展处理以及分词处理,得到所述第一数据的多种所述敏感关联属性信息各自的初始数据;对于所述第一数据的多种所述敏感关联属性信息各自的初始数据进行编码,得到第一特征值,并对所述第一特征值进行归一化处理;基于所述归一化处理后的第一特征值和预设Doc2Vec模型,确定所述第一数据的敏感度,其中,所述预设Doc2Vec模型是以历史敏感数据的敏感关联属性信息作为输入样本、以所述历史敏感数据的敏感度作为输出样本训练得到的;若所述第一数据的敏感度大于或等于预设敏感度阈值,确定所述第一数据为敏感数据。
在本申请的一个实施例中,可选地,所述数据脱敏装置200还包括:
模型预设单元,用于在所述预设Doc2Vec模型的隐藏层和输出层之间植入Bi-GRU模型。
在本申请的一个实施例中,可选地,所述前置处理单元206用于:
通过预设的数据规范化处理脚本删除所述第一数据中的不可见字符和无效数据,并将所述第一数据设置为指定数据格式。
在本申请的一个实施例中,可选地,所述敏感度计算单元210用于:
对所述第三数据的多种所述敏感关联属性信息依次进行数据清洗处理、数据标注处理、语义扩展处理以及分词处理,得到所述第三数据的多种所述敏感关联属性信息各自的初始数据;对于所述第三数据的多种所述敏感关联属性信息各自的初始数据进行编码,得到多个第二特征值,并对所述多个第二特征值进行归一化处理;基于归一化处理后的多个第二特征值,生成多个第三特征值,其中,每个所述第三特征值为所述第三数据的至少两项敏感关联属性信息对应的第二特征值的乘积;基于所述多个第三特征值,生成敏感识别矩阵;基于所述敏感识别矩阵,确定所述第三数据的敏感度。
在本申请的一个实施例中,可选地,所述数据脱敏装置200还包括:
规则设置单元,用于为每种所述预设脱敏规则确定对应的数据还原规则;
数据还原单元,用于在所述按照预设的补充脱敏规则对所述第三数据进行补充脱敏处理后,若接收到对所述第三数据的获取指令,基于对所述第三数据进行脱敏处理采用的目标脱敏规则,确定对应的数据还原规则,以供通过所述数据还原规则对脱敏后的第三数据进行还原。
该数据脱敏装置200使用上述实施例中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
另外,在一个实施例中,本申请提供了一种计算机设备,该计算机设备可以是服务端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的数据脱敏方法。
在一个实施例中,本申请还提供了一种计算机设备,该计算机设备可以是客户端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的数据脱敏方法。
本申请实施例上述的任一计算机设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具、可穿戴设备和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行以下步骤:
响应于指定脱敏关联事件的发生,获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息;
基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据;
若所述第一数据为敏感数据时,调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,得到第二数据;
基于所述第二数据的数据类型,在预设脱敏规则中为所述第二数据选择目标脱敏规则,并基于所述目标脱敏规则,对所述第二数据进行补充脱敏处理,得到第三数据;
基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度;
若所述第三数据的敏感度处于预设敏感范围内,对所述第三数据进行补充脱敏处理,所述补充脱敏处理用于降低所述第三数据的敏感度。
需要说明的是,上述关于计算机可读存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中的相关描述,为避免重复,这里不再一一描述。
以上结合附图详细说明了本申请的技术方案,通过本申请的技术方案,在脱敏处理前增加使用数据规范化处理脚本对数据进行预处理的步骤,并在以脱敏规则进行脱敏后,基于脱敏后数据的敏感度判断其是否仍有必要进行补充脱敏,全面提升了数据脱敏的可靠性和准确性,有助于数据安全性的提升。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本申请实施例中可能采用术语第一、第二等来描述数据,但这些数据不应限于这些术语。这些术语仅用来将数据彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一数据也可以被称为第二数据,类似地,第二数据也可以被称为第一数据。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据脱敏方法,其特征在于,包括:
响应于指定脱敏关联事件的发生,获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息;
基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据;
若所述第一数据为敏感数据时,调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,得到第二数据;
基于所述第二数据的数据类型,在预设脱敏规则中为所述第二数据选择目标脱敏规则,并基于所述目标脱敏规则,对所述第二数据进行补充脱敏处理,得到第三数据;
基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度;
若所述第三数据的敏感度处于预设敏感范围内,按照预设的补充脱敏规则对所述第三数据进行补充脱敏处理,所述补充脱敏处理用于降低所述第三数据的敏感度。
2.根据权利要求1所述的数据脱敏方法,其特征在于,所述指定脱敏关联事件包括以下一项或多项:
发生数据增量、下载线上文件、更新本地文件、接收到指定对象的数据浏览请求和/或数据下载请求、接收到随机对象的数据浏览请求和/或数据下载请求、数据传输线程定时启动;
所述敏感关联属性信息包括以下一项或多项:
数据类型、数据传输方式、数据加密方式、数据内字段、数据大小、第一指定时间间隔内接收到的下载请求次数、第二指定时间间隔内接收到的更新请求次数和第三指定时间间隔内接收到的浏览请求次数。
3.根据权利要求1所述的数据脱敏方法,其特征在于,在所述获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息之前,还包括:
响应于所述指定脱敏关联事件的发生,将所述指定脱敏关联事件涉及到的全部数据确定为所述第一数据;
所述基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据,包括:
对所述第一数据的多种所述敏感关联属性信息依次进行数据清洗处理、数据标注处理、语义扩展处理以及分词处理,得到所述第一数据的多种所述敏感关联属性信息各自的初始数据;
对于所述第一数据的多种所述敏感关联属性信息各自的初始数据进行编码,得到第一特征值,并对所述第一特征值进行归一化处理;
基于所述归一化处理后的第一特征值和预设Doc2Vec模型,确定所述第一数据的敏感度,其中,所述预设Doc2Vec模型是以历史敏感数据的敏感关联属性信息作为输入样本、以所述历史敏感数据的敏感度作为输出样本训练得到的;
若所述第一数据的敏感度大于或等于预设敏感度阈值,确定所述第一数据为敏感数据。
4.根据权利要求3所述的数据脱敏方法,其特征在于,还包括:
在所述预设Doc2Vec模型的隐藏层和输出层之间植入Bi-GRU模型。
5.根据权利要求1至4中任一项所述的数据脱敏方法,其特征在于,所述调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,包括:
通过预设的数据规范化处理脚本删除所述第一数据中的不可见字符和无效数据,并将所述第一数据设置为指定数据格式。
6.根据权利要求1至4中任一项所述的数据脱敏方法,其特征在于,所述基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度,包括:
对所述第三数据的多种所述敏感关联属性信息依次进行数据清洗处理、数据标注处理、语义扩展处理以及分词处理,得到所述第三数据的多种所述敏感关联属性信息各自的初始数据;
对于所述第三数据的多种所述敏感关联属性信息各自的初始数据进行编码,得到多个第二特征值,并对所述多个第二特征值进行归一化处理;
基于归一化处理后的多个第二特征值,生成多个第三特征值,其中,每个所述第三特征值为所述第三数据的至少两项敏感关联属性信息对应的第二特征值的乘积;
基于所述多个第三特征值,生成敏感识别矩阵;
基于所述敏感识别矩阵,确定所述第三数据的敏感度。
7.根据权利要求1所述的数据脱敏方法,其特征在于,还包括:
为每种所述预设脱敏规则确定对应的数据还原规则;
则在所述按照预设的补充脱敏规则对所述第三数据进行补充脱敏处理后,还包括:
若接收到对所述第三数据的获取指令,基于对所述第三数据进行脱敏处理采用的目标脱敏规则,确定对应的数据还原规则,以供通过所述数据还原规则对脱敏后的第三数据进行还原。
8.一种数据脱敏装置,其特征在于,包括:
敏感关联属性信息获取单元,用于响应于指定脱敏关联事件的发生,获取与所述指定脱敏关联事件相关的第一数据的敏感关联属性信息;
敏感数据确认单元,用于基于所述敏感关联属性信息,确定所述第一数据是否为敏感数据;
前置处理单元,用于若所述第一数据为敏感数据时,调用预设的数据规范化处理脚本对所述第一数据进行数据规范化处理,得到第二数据;
脱敏处理单元,用于基于所述第二数据的数据类型,在预设脱敏规则中为所述第二数据选择目标脱敏规则,并基于所述目标脱敏规则,对所述第二数据进行补充脱敏处理,得到第三数据;
敏感度计算单元,用于基于所述第三数据的敏感关联属性信息,确定所述第三数据的敏感度;
补充处理单元,用于若所述第三数据的敏感度处于预设敏感范围内,按照预设的补充脱敏规则对所述第三数据进行补充脱敏处理,所述补充脱敏处理用于降低所述第三数据的敏感度。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法。
CN202311013195.9A 2023-08-14 2023-08-14 数据脱敏方法及装置、计算机设备和可读存储介质 Active CN116756777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311013195.9A CN116756777B (zh) 2023-08-14 2023-08-14 数据脱敏方法及装置、计算机设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311013195.9A CN116756777B (zh) 2023-08-14 2023-08-14 数据脱敏方法及装置、计算机设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN116756777A true CN116756777A (zh) 2023-09-15
CN116756777B CN116756777B (zh) 2023-11-03

Family

ID=87949991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311013195.9A Active CN116756777B (zh) 2023-08-14 2023-08-14 数据脱敏方法及装置、计算机设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN116756777B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778380A (zh) * 2013-12-31 2014-05-07 网秦(北京)科技有限公司 数据脱敏和反脱敏方法及相关设备
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
WO2019114766A1 (zh) * 2017-12-14 2019-06-20 中兴通讯股份有限公司 一种数据脱敏方法、服务器、终端及计算机可读存储介质
WO2019134339A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 脱敏方法、程序、应用服务器及计算机可读存储介质
CN111191281A (zh) * 2019-12-25 2020-05-22 平安信托有限责任公司 数据脱敏处理方法、装置、计算机设备及存储介质
WO2022012669A1 (zh) * 2020-07-16 2022-01-20 中兴通讯股份有限公司 数据访问方法、装置、存储介质及电子装置
CN114386100A (zh) * 2022-01-12 2022-04-22 信阳农林学院 一种公有云用户敏感数据管理方法
CN115544560A (zh) * 2022-09-22 2022-12-30 中国平安财产保险股份有限公司 一种敏感信息的脱敏方法、装置、计算机设备及存储介质
CN115688160A (zh) * 2022-09-07 2023-02-03 中国银行股份有限公司 一种数据脱敏方法、装置、设备及存储介质
WO2023015670A1 (zh) * 2021-08-12 2023-02-16 广东艾檬电子科技有限公司 日志内容的脱敏方法、装置、设备和介质
CN116361784A (zh) * 2023-04-03 2023-06-30 上海观安信息技术股份有限公司 数据的检测方法、装置、存储介质及计算机设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778380A (zh) * 2013-12-31 2014-05-07 网秦(北京)科技有限公司 数据脱敏和反脱敏方法及相关设备
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
WO2019114766A1 (zh) * 2017-12-14 2019-06-20 中兴通讯股份有限公司 一种数据脱敏方法、服务器、终端及计算机可读存储介质
WO2019134339A1 (zh) * 2018-01-03 2019-07-11 平安科技(深圳)有限公司 脱敏方法、程序、应用服务器及计算机可读存储介质
CN111191281A (zh) * 2019-12-25 2020-05-22 平安信托有限责任公司 数据脱敏处理方法、装置、计算机设备及存储介质
WO2022012669A1 (zh) * 2020-07-16 2022-01-20 中兴通讯股份有限公司 数据访问方法、装置、存储介质及电子装置
WO2023015670A1 (zh) * 2021-08-12 2023-02-16 广东艾檬电子科技有限公司 日志内容的脱敏方法、装置、设备和介质
CN114386100A (zh) * 2022-01-12 2022-04-22 信阳农林学院 一种公有云用户敏感数据管理方法
CN115688160A (zh) * 2022-09-07 2023-02-03 中国银行股份有限公司 一种数据脱敏方法、装置、设备及存储介质
CN115544560A (zh) * 2022-09-22 2022-12-30 中国平安财产保险股份有限公司 一种敏感信息的脱敏方法、装置、计算机设备及存储介质
CN116361784A (zh) * 2023-04-03 2023-06-30 上海观安信息技术股份有限公司 数据的检测方法、装置、存储介质及计算机设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
冉冉;李峰;王欣柳;杨立春;丁红发;: "一种面向隐私保护的电力大数据脱敏方案及应用研究", 网络空间安全, no. 01 *
王卓;刘国伟;王岩;李媛;: "数据脱敏技术发展现状及趋势研究", 信息通信技术与政策, no. 04 *
裴成飞;杨高明;方贤进;梁兴柱;: "数据库脱敏技术研究与应用", 牡丹江师范学院学报(自然科学版), no. 01 *

Also Published As

Publication number Publication date
CN116756777B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
US11461298B1 (en) Scoring parameter generation for identity resolution
CN113268768B (zh) 一种敏感数据的脱敏方法、装置、设备及介质
CN112733545A (zh) 文本分块方法、装置、计算机设备和存储介质
CN113688215A (zh) 信息抽取、模型训练方法、装置、计算机设备和存储介质
KR20210074023A (ko) 딥러닝 기반의 문서 유사도 측정 모델을 이용한 중복 문서 탐지 방법 및 시스템
CN113837638A (zh) 话术确定方法、装置及设备
CN114650176A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN112784029A (zh) 基于自然语言处理的业务处理方法、装置和计算机设备
CN116955720A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN116756777B (zh) 数据脱敏方法及装置、计算机设备和可读存储介质
CN108536791A (zh) 基于神经网络的搜索方法、设备及存储介质
CN116305251A (zh) 网络留言脱敏方法、装置、设备及存储介质
CN112836612B (zh) 一种用户实名认证的方法、装置及系统
CN113674083A (zh) 互联网金融平台信用风险监测方法、装置及计算机系统
CN110232069B (zh) 一种基于大数据的客户信息智能化录入方法和装置
CN111784352A (zh) 认证风险识别方法、装置和电子设备
CN115280303A (zh) 文本处理方法、电子设备和计算机可读存储介质
CN112381408B (zh) 质检方法、装置和电子设备
CN115186667B (zh) 基于人工智能的命名实体识别方法及装置
CN116956356B (zh) 一种基于数据脱敏处理的信息传输方法及设备
US12100384B2 (en) Dynamic adjustment of content descriptions for visual components
CN113704501B (zh) 应用的标签获取方法、装置、电子设备及存储介质
CN115082045B (zh) 数据校对方法、装置、计算机设备和存储介质
IE912737A1 (en) Random character generator
CN117932675A (zh) 日志脱敏方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant