CN113987591A - 一种基于树状结构的数据脱敏处理方法和系统 - Google Patents

一种基于树状结构的数据脱敏处理方法和系统 Download PDF

Info

Publication number
CN113987591A
CN113987591A CN202111614553.2A CN202111614553A CN113987591A CN 113987591 A CN113987591 A CN 113987591A CN 202111614553 A CN202111614553 A CN 202111614553A CN 113987591 A CN113987591 A CN 113987591A
Authority
CN
China
Prior art keywords
data
pieces
content
module
desensitized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111614553.2A
Other languages
English (en)
Inventor
杨海峰
雷盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dbsec Technology Co ltd
Original Assignee
Beijing Dbsec Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dbsec Technology Co ltd filed Critical Beijing Dbsec Technology Co ltd
Priority to CN202111614553.2A priority Critical patent/CN113987591A/zh
Publication of CN113987591A publication Critical patent/CN113987591A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于树状结构的数据脱敏处理方法和系统,该方法包括:获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;将所述数据内容中多个部分中的每个部分进行脱敏;将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。通过本申请解决了现有技术中没有按照数据内容本身进行脱敏所导致的数据脱敏后混乱的问题,从而保证了脱敏后的数据内容的逻辑正确,有利于对脱敏后的数据进行进一步处理。

Description

一种基于树状结构的数据脱敏处理方法和系统
技术领域
本申请涉及到数据库处理领域,具体而言,涉及一种基于树状结构的数据脱敏处理方法和系统。
背景技术
敏感数据是指泄漏后可能会给社会或个人带来严重危害的数据。包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、IP地址列表等。
在数据进行脱敏处理中,可以根据数据内容来进行脱敏,例如在判断出预定字段下的多条数据进行脱敏时,对每条数据均进行整体脱敏处理,这种处理的方式,没有考虑到每条数据中内在的关系,从而导致脱敏后的数据存在问题。例如,XX省XX市XX区XX路XX号,在进行脱敏处理后,很有可能变成XX区XX省XX号XX区,这造成了脱敏后的数据的混乱。
针对该问题,在现有技术中没有提供合适的解决方案。
发明内容
本申请实施例提供了一种基于树状结构的数据脱敏处理方法和系统,以至少解决现有技术中没有按照数据内容本身进行脱敏所导致的数据脱敏后混乱的问题。
根据本申请的一个方面,提供了一种基于树状结构的数据脱敏处理方法,包括:获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;将所述数据内容中多个部分中的每个部分进行脱敏;将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。
进一步地,将所述数据内容划分为所述多个部分包括:在所述数据内容为地址的情况下,按照所述地址的区域范围大小将所述地址分为多个部分。
进一步地,将所述数据内容划分为所述多个部分包括:在所述数据内容为身份证号码的情况下,按照所述身份证号码中的出生日期将所述身份证号码划分为三个部分。
进一步地,在获取所述多条数据之前,所述方法还包括:接收到数据库查询请求,其中,所述数据库查询请求用于请求获取多条数据;确定所述多条数据为需要进行脱敏处理的数据。
进一步地,确定所述多条数据为需要进行脱敏处理的数据包括:从所述多条数据抽取预定数量的数据,根据所述预定数量的数据确定所述多条数据为需要进行脱敏处理的数据。
根据本申请的另一个方面,还提供了一种基于树状结构的数据脱敏处理系统,包括:获取模块,用于获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;划分模块, 用于获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;脱敏模块,用于将所述数据内容中多个部分中的每个部分进行脱敏;连接模块,用于将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。
进一步地,所述划分模块用于:在所述数据内容为地址的情况下,按照所述地址的区域范围大小将所述地址分为多个部分。
进一步地,所述划分模块用于:在所述数据内容为身份证号码的情况下,按照所述身份证号码中的出生日期将所述身份证号码划分为三个部分。
进一步地,在获取所述多条数据之前,还包括:确定模块,用于接收到数据库查询请求,其中,所述数据库查询请求用于请求获取多条数据;确定所述多条数据为需要进行脱敏处理的数据。
进一步地,所述确定模块用于:从所述多条数据抽取预定数量的数据,根据所述预定数量的数据确定所述多条数据为需要进行脱敏处理的数据。
在本申请实施例中,采用了获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;将所述数据内容中多个部分中的每个部分进行脱敏;将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。通过本申请解决了现有技术中没有按照数据内容本身进行脱敏所导致的数据脱敏后混乱的问题,从而保证了脱敏后的数据内容的逻辑正确,有利于对脱敏后的数据进行进一步处理。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于树状结构的数据脱敏处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种基于树状结构的数据脱敏处理方法,图1是根据本申请实施例的基于树状结构的数据脱敏处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;
步骤S104,获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;
作为一个可选的实施方式,将所述多个部分的逻辑关系做成一个树状结构,所述树状结构包括根节点和树枝节点,例如,省市县区划用树状结构来进行匹配,例如,河南-洛阳-A区-B小区(还有C小区),是一个树干两个树杈B小区和C小区,这种树状结构执行速度比较快。
例如,在所述数据内容为地址的情况下,按照所述地址的区域范围大小将所述地址分为多个部分。又例如,在所述数据内容为身份证号码的情况下,按照所述身份证号码中的出生日期将所述身份证号码划分为三个部分。
作为另一个可选的实施方式,还可以使用基于神经网络的机器学习模型将所述数据内容划分为多个部分,该机器学习模型是使用多组训练数据训练得到的,每组训练数据均包括输入数据和输出数据,其中,输入数据是一个座位整体的数据内容,输出数据是划分好树状结构的数据内容,在训练之后,将本步骤中的每条数据的数据内容输入到该机器学习模型中,则可以得到划分好树状结构的数据内容。该方式被称为方式一。
或者,还可以根据预先配置好的字典,该字典用于指示识别预定内容,将识别出的预定内容配置在树状结构的预定位置。在配置好带有多个关键字的字典之后,用来识别关键字,将包括所述关键字的部分配置在所述树状结构的预定位置。该方式被称作是方式二。
判断通过方式一和方式二得到的树状结构是否相同,如果相同则确认使用该树状结构,如果不相同,则使用人工输入的树状结构。
步骤S106,将所述数据内容中多个部分中的每个部分进行脱敏;
作为一个可选的实施方式,脱敏处理的方式有很多种,例如,获取待脱敏数据对应的分类,其中,每种分类均对应一张或多张码表,所述码表用于指示对待脱敏数据进行脱敏时的字符替换规则;根据预定条件从该待脱敏数据对应的一张或多张码表中选择用于对所述待脱敏数据进行脱敏处理的第一码表,其中,所述预定条件为预先配置的,所述预定条件用于根据所述待脱敏数据的特征从所述一张或多张码表中选择出所述第一码表;建立并保存所述待脱敏数据与脱敏使用的所述第一码表之间的对应关系;使用所述第一码表对所述待脱敏数据进行脱敏。可选地,获取待脱敏数据对应的分类包括:从数据库中读取所述待脱敏数据,并获取所述待脱敏数据所在的字段;根据所述脱敏数据所在的字段的信息确定所述待脱敏数据对应的分类。
步骤S108,将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。
通过本申请解决了现有技术中没有按照数据内容本身进行脱敏所导致的数据脱敏后混乱的问题,从而保证了脱敏后的数据内容的逻辑正确,有利于对脱敏后的数据进行进一步处理。
可选地,在获取所述多条数据之前,所述方法还包括:接收到数据库查询请求,其中,所述数据库查询请求用于请求获取多条数据;确定所述多条数据为需要进行脱敏处理的数据。例如,确定所述多条数据为需要进行脱敏处理的数据包括:从所述多条数据抽取预定数量的数据,根据所述预定数量的数据确定所述多条数据为需要进行脱敏处理的数据。抽取方法有很多种,可以采用如下抽取方法:
获取数据库预定字段下的数据量;根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;从所述每个区间中抽取预定条数的数据;将在所有区间抽取到的数据进行汇总得到待处理数据;对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
可选地,以第一预定步长从所述每个区域中抽取预定条数据的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。可选地,从所述每个区间中抽取预定条数的数据包括:在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间是对应的第一预定步长从所述每个区间中抽出预定条数的数据。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
该本实施例中就提供了这样的一种装置或系统。该系统被称为基于树状结构的数据脱敏处理系统,包括:获取模块,用于获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;划分模块, 用于获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;脱敏模块,用于将所述数据内容中多个部分中的每个部分进行脱敏;连接模块,用于将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。
该系统或者装置用于实现上述的实施例中的方法的功能,该系统或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
例如,所述划分模块用于:在所述数据内容为地址的情况下,按照所述地址的区域范围大小将所述地址分为多个部分。或者,所述划分模块用于:在所述数据内容为身份证号码的情况下,按照所述身份证号码中的出生日期将所述身份证号码划分为三个部分。
又例如,在获取所述多条数据之前,还包括:确定模块,用于接收到数据库查询请求,其中,所述数据库查询请求用于请求获取多条数据;确定所述多条数据为需要进行脱敏处理的数据。可选地,所述确定模块用于:从所述多条数据抽取预定数量的数据,根据所述预定数量的数据确定所述多条数据为需要进行脱敏处理的数据。
通过本申请解决了现有技术中没有按照数据内容本身进行脱敏所导致的数据脱敏后混乱的问题,从而保证了脱敏后的数据内容的逻辑正确,有利于对脱敏后的数据进行进一步处理。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于树状结构的数据脱敏处理方法,其特征在于,包括:
获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;
获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;
将所述数据内容中多个部分中的每个部分进行脱敏;
将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。
2.根据权利要求1所述的方法,其特征在于,将所述数据内容划分为所述多个部分包括:
在所述数据内容为地址的情况下,按照所述地址的区域范围大小将所述地址分为多个部分。
3.根据权利要求1所述的方法,其特征在于,将所述数据内容划分为所述多个部分包括:
在所述数据内容为身份证号码的情况下,按照所述身份证号码中的出生日期将所述身份证号码划分为三个部分。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在获取所述多条数据之前,所述方法还包括:
接收到数据库查询请求,其中,所述数据库查询请求用于请求获取多条数据;
确定所述多条数据为需要进行脱敏处理的数据。
5.根据权利要求4所述的方法,其特征在于,确定所述多条数据为需要进行脱敏处理的数据包括:
从所述多条数据抽取预定数量的数据,根据所述预定数量的数据确定所述多条数据为需要进行脱敏处理的数据。
6.一种基于树状结构的数据脱敏处理系统,其特征在于,包括:
获取模块,用于获取多条数据,其中,所述多条数据中的每一条数据均为待脱敏数据;
划分模块, 用于获取所述每条数据中的数据内容,将所述数据内容划分为多个部分,其中,所述多个部分存在逻辑关系;
脱敏模块,用于将所述数据内容中多个部分中的每个部分进行脱敏;
连接模块,用于将脱敏后的每个部分按照所述逻辑关系连接起来,得到每条数据对应的脱敏后的内容。
7.根据权利要求6所述的系统,其特征在于,所述划分模块用于:
在所述数据内容为地址的情况下,按照所述地址的区域范围大小将所述地址分为多个部分。
8.根据权利要求6所述的系统,其特征在于,所述划分模块用于:
在所述数据内容为身份证号码的情况下,按照所述身份证号码中的出生日期将所述身份证号码划分为三个部分。
9.根据权利要求6至8中任一项所述的系统,其特征在于,在获取所述多条数据之前,还包括:确定模块,用于接收到数据库查询请求,其中,所述数据库查询请求用于请求获取多条数据;确定所述多条数据为需要进行脱敏处理的数据。
10.根据权利要求9所述的系统,其特征在于,所述确定模块用于:
从所述多条数据抽取预定数量的数据,根据所述预定数量的数据确定所述多条数据为需要进行脱敏处理的数据。
CN202111614553.2A 2021-12-28 2021-12-28 一种基于树状结构的数据脱敏处理方法和系统 Pending CN113987591A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111614553.2A CN113987591A (zh) 2021-12-28 2021-12-28 一种基于树状结构的数据脱敏处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111614553.2A CN113987591A (zh) 2021-12-28 2021-12-28 一种基于树状结构的数据脱敏处理方法和系统

Publications (1)

Publication Number Publication Date
CN113987591A true CN113987591A (zh) 2022-01-28

Family

ID=79734550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111614553.2A Pending CN113987591A (zh) 2021-12-28 2021-12-28 一种基于树状结构的数据脱敏处理方法和系统

Country Status (1)

Country Link
CN (1) CN113987591A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778380A (zh) * 2013-12-31 2014-05-07 网秦(北京)科技有限公司 数据脱敏和反脱敏方法及相关设备
CN109190405A (zh) * 2018-09-03 2019-01-11 佛山科学技术学院 一种政务大数据脱敏处理方法及装置
EP3726411A1 (en) * 2017-12-14 2020-10-21 ZTE Corporation Data desensitising method, server, terminal, and computer-readable storage medium
CN112560100A (zh) * 2020-12-22 2021-03-26 网易(杭州)网络有限公司 数据脱敏方法及装置、计算机可读存储介质、电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778380A (zh) * 2013-12-31 2014-05-07 网秦(北京)科技有限公司 数据脱敏和反脱敏方法及相关设备
EP3726411A1 (en) * 2017-12-14 2020-10-21 ZTE Corporation Data desensitising method, server, terminal, and computer-readable storage medium
CN109190405A (zh) * 2018-09-03 2019-01-11 佛山科学技术学院 一种政务大数据脱敏处理方法及装置
CN112560100A (zh) * 2020-12-22 2021-03-26 网易(杭州)网络有限公司 数据脱敏方法及装置、计算机可读存储介质、电子设备

Similar Documents

Publication Publication Date Title
CN111241389B (zh) 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110619115B (zh) 一种模板创建方法、装置、电子设备及存储介质
CN111091350A (zh) 业务数据的审核处理方法、装置、设备及存储介质
CN112487083A (zh) 一种数据校验方法和设备
CN114239591A (zh) 敏感词识别方法及装置
CN110019542B (zh) 企业关系的生成、生成组织成员数据库及识别同名成员
CN115827903A (zh) 媒体信息的违规检测方法、装置、电子设备及存储介质
CN114297719A (zh) 数据的脱敏方法和装置、存储介质和电子设备
CN117271571A (zh) 数据库唯一性约束处理方法、装置、设备及存储介质
CN113987591A (zh) 一种基于树状结构的数据脱敏处理方法和系统
CN110019295B (zh) 数据库检索方法、装置、系统以及存储介质
CN110866085A (zh) 数据反馈方法与装置
CN116189215A (zh) 自动审核方法、装置、电子设备及存储介质
CN115495420A (zh) 一种项目文件的完整性检查方法、装置、设备及存储介质
CN110968691B (zh) 司法热点确定方法及装置
CN110968555A (zh) 维度数据处理方法和装置
CN111242232B (zh) 数据分片处理方法、装置及学分银行服务器
CN111651466B (zh) 数据采样方法及装置
CN111428037B (zh) 一种分析行为政策匹配性的方法
CN111190986B (zh) 一种地图数据对比方法和装置
CN112395292A (zh) 一种数据特征提取、匹配方法及装置
CN112579747A (zh) 一种身份信息提取方法及装置
CN113392628A (zh) 一种文本解析结果的核查方法及装置
CN113987049A (zh) 一种敏感数据发现处理方法和系统
CN112668302A (zh) 虚假诉讼的判断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination