CN113987049A - 一种敏感数据发现处理方法和系统 - Google Patents
一种敏感数据发现处理方法和系统 Download PDFInfo
- Publication number
- CN113987049A CN113987049A CN202111607447.1A CN202111607447A CN113987049A CN 113987049 A CN113987049 A CN 113987049A CN 202111607447 A CN202111607447 A CN 202111607447A CN 113987049 A CN113987049 A CN 113987049A
- Authority
- CN
- China
- Prior art keywords
- data
- interval
- intervals
- preset
- pieces
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种敏感数据发现处理方法和系统,该方法包括:获取数据库预定字段下的数据量;根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;从所述每个区间中抽取预定条数的数据;将在所有区间抽取到的数据进行汇总得到待处理数据;对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。通过本申请解决了现有技术中采用顺序抽样并且抽样步长是固定不变的所导致对抽样数据判断出现误差的问题,从而数据抽样的准确性,在一定程度上提高了敏感数据发现的效率以及准确性。
Description
技术领域
本申请涉及到数据库数据处理领域,具体而言,涉及一种敏感数据发现处理方法和系统。
背景技术
敏感数据是指泄漏后可能会给社会或个人带来严重危害的数据。包括个人隐私数据,如姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等;也包括企业或社会机构不适合公布的数据,如企业的经营情况,企业的网络结构、IP地址列表等。
敏感数据脱敏有两种技术路线,一种是静态脱敏,另外一种是动态脱敏,再有可以通过数据资产梳理实现敏感数据发现,将数据库中的敏感数据进行变形处理,以实现敏感数据防泄漏。
无论是静态脱敏还是动态脱敏均需要在发现敏感数据后进行,发现敏感数据可以根据数据本身的内容来进行发现,这就需要对数据进行抽样,现有技术中采用顺序抽样并且抽样步长是固定不变的,这会导致对抽样数据判断出现误差。
发明内容
本申请实施例提供了一种敏感数据发现处理方法和系统,以至少解决现有技术中采用顺序抽样并且抽样步长是固定不变的所导致对抽样数据判断出现误差的问题。
根据本申请的一个方面,提供了一种敏感数据发现处理方法,包括:获取数据库预定字段下的数据量;根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;从所述每个区间中抽取预定条数的数据;将在所有区间抽取到的数据进行汇总得到待处理数据;对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
进一步地,从所述每个区间中抽取预定条数的数据包括:以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。
进一步地,从所述每个区间中抽取预定条数的数据包括:在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
进一步地,根据所述数据量将所述预定字段下数据分为多个区间包括:在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。
进一步地,还包括:在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
根据本申请的另一个方面,还提供了一种敏感数据发现处理系统,包括:获取模块,用于获取数据库预定字段下的数据量;划分模块,用于根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;抽取模块,用于从所述每个区间中抽取预定条数的数据;汇总模块,用于将在所有区间抽取到的数据进行汇总得到待处理数据;确定模块,用于对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
进一步地,所述抽取模块用于:以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。
进一步地,所述抽取模块用于:在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
进一步地,所述划分模块用于:在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。
进一步地,所述划分模块还用于:在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
在本申请实施例中,采用了获取数据库预定字段下的数据量;根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;从所述每个区间中抽取预定条数的数据;将在所有区间抽取到的数据进行汇总得到待处理数据;对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。通过本申请解决了现有技术中采用顺序抽样并且抽样步长是固定不变的所导致对抽样数据判断出现误差的问题,从而数据抽样的准确性,在一定程度上提高了敏感数据发现的效率以及准确性。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的敏感数据发现处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种敏感数据发现处理方法,图1是根据本申请实施例的敏感数据发现处理方法的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取数据库预定字段下的数据量;
步骤S104,根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;
在本步骤中,可以由多种区间划分方式,例如,在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
作为一个可选的实施方式,可以预先确定一个数值范围[A,B]该A和B都是整数,B大于A,划分每个区间的时候,可以随机从该数字范围内抽取一个数字,根据该数字来划分区间,每次划分好一个区间之后,均获取所述预定字段下剩余的未划分区间的数据量,如果未划分区间的数据量小于所述第一阈值,则将剩余的未划分区间的数据量作为最后一个区间。
步骤S106,从所述每个区间中抽取预定条数的数据;
抽取数据的方式有很多种,例如,第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。可选地,还可以在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
作为一个可选的实施方式,每个区间可以对应两个或两个以上的步长,确定了首条数据之后,根据第一步长抽取第一条数据,根据第二步长抽取第二条数据,根据第N步长抽取第N条数据,其中,该区间对应了N个步长;然后再根据第一步长抽取第N+1条数据,依次类推。每个区间对应的步长的数量以及每个步长的长度不相同。
步骤S108,将在所有区间抽取到的数据进行汇总得到待处理数据;
步骤S110,对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
作为一个可选的实施方式,在脱敏发现确定所述预定字段下的数据为敏感数据的情况下,将所述预定字段中的敏感数据进行脱敏处理。
在确定所述预定字段的数据下为非敏感数据的情况下,改变区间的划分方式以及每个区间的步长确定方式,在新确定的区间和步长下再次进行数据抽取,如果再次抽取的数据仍然判断为非敏感数据,则确定所述预定字段中的数据为非敏感数据。如果再次抽取的数据判断为敏感数据,则将所述预定字段中的敏感数据进行脱敏处理。
通过本申请解决了现有技术中采用顺序抽样并且抽样步长是固定不变的所导致对抽样数据判断出现误差的问题,从而数据抽样的准确性,在一定程度上提高了敏感数据发现的效率以及准确性。
敏感数据的发现方式有很多种,例如:取企业数据库的数据库描述,每个数据库描述指示对应数据库的数据库属性;获取用于敏感数据类型的记录分类规则,记录分类规则指定至少一种字段类型;通过识别具有记录分类规则指定的至少一种字段类型的数据记录来识别敏感数据类型的敏感数据记录;确定评估分数对于企业数据库,根据相应数据库中识别出的敏感数据记录的数量确定评估分数;为具有共同数据库属性的企业数据库组生成状态指标,企业组的状态指标反映识别出的总数中的敏感数据记录具有企业组成员资格的企业数据库;提供包括生成的状态指示符的界面;通过用户界面接收生成的状态指示符之一的选择和保护策略的选择; 并且将选择的保护策略应用于具有与选择的状态指示符对应的企业组中的成员资格的企业数据库的敏感数据记录。可选地,接收对所生成的状态指示符之一的选择包括: 经由所述接口接收企业数据库的初始选择; 识别向初始选择的企业数据库提供数据记录的源数据库; 识别一组从源数据库访问源数据记录的依赖数据库;在界面中提供一个沿袭视图,包括:源数据库和依赖数据库集合的数据库状态指示符,以及指示数据库状态之间的数据访问依赖关系的连接元素指标;并且接收从源状态指示符和从属数据库状态指示符之一中所生成的状态指示符之一的选择。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
该本实施例中就提供了这样的一种装置或系统。该系统被称为敏感数据发现处理系统,包括:获取模块,用于获取数据库预定字段下的数据量;划分模块,用于根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;抽取模块,用于从所述每个区间中抽取预定条数的数据;汇总模块,用于将在所有区间抽取到的数据进行汇总得到待处理数据;确定模块,用于对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
该系统或者装置用于实现上述的实施例中的方法的功能,该系统或者装置中的每个模块与方法中的每个步骤相对应,已经在方法中进行过说明的,在此不再赘述。
例如,所述抽取模块用于:以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。可选地,所述抽取模块用于:在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
又例如,所述划分模块用于:在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。可选地,所述划分模块还用于:在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
在本实施例中发现任务随机抽取数据,按照区间和步长进行取样,如果发现结果差不多的话,动态调整补步长。数据量的比较大的时候来还可以调整区间大小。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种敏感数据发现处理方法,其特征在于,包括:
获取数据库预定字段下的数据量;
根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;
从所述每个区间中抽取预定条数的数据;
将在所有区间抽取到的数据进行汇总得到待处理数据;
对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
2.根据权利要求1所述的方法,其特征在于,从所述每个区间中抽取预定条数的数据包括:
以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。
3.根据权利要求2所述的方法,其特征在于,从所述每个区间中抽取预定条数的数据包括:
在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
4.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述数据量将所述预定字段下数据分为多个区间包括:
在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。
5.根据权利要求4所述的方法,其特征在于,还包括:
在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
6.一种敏感数据发现处理系统,其特征在于,包括:
获取模块,用于获取数据库预定字段下的数据量;
划分模块,用于根据所述数据量将所述预定字段下数据分为多个区间,其中,所述多个区间中的每个区间包括多条数据;
抽取模块,用于从所述每个区间中抽取预定条数的数据;
汇总模块,用于将在所有区间抽取到的数据进行汇总得到待处理数据;
确定模块,用于对所述待处理数据进行脱敏发现,确定所述预定字段下的数据是否为敏感数据。
7.根据权利要求6所述的系统,其特征在于,所述抽取模块用于:
以第一预定步长从所述每个区间中抽取预定条数的数据,其中,所述每个区间对应的第一预定步长的数据相同或者不同。
8.根据权利要求7所述的系统,其特征在于,所述抽取模块用于:
在所述每个区间内随机获取第一条抽取的数据,以所述第一条抽取的数据为首条数据按照每个区间对应的第一预定步长从所述每个区间中抽出预定条数的数据。
9.根据权利要求6至8中任一项所述的系统,其特征在于,所述划分模块用于:
在所述数据量超过第一阈值的情况下,将所述预定字段下数据分为多个区间,其中,所述每个区间中的数据量小于或等于所述第一阈值。
10.根据权利要求9所述的系统,其特征在于,所述划分模块还用于:
在所述数据量未超过所述第一阈值的情况下,将所述预定字段下的数据分为一个区间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607447.1A CN113987049A (zh) | 2021-12-27 | 2021-12-27 | 一种敏感数据发现处理方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111607447.1A CN113987049A (zh) | 2021-12-27 | 2021-12-27 | 一种敏感数据发现处理方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113987049A true CN113987049A (zh) | 2022-01-28 |
Family
ID=79734392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111607447.1A Pending CN113987049A (zh) | 2021-12-27 | 2021-12-27 | 一种敏感数据发现处理方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113987049A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794204A (zh) * | 2015-04-23 | 2015-07-22 | 上海新炬网络信息技术有限公司 | 一种数据库敏感数据自动识别方法 |
CN107368281A (zh) * | 2017-04-21 | 2017-11-21 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
CN110032559A (zh) * | 2019-04-19 | 2019-07-19 | 成都四方伟业软件股份有限公司 | 一种数据抽取方法及装置 |
CN111191281A (zh) * | 2019-12-25 | 2020-05-22 | 平安信托有限责任公司 | 数据脱敏处理方法、装置、计算机设备及存储介质 |
CN111291403A (zh) * | 2020-01-15 | 2020-06-16 | 上海新炬网络信息技术股份有限公司 | 基于分布式集群的数据脱敏装置 |
US11093632B1 (en) * | 2018-12-10 | 2021-08-17 | The Travelers Indemnity Company | Filter for sensitive data |
-
2021
- 2021-12-27 CN CN202111607447.1A patent/CN113987049A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104794204A (zh) * | 2015-04-23 | 2015-07-22 | 上海新炬网络信息技术有限公司 | 一种数据库敏感数据自动识别方法 |
CN107368281A (zh) * | 2017-04-21 | 2017-11-21 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及装置 |
US11093632B1 (en) * | 2018-12-10 | 2021-08-17 | The Travelers Indemnity Company | Filter for sensitive data |
CN110032559A (zh) * | 2019-04-19 | 2019-07-19 | 成都四方伟业软件股份有限公司 | 一种数据抽取方法及装置 |
CN111191281A (zh) * | 2019-12-25 | 2020-05-22 | 平安信托有限责任公司 | 数据脱敏处理方法、装置、计算机设备及存储介质 |
CN111291403A (zh) * | 2020-01-15 | 2020-06-16 | 上海新炬网络信息技术股份有限公司 | 基于分布式集群的数据脱敏装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107957957B (zh) | 测试用例的获取方法和装置 | |
CN107015985B (zh) | 一种数据存储与获取方法及装置 | |
CN111241122B (zh) | 任务监测方法、装置、电子设备和可读存储介质 | |
CN106897342B (zh) | 一种数据校验方法和设备 | |
CN104778179B (zh) | 一种数据迁移测试方法和系统 | |
CN110232156B (zh) | 基于长文本的信息推荐方法及装置 | |
CN113868698A (zh) | 一种文件脱敏方法及设备 | |
CN114297719A (zh) | 数据的脱敏方法和装置、存储介质和电子设备 | |
CN114626092A (zh) | 具有关联关系的多字段数据的脱敏方法、系统、装置及计算机存储介质 | |
CN112580066A (zh) | 一种数据保护方法及装置 | |
CN114138745A (zh) | 数据的集成方法、装置、存储介质及处理器 | |
WO2015124086A1 (en) | Virus signature matching method and apparatus | |
CN113987049A (zh) | 一种敏感数据发现处理方法和系统 | |
CN107315806B (zh) | 一种基于文件系统的嵌入式存储方法和装置 | |
CN110750537A (zh) | 一种客户身份识别方法及装置、设备、介质 | |
CN111428037B (zh) | 一种分析行为政策匹配性的方法 | |
CN111459411B (zh) | 数据迁移方法、装置、设备及存储介质 | |
CN114416655A (zh) | Hive文件处理方法及装置、计算机设备与存储介质 | |
CN112380174A (zh) | 含删除文件的xfs文件系统解析方法、终端设备及存储介质 | |
KR101948603B1 (ko) | 데이터의 유용성 보존을 위한 익명화 장치 및 그 방법 | |
CN114077754A (zh) | 一种基于多组数据排列保证脱敏确定性的方法和装置 | |
CN113392628A (zh) | 一种文本解析结果的核查方法及装置 | |
CN113987591A (zh) | 一种基于树状结构的数据脱敏处理方法和系统 | |
CN113961968B (zh) | 一种文件进行数据脱敏中断后处理方法和装置 | |
CN114726610B (zh) | 一种网络数据自动获取器攻击的检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220128 |