CN108563961A - 数据脱敏平台敏感数据识别方法、装置、设备及介质 - Google Patents
数据脱敏平台敏感数据识别方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN108563961A CN108563961A CN201810331846.1A CN201810331846A CN108563961A CN 108563961 A CN108563961 A CN 108563961A CN 201810331846 A CN201810331846 A CN 201810331846A CN 108563961 A CN108563961 A CN 108563961A
- Authority
- CN
- China
- Prior art keywords
- scanned
- recognition rule
- data
- sensitive data
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据脱敏平台敏感数据识别方法、装置、设备及介质。其中,该方法包括:建立敏感数据的识别规则集和待扫描字段集,识别规则集包括:一种或者多种敏感数据类型及其识别规则;根据识别规则集,扫描待扫描字段集;当从待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将敏感数据类型及其识别规则从识别规则集中删除,并继续根据识别规则集中剩下的敏感数据类型及其识别规则扫描待扫描字段集,直至识别规则集为空或者待扫描字段集中需要扫描的字段全部扫描完毕。通过本发明,解决了相关技术中的敏感数据识别方法系统开销大的问题,降低了敏感数据识别的系统开销。
Description
技术领域
本发明涉及数据脱敏领域,具体而言,涉及一种数据脱敏平台敏感数据识别方法、装置、设备及介质。
背景技术
随着各行业向信息化转型,信息安全成为社会各界关注的焦点。机票短信诈骗对民航业务链上的单位也产生了非常大负面影响,旅客信息安全已经被推到了风口浪尖上。
中国民航信息网络股份有限公司所运营的信息系统中既包含旅客身份信息、支付信息、联系方式等旅客敏感数据,也包含航空公司票价、折扣、航线等商业机密信息,且数量巨大。生产系统中,这些信息通过严格的权限管理保障数据的安全。信息系统的开发、测试等环节中,同样需要使用到这些信息,但信息接触的人群范围比生产系统要大很多,权限限制相对于生产系统也较为宽松。
因此,对于信息系统中巨量的数据中敏感数据的识别是数据脱敏的重要环节。
相关技术中敏感数据识别一般采用关键字匹配的方式,这种方式采用固定的关键字数据库对待扫描字段全文进行扫描,以识别待扫描字段中是否存在敏感数据。采用这种方式扫描敏感数据,由于采用了固定的关键字数据库,因此即使已经扫描到某一类型字段中存在了大量的同种类型的敏感数据,在对该类型字段的其他数据进行下一次扫描时仍然会采用固定的关键字数据库再次扫描,从而占用了大量的系统开销。
综上所述,针对相关技术中的敏感数据识别方法系统开销大的问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种数据脱敏平台敏感数据识别方法、装置、设备及介质,以至少解决相关技术中的敏感数据识别方法系统开销大的问题。
第一方面,本发明实施例提供了一种数据脱敏平台敏感数据识别方法,所述方法包括:
建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;
根据所述识别规则集,扫描所述待扫描字段集;
当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。
第二方面,本发明实施例提供了一种数据脱敏平台敏感数据识别装置,所述装置包括:
建立模块,用于建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;
扫描模块,用于根据所述识别规则集,扫描所述待扫描字段集;
处理模块,用于当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。
第三方面,本发明实施例提供了一种数据脱敏平台敏感数据识别设备,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现第一方面所述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现第一方面所述的方法。
通过本发明实施例提供的数据脱敏平台敏感数据识别方法、装置、设备及介质,采用建立敏感数据的识别规则集和待扫描字段集,识别规则集包括:一种或者多种敏感数据类型及其识别规则;根据识别规则集,扫描待扫描字段集;当从待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将敏感数据类型及其识别规则从识别规则集中删除,并继续根据识别规则集中剩下的敏感数据类型及其识别规则扫描待扫描字段集,直至识别规则集为空或者待扫描字段集中需要扫描的字段全部扫描完毕的方式,解决了相关技术中的敏感数据识别方法系统开销大的问题,降低了敏感数据识别的系统开销。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的数据脱敏平台敏感数据识别方法的流程图;
图2是根据本发明实施例的数据脱敏平台敏感数据识别装置的结构示意图;
图3是根据本发明实施例的数据脱敏平台敏感数据识别设备的硬件结构图;
图4是根据本发明优选实施例的数据脱敏平台敏感数据识别方法的流程图;
图5是根据本发明优选实施例的敏感数据扫描策略动态调整过程的流程图;
图6是根据本发明优选实施例的建立基础敏感数据类型的界面示意图;
图7是根据本发明优选实施例的建立识别规则集的界面示意图;
图8是根据本发明优选实施例的识别规则集绑定扫描字段集的界面示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本实施例中提供了一种数据脱敏平台敏感数据识别方法,图1是根据本发明实施例的数据脱敏平台敏感数据识别方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,建立敏感数据的识别规则集和待扫描字段集,识别规则集包括:一种或者多种敏感数据类型及其识别规则;
步骤S102,根据识别规则集,扫描待扫描字段集;
步骤S103,当从待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将敏感数据类型及其识别规则从识别规则集中删除,并继续根据识别规则集中剩下的敏感数据类型及其识别规则扫描待扫描字段集,直至识别规则集为空或者待扫描字段集中需要扫描的字段全部扫描完毕。
通过上述步骤,设置一个预设阈值,在扫描出来的某一敏感数据类型的字段数量超过预设阈值时,认为该待扫描字段集中存在该敏感数据类型的字段;此时将该敏感数据类型及其识别规则从识别规则集中删除,而进行剩余的扫描以识别该待扫描字段集中是否存在其他的敏感数据类型。可见,由于识别规则集中识别规则的减少,减少了系统开销,提高了识别效率。
可选地,在识别规则集为空或者待扫描字段集全部扫描完毕之后,输出待扫描字段集的敏感数据识别结果。敏感数据识别结果包括:已经扫描出来的敏感数据类型,和/或扫描到的各类敏感数据类型的字段的数量。
可选地,敏感数据类型包括但不限于以下至少之一:身份证号码、护照号码、军官证号码、银行卡号码、常客卡号码、手机号码、电话号码、邮箱、联系地址。
可选地,根据识别规则集,扫描待扫描字段集包括:将识别规则集与待扫描字段集中的一个或者多个字段分别绑定;使用识别规则集分别扫描待扫描字段集中与识别规则集绑定的一个或者多个字段。
可选地,根据识别规则集,扫描待扫描字段集包括:根据识别规则集和待扫描字段集,生成扫描任务;执行扫描任务。
可选地,执行扫描任务包括:在待扫描字段集的数据类型为关系型数据库的数据表的情况下,将数据表分成多个分页,并将每一个分页作为一个子任务;并行执行多个子任务。
可选地,执行扫描任务包括:在待扫描字段集的数据类型为HDFS文件或者Hbase数据库的情况下,以MapReduce或者Sprark的方式将扫描任务提交给服务器集群,以通过集群服务器分布式并发执行扫描任务。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种数据脱敏平台敏感数据识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”或者“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本发明实施例的数据脱敏平台敏感数据识别装置的结构框图,如图2所示,该装置包括:
建立模块21,用于建立敏感数据的识别规则集和待扫描字段集,识别规则集包括:一种或者多种敏感数据类型及其识别规则;
扫描模块22,用于根据识别规则集,扫描待扫描字段集;
处理模块23,用于当从待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将敏感数据类型及其识别规则从识别规则集中删除,并继续根据识别规则集中剩下的敏感数据类型及其识别规则扫描待扫描字段集,直至识别规则集为空或者待扫描字段集中需要扫描的字段全部扫描完毕。
可选地,该装置还包括:输出模块,耦合至处理模块23,用于输出待扫描字段集的敏感数据识别结果。
可选地,敏感数据类型包括但不限于以下至少之一:身份证号码、护照号码、军官证号码、银行卡号码、常客卡号码、手机号码、电话号码、邮箱、联系地址。
可选地,扫描模块22,用于将识别规则集与待扫描字段集中的一个或者多个字段分别绑定;使用识别规则集分别扫描待扫描字段集中与识别规则集绑定的一个或者多个字段。
可选地,扫描模块22,用于根据识别规则集和待扫描字段集,生成扫描任务;执行扫描任务。
可选地,扫描模块22执行扫描任务包括:在待扫描字段集的数据类型为关系型数据库的数据表的情况下,将数据表分成多个分页,并将每一个分页作为一个子任务;并行执行多个子任务。
可选地,扫描模块22执行扫描任务包括:在待扫描字段集的数据类型为HDFS文件或者Hbase数据库的情况下,以MapReduce或者Sprark的方式将扫描任务提交给服务器集群,以通过集群服务器分布式并发执行扫描任务。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述模块分别位于多个处理器中。
另外,结合图1描述的本发明实施例的数据脱敏平台敏感数据识别方法可以由数据脱敏平台敏感数据识别设备来实现。图3示出了本发明实施例提供的数据脱敏平台敏感数据识别设备的硬件结构示意图。
数据脱敏平台敏感数据识别设备可以包括处理器31以及存储有计算机程序指令的存储器32。
具体地,上述处理器31可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器32可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器32可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器32可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器32可在数据处理装置的内部或外部。在特定实施例中,存储器32是非易失性固态存储器。在特定实施例中,存储器32包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器31通过读取并执行存储器32中存储的计算机程序指令,以实现上述实施例中的任意一种数据脱敏平台敏感数据识别方法。
在一个示例中,数据脱敏平台敏感数据识别设备还可包括通信接口33和总线30。其中,如图3所示,处理器31、存储器32、通信接口33通过总线30连接并完成相互间的通信。
通信接口33,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线30包括硬件、软件或两者,将数据脱敏平台敏感数据识别设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线30可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该数据脱敏平台敏感数据识别设备可以基于获取到的数据,执行本发明实施例中的数据脱敏平台敏感数据识别方法,从而实现结合图1描述的数据脱敏平台敏感数据识别方法。
另外,结合上述实施例中的数据脱敏平台敏感数据识别方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据脱敏平台敏感数据识别方法。
为了使本发明实施例的描述更加清楚,下面结合优选实施例进行描述和说明。
本优选实施例提供了一种数据脱敏平台敏感数据识别方法。随着系统的不断增加和完善,所存储的数据也在不断的变化,为了更快捷、更有效、更全面的在已有数据中发现是否存在敏感数据,智能识别技术有显得格外重要了。本优选实施例提供的识别技术可以更高效的与数据脱敏技术相结合,来完成数据脱敏工作。通过本优选实施例的识别技术,可以很准确的知道什么地方存在着需要脱敏的敏感数据,不再担心哪些地方会有遗漏。
本优选实施例的识别技术旨在数据库中给出的表字段中,自动识别出预先定义的敏感数据类型,并输出字段中包含的敏感数据类型和一些抽样数据。以该扫描结果为依据,可以联系相关产品线对该字段进行详细分析。根据详细分析结果,绑定或者开发对应的脱敏规则。最终,完成未识别的敏感数据的脱敏任务。
敏感数据的脱敏是保障非生产系统数据安全行之有效的重要手段。通过数据脱敏,可以阻断敏感数据泄露的渠道,降低数据泄露的风险的,同时不影响正常测试、开发和数据分析工作的开展,符合目前民航业数据的使用需求。
在识别数据是否存在敏感数据的过程中,不同的信息需要使用不同的算法进行识别。比如:姓名、身份证、护照号码、其他证件号码、支付卡号码、常客卡号码、电话、邮箱、联系地址等等。
参考图4,本优选实施例提供的数据脱敏平台敏感数据识别方法包括如下步骤:
步骤1,建立各个基础敏感数据类型的识别规则,识别规则可以使用正则表达式的方式实现。对于不同的敏感数据类型,有着不同的规则策略。
下面举例几种敏感数据的正则表达识别规则:
姓名:以百家姓中的姓氏开关及1到3位汉字结尾;
身份证号码:
(?<![\d])(([1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3})|([1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])((\d{4})|\d{3}[Xx])))(?![\d]);
护照号码:(?<![a-zA-Z0-9])(1[45][0-9]{7}|G[0-9]{8}|P[0-9]{7}|S[0-9]{7,8}|(D|S|P|G|E|W)\d{8}|(DE|SE|PE|14|15)\d{7}|(m|H)\\d{11}|(\d{8}(A|B|C|D|31|32 |35)))(?![a-zA-Z0-9]);
军官证号码:南字第(\d{8})号|北字第(\d{8})号|沈字第(\d{8})号|兰字第(\d{8})号|成字第(\d{8})号|济字第(\d{8})号|广字第(\d{8})号|海字第(\d{8})号|空字第(\d{8})号|参字第(\d{8})号|政字第(\d{8})号|后字第(\d{8})号|装字第(\d{8})号;
银行号码:(?<![\d])\d{19}(?![\d]);
常客卡号码:
(?<![a-zA-Z0-9])(CA|FM|CZ|KY|ZH|MF|MU|SZ|NX|UA|DL|LH|KL|AF|CX|KE|JL|NH|AR|NZ|CI|OZ|SQ|QF|BR|TG|ET|SK|AC|TP|AM|VS|SU|VN|CM|A3|TK|SV|OK)[0-9]{7,15}(?![a-zA-Z0-9]);
手机号码:
(?<![\d]+)((1(3[4-9]|5[012789]|8[78])\d{8})|(18[09]\d{8})|(1(3[0-2]|5[56]|8[56])\d{8})|(1[35]3\d{8}))(?![\d]+);
电话号码:(?<![\d]+)(([0][1-9]{2,3}-?[0-9]{5,10})|([1-9]{1}[0-9]{5,8}))(?![\d]+);
邮箱:\w+((-\w+)|(\.\w+))*\@[A-Za-z0-9]+((\.|-)[A-Za-z0-9]+)*\.[A-Za-z0-9]+;
联系地址:[\u4e00-\u9fa5][\u4e00-\u9fa5A-Za-z\d\-]{4,};
由于一个数据字段信息中可能存在复合数据类型,即一个数据字段中包含多种基础敏感数据信息,所以针对一个数据字段需要绑定可能存在几种基础敏感数据的识别规则,这就需要针对一个数据字段建立一个识别规则集,一个识别规则集包括至少一个基础敏感数据类型识别规则,同时可以为识别规则进行顺序排列,设置识别规则匹配的先后顺序。通过使用识别规则集中的所有规则进行识别后,可以更全面的识别出数据字段信息中的敏感数据。
步骤2,敏感数据智能识别需要建立一个扫描字段集,一个扫描字段集中包括一个或多个需要扫描的字段。一个扫描字段集中的字段进行敏感识别。
步骤3,扫描字段集中的字段需要绑定识别规则集,表示这个字段按照绑定的识别规则集中的所有基础敏感数据类型识别规则进行顺序匹配扫描。当某个表要全表按照某个识别规则集进行扫描,可以直接在“表”级别绑定识别规则集,可以不针对表字段一一绑定。
步骤4,由于敏感数据类型识别的数据量都是比较庞大的,所以敏感识别任何设计成了提交式异步执行任务,任务可以是提交后立即执行,也可以提交后定时执行。针对关系型数据库的敏感扫描任务,首先要将数据表进行分页,每页作为一个子任务,可以同时执行指定的几个子任务,以此并行的方式提高扫描速度。分页数据量可以进行配置。各个子任务查询数据库按每页的数据量批量获取数据到本地进行扫描。针对大数据的HDFS文件,Hbase数据库,扫描任务使用大数据的分布式技术,以MapReduce或者Sprark的方式将任务提交给集群,发挥集群的分布式并发地高效执行任务。
参考图5,为了提高识别效率,在本优选实施例中采用了扫描策略动态调整的方式。所谓动态调整的是当扫描某个字段的对应的规则集中的某个规则扫描到的数据达到指定的预设阀值时,就认为这个字段中已经含有这类敏感数据,不再继续扫描这类敏感数据,就会把这个规则从该规则集中剔除,用剩下的规则继续循环匹配扫描,从而减少规则集中的规则,达到提高扫描速度的目的,直到所有数据扫描完成。如果在扫描的过程中,所有的规则都从规则集中剔除之后,则扫描任务结束。
每扫描完一行数据,可以对扫描到的结果进行统计,并将扫描结果保存到扫描结果保存到文件中。一条数据扫描完成后,将该条数据中符合规则的原字符串、匹配的数据类型作为一个结果集,写到到文件中。每个子任务扫描完成后,将敏感数据类型统计结果,更新到平台对应的子任务信息统计表中。大数据分布式扫描任务直接将扫描结果保存在HDFS文件系统中。另外大数据的敏感类型统计是以MapReduce或者Sprark的累加器方式进行统计,最后将累加器中的统计结果保存到平台任务信息统计表中。通过这些统计信息,可以很明确的看出所扫描的数据中是否存在敏感数据。该统计信息中可以看到哪些字段存在哪种识别规则的数据多少个,让用户一目了然。同时为了提高识别准确率的判断,扫描过各中全保存一些样本数据,这些保存的样本数据量可以进行设置,如5000条、10000条或全部。
下面结合附图对本优选实施例进行进一步描述和说明。
1、创建敏感数据扫描任务。
1)建立各个基础敏感数据类型(如:姓名、身份证、手机号、银行卡等)的识别规则。识别规则可以使用正则表达式的方式实现。敏感数据的识别规则如图6所示。
2)建立识别规则集。因为一个数据字段信息中可能存在几种基础敏感数据类型(如既包含身份证信息,又包含姓名信息),所以针对一个数据字段需要绑定可能存在几种基础敏感数据的识别规则,这就需要针对一个数据字段建立一个识别规则集,一个识别规则集包括至少一个或多个基础敏感数据类型识别规则,同时可以为识别规则进行顺序排列,设置识别规则匹配的先后顺序。图7示出了一个识别规则集的所有基础识别规则和识别顺序(从上到下优先排序)。
3)建立扫描字段集。敏感数据智能识别需要建立一个扫描字段集,针对一个字段集中的字段进行敏感识别。扫描字段集中的字段需要绑定识别规则集,表示这个字段按照绑定的识别规则集中的所有基础敏感数据类型识别规则进行顺序匹配扫描。当某个表要全表按照某个识别规则集进行扫描,可以直接在“表”级别绑定识别规则集,可以不针对表字段一一绑定。如图8,persons表中针对某些字段绑定了识别规则集,persons_masked是针对全表进行绑定识别规则集。
4)建立敏感数据类型识别的扫描任务。由于敏感数据类型识别的数据量都是比较庞大的,所以敏感识别任何设计成了提交式异步执行任务,任务可以是提交后立即执行,也可以提交后定时执行。敏感识别的扫描结果保存到本地文本文件中(针对大数据如HDFS、Hbase、Hive,因为扫描任务是集群化分布式执行,所以其扫描结果保存到Hdfs文件系统中)。为了提高识别效率,扫描的样本数据量可以设置,如5000条、10000条或全部。
2,执行敏感数据扫描。
1)划分敏感数据扫描子任务
针对关系型数据库的敏感扫描任务,首先要将数据表进行分页,每页作为一个子任务,可以同时执行指定的几个子任务,以此并行的方式提高扫描速度。分页数据量的可以进行配置。各个子任务查询数据库按每页的数据量批量获取数据到本地进行扫描。
针对大数据的HDFS文件,Hbase数据库,扫描任务使用大数据的分布式技术,以MapReduce或者Sprark的方式将任务提交给集群,发挥集群的分布式并发地高效执行任务。
2)执行敏感扫描子任务
针对每个子任务中的每条数据,在绑定的扫描规则集中,按照从上至下的顺序,使用每一条扫描规则对该条数据进行扫描和匹配,每条规则对字符串从头到尾匹配是否存在符合自己的规则的数据。规则集中的全部规则扫描完成后,再对下一条数据进行扫描,该分页中的所有数据都扫描完成后,再执行下一页中的数据。
3)敏感数据扫描策略动态调整
为了提高识别效率,平台采用了扫描策略动态调整的方式。所谓动态调整批的是当扫描某个字段的对应的规则集中的某个规则扫描到的数据达到指定的阀值时,就认为这个字段中已经含有这类敏感数据,不再继续扫描这类敏感数据,就会把这个规则从该规则集中踢除,用剩下的规则继续循环匹配扫描,从而减少规则集中的规则,达到提高扫描速度的目的,直到所有数据扫描完成。如果在扫描的过程中,所有的规则都从规则集中踢除之后,则扫描任务结束。
4)保存扫描结果
每扫描完一行数据,需要对扫描到的结果进行统计,并将扫描结果保存到扫描结果保存到文件中。一条数据扫描完成后,将该条数据中符合规则的原字符串、匹配的数据类型作为一个结果集,写到到文件中。每个子任务扫描完成后,将敏感数据类型统计结果,更新到平台对应的子任务信息统计表中。
大数据分布式扫描任务直接将扫描结果保存在HDFS文件系统中。另外大数据的敏感类型统计是以MapReduce或者Sprark的累加器方式进行统计,最后将累加器中的统计结果保存到平台任务信息统计表中。
综上所述,本发明实施例和优选实施例提供的数据脱敏平台敏感数据识别方法,比较全方位的支持了各种关系型数据库、大数据类型数据库以及文件日志等形式的敏感数据智能识别功能;支持添加配置其他自定义敏感数据识别规则;可自定义扫描规则的优先级,按优先级顺序执行扫描;为了保证对敏感数据更准确全面的进行识别,系统可以对复合数据类型进行扫描和识别;扫描结果以文件形式,按表名称分文件保存,方便扫描任务完成之后查看扫描结果;支持对所有敏感数据的识别结果进行记录和统计,供查看各表个字段包含的敏感类型的所占比例,更明确的告知用户识别的结果,以便于判断和确认;为了提高敏感数据信息的识别效率,支持快速扫描策略,在识别过程中使用识别规则动态调整的方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据脱敏平台敏感数据识别方法,其特征在于,所述方法包括:
建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;
根据所述识别规则集,扫描所述待扫描字段集;
当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。
2.根据权利要求1所述的方法,其特征在于,在所述识别规则集为空或者所述待扫描字段集全部扫描完毕之后,所述方法还包括:
输出所述待扫描字段集的敏感数据识别结果。
3.根据权利要求1所述的方法,其特征在于,所述敏感数据类型包括以下至少之一:
身份证号码、护照号码、军官证号码、银行卡号码、常客卡号码、手机号码、电话号码、邮箱、联系地址。
4.根据权利要求1所述的方法,其特征在于,根据所述识别规则集,扫描所述待扫描字段集包括:
将所述识别规则集与所述待扫描字段集中的一个或者多个字段分别绑定;
使用所述识别规则集分别扫描所述待扫描字段集中与所述识别规则集绑定的一个或者多个字段。
5.根据权利要求1所述的方法,其特征在于,根据所述识别规则集,扫描所述待扫描字段集包括:
根据所述识别规则集和所述待扫描字段集,生成扫描任务;
执行所述扫描任务。
6.根据权利要求5所述的方法,其特征在于,执行所述扫描任务包括:
在所述待扫描字段集的数据类型为关系型数据库的数据表的情况下,将所述数据表分成多个分页,并将每一个分页作为一个子任务;
并行执行多个子任务。
7.根据权利要求5所述的方法,其特征在于,执行所述扫描任务包括:
在所述待扫描字段集的数据类型为HDFS文件或者Hbase数据库的情况下,以MapReduce或者Sprark的方式将所述扫描任务提交给服务器集群,以通过所述集群服务器分布式并发执行所述扫描任务。
8.一种数据脱敏平台敏感数据识别装置,其特征在于,所述装置包括:
建立模块,用于建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;
扫描模块,用于根据所述识别规则集,扫描所述待扫描字段集;
处理模块,用于当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。
9.一种数据脱敏平台敏感数据识别设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810331846.1A CN108563961B (zh) | 2018-04-13 | 2018-04-13 | 数据脱敏平台敏感数据识别方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810331846.1A CN108563961B (zh) | 2018-04-13 | 2018-04-13 | 数据脱敏平台敏感数据识别方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108563961A true CN108563961A (zh) | 2018-09-21 |
CN108563961B CN108563961B (zh) | 2021-12-24 |
Family
ID=63534965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810331846.1A Active CN108563961B (zh) | 2018-04-13 | 2018-04-13 | 数据脱敏平台敏感数据识别方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108563961B (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109240792A (zh) * | 2018-09-27 | 2019-01-18 | 武汉华中时讯科技有限责任公司 | 使用复合数据类型显示数据的装置、方法及存储介质 |
CN109614816A (zh) * | 2018-11-19 | 2019-04-12 | 平安科技(深圳)有限公司 | 数据脱敏方法、装置及存储介质 |
CN109614814A (zh) * | 2018-10-31 | 2019-04-12 | 平安普惠企业管理有限公司 | 基于日志监控的扫描敏感日志的方法、装置和计算机设备 |
CN110110543A (zh) * | 2019-03-14 | 2019-08-09 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN110489478A (zh) * | 2019-08-27 | 2019-11-22 | 恩亿科(北京)数据科技有限公司 | 一种数据扫描的方法及装置 |
CN110532799A (zh) * | 2019-07-31 | 2019-12-03 | 平安科技(深圳)有限公司 | 数据脱敏控制方法、电子装置及计算机可读存储介质 |
CN111241133A (zh) * | 2018-11-29 | 2020-06-05 | 中国移动通信集团重庆有限公司 | 敏感数据识别方法、装置、设备及计算机存储介质 |
CN111343141A (zh) * | 2020-01-22 | 2020-06-26 | 中国民航信息网络股份有限公司 | 一种用户身份识别方法及相关设备 |
CN111914294A (zh) * | 2020-07-31 | 2020-11-10 | 中国建设银行股份有限公司 | 一种数据库敏感数据识别方法及系统 |
CN112380211A (zh) * | 2020-11-05 | 2021-02-19 | 中国人寿保险股份有限公司 | 一种身份证号码识别方法、装置和电子设备 |
CN112632104A (zh) * | 2020-12-28 | 2021-04-09 | 深圳昂楷科技有限公司 | 一种针对存储过程和函数的动态脱敏方法和装置 |
CN113051601A (zh) * | 2019-12-27 | 2021-06-29 | 中移动信息技术有限公司 | 敏感数据识别方法、装置、设备和介质 |
CN113704573A (zh) * | 2021-08-26 | 2021-11-26 | 北京中安星云软件技术有限公司 | 一种数据库敏感数据扫描方法及装置 |
US11741252B1 (en) * | 2022-07-07 | 2023-08-29 | Sas Institute, Inc. | Parallel and incremental processing techniques for data protection |
CN116663040A (zh) * | 2023-07-24 | 2023-08-29 | 天津卓朗昆仑云软件技术有限公司 | 敏感数据的扫描方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101668012A (zh) * | 2009-09-23 | 2010-03-10 | 成都市华为赛门铁克科技有限公司 | 安全事件检测方法及装置 |
CN106547791A (zh) * | 2015-09-22 | 2017-03-29 | 中国移动通信集团公司 | 一种数据访问方法及系统 |
US10403275B1 (en) * | 2016-07-28 | 2019-09-03 | Josh.ai LLC | Speech control for complex commands |
-
2018
- 2018-04-13 CN CN201810331846.1A patent/CN108563961B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101668012A (zh) * | 2009-09-23 | 2010-03-10 | 成都市华为赛门铁克科技有限公司 | 安全事件检测方法及装置 |
CN106547791A (zh) * | 2015-09-22 | 2017-03-29 | 中国移动通信集团公司 | 一种数据访问方法及系统 |
US10403275B1 (en) * | 2016-07-28 | 2019-09-03 | Josh.ai LLC | Speech control for complex commands |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109240792A (zh) * | 2018-09-27 | 2019-01-18 | 武汉华中时讯科技有限责任公司 | 使用复合数据类型显示数据的装置、方法及存储介质 |
CN109614814A (zh) * | 2018-10-31 | 2019-04-12 | 平安普惠企业管理有限公司 | 基于日志监控的扫描敏感日志的方法、装置和计算机设备 |
CN109614814B (zh) * | 2018-10-31 | 2023-12-22 | 北京方盈智能数字科技有限公司 | 基于日志监控的扫描敏感日志的方法、装置和计算机设备 |
CN109614816A (zh) * | 2018-11-19 | 2019-04-12 | 平安科技(深圳)有限公司 | 数据脱敏方法、装置及存储介质 |
CN109614816B (zh) * | 2018-11-19 | 2024-05-07 | 平安科技(深圳)有限公司 | 数据脱敏方法、装置及存储介质 |
CN111241133A (zh) * | 2018-11-29 | 2020-06-05 | 中国移动通信集团重庆有限公司 | 敏感数据识别方法、装置、设备及计算机存储介质 |
CN110110543A (zh) * | 2019-03-14 | 2019-08-09 | 深圳壹账通智能科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN110532799A (zh) * | 2019-07-31 | 2019-12-03 | 平安科技(深圳)有限公司 | 数据脱敏控制方法、电子装置及计算机可读存储介质 |
CN110532799B (zh) * | 2019-07-31 | 2023-03-24 | 平安科技(深圳)有限公司 | 数据脱敏控制方法、电子装置及计算机可读存储介质 |
CN110489478A (zh) * | 2019-08-27 | 2019-11-22 | 恩亿科(北京)数据科技有限公司 | 一种数据扫描的方法及装置 |
CN113051601B (zh) * | 2019-12-27 | 2024-05-03 | 中移动信息技术有限公司 | 敏感数据识别方法、装置、设备和介质 |
CN113051601A (zh) * | 2019-12-27 | 2021-06-29 | 中移动信息技术有限公司 | 敏感数据识别方法、装置、设备和介质 |
CN111343141A (zh) * | 2020-01-22 | 2020-06-26 | 中国民航信息网络股份有限公司 | 一种用户身份识别方法及相关设备 |
CN111343141B (zh) * | 2020-01-22 | 2022-03-22 | 中国民航信息网络股份有限公司 | 一种用户身份识别方法及相关设备 |
CN111914294B (zh) * | 2020-07-31 | 2023-06-30 | 建信金融科技有限责任公司 | 一种数据库敏感数据识别方法及系统 |
CN111914294A (zh) * | 2020-07-31 | 2020-11-10 | 中国建设银行股份有限公司 | 一种数据库敏感数据识别方法及系统 |
CN112380211A (zh) * | 2020-11-05 | 2021-02-19 | 中国人寿保险股份有限公司 | 一种身份证号码识别方法、装置和电子设备 |
CN112632104A (zh) * | 2020-12-28 | 2021-04-09 | 深圳昂楷科技有限公司 | 一种针对存储过程和函数的动态脱敏方法和装置 |
CN113704573A (zh) * | 2021-08-26 | 2021-11-26 | 北京中安星云软件技术有限公司 | 一种数据库敏感数据扫描方法及装置 |
US11741252B1 (en) * | 2022-07-07 | 2023-08-29 | Sas Institute, Inc. | Parallel and incremental processing techniques for data protection |
CN116663040A (zh) * | 2023-07-24 | 2023-08-29 | 天津卓朗昆仑云软件技术有限公司 | 敏感数据的扫描方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108563961B (zh) | 2021-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108563961A (zh) | 数据脱敏平台敏感数据识别方法、装置、设备及介质 | |
CN110019149A (zh) | 一种客服知识库的建立方法、装置及设备 | |
CN107844559A (zh) | 一种文件分类方法、装置及电子设备 | |
CN106682878A (zh) | 一种设计师匹配平台及方法 | |
CN110111110A (zh) | 基于知识图谱检测欺诈的方法和装置、存储介质 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN107423613A (zh) | 依据相似度确定设备指纹的方法、装置及服务器 | |
CN107341668A (zh) | 一种判断真实数据的方法以及装置 | |
CN108595979A (zh) | 动态脱敏方法和装置 | |
CN106897290B (zh) | 一种建立关键词模型的方法及装置 | |
CN106372977B (zh) | 一种虚拟账户的处理方法和设备 | |
CN107368856A (zh) | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 | |
CN107908796A (zh) | 电子政务查重方法、装置以及计算机可读存储介质 | |
CN108712269A (zh) | 离网用户的找回方法及装置 | |
CN109190574A (zh) | 一种基于大数据的发型推荐方法、装置、终端及存储介质 | |
CN109101630B (zh) | 一种应用程序搜索结果的生成方法、装置及设备 | |
CN110599235A (zh) | 用户数据采集方法、装置、设备及存储介质 | |
CN108563490A (zh) | 解释型规则处理方法、装置、设备及介质 | |
CN110941638A (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
CN110458508A (zh) | 单据信息的处理方法、处理装置及相关产品 | |
CN109040990B (zh) | 信息采集方法、装置、计算机设备及存储介质 | |
CN110471926B (zh) | 一种档案建立方法及装置 | |
CN112612817B (zh) | 数据处理方法、装置、终端设备及计算机可读存储介质 | |
CN109982392A (zh) | 基站小区的邻区配置方法、装置、设备及介质 | |
CN112214673A (zh) | 一种舆情分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |