CN108875404A - 基于机器学习的数据脱敏方法、装置及存储介质 - Google Patents
基于机器学习的数据脱敏方法、装置及存储介质 Download PDFInfo
- Publication number
- CN108875404A CN108875404A CN201810537711.0A CN201810537711A CN108875404A CN 108875404 A CN108875404 A CN 108875404A CN 201810537711 A CN201810537711 A CN 201810537711A CN 108875404 A CN108875404 A CN 108875404A
- Authority
- CN
- China
- Prior art keywords
- desensitization
- data
- rule
- attribute information
- desensitization rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于机器学习的数据脱敏方法、装置及存储介质,其中方法包括:获取待处理数据的属性信息,根据所述属性信息通过机器学习确定第一脱敏规则,根据第一脱敏规则对待处理数据进行脱敏处理。本发明提供的基于机器学习的数据脱敏方法、装置及存储介质,能够在对数据进行脱敏处理前不需要人工确认脱敏规则,不需采用大量的人力时间成本去对脱敏规则进行设置,进而提高了数据脱敏时的效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于机器学习的数据脱敏方法、装置及存储介质。
背景技术
数据脱敏是指对数据中包含的秘密或隐私信息进行特殊处理,达到数据变形的效果,使得攻击者无法从中直接获得敏感信息。在医疗、电力、金融、电信等诸多行业中,数据脱敏都有着广泛的应用。
现有技术中,数据脱敏时使用的脱敏规则与数据的匹配都是手动设置的,并且需要提交管理员并进行多次审核,审核通过后脱敏规则才与数据的匹配正式有效,并可以进行数据脱敏操作。
采用现有技术,对数据进行脱敏处理前,需要确认脱敏规则,不仅需要大量的人力时间成本而且工作重复冗余,造成了数据脱敏时的效率较低。
发明内容
本发明提供一种基于机器学习的数据脱敏方法、装置及存储介质,提高了数据脱敏时的效率。
本发明第一方面提供一种基于机器学习的数据脱敏方法,包括:
获取待处理数据的属性信息;
根据所述属性信息通过机器学习确定第一脱敏规则;
根据所述第一脱敏规则对所述待处理数据进行脱敏处理。
在本发明第一方面一实施例中,所述通过机器学习确定所述待处理数据的第一脱敏规则,包括:
将所述属性信息送入分类器,由所述分类器输出所述第一脱敏规则;
其中,所述分类器用于根据已学习数据的属性信息与脱敏规则的匹配关系确定所述待处理数据所对应的第一脱敏规则。
在本发明第一方面一实施例中,所述分类器中存储N种已学习数据的属性信息、M种脱敏规则以及所述已学习数据的属性信息与所述脱敏规则的匹配关系,所述N和M为正整数,所述N和M相同或不同。
在本发明第一方面一实施例中,所述分类器中存储所述第一脱敏规则;或者,
所述分类器中未存储所述第一脱敏规则。
在本发明第一方面一实施例中,若所述分类器中未存储所述第一脱敏规则,所述方法还包括:
将所述待处理数据的属性信息、所述第一脱敏规则以及所述待处理数据的属性信息与所述第一脱敏规则的匹配关系存储至所述分类器中。
在本发明第一方面一实施例中,将所述待处理数据的属性信息与所述第一脱敏规则的匹配关系发送至审批设备;
当接收所述审批设备发送的确认指示,将所述待处理数据的属性信息、所述第一脱敏规则以及所述待处理数据的属性信息与所述第一脱敏规则的匹配关系存储至所述分类器中。
在本发明第一方面一实施例中,所述将所述待处理数据的属性信息与所述第一脱敏规则的匹配关系发送至审批设备之后,还包括:
当接收所述审批设备发送的第二脱敏规则,根据所述第二脱敏规则对所述待处理数据进行脱敏处理;
将所述待处理数据的属性信息、所述第二脱敏规则以及所述待处理数据的属性信息与所述第二脱敏规则的匹配关系存储至所述分类器中。
综上,本发明第一方面提供的基于机器学习的数据脱敏方法中,在获取待处理数据的属性信息后,根据所述属性信息通过机器学习确定第一脱敏规则,并根据第一脱敏规则对待处理数据进行脱敏处理。从而在对数据进行脱敏处理前不需要人工确认脱敏规则,因此不需采用大量的人力时间成本去对脱敏规则进行设置,提高了数据脱敏时的效率。
本发明第二方面提供一种基于机器学习的数据脱敏装置,包括:
获取模块,用于获取待处理数据的属性信息;
确定模块,用于根据所述属性信息通过机器学习确定第一脱敏规则;
处理模块,用于根据所述第一脱敏规则对所述待处理数据进行脱敏处理。
在本发明第二方面一实施例中,所述确定模块具体用于,将所述属性信息送入分类器,由所述分类器输出所述第一脱敏规则;
其中,所述分类器用于根据已学习数据的属性信息与脱敏规则的匹配关系确定所述待处理数据所对应的第一脱敏规则。
在本发明第二方面一实施例中,所述分类器中存储N种已学习数据的属性信息、M种脱敏规则以及所述已学习数据的属性信息与所述脱敏规则的匹配关系,所述N和M为正整数,所述N和M相同或不同。
在本发明第二方面一实施例中,所述分类器中存储所述第一脱敏规则;或者,
所述分类器中未存储所述第一脱敏规则。
在本发明第二方面一实施例中,若所述分类器中未存储所述第一脱敏规则,所述确定模块还用于:
将所述待处理数据的属性信息、所述第一脱敏规则以及所述待处理数据的属性信息与所述第一脱敏规则的匹配关系存储至所述分类器中。
在本发明第二方面一实施例中,所述确定模块还用于,将所述待处理数据的属性信息与所述第一脱敏规则的匹配关系发送至审批设备;
当接收所述审批设备发送的确认指示,将所述待处理数据的属性信息、所述第一脱敏规则以及所述待处理数据的属性信息与所述第一脱敏规则的匹配关系存储至所述分类器中。
在本发明第二方面一实施例中,所述确定模块还用于,当接收所述审批设备发送的第二脱敏规则,根据所述第二脱敏规则对所述待处理数据进行脱敏处理;
将所述待处理数据的属性信息、所述第二脱敏规则以及所述待处理数据的属性信息与所述第二脱敏规则的匹配关系存储至所述分类器中。
综上,本发明第二方面提供的基于机器学习的数据脱敏装置中,通过获取模块获取待处理数据的属性信息后,确定模块根据属性信息通过机器学习确定第一脱敏规则,使得处理模块根据第一脱敏规则对待处理数据进行脱敏处理。从而在对数据进行脱敏处理前不需要人工确认脱敏规则,因此不需采用大量的人力时间成本去对脱敏规则进行设置,提高了数据脱敏时的效率。
本发明第三方面提供一种基于机器学习的数据脱敏装置,包括:处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面任一项所述的基于机器学习的数据脱敏方法。
本发明第四方面提供一种存储介质,其上存储有计算机程序,
所述计算机程序被处理器执行时实现上述第一方面任一项所述的基于机器学习的数据脱敏方法。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于机器学习的数据脱敏方法实施例一的流程示意图;
图2为本发明基于机器学习的数据脱敏系统实施例一的结构示意图;
图3为本发明基于机器学习的数据脱敏方法实施例二的流程示意图;
图4为本发明基于机器学习的数据脱敏装置实施例一的流程示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。下面以具体地实施例对本发明的技术方案进行详细说明。下面的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明基于机器学习的数据脱敏方法实施例一的流程示意图。具体地,如图1所示,本实施例提供的基于机器学习的数据脱敏方法包括:
S101:获取待处理数据的属性信息。
具体地,本实施例的执行主体可以是具备数据处理功能的电子设备。电子设备具体可以是台式计算机(Computer)、笔记本电脑(Notebook)、平板电脑(Pad)、智能手机(Smart Phone)、智能手表(Smart Watch)、智能眼镜、工作站、数据库或服务器等具备数据处理功能的电子设备的一种或多种。在S101中,电子设备首先获取待处理的数据,其中待处理的数据为待进行脱敏处理的数据。待处理数据可以包括但不限于:身份证号、手机号、银行卡号、火车票和地址等数据。
S102:根据所述属性信息通过机器学习确定第一脱敏规则。
具体地,通过机器学习的方式根据S101中获取的待处理数据确定第一脱敏规则。其中,S102一种可能的实现方式为,将S101中的待处理数据的属性信息送入机器学习分类器,使得分类器根据机器学习分类算法输出第一脱敏规则。分类器用于根据已学习数据的属性信息与脱敏规则的匹配关系确定待处理数据所对应的第一脱敏规则。其中,分类器中会存储N种已学习数据的属性信息、M种脱敏规则以及已学习数据的属性信息与脱敏规则的匹配关系,N和M为正整数,N和M相同或不同。进一步地,分类器种存储的属性信息及脱敏规则的匹配关系可以通过分类器提前学习的方式由分类器自行确定;或者,分类器中存储的数据与脱敏规则之间的匹配关系由用户进行输入。
例如:分类器中存储3种已学习的数据的属性信息,包括:身份证号、人名和用户账号,已学习的数据属性信息可以是数据的大小、类型、表示方式或者安全级别等。本示例中以表示方式为例进行说明。其中,身份证号为数字类,人名为汉字类,用户为字母类。分类器中同时存储3种脱敏规则,包括:规则一,通过星号代替关键数字;规则二,通过马赛克遮盖关键汉字;规则三,将字母或数字的顺序打乱。分类器中存储的对应的匹配规则包括:身份证号匹配规则一,人名匹配规则二,用户账号匹配规则三。则在S102中,分类器会根据待处理数据与已学习数据的关系、待处理数据的属性信息与各规则的适用程度以及匹配关系确定第一脱敏规则。需要说明的是,本示例中仅示出了N与M相同的方式,而在实际应用中,可以由多种数据的属性信息对应一种脱敏规则,或者一种属性信息对应多种脱敏规则。
更为具体地,对于S102中通过机器学习的分类器获取的第一脱敏规则,第一脱敏规则可以是分类器中存储的脱敏规则;或者,第一脱敏规则不是分类器中存储的脱敏规则,而是由分类器根据机器学习方式生成的。
例如:在上述分类器中只学习了身份证号、人名和用户账号三种类型的数据。若此时获取的待处理数据是用户的密码,虽然此时分类器没有学习密码对应的脱敏数据,但是可以根据已经学习的匹配关系给新的待处理数据确定新的第一脱敏规则。例如已学习的用户账号与密码都属于字母类的数据,则可以将用户处理账号的规则三也用于处理密码,作为待处理数据为密码时的第一脱敏规则。或者为不同的待处理数据定义不同的安全级别,密码所对应的安全级别应为最高,此时可以根据密码的安全级别认为应该对密码采用最高安全界别的脱敏规则,而在已经学习的规则一至三种,规则一的通过星号代替了部分关键字的安全级别已经是最高但是仍然无法满足密码所需的安全级别。因此分类器对规则一进行相应修正,使得对密码的脱敏规则为将密码全部的数字都用星号代替,与规则一部分的数字用星号代替提高了安全级别。此时生成的第一脱敏规则为分类器中没有的脱敏规则。
S103:根据第一脱敏规则对待处理数据进行脱敏处理。
具体地,在S103中,根据S102中获取的第一脱敏规则对S101中获取的待处理数据进行脱敏处理。
综上,本实施例提供的基于机器学习的数据脱敏方法中,在获取待处理数据的属性信息后,通过机器学习确定待处理数据对应的第一脱敏规则,并根据第一脱敏规则对待处理数据进行脱敏处理。从而在对数据进行脱敏处理前不需要人工确认脱敏规则,因此不需采用大量的人力时间成本去对脱敏规则进行设置,提高了数据脱敏时的效率。
进一步地,在上述实施例中,若分类器中未存储第一脱敏规则,上述基于机器学习的数据脱敏方法还包括:将待处理数据的属性信息、第一脱敏规则以及待处理数据的属性信息与第一脱敏规则的匹配关系存储至分类器中。例如:在上述示例中,当分类器通过机器学习的方式确定的第一脱敏规则没有在分类器中存储时。则在得到第一脱敏规则后,将最新生成的第一脱敏规则存储在分类器中。同时存入分类器的还有待处理数据的属性信息、第一脱敏规则,以及待处理数据的属性信息与第一脱敏规则的匹配关系。使得分类器在下次确定数据的脱敏规则时能够考虑此次生成的第一脱敏规则。此外,若分类器中已经存储了待处理数据的属性信息,但是第一脱敏规则是分类器新生成的,则可以将原有分类器中存储的属性信息与原脱敏规则的匹配关系进行删除后,存入第一脱敏规则、待处理数据的属性信息与第一脱敏规则的匹配关系。而待处理数据的属性信息由于已经在分类器中存储因此不需要再次进行存储。
进一步地,在上述实施例中,若分类器中未存储第一脱敏规则,上述基于机器学习的数据脱敏方法还包括:将待处理数据的属性信息与第一脱敏规则的匹配关系发送至审批设备。其中,为了防止分类器新生成的第一脱敏规则不具备实用性,或者计算量较大不便于使用。在上述实施例中的电子设备的确定的第一脱敏规则未在其中存储时,将新生成的脱敏规则发送至审批设备,由用户或者相关审核人员对第一脱敏规则进行审核。只有当用户后审核人员审核通过,接收到审批设备发送的确认指示后,才可将待处理数据的属性信息、第一脱敏规则以及待处理数据的属性信息与第一脱敏规则的匹配关系存储至分类器中。
进一步地,在上述实施例中,将待处理数据的属性信息与第一脱敏规则的匹配关系发送至审批设备之后,若接收审批设备发送的第二脱敏规则,根据第二脱敏规则对待处理数据进行脱敏处理;并将待处理数据的属性信息、第二脱敏规则以及待处理数据的属性信息与第二脱敏规则的匹配关系存储至分类器中。其中,本实施例针对若审核人员认为分类器生成的第一脱敏规则不能使用,则可以设置第二脱敏规则后,通过审批设备发送给电子设备。如果电子设备收到审核设备发送的第二脱敏规则,则不使用之前的第一脱敏规则,而是使用接收到的第二脱敏规则对待处理数据进行脱敏处理,并将最新生成的第二脱敏规则存储在分类器中。同时存入分类器的还有待处理数据的属性信息、第二脱敏规则,以及待处理数据的属性信息与第二脱敏规则的匹配关系。使得分类器在下次确定数据的脱敏规则时能够考虑此次生成的第二脱敏规则。
更为具体地,图2为本发明基于机器学习的数据脱敏系统实施例一的结构示意图。如图2所示的系统可用于执行上述实施例中基于机器学习的数据脱敏方法。图中系统具体包括:内容表、训练表、规则表、规则与数据匹配表和规则应用模块。其中,内容表存储着实际待脱敏的数据,最后输入规则应用模块进行脱敏操作。训练表模拟实际待脱敏的数据,供规则应用模块不断学习训练模型。规则表是系统中已经存储的脱敏规则,包括规则和对应的应用场景,并且规则是持续不断增加的。规则与数据匹配表用于存储待脱敏数据与脱敏规则的匹配关系。规则应用模块基于机器学习的模型,训练表提供待脱敏的测试数据,规则表提供可用的脱敏规则,模型进行循环不断的学习校正,最后精准的将待脱敏数据与脱敏规则匹配。
图3为本发明基于机器学习的数据脱敏方法实施例二的流程示意图。如图3所示的方法可以通过图2所示的系统执行,图3所示的基于机器学习的数据脱敏方法是图1所示方法的一种更为具体的实现方式。其中本方法包括如下步骤:
1、内容表存储待脱敏的实际数据,训练表存储用于测试的待脱敏数据,规则表存储可用的脱敏规则以及使用场景,规则表和训练表的数据不断增加。规则数据匹配表存储的是待脱敏数据与脱敏规则的匹配关系。
2、训练表中的待脱敏数据与规则表中的脱敏规则为规则应用模块的数据源,规则应用模型将训练数据训练后生成训练结果,即为脱敏数据与规则的匹配关系。
3、判断训练结果是否在规则数据匹配表中,若存在则规则应用模型匹配操作成功,结束匹配操作,否则将匹配关系发送给管理员进行审核。
4、管理员审核训练结果,若审核通过则增加到数据规则对应表中,规则应用模型匹配操作成功,结束匹配操作,若审核不通过,将审核结果修改后返回规则应用模型继续训练,规则应用模型通过如此训练不断校正数据与规则的匹配方法。
5、当训练表中内容全部训练结束,将内容表中的待审核数据输入到规则应用模型,为待审核数据匹配出对应脱敏规则,若匹配关系存在规则数据匹配表中直接后续的脱敏工作,若不存在则将匹配关反馈审核模块。
6、审核流程与步骤4一致。
7、将脱敏数据和对应规则数据匹配表中脱敏规则开始脱敏工作,最终脱敏结果提供给用户。
综上,本实施例提供的基于机器学习的数据脱敏方法中,用于数据脱敏的脱敏规则由机器学习的方式自动匹配完成,不需要每条数据都手动设置对应的脱敏规则,减少了手动输入的人力,提高效率。同时,由于数据与脱敏规则的匹配设置不需要每次都提交管理员审核,简化流程。由于脱敏规则设置不需要人工手动设置,对于新增的待脱敏数据系统能够实时设置规则,时间上保证实时性。进一步地,通过机器学习完成待脱敏数据与脱敏规则的匹配,大量的训练集与多轮的校正,保证了匹配的正确性。并且脱敏规则及使用场景更丰富,更加精准的完成数据的脱敏,保护了敏感性数据。
图4为本发明基于机器学习的数据脱敏装置实施例一的流程示意图。如图4所示,本实施例提供的基于机器学习的数据脱敏装置包括:获取模块401,确定模块402和处理模块403。其中,获取模块401用于获取待处理数据的属性信息;确定模块402用于根据所述属性信息确定待处理数据的第一脱敏规则;处理模块403用于根据第一脱敏规则对待处理数据进行脱敏处理。
本实施例提供的基于机器学习的数据脱敏装置用于执行图1所示的基于机器学习的数据脱敏方法,其实现方式与原理相同,不再赘述。
可选地,确定模块402具体用于,将所述属性信息送入分类器,由所述分类器输出所述第一脱敏规则;
其中,分类器用于根据已学习数据的属性信息与脱敏规则的匹配关系确定待处理数据所对应的第一脱敏规则。
可选地,分类器中存储N种已学习数据的属性信息、M种脱敏规则以及已学习数据的属性信息与脱敏规则的匹配关系,N和M为正整数,N和M相同或不同。
可选地,分类器中存储第一脱敏规则;或者,分类器中未存储第一脱敏规则。
可选地,确定模块402还用于,将待处理数据的属性信息与第一脱敏规则的匹配关系发送至审批设备;
当接收审批设备发送的确认指示,将待处理数据的属性信息、第一脱敏规则以及待处理数据的属性信息与第一脱敏规则的匹配关系存储至分类器中。
可选地,确定模块402还用于,当接收审批设备发送的第二脱敏规则,根据第二脱敏规则对待处理数据进行脱敏处理;
将待处理数据、第二脱敏规则以及待处理数据与第二脱敏规则的匹配关系存储至分类器中。
本实施例提供的基于机器学习的数据脱敏装置用于执行上述实施例中所示的基于机器学习的数据脱敏方法,其实现方式与原理相同,不再赘述。
本发明还提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现权利要求上述实施例中任一项的无人机电池重启处理方法。
本发明还提供一种基于机器学习的数据脱敏装置,包括:处理器;以及,
存储器,用于存储处理器的可执行指令;
其中,处理器配置为经由执行可执行指令来执行上述实施例中任一项的基于机器学习的数据脱敏方法。
本发明还提供一种无人机电池重启处理设备,包括:存储器、处理器及计算机程序,计算机程序存储在存储器中,处理器运行计算机程序执行上述各实施例中的基于机器学习的数据脱敏方法。
本发明还提供一种程序产品,该程序产品包括计算机程序(即执行指令),该计算机程序存储在可读存储介质中。编码设备的至少一个处理器可以从可读存储介质读取该计算机程序,至少一个处理器执行该计算机程序使得编码设备实施前述的各种实施方式提供的基于机器学习的数据脱敏方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种基于机器学习的数据脱敏方法,其特征在于,包括:
获取待处理数据的属性信息;
根据所述属性信息通过机器学习确定第一脱敏规则;
根据所述第一脱敏规则对所述待处理数据进行脱敏处理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述属性信息通过机器学习确定第一脱敏规则,包括:
将所述属性信息送入分类器,由所述分类器输出所述第一脱敏规则;
其中,所述分类器用于根据已学习数据的属性信息与脱敏规则的匹配关系确定所述待处理数据所对应的第一脱敏规则。
3.根据权利要求2所述的方法,其特征在于,所述分类器中存储N种已学习数据的属性信息、M种脱敏规则以及所述已学习数据的属性信息与所述脱敏规则的匹配关系,所述N和M为正整数,所述N和M相同或不同。
4.根据权利要求2或3所述的方法,其特征在于,
所述分类器中存储所述第一脱敏规则;或者,
所述分类器中未存储所述第一脱敏规则。
5.根据权利要求4所述的方法,其特征在于,若所述分类器中未存储所述第一脱敏规则,所述方法还包括:
将所述待处理数据的属性信息、所述第一脱敏规则以及所述待处理数据的属性信息与所述第一脱敏规则的匹配关系存储至所述分类器中。
6.根据权利要求4所述的方法,其特征在于,还包括:
将所述待处理数据的属性信息与所述第一脱敏规则的匹配关系发送至审批设备;
当接收所述审批设备发送的确认指示,将所述待处理数据的属性信息、所述第一脱敏规则以及所述待处理数据的属性信息与所述第一脱敏规则的匹配关系存储至所述分类器中。
7.根据权利要求6所述的方法,其特征在于,所述将所述待处理数据的属性信息与所述第一脱敏规则的匹配关系发送至审批设备之后,还包括:
当接收所述审批设备发送的第二脱敏规则,根据所述第二脱敏规则对所述待处理数据进行脱敏处理;
将所述待处理数据的属性信息、所述第二脱敏规则以及所述待处理数据的属性信息与所述第二脱敏规则的匹配关系存储至所述分类器中。
8.一种基于机器学习的数据脱敏装置,其特征在于,包括:
获取模块,用于获取待处理数据的属性信息;
确定模块,用于根据所述属性信息通过机器学习确定第一脱敏规则;
处理模块,用于根据所述第一脱敏规则对所述待处理数据进行脱敏处理。
9.一种基于机器学习的数据脱敏装置,其特征在于,包括:处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的基于机器学习的数据脱敏方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,
所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于机器学习的数据脱敏方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810537711.0A CN108875404B (zh) | 2018-05-30 | 2018-05-30 | 基于机器学习的数据脱敏方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810537711.0A CN108875404B (zh) | 2018-05-30 | 2018-05-30 | 基于机器学习的数据脱敏方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108875404A true CN108875404A (zh) | 2018-11-23 |
CN108875404B CN108875404B (zh) | 2022-05-20 |
Family
ID=64335540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810537711.0A Active CN108875404B (zh) | 2018-05-30 | 2018-05-30 | 基于机器学习的数据脱敏方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875404B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097332A (zh) * | 2019-04-03 | 2019-08-06 | 福建天晴数码有限公司 | 权限复核并自动化处理的方法及计算机可读存储介质 |
CN110110588A (zh) * | 2019-03-21 | 2019-08-09 | 平安普惠企业管理有限公司 | 基于人脸识别在线办理业务的方法、装置计算机设备 |
CN110263618A (zh) * | 2019-04-30 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种核身模型的迭代方法和装置 |
CN110879901A (zh) * | 2019-11-22 | 2020-03-13 | 浙江大学 | 一种基于关系图谱的数据自适应脱敏方法及系统 |
CN111666587A (zh) * | 2020-05-10 | 2020-09-15 | 武汉理工大学 | 基于监督学习的食品数据多属性特征联合脱敏方法和装置 |
CN111813399A (zh) * | 2020-07-23 | 2020-10-23 | 平安医疗健康管理股份有限公司 | 基于机器学习的审核规则处理方法、装置及计算机设备 |
CN112966296A (zh) * | 2021-01-28 | 2021-06-15 | 北京明朝万达科技股份有限公司 | 基于规则配置和机器学习的敏感信息过滤方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护系统及方法 |
CN106407843A (zh) * | 2016-10-17 | 2017-02-15 | 深圳中兴网信科技有限公司 | 数据脱敏方法和数据脱敏装置 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
CN107944283A (zh) * | 2017-11-15 | 2018-04-20 | 中国农业银行股份有限公司 | 一种数据敏感性识别方法及装置 |
-
2018
- 2018-05-30 CN CN201810537711.0A patent/CN108875404B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653981A (zh) * | 2015-12-31 | 2016-06-08 | 中国电子科技网络信息安全有限公司 | 大数据平台的数据流通与交易的敏感数据保护系统及方法 |
CN106407843A (zh) * | 2016-10-17 | 2017-02-15 | 深圳中兴网信科技有限公司 | 数据脱敏方法和数据脱敏装置 |
CN107145799A (zh) * | 2017-05-04 | 2017-09-08 | 山东浪潮云服务信息科技有限公司 | 一种数据脱敏方法及装置 |
CN107679418A (zh) * | 2017-09-30 | 2018-02-09 | 武汉汉思信息技术有限责任公司 | 数据脱敏方法、服务器及存储介质 |
CN107944283A (zh) * | 2017-11-15 | 2018-04-20 | 中国农业银行股份有限公司 | 一种数据敏感性识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
王鑫等: "《基于机器学习的数据脱敏系统研究与设计》", 《电力信息与通信技术》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110588A (zh) * | 2019-03-21 | 2019-08-09 | 平安普惠企业管理有限公司 | 基于人脸识别在线办理业务的方法、装置计算机设备 |
CN110097332A (zh) * | 2019-04-03 | 2019-08-06 | 福建天晴数码有限公司 | 权限复核并自动化处理的方法及计算机可读存储介质 |
CN110263618A (zh) * | 2019-04-30 | 2019-09-20 | 阿里巴巴集团控股有限公司 | 一种核身模型的迭代方法和装置 |
CN110263618B (zh) * | 2019-04-30 | 2023-10-20 | 创新先进技术有限公司 | 一种核身模型的迭代方法和装置 |
CN110879901A (zh) * | 2019-11-22 | 2020-03-13 | 浙江大学 | 一种基于关系图谱的数据自适应脱敏方法及系统 |
CN110879901B (zh) * | 2019-11-22 | 2022-03-18 | 浙江大学 | 一种基于关系图谱的数据自适应脱敏方法及系统 |
CN111666587A (zh) * | 2020-05-10 | 2020-09-15 | 武汉理工大学 | 基于监督学习的食品数据多属性特征联合脱敏方法和装置 |
CN111813399A (zh) * | 2020-07-23 | 2020-10-23 | 平安医疗健康管理股份有限公司 | 基于机器学习的审核规则处理方法、装置及计算机设备 |
CN111813399B (zh) * | 2020-07-23 | 2022-05-31 | 平安医疗健康管理股份有限公司 | 基于机器学习的审核规则处理方法、装置及计算机设备 |
CN112966296A (zh) * | 2021-01-28 | 2021-06-15 | 北京明朝万达科技股份有限公司 | 基于规则配置和机器学习的敏感信息过滤方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108875404B (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875404A (zh) | 基于机器学习的数据脱敏方法、装置及存储介质 | |
CN107251033A (zh) | 用于在在线教育中进行实时用户验证的系统和方法 | |
CN109376766B (zh) | 一种画像预测分类方法、装置及设备 | |
CN109992763A (zh) | 语言标注处理方法、系统、电子设备及计算机可读介质 | |
CN108351877A (zh) | 数据项的自适应分类 | |
CN109684627A (zh) | 一种文本分类方法及装置 | |
CN107193974A (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN112949760A (zh) | 基于联邦学习的模型精度控制方法、装置及存储介质 | |
CN108491388A (zh) | 数据集获取方法、分类方法、装置、设备及存储介质 | |
CN106485621A (zh) | 一种基于随机算法业务学习考核系统 | |
CN107016132A (zh) | 一种在线题库质量改善方法、系统及终端设备 | |
CN109918984A (zh) | 保险单号码识别方法、装置、电子设备及存储介质 | |
CN108876545A (zh) | 订单识别方法、装置和可读存储介质 | |
CN117114514B (zh) | 一种基于大数据的人才信息分析管理方法、系统及装置 | |
CN112529101A (zh) | 分类模型的训练方法、装置、电子设备及存储介质 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN109582792A (zh) | 一种文本分类的方法及装置 | |
Hunt et al. | Transfer learning for education data | |
CN108846292A (zh) | 脱敏处理方法及装置 | |
CN110399547A (zh) | 用于更新模型参数的方法、装置、设备和存储介质 | |
CN112925914B (zh) | 数据安全分级方法、系统、设备及存储介质 | |
CN117114901A (zh) | 基于人工智能的投保数据处理方法、装置、设备及介质 | |
CN109800293A (zh) | 一种基于问题分类获取答案的方法、装置及电子设备 | |
CN109684467A (zh) | 一种文本的分类方法及装置 | |
Olaitan et al. | Taxonomy of literature to justify data governance as a pre-requisite for information governance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |