CN110610196B - 脱敏方法、系统、计算机设备和计算机可读存储介质 - Google Patents
脱敏方法、系统、计算机设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN110610196B CN110610196B CN201910747670.2A CN201910747670A CN110610196B CN 110610196 B CN110610196 B CN 110610196B CN 201910747670 A CN201910747670 A CN 201910747670A CN 110610196 B CN110610196 B CN 110610196B
- Authority
- CN
- China
- Prior art keywords
- desensitized
- clusters
- cluster
- sensitive
- desensitization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Abstract
本发明实施例提供了一种脱敏方法,所述方法包括:预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则;接收客户端发送的待脱敏文本信息;将待脱敏文本信息进行分词操作,以得到多个短语;根据每个短语的内容得到对应的属性信息;基于每个短语的属性信息,进行聚类,确定每个待脱敏分词及每个待脱敏分词对应的脱敏规则;根据每个待脱敏分词对应的脱敏规则,将所述待脱敏文本信息转换为脱敏文本信息。本发明实施例提供了脱敏系统、计算机设备和计算机可存储介质。本发明实施例可以有效解决对大规模数据进行脱敏处理的问题。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种脱敏方法及系统、计算机设备及计算机可读存储介质。
背景技术
随着网络技术的广泛应用,对个人隐私和网络安全的重视程度越来越高。企业数据库中存储的客户资料越来越多,尤其是电商平台和银行系统中存储有大量的客户信息或交易信息等与隐私和安全相关的敏感信息,例如客户姓名、证件信息、联系地址和联系方式等。如何保护客户个人隐私,成了当前需要关注的问题之一。
现有的解决手段是通过适配脱敏规则的方式对含有敏感信息的数据进行脱敏处理,以阻止敏感信息的滥用。但是上述传统脱敏技术仅能适用于数据规模小、安全级别要求不高的场景中。随着数据产生速度越来越快,短短几天内的数据量就可以达到惊人的信息容量,其中敏感信息的数据量及数据种类也是飞速增长,通过适配脱敏规则进行数据脱敏的传统技术方案,已经不适用于当前这种数据规模大、安全级别要高的场景中。
因此,有必要提供一种能够对大规模数据进行脱敏处理的脱敏方案。
发明内容
有鉴于此,本发明实施例的目的是提供一种脱敏方法、系统、计算机设备、计算机可读存储介质,以解决对大规模数据进行脱敏处理的问题。
为实现上述目的,本发明实施例提供了一种脱敏方法,包括以下步骤:
预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则;
接收客户端发送的待脱敏文本信息;
对所述待脱敏文本信息进行分词操作,以得到多个短语;
根据每个短语的内容得到对应的属性信息;
基于每个短语的属性信息,得到多个待脱敏分词,所述待脱敏分词位于所述多个第一聚类中;
根据每个待脱敏分词的目标字符串,确定每个待脱敏分词的对应的第二聚类;
根据每个待脱敏分词的所属的第二聚类,确定每个待脱敏分词对应的脱敏规则;
根据每个待脱敏分词对应的脱敏规则,将所述待脱敏文本信息转换为脱敏文本信息;
将所述脱敏文本信息发送到所述客户端,以便所述客户端将所述脱敏文本信息显示在显示单元上。
优选地,预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则,包括:
从数据库中提取与含敏感信息的训练文本;
提取所述训练文本中包含的一个或多个短语;
基于所述短语的内容得到属性信息,将所述短语作为敏感实体与所述属性信息关联;
执行第一无监督聚类,其中所述敏感实体基于属性信息被分组为多个第一聚类,其中每个第一聚类包括聚类中的所有敏感实体的列表;其中,每个新敏感实体与具有相同属性信息的所有聚类的质心进行比较,根据比较结果判断新敏感实体是否与各个聚类的质心匹配,如果匹配,则将新敏感实体添加到相应的聚类,如果不匹配,则所述新敏感实体成为新聚类的质心;
执行第二无监督聚类,基于各个第一聚类的质心的语义相似性度将所述多个第一聚类聚类成多个第二聚类,其中第二聚类包括敏感类别相同但短语不同的多个敏感实体;其中,质心对应的字符串为一个敏感实体,该敏感实体拥有与同一个聚类中所有聚类成员的编辑距离的总和最小;
为每个第二聚类配置对应的脱敏规则。
优选地,为每个第二聚类配置对应的脱敏规则,包括:
根据接收到的更新指令,对所述脱敏规则与每个第二聚类之间的映射关系进行更新,其中,所述更新用于创建、修改或删除所述映射关系。
优选地,接收客户端发送的待脱敏文本信息,包括:
当所述客户端的指定存储区域中新增待脱敏文本信息后,所述新增的待脱敏文本信息即时被服务器获取并进行脱敏处理;或
服务器根据预设的触发事件从所述客户端的指定存储区域中获取待脱敏文本信息。
为实现上述目的,本发明实施例还提供了一种脱敏系统,包括:
配置模块,用于预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则;
接收模块,用于接收客户端发送的待脱敏文本信息;
分词操作模块,用于对所述待脱敏文本信息进行分词操作,以得到多个短语;
属性信息获取模块,用于根据每个短语的内容得到对应的属性信息;
第一聚类模块,用于基于每个短语的属性信息,得到多个待脱敏分词,所述待脱敏分词位于所述多个第一聚类中;
第二聚类模块,用于根据每个待脱敏分词的目标字符串,确定每个待脱敏分词的对应的第二聚类;
脱敏规则确定模块,用于根据每个待脱敏分词的所属的第二聚类,确定每个待脱敏分词对应的脱敏规则;
脱敏模块,用于根据每个待脱敏分词对应的脱敏规则,将所述待脱敏文本信息转换为脱敏文本信息;
发送模块,用于将所述脱敏文本信息发送到所述客户端,以便所述客户端将所述脱敏文本信息显示在显示单元上。
优选地,所述配置模块还用于:
从数据库中提取与含敏感信息的训练文本;
提取所述训练文本中包含的一个或多个短语;
基于所述短语的内容得到属性信息,将所述短语作为敏感实体与所述属性信息关联;
执行第一无监督聚类,其中所述敏感实体基于属性信息被分组为多个第一聚类,其中每个第一聚类包括聚类中的所有敏感实体的列表;其中,每个新敏感实体与具有相同属性信息的所有聚类的质心进行比较,根据比较结果判断新敏感实体是否与各个聚类的质心匹配,如果匹配,则将新敏感实体添加到相应的聚类,如果不匹配,则所述新敏感实体成为新聚类的质心;
执行第二无监督聚类,基于各个第一聚类的质心的语义相似性度将所述多个第一聚类聚类成多个第二聚类,其中第二聚类包括敏感类别相同但短语不同的多个敏感实体;其中,质心对应的字符串为一个敏感实体,该敏感实体拥有与同一个聚类中所有聚类成员的编辑距离的总和最小;
为每个第二聚类配置对应的脱敏规则。
优选地,所述配置模块进一步用于:
根据接收到的更新指令,对所述脱敏规则与每个第二聚类之间的映射关系进行更新,其中,所述更新用于创建、修改或删除所述映射关系。
优选地,所述接收模块还用于:
当所述客户端的指定存储区域中新增待脱敏文本信息后,所述新增的待脱敏文本信息即时被服务器获取并进行脱敏处理;或
服务器根据预设的触发事件从所述客户端的指定存储区域中获取待脱敏文本信息。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如上所述的脱敏方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的脱敏方法的步骤。
相较于现有技术,本发明实施例提供的脱敏方法、系统、计算机设备及计算机可读存储介质,当接收到客户端发送的待脱敏文本信息之后,预先通过聚类配置脱敏规则,并通过聚类找到待脱敏文本信息中的待脱敏分词,确定脱敏规则之后对所述待脱敏分词进行脱敏处理,将所述待脱敏文本信息转换为脱敏文本信息。因此,本发明实施例可以有效解决对大规模数据进行脱敏处理的问题。
附图说明
图1为本发明脱敏方法实施例一的流程图。
图2为本发明脱敏方法实施例一中步骤S100的流程图。
图3为本发明脱敏系统实施例二的程序模块示意图。
图4为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之脱敏方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下:
步骤S100,预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则。
示例性地,如图2所示,所述预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则的步骤如下:
步骤S100A,从数据库中提取与含敏感信息的训练文本。
步骤S100B,提取所述训练文本中包含的一个或多个短语。
步骤S100C,基于所述短语的内容得到属性信息,将所述短语作为敏感实体与所述属性信息关联。
示例性地,所述属性信息可以是数据的大小、类型、表示方式等。本实施例中以表示方式为例进行说明,其中,身份证号为数字类,人名为汉字类,用户为字母类。
步骤S100D,执行第一无监督聚类,其中所述敏感实体基于属性信息被分组为多个第一聚类,其中每个第一聚类包括聚类中的所有敏感实体的列表;其中,每个新敏感实体与具有相同属性信息的所有聚类的质心进行比较,根据比较结果判断新敏感实体是否与各个聚类的质心匹配,如果匹配,则将新敏感实体添加到相应的聚类,如果不匹配,则所述新敏感实体成为新聚类的质心;
示例性地,所述第一无监督聚类是基于属性信息对词或短语本身进行分组,将拼写错误或中间被嵌入无关字符或字符不完整的相似短语分为一组,即将表现形式不同的相似短语聚类在一起。
在此步骤中,将所考虑的敏感实体与具有相同属性信息的所有集群的质心进行比较。通过编辑距离指示敏感实体是否足够接近群集的质心,如果敏感实体足够接近群集的质心,则所考虑的所述敏感实体添加到该群集。如果所述敏感实体不足以接近任何现有集群的质心,那么所述敏感实体将成为数据库中新集群的质心。将所述敏感实体添加到现有群集后,将重新计算质心。
步骤S100E,执行第二无监督聚类,基于各个第一聚类的质心的语义相似性度将所述多个第一聚类聚类成多个第二聚类,其中第二聚类包括敏感类别相同但短语不同的多个敏感实体;其中,质心对应的字符串为一个敏感实体,该敏感实体拥有与同一个聚类中所有聚类成员的编辑距离的总和最小。
示例性地,所述第二无监督聚类是基于各个第一聚类的质心进行再次聚类,以将敏感类别相同或相似的多个第一聚类聚类在一起。
可知,通过第一无监督聚类和第二无监督聚类的两级聚类方式,可以有效节省计算机运算资源,且有新短语加入时,仅需要执行获取新短语所在的第一聚类,即可获知所述新短语的敏感类别。
示例性地,姓名、客户姓名、客户名等,为同一个第二聚类中的敏感实体;地址、家庭地址、公司地址等,为另一个第二聚类中的敏感实体;以上不赘述。
步骤S100F,为每个第二聚类配置对应的脱敏规则。
具体的,不同的第二聚类对应有不同的脱敏规则,其中,所述脱敏规则的类型,包括加密、屏蔽、替换及散列中的任意一种或多种,当一种脱敏规则被破解后,只会导致脱敏数据中部分字段名下的敏感数据泄露,不会使脱敏数据中全部的敏感数据泄露,因此能够提高脱敏数据的安全性。
示例性地,所述脱敏规则是可以更新的,根据外部输入的更新指令,对所述脱敏规则与第二聚类之间的映射关系进行更新,其中,所述更新用于创建、修改或删除所述映射关系。
所述脱敏规则包括:可逆脱敏规则和不可逆脱敏规则;其中,经所述可逆脱敏规则运算获得的脱敏数据可以还原为运算之前的数据,经所述不可逆脱敏规则运算获得的脱敏数据无法还原为运算之间的数据。
示例性地,通过JSON文件存储所述第二聚类和所述脱敏规则,所述JSON(Javascript Object Notation)文件中设有key和value,将所述基本关键词设置为key,所述脱敏规则设置为value,当要进行脱敏处理时,根据key-value的映射关系,即可调用与第二聚类对应的脱敏规则,根据脱敏规则进行脱敏处理。
所述JSON(Javascript Object Notation)是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据,易于设计和解析。
示例性地,对于“中文名”,则脱敏规则为“名字大于两个字的保留第一个字和最后一个字,名字两个字的保留最后一个字”;对于“手机号”,则脱敏规则为“保留前三位后三位”;对于“身份证号”,则脱敏规则为“只保留后四位”等。
步骤S102,接收客户端发送的待脱敏文本信息。
示例性地,服务器实时从客户端的指定存储区域中获取待脱敏文本信息,这样,当客户端的指定存储区域中新增待脱敏文本信息后,新增的待脱敏文本信息被即时服务器获取进行脱敏处理,提升了数据的安全性;或者,根据预设触发事件,服务器从所述客户端指定存储区域中获取待脱敏文本信息。
所述客户端与所述服务器建立HTTPs连接,用于在传输过程中对所述待脱敏文本信息进行加密,具体地,所述客户端在向所述服务器传输文本信息前发送数字证书请求;所述服务器将与所述客户端相对应的数字证书通过所述HTTPs连接发送给所述客户端,其中,所述数字证书包含加密公钥;所述客户端基于TLS协议解析所述数字证书并验证所述加密公钥是否有效,如果是,则生成一组随机数,使用所述加密公钥加密所述随机数,并将所述随机数的加密结果发送给所述服务器;所述服务器使用加密私钥对所述加密结果进行解密,获得所述随机数;所述客户端和所述服务器使用所述随机数作为共享密钥进行加密通信。
步骤S104,对所述待脱敏文本信息进行分词操作,以得到多个短语。
步骤S106,根据每个短语的内容得到对应的属性信息。
示例性地,所述属性信息可以是数据的大小、类型、表示方式等。本实施例中以表示方式为例进行说明,其中,身份证号为数字类,人名为汉字类,用户为字母类。
步骤S108,基于每个短语的属性信息,得到多个待脱敏分词,所述待脱敏分词位于所述多个第一聚类中。
示例性地,所述第一无监督聚类是基于属性信息对词或短语本身进行分组,将拼写错误或中间被嵌入无关字符或字符不完整的相似短语分为一组,即将表现形式不同的相似短语聚类在一起。
在此步骤中,将所考虑的敏感实体与具有相同属性信息的所有集群的质心进行比较。通过编辑距离指示敏感实体是否足够接近群集的质心,如果敏感实体足够接近群集的质心,则所考虑的所述敏感实体添加到该群集。如果所述敏感实体不足以接近任何现有集群的质心,那么所述敏感实体将成为数据库中新集群的质心。将所述敏感实体添加到现有群集后,将重新计算质心。
步骤S110,根据每个待脱敏分词的目标字符串,确定每个待脱敏分词的对应的第二聚类。
示例性地,所述第二无监督聚类是基于各个第一聚类的质心进行再次聚类,以将敏感类别相同或相似的多个第一聚类聚类在一起。
可知,通过第一无监督聚类和第二无监督聚类的两级聚类方式,可以有效节省计算机运算资源,且有新短语加入时,仅需要执行获取新短语所在的第一聚类,即可获知所述新短语的敏感类别。
示例性地,姓名、客户姓名、客户名等,为同一个第二聚类中的敏感实体;地址、家庭地址、公司地址等,为另一个第二聚类中的敏感实体;以上不赘述。
步骤S112,根据每个待脱敏分词的所属的第二聚类,确定每个待脱敏分词对应的脱敏规则。
步骤S114,根据每个待脱敏分词对应的脱敏规则,将所述待脱敏文本信息转换为脱敏文本信息。
步骤S116,将所述脱敏文本信息发送到所述客户端,以便所述客户端将所述脱敏文本信息显示在显示单元上。
实施例二
请继续参阅图3,示出了本发明脱敏系统20实施例二的程序模块示意图。在本实施例中,基于脱敏系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述脱敏系统方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述脱敏系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
配置模块200,用于预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则。
进一步地,所述配置模块200还用于:
从数据库中提取与含敏感信息的训练文本;提取所述训练文本中包含的一个或多个短语;基于所述短语的内容得到属性信息,将所述短语作为敏感实体与所述属性信息关联;执行第一无监督聚类,其中所述敏感实体基于属性信息被分组为多个第一聚类,其中每个第一聚类包括聚类中的所有敏感实体的列表;其中,每个新敏感实体与具有相同属性信息的所有聚类的质心进行比较,根据比较结果判断新敏感实体是否与各个聚类的质心匹配,如果匹配,则将新敏感实体添加到相应的聚类,如果不匹配,则所述新敏感实体成为新聚类的质心;执行第二无监督聚类,基于各个第一聚类的质心的语义相似性度将所述多个第一聚类聚类成多个第二聚类,其中第二聚类包括敏感类别相同但短语不同的多个敏感实体;其中,质心对应的字符串为一个敏感实体,该敏感实体拥有与同一个聚类中所有聚类成员的编辑距离的总和最小;为每个第二聚类配置对应的脱敏规则。
进一步地,所述配置模块200还用于:
示例性地,不同的第二聚类对应有不同的脱敏规则,其中,所述脱敏规则的类型,包括加密、屏蔽、替换及散列中的任意一种或多种,当一种脱敏规则被破解后,只会导致脱敏数据中部分字段名下的敏感数据泄露,不会使脱敏数据中全部的敏感数据泄露,因此能够提高脱敏数据的安全性。
示例性地,所述脱敏规则是可以更新的,根据外部输入的更新指令,对所述脱敏规则与第二聚类之间的映射关系进行更新,其中,所述更新用于创建、修改或删除所述映射关系。
所述脱敏规则包括:可逆脱敏规则和不可逆脱敏规则;其中,经所述可逆脱敏规则运算获得的脱敏数据可以还原为运算之前的数据,经所述不可逆脱敏规则运算获得的脱敏数据无法还原为运算之间的数据。
示例性地,通过JSON文件存储所述第二聚类和所述脱敏规则,所述JSON(Javascript Object Notation)文件中设有key和value,将所述基本关键词设置为key,所述脱敏规则设置为value,当要进行脱敏处理时,根据key-value的映射关系,即可调用与第二聚类对应的脱敏规则,根据脱敏规则进行脱敏处理。
所述JSON(Javascript Object Notation)是一种轻量级的数据交换格式,采用完全独立于编程语言的文本格式来存储和表示数据,易于设计和解析。
示例性地,对于“中文名”,则脱敏规则为“名字大于两个字的保留第一个字和最后一个字,名字两个字的保留最后一个字”;对于“手机号”,则脱敏规则为“保留前三位后三位”;对于“身份证号”,则脱敏规则为“只保留后四位”等。
接收模块202,用于接收客户端发送的待脱敏文本信息。
进一步地,所述接收模块202还用于:
示例性地,服务器实时从客户端的指定存储区域中获取待脱敏文本信息,这样,当客户端的指定存储区域中新增待脱敏文本信息后,新增的待脱敏文本信息被即时服务器获取进行脱敏处理,提升了数据的安全性;或者,根据预设触发事件,服务器从所述客户端指定存储区域中获取待脱敏文本信息。
所述客户端与所述服务器建立HTTPs连接,用于在传输过程中对所述待脱敏文本信息进行加密,具体地,所述客户端在向所述服务器传输文本信息前发送数字证书请求;所述服务器将与所述客户端相对应的数字证书通过所述HTTPs连接发送给所述客户端,其中,所述数字证书包含加密公钥;所述客户端基于TLS协议解析所述数字证书并验证所述加密公钥是否有效,如果是,则生成一组随机数,使用所述加密公钥加密所述随机数,并将所述随机数的加密结果发送给所述服务器;所述服务器使用加密私钥对所述加密结果进行解密,获得所述随机数;所述客户端和所述服务器使用所述随机数作为共享密钥进行加密通信。
分词操作模块204,用于对所述待脱敏文本信息进行分词操作,以得到多个短语。
属性信息获取模块206,用于根据每个短语的内容得到对应的属性信息;
进一步地,所述属性信息获取模块206还用于:
示例性地,所述属性信息可以是数据的大小、类型、表示方式等。本实施例中以表示方式为例进行说明,其中,身份证号为数字类,人名为汉字类,用户为字母类。
第一聚类模块208,用于基于每个短语的属性信息,得到多个待脱敏分词,所述待脱敏分词位于所述多个第一聚类中。
进一步地,所述第一聚类模块208还用于:
示例性地,所述第一无监督聚类是基于属性信息对词或短语本身进行分组,将拼写错误或中间被嵌入无关字符或字符不完整的相似短语分为一组,即将表现形式不同的相似短语聚类在一起。
在此步骤中,将所考虑的敏感实体与具有相同属性信息的所有集群的质心进行比较。通过编辑距离指示敏感实体是否足够接近群集的质心,如果敏感实体足够接近群集的质心,则所考虑的所述敏感实体添加到该群集。如果所述敏感实体不足以接近任何现有集群的质心,那么所述敏感实体将成为数据库中新集群的质心。将所述敏感实体添加到现有群集后,将重新计算质心。
第二聚类模块210,用于根据每个待脱敏分词的目标字符串,确定每个待脱敏分词的对应的第二聚类。
进一步地,所述第二聚类模块210还用于:
示例性地,所述第二无监督聚类是基于各个第一聚类的质心进行再次聚类,以将敏感类别相同或相似的多个第一聚类聚类在一起。
可知,通过第一无监督聚类和第二无监督聚类的两级聚类方式,可以有效节省计算机运算资源,且有新短语加入时,仅需要执行获取新短语所在的第一聚类,即可获知所述新短语的敏感类别。
示例性地,姓名、客户姓名、客户名等,为同一个第二聚类中的敏感实体;地址、家庭地址、公司地址等,为另一个第二聚类中的敏感实体;以上不赘述。
脱敏规则确定模块212,用于根据每个待脱敏分词的所属的第二聚类,确定每个待脱敏分词对应的脱敏规则。
脱敏模块214,用于根据每个待脱敏分词对应的脱敏规则,将所述待脱敏文本信息转换为脱敏文本信息。
发送模块216,用于将所述脱敏文本信息发送到所述客户端,以便所述客户端将所述脱敏文本信息显示在显示单元上。
实施例三
参阅图4,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及脱敏系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的脱敏系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行脱敏系统20,以实现实施例一的脱敏方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图4仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述脱敏系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图3示出了所述实现脱敏系统20实施例二的程序模块示意图,该实施例中,所述脱敏系统20可以被划分为配置模块200、接收模块202、分词操作模块204、属性信息获取模块206、第一聚类模块208、第二聚类模块210、脱敏规则确定模块212、脱敏模块214和发送模块216。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述脱敏系统20在所述计算机设备2中的执行过程。所述程序模块200-216的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储脱敏系统20,被处理器执行时实现实施例一的脱敏方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种脱敏方法,其特征在于,所述方法包括:
预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则;
接收客户端发送的待脱敏文本信息;
对所述待脱敏文本信息进行分词操作,以得到多个短语;
根据每个短语的内容得到对应的属性信息;
基于各个短语的属性信息,判断各个短语是否位于所述多个第一聚类中;
根据判断结果,从所述多个短语中筛选出位于所述多个第一聚类中的待脱敏短语;
根据所述待脱敏短语所在第一聚类确定所述待脱敏短语所在的第二聚类;
根据所述待脱敏短语所在的第二聚类,确定每个所述待脱敏短语对应的脱敏规则;
根据所述待脱敏短语对应的脱敏规则,将所述待脱敏文本信息转换为脱敏文本信息;
其中,所述预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则,包括:
从数据库中提取包含敏感信息的多个训练文本;
提取每个训练文本的一个或多个训练短语;
基于每个训练短语的内容得到属性信息,将所述训练短语作为敏感实体与所述属性信息关联;
执行第一无监督聚类,其中所述敏感实体基于属性信息被分组为多个第一聚类,其中每个第一聚类包括聚类中的所有敏感实体的列表;
执行第二无监督聚类,基于各个第一聚类的质心的语义相似性度将所述多个第一聚类聚类成多个第二聚类,其中第二聚类包括敏感类别相同但训练短语不同的多个敏感实体;其中,质心对应的训练短语为一个质心敏感实体,该质心敏感实体拥有与同一个聚类中所有聚类成员的编辑距离的总和最小;
为每个第二聚类配置对应的脱敏规则。
2.根据权利要求1所述的脱敏方法,其特征在于,执行第一无监督聚类的步骤还包括:
当出现新敏感实体时:
将该新敏感实体与具有相同属性信息的所有聚类的质心进行比较;
根据比较结果判断新敏感实体是否与各个聚类的质心匹配;
如果匹配,则将新敏感实体添加到相应的聚类;
如果不匹配,则所述新敏感实体成为新聚类的质心。
3.根据权利要求2所述的脱敏方法,其特征在于,所述为每个第二聚类配置对应的脱敏规则,包括:
根据接收到的更新指令,对所述脱敏规则与每个第二聚类之间的映射关系进行更新操作,其中,所述更新操作包括创建、修改或删除所述映射关系。
4.一种脱敏系统,其特征在于,所述系统包括:
配置模块,用于预先配置多个第一聚类、基于所述多个第一聚类的质心的语义相似性度将所述多个第一聚类聚类得到的多个第二聚类,以及与每个第二聚类对应的脱敏规则;
接收模块,用于接收客户端发送的待脱敏文本信息;
分词操作模块,用于对所述待脱敏文本信息进行分词操作,以得到多个短语;
属性信息获取模块,用于根据每个短语的内容得到对应的属性信息;
第一聚类模块,用于基于每个短语的属性信息,得到多个待脱敏分词,所述待脱敏分词位于所述多个第一聚类中;
第二聚类模块,用于根据每个待脱敏分词的目标字符串,确定每个待脱敏分词的对应的第二聚类;
脱敏规则确定模块,用于根据每个待脱敏分词的所属的第二聚类,确定每个待脱敏分词对应的脱敏规则;
脱敏模块,用于根据每个待脱敏分词对应的脱敏规则,将所述待脱敏文本信息转换为脱敏文本信息;
发送模块,用于将所述脱敏文本信息发送到所述客户端,以便所述客户端将所述脱敏文本信息显示在显示单元上;
其中,所述配置模块还用于:
从数据库中提取包含敏感信息的训练文本;
提取所述训练文本中包含的一个或多个短语;
基于所述短语的内容得到属性信息,将所述短语作为敏感实体与所述属性信息关联;
执行第一无监督聚类,其中所述敏感实体基于属性信息被分组为多个第一聚类,其中每个第一聚类包括聚类中的所有敏感实体的列表;其中,每个新敏感实体与具有相同属性信息的所有聚类的质心进行比较,根据比较结果判断新敏感实体是否与各个聚类的质心匹配,如果匹配,则将新敏感实体添加到相应的聚类,如果不匹配,则所述新敏感实体成为新聚类的质心;
执行第二无监督聚类,基于各个第一聚类的质心的语义相似性度将所述多个第一聚类聚类成多个第二聚类,其中第二聚类包括敏感类别相同但短语不同的多个敏感实体;其中,质心对应的字符串为一个敏感实体,该敏感实体拥有与同一个聚类中所有聚类成员的编辑距离的总和最小;
为每个第二聚类配置对应的脱敏规则。
5.根据权利要求4所述的脱敏系统,其特征在于,所述配置模块进一步用于:
根据接收到的更新指令,对所述脱敏规则与每个第二聚类之间的映射关系进行更新,其中,所述更新用于创建、修改或删除所述映射关系。
6.根据权利要求5所述的脱敏系统,其特征在于,所述接收模块还用于:
当所述客户端的指定存储区域中新增待脱敏文本信息后,所述新增的待脱敏文本信息即时被服务器获取并进行脱敏处理;或
服务器根据预设的触发事件从所述客户端的指定存储区域中获取待脱敏文本信息。
7.一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的脱敏方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至3中任一项所述的脱敏方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910747670.2A CN110610196B (zh) | 2019-08-14 | 2019-08-14 | 脱敏方法、系统、计算机设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910747670.2A CN110610196B (zh) | 2019-08-14 | 2019-08-14 | 脱敏方法、系统、计算机设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610196A CN110610196A (zh) | 2019-12-24 |
CN110610196B true CN110610196B (zh) | 2023-04-28 |
Family
ID=68890974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910747670.2A Active CN110610196B (zh) | 2019-08-14 | 2019-08-14 | 脱敏方法、系统、计算机设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610196B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111310224B (zh) * | 2020-01-16 | 2023-06-02 | 深圳平安医疗健康科技服务有限公司 | 日志脱敏方法、装置、计算机设备及计算机可读存储介质 |
CN111666587B (zh) * | 2020-05-10 | 2023-07-04 | 武汉理工大学 | 基于监督学习的食品数据多属性特征联合脱敏方法和装置 |
CN112257108B (zh) * | 2020-10-23 | 2023-05-12 | 天津新开心生活科技有限公司 | 数据脱敏方法及装置、介质及电子设备 |
CN113268306B (zh) * | 2021-06-08 | 2024-03-19 | 金蝶软件(中国)有限公司 | 简历解析接口调用方法、装置及计算机存储介质 |
CN115795538B (zh) * | 2022-11-30 | 2023-08-18 | 湖南长银五八消费金融股份有限公司 | 脱敏文档的反脱敏方法、装置、计算机设备和存储介质 |
CN115859355B (zh) * | 2022-12-15 | 2023-08-04 | 北京领雁科技股份有限公司 | 日志脱敏方法、装置、电子设备和计算机可读介质 |
CN115688151B (zh) * | 2023-01-05 | 2023-04-07 | 恒丰银行股份有限公司 | 一种针对敏感信息的脱敏复敏方法、系统及终端机 |
CN116070248B (zh) * | 2023-03-07 | 2023-06-09 | 国网冀北电力有限公司 | 一种用于保证电力数据安全的数据处理系统及方法 |
CN116205236B (zh) * | 2023-05-06 | 2023-08-18 | 四川三合力通科技发展集团有限公司 | 基于实体命名识别的数据快速脱敏系统及方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392051A (zh) * | 2017-07-28 | 2017-11-24 | 北京明朝万达科技股份有限公司 | 一种大数据处理方法和系统 |
CN110008250A (zh) * | 2019-03-07 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于数据挖掘的社保数据处理方法、装置和计算机设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103825907B (zh) * | 2014-03-18 | 2016-09-07 | 中国石油大学(华东) | 一种用于分簇式无线传感器网络的分级匿名通信方法 |
CN106503656A (zh) * | 2016-10-24 | 2017-03-15 | 厦门美图之家科技有限公司 | 一种图像分类方法、装置和计算设备 |
CN106951562A (zh) * | 2017-04-01 | 2017-07-14 | 北京数聚世界信息技术有限公司 | 一种中文姓名数据的脱敏方法及装置 |
CN107145791B (zh) * | 2017-04-07 | 2020-07-10 | 哈尔滨工业大学深圳研究生院 | 一种具有隐私保护的K-means聚类方法及系统 |
CN108776762B (zh) * | 2018-06-08 | 2022-01-28 | 北京中电普华信息技术有限公司 | 一种数据脱敏的处理方法及装置 |
-
2019
- 2019-08-14 CN CN201910747670.2A patent/CN110610196B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107392051A (zh) * | 2017-07-28 | 2017-11-24 | 北京明朝万达科技股份有限公司 | 一种大数据处理方法和系统 |
CN110008250A (zh) * | 2019-03-07 | 2019-07-12 | 平安科技(深圳)有限公司 | 基于数据挖掘的社保数据处理方法、装置和计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110610196A (zh) | 2019-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110610196B (zh) | 脱敏方法、系统、计算机设备和计算机可读存储介质 | |
CN110348239B (zh) | 脱敏规则配置方法以及数据脱敏方法、系统、计算机设备 | |
CN108090351B (zh) | 用于处理请求消息的方法和装置 | |
EP4099170B1 (en) | Method and apparatus of auditing log, electronic device, and medium | |
CN109189888B (zh) | 电子装置、侵权分析的方法及存储介质 | |
US20190312908A1 (en) | Cyber chaff using spatial voting | |
CN107506256B (zh) | 一种崩溃数据监控的方法和装置 | |
CN113326991B (zh) | 自动授权方法、装置、计算机设备及存储介质 | |
CN111698207B (zh) | 网络信息安全的知识图谱的生成方法、设备和存储介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN110618999A (zh) | 数据的查询方法及装置、计算机存储介质、电子设备 | |
CN111586695B (zh) | 短信识别方法及相关设备 | |
WO2016188334A1 (zh) | 一种用于处理应用访问数据的方法与设备 | |
CN111625567A (zh) | 数据模型匹配方法、装置、计算机系统及可读存储介质 | |
CN113254897A (zh) | 信息验证方法、装置、服务器及存储介质 | |
CN116055067B (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
CN113704569A (zh) | 信息的处理方法、装置及电子设备 | |
CN110866007B (zh) | 大数据应用和表的信息管理方法、系统和计算机设备 | |
CN111382417B (zh) | 使用一系列设备指纹识别来自用户设备的欺诈行为的系统和方法 | |
CN108768742B (zh) | 网络构建方法及装置、电子设备、存储介质 | |
CN111294347A (zh) | 一种工控设备的安全管理方法及系统 | |
CN115423030A (zh) | 一种设备识别的方法和装置 | |
CN112559497B (zh) | 一种数据处理方法、一种信息传输方法、装置及电子设备 | |
CN114912003A (zh) | 文档搜索方法、装置、计算机设备及存储介质 | |
CN114595481A (zh) | 一种应答数据的处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |