CN108846292B - 脱敏规则生成方法及装置 - Google Patents

脱敏规则生成方法及装置 Download PDF

Info

Publication number
CN108846292B
CN108846292B CN201810537732.2A CN201810537732A CN108846292B CN 108846292 B CN108846292 B CN 108846292B CN 201810537732 A CN201810537732 A CN 201810537732A CN 108846292 B CN108846292 B CN 108846292B
Authority
CN
China
Prior art keywords
desensitization
rule
segments
segment
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810537732.2A
Other languages
English (en)
Other versions
CN108846292A (zh
Inventor
张金玲
龙岳
郭佳睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810537732.2A priority Critical patent/CN108846292B/zh
Publication of CN108846292A publication Critical patent/CN108846292A/zh
Application granted granted Critical
Publication of CN108846292B publication Critical patent/CN108846292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种脱敏规则生成方法及装置,该方法通过获取脱敏片段,对脱敏片段进行分析,以学习获取与上述脱敏片段对应的脱敏规则和使用场景,进一步在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。通过将机器学习方法应用于脱敏规则的生成中,大大减少手动输入脱敏规则的过程,解决了现有技术中生成脱敏规则需要大量人力成本,效率较低,且手动输入的脱敏规则结构单一的问题。

Description

脱敏规则生成方法及装置
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种脱敏规则生成方法及装置。
背景技术
随着互联网的发展,信息共享更加方便快捷,与此同时人们也越来越重视隐私信息的安全性,因此,在医疗、电力、金融、电信等诸多行业中,数据脱敏被广泛的应用。其中,数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形,是指对数据中包含的秘密或隐私信息按照数据脱敏规则进行特殊处理,达到数据变形的效果,使攻击者无法从数据中直接获取敏感信息,从而避免秘密或隐私信息的泄露。
现有技术中,数据脱敏时使用的脱敏规则是由人工手动输入预设的脱敏规则或算法,提交后由管理员进行审核,审核通过后脱敏规则才会生效。
现有技术的方法需要大量的人力成本,效率较低,且手动输入的脱敏规则结构单一内容简单。
发明内容
本发明提供一种脱敏规则生成方法及装置,以解决现有技术中生成脱敏规则时需要大量的人力成本,效率较低,且手动输入的脱敏规则结构单一的问题。
第一方面,本发明提供一种脱敏规则生成方法,该方法包括:
获取脱敏片段;
对所述脱敏片段进行分析,以学习获取与所述脱敏片段对应的脱敏规则和使用场景;
在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。
进一步地,所述对所述脱敏片段进行分析,以学习获取与所述脱敏片段对应的脱敏规则和使用场景,包括:
分析获取所述脱敏片段对应的脱敏类型和使用场景;
获取所述脱敏片段中的脱敏数据,并学习获取所述脱敏数据对应的脱敏处理方式;
根据所述脱敏类型、所述脱敏数据和所述脱敏处理方式,获取所述脱敏片段对应的脱敏规则。
进一步地,所述获取脱敏片段包括:
采用网页爬虫技术,搜索获取所述脱敏片段。
进一步地,所述确定所述脱敏片段与所述脱敏规则和使用场景匹配,包括:
将所述脱敏片段和其对应的脱敏规则和使用场景发送给审批服务器,以供所述审批服务器判断所述脱敏片段和其对应的脱敏规则和使用场景是否匹配;
接收所述审批服务器发送的反馈信息,其中,所述反馈信息包括匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景。
进一步地,若所述反馈消息中的所述匹配结果为不匹配,或者所述反馈消息中的所述匹配结果为不匹配,且反馈消息中还包括修改的脱敏规则和使用场景,则根据所述匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景,重新学习获取与所述脱敏片段对应的脱敏规则和使用场景。
第二方面,本发明还提供一种脱敏规则生成装置,该装置包括:
获取模块,用于获取脱敏片段;
学习模块,用于对所述脱敏片段进行分析,以学习获取与所述脱敏片段对应的脱敏规则和使用场景;
审批模块,用于在在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。
进一步地,所述学习模块具体用于分析获取所述脱敏片段对应的脱敏类型和使用场景;
获取所述脱敏片段中的脱敏数据,并学习获取所述脱敏数据对应的脱敏处理方式;
根据所述脱敏类型、所述脱敏数据和所述脱敏处理方式,获取所述脱敏片段对应的脱敏规则。
进一步地,所述获取模块具体用于采用网页爬虫技术,搜索获取所述脱敏片段。
进一步地,所述审批模块包括:匹配模块和审批服务器;
所述匹配模块,用于将所述脱敏片段和其对应的脱敏规则和使用场景发送给审批服务器,以供所述审批服务器判断所述脱敏片段和其对应的脱敏规则和使用场景是否匹配;
所述审批服务器,用于发送反馈信息,其中,所述反馈信息包括匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景。
进一步地,所述学习模块还具体用于若所述反馈消息中的所述匹配结果为不匹配,或者所述反馈消息中的所述匹配结果为不匹配,且反馈消息中还包括修改的脱敏规则和使用场景,则根据所述匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景,重新学习获取与所述脱敏片段对应的脱敏规则和使用场景。
本发明提供的脱敏规则生成方法及装置,通过获取脱敏片段,对脱敏片段进行分析,以学习获取与上述脱敏片段对应的脱敏规则和使用场景,进一步在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。通过将机器学习方法应用于脱敏规则的生成中,大大减少手动输入脱敏规则的过程,解决了现有技术中生成脱敏规则需要大量人力成本,效率较低,且手动输入的脱敏规则结构单一的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的脱敏规则生成方法实施例一的流程示意图;
图2为本发明提供的脱敏规则生成方法实施例二的流程示意图;
图3为本发明提供的脱敏规则生成方法实施例三的流程示意图;
图4为本发明提供的脱敏规则生成装置实施例一的结构示意图;
图5为本发明提供的脱敏规则生成装置实施例二的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的脱敏规则生成方法实施例一的流程示意图,如图1所示,本实施例的方法可以包括:
S101、获取脱敏片段。
其中,脱敏片段中一般包括脱敏数据和非脱敏数据。例如,在电商平台中,收货人以及发件人信息都属于隐私信息,因此,会对收货人以及发件人的相关信息进行脱敏处理,获取到关于收件人地址相关信息的脱敏片段为“中国陕西省西安市雁塔区**街道**号”,该脱敏片段中脱敏数据为“**街道**号”字段,非脱敏数据为“中国陕西省西安市雁塔区”字段。
脱敏片段可以是各种秘密或隐私信息经过脱敏处理后的数据,例如,身份证信息、地址信息、姓名信息、金额信息、机构名称信息等等。
S102、对所述脱敏片段进行分析,以学习获取与所述脱敏片段对应的脱敏规则和使用场景。
具体地,通过采用机器学习的方法,对步骤S101中获取到的脱敏片段进行分析,以学习获取与所述脱敏片段对应的脱敏规则和使用场景。其中,脱敏规则中一般包括有脱敏字段、脱敏处理方式、脱敏字符、使用场景标识等特征。
举例说明上述对脱敏片段进行分析以获取与所述脱敏片段对应的脱敏规则和使用场景的详细过程,以在电商平台中,获取收件人地址信息的脱敏片段为例进行说明。具体地,脱敏片段为“中国陕西省西安市雁塔区**街道**号”,对该脱敏片段进行分析可知,地址信息中的街道以及门牌号相关字段进行了脱敏处理,而国籍、归属省市区相关字段则保留了原始数据,因此,该脱敏规则中脱敏字段为街道、门排号字段,脱敏处理方法为字符替换,脱敏字符为“*”,使用场景标识为电商平台地址信息。
需要说明的是,机器学习(Machine Learning,,简称:ML)是一种通过使计算机模拟或实现人类学习的方法,通过机器学习方法,能够实现自动根据脱敏片段分析得到对应的脱敏规则和使用场景,而减少人力重复操作的步骤,大大提高脱敏规则的生成效率。
S103、在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。
需要说明的是,脱敏规则库中预先存储有脱敏处理相关的基础脱敏规则,这些基础脱敏规则是长期积累的一些结构单一的脱敏规则,且脱敏规则库中预先存储的基础脱敏规则与使用场景之间一一对应。
具体地,首先将步骤S102中生成的脱敏规则以及对应的使用场景与脱敏规则库中预先存储的基础脱敏规则进行匹配,若脱敏规则库中已存在所述脱敏规则以及对应的使用场景,则执行结束。若脱敏规则库中不存在所述脱敏规则以及对应的使用场景。
进一步确定上述脱敏片段与脱敏规则以及使用场景匹配时,将脱敏规则和使用场景存储在所述脱敏数据库中,以丰富脱敏数据库的规则内容。
例如,将步骤S102中经过学习分析获取的脱敏规则与使用场景进行匹配,若脱敏规则库中预先已存储电商平台中地址信息的脱敏规则与使用场景的对应关系,则执行结束操作。若脱敏规则库中预先未存储电商平台中地址信息的脱敏规则与使用场景的对应关系,则进一步确定上述脱敏片段与脱敏规则以及使用场景匹配时,将电商平台中地址信息的脱敏规则和使用场景存储于脱敏规则库中,且脱敏规则和使用场景相互对应。可选地一种实现方式中,存储脱敏规则可包括:脱敏字段、脱敏处理方法、脱敏字符、使用场景标识等等特征中的一个或多个,还可以是能够反映脱敏规则的其他特征,本发明对此不做限定。
本实施例,通过获取脱敏片段,对脱敏片段进行分析,以学习获取与上述脱敏片段对应的脱敏规则和使用场景,进一步在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。通过将机器学习方法应用于脱敏规则的生成中,大大减少手动输入脱敏规则的过程,解决了现有技术中生成脱敏规则需要大量人力成本,效率较低,且手动输入的脱敏规则结构单一的问题。下面采用几个具体的实施例,对图1所示方法实施例的技术方案进行详细说明。
图2为本发明提供的脱敏规则生成方法实施例二的流程示意图,如图2所示,本实施例的方法可以包括:
S201、采用网页爬虫技术,获取脱敏片段。
其中,网页爬虫又称为网络机器人,能够实现按照一定的预设规则,自动获取互联网中的信息片段。通过使用网页爬虫技术,更加方便快捷,能够实现快速获取脱敏片段。
可选地一种实现方式中,可设定预设时间间隔,周期性搜索互联网中各网站,不断获取新的脱敏片段。全网搜索获取到的脱敏片段来源更加广泛,以使脱敏规则的维度更多,使用场景更丰富,能够更加精准地针对不同使用场景下的敏感数据进行脱敏处理。
S202、分析获取所述脱敏片段对应的脱敏类型和使用场景。
脱敏片段中包含脱敏数据和非脱敏数据,非脱敏数据即为原始数据。首先,根据获取到的脱敏片段中脱敏数据中所涉及的关键字确定脱敏片段的脱敏类型,其中,脱敏类型可以包括:数值类、财产类、健康类、机构名称类等等。例如,数值类可包括身份证号、车牌号、电话号、银行卡号、信用卡号、密码、以及在各个应用平台注册的账号等。财产类可包括金额、存款、公积金、工资、养老金、股票、证券等。健康类可包括:疾病名称、患病状态、药品名称等。当然,本发明中脱敏类型还可包括上述几种脱敏类型以外的其他类型,如亲属关系类、职业类。
例如,获取的脱敏片段为某患者病例中的相关字段,该字段中包含有疾病名称等相关字样,根据其中的关键字则可确定该脱敏片段对应的脱敏类型为健康类,使用场景为医疗诊断。对于其他脱敏片段的分析方法与对脱敏片段为某患者病例中的相关字段的分析方法类似,可通过关键字进行脱敏类型以及使用场景的分析。
S203、获取所述脱敏片段中的脱敏数据,并学习获取所述脱敏数据对应的脱敏处理方式,根据所述脱敏类型、所述脱敏数据和所述脱敏处理方式,获取所述脱敏片段对应的脱敏规则。
根据脱敏片段中的脱敏数据可以分析出脱敏数据对应的脱敏处理方式,例如,脱敏片段为“中国陕西省西安市雁塔区**街道**号”,可知脱敏处理方式为字符替换,通过使用“*”替换原始信息中的关键隐私信息部分。
进一步,根据脱敏类型、脱敏数据和脱敏处理方式确定脱敏规则。可选地一种实现方式中,脱敏规则包括有以下特征:脱敏字段、脱敏处理方式、脱敏字符、使用场景标识。
例如,脱敏片段为“中国陕西省西安市雁塔区**街道**号”,对该脱敏片段进行分析可知,地址信息中的街道以及门牌号相关字段进行了脱敏处理,而国籍、归属省市区相关字段则保留了原始数据,因此,该脱敏规则中脱敏字段为街道、门排号字段,脱敏处理方法为字符替换,脱敏字符为“*”,使用场景标识为电商平台地址信息。
对于根据其他脱敏片段的脱敏数据、脱敏类型以及脱敏处理方式获取脱敏规则的方法与此类似。
S204、在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。
本实施例中步骤S204与图1所示实施例中步骤S103相同,此处不再赘述。
本实施例中,通过采用网页爬虫技术,获取脱敏片段,分析获取脱敏片段对应的脱敏类型和使用场景,根据脱敏类型、脱敏数据以及脱敏处理方式获取脱敏片段对应的脱敏规则,进一步在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。本实施例提供的方法通过采用网页爬虫技术自动获取全网中的脱敏片段,并结合机器学习方法,使得脱敏片段来源广泛,使脱敏规则的维度更多,使用场景更丰富,能够更加精准地针对不同使用场景下的敏感数据进行脱敏处理,更好地解决了现有技术中生成脱敏规则需要大量人力成本,效率较低,且手动输入的脱敏规则结构单一的问题。
图3为本发明提供的脱敏规则生成方法实施例三的流程示意图,本实施例在图2所示实施例的基础上对S204步骤进行详细的说明,如图3所示,本实施例的方法可以包括:
S301、采用网页爬虫技术,获取脱敏片段。
S302、分析获取所述脱敏片段对应的脱敏类型和使用场景。
S303、获取所述脱敏片段中的脱敏数据,并学习获取所述脱敏数据对应的脱敏处理方式,根据所述脱敏类型、所述脱敏数据和所述脱敏处理方式,获取所述脱敏片段对应的脱敏规则。
需要说明的是,本实施例中步骤S301至步骤S303与图2所示实施例中步骤S201至步骤S203类似,此处不再赘述。
S304、将所述脱敏片段和其对应的脱敏规则和使用场景发送给审批服务器,以供所述审批服务器判断所述脱敏片段和其对应的脱敏规则和使用场景是否匹配。
其中,发送至审批服务器的所述脱敏片段和其对应的脱敏规则和使用场景,是脱敏数据库中不存在的。审批服务器根据接收到的信息进行审批。由于机器学习的结果与预先存储的学习方法有关,会存在误差,在进行分析时所使用的学习方法若不正确,则可能会导致错误结果的出现,,在本发明中即表现为脱敏片段、脱敏规则与使用场景之间不匹配,因此,需要进行复审,以保证脱敏规则与使用场景之间正确的对应关系。
其中,审批服务器也可以是管理员身份,由管理员对接收的脱敏片段和其对应的脱敏规则和使用场景进行审批。
S305、接收所述审批服务器发送的反馈信息,其中,所述反馈信息包括匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景。
审批服务器根据审批结果反馈相关信息,以指示机器学习得到的脱敏规则与使用场景之间是否匹配。若匹配成功,则将脱敏规则与使用场景进行存储,并且脱敏规则与使用场景之间一一对应。若脱敏片段、脱敏规则与使用场景之间匹配不成功,则执行步骤S306。
S306、重新学习获取与所述脱敏片段对应的脱敏规则和使用场景。
其中,若所述反馈消息中的所述匹配结果为不匹配,则根据反馈消息重新进行学习,学习时,使用与先前不同的学习方法对脱敏片段进行分析,以生成新的学习结果,然后进行进一步的审核。
或者,所述反馈消息中的匹配结果为不匹配,管理员对脱敏规则与使用场景进行修改,并将修改后的脱敏规则和使用场景随反馈消息一同发送,以使相关模块进行重新学习,并对修改的脱敏规则和使用场景进行分析,生成新的学习方法并保存,当在此分析相同或类似的脱敏片段时,可以直接调取,生成的脱敏规则和使用场景的准确度更高。
本实施例中,获取脱敏片段,根据脱敏片段学习生成脱敏规则和使用场景,进一步将所脱敏片段和其对应的脱敏规则和使用场景发送给审批服务器进行审批,并根据审批服务器发送的反馈信息执行相应的处理,若匹配成功,则将脱敏规则与使用场景存储与脱敏规则库中,若匹配不成功,则可反馈不匹配结果,还可将修改后的脱敏规则以及对应的使用场景进行反馈,并重新学习生成正确的脱敏规则与使用场景。能够使得到的脱敏规则与使用场景更加准确,以更加精准地对敏感数据进行脱敏,解决了现有技术中生成脱敏规则需要大量人力成本,效率较低,且手动输入的脱敏规则结构单一的问题,并且提高了脱敏规则与使用场景的准确度。
图4为本发明提供的脱敏规则生成装置实施例一的结构示意图,如图4所示,本实施例的装置可以包括:获取模块41、学习模块42和审批模块43。
其中,获取模块41,用于获取脱敏片段。
学习模块42,用于对所述脱敏片段进行分析,以学习获取与所述脱敏片段对应的脱敏规则和使用场景。
审批模块43,用于在在确定所述脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏数据库中。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本发明提供的脱敏规则生成装置实施例二的结构示意图,如图5所示,本实施例的装置在图4所示装置结构的基础上审批模块43包括:匹配模块431和审批服务器432。
可选地一种实现方式中,获取模块41,采用网页爬虫技术,搜索获取所述脱敏片段。
学习模块42,具体用于分析获取所述脱敏片段对应的脱敏类型和使用场景,然后,获取所述脱敏片段中的脱敏数据,并学习获取所述脱敏数据对应的脱敏处理方式,进一步根据所述脱敏类型、所述脱敏数据和所述脱敏处理方式,获取所述脱敏片段对应的脱敏规则。
匹配模块431,具体用于将所述脱敏片段和其对应的脱敏规则和使用场景发送给审批服务器,以供所述审批服务器判断所述脱敏片段和其对应的脱敏规则和使用场景是否匹配。
审批服务器432,用于发送反馈信息,其中,所述反馈信息包括匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景。
在上述装置的基础上,学习模块42,还用于若所述反馈消息中的所述匹配结果为不匹配,或者所述反馈消息中的所述匹配结果为不匹配,且反馈消息中还包括修改的脱敏规则和使用场景,则根据所述匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景,重新学习获取与所述脱敏片段对应的脱敏规则和使用场景。
本实施例的装置,可以用于执行图2和图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种脱敏规则生成方法,其特征在于,包括:
获取脱敏片段;
分析获取所述脱敏片段对应的脱敏类型和使用场景;
获取所述脱敏片段中的脱敏数据,并学习获取所述脱敏数据对应的脱敏处理方式;
根据所述脱敏类型、所述脱敏数据和所述脱敏处理方式,获取所述脱敏片段对应的脱敏规则;
在确定脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏规则库中。
2.根据权利要求1所述的方法,其特征在于,所述获取脱敏片段包括:
采用网页爬虫技术,搜索获取所述脱敏片段。
3.根据权利要求1所述的方法,其特征在于,所述确定所述脱敏片段与所述脱敏规则和使用场景匹配,包括:
将所述脱敏片段和其对应的脱敏规则和使用场景发送给审批服务器,以供所述审批服务器判断所述脱敏片段和其对应的脱敏规则和使用场景是否匹配;
接收所述审批服务器发送的反馈信息,其中,所述反馈信息包括匹配结果,或者所述匹配结果和修改的脱敏规则和使用场景。
4.根据权利要求3所述的方法,其特征在于,还包括:
若所述反馈信息中的所述匹配结果为不匹配,或者所述反馈信息中的所述匹配结果为不匹配,且反馈信息中还包括修改的脱敏规则和使用场景,则根据所述匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景,重新学习获取与所述脱敏片段对应的脱敏规则和使用场景。
5.一种脱敏规则生成装置,其特征在于,包括:
获取模块,用于获取脱敏片段;
学习模块,用于分析获取所述脱敏片段对应的脱敏类型和使用场景;
获取所述脱敏片段中的脱敏数据,并学习获取所述脱敏数据对应的脱敏处理方式;
根据所述脱敏类型、所述脱敏数据和所述脱敏处理方式,获取所述脱敏片段对应的脱敏规则;
审批模块,用于在在确定脱敏规则库中不存在所述脱敏规则和使用场景,且确定所述脱敏片段与所述脱敏规则和使用场景匹配时,将所述脱敏规则和使用场景存储在所述脱敏规则库中。
6.根据权利要求5所述的装置,其特征在于,所述获取模块具体用于采用网页爬虫技术,搜索获取所述脱敏片段。
7.根据权利要求5所述的装置,其特征在于,所述审批模块包括:匹配模块和审批服务器;
所述匹配模块,用于将所述脱敏片段和其对应的脱敏规则和使用场景发送给审批服务器,以供所述审批服务器判断所述脱敏片段和其对应的脱敏规则和使用场景是否匹配;
所述审批服务器,用于发送反馈信息,其中,所述反馈信息包括匹配结果,或者所述匹配结果和修改的脱敏规则和使用场景。
8.根据权利要求7所述的装置,其特征在于,所述学习模块还用于若所述反馈信息中的所述匹配结果为不匹配,或者所述反馈信息中的所述匹配结果为不匹配,且反馈信息中还包括修改的脱敏规则和使用场景,则根据所述匹配结果,或者所述匹配结果和所述修改的脱敏规则和使用场景,重新学习获取与所述脱敏片段对应的脱敏规则和使用场景。
CN201810537732.2A 2018-05-30 2018-05-30 脱敏规则生成方法及装置 Active CN108846292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810537732.2A CN108846292B (zh) 2018-05-30 2018-05-30 脱敏规则生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810537732.2A CN108846292B (zh) 2018-05-30 2018-05-30 脱敏规则生成方法及装置

Publications (2)

Publication Number Publication Date
CN108846292A CN108846292A (zh) 2018-11-20
CN108846292B true CN108846292B (zh) 2021-08-17

Family

ID=64210068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810537732.2A Active CN108846292B (zh) 2018-05-30 2018-05-30 脱敏规则生成方法及装置

Country Status (1)

Country Link
CN (1) CN108846292B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915642B2 (en) * 2018-11-28 2021-02-09 International Business Machines Corporation Private analytics using multi-party computation
CN109902509A (zh) * 2019-01-25 2019-06-18 中译语通科技股份有限公司 一种基于阿拉伯数字遮蔽的中文地址数据脱敏方法及装置
CN110879901B (zh) * 2019-11-22 2022-03-18 浙江大学 一种基于关系图谱的数据自适应脱敏方法及系统
CN113053493B (zh) * 2019-12-27 2024-05-14 无锡祥生医疗科技股份有限公司 数据处理平台

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN104854859A (zh) * 2012-12-21 2015-08-19 谷歌公司 为摄影推荐变换
CA2620982C (en) * 2008-02-13 2016-11-29 Camouflage Software Inc. Method and system for masking data in a consistent manner across multiple data sources
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
CN107392051A (zh) * 2017-07-28 2017-11-24 北京明朝万达科技股份有限公司 一种大数据处理方法和系统
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN107871083A (zh) * 2017-11-07 2018-04-03 平安科技(深圳)有限公司 脱敏规则配置方法、应用服务器及计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886593B2 (en) * 2013-08-02 2018-02-06 Yevgeniya (Virginia) Mushkatblat Data masking systems and methods
US9699145B2 (en) * 2014-10-29 2017-07-04 Internationl Business Machines Corporation Masking data within JSON-type documents
CN107194276A (zh) * 2017-05-03 2017-09-22 上海上讯信息技术股份有限公司 数据库动态脱敏方法及设备
CN107704770A (zh) * 2017-09-28 2018-02-16 平安普惠企业管理有限公司 敏感信息脱敏方法、系统、设备及可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2620982C (en) * 2008-02-13 2016-11-29 Camouflage Software Inc. Method and system for masking data in a consistent manner across multiple data sources
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN104854859A (zh) * 2012-12-21 2015-08-19 谷歌公司 为摄影推荐变换
CN107145799A (zh) * 2017-05-04 2017-09-08 山东浪潮云服务信息科技有限公司 一种数据脱敏方法及装置
CN107480549A (zh) * 2017-06-28 2017-12-15 银江股份有限公司 一种面向数据共享的敏感信息脱敏方法及系统
CN107392051A (zh) * 2017-07-28 2017-11-24 北京明朝万达科技股份有限公司 一种大数据处理方法和系统
CN107871083A (zh) * 2017-11-07 2018-04-03 平安科技(深圳)有限公司 脱敏规则配置方法、应用服务器及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Data Masking Generic Model;Min Li 等;《2013 Fourth International Conference on Emerging Intelligent Data and Web Technologies》;20131017;全文 *
基于机器学习的数据脱敏系统研究与设计;王鑫 等;《电力信息与通信技术》;20180131;第16卷(第1期);全文 *

Also Published As

Publication number Publication date
CN108846292A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN108846292B (zh) 脱敏规则生成方法及装置
US10992478B2 (en) Blockchain-based digital identity management method
KR102595998B1 (ko) 블록체인을 사용해서 데이터 레코드를 분산하기 위한 시스템 및 방법
US7937383B2 (en) Generating anonymous log entries
CN111625809B (zh) 数据授权方法及装置、电子设备、存储介质
CN108287823B (zh) 消息数据处理方法、装置、计算机设备和存储介质
CN105956469A (zh) 文件安全性识别方法和装置
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN112016138A (zh) 一种车联网自动化安全建模的方法、装置和电子设备
CN111124421B (zh) 区块链智能合约的异常合约数据检测方法和装置
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
CN112765673A (zh) 一种敏感数据统计方法及相关装置
CN111817859A (zh) 基于零知识证明的数据共享方法、装置、设备及存储介质
CN113037505B (zh) 一种可信Web应用的实现方法及系统
CN113434588B (zh) 基于移动通信话单的数据挖掘分析方法及装置
CN109101574A (zh) 一种数据防泄漏系统的任务审批方法和系统
CN109783471A (zh) 企业画像小程序化方法、装置、计算机设备及存储介质
CN109784918A (zh) 基于区块链的信息监督方法、装置、设备和存储介质
CN110474890B (zh) 一种基于智能流量导向切换的数据反爬取方法及装置
CN117252429A (zh) 风险用户的识别方法、装置、存储介质及电子设备
Park et al. Forensic investigation framework for cryptocurrency wallet in the end device
CN109660676B (zh) 异常对象的识别方法、装置及设备
CN111143399A (zh) 数据处理方法、装置、存储介质和计算机设备
CN110414251B (zh) 数据监测方法和装置
CN114861076A (zh) 信息处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant