CN116796369A - 一种脱敏规则匹配方法、装置、设备及存储介质 - Google Patents
一种脱敏规则匹配方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116796369A CN116796369A CN202310806699.XA CN202310806699A CN116796369A CN 116796369 A CN116796369 A CN 116796369A CN 202310806699 A CN202310806699 A CN 202310806699A CN 116796369 A CN116796369 A CN 116796369A
- Authority
- CN
- China
- Prior art keywords
- desensitization rule
- data
- rule matching
- model
- desensitized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000586 desensitisation Methods 0.000 title claims abstract description 265
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000013145 classification model Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种脱敏规则匹配方法、装置、设备及存储介质,可应用于人工智能领域或金融领域。在该方法中,先确定待脱敏数据;随后,将待脱敏数据输入至脱敏规则匹配模型,得到与待脱敏数据相匹配的目标脱敏规则;脱敏规则匹配模型是基于多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,对脱敏规则匹配初始模型进行更新得到的;最后,基于目标脱敏规则,对待脱敏数据进行数据脱敏,即可得到脱敏后的数据。可见,该方法仅需通过基于联邦学习得到的脱敏规则匹配模型,自动为待脱敏数据匹配对应的目标脱敏规则。而无需人工为待脱敏数据匹配脱敏规则,节省了人工的成本和工作负担,能够提高脱敏规则的匹配效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种脱敏规则匹配方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,互联网已经成为人们社交、学习以及日常生活中不可获取的一部分。在人们使用互联网的过程中不可避免使用到与自身相关的信息。而如何对与人们相关的信息进行数据保护,已成为亟需关注的重点。目前,数据脱敏是对与人们相关的信息进行数据保护的重要手段之一。
现有技术中,通常是数据管理人员为需要进行数据脱敏的数据匹配脱敏规则,以基于脱敏规则对数据进行数据脱敏,实现数据保护。但是,容易存在的问题是,需要进行数据脱敏的数据是不断增多的,人工为数据进行脱敏规则匹配,需耗费大量的人力,增加了人工的成本和工作负担,容易导致数据脱敏规则的匹配效率降低。
发明内容
有鉴于此,本申请实施例提供了一种脱敏规则匹配方法、装置、设备及存储介质,旨在减少人工的成本和工作负担,提高脱敏规则的匹配效率。
第一方面,本申请实施例提供了一种脱敏规则匹配方法,所述方法包括:
确定待脱敏数据;所述待脱敏数据为包含目标对象的待保护信息的数据;
将所述待脱敏数据输入至脱敏规则匹配模型,得到与所述待脱敏数据相匹配的目标脱敏规则;所述脱敏规则匹配模型是基于多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,对所述脱敏规则匹配初始模型进行更新得到的;所述多个计算节点用于表示参与基于联邦学习的模型训练的多个联邦学习对象;
基于所述目标脱敏规则,对所述待脱敏数据进行数据脱敏得到脱敏后的数据。
可选地,所述脱敏规则匹配模型通过如下步骤训练:
将所述脱敏规则匹配初始模型发送至所述多个计算节点;
接收所述多个计算节点发送的多个梯度值;所述多个梯度值是所述多个计算节点对所述脱敏规则匹配初始模型进行训练得到的;
将所述多个梯度值进行加权聚合,得到聚合后的梯度值;
根据所述聚合后的梯度值对所述脱敏规则匹配初始模型进行更新,获得脱敏规则匹配全局模型;
若所述脱敏规则匹配全局模型的损失值小于或等于预设阈值,则将所述脱敏规则匹配全局模型确定为所述脱敏规则匹配模型。
可选地,所述方法还包括:
若所述脱敏规则匹配全局模型的损失值大于所述预设阈值,则将所述脱敏规则匹配全局模型作为所述脱敏规则匹配初始模型,并重新执行所述脱敏规则匹配模型的训练步骤。
可选地,所述脱敏规则匹配初始模型通过以下步骤训练:
获取所述多个计算节点对应的多个私有数据集;
将所述多个私有数据集中的交集数据确定为公有数据集;所述公有数据集中包括多个待脱敏数据样本,以及与所述多个待脱敏数据样本分别对应的脱敏规则标签;
根据所述公有数据集对预设分类模型进行训练,得到训练后的预设分类模型;
将所述训练后的预设分类模型确定为所述脱敏规则匹配初始模型。
可选地,所述方法还包括:
若所述多个计算节点对应的所述多个私有数据集中存在进行更新的私有数据集,则将所述脱敏规则匹配模型作为所述脱敏规则匹配初始模型,并重新执行所述脱敏规则匹配模型的训练步骤。
可选地,所述确定待脱敏数据,具体包括:
响应于对文件上传控件的触发操作,得到目标文件;
响应于对待脱敏数据字段的输入操作,确定所述目标文件中与所述待脱敏数据字段匹配的待脱敏数据;
所述将所述待脱敏数据输入至脱敏规则匹配模型,得到与所述待脱敏数据相匹配的目标脱敏规则,具体包括:
响应于对脱敏规则匹配控件的触发操作,将所述待脱敏数据输入至脱敏规则匹配模型,得到所述目标脱敏规则。
第二方面,本申请实施例提供了一种脱敏规则匹配装置,所述装置包括:
数据确定模块,用于确定待脱敏数据;所述待脱敏数据为包含目标对象的待保护信息的数据;
脱敏规则匹配模块,用于将所述待脱敏数据输入至脱敏规则匹配模型,得到与所述待脱敏数据相匹配的目标脱敏规则;所述脱敏规则匹配模型是基于多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,对所述脱敏规则匹配初始模型进行更新得到的;所述多个计算节点用于表示参与基于联邦学习的模型训练的多个联邦学习对象;
数据脱敏模块,用于基于所述目标脱敏规则,对所述待脱敏数据进行数据脱敏得到脱敏后的数据。
可选地,所述脱敏规则匹配模型通过如下模块训练:
模型发送模块,用于将所述脱敏规则匹配初始模型发送至所述多个计算节点;
梯度值接收模块,用于接收所述多个计算节点发送的多个梯度值;所述多个梯度值是所述多个计算节点对所述脱敏规则匹配初始模型进行训练得到的;
梯度值聚合模块,用于将所述多个梯度值进行加权聚合,得到聚合后的梯度值;
模型更新模块,用于根据所述聚合后的梯度值对所述脱敏规则匹配初始模型进行更新,获得脱敏规则匹配全局模型;
模型确定模块,用于若所述脱敏规则匹配全局模型的损失值小于或等于预设阈值,则将所述脱敏规则匹配全局模型确定为所述脱敏规则匹配模型。
第三方面,本申请实施例提供了一种脱敏规则匹配设备,所述设备包括存储器以及处理器:
所述存储器,用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器,用于执行所述计算机程序,以使所述设备执行前述第一方面所述的脱敏规则匹配方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被运行时,运行所述计算机程序的设备实现前述第一方面所述的脱敏规则匹配方法。
相较于现有技术,本申请实施例具有以下有益效果:
本申请实施例提供了一种脱敏规则匹配方法、装置、设备及存储介质。在该方法中,先确定待脱敏数据;其中,待脱敏数据为包含目标对象的待保护信息的数据。随后,将待脱敏数据输入至脱敏规则匹配模型,得到与待脱敏数据相匹配的目标脱敏规则;其中,脱敏规则匹配模型是基于多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,对脱敏规则匹配初始模型进行更新得到的;多个计算节点用于表示参与基于联邦学习的模型训练的多个联邦学习对象。最后,基于目标脱敏规则,对待脱敏数据进行数据脱敏,即可得到脱敏后的数据。可见,该方法仅需通过基于联邦学习得到的脱敏规则匹配模型,自动为待脱敏数据匹配对应的目标脱敏规则。而无需人工为待脱敏数据匹配脱敏规则,能够节省人工的成本和工作负担,从而提高脱敏规则的匹配效率。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种脱敏规则匹配方法的应用场景;
图2为本申请实施例提供的一种脱敏规则匹配方法的流程图;
图3为本申请实施例提供的一种脱敏规则匹配装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
现阶段,通常采用人工为需要进行数据脱敏的数据进行脱敏规则的匹配,而随着数据脱敏技术的不断发展,脱敏规则的数量逐渐增多,同时,需要进行数据脱敏的数据数量也是大幅度增长,该人工匹配脱敏规则的方法需要耗费大量的人力,极大地增加了人工的成本和工作负担,容易影响脱敏规则的匹配效率。
基于此,为了解决上述问题,本申请实施例提供了一种脱敏规则匹配方法,确定待脱敏数据;将待脱敏数据输入至脱敏规则匹配模型,得到与待脱敏数据相匹配的目标脱敏规则;基于目标脱敏规则,对待脱敏数据进行数据脱敏得到脱敏后的数据。通过基于联邦学习得到的脱敏规则匹配模型,自动为待脱敏数据匹配对应的目标脱敏规则,能够节省人工的成本和工作负担,从而提高脱敏规则的匹配效率。
举例来说,本申请实施例的场景之一,可以是应用到如图1所示的场景中。该场景包括数据库110和服务器120,其中,数据库110包括文件,服务器120可以从数据库110中的文件中确定待脱敏数据,并采用本申请实施例提供的实施方式,得到脱敏后的数据。
首先,在上述应用场景中,虽然将本申请实施例提供的实施方式的动作描述由服务器120执行;但是,本申请实施例在执行主体方面不受限制,只要执行了本申请实施例提供的实施方式所公开的动作即可。其中,服务器可以为独立服务器、集群服务器或云服务器等,本申请不做具体限定。此外,本申请实施例的脱敏规则匹配方法的执行主体也可以为具有数据处理能力的终端设备。例如终端设备可以为智能手机、计算机、平板电脑等电子设备,本申请不做具体限定。
其次,上述场景仅是本申请实施例提供的一个场景示例,本申请实施例并不限于此场景。
需要说明的是,本发明提供的一种脱敏规则匹配方法、装置、设备及存储介质可用于人工智能领域或金融领域。上述仅为示例,并不对本发明提供的一种脱敏规则匹配方法、装置、设备及存储介质的应用领域进行限定。
下面结合附图,以终端设备的角度,通过实施例来详细说明本申请实施例中脱敏规则匹配方法、装置、设备及存储介质的具体实现方式。
参见图2,该图为本申请实施例提供的一种脱敏规则匹配方法的流程图,结合图2所示,具体可以包括:
S201:确定待脱敏数据。
其中,待脱敏数据为包含目标对象的待保护信息的数据。目标对象可以是指参与业务的用户,用户在办理业务时可能需要输入与自身信息相关的数据,也就是需要进行保护的数据。为了对这些数据实施保护,则需要进行数据脱敏。
在本申请一种可能的实施方式中,可以提供一种人机交互界面,响应于用户的操作,使得终端设备可以确定待脱敏数据。S201具体可以包括:终端设备响应于用户对该人机交互界面中的文件上传控件的触发操作,用户将包括待脱敏数据的目标文件上传到终端设备上,终端设备即可得到目标文件;接着,终端设备响应于用户对待脱敏数据字段的输入操作。一般来说,目标文件中包含多种数据,其中可能仅有一种或几种数据需要进行数据脱敏。因此,用户将与目标文件中需要进行数据脱敏的数据相关的待脱敏数据字段输入至终端设备中,使得终端设备可以确定目标文件中与待脱敏数据字段匹配的待脱敏数据。可见,通过人机交互界面,便于用户上传包括待脱敏数据的文件,添加待脱敏数据字段,可以提升用户的使用体验。
S202:将待脱敏数据输入至脱敏规则匹配模型,得到与待脱敏数据相匹配的目标脱敏规则。
其中,脱敏规则匹配模型是先得到多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,再利用梯度值对脱敏规则匹配初始模型进行更新得到的;多个计算节点用于表示参与基于联邦学习的模型训练的多个联邦学习对象。例如多个计算节点可以是多个企业具有数据处理能力的服务器或终端设备,本申请对此不做限定。
在本申请一种可能的实施方式中,基于上述实施方式中提及的人机交互界面,该界面中还可以包括脱敏规则匹配控件,当用户输入待脱敏数据字段后,可以触发该脱敏规则匹配控件,使得终端设备响应于用户对脱敏规则匹配控件的触发操作,将待脱敏数据输入至脱敏规则匹配模型,得到与待脱敏数据相匹配的目标脱敏规则。
其中,在本申请一种可能的实施方式中,脱敏规则匹配模型具体可以通过如下步骤1-步骤5训练:
步骤1:将脱敏规则匹配初始模型发送至多个计算节点。
步骤2:接收多个计算节点发送的多个梯度值。
多个计算节点接收到脱敏规则匹配初始模型后,根据自身具有的私有数据集对该脱敏规则匹配初始模型进行训练,得到多个梯度值,并将多个梯度值返回。其中,梯度值是指对脱敏规则匹配初始模型的损失函数求导数值化后的结果,代表了损失函数在某个点上的方向性和变化率,是推进模型参数评估和更新的重要指标。
步骤3:将多个梯度值进行加权聚合,得到聚合后的梯度值。
举例而言,可以采用安全聚合算法对多个梯度值进行加权聚合,本申请对此不做限制。
步骤4:根据聚合后的梯度值对脱敏规则匹配初始模型进行更新,获得脱敏规则匹配全局模型;
步骤5:若脱敏规则匹配全局模型的损失值小于或等于预设阈值,则将脱敏规则匹配全局模型确定为脱敏规则匹配模型。
由于脱敏规则匹配模型具体是依据上述多个计算节点根据不同私有数据集对脱敏规则匹配初始模型进行训练得到的多个梯度值,再对脱敏规则匹配初始模型进行更新得到的。因此,该脱敏规则匹配模型是多个计算节点共同建模得到的,不同计算节点的不同私有数据集涵盖了更多样的样本特征和大量不同的样本,能够大大提升模型的训练效果,使得通过脱敏规则匹配模型能够为待脱敏数据匹配较为合适的脱敏规则,有利于实现脱敏规则的精准匹配。
此外,在本申请可选实施例中,若脱敏规则匹配全局模型的损失值大于预设阈值,也就是说,模型的训练效果没有达到预期,则需要继续进行训练。可以将脱敏规则匹配全局模型再次作为脱敏规则匹配初始模型,并重新执行脱敏规则匹配模型的训练步骤。也就是说,将脱敏规则匹配全局模型再一次分发到多个计算节点,多个计算节点继续利用私有数据集进行训练并返回相应的梯度值,直至更新后的模型的损失值小于或等于预设值,即可结束训练。
其中,在本申请一种可能的实施方式中,脱敏规则匹配初始模型具体可以通过以下步骤训练:先获取多个计算节点对应的多个私有数据集;再将多个私有数据集中的交集数据确定为公有数据集;公有数据集中包括多个待脱敏数据样本,以及与多个待脱敏数据样本分别对应的脱敏规则标签;随后,根据公有数据集对预设分类模型进行训练,得到训练后的预设分类模型;即可将训练后的预设分类模型确定为脱敏规则匹配初始模型。
其中,举例而言,预设分类模型可以是随机森林、神经网络、逻辑回归或支持向量机等模型中的任意一种,本申请对此不做限定。作为一种示例,在得到公有数据集后,可以通过代数重建算法建立预设分类模型,利用公有数据集中的数据训练该预设分类模型,本申请对此不做限定。
由于脱敏规则匹配初始模型具体是依据上述多个计算节点的不同私有数据集中的数据交集,即公有数据集对预设分类模型进行训练得到的,而公有数据集中包括多个待脱敏数据样本,以及与多个待脱敏数据样本分别对应的脱敏规则标签。因此,该脱敏规则匹配初始模型已经具备初步的匹配能力,可以节省后续多个计算节点分别进行模型训练的时间。
作为一种示例,由于不同计算节点的私有数据集并非完全重合,则可以基于加密的样本对齐技术,在不同计算节点不公开各自私有数据集的前提下确认共有的数据和特征,即上述提及的公有数据集。以便基于公有数据集训练预设分类模型,得到脱敏规则匹配初始模型。多个计算节点可以从与终端设备通信的云服务器中下载脱敏规则匹配初始模型,并对训练过程中需要交换的数据进行加密,多个计算节点在各自本地利用各自的私有数据集进行训练,得到梯度值并进行上传。以便可以对脱敏规则匹配初始模型进行更新,然后进行不断的迭代,也就是在损失函数的损失值小于预设值时,得到最后训练完成的脱敏规则匹配模型。
此外,在本申请可选实施例中,该脱敏规则匹配方法,还可以包括:若多个计算节点对应的多个私有数据集中存在进行更新的私有数据集,则将脱敏规则匹配模型作为脱敏规则匹配初始模型,并重新执行脱敏规则匹配模型的训练步骤。由于每个计算节点处的私有数据集可能会发生更新,例如样本数量增加,或者样本特征更多样化等。在私有数据集发生更新后,进一步对脱敏规则匹配模型进行训练,不断迭代已有的脱敏规则匹配模型,能够提高模型的训练效果,从而进一步提升脱敏规则的适配性。
S203:基于目标脱敏规则,对待脱敏数据进行数据脱敏得到脱敏后的数据。
其中,举例而言,脱敏规则可以包括关键信息替换,加密脱敏,伪装脱敏,数据扰动脱敏以及数据屏蔽脱敏等,本申请对此不做限定。
基于上述S201-S203的相关内容可知,本申请实施例中,确定待脱敏数据;将待脱敏数据输入至脱敏规则匹配模型,得到与待脱敏数据相匹配的目标脱敏规则;基于目标脱敏规则,对待脱敏数据进行数据脱敏得到脱敏后的数据。通过基于联邦学习得到的脱敏规则匹配模型,自动为待脱敏数据匹配对应的目标脱敏规则,能够节省人工的成本和工作负担,从而提高脱敏规则的匹配效率。
以上为本申请实施例提供脱敏规则匹配方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的脱敏规则匹配装置进行介绍。
参见图3,该图为本申请实施例提供的一种脱敏规则匹配装置的结构示意图,该脱敏规则匹配装置300可以包括:
数据确定模块310,用于确定待脱敏数据;待脱敏数据为包含目标对象的待保护信息的数据;
脱敏规则匹配模块320,用于将待脱敏数据输入至脱敏规则匹配模型,得到与待脱敏数据相匹配的目标脱敏规则;脱敏规则匹配模型是基于多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,对脱敏规则匹配初始模型进行更新得到的;多个计算节点用于表示参与基于联邦学习的模型训练的多个联邦学习对象;
数据脱敏模块330,用于基于目标脱敏规则,对待脱敏数据进行数据脱敏得到脱敏后的数据。
作为一种实施方式,脱敏规则匹配模型,具体可以通过如下模块训练:
模型发送模块,用于将脱敏规则匹配初始模型发送至多个计算节点;
梯度值接收模块,用于接收多个计算节点发送的多个梯度值;多个梯度值是多个计算节点对脱敏规则匹配初始模型进行训练得到的;
梯度值聚合模块,用于将多个梯度值进行加权聚合,得到聚合后的梯度值;
模型更新模块,用于根据聚合后的梯度值对脱敏规则匹配初始模型进行更新,获得脱敏规则匹配全局模型;
模型确定模块,用于若脱敏规则匹配全局模型的损失值小于或等于预设阈值,则将脱敏规则匹配全局模型确定为脱敏规则匹配模型。
作为一种实施方式,该脱敏规则匹配装置300,还可以包括:
第一步骤执行模块,用于若脱敏规则匹配全局模型的损失值大于预设阈值,则将脱敏规则匹配全局模型作为脱敏规则匹配初始模型,并重新执行脱敏规则匹配模型的训练步骤。
作为一种实施方式,脱敏规则匹配初始模型,具体可以通过以下模块训练:
数据集获取模块,用于获取多个计算节点对应的多个私有数据集;
数据集确定模块,用于将多个私有数据集中的交集数据确定为公有数据集;公有数据集中包括多个待脱敏数据样本,以及与多个待脱敏数据样本分别对应的脱敏规则标签;
模型训练模块,用于根据公有数据集对预设分类模型进行训练,得到训练后的预设分类模型;
初始模型确定模块,用于将训练后的预设分类模型确定为脱敏规则匹配初始模型。
作为一种实施方式,该脱敏规则匹配装置300,还可以包括:
第二步骤执行模块,用于若多个计算节点对应的多个私有数据集中存在进行更新的私有数据集,则将脱敏规则匹配模型作为脱敏规则匹配初始模型,并重新执行脱敏规则匹配模型的训练步骤。
作为一种实施方式,数据确定模块310,具体可以包括:
目标文件获取单元,用于响应于对文件上传控件的触发操作,得到目标文件;
数据确定单元,用于响应于对待脱敏数据字段的输入操作,确定目标文件中与待脱敏数据字段匹配的待脱敏数据;
相应地,脱敏规则匹配模块,具体可以用于响应于对脱敏规则匹配控件的触发操作,将待脱敏数据输入至脱敏规则匹配模型,得到目标脱敏规则。
本申请实施例还提供了对应的脱敏规则匹配设备以及计算机可读存储介质,用于实现本申请实施例提供的方案。
其中,所述设备包括存储器和处理器,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序,以使所述设备执行本申请任一实施例所述的脱敏规则匹配方法。
所述计算机可读存储介质中存储有计算机程序,当所述计算机程序被运行时,运行所述计算机程序的设备实现本申请任一实施例所述的脱敏规则匹配方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在可读存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种脱敏规则匹配方法,其特征在于,所述方法包括:
确定待脱敏数据;所述待脱敏数据为包含目标对象的待保护信息的数据;
将所述待脱敏数据输入至脱敏规则匹配模型,得到与所述待脱敏数据相匹配的目标脱敏规则;所述脱敏规则匹配模型是基于多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,对所述脱敏规则匹配初始模型进行更新得到的;所述多个计算节点用于表示参与基于联邦学习的模型训练的多个联邦学习对象;
基于所述目标脱敏规则,对所述待脱敏数据进行数据脱敏得到脱敏后的数据。
2.根据权利要求1所述的方法,其特征在于,所述脱敏规则匹配模型通过如下步骤训练:
将所述脱敏规则匹配初始模型发送至所述多个计算节点;
接收所述多个计算节点发送的多个梯度值;所述多个梯度值是所述多个计算节点对所述脱敏规则匹配初始模型进行训练得到的;
将所述多个梯度值进行加权聚合,得到聚合后的梯度值;
根据所述聚合后的梯度值对所述脱敏规则匹配初始模型进行更新,获得脱敏规则匹配全局模型;
若所述脱敏规则匹配全局模型的损失值小于或等于预设阈值,则将所述脱敏规则匹配全局模型确定为所述脱敏规则匹配模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述脱敏规则匹配全局模型的损失值大于所述预设阈值,则将所述脱敏规则匹配全局模型作为所述脱敏规则匹配初始模型,并重新执行所述脱敏规则匹配模型的训练步骤。
4.根据权利要求2所述的方法,其特征在于,所述脱敏规则匹配初始模型通过以下步骤训练:
获取所述多个计算节点对应的多个私有数据集;
将所述多个私有数据集中的交集数据确定为公有数据集;所述公有数据集中包括多个待脱敏数据样本,以及与所述多个待脱敏数据样本分别对应的脱敏规则标签;
根据所述公有数据集对预设分类模型进行训练,得到训练后的预设分类模型;
将所述训练后的预设分类模型确定为所述脱敏规则匹配初始模型。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述多个计算节点对应的所述多个私有数据集中存在进行更新的私有数据集,则将所述脱敏规则匹配模型作为所述脱敏规则匹配初始模型,并重新执行所述脱敏规则匹配模型的训练步骤。
6.根据权利要求1所述的方法,其特征在于,所述确定待脱敏数据,具体包括:
响应于对文件上传控件的触发操作,得到目标文件;
响应于对待脱敏数据字段的输入操作,确定所述目标文件中与所述待脱敏数据字段匹配的待脱敏数据;
所述将所述待脱敏数据输入至脱敏规则匹配模型,得到与所述待脱敏数据相匹配的目标脱敏规则,具体包括:
响应于对脱敏规则匹配控件的触发操作,将所述待脱敏数据输入至脱敏规则匹配模型,得到所述目标脱敏规则。
7.一种脱敏规则匹配装置,其特征在于,所述装置包括:
数据确定模块,用于确定待脱敏数据;所述待脱敏数据为包含目标对象的待保护信息的数据;
脱敏规则匹配模块,用于将所述待脱敏数据输入至脱敏规则匹配模型,得到与所述待脱敏数据相匹配的目标脱敏规则;所述脱敏规则匹配模型是基于多个计算节点对脱敏规则匹配初始模型分别训练得到的梯度值,对所述脱敏规则匹配初始模型进行更新得到的;所述多个计算节点用于表示参与基于联邦学习的模型训练的多个联邦学习对象;
数据脱敏模块,用于基于所述目标脱敏规则,对所述待脱敏数据进行数据脱敏得到脱敏后的数据。
8.根据权利要求7所述的装置,其特征在于,所述脱敏规则匹配模型通过如下模块训练:
模型发送模块,用于将所述脱敏规则匹配初始模型发送至所述多个计算节点;
梯度值接收模块,用于接收所述多个计算节点发送的多个梯度值;所述多个梯度值是所述多个计算节点对所述脱敏规则匹配初始模型进行训练得到的;
梯度值聚合模块,用于将所述多个梯度值进行加权聚合,得到聚合后的梯度值;
模型更新模块,用于根据所述聚合后的梯度值对所述脱敏规则匹配初始模型进行更新,获得脱敏规则匹配全局模型;
模型确定模块,用于若所述脱敏规则匹配全局模型的损失值小于或等于预设阈值,则将所述脱敏规则匹配全局模型确定为所述脱敏规则匹配模型。
9.一种脱敏规则匹配设备,其特征在于,所述设备包括存储器以及处理器:
所述存储器,用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器,用于执行所述计算机程序,以使所述设备执行如权利要求1-6任一项所述的脱敏规则匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,当所述计算机程序被运行时,运行所述计算机程序的设备实现如权利要求1-6任一项所述的脱敏规则匹配方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806699.XA CN116796369A (zh) | 2023-07-03 | 2023-07-03 | 一种脱敏规则匹配方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806699.XA CN116796369A (zh) | 2023-07-03 | 2023-07-03 | 一种脱敏规则匹配方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116796369A true CN116796369A (zh) | 2023-09-22 |
Family
ID=88041765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310806699.XA Pending CN116796369A (zh) | 2023-07-03 | 2023-07-03 | 一种脱敏规则匹配方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116796369A (zh) |
-
2023
- 2023-07-03 CN CN202310806699.XA patent/CN116796369A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210073678A1 (en) | Method, apparatus and system for secure vertical federated learning | |
CN109003089B (zh) | 风险识别方法及装置 | |
CN108647962B (zh) | 征信系统、征信数据的存储方法、装置、设备及介质 | |
CN113505882B (zh) | 基于联邦神经网络模型的数据处理方法、相关设备及介质 | |
CN110874648A (zh) | 联邦模型的训练方法、系统和电子设备 | |
WO2021034602A1 (en) | Machine learning with feature obfuscation | |
CN111860865B (zh) | 模型构建和分析的方法、装置、电子设备和介质 | |
CN111125420B (zh) | 基于人工智能的对象推荐方法、装置及电子设备 | |
CN112307331B (zh) | 一种基于区块链高校毕业生智能招聘信息推送方法、系统及终端设备 | |
CN109684364A (zh) | 基于用户画像的问题处理方法、装置、设备和存储介质 | |
CN110855648A (zh) | 一种网络攻击的预警控制方法及装置 | |
CN110874638B (zh) | 面向行为分析的元知识联邦方法、装置、电子设备及系统 | |
CN113726545A (zh) | 基于知识增强生成对抗网络的网络流量生成方法及装置 | |
CN107256231B (zh) | 一种团队成员识别设备、方法及系统 | |
CN115481441A (zh) | 面向联邦学习的差分隐私保护方法及装置 | |
CN111666393A (zh) | 智能问答系统的验证方法、装置、计算机设备及存储介质 | |
CN110474899B (zh) | 一种业务数据处理方法、装置、设备及介质 | |
CN116796369A (zh) | 一种脱敏规则匹配方法、装置、设备及存储介质 | |
CN113011893B (zh) | 数据处理方法、装置、计算机设备及存储介质 | |
CN117033997A (zh) | 数据切分方法、装置、电子设备和介质 | |
CN111882415A (zh) | 一种质量检测模型的训练方法和相关装置 | |
CN112434894A (zh) | 一种实时风险控制方法、计算机设备及可读存储介质 | |
US20240112017A1 (en) | Systems and methods for adjusting data processing components for non-operational targets | |
CN112231367B (zh) | 基于人工智能的业务处理方法、装置及电子设备 | |
CN112788186B (zh) | 一种基于开源软件开发的电话自动批量转接的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |