CN114429222A - 一种模型的训练方法、装置及设备 - Google Patents
一种模型的训练方法、装置及设备 Download PDFInfo
- Publication number
- CN114429222A CN114429222A CN202210061986.8A CN202210061986A CN114429222A CN 114429222 A CN114429222 A CN 114429222A CN 202210061986 A CN202210061986 A CN 202210061986A CN 114429222 A CN114429222 A CN 114429222A
- Authority
- CN
- China
- Prior art keywords
- model
- parameter
- sub
- information corresponding
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 241
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000004422 calculation algorithm Methods 0.000 claims description 59
- 230000006870 function Effects 0.000 claims description 56
- 239000013598 vector Substances 0.000 claims description 26
- 238000012512 characterization method Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 description 40
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000006872 improvement Effects 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 8
- 241000700605 Viruses Species 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种模型的训练方法、装置及设备,该方法包括:获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,然后,可以基于训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,最终,可以向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,得到训练后的目标模型。
Description
技术领域
本文件涉及计算机技术领域,尤其涉及一种模型的训练方法、装置及设备。
背景技术
随着大数据技术的广泛应用,其所带来的用户隐私泄露问题日益受到人们的关注。差分隐私机制是一种被广泛认可的严格的隐私保护机制,差分隐私机制通过对数据添加干扰噪声的方式来保护所发布数据中潜在的用户隐私信息,从而达成即便攻击者已经掌握了除某一条信息以外的其他信息,该攻击者仍然无法推测出该条信息。
对于机器学习算法,通常需要学习一个确定性的实值映射函数,差分隐私机制可以通过添加噪声信息,调整映射函数的敏感度,上述方式虽然可以对机器学习模型进行隐私保护,但是会使得模型的准确率降低,从而导致模型无法使用。为此,需要提供一种在对机器学习模型进行训练的过程中的隐私保护方案,并可以保证模型最终识别的准确性。
发明内容
本说明书实施例的目的是提供一种在对机器学习模型进行训练的过程中的隐私保护方案,并可以保证模型最终识别的准确性。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种模型的训练方法,所述方法包括:获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例提供的一种模型的训练方法,应用于区块链系统,所述方法包括:获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中。调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例提供的一种模型的训练装置,所述装置包括:数据获取模块,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。训练模块,基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。截断模块,基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。更新模块,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例提供的一种模型的训练装置,所述装置为区块链系统中的装置,所述装置包括:合约部署模块,获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中。数据获取模块,调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。训练模块,基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。截断模块,基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。更新模块,基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例提供的一种模型的训练设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例提供的一种模型的训练设备,所述设备为区块链系统中的设备,所述模型的训练设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中。调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到区块链系统中。调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数。基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息。基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息。基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种模型的训练方法实施例;
图2为本说明书一种模型的训练系统的结构示意图;
图3为本说明书一种模型的训练相关界面的结构示意图;
图4为本说明书另一种模型的训练方法实施例;
图5A为本说明书又一种模型的训练方法实施例;
图5B为本说明书一种模型的训练过程示意图;
图6为本说明书一种模型的训练装置实施例;
图7为本说明书另一种模型的训练装置实施例;
图8为本说明书一种模型的训练设备实施例。
具体实施方式
本说明书实施例提供一种模型的训练方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种模型的训练方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机、平板电脑等移动终端设备,也可以是个人计算机等设备,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法可以应用于设置有模型训练等的相关场景中,本实施例中以服务器为执行主体进行详细说明,对于终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将该模型参数划分为多个不同的模型子参数。
其中,目标模型可以是任意模型,例如目标模型可以为面部识别模型,也可以为指纹识别模型,还可以是针对某项业务(如金融业务等)而构建的风险防控模型(例如可以是针对欺诈风险的风险防控模型等),具体可以根据实际情况设定,本说明书实施例对此不做限定。训练样本可以包括多种,具体可以根据需要训练的目标模型而设置,例如,需要训练的目标模型为面部识别模型,则训练样本可以是面部图像,再例如需要训练的目标模型为指纹识别模型,则训练样本可以是指纹数据,又例如需要训练的目标模型为针对某业务(如在线交易业务等)的风险防控模型,则训练样本可以是该业务的业务数据(可以包括如交易双方的相关信息、交易的资源信息、交易时间、交易地点、交易双方的交易历史数据等)等。模型参数可以是目标模型中需要确定的模型参数,模型参数确定后,目标模型即可投入使用。
在实施中,随着大数据技术的广泛应用,其所带来的用户隐私泄露问题日益受到人们的关注。差分隐私机制是一种被广泛认可的严格的隐私保护机制,差分隐私机制通过对数据添加干扰噪声的方式来保护所发布数据中潜在的用户隐私信息,从而达成即便攻击者已经掌握了除某一条信息以外的其他信息,该攻击者仍然无法推测出该条信息。
对于机器学习算法,通常需要学习一个确定性的实值映射函数例如,机器学习算法为针对风险识别的二分类算法,映射函数f将训练样本对应的特征映射到[0,1]之间的概率,即可以表示该训练样本是否存在风险的概率。差分隐私机制通过添加噪声信息,调整映射函数f的敏感度Sf(即相邻输入的训练样本d与d′的函数值的最大距离|f(d)-f(d′)|),例如,在映射函数f中增加高斯噪声信息,具体如下:
如果
并且ε<1,则满足(ε,δ)的差分隐私,其中,d为输入的训练样本,的高斯噪声,ε,δ为预设参数,σ为噪声尺度。上述方式虽然可以对机器学习模型进行隐私保护,但是会使得模型的准确率降低,从而导致模型无法使用。为此,需要提供一种在对机器学习模型进行训练的过程中的隐私保护方案。本说明书实施例提供一种可选的技术方案,具体可以包括以下内容:
可以通过多种不同的方式获取一定数量的训练样本,例如,如图2所示,可以预先设置有训练样本的输入页面,该输入页面中可以包括训练样本的数据输入框、确定按键和取消按键等,当需要向服务器上传某训练样本时,可以获取上述输入页面的数据,并可以显示该输入页面。如图3所示,用户可以在该输入页面的数据输入框中输入训练样本的数据,输入完成后,可以点击该输入页面中的确定按键,此时,服务器可以获取该训练样本,通过上述方式可以得到一定数量的训练样本。或者,服务器中可以记录某业务的相关数据,当需要获取目标模型的训练样本时,可以从上述业务的相关数据中获取满足指定需求的数据,将获取的数据作为训练样本等,除了可以通过上述方式获取目标模型的训练样本外,还可以通过多种不同的方式获取目标模型的训练样本,具体可以根据实际情况设定,本说明书实施例对此不做限定。
此外,还可以获取待训练的目标模型,并可以获取目标模型对应的模型参数,该模型参数可以包括一个,也可以包括多个,具体可以根据实际情况设定。为了保证模型的准确性,可以将模型参数划分为多个不同的部分,然后,分别进行训练,得到训练后的较准确的模型参数,基于此,可以根据实际情况将该模型参数划分为多个不同的模型子参数,具体如,可以预先设定模型参数需要划分的数量,如10或5等,之后,可以根据上述设定的数量,将该模型参数进行拆分,得到上述设定的数量的模型子参数,在实际应用中,还可以通过其它多种方式对模型参数进行拆分,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S104中,基于上述训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息。
在实施中,通过上述方式可以将该模型参数划分为多个不同的模型子参数,每个模型子参数可以对应有损失函数,然后,可以将上述训练样本输入到目标模型中,得到每个模型子参数相应的输出结果,针对任意一个模型子参数相应的输出结果,可以通过该模型子参数对应的损失函数,计算该模型子参数相应的输出结果对应的损失值,基于得到的损失值进行向后传播处理,得到该模型子参数对应的梯度信息,可以将得到的梯度信息作为该模型子参数对应的初始梯度信息。可以通过上述方式,继续下一个模型子参数相应的输出结果执行上述处理,以对对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息。
在步骤S106中,基于每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息。
其中,截断信息可以是对梯度进行截断处理的信息,截断信息可以包括截断数值等,截断数值可以随机设定,也可以根据专家经验设定等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,由于稀疏性对于高维特征向量以及大数据集非常重要,因此,为了得到稀疏的特征权重,可以对模型子参数对应的初始梯度信息进行梯度截断处理,具体地,可以预先为每个模型子参数设定相应的截断信息,例如,可以针对不同的模型子参数,分别设定满足该模型子参数对应的梯度截断条件的截断信息,如可以根据专家经验为不同的模型子参数设定相应的截断信息等。然后,可以基于设定的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到该模型子参数对应的梯度信息,通过上述方式,可以计算得到每个模型子参数对应的梯度信息。
在步骤S108中,向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对该模型参数进行更新,得到训练后的目标模型。
其中,噪声信息可以是包括任意噪声数据的信息,该噪声信息可以包括随机噪声,也可以包括高斯噪声等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,通过上述方式得到每个模型子参数对应的梯度信息后,为了保护训练样本中包含的隐私信息,可以向每个模型子参数对应的梯度信息中加入相应的噪声信息,其中,不同的模型子参数可以对应不同的噪声信息,在另一种实施例中,不同的模型子参数也可以设置相同的噪声信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。通过上述处理,每个模型子参数可以对应有一个加入了噪声信息的梯度信息,可以将上述得到的信息作为模型子参数对应的目标梯度信息,从而可以得到每个模型子参数对应的目标梯度信息。通过上述方式得到的目标梯度信息可以作为模型子参数的最终梯度信息,可以使用每个模型子参数对应的最终梯度信息(即每个模型子参数对应的目标梯度信息)进行融合,得到目标模型的模型参数最终的梯度信息,可以使用目标模型的模型参数最终的梯度信息对目标模型中当前的模型参数进行更新,得到更新后的模型参数,可以再次通过上述步骤S102~步骤S108的处理过程对目标模型进行训练,得到更新的模型参数,直到目标模型对应的损失函数收敛为止,最终可以得到收敛后的模型参数,从而即可以得到训练后的目标模型。
本说明书实施例提供一种模型的训练方法,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,然后,可以基于训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,最终,可以向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,这样,通过计算梯度更新与模型参数之间的相对大小来自适应进行梯度截断处理,并通过向确定的梯度信息中添加噪声信息,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升最终模型预测的准确率。
实施例二
如图4所示,本说明书实施例提供一种模型的训练方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如手机、平板电脑等移动终端设备,也可以是个人计算机等设备,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法可以应用于设置有模型训练等的相关场景中,本实施例中以服务器为执行主体进行详细说明,对于终端设备的情况,可以参见下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S402中,获取待训练的目标模型对应的模型参数和目标模型的训练样本。
其中,目标模型可以为神经网络算法构建的模型,神经网络算法可以是一种模仿动物神经网络行为特征进行分布式并行信息处理的算法,该算法依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
在实施中,差分隐私机制通常作为一种被广泛认可的严格的隐私保护处理机制,例如,对于某医院的数据库,历史已有99个病人,其中10个感染A病毒,攻击者通过查询该数据库可得知当前感染A病毒的病人数量(未泄漏个人隐私),现在,用户B去医院,并确诊感染了A病毒,攻击者再次查询数据库可以获取到感染A病毒的病人数量为11,此时,攻击者即可获知用户B感染A病毒的隐私数据,上述对隐私数据的攻击行为即为差分攻击,防止差分攻击的方法即未差分隐私保护,一个简单的差分隐私保护方法就是对数据库的查询结果加入随机噪声。由于随机噪声的存在,不论用户B的信息是否出现在数据库中,两次查询输出感染A病毒的病人数量的概率不会发生显著的变化,因此,攻击者无法根据查询结果的不同而获取用户B的隐私数据。
也可以对机器学习模型进行隐私保护,例如,可以通过差分隐私随机梯度下降学习算法训练的神经网络模型可以满足差分隐私要求,具体地,训练样本可以为{x1,…,xN},损失函数为
其中,N为训练样本的数量,上述算法需要设置以下超参数:学习率ηt,噪声尺度σ,数据分组大小L,梯度范数大小限制C,迭代次数T。算法如下:
1、模型参数随机初始化为θ0;
2、循环执行以下步骤T次:
(1)从训练样本中随机抽取L个训练样本构成样本子集Lt;
上述算法中,(3)中对训练样本的梯度进行截断,以限制单个样本对模型的影响程度,防止差分攻击获取单个训练样本的信息,如果训练样本的梯度信息对应的‖g‖2≤C,梯度信息g原样保留,如果‖g‖2>C,需对其收缩,截断其范数等于C。通过限制训练样本对模型的影响程度,及在梯度信息中添加噪声信息,该算法可有效保证差分隐私安全,且该算法可有效提升隐私保护效果,但该算法的收敛速度、模型的准确率仍可进一步提高。该算法将神经网络中所有参数组成统一向量进行截断,并使用固定的阈值C,这使得算法收敛较慢,通过上述算法进行模型训练过程中,梯度信息的范数大小会动态变化,固定的C值并不合适。为此,本说明书实施例提出将自适应梯度截断算法应用于差分隐私梯度下降算法,在保证算法的隐私安全前提下,加快算法收敛,获得更好的模型最终识别准确性的技术方案。
对于目标模型,可以将目标模型的模型参数统一为θ(可以为一个向量),可以获取该模型参数θ和训练样本{x1,…,xN}。
在步骤S404中,基于目标模型对应的网络层的数量,确定模型子参数的数量。
在实施中,可以根据目标模型对应的网络层的数量确定模型子参数的数量,具体如,可以将目标模型对应的网络层的数量作为模型子参数的数量,或者,可以预先设定目标模型对应的网络层的数量与模型子参数的数量之间满足的倍数关系,然后,可以基于该倍数关系通过目标模型对应的网络层的数量确定模型子参数的数量等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤S406中,基于上述模型子参数的数量,将上述模型参数划分为多个不同的模型子参数。
在实施中,例如,目标模型对应的网络层的数量作为模型子参数的数量,则可以将模型参数换分为网络层的数量个不同的模型子参数,如果目标模型由J个网络层组成,则第j(其中,j=1,2,3,4…J)个网络层的模型子参数可以表示为模型参数θ=[W1,W2,…,WJ]。
上述方式可以将目标模型的模型参数按照网络层进行拆分,但是,在实际应用中,也可以将模型参数以更细粒度为单位进行拆分,例如,以模型子参数Wj对应的矩阵的行向量为单位,计算其范数并做归一化处理,基于此,上述步骤S406的具体处理可以通过下述步骤A2和步骤A4处理。
在步骤A2中,获取每个模型子参数对应的表征向量。
在步骤A4中,基于上述表征向量中的行向量,将模型参数划分为多个不同的模型子参数。
在步骤S408中,基于上述训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息。
在步骤S410中,获取每个模型子参数的范数,以及每个模型子参数对应的初始梯度信息的范数。
通过上述公式,可以分别计算得到每个模型子参数的范数,以及每个模型子参数对应的初始梯度信息的范数||Gj||F。
在步骤S412中,基于每个模型子参数的范数、每个模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个模型子参数对应的截断信息。
在实施中,基于上述内容,可以更有效度量梯度对原始模型参数影响的大小,因此,本说明书实施例中改进的差分隐私梯度下降算法中,依据的值对相应的梯度信息进行梯度截断处理,而非根据一个简单的固定常数进行梯度截断处理,因此,可以基于确定每个模型子参数对应的截断信息,其中,λ为截断阈值,∈为预设初值,在实际应用中,∈的取值可以为10-3,防止模型子参数初始化为0时,上述方式始终将梯度取为0值。
针对多个不同的模型子参数中的任一模型子参数,执行以下步骤S414~步骤S418的处理:
在步骤S414中,获取模型子参数的范数与预设初值之间的最大值。
在步骤S416中,如果模型子参数对应的初始梯度信息的范数与获取的最大值的比值大于预设的截断阈值,则确定模型子参数对应的梯度信息为该截断阈值与获取的最大值的乘积,并与模型子参数对应的初始梯度信息的范数之间的比值的倍数的初始梯度信息。
在步骤S418中,如果模型子参数对应的初始梯度信息的范数与获取的最大值的比值不大于预设的截断阈值,则确定模型子参数对应的梯度信息为模型子参数对应的初始梯度信息。
在实施中,针对上述步骤S416和步骤S418的处理,初始梯度信息可以通过下述表达式确定:
在步骤S420中,向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对上述模型参数进行更新,得到训练后的目标模型。
其中,噪声信息可以通过预设的噪声尺度信息、预设的截断阈值和模型子参数的范数确定。
在实施中,基于上述内容,具体处理过程可以如下:训练样本为{x1,…,xN},损失函数为其中模型参数θ=[W1,W2,…,WJ]。并可以设置以下超参数:学习率ηt,噪声尺度σ,数据分组大小L,截断阈值λ,迭代次数T。具体算法如下:
(1)模型参数随机初始化为θ0;
(2)循环执行以下步骤T次:
a)从训练样本中随机抽取L个训练样本构成样本子集Lt;
c)对梯度信息进行梯度截断:
d)对初始梯度信息添加噪声信息:
e)模型参数的更新:
本说明书实施例提供一种模型的训练方法,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,然后,可以基于训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,最终,可以向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,这样,通过计算梯度更新与模型参数之间的相对大小来自适应进行梯度截断处理,并通过向确定的梯度信息中添加噪声信息,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升最终模型预测的准确率。
此外,通过使用自适应梯度截断算法改进差分隐私梯度下降算法,算法通过计算梯度更新与模型参数之间的相对大小来自适应决定截断信息与噪声信息的大小,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升模型预测准确率。
实施例三
如图5A和图5B所示,本说明书实施例提供一种模型的训练方法,该方法的执行主体可以为区块链系统,该区块链系统可以由终端设备和/或服务器等组成,其中,该终端设备可以如手机、平板电脑等移动终端设备,也可以是个人计算机等设备,该服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法可以应用于设置有模型训练等的相关场景中,该方法具体可以包括以下步骤:
在步骤S502中,获取目标模型的训练规则信息,采用目标模型的训练规则信息生成相应的第一智能合约,并将第一智能合约部署到所述区块链系统中。
其中,第一智能合约可以是一种旨在以信息化方式传播、验证或执行合同的计算机协议,智能合约允许在没有第三方的情况下进行可信交互,进行的上述交互过程可追踪且不可逆转,第一智能合约中包括合约参与方可以在上面执行合约参与方同意的权利和义务的协议。
在实施中,为了使得基于目标模型的训练过程的可追溯性更好,可以创建或加入指定的区块链系统,这样,可以基于区块链系统执行对目标模型的训练,具体地,区块链节点中可以安装有相应的应用程序,该应用程序中可以设置有目标模型的训练规则信息的输入框和/或选择框等,可以在上述输入框和/或选择框中设置相应的信息。然后,区块链系统可以接收目标模型的训练规则信息。区块链系统可以通过目标模型的训练规则信息生成相应的第一智能合约,并可以向该区块链系统中部署该第一智能合约,这样,区块链系统中存储了目标模型的训练规则信息和相应的第一智能合约,其他用户无法篡改目标模型的训练规则信息和相应的第一智能合约,而且,区块链系统通过第一智能合约执行对目标模型的训练。
在步骤S504中,调用第一智能合约,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数。
在实施中,第一智能合约中可以设置有获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤S506中,基于第一智能合约,通过训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息。
在实施中,第一智能合约中可以设置有通过训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤S508中,基于第一智能合约,通过每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息。
在实施中,第一智能合约中可以设置有通过每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤S510中,基于第一智能合约,向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,得到训练后的目标模型。
在实施中,第一智能合约中可以设置有向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在实际应用中,目标模型可以存储于区块链系统中,也可以存储于其它存储设备中,对于该目标模型存储于其它存储设备中的情况,考虑到目标模型可能需要进行定期或不定期更新,由于区块链系统具有不可篡改的特征,因此如果目标模型存储于区块链系统中,后续需要对区块链系统中的目标模型进行频繁的上传、删除和上传者的身份验证等操作,增大区块链系统的处理压力,为了提高处理效率,降低区块链系统的处理压力,可以预先将目标模型存储于存储设备的指定存储地址内,而将该存储地址(即索引信息)上传于区块链系统中,由于该存储地址可以固定不变,并存储于区块链系统中,从而既保证了区块链系统中的数据的防篡改性,同时,目标模型还可以在上述存储设备中进行定期或不定期的更新。
在步骤S508之前,还可以确定每个模型子参数对应的截断信息,具体可以参见下述步骤B2和步骤B4的处理。
在步骤B2中,基于预先部署于区块链系统中的第二智能合约,获取每个模型子参数的范数,以及每个模型子参数对应的初始梯度信息的范数。
在实施中,第二智能合约中可以设置有获取每个模型子参数的范数,以及每个模型子参数对应的初始梯度信息的范数的相关规则信息,这样,基于第二智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤B4中,基于第二智能合约、每个模型子参数的范数、每个模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个模型子参数对应的截断信息。
在实施中,第二智能合约中可以设置有基于第二智能合约、每个模型子参数的范数、每个模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个模型子参数对应的截断信息的相关规则信息,这样,基于第二智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤S504中基于第一智能合约将所述模型参数划分为多个不同的模型子参数的处理可以多种多样,以下提供两种可选的处理方式,具体可以包括以下方式一中的步骤C2和步骤C4,以及方式二中的步骤D2和步骤D4的处理。
在步骤C2中,基于第一智能合约、目标模型对应的网络层的数量,确定模型子参数的数量。
在实施中,第一智能合约中可以设置有基于目标模型对应的网络层的数量,确定模型子参数的数量的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤C4中,基于第一智能合约、模型子参数的数量,将模型参数划分为多个不同的模型子参数。
在实施中,第一智能合约中可以设置有基于模型子参数的数量,将模型参数划分为多个不同的模型子参数的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤D2中,基于第一智能合约,获取每个模型子参数对应的表征向量。
在实施中,第一智能合约中可以设置有获取每个模型子参数对应的表征向量的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤D4中,基于第一智能合约、上述表征向量中的行向量,将模型参数划分为多个不同的模型子参数。
在实施中,第一智能合约中可以设置有基于上述表征向量中的行向量,将模型参数划分为多个不同的模型子参数的相关规则信息,这样,基于第一智能合约中的上述规则信息可以实现上述相应的处理,具体可以参见上述相关内容,在此不再赘述。
在步骤S508中基于第一智能合约,通过每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息的处理可以多种多样,以下提供两种可选的处理方式,具体可以包括以下方式一和方式二。
方式一:针对多个不同的模型子参数中的任一模型子参数,执行以下处理:基于第一智能合约,获取模型子参数的范数与预设初值之间的最大值;如果模型子参数对应的初始梯度信息的范数与获取的最大值的比值大于预设的截断阈值,则基于第一智能合约,确定模型子参数对应的梯度信息为截断阈值与获取的最大值的乘积,并与模型子参数对应的初始梯度信息的范数之间的比值的倍数的所述初始梯度信息。
方式二:针对多个不同的模型子参数中的任一模型子参数,执行以下处理:基于第一智能合约,获取模型子参数的范数与预设初值之间的最大值;如果模型子参数对应的初始梯度信息的范数与获取的最大值的比值不大于预设的截断阈值,则基于第一智能合约确定模型子参数对应的梯度信息为模型子参数对应的初始梯度信息。
其中,噪声信息为高斯噪声的信息,目标模型为神经网络算法构建的模型。噪声信息通过预设的噪声尺度信息、预设的截断阈值和模型子参数的范数确定。
上述步骤S504~步骤S510的具体处理,可以参见上述实施例一~实施例二中的相关内容,即可以通过相应的第一智能合约,实现如上述实施例一~实施例二中的涉及的各种处理。
本说明书实施例提供一种模型的训练方法,应用于区块链系统,获取目标模型的训练规则信息,采用目标模型的训练规则信息生成相应的第一智能合约,并将第一智能合约部署到区块链系统中,调用第一智能合约,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,基于第一智能合约,通过训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于第一智能合约,通过每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,基于第一智能合约,向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,得到训练后的目标模型,这样,通过计算梯度更新与模型参数之间的相对大小来自适应进行梯度截断处理,并通过向确定的梯度信息中添加噪声信息,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升最终模型预测的准确率。
此外,通过使用自适应梯度截断算法改进差分隐私梯度下降算法,算法通过计算梯度更新与模型参数之间的相对大小来自适应决定截断信息与噪声信息的大小,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升模型预测准确率。
实施例四
以上为本说明书实施例提供的模型的训练方法,基于同样的思路,本说明书实施例还提供一种模型的训练装置,如图6所示。
该模型的训练装置包括:数据获取模块601、训练模块602、截断模块603和更新模块604,其中:
数据获取模块601,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
训练模块602,基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
截断模块603,基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
更新模块604,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例中,所述数据获取模块601,包括:
数量确定单元,基于所述目标模型对应的网络层的数量,确定所述模型子参数的数量;
第一参数划分单元,基于所述模型子参数的数量,将所述模型参数划分为多个不同的模型子参数。
本说明书实施例中,所述数据获取模块601,包括:
表征单元,获取每个所述模型子参数对应的表征向量;
第二参数划分单元,基于所述表征向量中的行向量,将所述模型参数划分为多个不同的模型子参数。
本说明书实施例中,所述装置还包括:
范数获取模块,获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
信息确定模块,基于每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
本说明书实施例中,所述截断模块603,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
最大值获取单元,获取所述模型子参数的范数与预设初值之间的最大值;
截断单元,如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述截断阈值与获取的最大值的乘积,并与所述模型子参数对应的初始梯度信息的范数之间的比值的倍数的所述初始梯度信息。
本说明书实施例中,所述截断模块603,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
截断单元,最大值获取单元,获取所述模型子参数的范数与预设初值之间的最大值;
如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值不大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述模型子参数对应的初始梯度信息。
本说明书实施例中,所述噪声信息为高斯噪声的信息,所述目标模型为神经网络算法构建的模型。
本说明书实施例中,所述噪声信息通过预设的噪声尺度信息、预设的截断阈值和所述模型子参数的范数确定。
本说明书实施例提供一种模型的训练装置,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,然后,可以基于训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,最终,可以向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,这样,通过计算梯度更新与模型参数之间的相对大小来自适应进行梯度截断处理,并通过向确定的梯度信息中添加噪声信息,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升最终模型预测的准确率。
此外,通过使用自适应梯度截断算法改进差分隐私梯度下降算法,算法通过计算梯度更新与模型参数之间的相对大小来自适应决定截断信息与噪声信息的大小,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升模型预测准确率。
实施例五
基于同样的思路,本说明书实施例还提供一种模型的训练装置,该装置为区块链系统中的装置,如图7所示。
该模型的训练装置包括:合约部署模块701、数据获取模块702、训练模块703、截断模块704和更新模块705,其中:
合约部署模块701,获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中;
数据获取模块702,调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
训练模块703,基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
截断模块704,基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
更新模块705,基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例中,所述装置还包括:
范数获取模块,基于预先部署于所述区块链系统中的第二智能合约,获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
信息确定模块,基于所述第二智能合约、每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
本说明书实施例提供一种模型的训练装置,获取目标模型的训练规则信息,采用目标模型的训练规则信息生成相应的第一智能合约,并将第一智能合约部署到区块链系统中,调用第一智能合约,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,基于第一智能合约,通过训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于第一智能合约,通过每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,基于第一智能合约,向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,得到训练后的目标模型,这样,通过计算梯度更新与模型参数之间的相对大小来自适应进行梯度截断处理,并通过向确定的梯度信息中添加噪声信息,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升最终模型预测的准确率。
此外,通过使用自适应梯度截断算法改进差分隐私梯度下降算法,算法通过计算梯度更新与模型参数之间的相对大小来自适应决定截断信息与噪声信息的大小,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升模型预测准确率。
实施例六
以上为本说明书实施例提供的模型的训练装置,基于同样的思路,本说明书实施例还提供一种模型的训练设备,如图8所示。
所述模型的训练设备可以为上述实施例提供终端设备、服务器或区块链系统中的设备等。
模型的训练设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器801和存储器802,存储器802中可以存储有一个或一个以上存储应用程序或数据。其中,存储器802可以是短暂存储或持久存储。存储在存储器802的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对模型的训练设备中的一系列计算机可执行指令。更进一步地,处理器801可以设置为与存储器802通信,在模型的训练设备上执行存储器802中的一系列计算机可执行指令。模型的训练设备还可以包括一个或一个以上电源803,一个或一个以上有线或无线网络接口804,一个或一个以上输入输出接口805,一个或一个以上键盘806。
具体在本实施例中,模型的训练设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型的训练设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例中,所述将所述模型参数划分为多个不同的模型子参数,包括:
基于所述目标模型对应的网络层的数量,确定所述模型子参数的数量;
基于所述模型子参数的数量,将所述模型参数划分为多个不同的模型子参数。
本说明书实施例中,所述将所述模型参数划分为多个不同的模型子参数,包括:
获取每个所述模型子参数对应的表征向量;
基于所述表征向量中的行向量,将所述模型参数划分为多个不同的模型子参数。
本说明书实施例中,所述方法还包括:
获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
基于每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
本说明书实施例中,所述基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
获取所述模型子参数的范数与预设初值之间的最大值;
如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述截断阈值与获取的最大值的乘积,并与所述模型子参数对应的初始梯度信息的范数之间的比值的倍数的所述初始梯度信息。
本说明书实施例中,所述基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
获取所述模型子参数的范数与预设初值之间的最大值;
如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值不大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述模型子参数对应的初始梯度信息。
本说明书实施例中,所述噪声信息为高斯噪声的信息,所述目标模型为神经网络算法构建的模型。
本说明书实施例中,所述噪声信息通过预设的噪声尺度信息、预设的截断阈值和所述模型子参数的范数确定。
此外,具体在本实施例中,模型的训练设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型的训练设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中;
调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例中,还包括:
基于预先部署于所述区块链系统中的第二智能合约,获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
基于所述第二智能合约、每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
本说明书实施例提供一种模型的训练设备,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,然后,可以基于训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,最终,可以向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,这样,通过计算梯度更新与模型参数之间的相对大小来自适应进行梯度截断处理,并通过向确定的梯度信息中添加噪声信息,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升最终模型预测的准确率。
此外,通过使用自适应梯度截断算法改进差分隐私梯度下降算法,算法通过计算梯度更新与模型参数之间的相对大小来自适应决定截断信息与噪声信息的大小,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升模型预测准确率。
实施例七
进一步地,基于上述图1到图5B所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例中,所述将所述模型参数划分为多个不同的模型子参数,包括:
基于所述目标模型对应的网络层的数量,确定所述模型子参数的数量;
基于所述模型子参数的数量,将所述模型参数划分为多个不同的模型子参数。
本说明书实施例中,所述将所述模型参数划分为多个不同的模型子参数,包括:
获取每个所述模型子参数对应的表征向量;
基于所述表征向量中的行向量,将所述模型参数划分为多个不同的模型子参数。
本说明书实施例中,还包括:
获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
基于每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
本说明书实施例中,所述基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
获取所述模型子参数的范数与预设初值之间的最大值;
如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述截断阈值与获取的最大值的乘积,并与所述模型子参数对应的初始梯度信息的范数之间的比值的倍数的所述初始梯度信息。
本说明书实施例中,所述基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
获取所述模型子参数的范数与预设初值之间的最大值;
如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值不大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述模型子参数对应的初始梯度信息。
本说明书实施例中,所述噪声信息为高斯噪声的信息,所述目标模型为神经网络算法构建的模型。
本说明书实施例中,所述噪声信息通过预设的噪声尺度信息、预设的截断阈值和所述模型子参数的范数确定。
此外,在另一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中;
调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
本说明书实施例中,还包括:
基于预先部署于所述区块链系统中的第二智能合约,获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
基于所述第二智能合约、每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
本说明书实施例提供一种存储介质,获取待训练的目标模型对应的模型参数和目标模型的训练样本,并将模型参数划分为多个不同的模型子参数,然后,可以基于训练样本和每个模型子参数对应的损失函数,对目标模型进行模型训练,确定每个模型子参数对应的初始梯度信息,基于每个模型子参数对应的截断信息对相应的模型子参数对应的初始梯度信息进行梯度截断,得到每个模型子参数对应的梯度信息,最终,可以向每个模型子参数对应的梯度信息中加入相应的噪声信息,得到每个模型子参数对应的目标梯度信息,并基于每个模型子参数对应的目标梯度信息对模型参数进行更新,这样,通过计算梯度更新与模型参数之间的相对大小来自适应进行梯度截断处理,并通过向确定的梯度信息中添加噪声信息,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升最终模型预测的准确率。
此外,通过使用自适应梯度截断算法改进差分隐私梯度下降算法,算法通过计算梯度更新与模型参数之间的相对大小来自适应决定截断信息与噪声信息的大小,能更有效的抑制单个样本对整体模型参数的影响,同时加快算法的收敛,提升模型预测准确率。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。
Claims (16)
1.一种模型的训练方法,所述方法包括:
获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
2.根据权利要求1所述的方法,所述将所述模型参数划分为多个不同的模型子参数,包括:
基于所述目标模型对应的网络层的数量,确定所述模型子参数的数量;
基于所述模型子参数的数量,将所述模型参数划分为多个不同的模型子参数。
3.根据权利要求1所述的方法,所述将所述模型参数划分为多个不同的模型子参数,包括:
获取每个所述模型子参数对应的表征向量;
基于所述表征向量中的行向量,将所述模型参数划分为多个不同的模型子参数。
4.根据权利要求1所述的方法,所述方法还包括:
获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
基于每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
5.根据权利要求4所述的方法,所述基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
获取所述模型子参数的范数与预设初值之间的最大值;
如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述截断阈值与获取的最大值的乘积,并与所述模型子参数对应的初始梯度信息的范数之间的比值的倍数的所述初始梯度信息。
6.根据权利要求4或5所述的方法,所述基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息,包括:
针对多个不同的模型子参数中的任一模型子参数,执行以下处理:
获取所述模型子参数的范数与预设初值之间的最大值;
如果所述模型子参数对应的初始梯度信息的范数与获取的最大值的比值不大于预设的截断阈值,则确定所述模型子参数对应的梯度信息为所述模型子参数对应的初始梯度信息。
7.根据权利要求6所述的方法,所述噪声信息为高斯噪声的信息,所述目标模型为神经网络算法构建的模型。
8.根据权利要求7所述的方法,所述噪声信息通过预设的噪声尺度信息、预设的截断阈值和所述模型子参数的范数确定。
9.一种模型的训练方法,应用于区块链系统,所述方法包括:
获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中;
调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
10.根据权利要求9所述的方法,所述方法还包括:
基于预先部署于所述区块链系统中的第二智能合约,获取每个所述模型子参数的范数,以及每个所述模型子参数对应的初始梯度信息的范数;
基于所述第二智能合约、每个所述模型子参数的范数、每个所述模型子参数对应的初始梯度信息的范数和预设的截断阈值,确定每个所述模型子参数对应的截断信息。
11.一种模型的训练装置,所述装置包括:
数据获取模块,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
训练模块,基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
截断模块,基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
更新模块,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
12.一种模型的训练装置,所述装置为区块链系统中的装置,所述装置包括:
合约部署模块,获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中;
数据获取模块,调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
训练模块,基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
截断模块,基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
更新模块,基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
13.一种模型的训练设备,所述模型的训练设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
14.一种模型的训练设备,所述设备为区块链系统中的设备,所述模型的训练设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到所述区块链系统中;
调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
15.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
16.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:
获取目标模型的训练规则信息,采用所述目标模型的训练规则信息生成相应的第一智能合约,并将所述第一智能合约部署到区块链系统中;
调用所述第一智能合约,获取待训练的目标模型对应的模型参数和所述目标模型的训练样本,并将所述模型参数划分为多个不同的模型子参数;
基于所述第一智能合约,通过所述训练样本和每个所述模型子参数对应的损失函数,对所述目标模型进行模型训练,确定每个所述模型子参数对应的初始梯度信息;
基于所述第一智能合约,通过每个所述模型子参数对应的截断信息对相应的所述模型子参数对应的初始梯度信息进行梯度截断,得到每个所述模型子参数对应的梯度信息;
基于所述第一智能合约,向每个所述模型子参数对应的梯度信息中加入相应的噪声信息,得到每个所述模型子参数对应的目标梯度信息,并基于每个所述模型子参数对应的目标梯度信息对所述模型参数进行更新,得到训练后的目标模型。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210061986.8A CN114429222A (zh) | 2022-01-19 | 2022-01-19 | 一种模型的训练方法、装置及设备 |
PCT/CN2023/071159 WO2023138419A1 (zh) | 2022-01-19 | 2023-01-09 | 模型的训练 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210061986.8A CN114429222A (zh) | 2022-01-19 | 2022-01-19 | 一种模型的训练方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114429222A true CN114429222A (zh) | 2022-05-03 |
Family
ID=81313365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210061986.8A Pending CN114429222A (zh) | 2022-01-19 | 2022-01-19 | 一种模型的训练方法、装置及设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114429222A (zh) |
WO (1) | WO2023138419A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115238250A (zh) * | 2022-09-15 | 2022-10-25 | 支付宝(杭州)信息技术有限公司 | 一种模型的处理方法、装置及设备 |
CN116128072A (zh) * | 2023-01-20 | 2023-05-16 | 支付宝(杭州)信息技术有限公司 | 一种风险控制模型的训练方法、装置、设备及存储介质 |
WO2023138419A1 (zh) * | 2022-01-19 | 2023-07-27 | 支付宝(杭州)信息技术有限公司 | 模型的训练 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117010485B (zh) * | 2023-10-08 | 2024-01-26 | 之江实验室 | 边缘场景下的分布式模型训练系统及梯度规约方法 |
CN117194992B (zh) * | 2023-11-01 | 2024-04-19 | 支付宝(杭州)信息技术有限公司 | 一种模型训练、任务执行方法、装置、存储介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766355A (zh) * | 2018-12-28 | 2019-05-17 | 上海汇付数据服务有限公司 | 一种支持自然语言的数据查询方法和系统 |
CN111027717A (zh) * | 2019-12-11 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法和系统 |
CN111062044A (zh) * | 2019-12-09 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 基于区块链的模型联合训练方法及装置 |
CN111177792A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护确定目标业务模型的方法及装置 |
CN111461215A (zh) * | 2020-03-31 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 业务模型的多方联合训练方法、装置、系统及设备 |
CN113011587A (zh) * | 2021-03-24 | 2021-06-22 | 支付宝(杭州)信息技术有限公司 | 一种隐私保护的模型训练方法和系统 |
KR20210090122A (ko) * | 2020-12-18 | 2021-07-19 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 분산형 모델 트레이닝 장치, 방법 및 컴퓨터 프로그램 |
CN113297396A (zh) * | 2021-07-21 | 2021-08-24 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的模型参数更新方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347476B (zh) * | 2020-11-13 | 2024-02-02 | 脸萌有限公司 | 数据保护方法、装置、介质及设备 |
CN114429222A (zh) * | 2022-01-19 | 2022-05-03 | 支付宝(杭州)信息技术有限公司 | 一种模型的训练方法、装置及设备 |
-
2022
- 2022-01-19 CN CN202210061986.8A patent/CN114429222A/zh active Pending
-
2023
- 2023-01-09 WO PCT/CN2023/071159 patent/WO2023138419A1/zh unknown
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766355A (zh) * | 2018-12-28 | 2019-05-17 | 上海汇付数据服务有限公司 | 一种支持自然语言的数据查询方法和系统 |
CN111062044A (zh) * | 2019-12-09 | 2020-04-24 | 支付宝(杭州)信息技术有限公司 | 基于区块链的模型联合训练方法及装置 |
CN111027717A (zh) * | 2019-12-11 | 2020-04-17 | 支付宝(杭州)信息技术有限公司 | 一种模型训练方法和系统 |
CN111461215A (zh) * | 2020-03-31 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 业务模型的多方联合训练方法、装置、系统及设备 |
CN111177792A (zh) * | 2020-04-10 | 2020-05-19 | 支付宝(杭州)信息技术有限公司 | 基于隐私保护确定目标业务模型的方法及装置 |
KR20210090122A (ko) * | 2020-12-18 | 2021-07-19 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 분산형 모델 트레이닝 장치, 방법 및 컴퓨터 프로그램 |
CN113011587A (zh) * | 2021-03-24 | 2021-06-22 | 支付宝(杭州)信息技术有限公司 | 一种隐私保护的模型训练方法和系统 |
CN113297396A (zh) * | 2021-07-21 | 2021-08-24 | 支付宝(杭州)信息技术有限公司 | 基于联邦学习的模型参数更新方法、装置及设备 |
Non-Patent Citations (4)
Title |
---|
吴建明WUJIANMING: "《AI多种并行算法》", pages 1 - 3, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/420410406> * |
李敏;李红娇;陈杰;: "差分隐私保护下的Adam优化算法研究", 计算机应用与软件, no. 06, 12 June 2020 (2020-06-12) * |
毛典辉;李子沁;蔡强;薛子育;: "基于DCGAN反馈的深度差分隐私保护方法", 北京工业大学学报, no. 06, 24 April 2018 (2018-04-24) * |
陶陶;柏建树;: "基于WGAN反馈的深度学习差分隐私保护方法", 电子技术与软件工程, no. 02, 15 January 2020 (2020-01-15) * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023138419A1 (zh) * | 2022-01-19 | 2023-07-27 | 支付宝(杭州)信息技术有限公司 | 模型的训练 |
CN115238250A (zh) * | 2022-09-15 | 2022-10-25 | 支付宝(杭州)信息技术有限公司 | 一种模型的处理方法、装置及设备 |
CN115238250B (zh) * | 2022-09-15 | 2022-12-27 | 支付宝(杭州)信息技术有限公司 | 一种模型的处理方法、装置及设备 |
CN116128072A (zh) * | 2023-01-20 | 2023-05-16 | 支付宝(杭州)信息技术有限公司 | 一种风险控制模型的训练方法、装置、设备及存储介质 |
CN116128072B (zh) * | 2023-01-20 | 2023-08-25 | 支付宝(杭州)信息技术有限公司 | 一种风险控制模型的训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023138419A1 (zh) | 2023-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114429222A (zh) | 一种模型的训练方法、装置及设备 | |
CN113313575B (zh) | 一种风险识别模型的确定方法及装置 | |
WO2023284511A1 (zh) | 一种基于隐私保护的图模型训练方法、装置及设备 | |
CN109214193B (zh) | 数据加密、机器学习模型训练方法、装置以及电子设备 | |
CN112200132B (zh) | 一种基于隐私保护的数据处理方法、装置及设备 | |
JP6870508B2 (ja) | 学習プログラム、学習方法及び学習装置 | |
WO2023087914A1 (zh) | 推荐内容的选择方法、装置、设备、存储介质及程序产品 | |
CN113435585A (zh) | 一种业务处理方法、装置及设备 | |
CN115456043A (zh) | 分类模型处理、意图识别方法、装置和计算机设备 | |
CN114819614A (zh) | 数据处理方法、装置、系统及设备 | |
CN113792889B (zh) | 一种模型的更新方法、装置及设备 | |
CN111709415A (zh) | 目标检测方法、装置、计算机设备和存储介质 | |
CN113221717A (zh) | 一种基于隐私保护的模型构建方法、装置及设备 | |
CN110619349A (zh) | 植物图像分类方法及装置 | |
Nguyen et al. | Learning on hypergraphs with sparsity | |
CN113837635A (zh) | 风险检测处理方法、装置及设备 | |
CN113992429B (zh) | 一种事件的处理方法、装置及设备 | |
CN116720214A (zh) | 一种用于隐私保护的模型训练方法及装置 | |
CN112967044B (zh) | 一种支付业务的处理方法及装置 | |
CN116957041A (zh) | 压缩神经网络模型的方法、装置和计算设备 | |
CN114638998A (zh) | 模型更新方法、装置、系统及设备 | |
CN115204395A (zh) | 数据的处理方法、装置及设备 | |
Tokuhara et al. | Using label information in a genetic programming based method for acquiring block preserving outerplanar graph patterns with wildcards | |
CN114036571A (zh) | 一种基于隐私保护的数据处理方法、装置及设备 | |
CN115167913B (zh) | 一种操作系统的分层方法、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |