CN113111254B - 推荐模型的训练方法、拟合方法、装置和电子设备 - Google Patents
推荐模型的训练方法、拟合方法、装置和电子设备 Download PDFInfo
- Publication number
- CN113111254B CN113111254B CN202110250663.9A CN202110250663A CN113111254B CN 113111254 B CN113111254 B CN 113111254B CN 202110250663 A CN202110250663 A CN 202110250663A CN 113111254 B CN113111254 B CN 113111254B
- Authority
- CN
- China
- Prior art keywords
- fitting
- parameter
- party
- function
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000005284 excitation Effects 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 166
- 238000005070 sampling Methods 0.000 claims description 24
- 230000000694 effects Effects 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种推荐模型的训练方法、拟合方法、装置和电子设备。所述拟合方法包括:获取数据集的属性信息;将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值;根据拟合参数的取值,确定与所述数据集对应的能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型。本说明书实施例可以确定拟合函数。所述拟合函数可以包括多个函数项的线性组合。在使用拟合函数代替激励函数构建业务模型以后,可以采用秘密分享算法对基于拟合函数构建的业务模型进行训练。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种推荐模型的训练方法、拟合方法、装置和电子设备。
背景技术
大数据时代,存在非常多的数据孤岛。每个自然人的业务数据分散存于不同的企业中。企业与企业之间由于竞争关系和隐私保护的考虑,并不是完全的互相信任。在一些情况下,需要在充分保护数据隐私的前提下,采用安全多方计算,利用双方都有的业务数据训练机器学习模型。机器学习模型可以包括激励函数。一些机器学习模型中的激励函数无法通过安全多方计算的方式计算。这样便无法在保护数据隐私的前提下,实现对机器学习模型的训练。
发明内容
本说明书实施例提供一种推荐模型的训练方法、拟合方法、装置和电子设备。
本说明书实施例的第一方面,提供了一种推荐模型的训练方法,所述推荐模型用于推荐拟合参数的取值,所述拟合参数用于确定能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型;所述方法包括:获取数据集的属性信息;根据所述数据集,确定拟合参数的取值;根据属性信息和拟合参数的取值,构建训练样本;根据训练样本,对所述推荐模型进行训练。
本说明书实施例的第二方面,提供了一种拟合方法,包括:获取数据集的属性信息;将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值;根据拟合参数的取值,确定与所述数据集对应的能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型。
本说明书实施例的第三方面,提供了一种推荐模型的训练装置,所述推荐模型用于推荐拟合参数的取值,所述拟合参数用于确定能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型;所述装置包括:获取单元,用于获取数据集的属性信息;确定单元,用于根据所述数据集,确定拟合参数的取值;构建单元,用于根据属性信息和拟合参数的取值,构建训练样本;训练单元,用于根据训练样本,对所述推荐模型进行训练。
本说明书实施例的第四方面,提供了一种拟合装置,包括:获取单元,用于获取数据集的属性信息;输入单元,用于将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值;确定单元,用于根据拟合参数的取值,确定与所述数据集对应的能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型。
本说明书实施例的第五方面,提供了一种电子设备,包括:至少一个处理器;存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面或者第二方面所述方法的指令。
本说明书实施例提供的技术方案,可以训练推荐模型。利用所述推荐模型可以方便地确定拟合函数。另外,本说明书实施例提供的技术方案,还可以通过推荐模型,获得与数据集对应的拟合函数。所述拟合函数可以包括多个函数项的线性组合。在使用拟合函数代替激励函数构建业务模型以后,可以采用秘密分享算法对基于拟合函数构建的业务模型进行训练。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中推荐模型的训练方法的流程示意图;
图2为本说明书实施例中拟合方法的流程示意图;
图3为本说明书实施例中拟合效果的示意图;
图4为本说明书实施例中推荐模型的训练装置的结构示意图;
图5为本说明书实施例中拟合装置的结构示意图;
图6为本说明书实施例中电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
安全多方计算(MPC,Secure Multi-Party Computation),用于解决一组互不信任的参与方之间保护隐私的协作计算问题。在分布式网络中,多个参与方可以分别拥有业务数据。使用安全多方计算技术,所述多个参与方可以在不泄漏自身业务数据的前提下进行协作计算,得到秘密信息。例如,参与方P1,…,Pn可以协作计算函数f(x1,…,xn)=(y1,…,yn)=y。其中,n≥2;x1,...,xn分别为参与方P1,…,Pn拥有的业务数据;y为计算得到的秘密信息;y1,…,yn分别为参与方P1,…,Pn在计算后所拥有的秘密信息y的分片。
秘密分享(SS,Secret Sharing),是一种用于实现安全多方计算的算法。秘密分享算法的思想是:将秘密信息以适当的方式进行拆分;拆分后的分片由不同的参与方管理;单个参与方无法恢复秘密信息;只有若干个参与方一同协作才能恢复秘密信息。例如,假设存在参与方P1、参与方P2和可信任的第三方(TTP,Trusted Third Party)。参与方P1拥有业务数据x1,参与方P2拥有业务数据x2。采用秘密分享算法,参与方P1和参与方P2可以进行协作计算,得到秘密信息y=y1+y2=f(x1,x2)=x1x2。参与方P1在计算后所拥有的秘密信息y的分片为y1,参与方P2在计算后所拥有的秘密信息y的分片为y2。具体地,可信任的第三方可以向参与方P1下发参数U和参数Z1;可以向参与方P2下发参数V和参数Z2;参数U、参数Z1、参数V和参数Z2满足关系式Z1+Z2=UV。参与方P1可以接收参数U和参数Z1;可以计算E=x1-U;可以向参与方P2发送参数E。参与方P2可以接收参数V和参数Z2;可以计算F=x2-V;可以向参与方P1发送参数F。参与方P1可以接收参数F;可以计算秘密信息y的分片y1=UF+Z1。参与方P2可以接收参数E;可以计算秘密信息y的分片y2=Ex2+Z2。
激励函数,又称为激活函数,可以用于构建机器学习模型。在所述机器学习模型中,激励函数定义了在给定输入下的输出。所述激励函数可以包括Sigmoid函数、Tanh函数和ReLU函数等。所述机器学习模型可以包括逻辑回归模型和神经网络模型等。
激励函数涉及的运算包括对数运算、开方运算、指数运算等非线性运算。在秘密分享算法中,函数f(x1,…,xn)涉及的运算包括乘法运算等线性运算。这样,激励函数无法通过秘密分享算法的方式进行计算。例如,Sigmoid函数涉及的运算包括指数运算。Sigmoid函数无法通过秘密分享算法的方式进行计算。
以下结合多方联合建模的应用场景对本说明书实施例涉及的应用环境进行说明。
在本场景示例中,用于对业务模型进行训练的训练样本(以下称为第一训练样本)可以分散位于多个数据方。具体地,所述第一训练样本可以分散位于第一方和第二方。所述第一方和所述第二方可以为单个服务器、由多个服务器构成的服务器集群、或者部署在云端的服务器。所述第一方可以持有所述第一训练样本的特征数据。所述第二方可以持有所述第一训练样本的标签。例如,所述第一方可以为大数据公司,所述大数据公司可以持有用户借贷金额、用户缴纳社保的基数、用户是否已婚、以及用户是否有房等特征数据。所述第二方可以为征信机构,所述征信机构可以持有用户的标签,所述标签可以用于表示用户的信用情况。
在本场景示例中,所述第一方需要根据自身持有的特征数据,所述第二方需要根据自身持有的标签,采用秘密分享算法,联合训练业务模型。在联合训练业务模型的过程中,所述第一方不能够泄漏自身持有的特征数据,所述第二方不能够泄漏自身持有的标签。考虑到所述业务模型中的激励函数无法通过秘密分享算法的方式进行计算,在实际中可以利用拟合函数对所述激励函数进行拟合。所述拟合函数可以通过秘密分享算法的方式进行计算。这样,所述第一方可以根据自身持有的特征数据,所述第二方可以根据自身持有的标签,采用秘密分享算法,联合训练基于所述拟合函数构建的业务模型。
在本场景示例中,所述拟合函数可以包括多个函数项的线性组合。例如,所述拟合函数可以表示为多个函数项相加的形式。使得,所述拟合函数可以通过秘密分享算法的方式进行计算。具体地,所述拟合函数可以包括傅立叶级数。傅立叶级数可以包括不同频率的三角函数的线性组合。例如,傅立叶级数可以表示为m表示傅立叶级数的展开阶数。M表示傅立叶级数的拟合区间。所述M表示的拟合区间可以为[-M,M]。需要说明的是,三角函数具有以下特性:在实际中一方(例如A方)持有x的分片x0,可以在本地计算和另一方(例如B方)持有x的分片x1,可以在本地计算和这样,A方可以根据持有的和B方可以根据持有的和采用秘密分享算法计算傅立叶级数包括不同频率的三角函数的线性组合,基于三角函数的特性,傅立叶级数可以通过秘密分享的方式进行计算。当然,所述拟合函数还可以包括其它形式的函数。例如,所述拟合函数还可以包括多项式。所述多项式可以包括多个单项式的线性组合。例如,所述多项式可以表示为多个单项式相加的形式。使得,所述多项式可以通过秘密分享的方式进行计算。
在本场景示例中,所述拟合函数可以根据拟合参数确定。例如,所述拟合函数可以包括傅立叶级数。所述拟合参数可以包括以下至少一种:第一参数、第二参数。所述第一参数用于表示傅立叶级数的展开阶数。所述第二参数用于表示傅立叶级数的拟合区间。具体地,例如,所述第一参数可以为m,所述m用于表示傅立叶级数的展开阶数为m阶。所述第二参数可以为M,所述M用于表示傅立叶级数的拟合区间为[-M,M]。另举一例,所述拟合函数可以包括多项式。所述拟合参数可以包括以下至少一种:第三参数、第四参数。所述第三参数用于表示多项式的次数。所述第四参数用于表示多项式的拟合区间。对于不同的特征集,拟合参数的取值是不同的。所述特征集可以包括第一训练样本的特征数据。为此,可以预先训练推荐模型;可以获取特征集的属性信息;可以将属性信息输入至训练的推荐模型,得到推荐模型推荐的拟合参数的取值;可以根据拟合参数的取值,确定拟合函数。在实际中,可以由第一方确定拟合函数。第一方可以获取特征集的属性信息;可以将属性信息输入至训练的推荐模型,得到推荐模型推荐的拟合参数的取值;可以根据拟合参数的取值,确定拟合函数。或者,还可以由除第一方和第二方以外的第三方确定拟合函数。第一方可以获取特征集的属性信息;可以向第三方发送特征集的属性信息。第三方可以接收特征集的属性信息;可以将属性信息输入至训练的推荐模型,得到推荐模型推荐的拟合参数的取值;可以根据拟合参数的取值,确定拟合函数。
本说明书实施例提供一种推荐模型的训练方法。所述推荐模型可以包括逻辑回归模型、神经网络模型等。所述推荐模型可以用于推荐拟合参数的取值。所述拟合参数可以用于确定能够拟合激励函数的拟合函数。所述拟合函数可以包括多个函数项的线性组合,可以用于代替激励函数构建业务模型。所述训练方法可以应用于服务器。所述服务器可以为单个服务器、由多个服务器构成的服务器集群、或者部署在云端的服务器。
请参阅图1。所述训练方法可以包括以下步骤。
步骤S10:获取数据集的属性信息。
在一些实施例中,所述数据集可以包括至少一个数据。每个所述数据可以包括在至少一种特征维度下的子数据。所述属性信息可以包括以下至少一种:特征维度的种类数、特征维度下的子数据的最值、特征维度下的子数据的第一指标、特征维度下的子数据的第二指标。其中,所述最值可以包括最大值、最小值等。所述第一指标可以用于表示子数据的集中趋势。所述第一指标可以包括平均数、中位数、众数等。所述第二指标可以用于表示子数据的离散程度。所述第二指标可以包括极差、平均差、标准差等。
例如,所述数据集可以包括数据bi,1≤i≤n,n表示所述数据集中数据的数量。数据bi=[ci1,…,cij,…,cip],1≤j≤p,p表示特征维度的种类数,cij表示数据bi中位于特征维度j下的子数据。所述属性信息可以包括以下至少一种:特征维度的种类数p、在所述数据集中位于特征维度j下的子数据的最值、在所述数据集中位于特征维度j下的子数据的第一指标、在所述数据集中位于特征维度j下的子数据的第二指标。具体地,例如,所述特征维度可以包括借贷维度、社保基数维度、婚姻维度、房产维度。那么,所述数据集中的每个数据可以包括用户的借贷金额、用户缴纳社保的基数、用户是否已婚、以及用户是否有房等子数据。
在一些实施例中,所述服务器可以对一个或多个数据集进行统计分析,得到所述一个或多个数据集的属性信息。所述数据集可以是预先准备的。在实际中,所述数据集可以由开发人员根据实际的开发经验构建。或者,所述数据集还可以由所述服务器生成。
步骤S12:根据所述数据集,确定拟合参数的取值。
在一些实施例中,所述数据集的数量为一个或多个。针对每个所述数据集,所述服务器可以采用网格搜索算法(Grid Search)、随机搜索算法(Random Search)、贝叶斯优化算法(Bayesian Optimization)等参数优化算法,确定拟合参数的取值。
在一些实施例中,所述拟合参数的数量可以为一个或多个。针对每个数据集,所述服务器可以确定各拟合参数的多个可能取值;可以将各拟合参数的可能取值进行组合,得到多个拟合参数取值组;可以根据多个拟合参数取值组,确定多个拟合函数;可以从多个拟合函数中选取拟合效果较优的目标拟合函数;可以确定目标拟合函数对应的拟合参数取值组。
针对每个数据集,所述服务器可以确定各拟合参数的取值区间;可以在取值区间中进行采样,得到各拟合参数的多个可能取值。在实际中,开发人员可以根据实际的开发经验,在所述服务器中输入各拟合参数的取值区间。所述服务器可以接收各拟合参数的取值区间。或者,所述服务器还可以采用一定的规则计算各拟合参数的取值区间。例如,所述拟合参数可以包括m和M,所述m可以用于表示傅立叶级数的展开阶数,所述M可以用于表示表示傅立叶级数的拟合区间。所述M表示的拟合区间可以为[-M,M]。针对某一数据集,所述服务器可以确定所述m的取值区间为[1,10];可以确定所述M的取值区间为[1,128]。所述服务器可以采用随机的方式在取值区间中进行采样。或者,所述服务器还可以采用一定的规则在取值区间中进行采样。延续前面的例子,所述m的取值区间可以为[1,10]。所述服务器可以从1开始、每间隔2在取值区间[1,10]中进行采样,得到所述m的多个可能取值1、3、5、7、9。所述M的取值区间可以为[1,64]。所述服务器可以从2开始,每间隔14在取值区间中进行采样,得到所述M的多个可能取值2、16、30、44、58。
每个拟合参数取值组可以包括各拟合参数的一个可能取值。延续前面的例子,所述m的多个可能取值可以包括1、3、5、7、9。所述M的多个可能取值可以包括2、16、30、44、58。所述服务器可以将m和M的可能取值进行组合,得到多个拟合参数取值组(1,2)、(1,16)、(1,30)、(1,44)、(1,58)、(3,2)、(3,16)、(3,30)、(3,44)、(3,58)、(5,2)、(5,16)、(5,30)、(5,44)、(5,58)、(7,2)、(7,16)、(7,30)、(7,44)、(7,58)、(9,2)、(9,16)、(9,30)、(9,44)、(9,58)。
针对每个拟合参数取值组,所述服务器可以确定一个拟合函数。延续前面的例子,根据拟合参数取值组(5,16),所述服务器可以确定傅立叶级数的阶数为5,可以确定傅立叶级数的拟合区间为[-16,16]。所述服务器可以在拟合区间[-16,16]中进行采样,得到多个采样数据;可以将所述多个采样数据输入至激励函数,得到所述多个采样数据对应的函数值;可以根据所述多个采样数据、以及所述多个采样数据对应的函数值,计算傅立叶系数的取值;可以根据傅立叶系数的取值、以及傅立叶级数的阶数,构建傅立叶级数作为拟合函数。
所述服务器可以计算各拟合函数的度量值;可以根据度量值,从各拟合函数中选取拟合效果较优的目标拟合函数。所述度量值可以用于表示拟合函数和激励函数在拟合区间上的差异程度。所述度量值可以包括均方误差、均方根误差、平均绝对误差等。例如,所述度量值可以包括均方误差f(x)表示拟合函数,g(x)表示激励函数。[-M,M]为拟合函数的拟合区间。所述服务器可以选取均方误差最小的目标拟合函数。
步骤S14:根据属性信息和拟合参数的取值,构建训练样本(以下称为第二训练样本)。
在一些实施例中,所述服务器可以以属性信息为特征数据,以拟合参数的取值为标签,根据特征数据和标签构建第二训练样本。由于数据集的数量为一个或多个,构建的第二训练样本的数量可以为一个或多个。每个第二训练样本中的特征数据和标签对应同一数据集。
步骤S16:根据第二训练样本,对所述推荐模型进行训练。
在一些实施例中,所述服务器可以根据一个或多个第二训练样本,对所述推荐模型进行训练。在实际中,所述服务器可以采用梯度下降法或者牛顿法对所述推荐模型进行训练。
本说明书实施例的训练方法,可以获取数据集的属性信息;可以根据所述数据集,确定拟合参数的取值;可以根据属性信息和拟合参数的取值,构建训练样本;可以根据训练样本,对所述推荐模型进行训练。利用所述推荐模型可以方便地确定拟合函数。所述拟合函数可以包括多个函数项的线性组合。在使用拟合函数代替激励函数构建业务模型以后,可以采用秘密分享算法对基于拟合函数构建的业务模型进行训练。
本说明书实施例提供一种拟合方法。所述拟合方法可以应用于服务器。所述服务器可以为单个服务器、由多个服务器构成的服务器集群、或者部署在云端的服务器。
请参阅图2。所述拟合方法可以包括以下步骤。
步骤S20:获取数据集的属性信息。
在一些实施例中,所述数据集可以包括至少一个数据。每个所述数据可以包括在至少一种特征维度下的子数据。所述属性信息可以包括以下至少一种:特征维度的种类数、特征维度下的子数据的最值、特征维度下的子数据的第一指标、特征维度下的子数据的第二指标。其中,所述最值可以包括最大值、最小值等。所述第一指标可以用于表示子数据的集中趋势。所述第一指标可以包括平均数、中位数、众数等。所述第二指标可以用于表示子数据的离散程度。所述第二指标可以包括极差、平均差、标准差等。
在一些实施例中,所述数据集可以用于训练业务模型。具体地,所述数据集可以包括特征集。所述特征集可以包括第一训练样本的特征数据。所述第一训练样本可以用于训练业务模型。所述数据集可以位于所述服务器。所述服务器可以获取数据集的属性信息。或者,所述数据集还可以位于除所述服务器以外的其它设备。所述其它设备可以获取数据集的属性信息;可以向服务器发送所述数据集的属性信息。所述服务器可以接收所述数据集的属性信息。
步骤S22:将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值。
在一些实施例中,所述服务器可以将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值。所述推荐模型可以基于图1所对应的实施例得到。
步骤S24:根据拟合参数的取值,确定与所述数据集对应的能够拟合激励函数的拟合函数,所述拟合函数用于代替激励函数构建业务模型。
在一些实施例中,所述服务器可以根据拟合参数的取值确定拟合区间;可以在拟合区间中进行采样,得到采样数据;可以根据采样数据,确定能够拟合激励函数的拟合函数。
在一些场景示例中,所述拟合函数可以包括傅立叶级数。所述拟合参数可以包括以下至少一种:第一参数、第二参数。所述第一参数用于表示傅立叶级数的展开阶数。所述第二参数用于表示傅立叶级数的拟合区间。所述服务器可以在第二参数表示的拟合区间中进行采样,得到采样数据;可以根据采样数据和第一参数表示的展开阶数,确定傅立叶系数的取值;可以根据傅立叶系数的取值,构建傅立叶级数。其中,所述服务器可以在拟合区间中进行采样,得到多个采样数据;可以将所述多个采样数据输入至激励函数,得到所述多个采样数据对应的函数值;可以根据所述多个采样数据、所述多个采样数据对应的函数值、以及傅立叶级数的展开阶数,计算傅立叶系数的取值。
例如,所述激励函数可以包括Sigmoid函数。用于对Sigmoid函数进行拟合的傅立叶级数可以表示为所述第一参数m=6。所述第二参数M=16。傅立叶系数a0=0.5。傅立叶系数傅立叶系数傅立叶系数傅立叶系数傅立叶系数所述傅立叶级数的拟合效果可以如图3所示。
在一些场景示例中,所述拟合函数可以包括多项式。所述拟合参数可以包括以下至少一种:第三参数、第四参数。所述第三参数用于表示多项式的次数。所述第四参数用于表示多项式的拟合区间。所述服务器可以在第四参数表示的拟合区间中进行采样,得到采样数据;可以根据采样数据和第三参数表示的次数,确定待定系数的取值;可以根据待定系数的取值,构建多项式。其中,所述服务器可以在拟合区间中进行采样,得到多个采样数据;可以将所述多个采样数据输入至激励函数,得到所述多个采样数据对应的函数值;可以根据所述多个采样数据、所述多个采样数据对应的函数值、以及多项式的次数,计算待定系数的取值。
本说明书实施例的拟合方法,可以获取数据集的属性信息;可以将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值;可以根据拟合参数的取值,确定能够拟合激励函数的拟合函数。这样通过推荐模型,可以获得与数据集对应的拟合函数。所述拟合函数可以包括多个函数项的线性组合。在使用拟合函数代替激励函数构建业务模型以后,可以采用秘密分享算法对基于拟合函数构建的业务模型进行训练。
本说明书还提供了一种推荐模型的训练装置。
所述推荐模型用于推荐拟合参数的取值,所述拟合参数用于确定能够拟合激励函数的拟合函数。所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型。
请参阅图4。所述装置可以应用于服务器,具体可以包括以下单元。
获取单元30,用于获取数据集的属性信息;
确定单元32,用于根据所述数据集,确定拟合参数的取值;
构建单元34,用于根据属性信息和拟合参数的取值,构建训练样本;
训练单元36,用于根据训练样本,对所述推荐模型进行训练。
本说明书还提供了一种拟合装置。
请参阅图5。所述装置可以应用于服务器,具体可以包括以下单元。
获取单元40,用于获取数据集的属性信息;
输入单元42,用于将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值;
确定单元44,用于根据拟合参数的取值,确定与所述数据集对应的能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型。
请参阅图6。本说明书实施例还提供一种电子设备。
所述电子设备可以包括存储器和处理器。
在本实施例中,所述存储器包括但不限于动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)和静态随机存取存储器(Static Random Access Memory,SRAM)等。所述存储器可以用于存储计算机指令。
在本实施例中,所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以用于执行所述计算机指令以实现图1或者图2所对应的实施例。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (12)
1.一种推荐模型的训练方法,应用于安全多方计算领域,所述推荐模型用于推荐拟合参数的取值,所述拟合参数用于确定能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型,以便第一方根据第一训练样本的特征数据、第二方根据第一训练样本的标签,采用秘密分享算法联合训练业务模型;所述方法包括:
获取数据集的属性信息;
根据所述数据集,确定拟合参数的取值;
根据属性信息和拟合参数的取值,构建第二训练样本;
根据第二训练样本,对所述推荐模型进行训练;
其中,所述采用秘密分享算法联合训练业务模型,包括:
第一方接收第三方发送的参数U和参数Z1,第二方接收第三方发送的参数V和参数Z2,Z1+Z2=UV;第一方根据参数U、参数Z1以及第一训练样本的特征数据,第二方根据参数V、参数Z2以及第一训练样本的标签,采用秘密分享算法计算所述业务模型中的拟合函数。
2.如权利要求1所述的方法,所述拟合函数包括傅立叶级数;
所述拟合参数包括以下至少一种:第一参数、第二参数;所述第一参数用于表示傅立叶级数的展开阶数,所述第二参数用于表示傅立叶级数的拟合区间。
3.如权利要求1所述的方法,所述数据集包括至少一个数据,每个所述数据包括在至少一种特征维度下的子数据;所述属性信息包括以下至少一种:
特征维度的种类数;
特征维度下的子数据的最值;
特征维度下的子数据的第一指标,所述第一指标用于表示子数据的集中趋势;
特征维度下的子数据的第二指标,所述第二指标用于表示子数据的离散程度。
4.如权利要求1所述的方法,所述确定拟合参数的取值,包括:
根据所述数据集,确定各拟合参数的多个可能取值;
将各拟合参数的可能取值进行组合,得到多个拟合参数取值组;
根据多个拟合参数取值组,确定多个拟合函数;
从多个拟合函数中选取拟合效果较优的目标拟合函数;
确定目标拟合函数对应的拟合参数取值组。
5.如权利要求1所述的方法,所述构建第二训练样本,包括:
以属性信息为特征数据,以拟合参数的取值为标签,根据特征数据和标签构建第二训练样本。
6.一种拟合方法,应用于安全多方计算领域,所述方法由第一方执行,所述第一方持有训练样本的特征数据,所述方法包括:
获取特征集的属性信息,所述特征集中包括所述训练样本的特征数据;
将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值;
根据拟合参数的取值,确定与所述特征集对应的能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型,以便第一方根据所述特征集、第二方根据所述训练样本的标签,采用秘密分享算法联合训练所述业务模型;
其中,所述采用秘密分享算法联合训练业务模型,包括:
第一方接收第三方发送的参数U和参数Z1,第二方接收第三方发送的参数V和参数Z2,Z1+Z2=UV;第一方根据参数U、参数Z1以及第一训练样本的特征数据,第二方根据参数V、参数Z2以及第一训练样本的标签,采用秘密分享算法计算所述业务模型中的拟合函数。
7.如权利要求6所述的方法,所述特征集包括至少一个数据,每个所述数据包括在至少一种特征维度下的子数据;所述属性信息包括以下至少一种:
特征维度的种类数;
特征维度下的子数据的最值;
特征维度下的子数据的第一指标,所述第一指标用于表示子数据的集中趋势;
特征维度下的子数据的第二指标,所述第二指标用于表示子数据的离散程度。
8.如权利要求6所述的方法,所述拟合函数包括傅立叶级数;所述拟合参数包括以下至少一种:第一参数、第二参数;所述第一参数用于表示傅立叶级数的展开阶数,所述第二参数用于表示傅立叶级数的拟合区间。
9.如权利要求8所述的方法,所述确定能够拟合激励函数的拟合函数,包括:
在拟合区间中进行采样,得到采样数据;
根据采样数据和傅立叶级数的展开阶数,确定傅立叶系数的取值;
根据傅立叶系数的取值,构建傅立叶级数。
10.一种推荐模型的训练装置,应用于安全多方计算领域,所述推荐模型用于推荐拟合参数的取值,所述拟合参数用于确定能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型,以便第一方根据第一训练样本的特征数据、第二方根据第一训练样本的标签,采用秘密分享算法联合训练业务模型;所述装置包括:
获取单元,用于获取数据集的属性信息;
确定单元,用于根据所述数据集,确定拟合参数的取值;
构建单元,用于根据属性信息和拟合参数的取值,构建第二训练样本;
训练单元,用于根据第二训练样本,对所述推荐模型进行训练;
其中,所述采用秘密分享算法联合训练业务模型,包括:
第一方接收第三方发送的参数U和参数Z1,第二方接收第三方发送的参数V和参数Z2,Z1+Z2=UV;第一方根据参数U、参数Z1以及第一训练样本的特征数据,第二方根据参数V、参数Z2以及第一训练样本的标签,采用秘密分享算法计算所述业务模型中的拟合函数。
11.一种拟合装置,应用于安全多方计算领域,所述装置设置于第一方,所述第一方持有训练样本的特征数据,所述装置包括:
获取单元,用于获取特征集的属性信息;
输入单元,用于将属性信息输入至推荐模型,得到推荐模型推荐的拟合参数的取值;
确定单元,用于根据拟合参数的取值,确定与所述特征集对应的能够拟合激励函数的拟合函数;所述拟合函数包括多个函数项的线性组合,用于代替激励函数构建业务模型,以便第一方根据所述特征集、第二方根据所述训练样本的标签,采用秘密分享算法联合训练所述业务模型;其中,所述采用秘密分享算法联合训练业务模型,包括:
第一方接收第三方发送的参数U和参数Z1,第二方接收第三方发送的参数V和参数Z2,Z1+Z2=UV;第一方根据参数U、参数Z1以及第一训练样本的特征数据,第二方根据参数V、参数Z2以及第一训练样本的标签,采用秘密分享算法计算所述业务模型中的拟合函数。
12.一种电子设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-9中任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110250663.9A CN113111254B (zh) | 2021-03-08 | 2021-03-08 | 推荐模型的训练方法、拟合方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110250663.9A CN113111254B (zh) | 2021-03-08 | 2021-03-08 | 推荐模型的训练方法、拟合方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111254A CN113111254A (zh) | 2021-07-13 |
CN113111254B true CN113111254B (zh) | 2023-04-07 |
Family
ID=76711585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110250663.9A Active CN113111254B (zh) | 2021-03-08 | 2021-03-08 | 推荐模型的训练方法、拟合方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111254B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506414A (zh) * | 2017-08-11 | 2017-12-22 | 武汉大学 | 一种基于长短期记忆网络的代码推荐方法 |
CN110297848A (zh) * | 2019-07-09 | 2019-10-01 | 深圳前海微众银行股份有限公司 | 基于联邦学习的推荐模型训练方法、终端及存储介质 |
CN110580409A (zh) * | 2019-08-09 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 模型参数确定方法、装置和电子设备 |
CN111914077A (zh) * | 2020-08-06 | 2020-11-10 | 平安科技(深圳)有限公司 | 定制化话术推荐方法、装置、计算机设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8302204B2 (en) * | 2008-07-30 | 2012-10-30 | Sap Ag | Secure distributed item-level discovery service using secret sharing |
US10803184B2 (en) * | 2019-08-09 | 2020-10-13 | Alibaba Group Holding Limited | Generation of a model parameter |
-
2021
- 2021-03-08 CN CN202110250663.9A patent/CN113111254B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506414A (zh) * | 2017-08-11 | 2017-12-22 | 武汉大学 | 一种基于长短期记忆网络的代码推荐方法 |
CN110297848A (zh) * | 2019-07-09 | 2019-10-01 | 深圳前海微众银行股份有限公司 | 基于联邦学习的推荐模型训练方法、终端及存储介质 |
CN110580409A (zh) * | 2019-08-09 | 2019-12-17 | 阿里巴巴集团控股有限公司 | 模型参数确定方法、装置和电子设备 |
CN111914077A (zh) * | 2020-08-06 | 2020-11-10 | 平安科技(深圳)有限公司 | 定制化话术推荐方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113111254A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457912B (zh) | 数据处理方法、装置和电子设备 | |
US11836576B2 (en) | Distributed machine learning at edge nodes | |
CN113221183B (zh) | 实现隐私保护的多方协同更新模型的方法、装置及系统 | |
US9348857B2 (en) | Probabilistically finding the connected components of an undirected graph | |
US11176469B2 (en) | Model training methods, apparatuses, and systems | |
CN110457936B (zh) | 数据交互方法、装置和电子设备 | |
CN108780521B (zh) | 关联长短期记忆神经网络层 | |
CN111144576A (zh) | 模型训练方法、装置和电子设备 | |
CN110688528A (zh) | 生成视频的分类信息的方法、装置、电子设备和介质 | |
CN110263294A (zh) | 损失函数取值的确定方法、装置和电子设备 | |
CN114493674A (zh) | 一种广告点击率预测模型及方法 | |
CN112507323A (zh) | 基于单向网络的模型训练方法、装置和计算设备 | |
CN108985770A (zh) | 模型训练方法、特征序列生成方法和服务器 | |
CN113111254B (zh) | 推荐模型的训练方法、拟合方法、装置和电子设备 | |
US20150356132A1 (en) | Methods And Systems For Processing Data | |
CN116720214A (zh) | 一种用于隐私保护的模型训练方法及装置 | |
US20150170068A1 (en) | Determining analysis recommendations based on data analysis context | |
CN112511361B (zh) | 模型训练方法、装置和计算设备 | |
CN111475618B (zh) | 用于生成信息的方法和装置 | |
Batiuk et al. | Intelligent System for Socialization of Individual's with Shared Interests based on NLP, Machine Learning and SEO Technologies. | |
CN117974188B (zh) | 数据集获取方法、装置、电子设备和计算机可读介质 | |
Jeno | Federated Learning with Python: Design and implement a federated learning system and develop applications using existing frameworks | |
CN113052323B (zh) | 基于联邦学习的模型训练方法、装置和电子设备 | |
Chi et al. | Going off the grid: Iterative model selection for biclustered matrix completion | |
CN115131161A (zh) | 意见领袖识别方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240929 Address after: Room 302, 3rd Floor, Building 1, Yard 1, Danling Street, Haidian District, Beijing, 100080 Patentee after: Sasi Digital Technology (Beijing) Co.,Ltd. Country or region after: China Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province Patentee before: Alipay (Hangzhou) Information Technology Co.,Ltd. Country or region before: China |