CN111967615A

CN111967615A - 基于特征抽取的多模型训练方法及系统、电子设备和介质

Info

Publication number: CN111967615A
Application number: CN202011025657.5A
Authority: CN
Inventors: 周洋杰; 陈亮辉; 方军; 付琰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-11-20
Anticipated expiration: 2040-09-25
Also published as: JP7095140B2; US20210234687A1; KR20220041704A; CN111967615B; EP3975089A1; JP2021121922A

Abstract

本公开提供一种基于特征抽取的多模型训练方法及系统、电子设备和介质，涉及云平台、深度学习技术领域。根据本公开一个方面，基于联邦特征抽取的多模型训练方法包括：基于与多个合作方分别共同的用户样本的数据、分别与每一个合作方合作训练树模型；对训练的树模型进行特征重要性评估，以对每一个树模型生成的特征列赋予相应的权重；响应于第一合作方训练线性模型，将与第一合作方共同的第一用户样本的数据输入到与第一合作方相对应的树模型以及与第二合作方相对应的树模型中，以得到多个独热编码的特征列；以及基于权重对所得到的特征列进行筛选，以根据筛选后的特征列和第一用户样本的数据训练与第一合作方相对应的线性模型。

Description

基于特征抽取的多模型训练方法及系统、电子设备和介质

技术领域

本公开涉及云平台、深度学习技术领域，特别涉及基于特征抽取的多模型训练方法及系统、电子设备和介质。

背景技术

近年来，机器学习技术得到飞速的发展，在信息识别、推荐引擎、金融信贷等领域都取得了出色的应用效果，大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性。在通过推荐引擎进行广告业务的投放时，为丰富训练数据的多样性，人们希望能够融合多方企业间的数据进行推荐引擎的训练。但由于各企业间存在业务差异，其数据也体现了不同的业务特性。因此，如何实现相关数据的自动筛选以充分丰富训练数据的多样性成为了技术关键。另外，如今随着国内外数据监管以及公众隐私保护的逐步加强，在数据保密上也阻碍着不少企业之间的数据合作。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一个方面，提供了一种基于联邦特征抽取的多模型训练方法，包括：训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个合作方合作训练出的，其中与每一个合作方的数据传输均以加密的形式进行；对训练的树模型进行特征重要性评估，以对每一个树模型生成的特征列赋予相应的权重；响应于第一合作方训练线性模型，将与第一合作方共同的第一用户样本的数据输入到述第一合作方相对应的树模型以及与第二合作方相对应的树模型中，以得到多个独热编码的特征列，其中第二合作方为多个合作方中除该第一合作方之外的其他一个或多个合作方；以及基于所述权重对所得到的特征列进行筛选，以根据筛选后的特征列和第一用户样本的数据训练与第一合作方相对应的线性模型。

根据本公开的另一个方面，提供了一种基于联邦特征抽取的多模型训练设备，包括：树模型训练单元，配置为训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的，其中与每一个合作方的数据传输均以加密的形式进行；重要性评估单元，配置为对训练的树模型进行特征重要性评估，以对每一个树模型生成的特征列赋予相应的权重；特征抽取单元，配置为响应于第一合作方训练线性模型，将与第一合作方共同的第一用户样本的数据输入到与第一合作方相对应的树模型以及与第二合作方相对应的树模型中，以得到多个独热编码的特征列，其中第二合作方为多个合作方中除该第一合作方之外的其他一个或多个合作方；以及线性模型训练单元，配置为基于所述权重对所得到的特征列进行筛选，以基于筛选后的特征列以及第一用户样本的数据训练与第一合作方相对应的线性模型。

根据本公开的另一个方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行本公开中所述的基于联邦特征抽取的多模型训练方法。

根据本公开的另一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由电子设备的处理器执行时，致使电子设备执行本公开中所述的基于联邦特征抽取的多模型训练方法。

根据本公开的一个方面，该基于联邦特征抽取的多模型训练方法，基于联邦学习有效融合了多个合作方的特征数据，并有效实现了交叉特征的筛选。

根据在下文中所描述的实施例，本公开的这些和其它方面将是清楚明白的，并且将参考在下文中所描述的实施例而被阐明。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出示例性实施例的基于联邦特征抽取的多模型训练方法的场景示意图；

图2是示出示例性实施例的基于联邦特征抽取的多模型训练方法的流程图；

图3是示出示例性实施例的基于联邦特征抽取的多模型训练的示意图；

图4是示出示例性实施例的基于联邦特征抽取的多模型训练设备的示意图；以及

图5是示出能够应用于示例性实施例的示例性计算设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

在推荐引擎的场景下，需综合利用用户的行为、属性，对象的属性、内容、分类，以及用户之间的社交关系等等，挖掘用户的喜好和需求，主动向用户推荐其感兴趣或者需要的对象。能够加以利用的用户数据的丰富性和多样性也决定了该推荐引擎的推荐效果。具体地，在例如广告推荐场景中，随着互联网广告行业的蓬勃发展，广告主对相应指标的要求也水涨船高。在其投放的主体公司仅有与自身业务相关的数据或仅有相关推荐结果情况下，广告的点击率(CTR)、转化率等难以得到有效提升。如何在满足数据保密要求的条件下，有效综合多合作方的交叉特征以训练相关模型成为提高点击率(CTR)、转化率等的关键。

联邦建模实现在数据不出本地的情况下，同时完成参与方内部的特征交叉和参与方相互之间的特征交叉。联邦学习在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算结点之间开展高效率的机器学习。

如图1所示，协调方可以与多个合作方A、B、C等多个合作方基于其共有用户的行为数据进行合作训练，以相互利用自身和对方数据训练出的广告推荐模型进行广告业务的推荐。鉴于广告业务多种多样，虽然已经在原本的基于自身数据进行广告推荐模型训练的基础上增加了与协调方这个合作者以利用双方数据合作训练模型，但实际上基于双方的数据也渐渐不能满足广告主对于相应指标逐渐上涨的要求。

进一步地，例如百度作为全球最大的中文搜索引擎，很多平台可能寻求与其进行数据的合作，因此其也就具备了担任协调方的能力。作为协调方的平台可以利用其与多个合作方平台进行数据合作的优势，促成多方数据的融合，以基于更加全面的数据进一步提高广告的点击率(CTR)、转化率等，同时保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规。但是其多个合作方之间可能由于其业务的相似性与差异性，可能并不适合将其输出的全部特征数据用于模型训练，这有可能不但不能达到预期的提高点击率，反而会适得其反。

推荐场景中由于特征维度过高，通常会使用线性模型进行学习训练，以重复利用全量数据集的作用，然而线性模型无法捕捉非线性信息，需要大量的工程实验进行特征组合，发现有效交叉信息。考虑使用树模型作为一种特征抽取的方式，将连续特征集进行离散化，同时补充特征间的交叉信息。

因此，根据本公开的一个方面，提供了一种基于联邦特征抽取的多模型训练方法，如图2所示，该方法包括：训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个合作方合作训练出的，其中与每一个合作方的数据传输均以加密的形式进行(步骤210)；对训练的树模型进行特征重要性评估，以对每一个树模型生成的特征列赋予相应的权重(步骤220)；响应于第一合作方训练线性模型，将与第一合作方共同的第一用户样本的数据输入到述第一合作方相对应的树模型以及与第二合作方相对应的树模型中，以得到多个独热编码的特征列，其中第二合作方为多个合作方中除该第一合作方之外的其他一个或多个合作方(步骤230)；以及基于所述权重对所得到的特征列进行筛选，以根据筛选后的特征列和第一用户样本的数据训练与第一合作方相对应的线性模型(步骤240)。

根据一些实施例，共同的用户样本的数据包括：用户样本是否点击广告的标签数据以及该用户样本的在双方的行为数据。

在一些示例中，特征对目标变量预测的相对重要性，例如可以通过决策树中使用特征作为决策节点的相对顺序来评估。决策树顶部使用的特征，将对更多样本的最终预测决策做出贡献。因此，可以通过每个特征对最终预测做出贡献的样本比例，来评估该特征的重要性。在XGBoost树模型的示例中，特征重要性得分feature_importances_求得每个特征对应分数，即权重。

根据一些实施例，在步骤210中，训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的，其中与每一个所述合作方的数据传输均以加密的形式进行，其中包括：接收所述多个合作方基于加密算法各自生成的公钥，以基于相应的公钥加密需要传输的数据；接收所述合作方基于其生成的公钥加密后的导数，以计算对应分箱下的梯度和；以及将所述梯度和传输到所述合作方，使得所述合作方通过基于所述加密算法生成的私钥解密所述梯度和，以训练双方的树模型。

考虑安全隐私，如果直接将数据给到对方，存在信息泄露问题、价值流失等问题。因此，在训练过程中不存在中间结果的直接传输，而是仅在加密空间下进行计算，不存在用户数据泄露的风险。

根据一些实施例，所述加密算法包括以下中的一个：RSA算法、Pailler算法。应当理解，适于本公开的其他加密算法也是可能的，在此不作限制。

在一些示例中，作为协调方的平台与每一个合作方均合作训练一个树模型，例如：协调方基于其与合作者A之间的共同的用户样本数据合作训练树模型，其中该训练过程包括：

由训练发起者(例如为合作方A)基于加密算法初始化公钥和私钥，私钥留在本地用于解密，公钥可以发送到数据提供方(例如协调方)，以使得合作方按照相同加密算法对要传输的数据进行加密，这样数据训练者接收到数据后就可用私钥进行解密。由训练发起者计算其共同样本是否点击某广告的标签数据的一阶导数[[g_i]]和二阶导数[[h_i]]；将对应样本ID及对应加密后的导数结果发至数据提供方，由数据提供方遍历每个特征计算对应分箱下的梯度和[[G_i]]＝[[g_i]]和[[H_i]]＝[[h_i]]，并将结果返回给训练发起者。训练发起者将梯度和解密后，计算各特征下的增益大小，取最大增益的特征作为划分节点，记录在训练发起者服务器。训练直至损失波动小于一定阈值或预定的迭代次数到达，则可停止训练，此时在训练发起方(例如为合作方A)和数据提供方(例如协调方)上均训练出了一个基于上方用户数据的树模型。类似地，合作方B、C、D等与协调方之间的树模型的训练过程也如上所述，在此不再赘述。

分箱也可称为分桶，主要包括等频分箱、等距分箱、聚类分箱等，其中聚类分箱包括Kmeans聚类和DBSCAN聚类，将离群点单独聚为一类，可解决部分特征存在异常值的情况，如可能有用户数据填写不真实如年龄写200岁等情况。在一些示例中，收入是一种特征，不同的收入值是具体的特征数据，要对收入进行分箱，可以对各个收入值进行划分，选取一个或多个收入值作为分位点，将收入划分为多个分箱，选取月收入10000元、20000元作为分位点，将收入划分为分为三个分箱：收入_0(月大于20000)：高收入；收入_1(月收入为10000-20000)：中等收入；收入_2(月收入小于10000)：低收入。

在完成联邦树模型训练之后，将用户行为数据集进行遍历以生成对应用户在树模型上抽取的独热特征向量，需注意的是该模型需被存储于合作双方。因此生成的独热特征也将被分为两部分存储于各自双方。独热编码即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。

在此基础上，将该独热特征与本地数据进行拼接，充分利用线性模型对稀疏数据训练的优越性及抽取的交叉特征的信息。

在协调方上已经存储了与多个合作方分别合作训练出的多个树模型之后，则可利用该多个树模型经特征抽取后、综合多个合作方的数据优势训练具有广告业务需求的某一合作方(例如合作方A)所需的线性模型，由此训练处综合多方数据的广告推荐模型，以适应丰富多样的广告业务需求。

如图3所示，将合作方A本地的标签数据以及合作方A与协调方的用户行为数据将通过数据格式化和样本对齐后输入到协调方上存储的多个树模型中。数据格式化主要包括提取转换加载(ETL)过程，根据自定义逻辑将部分时序数据进行统计转化，指定离散化数据进行编码转化等操作。样本对齐是将合作方与协调方上的用户样本进行对齐，一般为基于MD5加密后的手机号匹配确认覆盖，当然应当理解，其他对齐方式也是可能的，例如加密后的邮箱等。协调方上的树模型即作为多个特征抽取器(A/B/C等)，将该多个树模型输出的特征列经独热编码后进行共线性和重要性评分筛选，将筛选后的特征列与原始用户行为数据作为输入共同训练协调方与合作方A的线性模型，以训练出综合多方数据特征的用于合作方A的广告推荐模型。

根据一些实施例，在步骤240中，基于所述权重对所得到的特征列进行筛选，以根据所述筛选后的特征列和所述第一用户样本的数据训练与所述第一合作方相对应的线性模型，其中包括：选择通过与所述第一合作方相对应的树模型所得到的特征列，以将所述选择的特征列与所述第一用户样本的数据组成第一数据集；对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集；以及基于所述第二数据集训练与所述第一合作方相对应的线性模型。

根据一些实施例，对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集包括：将通过与所述第二合作方相对应的树模型所得到的特征列中过滤掉其权重小于第一阈值的特征列，以得到第一剩余特征列；将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析；确定其相关系数大于第二阈值的所有特征列对，以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列；以及选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列，以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。

根据一些实施例，对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集包括：分别设定与所述第二合作方相对应的树模型的各自的权重阈值；将通过与所述第二合作方相对应的树模型所得到的特征列根据其各自的权重阈值进行过滤，以过滤掉其权重小于其相应权重阈值的特征列，从而得到第一剩余特征列；将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析；确定其相关系数大于第二阈值的所有特征列对，以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列；以及选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列，以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。

在一些示例中，对通过与第二合作方相对应的树模型所得到的特征列进行筛选，也即对协调方与合作方B、C等合作训练的树模型输出的特征列进行筛选。输出的各特征列存在对应的重要性评分，即上面所述权重，通过工程师自定义权重阈值进行筛选；同时当筛选出的重要性评分靠前的特征列对间存在共线性(即相关性)较大的情况时，忽略该特征列对中重要性评分靠后的特征列。如图3所示，将筛选出的特征列以及合作方A与协调方之间的共同用户样本数据拼接后在协调方和合作方A之间合作训练线性模型。

通过特征列的筛选，有效利用了多个合作方的用户特征，同时又提高了数据的有效性，兼容了多方训练数据的交叉信息，为算法研发工程人员提供了快速高效的优化手段。

根据一些实施例，所述树模型包括以下中的一个：XGBoost模型、LightGBM模型。

根据一些实施例，所述线性模型包括以下中的一个：逻辑回归LR模型、泊松PR模型。

在一些示例中，广告推荐模型优选XGBoost模型和逻辑回归LR模型。

根据本发明的另一个方面，提供一种基于联邦特征抽取的多模型训练设备400，包括：树模型训练单元410，配置为训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的，其中与每一个所述合作方的数据传输均以加密的形式进行；重要性评估单元420，配置为对所述训练的树模型进行特征重要性评估，以对每一个树模型生成的特征列赋予相应的权重；特征抽取单元430，配置为响应于第一合作方训练线性模型，将与所述第一合作方共同的第一用户样本的数据输入到与所述第一合作方相对应的树模型以及与第二合作方相对应的树模型中，以得到多个独热编码的特征列，其中所述第二合作方为所述多个合作方中除所述第一合作方之外的其他一个或多个合作方；以及线性模型训练单元440，配置为基于所述权重对所得到的特征列进行筛选，以基于所述筛选后的特征列以及所述第一用户样本的数据训练与所述第一合作方相对应的线性模型。

根据一些实施例，所述树模型训练单元410配置为：接收所述多个合作方基于加密算法各自生成的公钥，以基于相应的公钥加密需要传输的数据；接收所述合作方基于其生成的公钥加密后的导数，以计算对应分箱下的梯度和；以及将所述梯度和传输到所述合作方，使得所述合作方通过基于所述加密算法生成的私钥解密所述梯度和，以训练双方的树模型。

根据一些实施例，所述线性模型训练单元440配置为：选择通过与所述第一合作方相对应的树模型所得到的特征列，以将所述选择的特征列与所述第一用户样本的数据组成第一数据集；对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集；以及基于所述第二数据集训练与所述第一合作方相对应的线性模型。

根据一些实施例，对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集包括分别设定与所述第二合作方相对应的树模型的各自的权重阈值；将通过与所述第二合作方相对应的树模型所得到的特征列根据其各自的权重阈值进行过滤，以过滤掉其权重小于其相应权重阈值的特征列，从而得到第一剩余特征列；将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析；确定其相关系数大于第二阈值的所有特征列对，以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列；以及选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列，以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。

根据一些实施例，所述加密算法包括以下中的一个：RSA算法、Pailler算法。

根据一些实施例，所述共同的用户样本的数据包括：所述用户样本是否点击广告的标签数据以及所述用户样本的行为数据。

这里，自定义任务排序设备400的上述各单元410～440的操作分别与前面描述的步骤210～240的操作类似，在此不再赘述。

根据本公开的另一方面，还提供一种电子设备，包括：处理器；以及存储程序的存储器，该程序包括指令，该指令在由处理器执行时使处理器执行上述的基于联邦特征抽取的多模型训练方法。

根据本公开的另一个方面，提供了一种存储程序的计算机可读存储介质，该程序包括指令，该指令在由电子设备的处理器执行时，致使电子设备执上述的基于联邦特征抽取的多模型训练方法。

参见图5所示，现将描述计算设备2000，其是可以应用于本公开的各方面的硬件设备(电子设备)的示例。计算设备2000可以是被配置为执行处理和/或计算的任何机器，可以是但不限于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数字助理、机器人、智能电话、车载计算机或其任何组合。上述基于联邦特征抽取的多模型训练方法可以各自全部或至少部分地由计算设备2000或类似设备或系统实现。

计算设备2000可以包括(可能经由一个或多个接口)与总线2002连接或与总线2002通信的元件。例如，计算设备2000可以包括总线2002、一个或多个处理器2004、一个或多个输入设备2006以及一个或多个输出设备2008。一个或多个处理器2004可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。输入设备2006可以是能向计算设备2000输入信息的任何类型的设备，并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或遥控器。输出设备2008可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。计算设备2000还可以包括非暂时性存储设备2010或者与非暂时性存储设备2010连接，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。非暂时性存储设备2010可以从接口拆卸。非暂时性存储设备2010可以具有用于实现上述方法和步骤的数据/程序(包括指令)/代码。计算设备2000还可以包括通信设备2012。通信设备2012可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算设备2000还可以包括工作存储器2014，其可以是可以存储对处理器2004的工作有用的程序(包括指令)和/或数据的任何类型的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。

软件要素(程序)可以位于工作存储器2014中，包括但不限于操作系统2016、一个或多个应用程序2018、驱动程序和/或其他数据和代码。用于执行上述方法和步骤的指令可以被包括在一个或多个应用程序2018中，并且上述基于联邦特征抽取的多模型训练方法可以各自通过由处理器2004读取和执行一个或多个应用程序2018的指令来实现。更具体地，上述基于联邦特征抽取的多模型训练方法中，步骤210～步骤240可以例如通过处理器2004执行具有步骤210～步骤240的指令的应用程序2018而实现。此外，上述基于联邦特征抽取的多模型训练方法中的其它步骤可以例如通过处理器2004执行具有执行相应步骤中的指令的应用程序2018而实现。软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如上述存储设备2010)中，并且在执行时可以被存入工作存储器2014中(可能被编译和/或安装)。软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现特定元件。例如，所公开的方法和设备中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

还应该理解，计算设备2000的组件可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。计算系统2000的其他组件也可以类似地分布。这样，计算设备2000可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种基于联邦特征抽取的多模型训练方法，包括：

训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的，其中与每一个所述合作方的数据传输均以加密的形式进行；

对所述训练的树模型进行特征重要性评估，以对每一个树模型生成的特征列赋予相应的权重；

响应于第一合作方训练线性模型，将与所述第一合作方共同的第一用户样本的数据输入到与所述第一合作方相对应的树模型以及与第二合作方相对应的树模型中，以得到多个独热编码的特征列，其中所述第二合作方为所述多个合作方中除所述第一合作方之外的其他一个或多个合作方；以及

基于所述权重对所得到的特征列进行筛选，以根据所述筛选后的特征列和所述第一用户样本的数据训练与所述第一合作方相对应的线性模型。

2.如权利要求1所述的方法，训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的，其中与每一个所述合作方的数据传输均以加密的形式进行包括：

接收所述多个合作方基于加密算法各自生成的公钥，以基于相应的公钥加密需要传输的数据；

接收所述合作方基于其生成的公钥加密后的导数，以计算对应分箱下的梯度和；以及

将所述梯度和传输到所述合作方，使得所述合作方通过基于所述加密算法生成的私钥解密所述梯度和，以训练双方的树模型。

3.如权利要求1所述的方法，基于所述权重对所得到的特征列进行筛选，以根据所述筛选后的特征列和所述第一用户样本的数据训练与所述第一合作方相对应的线性模型包括：

选择通过与所述第一合作方相对应的树模型所得到的特征列，以将所述选择的特征列与所述第一用户样本的数据组成第一数据集；

对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集；以及

基于所述第二数据集训练与所述第一合作方相对应的线性模型。

4.如权利要求3所述的方法，对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集包括：

将通过与所述第二合作方相对应的树模型所得到的特征列中过滤掉其权重小于第一阈值的特征列，以得到第一剩余特征列；

将所述第一剩余特征列中的两两特征列组成的特征列对进行相关性分析；

确定其相关系数大于第二阈值的所有特征列对，以将其相关系数不大于所述第二阈值的所有特征列对组成第二剩余特征列；以及

选择所述确定的其相关系数大于所述第二阈值的每一个特征列对中的权重值较大的特征列，以将所述选择的特征列与所述第二剩余特征列作为所述筛选的特征列。

5.如权利要求3所述的方法，对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集包括：

分别设定与所述第二合作方相对应的树模型的各自的权重阈值；

将通过与所述第二合作方相对应的树模型所得到的特征列根据其各自的权重阈值进行过滤，以过滤掉其权重小于其相应权重阈值的特征列，从而得到第一剩余特征列；

6.如权利要求2所述的方法，其中，所述加密算法包括以下中的一个：RSA算法、Pailler算法。

7.如权利要求1所述的方法，所述树模型包括以下中的一个：XGBoost模型、LightGBM模型。

8.如权利要求1所述的方法，所述线性模型包括以下中的一个：逻辑回归LR模型、泊松PR模型。

9.如权利要求1所述的方法，所述共同的用户样本的数据包括：所述用户样本是否点击广告的标签数据以及所述用户样本的行为数据。

10.一种基于联邦特征抽取的多模型训练设备，包括：

树模型训练单元，配置为训练树模型，该树模型是基于与多个合作方分别共同的用户样本的数据、分别与每一个所述合作方合作训练出的，其中与每一个所述合作方的数据传输均以加密的形式进行；

重要性评估单元，配置为对所述训练的树模型进行特征重要性评估，以对每一个树模型生成的特征列赋予相应的权重；

特征抽取单元，配置为响应于第一合作方训练线性模型，将与所述第一合作方共同的第一用户样本的数据输入到与所述第一合作方相对应的树模型以及与第二合作方相对应的树模型中，以得到多个独热编码的特征列，其中所述第二合作方为所述多个合作方中除所述第一合作方之外的其他一个或多个合作方；以及

线性模型训练单元，配置为基于所述权重对所得到的特征列进行筛选，以基于所述筛选后的特征列以及所述第一用户样本的数据训练与所述第一合作方相对应的线性模型。

11.如权利要求10所述的设备，所述树模型训练单元配置为：

12.如权利要求10所述的设备，所述线性模型训练单元配置为：

13.如权利要求12所述的设备，对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集包括：

14.如权利要求12所述的设备，对通过与所述第二合作方相对应的树模型所得到的特征列进行筛选，以将所述筛选的特征列与所述第一数据集组成第二数据集包括：

15.如权利要求11所述的设备，其中，所述加密算法包括以下中的一个：RSA算法、Pailler算法。

16.如权利要求10所述的设备，所述树模型包括以下中的一个：XGBoost模型、LightGBM模型。

17.如权利要求10所述的设备，所述线性模型包括以下中的一个：逻辑回归LR模型、泊松PR模型。

18.如权利要求10所述的设备，所述共同的用户样本的数据包括：所述用户样本是否点击广告的标签数据以及所述用户样本的行为数据。

19.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。

20.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-9中任一项所述的方法。