CN112508199A

CN112508199A - 针对跨特征联邦学习的特征选择方法、装置及相关设备

Info

Publication number: CN112508199A
Application number: CN202011377391.0A
Authority: CN
Inventors: 张宇; 孟丹; 李宏宇; 李晓林
Original assignee: Tongdun Holdings Co Ltd
Current assignee: Tongdun Holdings Co Ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-03-16
Anticipated expiration: 2040-11-30
Also published as: CN112508199B

Abstract

本公开实施例提供一种针对跨特征联邦学习的特征选择方法、装置、电子设备及可读介质，该方法包括：确定本地的第一数据集、数据标签和第一数据集的第一内积；与具有第二数据集的第二设备端通信获得第一数据集和第二数据集的第二内积，以及第二数据集的第三内积；搭建线性模型，并根据第一内积、第二内积、第三内积确定线性模型中第一模型参数的解析解和第二模型参数的解析解；根据第一模型参数的解析解和第二模型参数的解析解确定参数的检验统计量；根据第一模型参数和第二模型参数中各参数的检验统计量进行特征选择。本公开实施例提供的技术方案能够考虑组合特征和数据标签的相关关系，显著提升了数据匹配程度，有助于提高知识联邦建模效果。

Description

针对跨特征联邦学习的特征选择方法、装置及相关设备

技术领域

本公开涉及机器学习技术领域，尤其涉及一种针对跨特征联邦学习的特征选择方法、装置、电子设备及计算机可读介质。

背景技术

在传统建模过程中，特征工程是建模的步骤之一，也是决定建模效果好坏的关键因素之一。特征工程中的特征选择，是最常见和最广泛被应用的特征工程手段之一。特征选择的目的是，在数据进入到模型之前，选择合适的特征的组合，以便建模效果无限接近机器学习、深度学习算法的上限。

在知识联邦建模中也无例外，特征选择占有着举足轻重的地位。现有的联邦特征选择实现，由于多方之间数据的隐私性，通常仅从单个特征和标签的相关性的角度进行特征剔除。上述基于单一的数据分析方式的特征选择过程将严重影响知识联邦的建模效果。

因此，需要一种新的针对跨特征联邦学习的特征选择方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开实施例提供一种针对跨特征联邦学习的特征选择方法、装置、电子设备及计算机可读介质，能够考虑组合特征和数据标签的相关关系，显著提升了数据匹配程度，有助于提高知识联邦建模效果。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提出一种针对跨特征联邦学习的特征选择方法，该方法包括：确定本地的第一数据集、数据标签和所述第一数据集的第一内积；与具有第二数据集的第二设备端进行通信获得所述第一数据集和所述第二数据集的第二内积，以及所述第二数据集的第三内积；根据所述第一数据集中各特征对应的第一模型参数、所述第二数据集中各特征对应的第二模型参数和所述数据标签搭建线性模型，并根据所述第一内积、所述第二内积、所述第三内积确定所述线性模型中所述第一模型参数的解析解和所述第二模型参数的解析解；根据所述第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量；根据所述第一模型参数和所述第二模型参数中各参数的检验统计量进行特征选择。

在本公开的一种示例性实施例中，与具有第二数据集的第二设备端进行通信获得所述第一数据集和所述第二数据集的第二内积包括：接收第三方发送的第一随机矩阵和第二随机矩阵；根据所述第一数据集和所述第一随机矩阵确定第一传输矩阵并发送至所述第二设备端；接收所述第二设备端发送的第二传输矩阵、第二目标矩阵和转换矩阵，所述转换矩阵是所述第二设备端根据所述第一传输矩阵、所述第二数据集、以及接收自所述第三方的第三随机矩阵和第四随机矩阵获得，所述第二传输矩阵是所述第二设备端根据所述第二数据集和所述第三随机矩阵获得，所述第一随机矩阵和所述第三随机矩阵的内积等于所述第二随机矩阵和所述第四随机矩阵的和值；根据所述转换矩阵、所述第一随机矩阵、所述第二随机矩阵和所述第二传输矩阵确定第一目标矩阵；根据所述第一目标矩阵和所述第二目标矩阵确定所述第一数据集和所述第二数据集的第二内积。

在本公开的一种示例性实施例中，根据所述第一数据集中各特征对应的第一模型参数、所述第二数据集中各特征对应的第二模型参数和所述数据标签搭建线性模型包括：将所述第一模型参数作为所述第一数据集中各特征的系数、所述第二模型参数作为所述第二数据集中各特征的系数，所述数据标签作为因变量，搭建获得所述线性模型。

在本公开的一种示例性实施例中，根据所述第一内积、所述第二内积、所述第三内积确定所述线性模型中所述第一模型参数的解析解和所述第二模型参数的解析解包括：根据所述第一内积、所述第二内积和所述第三内积确定所述第一数据集和所述第二数据集中各特征之间的相关系数矩阵；根据所述线性模型和所述相关系数矩阵确定所述第一模型参数的解析解和所述第二模型参数的解析解。

在本公开的一种示例性实施例中，根据所述第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量包括：根据所述第一模型参数的解析解和所述第一数据集确定第一特征预测结果；将所述第二模型参数的解析解发送至所述第二设备端；接收所述第二设备响应所述第二模型参数的解析解发送的第二特征预测结果；根据所述第一特征预测结果和所述第二特征预测结果确定所述第一模型参数和所述第二模型参数中各参数的检验统计量。

在本公开的一种示例性实施例中，根据所述第一特征预测结果和所述第二特征预测结果确定所述第一模型参数和所述第二模型参数中各参数的检验统计量包括：根据所述第一内积、所述第二内积、所述第三内积确定所述第一数据集和所述第二数据集中各特征之间的相关系数矩阵；根据所述相关系数矩阵、所述第一特征预测结果、所述第二特征预测结果和所述数据标签确定所述第一模型参数和所述第二模型参数中各参数的检验统计量。

在本公开的一种示例性实施例中，根据所述第一模型参数和所述第二模型参数中各参数的检验统计量进行特征选择包括：将所述第一模型参数和所述第二模型参数中各参数的检验统计量中的最小值确定为目标统计量；若所述目标统计量大于预设检验水平的临界值，则根据所述第一数据集和所述第二数据集确定特征选择结果；若所述目标统计量小于或等于预设检验水平的临界值，则将所述目标统计量对应的特征剔除后，根据剔除后的所述第一数据集和所述第二数据集再次进行特征选择。

在本公开的一种示例性实施例中，所述方法还包括：根据特征选择结果在所述第一模型参数和所述第二模型参数中确定目标特征；利用所述目标特征和所述数据标签进行跨特征联邦学习，获得目标模型；利用所述目标模型处理目标任务，获得目标任务处理结果。

根据本公开实施例的第二方面，提出一种针对跨特征联邦学习的特征选择装置，该装置包括：第一内积模型，配置为确定本地的第一数据集、数据标签和所述第一数据集的第一内积；第二内积模块，配置为与具有第二数据集的第二设备端进行通信获得所述第一数据集和所述第二数据集的第二内积，以及所述第二数据集的第三内积；模型求解模块，配置为根据所述第一数据集中各特征对应的第一模型参数、所述第二数据集中各特征对应的第二模型参数和所述数据标签搭建线性模型，并根据所述第一内积、所述第二内积、所述第三内积确定所述线性模型中所述第一模型参数的解析解和所述第二模型参数的解析解；检验统计模块，配置为根据所述第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量；特征选择模块，配置为根据所述第一模型参数和所述第二模型参数中各参数的检验统计量进行特征选择。

根据本公开实施例的第三方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的针对跨特征联邦学习的特征选择方法。

根据本公开实施例的第四方面，提出一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一项所述的针对跨特征联邦学习的特征选择方法。

根据本公开某些实施例提供的针对跨特征联邦学习的特征选择方法、装置、电子设备及计算机可读介质，根据本地的第一数据集、数据标签，计算第一数据集的第一内积；并与具有第二数据集的第二设备端通信获得第一数据集和第二数据集的第二内积，以及第二数据集的第三内积；能够基于安全传输方式获得的第一内积、第二内积和第三内积确定第一数据集和第二数据集中各特征间的相关系数，并基于各特征间的相关系数确定特征组合的线性模型中第一模型参数的解析解和第二模型参数的解析解；并根据第一模型参数的解析解和第二模型参数的解析解确定第一模型参数和第二模型参数中各参数的检验统计量；能够利用第一模型参数和第二模型参数中各参数的检验统计量验证当前的组合特征对回归模型的偏回归平方和贡献度是否有显著性的提高，进而能够基于检验统计量的检验结果进行特征选择，提升数据匹配程度，有助于提高知识联邦建模效果。同时，基于检验统计量的检验结果进行特征选择，能够从统计性角度进行特征删除，对后期模型训练不同的算法无偏向性，能够适应更多的算法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择方法的流程图。

图2是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择方法的流程图。

图3是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择方法的数据流传输示意图。

图4是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择方法的流程图。

图5是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择装置的框图。

图6示意性示出本公开一个示例性实施例中一种电子设备的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图仅为本发明的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

知识联邦是将散落在不同机构或个人的数据联合起来转换成有价值的知识，同时在联合过程中采用安全协议来保护数据隐私。其核心是联合多个机构进行安全的模型训练、学习等过程，并最终产生有价值的知识，通过知识在各机构间的流动，达到和将各机构数据聚集在一起进行联合建模相同的效果。区别于传统的联合建模的方式，知识联邦能够在保证数据不出本地的情况下，对模型的梯度进行聚合从而更新各方的模型，并且在此过程中梯度也是经过加密的。

根据数据在机构间分布的情况，知识联邦主要分为：跨样本联邦、跨特征联邦和复合型联邦。跨样本联邦是指，各方具有独立的数据集和标签，并且数据集的特征维度和特征的含义是相互对应的。在跨特征联邦场景下，各方具有相同的用户信息，但特征维度和特征的含义不同，且仅有一方拥有标签。复合联邦，是指各参与方仅有小部分的特征或数据集有交集，其余的特征分布和样本分布是不同的。

下面结合附图对本发明示例实施方式进行详细说明。

图1是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择方法的流程图。本公开实施例提供的针对跨特征联邦学习的特征选择方法可以由任意具备计算处理能力的电子设备执行。如图1所示，本公开实施例提供的针对跨特征联邦学习的特征选择方法10可以包括步骤S102至S110。

如图1所示，在步骤S102中，确定本地的第一数据集、数据标签和第一数据集的第一内积。

本公开实施例中，本地可例如为参与跨特征联邦学习中的某一机构方，为便于描述，下面称为第一设备端。本地的第一数据集可例如为第一设备端用于进行跨特征联邦的数据集合。其中，该第一数据集可表示为X₁，其可包括至少一个样本与每个样本可包括至少一个特征。数据标签为第一数据集中每个样本对应的标注，即跨特征联邦学习过程中的期望输出，可表示为Y。第一数据集的第一内积可表示为

在步骤S104中，与具有第二数据集的第二设备端进行通信获得第一数据集和第二数据集的第二内积，以及第二数据集的第三内积。

本公开实施例中，第二设备端可为参与跨特征联邦学习的不同于第一设备端的另一机构方。第二设备端的第二数据集可表示为X₂。第二内积可表示为

第三内积可表示为

其中，基于各方隐私的考虑，在跨特征联邦学习中，第一设备端与第二设备端间无法获知对方的数据。其中，第一设备端与第二设备端间的通信可例如基于诚信的第三方进行多方的安全计算与数据传输，获得第二内积和第三内积。

在步骤S106中，根据第一数据集中各特征对应的第一模型参数、第二数据集中各特征对应的第二模型参数和数据标签搭建线性模型，并根据第一内积、第二内积、第三内积确定线性模型中第一模型参数的解析解和第二模型参数的解析解。

本公开实施例中，第一数据集中各特征对应的第一模型参数可表示为向量，该向量中每个元素值为在第一数据集中对应的特征的第一模型参数的值。第二数据集中各特征对应的第二模型参数的表示方式同理，此处不再赘述。

在示例性实施例中，可将第一模型参数作为第一数据集中各特征的系数、第二模型参数作为第二数据集中各特征的系数，数据标签作为因变量，搭建获得线性模型。其中，第一数据集和第二数据集中的各特征为自变量。

在示例性实施例中，在确定第一模型参数的解析解和第二模型参数的解析解时，可根据第一内积、第二内积和第三内积确定第一数据集和第二数据集中各特征之间的相关系数矩阵；根据线性模型和相关系数矩阵确定第一模型参数的解析解和第二模型参数的解析解。其中，相关系数矩阵X_co可表示为

第一模型参数的解析解t₁和第二模型参数的解析解t₂可表示为β＝(X^TX)^-1X^TY，其中，X＝[X₁，X₂]，β＝[t₁，t₂]。

在步骤S108中，根据第一模型参数的解析解和第二模型参数的解析解确定第一模型参数和第二模型参数中各参数的检验统计量。

本公开实施例中，可根据第一模型参数的解析解、第二模型参数的解析解分别进行各机构方的特征预测。例如，对于第一设备端，可根据第一模型参数的解析解和第一数据集确定第一特征预测结果：X₁t₁。对于第二设备端，可由第一设备端(即本公开实施例的执行主体)将第二模型参数的解析解发送至第二设备端；并接收第二设备响应第二模型参数的解析解发送的第二特征预测结果。其中，第二设备端可根据接收到的第二模型参数的解析解和第二数据集进行特征预测，获得第二特征预测结果：X₂t₂。进而第一设备端可根据第一特征预测结果和第二特征预测结果确定第一模型参数和第二模型参数中各参数的检验统计量。其中，可采用方差齐性检验(F检验)方式获得第一模型参数和第二模型参数中各参数的检验统计量。F检验是是一种在零假设(null hypothesis，H0)之下，统计值服从F分布的检验。其通常是用来分析用了超过一个参数的统计模型，以判断该模型中的全部或一部分参数是否适合用来估计母体。

在示例性实施例中，在根据第一特征预测结果和第二特征预测结果确定第一模型参数和第二模型参数中各参数的检验统计量时，可根据第一内积、第二内积、第三内积确定第一数据集和第二数据集中各特征之间的相关系数矩阵；根据相关系数矩阵、第一特征预测结果、第二特征预测结果和数据标签确定第一模型参数和第二模型参数中各参数的检验统计量。

其中，第一模型参数和第二模型参数的F检验统计量F_i可表示如下：

其中，n为样本量，s为特征数，c_ii为该特征在相关系数矩阵X_co中对应的对角元，α为数据标签Y与预测标签(即第一特征预测结果和第二特征预测结果)之间的均方误差。

在步骤S110中，根据第一模型参数和第二模型参数中各参数的检验统计量进行特征选择。

本公开实施例中，可检验第一模型参数和第二模型参数中各参数的检验统计量是否满足检验，在满足时认为当前的特征组合对回归模型的偏回归平方和贡献度有显著性的提高，可将当前的特征组合选定为用于跨特征联邦学习的学习对象。

在示例性实施例中，可将第一模型参数和第二模型参数中各参数的检验统计量中的最小值确定为目标统计量；若目标统计量大于预设检验水平的临界值，则根据第一数据集和第二数据集确定特征选择结果；若目标统计量小于或等于预设检验水平的临界值，则将目标统计量对应的特征剔除后，根据剔除后的第一数据集和第二数据集再次进行特征选择。其中，再次进行特征选择可以是返回再次执行步骤S102至S110。

其中，若目标统计量大于预设检验水平的临界值时，可将第一数据集中的特征和第二数据集中的特征确定为特征选择结果，即X₁、X₂。

若目标统计量小于或等于预设检验水平的临界值，则可将具有该目标统计量(即最小的检验统计量)的模型参数对应的特征剔除后，获得更新后的第一数据集和第二数据集，并根据更新后的第一数据集和第二数据集循环执行本公开实施例的步骤S102-S110，直至目标统计量大于预设检验水平的临界值后，结束本公开实施例的特征选择方法。在该实施例中，通过循环执行步骤S102-S110，并在每次循环过程中对最小的检验统计量进行检验，在检验不通过时对其进行剔除，能够基于贪心算法思想逐步剔除对模型作用较小的特征。

根据本公开实施例提供的针对跨特征联邦学习的特征选择方法，根据本地的第一数据集、数据标签，计算第一数据集的第一内积；并与具有第二数据集的第二设备端通信获得第一数据集和第二数据集的第二内积，以及第二数据集的第三内积；能够基于安全传输方式获得的第一内积、第二内积和第三内积确定第一数据集和第二数据集中各特征间的相关系数，并基于各特征间的相关系数确定特征组合的线性模型中第一模型参数的解析解和第二模型参数的解析解；并根据第一模型参数的解析解和第二模型参数的解析解确定第一模型参数和第二模型参数中各参数的检验统计量；能够利用第一模型参数和第二模型参数中各参数的检验统计量验证当前的组合特征对回归模型的偏回归平方和贡献度是否有显著性的提高，进而能够基于检验统计量的检验结果进行特征选择，提升数据匹配程度，有助于提高知识联邦建模效果。同时，基于检验统计量的检验结果进行特征选择，能够从统计性角度进行特征删除，对后期模型训练不同的算法无偏向性，能够适应更多的算法。在示例性实施例中，在特征选择完成后，还可根据特征选择结果在所述第一模型参数和所述第二模型参数中确定目标特征；利用所述目标特征和所述数据标签进行跨特征联邦学习，获得目标模型；利用所述目标模型处理目标任务，获得目标任务处理结果。

其中，目标特征可为进行特征选择后第一数据集和第二数据集中未被剔除的特征。目标任务可例如但不限于为资金风险预测、用户分类预测、用户行为预测等。利用目标特征和数据标签进行跨特征联邦学习，能够获得正确率较高的目标模型。在利用目标模型处理目标任务时，能够获得正确率较高的目标任务处理结果。

图2是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择方法的流程图。本公开实施例提供针对跨特征联邦学习的特征选择方法20可以包括步骤S202至S210。本公开实施例中数据流传输示意图可如图3所示。

本公开实施例的步骤S202至S210可作为图1中步骤S104的替换步骤。

如图2所示，在步骤S202中，接收第三方发送的第一随机矩阵和第二随机矩阵。

本公开实施例中，第三方可为与第一设备端和第二设备端不同的诚信的一方。其中，该第三方可随机生成第一随机矩阵R_a和第二随机矩阵r_a，并发送给本公开实施例的执行主体(即上文所指第一设备端)。其中，第三方可例如为图3中示出的330。

在步骤S204中，根据第一数据集和第一随机矩阵确定第一传输矩阵并发送至第二设备端。

本公开实施例中，可将第一数据集和第一随机矩阵的和确定为第一传输矩阵

在步骤S206中，接收第二设备端发送的第二传输矩阵、第二目标矩阵和转换矩阵，转换矩阵是第二设备端根据第一传输矩阵、第二数据集、以及接收自第三方的第三随机矩阵和第四随机矩阵获得，第二传输矩阵是第二设备端根据第二数据集和第三随机矩阵获得，第一随机矩阵和第三随机矩阵的内积等于第二随机矩阵和第四随机矩阵的和值。

本公开实施例中，第三方在生成第一随机矩阵R_a和第二随机矩阵r_a时，还可生成第三随机矩阵R_b和第四随机矩阵r_b，并且满足第一随机矩阵和第三随机矩阵的内积等于第二随机矩阵和第四随机矩阵的和值，即

第二传输矩阵

可表示为

转换矩阵T可表示为

其中，V_b为第二目标矩阵，可为第二设备端生成的随机矩阵。

在步骤S208中，根据转换矩阵、第一随机矩阵、第二随机矩阵和第二传输矩阵确定第一目标矩阵。

本公开实施例中，第一目标矩阵可表示为

在步骤S210中，根据第一目标矩阵和第二目标矩阵确定第一数据集和第二数据集的第二内积。

本公开实施例中，可将第一目标矩阵V_a和第二目标矩阵V_b的和确定为第二内积。即

根据本公开实施例提供的针对跨特征联邦学习的特征选择方法，在与第二设备端通信时，无需传输双方的隐私数据便可获得第二内积的具体数值，可使用明文传输，提高了迭代速度。

图4是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择方法的流程图。本公开实施例提供针对跨特征联邦学习的特征选择方法40可以包括步骤S402至S414。

在步骤S402中，根据第一部分的矩阵多方安全计算的叙述，第一设备端获得

其中，矩阵多方安全计算的方式可参考图2和图3所示实施例。

在步骤S404中，第二设备端计算获得

并传送给第一设备端。

在步骤S406中，第一设备端计算获得

再结合

和

获得相关系数矩阵，该相关系数矩阵中描述了第一数据集X₁和第二数据集X₂中任意两个特征之间的相关系数。同样，第一设备端还可以得到任意特征和数据标签的相关系数。

在步骤S408中，根据步骤S402至S406，第一设备端可以计算获得线性模型的解析解，第一设备端将第二设备端的第二模型参数的解析解参数t₂传输给第二设备端。

在步骤S410中，第一设备端和第二设备端双方根据本轮更新的参数t₁、t₂分别进行本方的特征预测，且第二设备端将计算结果发送给第一设备端，即第二设备端方将X₂t₂传送给第一设备端。

在步骤S412中，第一设备端计算每一个参数的F统计量。

在步骤S414中，第一设备端验证F统计量的最小值是否满足F检验，不满足则剔除该特征并重复步骤S402-S412，满足则退出此次特征选择。

本公开实施例提供的针对跨特征联邦学习的特征选择方法，建立各方特征和数据标签的线性模型，得到线性模型各个参数的F统计量，查看F统计量的最小值是否满足F检验，核心是根据F检验验证该变量对回归模型的偏回归平方和贡献度是否有显著性的提高。本设计方案主要分为两部分：首先根据多方安全计算给出各方特征间两两特征的相关性；然后根据计算的相关性，得到线性模型的解析解，并计算解析解的参数的F统计量，验证F统计量最小值是否符合F检验，从而判断是否删除该特征。基于上述方式，能够解决知识联邦跨特征场景下的特征选择问题，利用多方安全计算进行多方协同的特征筛选，其核心在于根据特征和标签之间的统计信息，计算特征和标签的相关系数。和现有联邦特征选择技术相比，本发明方案考虑了组合特征和数据标签的相关关系，显著提升了数据匹配程度，有助于提高知识联邦建模效果。

根据本公开实施例提供的针对跨特征联邦学习的特征选择方法，在跨特征联邦学习过程中下，能够考虑组合特征和标签的相关关系。且通信过程的数据传输量不大，每次迭代结果可以明文传输，迭代速度较快。同时，根据F检验验证每个变量对回归模型的偏回归平方和贡献度是否有显著性的提高，能够剔除特征之间相关性较高的特征，降低知识联邦学习的数据处理量。并基于贪心算法思想逐步剔除对模型作用较小的特征。同时本申请的特征选择方法从统计性角度进行特征删除，对后期模型训练不同的算法无偏向性，能够适应更多的算法。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由中央处理器(Central Processing Unit，CPU)执行的计算机程序。在该计算机程序被中央处理器CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种针对跨特征联邦学习的特征选择装置的框图。参照图5，本公开实施例提供的针对跨特征联邦学习的特征选择装置50可以包括：第一内积模型502、第二内积模块504、模型求解模块506、检验统计模块508和特征选择模块510。

在针对跨特征联邦学习的特征选择装置50中，第一内积模型502可配置为确定本地的第一数据集、数据标签和所述第一数据集的第一内积。

第二内积模块504可配置为与具有第二数据集的第二设备端进行通信获得所述第一数据集和所述第二数据集的第二内积，以及所述第二数据集的第三内积。

模型求解模块506可配置为根据所述第一数据集中各特征对应的第一模型参数、所述第二数据集中各特征对应的第二模型参数和所述数据标签搭建线性模型，并根据所述第一内积、所述第二内积、所述第三内积确定所述线性模型中所述第一模型参数的解析解和所述第二模型参数的解析解。

检验统计模块508可配置为根据所述第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量。

特征选择模块510可配置为根据所述第一模型参数和所述第二模型参数中各参数的检验统计量进行特征选择。

根据本公开实施例提供的针对跨特征联邦学习的特征选择装置，根据本地的第一数据集、数据标签，计算第一数据集的第一内积；并与具有第二数据集的第二设备端通信获得第一数据集和第二数据集的第二内积，以及第二数据集的第三内积；能够基于安全传输方式获得的第一内积、第二内积和第三内积确定第一数据集和第二数据集中各特征间的相关系数，并基于各特征间的相关系数确定特征组合的线性模型中第一模型参数的解析解和所述第二模型参数的解析解；并根据第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量；能够利用第一模型参数和第二模型参数中各参数的检验统计量验证当前的组合特征对回归模型的偏回归平方和贡献度是否有显著性的提高，进而能够基于检验统计量的检验结果进行特征选择，提升数据匹配程度，有助于提高知识联邦建模效果。同时，基于检验统计量的检验结果进行特征选择，能够从统计性角度进行特征删除，对后期模型训练不同的算法无偏向性，能够适应更多的算法。

下面参照图6来描述根据本发明的这种实施方式的电子设备800。图6显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的步骤S102中，确定本地的第一数据集、数据标签和第一数据集的第一内积；S104中，与具有第二数据集的第二设备端进行通信获得第一数据集和第二数据集的第二内积，以及第二数据集的第三内积；S106中，根据第一数据集中各特征对应的第一模型参数、第二数据集中各特征对应的第二模型参数和数据标签搭建线性模型，并根据第一内积、第二内积、第三内积确定线性模型中第一模型参数的解析解和第二模型参数的解析解；S108中，根据第一模型参数的解析解和第二模型参数的解析解确定第一模型参数和第二模型参数中各参数的检验统计量；S110中，根据第一模型参数和第二模型参数中各参数的检验统计量进行特征选择。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和构思由权利要求指出。

Claims

1.一种针对跨特征联邦学习的特征选择方法，其特征在于，包括：

确定本地的第一数据集、数据标签和所述第一数据集的第一内积；

与具有第二数据集的第二设备端进行通信获得所述第一数据集和所述第二数据集的第二内积，以及所述第二数据集的第三内积；

根据所述第一数据集中各特征对应的第一模型参数、所述第二数据集中各特征对应的第二模型参数和所述数据标签搭建线性模型，并根据所述第一内积、所述第二内积、所述第三内积确定所述线性模型中所述第一模型参数的解析解和所述第二模型参数的解析解；

根据所述第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量；

根据所述第一模型参数和所述第二模型参数中各参数的检验统计量进行特征选择。

2.如权利要求1所述的方法，其特征在于，与具有第二数据集的第二设备端进行通信获得所述第一数据集和所述第二数据集的第二内积包括：

接收第三方发送的第一随机矩阵和第二随机矩阵；

根据所述第一数据集和所述第一随机矩阵确定第一传输矩阵并发送至所述第二设备端；

接收所述第二设备端发送的第二传输矩阵、第二目标矩阵和转换矩阵，所述转换矩阵是所述第二设备端根据所述第一传输矩阵、所述第二数据集、以及接收自所述第三方的第三随机矩阵和第四随机矩阵获得，所述第二传输矩阵是所述第二设备端根据所述第二数据集和所述第三随机矩阵获得，所述第一随机矩阵和所述第三随机矩阵的内积等于所述第二随机矩阵和所述第四随机矩阵的和值；

根据所述转换矩阵、所述第一随机矩阵、所述第二随机矩阵和所述第二传输矩阵确定第一目标矩阵；

根据所述第一目标矩阵和所述第二目标矩阵确定所述第一数据集和所述第二数据集的第二内积。

3.如权利要求1所述的方法，其特征在于，根据所述第一数据集中各特征对应的第一模型参数、所述第二数据集中各特征对应的第二模型参数和所述数据标签搭建线性模型包括：

将所述第一模型参数作为所述第一数据集中各特征的系数、所述第二模型参数作为所述第二数据集中各特征的系数，所述数据标签作为因变量，搭建获得所述线性模型。

4.如权利要求1或3所述的方法，其特征在于，根据所述第一内积、所述第二内积、所述第三内积确定所述线性模型中所述第一模型参数的解析解和所述第二模型参数的解析解包括：

根据所述第一内积、所述第二内积和所述第三内积确定所述第一数据集和所述第二数据集中各特征之间的相关系数矩阵；

根据所述线性模型和所述相关系数矩阵确定所述第一模型参数的解析解和所述第二模型参数的解析解。

5.如权利要求1所述的方法，其特征在于，根据所述第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量包括：

根据所述第一模型参数的解析解和所述第一数据集确定第一特征预测结果；

将所述第二模型参数的解析解发送至所述第二设备端；

接收所述第二设备响应所述第二模型参数的解析解发送的第二特征预测结果；

根据所述第一特征预测结果和所述第二特征预测结果确定所述第一模型参数和所述第二模型参数中各参数的检验统计量。

6.如权利要求5所述的方法，其特征在于，根据所述第一特征预测结果和所述第二特征预测结果确定所述第一模型参数和所述第二模型参数中各参数的检验统计量包括：

根据所述第一内积、所述第二内积、所述第三内积确定所述第一数据集和所述第二数据集中各特征之间的相关系数矩阵；

根据所述相关系数矩阵、所述第一特征预测结果、所述第二特征预测结果和所述数据标签确定所述第一模型参数和所述第二模型参数中各参数的检验统计量。

7.如权利要求1所述的方法，其特征在于，根据所述第一模型参数和所述第二模型参数中各参数的检验统计量进行特征选择包括：

将所述第一模型参数和所述第二模型参数中各参数的检验统计量中的最小值确定为目标统计量；

若所述目标统计量大于预设检验水平的临界值，则根据所述第一数据集和所述第二数据集确定特征选择结果；

若所述目标统计量小于或等于预设检验水平的临界值，则将所述目标统计量对应的特征剔除后，根据剔除后的所述第一数据集和所述第二数据集再次进行特征选择。

8.如权利要求1所述的方法，其特征在于，还包括：

根据特征选择结果在所述第一模型参数和所述第二模型参数中确定目标特征；

利用所述目标特征和所述数据标签进行跨特征联邦学习，获得目标模型；

利用所述目标模型处理目标任务，获得目标任务处理结果。

9.一种针对跨特征联邦学习的特征选择装置，其特征在于，包括：

第一内积模型，配置为确定本地的第一数据集、数据标签和所述第一数据集的第一内积；

第二内积模块，配置为与具有第二数据集的第二设备端进行通信获得所述第一数据集和所述第二数据集的第二内积，以及所述第二数据集的第三内积；

模型求解模块，配置为根据所述第一数据集中各特征对应的第一模型参数、所述第二数据集中各特征对应的第二模型参数和所述数据标签搭建线性模型，并根据所述第一内积、所述第二内积、所述第三内积确定所述线性模型中所述第一模型参数的解析解和所述第二模型参数的解析解；

检验统计模块，配置为根据所述第一模型参数的解析解和所述第二模型参数的解析解确定所述第一模型参数和所述第二模型参数中各参数的检验统计量；

特征选择模块，配置为根据所述第一模型参数和所述第二模型参数中各参数的检验统计量进行特征选择。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。