CN110968886B

CN110968886B - 机器学习模型的训练样本的筛选方法及其系统

Info

Publication number: CN110968886B
Application number: CN201911322966.6A
Authority: CN
Inventors: 周亚顺
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Sasi Digital Technology Beijing Co ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2022-12-02
Anticipated expiration: 2039-12-20
Also published as: CN110968886A

Abstract

本说明书实施例公开了一种机器学习模型的训练样本的筛选方法及其系统，该方法包括：标签提供方对样本的标签值进行同态加密，以生成不同样本对应的标签值密文。特征提供方根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文。标签提供方对特征密文进行同态解密，以生成标签值与类别型特征值的对应关系。特征提供方根据对应关系，对类别型特征变量进行价值评估。特征提供方根据评估结果，对样本进行筛选。由此，特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的类别型特征值，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

Description

机器学习模型的训练样本的筛选方法及其系统

【技术领域】

本说明书涉及数据处理技术领域，尤其涉及一种机器学习模型的训练样本的筛选方法及其系统。

【背景技术】

在多方联合计算平台中，需要参与联合的各个用户提供隐私数据，实现联合计算，建立机器学习模型。在建立机器学习模型时，参与联合的各个用户都会提供隐私数据，使得训练数据的数据量过大，因此需要对用户提供的隐私数据进行筛选。

首先对用户提供的隐私数据进行分类，一种作为特征变量，另一种作为标签值，通过对不同的特征变量进行价值评估，从而筛选出与标签值关联度较大的特征变量，与标签值一起建立机器学习模型。

随着通用数据保护条例(general data protection regulation，GDPR)的生效，用户的隐私数据所受到的管制越来越严格。尤其是在国际场景，隐私数据不泄露、用户数据可用不可见等也成为越来越多数据使用的需求。因此，如何在隐私数据不泄露的情况下，实现对隐私数据的处理成为一个难题，亟需一种既能对用户的隐私数据进行筛选，又能防止用户的隐私数据泄露的技术方案。

【发明内容】

本说明书实施例旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本说明书实施例的第一个目的在于提出一种机器学习模型的训练样本的筛选方法，特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的类别型特征值，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

本说明书实施例的第二个目的在于提出一种机器学习模型的训练样本的筛选方法。

本说明书实施例的第三个目的在于提出一种机器学习模型的训练样本的筛选系统。

本说明书实施例的第四个目的在于提出一种机器学习模型的训练样本的筛选装置。

本说明书实施例的第五个目的在于提出一种计算机设备。

本说明书实施例的第六个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本说明书实施例第一方面实施例提出了一种机器学习模型的训练样本的筛选方法，包括：标签提供方对样本的标签值进行同态加密，以生成不同所述样本对应的标签值密文，并将所述标签值密文发送给特征提供方；所述特征提供方根据所述样本对应的类别型特征值，将所述标签值密文与所述类别型特征值进行对应，以生成所述类别型特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述类别型特征值的对应关系，并将所述对应关系发送给所述特征提供方；所述特征提供方根据所述对应关系，对类别型特征变量进行价值评估；以及所述特征提供方根据评估结果，对所述样本进行筛选。

和现有技术相比，本说明书实施例进行机器学习模型的训练样本的筛选时，通过同态加密技术，使得特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的类别型特征值，依然能够对类别型特征变量进行价值评估，进而根据评估结果，对样本进行筛选，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

另外，本说明书实施例的机器学习模型的训练样本的筛选方法，还具有如下附加的技术特征：

可选地，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。

可选地，所述特征提供方根据所述样本对应的类别型特征值，将所述标签值密文与所述类别型特征值进行对应，以生成所述类别型特征值对应的特征密文，包括：所述特征提供方将所述类别型特征值相同的样本，所对应的标签值密文进行相加，以生成所述类别型特征值对应的特征密文。

可选地，所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述类别型特征值的对应关系，包括：所述标签提供方对所述特征密文进行同态解密，以生成所述类别型特征值对应的所述正例样本的数量。

可选地，所述特征提供方根据所述对应关系，对类别型特征变量进行价值评估，包括：所述特征提供方从所述标签提供方获取所述正例样本的总数量；所述特征提供方根据所述类别型特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述类别型特征变量进行价值评估。

可选地，所述特征提供方将所述类别型特征值相同的样本，所对应的标签值密文进行相加，以生成所述类别型特征值对应的特征密文，包括：所述特征提供方对不同的所述类别型特征值依次进行正整数编号，并将所述类别型特征值相同的样本，所对应的标签值密文与所述正整数进行对应；所述特征提供方根据所述正整数的取值，将对应于相同所述正整数的所述标签值密文进行相加，以生成所述类别型特征值对应的特征密文。

可选地，所述样本的类型包括自然人、法人、其他组织中的任意一种。

本说明书实施例第二方面实施例提出了一种机器学习模型的训练样本的筛选方法，所述方法在特征提供方实现，包括：从标签提供方接收标签值密文；其中，所述标签值密文由样本的标签值经过同态加密后生成；根据所述样本对应的类别型特征值，将所述标签值密文与所述类别型特征值进行对应，以生成所述类别型特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；从所述标签提供方接收所述标签值与所述类别型特征值的对应关系；其中，所述对应关系由所述特征密文经过同态解密后生成；根据所述对应关系，对类别型特征变量进行价值评估；以及根据评估结果，对所述样本进行筛选。

可选地，所述根据所述样本对应的类别型特征值，将所述标签值密文与所述类别型特征值进行对应，以生成所述类别型特征值对应的特征密文，包括：将所述类别型特征值相同的样本，所对应的标签值密文进行相加，以生成所述类别型特征值对应的特征密文。

可选地，所述标签值与所述类别型特征值的对应关系包括所述类别型特征值对应的所述正例样本的数量。

可选地，所述根据所述对应关系，对所述类别型特征变量进行价值评估，包括：从所述标签提供方获取所述正例样本的总数量；根据所述类别型特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述类别型特征变量进行价值评估。

可选地，所述将所述类别型特征值相同的样本，所对应的标签值密文进行相加，以生成所述类别型特征值对应的特征密文，包括：对不同的所述类别型特征值依次进行正整数编号，并将所述类别型特征值相同的样本，所对应的标签值密文与所述正整数进行对应；根据所述正整数的取值，将对应于相同所述正整数的所述标签值密文进行相加，以生成所述类别型特征值对应的特征密文。

本说明书实施例第三方面实施例提出了一种机器学习模型的训练样本的筛选系统，包括标签提供方和特征提供方，其中，所述标签提供方用于，对样本的标签值进行同态加密，以生成不同所述样本对应的标签值密文，并将所述标签值密文发送给所述特征提供方；对特征密文进行同态解密，以生成所述标签值与类别型特征值的对应关系，并将所述对应关系发送给所述特征提供方；以及所述特征提供方用于，根据所述样本对应的所述类别型特征值，将所述标签值密文与所述类别型特征值进行对应，以生成所述类别型特征值对应的所述特征密文，并将所述特征密文发送给所述标签提供方；根据所述对应关系，对类别型特征变量进行价值评估；根据评估结果，对所述样本进行筛选。

本说明书实施例第四方面实施例提出了一种机器学习模型的训练样本的筛选装置，所述装置位于特征提供方，包括：第一接收模块，用于从标签提供方接收标签值密文；其中，所述标签值密文由样本的标签值经过同态加密后生成；对应模块，用于根据所述样本对应的类别型特征值，将所述标签值密文与所述类别型特征值进行对应，以生成所述类别型特征值对应的特征密文；发送模块，用于将所述特征密文发送给所述标签提供方；第二接收模块，用于从所述标签提供方接收所述标签值与所述类别型特征值的对应关系；其中，所述对应关系由所述特征密文经过同态解密后生成；评估模块，用于根据所述对应关系，对类别型特征变量进行价值评估；以及筛选模块，用于根据评估结果，对所述样本进行筛选。

另外，本说明书实施例的机器学习模型的训练样本的筛选装置，还具有如下附加的技术特征：

可选地，所述对应模块具体用于，将所述类别型特征值相同的样本，所对应的标签值密文进行相加，以生成所述类别型特征值对应的特征密文。

可选地，所述评估模块，包括：获取子模块，用于从所述标签提供方获取所述正例样本的总数量；评估子模块，用于根据所述类别型特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述类别型特征变量进行价值评估。

可选地，所述对应模块，包括：编号子模块，用于对不同的所述类别型特征值依次进行正整数编号；对应子模块，用于将所述类别型特征值相同的样本，所对应的标签值密文与所述正整数进行对应；相加子模块，用于根据所述正整数的取值，将对应于相同所述正整数的所述标签值密文进行相加，以生成所述类别型特征值对应的特征密文。

本说明书实施例第五方面实施例提出了一种计算机设备，包括存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如前述方法实施例所述的机器学习模型的训练样本的筛选方法。

本说明书实施例第六方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前述方法实施例所述的机器学习模型的训练样本的筛选方法。

本说明书实施例附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本说明书实施例的实践了解到。

【附图说明】

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为多方联合计算平台对机器学习模型进行训练的一个示例的示意图；

图2a为特征提供方提供的样本的类别型特征值列表；

图2b为标签提供方提供的样本的标签值列表；

图3为本说明书实施例所提出的一种机器学习模型的训练样本的筛选方法的流程示意图；

图4为图2a中的特征提供方获取标签值密文后的样本列表；

图5a为特征提供方提供的样本的类别型特征值列表；

图5b为标签提供方提供的样本的标签值列表；

图5c为图5a中的特征提供方获取标签值密文后的样本列表；

图6为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选方法的流程示意图；

图7a为类别型特征值的一种标记方式的示意图；

图7b为类别型特征值的另一种标记方式的示意图；

图8为本说明书实施例所提出的机器学习模型的训练样本的筛选方法的一个示例的流程图；

图9为本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法的流程示意图；

图10为本说明书实施例所提供的另一种机器学习模型的训练样本的筛选方法的流程示意图；

图11为本说明书实施例所提出的一种机器学习模型的训练样本的筛选系统的结构示意图；

图12为本说明书实施例所提出的一种机器学习模型的训练样本的筛选装置的结构示意图；以及

图13为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选装置的结构示意图。

【具体实施方式】

下面详细描述本说明书的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本说明书实施例，而不能理解为对本说明书实施例的限制。

下面参考附图描述本说明书实施例的机器学习模型的训练样本的筛选方法及其系统。

基于前述说明，可以知道，用户的隐私数据分为特征值和标签值，特征值根据类型不同，可以进一步分为数值区间特征值和类别型特征值，比如说：年龄属于数值型特征变量，15岁属于数值型特征值，年龄段属于数值区间特征变量，10岁-18岁属于数值区间特征值，性别属于类别型特征变量，男性、女性属于类别型特征值。

在通过多方联合计算平台对机器学习模型进行训练时，需要参与联合的不同用户提供训练样本的类别型特征值，以及标签值，生成训练样本。可以理解，用户提供的类别型特征变量有多种，其中有的类别型特征变量与标签变量的关联度较高，有的类别型特征变量与标签变量的关联度较低，因此需要对用户提供的训练样本进行筛选，从中筛选出具有与标签变量关联度较高的类别型特征变量的训练样本，并使用筛选后的训练样本对机器学习模型进行训练。

举例来说，在广告投放时，需要判断被投放者是否为广告投放的目标，那么就需要通过训练完的机器学习模型来对海量的数据进行分析，从中确定广告投放的目标。

图1为多方联合计算平台对机器学习模型进行训练的一个示例的示意图。如图1所示，用户1提供了张三、李四、王五等人的性别信息，以及张三、王五等人的职业信息，用户2提供了张三、李四、王五等人是否为目标客户的信息。其中，性别信息和职业信息属于类别型特征变量，是否为目标客户的信息属于标签变量。

第一种可能的情况，经过对上述两项类别型特征变量进行价值评估，发现性别和职业与是否为目标客户的关联度都较大，则将李四从训练样本中去除。

第二种可能的情况，经过对上述两项类别型特征变量进行价值评估，发现性别与是否为目标客户的关联度较大，而职业与是否为目标客户的关联度较小，则将职业从机器学习模型的训练特征中去除。

第三种可能的情况，经过对上述两项类别型特征变量进行价值评估，发现职业与是否为目标客户的关联度较大，而性别与是否为目标客户的关联度较小，则将李四从训练样本中去除，并且将性别从机器学习模型的训练特征中去除。

第四种可能的情况，经过对上述两项类别型特征变量进行价值评估，发现性别和职业与是否为目标客户的关联度都较小，则将性别和职业从机器学习模型的训练特征中去除，并从其他用户提供的类别型特征变量中确定机器学习模型的训练特征。

此外，上述机器学习模型的训练方法也可以适用于金融风险控制领域，使用类似的训练方法在多方联合计算平台中对机器学习模型进行训练，获取自然人、法人、其他组织的类别型特征变量，输入训练完的机器学习模型，确定自然人、法人、其他组织是否为高风险客户。

基于对上述例子的说明，可以知道，由特征提供方提供样本的类别型特征变量，标签提供方提供样本的标签变量，样本的类别型特征值和样本的标签值共同组成了样本。

特征提供方需要根据样本的标签变量对样本的类别型特征变量进行价值评估，进而根据评估结果，对训练样本进行筛选。但是为了对标签提供方的数据进行保密，特征提供方不能获知每个样本对应的标签值，无法直接根据每个样本对应的标签值，实现机器学习模型的训练样本的筛选。

针对这一问题，本说明书实施例提出了一种机器学习模型的训练样本的筛选方法，特征提供方无需获知每个样本对应的标签值，就能够获知标签值与类别型特征值的对应关系，进而对类别型特征变量进行价值评估，实现了对标签提供方的保密。

为了更加清楚地说明本说明书实施例所提供的机器学习模型的训练样本的筛选方法，下面先对样本的类别型特征变量和标签变量进行举例说明。

图2a为特征提供方提供的样本的类别型特征值列表。图2b为标签提供方提供的样本的标签值列表。

如图2a和图2b所示，用于数据统计的共有9个样本，每个样本都具有类别型特征变量A和标签变量B。1号样本的类别型特征值为a，标签值为否，2号样本的类别型特征值为b，标签值为是，3号样本的类别型特征值为a，标签值为否，4号样本的类别型特征值为c，标签值为是，5号样本的类别型特征值为b，标签值为是，6号样本的类别型特征值为c，标签值为否，7号样本的类别型特征值为c，标签值为是，8号样本的类别型特征值为a，标签值为是，9号样本的类别型特征值为a，标签值为否。应当理解，对于特征提供方来说，只能获知9个样本的类别型特征值，而不能获知对应的标签值。对于标签提供方来说，只能获知9个样本的标签值，而不能获知对应的类别型特征值。

基于前述说明，可以知道，为了对样本进行筛选，特征提供方需要对类别型特征变量进行价值评估，从而筛选出具有与标签变量关联度较大的类别型特征变量的样本。

图3为本说明书实施例所提出的一种机器学习模型的训练样本的筛选方法的流程示意图。如图3所示，该方法包括以下步骤：

步骤S101，标签提供方对样本的标签值进行同态加密，以生成不同样本对应的标签值密文，并将标签值密文发送给特征提供方。

其中，同态加密是一种特殊的加密函数，对明文进行加法和乘法运算再加密，与加密后对密文进行相应的运算，结果是等价的，即E(a+b)＝E(a)⊕E(b)，E为加密函数，a和b为明文。

需要说明的是，为了避免特征提供方能够直接从标签提供方获取每个样本对应的标签值，本说明书实施例采用同态加密技术，对样本的标签值进行加密，得到标签值对应的标签值密文，并将标签值密文发送给特征提供方。

需要强调的是，本说明书实施例在对样本的标签值进行加密时，采用的是非确定性加密技术，也就是说，相同的明文经过加密后得到的密文不同。

还是以前述的样本为例进行说明，对于样本1和3，对应的标签值都是否，但是经过加密后得到的否的密文不同，使得特征提供方无法根据标签值密文来推断出每个样本对应的标签值。

应当理解，在对标签值进行加密的过程中，没有打乱标签值密文和样本序号之间的对应关系，在将标签值密文发送给特征提供方时，也没有打乱标签值密文和样本序号之间的对应关系，因此特征提供方可以根据样本序号，将标签值密文与样本进行对应。

步骤S103，特征提供方根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。

具体地，特征提供方根据样本的序号，将样本与标签值密文进行对应，根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，从而确定不同的类别型特征值对应的标签值密文，同一个类别型特征值对应的特征密文进行处理，即可得到该类别型特征值对应的特征密文。

还是以前述的样本为例进行说明，图4为图2a中的特征提供方获取标签值密文后的样本列表。如图4所示，特征提供方获取标签值密文后，类别型特征值a对应的标签值密文有1个是的密文和3个否的密文，类别型特征值b对应的标签值密文有2个是的密文，类别型特征值c对应的标签值密文有2个是的密文和1个否的密文，进而根据1个是的密文和3个否的密文，确定类别型特征值a对应的特征密文，根据2个是的密文，确定类别型特征值b对应的特征密文，根据2个是的密文和1个否的密文，确定类别型特征值c对应的特征密文。

步骤S105，标签提供方对特征密文进行同态解密，以生成标签值与类别型特征值的对应关系，并将对应关系发送给特征提供方。

基于前述对同态加密技术的说明，可以知道，标签提供方对特征密文进行同态解密后，能够生成标签值和类别型特征值的对应关系。具体来说，将标签值密文生成特征密文的处理过程，用于对标签值进行处理，得到的处理结果，就是对特征密文进行同态解密的结果。因此，标签提供方对特征密文进行同态解密，相当于特征提供方直接对标签值进行处理，得到处理结果。

需要说明的是，由于标签提供方在生成特征密文的过程中，将标签值密文与类别型特征值进行了对应，因此同态解密的结果也与特征类别型相对应，从而实现了标签值的处理结果与特征类别型的对应。

步骤S107，特征提供方根据对应关系，对类别型特征变量进行价值评估。

可以理解，特征提供方在根据样本的类别型特征值和标签值，对类别型特征变量进行价值评估时，需要对样本的标签值进行统计上的处理，得到每个类别型特征值对应的处理结果，进而根据该处理结果，进行机器学习模型的训练样本的筛选。

而在步骤S101、步骤S103和步骤S105中，通过同态加密技术，使得特征提供方对样本的标签值密文进行处理，得到类别型特征值对应的特征密文，并由标签提供方对特征密文进行解密，得到与不同类别型特征值相对应的标签值进行相应的处理后的结果。也就是说，同态解密的结果就是特征提供方对样本的标签值进行统计上的处理后的结果，并且反映了标签值与类别型特征值的对应关系。

因此，特征提供方可以根据同态解密的结果，对类别型特征变量进行价值评估。

步骤S109，特征提供方根据评估结果，对样本进行筛选。

基于前述说明，可以知道，类别型特征变量的价值即为该类别型特征变量与标签变量的关联度，如果关联度较小，具体小于某个预设阈值，则将该类别型特征变量从机器学习模型的训练特征中去除，如果样本的全部类别型特征变量都从机器学习模型的训练特征中去除，则将该样本去除。

综上所述，本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法，标签提供方对样本的标签值进行同态加密，以生成不同样本对应的标签值密文，并将标签值密文发送给特征提供方。特征提供方根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。标签提供方对特征密文进行同态解密，以生成标签值与类别型特征值的对应关系，并将对应关系发送给特征提供方。特征提供方根据对应关系，对类别型特征变量进行价值评估。特征提供方根据评估结果，对样本进行筛选。由此，通过同态加密技术，使得特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的类别型特征值，依然能够对类别型特征变量进行价值评估，进而根据评估结果，对样本进行筛选，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

此外，考虑到本说明书实施例所提出的机器学习模型，可以用于广告投放时目标客户的识别，或者是金融风险控制领域高风险客户的识别，因此上述样本的类别包括自然人、法人、其他组织中的任意一种。

进一步地，为了便于特征提供方根据对应关系，对类别型特征变量进行价值评估，本说明书实施例还提出了另一种机器学习模型的训练样本的筛选方法，其中，样本包括正例样本和反例样本，正例样本将1作为标签值，反例样本将0作为标签值。应当理解，正例样本和反例样本的标签值不同，因此可以分别采用1和0作为标签值。此外，应当理解的是，正例样本是业务方希望获取的样本，可以根据业务方的需求而进行调整。

图5a为特征提供方提供的样本的类别型特征值列表。图5b为标签提供方提供的样本的标签值列表。图5c为图5a中的特征提供方获取标签值密文后的样本列表。

还是以前述的样本为例进行说明，如图5a、5b和5c所示，样本的标签值包括1和0，标签值为1的样本为正例样本，标签值为0的样本为反例样本，f(1)为标签值1对应的标签值密文，f(0)为标签值0对应的标签值密文。

基于前述说明，可以知道，本说明书实施例采用非确定性加密技术对标签值进行加密，因此标签值都为1的样本，对应的标签值密文f(1)不同，标签值都为0的样本，对应的标签值密文f(0)不同。

图6为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选方法的流程示意图。如图6所示，该方法包括以下步骤：

步骤S201，标签提供方对样本的标签值进行同态加密，以生成不同样本对应的标签值密文，并将标签值密文发送给特征提供方。

基于前述说明，可以知道，当正例样本的标签值为1，反例样本的标签值为0时，对标签值进行同态加密后，得到的标签值密文分别为f(0)和f(1)。

步骤S203，特征提供方将类别型特征值相同的样本，所对应的标签值密文进行相加，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。

需要说明的是，特征提供方在对类别型特征变量进行价值评估时，可以采用公式

计算每个类别型特征值x的价值VI_x，进而根据公式VI＝∑VI_x，计算类别型特征变量的价值VI。

应当理解，在上述公式中，特征提供方能够直接获取样本的总数量，而正例样本的总数量和反例样本的总数量之和，即为样本的总数量。也就是说，在确定了正例样本的总数量之后，可以直接确定反例样本的总数量。

类似地，特征提供方能够直接获取类别型特征值为x的样本数量，因此在确定了类别型特征值为x的正例样本数量后，可以直接确定类别型特征值为x的反例样本数量。

换句话说，特征提供方需要确定正例样本的总数量和类别型特征值为x的正例样本数量。

基于前述说明，可以知道，正例样本的标签值为1，反例样本的标签值为0。因此，将类别型特征值为x所对应的标签值相加，即可确定类别型特征值为x的正例样本数量。

但是，特征提供方无法直接从标签提供方获取每个样本对应的标签值，因此不能直接对标签值进行相加。

基于前述对同态加密技术的说明，可以知道，对标签值密文进行相加处理后，再进行同态解密，得到的结果和直接对标签值进行相加处理的结果相同。也就是说，类别型特征值为x对应的特征密文，进行同态解密后的结果，就是类别型特征值为x的正例样本数量。

步骤S205，标签提供方对特征密文进行同态解密，以生成类别型特征值对应的正例样本的数量，并将类别型特征值对应的正例样本的数量发送给特征提供方。

可以理解，为了让特征提供方能够确定类别型特征值对应的正例样本的数量，标签提供方对特征密文进行同态解密，并将结果发送给特征提供方。

步骤S207，特征提供方从标签提供方获取正例样本的总数量。

基于前述的说明，可以知道，特征提供方将全部样本的标签值相加，即可确定正例样本的总数量。

步骤S209，特征提供方根据类别型特征值对应的正例样本的数量，以及正例样本的总数量，对类别型特征变量进行价值评估。

可以理解，在确定了类别型特征值对应的正例样本的数量后，即可确定类别型特征值对应的反例样本的数量，在确定了正例样本的总数量后，即可确定反例样本的总数量，进而根据前述的公式，对类别型特征变量进行价值评估。

步骤S211，特征提供方根据评估结果，对样本进行筛选。

需要说明的是，对前述实施例中的步骤S101-步骤S109的解释说明，也适用于本说明书实施例的步骤S201-步骤S211，此处不再赘述。

从而，使用0和1作为正例样本和反例样本的标签值，使得特征提供方通过对类别型特征值对应的标签值密文进行相加，来确定该类别型特征值对应的正例样本的数量，进而对类别型特征变量进行价值评估，以及对样本进行筛选。

此外，需要说明的是，在前述实施例中，对不同的类别型特征值进行区分时，可以采用不同的方式。图7a为类别型特征值的一种标记方式的示意图。图7b为类别型特征值的另一种标记方式的示意图。

还是以前述的样本为例进行说明，一种可能的实现方式是，特征提供方对不同的类别型特征值进行一位有效编号，并将类别型特征值相同的样本，所对应的标签值密文与有效位的位置进行对应。特征提供方根据有效位的位置顺序，将对应于相同有效位的标签值密文进行相加，以生成类别型特征值对应的特征密文。

具体地，如图7a所示，将类别型特征值a标记为001，将类别型特征值b标记为010，将类别型特征值c标记为100，从而使得不同的类别型特征值对应的标记，有效位不同。

在生成类别型特征值对应的特征密文时，通过有效位来确定对应的标签值密文，进而生成类别型特征值对应的特征密文。这种实现方式，可靠性更高，具有一定的抗风险能力。

另一种可能的实现方式是，特征提供方对不同的类别型特征值依次进行正整数编号，并将类别型特征值相同的样本，所对应的标签值密文与正整数进行对应。特征提供方根据正整数的取值，将对应于相同正整数的标签值密文进行相加，以生成类别型特征值对应的特征密文。

具体地，如图7b所示，将类别型特征值a标记为1，将类别型特征值b标记为2，将类别型特征值c标记为3，从而使用序号对不同的类别型特征值进行标记。

在生成类别型特征值对应的特征密文时，将序号来确定对应的标签值密文，进而生成类别型特征值对应的特征密文。这种实现方式，当类别型特征值较多时，占用内存资源较少。

为了更加清楚地说明本说明书实施例所提出的机器学习模型的训练样本的筛选方法，下面进行举例说明。

图8为本说明书实施例所提出的机器学习模型的训练样本的筛选方法的一个示例的流程图。如图8所示，样本包括正例样本和反例样本，正例样本对应的标签值为1，反例样本对应的标签值为0，标签提供方分别对标签值1和标签值0进行同态加密，得到对应的标签值密文，并将标签值密文发送给特征提供方。

特征提供方根据样本的类别型特征值x，以及样本对应的标签值密文，建立类别型特征值x与对应的标签值密文之间的对应关系，进而将对应于类别型特征值x对应的标签值密文进行相加，以生成类别型特征值x对应的特征密文，并将每个类别型特征值对应的特征密文发送给标签提供方。

标签提供方根据类别型特征值x对应的特征密文，确定类别型特征值为x的正例样本数量。将类别型特征值为x的正例样本数量，以及正例样本总数量发送给特征提供方。

特征提供方根据样本总数量，每个类别型特征值对应的正例样本数量，以及正例样本总数量，对类别型特征变量进行价值评估。特征提供方根据评估结果，对样本进行筛选。

为了实现上述实施例，本说明书实施例还提出了一种机器学习模型的训练样本的筛选方法，该方法在特征提供方实现，图9为本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法的流程示意图。如图9所示，该方法包括以下步骤：

步骤S301，从标签提供方接收标签值密文。

其中，标签值密文由样本的标签值经过同态加密后生成。

步骤S303，根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。

步骤S305，从标签提供方接收标签值与类别型特征值的对应关系。

其中，对应关系由特征密文经过同态解密后生成。

步骤S307，根据对应关系，对类别型特征变量进行价值评估。

步骤S309，根据评估结果，对样本进行筛选。

需要说明的是，对前述实施例中的步骤S101-步骤S109的解释说明，也适用于本说明书实施例的步骤S301-步骤S309，此处不再赘述。

综上所述，本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法，该方法在特征提供方实现，从标签提供方接收标签值密文。其中，标签值密文由样本的标签值经过同态加密后生成。根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。从标签提供方接收标签值与类别型特征值的对应关系。其中，对应关系由特征密文经过同态解密后生成。根据对应关系，对类别型特征变量进行价值评估。根据评估结果，对样本进行筛选。由此，通过同态加密技术，使得特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的类别型特征值，依然能够对类别型特征变量进行价值评估，进而根据评估结果，对样本进行筛选，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

为了实现上述实施例，本说明书实施例还提出了另一种机器学习模型的训练样本的筛选方法，该方法在特征提供方实现，图10为本说明书实施例所提供的另一种机器学习模型的训练样本的筛选方法的流程示意图，如图10所示，该方法包括以下步骤：

步骤S401，从标签提供方接收标签值密文。

其中，标签值密文由样本的标签值经过同态加密后生成。

此外，样本包括正例样本和反例样本，正例样本将1作为标签值，反例样本将0作为标签值。

步骤S403，将类别型特征值相同的样本，所对应的标签值密文进行相加，以生成类别型特征值对应的特征密文。

步骤S405，从标签提供方接收类别型特征值对应的正例样本的数量。

其中，类别型特征值对应的正例样本的数量由特征密文经过同态解密后生成。

步骤S407，从标签提供方获取正例样本的总数量。

步骤S409，根据类别型特征值对应的正例样本的数量，以及正例样本的总数量，对类别型特征变量进行价值评估。

步骤S411，根据评估结果，对样本进行筛选。

需要说明的是，对前述实施例中的步骤S201-步骤S211的解释说明，也适用于本说明书实施例的步骤S401-步骤S411，此处不再赘述。

此外，需要说明的是，在前述实施例中，对不同的类别型特征值进行区分时，可以采用不同的方式。

一种可能的实现方式是，特征提供方对不同的类别型特征值进行一位有效编号，并将类别型特征值相同的样本，所对应的标签值密文与有效位的位置进行对应。特征提供方根据有效位的位置顺序，将对应于相同有效位的标签值密文进行相加，以生成类别型特征值对应的特征密文。

为了实现上述实施例，本说明书实施例还提出了一种机器学习模型的训练样本的筛选系统，图11为本说明书实施例所提出的一种机器学习模型的训练样本的筛选系统的结构示意图，如图11所示，该系统包括：标签提供方和特征提供方，其中，

标签提供方用于，对样本的标签值进行同态加密，以生成不同样本对应的标签值密文，并将标签值密文发送给特征提供方。对特征密文进行同态解密，以生成标签值与类别型特征值的对应关系，并将对应关系发送给特征提供方。

特征提供方用于，根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。根据对应关系，对类别型特征变量进行价值评估。根据评估结果，对样本进行筛选。

需要说明的是，前述对机器学习模型的训练样本的筛选方法实施例的解释说明，也适用于本说明书实施例的机器学习模型的训练样本的筛选系统，此处不再赘述。

综上所述，本说明书实施例所提供的一种机器学习模型的训练样本的筛选系统，包括标签提供方和特征提供方。标签提供方对样本的标签值进行同态加密，以生成不同样本对应的标签值密文，并将标签值密文发送给特征提供方。特征提供方根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。标签提供方对特征密文进行同态解密，以生成标签值与类别型特征值的对应关系，并将对应关系发送给特征提供方。特征提供方根据对应关系，对类别型特征变量进行价值评估。特征提供方根据评估结果，对样本进行筛选。由此，通过同态加密技术，使得特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的类别型特征值，依然能够对类别型特征变量进行价值评估，进而根据评估结果，对样本进行筛选，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

为了实现上述实施例，本说明书实施例还提出了一种机器学习模型的训练样本的筛选装置，图12为本说明书实施例所提出的一种机器学习模型的训练样本的筛选装置的结构示意图，如图12所示，该装置包括：第一接收模块510，对应模块520，发送模块530，第二接收模块540，评估模块550，筛选模块560。

第一接收模块510，用于从标签提供方接收标签值密文。

其中，标签值密文由样本的标签值经过同态加密后生成。

对应模块520，用于根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文。

发送模块530，用于将特征密文发送给标签提供方。

第二接收模块540，用于从标签提供方接收标签值与类别型特征值的对应关系。

其中，对应关系由特征密文经过同态解密后生成。

评估模块550，用于根据对应关系，对类别型特征变量进行价值评估。

筛选模块560，用于根据评估结果，对样本进行筛选。

进一步地，样本的类型包括自然人、法人、其他组织中的任意一种。

需要说明的是，前述对机器学习模型的训练样本的筛选方法实施例的解释说明，也适用于本说明书实施例的机器学习模型的训练样本的筛选装置，此处不再赘述。

综上所述，本说明书实施例所提供的一种机器学习模型的训练样本的筛选装置，该装置位于特征提供方，在对类别型特征变量进行价值评估时，从标签提供方接收标签值密文。其中，标签值密文由样本的标签值经过同态加密后生成。根据样本对应的类别型特征值，将标签值密文与类别型特征值进行对应，以生成类别型特征值对应的特征密文，并将特征密文发送给标签提供方。从标签提供方接收标签值与类别型特征值的对应关系。其中，对应关系由特征密文经过同态解密后生成。根据对应关系，对类别型特征变量进行价值评估。根据评估结果，对样本进行筛选。由此，通过同态加密技术，使得特征提供方无法获知每个样本对应的标签值，标签提供方无法获知每个样本对应的类别型特征值，依然能够对类别型特征变量进行价值评估，进而根据评估结果，对样本进行筛选，从而防止泄露用户的隐私数据，保护了用户的数据信息安全。

为了实现上述实施例，本说明书实施例还提出了另一种机器学习模型的训练样本的筛选装置，图13为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选装置的结构示意图，如图13所示，该装置包括：第一接收模块610，对应模块620，发送模块630，第二接收模块640，评估模块650，筛选模块660。

第一接收模块610，用于从标签提供方接收标签值密文。

其中，标签值密文由样本的标签值经过同态加密后生成。

对应模块620，用于将类别型特征值相同的样本，所对应的标签值密文进行相加，以生成类别型特征值对应的特征密文。

发送模块630，用于将特征密文发送给标签提供方。

第二接收模块640，用于从标签提供方接收类别型特征值对应的正例样本的数量。

评估模块650，用于根据类别型特征值对应的正例样本的数量，对类别型特征变量进行价值评估。

筛选模块660，用于根据评估结果，对样本进行筛选。

其中，样本包括正例样本和反例样本，正例样本将1作为标签值，反例样本将0作为标签值。

评估模块650，包括：获取子模块651，用于从标签提供方获取正例样本的总数量。评估子模块652，用于根据类别型特征值对应的正例样本的数量，以及正例样本的总数量，对类别型特征变量进行价值评估。

进一步地，为了对类别型特征值进行区分，一种可能的实现方式是，对应模块620，包括：编号子模块621，用于对不同的类别型特征值依次进行正整数编号。对应子模块622，用于将类别型特征值相同的样本，所对应的标签值密文与正整数进行对应。相加子模块623，用于根据正整数的取值，将对应于相同正整数的标签值密文进行相加，以生成类别型特征值对应的特征密文。

从而，使用0和1作为正例样本和反例样本的标签值，使得特征提供方通过对类别型特征值对应的标签值密文进行相加，来确定该类别型特征值对应的正例样本的数量，进而对类别型特征变量进行价值评估。

为了实现上述实施例，本说明书实施例还提出一种计算机设备，包括存储器和处理器；存储器上存储有可由处理器运行的计算机程序；当处理器运行计算机程序时，执行如前述方法实施例的机器学习模型的训练样本的筛选方法。

为了实现上述实施例，实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述方法实施例的机器学习模型的训练样本的筛选方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书实施例的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书实施例中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本说明书实施例中的具体含义。

在本说明书实施例中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器学习模型的训练样本的筛选方法，包括：

标签提供方对样本的标签值进行同态加密，以生成不同所述样本对应的标签值密文，并将所述标签值密文发送给特征提供方；

所述特征提供方对不同的类别型特征值依次进行正整数编号，并将所述类别型特征值相同的样本，所对应的标签值密文与所述正整数进行对应；

所述特征提供方根据所述正整数的取值，将对应于相同所述正整数的所述标签值密文进行相加，以生成所述类别型特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；

所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述类别型特征值的对应关系，并将所述对应关系发送给所述特征提供方；

所述特征提供方根据所述对应关系，对类别型特征变量进行价值评估；以及

所述特征提供方根据评估结果，对所述样本进行筛选。

2.如权利要求1所述的方法，其中，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。

3.如权利要求2所述的方法，其中，所述标签提供方对所述特征密文进行同态解密，以生成所述标签值与所述类别型特征值的对应关系，包括：

所述标签提供方对所述特征密文进行同态解密，以生成所述类别型特征值对应的所述正例样本的数量。

4.如权利要求3所述的方法，其中，所述特征提供方根据所述对应关系，对类别型特征变量进行价值评估，包括：

所述特征提供方从所述标签提供方获取所述正例样本的总数量；

所述特征提供方根据所述类别型特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述类别型特征变量进行价值评估。

5.如权利要求1-4中任一项所述的方法，其中，所述样本的类型包括自然人、法人、其他组织中的任意一种。

6.一种机器学习模型的训练样本的筛选方法，所述方法在特征提供方实现，包括：

从标签提供方接收标签值密文；其中，所述标签值密文由样本的标签值经过同态加密后生成；

对不同的类别型特征值依次进行正整数编号，并将所述类别型特征值相同的样本，所对应的标签值密文与所述正整数进行对应；

根据所述正整数的取值，将对应于相同所述正整数的所述标签值密文进行相加，以生成所述类别型特征值对应的特征密文，并将所述特征密文发送给所述标签提供方；

从所述标签提供方接收所述标签值与所述类别型特征值的对应关系；其中，所述对应关系由所述特征密文经过同态解密后生成；

根据所述对应关系，对类别型特征变量进行价值评估；以及

根据评估结果，对所述样本进行筛选。

7.如权利要求6所述的方法，其中，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。

8.如权利要求7所述的方法，其中，所述标签值与所述类别型特征值的对应关系包括所述类别型特征值对应的所述正例样本的数量。

9.如权利要求8所述的方法，其中，所述根据所述对应关系，对所述类别型特征变量进行价值评估，包括：

从所述标签提供方获取所述正例样本的总数量；

根据所述类别型特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述类别型特征变量进行价值评估。

10.如权利要求6-9中任一项所述的方法，其中，所述样本的类型包括自然人、法人、其他组织中的任意一种。

11.一种机器学习模型的训练样本的筛选系统，包括标签提供方和特征提供方，其中，

所述标签提供方用于，对样本的标签值进行同态加密，以生成不同所述样本对应的标签值密文，并将所述标签值密文发送给所述特征提供方；对特征密文进行同态解密，以生成所述标签值与类别型特征值的对应关系，并将所述对应关系发送给所述特征提供方；以及

所述特征提供方用于，对不同的类别型特征值依次进行正整数编号，并将所述类别型特征值相同的样本，所对应的标签值密文与所述正整数进行对应；根据所述正整数的取值，将对应于相同所述正整数的所述标签值密文进行相加，以生成所述类别型特征值对应的所述特征密文，并将所述特征密文发送给所述标签提供方；根据所述对应关系，对类别型特征变量进行价值评估；根据评估结果，对所述样本进行筛选。

12.一种机器学习模型的训练样本的筛选装置，所述装置位于特征提供方，包括：

第一接收模块，用于从标签提供方接收标签值密文；其中，所述标签值密文由样本的标签值经过同态加密后生成；

对应模块，用于对不同的类别型特征值依次进行正整数编号，并将所述类别型特征值相同的样本，所对应的标签值密文与所述正整数进行对应；根据所述正整数的取值，将对应于相同所述正整数的所述标签值密文进行相加，以生成所述类别型特征值对应的特征密文；

发送模块，用于将所述特征密文发送给所述标签提供方；

第二接收模块，用于从所述标签提供方接收所述标签值与所述类别型特征值的对应关系；其中，所述对应关系由所述特征密文经过同态解密后生成；

评估模块，用于根据所述对应关系，对类别型特征变量进行价值评估；以及

筛选模块，用于根据评估结果，对所述样本进行筛选。

13.如权利要求12所述的装置，其中，所述样本包括正例样本和反例样本，所述正例样本将1作为所述标签值，所述反例样本将0作为所述标签值。

14.如权利要求13所述的装置，其中，所述标签值与所述类别型特征值的对应关系包括所述类别型特征值对应的所述正例样本的数量。

15.如权利要求14所述的装置，其中，所述评估模块，包括：

获取子模块，用于从所述标签提供方获取所述正例样本的总数量；

评估子模块，用于根据所述类别型特征值对应的所述正例样本的数量，以及所述正例样本的总数量，对所述类别型特征变量进行价值评估。

16.如权利要求12-15中任一项所述的装置，其中，所述样本的类型包括自然人、法人、其他组织中的任意一种。

17.一种计算机设备，包括存储器和处理器；所述存储器上存储有可由处理器运行的计算机程序；所述处理器运行所述计算机程序时，执行如权利要求6-10中任一项所述的机器学习模型的训练样本的筛选方法。

18.一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求6-10中任一项所述的机器学习模型的训练样本的筛选方法。