CN111047051A - 机器学习模型的训练样本的筛选方法及其系统 - Google Patents

机器学习模型的训练样本的筛选方法及其系统 Download PDF

Info

Publication number
CN111047051A
CN111047051A CN201911323317.8A CN201911323317A CN111047051A CN 111047051 A CN111047051 A CN 111047051A CN 201911323317 A CN201911323317 A CN 201911323317A CN 111047051 A CN111047051 A CN 111047051A
Authority
CN
China
Prior art keywords
value
feature
interval
numerical
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911323317.8A
Other languages
English (en)
Other versions
CN111047051B (zh
Inventor
周亚顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911323317.8A priority Critical patent/CN111047051B/zh
Publication of CN111047051A publication Critical patent/CN111047051A/zh
Application granted granted Critical
Publication of CN111047051B publication Critical patent/CN111047051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种机器学习模型的训练样本的筛选方法及其系统,包括:标签提供方对样本的标签值进行同态加密,以生成不同样本对应的标签值密文。特征提供方根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文。标签提供方对特征密文进行同态解密,以生成标签值与数值区间特征值的对应关系。特征提供方根据对应关系,对数值区间特征变量进行价值评估。特征提供方根据评估结果,对样本进行筛选。由此,特征提供方无法获知每个样本对应的标签值,标签提供方无法获知每个样本对应的数值区间特征值,从而防止泄露用户的隐私数据,保护了用户的数据信息安全。

Description

机器学习模型的训练样本的筛选方法及其系统
【技术领域】
本说明书涉及数据处理技术领域,尤其涉及一种机器学习模型的训练样本的筛选方法及其系统。
【背景技术】
在多方联合计算平台中,需要参与联合的各个用户提供隐私数据,实现联合计算,建立机器学习模型。在建立机器学习模型时,参与联合的各个用户都会提供隐私数据,使得训练数据的数据量过大,因此需要对用户提供的隐私数据进行筛选。
首先对用户提供的隐私数据进行分类,一种作为特征变量,另一种作为标签值,通过对不同的特征变量进行价值评估,从而筛选出与标签值关联度较大的特征变量,与标签值一起建立机器学习模型。
随着通用数据保护条例(general data protection regulation,GDPR)的生效,用户的隐私数据所受到的管制越来越严格。尤其是在国际场景,隐私数据不泄露、用户数据可用不可见等也成为越来越多数据使用的需求。因此,如何在隐私数据不泄露的情况下,实现对隐私数据的处理成为一个难题,亟需一种既能对用户的隐私数据进行筛选,又能防止用户的隐私数据泄露的技术方案。
【发明内容】
本说明书实施例旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本说明书实施例的第一个目的在于提出一种机器学习模型的训练样本的筛选方法,特征提供方无法获知每个样本对应的标签值,标签提供方无法获知每个样本对应的数值区间特征值,从而防止泄露用户的隐私数据,保护了用户的数据信息安全。
本说明书实施例的第二个目的在于提出一种机器学习模型的训练样本的筛选方法。
本说明书实施例的第三个目的在于提出一种机器学习模型的训练样本的筛选系统。
本说明书实施例的第四个目的在于提出一种机器学习模型的训练样本的筛选装置。
本说明书实施例的第五个目的在于提出一种计算机设备。
本说明书实施例的第六个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本说明书实施例第一方面实施例提出了一种机器学习模型的训练样本的筛选方法,包括:标签提供方对样本的标签值进行同态加密,以生成不同所述样本对应的标签值密文,并将所述标签值密文发送给特征提供方;所述特征提供方根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,并将所述特征密文发送给所述标签提供方;所述标签提供方对所述特征密文进行同态解密,以生成所述标签值与所述数值区间特征值的对应关系,并将所述对应关系发送给所述特征提供方;所述特征提供方根据所述对应关系,对数值区间特征变量进行价值评估;以及所述特征提供方根据评估结果,对所述样本进行筛选。
和现有技术相比,本说明书实施例进行机器学习模型的训练样本的筛选时,通过同态加密技术,使得特征提供方无法获知每个样本对应的标签值,标签提供方无法获知每个样本对应的数值区间特征值,依然能够对数值区间特征变量进行价值评估,进而根据评估结果,对样本进行筛选,从而防止泄露用户的隐私数据,保护了用户的数据信息安全。
另外,本说明书实施例的机器学习模型的训练样本的筛选方法,还具有如下附加的技术特征:
可选地,所述样本包括正例样本和反例样本,所述正例样本将1作为所述标签值,所述反例样本将0作为所述标签值。
可选地,所述特征提供方根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,包括:所述特征提供方将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
可选地,所述标签提供方对所述特征密文进行同态解密,以生成所述标签值与所述数值区间特征值的对应关系,包括:所述标签提供方对所述特征密文进行同态解密,以生成所述数值区间特征值对应的所述正例样本的数量。
可选地,所述特征提供方根据所述对应关系,对数值区间特征变量进行价值评估,包括:所述特征提供方从所述标签提供方获取所述正例样本的总数量;所述特征提供方根据所述数值区间特征值对应的所述正例样本的数量,以及所述正例样本的总数量,对所述数值区间特征变量进行价值评估。
可选地,所述特征提供方将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文,包括:所述特征提供方对所述数值区间特征值进行排序;所述特征提供方根据所述数值区间特征值的顺序,将对应于相同所述数值区间特征值的所述标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
可选地,在所述特征提供方根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文之前,还包括:所述特征提供方根据所述样本的数值型特征值,确定所述样本的数值型特征区间;所述特征提供方根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况,对所述样本的数值型特征区间进行切分,以生成所述数值区间特征值对应的数值范围。
可选地,所述样本的类型包括自然人、法人、其他组织中的任意一种。
本说明书实施例第二方面实施例提出了一种机器学习模型的训练样本的筛选方法,所述方法在特征提供方实现,包括:从标签提供方接收标签值密文;其中,所述标签值密文由样本的标签值经过同态加密后生成;根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,并将所述特征密文发送给所述标签提供方;从所述标签提供方接收所述标签值与所述数值区间特征值的对应关系;其中,所述对应关系由所述特征密文经过同态解密后生成;根据所述对应关系,对数值区间特征变量进行价值评估;以及根据评估结果,对所述样本进行筛选。
另外,本说明书实施例的机器学习模型的训练样本的筛选方法,还具有如下附加的技术特征:
可选地,所述样本包括正例样本和反例样本,所述正例样本将1作为所述标签值,所述反例样本将0作为所述标签值。
可选地,所述根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,包括:将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
可选地,所述标签值与所述数值区间特征值的对应关系包括所述数值区间特征值对应的所述正例样本的数量。
可选地,所述根据所述对应关系,对数值区间特征变量进行价值评估,包括:从所述标签提供方获取所述正例样本的总数量;根据所述数值区间特征值对应的所述正例样本的数量,以及所述正例样本的总数量,对所述数值区间特征变量进行价值评估。
可选地,所述将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文,包括:对所述数值区间特征值进行排序;根据所述数值区间特征值的顺序,将对应于相同所述数值区间特征值的所述标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
可选地,在所述根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文之前,还包括:根据所述样本的数值型特征值,确定所述样本的数值型特征区间;根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况,对所述样本的数值型特征区间进行切分,以生成所述数值区间特征值对应的数值范围。
可选地,所述样本的类型包括自然人、法人、其他组织中的任意一种。
本说明书实施例第三方面实施例提出了一种机器学习模型的训练样本的筛选系统,包括标签提供方和特征提供方,其中,所述标签提供方用于,对样本的标签值进行同态加密,以生成不同所述样本对应的标签值密文,并将所述标签值密文发送给特征提供方;对特征密文进行同态解密,以生成所述标签值与数值区间特征值的对应关系,并将所述对应关系发送给所述特征提供方;以及所述特征提供方用于,根据所述样本对应的所述数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的所述特征密文,并将所述特征密文发送给所述标签提供方;根据所述对应关系,对数值区间特征变量进行价值评估;根据评估结果,对所述样本进行筛选。
本说明书实施例第四方面实施例提出了一种机器学习模型的训练样本的筛选装置,所述装置位于特征提供方,包括:第一接收模块,用于从标签提供方接收标签值密文;其中,所述标签值密文由样本的标签值经过同态加密后生成;对应模块,用于根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文;发送模块,用于将所述特征密文发送给所述标签提供方;第二接收模块,用于从所述标签提供方接收所述标签值与所述数值区间特征值的对应关系;其中,所述对应关系由所述特征密文经过同态解密后生成;评估模块,用于根据所述对应关系,对数值区间特征变量进行价值评估;以及筛选模块,用于根据评估结果,对所述样本进行筛选。
另外,本说明书实施例的机器学习模型的训练样本的筛选装置,还具有如下附加的技术特征:
可选地,所述样本包括正例样本和反例样本,所述正例样本将1作为所述标签值,所述反例样本将0作为所述标签值。
可选地,所述对应模块具体用于,将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
可选地,所述标签值与所述数值区间特征值的对应关系包括所述数值区间特征值对应的所述正例样本的数量。
可选地,所述评估模块,包括:获取子模块,用于从所述标签提供方获取所述正例样本的总数量;评估子模块,用于根据所述数值区间特征值对应的所述正例样本的数量,以及所述正例样本的总数量,对所述数值区间特征变量进行价值评估。
可选地,所述对应模块,包括:排序子模块,用于对所述数值区间特征值进行排序;相加子模块,用于根据所述数值区间特征值的顺序,将对应于相同所述数值区间特征值的所述标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
可选地,所述装置还包括:确定模块,用于根据所述样本的数值型特征值,确定所述样本的数值型特征区间;切分模块,用于根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况,对所述样本的数值型特征区间进行切分,以生成所述数值区间特征值对应的数值范围。
可选地,所述样本的类型包括自然人、法人、其他组织中的任意一种。
本说明书实施例第五方面实施例提出了一种计算机设备,包括存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如前述方法实施例所述的机器学习模型的训练样本的筛选方法。
本说明书实施例第六方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例所述的机器学习模型的训练样本的筛选方法。
本说明书实施例附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本说明书实施例的实践了解到。
【附图说明】
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为多方联合计算平台对机器学习模型进行训练的一个示例的示意图;
图2a为特征提供方提供的样本的数值区间特征值列表;
图2b为标签提供方提供的样本的标签值列表;
图3为本说明书实施例所提出的一种机器学习模型的训练样本的筛选方法的流程示意图;
图4为图2a中的特征提供方获取标签值密文后的样本列表;
图5为特征提供方提供的样本的数值型特征值列表;
图6a为特征提供方提供的样本的数值区间特征值列表;
图6b为标签提供方提供的样本的标签值列表;
图6c为图6a中的特征提供方获取标签值密文后的样本列表;
图7为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选方法的流程示意图;
图8a为数值区间特征值的一种标记方式的示意图;
图8b为数值区间特征值的另一种标记方式的示意图;
图9为本说明书实施例所提出的机器学习模型的训练样本的筛选方法的一个示例的流程图;
图10为本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法的流程示意图;
图11为本说明书实施例所提供的另一种机器学习模型的训练样本的筛选方法的流程示意图;
图12为本说明书实施例所提出的一种机器学习模型的训练样本的筛选系统的结构示意图;
图13为本说明书实施例所提出的一种机器学习模型的训练样本的筛选装置的结构示意图;以及
图14为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选装置的结构示意图。
【具体实施方式】
下面详细描述本说明书的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本说明书实施例,而不能理解为对本说明书实施例的限制。
下面参考附图描述本说明书实施例的机器学习模型的训练样本的筛选方法及其系统。
基于前述说明,可以知道,用户的隐私数据分为特征变量和标签值,特征变量根据类型不同,可以进一步分为数值区间特征值和类别型特征变量,比如说:年龄属于数值型特征变量,15岁属于数值型特征值,年龄段属于数值区间特征变量,10岁-18岁属于数值区间特征值,性别属于类别型特征变量,男性、女性属于类别型特征值。
在通过多方联合计算平台对机器学习模型进行训练时,需要参与联合的不同用户提供训练样本的数值区间特征值,以及标签值,生成训练样本。可以理解,用户提供的数值区间特征变量有多种,其中有的数值区间特征变量与标签变量的关联度较高,有的数值区间特征变量与标签变量的关联度较低,因此需要对用户提供的训练样本进行筛选,从中筛选出具有与标签变量关联度较高的数值区间特征变量的训练样本,并使用筛选后的训练样本对机器学习模型进行训练。
举例来说,在广告投放时,需要判断被投放者是否为广告投放的目标,那么就需要通过训练完的机器学习模型来对海量的数据进行分析,从中确定广告投放的目标。
图1为多方联合计算平台对机器学习模型进行训练的一个示例的示意图。如图1所示,用户1提供了张三、李四、王五等人的年龄信息,以及张三、王五等人的收入信息,用户2提供了张三、李四、王五等人是否为目标客户的信息。其中,年龄信息和收入信息属于数值区间特征变量,是否为目标客户的信息属于标签变量。
可以看出,用户1没有提供李四的收入信息,只提供了李四的年龄信息,因此生成的训练样本中,张三、王五具有两项数值区间特征变量,李四只具有一项数值区间特征变量。
第一种可能的情况,经过对上述两项数值区间特征变量进行价值评估,发现年龄和收入与是否为目标客户的关联度都较大,则将李四从训练样本中去除。
第二种可能的情况,经过对上述两项数值区间特征变量进行价值评估,发现年龄与是否为目标客户的关联度较大,而收入与是否为目标客户的关联度较小,则将收入从机器学习模型的训练特征中去除。
第三种可能的情况,经过对上述两项数值区间特征变量进行价值评估,发现收入与是否为目标客户的关联度较大,而年龄与是否为目标客户的关联度较小,则将李四从训练样本中去除,并且将年龄从机器学习模型的训练特征中去除。
第四种可能的情况,经过对上述两项数值区间特征变量进行价值评估,发现年龄和收入与是否为目标客户的关联度都较小,则将年龄和收入从机器学习模型的训练特征中去除,并从其他用户提供的数值区间特征变量中确定机器学习模型的训练特征。
此外,上述机器学习模型的训练方法也可以适用于金融风险控制领域,使用类似的训练方法在多方联合计算平台中对机器学习模型进行训练,获取自然人、法人、其他组织的数值区间特征变量,输入训练完的机器学习模型,确定自然人、法人、其他组织是否为高风险客户。
基于对上述例子的说明,可以知道,由特征提供方提供样本的数值区间特征变量,标签提供方提供样本的标签变量,样本的数值区间特征值和样本的标签值共同组成了样本。
特征提供方需要根据样本的标签变量对样本的数值区间特征变量进行价值评估,进而根据评估结果,对训练样本进行筛选。但是为了对标签提供方的数据进行保密,特征提供方不能获知每个样本对应的标签值,无法直接根据每个样本对应的标签值,实现机器学习模型的训练样本的筛选。
针对这一问题,本说明书实施例提出了一种机器学习模型的训练样本的筛选方法,特征提供方无需获知每个样本对应的标签值,就能够获知标签值与数值区间特征值的对应关系,进而对数值区间特征变量进行价值评估,实现了对标签提供方中每个样本的标签值进行保密。
为了更加清楚地说明本说明书实施例所提供的机器学习模型的训练样本的筛选方法,下面先对样本的数值区间特征变量和标签变量进行举例说明。
图2a为特征提供方提供的样本的数值区间特征值列表。图2b为标签提供方提供的样本的标签值列表。
如图2a和图2b所示,用于数据统计的共有9个样本,每个样本都具有数值区间特征变量A和标签变量B。1号样本的数值区间特征值为(-∞,30],标签值为否,2号样本的数值区间特征值为(30,60],标签值为是,3号样本的数值区间特征值为(30,60],标签值为否,4号样本的数值区间特征值为(-∞,30],标签值为是,5号样本的数值区间特征值为(60,+∞),标签值为是,6号样本的数值区间特征值为(30,60],标签值为否,7号样本的数值区间特征值为(-∞,30],标签值为是,8号样本的数值区间特征值为(30,60],标签值为是,9号样本的数值区间特征值为(60,+∞),标签值为否。应当理解,对于特征提供方来说,只能获知9个样本的数值区间特征值,而不能获知对应的标签值。对于标签提供方来说,只能获知9个样本的标签值,而不能获知对应的数值区间特征值。
基于前述说明,可以知道,为了对样本进行筛选,特征提供方需要对数值区间特征变量进行价值评估,从而筛选出具有与标签变量关联度较大的数值区间特征变量的样本。
图3为本说明书实施例所提出的一种机器学习模型的训练样本的筛选方法的流程示意图。如图3所示,该方法包括以下步骤:
步骤S101,标签提供方对样本的标签值进行同态加密,以生成不同样本对应的标签值密文,并将标签值密文发送给特征提供方。
其中,同态加密是一种特殊的加密函数,对明文进行加法和乘法运算再加密,与加密后对密文进行相应的运算,结果是等价的,即E(a+b)=E(a)⊕E(b),E为加密函数,a和b为明文。
需要说明的是,为了避免特征提供方能够直接从标签提供方获取每个样本对应的标签值,本说明书实施例采用同态加密技术,对样本的标签值进行加密,得到标签值对应的标签值密文,并将标签值密文发送给特征提供方。
需要强调的是,本说明书实施例在对样本的标签值进行加密时,采用的是非确定性加密技术,也就是说,相同的明文经过加密后得到的密文不同。
还是以前述的样本为例进行说明,对于样本1和3,对应的标签值都是否,但是经过加密后得到的否的密文不同,使得特征提供方无法根据标签值密文来推断出每个样本对应的标签值。
应当理解,在对标签值进行加密的过程中,没有打乱标签值密文和样本序号之间的对应关系,在将标签值密文发送给特征提供方时,也没有打乱标签值密文和样本序号之间的对应关系,因此特征提供方可以根据样本序号,将标签值密文与样本进行对应。
步骤S103,特征提供方根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。
具体地,特征提供方根据样本的序号,将样本与标签值密文进行对应,根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,从而确定不同的数值区间特征值对应的标签值密文,同一个数值区间特征值对应的特征密文进行处理,即可得到该数值区间特征值对应的特征密文。
还是以前述的样本为例进行说明,图4为图2a中的特征提供方获取标签值密文后的样本列表。如图4所示,特征提供方获取标签值密文后,数值区间特征值(-∞,30]对应的标签值密文有2个是的密文和1个否的密文,数值区间特征值(30,60]对应的标签值密文有2个是的密文和2个否的密文,数值区间特征值(60,+∞)对应的标签值密文有1个是的密文和1个否的密文,进而根据2个是的密文和1个否的密文,确定数值区间特征值(-∞,30]对应的特征密文,根据2个是的密文和2个否的密文,确定数值区间特征值(30,60]对应的特征密文,根据1个是的密文和1个否的密文,确定数值区间特征值(60,+∞)对应的特征密文。
步骤S105,标签提供方对特征密文进行同态解密,以生成标签值与数值区间特征值的对应关系,并将对应关系发送给特征提供方。
基于前述对同态加密技术的说明,可以知道,标签提供方对特征密文进行同态解密后,能够生成标签值和数值区间特征值的对应关系。具体来说,将标签值密文生成特征密文的处理过程,用于对标签值进行处理,得到的处理结果,就是对特征密文进行同态解密的结果。因此,标签提供方对特征密文进行同态解密,相当于特征提供方直接对标签值进行处理,得到处理结果。
需要说明的是,由于标签提供方在生成特征密文的过程中,将标签值密文与数值区间特征值进行了对应,因此同态解密的结果也与特征数值区间相对应,从而实现了标签值的处理结果与特征数值区间的对应。
步骤S107,特征提供方根据对应关系,对数值区间特征变量进行价值评估。
可以理解,特征提供方在根据样本的数值区间特征值和标签值,对数值区间特征变量进行价值评估时,需要对样本的标签值进行统计上的处理,得到每个数值区间特征值对应的处理结果,进而根据该处理结果,进行机器学习模型的训练样本的筛选。
而在步骤S101、步骤S103和步骤S105中,通过同态加密技术,使得特征提供方对样本的标签值密文进行处理,得到数值区间特征值对应的特征密文,并由标签提供方对特征密文进行解密,得到与不同数值区间特征值相对应的标签值进行相应的处理后的结果。也就是说,同态解密的结果就是特征提供方对样本的标签值进行统计上的处理后的结果,并且反映了标签值与数值区间特征值的对应关系。
因此,特征提供方可以根据同态解密的结果,对数值区间特征变量进行价值评估。
步骤S109,特征提供方根据评估结果,对样本进行筛选。
基于前述说明,可以知道,数值区间特征变量的价值即为该数值区间特征变量与标签变量的关联度,如果关联度较小,具体小于某个预设阈值,则将该数值区间特征变量从机器学习模型的训练特征中去除,如果样本的全部数值区间特征变量都从机器学习模型的训练特征中去除,则将该样本去除。
综上所述,本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法,标签提供方对样本的标签值进行同态加密,以生成不同样本对应的标签值密文,并将标签值密文发送给特征提供方。特征提供方根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。标签提供方对特征密文进行同态解密,以生成标签值与数值区间特征值的对应关系,并将对应关系发送给特征提供方。特征提供方根据对应关系,对数值区间特征变量进行价值评估。特征提供方根据评估结果,对样本进行筛选。由此,通过同态加密技术,使得特征提供方无法获知每个样本对应的标签值,标签提供方无法获知每个样本对应的数值区间特征值,依然能够对数值区间特征变量进行价值评估,进而根据评估结果,对样本进行筛选,从而防止泄露用户的隐私数据,保护了用户的数据信息安全。
此外,考虑到本说明书实施例所提出的机器学习模型,可以用于广告投放时目标客户的识别,或者是金融风险控制领域高风险客户的识别,因此上述样本的类别包括自然人、法人、其他组织中的任意一种。
需要特别说明的是,本说明书实施例中的样本的数值区间特征值是由数值型特征变量生成的。也就是说,在步骤S103,特征提供方根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方之前,还包括:根据样本的数值型特征值,确定样本的数值型特征区间。根据样本的数值型特征值在样本的数值型特征区间上的分布情况,对样本的数值型特征区间进行切分,以生成数值区间特征值对应的数值范围。
还是以前述的样本为例进行说明,图5为特征提供方提供的样本的数值型特征值列表。如图5所示,样本1的数值型特征值为13,样本2的数值型特征值为45,样本3的数值型特征值为32,样本4的数值型特征值为23,样本5的数值型特征值为67,样本6的数值型特征值为34,样本7的数值型特征值为12,样本8的数值型特征值为32,样本9的数值型特征值为70。
可以理解,由于样本的数值型特征值的数据粒度较小,不便于统计分析,因此本说明书实施例通过增大数据粒度的方式,将样本的数值型特征值转化为数值区间特征值。经过对样本的数值型特征值进行分析,确定了样本的数值型特征值在数值型特征区间上的分布情况,以30和60作为切分点,对数值型特征区间进行切分,得到(-∞,30],(30,60],(60,+∞)三个数值区间特征值,并根据样本的数值型特征值的大小,将样本与数值区间特征值进行对应。
具体来说,可以根据数值型特征值的分布密度,对数值型特征区间进行切分,使得切分后的每个数值区间特征值,所对应的样本的数量相同或者接近。
进一步地,为了便于特征提供方根据对应关系,对数值区间特征变量进行价值评估,本说明书实施例还提出了另一种机器学习模型的训练样本的筛选方法,其中,样本包括正例样本和反例样本,正例样本将1作为标签值,反例样本将0作为标签值。应当理解,正例样本和反例样本的标签值不同,因此可以分别采用1和0作为标签值。此外,应当理解的是,正例样本是业务方希望获取的样本,可以根据业务方的需求而进行调整。
图6a为特征提供方提供的样本的数值区间特征值列表。图6b为标签提供方提供的样本的标签值列表。图6c为图6a中的特征提供方获取标签值密文后的样本列表。
还是以前述的样本为例进行说明,如图6a、6b和6c所示,样本的标签值包括1和0,标签值为1的样本为正例样本,标签值为0的样本为反例样本,f(1)为标签值1对应的标签值密文,f(0)为标签值0对应的标签值密文。
基于前述说明,可以知道,本说明书实施例采用非确定性加密技术对标签值进行加密,因此标签值都为1的样本,对应的标签值密文f(1)不同,标签值都为0的样本,对应的标签值密文f(0)不同。
图7为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选方法的流程示意图。如图7所示,该方法包括以下步骤:
步骤S201,标签提供方对样本的标签值进行同态加密,以生成不同样本对应的标签值密文,并将标签值密文发送给特征提供方。
基于前述说明,可以知道,当正例样本的标签值为1,反例样本的标签值为0时,对标签值进行同态加密后,得到的标签值密文分别为f(0)和f(1)。
步骤S203,特征提供方将数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。
需要说明的是,特征提供方在对数值区间特征变量进行价值评估时,可以采用公式
Figure BDA0002327718170000111
Figure BDA0002327718170000112
计算每个数值区间特征值x的价值VIx,进而根据公式VI=∑VIx,计算数值区间特征变量的价值VI。
应当理解,在上述公式中,特征提供方能够直接获取样本的总数量,而正例样本的总数量和反例样本的总数量之和,即为样本的总数量。也就是说,在确定了正例样本的总数量之后,可以直接确定反例样本的总数量。
类似地,特征提供方能够直接获取数值区间特征值为x的样本数量,因此在确定了数值区间特征值为x的正例样本数量后,可以直接确定数值区间特征值为x的反例样本数量。
换句话说,特征提供方需要确定正例样本的总数量和数值区间特征值为x的正例样本数量。
基于前述说明,可以知道,正例样本的标签值为1,反例样本的标签值为0。因此,将数值区间特征值为x所对应的标签值相加,即可确定数值区间特征值为x的正例样本数量。
但是,特征提供方无法直接从标签提供方获取每个样本对应的标签值,因此不能直接对标签值进行相加。
基于前述对同态加密技术的说明,可以知道,对标签值密文进行相加处理后,再进行同态解密,得到的结果和直接对标签值进行相加处理的结果相同。也就是说,数值区间特征值为x对应的特征密文,进行同态解密后的结果,就是数值区间特征值为x的正例样本数量。
步骤S205,标签提供方对特征密文进行同态解密,以生成数值区间特征值对应的正例样本的数量,并将数值区间特征值对应的正例样本的数量发送给特征提供方。
可以理解,为了让特征提供方能够确定数值区间特征值对应的正例样本的数量,标签提供方对特征密文进行同态解密,并将结果发送给特征提供方。
步骤S207,特征提供方从标签提供方获取正例样本的总数量。
基于前述的说明,可以知道,特征提供方将全部样本的标签值相加,即可确定正例样本的总数量。
步骤S209,特征提供方根据数值区间特征值对应的正例样本的数量,以及正例样本的总数量,对数值区间特征变量进行价值评估。
可以理解,在确定了数值区间特征值对应的正例样本的数量后,即可确定数值区间特征值对应的反例样本的数量,在确定了正例样本的总数量后,即可确定反例样本的总数量,进而根据前述的公式,对数值区间特征变量进行价值评估。
步骤S211,特征提供方根据评估结果,对样本进行筛选。
需要说明的是,对前述实施例中的步骤S101-步骤S109的解释说明,也适用于本说明书实施例的步骤S201-步骤S211,此处不再赘述。
从而,使用0和1作为正例样本和反例样本的标签值,使得特征提供方通过对数值区间特征值对应的标签值密文进行相加,来确定该数值区间特征值对应的正例样本的数量,进而对数值区间特征变量进行价值评估,以及对样本进行筛选。
此外,需要说明的是,在前述实施例中,对不同的数值区间特征值进行区分时,可以采用不同的方式。图8a为数值区间特征值的一种标记方式的示意图。图8b为数值区间特征值的另一种标记方式的示意图。
还是以前述的样本为例进行说明,一种可能的实现方式是,特征提供方对不同的数值区间特征值进行一位有效编号,并将数值区间特征值相同的样本,所对应的标签值密文与有效位的位置进行对应。特征提供方根据有效位的位置顺序,将对应于相同有效位的标签值密文进行相加,以生成数值区间特征值对应的特征密文。
具体地,如图8a所示,将数值区间特征值(-∞,30]标记为001,将数值区间特征值(30,60]标记为010,将数值区间特征值(60,+∞)标记为100,从而使得不同的数值区间特征值对应的标记,有效位不同。
在生成数值区间特征值对应的特征密文时,通过有效位来确定对应的标签值密文,进而生成数值区间特征值对应的特征密文。这种实现方式,可靠性更高,具有一定的抗风险能力。
另一种可能的实现方式是,特征提供方对数值区间特征值进行排序,根据数值区间特征值的顺序,将对应于相同数值区间特征值的标签值密文进行相加,以生成数值区间特征值对应的特征密文。
具体地,如图8b所示,将数值区间特征值(-∞,30]标记为1,将数值区间特征值(30,60]标记为2,将数值区间特征值(60,+∞)标记为3,从而使用序号对不同的数值区间特征值进行标记。
在生成数值区间特征值对应的特征密文时,将序号来确定对应的标签值密文,进而生成数值区间特征值对应的特征密文。这种实现方式,当数值区间特征值较多时,占用内存资源较少。
为了更加清楚地说明本说明书实施例所提出的机器学习模型的训练样本的筛选方法,下面进行举例说明。
图9为本说明书实施例所提出的机器学习模型的训练样本的筛选方法的一个示例的流程图。如图9所示,样本包括正例样本和反例样本,正例样本对应的标签值为1,反例样本对应的标签值为0,标签提供方分别对标签值1和标签值0进行同态加密,得到对应的标签值密文,并将标签值密文发送给特征提供方。
特征提供方根据样本的数值区间特征值x,以及样本对应的标签值密文,建立数值区间特征值x与对应的标签值密文之间的对应关系,进而将对应于数值区间特征值x对应的标签值密文进行相加,以生成数值区间特征值x对应的特征密文,并将每个数值区间特征值对应的特征密文发送给标签提供方。
标签提供方根据数值区间特征值x对应的特征密文,确定数值区间特征值为x的正例样本数量。将数值区间特征值为x的正例样本数量,以及正例样本总数量发送给特征提供方。
特征提供方根据样本总数量,每个数值区间特征值对应的正例样本数量,以及正例样本总数量,对数值区间特征变量进行价值评估。特征提供方根据评估结果,对样本进行筛选。
为了实现上述实施例,本说明书实施例还提出了一种机器学习模型的训练样本的筛选方法,该方法在特征提供方实现,图10为本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法的流程示意图。如图10所示,该方法包括以下步骤:
步骤S301,从标签提供方接收标签值密文。
其中,标签值密文由样本的标签值经过同态加密后生成。
步骤S303,根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。
步骤S305,从标签提供方接收标签值与数值区间特征值的对应关系。
其中,对应关系由特征密文经过同态解密后生成。
步骤S307,根据对应关系,对数值区间特征变量进行价值评估。
步骤S309,根据评估结果,对样本进行筛选。
进一步地,为了增大数据粒度,以便进行数据统计分析,一种可能的实现方式是,在步骤S303,特征提供方根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方之前,还包括:根据样本的数值型特征值,确定样本的数值型特征区间。根据样本的数值型特征值在样本的数值型特征区间上的分布情况,对样本的数值型特征区间进行切分,以生成数值区间特征值对应的数值范围。
需要说明的是,对前述实施例中的步骤S101-步骤S109的解释说明,也适用于本说明书实施例的步骤S301-步骤S309,此处不再赘述。
综上所述,本说明书实施例所提供的一种机器学习模型的训练样本的筛选方法,该方法在特征提供方实现,从标签提供方接收标签值密文。其中,标签值密文由样本的标签值经过同态加密后生成。根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。从标签提供方接收标签值与数值区间特征值的对应关系。其中,对应关系由特征密文经过同态解密后生成。根据对应关系,对数值区间特征变量进行价值评估。根据评估结果,对样本进行筛选。由此,通过同态加密技术,使得特征提供方无法获知每个样本对应的标签值,标签提供方无法获知每个样本对应的数值区间特征值,依然能够对数值区间特征变量进行价值评估,进而根据评估结果,对样本进行筛选,从而防止泄露用户的隐私数据,保护了用户的数据信息安全。
为了实现上述实施例,本说明书实施例还提出了另一种机器学习模型的训练样本的筛选方法,该方法在特征提供方实现,图11为本说明书实施例所提供的另一种机器学习模型的训练样本的筛选方法的流程示意图,如图11所示,该方法包括以下步骤:
步骤S401,从标签提供方接收标签值密文。
其中,标签值密文由样本的标签值经过同态加密后生成。
此外,样本包括正例样本和反例样本,正例样本将1作为标签值,反例样本将0作为标签值。
步骤S403,将数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成数值区间特征值对应的特征密文。
步骤S405,从标签提供方接收数值区间特征值对应的正例样本的数量。
其中,数值区间特征值对应的正例样本的数量由特征密文经过同态解密后生成。
步骤S407,从标签提供方获取正例样本的总数量。
步骤S409,根据数值区间特征值对应的正例样本的数量,以及正例样本的总数量,对数值区间特征变量进行价值评估。
步骤S411,根据评估结果,对样本进行筛选。
需要说明的是,对前述实施例中的步骤S201-步骤S211的解释说明,也适用于本说明书实施例的步骤S401-步骤S411,此处不再赘述。
从而,使用0和1作为正例样本和反例样本的标签值,使得特征提供方通过对数值区间特征值对应的标签值密文进行相加,来确定该数值区间特征值对应的正例样本的数量,进而对数值区间特征变量进行价值评估,以及对样本进行筛选。
此外,需要说明的是,在前述实施例中,对不同的数值区间特征值进行区分时,可以采用不同的方式。
一种可能的实现方式是,特征提供方对不同的数值区间特征值进行一位有效编号,并将数值区间特征值相同的样本,所对应的标签值密文与有效位的位置进行对应。特征提供方根据有效位的位置顺序,将对应于相同有效位的标签值密文进行相加,以生成数值区间特征值对应的特征密文。
另一种可能的实现方式是,特征提供方对数值区间特征值进行排序,根据数值区间特征值的顺序,将对应于相同数值区间特征值的标签值密文进行相加,以生成数值区间特征值对应的特征密文。
为了实现上述实施例,本说明书实施例还提出了一种机器学习模型的训练样本的筛选系统,图12为本说明书实施例所提出的一种机器学习模型的训练样本的筛选系统的结构示意图,如图12所示,该系统包括:标签提供方和特征提供方,其中,
标签提供方用于,对样本的标签值进行同态加密,以生成不同样本对应的标签值密文,并将标签值密文发送给特征提供方。对特征密文进行同态解密,以生成标签值与数值区间特征值的对应关系,并将对应关系发送给特征提供方。
特征提供方用于,根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。根据对应关系,对数值区间特征变量进行价值评估。根据评估结果,对样本进行筛选。
需要说明的是,前述对机器学习模型的训练样本的筛选方法实施例的解释说明,也适用于本说明书实施例的机器学习模型的训练样本的筛选系统,此处不再赘述。
综上所述,本说明书实施例所提供的一种机器学习模型的训练样本的筛选系统,包括标签提供方和特征提供方。标签提供方用于,对样本的标签值进行同态加密,以生成不同样本对应的标签值密文,并将标签值密文发送给特征提供方。对特征密文进行同态解密,以生成标签值与数值区间特征值的对应关系,并将对应关系发送给特征提供方。特征提供方用于,根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。根据对应关系,对数值区间特征变量进行价值评估。根据评估结果,对样本进行筛选。由此,通过同态加密技术,使得特征提供方无法获知每个样本对应的标签值,标签提供方无法获知每个样本对应的数值区间特征值,依然能够对数值区间特征变量进行价值评估,进而根据评估结果,对样本进行筛选,从而防止泄露用户的隐私数据,保护了用户的数据信息安全。
为了实现上述实施例,本说明书实施例还提出了一种机器学习模型的训练样本的筛选装置,图13为本说明书实施例所提出的一种机器学习模型的训练样本的筛选装置的结构示意图,如图13所示,该装置包括:第一接收模块510,对应模块520,发送模块530,第二接收模块540,评估模块550。
第一接收模块510,用于从标签提供方接收标签值密文。
其中,标签值密文由样本的标签值经过同态加密后生成。
对应模块520,用于根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文。
发送模块530,用于将特征密文发送给标签提供方。
第二接收模块540,用于从标签提供方接收标签值与数值区间特征值的对应关系。
其中,对应关系由特征密文经过同态解密后生成。
评估模块550,用于根据对应关系,对数值区间特征变量进行价值评估。
筛选模块560,用于根据评估结果,对样本进行筛选。
进一步地,为了生成样本对应的数值区间特征值,一种可能的实现方式是,该装置还包括:确定模块560,用于根据样本的数值型特征值,确定样本的数值型特征区间。切分模块570,用于根据样本的数值型特征值在样本的数值型特征区间上的分布情况,对样本的数值型特征区间进行切分,以生成数值区间特征值对应的数值范围。
进一步地,样本的类型包括自然人、法人、其他组织中的任意一种。
需要说明的是,前述对机器学习模型的训练样本的筛选方法实施例的解释说明,也适用于本说明书实施例的机器学习模型的训练样本的筛选装置,此处不再赘述。
综上所述,本说明书实施例所提供的一种机器学习模型的训练样本的筛选装置,该装置位于特征提供方,在对数值区间特征变量进行价值评估时,从标签提供方接收标签值密文。其中,标签值密文由样本的标签值经过同态加密后生成。根据样本对应的数值区间特征值,将标签值密文与数值区间特征值进行对应,以生成数值区间特征值对应的特征密文,并将特征密文发送给标签提供方。从标签提供方接收标签值与数值区间特征值的对应关系。其中,对应关系由特征密文经过同态解密后生成。根据对应关系,对数值区间特征变量进行价值评估。根据评估结果,对样本进行筛选。由此,通过同态加密技术,使得特征提供方无法获知每个样本对应的标签值,标签提供方无法获知每个样本对应的数值区间特征值,依然能够对数值区间特征变量进行价值评估,进而根据评估结果,对样本进行筛选,从而防止泄露用户的隐私数据,保护了用户的数据信息安全。
为了实现上述实施例,本说明书实施例还提出了另一种机器学习模型的训练样本的筛选装置,图14为本说明书实施例所提出的另一种机器学习模型的训练样本的筛选装置的结构示意图,如图14所示,该装置包括:第一接收模块610,对应模块620,发送模块630,第二接收模块640,评估模块650,筛选模块660。
第一接收模块610,用于从标签提供方接收标签值密文。
其中,标签值密文由样本的标签值经过同态加密后生成。
对应模块620,用于将数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成数值区间特征值对应的特征密文。
发送模块630,用于将特征密文发送给标签提供方。
第二接收模块640,用于从标签提供方接收数值区间特征值对应的正例样本的数量。
其中,数值区间特征值对应的正例样本的数量由特征密文经过同态解密后生成。
评估模块650,用于根据数值区间特征值对应的正例样本的数量,对数值区间特征变量进行价值评估。
筛选模块660,用于根据评估结果,对样本进行筛选。
其中,样本包括正例样本和反例样本,正例样本将1作为标签值,反例样本将0作为标签值。
评估模块650,包括:获取子模块651,用于从标签提供方获取正例样本的总数量。评估子模块652,用于根据数值区间特征值对应的正例样本的数量,以及正例样本的总数量,对数值区间特征变量进行价值评估。
进一步地,为了对数值区间特征值进行区分,一种可能的实现方式是,对应模块620,包括:排序子模块621,用于对数值区间特征值进行排序。相加子模块622,用于根据数值区间特征值的顺序,将对应于相同数值区间特征值的标签值密文进行相加,以生成数值区间特征值对应的特征密文。
需要说明的是,前述对机器学习模型的训练样本的筛选方法实施例的解释说明,也适用于本说明书实施例的机器学习模型的训练样本的筛选装置,此处不再赘述。
从而,使用0和1作为正例样本和反例样本的标签值,使得特征提供方通过对数值区间特征值对应的标签值密文进行相加,来确定该数值区间特征值对应的正例样本的数量,进而对数值区间特征变量进行价值评估。
为了实现上述实施例,本说明书实施例还提出一种计算机设备,包括存储器和处理器;存储器上存储有可由处理器运行的计算机程序;当处理器运行计算机程序时,执行如前述方法实施例的机器学习模型的训练样本的筛选方法。
为了实现上述实施例,实施例还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述方法实施例的机器学习模型的训练样本的筛选方法。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本说明书实施例的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书实施例中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本说明书实施例中的具体含义。
在本说明书实施例中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (27)

1.一种机器学习模型的训练样本的筛选方法,包括:
标签提供方对样本的标签值进行同态加密,以生成不同所述样本对应的标签值密文,并将所述标签值密文发送给特征提供方;
所述特征提供方根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,并将所述特征密文发送给所述标签提供方;
所述标签提供方对所述特征密文进行同态解密,以生成所述标签值与所述数值区间特征值的对应关系,并将所述对应关系发送给所述特征提供方;
所述特征提供方根据所述对应关系,对数值区间特征变量进行价值评估;以及
所述特征提供方根据评估结果,对所述样本进行筛选。
2.如权利要求1所述的方法,其中,所述样本包括正例样本和反例样本,所述正例样本将1作为所述标签值,所述反例样本将0作为所述标签值。
3.如权利要求2所述的方法,其中,所述特征提供方根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,包括:
所述特征提供方将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
4.如权利要求3所述的方法,其中,所述标签提供方对所述特征密文进行同态解密,以生成所述标签值与所述数值区间特征值的对应关系,包括:
所述标签提供方对所述特征密文进行同态解密,以生成所述数值区间特征值对应的所述正例样本的数量。
5.如权利要求4所述的方法,其中,所述特征提供方根据所述对应关系,对数值区间特征变量进行价值评估,包括:
所述特征提供方从所述标签提供方获取所述正例样本的总数量;
所述特征提供方根据所述数值区间特征值对应的所述正例样本的数量,以及所述正例样本的总数量,对所述数值区间特征变量进行价值评估。
6.如权利要求3所述的方法,其中,所述特征提供方将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文,包括:
所述特征提供方对所述数值区间特征值进行排序;
所述特征提供方根据所述数值区间特征值的顺序,将对应于相同所述数值区间特征值的所述标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
7.如权利要求1-6中任一项所述的方法,其中,在所述特征提供方根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文之前,还包括:
所述特征提供方根据所述样本的数值型特征值,确定所述样本的数值型特征区间;
所述特征提供方根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况,对所述样本的数值型特征区间进行切分,以生成所述数值区间特征值对应的数值范围。
8.如权利要求1-6中任一项所述的方法,其中,所述样本的类型包括自然人、法人、其他组织中的任意一种。
9.一种机器学习模型的训练样本的筛选方法,所述方法在特征提供方实现,包括:
从标签提供方接收标签值密文;其中,所述标签值密文由样本的标签值经过同态加密后生成;
根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,并将所述特征密文发送给所述标签提供方;
从所述标签提供方接收所述标签值与所述数值区间特征值的对应关系;其中,所述对应关系由所述特征密文经过同态解密后生成;
根据所述对应关系,对数值区间特征变量进行价值评估;以及
根据评估结果,对所述样本进行筛选。
10.如权利要求9所述的方法,其中,所述样本包括正例样本和反例样本,所述正例样本将1作为所述标签值,所述反例样本将0作为所述标签值。
11.如权利要求10所述的方法,其中,所述根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文,包括:
将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
12.如权利要求11所述的方法,其中,所述标签值与所述数值区间特征值的对应关系包括所述数值区间特征值对应的所述正例样本的数量。
13.如权利要求12所述的方法,其中,所述根据所述对应关系,对数值区间特征变量进行价值评估,包括:
从所述标签提供方获取所述正例样本的总数量;
根据所述数值区间特征值对应的所述正例样本的数量,以及所述正例样本的总数量,对所述数值区间特征变量进行价值评估。
14.如权利要求11所述的方法,其中,所述将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文,包括:
对所述数值区间特征值进行排序;
根据所述数值区间特征值的顺序,将对应于相同所述数值区间特征值的所述标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
15.如权利要求9-14中任一项所述的方法,其中,在所述根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文之前,还包括:
根据所述样本的数值型特征值,确定所述样本的数值型特征区间;
根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况,对所述样本的数值型特征区间进行切分,以生成所述数值区间特征值对应的数值范围。
16.如权利要求9-14中任一项所述的方法,其中,所述样本的类型包括自然人、法人、其他组织中的任意一种。
17.一种机器学习模型的训练样本的筛选系统,包括标签提供方和特征提供方,其中,
所述标签提供方用于,对样本的标签值进行同态加密,以生成不同所述样本对应的标签值密文,并将所述标签值密文发送给特征提供方;对特征密文进行同态解密,以生成所述标签值与数值区间特征值的对应关系,并将所述对应关系发送给所述特征提供方;以及
所述特征提供方用于,根据所述样本对应的所述数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的所述特征密文,并将所述特征密文发送给所述标签提供方;根据所述对应关系,对数值区间特征变量进行价值评估;根据评估结果,对所述样本进行筛选。
18.一种机器学习模型的训练样本的筛选装置,所述装置位于特征提供方,包括:
第一接收模块,用于从标签提供方接收标签值密文;其中,所述标签值密文由样本的标签值经过同态加密后生成;
对应模块,用于根据所述样本对应的数值区间特征值,将所述标签值密文与所述数值区间特征值进行对应,以生成所述数值区间特征值对应的特征密文;
发送模块,用于将所述特征密文发送给所述标签提供方;
第二接收模块,用于从所述标签提供方接收所述标签值与所述数值区间特征值的对应关系;其中,所述对应关系由所述特征密文经过同态解密后生成;
评估模块,用于根据所述对应关系,对数值区间特征变量进行价值评估;以及
筛选模块,用于根据评估结果,对所述样本进行筛选。
19.如权利要求18所述的装置,其中,所述样本包括正例样本和反例样本,所述正例样本将1作为所述标签值,所述反例样本将0作为所述标签值。
20.如权利要求19所述的装置,其中,所述对应模块具体用于,将所述数值区间特征值相同的样本,所对应的标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
21.如权利要求20所述的装置,其中,所述标签值与所述数值区间特征值的对应关系包括所述数值区间特征值对应的所述正例样本的数量。
22.如权利要求21所述的装置,其中,所述评估模块,包括:
获取子模块,用于从所述标签提供方获取所述正例样本的总数量;
评估子模块,用于根据所述数值区间特征值对应的所述正例样本的数量,以及所述正例样本的总数量,对所述数值区间特征变量进行价值评估。
23.如权利要求20所述的装置,其中,所述对应模块,包括:
排序子模块,用于对所述数值区间特征值进行排序;
相加子模块,用于根据所述数值区间特征值的顺序,将对应于相同所述数值区间特征值的所述标签值密文进行相加,以生成所述数值区间特征值对应的特征密文。
24.如权利要求18-23中任一项所述的装置,其中,所述装置还包括:
确定模块,用于根据所述样本的数值型特征值,确定所述样本的数值型特征区间;
切分模块,用于根据所述样本的数值型特征值在所述样本的数值型特征区间上的分布情况,对所述样本的数值型特征区间进行切分,以生成所述数值区间特征值对应的数值范围。
25.如权利要求18-23中任一项所述的装置,其中,所述样本的类型包括自然人、法人、其他组织中的任意一种。
26.一种计算机设备,包括存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求9-16中任一项所述的机器学习模型的训练样本的筛选方法。
27.一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求9-16中任一项所述的机器学习模型的训练样本的筛选方法。
CN201911323317.8A 2019-12-20 2019-12-20 机器学习模型的训练样本的筛选方法及其系统 Active CN111047051B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911323317.8A CN111047051B (zh) 2019-12-20 2019-12-20 机器学习模型的训练样本的筛选方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911323317.8A CN111047051B (zh) 2019-12-20 2019-12-20 机器学习模型的训练样本的筛选方法及其系统

Publications (2)

Publication Number Publication Date
CN111047051A true CN111047051A (zh) 2020-04-21
CN111047051B CN111047051B (zh) 2023-03-31

Family

ID=70238166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911323317.8A Active CN111047051B (zh) 2019-12-20 2019-12-20 机器学习模型的训练样本的筛选方法及其系统

Country Status (1)

Country Link
CN (1) CN111047051B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563267A (zh) * 2020-05-08 2020-08-21 京东数字科技控股有限公司 用于联邦特征工程数据处理的方法和装置
TWI775467B (zh) * 2021-06-02 2022-08-21 宏碁智醫股份有限公司 機器學習模型檔案解密方法及用戶裝置
CN116089808A (zh) * 2023-02-06 2023-05-09 迪爱斯信息技术股份有限公司 一种特征选择方法及装置
US11847544B2 (en) 2020-07-21 2023-12-19 International Business Machines Corporation Preventing data leakage in automated machine learning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120144185A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Counting delegation using hidden vector encryption
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109241770A (zh) * 2018-08-10 2019-01-18 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120144185A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Counting delegation using hidden vector encryption
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109241770A (zh) * 2018-08-10 2019-01-18 深圳前海微众银行股份有限公司 基于同态加密的信息值计算方法、设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563267A (zh) * 2020-05-08 2020-08-21 京东数字科技控股有限公司 用于联邦特征工程数据处理的方法和装置
CN111563267B (zh) * 2020-05-08 2024-04-05 京东科技控股股份有限公司 用于联邦特征工程数据处理的方法和装置
US11847544B2 (en) 2020-07-21 2023-12-19 International Business Machines Corporation Preventing data leakage in automated machine learning
TWI775467B (zh) * 2021-06-02 2022-08-21 宏碁智醫股份有限公司 機器學習模型檔案解密方法及用戶裝置
CN116089808A (zh) * 2023-02-06 2023-05-09 迪爱斯信息技术股份有限公司 一种特征选择方法及装置

Also Published As

Publication number Publication date
CN111047051B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN111047051B (zh) 机器学习模型的训练样本的筛选方法及其系统
CN110968886B (zh) 机器学习模型的训练样本的筛选方法及其系统
Casino et al. HEDGE: efficient traffic classification of encrypted and compressed packets
US20190050398A1 (en) File storage method, file search method and file storage system based on public-key encryption with keyword search
EP3046286A1 (en) Information processing method, program, and information processing apparatus
CN106972927B (zh) 一种针对不同安全等级的加密方法及系统
CN111539009B (zh) 保护隐私数据的有监督特征分箱方法及装置
CN111539535B (zh) 基于隐私保护的联合特征分箱方法及装置
Švenda et al. The {Million-Key}{Question—Investigating} the Origins of {RSA} Public Keys
CN112100679B (zh) 基于隐私保护的数据处理方法、装置和服务器
CN106911712B (zh) 一种应用于分布式系统的加密方法及系统
CN112949545A (zh) 识别人脸图像的方法、装置、计算设备和介质
CN115868140A (zh) 使用合成重加密图像的图像分发
Alia et al. Cryptography based authentication methods
CN110213202B (zh) 标识加密匹配方法和装置、标识处理方法和装置
Ligier et al. Privacy preserving data classification using inner-product functional encryption
Junior Gabriel et al. Post-quantum crystography system for secure electronic voting
Near et al. Guidelines for evaluating differential privacy guarantees
CN117034338A (zh) 基于隐私保护的分布式文旅数据计算方法
CN109712204A (zh) 一种基于fcm聚类的图像加密方法
CN113052045B (zh) 识别指静脉图像的方法、装置、计算设备和介质
CN114741728A (zh) 保护隐私数据的第三方识别类别的方法和装置
Sabbu et al. An oblivious image retrieval protocol
Lin et al. Moving object detection in the encrypted domain
Jain et al. Quantum-based rivest–shamir–adleman (rsa) approach for digital forensic reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40028436

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant