一种模型的处理方法、装置及设备
技术领域
本说明书涉及计算机技术领域,尤其涉及一种模型的处理方法、装置及设备。
背景技术
随着终端技术和网络技术的不断发展,通过终端设备和互联网完成用户需要进行的工作或任务成为一种重要的方式。而为了方便用户可以随时随地享受到服务提供商提供的某项或多项业务服务,很多业务已经从线下发展到线上。由于网络环境的复杂性和用户需求的差异性等,使得各业务系统需要针对不同的情况进行相应的处理,由于遇到的情况不同,相应的处理方式可能不同,这样就需要构建相应的模型针对业务中出现的不同情况进行相应的处理。
构建模型的过程中,由于出现的情况可能存在多样性,因此,需要使用多种不同的算法分别构建相应的模型,然后再通过对构建的模型的验证处理,从构建的多个模型中选择模型效果最好的模型作为最终构建完成的模型(可以称为目标模型,在实际应用中还可以称为冠军模型),而其它没有被选取的模型(即备选模型)将被废弃。然而,通过前期大量的工作构建的备选模型由于没有被选取而被废弃,造成了资源的浪费,因此,需要提供一种可以减少资源浪费,还可以增益最终构建完成的模型效果的方案。
发明内容
本说明书实施例的目的是提供一种模型的处理方法、装置及设备,以提供一种可以减少资源浪费,还可以增益最终构建完成的模型效果的方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种模型的处理方法,所述方法包括:
获取待融合的目标模型,以及构建所述目标模型的过程中产生的第一备选模型;
从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,所述预定筛选条件用于筛选与所述目标模型进行模型融合的模型;
将选取的所述第二备选模型与所述目标模型进行模型融合,以确定模型效果优于所述目标模型的融合模型。
可选地,所述从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,包括:
获取所述第一备选模型的AUC值;
从所述第一备选模型中,选取AUC值大于预定AUC阈值的第一备选模型,将选取的第一备选模型作为满足预定筛选条件的第二备选模型。
可选地,所述从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,包括:
根据预定的样本参数构建相应的样本数据;
将所述样本数据分别输入到每个所述第一备选模型中,得到每个所述第一备选模型对应的结果;
将所述结果处于预定置信区间内的第一备选模型作为满足预定筛选条件的第二备选模型。
可选地,所述样本参数至少包括方差、协方差、最小值、最大值、偏度和峰度中的一种或多种。
可选地,所述根据预定的样本参数构建相应的样本数据,包括:
如果所述第一备选模型的数量超过预定的数量阈值,则根据预定的样本参数构建相应的样本数据。
可选地,所述从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,包括:
如果所述第一备选模型的数量未超过预定的数量阈值,则将所述第一备选模型作为满足预定筛选条件的第二备选模型。
可选地,所述将选取的所述第二备选模型与所述目标模型进行模型融合之前,所述方法还包括:
获取针对所述目标模型的融合反馈信息,所述融合反馈信息中包括第三备选模型的信息;
根据所述第三备选模型的信息,从预定的参数数据库中获取用于构建所述第三备选模型的目标参数数据;
根据所述目标参数数据构建所述第三备选模型;
所述将选取的所述第二备选模型与所述目标模型进行模型融合,包括
将所述第三备选模型和/或所述第二备选模型与所述目标模型进行模型融合。
可选地,所述将选取的所述第二备选模型与所述目标模型进行模型融合,以确定模型效果优于所述目标模型的融合模型,包括:
将选取的所述第二备选模型与所述目标模型进行模型融合,得到融合模型;
对所述融合模型进行验证,得到验证结果;
基于所述验证结果,选取模型效果最优,且优于所述目标模型的融合模型。
可选地,所述目标模型为预定业务中在线运行的模型。
本说明书实施例提供的一种模型的处理装置,所述装置包括:
模型获取模块,用于获取待融合的目标模型,以及构建所述目标模型的过程中产生的第一备选模型;
模型筛选模块,用于从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,所述预定筛选条件用于筛选与所述目标模型进行模型融合的模型;
融合模块,用于将选取的所述第二备选模型与所述目标模型进行模型融合,以确定模型效果优于所述目标模型的融合模型。
可选地,所述模型筛选模块,包括:
数值获取单元,用于获取所述第一备选模型的AUC值;
第一模型筛选单元,用于从所述第一备选模型中,选取AUC值大于预定AUC阈值的第一备选模型,将选取的第一备选模型作为满足预定筛选条件的第二备选模型。
可选地,所述模型筛选模块,包括:
样本构建单元,用于根据预定的样本参数构建相应的样本数据;
结果确定单元,用于将所述样本数据分别输入到每个所述第一备选模型中,得到每个所述第一备选模型对应的结果;
第二模型筛选单元,用于将所述结果处于预定置信区间内的第一备选模型作为满足预定筛选条件的第二备选模型。
可选地,所述样本参数至少包括方差、协方差、最小值、最大值、偏度和峰度中的一种或多种。
可选地,所述样本构建单元,用于如果所述第一备选模型的数量超过预定的数量阈值,则根据预定的样本数据构建基准模型。
可选地,所述模型筛选模块,用于如果所述第一备选模型的数量未超过预定的数量阈值,则将所述第一备选模型作为满足预定筛选条件的第二备选模型。
可选地,所述装置还包括:
信息获取模块,用于获取针对所述目标模型的融合反馈信息,所述融合反馈信息中包括第三备选模型的信息;
数据获取模块,用于根据所述第三备选模型的信息,从预定的参数数据库中获取用于构建所述第三备选模型的目标参数数据;
备选模型构建模块,用于根据所述目标参数数据构建所述第三备选模型;
所述融合模块,用于将所述第三备选模型和/或所述第二备选模型与所述目标模型进行模型融合。
可选地,所述融合模块,包括:
融合单元,用于将选取的所述第二备选模型与所述目标模型进行模型融合,得到融合模型;
验证单元,用于对所述融合模型进行验证,得到验证结果;
选取单元,用于基于所述验证结果,选取模型效果最优,且优于所述目标模型的融合模型。
可选地,所述目标模型为预定业务中在线运行的模型。
本说明书实施例提供的一种模型的处理设备,所述模型的处理设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待融合的目标模型,以及构建所述目标模型的过程中产生的第一备选模型;
从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,所述预定筛选条件用于筛选与所述目标模型进行模型融合的模型;
将选取的所述第二备选模型与所述目标模型进行模型融合,以确定模型效果优于所述目标模型的融合模型。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型,然后,可以从第一备选模型中,选取满足预定筛选条件的第二备选模型,将选取的第二备选模型与目标模型进行模型融合,以确定模型效果优于目标模型的融合模型,这样,在从多个构建的模型中选取出模型效果最优的目标模型后,还可以将本应废弃(现有技术中需要废弃)的第一备选模型与目标模型进行融合,得到融合模型,这样,可以使得本应废弃的第一备选模型得以进一步被利用,减少了资源的浪费,而且,还可能会产生模型效果优于目标模型的融合模型,从而增益了目标模型的模型效果,可以缩短模型的开发周期。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种模型的处理方法实施例;
图2为本说明书一种模型融合的处理示意图;
图3为本说明书另一种模型的处理方法实施例;
图4为本说明书又一种模型的处理方法实施例;
图5为本说明书一种模型的处理装置实施例;
图6为本说明书一种模型的处理设备实施例。
具体实施方式
本说明书实施例提供一种模型的处理方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种模型的处理方法,该方法的执行主体可以为终端设备或服务器等,其中,该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是某网站(如网络购物网站或购物应用等)的后台服务器,还可以是某项业务(如金融业务或支付业务)的服务器等。该方法可以用于在构建模型的过程中,选取本应废弃的备选模型与构建模型过程中选取的目标模型进行融合来增益模型效果。为了提供模型的处理效率和模型的融合效率,本实施例的执行主体可以以服务器为例进行说明,对于执行主体为终端设备的情况,可以参照下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S102中,获取待融合的目标模型,以及构建和选取目标模型的过程中产生的第一备选模型。
其中,目标模型可以是任意模型,目标模型可以是基于任意一种算法构建的模型,例如,可以是基于遗传算法构建的模型,或基于某一种神经网络算法构建的模型等,也可以是基于多种不同的算法构建的模型,例如,可以基于某一种分类算法和逻辑回归算法构建的模型等。目标模型可以是针对某项业务构建并训练后得到的模型效果最优的模型,例如,对于支付业务中的风险防控,可以基于多种不同的神经网络算法,以及多种不同的其它算法分别构建风险防控模型,并分别训练构建的风险防控模型,最终从训练的多个风险防控模型中选取模型效果最优的一个风险防控模型,则选取的模型效果最优的一个风险防控模型即可以为目标模型。第一备选模型可以是与目标模型基于同一业务构建的模型,第一备选模型可以包括一个或多个。
在实施中,随着终端技术和网络技术的不断发展,通过终端设备和互联网完成用户需要进行的工作或任务成为一种重要的方式。而为了方便用户可以随时随地享受到服务提供商提供的某项或多项业务服务,很多业务已经从线下发展到线上,由于网络环境的复杂性和用户需求的差异性等,使得各业务系统需要针对不同的情况进行相应的处理,例如,对于支付业务来说,为了防止业务系统被攻击而使得用户的资金损失,需要为该支付业务设置风险防控系统,以预测用户在进行支付的过程中可能存在的风险,由于遇到的情况不同,相应的处理方式可能不同,这样就需要构建相应的模型针对业务中出现的不同情况进行相应的处理。
构建模型的过程中,由于出现的情况的多样性,因此,可能需要使用多种不同的算法分别构建相应的模型,然后再通过对构建的模型的验证处理,从构建的多个模型中选择模型效果最好的模型作为最终构建完成的模型(可以称为目标模型,在实际应用中还可以称为冠军模型),而其它没有被选取的模型(即备选模型)将被废弃。然而,通过前期大量的工作构建的备选模型由于没有被选取而被废弃,造成了资源的浪费,为此,本说明书实施例提供一种可以减少资源浪费,还可以增益最终构建完成的模型效果的方案,具体可以包括以下内容:
以支付业务中的风险防控系统为例,该风险防控系统中可以包括用于预测用户支付过程中可能存在的风险的模型。在构建该模型的过程中,技术人员可能会使用多种不同的算法分别构建相应的模型,例如,如图2所示,通过某一种神经网络算法构建一个神经网络模型,再通过另一种神经网络算法构建另一个神经网络模型,甚至可以通过每一种神经网络模型分别构建一个神经网络模型,还可以通过其它算法构建相应的模型,如通过遗传算法构建一个模型等,通过上述方式可以构建多个模型,而这些模型往往用来做比较,通过比较验证,可以从中选出目标模型(即冠军模型)。为了使得目标模型的模型效果更好,在得到目标模型后,可以获取上述构建模型并选取目标模型中剩余的模型,并可以将剩余的模型作为第一备选模型。当需要对目标模型进行融合时,可以获取该第一备选模型,即构建和选取目标模型的过程中产生的模型。
在步骤S104中,从第一备选模型中,选取满足预定筛选条件的第二备选模型,该预定筛选条件用于筛选与目标模型进行模型融合的模型。
其中,第二备选模型可以是第一备选模型中的部分模型,也可以是第一备选模型中的全部模型等,第二备选模型的数量可以大于或等于0。该预定筛选条件可以包括多种,具体可以根据实际情况设定,该预定筛选条件可以是从第一备选模型中筛选出可能会使得目标模型的模型效果更好的融合对象的条件。
在实施中,考虑到在构建模型的过程中,为了探索到模型效果最好的目标模型,往往需要构建多个不同的模型,而且构建的模型的数量往往较大,例如20个或30个等。而大量的模型与目标模型进行模型融合,例如,具有20个模型,分别为模型1、模型2、模型3…模型20,则与目标模型进行模型融合时,可以每次从20个模型中任选1个模型,与目标模型进行模型融合,然后,再每次从20个模型中任选2个模型,与目标模型进行模型融合,再每次从20个模型中任选3个模型,与目标模型进行模型融合…将20个模型与目标模型进行模型融合,可见上述模型融合的处理量将非常巨大,因此,可以预先设置筛选条件,通过该筛选条件可以先从第一备选模型中筛选出可能会使得目标模型的模型效果更好的融合对象,然后,再将筛选出的备选模型与目标模型进行模型融合,从而减少模型融合的处理量。例如,考虑到如果第一备选模型对应的参数数据、数据分布和统计度量方式与目标模型对应的参数数据、数据分布和统计度量方式相同或相似,则该第一备选模型与目标模型进行模型融合后得到的融合模型的模型效果可能更好,因此,可以基于目标模型对应的参数数据、数据分布和统计度量方式等设置相应的筛选条件,以从第一备选模型中筛选出满足预定筛选条件的第二备选模型,而第二备选模型对应的参数数据、数据分布和统计度量方式与目标模型对应的参数数据、数据分布和统计度量方式相同或相似。
需要说明的是,上述预定筛选条件不限于上述一种,还可以包括多种,具体可以根据实际情况设定,不同的预定筛选条件,从第一备选模型中筛选出的第二备选模型可以不同。
在步骤S106中,将选取的第二备选模型与目标模型进行模型融合,以确定模型效果优于目标模型的融合模型。
其中,模型效果可以是某模型在实际应用或模型验证中能够达到的效果,模型效果可以通过多种预定的指标确定,例如模型效果可以通过准确率确定,准确率越高,模型效果越好,在实际应用中,模型效果还可以通过多个不同的指标数据确定。
在实施中,如果第二备选模型中只包括一个模型,则可以将该第二备选模型与目标模型进行模型融合,得到融合模型。然后,分别计算融合模型的模型效果和目标模型的模型效果,如果目标模型的模型效果优于融合模型的模型效果,则可以将目标模型确定为相应业务中需要使用的模型。如果第二备选模型中包括多个模型,则可以每次从多个模型中任选1个模型,与目标模型进行模型融合,得到相应的融合模型,然后,再每次从多个模型中任选2个模型,与目标模型进行模型融合,得到相应的融合模型,之后,再每次从多个模型中任选3个模型,与目标模型进行模型融合,得到相应的融合模型,…将全部第二备选模型与目标模型进行模型融合,得到相应的融合模型。分别计算每个融合模型的模型效果和目标模型的模型效果,如果目标模型的模型效果优于每个融合模型的模型效果,则可以将目标模型确定为相应业务中需要使用的模型,如果存在融合模型的模型效果优于目标模型的模型效果,则可以将该融合模型确定为相应业务中需要使用的模型,其中,如果存在多个融合模型的模型效果均优于目标模型的模型效果,则可以从该多个融合模型中任选一个融合模型,或者选择其中模型效果最优的融合模型确定为相应业务中需要使用的模型。
本说明书实施例提供一种模型的处理方法,通过获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型,然后,可以从第一备选模型中,选取满足预定筛选条件的第二备选模型,将选取的第二备选模型与目标模型进行模型融合,以确定模型效果优于目标模型的融合模型,这样,在从多个构建的模型中选取出模型效果最优的目标模型后,还可以将本应废弃(现有技术中需要废弃)的第一备选模型与目标模型进行融合,得到融合模型,这样,可以使得本应废弃的第一备选模型得以进一步被利用,减少了资源的浪费,而且,还可能会产生模型效果优于目标模型的融合模型,从而增益了目标模型的模型效果,可以缩短模型的开发周期。
实施例二
如图3所示,本说明书实施例提供一种模型的处理方法,该方法的执行主体可以为终端设备或服务器等,其中,该终端设备可以如手机或平板电脑等移动终端设备,还可以如个人计算机等设备。该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是某网站(如网络购物网站或购物应用等)的后台服务器,还可以是某项业务(如金融业务或支付业务)的服务器等。该方法可以用于在构建模型的过程中,选取本应废弃的备选模型与构建模型过程中选取的目标模型进行融合来增益模型效果。为了提供模型的处理效率和模型的融合效率,本实施例的执行主体可以以服务器为例进行说明,对于执行主体为终端设备的情况,可以参照下述相关内容,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S302中,获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型。
其中,目标模型可以是已经训练完成并最终选取出的模型,且目标模型还未应用到预定业务中,或者,目标模型也可以是预定业务中当前在线运行的模型。
在实施中,可以预先建立一个数据库,该数据库可以用于存储某一项或多项不同业务中构建的各种模型,以及相关的数据等,例如该数据库中可以存储有目标模型和构建目标模型的过程中产生的第一备选模型。当需要对目标模型进行模型融合时,可以依据目标模型对应的业务的相关信息(如业务标识)或目标模型的用途或功能等信息,从上述数据库中查找是否包括构建目标模型的过程中产生的第一备选模型,如果不包括,则可以将目标模型作为该业务最终使用的模型,或者,通过该数据库中的相关数据构建新的备选模型,具体可以参见下面相关内容。如果上述数据库中包括上述第一备选模型,则可以直接从该数据库中获取构建目标模型的过程中产生的第一备选模型。
在步骤S304中,获取第一备选模型的AUC值。
其中,AUC(Area Under Curve,ROC曲线下的面积)可以是一个概率值,即当随机挑选一个正样本以及一个负样本,当前的模型可以根据计算得到的Score值将该正样本排在负样本前面的概率,在实际应用中,AUC值越大,当前的模型越有可能将正样本排在负样本前面,即模型效果更好。
在实施中,可以建立Cross Validation(交叉验证)的AUC值,通过AUC值来筛选需要与目标模型进行融合的第一备选模型。对于某项业务,在构建某一个模型后,需要对该模型进行训练和验证,在对该模型进行训练和验证的过程中,可以确定该模型的AUC值,并可以将该AUC值与该模型对应存储在上述数据库中,这样,对于每一项业务,可以将针对相应的业务构建的模型的AUC值存储在上述数据库中。当获取到构建目标模型的过程中产生的第一备选模型后,可以从上述数据库中获取第一备选模型的AUC值。
在步骤S306中,从第一备选模型中,选取AUC值大于预定AUC阈值的第一备选模型,将选取的第一备选模型作为满足预定筛选条件的第二备选模型。
其中,AUC阈值可以根据实际情况设定,具体如0.95或0.9等。
在实施中,技术人员可以根据实际情况预先设定AUC阈值,例如,技术人员可以基于模型融合的相关经验设定AUC阈值等。通过上述步骤S304的处理得到每个第一备选模型的AUC值后,可以将每个第一备选模型的AUC值与预定AUC阈值进行比较,将AUC值大于预定AUC阈值的第一备选模型作为有效模型,并可以将该有效模型作为满足预定筛选条件的第二备选模型。
上述处理是在数据库中存在构建目标模型的过程中产生的第一备选模型的情况下实现,在实际应用中,还可能存在其它情况,例如数据库中可能不存在第一备选模型,此时,可以执行下述步骤S308~步骤S312的处理,或者,即使数据库中存在第一备选模型,服务器仍然可以执行下述步骤S308~步骤S312的处理。
在步骤S308中,获取针对目标模型的融合反馈信息,该融合反馈信息中包括第三备选模型的信息。
其中,融合反馈信息可以是用于收集技术人员或用户对目标模型的反馈的信息,其中可以包括与目标模型进行融合时模型效果可能会较好的第三备选模型的信息(例如第三备选模型的名称和主要参数数据等)。
在实施中,技术人员或用户可以针对与目标模型相应的业务的相关信息和目标模型的相关信息(如目标模型的名称、相应的算法的信息等)等,确定目标模型与何种模型进行融合有效,然后,可以通过预先设定的反馈机制,向服务器进行反馈,具体如,可以预先发布目标模型的相关信息和与目标模型相应的业务的相关信息等,技术人员或用户查看到上述信息后,可以在相应的反馈页面上输入第三备选模型的信息等,输入完成后,可以点击该反馈页面的确定按键,服务器可以获取技术人员或用户输入的第三备选模型的信息等,生成融合反馈信息。
在步骤S310中,根据第三备选模型的信息,从预定的参数数据库中获取用于构建第三备选模型的目标参数数据。
在实施中,服务器获取到针对目标模型的融合反馈信息后,可以从该融合反馈信息中提取第三备选模型的信息。可以基于第三备选模型的信息,确定需要构建何种模型(即第三备选模型),并可以确定构建第三备选模型的过程中需要哪些数据(即目标参数数据)。可以预先设定用于存储各个业务的相关数据和构建模型需要使用的参数数据的参数数据库,在实际应用中,该参数数据库还可以与上述数据库为同一个数据库。然后,服务器可以从预定的参数数据库中获取用于构建第三备选模型的目标参数数据。
在步骤S312中,根据上述目标参数数据构建第三备选模型。
需要说明的是,第三备选模型可以是完全连接的NN系统模型,例如Lightgbm模型、RNN(Recurrent Neural Network,循环神经网络)模型、CNN(Convolutional NeuralNetwork,卷积神经网络)模型、GRU(Gated Recurrent Unit)模型或LSTM(Long Short-TermMemory,长短期记忆)模型等。在实际应用中,可以根据最优的N-fold Cross Validation(使用原始标签)生成多组模型和参数等。如果对最终得到的模型的性能不满意,技术人员或用户还可以手动生成新的参数,可以以此参数为模型,在Cross Validation的情况下进行尝试,确定查看哪些模型会有比较明显的效果等。以Lightgbm模型为例,其可以调的参数可通过以下方式实现:
在步骤S314中,将选取的第二备选模型和/或第三备选模型与目标模型进行模型融合,得到融合模型。
在步骤S316中,对上述融合模型进行验证,得到验证结果。
在实施中,得到融合模型后,对于融合模型的模型效果可以通过验证的方式确定,对融合模型进行验证,可以包括多种,例如可以对融合模型进行正确性分析、有效性分析、有用性分析和高效性分析中的一种或多种,其中的正确性分析还可以包括融合模型的稳定性分析、稳健性分析、收敛性分析、变化趋势分析和极值分析等,有效性分析还可以包括误差分析、参数敏感性分析和模型对比检验等,有用性分析还可以包括关键数据求解、极值点、拐点、变化趋势分析和用数据验证动态模拟等,高效性分析还可以包括时空复杂度分析等。可以通过上述方式对融合模型进行验证,得到相应的验证结果。
在步骤S318中,基于上述验证结果,选取模型效果最优,且优于目标模型的融合模型。
在实施中,如果某一个融合模型的验证结果为通过,则可以将该融合模型的模型效果与目标模型的模型效果进行比较,如果该目标模型的模型效果优于融合模型的模型效果,则可以舍弃该融合模型,如果该融合模型的模型效果优于目标模型的模型效果,则可以保留该融合模型。然后,获取下一个融合模型继续进行上述处理,确定该融合模型需要保留还是需要舍弃,直到所有的融合模型均完成上述处理为止。如果最终所有的融合模型的模型效果均劣于目标模型的模型效果,则可以将目标模型作为相应业务中需要使用的模型。如果最终存在融合模型的模型效果优于目标模型的模型效果,则可以从模型效果优于目标模型的融合模型中选取模型效果最优的融合模型,并可以将该融合模型作为相应业务中需要使用的模型。
本说明书实施例提供一种模型的处理方法,通过获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型,然后,可以从第一备选模型中,选取满足预定筛选条件的第二备选模型,将选取的第二备选模型与目标模型进行模型融合,以确定模型效果优于目标模型的融合模型,这样,在从多个构建的模型中选取出模型效果最优的目标模型后,还可以将本应废弃(现有技术中需要废弃)的第一备选模型与目标模型进行融合,得到融合模型,这样,可以使得本应废弃的第一备选模型得以进一步被利用,减少了资源的浪费,而且,还可能会产生模型效果优于目标模型的融合模型,从而增益了目标模型的模型效果,可以缩短模型的开发周期。
实施例三
如图4所示,本说明书实施例提供一种模型的处理方法,该方法的执行主体可以为终端设备或服务器,其中,该终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备,该终端设备可以为用户使用的终端设备。该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群,而且,该服务器可以是某项业务的后台服务器,也可以是某网站(如网络购物网站或支付应用等)的后台服务器等。该方法可以用于生成业务规则,并可以向业务系统推荐业务规则等处理中,为了提高规则的生成和推荐效率,本实施例中以执行主体为服务器为例进行说明,对于终端设备的情况,可以根据下述相关内容处理,在此不再赘述。该方法具体可以包括以下步骤:
在步骤S402中,获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型。
其中,目标模型可以是已经训练完成并最终选取出的模型,且目标模型还未应用到预定业务中,或者,目标模型也可以是预定业务中当前在线运行的模型。
除了可以通过如上述实施例二所述通过第一备选模型的AUC值选取满足预定筛选条件的第二备选模型外,还可以通过多种方式从第一备选模型中选取满足预定筛选条件的第二备选模型,以下再提供一种处理方式,具体可以包括下述步骤S404~步骤S408的处理。
在步骤S404中,根据预定的样本参数构建相应的样本数据。
其中,该样本参数至少包括方差、协方差、最小值、最大值、偏度和峰度中的一种或多种。
在实施中,可以根据目标模型对应的业务的相关需求、目标模型的需要达到的预定要求等相关指标,可以确定有效的与目标模型进行融合的模型应该需要哪些参数(如方差、协方差、最小值、最大值、偏度和峰度等中的一种或多种),以及各个参数的取值范围。然后,可以基于确定的参数和相应的取值范围作为样本参数构建相应的样本数据。
需要说明的是,如果第一备选模型的数量很少(如2个或3个等),为了简化处理过程,可以不需要通过上述步骤S404的处理来选取第二备选模型,而只有在第一备选模型的数量超过预定的数量阈值时,可以执行上述步骤S404的处理,即:如果第一备选模型的数量超过预定的数量阈值,则根据预定的样本参数构建相应的样本数据。其中,预定的数量阈值可以根据实际情况设定,具体如3个或5个等,本说明书实施例对此不做限定。
此外,如果第一备选模型的数量未超过预定的数量阈值,则可以直接将第一备选模型作为满足预定筛选条件的第二备选模型。
在步骤S406中,将上述样本数据分别输入到每个第一备选模型中,得到每个第一备选模型对应的结果。
在实施中,可以将上述构建的某一个样本数据输入到某个第一备选模型中进行计算,然后,将输入结果与该样本数据中标记的结果进行比较,得到相应的结果,可以通过上述方式,将每个样本数据输入到该第一备选模型中得到相应的结果,进而得到每个第一备选模型对应的结果。
在步骤S408中,将上述结果处于预定置信区间内的第一备选模型作为满足预定筛选条件的第二备选模型。
其中,预定置信区间可以根据实际情况设定,具体如大于90%或大于95%等,本说明书实施例对此不做限定。
上述处理是在数据库中存在构建目标模型的过程中产生的第一备选模型的情况下实现,在实际应用中,还可能存在其它情况,例如数据库中可能不存在第一备选模型,此时,可以执行下述步骤S410~步骤S414的处理,或者,即使数据库中存在第一备选模型,服务器仍然可以执行下述步骤S410~步骤S414的处理。
在步骤S410中,获取针对目标模型的融合反馈信息,该融合反馈信息中包括第三备选模型的信息。
在步骤S412中,根据第三备选模型的信息,从预定的参数数据库中获取用于构建第三备选模型的目标参数数据。
在步骤S414中,根据上述目标参数数据构建第三备选模型。
在步骤S416中,将选取的第二备选模型和/或第三备选模型与目标模型进行模型融合,得到融合模型。
在步骤S418中,对上述融合模型进行验证,得到验证结果。
在步骤S420中,基于上述验证结果,选取模型效果最优,且优于目标模型的融合模型。
本说明书实施例提供一种模型的处理方法,通过获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型,然后,可以从第一备选模型中,选取满足预定筛选条件的第二备选模型,将选取的第二备选模型与目标模型进行模型融合,以确定模型效果优于目标模型的融合模型,这样,在从多个构建的模型中选取出模型效果最优的目标模型后,还可以将本应废弃(现有技术中需要废弃)的第一备选模型与目标模型进行融合,得到融合模型,这样,可以使得本应废弃的第一备选模型得以进一步被利用,减少了资源的浪费,而且,还可能会产生模型效果优于目标模型的融合模型,从而增益了目标模型的模型效果,可以缩短模型的开发周期。
实施例四
以上为本说明书实施例提供的模型的处理方法,基于同样的思路,本说明书实施例还提供一种模型的处理装置,如图5所示。
该模型的处理装置包括:模型获取模块501、模型筛选模块502和融合模块503,其中:
模型获取模块501,用于获取待融合的目标模型,以及构建所述目标模型的过程中产生的第一备选模型;
模型筛选模块502,用于从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,所述预定筛选条件用于筛选与所述目标模型进行模型融合的模型;
融合模块503,用于将选取的所述第二备选模型与所述目标模型进行模型融合,以确定模型效果优于所述目标模型的融合模型。
本说明书实施例中,所述模型筛选模块502,包括:
数值获取单元,用于获取所述第一备选模型的AUC值;
第一模型筛选单元,用于从所述第一备选模型中,选取AUC值大于预定AUC阈值的第一备选模型,将选取的第一备选模型作为满足预定筛选条件的第二备选模型。
本说明书实施例中,所述模型筛选模块502,包括:
样本构建单元,用于根据预定的样本参数构建相应的样本数据;
结果确定单元,用于将所述样本数据分别输入到每个所述第一备选模型中,得到每个所述第一备选模型对应的结果;
第二模型筛选单元,用于将所述结果处于预定置信区间内的第一备选模型作为满足预定筛选条件的第二备选模型。
本说明书实施例中,所述样本参数至少包括方差、协方差、最小值、最大值、偏度和峰度中的一种或多种。
本说明书实施例中,所述样本构建单元,用于如果所述第一备选模型的数量超过预定的数量阈值,则根据预定的样本数据构建基准模型。
本说明书实施例中,所述模型筛选模块502,用于如果所述第一备选模型的数量未超过预定的数量阈值,则将所述第一备选模型作为满足预定筛选条件的第二备选模型。
本说明书实施例中,所述装置还包括:
信息获取模块,用于获取针对所述目标模型的融合反馈信息,所述融合反馈信息中包括第三备选模型的信息;
数据获取模块,用于根据所述第三备选模型的信息,从预定的参数数据库中获取用于构建所述第三备选模型的目标参数数据;
备选模型构建模块,用于根据所述目标参数数据构建所述第三备选模型;
所述融合模块503,用于将所述第三备选模型和/或所述第二备选模型与所述目标模型进行模型融合。
本说明书实施例中,所述融合模块503,包括:
融合单元,用于将选取的所述第二备选模型与所述目标模型进行模型融合,得到融合模型;
验证单元,用于对所述融合模型进行验证,得到验证结果;
选取单元,用于基于所述验证结果,选取模型效果最优,且优于所述目标模型的融合模型。
本说明书实施例中,所述目标模型为预定业务中在线运行的模型。
本说明书实施例提供一种模型的处理装置,通过获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型,然后,可以从第一备选模型中,选取满足预定筛选条件的第二备选模型,将选取的第二备选模型与目标模型进行模型融合,以确定模型效果优于目标模型的融合模型,这样,在从多个构建的模型中选取出模型效果最优的目标模型后,还可以将本应废弃(现有技术中需要废弃)的第一备选模型与目标模型进行融合,得到融合模型,这样,可以使得本应废弃的第一备选模型得以进一步被利用,减少了资源的浪费,而且,还可能会产生模型效果优于目标模型的融合模型,从而增益了目标模型的模型效果,可以缩短模型的开发周期。
实施例五
以上为本说明书实施例提供的模型的处理装置,基于同样的思路,本说明书实施例还提供一种模型的处理设备,如图6所示。
所述模型的处理设备可以为上述实施例提供的终端设备或服务器。
模型的处理设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对模型的处理设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在模型的处理设备上执行存储器602中的一系列计算机可执行指令。模型的处理设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。
具体在本实施例中,模型的处理设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型的处理设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待融合的目标模型,以及构建所述目标模型的过程中产生的第一备选模型;
从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,所述预定筛选条件用于筛选与所述目标模型进行模型融合的模型;
将选取的所述第二备选模型与所述目标模型进行模型融合,以确定模型效果优于所述目标模型的融合模型。
本说明书实施例中,所述从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,包括:
获取所述第一备选模型的AUC值;
从所述第一备选模型中,选取AUC值大于预定AUC阈值的第一备选模型,将选取的第一备选模型作为满足预定筛选条件的第二备选模型。
本说明书实施例中,所述从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,包括:
根据预定的样本参数构建相应的样本数据;
将所述样本数据分别输入到每个所述第一备选模型中,得到每个所述第一备选模型对应的结果;
将所述结果处于预定置信区间内的第一备选模型作为满足预定筛选条件的第二备选模型。
本说明书实施例中,所述样本参数至少包括方差、协方差、最小值、最大值、偏度和峰度中的一种或多种。
本说明书实施例中,所述根据预定的样本参数构建相应的样本数据,包括:
如果所述第一备选模型的数量超过预定的数量阈值,则根据预定的样本参数构建相应的样本数据。
本说明书实施例中,所述从所述第一备选模型中,选取满足预定筛选条件的第二备选模型,包括:
如果所述第一备选模型的数量未超过预定的数量阈值,则将所述第一备选模型作为满足预定筛选条件的第二备选模型。
本说明书实施例中,所述将选取的所述第二备选模型与所述目标模型进行模型融合之前,还包括:
获取针对所述目标模型的融合反馈信息,所述融合反馈信息中包括第三备选模型的信息;
根据所述第三备选模型的信息,从预定的参数数据库中获取用于构建所述第三备选模型的目标参数数据;
根据所述目标参数数据构建所述第三备选模型;
所述将选取的所述第二备选模型与所述目标模型进行模型融合,包括
将所述第三备选模型和/或所述第二备选模型与所述目标模型进行模型融合。
本说明书实施例中,所述将选取的所述第二备选模型与所述目标模型进行模型融合,以确定模型效果优于所述目标模型的融合模型,包括:
将选取的所述第二备选模型与所述目标模型进行模型融合,得到融合模型;
对所述融合模型进行验证,得到验证结果;
基于所述验证结果,选取模型效果最优,且优于所述目标模型的融合模型。
本说明书实施例中,所述目标模型为预定业务中在线运行的模型。
本说明书实施例提供一种模型的处理设备,通过获取待融合的目标模型,以及构建目标模型的过程中产生的第一备选模型,然后,可以从第一备选模型中,选取满足预定筛选条件的第二备选模型,将选取的第二备选模型与目标模型进行模型融合,以确定模型效果优于目标模型的融合模型,这样,在从多个构建的模型中选取出模型效果最优的目标模型后,还可以将本应废弃(现有技术中需要废弃)的第一备选模型与目标模型进行融合,得到融合模型,这样,可以使得本应废弃的第一备选模型得以进一步被利用,减少了资源的浪费,而且,还可能会产生模型效果优于目标模型的融合模型,从而增益了目标模型的模型效果,可以缩短模型的开发周期。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。