CN113408582B

CN113408582B - 特征评估模型的训练方法及装置

Info

Publication number: CN113408582B
Application number: CN202110534948.5A
Authority: CN
Inventors: 张天平; 娄寅; 汪兆洋; 李建
Original assignee: Tsinghua University; Alipay Hangzhou Information Technology Co Ltd
Current assignee: Tsinghua University; Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2023-08-29
Anticipated expiration: 2041-05-17
Also published as: CN113408582A

Abstract

本说明书实施例提供一种特征评估模型的训练方法及装置，在特征评估模型的训练方法中，获取初始样本集，其中包括N个具有D维特征的业务对象样本。采用特征重要度评估算法，基于初始样本集，确定D维特征各自的初始重要度，并将其作为D维特征各自的标注标签。对于D维特征中的每项特征，根据对应的统计信息，确定该特征的元特征。将D维特征中多项特征各自的元特征输入特征评估模型，得到多项特征各自的预测重要度。根据多项特征的真实相对排序以及预测重要度，调整特征评估模型的参数，其中该真实相对排序根据多项特征各自的标注标签而确定。

Description

特征评估模型的训练方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种特征评估模型的训练方法及装置。

背景技术

特征重要性的评估是机器学习中相当重要的一个任务，它对于问题的理解很大的帮助(可解释性)，同时通过适当的特征筛选，能减少计算和存储开销。当前研究领域对特征重要性评估一般分为两类：特定于模型的方法和与模型无关的方法。然而该两种方法都存在各自的缺陷，比如，特定于模型的方法需要依赖于特定的机器学习模型，不够灵活。与模型无关的方法，比如，特征重要性排列方法，在大规模数据场景下评估效率低。

因此，需要提供一种更灵活、更高效的特征重要性评估方案。

发明内容

本说明书一个或多个实施例描述了一种特征评估模型的训练方法及装置，可以提高特征重要性评估的有效性。

第一方面，提供了一种特征评估模型的训练方法，包括：

获取初始样本集，其中包括N个具有D维特征的业务对象样本；

采用特征重要度评估算法，基于所述初始样本集，确定所述D维特征各自的初始重要度，并将其作为所述D维特征各自的标注标签；

对于所述D维特征中的每项特征，根据对应的统计信息，确定该特征的元特征；

将所述D维特征中多项特征各自的元特征输入特征评估模型，得到所述多项特征各自的预测重要度；

根据所述多项特征的真实相对排序以及预测重要度，调整所述特征评估模型的参数，其中所述真实相对排序根据所述多项特征各自的标注标签而确定。

第二方面，提供了一种特征评估模型的训练装置，包括：

获取单元，用于获取初始样本集，其中包括N个具有D维特征的业务对象样本；

确定单元，用于采用特征重要度评估算法，基于所述初始样本集，确定所述D维特征各自的初始重要度，并将其作为所述D维特征各自的标注标签；

所述确定单元，还用于对于所述D维特征中的每项特征，根据对应的统计信息，确定该特征的元特征；

输入单元，用于将所述D维特征中多项特征各自的元特征输入特征评估模型，得到所述多项特征各自的预测重要度；

调整单元，用于根据所述多项特征的真实相对排序以及预测重要度，调整所述特征评估模型的参数，其中所述真实相对排序根据所述多项特征各自的标注标签而确定。

第三方面，提供了一种提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本说明书一个或多个实施例提供的特征评估模型的训练方法及装置，基于特征的元特征来训练特征评估模型，由于这里的元特征基于特征的统计信息确定，而这些统计信息通常能够更准确更全面地反映特征的总体特性，从而本方案在基于元特征，训练特征评估模型时，所训练的模型可以更有效地对目标特征进行评估。此外，本方案在训练特征评估模型时，同时还考虑了多项特征的真实相对排序，由此可以使得所训练的模型同时能够准确预测目标特征的排序。由于在特征选择的场景下，通常是按序来选择top-k的特征来构建业务预测模型，因此，在目标特征的排序准确度提高的情况下，可以提升特征选择的准确性，进而可以提升业务预测模型构建的准确性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书一个实施例提供的实施场景示意图；

图2为本说明书一个实施例提供的特征评估模型的训练方法流程图；

图3为本说明书提供的特征评估模型示意图；

图4为本说明书一个实施例提供的事件特征评估模型的训练方法流程图；

图5为本说明书一个实施例提供的事件特征评估方法流程图；

图6为本说明书一个实施例提供的特征评估模型的训练装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在描述本说明书实施例提供的方案之前，先对本方案的发明构思作以下说明。

本说明书实施例提供的方案主要包括如下三部分内容：确定特征的标注标签、获取特征的元特征以及基于元特征和标注标签进行模型训练。

关于特征的标注标签，本申请的发明人提出利用置换特征重要性(Permutationfeature importance)方法，先确定样本集中每个特征的初始重要度，然后将该初始重要度作为各特征的标注标签。这里的置换特征重要性方法是一种与模型无关的方法，其通过对同一特征的各特征值进行随机调换，以破坏特征与业务标签的关系，之后测量模型的预测误差，来确定特征的重要性打分(也称重要度)。

需要说明，除了上述置换特征重要性方法，发明人还尝试使用了特定于模型的方法，比如平均不纯度减少法(Mean decrease in impurity，MDI)、SHAP(SHapley AdditiveexPlanation)特征重要性(SHAP feature importance)等。平均不纯度减少法汇总了特征在各梯度提升树对节点信息增益的贡献。SHAP特征重要性是一种基于博弈论的方法，可对每个特征对模型输出的贡献进行局部解释。

发明人在尝试使用上述特定于模型的方法时，采用了增强树模型(比如，LightGBM(一种轻量级梯度提升机)或极限梯度提升模型(eXtreme Gradient Boosting，XGBoost))，并且考虑了增强树模型的两种变体。一种使用默认超参数的增强树模型(简称BT-d)，另一种使用调整后的超参数的增强树模型(简称BT-t)。实验结果表明，基于BT-t的方法具有较高的准确性，但是基于BT-t的方法速度较快。具体地，在使用平均不纯度减少法时，同时计算出两种不同的MDI，一种基于BT-d计算得到，即MDI-d，另一种基于BT-t计算得到，即MDI-t。同样地，在使用SHAP特征重要性时，同时计算出两种不同的SHAP值，一种基于BT-d计算得到，即SI-d，另一种基于BT-t计算得到，即SI-t。

还需要说明，在实验阶段，关于置换特征重要性方法，发明人也分别尝试了单次实验(sPI)和多次实验(ePI)。尽管由于对特征进行置换的随机性，每个置换特征重要性的单个试验可能具有不同的特征重要性等级，但是ePI会汇总多个试验的重要性打分，以减少方差。

最后的实验结果表明，置换特征重要性方法的性能较好，因此本申请选择利用置换特征重要性方法，确定特征的初始重要度。

关于元特征，由于特征的统计信息通常能够更准确更全面地反映特征的总体特性，因此本申请的发明人提出基于特征的统计信息，确定其元特征。这里的统计信息可以包括以下中的至少一项：该特征和/或初始样本集的属性信息、该特征与其它特征和/或业务标签之间的关联关系信息以及基于树结构模型或线性模型针对该特征输出的重要性打分。

关于模型训练，本申请的发明人提出通过借鉴排名模型(learning to rank)的训练方法，来训练特征评估模型。在一个示例中，这里的特征评估模型包括两层多层感知器(Multilayer Perceptron，MLP)。

以上就是本说明书提供的发明构思，基于该发明构思就可以得到本方案，以下对本方案进行详细阐述。

图1为本说明书一个实施例提供的实施场景示意图。图1中，S₁-S_N分别代表S个样本集(下文也称初始样本集)，其中任意的样本集S_i包含n_i个业务对象样本(简称样本)，每个样本具有D_i维特征。

对于D_i维特征中的第j项特征，可以采用特征重要度评估算法(如，置换特征重要性方法等)，基于对应的样本集S_i，确定第j项特征的初始重要度(表示为FIS)，并将其作为对应的标注标签y_ij。其中，j为正整数，且1≤j≤D_i。之后，针对D_i维特征中的第j项特征，可以基于对应的统计信息，确定对应的元特征x_ij。最后，基于D_i维特征各自的元特征x_ij和标注标签y_ij，训练特征评估模型。该特征评估模型用于评估业务对象的特征的重要度，该特征用于构建针对业务对象的业务预测模型。

为便于理解，先对上述方法的实际应用场景进行介绍。

在一个示例性场景中，上述业务对象为用户，业务预测模型为人脸识别模型，业务对象样本的特征例如可以为人脸图片的大小以及像素等图片特征，特征评估模型用于评估图片特征的重要度。

在另一个示例性场景中，上述业务对象包括用户和商品，业务预测模型为商品推荐模型，业务对象样本的特征例如可以为用户属性(如，性别、年龄以及学历等)、操作行为(如，浏览、点击以及关闭等)以及商品属性(如商品类别、商品价格以及商品详情等)，特征评估模型用于评估用户/商品属性以及操作行为的重要度。

在再一个示例性场景中，上述业务对象为事件，业务预测模型为事件预测模型，业务对象样本的特征例如可以为交易时间、交易地点、交易金额、交易网络环境以及交易商品信息等事件特征等，特征评估模型用于事件特征的重要度。

在还一个示例性场景中，上述业务对象为商户，业务预测模型为商户经营风险评估模型，业务对象样本的特征例如可以为交易方、交易时间、交易金额、交易网络环境、交易商品信息等交易信息，特征评估模型用于评估商户特征的重要度。

需要理解，以上场景仅作为示例，实际上，上述业务对象还可以包括访问事件等其他业务事件等。总的来说，上述业务预测模型可以为分类模型或回归模型，用于预测上述业务对象的分类或回归值。

需要说明，本说明书所述的特征评估模型可以基于图1示出的各样本集进行训练，由于基于各样本集的训练方法相类似，因此以下以一个样本集为例，对特征评估模型的训练方法进行说明。

图2为本说明书一个实施例提供的特征评估模型的训练方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置。如图2所示，所述方法可以包括：

步骤202，获取初始样本集，其中包括N个具有D维特征的业务对象样本。

这里的业务对象样本例如可以为用户、商户、商品或事件等。以用户为例来说，其包含的D维特征可以包括但不限于图片的大小以及像素等图片特征。再以商户为例来说，其包含的D维特征可以包括但不限于交易方、交易时间、交易金额、交易网络环境、交易商品信息等商户特征。

此外，上述业务对象样本还可以具有各自的业务标签。在多分类场景下，假设业务对象样本为用户，业务预测模型为人脸识别模型，那么这里的业务标签例如可以为对应用户的身份标识(如，手机号或系统分配的唯一编号等)。在二分类场景下，假设业务对象样本为用户和商品，业务预测模型为商品推荐模型，那么这里的业务标签例如可以为“1”和“0”，其中，“1”代表向用户推荐商品，而“0”代表不向用户推荐商品。

在一个示例中，N个具有D维特征的业务对象样本(也即初始样本集)可以如表1所示。

表1

业务对象样本1	a₁₁、a₂₁、…、a_D1	Y₁
			业务对象样本2	a₁₂、a₂₂、…、a_D2	Y₂
…
			业务对象样本N	a_1N、a_2N、…、a_DN	Y_N

表1中，D维特征分别为a₁、a₂……a_D，业务标签用Y表示。各业务对象样本的特征和业务标签通过与业务对象样本一致的标号来表示，如业务对象样本1的特征在下标添加后缀1，表示为a₁₁、a₂₁……a_D1，业务标签表示为Y₁。值得说明的是，此处只是为了描述的方便，并不对标签本身进行区分。例如，Y₁和Y_N都可以是“1”，Y₂和Y₁都可以是“0”，等等。

步骤204，采用特征重要度评估算法，基于初始样本集，确定D维特征各自的初始重要度，并将其作为D维特征各自的标注标签。

这里的特征重要度评估算法可以包括但不限于以下任一中：平均不纯度减少法、SHAP特征重要性以及置换特征重要性等。

以置换特征重要性为例来说，上述确定D维特征各自的初始重要度可以包括：对于D维特征中任意的第一特征，随机调换初始样本集中各业务对象样本对应于第一特征的各特征值，得到调换样本集。将调换样本集中的各样本输入预训练的树结构模型。基于预训练的树结构模型的输出以及业务标签，计算预训练的机器学习模型的第一准确度。基于第一准确度和第二准确度的差值，确定对应于第一特征的初始重要度。其中，第二准确度是基于预训练的树结构模型针对初始样本集的输出计算得到。

当然，在实际应用中，也可以通过将初始样本集中各业务对象样本对应于第一特征的各特征值设定为固定值(如，“0”)，得到调换样本集，本说明书对此不作限定。

若上述第一特征为第2项特征(即a₂)，那么在针对表1示出的初始样本集，随机调换各业务对象样本对应于第2项特征的特征值后，得到的调换样本集可以如表2所示。

表2

表2中，在随机调换第2项特征的各特征值后，破换了第2项特征与业务标签之间的关系。需要说明，针对一个特征，在随机调换各业务对象样本对应于该特征的各特征值后，可以得到N个调换样本。

此外，上述树结构模型可以为LightGBM、Xgboost或者随机森林(Randomforest)等。

最后，关于上述第一准确度和第二准确度，由于该两者的计算方法相类似，因此以第一准确度为例来说，可以是统计预训练的树结构模型针对调换样本集中各样本的输出与业务标签相匹配的第一数目，之后基于该第一数目与总样本数目(即N)的比值，计算上述第一准确度。这里的相匹配可以是指输出与业务标签相等(如二分类场景)。

在本说明书实施例中，上述D维特征各自的业务标签可以分别表示为：y₁、y₂……y_D。

应理解，根据D维特征各自的标注标签，可以确定D维特征的初始排序。

以D维特征分别为如下5维特征：a₁、a₂、a₃、a₄和a₅，且各自对应的标注标签分别为：0.46、0.21、0.32、0.12和0.22为例来说，上述5维特征的初始排序为：1、4、2、5和3。

步骤206，对于D维特征中的每项特征，根据对应的统计信息，确定该特征的元特征。

这里的统计信息可以是指用于更准确更全面地反映特征的总体特性的信息。其可以包括以下中的至少一项：该特征和/或初始样本集的属性信息、该特征与其它特征和/或业务标签之间的关联关系信息以及基于树结构模型或线性模型针对该特征输出的重要度。

其中，特征的属性信息可以包括以下中的至少一项：特征类型、特征基数以及特征值分布的统计量等。其中的特征类型例如可以为数字类型或分类类型(取值为“0”或“1”)。特征基数也称为特征的取值个数，以特征为“学历”来说，假设“学历”的取值包括：“小学”、“初中”、“高中”、“大学”和“研究生”，那么该特征基数为5。特征值分布的统计量可以包括正例样本对应于该特征的特征值分布的统计量和负例样本对应于该特征的特征值分布的统计量。这里的统计量可以包括但不限于方差、偏度和峰度等。

初始样本集的属性信息可以包括以下中的至少一项：初始样本集中的样本数、业务对象样本的维数、样本数与维数的比值以及初始样本集的正负例样本中较少类别样本的占比等。以表1示出的初始样本集为例来说，样本数为N，业务对象样本的维数为D，样本数与维数的比值为N/D。

特征与其它特征和/或业务标签之间的关联关系信息可以包括以下中的至少一项：特征与其它特征的皮尔逊相关系数(Pearson correlation coefficients)、经典方差分析的p值(Thep-value of classic ANOVA)、卡方检验的p值(Thep-value of chi-squaretest)、特征与业务标签之间的互信息、Golub打分(Golub score)以及Relief打分(Relief’s feature score)等。

上述皮尔逊相关系数用于表示两个特征之间的关联度，特点是：两个特征越相关，那么皮尔逊相关系数越高。在一个例子中，可以取前k个皮尔逊相关系数确定元特征。

经典方差分析的p值用于表示两个或两个以上特征的特征值分布均值的差异度，特点是：两个特征的特征值分布均值的差异越大，经典方差分析的p值越高。

卡方检验的p值用于表示两个特征之间的关联度，特点是：某一特征与另一特征越相关，那么卡方检验的p值就越高。

特征与业务标签之间的互信息用于表示特征与业务标签之间的依赖性。特点是：特征与业务标签之间的依赖性越高，那么互信息越大。Golub打分定义为正、负例样本对应于该特征的特征值分布的均值之差，与正、负例样本对应于该特征的特征值分布的标准差之和的比值。

Relief打分用于表示特征的特征值与附近同类别样本的差异。特点是：同类别下，特征差异越大，Relief打分越小。

基于树结构模型针对该特征输出的重要度包括以下中的至少一项：平均不纯度减小量MDI以及SHAP值。基于线性模型针对该特征输出的重要度包括回归模型LASSO特征权重的绝对值。

平均不纯度较小量定义为特征在各梯度提升树对节点信息增益贡献的加权平均，基于平均不纯度减小法计算得到。这里的梯度提升树可以为LightGBM、Xgboost或者随机森林等。

SHAP值定义为特征对模型输出的平均贡献。在一个具体例子中，可以基于树结构模型计算SHAP值。比如可以汇总增强树模型中所有样本中每个特征的绝对SHAP值，以得出该特征的SHAP值。

回归模型LASSO特征权重的绝对值定义为基于回归模型得到的特征的重要性打分的绝对值。LASSO是采用L1正则化的线性模型，它将无关特征的权重抑制为零。

应理解，在实际应用中，还可以包括其它统计信息，比如，基于稳定性选择方法或递归特征选择方法统计的信息等，本说明书对此不作限定。

在一个示例中，可以直接将D维特征各自的统计信息作为各自的元特征。

在表1示出的例子中，D维特征各自对应的元特征可以如表3所示。

表3

特征a1	x₁₁、x₂₁、…、x_m1	y₁
			特征a2	x₁₂、x₂₂、…、x_m2	y₂
…
			特征aD	x_1D、x_2D、…、x_mD	y_D

表3中，第i项特征a_i的元特征表示为x_1i、x_2i、…、x_mi，其中m为元特征数目,这里的i在[1,D]之间取整数值。此外，y₁、y₂……y_D分别表示D维特征各自的标注标签，也即各自的初始重要度。

步骤208，将D维特征中多项特征各自的元特征输入特征评估模型，得到多项特征各自的预测重要度。

这里的特征评估模型用于评估业务对象的特征的重要度，该特征用于构建针对业务对象的业务预测模型。这里的业务对象可以包括以下中的任一种：用户、商户、商品或事件等。相应的业务对象的特征可以为图片特征、商品特征、商户特征或者事件特征等。以及业务预测模型例如可以为人脸识别模型、商品推荐模型、商户经营风险评估模型或者异常预测模型等。

在一种实现方式中，上述多项特征为两项特征。

当多项特征为两项特征时，在执行步骤208之前，可以先对D维特征中各项特征进行两两排列组合，之后将每个排列组合中的两项特征各自的元特征输入特征评估模型。也就是说上述步骤208是重复多次执行的，结束条件为所有排列组合中的两项特征输入完成。之后可以得到D维特征各自的预测重要度。需要说明，当一项特征的元特征被多次输入特征评估模型时，输出的预测重要度为对应于该项特征的多个中间预测结果的聚合结果。

在另一种实现方式中，上述多项特征为D维特征。

在一个示例中，上述特征评估模型可以实现为多层感知器MLP。当然，在实际应用中，上述特征评估模型也可以实现为其它神经网络模型，本说明书对此不作限定。

以特征评估模型实现为两层MLP时，该特征评估模型可以如图3所示。图3中，特征a_i和特征a_j为D维特征中的两项特征。在将特征a_i的元特征(x_1i、x_2i、…、x_mi)与特征a_j的元特征(x_1j、x_2j、…、x_mj)输入两层MLP之后，可以得到特征a_i和a_j各自的预测重要度s_i和s_j。

步骤210，根据多项特征的真实相对排序以及预测重要度，调整特征评估模型的参数。

上述真实相对排序根据多项特征各自的标注标签而确定。比如，上述多项特征为第一特征和第二特征，即一个组合中的两项特征，且该两项特征的标注标签分别为：0.46、0.21，那么该两项特征的真实相对排序为：第一特征在前，第二特征在后。

在一种实现方式中，上述调整特征评估模型的参数可以包括：根据第一特征与第二特征各自的预测重要度，确定第一特征排列在第二特征之前的预测概率。至少根据真实相对排序和预测概率，确定特征评估模型的参数梯度。按照参数梯度，调整特征评估模型的参数。

在一个示例中，可以根据如下公式确定上述预测概率：

其中，y为预测概率，S_i为第一特征的预测重要度，S_j为第二特征的预测重要度。б用于控制sigmoid函数的形状。

之后，可以基于第一特征和第二特征的真实相对排序和预测概率，利用交叉熵损失函数，确定预测损失。再基于预测损失，确定参数梯度。

比如，可以根据如下公式确定预测损失：

其中，L为预测损失，y为预测概率，为真实概率，其基于真实相对排序确定。比如，假设第一特征和第二特征的真实相对排序为：第一特征在前，第二特征在后，那么/>为1，否则为0。

类似地，可以基于其它组合中的两项特征的真实相对排序和预测概率，确定其它预测损失。通过对所有预测损失进行汇总，就可以得到最终预测损失。最后，通过对最终预测损失进行求导，就可以得到参数梯度。基于该参数梯度，就可以调整特征评估模型的参数。

在其它实现方式中，在利用公式2确定出预测损失之后，可以先不与其它预测损失进行汇总，而是先对当前确定出的预测损失进行求导，得到基准梯度，然后在基准梯度上叠加用于作为系数的指标变化值，得到叠加结果。其中，这里的指标变化值用于衡量，交换第一特征和第二特征在D维特征的预测排序中的位置，所引起的排序评价指标值的变化。最后，根据叠加结果确定参数梯度。

比如，可以根据如下公式进行叠加：

其中，为叠加结果，λ为基准梯度，ΔZ为指标变化值。

类似地，可以基于其它预测损失，确定出其它叠加结果。之后通过对所有叠加结果进行汇总，就可以得到参数梯度。基于该参数梯度，就可以调整特征评估模型的参数。

以下对上述排序评价指标值以及指标变化值的计算方法进行说明。

本说明书所述的排序评价指标值例如可以为归一化折损累计增益(NormalizedDiscounted Cumulative Gain，NDCG)、平均准确率(Mean Average Precision，MAP)以及平均倒数排名(Mean Reciprocal Rank，MRR)等。

以排序评价指标值为NDCG为例来说，指标变化值的计算方法可以包括：根据D维特征中各项特征的预测重要度，确定D维特征的第一预测排序。交换第一特征和第二特征在第一预测排序中的位置，得到第二预测排序。根据D维特征各自的标注标签、预测重要度、第一和第二预测排序以及初始排序，分别计算第一和第二排序评价指标值。其中初始排序根据D维特征各自的标注标签而确定。将第一和第二排序评价指标值的差值，作为指标变化值。

其中，根据D维特征各自的标注标签、预测重要度、第一和第二预测排序以及初始排序，分别计算第一和第二排序评价指标值可以包括：计算D维特征中每项特征的预测重要度与其在第一预测排序中排序序号的对数的比值并求和，得到第一求和结果。计算D维特征中每项特征的预测重要度与其在第二预测排序中排序序号的对数的比值并求和，得到第二求和结果。计算D维特征中每项特征的标注标签与其在初始排序中排序序号的对数的比值并求和，得到第三求和结果。将第一求和结果与第三求和结果的比值作为第一排序评价指标值。将第二求和结果与第三求和结果的比值作为第二排序评价指标值。

在一个具体例子中，根据如下公式计算第一求和结果：

其中，DCG表示第一求和结果，t表示排序序号，π^-1 _(t)表示第一预测排序中排序序号为t的特征，Sπ^-1 _(t)表示第一预测排序中排序序号为t的特征的预测重要度。

第二求和结果的计算方法可以参照公式4，只需将公式4中的π^-1 _(t)替换为第二预测排序中排序序号为t的特征即可。第三求和结果的计算方法也可以参照上述公式4，只需将公式4中的π^-1 _(t)替换为初始排序中排序序号为t的特征，并将Sπ^-1 _(t)替换为初始排序中排序序号为t的特征的标注标签即可。

需要说明，以上是以多项特征为两项特征对特征评估模型的参数调整的说明，在多项特征为D维特征时，该参数调整方法可以包括：根据D维特征的预测重要度，确定其预测排序。根据真实相对排序、标注标签、预测排序和预测重要度，确定预测排序的排序评价指标值。以排序评价指标值最大化为目标，调整特征评估模型的参数。

其中，这里的排序评价指标值例如可以为MAP以及MRR等，其具体计算方法为传统常规技术，本说明书在此不复赘述。

综上，本说明书实施例提供的特征评估模型的训练方法，基于特征的元特征来训练特征评估模型，由于这里的元特征基于特征的统计信息确定，而这些统计信息通常能够更准确更全面地反映特征的总体特性，从而本方案在基于元特征，训练特征评估模型时，所训练的模型可以更有效地对目标特征进行评估。此外，本方案在训练特征评估模型时，同时还考虑了多项特征的真实相对排序，由此可以使得所训练的模型同时能够准确预测目标特征的排序。由于在特征选择的场景下，通常是按序来选择top-k的特征来构建业务预测模型，因此，在目标特征的排序准确度提高的情况下，可以提升特征选择的准确性，进而可以提升业务预测模型构建的准确性。

以下以训练用于评估事件特征的特征评估模型为例，对本说明书实施提供的方法进行说明。

图4为本说明书一个实施例提供的事件特征评估模型的训练方法流程图。如图4所示，该方法可以包括如下步骤：

步骤402，获取样本事件集，其中包括N个具有D维事件特征的样本事件。

这里的事件特征可以包括但不限于交易时间、交易地点、交易金额、交易网络环境以及交易商品信息等。

步骤404，采用特征重要度评估算法，基于样本事件集，确定D维事件特征各自的初始重要度，并将其作为D维事件特征各自的标注标签。

这里的特征重要度评估算法比如可以为置换特征重要性等。

步骤406，对于D维事件特征中的每项事件特征，根据对应的统计信息，确定该事件特征的元特征。

这里的统计信息可以是指用于更准确更全面地反映事件特征的总体特性的信息。其可以包括以下中的至少一项：该事件特征和/或样本事件集的属性信息、该事件特征与其它事件特征和/或风险标签之间的关联关系信息以及基于树结构模型或线性模型针对该事件特征输出的重要度。

步骤408，将D维事件特征中多项事件特征各自的元特征输入事件特征评估模型，得到多项事件特征各自的预测重要度。

可以先对D维事件特征中各项事件特征进行两两排列组合，之后将每个排列组合中的两项事件特征各自的元特征输入事件特征评估模型，从而可以得到D维事件特征各自的预测重要度。

步骤410，根据多项事件特征的真实相对排序以及预测重要度，调整事件特征评估模型的参数，其中真实相对排序根据多项事件特征各自的标注标签而确定。

应理解，在根据本说明书实施例提供的方法训练得到特征评估模型之后，该特征评估模型可以针对特征的重要度进行评估(或预测)。

以下以特征评估模型针对事件特征的重要度进行评估为例进行说明。图5为本说明书一个实施例提供的事件特征评估方法流程图。如图5所示，该方法可以包括：

步骤502，获取样本事件集，其中包括N个具有D维事件特征的样本事件。

这里的样本事件的事件特征可以包括但不限于交易时间、交易地点、交易金额、交易网络环境以及交易商品信息等。

步骤504，对于D维事件特征中的每项事件特征，根据对应的统计信息，确定该事件特征的元特征。

这里的元特征可以参见步骤204所述，在此不复赘述。

步骤506，将D维事件特征中多项事件特征各自的元特征输入事件特征评估模型，得到D维事件特征各自的预测重要度。

应理解，基于D维事件特征各自的预测重要度，可以选择出各目标事件特征。比如，将D维事件特征中top-k的事件特征选择为各目标事件特征，之后基于各目标事件特征构建事件预测模型。

与上述特征评估模型的训练方法对应地，本说明书一个实施例还提供的一种特征评估模型的训练装置，该特征评估模型用于评估业务对象的特征的重要度，该特征用于构建针对业务对象的业务预测模型。如图6所示，该装置可以包括：

获取单元602，用于获取初始样本集，其中包括N个具有D维特征的业务对象样本。

确定单元604，用于采用特征重要度评估算法，基于初始样本集，确定所述D维特征各自的初始重要度，并将其作为D维特征各自的标注标签。

其中，业务对象样本具有对应的业务标签，确定单元604包括：

调换模块6042，用于对于D维特征中任意的第一特征，随机调换初始样本集中各业务对象样本对应于第一特征的各特征值，得到调换样本集。

输入模块6044，用于将调换样本集中的各样本输入预训练的树结构模型。

计算模块6046，用于基于预训练的树结构模型的输出以及业务标签，计算预训练的树结构模型的第一准确度。

确定模块6048，用于基于第一准确度和第二准确度的差值，确定对应于第一特征的初始重要度；其中，第二准确度是基于预训练的树结构模型针对初始样本集的输出计算得到。

确定单元604，还用于对于D维特征中的每项特征，根据对应的统计信息，确定该特征的元特征。

其中，上述统计信息包括以下中的至少一项：

该特征和/或初始样本集的属性信息；

该特征与其它特征和/或业务标签之间的关联关系信息；以及，

基于树结构模型或线性模型针对该特征输出的重要度。

上述属性信息包括以下中的至少一项：特征类型、特征基数、特征值分布的统计量、初始样本集中的样本数、业务对象样本的维数、样本数与维数的比值以及初始样本集的正负例样本中较少类别样本的占比。

上述关联关系信息包括以下中的至少一项：皮尔逊相关系数、经典方差分析的p值、卡方检验的p值、特征与业务标签之间的互信息、Golub打分以及Relief打分。

上述基于树结构模型针对该特征输出的重要度包括以下中的至少一项：平均不纯度减小量MDI以及SHAP值；上述基于线性模型针对该特征输出的重要度包括回归模型LASSO特征权重的绝对值。

输入单元606，用于将D维特征中多项特征各自的元特征输入特征评估模型，得到多项特征各自的预测重要度。

调整单元608，用于根据多项特征的真实相对排序以及预测重要度，调整特征评估模型的参数，其中真实相对排序根据多项特征各自的标注标签而确定。

其中，多项特征包括第一特征和第二特征；调整单元608具体用于：

根据第一特征与第二特征各自的预测重要度，确定第一特征排列在第二特征之前的预测概率；

至少根据真实相对排序和预测概率，确定特征评估模型的参数梯度；

按照参数梯度，调整特征评估模型的参数。

调整单元608还具体用于：

根据真实相对排序和所述预测概率，确定基准梯度；

在基准梯度上叠加用于作为系数的指标变化值，并根据叠加结果，确定参数梯度。其中，指标变化值用于衡量，交换第一特征和第二特征在D维特征的预测排序中的位置，所引起的排序评价指标值的变化。

可选地，该装置还可以包括：交换单元610和计算单元612。

确定单元604，还用于根据D维特征中各项特征的预测重要度，确定D维特征的第一预测排序。

交换单元610，用于交换第一特征和第二特征在第一预测排序中的位置，得到第二预测排序。

计算单元612，用于根据D维特征各自的标注标签、预测重要度、第一和第二预测排序以及初始排序，分别计算第一和第二排序评价指标值；其中初始排序根据D维特征各自的标注标签而确定。

计算单元612具体用于：

计算D维特征中每项特征的预测重要度与其在第一预测排序中排序序号的对数的比值并求和，得到第一求和结果；

计算D维特征中每项特征的预测重要度与其在第二预测排序中排序序号的对数的比值并求和，得到第二求和结果；

计算D维特征中每项特征的标注标签与其在初始排序中排序序号的对数的比值并求和，得到第三求和结果；

将第一求和结果与所述第三求和结果的比值作为第一排序评价指标值；将第二求和结果与第三求和结果的比值作为第二排序评价指标值。

确定单元604，还用于将第一和第二排序评价指标值的差值，作为指标变化值。

可选地，上述多项特征为D维特征，调整单元608具体用于：

根据D维特征的预测重要度，确定其预测排序；

根据真实相对排序、标注标签、预测排序和预测重要度，确定预测排序的排序评价指标值；

以排序评价指标值最大化为目标，调整特征评估模型的参数。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的特征评估模型的训练装置，可以提高特征重要性评估的有效性。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2、图4或图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2、图4或图5所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种事件特征评估模型的训练方法，通过计算机执行；所述事件特征评估模型用于评估事件特征的重要度，所述事件特征用于构建针对事件进行风险识别的事件预测模型；所述方法包括：

获取样本事件集，其中包括N个具有D维事件特征的样本事件；所述样本事件具有对应的风险标签；

采用特征重要度评估算法，基于所述样本事件集，确定所述D维事件特征各自的初始重要度，并将其作为所述D维事件特征各自的标注标签；所述D维事件特征包括，交易时间、交易地点、交易金额、交易网络环境以及交易商品信息；对于所述D维事件特征中的每项事件特征，根据对应的统计信息，确定该事件特征的元特征；所述统计信息至少包括，事件特征与风险标签之间的关联关系信息；

将所述D维事件特征中多项事件特征各自的元特征输入事件特征评估模型，得到所述多项事件特征各自的预测重要度；

根据所述多项事件特征的真实相对排序以及预测重要度，调整所述事件特征评估模型的参数，其中所述真实相对排序根据所述多项事件特征各自的标注标签而确定。

2.根据权利要求1所述的方法，所述统计信息包括以下中的至少一项：

该事件特征和/或样本事件集的属性信息；

该事件特征与其它事件特征之间的关联关系信息；以及，

基于树结构模型或线性模型针对该事件特征输出的重要度。

3.根据权利要求2所述的方法，所述属性信息包括以下中的至少一项：事件特征类型、事件特征基数、特征值分布的统计量、样本事件集中的样本数、样本事件的维数、样本数与维数的比值以及样本事件集的正负例样本中较少类别样本的占比。

4.根据权利要求2所述的方法，所述关联关系信息包括以下中的至少一项：皮尔逊相关系数、经典方差分析的p值、卡方检验的p值、事件特征与风险标签之间的互信息、Golub打分以及Relief打分。

5.根据权利要求2所述的方法，所述基于树结构模型针对该事件特征输出的重要度包括以下中的至少一项：平均不纯度减小量MDI以及SHAP值；所述基于线性模型针对该事件特征输出的重要度包括回归模型LASSO特征权重的绝对值。

6.根据权利要求1所述的方法，所述采用特征重要度评估算法，基于所述样本事件集，确定所述D维事件特征各自的初始重要度，包括：

对于所述D维事件特征中任意的第一事件特征，随机调换所述样本事件集中各样本事件对应于所述第一事件特征的各特征值，得到调换样本集；

将调换样本集中的各样本事件输入预训练的树结构模型；

基于所述预训练的树结构模型的输出以及所述风险标签，计算所述预训练的树结构模型的第一准确度；

基于所述第一准确度和第二准确度的差值，确定对应于所述第一事件特征的初始重要度；其中，所述第二准确度是基于所述预训练的树结构模型针对所述样本事件集的输出计算得到。

7.根据权利要求1所述的方法，所述多项事件特征包括第一事件特征和第二事件特征；所述根据所述多项事件特征的真实相对排序以及预测重要度，调整所述事件特征评估模型的参数，包括：

根据所述第一事件特征与第二事件特征各自的预测重要度，确定所述第一事件特征排列在所述第二事件特征之前的预测概率；

至少根据所述真实相对排序和所述预测概率，确定所述事件特征评估模型的参数梯度；

按照所述参数梯度，调整所述事件特征评估模型的参数。

8.根据权利要求7所述的方法，所述至少根据所述真实相对排序和所述预测概率，确定所述事件特征评估模型的参数梯度，包括：

根据所述真实相对排序和所述预测概率，确定基准梯度；

在所述基准梯度上叠加用于作为系数的指标变化值，并根据叠加结果，确定所述参数梯度；其中，所述指标变化值用于衡量，交换所述第一事件特征和第二事件特征在所述D维事件特征的预测排序中的位置，所引起的排序评价指标值的变化。

9.根据权利要求8所述的方法，所述指标变化值通过以下方式确定：

根据所述D维事件特征中各项事件特征的预测重要度，确定所述D维事件特征的第一预测排序；

交换所述第一事件特征和第二事件特征在所述第一预测排序中的位置，得到第二预测排序；

根据所述D维事件特征各自的标注标签、预测重要度、第一和第二预测排序以及初始排序，分别计算第一和第二排序评价指标值；其中所述初始排序根据所述D维事件特征各自的标注标签而确定；

将所述第一和第二排序评价指标值的差值，作为所述指标变化值。

10.根据权利要求9所述的方法，所述根据所述D维事件特征各自的标注标签、预测重要度、第一和第二预测排序以及初始排序，分别计算第一和第二排序评价指标值，包括：

计算所述D维事件特征中每项事件特征的预测重要度与其在第一预测排序中排序序号的对数的比值并求和，得到第一求和结果；

计算所述D维事件特征中每项事件特征的预测重要度与其在第二预测排序中排序序号的对数的比值并求和，得到第二求和结果；

计算所述D维事件特征中每项事件特征的标注标签与其在初始排序中排序序号的对数的比值并求和，得到第三求和结果；

将所述第一求和结果与所述第三求和结果的比值作为所述第一排序评价指标值；将所述第二求和结果与所述第三求和结果的比值作为所述第二排序评价指标值。

11.根据权利要求1所述的方法，所述多项事件特征为所述D维事件特征；所述根据所述多项事件特征的真实相对排序以及预测重要度，调整所述事件特征评估模型的参数，包括：

根据所述D维事件特征的预测重要度，确定其预测排序；

根据所述真实相对排序、所述标注标签、所述预测排序和所述预测重要度，确定所述预测排序的排序评价指标值；

以所述排序评价指标值最大化为目标，调整所述事件特征评估模型的参数。

12.一种事件特征评估模型的训练装置，所述事件特征评估模型用于评估事件特征的重要度，所述事件特征用于构建针对事件进行风险识别的事件预测模型；所述装置包括：

获取单元，用于获取样本事件集，其中包括N个具有D维事件特征的样本事件；所述样本事件具有对应的风险标签；

确定单元，用于采用特征重要度评估算法，基于所述样本事件集，确定所述D维事件特征各自的初始重要度，并将其作为所述D维事件特征各自的标注标签；所述D维事件特征包括，交易时间、交易地点、交易金额、交易网络环境以及交易商品信息；

所述确定单元，还用于对于所述D维事件特征中的每项事件特征，根据对应的统计信息，确定该事件特征的元特征；所述统计信息至少包括，事件特征与风险标签之间的关联关系信息；输入单元，用于将所述D维事件特征中多项事件特征各自的元特征输入事件特征评估模型，得到所述多项事件特征各自的预测重要度；

调整单元，用于根据所述多项事件特征的真实相对排序以及预测重要度，调整所述事件特征评估模型的参数，其中所述真实相对排序根据所述多项事件特征各自的标注标签而确定。

13.根据权利要求12所述的装置，所述统计信息包括以下中的至少一项：

该事件特征和/或样本事件集的属性信息；

该事件特征与其它事件特征之间的关联关系信息；以及，

基于树结构模型或线性模型针对该事件特征输出的重要度。

14.根据权利要求13所述的装置，所述属性信息包括以下中的至少一项：事件特征类型、事件特征基数、特征值分布的统计量、样本事件集中的样本数、样本事件的维数、样本数与维数的比值以及样本事件集的正负例样本中较少类别样本的占比。

15.根据权利要求13所述的装置，所述关联关系信息包括以下中的至少一项：皮尔逊相关系数、经典方差分析的p值、卡方检验的p值、事件特征与风险标签之间的互信息、Golub打分以及Relief打分。

16.根据权利要求13所述的装置，所述基于树结构模型针对该事件特征输出的重要度包括以下中的至少一项：平均不纯度减小量MDI以及SHAP值；所述基于线性模型针对该事件特征输出的重要度包括回归模型LASSO特征权重的绝对值。

17.根据权利要求12所述的装置，所述确定单元包括：

调换模块，用于对于所述D维事件特征中任意的第一事件特征，随机调换所述样本事件集中各样本事件对应于所述第一事件特征的各特征值，得到调换样本集；

输入模块，用于将调换样本集中的各样本事件输入预训练的树结构模型；

计算模块，用于基于所述预训练的树结构模型的输出以及所述风险标签，计算所述预训练的树结构模型的第一准确度；

确定模块，用于基于所述第一准确度和第二准确度的差值，确定对应于所述第一事件特征的初始重要度；其中，所述第二准确度是基于所述预训练的树结构模型针对所述初始样本集的输出计算得到。

18.根据权利要求12所述的装置，所述多项事件特征包括第一事件特征和第二事件特征；所述调整单元具体用于：

按照所述参数梯度，调整所述事件特征评估模型的参数。

19.根据权利要求18所述的装置，所述调整单元还具体用于：

根据所述真实相对排序和所述预测概率，确定基准梯度；

20.根据权利要求19所述的装置，还包括：交换单元和计算单元；

所述确定单元，还用于根据所述D维事件特征中各项事件特征的预测重要度，确定所述D维事件特征的第一预测排序；

所述交换单元，用于交换所述第一事件特征和第二事件特征在所述第一预测排序中的位置，得到第二预测排序；

所述计算单元，用于根据所述D维事件特征各自的标注标签、预测重要度、第一和第二预测排序以及初始排序，分别计算第一和第二排序评价指标值；其中所述初始排序根据所述D维事件特征各自的标注标签而确定；

所述确定单元，还用于将所述第一和第二排序评价指标值的差值，作为所述指标变化值。

21.根据权利要求20所述的装置，所述计算单元具体用于：

22.根据权利要求12所述的装置，所述多项事件特征为所述D维事件特征；所述调整单元具体用于：

根据所述D维事件特征的预测重要度，确定其预测排序；

23.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项所述的方法。

24.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。