CN114548765A

CN114548765A - 用于风险识别的方法和装置

Info

Publication number: CN114548765A
Application number: CN202210162714.7A
Authority: CN
Inventors: 张长浩; 傅欣艺; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-27

Abstract

本发明提供了用于风险识别的方法和装置。一种用于风险识别的方法包括：获取样本集，该样本集中的每一个样本包括多个特征；针对该多个特征中的每个类别特征，确定该类别特征在该样本集中的类别数；将该类别特征的类别数与类别数阈值进行比较；如果该类别特征的类别数小于或等于该类别数阈值，则使用随机编码方式来对该类别特征进行编码以生成用于该类别特征的特征映射集合；以及如果所述类别特征的类别数大于所述类别数阈值，则使用统计编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合。

Description

用于风险识别的方法和装置

技术领域

本申请涉及人工智能领域，尤其涉及在风险识别中构建特征的方法和装置。

背景技术

随着互联网业务的发展，出现了各式各样的风险事件(例如，支付账户盗用等)。为了维持业务平台的稳定性，需要对业务(例如，交易)进行监控，以及时识别出违规的业务。

随着机器学习技术的迅猛发展，可以使用用于风险识别的模型来实现对风险事件的识别。然而，目前利用模型识别风险事件的方式较为低效，由此导致风险识别的准确度不高，并且极大地耗费系统的计算资源。

因此，亟需能够提高机器学习模型对风险事件的识别效果并且节省计算资源的方案。

发明内容

为解决上述技术问题，本发明提供了一种用于风险识别的方法，包括：

获取样本集，所述样本集中的每一个样本包括多个特征；

针对所述多个特征中的每个类别特征，确定所述类别特征在所述样本集中的类别数；

将所述类别特征的类别数与类别数阈值进行比较；

如果所述类别特征的类别数小于或等于所述类别数阈值，则使用随机编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合，所述特征映射集合包括所述类别特征中的每个类别与对应特征值的映射；以及

如果所述类别特征的类别数大于所述类别数阈值，则使用统计编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合。

可任选地，所述随机编码方式包括针对类别特征的每个类别，将对应于所述类别的特征值确定为随机数。

可任选地，使用所述统计编码方式来对所述类别特征进行编码包括：

确定所述样本集中的有风险样本总数和无风险样本总数；

针对所述类别特征的每个类别：

确定所述样本集中该类别下的有风险样本数目和无风险样本数目；

使用所述有风险样本总数和该类别下的有风险样本数目来确定该类别的有风险样本占比；

使用所述无风险样本总数和该类别下的无风险样本数目来确定该类别的无风险样本占比；以及

使用所述有风险样本占比和所述无风险样本占比来确定对应于该类别的特征值。

可任选地，所述统计编码方式包括证据权重WOE编码方式或信息值IV编码方式。

可任选地，使用所述WOE编码方式来对所述类别特征进行编码包括：

将所述类别特征关于该类别的特征值f确定为：

可任选地，使用所述IV编码方式来对所述类别特征进行编码包括：

将所述类别特征关于该类别的特征值f确定为：

可任选地，所述多个特征包括数值型特征，并且所述方法进一步包括，使用所述统计编码方式来确定用于数值型特征的特征映射集合。

可任选地，该方法进一步包括：

将所述数值型特征的数值进行分箱，其中分箱的个数大于所述类别数阈值；以及

将每一分箱作为一个类别，使用统计编码方式来确定所述数值型特征的特征映射集合。

可任选地，该方法进一步包括：

对所述数值型特征进行截断操作；以及

使用所述统计编码方式来确定用于所述经截断的数值型特征的特征映射集合。

可任选地，该方法进一步包括：

针对所述多个特征中的每个特征，确定所述样本集中缺失该特征的缺失样本数目；

将所述缺失样本数目与缺失数目阈值进行比较；

如果所述缺失样本数目大于所述缺失数目阈值，则使用所述随机编码方式来对所述特征进行编码；以及

如果所述缺失样本数目小于或等于所述缺失数目阈值，则使用所述统计编码方式来对所述特征进行编码。

可任选地，该方法进一步包括：

使用所述特征映射集合来确定与训练样本集中的类别特征相对应的特征值；以及

使用与所述训练样本集相对应的特征向量来训练树模型。

可任选地，该方法进一步包括：

使用所述特征映射集合来确定与待预测样本集中的类别特征相对应的特征值；以及

将与所述待预测样本集合相对应的特征向量输入经训练的树模型以进行风险识别预测。

可任选地，所述多个特征包括数值型特征，所述数值型特征在一周期内包括多个数值，所述方法进一步包括：

从所述样本集中获取所述数值型特征在一周期内的多个数值；以及

从所述多个数值中随机地选择一数值作为所述数值型特征在所述周期内的特征值。

可任选地，该方法进一步包括：

获取用于训练模型的训练样本集；

其中所述训练样本集包括无风险交易样本和有风险交易样本，并且排除不成功交易样本。

可任选地，该方法进一步包括：

周期性地获取用于风险识别的训练样本集以使用所述训练样本集来训练模型，其中周期为一个月。

本公开的另一方面提供了一种用于风险识别的装置，包括：

用于获取样本集的模块，所述样本集中的每一个样本包括多个特征；

用于针对所述多个特征中的每个类别特征，确定所述类别特征在所述样本集中的类别数的模块；

用于将所述类别特征的类别数与类别数阈值进行比较的模块；

用于如果所述类别特征的类别数小于或等于所述类别数阈值，则使用随机编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合的模块，所述特征映射集合包括所述类别特征中的每个类别与对应特征值的映射；以及

用于如果所述类别特征的类别数大于所述类别数阈值，则使用统计编码方式来对所述类别特征进行编码以生成用于所述类别特征的特征映射集合的模块。

可任选地，用于使用所述统计编码方式来对所述类别特征进行编码的模块包括：

用于确定所述样本集中的有风险样本总数和无风险样本总数的模块；

用于针对所述类别特征的每个类别执行以下操作的模块：

将所述类别特征关于该类别的特征值f确定为：

将所述类别特征关于该类别的特征值f确定为：

可任选地，所述多个特征包括数值型特征，并且所述装置进一步包括，用于使用所述统计编码方式来确定用于数值型特征的特征映射集合的模块。

可任选地，该装置进一步包括：

用于将所述数值型特征的数值进行分箱的模块，其中分箱的个数大于所述类别数阈值；以及

用于将每一分箱作为一个类别，使用统计编码方式来确定所述数值型特征的特征映射集合的模块。

可任选地，该装置进一步包括：

用于对所述数值型特征进行截断操作的模块；以及

用于使用所述统计编码方式来确定用于所述经截断的数值型特征的特征映射集合的模块。

可任选地，该装置进一步包括：

用于针对所述多个特征中的每个特征，确定所述样本集中缺失该特征的缺失样本数目的模块；

用于将所述缺失样本数目与缺失数目阈值进行比较的模块；

用于如果所述缺失样本数目大于所述缺失数目阈值，则使用所述随机编码方式来对所述特征进行编码的模块；以及

用于如果所述缺失样本数目小于或等于所述缺失数目阈值，则使用所述统计编码方式来对所述特征进行编码的模块。

可任选地，该装置进一步包括，

用于使用所述特征映射集合来确定与训练样本集中的类别特征相对应的特征值的模块；以及

用于使用与所述训练样本集相对应的特征向量来训练树模型的模块。

可任选地，该装置进一步包括：

用于使用所述特征映射集合来确定与待预测样本集中的类别特征相对应的特征值的模块；以及

用于将与所述待预测样本集合相对应的特征向量输入经训练的树模型以进行风险识别预测的。

可任选地，所述多个特征包括数值型特征，所述数值型特征在一周期内包括多个数值，所述装置进一步包括：

用于从所述样本集中获取所述数值型特征在一周期内的多个数值的模块；以及

用于从所述多个数值中随机地选择一数值作为所述数值型特征在所述周期内的特征值的模块。

可任选地，该装置进一步包括：

用于获取用于训练模型的训练样本集的模块；

可任选地，该装置进一步包括：

用于周期性地获取用于风险识别的训练样本集以使用所述训练样本集来训练模型的模块，其中周期为一个月。

本公开的又一方面提供了一种用于风险识别的装置，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

获取样本集，所述样本集中的每一个样本包括多个特征；

将所述类别特征的类别数与类别数阈值进行比较；

附图说明

图1是根据本公开的各方面的用于风险识别的特征编码的系统的示图。

图2是根据本公开的一方面的交易数量随时间分布的示图。

图3是根据本公开的各方面的用于风险识别的模型训练/预测的系统的示图。

图4是根据本公开的各方面的用于风险识别的特征构建的方法的流程图。

图5是根据本公开的各方面的用于风险识别的特征构建的装置的示图。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

在风险识别中，需要将每个样本(训练样本或待预测样本)转换为特征向量，以输入模型进行训练和预测。例如，一个样本可以对应于一次交易，该样本可包括多个特征，例如，交易双方使用的IP地址、用户的省份、城市、历史交易次数等。

可以将交易的样本的每个特征转换为特征值，从而将一个交易的样本转换为一个特征向量[f₁,f₂,…f_i,…f_n]，其中n为该交易的样本所包括的特征的数目，元素f_i表示与第i个特征相对应的特征值。

在模型训练过程中，可以将与历史交易的样本相对应的特征向量与其标签输入模型来训练模型，该标签可表示该交易是有风险交易还是无风险交易。例如，有风险交易的标签值为1，无风险交易的标签值为0，其他标签值也在本公开的构想中。

在模型预测过程中，可以将与待预测交易的样本相对应的特征向量输入模型，以预测该交易是否有风险。

用于风险识别的样本数据具有以下特点：

1、结构化数据，结构化数据是一种以表格形式提供的采样稀疏数据。

2、有些数据样本(例如，IP地址)难以被转换为具有预测性的特征以供模型使用。

3、标签失衡，在用于风险识别的数据样本中，绝大多数是白样本(无风险样本)，而黑样本(有风险样本)的浓度很小，这对建模构成了困难。

4、过拟合问题，风险识别是一个变化较快的场景，当前训练的模型可能在一时间段之后难以保持当前的预测性能。

目前用于风险识别的特征构建可包括基于策略的特征构建、基于常规树模型的特征构建以及基于传统深度学习算法的特征构建。

基于策略的特征构建通过数据分析来指定一系列的规则，并且进行规则的叠加。但其缺点在于规则很简单，并且主要依靠专家经验，其预测效果较差。基于树模型的数据是结构化特征，其对样本浓度的敏感度低，但类别特征的预测性较差。基于深度学习的方案使用网络诸如卷机神经网络、循环神经网络之类的网络模型，其特征构建主要依靠归一化、标准化等操作，不能直接使用结构化数据。

针对以上问题，本公开提出了高效的特征构建方案，使得所构建的特征具有风险识别的预测性，更容易被模型解释。

在用于风险识别的系统中，可以根据交易所涉及的各方面来选择样本的特征来进行模型的训练和预测。

例如，用于风险识别的样本的特征可以包括以下各项：

交易的付款方特征，其可以包括交易的付款方的用户信息(例如，用户ID、用户在一小时内的平均交易数目、最大交易数目等)和设备信息(该设备在当前交易之前出现了多少个不同的用户、该设备在当前交易之前的交易次数等)、付款方的银行卡所对应的手机号码、地址信息(省份、城市等)，等等。

交易特征：其可以包括交易的支付金额、时间、支付渠道，等等。

交易的收款方特征，其可以包括交易的收款方的用户信号(例如，身份证号等)和设备信息、付款方的银行卡所对应的手机号码、地址信息(省份、城市等)，等等。

另一方面，用于风险识别的样本的特征可以包括类别特征、标识特征、数值型特征等。本公开的方案可以对以上特征进行不同的特征构建(即，确定特征值)。

图1是根据本公开的各方面的用于风险识别的特征构建的系统100的示图。

系统100可以包括候选样本获取模块102、目标样本获取模块104、以及特征映射生成模块106。系统100可以将样本的原始特征数据(例如，文本形式、字符形式、原始数据形式等)编码为数值，以用于构建与样本相对应的特征向量。

候选样本获取模块102可以从应用平台上发生的众多交易中获取候选样本集，候选样本集中的每一个样本可以对应于一次交易并且包括多个特征，如上所述。

目标样本获取模块104可以从候选样本集中提取目标样本集。

在本公开的一方面，本发明人发现在平台上进行的交易数量是以特定周期来变化的。换言之，候选样本集中的样本数目是以特定周期来变化的。

图2是交易数量随时间分布的示图。

如图2所示，交易数量的分布是以一个月为周期来变化。因此以一个月为周期来获取目标样本集以进行特征构建能够充分地体现出样本数据的特性，由此能够提高模型训练的准确度。

根据本公开的一方面，在进行模型训练中，可以在候选样本集中选择当前时间前一个月的样本数据并纳入目标样本集中，使用该目标样本集构建特征以用于模型的训练。

特征映射生成模块106可以用于将目标样本集中的样本的每个特征的原始特征数据(例如，文本形式、字符形式、原始数据形式等)映射为适于模型处理的特征值(例如，数值)，以生成特征映射集合。

在一方面，样本的特征可以包括类别特征，其可涉及多个类别，例如，性别类别特征可包括男性类别和女性类别，省份类别特征可包括浙江省类别、江苏省类别、四川省类别、上海市类别、北京市类别等。

特征映射生成模块106可以将类别特征的每种类别映射到(例如，编码为)对应的特征值以生成特征映射集合，如下表1所示。

类别

C1

C2

……

Ci

……

Cn

特征值

f1

f2

……

fi

……

fn

表1

其中C_i表示第i个类别，特征值f_i表示第i个类别所对应的特征值。

类别特征的特征映射可以使用历史样本及其标签(有风险/无风险)来确定对应于每种类别的特征值。该历史样本可以是训练样本，也可以是其他与历史交易相对应的样本。

例如，省份类别特征可包括浙江省、江苏省、四川省、上海市、北京市等类别。可将样本中的每个类别(例如，省份)映射到对应的特征值(例如，数值)。

现有技术通常将每个类别随机地映射到一个特征值(在本文被称为对特征进行随机编码)。

作为随机编码的示例，在省份类别特征中，浙江省可被映射到特征值1，江苏省可被映射到特征值2，四川省可被映射到特征值3，……；在性别类别特征中，男用户可被映射到特征值1，女用户可被映射到特征值0。请注意，以上类别特征的特征值仅仅是示例，也可以使用其他随机选取的特征值。

在类别特征的类别数较小时，随机编码的预测效果可接受。例如，用户的性别(男/女，两个类别)、用户的年龄范围(20以下、20-30、30-40、40-50、50-60、60以上，共6个类别)、交易发生在星期几(7个类别)等。

但是在类别特征所涉及的类别数目较大(例如，类别数大于类别数阈值)时，对类别特征进行随机编码所生成的特征值可能不适用于后续模型(例如，树模型)的处理。具体而言，对类别特征进行随机编码所生成的特征值无法对特征引入预测意义(即，对交易风险的解释性)以供模型(例如，树模型)使用。

根据本公开的一方面，对于类别较多的类别特征可使用统计编码方式，包括WOE(weight of evidence，证据权重)编码方式或IV(information value，信息值)编码方式以对特征引入预测意义。例如，在类别特征的类别数大于类别数阈值时，可使用统计编码方式对该类别特征进行编码。该类别数阈值可以是预先设置的。类别数阈值可以是预先设置的。

在统计编码过程中，可以对每个类别的有风险样本数目和无风险样本数目关于样本集中的有风险样本总数和无风险样本总数的占比进行统计，并且使用所统计的占比来确定每个类别的特征值。

具体而言，可按照如下统计编码方式来确定类别特征中的一类别的特征值：

首先，可以确定样本集(例如，图1中的目标样本集)中的有风险样本总数T_bad和无风险样本总数T_good。

针对类别特征中的每一个(例如，第i个)类别，可采取如下操作：

确定该类别在样本集中的有风险样本数目N_{bad_i}和无风险样本数目N_{good_i}。

例如，对于省份类别特征，对于其中的浙江类别，可以统计样本集中类别为浙江的样本中的有风险样本数目N_bad和无风险样本数目N_good。

一方面，可以使用有风险样本总数T_bad和该类别的有风险样本数目N_{bad_i}来确定该类别的有风险样本占比R_{bad_i}。

另一方面，可以使用无风险样本总数T_good和该类别的无风险样本数目N_{good_i}来确定该类别的无风险样本占比R_{good_i}。

随后可以使用有风险样本占比R_{bad_i}和无风险样本占比R_{good_i}来确定对应于类别i的特征值。

对于WOE编码，可以将该类别特征关于类别i的特征值f_i确定为：

对于IV编码，可以将该类别特征关于类别i的特征值f_i确定为：

通过统计编码得到的类别特征中某一类别的特征值越高，说明该类别的风险程度(有风险的概率)越高，由此在后续树模型的处理中能够高效地识别出有风险样本。

一方面，本公开对于类别较少的类别特征(例如，类别数小于类别数阈值)可使用随机编码方式。

对于类别数较小(例如，2、3、4、6个)的类别特征，WOE/IV编码会在特征值中引入标签信息，由此造成标签泄漏。因此对于类别数较小的类别特征，可以使用随机编码来确定特征映射集合。

在一方面，标识特征(即，用于标识的特征，例如，IP地址等)也可以使用统计编码方式进行编码。

例如，对于每个IP地址，可以将其映射到对应的特征值。

具体而言，可以确定样本集中的有风险样本总数T_bad和无风险样本总数T_good。

针对每一个IP地址a，可采取如下操作：

确定该样本集中IP地址为a的样本中的有风险样本数目N_{bad_a}和无风险样本数目N_{good_a}。

在一方面，可以使用有风险样本总数T_bad和样本集中IP地址为a的有风险样本数目N_{bad_a}来确定IP地址a的有风险样本占比R_{bad_a}。

在另一方面，可以使用无风险样本总数T_good和样本集中IP地址为a的无风险样本数目N_{good_a}来确定IP地址为a的无风险样本占比R_{good_a}。

随后可以根据式(1)确定关于IP地址a的WOE特征值f_j，或者根据式(2)确定关于IP地址a的IV特征值f_j。

通过使用统计编码方式来确定每个IP地址的特征值，可以标识出高危的IP地址。

以上以IP地址为示例进行解说，但使用其他统计编码方式对其他标识特征进行编码也在本公开的构想中。

在一方面，数值型特征也可以使用统计编码方式进行编码。

例如，对于用户的历史交易数目特征而言，可以针对样本集中的每个历史交易数目来确定其特征值，如表2所示。

历史交易数目

n1

n2

……

nj

……

nm

特征值

f1

f2

……

fj

……

fm

表2

如图2所示，每个历史交易数目n_j可以对应于一个特征值f_j。

同样，可以确定样本集中的有风险样本总数T_bad和无风险样本总数T_good。

针对每一个历史交易数目n_j，可采取如下操作：

确定该样本集中历史交易数目为n_j的样本中的有风险样本数目N_{bad_j}和无风险样本数目N_{good_j}。

在一方面，可以使用有风险样本总数T_bad和历史交易数目为n_j的有风险样本数目N_{bad_j}来确定该历史交易数目n_j的有风险样本占比R_{bad_j}。

在另一方面，可以使用无风险样本总数T_good和历史交易数目为n_j的无风险样本数目N_{good_j}来确定该历史交易数目j的无风险样本占比R_{good_j}。

随后可以根据式(1)确定关于历史交易数目n_j的WOE特征值f_j，或者根据式(2)确定关于历史交易数目n_j的IV特征值f_j。

进一步，可以首先对数值型特征进行分箱，每个分箱可以对应于如上所述的一个类别。由此可以使用上述用于类别特征的方法对每个分箱的数值进行统计编码。分箱的数目可以大于如上所述的类别数阈值。

在又一方面，可以对特征(例如，标识特征、数值型特征等)进行截断操作，使用统计编码方式来确定经截断的数值型特征的取值。

例如，对于IP地址特征，其可以使用32位二进制数字来表示，例如，a.b.c.d(例如，168.126.17.5)，其中a、b、c、d可分别由四位二进制数字来表示，范围为0-255。

可以将IP地址进行截断，例如，截断为16位二进制数字，随后通过上述用于数值型特征的编码来确定经截断的IP地址的IP特征值。

在确定新数据样本的IP地址的特征值时，可以按照同样的方式对IP地址进行截断，并将经截断的IP地址映射到其对应的IP特征值作为该样本的特征向量中对应于IP地址的分量的特征值。

对数值型特征进行截断能够大大减小计算机系统的计算量的数量级。

另一方面，可以根据样本集中特征的缺失程度来选择编码方式。在样本的采集过程中，有些特征可能因为各种原因未被采集到，由此造成该样本中缺失该特征。

对于样本集中的缺失比较多的特征可以使用随机编码。例如，如果在样本集中缺少IP地址特征的样本比较多(例如，高于缺失数目阈值)，对其进行WOE或IV编码将会影响经编码的特征值的预测能力，由此对其使用随机编码。缺失数目阈值可以是预先设置的。

对于样本集中缺失比较少的特征，可以使用统计编码方式。

以上特征编码可以使用历史样本(例如，训练样本)及其标签(有风险/无风险)来确定每种类别的特征值。

在确定每个特征的原始数据所对应的特征值(例如，生成特征的特征值映射集合)之后，可以根据所生成的映射集合将待处理样本(例如，训练样本和待预测样本)中的每个特征映射到特征值，从而生成特征向量以供后续网络模型处理。

如图3所示，系统300可包括样本获取模块302、特征向量生成模块304和网络模型306。

样本获取模块302可以获取待处理样本(例如，训练样本和待预测样本)。

特征向量生成模块304根据所生成的特征值映射集合将所获取的样本中的每一个特征映射到特征值。例如，对于省份类别特征，可以根据用于省份类别的特征映射集合将样本中的省份数据映射到对应的特征值。对于IP地址特征，可以根据IP地址特征映射集合将样本中的IP地址映射到对应的特征值。

可以将样本的每一个特征映射到对应的特征值，并且将这些特征值组合为向量，由此生成该样本的特征向量。

网络模型306可以包括树模型，其接收所生成的特征向量，并且进行对应的训练和预测操作。例如，对于训练过程而言，可以使用与训练样本相对应的特征向量和样本的标签(例如，有风险/无风险)来对网络模型306进行训练。对于预测过程而言，可以将与待预测样本相对应的特征向量输入网络模型306以预测该样本所对应的交易是否有风险。

另一方面，在模型的训练过程中，所采集的样本集可包括无风险交易样本(白样本)、有风险交易样本(黑样本)以及交易失败样本(例如，交易因为各种原因未能成功进行)。无风险交易样本、有风险交易样本以及交易失败的样本可分别被给予标签值0、1、-1。请注意，该标签值仅仅是示例性的，其他标签值也在本公开的构想中。

而在模型的预测过程中，仅生成两种预测结果：无风险交易样本(预测标签为0)和有风险样本(预测标签为1)。

由此在模型的训练样本集和待预测样本集之间存在差异。

根据本公开的一方面，可以在训练样本集中仅包括无风险交易样本和有风险交易样本，并且排除交易失败样本。由此使得训练样本集和待预测样本集的标签保持一致。

本公开的另一方面涉及对样本集中的特征(例如，统计数值型特征)进行随机采样以生成该特征的特征值。

由于训练样本集和待预测样本集之间的时间间隔较大，容易导致模型在训练集上的过拟合，而加入特征噪声能够减弱这种过拟合。

本公开对于关于用户或设备的某些统计数值型特征(例如，用户或设备在特定周期内的统计值)，可以从特定周期内的多个数值中随机选择一数值作为该周期内的特征值，这在本文中被称为对特征的随机采样取值。随机采样取值一方面可以大大减少后续笛卡尔积操作的计算量，另一方面在样本集中加入了特征噪声，由此减小了过拟合。

例如，对于‘每小时用户登陆设备次数’特征，关于2021年1月3日的9:00到10:00的一小时周期，可以采集到多个数值。例如，在9:30可采集到用户登陆设备次数为6次，在9:40可采集到用户登陆设备次数为8次，在9:50可采集到用户登陆设备次数为10次，等等。

可以从样本集中关于‘每小时用户登陆设备次数’特征在该周期内的多个值(例如，6个、8个、10个等)中随机选择一个值作为该特征关于该周期的特征值。

一般来说，绝大部分用户在一个小时内的交易次数是稳定的并且量级较小，因此这种噪声是细粒度的噪声，其能够在避免过拟合的同时保证模型的预测准确度。

如图4所示，在步骤402，可以获取样本集，样本集中的每一个样本可包括多个特征。

在步骤404，可以针对该多个特征中的每个类别特征，确定该类别特征在该样本集中的类别数。

在步骤406，可以将该类别特征的类别数与类别数阈值进行比较。

在步骤408，如果该类别特征的类别数小于或等于该类别数阈值，则可以使用随机编码方式来对该类别特征进行编码以生成用于该类别特征的特征映射集合，该特征映射集合包括该类别特征中的每个类别与对应特征值的映射。

在一方面，随机编码方式包括针对类别特征的每个类别，将对应于该类别的特征值确定为随机数。

在步骤410，如果该类别特征的类别数大于该类别数阈值，则可以使用统计编码方式来对该类别特征进行编码以生成用于该类别特征的特征映射集合。

在一方面，使用统计编码方式来对该类别特征进行编码可以包括：确定该样本集中的有风险样本总数和无风险样本总数；针对该类别特征的每个类别：确定该样本集中该类别下的有风险样本数目和无风险样本数目；使用该有风险样本总数和该类别下的有风险样本数目来确定该类别的有风险样本占比；使用该无风险样本总数和该类别下的无风险样本数目来确定该类别的无风险样本占比；以及使用该有风险样本占比和该无风险样本占比来确定对应于该类别的特征值。

在一方面，统计编码方式包括证据权重(WOE)编码方式或信息值(IV)编码方式。

在一方面，使用WOE编码方式来对该类别特征进行编码包括：将该类别特征关于该类别的特征值f确定为：

在一方面，使用IV编码方式来对该类别特征进行编码包括：将该类别特征关于该类别的特征值f确定为：

在一方面，该多个特征可包括数值型特征，可以使用统计编码方式来确定用于数值型特征的特征映射集合。

在一方面，可以将该数值型特征的数值进行分箱，其中分箱的个数可以大于该类别数阈值；并且将每一分箱作为一个类别，使用统计编码方式来确定用于该数值型特征的特征映射集合。

在一方面，可以对该数值型特征进行截断操作，并且使用统计编码方式来确定用于该经截断的数值型特征的特征映射集合。

在一方面，可以针对该多个特征中的每个特征，确定该样本集中缺失该特征的缺失样本数目；将该缺失样本数目与缺失数目阈值进行比较；如果该缺失样本数目大于该缺失数目阈值，则使用随机编码方式来对该特征进行编码；以及如果该缺失样本数目小于或等于该缺失数目阈值，则使用统计编码方式来对该特征进行编码。

在一方面，可以使用该特征映射集合来确定与训练样本集中的类别特征相对应的特征值，并且使用与训练样本集相对应的特征向量来训练树模型。

在另一方面，可以使用该特征映射集合来确定与待预测样本集中的类别特征相对应的特征值，并且将与该待预测样本集合相对应的特征向量输入经训练的树模型以进行风险识别预测。

在一方面，可以根据该特征值映射来确定样本中的特征的特征值。

在一方面，该多个特征可包括数值型特征，该数值型特征在一周期内包括多个数值，并且该方法进一步包括：从该样本集中获取该数值型特征在一周期内的多个数值；以及从该多个数值中随机地选择一数值作为该数值型特征在该周期内的特征值。该周期可包括一个小时。

在一方面，可以获取用于训练模型的训练样本集；其中该训练样本集包括无风险交易样本和有风险交易样本，并且排除不成功交易样本。

在一方面，可以周期性地获取用于风险识别的训练样本集以使用该训练样本集来训练模型，其中周期为一个月。

如图5所示，用于风险识别的特征构建的装置500可包括样本集获取模块502、编码方式确定模块504、随机编码模块506、统计编码模块508、特征值生成模块510。

样本集获取模块502可以获取样本集，样本集中的每一个样本包括多个特征。该样本集可以是历史样本集。

编码方式确定模块504可以针对该多个特征中的每个类别特征，确定该类别特征在该样本集中的类别数，并且可以将类别特征的类别数与类别数阈值进行比较。如果该类别特征的类别数小于或等于该类别数阈值，则使用随机编码方式来对该类别特征进行编码以生成用于该类别特征的特征映射集合，该特征映射集合包括该类别特征中的每个类别与对应特征值的映射。如果该类别特征的类别数大于该类别数阈值，则使用统计编码方式来对该类别特征进行编码以生成用于该类别特征的特征映射集合。

随机编码模块506可以针对类别特征的每个类别，将对应于该类别的特征值确定为随机数。

统计编码模块508可以确定该样本集中的有风险样本总数和无风险样本总数；针对该类别特征的每个类别：确定该样本集中该类别下的有风险样本数目和无风险样本数目；使用该有风险样本总数和该类别下的有风险样本数目来确定该类别的有风险样本占比；使用该无风险样本总数和该类别下的无风险样本数目来确定该类别的无风险样本占比；以及使用该有风险样本占比和该无风险样本占比来确定该类别特征对应于该类别的特征值。

在一方面，统计编码方式可以包括证据权重WOE编码方式或信息值IV编码方式。

在一方面，使用WOE编码方式来对该类别特征进行编码可以包括：将该类别特征关于该类别的特征值f确定为：

在一方面，使用IV编码方式来对该类别特征进行编码可包括：将该类别特征关于该类别的特征值f确定为：

在一方面，统计编码模块508可以使用统计编码方式来确定用于数值型特征的特征映射集合。

统计编码模块508可以将该数值型特征的数值进行分箱，其中分箱的个数大于该类别数阈值；并且将每一分箱作为一个类别，使用统计编码方式来确定该数值型特征的特征映射集合。

统计编码模块508可以可以对该数值型特征进行截断操作，并且使用统计编码方式来确定用于该经截断的数值型特征的特征映射集合。

在一方面，统计编码模块506可以针对该多个特征中的每个特征，确定该样本集中缺失该特征的缺失样本数目；将该缺失样本数目与缺失数目阈值进行比较；如果该缺失样本数目大于该缺失数目阈值，则使用随机编码方式来对该特征进行编码；以及如果该缺失样本数目小于或等于该缺失数目阈值，则使用统计编码方式来对该特征进行编码。

在一方面，该样本集包括训练样本集和待预测样本集。

特征值生成模块510可以使用该特征映射集合来确定与训练样本集中的类别特征相对应的特征值，以用于构成与该训练样本集相对应的特征向量来训练树模型。

特征值生成模块510还可以使用该特征映射集合来确定与待预测样本集中的类别特征相对应的特征值，以用于构成与该待预测样本集合相对应的特征向量以供经训练的树模型进行风险识别预测。

在一方面，该多个特征可包括数值型特征，该数值型特征在一周期内包括多个数值，特征值生成模块510可以从该样本集中获取该数值型特征在一周期内的多个数值；以及从该多个数值中随机地选择一数值作为该数值型特征在该周期内的特征值。该周期可包括一个小时。

在一方面，样本集获取模块502可以获取用于训练模型的训练样本集；其中该训练样本集包括无风险交易样本和有风险交易样本，并且排除不成功交易样本。

在一方面，样本集获取模块502可以周期性地获取用于风险识别的训练样本集以使用该训练样本集来训练模型，其中周期为一个月。

本文结合附图阐述的说明描述了示例配置而不代表可被实现或者落在权利要求的范围内的所有示例。本文所使用的术语“示例性”意指“用作示例、实例或解说”，而并不意指“优于”或“胜过其他示例”。本详细描述包括具体细节以提供对所描述的技术的理解。然而，可以在没有这些具体细节的情况下实践这些技术。在一些实例中，众所周知的结构和设备以框图形式示出以避免模糊所描述的示例的概念。

在附图中，类似组件或特征可具有相同的附图标记。此外，相同类型的各个组件可通过在附图标记后跟随短划线以及在类似组件之间进行区分的第二标记来加以区分。如果在说明书中仅使用第一附图标记，则该描述可应用于具有相同的第一附图标记的类似组件中的任何一个组件而不论第二附图标记如何。

结合本文中的公开描述的各种解说性框以及模块可以用设计成执行本文中描述的功能的通用处理器、DSP、ASIC、FPGA或其他可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可被实现为计算设备的组合(例如，DSP与微处理器的组合、多个微处理器、与DSP核心协同的一个或多个微处理器，或者任何其他此类配置)。

本文中所描述的功能可以在硬件、由处理器执行的软件、固件、或其任何组合中实现。如果在由处理器执行的软件中实现，则各功能可以作为一条或多条指令或代码存储在计算机可读介质上或藉其进行传送。其他示例和实现落在本公开及所附权利要求的范围内。例如，由于软件的本质，以上描述的功能可使用由处理器执行的软件、硬件、固件、硬连线或其任何组合来实现。实现功能的特征也可物理地位于各种位置，包括被分布以使得功能的各部分在不同的物理位置处实现。另外，如本文(包括权利要求中)所使用的，在项目列举(例如，以附有诸如“中的至少一个”或“中的一个或多个”之类的措辞的项目列举)中使用的“或”指示包含性列举，以使得例如A、B或C中的至少一个的列举意指A或B或C或AB或AC或BC或ABC(即，A和B和C)。同样，如本文所使用的，短语“基于”不应被解读为引述封闭条件集。例如，被描述为“基于条件A”的示例性步骤可基于条件A和条件B两者而不脱离本公开的范围。换言之，如本文所使用的，短语“基于”应当以与短语“至少部分地基于”相同的方式来解读。

计算机可读介质包括非瞬态计算机存储介质和通信介质两者，其包括促成计算机程序从一地向另一地转移的任何介质。非瞬态存储介质可以是能被通用或专用计算机访问的任何可用介质。作为示例而非限定，非瞬态计算机可读介质可包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、压缩盘(CD)ROM或其他光盘存储、磁盘存储或其他磁存储设备、或能被用来携带或存储指令或数据结构形式的期望程序代码手段且能被通用或专用计算机、或者通用或专用处理器访问的任何其他非瞬态介质。任何连接也被正当地称为计算机可读介质。例如，如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务器、或其它远程源传送而来的，则该同轴电缆、光纤电缆、双绞线、数字订户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文所使用的盘(disk)和碟(disc)包括CD、激光碟、光碟、数字通用碟(DVD)、软盘和蓝光碟，其中盘常常磁性地再现数据而碟用激光来光学地再现数据。以上介质的组合也被包括在计算机可读介质的范围内。

提供本文的描述是为了使得本领域技术人员能够制作或使用本公开。对本公开的各种修改对于本领域技术人员将是显而易见的，并且本文中定义的普适原理可被应用于其他变形而不会脱离本公开的范围。由此，本公开并非被限定于本文所描述的示例和设计，而是应被授予与本文所公开的原理和新颖特征相一致的最广范围。

Claims

1.一种用于风险识别的方法，包括：

获取样本集，所述样本集中的每一个样本包括多个特征；

将所述类别特征的类别数与类别数阈值进行比较；

2.如权利要求1所述的方法，所述随机编码方式包括针对类别特征的每个类别，将对应于所述类别的特征值确定为随机数。

3.如权利要求1所述的方法，使用所述统计编码方式来对所述类别特征进行编码包括：

确定所述样本集中的有风险样本总数和无风险样本总数；

针对所述类别特征的每个类别：

4.如权利要求3所述的方法，所述统计编码方式包括证据权重WOE编码方式或信息值IV编码方式。

5.如权利要求4所述的方法，使用所述WOE编码方式来对所述类别特征进行编码包括：

将所述类别特征关于该类别的特征值f确定为：

6.如权利要求4所述的方法，使用所述IV编码方式来对所述类别特征进行编码包括：

将所述类别特征关于该类别的特征值f确定为：

7.如权利要求1所述的方法，所述多个特征包括数值型特征，并且所述方法进一步包括，使用所述统计编码方式来确定用于数值型特征的特征映射集合。

8.如权利要求7所述的方法，进一步包括：

9.如权利要求7所述的方法，进一步包括：

对所述数值型特征进行截断操作；以及

10.如权利要求1所述的方法，进一步包括：

将所述缺失样本数目与缺失数目阈值进行比较；

11.如权利要求1所述的方法，进一步包括：

使用与所述训练样本集相对应的特征向量来训练树模型。

12.如权利要求1所述的方法，进一步包括：

13.如权利要求1所述的方法，所述多个特征包括数值型特征，所述数值型特征在一周期内包括多个数值，所述方法进一步包括：

14.如权利要求1所述的方法，进一步包括：

获取用于训练模型的训练样本集；

15.如权利要求1所述的方法，进一步包括：

16.一种用于风险识别的装置，包括：

17.如权利要求16所述的装置，所述随机编码方式包括针对类别特征的每个类别，将对应于所述类别的特征值确定为随机数。

18.如权利要求16所述的装置，用于使用所述统计编码方式来对所述类别特征进行编码的模块包括：

用于针对所述类别特征的每个类别执行以下操作的模块：

19.如权利要求18所述的装置，所述统计编码方式包括证据权重WOE编码方式或信息值IV编码方式。

20.如权利要求19所述的装置，使用所述WOE编码方式来对所述类别特征进行编码包括：

将所述类别特征关于该类别的特征值f确定为：

21.如权利要求19所述的装置，使用所述IV编码方式来对所述类别特征进行编码包括：

将所述类别特征关于该类别的特征值f确定为：

22.如权利要求16所述的装置，进一步包括：

用于将所述缺失样本数目与缺失数目阈值进行比较的模块；

23.如权利要求16所述的装置，进一步包括：

用于使用所述特征映射集合来确定与训练样本集中的类别特征相对应的特征值的模块；

用于使用与所述训练样本集相对应的特征向量来训练树模型的模块；

24.如权利要求16所述的装置，所述多个特征包括数值型特征，所述数值型特征在一周期内包括多个数值，所述装置进一步包括：

25.一种用于风险识别的装置，包括：

处理器；以及

获取样本集，所述样本集中的每一个样本包括多个特征；

将所述类别特征的类别数与类别数阈值进行比较；