CN110782349A

CN110782349A - 一种模型训练方法和系统

Info

Publication number: CN110782349A
Application number: CN201911023618.9A
Authority: CN
Inventors: 李杨; 邓天成
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-10-25
Filing date: 2019-10-25
Publication date: 2020-02-11

Abstract

本实施例之一涉及一种模型训练方法和系统。所述方法包括：获取第一时间段内的多个正常样本；获取第二时间段内的多个异常样本，所述第二时间段大于所述第一时间段，同一时间段内正常样本的数量与异常样本的数量差距超过设定阈值；从每个正常样本和异常样本中提取目标特征；根据从所述多个正常样本和所述多个异常样本中提取的目标特征对模型进行训练，得到训练好的模型；评估所述训练好的模型；以及根据评估结果优化所述训练好的模型。

Description

一种模型训练方法和系统

技术领域

本说明书实施例涉及计算机领域，特别涉及一种模型训练方法和系统。

背景技术

随着信息社会的快速发展，投资理财交易日趋电子化。在多样化的投资理财场景中，海量的业务交易通常会伴随少数违禁违规交易，不利于投资理财业务的管理和稳定发展。在一些情况下，业务交易中可能存在异常状态或非常规状态的交易业务，因此需要对异常交易进行识别并定期跟踪，实现对异常交易的动态管理。可以采用各种方式对异常交易进行识别，其中一种有效的方式为机器学习，采用该种方式，需要用正常交易和异常交易的相关信息训练机器学习模型。然而，在同一时间段内，异常交易的数量远少于正常交易的数量。

因此希望有一种能够有效识别少数异常交易的模型训练方法，可以实现对海量交易中少数异常交易的监控。

发明内容

本说明书实施例涉及一种模型训练方法。所述方法包括：获取第一时间段内的多个正常样本；获取第二时间段内的多个异常样本，所述第二时间段大于所述第一时间段，同一时间段内正常样本的数量与异常样本的数量差距超过设定阈值；从每个正常样本和异常样本中提取目标特征；根据从所述多个正常样本和所述多个异常样本中提取的目标特征对模型进行训练，得到训练好的模型；评估所述训练好的模型；以及根据评估结果优化所述训练好的模型。

本说明书实施例还涉及一种模型训练系统。所述系统包括：获取模块，用于获取第一时间段内的多个正常样本，还用于获取第二时间段内的多个异常样本，所述第二时间段大于所述第一时间段，同一时间段内正常样本的数量与异常样本的数量差距超过设定阈值；特征提取模块，用于从每个正常样本和异常样本中提取目标特征；模型训练模块，用于根据从所述多个正常样本和所述多个异常样本中提取的目标特征对模型进行训练，得到训练好的模型；模型评估模块，用于评估所述训练好的模型；模型优化模块，用于根据评估结果优化所述训练好的模型。

本说明书实施例还涉及一种模型训练装置。所述装置包括至少一个处理器以及至少一个存储器；所述至少一个存储器用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如上所述的模型训练方法。

附图说明

本说明书将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本说明书一些实施例所示的模型确定方法的示例性流程图；

图2是根据本说明书一些实施例所示的模型训练方法的示例性流程图；

图3是根据本说明书一些实施例所示的模型评估方法的示例性流程图；

图4为根据本说明书一些实施例所示的模型更新方法的示例性流程图；以及

图5为根据本说明书一些实施例所示的模型确定系统的示例性框图。

具体实施方式

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本说明书提供了一种模型训练方法和系统。所述方法通过获取不同时间长度内的正常样本和异常样本作为训练样本对模型进行训练。通过获取不同时间长度内的正常样本和异常样本，可以控制两种样本的数量比达到模型训练所要求的数量比，从而保证模型训练的效果。此外，所述方法还可以对模型进行评估，并根据评估结果优化模型，进一步保证模型的效果。

图1是根据本说明书一些实施例所示的模型确定方法的示例性流程图。该流程100包括：

步骤110，获取第一时间段内的多个正常样本。

正常样本是指未发生意外或不存在风险的样本。例如，在交易场景中，正常样本可以是未被用户投诉/举报且未被系统检测出异常的交易数据。正常样本的形式包括以下至少一种：字符串、代码、数字、字段、字母、文本文字和语音。例如，在一些实施例中，正常样本可以是一串文字，如“用户A向商户B成功转账100元”表示一次正常交易样本，也可以是一段代码表示，如“Income_user_1:10000rmb”表示用户1收入10000元。在一些实施例中，样本的获取方式可以包括以下至少一种：用户终端推送、服务器传输、数据库信息导入等。

第一时间段可以为任意长度的一段时间。在一些实施例中，可以根据业务需求确定第一时间段。第一时间段的单位可以包括但不限于季度、月、周、日、小时等。例如，第一时间段可以为一天和/或一个工作日。获取第一时间段内的正常样本即为获取一日和/或一个工作日中交易场景中的样本数据。

在一些实施例中，可以根据多个正常交易样本确定交易量超过设定阈值的大型交易方，从多个正常交易样本中去除所述大型交易方的交易数据以确保正常样本的数量与异常样本的数量差距保持在设定的阈值之内。基于正常样本数据量大的特点，可以在正常样本中去除大型交易方的样本。在一些实施例中，大型交易方的交易数据具有数据量大、业务固定、资产稳定、信用度高、异常少的特点。例如，中国移动、中国联通等大型交易方的交易数据量巨大，业务类型固定，交易数据中基本没有异常样本。因此，可以在总体正常交易样本中去除中国移动、中国联通的交易数据以确定最终的多个正常样本，能够大幅精简正常交易样本的数量，有利于正常交易样本和多个异常交易样本的模型训练。在一些实施例中，可以统计各交易方在所述第一时间段内的交易量，将交易量超过设定阈值的交易方确定为大型交易方。

步骤120，获取第二时间段内的多个异常样本，所述第二时间段大于所述第一时间段。

该步骤可以由图5中模型训练系统500中的样本获取模块510执行。在一些实施例中，异常样本可以分布在第二时间段内，可以获取第二时间段内的多个异常样本。异常样本为业务存在异常的样本。例如，在交易场景下，异常样本可以是被交易方举报、投诉、交易方违约等存在异常的交易数据。在一些实施例中，可以根据业务内容定义异常样本。例如，在投资理财交易场景中，异常样本的种类包括但不限于：被投诉的交易、被举报的交易、存在违规操作的交易、存在恶意操作的交易等中的一种或其任意组合。异常样本的形式包括但不限于：字符串、代码、数字、字段、字母、文本文字、语音等中的一种或其任意组合。例如，异常样本可以是一串文字，如“用户A举报商户B存在交易违规现象”，也可以是一段代码，如“Complaint_user_1:seller 001”表示用户1投诉卖家001。在一些实施例中，异常样本的获取方式和存储位置可以参见步骤201。

第二时间段大于第一时间段。可以理解，在同一时间段内，异常样本的数据量与正常样本的数据量相差大，如果采用同一时间段内的异常样本和正常样本来训练模型，会由于两种样本数量差距悬殊导致模型训练效果不佳，因此可以选取较长一段时间内的异常样本和较短一段时间内的正常样本，以缩小两种样本之间的数量差距。另外，通过获取较长一段时间内的异常样本，可以覆盖更多类型的异常样本，使模型在训练时能学习到更多的异常特点，提高模型异常识别的能力。在一些实施例中，可以根据业务需求确定所述第一时间段和/或所述第二时间段，以使正常样本和异常样本的数量比达到设定比例。

在一些实施例中，第二时间段的单位包括但不限于季度、月、周、日、小时等。在一些实施例中，第二时间段为第一时间段之前的一段时间。例如，第一时间段为当日，第二时间段为当日之前的一周。

在一些实施例中，可以过滤具有明显异常值的异常样本数据。例如，在100个关于某电商的线上投诉的异常样本中，有99个投诉的买方年龄在18～65岁之间，有1个投诉的买方年龄为0岁，则认为该买方年龄为0的样本存在异常值，将其从异常样本中剔除。

在一些实施例中，第二时间段的选择可以包括以下至少一种：根据异常样本数据量选择、根据异常样本业务形态选择等。

在一些实施例中，第一时间段和第二时间段可以根据设定的正常样本与异常样本的比例确定。正常样本与异常样本的比例可以根据业务需求设定。例如，正常样本与异常样本的比例可以设定为9:1、8:2等。在一些实施例中，正常样本与异常样本的比例可以为固定值，也可以根据模型训练的情况定期调整。

在另外一些实施例中，可以根据异常样本的业务发展阶段选择第二时间段。在一个业务发展的初期，异常样本的形态具有稳定度低、变化快、种类多样化的特点，异常样本的业务值可能在一段时间内上下浮动剧烈。当业务发展了一段时间(如10天、15天、20天、30天等)后，异常样本的形态逐渐稳定，因此可以获取业务发展较稳定后的一段时间作为第二时间段。

步骤130，从正常样本和异常样本中提取目标特征。

该步骤可以由图5中模型训练系统500中的特征提取模块520执行。在一些实施例中，正常样本和异常样本可以分别包含多个与业务相关的候选特征，这些候选特征可以反映样本至少一个维度的特性。以投资理财场景为例，候选特征可以反映样本的如下维度的特性：返款识别、交易、身份介质、投诉等维度。返款识别维度下的候选特征可以包括返款频率、返款占比、返款时长、返款人数等；交易维度下的候选特征可以包括付款人数、付款金额、付款批量、复购情况等；身份介质维度下的候选特征可以包括介质交易、注册天数、账号类型、付款人类型等；投诉维度下的候选特征可以包括投诉人数、投诉次数、投诉持续时长、重复投诉情况等。

目标特征是所有候选特征中的关键特征，目标特征可以具有较强的业务预测能力和稳定性，因此在训练模型时，需要从候选特征中提取目标特征作为模型输入进行训练，以确保模型训练的结果。目标特征可以预先确定。在一些实施例中，可以先确定至少一个候选特征，再对所述候选特征进行相关性检查，根据相关性检查的结果对候选特征进行去重，得到目标特征。在确定候选特征时可以考虑所选特征所涉及的维度，尽量在保证维度不重复、且有业务含义的前提下确定候选特征。目标特征的选择可以考虑各种因素，包括但不限于：特征的预测能力、特征之间的相关性、特征的易用性、特征的强壮性、特征在业务上的可解释性等。

步骤140，根据从样本中提取出的目标特征对模型进行训练。

该步骤可以由图5中模型训练系统500中的模型训练模块530执行，模型训练可以是有监督的训练。具体地，可以先确定样本的目标特征的数值，并标记样本的正常情况或异常情况，再以样本的目标特征的数值为输入，所述标记为参考标准对模型进行有监督的训练。在一些实施例中，可以对样本的目标特征进行分箱操作，得到样本的目标特征分箱数，再确定样本的目标特征分箱数的证据权重。另外，还需要根据样本的正常情况或异常情况标记样本的分值。然后，以样本的目标特征分箱数的WOE为输入，标记的分值为参考标准，对模型进行有监督训练。在一些实施例中，模型的种类可以包括逻辑回归模型、线性回归模型、非线性回归模型、决策树模型等。有关模型训练的更多内容可以参见图2及其描述，此处不再赘述。

步骤150，评估训练好的模型，根据评估结果对模型进行优化。

在一些实施例中，可以对模型进行以下至少一项评估：评估模型输出的正常结果与异常结果的比例是否满足设定条件；评估模型效果衰减的幅度是否满足设定条件；评估样本的目标特征分箱数的证据权重是否满足设定条件。如果模型通过评估，则可以确定最终的模型；如果没有通过评估，则需要对模型进行优化。有关模型评估及优化的更多内容可以参见图3及其描述，此处不再赘述。

在一些实施例中，还可以对模型进行更新。更新可以是定期更新，也可以是根据需求的不定期更新。通过模型更新可以使模型对各种类型的样本进行学习，特别是可以学习近期出现的最新样本，从而提高模型的处理能力，使模型能够适应当前业务场景。有关模型更新的更多内容可以参见图4及其描述。

应当注意的是，上述有关流程100的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程100进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图2是根据本说明书一些实施例所示的模型训练方法的示例性流程图。该流程200包括：

步骤210，对样本的目标特征进行分箱操作，得到样本的目标特征分箱。

分箱是指根据目标特征对目标变量的影响程度，对目标特征的数值进行区间划分。本实施例中将正常样本与异常样本聚合后统一分箱。可以采用各种分箱方式，包括但不限于等距分箱、等深分箱、最优分箱等。其中等距分箱是指分箱的区间是一致的，比如年龄以十年作为一个分箱；等深分箱是先确定分箱数量，然后令每个分箱中数据数量大致相等；最优分箱又叫监督离散化，使用递归划分(Recursive Partitioning)将连续变量分箱，背后是一种基于条件推断查找较佳分箱的算法。

以投资理财交易场景为例，假设目标特征为“交易金额”，正常样本和异常样本的交易金额分布在4000-10000元之间。对目标特征经过分组处理，可以将交易金额分箱。例如，将目标特征的交易金额分为4000-5000元、5000-6000元、6000元-7000元、7000元-8000元四个分组，目标特征的分箱数为4。本说明书对目标特征分箱的具体操作并非限制性的，本说明书在此不作限制。

步骤220，确定样本的目标特征分箱的证据权重。证据权重(Weight of Evidence，WOE)表示目标特征取某个值的时候对异常结果比例的一种影响。在一些实施例中，可以通过以下公式计算样本的目标特征分箱的WOE：

其中，i表示目标特征的第i个分箱，WOE_i表示目标特征的第i组分箱的证据权重值，

代表目标特征第i组分箱中正常样本占所有正常样本的比例，

代表目标特征第i组分箱中异常样本占所有异常样本的比例。当WOE大于零时，WOE越大表示分箱中存在正常样本的可能性越大；当WOE小于零时，WOE越大表示分箱中存在异常样本的可能性越大。

以步骤210中目标特征“交易金额”为例，假设目标特征的4个分箱中对应的正常样本和异常样本数量分别如下：4000-5000元分箱中正常样本有200个，异常样本有25个；5000-6000元分箱中正常样本有90个，异常样本有10个；6000-7000元分箱中正常样本有310个，异常样本有35个；7000-8000元分组中正常样本有300个，异常样本有30个。则第一分箱的

第二分箱的

第三分箱的

第四分箱的

步骤230，根据样本的正常情况或异常情况标记每个样本的分值。

可以对目标特征WOE进行多维动态组合得到模型。例如，可以以样本目标特征分箱的WOE为自变量，以反映样本的正常情况或异常情况的分值为因变量构建方程作为模型，相应地，模型输出的结果为反映样本的正常情况或异常情况的分值。在一些实施例中，可以采用逻辑回归模型，相应地，可以将逻辑回归模型中的因变量的值标记为样本的分值。逻辑回归模型的表达形式如下：

其中，p代表样本为异常样本的概率，x代表各个目标特征的值，α为常数，β为目标特征的系数。标记样本的分值即标记样本的p值。

步骤240，根据样本的目标特征分箱的证据权重和标记的样本的分值，对模型进行有监督训练。训练时，以样本的目标特征分箱的证据权重为输入，以标记的样本分值为参考标准对模型进行训练，优化模型参数，在保证准确率的基础上使得风险覆盖率达到最优化。还是以上述逻辑回归模型为例，在一些实施例中，可以先确定样本的目标特征属于哪个分箱，从而将相应分箱的WOE值确定为样本的目标特征的值x，并标记样本的异常概率p，根据已知的x和p训练逻辑回归模型，可确定α、β，从而得到训练后的逻辑回归模型。在另一些实施例中，可以先用当前逻辑回归模型对样本进行处理，得到异常概率p，再由人工进行确认，将人工确认后的样本及其异常概率p用于训练模型，这种人工确认的方式可以提高模型的识别能力。

应当注意的是，上述有关流程200的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程200进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图3是根据本说明书一些实施例所示的模型评估方法的示例性流程图。该流程300包括：

步骤310，评估模型输出的正常结果与异常结果的数量比是否满足设定条件。

可以基于模型输出的正常结果与异常结果的数量比值评估模型输出。在一些实施例中，可以根据业务需求设定期望模型输出的正常结果与异常结果的数量比。例如，当希望对交易进行更严格的监控时，可以降低该数量比(即增加异常结果的数量)，当希望放松对交易的监控时，可以提高该数量比(即减少异常结果的数量)。可以理解，尽管本实施例中采用的是正常结果与异常结果的数量比，但在其他实施例中，也可以采用异常结果与正常结果的数量比等其他比例形式。当两种结果的数量比与设定数量比之间的差距超过一定程度时，可判定模型不满足设定条件，需要优化。以投资理财交易场景为例，预先设定模型输出的正常交易与异常交易的数量比为1000:1，而模型实际输出的正常交易与异常交易的数量比为100:1，表明模型可能将大量正常交易误判为异常交易，因此需要对模型进行优化。

步骤320，评估模型效果衰减的幅度是否满足设定条件。

在一些实施例中，由于业务本身的异常样本数据较少，因此每段时间的异常样本的属性可能会发生变更。例如，在策略上进行强对抗、作案手法发生变化等，将会导致量化策略缺乏准确度，模型效果衰减。

在一些实施例中，可以通过监控目标特征的信息值(Information Value，IV)值评估模型的衰减度。IV值为目标特征分箱中样本占整体样本的比例，可以表示为各分箱证据权重的加权求和。目标特征IV值衡量目标特征对目标变量的影响程度，IV值的大小可以表示目标特征预测能力的强弱。IV值可以根据WOE计算得到：

其中i表示目标特征的第i个分箱，IV_i为第i组分箱中目标特征的信息值，

代表目标特征第i组分箱中正常样本占所有正常样本的比例，表示目标特征第i组分箱中异常样本占所有异常样本的比例。目标特征的总体IV值为各分箱的IV值相加：

以步骤220中确定的目标特征的WOE为例，可以计算得到目标权重各分箱的IV值分别为：

IV₂＝0；IV₃＝-0.0160003*(310/900-35/100)＝0.0000889；IV₄＝0.1053605*(300/900-30/100)＝0.0035120。

在一些实施例中，可以监控目标特征的总体IV值，如果该值低于设定值，表明相应目标特征的重要性下降使得模型效果衰减超过预设程度，需要对模型进行优化。在一些实施例中，可以监控相邻时间段内目标特征的IV值的变化，例如可以监控连续两日内目标特征的总体IV值的变化，如果IV值的变化幅度超过设定程度，表明模型效果发生较大衰减，需要优化。

步骤330，评估样本的目标特征分箱数的证据权重是否满足设定条件。

在一些实施例中，可以评估样本的目标特征分箱的WOE是否出现空值(也称为“跳空”)。具体地，对目标特征分箱后，理想情况下，样本的目标特征值应该覆盖各分箱，相应地，可得到每个分箱的WOE，但在一些情况下，样本的目标特征值可能覆盖不到所有分箱，覆盖不到的分箱无法确定WOE，该分箱的WOE即出现空值。例如，以上述对“交易金额”进行分箱为例，将目标特征的交易金额分为4000-5000元、5000-6000元、6000元-7000元、7000元-8000元四个分组，在实际对样本进行处理时，发现4000-5000元这一组无数据，该组WOE跳空。当WOE发生跳空时，需要对模型进行优化。

在一些实施例中，还可以通过其他方式对模型进行评估。例如，可以通过预测能力指标、稳定性指标等评估模型对事件的预测能力。在一些实施例中，预测能力指标包括以下至少一种：WOE/IV、ROC/AUC、K-S指标、GINI系数等；稳定性指标用于评估模型在训练样本和测试样本中的一致性，如PSI指标等。

以上评估方法可以单独使用，也可以结合使用。例如，单独使用时，只要模型不满足其中一个评估标准，就会被判定为需要优化；结合使用时，模型不满足其中两个或以上的评估标准时，才会被判定为需要优化。

步骤340，响应于模型未通过评估，对模型进行优化。

在一些实施例中，可以通过对目标特征重新进行分箱操作来优化模型。在一些实施例中，可以通过调整目标特征的阈值来优化模型。例如，目标特征为用户学历，不同学历具有相应分值，所有学历对应的分值分布在阈值限定的范围内，在优化模型时，可以调整所述阈值以改变不同学历对应的分值。在一些实施例中，可以调整逻辑回归模型中的参数(如公式(2)中的α、β)来优化模型。

步骤350，响应于模型通过评估，得到最终的模型。如果模型通过评估，则无需再对模型进行优化，可得到最终的模型。

应当注意的是，上述有关流程300的描述仅仅是为了示例和说明，而不限定本说明书的适用范围。对于本领域技术人员来说，在本说明书的指导下可以对流程300进行各种修正和改变。然而，这些修正和改变仍在本说明书的范围之内。

图4为根据本说明书一些实施例所示的模型更新方法的示例性流程图。该流程400包括：

步骤410，获取更新后的第一时间段内的多个更新后的正常样本。

在一些实施例中，模型经过训练、优化后，需要定期更新以适应最新的业务场景。更新的周期可以为任意数值，例如一周更新一次、10天更新一次、一个月更新一次。步骤410与步骤110类似，此处不再赘述。

步骤420，获取更新后的第二时间段内的多个更新后的异常样本。步骤420与步骤120类似，此处不再赘述。

步骤430，根据所述多个更新后的正常样本和所述多个更新后的异常样本对模型进行训练，得到更新后的模型。通过模型更新可以使模型对各种类型的样本进行学习，特别是可以学习近期出现的最新样本，从而提高模型的处理能力，使模型能够适应当前业务场景。步骤430的具体内容可参见步骤130、140，此处不再赘述。

图5为根据本说明书一些实施例所示的模型确定系统的示例性框图。该系统500包括样本获取模块510、特征提取模块520、模型训练模块530、模型评估模块540、模型优化模块550以及模型更新模块560。

样本获取模块510用于获取样本。样本获取模块510可以获取第一时间段内的多个正常样本和第二时间段内的多个异常样本。在一些实施例中，样本获取模块510还可以对获取到的正常样本和/或异常样本进行过滤，提升样本质量。

特征提取模块520用于从样本中提取目标特征。特征提取模块520可以包括特征确定单元，用于确定目标特征。特征确定单元可以先确定至少一个候选特征，再对所述候选特征进行相关性检查，根据相关性检查的结果对候选特征进行去重，得到目标特征。

模型训练模块530用于训练模型。模型训练模块530可以根据从样本中提取出的目标特征对模型进行有监督训练。具体地，可以先确定样本的目标特征的数值，并标记样本的正常情况或异常情况，再以样本的目标特征的数值为输入，所述标记为参考标准对模型进行有监督的训练。

模型评估模块540用于对模型进行评估。在一些实施例中，模型评估模块540可以对模型进行以下至少一项评估：评估模型输出的正常结果与异常结果的比例是否满足设定条件；评估模型效果衰减的幅度是否满足设定条件；评估样本的目标特征分箱数的证据权重是否满足设定条件。

模型优化模块550用于对模型进行优化。在一些实施例中，模型优化模块550可以通过对目标特征重新进行分箱操作来优化模型。在一些实施例中，模型优化模块550可以通过调整目标特征的阈值来优化模型。在一些实施例中，模型优化模块550可以调整逻辑回归模型中的参数来优化模型。

模型更新模块560用于更新模型。在一些实施例中，模型更新模块560可以向其他模块发出更新指令，其他模块收到更新指令后执行模型更新。例如，收到更新指令后样本获取模块510重新获取正常样本和异常样本，特征提取模块520重新提取特征，模型训练模块530重新训练模型，模型评估模块540重新评估模型，模型优化模块550重新优化模型。

应当理解，图5所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于模型确定系统500及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图5中披露的模型训练系统500中的样本获取模块510、特征提取模块520、模型训练模块530、模型评估模块540、模型优化模块550以及模型更新模块560可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。又例如，在一些实施例中，模型更新模块560可以省略。诸如此类的变形，均在本说明书的保护范围之内。

本说明书实施例可能带来的有益效果包括但不限于：(1)通过获取较短时间内的正常样本和较长时间内的异常样本作为训练样本，不依赖于交易维度和业务属性对异常样本进行扩源，克服同一时间段内异常样本远少于正常样本的问题；(2)通过获取较长时间内的异常样本作为训练数据，可以覆盖各种类型的异常样本，使得模型能够学习到各种异常特点，提高模型识别异常交易的能力；(3)可以调整样本所属时间段的长短来控制正常样本和异常样本的比例，提高模型训练的效果；(4)通过使用正常结果与异常结果的数量比、证据权重及信息价值评估模型的效果，可以提升模型的准确度；(5)对模型进行更新，保证模型适应最新的业务场景。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书实施例的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。

同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本说明书实施例披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。

最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims

1.一种模型训练方法,包括：

获取第一时间段内的多个正常样本；

获取第二时间段内的多个异常样本，所述第二时间段大于所述第一时间段，同一时间段内正常样本的数量与异常样本的数量差距超过设定阈值；

从每个正常样本和异常样本中提取目标特征；

根据从所述多个正常样本和所述多个异常样本中提取的目标特征对模型进行训练，得到训练好的模型；

评估所述训练好的模型；以及

根据评估结果优化所述训练好的模型。

2.根据权利要求1所述的方法，所述方法还包括：

对所述多个正常样本和所述多个异常样本的目标特征进行分箱操作，得到至少一个目标特征分箱；

确定每个目标特征分箱的证据权重；

根据所述至少一个目标特征分箱的证据权重对模型进行训练，得到训练好的模型。

3.根据权利要求2所述的方法，所述评估所述训练好的模型，包括对所述训练好的模型进行以下至少一项评估：

模型输出的正常结果与异常结果的数量比是否满足设定条件；

模型效果衰减的幅度是否满足设定条件；或者

所述至少一个目标特征分箱的证据权重是否满足设定条件。

4.根据权利要求3所述的方法，所述评估所述至少一个目标特征分箱的证据权重是否满足设定条件，包括：

评估所述至少一个目标特征分箱数的证据权重是否出现空值；

所述根据评估结果优化所述训练好的模型，包括：

当所述至少一个目标特征分箱数的证据权重出现空值时，重新对所述多个正常样本和所述多个异常样本的目标特征进行分箱操作。

5.根据权利要求1所述的方法，所述根据评估结果优化所述训练好的模型，包括：

调整至少一个目标特征的阈值。

6.根据权利要求1所述的方法，所述方法还包括：

根据所述多个正常样本和/或所述多个异常样本，确定至少一个候选特征；

对所述至少一个候选特征进行相关性检查；

根据所述相关性检查的结果对所述至少一个候选特征进行去重，得到所述目标特征。

7.根据权利要求1所述的方法，所述方法还包括：

根据所述多个正常交易样本确定交易量超过设定阈值的大型交易方；

从所述多个正常交易样本中去除所述大型交易方的交易数据；

根据去除所述大型交易方的交易数据的正常交易样本和所述多个异常交易样本对模型进行训练，得到训练好的模型。

8.根据权利要求1所述的方法，所述方法还包括：

获取更新后的第一时间段内的多个更新后的正常样本；

获取更新后的第二时间段内的多个更新后的异常样本；

根据所述多个更新后的正常样本和所述多个更新后的异常样本对模型进行训练，得到更新后的模型。

9.根据权利要求1所述的方法，所述方法还包括：

根据业务需求确定所述第一时间段和/或所述第二时间段，以使所述多个正常样本与所述多个异常样本的数量比达到设定比例。

10.根据权利要求1所述的方法，所述第二时间段为所述第一时间段之前的一段时间。

11.根据权利要求1所述的方法，所述方法还包括：

标记所述多个正常样本和所述多个异常样本的正常或异常情况；

以所述从所述多个正常样本和所述多个异常样本中提取的目标特征为输入，以所述标记为参考标准对模型进行训练，得到训练好的模型。

12.一种模型训练系统，包括：

获取模块，用于获取第一时间段内的多个正常样本，还用于获取第二时间段内的多个异常样本，所述第二时间段大于所述第一时间段，同一时间段内正常样本的数量与异常样本的数量差距超过设定阈值；

特征提取模块，用于从每个正常样本和异常样本中提取目标特征；

模型训练模块，用于根据从所述多个正常样本和所述多个异常样本中提取的目标特征对模型进行训练，得到训练好的模型；

模型评估模块，用于评估所述训练好的模型；

模型优化模块，用于根据评估结果优化所述训练好的模型。

13.根据权利要求12所述的系统，所述模型训练模块还用于：

确定每个目标特征分箱的证据权重；

14.根据权利要求13所述的系统，所述模型评估模块用于对所述训练好的模型进行以下至少一项评估：

模型效果衰减的幅度是否满足设定条件；或者

所述至少一个目标特征分箱的证据权重是否满足设定条件。

15.根据权利要求14所述的系统，所述评估所述至少一个目标特征分箱的证据权重是否满足设定条件，包括：

所述根据评估结果优化所述训练好的模型，包括：

16.根据权利要求12所述的系统，所述模型优化模块还用于：

调整至少一个目标特征的阈值。

17.根据权利要求12所述的系统，所述特征提取模块还用于：

对所述至少一个候选特征进行相关性检查；

18.根据权利要求12所述的系统，所述样本获取模块还用于：

19.根据权利要求12所述的系统，所述系统还包括模型更新模块，用于：

指示所述样本获取模块获取更新后的第一时间段内的多个更新后的正常样本和更新后的第二时间段内的多个更新后的异常样本；

指示所述模型训练模块根据所述多个更新后的正常样本和所述多个更新后的异常样本对模型进行训练，得到更新后的模型。

20.根据权利要求12所述的系统，所述样本获取模块还用于：

21.根据权利要求12所述的系统，所述第二时间段为所述第一时间段之前的一段时间。

22.根据权利要求12所述的系统，所述多个正常样本和所述多个异常样本标记有正常或异常情况；所述模型训练模块还用于：

23.一种模型训练装置，包括至少一个处理器以及至少一个存储器；所述至少一个存储器用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令中的至少部分指令以实现如权利要求1-11所述的模型训练方法。