CN108475393A

CN108475393A - 通过合成特征和梯度提升决策树进行预测的系统和方法

Info

Publication number: CN108475393A
Application number: CN201780005322.7A
Authority: CN
Inventors: 马克斯·卡纳迪·S
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2016-01-27
Filing date: 2017-01-22
Publication date: 2018-08-31
Also published as: US20170213280A1; EP3332382A4; EP3332382A1; WO2017129076A1; US10366451B2

Abstract

公开了一种机器学习系统和方法，其中，根据输入数据创建多个合成特征，然后由计算机执行梯度提升决策树算法以处理所述合成特征和至少部分输入数据，从而产生输出，所述输出为概率。

Description

通过合成特征和梯度提升决策树进行预测的系统和方法

交叉申请

本发明要求2016年1月27日递交的发明名称为“通过合成特征和梯度提升决策树进行预测的系统和方法(System and Method for Prediction Using SyntheticFeatures and Gradient Boosted Decision Tree)”的第15/007,593号美国专利案的在先申请优先权，该在先申请的全部内容以引入的方式并入本文本中。

技术领域

下文涉及机器学习，尤其涉及通过合成特征和梯度提升决策树进行预测的机器学习。

背景技术

机器学习是一种人工智能，其中计算机用于在不一定被明确编程的情况下进行学习。例如，计算机可以用于搜寻数据并查找模式，然后基于发现的模式自动调整计算机程序的动作。

在一些应用中，机器学习可以用于做出预测。这可以首先通过使用已知结果的历史数据对计算机进行训练来完成，这称为监督式学习。计算机可以在训练期间提取规则或关系。然后，当新输入到达时，计算机使用提取的规则或关系进行预测。

例如，机器学习可以用于预测某天是否会发生降雨。首先，在训练阶段，可以为计算机提供若干数据输入。每个数据输入对应于过去的相应日期，并指示当天的平均温度、当天上午8点的湿度、年月日以及当天是否实际下雨。然后，机器学习方法在输入数据中查找模式，并提取特定输入数据参数之间的规则或关系，比如温度是多少以及一年中的哪一天，结果是：下雨还是不下雨。一旦训练完成，当针对某一天发送一组新的输入数据到计算机时，计算机就会返回当天是否会发生降雨的预测。

发明内容

某些事件可能存在潜在的大量数据和可能影响事件结果的诸多潜在影响因素，使得人不可能实现有意义的预测。从而需要使用计算机进行机器学习。但是，不同领域存在不同类型的事件，并受到不同因素的影响。例如，预测某一天是否会下雨具有影响因素，这与预测某人是否会贷款违约通常大不相同。可以创建满足特定事件类型和相关影响因素的特定机器学习系统和方法。

下文公开了机器学习方法和系统，用于具体预测贷款申请人贷款违约的概率。

在一项实施例中，公开了一种方法，包括计算机获取与贷款申请相关的一组数据。所述计算机然后可以至少通过以下操作来确定多个合成特征：执行多个机器学习算法，所述机器学习算法中的每个算法在被执行时接收至少部分所述数据作为输入并且产生相应的合成特征作为输出来表示是否会发生贷款违约的初始概率。所述计算机接着可以执行梯度提升决策树算法以处理所述合成特征和至少部分所述数据，从而产生输出来表示是否会发生所述贷款违约的最终概率。

根据另一方面，在任一前述实施例中，所述方法还包括：所述计算机基于特定值是高于还是低于存储的阈值来生成是否批准所述贷款的指示，其中，所述特定值基于所述最终概率。

根据另一方面，在任一前述实施例中，所述多个机器学习算法是第一组机器学习算法，确定所述多个合成特征还包括：所述计算机执行不同于所述第一组机器学习算法的至少一个其它机器学习算法，所述至少一个其它机器学习算法在被执行时基于至少部分所述数据接收输入并且产生多个输出；其中，所述多个输出中的每个输出是表示事件发生概率的合成特征，所述事件不同于与所述最终概率相关联的所述贷款违约。

根据另一方面，在任一前述实施例中，所述事件包括逾期偿还所述贷款。

根据另一方面，在任一前述实施例中，所述方法还包括：所述计算机对至少部分所述数据执行二元编码以产生二元编码数据；以及所述计算机将所述二元编码数据输入到至少一个所述机器学习算法。

根据另一方面，在任一前述实施例中，所述方法还包括：所述计算机利用至少一个附加特征来扩充所述数据；以及所述计算机将所述至少一个附加特征输入到至少一个所述机器学习算法。

根据另一方面，在任一前述实施例中，所述数据包括所请求的贷款金额和贷款期限，至少两个所述机器学习算法彼此不同。

根据另一方面，在任一前述实施例中，所述数据还包括所述贷款申请人的交易历史，所述机器学习算法中的一个算法是接受所述交易历史作为输入的神经网络。

根据另一方面，在任一前述实施例中，所述方法还包括：所述计算机训练所述机器学习算法，所述训练包括使用训练数据和测试数据通过以下操作来确定哪些输入将用于每个机器学习算法：所述计算机尝试不同的可能输入并选择一组一个或多个最能满足度量标准的输入。

在另一实施例中，公开了一种系统，包括：存储器，用于存储与贷款申请相关的一组数据；以及预测器，用于接收所述数据以及产生输出来表示是否会发生贷款违约的最终概率。所述预测器可以包括多个学习器，每个学习器实施相应的机器学习算法。所述预测器可用于：(1)通过向每个所述学习器发送至少部分所述数据来确定多个合成特征，每个所述学习器输出相应的合成特征来表示是否会发生所述贷款违约的初始概率；以及(2)执行梯度提升决策树算法以处理所述合成特征和至少部分所述数据，从而产生所述输出来表示是否会发生所述贷款违约的所述最终概率。

根据另一方面，在任一前述实施例中，所述系统用于基于特定值是高于还是低于存储的阈值来生成是否批准所述贷款的指示，其中，所述特定值基于所述最终概率。

根据另一方面，在任一前述实施例中，所述多个学习器是第一组学习器，所述预测器用于还通过以下操作来确定所述多个合成特征：向不同于所述第一组学习器的至少一个其它学习器发送输入，所述输入基于至少部分所述数据，所述至少一个其它学习器实施机器学习算法，所述机器学习算法在被执行时接收所述输入并产生多个输出；其中，所述多个输出中的每个输出是表示事件发生概率的合成特征，所述事件不同于与所述最终概率相关联的所述贷款违约。

根据另一方面，在任一前述实施例中，所述预测器还用于：对至少部分所述数据执行二元编码以产生二元编码数据；以及发送所述二元编码数据给至少一个所述学习器。

根据另一方面，在任一前述实施例中，所述预测器还用于：利用至少一个附加特征来扩充所述数据；以及发送所述至少一个附加特征给至少一个所述学习器。

根据另一方面，在任一前述实施例中，所述数据包括所请求的贷款金额和贷款期限，至少两个所述学习器实施彼此不同的机器学习算法。

根据另一方面，在任一前述实施例中，所述数据还包括所述贷款申请人的交易历史，所述学习器中的一个学习器是接受所述交易历史作为输入的神经网络。

根据另一方面，在任一前述实施例中，所述系统用于训练所述学习器，所述训练包括使用训练数据和测试数据通过以下操作来确定哪些输入将要发送给每个学习器：所述系统尝试不同的可能输入并选择一组一个或多个最能满足度量标准的输入。

在另一实施例中，公开了一种系统，包括：至少一个处理器；以及存储器，其上存储有处理器可执行指令。所述处理器可执行指令在被执行时使得所述至少一个处理器进行以下操作：(1)至少通过以下操作来确定多个合成特征：执行多个机器学习算法，所述机器学习算法中的每个算法在被执行时接收至少部分所述数据作为输入并且产生相应的合成特征作为输出来表示是否会发生贷款违约的初始概率；以及(2)执行梯度提升决策树算法以处理所述合成特征和至少部分所述数据，从而产生输出来表示是否会发生所述贷款违约的最终概率。

根据另一方面，在任一前述实施例中，所述处理器可执行指令在被执行时还使得所述至少一个处理器进行以下操作：基于特定值是高于还是低于存储的阈值来生成是否批准所述贷款的指示；其中，所述特定值基于所述最终概率。

通过回顾以下描述，其它方面和特征对于本领域普通技术人员将变得显而易见。

附图说明

仅通过示例的方式结合附图描述实施例，其中：

图1为根据一项实施例的一种预测事件的系统的框图；

图2为根据一项实施例的一种预测事件的方法的流程图；

图3为根据一项实施例的一种预测器的框图；

图4为根据一项实施例的一种使用图3的预测器的方法的流程图；

图5为根据一项实施例的一种示出使用贷款违约预测器的系统的框图；

图6为根据一项实施例的一种可以存在贷款违约预测器的系统的框图；以及

图7为根据一项实施例的一种可由计算机执行的方法的流程图。

具体实施方式

出于说明性目的，现在将在下文结合附图更详细地解释具体示例实施例。

图1为根据一项实施例的一种预测事件的系统100的框图。系统100包括计算机102和存储器104。计算机102图示为单个物理实体，但是计算机102也可以通过网络物理分散和连接，这可能是分布式计算或者集群计算的情况。“计算机”一词意在涵盖所有这种类型的计算设备，不管其是大或小、分布式、集群式还是自含式。计算机包括一个或多个处理器，图示为单个处理器103。

计算机102实施预测器106，该预测器106可以一个或多个硬件、固件或软件结合一个或多个处理器来实施功能。例如，预测器106可以由处理器103执行定义预测器106的动作的一系列指令来实施。或者，预测器106可以包括专用集成电路，比如特殊应用集成电路(application specific integrated circuit，ASIC)、图形处理单元(graphicsprocessing unit，GPU)或现场可编程门阵列(programmed field programmable gatearray，FPGA)，以执行预测器106的一个或多个功能。

存储器104由计算机102进行访问。尽管存储器104可以实施为计算机102的一部分，但存储器104被示为与计算机102物理分离。输入数据108存储在存储器104中。输入数据108被预测器106用来预测事件是否会发生。预测可以是事件发生概率的形式。输入数据108中的每个信息也被称为特征。例如，在下文讨论的实施例中，预测器106用于确定将发生贷款违约的概率。在这些实施例中，特征包括从贷款申请获得的信息，比如所请求的贷款金额、贷款申请人工资、贷款期限等。预测器106可以另外创建合成特征。合成特征是不存在于输入数据108中的特征，并且除了输入数据108中的特征之外或代替输入数据108中的特征由预测器106创建并为预测器106所用。合成特征可以表示信息，该信息通常不会被确定或收集，且被包括作为输入数据108的一部分。例如，输入数据108可以包括两个特征：贷款申请人请求的贷款金额以及贷款申请人工资。预测器106可以使用这两个特征来推导出合成特征：贷款申请人在30至35岁之间的概率。如下文所讨论，合成特征可以使用一个或多个机器学习算法来创建。

在操作中，预测器106使用输入数据108来对事件发生进行预测。如图所示，该预测可以返回给存储器104，或者直接发送给用户或另一处理模块。

图2为根据一项实施例的一种由预测器106执行的预测事件的方法的流程图。在步骤112中，在预测器106处接收输入数据108。在步骤114中，预测器106处理至少部分输入数据108以创建合成特征。在步骤116中，预测器106执行梯度提升决策树(gradient boosteddecision tree，GBDT)算法以处理合成特征和至少部分输入数据108，从而产生输出，该输出为事件发生概率。

创建合成特征并将其包括在输入数据108中的步骤可称为广义叠加(generalizedstacking，GS)。例如，输入数据108可以表格的形式存储，并且可以通过GS过程将列添加到表格中，其中每列对应于相应的合成特征，该列的每一行包含该合成特征的值。该合成特征的值可以是事件发生的合成度量，比如贷款违约概率。

图1和图2示出了一种不限于预测特定事件的系统和方法。讨论关于剩余附图的实施例将图1的系统和图2的方法适配预测贷款违约概率的具体应用。

贷款机构可以发行不同类型的货币贷款，比如传统货币贷款或小额贷款。小额贷款一般是一笔小额货币贷款，通常期限较短。借款人有时可能会违约。下文描述的系统和方法预测贷款违约概率(probability of loan default，PD)。PD是衡量贷款申请人违约概率的一个度量标准，并且PD至少部分基于推导自贷款申请的信息。违约可能意味着借款人未全额偿还贷款，或者以拖欠方式偿还贷款，比如晚于约定的付款计划。在下文的示例中，贷款违约被认为是在未按照约定条款偿还贷款的情况下发生的。该事件是二元事件：要么发生贷款违约，要么不发生贷款违约。

当借款人没有违约时，可以说贷款仍然存在。生存概率(survival probability，SP)定义为：SP＝1–PD。例如，如果某人申请贷款并且确定该人贷款违约概率为23.1％，则PD＝0.231，SP＝0.769。

发生贷款违约的原因各有不同，这些原因可能会随时间而改变。因此，在设计预测PD的系统时，可能无法事先确定哪些机器学习方法最适合贷款违约预测。并且，大多数贷款通常不会违约，这意味着实际发生贷款违约事件的情况较少，这可能会更难以预测PD。另外，预测方法使用的输入有时可能不可用，比如某人拒绝在贷款申请中提供某些信息的情况。例如，某人的年收入可用于预测PD，但可能会出现贷款申请人拒绝提供其年收入的情况。同时，贷款违约可能受到不同因素组合的影响，比如贷款申请人的人口统计数据、贷款申请人的银行资料、贷款申请人最近的交易历史，甚至可能是其社交媒体资料。其它宏观和微观经济因素也可能影响贷款违约是否会发生，比如贷款申请人居住的小区或国家当前国内生产总值(Gross Domestic Product，GDP)。因此，下文描述的示例系统和方法利用通过不同的机器学习算法应用于不同信息组合的不同预测方法，并利用这些预测来通过GS提升预测能力。

图3为根据一项实施例的预测器106的框图，其中预测器106具体用于计算PD。图3还示出了输入数据108的实例，在本实施例中，输入数据108是关于贷款申请人所做的贷款申请的可用信息。

输入数据108可以包括贷款申请人的私人数据134以及公共数据136。贷款申请人的私人数据134可以包括与贷款申请人有关的个人信息138，其可能已由贷款申请人提供或者已由贷款机构根据贷款申请人的历史交易获取。可以包括的个人信息138的示例有：请求的贷款金额、收入、雇主、信用等级、教育水平、请求贷款原因的书面解释、社交媒体资料等。也可以使用贷款申请人的其它个人信息，比如贷款申请人的年龄和性别，尽管这些信息的使用可能受到当地法律或法规的约束。贷款申请人的私人数据134还可以包括交易历史140，其为贷款申请人完成的金融交易历史。在一些实施例中，交易历史140可以包括购物历史。公共数据136，如果可用，可以包括经济指标142和文本数据144。可以使用的经济指标142的示例包括对于给定统计人口的国家GDP、利率和贷款违约率。可以使用的文本数据144的示例包括趋势新闻报道，比如对房地产泡沫的讨论。其它输入数据146也可以是可用的，例如，对贷款机构保密但不与贷款申请人具体相关的数据。

预测器106包括合成特征创建器148和GBDT模块160。合成特征创建器148处理输入数据108以创建多个合成特征158。GBDT模块160接收合成特征158以及至少部分输入数据108，并输出最终PD。

合成特征创建器148包括多个基学习器1至m，以及相关联的源选择器和组合器150。

每个基学习器1至m是实施机器学习算法的学习器，该机器学习算法在被执行时接受一个或多个输入并输出基于输入而计算出的初始PD。在154处指示基学习器1至m的输出。

源选择器和组合器150是输入数据108和基学习器1到m之间的接口。源选择器和组合器150将来自输入数据108的不同特征映射到不同的基学习器。例如，基学习器1可以是被设计为基于贷款申请人的交易历史140来预测PD的神经网络(neural network，NN)，在这种情况下，源选择器和组合器150将来自输入数据108的贷款申请人的交易历史140映射到基学习器1的输入。基学习器2可以是随机森林算法，其基于贷款申请人的大量分类属性来预测PD，例如，贷款申请人是否具有抵押贷款，贷款申请人拥有什么样的汽车，贷款申请人的职业等。源选择器和组合器150因此将来自输入数据108的基学习器2使用的信息映射到基学习器2的输入。

作为将输入数据108映射到基学习器1到m的一部分，源选择器和组合器150可以将输入数据108转换为基学习器的机器学习算法可以使用的形式。例如，一个贷款申请人可以在贷款申请中写下“我想用这笔贷款翻新我的房子”，另一个贷款申请人可以写下“我想用这笔贷款帮助支付我的婚礼费用”。诸如此类的句子可以是输入数据108的一部分，但是它们传达的信息可以不是能够由基学习器进行处理的形式。源选择器和组合器150因此可以执行文本的搜索以寻找关键词，并且将关键词映射到可以随后由基学习器使用的值。例如，源选择器和组合器150可以执行二元编码，其中标签如下映射到二元值：“翻新”＝001和“婚礼”＝010，等等。从文本中获得的二元值然后被发送到适当的基学习器的输入。基于输入数据108中的文本或其它信息获得机器学习算法的输入的操作可以称为特征提取，其中输入数据108不是机器学习算法可用的形式。由源选择器和组合器150执行的编码作为特征提取的一部分可以生成附加特征。由源选择器和组合器150执行的编码有时称为虚拟变量或独热/非独热编码。

源选择器和组合器150还可以扩充输入数据108以提供可以由特定基学习器使用的增强特征。例如，输入数据108中的一个特征可以是贷款申请人为公司A工作。源选择器和组合器150然后可以利用附加特征来增强该特征。例如，源选择器和组合器150可以通过互联网访问列出与公司A有关的公共信息的数据库，例如，公司A员工数量以及公司A成立年限。如果公司A有950名雇员并且已经成立75年，则源选择器和组合器150可以增强“为公司A工作”这一特征以创建附加特征值950和75。特征值950和75也可以或者代替地作为输入提供给特定基学习器。再如，输入数据108可以包括指定贷款申请人所负担的当前债务额以及贷款申请人的年收入。源选择器和组合器150进而可以将当前的债务量除以年收入，以获得用作对特定基学习器的输入的比率。

源选择器和组合器150可以创建具体满足特定基学习器的增强特征。例如，实施NN的基学习器能够基于贷款申请人的金融交易历史来计算初始PD，该金融交易历史包括时间序列上的多个观察。为了增强交易历史特征，源选择器和组合器150可以推导出交易的速度和加速度，即每小时花钱的比率和比率的任何变化。除了交易历史之外，增强特征速度和加速度被转发给NN并由NN使用。增强特征速度和加速度为实施NN的基学习器特有。这些增强功能通常不会被不接受时间序列观察的基学习器使用。例如，实施决策树的基学习器通常不会使用增强特征速度和加速度。

可选地，合成特征创建器148还包括多个超学习器1至n和关联的切片/切块选择器152。

每个超学习器1至n是实施机器学习算法的学习器，该机器学习算法在被执行时接受一个或多个输入并提供多个输出。超学习器1具有k₁个输出，超学习器2具有k₂个输出，……，超学习器n具有k_n个输出。在156处指示超学习器1至n的输出。

超学习器计算并输出对应于一组事件的一组合成特征。每个超学习器的每个输出是表示相应事件发生概率的合成特征。这些合成特征可以称为超特征，因为它们是由超学习器创建的合成特征，由超学习器输出的概率可以称为超概率。可以说每个超特征可以预测违约信号的超概率。违约信号是一组影响贷款违约的特征值。

针对每个超学习器计算概率的该组事件不同于每个基学习器计算的初始PD的单个二元贷款违约事件。例如，由超学习器计算相应概率的一组事件可能涉及以拖欠方式偿还贷款，比如逾期偿还。例如，超学习器1的输出1可以是贷款将延迟一个月偿还的概率，输出2可以是贷款将延迟两个月偿还的概率，……，输出k₁可以是贷款将延迟k₁个月偿还的概率。再如，超学习器1可以对贷款申请人可以满足资格的k₁种替代类型的贷款计算PD，在这种情况下，超学习器1的每个输出是对应于k₁种替代类型的贷款中相应一种贷款的PD。再如，超学习器1可以计算不同于贷款申请人请求的贷款期限的k₁个其它贷款期限的PD，在这种情况下，超学习器1的每个输出是对应于k₁个其它贷款期限中的相应一个贷款期限的PD。

超学习器1至n可用于将输入数据108与多元分类相关联，即，不是如同每个基学习器所做的那样计算贷款应用的初始PD，超学习器可以针对不同类别的违约预测多个概率。

切片/切块选择器152是输入数据108和每个超学习器1至n的输入之间的接口。切片/切块选择器152可以执行与源选择器和组合器150执行的操作相同的操作，比如将输入数据108转换为超学习器可接受的形式和/或增强输入数据108中的特征，如上所述。切片/切块选择器152还执行下文解释的“切片和切块”操作。

超学习器计算对应于一组事件的概率。每个事件的结果是可变的，并取决于影响事件是否发生的因素。因此，每个事件的结果将被称为因变量。例如，一个因变量可以是“延迟30天偿还贷款”，另一个因变量可以是“由于自然灾害而逾期偿还贷款”。在训练期间，当输入数据108为训练数据时，根据输入数据108中可用的特征，切片/切块选择器152确定将由超学习器计算概率的因变量。在训练期间基于输入数据108中的特征来确定超学习器的因变量的操作称为切片和切块特征。

基学习器和超学习器的输出是合成特征158。合成特征158中的每个特征都表示概率。每个基学习器的输出是初始PD，每个超学习器的每个输出表示事件发生的概率，该事件不同于与每个初始PD相关联并且与GBDT模块160输出的最终PD相关联的贷款违约事件。通常，每个合成特征158提供不同的概率度量。

由于以下原因之一，合成特征158可被认为是彼此不相关的：(1)来自用于生成合成特征158的输入数据108的特征对于每个合成特征158可以是不同的，例如，一个基学习器可以基于交易历史来计算初始PD，而另一个基学习器可以根据贷款申请人的个人数据资料中的信息计算初始PD；(2)由不同的基学习器和超学习器实施的机器学习算法可以固有地通过设计不相关，即，即使呈现相同的输入，两个概念上不同的机器学习算法通常也不会产生相同的输出。

GBDT模块160接收合成特征158以及至少部分输入数据108，并输出最终PD。最终PD是贷款申请人贷款违约概率的最终决定。GBDT模块160实施GBDT算法。GBDT算法是对决策树(decision tree，DT)执行梯度提升(gradient boosting，GB)的算法。DT是用于基于若干输入变量来预测目标变量值的树形结构。GBDT算法可以使用的机器学习算法的一个示例是C4.5。例如，在以下出版教材中讨论了C4.5算法：Quinlan,J.R.C4.5：机器学习程序(C4.5:Programs for Machine Learning)，摩根考夫曼出版社，1993。

GBDT模块160的输入将被称为GBDT输入数据。由GBDT模块160执行的GB将DT拟合到GBDT输入数据，然后使用部分GBDT输入数据进行预测，通常使用小于1的正乘法因子。计算表示预测误差的残差并使用另一DT再次拟合，重复该过程直到满足某个收敛标准。收敛标准可以是将残差减少到绝对意义上的小值。乘法因子被称为学习率，并且可能在算法的每次迭代中变化。GBDT模块160可以使用不同的机器学习算法，比如DT的C4.5实施方式，其用于丢失数据，如下所述。

尽管GBDT模块160被描述为实施GBDT算法，但是要理解，GBDT模块160也可以使用不同于DT的底层学习器来执行GB。但是，如果不使用DT，则可能需要使用另一个简单的底层学习器，并且学习过程可能较慢。对于GB，以下是可用于代替DT的示例性替代底层机器学习算法的列表：弹性网络、简单NN和线性支持向量机(support vector machine，SVM)。使用这些其它底层机器学习算法而不是DT可能需要对分类数据和丢失数据进行特殊编码。

在贷款违约预测域中，输入数据108中可能存在缺失特征。例如，如果贷款申请人拒绝提供其收入，则该特征将会缺失。缺失特征可以表示为非数(not-a-number，NaN)。如果来自输入数据108的特征缺失，则由于信息缺失，部分合成特征158可能无法被创建。例如，一个特定基学习器可能需要收入进行预测，因此基学习器将无法输出初始PD而可能输出NaN。在一项实施例中，GBDT模块160使用的机器学习算法是能够用于缺失数据的机器学习算法，即，当GBDT模块160的其中一个输入缺失或被指定为NaN时使用的机器学习算法。C4.5是这种算法的一个示例。通过使用可容纳缺失数据的算法来执行GBDT算法，即使部分GBDT输入数据缺失，仍可能产生最终PD。如果使用概率模型处理缺失数据，则可以实现更准确的输出。例如，如果GBDT输入数据中的数据点缺失，则该算法可以使用概率模型来确定缺失数据点最接近什么。C4.5算法使用概率方法。处理缺失数据的替代方式可以是使用非参数方法，比如查看相似数据点的平均值或模式并填充(即输入)缺失数据。例如，如果贷款申请人收入缺失，则GBDT模块160可以取训练集中所有收入的平均值并将其用作平均收入，但是这种非参数方法可能导致结果不准确。诸如C4.5算法使用的概率方法可以查看其它特征并执行其它人收入的加权和，然后确定落在C4.5树的哪个分支上。

GBDT算法可以提供找到非线性变换并在不需要变换的情况下处理倾斜变量的能力。也就是说，GBDT算法将不断地重新拟合残差直到残差消失，即，降低到某个可接受的阈值以下。因此，之前的迭代没有拟合的GBDT输入数据中的任何失衡将通过后续迭代拟合，直到残差消失。GBDT算法也是自适应的，也就是说，失衡的GBDT输入数据不需要平衡以使GBDT算法性能良好。因此，GBDT算法对于贷款违约领域空间具有适用性，因为与违约相比，借款人没有贷款违约的情况通常更多，因此“贷款违约”事件与“无贷款违约”事件相比可能失衡。但是，应该注意，GBDT算法仅对行数据进行操作，即GBDT算法不直接使用诸如交易数据时间序列的多行条目。如果交易数据是来自用户的输入数据的一部分，则交易数据将不会直接馈送到GBDT算法中，而是可以通过其中一个基学习器并转换为PD。在后文描述的具体示例中就是这种情况。

在操作中，当接收到与新贷款申请有关的输入数据108时，使用输入数据108来创建多个合成特征158。每个合成特征158表示概率。每个基学习器输出的合成特征是贷款的初始PD。然后由GBDT模块160处理合成特征158和至少部分输入数据108以获得最终PD。

在图3的实施例中，GS和GBDT算法适用于PD建模的新领域。可以生成大量的合成特征158，使得至少这些特征的小组合捕获违约信号，即，在预测PD时表现良好。在图3的实施例中，集成学习通过将多个基学习器组合成一个系统来使用，该系统可以通过GBDT算法自动学习贷款语境下复杂的人类行为。由于人类行为和经济状况可能随着时间而改变，所以图3的实施例使用与输入数据108不同的特征和不同的机器学习算法，即使用多个基学习器和可选地使用超学习器，而无需提前知晓哪种方法的效果最佳。计算机102将潜在的一大组输入数据108转换为单个输出，该输出是表示最终PD的数字。

GS利用合成特征158来放大特征空间。通过生成合成特征158，然后通过GBDT算法将合成特征158与输入数据108相结合，可以更好的处理贷款违约预测领域经常出现的挑战。这种挑战的示例包括：(1)缺失数据，在没有提供贷款申请中的数据时出现；(2)倾斜/失衡数据，由于贷款违约发生的频率低于无贷款违约时出现；以及(3)非线性变换，即发生在影响PD的特征具有非线性关系时。例如，与贷款PD有关的交易与收入之间的关系可以是非线性的。通过图3中的实施例可能会更准确且以更少的劳力进行PD预测。解决了贷款领域的一个技术问题，即使用计算机尝试预测贷款违约概率。在图3的实施例中，由于有多个基学习器和可选的超学习器，计算机102使用集成学习。集成学习可以利用人类行为中的复杂模式。

如上所述，每个基学习器和每个超学习器实施相应的机器学习算法。每个机器学习算法可以具有嵌入式特征选择和参数调整组件，从而使得机器学习算法可以在给定一组输入特征的情况下实现最佳性能。下文列出了可以使用的机器学习算法示例。该列表不被认为是穷举的：

(1)全局效应归一化：属于该机器学习方法的机器学习算法具有基线和循环效应，其提供PD的粗略预测。这些机器学习算法可以用于通过常用的回归方法来对市场和人口总趋势建模。例如，机器学习算法可以在GDP、公司和国债利率等全球市场指标的特定时间分片内回归某人口群体的违约比例。然后，当基学习器对一定时间内的个体预测初始PD时，基学习器可以利用一般PD预测偏置初始PD输出。循环效应通过将预定义循环因子回归默认值来建模，这些循环因子被认为具有经济意义。在上文的例子中，GDP隐式地反映了周期性市场趋势。

(2)邻域模型：属于这种机器学习方法的机器学习算法预测来自贷款申请人的“邻居”的PD，即过去已经违约的贷款申请人的比例，且邻居与当前贷款申请人相似。可作为基学习器使用的方法包括K最近邻(K-Nearest Neighbour，KNN)、K均值、高斯混合(Mixtureof Guassian，MoG)和隐马尔可夫模型(Hidden Markov Model，HMM)。

(3)弹性网络：属于这种机器学习方法的机器学习算法使用类似于全局效应归一化的线性回归方法，并且使用最小绝对收敛和选择算子(least absolute shrinkage andselection operator，LASSO)惩罚来增加正则化以避免过度拟合和隐式参数选择。在单位区间[0,1]上的正则化参数Lambda控制正则化程度，即拟合平滑度，以及同时在单位区间[0,1]上的LASSO参数Alpha控制特征选择的程度。当Alpha接近1时，许多系数将收敛为零。这两个参数都是通过使用保留交叉验证方法进行内部调整的。

(4)因子分解：属于这种机器学习方法的机器学习算法使用更复杂的回归模型，可以通过将贷款申请人的PD投影到各种合成因子和实际因子。这些方法提供了构建自定义因子的灵活性。因此，首先必须学习各种因子，然后必须对这些因子的投影进行学习。

(5)决策树(Decision Tree，DT)：属于这种机器学习方法的机器学习算法产生一组顺序if/else规则来预测PD。规则可以通过各种方法生成，因此可以使用不同数量的DT。规则表示为倒转树，树的根在顶部，规则的顺序自根部向下。树的叶子预测PD值，形成一个阶梯函数。基于模型的决策树形成了每个叶节点上最终预测的附加模型。

(6)集成方法：指结合多种预测方法的通用术语。例如，可以使用“打包(Bagging)”和“森林(Forest)”机器学习技术。利用重置打包取样训练数据以形成p个独立的训练数据集。DT建立在每个数据集上，最终预测是来自p个DT的预测的平均值。打包对各个预测器进行解相关，结果最终预测的差异减小，这可以提高最终测试分数。森林技术更进一步，在每个规则拆分处对每个DT进行解相关，只允许在构建每个规则时拆分一个特征子集。特征采用各种技术进行采样。

(7)神经网络(Neural Network，NN)：这些机器学习方法包括深度学习技术，并创建一个神经元图，也称为节点，这些节点试图模仿人脑中神经元的结构。分类特征可以被编码成二元特征向量，其余的特征被标准化为相似的单位标度。这些特征形成了NN的输入层，并与隐藏单元相互连接，以此形成NN结构的主体。可以构建不同类型的隐藏单元，每个节点具有不同的数学函数。在PD预测的情况下，隐藏单元被映射到NN中的单个最终节点，最终节点输出PD预测。NN的复杂结构能够处理完全非线性的决策边界，但结果可能是训练代价昂贵。举一个具体的示例：一旦交易历史模式发生变化，则NN可用于处理和监控用户的交易历史并指示违约威胁。更具体地说，在训练期间，可以定义窗口以跟踪交易记录，例如，跟踪过去100个交易的窗口。每笔交易都标有日期和时间以及适用的类别。交易映射到NN输入层中的二元编码。交易按时间排序，因此只要有新的交易可用，最早的交易就会被丢弃，并形成NN的新数据点。每个这种交易数据点都标有二元事件：要么违约，要么不违约。如果该人有1000个交易，并且该窗口有100个交易之大，则可以形成900个这样的数据点。在预测阶段，一旦新的交易变得可用，则早些的交易可能会被丢弃。因此，NN可能总是监测近期交易模式的变化。

(8)支持向量机(Support Vector Machine，SVM)：实现SVM的机器学习算法不是将NN的输入层映射到可能复杂的隐层架构，而是使用内核将输入层映射到无限维空间中。在实践中，内核表示是有限维的，但是概念是相同的：维度a的输入特征向量被映射到更高维度b>>a。在更高维度中使用线性分类器。这种映射可以允许SVM在输入特征空间中学习高度非线性模式，但是如同NN一样，可能使得SVM的训练代价非常昂贵。对于回归问题，即可以用来对PD进行建模的类别，改变分类器以执行回归而不是分类；这种方法通常称为支持向量回归(Support Vector Regression，SVR)。

(9)自然语言处理(Natural Language Processing，NLP)：许多非常强的信号可能隐藏在文本数据中。这种文本数据的示例可以包括关于雇用贷款申请人的公司的新闻事件，与贷款申请人所在的地理区域有关的历史自然灾害等。使用非结构化文本数据偏置PD可以有助于提高预测准确性。举个简单的例子，基于贷款申请人提供的贷款申请函中的文字内容，可以使用诸如朴素贝叶斯等方法对预测或相关信用评分进行偏置。可以通过挖掘与贷款申请人的就业历史相关的新闻数据而使用更先进的语言学方法。

在一些情况下，可能有必要处理基学习器中的分类数据，比如房屋所有权，其可以是抵押贷款、自有、租赁等。如上文一些示例中所提到的，一种分类数据处理方式是通过使用二元编码，其将单个分类特征映射到二元指标列的列表中，这些二元指标列被用作所选基学习器的输入。

在一些实施例中，由GBDT模块160输出的最终PD可用于计算SP。如上所述，SP＝1–PD。在一些实施例中，计算机102可以使用PD或SP来生成信用评分。计算机102通过由贷方确定并编程到计算机102中的计算机实施的规则来生成信用评分。例如，信用评分可以是SP乘以1000。再如，信用评分可以是250到900之间的数字，SP可以通过线性函数被映射到250到900的范围内。许多规则或函数可用于从PD或SP获得信用评分。

计算机102可以使用PD、SP或信用评分来确定是批准还是拒绝贷款申请。例如，计算机102可以根据基于PD、SP或信用评分的特定值是高于还是低于存储的阈值来生成是否批准贷款的指示。特定值可以是PD或SP或信用评分，或PD、SP或信用评分的函数。该阈值的取值可由贷方确定并编程到计算机102中。例如，如果贷方希望设法减少作出提供贷款的决定而随后贷款申请人违约的情况，则用于将贷款分类为批准的阈值可以对应于高SP，比如SP>0.9。或者，如果贷方希望设法减少贷款申请人能够偿还贷款而拒绝贷款申请的情况，则用于将贷款分类为批准的阈值可以关联较低的SP。基于相同的最终PD值，不同的贷方可能会有不同的规则来批准或拒绝贷款。变化在于如何对最终PD或相关SP或信用评分设置阈值。阈值可以在测试数据集上进行校准。

图4为根据一项实施例的一种使用图3的预测器106的方法的流程图。首先，在训练阶段训练预测器106。训练阶段由步骤182和184组成。在步骤182中，提供存储在存储器104中的训练数据作为输入数据108。训练数据由过去进行过贷款的若干实例组成，这些实例记录了借款人是否贷款违约，以及借款人的收入、职业、交易历史等与借款人相关的对应信息。在步骤184中，训练数据然后用于训练由基学习器和超学习器实施的机器学习算法，以及用于训练由GBDT模块160实施的GBDT算法。GBDT算法就输入数据108和合成特征158进行训练。训练可根据可用训练数据的数量和性质通过回归或分类来进行。训练可以包括确定哪些特征是用作每个机器学习算法的输入的良好候选对象。给定的机器学习算法能够使用某些特征来输出更准确的PD，但是其它特征如果被接受为机器学习算法的输入，则可以充当噪声并降低机器学习算法的有效性。训练可以确定哪些特征充当每个机器学习算法的噪声，哪些特征有助于产生更准确的PD，从而确定哪些机器学习算法将接收哪些特征作为输入。

一旦训练阶段完成，则预测器106用于计算新贷款申请的PD。训练后操作由步骤186至190以及可选步骤192组成。在步骤186中，在预测器106处接收包括源自新贷款申请的数据的新输入数据108。在步骤188中，预测器106以上文关于图3所述的方式计算贷款PD。如190处所示，对每个新贷款申请重复步骤186和188。可选地，在步骤192中，对于给定的贷款申请，计算机102可以使用在步骤188中计算的PD来生成贷款申请人的信用评分，和/或计算机102可以基于计算机规则提供是否批准贷款的指示，例如，如果在步骤188中计算的PD小于阈值0.1，则返回“是–批准贷款”。尽管图4的方法示出了在接收新贷款请求之前的单个训练阶段，但是基于更新的信息预测器106的部分训练也可以在操作期间继续进行。

图3中所示的预测器106的确切实施方式取决于选择哪些以及多少基学习器和超学习器以及能够处理输入数据108中的哪些特征。现在给出具体的示例。

在本示例中，预测器106所接受的输入数据108限于如下：贷款金额、贷款期限、房屋所有权、交易历史以及贷款申请人居住国家的平均国债利率。在本示例中，一年国债利率和三年国债利率可用。使用两个基学习器和一个超学习器来创建本示例中的合成特征。第一个基学习器是接受交易历史作为其输入并输出初始PD的NN。第二基学习器是DT的随机森林，其接受贷款金额、房屋所有权和平均国债利率作为其输入并输出初始PD。要注意的是，随机森林可以直接用于诸如房屋所有权的分类数据。在本示例中，DT实施C4.5算法。两个基学习器都使用二元结果作为因变量进行培训，其中，如果出现一些贷款拖欠的情况，则结果是真实的，例如，不全额偿还贷款、延迟一个月偿还、完全违约、欺诈性贷款等。

超学习器是接受与随机森林输入相同的弹性网络，不同之处是房屋所有权通过二元虚拟变量进行编码。超学习器的因变量也被修改。具体而言，创建了一系列因变量，每种拖欠行为对应一个因变量。在本示例中，针对延迟30天偿还的所有拖欠行为创建了单个因变量，并创建了一个额外的因变量，即拖欠行为因自然灾害引发。可以创建更多的因变量，但是这些因变量的数量受到输入数据108的限制。每个因变量表示一个类别：一类为30天拖欠，一类为自然灾害导致的违约。每个因变量可以对应于没有人为解释但可能与PD高度相关的某些其它信号，但是这些因变量在示例范围之外。

一旦创建了因变量，就执行多项式分类。一种方法是使用一对多分类，即在分类阶段选择具有最高概率的类别。每个因变量的单个类别概率形成一组超特征。在本示例中，有两个这样的超特征：30天拖欠和自然灾害。

因此，在本示例中，有两个合成PD预测：一个来自NN，另一个来自随机森林。还有两个超特征：30天拖欠和自然灾害。这些针对每个贷款申请人形成了一组四个合成特征158，除了贷款金额、贷款期限、房屋所有权、交易历史和两个平均国债利率之外，这些合成特征被馈送到GBDT算法中。因此，特征空间已经被四个附加合成特征放大。

在训练期间，训练数据被分成训练集和测试集。例如，最近一个月的违约可以用作测试集。再如，最新观察结果的10％可以用作测试集，其余的作为训练集。由于计算机在学习概率，曲线下面积(Area Under Curve，AUC)可以用作Kaggle^TM竞赛中常用的性能度量标准。计算机102然后可以对所有特征组合进行贪婪搜索以确定计算机102是否可以形成特征子集，该特征子集增加了具有违约设置的给定机器学习算法的AUC。例如，计算机102可以逐个丢弃特征，即，对训练集上的算法重新训练并且对测试集上的AUC进行评分，然后确定任一特征子集是否在缩减的特征子集上重新训练之后增加了AUC。

针对基学习器和超学习器执行相同的特征选择技术。因此，一个独特的特征子集被映射到每个基学习器和超学习器。

一旦形成每个特征集，计算机102就可以通过调整与机器学习算法相关联的参数来继续最大化每个机器学习算法的性能。例如，随机森林算法的一个关键参数是所用树的数量，NN具有无限多的神经元和滤波器排列方式，弹性网络对其两个主要参数进行正则化等等。计算机102可以对每个机器学习算法的参数空间执行网格搜索，每个算法进一步增加了测试集上的AUC。例如，随机森林对所使用的DT数量的空间执行简单的线性搜索，直到达到允许的存储器限制，其限制通常最多有10,000–100,000个树。弹性网络可以对alpha和lambda参数的组合执行网格搜索，并且对于NN搜索，计算机102可以利用被认为有用的各种预定义的NN结构进行实验。NN可能被正规化，dropout是一种可用于正则化NN的技术。

本示例中的每个机器学习算法被映射到一组输入特征和一组最优的参数集，并且可以共同生成最终的一组合成特征158。计算机102可以在整组数据上重新训练每个基学习器以生成合成特征158。

在本示例中，GBDT算法对除交易数据之外的所有输入数据以及四个合成特征158使用C4.5DT。也就是说，GBDT算法的输入是两个基学习器(NN和随机森林)的输出，超学习器(弹性网络)的输出，以及贷款金额、贷款期限、房屋所有权和贷款申请人居住国家的平均国债利率的原始输入数据108。要注意的是，交易数据被用于推导合成特征，并且交易数据不被GBDT算法直接使用。

在本示例中，随机森林和GBDT算法都使用相同的C4.5算法。在示例中有意选择了此点，以说明相同的DT框架可以在不同的学习阶段以不同的方式由不同的集成方法使用。随机森林会有一个学习C4.5DT集，并且GBDT算法会有一系列的提升C4.5DT。两种算法都可以使用其它类型的DT；C4.5仅为一个示例。

在本示例中，GBDT算法学习观察到的二元类别，但最终PD可以通过对来自GBDT算法的每个顺序步骤的加权投票取平均值来计算。或者，C4.5可以针对每个预测产生概率，并且可以使用概率的加权平均值来计算最终PD。

一旦GBDT算法产生最终PD，计算机102就可以将最终PD映射到信用评分并定义要分类的阈值。一种常见违约分类技术是选择使F1评分最大化的分类阈值。F1评分可以在更保守的设置中进行修改，例如，如果希望对违约的敏感度高于平常。

如果在操作期间交易历史作为某个人的输入缺失，则四个合成特征中的一个特征将不可用，即NN输出。但是，在本示例中，缺失的合成特征可以通过GBDT算法来调节。

上文讨论的决策树C4.5的概述可以在前面提及的出版教材中找到：Quinlan,J.R.C4.5：机器学习程序(C4.5:Programs for Machine Learning)，摩根考夫曼出版社，1993。上文讨论的随机森林机器学习算法的概述可以在以下发表论文中找到：Breiman，“随机森林(Random Forests)”，机器学习，45(1)，5-32，2001。上文讨论的NN的概述可以在以下出版教材中找到：Ripley,B.D.(1996)，模式识别和神经网络(Pattern Recognition andNeural Networks)，剑桥大学出版社，以及Venables,W.N.和Ripley,B.D.(2002)，有关S的现代应用统计学(Modern Applied Statistics with S)，第四版，施普林格出版社。上文讨论的弹性网络的示例可以在以下发表论文中找到：Jerome Friedman，Trevor Hastie，Robert Tibshirani(2010)，使用坐标下降的广义线性模式的正则化路径(RegularizationPaths for Generalized Linear Models via Coordinate Descent)，统计软件杂志，33(1)，1-22。

图5为根据一项实施例的一种示出使用贷款违约预测器的系统的框图。所示的系统包括通过互联网204连接到服务器206的联网设备202。例如，联网设备202可以是个人计算机、贷款机构处的计算机、移动电话或平板电脑。服务器206由贷方208操作，并且服务器206托管预测器210。预测器210可以是图3的预测器106。预测器210已被训练并因此输出针对与新贷款申请212相关的给定的一组数据的PD。决策模块214实施一个或多个计算机规则以确定是否基于PD发放贷款，和/或是否基于PD向贷款申请人提供备选项。

在操作中，贷款申请人通过联网设备202在线完成贷款申请212。输入到贷款申请212中的数据通过互联网204发送到服务器206，服务器206可以利用附加输入数据来补充数据。附加输入数据的示例包括当前利率、趋势新闻报道或者非贷款申请的一部分但被预测器210接受的任何其它信息。然后将所有输入数据发送到预测器210，预测器210计算并输出一个PD。发送该PD到决策模块214，决策模块214使用自动计算机实施的规则来确定是否应该发放贷款，例如，如果PD<0.1，则“是–我们批准贷款”。在一些实施例中，信用评分可以由决策模块214基于PD来计算，并用于确定是否应该发放贷款。答案通过互联网204发回给贷款申请人。在替代实施例中，当服务器206从贷款应用212接收到信息时，服务器206可改为利用与贷款申请人请求的贷款金额不同的贷款金额多次询问预测器210。例如，贷款申请人可以申请$10,000贷款，但是服务器206还向预测器210发送备选贷款请求金额$5,000和$15,000。基于每种贷款金额的PD，决策模块214然后可以将选项返回给贷款申请人，例如，“你没有资格获得$10,000贷款，但你有资格获得$5000贷款”或“你有资格获得$10,000贷款，但如果你愿意的话，你也有资格获得$15,000贷款”，这取决于每种贷款金额的PD是什么。类似系统可以用于小额贷款或者P2P借贷，在这种情况下，预测器210可以在由提供贷款便利的中介公司操作的另一个服务器上实施。特别是，与传统借贷相比，P2P借贷有着不同的融资概念。在P2P借贷中，通常需要处理大量请求并需要相对快速的决策。P2P借贷系统利用机器学习技术可以高度自动化。

在以上示例中，在训练之后的操作期间，预测器从单个贷款申请人接收对应于贷款申请的输入数据。或者，如果预测器为大量申请人提供服务，使得在很短时间内提交了很多贷款申请，则预测器可以定期接受一批输入数据。该批数据包含若干输入数据集，自上一批数据后提交的每个贷款申请使用一个输入数据集。输出将会是一批PD，每个贷款申请使用一个PD。通过逐批处理，可能可以有一些优化。

图6为根据一项实施例的一种可以存在预测器106或预测器210等贷款违约预测器的系统的框图。系统包括连接到网络服务器224的图形用户界面(graphical userinterface，GUI)222，网络服务器224连接到实施风险洞察引擎228的计算机集群226。风险洞察引擎228包括评分和贷款批准组件230，评分和贷款批准组件230实施贷款违约预测。评分和贷款批准组件230访问机器学习库232以调用由基学习器和超学习器实施的机器学习算法。必要时，计算机集群226访问存储盘234，其根据需要可以存储任何所需的数据，例如训练数据和测试数据。在操作中，在训练之后，某人通过GUI 222完成贷款申请。完成贷款申请的某人可以是贷款申请人或代表贷款申请人的银行雇员。网络服务器224存储贷款申请人数据，并将贷款请求和关联数据转发给评分和贷款批准组件230。评分和贷款批准组件230确定PD以及是否批准贷款。至少关于是否批准贷款的决定返回到网络服务器224并显示在GUI 222上。当确定PD时，评分和贷款批准组件230利用机器学习库232来执行机器学习算法。

上文提供了不同的示例。更一般而言，图7为根据一项实施例的一种可由计算机执行的方法的流程图。在步骤252中，计算机获取一组关于贷款申请的数据。在步骤254中，计算机至少通过以下操作来确定多个合成特征：执行多个机器学习算法，这些机器学习算法中的每个算法在被执行时接收至少部分数据作为输入并且产生相应的合成特征作为输出来表示是否会发生贷款违约的初始概率。输入到每个机器学习算法的数据可能彼此不同，或者在一些情况下，输入到每个机器学习算法的数据可能相同或部分重叠。每个机器学习算法由基学习器实施。

在步骤256中，计算机执行GBDT算法以处理(i)在步骤254中确定的合成特征和(ii)来自步骤252中的至少部分数据，从而产生输出来表示是否会发生贷款违约的最终概率。在一些实施例中，GBDT算法可以处理来自步骤252的所有数据，除了包括在一段时间内进行的一系列观察的数据，例如，包括金融交易历史的数据。

在一些实施例中，该方法可选地还包括：计算机基于特定值是高于还是低于存储的阈值来生成是否批准贷款的指示。该特定值基于最终概率。

在一些实施例中，多个机器学习算法是由基学习器实施的第一组机器学习算法。确定多个合成特征还可包括：计算机执行由超学习器实施的至少一个其它机器学习算法。至少一个其它机器学习算法在被执行时基于至少部分数据接收输入并且产生多个输出。多个输出中的每个输出是表示事件发生概率的合成特征，该事件不同于与最终概率相关联的贷款违约。在一些实施例中，事件包括逾期偿还贷款。

在一些实施例中，计算机对至少部分数据执行二元编码以产生二元编码数据，同时计算机将二元编码数据输入到至少一个机器学习算法。在一些实施例中，计算机利用至少一个附加特征来扩充数据，同时计算机将至少一个附加特征输入到至少一个机器学习算法。在一些实施例中，数据包括文本，计算机从文本中提取特征以获得提取的特征，同时计算机将提取的特征输入到至少一个机器学习算法。

在一些实施例中，至少两个机器学习算法彼此不同。在一些实施例中，至少两个机器学习算法接受不同的输入。

在一些实施例中，数据包括所请求的贷款金额和贷款期限。在一些实施例中，数据包括贷款申请人的交易历史，其中一个机器学习算法为接受交易历史作为输入的NN。

在一些实施例中，该方法还包括：计算机训练机器学习算法。训练包括使用训练数据和测试数据通过以下操作来确定针对每个机器学习算法将使用哪些输入：计算机尝试不同可能的输入并选择一组一个或多个最能满足度量标准的输入，例如，使用之前讨论的AUC度量标准。

在一些实施例中，公开了一种用于执行任何上述方法的系统。在一项实施例中，系统可以包括用于存储与贷款申请有关的一组数据的存储器，以及用于接收数据并输出表示是否会发生贷款违约的最终概率的预测器。预测器可以包括多个学习器，每个学习器实施相应的机器学习算法。预测器可以用于执行本文描述的操作。在另一项实施例中，系统可以包括至少一个处理器和存储器，其中，存储器上存储有处理器可执行指令，处理器可执行指令在被执行时使得至少一个处理器执行本文描述的操作。

最后，在上文的讨论中，图2的方法应用于特定贷款违约事件，并且产生概率，该概率为PD。或者，图2的方法也可以应用于其它应用，例如检测欺诈。在检测欺诈的示例中，输入数据是与影响是否可能存在欺诈的因素有关的参数，而输出可以是欺诈概率(probability offraud，PF)。上文提到，更一般而言，GBDT算法可以被使用不同于DT的另一底层学习器的GB替代。使用具有不同于DT的另一底层学习器的GB对于欺诈检测等其它应用而言也是可能的。

尽管已经参考本发明的特定特征和实施例描述了本发明，但是明显在不脱离本发明的情况下可以制定本发明的各种修改和组合。说明书和附图仅被视为所附权利要求书所定义的本发明部分实施例的说明并且考虑落于本说明书的范围内的任何和所有修改、变体、组合或均等物。因此，虽然已详细地描述了本发明及其优点，但是应理解，可以在不脱离如所附权利要求书所界定的本发明的情况下对本发明做出各种改变、替代和更改。此外，本发明的范围并不局限于说明书中所述的过程、机器、制造、物质组分、构件、方法和步骤的特定实施例。所属领域的一般技术人员可从本发明中轻易地了解，可根据本发明使用现有的或即将开发出的，具有与本文所描述的相应实施例实质相同的功能，或能够取得与所述实施例实质相同的结果的过程、机器、制造、物质组分、构件、方法或步骤。相应地，所附权利要求范围旨在包括这些流程、机器、制造、物质组分、构件、方法或步骤。

此外，要理解的是，本文例示的执行指令的任何模块、组件或设备可以包括或以其它方式访问用于存储信息的非瞬时性计算机/处理器可读存储介质，比如计算机/处理器可读指令、数据结构、程序模块和/或其它数据。非瞬时性计算机/处理器可读存储介质的非穷举性示例列表包括盒式磁带、磁带、磁盘存储设备或其它磁存储设备、例如光盘只读存储器(compact discread-only memory，CD-ROM)、数字视频光盘或数字多功能光盘(即DVD)、蓝光光盘^TM等光盘或其它光学存储设备、以任何方法或技术实现的易失性和非易失性、可移动和不可移动介质、随机存取存储器(random-access memory，RAM)、只读存储器(read-onlymemory，ROM)、电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、闪存或其它存储器技术。任何此类非瞬时性计算机/处理器存储介质可以是设备的一部分或者可访问或可连接到设备。本文描述的任何应用或模块可以通过计算机/处理器可读/可执行指令来实施，这些指令可以由此类非瞬时性计算机/处理器可读存储介质存储或以其它方式保存。

Claims

1.一种计算机实施的方法，其特征在于，包括：

所述计算机获取与贷款申请相关的一组数据；

所述计算机至少通过以下操作来确定多个合成特征：执行多个机器学习算法，所述机器学习算法中的每个算法在被执行时接收至少部分所述数据作为输入并且产生相应的合成特征作为输出来表示是否会发生贷款违约的初始概率；

所述计算机执行梯度提升决策树(gradient boosted decision tree，GBDT)算法以处理所述合成特征和至少部分所述数据，从而产生输出来表示是否会发生所述贷款违约的最终概率。

2.根据权利要求1所述的计算机实施的方法，其特征在于，还包括：

所述计算机基于特定值是高于还是低于存储的阈值来生成是否批准所述贷款的指示；

其中，所述特定值基于所述最终概率。

3.根据权利要求1至2中任一项所述的计算机实施的方法，其特征在于，所述多个机器学习算法是第一组机器学习算法，确定所述多个合成特征还包括：

所述计算机执行不同于所述第一组机器学习算法的至少一个其它机器学习算法，所述至少一个其它机器学习算法在被执行时基于至少部分所述数据接收输入并且产生多个输出；

其中，所述多个输出中的每个输出是表示事件发生概率的合成特征，所述事件不同于与所述最终概率相关联的所述贷款违约。

4.根据权利要求3所述的计算机实施的方法，其特征在于，所述事件包括逾期偿还所述贷款。

5.根据权利要求1至4中任一项所述的计算机实施的方法，其特征在于，还包括：

所述计算机对至少部分所述数据执行二元编码以产生二元编码数据；以及

所述计算机将所述二元编码数据输入到至少一个所述机器学习算法。

6.根据权利要求1至5中任一项所述的计算机实施的方法，其特征在于，还包括：

所述计算机利用至少一个附加特征来扩充所述数据；以及

所述计算机将所述至少一个附加特征输入到至少一个所述机器学习算法。

7.根据权利要求1至6中任一项所述的计算机实施的方法，其特征在于，所述数据包括所请求的贷款金额和贷款期限，至少两个所述机器学习算法彼此不同。

8.根据权利要求7所述的计算机实施的方法，其特征在于，所述数据还包括所述贷款申请人的交易历史，所述机器学习算法中的一个算法是接受所述交易历史作为输入的神经网络。

9.根据权利要求1至8中任一项所述的计算机实施的方法，其特征在于，还包括：

所述计算机训练所述机器学习算法，所述训练包括使用训练数据和测试数据通过以下操作来确定哪些输入将用于每个机器学习算法：所述计算机尝试不同的可能输入并选择一组一个或多个最能满足度量标准的输入。

10.一种系统，其特征在于，包括：

存储器，用于存储与贷款申请相关的一组数据；

预测器，用于接收所述数据以及产生输出来表示是否会发生贷款违约的最终概率；

所述预测器包括多个学习器，每个学习器实施相应的机器学习算法；

所述预测器用于：

通过向每个所述学习器发送至少部分所述数据来确定多个合成特征，每个所述学习器输出相应的合成特征来表示是否会发生所述贷款违约的初始概率；以及

执行梯度提升决策树(gradient boosted decision tree，GBDT)算法以处理所述合成特征和至少部分所述数据，从而产生所述输出来表示是否会发生所述贷款违约的所述最终概率。

11.根据权利要求10所述的系统，其特征在于，所述系统用于基于特定值是高于还是低于存储的阈值来生成是否批准所述贷款的指示，其中，所述特定值基于所述最终概率。

12.根据权利要求10至11中任一项所述的系统，其特征在于，所述多个学习器是第一组学习器，所述预测器用于还通过以下操作来确定所述多个合成特征：

向不同于所述第一组学习器的至少一个其它学习器发送输入，所述输入基于至少部分所述数据，所述至少一个其它学习器实施机器学习算法，所述机器学习算法在被执行时接收所述输入并产生多个输出；

13.根据权利要求12所述的系统，其特征在于，所述事件包括逾期偿还所述贷款。

14.根据权利要求10至13中任一项所述的系统，其特征在于，所述预测器还用于：

对至少部分所述数据执行二元编码以产生二元编码数据；以及

发送所述二元编码数据给至少一个所述学习器。

15.根据权利要求10至14中任一项所述的系统，其特征在于，所述预测器还用于：

利用至少一个附加特征来扩充所述数据；以及

发送所述至少一个附加特征给至少一个所述学习器。

16.根据权利要求10至15中任一项所述的系统，其特征在于，所述数据包括所请求的贷款金额和贷款期限，至少两个所述学习器实施彼此不同的机器学习算法。

17.根据权利要求16所述的系统，其特征在于，所述数据还包括所述贷款申请人的交易历史，所述学习器中的一个学习器是接受所述交易历史作为输入的神经网络。

18.根据权利要求10至17中任一项所述的系统，其特征在于，所述系统用于训练所述学习器，所述训练包括使用训练数据和测试数据通过以下操作来确定哪些输入将要发送给每个学习器：所述系统尝试不同的可能输入并选择一组一个或多个最能满足度量标准的输入。

19.一种系统，其特征在于，包括：

至少一个处理器；以及

存储器，其上存储有处理器可执行指令，所述指令在被执行时使得所述至少一个处理器进行以下操作：

至少通过以下操作来确定多个合成特征：执行多个机器学习算法，所述机器学习算法中的每个算法在被执行时接收至少部分所述数据作为输入并且产生相应的合成特征作为输出来表示是否会发生贷款违约的初始概率；以及

执行梯度提升决策树(gradient boosted decision tree，GBDT)算法以处理所述合成特征和至少部分所述数据，从而产生输出来表示是否会发生所述贷款违约的最终概率。

20.根据权利要求19所述的系统，其特征在于，所述处理器可执行指令在被执行时还使得所述至少一个处理器进行以下操作：

基于特定值是高于还是低于存储的阈值来生成是否批准所述贷款的指示；

其中，所述特定值基于所述最终概率。