CN113946965A

CN113946965A - 资产数据的筛选方法、装置、设备及存储介质

Info

Publication number: CN113946965A
Application number: CN202111227365.4A
Authority: CN
Inventors: 刘思媛
Original assignee: Shanghai Pudong Development Bank Co Ltd
Current assignee: Shanghai Pudong Development Bank Co Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-18

Abstract

本发明实施例公开了一种资产数据的筛选方法、装置、设备及存储介质。根据业务类型获取多个备选资产数据；其中，所述备选资产数据携带有资产特征；按照设定比例将所述备选资产数据划分为训练数据和测试数据；基于所述训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值；将所述测试数据输入所述训练后的GBDT模型，获得所述测试数据对应的判定结果；若所述判定结果大于所述判定阈值，则将所述测试数据存入资产池，否则，删除所述测试数据。本发明实施例提供的资产数据的筛选方法，基于训练后的GBDT模型及判定阈值筛选出可以证券化的资产数据，提高资产数据的筛选效率及准确性，较低资产证券化的风险。

Description

资产数据的筛选方法、装置、设备及存储介质

技术领域

本发明实施例涉及资产数据的处理技术领域，尤其涉及一种资产数据的筛选方法、装置、设备及存储介质。

背景技术

资产证券化是指企业或金融机构将缺乏流动性但能够产生稳定的、可预期的现金流的资产进行组合，并以此基础资产产生的现金流为支持，在资本市场上发行证券的过程。

其中，最先持有并转让资产的一方，为需要融资的机构，整个资产证券化的过程都是由其发起的，称为“发起人”(originator)，发起人(一般是发放贷款的金融机构，也可以称为原始权益人)根据自身的资产证券化融资要求，确定资产证券化目标，对自己拥有的能够产生未来现金收入流的信贷资产进行清理、估算和考核，根据历史经验数据对整个组合的现金流平均水平有一个基本判断，决定借款人信用、抵押担保贷款的抵押价值等并将应收和可预见现金流资产进行组合，对现金流的重组可按贷款的期限结构、本金和利息的重新安排或风险的重新分配等进行，根据证券化目标确定资产数，最后将这些资产汇集形成一个资产池，这是资产证券化的第一步也是至关重要的一步。因此，筛选出可以证券化的资产数据显得尤为重要。

发明内容

本发明实施例提供一种资产数据的筛选方法、装置、设备及存储介质，以筛选出可以证券化的资产数据，提高资产数据的筛选效率及准确性，较低资产证券化的风险。

第一方面，本发明实施例提供了一种资产数据的筛选方法，包括：

根据业务类型获取多个备选资产数据；其中，所述备选资产数据携带有资产特征；

按照设定比例将所述备选资产数据划分为训练数据和测试数据；

基于所述训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值；

将所述测试数据输入所述训练后的GBDT模型，获得所述测试数据对应的判定结果；

若所述判定结果大于所述判定阈值，则将所述测试数据存入资产池，否则，删除所述测试数据。

第二方面，本发明实施例还提供了一种资产数据的筛选装置，包括：

备选资产数据获取模块，用于根据业务类型获取多个备选资产数据；其中，所述备选资产数据携带有资产特征；

备选资产数据划分模块，用于按照设定比例将所述备选资产数据划分为训练数据和测试数据；

GBDT模型训练模块，用于基于所述训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值；

判定结果获取模块，用于将所述测试数据输入所述训练后的GBDT模型，获得所述测试数据对应的判定结果；

数据入池模块，用于若所述判定结果大于所述判定阈值，则将所述测试数据存入资产池，否则，删除所述测试数据。

第三方面，本发明实施例还提供了一种计算机设备，所述设备包括：包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本发明实施例所述的资产数据的筛选方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理装置执行时实现如本发明实施例所述的资产数据的筛选方法。

本发明实施例公开了一种资产数据的筛选方法、装置、设备及存储介质。根据业务类型获取多个备选资产数据；其中，备选资产数据携带有资产特征；按照设定比例将备选资产数据划分为训练数据和测试数据；基于训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值；将测试数据输入训练后的GBDT模型，获得测试数据对应的判定结果；若判定结果大于判定阈值，则将测试数据存入资产池，否则，删除测试数据。本发明实施例提供的资产数据的筛选方法，基于训练后的GBDT模型及判定阈值筛选出可以证券化的资产数据，提高资产数据的筛选效率及准确性，较低资产证券化的风险。

附图说明

图1是本发明实施例一中的一种资产数据的筛选方法的流程图；

图2是本发明实施例二中的一种资产数据的筛选装置的结构示意图；

图3是本发明实施例三中的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种资产数据的筛选方法的流程图，本实施例可适用于筛选可以证券化的资产数据的情况，该方法可以由资产数据的筛选装置来执行，如图1所示，该方法具体包括如下步骤：

步骤110，根据业务类型获取多个备选资产数据。

其中，备选资产数据携带有资产特征。资产特征可以包括：违约概率、违约回收率、剩余期限、债务人的集中度相关系数、行业相关系数、地域集中度相关系数及真实结果等。真实结果包括该资产数据可以证券化或者该资产数据不可以证券化。业务类型可以是对公贷款、银行票据、个人住房抵押贷款等。不同的业务类型对应的资产数据也不同。本实施例中，根据业务类型获取对应的多个备选资产数据。

步骤120，按照设定比例将备选资产数据划分为训练数据和测试数据。

其中，设定比例可以理解为训练数据和测试数据间的比例，假设训练数据的百分占比为r％，则测试数据的百分占比为1-r％。假设备选资产数据的总量为N，则训练数据为N*r％，测试数据为N*(1-r％)。训练数据用于对梯度提升决策树(Gradient BoostingDecision Tree，GBDT)模型进行训练，测试数据用于对训练后的GBDT模型进行测试。

步骤130，基于训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值。

其中，GBDT模型包括多个树结构，且每个树结构包括多个叶子节点。GBDT模型的输出可以是输入的资产数据可证券化的概率，即输入的资产数据的判定结果。

具体的，基于训练数据对梯度提升决策树GBDT模型进行训练的过程可以是：根据资产特征对训练数据进行聚类，获得至少一组数据；对每组数据分别进行归一化处理处理，获得至少一个归一化后的训练数据；基于至少一个归一化后的训练数据对GBDT模型进行训练。

其中，由于资产特征包括多个，因此可以根据其中一个指定的资产特征对训练数据进行聚类。示例性的，假设按照违约概率进行聚类，则方式可以是将违约概率划分多个取值区间，将违约概率落入同一取值区间的训练数据聚为一类，即划分至同一组。

本实施例中，由于资产特征包括多个，因此每个训练数据对应一个资产特征向量。对每组数据分别进行归一化处理处理的方式可以是特征向量中的每个元素分别进行归一化处理，获得归一化处理后的资产特征向量。示例性的，假设某一组中包含训练数据1、训练数据2和训练数据2，则训练数据1的资产特征向量为(违约概率1，违约回收率1，剩余期限1，债务人的集中度相关系数1，行业相关系数1，地域集中度相关系数1，真实结果1)，训练数据2的资产特征向量为(违约概率2，违约回收率2，剩余期限2，债务人的集中度相关系数2，行业相关系数2，地域集中度相关系数2，真实结果2)，训练数据3的资产特征向量为(违约概率3，违约回收率3，剩余期限3，债务人的集中度相关系数3，行业相关系数3，地域集中度相关系数3，真实结果3)，则需要对违约概率1、违约概率2和违约概率3进行归一化处理，得到归一化后的违约概率，同理，其他资产特征也进行归一化处理，得到归一化后的资产特征，从而得到归一化后的资产特征向量，即获得归一化后的训练数据。对于聚类后的每组数据均按照上述方式进行归一化处理，然后根据归一化处理后的训练数据对GBDT模型进行训练。

可选的，基于至少一个归一化后的训练数据对GBDT模型进行训练的过程可以是：将至少一个归一化后的训练数据输入GBDT模型，获得至少一个判定结果；根据判定结果和至少一个归一化后的训练数据的真实结果按照如下公式生成优化目标：

其中，Obj为优化目标，n为归一化后的训练数据的数量；y_i为第i个训练数据的真实结果，

为第i个训练数据的判定结果，l(·,·)为损失函数，Ω()为复杂度函数，K为树结构的数量，f_k为第k个树结构的输出，

x为训练数据，

T为第k个树结构包含的叶子节点的数量，γ和λ为系数，且为常量，ω_j为第j个叶子节点的输出；基于优化目标对GBDT模型进行训练。

其中，将至少一个归一化后的训练数据输入GBDT模型可以理解为将归一化后的资产特征向量输入GBDT模型，获得判定结果。

具体的，根据判定结果和至少一个归一化后的训练数据的真实结果获取优化目标后，判断优化目标是否满足条件，若不满足，则根据该优化目标调整GBDT模型中的参数，继续根据至少一个归一化后的训练数据对调整参数后的GBDT模型进行训练，直到优化目标满足条件。

可选的，基于至少一个归一化后的训练数据对GBDT模型进行训练的方式可以是：基于至少一个归一化后的训练数据对多个树结构进行迭代训练，直到所有树结构训练完成，获得训练后的GBDT模型。

具体的，首先基于至少一个归一化后的训练数据对GBDT模型的第一个树结构进行训练，在第一个树结构训练完成后，对第一个树结构进行训练，直到所有树结构训练完成。在训练第N个树结构时，是基于前N-1个训练好的树结构进行训练的。

具体的，基于所述至少一个归一化后的训练数据对所述多个树结构进行迭代训练的过程可以是：基于如下目标函数对第t个树结构进行训练：

其中，

x_i为第i个训练数据，

为复杂度函数，T为第t个树结构包含的叶子节点的数量，γ和λ为系数，且为常量，ω_j为第j个叶子节点的输出。

本实施例中，在获得目标函数Obj^(t)后，对Obj^(t)进行求导计算，获得求导后的目标函数。在对第t个树结构训练过程中，不断的调整第t个树结构中参数，直到求导后的目标函数小于设定阈值，从而完成第t个树结构的训练。

步骤140，将测试数据输入训练后的GBDT模型，获得测试数据对应的判定结果。

具体的，对测试数据进行资产特征标记，将标记后的测试数据输入训练后的GBDT模型，即将训练数据的资产特征向量输入训练后的GBDT模型。判定结果表示测试数据可以证券化的概率。

步骤150，若判定结果大于判定阈值，则将测试数据存入资产池，否则，删除测试数据。

其中，判断阈值也是训练获得的。

本实施例的技术方案，根据业务类型获取多个备选资产数据；其中，备选资产数据携带有资产特征；按照设定比例将备选资产数据划分为训练数据和测试数据；基于训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值；将测试数据输入训练后的GBDT模型，获得测试数据对应的判定结果；若判定结果大于判定阈值，则将测试数据存入资产池，否则，删除测试数据。本发明实施例提供的资产数据的筛选方法，基于训练后的GBDT模型及判定阈值筛选出可以证券化的资产数据，提高资产数据的筛选效率及准确性，较低资产证券化的风险。

实施例二

图2是本发明实施例二提供的一种资产数据的筛选装置的结构示意图。如图2所示，该装置包括：

备选资产数据获取模块210，用于根据业务类型获取多个备选资产数据；其中，备选资产数据携带有资产特征；

备选资产数据划分模块220，用于按照设定比例将备选资产数据划分为训练数据和测试数据；

GBDT模型训练模块230，用于基于训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值；

判定结果获取模块240，用于将测试数据输入训练后的GBDT模型，获得测试数据对应的判定结果；

数据入池模块250，用于若判定结果大于判定阈值，则将测试数据存入资产池，否则，删除测试数据。

可选的，GBDT模型训练模块230，还用于：

根据资产特征对训练数据进行聚类，获得至少一组数据；

对每组数据分别进行归一化处理，获得至少一个归一化后的训练数据；

基于至少一个归一化后的训练数据对GBDT模型进行训练。

可选的，GBDT模型包括多个树结构，且每个树结构包括多个叶子节点。

可选的，GBDT模型训练模块230，还用于：

将至少一个归一化后的训练数据输入GBDT模型，获得至少一个判定结果；

根据判定结果和至少一个归一化后的训练数据的真实结果按照如下公式生成优化目标：

x为训练数据，

T为第k个树结构包含的叶子节点的数量，γ和λ为系数，且为常量，ω_j为第j个叶子节点的输出；

基于优化目标对GBDT模型进行训练。

可选的，GBDT模型训练模块230，还用于：

基于至少一个归一化后的训练数据对多个树结构进行迭代训练，直到所有树结构训练完成，获得训练后的GBDT模型。

可选的，GBDT模型训练模块230，还用于：

基于如下目标函数对第t个树结构进行训练：

其中，

x_i为第i个训练数据，

可选的，资产特征包括：违约概率、违约回收率、剩余期限、债务人的集中度相关系数、行业相关系数、地域集中度相关系数及真实结果。

上述装置可执行本发明前述所有实施例所提供的方法，具备执行上述方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明前述所有实施例所提供的方法。

实施例三

图3为本发明实施例三提供的一种计算机设备的结构示意图。图3示出了适于用来实现本发明实施方式的计算机设备312的框图。图3显示的计算机设备312仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。设备312是典型的资产数据的筛选功能的计算设备。

如图3所示，计算机设备312以通用计算设备的形式表现。计算机设备312的组件可以包括但不限于：一个或者多个处理器316，存储装置328，连接不同系统组件(包括存储装置328和处理器316)的总线318。

总线318表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备312典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备312访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置328可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)330和/或高速缓存存储器332。计算机设备312可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统334可以用于读写不可移动的、非易失性磁介质(图3未显示，通常称为“硬盘驱动器”)。尽管图3中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线318相连。存储装置328可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块326的程序336，可以存储在例如存储装置328中，这样的程序模块326包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块326通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备312也可以与一个或多个外部设备314(例如键盘、指向设备、摄像头、显示器324等)通信，还可与一个或者多个使得用户能与该计算机设备312交互的设备通信，和/或与使得该计算机设备312能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口322进行。并且，计算机设备312还可以通过网络适配器320与一个或者多个网络(例如局域网(Local AreaNetwork，LAN)，广域网Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器320通过总线318与计算机设备312的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备312使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器316通过运行存储在存储装置328中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的资产数据的筛选方法。

实施例四

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理装置执行时实现如本发明实施例中的资产数据的筛选方法。本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：根据业务类型获取多个备选资产数据；其中，所述备选资产数据携带有资产特征；按照设定比例将所述备选资产数据划分为训练数据和测试数据；基于所述训练数据对梯度提升决策树GBDT模型进行训练，获得训练后的GBDT模型及判定阈值；将所述测试数据输入所述训练后的GBDT模型，获得所述测试数据对应的判定结果；若所述判定结果大于所述判定阈值，则将所述测试数据存入资产池，否则，删除所述测试数据。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。