CN112906772A

CN112906772A - 样本处理方法、装置、设备及计算机可读存储介质

Info

Publication number: CN112906772A
Application number: CN202110158980.8A
Authority: CN
Inventors: 许逸翰; 陈婷; 吴三平; 庄伟亮
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-04

Abstract

本发明公开了一种样本处理方法、装置、设备及计算机可读存储介质，所述样本处理方法包括以下步骤：获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合；基于所述随机抽样集合，并行计算所述样本特征对应的统计指标；确定所述统计指标中所述样本特征对应的正常指标，并基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征。本发明通过先预先构建指标阈值体系，在处理样本时，先对样本进行抽样，再并行计算抽样后的样本特征对应的统计指标，之后自动将统计指标与预设的指标阈值体系自动对比，由此减少了样本处理的时间，提升了样本处理的效率。

Description

样本处理方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及金融科技(Fintech)技术领域，尤其涉及一种样本处理方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

信用评分卡模型：评分卡是贷款机构对借款人的信用行为数据进行分析挖掘，预测借款人在一定时期内的违约概率，得到不同等级的信用分数，从而进行风险管控的一种决策工具。机器学习算法：指神经网络、随机森林、GBDT等新兴的建模方法。目前，用于识别客户风险情况的数据主题和数据维度越来越丰富，海量数据在用于构建信用评分卡之前需考察数据特征的基本统计指标，以及区分度、稳定性等情况。现有技术中，对用于构建信用评分卡的数据特征，基于全量的建模样本逐一串行计算多个考察指标，每个特征计算完所有指标后再对下一个特征进行计算，而当建模样本的数据量较大或者所需要计算的特征的数量多或者计算的特征对应的指标有多个时，此时的样本处理效率较低，计算速度慢。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种样本处理方法、装置、设备及计算机可读存储介质，旨在解决现有技术中的样本处理效率较低的技术问题。

为实现上述目的，本发明提供一种样本处理方法，所述样本处理方法包括以下步骤：

获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合；

基于所述随机抽样集合，并行计算所述样本特征对应的统计指标；

确定所述统计指标中所述样本特征对应的正常指标，并基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征。

可选地，所述获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合的步骤包括：

获取训练样本，并将所述训练样本拆分为多个分组，其中，每个分组包含若干个样本特征；

在所述分组中随机抽取所述样本特征对应的样本，得到所述分组对应的随机抽样集合。

可选地，所述确定所述统计指标中所述样本特征对应的正常指标的步骤包括：

基于预先构建的指标阈值体系，在所述指标阈值体系中确定与所述统计指标相匹配的指标阈值，其中，所述指标阈值体系中包含各统计指标对应的指标阈值；

基于所述指标阈值，确定所述统计指标中所述样本特征对应的正常指标。

可选地，所述基于所述随机抽样集合，并行计算所述样本特征对应的统计指标的步骤之后，还包括：

基于预先构建的指标阈值体系，在所述指标阈值体系中确定所述统计指标中所述样本特征对应的指标结果，其中，所述指标结果包括所述统计指标中所述样本特征对应的正常指标和异常指标；

将所述指标结果生成至分析报告，并输出所述分析报告。

可选地，所述基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征的步骤之后，还包括：

基于所述目标样本特征对预设的机器学习模型进行训练；

在训练完成所述机器学习模型后，得到所述机器学习模型对应的信用评分卡模型。

可选地，所述在训练完成所述机器学习模型后，得到所述机器学习模型对应的信用评分卡模型的步骤之后，还包括：

获取待评价客户对应的信用行为数据；

将所述信用行为数据输入至所述信用评分卡模型，以确定所述待评价用户的信用风险。

可选地，所述统计指标包括但不限于计数、去重计数、求和、均值、中位数、缺失率、0值率、75％分位数或25分位数中的至少一种。

此外，为实现上述目的，本发明还提供一种样本处理装置，所述样本处理装置包括：

分组抽样模块，用于获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合；

并行计算模块，用于基于所述随机抽样集合，并行计算所述样本特征对应的统计指标；

确定模块，用于确定所述统计指标中所述样本特征对应的正常指标，并基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征。

此外，为实现上述目的，本发明还提供一种样本处理设备，所述样本处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本处理程序，所述样本处理程序被所述处理器执行时实现如上述的样本处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有样本处理程序，所述样本处理程序被处理器执行时实现如上述的样本处理方法的步骤。

本发明通过获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合；基于所述随机抽样集合，并行计算所述样本特征对应的统计指标；确定所述统计指标中所述样本特征对应的正常指标，并基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征。在本实施例中，在训练样本用于构建信用评分卡模型之前，对原始的训练样本进行样本处理，具体地，首先根据不同的样本特征在训练样本中随机抽样，以抽取样本特征对应的样本，得到随机抽样集合；之后，根据随机抽样集合，并行计算各个样本特征对应的统计指标，最后根据指标阈值体系确定统计指标中的正常指标，从而在样本特征中筛选出正常指标对应的目标样本特征，以及剔除训练样本中指标异常的样本特征，由此通过先抽样再并行处理的样本处理手段减少了样本处理的时间，提升了样本处理的效率。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的样本处理设备结构示意图；

图2为本发明样本处理方法第一实施例的流程示意图；

图3为本发明样本处理方法第二实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的样本处理设备结构示意图。

本发明实施例样本处理设备可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等具有显示功能的可移动式终端设备。

如图1所示，该样本处理设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，样本处理设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在样本处理设备移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别样本处理设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，样本处理设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的样本处理设备结构并不构成对样本处理设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及样本处理程序。

在图1所示的样本处理设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的样本处理程序。

在本实施例中，样本处理设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的样本处理程序，其中，处理器1001调用存储器1005中存储的样本处理程序时，并执行以下操作：

进一步地，处理器1001可以调用存储器1005中存储的样本处理程序，还执行以下操作：

将所述指标结果生成至分析报告，并输出所述分析报告。

基于所述目标样本特征对预设的机器学习模型进行训练；

获取待评价客户对应的信用行为数据；

本发明还提供一种样本处理方法，参照图2，图2为本发明样本处理方法第一实施例的流程示意图。

步骤S10，获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合；

本发明提出的样本处理方法应用于金融机构，样本处理方法用于快速地筛选出符合指标阈值的样本特征，在基于样本处理方法处理完成后的样本特征进行构建信用评分卡，其中，信用评分卡模型为一种对借款人的信用行为数据进行分析挖掘，并根据借款人的信用行为数据进行预测借款人在一定时期内的违约概率，得到不同等级的信用分数，从而进行风险管控的一种决策工具。

在本实施例中，获取借款人的信用行为数据，并基于信用行为数据确定原始的训练样本；之后，基于原始的训练样本对应的样本特征，在训练样本中随机抽样，以随机抽取样本特征对应的样本，得到随机抽样集合。需要说明的是，训练样本包含多种样本特征，样本特征例如借款人的年龄、借款金额以及借款时间和还款时间等等，从而对于海量的训练样本，在海量的训练样本中随机抽样，对于不同的样本特征抽样出相对应的样本，得到各个样本特征对应的样本集合，其中，随机样本集合包含所抽取得到的各个样本也在对应的样本集合。进一步地，信用行为数据为借款人在一定时期内的，包括借款人的信用历史记录和业务表现记录，信用历史记录为借款人在人民银行所记录到的个人征信记录，业务表现记录为该借款人在该贷款机构或者其它贷款机构关于贷款业务的行为表现的记录数据，包括贷款金额、借款时间以及还款时间等等。

步骤S20，基于所述随机抽样集合，并行计算所述样本特征对应的统计指标；

在本实施例中，对训练样本随机抽样得到随机抽样集合后，对于随机抽样集合中各样本特征对应的样本集合，基于多任务处理器并行计算各样本特征对应的统计指标。需要说明的是，对于各个样本特征对应的样本集合，并行处理随机抽样集合中各样本特征对应的样本集合，以计算各样本特征对应的统计指标；由于需要计算多个样本特征对应的统计指标，因此为了加快数据的处理速率，可以通过多任务处理器同时统计样本特征对应的样本集合，从而得到样本特征对应的统计指标。

进一步地，所述统计指标包括但不限于计数、去重计数、求和、均值、中位数、缺失率、0值率、75％分位数或25分位数中的至少一种。也就是说，上述所计算样本特征对应的统计指标至少包括一个，即统计一种样本特征对应统计指标可以包括一个或者一个以上。

步骤S30，确定所述统计指标中所述样本特征对应的正常指标，并基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征。

在本实施例中，在统计完成样本特征对应的统计指标后，根据预先构建的指标阈值体系对统计指标进行评价，对于每个变量的各个统计指标，根据该指标阈值体系，可以判断出样本特征是正常还是异常，从而得到统计指标的指标结果，其中，指标结果包括统计指标中的正常指标和异常指标。在根据指标阈值体系对统计指标进行评价之后，根据统计指标对应的指标结果，确定统计指标中样本特征对应的正常指标；之后，根据正常指标，在训练样本中筛选出正常指标对应的目标样本特征，并排除掉训练样本中指标异常的样本特征，以供后续基于目标样本特征构建信用评分卡模型，其中，该目标样本特征为经过样本处理后的正常指标对应的样本特征。

本实施例提出的样本处理方法，通过获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合；基于所述随机抽样集合，并行计算所述样本特征对应的统计指标；确定所述统计指标中所述样本特征对应的正常指标，并基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征。在本实施例中，在训练样本用于构建信用评分卡模型之前，对原始的训练样本进行样本处理，具体地，首先根据不同的样本特征在训练样本中随机抽样，以抽取样本特征对应的样本，得到随机抽样集合；之后，根据随机抽样集合，并行计算各个样本特征对应的统计指标，最后根据指标阈值体系确定统计指标中的正常指标，从而在训练样本中筛选出正常指标对应的目标样本特征，并剔除训练样本中指标异常的样本特征，由此通过先抽样再并行处理的样本处理手段减少了样本处理的时间，提升了样本处理的效率。

基于第一实施例，提出本发明样本处理方法的第二实施例，参照图3，在本实施例中，步骤S10包括：

步骤S11，获取训练样本，并将所述训练样本拆分为多个分组，其中，每个分组包含若干个样本特征；

步骤S12，在所述分组中随机抽取所述样本特征对应的样本，得到所述分组对应的随机抽样集合。

在本实施例中，获取借款人的信用行为数据，并基于信用行为数据确定原始的训练样本；之后，对于样本特征对应的训练样本，将若干个样本特征对应的训练样本分为一组，得到多个分组，例如，训练样本中包含9个样本特征，分组时可以将每3个分为一组，其中，训练样本包含多个样本特征。基于分组后的训练样本，在分组后的训练样本中随机抽样，以随机抽取样本特征对应的样本，得到随机抽样集合。需要说明的是，对于相同的样本特征对应的训练样本，将样本特征对应的训练样本分成多个分组。

进一步地，所述确定所述统计指标中所述样本特征对应的正常指标的步骤包括：

步骤S31，基于预先构建的指标阈值体系，在所述指标阈值体系中确定与所述统计指标相匹配的指标阈值，其中，所述指标阈值体系中包含各统计指标对应的指标阈值；

步骤S32，基于所述指标阈值，确定所述统计指标中所述样本特征对应的正常指标。

在本实施例中，在统计完成样本特征对应的统计指标后，根据预先构建的指标阈值体系对统计指标进行评价，得到统计指标的指标结果，其中，指标结果包括统计指标中的正常指标和异常指标。具体地，在指标阈值体系中确定与统计指标相匹配的指标阈值，再判断统计指标是否在对应的指标阈值对应的阈值范围内。若统计指标在对应的指标阈值对应的阈值范围内，则确定在对应的指标阈值对应的阈值范围内的统计指标为正常指标；若统计指标不在对应的指标阈值对应的阈值范围内，则在对应的指标阈值对应的阈值范围内的统计指标为异常指标。

进一步地，所述基于所述随机抽样集合，并行计算所述样本特征对应的统计指标的步骤之后，还包括：

将所述指标结果生成至分析报告，并输出所述分析报告。

在本实施例中，在统计完成样本特征对应的统计指标后，根据预先构建的指标阈值体系对统计指标进行评价，得到统计指标的指标结果，其中，指标结果包括统计指标中的正常指标和异常指标。之后，再将指标结果生成对应的分析报告，并输出分析报告至显示设备以供用户进行查看。

进一步地，所述基于所述正常指标，确定所述训练样本中所述正常指标对应的目标训练样本的步骤之后，还包括：

步骤S40，基于所述目标样本特征对预设的机器学习模型进行训练；

步骤S50，在训练完成所述机器学习模型后，得到所述机器学习模型对应的信用评分卡模型。

在本实施例中，在得到正常指标对应的目标样本特征后，将目标样本特征输入至机器学习模型中，以基于目标样本特征对机器学习模型进行训练，其中，机器学习模型可以是决策树模型，也可以是GBDT模型，或者逻辑回归模型等，机器学习模型在本实施例中不作具体限定。在训练完成机器学习模型之后，训练完成机器学习模型对应的信用评分卡模型。其中，信用评分卡模型为一种对借款人的信用行为数据进行分析挖掘，并根据借款人的信用行为数据进行预测借款人在一定时期内的违约概率，得到不同等级的信用分数，从而进行风险管控的一种决策工具。

进一步地，所述在训练完成所述机器学习模型后，得到所述机器学习模型对应的信用评分卡模型的步骤之后，还包括：

步骤S60，获取待评价客户对应的信用行为数据；

步骤S70，将所述信用行为数据输入至所述信用评分卡模型，以确定所述待评价用户的信用风险。

在本实施例中，在训练完成机器学习模型后得到对应的信用评分卡模型后，获取待评价用户对应的信用行为数据，以根据待评价用户的信用行为数据预测待评价用户的信用风险。具体地，将待预测客户的信用行为数据输入至信用评分卡模型，信用评分卡模型输出待评价用户的信用评价结果，从而得到待评价用户的信用风险。

本实施例提出的样本处理方法，通过获取训练样本，并将所述训练样本拆分为多个分组；根据所述训练样本对应的样本特征，在所述分组中随机抽取所述样本特征对应的样本，得到所述分组对应的随机抽样集合。在本实施例中，在训练样本用于构建信用评分卡模型之前，对原始的训练样本进行样本处理，具体地，首先对于相同的样本样本特征对应的训练样本，将样本特征对应的训练样本分成多个分组，在分组后的训练样本中随机抽样，以抽取样本特征对应的样本，得到随机抽样集合；之后，根据随机抽样集合，并行计算各个样本特征对应的统计指标，最后根据指标阈值体系确定统计指标中的正常指标，从而在训练样本中筛选出正常指标对应的目标训练样本，以及排除掉训练样本中指标异常的训练样本，由此通过先分组抽样再并行处理的样本处理手段减少了样本处理的时间，提升了样本处理的效率。

此外，本发明实施例还提出一种样本处理装置，所述样本处理装置包括：

进一步地，所述分组抽样模块，还用于：

进一步地，所述确定模块，还用于：

进一步地，所述所述样本处理装置包括输出模块，所述输出模块用于：

将所述指标结果生成至分析报告，并输出所述分析报告。

进一步地，所述所述样本处理装置包括训练模块，所述训练模块用于：

基于所述目标样本特征对预设的机器学习模型进行训练；

进一步地，所述所述样本处理装置包括预测模块，所述预测模块用于：

获取待评价客户对应的信用行为数据；

进一步地，所述统计指标包括但不限于计数、去重计数、求和、均值、中位数、缺失率、0值率、75％分位数或25分位数中的至少一种。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有样本处理程序，所述样本处理程序被处理器执行时实现如上述中任一项所述的样本处理方法的步骤。

本发明计算机可读存储介质具体实施例与上述样本处理方法的各实施例基本相同，在此不再详细赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种样本处理方法，其特征在于，所述样本处理方法包括以下步骤：

2.如权利要求1所述的样本处理方法，其特征在于，所述获取训练样本，并根据所述训练样本对应的样本特征，在所述训练样本中随机抽取所述样本特征对应的样本，得到随机抽样集合的步骤包括：

3.如权利要求1所述的样本处理方法，其特征在于，所述确定所述统计指标中所述样本特征对应的正常指标的步骤包括：

4.如权利要求1所述的样本处理方法，其特征在于，所述基于所述随机抽样集合，并行计算所述样本特征对应的统计指标的步骤之后，还包括：

将所述指标结果生成至分析报告，并输出所述分析报告。

5.如权利要求1所述的样本处理方法，其特征在于，所述基于所述正常指标，确定所述样本特征中所述正常指标对应的目标样本特征的步骤之后，还包括：

基于所述目标样本特征对预设的机器学习模型进行训练；

6.如权利要求5所述的样本处理方法，其特征在于，所述在训练完成所述机器学习模型后，得到所述机器学习模型对应的信用评分卡模型的步骤之后，还包括：

获取待评价客户对应的信用行为数据；

7.如权利要求1至6任一项所述的样本处理方法，其特征在于，所述统计指标包括但不限于计数、去重计数、求和、均值、中位数、缺失率、0值率、75％分位数或25分位数中的至少一种。

8.一种样本处理装置，其特征在于，所述样本处理装置包括：

9.一种样本处理设备，其特征在于，所述样本处理设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本处理程序，所述样本处理程序被所述处理器执行时实现如权利要求1至7中任一项所述的样本处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有样本处理程序，所述样本处理程序被处理器执行时实现如权利要求1至7中任一项所述的样本处理方法的步骤。