CN112927719A

CN112927719A - 风险信息评估方法、装置、设备及存储介质

Info

Publication number: CN112927719A
Application number: CN202110091235.6A
Authority: CN
Inventors: 林佳静
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-06-08
Anticipated expiration: 2041-01-22
Also published as: CN112927719B

Abstract

本发明提供了一种风险信息评估方法、装置、设备及存储介质，涉及机器学习领域。该方法包括：获取用户的经济特征信息、催收通话音频。对经济特征信息和催收通话音频进行预处理。根据预处理后的数据获取违约特征信息，违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。通过XGBoost模型，根据违约特征信息进行参数拟合，得到风险信息评估模型。根据风险信息评估模型对用户进行风险评估。由于XGBoost模型可以在数据变量较多时提供良好的可解释性以及拟合速度，使得在用户的历史数据中变量较多时也能得到良好的可解释性，且无需长时间的拟合。

Description

风险信息评估方法、装置、设备及存储介质

技术领域

本发明涉及机器学习领域，具体而言，涉及一种风险信息评估方法、装置、设备及存储介质。

背景技术

近年来，银行的借贷、理财业务越来越多，尽管在业务办理前对于用户进行了审核、建模以评估该用户的风险程度。例如，在理财征信评分模型时，根据用户的外部征信信息(例如消费记录、所有银行的存款等信息)，预测用户的信用风险程度，可以比较客观全面地评估风险。

现有技术是通过神经网络，以及用户的历史数据训练随机森林，逻辑回归和支持向量机三个模型分别预测银行信用数据，然后选择三个模型中效果最佳的一个进行使用。

但是，当用户的历史数据中变量较多时，神经网络的可解释性较差，学习过程较长，评估效果不佳。

发明内容

基于上述现有技术存在的当用户的历史数据中变量较多时，神经网络的可解释性较差，学习过程较长，评估效果不佳的问题，本发明实施例提供一种风险信息评估方法、装置、设备及存储介质，可以改善历史数据中变量较多时的评估效果。

第一方面，一种风险信息评估方法，该方法包括：获取用户的经济特征信息、催收通话音频。对经济特征信息和催收通话音频进行预处理。根据预处理后的数据获取违约特征信息，违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。通过极端梯度提升(eXtreme Gradient Boosting，XGBoost)模型，根据违约特征信息进行参数拟合，得到风险信息评估模型。根据风险信息评估模型对用户进行风险评估。

一些实施方式中，对经济特征信息和催收通话音频进行预处理，包括：若经济特征信息中存在缺失值，则采用预设的预估算法，对缺失值进行预估处理。

一些实施方式中，对经济特征信息和催收通话音频进行预处理，包括：若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值，则对经济特征信息进行过采样处理或统一纲量处理。

一些实施方式中，对经济特征信息和催收通话音频进行预处理，包括：通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割，通过预设的语义识别模型，获取催收通话音频中的违约关键词。

一些实施方式中，根据预处理后的数据获取违约特征信息，包括：采用预设的特征筛选算法，对预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除，得到违约特征信息。

一些实施方式中，通过XGBoost模型，根据违约特征信息进行参数拟合，得到风险信息评估模型，包括：根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。根据每个特征信息以及特征标签，通过XGBoost模型进行参数拟合，得到风险信息评估模型。

一些实施方式中，在得到风险信息评估模型之后，包括：验证风险信息评估模型的精确度、召回率、精密度、均衡平均数(F1-score)以及接收机工作特性曲线(receiveroperating characteristic curve，ROC)。

第二方面，本发明实施例提供了一种风险信息评估装置，包括：获取模块，用于获取用户的经济特征信息、催收通话音频。预处理模块，用于对经济特征信息和催收通话音频进行预处理。获取模块，还用于根据预处理后的数据获取违约特征信息，违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。拟合模块，用于通过极端梯度提升XGBoost模型，根据违约特征信息进行参数拟合，得到风险信息评估模型。评估模块，用于根据风险信息评估模型对用户进行风险评估。

一些实施方式中，预处理模块，具体用于若经济特征信息中存在缺失值，则采用预设的预估算法，对缺失值进行预估处理。

一些实施方式中，预处理模块，具体用于若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值，则对经济特征信息进行过采样处理或统一纲量处理。

一些实施方式中，预处理模块，具体用于通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割，通过预设的语义识别模型，获取催收通话音频中的违约关键词。

一些实施方式中，获取模块，具体用于采用预设的特征筛选算法，对预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除，得到违约特征信息。

一些实施方式中，拟合模块，具体用于根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。根据每个特征信息以及特征标签，通过XGBoost模型进行参数拟合，得到风险信息评估模型。

一些实施方式中，该装置还包括验证模块，用于验证风险信息评估模型的精确度、召回率、精密度、F1-score以及ROC。

第三方面，本发明实施例提供一种终端设备，包括：处理器、存储介质和总线，存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行时执行如第一方面的方法的步骤。

第四方面，本发明实施例提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器运行时执行如第一方面的方法的步骤。

以上第二方面至第四方面的有益效果，可以参考第一方面中，在此不再赘述。

在本申请中，根据用户的经济特征信息、催收通话音频，通过XGBoost模型拟合得到风险信息评估模型，通过得到风险信息评估模型对用户进行风险信息评估。由于XGBoost模型可以在数据变量较多时提供良好的可解释性以及拟合速度，使得在用户的历史数据中变量较多时也能得到良好的可解释性，且无需长时间的拟合。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种风险信息评估方法的流程示意图；

图2示出了本发明另一实施例提供的一种风险信息评估方法的流程示意图；

图3示出了本发明实施例提供的风险信息评估装置的结构示意图；

图4示出了本发明另一实施例提供的风险信息评估装置的结构示意图；

图5示出了本发明实施例提供的终端设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，应当理解，本发明中附图仅起到说明和描述的目的，并不用于限定本发明的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本发明内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，本发明所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。还应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，还需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1示出了一种风险信息评估方法的流程示意图。该方法可以应用于终端设备，如台式电脑、服务器、定制终端或移动终端等，在此不做限制。

参考图1，该方法包括：

S101、获取用户的经济特征信息、催收通话音频。

一些实施方式中，用户的经济特征信息包括用户的外部征信信息和内部征信信息。其中，外部信息可以包括如消费记录、所有银行的存款等信息。而内部信息则可以包括银行内部数据集。例如，可以利用银行内部数据集、中国人民银行征信系统、政府系统等，搜集影响银行对公客户还款的因素及数据。

作为示例，可以将经济特征信息分为不同的维度，如身份信息特征(包括企业成立年限、企业规模、担保信息)、账户信息维度(包括存款余额、存款年日均余额、存贷比)、财报信息维度(包括表内外欠息、净利润、销售收入、营业收入)、交易信息维度(包括年累计交易次数、近一月交易金额、季度累计交易金额)、经营信息(包括注册资本、实收资本)、风险特征(包括授信客户四分类代)、产品信息(包括理财产品持有个数、电子对账签约标志)、行为特征(包括历史逾期天数、历史逾期次数、历史逾期本金利息)、银监客户风险统计数据(包括总资产、总负债、是否被列入监管、洗钱风险等级)等。

而催收通话音频，则是指当用户进行贷款后，在贷后还款期间，存在用户需进行催收的过程，才得以还款的时，催收电话的通话录音。对于通话录音中的关键词进行分析，可以用于评估用户违约的原因。

S102、对经济特征信息和催收通话音频进行预处理。

一些实施方式中，对经济特征信息和催收通话音频进行预处理可以包括：

若经济特征信息中存在缺失值，则采用预设的预估算法，对缺失值进行预估处理。其中，对于连续型变量，可以采用均值、中位数或利用k近邻的方法对于缺失值进行预估。而对于类别型变量，则可以将缺失值作为一种类别特征进行处理。

若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值，则对经济特征信息进行过采样处理或统一纲量处理。其中，过采样处理可以将部分连续变量进行离散化处理，可以通过等值划分(按照值域均分)和等量划分(按照样本数均分)的方式进行。而统一量纲处理则可以对特征信息进行归一化。

通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割，通过预设的语义识别模型，获取催收通话音频中的违约关键词。

作为示例，可以通过文本分词对词语进行分割，在采用最大匹配分词(MaximumMatching Segment，MMSeg)算法得到以空格分割的词语序列。然后利用连续词汇(Continuous Bag-of-Words，CBOW)模型通过词的上下文信息，预测出词向量。再采用k均值聚类算法(k-means clustering algorithm，k-means)对所有的词向量进行聚类，选择聚类程度较高的词簇，构出关键词网络。最后获取到正负样本的录音文本的关键词，得出相关的数据集。

S103、根据预处理后的数据获取违约特征信息，违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。

一些实施方式中，以贷款违约为例，对于影响用户违约的因素较多，且存在高度相似的变量因素(一个违约特征即一个变量因素)。为了在拟合模型过程中，避免过拟合的情况。需要对变量进行筛选降维。如剔除原本特征中与违约的相关性较低的特征。

由于原始数据集(违约特征信息)特征较多，降维过程是对特征的计算组合构成新特征，可以采用主成分分析技术(principal components analysis，PCA)、独立成分分析(independent component analysis，ICA)、线性判别式分析(linear discriminantanalysis,LDA)等方法，本申请对此不做限制。

而特征筛选可以通过最大信息系数(MIC)、皮尔森相关系数(衡量变量间的线性相关性)、正则化方法(L1或L2)、基于模型的特征排序等方法，在此不做限制。

S104、通过XGBoost模型，根据违约特征信息进行参数拟合，得到风险信息评估模型。

参考图2，图2示出了另一种风险信息评估方法的流程示意图，其中包括：

S1041、根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。

其中，在模型训练之前，可以先根据预设时间窗提取违约特征信息中每个特征的特征信息以及特征标签。如，以每个季度为时间窗提取特征。

S1042、根据每个特征信息以及特征标签，通过XGBoost模型进行参数拟合，得到风险信息评估模型。

需要说明的是，XGBoost是在梯度提升树(Gradient Boosting Decison Tree,GBDT)的基础上进行改进得来的。XGBoost可以根据特征分裂来生长一棵树，并不断地添加树。每次添加的一个树，是去拟合上次预测的残差而得到新函数。XGBoost可以逐次迭代来提高模型性能。在XGBoost训练完成得到k棵树后，即可以得到风险信息评估模型。

在得到风险信息评估模型之后，可通过预测一个样本的分数验证风险信息评估模型性能。风险信息评估模型会根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后将每棵树对应的分数加起来即可得到改样本的预测值。

其中，风险信息评估模型性能包括精确度、召回率、精密度、F1-score以及ROC。

精确度(Accuracy)为分类器正确分类的样本数与总数之比，可通过以下公式计算：

其中，TP为表示预测存在且真实存在的样本，TN是预测不存在但是真实存在的样本数，FP为预测存在但是真实不存在的样本数，FN预测不存且真实不存在的样本数。

召回率(Recall)即敏感性(sensitivity)，也可以称之为真阳性率(Truepositive rate，TPR)。可以表征用于衡量分类器正确预测某一类实例的能力，可通过以下公式计算：

相应的，特异性(specificity)，也就是假阳性率(False positive rate，FPR)，可通过以下公式计算：

精密度(Precision)为预测存在的正确率，可通过以下公式计算：

F1-score是精度和召回率的谐波平均值，可通过以下公式计算：

ROC曲线是一个分类模型效果好坏评判的可视化表示。ROC曲线的纵轴为TPR，横轴为FPR，ROC曲线上每个坐标点的取值范围为(0,0)至(1,1)。ROC曲线将坐标系分为两个部分，曲线下覆盖的面积称为曲线下面积(AUC)。AUC越高，则表示该模型的效果越好。

S105、根据风险信息评估模型对用户进行风险评估。

最后，可以将用户的经济特征信息输入得到风险信息评估模型，以评估其具有风险的概率。例如，可以将用户的经济特征信息输入，评估其贷款违约的风险。

参考图3，本发明实施例提供了一种风险信息评估装置，包括：

获取模块31，用于获取用户的经济特征信息、催收通话音频。

预处理模块32，用于对经济特征信息和催收通话音频进行预处理。

获取模块31，还用于根据预处理后的数据获取违约特征信息，违约特征信息包括违约相关的经济特征信息以及催收通话音频中的违约关键词。

拟合模块33，用于通过极端梯度提升XGBoost模型，根据违约特征信息进行参数拟合，得到风险信息评估模型。

评估模块34，用于根据风险信息评估模型对用户进行风险评估。

一些实施方式中，预处理模块32，具体用于若经济特征信息中存在缺失值，则采用预设的预估算法，对缺失值进行预估处理。

一些实施方式中，预处理模块32，具体用于若经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值，则对经济特征信息进行过采样处理或统一纲量处理。

一些实施方式中，预处理模块32，具体用于通过马尔可夫模型将催收通话音频识别为催收通话文本。对催收通话文本进行语义分割，通过预设的语义识别模型，获取催收通话音频中的违约关键词。

一些实施方式中，获取模块31，具体用于采用预设的特征筛选算法，对预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除，得到违约特征信息。

一些实施方式中，拟合模块34，具体用于根据预设的时间窗获取违约特征信息中每个特征的特征信息以及特征标签。根据每个特征信息以及特征标签，通过XGBoost模型进行参数拟合，得到风险信息评估模型。

一些实施方式中，参考图4，该装置还包括验证模块35，用于验证风险信息评估模型的精确度、召回率、精密度、F1-score以及ROC。

上述装置可以集成于服务器、计算机等设备，本发明在此不作限制。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，该深度学习模型训练装置的具体工作过程，可以参考前述方法实施例中所述的深度学习模型训练方法的对应过程，本发明中不再赘述。

应该理解，以上所描述的装置实施例仅仅是示意性的，本发明实施例所揭露的装置和方法，也可以通过其它的方式实现。例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得用户终端或司机终端执行本发明各个实施例所述方法的全部或部分步骤。

也即，本领域内的技术人员应明白，本发明实施例可以采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式中的任一种实现。

基于此，本发明实施例还提供一种程序产品，该程序产品可以是U盘、移动硬盘、ROM、RAM、磁碟或者光盘等存储介质，存储介质上可以存储有计算机程序，计算机程序被处理器运行时执行如前述方法实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似，在此不再赘述。

可选地，本发明实施例还提供一种电子设备，该电子设备可以是服务器、计算机等设备，图5示出了本发明实施例提供的电子设备的结构示意图。

如图5所示，该电子设备3可以包括：处理器301、存储介质302和总线303，存储介质302存储有处理器301可执行的机器可读指令，当电子设备运行时，处理器301与存储介质302之间通过总线303通信，处理器301执行机器可读指令，以执行时执行如前述实施例中所述的深度学习模型训练方法的步骤。具体实现方式和技术效果类似，在此不再赘述。

为了便于说明，在上述电子设备中仅描述了一个处理器。然而，应当注意，一些实施例中，本发明中的电子设备还可以包括多个处理器，因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。

以上仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种风险信息评估方法，其特征在于，所述方法包括：

获取用户的经济特征信息、催收通话音频；

对所述经济特征信息和所述催收通话音频进行预处理；

根据预处理后的数据获取违约特征信息，所述违约特征信息包括违约相关的经济特征信息以及所述催收通话音频中的违约关键词；

通过极端梯度提升XGBoost模型，根据所述违约特征信息进行参数拟合，得到风险信息评估模型；

根据所述风险信息评估模型对用户进行风险评估。

2.根据权利要求1所述的方法，其特征在于，所述对所述经济特征信息和所述催收通话音频进行预处理，包括：

若所述经济特征信息中存在缺失值，则采用预设的预估算法，对所述缺失值进行预估处理。

3.根据权利要求1所述的方法，其特征在于，所述对所述经济特征信息和所述催收通话音频进行预处理，包括：

若所述经济特征信息中的违约特征信息与未违约特征信息的比例大于预设阈值，则对所述经济特征信息进行过采样处理或统一纲量处理。

4.根据权利要求1所述的方法，其特征在于，所述对所述经济特征信息和所述催收通话音频进行预处理，包括：

通过马尔可夫模型将所述催收通话音频识别为催收通话文本；

对所述催收通话文本进行语义分割，通过预设的语义识别模型，获取所述催收通话音频中的违约关键词。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据预处理后的数据获取违约特征信息，包括：

采用预设的特征筛选算法，对所述预处理后的数据中的高相似度变量、违约的低相关度变量进行筛选剔除，得到所述违约特征信息。

6.根据权利要求5所述的方法，其特征在于，所述通过XGBoost模型，根据所述违约特征信息进行参数拟合，得到风险信息评估模型，包括：

根据预设的时间窗获取所述违约特征信息中每个特征的特征信息以及特征标签；

根据每个所述特征信息以及所述特征标签，通过XGBoost模型进行参数拟合，得到风险信息评估模型。

7.根据权利要求6所述的方法，其特征在于，在得到风险信息评估模型之后，包括：

验证所述风险信息评估模型的精确度、召回率、精密度、均衡平均数F1-score以及接收机工作特性曲线ROC。

8.一种风险信息评估装置，其特征在于，所述装置包括：

获取模块，用于获取用户的经济特征信息、催收通话音频；

预处理模块，用于对所述经济特征信息和所述催收通话音频进行预处理；

所述获取模块，还用于根据预处理后的数据获取违约特征信息，所述违约特征信息包括违约相关的经济特征信息以及所述催收通话音频中的违约关键词；

拟合模块，用于通过极端梯度提升XGBoost模型，根据所述违约特征信息进行参数拟合，得到风险信息评估模型；

评估模块，用于根据所述风险信息评估模型对用户进行风险评估。

9.一种终端设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至7任一项所述的方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7任一项所述的方法的步骤。