CN113657993B

CN113657993B - 信用风险识别方法、装置、设备及存储介质

Info

Publication number: CN113657993B
Application number: CN202110957107.5A
Authority: CN
Inventors: 童阳; 伍勇
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2024-07-05
Anticipated expiration: 2041-08-19
Also published as: CN113657993A

Abstract

本申请涉及人工智能技术，提供一种信用风险识别方法、装置、设备及存储介质，该方法包括：获取待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；将用户资质数据输入至预先训练好的随机森林模型进行分类，得到第一信用风险等级；将信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，根据多个概率信息确定第二信用风险等级；根据用户标签数据和预设聚类算法，确定第三信用风险等级；根据第一信用风险等级、第二信用风险等级和第三信用风险等级，确定信用风险识别结果。本申请还涉及区块链，能够提高投保险用户进行信用风险识别的准确率。

Description

信用风险识别方法、装置、设备及存储介质

技术领域

本申请涉及智能决策的技术领域，尤其涉及一种信用风险识别方法、装置、设备及存储介质。

背景技术

随着互联网技术的不断发展，针对企业进行保险投保评估的技术也在不断的完善中，企业保险投保评估需要判断企业用户信用风险。2020年我国新增注册市场主体2735.4万家，截至2021年2月，我国共有在业/存续的市场主体1.44亿家。然而，虽然拥有庞大的市场主体基数和新增量，目前采取的判断企业用户信用风险的办法主要是以历史违约与否作为判断依据，例如查询企业征信报告来判断企业的信用风险等级，对于投保险企业的信用风险识别准确率较低。因此，如何有效提高企业进行投保险评估的信用风险识别准确率，成为了亟需解决的问题。

发明内容

本申请的主要目的在于提供一种信用风险识别方法、装置、设备及存储介质，旨在提高投保险用户进行信用风险识别的准确率。

第一方面，本申请提供一种信用风险识别方法，包括：

获取待投保用户的贷款历史数据，所述贷款历史数据包括所述待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；

将所述用户资质数据输入至预先训练好的随机森林模型进行分类，得到第一信用风险等级；

将所述信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，根据多个所述概率信息确定第二信用风险等级；

根据所述用户标签数据和预设聚类算法，确定第三信用风险等级；

根据所述第一信用风险等级、第二信用风险等级和第三信用风险等级，确定所述待投保用户的信用风险识别结果。

第二方面，本申请还提供一种信用风险识别装置，所述信用风险识别装置包括：

获取模块，用于获取待投保用户的贷款历史数据，所述贷款历史数据包括所述待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；

分类模块，用于将所述用户资质数据输入至预先训练好的随机森林模型进行分类，得到第一信用风险等级；

预测模块，用于将所述信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，根据多个所述概率信息确定第二信用风险等级；

聚类模块，用于根据所述用户标签数据和预设聚类算法，确定第三信用风险等级；

确定模块，用于根据所述第一信用风险等级、第二信用风险等级和第三信用风险等级，确定所述待投保用户的信用风险识别结果。

第三方面，本申请还提供一种计算机设备，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如上所述的信用风险识别方法的步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如上所述的信用风险识别方法的步骤。

本申请提供一种信用风险识别方法、装置、设备及存储介质，本申请通过获取待投保用户的贷款历史数据，贷款历史数据包括待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；将用户资质数据输入至预先训练好的随机森林模型进行分类，得到第一信用风险等级；将信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，根据多个概率信息确定第二信用风险等级；根据用户标签数据和预设聚类算法，确定第三信用风险等级；根据第一信用风险等级、第二信用风险等级和第三信用风险等级，确定待投保用户的信用风险识别结果。通过多维度的特征数据选取合适的模型和算法进行企业用户的信用风险等级的评估，避免了单一维度数据和模型算法缺陷造成信用风险评估的偏向性差异，能够提高投保险用户进行信用风险识别的准确率，合理规避企业借贷履约的安全风险。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种信用风险识别方法的步骤流程示意图；

图2为图1中的信用风险识别方法的子步骤流程示意图；

图3为本申请实施例提供的一种信用风险识别装置的示意性框图；

图4为图3中的信用风险识别装置的子模块的示意性框图；

图5为本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请实施例提供一种信用风险识别方法、装置、设备及存储介质。其中，该信用风险识别方法可应用于终端设备或服务器中，该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备；该服务器可以为单台的服务器，也可以为由多台服务器组成的服务器集群。以下以该信用风险识别方法应用于服务器为例进行解释说明。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种信用风险识别方法的步骤流程示意图。

如图1所示，该信用风险识别方法包括步骤S101至步骤S105。

步骤S101、获取待投保用户的贷款历史数据，贷款历史数据包括待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据。

其中，贷款历史数据为待投保用户在以往贷款时记录的历史数据，用户资质数据包括用户住址、成立日期、行业分类、企业规模、社保缴纳人数、纳税额等资质数据；信息变更数据包括企业信息变更数据和/或贷款信息更新数据，企业信息变更数据包括法人变更、股东变更等数据，贷款信息更新数据包括是否如期还款记录、申请新的贷款记录等数据；用户标签数据包括成立时间、营业规模、经营范围、业务需求等标签信息。

需要说明的是，待投保用户的贷款历史数据需要经用户授权才能获取，避免非法获取数据及用户隐私问题。示例性的，获取贷款历史数据之后，对贷款历史数据进行数据来源的合法性验证，合法性验证包括对贷款历史数据中的数据来源证明数据(例如含签名值或消息认证值)进行验证，并在合法性验证通过之后执行后续步骤。

在一实施例中，待投保用户的贷款历史数据可以存储于云端数据库、本地存储器或者外部存储设备，本实施例对此不做具体限定。示例性的，用户资质数据、信息变更数据和用户标签数据等相关数据可以部分或全部存储于区块链中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

示例性的，用户资质数据可以是企业在贷款前准备的用于进行放贷审查的企业资质数据，例如，用户资质数据包括用户住址地区、住址类型、成立日期、行业分类、近3个月法人股东变更人数、地址变更、企业规模、社保缴纳人数、纳税额、连续纳税月数、是否上市公司等指标数据。

示例性的，信息变更数据可以是企业在贷款进程中监测的企业登记信息的变更数据和贷款信息的更新数据。企业登记信息的变更数据包括法人变更、股东变更，地址变更、注册资本变更、司法案件信息更新等变更数据，贷款信息的更新数据包括是否如期还款、申请新的贷款记录、理财资产的变化等更新数据。

示例性的，用户标签数据可以是企业在贷款结束后生成的用于进行客户分类的标签特征数据，例如用户标签数据包括企业的成立时间、营业规模、营业利润、行业规模、经营范围、行业发展趋势、资本流动和资本结构等信息。

需要说明的是，现有的企业用户的信用风险识别方法大都是基于单一维度数据和单一模型算法进行的，导致投保险用户进行信用风险识别的准确率较低。而本申请实施例通过获取待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据，并选取合适的模型或者算法分别对用户资质数据、信息变更数据和用户标签数据进行处理，从而进行企业用户的信用风险等级的评估，能够有效提高投保险用户进行信用风险识别的准确率。

需要说明的是，本申请实施例中的待投保用户主要指的是处于保险投保审查过程的企业用户，或者是保险投保批准前需要进行信用风险识别的企业用户，在一些情况下，待投保用户也可以是自然人用户，例如申请进行保险投保的自然人用户，本实施例不做具体限定。

步骤S102、将用户资质数据输入至预先训练好的随机森林模型进行分类，得到第一信用风险等级。

需要说明的是，预先训练好的随机森林模型构造了多个决策树，当需要根据用户资质数据进行企业用户的信用风险识别时，随机森林模型中的每个决策树均输出该用户资质数据的预测结果，该预测结果包括多个信用风险等级，然后通过投票法从这些预测结果中选出最后的结果，得到第一信用风险等级，该训练好的随机森林模型可以准确地根据用户资质数据对待投保用户进行风险信用等级的分类。

在一实施例中，预先训练好的随机森林模型是根据多个企业用户的用户资质数据作为训练样本进行训练得到的，该随机森林模型指的是利用多棵决策树对训练样本进行训练并预测的一种分类器，随机森林模型中每棵决策树按照如下方式生长：如果训练样本中有N个样本，那么从这N个样本中有放回的抽样N次，得到N个抽样样本，该N个抽样样本用于建树；设M为抽样样本的特征数，从这M个特征中选择m(m<<M)个特征，对于每个节点分裂时，在这m个特征中选择最佳的分裂点进行分裂得到决策树，例如根据信息增益/信息增益比/基尼指数选择最好的特征进行分裂，决策树的输出结果为企业的信用风险等级。

需要说明的是，随机森林模型的训练初始是随机选择的特征指标，随着训练样本的导入，根据输出结果模型会进行随机树的修正和指标权重的自动调整，最终使得输出结果与预期结果一致，得到训练好的随机森林模型，预期结果可以根据实际情况进行设置。

在一实施例中，生成训练好的随机森林模型之后，对训练好的随机森林模型中的多棵树进行剪枝处理。从用户资质数据中选取权重大于预设权重的特征指标作为模型指标，并根据模型指标重新训练随机森林模型。例如在生成训练好的随机森林模型之后，从用户资质数据中选取累计占权重90％以上的特征指标作为模型指标重新训练随机森林模型，得到更新的随机森林模型。需要说明的是，选择权重较大的指标，剔除权重小的指标对随机树进行剪枝，可以很大程度优化随机森林模型的运算步骤和效率，且模型性能几乎不受影响，有利于提高信用风险识别的准确性。

在一实施例中，将用户资质数据输入至训练好的随机森林模型进行分类，得到第一信用风险等级之前，还包括：对用户资质数据进行数据清洗，得到第一用户资质数据；对第一用户资质数据进行数据结构化处理，得到第二用户资质数据；将第二用户资质数据输入至训练好的随机森林模型进行分类，得到第一信用风险等级。

需要说明的是，对用户资质数据进行数据清洗，可以精简用户资质数据中的多个指标特征，以除去重复记录和多余数据，并使剩余部分转换成预设的标准可接收格式，例如以企业用户的统一社会信用代码、企业名称、注册号等作为唯一识别号进行数据清洗，保留用户住址、成立日期、行业分类、企业规模、社保缴纳人数、纳税额、连续纳税月数、是否上市公司等数据指标，得到第一用户资质数据；对第一用户资质数据进行数据结构化处理，例如以关系型数据库的预设存储方式对数据清洗后的第一用户资质数据进行整理，形成一个企业用户的各项数据为关联关系的第二用户资质数据，作为结构化数据的第二用户资质数据可以使用关系型数据库来表示和存储，表现二维形式的数据，可以通过固有键值进行获取，有利于查询和修改等操作；将第二用户资质数据输入至训练好的随机森林模型进行分类，得到第一信用风险等级，有利于准确地对待投保用户进行风险信用等级的分类。

步骤S103、将信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，根据多个概率信息确定第二信用风险等级。

其中，信息变更数据包括企业信息变更数据和/或贷款信息更新数据，将信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，再由多个概率信息确定第二信用风险等级。需要说明的是，由于行业和企业类型等的差别，企业用户的信息变更数据存在不同程度的差异，因此，使用对数据完整度要求不高的梯度提升树(Gradient Boost Decision Tree，GBDT)模型进行风险类别的概率预测，有利于提高信用风险识别的准确性。

示例性的，风险类别包括低风险类别、中风险类别和高风险类别，信用风险等级包括第一风险等级至第九风险等级，每个风险类别可选的对应多个信用风险等级，信用风险等级越高表示企业信用违约可能性越高。

在一实施例中，假设f(x)代表着学习器的相关函数，f_t-1(x)代表着上一轮所得出的强学习器，可以用L(y，f_t-1(x))来表示损失函数，通过多个信息变更数据作为样本数据集，训练梯度提升树模型的目标便是找到弱学习器h_t(x)进而将损失函数L(y,f_t-1(x))＝L(y,f_t-1(x)+h_t(x))降到最小，得到训练好的梯度提升树模型。需要说明的是，由于信息变更数据是离散的样本，因此梯度提升树模型的输出不是连续值，因此可采用逻辑回归的对数似然损失函数的方法，用类别的预测概率值和真实概率值之间的差值来拟合模型损失，并根据模型损失更新梯度提升树模型的模型参数，得到的梯度提升树模型的信用风险识别的准确性更高。

在一实施例中，信息变更数据包括企业信息变更数据和贷款信息更新数据；将信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，包括：根据企业信息变更数据和贷款信息更新数据，生成数据样本对；将数据样本对输入至训练好的梯度提升树模型进行处理，得到多个风险类别以及每个风险类别对应的概率信息。

需要说明的是，通过企业信息变更数据和贷款信息更新数据组成训练样本对对梯度提升树模型进行训练，直至梯度提升树模型收敛，得到训练好的梯度提升树模型；将数据样本对输入至训练好的梯度提升树模型进行处理，得到多个风险类别以及每个风险类别对应的概率信息，有利于准确地确定第二信用风险等级。

示例性的，训练样本数据集T＝{(x1,y1),(x2,y2),…,(xn,yn)}，其中xn表示企业信息变更数据，yn表示贷款信息更新数据，则损失函数为L((y,f(x)))＝ln(1+exp(-2yf(x)))，其中y＝{-1,1}，分类树的输出为f(x)。具体训练过程如下：对预先存储的梯度提升树模型进行初始化；将样本训练数据集中的多个训练样本输入至初始化的梯度提升树模型，计算得到多个训练样本的第一残差值；根据该多个第一残差值和训练样本中的企业信息变更数据，生成多个概率残差；将多个概率残差拟合为一个分类树，并确定分类树的第二残差值；根据第二残差值更新分类树，得到训练好的梯度提升树模型。

在一实施例中，根据多个概率信息确定第二信用风险等级，包括：从多个概率信息中确定数值最大的目标概率信息，并确定目标概率信息对应的目标风险类别；根据目标概率信息，从目标风险类别对应的多个信用风险等级中确定第二信用风险等级。需要说明的是，确定从多个概率信息中选取最大的概率信息对应的目标风险类别，目标风险类别包括多个信用风险等级，根据目标概率信息从多个信用风险等级中确定一个信用风险等级，得到第二信用风险等级。

示例性的，风险类别包括低风险类别、中风险类别和高风险类别，低风险类别与第一概率区间相对应、中风险类别与第二概率区间相对应，高风险类别与第三概率区间相对应，第一概率区间、第二概率区间和第三概率区间可以是连续的。训练好的梯度提升树模型输出多个风险类别对应的概率信息，从中确定最大的概率信息位于第二概率区间，则可以确定目标风险类别为中风险类别，而中风险类别对应第四风险等级、第五风险等级和第六风险等级这三个信用风险等级，每个信用风险等级对应第二概率区间中的一个子概率区间，若确定最大的概率信息位于第五风险等级对应的子概率区间，则可确定第二信用风险等级为第五风险等级。

在一实施例中，也可以直接从多个概率信息中选取最大的概率信息对应的目标风险等级，从而将该目标风险等级作为第二信用风险等级。例如，从多个概率信息中确定最大的概率信息位于第五风险等级对应的概率区间，则确定第二信用风险等级为第五风险等级。

步骤S104、根据用户标签数据和预设聚类算法，确定第三信用风险等级。

针对于不同行业、不同领域的企业用户，采样企业用户的用户标签数据，例如成立时间、营业规模、经营范围、业务需求、行业发展趋势、资本流动和资本结构等标签信息，再利用聚类方法实现企业用户自然分类，以确定不同行业、不同领域、不同营业规模的企业的经营风险，得到第三信用风险等级。

在一实施例中，如图2所示，步骤S104包括：子步骤S1041至子步骤S1043。

子步骤S1041、对用户标签数据进行分词处理，以获取标签特征数据集。

其中，标签特征数据集包括企业用户的多个标签画像特征，分词处理方式例如为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法，本实施例不做具体限定。

需要说明的是，通过对用户标签数据进行分词处理，可以最大程度地挖掘用户标签数据，有利于根据标签特征数据集确定待投保用户的营业状态，并确定待投保用户的经营风险。

子步骤S1042、根据预设聚类算法对标签特征数据集进行聚类处理，得到聚类结果。

其中，将标签特征数据集代入到预设聚类算法进行聚类运算，得到聚类结果，预设聚类算法可以为具有噪声应用的基于密度的空间聚类(Density-Based SpatialClustering of Application with Noise，DBSCAN)算法，当然也可以为基于层次的聚类算法、基于划分的聚类算法或者基于模型的聚类算法等，再根据聚类结果可以准确地确定第三信用风险等级。

在一实施例中，根据预设聚类算法计算标签特征数据集中的多个标签特征数据的位置坐标；根据多个标签特征数据的位置坐标，在预设坐标系中生成多个节点；根据多个节点的位置坐标，计算每两个节点之间的欧式距离；根据每两个节点之间的欧式距离，对多个节点进行聚类，得到至少一个聚类簇。其中，每个节点表示一个标签特征数据，聚类结果可以是一个或多个聚类簇，欧式距离小于或等于预设距离的两个节点可以合并至一个聚类簇，一个聚类簇可以包括多个节点，密度较小的聚类会被划分为多个聚类簇，密度较大且离得较近的类会被合并成一个聚类簇。通过该预设聚类算法可以清晰地对标签特征数据集中的多个标签特征数据进行聚类，得到至少一个聚类簇，从而能够根据至少一个聚类簇确定待投保用户的在经营风险方面的第三信用风险等级。

子步骤S1043、根据聚类结果确定第三信用风险等级。

在一实施例中，确定聚类结果与预设的多个样本聚类结果中的每个样本聚类结果之间的匹配度；从多个匹配度中选取目标匹配度，并将目标匹配度对应的信用风险等级作为第三信用风险等级。需要说明的是，根据聚类结果与样本聚类结果之间的匹配度，确定第三信用风险等级，样本聚类结果可以由用户根据实际情况进行设置，处于不同信用风险等级的企业用户存在对应的样本聚类结果，将标签特征数据集进行聚类运算得到的聚类结果与多个样本聚类结果进行匹配，从多个匹配度中选取最大匹配度，并确定最大匹配度对应的样本聚类结果的目标企业用户，该目标企业用户的信用风险等级作为第三信用风险等级。

示例性的，在多个企业用户贷款后可以知晓优质企业用户和劣质企业用户的样本聚类结果，基于聚类结果、多个优质企业用户和劣质企业用户的样本聚类结果进行匹配，如果待投保用户的聚类结果与优质的用户标签特征的样本聚类结果匹配度更高就分类为优质用户，反之为劣质用户。当然，优质用户和劣质用户可以设置不同的信用风险等级，例如评价为第一风险等级的企业用户为最优质用户，评价为第九风险等级的企业用户为最劣质用户。

步骤S105、根据第一信用风险等级、第二信用风险等级和第三信用风险等级，确定待投保用户的信用风险识别结果。

根据第一信用风险等级、第二信用风险等级和第三信用风险等级，确定待投保用户的信用风险识别结果。其中，信用风险识别结果可以为信用风险等级或者信用风险分数，需要说明的是，通过多维度的特征数据选取合适的模型和算法进行企业用户的信用风险等级的评估，各维度间相互补充，最终形成综合的信用风险识别结果，可以有效提高企业进行保险投保评估的信用风险识别准确率，避免了单一维度数据和模型算法缺陷造成信用风险评估的偏向性差异，能够提高投保险用户进行信用风险识别的准确率，一定程度上规避企业借贷履约的安全风险。

在一实施例中，根据第一信用风险等级、第二信用风险等级和第三信用风险等级，确定待投保用的信用风险等级。需要说明的是，信用风险等级按照从低到高的等级分布，等级越高信用风险越大，反之亦可，本实施例不做具体限定。

示例性的，信用风险识别结果为信用风险等级，第一信用风险等级、第二信用风险等级和第三信用风险等级的取值均在第一等级至第十等级的整数区间内。计算第一信用风险等级、第二信用风险等级和第三信用风险等级的加权平均值，并对加权平均值进行取整运算得到待投保用户的信用风险等级。其中，加权系数可以灵活设置。

在一实施例中，根据第一信用风险等级和第一预设系数，计算第一信用风险分数；根据第二信用风险等级和第二预设系数，计算第二信用风险分数；根据第三信用风险等级和第三预设系数，计算第三信用风险分数；根据第一信用风险分数、第二信用风险分数和第三信用风险分数，计算待投保用户的信用风险分数。其中，第一预设系数、第二预设系数和第三预设系数可以根据实际情况进行设置，第一预设系数、第二预设系数与第三预设系数之和可以为1。例如，第一预设系数、第二预设系数和第三预设系数均为1/3。求取第一信用风险分数、第二信用风险分数与第三信用风险分数的平均值，得到待投保用户的信用风险分数。需要说明的是，信用风险分数的求取方法不同于加权平均法，能够更加准确地计算信用风险分数，该信用风险分数按照从低到高的等级分布，分数越高信用风险越大，反之亦可，本实施例不做具体限定。

示例性的，若第一预设系数、第二预设系数和第三预设系数均为1/3，第一信用风险等级为3，第二信用风险等级为4，第三信用风险等级为5，则对应的计算第一信用风险分数为1，第二信用风险分数为4/3，第三信用风险分数为5/3，对第一信用风险分数、第二信用风险分数和第三信用风险分数进行平均值计算，得到待投保用户的信用风险分数为1.33。

在一实施例中，确定待投保用户的信用风险识别结果之后，根据信用风险识别结果发出信用风险预警，例如信用风险等级大于或等于预设风险等级，或者信用风险分数大于或等于预设风险分数，则生成并输出风险预警信息，以便能够根据风险预警信息对高风险用户进行管理，满足系统即时调整企业用户的贷款额和贷款利率、时长等，规避企业借贷履约的安全风险。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。本申请实施例应用的人工智能软件技术主要包括自然语言处理技术(例如分词处理)以及机器学习/深度学习(例如随机森林模型和梯度提升树模型的训练和应用)等方向。

上述实施例提供的信用风险识别方法，通过获取待投保用户的贷款历史数据，贷款历史数据包括待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；将用户资质数据输入至预先训练好的随机森林模型进行分类，得到第一信用风险等级；将信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，根据多个概率信息确定第二信用风险等级；根据用户标签数据和预设聚类算法，确定第三信用风险等级；根据第一信用风险等级、第二信用风险等级和第三信用风险等级，确定待投保用户的信用风险识别结果。通过多维度的特征数据选取合适的模型和算法进行企业用户的信用风险等级的评估，避免了单一维度数据和模型算法缺陷造成信用风险评估的偏向性差异，能够提高投保险用户进行信用风险识别的准确率，合理规避企业借贷履约的安全风险。

请参照图3，图3为本申请实施例提供的一种信用风险识别装置的示意性框图。

如图3所示，该信用风险识别装置200，包括：获取模块201、分类模块202、预测模块203、聚类模块204和确定模块205。

获取模块201，用于获取待投保用户的贷款历史数据，所述贷款历史数据包括所述待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；

分类模块202，用于将所述用户资质数据输入至预先训练好的随机森林模型进行分类，得到第一信用风险等级；

预测模块203，用于将所述信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息，根据多个所述概率信息确定第二信用风险等级；

聚类模块204，用于根据所述用户标签数据和预设聚类算法，确定第三信用风险等级；

确定模块205，用于根据所述第一信用风险等级、第二信用风险等级和第三信用风险等级，确定所述待投保用户的信用风险识别结果。

在一个实施例中，如图4所示，聚类模块204包括：

获取子模块2041，用于对所述用户标签数据进行分词处理，以获取标签特征数据集；

聚类子模块2042，用于根据预设聚类算法对所述标签特征数据集进行聚类处理，得到聚类结果；

确定子模块2043，用于根据所述聚类结果确定第三信用风险等级。

在一个实施例中，聚类模块204还用于：

根据预设聚类算法计算所述标签特征数据集中的多个标签特征数据的位置坐标；

根据多个所述标签特征数据的位置坐标，在预设坐标系中生成多个节点；

根据多个所述节点的位置坐标，计算每两个所述节点之间的欧式距离；

根据每两个所述节点之间的欧式距离，对多个所述节点进行聚类，得到至少一个聚类簇。

在一个实施例中，聚类模块204还用于：

确定所述聚类结果与预设的多个样本聚类结果中的每个样本聚类结果之间的匹配度；

从多个所述匹配度中选取目标匹配度，并将所述目标匹配度对应的信用风险等级作为第三信用风险等级。

在一个实施例中，所述信息变更数据包括企业信息变更数据和贷款信息更新数据；预测模块203还用于：

根据所述企业信息变更数据和贷款信息更新数据，生成数据样本对；

将所述数据样本对输入至训练好的梯度提升树模型进行处理，得到多个风险类别以及每个所述风险类别对应的概率信息。

预测模块203还用于：

从多个所述概率信息中确定数值最大的目标概率信息，并确定所述目标概率信息对应的目标风险类别；

根据所述目标概率信息，从所述目标风险类别对应的多个信用风险等级中确定第二信用风险等级。

在一个实施例中，分类模块202还用于：

对所述用户资质数据进行数据清洗，得到第一用户资质数据；

对所述第一用户资质数据进行数据结构化处理，得到第二用户资质数据；

将所述第二用户资质数据输入至训练好的随机森林模型进行分类，得到第一信用风险等级。

在一个实施例中，确定模块205还用于：

根据所述第一信用风险等级和第一预设系数，计算第一信用风险分数；

根据所述第二信用风险等级和第二预设系数，计算第二信用风险分数；

根据所述第三信用风险等级和第三预设系数，计算第三信用风险分数；

根据所述第一信用风险分数、第二信用风险分数和第三信用风险分数，计算所述待投保用户的信用风险分数。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块及单元的具体工作过程，可以参考前述信用风险识别方法实施例中的对应过程，在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5，图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为服务器或终端设备。

如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括存储介质和内存储器，存储介质可以是非易失性的，也可以是易失性的。

存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种信用风险识别方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种信用风险识别方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

在一个实施例中，所述处理器在实现所述根据所述用户标签数据和预设聚类算法，确定第三信用风险等级时，用于实现：

对所述用户标签数据进行分词处理，以获取标签特征数据集；

根据预设聚类算法对所述标签特征数据集进行聚类处理，得到聚类结果；

根据所述聚类结果确定第三信用风险等级。

在一个实施例中，所述处理器在实现所述根据预设聚类算法对所述标签特征数据集进行聚类处理，得到聚类结果时，用于实现：

在一个实施例中，所述处理器在实现所述根据所述聚类结果确定第三信用风险等级时，用于实现：

在一个实施例中，所述信息变更数据包括企业信息变更数据和贷款信息更新数据；所述处理器在实现所述将所述信息变更数据输入至训练好的梯度提升树模型进行预测，得到多个风险类别对应的概率信息时，用于实现：

将所述数据样本对输入至训练好的梯度提升树模型进行处理，得到多个风险类别以及每个所述风险类别对应的概率信息；

所述处理器在实现所述根据多个所述概率信息确定第二信用风险等级时，用于实现：

在一个实施例中，所述处理器在实现所述将所述用户资质数据输入至训练好的随机森林模型进行分类，得到第一信用风险等级之前，还用于实现：

在一个实施例中，所述处理器在实现所述根据所述第一信用风险等级、第二信用风险等级和第三信用风险等级，确定所述待投保用户的信用风险识别结果时，用于实现：

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述计算机设备的具体工作过程，可以参考前述信用风险识别方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序中包括程序指令，所述程序指令被执行时所实现的方法可参照本申请信用风险识别方法的各个实施例。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种信用风险识别方法，其特征在于，包括：

获取待投保用户的贷款历史数据，所述贷款历史数据包括所述待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；所述待投保用户包括处于保险投保审查过程的企业用户，所述用户资质数据包括企业在贷款前准备的用于进行放贷审查的企业资质数据，所述信息变更数据包括企业信息变更数据和贷款信息更新数据，所述用户标签数据包括企业在贷款结束后生成的用于进行客户分类的标签特征数据；

根据所述企业信息变更数据和贷款信息更新数据，生成数据样本对；将所述数据样本对输入至训练好的梯度提升树模型进行处理，得到多个风险类别以及每个所述风险类别对应的概率信息；

从多个所述概率信息中确定数值最大的目标概率信息，并确定所述目标概率信息对应的目标风险类别；根据所述目标概率信息，从所述目标风险类别对应的多个信用风险等级中确定第二信用风险等级；

对所述用户标签数据进行分词处理，以获取标签特征数据集；根据预设聚类算法对所述标签特征数据集进行聚类处理，得到聚类结果；根据所述聚类结果确定第三信用风险等级；

根据所述第一信用风险等级、第二信用风险等级和第三信用风险等级，确定所述待投保用户的信用风险识别结果，其中，所述信用风险识别结果包括信用风险等级或者信用风险分数；

所述梯度提升树模型的训练过程包括：

对预先存储的梯度提升树模型进行初始化；将样本训练数据集中的多个训练样本输入至初始化的梯度提升树模型，计算得到多个训练样本的第一残差值；根据所述多个第一残差值和训练样本中的企业信息变更数据，生成多个概率残差；将所述多个概率残差拟合为一个分类树，并确定所述分类树的第二残差值；根据所述第二残差值更新分类树，得到训练好的梯度提升树模型；所述训练样本数据集T＝{(x1，y1)，(x2，y2)，…，(xn，yn)}，其中xn表示企业信息变更数据，yn表示贷款信息更新数据，则损失函数为L((y，f(x)))＝ln(1+exp(-2yf(x)))，其中y＝{-1,1}，所述分类树的输出为f(x)。

2.如权利要求1所述的信用风险识别方法，其特征在于，所述根据预设聚类算法对所述标签特征数据集进行聚类处理，得到聚类结果，包括：

3.如权利要求1所述的信用风险识别方法，其特征在于，所述根据所述聚类结果确定第三信用风险等级，包括：

4.如权利要求1-3中任一项所述的信用风险识别方法，其特征在于，所述将所述用户资质数据输入至训练好的随机森林模型进行分类，得到第一信用风险等级之前，还包括：

5.如权利要求1-3中任一项所述的信用风险识别方法，其特征在于，所述根据所述第一信用风险等级、第二信用风险等级和第三信用风险等级，确定所述待投保用户的信用风险识别结果，包括：

6.一种信用风险识别装置，其特征在于，所述信用风险识别装置包括：

获取模块，用于获取待投保用户的贷款历史数据，所述贷款历史数据包括所述待投保用户在以往贷款时记录的用户资质数据、信息变更数据和用户标签数据；所述待投保用户包括处于保险投保审查过程的企业用户，所述用户资质数据包括企业在贷款前准备的用于进行放贷审查的企业资质数据，所述信息变更数据包括企业信息变更数据和贷款信息更新数据，所述用户标签数据包括企业在贷款结束后生成的用于进行客户分类的标签特征数据；

预测模块，用于根据所述企业信息变更数据和贷款信息更新数据，生成数据样本对；将所述数据样本对输入至训练好的梯度提升树模型进行处理，得到多个风险类别以及每个所述风险类别对应的概率信息；

所述预测模块，还用于从多个所述概率信息中确定数值最大的目标概率信息，并确定所述目标概率信息对应的目标风险类别；根据所述目标概率信息，从所述目标风险类别对应的多个信用风险等级中确定第二信用风险等级；

确定模块，用于根据所述第一信用风险等级、第二信用风险等级和第三信用风险等级，确定所述待投保用户的信用风险识别结果，其中，所述信用风险识别结果包括信用风险等级或者信用风险分数；

所述预测模块，还用于对预先存储的梯度提升树模型进行初始化；将样本训练数据集中的多个训练样本输入至初始化的梯度提升树模型，计算得到多个训练样本的第一残差值；根据所述多个第一残差值和训练样本中的企业信息变更数据，生成多个概率残差；将所述多个概率残差拟合为一个分类树，并确定所述分类树的第二残差值；根据所述第二残差值更新分类树，得到训练好的梯度提升树模型；所述训练样本数据集T＝{(x1，y1)，(x2，y2)，…，(xn，yn)}，其中xn表示企业信息变更数据，yn表示贷款信息更新数据，则损失函数为L((y，f(x)))＝ln(1+exp(-2yf(x)))，其中y＝{-1,1}，所述分类树的输出为f(x)。

7.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如权利要求1至5中任一项所述的信用风险识别方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如权利要求1至5中任一项所述的信用风险识别方法的步骤。