CN117764706A

CN117764706A - 一种风险识别方法、装置及电子设备

Info

Publication number: CN117764706A
Application number: CN202311532649.3A
Authority: CN
Inventors: 万世想; 杨青
Original assignee: Du Xiaoman Technology Beijing Co Ltd
Current assignee: Du Xiaoman Technology Beijing Co Ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-03-26

Abstract

本申请实施例提供了一种风险识别方法、装置及电子设备，其中，该方法通过获取待识别用户的风险观测特征，基于风险观测特征提取高维征信特征、用户画像特征以及平台交互特征，借助预设的风险迁移识别模型，确定出与该待识别用户的风险观测特征相似度满足预设相似度条件的相似用户，根据该相似用户的授信额度对逾期率的影响程度，确定待识别用户的目标风险额度。由于本申请所选取的风险观测特征包含了可能产生风险迁移的各项因素，且基于在风险迁移情况下相似用户的授信额度对逾期率的影响程度，确定目标风险额度，故选用本申请实施例所确定得到的待识别用户的目标风险额度更为精准，有效减少了风险迁移对信贷风险的影响。

Description

一种风险识别方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种风险识别方法、装置及电子设备。

背景技术

在互联网金融领域，常通过智能化的评估模型，利用大数据、人工智能等技术手段来分析和预测借款人的信用风险以及可偿还所用信贷产品的能力，进而对信贷产品的风险进行精准把控以及精准额度评估。

相关技术中，信贷产品风险可通过借款人的信用评分来确定，其中，信用评分是根据借款人的信用历史、还款能力计算得到的一个分数。通常认为信用评分较高的借款人的信用风险低，可向该借款人开放更高的可借额度。

然而，客户在不同生命周期、或者在不同的信用产品之间的额度变换会引起借款人原本评估的风险发生变化，此类潜在的风险迁移容易导致借助现有的信贷风险评估方法精准性较差，进而导致信贷产品风险进一步增高。

发明内容

有鉴于此，本申请实施例提供了一种风险识别方法、装置及电子设备，提高借贷风险评估精度，进一步减少风险迁移对信贷风险的影响。

第一方面，本申请实施例提供了一种风险识别方法，其中，所述方法包括：

获取待识别用户的风险观测特征，并基于所述风险观测特征提取高维征信特征、用户画像特征、平台交互特征；其中，所述高维征信特征表征所述待识别用户的历史借贷情况，所述用户画像特征表征所述待识别用户预先被评估得到的基础信贷信息，所述平台交互特征表征所述待识别用户在各借贷平台上的交易情况；

基于所述高维征信特征、所述用户画像特征以及所述平台交互特征，借助预设的风险迁移识别模型，确定出与所述待识别用户的风险观测特征相似度满足预设相似度条件的相似用户；

根据所述相似用户的授信额度对逾期率的影响程度，确定所述待识别用户的目标风险额度。

结合第一方面，在第二种可能的实施例中，所述预设的风险迁移识别模型预先通过如下方式得到：

获取历史授信数据，基于所述历史授信数据构建初始因果学习模型，其中，所述历史授信数据包括各用户的历史风险观测特征X、各所述用户的历史授信额度Ta以及各所述用户的历史逾期情况Y；

基于各所述用户的历史风险观测特征X与各所述用户的历史授信额度Ta、各所述用户的历史逾期情况Y之间存在的因果关系，对所述初始因果学习模型进行训练；

将训练后网络参数满足预设参数条件的因果学习模型，确定为所述预设的风险迁移识别模型。

结合第一方面的第二种可能的实施例，在第三种可能的实施例中，所述初始因果学习模型包括第一子模型、第二子模型，所述第一子模型由若干全连接层组成的共享层，所述第二子模型与所述第一子模型共享所述共享层，所述方法还包括：

将所述历史风险观测特征X输入至所述第一子模型中，由所述共享层基于所述历史风险观测特征X提取学习倾向额度Tb与各所述用户的稠密语义特征；其中，所述用户的稠密语义特征包括工具变量特征I、混淆变量特征C与调节变量特征A；所述工具变量特征I与所述历史授信额度Ta之间存在因果关系，所述混淆变量特征C与所述历史授信额度Ta、所述历史逾期情况Y之间存在因果关系，所述调节变量特征A与所述历史逾期情况之间存在因果关系；

所述基于各所述用户的历史风险观测特征X与各所述用户的历史授信额度Ta、各所述用户的历史逾期情况Y之间存在的因果关系，对所述初始因果学习模型进行训练，包括：

基于各所述用户的工具变量特征I、混淆变量特征C与调节变量特征A与所述历史授信额度Ta、所述历史逾期情况Y之间存在的因果关系，对所述第一子模型的网络参数进行调整，直至所述第一子模型的网络参数满足所述预设参数条件；

基于所述历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与所述历史逾期情况Y之间的单调性关系对所述第二子模型进行随机概率训练，直至所述第二子模型的网络参数满足所述预设参数条件。

结合第一方面的第三种可能的实施例，在第四种可能的实施例中，所述基于所述历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与所述历史逾期情况Y之间的单调性关系对所述第二子模型进行随机概率训练包括：

将所述额度差△T与所述历史逾期情况Y输入至所述第二子模型中，由所述共享层提取与所述历史逾期情况Y有关的第一目标特征；

基于所述第一目标特征与所述额度差△T进行特征拼接，得到第二目标特征；

利用所述第二子模型基于所述第二目标特征进行分类拟合，并基于预设真实样本的计算结果对所述第二子模型进行随机概率训练，以使所述第二子模型输出。

结合第一方面，在第五种可能的实施例中，所述基于所述高维征信特征、所述用户画像特征以及所述平台交互特征，借助预设的风险迁移识别模型，确定出与所述待识别用户的风险观测特征相似度满足预设相似度条件的相似用户，包括：

基于样本数据库中各样本用户的授信额度T与历史逾期情况Y，借助所述预设的风险迁移识别模型，计算出所述待识别用户为所述样本用户的条件下的条件希望估计值；

将最大的条件希望估计值对应的样本用户，确定为所述满足预设相似度条件的相似用户。

结合第一方面，在第六种可能的实施例中，所述方法还包括：

获取历史授信数据，其中，所述历史授信数据包括各用户的历史风险观测特征X、各所述用户的历史授信额度Ta以及各所述用户的历史逾期情况Y；

借助所述预设的风险迁移识别模型，基于所述历史授信数据，确定不同授信额度与逾期率之间的映射关系；

所述根据所述相似用户的授信额度对逾期率的影响程度，确定所述待识别用户的目标风险额度，包括：

基于所述不同授信额度与逾期率之间的映射关系，确定所述待识别用户在不同倾向额度下的逾期率。

第二方面，本申请实施例提供了一种风险识别装置，其中，所述装置包括：

数据预处理模块，用于获取待识别用户的风险观测特征，并基于所述风险观测特征提取高维征信特征、用户画像特征、平台交互特征；其中，所述高维征信特征表征所述待识别用户的历史借贷情况，所述用户画像特征表征所述待识别用户预先被评估得到的基础信贷信息，所述平台交互特征表征所述待识别用户在各借贷平台上的交易情况；

第一确定模块，用于基于所述高维征信特征、所述用户画像特征以及所述平台交互特征，借助预设的风险迁移识别模型，确定出与所述待识别用户的风险观测特征相似度满足预设相似度条件的相似用户；

第二确定模块，用于根据所述相似用户的授信额度对逾期率的影响程度，确定所述待识别用户的目标风险额度。

结合第二方面，在第二种可能的实施例中，所述数据预处理模块，还用于获取历史授信数据，基于所述历史授信数据构建初始因果学习模型，其中，所述历史授信数据包括各用户的历史风险观测特征X、各所述用户的历史授信额度Ta以及各所述用户的历史逾期情况Y；

所述装置还包括：模型训练模块，用于基于各所述用户的历史风险观测特征X与各所述用户的历史授信额度Ta、各所述用户的历史逾期情况Y之间存在的因果关系，对所述初始因果学习模型进行训练；将训练后网络参数满足预设参数条件的因果学习模型，确定为所述预设的风险迁移识别模型。

结合第二方面的第二种可能的实施例，在第三种可能的实施例中，所述初始因果学习模型包括第一子模型、第二子模型，所述第一子模型由若干全连接层组成的共享层，所述第二子模型与所述第一子模型共享所述共享层，所述模型训练模块具体用于：

结合第二方面的第三种可能的实施例，在第四种可能的实施例中，所述基于所述历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与所述历史逾期情况Y之间的单调性关系对所述第二子模型进行随机概率训练包括：

利用所述第二子模型基于所述第二目标特征进行分类拟合，并基于预设真实样本的计算结果对所述第二子模型进行随机概率训练，以使所述第二子模型输出结果与所述预设真实样本计算结果之间的差异满足预设差异范围。

结合第二方面，在第五种可能的实施例中，所述第一确定模块具体用于：

结合第二方面，在第六种可能的实施例中，所述数据预处理模块，还用于获取历史授信数据，其中，所述历史授信数据包括各用户的历史风险观测特征X、各所述用户的历史授信额度Ta以及各所述用户的历史逾期情况Y；

所述第一确定模块，还用于借助所述预设的风险迁移识别模型，基于所述历史授信数据，确定不同授信额度与逾期率之间的映射关系；

所述第二确定模块，还用于基于所述不同授信额度与逾期率之间的映射关系，确定所述待识别用户在不同倾向额度下的逾期率。

第三方面，本申请实施例提供了一种电子设备，其中，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行第一方面所述的风险识别方法。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行第一方面所述的风险识别方法。

本申请的有益效果：

本申请实施例提供了一种风险识别方法、装置及电子设备，其中，该方法通过获取待识别用户的风险观测特征，基于风险观测特征提取高维征信特征、用户画像特征以及平台交互特征，借助预设的风险迁移识别模型，确定出与该待识别用户的风险观测特征相似度满足预设相似度条件的相似用户，根据该相似用户的授信额度对逾期率的影响程度，确定待识别用户的目标风险额度。相较于传统的仅依据借款人的信用历史以及还款能力计算得到的信用评分向借款人开放对应的额度，本申请所选取的风险观测特征包含了可能产生风险迁移的各项因素，且基于在风险迁移情况下相似用户的授信额度对逾期率的影响程度，确定目标风险额度，故选用本申请实施例所确定得到的待识别用户的目标风险额度更为精准，有效减少了风险迁移对信贷风险的影响。

附图说明

在下面结合附图对于示例性实施例的描述中，本申请的更多细节、特征和优点被公开，在附图中：

图1示出了本申请实施例提供的风险识别方法的一种流程示意图；

图2示出了本申请实施例提供的风险观测特征提取的一种处理流程示意图；

图3示出了本申请实施例提供的预设的风险迁移识别模型的一种训练方法示意图；

图4示出了本申请实施例提供的预设的风险迁移识别模型的一种逻辑结构框架示意图；

图5示出了本申请实施例提供的风险识别方法的另一种流程示意图；

图6示出了本申请实施例提供的风险识别方法的另一种流程示意图；

图7示出了本申请实施例提供的风险识别装置的一种结构示意图；

图8示出了本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例，然而应当理解的是，本申请可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是，本申请的附图及实施例仅用于示例性作用，并非用于限制本申请的保护范围。

应当理解，本申请的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本申请中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本申请中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

如背景技术所描述的，现有技术中，常通过借款人的信用评分来确定该借款人使用该信贷产品时的风险，然后借助该信用评分确定放款给该借款人时的风险程度以及可放款的额度。作为一种示例，借款人申请使用信贷产品A，信贷机构在放款前，根据该借款人的信用历史(如征信报告或者历史借款记录)、借款人的收入情况确定的还款能力以及宏观经济下的信贷额度等等因素共同计算出该借款人当下的信用评分。若该信用评分高，则向该借款人开放较高的可借额度，过该信用评分低，则向该借款人开放较低的可借额度，甚至对于信用评分较低的，不向该借款人开放借款额度。

由于客户在不同生命周期、或者在不同的信用产品之间的额度变换会引起借款人原本评估的风险发生变化，比如借款人在向信贷产品A申请借款之前，刚向另一机构申请并使用了信贷产品B，而此笔申请信贷产品B的记录尚未在征信报告中更新，此时借款人的风险相较于未申请信贷产品B的状态而言，信贷风险发生了风险迁移，此时若仍按照未更新的征信报告计算得到的信用评分发放信贷产品A的借款，所评估得到的风险并不准确，并会导致信贷产品A的风险进一步增高。

有鉴于此，本申请实施例提供了一种风险识别方法、装置及电子设备，其中，该风险识别方法可应用于任一具备风险识别能力的电子设备中，包括但不限于个人移动终端、计算机或者服务器等。其中，在一些实施例中，本申请所提供的风险识别方法可如图1所示，包括如下几个步骤：

S11、获取待识别用户的风险观测特征，并基于风险观测特征提取高维征信特征、用户画像特征、平台交互特征。

其中，高维征信特征表征待识别用户的历史借贷情况，用户画像特征表征待识别用户预先被评估得到的基础信贷信息，平台交互特征表征待识别用户在各借贷平台上的交易情况。

S12、基于高维征信特征、用户画像特征以及平台交互特征，借助预设的风险迁移识别模型，确定出与待识别用户的风险观测特征相似度满足预设相似度条件的相似用户。

S13、根据相似用户的授信额度对逾期率的影响程度，确定待识别用户的目标风险额度。

选用本申请实施例，通过获取待识别用户的风险观测特征，基于风险观测特征提取高维征信特征、用户画像特征以及平台交互特征，借助预设的风险迁移识别模型，确定出与该待识别用户的风险观测特征相似度满足预设相似度条件的相似用户，根据该相似用户的授信额度对逾期率的影响程度，确定待识别用户的目标风险额度。相较于传统的仅依据借款人的信用历史以及还款能力计算得到的信用评分向借款人开放对应的额度，本申请所选取的风险观测特征包含了可能产生风险迁移的各项因素，且基于在风险迁移情况下相似用户的授信额度对逾期率的影响程度，确定目标风险额度，故选用本申请实施例所确定得到的待识别用户的目标风险额度更为精准，有效减少了风险迁移对信贷风险的影响。

下文将对上述步骤S11至步骤S13进行详细说明：

在步骤S11中，待识别用户是指需要进行风险识别的用户，在具体场景中，该待识别用户可以是指申请借贷的用户。在本申请所提供的预设的风险迁移识别模型的训练阶段，该待识别用户是指用于训练预设的风险迁移识别模型中的样本用户。其中，待识别用户的风险观测特征是用于表征影响该待识别用户的可以授予的信贷额度的各项因素。示例性的，待识别用户的风险观测特征可以是基于该待识别用户的征信报告所提取的与授信额度有关的数据特征。比如，该待识别用户近五年内是否存在使用信贷产品，或者该待识别用户所使用的信贷产品存在的逾期次数等等。

为了更为精准地对待识别用户所存在的风险进行全面地识别，在本申请实施例中，所获取的待识别用户的风险观测特征具体包括：高维征信特征表征待识别用户的历史借贷情况，用户画像特征表征待识别用户预先被评估得到的基础信贷信息，平台交互特征表征待识别用户在各借贷平台上的交易情况。

作为一种实施方式，高维征信特征包含待识别用户在各个正规信贷机构上产生的历史借贷行为、借贷记录和逾期情况，共高达四千多维。该高维征信特征经过特征筛选和特征组合之后，能够较为全面地反映该待识别用户的金融征信情况。

作为一种实施方式，用户画像特征包括该待识别用户经各种金融机构的风险评估后，各金融机构给出的基础信贷信息，包括该待识别用户预先被评估后的信用等级，可被授予信用额度等等信息。示例性的，比如待识别用户在金融机构A被评估后的信用等级是优，可被授予的信用额度为10万。在本申请实施例中，用户的画像特征可作为高维征信特征的有利补充，帮助金融机构全面刻画该待识别用户的用户画像。

作为一种实施方式，平台交互特征包括该待识别用户在各正规借贷平台上的交互数据，比如历史申请记录，历史被驳回申请的记录，历史授信次数等等。平台交互特征可全面地反映出该待识别用户的申请周期以及短期内的金融需求，进而侧面反映该待识别用户的现金流情况。

综上，高维度征信特征、用户画像特征以及平台交互特征囊括了各项可能会对授信额度以及授信后的逾期率产生影响的影响因素。为了精准识别该风险观测特征中哪些特征会对授信额度产生影响，哪些特征会对授信后的逾期率产生影响，在一些实施例中，在执行步骤S11时，通过语义分析模型，基于待识别用户的风险观测特征分别提取出高维征信特征、用户画像特征以及平台交互特征后，再基于该语义分析模型从高维征信特征、用户画像特征以及平台特征中提取出用户的稠密语义特征。该用户的稠密语义特征中包括工具变量特征I、混淆变量特征C与调节变量特征A。

其中，如图2所示，工具变量特征I仅与历史授信额度Ta之间存在因果关系，混淆变量特征C与历史授信额度Ta、历史逾期情况Y之间存在因果关系，调节变量特征A仅与历史逾期情况Y之间存在因果关系。其中，历史授信额度Ta与历史逾期情况Y之间存在关联关系，具体的，历史逾期情况Y表示用户在授信额度Ta下是否存在逾期表现。比如，若Y＝0|Ta＝150000，表征用户在授信额度15万的情况下，未产生逾期，再或者，Y＝1|Ta＝250000，表征用户在授信额度25万的情况下产生了逾期。

在本申请实施例中，工具变量特征I用于表征风险观测特征中只会对授信额度产生影响的因素，比如，借款需求、个人收入与负债、竞争信贷产品发放的额度、以及一些政策助力等等。调节变量A用于表征风险观测特征中仅会对逾期情况产生影响的因素，比如宏观环境是经济增长还是经济衰退，通胀或通缩，再比如个人的消费习惯是否挥金如土或谨慎消费，或者再比如个人的职业是否为高薪职业，职位是否为高级职员等等。混淆变量特征C用于表征风险观测特征中既会对授信额度产生影响，又会对逾期情况产生影响的因素，比如历史信用情况是否在借贷额度内发生过逾期，偿还能力可支持发放的最大借贷额度以及当前所处的行业环境是否良好等等。

在一些实施例中，可将风险观测特征X输入至预设的风险迁移识别模型中，由该预设的风险迁移识别模型自动提取出稠密语义特征，然后从稠密语义特征中剥离出工具变量特征I、混淆变量特征C以及调节变量特征A，借助剥离得到的工具变量特征I、混淆变量特征C以及调节变量A进一步获取风险观测特征X与授信额度T、逾期风险Y之间存在的因果关系，进一步有助于借助该因果关系获取精准的目标风险额度。

其中，在一些实施例中，可如图3所示，该预设的风险迁移识别模型预先通过如下方式训练得到：

S101、获取历史授信数据，基于历史授信数据构建初始因果学习模型。

其中，历史授信数据包括各用户的历史风险观测特征X、各用户的历史授信额度Ta以及各用户的历史逾期情况Y。

S102、基于各用户的历史风险观测特征X与各用户的历史授信额度Ta、各用户的历史逾期情况Y之间存在的因果关系，对初始因果学习模型进行训练。

S103、将训练后网络参数满足预设参数条件的因果学习模型，确定为预设的风险迁移识别模型。

如前文描述的历史风险观测特征X中包括了用户的高维征信特征、用户画像特征以及平台交互特征，其中，该高维征信特征中包括历史授信额度以及历史逾期情况。基于此，在执行步骤S101时，获取历史授信数据可以是直接获取数据库中存储的各老用户产生的历史风险观测特征，然后从历史风险观测特征中提取出各用户的历史授信额度Ta与各用户的历史逾期情况Y。作为另一种实施方式，各用户的历史授信数据按照历史风险观测特征、历史授信额度Ta与历史逾期情况Y分别存储，在执行步骤S101时，可从不同数据对应的存储空间中分别获取历史观测特征X、历史授信额度Ta以及历史逾期情况Y，具体的获取方式可根据实际场景灵活选择，本申请不作严格限定。

在一些实施例中，步骤S101中的初始因果学习模型的逻辑架构可如图4所示，主要包括两个部分：

第一子模型(如图4中非虚线框内所示的结构)、第二子模型(如图4中虚线框中所示的结构)。其中，初始因果学习模型中的第一子模型与第二子模型的参数均为初始参数，需要结合训练样本数据进行训练，基于训练结果不断调整，直至训练得到的因果学习模型输出的结果与训练样本数据中标注的标签之间的差异落入预设差异范围为止。

作为一种实施方式，第一子模型是由若干全连接层组成的共享层构建而成的神经网络模型，即第一子模型是由若干全连接层组成的共享层，第二子模型与该第一子模型共享该共享层。此时，如图4所示，用户的风险观测特征X输入至第一子模型后，由该第一子模型中的共享层对风险观测特征X进行特征提取，提取得到学习倾向额度Tb以及各用户的稠密语义特征embedding。这个过程中间，还基于该稠密语义特征提取出稠密语义特征中包括的工具变量特征I、混淆变量特征C与调节变量特征A，进而实现从稠密语义中剥离出I、C、A三大变量。

其中，如图4所述，并结合上述有关变量特征I、C、A的描述，在本申请实施例中，工具变量特征I与历史授信额度Ta之间存在因果关系，混淆变量特征C与历史授信额度Ta、历史逾期情况Y之间存在因果关系，调节变量特征A与历史逾期情况之间存在因果关系。

在一些实施例中，第一子模型本质是回归模型，因此，在对第一子模型进行训练的过程中，可基于剥离出的I、C、A三大变量与逾期情况Y之间的因果关系，对该回归模型进行训练，从工具变量特征I中进一步提取出对模型输出学习倾向额度Tb有影响的特征，然后接入mean-square loss(一种损失函数)进行不断调整参数训练，直至第一子模型的网络参数满足预设的参数条件。其中，该预设的参数条件是第一子模型能够完成回归拟合。

如图4所示，第二子模型为虚线框中的网络模型，该第二子模型的输入为倾向额度Tb、授信额度Ta以及稠密语义特征embedding。其中，基于输入的倾向额度Tb与授信额度Ta之间的额度差△T，再由第一子模型中的共享层提取出稠密语义特征中对逾期情况Y有关的特征，将该特征与额度差△T拼接组成新的特征，然后将拼接得到的新的特征接入cross-entropy loss(另一种损失函数)完成分类拟合。

整个过程本质是基于该第二子模型，不断分类拟合出额度差△T与逾期情况Y之间存在的因果关系。过程中，基于历史授信额度Ta与预设倾向额度Tb之间的额度差△T，与历史逾期情况Y之间的单调性关系对第二子模型进行随机概率训练，直至第二子模型的网络参数满足预设参数条件，此时，该预设的参数条件为第一子模型能够完成回归拟合的同时，第二子模型能够完成分类拟合。

可结合下面的例子理解本申请实施例提供的预设的风险识别模型的运算原理：

假设倾向额度Tb为150000～300000，授信额度Ta为200000，需要分析出向该用户发放15万～30万的信用贷款时，该用户的逾期风险概率Y，则将该用户的风险观测特征X输入至第一子模型中，由第一子模型对风险观测特征X进行特征提取，提取出与逾期风险概率Y有关的调整变量特征A、混淆变量特征C，提取与授信额度T有关的混淆特征变量C与工具变量特征I，然后基于提取得到的特征I、C、A，确定出可以授权的倾向额度Tb，进一步借助第二子模型计算出该倾向额度Tb下用户可能逾期的概率Y。

其中，该预设的风险迁移识别模型的运算原理主要依赖于潜在输出框架作为核心理论依据，该潜在输出框架包含了因果推断的核心概念和假设。具体的，若历史授信数据库中包含N条历史授信数据，基于此N条历史授信数据进行数据划分，得到实验组与对照组，其中，实验组中包括M条历史授信数据，N-M条则为参照组中的历史授信数据。以二值干预的方式，计算出T＝0或T＝1(其中T＝0表示向申请借贷的用户发放授信额度Ta，T＝1表示向申请借贷的用户发放倾向额度Tb)，借贷用户的历史授信数据中的历史风险观测特征用X表示，逾期风险情况用Y表示(其中，Y＝0表明不逾期，Y＝1表明逾期)。此时可基于如下公式计算出整个实验组或者对照组的逾期风险均值ATE(average treatment effect)：

ATE＝E[Y(Tb)-Y(Ta)]

此公式的物理含义是指：整组逾期风险均值＝(整组中各用户在发放倾向额度Tb时逾期风险—整组中各用户在发放授信额度Ta时逾期风险)/整组的用户数。其中，ATE反映的是整体实验样本的平均逾期风险均值。对于各用户个体而言，可根据如下公式计算该用户的个人逾期风险值ITE(individual treatment effect)：

ITE＝Yi(Tb)-Yi(Ta)

其中，i为用户序号，此公式的物理含义是指：针对用户i，该用户i的个人逾期风险值＝该用户在倾向额度Tb下的逾期风险—该用户在授信额度Ta下的逾期风险。可通过不断调整Tb的值，得到用户在多种不同干预下表现差异，实际上无法被直接观测到的。因为无法针对同一个客户干预很多次，并且无法同时对同一个用户进行多次定额观察其长期的风险表现。因此，通过条件逾期风险均值CATE(conditional average treatment effect)替代ITE来确定一个用户的逾期风险，具体的，可通过如下公式计算出各用户的CATE：

CATE＝E[Y(Tb)-Y(Ta)|X＝x_i]

此公式的物理含义是指：计算待识别用户X为历史授信数据库中的已授信用户xi的条件下，(整组各用户在倾向额度Tb的逾期风险—整组各用户在授信额度Ta下的逾期风险)/整组的用户数。其本质即为在历史授信数据库中找出借贷特征相近的用户，然后基于该用户进行因果学习，学习该用户的额度与风险之间的因果关系，借助该用户的额度与风险之间的因果关系，得到该待识别用户的额度迁移风险。

也就是说，预设的风险迁移识别模型的核心在于在海量的历史授信中，确定出与待识别用户的特征相近的同质用户，然后用该同质用户的额度迁移风险表征待识别用户的额度迁移风险。基于此，在一些实施例中，在执行步骤S12时，可通过如下方式实现：

基于样本数据库中的各样本用户的授信额度T与历史逾期情况Y，借助预设的风险迁移识别模型，计算出待识别用户为样本用户的条件下的条件希望估计值(即上文中的CATE)。

对各样本用户对应的条件希望估计值CATE进行排序，将最大的条件希望估计对应的样本用户，确定为满足预设相似度条件的相似用户。

选用本申请实施例，借助预设的风险迁移识别模型从海量的历史授信数据中，对各个用户的授信数据进行特征构造，得到各用户的授信数据特征，即基于第一子模型将输入的历史风险观测特征X进行特征提取，得到只与额度有关的工具变量特征I、只与逾期风险有关的调节变量特征A，以及既与额度有关又与逾期风险有关的混淆变量特征C。

然后基于此工具变量特征I、调节变量特征A以及混淆变量特征C进行特征学习，学习出历史授信数据库中拥有相似工具变量特征I、调节变量特征A以及混淆变量特征C的历史用户，然后基于该历史用户在不同的授信额度下的额度差△T，基于上述CATE的计算公式，计算出该历史用户的额度风险迁移，作为待识别用户的额度风险迁移。

如此，用最大条件希望估计值对应的相似用户作为待识别用户的额度风险迁移参考，能够更为精准地确定出待识别用户发生风险迁移的情况，进一步有助于精准地确定出该待识别用户在倾向额度下的逾期概率。

基于此，在一些实施例中，基于历史授信额度与预设倾向额度Tb之间的额度差△T，与历史逾期情况Y之间的单调关系对第二子模型进行随机概率训练包括：

将额度差△T与历史逾期情况Y输入至第二子模型中，由该第一子模型与第二子模型共享的共享层提取出与历史逾期情况Y有关的第一目标特征。

将该第一目标特征与额度差△T进行特征拼接，得到第二目标特征。

利用第二子模型基于第二目标特征进行分类拟合，并基于预设真实样本的计算结果对第二子模型进行随机概率训练，以使得该第二子模型输出结果与预设真实样本计算结果之间的差异满足预设差异范围。

其中，基于预设真实样本的计算结果对第二子模型进行随机概率训练，可以是将第二目标特征接入cross-entropy loss损失函数中完成分类拟合。过程中，为了避免训练过程中出现过拟合，本申请实施例中针对第一子模型、第二子模型的训练采取随机更新的方式进行训练。具体的，在训练第一子模型的网络参数时，将第二子模型以随机概率为0.5(即random＝0.5)的概率进行梯度传播。若不以随机概率进行梯度传播，则固定第二子模型的参数，不对该第二子模型的参数进行更新。具体的，随机概率训练可参考相关的随机概率训练的技术文档，此处不再赘述。

最终，为了判断该风险识别模型是否训练完成，可采用Qini Score(一种模型评估标准)等方法，基于真实样本上的计算结果反推模型输出结果中不同额度下的逾期率的准确性。

具体的，在一些实际应用场景中，本申请实施例提供的风险识别方法的流程图可如图5所示：

S51：采集借贷数据。具体的，采集信贷产品产生的海量的历史借贷数据，然后执行步骤S52对该历史信贷数据进行预处理，进行样本筛选和特征筛选。进一步执行步骤S53基于预处理得到的数据进行数据分割，将数据分为训练集与测试集。然后执行步骤S54借助训练集数据对风险迁移识别模型进行离线训练。训练过程中执行步骤S55，基于离线评估标准Qini Score，根据测试集中的真实样本数据与风险迁移识别模型的输出结果之间的差异，对风险迁移识别模型的参数进行调参，以得到训练好的风险迁移识别模型。

当待识别用户申请贷款时，将待识别用户的风险观测特征输入至训练好的风险迁移识别模型中，由该风险识别模型确定出该待识别用户的迁移风险定额。并基于最终确定得到的迁移风险定额执行步骤S56，将该待识别用户的数据进行数据采集后，纳入历史借贷数据中。

其中，具体的，在执行步骤S52时，数据预处理主要包括样本筛选和特征筛选。特征筛选包括空值率、特征稳定性和特征重要性。空值率是删除空值占比较高的特征，确保模型自身的可解释性。特征稳定性是通过PSI指标等手段，确保在训练集和验证集上，某特征的分布是趋于一致的，否则该特征可能与时间窗口强相关导致模型表现不稳定。特征重要性是通过对特征加入随机扰动，删除扰动对预测结果影响很小的特征，因为其表现与随机特征无异。

在执行步骤S53时，可按照时间窗口，将数据分为训练集和测试集。示例性的，可将2021年3月到9月的数据作为训练集，将2021年10月的数据作为测试集，彼此没有时间重叠。

在执行步骤S54时，可根据不同数据下的训练结果，可以对模型结构稍加调整。比如，适当添加Dropout层，Early Stopping训练机制，L2正则等。最后，借助Qini Score来评价风险定额对客户逾期率的因果效应区分能力。Qini Score越高，表明模型的区分能力越强，在线上的理论推断能力越强。

当风险迁移识别模型训练好后，可将该模型部署到线上的借贷系统中，当源源不断的新客户进入借贷系统，新客户的征信特征和用户画像特征等被送入数据预处理模块，该模块执行与离线训练相同的预处理操作。处理完成的客户数据进入风险迁移识别模型，对每个用户的额度迁移风险进行趋势判断，趋势较高的人群其额度提升较小，趋势较低的人群其额度提升空间较高。每过一段时间，采用线上累积的数据更新离线模型参数，循环上述过程，可有助于维持机构整体风险水平的同时，大幅提高机构盈利性。

基于此，在一些实施例中，如图6所示，本申请实施例提供的风险识别方法还包括如下步骤：

S61、获取历史授信数据。其中，历史授信数据包括各用户的历史风险观测特征X、各用户的历史授信额度Ta以及各用户的历史逾期情况Y。

S62、借助预设的风险迁移识别模型，基于历史授信数据，确定不同授信额度与逾期率之间的映射关系。

S63、基于不同授信额度与逾期率之间的映射关系，确定待识别用户在不同倾向额度下的逾期率。

其中，执行步骤S61可参考步骤S11，此处不再赘述。在执行步骤S62时，可基于线上部署的风险迁移识别模型，对授信申请用户计算出实时的风险定额，然后执行步骤S63时，可快速基于不同的授信额度与逾期率之间的映射关系，确定出待识别用户在不同倾向额度下的逾期率，生成逾期率列表，有助于借贷结构或平台更好地为未来存在的潜在风险进行评估。

第二方面，本申请实施例还提供了一种风险识别装置，其中，如图7所示，该装置700包括：

数据预处理模块701，用于获取待识别用户的风险观测特征，并基于风险观测特征提取高维征信特征、用户画像特征、平台交互特征；其中，高维征信特征表征待识别用户的历史借贷情况，用户画像特征表征待识别用户预先被评估得到的基础信贷信息，平台交互特征表征待识别用户在各借贷平台上的交易情况；

第一确定模块702，用于基于高维征信特征、用户画像特征以及平台交互特征，借助预设的风险迁移识别模型，确定出与待识别用户的风险观测特征相似度满足预设相似度条件的相似用户；

第二确定模块703，用于根据相似用户的授信额度对逾期率的影响程度，确定待识别用户的目标风险额度。

结合第二方面，在第二种可能的实施例中，数据预处理模块701，还用于获取历史授信数据，基于历史授信数据构建初始因果学习模型，其中，历史授信数据包括各用户的历史风险观测特征X、各用户的历史授信额度Ta以及各用户的历史逾期情况Y；

装置还包括：模型训练模块704，用于基于各用户的历史风险观测特征X与各用户的历史授信额度Ta、各用户的历史逾期情况Y之间存在的因果关系，对初始因果学习模型进行训练；将训练后网络参数满足预设参数条件的因果学习模型，确定为预设的风险迁移识别模型。

结合第二方面的第二种可能的实施例，在第三种可能的实施例中，初始因果学习模型包括第一子模型、第二子模型，第一子模型由若干全连接层组成的共享层，第二子模型与以子模型共享共享层，模型训练模块704具体用于：

将历史风险观测特征X输入至第一子模型中，由共享层基于历史风险观测特征X提取学习倾向额度Tb与各用户的稠密语义特征；其中，用户的稠密语义特征包括工具变量特征I、混淆变量特征C与调节变量特征A；工具变量特征I与历史授信额度Ta之间存在因果关系，混淆变量特征C与历史授信额度Ta、历史逾期情况Y之间存在因果关系，调节变量特征A与历史逾期情况之间存在因果关系；

基于各用户的历史风险观测特征X与各用户的历史授信额度Ta、各用户的历史逾期情况Y之间存在的因果关系，对初始因果学习模型进行训练，包括：

基于各用户的工具变量特征I、混淆变量特征C与调节变量特征A与历史授信额度Ta、历史逾期情况Y之间存在的因果关系，对第一子模型的网络参数进行调整，直至第一子模型的网络参数满足预设参数条件；

基于历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与历史逾期情况Y之间的单调性关系对第二子模型进行随机概率训练，直至第二子模型的网络参数满足预设参数条件。

结合第二方面的第三种可能的实施例，在第四种可能的实施例中，基于历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与历史逾期情况Y之间的单调性关系对第二子模型进行随机概率训练包括：

将额度差△T与历史逾期情况Y输入至第二子模型中，由共享层提取与历史逾期情况Y有关的第一目标特征；

基于第一目标特征与额度差△T进行特征拼接，得到第二目标特征；

利用第二子模型基于第二目标特征进行分类拟合，并基于预设真实样本的计算结果对第二子模型进行随机概率训练，以使第二子模型输出结果与预设真实样本计算结果之间的差异满足预设差异范围。

结合第二方面，在第五种可能的实施例中，第一确定模块702具体用于：

基于样本数据库中各样本用户的授信额度T与历史逾期情况Y，借助预设的风险迁移识别模型，计算出待识别用户为样本用户的条件下的条件希望估计值；

将最大的条件希望估计值对应的样本用户，确定为满足预设相似度条件的相似用户。

结合第二方面，在第六种可能的实施例中，数据预处理模块701，还用于获取历史授信数据，其中，历史授信数据包括各用户的历史风险观测特征X、各用户的历史授信额度Ta以及各用户的历史逾期情况Y；

第一确定模块702，还用于借助预设的风险迁移识别模型，基于历史授信数据，确定不同授信额度与逾期率之间的映射关系；

第二确定模块703，还用于基于不同授信额度与逾期率之间的映射关系，确定待识别用户在不同倾向额度下的逾期率。

其中，在本申请中所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

本申请实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

第三方面，本申请示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本申请实施例的方法。

第四方面，本申请示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

第五方面，本申请示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本申请实施例的方法。

参考图8，现将描述可以作为本申请的服务器或客户端的电子设备800的结构框图，其是可以应用于本申请的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如，在一些实施例中，前述风险评估方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行前述风险评估方法。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本申请使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种风险识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的风险识别方法，其特征在于，所述预设的风险迁移识别模型预先通过如下方式得到：

3.根据权利要求2所述的风险识别方法，其特征在于，所述初始因果学习模型包括第一子模型、第二子模型，所述第一子模型是由若干全连接层组成的共享层，所述第二子模型与所述第一子模型共享所述共享层，所述方法还包括：

4.根据权利要求3所述的风险识别方法，其特征在于，所述基于所述历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与所述历史逾期情况Y之间的单调性关系对所述第二子模型进行随机概率训练包括：

5.根据权利要求1所述的风险识别方法，其特征在于，所述基于所述高维征信特征、所述用户画像特征以及所述平台交互特征，借助预设的风险迁移识别模型，确定出与所述待识别用户的风险观测特征相似度满足预设相似度条件的相似用户，包括：

6.根据权利要求1所述的风险识别方法，其特征在于，所述方法还包括：

基于所述不同授信额度与逾期率之间的映射关系，确定所述待识别用户的不同倾向额度，以及所述待识别用户在所述不同倾向额度下对应的逾期率。

7.一种风险识别装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述数据预处理模块，还用于获取历史授信数据，基于所述历史授信数据构建初始因果学习模型，其中，所述历史授信数据包括各用户的历史风险观测特征X、各所述用户的历史授信额度Ta以及各所述用户的历史逾期情况Y；

所述装置还包括：模型训练模块，用于基于各所述用户的历史风险观测特征X与各所述用户的历史授信额度Ta、各所述用户的历史逾期情况Y之间存在的因果关系，对所述初始因果学习模型进行训练；将训练后网络参数满足预设参数条件的因果学习模型，确定为所述预设的风险迁移识别模型；

所述初始因果学习模型包括第一子模型、第二子模型，所述第一子模型由若干全连接层组成的共享层，所述第二子模型与所述第一子模型共享所述共享层，所述模型训练模块具体用于：

基于所述历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与所述历史逾期情况Y之间的单调性关系对所述第二子模型进行随机概率训练，直至所述第二子模型的网络参数满足所述预设参数条件；

所述基于所述历史授信额度Ta与预设倾向授信额度Tb之间的额度差△T，与所述历史逾期情况Y之间的单调性关系对所述第二子模型进行随机概率训练包括：

9.根据权利要求7所述的装置，其特征在于，所述第一确定模块具体用于：

将最大的条件希望估计值对应的样本用户，确定为所述满足预设相似度条件的相似用户；

所述数据预处理模块，还用于获取历史授信数据，其中，所述历史授信数据包括各用户的历史风险观测特征X、各所述用户的历史授信额度Ta以及各所述用户的历史逾期情况Y；

所述第二确定模块，还用于基于所述不同授信额度与逾期率之间的映射关系，确定所述待识别用户的不同倾向额度，以及所述待识别用户在所述不同倾向额度下对应的逾期率。

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。