CN115907968A

CN115907968A - 一种基于人行征信的风控拒绝推断方法及设备

Info

Publication number: CN115907968A
Application number: CN202211637874.9A
Authority: CN
Inventors: 周维浩; 段美宁
Original assignee: Hangyin Consumer Finance Co ltd
Current assignee: Hangyin Consumer Finance Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-04-04

Abstract

本申请提供了一种基于人行征信的风控拒绝推断方法及设备，该方法能够获取授信处理后的若干目标用户信息；将各目标用户信息分别输入预设的风险标签推断模型，确定各目标用户的风险标签块。将各风险标签块进行聚类处理，生成风险标签树。基于各风险标签树及目标用户的类型，得到第一类标签树、第二类标签树。根据各第一类标签树、各第二类标签树及预设风险权重对照表，确定第一授信风险值、第二授信风险值。基于第一类标签树、第二类标签树得到的拒绝推断样本，输入风控拒绝推断模型，以训练风控拒绝推断模型。将若干待风控用户的用户信息输入训练完成的风控拒绝推断模型，以实时确定各待风控用户的授信推断风险值。

Description

一种基于人行征信的风控拒绝推断方法及设备

技术领域

本申请涉及信息安全监管技术领域，尤其涉及一种基于人行征信的风控拒绝推断方法及设备。

背景技术

申请评分卡用于预测用户授信后的信用表现水平，是智能风控中的核心部件。申请评分卡基于包含表现标签的数据构建，表现标签来源于用户的真实风险表现，只存在于授信通过的用户中。因此，申请评分卡的建模数据中仅包含授信通过的用户。在应用场景中，申请评分卡需判定所有授信申请用户的信用表现水平。由于授信环节通常基于风控策略筛选特定用户准入，授信通过样本和授信申请样本间将出现异化，这也使得申请评分卡的建模数据和应用数据间出现样本偏差。

目前，互联网大数据时代下，对每个人掌握的信息也有限，即便银行、贷款机构能够得到待授信用户的历史交易数据，选择是否对该用户进行授信通过或授信拒绝，对个人的授信结果，也存在授信结果的评判片面性。

因此，样本数据带来的偏差及采取的授信数据的片面性，需要人为调整样本数据及采取的授信数据，在数据复杂的前提下，人为筛选的工作量大，浪费人力成本。

发明内容

本申请实施例提供了一种基于人行征信的风控拒绝推断方法及设备，用于解决在对风控用户进行风控拒绝推断时，拒绝推断结果有风险，存在偏差及片面性，需要消耗大量人力资源进行拒绝推断采取数据的筛选的技术问题。

一方面，本申请实施例提供了一种基于人行征信的风控拒绝推断方法，该方法包括：

获取授信处理后的若干目标用户信息。其中，目标用户信息来自于被授信处理后的目标用户的人行征信报告。目标用户在预设时间内存在信用交互记录。目标用户的类型包括：被授信用户、被授信拒绝用户。将各目标用户信息分别输入预设的风险标签推断模型，确定各目标用户的风险标签块。风险标签推断模型通过若干支付行为样本训练得到。支付行为样本至少包括：支付对象标识、支付途径信息、支付频率及支付次数。根据各风险标签块的支付行为标签及预设的标签聚类推断模型，将各风险标签块进行聚类处理，以生成各风险标签块对应的风险标签树。基于各风险标签树及其对应的目标用户的类型，将被授信拒绝用户对应的风险标签树，作为第一类标签树。并将被授信用户对应的风险标签树，作为第二类标签树。根据各第一类标签树及预设风险权重对照表，确定各第一类标签树对应的第一授信风险值。其中，风险权重对照表基于相应目标用户的用户画像与目标用户的支付行为标签的文本相似度得到。根据各第二类标签树及风险权重对照表，确定各第二类标签树对应的第二授信风险值。将第一授信风险值大于第一预设值的第一类标签树，及第二授信风险值小于第二预设值的第二类标签树，作为拒绝推断样本，并输入风控拒绝推断模型，以训练风控拒绝推断模型。将若干待风控用户的用户信息输入训练完成的风控拒绝推断模型，以实时确定各待风控用户的授信推断风险值。

在本申请的一种实现方式中，将风险标签块的支付行为标签输入标签聚类推断模型，以生成支付行为标签的行为标签矩阵。其中，支付行为标签至少包括：支付对象标识、支付途径标识、支付时间。通过标签聚类推断模型，根据各行为标签矩阵及其矩阵特征值，确定各行为标签矩阵的初始核函数。将预设数量的任意支付行为标签的行为标签矩阵，作为初始聚类中心。根据初始核函数、各初始聚类中心及各行为标签矩阵，确定各行为标签矩阵至各初始聚类中心的第一距离值。根据各行为标签矩阵对应的预设数量的第一距离值的最小值，确定各风险标签块对应的聚类分组。基于各聚类分组，确定各风险标签块对应的风险标签树。

在本申请的一种实现方式中，根据各第一距离值、各初始核函数、各行为标签矩阵及预设核函数更新公式，更新初始核函数为第二核函数。根据第二核函数、各第一距离值及误差计算公式，确定聚类分组误差值。在聚类分组误差值小于第一预设阈值的情况下，根据各行为标签矩阵对应的预设数量的第一距离值的最小值，确定各行为标签矩阵对应的初始聚类中心，以生成聚类分组。否则，根据第二核函数及各行为标签矩阵，确定各行为标签矩阵至各第二聚类中心的第二距离值，直至相应的聚类分组误差值小于第一预设阈值。

在本申请的一种实现方式中，将目标用户的人行征信报告，输入预先训练完成的画像文本生成模型，以确定目标用户的用户画像。将用户画像相应文本进行去停用词处理、分词处理，以得到目标用户的若干画像短文本。将各画像短文本输入预设文本匹配模型，确定目标用户的待定感兴趣行为文本。其中，文本匹配模型通过若干用户画像及其支付行为文本训练得到。文本匹配模型为k近邻分类算法。基于待定感兴趣行为文本及目标用户的支付行为标签的文本相似度，生成风险权重对照表。

在本申请的一种实现方式中，方法应用于预先搭建的区块链平台，区块链平台包括若干节点，目标用户对应于区块链平台的任一节点。基于待定感兴趣行为文本及目标用户的支付行为标签的文本相似度，生成风险权重对照表，具体包括：确定目标用户在区块链平台的主体账户及链接账户。链接账户为与主体账户存在至少一个支付交互行为的第三方节点。将待定感兴趣行为文本发送至链接账户，并获取来自链接账户的反馈信息。其中，反馈信息包括：短信、语音。反馈信息用于验证待定感兴趣行为文本的可信度。将反馈信息中可信度大于第二预设阈值的待定感兴趣行为文本作为感兴趣行为文本，并计算各感兴趣行为文本与支付行为标签的余弦相似度，以将各余弦相似度与预设值的差值绝对值，作为各支付行为标签的风险权重，以便根据各风险权重及支付行为标签，生成风险权重对照表。

在本申请的一种实现方式中，根据风险权重对照表，确定各风险标签块对应的风险权重。基于风险标签块中支付频率、支付次数、支付对象标识及支付途径信息中支付时间，确定各风险标签块的待定风险值。根据各风险权重及相应的待定风险值的乘积和值，确定各第一类标签树对应的第一授信风险值。根据各第二类标签树及风险权重对照表，确定各第二类标签树对应的第二授信风险值，具体包括：根据风险权重对照表，确定各风险标签块对应的风险权重。基于风险标签块中支付频率、支付次数、支付对象标识及支付途径信息中支付时间，确定各风险标签块的待定风险值。根据各风险权重及相应的待定风险值的乘积和值，确定各第二类标签树对应的第二授信风险值。

在本申请的一种实现方式中，根据风险标签树的标签组中支付对象标识及相应的支付途径信息中的支付时间，匹配第一对象关联权重表中各风险标签块的第一关联权重。其中，第一对象关联权重表根据支付行为样本中支付对象的类型关系及时间关系生成。以及根据各风险标签块中的支付频率、支付次数，匹配第二对象关联权重表中各风险标签块的第二关联权重。其中，第二对象关联权重表根据支付行为样本中支付对象的被支付频率关系及被支付次数关系生成。根据各第一关联权重及各第二关联权重，生成各标签组的权重向量组。根据各权重向量组的点乘值及支付对象标识对应的风险基本值，确定各风险标签块的待定风险值。

在本申请的一种实现方式中，通过预设的TextRank算法模型，将用户信息进行关键词提取，以确定待风控用户的待风控文本。用户信息来自用户提交资料、区块链平台、社交网络平台的公示动态。基于风控拒绝推断模型及待风控文本，确定各待风控用户的授信推断风险值。

在本申请的一种实现方式中，生成待风控文本相应的词云图像，并将词云图像发送至链接账户。根据链接账户相应用户对词云图像的操作反馈信息，确定相应的标注风控文本。将标注风控文本输入风控拒绝推断模型，确定第一授信推断风险值。将待风控文本输入风控拒绝推断模型，确定第二授信推断风险值。确定第一授信推断风险值与第二授信推断风险值的差值绝对值是否处于预设区间。其中，差值包括正差值、负差值。若是，将待风控文本添加至关键词训练样本，并将标注风控文本作为候选关键词，输入TextRank算法模型，以对TextRank算法模型再训练。

另一方面，本申请实施例还提供了一种基于人行征信的风控拒绝推断设备，该设备包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

获取授信处理后的若干目标用户信息。其中，目标用户信息来自于被授信处理后的目标用户的人行征信报告。目标用户在预设时间内存在信用交互记录。目标用户的类型包括：被授信用户、被授信拒绝用户。

将各目标用户信息分别输入预设的风险标签推断模型，确定各目标用户的风险标签块。风险标签推断模型通过若干支付行为样本训练得到。支付行为样本至少包括：支付对象标识、支付途径信息、支付频率及支付次数。

根据各风险标签块的支付行为标签及预设的标签聚类推断模型，将各风险标签块进行聚类处理，以生成各风险标签块对应的风险标签树。

基于各风险标签树及其对应的目标用户的类型，将被授信拒绝用户对应的风险标签树，作为第一类标签树。并将被授信用户对应的风险标签树，作为第二类标签树。

根据各第一类标签树及预设风险权重对照表，确定各第一类标签树对应的第一授信风险值。其中，风险权重对照表基于相应目标用户的用户画像与目标用户的支付行为标签的文本相似度得到。

根据各第二类标签树及风险权重对照表，确定各第二类标签树对应的第二授信风险值。

将第一授信风险值大于第一预设值的第一类标签树，及第二授信风险值小于第二预设值的第二类标签树，作为拒绝推断样本，并输入风控拒绝推断模型，以训练风控拒绝推断模型。

将若干待风控用户的用户信息输入训练完成的风控拒绝推断模型，以实时确定各待风控用户的授信推断风险值。

本申请实施例能够利用目标用户的人行征信报告，训练能够准确用于拒绝推断的风控拒绝推断模型，进而解决在对风控用户进行风控拒绝推断时，拒绝推断结果有风险，存在偏差及片面性，需要消耗大量人力资源进行拒绝推断采取数据的筛选的技术问题。本申请的上述技术方案，无需浪费人力资源，降低了人力成本的消耗，并能够很好地对待风控用户进行风控拒绝推断，提高了工作人员的工作效率以及降低了拒接推断结果的风险。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于人行征信的风控拒绝推断方法的一种流程示意图；

图2为本申请实施例中一种基于人行征信的风控拒绝推断方法的另一种流程示意图；

图3为本申请实施例中一种基于人行征信的风控拒绝推断设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为保证申请评分卡的可靠性，需在建模流程中尽可能消除建模数据和应用数据间的样本偏差。由于授信申请用户=授信通过用户+授信拒绝用户，在建模样本（授信通过用户）中引入一定量的授信拒绝用户可有效减小样本偏差。

人行征信是指人民银行依法收集、整理、保存、加工自然人、法人及其他组织的信用信息，并对外提供信用报告、信用评估、信用信息咨询等服务，帮助客户判断、控制信用风险，进行信用管理的活动。人行征信报告是中国人民银行征信中心出具的记载个人信用信息的记录，被持牌金融机构广泛应用于客户风险评估中。人行征信报告不仅有较高的用户、平台覆盖度，也提供了丰富的风险表现信息，是理想的拒绝推断数据源。虽然人行征信数据有上述优点，但其获取过程存在诸多限制，持牌机构需得到用户授权后方可查询其征信数据。持牌机构通常可获取全量授信拒绝用户在授信时间点的人行征信报告，但该部分数据仅包含用户在授信时间点前的风险表现信息，无法被直接应用于拒绝推断中。

授信申请用户的人行征信不能简单地表明该用户是否能够被授信拒绝，用户是否能够被授信拒绝，还与用户的购买、还款、透支等行为紧密联系。当前进行拒绝推断的样本数据带来的偏差及采取的授信数据的片面性，导致对授信申请用户的风控拒绝推断并不准确，增加了拒绝推断结果的风险。例如授信通过用户无法正常履行义务。上述问题使得在授信拒绝前，需要大量人力资源进行筛选数据，以便在授信拒绝处理时，有合适、合理的样本数据。但是，在大数据场景下，人为筛选数据的工作量过大，通过人工进行筛选，增加了人力成本。

基于此，本申请实施例提供了一种基于人行征信的风控拒绝推断方法及设备，用来解决在对风控用户进行风控拒绝推断时，拒绝推断结果有风险，存在偏差及片面性，需要消耗大量人力资源进行拒绝推断采取数据的筛选的技术问题。

以下结合附图，详细说明本申请的各个实施例。

本申请实施例提供了一种基于人行征信的风控拒绝推断方法，如图1所示，该方法可以包括步骤S101-S108：

S101，服务器获取授信处理后的若干目标用户信息。

其中，目标用户信息来自于被授信处理后的目标用户的人行征信报告。目标用户在预设时间内存在信用交互记录。目标用户的类型包括：被授信用户、被授信拒绝用户。

授信处理表示在过去，当前服务器所对应机构或其他机构所授信通过的用户、授信拒绝的用户。授信处理后的目标用户为在授信处理后的一段预设时间，存在信用交互记录，信用交互记录可以理解为目标用户进行了还款、支付、借款，例如：“非循环贷账户”、“循环额度下分帐户”、“循环贷账户”、“贷记卡账户”、“准贷记卡账户”栏目下授信处理之后的账户变动信息。账户变动信息包括但不限于还款、取款等信息变动。

需要说明的是，服务器作为基于人行征信的风控拒绝推断方法的执行主体，仅为示例性存在，执行主体不仅限于服务器，再例如服务器集群等，本申请对此不作具体限定。

S102，服务器将各目标用户信息分别输入预设的风险标签推断模型，确定各目标用户的风险标签块。

风险标签推断模型通过若干支付行为样本训练得到。支付行为样本至少包括：支付对象标识、支付途径信息、支付频率及支付次数。

风险标签推断模型为预先设置的，通过若干支付行为样本训练得到。支付对象标识指代的是，目标用户进行支付行为时对应的对象标识，例如：房贷、汽车贷、衣物、食品等；支付途径信息包括支付途径标识、支付时间，支付途径标识包括：x1信用卡、x2储蓄卡、非循环贷账户、循环额度下分帐户、循环贷账户、贷记卡账户、准贷记卡账户等等。其中，支付时间包括支付行为对应的支付起始时间、支付终止时间；支付频率为支付次数/支付行为时间，支付行为时间可以为上述预设时间，也可以是选定的支付次数对应的时间，如支付次数对应的时间为1个月或2个月。

风险标签块为风险标签推断模型输出的包括支付行为标签、支付频率、支付次数、风险基本值的标签块。例如一风险标签块为[支付对象标识a,支付途径标识b,支付时间t,支付频率c,支付次数d,待定风险值e]，其中风险标签块中的各元素可以有多个，并多个元素存在支付行为的对应关系。

风险标签推断模型生成风险标签块的一个具体实施例，如下：

其中，上述第一行及第二行为分别为不同支付途径标识对应的还款记录，第三行表示每个月的还款行为的风险表现；列表示月份，第一列为起始月，第二列为起始月+1月，依次类推；表示正常还款，上述1、2表示还款逾期的月份。风险标签推断模块可以根据目标用户信息，生成上述矩阵。上述风险表现为在各月份中还款状态（正常还款、逾期还款月份）中的最差状态。

风险标签推断模型可以将上述风险表现编码为支付对象标识的风险基本值，例如上述逾期月份为2，风险基本值编码为0.7，逾期月份为1，风险基本值编码为0.4。也可以根据上述风险表现编码及支付对象标识对应的对象属性，进行生成风险基本值，例如支付对象标识为房贷，风险基本子值为n，支付对象标识为摩托车贷，风险基本子值为m，n大于m，上述风险表现编码中：房贷为p，摩托车贷为q，那么根据预设的风险基本值权重Q1、Q2，得到两个风险基本值车贷为Q1*n+Q2*p；摩托车贷风险基本值为Q1*m+Q2*q。

S103，服务器根据各风险标签块的支付行为标签及预设的标签聚类推断模型，将各风险标签块进行聚类处理，以生成各风险标签块对应的风险标签树。

风险标签树由至少一个风险标签块组成的树状标签组合，其根节点对应于目标用户，各风险标签块之间、风险标签块与根节点之间存在连接关系。

在本申请实施例中，服务器根据各风险标签块的支付行为标签及预设的标签聚类推断模型，将各风险标签块进行聚类处理，以生成各风险标签块对应的风险标签树，如图2所示，具体包括以下步骤：

S201，服务器将风险标签块的支付行为标签输入标签聚类推断模型，以生成支付行为标签的行为标签矩阵。

其中，支付行为标签至少包括：支付对象标识、支付途径标识、支付时间。

标签聚类推断模型可以通过预设的核聚类算法，还可以是其他聚类算法例如K-maxmins聚类算法。

在本申请实施例中，服务器通过标签聚类推断模型，对风险标签块进行分类，标签聚类推断模型根据支付行为标签，先生成支付行为标签对应的行为标签矩阵。标签聚类推断模型基于若干的支付行为标签样本数据进行训练的，支付行为标签样本数据中，标注了支付行为标签对应的数字编码，不同支付行为标签对应的数字编码不同，数字编码包含支付对象标识编码、支付途径标识编码、支付时间的编码。行为标签矩阵指的是，标签聚类推断模型根据输入的支付行为标签，自动生成该输入标签的编码对应矩阵；矩阵中各行对应了不同的支付对象标识的编码。

S202，服务器通过标签聚类推断模型，根据各行为标签矩阵及其矩阵特征值，确定各行为标签矩阵的初始核函数。

标签聚类推断模型可以生成初始核函数，如一行为标签矩阵为

其中，为行为标签矩阵，用于表征第个支付对象标识的第个支付行为标签中特征的数字编码。矩阵特征值为该矩阵的特征值，经过数学求解矩阵特征值计算得到。例如一行为标签矩阵特征值为。

初始核函数的基本计算公式为：，其中为所有行为标签矩阵构建特征空间的维数，可以等于，也可以不等于。初始核函数包括三个映射公式，分别计算同一行为标签矩阵的核函数取值，该行为标签矩阵与初始聚类中心的核函数取值、初始聚类中心与初始聚类中心本身的核函数取值，进而得到初始核函数的三个全部取值。

S203，服务器将预设数量的任意支付行为标签的行为标签矩阵，作为初始聚类中心。

在本申请实施例中，预设数量是由用户自行设定的，预设数量至少大于或等于2，小于或等于行为标签矩阵的总数量。预设数量用于划分风险标签块的聚类分组数量为预设数量，该预设数量由用户自行设定，本申请对此不作具体限定。

根据上述预设数量，服务器进行随机选择该数量对应的若干行为标签矩阵，为初始聚类中心。

S204，服务器根据初始核函数、各初始聚类中心及各行为标签矩阵，确定各行为标签矩阵至各初始聚类中心的第一距离值。

具体地，服务器通过初始核函数的公式，各行为标签矩阵以及选定的各初始聚类中心，分别计算上述初始核函数的三个全部取值：、、，其中，为第个行为标签矩阵，，为行为标签矩阵的总个数，为第1个初始聚类中心，例如初始聚类中心有个，为行为标签矩阵与自身的核函数取值，行为标签矩阵与初始聚类中心的核函数取值，为初始聚类中心的核函数取值。

计算第一距离值的公式如下：

其中，为行为标签矩阵与初始聚类中心的第一距离值。

S205，服务器根据各行为标签矩阵对应的预设数量的第一距离值的最小值，确定各风险标签块对应的聚类分组。

在本申请实施例中，行为标签矩阵与各初始聚类中心，分别存在一个第一距离值，服务器可以确定行为标签矩阵对应的至多个第一距离值中的最小值，并将最小值对应的初始聚类中心作为该行为标签矩阵最接近的聚类中心，并确定该行为标签矩阵属于该初始聚类中心的聚类分组。

其中，服务器可以通过下列公式，进行确定聚类分组：

其中，为行为标签矩阵与各初始聚类中心的第一距离值的最小值。通过上述公式中，在行为标签矩阵对应的的值为1时，确定该对应的初始聚类中心的聚类分组，为行为标签矩阵的聚类分组，即行为标签矩阵对应的风险标签块的聚类分组。

此外，聚类分组是否准确需要通过以下实施例进行确定，具体包括：

首先，服务器根据各第一距离值、各初始核函数、各行为标签矩阵及预设核函数更新公式，更新初始核函数为第二核函数。

预设核函数更新公式包含如下公式：

其中，为更新后的行为标签矩阵与初始聚类中心的核函数取值，为任意行为标签矩阵与的核函数取值，为更新后的为初始聚类中心的核函数取值。服务器将上述、及作为第二核函数。

然后，服务器根据第二核函数、各第一距离值及误差计算公式，确定聚类分组误差值。

误差计算公式如下：

其中，为聚类分组误差值。

随后，服务器在聚类分组误差值小于第一预设阈值的情况下，根据各行为标签矩阵对应的预设数量的第一距离值的最小值，确定各行为标签矩阵对应的初始聚类中心，以生成聚类分组。否则，根据第二核函数及各行为标签矩阵，确定各行为标签矩阵至各第二聚类中心的第二距离值，直至相应的聚类分组误差值小于第一预设阈值。

第一预设阈值为预先设定的值，本申请对该具体取值不作具体限定。在聚类分组误差值小于该第一预设阈值时，表明上述聚类分组结果的误差小，服务器确定上述聚类分组为最终的聚类分组。如果聚类分组误差值不小于第一预设阈值，服务器将根据第二核函数，进行重新确定各风险标签块与各聚类中心的距离值，并重新确定聚类分组结果，并通过上述的步骤，重新确定该聚类分组结果的误差，直至聚类分组误差值小于第一预设阈值，得到最终的聚类分组，各聚类中心的风险标签块的分组中，包括至少一个风险标签块。

S206，服务器基于各聚类分组，确定各风险标签块对应的风险标签树。

在本申请实施例中，服务器能够通过各个聚类分组中的风险标签块，生成风险标签树，风险标签树具有聚类分组数量个分支，每个分支对应一个聚类分组，每个树的分支具有至少一个风险标签块。

在本申请的一个实施例中，服务器还可以通过基于K-maxmins聚类算法的标签聚类推断模型进行生成聚类分组。

具体地，服务器通过标签聚类推断模型，确定预设的聚类分组数k，按照风险标签块的支付行为标签，编码为标签向量。

服务器随机选择k个聚类中心，并计算各标签向量与各聚类中心的标签向量的无穷范数值。

随后，服务器确定各标签向量对应的各无穷范数值中的最小值，并将最小值对应的聚类中心作为指定的聚类分组。然后计算各聚类分组中各标签向量的均值，并确定与该均值对应的标签向量，为更新的聚类中心。其中，均值对应的标签向量指的是，均值与标签向量的模相等，或者标签向量的模在均值的预设邻域范围内，该预设邻域范围为预先设置的。

服务器通过上述方案进行更新聚类中心以及聚类分组，直至聚类中心及聚类分组不再改变。

S104，服务器基于各风险标签树及其对应的目标用户的类型，将被授信拒绝用户对应的风险标签树，作为第一类标签树。并将被授信用户对应的风险标签树，作为第二类标签树。

在本申请实施例中，服务器可以将目标用户作为根节点，并根据目标用户的类型：被授信拒绝用户、别授信用户，分别生成两类标签树。

通过将标签树进行分类，可以为后续提供训练模型的样本数据提供便利，节省人力成本，并能够保证样本数据全面，解决建模数据和应用数据间出现样本偏差。

S105，服务器根据各第一类标签树及预设风险权重对照表，确定各第一类标签树对应的第一授信风险值。

其中，风险权重对照表基于相应目标用户的用户画像与目标用户的支付行为标签的文本相似度得到。

在本申请实施例中，服务器根据各第一类标签树及预设风险权重对照表，确定各第一类标签树对应的第一授信风险值之前，还包括：

首先，服务器将目标用户的人行征信报告，输入预先训练完成的画像文本生成模型，以确定目标用户的用户画像。

画像文本生成模型为经过若干用户样本训练得到，服务器可以获取历史银行、信贷机构公示的报告文本，并作为用户样本，进行训练画像文本生成模型。用户画像包括：用户自身特征组成的文本或文档，包含例如学历、年龄、籍贯、爱好、工作单位等。用户画像即为目标用户的人物标签，通过用户画像可以了解目标用户的基本信息。

接着，服务器将用户画像相应文本进行去停用词处理、分词处理，以得到目标用户的若干画像短文本。

也就是说，服务器可以预设有去停用词及分词规则，对上述得到的用户画像进行去停用词、分词处理，得到用户画像中的画像短文本。

随后，服务器将各画像短文本输入预设文本匹配模型，确定目标用户的待定感兴趣行为文本。

其中，文本匹配模型通过若干用户画像及其支付行为文本训练得到。文本匹配模型为k近邻分类算法。

文本匹配模型为基于k近邻分类算法的模型，服务器从预设数据库中采集用户画像及其支付行为文本的样本数据，输入待训练文本匹配模型，对文本匹配模型进行持续训练，直至文本匹配模型的预设损失函数值小于一预设值，得到训练好的文本匹配模型。样本数据中，用户画像及支付行为文本中的各个文本，存在与之相应的感兴趣行为文本，例如支付行为文本为“摩托车”，与之感兴趣行为文本可能为“头盔”“护膝”，用户画像为“商务人士”，其感兴趣行为文本可能包含“手表”“皮包”等。

具体地，文本匹配模型可以计算各文本匹配的欧式距离，按照欧式距离的递增关系进行排序，确定文本1与欧式距离最小的预定数量的文本，并确定文本1匹配的该预设数量文本的文本出现频率，将预设数量文本中出现频率最高的文本2，作为文本1的感兴趣行为文本。

最后，服务器基于待定感兴趣行为文本及目标用户的支付行为标签的文本相似度，生成风险权重对照表。

也就是说，服务器能够根据上述得到的目标用户的待定感兴趣行为文本，匹配支付行为标签中各文本的文本相似度，进而通过下述实施例，得到风险权重对照表。

具体地，上述方案应用于预先搭建的区块链平台，区块链平台包括若干节点，目标用户对应于区块链平台的任一节点。

服务器能够确定目标用户在区块链平台的主体账户及链接账户。链接账户为与主体账户存在至少一个支付交互行为的第三方节点。

然后，服务器将待定感兴趣行为文本发送至链接账户，并获取来自链接账户的反馈信息。其中，反馈信息包括：短信、语音。反馈信息用于验证待定感兴趣行为文本的可信度。

反馈信息可以为可信、不可信、不确定，可信时，可信度可以为1，不可信时，可信度为0，不确定时可信度为0.5。短信可以为文本，也可以是图片，语音可以是自动生成的语音，也可以是链接账户的用户语音输入的语音。

随后，服务器将反馈信息中可信度大于第二预设阈值的待定感兴趣行为文本作为感兴趣行为文本，并计算各感兴趣行为文本与支付行为标签的余弦相似度，以将各余弦相似度与预设值的差值绝对值，作为各支付行为标签的风险权重，以便根据各风险权重及支付行为标签，生成风险权重对照表。

余弦相似度计算公式：

其中，为感兴趣行为文本与支付行为标签中词语的余弦相似度，为词语的第个词语向量，为词语的第个词语向量，为词语向量总数。

在计算出余弦相似度后，根据上述预设值1，计算差值绝对值。将该差值绝对值作为风险权重，并根据各支付行为标签与其对应的风险权重的对应关系，生成风险权重对照表，风险权重对照表中的支付行为标签与风险权重为一一对应的关系。

服务器根据各第一类标签树及预设风险权重对照表，确定各第一类标签树对应的第一授信风险值，具体包括：

服务器可以根据上述风险权重对照表，确定各风险标签块的支付行为标签对应的风险权重，从而确定各风险标签块对应的风险权重。然后，基于风险标签块中支付频率、支付次数、支付对象标识及支付途径信息中支付时间，确定各风险标签块的待定风险值。进而，根据各风险权重及相应的待定风险值的乘积和值，确定各第一类标签树对应的第一授信风险值。

第一授信风险值为第一类标签树中的所有风险标签块的风险权重及其待定风险值的乘积和值。

其中，待定风险值根据以下实施例确定，具体如下：

首先，服务器根据风险标签树的标签组中支付对象标识及相应的支付途径信息中的支付时间，匹配第一对象关联权重表中各风险标签块的第一关联权重。其中，第一对象关联权重表根据支付行为样本中支付对象的类型关系及时间关系生成。以及根据各风险标签块中的支付频率、支付次数，匹配第二对象关联权重表中各风险标签块的第二关联权重。其中，第二对象关联权重表根据支付行为样本中支付对象的被支付频率关系及被支付次数关系生成。

上述第一对象关联权重表为，根据支付行为样本中支付对象的类型关系，如支付对象为支付车款、支付车贴膜费用、车险费用、支付酒店酒水，支付车款、支付车贴膜费用、车险费用，三个支付对象具有紧密的类型关系，用户可以预先设置有紧密类型关系的支付对象一预设权重q1，给没有紧密类型关系的支付对象如支付车款与支付酒店酒水之间，预置另一预设权重0；服务器根据支付对象的支付时间，如上述支付对象的支付时间为t，t+2，t+2，t+3，那么服务器确定支付车款与支付车贴膜费用、车险费用、支付酒店酒水之间存在预设权重q2、q3，支付车贴膜费用、车险费用分别与支付酒店酒水存在预设权重q4。那么，第一对象关联权重表可以为将各支付对象之间的类型关系权重、时间关系权重，进行加权求和，例如类型关系加权为0.7，时间关系为0.3。那么支付车款、支付车贴膜费用之间的第一对象关联权重为0.7*q1+0.3*q2，基于此，服务器生成包含各支付对象的第一对象关联权重的第一对象关联权重表。表中，对于不同类型关系、时间关系，存在不同的第一对象关联权重。该表可以由用户自行设置，也可以通过软件生成，本申请对此不作具体限定。

在本申请实施例中，第二对象关联权重表根据支付行为样本中支付对象的被支付频率关系及被支付次数关系生成，其中，被支付频率关系为支付对象o1与支付对象o2的支付频率关系可能为1-3，其中，支付对象o1支付频率为1/6时，支付对象o2的支付频率为20/6。例如支付对象o1为保养，支付对象o2为加油。服务器可以基于用户操作，预设设置支付对象的被支付频率关系所对应的权重，及被支付次数关系的权重。即针对不同支付对象之间的被支付频率、别支付次数存在联系，用户可以自行设定或通过互联网获取该联系对应权重，并将其加入第二对象关联权重表。

举例说明，支付对象o1为保养支出，支付对象o2为加油支出时，在预设时间6个月里，支付对象支付频率为1/6，支付对象o2支付频率为20/6，该支付频率1/6与20/6，对应权重为p1；支付对象支付次数为6，支付对象o2的支付次数为20，该支付次数6-20之间关系的对应权重为p2。用户预设支付频率加权为0.5，预设支付次数加权为0.5，那么第二对象关联权重为0.5p1+0.5p2。

然后，服务器根据各第一关联权重及各第二关联权重，生成各标签组的权重向量组。

也就是说，服务器可以根据上述匹配的第一关联权重、第二关联权重，生成权重向量组。在不同的聚类分组后的标签组中，各风险标签块与其他风险标签块存在相应数量个第一关联权重及第二关联权重，相应数量各为标签组中风险标签块的总数量-1。根据相应数量各第一关联权重、第二关联权重，分别生成各风险标签块的第一关联权重向量、第二关联权重向量，将第一关联权重向量、第二关联权重向量组成风险标签块的权重向量组。

服务器根据各权重向量组的点乘值及支付对象标识对应的风险基本值，确定各风险标签块的待定风险值。

服务器计算同一风险标签块对应的第一关联权重向量与第二关联权重向量的点乘值，并将上述预设风险基本值与该点乘值做乘积运算，将乘积结果作为风险标签块的待定风险值。

通过上述方案，本申请可以确定各支付行为标签之间的关联权重，能够保证采用的样本数据的全面性，并在计算授信风险值时，更准确且方便地得到用于表征风险标签块的授信风险值。进而在不浪费人员成本的前提下，进行全面、准确地得到用户的授信推断风险值，确定是否进行授信拒绝或授信通过。

S106，服务器根据各第二类标签树及风险权重对照表，确定各第二类标签树对应的第二授信风险值。

服务器根据风险权重对照表，确定各风险标签块对应的风险权重。基于风险标签块中支付频率、支付次数、支付对象标识及支付途径信息中支付时间，确定各风险标签块的待定风险值。根据各风险权重及相应的待定风险值的乘积和值，确定各第二类标签树对应的第二授信风险值。

第二授信风险值的获取方式可以参考上述S105步骤中第一授信风险值的确定方式，在此不再赘述。

S107，服务器将第一授信风险值大于第一预设值的第一类标签树，及第二授信风险值小于第二预设值的第二类标签树，作为拒绝推断样本，并输入风控拒绝推断模型，以训练风控拒绝推断模型。

在本申请实施例中，服务器可以通过第一授信风险值及第二授信风险值，筛选用作训练样本的标签树，在保证建模数据和应用数据不产生样本偏差的情况下，筛选掉影响拒绝推断结果的第一类标签树、第二类标签树。其中，第一预设值与第二预设值为用户自行设定，本申请对其具体取值，不作具体限定。

风控拒绝推断模型可以采用神经网络模型如RNN，训练过程以输入第一类标签树为例，第一类标签树中各风险标签块的支付行为标签及风险权重、待定风险值作为样本，第一授信风险值作为标签，输入该风控拒绝推断模型，进行持续训练，直至风控拒绝推断模型得到的样本输出结果正确率大于预设正确率的情况下，训练完成风控拒绝推断模型。

S108，服务器将若干待风控用户的用户信息输入训练完成的风控拒绝推断模型，以实时确定各待风控用户的授信推断风险值。

在本申请实施例中，服务器将若干待风控用户的用户信息输入训练完成的风控拒绝推断模型，以实时确定各待风控用户的授信推断风险值，具体包括：

首先，服务器通过预设的TextRank算法模型，将用户信息进行关键词提取，以确定待风控用户的待风控文本。用户信息来自用户提交资料、区块链平台、社交网络平台的公示动态。

用户提交资料为用户通过网络输入的资料，例如用于进行验证是否拒绝推断的基本资料，如以往消费记录等，还可以是用户提交的纸质材料，由工作人员进行输入至服务器中的资料。

然后，基于风控拒绝推断模型及待风控文本，确定各待风控用户的授信推断风险值。即，将待风控文本输入风控拒绝推断模型，获取风控拒绝推断模型的输出值，并将该输出值作为授信推断风险值。

此外，基于风控拒绝推断模型及待风控文本，确定各待风控用户的授信推断风险值，具体包括：

首先，服务器生成待风控文本相应的词云图像，并将词云图像发送至链接账户。

接着，服务器根据链接账户相应用户对词云图像的操作反馈信息，确定相应的标注风控文本。

标注风控文本为词云图像中的文本，也可以是链接账户添加的文本。

随后，服务器将标注风控文本输入风控拒绝推断模型，确定第一授信推断风险值。并将待风控文本输入风控拒绝推断模型，确定第二授信推断风险值。

服务器确定第一授信推断风险值与第二授信推断风险值的差值绝对值是否处于预设区间。其中，差值包括正差值、负差值。预设区间为用户预先设置的区间，例如[-1,1]，[0,1]等。

服务器确定第一授信推断风险值与第二授信推断风险值的差值绝对值处于预设区间的情况下，将待风控文本添加至关键词训练样本，并将标注风控文本作为候选关键词，输入TextRank算法模型，以对TextRank算法模型再训练。

通过上述技术方案，对TextRank算法模型进行持续训练，保证服务器确定的待风控文本的准确性。

本申请实施例能够利用目标用户的人行征信报告，训练能够准确用于拒绝推断的风控拒绝推断模型，进而解决在对风控用户进行风控拒绝推断时，拒绝推断结果有风险，存在偏差及片面性，需要消耗大量人力资源进行拒绝推断采取数据的筛选的技术问题。本申请的上述技术方案，无需浪费人力资源，能够很好地对待风控用户进行风控拒绝推断，提高了工作人员的工作效率以及降低了拒接推断结果的风险。

图3为本申请实施例提供的一种基于人行征信的风控拒绝推断设备，该设备包括：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备与方法是一一对应的，因此，设备也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备的有益技术效果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于人行征信的风控拒绝推断方法，其特征在于，所述方法包括：

获取授信处理后的若干目标用户信息；其中，所述目标用户信息来自于被授信处理后的目标用户的人行征信报告；所述目标用户在预设时间内存在信用交互记录；所述目标用户的类型包括：被授信用户、被授信拒绝用户；

将各所述目标用户信息分别输入预设的风险标签推断模型，确定各所述目标用户的风险标签块；所述风险标签推断模型通过若干支付行为样本训练得到；所述支付行为样本至少包括：支付对象标识、支付途径信息、支付频率及支付次数；

根据各所述风险标签块的支付行为标签及预设的标签聚类推断模型，将各所述风险标签块进行聚类处理，以生成各所述风险标签块对应的风险标签树；

基于各所述风险标签树及其对应的所述目标用户的类型，将被授信拒绝用户对应的所述风险标签树，作为第一类标签树；并将被授信用户对应的所述风险标签树，作为第二类标签树；

根据各所述第一类标签树及预设风险权重对照表，确定各所述第一类标签树对应的第一授信风险值；其中，所述风险权重对照表基于相应目标用户的用户画像与所述目标用户的支付行为标签的文本相似度得到；

根据各所述第二类标签树及所述风险权重对照表，确定各所述第二类标签树对应的第二授信风险值；

将所述第一授信风险值大于第一预设值的第一类标签树，及第二授信风险值小于第二预设值的第二类标签树，作为拒绝推断样本，并输入风控拒绝推断模型，以训练所述风控拒绝推断模型；

将若干待风控用户的用户信息输入训练完成的所述风控拒绝推断模型，以实时确定各所述待风控用户的授信推断风险值。

2.根据权利要求1所述方法，其特征在于，根据各所述风险标签块的支付行为标签及预设的标签聚类推断模型，将各所述风险标签块进行聚类处理，以生成各所述风险标签块对应的风险标签树，具体包括：

将所述风险标签块的支付行为标签输入所述标签聚类推断模型，以生成所述支付行为标签的行为标签矩阵；其中，所述支付行为标签至少包括：支付对象标识、支付途径标识、支付时间；

通过所述标签聚类推断模型，根据各行为标签矩阵及其矩阵特征值，确定各行为标签矩阵的初始核函数；

将预设数量的任意所述支付行为标签的行为标签矩阵，作为初始聚类中心；

根据所述初始核函数、各所述初始聚类中心及各所述行为标签矩阵，确定各所述行为标签矩阵至各所述初始聚类中心的第一距离值；

根据各所述行为标签矩阵对应的所述预设数量的第一距离值的最小值，确定各所述风险标签块对应的聚类分组；

基于各所述聚类分组，确定各所述风险标签块对应的风险标签树。

3.根据权利要求2所述方法，其特征在于，根据各所述行为标签矩阵对应的所述预设数量的第一距离值的最小值，确定各所述风险标签块对应的聚类分组，具体包括：

根据各所述第一距离值、各所述初始核函数、各所述行为标签矩阵及预设核函数更新公式，更新所述初始核函数为第二核函数；

根据所述第二核函数、各所述第一距离值及误差计算公式，确定所述聚类分组误差值；

在所述聚类分组误差值小于第一预设阈值的情况下，根据各所述行为标签矩阵对应的所述预设数量的第一距离值的最小值，确定各所述行为标签矩阵对应的所述初始聚类中心，以生成所述聚类分组；

否则，根据所述第二核函数及各所述行为标签矩阵，确定各所述行为标签矩阵至各第二聚类中心的第二距离值，直至相应的所述聚类分组误差值小于所述第一预设阈值。

4.根据权利要求1所述方法，其特征在于，根据各所述第一类标签树及预设风险权重对照表，确定各所述第一类标签树对应的第一授信风险值之前，所述方法还包括：

将所述目标用户的人行征信报告，输入预先训练完成的画像文本生成模型，以确定所述目标用户的用户画像；

将所述用户画像相应文本进行去停用词处理、分词处理，以得到所述目标用户的若干画像短文本；

将各所述画像短文本输入预设文本匹配模型，确定所述目标用户的待定感兴趣行为文本；其中，所述文本匹配模型通过若干用户画像及其支付行为文本训练得到；所述文本匹配模型为k近邻分类算法；

基于所述待定感兴趣行为文本及所述目标用户的支付行为标签的文本相似度，生成所述风险权重对照表。

5.根据权利要求4所述方法，其特征在于，所述方法应用于预先搭建的区块链平台，所述区块链平台包括若干节点，所述目标用户对应于所述区块链平台的任一节点；

基于所述待定感兴趣行为文本及所述目标用户的支付行为标签的文本相似度，生成所述风险权重对照表，具体包括：

确定所述目标用户在所述区块链平台的主体账户及链接账户；所述链接账户为与所述主体账户存在至少一个支付交互行为的第三方节点；

将所述待定感兴趣行为文本发送至所述链接账户，并获取来自所述链接账户的反馈信息；其中，所述反馈信息包括：短信、语音；所述反馈信息用于验证所述待定感兴趣行为文本的可信度；

将所述反馈信息中可信度大于第二预设阈值的所述待定感兴趣行为文本作为感兴趣行为文本，并计算各所述感兴趣行为文本与所述支付行为标签的余弦相似度，以将各所述余弦相似度与预设值的差值绝对值，作为各所述支付行为标签的风险权重，以便根据各所述风险权重及所述支付行为标签，生成所述风险权重对照表。

6.根据权利要求5所述方法，其特征在于，根据各所述第一类标签树及预设风险权重对照表，确定各所述第一类标签树对应的第一授信风险值，具体包括：

根据所述风险权重对照表，确定各所述风险标签块对应的风险权重；

基于所述风险标签块中支付频率、支付次数、支付对象标识及所述支付途径信息中支付时间，确定各所述风险标签块的待定风险值；

根据各所述风险权重及相应的所述待定风险值的乘积和值，确定各所述第一类标签树对应的所述第一授信风险值；

根据各所述第二类标签树及所述风险权重对照表，确定各所述第二类标签树对应的第二授信风险值，具体包括：

根据各所述风险权重及相应的所述待定风险值的乘积和值，确定各所述第二类标签树对应的所述第二授信风险值。

7.根据权利要求6所述方法，其特征在于，基于所述风险标签块中支付频率、支付次数、支付对象标识及所述支付途径信息中支付时间，确定各所述风险标签块的待定风险值，具体包括：

根据所述风险标签树的标签组中所述支付对象标识及相应的所述支付途径信息中的支付时间，匹配第一对象关联权重表中各所述风险标签块的第一关联权重；其中，所述第一对象关联权重表根据所述支付行为样本中支付对象的类型关系及时间关系生成；以及

根据各所述风险标签块中的支付频率、支付次数，匹配第二对象关联权重表中各所述风险标签块的第二关联权重；其中，所述第二对象关联权重表根据所述支付行为样本中支付对象的被支付频率关系及被支付次数关系生成；

根据各所述第一关联权重及各所述第二关联权重，生成各所述标签组的权重向量组；

根据各所述权重向量组的点乘值及所述支付对象标识对应的风险基本值，确定各所述风险标签块的待定风险值。

8.根据权利要求5所述方法，其特征在于，将若干待风控用户的用户信息输入训练完成的所述风控拒绝推断模型，以实时确定各所述待风控用户的授信推断风险值，具体包括：

通过预设的TextRank算法模型，将所述用户信息进行关键词提取，以确定所述待风控用户的待风控文本；所述用户信息来自用户提交资料、区块链平台、社交网络平台的公示动态；

基于所述风控拒绝推断模型及所述待风控文本，确定各所述待风控用户的授信推断风险值。

9.根据权利要求8所述方法，其特征在于，基于所述风控拒绝推断模型及所述待风控文本，确定各所述待风控用户的授信推断风险值，具体包括：

生成所述待风控文本相应的词云图像，并将所述词云图像发送至所述链接账户；

根据所述链接账户相应用户对所述词云图像的操作反馈信息，确定相应的标注风控文本；

将所述标注风控文本输入所述风控拒绝推断模型，确定第一授信推断风险值；

将所述待风控文本输入所述风控拒绝推断模型，确定第二授信推断风险值；

确定所述第一授信推断风险值与所述第二授信推断风险值的差值绝对值是否处于预设区间；其中，所述差值包括正差值、负差值；

若是，将所述待风控文本添加至关键词训练样本，并将所述标注风控文本作为候选关键词，输入所述TextRank算法模型，以对所述TextRank算法模型再训练。

10.一种基于人行征信的风控拒绝推断设备，其特征在于，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：