CN116934468B

CN116934468B - 一种基于语义识别的授信客户分级方法

Info

Publication number: CN116934468B
Application number: CN202311189182.7A
Authority: CN
Inventors: 孙晓宇; 黄博; 刘方琦; 江培荣; 王帅; 张飞; 邱显贵; 罗聪国; 虎高林; 龚自廷; 吴辉; 但杨; 高飞; 杨祥
Original assignee: Chengdu Yunlitchi Technology Co ltd
Current assignee: Chengdu Yunlitchi Technology Co ltd
Priority date: 2023-09-15
Filing date: 2023-09-15
Publication date: 2023-12-22
Anticipated expiration: 2043-09-15
Also published as: CN116934468A

Abstract

本发明公开了一种基于语义识别的授信客户分级方法，属于语义识别技术领域，本发明将原始的信息资料，拆分成多条客户信息，对每条客户信息进行编码处理，得到多条客户信息向量，并通过重要度衡量每条客户信息向量的内容重要情况，筛选出有效客户信息向量，采用语义提取模型对多个有效客户信息向量和重要度进行处理，有效客户信息向量中包含了客户信息，重要度在语义提取模型起对有效客户信息向量特征施加更多关注度的目的，使得语义提取模型对重要特征施加更多关注度，提高语义提取精度，本发明一方面减少了工作人员的工作量，另一方面授信客户分级完全出自于客观角度，不存在主观因素，提高了分级的精度。

Description

一种基于语义识别的授信客户分级方法

技术领域

本发明涉及语义识别技术领域，具体涉及一种基于语义识别的授信客户分级方法。

背景技术

随着大数据和人工智能技术的发展，金融机构在信贷业务中需要对客户进行精细化管理。传统的授信客户分级由工作人员阅读客户信息资料，从客户信息资料中提取出关键信息，例如：客户收入信息、客户消费信息、客户资产信息和客户负债信息等，再根据客户收入信息、客户消费信息、客户资产信息和客户负债信息等，对客户进行评定，其评定结果存在主观意识强的问题，无法完全从客观角度实现对客户的分级，造成分级精度不高，同时，采用工作人员从客户信息资料中提取出关键信息，造成工作人员工作强度大的问题。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于语义识别的授信客户分级方法解决了现有授信客户分级方法存在工作人员工作强度大、以及分级精度不高的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于语义识别的授信客户分级方法，包括以下步骤：

S1、根据客户的信息资料中标点符号所在位置，对客户的信息资料中文字信息进行分句处理，得到多条客户信息；

S2、将每条客户信息进行编码处理，得到客户信息向量；

S3、计算出客户信息向量的重要度，并筛选出有效客户信息向量；

S4、通过语义提取模型对多个有效客户信息向量和重要度进行处理，得到客户收入信息、客户消费信息、客户资产信息和客户负债信息；

S5、根据客户收入信息、客户消费信息、客户资产信息和客户负债信息，计算授信客户信用等级。

综上，本发明的有益效果为：本发明中步骤S1实现对信息资料的分句处理，将原始的信息资料，拆分成多条客户信息，对每条客户信息进行编码处理，得到多条客户信息向量，并通过重要度衡量每条客户信息向量的内容重要情况，筛选出有效客户信息向量，实现将部分与客户收入信息、客户消费信息、客户资产信息和客户负债信息无关的内容丢弃，采用语义提取模型对多个有效客户信息向量和重要度进行处理，有效客户信息向量中包含了客户信息，重要度在语义提取模型起对有效客户信息向量特征施加更多关注度的目的，使得语义提取模型对重要特征施加更多关注度，提高语义提取精度，根据提取的客户收入信息、客户消费信息、客户资产信息和客户负债信息，计算出授信客户信用等级，一方面减少了工作人员的工作量，另一方面授信客户分级完全出自于客观角度，不存在主观因素，提高了分级的精度。

进一步地，所述S3具体包括：统计出客户信息向量中每个词向量出现在所有客户信息向量中的次数，并基于词向量权重，计算出客户信息向量的重要度，将重要度大于阈值的客户信息向量筛选出来，作为有效客户信息向量。

进一步地，所述计算出客户信息向量的重要度的公式为：

，

其中，Im_i为第i条客户信息向量的重要度，T_i,j为第i条客户信息向量中第j个词向量在所有客户信息向量中出现的次数，w_i,j为第i条客户信息向量中第j个词向量的权重，J为客户信息向量中词向量的数量。

上述进一步地方案的有益效果为：本发明中根据每个词向量出现在所有客户信息向量中的次数，以及词向量权重，从而计算出每条客户信息向量的重要度，词向量权重为提前设定好的，对关键信息的词向量权重设定较大，对非关键信息的词向量权重设定较小或者设定为0，在词向量权重越大，词向量出现次数越多时，对应的客户信息向量的重要度越高。

进一步地，所述S4中语义提取模型包括：信息特征提取单元、Concat单元、LSTM单元和CRF解码单元，其中，信息特征提取单元的数量大于等于2；

每个所述信息特征提取单元的输入端用于输入一条客户信息向量；所述Concat单元的输入端分别与多个信息特征提取单元的输出端连接，其输出端与LSTM单元的输入端连接；所述CRF解码单元的输入端与LSTM单元的输出端连接，其输出端作为语义提取模型的输出端。

上述进一步地方案的有益效果为：本发明中一个信息特征提取单元用于处理一条客户信息向量，从而提取出客户信息特征，Concat单元用于将所有客户信息特征进行拼接，得到拼接特征，再利用LSTM单元的记忆性，提高语义提取的精度，最后采用CRF解码单元进行解码处理，还原文字信息。

进一步地，所述信息特征提取单元包括：信息特征提取模块、信息权重输出模块和乘法器；

所述信息特征提取模块的输入端与信息权重输出模块的输入端连接，并作为信息特征提取单元的输入端；所述乘法器的第一输入端与信息特征提取模块的输出端连接，其第二输入端与信息权重输出模块的输出端连接，其输出端作为信息特征提取单元的输出端。

进一步地，所述信息权重输出模块的表达式为：

，

其中，ω_k为信息权重输出模块输出的第k个权重，Im_i为第i条客户信息向量的重要度，arctan为反正切函数，x_i,k为第i条客户信息向量中第k个元素，K为客户信息向量中元素的数量，u为调节系数。

上述进一步地方案的有益效果为：本发明中信息权重输出模块中考虑每条客户信息向量的重要度和客户信息向量中元素所占权重，从而得到信息权重输出模块输出的多个权重，在客户信息向量的重要度越高时，对信息特征提取模块输出的特征施加的关注度越高，从而自适应的增强关键信息的关注度。

进一步地，所述信息特征提取模块包括：第一卷积层、第二卷积层、第三卷积层、第一BN层、第二BN层、第三BN层、第一上采样层、第二上采样层、第三上采样层、加法器、最大池化层和平均池化层；

所述第一卷积层的输入端作为信息特征提取模块的输入端；所述第一BN层的输入端与第一卷积层的输出端连接，其输出端分别与第二卷积层的输入端和第一上采样层的输入端连接；所述第二BN层的输入端与第二卷积层的输出端连接，其输出端分别与第二上采样层的输入端和第三卷积层的输入端连接；所述第三BN层的输入端与第三卷积层的输出端连接，其输出端与第三上采样层的输入端连接；所述加法器的输入端分别与第一上采样层的输出端、第二上采样层的输出端和第三上采样层的输出端连接，其输出端分别与最大池化层的输入端和平均池化层的输入端连接；所述最大池化层的输出端和平均池化层的输出端均作为信息特征提取模块的输出端。

上述进一步地方案的有益效果为：本发明设置了三个上采样层，采集不同层次的特征，在加法器处实现特征的融合，再通过最大池化层提取显著特征，平均池化层提取全局特征，实现减少数据量的同时，最大程度保留住特征信息。

进一步地，所述S4使用的语义提取模型为采用样本训练后的语义提取模型，训练语义提取模型的损失函数为：

，

其中，loss为损失函数，| |为取绝对值，y_m为训练过程中语义提取模型输出第m个预测值，Y_m为标签中第m个实际值，M为实际值Y_m或预测值y_m的数量，G为相关度，ln为对数函数。

进一步地，所述相关度G的计算公式为：

，

其中，y_m为训练过程中语义提取模型输出第m个预测值，Y_m为标签中第m个实际值，M为实际值Y_m或预测值y_m的数量。

上述进一步地方案的有益效果为：本发明中损失函数反映了预测值构成的向量与标签的相关性，损失函数越小，预测值与标签越相近。

进一步地，所述S5中计算授信客户信用等级的公式为：

，

其中，d为授信客户信用等级，p为客户资产信息中资产值，in为客户收入信息中收入值，C为客户消费信息中消费值，li为客户负债信息中负债值。

附图说明

图1为一种基于语义识别的授信客户分级方法的流程图；

图2为语义提取模型的结构示意图；

图3为信息特征提取单元的结构示意图；

图4为信息特征提取模块的结构示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于语义识别的授信客户分级方法，包括以下步骤：

S1、根据客户的信息资料中标点符号所在位置，对客户的信息资料中文字信息进行分句处理，得到多条客户信息；在本实施例中，标点符号包括句号和分号等；

S2、将每条客户信息进行编码处理，得到客户信息向量；

本发明中步骤S1实现对信息资料的分句处理，将原始的信息资料，拆分成多条客户信息，对每条客户信息进行编码处理，得到多条客户信息向量，并通过重要度衡量每条客户信息向量的内容重要情况，筛选出有效客户信息向量，实现将部分与客户收入信息、客户消费信息、客户资产信息和客户负债信息无关的内容丢弃，采用语义提取模型对多个有效客户信息向量和重要度进行处理，有效客户信息向量中包含了客户信息，重要度在语义提取模型起对有效客户信息向量特征施加更多关注度的目的，使得语义提取模型对重要特征施加更多关注度，提高语义提取精度，根据提取的客户收入信息、客户消费信息、客户资产信息和客户负债信息，计算出授信客户信用等级，一方面减少了工作人员的工作量，另一方面授信客户分级完全出自于客观角度，不存在主观因素，提高了分级的精度。

所述S3具体包括：统计出客户信息向量中每个词向量出现在所有客户信息向量中的次数，并基于词向量权重，计算出客户信息向量的重要度，将重要度大于阈值的客户信息向量筛选出来，作为有效客户信息向量。

所述计算出客户信息向量的重要度的公式为：

，

本发明中根据每个词向量出现在所有客户信息向量中的次数，以及词向量权重，从而计算出每条客户信息向量的重要度，词向量权重为提前设定好的，对关键信息的词向量权重设定较大，对非关键信息的词向量权重设定较小或者设定为0，在词向量权重越大，词向量出现次数越多时，对应的客户信息向量的重要度越高。

如图2所示，所述S4中语义提取模型包括：信息特征提取单元、Concat单元、LSTM单元和CRF解码单元，其中，信息特征提取单元的数量大于等于2；

本发明中一个信息特征提取单元用于处理一条客户信息向量，从而提取出客户信息特征，Concat单元用于将所有客户信息特征进行拼接，得到拼接特征，再利用LSTM单元的记忆性，提高语义提取的精度，最后采用CRF解码单元进行解码处理，还原文字信息。

在图2中，包括：第1信息特征提取单元到第N信息特征提取单元，共N个信息特征提取单元，可用于同时输入N条客户信息向量。

如图3所示，所述信息特征提取单元包括：信息特征提取模块、信息权重输出模块和乘法器；

所述信息权重输出模块的表达式为：

，

本发明中信息权重输出模块中考虑每条客户信息向量的重要度和客户信息向量中元素所占权重，从而得到信息权重输出模块输出的多个权重，在客户信息向量的重要度越高时，对信息特征提取模块输出的特征施加的关注度越高，从而自适应的增强关键信息的关注度。

如图4所示，所述信息特征提取模块包括：第一卷积层、第二卷积层、第三卷积层、第一BN层、第二BN层、第三BN层、第一上采样层、第二上采样层、第三上采样层、加法器、最大池化层和平均池化层；

本发明设置了三个上采样层，采集不同层次的特征，在加法器处实现特征的融合，再通过最大池化层提取显著特征，平均池化层提取全局特征，实现减少数据量的同时，最大程度保留住特征信息。

所述S4使用的语义提取模型为采用样本训练后的语义提取模型，训练语义提取模型的损失函数为：

，

所述相关度G的计算公式为：

，

本实施例中，训练语义提取模型的样本为有效客户信息向量标注标签后的数据，其中标签包括：客户收入信息、客户消费信息、客户资产信息和客户负债信息。

本发明中损失函数反映了预测值构成的向量与标签的相关性，损失函数越小，预测值与标签越相近。

所述S5中计算授信客户信用等级的公式为：

，

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义识别的授信客户分级方法，其特征在于，包括以下步骤：

S2、将每条客户信息进行编码处理，得到客户信息向量；

S5、根据客户收入信息、客户消费信息、客户资产信息和客户负债信息，计算授信客户信用等级；

所述S3具体包括：统计出客户信息向量中每个词向量出现在所有客户信息向量中的次数，并基于词向量权重，计算出客户信息向量的重要度，将重要度大于阈值的客户信息向量筛选出来，作为有效客户信息向量；

所述计算出客户信息向量的重要度的公式为：

，

其中，Im_i为第i条客户信息向量的重要度，T_i,j为第i条客户信息向量中第j个词向量在所有客户信息向量中出现的次数，w_i,j为第i条客户信息向量中第j个词向量的权重，J为客户信息向量中词向量的数量；

所述S4中语义提取模型包括：信息特征提取单元、Concat单元、LSTM单元和CRF解码单元，其中，信息特征提取单元的数量大于等于2；

每个所述信息特征提取单元的输入端用于输入一条客户信息向量；所述Concat单元的输入端分别与多个信息特征提取单元的输出端连接，其输出端与LSTM单元的输入端连接；所述CRF解码单元的输入端与LSTM单元的输出端连接，其输出端作为语义提取模型的输出端；

所述信息特征提取单元包括：信息特征提取模块、信息权重输出模块和乘法器；

所述信息特征提取模块的输入端与信息权重输出模块的输入端连接，并作为信息特征提取单元的输入端；所述乘法器的第一输入端与信息特征提取模块的输出端连接，其第二输入端与信息权重输出模块的输出端连接，其输出端作为信息特征提取单元的输出端；

所述信息权重输出模块的表达式为：

，

其中，ω_k为信息权重输出模块输出的第k个权重，Im_i为第i条客户信息向量的重要度，arctan为反正切函数，x_i,k为第i条客户信息向量中第k个元素，K为客户信息向量中元素的数量，u为调节系数；

所述S5中计算授信客户信用等级的公式为：

，

2.根据权利要求1所述的基于语义识别的授信客户分级方法，其特征在于，所述信息特征提取模块包括：第一卷积层、第二卷积层、第三卷积层、第一BN层、第二BN层、第三BN层、第一上采样层、第二上采样层、第三上采样层、加法器、最大池化层和平均池化层；

3.根据权利要求1所述的基于语义识别的授信客户分级方法，其特征在于，所述S4使用的语义提取模型为采用样本训练后的语义提取模型，训练语义提取模型的损失函数为：

，

4.根据权利要求3所述的基于语义识别的授信客户分级方法，其特征在于，所述相关度G的计算公式为：

，