CN112463922A

CN112463922A - 一种风险用户识别方法及存储介质

Info

Publication number: CN112463922A
Application number: CN202011342280.6A
Authority: CN
Inventors: 刘晓东; 陶坤旺; 蓝玉珍; 赵阳阳; 何望君; 仇阿根; 石丽红; 张福浩; 刘振华
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-09

Abstract

一种风险用户识别方法及其存储介质，其中所述方法，首先对非结构化的用户文本描述数据预处理，对预处理后的用户信息数据，采用BERT模型进行字向量提取，然后通过LSTM模型捕捉所述关键字特征向量中的语义信息，得到提取用户信息的高级特征向量，利用所述高级特征向量，经过线性公式计算，输出用户违约概率，实现风险用户识别。本发明在于结合BERT模型与LSTM模型对非结构化的用户文本描述数据进行风险用户识别，消除梯度消失问题，提高风险用户识别的速度，采用双向LSTM模型，有效的利用文档信息，从而使特征更具判断力，提高风险用户识别的准确度。

Description

一种风险用户识别方法及存储介质

技术领域

本发明涉及自然语言处理技术领域，具体的，涉及一种风险用户识别方法及存储介质。

背景技术

“互联网+”模式的兴起、运营商之间的竞争白热化，对于金融业、电信运营商、餐饮服务行业以及其他领域，用户风险识别具有举足轻重的作用。互联网和计算领域发展的金融平台提供产品或者服务前，会对用户信息进行全面审核与信用评估，最终根据结果来判断是否提供用户相应服务。用户信息主要有两种存储格式，一种是利用表格或结构化数据库对用户属性进行存储，记录年龄、收入、信用卡额度、违约次数等与信用相关的属性值。一种是非结构化的文本描述，例如：张三性别男，家住北京市丰台区莲花小区，于北京市哈林伟业有限公司工作，信用卡逾期金额三千，逾期九十天，因房屋买卖纠纷赔偿原告李四二十万，移动电话欠费五百元。

目前，各种不良贷款率飙升，各种平台跑路的信息不绝于耳，需要对信用风险的控制进一步探索，采用更加自动化，更为智能的方法来提高平台的审核效率和准确率。传统的信用风险评估审核方法，需要人工审核，过分依赖央行征信系统，已经无法满足平台对于审核效率、质量等风险控制的要求。

因此，如何克服上述不足，快速而高效的对用户进行风险识别成为亟需解决的技术问题。

发明内容

为了克服人工筛选风险用户工作方式中存在的效率不高、工作量大、缺乏科学性等问题，本发明提出一种风险用户识别方法，以提高风险用户识别的速度和准确度。

为达此目的，本发明采用以下技术方案：

一种风险用户识别方法，其特征在于，包括如下步骤：

数据预处理步骤S110：

对非结构化的用户文本描述数据预处理，过滤掉无关信息，主要包括：删除标点符号、删除空格等，在用户数据中引入领域词典，对数据作分词处理，利用通用停用词库进行停用词过滤，去掉分词后的用户文本数据中对应的停用词；

用户特征向量提取与处理步骤S120：

对预处理后的用户信息数据，例如非结构化的用户文本描述数据，采用BERT模型进行字向量提取，获取关键字特征向量，然后将所述关键字特征向量作为输入，通过LSTM模型捕捉所述关键字特征向量中的语义信息，得到提取用户信息的高级特征向量，以表征用户信息；

计算用户违约概率值S130：接收在步骤S120中所提取的用户信息的高级特征向量，经过线性公式计算，输出用户违约概率，实现风险用户识别。

可选的，在步骤S110中，所述非结构化的用户文本描述数据为描述用户经济和个人信息情况的自然文本语言。

可选的，在步骤S120中，所述BERT模型采用表义能力更强的双向编码结构来对语料进行训练，实现语料训练的深度双向表示。

可选的，在步骤S120中，所述LSTM模型为一种双向的改进的循环神经网络。

可选的，在步骤S120中，所述LSTM模型由3个门结构和1个状态单元组成，所述3个门结构包括输入门、遗忘门、输出门；

其中，所述输入门接收两个输入，即上一时刻LSTM模型的输出结果h_t-1和当前时刻的输入x_t，t时刻的输入门的输出i_t计算公式为：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

其中，σ为sigmoid函数，W_i表示输入门的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，b_i为输入门的偏置项；

所述遗忘门的输出f_t同样接收上一时刻LSTM模型的输出结果h_t-1和当前时刻的输入x_t，并决定是否从状态单元中丢弃信息，输出计算式为：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

其中，σ是sigmoid函数，W_f是遗忘门的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，b_f是遗忘门的偏置项。

当前时刻的即时状态单元值

表示为：

其中，W_C是

的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，tanh表示双曲正切激活函数，b_C是

的偏置项。

则当前时刻的状态单元C_t接收输入门和遗忘门的值，表示为：

其中，C_t-1为上一时刻的单元状态，初始化为1。

输出门o_t用于控制LSTM状态单元的输出，表达式为：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

其中，σ是sigmoid函数，W_o是输出门的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，b_o是输出门的偏置项。

最终所述LSTM模型当前时刻状态单元的输出h_t表示为：

h_t＝o_t*tanh(C_t)。

可选的，在步骤S120中，所述BERT模型进行字向量提取，所述字向量通过双向的LSTM模型得到正向LSTM和反向LSTM提取出上下文特征，顺序拼接最终生成得到提取用户信息的高级特征向量。

可选的，在步骤S130中，概率值计算的所述线性公式为：

Y＝W₁H₁+w₂H₂+…+W_nH_n+b_n

W_n为样本数据调校的权重矩阵，通过所提出的模型对数据进行训练，获得模型的最优参数，b_n为调校的偏置项。

本发明进一步公开了一种存储介质，用于存储计算机可执行指令，其特征在于：

所述计算机可执行指令在被处理器执行时执行上述的风险用户识别方法。

本发明提供的风险用户识别方法，与现有技术相比，具有如下优势：

1)由于本发明将BERT模型与LSTM神经网络相融合，BERT模型融合当前词左右两侧的语境，获取关键字特征向量，然后通过LSTM层捕捉句子中的语义信息，提取用户信息特征向量，并且消除梯度消失问题，进而提高风险用户识别的速度。

2)由于本发明采用双向LSTM模型，有效的利用文档信息，从而使特征更具判断力，进一步提高风险用户识别的准确度。

附图说明

图1是根据本发明具体实施例的风险用户识别方法的基础流程图；

图2是根据本发明具体实施例的用户识别方法的整体模型图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

本发明在于结合双向编码器模型(Bidirectional Encoder Representationfrom Transformers，BERT)与长短期记忆网络模型(Long Short-Term Memory，LSTM)对非结构化的用户文本描述数据进行风险用户识别。首先采用BERT层进行字向量提取，获取关键字特征向量，然后通过LSTM层捕捉句子中的语义信息，提取用户信息高级特征向量，从而使特征更具判断力，提高风险用户识别的准确度，最后输出用户违约概率值。

通过概率信息提供风险用户的参考，为进一步的各类生产、经济、以及其他社会化活动的参加提供参考。

参见图1，示出了根据本发明具体实施例的风险用户识别方法的基础流程图。

数据预处理步骤S110：

对非结构化的用户文本描述数据预处理，过滤掉无关信息，主要包括：删除标点符号、删除空格等，在用户数据中引入领域词典，对数据作分词处理，利用通用停用词库进行停用词过滤，去掉分词后的用户文本数据中对应的停用词。

其中所述非结构化的用户文本描述数据为描述用户经济和个人信息情况的自然文本语言，例如：张三性别男，家住北京市丰台区莲花小区，于北京市哈林伟业有限公司工作，信用卡逾期金额三千，逾期九十天，因房屋买卖纠纷赔偿原告李四二十万，移动电话欠费五百元。

用户特征向量提取与处理步骤S120：

对预处理后的用户信息数据，例如非结构化的用户文本描述数据，采用BERT模型进行字向量提取，获取关键字特征向量，然后将所述关键字特征向量作为输入，通过LSTM模型捕捉所述关键字特征向量中的语义信息，得到提取用户信息的高级特征向量，以表征用户信息。

具体的，所述BERT模型采用表义能力更强的双向编码结构来对语料进行训练，实现语料训练的深度双向表示。BERT模型的“掩盖语言模型机制”(masked language model，MLM)可以融合当前词左右两侧的语境，获取关键字特征表示向量。

具体的，长短期记忆网络模型(Long Short-Term Memory，LSTM模型)为一种双向的改进的循环神经网络，可以较好地解决循环神经的长期依赖问题。

具体的，所述LSTM模型由3个门结构和1个状态单元组成，所述3个门结构包括输入门、遗忘门、输出门；

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

＝(·[h_-1，]+)

其中，是sigmoid函数，是遗忘门的权重矩阵，[h_-1，]表示把两个向量连接成一个更长的向量，是遗忘门的偏置项。

当前时刻的即时状态单元值～，表示为：

～＝tanh(·[h_-1，]+)

其中，是～的权重矩阵，[h_-1，]表示把两个向量连接成一个更长的向量，tanh表示双曲正切激活函数，是～的偏置项。

则当前时刻的状态单元接收输入门和遗忘门的值，表示为：

＝*_-1+*～

其中，_-1为上一时刻的单元状态，初始化为1。

输出门用于控制LSTM状态单元的输出，表达式为：

＝([h_-1，]+)

其中，是sigmoid函数，是输出门的权重矩阵，[h_-1，]表示把两个向量连接成一个更长的向量，是输出门的偏置项。

最终所述LSTM模型当前时刻状态单元的输出h表示为：

h＝*tanh()

通过LSTM神经网络，能更有效地利用用户信息，可以更好地提取用户信息特征向量。

更进一步的，所述BERT模型进行字向量提取，所述字向量通过双向的LSTM模型得到正向LSTM和反向LSTM提取出上下文特征，顺序拼接最终生成得到提取用户信息的高级特征向量。

计算用户违约概率值S130：通过输出层接收在步骤S120中所提取的用户信息的高级特征向量，经过线性公式计算，输出用户违约概率，实现风险用户识别。

可选的，输出层的概率值计算的线性公式为：

＝₁₁+₂₂+…+ +

其中，为样本数据调校的权重矩阵，该权重矩阵利用样本数据为非结构化的用户信息文本描述，通过所提出的模型对数据进行训练，获得模型的最优参数，为调校的偏置项。

参见图2，在本发明中该用户风险识别方法包括相应的风险用户识别处理模型，包括：

输入层，用于输入待处理的用户信息数据，例如非结构化的用户文本描述数据，并进行步骤S110中的数据预处理步骤；

BERT层，用于实现所述BERT模型，对字向量进行提取，获取关键字特征向量；

LSTM层，用于实现双向的所述LSTM模型，得到正向LSTM和反向LSTM提取出上下文特征，顺序拼接最终生成得到提取用户信息的高级特征向量；

输出层，用于接收所提取的用户信息特征向量，经过线性公式计算，输出用户违约概率，实现风险用户识别。

输出层的概率值计算的线性公式为：

＝₁₁+₂₂+…+ +

一种存储介质，用于存储计算机可执行指令，其特征在于：

实施例：

本发明提供了一种风险用户识别方法：首先将对用户信息预处理并组成文本(₁，₂，…，)，将其输入到BERT层。其中表示输入文本中的第i个字，模型根据文本中的每一个字生成特征向量。基于BERT的字向量表示层中的Transformer(Trm)将转换成字向量＝(₁，₂，…，)。将作为双向LSTM各个时间步的输入并进行特征计算，通过双向LSTM的正向LSTM＝(₁，₂，…，)反向LSTM＝(₁，₂，…，)提取出上下文特征，顺序拼接生成特征矩阵＝(₁，₂，…，)，捕捉句子中双向的语义信息。最后经过线性公式计算，输出用户违约概率。

1)由于本发明将BERT模型与LSTM模型相融合，BERT模型融合当前词左右两侧的语境，获取关键字特征向量，然后通过LSTM模型捕捉句子中的语义信息，提取用户信息特征向量，并且消除梯度消失问题，进而提高风险用户识别的速度。

显然，本领域技术人员应该明白，上述的本发明的各单元或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定保护范围。

Claims

1.一种风险用户识别方法，其特征在于，包括如下步骤：

数据预处理步骤S110：

用户特征向量提取与处理步骤S120：

2.根据权利要求1所述的风险用户识别方法，其特征在于：

在步骤S110中，所述非结构化的用户文本描述数据为描述用户经济和个人信息情况的自然文本语言。

3.根据权利要求1所述的风险用户识别方法，其特征在于：

在步骤S120中，所述BERT模型采用表义能力更强的双向编码结构来对语料进行训练，实现语料训练的深度双向表示。

4.根据权利要求1所述的风险用户识别方法，其特征在于：

在步骤S120中，所述LSTM模型为一种双向的改进的循环神经网络。

5.根据权利要求1所述的风险用户识别方法，其特征在于：

在步骤S120中，所述LSTM模型由3个门结构和1个状态单元组成，所述3个门结构包括输入门、遗忘门、输出门；

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

当前时刻的即时状态单元值

表示为：

其中，W_C是

的偏置项。

其中，C_t-1为上一时刻的单元状态，初始化为1。

输出门o_t用于控制LSTM状态单元的输出，表达式为：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

最终所述LSTM模型当前时刻状态单元的输出h_t表示为：

h_t＝o_t*tanh(C_t)。

6.根据权利要求5所述的风险用户识别方法，其特征在于：

在步骤S120中，所述BERT模型进行字向量提取，所述字向量通过双向的LSTM模型得到正向LSTM和反向LSTM提取出上下文特征，顺序拼接最终生成得到提取用户信息的高级特征向量。

7.根据权利要求1-6中任意一项所述的风险用户识别方法，其特征在于：

在步骤S130中，概率值计算的所述线性公式为：

Y＝W₁H₁+w₂H₂+…+W_nH_n+b_n

8.一种存储介质，用于存储计算机可执行指令，其特征在于：

所述计算机可执行指令在被处理器执行时执行权利要求1-7中任意一项所述的风险用户识别方法。