CN114528395A

CN114528395A - 一种文本字词特征双线注意力融合的风险预测方法

Info

Publication number: CN114528395A
Application number: CN202111630889.8A
Authority: CN
Inventors: 王宣皓; 唐文华
Original assignee: Tianyi Electronic Commerce Co Ltd
Current assignee: Tianyi Electronic Commerce Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-24

Abstract

本发明公开了一种文本字词特征双线注意力融合的风险预测方法，主要包括以下流程步骤：S1、抽取智能客服系统平台中历史用户咨询投诉数据集，预处理用户工单数据关联表中的数据；S2、提取用户工单数据中业务内容项，筛选业务内容中有效文本信息，对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理；本发明在投诉基础特征上添加业务内容中文本信息的理解，相比传统风险预测方法更好的捕捉用户意图信息，提升高投诉风险预测准确性；只需要构建相应的标准词汇库，便能更精确的挖掘文本专业词汇信息，具有一定的可迁移性，提升高投诉风险预测模型准确性；使得模型具有更强泛化能力，并有效防止过拟合现象。

Description

一种文本字词特征双线注意力融合的风险预测方法

技术领域

本发明涉及通讯支付领域，特别涉及一种文本字词特征双线注意力融合的风险预测方法。

背景技术

目前，在金融领域中对于用户投诉预测的主流方法多是使用基础客诉特征模型对用户投诉风险进行类别的划分，但往往用户提供的文本投诉信息更能反映用户真实特征，然而传统方法缺失对该类特征的分析，并且基础客诉特征单一，容易导致模型过拟合，使得模型预测效果不佳。

本方案提出：1.将文本特征融入原本的基础特征模型，并且进一步提出一种新的将文本字、词特征融合的策略，实现两种差异性较大的特征向量有效融合，提升高风险投诉用户预测模型对文本语义的理解能力；2.针对差异性较大的多特征输入模型，设计具有阈值控制项与均分分布项的交叉熵损失函数，有效防止模型过拟合现象，并实现阈值自主控制，提升投诉预测准确性。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种文本字词特征双线注意力融合的风险预测方法，通过在投诉数据的基础特征上结合文本的字、词汇特征信息，更精确的了解客户的意图，并设计具有阈值控制项与均分分布项的交叉熵损失函数，使得投诉风险预测更为准确，便于精准服务高风险投诉用户，提升客户服务质量。

本发明提供了如下的技术方案：

本发明提供一种文本字词特征双线注意力融合的风险预测方法，主要包括以下流程步骤：

S1、抽取智能客服系统平台中历史用户咨询投诉数据集，预处理用户工单数据关联表中的数据；

S2、提取用户工单数据中业务内容项，筛选业务内容中有效文本信息，对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理；

S3、构建多层全连接特征提取网络，将投诉投诉基础特征作为一个网络的输入，实现对基础投诉风险特征进行提取，网络结构图如图3所示；

S4、构建基于文本字、词汇特征的融合与特征提取网络，将投诉文本特征作为另外一个网络的输入，网络结构如图4所示，具体过程如下：

1).文本字特征与词汇特征融合的方法：字符表示矩阵为与词汇表示矩阵作为双通道输入，提出文本字词特征双线注意力融合策略，具体计算公式如下：

其中X^T、Y^T为我们输入的文本字特征向量与文本词汇特征向量，通过文本字符特征与文本词汇的求和与作差的方式，让文本特征表示具有更为广泛的语义表达能力，其中U′、V′、

为随机初始权重特征向量；

2).通过双向门控循环Bi-GRU网络记录上下文相关语义特征，捕捉到较长距离的文本依赖关系；

3).将上述特征进行拼接，得出高投诉风险文本字词关键特征信息，通过Softmax分类器实现用户投诉类别的划分；

4).设定模型损失函数：模型以交叉熵为基础损失函数，通过在交叉熵损失函数上使用阈值控制函数使模型训练更加充分，并添加预测均匀分布项防止过拟合现象，最终模型损失函数为：

其中

为均匀分布项，n代表本轮迭代预测数据的个数，η值是自定义的均匀分布项所占的比重，其主要是对模型预测是否准确的概率分布进行平均处理，添加均匀分布项能够防止过拟合。阈值控制函数λ(y_t，y_p)具体计算如下：

λ(y_t，y_p)＝1-θ(y_t-m)θ(y_p-m)-θ(1-y_t-m)θ(1-m-y_p)

θ(x)＝(Tanh(x)+1)/2

其中m是设定的阈值控制参数，通过预测值与真实值的阈值差值，实现模型预测准确的阈值控制，使得模型能够更加看重预测值与真实值差别较大的情况；

S5、将多层全连接特征提取网络与基于文本字、词汇特征的融合与提取网络，得出完整模型，在实验数据集上进行模型训练，使得模型用户投诉风险类别(无风险，低风险，高风险)，完整模型结如图5所示。

与现有技术相比，本发明的有益效果如下：

1.融入文本意图识别的高投诉风险预测模型，在投诉基础特征上添加业务内容中文本信息的理解，相比传统风险预测方法更好的捕捉用户意图信息，提升高投诉风险预测准确性；

2.在高投诉风险预测模型中融入文本标准词汇表征，只需要构建相应的标准词汇库，便能更精确的挖掘文本专业词汇信息，具有一定的可迁移性，提升高投诉风险预测模型准确性；

3.设计模型损失函数，使得模型具有更强泛化能力，并有效防止过拟合现象。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明的融入文本字词特征的投诉风险预测流程图；

图2是本发明的投诉风险模型特征提取方案示意图；

图3是本发明的多层全连接特征提取网络示意图；

图4是本发明的文本字、词汇特征的融合与提取网络示意图；

图5是本发明的文本字词特征双线注意力融合策略的风险预测模型。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。

实施例1

如图1-5，本发明提供一种文本字词特征双线注意力融合的风险预测方法，如图1所示，包括以下流程步骤：

S1、智能客服系统平台中历史用户咨询投诉数据集抽取，构建用户工单数据关联信息表，以用户支付账号信息作为多个数据库表的关联信息，将用户基本信息与工单小结单等数据进行合并，对用户工单数据关联表进行数据的预处理；

1).采集历史时间段中完整的咨询投诉工单数据，例如，抽取某月中无缺失日期的当月所有工单特征数据；分析具有高投诉意向的用户工单数据的特征，其中包括用户年龄段，用户所在地，用户支付账号信息，咨询投诉业务内容，业务服务请求类别，工单受理时间，工单受理渠道，工单受理类型；

2).对数据集进行清洗，筛选出不具有异常字段的数据，去除部分无投诉风险用户工单数据，其中包括账号密码遗忘类用户工单数据，用户回馈已解决咨询类工单数据，用户投诉类工单质检结果为满意的工单；

3).构建模型训练实验数据，选择越级投诉工单数据为负样例数据，其他数据为正样例数据，计算正负样例数据占比，采用随机抽取方式在多数正样例数据抽取工单数据，通过模拟数据方案，扩充负样本数据，以保证数据正负样例均衡；

S2.提取用户工单数据中业务内容项，筛选业务内容中有效文本信息，对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理：

(a)提取用户工单数据中业务内容项：

(1).剔除非中文信息；(2).依据停用词表去除文本中无关词汇；

(3).构建工程领域专业词汇词典，投诉倾向敏感词汇词典，情绪表现词汇词典，组合成为标准词汇库，其中词汇样例表如下表1所示：

表1词汇样例表

(b)对实验数据进行特征工程处理：

(1).根据数据分析统计高投诉风险项，提取历史投诉风险基础特征，具体特征提取方案如图2所示；

(2).文本特征处理与表示：使用将文本中字符、词汇信息通过分词器和编码器将文字转化为数字表示特征，并将两种特征进行维度转换的方法如下：

I).对文本使用Tokenizer标记器和Encoder编码器标记编码文本字符，通过Bert预训练模型预测得到文本字符级表示特征，预测生成字符表示矩阵为BW。

II).在Jieba分词库中引入标准词汇库，本专利将Jieba分词器替换WoBert自身Tokenizer分词器，使得WoBert模型可以引入外部标准词汇表示特征，预测生成词汇表示矩阵SW。

III).根据字符词汇之间对应关系将词汇表示矩阵SW维度扩充为BW维度矩阵，实现字符表示矩阵与词汇表示矩阵维度转换，便于后续模型计算。

1).文本字符特征与词汇特征融合的方法：字符表示矩阵为与词汇表示矩阵作为双通道输入，通过文本字词特征双线注意力融合实现，具体计算公式如下：

3).将上述特征进行拼接，得出高投诉风险文本字词关键特征信息，通过Softmax分类器实现用户投诉类别的划分：

η值是自定义的均匀分布项所占的比重，本专利设定η值为0.8，给均匀分布项0.2的权重信息。阈值控制函数λ(y_t，y_p)具体计算如下：

λ(y_t，y_p)＝1-θ(y_t-m)θ(y_p-m)-θ(1-y_t-m)θ(1-m-y_p)

θ(x)＝(Tanh(x)+1)/2

其中m是设定的阈值控制参数，本专利设定m为0.6，将阈值范围控制在0.4～0.6之间。

S8.在实验数据集上进行模型训练，通过对每日工单数据特征提取与模型预测，得到对应用户投诉风险结果，将结果与提取到的特征信息一同保存到数据库中，前台质检人员可以通过条件筛选的方式，提取高风险投诉用户信息，并进行相应质检环节。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本字词特征双线注意力融合的风险预测方法，其特征在于，主要包括以下流程步骤：

S3、构建多层全连接特征提取网络，将投诉投诉基础特征作为一个网络的输入，实现对基础投诉风险特征进行提取；

S4、构建基于文本字、词汇特征的融合与特征提取网络，将投诉文本特征作为另外一个网络的输入，具体过程如下：

为随机初始权重特征向量；

其中

为均匀分布项，n代表本轮迭代预测数据的个数，η值是自定义的均匀分布项所占的比重，其主要是对模型预测是否准确的概率分布进行平均处理，添加均匀分布项能够防止过拟合；阈值控制函数λ(y_t，y_p)具体计算如下：

λ(y_t，y_p)＝1-θ(y_t-m)θ(y_p-m)-θ(1-y_t-m)θ(1-m-y_p)

θ(x)＝(Tanh(x)+1)/2

S5、将多层全连接特征提取网络与基于文本字、词汇特征的融合与提取网络，得出完整模型，在实验数据集上进行模型训练，使得模型用户投诉风险类别(无风险，低风险，高风险)。