CN114528395A - 一种文本字词特征双线注意力融合的风险预测方法 - Google Patents

一种文本字词特征双线注意力融合的风险预测方法 Download PDF

Info

Publication number
CN114528395A
CN114528395A CN202111630889.8A CN202111630889A CN114528395A CN 114528395 A CN114528395 A CN 114528395A CN 202111630889 A CN202111630889 A CN 202111630889A CN 114528395 A CN114528395 A CN 114528395A
Authority
CN
China
Prior art keywords
text
complaint
model
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111630889.8A
Other languages
English (en)
Inventor
王宣皓
唐文华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Electronic Commerce Co Ltd
Original Assignee
Tianyi Electronic Commerce Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Electronic Commerce Co Ltd filed Critical Tianyi Electronic Commerce Co Ltd
Priority to CN202111630889.8A priority Critical patent/CN114528395A/zh
Publication of CN114528395A publication Critical patent/CN114528395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Technology Law (AREA)
  • Educational Administration (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本字词特征双线注意力融合的风险预测方法,主要包括以下流程步骤:S1、抽取智能客服系统平台中历史用户咨询投诉数据集,预处理用户工单数据关联表中的数据;S2、提取用户工单数据中业务内容项,筛选业务内容中有效文本信息,对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理;本发明在投诉基础特征上添加业务内容中文本信息的理解,相比传统风险预测方法更好的捕捉用户意图信息,提升高投诉风险预测准确性;只需要构建相应的标准词汇库,便能更精确的挖掘文本专业词汇信息,具有一定的可迁移性,提升高投诉风险预测模型准确性;使得模型具有更强泛化能力,并有效防止过拟合现象。

Description

一种文本字词特征双线注意力融合的风险预测方法
技术领域
本发明涉及通讯支付领域,特别涉及一种文本字词特征双线注意力融合的风险预测方法。
背景技术
目前,在金融领域中对于用户投诉预测的主流方法多是使用基础客诉特征模型对用户投诉风险进行类别的划分,但往往用户提供的文本投诉信息更能反映用户真实特征,然而传统方法缺失对该类特征的分析,并且基础客诉特征单一,容易导致模型过拟合,使得模型预测效果不佳。
本方案提出:1.将文本特征融入原本的基础特征模型,并且进一步提出一种新的将文本字、词特征融合的策略,实现两种差异性较大的特征向量有效融合,提升高风险投诉用户预测模型对文本语义的理解能力;2.针对差异性较大的多特征输入模型,设计具有阈值控制项与均分分布项的交叉熵损失函数,有效防止模型过拟合现象,并实现阈值自主控制,提升投诉预测准确性。
发明内容
本发明要解决的技术问题是克服现有技术的缺陷,提供一种文本字词特征双线注意力融合的风险预测方法,通过在投诉数据的基础特征上结合文本的字、词汇特征信息,更精确的了解客户的意图,并设计具有阈值控制项与均分分布项的交叉熵损失函数,使得投诉风险预测更为准确,便于精准服务高风险投诉用户,提升客户服务质量。
本发明提供了如下的技术方案:
本发明提供一种文本字词特征双线注意力融合的风险预测方法,主要包括以下流程步骤:
S1、抽取智能客服系统平台中历史用户咨询投诉数据集,预处理用户工单数据关联表中的数据;
S2、提取用户工单数据中业务内容项,筛选业务内容中有效文本信息,对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理;
S3、构建多层全连接特征提取网络,将投诉投诉基础特征作为一个网络的输入,实现对基础投诉风险特征进行提取,网络结构图如图3所示;
S4、构建基于文本字、词汇特征的融合与特征提取网络,将投诉文本特征作为另外一个网络的输入,网络结构如图4所示,具体过程如下:
1).文本字特征与词汇特征融合的方法:字符表示矩阵为与词汇表示矩阵作为双通道输入,提出文本字词特征双线注意力融合策略,具体计算公式如下:
Figure BDA0003439919960000021
其中XT、YT为我们输入的文本字特征向量与文本词汇特征向量,通过文本字符特征与文本词汇的求和与作差的方式,让文本特征表示具有更为广泛的语义表达能力,其中U′、V′、
Figure BDA0003439919960000022
为随机初始权重特征向量;
2).通过双向门控循环Bi-GRU网络记录上下文相关语义特征,捕捉到较长距离的文本依赖关系;
3).将上述特征进行拼接,得出高投诉风险文本字词关键特征信息,通过Softmax分类器实现用户投诉类别的划分;
4).设定模型损失函数:模型以交叉熵为基础损失函数,通过在交叉熵损失函数上使用阈值控制函数使模型训练更加充分,并添加预测均匀分布项防止过拟合现象,最终模型损失函数为:
Figure BDA0003439919960000031
其中
Figure BDA0003439919960000032
为均匀分布项,n代表本轮迭代预测数据的个数,η值是自定义的均匀分布项所占的比重,其主要是对模型预测是否准确的概率分布进行平均处理,添加均匀分布项能够防止过拟合。阈值控制函数λ(yt,yp)具体计算如下:
λ(yt,yp)=1-θ(yt-m)θ(yp-m)-θ(1-yt-m)θ(1-m-yp)
θ(x)=(Tanh(x)+1)/2
其中m是设定的阈值控制参数,通过预测值与真实值的阈值差值,实现模型预测准确的阈值控制,使得模型能够更加看重预测值与真实值差别较大的情况;
S5、将多层全连接特征提取网络与基于文本字、词汇特征的融合与提取网络,得出完整模型,在实验数据集上进行模型训练,使得模型用户投诉风险类别(无风险,低风险,高风险),完整模型结如图5所示。
与现有技术相比,本发明的有益效果如下:
1.融入文本意图识别的高投诉风险预测模型,在投诉基础特征上添加业务内容中文本信息的理解,相比传统风险预测方法更好的捕捉用户意图信息,提升高投诉风险预测准确性;
2.在高投诉风险预测模型中融入文本标准词汇表征,只需要构建相应的标准词汇库,便能更精确的挖掘文本专业词汇信息,具有一定的可迁移性,提升高投诉风险预测模型准确性;
3.设计模型损失函数,使得模型具有更强泛化能力,并有效防止过拟合现象。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的融入文本字词特征的投诉风险预测流程图;
图2是本发明的投诉风险模型特征提取方案示意图;
图3是本发明的多层全连接特征提取网络示意图;
图4是本发明的文本字、词汇特征的融合与提取网络示意图;
图5是本发明的文本字词特征双线注意力融合策略的风险预测模型。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。
实施例1
如图1-5,本发明提供一种文本字词特征双线注意力融合的风险预测方法,如图1所示,包括以下流程步骤:
S1、智能客服系统平台中历史用户咨询投诉数据集抽取,构建用户工单数据关联信息表,以用户支付账号信息作为多个数据库表的关联信息,将用户基本信息与工单小结单等数据进行合并,对用户工单数据关联表进行数据的预处理;
1).采集历史时间段中完整的咨询投诉工单数据,例如,抽取某月中无缺失日期的当月所有工单特征数据;分析具有高投诉意向的用户工单数据的特征,其中包括用户年龄段,用户所在地,用户支付账号信息,咨询投诉业务内容,业务服务请求类别,工单受理时间,工单受理渠道,工单受理类型;
2).对数据集进行清洗,筛选出不具有异常字段的数据,去除部分无投诉风险用户工单数据,其中包括账号密码遗忘类用户工单数据,用户回馈已解决咨询类工单数据,用户投诉类工单质检结果为满意的工单;
3).构建模型训练实验数据,选择越级投诉工单数据为负样例数据,其他数据为正样例数据,计算正负样例数据占比,采用随机抽取方式在多数正样例数据抽取工单数据,通过模拟数据方案,扩充负样本数据,以保证数据正负样例均衡;
S2.提取用户工单数据中业务内容项,筛选业务内容中有效文本信息,对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理:
(a)提取用户工单数据中业务内容项:
(1).剔除非中文信息;(2).依据停用词表去除文本中无关词汇;
(3).构建工程领域专业词汇词典,投诉倾向敏感词汇词典,情绪表现词汇词典,组合成为标准词汇库,其中词汇样例表如下表1所示:
表1词汇样例表
Figure BDA0003439919960000051
(b)对实验数据进行特征工程处理:
(1).根据数据分析统计高投诉风险项,提取历史投诉风险基础特征,具体特征提取方案如图2所示;
(2).文本特征处理与表示:使用将文本中字符、词汇信息通过分词器和编码器将文字转化为数字表示特征,并将两种特征进行维度转换的方法如下:
I).对文本使用Tokenizer标记器和Encoder编码器标记编码文本字符,通过Bert预训练模型预测得到文本字符级表示特征,预测生成字符表示矩阵为BW。
II).在Jieba分词库中引入标准词汇库,本专利将Jieba分词器替换WoBert自身Tokenizer分词器,使得WoBert模型可以引入外部标准词汇表示特征,预测生成词汇表示矩阵SW。
III).根据字符词汇之间对应关系将词汇表示矩阵SW维度扩充为BW维度矩阵,实现字符表示矩阵与词汇表示矩阵维度转换,便于后续模型计算。
S3、构建多层全连接特征提取网络,将投诉投诉基础特征作为一个网络的输入,实现对基础投诉风险特征进行提取,网络结构图如图3所示;
S4、构建基于文本字、词汇特征的融合与特征提取网络,将投诉文本特征作为另外一个网络的输入,网络结构如图4所示,具体过程如下:
1).文本字符特征与词汇特征融合的方法:字符表示矩阵为与词汇表示矩阵作为双通道输入,通过文本字词特征双线注意力融合实现,具体计算公式如下:
Figure BDA0003439919960000061
2).通过双向门控循环Bi-GRU网络记录上下文相关语义特征,捕捉到较长距离的文本依赖关系;
3).将上述特征进行拼接,得出高投诉风险文本字词关键特征信息,通过Softmax分类器实现用户投诉类别的划分:
4).设定模型损失函数:模型以交叉熵为基础损失函数,通过在交叉熵损失函数上使用阈值控制函数使模型训练更加充分,并添加预测均匀分布项防止过拟合现象,最终模型损失函数为:
Figure BDA0003439919960000071
η值是自定义的均匀分布项所占的比重,本专利设定η值为0.8,给均匀分布项0.2的权重信息。阈值控制函数λ(yt,yp)具体计算如下:
λ(yt,yp)=1-θ(yt-m)θ(yp-m)-θ(1-yt-m)θ(1-m-yp)
θ(x)=(Tanh(x)+1)/2
其中m是设定的阈值控制参数,本专利设定m为0.6,将阈值范围控制在0.4~0.6之间。
S8.在实验数据集上进行模型训练,通过对每日工单数据特征提取与模型预测,得到对应用户投诉风险结果,将结果与提取到的特征信息一同保存到数据库中,前台质检人员可以通过条件筛选的方式,提取高风险投诉用户信息,并进行相应质检环节。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种文本字词特征双线注意力融合的风险预测方法,其特征在于,主要包括以下流程步骤:
S1、抽取智能客服系统平台中历史用户咨询投诉数据集,预处理用户工单数据关联表中的数据;
S2、提取用户工单数据中业务内容项,筛选业务内容中有效文本信息,对提取到数据信息进行历史投诉风险基础特征与文本特征处理与表示的特征工程处理;
S3、构建多层全连接特征提取网络,将投诉投诉基础特征作为一个网络的输入,实现对基础投诉风险特征进行提取;
S4、构建基于文本字、词汇特征的融合与特征提取网络,将投诉文本特征作为另外一个网络的输入,具体过程如下:
1).文本字特征与词汇特征融合的方法:字符表示矩阵为与词汇表示矩阵作为双通道输入,提出文本字词特征双线注意力融合策略,具体计算公式如下:
Figure FDA0003439919950000011
其中XT、YT为我们输入的文本字特征向量与文本词汇特征向量,通过文本字符特征与文本词汇的求和与作差的方式,让文本特征表示具有更为广泛的语义表达能力,其中U′、V′、
Figure FDA0003439919950000012
为随机初始权重特征向量;
2).通过双向门控循环Bi-GRU网络记录上下文相关语义特征,捕捉到较长距离的文本依赖关系;
3).将上述特征进行拼接,得出高投诉风险文本字词关键特征信息,通过Softmax分类器实现用户投诉类别的划分;
4).设定模型损失函数:模型以交叉熵为基础损失函数,通过在交叉熵损失函数上使用阈值控制函数使模型训练更加充分,并添加预测均匀分布项防止过拟合现象,最终模型损失函数为:
Figure FDA0003439919950000021
其中
Figure FDA0003439919950000022
为均匀分布项,n代表本轮迭代预测数据的个数,η值是自定义的均匀分布项所占的比重,其主要是对模型预测是否准确的概率分布进行平均处理,添加均匀分布项能够防止过拟合;阈值控制函数λ(yt,yp)具体计算如下:
λ(yt,yp)=1-θ(yt-m)θ(yp-m)-θ(1-yt-m)θ(1-m-yp)
θ(x)=(Tanh(x)+1)/2
其中m是设定的阈值控制参数,通过预测值与真实值的阈值差值,实现模型预测准确的阈值控制,使得模型能够更加看重预测值与真实值差别较大的情况;
S5、将多层全连接特征提取网络与基于文本字、词汇特征的融合与提取网络,得出完整模型,在实验数据集上进行模型训练,使得模型用户投诉风险类别(无风险,低风险,高风险)。
CN202111630889.8A 2021-12-28 2021-12-28 一种文本字词特征双线注意力融合的风险预测方法 Pending CN114528395A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111630889.8A CN114528395A (zh) 2021-12-28 2021-12-28 一种文本字词特征双线注意力融合的风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111630889.8A CN114528395A (zh) 2021-12-28 2021-12-28 一种文本字词特征双线注意力融合的风险预测方法

Publications (1)

Publication Number Publication Date
CN114528395A true CN114528395A (zh) 2022-05-24

Family

ID=81620544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111630889.8A Pending CN114528395A (zh) 2021-12-28 2021-12-28 一种文本字词特征双线注意力融合的风险预测方法

Country Status (1)

Country Link
CN (1) CN114528395A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203271A (zh) * 2022-07-15 2022-10-18 广州高新工程顾问有限公司 一种信息化工程咨询业务知识服务系统及方法
CN116127078A (zh) * 2023-04-19 2023-05-16 吉林大学 一种大规模极弱监督多标签政策分类方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115203271A (zh) * 2022-07-15 2022-10-18 广州高新工程顾问有限公司 一种信息化工程咨询业务知识服务系统及方法
CN115203271B (zh) * 2022-07-15 2023-06-09 广州高新工程顾问有限公司 一种信息化工程咨询业务知识服务系统及方法
CN116127078A (zh) * 2023-04-19 2023-05-16 吉林大学 一种大规模极弱监督多标签政策分类方法及系统
CN116127078B (zh) * 2023-04-19 2023-07-21 吉林大学 一种大规模极弱监督多标签政策分类方法及系统

Similar Documents

Publication Publication Date Title
CN109492026B (zh) 一种基于改进的主动学习技术的电信欺诈分类检测方法
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN110472042B (zh) 一种细粒度情感分类方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN109522548A (zh) 一种基于双向交互神经网络的文本情感分析方法
CN114528395A (zh) 一种文本字词特征双线注意力融合的风险预测方法
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
CN112016313A (zh) 口语化要素识别方法及装置、警情分析系统
WO2023035330A1 (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
Srinivas et al. Sentiment analysis using neural network and LSTM
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN112419096A (zh) 基于nlp信息萃取与少样本自学习的用户用电诉求工单自动流转方法
CN112307760A (zh) 基于深度学习的财务报告情感分析方法、装置及终端
CN113065341A (zh) 一种环境类投诉举报文本自动标注和分类方法
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN114036298A (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN114416969A (zh) 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统
CN111813893B (zh) 基于深度迁移学习的房地产市场分析方法、装置及设备
CN113705242A (zh) 面向教育咨询服务的智能语义匹配方法和装置
CN112153636A (zh) 一种基于机器学习预测电信业用户携号转出的方法
CN116342167A (zh) 基于序列标注命名实体识别的智能成本度量方法和装置
CN113342964B (zh) 一种基于移动业务的推荐类型确定方法及系统
CN115422920A (zh) 基于bert和gat的裁判文书争议焦点识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication