CN111178068B - 一种基于对话情绪检测的催收暴力倾向评价方法和装置 - Google Patents
一种基于对话情绪检测的催收暴力倾向评价方法和装置 Download PDFInfo
- Publication number
- CN111178068B CN111178068B CN201911355805.7A CN201911355805A CN111178068B CN 111178068 B CN111178068 B CN 111178068B CN 201911355805 A CN201911355805 A CN 201911355805A CN 111178068 B CN111178068 B CN 111178068B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- matrix
- emotion
- furcation
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Technology Law (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及对话情感识别技术领域,具体涉及一种基于对话情绪检测的催收暴力倾向评价方法和装置。该方法包括:接收催收对话记录;去除催收对话记录中的停用词和无用字符,获取催收对话文本;利用训练好的对话情绪检测模型对催收对话文本进行分析计算,获取催收对话文本中第一讲话者的每句对话对应的暴力情绪类别;根据第一数量和预设评价判据,对催收对话文本中第一讲话者进行催收暴力倾向评价。本发明利用训练好的对话情绪检测模型获取催收对话文本中每句对话对应的暴力情绪类别,之后根据预设评价判据和包含有暴力情绪的对话的数量,完成了对催收信息的暴力倾向评价,降低了评价成本,高效地实现催收暴力倾向评价。
Description
技术领域
本发明涉及对话情感识别技术领域,具体涉及一种基于对话情绪检测的催收暴力倾向评价方法和装置。
背景技术
信息技术日益的发展,刺激了催收行业的扩张。其中恐吓,威胁,辱骂,不间断地骚扰被催收方行为较为普遍,由此经常引发恶性事件。它们不仅扰乱金融秩序,挑战社会道德底线,也严重影响社会稳定。因此,催收质检在规范化催收中起着不可或缺的作用,所以如何提高和加速催收质检工作的质量和流程已成为催收行业迫切的需求,同时理清这些问题对暴力催收的斗争有重要现实意义。
现有的催收质检的解决方案,主要是以人工审核的方式对催收对话进行暴力倾向评价来实现,其需要催收质检小组协同合作完成。催收质检小组中需要若干人整理催收人员的通信记录,与此同时,小组中的其他若干人则需审核整理好记录,这一审核过程既耗时又繁琐,也需要投入大量的人力和财力。
因此,如何高效地实现催收暴力倾向评价,是目前亟待解决的技术问题。
发明内容
本发明的目的是提供一种基于对话情绪检测的催收暴力倾向评价方法和装置,以提高现有催收暴力倾向评价方案的效率。
本发明实施例提供了以下方案:
第一方面,本发明实施例提供一种基于对话情绪检测的催收暴力倾向评价方法,所述方法包括:
接收催收对话记录;
去除所述催收对话记录中的停用词和无用字符,获取催收对话文本;
利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别;其中,所述暴力情绪类别包括暴力情绪和非暴力情绪;
根据第一数量和预设评价判据,对所述催收对话文本中第一讲话者进行催收暴力倾向评价;其中,所述第一数量为所述催收对话文本中第一讲话者的包含有暴力情绪的对话的数量。
在一种可能的实施例中,所述利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别,包括:
对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵;
将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵;
将所述联系权重矩阵通过线性层和残差神经网络进行处理计算,获取所述催收对话文本中每句对话的表达特征;
根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息;
利用MLP网络对所述情感状态信息进行处理,获得所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别。
在一种可能的实施例中,所述利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别之前,所述方法还包括:
接收催收对话记录训练集;其中,所述催收对话记录训练集中的每句对话均包含暴力情绪类别;
构建所述对话情绪检测模型;
利用所述催收对话记录训练集和所述催收对话记录训练集中的每句对话对应的暴力情绪类别,对所述对话情绪检测模型进行训练。
在一种可能的实施例中,所述对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵,包括:
利用分词工具所述催收对话文本进行分词处理,获得若干词汇;
利用所述词汇构建字典;
为所述字典中各词汇分别映射词汇ID;
将所述词汇ID映射到初始化的embedding矩阵,获得所述词向量embedding矩阵。
在一种可能的实施例中,所述将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵,包括:
将所述词向量embedding矩阵等同于所述Transformer-Encoder模型中的Key矩阵、Value矩阵和Query矩阵;
将所述Key矩阵、所述Value矩阵和所述Query矩阵分别进行线性映射,获得Key线性矩阵、Value线性矩阵和Query线性矩阵;
将所述Key线性矩阵、所述Value线性矩阵和所述Query线性矩阵分别进行num_heads次均等切分,获得Key线性矩阵集合K、Value线性矩阵集合V和Query线性矩阵集合Q;
计算headi,具体计算公式为:
其中,Ki为所述Key线性矩阵集合K的第i个元素元素;Vi为所述Value线性矩阵集合V的第i个元素元素;Qi为所述Query线性矩阵集合Q的第i个元素元素;dn为所述词向量embedding矩阵的维度;
对headi进行拼接,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵。
在一种可能的实施例中,所述根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息,包括:
利用GRU网络从所述催收对话文本中第一讲话者的第一对话前的各句对话的表达特征中提取所述各句对话的情感状态信息;
使用注意力机制分别计算所述各句对话的情感状态信息对所述第一对话的情感状态信息的影响权重;
利用GRU网络对所述第一对话前的各句对话的情感状态信息和所述影响权重进行计算处理,获得所述第一对话对应的情感状态信息。
第二方面,本发明实施例提供一种基于对话情绪检测的催收暴力倾向评价装置,所述装置包括:
催收对话记录接收模块,用于接收催收对话记录;
催收对话文本获取模块,用于去除所述催收对话记录中的停用词和无用字符,获取催收对话文本;
训练好的对话情绪检测模型模块,用于利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别;其中,所述暴力情绪类别包括暴力情绪和非暴力情绪;
催收暴力倾向评价模块,用于根据第一数量和预设评价判据,对所述催收对话文本中第一讲话者进行催收暴力倾向评价;其中,所述第一数量为所述催收对话文本中第一讲话者的包含有暴力情绪的对话的数量。
在一种可能的实施例中,所述训练好的对话情绪检测模型模块,包括:
词向量embedding矩阵获得模块,用于对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵;
联系权重矩阵获得模块,用于将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵;
对话表达特征获取模块,用于将所述联系权重矩阵通过线性层和残差神经网络进行处理计算,获取所述催收对话文本中每句对话的表达特征;
情感状态信息获得模块,用于根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息;
暴力情绪类别获得模块,用于利用MLP网络对所述情感状态信息进行处理,获得所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别。
在一种可能的实施例中,所述装置还包括:
催收对话记录训练集接收模块,用于接收催收对话记录训练集;其中,所述催收对话记录训练集中的每句对话均包含暴力情绪类别;
对话情绪检测模型构建模块,用于构建所述对话情绪检测模型;
训练模块,用于利用所述催收对话记录训练集和所述催收对话记录训练集中的每句对话对应的暴力情绪类别,对所述对话情绪检测模型进行训练。
在一种可能的实施例中,所述词向量embedding矩阵获得模块,包括:
词汇获得模块,用于利用分词工具所述催收对话文本进行分词处理,获得若干词汇;
字典构建模块,用于利用所述词汇构建字典;
词汇ID映射模块,用于为所述字典中各词汇分别映射词汇ID;
词向量embedding矩阵生成模块,将所述词汇ID映射到初始化的embedding矩阵,获得所述词向量embedding矩阵。
在一种可能的实施例中,所述联系权重矩阵获得模块,包括:
等同计算模块,用于将所述词向量embedding矩阵等同于所述Transformer-Encoder模型中的Key矩阵、Value矩阵和Query矩阵;
线性矩阵生成模块,用于将所述Key矩阵、所述Value矩阵和所述Query矩阵分别进行线性映射,获得Key线性矩阵、Value线性矩阵和Query线性矩阵;
线性集合生成模块,用于将所述Key线性矩阵、所述Value线性矩阵和所述Query线性矩阵分别进行num_heads次均等切分,获得Key线性矩阵集合K、Value线性矩阵集合V和Query线性矩阵集合Q;
headi计算模块,用于计算headi,具体计算公式为:
其中,Ki为所述Key线性矩阵集合K的第i个元素元素;Vi为所述Value线性矩阵集合V的第i个元素元素;Qi为所述Query线性矩阵集合Q的第i个元素元素;dn为所述词向量embedding矩阵的维度;
联系权重矩阵生成模块,用于对headi进行拼接,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵。
在一种可能的实施例中,所述情感状态信息获得模块,包括:
历史情感状态信息获取模块,用于利用GRU网络从所述催收对话文本中第一讲话者的第一对话前的各句对话的表达特征中提取所述各句对话的情感状态信息;
影响权重计算模块,用于使用注意力机制分别计算所述各句对话的情感状态信息对所述第一对话的情感状态信息的影响权重;
第一对话对应的情感状态信息获得模块,用于利用GRU网络对所述第一对话前的各句对话的情感状态信息和所述影响权重进行计算处理,获得所述第一对话对应的情感状态信息。
第三方面,本发明实施例提供一种基于对话情绪检测的催收暴力倾向评价设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现第一方面中任一所述的催收暴力倾向评价方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时以实现第一方面中任一所述的催收暴力倾向评价方法的步骤。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明利用训练好的对话情绪检测模型获取催收对话文本中每句对话对应的暴力情绪类别,之后根据预设评价判据和包含有暴力情绪的对话的数量,完成了对催收信息的暴力倾向评价。本发明整个过程不需要人工参与,降低了评价成本,高效地实现催收暴力倾向评价。
进一步的,本发明还给出了一种具体的对话情绪检测模型,其分为五个层级,依次获取词向量embedding矩阵、联系权重矩阵、对话表达特征、对话的情感状态信息和对话的暴力情绪类别,充分考虑了在先对话对当前对话的情绪影响,从而准确地完成了对各对话的暴力情绪分类。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种可能的基于对话情绪检测的催收暴力倾向评价方法实施例的流程图;
图2是本发明实施例提供的一种可能的基于对话情绪检测的催收暴力倾向评价装置实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明实施例保护的范围。
请参阅图1,图1为本发明实施例提供的基于对话情绪检测的催收暴力倾向评价方法的流程图,包括以下步骤:
步骤11,接收催收对话记录。
具体来说,催收对话记录是两个或两个以上讲话者之间的文字对话,比如微信等聊天工具的聊天记录等。催收对话记录的讲话者一般涉及两方,一方是催收客服,一方是被催收客户,当然还可以涉及其他角色身份的讲话者。
步骤12,去除所述催收对话记录中的停用词和无用字符,获取催收对话文本。
具体来说,原始的催收对话记录中有可能存在html标签、代码字符串等无用的字符以及停用词,这些的存在将会影响之后的对话情绪检测,因此本发明实施例在这里首先去除催收对话记录中的停用词和无用字符,对原始的催收对话记录进行预处理,以获得只包含有效催收对话的催收对话文本。
具体的,例如下述表1即为经过预处理后的催收对话文本,其中,<词语1>和<词语3>为包含有暴力威胁含义的词语;<词语2>、<词语4>、<词语5>和<词语6>为包含有不文明用语的词语。
表1
步骤13,利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别。
其中,所述暴力情绪类别包括暴力情绪和非暴力情绪。
具体的,对话情绪检测模型为多标签分类模型,其标签的数量根据暴力情绪类别的总数进行设置,如果暴力情绪类别仅包括暴力情绪和非暴力情绪,那么对话情绪检测模型就为二标签分类模型,该模型在训练好后,可以将讲话者的每句对话进行语义特征提取分析,最后为对话加上暴力情绪类别的标签,从而完成对话的暴力情绪分类。
具体的,可以使用现有的LSTM(长短期记忆网络)和GRU(门控循环单元)来进行对话情绪检测模型的搭建,并使用带有暴力情绪类别的标签的对话训练集针对上述对话情绪检测模型进行训练,以获得训练好的对话情绪检测模型。当把不带有暴力情绪类别的标签的催收对话文本输入进训练好的对话情绪检测模型时,该训练好的对话情绪检测模型就会输出催收对话文本中每句对话对应的暴力情绪类别。
具体的,由于催收对话文本中存在不同的讲话者,而不同的讲话者又对应不同的角色(例如客户、客服),本发明实施例还依据讲话者的不同,对获得的催收对话文本中每句对话对应的暴力情绪类别进行分类。其中,第一讲话者可以是客服,也可以是客户,当然还可以是其他的对话角色。
具体的,例如表2就是针对表1的催收对话文本的暴力情绪类别分类。
表2
步骤14,根据第一数量和预设评价判据,对所述催收对话文本中第一讲话者进行催收暴力倾向评价。
其中,所述第一数量为所述催收对话文本中第一讲话者的包含有暴力情绪的对话的数量。
具体来说,预设评价判据可以是预设的不同评价结果阈值区间,例如表3所示,按第一数量的具体数值N不同取值,将评价结果分为三档,当然还可以根据第一数量在第一讲话者的所有对话中所占比例,来构建评价结果阈值区间。
表3
评价结果 | 预设评价判据 |
良好 | N∈[0,10) |
合格 | N∈[10,15) |
不合格 | N∈[15,+∞) |
在一种可能的实施例中,本发明实施例为准确完成针对上述催收对话文本的暴力情绪类别的分类,创新性地提出了一种对话情绪检测模型,该模型考虑到了讲话者对话过程中先前对话对当前对话情绪、情感等方面的影响,从而准确地获得当前对话所包含的情感状态信息,最终准确完成针对上述催收对话文本的暴力情绪类别的分类。
具体为:所述利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别,包括:
步骤131,对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵。
具体的,词向量化处理是指对分词得到的词语及其词性和位置信息映射成向量。本步骤可以使用Glove模型利用全局统计信息,进行矩阵分解(如LSA)来获取词向量,或者利用局部上下文窗口单独训练,利用统计信息作为有用的先验知识,从而获取词向量embedding矩阵。
步骤132,将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵。
具体的,本步骤用以将独立的词向量之间建立联系,用联系权重的形式表现出各词向量之间的亲疏关系,这样一句对话中将不再是一个个单独无关联的词向量,而是互相之间包含有亲疏关系的词向量,以更好地表征一句对话。例如表1中的对话中的“<词语1>我”被分为两个词汇“<词语1>”和“我”并经词向量处理后,就被认为是两个独立的词汇了,但其实两个词汇之间是有前后关联关系的,因此可以用一个加大的权值来表征他们之间的关联关系。
步骤133,将所述联系权重矩阵通过线性层和残差神经网络进行处理计算,获取所述催收对话文本中每句对话的表达特征。
具体的,本步骤的处理思想为:根据联系权重矩阵,从一句对话中的多个词向量中寻找权重较大的一个或多个词向量,来指代整句对话的表达特征。例如表4所示,即为对表1催收对话文本的每句对话的表达特征的提取结果。
表4
编号 | 角色 | 对话的表达特征 |
1 | 催收人员1 | 你好,拖欠,请问 |
2 | 客户1 | 上门,<词语1>,我,<词语2>,<词语3> |
3 | 催收人员1 | 找理由,拖欠 |
4 | 客户1 | <词语1>,我 |
5 | 催收人员1 | <词语4>,<词语5>,<词语6> |
6 | 客户1 | <词语4> |
步骤134,根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息。
具体的,这里的情感状态信息可以是常规的喜怒哀乐等,还可以是设定的暴力情绪等级。而DialogRNN情感信息控制模型能够联系历史对话对当前对话情感状态信息的影响,从而准确获得当前对话的情感状态信息。
步骤135,利用MLP网络对所述情感状态信息进行处理,获得所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别。
在一种可能的实施例中,本发明实施例提供了一种具体的训练上述对话情绪检测模型的方法。
具体为:所述利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别之前,所述方法还包括:
步骤1.1,接收催收对话记录训练集;其中,所述催收对话记录训练集中的每句对话均包含暴力情绪类别。
具体的,该催收对话记录训练集,可以通过整理网贷公司提供的催收记录获得原始的催收对话记录,也可以使用爬虫技术从互联网中爬取相关催收对话,之后对原始的催收对话记录进行清洗,包括去除html标签、替换错别字、过滤无用的字符等;然后为清洗后的对话记录统一格式规范,例如统一金额,电话号码,URL,日期时间,微信名,利率,英文符号等的格式;最后为每一条对话添加情绪标签,例如愉快、生气以及暴力分类等,从而完成催收对话记录训练集的构建。
步骤1.2,构建所述对话情绪检测模型。
步骤1.3,利用所述催收对话记录训练集和所述催收对话记录训练集中的每句对话对应的暴力情绪类别,对所述对话情绪检测模型进行训练。
在一种可能的实施例中,本发明实施例给出了一种词向量化处理的方案。
具体为:所述对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵,包括:
步骤2.1,利用分词工具所述催收对话文本进行分词处理,获得若干词汇。
步骤2.2,利用所述词汇构建字典。
步骤2.3,为所述字典中各词汇分别映射词汇ID。
步骤2.4,将所述词汇ID映射到初始化的embedding矩阵,获得所述词向量embedding矩阵。
具体的,本步骤能够高效地实现对催收对话文本的词向量化处理。
在一种可能的实施例中,本发明实施例提供了一种词向量之间的联系权重矩阵的获取方案。
具体为:所述将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵,包括:
步骤3.1,将所述词向量embedding矩阵等同于所述Transformer-Encoder模型中的Key矩阵、Value矩阵和Query矩阵。
步骤3.2,将所述Key矩阵、所述Value矩阵和所述Query矩阵分别进行线性映射,获得Key线性矩阵、Value线性矩阵和Query线性矩阵。
步骤3.3,将所述Key线性矩阵、所述Value线性矩阵和所述Query线性矩阵分别进行num_heads次均等切分,获得Key线性矩阵集合K、Value线性矩阵集合V和Query线性矩阵集合Q。
步骤3.4,计算headi,具体计算公式为:
其中,Ki为所述Key线性矩阵集合K的第i个元素元素;Vi为所述Value线性矩阵集合V的第i个元素元素;Qi为所述Query线性矩阵集合Q的第i个元素元素;dn为所述词向量embedding矩阵的维度。
步骤3.5,对headi进行拼接,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵。
具体的,本发明实施例能够使用获得的联系权重矩阵来用有关系的词向量来表征一句对话。
在一种可能的实施例中,本发明实施例假设基于自身的情绪受自身之前情绪影响较大,通过GRU学习当前讲话者内在情感的惯性,捕捉讲话者与其先前状态之间的情感依赖关系,以更加准确地获取每句对话对应的情感状态信息。
具体为:所述根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息,包括:
步骤4.1,利用GRU网络从所述催收对话文本中第一讲话者的第一对话前的各句对话的表达特征中提取所述各句对话的情感状态信息。
具体的,这里以角色a和角色b两个讲话者的对话为例,说明本步骤的实现方式。
本步骤在GRU网络中采用下述公式来获取第一讲话者的第一对话前的各句对话对应的情感状态信息:
其中,gt为第一对话前的各句对话对应的情感状态信息,qa,t-1为当前讲话者为a的第一对话的情感状态信息,qb,t-1为当前讲话者为b的第一对话的情感状态信息,λ为第一对话的讲话者。
步骤4.2,使用注意力机制分别计算所述各句对话的情感状态信息对所述第一对话的情感状态信息的影响权重。
具体的,间隔越大的对话对当前对话的情感影响较小,影响权重越小,间隔越小的对话对当前对话的情感影响较大,影响权重越大。
步骤4.3,利用GRU网络对所述第一对话前的各句对话的情感状态信息和所述影响权重进行计算处理,获得所述第一对话对应的情感状态信息。
具体的,这里以角色a和角色b两个讲话者的对话为例,说明本步骤的实现方式。
本步骤在GRU网络中采用下述公式来获取所述第一对话对应的情感状态信息:
其中,qa,t-1为当前讲话者为a的第一对话的情感状态信息,qb,t-1为当前讲话者为b的第一对话的情感状态信息,λ为第一对话的讲话者;ut为第一对话的表达特征,ct为所述各句对话的情感状态信息对所述第一对话的情感状态信息的影响权重。
基于与方法同样的发明构思,本发明实施例还提供了一种基于对话情绪检测的催收暴力倾向评价装置。请参阅图2,图2所示本发明实施例提供的装置结构示意图,所述装置包括:
催收对话记录接收模块21,用于接收催收对话记录;
催收对话文本获取模块22,用于去除所述催收对话记录中的停用词和无用字符,获取催收对话文本;
训练好的对话情绪检测模型模块23,用于利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别;其中,所述暴力情绪类别包括暴力情绪和非暴力情绪;
催收暴力倾向评价模块24,用于根据第一数量和预设评价判据,对所述催收对话文本中第一讲话者进行催收暴力倾向评价;其中,所述第一数量为所述催收对话文本中第一讲话者的包含有暴力情绪的对话的数量。
在一种可能的实施例中,所述训练好的对话情绪检测模型模块23,包括:
词向量embedding矩阵获得模块,用于对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵;
联系权重矩阵获得模块,用于将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵;
对话表达特征获取模块,用于将所述联系权重矩阵通过线性层和残差神经网络进行处理计算,获取所述催收对话文本中每句对话的表达特征;
情感状态信息获得模块,用于根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息;
暴力情绪类别获得模块,用于利用MLP网络对所述情感状态信息进行处理,获得所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别。
在一种可能的实施例中,所述装置还包括:
催收对话记录训练集接收模块,用于接收催收对话记录训练集;其中,所述催收对话记录训练集中的每句对话均包含暴力情绪类别;
对话情绪检测模型构建模块,用于构建所述对话情绪检测模型;
训练模块,用于利用所述催收对话记录训练集和所述催收对话记录训练集中的每句对话对应的暴力情绪类别,对所述对话情绪检测模型进行训练。
在一种可能的实施例中,所述词向量embedding矩阵获得模块,包括:
词汇获得模块,用于利用分词工具所述催收对话文本进行分词处理,获得若干词汇;
字典构建模块,用于利用所述词汇构建字典;
词汇ID映射模块,用于为所述字典中各词汇分别映射词汇ID;
词向量embedding矩阵生成模块,将所述词汇ID映射到初始化的embedding矩阵,获得所述词向量embedding矩阵。
在一种可能的实施例中,所述联系权重矩阵获得模块,包括:
等同计算模块,用于将所述词向量embedding矩阵等同于所述Transformer-Encoder模型中的Key矩阵、Value矩阵和Query矩阵;
线性矩阵生成模块,用于将所述Key矩阵、所述Value矩阵和所述Query矩阵分别进行线性映射,获得Key线性矩阵、Value线性矩阵和Query线性矩阵;
线性集合生成模块,用于将所述Key线性矩阵、所述Value线性矩阵和所述Query线性矩阵分别进行num_heads次均等切分,获得Key线性矩阵集合K、Value线性矩阵集合V和Query线性矩阵集合Q;
headi计算模块,用于计算headi,具体计算公式为:
其中,Ki为所述Key线性矩阵集合K的第i个元素元素;Vi为所述Value线性矩阵集合V的第i个元素元素;Qi为所述Query线性矩阵集合Q的第i个元素元素;dn为所述词向量embedding矩阵的维度;
联系权重矩阵生成模块,用于对headi进行拼接,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵。
在一种可能的实施例中,所述情感状态信息获得模块,包括:
历史情感状态信息获取模块,用于利用GRU网络从所述催收对话文本中第一讲话者的第一对话前的各句对话的表达特征中提取所述各句对话的情感状态信息;
影响权重计算模块,用于使用注意力机制分别计算所述各句对话的情感状态信息对所述第一对话的情感状态信息的影响权重;
第一对话对应的情感状态信息获得模块,用于利用GRU网络对所述第一对话前的各句对话的情感状态信息和所述影响权重进行计算处理,获得所述第一对话对应的情感状态信息。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种基于对话情绪检测的催收暴力倾向评价设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现前文任一所述方法的步骤。
基于与前述实施例中同样的发明构思,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文任一所述方法的步骤。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本发明实施例利用训练好的对话情绪检测模型获取催收对话文本中每句对话对应的暴力情绪类别,之后根据预设评价判据和包含有暴力情绪的对话的数量,完成了对催收信息的暴力倾向评价。本发明整个过程不需要人工参与,降低了评价成本,高效地实现催收暴力倾向评价。
进一步的,本发明实施例还给出了一种具体的对话情绪检测模型,其分为五个层级,依次获取词向量embedding矩阵、联系权重矩阵、对话表达特征、对话的情感状态信息和对话的暴力情绪类别,充分考虑了在先对话对当前对话的情绪影响,从而准确地完成了对各对话的暴力情绪分类。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(模块、系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
Claims (8)
1.一种基于对话情绪检测的催收暴力倾向评价方法,其特征在于,所述方法包括:
接收催收对话记录;
去除所述催收对话记录中的停用词和无用字符,获取催收对话文本;
利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别;其中,所述暴力情绪类别包括暴力情绪和非暴力情绪;
根据第一数量和预设评价判据,对所述催收对话文本中第一讲话者进行催收暴力倾向评价;其中,所述第一数量为所述催收对话文本中第一讲话者的包含有暴力情绪的对话的数量;
所述利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别,包括:
对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵;
将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵;
将所述联系权重矩阵通过线性层和残差神经网络进行处理计算,获取所述催收对话文本中每句对话的表达特征;
根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息;
利用MLP网络对所述情感状态信息进行处理,获得所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别。
2.根据权利要求1所述的催收暴力倾向评价方法,其特征在于,所述利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别之前,所述方法还包括:
接收催收对话记录训练集;其中,所述催收对话记录训练集中的每句对话均包含暴力情绪类别;
构建所述对话情绪检测模型;
利用所述催收对话记录训练集和所述催收对话记录训练集中的每句对话对应的暴力情绪类别,对所述对话情绪检测模型进行训练。
3.根据权利要求1所述的催收暴力倾向评价方法,其特征在于,所述对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵,包括:
利用分词工具对所述催收对话文本进行分词处理,获得若干词汇;
利用所述词汇构建字典;
为所述字典中各词汇分别映射词汇ID;
将所述词汇ID映射到初始化的embedding矩阵,获得所述词向量embedding矩阵。
4.根据权利要求1所述的催收暴力倾向评价方法,其特征在于,所述将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵,包括:
将所述词向量embedding矩阵等同于所述Transformer-Encoder模型中的Key矩阵、Value矩阵和Query矩阵;
将所述Key矩阵、所述Value矩阵和所述Query矩阵分别进行线性映射,获得Key线性矩阵、Value线性矩阵和Query线性矩阵;
将所述Key线性矩阵、所述Value线性矩阵和所述Query线性矩阵分别进行num_heads次均等切分,获得Key线性矩阵集合K、Value线性矩阵集合V和Query线性矩阵集合Q;
计算headi,具体计算公式为:
其中,Ki为所述Key线性矩阵集合K的第i个元素;Vi为所述Value线性矩阵集合V的第i个元素;Qi为所述Query线性矩阵集合Q的第i个元素;dk为所述词向量embedding矩阵的维度;
对headi进行拼接,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵。
5.根据权利要求1所述的催收暴力倾向评价方法,其特征在于,所述根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息,包括:
利用GRU网络从所述催收对话文本中第一讲话者的第一对话前的各句对话的表达特征中提取所述各句对话的情感状态信息;
使用注意力机制分别计算所述各句对话的情感状态信息对所述第一对话的情感状态信息的影响权重;
利用GRU网络对所述第一对话前的各句对话的情感状态信息和所述影响权重进行计算处理,获得所述第一对话对应的情感状态信息。
6.一种基于对话情绪检测的催收暴力倾向评价装置,其特征在于,所述装置包括:
催收对话记录接收模块,用于接收催收对话记录;
催收对话文本获取模块,用于去除所述催收对话记录中的停用词和无用字符,获取催收对话文本;
训练好的对话情绪检测模型模块,用于利用训练好的对话情绪检测模型对所述催收对话文本进行分析计算,获取所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别;其中,所述暴力情绪类别包括暴力情绪和非暴力情绪;
催收暴力倾向评价模块,用于根据第一数量和预设评价判据,对所述催收对话文本中第一讲话者进行催收暴力倾向评价;其中,所述第一数量为所述催收对话文本中第一讲话者的包含有暴力情绪的对话的数量;
所述训练好的对话情绪检测模型模块,包括:
词向量embedding矩阵获得模块,用于对所述催收对话文本进行词向量化处理,获得词向量embedding矩阵;
联系权重矩阵获得模块,用于将所述词向量embedding矩阵等同于Key矩阵、Value矩阵和Query矩阵,通过Transformer-Encoder模型,获得带有所述词向量embedding矩阵中各词汇之间联系的联系权重矩阵;
对话表达特征获取模块,用于将所述联系权重矩阵通过线性层和残差神经网络进行处理计算,获取所述催收对话文本中每句对话的表达特征;
情感状态信息获得模块,用于根据所述催收对话文本中每句对话的表达特征,获得所述催收对话文本中第一讲话者的每句对话对应的情感状态信息;
暴力情绪类别获得模块,用于利用MLP网络对所述情感状态信息进行处理,获得所述催收对话文本中第一讲话者的每句对话对应的暴力情绪类别。
7.一种基于对话情绪检测的催收暴力倾向评价设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现权利要求1至5任一所述的方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时以实现权利要求1至5任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911355805.7A CN111178068B (zh) | 2019-12-25 | 2019-12-25 | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911355805.7A CN111178068B (zh) | 2019-12-25 | 2019-12-25 | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178068A CN111178068A (zh) | 2020-05-19 |
CN111178068B true CN111178068B (zh) | 2023-05-23 |
Family
ID=70657948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911355805.7A Active CN111178068B (zh) | 2019-12-25 | 2019-12-25 | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178068B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903363B (zh) * | 2021-09-29 | 2023-02-28 | 平安银行股份有限公司 | 基于人工智能的违规行为检测方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919673A (zh) * | 2017-02-21 | 2017-07-04 | 浙江工商大学 | 基于深度学习的文本情绪分析系统 |
CN108563731A (zh) * | 2018-04-08 | 2018-09-21 | 北京奇艺世纪科技有限公司 | 一种情感分类方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102385858B (zh) * | 2010-08-31 | 2013-06-05 | 国际商业机器公司 | 情感语音合成方法和系统 |
JP6109664B2 (ja) * | 2013-07-17 | 2017-04-05 | Kddi株式会社 | 言語体系の間で同義語句に対する特定の感情を推定するプログラム、装置及び方法 |
CN108717406B (zh) * | 2018-05-10 | 2021-08-24 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN109670166A (zh) * | 2018-09-26 | 2019-04-23 | 平安科技(深圳)有限公司 | 基于语音识别的催收辅助方法、装置、设备和存储介质 |
CN110265062A (zh) * | 2019-06-13 | 2019-09-20 | 上海指旺信息科技有限公司 | 基于情绪检测的智能贷后催收方法及装置 |
CN110569508A (zh) * | 2019-09-10 | 2019-12-13 | 重庆邮电大学 | 融合词性和自注意力机制的情感倾向性分类方法及系统 |
-
2019
- 2019-12-25 CN CN201911355805.7A patent/CN111178068B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106919673A (zh) * | 2017-02-21 | 2017-07-04 | 浙江工商大学 | 基于深度学习的文本情绪分析系统 |
CN108563731A (zh) * | 2018-04-08 | 2018-09-21 | 北京奇艺世纪科技有限公司 | 一种情感分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111178068A (zh) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104408093B (zh) | 一种新闻事件要素抽取方法与装置 | |
CN105874530B (zh) | 预测自动语音识别系统中的短语识别质量 | |
US20100104086A1 (en) | System and method for automatic call segmentation at call center | |
CN107222865A (zh) | 基于可疑行为识别的通讯诈骗实时检测方法和系统 | |
CN111182162B (zh) | 基于人工智能的电话质检方法、装置、设备和存储介质 | |
CN111144097B (zh) | 一种对话文本的情感倾向分类模型的建模方法和装置 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN110910283A (zh) | 生成法律文书的方法、装置、设备和存储介质 | |
CN113254643B (zh) | 文本分类方法、装置、电子设备和 | |
CN113094578A (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN113807103B (zh) | 基于人工智能的招聘方法、装置、设备及存储介质 | |
CN104538035A (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN112818742A (zh) | 一种用于智能面试的表达能力维度评价方法及装置 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN111178068B (zh) | 一种基于对话情绪检测的催收暴力倾向评价方法和装置 | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN110246509A (zh) | 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构 | |
CN110580899A (zh) | 语音识别方法及装置、存储介质、计算设备 | |
CN113505606B (zh) | 一种培训信息获取方法、装置、电子设备及存储介质 | |
CN110782221A (zh) | 一种面试智能评测系统及方法 | |
CN114547391A (zh) | 消息审核方法及装置 | |
CN113792140A (zh) | 文本处理方法、装置及计算机可读存储介质 | |
CN113886524A (zh) | 一种基于短文本的网络安全威胁事件抽取方法 | |
CN113239164B (zh) | 多轮对话流程构建方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |