CN114254091A

CN114254091A - 一种基于金融情感词典的情感倾向性分析与评价模型

Info

Publication number: CN114254091A
Application number: CN202111546561.8A
Authority: CN
Inventors: 陈再蝶; 朱晓秋; 周杰; 樊伟东
Original assignee: Zhejiang Kangxu Technology Co ltd
Current assignee: Zhejiang Kangxu Technology Co ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-29

Abstract

本发明公开了一种基于金融情感词典的情感倾向性分析与评价模型，包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块，通过中文分词器读取文本并进行分词，所述情感分数输出模块计算文本的情感分数，并通过等级判断模块输出文本等级，即可得出文本情感倾向水平。本发明中，本发明的情感倾向性分析模型是服务于聊天机器人的，想区分的不是传统模型所致力的区分真正的情感，而是区分一个是否问题，并且重点也需要区分出客户转移话题的意图，通过对用户回复进行两次等级判断，并给出对应的结果，更好地提升了用户体验度和聊天机器人的交互性。

Description

一种基于金融情感词典的情感倾向性分析与评价模型

技术领域

本发明涉及文本情感倾向分析模型技术领域，尤其涉及一种基于金融情感词典的情感倾向性分析与评价模型。

背景技术

文本的情感倾向性研究是当前计算机领域、智能信息领域和自然语言处理领域中比较活跃的一个分支，它通过对文本中的评论对象的情感倾向进行分析，可以判断出评论者对评论对象的情感倾向是褒义的还是贬义的，文本情感倾向性分析被广泛地应用于信息检索、信息过滤和情感识别等领域，主要是判别文本的情感倾向，即属于正面、负面、中性，利用机器提取人们对某人或事物的态度，从而发现潜在的问题用于改进或预测。

目前主要的情感分析模型一是基于监督或半监督学习的，以及基于神经网络、深度学习的一些方法，将文档转换成向量后，利用SVM、贝叶斯分类器等分类器再去分类，从而判断文档的情感倾向，虽然，基于监督、半监督学习的情感分析模型其实普遍是更加好的方法，但是该模型非常吃数据，对于数据的质量和数量都有着很高的要求，特别是针对某些特有场景比如金融、医疗类行业下的情感分析模型，由于专业词汇很多，所以需要大量该场景下的语料数据，还需要人工标注，工作量非常大，其次情感分析模型尤其是判断是否问题的情感分析，普遍存在一种问题，也就是正面(是)、负面(否)往往可以较为准确的判断，但是对于中性的内容，经常会错误判断到正方面；

二是传统的情感词典模型，传统的情感词典模型难点在于构建一个合理的情感词库，给每个词以相应的情感倾向度的权值，然后从文本中提取出所有的情感词并根据句子特点(反问句，疑问句等)计算最后的情感得分，和根据情感得分判断文本的情感极性，存在以下难点：(1)质量良好的中文情感词典非常少；(2)不带情感的停用词会影响情感打分；(3)中文博大精深，词性的多变影响准确性；(4)无法结合上下文分析情感。

发明内容

为了解决上述背景技术中所提到的技术问题，而提出的一种基于金融情感词典的情感倾向性分析与评价模型。

为了实现上述目的，本发明采用了如下技术方案：

一种基于金融情感词典的情感倾向性分析与评价模型，包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块；

所述专有词汇白名单包括对应领域的情感词、否定词和程度副词，所述情感词词典、否定词词典和程度副词词典分别收录已分类的情感词、否定词和程度副词，并转化为“词语-分值”映射关系，通过中文分词器读取文本并进行分词，所述情感词词典、否定词词典和程度副词词典读取对应的情感词、否定词和程度副词在文本中的位置，并转化为“位置-分值”映射关系；

所述情感分数输出模块通过公式：

计算文本的情感分数，并通过等级判断模块输出文本等级，即可得出文本情感倾向水平；

式中，S_w-单一情感词分数，N_n,N_o-前缀否定词和程度副词分数，D_s,S_o-前缀每个程度副词和单一情感词的原始分数，S_s-文本情感分数，N_o-文本中情感词个数。

作为上述技术方案的进一步描述：

所述等级判断模块包括一级判断模式，所述一级判断模式包括五个等级，由下式进行等级划分：

作为上述技术方案的进一步描述：

所述等级判断模块还包括二级判断模式，当一级等级判断模式判断为4级或者2级时，进入二级等级判断模式，所述二级等级判断模式包括三个等级，由下式进行等级划分：

作为上述技术方案的进一步描述：

还包括其它词词典，中文分词器在文本进行分词时，除情感词、否定词和程度副词外的词语归入其它词词典中。

作为上述技术方案的进一步描述：

所述中文分词器为jieba分词器，对应领域的专有词汇写入jieba分词器原始白名单中，更新jieba分词器原始白名单为专有词汇白名单。

作为上述技术方案的进一步描述：

在通过情感分数模块计算文本情感分数前，所有文本的初始分数均为0。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明中，本发明的情感倾向性分析模型是服务于聊天机器人的，想区分的不是传统模型所致力的区分真正的情感，而是区分一个是否问题，并且重点也需要区分出客户转移话题的意图，通过对用户回复进行两次等级判断，并给出对应的结果，更好地提升了用户体验度和聊天机器人的交互性。

2、本发明中，本发明能符合金融银行业的需求，能识别该场景下的相关专业词汇，能够较好的识别出是否以为的中性内容，也就是识别出用户想转移话题的意图，且本发明不止可以应用于金融场景下的聊天机器人，也可以作为其它垂直领域比如医疗、教育、服务等领域的聊天机器人，比如金融场景下的正面词汇比如办理、申请，反面词汇比如注销等，应用于医疗场景下可能就是光整、阴性、无殊的正面词以及毛刺、阳性、疼痛的反面词等等，。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例一

请参阅表1-3，本发明提供一种技术方案：一种基于金融情感词典的情感倾向性分析与评价模型，包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块，其中，中文分词器为jieba分词器，对应领域的专有词汇写入jieba分词器原始白名单中，更新jieba分词器原始白名单为专有词汇白名单；

中文分词是中文nlp工程中非常关键的一步，它不同于英文分词仅仅通过空格去切分，中文的分词要复杂很多，也是整体模型后续效果的一个基础，一般来说，中文分词可以根据自己的语料数据集进行标注以后，通过CRF模型或者深度学习的方法来进行训练，这种做法虽然效果更贴合业务场景，但是也有他的缺点：(1)语料数据集质量和数量要求较高；(2)人工标注工作量巨大；(3)多人标注的话规范容易不一，因此在很多情况下，我们会选择网上通用的中文分词器去帮助我们进行分词，比如jieba分词器，由于原始白名单的存在，jieba分词器的应用还算是相对灵活的，我们可以将我们需要的词汇写入原始白名单，获得专有词汇白名单；

专有词汇白名单包括对应领域的情感词、否定词和程度副词，在整理相关的专有词汇时，最好是能够表达是否的倾向性词汇，如金融银行业相关的专有词汇，如以下表1所示：

表1

具体的，还包括其它词词典，中文分词器在文本进行分词时，除情感词、否定词和程度副词外的词语归入其它词词典中；

情感词词典、否定词词典和程度副词词典分别收录已分类的情感词、否定词和程度副词，并转化为“词语-分值”映射关系，通过中文分词器读取文本并进行分词，情感词词典、否定词词典和程度副词词典读取对应的情感词、否定词和程度副词在文本中的位置，并转化为“位置-分值”映射关系；

具体的，对于用户回复的评论，采用的手段为遍历匹配相应的词性词典并对每条评论建立对应的位置词典，分词后文本中的所有词语彼此独立，故对于每一条评论，将其内部的每一个词分别归类于“情感词”、“否定词”、“程度词”和“其它词”四类中；

情感分数输出模块通过公式：

计算文本的情感分数，并通过等级判断模块输出文本等级，即可得出文本情感倾向水平，其中，在通过情感分数模块计算文本情感分数前，所有文本的初始分数均为0；

式中，S_w-单一情感词分数，N_n,N_o-前缀否定词和程度副词分数，D_s,S_o-前缀每个程度副词和单一情感词的原始分数，S_s-文本情感分数，N_o-文本中情感词个数；

采用的手段为遍历每条回复中分词后的位置信息，输出情感分数，一条回复的初始分数为0，按位置遍历内部词语，若一个词被判定为“情感词”，则按照情感词位置词典读取分数，若两个“情感词”之间有词语被判定为“否定词”或“程度副词”，则按照否定位置词典或程度副词位置词典读取分数(“否定词”实则皆为-1)，将之与后一个“情感词”分数相乘，最后将一条回复的所有情感词分数相加，得其总分数；

请参阅表2，等级判断模块包括一级判断模式，一级判断模式包括五个等级，由下式进行等级划分：

通过五个等级划分，得到文本整体情感倾向水平，对于等级1，3，5可以直接给出相应的结果，等级1理解为“否”，等级5理解为“是”，等级3判断为用户在转移话题，对于等级2和等级4则需要进入二级等级判断模式，进行二次确定；

例如，对于金融领域，聊天机器人提出这样的问题：“请问您有没有相关的理财经验？”，用户给出回复如以下表2所示，根据用户的回复不同，等级判断模块给出相应的结果：

表2

通过表2可知，对于等级2或者4的情况，需要反问用户，对于再次收到的回复，调整等级分级和分级公式，进入二级等级判断模式；

请参阅表3，等级判断模块还包括二级判断模式，当一级等级判断模式判断为4级或者2级时，进入二级等级判断模式，二级等级判断模式包括三个等级，由下式进行等级划分：

通过三个等级的划分，对上一轮回复进行进一步的情感倾向水平判断，等级0理解为“否”，等级2'理解为“是”，等级1'判断为用户在转移话题；

如以下表3所示，对于表1中等级为2和4的上一轮回复进行二次等级判断，并给出对应的结果：

表3

由表3可知，对于上一轮等级为2的是否问题回复中，需要用到负负得正的原理，次轮等级为正，也就是等级为2'的时候，给出上一轮为反的回复，如“好的，办理理财需要了解以下事项：······”，而次轮等级为负，也就是等级为0的，给出上一轮等级为正的回复，如“好的，那我就直接给您介绍产品吧。”

传统的情感词典模型，往往是通过情感词的情感分值来体现词汇表达的情感，比如丰富多彩、神采飞扬、高兴、温柔、无奈、难过等等，而本发明的情感倾向性分析模型是服务于聊天机器人的，想区分的不是传统模型所致力的区分真正的情感，而是区分一个是否问题，并且重点也需要区分出客户转移话题的意图，通过对用户回复进行两次等级判断，并给出对应的结果，更好地提升了用户体验度和聊天机器人的交互性；

本发明能符合金融银行业的需求，能识别该场景下的相关专业词汇，能够较好的识别出是否以为的中性内容，也就是识别出用户想转移话题的意图，且本发明不止可以应用于金融场景下的聊天机器人，也可以作为其它垂直领域比如医疗、教育、服务等领域的聊天机器人，比如金融场景下的正面词汇比如办理、申请，反面词汇比如注销等，应用于医疗场景下可能就是光整、阴性、无殊的正面词以及毛刺、阳性、疼痛的反面词等等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于金融情感词典的情感倾向性分析与评价模型，其特征在于，包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块；

所述情感分数输出模块通过公式：

2.根据权利要求1所述的一种基于金融情感词典的情感倾向性分析与评价模型，其特征在于，所述等级判断模块包括一级判断模式，所述一级判断模式包括五个等级，由下式进行等级划分：

3.根据权利要求2所述的一种基于金融情感词典的情感倾向性分析与评价模型，其特征在于，所述等级判断模块还包括二级判断模式，当一级等级判断模式判断为4级或者2级时，进入二级等级判断模式，所述二级等级判断模式包括三个等级，由下式进行等级划分：

4.根据权利要求1所述的一种基于金融情感词典的情感倾向性分析与评价模型，其特征在于，还包括其它词词典，中文分词器在文本进行分词时，除情感词、否定词和程度副词外的词语归入其它词词典中。

5.根据权利要求1所述的一种基于金融情感词典的情感倾向性分析与评价模型，其特征在于，所述中文分词器为jieba分词器，对应领域的专有词汇写入jieba分词器原始白名单中，更新jieba分词器原始白名单为专有词汇白名单。

6.根据权利要求1所述的一种基于金融情感词典的情感倾向性分析与评价模型，其特征在于，在通过情感分数模块计算文本情感分数前，所有文本的初始分数均为0。