CN114254091A - 一种基于金融情感词典的情感倾向性分析与评价模型 - Google Patents
一种基于金融情感词典的情感倾向性分析与评价模型 Download PDFInfo
- Publication number
- CN114254091A CN114254091A CN202111546561.8A CN202111546561A CN114254091A CN 114254091 A CN114254091 A CN 114254091A CN 202111546561 A CN202111546561 A CN 202111546561A CN 114254091 A CN114254091 A CN 114254091A
- Authority
- CN
- China
- Prior art keywords
- emotion
- dictionary
- word
- words
- negative
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于金融情感词典的情感倾向性分析与评价模型,包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块,通过中文分词器读取文本并进行分词,所述情感分数输出模块计算文本的情感分数,并通过等级判断模块输出文本等级,即可得出文本情感倾向水平。本发明中,本发明的情感倾向性分析模型是服务于聊天机器人的,想区分的不是传统模型所致力的区分真正的情感,而是区分一个是否问题,并且重点也需要区分出客户转移话题的意图,通过对用户回复进行两次等级判断,并给出对应的结果,更好地提升了用户体验度和聊天机器人的交互性。
Description
技术领域
本发明涉及文本情感倾向分析模型技术领域,尤其涉及一种基于金融情感词典的情感倾向性分析与评价模型。
背景技术
文本的情感倾向性研究是当前计算机领域、智能信息领域和自然语言处理领域中比较活跃的一个分支,它通过对文本中的评论对象的情感倾向进行分析,可以判断出评论者对评论对象的情感倾向是褒义的还是贬义的,文本情感倾向性分析被广泛地应用于信息检索、信息过滤和情感识别等领域,主要是判别文本的情感倾向,即属于正面、负面、中性,利用机器提取人们对某人或事物的态度,从而发现潜在的问题用于改进或预测。
目前主要的情感分析模型一是基于监督或半监督学习的,以及基于神经网络、深度学习的一些方法,将文档转换成向量后,利用SVM、贝叶斯分类器等分类器再去分类,从而判断文档的情感倾向,虽然,基于监督、半监督学习的情感分析模型其实普遍是更加好的方法,但是该模型非常吃数据,对于数据的质量和数量都有着很高的要求,特别是针对某些特有场景比如金融、医疗类行业下的情感分析模型,由于专业词汇很多,所以需要大量该场景下的语料数据,还需要人工标注,工作量非常大,其次情感分析模型尤其是判断是否问题的情感分析,普遍存在一种问题,也就是正面(是)、负面(否)往往可以较为准确的判断,但是对于中性的内容,经常会错误判断到正方面;
二是传统的情感词典模型,传统的情感词典模型难点在于构建一个合理的情感词库,给每个词以相应的情感倾向度的权值,然后从文本中提取出所有的情感词并根据句子特点(反问句,疑问句等)计算最后的情感得分,和根据情感得分判断文本的情感极性,存在以下难点:(1)质量良好的中文情感词典非常少;(2)不带情感的停用词会影响情感打分;(3)中文博大精深,词性的多变影响准确性;(4)无法结合上下文分析情感。
发明内容
为了解决上述背景技术中所提到的技术问题,而提出的一种基于金融情感词典的情感倾向性分析与评价模型。
为了实现上述目的,本发明采用了如下技术方案:
一种基于金融情感词典的情感倾向性分析与评价模型,包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块;
所述专有词汇白名单包括对应领域的情感词、否定词和程度副词,所述情感词词典、否定词词典和程度副词词典分别收录已分类的情感词、否定词和程度副词,并转化为“词语-分值”映射关系,通过中文分词器读取文本并进行分词,所述情感词词典、否定词词典和程度副词词典读取对应的情感词、否定词和程度副词在文本中的位置,并转化为“位置-分值”映射关系;
式中,Sw-单一情感词分数,Nn,No-前缀否定词和程度副词分数,Ds,So-前缀每个程度副词和单一情感词的原始分数,Ss-文本情感分数,No-文本中情感词个数。
作为上述技术方案的进一步描述:
所述等级判断模块包括一级判断模式,所述一级判断模式包括五个等级,由下式进行等级划分:
作为上述技术方案的进一步描述:
所述等级判断模块还包括二级判断模式,当一级等级判断模式判断为4级或者2级时,进入二级等级判断模式,所述二级等级判断模式包括三个等级,由下式进行等级划分:
作为上述技术方案的进一步描述:
还包括其它词词典,中文分词器在文本进行分词时,除情感词、否定词和程度副词外的词语归入其它词词典中。
作为上述技术方案的进一步描述:
所述中文分词器为jieba分词器,对应领域的专有词汇写入jieba分词器原始白名单中,更新jieba分词器原始白名单为专有词汇白名单。
作为上述技术方案的进一步描述:
在通过情感分数模块计算文本情感分数前,所有文本的初始分数均为0。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明中,本发明的情感倾向性分析模型是服务于聊天机器人的,想区分的不是传统模型所致力的区分真正的情感,而是区分一个是否问题,并且重点也需要区分出客户转移话题的意图,通过对用户回复进行两次等级判断,并给出对应的结果,更好地提升了用户体验度和聊天机器人的交互性。
2、本发明中,本发明能符合金融银行业的需求,能识别该场景下的相关专业词汇,能够较好的识别出是否以为的中性内容,也就是识别出用户想转移话题的意图,且本发明不止可以应用于金融场景下的聊天机器人,也可以作为其它垂直领域比如医疗、教育、服务等领域的聊天机器人,比如金融场景下的正面词汇比如办理、申请,反面词汇比如注销等,应用于医疗场景下可能就是光整、阴性、无殊的正面词以及毛刺、阳性、疼痛的反面词等等,。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅表1-3,本发明提供一种技术方案:一种基于金融情感词典的情感倾向性分析与评价模型,包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块,其中,中文分词器为jieba分词器,对应领域的专有词汇写入jieba分词器原始白名单中,更新jieba分词器原始白名单为专有词汇白名单;
中文分词是中文nlp工程中非常关键的一步,它不同于英文分词仅仅通过空格去切分,中文的分词要复杂很多,也是整体模型后续效果的一个基础,一般来说,中文分词可以根据自己的语料数据集进行标注以后,通过CRF模型或者深度学习的方法来进行训练,这种做法虽然效果更贴合业务场景,但是也有他的缺点:(1)语料数据集质量和数量要求较高;(2)人工标注工作量巨大;(3)多人标注的话规范容易不一,因此在很多情况下,我们会选择网上通用的中文分词器去帮助我们进行分词,比如jieba分词器,由于原始白名单的存在,jieba分词器的应用还算是相对灵活的,我们可以将我们需要的词汇写入原始白名单,获得专有词汇白名单;
专有词汇白名单包括对应领域的情感词、否定词和程度副词,在整理相关的专有词汇时,最好是能够表达是否的倾向性词汇,如金融银行业相关的专有词汇,如以下表1所示:
表1
具体的,还包括其它词词典,中文分词器在文本进行分词时,除情感词、否定词和程度副词外的词语归入其它词词典中;
情感词词典、否定词词典和程度副词词典分别收录已分类的情感词、否定词和程度副词,并转化为“词语-分值”映射关系,通过中文分词器读取文本并进行分词,情感词词典、否定词词典和程度副词词典读取对应的情感词、否定词和程度副词在文本中的位置,并转化为“位置-分值”映射关系;
具体的,对于用户回复的评论,采用的手段为遍历匹配相应的词性词典并对每条评论建立对应的位置词典,分词后文本中的所有词语彼此独立,故对于每一条评论,将其内部的每一个词分别归类于“情感词”、“否定词”、“程度词”和“其它词”四类中;
式中,Sw-单一情感词分数,Nn,No-前缀否定词和程度副词分数,Ds,So-前缀每个程度副词和单一情感词的原始分数,Ss-文本情感分数,No-文本中情感词个数;
采用的手段为遍历每条回复中分词后的位置信息,输出情感分数,一条回复的初始分数为0,按位置遍历内部词语,若一个词被判定为“情感词”,则按照情感词位置词典读取分数,若两个“情感词”之间有词语被判定为“否定词”或“程度副词”,则按照否定位置词典或程度副词位置词典读取分数(“否定词”实则皆为-1),将之与后一个“情感词”分数相乘,最后将一条回复的所有情感词分数相加,得其总分数;
请参阅表2,等级判断模块包括一级判断模式,一级判断模式包括五个等级,由下式进行等级划分:
通过五个等级划分,得到文本整体情感倾向水平,对于等级1,3,5可以直接给出相应的结果,等级1理解为“否”,等级5理解为“是”,等级3判断为用户在转移话题,对于等级2和等级4则需要进入二级等级判断模式,进行二次确定;
例如,对于金融领域,聊天机器人提出这样的问题:“请问您有没有相关的理财经验?”,用户给出回复如以下表2所示,根据用户的回复不同,等级判断模块给出相应的结果:
表2
通过表2可知,对于等级2或者4的情况,需要反问用户,对于再次收到的回复,调整等级分级和分级公式,进入二级等级判断模式;
请参阅表3,等级判断模块还包括二级判断模式,当一级等级判断模式判断为4级或者2级时,进入二级等级判断模式,二级等级判断模式包括三个等级,由下式进行等级划分:
通过三个等级的划分,对上一轮回复进行进一步的情感倾向水平判断,等级0理解为“否”,等级2'理解为“是”,等级1'判断为用户在转移话题;
如以下表3所示,对于表1中等级为2和4的上一轮回复进行二次等级判断,并给出对应的结果:
表3
由表3可知,对于上一轮等级为2的是否问题回复中,需要用到负负得正的原理,次轮等级为正,也就是等级为2'的时候,给出上一轮为反的回复,如“好的,办理理财需要了解以下事项:······”,而次轮等级为负,也就是等级为0的,给出上一轮等级为正的回复,如“好的,那我就直接给您介绍产品吧。”
传统的情感词典模型,往往是通过情感词的情感分值来体现词汇表达的情感,比如丰富多彩、神采飞扬、高兴、温柔、无奈、难过等等,而本发明的情感倾向性分析模型是服务于聊天机器人的,想区分的不是传统模型所致力的区分真正的情感,而是区分一个是否问题,并且重点也需要区分出客户转移话题的意图,通过对用户回复进行两次等级判断,并给出对应的结果,更好地提升了用户体验度和聊天机器人的交互性;
本发明能符合金融银行业的需求,能识别该场景下的相关专业词汇,能够较好的识别出是否以为的中性内容,也就是识别出用户想转移话题的意图,且本发明不止可以应用于金融场景下的聊天机器人,也可以作为其它垂直领域比如医疗、教育、服务等领域的聊天机器人,比如金融场景下的正面词汇比如办理、申请,反面词汇比如注销等,应用于医疗场景下可能就是光整、阴性、无殊的正面词以及毛刺、阳性、疼痛的反面词等等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (6)
1.一种基于金融情感词典的情感倾向性分析与评价模型,其特征在于,包括专有词汇白名单、中文分词器、情感词词典、否定词词典、程度副词词典、情感词位置词典、否定词位置词典、程度副词位置词典、情感分数输出模块和等级判断模块;
所述专有词汇白名单包括对应领域的情感词、否定词和程度副词,所述情感词词典、否定词词典和程度副词词典分别收录已分类的情感词、否定词和程度副词,并转化为“词语-分值”映射关系,通过中文分词器读取文本并进行分词,所述情感词词典、否定词词典和程度副词词典读取对应的情感词、否定词和程度副词在文本中的位置,并转化为“位置-分值”映射关系;
式中,Sw-单一情感词分数,Nn,No-前缀否定词和程度副词分数,Ds,So-前缀每个程度副词和单一情感词的原始分数,Ss-文本情感分数,No-文本中情感词个数。
4.根据权利要求1所述的一种基于金融情感词典的情感倾向性分析与评价模型,其特征在于,还包括其它词词典,中文分词器在文本进行分词时,除情感词、否定词和程度副词外的词语归入其它词词典中。
5.根据权利要求1所述的一种基于金融情感词典的情感倾向性分析与评价模型,其特征在于,所述中文分词器为jieba分词器,对应领域的专有词汇写入jieba分词器原始白名单中,更新jieba分词器原始白名单为专有词汇白名单。
6.根据权利要求1所述的一种基于金融情感词典的情感倾向性分析与评价模型,其特征在于,在通过情感分数模块计算文本情感分数前,所有文本的初始分数均为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111546561.8A CN114254091A (zh) | 2021-12-16 | 2021-12-16 | 一种基于金融情感词典的情感倾向性分析与评价模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111546561.8A CN114254091A (zh) | 2021-12-16 | 2021-12-16 | 一种基于金融情感词典的情感倾向性分析与评价模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254091A true CN114254091A (zh) | 2022-03-29 |
Family
ID=80792685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111546561.8A Pending CN114254091A (zh) | 2021-12-16 | 2021-12-16 | 一种基于金融情感词典的情感倾向性分析与评价模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254091A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573844A (zh) * | 2024-01-15 | 2024-02-20 | 深圳市加推科技有限公司 | 一种基于上下文感知的数据推荐方法、装置及相关介质 |
-
2021
- 2021-12-16 CN CN202111546561.8A patent/CN114254091A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117573844A (zh) * | 2024-01-15 | 2024-02-20 | 深圳市加推科技有限公司 | 一种基于上下文感知的数据推荐方法、装置及相关介质 |
CN117573844B (zh) * | 2024-01-15 | 2024-04-05 | 深圳市加推科技有限公司 | 一种基于上下文感知的数据推荐方法、装置及相关介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106776581B (zh) | 基于深度学习的主观性文本情感分析方法 | |
CN112269868B (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN110287319B (zh) | 基于情感分析技术的学生评教文本分析方法 | |
CN110717332B (zh) | 基于非对称孪生网络的新闻与案件相似度计算方法 | |
CN111767741A (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN111125354A (zh) | 文本分类方法及装置 | |
Barnes et al. | Sentiment analysis is not solved! assessing and probing sentiment classification | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
CN111414746A (zh) | 一种匹配语句确定方法、装置、设备及存储介质 | |
Zhang et al. | Sentiment classification for Chinese reviews using machine learning methods based on string kernel | |
Thu et al. | Implementation of emotional features on satire detection | |
Hamed et al. | Deep learning approach for translating arabic holy quran into italian language | |
US20230073602A1 (en) | System of and method for automatically detecting sarcasm of a batch of text | |
Chang et al. | A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING. | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN109062977A (zh) | 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统 | |
Al-Azani et al. | Early and late fusion of emojis and text to enhance opinion mining | |
CN107818173A (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
Varaprasad et al. | Applications and Techniques of Natural Language Processing: An Overview. | |
CN114254091A (zh) | 一种基于金融情感词典的情感倾向性分析与评价模型 | |
Ajees et al. | A named entity recognition system for Malayalam using neural networks | |
Hasnat et al. | Understanding sarcasm from reddit texts using supervised algorithms | |
Kalaivani et al. | Multilingual Sentiment Analysis in Tamil, Malayalam, and Kannada code-mixed social media posts using MBERT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |