CN112380346B

CN112380346B - 金融新闻情感分析方法、装置、计算机设备及存储介质

Info

Publication number: CN112380346B
Application number: CN202011324179.8A
Authority: CN
Inventors: 丑晓慧; 李煜; 许冠宇
Original assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Current assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2023-04-25
Anticipated expiration: 2040-11-23
Also published as: CN112380346A

Abstract

金融新闻情感分析方法、装置、计算机设备及存储介质，获取输入金融新闻文本，标注其情感类别，提取其语义特征，作为训练数据；将训练数据输入到预先构建好的情感分类模型中，得到训练好的情感分类模型；提取待预测新闻文本的语义特征输入到训练好的情感分类模型中，得到其模型预测情感类别及模型预测概率；构建词典和专家规则，对待预测金融新闻文本进行规则匹配预测，得到其规则匹配情感类别和规则匹配概率；对情感分类模型输出结果和规则匹配预测结果进行融合，得到最终的情感类别和对应的概率。结合机器学习方法与词典，对金融新闻进行正负面分析，能够快速定位感兴趣的金融新闻，辅助筛选决策。

Description

金融新闻情感分析方法、装置、计算机设备及存储介质

技术领域

本发明属于自然语言处理技术领域，特别涉及一种金融新闻情感分析的方法、装置。

背景技术

随着经济水平发展，人们理财的意愿也越来越强烈，购买股票进行投资的行为也越来越多，信息的爆发式增长以及信息获取的便捷性，人们能够获取到更多关于金融财经领域的新闻，新闻观点的情感倾向，很多程度也会作为投资者进行投资行为的参考决策的依据。面对海量的信息，如何能够快速准确的分类出上市企业股票在新闻中的正负面倾向，能够及时有效的帮助投资者进行决策。

目前情感分析的做法有基于情感字典规则的方法和基于机器学习的方法。基于情感字典的方法是通过人工标注或者是自动扩充的方法构建情感字典，基于字典的词的类别与文章中的词做匹配，并统计不同类别词的出现次数，得到文章在每个情感类别下的最终分数，最大得分的类别作为该文章的情感倾向类别。基于传统机器学习的方法是将文本特征化，使用逻辑回归、支持向量机等分类算法，使用大量人工标注样本，训练模型，对文本进行分类，预测的类别为文章的情感倾向类别。

基于情感词典的方法需要人工构建词典，获得比较全的情感倾向词典，需要业务经验的人员构建规则，比较耗时耗力，且纯粹基于词的方法，缺失语义信息，不能准确的识别到词典未覆盖到的情感正负倾向，同时需要更多的逻辑规则建立，来保证识别的准确性。基于传统机器学习的方法，需要构建特征，并且需要大量的训练标注语料，依赖标注语料和特征选择，金融资讯的丰富表达及不同类型的文章如公告、制式化文章等，具有不同的文本特征，仅仅基于单个模型去处理全部数据，不能达到很好的识别效果。

发明内容

针对现有技术存在的缺陷，本发明提出了一种金融新闻情感分析方法、装置、计算机设备及存储介质。本发明结合机器学习方法与词典，对金融新闻进行正负面分析，能够帮助读者快速定位感兴趣的新闻，提高阅读效率，辅助筛选决策。

本发明的技术方案如下：

金融新闻情感分析方法，包括：

获取输入金融新闻文本，人工标注其情感类别，并提取输入金融新闻文本的语义特征，作为训练数据；

将训练数据输入到预先构建好的情感分类模型中训练，得到训练好的情感分类模型；

提取待预测金融新闻文本的语义特征输入到训练好的情感分类模型中，得到待预测金融新闻文本的模型预测情感类别及对应的模型预测概率；

构建词典和专家规则，对待预测金融新闻文本进行规则匹配预测，得到待预测金融新闻文本的规则匹配情感类别和规则匹配概率；

对情感分类模型输出结果和规则匹配预测结果进行融合，得到待预测金融新闻文本最终的情感类别和对应的概率。

具体地，本发明若规则匹配概率大于设定的规则生效阈值且模型预测概率小于设定的置信度，或者规则匹配概率大于设定的强制规则优先阈值，则待预测金融新闻文本的最终预测情感类别为规则匹配情感类别，最终概率为规则匹配概率；否则，待预测金融新闻文本的最终预测情感类别为模型预测情感类别，最终概率为模型预测概率。强制规则优先阈值，就是规则匹配概率一旦超过强制规则优先阈值就直接将规则匹配预测结果作为最终结果，不需再参考情感分类模型输出结果，即强制选择规则匹配预测结果。规则生效阈值，就是规则规则匹配概率必须要超过规则生效阈值，才能将规则匹配预测结果与情感分类模型输出结果进行融合，如果规则规则匹配概率没超过规则生效阈值，则直接以情感分类模型输出结果为最终结果。

进一步地，本发明输入金融新闻文本为金融新闻标题，使用正则或者规则过滤特殊字符，如HTML标签、特殊标点符号等，再对输入金融新闻文本进行分词，提取输入金融新闻文本的语义特征。

进一步地，本发明所构建的情感分类模型使用神经网络模型结构。

进一步地，本发明人工标注的情感类别分为正面、负面、中性。

进一步地，本发明构建词典，分别是特征词词典、程度词词典、否定词词典，其中特征词词典中的特征词分为正面词、负面词以及中性词。专家规则包括正面、负面以及中性情感类别倾向的正则表达式、特征词、程度词、否定词以及对应的权重值，其中特征词包括正面词、负面词以及中性词。

进一步地，还包括扩充词典，将标注后的输入金融新闻文本分词，得到正面、负面、中性三个类别的词，三个类别的词汇的差集，作为各自类别的词，用于对词典进行自动扩充。采用情感倾向点互信息算法扩充字典。

进一步地，本发明规则匹配预测，包括：将记分卡正面、负面、中性类别对应的分数初始化为零，各类别的分数即该各类别的概率。

正则匹配：当待预测金融新闻文本命中正则表达式时，将正则表达式对应的权重值累加到记分卡对应类别的分数上。

特征词匹配：当待预测金融新闻文本命中特征词词典中的词，将特征词对应的权重值累加到记分卡对应类别的分数上。

否定词匹配：若待预测金融新闻文本命中否定词且至少命中一个特征词词典中的词或者正则表达式，则返回中性类别，分数赋值为预设值作为中性类别返回时的预测概率；若未命中否定词，统计记分卡每个类别的分数总和，继续下一层判断。

将正面类别、负面类别、中性类别的分数由高到低排序，如果最高分数为零，说明未命中任何规则，返回空值；若存在不同类别的分数相等，则返回中性类别，分数赋值为分数相等类别的概率值；如果存在不同类别的分数不相等，则返回最大概率值和最大概率值对应的类别，其中最大概率值即最大的分数。

根据上层输出结果判断，若为空值，说明未命中任何规则，则直接以模型的预测结果作为最终类别和最终概率值；若返回概率值和类别且命中程度词，则将输出概率值乘以程度词对应的权重值的连乘值再返回；若返回概率值和类别且未命中程度词，则直接将返回的概率值和类别作为规则匹配概率值和规则匹配类别。

金融新闻情感分析装置，包括：

文本预处理模块，用于对输入金融新闻文本标注其情感类别，并提取输入金融新闻文本的语义特征，作为训练数据。

训练模块，用于将训练数据输入到预先构建好的情感分类模型中，得到训练好的情感分类模型；

模型预测模块，用于提取待预测金融新闻文本的语义特征输入到训练好的情感分类模型中，得到待预测金融新闻文本的模型预测情感类别及对应的模型预测概率；

规则匹配预测模块，用于构建词典和专家规则，对待预测金融新闻文本进行规则匹配预测，得到待预测金融新闻文本的规则匹配情感类别和规则匹配概率；

融合模块，用于对情感分类模型输出结果和规则匹配预测结果进行融合，得到待预测金融新闻文本最终的情感类别和对应的概率。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

将训练数据输入到预先构建好的情感分类模型中，得到训练好的情感分类模型；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

与现有技术相比，本发明具有以下优点：

本发明结合机器学习方法与情感词典方法，对输入金融新闻文本(如新闻文本)进行正负面分析，能够帮助读者快速定位感兴趣的新闻，提高阅读效率，辅助筛选决策。本发明所提供的方法可以应用于其他领域(科技、社会等等)的文档情感分析处理，。

本发明结合了语义信息和专家规则，富有业务倾向的判断逻辑，使得识别更加准确。

附图说明

图1为一实施例中金融新闻情感分析方法的流程图。

图2为一实施例中正面词、负面词和中心词的构建示意图。

图3为一实施例中金融新闻情感分析装置的结构框图。

图4为一实施例中计算机设备的内部结构图。

具体实施方案

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，提供了一种金融新闻情感分析方法，包括以下步骤：

步骤一，获取输入金融新闻文本，人工标注其情感类别，并提取输入金融新闻文本的语义特征，作为训练数据。

在一实施例中，输入金融新闻文本可以通过网页公开等方式收集，输入金融新闻文本可以为新闻标题。人工标注输入金融新闻文本的情感类别，标记三个情感类别，分别为正面、负面、中性。使用预设的正则或者规则过滤特殊字符，如HTML标签、特殊标点符号等，再对输入金融新闻文本分词，获取其语义特征。

步骤二，将训练数据输入到预先构建好的情感分类模型中训练，得到训练好的情感分类模型。

在一实施例中，情感分类模型采用神经网络模型结构。利用大量人工标注的输入金融新闻文本，学习输入金融新闻文本的语义特征，用于分类。使用但不限于bert、fasttext的模型生成文本向量的方法，得到输入金融新闻文本的文档向量，然后使用文档向量做softmax多分类，计算出输入金融新闻文本属于每个情感类别的概率值，概率值最大值对应的情感类别即为输入金融新闻文本的模型预测类别。

接下来对待预测金融新闻文本进行情感类别预测，流程如如图1所示。

步骤三，提取待预测金融新闻文本的语义特征输入到训练好的情感分类模型中，得到待预测金融新闻文本的模型预测情感类别及对应的模型预测概率。

步骤四，构建词典和专家规则，对待预测金融新闻文本进行规则匹配预测，得到待预测金融新闻文本的规则匹配情感类别和规则匹配概率。

在一实施例中，构建词典，分别是特征词词典、程度词词典、否定词词典，其中特征词词典中的特征词分为正面词、负面词以及中性词。专家规则包括正面、负面以及中性情感类别倾向的正则表达式、特征词、程度词、否定词以及对应的权重值，其中特征词包括正面词、负面词以及中性词。

在一实施例中，定义如下：

正面词：赢家、狂赚、繁荣、赋能、帮扶、喜不自胜、成绩斐然

负面词：坏账、暴跌、告吹、暗箱操作、悲观、贬斥

程度词：常见程度副词，例如：甚为、十分、十足、完全、万般、非常、极、极度、极端、极其、极为、截然、绝对

否定词：常见否定词，例如：不可、不要、并非、不能、不该、不会、不宜、无法、从未

正则表达式：业务专家对常见的金融事件设计正则表达式，例如：负面事件：(净利|利润|收入).*？(减|下滑|降)。

步骤五，对情感分类模型输出结果和规则匹配预测结果进行融合，得到待预测金融新闻文本最终的情感类别和对应的概率。

若规则匹配概率大于设定的规则生效阈值且模型预测概率小于设定的置信度，或者规则匹配概率大于设定的强制规则优先阈值，则待预测金融新闻文本的最终预测情感类别为规则匹配情感类别，最终概率为规则匹配概率；否则，待预测金融新闻文本的最终预测情感类别为模型预测情感类别，最终概率为模型预测概率。

强制规则优先阈值，就是规则匹配概率一旦超过强制规则优先阈值就直接将规则匹配预测结果作为最终结果，不需再参考情感分类模型输出结果，即强制选择规则匹配预测结果。规则生效阈值，就是规则规则匹配概率必须要超过规则生效阈值，才能将规则匹配预测结果与情感分类模型输出结果进行融合，如果规则规则匹配概率没超过规则生效阈值，则直接以情感分类模型输出结果为最终结果。

在本发明一实施例中，还包括使用标注数据，自动生成并扩充词典，包括：将大量人工标注的输入金融新闻文本分词，将分词得到的正面、负面、中性三个类别的词汇的差集，作为各自类别的词，用于对词典进行自动扩充，如图2所示。

使用情感倾向点互信息算法(SO-PMI)扩充词典。SO-PMI算法是基于点互信息(PMI)算法的改进。PMI算法是统计两个词的共现概率，概率越大，这两个词就越相关。

其中P(word1)代表词word1出现的概率，P(word2)代表词word2出现的概率，P(word1&word2)代表词word1和词word2同时出现的概率。

SO-PMI算法的基本思想是使用正面词典(Pwords)和负面词典(Nwords)与当前需要判断情感类型的词做PMI计算，然后相减，如果为正，则倾向于正面词，如果为负，则倾向于负面词。

在本发明一实施例中，规则匹配预测，包括：

先将记分卡正面、负面、中性类别对应的分数初始化为零，各类别的分数即该各类别的概率。

在一个实施例中，如图3所示，提供了一种金融新闻情感分析装置，包括：

文本预处理模块，用于对输入金融新闻文本标注其情感类别，并提取输入金融新闻文本的语义特征，作为训练数据；

关于金融新闻情感分析装置的具体限定可以参见上文中对于金融新闻情感分析方法的限定，在此不再赘述。上述金融新闻情感分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储输入金融新闻文本。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种金融新闻情感分析方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中金融新闻情感分析方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中金融新闻情感分析方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.金融新闻情感分析方法，其特征在于，包括：

对情感分类模型输出结果和规则匹配预测结果进行融合，得到待预测金融新闻文本最终的情感类别和对应的概率；

融合过程中，若规则匹配概率大于设定的规则生效阈值且模型预测概率小于设定的置信度，或者规则匹配概率大于设定的强制规则优先阈值，则待预测金融新闻文本的最终预测情感类别为规则匹配情感类别，最终概率为规则匹配概率；否则，待预测金融新闻文本的最终预测情感类别为模型预测情感类别，最终概率为模型预测概率；

其中，所述规则生效阈值是指当所述规则匹配概率超过所述规则生效阈值时，将所述规则匹配预测结果与所述情感分类模型输出结果进行融合，得到最终结果；否则，将所述情感分类模型输出结果为最终结果；

所述强制规则优先阈值是指当所述规则匹配概率超过所述强制规则优先阈值时，将所述规则匹配预测结果作为最终结果，忽略所述情感分类模型输出结果；

规则匹配预测，包括：

正则匹配：当待预测金融新闻文本命中正则表达式时，将正则表达式对应的权重值累加到记分卡对应类别的分数上；

特征词匹配：当待预测金融新闻文本命中特征词词典中的词，将特征词对应的权重值累加到记分卡对应类别的分数上；

否定词匹配：若待预测金融新闻文本命中否定词且至少命中一个特征词词典中的词或者正则表达式，则返回中性类别，分数赋值为预设值作为中性类别返回时的预测概率；若未命中否定词，统计记分卡每个类别的分数总和，继续下一层判断；

将正面类别、负面类别、中性类别的分数由高到低排序，如果最高分数为零，说明未命中任何规则，返回空值；若存在不同类别的分数相等，则返回中性类别，分数赋值为分数相等类别的概率值；如果存在不同类别的分数不相等，则返回最大概率值和最大概率值对应的类别，其中最大概率值即最大的分数；

2.根据权利要求1所述的金融新闻情感分析方法，其特征在于，输入金融新闻文本为金融新闻标题，使用正则或者规则过滤特殊字符，再对输入金融新闻文本进行分词，提取输入金融新闻文本的语义特征。

3.根据权利要求1所述的金融新闻情感分析方法，其特征在于，所构建的情感分类模型使用神经网络模型结构。

4.根据权利要求1所述的金融新闻情感分析方法，其特征在于，构建词典，分别是特征词词典、程度词词典、否定词词典，其中特征词词典中的特征词分为正面词、负面词以及中性词；专家规则包括正面、负面以及中性情感类别倾向的正则表达式、特征词、程度词、否定词以及对应的权重值。

5.根据权利要求4所述的金融新闻情感分析方法，其特征在于，还包括扩充词典，将标注后的输入金融新闻文本分词，得到正面、负面、中性三个类别的词，三个类别的词汇的差集，作为各自类别的词，用于对词典进行自动扩充，采用情感倾向点互信息算法扩充字典。

6.金融新闻情感分析装置，包括：

融合模块，用于对情感分类模型输出结果和规则匹配预测结果进行融合，得到待预测金融新闻文本最终的情感类别和对应的概率；

所述规则匹配预测模块还用于：

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1所述金融新闻情感分析方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1所述金融新闻情感分析方法的步骤。