CN114020901A

CN114020901A - 一种结合主题挖掘和情感分析的金融舆情分析方法

Info

Publication number: CN114020901A
Application number: CN202111134508.7A
Authority: CN
Inventors: 刘鹏; 张真; 高中强; 张堃; 龙江; 严乐乐
Original assignee: Nanjing Innovative Data Technologies Inc
Current assignee: Nanjing Innovative Data Technologies Inc
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2022-02-08

Abstract

本发明公开了一种结合主题挖掘和情感分析的金融舆情分析方法，主要步骤包括：通过爬虫技术获取金融文本并进行预处理；将预处理后的金融文本导入PLDA主题模型，获取主题及每个主题下的关键词，以确定热门主题；对各个热门主题的金融文本进行词嵌入，将金融文本中的词进行向量化表示，并每个词的位置信息加到对应的词向量中，得到金融文本的句子表示；利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征，用来表示金融文本的句子结构信息；使用Softmax分类函数对金融文本的句子结构信息进行情感分类，获得金融文本的情感类别。本发明能够获取股吧热门主题及其情感极性，监测潜在舆情，为金融舆情管理提供有效方法和模型。

Description

一种结合主题挖掘和情感分析的金融舆情分析方法

技术领域

本发明属于金融舆情分析领域，具体涉及一种结合主题挖掘和情感分析的金融舆情分析方法。

背景技术

随着互联网技术的迅速发展，在金融领域每天都能产生大量的资讯信息，如何对大量的信息进行甄别、抽取显得特别重要。各种金融文本反应了投资者的情绪，投资者情绪决定了投资者的行为，最终影响整个市场的走向。通过对这些金融文本进行舆情分析，能够了解金融市场的发展趋势，有利于金融市场的监控和股价的异常处理。因此，对金融文本进行舆情分析具有重要意义。

传统的金融舆情分析方法主要基于情感词典和机器学习，情感词典通过金融文本中正负情感词的数目来分析对应的情感极性，机器学习的方法包括支持向量机、朴素贝叶斯和逻辑回归等等。然而，传统方法高度依赖于特征工程，成本较高而且特征工程的效果直接决定分类的精度，同时传统模型难以完整的提取到金融文本的语义信息以及多尺度信息。由于神经网络能够自动提取文本的特征，当前许多基于神经网络的方法被应用于金融舆情分析，其中较为常用并且效果较好的是卷积神经网络和长短期记忆网络。卷积神经网络可以捕捉金融文本的局部连续短语信息，但由于卷积操作本身是线性的，无法充分建模文本中非连续的短语结构，例如一些情感转折的表达。长短期记忆网络可以有效建模金融文本的序列信息，然而长短期记忆网络是一个有偏模型，会倾向文本末尾的信息，同时无法建模金融文本中的多尺度信息。由于有标签的金融舆情文本数据集有限，当前的模型参数规模相对较大，容易造成模型过拟合和特征冗余，降低舆情分析的准确率。

通常金融舆情具有时效性、主观性以及传播性广等特点，传统方法仅限于对金融舆情内容的情感分析上，缺乏对热点金融舆情进行提取和甄别的能力。综上，现有的舆情分析方法存在以下缺陷：热点话题不够明确，情感分析准确性不高。目前亟待提出一种更有时效性和主题性的金融舆情分析方法。

发明内容

本发明针对现有技术中的不足，提供一种结合主题挖掘和情感分析的金融舆情分析方法。

为实现上述目的，本发明采用以下技术方案：

一种结合主题挖掘和情感分析的金融舆情分析方法，包括以下步骤：

步骤1：通过爬虫技术获取金融文本，并对获取的金融文本进行预处理；

步骤2：将预处理后的金融文本导入PLDA主题模型，获取每个金融文本的主题及每个主题下的关键词，以确定热门主题；

步骤3：对各个热门主题的金融文本进行词嵌入，将金融文本中的词进行向量化表示，并对每个词的位置信息进行编码，将每个词的位置信息加到对应的词向量中，得到金融文本的句子表示；

步骤4：利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征，用来表示金融文本的句子结构信息；

步骤5：使用Softmax分类函数对金融文本的句子结构信息进行情感分类，获得金融文本的情感类别。

进一步地，步骤1中所述预处理为：删除评论数少于一定阈值的金融文本，对剩余的金融文本进行清洗以去除无意义的符号并进行分词处理。

进一步地，步骤2中，PLDA主题模型在确定金融文本主题时，对每个金融文本根据其发布节点的重要性赋予其重要性权重，首先根据Page-Rank算法计算金融文本发布节点的PR值，PR值越高代表发布节点越重要，重要的发布节点发布的信息越重要，将发布节点的PR值作为金融文本的重要性权重，再将金融文本的主题分布乘以该金融文本的重要性权重，从而得到对每个发布节点需要增强的新的主题以加强发布节点的主题分布。

进一步地，步骤3中对每个词的位置信息进行编码的方法为：

S3.1、计算每个词的位置向量：

式中，pos表示词在句子中的位置索引，i表示词嵌入向量的维度索引，d表示词向量的维度；

S3.2、加入位置信息后的词向量rv_i为rv_i＝wv_i+pv_i，wv_i表示句子中第i个词的词向量，pv_i表示句子中第i个词的位置向量。

进一步地，所述混合神经网络模型为自注意力机制和卷积神经网络的相结合，步骤4具体包括：

S4.1、使用多个自注意力模块提取句子的语义和全局结构信息：将加入位置信息后的词向量分别输入到多个自注意力模块中，然后将所得结果进行向量拼接组成文本全局结构信息特征向量Z；

S4.2、使用不同窗口大小的卷积核对加入位置信息后的词向量进行一维卷积，将卷积获得的每个特征图进行最大池化，得到文本短语级特征向量C；

S4.3、将文本全局结构信息特征向量Z和文本短语级特征向量C进行拼接得到特征向量Y，用特征向量Y表示金融文本的句子结构信息。

进一步地，步骤5具体包括以下步骤：

S5.1、构建并训练Softmax分类器，包括全连接层和Softmax分类层，Softmax分类器的损失函数Loss为

式中，N、Cl分别表示样本总数和情感类别数，y_ij表示第i个样本属于第j个情感类别的真实概率值，p_ij表示第i个样本属于第j个情感类别的预测概率值；

S5.2、将特征向量Y通过全连接层输入Softmax分类层，获取情感分类结果：

p＝Soft max(W_cY+b_c)，

式中，W_c、b_c分别表示Softmax分类器的权重和偏置，p为结果向量，表示金融文本属于每个情感类别的概率，最大的概率值对应的情感类别为金融文本的情感类别。

本发明相对于现有技术，具有如下的优点及效果：

(1)本发明提出一种基于主题挖掘和混合神经网络模型进行金融舆情分析，首先使用PLDA主题模型对爬取的金融文本信息进行主题筛选，可以快速准确的找出热点金融话题。

(2)本发明为了更好的建模金融文本语义信息和结构信息，结合了卷积神经网络局部短语特征建模的能力和自注意力机制的全局结构和语义建模能力，能够在金融文本分析上取得更好的准确率。

附图说明

图1为本发明方法的流程示意图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。

如图1所示，本发明主要包括以下步骤：

(1)通过爬虫技术获取金融文本，并对获取的金融文本进行预处理。

首先根据东方财富网股吧网页结构，利用Python中的asyncio模块搭建分布式异步协程爬取帖子已经对应的回复文本，对评论数量少于20的帖子进行删除，对文本进行清洗去除无意义的符号，再对文本进行分词处理。

(2)将预处理后的金融文本导入PLDA主题模型，获取每个金融文本的主题及每个主题下的关键词，以确定热门主题。

PLDA主题模型对传统的LDA主题模型进行了改进，在确定主题分布时，对每个金融文本根据其发布节点的重要性赋予重要性权重，考虑了节点的重要性信息。首先根据Page-Rank算法计算节点的PR值，PR值越高代表该节点越重要。一般认为，重要的节点发布的信息也较为重要。因此，假设该节点发布了某金融文本，则该金融文本的重要性与其发布节点有着密切的关系，我们这里为该金融文本设置一个重要性权重并使其等于PR值，再将金融文本的主题分布乘以该金融文本的重要性权重，从而得到对每个发布节点需要增强的新的主题以加强发布节点的主题分布。

PLDA主题模型首先根据Page-Rank算法计算网络中所有节点的PR值，然后生成主题在特征词上的分布，它是服从超参数β的Dirichlet先验分布；对于每一个文本，根据Poisson分布确定文本特征词规模，即词集合，然后获取该文本在主题上的分布；再针对每个特征词，抽样生成一个主题，并抽样生成一个特征词，依次循环，直至文本集合中的所有词都生成完。

(3)对各个热门主题的金融文本进行词嵌入，将金融文本中的词进行向量化表示，并对每个词的位置信息进行编码，将每个词的位置信息加到对应的词向量中，得到金融文本的句子表示。

对每个词的位置信息进行编码的方法为：

S3.1、计算每个词的位置向量：

(4)利用混合神经网络模型采集金融文本的句子表示的全局特征和局部特征，用来表示金融文本的句子结构信息。混合神经网络模型结合了自注意力机制和卷积神经网络，具体为：

(5)使用Softmax分类函数对金融文本的句子结构信息进行情感分类，获得金融文本的情感类别，具体包括以下步骤：

式中，N、Cl分别表示样本总数和情感类别数，y_ij表示第i个样本属于第j个情感类别的真实概率值，p_ij表示第i个样本属于第j个情感类别的预测概率值。

p＝Soft max(W_cY+b_c)，

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，步骤1中所述预处理为：删除评论数少于一定阈值的金融文本，对剩余的金融文本进行清洗以去除无意义的符号并进行分词处理。

3.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，步骤2中，PLDA主题模型在确定金融文本主题时，对每个金融文本根据其发布节点的重要性赋予其重要性权重，首先根据Page-Rank算法计算金融文本发布节点的PR值，PR值越高代表发布节点越重要，重要的发布节点发布的信息越重要，将发布节点的PR值作为金融文本的重要性权重，再将金融文本的主题分布乘以该金融文本的重要性权重，从而得到对每个发布节点需要增强的新的主题以加强发布节点的主题分布。

4.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，步骤3中对每个词的位置信息进行编码的方法为：

S3.1、计算每个词的位置向量：

5.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，所述混合神经网络模型为自注意力机制和卷积神经网络的相结合，步骤4具体包括：

6.如权利要求1所述的一种结合主题挖掘和情感分析的金融舆情分析方法，其特征在于，步骤5具体包括以下步骤：

p＝Softmax(W_cY+b_c)，