CN113495959B

CN113495959B - 一种基于文本数据的金融舆情识别方法及系统

Info

Publication number: CN113495959B
Application number: CN202110551833.7A
Authority: CN
Inventors: 刘卫国; 徐博瑞; 张桐; 张晨
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2022-09-09
Anticipated expiration: 2041-05-20
Also published as: CN113495959A

Abstract

本公开提供了一种基于文本数据的金融舆情识别方法及系统，获取新闻文本数据以及评论文本数据；对获取的文本数据进行预处理；根据预处理后的文本数据和预设Bert模型，提取新闻文本数据和评论文本数据中的表征向量集合；根据得到的表征向量集合和预设DE‑Former模型，得到舆情分类结果；本公开通过对客观新闻报道以及市场用户舆论的结合，从语义层次上实现了对于金融市场舆论情感的更准确判断。

Description

一种基于文本数据的金融舆情识别方法及系统

技术领域

本公开涉及文本自然语言处理技术领域，特别涉及一种基于文本数据的金融舆情识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术，并不必然构成现有技术。

伴随着5G时代的到来，来自于互联网的信息也与日俱增，越来越多的人选择在微博、推特等社交平台或股吧、同花顺等专业金融社区上表达自己的观点和情感。这些网民之间，互动交流所产生的网络舆论蕴含着非常丰富并且主观的民众意愿和网民情绪，深入挖掘这些隐藏在互联网中的潜在信息有利于各个行业的发展。在金融领域中，固步自封已不再成为可能，只有与时俱进，才能有利于自身的发展。社交平台上人们互相交换信息，汲取对自己有利的金融信息，完善自己的投资决策，实现了信息互补，更是推动了整个金融业的发展。

在早期，社交平台还未兴起之时，人们只能通过仅有的渠道进行信息交换，故投资者在信息交换过程中所表达出的情感是非常有限的。能够被利用的情感表达少之又少，通过金融舆情来进行股票投资决策的网民则更在少数。随着网络的发展，社交平台的兴起，人们更多的倾向于将主观情感融入到信息中，将这些信息发送到社交平台上与其他金融投资者进行交流。交流信息的这些主观语句中蕴含着情感，情感是金融投资者观点更强烈的表达。在金融投资领域当中，越来越多的投资者选择在互联网中获取与股票相关的有用的信息，并且在各种社区平台上发表自己的独特见解，随着越来越多的网民不断的参与进来，网民之间的相互情绪感染和互相模仿，会形成一种具有群体性以及代表性的投资者情绪，这种投资者情绪对股票市场的影响力非常大，股票市场归根结底是离不开人的参与的，因此通过基于金融相关的网络舆论和新闻来捕获投资者的情绪对金融舆情进行判断是非常有价值的。

发明人发现，通过互联网上的信息，来捕获投资者情绪的研究，只是使用了新闻的标题，不关注真正体现投资者情绪的主观数据，缺乏对新闻的文本内容以及帖子的文本内容的处理和分析。造成这一现象的原因是在自然语言处理问题领域之前的语言模型都是单向的，建模的时候只考虑了语言单个方向上的依赖关系，这极大地限制了预训练中可选的网络结构，没有深入到文本的语义层面；同时，相比于新闻标题或者评论标题，新闻或评论的具体内容中杂质较多，提取有效的内容信息存在难度。

发明内容

为了解决现有技术的不足，本公开提供了一种基于文本数据的金融舆情识别方法及系统，通过对客观新闻报道以及市场用户舆论的结合，从语义层次上实现了对于金融市场舆论情感的更准确判断。

为了实现上述目的，本公开采用如下技术方案：

本公开第一方面提供了一种基于文本数据的金融舆情识别方法。

一种基于文本数据的金融舆情识别方法，包括以下过程：

获取新闻文本数据以及评论文本数据；

对获取的文本数据进行预处理；

根据预处理后的文本数据和预设Bert模型，提取新闻文本数据和评论文本数据中的表征向量集合；

根据得到的表征向量集合和预设DE-Former模型，得到舆情分类结果。

进一步的，通过网络爬虫收集金融相关的客观新闻文本数据以及评论文本数据。

进一步的，对获取的文本数据进行清洗、过滤和筛选预处理。

进一步的，采用attention机制以天为单位获取每天新闻文本数据和评论文本数据相对应的总的特征向量表示。

进一步的，预设DE-Former模型中，采用交叉熵作为损失函数，损失函数为：

其中，y是训练样本的标签，

是模型输出的训练样本属于正例的概率。

进一步的，预设DE-Former模型中，采用Adam算法进行模型优化。

进一步的，预设DE-Former模型中，新闻文本数据和评论文本数据中的表征向量通过Encoder层完成特征提取之后，在Merger层中完成两者以天为单位的融合。

本公开第二方面提供了一种基于文本数据的金融舆情识别系统。

一种基于文本数据的金融舆情识别系统，包括：

数据获取模块，被配置为：获取新闻文本数据以及评论文本数据；

预处理模块，被配置为：对获取的文本数据进行预处理；

向量提取模块，被配置为：根据预处理后的文本数据和预设Bert模型，提取新闻文本数据和评论文本数据中的表征向量集合；

舆情分类模块，被配置为：根据得到的表征向量集合和预设DE-Former模型，得到舆情分类结果。

本公开第三方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开第一方面所述的基于文本数据的金融舆情识别方法中的步骤。

本公开第四方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开第一方面所述的基于文本数据的金融舆情识别方法中的步骤。

与现有技术相比，本公开的有益效果是：

1、本公开所述的方法、系统、介质或电子设备，通过对客观新闻报道以及市场用户舆论的结合，从语义层次上实现对于金融市场舆论情感的更准确判断。

2、本公开所述的方法、系统、介质或电子设备，针对DE-Former模型采用简化的交叉熵作为损失函数，同时采用Adam算法进行模型优化，进一步的提高了识别准确度。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例1提供的DE-Former模型总体结构示意图。

图2为本公开实施例1提供的Encoder结构示意图。

图3为本公开实施例1提供的DE-Former模型训练的流程图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例1：

如背景技术中所述，现阶段网民主要是通过互联网上大量的新闻浏览、评论参考等来获取金融领域信息、判断金融市场舆情。然而这需要繁琐枯燥地去逐条遍历分析、结合诸多要素才能合理准确判断市场舆情。

有鉴于此，本公开实施例1提供了一种基于文本数据的金融舆情识别方法，采用了基于深度学习的方法进行文本挖掘和金融舆情分析，基于深度学习模型的金融舆论分析判别模型(DE-Former模型)，通过对客观新闻报道以及市场用户舆论的结合，从语义层次上实现对于金融市场舆论情感的准确判断，具体的包括以下过程：

S1：通过多并发爬虫框架抓取网页中的新闻以及评论文本，对数据进行清洗、过滤、筛选等预处理操作；

S2：利用预训练好的Bert模型提取新闻和评论的每日表征向量集合；

S3：将S2处理好的数据送入DE-Former模型得到输出结果；

S4：根据输出结果判断当前的金融舆论情感，数值超过0.5判别为1，即整体处于积极状态；小于0.5判别为0，即整体处于消极状态。

金融舆情识别结果可以用于后续的大数据舆情分析，也可以将舆情的识别结果及时的通过站内消息、短信、邮件方式发送给控制终端或者移动终端，或者当出现消极状态的舆情时，生成告警数据并将告警数据发送给控制终端或者移动终端。

S1中，进行数据预处理

通过网络爬虫收集金融领域相关文本，客观新闻报道以及社区论坛等信息，实现数据的自动化抽取。由于所获取的数据并不能直接使用，对数据进行了无用文本去除，非法字符过滤，不同网站数据统一格式化等处理操作。具体细节如下：

S1.1：爬虫阶段选取结构化新闻网站，新浪财经，金融界，cnstock等。新闻数据包含三列，分别为[标题，正文，发布时间]。用户舆论部分获取东方财富网旗下股吧的历史评论信息，评论数据包含8列，分别为[发帖标题，发帖时间，正文，阅读量，文章点赞数，评论数，评论内容，评论时间]。爬虫采用了BeautifulSoup解析网页结构，获取相应标签中的文本内容。应用了gevent(高性能的python并发框架)自动切换协程，保证总有greenlet在运行，而并不会在IO等待上耗费时间。

S1.2：获取的文本数据并不能直接应用在模型输入，需要对金融文本数据进行预处理转换为所需要的数据。获取的数据并非全是有用数据，根据标题去除仅含有股价升降的公告信息，根据关键词信息去除新闻后无关的网站中的无效文本、广告，去除从各个网站抽取的重复文本数据。过滤掉抓去文本转换为utf8格式后产生的乱码。由于深度模型对于长文本处理效果不如短文本，因此过滤掉较长文本，得到高质量的金融文本集。

S1.3：由于模型训练需要具有标注的数据集当日文本数量过多，根据阅读量选取每日前列的文本代表当日的新闻文本集以及评论集。处理过后的文本集通过金融专家进行标注，根据近五日的数据综合当前的舆论情感进行标注(+1代表正向情绪，0代表负向情绪)，获得具有标注的金融领域文本数据集。

S2中，利用预训练好的Bert模型提取新闻和评论的每日表征向量集合

Bert是应用自然语言处理(Natural Language Processing，NLP)的深度学习模型。该模型在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩：全部两个衡量指标上全面超越人类，并且还在11种不同NLP测试中创出当时的最佳成绩。Bert模型的提出极大的推动了NLP中各个方向的发展。因此本实施例所提出的金融舆情分类方法便是利用Bert对输入数据进行处理来获得模型的输入向量。在本实施例中，选用了在大量金融文本上预训练的Bert模型和利用评论情感分类数据集微调后的Bert模型作为我们本文转化的特征提取工具。

S3中，将S2处理好的数据送入DE-Former模型得到输出结果

S3.1：模型总体结构

模型总体结构如图1所示，模型的输入是经过筛选后t天的内每一天Top-K的新闻文本与评论。对于新闻本文数据，使用在大量金融文本上预训练的Bert作为新闻本文的特征提取器，而对于评论文本数据，则使用利用评论情感分类数据集微调后的Bert模型作为特征提取器。在获取到每条新闻和评论的表征向量之后，由于不是所有的新闻和评论都能发挥同样的作用，因此采用attention机制以天为单位获取每天新闻和评论相对应的总的特征向量表示，公式如下所示：

u_ti＝sigmod(W_nn_ti+b_n)

为了获得不同新闻(评论)在当天所有新闻文本(评论文本)中占据的影响力，首先将提取到的每篇新闻(评论)的特征向量n_ti送入一层网络得到相对应的注意力值u_ti，之后利用sofmax函数将所有的注意力值标准化为对应新闻(评论)的权重值s_ti，最终结合权重和对应的表征向量得到一天的新闻以及评论的向量表示a_t。因此最终得到的DE-Fomer模型的输入向量D＝[a_tn，a_tc]，t∈[1，N]。其中N表示输入序列的长度，a_tn表示一天新闻文本的向量，a_tc表示一天评论文本的向量。

之后将得到的每天分别基于新闻文本和评论文本的特征向量序列送入到对应的encoder结构中。Encoder结构如图2所示。Encoder中最主要的结构是自注意力层，相关计算公式如下：

其中，Q是查询向量，K是键向量，V是值向量，d^K是键向量的维数。计算过程中Q、K、V均为每天的新闻或评论的表征向量。新闻文本和评论文本向量在完成Encoder层特征提取之后，在Merger层中完成两者以天为单位的融合。具体公式如下所示：

z_i＝concatenate(o_in，o_ic)

m_i＝tanh(W_iz_i+b_i)

其中，o_in和o_ic分别表示第i天新闻文本和评论文本向量经过encoder后的输出向量，z_i是它们简单拼接后的结果，之后z_i经过一层网络得到第i天融合了新闻信息和评论信息的表征向量。考虑到不同时间天数的对当前舆论情感状态的影响程度也会有所不同，例如某一天发生了一件重大事件即使距离当天已经有一段时间，影响力也可能大于最近几天的新闻和评论所产生的舆论情感。因此融合了新闻信息和评论信息的表征向量再次通过Attention层来获取不同时间阶段的影响权重，得到融合了当前一段时间的新闻和评论的表征向量。之后表征向量通过判别层输出最终的舆论情感判断结果，判别层由多层感知机构成。输出结果是0-1的小数，如果结果小于0.5则认为整体处于消极氛围，如果结果大于等于0.5则认为整体处于积极氛围。

S3.2：模型优化

本实施例中，主要是针对新闻和评论的文本内容进行学习进而输出舆论情感的分类结果，所以总的来说这是一个二分类任务模型。因此针对DE-Former采用简化的交叉熵作为损失函数，函数表达式如下：

其中，y是训练样本的标签，

是模型输出的训练样本属于正例(即舆论情感是积极的)的概率。同时为了更好的训练模型，本发明使用的优化算法为Adam算法，该算法是一种不同参数自适应不同学习率的方法，使用了“动量”的概念，改善了SGD每次更新时方向偏移太大的缺点，能更容易的对模型进行训练。DE-Former模型训练的流程图如图3所示。

实施例2：

本公开实施例2提供了一种基于文本数据的金融舆情识别系统，包括：

预处理模块，被配置为：对获取的文本数据进行预处理；

所述系统的工作方法与实施例1提供的基于文本数据的金融舆情识别方法相同，这里不再赘述。

实施例3：

本公开实施例3提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本公开实施例1所述的基于文本数据的金融舆情识别方法中的步骤，所述步骤为：

获取新闻文本数据以及评论文本数据；

对获取的文本数据进行预处理；

详细步骤与实施例1提供的基于文本数据的金融舆情识别方法相同，这里不再赘述。

实施例4：

本公开实施例4提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的基于文本数据的金融舆情识别方法中的步骤，所述步骤为：

获取新闻文本数据以及评论文本数据；

对获取的文本数据进行预处理；

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于文本数据的金融舆情识别方法，其特征在于：包括以下过程：

获取新闻文本数据以及评论文本数据；

对获取的文本数据进行预处理；

根据得到的表征向量集合和预设DE-Former模型，得到舆情分类结果；具体过程包括：

将预处理好的数据送入DE-Former模型得到输出结果，模型的输入是经过筛选后t天的内每一天Top-K的新闻文本与评论；对于新闻本文数据，使用在大量金融文本上预训练的Bert作为新闻本文的特征提取器，而对于评论文本数据，则使用利用评论情感分类数据集微调后的Bert模型作为特征提取器；在获取到每条新闻和评论的表征向量之后，采用attention机制以天为单位获取每天新闻和评论相对应的总的特征向量表示，公式如下所示：

u_ti＝sigmod(W_nn_ti+b_n)

首先将提取到的每篇新闻或评论的特征向量n_ti送入一层网络得到相对应的注意力值u_ti，之后利用sofmax函数将所有的注意力值标准化为对应新闻或评论的权重值s_ti，最终结合权重和对应的表征向量得到一天的新闻以及评论的向量表示a_t；因此最终得到的DE-Fomer模型的输入向量D＝[a_tn，a_tc]，t∈[1，N]，其中N表示输入序列的长度，a_tn表示一天新闻文本的向量，a_tc表示一天评论文本的向量；

之后将得到的每天分别基于新闻文本和评论文本的特征向量序列送入到对应的encoder结构中；Encoder中最主要的结构是自注意力层，相关计算公式如下：