CN115952291A - 基于多头自注意力及lstm的金融舆情分类方法及系统 - Google Patents

基于多头自注意力及lstm的金融舆情分类方法及系统 Download PDF

Info

Publication number
CN115952291A
CN115952291A CN202310237468.1A CN202310237468A CN115952291A CN 115952291 A CN115952291 A CN 115952291A CN 202310237468 A CN202310237468 A CN 202310237468A CN 115952291 A CN115952291 A CN 115952291A
Authority
CN
China
Prior art keywords
text
vector
financial
model
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310237468.1A
Other languages
English (en)
Other versions
CN115952291B (zh
Inventor
刘卫国
张晨
徐博瑞
张桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202310237468.1A priority Critical patent/CN115952291B/zh
Publication of CN115952291A publication Critical patent/CN115952291A/zh
Application granted granted Critical
Publication of CN115952291B publication Critical patent/CN115952291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉文本数据处理技术领域,本发明公开了基于多头自注意力及LSTM的金融舆情分类方法及系统;其中所述方法,包括:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果。实现从语义层次上对金融舆情的更准确判断。

Description

基于多头自注意力及LSTM的金融舆情分类方法及系统
技术领域
本发明涉文本数据处理技术领域,特别是涉及基于多头自注意力及LSTM的金融舆情分类方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
对于金融投资者来说,在具备庞大信息量的各类新闻或大众评论中,并非所有的信息都值得参考。对于金融相关的文本进行分析,其有效性取决于对目标文章分析的完整性以及目标文章的质量。例如,相较于文章标题来说,分析一篇完整的公司新闻显然更能准确把握公司的综合能力发展趋势。然而,大部分研究人员只关注新闻的标题而忽略了新闻文本内容,不关注真正能够体现投资者情绪的主观数据,缺乏对新闻的文本内容以及帖子的文本内容正确的处理和分析。
另外,在庞大的金融领域文本中,不同新闻与关注事件相关的在线内容的质量、可信度和全面性差异很大。因此不同的金融文本对金融市场的影响不能以一概全,需要区别对待,在处理不同的网络新闻的时候,需要根据其内在的内容来区分,一些无用的评论或含糊的谣言可能对金融市场的变化没有什么干扰。在真正的投资中,需要有意识地、全面地考虑每个新闻的不同影响。因此,现有的舆情分析往往没有考虑不同新闻文本的权重,导致舆情分类结果不够准确;中国发明专利CN113495959B一种基于文本数据的金融舆情识别方法及系统,虽然也能够解决金融舆情识别的问题,但是,其缺乏对金融文本数据的语义分割,同时由于深度学习模型存在的收敛速度会因模型深度而减缓的问题,从而导致其金融舆情分类结果不够精准。
发明内容
为了解决现有技术的不足,本发明提供了基于多头自注意力及LSTM的金融舆情分类方法及系统;实现从语义层次,改进模型架构层次上对金融舆情的更准确判断。
第一方面,本发明提供了基于多头自注意力及LSTM的金融舆情分类方法,包括:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优。
第二方面,本发明提供了基于多头自注意力及LSTM的金融舆情分类系统,包括:获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优。
与现有技术相比,本发明的有益效果是:
1、本发明针对金融领域位文本处理困难的问题,使用NLP迁移学习的方法对金融文本数据进行精确高效的舆情分析,设计多头注意力机制Multi-Head Attention+面向金融领域的预训练模型FinBERT (BERT for Financial Text Mining)+进化改进的平衡长短期记忆网络LSTM的组合模型SeMAtt-LSTMt进行金融舆情分析。使用NLP迁移学习的Finbert模型能够有效的学习金融领域文本中的语义关系,将词嵌入向量根据位置特性生成新的词特征和文本特征,使用遗传算法改进长短期记忆网络模型架构,取消随机梯度下降策略,得到缩小目标优化空间下的快速收敛长短期记忆网络,同时修改模型的分类损失函数,使用Focal loss损失函数以修正网络预测的偏向性,避免类别不平衡问题,使用多头注意力机制对进化改进的平衡长短期记忆网络LSTM生成的词特征和文本特征建立自注意力关系,识别字对文本的重要性,使用遗传算法能够有效的处理的非线性数据从而获得最佳学习模型,进一步的提高了预测准确度。
2、本发明所述的方法针对金融新闻长文本进行动态规划,设置Fin-bert-attention模型结合具体的语义特征将长文本划分成不同权重的短文本,有效的整合并利用了全部的文本语义信息,实现了长文本数据的高度利用。
3、本发明所述的方法针对不同影响力的金融新闻进行语义相关的划分,根据其内容赋予不同的权重,有意识的,全面的考虑了新闻的影响力。
4、本发明采用基于爬虫技术进行文本数据挖掘,基于迁移学习和多头注意力机制的金融舆情预测模型(SeMAtt-LSTM模型),通过对新闻的全文文本及评论信息的结合,深层次挖掘文本语义信息,捕获投资者情绪以及金融市场的波动性,实现对金融舆情的准确判断。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图;
图2为实施例一的金融舆情分类模型网络结构示意图;
图3为实施例一的语义分割模型内部结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
在自然语言处理技术中,所使用的预处理模型对输入文本的长度有着严格的限制,这就导致长文本数据不能直接输入模型,而简单粗暴的切分又会导致文章丢失上下文语义,因此需要将长文本根据文章语义划分成具有不同权重的短文本,这对于更为准确把握文章的整体内容是非常重要的。
通过结合新闻长文本信息及评论的文本信息,使用迁移学习基于进化改进的平衡LSTM和多头自注意力机制获取有效的文段情感分数,从而更好地指导计算机实现对金融文本的舆情分析。
实施例一
本实施例提供了基于多头自注意力及LSTM的金融舆情分类方法;
如图1所示,基于多头自注意力及LSTM的金融舆情分类方法,包括:
S101:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
S102:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
进一步地,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,包括:
将新闻全文文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用遗传算法改进长短期记忆网络模型架构,取消随机梯度下降策略,得到缩小目标优化空间下的快速收敛长短期记忆网络,同时修改模型的分类损失函数,使用Focalloss损失函数以修正网络预测的偏向性,避免类别不平衡问题,使用多头注意力机制对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到新闻全文文本的加权句嵌入向量;将新闻全文文本的加权句嵌入向量和新闻全文文本的初始句嵌入向量进行拼接,得到新闻全文文本的总特征向量,将新闻全文文本的总特征向量进行分类,得到新闻全文文本的情感分数。
进一步地,所述S101:获取待分类金融新闻全文文本数据以及评论文本数据,是采用网络爬虫,从网站上获取待分类金融新闻全文文本数据以及评论文本数据。
示例性地,所述S101:获取待分类金融新闻全文文本数据以及评论文本数据,包括:
通过网络爬虫收集相关文本,客观新闻报道以及社区论坛等信息并将这些新闻根据内容按照公司名称进行划分,实现数据的自动化抽取。具体细节如下:
爬虫阶段选取国外新闻网站,google,investing,cnstock等。
新闻数据按照公司名称进行划分,包含三列,分别为[公司名称,标题和正文,发布时间]。
用户舆论部分获取某财富网旗下股吧的历史评论信息,评论数据包含8列,分别为[发帖标题,发帖时间,正文,阅读量,文章点赞数,评论数,评论内容,评论时间]。爬虫采用BeautifulSoup解析网页结构,获取相应标签中的文本内容。
进一步地,所述S101:对获取的所有文本数据进行预处理,具体是对获取的待分类金融新闻全文文本数据以及评论文本数据,进行清洗、过滤和筛选处理。
应理解地,由于所获取的数据并不能直接使用,对数据进行了无用文本去除、非法字符过滤和不同网站数据统一格式化等处理操作,具体细节如下:
获取的文本数据并不能直接输入模型,需要对金融文本数据进行预处理转换为所需要的数据。获取的数据并非全是有用数据,根据标题去除仅含有股价升降的公告信息,根据关键词信息去除新闻文本中的无效文本、广告,乱码。
进一步地,如图2所示,所述语义特征分割模型,包括:
判断模块,所述判断模块用于判断输入值是新闻全文本还是评论文本;
所述判断模块,分别与第一分支的输入端和第二分支的输入端连接;
其中,第一分支,包括:依次连接的分割单元、面向金融领域的第一预训练语言表征模型和自注意力机制模块;所述第一分支,用于对输入的新闻全文文本数据进行语义特征分割,得到全文文本的初始词嵌入向量和全文文本的初始句嵌入向量;
其中,第二分支,包括:面向金融领域的第二预训练语言表征模型;所述第二分支,用于对输入的评论文本数据进行语义处理,得到评论文本的初始词嵌入向量和评论文本的初始句嵌入向量。
进一步地,所述第一分支,包括:
对输入的新闻全文文本数据进行分段切分,得到若干个短文本;
对所有短文本采用面向金融领域的预训练语言表征模型进行处理,得到若干个句嵌入子向量,和若干个词嵌入子向量;
采用自注意力机制模块,计算每个句嵌入子向量的权重和每个词嵌入子向量的权重;
基于每个句嵌入子向量的权重,对所有句嵌入子向量进行加权求和得到全文文本的初始句嵌入向量;
基于每个词嵌入子向量的权重,对所有词嵌入子向量进行加权求和,得到全文文本的初始词嵌入向量。
应理解地,所述面向金融领域的预训练语言表征模型,采用Finbert模型来实现。将每篇新闻长文本进行动态划分,在语义分割模型Finbert-attention模型中,将新闻长文本划分成短文本,采用Finbert模型获取各个短文本的词嵌入向量和句嵌入向量,采用attention机制获取各个短文本的注意力权重向量,对获取得到的词嵌入向量,句嵌入向量分别根据注意力权重进行加权求和,得到代表整个长文本的词嵌入向量和句嵌入向量。
应理解地,根据预处理后的文本数据和预设语义特征分割模型Finbert-attention模型,分别提取新闻长文本数据中的字嵌入向量以及句嵌入向量,根据Finbert模型提取评论文本数据的字嵌入向量以及句嵌入向量。FinBert模型是建立于Bert模型基础之上的金融领域的迁移学习模型,它在非常大的金融语料库上对Bert模型进行了预训练,然后使用从语言建模任务中学的权重初始化下游模型,其中初始化层的范围可以从单个单词嵌入到整个模型。具体细节如下:
将每篇新闻长文本对应的各个短文本输入至预设Finbert-attention模型,在Finbert-attention模型中,采用attention机制和Finbert模型获取各个短文本的注意力权重向量,词嵌入向量和句嵌入向量。对获取得到的词嵌入向量,句嵌入向量分别根据注意力权重进行加权求和,得到代表整个长文本的词嵌入向量和句嵌入向量;将评论数据输入至预设Finbert模型得到词,句嵌入向量。
进一步地,如图3所示,所述金融舆情分类模型,其网络结构包括:
并列的第三分支和第四分支;
其中,第三分支,用于输入初始句嵌入向量;
其中,第四分支,包括依次连接的长短期记忆网络和多头自注意力机制模块;所述第四分支,用于输入初始词嵌入向量,并对初始词嵌入向量进行处理,得到加权句嵌入向量;
第三分支的输出端和第四分支的输出端,均与拼接模块的输入端连接,所述拼接模块,用于对初始句嵌入向量和加权句嵌入向量进行拼接;并将拼接后的句嵌入向量输入分类器,分类器给出金融舆情的分类数据。
进一步地,所述第四分支,包括:
所述长短期记忆网络,用于对输入的初始词嵌入向量均进行特征提取,得到对应的词向量语义特征和文本特征。同时,为平衡普通深度学习模型收敛速度与模型复杂度的矛盾,对长短期记忆网络的基本结构基于进化机制进行了修改,改进模型自有的随机下降算法寻优策略,将模型的全局最优解信息纳入最优化搜索策略中,从而加速收敛速度,提升模型算力,提高应用效果。
所述多头自注意力机制模块,用于对进化改进的平衡长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到加权句嵌入向量。
应理解地,由于大多数情感分类任务仅仅考虑了文本的句嵌入向量,仅使用句嵌入向量作为特征向量来进行分类,忽视了词嵌入向量中所蕴含的语义特征,因此SeMAtt-LSTM模型对词嵌入向量进行进一步处理,使用LSTM生产词向量语义特征和文本特征,使用多头注意力机制Multi-Head Attention对LSTM生成的词特征和文本特征建立自注意力关系,识别字对文本的重要性,生产新的句向量,最后将新的句向量和之前的句向量进行contact作为特征向量。
应理解地,得到的词嵌入向量
Figure SMS_1
被输入LSTM中,LSTM的预测的具体过程如下:首先,LSTM主要包含三个不同的门控单元,即输入门,遗忘门以及输出门。其中,输入门主要将获取输入数据,其公式如下:
Figure SMS_2
其中,
Figure SMS_3
为时间t时刻的输入门的获取的数据,
Figure SMS_4
Figure SMS_5
为输入门控单元的控制参数,
Figure SMS_6
Figure SMS_7
为t-1时刻的隐藏层状态与当下时刻t的输入数据,tanh为激活函数。
接下来,遗忘门则选择选择性过滤输入门过来的输入数据,其公式如下:
Figure SMS_8
Figure SMS_9
其中,
Figure SMS_10
Figure SMS_11
为遗忘门控单元的控制参数,
Figure SMS_12
t时刻遗忘门的输出,
Figure SMS_13
t时刻输入值记忆单元的值,同样,
Figure SMS_14
Figure SMS_15
为t-1时刻的隐藏层与当下时刻t的输入数据。输出门则将该单元的预测结果进行输出,其公式如下:
Figure SMS_16
Figure SMS_17
Figure SMS_18
其中,
Figure SMS_20
为LSTM模型中t时刻的长期记忆,其结合了当下时刻及之前的记忆数据,
Figure SMS_24
Figure SMS_25
Figure SMS_21
为sigmoid激活函数,
Figure SMS_23
表示字词特征,
Figure SMS_26
表示时间步t的隐藏状态,
Figure SMS_27
Figure SMS_19
为记忆门控单元的控制参数,
Figure SMS_22
为激活函数。
LSTM包含两个输出:首先是所有时间步的输出
Figure SMS_28
,以及最后的时间步D的隐藏状态
Figure SMS_29
其中,
Figure SMS_30
表示字/词的特征,
Figure SMS_31
表示文本的特征。为了识别字对于文本的重要性,需要建立
Figure SMS_32
Figure SMS_33
的自注意力关系,即建立各时间步输出
Figure SMS_34
对于
Figure SMS_35
的权重,由于LSTM本身就考虑了位置信息,因此不需要额外设置位置编码,故本文中采用点积注意力实现自注意力机制,公式如下:
Figure SMS_36
Figure SMS_37
Figure SMS_38
Figure SMS_39
Figure SMS_40
其中,t表示时间步,各时间步的输出
Figure SMS_44
经线性变换后作为
Figure SMS_42
Figure SMS_53
,最后时间步的输出
Figure SMS_47
乘以矩阵
Figure SMS_50
作为
Figure SMS_48
Figure SMS_52
不随时间步而改变,
Figure SMS_51
Figure SMS_56
Figure SMS_41
为神经网络的参数,随着反向传播而修改。
Figure SMS_49
为query与
Figure SMS_46
的相似度除以
Figure SMS_54
的结果,其中,
Figure SMS_45
一般被设为64,最终将
Figure SMS_55
代入softmax函数转换为在时间步t上的加权和为1的权重
Figure SMS_43
最终,将各时间步权重
Figure SMS_57
Figure SMS_58
加权求和,即可得到带有自注意力的文本向量z:
Figure SMS_59
为获得多头自注意力,将上述公式进行h次,即可得到多头自注意力文本
Figure SMS_60
,将其拼接并作一次线性变换后作为最后输出:
Figure SMS_61
其中,h为自注意力的头数。该公式表示为将获得到的多头自注意力文本在水平方向上进行堆叠,乘以矩阵
Figure SMS_62
,最终得到整合了所有多头注意力的输出MultiHead。
进一步地,所述训练后的金融舆情分类模型,其训练过程包括:
构建训练集;所述训练集为已知网络新闻舆情分类标签的网络新闻全文数据和评论数据,其中,将网络新闻数据和评论数据划分为三类:积极,消极,正常这三种情绪;
将训练集预处理后,输入到金融舆情分类模型中,对模型进行训练,训练过程中采用Adam算法进行模型的优化,采用遗传算法Genetic Algorithm对LSTM网络进行网络参数调优,当模型的交叉熵损失函数值不再降低时,停止训练,得到训练后的金融舆情分类模型。
进一步地,SeMAtt-LSTM模型中,为解决当易区分样本过多时导致的预测偏向性问题,引入具有调制因子的动态缩放的交叉熵作为损失函数,以聚焦难区分样本,损失函数公式为:
Figure SMS_63
其中,
Figure SMS_64
是训练样本的标签,
Figure SMS_65
是模型输出的训练样本属于正例(即舆论情感是积极的)的概率,
Figure SMS_66
为调制因子。SeMAtt-LSTM模型中,采用遗传算法取代模型的随机梯度下降算法实现模型的梯度更新过程。
训练过程中采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉、变异;
首先是种群初始化:根据网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数POP_SIZE及基因编码长度DNA_SIZE后,基于随机函数
Figure SMS_67
初始化生成染色体种群
Figure SMS_68
Figure SMS_69
并设定,
Figure SMS_70
由二进制编码而成,
Figure SMS_71
为随机函数。
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络模型的结构信息对原有长短期记忆模型
Figure SMS_72
进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值
Figure SMS_73
,并求得
Figure SMS_74
与期望输出参数值的Focal loss损失:
Figure SMS_75
Figure SMS_76
Figure SMS_77
其中,
Figure SMS_78
表示测试集样本,
Figure SMS_79
表示更新后模型预测值,
Figure SMS_80
表示测试集样本的标签值,
Figure SMS_81
为i调制因子,
Figure SMS_82
表示进化改进的LSTM模型,
Figure SMS_83
表示Focal loss损失函数;
Figure SMS_84
表示误差值;
取误差值倒数
Figure SMS_85
为求得的适应度值:
Figure SMS_86
其中,
Figure SMS_87
为当前轮迭代中种群的适应度函数;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时获得已收敛的长短期记忆网络。
进一步地,所述输出待分类金融新闻的情感分数,之后,计算一天当中新闻文本,评论文本的影响力,加权求和得到当日舆情分数;
公式如下:
Figure SMS_88
Figure SMS_89
Figure SMS_90
上述公式表示为:根据SeMAtt-LSTM得到新闻全文本的特征向量,根据SeMAtt-LSTM得到评论文本的特征向量,首先将提取到的二者的特征向量
Figure SMS_91
送入自注意力机制中得到相对应的注意力值
Figure SMS_92
,基于softmax函数将所有的注意力值标准化为对应新闻(评论)的权重值
Figure SMS_93
,最终结合权重和对应的情感分数得到一天的新闻以及评论的情感分数表示
Figure SMS_94
。其中,
Figure SMS_95
Figure SMS_97
为权重向量。根据特征向量和情感分数计算一天当中新闻文本,评论文本的影响力,加权求和得到当日舆情分数;不同的金融文本对金融市场的影响不同,需要区别对待,在处理不同的网络新闻的时候,需要根据其内在的内容来区分。
本发明通过结合新闻长文本信息及评论的文本信息,使用迁移学习基于多头自注意力及LSTM获取有效的文段情感分数,同时结合遗传算法能够获得最佳学习模型,从而更好地指导计算机实现对金融文本的舆情分析。
实施例二
本实施例提供了基于多头自注意力及LSTM的金融舆情分类系统;
基于多头自注意力及LSTM的金融舆情分类系统,包括:
获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
此处需要说明的是,上述获取模块和分类模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于多头自注意力及LSTM的金融舆情分类方法,其特征是,包括:
获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,调优包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
2.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,包括:
将新闻全文文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到新闻全文文本的加权句嵌入向量;将新闻全文文本的加权句嵌入向量和新闻全文文本的初始句嵌入向量进行拼接,得到新闻全文文本的总特征向量,将新闻全文文本的总特征向量进行分类,得到新闻全文文本的情感分数。
3.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,还包括:
对评论文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到评论文本的加权句嵌入向量;将评论文本的加权句嵌入向量和评论文本的初始句嵌入向量进行拼接,得到评论文本的总特征向量,将评论文本的总特征向量进行分类,得到评论的情感分数。
4.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述训练后的金融舆情分类模型,其训练过程包括:
构建训练集;所述训练集为已知网络新闻舆情分类标签的网络新闻全文数据和评论数据,其中,将网络新闻数据和评论数据划分为三类:积极,消极,正常这三种情绪;
将训练集预处理后,输入到金融舆情分类模型中,对模型进行训练,训练过程中采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,将模型的全局最优解信息纳入最优化搜索策略中,当模型的交叉熵损失函数值不再降低时,停止训练,得到训练后的金融舆情分类模型。
5.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述语义特征分割模型,包括:判断模块,所述判断模块用于判断输入值是新闻全文本还是评论文本;
所述判断模块,分别与第一分支的输入端和第二分支的输入端连接;其中,第一分支,包括:依次连接的分割单元、面向金融领域的第一预训练语言表征模型和自注意力机制模块;所述第一分支,用于对输入的新闻全文文本数据进行语义特征分割,得到全文文本的初始词嵌入向量和全文文本的初始句嵌入向量;
其中,第二分支,包括:面向金融领域的第二预训练语言表征模型;所述第二分支,用于对输入的评论文本数据进行语义处理,得到评论文本的初始词嵌入向量和评论文本的初始句嵌入向量;
所述第一分支,包括:
对输入的新闻全文文本数据进行分段切分,得到若干个短文本;
对所有短文本采用面向金融领域的预训练语言表征模型进行处理,得到若干个句嵌入子向量,和若干个词嵌入子向量;
采用自注意力机制模块,计算每个句嵌入子向量的权重和每个词嵌入子向量的权重;
基于每个句嵌入子向量的权重,对所有句嵌入子向量进行加权求和得到全文文本的初始句嵌入向量;
基于每个词嵌入子向量的权重,对所有词嵌入子向量进行加权求和,得到全文文本的初始词嵌入向量。
6.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述金融舆情分类模型,其网络结构包括:
并列的第三分支和第四分支;
其中,第三分支,用于输入初始句嵌入向量;
其中,第四分支,包括依次连接的长短期记忆网络和多头自注意力机制模块;所述第四分支,用于输入初始词嵌入向量,并对初始词嵌入向量进行处理,得到加权句嵌入向量;
第三分支的输出端和第四分支的输出端,均与拼接模块的输入端连接,所述拼接模块,用于对初始句嵌入向量和加权句嵌入向量进行拼接;并将拼接后的句嵌入向量输入分类器,分类器给出金融舆情的分类数据。
7.如权利要求6所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述第四分支,包括:
所述长短期记忆网络,用于对输入的初始词嵌入向量均进行特征提取,得到对应的词向量语义特征和文本特征;
所述多头自注意力机制模块,用于对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到加权句嵌入向量。
8.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,获取待分类金融新闻全文文本数据以及评论文本数据,是采用网络爬虫,从网站上获取待分类金融新闻全文文本数据以及评论文本数据。
9.基于多头自注意力及LSTM的金融舆情分类系统,其特征是,包括:
获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,调优包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
CN202310237468.1A 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统 Active CN115952291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310237468.1A CN115952291B (zh) 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310237468.1A CN115952291B (zh) 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统

Publications (2)

Publication Number Publication Date
CN115952291A true CN115952291A (zh) 2023-04-11
CN115952291B CN115952291B (zh) 2023-07-18

Family

ID=85906939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310237468.1A Active CN115952291B (zh) 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统

Country Status (1)

Country Link
CN (1) CN115952291B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法
CN116629324A (zh) * 2023-07-26 2023-08-22 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法
CN116932487A (zh) * 2023-09-15 2023-10-24 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统
CN118316968A (zh) * 2024-06-07 2024-07-09 湖北省楚天云有限公司 基于车路协同的微服务部署方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495959A (zh) * 2021-05-20 2021-10-12 山东大学 一种基于文本数据的金融舆情识别方法及系统
CN114298157A (zh) * 2021-12-06 2022-04-08 重庆邮电大学 基于舆情大数据分析的短文本情感分类方法、介质及系统
CN114580707A (zh) * 2022-01-26 2022-06-03 安徽农业大学 一种多特征融合产品的情感趋势预测模型、建立方法及预测方法
CN114781392A (zh) * 2022-04-06 2022-07-22 西安电子科技大学 一种基于bert改进模型的文本情感分析方法
CN115759104A (zh) * 2023-01-09 2023-03-07 山东大学 基于实体识别的金融领域舆情分析方法与系统
US20230073602A1 (en) * 2021-08-20 2023-03-09 University Of Central Florida Research Foundation, Inc. System of and method for automatically detecting sarcasm of a batch of text

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495959A (zh) * 2021-05-20 2021-10-12 山东大学 一种基于文本数据的金融舆情识别方法及系统
US20230073602A1 (en) * 2021-08-20 2023-03-09 University Of Central Florida Research Foundation, Inc. System of and method for automatically detecting sarcasm of a batch of text
CN114298157A (zh) * 2021-12-06 2022-04-08 重庆邮电大学 基于舆情大数据分析的短文本情感分类方法、介质及系统
CN114580707A (zh) * 2022-01-26 2022-06-03 安徽农业大学 一种多特征融合产品的情感趋势预测模型、建立方法及预测方法
CN114781392A (zh) * 2022-04-06 2022-07-22 西安电子科技大学 一种基于bert改进模型的文本情感分析方法
CN115759104A (zh) * 2023-01-09 2023-03-07 山东大学 基于实体识别的金融领域舆情分析方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NAG, P.K. ET AL.: "Contextual BI-Directional Attention Flow With Embeddings From Language Models: A Generative Approach to Emotion Detection", 《AIR2021: ADVANCES IN ROBOTICS - 5TH INTERNATIONAL CONFERENCE OF THE ROBOTICS SOCIETY》 *
杨玉亭;冯林;代磊超;苏菡;: "面向上下文注意力联合学习网络的方面级情感分类模型", 模式识别与人工智能 *
陈天翔;: "基于注意力机制的金融文本情感分析研究", 信息技术与信息化 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法
CN116432605A (zh) * 2023-06-14 2023-07-14 山东大学 融入先验知识的作文评语生成方法及装置
CN116432605B (zh) * 2023-06-14 2023-09-22 山东大学 融入先验知识的作文评语生成方法及装置
CN116629324A (zh) * 2023-07-26 2023-08-22 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法
CN116629324B (zh) * 2023-07-26 2023-10-03 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法
CN116932487A (zh) * 2023-09-15 2023-10-24 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统
CN116932487B (zh) * 2023-09-15 2023-11-28 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统
CN118316968A (zh) * 2024-06-07 2024-07-09 湖北省楚天云有限公司 基于车路协同的微服务部署方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN115952291B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Swathi et al. An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
Day et al. Deep learning for financial sentiment analysis on finance news providers
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
Meng et al. Dialogue intent classification with long short-term memory networks
CN109598387A (zh) 基于双向跨模态注意力网络模型的股价预测方法及系统
CN112862569B (zh) 基于图像和文本多模态数据的产品外观风格评价方法和系统
CN112905739A (zh) 虚假评论检测模型训练方法、检测方法及电子设备
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN111368082A (zh) 一种基于层次网络的领域自适应词嵌入的情感分析方法
US20230289528A1 (en) Method for constructing sentiment classification model based on metaphor identification
Fu et al. A sentiment-aware trading volume prediction model for P2P market using LSTM
Mishev et al. Forecasting corporate revenue by using deep-learning methodologies
CN115310443A (zh) 模型训练方法、信息分类方法、装置、设备及存储介质
Eisele et al. Capturing a news frame–comparing machine-learning approaches to frame analysis with different degrees of supervision
CN115658890A (zh) 基于主题增强的情感共注意力bert模型的中文评论分类方法
CN118132714A (zh) 基于难度学习的语言模型微调方法、系统、设备及介质
Jiang et al. Text semantic classification of long discourses based on neural networks with improved focal loss
CN117076672A (zh) 文本分类模型的训练方法、文本分类方法及装置
CN116883179A (zh) 金融产品投资策略的确定方法、装置、处理器及电子设备
Gu et al. Stock prediction based on news text analysis
Zhang et al. Solving data-driven newsvendor problem with textual reviews through deep learning
Andrawos NLP in stock market prediction: a review
Arbaatun et al. Hate speech detection on Twitter through Natural Language Processing using LSTM model
Anese et al. Impact of public news sentiment on stock market index return and volatility

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant