CN115952291A - 基于多头自注意力及lstm的金融舆情分类方法及系统 - Google Patents
基于多头自注意力及lstm的金融舆情分类方法及系统 Download PDFInfo
- Publication number
- CN115952291A CN115952291A CN202310237468.1A CN202310237468A CN115952291A CN 115952291 A CN115952291 A CN 115952291A CN 202310237468 A CN202310237468 A CN 202310237468A CN 115952291 A CN115952291 A CN 115952291A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- financial
- model
- public opinion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000013598 vector Substances 0.000 claims abstract description 141
- 230000011218 segmentation Effects 0.000 claims abstract description 34
- 238000013145 classification model Methods 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 10
- 210000000349 chromosome Anatomy 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 34
- 230000015654 memory Effects 0.000 claims description 32
- 230000007246 mechanism Effects 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 20
- 230000007787 long-term memory Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 230000006403 short-term memory Effects 0.000 claims description 15
- 230000002068 genetic effect Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008451 emotion Effects 0.000 claims description 11
- 230000035772 mutation Effects 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 244000309464 bull Species 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 8
- 238000013526 transfer learning Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉文本数据处理技术领域,本发明公开了基于多头自注意力及LSTM的金融舆情分类方法及系统;其中所述方法,包括:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果。实现从语义层次上对金融舆情的更准确判断。
Description
技术领域
本发明涉文本数据处理技术领域,特别是涉及基于多头自注意力及LSTM的金融舆情分类方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
对于金融投资者来说,在具备庞大信息量的各类新闻或大众评论中,并非所有的信息都值得参考。对于金融相关的文本进行分析,其有效性取决于对目标文章分析的完整性以及目标文章的质量。例如,相较于文章标题来说,分析一篇完整的公司新闻显然更能准确把握公司的综合能力发展趋势。然而,大部分研究人员只关注新闻的标题而忽略了新闻文本内容,不关注真正能够体现投资者情绪的主观数据,缺乏对新闻的文本内容以及帖子的文本内容正确的处理和分析。
另外,在庞大的金融领域文本中,不同新闻与关注事件相关的在线内容的质量、可信度和全面性差异很大。因此不同的金融文本对金融市场的影响不能以一概全,需要区别对待,在处理不同的网络新闻的时候,需要根据其内在的内容来区分,一些无用的评论或含糊的谣言可能对金融市场的变化没有什么干扰。在真正的投资中,需要有意识地、全面地考虑每个新闻的不同影响。因此,现有的舆情分析往往没有考虑不同新闻文本的权重,导致舆情分类结果不够准确;中国发明专利CN113495959B一种基于文本数据的金融舆情识别方法及系统,虽然也能够解决金融舆情识别的问题,但是,其缺乏对金融文本数据的语义分割,同时由于深度学习模型存在的收敛速度会因模型深度而减缓的问题,从而导致其金融舆情分类结果不够精准。
发明内容
为了解决现有技术的不足,本发明提供了基于多头自注意力及LSTM的金融舆情分类方法及系统;实现从语义层次,改进模型架构层次上对金融舆情的更准确判断。
第一方面,本发明提供了基于多头自注意力及LSTM的金融舆情分类方法,包括:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优。
第二方面,本发明提供了基于多头自注意力及LSTM的金融舆情分类系统,包括:获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优。
与现有技术相比,本发明的有益效果是:
1、本发明针对金融领域位文本处理困难的问题,使用NLP迁移学习的方法对金融文本数据进行精确高效的舆情分析,设计多头注意力机制Multi-Head Attention+面向金融领域的预训练模型FinBERT (BERT for Financial Text Mining)+进化改进的平衡长短期记忆网络LSTM的组合模型SeMAtt-LSTMt进行金融舆情分析。使用NLP迁移学习的Finbert模型能够有效的学习金融领域文本中的语义关系,将词嵌入向量根据位置特性生成新的词特征和文本特征,使用遗传算法改进长短期记忆网络模型架构,取消随机梯度下降策略,得到缩小目标优化空间下的快速收敛长短期记忆网络,同时修改模型的分类损失函数,使用Focal loss损失函数以修正网络预测的偏向性,避免类别不平衡问题,使用多头注意力机制对进化改进的平衡长短期记忆网络LSTM生成的词特征和文本特征建立自注意力关系,识别字对文本的重要性,使用遗传算法能够有效的处理的非线性数据从而获得最佳学习模型,进一步的提高了预测准确度。
2、本发明所述的方法针对金融新闻长文本进行动态规划,设置Fin-bert-attention模型结合具体的语义特征将长文本划分成不同权重的短文本,有效的整合并利用了全部的文本语义信息,实现了长文本数据的高度利用。
3、本发明所述的方法针对不同影响力的金融新闻进行语义相关的划分,根据其内容赋予不同的权重,有意识的,全面的考虑了新闻的影响力。
4、本发明采用基于爬虫技术进行文本数据挖掘,基于迁移学习和多头注意力机制的金融舆情预测模型(SeMAtt-LSTM模型),通过对新闻的全文文本及评论信息的结合,深层次挖掘文本语义信息,捕获投资者情绪以及金融市场的波动性,实现对金融舆情的准确判断。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图;
图2为实施例一的金融舆情分类模型网络结构示意图;
图3为实施例一的语义分割模型内部结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
在自然语言处理技术中,所使用的预处理模型对输入文本的长度有着严格的限制,这就导致长文本数据不能直接输入模型,而简单粗暴的切分又会导致文章丢失上下文语义,因此需要将长文本根据文章语义划分成具有不同权重的短文本,这对于更为准确把握文章的整体内容是非常重要的。
通过结合新闻长文本信息及评论的文本信息,使用迁移学习基于进化改进的平衡LSTM和多头自注意力机制获取有效的文段情感分数,从而更好地指导计算机实现对金融文本的舆情分析。
实施例一
本实施例提供了基于多头自注意力及LSTM的金融舆情分类方法;
如图1所示,基于多头自注意力及LSTM的金融舆情分类方法,包括:
S101:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
S102:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
进一步地,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,包括:
将新闻全文文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用遗传算法改进长短期记忆网络模型架构,取消随机梯度下降策略,得到缩小目标优化空间下的快速收敛长短期记忆网络,同时修改模型的分类损失函数,使用Focalloss损失函数以修正网络预测的偏向性,避免类别不平衡问题,使用多头注意力机制对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到新闻全文文本的加权句嵌入向量;将新闻全文文本的加权句嵌入向量和新闻全文文本的初始句嵌入向量进行拼接,得到新闻全文文本的总特征向量,将新闻全文文本的总特征向量进行分类,得到新闻全文文本的情感分数。
进一步地,所述S101:获取待分类金融新闻全文文本数据以及评论文本数据,是采用网络爬虫,从网站上获取待分类金融新闻全文文本数据以及评论文本数据。
示例性地,所述S101:获取待分类金融新闻全文文本数据以及评论文本数据,包括:
通过网络爬虫收集相关文本,客观新闻报道以及社区论坛等信息并将这些新闻根据内容按照公司名称进行划分,实现数据的自动化抽取。具体细节如下:
爬虫阶段选取国外新闻网站,google,investing,cnstock等。
新闻数据按照公司名称进行划分,包含三列,分别为[公司名称,标题和正文,发布时间]。
用户舆论部分获取某财富网旗下股吧的历史评论信息,评论数据包含8列,分别为[发帖标题,发帖时间,正文,阅读量,文章点赞数,评论数,评论内容,评论时间]。爬虫采用BeautifulSoup解析网页结构,获取相应标签中的文本内容。
进一步地,所述S101:对获取的所有文本数据进行预处理,具体是对获取的待分类金融新闻全文文本数据以及评论文本数据,进行清洗、过滤和筛选处理。
应理解地,由于所获取的数据并不能直接使用,对数据进行了无用文本去除、非法字符过滤和不同网站数据统一格式化等处理操作,具体细节如下:
获取的文本数据并不能直接输入模型,需要对金融文本数据进行预处理转换为所需要的数据。获取的数据并非全是有用数据,根据标题去除仅含有股价升降的公告信息,根据关键词信息去除新闻文本中的无效文本、广告,乱码。
进一步地,如图2所示,所述语义特征分割模型,包括:
判断模块,所述判断模块用于判断输入值是新闻全文本还是评论文本;
所述判断模块,分别与第一分支的输入端和第二分支的输入端连接;
其中,第一分支,包括:依次连接的分割单元、面向金融领域的第一预训练语言表征模型和自注意力机制模块;所述第一分支,用于对输入的新闻全文文本数据进行语义特征分割,得到全文文本的初始词嵌入向量和全文文本的初始句嵌入向量;
其中,第二分支,包括:面向金融领域的第二预训练语言表征模型;所述第二分支,用于对输入的评论文本数据进行语义处理,得到评论文本的初始词嵌入向量和评论文本的初始句嵌入向量。
进一步地,所述第一分支,包括:
对输入的新闻全文文本数据进行分段切分,得到若干个短文本;
对所有短文本采用面向金融领域的预训练语言表征模型进行处理,得到若干个句嵌入子向量,和若干个词嵌入子向量;
采用自注意力机制模块,计算每个句嵌入子向量的权重和每个词嵌入子向量的权重;
基于每个句嵌入子向量的权重,对所有句嵌入子向量进行加权求和得到全文文本的初始句嵌入向量;
基于每个词嵌入子向量的权重,对所有词嵌入子向量进行加权求和,得到全文文本的初始词嵌入向量。
应理解地,所述面向金融领域的预训练语言表征模型,采用Finbert模型来实现。将每篇新闻长文本进行动态划分,在语义分割模型Finbert-attention模型中,将新闻长文本划分成短文本,采用Finbert模型获取各个短文本的词嵌入向量和句嵌入向量,采用attention机制获取各个短文本的注意力权重向量,对获取得到的词嵌入向量,句嵌入向量分别根据注意力权重进行加权求和,得到代表整个长文本的词嵌入向量和句嵌入向量。
应理解地,根据预处理后的文本数据和预设语义特征分割模型Finbert-attention模型,分别提取新闻长文本数据中的字嵌入向量以及句嵌入向量,根据Finbert模型提取评论文本数据的字嵌入向量以及句嵌入向量。FinBert模型是建立于Bert模型基础之上的金融领域的迁移学习模型,它在非常大的金融语料库上对Bert模型进行了预训练,然后使用从语言建模任务中学的权重初始化下游模型,其中初始化层的范围可以从单个单词嵌入到整个模型。具体细节如下:
将每篇新闻长文本对应的各个短文本输入至预设Finbert-attention模型,在Finbert-attention模型中,采用attention机制和Finbert模型获取各个短文本的注意力权重向量,词嵌入向量和句嵌入向量。对获取得到的词嵌入向量,句嵌入向量分别根据注意力权重进行加权求和,得到代表整个长文本的词嵌入向量和句嵌入向量;将评论数据输入至预设Finbert模型得到词,句嵌入向量。
进一步地,如图3所示,所述金融舆情分类模型,其网络结构包括:
并列的第三分支和第四分支;
其中,第三分支,用于输入初始句嵌入向量;
其中,第四分支,包括依次连接的长短期记忆网络和多头自注意力机制模块;所述第四分支,用于输入初始词嵌入向量,并对初始词嵌入向量进行处理,得到加权句嵌入向量;
第三分支的输出端和第四分支的输出端,均与拼接模块的输入端连接,所述拼接模块,用于对初始句嵌入向量和加权句嵌入向量进行拼接;并将拼接后的句嵌入向量输入分类器,分类器给出金融舆情的分类数据。
进一步地,所述第四分支,包括:
所述长短期记忆网络,用于对输入的初始词嵌入向量均进行特征提取,得到对应的词向量语义特征和文本特征。同时,为平衡普通深度学习模型收敛速度与模型复杂度的矛盾,对长短期记忆网络的基本结构基于进化机制进行了修改,改进模型自有的随机下降算法寻优策略,将模型的全局最优解信息纳入最优化搜索策略中,从而加速收敛速度,提升模型算力,提高应用效果。
所述多头自注意力机制模块,用于对进化改进的平衡长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到加权句嵌入向量。
应理解地,由于大多数情感分类任务仅仅考虑了文本的句嵌入向量,仅使用句嵌入向量作为特征向量来进行分类,忽视了词嵌入向量中所蕴含的语义特征,因此SeMAtt-LSTM模型对词嵌入向量进行进一步处理,使用LSTM生产词向量语义特征和文本特征,使用多头注意力机制Multi-Head Attention对LSTM生成的词特征和文本特征建立自注意力关系,识别字对文本的重要性,生产新的句向量,最后将新的句向量和之前的句向量进行contact作为特征向量。
接下来,遗忘门则选择选择性过滤输入门过来的输入数据,其公式如下:
其中,表示字/词的特征,表示文本的特征。为了识别字对于文本的重要性,需要建立与的自注意力关系,即建立各时间步输出对于的权重,由于LSTM本身就考虑了位置信息,因此不需要额外设置位置编码,故本文中采用点积注意力实现自注意力机制,公式如下:
其中,t表示时间步,各时间步的输出经线性变换后作为和,最后时间步的输出乘以矩阵作为,不随时间步而改变,、、为神经网络的参数,随着反向传播而修改。为query与的相似度除以的结果,其中,一般被设为64,最终将代入softmax函数转换为在时间步t上的加权和为1的权重。
进一步地,所述训练后的金融舆情分类模型,其训练过程包括:
构建训练集;所述训练集为已知网络新闻舆情分类标签的网络新闻全文数据和评论数据,其中,将网络新闻数据和评论数据划分为三类:积极,消极,正常这三种情绪;
将训练集预处理后,输入到金融舆情分类模型中,对模型进行训练,训练过程中采用Adam算法进行模型的优化,采用遗传算法Genetic Algorithm对LSTM网络进行网络参数调优,当模型的交叉熵损失函数值不再降低时,停止训练,得到训练后的金融舆情分类模型。
进一步地,SeMAtt-LSTM模型中,为解决当易区分样本过多时导致的预测偏向性问题,引入具有调制因子的动态缩放的交叉熵作为损失函数,以聚焦难区分样本,损失函数公式为:
训练过程中采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉、变异;
首先是种群初始化:根据网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数POP_SIZE及基因编码长度DNA_SIZE后,基于随机函数初始化生成染色体种群:
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络模型的结构信息对原有长短期记忆模型进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得与期望输出参数值的Focal loss损失:
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时获得已收敛的长短期记忆网络。
进一步地,所述输出待分类金融新闻的情感分数,之后,计算一天当中新闻文本,评论文本的影响力,加权求和得到当日舆情分数;
公式如下:
上述公式表示为:根据SeMAtt-LSTM得到新闻全文本的特征向量,根据SeMAtt-LSTM得到评论文本的特征向量,首先将提取到的二者的特征向量送入自注意力机制中得到相对应的注意力值,基于softmax函数将所有的注意力值标准化为对应新闻(评论)的权重值,最终结合权重和对应的情感分数得到一天的新闻以及评论的情感分数表示。其中,,为权重向量。根据特征向量和情感分数计算一天当中新闻文本,评论文本的影响力,加权求和得到当日舆情分数;不同的金融文本对金融市场的影响不同,需要区别对待,在处理不同的网络新闻的时候,需要根据其内在的内容来区分。
本发明通过结合新闻长文本信息及评论的文本信息,使用迁移学习基于多头自注意力及LSTM获取有效的文段情感分数,同时结合遗传算法能够获得最佳学习模型,从而更好地指导计算机实现对金融文本的舆情分析。
实施例二
本实施例提供了基于多头自注意力及LSTM的金融舆情分类系统;
基于多头自注意力及LSTM的金融舆情分类系统,包括:
获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
此处需要说明的是,上述获取模块和分类模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于多头自注意力及LSTM的金融舆情分类方法,其特征是,包括:
获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,调优包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
2.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,包括:
将新闻全文文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到新闻全文文本的加权句嵌入向量;将新闻全文文本的加权句嵌入向量和新闻全文文本的初始句嵌入向量进行拼接,得到新闻全文文本的总特征向量,将新闻全文文本的总特征向量进行分类,得到新闻全文文本的情感分数。
3.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,还包括:
对评论文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到评论文本的加权句嵌入向量;将评论文本的加权句嵌入向量和评论文本的初始句嵌入向量进行拼接,得到评论文本的总特征向量,将评论文本的总特征向量进行分类,得到评论的情感分数。
4.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述训练后的金融舆情分类模型,其训练过程包括:
构建训练集;所述训练集为已知网络新闻舆情分类标签的网络新闻全文数据和评论数据,其中,将网络新闻数据和评论数据划分为三类:积极,消极,正常这三种情绪;
将训练集预处理后,输入到金融舆情分类模型中,对模型进行训练,训练过程中采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,将模型的全局最优解信息纳入最优化搜索策略中,当模型的交叉熵损失函数值不再降低时,停止训练,得到训练后的金融舆情分类模型。
5.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述语义特征分割模型,包括:判断模块,所述判断模块用于判断输入值是新闻全文本还是评论文本;
所述判断模块,分别与第一分支的输入端和第二分支的输入端连接;其中,第一分支,包括:依次连接的分割单元、面向金融领域的第一预训练语言表征模型和自注意力机制模块;所述第一分支,用于对输入的新闻全文文本数据进行语义特征分割,得到全文文本的初始词嵌入向量和全文文本的初始句嵌入向量;
其中,第二分支,包括:面向金融领域的第二预训练语言表征模型;所述第二分支,用于对输入的评论文本数据进行语义处理,得到评论文本的初始词嵌入向量和评论文本的初始句嵌入向量;
所述第一分支,包括:
对输入的新闻全文文本数据进行分段切分,得到若干个短文本;
对所有短文本采用面向金融领域的预训练语言表征模型进行处理,得到若干个句嵌入子向量,和若干个词嵌入子向量;
采用自注意力机制模块,计算每个句嵌入子向量的权重和每个词嵌入子向量的权重;
基于每个句嵌入子向量的权重,对所有句嵌入子向量进行加权求和得到全文文本的初始句嵌入向量;
基于每个词嵌入子向量的权重,对所有词嵌入子向量进行加权求和,得到全文文本的初始词嵌入向量。
6.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述金融舆情分类模型,其网络结构包括:
并列的第三分支和第四分支;
其中,第三分支,用于输入初始句嵌入向量;
其中,第四分支,包括依次连接的长短期记忆网络和多头自注意力机制模块;所述第四分支,用于输入初始词嵌入向量,并对初始词嵌入向量进行处理,得到加权句嵌入向量;
第三分支的输出端和第四分支的输出端,均与拼接模块的输入端连接,所述拼接模块,用于对初始句嵌入向量和加权句嵌入向量进行拼接;并将拼接后的句嵌入向量输入分类器,分类器给出金融舆情的分类数据。
7.如权利要求6所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述第四分支,包括:
所述长短期记忆网络,用于对输入的初始词嵌入向量均进行特征提取,得到对应的词向量语义特征和文本特征;
所述多头自注意力机制模块,用于对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到加权句嵌入向量。
8.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,获取待分类金融新闻全文文本数据以及评论文本数据,是采用网络爬虫,从网站上获取待分类金融新闻全文文本数据以及评论文本数据。
9.基于多头自注意力及LSTM的金融舆情分类系统,其特征是,包括:
获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,调优包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237468.1A CN115952291B (zh) | 2023-03-14 | 2023-03-14 | 基于多头自注意力及lstm的金融舆情分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237468.1A CN115952291B (zh) | 2023-03-14 | 2023-03-14 | 基于多头自注意力及lstm的金融舆情分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115952291A true CN115952291A (zh) | 2023-04-11 |
CN115952291B CN115952291B (zh) | 2023-07-18 |
Family
ID=85906939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310237468.1A Active CN115952291B (zh) | 2023-03-14 | 2023-03-14 | 基于多头自注意力及lstm的金融舆情分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115952291B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116432605A (zh) * | 2023-06-14 | 2023-07-14 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
CN116541523A (zh) * | 2023-04-28 | 2023-08-04 | 重庆邮电大学 | 一种基于大数据的法律判决舆情分类方法 |
CN116629324A (zh) * | 2023-07-26 | 2023-08-22 | 北京知呱呱科技服务有限公司 | 一种面向模型生成文本重复退化现象的优化生成方法 |
CN116932487A (zh) * | 2023-09-15 | 2023-10-24 | 北京安联通科技有限公司 | 一种基于数据段落划分的量化式数据分析方法及系统 |
CN118316968A (zh) * | 2024-06-07 | 2024-07-09 | 湖北省楚天云有限公司 | 基于车路协同的微服务部署方法、系统、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495959A (zh) * | 2021-05-20 | 2021-10-12 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
CN114298157A (zh) * | 2021-12-06 | 2022-04-08 | 重庆邮电大学 | 基于舆情大数据分析的短文本情感分类方法、介质及系统 |
CN114580707A (zh) * | 2022-01-26 | 2022-06-03 | 安徽农业大学 | 一种多特征融合产品的情感趋势预测模型、建立方法及预测方法 |
CN114781392A (zh) * | 2022-04-06 | 2022-07-22 | 西安电子科技大学 | 一种基于bert改进模型的文本情感分析方法 |
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
US20230073602A1 (en) * | 2021-08-20 | 2023-03-09 | University Of Central Florida Research Foundation, Inc. | System of and method for automatically detecting sarcasm of a batch of text |
-
2023
- 2023-03-14 CN CN202310237468.1A patent/CN115952291B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495959A (zh) * | 2021-05-20 | 2021-10-12 | 山东大学 | 一种基于文本数据的金融舆情识别方法及系统 |
US20230073602A1 (en) * | 2021-08-20 | 2023-03-09 | University Of Central Florida Research Foundation, Inc. | System of and method for automatically detecting sarcasm of a batch of text |
CN114298157A (zh) * | 2021-12-06 | 2022-04-08 | 重庆邮电大学 | 基于舆情大数据分析的短文本情感分类方法、介质及系统 |
CN114580707A (zh) * | 2022-01-26 | 2022-06-03 | 安徽农业大学 | 一种多特征融合产品的情感趋势预测模型、建立方法及预测方法 |
CN114781392A (zh) * | 2022-04-06 | 2022-07-22 | 西安电子科技大学 | 一种基于bert改进模型的文本情感分析方法 |
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
Non-Patent Citations (3)
Title |
---|
NAG, P.K. ET AL.: "Contextual BI-Directional Attention Flow With Embeddings From Language Models: A Generative Approach to Emotion Detection", 《AIR2021: ADVANCES IN ROBOTICS - 5TH INTERNATIONAL CONFERENCE OF THE ROBOTICS SOCIETY》 * |
杨玉亭;冯林;代磊超;苏菡;: "面向上下文注意力联合学习网络的方面级情感分类模型", 模式识别与人工智能 * |
陈天翔;: "基于注意力机制的金融文本情感分析研究", 信息技术与信息化 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541523A (zh) * | 2023-04-28 | 2023-08-04 | 重庆邮电大学 | 一种基于大数据的法律判决舆情分类方法 |
CN116432605A (zh) * | 2023-06-14 | 2023-07-14 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
CN116432605B (zh) * | 2023-06-14 | 2023-09-22 | 山东大学 | 融入先验知识的作文评语生成方法及装置 |
CN116629324A (zh) * | 2023-07-26 | 2023-08-22 | 北京知呱呱科技服务有限公司 | 一种面向模型生成文本重复退化现象的优化生成方法 |
CN116629324B (zh) * | 2023-07-26 | 2023-10-03 | 北京知呱呱科技服务有限公司 | 一种面向模型生成文本重复退化现象的优化生成方法 |
CN116932487A (zh) * | 2023-09-15 | 2023-10-24 | 北京安联通科技有限公司 | 一种基于数据段落划分的量化式数据分析方法及系统 |
CN116932487B (zh) * | 2023-09-15 | 2023-11-28 | 北京安联通科技有限公司 | 一种基于数据段落划分的量化式数据分析方法及系统 |
CN118316968A (zh) * | 2024-06-07 | 2024-07-09 | 湖北省楚天云有限公司 | 基于车路协同的微服务部署方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115952291B (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
CN110222188B (zh) | 一种多任务学习的公司公告处理方法及服务端 | |
Day et al. | Deep learning for financial sentiment analysis on finance news providers | |
CN115952291B (zh) | 基于多头自注意力及lstm的金融舆情分类方法及系统 | |
Meng et al. | Dialogue intent classification with long short-term memory networks | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN112905739A (zh) | 虚假评论检测模型训练方法、检测方法及电子设备 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
US20230289528A1 (en) | Method for constructing sentiment classification model based on metaphor identification | |
Fu et al. | A sentiment-aware trading volume prediction model for P2P market using LSTM | |
Mishev et al. | Forecasting corporate revenue by using deep-learning methodologies | |
CN115310443A (zh) | 模型训练方法、信息分类方法、装置、设备及存储介质 | |
Eisele et al. | Capturing a news frame–comparing machine-learning approaches to frame analysis with different degrees of supervision | |
CN115658890A (zh) | 基于主题增强的情感共注意力bert模型的中文评论分类方法 | |
CN118132714A (zh) | 基于难度学习的语言模型微调方法、系统、设备及介质 | |
Jiang et al. | Text semantic classification of long discourses based on neural networks with improved focal loss | |
CN117076672A (zh) | 文本分类模型的训练方法、文本分类方法及装置 | |
CN116883179A (zh) | 金融产品投资策略的确定方法、装置、处理器及电子设备 | |
Gu et al. | Stock prediction based on news text analysis | |
Zhang et al. | Solving data-driven newsvendor problem with textual reviews through deep learning | |
Andrawos | NLP in stock market prediction: a review | |
Arbaatun et al. | Hate speech detection on Twitter through Natural Language Processing using LSTM model | |
Anese et al. | Impact of public news sentiment on stock market index return and volatility |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |