CN115952291B - 基于多头自注意力及lstm的金融舆情分类方法及系统 - Google Patents

基于多头自注意力及lstm的金融舆情分类方法及系统 Download PDF

Info

Publication number
CN115952291B
CN115952291B CN202310237468.1A CN202310237468A CN115952291B CN 115952291 B CN115952291 B CN 115952291B CN 202310237468 A CN202310237468 A CN 202310237468A CN 115952291 B CN115952291 B CN 115952291B
Authority
CN
China
Prior art keywords
text
model
vector
financial
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310237468.1A
Other languages
English (en)
Other versions
CN115952291A (zh
Inventor
刘卫国
张晨
徐博瑞
张桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202310237468.1A priority Critical patent/CN115952291B/zh
Publication of CN115952291A publication Critical patent/CN115952291A/zh
Application granted granted Critical
Publication of CN115952291B publication Critical patent/CN115952291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉文本数据处理技术领域,本发明公开了基于多头自注意力及LSTM的金融舆情分类方法及系统;其中所述方法,包括:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果。实现从语义层次上对金融舆情的更准确判断。

Description

基于多头自注意力及LSTM的金融舆情分类方法及系统
技术领域
本发明涉文本数据处理技术领域,特别是涉及基于多头自注意力及LSTM的金融舆情分类方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
对于金融投资者来说,在具备庞大信息量的各类新闻或大众评论中,并非所有的信息都值得参考。对于金融相关的文本进行分析,其有效性取决于对目标文章分析的完整性以及目标文章的质量。例如,相较于文章标题来说,分析一篇完整的公司新闻显然更能准确把握公司的综合能力发展趋势。然而,大部分研究人员只关注新闻的标题而忽略了新闻文本内容,不关注真正能够体现投资者情绪的主观数据,缺乏对新闻的文本内容以及帖子的文本内容正确的处理和分析。
另外,在庞大的金融领域文本中,不同新闻与关注事件相关的在线内容的质量、可信度和全面性差异很大。因此不同的金融文本对金融市场的影响不能以一概全,需要区别对待,在处理不同的网络新闻的时候,需要根据其内在的内容来区分,一些无用的评论或含糊的谣言可能对金融市场的变化没有什么干扰。在真正的投资中,需要有意识地、全面地考虑每个新闻的不同影响。因此,现有的舆情分析往往没有考虑不同新闻文本的权重,导致舆情分类结果不够准确;中国发明专利CN113495959B一种基于文本数据的金融舆情识别方法及系统,虽然也能够解决金融舆情识别的问题,但是,其缺乏对金融文本数据的语义分割,同时由于深度学习模型存在的收敛速度会因模型深度而减缓的问题,从而导致其金融舆情分类结果不够精准。
发明内容
为了解决现有技术的不足,本发明提供了基于多头自注意力及LSTM的金融舆情分类方法及系统;实现从语义层次,改进模型架构层次上对金融舆情的更准确判断。
第一方面,本发明提供了基于多头自注意力及LSTM的金融舆情分类方法,包括:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优。
第二方面,本发明提供了基于多头自注意力及LSTM的金融舆情分类系统,包括:获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优。
与现有技术相比,本发明的有益效果是:
1、本发明针对金融领域位文本处理困难的问题,使用NLP迁移学习的方法对金融文本数据进行精确高效的舆情分析,设计多头注意力机制Multi-Head Attention+面向金融领域的预训练模型FinBERT (BERT for Financial Text Mining)+进化改进的平衡长短期记忆网络LSTM的组合模型SeMAtt-LSTMt进行金融舆情分析。使用NLP迁移学习的Finbert模型能够有效的学习金融领域文本中的语义关系,将词嵌入向量根据位置特性生成新的词特征和文本特征,使用遗传算法改进长短期记忆网络模型架构,取消随机梯度下降策略,得到缩小目标优化空间下的快速收敛长短期记忆网络,同时修改模型的分类损失函数,使用Focal loss损失函数以修正网络预测的偏向性,避免类别不平衡问题,使用多头注意力机制对进化改进的平衡长短期记忆网络LSTM生成的词特征和文本特征建立自注意力关系,识别字对文本的重要性,使用遗传算法能够有效的处理的非线性数据从而获得最佳学习模型,进一步的提高了预测准确度。
2、本发明所述的方法针对金融新闻长文本进行动态规划,设置Fin-bert-attention模型结合具体的语义特征将长文本划分成不同权重的短文本,有效的整合并利用了全部的文本语义信息,实现了长文本数据的高度利用。
3、本发明所述的方法针对不同影响力的金融新闻进行语义相关的划分,根据其内容赋予不同的权重,有意识的,全面的考虑了新闻的影响力。
4、本发明采用基于爬虫技术进行文本数据挖掘,基于迁移学习和多头注意力机制的金融舆情预测模型(SeMAtt-LSTM模型),通过对新闻的全文文本及评论信息的结合,深层次挖掘文本语义信息,捕获投资者情绪以及金融市场的波动性,实现对金融舆情的准确判断。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图;
图2为实施例一的金融舆情分类模型网络结构示意图;
图3为实施例一的语义分割模型内部结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
在自然语言处理技术中,所使用的预处理模型对输入文本的长度有着严格的限制,这就导致长文本数据不能直接输入模型,而简单粗暴的切分又会导致文章丢失上下文语义,因此需要将长文本根据文章语义划分成具有不同权重的短文本,这对于更为准确把握文章的整体内容是非常重要的。
通过结合新闻长文本信息及评论的文本信息,使用迁移学习基于进化改进的平衡LSTM和多头自注意力机制获取有效的文段情感分数,从而更好地指导计算机实现对金融文本的舆情分析。
实施例一
本实施例提供了基于多头自注意力及LSTM的金融舆情分类方法;
如图1所示,基于多头自注意力及LSTM的金融舆情分类方法,包括:
S101:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
S102:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
进一步地,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,包括:
将新闻全文文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用遗传算法改进长短期记忆网络模型架构,取消随机梯度下降策略,得到缩小目标优化空间下的快速收敛长短期记忆网络,同时修改模型的分类损失函数,使用Focalloss损失函数以修正网络预测的偏向性,避免类别不平衡问题,使用多头注意力机制对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到新闻全文文本的加权句嵌入向量;将新闻全文文本的加权句嵌入向量和新闻全文文本的初始句嵌入向量进行拼接,得到新闻全文文本的总特征向量,将新闻全文文本的总特征向量进行分类,得到新闻全文文本的情感分数。
进一步地,所述S101:获取待分类金融新闻全文文本数据以及评论文本数据,是采用网络爬虫,从网站上获取待分类金融新闻全文文本数据以及评论文本数据。
示例性地,所述S101:获取待分类金融新闻全文文本数据以及评论文本数据,包括:
通过网络爬虫收集相关文本,客观新闻报道以及社区论坛等信息并将这些新闻根据内容按照公司名称进行划分,实现数据的自动化抽取。具体细节如下:
爬虫阶段选取国外新闻网站,google,investing,cnstock等。
新闻数据按照公司名称进行划分,包含三列,分别为[公司名称,标题和正文,发布时间]。
用户舆论部分获取某财富网旗下股吧的历史评论信息,评论数据包含8列,分别为[发帖标题,发帖时间,正文,阅读量,文章点赞数,评论数,评论内容,评论时间]。爬虫采用BeautifulSoup解析网页结构,获取相应标签中的文本内容。
进一步地,所述S101:对获取的所有文本数据进行预处理,具体是对获取的待分类金融新闻全文文本数据以及评论文本数据,进行清洗、过滤和筛选处理。
应理解地,由于所获取的数据并不能直接使用,对数据进行了无用文本去除、非法字符过滤和不同网站数据统一格式化等处理操作,具体细节如下:
获取的文本数据并不能直接输入模型,需要对金融文本数据进行预处理转换为所需要的数据。获取的数据并非全是有用数据,根据标题去除仅含有股价升降的公告信息,根据关键词信息去除新闻文本中的无效文本、广告,乱码。
进一步地,如图2所示,所述语义特征分割模型,包括:
判断模块,所述判断模块用于判断输入值是新闻全文本还是评论文本;
所述判断模块,分别与第一分支的输入端和第二分支的输入端连接;
其中,第一分支,包括:依次连接的分割单元、面向金融领域的第一预训练语言表征模型和自注意力机制模块;所述第一分支,用于对输入的新闻全文文本数据进行语义特征分割,得到全文文本的初始词嵌入向量和全文文本的初始句嵌入向量;
其中,第二分支,包括:面向金融领域的第二预训练语言表征模型;所述第二分支,用于对输入的评论文本数据进行语义处理,得到评论文本的初始词嵌入向量和评论文本的初始句嵌入向量。
进一步地,所述第一分支,包括:
对输入的新闻全文文本数据进行分段切分,得到若干个短文本;
对所有短文本采用面向金融领域的预训练语言表征模型进行处理,得到若干个句嵌入子向量,和若干个词嵌入子向量;
采用自注意力机制模块,计算每个句嵌入子向量的权重和每个词嵌入子向量的权重;
基于每个句嵌入子向量的权重,对所有句嵌入子向量进行加权求和得到全文文本的初始句嵌入向量;
基于每个词嵌入子向量的权重,对所有词嵌入子向量进行加权求和,得到全文文本的初始词嵌入向量。
应理解地,所述面向金融领域的预训练语言表征模型,采用Finbert模型来实现。将每篇新闻长文本进行动态划分,在语义分割模型Finbert-attention模型中,将新闻长文本划分成短文本,采用Finbert模型获取各个短文本的词嵌入向量和句嵌入向量,采用attention机制获取各个短文本的注意力权重向量,对获取得到的词嵌入向量,句嵌入向量分别根据注意力权重进行加权求和,得到代表整个长文本的词嵌入向量和句嵌入向量。
应理解地,根据预处理后的文本数据和预设语义特征分割模型Finbert-attention模型,分别提取新闻长文本数据中的字嵌入向量以及句嵌入向量,根据Finbert模型提取评论文本数据的字嵌入向量以及句嵌入向量。FinBert模型是建立于Bert模型基础之上的金融领域的迁移学习模型,它在非常大的金融语料库上对Bert模型进行了预训练,然后使用从语言建模任务中学的权重初始化下游模型,其中初始化层的范围可以从单个单词嵌入到整个模型。具体细节如下:
将每篇新闻长文本对应的各个短文本输入至预设Finbert-attention模型,在Finbert-attention模型中,采用attention机制和Finbert模型获取各个短文本的注意力权重向量,词嵌入向量和句嵌入向量。对获取得到的词嵌入向量,句嵌入向量分别根据注意力权重进行加权求和,得到代表整个长文本的词嵌入向量和句嵌入向量;将评论数据输入至预设Finbert模型得到词,句嵌入向量。
进一步地,如图3所示,所述金融舆情分类模型,其网络结构包括:
并列的第三分支和第四分支;
其中,第三分支,用于输入初始句嵌入向量;
其中,第四分支,包括依次连接的长短期记忆网络和多头自注意力机制模块;所述第四分支,用于输入初始词嵌入向量,并对初始词嵌入向量进行处理,得到加权句嵌入向量;
第三分支的输出端和第四分支的输出端,均与拼接模块的输入端连接,所述拼接模块,用于对初始句嵌入向量和加权句嵌入向量进行拼接;并将拼接后的句嵌入向量输入分类器,分类器给出金融舆情的分类数据。
进一步地,所述第四分支,包括:
所述长短期记忆网络,用于对输入的初始词嵌入向量均进行特征提取,得到对应的词向量语义特征和文本特征。同时,为平衡普通深度学习模型收敛速度与模型复杂度的矛盾,对长短期记忆网络的基本结构基于进化机制进行了修改,改进模型自有的随机下降算法寻优策略,将模型的全局最优解信息纳入最优化搜索策略中,从而加速收敛速度,提升模型算力,提高应用效果。
所述多头自注意力机制模块,用于对进化改进的平衡长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到加权句嵌入向量。
应理解地,由于大多数情感分类任务仅仅考虑了文本的句嵌入向量,仅使用句嵌入向量作为特征向量来进行分类,忽视了词嵌入向量中所蕴含的语义特征,因此SeMAtt-LSTM模型对词嵌入向量进行进一步处理,使用LSTM生产词向量语义特征和文本特征,使用多头注意力机制Multi-Head Attention对LSTM生成的词特征和文本特征建立自注意力关系,识别字对文本的重要性,生产新的句向量,最后将新的句向量和之前的句向量进行contact作为特征向量。
应理解地,得到的词嵌入向量被输入LSTM中,LSTM的预测的具体过程如下:首先,LSTM主要包含三个不同的门控单元,即输入门,遗忘门以及输出门。其中,输入门主要将获取输入数据,其公式如下:
其中,为时间t时刻的输入门的获取的数据,/>,/>为输入门控单元的控制参数,/>,/>为t-1时刻的隐藏层状态与当下时刻t的输入数据,tanh为激活函数。
接下来,遗忘门则选择选择性过滤输入门过来的输入数据,其公式如下:
其中,,/>为遗忘门控单元的控制参数,/>t时刻遗忘门的输出,/>t时刻输入值记忆单元的值,同样,/>,/>为t-1时刻的隐藏层与当下时刻t的输入数据。输出门则将该单元的预测结果进行输出,其公式如下:
其中,为LSTM模型中t时刻的长期记忆,其结合了当下时刻及之前的记忆数据,,/>,/>为sigmoid激活函数,/>表示字词特征,/>表示时间步t的隐藏状态,/>,/>为记忆门控单元的控制参数,/>为激活函数。
LSTM包含两个输出:首先是所有时间步的输出,以及最后的时间步D的隐藏状态/>
其中,表示字/词的特征,/>表示文本的特征。为了识别字对于文本的重要性,需要建立/>与/>的自注意力关系,即建立各时间步输出/>对于/>的权重,由于LSTM本身就考虑了位置信息,因此不需要额外设置位置编码,故本文中采用点积注意力实现自注意力机制,公式如下:
其中,t表示时间步,各时间步的输出经线性变换后作为/>和/>,最后时间步的输出/>乘以矩阵/>作为/>,/>不随时间步而改变,/>、/>、/>为神经网络的参数,随着反向传播而修改。/>为query与/>的相似度除以/>的结果,其中,/>一般被设为64,最终将/>代入softmax函数转换为在时间步t上的加权和为1的权重
最终,将各时间步权重与/>加权求和,即可得到带有自注意力的文本向量z:
为获得多头自注意力,将上述公式进行h次,即可得到多头自注意力文本,将其拼接并作一次线性变换后作为最后输出:
其中,h为自注意力的头数。该公式表示为将获得到的多头自注意力文本在水平方向上进行堆叠,乘以矩阵,最终得到整合了所有多头注意力的输出MultiHead。
进一步地,所述训练后的金融舆情分类模型,其训练过程包括:
构建训练集;所述训练集为已知网络新闻舆情分类标签的网络新闻全文数据和评论数据,其中,将网络新闻数据和评论数据划分为三类:积极,消极,正常这三种情绪;
将训练集预处理后,输入到金融舆情分类模型中,对模型进行训练,训练过程中采用Adam算法进行模型的优化,采用遗传算法Genetic Algorithm对LSTM网络进行网络参数调优,当模型的交叉熵损失函数值不再降低时,停止训练,得到训练后的金融舆情分类模型。
进一步地,SeMAtt-LSTM模型中,为解决当易区分样本过多时导致的预测偏向性问题,引入具有调制因子的动态缩放的交叉熵作为损失函数,以聚焦难区分样本,损失函数公式为:
其中,是训练样本的标签,/>是模型输出的训练样本属于正例(即舆论情感是积极的)的概率,/>为调制因子。SeMAtt-LSTM模型中,采用遗传算法取代模型的随机梯度下降算法实现模型的梯度更新过程。
训练过程中采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉、变异;
首先是种群初始化:根据网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数POP_SIZE及基因编码长度DNA_SIZE后,基于随机函数初始化生成染色体种群/>
并设定,由二进制编码而成,/>为随机函数。
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络模型的结构信息对原有长短期记忆模型进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值/>,并求得/>与期望输出参数值的Focal loss损失:
其中,表示测试集样本,/>表示更新后模型预测值,/>表示测试集样本的标签值,/>为i调制因子,/>表示进化改进的LSTM模型,/>表示Focal loss损失函数;/>表示误差值;
取误差值倒数为求得的适应度值:
其中,为当前轮迭代中种群的适应度函数;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时获得已收敛的长短期记忆网络。
进一步地,所述输出待分类金融新闻的情感分数,之后,计算一天当中新闻文本,评论文本的影响力,加权求和得到当日舆情分数;
公式如下:
上述公式表示为:根据SeMAtt-LSTM得到新闻全文本的特征向量,根据SeMAtt-LSTM得到评论文本的特征向量,首先将提取到的二者的特征向量送入自注意力机制中得到相对应的注意力值/>,基于softmax函数将所有的注意力值标准化为对应新闻(评论)的权重值/>,最终结合权重和对应的情感分数得到一天的新闻以及评论的情感分数表示/>。其中,/>,/>为权重向量。根据特征向量和情感分数计算一天当中新闻文本,评论文本的影响力,加权求和得到当日舆情分数;不同的金融文本对金融市场的影响不同,需要区别对待,在处理不同的网络新闻的时候,需要根据其内在的内容来区分。
本发明通过结合新闻长文本信息及评论的文本信息,使用迁移学习基于多头自注意力及LSTM获取有效的文段情感分数,同时结合遗传算法能够获得最佳学习模型,从而更好地指导计算机实现对金融文本的舆情分析。
实施例二
本实施例提供了基于多头自注意力及LSTM的金融舆情分类系统;
基于多头自注意力及LSTM的金融舆情分类系统,包括:
获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
此处需要说明的是,上述获取模块和分类模块对应于实施例一中的步骤S101至S102,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于多头自注意力及LSTM的金融舆情分类方法,其特征是,包括:
获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;
所述语义特征分割模型,包括:判断模块,所述判断模块用于判断输入值是新闻全文本还是评论文本;
所述判断模块,分别与第一分支的输入端和第二分支的输入端连接;其中,第一分支,包括:依次连接的分割单元、面向金融领域的第一预训练语言表征模型和自注意力机制模块;所述第一分支,用于对输入的新闻全文文本数据进行语义特征分割,得到全文文本的初始词嵌入向量和全文文本的初始句嵌入向量;
其中,第二分支,包括:面向金融领域的第二预训练语言表征模型;所述第二分支,用于对输入的评论文本数据进行语义处理,得到评论文本的初始词嵌入向量和评论文本的初始句嵌入向量;
所述第一分支,包括:
对输入的新闻全文文本数据进行分段切分,得到若干个短文本;
对所有短文本采用面向金融领域的预训练语言表征模型进行处理,得到若干个句嵌入子向量,和若干个词嵌入子向量;
采用自注意力机制模块,计算每个句嵌入子向量的权重和每个词嵌入子向量的权重;
基于每个句嵌入子向量的权重,对所有句嵌入子向量进行加权求和得到全文文本的初始句嵌入向量;
基于每个词嵌入子向量的权重,对所有词嵌入子向量进行加权求和,得到全文文本的初始词嵌入向量;
所述面向金融领域的第一预训练语言表征模型,和所述面向金融领域的第二预训练语言表征模型,均采用Finbert模型来实现;Finbert模型用于获取各个短文本的词嵌入向量和句嵌入向量;FinBert模型是在金融语料库上对Bert模型进行预训练得到的;
将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
所述金融舆情分类模型,其网络结构包括:
并列的第三分支和第四分支;
其中,第三分支,用于输入初始句嵌入向量;
其中,第四分支,包括依次连接的长短期记忆网络和多头自注意力机制模块;所述第四分支,用于输入初始词嵌入向量,并对初始词嵌入向量进行处理,得到加权句嵌入向量;
第三分支的输出端和第四分支的输出端,均与拼接模块的输入端连接,所述拼接模块,用于对初始句嵌入向量和加权句嵌入向量进行拼接;并将拼接后的句嵌入向量输入分类器,分类器给出金融舆情的分类数据;
所述长短期记忆网络,用于对输入的初始词嵌入向量均进行特征提取,得到对应的词向量语义特征和文本特征;
所述长短期记忆网络,是采用遗传算法取代长短期记忆网络的随机梯度下降算法实现长短期记忆网络的梯度更新过程,梯度更新后的长短期记忆网络为SeMAtt-LSTM模型;
SeMAtt-LSTM模型的具体实现包括:在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,调优包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络;
所述多头自注意力机制模块,用于对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到加权句嵌入向量;
所述多头自注意力机制模块的具体实现包括:
LSTM包含两个输出:首先是所有时间步的输出,以及最后的时间步D的隐藏状态/>
其中,表示字/词的特征,/>表示文本的特征;为了识别字对于文本的重要性,需要建立/>与/>的自注意力关系,即建立各时间步输出/>对于/>的权重,由于LSTM本身就考虑了位置信息,因此不额外设置位置编码,故采用点积注意力实现自注意力机制,公式如下:
其中,t表示时间步,各时间步的输出经线性变换后作为/>和/>,最后时间步的输出/>乘以矩阵/>作为/>,/>不随时间步而改变,/>、/>、/>为神经网络的参数,随着反向传播而修改;/>为query与/>的相似度除以/>的结果,其中,/>一般被设为64,最终将/>代入softmax函数转换为在时间步t上的加权和为1的权重/>
最终,将各时间步权重与/>加权求和,即可得到带有自注意力的文本向量z:
为获得多头自注意力,将上述公式进行h次,即可得到多头自注意力文本,将其拼接并作一次线性变换后作为最后输出:
其中,h为自注意力的头数;该公式表示为将获得到的多头自注意力文本在水平方向上进行堆叠,乘以矩阵,最终得到整合了所有多头注意力的输出MultiHead。
2.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,包括:
将新闻全文文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到新闻全文文本的加权句嵌入向量;将新闻全文文本的加权句嵌入向量和新闻全文文本的初始句嵌入向量进行拼接,得到新闻全文文本的总特征向量,将新闻全文文本的总特征向量进行分类,得到新闻全文文本的情感分数。
3.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果,还包括:
对评论文本的初始词嵌入向量输入长短期记忆网络,得到词向量语义特征和文本特征,使用多头注意力机制对长短期记忆网络生成的词向量语义特征和文本特征建立自注意力关系,识别字对文本的重要性,得到评论文本的加权句嵌入向量;将评论文本的加权句嵌入向量和评论文本的初始句嵌入向量进行拼接,得到评论文本的总特征向量,将评论文本的总特征向量进行分类,得到评论的情感分数。
4.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,所述训练后的金融舆情分类模型,其训练过程包括:
构建训练集;所述训练集为已知网络新闻舆情分类标签的网络新闻全文数据和评论数据,其中,将网络新闻数据和评论数据划分为三类:积极,消极,正常这三种情绪;
将训练集预处理后,输入到金融舆情分类模型中,对模型进行训练,训练过程中采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,将模型的全局最优解信息纳入最优化搜索策略中,当模型的交叉熵损失函数值不再降低时,停止训练,得到训练后的金融舆情分类模型。
5.如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法,其特征是,获取待分类金融新闻全文文本数据以及评论文本数据,是采用网络爬虫,从网站上获取待分类金融新闻全文文本数据以及评论文本数据。
6.采用如权利要求1-5任一项所述的如权利要求1所述的基于多头自注意力及LSTM的金融舆情分类方法的基于多头自注意力及LSTM的金融舆情分类系统,其特征是,包括:
获取模块,其被配置为:获取待分类金融新闻全文文本数据以及评论文本数据;对获取的所有文本数据进行预处理;
分类模块,其被配置为:将预处理后的文本数据,输入到语义特征分割模型中进行语义分割,分别得到新闻全文文本的初始词嵌入向量和初始句嵌入向量,以及评论文本的初始词嵌入向量和初始句嵌入向量;将语义分割得到的结果,均输入到训练后的金融舆情分类模型中,输出金融舆情分类结果;
在对金融舆情分类模型的训练过程中,采用遗传算法对金融舆情分类模型的长短期记忆网络进行参数调优,调优包含五个阶段:种群初始化、基于已有知识的染色体适应度计算、筛选、交叉和变异;
首先是种群初始化:根据长短期记忆网络前次迭代的动态缩放损失计算及模型的结构信息,初始化首次迭代的种群适应度,然后,设定好种群数及基因编码长度后,基于随机函数初始化生成染色体种群;
其次为基于已有知识的染色体适应度计算:将染色体通过二进制转十进制解码后作为新的长短期记忆网络的结构信息对原有长短期记忆网络进行更新,同时基于测试集对更新后的模型进行测试,得到模型的预测值,并求得更新后模型预测值与期望输出参数值的损失;取误差值倒数为求得的适应度值;
然后,为筛选与交叉变异:根据染色体个体适应度占种群适应度和的比例,筛选得到进入下一代的染色体;
然后,基于所求适应度以设定概率选择父母染色体以及位点进行交叉变异;
最终,种群适应度通过逐渐缩小,至到其收敛,同时也获得已收敛的长短期记忆网络。
CN202310237468.1A 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统 Active CN115952291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310237468.1A CN115952291B (zh) 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310237468.1A CN115952291B (zh) 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统

Publications (2)

Publication Number Publication Date
CN115952291A CN115952291A (zh) 2023-04-11
CN115952291B true CN115952291B (zh) 2023-07-18

Family

ID=85906939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310237468.1A Active CN115952291B (zh) 2023-03-14 2023-03-14 基于多头自注意力及lstm的金融舆情分类方法及系统

Country Status (1)

Country Link
CN (1) CN115952291B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541523A (zh) * 2023-04-28 2023-08-04 重庆邮电大学 一种基于大数据的法律判决舆情分类方法
CN116432605B (zh) * 2023-06-14 2023-09-22 山东大学 融入先验知识的作文评语生成方法及装置
CN116629324B (zh) * 2023-07-26 2023-10-03 北京知呱呱科技服务有限公司 一种面向模型生成文本重复退化现象的优化生成方法
CN116932487B (zh) * 2023-09-15 2023-11-28 北京安联通科技有限公司 一种基于数据段落划分的量化式数据分析方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114298157A (zh) * 2021-12-06 2022-04-08 重庆邮电大学 基于舆情大数据分析的短文本情感分类方法、介质及系统
CN114781392A (zh) * 2022-04-06 2022-07-22 西安电子科技大学 一种基于bert改进模型的文本情感分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113495959B (zh) * 2021-05-20 2022-09-09 山东大学 一种基于文本数据的金融舆情识别方法及系统
US20230073602A1 (en) * 2021-08-20 2023-03-09 University Of Central Florida Research Foundation, Inc. System of and method for automatically detecting sarcasm of a batch of text
CN114580707A (zh) * 2022-01-26 2022-06-03 安徽农业大学 一种多特征融合产品的情感趋势预测模型、建立方法及预测方法
CN115759104B (zh) * 2023-01-09 2023-09-22 山东大学 基于实体识别的金融领域舆情分析方法与系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114298157A (zh) * 2021-12-06 2022-04-08 重庆邮电大学 基于舆情大数据分析的短文本情感分类方法、介质及系统
CN114781392A (zh) * 2022-04-06 2022-07-22 西安电子科技大学 一种基于bert改进模型的文本情感分析方法

Also Published As

Publication number Publication date
CN115952291A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN110222188B (zh) 一种多任务学习的公司公告处理方法及服务端
CN115952291B (zh) 基于多头自注意力及lstm的金融舆情分类方法及系统
Day et al. Deep learning for financial sentiment analysis on finance news providers
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
Fu et al. Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks
CN111177325B (zh) 一种自动生成答案的方法和系统
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
US20210004602A1 (en) Method and apparatus for determining (raw) video materials for news
CN115408525B (zh) 基于多层级标签的信访文本分类方法、装置、设备及介质
Mishev et al. Forecasting corporate revenue by using deep-learning methodologies
CN111859967A (zh) 实体识别方法、装置,电子设备
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN115470354A (zh) 基于多标签分类识别嵌套和重叠风险点的方法及系统
CN116150367A (zh) 一种基于方面的情感分析方法及系统
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN114266241A (zh) 基于文本和情感极性的评论有用性预测方法、设备及介质
Jiang et al. Text semantic classification of long discourses based on neural networks with improved focal loss
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN116361442B (zh) 基于人工智能的营业厅数据分析方法及系统
CN117076672A (zh) 文本分类模型的训练方法、文本分类方法及装置
CN116703509A (zh) 一种针对直播营销商品质量感知分析的网购助手构建方法
CN113051607B (zh) 一种隐私政策信息提取方法
CN114020901A (zh) 一种结合主题挖掘和情感分析的金融舆情分析方法
CN109977227B (zh) 基于特征编码的文本特征提取方法、系统、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant