CN115759119A - 一种金融文本情感分析方法、系统、介质和设备 - Google Patents

一种金融文本情感分析方法、系统、介质和设备 Download PDF

Info

Publication number
CN115759119A
CN115759119A CN202310030728.8A CN202310030728A CN115759119A CN 115759119 A CN115759119 A CN 115759119A CN 202310030728 A CN202310030728 A CN 202310030728A CN 115759119 A CN115759119 A CN 115759119A
Authority
CN
China
Prior art keywords
word
text
financial
vector
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310030728.8A
Other languages
English (en)
Other versions
CN115759119B (zh
Inventor
温秋华
刘文骁
潘定
杨紫宏
李雅冬
樊一锋
邓寅骏
梁铭杰
甄昊龙
麦铭桐
黄斐然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Original Assignee
Jinan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University filed Critical Jinan University
Priority to CN202310030728.8A priority Critical patent/CN115759119B/zh
Publication of CN115759119A publication Critical patent/CN115759119A/zh
Application granted granted Critical
Publication of CN115759119B publication Critical patent/CN115759119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种金融文本情感分析方法、系统、介质和设备,该方法包括下述步骤:分析每个金融文本表达的情感并进行标注;对待测金融文本进行数据预处理,得到金融文本序列;根据金融词典进行分词、编码,编码后输入BERT模型训练;多头注意力层以编码后的词向量作为输入,为每个词向量提供不同语义的词向量,前馈层将含有序列信息的词向量进行线性处理,得到整合信息后的词向量;多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;整合信息后的各个词向量经过全连接层、softmax计算,选择概率最大的情感作为文本情感分类的结果。本发明能更好地利用到完整语义信息,极大提高了文本情感分析的准确度。

Description

一种金融文本情感分析方法、系统、介质和设备
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种金融文本情感分析方法、系统、介质和设备。
背景技术
在金融领域,诸如股票评论、基金信息和金融新闻等文本信息,因其含有金融领域专业词汇,因此需要将其与通用文本的处理方法区分开,并且金融领域文本信息中包含着积极、消极等多种情感,不同于通用领域的文本信息,金融领域的文本信息中包含着对当前市场的看法以及对未来市场走势的预测,这些舆论信息都有可能会影响金融市场的走势,甚至会影响到经济建设体系,因此对金融领域文本信息的处理有着十分重要的应用价值。
过去对自然语言的处理模型大多是以卷积神经网络或卷积循环网络为基础进行构建,而现有的卷积神经网络由于只能提取局部特征,对于文本这类需要长距离依赖的数据不够使用,不能很好的将上下文信息联系起来;循环神经网络虽然可以解决长距离依赖的问题,但其并行能力较差,模型速度较慢;而且在文本数据处理方面,过去标注数据速度较慢,严重影响模型开发进度。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种金融文本情感分析方法,本发明以BERT模型作为基础架构,解决了不能将上下文联系起来、运行速度较慢的问题,利用BERT预训练模型在下游任务完成对金融文本的多分类任务,利用多头注意力层更好地获取到整个序列的信息,提高文本情感识别的准确度;前馈层进一步整合语义信息,汇聚向量,经过残差连接和归一化处理更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
本发明的第二目的在于提供一种金融文本情感分析系统;
本发明的第三目的在于提供一种计算机可读存储介质;
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种金融文本情感分析方法,包括下述步骤:
S1:获取金融文本,分析每个金融文本表达的情感并进行标注;
S2:对待测的金融文本进行数据预处理,所述预处理包括数据清洗、文本对齐和数据增强,得到金融文本序列;
S3:将数据预处理后的金融文本序列根据金融词典进行分词,并进行编码,编码后的词向量输入BERT模型进行训练,得到BERT预训练模型;
S31:多头注意力层以编码后的词向量作为输入,通过多重的自我注意力机制为每个词向量提供不同语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量,前馈层将含有序列信息的词向量进行线性处理,将其处理为更高维的表示,再投影回原来的空间,得到整合信息后的词向量;
通过多头注意力机制为每个词向量提供不同语义的词向量,具体包括:
编码后的词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;
将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对关注值分布列表进行softmax计算,将关注值分布转化为概率分布,用概率大小表示关注值的大小程度;
将关注值分布与序列中其他词语的值项相乘后求和,得到某一词语包含序列信息的向量表示,遍历每个词语直至得到每个词语包含序列信息的向量表示;
词向量与多个不同的查询矩阵、键矩阵和值矩阵相乘,重复更迭得到每个词语多个不同的向量表示,并将每个词语不同的向量表示经过全连接层聚合特征,得到含有不同序列信息的词向量表示;
S32:在多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;
S33:将整合信息后的各个词向量经过全连接层,再经过一次softmax计算,选择其中概率最大的情感作为文本情感分类的结果。
作为优选的技术方案,分析每个金融文本表达的情感并进行标注,具体包括:
对金融文本进行人工初步标注,将已标注数据送入k-means++模型,根据数据向量的欧氏距离判断相似度,距簇心较近的数据通过机器学习自动标注,距簇心较远的数据进行人工标注,人工标注后再次送入k-means++模型进行学习。
作为优选的技术方案,对待测的金融文本进行数据预处理,具体包括:长文本截断、短文本补齐、特殊符号处理、回译法扩充、EDA数据增强和全角转半角;
所述长文本截断对超过预定长度的文本进行截断处理;
所述短文本补齐对不足预定长度的文本进行补齐操作,使用同一特殊符号进行补齐到固定长度;
所述特殊符号处理将与金融文本情感分析无关的特殊符号进行删除操作;
所述回译法扩充对中文金融文本先翻译为外文,再翻译回中文,并将扩充后的金融文本加入金融文本语料库;
所述EDA数据增强对任意金融文本采用同义词替换、随机插入、随机交换、随机删除四种操作中的一种;
所述全角转半角将全角字符转为半角字符。
作为优选的技术方案,所述BERT模型设有编码器网络,包括Token Embeddings编码层、Segment Embeddings编码层和Position Embeddings编码层,所述Token Embeddings编码层将每个词对应的one-hot编码乘以对应的权重矩阵得到向量表示,所述SegmentEmbeddings编码层处理输入句子成对的分类任务,将文本情感分析任务中第一句中的所有词语都赋予0向量,将第二句中的所有词语都赋予1向量,所述Position Embeddings编码层分辨出词语在句子中的位置信息,将各个编码层的输出维度进行统一,并按元素相加,得到文本数据编码后的词向量结果,所述词向量结果包括词语信息、段落信息和位置信息。
作为优选的技术方案,所述将数据预处理后的金融文本序列根据金融词典进行分词,采用Hanlp分词对金融文本进行分词。
作为优选的技术方案,还包括BERT预训练模型微调步骤,具体包括:
将BERT预训练模型输出的结果在下游任务上结合数据预处理后的金融文本序列进行参数调整,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,对TokenEmbeddings编码层添加扰动。
为了达到上述第二目的,本发明采用以下技术方案:
一种金融文本情感分析系统,包括:文本标注模块、数据预处理模块、分词编码模块、训练模块和文本情感分类输出模块;
所述文本标注模块用于获取金融文本,分析每个金融文本表达的情感并进行标注;
所述数据预处理模块用于对待测的金融文本进行数据预处理,所述数据预处理包括数据清洗、文本对齐和数据增强,得到金融文本序列;
所述分词编码模块用于将数据预处理后的金融文本序列根据金融词典进行分词,并进行编码;
所述训练模块用于将编码后的词向量输入BERT模型进行训练,得到BERT预训练模型;
多头注意力层以编码后的词向量作为输入,通过多重的自我注意力机制为每个词向量提供不同语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量,前馈层将含有序列信息的词向量进行线性处理,将其处理为更高维的表示,再投影回原来的空间,得到整合信息后的词向量;
通过多头注意力机制为每个词向量提供不同语义的词向量,具体包括:
编码后的词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;
将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对关注值分布列表进行softmax计算,将关注值分布转化为概率分布,用概率大小表示关注值的大小程度;
将关注值分布与序列中其他词语的值项相乘后求和,得到某一词语包含序列信息的向量表示,遍历每个词语直至得到每个词语包含序列信息的向量表示;
词向量与多个不同的查询矩阵、键矩阵和值矩阵相乘,重复更迭得到每个词语多个不同的向量表示,并将每个词语不同的向量表示经过全连接层聚合特征,得到含有不同序列信息的词向量表示;
在多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;
所述文本情感分类输出模块用于将整合信息后的各个词向量经过全连接层,再经过一次softmax计算,选择其中概率最大的情感作为文本情感分类的结果。
作为优选的技术方案,还包括BERT预训练模型微调模块,具体包括:
将BERT预训练模型输出的结果在下游任务上结合数据预处理后的金融文本序列进行参数调整,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,对TokenEmbeddings编码层添加扰动。
为了达到上述第三目的,本发明采用以下技术方案:
一种计算机可读存储介质,存储有程序,所述程序被处理器执行时实现如上述金融文本情感分析方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如所述金融文本情感分析方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用BERT模型为基础框架,解决了过去卷积神经网络、循环神经网络存在的不能将上下文联系起来、运行速度较慢的问题,利用多头注意力机制更好地获取到整个序列的信息,提高文本情感识别的准确度;前馈层进一步整合语义信息,汇聚向量,经过残差连接和归一化处理可以加速模型训练,并且避免训练过程中的梯度消失情况,更好地利用到完整语义信息,极大提高了文本情感分析的准确度。
(2)本发明将主动学习技术与人工标注相结合,主动学习降低了标注数据的人工成本,提升金融文本语料库大小和标注效率;通过机器学习的方法获取到对于机器标记比较困难的数据,让人工介入标注这部分数据,然后将这些数据再次放入k-means++模型中进行学习,主动学习降低标注数据的人工成本,提高了数据标注的准确性。
(3)本发明在数据预处理阶段,对数据进行数据清洗、文本对齐和数据增强,增加了金融文本语料库的大小,提高情感判断的准确度,且采用Hanlp分词,提升金融词汇特定领域的分词准确率,提升最终情感分析的精度。
(4)本发明灵活地根据下游任务(文本情感分析)的特点进行微调,同时利用对抗训练针对Token Embeddings编码层添加扰动,Token Embeddings编码层主要是针对句子内部的某个词,也就是Token进行编码,相比于现有的针对Segment Embeddings层添加扰动,两者的细腻度不同,Segment Embeddings是针对句子间进行编码,但仅适用于句子之间的关系没有像金融文本那么紧密的文本,且Token Embeddings的编码长度更长,并且还要考虑特殊字符的编码,选择对Segment Embeddings添加扰动进行对抗训练,可以增加模型学习和预测词汇的鲁棒性,增强了模型的抗干扰能力和泛化能力,而Segment Embeddings仅需要考虑句子之间的编码,编码长度更短,也不需要处理特殊字符。
附图说明
图1为本发明金融文本情感分析方法的流程示意图;
图2为本发明数据标注的流程示意图;
图3为本发明数据预处理的流程示意图;
图4为本发明的编码器网络的架构示意图;
图5为本发明BERT模型的编码层结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本实施例提供一种基于主动学习融合对抗训练的BERT金融文本情感分析方法,包括下述步骤:
S1:数据标注:如图2所示,将主动学习技术与人工标注相结合,提升金融文本语料库大小和标注效率;
在本实施例中,数据标注的具体步骤包括:
S11:分析每个金融文本表达的情感对其进行人工标注;
S12:主动学习:通过人工标注小部分数据集,让机器自动标注剩余数据;
在本实施例中,将已标注数据送入k-means++模型,模型会根据数据向量的欧氏距离判断相似度,距簇心较近的视为机器易标注,而距离较远的则视为机器标注较困难。通过机器学习的方法获取到对于机器标记比较困难的数据,让人工介入标注这部分数据,然后将这些数据再次放入模型中,逐渐提高模型的能力。
S13:将人工标注与主动学习相结合,提高标注效率;
S2:数据预处理:如图3所示,对给定的金融文本数据进行预处理,预处理包括数据清洗、文本对齐和数据增强,具体包括长文本截断,短文本补齐,特殊符号处理,回译法扩充,EDA数据增强,全角转半角;
步骤S2的数据预处理中,具体包括:
长文本截断:对超过预定长度(如长度为512)的文本进行截断处理,只保留固定长度的文本;
短文本补齐:对不足预定长度(如长度为512)的文本进行补齐操作,使用同一特殊符号进行补齐到固定长度,便于BERT模型进行批量运算;
特殊符号处理:将与金融文本情感分析无关的特殊符号进行删除操作,因很多金融文本数据来源均为论坛、新闻等,所以存在与金融文本情感分析无关的特殊符号,比如“【”、“<br>”和“*”等符号,将这些符号进行删除操作;
回译法扩充:对中文金融文本先翻译为外文,再翻译回中文,并将扩充后的金融文本加入金融文本语料库,以达到数据扩充的目的;
EDA数据增强:对任意金融文本采用同义词替换、随机插入、随机交换、随机删除四种操作中的随机一种,提升金融文本数据预料大小;
全角转半角:将全角字符转为半角字符,可以避免因为标点符号的全角或半角形式影响到模型判断情感的准确度。
在本实施例中,EDA数据增强具体步骤包括:
给定一个金融文本,随机选择以下操作进行EDA数据增强:
同义词替换:选择句子中的某些词语,用他们的同义词替换这些词语;
随机插入:选择句子中的一个词语,用它的一个近义词插入句子的任意位置;
随机替换:随机选择句子中两个词语,将他们的位置交换;
随机删除:对所有词语,均用一定概率来决定他们是否被删除;
将使用过EDA数据增强得到的金融文本数据加入到金融文本语料库,从而达到数据增强的目的;
S3:建立模型的编码器网络:如图4所示,将预处理后的结果进行分词,并进行编码,编码后的结果输入Transformer模型的Encoder结构(即BERT模型),依次经过多头注意力层、前馈层,并且在中间进行残差连接和归一化处理;
自注意力机制可以快速获取文本的整体意义,而多头注意力层可以获取文本在多个语境下的意义(具体如步骤S32);前馈层进一步整合语义信息,汇聚向量(具体如步骤S33);残差连接和归一化处理可以加速模型训练,并且避免训练过程中的梯度消失情况(具体如步骤S34)。
如图5所示,BERT模型中有三个编码层(嵌入层),用来对分词后的句子进行编码,图中的E表示Embedding,即每个词语的512维度的向量表示。
具体为以下三个编码层:
a、Token Embeddings。将每个词转为不同的512维度向量表示;将每个词对应的one-hot编码乘以对应的权重矩阵(可学习参数)得到向量表示;
b、Segment Embeddings。由于BERT模型能处理输入句子成对的分类任务,将第一句中的所有词语都赋予0向量,而将第二句中的所有词语都赋予1向量,因为在本实施例文本情感分析任务中输入仅有一个句子,所以它的Segment Embedding就全是0(即512维度的全0表示)。
c、Position Embeddings。BERT模型最长能处理512个词语的的输入,通过位置编码模型可以分辨出词语在句子中的位置信息,因此即使相同的词语在不同的位置也会得到不同的表示,与实际情况相符。
位置编码的表示如下:
Figure 71846DEST_PATH_IMAGE001
其中,
Figure 586004DEST_PATH_IMAGE002
t表示位置,d表示位置向量维度,
Figure DEST_PATH_IMAGE003
表示权重,k的最大值为d/2。
将以上三种编码输出维度均置相同(如512维度),并按元素相加,得到文本数据编码后的词向量结果。则该向量中包含有词语信息、段落信息和位置信息。
在本实施例中,建立模型的编码器网络具体步骤包括:
S31:将预处理后的结果进行分词,并进行编码:将预处理后的金融文本序列作为BERT预训练模型的输入,将序列根据金融词典分词,将每个词语转化成对应的唯一向量化表示,得到词向量;
在本实施例中,根据金融语料库建立金融领域专属词典,然后使用词典将金融文本数据进行分词。
在本实施例中,使用TextRank算法对金融文本语料库进行词性标注,选择其中名词、其他专名、机构名、动词和名动词等词性的词语,选择其中出现频率高的词语加入词典。并观察词典手动维护一个停用词表,删除一些无用的词语,得到金融领域专属词典。
在本实施例中,分词工具用的是Hanlp分词,因为金融是一个特定领域,具有不少的专业词汇,如“加仓”,“重仓”,“减仓”等。其中,Hanlp除了常规的建立词典分词功能,还具有深度学习分词功能,其可以借助Hanlp独有的大规模语料,不需要构造额外手工特征,采用深度学习方法分词,并且考虑到金融词汇更新较快,还能及时更新语料库,语料库的时效性更好。而现有的Jieba分词仅支持传统的建立词典分词功能,其主打的是使用便捷和迅速,在专业领域的分词效果不及Hanlp;
为了验证上述的结论,首先人工手动分词了100条金融文本,然后分别使用hanlp和jieba进行分词,最后统计两者的准确率,其中Hanlp的分词准确率为95.2%,jieba的分词准确率为91.4%。可以看出在Hanlp针对特定领域的定制化操作取得了明显效果;而前期分词更准确,则训练情感分析模型的时候特征提取就会更明显,因为Attention机制决定了模型对一句话中不同词汇的权重是不一样的,正确的分词寄予正确的权重,就会提升最终情感分析的精度。
S32:构建Transformer模型的Encoder结构;
在本实施例中,Encoder结构包含多头注意力层,前馈神经网络层,和夹杂在中间进行残差连接和归一化处理的结构;
多头注意力层以编码后的词向量作为输入,通过多头注意力机制为每个词向量提供不一样语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量;
在本实施例中,多头注意力层以输出的词向量作为输入,通过多重的自我注意力机制为词语提供多个向量表示,具体步骤包括:
a、编码后的词向量通过与查询矩阵、键矩阵和值矩阵(三个矩阵为实验参数)相乘得到词语在自我注意力机制中的查询项、键项和值项;
b、将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对此分布值列表进行softmax计算,将关注值分布转化为概率分布,用概率大小来表示关注值的大小程度;
c、将关注值分布与序列中其他词语的值项相乘后求和,得到某一词语包含序列信息的向量表示;
d、对每个词语重复上述操作,得到每个词语包含序列信息的向量表示;
e、多头的注意力模式即用词向量与多个不同的查询矩阵、键矩阵和值矩阵相乘,重复上述操作得到每个词语多个不同的向量表示,并将每个词语不同的向量表示经过全连接层聚合特征,得到含有不同序列信息的词向量表示。
S33:前馈层将含有序列信息的词向量进行线性处理,先将其处理为更高维的表示,再投影回原来的空间,再次整合通过多头注意力计算出的多方面信息,同时提高向量对复杂语句的处理能力,得到处理后的词向量,使每个词语的向量均有表示整个文本的能力;
具体地,前馈层将含有整个序列信息的词向量经过两个线性变换,中间有一个GELU激活函数,得到整合信息后的词向量;
S34:残差连接和归一化处理:将处理后的词向量与处理前的词向量相加完成残差连接,其作用是防止梯度消失并加速模型收敛;同时将相加后的结果向量减去向量平均值并除以向量标准差,完成归一化处理,其目的与残差连接类似,降低梯度消失发生的概率,使训练顺利进行,并且本实施例仅在首次训练的时候加入预处理后的数据集。
在本实施例中,在多头注意力层和前馈层后,各执行一次残差连接和归一化处理。将执行多头注意力层、残差连接和归一化处理、前馈层、残差连接和归一化处理合并得到BERT模型的一个Encoder结构,BERT模型按顺序堆叠6-12个Encoder层,完成各词向量对序列信息的整合。
S4:建立模型的微调分类网络:将Encoder输出的结果在下游任务上结合处理好的金融文本数据集进行微调,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,在不重构模型的基础上达到干扰训练,提高预测精确度的效果。
在本实施例中,建立模型的微调分类网络具体步骤包括:
将Encoder输出的结果在下游任务上结合处理好的金融文本数据集进行微调:将Encoder最后一个隐层的第一个向量作为下游任务(微调分类网络)的输入,使其经过一个全连接层,再经过一次softmax计算,取概率最大者作为情感值,完成情感分类;
具体地,由于BERT模型会产生一个包含全部语义信息的[CLS]标志向量,在BERT模型的最后一层取出该向量,作为下一层模型的输入,将上述步骤取出的向量通过一个前馈层(全连接层),再经过softmax计算得到该序列每个情感得分的概率分布,选择其中概率最大的情感作为文本情感分类的结果;
结合对抗训练的方法,在BERT模型中对Embedding层中添加一定的扰动数值,对模型进行干扰训练,并不重构原模型,提高模型的抗干扰能力和泛化能力,相比传统的利用循环神经网络或者原生BERT模型进行文本情感分析,分类准确率提升2%到4%。
Embeddings层包括四个子层,分别是:Token Embeddings编码层、SegmentEmbeddings编码层和Position Embeddings编码层,本实施例针对Token Embeddings编码层添加扰动,Token Embeddings编码层主要是针对句子内部的某个词,也就是Token进行编码,相比于现有的针对Segment Embeddings层添加扰动,Segment Embeddings是针对句子间进行编码,但仅适用于句子之间的关系没有像金融文本那么紧密的文本,两者的细腻度不同,本实施例Token Embeddings的编码长度更长,并且还要考虑特殊字符的编码,选择对Segment Embeddings添加扰动进行对抗训练,可以增加模型学习和预测词汇的鲁棒性,而Segment Embeddings仅需要考虑句子之间的编码,编码长度更短,也不需要处理特殊字符。
实施例2
本实施例提供一种金融文本情感分析系统,包括:文本标注模块、数据预处理模块、分词编码模块、训练模块和文本情感分类输出模块;
在本实施例中,文本标注模块用于获取金融文本,分析每个金融文本表达的情感并进行标注;
在本实施例中,数据预处理模块用于对待测的金融文本进行数据预处理,所述数据预处理包括数据清洗、文本对齐和数据增强,得到金融文本序列;
在本实施例中,分词编码模块用于将数据预处理后的金融文本序列根据金融词典进行分词,并进行编码;
在本实施例中,训练模块用于将编码后的词向量输入BERT模型进行训练,得到BERT预训练模型;
多头注意力层以编码后的词向量作为输入,通过多重的自我注意力机制为每个词向量提供不同语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量,前馈层将含有序列信息的词向量进行线性处理,将其处理为更高维的表示,再投影回原来的空间,得到整合信息后的词向量;
通过多头注意力机制为每个词向量提供不同语义的词向量,具体包括:
编码后的词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;
将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对关注值分布列表进行softmax计算,将关注值分布转化为概率分布,用概率大小表示关注值的大小程度;
将关注值分布与序列中其他词语的值项相乘后求和,得到某一词语包含序列信息的向量表示,遍历每个词语直至得到每个词语包含序列信息的向量表示;
词向量与多个不同的查询矩阵、键矩阵和值矩阵相乘,重复更迭得到每个词语多个不同的向量表示,并将每个词语不同的向量表示经过全连接层聚合特征,得到含有不同序列信息的词向量表示;
在多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;
在本实施例中,文本情感分类输出模块用于将整合信息后的各个词向量经过全连接层,再经过一次softmax计算,选择其中概率最大的情感作为文本情感分类的结果。
在本实施例中,还包括BERT预训练模型微调模块,具体包括:
将BERT预训练模型输出的结果在下游任务上结合数据预处理后的金融文本序列进行参数调整,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,对Embeddings的权重矩阵进行扰动。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,程序被处理器执行时,实现实施例1的金融文本情感分析方法。
实施例4
本实施例提供一种计算设备,该计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的金融文本情感分析方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种金融文本情感分析方法,其特征在于,包括下述步骤:
S1:获取金融文本,分析每个金融文本表达的情感并进行标注;
S2:对待测的金融文本进行数据预处理,所述预处理包括数据清洗、文本对齐和数据增强,得到金融文本序列;
S3:将数据预处理后的金融文本序列根据金融词典进行分词,并进行编码,编码后的词向量输入BERT模型进行训练,得到BERT预训练模型;
S31:多头注意力层以编码后的词向量作为输入,通过多重的自我注意力机制为每个词向量提供不同语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量,前馈层将含有序列信息的词向量进行线性处理,将其处理为更高维的表示,再投影回原来的空间,得到整合信息后的词向量;
通过多头注意力机制为每个词向量提供不同语义的词向量,具体包括:
编码后的词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;
将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对关注值分布列表进行softmax计算,将关注值分布转化为概率分布,用概率大小表示关注值的大小程度;
将关注值分布与序列中其他词语的值项相乘后求和,得到某一词语包含序列信息的向量表示,遍历每个词语直至得到每个词语包含序列信息的向量表示;
词向量与多个不同的查询矩阵、键矩阵和值矩阵相乘,重复更迭得到每个词语多个不同的向量表示,并将每个词语不同的向量表示经过全连接层聚合特征,得到含有不同序列信息的词向量表示;
S32:在多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;
S33:将整合信息后的各个词向量经过全连接层,再经过一次softmax计算,选择其中概率最大的情感作为文本情感分类的结果。
2.根据权利要求1所述的金融文本情感分析方法,其特征在于,分析每个金融文本表达的情感并进行标注,具体包括:
对金融文本进行人工初步标注,将已标注数据送入k-means++模型,根据数据向量的欧氏距离判断相似度,距簇心较近的数据通过机器学习自动标注,距簇心较远的数据进行人工标注,人工标注后再次送入k-means++模型进行学习。
3.根据权利要求1所述的金融文本情感分析方法,其特征在于,对待测的金融文本进行数据预处理,具体包括:长文本截断、短文本补齐、特殊符号处理、回译法扩充、EDA数据增强和全角转半角;
所述长文本截断对超过预定长度的文本进行截断处理;
所述短文本补齐对不足预定长度的文本进行补齐操作,使用同一特殊符号进行补齐到固定长度;
所述特殊符号处理将与金融文本情感分析无关的特殊符号进行删除操作;
所述回译法扩充对中文金融文本先翻译为外文,再翻译回中文,并将扩充后的金融文本加入金融文本语料库;
所述EDA数据增强对任意金融文本采用同义词替换、随机插入、随机交换、随机删除四种操作中的一种;
所述全角转半角将全角字符转为半角字符。
4.根据权利要求1所述的金融文本情感分析方法,其特征在于,所述BERT模型设有编码器网络,包括Token Embeddings编码层、Segment Embeddings编码层和PositionEmbeddings编码层,所述Token Embeddings编码层将每个词对应的one-hot编码乘以对应的权重矩阵得到向量表示,所述Segment Embeddings编码层处理输入句子成对的分类任务,将文本情感分析任务中第一句中的所有词语都赋予0向量,将第二句中的所有词语都赋予1向量,所述Position Embeddings编码层分辨出词语在句子中的位置信息,将各个编码层的输出维度进行统一,并按元素相加,得到文本数据编码后的词向量结果,所述词向量结果包括词语信息、段落信息和位置信息。
5.根据权利要求1所述的金融文本情感分析方法,其特征在于,所述将数据预处理后的金融文本序列根据金融词典进行分词,采用Hanlp分词对金融文本进行分词。
6.根据权利要求1所述的金融文本情感分析方法,其特征在于,还包括BERT预训练模型微调步骤,具体包括:
将BERT预训练模型输出的结果在下游任务上结合数据预处理后的金融文本序列进行参数调整,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,对TokenEmbeddings编码层添加扰动。
7.一种金融文本情感分析系统,其特征在于,包括:文本标注模块、数据预处理模块、分词编码模块、训练模块和文本情感分类输出模块;
所述文本标注模块用于获取金融文本,分析每个金融文本表达的情感并进行标注;
所述数据预处理模块用于对待测的金融文本进行数据预处理,所述数据预处理包括数据清洗、文本对齐和数据增强,得到金融文本序列;
所述分词编码模块用于将数据预处理后的金融文本序列根据金融词典进行分词,并进行编码;
所述训练模块用于将编码后的词向量输入BERT模型进行训练,得到BERT预训练模型;
多头注意力层以编码后的词向量作为输入,通过多重的自我注意力机制为每个词向量提供不同语义的词向量,将其连接后进行转化,得到每个词语获取了序列中其他词语信息后的向量表示,作为含有序列信息的词向量,前馈层将含有序列信息的词向量进行线性处理,将其处理为更高维的表示,再投影回原来的空间,得到整合信息后的词向量;
通过多头注意力机制为每个词向量提供不同语义的词向量,具体包括:
编码后的词向量通过与查询矩阵、键矩阵和值矩阵相乘得到词语在自我注意力机制中的查询项、键项和值项;
将词向量的查询项与序列中其他词向量所构成的键项相乘,得到该词向量与其他向量的关注值分布,对关注值分布列表进行softmax计算,将关注值分布转化为概率分布,用概率大小表示关注值的大小程度;
将关注值分布与序列中其他词语的值项相乘后求和,得到某一词语包含序列信息的向量表示,遍历每个词语直至得到每个词语包含序列信息的向量表示;
词向量与多个不同的查询矩阵、键矩阵和值矩阵相乘,重复更迭得到每个词语多个不同的向量表示,并将每个词语不同的向量表示经过全连接层聚合特征,得到含有不同序列信息的词向量表示;
在多头注意力层和前馈层后各执行残差连接和归一化处理,完成各词向量对序列信息的整合;
所述文本情感分类输出模块用于将整合信息后的各个词向量经过全连接层,再经过一次softmax计算,选择其中概率最大的情感作为文本情感分类的结果。
8.根据权利要求7所述的金融文本情感分析系统,其特征在于,还包括BERT预训练模型微调模块,具体包括:
将BERT预训练模型输出的结果在下游任务上结合数据预处理后的金融文本序列进行参数调整,并结合对抗训练的方法,对Embeddings的权重矩阵进行扰动,对TokenEmbeddings编码层添加扰动。
9.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一项所述金融文本情感分析方法。
10.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-6任一项所述金融文本情感分析方法。
CN202310030728.8A 2023-01-10 2023-01-10 一种金融文本情感分析方法、系统、介质和设备 Active CN115759119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310030728.8A CN115759119B (zh) 2023-01-10 2023-01-10 一种金融文本情感分析方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310030728.8A CN115759119B (zh) 2023-01-10 2023-01-10 一种金融文本情感分析方法、系统、介质和设备

Publications (2)

Publication Number Publication Date
CN115759119A true CN115759119A (zh) 2023-03-07
CN115759119B CN115759119B (zh) 2023-04-21

Family

ID=85348807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310030728.8A Active CN115759119B (zh) 2023-01-10 2023-01-10 一种金融文本情感分析方法、系统、介质和设备

Country Status (1)

Country Link
CN (1) CN115759119B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542252A (zh) * 2023-07-07 2023-08-04 北京营加品牌管理有限公司 一种金融文本核查方法及系统
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质
CN117807603B (zh) * 2024-02-29 2024-04-30 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858932A (zh) * 2020-07-10 2020-10-30 暨南大学 基于Transformer的多重特征中英文情感分类方法及系统
CN113282707A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 基于Transformer模型的数据预测方法、装置、服务器及存储介质
US20210279414A1 (en) * 2020-03-05 2021-09-09 Adobe Inc. Interpretable label-attentive encoder-decoder parser
CN114757182A (zh) * 2022-04-06 2022-07-15 西安电子科技大学 一种改进训练方式的bert短文本情感分析方法
CN115392259A (zh) * 2022-10-27 2022-11-25 暨南大学 一种基于对抗训练融合bert的微博文本情感分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210279414A1 (en) * 2020-03-05 2021-09-09 Adobe Inc. Interpretable label-attentive encoder-decoder parser
CN111858932A (zh) * 2020-07-10 2020-10-30 暨南大学 基于Transformer的多重特征中英文情感分类方法及系统
CN113282707A (zh) * 2021-05-31 2021-08-20 平安国际智慧城市科技股份有限公司 基于Transformer模型的数据预测方法、装置、服务器及存储介质
CN114757182A (zh) * 2022-04-06 2022-07-15 西安电子科技大学 一种改进训练方式的bert短文本情感分析方法
CN115392259A (zh) * 2022-10-27 2022-11-25 暨南大学 一种基于对抗训练融合bert的微博文本情感分析方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116542252A (zh) * 2023-07-07 2023-08-04 北京营加品牌管理有限公司 一种金融文本核查方法及系统
CN116542252B (zh) * 2023-07-07 2023-09-29 北京营加品牌管理有限公司 一种金融文本核查方法及系统
CN117807603A (zh) * 2024-02-29 2024-04-02 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质
CN117807603B (zh) * 2024-02-29 2024-04-30 浙江鹏信信息科技股份有限公司 软件供应链审计方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN115759119B (zh) 2023-04-21

Similar Documents

Publication Publication Date Title
CN113254599B (zh) 一种基于半监督学习的多标签微博文本分类方法
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN110413768B (zh) 一种文章题目自动生成方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN111858933A (zh) 基于字符的层次化文本情感分析方法及系统
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN114611489A (zh) 文本逻辑条件抽取ai模型构建方法、抽取方法及系统
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN113312903A (zh) 一种5g移动业务产品词库的构建方法及系统
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
Zhu Sentiment analysis of international and foreign Chinese-language texts with multilevel features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant