CN117370736A - 一种细粒度情感识别方法、电子设备及存储介质 - Google Patents
一种细粒度情感识别方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117370736A CN117370736A CN202311674985.1A CN202311674985A CN117370736A CN 117370736 A CN117370736 A CN 117370736A CN 202311674985 A CN202311674985 A CN 202311674985A CN 117370736 A CN117370736 A CN 117370736A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- fine granularity
- attention
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 23
- 230000008451 emotion Effects 0.000 claims abstract description 73
- 238000004458 analytical method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000011156 evaluation Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 51
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000007246 mechanism Effects 0.000 claims description 20
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种细粒度情感识别方法、电子设备及存储介质,该方法包括获取影评文本数据并进行数据预处理,确认影评方面词并为其添加情感倾向标签,将标签添加的数据制作为数据集;采用方面词替换算法来对所述数据集进行数据增强,以扩充所述数据集;以BLOOM预训练语言模型作为基础网络,并采用扩充后的数据集来进行训练,得到训练好的细粒度情感分析模型;使用训练好的细粒度情感分析模型,对影评文本进行细粒度情感分析。扩充数据集的数量,令模型在学习中获得丰富的特征,提高下游情感分析任务的准确性。使用BLOOM模型结构并引入预训练模型,模型因经历了大规模预料预训练而蕴含丰富的语义特征,有利于提高情感分析任务的效果。
Description
技术领域
本发明涉及基于深度学习的情感分析技术领域,尤其涉及一种细粒度情感识别方法、电子设备及存储介质。
背景技术
文本情感分析是自然语言处理领域的一个重要分支,其研究目标是对带有情感色彩(褒义贬义/正向负向)的主观性文本进行分析,以确定该文本的观点、喜好、情感倾向等。细粒度情感分析(ABSA)旨在识别和分析文本中的情感极性与特定方面(aspect)之间的关系。ABSA的目标是确定文本中的主观情感,以及这些情感与哪些方面(例如产品特征、服务、事件等)相关联。细粒度文本情感分析广泛应用于舆情分析和内容推荐等方面,是近年来的研究热点。目前的主要研究方法包括基于传统深度学习的细粒度情感分析方法以及基于预训练模型情感细粒度分析方法。
现有的基于预训练模型情感细粒度分析方法的预训练模型采用了基于注意力机制的Transformer模型。注意力机制可以帮助模型关注文本中与目标对象或方面相关的重要信息,忽略无关的信息,从而提高模型的准确性和鲁棒性,此外注意力机制还可以帮助模型捕捉文本中的长距离依赖关系,比如一个句子中的情感词和情感极性可能会受到其他句子中的修饰词或转折词的影响。然而,传统的Attention计算方法也会导致注意力矩阵中存在大量的低概率注意值,这些值对于模型的性能没有太大的贡献,反而会增加模型的噪声和过拟合风险。并且传统的注意力计算矩阵的计算时间复杂度为,在长句子输入时计算成本会快速增加。LoRA方法是一种低秩分解的方法,它将注意力矩阵分解为两个低秩矩阵的乘积,从而降低了参数量和计算量 。然而,LoRA方法使用了固定比例的秩来对所有的Transformer层进行分解,这可能会导致模型在某些层中损失了重要的信息,或者在某些层中引入了冗余的信息。
最后,数据规模在深度学习方法中的模型训练过程中对预测效果有显著的正向影响。然而,获取和处理大型数据存在一定的困难和挑战。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种细粒度情感识别方法、电子设备及存储介质。
为实现上述目的,本发明的技术方案是:
第一方面,本发明提供一种细粒度情感识别方法,包括以下步骤:
获取影评文本数据并进行数据预处理,确认影评方面词并为其添加情感倾向标签,将标签添加的数据制作为数据集;
采用方面词替换算法来对所述数据集进行数据增强,以扩充所述数据集;
以BLOOM预训练语言模型作为基础网络,并采用扩充后的数据集来进行训练,得到训练好的细粒度情感分析模型;
使用训练好的细粒度情感分析模型, 对影评文本进行细粒度情感分析。
进一步地,所述数据预处理包括数据清洗、方面词标注与方面词情感倾向标注。
进一步地,所述采用方面词替换算法来对所述数据集进行数据增强,以扩充所述数据集,包括:
从数据集中随机选取两条数据,使用一个数据的方面词替换其中一个方面词,生成新数据并重复操作,实现数据集扩充。
进一步地,所述BLOOM预训练语言模型包括输入层、隐藏层和输出层;
所述输入层将输入序列转换为向量矩阵表示,所述输入序列为文本序列和方面词序列的拼接;
所述隐藏层由若干个基于注意力机制的Transformer块组成,注意力机制用于计算注意力矩阵,注意力矩阵计算过程中采用Sparse Attention算法和基于动态秩的LoRA的训练方法对注意力矩阵进行稀疏化和低秩化处理;
所述输出层通过全连接层将Transformer的输出映射到另一个空间,并使用Softmax层将分数转换为概率值,获得方面词的情感倾向序列。
进一步地,所述Sparse Attention算法的计算方式为:
其中,表示的是注意力层输出的注意力矩阵,/>分别表示查询矩阵、键矩阵和值矩阵,/>表示key矩阵的维度;
所述的计算方式如下:
其中,均为可计算的权重矩阵;
其中,为稀疏化门槛值,取值范围为/> t为输入到/>算法中的待稀疏化模型参数。
进一步地,所述基于动态秩的LoRA的训练方法为:
其中,是预训练语言模型的第/>层的原参数,不参与梯度更新,/>和/>是可训练的秩分解矩阵,/>为目标秩;/>是一个缩放因子,用来调整适配器对原始权重矩阵/>的影响程度;/>为动态秩系数,其中/>的计算方法为:
其中,为Transformer块的数量,/>是第/>块Transformer块。
进一步地,所述的计算方法为:
其中,为Transformer块的数量,/>是第/>块Transformer块。
进一步地,所述对影评文本进行细粒度情感分析包括:
通过对保留的电影评论进行测试,将评论文本和方面词序列/>输入训练好的细粒度情感分析模型,得到情感分析结果序列/>;
对和/>的合理性进行评价。
第二方面,本发明提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如上任一所述的细粒度情感识别方法。
第三方面,本发明提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任一所述的细粒度情感识别方法。
本发明与现有技术相比,其有益效果在于:
1、本发明提出了方面词替换的数据增强算法,通过扩充数据集的数量,令模型在学习中获得丰富的特征,进而提高下游情感分析任务的准确性。
2、细粒度情感模型使用先进的BLOOM结构并引入预训练模型,模型因经历了大规模预料预训练而蕴含丰富的语义特征,且信息抽取能力更强, 有利于提高情感分析任务的效果。
3、在注意力的计算过程中提出了Sparse Attention算法,将不可靠的低概率注意舍弃,避免发生过拟合,从而降低计算和存储的开销。同时,将剩余的注意力值扩大,可以增强模型对重要位置的关注度,从而提高模型的性能。
4、在注意力的计算过程中提出了基于动态秩的LoRA算法对Transformer层的注意力矩阵进行分解、对于靠近输入层或输出层的Transformer层的注意力矩阵,使用较大的秩增加了模型的表达能力,使得模型能够更好地捕捉输入序列或输出序列中不同位置之间的复杂关系。对于靠近中间层的Transformer层的注意力矩阵,使用较小的秩减少了模型的参数量和计算量,使得模型能够更快地训练和推理,并且避免过拟合或过度逼近问题。
附图说明
图1为本发明实施例一提供的基于稀疏化的动态低秩注意力矩阵的细粒度情感识别方法的流程图;
图2为数据组成示意图;
图3为基于方面词替换的数据增强方法示意图;
图4为细粒度情感分析模型结构示意图;
图5为注意力计算方法示意图;
图6为本发明实施例二公开的电子设备的结构示意图;
图7为本发明实施例三公开的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,下面结合附图和具体实施方式对本发明的内容做进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
预训练语言模型:预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。体现某一个词在一个特定上下文中的语义表征。预训练模型是一种迁移学习的应用,利用几乎无限的文本,学习输入句子的每一个成员的上下文相关的表示,它隐式地学习到了通用的语法语义知识。预训练可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务,对低资源语言处理非常有利。
注意力机制:注意力机制是一种模仿人类视觉和认知系统的技术,它可以让神经网络在处理输入数据时,集中注意力于相关的部分,而忽略不相关的部分。注意力机制可以提高神经网络的性能和泛化能力,捕捉长程依赖关系,增强模型的表达能力。注意力机制可以应用于多种类型的数据,如文本、语音、图像等。注意力机制的运用主要是自注意力机制。自注意力机制是指在处理序列数据时,每个元素都可以与序列中的其他元素建立关联,而不仅仅是依赖于相邻位置的元素。自注意力机制可以自适应地捕捉序列中元素之间的长程依赖关系。自注意力机制的一个典型应用是Transformer模型中的编码器和解码器,它们使用自注意力机制来对输入序列和输出序列进行编码和解码。在本发明中,提出了SparseAttention 稀疏的注意力机制,通过将注意力结果稀疏化,将不可靠的低概率注意舍弃,避免发生过拟合,从而降低计算和存储的开销。同时,将剩余的注意力值扩大,可以增强模型对重要位置的关注度,从而提高模型的性能。
微调训练语言模型:针对具体的任务修正网络。通常来说训练数据可以是文本、文本与图像对、文本与视频对。预训练模型可经过微调之后,用于支持分类、序列标记、结构预测和序列生成等各项技术,并构建文摘、机器翻译、图片检索、视频注释等应用。本发明中的微调预训练语言模型具体是指针对模型对方面词的识别以及方面词的情感极性判断的微调。
模型的输入、输出:不同于传统单模型深度学习生成类任务,细粒度情感分析模型的输入、输出有所不同。细粒度情感分析模型的输入、输出分别由影评文本序列与方面词序列的拼接序列与情感极性序列组成。通过影评文本序列与方面词序列的拼接作为输入,细粒度情感分析模型可以在方面词序列的指导下学习方面词的情感极性;情感极性序列作为模型的输出,值得是对于某一方面的具体情感极性,例如“演员演技僵硬”、“主题曲很好听”等。
BLOOM模型:BLOOM是于2023年7月公布,一个由数百名研究人员合作开发和发布的1760亿参数的多语言模型。它是一个仅有解码器的Transformer语言模型, BLOOM在各种基准测试中取得了竞争性的性能。本发明中的基于方面的情感分析模型是基于BLOOM模型训练的。
LoRA: 是一种用于微调大型语言模型的高效技术,它冻结了预训练模型的权重,并在每一层的变换器架构中注入可训练的秩分解矩阵,大大减少了下游任务的可训练参数的数量。 LoRA可以在不增加推理延迟的情况下,实现与全微调相当或更好的模型质量。本发明提出了基于动态秩的LoRA方法,LoRA方法使用了固定的秩来对权重矩阵进行低秩分解,而没有考虑到不同层之间的差异。这可能导致模型在某些层中缺乏表达能力,在某些层中存在冗余参数。动态秩算法对于靠近输入层或输出层的Transformer层,使用较大的秩增加了模型的表达能力,使得模型能够更好地捕捉输入序列或输出序列中不同位置之间的复杂关系。对于靠近中间层的Transformer层,使用较小的秩减少了模型的参数量和计算量。
实施例一
参阅图1所示,本实施例提供的基于稀疏化的动态低秩注意力矩阵的细粒度情感识别方法主要包括如下步骤:
S1、获取影评文本数据并进行数据预处理,确认影评方面词并为其添加情感倾向标签,将标签添加的数据制作为数据集;
S2、采用方面词替换算法来对所述数据集进行数据增强,以扩充所述数据集;
S3、以BLOOM预训练语言模型作为基础网络,并采用扩充后的数据集来进行训练,得到训练好的细粒度情感分析模型;
S4、使用训练好的细粒度情感分析模型, 对影评文本进行细粒度情感分析。
由此,可见本方法提出了方面词替换的数据增强算法,通过扩充数据集的数量,令模型在学习中获得丰富的特征,进而提高下游情感分析任务的准确性。细粒度情感模型使用先进的BLOOM模型结构并引入预训练模型,模型因经历了大规模预料预训练而蕴含丰富的语义特征,且信息抽取能力更强, 有利于提高情感分析任务的效果。
在一具体实施例中,上述步骤S1包括以下子步骤:
S12、从影评网站上收集电影评论。
S13、对收集到的电影评论进行人工筛选、去除质量不佳的电影评论,对电影评论手动识别出其方面词语以及情感倾向,对其进行如图2所示的标注。对于标注的数据,使用其中的90%制作数据集,剩余的10%条则保留用于细粒度情感分析模型的情感分析效果。
数据集的数据的具体标注方法为:对于电影评论, 其中/>表示输入序列的长度,生成方面词标注/>以及情感倾向标注/>。其中。对于方面词标注/>,0表示/>不属于方面词而1表示/>属于方面词的一部分,对于情感倾向标注/>,-1表示非情感倾向词,0表示消极情感倾向,1表示积极情感倾向。例如:“剧情很好,但配乐不行”,中“剧情”和“音乐”属于方面词,“很好”,“不行”属于情感倾向词。数据集的一条数据/>最终由/>组成。
S14、按照8:1:1的配比将完成筛选、标注好的电影评论随机地分配到训练集S、验证集V、测试集T中。
在一具体实施例中,如图3所示,上述步骤S2包括如下子步骤:
S21 对于数据集,分别从第/>和第/>条数据中随机选取两条数据/>。将/>中的某一方面词替换为/>中的某一方面词,重新调整/>,生成新数据/>。
S22将构造的新数据加入数据集中。重复上述操作/>次,最终将数据集规模扩充到。
在一具体实施例中,在步骤S3中,该BLOOM模型由输入层、隐藏层和输出层组成。其中,输入层主要包含嵌入层,隐藏层包含70个基于注意力机制的Transformer块,输出层由线性层以及Softmax层组成。注意力机制、细粒度情感分析模型分别如图4、图5所示。
在输入层中,对于数据集中的数据,方面词提取模型采取/>作为输入序列,/>的长度为/>。细粒度情感分析模型的输入序列为/>的拼接。模型接受的输入长度为/>,对于/>, 实际的输入序列会根据/>进行截取或操作。对于/>, 实际的输入序列会根据/>进行补充操作。具体地、对于文本序列/>方面词序列拼接后的输入序列/>为:/>
其中标签用于割输入序列与方面词序列。完成操作后,根据附上结束标志(<EOS>)。并按照模型的并将输入序列的每一个输入转换为嵌入向量/>,/>表示为。由于情感分析模型的输入序列没有位置信息,故引入位置编码/>,为每个序列补上位置信息/>,最终的输入/>为/>,此外设置标签序列/>。
隐藏层由70个Transformer块组成,在隐藏层中的每个Transformer块由注意力计算层、前馈神经网络和组成。注意力层可以帮助模型捕捉输入序列中的长距离依赖关系,前馈神经网络可以将注意力层的输出映射到另一个空间。通过堆叠多个Transformer块,BLOOM可以学习到更复杂的语言结构,并生成更准确、更连贯的文本。
注意力机制能够让模型能够关注输入序列中的不同位置,并根据上下文信息给每个位置分配不同的权重。这样,模型可以更好地捕捉序列中的长距离依赖关系,也就是说,对于句子中相隔较远的单词,模型也能有效地理解它们之间的关系。其中传统的注意力层的主要计算过程为:
其中,表示的是注意力层输出的注意力矩阵,/>分别表示查询矩阵、键矩阵和值矩阵,/>表示key矩阵的维度。/>的计算方式如下:
其中,均为可计算的权重矩阵。
在Sparse-Attention计算中,在获得矩阵后,设置门槛值/>,通过稀疏化算法将矩阵中所有注意力值小于/>的注意力值置为0,并按比例对剩余的值进行放大,或者经稀疏化后的注意力矩阵/>,具体的计算方式如下:
其中,为稀疏化门槛值,/>的取值范围为/>,t为输入到/>算法中的待稀疏化模型参数。
上述即为本实施例提出具有稀疏性的Sparse-Attention算法。这种方式可以减少注意力矩阵中的非零元素的个数,将不可靠的低概率注意舍弃,避免发生过拟合,从而降低计算和存储的开销。同时,将剩余的注意力值扩大,可以增强模型对重要位置的关注度,从而提高模型的性能。稀疏的概率质量不但能够提升模型的性能,而且有助于提高模型的可解释性,提升模型对情感倾向的准确判断能力。
前馈神经网络的主要计算过程为:
其中,分别表示两个线性变换和两个偏置项。前馈神经网络子层可以将注意力层的输出映射到另一个空间。
在完成多层计算后,得到隐藏层的最终输出。将/>作为输入并输入到输出层。输出层由全连接层以及Softmax层组成。全连接层可以将Transformer的输出映射到另一个空间,帮助模型更好地适应新的任务。Softmax层会对每个类别计算一个分数,并将这些分数转换为概率值。然后,它会选择具有最高概率值的类别作为模型的预测结果。全链接层的计算公式为:
其中为全连接层的输出。/>为可训练权重,/>是一个偏置项。
Softmax层的计算过程为:
其中为全连接层的输出,其和为1。
方面词提取模型训练时,通过最小化损失函数不断优化模型:
其中,是第/>个样本的标签值(0表示消极情感倾向,1表示积极情感倾向),是第/>个样本的预测值。
在使用Sparse Attention计算注意力的同时,本发明还使用基于动态秩的LoRA算法对注意力矩阵进行分解。LoRA是一种用于大型语言模型的低秩适配器,它可以将预训练模型的注意力权重矩阵的权重冻结,并将可训练的秩分解矩阵注入到Transformer架构的每一层,从而大大减少下游任务的可训练参数的数量。其具体的分解过程如下:
其中,是预训练语言模型的第/>层的原参数,不参与梯度更新,/>和/>是可训练的秩分解矩阵,/>为目标秩,它决定了适配器的参数数量和表达能力。/>越大,适配器的参数数量越多,表达能力越强,但也越占用内存和计算资源。/>越小,适配器的参数数量越少,表达能力越弱,但也越节省内存和计算资源;/>是一个缩放因子,它用来调整适配器对原始权重矩阵/>的影响程度。/>越大,适配器对/>的改变越大,也就是说微调后的模型与原始模型差异越大。/>越小,适配器对/>的改变越小,也就是说微调后的模型与原始模型差异越小。
为了令模型更好的从输入层以及输出层学习语义特征,设计了使用了动态秩算法,在模型的分解过程变为如下计算方式:
其中的计算方法为:
其中,为Transformer块的数量,/>是第/>块Transformer块。这个公式可以保证/>在输入层和输出层达到最大值,在中间层达到最小值,并且/>的值始终大于等于0.5。
动态秩算法不仅对权重矩阵进行了低秩分解,还根据不同的Transformer层动态地调整了低秩分解矩阵的秩,从而使模型能够更好地从输入层和输出层学习语义特征。动态秩算法使用了一个正弦函数来计算每一层的秩,使得秩在输入层和输出层达到最大值,在中间层达到最小值。这样做的原因是:
对于靠近输入层或输出层的Transformer层,使用较大的秩可以增加模型的表达能力,使得模型能够更好地捕捉输入序列或输出序列中不同位置之间的复杂关系。
对于靠近中间层的Transformer层,使用较小的秩可以减少模型的参数量和计算量,使得模型能够更快地训练和推理,并且避免过拟合或过度逼近问题。
在一具体实施例中, 上述步骤S4中对影评文本进行细粒度情感分析,包括:
经过训练得到细粒度情感分析模型。为了验证细粒度情感分析的准确性使用步骤S13所保留的10%电影评论作为测试样本。将评论文本和对应的方面词序列/>一同输入到细粒度情感分析模型中,得到细粒度情感分析结果序列/>。最后,通过人工评估的方式,对得到的细粒度情感分析结果序列/>进行合理性评价。
实施例二
参见图6,基于同一发明构思,本发明实施例还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如实施例一所述的基于稀疏化的动态低秩注意力矩阵的细粒度情感识别方法。
可以理解的是,存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选地,该存储器包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等;存储数据区可存储根据服务器的使用所创建的数据等。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行服务器的各种功能和处理数据。可选地,处理器可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit,CPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统和应用程序等;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块芯片进行实现。
由于该电子设备是本发明实施例的基于数据增强以及大型预训练模型的深度学习细粒度情感分析方法对应的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见上述方法实施例的实施过程,重复之处不再赘述。
实施例三
参照图7,基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如实施例一所述的基于稀疏化的动态低秩注意力矩阵的细粒度情感识别方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
由于该存储介质是本发明实施例基于稀疏化的动态低秩注意力矩阵的细粒度情感识别方法对应的存储介质,并且该存储介质解决问题的原理与该方法相似,因此该存储介质的实施可以参见上述方法实施例的实施过程,重复之处不再赘述。
在一些可能的实施方式中,本发明实施例的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的稀疏信号恢复方法的步骤。其中,用于执行各个实施例的可执行的计算机程序代码或“ 代码”可以用诸如C、C++、C#、Smalltalk、Java、JavaScript、Visual Basic、结构化查询语言(例如,Transact-SQL)、Perl之类的高级编程语言或者用各种其它编程语言编写。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (10)
1.一种细粒度情感识别方法,其特征在于,包括以下步骤:
获取影评文本数据并进行数据预处理,确认影评方面词并为其添加情感倾向标签,将标签添加的数据制作为数据集;
采用方面词替换算法来对所述数据集进行数据增强,以扩充所述数据集;
以BLOOM预训练语言模型作为基础网络,并采用扩充后的数据集来进行训练,得到训练好的细粒度情感分析模型;
使用训练好的细粒度情感分析模型, 对影评文本进行细粒度情感分析。
2.如权利要求1所述的细粒度情感识别方法,其特征在于,所述数据预处理包括数据清洗、方面词标注与方面词情感倾向标注。
3.如权利要求1所述的细粒度情感识别方法,其特征在于,所述采用方面词替换算法来对所述数据集进行数据增强,以扩充所述数据集,包括:
从数据集中随机选取两条数据,使用一个数据的方面词替换其中一个方面词,生成新数据并重复操作,实现数据集扩充。
4.如权利要求1所述的细粒度情感识别方法,其特征在于,
所述BLOOM预训练语言模型包括输入层、隐藏层和输出层;
所述输入层将输入序列转换为向量矩阵表示,所述输入序列为文本序列和方面词序列的拼接;
所述隐藏层由若干个基于注意力机制的Transformer块组成,注意力机制用于计算注意力矩阵,注意力矩阵计算过程中采用Sparse Attention算法和基于动态秩的LoRA的训练方法来对注意力矩阵进行稀疏化和低秩化处理;
所述输出层通过全连接层将Transformer的输出映射到另一个空间,并使用Softmax层将分数转换为概率值,获得方面词的情感倾向序列。
5.如权利要求4所述的细粒度情感识别方法,其特征在于,所述Sparse Attention算法的计算方式为:
;
其中,表示的是注意力层输出的注意力矩阵,/>分别表示查询矩阵、键矩阵和值矩阵,/>表示key矩阵的维度;
所述的计算方式如下:
;
其中,均为可计算的权重矩阵;
;
其中,为稀疏化门槛值,/>的取值范围为/>,t为输入到/>算法中的待稀疏化模型参数。
6.如权利要求5所述的细粒度情感识别方法,其特征在于,所述基于动态秩的LoRA的训练方法为:
;
其中,是预训练语言模型的第/>层的原参数,不参与梯度更新,/>和/>是可训练的秩分解矩阵,/>为目标秩;/>是一个缩放因子,用来调整适配器对原始权重矩阵/>的影响程度;/>为动态秩系数,其中/>的计算方法为:
;
其中,为Transformer块的数量,/>是第/>块Transformer块。
7.如权利要求6所述的细粒度情感识别方法,其特征在于,所述的计算方法为:
;
其中,为Transformer块的数量,/>是第/>块Transformer块。
8.如权利要求1所述的细粒度情感识别方法,其特征在于,所述对影评文本进行细粒度情感分析包括:
通过对保留的电影评论进行测试,将评论文本和方面词序列/>输入训练好的细粒度情感分析模型,得到情感分析结果序列/>;
对和/>的合理性进行评价。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至8任一所述的细粒度情感识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的细粒度情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311674985.1A CN117370736A (zh) | 2023-12-08 | 2023-12-08 | 一种细粒度情感识别方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311674985.1A CN117370736A (zh) | 2023-12-08 | 2023-12-08 | 一种细粒度情感识别方法、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117370736A true CN117370736A (zh) | 2024-01-09 |
Family
ID=89394868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311674985.1A Pending CN117370736A (zh) | 2023-12-08 | 2023-12-08 | 一种细粒度情感识别方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117370736A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574981A (zh) * | 2024-01-16 | 2024-02-20 | 城云科技(中国)有限公司 | 一种信息分析模型的训练方法及信息分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274398A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种方面级用户产品评论情感分析方法及系统 |
CN115545038A (zh) * | 2022-09-13 | 2022-12-30 | 江南大学 | 一种优化网格标签的方面情感分析方法 |
CN117152416A (zh) * | 2023-09-01 | 2023-12-01 | 淮阴工学院 | 一种基于detr改进模型的稀疏注意力目标检测方法 |
-
2023
- 2023-12-08 CN CN202311674985.1A patent/CN117370736A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274398A (zh) * | 2020-01-20 | 2020-06-12 | 福州大学 | 一种方面级用户产品评论情感分析方法及系统 |
CN115545038A (zh) * | 2022-09-13 | 2022-12-30 | 江南大学 | 一种优化网格标签的方面情感分析方法 |
CN117152416A (zh) * | 2023-09-01 | 2023-12-01 | 淮阴工学院 | 一种基于detr改进模型的稀疏注意力目标检测方法 |
Non-Patent Citations (2)
Title |
---|
BIGSCIENCE WORKSHOP: "BLOOM: A 176B-Parameter Open-Access Multilingual Language Model", ARXIV:2211.05100V4 [CS.CL], pages 1 - 73 * |
文森 等: "基于大语言模型的问答技术研究进展综述", 数据分析与知识发现.HTTPS://LINK.CNKI.NET/URLID/10.1478.G2.20231110.1612.002, pages 1 - 18 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117574981A (zh) * | 2024-01-16 | 2024-02-20 | 城云科技(中国)有限公司 | 一种信息分析模型的训练方法及信息分析方法 |
CN117574981B (zh) * | 2024-01-16 | 2024-04-26 | 城云科技(中国)有限公司 | 一种信息分析模型的训练方法及信息分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Learning latent opinions for aspect-level sentiment classification | |
CN106484674B (zh) | 一种基于深度学习的中文电子病历概念抽取方法 | |
CN111078836B (zh) | 基于外部知识增强的机器阅读理解方法、系统、装置 | |
Boopathi | Deep Learning Techniques Applied for Automatic Sentence Generation | |
CN109902301B (zh) | 基于深度神经网络的关系推理方法、装置及设备 | |
CN111401077A (zh) | 语言模型的处理方法、装置和计算机设备 | |
CN113591483A (zh) | 一种基于序列标注的文档级事件论元抽取方法 | |
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN114756681B (zh) | 一种基于多注意力融合的评教文本细粒度建议挖掘方法 | |
CN117370736A (zh) | 一种细粒度情感识别方法、电子设备及存储介质 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN115309910B (zh) | 语篇要素和要素关系联合抽取方法、知识图谱构建方法 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
CN114780723B (zh) | 基于向导网络文本分类的画像生成方法、系统和介质 | |
CN117132923A (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN115080688A (zh) | 一种少样本跨领域情感分析方法及装置 | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
CN114281948A (zh) | 一种纪要确定方法及其相关设备 | |
Ermatita et al. | Sentiment Analysis of COVID-19 using Multimodal Fusion Neural Networks. | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
CN116257616A (zh) | 面向音乐领域的实体关系抽取方法及系统 | |
CN115169472A (zh) | 针对多媒体数据的音乐匹配方法、装置和计算机设备 | |
CN115204143A (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN115357712A (zh) | 方面级情感分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |