CN114238577B - 融合多头注意力机制的多任务学习情感分类方法 - Google Patents
融合多头注意力机制的多任务学习情感分类方法 Download PDFInfo
- Publication number
- CN114238577B CN114238577B CN202111550577.6A CN202111550577A CN114238577B CN 114238577 B CN114238577 B CN 114238577B CN 202111550577 A CN202111550577 A CN 202111550577A CN 114238577 B CN114238577 B CN 114238577B
- Authority
- CN
- China
- Prior art keywords
- emotion
- task
- classification
- text
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 73
- 230000007246 mechanism Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000013145 classification model Methods 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 230000007787 long-term memory Effects 0.000 claims abstract 2
- 239000013598 vector Substances 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008485 antagonism Effects 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000002679 ablation Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种融合多头注意力机制的多任务学习情感分类方法,该方法使用适用于重要特征提取的多头注意力机制和改善分类泛化性的多任务学习来提高情感分类性能。使用多头注意力机制对分批次输入的句子序列进行特征提取,得到每条语句的预分类标签。使用由长短期记忆网络联合逐点卷积神经网络构成的编码器对分批次输入的句子序列进行编码,将预分类标签作为辅助标签帮助构建多任务情感分类器。设计新的损失函数项加入到原有的损失函数中,经过多轮训练,动态地优化模型参数,即得到最优的情感分类模型,利用该模型可对评论文本进行情感分类。该方法在准确率、F1值评测指标上均优于采用传统多任务学习方法,适用于不同的下游任务和预测场景。
Description
技术领域
本发明涉及自然语言处理领域,更具体的说,涉及一种融合多头注意力机制的多任务学习情感分类方法。
背景技术
互联网经济的发展和大数据时代的到来,为电子商务快速发展提供了强劲动力,大量电商平台涌入市场。电子商务、社交应用、数字内容相互融合,社交电商模式拓展了电子商务业务,为网民的线上购物提供了强有力的支持。相对于可以真实测评的线下购物,网络购物由于本身的虚拟化,信息良莠不齐,购物带有一定的风险性。网民往往无法真实地了解到商品的真实质量和规格等等,容易造成一定的财产损失和因为退换货造成的时间资金上的浪费等。商品线上评论对于消费者决定是否购买商品而言,是及其重要的一项信息来源,消费者可以通过在线评论了解商品的真实完整信息、建立对商品的整体感知。商品评论表达了已经购买过此商品或服务的消费者使用商品过程中所表现出来的各种情感。这些情感对于潜在的购买者来说,具有很大的参考价值。因此,从庞大的网络商品评论数据中抽取人们的情感信息来进行分类具有重要的商业价值和研究意义。
传统基于情感词典的方法,是通过设计一系列规则,让机器通过学习来记忆一些基本词汇,构建一个基本的情感词典。在缺乏大量训练数据集的情况下,基于词典与规则的方法相对能取得较好的分类结果且易于理解,但仍旧存在高度依赖情感词典的构建以及规则的设计、难以应对隐含的情感内容、跨领域情感分析的分类效果不佳的局限。而基于机器学习的方法,如最大熵、支持向量机(SVM)、朴素贝叶斯(Nb)、深度森林(DF)等,分类精确度往往依赖于大规模高质量的标注训练集,这些数据需要较高的人工成本,人为主观的数据标注结果也会影响分类效果。伴随着深度学习在自然语言处理领域的发展与应用,CNN和LSTM可以学习文本更深层次的信息,丰富文本的特征表示,提高情感分类的准确率,被许多研究者学习和关注。由于在模型中引入多任务学习框架具有提升任务性能的优点,引发了许多研究者的关注,多任务学习在自然语言处理(NLP)领域也取得了良好的进展。
在已有的用于情感分类的多任务学习模型中,往往需要提前将文本数据按照一定依据进行人为划分,如根据商品类型、属性、价格等。这种人工对评论文本进行领域分类的方式具有一定的局限性:一方面,工作量庞大,在实际工作中难以实现;另一方面,容易受人脑主观意识的影响,导致判断失误,且不一定被算法模型接受和认可,分类的结果也未必准确。
发明内容
针对上述问题,本发明提出一种融合多头注意力机制的多任务学习情感分类方法,可以用来解决处理多领域商品评论数据的人工划分工作量大、划分规则单一且不一定被算法接受的问题,从而提升情感分类的准确率。
本发明提供了一种融合多头注意力机制的多任务学习情感分类方法,包括以下步骤:
1)收集整理来自多个领域的商品评论数据,每条评论文本都有对应的情感极性标签:0或1,0代表消极情绪,1代表积极情绪;对文本数据进行预处理;
2)将预处理后的每种领域的商品评论,按照8:1:1的比例划分为训练集、验证集和测试集,正负样本分布均匀,随后进行文本初始化,从而得到词向量矩阵;
3)将词向量矩阵分批次输入多头注意力机制中进行特征提取,经过全连接层对特征提取后的结果进行线性变换操作,由SoftMax激活函数得到最终表示,从而构建文本分类器;取最终表示中的最大特征作为分类结果,得到每条语句的预分类标签;
4)使用由长短期记忆网络(LSTM)联合逐点卷积神经网络构成的编码器对分批次输入的词向量矩阵进行编码,将预分类标签作为辅助标签进行输入词向量矩阵类别的重分类,构建多任务情感分类器;所述的文本分类器和多任务情感分类器共同构成融合多头注意力机制的多任务学习情感分类模型;
5)设计了新的损失函数项加入到了原有的融合多头注意力机制的多任务学习情感分类模型的损失函数中,经过多轮训练,动态地优化模型参数,即得到最优的融合多头注意力机制的多任务学习情感分类模型,采用该模型可对评论文本进行情感分类。
上述技术方案中,进一步地,所述的预处理,是指对文本进行数据清洗、去除停用词、分词等操作。一般来说,文本数据中含有大量与主要信息无关的数据,这些冗余内容会对情感分类的准确性产生消极影响,因此在预处理阶段,需要通过这些操作还消除文本中包含的噪声。
进一步地,所述的文本初始化是指,将训练、验证、测试集中的文本转换为词向量。具体通过Word2Vec模型对输入的文本数据进行特征映射,从而得到相应的词向量矩阵Rn*V,其中,n表示词向量维度,V表示全部向量化的词语数目;所述输入的文本数据表示为Sentence={X1,X2,...Xi...,Xm},其中,m表示句子中包含的词语的个数;Xi={h1,h2,...,hn},i=1,2,...,m,作为输入的文本数据中所包含的词语表示。
进一步地,所述的多任务情感分类器基于对抗多任务学习框架,包括多个私有编码器、共享编码器和任务判别器,其中,私有编码器用于存储任务相关的特性;共享编码器用于捕获任务共同的特性,从而方便任务间进行信息共享;任务判别器用于剔除共享特征中的私有特征。
进一步地,所述的新的损失函数项用于监督文本分类器的预分类效果,并和其他损失函数一起共同控制整个模型的训练和优化走向。所述的新的损失函数项具体为:其中,T表示文本分类器设置的标签种类数目,n表示文本分类器得到的预分类标签,/>表示预分类标签n和真实情绪标签的交叉熵损失函数。
本发明的发明原理为:
本发明首先使用Word2Vec模型对输入的文本数据进行特征映射,得到相应的词向量矩阵。在情感分类任务中,文本向量化是一项重要的工作,因为计算机无法直接对各种类型的语言进行计算,所以需要将文本转换为计算机可以处理的数字数据。Word2Vec模型是一种很好的分布式的词语表示方式,将各个词语映射到低维且维度固定的向量空间,通过词向量之间的相似度来衡量词之间的关系,使词语之间产生相互关联,而且降低了计算的开销。
然后,多头注意力机制对分批次输入、用词向量矩阵表示的句子序列进行特征提取,以此来将多领域商品评论数据进行重新的归类,并且得到相应的预分类标签。相对于只关注某一方面的信息的单头注意力机制,多头注意力机制可以形成多个子空间,让模型去关注不同方面的信息。这样既可以防止过拟合的风险,又可以全面捕捉语义信息,获得最重要的特征表示。将词向量矩阵输入基于LSTM和逐点卷积神经网络的相应私有编码器和共享编码器中,评论语句根据上一层得到的预分类任务标签来决定使用对应的私有编码器,得到的私有特征表示和共享特征表示进行向量拼接,构成相应的分类器,对句子序列进行最终情感极性分类。
本发明与现有技术相比,具有以下优点:
本发明针对目前多领域商品评论数据的人工划分工作量大、划分规则单一且不一定被算法接受的问题,提出一种嵌入文本分类器进行特征提取预分类的多任务情感分类模型,有效减少了人工处理数据的工作量。使用多头注意力机制作为文本分类器,按照特征词所占权重的大小,在训练过程中动态的对评论文本数据进行划分,可以探寻出最优的预分类标签的划分方式。通过实验分析和测试验证了所提出的方法有效的应用在六个不同领域上的商品评论数据集上,相对于单任务模型和原始的多任务学习模型,情感分类的准确率得到有效提升。
附图说明
图1为融合多头注意力机制的多任务学习情感分类方法的整体架构图;
图2为基于LSTM和逐点卷积神经网络的编码器结构;
图3为引入对抗器的多任务学习模型。
具体实施方式
以下结合附图对本发明的优选实施例进行详细描述,但本发明并不仅仅限于这些实施例。本发明涵盖任何在本发明的精神和范围上做的替代、修改、等效方法以及方案。
为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。
在下列段落中参照附图以举例方式更具体地描述本发明。需说明的是,附图均采用较为简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
多任务学习(Multi-task Learning,MTL),是指多个任务共同学习、联合训练的学习过程,旨在通过各任务间的信息共享提升单个任务的性能和泛化能力。本发明使用共享私有多任务方案来进行模型构建,在共享编码器之后添加了一个任务判别器节点,将私有特征尽可能从共享特征中剔除,从而减少特定任务的特征和一些其他任务带来的噪音污染,提升共享编码器的编码质量。本发明使用基于LSTM和逐点卷积神经网络构成的编码器来构建分类模型,设计了辅助分类的损失函数项加入到了原有多任务学习模型的损失函数中,在模型整体的计算训练中动态地优化特征提取和多任务情感分类组件参数,从而提升情感分类效果。
图1展示了本发明提出的一种融合多头注意力机制的多任务学习情感分类方法,其中包括以下步骤:
1)收集整理来自多个领域的商品评论数据,每条评论文本都有对应的情感极性标签:0或1,0代表消极情绪,1代表积极情绪;对文本数据进行预处理;
2)每种领域的商品评论数据约为2000余条,总计12000余条,将预处理后的每种领域的商品评论按照8:1:1的比例划分为训练集、验证集和测试集,正负样本分布均匀,随后进行文本初始化,从而得到词向量矩阵;
3)将词向量矩阵分批次输入多头注意力机制中进行特征提取,经过全连接层对特征提取后的结果进行线性变换操作,由SoftMax激活函数得到最终表示,从而构建文本分类器;取最终表示中的最大特征作为分类结果,得到每条语句的预分类标签;
4)使用由长短期记忆网络(LSTM)联合逐点卷积神经网络构成的编码器对分批次输入的词向量矩阵进行编码,将预分类标签作为辅助标签进行输入词向量矩阵类别的重分类,构建多任务情感分类器;所述的文本分类器和多任务情感分类器共同构成融合多头注意力机制的多任务学习情感分类模型;
5)设计新的损失函数项加入原有的融合多头注意力机制的多任务学习情感分类模型的损失函数中,经过多轮训练,动态地优化模型参数,即得到最优的融合多头注意力机制的多任务学习情感分类模型,从而可对评论文本进行情感分类。
步骤1)中所述的预处理,是指对文本进行数据清洗、去除停用词、分词等操作。一般来说,文本数据中含有大量与主要信息无关的数据,这些冗余内容会对情感分类的准确性产生消极影响,因此在预处理阶段,需要通过这些操作还消除文本中包含的噪声。
步骤2)中所述的文本初始化是指:将训练、验证、测试集中的文本转换为词向量,具体是采用Word2Vec模型对输入的文本数据进行特征映射,从而得到相应的词向量矩阵Rn *V,其中,n表示词向量维度,V表示全部向量化的词语数目;所述输入的文本数据表示为Sentence={X1,X2,...Xi...,Xm},其中,m表示句子中包含的词语的个数;Xi={h1,h2,...,hn},i=1,2,...,m,作为输入的文本数据中所包含的词语表示。
步骤4)中,所述的多任务情感分类器基于对抗多任务学习框架,包括多个私有编码器、共享编码器和任务判别器,其中,私有编码器用于存储任务相关的特性;共享编码器用于捕获任务共同的特性,从而方便任务间进行信息共享;任务判别器用于剔除共享特征中的私有特征。
步骤5)中所述的新的损失函数是用来监督文本分类器的预分类效果,并和其他损失函数一起共同控制整个模型的训练和优化走向。所述的新的损失函数项具体为:和其他损失函数一起共同控制整个模型的训练和优化走向,其中,T表示文本分类器设置的标签种类数目,n表示文本分类器得到的预分类标签,/>表示预分类标签n和真实情绪标签的交叉熵损失函数。
本发明选用word2vec预训练的词向量来初始化文本向量,词向量维度设置为256,LSTM的隐藏层状态维度设置为512。使用多头注意力模型进行特征提取,注意力机制头数设置4。考虑到英文评论语句过长造成内存不足的结果,本发明截取了不同的句子长度作为最大长度,超出部分丢弃,经过后期的测试验证中得到相对较佳的句子最大长度。训练过程采用SGD优化器来更新参数,使用随机梯度下降法,支持学习率衰减。
在本发明中,使用准确率(Accuracy)和F1-score指标作为评估标准来评判算法模型的优劣。其中,准确率由正确预测的文本数和总文本数的比值得来。F1-score是分类问题的一个衡量指标,它是精准率(Precision)和召回率(Recall)的调和平均数。精确率指被分类器判定积极中的正样本的比重,召回率表示被正确预测为积极的占总的正样本的比重。具体计算公式如下所示。
式中,TP表示预测结果为积极,真实值为积极;TN表示,预测结果为消极,真实值为消极;FP表示预测结果为积极,真实值为消极;FN表示预测结果为消极,真实值为积极。
本发明使用交叉熵等损失函数计算损失值,每次迭代都会减少损失值,直到损失值减少到最低水平。采用本发明方法对6个领域的商品评论数据集进进行分类的最终结果如表1~3所示:
表1对比了本发明中提出的模型和基于各种基础神经网络的单任务学习模型,例如,将长短时记忆网络(LSTM)、门控循环单元(GRU)、卷积神经网络(CNN)等基线模型作为编码器的方法。表2比较了本发明中提出的模型和无文本分类器的传统多任务学习情感分类模型,在多任务学习模型中同样选择了使用三种基本网络架构(MTL-CNN、MTL-LSTM和MTL-GRU)作为编码器的方法。
从表中可以很明显地发现,本发明在以上六种商品数据集上的评价指标相较于上述其他方法均得到提升,平均准确率和F1分值分别是0.8754和0.8752。相对于单任务学习中的LSTM,GRU,CNN在平均准确率上分别提高了3.08%,5.16%,8.33%,在平均F1值上分别提高了3.07%,5.15%,8.41%。相对于多任务模型MTL-LSTM,MTL-GRU,MTL-CNN,在平均准确率上分别提高了2.21%、9.00%和4.99%,在平均分值上分别提升2.21%、9.01%和5.10%。结果表明,使用多任务学习比单任务具有更高的精度。另外,相对于直接按照商品类型划分,无文本分类器的多任务学习情感分类模型,使用文本分类器对数据集进行预分类子任务可以取得更优的分类效果,这些均证明了本发明提出的方法是有效可行的。
表3验证了本发明中提出的多头注意力机制进行先前特征提取、LSTM作为情感分类器的有效性。分别对多任务编码器模型和文本分类器中特征提取预分类模型进行更换,在结合CNN特征提取和LSTM编码器的多任务情感分类(CNN-LSTM-MTL)模型,结合多尺度CNN特征提取和LSTM编码器的多任务情感分类(MSCNN-LSTM-MTL)模型以及结合多头注意力机制和GRU编码器的多任务情感分类(MHA-GRU-MTL)模型上做了对比实验。另外,为了验证模型中逐点卷积神经网络对实验结果的影响,本发明做了消融实验,在基于LSTM的编码器中去掉了逐点卷积神经网络,以此作为对比。
表1 数据集在本文模型和单任务模型上的表现
表2 数据集在本文模型和多任务模型上的表现
表3 模型自身实验对比结果
如表3所示,使用融合多头注意力机制进行特征提取结合LSTM编码器进行多任务分类相对于其他模型具有最优性。在文本分类器选择方面,虽然CNN可以通过卷积核扫描文本的局部以此来捕获文本的特征,但具有一定的局限性,它无法获得词语之间完整的交互信息,往往会忽略词语之间的语义联系。尽管使用多尺度卷积进行多方面特征提取,效果也并没有明显的提升。注意力机制可以获取词语之间的内在联系,将最重要的信息用更高的权重突出出来,抓住文本间关键特征,使得划分子任务的性能更佳,对后续情感分类起到更好的帮助作用。在逐点卷积神经网络方面,通过表3可以看出,在编码器中添加逐点卷积层比没有逐点卷积神经网络的平均准确率和F1分值分别提升了1.08%,1.09%,可以看出逐点卷积神经网络对情感分类起到一定的帮助作用。
虽然以上将实施例分开说明和阐述,但涉及部分共通之技术,在本领域普通技术人员看来,可以在实施例之间进行替换和整合,涉及其中一个实施例未明确记载的内容,则可参考有记载的另一个实施例。
以上所述的实施方式,并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等,均应包含在该技术方案的保护范围之内。
Claims (2)
1.一种融合多头注意力机制的多任务学习情感分类方法,其特征在于:包括以下步骤:
1)收集整理来自多个领域的商品评论数据,每条评论文本都有对应的情感极性标签:0或1,0代表消极情绪,1代表积极情绪;对文本数据进行预处理;
2)将预处理后的每种领域的商品评论按照8:1:1的比例划分为训练集、验证集和测试集,正负样本分布均匀,随后进行文本初始化,从而得到词向量矩阵;
3)将词向量矩阵分批次输入多头注意力机制中进行特征提取,经过全连接层对特征提取后的结果进行线性变换操作,由SoftMax激活函数得到最终表示,从而构建文本分类器;取最终表示中的最大特征作为分类结果,得到每条语句的预分类标签;
4)使用由长短期记忆网络联合逐点卷积神经网络构成的编码器对分批次输入的词向量矩阵进行编码,将预分类标签作为辅助标签进行输入词向量矩阵类别的重分类,构建多任务情感分类器;所述的文本分类器和多任务情感分类器共同构成融合多头注意力机制的多任务学习情感分类模型;
5)设计新的损失函数项加入原有的融合多头注意力机制的多任务学习情感分类模型的损失函数中,经过多轮训练,动态地优化模型参数,即得到最优的融合多头注意力机制的多任务学习情感分类模型,利用该模型可对评论文本进行情感分类;
步骤2)中所述的文本初始化是指:将训练、验证、测试集中的文本转换为词向量,具体是采用Word2Vec模型对输入的文本数据进行特征映射,从而得到相应的词向量矩阵Rn*V,其中,n表示词向量维度,V表示全部向量化的词语数目;所述输入的文本数据表示为Sentence={X1,X2,…Xi…,Xm},其中,m表示句子中包含的词语的个数;Xi={h1,h2,…,hn},i=1,2,…,m,作为输入的文本数据中所包含的词语表示;
步骤4)中,所述的多任务情感分类器基于对抗多任务学习框架,包括多个私有编码器、共享编码器和任务判别器,其中,私有编码器用于存储任务相关的特性,共享编码器用于捕获任务共同的特性,任务判别器用于剔除共享特征中的私有特征;
步骤5)中所述的新的损失函数项用于监督文本分类器的预分类效果:其中,T表示文本分类器设置的标签种类数目,n表示文本分类器得到的预分类标签,/>表示预分类标签n和真实情绪标签的交叉熵损失函数。
2.根据权利要求1所述的融合多头注意力机制的多任务学习情感分类方法,其特征在于:步骤1)中所述的预处理,是指对文本进行数据清洗、去除停用词、分词操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111550577.6A CN114238577B (zh) | 2021-12-17 | 2021-12-17 | 融合多头注意力机制的多任务学习情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111550577.6A CN114238577B (zh) | 2021-12-17 | 2021-12-17 | 融合多头注意力机制的多任务学习情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114238577A CN114238577A (zh) | 2022-03-25 |
CN114238577B true CN114238577B (zh) | 2024-04-26 |
Family
ID=80757705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111550577.6A Active CN114238577B (zh) | 2021-12-17 | 2021-12-17 | 融合多头注意力机制的多任务学习情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238577B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114493058B (zh) * | 2022-04-18 | 2022-07-26 | 杭州远传新业科技股份有限公司 | 多通道信息特征融合的学业预警方法、系统、装置和介质 |
CN114998647B (zh) * | 2022-05-16 | 2024-05-07 | 大连民族大学 | 基于注意力多实例学习的乳腺癌全尺寸病理图像分类方法 |
CN115934951A (zh) * | 2023-02-16 | 2023-04-07 | 湖南大学 | 一种网络热点话题用户情绪预测方法 |
CN116450840A (zh) * | 2023-03-22 | 2023-07-18 | 武汉理工大学 | 基于深度学习的领域情感词典构建方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297902A (zh) * | 2019-05-22 | 2019-10-01 | 哈尔滨理工大学 | 一种基于多任务深度学习的商品评价分析方法 |
CN110569508A (zh) * | 2019-09-10 | 2019-12-13 | 重庆邮电大学 | 融合词性和自注意力机制的情感倾向性分类方法及系统 |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
-
2021
- 2021-12-17 CN CN202111550577.6A patent/CN114238577B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297902A (zh) * | 2019-05-22 | 2019-10-01 | 哈尔滨理工大学 | 一种基于多任务深度学习的商品评价分析方法 |
CN110569508A (zh) * | 2019-09-10 | 2019-12-13 | 重庆邮电大学 | 融合词性和自注意力机制的情感倾向性分类方法及系统 |
US11194972B1 (en) * | 2021-02-19 | 2021-12-07 | Institute Of Automation, Chinese Academy Of Sciences | Semantic sentiment analysis method fusing in-depth features and time sequence models |
CN113420807A (zh) * | 2021-06-22 | 2021-09-21 | 哈尔滨理工大学 | 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法 |
Non-Patent Citations (1)
Title |
---|
基于LSTM前融合中文情感倾向分类模型的研究;王铃;陶宏才;;成都信息工程大学学报;20200415(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114238577A (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609897B (zh) | 一种融合全局和局部特征的多类别中文文本分类方法 | |
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN114238577B (zh) | 融合多头注意力机制的多任务学习情感分类方法 | |
Wen et al. | Dynamic interactive multiview memory network for emotion recognition in conversation | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
Wahid et al. | Cricket sentiment analysis from Bangla text using recurrent neural network with long short term memory model | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
CN112862569B (zh) | 基于图像和文本多模态数据的产品外观风格评价方法和系统 | |
CN109598387A (zh) | 基于双向跨模态注意力网络模型的股价预测方法及系统 | |
CN111985243A (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN113780418B (zh) | 一种数据的筛选方法、系统、设备和存储介质 | |
Shirzad et al. | Deep Learning approach for text, image, and GIF multimodal sentiment analysis | |
CN112989803A (zh) | 一种基于主题向量学习的实体链接模型 | |
CN117291190A (zh) | 一种基于情感词典和lda主题模型的用户需求计算方法 | |
Preetham et al. | Comparative Analysis of Research Papers Categorization using LDA and NMF Approaches | |
CN117235253A (zh) | 一种基于自然语言处理技术的卡车用户隐性需求挖掘方法 | |
CN115906824A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN113806545B (zh) | 基于标签描述生成的评论文本情感分类方法 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
Noorbehbahani et al. | Customer Loyalty Prediction of E-marketplaces Via Review Analysis | |
Al Mahmud et al. | A New Approach to Analysis of Public Sentiment on Padma Bridge in Bangla Text | |
CN114239569A (zh) | 评估文本的分析方法及其装置、计算机可读存储介质 | |
Cherrat et al. | Sentiment Analysis from Texts Written in Standard Arabic and Moroccan Dialect based on Deep Learning Approaches. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |