CN111563373B - 聚焦属性相关文本的属性级情感分类方法 - Google Patents
聚焦属性相关文本的属性级情感分类方法 Download PDFInfo
- Publication number
- CN111563373B CN111563373B CN202010284202.9A CN202010284202A CN111563373B CN 111563373 B CN111563373 B CN 111563373B CN 202010284202 A CN202010284202 A CN 202010284202A CN 111563373 B CN111563373 B CN 111563373B
- Authority
- CN
- China
- Prior art keywords
- attribute
- sequence
- text
- context
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008451 emotion Effects 0.000 title claims abstract description 52
- 238000012512 characterization method Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 15
- 230000000873 masking effect Effects 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 23
- 230000003993 interaction Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 16
- 238000002474 experimental method Methods 0.000 description 8
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种聚焦属性相关文本的属性级情感分类方法,包括:步骤1,对数据进行预处理使得数据中的每个样本包含属性Xa和上下文Xc,通过Bert预训练模型来获得属性和上下文的文本表征序列和其中,M和N分别代表输入样本中属性的个数和上下文的长度。本发明所提供的聚焦属性相关文本的属性级情感分类方法,使用了本发明设计的掩盖方法来缓解注意力分散问题。本发明充分利用了属性相关上下文信息,缓解了传统Attention‑LSTM网络在处理多属性多情感的文本时,由于注意力会分散到整个句子中,引入了噪声而导致模型的分类性能下降的问题。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种聚焦属性相关文本的属性级情感分类方法。
背景技术
随着移动互联网时代的到来,数以亿计的网民越来越倾向于在微博、知乎等互联网社交平台和淘宝、京东等购物网站上公开发表自己的观点和评论。研究如何从这些观点和评论中抽取出有价值的信息对于整个社会来说是十分重要的。为了解决这个问题,情感分析方法被认为是一种有效的解决方案,并且已经成功应用到了舆情监督、民意调查、口碑分析和市场情绪分析等领域。情感分析方法按粒度来划分一般可以分为文档及情感分析方法、句子级情感分析方法和属性级情感分析方法。但是,文档级情感分析方法和句子级情感分析方法仅针对文本的整体情感倾向进行分析,无法得到文本中特定实体(属性词)的情感倾向。
为了克服传统情感分析无法得到文本中属性词情感倾向的问题,研究人员尝试使用属性级情感分析方法来解决这个问题。目前,有许多网络结构被应用于属性级情感分析,其中效果较好、使用较广泛的是Attention-LSTM网络。具体的,LSTM结构能够学习到蕴含在文本中的语义信息,Attention结构则能学习到文本中每个词对于属性词的影响权重的大小。此外,该网络结构还可以通过学习属性词和上下文之间的交互信息来提升属性情感倾向分类的准确率。
多属性多情感的属性级情感分析方法可以看成是属性级情感分析方法的一部分。目前,基于Attrntion-LSTM结构的属性级情感分析方法在处理含有多个属性多个情感的复杂文本时,由于产生注意力分散问题,因此会在模型中引入噪声导致模型分类性能下降。
发明内容
本发明提供了一种聚焦属性相关文本的属性级情感分类方法,其目的是为了解决传统Attention-LSTM网络在处理多属性多情感文本时,由于注意力分散导致模型中引入了噪声而产生的模型分类性能下降的问题。
为了达到上述目的,本发明的实施例提供了一种聚焦属性相关文本的属性级情感分类方法,包括:
步骤1,对数据进行预处理使得数据中的每个样本包含属性Xa和上下文Xc,通过Bert预训练模型来获得属性和上下文的文本表征序列和其中,M和N分别代表输入样本中属性的个数和上下文的长度;
步骤2,将上下文的文本表征序列Ec复制一份,将第一份上下文的文本表征序列Ec与属性的文本表征序列Ea进行拼接,得到全局上下文的文本表征序列Eac,再对全局上下文的文本表征序列Eac使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到全局上下文隐藏状态序列对第二份上下文的文本表征序列Ec直接使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到上下文隐藏状态序列
步骤3,使用掩盖方法对上下文隐藏状态序列进行操作,得到属性相关文本的隐藏序列Hf,将隐藏序列Hf与属性的文本表征序列Ea进行拼接,得到属性上下文序列Eaf,对属性上下文序列Eaf使用长短时记忆网络与多头自注意力机制进行特征提取,得到隐藏状态序列
步骤4,将得到的隐藏状态序列与进行拼接,得到序列向量对序列向量执行最大池化操作,再使用多头自注意力机制进行特征提取,得到隐藏状态序列
步骤5,将得到的隐藏状态序列输入到采取Sigmoid激活函数的全连接层中,得到模型预测结果
步骤6,定义模型的损失进行模型评估与优化。
其中,所述步骤1具体包括:
通过Bert预训练模型得到的文本表征序列,动态的表征文本中每个词的词向量,获取文本表征向量的公式如下所示:
Ea=Berta(Xa) (1)
Ec=Bertc(Xc) (2)
其中,Ea和Ec分别是属性和上下文的文本表征序列,Berta和Bertc分别是属性和上下本的相应Bert预训练模型。
其中,所述步骤2具体包括:
Ea和Ec拼接过程可以用如下公式表示:
其中,Eac是全局上下文的文本表征序列;
Bi-LSTM的特征抽取过程可以使用如下公式表示:
其中,为上下文隐藏状态序列,为全局上下文隐藏状态序列。
其中,所述步骤2还包括:
Bi-LSTM的特征抽取过程可以由以下公式详细表示,以处理Ec为例:
其中,表示的是向前的LSTM输出的隐藏状态表示,表示的是向后的LSTM输出的隐藏状态表示,将和进行拼接得到了该文本序列的隐藏状态表示
其中,所述步骤2还包括:
MH Self-Attention的特征抽取过程可以用如下公式表示:
其中,为上下文隐藏状态序列,为全局上下文隐藏状态序列,MHSA代表特征抽取器多头自注意力机制;
MHSA可以由以下公式详细表示,以处理为例:
其中,Q、K、V这三个参数是通过将上一层隐藏状态的输出表示乘以它们各自的权重矩阵得到的,这些权重矩阵需要在训练过程中进行学习,维度dh,dk,dv等于dh÷h,dh是隐藏层的维度,h表示注意力头的个数,每个注意力头学习到的注意力表示需要乘以向量进行连接和变换,式中的“;”表示向量级联。
其中,所述步骤3具体包括:
属性相关文本的特征抽取过程可以用如下公式表示:
其中,Hf代表属性相关文本的隐藏状态序列,FRAC代表属性相关文本提取器。
其中,所述步骤3还包括:
FRAC用以下公式详细表示:
Wv={v0,v1,...,vn} (17)
Hf=Wv·Eaf (18)
其中,vi为掩码向量,α代表文本中每个词距离当前属性词的距离,k是一个自定义超参数,k决定属性词周围的哪些词不被屏蔽,Wv代表掩盖矩阵。
其中,所述步骤4具体包括:
获取属性上下文与全局上下文的交互信息,特征交互过程可以用如下公式表示:
其中,和分别代表最大池化操作和多头自注意力机制提取出的隐藏状态序列,MaxPooling代表最大池化操作,用于提取交互序列中的重要特征。
其中,所述步骤5具体包括:
模型的输出可以由下面的公式表示:
其中,Ws和bs分别表示输出层的权重和偏置,o表示输出层的输出,代表模型的预测结果,Sigmoid为激活函数。
其中,所述步骤6具体包括:
损失函数定义如下:
其中,C代表类别数,代表样本预测标签,yi代表样本真实标签,λ是L2正则化参数,Θ是模型的参数集,由式(27)计算模型的损失,根据损失对模型进行评估和优化,将优化好的模型作为最终使用的模型。
本发明的上述方案有如下的有益效果:
本发明的上述实施例所述的聚焦属性相关文本的属性级情感分类方法,使用了Bert预训练方法作为文本表征的方法,使得模型可以动态的获取文本中每个单词的词向量,有效解决了一词多义问题,增强了模型的表征能力,提升了模型的性能,引入了双向长短时记忆网络和多头自注意力机制来作为特征抽取器,有效提高了模型的性能,有效解决了因注意力分散所导致的模型由于引入了噪声而产生的分类性能下降问题,使得模型的分类准确率得到了一定的提高。
附图说明
图1为本发明的模型结构示意图;
图2为本发明使用的MAMS-ATSA和M-Restaurant数据集的数据分布情况图;
图3为本发明在MAMS-ATSA数据集和M-Restaurant数据集中的实验结果图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的传统Attention-LSTM网络在处理多属性多情感文本时,由于注意力分散导致模型中引入了噪声而产生的模型分类性能下降的问题,提供了一种聚焦属性相关文本的属性级情感分类方法。
如图1至图3所示,本发明的实施例提供了一种聚焦属性相关文本的属性级情感分类方法,包括:步骤1,对数据进行预处理使得数据中的每个样本包含属性Xa和上下文Xc,通过Bert预训练模型来获得属性和上下文的文本表征序列和其中,M和N分别代表输入样本中属性的个数和上下文的长度;步骤2,将上下文的文本表征序列Ec复制一份,将第一份上下文的文本表征序列Ec与属性的文本表征序列Ea进行拼接,得到全局上下文的文本表征序列Eac,再对全局上下文的文本表征序列Eac使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到全局上下文隐藏状态序列对第二份上下文的文本表征序列Ec直接使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到上下文隐藏状态序列步骤3,使用掩盖方法对上下文隐藏状态序列进行操作,得到属性相关文本的隐藏序列Hf,将隐藏序列Hf与属性的文本表征序列Ea进行拼接,得到属性上下文序列Eaf,对属性上下文序列Eaf使用长短时记忆网络与多头自注意力机制进行特征提取,得到隐藏状态序列步骤4,将得到的隐藏状态序列与进行拼接,得到序列向量对序列向量执行最大池化操作,再使用多头自注意力机制进行特征提取,得到隐藏状态序列步骤5,将得到的隐藏状态序列输入到采取Sigmoid激活函数的全连接层中,得到模型预测结果步骤6,定义模型的损失进行模型评估与优化。
本发明的上述实施例所述的聚焦属性相关文本的属性级情感分类方法,所述聚焦属性相关文本的属性级情感分类方法的模型结构如图1,该模型大致分为四阶段:第一个阶段为文本表征,其主要目的在于将文本表征为计算机可理解的序列,Bert预训练模型得到的文本表征序列,相对于其他方法有效解决了一词多义问题,能够动态的表征文本中每个词的词向量;第二个阶段是特征抽取,其主要目的在于提取序列中的重要特征,过滤掉不重要的信息;第三个阶段是聚焦属性相关文本,其目的在于缓解了传统Attention-LSTM网络由于注意力分散带来的问题;第四个阶段是特征交互,其主要目的在于获取属性上下文与全局上下文间的交互信息。首先,对于Foursquare数据集和SemEval 2014和SemEval 2016的Restaurant数据集仅保留了数据集中拥有多个属性多个情感的样本。由于经过上述操作后,每个数据集中的数据比较少,而Foursquare数据集是一个按照SemEval 2016的Restaurant数据集的标注标准进行标注的餐厅数据集。因此将SemEval 2014和SemEval2016的Restaurant数据集数据与Foursquare数据集进行了合并,得到新的数据集M-Restaurant,并重新切分了数据集。此外还使用了MAMS-ATSA数据集,该数据集中每个样本都至少包含拥有两个不同情感的属性,得到了M-Restaurant和MAMS-ATSA这两个多属性多情感的数据集。采取的对比方法分别是LSTM、TD-LSTM、ATAE-LSTM、IAN、AOA以及所述聚焦属性相关文本的属性级情感分类方法FARCN。
实验使用的方法是常用的10折交叉验证,在进行实验时,每次训练集随机选择90%的数据,最后的10%是验证数据集,在下面的实验中,依次进行3次的10折交叉实验且把3次结果的平均值作为实验的最终结果。
实验参数设置的具体设置:在实验中,对于未登录词的词向量在均匀分布U(-0.01,0.01)中进行随机采样来获取初始化值,学习率设置为10-e3,参数的正则化权重设置为10-e5,Dropout的值设置为0.5,隐藏层和嵌入层的维度设置为768,注意力头的个数h设置为8,此外,在实验中采取的优化器为Adam,其他模型的参数都按照该模型论文中的参数来进行设置。实验中采用的情感分析中常用的评价指标是准确率(Accuracy)和F1分数(F1-score),Accuracy和F1-score的计算公式如下:
其中,TP(真阳性):指预测为正,实际也为正的样本数,FP(假阳性):指预测为正,实际为负的样本数;FN(假阴性):指预测为负,实际为正的样本数;TN(真阴性):指预测为负,实际也为负的样本数。
针对不同数据集和不同维度来对分类的准确度进行实验,最终在MAMA-ATSA数据集和M-Restaurant数据集的进行实验,数据集的分布情况如图2所示。通过与一些基准方法进行对比得出的结果如图3所示。
由图3可知,LSTM算法的性能表现是最差的,这说明仅采用单个LSTM的算法构建的分类器存在一定的缺陷,因此在M-Restaurant和MAMA-ATSA等数据集上的分类准确率表现很差,TD-LSTM优于单个LSTM,这主要是由于TD-LSTM额外考虑了目标左右文本信息,这说明引入其他信息有助提升分类结果的准确率,ATAE-LSTM方法要优于TD-LSTM和LSTM方法,这主要因为ATAE-LSTM引入了注意力机制,因此ATAE-LSTM拟合能力要优于TD-LSTM和LSTM,同时ATAE-LSTM引入了属性信息,来学习属性词和上下文之间的隐含关系,因此ATAE-LSTM表现优于TD-LSTM和LSTM。
此外,从图3还可以看出IAN两种方法的分类准确率均优于LSTM、TD-LSTM和ATAE-LSTM,这主要是因为AOA和IAN模型同时针对属性目标和上下文进行建模,并且获取了属性目标和上下文的交互信息,这一结果说明通过属性和文本进行交互能够获取到更多的信息,最后所述聚焦属性相关文本的属性级情感分类方法,在处理多属性多情感的文本数据集上,所述聚焦属性相关文本的属性级情感分类方法优于其他对比方法,这是由于模型中引入了表征能力更强的Bert预训练词向量,特征抽取能力更强的多头自注意力机制(MHSelf-Attention)和双向长短期记忆网络(Bi-LSTM),最重要的是模型中加入了本发明所设计的聚焦于属性相关文本的掩盖机制,使得模型更加适用于多属性多情感文本数据场景,使得所述聚焦属性相关文本的属性级情感分类方法取了的很好的表现,实验结果表明,所述聚焦属性相关文本的属性级情感分类方法相比于传统方法在处理多属性多情感文本时的分类准确性更好。
其中,所述步骤1具体包括:通过Bert预训练模型得到的文本表征序列,动态的表征文本中每个词的词向量,获取文本表征向量的公式如下所示:
Ea=Berta(Xa) (1)
Ec=Bertc(Xc) (2)
其中,Ea和Ec分别是属性和上下文的文本表征序列,Berta和Bertc分别是属性和上下本的相应Bert预训练模型。
其中,所述步骤2具体包括:Ea和Ec拼接过程可以用如下公式表示:
其中,Eac是全局上下文的文本表征序列;
Bi-LSTM的特征抽取过程可以使用如下公式表示:
其中,为上下文隐藏状态序列,为全局上下文隐藏状态序列。
其中,所述步骤2还包括:
Bi-LSTM的特征抽取过程可以由以下公式详细表示,以处理Ec为例:
其中,表示的是向前的LSTM输出的隐藏状态表示,表示的是向后的LSTM输出的隐藏状态表示,将和进行拼接得到了该文本序列的隐藏状态表示
其中,所述步骤2还包括:MH Self-Attention的特征抽取过程可以用如下公式表示:
其中,为上下文隐藏状态序列,为全局上下文隐藏状态序列,MHSA代表特征抽取器多头自注意力机制;
MHSA可以由以下公式详细表示,以处理为例:
其中,Q、K、V这三个参数是通过将上一层隐藏状态的输出表示乘以它们各自的权重矩阵得到的,这些权重矩阵需要在训练过程中进行学习,维度dh,dk,dv等于dh÷h,dh是隐藏层的维度,h表示注意力头的个数,每个注意力头学习到的注意力表示需要乘以向量进行连接和变换,式中的“;”表示向量级联。
本发明的上述实施例所述的聚焦属性相关文本的属性级情感分类方法,特征抽取的目的在于提取关键特征并过滤掉不重要的文本信息。
其中,所述步骤3具体包括:属性相关文本的特征抽取过程可以用如下公式表示:
其中,Hf代表属性相关文本的隐藏状态序列,FRAC代表属性相关文本提取器。
其中,所述步骤3还包括:FRAC用以下公式详细表示:
Wv={v0,v1,...,vn} (17)
Hf=Wv·Eaf (18)
其中,vi为掩码向量,α代表文本中每个词距离当前属性词的距离,k是一个自定义超参数,k决定属性词周围的哪些词不被屏蔽,Wv代表掩盖矩阵。
本发明的上述实施例所述的聚焦属性相关文本的属性级情感分类方法,所述步骤3的目的在于缓解了传统Attention-LSTM网络由于注意力分散导致模型中引入了噪声而带来的模型分类性能下降问题。
其中,所述步骤4具体包括:获取属性上下文与全局上下文的交互信息,特征交互过程可以用如下公式表示:
其中,和分别代表最大池化操作和多头自注意力机制提取出的隐藏状态序列,MaxPooling代表最大池化操作,用于提取交互序列中的重要特征。
其中,所述步骤5具体包括:模型的输出可以由下面的公式表示:
其中,Ws和bs分别表示输出层的权重和偏置,o表示输出层的输出,代表模型的预测结果,Sigmoid为激活函数。
其中,所述步骤6具体包括:损失函数定义如下:
其中,c代表类别数,代表样本预测标签,yi代表样本真实标签,λ是L2正则化参数,Θ是模型的参数集,由式(27)计算模型的损失,根据损失对模型进行评估和优化,将优化好的模型作为最终使用的模型。
本发明的上述实施例所述的聚焦属性相关文本的属性级情感分类方法,使用聚焦属性相关文本来缓解传统Attention-LSTM网络处理多属性多情感文本时,由于注意力分散导致的模型引入噪声而带来的模型性能下降问题,同时属性向量与属性上下文向量以及上下文向量分别进行拼接,然后在再进行特征提取的操作,使得模型在进行特征提取的时候能够更加方便地提取出对判断属性词的情感倾向影响权重大的文本特征。
本发明的上述实施例所述的聚焦属性相关文本的属性级情感分类方法,针对传统的文本表征方法存在无法解决一词多义的问题,使用了Bert预训练方法作为文本表征的方法,使得模型可以动态的获取文本中每个单词的词向量,有效解决了一词多义问题,Bert预训练方法增强了模型的表征能力,提升了模型的性能,针对一般的Attention和LSTM结构特征抽取能力偏弱的问题,引入了双向长短时记忆网络和多头自注意力机制来作为特征抽取器,有效提高了模型的性能,针对传统Attention-LSTM网络处理多属性多情感文本时,易产生注意力分散的问题,所述的聚焦属性相关文本的属性级情感分类方法,有效解决了因注意力分散而导致的模型中由于引入噪声而带来的性能下降问题,使得模型的分类准确率得到了一定的提高。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种聚焦属性相关文本的属性级情感分类方法,其特征在于,包括:
步骤1,对数据进行预处理使得数据中的每个样本包含属性Xa和上下文Xc,通过Bert预训练模型来获得属性和上下文的文本表征序列和其中,M和N分别代表输入样本中属性的个数和上下文的长度;
步骤2,将上下文的文本表征序列Ec复制一份,将第一份上下文的文本表征序列Ec与属性的文本表征序列Ea进行拼接,得到全局上下文的文本表征序列Eac,再对全局上下文的文本表征序列Eac使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到全局上下文隐藏状态序列对第二份上下文的文本表征序列Ec直接使用双向长短时记忆网络和多头自注意力机制进行特征提取,得到上下文隐藏状态序列
步骤3,使用掩盖方法对上下文隐藏状态序列进行操作,得到属性相关文本的隐藏序列Hf,将隐藏序列Hf与属性的文本表征序列Ea进行拼接,得到属性上下文序列Eaf,对属性上下文序列Eaf使用长短时记忆网络与多头自注意力机制进行特征提取,得到隐藏状态序列
步骤4,将得到的隐藏状态序列与进行拼接,得到序列向量对序列向量执行最大池化操作,再使用多头自注意力机制进行特征提取,得到隐藏状态序列
步骤5,将得到的隐藏状态序列输入到采取Sigmoid激活函数的全连接层中,得到模型预测结果
步骤6,定义模型的损失进行模型评估与优化。
2.根据权利要求1所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤1具体包括:
通过Bert预训练模型得到的文本表征序列,动态的表征文本中每个词的词向量,获取文本表征向量的公式如下所示:
Ea=Berta(Xa) (1)
Ec=Bertc(Xc) (2)
其中,Ea和Ec分别是属性和上下文的文本表征序列,Berta和Bertc分别是属性和上下本的相应Bert预训练模型。
3.根据权利要求2所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2具体包括:
Ea和Ec拼接过程可以用如下公式表示:
其中,Eac是全局上下文的文本表征序列;
Bi-LSTM的特征抽取过程可以使用如下公式表示:
其中,为上下文隐藏状态序列,为全局上下文隐藏状态序列。
4.根据权利要求3所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2还包括:
利用Bi-LSTM对Ec进行特征提取的过程如下:
其中,表示的是向前的LSTM输出的隐藏状态表示,表示的是向后的LSTM输出的隐藏状态表示,将和进行拼接得到了该文本序列的隐藏状态表示
5.根据权利要求4所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤2还包括:
MH Self-Attention的特征抽取过程可以用如下公式表示:
其中,为上下文隐藏状态序列,为全局上下文隐藏状态序列,MHSA代表特征抽取器多头自注意力机制;
利用MHSA对进行特征提取的过程如下:
其中,Q、K、V这三个参数是通过将上一层隐藏状态的输出表示乘以它们各自的权重矩阵得到的,这些权重矩阵需要在训练过程中进行学习,维度dh,dk,dv等于dh÷h,dh是隐藏层的维度,h表示注意力头的个数,每个注意力头学习到的注意力表示需要乘以向量进行连接和变换,式中的“;”表示向量级联。
6.根据权利要求5所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤3具体包括:
属性相关文本的特征抽取过程可以用如下公式表示:
其中,Hf代表属性相关文本的隐藏状态序列,FRAC代表属性相关文本提取器。
7.根据权利要求6所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤3还包括:
FRAC用以下公式详细表示:
Wv={v0,v1,...,vn} (17)
Hf=Wv·Eaf (18)
其中,vi为掩码向量,α代表文本中每个词距离当前属性词的距离,k是一个自定义超参数,k决定属性词周围的哪些词不被屏蔽,Wv代表掩盖矩阵。
8.根据权利要求7所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤4具体包括:
获取属性上下文与全局上下文的交互信息,特征交互过程可以用如下公式表示:
其中,和分别代表最大池化操作和多头自注意力机制提取出的隐藏状态序列,MaxPooling代表最大池化操作,用于提取交互序列中的重要特征。
9.根据权利要求8所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤5具体包括:
模型的输出可以由下面的公式表示:
其中,Ws和bs分别表示输出层的权重和偏置,o表示输出层的输出,代表模型的预测结果,Sigmoid为激活函数。
10.根据权利要求9所述的聚焦属性相关文本的属性级情感分类方法,其特征在于,所述步骤6具体包括:
损失函数定义如下:
其中,C代表类别数,代表样本预测标签,yi代表样本真实标签,λ是L2正则化参数,Θ是模型的参数集,由式(27)计算模型的损失,根据损失对模型进行评估和优化,将优化好的模型作为最终使用的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284202.9A CN111563373B (zh) | 2020-04-13 | 2020-04-13 | 聚焦属性相关文本的属性级情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010284202.9A CN111563373B (zh) | 2020-04-13 | 2020-04-13 | 聚焦属性相关文本的属性级情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563373A CN111563373A (zh) | 2020-08-21 |
CN111563373B true CN111563373B (zh) | 2023-08-18 |
Family
ID=72070417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010284202.9A Active CN111563373B (zh) | 2020-04-13 | 2020-04-13 | 聚焦属性相关文本的属性级情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563373B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113032563B (zh) * | 2021-03-22 | 2023-07-14 | 山西三友和智慧信息技术股份有限公司 | 一种基于人工遮掩关键词的正则化文本分类微调方法 |
CN113268962B (zh) * | 2021-06-08 | 2022-05-24 | 齐鲁工业大学 | 面向建筑行业信息化服务问答系统的文本生成方法和装置 |
CN113571097B (zh) * | 2021-09-28 | 2022-01-18 | 之江实验室 | 一种说话人自适应的多视角对话情感识别方法及系统 |
CN114117041B (zh) * | 2021-11-10 | 2024-05-24 | 北京理工大学 | 一种基于特定属性词上下文建模的属性级情感分析方法 |
CN117474004B (zh) * | 2023-10-17 | 2024-08-23 | 中投国信(北京)科技发展有限公司 | 一种用户信用恢复评估方法、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929030A (zh) * | 2019-11-07 | 2020-03-27 | 电子科技大学 | 一种文本摘要和情感分类联合训练方法 |
-
2020
- 2020-04-13 CN CN202010284202.9A patent/CN111563373B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929030A (zh) * | 2019-11-07 | 2020-03-27 | 电子科技大学 | 一种文本摘要和情感分类联合训练方法 |
Non-Patent Citations (1)
Title |
---|
刘思琴 ; 冯胥睿瑞 ; .基于BERT的文本情感分析.信息安全研究.2020,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111563373A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563373B (zh) | 聚焦属性相关文本的属性级情感分类方法 | |
Zhang et al. | Convolutional multi-head self-attention on memory for aspect sentiment classification | |
CN109101537B (zh) | 基于深度学习的多轮对话数据分类方法、装置和电子设备 | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
CN111414461B (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN111444340A (zh) | 文本分类和推荐方法、装置、设备及存储介质 | |
WO2021204014A1 (zh) | 一种模型训练的方法及相关装置 | |
CN112417306B (zh) | 基于知识图谱的推荐算法性能优化的方法 | |
CN111159485A (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
Kwon et al. | Ensemble transfer attack targeting text classification systems | |
CN112883153B (zh) | 基于信息增强bert的关系分类方法及装置 | |
CN112765357A (zh) | 文本分类方法、装置和电子设备 | |
Li et al. | MIA-Net: Multi-modal interactive attention network for multi-modal affective analysis | |
Wang et al. | Contrastive Predictive Coding of Audio with an Adversary. | |
CN114462392A (zh) | 一种基于主题关联度与关键词联想的短文本特征扩展方法 | |
CN116976505A (zh) | 基于信息共享的解耦注意网络的点击率预测方法 | |
CN118296150A (zh) | 一种基于多对抗网络改进的评论情感识别方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN114998698A (zh) | 动态时域卷积网络驱动的多模态情感识别方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN113705197B (zh) | 一种基于位置增强的细粒度情感分析方法 | |
Lei et al. | Multimodal Sentiment Analysis Based on Composite Hierarchical Fusion | |
Li et al. | Deep recommendation based on dual attention mechanism | |
Song | Aspect-Based Sentiment Analysis on Mobile Game Reviews Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |