CN114880478B

CN114880478B - 基于主题信息增强的弱监督方面类别检测方法

Info

Publication number: CN114880478B
Application number: CN202210652339.4A
Authority: CN
Inventors: 相艳; 刘威; 余正涛; 施敬磊
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2024-04-23
Anticipated expiration: 2042-06-07
Also published as: CN114880478A

Abstract

本发明涉及基于主题信息增强的弱监督方面类别检测方法，属于自然语言处理技术领域。面向产品评论的方面类别检测，需要人工映射方面词与方面类别之间的关系，人工的介入极大的影响了方面识别的性能，对此本发明利用主题聚类自动选取句子向量，让更靠近相应主题的句子向量参与训练，以减少噪声数据对模型的影响；然后，为了更好的表征句子向量，弥补短文本缺乏的信息，利用主题信息为句子进行数据增强。在Restaurant和Amozon两个产品评论数据集的方面类别检测的实验结果表明,本发明提出的融合主题信息的弱监督方面类别检测方法是有效的。

Description

基于主题信息增强的弱监督方面类别检测方法

技术领域

本发明涉及基于主题信息增强的弱监督方面类别检测方法，属于自然语言处理技术领域。

背景技术

面向产品评论的方面类别检测是自然语言处理的关键问题之一。随着信息化进程的推进，互联网上产生了海量的质量与风格参差不齐的产品评论数据，从中准确获取评价对象及对应用户观点难上加难。面向产品评论的方面类别检测是挖掘用户评价对象的一种重要技术，是进行方面级情感分析的关键前置任务，该任务旨在对产品评论段进行分析，识别出其中包含的评价对象所属的类别。面向产品评论的方面类别检测(AspectClassification Detection)的具体任务为：检测评论句子属于哪个预定义的类别，其中预定义类别可能没有明确的在句子中出现，例如，给定句子“The rice is very chewy”，应该提取“Food”作为方面类别。方面类别检测有两个优势：1)ACD检测出的类别往往是多个方面项的集合，因此，ACD的检测结果可以看作是一个综合的预测，更加简洁的表达意见目标。2)ACD即使在句子中没有明确提到意见目标，也能检测方面类别。例如，给定一个句子“It isvery overpriced”，ACD可以检测出“Price”这个方面类别。

监督方法是方面类别检测的研究方向之一，其可以利用方面类别的标签进行训练，但存在领域适应问题，而且大量的标记数据是难以获得的。早期的研究训练有噪声标记的数据集上的词嵌入，并通过不同的前馈网络获得混合特征。然后用这些特征训练逻辑回归模型来进行预测。

无监督方法是近年来比较流行的方法，通常分为两个步骤：1)提取方面词项；2)将方面词映射或聚类到预定义的方面类别。第一步基本上与处理无监督ATE问题相同，第二步最直接的解决方案是从第一步开始为每个检测到的方面词项集手动分配一个标签作为方面类别，但这很耗时，而且当检测到的方面有噪声时可能会导致错误。早期的无监督方法主要是基于LDA的主题模型，最近的一些研究(如ABAE)改善了基于LDA方法在方面检测方面表现不佳，提取的方面质量较差(不相干和有噪声)等问题。与基于LDA的方法相比，深度学习模型，在提取连贯的方面词和检测方面类别都表现出了良好的性能。

另一个研究方向是弱监督的方法，利用少量的方面代表词(即种子词)进行方面类别检测。尽管这些模型优于无监督方法，但这种人工选取种子词的方式不太可靠，选取的种子词的好坏直接决定了模型的性能，另外，这些方法不能自动从评论语料库中发现新的方面，这可能会限制它们的应用。

针对以上两个问题,本发明提出一种融合主题信息的弱监督方面类别检测方法。具有少量标记域内数据的监督模型的性能优于跨域模型，这意味着方面类别的领域特定特征对于方面类别检测任务非常重要，即使是少量的领域内示例也可以极大地提高性能，所以基于数据集的主题特征来进行方面类别检测，同时避免了手工映射方面词项和方面类别之间的关系。方面类别分类的输入表征也是很重要的一部分，直接决定了分类的准确性，当前的方面类别检测模型大多只考虑评论句子作为分类器的输入，没有足够的信息让分类器提取有用的特征的，为了解决这个问题，将主题信息融合到评论句子增强表征。并在Restaurant和Amozon两个产品评论数据集上进行了理论与技术的验证，结果表明该方法的有效性。

发明内容

为了解决上述问题，本发明提供了基于主题信息增强的弱监督方面类别检测方法，首先利用极少量的标签数据为示例，基于主题模型自动为大量无标签数据获取伪标签，可以有效地将模型发现的方面类别分配到感兴趣的方面类别，其次设置筛选规则选取高置信度样本，最终采用主题词项来弥补短文本缺乏的主题信息，使分类器更好地学习各个方面类别和评论片段的表征，避免人工介入实现弱监督的方面类别检测。

本发明的技术方案是：基于主题信息增强的弱监督方面类别检测方法，所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下：

Step1、对无标签样本和标签样本使用主题模型以无监督的方式进行主题聚类，通过聚类得到的簇和有标签的样本的空间距离来确认簇的伪标签，由此得到伪标签数据，通过聚类还能得到每个评论段对应的主题信息；

Step2、将所有伪标签评论段样本集与领域内示例做相似性度量,选出一个伪标签子集，相比步骤Step1得到的伪标签数据，该伪标签的子集置信度更高；

Step3、找出给定句子与类别之间的相似度，对于每个类别，将给定句子与该类别的相似度定义为句子与属于该类别的每个标签句子之间的相似度值的平均值；

Step4、将语料库主题信息与预先训练的文本特征融合，将句子和其对应的类别信息编码，进行句子表征增强；

Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强，用于训练分类器。

作为本发明的进一步方案，所述Step1中，首先对无标签样本数据集按照主题进行聚类，获取样本所对应的类别及其主题信息；通过主题建模获得对应数据集的域内信息，包括对应产品评论属于相应类别的概率和每个类别的主题信息，即主题词，将评论段r_i＝{t₁，t₂，...，t_n}传递给主题模型，以推断产品评论所属类别及其对应的主题信息，具体计算过程如公式(1)、(2)所示；

P^c＝TopicModel(t₁，t₂，...，t_n)∈R^T (1)

W^c＝TopicModel(t₁，t₂，...，t_n)∈R^T (2)

其中T表示主题数量，R^T表示评论句子的向量，P^c为主题的归一化权值，其中每个权值表示输入评论句子属于某个主题的概率，W^c表示某个主题最具代表性的主题词。

作为本发明的进一步方案，所述Step2中，将产品评论输入BERT时，在首部加入[CLS]标识，在句子A和句子B之间加入[SEP]作为分隔符号，然后，取[CLS]的输出即完成两个句子的相似度计算。

作为本发明的进一步方案，所述Step3中，筛选伪标签的目标是降低训练中存在的错误伪标签样本，提高训练的整体性能，通过智能的选择一个伪标签子集来实现；设r是给定的句子，c_i是第i类，s_i是第i类带有标签的句子，带标签的句子一共有|s|条；定义为c_i和r之间的相似度值，如公式(3)所示，得到带有标签句子与类别之间的相似度/>

Sigmoid函数能对相似度量获得的相似值产生判别作用，为了使相似度值更具判别性，将上一步得到的相似度值通过公式(4)所示的函数进行转换；

现对于每个句子，都有一个向量sentScore∈Rc，其中c是类别的数量，每个元素代表句子和预定义类别之间的相似性得分。

作为本发明的进一步方案，所述Step4中，句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息编码，句子S1的长度为N，类别信息的长度为M，BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示，公式如(5)所示；

C∈R^d，d为BERT的内部隐藏层大小，对于评论段的主题信息

作为本发明的进一步方案，所述Step5中，通过最小化重构误差，采用了对比最大边界目标函数，优化模型的分类网络参数，采用主题词项来弥补短文本缺乏的主题信息，使分类器更好地学习各个方面类别和评论片段的表征。

作为本发明的进一步方案，所述Step5中，筛选伪标签样本进行训练包括；令pNⁱ表示伪标签样本rⁱ是否被用作分类器的训练，假设一种情况：伪标签样本rⁱ属于类别1，此时只需要考虑其它类别的相似性，如公式(6)所示：

其中，II为示性函数，分别表示样本rⁱ属于类别2、3的概率，τ_n表示选取样本的阈值；当低于τ_n同样认为样本置信度高，当样本概率大于τ_n时，就不使用该样本训练网络，所以损失函数L如公式(7)所示。

L＝PNⁱL_θ (7)

保证了一句评论只属于一个类别，避免为分类器引入噪声干扰，同时也避免了伪样本多次迭代造成的误差传递。

本发明的有益效果是：本发明首先利用极少量的标签数据为示例，基于主题模型自动为大量无标签数据获取伪标签，可以有效地将模型发现的方面类别分配到感兴趣的方面类别；其次设置筛选规则选取高置信度样本，最终采用主题词项来弥补短文本缺乏的主题信息，使分类器更好地学习各个方面类别和评论片段的表征，避免人工介入实现弱监督的方面类别检测。实验结果表明，与以往的方法相比，本发明更有效地进行了产品评论的分类，在Restaurant和Amozon两个产品评论数据集上的F1值的宏平均分别为84.6％和57.3％，与现有方法模型相比有明显改善，很好的避免了人工介入并实现了更加准确的方面类别检测。

附图说明

图1为本发明中的流程图。

具体实施方式

实施例1：如图1所示，基于主题信息增强的弱监督方面类别检测方法，所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下：

Step2、将所有伪标签评论段样本集与领域内示例做相似性度量，选出一个伪标签子集，相比步骤Step1得到的伪标签数据，该伪标签的子集置信度更高；

P^c＝TopicModel(t₁，t₂，...，t_n)∈R^T (1)

W^c＝TopicModel(t₁，t₂，...，t_n)∈R^T (2)

作为本发明的进一步方案，所述Step2中，将产品评论输入BERT时，在首部加入[CLS]标识，在句子A和句子B之间加入[SEP]作为分隔符号，然后，取[CLS]的输出即完成两个句子的相似度计算，假设[CLS]对应的输出嵌入为C，则通过C进行相似度计算。

作为本发明的进一步方案，所述Step4中，句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息扁码，句子S1的长度为N，类别信息的长度为M，BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示，公式如(5)所示；

C∈R^d，d为BERT的内部隐藏层大小，对于评论段的主题信息

其中，为示性函数，/>分别表示样本rⁱ属于类别2、3的概率，τ_n表示选取样本的阈值；当低于τ_n同样认为样本置信度高，当样本概率大于τ_n时，就不使用该样本训练网络，所以损失函数L如公式(7)所示。

L＝PNⁱL_θ (7)

最小重构误差训练模型：

采用了以往工作中使用的对比最大边界目标函数，如公式(8)所示。

其中，r为目标句子向量，r_re为重构后的句子向量，D表示无标签训练数据集。对于每个输入句子，从数据集中随机抽取num个句子作为负样本。将每个负样本表示为n_i，n_i通过对其词嵌入求平均来计算。目标是使r和r_re相似，但与那些负样本不同。

方面类别检测时采用交叉熵目标函数训练分类器，如公式(9)所示。

其中，n是类别的数量，y_i是某个类别标签数据的正确标签，p_i是分类器对该类别的预测概率。

针对本发明提出的以上方法在2个产品评论数据集进行了实验验证，包括如下：

本发明采集了2个产品评论数据集来进行模型训练和评估。(1)Amazon数据集：该产品评论数据集涵盖6个不同的领域，包括Laptop Cases(Bags)，Bluetooth Headsets(B/T)，Boots，Keyboards(KBs)，Televisions(TVs)，和Vacuums(VCs)。本章随机选取Bags，Boots和Keyboards三个领域进行实验，Amazon数据集中不同领域评论的方面类别如表1所示。

(2)Restaurant数据集：该数据集被以前的研究广泛使用，包含了超过5万条来自City search New York的餐馆评论，其中包括人工标注的3400条评论。有6个预定义的方面类别：“Food”、“Staff”、“Ambience”、“Price”、“Necdotes”和“Miscellaneous”。与之前的工作相似，实验中选择只表达一个方面类别的句子，忽略有多个方面标签的句子，并且将测试集限定在三个标签(Food，Staff，Ambience)，从而与之前工作形成公平比较。

数据集的详细统计结果汇总在表2中。

表1Amazon数据集中不同领域评论的方面类别

表2实验数据集

将评论语料库进行预处理，去除标点符号、停用词和出现频率少于10次的词。对于每个数据集，使用Skip-gram模型从头开始训练单词嵌入。

在主题聚类操作中，将词嵌入矩阵固定，将聚类出的主题数量K设置为14，更新迭代15次，为防止过拟合，引入dropout层。为了验证加入主题信息对模型方面类别检测性能的影响，在Restaurant数据集上进行了相应的消融实验。主要比较不同模型的F1值,从表3中观察到，加入了主题信息，即主题的方面词项，Bert的在“Food”和“Staff”两个方面的提升分别为1.5％、5.7％，方面“Ambience”在没有加入主题信息的时候高出了1.9％，是因为方面“Ambience”的样本数量过少，在主题聚类的时候没有很好的生成准确的主题的方面词项，造成性能的下降，但是根据综合性能来看加入了主题信息的Bert在三个方面类别的F1值的宏平均为87.6％，而不加入主题信息的Bert在三个方面类别的F1值的宏平均为85.8％，性能提升了1.8％。这说明为每个评论句子加入主题信息可以有效的提升分类模型的性能，通过添加这个模块，整个模型的性能得到了改善。

表3加入主题信息对Bert模型性能影响的结果

本发明还对不同模型在Amozon数据集上的性能进行了详细的比较，该数据集已被广泛用于方面类别检测模型的基准测试。表4显示了在Amozon数据集上不同模型方面类别检测的结果，主要比较不同模型的F1值。

表4在Amozon数据集上不同模型方面类别检测的结果

TS-Teacher在大多数数据集上的表现都优于MATE和MATE-MT，这进一步说明了越准确的主题词和标签数据的相关性越高，也间接说明了融合主题信息对于方面类别检测的性能是有影响的。根据综合性能来看，本发明模型的F1值的宏平均为57.3％，最优的基线模型的F1值的宏平均为57.0％，提升了0.3％，证明了融合主题信息对方面类别检测的有效性。

分类器和相似性度量组件的配置是BERT的基础设置，通过实验来验证相似性度量的有效性。没有经过伪标签筛选(即相似性度量)步骤的数据有3600条，经过伪标签筛选步骤筛选出的数据有1800条，分类模型为Bert。本发明主要比较不同模型的F1值,从表5中观察到，通过相似性度量筛选伪标签，Bert的在“Food”、“Staff”、“Ambience”三个方面的提升分别为0.5％、0.7％、4.2％，造成方面“Ambience”性能差距如此之大的原因是方面“Ambience”的样本数量远小于方面“Food”，较少的数据量中存在部分的噪声样本后，将极大的影响模型学习，并且没有足够的正确的样本修正模型的学习，所以造成性能悬殊。根据综合性能来看通过了相似性度量筛选伪标签这个步骤的Bert在三个方面类别的F1值的宏平均为83.2％，而不通过相似性度量筛选伪标签这个步骤的Bert在三个方面类别的F1值的宏平均为81.4％，性能提升了1.8％。这说明主题聚类标注的伪标签样本中存在部分的错误标签的样本，这些错误样本将会对模型的性能造成较大的影响，通过添加相似性度量这个模块，删除了部分的错误样本，使整个模型的性能得到了改善。

表5经过相似性度量的样本对Bert模型性能影响的结果

为了进一步验证标签数据的数量对模型的影响，本发明在Restaurant数据集上进行了相应的消融实验。该消融实验的设置为：随机挑选每个类别的标签数据，并把每个类别的标签数据数量分别设置为5、10、15，最终的分类模型为Bert。

表6不同标签数据样本的数量对模型性能影响的结果

主要比较不同模型的F1值,从表6中观察到，对于方面“Food”随着标签数量的增加，F1值分别有0.1％、1％的提升；对于方面“Staff”随着标签数量的增加，F1值分别有0.8％、0.9％的提升；同样的，对于方面“Ambience”随着标签数量的增加，F1值分别有2％、1.8％的提升。根据综合性能来看不同标签数据数量(5、10、15)在三个方面类别的F1值的宏平均分别为84.6％、84.9％、85.9％，标签数据的数量每多5条性能就能分别提升0.3％、1.3％。表中还可以看出方面“Ambience”的提升是最大的，是因为方面“Ambience”的样本数量过少，为其添加了更多的标签数据后，模型可以更好的学习到该方面的知识，同时也印证了方面“Ambience”的性能出现波动的结论。通过添加更多的标签数据作为示例，使整个模型的性能得到了改善。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于主题信息增强的弱监督方面类别检测方法，其特征在于：所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下：

Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强，用于训练分类器；

所述Step1中，首先对无标签样本数据集按照主题进行聚类,获取样本所对应的类别及其主题信息；通过主题建模获得对应数据集的域内信息，包括对应产品评论属于相应类别的概率和每个类别的主题信息，即主题词，将评论段r_i＝{t₁,t₂,…,t_n}传递给主题模型，以推断产品评论所属类别及其对应的主题信息，具体计算过程如公式(1)、(2)所示；

P^c＝TopicModel(t₁,t₂,…,t_n)∈R^T (1)

W^c＝TopicModel(t₁,t₂,…,t_n)∈R^T (2)

其中T表示主题数量，R^T表示评论句子的向量，P^c为主题的归一化权值，其中每个权值表示输入评论句子属于某个主题的概率，W^c表示某个主题最具代表性的主题词；

所述Step3中，筛选伪标签的目标是降低训练中存在的错误伪标签样本，提高训练的整体性能，通过智能的选择一个伪标签子集来实现；设r是给定的句子，c_i是第i类,s_i是第i类带有标签的句子，带标签的句子一共有|s|条；定义为c_i和r之间的相似度值，如公式(3)所示，得到带有标签句子与类别之间的相似度/>

现对于每个句子，都有一个向量sentScore∈R^c，其中c是类别的数量，每个元素代表句子和预定义类别之间的相似性得分；

所述Step4中，句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息编码，句子S1的长度为N，类别信息/>的长度为M，BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示，公式如(5)所示；

C∈R^d，d为BERT的内部隐藏层大小，对于评论段的主题信息

所述Step5中，通过最小化重构误差，采用了对比最大边界目标函数，优化模型的分类网络参数，采用主题词项来弥补短文本缺乏的主题信息，使分类器更好地学习各个方面类别和评论片段的表征；

所述Step5中，筛选伪标签样本进行训练包括；令PNⁱ表示伪标签样本rⁱ是否被用作分类器的训练，假设一种情况：伪标签样本rⁱ属于类别1，此时只需要考虑其它类别的相似性，如公式(6)所示：

其中，为示性函数，/>分别表示样本rⁱ属于类别2、3的概率，τ_n表示选取样本的阈值；当低于τ_n同样认为样本置信度高，当样本概率大于τ_n时，就不使用该样本训练网络，所以损失函数L如公式(7)所示；

L＝PNⁱL_θ (7)

2.根据权利要求1所述的基于主题信息增强的弱监督方面类别检测方法，其特征在于：所述Step2中，将产品评论输入BERT时，在首部加入[CLS]标识，在句子A和句子B之间加入[SEP]作为分隔符号，然后，取[CLS]的输出即完成两个句子的相似度计算。