CN114880478B - 基于主题信息增强的弱监督方面类别检测方法 - Google Patents
基于主题信息增强的弱监督方面类别检测方法 Download PDFInfo
- Publication number
- CN114880478B CN114880478B CN202210652339.4A CN202210652339A CN114880478B CN 114880478 B CN114880478 B CN 114880478B CN 202210652339 A CN202210652339 A CN 202210652339A CN 114880478 B CN114880478 B CN 114880478B
- Authority
- CN
- China
- Prior art keywords
- category
- sentence
- information
- topic
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 12
- 238000012512 characterization method Methods 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000036299 sexual function Effects 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 235000013305 food Nutrition 0.000 description 8
- 238000012552 review Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于主题信息增强的弱监督方面类别检测方法,属于自然语言处理技术领域。面向产品评论的方面类别检测,需要人工映射方面词与方面类别之间的关系,人工的介入极大的影响了方面识别的性能,对此本发明利用主题聚类自动选取句子向量,让更靠近相应主题的句子向量参与训练,以减少噪声数据对模型的影响;然后,为了更好的表征句子向量,弥补短文本缺乏的信息,利用主题信息为句子进行数据增强。在Restaurant和Amozon两个产品评论数据集的方面类别检测的实验结果表明,本发明提出的融合主题信息的弱监督方面类别检测方法是有效的。
Description
技术领域
本发明涉及基于主题信息增强的弱监督方面类别检测方法,属于自然语言处理技术领域。
背景技术
面向产品评论的方面类别检测是自然语言处理的关键问题之一。随着信息化进程的推进,互联网上产生了海量的质量与风格参差不齐的产品评论数据,从中准确获取评价对象及对应用户观点难上加难。面向产品评论的方面类别检测是挖掘用户评价对象的一种重要技术,是进行方面级情感分析的关键前置任务,该任务旨在对产品评论段进行分析,识别出其中包含的评价对象所属的类别。面向产品评论的方面类别检测(AspectClassification Detection)的具体任务为:检测评论句子属于哪个预定义的类别,其中预定义类别可能没有明确的在句子中出现,例如,给定句子“The rice is very chewy”,应该提取“Food”作为方面类别。方面类别检测有两个优势:1)ACD检测出的类别往往是多个方面项的集合,因此,ACD的检测结果可以看作是一个综合的预测,更加简洁的表达意见目标。2)ACD即使在句子中没有明确提到意见目标,也能检测方面类别。例如,给定一个句子“It isvery overpriced”,ACD可以检测出“Price”这个方面类别。
监督方法是方面类别检测的研究方向之一,其可以利用方面类别的标签进行训练,但存在领域适应问题,而且大量的标记数据是难以获得的。早期的研究训练有噪声标记的数据集上的词嵌入,并通过不同的前馈网络获得混合特征。然后用这些特征训练逻辑回归模型来进行预测。
无监督方法是近年来比较流行的方法,通常分为两个步骤:1)提取方面词项;2)将方面词映射或聚类到预定义的方面类别。第一步基本上与处理无监督ATE问题相同,第二步最直接的解决方案是从第一步开始为每个检测到的方面词项集手动分配一个标签作为方面类别,但这很耗时,而且当检测到的方面有噪声时可能会导致错误。早期的无监督方法主要是基于LDA的主题模型,最近的一些研究(如ABAE)改善了基于LDA方法在方面检测方面表现不佳,提取的方面质量较差(不相干和有噪声)等问题。与基于LDA的方法相比,深度学习模型,在提取连贯的方面词和检测方面类别都表现出了良好的性能。
另一个研究方向是弱监督的方法,利用少量的方面代表词(即种子词)进行方面类别检测。尽管这些模型优于无监督方法,但这种人工选取种子词的方式不太可靠,选取的种子词的好坏直接决定了模型的性能,另外,这些方法不能自动从评论语料库中发现新的方面,这可能会限制它们的应用。
针对以上两个问题,本发明提出一种融合主题信息的弱监督方面类别检测方法。具有少量标记域内数据的监督模型的性能优于跨域模型,这意味着方面类别的领域特定特征对于方面类别检测任务非常重要,即使是少量的领域内示例也可以极大地提高性能,所以基于数据集的主题特征来进行方面类别检测,同时避免了手工映射方面词项和方面类别之间的关系。方面类别分类的输入表征也是很重要的一部分,直接决定了分类的准确性,当前的方面类别检测模型大多只考虑评论句子作为分类器的输入,没有足够的信息让分类器提取有用的特征的,为了解决这个问题,将主题信息融合到评论句子增强表征。并在Restaurant和Amozon两个产品评论数据集上进行了理论与技术的验证,结果表明该方法的有效性。
发明内容
为了解决上述问题,本发明提供了基于主题信息增强的弱监督方面类别检测方法,首先利用极少量的标签数据为示例,基于主题模型自动为大量无标签数据获取伪标签,可以有效地将模型发现的方面类别分配到感兴趣的方面类别,其次设置筛选规则选取高置信度样本,最终采用主题词项来弥补短文本缺乏的主题信息,使分类器更好地学习各个方面类别和评论片段的表征,避免人工介入实现弱监督的方面类别检测。
本发明的技术方案是:基于主题信息增强的弱监督方面类别检测方法,所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下:
Step1、对无标签样本和标签样本使用主题模型以无监督的方式进行主题聚类,通过聚类得到的簇和有标签的样本的空间距离来确认簇的伪标签,由此得到伪标签数据,通过聚类还能得到每个评论段对应的主题信息;
Step2、将所有伪标签评论段样本集与领域内示例做相似性度量,选出一个伪标签子集,相比步骤Step1得到的伪标签数据,该伪标签的子集置信度更高;
Step3、找出给定句子与类别之间的相似度,对于每个类别,将给定句子与该类别的相似度定义为句子与属于该类别的每个标签句子之间的相似度值的平均值;
Step4、将语料库主题信息与预先训练的文本特征融合,将句子和其对应的类别信息编码,进行句子表征增强;
Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强,用于训练分类器。
作为本发明的进一步方案,所述Step1中,首先对无标签样本数据集按照主题进行聚类,获取样本所对应的类别及其主题信息;通过主题建模获得对应数据集的域内信息,包括对应产品评论属于相应类别的概率和每个类别的主题信息,即主题词,将评论段ri={t1,t2,...,tn}传递给主题模型,以推断产品评论所属类别及其对应的主题信息,具体计算过程如公式(1)、(2)所示;
Pc=TopicModel(t1,t2,...,tn)∈RT (1)
Wc=TopicModel(t1,t2,...,tn)∈RT (2)
其中T表示主题数量,RT表示评论句子的向量,Pc为主题的归一化权值,其中每个权值表示输入评论句子属于某个主题的概率,Wc表示某个主题最具代表性的主题词。
作为本发明的进一步方案,所述Step2中,将产品评论输入BERT时,在首部加入[CLS]标识,在句子A和句子B之间加入[SEP]作为分隔符号,然后,取[CLS]的输出即完成两个句子的相似度计算。
作为本发明的进一步方案,所述Step3中,筛选伪标签的目标是降低训练中存在的错误伪标签样本,提高训练的整体性能,通过智能的选择一个伪标签子集来实现;设r是给定的句子,ci是第i类,si是第i类带有标签的句子,带标签的句子一共有|s|条;定义为ci和r之间的相似度值,如公式(3)所示,得到带有标签句子与类别之间的相似度/>
Sigmoid函数能对相似度量获得的相似值产生判别作用,为了使相似度值更具判别性,将上一步得到的相似度值通过公式(4)所示的函数进行转换;
现对于每个句子,都有一个向量sentScore∈Rc,其中c是类别的数量,每个元素代表句子和预定义类别之间的相似性得分。
作为本发明的进一步方案,所述Step4中,句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息编码,句子S1的长度为N,类别信息的长度为M,BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示,公式如(5)所示;
C∈Rd,d为BERT的内部隐藏层大小,对于评论段的主题信息
作为本发明的进一步方案,所述Step5中,通过最小化重构误差,采用了对比最大边界目标函数,优化模型的分类网络参数,采用主题词项来弥补短文本缺乏的主题信息,使分类器更好地学习各个方面类别和评论片段的表征。
作为本发明的进一步方案,所述Step5中,筛选伪标签样本进行训练包括;令pNi表示伪标签样本ri是否被用作分类器的训练,假设一种情况:伪标签样本ri属于类别1,此时只需要考虑其它类别的相似性,如公式(6)所示:
其中,II为示性函数,分别表示样本ri属于类别2、3的概率,τn表示选取样本的阈值;当低于τn同样认为样本置信度高,当样本概率大于τn时,就不使用该样本训练网络,所以损失函数L如公式(7)所示。
L=PNiLθ (7)
保证了一句评论只属于一个类别,避免为分类器引入噪声干扰,同时也避免了伪样本多次迭代造成的误差传递。
本发明的有益效果是:本发明首先利用极少量的标签数据为示例,基于主题模型自动为大量无标签数据获取伪标签,可以有效地将模型发现的方面类别分配到感兴趣的方面类别;其次设置筛选规则选取高置信度样本,最终采用主题词项来弥补短文本缺乏的主题信息,使分类器更好地学习各个方面类别和评论片段的表征,避免人工介入实现弱监督的方面类别检测。实验结果表明,与以往的方法相比,本发明更有效地进行了产品评论的分类,在Restaurant和Amozon两个产品评论数据集上的F1值的宏平均分别为84.6%和57.3%,与现有方法模型相比有明显改善,很好的避免了人工介入并实现了更加准确的方面类别检测。
附图说明
图1为本发明中的流程图。
具体实施方式
实施例1:如图1所示,基于主题信息增强的弱监督方面类别检测方法,所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下:
Step1、对无标签样本和标签样本使用主题模型以无监督的方式进行主题聚类,通过聚类得到的簇和有标签的样本的空间距离来确认簇的伪标签,由此得到伪标签数据,通过聚类还能得到每个评论段对应的主题信息;
Step2、将所有伪标签评论段样本集与领域内示例做相似性度量,选出一个伪标签子集,相比步骤Step1得到的伪标签数据,该伪标签的子集置信度更高;
Step3、找出给定句子与类别之间的相似度,对于每个类别,将给定句子与该类别的相似度定义为句子与属于该类别的每个标签句子之间的相似度值的平均值;
Step4、将语料库主题信息与预先训练的文本特征融合,将句子和其对应的类别信息编码,进行句子表征增强;
Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强,用于训练分类器。
作为本发明的进一步方案,所述Step1中,首先对无标签样本数据集按照主题进行聚类,获取样本所对应的类别及其主题信息;通过主题建模获得对应数据集的域内信息,包括对应产品评论属于相应类别的概率和每个类别的主题信息,即主题词,将评论段ri={t1,t2,...,tn}传递给主题模型,以推断产品评论所属类别及其对应的主题信息,具体计算过程如公式(1)、(2)所示;
Pc=TopicModel(t1,t2,...,tn)∈RT (1)
Wc=TopicModel(t1,t2,...,tn)∈RT (2)
其中T表示主题数量,RT表示评论句子的向量,Pc为主题的归一化权值,其中每个权值表示输入评论句子属于某个主题的概率,Wc表示某个主题最具代表性的主题词。
作为本发明的进一步方案,所述Step2中,将产品评论输入BERT时,在首部加入[CLS]标识,在句子A和句子B之间加入[SEP]作为分隔符号,然后,取[CLS]的输出即完成两个句子的相似度计算,假设[CLS]对应的输出嵌入为C,则通过C进行相似度计算。
作为本发明的进一步方案,所述Step3中,筛选伪标签的目标是降低训练中存在的错误伪标签样本,提高训练的整体性能,通过智能的选择一个伪标签子集来实现;设r是给定的句子,ci是第i类,si是第i类带有标签的句子,带标签的句子一共有|s|条;定义为ci和r之间的相似度值,如公式(3)所示,得到带有标签句子与类别之间的相似度/>
Sigmoid函数能对相似度量获得的相似值产生判别作用,为了使相似度值更具判别性,将上一步得到的相似度值通过公式(4)所示的函数进行转换;
现对于每个句子,都有一个向量sentScore∈Rc,其中c是类别的数量,每个元素代表句子和预定义类别之间的相似性得分。
作为本发明的进一步方案,所述Step4中,句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息扁码,句子S1的长度为N,类别信息的长度为M,BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示,公式如(5)所示;
C∈Rd,d为BERT的内部隐藏层大小,对于评论段的主题信息
作为本发明的进一步方案,所述Step5中,通过最小化重构误差,采用了对比最大边界目标函数,优化模型的分类网络参数,采用主题词项来弥补短文本缺乏的主题信息,使分类器更好地学习各个方面类别和评论片段的表征。
作为本发明的进一步方案,所述Step5中,筛选伪标签样本进行训练包括;令PNi表示伪标签样本ri是否被用作分类器的训练,假设一种情况:伪标签样本ri属于类别1,此时只需要考虑其它类别的相似性,如公式(6)所示:
其中,为示性函数,/>分别表示样本ri属于类别2、3的概率,τn表示选取样本的阈值;当低于τn同样认为样本置信度高,当样本概率大于τn时,就不使用该样本训练网络,所以损失函数L如公式(7)所示。
L=PNiLθ (7)
保证了一句评论只属于一个类别,避免为分类器引入噪声干扰,同时也避免了伪样本多次迭代造成的误差传递。
最小重构误差训练模型:
采用了以往工作中使用的对比最大边界目标函数,如公式(8)所示。
其中,r为目标句子向量,rre为重构后的句子向量,D表示无标签训练数据集。对于每个输入句子,从数据集中随机抽取num个句子作为负样本。将每个负样本表示为ni,ni通过对其词嵌入求平均来计算。目标是使r和rre相似,但与那些负样本不同。
方面类别检测时采用交叉熵目标函数训练分类器,如公式(9)所示。
其中,n是类别的数量,yi是某个类别标签数据的正确标签,pi是分类器对该类别的预测概率。
针对本发明提出的以上方法在2个产品评论数据集进行了实验验证,包括如下:
本发明采集了2个产品评论数据集来进行模型训练和评估。(1)Amazon数据集:该产品评论数据集涵盖6个不同的领域,包括Laptop Cases(Bags),Bluetooth Headsets(B/T),Boots,Keyboards(KBs),Televisions(TVs),和Vacuums(VCs)。本章随机选取Bags,Boots和Keyboards三个领域进行实验,Amazon数据集中不同领域评论的方面类别如表1所示。
(2)Restaurant数据集:该数据集被以前的研究广泛使用,包含了超过5万条来自City search New York的餐馆评论,其中包括人工标注的3400条评论。有6个预定义的方面类别:“Food”、“Staff”、“Ambience”、“Price”、“Necdotes”和“Miscellaneous”。与之前的工作相似,实验中选择只表达一个方面类别的句子,忽略有多个方面标签的句子,并且将测试集限定在三个标签(Food,Staff,Ambience),从而与之前工作形成公平比较。
数据集的详细统计结果汇总在表2中。
表1Amazon数据集中不同领域评论的方面类别
表2实验数据集
将评论语料库进行预处理,去除标点符号、停用词和出现频率少于10次的词。对于每个数据集,使用Skip-gram模型从头开始训练单词嵌入。
在主题聚类操作中,将词嵌入矩阵固定,将聚类出的主题数量K设置为14,更新迭代15次,为防止过拟合,引入dropout层。为了验证加入主题信息对模型方面类别检测性能的影响,在Restaurant数据集上进行了相应的消融实验。主要比较不同模型的F1值,从表3中观察到,加入了主题信息,即主题的方面词项,Bert的在“Food”和“Staff”两个方面的提升分别为1.5%、5.7%,方面“Ambience”在没有加入主题信息的时候高出了1.9%,是因为方面“Ambience”的样本数量过少,在主题聚类的时候没有很好的生成准确的主题的方面词项,造成性能的下降,但是根据综合性能来看加入了主题信息的Bert在三个方面类别的F1值的宏平均为87.6%,而不加入主题信息的Bert在三个方面类别的F1值的宏平均为85.8%,性能提升了1.8%。这说明为每个评论句子加入主题信息可以有效的提升分类模型的性能,通过添加这个模块,整个模型的性能得到了改善。
表3加入主题信息对Bert模型性能影响的结果
本发明还对不同模型在Amozon数据集上的性能进行了详细的比较,该数据集已被广泛用于方面类别检测模型的基准测试。表4显示了在Amozon数据集上不同模型方面类别检测的结果,主要比较不同模型的F1值。
表4在Amozon数据集上不同模型方面类别检测的结果
TS-Teacher在大多数数据集上的表现都优于MATE和MATE-MT,这进一步说明了越准确的主题词和标签数据的相关性越高,也间接说明了融合主题信息对于方面类别检测的性能是有影响的。根据综合性能来看,本发明模型的F1值的宏平均为57.3%,最优的基线模型的F1值的宏平均为57.0%,提升了0.3%,证明了融合主题信息对方面类别检测的有效性。
分类器和相似性度量组件的配置是BERT的基础设置,通过实验来验证相似性度量的有效性。没有经过伪标签筛选(即相似性度量)步骤的数据有3600条,经过伪标签筛选步骤筛选出的数据有1800条,分类模型为Bert。本发明主要比较不同模型的F1值,从表5中观察到,通过相似性度量筛选伪标签,Bert的在“Food”、“Staff”、“Ambience”三个方面的提升分别为0.5%、0.7%、4.2%,造成方面“Ambience”性能差距如此之大的原因是方面“Ambience”的样本数量远小于方面“Food”,较少的数据量中存在部分的噪声样本后,将极大的影响模型学习,并且没有足够的正确的样本修正模型的学习,所以造成性能悬殊。根据综合性能来看通过了相似性度量筛选伪标签这个步骤的Bert在三个方面类别的F1值的宏平均为83.2%,而不通过相似性度量筛选伪标签这个步骤的Bert在三个方面类别的F1值的宏平均为81.4%,性能提升了1.8%。这说明主题聚类标注的伪标签样本中存在部分的错误标签的样本,这些错误样本将会对模型的性能造成较大的影响,通过添加相似性度量这个模块,删除了部分的错误样本,使整个模型的性能得到了改善。
表5经过相似性度量的样本对Bert模型性能影响的结果
为了进一步验证标签数据的数量对模型的影响,本发明在Restaurant数据集上进行了相应的消融实验。该消融实验的设置为:随机挑选每个类别的标签数据,并把每个类别的标签数据数量分别设置为5、10、15,最终的分类模型为Bert。
表6不同标签数据样本的数量对模型性能影响的结果
主要比较不同模型的F1值,从表6中观察到,对于方面“Food”随着标签数量的增加,F1值分别有0.1%、1%的提升;对于方面“Staff”随着标签数量的增加,F1值分别有0.8%、0.9%的提升;同样的,对于方面“Ambience”随着标签数量的增加,F1值分别有2%、1.8%的提升。根据综合性能来看不同标签数据数量(5、10、15)在三个方面类别的F1值的宏平均分别为84.6%、84.9%、85.9%,标签数据的数量每多5条性能就能分别提升0.3%、1.3%。表中还可以看出方面“Ambience”的提升是最大的,是因为方面“Ambience”的样本数量过少,为其添加了更多的标签数据后,模型可以更好的学习到该方面的知识,同时也印证了方面“Ambience”的性能出现波动的结论。通过添加更多的标签数据作为示例,使整个模型的性能得到了改善。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (2)
1.基于主题信息增强的弱监督方面类别检测方法,其特征在于:所述基于主题信息增强的弱监督方面类别检测方法的具体步骤如下:
Step1、对无标签样本和标签样本使用主题模型以无监督的方式进行主题聚类,通过聚类得到的簇和有标签的样本的空间距离来确认簇的伪标签,由此得到伪标签数据,通过聚类还能得到每个评论段对应的主题信息;
Step2、将所有伪标签评论段样本集与领域内示例做相似性度量,选出一个伪标签子集,相比步骤Step1得到的伪标签数据,该伪标签的子集置信度更高;
Step3、找出给定句子与类别之间的相似度,对于每个类别,将给定句子与该类别的相似度定义为句子与属于该类别的每个标签句子之间的相似度值的平均值;
Step4、将语料库主题信息与预先训练的文本特征融合,将句子和其对应的类别信息编码,进行句子表征增强;
Step5、最终筛选出的伪标签子集融合对应的主题信息做数据增强,用于训练分类器;
所述Step1中,首先对无标签样本数据集按照主题进行聚类,获取样本所对应的类别及其主题信息;通过主题建模获得对应数据集的域内信息,包括对应产品评论属于相应类别的概率和每个类别的主题信息,即主题词,将评论段ri={t1,t2,…,tn}传递给主题模型,以推断产品评论所属类别及其对应的主题信息,具体计算过程如公式(1)、(2)所示;
Pc=TopicModel(t1,t2,…,tn)∈RT (1)
Wc=TopicModel(t1,t2,…,tn)∈RT (2)
其中T表示主题数量,RT表示评论句子的向量,Pc为主题的归一化权值,其中每个权值表示输入评论句子属于某个主题的概率,Wc表示某个主题最具代表性的主题词;
所述Step3中,筛选伪标签的目标是降低训练中存在的错误伪标签样本,提高训练的整体性能,通过智能的选择一个伪标签子集来实现;设r是给定的句子,ci是第i类,si是第i类带有标签的句子,带标签的句子一共有|s|条;定义为ci和r之间的相似度值,如公式(3)所示,得到带有标签句子与类别之间的相似度/>
Sigmoid函数能对相似度量获得的相似值产生判别作用,为了使相似度值更具判别性,将上一步得到的相似度值通过公式(4)所示的函数进行转换;
现对于每个句子,都有一个向量sentScore∈Rc,其中c是类别的数量,每个元素代表句子和预定义类别之间的相似性得分;
所述Step4中,句子表征增强即为融合主题信息的数据增强使用BERT将句子S1和S1对应的类别信息编码,句子S1的长度为N,类别信息/>的长度为M,BERT最后一层对应于输入中的CLS标记的C向量作为句子特征表示,公式如(5)所示;
C∈Rd,d为BERT的内部隐藏层大小,对于评论段的主题信息
所述Step5中,通过最小化重构误差,采用了对比最大边界目标函数,优化模型的分类网络参数,采用主题词项来弥补短文本缺乏的主题信息,使分类器更好地学习各个方面类别和评论片段的表征;
所述Step5中,筛选伪标签样本进行训练包括;令PNi表示伪标签样本ri是否被用作分类器的训练,假设一种情况:伪标签样本ri属于类别1,此时只需要考虑其它类别的相似性,如公式(6)所示:
其中,为示性函数,/>分别表示样本ri属于类别2、3的概率,τn表示选取样本的阈值;当低于τn同样认为样本置信度高,当样本概率大于τn时,就不使用该样本训练网络,所以损失函数L如公式(7)所示;
L=PNiLθ (7)
保证了一句评论只属于一个类别,避免为分类器引入噪声干扰,同时也避免了伪样本多次迭代造成的误差传递。
2.根据权利要求1所述的基于主题信息增强的弱监督方面类别检测方法,其特征在于:所述Step2中,将产品评论输入BERT时,在首部加入[CLS]标识,在句子A和句子B之间加入[SEP]作为分隔符号,然后,取[CLS]的输出即完成两个句子的相似度计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210652339.4A CN114880478B (zh) | 2022-06-07 | 2022-06-07 | 基于主题信息增强的弱监督方面类别检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210652339.4A CN114880478B (zh) | 2022-06-07 | 2022-06-07 | 基于主题信息增强的弱监督方面类别检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114880478A CN114880478A (zh) | 2022-08-09 |
CN114880478B true CN114880478B (zh) | 2024-04-23 |
Family
ID=82681273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210652339.4A Active CN114880478B (zh) | 2022-06-07 | 2022-06-07 | 基于主题信息增强的弱监督方面类别检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880478B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115080748B (zh) * | 2022-08-16 | 2022-11-11 | 之江实验室 | 一种基于带噪标签学习的弱监督文本分类方法和装置 |
CN115080750B (zh) * | 2022-08-16 | 2022-11-08 | 之江实验室 | 基于融合提示序列的弱监督文本分类方法、系统和装置 |
CN116776887B (zh) * | 2023-08-18 | 2023-10-31 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897964A (zh) * | 2020-08-12 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本分类模型训练方法、装置、设备及存储介质 |
KR102197945B1 (ko) * | 2020-05-01 | 2021-01-05 | 호서대학교 산학협력단 | 윅수퍼비전 방법론에 기초하여 정보검색모델을 학습시키는 방법 및 이에 의하여 학습된 정보검색모델을 이용하여 검색결과를 제공하는 방법 |
CN112364743A (zh) * | 2020-11-02 | 2021-02-12 | 北京工商大学 | 一种基于半监督学习和弹幕分析的视频分类方法 |
CN112487190A (zh) * | 2020-12-13 | 2021-03-12 | 天津大学 | 基于自监督和聚类技术从文本中抽取实体间关系的方法 |
CN112541340A (zh) * | 2020-12-18 | 2021-03-23 | 昆明理工大学 | 基于变分双主题表征的弱监督涉案微博评价对象识别方法 |
CN114444481A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学 | 一种新闻评论的情感分析与生成方法 |
CN114444516A (zh) * | 2022-04-08 | 2022-05-06 | 四川大学 | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 |
CN114548321A (zh) * | 2022-03-05 | 2022-05-27 | 昆明理工大学 | 基于对比学习的自监督舆情评论观点对象分类方法 |
-
2022
- 2022-06-07 CN CN202210652339.4A patent/CN114880478B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102197945B1 (ko) * | 2020-05-01 | 2021-01-05 | 호서대학교 산학협력단 | 윅수퍼비전 방법론에 기초하여 정보검색모델을 학습시키는 방법 및 이에 의하여 학습된 정보검색모델을 이용하여 검색결과를 제공하는 방법 |
CN111897964A (zh) * | 2020-08-12 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 文本分类模型训练方法、装置、设备及存储介质 |
CN112364743A (zh) * | 2020-11-02 | 2021-02-12 | 北京工商大学 | 一种基于半监督学习和弹幕分析的视频分类方法 |
CN112487190A (zh) * | 2020-12-13 | 2021-03-12 | 天津大学 | 基于自监督和聚类技术从文本中抽取实体间关系的方法 |
CN112541340A (zh) * | 2020-12-18 | 2021-03-23 | 昆明理工大学 | 基于变分双主题表征的弱监督涉案微博评价对象识别方法 |
CN114444481A (zh) * | 2022-01-27 | 2022-05-06 | 四川大学 | 一种新闻评论的情感分析与生成方法 |
CN114548321A (zh) * | 2022-03-05 | 2022-05-27 | 昆明理工大学 | 基于对比学习的自监督舆情评论观点对象分类方法 |
CN114444516A (zh) * | 2022-04-08 | 2022-05-06 | 四川大学 | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 |
Non-Patent Citations (3)
Title |
---|
hybrid node-based tensor graph convolutional network for aspect-category sentiment classification of microblog comments;Yan Xiang等;concurrency and computation practice and experience;20210717;1-14 * |
基于特征融合的术语型引用对象自动识别方法研究;马娜;张智雄;吴朋民;;数据分析与知识发现;20200125;第4卷(第01期);89-98 * |
提取商品特征和情感词的语义约束LDA模型研究;彭云;中国博士学位论文全文数据库;20180115(第1期);I138-118 * |
Also Published As
Publication number | Publication date |
---|---|
CN114880478A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114880478B (zh) | 基于主题信息增强的弱监督方面类别检测方法 | |
CN107491432B (zh) | 基于人工智能的低质量文章识别方法及装置、设备及介质 | |
CN111368920B (zh) | 基于量子孪生神经网络的二分类方法及其人脸识别方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
CN111339439B (zh) | 一种融合评论文本与时序效应的协同过滤推荐方法和装置 | |
CN110851723A (zh) | 一种基于大规模知识点标注结果的英语习题推荐方法 | |
CN110175851B (zh) | 一种作弊行为检测方法及装置 | |
Zhang et al. | Cartography active learning | |
CN112257441B (zh) | 一种基于反事实生成的命名实体识别增强方法 | |
CN111447574B (zh) | 短信分类方法、装置、系统和存储介质 | |
CN111460251A (zh) | 数据内容个性化推送冷启动方法、装置、设备和存储介质 | |
CN107220663B (zh) | 一种基于语义场景分类的图像自动标注方法 | |
Jiang et al. | Boosting facial expression recognition by a semi-supervised progressive teacher | |
CN112800232A (zh) | 基于大数据的案件自动分类、优化方法及训练集修正方法 | |
Guo et al. | Loglg: Weakly supervised log anomaly detection via log-event graph construction | |
CN115712740A (zh) | 多模态蕴含增强图像文本检索的方法和系统 | |
CN111523311B (zh) | 一种搜索意图识别方法及装置 | |
Fabian et al. | Multimodal foundation models for zero-shot animal species recognition in camera trap images | |
Tran et al. | Cross-modal classification by completing unimodal representations | |
Mandal et al. | Cross-modal retrieval with noisy labels | |
Novo et al. | Explaining BERT model decisions for near-duplicate news article detection based on named entity recognition | |
US20140046884A1 (en) | Apparatus, method, and program for extracting content-related posts | |
CN110162629B (zh) | 一种基于多基模型框架的文本分类方法 | |
CN113239277A (zh) | 一种基于用户评论的概率矩阵分解推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |