CN112069310A - 基于主动学习策略的文本分类方法及系统 - Google Patents

基于主动学习策略的文本分类方法及系统 Download PDF

Info

Publication number
CN112069310A
CN112069310A CN202010560046.4A CN202010560046A CN112069310A CN 112069310 A CN112069310 A CN 112069310A CN 202010560046 A CN202010560046 A CN 202010560046A CN 112069310 A CN112069310 A CN 112069310A
Authority
CN
China
Prior art keywords
data
text
text data
training
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010560046.4A
Other languages
English (en)
Other versions
CN112069310B (zh
Inventor
李海玉
刘兴武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010560046.4A priority Critical patent/CN112069310B/zh
Publication of CN112069310A publication Critical patent/CN112069310A/zh
Application granted granted Critical
Publication of CN112069310B publication Critical patent/CN112069310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于主动学习策略的文本分类方法,包括:获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;重复训练直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。

Description

基于主动学习策略的文本分类方法及系统
技术领域
本发明涉及文本分类技术领域,并特别涉及一种基于主动学习策略的文本分类方法及系统。
背景技术
非结构化数据的结构化抽取工作一直是人工智能领域一个非常重要的课题。在如今这个数据大爆炸的时代,人们需要收集分析的数据量急剧增加,从大量数据中手动提取有用的知识变得非常困难和不可能,因此需要利用自然语言处理(NLP)和数据挖掘(DataMining)技术来帮助人工挖掘和从大规模数据中发现有用的知识。在真实的对话分析场景中,每天积累的非结构化文本类数据量巨大,但极少被人工进行标注。为了让机器快速进行学习,对数据进行标注是必不可少的一步。然而数据标注需要昂贵的成本,面对海量数据,如何经济又准确地进行标注是一个的棘手问题。针对这个问题,采用主动学习被认为是一个非常有效的解决方案。通过使用已有标注数据,让机器学习到的模型与标注专家进行高效的交互,能够有效降低模型学习所需要的标注数据量。现阶段广泛使用的主动学习策略有以下几种:
(1)基于IID实例信息的主动学习策略:这类策略假设未标记集合中的实例是独立的,可以直接使用不确定性度量作为价值度量来评估实例价值,它通常也仅基于不确定性指标对实例进行排名,并选择具有最大不确定性的示例进行标记。常用的不确定性指标有:最小置信度(Least Confidence)、间隔 (Margin)、熵(Entropy)等。
(2)基于实例相关性的主动学习策略:这里将实例间的相关性考虑进来,因此价值度量是不确定性度量和相关性度量的结合。这里通常会用特征的相似性度量或相关矩阵来比较实例间的相似性,从而计算实例的信息密度,即其邻居的平均相似性加权。这类方法需要依靠聚类算法对实例进行分组,然后在每个聚类中选择最具有代表性的实例,来形成具有最大不确定性的最优候选集。常用的特征相似性度量指标有:余弦相似度(CosineSimilarity)、KL散度相似(KL Divergence Similarity)、高斯相似度(GaussianSimilarity) 等。
在很多实际场景中主动学习策略的结果并不尽如人意,因为理论算法从学术界走向工业界面临着诸多困难。抛开中文文本语言复杂性高语义难以准确捕捉外,由于缺乏真实场景中的数据集,所以很多主动学习方法是针对模拟数据集,而且样本通常是均匀数据集,同时对数据集中待标记的样本进行了强假设,而且很多主动学习方法忽略了通过主动学习选择样本的重要性。此外数据的不平衡性会在很大程度上影响主动学习策略的抽样性能。所以真实场景下,中文文本数据的标注量不足、类别不平衡的问题在很大程度上限制了主动学习策略在实际业务中的能力。
发明内容
由于真实场景下文本数据类不平衡和标注量不足,文本分类算法在处理实际场景中的问题时能力受限,但数据标注需要高昂的成本,在面对海量数据时,简单地标记所有的数据是不可能的。因此利用主动学习来降低标注样本的数量并优化分类算法的实际应用效果很有必要。现有的主动学习策略存在一些问题,比如很多主动学习方法初始训练集的选择存在欠缺,还有一些主动学习方法存在性能低下或时间消耗高的问题,以及还缺少不平衡数据在训练过程中更有效的权重更新规则。所以本发明在真实场景的不平衡文本分类任务中,提出了一种有效的主动学习策略AL-WXGB,其基于XGBoost分类器的使用权重更新策略的主动学习策略(其中AL:Active Learning主动学习,W:Weighted加权的,XGB/XGBoost:一种可扩展的提升树机器学习模型Extreme Gradient Boosting)。
针对现有技术的不足,本发明提出一种基于主动学习策略的文本分类方法,其中包括:
步骤1、获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;
步骤2、以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;
步骤3、重复执行该步骤2,直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
所述的基于主动学习策略的文本分类方法,其中该步骤1包括:
步骤11、对该第二文本数据进行聚类,得到多个类簇,选择每个类簇中部分数据作为初始训练集进行标注。
所述的基于主动学习策略的文本分类方法,其中该第一文本数据中负例样本数量与正例样本数量的比值大于1。
所述的基于主动学习策略的文本分类方法,其中该步骤2包括:
步骤21、使用该中间分类模型对该第二文本数据进行分类预测,获取相应类别概率,并根据类该别概率得到该第二文本数据中每个样本的margin:
步骤22、从该第二文本数据中选出前G个margin最小的样本,作为第三文本数据进行类别标记,其中G为正整数;
步骤23、当前该第一文本数据中负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000031
和该第三文本数据中负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000032
若ratio2>ratio1+thres,则舍弃该第三文本数据或只保留该第三文本数据中的正例,并从当前该第一文本数据中重采样一批数据加入当前训练集;否则将该第三文本数据加入当前训练集。
基于主动学习策略的文本分类方法,其中该步骤2中训练基于深度学习的分类模型时权重的更新过程具体包括:
步骤24、根据当前该训练集负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000033
将正例的权重设置为ratio,负例的权重设置为1-ratio:
Figure RE-GDA0002767765970000034
步骤25、根据训练数据的来源,将当前训练集分为初始训练数据和扩增训练数据,并将该初始训练数据的权重设置为
Figure RE-GDA0002767765970000035
该扩增训练数据的权重设置为ratio:
Figure RE-GDA0002767765970000041
将两种权重进行加权:
weight=αweight1+βweight2
其中,α、β为两种权重的调和超参数。
本发明还提供了一种基于主动学习策略的文本分类系统,其中包括:
模块1、获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;
模块2、以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;
模块3、重复执行该模块2,直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
所述的基于主动学习策略的文本分类系统,其中该模块1包括:
模块11、对该第二文本数据进行聚类,得到多个类簇,选择每个类簇中部分数据作为初始训练集进行标注。
所述的基于主动学习策略的文本分类系统,其中该第一文本数据中负例样本数量与正例样本数量的比值大于1。
所述的基于主动学习策略的文本分类系统,其中该模块2包括:
模块21、使用该中间分类模型对该第二文本数据进行分类预测,获取相应类别概率,并根据类该别概率得到该第二文本数据中每个样本的margin:
模块22、从该第二文本数据中选出前G个margin最小的样本,作为第三文本数据进行类别标记,其中G为正整数;
模块23、当前该第一文本数据中负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000042
和该第三文本数据中负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000043
若ratio2>ratio1+thres,则舍弃该第三文本数据或只保留该第三文本数据中的正例,并从当前该第一文本数据中重采样一批数据加入当前训练集;否则将该第三文本数据加入当前训练集。
所述的基于主动学习策略的文本分类系统,其中该模块2中训练基于深度学习的分类模型时权重的更新过程具体包括:
模块24、根据当前该训练集负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000051
将正例的权重设置为ratio,负例的权重设置为1-ratio:
Figure RE-GDA0002767765970000052
模块25、根据训练数据的来源,将当前训练集分为初始训练数据和扩增训练数据,并将该初始训练数据的权重设置为
Figure RE-GDA0002767765970000053
该扩增训练数据的权重设置为ratio:
Figure RE-GDA0002767765970000054
将两种权重进行加权:
weight=αweight1+βweight2
其中,α、β为两种权重的调和超参数。
由以上方案可知,本发明的优点在于:通过使用聚类并引入类内相似度的概念,对初始训练集的选择进行了优化,从而使得初始训练集的分布更为合理;通过设计并使用有效的重采样和权重更新策略,降低了类不平衡性对主动学习抽样性能的影响,使得主动学习策略选择出来的数据质量更高,可以使用更少的标注数据但更快地达到模型预设的标准。
附图说明
图1为本发明整体系统运行示意图。
具体实施方式
本发明的重点是在不平衡文本分类任务背景下,提供有效的主动学习选择策略,主动学习是一个多轮迭代的过程,需要机器和标注专家的高效配合,主动学习根据模型的预测结果和有效的选择策略,选择一批数据交给专家进行标注,然后将标注好的数据更新到当前训练集,再重复上述操作,直至满足模型的预设标准。最终的目标是在达到同样模型标准的情况下,减少需要标注的数据数量,也就是说,使用更少的标注数据,但更快地达到模型标准。
本发明在真实场景的不平衡文本分类任务中,提出了一种有效的主动学习策略AL-WXGB。首先为了避免初始训练集对模型产生较大影响,利用层次聚类并定义类内平均相似度来优化初始训练集的选择;然后使用XGBoost作为主动学习的分类器,因为它可以兼具分类性能和预测速率,在具有较高分类性能的情况下,可以节省训练和预测时间;然后使用margin作为不确定性的度量指标,同时为了降低数据类不平衡性的影响设计有效的重采样策略来优化选择;最后为了进一步降低数据类不平衡性对主动学习抽样性能的影响,根据代价敏感学习思想,设计有效的权重更新方法:一方面考虑数据的不平衡性,在训练分类器时增加少数类的权重从而产生预测优势,另一方面考虑训练数据来源于初始训练数据和主动学习选择出来的数据,相较而言后者的质量更高,因此赋予它们更高的权重。实验证明,主动学习策略AL-WXGB可以有效地提升主动学习的能力,降低标注数量,节约成本,通过增加较少的样本数量尽快达到预设的算法性能。
本发明包括以下关键点:
关键点1,为了避免初始训练集对模型产生较大影响,利用层次聚类并定义类内平均相似度来优化初始训练集的选择;
关键点2,使用XGBoost作为主动学习的分类器,因为它可以兼具分类性能和预测速率,在具有较高分类性能的情况下,可以节省训练和预测时间;
关键点3,使用margin作为不确定性的度量指标,同时为了降低数据类不平衡性的影响设计有效的重采样策略来优化选择;
关键点4,根据代价敏感学习思想,设计有效的权重更新规则,进一步降低数据类不平衡性对主动学习抽样性能的影响。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
基于池的主动学习在实际应用可以轻松地获取大量未标记数据。在基于池的场景中,未标记数据集是提前准备好的,然后通过主动学习策略将其中一部分选择出来交给专家进行标记,从而逐步迭代直到达到预设条件结束流程。本发明提出了一个基于池的主动学习策略AL-WXGB。如图1所示,该主动学习框架主要包括初始训练集优化、模型预测和样本选择三部分,同时需要标注专家参与整个迭代过程。整个主动学习流程为一个闭环,在每一轮的迭代中,已标记数据集用于训练分类模型,然后模型评估未标记数据集中每个实例(未标记数据集中数据)的价值,并选出最有价值和信息量的一些实例交给专家进行标注,然后将新标注的数据加入到已标记数据集中进行更新。然后主动学习重复上述过程,直至满足预设条件为止,比如数据标注成本用尽、达到模型预设的 F1值(F1是用来衡量分类模型精度的一种指标)。
一、初始训练集优化
与随机选择初始训练集相比,经过优化获得的高质量初始训练集能带来更好的训练效果,而通过聚类算法选择的样本可以更好地考虑样本的分布特性。因此本发明使用层次聚类并引入类内平均相似度的定义来优化初始训练集的选择,以选出更具代表性和更能表示样本分布特性的样本,从而提高初始分类模型的分类性能。本发明设计的初始训练集优化算法的主要流程如下:
获取文本的向量化表示;
对全部未标记数据进行聚类;
从每个类簇中选择一部分数据作为初始训练集进行标注。定义类内平均相似度,对同一类簇内的所有样本,根据类内平均相似度降序排列,确定从每个类簇中选择的样本数。
步骤一:文本向量化表示
首先,由于本发明所使用的数据是从通话语音生成的文本数据,虽然语音识别的准确率已经很高,但由于需要分离对话双方的声音,以及可能存在环境噪音或者说话人语速不同、不使用普通话等,切割后生成的文本可能存在标点符号异常或空文本等情况,所以需要提前清洗一下数据,让数据更规范。然后通过分词、停用词过滤处理后,使用TFIDF算法获取其向量化表示,TFIDF即“词频-逆文本频率”是一种在文本挖掘中广泛使用的特征向量化方法,它的计算公式为TFIDF(w)=TF(w)×IDF(w),由TF和IDF两部分组成。TF(w) 表示词语w在所有文本中出现的次数,
Figure RE-GDA0002767765970000071
其中N为文本总数,N(w)为包含词w的文本数,它可以衡量词语提供的信息量,因为如果一个词频繁出现在各个文本中,那意味着它没有携带特定于某个文本的信息。在实践中,可以使用scikit-learn中的TfidfVectorzer来完成这个过程。
步骤二:对未标记数据进行聚类
因为真实数据集中的类不平衡问题很容易导致初始训练数据选取不佳,从而影响到全局的数据选择,因此这里使用凝聚层次聚类将文本划分为两个类簇集合后再进行选择。凝聚层次聚类算法的限制少,距离和规则的相似度容易定义,可以发现类的层次关系,且不需要预设聚类数目,聚类效果优良。在实践中,我们可以使用scikit-learn中的AgglomerativeClustering来完成这个过程。
步骤三:选择样本加入初始训练集进行标注
当得到聚类结果后,需要从每个类簇中选择一部分数据作为初始训练集。为了选出每个类簇中最具代表性的样本,引入样本的类内平均相似度的概念,其计算公式如下:
Figure RE-GDA0002767765970000081
其中,Cn表示第n个类簇,|Cn|表示第n个类簇的大小,sim(xi,xj)表示该类簇中样本xi和样本xj之间的相似度(可以使用诸如欧几里得距离、余弦相似度等度量指标),因此d(xi)表示样本xi与同一类簇内所有样本的平均相似度。d(xi)值越大,样本xi和类簇内其他样本之间的平均相似度越高,越能代表所在类簇。
将同一类簇内所有样本,根据类内平均相似度降序排序后,分别顺次选择一定数量的样本加入初始训练集中,每个类簇所选的样本数量Si根据下式计算:
Figure RE-GDA0002767765970000082
其中,N表示样本总数,K表示初始训练集的大小,|Ci|表示第i个类簇的大小。
二、分类器选择和调参
在实际应用场景下,主动学习分类器的选择也很重要,诸如逻辑回归、SVM 等简单的机器学习分类算法无法提供较高的分类性能,而诸如LSTM、BERT、 XLNet等强大的深度学习模型无法满足较快预测速度的需求。而在实际业务场景下,我们需要更快的训练过程和更快的预测速率,因此在选择分类器时,未考虑一些性能优异的深度学习模型,而是选择了一个兼顾性能和训练及预测效率的分类器XGBoost,并在此基础上,设计了一个有效的主动学习策略,大大减少了样本的标注数量,降低了数据的标注成本。
XGBoost是一个很优秀的算法,也可以处理各种不规则的数据,构造并使用一个XGBoost模型十分简单,但为了提高它的表现能力,模型参数的调整十分必要。在实践中,我们可以使用scikit-learn中的GridSearvhCV来进行调参。经过一些提前调参工作后,确定了XGBoost模型一些重要参数的设置:
n_estimators=300,max_depth=20,learning_rate=0.01,subsample=0.9,nthread=10,objective='binary:logistic',eval_metric='error'。
此外,由于本发明的实验数据具有类不平衡性,因此本发明在迭代使用 XGBoost算法时,仍结合GridSearchCV控制了“scale_pos_weight”参数进行调参,该参数主要针对样本不均衡问题进行调节,可以提高少数类的权重。因此将其值设置为当前训练集负例样本数量与正例样本数量的比值(负例为不包含语义点的多数类,正例为包含语义点的少数类),它的调参范围设置为: params={"scale_pos_weight":[x-0.5,x,x+0.5]}。
三、不确定性采样策略
不同的样本实例对与模型的学习贡献度不同,如果能够选出最有价值和信息量的一部分数据进行标注,那么就有可能仅使用少量的训练数据而获得同样性能的分类模型。因此主动学习的主题就是为当前模型选择信息最丰富的未标记实例,显然,对未标记实例价值的评估和合理的样本选择策略尤为重要。
主动学习的核心任务是采样策略的设计,即按照一定的度量准则来选择未标记实例。目前常用的采样策略有:基于样本不确定性度量(信息量)的采样策略、考虑多样性度量的采样策略、引入委员会投票的采样策略以及综合多种度量指标的采样策略,其中基于样本不确定性度量的采样策略是最为常见的,也是在目前主动学习研究中被广泛采用的方法。
由于实际业务场景下的真实数据十分复杂,捕捉和分析样本的空间信息比较困难,因此在选择价值度量时,优先选择了基于不确定性的度量指标 margin,但相比较于传统的仅使用margin学习策略的方案,真实数据集中的类不平衡问题很容易对主动学习的抽样性能造成影响,因此本发明在此基础上进行了优化。本发明设计的不确定性采样策略的主要流程如下:
使用XGBoost对未标记数据集U进行预测,获取相应概率;
计算未标记数据集U中每个样本的margin;Margin,意为间隔。间隔方法,整合了两种类标签(二分类情况下为正负类标签,多分类情况下为第一第二大可能的类标签)。间隔方法易于选择在两个最有可能类标签的后验概率之间具有最小margin的实例,其表示为:
Figure RE-GDA0002767765970000091
其中y1和y2分别是最有可能的第一个和第二个类标签。很容易看出,该方法旨在区分第一个和第二个最有可能的类标签。信息量最大的实例是这两个类标签之间间隔最小的实例。
引入重采样策略对当前选择进行优化。
重采样是从原始数据集中提取重复样本(过采样)或者删除某些样本(欠采样)的过程。过采样方法的直觉是,为数据创建“相似”的情况,以使得数据集能够代表我们更关注的问题,从而为算法提供足够的数据以输出更准确的结果。在类不平衡问题中,我们通常更关心的是少数类所蕴含和传递的信息。因此对少数类进行过采样,创建“伪造”副本来增加我们更关注类别的样本数量,并进行模型训练。直观上对于多数类可以进行欠采样,只从该类中选出部分数据进行训练。但一般而言,这通常是不理想的的方法,因为欠采样会导致我们丢失一些有价值的信息。不过当目标数据集很大时,使用欠采样可能有助于计算。
本发明的核心任务是一个文本二分类任务,正样本对应标签为正的数据,负样本对应标签为负的数据。以癌症诊断为例,患有癌症的人为正样本,健康的人为负样本。而健康的人是远多于患病的人的,因此在这里两类中多数类也就是负例,少数类是正例。在这种情况下,使用XGBoost对未标记数据集U 进行预测,并根据下式计算未标记数据集U中每个样本x的margin:
M(x)=P(y1|x)-P(y2|x)
其中,P(y1|x)为两个预测概率值中较大的那个,P(y2|x)为较小的那个,此时我们的选择策略如下:
x=arg min(P(y1|x)-P(y2|x))
显然当某个样本的正负预测概率值相等,都为0.5时,该样本的margin 最小,不确定性最大。如果从熵的角度来看,可能更容易理解。熵本身就可以衡量对象的混乱程度或不确定性。熵最大,其不确定性也越强。我们很容易发现,当某个样本正负预测概率值相等,熵值最大。其实在二分类情况下,使用 margin最小选择样本和熵最大选择样本是等价的。
假设我们需要提供给标注专家进行标注的样本量为G,通常情况下从未标记数据集U中选择前G个margin最小进行标注并加入到训练集中即可。但由于样本的类不平衡性,我们选择出来的样本有可能依旧存在类不平衡现象,针对这种情况,本发明在此基础上,设计了重采样策略对当前选择策略进行优化,其主要步骤如下:
从未标记数据集U中选出前G个margin最小的样本(记为数据集C),提供给让标注专家进行标记
计算当前训练集中负例(多数类)与正例(少数类)的比值:
Figure RE-GDA0002767765970000111
和数据集C中负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000112
如果ratio2>ratio1+thres,则舍弃数据集C或只保留数据集C中的正例,并从当前训练集中重采样一批数据加入当前训练集;反之,直接将数据集 C加入当前训练集。Thres(threshold)为预设阈值。可根据经验人为经验或机器学习确定。
四、权重更新规则
大多数机器学习算法都假定由模型造成的所有误分错误是相同的。但对于不平衡的分类问题,通常不是这样的。在类不平衡问题中,误判正例或少数类实例的情况比误判负例或多数类实例的情况更糟。代价敏感学习是机器学习的一个子领域,它认为错误分类产生的代价因样本而异,不同样本具有不同的权重。现在我们知道如果误分类产生的代价因样本而异,应该采取代价敏感学习技术,让样本在训练过程中具有不同的权重。那什么是样本权重呢?
在监督学习中,通过在一组被观测到的训练样本(xi,yi)上优化目标函数来训练模型。假设f(xi,θ)是参数为θ的模型的输出,训练目标如下:
Figure RE-GDA0002767765970000113
其中L(yi,f(xi,θ))是样本(xi,yi)的损失,R(θ)是正则化项,用于控制模型的复杂度。为了表示每个样本的贡献,引入样本权重wi来衡量样本对损失的贡献。因此上述目标函数可以重写为:
Figure RE-GDA0002767765970000114
在随机梯度下降(SGD)法中,参数θ在每次迭代中针对一组训练样本以特定的步长η更新。如果我们在不同的迭代中允许不同的样本权重,则单个样本更新可以写为:
Figure RE-GDA0002767765970000115
Figure RE-GDA0002767765970000121
Figure RE-GDA0002767765970000122
其中θt是第t次迭代中的参数向量,
Figure RE-GDA0002767765970000123
是第t次迭代中第i个样本的权重。
经过上述分析,可以发现对于数据存在类不平衡性的情况,除了通过采样策略调节外,还可以通过改变样本在训练过程中计算损失时的权重来平衡,因此,可以设计一个有效的权重更新策略,通过在XGB模型训练中改变样本权重来提高主动学习的效率和模型的性能。
由于主动学习过程所使用的训练数据除了具有类别差异外,还是从两个来源得到的,一是初始训练集,二是随后根据主动学习策略选择出来并进行标记后增加的数据。随着主动学习迭代轮数的增加,模型性能逐渐提高,直观上由主动学习选择出来的样本质量也会越来越好。因此,除了在训练分类器时增加少数类样本的权重从而产生预测优势外,对根据主动学习策略选择出来数据也赋予更高的权重。本发明综合考虑两个角度后,设计了如下样本权重更新规则:
首先计算当前训练集负例(多数类)与正例(少数类)的比值:
Figure RE-GDA0002767765970000124
将正例的权重设置为ratio,负例的权重设置为1-ratio,即:
Figure RE-GDA0002767765970000125
将当前训练集分为初始训练数据和AL扩增训练数据。具体为根据训练数据的来源划分,一是通过聚类策略选择出一批数据进行标注后得到的初始训练集;一是通过在已有训练集上进行模型训练,然后对未标记数据集进行评估,根据主动学习选择策略选出一批有价值的数据进行标注后得到的新增训练数据,AL扩增训练数据指的是通过主动学习策略选择出来并标记后得到的训练数据。并将初始训练数据的权重设置为
Figure RE-GDA0002767765970000126
AL扩增训练数据的权重设置为 ratio,即:
Figure RE-GDA0002767765970000127
将两种权重进行加权:
weight=αweight1+βweight2
其中,α、β为两种权重的调和超参数,本发明中α=0.3、β=0.7。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提供了一种基于主动学习策略的文本分类系统,其中包括:
模块1、获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;
模块2、以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;
模块3、重复执行该模块2,直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
所述的基于主动学习策略的文本分类系统,其中该模块1包括:
模块11、对该第二文本数据进行聚类,得到多个类簇,选择每个类簇中部分数据作为初始训练集进行标注。
所述的基于主动学习策略的文本分类系统,其中该第一文本数据中负例样本数量与正例样本数量的比值大于1。
所述的基于主动学习策略的文本分类系统,其中该模块2包括:
模块21、使用该中间分类模型对该第二文本数据进行分类预测,获取相应类别概率,并根据类该别概率得到该第二文本数据中每个样本的margin:
模块22、从该第二文本数据中选出前G个margin最小的样本,作为第三文本数据进行类别标记,其中G为正整数;
模块23、当前该第一文本数据中负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000131
和该第三文本数据中负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000132
若ratio2>ratio1+thres,则舍弃该第三文本数据或只保留该第三文本数据中的正例,并从当前该第一文本数据中重采样一批数据加入当前训练集;否则将该第三文本数据加入当前训练集。
所述的基于主动学习策略的文本分类系统,其中该模块2中训练基于深度学习的分类模型时权重的更新过程具体包括:
模块24、根据当前该训练集负例样本数量与正例样本数量的比值:
Figure RE-GDA0002767765970000141
将正例的权重设置为ratio,负例的权重设置为1-ratio:
Figure RE-GDA0002767765970000142
模块25、根据训练数据的来源,将当前训练集分为初始训练数据和扩增训练数据,并将该初始训练数据的权重设置为
Figure RE-GDA0002767765970000143
该扩增训练数据的权重设置为ratio:
Figure RE-GDA0002767765970000144
将两种权重进行加权:
weight=αweight1+βweight2
其中,α、β为两种权重的调和超参数。

Claims (10)

1.一种基于主动学习策略的文本分类方法,其特征在于,包括:
步骤1、获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;
步骤2、以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;
步骤3、重复执行该步骤2,直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
2.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该步骤1包括:
步骤11、对该第二文本数据进行聚类,得到多个类簇,选择每个类簇中部分数据作为初始训练集进行标注。
3.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该第一文本数据中负例样本数量与正例样本数量的比值大于1。
4.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该步骤2包括:
步骤21、使用该中间分类模型对该第二文本数据进行分类预测,获取相应类别概率,并根据类该别概率得到该第二文本数据中每个样本的margin:
步骤22、从该第二文本数据中选出前G个margin最小的样本,作为第三文本数据进行类别标记,其中G为正整数;
步骤23、当前该第一文本数据中负例样本数量与正例样本数量的比值:
Figure FDA0002545964020000011
和该第三文本数据中负例样本数量与正例样本数量的比值:
Figure FDA0002545964020000012
若ratio2>ratio1+thres,则舍弃该第三文本数据或只保留该第三文本数据中的正例,并从当前该第一文本数据中重采样一批数据加入当前训练集;否则将该第三文本数据加入当前训练集。
5.如权利要求1所述的基于主动学习策略的文本分类方法,其特征在于,该步骤2中训练基于深度学习的分类模型时权重的更新过程具体包括:
步骤24、根据当前该训练集负例样本数量与正例样本数量的比值:
Figure FDA0002545964020000021
将正例的权重设置为ratio,负例的权重设置为1-ratio:
Figure FDA0002545964020000022
步骤25、根据训练数据的来源,将当前训练集分为初始训练数据和扩增训练数据,并将该初始训练数据的权重设置为
Figure FDA0002545964020000023
该扩增训练数据的权重设置为ratio:
Figure FDA0002545964020000024
将两种权重进行加权:
weight=αweight1+βweight2
其中,α、β为两种权重的调和超参数。
6.一种基于主动学习策略的文本分类系统,其特征在于,包括:
模块1、获取已标记类别的第一文本数据和未标记类别的第二文本数据,将该第一文本数据作为训练集;
模块2、以该训练集,训练基于深度学习的分类模型,得到中间分类模型,该中间分类模型评估该第二文本数据中每个实例的价值,将该第二文本数据中价值最高的实例进行类别标记后加入该训练集;
模块3、重复执行该模块2,直到满足预设条件,保存当前该中间分类模型作为最终文本分类模型,将待分类文本输入该最终文本分类模型,得到该待分类文本的分类结果。
7.如权利要求1所述的基于主动学习策略的文本分类系统,其特征在于,该模块1包括:
模块11、对该第二文本数据进行聚类,得到多个类簇,选择每个类簇中部分数据作为初始训练集进行标注。
8.如权利要求6所述的基于主动学习策略的文本分类系统,其特征在于,该第一文本数据中负例样本数量与正例样本数量的比值大于1。
9.如权利要求6所述的基于主动学习策略的文本分类系统,其特征在于,该模块2包括:
模块21、使用该中间分类模型对该第二文本数据进行分类预测,获取相应类别概率,并根据类该别概率得到该第二文本数据中每个样本的margin:
模块22、从该第二文本数据中选出前G个margin最小的样本,作为第三文本数据进行类别标记,其中G为正整数;
模块23、当前该第一文本数据中负例样本数量与正例样本数量的比值:
Figure FDA0002545964020000031
和该第三文本数据中负例样本数量与正例样本数量的比值:
Figure FDA0002545964020000032
若ratio2>ratio1+thres,则舍弃该第三文本数据或只保留该第三文本数据中的正例,并从当前该第一文本数据中重采样一批数据加入当前训练集;否则将该第三文本数据加入当前训练集。
10.如权利要求6所述的基于主动学习策略的文本分类系统,其特征在于,该模块2中训练基于深度学习的分类模型时权重的更新过程具体包括:
模块24、根据当前该训练集负例样本数量与正例样本数量的比值:
Figure FDA0002545964020000033
将正例的权重设置为ratio,负例的权重设置为1-ratio:
Figure FDA0002545964020000034
模块25、根据训练数据的来源,将当前训练集分为初始训练数据和扩增训练数据,并将该初始训练数据的权重设置为
Figure FDA0002545964020000035
该扩增训练数据的权重设置为ratio:
Figure FDA0002545964020000036
将两种权重进行加权:
weight=αweight1+βweight2
其中,α、β为两种权重的调和超参数。
CN202010560046.4A 2020-06-18 2020-06-18 基于主动学习策略的文本分类方法及系统 Active CN112069310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010560046.4A CN112069310B (zh) 2020-06-18 2020-06-18 基于主动学习策略的文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010560046.4A CN112069310B (zh) 2020-06-18 2020-06-18 基于主动学习策略的文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN112069310A true CN112069310A (zh) 2020-12-11
CN112069310B CN112069310B (zh) 2023-05-02

Family

ID=73656085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010560046.4A Active CN112069310B (zh) 2020-06-18 2020-06-18 基于主动学习策略的文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN112069310B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统
CN112988954A (zh) * 2021-05-17 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备和计算机可读存储介质
CN113189963A (zh) * 2021-04-26 2021-07-30 东北大学 一种基于非平衡数据的轧制过程故障诊断方法
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法
CN113537315A (zh) * 2021-06-30 2021-10-22 电子科技大学 一种基于聚类信息熵的易区分图像选择方法
CN113569953A (zh) * 2021-07-29 2021-10-29 中国工商银行股份有限公司 分类模型的训练方法、装置及电子设备
CN113656451A (zh) * 2021-07-21 2021-11-16 浙江大华技术股份有限公司 数据挖掘方法、电子设备和计算机可读存储介质
CN113919361A (zh) * 2021-09-13 2022-01-11 聚好看科技股份有限公司 一种文本分类方法和装置
CN114519406A (zh) * 2022-04-21 2022-05-20 天津卓朗科技发展有限公司 工业数据的分类方法及其模型训练方法、装置
CN114548306A (zh) * 2022-02-28 2022-05-27 西南石油大学 一种基于误分类代价的钻井早期溢流智能监测方法
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN115004045A (zh) * 2020-12-14 2022-09-02 广州汽车集团股份有限公司 优化电池管理系统模型的方法和系统以及存储介质和电动汽车
CN115242724A (zh) * 2022-07-21 2022-10-25 东南大学 一种基于两阶段聚类的高速网络流量服务分类方法
WO2024109546A1 (zh) * 2022-11-22 2024-05-30 北京猿力未来科技有限公司 对话检测模型训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107832425A (zh) * 2017-11-13 2018-03-23 北京神州泰岳软件股份有限公司 一种多轮迭代的语料标注方法、装置及系统
CN110245227A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 文本分类的融合分类器的训练方法及设备
CN111177374A (zh) * 2019-12-13 2020-05-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN107832425A (zh) * 2017-11-13 2018-03-23 北京神州泰岳软件股份有限公司 一种多轮迭代的语料标注方法、装置及系统
CN110245227A (zh) * 2019-04-25 2019-09-17 义语智能科技(广州)有限公司 文本分类的融合分类器的训练方法及设备
CN111177374A (zh) * 2019-12-13 2020-05-19 航天信息股份有限公司 一种基于主动学习的问答语料情感分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINGZHI LI ET.AL: "Combining Semi-Supervised and active learning for hyperspectral image classification", 《2013 IEEE SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE AND DATA MINING (CIDM)》 *
刘振宇等: "一种基于主动学习和多种监督学习的情感分析模型", 《中国电子科学研究院学报》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115004045A (zh) * 2020-12-14 2022-09-02 广州汽车集团股份有限公司 优化电池管理系统模型的方法和系统以及存储介质和电动汽车
CN112528030A (zh) * 2021-02-09 2021-03-19 中关村科学城城市大脑股份有限公司 一种用于文本分类的半监督学习方法和系统
CN113189963A (zh) * 2021-04-26 2021-07-30 东北大学 一种基于非平衡数据的轧制过程故障诊断方法
CN113189963B (zh) * 2021-04-26 2024-03-19 东北大学 一种基于非平衡数据的轧制过程故障诊断方法
CN112988954A (zh) * 2021-05-17 2021-06-18 腾讯科技(深圳)有限公司 文本分类方法、装置、电子设备和计算机可读存储介质
CN113537315A (zh) * 2021-06-30 2021-10-22 电子科技大学 一种基于聚类信息熵的易区分图像选择方法
CN113537315B (zh) * 2021-06-30 2023-06-06 电子科技大学 一种基于聚类信息熵的易区分图像选择方法
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法
CN113656451A (zh) * 2021-07-21 2021-11-16 浙江大华技术股份有限公司 数据挖掘方法、电子设备和计算机可读存储介质
CN113656451B (zh) * 2021-07-21 2024-08-02 浙江大华技术股份有限公司 数据挖掘方法、电子设备和计算机可读存储介质
CN113569953A (zh) * 2021-07-29 2021-10-29 中国工商银行股份有限公司 分类模型的训练方法、装置及电子设备
CN113919361A (zh) * 2021-09-13 2022-01-11 聚好看科技股份有限公司 一种文本分类方法和装置
CN114579740A (zh) * 2022-01-20 2022-06-03 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114579740B (zh) * 2022-01-20 2023-12-05 马上消费金融股份有限公司 文本分类方法、装置、电子设备及存储介质
CN114548306A (zh) * 2022-02-28 2022-05-27 西南石油大学 一种基于误分类代价的钻井早期溢流智能监测方法
CN114519406A (zh) * 2022-04-21 2022-05-20 天津卓朗科技发展有限公司 工业数据的分类方法及其模型训练方法、装置
CN115242724B (zh) * 2022-07-21 2024-05-31 东南大学 一种基于两阶段聚类的高速网络流量服务分类方法
CN115242724A (zh) * 2022-07-21 2022-10-25 东南大学 一种基于两阶段聚类的高速网络流量服务分类方法
WO2024109546A1 (zh) * 2022-11-22 2024-05-30 北京猿力未来科技有限公司 对话检测模型训练方法及装置

Also Published As

Publication number Publication date
CN112069310B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN108363810B (zh) 一种文本分类方法及装置
Suárez-Cetrulo et al. A survey on machine learning for recurring concept drifting data streams
CN109581339B (zh) 一种基于头脑风暴自动调整自编码网络的声呐识别方法
CN110349597B (zh) 一种语音检测方法及装置
CN113887643B (zh) 一种基于伪标签自训练和源域再训练的新对话意图识别方法
CN110851176B (zh) 一种自动构造并利用伪克隆语料的克隆代码检测方法
CN109299270A (zh) 一种基于卷积神经网络的文本数据无监督聚类方法
CN111583031A (zh) 一种基于集成学习的申请评分卡模型建立方法
CN116594748B (zh) 针对任务的模型定制处理方法、装置、设备和介质
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN116644755A (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
CN115270797A (zh) 一种基于自训练半监督学习的文本实体抽取方法及系统
CN114897085A (zh) 一种基于封闭子图链路预测的聚类方法及计算机设备
CN109460872B (zh) 一种面向移动通信用户流失不平衡数据预测方法
CN117708756A (zh) 一种基于机器学习的数据挖掘建模平台
CN117574262A (zh) 一种面向小样本问题的水声信号分类方法、系统及介质
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
CN116384379A (zh) 一种基于深度学习的中文临床术语标准化方法
CN113221575B (zh) Pu强化学习的远程监督命名实体识别方法
CN114610953A (zh) 一种数据分类方法、装置、设备及存储介质
CN113610181A (zh) 一种结合机器学习和群智能算法的快速多目标特征选择方法
CN112348275A (zh) 一种基于在线增量学习的区域生态环境变化预测方法
CN117611957B (zh) 基于统一正负伪标签的无监督视觉表征学习方法及系统
CN116894169B (zh) 基于动态特征聚类和粒子群优化的在线流特征选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant