CN110909157A - 文本分类方法、装置、计算设备及可读存储介质 - Google Patents

文本分类方法、装置、计算设备及可读存储介质 Download PDF

Info

Publication number
CN110909157A
CN110909157A CN201811087865.0A CN201811087865A CN110909157A CN 110909157 A CN110909157 A CN 110909157A CN 201811087865 A CN201811087865 A CN 201811087865A CN 110909157 A CN110909157 A CN 110909157A
Authority
CN
China
Prior art keywords
index
sample
unlabeled
samples
signature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811087865.0A
Other languages
English (en)
Other versions
CN110909157B (zh
Inventor
高喆
康杨杨
周笑添
孙常龙
刘晓钟
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811087865.0A priority Critical patent/CN110909157B/zh
Publication of CN110909157A publication Critical patent/CN110909157A/zh
Application granted granted Critical
Publication of CN110909157B publication Critical patent/CN110909157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,分类模型适于为消息进行分类,样本包括消息签名,该方法包括步骤:基于消息签名,为未标注样本计算第一标注指标;为未标注样本计算第二标注指标,第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。本发明还公开了对应的文本分类装置、计算设备和可读存储介质。

Description

文本分类方法、装置、计算设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及文本分类方法、装置、计算设备及可读存储介质。
背景技术
监督学习模型,例如:支持向量机或者神经网络,被广泛应用于分类问题,特别是文本分类问题。所有分类模型都需使用包括大量已标注有标签的样本的训练集来进行训练,并且分类模型的分类效果依赖于已标注样本的质量。然而,样本的标签难以自动获取,需要由领域专家对样本进行人工标注。在这种情况下,获取已标注样本极为费时费力,标注成本很高。而且,训练集通常包含不少质量较差,也就是对分类模型价值较低的冗余样本。
为了减小训练集及标注成本,通常采用主动学习方法来有选择性地从大量未标注的样本中挑选对分类模型价值最高的那些样本进行标注,从而优化分类模型。但对于为消息进行行业分类这样的文本分类问题来说,目前的主动学习方法对于减小训练集和降低标注成本的作用还有待改善。一方面其选择样本的策略较为简单,通常仅使用单一指标来衡量样本标注价值。另一方面其在挑选样本忽略了消息本身包括的可以体现标注价值的特点。
因此,迫切需要一种更先进的使用较小训练集即可达到较好性能的文本分类方案。
发明内容
为此,本发明实施例提供一种文本分类方法、装置、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明实施例的一个方面,提供了一种文本分类方法,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,分类模型适于为消息进行分类,样本包括消息签名,该方法包括步骤:基于消息签名,为未标注样本计算第一标注指标;为未标注样本计算第二标注指标,第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。
可选地,在根据本发明实施例的文本分类方法中,分类模型适于确定消息是否为预定类别,并采用包括多个已标注样本的第二样本集合训练得到,该已标注样本的标签指示样本是否为该预定类别。
可选地,在根据本发明实施例的文本分类方法中,第一标注指标包括签名一致性指标,基于消息签名,为未标注样本计算第一标注指标的步骤包括:获取预定类别对应的签名关键词;根据未标注样本的消息签名所包含的签名关键词的个数,计算未标注样本的签名一致性指标。
可选地,在根据本发明实施例的文本分类方法中,获取预定类别对应的签名关键词的步骤包括:确定第二样本集合所包含的正样本,正样本为标签指示为预定类别的样本;根据正样本的消息签名,确定预定类别对应的签名关键词。
可选地,在根据本发明实施例的文本分类方法中,未标注样本的签名一致性指标按照以下公式计算:
Consistency=min(M,2)/2
式中,Consistency为未标注样本的签名一致性指标,M为签名关键词的个数。
可选地,在根据本发明实施例的文本分类方法中,第一标注指标包括签名倾向性指标,基于消息签名,为未标注样本计算第一标注指标的步骤包括:确定第二样本集合中包括未标注样本的消息签名的正样本和包括未标注样本的消息签名的负样本,负样本为标签指示不为预定类别的样本;计算包括未标注样本的消息签名的正样本和包括未标注样本的消息签名的负样本的数量之比;根据该数量之比计算未标注样本的签名倾向性指标。
可选地,在根据本发明实施例的文本分类方法中,未标注样本的签名倾向性指标按照以下公式计算:
Tendency=1-e-s
式中,Tendency为未标注样本的签名倾向性指标,s为该数量之比。
可选地,在根据本发明实施例的文本分类方法中,为未标注样本计算第二标注指标的步骤包括:根据未标注样本和分类模型的参数,计算未标注样本的不确定性指标。
可选地,在根据本发明实施例的文本分类方法中,未标注样本的不确定性指标按照以下公式计算:
Figure BDA0001803612910000031
式中,Uncertainty为未标注样本的不确定性指标,x为未标注样本的特征向量,w为分类模型的参数向量。
可选地,在根据本发明实施例的文本分类方法中,为未标注样本计算第二标注指标的步骤包括:在第一样本集合中确定未标注样本的邻域;根据邻域计算未标注样本的密度指标。
可选地,在根据本发明实施例的文本分类方法中,未标注样本的密度指标按照以下公式计算:
Figure BDA0001803612910000032
式中,Density为当前未标注样本的密度指标,x为当前未标注样本的特征向量,N(x)为当前未标注样本的邻域,n为该邻域内除当前未标注样本以外的未标注样本的个数,xk为该邻域内除当前未标注样本以外的未标注样本的特征向量。
可选地,在根据本发明实施例的文本分类方法中,为未标注样本计算第二标注指标的步骤包括:根据未标注样本与第二样本集合所包含的已标注样本之间的距离,计算未标注样本的多样性指标。
可选地,在根据本发明实施例的文本分类方法中,未标注样本的多样性指标按照以下公式计算:
Figure BDA0001803612910000033
式中,Diversity为当前未标注样本的多样性指标,x为当前未标注样本的特征向量,U为第一样本集合,L为第二样本集合,xi为第一样本集合所包含的样本的特征向量,xj为第二样本集合L所包含的样本的特征向量,d(xi,xj)为第一样本集合所包含的样本与第二样本集合所包含的样本之间的距离,d(x,xj)为当前未标注样本与第二样本集合所包含的样本之间的距离。
可选地,在根据本发明实施例的文本分类方法中,基于第一标注指标和第二标注指标,选择多个未标注样本进行标注的步骤包括:对第一标注指标和第二标注指标进行加权求和,得到未标注样本的标注价值分数;从第一样本集合中选择标注价值分数较大的多个未标注样本。
可选地,在根据本发明实施例的文本分类方法中,方法还包括步骤:在选择多个未标注样本进行标注之后,更新第一样本集合和第二样本集合;采用更新后的第二样本集合继续训练分类模型,以调整分类模型的参数。
可选地,在根据本发明实施例的文本分类方法中,方法还包括步骤:重复上述计算标注指标、选择未标注样本进行标注、更新样本集合和训练分类模型的步骤,直至重复次数达到预定次数阈值、或者分类模型的性能达到预定目标。
可选地,在根据本发明实施例的文本分类方法中,预定类别为预定行业。
根据本发明实施例的另一个方面,提供了一种文本分类装置,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,分类模型适于为消息进行分类,样本包括消息签名,该装置包括:第一指标计算单元,适于基于消息签名,为未标注样本计算第一标注指标;第二指标计算单元,适于为未标注样本计算第二标注指标,第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及样本选择单元,适于基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。
根据本发明实施例的另一个方面,提供了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,该一个或多个程序包括用于执行根据本发明实施例的文本分类方法中的任一方法的指令。
根据本发明实施例的还有一个方面,提供了一种存储程序的可读存储介质,该程序包括指令,该指令当由计算设备执行时,使得计算设备执行根据本发明实施例的文本分类方法的中任一方法。
根据本发明实施例的文本分类方法基于主动学习的方法选择出对分类模型标注价值较高的样本进行标注,从而可以在较小标注量的情况下训练得到较高性能的分类模型,极大地减少了训练集的数据量以及标注成本。
其中,根据本发明实施例的文本分类方法采用多个标注指标来选择样本,可以从多个维度衡量未标注样本对分类模型的标注价值,从而可以有效地选择出对分类模型标注价值最高的样本,以便对分类模型实现更好地优化,提高分类模型的性能。进一步地,还采用了基于消息签名的第一标注指标,可以从消息签名的维度来衡量未标注样本的标注价值,从而可以更有效地选择出高标注价值的样本。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的基于主动学习的文本分类系统100的示意图;
图2示出了根据本发明一个实施例的文本分类装置200的结构框图。
图3示出了根据本发明一个实施例的计算设备300的结构框图;
图4示出了根据本发明一个实施例的文本分类方法400的流程图;以及
图5示出了根据本发明一个实施例的文本分类方法500的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的基于主动学习的文本分类系统100的示意图。如图1所示,文本分类系统100包括分类模型110、第一样本集合存储装置120、第二样本集合存储装置130、模型训练装置140、标注专家150和文本分类装置200。
分类模型110为基于诸如支持向量机、逻辑回归和神经网络等等之类的监督学习算法或者半监督学习算法而构建的、适于为文本进行分类的模型。在本发明的实施例中,分类模型110适于为消息进行分类,特别是适于确定消息是否为预定类别。在本发明的实施例中,预定类别为预定行业,分类模型110适于确定消息是否为预定行业,该预定行业可以是金融、房地产、教育培训和招聘等等行业。
这里,消息(Short Message)是指从一方(即消息发送方)发送至另一方(即消息接收方)的文本,并包括消息签名和消息内容。消息签名用于唯一标识消息发送方,通常可以是公司名称、品牌名称、项目名称或者应用名称等等。消息签名一般位于消息的开头,并以类似“【】”这样的分隔符与其它内容进行区分。消息内容则为消息中除了消息签名之外的内容。当然,也可以是该消息的全部内容,包括消息签名。
以下为消息的一个示例:“【XX外卖】您的外卖已送达。”。其中,“XX外卖”为该消息的消息签名,“您的外卖已送达”为该消息的消息内容。
第一样本集合存储装置120适于存储第一样本集合,该第一样本集合为包括多个未标注样本的样本集合。第二样本集合存储装置130适于存储第二样本集合,该第二样本集合为包括多个已标注样本的样本集合。可以理解地,样本为包括消息签名和消息内容的消息,已标注样本为标注有标签的样本,未标注样本为未标注有标签的样本。所标注的标签可以指示样本是否为预定类别,例如可以指示样本是否为预定行业。
模型训练装置140适于以第二样本集合存储装置130所存储的第二样本集合为训练集来对分类模型110进行训练。也就是说,分类模型110采用第二样本集合训练得到。
标注专家150通常为领域专家,并适于对未标注样本进行标注,即为未标注样本添加相应的标签。
文本分类装置200适于从包括多个未标注样本的第一样本集合中选择用于分类模型110的样本。图2示出了根据本发明一个实施例的文本分类装置200的结构框图。如图2所示,文本分类装置200可以包括第一指标计算单元210、第二指标计算单元220和样本选择单元230。
第一指标计算单元210适于基于消息签名,为未标注样本计算第一标注指标。第二指标计算单元220适于为未标注样本计算第二标注指标,第二标注指标可以包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个。第一标注指标和第二标注指标均可以表征未标注样本对于分类模型110的标注价值。
样本选择单元230适于基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。可以理解地,这里的标注可以为经由领域专家150来进行。
文本分类装置200可以在选择多个未标注样本进行标注之后,更新第一样本集合和第二样本集合,而后采用更新后的第二样本集合继续训练分类模型110,从而调整模型参数、优化模型性能。可以理解地,这里的训练可以为经由模型训练装置140来进行。
根据本发明的实施方式,文本分类装置200还适于重复执行上述计算第一标注指标和第二标注指标、选择多个未标注样本进行标注、更新第一样本集合和第二样本集合、继续训练分类模型的步骤,直至重复次数达到预先设置的预定次数阈值、或者直至第一样本集合为空。
此外,考虑到重复更新第二样本集合来训练模型的目的是优化模型性能,文本分类系统100还可以包括第三样本集合存储装置160(图1未示出),第三样本集合存储装置160适于存储第三样本集合。该第三样本集合包括多个已标注样本,并用于验证分类模型110的性能。文本分类装置200适于采用第三样本集合来验证分类模型110的性能,例如为分类模型110计算准确率(Precision)、召回率(Recall)和F1值(F score)等模型性能指标。模型性能指标的计算为本领域技术人员的公知技术,这里不展开描述。
因此,文本分类装置200适于在每次重复执行上述计算第一标注指标和第二标注指标、选择多个未标注样本进行标注、更新第一样本集合和第二样本集合、继续训练分类模型的步骤之后,判断此时训练得到的分类模型110的性能是否达到预定目标。若达到,则停止重复,否则继续重复。
在下文中将结合附图描述在上文中提及的各个单元和装置等的具体结构以及对应的处理方法。
根据本发明的实施方式,上述文本分类系统100中的各种部件,如各种单元和装置等均可以通过如下所述的计算设备300来实现。图3示出了根据本发明一个实施例的计算设备300的示意图。
如图3所示,在基本的配置302中,计算设备300典型地包括系统存储器306和一个或者多个处理器304。存储器总线308可以用于在处理器304和系统存储器306之间的通信。
取决于期望的配置,处理器304可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器304可以包括诸如一级高速缓存310和二级高速缓存312之类的一个或者多个级别的高速缓存、处理器核心314和寄存器316。示例的处理器核心314可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器318可以与处理器304一起使用,或者在一些实现中,存储器控制器318可以是处理器304的一个内部部分。
取决于期望的配置,系统存储器306可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器306可以包括操作系统320、一个或者多个应用322以及程序数据324。在一些实施方式中,应用322可以布置为在操作系统上由一个或多个处理器304利用程序数据324执行指令。
计算设备300还可以包括有助于从各种接口设备(例如,输出设备342、外设接口344和通信设备346)到基本配置302经由总线/接口控制器330的通信的接口总线340。示例的输出设备342包括图形处理单元348和音频处理单元350。它们可以被配置为有助于经由一个或者多个A/V端口352与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口344可以包括串行接口控制器354和并行接口控制器356,它们可以被配置为有助于经由一个或者多个I/O端口358和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备346可以包括网络控制器360,其可以被布置为便于经由一个或者多个通信端口364与一个或者多个其他计算设备362通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备300可以实现为服务器,例如数据库服务器、应用程序服务器和WEB服务器等,也可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。当然,计算设备300也可以实现为小尺寸便携(或者移动)电子设备的一部分。
在根据本发明的实施例中,计算设备300被实现为文本分类装置200,并被配置为执行根据本发明实施例的文本分类方法400。其中,计算设备300的应用322中包含执行根据本发明实施例的文本分类方法400的多条程序指令,而程序数据324还可以存储文本分类装置200的配置信息等。
图4示出了根据本发明一个实施例的文本分类方法400的流程图。如图4所示,文本分类方法400始于步骤S410。
在步骤S410中,为未标注样本计算多个标注指标,这多个标注指标可以表征未标注样本对于分类模型110的标注价值。需要注意的是,这里的未标注样本可以为前述第一样本集合中的每个未标注样本。
步骤S410具体可以包括步骤:基于消息签名,为未标注样本计算第一标注指标。
根据本发明的一种实施方式,第一标注指标可以包括以下标注指标中的至少一个:消息签名的文本分布一致性指标(简称为签名一致性指标)和消息签名对预定类别的倾向性指标(简称为签名倾向性指标)。
可以理解地,消息签名具有对用于为消息进行行业分类的分类模型来说价值很高的信息量。例如,对于用于确定消息是否为金融行业的分类模型,可以选择消息签名为“XX金服”的样本,该样本对模型的贡献远大于随机选择的样本。
对于签名一致性指标的计算,可以先获取该预定类别对应的签名关键词。
在一种实施方式中,预定类别对应的签名关键词可以预先确定好,并预先存储于签名关键词存储装置中。这样,就可以从该签名关键词存储装置中获取预定类别对应的签名关键词。
预定类别对应的签名关键词可以基于前述第二样本集合来确定。具体地,可以确定第二样本集合所包含的正样本,而后根据正样本的消息签名,确定预定类别对应的签名关键词。这里,正样本的定义是标签指示为预定类别的样本。
由于第二样本集合所包含的正样本通常有多个,因此相应地有多个正样本的消息签名,每个消息签名均可以包括至少一个词。根据本发明的一种实施方式,可以获取这些消息签名包括的所有词,统计每个词出现的频率,将出现频率最高的部分词确定为预定类别对应的签名关键词。
在获取预定类别对应的签名关键词之后,可以根据未标注样本的消息签名所包含的签名关键词的个数,计算未标注样本的签名一致性指标。其中,可以将未标注样本的消息签名与预定类别对应的签名关键词进行匹配,从而确定未标注样本的消息签名所包含的签名关键词的个数。
根据本发明的一种实施方式,可以按照以下公式来计算未标注样本的签名一致性指标:
Consistency=min(M,2)/2
式中,Consistency为未标注样本的签名一致性指标,M为签名关键词的个数。
对于签名倾向性指标的计算,可以确定第二样本集合中包括未标注样本的消息签名的正样本和包括未标注样本的消息签名的负样本。这里,负样本的定义是标签指示不为预定类别的样本。
而后可以计算包括未标注样本的消息签名的正样本和包括未标注样本的消息签名的负样本的数量之比,并根据该数量之比来计算未标注样本的签名倾向性指标。
根据本发明的一种实施方式,可以按照以下公式来计算未标注样本的签名倾向性指标:
Tendency=1-e-s
式中,Tendency为未标注样本的签名倾向性指标,s为上述数量之比。
步骤S410具体还可以包括步骤:为未标注样本计算第二标注指标。
根据本发明的一种实施方式,第二标注指标可以包括以下标注指标中的至少一个:样本不确定性指标(简称为不确定性指标)、样本密度指标(简称为密度指标)和样本多样性指标(简称为多样性指标)。
不确定性指标用于衡量样本对于分类模型110的不确定性。可以理解地,样本对于分类模型的不确定性越大,其包含的信息量也就越丰富。因此,可以选取不确定性高的样本进行标注。
在本发明的实施例中,可以根据未标注样本和分类模型110的参数,计算未标注样本的不确定性指标。其中,可以将未标注样本映射为对应的特征向量,该特征向量可以表征未标注样本的消息内容的特征。并且,获取当前训练得到的分类模型110的参数(通常是权重参数)。
可以利用本领域使用的任何特征提取方法来将未标注样本映射为对应的特征向量。例如,可以利用词袋模型或者词嵌入算法来将未标注样本映射为对应的特征向量。
根据本发明的一种实施方式,可以按照以下公式来计算未标注样本的不确定性指标:
Figure BDA0001803612910000111
式中,Uncertainty为未标注样本的不确定性指标,x为未标注样本的特征向量,w为分类模型的参数向量。
需要注意的是,不确定性指标可以具有多种不同的定义和计算方式,例如可以采用信息熵来衡量不确定性,又例如还可以采用后验概率来衡量不确定性。本发明对此不做限制。
密度指标用于衡量样本在样本空间的分布。可以理解地,孤立的样本(即离群的样本)会降低分类模型的性能,因此可以选取分布密度大的样本进行标注。
可以在第一样本集合中确定未标注样本的邻域,而后根据该邻域计算未标注样本的密度指标。具体地,根据本发明的一种实施方式,可以按照以下公式来计算未标注样本的密度指标:
Figure BDA0001803612910000121
式中,Density为当前未标注样本的密度指标,x为当前未标注样本的特征向量,N(x)为当前未标注样本的邻域,n为该邻域内除当前未标注样本以外的未标注样本的个数,xk为该邻域内除当前未标注样本以外的未标注样本的特征向量。
多样性指标用于衡量样本与已标注样本之间的差异性。可以理解地,用于训练分类模型的训练样本应当能够提供尽量全面的信息,也就是说,各个训练样本提供的信息应当不重复不冗余,即训练样本之间应当具有差异性。因此,可以选取差异性大的样本来进行标注。
可以根据未标注样本与第二样本集合所包含的已标注样本之间的距离,计算未标注样本的多样性指标。具体地,根据本发明的一种实施方式,可以按照以下公式来计算未标注样本的多样性指标:
Figure BDA0001803612910000122
式中,Diversity为当前未标注样本的多样性指标,x为当前未标注样本的特征向量,U为第一样本集合,L为第二样本集合,xi为第一样本集合所包含的样本的特征向量,xj为第二样本集合L所包含的样本的特征向量,d(xi,xj)为第一样本集合所包含的样本与第二样本集合所包含的样本之间的距离,d(x,xj)为当前未标注样本与第二样本集合所包含的样本之间的距离。
可以利用本领域的任何可以体现相似性的距离算法来计算样本之间的距离。例如可以利用欧氏距离算法来计算样本之间的距离,也可以利用余弦相似度的算法来计算样本之间的距离。本发明对此不做限制。
此外,根据本发明的另一种实施方式,第二标注指标可以包括以下标注指标中的至少一个:上述样本不确定性指标、样本密度指标、样本多样性指标、基于投票委员会算法(query by committee)的标注指标(简称为投票委员会指标)、基于误差缩减算法(errorreduction)的标注指标(简称为误差缩减指标)和基于方差缩减算法(variancereduction)的标注指标(简称为方差缩减指标)。其中,基于投票委员会算法的标注指标、基于误差缩减算法的标注指标和基于方差缩减算法的标注指标的计算为本领域技术人员的公知技术,这里不展开描述。
需要注意的是,本发明对第二标注指标的具体形式和内容不做限制。任何可以体现样本对分类模型的标注价值的标注指标均在本发明的保护范围之内。
为未标注样本计算多个标注指标之后,在步骤S420中,基于多个标注指标,选择多个未标注样本进行标注。具体地,可以对多个标注指标进行加权求和,得到未标注样本的标注价值分数。其中,各个标注指标对应的权重可以根据分类模型的性能而不断调整。
在本发明的实施例中,步骤S420具体可以包括步骤:基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。那么,可以对第一标注指标和第二标注指标进行加权求和,得到未标注样本的标注价值分数。
得到未标注样本的标注价值分数之后,可以从第一样本集合中选择标注价值分数较大的多个未标注样本。
具体地,可以将第一样本集合所包含的多个未标注样本按照标注价值分数,从大到小地排序。而后选择其中排在前列的多个未标注样本,也就是标注价值分数较高的多个未标注样本。
这样,即选择到了对分类模型110来说标注价值高的未标注样本。
根据本发明的一种实施方式,在选择多个未标注样本进行标注之后,可以更新第一样本集合和第二样本集合。即,将这标注好的多个未标注样本从第一样本集合移动至第二样本集合。
而后,采用更新后的第二样本集合继续训练分类模型110,以调整分类模型110的参数。
根据本发明的一种实施方式,可以重复上述计算标注指标、选择未标注样本进行标注、更新样本集合和训练分类模型的步骤,直至重复次数达到预定次数阈值、或者分类模型的性能达到预定目标、或者第一样本集合为空。
图5示出了根据本发明一个实施例的文本分类方法500的流程图。如图5所示,文本分类方法500始于步骤S510。
在步骤S510中,基于消息签名,为未标注样本计算第一标注指标。
在步骤S520中,为未标注样本计算第二标注指标,第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个。
最后在步骤S530中,基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。
以上在结合图1~图4说明文本分类方法400的具体描述中已经对各步骤中的相应处理进行了详细解释,这里不再对重复内容进行赘述。
综上,根据本发明实施例的文本分类方法基于主动学习方法选择出对分类模型标注价值较高的样本进行标注,从而可以在较小标注量的情况下训练得到较高性能的分类模型,极大地减少了训练集的数据量以及标注成本。
其中,根据本发明实施例的文本分类方法采用多个标注指标来选择样本,可以从多个维度衡量未标注样本对分类模型的标注价值,从而可以有效地选择出对分类模型标注价值最高的样本,以便对分类模型实现更好地优化,提高分类模型的性能。进一步地,还采用了基于消息签名的第一标注指标,可以从消息签名的维度来衡量未标注样本的标注价值,从而可以更有效地选择出高标注价值的样本。
以用于确定消息是否为房地产行业的分类模型为例,初始的训练集包括300个已标注样本,F1值为0.58。仅基于不确定性指标来选择样本并训练样本,使得训练集包括的已标注样本数量达到2000时,其F1值为0.64。仅基于密度指标来选择样本并训练样本,使得训练集包括的已标注样本数量达到2000时,其F1值为0.62。仅基于多样性指标来选择样本并训练样本,使得训练集包括的已标注样本数量达到2000时,其F1值为0.61。基于不确定性指标、密度指标和多样性指标来选择样本并训练样本,使得训练集包括的已标注样本数量达到2000时,其F1值为0.69。根据本发明实施例的文本分类方法,基于签名一致性指标、签名倾向性指标、不确定性指标、密度指标和多样性指标来选择样本并训练样本,使得训练集包括的已标注样本数量达到2000时,其F1值为0.74。
显然地,根据本发明实施例的文本分类方法,在相同标注量的情况下,可以让分类模型达到更好的性能。
应当理解,这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被该机器执行时,该机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的该程序代码中的指令,执行本发明的各种方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (20)

1.一种文本分类方法,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,所述分类模型适于为消息进行分类,所述样本包括消息签名,所述方法包括步骤:
基于消息签名,为所述未标注样本计算第一标注指标;
为所述未标注样本计算第二标注指标,所述第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及
基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。
2.如权利要求1所述的方法,其中,所述分类模型适于确定消息是否为预定类别,并采用包括多个已标注样本的第二样本集合训练得到,所述已标注样本的标签指示样本是否为所述预定类别。
3.如权利要求2所述的方法,其中,所述第一标注指标包括签名一致性指标,所述基于消息签名,为所述未标注样本计算第一标注指标的步骤包括:
获取所述预定类别对应的签名关键词;
根据所述未标注样本的消息签名所包含的所述签名关键词的个数,计算所述未标注样本的签名一致性指标。
4.如权利要求3所述的方法,其中,所述获取预定类别对应的签名关键词的步骤包括:
确定所述第二样本集合所包含的正样本,所述正样本为标签指示为所述预定类别的样本;
根据正样本的消息签名,确定所述预定类别对应的签名关键词。
5.如权利要求3所述的方法,其中,所述未标注样本的签名一致性指标按照以下公式计算:
Consistency=min(M,2)/2
式中,Consistency为所述未标注样本的签名一致性指标,M为所述签名关键词的个数。
6.如权利要求2所述的方法,其中,所述第一标注指标包括签名倾向性指标,所述基于消息签名,为所述未标注样本计算第一标注指标的步骤包括:
确定所述第二样本集合中包括所述未标注样本的消息签名的正样本和包括所述未标注样本的消息签名的负样本,所述负样本为标签指示不为所述预定类别的样本;
计算包括所述未标注样本的消息签名的正样本和包括所述未标注样本的消息签名的负样本的数量之比;
根据所述数量之比计算所述未标注样本的签名倾向性指标。
7.如权利要求6所述的方法,其中,所述未标注样本的签名倾向性指标按照以下公式计算:
Tendency=1-e-s
式中,Tendency为所述未标注样本的签名倾向性指标,s为所述数量之比。
8.如权利要求2所述的方法,其中,所述为所述未标注样本计算第二标注指标的步骤包括:
根据所述未标注样本和所述分类模型的参数,计算所述未标注样本的不确定性指标。
9.如权利要求8所述的方法,其中,所述未标注样本的不确定性指标按照以下公式计算:
Figure FDA0001803612900000021
式中,Uncertainty为所述未标注样本的不确定性指标,x为所述未标注样本的特征向量,w为所述分类模型的参数向量。
10.如权利要求2所述的方法,其中,所述为所述未标注样本计算第二标注指标的步骤包括:
在所述第一样本集合中确定所述未标注样本的邻域;
根据所述邻域计算所述未标注样本的密度指标。
11.如权利要求10所述的方法,其中,所述未标注样本的密度指标按照以下公式计算:
Figure FDA0001803612900000031
式中,Density为当前未标注样本的密度指标,x为当前未标注样本的特征向量,N(x)为当前未标注样本的邻域,n为所述邻域内除当前未标注样本以外的未标注样本的个数,xk为所述邻域内除当前未标注样本以外的未标注样本的特征向量。
12.如权利要求2所述的方法,其中,所述为所述未标注样本计算第二标注指标的步骤包括:
根据所述未标注样本与所述第二样本集合所包含的已标注样本之间的距离,计算所述未标注样本的多样性指标。
13.如权利要求12所述的方法,其中,所述未标注样本的多样性指标按照以下公式计算:
Figure FDA0001803612900000032
式中,Diversity为当前未标注样本的多样性指标,x为当前未标注样本的特征向量,U为第一样本集合,L为第二样本集合,xi为第一样本集合所包含的样本的特征向量,xj为第二样本集合L所包含的样本的特征向量,d(xi,xj)为第一样本集合所包含的样本与第二样本集合所包含的样本之间的距离,d(x,xj)为当前未标注样本与第二样本集合所包含的样本之间的距离。
14.如权利要求1所述的方法,其中,所述基于第一标注指标和第二标注指标,选择多个未标注样本进行标注的步骤包括:
对第一标注指标和第二标注指标进行加权求和,得到所述未标注样本的标注价值分数;
从第一样本集合中选择标注价值分数较大的所述多个未标注样本。
15.如权利要求1所述的方法,其中,所述方法还包括步骤:
在选择多个未标注样本进行标注之后,更新所述第一样本集合和所述第二样本集合;
采用更新后的第二样本集合继续训练所述分类模型,以调整所述分类模型的参数。
16.如权利要求15所述的方法,其中,所述方法还包括步骤:
重复上述计算标注指标、选择未标注样本进行标注、更新样本集合和训练分类模型的步骤,直至重复次数达到预定次数阈值、或者分类模型的性能达到预定目标。
17.如权利要求1所述的方法,其中,所述预定类别为预定行业。
18.一种文本分类装置,适于从包括多个未标注样本的第一样本集合中选择用于分类模型的样本,所述分类模型适于为消息进行分类,所述样本包括消息签名,所述装置包括:
第一指标计算单元,适于基于消息签名,为所述未标注样本计算第一标注指标;
第二指标计算单元,适于为所述未标注样本计算第二标注指标,所述第二标注指标包括不确定性指标、密度指标、多样性指标、投票委员会指标、误差缩减指标和方差缩减指标中的至少一个;以及
样本选择单元,适于基于第一标注指标和第二标注指标,选择多个未标注样本进行标注。
19.一种计算设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如权利要求1-17所述的文本分类方法中的任一方法的指令。
20.一种存储程序的可读存储介质,所述程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如权利要求1-17所述的文本分类方法中的任一方法。
CN201811087865.0A 2018-09-18 2018-09-18 文本分类方法、装置、计算设备及可读存储介质 Active CN110909157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811087865.0A CN110909157B (zh) 2018-09-18 2018-09-18 文本分类方法、装置、计算设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811087865.0A CN110909157B (zh) 2018-09-18 2018-09-18 文本分类方法、装置、计算设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110909157A true CN110909157A (zh) 2020-03-24
CN110909157B CN110909157B (zh) 2023-04-11

Family

ID=69812830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811087865.0A Active CN110909157B (zh) 2018-09-18 2018-09-18 文本分类方法、装置、计算设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110909157B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897912A (zh) * 2020-07-13 2020-11-06 上海乐言信息科技有限公司 一种基于采样频率优化的主动学习短文本分类方法和系统
CN112667813A (zh) * 2020-12-30 2021-04-16 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040019601A1 (en) * 2002-07-25 2004-01-29 International Business Machines Corporation Creating taxonomies and training data for document categorization
US20090125461A1 (en) * 2007-11-09 2009-05-14 Microsoft Corporation Multi-Label Active Learning
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN103166830A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 一种智能选择训练样本的垃圾邮件过滤系统和方法
US20160344770A1 (en) * 2013-08-30 2016-11-24 Rakesh Verma Automatic Phishing Email Detection Based on Natural Language Processing Techniques
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040019601A1 (en) * 2002-07-25 2004-01-29 International Business Machines Corporation Creating taxonomies and training data for document categorization
US20090125461A1 (en) * 2007-11-09 2009-05-14 Microsoft Corporation Multi-Label Active Learning
CN102279887A (zh) * 2011-08-18 2011-12-14 北京百度网讯科技有限公司 一种文档分类方法、装置及系统
CN103166830A (zh) * 2011-12-14 2013-06-19 中国电信股份有限公司 一种智能选择训练样本的垃圾邮件过滤系统和方法
US20160344770A1 (en) * 2013-08-30 2016-11-24 Rakesh Verma Automatic Phishing Email Detection Based on Natural Language Processing Techniques
CN107169049A (zh) * 2017-04-25 2017-09-15 腾讯科技(深圳)有限公司 应用的标签信息生成方法及装置
CN107577785A (zh) * 2017-09-15 2018-01-12 南京大学 一种适用于法律识别的层次多标签分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
康杨杨: ""个性化信息检索中用户偏好分析技术研究"" *
杨彪: ""基于电子商务的评论文本情感极性等级分析"" *
胡正平;高文涛;万春艳;: "基于样本不确定性和代表性相结合的可控主动学习算法研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111897912A (zh) * 2020-07-13 2020-11-06 上海乐言信息科技有限公司 一种基于采样频率优化的主动学习短文本分类方法和系统
CN111897912B (zh) * 2020-07-13 2021-04-06 上海乐言科技股份有限公司 一种基于采样频率优化的主动学习短文本分类方法和系统
CN112667813A (zh) * 2020-12-30 2021-04-16 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法
CN112667813B (zh) * 2020-12-30 2022-03-01 北京华宇元典信息服务有限公司 用于裁判文书的敏感身份信息的识别方法

Also Published As

Publication number Publication date
CN110909157B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
US11907277B2 (en) Method, apparatus, and computer program product for classification and tagging of textual data
CN107977347B (zh) 一种题目去重方法和计算设备
US8688603B1 (en) System and method for identifying and correcting marginal false positives in machine learning models
CN110929025A (zh) 垃圾文本的识别方法、装置、计算设备及可读存储介质
WO2023279045A1 (en) Ai-augmented auditing platform including techniques for automated document processing
EP3591539A1 (en) Parsing unstructured information for conversion into structured data
US10929775B2 (en) Statistical self learning archival system
JP2022512065A (ja) 画像分類モデルの訓練方法、画像処理方法及び装置
AU2020200232A1 (en) Method and system for determining risk score for a contract document
CN110019790A (zh) 文本识别、文本监控、数据对象识别、数据处理方法
WO2020143301A1 (zh) 一种训练样本有效性检测方法、计算机设备及计算机非易失性存储介质
US20230177251A1 (en) Method, device, and system for analyzing unstructured document
US20180121792A1 (en) Differentiable set to increase the memory capacity of recurrent neural networks
CN110929026B (zh) 一种异常文本识别方法、装置、计算设备及介质
CN110909157B (zh) 文本分类方法、装置、计算设备及可读存储介质
CN111651990A (zh) 一种实体识别方法、计算设备及可读存储介质
CN115795000A (zh) 基于联合相似度算法对比的围标识别方法和装置
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN114372518B (zh) 一种基于解题思路和知识点的试题相似度计算方法
CN111488452A (zh) 一种网页篡改检测方法、检测系统及相关设备
CN115203364A (zh) 软件故障反馈处理方法、装置、设备及可读存储介质
CN111414483B (zh) 一种文档处理设备和方法
CN113988085A (zh) 文本语义相似度匹配方法、装置、电子设备及存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113535888A (zh) 一种情感分析装置、方法、计算设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant