CN116992033A - 文本分类的阈值确定方法、分类方法及相关装置 - Google Patents
文本分类的阈值确定方法、分类方法及相关装置 Download PDFInfo
- Publication number
- CN116992033A CN116992033A CN202311241919.5A CN202311241919A CN116992033A CN 116992033 A CN116992033 A CN 116992033A CN 202311241919 A CN202311241919 A CN 202311241919A CN 116992033 A CN116992033 A CN 116992033A
- Authority
- CN
- China
- Prior art keywords
- text
- classification
- text classification
- threshold
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000012360 testing method Methods 0.000 claims abstract description 168
- 238000011156 evaluation Methods 0.000 claims abstract description 123
- 239000013598 vector Substances 0.000 claims abstract description 63
- 238000013145 classification model Methods 0.000 claims abstract description 51
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000009826 distribution Methods 0.000 claims description 35
- 238000003860 storage Methods 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 18
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种文本分类的阈值确定方法、分类方法及相关装置,属于数据处理技术领域。方法包括:获得文本测试集中多个待分类文本的预测分类概率向量;根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集;对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值;根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间;根据候选阈值区间,确定预设文本分类模型的文本分类目标阈值。根据本申请实施例,可以提升查找文本分类阈值的效率,提高文本分类阈值的准确性和泛化性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种文本分类的阈值确定方法、分类方法及相关装置、电子设备、计算机可读存储介质。。
背景技术
分类阈值是分类问题中的重要参数之一,分类阈值是否合理准确对分类结果的影响较大,因此,可以通过一些分类阈值优化方法确定出较为准确合理的分类阈值。在相关技术中,可以基于均匀采样的方式得到少量样本阈值,并通过性能模拟从中选择性能最佳的样本阈值作为目标阈值,或者将各个样本阈值的性能表现绘制成一条平滑曲线,依据经验从该平滑曲线选取一个最优阈值。这些方式虽然可以在一定程度上提高分类阈值的准确性,但是查找效率较低,且无法保障分类阈值的泛化能力。
发明内容
本申请提供一种文本分类的阈值确定方法、分类方法及相关装置、电子设备、计算机可读存储介质,可以提升查找文本分类阈值的效率,提高文本分类阈值的准确性和泛化性。
第一方面,本申请提供了一种文本分类的阈值确定方法,该阈值确定方法包括:基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到所述文本测试集中多个待分类文本的预测分类概率向量;根据所述文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得所述M个文本分类样本阈值对应的M个预测分类结果集,所述M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的所述文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M;根据所述M个文本分类样本阈值对应的M个预测分类结果集以及所述文本测试集中各个待分类文本的预期文本分类结果,对所述M个文本分类样本阈值进行评估,得到所述M个文本分类样本阈值对应的M个评估值;根据所述M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,所述候选阈值区间是以所述M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间;根据所述候选阈值区间,确定所述预设文本分类模型的文本分类目标阈值。
第二方面,本申请提供了一种文本分类方法,该文本分类方法包括:基于预设文本分类模型对目标文本进行文本分类,得到所述目标文本的预测分类概率向量;基于所述预设文本分类模型的文本分类目标阈值和所述预测分类概率向量进行预测分类结果的确定,得到所述目标文本的预测分类结果;其中,所述文本分类目标阈值是根据本申请实施例中任一项所述的文本分类的阈值确定方法确定的。
第三方面,本申请提供了一种文本分类的阈值确定装置,该阈值确定装置包括:第一分类模块,用于基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到所述文本测试集中多个待分类文本的预测分类概率向量;第一结果确定模块,用于根据所述文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得所述M个文本分类样本阈值对应的M个预测分类结果集,所述M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的所述文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M;评估模块,用于根据所述M个文本分类样本阈值对应的M个预测分类结果集以及所述文本测试集中各个待分类文本的预期文本分类结果,对所述M个文本分类样本阈值进行评估,得到所述M个文本分类样本阈值对应的M个评估值;区间确定模块,用于根据所述M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,所述候选阈值区间是以所述M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间;阈值确定模块,用于根据所述候选阈值区间,确定所述预设文本分类模型的文本分类目标阈值。
第四方面,本申请提供了一种文本分类装置,该文本分类装置包括:第二分类模块,基于预设文本分类模型对目标文本进行文本分类,得到所述目标文本的预测分类概率向量;第二结果确定模块,用于基于所述预设文本分类模型的文本分类目标阈值和所述预测分类概率向量进行预测分类结果的确定,得到所述目标文本的预测分类结果;其中,所述文本分类目标阈值是根据本申请实施例中任一项所述的文本分类的阈值确定方法确定的。
第五方面,本申请提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的文本分类的阈值确定方法或者文本分类方法。
第六方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的文本分类的阈值确定方法或者文本分类方法。
本申请所提供的实施例,基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到文本测试集中多个待分类文本的预测分类概率向量;根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集,M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M;根据M个文本分类样本阈值对应的M个预测分类结果集以及文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值;根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,候选阈值区间是以M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间;根据候选阈值区间,确定文本分类目标阈值。在本申请实施例中,由于M个文本分类样本阈值服从预设概率分布,因此,不同阈值取值范围内的文本分类样本阈值的分布数量也相应不同,从而能够针对不同阈值取值范围进行不同强度的文本分类样本阈值的评估,可以将处理资源在不同阈值取值范围进行合理分布,提高了查找文本分类阈值的效率;另外,在得到各个文本分类样本阈值的评估值之后,通过梯度计算的方式,可以确定出一个候选阈值区间,并可以根据该候选阈值区间确定出文本分类目标阈值,相较于直接寻找评估极值以确定文本分类目标阈值的方式而言,本申请的方式可以提高文本分类阈值的稳定性和泛化性。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本申请的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请,并不构成对本申请的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,附图如下所示。
图1为本申请实施例提供的一种文本分类的阈值确定方法的流程图。
图2为本申请实施例提供的一种文本分类的阈值确定方法的示意图。
图3为本申请实施例提供的一种文本分类的阈值确定方法的流程示意图。
图4为本申请实施例提供的一种文本分类方法的流程图。
图5为本申请实施例提供的一种文本分类的阈值确定装置的框图。
图6为本申请实施例提供的一种文本分类装置的框图。
图7为本申请实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本申请的技术方案,以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本申请各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本申请。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本申请的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在相关技术中,通常基于均匀采样的方式得到少量文本分类样本阈值(例如,在取值从0到1的区间内均匀采样得到多个文本分类样本阈值),并通过性能模拟从中选择性能最佳的文本分类样本阈值作为目标阈值,也可以将各个文本分类样本阈值的性能表现绘制成一条平滑曲线,依据经验从该平滑曲线选取一个最优阈值。这些方式虽然可以在一定程度上提高文本分类阈值的准确性,但是该文本分类阈值的准确性仍然较低,且查找该文本分类阈值的效率较低,无法保障文本分类阈值的泛化能力。
有鉴于此,本申请实施例提供一种文本分类的阈值确定方法、分类方法及相关装置、电子设备、计算机可读存储介质。
在本申请实施例的文本分类的阈值确定方法中,由于M个文本分类样本阈值服从预设概率分布,因此,不同阈值取值范围内的文本分类样本阈值的分布数量也相应不同,从而能够针对不同阈值取值范围进行不同强度的文本分类样本阈值的评估,可以将处理资源在不同阈值取值范围进行合理分布,提高了查找文本分类阈值的效率;另外,在得到各个文本分类样本阈值的评估值之后,通过梯度计算的方式,可以确定出一个候选阈值区间,并可以根据该候选阈值区间确定出文本分类目标阈值,相较于直接寻找评估极值以确定文本分类目标阈值的方式而言,本申请的方式可以提高文本分类阈值的稳定性和泛化性。
根据本申请实施例的文本分类的阈值确定方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,所述方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。服务器可以是独立的物理服务器、由多个服务器组成的服务器集群或者能够进行云计算的云服务器。
第一方面,本申请实施例提供一种文本分类的阈值确定方法。
图1为本申请实施例提供的一种文本分类的阈值确定方法的流程图。参照图1,该文本分类的阈值确定方法可以包括以下步骤。
步骤S11,基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到文本测试集中多个待分类文本的预测分类概率向量。
在一些可选的实现方式中,预设文本分类模型是预先设置好的用于实现文本分类的模型。而且,预设文本分类模型可以是二分类的文本分类模型,也可以是多分类的文本分类模型,本申请实施例对此不作限制。
例如,预设文本分类模型可以是用于进行文本分类的二分类器或者多分类器。
在一些可选的实现方式中,文本测试集的数量可以是一个或多个,且每个文本测试集中可以包括多个待分类文本。与之相应的,通过文本分类处理之后,可以得到各个文本测试集中每个待分类文本的预测分类概率向量。
在一些可选的实现方式中,预测分类概率向量中包括至少一个预测概率值。
例如,针对二分类形式的预设文本分类模型,若文本类别包括文本类别1和文本类别2,则对应的预测分类概率向量中可以仅包括一个预测概率值p1,该预测概率值p1表征待分类文本属于文本类别1的概率,相应的,该待分类文本属于文本类别2的概率为1-p1。
例如,针对多分类形式的预设文本分类模型,若文本类别的数量为K个(K≥3),则对应的预测分类概率向量中可以包括K个预测概率值,预测概率值p(i)表征待分类文本属于第i个文本类别的概率,1≤i≤K。
步骤S12,根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集。
在一些可选的实现方式中,在进行文本分类时,需要借助文本分类阈值判断待分类文本属于哪个文本类别,而文本分类样本阈值则是关于文本分类阈值的样本。
在一些可选的实现方式中,M个文本分类样本阈值服从预设概率分布,且文本分类样本阈值的取值范围在0到1之间,M≥1。
例如,M个文本分类样本阈值服从以均值为0.5的正态分布。由此可知,M个文本分类样本阈值中,大部分取值在0.5左右。基于此,后续可以针对0.5附近的文本分类样本阈值进行重点评估,以确定出较为准确的文本分类阈值。
例如,M个文本分类样本阈值服从以均值为0.6的正态分布。由此可知,M个文本分类样本阈值中,大部分取值在0.6左右。基于此,后续可以针对0.6附近的文本分类样本阈值进行重点评估,以确定出较为准确的文本分类阈值。
由此可知,预设概率分布可以反映文本分类样本阈值取值的概率规律,并且,通过设置不同的预设概率分布,可以针对不同取值区间的文本分类样本阈值进行重点评估,从而实现对处理资源的合理分配,提高查找文本分类阈值的效率。
在一些可选的实现方式中,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M。也就是说,每个文本分类样本阈值均可以作为一个分类基准,因此,针对每个文本分类样本阈值,可以得到基于该文本分类样本阈值确定的预测分类结果集。
在一些可选的实现方式中,待分类文本属于第一文本类别或者第二文本类别,且预测分类概率向量包括用于表征待分类文本属于第一文本类别的第一预测概率值;相应的,根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集,包括:以第i个文本分类样本阈值作为划分第一文本类别与第二文本类别的基准,根据文本测试集中的各个待分类文本的第一预测概率值,确定文本测试集中的各个待分类文本的预测文本分类结果,获得与第i个文本分类样本阈值对应的第i个预测分类结果集。
在一些可选的实现方式中,文本测试集的数量为N个,N≥1;相应的,以第i个文本分类样本阈值作为划分第一文本类别与第二文本类别的基准,根据文本测试集中的各个待分类文本的第一预测概率值,确定文本测试集中的各个待分类文本的预测文本分类结果,获得与第i个文本分类样本阈值对应的第i个预测分类结果集,包括:比较第n个文本测试集中第r个待分类文本的第一预测概率值与第i个文本分类样本阈值,得到比较结果,1≤n≤N,r≥1;在比较结果表征第n个文本测试集的第r个待分类文本的第一预测概率值大于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集的第r个待分类文本的预测文本分类结果为第一文本类别;在比较结果表征第n个文本测试集的第r个待分类文本的第一预测概率值小于或等于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集的第r个待分类文本的预测文本分类结果为第二文本类别。
例如,文本测试集的数量N为3,其中,第1个文本测试集中包括2个待分类文本text11和text12,分别对应第一预测概率值p11和p12;第2个文本测试集中包括3个待分类文本text21、text22和text23,分别对应第一预测概率值p21、p22和p32;第3个文本测试集中包括2个待分类文本text31和text32,分别对应第一预测概率值p31和p32。文本分类样本阈值的数量M为2,包括第1个文本分类样本阈值thr1和第2个文本分类样本阈值thr2。
首先,以第1个文本分类样本阈值thr1作为划分第一文本类别与第二文本类别的基准,确定各个待分类文本的预测文本分类结果。针对第1个文本测试集中的第1个待分类文本text11,比较其第一预测概率值p11与thr1的大小,如果p11大于thr1,则说明待分类文本text11的预测文本分类结果为第一文本类别;反之,如果p11小于或等于thr1,则说明待分类文本text11的预测文本分类结果为第二文本类别;针对第1个文本测试集中的第2个待分类文本text12,比较其第一预测概率值p12与thr1的大小,如果p12大于thr1,则说明待分类文本text12的预测文本分类结果为第一文本类别;反之,如果p12小于或等于thr1,则说明待分类文本text11的预测文本分类结果为第二文本类别。采用类似的方式,可以得到剩余各个待分类文本的预测文本分类结果。各个待分类文本的预测文本分类结果即构成了文本分类样本阈值thr1的预测分类结果集。
其次,以第2个文本分类样本阈值thr2作为划分第一文本类别与第二文本类别的基准,确定各个待分类文本的预测文本分类结果。针对第1个文本测试集中的第1个待分类文本text11,比较其第一预测概率值p11与thr2的大小,如果p11大于thr2,则说明待分类文本text11的预测文本分类结果为第一文本类别;反之,如果p11小于或等于thr2,则说明待分类文本text11的预测文本分类结果为第二文本类别;针对第1个文本测试集中的第2个待分类文本text12,比较其第一预测概率值p12与thr2的大小,如果p12大于thr2,则说明待分类文本text12的预测文本分类结果为第一文本类别;反之,如果p12小于或等于thr2,则说明待分类文本text11的预测文本分类结果为第二文本类别。采用类似的方式,可以得到剩余各个待分类文本的预测文本分类结果。各个待分类文本的预测文本分类结果即构成了文本分类样本阈值thr2的预测分类结果集。
在一些可选的实现方式中,待分类文本对应K个文本类别,K≥3,预测分类概率向量包括K个预测概率值,且第k个预测概率值表示待分类文本属于第k个文本类别的概率;相应的,根据N个文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类集,包括:针对第n个文本测试集中第r个待分类文本的预测分类概率向量,确定预测分类概率向量的K个预测概率值中的最大概率值,并将最大概率值所对应的文本类别确定为备选文本类别;比较最大概率值与第i个文本分类样本阈值,得到比较结果;在比较结果为最大概率值大于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集中第r个待分类文本的预测文本分类结果为备选文本类别;在比较结果为最大概率值小于或等于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集中第r个待分类文本的预测文本分类结果为无文本类别,无文本类别表示待分类文本的文本类别不属于K个文本类别。
例如,假设文本分类样本阈值为0.6,待分类文本的预测分类概率向量为{0.15,0.1,0.65,0.1},表示待分类文本属于第1个文本类别的概率为0.15,属于第2个文本类别的概率为0.1,属于第3个文本类别的概率为0.65,属于第4个文本类别的概率为0.1。由于其中最大的预测概率值为0.65,且0.65大于文本分类样本阈值0.6,因此,判断该待分类文本属于第3个文本类别。
例如,假设文本分类样本阈值为0.6,待分类文本的预测分类概率向量为{0.15,0.2,0.3,0.35},表示待分类文本属于第1个文本类别的概率为0.15,属于第2个文本类别的概率为0.2,属于第3个文本类别的概率为0.3,属于第4个文本类别的概率为0.35。由于其中最大的预测概率值为0.35,且0.35小于文本分类样本阈值0.6,因此,判断该待分类文本为无文本类别,而非属于第4个文本类别。也就是说,虽然确定出最大的预测概率值,但是该最大的预测概率值的取值较小,因此,无法较为肯定地确定待分类文本属于该最大的预测概率值所对应的文本类别。
由此可知,在多分类情况下,文本分类样本阈值用于与预测分类概率向量中的最大预测概率值进行比较,以明确是否可以将待分类文本划分到任意一个文本类别中,若无法将待分类文本划分到任意一个文本类别中,则判断该待分类文本为无文本类别。
步骤S13,根据M个文本分类样本阈值对应的M个预测分类结果集以及文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值。
在一些可选的实现方式中,评估值是用于反映文本分类样本阈值的准确性的分值。
在一些可选的实现方式中,M个评估值的获取过程可以包括:根据第i个文本分类样本阈值的预测分类结果集以及N个文本测试集的预期文本分类结果,以文本测试集为单位进行精确率(Precision)和召回率(Recall)计算,得到与N个文本测试集对应的N个精度和N个召回率;确定各个文本测试集的权重;根据N个精确率、N个召回率和各个文本测试集的权重进行加权计算,获得第i个文本分类样本阈值的评估值。
示例性地,针对第i个文本分类样本阈值,以文本测试集为单位进行精确率和召回率计算,基于该精确率和召回率计算各个文本测试集的F1分数(F1 Score),然后结合各个文本测试集的权重对F1分数进行加权计算,从而得到关于第i个文本分类样本阈值的评估值(即第i个评估值)。
例如,第i个文本分类样本阈值的评估值可以通过以下公式获得:。其中,/>表示文本测试集的序号,/>表示文本测试集的总数量,/>表示第个文本测试集的权重,/>表示第个文本测试集基于第i个文本分类样本阈值计算得到的F1分数。
在一些可选的实现方式中,确定各个文本测试集的权重,包括:根据第n个文本测试集中的待分类文本的数量与N个文本测试集的待分类文本的总数量之间的比值,得到第n个文本测试集的权重。换言之,待分类文本数量越多,则相应文本测试集的权重也相应越大。
在一些可选的实现方式中,在多分类场景中,可能存在无文本类别的情况(即无法将待分类文本划分到任意一个文本类别中),针对这一问题,在确定评估值时,可以将无文本类别的预测分类结果排除出去,不让无文本类别的这部分待分类文本参与到评估值的计算中。
在一些可选的实现方式中,待分类文本对应K个文本类别,K≥3;相应的,根据M个文本分类样本阈值对应的M个预测分类结果集以及N个文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值之前,该方法还包括:将预测文本分类结果为无文本类别的待分类文本在对应的文本测试集中置为无效状态,得到处理后的N个文本测试集;将无文本类别的预测文本分类结果在对应的预测分类结果集中置为无效状态,得到处理后的M个预测分类结果集;其中,置为无效状态的数据不参与后续的计算过程;相应的,根据M个文本分类样本阈值对应的M个预测分类结果集以及N个文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值,包括:根据处理后的M个预测分类结果集以及处理后的N个文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值。
例如,对于第i个文本分类样本阈值thr(i),若基于thr(i)对第n个文本测试集中的待分类文本确定预测分类结果之后,其中存在预测文本分类结果为无文本类别的待分类文本,则这部分无文本类别的预测分类结果不再参与后续评估值的计算,而是基于剩余的、可以明确归属文本类别的待分类文本的预测分类结果进行精确率和召回率的计算,然后根据N个精确率、N个召回率和各个文本测试集的权重进行加权计算(N表示文本测试集的数量),获得第i个文本分类样本阈值的评估值。
步骤S14,根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间。
在一些可选的实现方式中,候选阈值区间是以M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间。
在一些可选的实现方式中,根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,包括:基于文本分类样本阈值从小到大的顺序,对M个评估值进行排序,得到评估值散点序列;以评估值散点序列的第1个评估值为起点,计算相邻两个评估值之间的左梯度;在相邻的T个评估值所对应的T-1个左梯度均小于第一梯度阈值的情况下,根据T个评估值中最左侧的评估值确定区间左端点,T>1;以评估值散点序列的第M个评估值为起点,计算相邻两个评估值之间的右梯度;在相邻的Q个评估值所对应的Q-1个右梯度均小于第二梯度阈值的情况下,根据Q个评估值中最右侧的评估值确定区间右端点,Q>1;基于区间左端点和区间右端点,确定候选阈值区间。
示例性地,按照M个文本分类样本阈值从小到大的顺序,对M个评估值进行排序,可以得到一个评估值散点序列,其中的每个散点可以记为sp(thr(i),Fi),表示文本分类样本阈值为thr(i)、对应评估值为Fi的散点。针对上述评估值散点序列,并非直接寻找评估值最大的文本分类样本阈值,而是先寻找一个满足极值条件的最优区间(最优区间即为候选阈值区间),然后基于该最优区间确定最优阈值(最优阈值即为文本分类目标阈值),以此来提高阈值的泛化能力和稳定性。
进一步地,定义左梯度为,定义右梯度为/>,T=3,Q=3,定义超参ε为极值条件,分别从sp(thr(1),F1)和sp(thr(M),FM)开始计算相邻两个散点之间的左梯度和右梯度,当左梯度连续3次低于ε时停止左侧的计算,将对应的第1次低于ε时的散点所对应的文本分类样本阈值确定为区间左端点,类似的,当右梯度连续3次低于ε时停止右侧的计算,将对应的第1次低于ε时的散点所对应的文本分类样本阈值确定为区间右端点。
步骤S15,根据候选阈值区间,确定预设文本分类模型的文本分类目标阈值。
在一些可选的实现方式中,根据候选阈值区间的区间左端点所对应的文本分类样本阈值和区间右端点所对应的文本分类样本阈值,进行算术平均计算,得到预设文本分类模型的文本分类目标阈值。
示例性地,区间左端点对应的文本分类样本阈值为thr(l),区间右端点对应的文本分类样本阈值为thr(r),则文本分类目标阈值thr_best=(thr(l)+thr(r))/2。
根据本申请的实施例,基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到文本测试集中多个待分类文本的预测分类概率向量;根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集,M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M;根据M个文本分类样本阈值对应的M个预测分类结果集以及文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值;根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,候选阈值区间是以M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间;根据候选阈值区间,确定文本分类目标阈值。在本申请实施例中,由于M个文本分类样本阈值服从预设概率分布,因此,不同阈值取值范围内的文本分类样本阈值的分布数量也相应不同,从而能够针对不同阈值取值范围进行不同强度的文本分类样本阈值的评估,可以将处理资源在不同阈值取值范围进行合理分布,提高了查找文本分类阈值的效率;另外,在得到各个文本分类样本阈值的评估值之后,通过梯度计算的方式,可以确定出一个候选阈值区间,并可以根据该候选阈值区间确定出文本分类目标阈值,相较于直接寻找评估极值以确定文本分类目标阈值的方式而言,本申请的方式可以提高文本分类阈值的稳定性和泛化性。
图2为本申请实施例提供的一种文本分类的阈值确定方法的示意图。
参照图2,基于文本训练集对初始的文本分类模型进行训练之后,可以得到训练好的文本分类模型。针对训练好的文本分类模型,将N个文本测试集(包括文本测试集1、文本测试集2、……、文本测试集N)输入该文本分类模型,通过模型处理,可以获得N个文本测试集中的各个待分类文本的预测分类概率向量。
另外,设置文本分类阈值变量,该文本分类阈值变量服从以目标分类阈值为均值的正态分布,其中,目标分类阈值为文本分类错误率高于预设错误率阈值的文本分类阈值。采用蒙特卡洛方式对该正态分布进行随机采样,可以得到M个文本分类样本阈值,而且每个文本分类样本阈值均可以作为确定预测分类结果的基准概率。
如图2所示,以第1个文本分类样本阈值作为基准概率,根据N个文本测试集中的各个待分类文本的预测分类概率向量,可以得到第1个预测分类结果集。第1个预测分类结果集包括文本测试集1的预测分类结果11、文本测试集2的预测分类结果12、……、文本测试集N的预测分类结果1N。其中,文本测试集1的预测分类结果11中包括文本测试集1中的各个待分类文本的预测分类结果,文本测试集2的预测分类结果12中包括文本测试集2中的各个待分类文本的预测分类结果,其他预测分类结果中也包括对应文本测试集中的各个待分类文本的预测分类结果。
基于类似的方式,针对第i个文本分类样本阈值,可以得到与第i个文本分类样本阈值对应的第i个预测分类结果集。在第i个预测分类结果集中,包括各个文本测试集的每个待分类文本的预测分类结果。
针对每个文本分类样本阈值,根据对应的预测分类结果集和N个文本测试集的预期文本分类结果,计算精确率和召回率,然后根据精确率、召回率以及各个文本测试集的权重进行加权计算,从而得到各个文本分类样本阈值的评估值。如图2所示,第1个文本分类样本阈值对应第1个评估值,第2个文本分类样本阈值对应第2个评估值,……,第M个文本分类样本阈值对应第M个评估值。
最后,根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,并基于该候选阈值区间,确定预设文本分类模型的文本分类目标阈值。
图3为本申请实施例提供的一种文本分类的阈值确定方法的流程示意图。参照图3,该文本分类的阈值确定方法可以包括以下步骤。
步骤S301,确定文本分类阈值变量所服从的概率分布。
示例性地,文本分类阈值变量服从以目标分类阈值为均值的正态分布,目标分类阈值为文本分类错误率高于预设错误率阈值的文本分类阈值。
例如,定义文本分类阈值变量服从均值为0.5,标准差为1的正态分布,即Thr~N(0.5,1),同时定义文本分类阈值变量的约束条件为0<Thr<1。
步骤S302,根据概率分布对文本分类阈值变量进行抽样,获得M个文本分类样本阈值。
在一些可选的实现方式中,可以采用蒙特卡洛等方式实现对文本分类阈值变量的抽样,从而得到多个文本分类样本阈值。
例如,对Thr进行蒙特卡洛模拟,即在所定义的Thr~N(0.5,1)分布下随机抽取变量,如满足约束条件0<Thr<1,则将抽取的变量作为有效的文本分类样本阈值,并对该有效的文本分类样本阈值进行评估,如果不满足约束条件0<Thr<1,则重新抽取变量,直到获得预设数量(例如,10个、50个等)的文本分类样本阈值。
步骤S303,基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到文本测试集中多个待分类文本的预测分类概率向量。
步骤S304,以第i个文本分类样本阈值作为分类基准,根据各个文本测试集中多个待分类文本的预测分类概率向量进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集。
步骤S305,根据第i个文本分类样本阈值的预测分类结果集以及N个文本测试集的预期文本分类结果,以文本测试集为单位进行精确率和召回率计算,得到与N个文本测试集对应的N个精度和N个召回率。
步骤S306,确定各个文本测试集的权重。
步骤S307,根据N个精确率、N个召回率和各个文本测试集的权重进行加权计算,获得第i个文本分类样本阈值的评估值。
步骤S308,基于文本分类样本阈值从小到大的顺序,对M个评估值进行排序,得到评估值散点序列。
步骤S309,以评估值散点序列的第1个评估值为起点,计算相邻两个评估值之间的左梯度。
步骤S310,在相邻的T个评估值所对应的T-1个左梯度均小于第一梯度阈值的情况下,根据T个评估值中最左侧的评估值确定区间左端点,T>1。
步骤S311,以评估值散点序列的第M个评估值为起点,计算相邻两个评估值之间的右梯度。
步骤S312,在相邻的Q个评估值所对应的Q-1个右梯度均小于第二梯度阈值的情况下,根据Q个评估值中最右侧的评估值确定区间右端点,Q>1。
需要说明的是,左梯度和右梯度(或者区间左端点和区间右端点)可以并行地进行确定,也可以先后进行确定,本申请实施例对此不作限制。
步骤S313,基于区间左端点和区间右端点,确定候选阈值区间。
步骤S314,根据候选阈值区间的区间左端点所对应的文本分类样本阈值和区间右端点所对应的文本分类样本阈值,进行算术平均计算,得到预设文本分类模型的文本分类目标阈值。
可以理解,本申请提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本申请不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
第二方面,本申请实施例提供一种文本分类方法。
图4为本申请实施例提供的一种文本分类方法的流程图。参照图4,该文本分类方法可以包括以下步骤。
步骤S41,基于预设文本分类模型对目标文本进行文本分类,得到目标文本的预测分类概率向量。
步骤S42,基于预设文本分类模型的文本分类目标阈值和预测分类概率向量进行预测分类结果的确定,得到目标文本的预测分类结果。
其中,文本分类目标阈值是根据本申请实施例任一项的文本分类的阈值确定方法确定的。
在一些可选的实现方式中,目标文本属于第一文本类别或者第二文本类别,且预测分类概率向量包括用于表征目标文本属于第一文本类别的第一预测概率值。在得到目标文本的预测分类概率向量之后,比较第一预测概率值与文本分类目标阈值,在第一预测概率值大于文本分类目标阈值的情况下,确定目标文本的预测分类结果为第一文本类别;在第一预测概率值小于或等于文本分类目标阈值的情况下,确定目标文本的预测分类结果为第二文本类别。
在一些可选的实现方式中,目标文本对应K个文本类别,K≥3,预测分类概率向量包括K个预测概率值,且第k个预测概率值表示待分类文本属于第k个文本类别的概率。在得到目标文本的预测分类概率向量之后,首先比较K个预测概率值,筛选出取值最大的预测概率值pmax,然后比较预测概率值pmax与文本分类目标阈值,在预测概率值pmax大于文本分类目标阈值的情况下,确定目标文本的预测分类结果为预测概率值pmax所对应的文本类别;在预测概率值pmax小于或等于文本分类目标阈值的情况下,确定目标文本的预测分类结果为无文本类别。其中,预测分类结果为无文本类别时,表征无法确定出目标文本属于上述K个文本类别中哪一个。
在本申请实施例中,基于预设文本分类模型对目标文本进行文本分类,得到目标文本的预测分类概率向量,并基于预设文本分类模型的文本分类目标阈值和预测分类概率向量进行预测分类结果的确定,得到目标文本的预测分类结果。由于文本分类目标阈值较为准确合理,因此,基于文本分类目标阈值确定的预测分类结果的准确性也能得以提高。
第三方面,本申请实施例提供一种文本分类的阈值确定装置。
图5为本申请实施例提供的一种文本分类的阈值确定装置的框图。参照图5,该文本分类的阈值确定装置500可以包括以下模块。
第一分类模块501,用于基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到文本测试集中多个待分类文本的预测分类概率向量。
第一结果确定模块502,用于根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集,M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M。
评估模块503,用于根据M个文本分类样本阈值对应的M个预测分类结果集以及文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值。
区间确定模块504,用于根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,候选阈值区间是以M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间。
阈值确定模块505,用于根据候选阈值区间,确定预设文本分类模型的文本分类目标阈值。
在一些可选的实现方式中,第一结果确定模块502在根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集之前,阈值确定装置还用于执行以下步骤:确定文本分类阈值变量所服从的概率分布;根据概率分布对文本分类阈值变量进行抽样,获得M个文本分类样本阈值。
在一些可选的实现方式中,文本分类阈值变量服从以目标分类阈值 为均值的正态分布,目标分类阈值为文本分类错误率高于预设错误率阈值的文本分类阈值。
在一些可选的实现方式中,待分类文本属于第一文本类别或者第二文本类别,且预测分类概率向量包括用于表征待分类文本属于第一文本类别的第一预测概率值;相应的,第一结果确定模块502根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集时,执行以下步骤:以第i个文本分类样本阈值作为划分第一文本类别与第二文本类别的基准,根据文本测试集中的各个待分类文本的第一预测概率值,确定文本测试集中的各个待分类文本的预测文本分类结果,获得与第i个文本分类样本阈值对应的第i个预测分类结果集。
在一些可选的实现方式中,文本测试集的数量为N个,N≥1;以第i个文本分类样本阈值作为划分第一文本类别与第二文本类别的基准,根据文本测试集中的各个待分类文本的第一预测概率值,确定文本测试集中的各个待分类文本的预测文本分类结果,获得与第i个文本分类样本阈值对应的第i个预测分类结果集,包括:比较第n个文本测试集中第r个待分类文本的第一预测概率值与第i个文本分类样本阈值,得到比较结果,1≤n≤N,r≥1;在比较结果表征第n个文本测试集的第r个待分类文本的第一预测概率值大于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集的第r个待分类文本的预测文本分类结果为第一文本类别;在比较结果表征第n个文本测试集的第r个待分类文本的第一预测概率值小于或等于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集的第r个待分类文本的预测文本分类结果为第二文本类别。
在一些可选的实现方式中,评估模块503在根据M个文本分类样本阈值对应的M个预测分类结果集以及文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值时,执行以下步骤:根据第i个文本分类样本阈值的预测分类结果集以及N个文本测试集的预期文本分类结果,以文本测试集为单位进行精确率和召回率计算,得到与N个文本测试集对应的N个精度和N个召回率;确定各个文本测试集的权重;根据N个精确率、N个召回率和各个文本测试集的权重进行加权计算,获得第i个文本分类样本阈值的评估值。
在一些可选的实现方式中,确定各个文本测试集的权重,包括:根据第n个文本测试集中的待分类文本的数量与N个文本测试集的待分类文本的总数量之间的比值,得到第n个文本测试集的权重。
在一些可选的实现方式中,区间确定模块504在根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间时,执行以下步骤:基于文本分类样本阈值从小到大的顺序,对M个评估值进行排序,得到评估值散点序列;以评估值散点序列的第1个评估值为起点,计算相邻两个评估值之间的左梯度;在相邻的T个评估值所对应的T-1个左梯度均小于第一梯度阈值的情况下,根据T个评估值中最左侧的评估值确定区间左端点,T>1;以评估值散点序列的第M个评估值为起点,计算相邻两个评估值之间的右梯度;在相邻的Q个评估值所对应的Q-1个右梯度均小于第二梯度阈值的情况下,根据Q个评估值中最右侧的评估值确定区间右端点,Q>1;基于区间左端点和区间右端点,确定候选阈值区间。
在一些可选的实现方式中,阈值确定模块505在根据候选阈值区间,确定预设文本分类模型的文本分类目标阈值时,执行以下步骤:根据候选阈值区间的区间左端点所对应的文本分类样本阈值和区间右端点所对应的文本分类样本阈值,进行算术平均计算,得到预设文本分类模型的文本分类目标阈值。
在本申请实施例中,通过第一分类模块,基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到文本测试集中多个待分类文本的预测分类概率向量;通过第一结果确定模块,根据文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得M个文本分类样本阈值对应的M个预测分类结果集,M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M;通过评估模块,根据M个文本分类样本阈值对应的M个预测分类结果集以及文本测试集中各个待分类文本的预期文本分类结果,对M个文本分类样本阈值进行评估,得到M个文本分类样本阈值对应的M个评估值;通过区间确定模块,根据M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,候选阈值区间是以M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间;通过阈值确定模块,根据候选阈值区间,确定文本分类目标阈值。在本申请实施例中,由于M个文本分类样本阈值服从预设概率分布,因此,不同阈值取值范围内的文本分类样本阈值的分布数量也相应不同,从而能够针对不同阈值取值范围进行不同强度的文本分类样本阈值的评估,可以将处理资源在不同阈值取值范围进行合理分布,提高了查找文本分类阈值的效率;另外,在得到各个文本分类样本阈值的评估值之后,通过梯度计算的方式,可以确定出一个候选阈值区间,并可以根据该候选阈值区间确定出文本分类目标阈值,相较于直接寻找评估极值以确定文本分类目标阈值的方式而言,本申请的方式可以提高文本分类阈值的稳定性和泛化性。
第四方面,本申请实施例提供一种文本分类装置。
图6为本申请实施例提供的一种文本分类装置的框图。参照图6,该文本分类装置600可以包括以下模块。
第二分类模块601,基于预设文本分类模型对目标文本进行文本分类,得到目标文本的预测分类概率向量。
第二结果确定模块602,用于基于预设文本分类模型的文本分类目标阈值和预测分类概率向量进行预测分类结果的确定,得到目标文本的预测分类结果。
其中,文本分类目标阈值是根据本申请实施例任一项的文本分类的阈值确定方法确定的。
在本申请实施例中,通过第二分类模块601,基于预设文本分类模型对目标文本进行文本分类,得到目标文本的预测分类概率向量,并通过第二结果确定模块602,基于预设文本分类模型的文本分类目标阈值和预测分类概率向量进行预测分类结果的确定,得到目标文本的预测分类结果。由于文本分类目标阈值较为准确合理,因此,基于文本分类目标阈值确定的预测分类结果的准确性也能得以提高。
上述文本分类的阈值确定装置和文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
此外,本申请还提供了电子设备、计算机可读存储介质,上述均可用来实现本申请提供的任一种文本分类的阈值确定方法或者文本分类方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图7为本申请实施例提供的一种电子设备的框图。
参照图7,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器701;至少一个存储器702,以及一个或多个I/O接口703,连接在处理器701与存储器702之间;其中,存储器702存储有可被至少一个处理器701执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器701执行,以使至少一个处理器701能够执行上述的文本分类的阈值确定方法或者文本分类方法。
上述电子设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的文本分类的阈值确定方法或者文本分类方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本申请实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述文本分类的阈值确定方法或者文本分类方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本申请的范围的情况下,可进行各种形式和细节上的改变。
Claims (14)
1.一种文本分类的阈值确定方法,其特征在于,所述方法包括:
基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到所述文本测试集中多个待分类文本的预测分类概率向量;
根据所述文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得所述M个文本分类样本阈值对应的M个预测分类结果集,所述M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的所述文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M;
根据所述M个文本分类样本阈值对应的M个预测分类结果集以及所述文本测试集中各个待分类文本的预期文本分类结果,对所述M个文本分类样本阈值进行评估,得到所述M个文本分类样本阈值对应的M个评估值;
根据所述M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,所述候选阈值区间是以所述M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间;
根据所述候选阈值区间,确定所述预设文本分类模型的文本分类目标阈值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得所述M个文本分类样本阈值对应的M个预测分类结果集之前,所述方法还包括:
确定文本分类阈值变量所服从的概率分布;
根据所述概率分布对所述文本分类阈值变量进行抽样,获得所述M个文本分类样本阈值。
3.根据权利要求1所述的方法,其特征在于,所述文本分类阈值变量服从以目标分类阈值为均值的正态分布,所述目标分类阈值为文本分类错误率高于预设错误率阈值的文本分类阈值。
4.根据权利要求1所述的方法,其特征在于,所述待分类文本属于第一文本类别或者第二文本类别,且所述预测分类概率向量包括用于表征待分类文本属于所述第一文本类别的第一预测概率值;
所述根据所述文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得所述M个文本分类样本阈值对应的M个预测分类结果集,包括:
以第i个文本分类样本阈值作为划分所述第一文本类别与所述第二文本类别的基准,根据所述文本测试集中的各个待分类文本的第一预测概率值,确定所述文本测试集中的各个待分类文本的预测文本分类结果,获得与第i个文本分类样本阈值对应的第i个预测分类结果集。
5.根据权利要求4所述的方法,其特征在于,所述文本测试集的数量为N个,N≥1;
所述以第i个文本分类样本阈值作为划分所述第一文本类别与所述第二文本类别的基准,根据所述文本测试集中的各个待分类文本的第一预测概率值,确定所述文本测试集中的各个待分类文本的预测文本分类结果,获得与第i个文本分类样本阈值对应的第i个预测分类结果集,包括:
比较第n个文本测试集中第r个待分类文本的第一预测概率值与第i个文本分类样本阈值,得到比较结果,1≤n≤N,r≥1;
在所述比较结果表征第n个文本测试集的第r个待分类文本的第一预测概率值大于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集的第r个待分类文本的预测文本分类结果为第一文本类别;
在所述比较结果表征第n个文本测试集的第r个待分类文本的第一预测概率值小于或等于第i个文本分类样本阈值的情况下,确定与第i个文本分类样本阈值对应的第n个文本测试集的第r个待分类文本的预测文本分类结果为第二文本类别。
6.根据权利要求5所述的方法,其特征在于,所述根据所述M个文本分类样本阈值对应的M个预测分类结果集以及所述文本测试集中各个待分类文本的预期文本分类结果,对所述M个文本分类样本阈值进行评估,得到所述M个文本分类样本阈值对应的M个评估值,包括:
根据第i个文本分类样本阈值的预测分类结果集以及N个文本测试集的预期文本分类结果,以文本测试集为单位进行精确率和召回率计算,得到与N个文本测试集对应的N个精度和N个召回率;
确定各个所述文本测试集的权重;
根据所述N个精确率、所述N个召回率和各个所述文本测试集的权重进行加权计算,获得第i个文本分类样本阈值的评估值。
7.根据权利要求6所述的方法,其特征在于,所述确定各个所述文本测试集的权重,包括:
根据第n个文本测试集中的待分类文本的数量与N个文本测试集的待分类文本的总数量之间的比值,得到第n个文本测试集的权重。
8.根据权利要求1所述的方法,其特征在于,所述根据所述M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,包括:
基于文本分类样本阈值从小到大的顺序,对M个评估值进行排序,得到评估值散点序列;
以所述评估值散点序列的第1个评估值为起点,计算相邻两个评估值之间的左梯度;
在相邻的T个评估值所对应的T-1个左梯度均小于第一梯度阈值的情况下,根据所述T个评估值中最左侧的评估值确定区间左端点,T>1;
以所述评估值散点序列的第M个评估值为起点,计算相邻两个评估值之间的右梯度;
在相邻的Q个评估值所对应的Q-1个右梯度均小于第二梯度阈值的情况下,根据所述Q个评估值中最右侧的评估值确定区间右端点,Q>1;
基于所述区间左端点和所述区间右端点,确定所述候选阈值区间。
9.根据权利要求8所述的方法,其特征在于,所述根据所述候选阈值区间,确定所述预设文本分类模型的文本分类目标阈值,包括:
根据所述候选阈值区间的区间左端点所对应的文本分类样本阈值和区间右端点所对应的文本分类样本阈值,进行算术平均计算,得到所述预设文本分类模型的文本分类目标阈值。
10.一种文本分类方法,其特征在于,所述方法包括:
基于预设文本分类模型对目标文本进行文本分类,得到所述目标文本的预测分类概率向量;
基于所述预设文本分类模型的文本分类目标阈值和所述预测分类概率向量进行预测分类结果的确定,得到所述目标文本的预测分类结果;
其中,所述文本分类目标阈值是根据如权利要求1-9中任一项所述的文本分类的阈值确定方法确定的。
11.一种文本分类的阈值确定装置,其特征在于,所述装置包括:
第一分类模块,用于基于预设文本分类模型对文本测试集中的多个待分类文本进行文本分类,得到所述文本测试集中多个待分类文本的预测分类概率向量;
第一结果确定模块,用于根据所述文本测试集中多个待分类文本的预测分类概率向量和M个文本分类样本阈值进行预测分类结果的确定,获得所述M个文本分类样本阈值对应的M个预测分类结果集,所述M个文本分类样本阈值服从预设概率分布,第i个预测分类结果集中包括基于第i个文本分类样本阈值确定的所述文本测试集中各个待分类文本的预测文本分类结果,M≥1,1≤i≤M;
评估模块,用于根据所述M个文本分类样本阈值对应的M个预测分类结果集以及所述文本测试集中各个待分类文本的预期文本分类结果,对所述M个文本分类样本阈值进行评估,得到所述M个文本分类样本阈值对应的M个评估值;
区间确定模块,用于根据所述M个文本分类样本阈值的M个评估值进行梯度计算,确定候选阈值区间,所述候选阈值区间是以所述M个文本分类样本阈值中的两个文本分类样本阈值分别作为区间左右端点而确定的区间;
阈值确定模块,用于根据所述候选阈值区间,确定所述预设文本分类模型的文本分类目标阈值。
12.一种文本分类装置,其特征在于,所述装置包括:
第二分类模块,基于预设文本分类模型对目标文本进行文本分类,得到所述目标文本的预测分类概率向量;
第二结果确定模块,用于基于所述预设文本分类模型的文本分类目标阈值和所述预测分类概率向量进行预测分类结果的确定,得到所述目标文本的预测分类结果;
其中,所述文本分类目标阈值是根据如权利要求1-9中任一项所述的文本分类的阈值确定方法确定的。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-9中任一项所述的文本分类的阈值确定方法,或者如权利要求10所述的文本分类方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-9中任一项所述的文本分类的阈值确定方法,或者如权利要求10所述的文本分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311241919.5A CN116992033B (zh) | 2023-09-25 | 2023-09-25 | 文本分类的阈值确定方法、分类方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311241919.5A CN116992033B (zh) | 2023-09-25 | 2023-09-25 | 文本分类的阈值确定方法、分类方法及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992033A true CN116992033A (zh) | 2023-11-03 |
CN116992033B CN116992033B (zh) | 2023-12-08 |
Family
ID=88521616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311241919.5A Active CN116992033B (zh) | 2023-09-25 | 2023-09-25 | 文本分类的阈值确定方法、分类方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992033B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
CN113535960A (zh) * | 2021-08-02 | 2021-10-22 | 中国工商银行股份有限公司 | 一种文本分类方法、装置和设备 |
CN115344699A (zh) * | 2022-09-06 | 2022-11-15 | 中国平安人寿保险股份有限公司 | 文本分类模型的训练方法、装置、计算机设备及介质 |
US20220391583A1 (en) * | 2021-06-03 | 2022-12-08 | Capital One Services, Llc | Systems and methods for natural language processing |
CN116561314A (zh) * | 2023-05-16 | 2023-08-08 | 中国人民解放军国防科技大学 | 基于自适应阈值选择自注意力的文本分类方法 |
-
2023
- 2023-09-25 CN CN202311241919.5A patent/CN116992033B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560453A (zh) * | 2020-12-18 | 2021-03-26 | 平安银行股份有限公司 | 语音信息校验方法、装置、电子设备及介质 |
US20220391583A1 (en) * | 2021-06-03 | 2022-12-08 | Capital One Services, Llc | Systems and methods for natural language processing |
CN113535960A (zh) * | 2021-08-02 | 2021-10-22 | 中国工商银行股份有限公司 | 一种文本分类方法、装置和设备 |
CN115344699A (zh) * | 2022-09-06 | 2022-11-15 | 中国平安人寿保险股份有限公司 | 文本分类模型的训练方法、装置、计算机设备及介质 |
CN116561314A (zh) * | 2023-05-16 | 2023-08-08 | 中国人民解放军国防科技大学 | 基于自适应阈值选择自注意力的文本分类方法 |
Non-Patent Citations (1)
Title |
---|
徐香香: "基于神经网络的多标签文本分类", 中国优秀硕士学位论文全文数据库(信息科技辑), no. 07 * |
Also Published As
Publication number | Publication date |
---|---|
CN116992033B (zh) | 2023-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276066B (zh) | 实体关联关系的分析方法及相关装置 | |
CN109544166B (zh) | 一种风险识别方法和装置 | |
CN110532376B (zh) | 分类文本以确定用于选择机器学习算法结果的目标类型 | |
CN111932269A (zh) | 设备信息处理方法及装置 | |
EP2991003A2 (en) | Method and apparatus for classification | |
KR20210062687A (ko) | 이미지 분류 모델 훈련 방법, 이미지 처리 방법 및 장치 | |
CN108985489B (zh) | 一种风险预测方法、风险预测装置和终端设备 | |
CN111311030A (zh) | 基于影响因素检测的用户信用风险预测方法及装置 | |
CN110717509A (zh) | 基于树分裂算法的数据样本分析方法及装置 | |
CN116153299A (zh) | 训练样本的处理方法、语音质检方法及装置 | |
CN112884569A (zh) | 一种信用评估模型的训练方法、装置及设备 | |
CN116992033B (zh) | 文本分类的阈值确定方法、分类方法及相关装置 | |
CN116436700B (zh) | 网络安全事件的监测方法及其系统 | |
CN116151267A (zh) | 文本生成方法及装置、电子设备、计算机可读存储介质 | |
CN111724810A (zh) | 一种音频分类方法和装置 | |
US20160253671A1 (en) | Efficient tail calculation to exploit data correlation | |
CN111461328B (zh) | 一种神经网络的训练方法 | |
CN111523308B (zh) | 中文分词的方法、装置及计算机设备 | |
CN114153954A (zh) | 测试用例推荐方法、装置、电子设备及存储介质 | |
CN113554093A (zh) | 预测模型训练和账户价值预测方法、装置、设备及介质 | |
CN111898626A (zh) | 模型确定方法、装置和电子设备 | |
CN111489163A (zh) | 一种业务处理方法、装置及电子设备 | |
CN117951561A (zh) | 文本分类模型训练方法、文本分类方法及相应装置 | |
CN110610066B (zh) | 仿冒应用检测方法和相关装置 | |
CN113743431B (zh) | 一种数据选择方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |