CN110689034B - 一种分类器的优化方法及设备 - Google Patents

一种分类器的优化方法及设备 Download PDF

Info

Publication number
CN110689034B
CN110689034B CN201810739173.3A CN201810739173A CN110689034B CN 110689034 B CN110689034 B CN 110689034B CN 201810739173 A CN201810739173 A CN 201810739173A CN 110689034 B CN110689034 B CN 110689034B
Authority
CN
China
Prior art keywords
classifier
threshold
shunting
value
rejection rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810739173.3A
Other languages
English (en)
Other versions
CN110689034A (zh
Inventor
张雨洵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810739173.3A priority Critical patent/CN110689034B/zh
Publication of CN110689034A publication Critical patent/CN110689034A/zh
Application granted granted Critical
Publication of CN110689034B publication Critical patent/CN110689034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Abstract

本申请提供了一种分类器的优化方法及设备,该方案可以获取所述分类器对多个测试样本的分类结果,然后根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分,进而将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值,作为本次优化的最优参数。由于确定目标分流阈值的依据是可以直接量化的数据,优化时可以基于这些可量化的数据设定参数最优时的预设标准,即可实现优化过程的自动化处理,无需具有相关技术背景的人员参与,因此简化了分类器参数优化的实现难度。

Description

一种分类器的优化方法及设备
技术领域
本申请涉及信息技术领域,尤其涉及一种分类器的优化方法及设备。
背景技术
对于数据对象(例如文本、图片等)进行归档分类到固定目录,常常在不同的业务场景中出现,在没有引入AI(Artificial Intelligence,人工智能)算法之前只能全量进行人工分类,这部分工作繁琐耗时,但是却不可避免。
在引入AI算法之后,例如采用机器学习的方式对数据对象进行归档分类时,首先需要利用训练集对分类器进行训练,训练完成的分类器可以对数据对象进行自动分类。其中,分类器的参数设置也会影响到对数据对象的分类结果,但是分类器参数的优化需要相关的技术知识才能够完成,这对于大部分不具备相关技术背景的人员来说是难以实现的。
申请内容
本申请的一个目的是提供一种分类器的优化方法及设备,用以解决在分类器参数优化的难度较高的问题。
为实现上述目的,本申请提供了一种分类器的优化方法,该方法包括:
获取所述分类器对多个测试样本的分类结果;
根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分,其中,所述分流阈值为所述分类器的一项参数,其用于判定分类器所产生的分类结果的可信程度;
将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值。
基于本申请的另一方面,还提供了一种分类器的优化设备,该设备包括:
数据获取装置,用于获取所述分类器对多个测试样本的分类结果;
数据处理装置,用于根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分,其中,所述分流阈值为所述分类器的一项参数,其用于判定分类器所产生的分类结果的可信程度;
参数优化装置,用于将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值。
此外,本申请还提供了一种计算设备,包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行前述分类器的优化方法。
本申请提供的分类器的优化方案中,先获取所述分类器对多个测试样本的分类结果,然后根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分,进而将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值,作为本次优化的最优参数。由于确定目标分流阈值的依据是可以直接量化的数据,优化时可以基于这些可量化的数据设定参数最优时的预设标准,即可实现优化过程的自动化处理,无需具有相关技术背景的人员参与,因此简化了分类器参数优化的实现难度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的一种分类器的优化方法的处理流程图;
图2为本申请实施例中一种综合表现曲线和拒绝率曲线的示意图;
图3为采用本申请实施例提供的方案获取分类器相关优化参数的处理流程图;
图4为本申请实施例提供的一种分类器的优化设备的结构示意图;
图5为本申请实施例提供的另一种分类器的优化设备的结构示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的装置或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请实施例提供了一种分类器的优化方法,该方法可以基于可直接量化的数据选取最优的目标分流阈值,作为本次优化的最优参数,优化时可以基于这些可量化的数据设定参数最优时的预设标准,即可实现优化过程的自动化处理,无需具有相关技术背景的人员参与,因此简化了分类器参数优化的实现难度。在实际场景中,该方法的执行主体可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
本申请实施例中所述的分类器(Classifier)是指用于对测试样本进行分类的数学模型,其具体实现可以是一种计算机程序,所述分类器适于对测试样本进行分类以确定测试样本的分类结果,所述分类结果包括类别标签和置信概率,所述分类器包括分流阈值参数,分流阈值用于判定分类器所产生的分类结果的可信程度,例如,将置信概率大于分流阈值的分类结果判定为可信分类结果,以及将置信概率小于等于分流阈值的分类结果判定为存疑分类结果。图1示出了本申请实施例提供的一种分类器的优化方法,可以包括如下处理步骤:
步骤S101,获取所述分类器对多个测试样本的分类结果。其中,该分类结果可以包括类别标签L和置信概率P。以对图片文件进行分类为例,所述分类器可以将图片文件根据内容归类为多个类别标签,例如L1为自然风景,L2为人物,L3动物,L4为建筑等。
测试样本均为标记过类别的对象,例如图片1~3标记的类别为L1,图片4、5标记的类别为L2,图片6~9标记的类别为L3,图片10、11标记的类别为L4,标记的类别可以是通过可靠的方式确定,例如采用人工分类的方式。为了便于说明,本申请实施例中仅以较少的数量进行举例说明,在实际场景中为保证优化结果的准确性,测试样本的数量一般会远大于本实施例中列举的数量,例如可以是数百或者数千个以上的测试样本。
使用分类器对测试样本进行分类后,可以得到测试样本的分类结果,即类别标签L和置信概率P,其中,类别标签L即为分类器对测试样本所属类别的判断结果,而所述置信概率P用于表示分类器对测试样本判定的类别标签的置信度,可以是测试对象实际的标记类别与分类器所确定的类别标签一致的概率。表1示出了多个测试样本的类别标签以及置信概率。
表1
测试样本 标记类别 类别标签 置信概率
图片1 L1 L1 0.8
图片2 L1 L1 0.9
图片3 L1 L1 0.44
图片4 L2 L2 0.8
图片5 L2 L2 0.9
图片6 L3 L3 0.59
图片7 L3 L3 0.42
图片8 L3 L3 0.9
图片9 L3 L3 0.45
图片10 L4 L4 0.9
步骤102,根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分。其中,所述分流阈值为所述分类器的一项参数,其用于判定分类器所产生的分类结果的可信程度。例如,若某一测试样本的类别标签对应的置信概率高于分流阈值,则可以认为分类器对该测试样本所标记的类别标签是可信的,可以直接作为最终的类别标签输出,本实施例中置信概率高于分流阈值的分类结果记为可信分类结果。反之,若分类器对某一测试样本标记的类别标签对应的置信概率不高于分流阈值,则认为分类器对该测试样本所标记的类别标签是不可信的,不可以直接作为最终的类别标签输出,需要采用其它方式(例如人工分类)确定最终的类别标签,此类置信概率不高于分流阈值的分类结果记为存疑分类结果。
本领域技术人员可以理解,不同的分流阈值对分类结果的可信程度的判定存在差异。针对同一组测试样本,分流阈值设置得越大,被判定为可信分类结果的分类结果越少,被判定为存疑分类结果的分类结果越多,相应的,对于可信分类结果的判定更加准确,人工分类的工作量越大,分类器的自动化程度越低;反之,分流阈值设置得越小,被判定为可信分类结果的分类结果越多,被判定为存疑分类结果的分类结果越少,相应的,对于可信分类结果的判定的准确性降低,人工分类的工作量较少,分类器的自动化程度越高。因此,基于不同的分流阈值,分类器往往会呈现出不同的性能:在某些分流阈值下,分类器的准确性较高,但自动化程度较低;而在另一些分流阈值下,分类器的准确性较低,而自动化程度较高。步骤S102中的分类器评分即是为了综合评价分类器的性能。分类器评分越高,表示该分类器能够在保证可信分类结果的准确性的情况下,产生较少的存疑分类结果,使得待分类数据直接被自动分类的比例更多,需要人工分类的比例更小;或者在产生相同数据量的存疑分类结果的同时保证较高的准确性,即,使得自动分类的可信分类结果的准确性更好。
本申请的一种实施例中,在根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分时,可以根据所述多个测试样本的分类结果来确定所述分类器在各个分流阈值下的综合表现值和拒绝率,进而根据所述综合表现值和拒绝率,计算各个分流阈值对应的分类器评分。
基于分流阈值,可以将分类结果划分为可信分类结果和存疑分类结果两类,并进一步获得综合表现值和拒绝率。其中,所述拒绝率为存疑分类结果占所有分类结果的比例,例如若分流阈值设定为0.4时,上述测试样本图片1~10的分类结果均属于可信分类结果;若分流阈值设定为0.5时,图片3、7、9的分类结果属于存疑分类结果,其它图片的分类结果属于可信分类结果,此时拒绝率为3/10=0.3;若分流阈值设定为0.6时,图片3、6、7、9的分类结果属于存疑分类结果,其它图片的分类结果属于可信分类结果,此时拒绝率为4/10=0.4。由此,在各个分流阈值下,均可以得到相应的拒绝率。
综合表现值为根据可信分类结果来确定的所述分类器的分类性能,分类器的分类性能可以用任意一种评价指标来表示,例如准确率(Accuracy)、精确度(Precision)、召回率(Recall)、困惑度(Perplexity)、ROC(receiver operating characteristic,受试者工作特性)等,或者也可以用上述多个评价指标计算所得到的数值来表示。例如,可以将根据可信分类结果来计算得出的分类器的准确率,作为分类器在分流阈值下的综合表现值,换句话说,分类器在一个分流阈值下的综合表现值可以按照以下方法确定:首先根据分流阈值来确定可信分类结果,然后根据可信分类结果来计算分类器的准确率,将计算得出的准确率作为分类器在该分流阈值下的综合表现值。由于在不同分流阈值下,同一测试样本的分类结果可能不相同,因此在各个分流阈值下,均可以得到相应的综合表现值。
在根据所述综合表现值和拒绝率计算各个分流阈值对应的分类器评分时,由于分类器在各个分流阈值下的综合表现值和拒绝率均是可以直接量化的数据,可以基于这些可量化的数据设定参数最优时的预设标准,即可实现优化过程的自动化处理,无需具有相关技术背景的人员参与,由此简化了分类器参数优化的实现难度。
在本申请的一些实施例中,在根据所述分类器的综合表现值和拒绝率,确定所述分类器的目标分流阈值时,可以先根据所述分类器的综合表现值和拒绝率,计算各个分流阈值对应的分类器评分,然后选取分类器评分最高的分流阈值,确定为所述分类器的目标分流阈值。
其中,某一分流阈值T对应的分类器评分S可以是两个积分值S1、S2之间的差值。第一积分值S1可以是综合表现值由分流阈值T至分流阈值上限的积分,而第二积分值S2可以是拒绝率由分流阈值T至分流阈值上限的积分。在本申请的实施例中,由于分流阈值T的取值范围为[0,1],因此所述分流阈值上限即为1。由此,计算分流阈值T对应的分类器评分S时,可以计算综合表现值由分流阈值T至分流阈值上限的积分,记为第一积分值,同时计算拒绝率由分流阈值T至分流阈值上限的积分,记为第二积分值,然后将所述第一积分值和第二积分值之差,确定为分流阈值T对应的分类器评分S。
在实际场景中,可以先基于根据所述分类器在各个分流阈值下的综合表现值和拒绝率,分别获得综合表现曲线和拒绝率曲线,其中,综合表现曲线的纵轴为综合表现值,横轴为分流阈值,所述拒绝率曲线的纵轴为拒绝率,横轴为分流阈值。
在本申请的一个实施例中,所述纵轴为y轴,所述横轴为x轴,图2示出了本申请实施例中一种综合表现曲线和拒绝率曲线的示意图,对于综合表现曲线f1,其横坐标为分流阈值T的具体取值,范围为0.0-1.0,由于分流阈值T用于对置信概率P进行筛选,因此分率阈值T的取值范围和置信概率P一致。纵坐标为综合表现值,本实施例中,所述综合表现值为可信分类结果的准确率。当x=0.6时,y=0.85时,表示当分流阈值T设置为0.6的时候,分类器对于测试样本的表现中,置信概率高于0.6的分类结果(即可信分类结果)的准确率为85%。
对于拒绝率曲线f2,横坐标为分流阈值t的具体取值,范围为0.0-1.0(同综合表现曲线)。纵坐标为拒绝率,即存疑分类结果占所有分类结果的比例。例如当x=0.4,y=0.14时,则表示当分流阈值T设为0.4的时候,一共14%的分类结果会被作为存疑分类结果,因为置信度不够(置信概率低于0.4)而被舍弃,其中1-f2(x)即为自动化比例m,表示分类器能够获得的可信分类结果的比例,本实施例中m=1-0.14=0.86。
在获得上述的综合表现曲线和拒绝率曲线之后,可以基于所述综合表现曲线计算综合表现值由分流阈值T至分流阈值上限的积分,记为第一积分值S1,以及基于所述拒绝率曲线计算拒绝率由分流阈值T至分流阈值上限的积分,记为第二积分值S2,进而计算各个分流阈值T对应的分类器评分S,可以由以下公式表示。
Figure BDA0001722792780000081
其中,f1(x)和f2(x)分别为综合表现曲线和拒绝率曲线的函数。
步骤S103,将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值。
由于分类器优化的目的获得最高的分类器评分S,因此在本申请的一些实施例中,为了更加高效地选取分类器评分最高的分流阈值,可以以分流阈值为变量,采用网格搜索的方式获取分类器评分最高时的分流阈值,确定为所述分类器的目标分流阈值,作为该分类器的最优参数。
在本申请的一些实施例中,还可以设置分流目标,用以保证选取目标分流阈值之后,能够保证分类器达到特定的需求。例如,分流目标可以是综合表现值高于第一阈值和/或拒绝率低于第二阈值。当分流目标设置为综合表现值高于第一阈值时,可以保证分类器对待分类数据进行分类所获得可信分类结果的准确度达到第一阈值以上,如第一阈值可以是90%、95%等。当分流目标设置为拒绝率低于第二阈值时,可以保证分类器对待分类数据进行分类所获得可信分类结果占所有分类结果的比例超过第二阈值,如第二阈值可以是50%、40%等,相应地,此时分类器对待分类数据进行分类所获得可信分类结果占所有分类结果的比例会超过50%或者60%,即,有超过50%或者60%的样本可以实现自动分类,无需人工干预。此外,分流目标也可以同时保证综合表现值高于第一阈值、且拒绝率低于第二阈值。
由此,在根据所述多个测试样本的分类结果来确定所述分类器在各个分流阈值下的综合表现值和拒绝率时,可以先根据分流目标,确定候选分流阈值。其中,任意一个候选分流阈值,均可以保证分类器的性能能够达到分流目标,例如,以图2所示的场景为例,若分流目标为综合表现值高于90%,此时对应的候选分流阈值为[0.65,1]。进而,可以根据所述多个测试样本的分类结果来确定所述分类器在各个候选分流阈值下的综合表现值和拒绝率,并根据候选分流阈值下的综合表现值和拒绝率,计算各个分流阈值对应的分类器评分。由此,后续处理中确定的分类器评分最高的目标分流阈值也会在候选分流阈值中选取,可以在保证一定性能的情况下,选取最优的参数,从而在保证分类性能的前提下,降低了人工分类的工作量。
在本申请的一些实施例中,可以对优化过程中产生的分类结果进行利用,例如可以将所述分类器在目标分流阈值下的存疑样本添加至训练样本集,用于对所述分类器进行下一次训练,其中,所述存疑样本为存疑分类结果所对应的测试样本。
此外,也可以利用实际分类过程中对待分类数据的分类结果,来对分类器进行训练。例如,在使用所述目标分流阈值对应的分类器对待分类数据进行分类后,部分分类结果会被确定为可信分类结果,从而自动完成分类,而另一部分会被确定为存疑分类结果。此时,可以采用该分类器之外的其他方式,例如人工分类的方式,来确定所述存疑分类结果对应的待分类数据所属的类别标签,然后将标记了类别标签的该待分类数据作为训练样本添加至训练样本集,用于对所述分类器进行下一次训练。
在实际场景中,可以根据训练样本集中累积的数据量来决定是否进行下一次的优化,即可以定期检测训练样本集中的样本的数量,当训练样本集中的样本的数量达到预设值时,根据所述训练样本集对所述分类器进行下一次训练。例如,当样本累积到一定程度使得训练样本集中的数据量增加了一倍时,对所述分类器进行下一次训练。
图3示出了采用本申请实施例提供的方案获取分类器相关优化参数的处理流程,该处理流程包括以下几个步骤:
步骤S301,获得分类器对测试样本的分类结果,包括类别标签以及对应的置信概率。该步骤S301的实现方式与前述的步骤S101类似,此处不再赘述。
步骤S302,构建综合表现曲线。
步骤S303,构建拒绝率曲线。
步骤S304,基于综合表现曲线和/或拒绝率曲线的y值,结合预设的分流目标,选取对应的x值,以确定候选分流阈值。
步骤S305,计算候选分流阈值对应的分类器评分S,确定S最大时的目标分流阈值T以及此时的自动化比例m。其中,步骤S302~S305中,获取目标分流阈值T的实现方式可参考前述的步骤S102和S103,此处不再赘述,而此处的自动化比例m即为在目标分流阈值T下的可信分类结果占所有分类结果的比例。
步骤S306,输出目标分流阈值T、分类器评分S以及自动化比例m。
基于同一发明构思,本申请实施例中还提供了分类器的优化设备,所述分类器的优化设备对应的优化方法是前述实施例中的方法,并且其解决问题的原理与该方法相似。
本申请实施例提供的一种分类器的优化设备可以基于可直接量化的数据选取最优的目标分流阈值,作为本次优化的最优参数,优化时可以基于这些可量化的数据设定参数最优时的预设标准,即可实现优化过程的自动化处理,无需具有相关技术背景的人员参与,因此简化了分类器参数优化的实现难度。在实际场景中,该设备的具体实现可以是用户设备、网络设备或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于计算机、手机、平板电脑等各类终端设备;所述网络设备包括但不限于如网络主机、单个网络服务器、多个网络服务器集或基于云计算的计算机集合等实现。在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟计算机。
本申请实施例中所述的分类器(Classifier)是指用于对测试样本进行分类的数学模型,其具体实现可以是一种计算机程序,所述分类器适于对测试样本进行分类以确定测试样本的分类结果,所述分类结果包括类别标签和置信概率,所述分类器包括分流阈值参数,所述分类器适于将置信概率大于分流阈值的分类结果标记为可信分类结果,以及将置信概率小于等于分流阈值的分类结果标记为存疑分类结果。图4示出了本申请实施例提供的一种分类器的优化设备的结构,包括数据获取装置410、数据处理装置420和参数优化装置430。
数据获取装置410用于获取所述分类器对多个测试样本的分类结果,其中该分类结果可以包括类别标签L和置信概率P。以对图片文件进行分类为例,所述分类器可以将图片文件根据内容归类为多个类别标签,例如L1为自然风景,L2为人物,L3动物,L4为建筑等。
测试样本均为标记过类别的对象,例如图片1~3标记的类别为L1,图片4、5标记的类别为L2,图片6~9标记的类别为L3,图片10、11标记的类别为L4,标记的类别可以是通过可靠的方式确定,例如采用人工分类的方式。为了便于说明,本申请实施例中仅以较少的数量进行举例说明,在实际场景中为保证优化结果的准确性,测试样本的数量一般会远大于本实施例中列举的数量,例如可以是数百或者数千个以上的测试样本。
使用分类器对测试样本进行分类后,可以得到测试样本的分类结果,即类别标签L和置信概率P,其中,类别标签L即为分类器对测试样本所属类别的判断结果,而所述置信概率P用于表示分类器对测试样本判定的类别标签的置信度,可以是测试对象实际的标记类别与分类器所确定的类别标签一致的概率。表1示出了多个测试样本的类别标签以及置信概率。
数据处理装置420用于根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分。其中,所述分流阈值为所述分类器的一项参数,其用于判定分类器所产生的分类结果的可信程度,分类器评分用于表示分类器在当前测试样本对应的场景下的分类性能,分类器评分越高,表示该分类器能够在保证可信分类结果的综合表现值的情况下,产生较少的存疑分类结果,使得待分类数据直接被自动分类的比例更多,需要人工分类的比例更小;或者在产生相同数据量的存疑分类结果的同时保证较高的综合表现值,使得自动分类的可信分类结果的准确性更好。
本申请的一种实施例中,在根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分时,可以根据所述多个测试样本的分类结果来确定所述分类器在各个分流阈值下的综合表现值和拒绝率,进而根据所述综合表现值和拒绝率,计算各个分流阈值对应的分类器评分。
所述分流阈值为分类器的一项参数,若某一测试样本的标签类别对应的置信概率高于分流阈值,则可以认为分类器对该测试样本所标记的类别标签是可信的,可以直接作为最终的类别标签输出,本实施例中置信概率高于分流阈值的分类结果记为可信分类结果。反之,若分类器对某一测试样本标记的测试标签对应的置信概率不高于分流阈值,则认为分类器对该测试样本所标记的类别标签是不可信的,不可以直接作为最终的类别标签输出,需要采用其它方式(例如人工分类)确定最终的类别标签,此类置信概率不高于分流阈值的分类结果记为存疑分类结果。
基于分流阈值,可以将分类结果划分为两类,并进一步获得综合表现值和拒绝率。其中,所述拒绝率为存疑分类结果占所有分类结果的比例,例如若分流阈值设定为0.4时,上述测试样本图片1~10的分类结果均属于可信分类结果;若分流阈值设定为0.5时,图片3、7、9的分类结果属于存疑分类结果,其它图片的分类结果属于可信分类结果,此时拒绝率为3/10=0.3;若分流阈值设定为0.6时,图片3、6、7、9的分类结果属于存疑分类结果,其它图片的分类结果属于可信分类结果,此时拒绝率为4/10=0.4。由此,在各个分流阈值下,均可以得到相应的拒绝率。
综合表现值为根据可信分类结果来确定的所述分类器的评价指标值,分类器的评价指标有多种,例如准确率(Accuracy)、精确度(Precision)、召回率(Recall)、困惑度(Perplexity)、ROC(receiver operating characteristic,受试者工作特性)等,或者也可以是基于上述多个评价指标计算所得到的数值。相应地,综合表现值可以是根据可信分类结果所确定的分类器的任一评价指标值。例如,可以将根据可信分类结果来计算得出的分类器的准确率,作为该分类器在一个分流阈值下的综合表现值,换句话说,分类器在一个分流阈值下的综合表现值可以按照以下方法确定:首先根据分流阈值来确定可信分类结果,然后根据可信分类结果来计算分类器的准确率,将计算得出的准确率作为分类器在该分流阈值下的综合表现值。由于在不同分流阈值下,同一测试样本的分类结果可能不相同,因此在各个分流阈值下,均可以得到相应的综合表现值。
在根据所述综合表现值和拒绝率计算各个分流阈值对应的分类器评分时,由于分类器在各个分流阈值下的综合表现值和拒绝率均是可以直接量化的数据,可以基于这些可量化的数据设定参数最优时的预设标准,即可实现优化过程的自动化处理,无需具有相关技术背景的人员参与,由此简化了分类器参数优化的实现难度。
在本申请的一些实施例中,在根据所述分类器的综合表现值和拒绝率,确定所述分类器的目标分流阈值时,可以先根据所述分类器的综合表现值和拒绝率,计算各个分流阈值对应的分类器评分,然后选取分类器评分最高的分流阈值,确定为所述分类器的目标分流阈值。
其中,某一分流阈值T对应的分类器评分S可以是两个积分值S1、S2之间的差值。第一积分值S1可以是综合表现值由分流阈值T至分流阈值上限的积分,而第二积分值S2可以是拒绝率由分流阈值T至分流阈值上限的积分。在本申请的实施例中,由于分流阈值T的取值范围为[0,1],因此所述分流阈值上限即为1。由此,计算分流阈值T对应的分类器评分S时,可以计算综合表现值由分流阈值T至分流阈值上限的积分,记为第一积分值,同时计算拒绝率由分流阈值T至分流阈值上限的积分,记为第二积分值,然后将所述第一积分值和第二积分值之差,确定为分流阈值T对应的分类器评分S。
在实际场景中,可以先基于根据所述分类器在各个分流阈值下的综合表现值和拒绝率,分别获得综合表现曲线和拒绝率曲线,其中,综合表现曲线的纵轴为综合表现值,横轴为分流阈值,所述拒绝率曲线的纵轴为拒绝率,横轴为分流阈值。
在本申请的一个实施例中,所述纵轴为y轴,所述横轴为x轴,图2示出了本申请实施例中一种综合表现曲线和拒绝率曲线的示意图,对于综合表现曲线f1,其横坐标为分流阈值T的具体取值,范围为0.0-1.0,由于分流阈值T用于对置信概率P进行筛选,因此分率阈值T的取值范围和置信概率P一致。纵坐标为综合表现值,本实施例中,所述综合表现值为可信分类结果的准确率。当x=0.6时,y=0.85时,表示当分流阈值T设置为0.6的时候,分类器对于测试样本的表现中,置信概率高于0.6的分类结果(即可信分类结果)的准确率为85%。
对于拒绝率曲线f2,横坐标为分流阈值t的具体取值,范围为0.0-1.0(同综合表现曲线)。纵坐标为拒绝率,即存疑分类结果占所有分类结果的比例。例如当x=0.4,y=0.14时,则表示当分流阈值T设为0.4的时候,一共14%的分类结果会被作为存疑分类结果,因为置信度不够(置信概率低于0.4)而被舍弃,其中1-f2(x)即为自动化比例m,表示分类器能够获得的可信分类结果的比例,本实施例中m=1-0.14=0.86。
在获得上述的综合表现曲线和拒绝率曲线之后,可以基于所述综合表现曲线计算综合表现值由分流阈值T至分流阈值上限的积分,记为第一积分值S1,以及基于所述拒绝率曲线计算拒绝率由分流阈值T至分流阈值上限的积分,记为第二积分值S2,进而计算各个分流阈值T对应的分类器评分S,可以由以下公式表示。
Figure BDA0001722792780000141
其中,f1(x)和f2(x)分别为综合表现曲线和拒绝率曲线的函数。
参数优化装置430用于将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值。
由于分类器优化的目的获得最高的分类器评分S,因此在本申请的一些实施例中,为了更加高效地选取分类器评分最高的分流阈值,可以以分流阈值为变量,采用网格搜索的方式获取分类器评分最高时的分流阈值,确定为所述分类器的目标分流阈值,作为该分类器的最优参数。
在本申请的一些实施例中,还可以设置分流目标,用以保证选取目标分流阈值之后,能够保证分类器达到特定的需求。例如,分流目标可以是综合表现值高于第一阈值和/或拒绝率低于第二阈值。当分流目标设置为综合表现值高于第一阈值时,可以保证分类器对待分类数据进行分类所获得可信分类结果的准确度达到第一阈值以上,如第一阈值可以是90%、95%等。当分流目标设置为拒绝率低于第二阈值时,可以保证分类器对待分类数据进行分类所获得可信分类结果占所有分类结果的比例超过第二阈值,如第二阈值可以是50%、40%等,相应地,此时分类器对待分类数据进行分类所获得可信分类结果占所有分类结果的比例会超过50%或者60%,即,有超过50%或者60%的样本可以实现自动分类,无需人工干预。此外,分流目标也可以同时保证综合表现值高于第一阈值、且拒绝率低于第二阈值。
由此,在根据所述多个测试样本的分类结果来确定所述分类器在各个分流阈值下的综合表现值和拒绝率时,可以先根据分流目标,确定候选分流阈值。其中,任意一个候选分流阈值,均可以保证分类器的性能能够达到分流目标,例如,以图2所示的场景为例,若分流目标为综合表现值高于90%,此时对应的候选分流阈值为[0.65,1]。进而,根据所述多个测试样本的分类结果来确定所述分类器在各个候选分流阈值下的综合表现值和拒绝率,并根据候选分流阈值下的综合表现值和拒绝率,计算各个分流阈值对应的分类器评分。由此,后续处理中确定的分类器评分最高的目标分流阈值也会在候选分流阈值中选取,可以在保证一定性能的情况下,选取最优的参数,从而在保证分类性能的前提下,降低了人工分类的工作量。
在本申请的一些实施例中,可以对优化过程中产生的分类结果进行利用,例如可以将所述分类器在目标分流阈值下的存疑样本添加至训练样本集,用于对所述分类器进行下一次训练,其中,所述存疑样本为存疑分类结果所对应的测试样本。
此外,也可以利用实际分类过程中对待分类数据的分类结果,来对分类器进行训练。例如,在使用所述目标分流阈值对应的分类器对待分类数据进行分类后,部分分类结果会被确定为可信分类结果,从而自动完成分类,而另一部分会被确定为存疑分类结果。此时,可以采用该分类器之外的其他方式,例如人工分类的方式,来确定所述存疑分类结果对应的待分类数据所属的类别标签,然后将标记了类别标签的该待分类数据作为训练样本添加至训练样本集,用于对所述分类器进行下一次训练。
在实际场景中,可以根据训练样本集中累积的数据量来决定是否进行下一次的优化,即可以定期检测训练样本集中的样本的数量,当训练样本集中的样本的数量达到预设值时,根据所述训练样本集对所述分类器进行下一次训练。例如,当样本累积到一定程度使得训练样本集中的数据量增加了一倍时,对所述分类器进行下一次训练。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一些实施例包括一个如图5所示的计算设备,该计算设备包括存储有计算机可读指令的一个或多个存储器510和用于执行计算机可读指令的处理器520,其中,当该计算机可读指令被该处理器执行时,使得所述计算设备执行基于前述本申请的多个实施例的方法和/或技术方案。图5所示的计算设备可以是任意具有计算功能的设备,例如服务器、桌面计算机、笔记本计算机、手机、平板电脑、可穿戴设备等,但不限于此。
此外,本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (11)

1.一种分类器的优化方法,包括:
获取所述分类器对多个测试样本的分类结果;
根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分,进一步包括:根据所述多个测试样本的分类结果来确定所述分类器在各个分流阈值下的综合表现值和拒绝率;根据所述综合表现值和拒绝率,计算各个分流阈值对应的分类器评分;其中,所述分流阈值为所述分类器的一项参数,其用于判定分类器所产生的分类结果的可信程度,所述分流阈值包括候选分流阈值,所述候选分流阈值根据分流目标确定;
将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值。
2.如权利要求1所述的方法,其中,所述分类结果包括类别标签和置信概率,所述分流阈值用于将置信概率大于分流阈值的分类结果判定为可信分类结果,以及将置信概率小于等于分流阈值的分类结果判定为存疑分类结果;
所述综合表现值为根据可信分类结果来确定的所述分类器的分类性能,所述拒绝率为存疑分类结果占所有分类结果的比例。
3.根据权利要求1所述的方法,其中,所述根据所述综合表现值和拒绝率,计算各个分流阈值对应的分类器评分的步骤包括:
计算综合表现值由分流阈值至分流阈值上限的积分,记为第一积分值,以及计算拒绝率由分流阈值至分流阈值上限的积分,记为第二积分值;
将所述第一积分值和第二积分值之差,确定为分流阈值对应的分类器评分。
4.根据权利要求3所述的方法,其中,所述计算综合表现值由分流阈值至分流阈值上限的积分,记为第一积分值,以及计算拒绝率由分流阈值至分流阈值上限的积分,记为第二积分值的步骤包括:
根据所述分类器在各个分流阈值下的综合表现值和拒绝率,分别确定综合表现曲线和拒绝率曲线,其中,所述综合表现曲线和所述拒绝率曲线的横轴均为分流阈值,所述综合表现曲线的纵轴为综合表现值,所述拒绝率曲线的纵轴为拒绝率;
基于所述综合表现曲线计算综合表现值由分流阈值至分流阈值上限的积分,记为第一积分值,以及基于所述拒绝率曲线计算拒绝率由分流阈值至分流阈值上限的积分,记为第二积分值。
5.根据权利要求1所述的方法,其中,所述将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值的步骤包括:
以分流阈值为变量,采用网格搜索的方式获取分类器评分最高的分流阈值,确定为所述分类器的目标分流阈值。
6.根据权利要求1所述的方法,其中,所述根据所述多个测试样本的分类结果来确定所述分类器在各个分流阈值下的综合表现值和拒绝率的步骤包括:
根据分流目标,确定候选分流阈值;
根据所述多个测试样本的分类结果来确定所述分类器在各个候选分流阈值下的综合表现值和拒绝率。
7.根据权利要求6所述的方法,其中,所述分流目标包括综合表现值高于第一阈值和/或拒绝率低于第二阈值。
8.根据权利要求1所述的方法,其中,该方法还包括:
将所述分类器在目标分流阈值下的存疑样本添加至训练样本集,用于对所述分类器进行下一次训练,其中,所述存疑样本为存疑分类结果所对应的测试样本。
9.根据权利要求8所述的方法,其中,该方法还包括:
当训练样本集中的样本的数量达到预设值时,根据所述训练样本集对所述分类器进行下一次训练。
10.一种分类器的优化设备,其中,所述设备包括:
数据获取装置,用于获取所述分类器对多个测试样本的分类结果;
数据处理装置,用于根据所述多个测试样本的分类结果来确定各个分流阈值对应的分类器评分,进一步包括:根据所述多个测试样本的分类结果来确定所述分类器在各个分流阈值下的综合表现值和拒绝率;根据所述综合表现值和拒绝率,计算各个分流阈值对应的分类器评分;其中,所述分流阈值为所述分类器的一项参数,其用于判定分类器所产生的分类结果的可信程度,所述分流阈值包括候选分流阈值,所述候选分流阈值根据分流目标确定;
参数优化装置,用于将分类器评分最高的分流阈值确定为所述分类器的目标分流阈值。
11.一种计算设备,包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述计算设备执行权利要求1至9中任一项所述的方法。
CN201810739173.3A 2018-07-06 2018-07-06 一种分类器的优化方法及设备 Active CN110689034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810739173.3A CN110689034B (zh) 2018-07-06 2018-07-06 一种分类器的优化方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810739173.3A CN110689034B (zh) 2018-07-06 2018-07-06 一种分类器的优化方法及设备

Publications (2)

Publication Number Publication Date
CN110689034A CN110689034A (zh) 2020-01-14
CN110689034B true CN110689034B (zh) 2023-04-07

Family

ID=69107508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810739173.3A Active CN110689034B (zh) 2018-07-06 2018-07-06 一种分类器的优化方法及设备

Country Status (1)

Country Link
CN (1) CN110689034B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0031016D0 (en) * 2000-12-20 2001-01-31 Alphafox Systems Ltd Security systems
CN104361224A (zh) * 2014-10-31 2015-02-18 深圳信息职业技术学院 置信分类方法及置信机器
CN104598923A (zh) * 2015-01-08 2015-05-06 深圳信息职业技术学院 基于score输出值百分比的可控置信机器算法
CN104820839A (zh) * 2015-04-24 2015-08-05 深圳信息职业技术学院 基于分别设置正负例正确率的可控置信机器算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0031016D0 (en) * 2000-12-20 2001-01-31 Alphafox Systems Ltd Security systems
CN104361224A (zh) * 2014-10-31 2015-02-18 深圳信息职业技术学院 置信分类方法及置信机器
CN104598923A (zh) * 2015-01-08 2015-05-06 深圳信息职业技术学院 基于score输出值百分比的可控置信机器算法
CN104820839A (zh) * 2015-04-24 2015-08-05 深圳信息职业技术学院 基于分别设置正负例正确率的可控置信机器算法

Also Published As

Publication number Publication date
CN110689034A (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
US11238310B2 (en) Training data acquisition method and device, server and storage medium
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
WO2018171412A1 (zh) 一种行人检索方法及装置
CN110880019A (zh) 通过无监督域适应训练目标域分类模型的方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN112199559B (zh) 数据特征的筛选方法、装置及计算机设备
CN111814759B (zh) 人脸质量标签值的获取方法、装置、服务器及存储介质
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN113918806A (zh) 自动推荐培训课程的方法及相关设备
WO2023029397A1 (zh) 训练数据获取方法、异常行为识别网络训练方法及装置、计算机设备、存储介质、计算机程序、计算机程序产品
CN110689034B (zh) 一种分类器的优化方法及设备
CN111062385A (zh) 一种用于图像文本信息检测的网络模型构建方法与系统
CN110852443B (zh) 特征稳定性检测方法、设备及计算机可读介质
CN111382345B (zh) 话题筛选和发布的方法、装置和服务器
CN112926991B (zh) 一种套现团伙严重等级划分方法及系统
US20210357806A1 (en) Machine learning model training method and machine learning model training device
CN111177465A (zh) 一种确定类别的方法及装置
CN109815212A (zh) 一种智能数据库构建方法、装置及系统
CN113704103B (zh) 测试用例推荐方法、装置、介质及电子设备
CN114140140B (zh) 一种场景筛选方法、装置及设备
CN117746266A (zh) 一种基于半监督交互学习的树冠检测方法、装置及介质
CN117828429A (zh) 一种用于构建舆情事件消退预测模型的方法、装置及设备
CN116821818A (zh) 表单数据分类方法及装置、设备、存储介质
CN117528183A (zh) 视频处理方法、装置、计算机设备和存储介质
CN116756569A (zh) 风险内容识别模型更新方法、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant