CN104598923B

CN104598923B - 基于score输出值百分比的可控置信机器分类方法

Info

Publication number: CN104598923B
Application number: CN201510012276.6A
Authority: CN
Inventors: 蒋方纯
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2015-01-08
Filing date: 2015-01-08
Publication date: 2018-06-22
Anticipated expiration: 2035-01-08
Also published as: CN104598923A

Abstract

本发明适用机器学习领域，提供了一种基于score输出值百分比的可控置信机器算法，所述方法包括如下步骤：对二元样本采用二元分类器进行分类；将二元分类器的分类结果转成score输出值；获取未知二元样本的理想错分率，分别以最小输出值和最大输出值为基准，向着原点的方向以等距离步长(设定score的百分比)分别向右或向左一步步的移动，当满足理想错分率，确定阈值范围；如未知二元样本的score输出值属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的score输出值不属于该阈值范围，将未知样本分配到接受域。本发明提供的技术方案具有精度高，可靠性高的优点。

Description

基于score输出值百分比的可控置信机器分类方法

技术领域

本发明属于机器学习领域，尤其涉及一种基于score输出值百分比的可控置信机器分类方法。

背景技术

置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支，实现置信机器学习的理论基础与方法并不多。有直接构造置信度的方法，有间接构造置信度的方法，有通过设置拒绝选项，可以进行预设的分类处理，来排除低可信的部分，从而提高剩余部分的可信度，实现置信分类。简捷有效的置信机器学习是置信机器研究的目标之一。

2005年由Vladimir Vovk，Alexander Gammerman，Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41，No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》，根据Kolmogorov算法随机性理论，为学习机器建立了一种置信机制，描述了置信学习机器的算法。

在实现现有技术的方案中，发现现有技术存在如下的技术问题：

(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率，并根据计算结果设置阈值，但最后总的错分率控制与当初预设值比较，有时差距会很大。

(2)置信控制不够灵活。设置Bin的方法有一定的限制，不能任意设置数值，进行灵活多变的控制，满足不同的要求。

发明内容

本发明实施例的目的在于提供一种基于score输出值百分比的可控置信机器分类方法，其解决现有技术的置信度控制精度不高和不够灵活的问题。

本发明实施例是这样实现的，一方面，一种基于score输出值百分比的可控置信机器分类方法，所述方法包括如下步骤：

对二元样本采用二元分类器进行分类；

将二元分类器的分类结果转成输出值Output Score；

获取未知二元样本的理想错分率，以最小输出值或最大输出值为基准，向原点向右或向左一步步的移动阈值范围(-t1，t1)，当阈值(-t1，t1)满足已知二元样本的理想错分率时，确定阈值(-t1，t1)为未知二元样本的理想错分率对应的阈值范围(-t1，t1)；所述向右或向左一步步的移动阈值范围(-t1，t1)中每步移动所跨越的Output Score为设定Score百分比值；

如未知二元样本的输出值Output Score属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值Output Score不属于该阈值范围，将未知样本分配到接受域。

可选的，所述以最小输出值或最大输出值为基准，以等距离步长向原点向右或向左一步步的移动阈值范围(-t1，t1)具体包括：

如向左移动阈值范围的已知二元样本的错分率多，则先向右移动阈值，然后再向左移动阈值；

如向右移动阈值范围的已知二元样本的错分率多，则先向左移动阈值，然后再向右移动阈值。

本发明提供的技术方案具有精度高，可靠性高的优点。

附图说明

图1是本发明提供的一种基于score输出值百分比的可控置信机器分类方法的流程图；

图2是本发明提供的一种置信机器分类方法示意图；

图3是本发明提供的置信机器分类方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明具体实施方式提供一种基于score输出值百分比的可控置信机器分类方法，上述方法由置信机器执行，该方法如图1所示，包括如下步骤：

101、对二元样本采用二元分类器进行分类；

102、将二元分类器的分类结果转成score输出值(Output Score)；

103、获取未知二元样本的理想错分率，以最小输出值或最大输出值为基准，向原点向右或向左一步步的移动阈值范围(-t1，t1)，当阈值(-t1，t1)满足已知二元样本的理想错分率时，确定阈值(-t1，t1)为未知二元样本的理想错分率对应的阈值范围(-t1，t1)，所述向右或向左一步步的移动阈值范围(-t1，t1)中每步移动所跨越的Output Score为设定Score百分比值；

104、如未知二元样本的输出值(Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值(Output Score)不属于该阈值范围，将未知样本分配到接受域。

本发明采用的置信分类通过区分可信样例与不可信样例、划分接受域与拒绝域，达到对分类结果的预设分类处理，实现置信分类。本发明实施例的目的在于提供一种基于score输出值百分比的可控置信机器分类方法，以提高现有技术的置信度控制精度和灵活性。

该方法的原理图如图2所示，其具体算法流程图如图3所示。

可选的，上述以最小输出值或最大输出值为基准，以等距离步长向原点向右或向左一步步的移动阈值范围(-t1，t1)具体可以为：

软件算法流程如下：

训练算法流程：

输入

X：二元训练数据样本

Y：二元训练样本标签

Train Set：(X，Y)

p：score输出百分比

输出

正例阈值：t

负例阈值：-t

过程

1、用Train Set训练二类分类器，取得二元分类器的有关参数值

2、用二类分类器在训练集Train Set上进行分类

3、将分类结果转换成score输出

4、四种情况判断

5、计算score输出百分比来确定阈值

6、输出t和-t

7、结束

分类算法流程：

输入

x：未知样本

输出

未知样本的类别

or

人工处理未知样本

过程

1、用二元分类器对未知x进行分类2、将分类结果转换成score输出3、if score值<＝-t or score值>＝t

输出未知样本的类别

else

人工处理

endif

4、结束

实验情况

表1实验使用数据集情况表

当左、右两侧的阈值分别设定为左、右两侧最大score值的20％时，该算法执行的数据结果如表2所示。

表2本发明提供的算法执行10次的平均结果(单位：％)

该算法寻找阈值后得到的错分率，会与设定值更接近或是一致。

所以说本发明提供的可控的置信机器以二元问题为基础，运用该方法，具有适应不同场合的需要、满足不同应用需求的特点，同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点，在心脏病和糖尿病等多个实验数据集上进行了验证，取得了较好的实验效果。

值得注意的是，上述实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于score输出值百分比的可控置信机器分类方法，其特征在于，所述方法包括如下步骤：

获取疾病实验数据的二元样本；

对二元样本采用二元分类器进行分类；

将二元分类器的分类结果转成输出值Output Score；

获取未知二元样本的理想错分率，以最小输出值或最大输出值为基准，向原点向右或向左一步步的移动阈值范围(-t1，t1)，当阈值(-t1，t1)满足已知二元样本的理想错分率时，确定阈值(-t1，t1)为未知二元样本的理想错分率对应的阈值范围(-t1，t1)，所述向右或向左一步步的移动阈值范围(-t1，t1)中每步移动所跨越的Output Score为设定Score百分比值；

如未知二元样本的输出值Output Score属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值Output Score不属于该阈值范围，将未知样本分配到接受域；

对拒绝域中的未知样本进行人工处理；

从人工处理后的未知样本和接受域中的未知样本中提出特征构成训练集；

根据训练集对二元分类器进行训练；二元分类器用于对疾病实验数据进行分类。

2.根据权利要求1所述的基于score输出值百分比的可控置信机器分类方法，其特征在于，所述以最小输出值或最大输出值为基准，以等距离步长向原点向右或向左一步步的移动阈值范围(-t1，t1)具体包括：