CN104820838A

CN104820838A - 基于设置正负例错分值的百分比的可控置信机器算法

Info

Publication number: CN104820838A
Application number: CN201510202142.0A
Authority: CN
Inventors: 蒋方纯
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2015-04-24
Filing date: 2015-04-24
Publication date: 2015-08-05

Abstract

本发明适用机器学习领域，提供了一种基于设置正负例错分值的百分比的可控置信机器算法，包括：根据样本训练集训练二元分类器，根据所述二元分类器在所述训练集Train Set上分类，并将分类结果转换成输出值；从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围，其中，所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值，所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值；根据所述阈值范围对未知样本的分类结果进行分配。本发明提供的技术方案具有控制精度，实现灵活控制的优点。

Description

基于设置正负例错分值的百分比的可控置信机器算法

技术领域

本发明属于机器学习领域，尤其涉及一种基于设置正负例错分值的百分比的可控置信机器算法。

背景技术

置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支，实现置信机器学习的理论基础与方法并不多，有直接构造置信度的方法，有间接构造置信度的方法，有通过设置拒绝选项，可以进行预设的分类处理，来排除低可信的部分，从而提高剩余部分的可信度，实现置信分类，并对错分率可控。

2005年由Vladimir Vovk，Alexander Gammerman，Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41，No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》，根据Kolmogorov算法随机性理论，为学习机器建立了一种置信机制，描述了置信学习机器的算法。

现有的方案有以下几个问题：

(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率，并根据计算结果设置阈值，但最后正负例正确率控制与当初预设值比较，有时差距会很大。

(2)置信控制不够灵活。设置Bin的方法有一定的限制，不能任意设置数值，进行灵活多变的控制，满足不同的要求。

发明内容

本发明实施例的目的在于提供一种基于设置正负例的错分率百分比的可控置信机器算法，其解决现有技术的置信控制的精度不够，置信控制不够灵活的问题。

本发明实施例是这样实现的，一方面，公开了一种基于设置正负例错分值的百分比的可控置信机器算法，所述方法包括如下步骤：

接收二元训练数据样本和二元训练样本标签构成的训练集Train Set；

根据所述训练集Train Set训练二元分类器，得到二元分类器参数值；

根据所述二元分类器在所述训练集Train Set上分类，并将分类结果转换成输出值Output score；

从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围(-t2,t1)，其中，所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值，所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值；

获取未知二元样本，根据所述二元分类器对未知二元样本进行分类，并将分类结果转换成输出值Output score；

如果所述未知二元样本的输出值Output score属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值Output Score不属于该阈值范围，将未知样本分配到接受域。

优选的，所述从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围步骤为：

根据所述第一距离、第二距离的步长和预设的正确率，以原点为基准，以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围，当移动的阈值范围对应的正确率大于预设的正确率时，确定阈值(-t2，t1)为未知二元样本对应的阈值范围。

在本发明实施例中，本发明提供的技术方案通过分别设置正负例错分率的百分比作为移动步长，可以根据需要灵活设置数值，控制灵活，而且通过调整所述百分比值控制步长，可以实现更高精度的置信控制。

附图说明

图1是本发明提供的一种基于设置正负例错分值的百分比的可控置信机器算法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明具体实施方式提供一种基于设置正负例错分值的百分比的可控置信机器算法，上述方法由置信机器执行，该方法如图1所示，包括如下步骤：

在步骤S101中，接收二元训练数据样本和二元训练样本标签构成的训练集Train Set；

在步骤S102中，根据所述训练集Train Set训练二元分类器，得到二元分类器参数值；

在步骤S103中，根据所述二元分类器在所述训练集Train Set上分类，并将分类结果转换成输出值Output score；

在步骤S104中，从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围(-t2,t1)，其中，所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值，所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值；

在步骤S105中，获取未知二元样本，根据所述二元分类器对未知二元样本进行分类，并将分类结果转换成输出值Output score；

在步骤S106中，如果所述未知二元样本的输出值Output score属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值Output Score不属于该阈值范围，将未知样本分配到接受域。

本发明提供的具体方案通过分别设置正负例错分率的百分比作为移动步长，可以根据需要灵活设置数值，控制灵活，而且通过调整所述百分比值控制步长，可以实现更高精度的置信控制。

可选的，所述从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围步骤为：

所述以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围具体为：

如以第一距离的步长向左移动阈值范围的已知二元样本的错分率多，则先以第一距离的步长向左移动阈值，然后再向右以第二距离的步长移动阈值；

如以第二步长向右移动阈值范围的已知二元样本的错分率多，则先以第二距离的步长向右移动阈值，然后再以第一距离的步长向左移动阈值。

可选的，所述第一预定比例值和第二预定比例值相同或不同。

本发明提供的技术方案提高控制精度，实现灵活控制可控的置信机器以二元问题为基础，运用该种算法，具有适应不同场合的需要、满足不同应用需求的特点，同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点，在心脏病和糖尿病等多个实验数据集上进行了验证，取得了较好的实验效果。

本发明提供的技术方案的软件算法流程如下：

训练算法流程：

(1)、软件算法流程如下：

训练算法流程：

输入

X：二元训练数据样本

Y：二元训练样本标签

Train Set：(X，Y)

mp：错分的score输出百分比

输出

正例阈值：t1

负例阈值：-t2

过程

1、用Train Set训练二元分类器，取得二元分类器的有关参数值

2、用二元分类器在训练集Train Set上进行分类

3、将分类结果转换成score输出

4、四种情况判断

5、计算错分的score输出百分比来确定阈值

6、输出t1和-t2

7、结束

分类算法流程：

输入

x：未知样本

输出

未知样本的类别

or

人工处理未知样本

过程

1、用二元分类器对未知x进行分类

2、将分类结果转换成score输出

3、if score值<＝-t2or score值>＝t1

输出未知样本的类别

else

人工处理

endif

4、结束

采用本发明所述方案的实验数据如下：

表1 实验使用数据集情况表

该算法执行的数据结果如表2所示。

表2 算法执行10次的平均结果(单位：％)

该算法寻找阈值后得到的错分率，会与设定值更接近或是一致。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于设置正负例错分值的百分比的可控置信机器算法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述方法，其特征在于，所述从原点出发向左，通过逐步增加第一距离的步长，以及通过以原点出发，向右逐步增加第二距离的步长，确定满足要求的阈值范围步骤为：

3.根据权利要求2所述的方法，其特征在于，所述以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围具体为：

4.根据权利要求1-3任一项所述方法，其特征在于，所述第一预定比例值和第二预定比例值相同或不同。