CN104573709B

CN104573709B - 基于设置总的错分率的可控置信机器算法

Info

Publication number: CN104573709B
Application number: CN201410817003.4A
Authority: CN
Inventors: 蒋方纯
Original assignee: Shenzhen Institute of Information Technology
Current assignee: Shenzhen Institute of Information Technology
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2018-08-03
Anticipated expiration: 2034-12-24
Also published as: CN104573709A

Abstract

本发明适用机器学习领域，提供了一种基于设置总的错分率的可控置信机器算法，所述方法包括如下步骤：确定待分类的未知二元样本；利用二类分类器对未知二元样本进行二元置信分类；将二元置信分类结果转换成未知二元样本的输出值(Output Score)；根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(‑t，t)；如未知二元样本的输出值(Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值(Output Score)不属于该阈值范围，将未知样本分配到接受域。本发明提供的技术方案具有控制精度，实现灵活控制的优点。

Description

基于设置总的错分率的可控置信机器算法

技术领域

本发明属于机器学习领域，尤其涉及一种基于设置总的错分率的可控置信机器算法。

背景技术

置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支，实现置信机器学习的理论基础与方法并不多，有直接构造置信度的方法，有间接构造置信度的方法，有通过设置拒绝选项，可以进行预设的分类处理，来排除低可信的部分，从而提高剩余部分的可信度，实现置信分类，并对错分率可控。

2005年由Vladimir Vovk，Alexander Gammerman，Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41，No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》，根据Kolmogorov算法随机性理论，为学习机器建立了一种置信机制，描述了置信学习机器的算法。

现有的方案有以下几个问题：

(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率，并根据计算结果设置阈值，但最后总的错分率控制与当初预设值比较，有时差距会很大。

(2)置信控制不够灵活。设置Bin的方法有一定的限制，不能任意设置数值，进行灵活多变的控制，满足不同的要求。

发明内容

本发明实施例的目的在于提供一种基于设置总的错分率的可控置信机器算法，其解决现有技术的置信控制的精度不够，置信控制不够灵活的问题。

本发明实施例是这样实现的，一方面，一种基于设置总的错分率的可控置信机器算法，所述方法包括如下步骤：

确定待分类的未知二元样本；

利用二类分类器对未知二元样本进行二元置信分类；

将二元置信分类结果转换成未知二元样本的输出值(Output Score)；

根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t，t)；

如未知二元样本的输出值(Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值(Output Score)不属于该阈值范围，将未知样本分配到接受域。

可选的，所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t，t)的实现方法具体为：

设定等距离步长和理想错分率，以原点为基准，以等距离步长向左、右一步步的移动阈值范围(-t₁，t₁)，当阈值(-t₁，t₁)满足已知二元样本的理想错分率时，确定阈值(-t₁，t₁)为未知二元样本的理想错分率对应的阈值范围(-t，t)。

可选的，，所述以等距离步长向左、右一步步的移动阈值范围(-t₁，t₁)具体为：

如向左移动阈值范围的已知二元样本的错分率多，则先向左移动阈值，然后在向右移动阈值；

如向右移动阈值范围的已知二元样本的错分率多，则先向右移动阈值，然后在向左移动阈值。

在本发明实施例中，本发明提供的技术方案从原点出发，并设置等距离步长及总的错分率，向两边一步一步地寻求满足错分率的阈值，控制精度，实现灵活控制。

附图说明

图1是本发明提供的一种基于设置总的错分率的可控置信机器算法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明具体实施方式提供一种基于设置总的错分率的可控置信机器算法，上述方法由置信机器执行，该方法如图1所示，包括如下步骤：

101、确定待分类的未知二元样本；

102、利用二类分类器对未知二元样本进行二元置信分类；

103、将二元置信分类结果转换成未知二元样本的输出值(Output Score)；

104、根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t，t)；

105、如未知二元样本的输出值(Output Score)属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值(Output Score)不属于该阈值范围，将未知样本分配到接受域。

本发明提供的具体方案通过理想输出值(Output Score)值计算该错分率的阈值范围，所以其能够根据实际情况调整阈值，所以其具有分类准确率高的优点，

可选的，上述104的实现方法具体可以为：

设定等距离步长和理想错分率，以原点为基准，以等距离步长向左、右一步步(即等距离逐步移动)的移动阈值范围(-t₁，t₁)，当阈值(-t₁，t₁)满足已知二元样本的理想错分率时，确定阈值(-t₁，t₁)为未知二元样本的理想错分率对应的阈值范围(-t，t)。

可选的，上述以等距离步长向左、右一步步的移动阈值范围(-t₁，t₁)具体可以为：

如向左移动阈值范围的已知二元样本的错分率多，则先向左移动阈值，然后在向右移动阈值；如向右移动阈值范围的已知二元样本的错分率多，则先向右移动阈值，然后在向左移动阈值。

本发明提供的技术方案提高控制精度，实现灵活控制可控的置信机器以二元问题为基础，运用该种算法，具有适应不同场合的需要、满足不同应用需求的特点，同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点，在心脏病和糖尿病等多个实验数据集上进行了验证，取得了较好的实验效果。

本发明提供的技术方案的软件算法流程如下：

训练算法流程：

输入

X：二元训练数据样本

Y：二元训练样本标签

Train Set：(X，Y)

p：准确率

s：步长

输出

正例阈值：t

负例阈值：-t

过程

1、用Train Set训练二类分类器，取得二元分类器的有关参数值

2、用二类分类器在训练集Train Set上进行分类

3、将分类结果转换成score输出

4、四种情况判断

5、计算准确率

6、if准确率>＝p

goto 9

endif

7、增加步长s

8、goto 4

9、输出t和-t

10、结束

分类算法流程：

输入

x：未知样本

输出

未知样本的类别

or

人工处理未知样本

过程

1、用二元分类器对未知x进行分类

2、将分类结果转换成score输出

3、if score值<＝-t or score值>＝t

输出未知样本的类别

else

人工处理

endif

4、结束

采用本发明提供的方案进行实验情况

表1实验使用数据集情况表

采用本发明提供的方案执行的数据结果如表2所示。

表2执行结果(单位：％)

该算法寻找阈值后得到的错分率，会与设定值更接近或是一致。

结论，可控的置信机器以二元问题为基础，运用该种算法，具有适应不同场合的需要、满足不同应用需求的特点，同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点，在心脏病和糖尿病等多个实验数据集上进行了验证，取得了较好的实验效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于设置总的错分率的可控置信机器算法，其特征在于，包括：

获取疾病实验数据的二元样本；

确定待分类的未知二元样本；

利用二元分类器对未知二元样本进行二元置信分类；

将二元置信分类结果转换成未知二元样本的输出值；

如未知二元样本的输出值属于该阈值范围，将未知样本分配到拒绝域，如未知二元样本的输出值不属于该阈值范围，将未知样本分配到接受域；

对拒绝域中的未知样本进行人工处理；

从人工处理后的未知样本和接受域中的未知样本中提出特征构成训练集；

根据训练集对二元分类器进行训练；二元分类器用于对疾病实验数据进行分类。

2.根据权利要求1所述的基于设置总的错分率的可控置信机器算法，其特征在于，所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t，t)的实现方法具体为：

3.根据权利要求2所述的基于设置总的错分率的可控置信机器算法，其特征在于，所述以等距离步长向左、右一步步的移动阈值范围(-t₁，t₁)具体为：