CN104820838A - 基于设置正负例错分值的百分比的可控置信机器算法 - Google Patents

基于设置正负例错分值的百分比的可控置信机器算法 Download PDF

Info

Publication number
CN104820838A
CN104820838A CN201510202142.0A CN201510202142A CN104820838A CN 104820838 A CN104820838 A CN 104820838A CN 201510202142 A CN201510202142 A CN 201510202142A CN 104820838 A CN104820838 A CN 104820838A
Authority
CN
China
Prior art keywords
distance
length
score
sample
binary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510202142.0A
Other languages
English (en)
Inventor
蒋方纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201510202142.0A priority Critical patent/CN104820838A/zh
Publication of CN104820838A publication Critical patent/CN104820838A/zh
Pending legal-status Critical Current

Links

Abstract

本发明适用机器学习领域,提供了一种基于设置正负例错分值的百分比的可控置信机器算法,包括:根据样本训练集训练二元分类器,根据所述二元分类器在所述训练集Train Set上分类,并将分类结果转换成输出值;从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围,其中,所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值;根据所述阈值范围对未知样本的分类结果进行分配。本发明提供的技术方案具有控制精度,实现灵活控制的优点。

Description

基于设置正负例错分值的百分比的可控置信机器算法
技术领域
本发明属于机器学习领域,尤其涉及一种基于设置正负例错分值的百分比的可控置信机器算法。
背景技术
置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支,实现置信机器学习的理论基础与方法并不多,有直接构造置信度的方法,有间接构造置信度的方法,有通过设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信度,实现置信分类,并对错分率可控。
2005年由Vladimir Vovk,Alexander Gammerman,Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41,No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习机器的算法。
现有的方案有以下几个问题:
(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率,并根据计算结果设置阈值,但最后正负例正确率控制与当初预设值比较,有时差距会很大。
(2)置信控制不够灵活。设置Bin的方法有一定的限制,不能任意设置数值,进行灵活多变的控制,满足不同的要求。
发明内容
本发明实施例的目的在于提供一种基于设置正负例的错分率百分比的可控置信机器算法,其解决现有技术的置信控制的精度不够,置信控制不够灵活的问题。
本发明实施例是这样实现的,一方面,公开了一种基于设置正负例错分值的百分比的可控置信机器算法,所述方法包括如下步骤:
接收二元训练数据样本和二元训练样本标签构成的训练集Train Set;
根据所述训练集Train Set训练二元分类器,得到二元分类器参数值;
根据所述二元分类器在所述训练集Train Set上分类,并将分类结果转换成输出值Output score;
从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围(-t2,t1),其中,所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值;
获取未知二元样本,根据所述二元分类器对未知二元样本进行分类,并将分类结果转换成输出值Output score;
如果所述未知二元样本的输出值Output score属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值Output Score不属于该阈值范围,将未知样本分配到接受域。
优选的,所述从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围步骤为:
根据所述第一距离、第二距离的步长和预设的正确率,以原点为基准,以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围,当移动的阈值范围对应的正确率大于预设的正确率时,确定阈值(-t2,t1)为未知二元样本对应的阈值范围。
在本发明实施例中,本发明提供的技术方案通过分别设置正负例错分率的百分比作为移动步长,可以根据需要灵活设置数值,控制灵活,而且通过调整所述百分比值控制步长,可以实现更高精度的置信控制。
附图说明
图1是本发明提供的一种基于设置正负例错分值的百分比的可控置信机器算法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施方式提供一种基于设置正负例错分值的百分比的可控置信机器算法,上述方法由置信机器执行,该方法如图1所示,包括如下步骤:
在步骤S101中,接收二元训练数据样本和二元训练样本标签构成的训练集Train Set;
在步骤S102中,根据所述训练集Train Set训练二元分类器,得到二元分类器参数值;
在步骤S103中,根据所述二元分类器在所述训练集Train Set上分类,并将分类结果转换成输出值Output score;
在步骤S104中,从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围(-t2,t1),其中,所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值;
在步骤S105中,获取未知二元样本,根据所述二元分类器对未知二元样本进行分类,并将分类结果转换成输出值Output score;
在步骤S106中,如果所述未知二元样本的输出值Output score属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值Output Score不属于该阈值范围,将未知样本分配到接受域。
本发明提供的具体方案通过分别设置正负例错分率的百分比作为移动步长,可以根据需要灵活设置数值,控制灵活,而且通过调整所述百分比值控制步长,可以实现更高精度的置信控制。
可选的,所述从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围步骤为:
根据所述第一距离、第二距离的步长和预设的正确率,以原点为基准,以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围,当移动的阈值范围对应的正确率大于预设的正确率时,确定阈值(-t2,t1)为未知二元样本对应的阈值范围。
所述以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围具体为:
如以第一距离的步长向左移动阈值范围的已知二元样本的错分率多,则先以第一距离的步长向左移动阈值,然后再向右以第二距离的步长移动阈值;
如以第二步长向右移动阈值范围的已知二元样本的错分率多,则先以第二距离的步长向右移动阈值,然后再以第一距离的步长向左移动阈值。
可选的,所述第一预定比例值和第二预定比例值相同或不同。
本发明提供的技术方案提高控制精度,实现灵活控制可控的置信机器以二元问题为基础,运用该种算法,具有适应不同场合的需要、满足不同应用需求的特点,同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点,在心脏病和糖尿病等多个实验数据集上进行了验证,取得了较好的实验效果。
本发明提供的技术方案的软件算法流程如下:
训练算法流程:
(1)、软件算法流程如下:
训练算法流程:
输入
X:二元训练数据样本
Y:二元训练样本标签
Train Set:(X,Y)
mp:错分的score输出百分比
输出
正例阈值:t1
负例阈值:-t2
过程
1、用Train Set训练二元分类器,取得二元分类器的有关参数值
2、用二元分类器在训练集Train Set上进行分类
3、将分类结果转换成score输出
4、四种情况判断
5、计算错分的score输出百分比来确定阈值
6、输出t1和-t2
7、结束
分类算法流程:
输入
x:未知样本
输出
未知样本的类别
or
人工处理未知样本
过程
1、用二元分类器对未知x进行分类
2、将分类结果转换成score输出
3、if score值<=-t2or score值>=t1
输出未知样本的类别
else
人工处理
endif
4、结束
采用本发明所述方案的实验数据如下:
表1 实验使用数据集情况表
      
该算法执行的数据结果如表2所示。
表2 算法执行10次的平均结果(单位:%)
      
该算法寻找阈值后得到的错分率,会与设定值更接近或是一致。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于设置正负例错分值的百分比的可控置信机器算法,其特征在于,所述方法包括如下步骤:
接收二元训练数据样本和二元训练样本标签构成的训练集Train Set;
根据所述训练集Train Set训练二元分类器,得到二元分类器参数值;
根据所述二元分类器在所述训练集Train Set上分类,并将分类结果转换成输出值Output score;
从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围(-t2,t1),其中,所述第一距离为原点至正例错分的最小的Score值的距离的第一预定比例值,所述第二距离为原点至负例错分的最大的Score值的距离的第二预定比例值;
获取未知二元样本,根据所述二元分类器对未知二元样本进行分类,并将分类结果转换成输出值Output score;
如果所述未知二元样本的输出值Output score属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值Output Score不属于该阈值范围,将未知样本分配到接受域。
2.根据权利要求1所述方法,其特征在于,所述从原点出发向左,通过逐步增加第一距离的步长,以及通过以原点出发,向右逐步增加第二距离的步长,确定满足要求的阈值范围步骤为:
根据所述第一距离、第二距离的步长和预设的正确率,以原点为基准,以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围,当移动的阈值范围对应的正确率大于预设的正确率时,确定阈值(-t2,t1)为未知二元样本对应的阈值范围。
3.根据权利要求2所述的方法,其特征在于,所述以第一距离的步长逐步向左、以第二距离的步长向右逐步移动阈值范围具体为:
如以第一距离的步长向左移动阈值范围的已知二元样本的错分率多,则先以第一距离的步长向左移动阈值,然后再向右以第二距离的步长移动阈值;
如以第二步长向右移动阈值范围的已知二元样本的错分率多,则先以第二距离的步长向右移动阈值,然后再以第一距离的步长向左移动阈值。
4.根据权利要求1-3任一项所述方法,其特征在于,所述第一预定比例值和第二预定比例值相同或不同。
CN201510202142.0A 2015-04-24 2015-04-24 基于设置正负例错分值的百分比的可控置信机器算法 Pending CN104820838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510202142.0A CN104820838A (zh) 2015-04-24 2015-04-24 基于设置正负例错分值的百分比的可控置信机器算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510202142.0A CN104820838A (zh) 2015-04-24 2015-04-24 基于设置正负例错分值的百分比的可控置信机器算法

Publications (1)

Publication Number Publication Date
CN104820838A true CN104820838A (zh) 2015-08-05

Family

ID=53731127

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510202142.0A Pending CN104820838A (zh) 2015-04-24 2015-04-24 基于设置正负例错分值的百分比的可控置信机器算法

Country Status (1)

Country Link
CN (1) CN104820838A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040096107A1 (en) * 2002-11-14 2004-05-20 Lockheed Martin Corporation Method and computer program product for determining an efficient feature set and an optimal threshold confidence value for a pattern recogniton classifier
CN101236599A (zh) * 2007-12-29 2008-08-06 浙江工业大学 基于多摄像机信息融合的人脸识别检测装置
CN101398893A (zh) * 2008-10-10 2009-04-01 北京科技大学 一种改进AdaBoost算法的鲁棒人耳检测方法
CN102799893A (zh) * 2012-06-15 2012-11-28 北京理工大学 考场监控视频处理方法
CN103870818A (zh) * 2014-03-31 2014-06-18 中安消技术有限公司 一种烟雾检测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040096107A1 (en) * 2002-11-14 2004-05-20 Lockheed Martin Corporation Method and computer program product for determining an efficient feature set and an optimal threshold confidence value for a pattern recogniton classifier
CN101236599A (zh) * 2007-12-29 2008-08-06 浙江工业大学 基于多摄像机信息融合的人脸识别检测装置
CN101398893A (zh) * 2008-10-10 2009-04-01 北京科技大学 一种改进AdaBoost算法的鲁棒人耳检测方法
CN102799893A (zh) * 2012-06-15 2012-11-28 北京理工大学 考场监控视频处理方法
CN103870818A (zh) * 2014-03-31 2014-06-18 中安消技术有限公司 一种烟雾检测方法和装置

Similar Documents

Publication Publication Date Title
Aghdam et al. Feature selection using particle swarm optimization in text categorization
Prajwala A comparative study on decision tree and random forest using R tool
US20170177705A1 (en) Clustering using locality-sensitive hashing with improved cost model
WO2019136929A1 (zh) 基于k邻域相似性的数据聚类方法、装置和存储介质
CN111026865B (zh) 知识图谱的关系对齐方法、装置、设备及存储介质
JP2021193615A (ja) 量子データの処理方法、量子デバイス、コンピューティングデバイス、記憶媒体、及びプログラム
TW201730788A (zh) 特徵資料處理方法及設備
CN108537288A (zh) 一种基于互信息的实时特征提取方法
CN106547899B (zh) 一种基于多尺度时变聚类中心变化的间歇过程时段划分的方法
CN110263917A (zh) 一种神经网络压缩方法及装置
CN104820838A (zh) 基于设置正负例错分值的百分比的可控置信机器算法
CN104820839A (zh) 基于分别设置正负例正确率的可控置信机器算法
CN104598923A (zh) 基于score输出值百分比的可控置信机器算法
Li et al. Parameters selection for support vector machine based on particle swarm optimization
CN115935212A (zh) 一种基于纵向趋势预测的可调节负荷聚类方法及系统
CN108108371B (zh) 一种文本分类方法及装置
CN104573709A (zh) 基于设置总的错分率的可控置信机器算法
CN112925822B (zh) 基于多表征学习的时间序列分类方法、系统、介质及装置
CN105046217A (zh) 一种人脸识别大数据量并发方案处理方法
CN105139020A (zh) 一种用户聚类方法及装置
CN105404892B (zh) 基于有序模糊c均值聚类的青霉素发酵过程阶段划分方法
Karim et al. An adaptive ensemble classifier for mining complex noisy instances in data streams
Song et al. Action temporal detection method based on confidence curve analysis
CN112365363A (zh) 一种电力负荷曲线相似度的计算方法
CN104200225A (zh) 一种基于局部空间约束图模型的图像分类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150805

RJ01 Rejection of invention patent application after publication