CN104573709B - 基于设置总的错分率的可控置信机器算法 - Google Patents

基于设置总的错分率的可控置信机器算法 Download PDF

Info

Publication number
CN104573709B
CN104573709B CN201410817003.4A CN201410817003A CN104573709B CN 104573709 B CN104573709 B CN 104573709B CN 201410817003 A CN201410817003 A CN 201410817003A CN 104573709 B CN104573709 B CN 104573709B
Authority
CN
China
Prior art keywords
sample
unknown
binary
mistake
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410817003.4A
Other languages
English (en)
Other versions
CN104573709A (zh
Inventor
蒋方纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201410817003.4A priority Critical patent/CN104573709B/zh
Publication of CN104573709A publication Critical patent/CN104573709A/zh
Application granted granted Critical
Publication of CN104573709B publication Critical patent/CN104573709B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用机器学习领域,提供了一种基于设置总的错分率的可控置信机器算法,所述方法包括如下步骤:确定待分类的未知二元样本;利用二类分类器对未知二元样本进行二元置信分类;将二元置信分类结果转换成未知二元样本的输出值(Output Score);根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(‑t,t);如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配到接受域。本发明提供的技术方案具有控制精度,实现灵活控制的优点。

Description

基于设置总的错分率的可控置信机器算法
技术领域
本发明属于机器学习领域,尤其涉及一种基于设置总的错分率的可控置信机器算法。
背景技术
置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支,实现置信机器学习的理论基础与方法并不多,有直接构造置信度的方法,有间接构造置信度的方法,有通过设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信度,实现置信分类,并对错分率可控。
2005年由Vladimir Vovk,Alexander Gammerman,Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41,No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习机器的算法。
现有的方案有以下几个问题:
(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率,并根据计算结果设置阈值,但最后总的错分率控制与当初预设值比较,有时差距会很大。
(2)置信控制不够灵活。设置Bin的方法有一定的限制,不能任意设置数值,进行灵活多变的控制,满足不同的要求。
发明内容
本发明实施例的目的在于提供一种基于设置总的错分率的可控置信机器算法,其解决现有技术的置信控制的精度不够,置信控制不够灵活的问题。
本发明实施例是这样实现的,一方面,一种基于设置总的错分率的可控置信机器算法,所述方法包括如下步骤:
确定待分类的未知二元样本;
利用二类分类器对未知二元样本进行二元置信分类;
将二元置信分类结果转换成未知二元样本的输出值(Output Score);
根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t);
如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配到接受域。
可选的,所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t)的实现方法具体为:
设定等距离步长和理想错分率,以原点为基准,以等距离步长向左、右一步步的移动阈值范围(-t1,t1),当阈值(-t1,t1)满足已知二元样本的理想错分率时,确定阈值(-t1,t1)为未知二元样本的理想错分率对应的阈值范围(-t,t)。
可选的,,所述以等距离步长向左、右一步步的移动阈值范围(-t1,t1)具体为:
如向左移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后在向右移动阈值;
如向右移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后在向左移动阈值。
在本发明实施例中,本发明提供的技术方案从原点出发,并设置等距离步长及总的错分率,向两边一步一步地寻求满足错分率的阈值,控制精度,实现灵活控制。
附图说明
图1是本发明提供的一种基于设置总的错分率的可控置信机器算法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施方式提供一种基于设置总的错分率的可控置信机器算法,上述方法由置信机器执行,该方法如图1所示,包括如下步骤:
101、确定待分类的未知二元样本;
102、利用二类分类器对未知二元样本进行二元置信分类;
103、将二元置信分类结果转换成未知二元样本的输出值(Output Score);
104、根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t);
105、如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配到接受域。
本发明提供的具体方案通过理想输出值(Output Score)值计算该错分率的阈值范围,所以其能够根据实际情况调整阈值,所以其具有分类准确率高的优点,
可选的,上述104的实现方法具体可以为:
设定等距离步长和理想错分率,以原点为基准,以等距离步长向左、右一步步(即等距离逐步移动)的移动阈值范围(-t1,t1),当阈值(-t1,t1)满足已知二元样本的理想错分率时,确定阈值(-t1,t1)为未知二元样本的理想错分率对应的阈值范围(-t,t)。
可选的,上述以等距离步长向左、右一步步的移动阈值范围(-t1,t1)具体可以为:
如向左移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后在向右移动阈值;如向右移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后在向左移动阈值。
本发明提供的技术方案提高控制精度,实现灵活控制可控的置信机器以二元问题为基础,运用该种算法,具有适应不同场合的需要、满足不同应用需求的特点,同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点,在心脏病和糖尿病等多个实验数据集上进行了验证,取得了较好的实验效果。
本发明提供的技术方案的软件算法流程如下:
训练算法流程:
输入
X:二元训练数据样本
Y:二元训练样本标签
Train Set:(X,Y)
p:准确率
s:步长
输出
正例阈值:t
负例阈值:-t
过程
1、用Train Set训练二类分类器,取得二元分类器的有关参数值
2、用二类分类器在训练集Train Set上进行分类
3、将分类结果转换成score输出
4、四种情况判断
5、计算准确率
6、if准确率>=p
goto 9
endif
7、增加步长s
8、goto 4
9、输出t和-t
10、结束
分类算法流程:
输入
x:未知样本
输出
未知样本的类别
or
人工处理未知样本
过程
1、用二元分类器对未知x进行分类
2、将分类结果转换成score输出
3、if score值<=-t or score值>=t
输出未知样本的类别
else
人工处理
endif
4、结束
采用本发明提供的方案进行实验情况
表1实验使用数据集情况表
采用本发明提供的方案执行的数据结果如表2所示。
表2执行结果(单位:%)
该算法寻找阈值后得到的错分率,会与设定值更接近或是一致。
结论,可控的置信机器以二元问题为基础,运用该种算法,具有适应不同场合的需要、满足不同应用需求的特点,同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点,在心脏病和糖尿病等多个实验数据集上进行了验证,取得了较好的实验效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于设置总的错分率的可控置信机器算法,其特征在于,包括:
获取疾病实验数据的二元样本;
确定待分类的未知二元样本;
利用二元分类器对未知二元样本进行二元置信分类;
将二元置信分类结果转换成未知二元样本的输出值;
根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t);
如未知二元样本的输出值属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值不属于该阈值范围,将未知样本分配到接受域;
对拒绝域中的未知样本进行人工处理;
从人工处理后的未知样本和接受域中的未知样本中提出特征构成训练集;
根据训练集对二元分类器进行训练;二元分类器用于对疾病实验数据进行分类。
2.根据权利要求1所述的基于设置总的错分率的可控置信机器算法,其特征在于,所述根据未知二元样本的理想错分率计算该理想错分率对应的阈值范围(-t,t)的实现方法具体为:
设定等距离步长和理想错分率,以原点为基准,以等距离步长向左、右一步步的移动阈值范围(-t1,t1),当阈值(-t1,t1)满足已知二元样本的理想错分率时,确定阈值(-t1,t1)为未知二元样本的理想错分率对应的阈值范围(-t,t)。
3.根据权利要求2所述的基于设置总的错分率的可控置信机器算法,其特征在于,所述以等距离步长向左、右一步步的移动阈值范围(-t1,t1)具体为:
如向左移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后在向右移动阈值;
如向右移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后在向左移动阈值。
CN201410817003.4A 2014-12-24 2014-12-24 基于设置总的错分率的可控置信机器算法 Expired - Fee Related CN104573709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410817003.4A CN104573709B (zh) 2014-12-24 2014-12-24 基于设置总的错分率的可控置信机器算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410817003.4A CN104573709B (zh) 2014-12-24 2014-12-24 基于设置总的错分率的可控置信机器算法

Publications (2)

Publication Number Publication Date
CN104573709A CN104573709A (zh) 2015-04-29
CN104573709B true CN104573709B (zh) 2018-08-03

Family

ID=53089729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410817003.4A Expired - Fee Related CN104573709B (zh) 2014-12-24 2014-12-24 基于设置总的错分率的可控置信机器算法

Country Status (1)

Country Link
CN (1) CN104573709B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163239A (zh) * 2011-05-11 2011-08-24 中科院成都信息技术有限公司 一种基于浮动分类阈值的分类器集成方法
CN102184422A (zh) * 2011-05-15 2011-09-14 中科院成都信息技术有限公司 一种平均错分代价最小化的分类器集成方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5324743B2 (ja) * 2003-07-01 2013-10-23 カーディオマグ イメージング、 インコーポレイテッド 心磁図の分類のための機械学習の使用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163239A (zh) * 2011-05-11 2011-08-24 中科院成都信息技术有限公司 一种基于浮动分类阈值的分类器集成方法
CN102184422A (zh) * 2011-05-15 2011-09-14 中科院成都信息技术有限公司 一种平均错分代价最小化的分类器集成方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
机器学习置信度机制研究综述;蒋方纯 等;《北京交通大学学报》;20140630;第38卷(第3期);第111-117页 *

Also Published As

Publication number Publication date
CN104573709A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
Müller-Putz et al. Better than random: a closer look on BCI results
CN103761311B (zh) 基于多源领域实例迁移的情感分类方法
EP4328708A3 (en) Controlling electronic devices and augmented reality based on wireless ranging
MY176481A (en) Method and apparatus for classifying object based on social networking service, and storage medium
JP2015223174A5 (zh)
EP2977976A3 (en) Context-aware landing zone classification
CN106778826A (zh) 基于自适应元胞遗传与优选模糊c‑均值的混合聚类算法
JP2018511870A (ja) セグメントに基づく二段深層学習モデル用のビッグデータの処理方法
CN105389471A (zh) 一种机器学习训练集缩减方法
CN104361224B (zh) 置信分类方法及置信机器
CN104573709B (zh) 基于设置总的错分率的可控置信机器算法
CN104598923B (zh) 基于score输出值百分比的可控置信机器分类方法
CN107729909B (zh) 一种属性分类器的应用方法及装置
CN104881703A (zh) 图像阈值分割的Tent映射改进蜂群算法
CN104820839A (zh) 基于分别设置正负例正确率的可控置信机器算法
CN104268564A (zh) 一种基于截断幂的稀疏基因表达数据分析方法
CN104820838A (zh) 基于设置正负例错分值的百分比的可控置信机器算法
CN106845507A (zh) 一种基于注意力的分块化目标检测方法
Shohdohji et al. A new algorithm based on metaheuristics for data clustering
Shah et al. Implementation of image segmentation on digital images using modified Otsu algorithm
Thompson et al. An automated pipeline for discovering gene expression patterns associated with increased cancer survival time
CN104537352A (zh) 基于梯度匹配的眉毛图像识别方法
Singh et al. Review Paper On Decision Tree Data Mining Algorithms To Improve Accuracy In Identifying Classified Instances Using Large Dataset
CN105389359A (zh) 搜索方法及系统
Deepa et al. A GLFES and DFT technique for feature selection in high-dimensional imbalanced dataset

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180803

Termination date: 20191224

CF01 Termination of patent right due to non-payment of annual fee