CN104598923B - 基于score输出值百分比的可控置信机器分类方法 - Google Patents

基于score输出值百分比的可控置信机器分类方法 Download PDF

Info

Publication number
CN104598923B
CN104598923B CN201510012276.6A CN201510012276A CN104598923B CN 104598923 B CN104598923 B CN 104598923B CN 201510012276 A CN201510012276 A CN 201510012276A CN 104598923 B CN104598923 B CN 104598923B
Authority
CN
China
Prior art keywords
sample
binary
unknown
score
output valve
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510012276.6A
Other languages
English (en)
Other versions
CN104598923A (zh
Inventor
蒋方纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN201510012276.6A priority Critical patent/CN104598923B/zh
Publication of CN104598923A publication Critical patent/CN104598923A/zh
Application granted granted Critical
Publication of CN104598923B publication Critical patent/CN104598923B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明适用机器学习领域,提供了一种基于score输出值百分比的可控置信机器算法,所述方法包括如下步骤:对二元样本采用二元分类器进行分类;将二元分类器的分类结果转成score输出值;获取未知二元样本的理想错分率,分别以最小输出值和最大输出值为基准,向着原点的方向以等距离步长(设定score的百分比)分别向右或向左一步步的移动,当满足理想错分率,确定阈值范围;如未知二元样本的score输出值属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的score输出值不属于该阈值范围,将未知样本分配到接受域。本发明提供的技术方案具有精度高,可靠性高的优点。

Description

基于score输出值百分比的可控置信机器分类方法
技术领域
本发明属于机器学习领域,尤其涉及一种基于score输出值百分比的可控置信机器分类方法。
背景技术
置信机器就是在机器学习的过程中对学习的结果同时提供一个可信的程度判断或可以对学习结果进行预设的分类处理。置信机器在医疗诊断等高风险的应用领域有着重要的现实意义。置信机器是机器学习领域中研究时间不长的一个分支,实现置信机器学习的理论基础与方法并不多。有直接构造置信度的方法,有间接构造置信度的方法,有通过设置拒绝选项,可以进行预设的分类处理,来排除低可信的部分,从而提高剩余部分的可信度,实现置信分类。简捷有效的置信机器学习是置信机器研究的目标之一。
2005年由Vladimir Vovk,Alexander Gammerman,Glenn Shafer出版了关于信任机器学习的专著《Algorithmic Learning in a Random World》。2004年邱德红等在计算机研究与发展期刊Vol.41,No.9中发表了《基于算法随机性理论和奇异描述的置信学习机器》,根据Kolmogorov算法随机性理论,为学习机器建立了一种置信机制,描述了置信学习机器的算法。
在实现现有技术的方案中,发现现有技术存在如下的技术问题:
(1)置信控制的精度不够。目前上述的置信机器学习方法是通过设置Bin的方法来计算错分率,并根据计算结果设置阈值,但最后总的错分率控制与当初预设值比较,有时差距会很大。
(2)置信控制不够灵活。设置Bin的方法有一定的限制,不能任意设置数值,进行灵活多变的控制,满足不同的要求。
发明内容
本发明实施例的目的在于提供一种基于score输出值百分比的可控置信机器分类方法,其解决现有技术的置信度控制精度不高和不够灵活的问题。
本发明实施例是这样实现的,一方面,一种基于score输出值百分比的可控置信机器分类方法,所述方法包括如下步骤:
对二元样本采用二元分类器进行分类;
将二元分类器的分类结果转成输出值Output Score;
获取未知二元样本的理想错分率,以最小输出值或最大输出值为基准,向原点向右或向左一步步的移动阈值范围(-t1,t1),当阈值(-t1,t1)满足已知二元样本的理想错分率时,确定阈值(-t1,t1)为未知二元样本的理想错分率对应的阈值范围(-t1,t1);所述向右或向左一步步的移动阈值范围(-t1,t1)中每步移动所跨越的Output Score为设定Score百分比值;
如未知二元样本的输出值Output Score属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值Output Score不属于该阈值范围,将未知样本分配到接受域。
可选的,所述以最小输出值或最大输出值为基准,以等距离步长向原点向右或向左一步步的移动阈值范围(-t1,t1)具体包括:
如向左移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后再向左移动阈值;
如向右移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后再向右移动阈值。
本发明提供的技术方案具有精度高,可靠性高的优点。
附图说明
图1是本发明提供的一种基于score输出值百分比的可控置信机器分类方法的流程图;
图2是本发明提供的一种置信机器分类方法示意图;
图3是本发明提供的置信机器分类方法的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明具体实施方式提供一种基于score输出值百分比的可控置信机器分类方法,上述方法由置信机器执行,该方法如图1所示,包括如下步骤:
101、对二元样本采用二元分类器进行分类;
102、将二元分类器的分类结果转成score输出值(Output Score);
103、获取未知二元样本的理想错分率,以最小输出值或最大输出值为基准,向原点向右或向左一步步的移动阈值范围(-t1,t1),当阈值(-t1,t1)满足已知二元样本的理想错分率时,确定阈值(-t1,t1)为未知二元样本的理想错分率对应的阈值范围(-t1,t1),所述向右或向左一步步的移动阈值范围(-t1,t1)中每步移动所跨越的Output Score为设定Score百分比值;
104、如未知二元样本的输出值(Output Score)属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值(Output Score)不属于该阈值范围,将未知样本分配到接受域。
本发明采用的置信分类通过区分可信样例与不可信样例、划分接受域与拒绝域,达到对分类结果的预设分类处理,实现置信分类。本发明实施例的目的在于提供一种基于score输出值百分比的可控置信机器分类方法,以提高现有技术的置信度控制精度和灵活性。
该方法的原理图如图2所示,其具体算法流程图如图3所示。
可选的,上述以最小输出值或最大输出值为基准,以等距离步长向原点向右或向左一步步的移动阈值范围(-t1,t1)具体可以为:
如向左移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后再向左移动阈值;
如向右移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后再向右移动阈值。
软件算法流程如下:
训练算法流程:
输入
X:二元训练数据样本
Y:二元训练样本标签
Train Set:(X,Y)
p:score输出百分比
输出
正例阈值:t
负例阈值:-t
过程
1、用Train Set训练二类分类器,取得二元分类器的有关参数值
2、用二类分类器在训练集Train Set上进行分类
3、将分类结果转换成score输出
4、四种情况判断
5、计算score输出百分比来确定阈值
6、输出t和-t
7、结束
分类算法流程:
输入
x:未知样本
输出
未知样本的类别
or
人工处理未知样本
过程
1、用二元分类器对未知x进行分类2、将分类结果转换成score输出3、if score值<=-t or score值>=t
输出未知样本的类别
else
人工处理
endif
4、结束
实验情况
表1实验使用数据集情况表
当左、右两侧的阈值分别设定为左、右两侧最大score值的20%时,该算法执行的数据结果如表2所示。
表2本发明提供的算法执行10次的平均结果(单位:%)
该算法寻找阈值后得到的错分率,会与设定值更接近或是一致。
所以说本发明提供的可控的置信机器以二元问题为基础,运用该方法,具有适应不同场合的需要、满足不同应用需求的特点,同时也易于推广到多元分类问题。该方法实现了提高控制精度、具有控制灵活的特点,在心脏病和糖尿病等多个实验数据集上进行了验证,取得了较好的实验效果。
值得注意的是,上述实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于score输出值百分比的可控置信机器分类方法,其特征在于,所述方法包括如下步骤:
获取疾病实验数据的二元样本;
对二元样本采用二元分类器进行分类;
将二元分类器的分类结果转成输出值Output Score;
获取未知二元样本的理想错分率,以最小输出值或最大输出值为基准,向原点向右或向左一步步的移动阈值范围(-t1,t1),当阈值(-t1,t1)满足已知二元样本的理想错分率时,确定阈值(-t1,t1)为未知二元样本的理想错分率对应的阈值范围(-t1,t1),所述向右或向左一步步的移动阈值范围(-t1,t1)中每步移动所跨越的Output Score为设定Score百分比值;
如未知二元样本的输出值Output Score属于该阈值范围,将未知样本分配到拒绝域,如未知二元样本的输出值Output Score不属于该阈值范围,将未知样本分配到接受域;
对拒绝域中的未知样本进行人工处理;
从人工处理后的未知样本和接受域中的未知样本中提出特征构成训练集;
根据训练集对二元分类器进行训练;二元分类器用于对疾病实验数据进行分类。
2.根据权利要求1所述的基于score输出值百分比的可控置信机器分类方法,其特征在于,所述以最小输出值或最大输出值为基准,以等距离步长向原点向右或向左一步步的移动阈值范围(-t1,t1)具体包括:
如向左移动阈值范围的已知二元样本的错分率多,则先向右移动阈值,然后再向左移动阈值;
如向右移动阈值范围的已知二元样本的错分率多,则先向左移动阈值,然后再向右移动阈值。
CN201510012276.6A 2015-01-08 2015-01-08 基于score输出值百分比的可控置信机器分类方法 Expired - Fee Related CN104598923B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510012276.6A CN104598923B (zh) 2015-01-08 2015-01-08 基于score输出值百分比的可控置信机器分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510012276.6A CN104598923B (zh) 2015-01-08 2015-01-08 基于score输出值百分比的可控置信机器分类方法

Publications (2)

Publication Number Publication Date
CN104598923A CN104598923A (zh) 2015-05-06
CN104598923B true CN104598923B (zh) 2018-06-22

Family

ID=53124695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510012276.6A Expired - Fee Related CN104598923B (zh) 2015-01-08 2015-01-08 基于score输出值百分比的可控置信机器分类方法

Country Status (1)

Country Link
CN (1) CN104598923B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689034B (zh) * 2018-07-06 2023-04-07 阿里巴巴集团控股有限公司 一种分类器的优化方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163239A (zh) * 2011-05-11 2011-08-24 中科院成都信息技术有限公司 一种基于浮动分类阈值的分类器集成方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5324743B2 (ja) * 2003-07-01 2013-10-23 カーディオマグ イメージング、 インコーポレイテッド 心磁図の分類のための機械学習の使用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163239A (zh) * 2011-05-11 2011-08-24 中科院成都信息技术有限公司 一种基于浮动分类阈值的分类器集成方法
CN103150578A (zh) * 2013-04-09 2013-06-12 山东师范大学 一种基于半监督学习的支持向量机分类器训练方法

Also Published As

Publication number Publication date
CN104598923A (zh) 2015-05-06

Similar Documents

Publication Publication Date Title
Müller-Putz et al. Better than random: a closer look on BCI results
Chaira An improved medical image enhancement scheme using Type II fuzzy set
CN103996018B (zh) 基于4dlbp的人脸识别方法
Daniel et al. Optimum green plane masking for the contrast enhancement of retinal images using enhanced genetic algorithm
Muangkote et al. Rr-cr-IJADE: An efficient differential evolution algorithm for multilevel image thresholding
Mahmoudi et al. A survey of entropy image thresholding techniques
Purbolaksono et al. Implementation of mutual information and bayes theorem for classification microarray data
CN104598923B (zh) 基于score输出值百分比的可控置信机器分类方法
Lumchanow et al. Image classification of malaria using hybrid algorithms: convolutional neural network and method to find appropriate K for K-Nearest neighbor
CN104091178A (zh) 基于hog特征人体感知分类器的训练方法
JP2019053491A (ja) ニューラルネットワーク評価装置、ニューラルネットワーク評価方法、およびプログラム
CN103279960B (zh) 一种基于x射线背散射图像的人体隐藏物的图像分割方法
Lv et al. Density peaks clustering based on geodetic distance and dynamic neighbourhood
CN103336963B (zh) 一种图像特征提取的方法及装置
IL308566B1 (en) A method for producing an image of the expected results of medical cosmetic treatments on a human anatomical feature from an image of the anatomical feature prior to these medical cosmetic treatments
CN105224954B (zh) 一种基于Single-pass去除小话题影响的话题发现方法
Kouzehkanan et al. Easy-GT: open-source software to facilitate making the ground truth for white blood cells nucleus
CN104361224B (zh) 置信分类方法及置信机器
WO2019026523A1 (ja) クラスタリングの評価値算出方法及びクラスタ数決定方法
CN109325511A (zh) 一种改进特征选择的算法
Fitzgerald et al. On size, complexity and generalisation error in GP
CN110223291B (zh) 一种基于损失函数的训练眼底病变点分割网络方法
CN104573709B (zh) 基于设置总的错分率的可控置信机器算法
Li et al. Wheat cultivar classifications based on tabu search and fuzzy c-means clustering algorithm
Homenda et al. Features selection in character recognition with random forest classifier

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180622

Termination date: 20200108

CF01 Termination of patent right due to non-payment of annual fee