CN112465001A - 一种基于逻辑回归的分类方法及装置 - Google Patents

一种基于逻辑回归的分类方法及装置 Download PDF

Info

Publication number
CN112465001A
CN112465001A CN202011318984.XA CN202011318984A CN112465001A CN 112465001 A CN112465001 A CN 112465001A CN 202011318984 A CN202011318984 A CN 202011318984A CN 112465001 A CN112465001 A CN 112465001A
Authority
CN
China
Prior art keywords
probability
sample
target object
category
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011318984.XA
Other languages
English (en)
Inventor
谢春
许伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Electric Group Corp
Original Assignee
Shanghai Electric Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Electric Group Corp filed Critical Shanghai Electric Group Corp
Priority to CN202011318984.XA priority Critical patent/CN112465001A/zh
Publication of CN112465001A publication Critical patent/CN112465001A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24317Piecewise classification, i.e. whereby each classification requires several discriminant rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于逻辑回归的分类方法及装置。该方法中将目标对象的特征数据,分别输入目标对象对应的已训练的每种类别的二分类模型,得到目标对象属于每种类别的概率值;二分类模型是基于逻辑回归算法对目标对象对应的训练样本训练得到的;根据目标对象属于每种类别的概率值,获取目标对象的概率序列;检测概率序列是否满足预设条件,并根据检测结果,确定概率序列中的目标概率,并将目标概率对应的类别确定为目标对象的预测类别。该方法通过对现有技术的分类方式进行改进和优化,提高了分类结果的准确度。

Description

一种基于逻辑回归的分类方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于逻辑回归的分类方法及装置。
背景技术
逻辑回归是一种广义的线性回归分析模型,常用于数据挖掘,设备故障类型自动诊断等领域。例如,探讨引发设备故障的危险因素,并根据危险因素预测故障发生的概率等。逻辑回归是一种二分类算法,一般用来解决二分类问题,但是它也可以用来解决多分类问题,当使用它来解决多分类问题的时候,由于逻辑回归的特点,一般将多分类问题转化为二分类问题,通过多分类拆分策略,可以使用逻辑回归来进行多分类问题的分析。目前常用的多分类拆分策略主要包括one vs rest策略和one vs one策略。
以多分类问题中最简单的三分类问题为例,针对三分类问题,由于分类类别相对较少,样本不平衡表现不明显,因此多采用one vs rest策略。
其中,在one vs rest策略中,假设有n个类别,那么就会建立n个二分类模型,每个二分类模型针对其中一个类别和剩余类别进行分类。进行预测时,利用这n个二分类模型进行分类,得到输入数据属于当前类的概率,选择最大概率对应的类别作为最终的预测结果。例如,天气的种类分为晴天、雨天、阴天和雪天。按照one vs rest策略进行分类为:
第一个二分类模型将晴天和非晴天:雨天、阴天、雪天进行分类;
第二个二分类模型将雨天和非雨天:阴天、晴天、雪天进行分类;
第三个二分类模型将阴天和非阴天:晴天、雨天、雪天进行分类;
第四个二分类模型将雪天和非雪天:阴天、晴天、雨天进行分类;
第一个二分类模型输出:晴天=85%,非晴天=15%;
第二个二分类模型输出:雨天=75%,非雨天=25%;
第三个二分类模型输出:阴天=60%,非阴天=30%;
第四个二分类模型输出:雪天=5%,非雪天=95%;
由于晴天的概率最大,故晴天为预测结果。
然而,使用one vs rest策略解决三分类问题,由于分类结果是取所有二分类模型中概率最大的类型作为其结果,当两个二分类模型的阳性样本(即样本标签为1)的概率相差不大时,通常会出现判断错误,导致分类结果准确度降低。
发明内容
本申请实施例提供一种基于逻辑回归的分类方法及装置,解决了现有技术存在的上述问题,实现基于逻辑回归对目标对象至少三种类别的分类,提高了分类结果的准确度。
第一方面,提供了一种基于逻辑回归的分类方法,该方法可以包括:
获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;
将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;
根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;
检测所述概率序列是否满足预设条件,并根据检测结果,确定所述概率序列中的目标概率;
将所述目标概率对应的类别确定为所述目标对象的预测类别。
在一个可选的实现中,根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列,包括:
采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;
获取所述目标对象的概率序列。
在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;
检测所述概率序列是否满足预设条件,包括:
计算所述概率序列的均值和标准差;
若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;
其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。
在一个可选的实现中,根据检测结果,确定所述概率序列中的目标概率,包括:
若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;
若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。
在一个可选的实现中,将所述特征数据,分别输入已训练的所述目标对象对应的每种类别的二分类模型之前,所述方法还包括:
对所述特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure BDA0002792198090000031
其中,所述X_new为处理后的特征数据,Xi为第i个待处理的特征数据,Xmin为最小特征数据和Xmax为最大特征数据。
在一个可选的实现中,所述每种类别的二分类模型的训练过程包括:
根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;
针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;
针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;
根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;
根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。
在一个可选的实现中,根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集之前,所述方法还包括:
对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure BDA0002792198090000041
其中,所述X_new为预处理后的特征数据,Xi为第i个待处理的特征数据,Xmin为最小特征数据和Xmax为最大特征数据。
在一个可选的实现中,所述方法还包括:
基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。
第二方面,提供了一种基于逻辑回归的分类装置,该装置可以包括:获取单元、输入单元、检测单元和确定单元;
所述获取单元,用于获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;
所述输入单元,用于装置将目标对象的特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;
所述获取单元,还用于根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;
所述检测单元,用于检测所述概率序列是否满足预设条件;
所述确定单元,用于根据检测结果,确定所述概率序列中的目标概率;
以及,将所述目标概率对应的类别确定为所述目标对象的预测类别。
在一个可选的实现中,所述获取单元,具体用于采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;
以及,获取所述目标对象的概率序列。
在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;所述装置还包括计算单元;
所述计算单元,用于计算所述概率序列的均值和标准差;
所述确定单元,还用于若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;
其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。
在一个可选的实现中,所述确定单元,具体用于若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;
若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。
在一个可选的实现中,所述装置还包括第一预处理单元;
所述第一预处理单元,用于对所述目标对象的特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure BDA0002792198090000061
其中,所述X_new为处理后的特征数据,所述Xi为第i个待处理的特征数据,所述Xmin为最小特征数据和所述Xmax为最大特征数据。
在一个可选的实现中,所述装置还包括训练单元;
所述训练单元,用于执行以下步骤:
根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;
针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;
针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;
根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;
根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。
在一个可选的实现中,所述装置还包括第二预处理单元;
所述第二预处理单元,用于对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure BDA0002792198090000071
其中,所述X_new为预处理后的特征数据,Xi为第i个待处理的特征数据,所述Xmin为最小特征数据和所述Xmax为最大特征数据。
在一个可选的实现中,所述获取单元,还用于基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。
第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本发明实施例提供的基于逻辑回归的分类方法中将目标对象的特征数据,分别输入目标对象对应的已训练的每种类别的二分类模型,得到目标对象属于每种类别的概率值;二分类模型是基于逻辑回归算法对目标对象对应的训练样本训练得到的;根据目标对象属于每种类别的概率值,获取目标对象的概率序列;检测概率序列是否满足预设条件,并根据检测结果,确定概率序列中的目标概率,并将目标概率对应的类别确定为目标对象的预测类别。该方法通过对现有技术的分类方式进行改进和优化,提高了分类结果的准确度。
附图说明
图1为本发明实施例提供的一种基于逻辑回归的分类方法的流程示意图;
图2为本发明实施例提供的一种鸢尾花数据集的分布示意图;
图3为本发明实施例提供的一种鸢尾花数据集的分类结果对应的混淆矩阵示意图;
图4为本发明实施例提供的监测数据中蒸汽压力和负荷间的散点分布示意图;
图5为本发明实施例提供的一种锅炉数据集的分类结果对应的混淆矩阵示意图;
图6为本发明实施例提供的不同种类的汽车数据集的散点分布示意图;
图7为本发明实施例提供的一种汽车数据集的分类结果对应的混淆矩阵示意图;
图8为本发明实施例提供的一种基于逻辑回归的分类装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供的基于逻辑回归的分类方法可以应用在服务器上,也可以应用在终端上。服务器可以是应用服务器或云服务器;终端可以是具有较强的计算能力的移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)、移动终端(Mobile Terminal)等。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1为本发明实施例提供的一种基于逻辑回归的分类方法的流程示意图。如图1所示,该方法可以包括:
步骤110、将获取的目标对象的特征数据,分别输入目标对象对应的已训练的每种类别的二分类模型,得到目标对象属于每种类别的概率值。
具体实施中,对目标对象进行监测,获取目标对象的特征数据,如鸢尾花的花萼长、花萼宽、花瓣长和花瓣宽;目标对象可以包括至少三种类别,每种类别的目标对象的相应特征数据的特征值不同,即特征值完全互斥。
若目标对象包括三种类别,且类别之间完全互斥,则目标对象对应的已训练的二分类模型为三种不同类别的模型。每个二分类模型是基于逻辑回归算法对目标对象对应的每种类别的训练样本训练得到的。
对于二分类模型,二分类模型得到的是一个概率值,这个概率值表明样本的分类情况,如样本种类标签(样本标签)为0或样本种类标签为1(或称“阳性样本”)的可能性。预设一个具体概率值p,若二分类模型输出的概率值大于p(或称“阳性概率”),则样本标签为1,若二分类模型输出的概率值小于p,则样本标签为0。
在执行该步骤之前,需要对获取的目标对象的特征数据进行数据预处理,该数据预处理至少包括以下步骤:
(1)对目标对象的特征数据进行异常值,如正负数值、超出预设数值范围的数值等和空值,即无数值的检查,根据异常值和空值所占比例,进行删除或者填充处理;
(2)为避免不同种类的特征数据间的不同量纲和极大值、极小值对分类结果的影响,对特征数据进行变换处理,变换处理公式如(1)式:
Figure BDA0002792198090000101
公式中,X_new为处理后的特征数据,Xi为第i个待处理的特征数据,Xmin为最小特征数据和Xmax为最大特征数据。其中,最小特征数据和最大特征数据可以是预设的。
该步骤具体实施中,将数据预处理后的目标对象的特征数据,分别输入已训练的目标对象对应的每种类别的二分类模型,得到目标对象属于每种类别的概率值。
步骤120、根据目标对象属于每种类别的概率值,获取该目标对象的概率序列。
对同一个对象来说,在三种类别的二分类模型中必定有一个为阳性概率,即三个二分类模型输出的阳性概率之和应该为1。
故采用预设归一化算法,如Softmax函数,对目标对象属于每种类别的概率值进行处理,得到每种类别的概率值对应的归一化的概率值,其中,每种类别对应的归一化的概率值在0~1之间,且每种类别对应的归一化的概率值的和为1。
可选地,预设归一化算法的计算公式可以表示为:
Figure BDA0002792198090000102
公式中,Si为归一化的概率值,pi为第i个二分类模型对应的阳性概率值,i取1至3的整数。
之后,根据每种类别的二分类模型对应的归一化的概率值,获取目标对象的概率序列。
其中,该概率序列中的k个归一化的概率值,可以按照概率值从大到小的顺序排序,如概率序列可以表示为:{pmax,pmid,...,pmin},pmax为概率序列中第一大的概率值,即最大概率值,pmid为概率序列中第二大的概率值,pmin为概率序列中的最小概率值,k为大于0的正整数。
步骤130、检测概率序列是否满足预设条件,并确定概率序列中的目标概率。
计算概率序列的均值
Figure BDA0002792198090000111
和标准差std,二者的公式可以分别表示为:
Figure BDA0002792198090000112
Figure BDA0002792198090000113
若概率序列的均值和标准差满足预设条件,则确定概率序列满足预设条件;
其中,预设条件为概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与均值的乘积,且标准差小于均值。
该预设条件的公式可以表示为:
Figure BDA0002792198090000114
公式中,δ为预设比例系数;δ的取值范围为0<δ<0.45;
其中,经实验表明,当目标对象仅包括三种类别时,δ的取值范围为0<δ<0.3时可提高分类的准强度。
进一步的,根据检测结果,确定概率序列中的目标概率;
具体实施中,若检测结果为概率序列满足预设条件,则将概率序列中的第二大的概率值pmid确定为目标概率;
若检测结果为概率序列不满足预设条件,则将概率序列中的第一大的概率值pmax确定为目标概率。
步骤140、将目标概率对应的类别确定为目标对象的预测类别。
可见,本发明实施例将现有技术中通过直接选择最大概率对应的类别来确定分类结果,转变为通过分析概率序列的标准差与均值间的关系来,来选取合适的分类结果,即通过概率序列中概率值间的值间距,与概率值间的波动程度来确定分类结果,有效提高分类结果的准确度。
在一个可能的实现中,针对每种类别的二分类模型的训练过程可以包括如下步骤:
获取目标对象对应的样本数据集,该样本数据集可以包括三种类别的样本标签(即类别)和相应样本的特征数据;
可选地,需要对样本数据集中样本的特征数据进行数据预处理,该数据预处理至少包括以下步骤:
(1)对特征数据进行异常值和空值检查,根据异常值和空值所占比例,进行删除或者填充处理;
(2)若样本数据集中存在样本种类不平衡的问题,则可以通过上采样或者下采样方法,即增加样本种类少的样本数据,或减少样本种类少的样本数据,使得每个种类的样本数据趋于平衡,即三种类别的样本数量比值趋于1:1:1;
(3)为避免不同量纲和极大极小值对分类结果的影响,采用公式(1)对特征数据进行归一化处理。其中,公式(1)中的最小特征数据和最大特征数据可以是预设的,也可以是同种特征数据中的最小特征数据和最大特征数据,本发明实施例在此不做限定。
(4)对样本标签0,样本标签1和样本标签2,即样本种类进行one-hot编码处理,构建3个新的标签列Yi={1,0}向量,i=0,1,2,即编码前的样本标签等于i的时候,标签为1,不等于i的时候标签为0。
例如,样本标签为0的样本设置为1,非0的设置为0,获得新的样本标签列Y0;样本标签为1的样本设置为1,非1的样本设置为0,获得新的样本标签列Y1;样本标签为2的设置为1,非2的设置为0,获得新的样本标签列Y2,通过处理后获得三个新的样本标签列Y0,Y1和Y2
然后,基于预设测试集比例,获取训练样本数据集和测试样本数据集;
其中,训练样本数据集包括三种类别的样本标签和相应训练样本的特征数据,测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;
需要说明的是,预设测试集比例为测试集与训练集的比例,该比例可以根据样本数据集的数据量大小设置,如样本数据集的数据量较大时,预设测试集比例可以设置为3:7;样本数据集的数据量较小时,预设测试集比例可以设置为2:8,也可以根据实际情况自定义设置,本发明实施例在此不做限定。
进一步的,针对每种样本标签,采用逻辑回归算法,对样本标签和相应的训练样本的特征数据进行训练,得到每种样本标签的二分类模型;
之后,针对每个测试样本,采用每种样本标签的二分类模型,分别对测试样本的特征数据进行样本标签分类,得到测试样本属于每种样本标签的概率值;
根据测试样本属于所述每种样本标签的概率值,获取测试样本的概率序列,并将满足预设条件的概率序列中的目标概率对应的类别,确定为测试样本的预测类别;
根据每个二分类模型对应的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的目标对象对应的每种样本标签的二分类模型。
基于上述实施例,基于每种样本标签的二分类模型预测正确的测试样本个数和测试样本数据集中测试样本个数,采用预设准确度算法,得到每样本标签别的二分类模型的预测准确度。
可选地,预设准确度算法的公式可以表示为:
Figure BDA0002792198090000141
式子中,Ntrue为预测正确的测试样本个数,Nall为所有测试样本数据集中测试样本个数。
下面分别以目标对象为鸢尾花和锅炉设备为例,对目标对象的二分类模型的训练进行详细说明:
实施例一:
鸢尾花(iris)数据集是典型的三分类数据集,本实施例基于python机器学习框架scikit-learn自带的鸢尾花数据集进行基于逻辑回归的三分类预测,其数据中个别特征分布如图2所示。
该数据集为4个特征数据,即{萼片宽(sepalWidth),萼片长(sepalLength),花瓣宽(petalWidth),花瓣长(petalLength)},共150个鸢尾花的样本,样本标签为{0,1,2},分别代表鸢尾花的三个品种:山鸢尾(setosa)、变色鸢尾(versicolor)和维吉尼亚鸢尾(virginica),对该数据进行如下处理:
该数据集数据完整,且不存在空值,且三类品种的样本数基本相等,因此只需对其特征数据进行归一化处理,消除量纲和极大极小值对分类结果的影响,获得新的特征数据X_new;
对样本标签进行one-hot编码处理,将样本标签为0的样本设置为1,非0的设置为0,获得新的样本标签列Y0;将样本标签为1的样本设置为1,非1的样本设置为0,获得新的样本标签列Y1;将样本标签为2的设置为1,非2的设置为0,获得新的样本标签列Y2,通过处理后获得三个新的样本标签列Y0,Y1,Y2
选择合适的测试集比例,将样本的特征数据X_new划分为训练集X_new_train和测试集X_new_test,以及将三个样本标签列Y0,Y1,Y2划分为对应的训练集Yi_train和测试集Yi_test,其中i=0,1,2。
分别将训练集X_new_train和相应样本标签列训练集,输入逻辑回归模型,得到每个样本标签列对应的二分类模型Mi,其中i=0,1,2。
将测试集数据X_new_test中的每个测试数据X_new_test,分别输入每个二分类模型,获取每个测试样本为阳性样本的概率序列,将阳性概率序列进行softmax函数映射,并对其降序排列,即得到处理后的概率序列{pmax,pmid,pmin},若该处理后的概率序列满足公式(5)的条件,则选择处理后的概率序列中pmid对应的类别,若不满足,则选择pmax对应的类别;其中,由于鸢尾花数据集是三分类数据集,故δ优选0<δ<0.3的取值范围。
最后,可以按照公式(6)对预测结果进行分类结果的准确度进行评价分析,其评价标准如下表1所示:
表1 iris数据集分类评价结果
Figure BDA0002792198090000151
可选地,还可以对分类结果进行混淆矩阵分析,以验证分类结果的准确度,混淆矩阵如图3所示:
对于样本标签为0的样本,真实(true)存在16个样本,二分类模型预测(predict)样本标签为0的样本个数为16个;
对于样本标签为1的样本,真实存在18个样本,二分类模型预测样本标签为1的样本个数为17个,其中,将1个真实样本标签为1的样本预测为样本标签为2的样本;
对于样本标签为2的样本,真实存在11个样本,二分类模型预测样本标签为2的样本个数为12个。
需要说明的是,经试验数据表明,对鸢尾花数据集的分类,δ的取值范围为0<δ<0.45或0<δ<0.3,准确度均为97.8%。
实施例二:
采用某电厂锅炉设备运行监测数据,该监测数据的特征数据包括锅炉某特定设备的蒸汽温度(temperature)、蒸汽压力(pressure)和锅炉运行的负荷(load)数据以及锅炉某受热面的积灰污染程度(0为积灰程度在正常范围,1为积灰程度偏高,2为积灰程度偏低),该监测数据为典型的三分类数据,该监测数据中蒸汽压力和负荷(load)间的散点分布图,如图4所示。
设特征数据X={temperature,pressure,load},锅炉设备类别的样本标签列为y={0,1,2},本数据集共18012条样本,对该样本做如下处理:
经分析,本样本存在着负荷(load)为负值的异常数据,异常数据所占比例非常小(小于0.1%),因此可直接删除存在异常数据的样本;
本数据集存在着三类设备类别的样本数不平衡问题,类别为2的样本数远小于其他两种类别的样本数,鉴于本数据集样本数量较多,故采用下采样实现样本均衡,使得三类样本数的比值趋近于1:1:1,经过下采样后本数据集压缩为754条样本,对特征数据进行归一化,消除量纲和极大极小值对分类结果的影响获得新的特征数据;
对样本标签列进行one-hot编码处理,将其拆分为三个二分类模型对应的样本标签列Y0,Y1,Y2,并选择合适的测试集比例,将获取的新的特征数据划分训练集和测试集,并将三个样本标签列Y0,Y1,Y2划分为对应的训练集Yi_train和测试集Yi_test,其中i=0,1,2。
分别将训练集和相应样本标签列训练集,输入逻辑回归模型,训练得到每个样本标签列对应的二分类模型Mi,i=1,2,3;
将测试集中的每个测试数据,分别输入每个二分类模型Mi,得到每个测试样本为阳性样本的概率序列,将阳性概率序列进行softmax函数映射,并对其降序排列,即得到处理后的概率序列{pmax,pmid,pmin},若该处理后的概率序列满足公式(5)的条件,则选择处理后的概率序列中pmid对应的类型,若不满足,则选择pmax对应的类别;其中,由于监测数据的特征数据包括是三类特征数据,故δ优选0<δ<0.3的取值范围。
最后,可以按照公式(6)对预测结果进行分类结果的准确度进行评价分析,其评价标准如下表2所示:
表2锅炉数据集分类评价结果
Figure BDA0002792198090000171
可选地,还可以对分类结果进行混淆矩阵分析,以验证分类结果的准确度,混淆矩阵如图5所示:
对于样本标签为0的样本,真实存在57个,二分类模型预测样本标签为0的样本个数为59个,其中,将2个真实样本标签为2的样本预测为样本标签为0的样本;
对于样本标签为1的样本,真实存在71个样本,二分类模型预测样本标签为1的样本个数为77个,其中,将6个真实样本标签为2的样本预测为样本标签为1的样本;
对于样本标签为2的样本,真实存在61个样本,二分类模型预测样本标签为2的样本个数为53个。
需要说明的是,经试验数据表明,在δ的取值范围为0<δ<0.45时,准确度为95.8%。
实施例三:
采集四分类汽车(Vehicle)数据集,该数据包括汽车车体密度,汽车车体最大长度,中空率等汽车的主要参数,共计18个特征,846个样本,该数据集为四分类数据集,其样本标签为{bus,opel,saab,van},代表4种不同类型的汽车样本,该数据部分特征散点图如图6所示。
数据集为18个特征数据可以表示为X={x1,x2,x3,...,x18},汽车类别的样本标签列可以表示为y={bus,opel,saab,van},对该数据做如下处理:
经分析,本数据不存在缺失或者异常值,且四种类别的个数之比接近1:1:1:1,故不做特殊处理,因此只需对其特征数据进行归一化处理,消除量纲和极大极小值对分类结果的影响,获得新的特征数据X_new
对样本标签列进行one-hot编码,将样本标签为bus的样本设置为1,非bus的设置为0,获得新的样本标签列Y0;将样本标签为opel的样本设置为1,非opel的样本设置为0,获得新的样本标签列Y1;将样本标签为saab的设置为1,非saab的设置为0,获得新的样本标签列Y2,将样本标签为van的设置为1,非van的设置为0,获得新的样本标签列Y3,通过处理后获得四个新的样本标签列Y0,Y1,Y2,Y3
选择合适的测试集比例,将样本的特征数据X_new划分为训练集X_new_train和测试集X_new_test,以及将四个样本标签列Y0,Y1,Y2,Y3划分为对应的训练集Yi_train和测试集Yi_test,其中i=0,1,2,3;
分别将训练集X_new_train和相应样本标签列训练集,输入逻辑回归模型,得到每个样本标签列对应的二分类模型Mi,其中i=0,1,2,3。
将测试集数据X_new_test中的每个测试数据X_new_test,分别输入每个二分类模型,获取每个测试样本为阳性样本的概率序列,将阳性概率序列进行softmax函数映射,并对其降序排列,即得到处理后的概率序列{pmax,pmid,psub-mid,pmin},若该处理后的概率序列满足公式(5)的条件,则选择处理后的概率序列中pmid对应的类别,若不满足,则选择pmax对应的类别;其中,由于汽车数据集是四分类数据集,故δ的取值范围为0<δ<0.45。
最后,可以按照公式(6)对预测结果进行分类结果的准确度进行评价分析,其评价标准如下表3所示:
表3汽车数据集分类评价结果
Figure BDA0002792198090000191
可选地,还可以对分类结果进行混淆矩阵分析,以验证分类结果的准确度,混淆矩阵如图7所示:
对于样本标签为bus的样本,真实(true)存在47个样本,二分类模型预测样本标签为bus的样本个数为56个;其中,将2个真实样本标签为van的样本预测为样本标签为bus的样本,将4个真实样本标签为saab的样本预测为样本标签为bus的样本,将3个真实样本标签为opel的样本预测为样本标签为bus的样本;
对于样本标签为opel的样本,真实存在51个样本,二分类模型预测样本标签为opel的样本个数为49个,其中,将2个真实样本标签为saab的样本预测为样本标签为opel的样本;
对于样本标签为saab的样本,真实存在67个样本,二分类模型预测样本标签为saab的样本个数为62个,其中,将1个真实样本标签为opel的样本预测为样本标签为opel的样本。
对于样本标签为van的样本,真实存在47个样本,二分类模型预测样本标签为van的样本个数为45个。
本发明实施例提供的基于逻辑回归的分类方法中将目标对象的特征数据,分别输入目标对象对应的已训练的每种类别的二分类模型,得到目标对象属于每种类别的概率值;二分类模型是基于逻辑回归算法对目标对象对应的训练样本训练得到的;根据目标对象属于每种类别的概率值,获取目标对象的概率序列;检测概率序列是否满足预设条件,并根据检测结果,确定概率序列中的目标概率,并将目标概率对应的类别确定为目标对象的预测类别。该方法通过对现有技术的分类方式进行改进和优化,提高了分类结果的准确度。
与上述方法对应的,本发明实施例还提供一种基于逻辑回归的分类装置,如图8所示,该基于逻辑回归的分类装置包括:获取单元810、输入单元820、检测单元830和确定单元840;
获取单元810,用于获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;
输入单元820,用于将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;
获取单元810,还用于根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;
检测单元830,用于检测所述概率序列是否满足预设条件;
确定单元840,用于根据检测结果,确定所述概率序列中的目标概率;
以及,将所述目标概率对应的类别确定为所述目标对象的预测类别。
在一个可选的实现中,获取单元810,具体用于采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;
以及,获取所述目标对象的概率序列。
在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;所述装置还包括计算单元850;
计算单元850,用于计算所述概率序列的均值和标准差;
确定单元840,还用于若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;
其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。
在一个可选的实现中,确定单元840,具体用于若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;
若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。
在一个可选的实现中,所述装置还包括第一预处理单元860;
第一预处理单元860,用于对所述目标对象的特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure BDA0002792198090000211
其中,所述X_new为处理后的特征数据,Xi为第i个待处理的特征数据,Xmin为最小特征数据和Xmax为最大特征数据。
在一个可选的实现中,所述装置还包括训练单元870;
训练单元870,用于执行以下步骤:
根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;
针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;
针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;
根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;
根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。
在一个可选的实现中,所述装置还包括第二预处理单元880;
第二预处理单元880,用于对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure BDA0002792198090000221
其中,所述X_new为预处理后的特征数据,Xi为第i个待处理的特征数据,Xmin为最小特征数据和Xmax为最大特征数据。
在一个可选的实现中,获取单元810,还用于基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。
本发明上述实施例提供的基于逻辑回归的分类装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本发明实施例提供的基于逻辑回归的分类装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器910、通信接口920、存储器930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。
存储器930,用于存放计算机程序;
处理器910,用于执行存储器930上所存放的程序时,实现如下步骤:
获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;
将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;
根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;
检测所述概率序列是否满足预设条件,并根据检测结果,确定所述概率序列中的目标概率;
将所述目标概率对应的类别确定为所述目标对象的预测类别。
在一个可选的实现中,根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列,包括:
采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;
获取所述目标对象的概率序列。
在一个可选的实现中,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;
检测所述概率序列是否满足预设条件,包括:
计算所述概率序列的均值和标准差;
若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;
其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。
在一个可选的实现中,根据检测结果,确定所述概率序列中的目标概率,包括:
若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;
若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。
在一个可选的实现中,将所述特征数据,分别输入已训练的所述目标对象对应的每种类别的二分类模型之前,所述方法还包括:
对所述目标对象的特征数据进行数据预处理,得到预处理后的特征数据;所述数据预处理的公式可以表示为:
Figure BDA0002792198090000241
其中,所述X_new为处理后的特征数据,Xi为第i个待处理的特征数据,所述Xmin为最小特征数据和所述Xmax为最大特征数据。
在一个可选的实现中,所述每种类别的二分类模型的训练过程包括:
根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;
针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;
针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;
根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;
根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。
在一个可选的实现中,根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集之前,所述方法还包括:
对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure BDA0002792198090000251
其中,所述X_new为预处理后的特征数据,Xi为第i个待处理的特征数据,所述Xmin为最小特征数据和所述Xmax为最大特征数据。
在一个可选的实现中,所述方法还包括:
基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现,因此,本发明实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于逻辑回归的分类方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于逻辑回归的分类方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

Claims (11)

1.一种基于逻辑回归的分类方法,其特征在于,所述方法包括:
获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;
将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的每种类别的训练样本训练得到的;
根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;
检测所述概率序列是否满足预设条件,并根据检测结果,确定所述概率序列中的目标概率;
将所述目标概率对应的类别确定为所述目标对象的预测类别。
2.如权利要求1所述的方法,其特征在于,根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列,包括:
采用预设归一化算法,对所述目标对象属于每种类别的概率值进行处理,得到所述每种类别的概率值对应的归一化的概率值,其中,所述每种类别对应的归一化的概率值的和为1;
获取所述目标对象的概率序列。
3.如权利要求1所述的方法,其特征在于,若所述目标对象包括三种类别,则所述概率序列包括三个概率值;
检测所述概率序列是否满足预设条件,包括:
计算所述概率序列的均值和标准差;
若所述概率序列的均值和标准差满足所述预设条件,则确定所述概率序列满足预设条件;
其中,所述预设条件为所述概率序列中第一大的概率值与第二大的概率值的差,小于预设系数与所述均值的乘积,且所述标准差小于所述均值。
4.如权利要求3所述的方法,其特征在于,根据检测结果,确定所述概率序列中的目标概率,包括:
若所述检测结果为所述概率序列满足预设条件,则将所述概率序列中的第二大的概率值确定为目标概率;
若所述检测结果为所述概率序列不满足预设条件,则将所述概率序列中的第一大的概率值确定为目标概率。
5.如权利要求1所述的方法,其特征在于,将所述特征数据,分别输入已训练的所述目标对象对应的每种类别的二分类模型之前,所述方法还包括:
对所述特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure FDA0002792198080000021
其中,所述X_new为处理后的特征数据,所述Xi为第i个待处理的特征数据,所述Xmin为最小特征数据和所述Xmax为最大特征数据。
6.如权利要求3所述的方法,其特征在于,所述每种类别的二分类模型的训练过程包括:
根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集;其中,所述样本数据集包括三种类别的样本标签和相应样本的特征数据;所述训练样本数据集包括所述三种类别的样本标签和相应训练样本的特征数据,所述测试样本数据集包括已知类别的样本标签和相应测试样本的特征数据;
针对每种样本标签,采用逻辑回归算法,对所述样本标签和相应的训练样本的特征数据进行训练,得到所述每种样本标签的二分类模型;
针对每个测试样本,采用所述每种样本标签的二分类模型,分别对所述测试样本的特征数据进行样本标签分类,得到所述测试样本属于所述每种样本标签的概率值;
根据所述测试样本属于所述每种样本标签的概率值,获取所述测试样本的概率序列,并将满足预设条件的所述概率序列中的目标概率对应的类别,确定为所述测试样本的预测类别;
根据所述每个二分类模型对应的已知类别的样本标签与相应二分类模型得到的每个测试样本的预测类别的损失值,对相应二分类模型进行迭代更新,得到训练出的所述目标对象对应的每种样本标签的二分类模型。
7.如权利要求6所述的方法,其特征在于,根据所述目标对象对应的样本数据集,获取训练样本数据集和测试样本数据集之前,所述方法还包括:
对样本数据集中样本的特征数据进行数据预处理,得到预处理后的特征数据;
所述数据预处理的公式可以表示为:
Figure FDA0002792198080000031
其中,所述X_new为预处理后的特征数据,所述Xi为第i个待处理的特征数据,Xmin为最小特征数据和所述Xmax为最大特征数据。
8.如权利要求6所述的方法,其特征在于,所述方法还包括:
基于所述每种样本标签的二分类模型预测正确的测试样本个数和所述测试样本数据集中测试样本个数,采用预设准确度算法,得到所述每样本标签别的二分类模型的预测准确度。
9.一种基于逻辑回归的分类装置,其特征在于,所述装置包括:获取单元、输入单元、检测单元和确定单元;
所述获取单元,用于获取目标对象的特征数据;所述目标对象包括至少三种类别,且每种类别的所述目标对象的相应特征数据的特征值不同;
所述输入单元,用于将所述特征数据,分别输入所述目标对象对应的已训练的每种类别的二分类模型,得到所述目标对象属于所述每种类别的概率值;所述二分类模型是基于逻辑回归算法对所述目标对象对应的训练样本训练得到的;
所述获取单元,还用于根据所述目标对象属于每种类别的概率值,获取所述目标对象的概率序列;
所述检测单元,用于检测所述概率序列是否满足预设条件;
所述确定单元,用于根据检测结果,确定所述概率序列中的目标概率;
以及,将所述目标概率对应的类别确定为所述目标对象的预测类别。
10.一种电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-8任一所述的方法步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN202011318984.XA 2020-11-23 2020-11-23 一种基于逻辑回归的分类方法及装置 Pending CN112465001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011318984.XA CN112465001A (zh) 2020-11-23 2020-11-23 一种基于逻辑回归的分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011318984.XA CN112465001A (zh) 2020-11-23 2020-11-23 一种基于逻辑回归的分类方法及装置

Publications (1)

Publication Number Publication Date
CN112465001A true CN112465001A (zh) 2021-03-09

Family

ID=74798499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011318984.XA Pending CN112465001A (zh) 2020-11-23 2020-11-23 一种基于逻辑回归的分类方法及装置

Country Status (1)

Country Link
CN (1) CN112465001A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420165A (zh) * 2021-06-11 2021-09-21 北京达佳互联信息技术有限公司 二分类模型的训练、多媒体数据的分类方法及装置
CN114330562A (zh) * 2021-12-31 2022-04-12 大箴(杭州)科技有限公司 小样本细化分类及多分类模型构建方法
CN117609881A (zh) * 2023-11-29 2024-02-27 阿童木(广州)智能科技有限公司 一种基于人工智能的金属重叠检测方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6025128A (en) * 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
WO2015006517A2 (en) * 2013-07-10 2015-01-15 Rice Daniel M Extensions to the generalized reduced error logistic regression method
US20170053398A1 (en) * 2015-08-19 2017-02-23 Colorado Seminary, Owner and Operator of University of Denver Methods and Systems for Human Tissue Analysis using Shearlet Transforms
CN107480696A (zh) * 2017-07-12 2017-12-15 深圳信息职业技术学院 一种分类模型构建方法、装置及终端设备
CN108197280A (zh) * 2018-01-10 2018-06-22 上海电气集团股份有限公司 一种基于工业设备数据的可挖掘性评估方法
CN109284675A (zh) * 2018-08-13 2019-01-29 阿里巴巴集团控股有限公司 一种用户的识别方法、装置及设备
CN109299668A (zh) * 2018-08-30 2019-02-01 中国科学院遥感与数字地球研究所 一种基于主动学习和聚类分析的高光谱图像分类方法
CN109582774A (zh) * 2018-11-30 2019-04-05 北京羽扇智信息科技有限公司 自然语言分类方法、装置、设备及存储介质
CN110417810A (zh) * 2019-08-20 2019-11-05 西安电子科技大学 基于逻辑回归的增强模型的恶意加密流量检测方法
CN111209998A (zh) * 2018-11-06 2020-05-29 航天信息股份有限公司 基于数据类型的机器学习模型的训练方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6025128A (en) * 1994-09-29 2000-02-15 The University Of Tulsa Prediction of prostate cancer progression by analysis of selected predictive parameters
WO2015006517A2 (en) * 2013-07-10 2015-01-15 Rice Daniel M Extensions to the generalized reduced error logistic regression method
US20170053398A1 (en) * 2015-08-19 2017-02-23 Colorado Seminary, Owner and Operator of University of Denver Methods and Systems for Human Tissue Analysis using Shearlet Transforms
CN107480696A (zh) * 2017-07-12 2017-12-15 深圳信息职业技术学院 一种分类模型构建方法、装置及终端设备
CN108197280A (zh) * 2018-01-10 2018-06-22 上海电气集团股份有限公司 一种基于工业设备数据的可挖掘性评估方法
CN109284675A (zh) * 2018-08-13 2019-01-29 阿里巴巴集团控股有限公司 一种用户的识别方法、装置及设备
CN109299668A (zh) * 2018-08-30 2019-02-01 中国科学院遥感与数字地球研究所 一种基于主动学习和聚类分析的高光谱图像分类方法
CN111209998A (zh) * 2018-11-06 2020-05-29 航天信息股份有限公司 基于数据类型的机器学习模型的训练方法及装置
CN109582774A (zh) * 2018-11-30 2019-04-05 北京羽扇智信息科技有限公司 自然语言分类方法、装置、设备及存储介质
CN110417810A (zh) * 2019-08-20 2019-11-05 西安电子科技大学 基于逻辑回归的增强模型的恶意加密流量检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NAMR SENAVIRATNA等: "Diagnosing Multicollinearity of Logistic Regression Model", 《ASIAN JOURNAL OF PROBABILITY AND STATISTICS》, vol. 5, no. 2, 31 October 2019 (2019-10-31), pages 1 - 9 *
张宁: "铁路轨道几何故障修需求预测模型研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》, no. 12, 15 December 2019 (2019-12-15), pages 033 - 30 *
阿黎逸阳: "逻辑回归(logistics regression)原理-让你彻底读懂逻辑回归", pages 1 - 7, Retrieved from the Internet <URL:https://cloud.tencent.com/developer/article/1694338> *
陈国兴 等: "以标贯试验为依据的砂土液化确定性及概率判别法", 《岩土力学》, vol. 36, no. 1, 10 January 2015 (2015-01-10), pages 9 - 27 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420165A (zh) * 2021-06-11 2021-09-21 北京达佳互联信息技术有限公司 二分类模型的训练、多媒体数据的分类方法及装置
CN113420165B (zh) * 2021-06-11 2024-03-05 北京达佳互联信息技术有限公司 二分类模型的训练、多媒体数据的分类方法及装置
CN114330562A (zh) * 2021-12-31 2022-04-12 大箴(杭州)科技有限公司 小样本细化分类及多分类模型构建方法
CN114330562B (zh) * 2021-12-31 2023-09-26 大箴(杭州)科技有限公司 小样本细化分类及多分类模型构建方法
CN117609881A (zh) * 2023-11-29 2024-02-27 阿童木(广州)智能科技有限公司 一种基于人工智能的金属重叠检测方法及系统
CN117609881B (zh) * 2023-11-29 2024-04-30 阿童木(广州)智能科技有限公司 一种基于人工智能的金属重叠检测方法及系统

Similar Documents

Publication Publication Date Title
WO2021189976A1 (zh) 一种产品信息推送方法、装置、设备及存储介质
CN112465001A (zh) 一种基于逻辑回归的分类方法及装置
CN107633265B (zh) 用于优化信用评估模型的数据处理方法及装置
CN111008640B (zh) 图像识别模型训练及图像识别方法、装置、终端及介质
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN115112372A (zh) 轴承故障诊断方法、装置、电子设备及存储介质
CN111931763A (zh) 一种基于随机形态边缘几何建模的深度场景文本检测方法
CN110991247B (zh) 一种基于深度学习与nca融合的电子元器件识别方法
CN111881906A (zh) 一种基于注意力机制图像检索的logo识别方法
CN111352926B (zh) 数据处理的方法、装置、设备及可读存储介质
CN114971009A (zh) 一种车险出险预测方法及计算机设备
CN116380438A (zh) 一种故障诊断方法、装置、电子设备及存储介质
CN117011274A (zh) 自动化玻璃瓶检测系统及其方法
Beljadid et al. Application of deep learning for the detection of default in fabric texture
CN114528906A (zh) 一种旋转机械的故障诊断方法、装置、设备和介质
CN114077663A (zh) 应用日志的分析方法及装置
CN115687034A (zh) 一种业务系统平面可用性判定方法和装置
CN111291821A (zh) 车辆重识别方法、装置、计算机设备和存储介质
CN111126455A (zh) 一种基于Lightweight CNN与SVM的磨粒两阶段识别方法
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
CN112200219B (zh) 一种超大规模晶圆缺陷数据的特征提取方法
CN116996403B (zh) 应用ai模型的网络流量诊断方法及系统
CN117611580B (zh) 瑕疵检测方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination