CN107563453B - 一种不平衡样本数据分类方法及系统 - Google Patents

一种不平衡样本数据分类方法及系统 Download PDF

Info

Publication number
CN107563453B
CN107563453B CN201710848315.5A CN201710848315A CN107563453B CN 107563453 B CN107563453 B CN 107563453B CN 201710848315 A CN201710848315 A CN 201710848315A CN 107563453 B CN107563453 B CN 107563453B
Authority
CN
China
Prior art keywords
sample data
penalty factor
positive class
class
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710848315.5A
Other languages
English (en)
Other versions
CN107563453A (zh
Inventor
罗欢
权圣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Consumer Finance Ltd By Share Ltd
Original Assignee
Consumer Finance Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Consumer Finance Ltd By Share Ltd filed Critical Consumer Finance Ltd By Share Ltd
Priority to CN201710848315.5A priority Critical patent/CN107563453B/zh
Publication of CN107563453A publication Critical patent/CN107563453A/zh
Application granted granted Critical
Publication of CN107563453B publication Critical patent/CN107563453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种不平衡样本数据分类方法,该方法包括:向预先获取的分类器模型中输入待判别的不平衡样本数据,根据分类器模型的输出值得到不平衡样本数据的分类结果;其中,分类器模型的获取过程为:利用预设的正类惩罚因子Cip对逻辑回归算法中损失函数的正类惩罚因子Cp进行调整,得到优化后逻辑回归算法;利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练,得到分类器模型;在本发明中,通过对逻辑回归算法中损失函数的正类惩罚因子进行调整,对逻辑回归算法进行了优化,降低了不平衡样本数据对测试结果的影响,从而提高了分类器的分类准确率。相应的,本发明公开的一种不平衡样本数据分类系统,同样具有上述有益效果。

Description

一种不平衡样本数据分类方法及系统
技术领域
本发明涉及数据处理领域,特别涉及一种不平衡样本数据分类方法及系统。
背景技术
样本数据的分类问题一直是机器学习领域中一个重要的研究方向,传统的分类算法是以提高数据集的总体分类准确率为目标,且假定样本集中的各类样本的数量是平衡的,然而在实际的问题当中却存在着大量的不平衡样本数据集,例如:信用卡欺诈行为检测,网络入侵行为检测以及医学诊断等问题,对于此类问题,少类样本的分类准确率往往会比多类样本的分类准确率更为重要。
支持向量机是以统计学理论和结构风险最小化原则为基础的学习机器,在分类领域有着广泛的应用,尤其以国立台湾大学的Chih-Jen Lin博士开发的Liblinear应用范围最广,Liblinear在分类平衡问题上表现出来的效果非常好,可以克服最小值的问题,但是Liblinear在分类不平衡数据集时,其效果却不是特别理想。目前在解决这一问题时,最常用的方法是对采集到的不平衡样本数据进行重采样,来均衡采集到的样本数据集,进而来提高分类的准确率,但是这种方法,是通过对样本数据集中的稀有类数据集进行上采样,对大类样本数据集进行下采样,来解决样本数据集中的不平衡问题,但是在实际应用当中很难确定上采样和下采样的样本数量,所以怎样提高不平衡样本的分类准确率是目前该领域亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种不平衡样本数据分类方法,以提高不平衡样本数据的分类准确率。其具体方案如下:
一种不平衡样本数据分类方法,包括:
向预先获取的分类器模型中输入待判别的不平衡样本数据,根据所述分类器模型的输出值得到所述不平衡样本数据的分类结果;
其中,所述分类器模型的获取过程为:
将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip,得到优化后逻辑回归算法;
其中,所述正类惩罚因子Cip的表达式为:
式中,Cip为第i类样本数据的正类惩罚因子,wij为第i类第j个样本数据的样本权重;
利用历史不平衡样本数据对基于所述优化后逻辑回归算法构建的待训练模型进行训练,得到所述分类器模型;
其中,所述历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。
优选的,所述将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip的过程,包括:
当所述样本数据中的第i类中的每一个样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第一正类惩罚因子C'ip
其中,所述第一正类惩罚因子C'ip的表达式为:
式中,C'ip为第i类样本数据的正类惩罚因子,Ni为第i类样本数据的数量,wi为第i类样本数据的类别权重;
将所述正类惩罚因子Cp调整为所述第一正类惩罚因子C'ip
优选的,所述将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip的过程,包括:
当所述样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第二正类惩罚因子C”ip
其中,所述第二正类惩罚因子C”ip的表达式为:
C”ip=(N-Ni)/Ni
式中,C”ip为第i类样本数据的正类惩罚因子,N为所述样本数据的总数量,Ni为第i类样本数据的数量;
将所述正类惩罚因子Cp调整为所述第二正类惩罚因子C”ip
优选的,所述将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip的过程,包括:
当所述样本数据的权重均相等且所述样本数据为二分类时,则对所述正类惩罚因子Cip进行化简,得到第三正类惩罚因子C”’ip
其中,所述第三正类惩罚因子C”’ip的表达式为:
C”’ip=N0/Np
式中,C”’ip为第i类样本数据的正类惩罚因子,Np为第i类样本数据的数量,N0为所述样本数据的总数量除去第i类样本数据的数量;
将所述正类惩罚因子Cp调整为所述第三正类惩罚因子C”’ip
优选的,所述损失函数为:
式中,l(θ)为损失函数,C为逆惩罚因子,Cp为正类惩罚因子,yi为所述样本数据的类别,xi为第i个样本数据的特征值,h(xi)为激励函数,wi为第i个样本数据的特征的权重。
优选的,所述正类惩罚因子Cp为1。
相应的,本发明还公开了一种不平衡样本数据分类系统,包括:
分类器分类模块,用于向预先获取的分类器模型中输入待判别的不平衡样本数据,根据所述分类器模型的输出值得到所述不平衡样本数据的分类结果;
其中,所述分类器模型为分类器创建模块创建获得,所述分类器创建模块包括:
逻辑回归算法优化子模块,用于将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip,得到优化后逻辑回归算法;
其中,所述正类惩罚因子Cip的表达式为:
式中,Cip为第i类样本数据的正类惩罚因子,wij为第i类第j个样本数据的样本权重;
分类器获取子模块,用于利用历史不平衡样本数据对基于所述优化后逻辑回归算法构建的待训练模型进行训练,得到所述分类器模型;
其中,所述历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。
优选的,所述逻辑回归算法优化子模块包括:
第一参数化简单元,用于当所述样本数据中的第i类中的每一个样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第一正类惩罚因子C’ip
其中,所述第一正类惩罚因子C’ip的表达式为:
式中,C’ip为第i类样本数据的正类惩罚因子,Ni为第i类样本数据的数量,wi为第i类样本数据的类别权重;
第一参数调整单元,用于将所述正类惩罚因子Cp调整为所述第一正类惩罚因子C’ip
优选的,所述逻辑回归算法优化子模块包括:
第二参数化简单元,用于当所述样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第二正类惩罚因子C”ip
其中,所述第二正类惩罚因子C”ip的表达式为:
C”ip=(N-Ni)/Ni
式中,C”ip为第i类样本数据的正类惩罚因子,N为所述样本数据的总数量,Ni为第i类样本数据的数量;
第二参数调整单元,用于将所述正类惩罚因子Cp调整为所述第二正类惩罚因子C”ip
优选的,所述逻辑回归算法优化子模块包括:
第三参数化简单元,用于当所述样本数据的权重均相等且所述样本数据为二分类时,则对所述正类惩罚因子Cip进行化简,得到第三正类惩罚因子C”'ip
其中,所述第三正类惩罚因子C”'ip的表达式为:
C”'ip=N0/Np
式中,C”'ip为第i类样本数据的正类惩罚因子,Np为第i类样本数据的数量,N0为所述样本数据的总数量除去第i类样本数据的数量;
第三参数调整单元,用于将所述正类惩罚因子Cp调整为所述第三正类惩罚因子C”'ip
在本发明中,一种不平衡样本数据分类方法,包括:向预先获取的分类器模型中输入待判别的不平衡样本数据,根据分类器模型的输出值得到不平衡样本数据的分类结果;其中,分类器模型的获取过程为:利用预设的正类惩罚因子Cip对逻辑回归算法中损失函数的正类惩罚因子Cp进行调整,得到优化后逻辑回归算法;其中,正类惩罚因子Cip的表达式为:
式中,Cip为第i类样本数据的正类惩罚因子,wij为第i类第j个样本数据的样本权重;利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练,得到分类器模型;其中,历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。可见,在本发明中,利用样本数据中的数据权重对正类惩罚因子Cp进行调整,为均衡不平衡样本数据中的大样本和稀有类样本提供了可靠的理论依据,从而降低了不平衡样本数据对分类结果的影响;解决了在现有技术当中默认正类惩罚因子Cp为1,也即,认为样本数据中所有类别的数量都相等,而忽略了样本数据中大样本和稀有类样本分布不均匀问题,所以利用本发明中的方法可以提高不平衡样本数据的分类准确率。同样,本发明公开一种不平衡样本数据分类系统,同样具有上述有益效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例一公开的一种不平衡样本数据分类方法流程图;
图2为本发明实施例二公开的一种不平衡样本数据分类方法中对参数调整的示意图;
图3为本发明实施例二公开的一种不平衡样本数据分类方法中对参数调整的示意图;
图4为本发明实施例二公开的一种不平衡样本数据分类方法中对参数调整的示意图;
图5为利用本发明公开的优化逻辑回归算法对正类惩罚因子Cp在粗调情形下测试集准确率的示意图;
图6为利用本发明公开的优化逻辑回归算法对样本数据进行测试的测试集准确率的示意图;
图7为利用本发明公开的优化逻辑回归算法对正类惩罚因子Cp在微调情形下交叉验证集准确率的示意图;
图8为利用本发明公开的优化逻辑回归算法对正类惩罚因子Cp在粗调情形下交叉验证集准确率的示意图;
图9为本发明实施例三公开的一种不平衡样本数据分类系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例一公开了一种不平衡样本数据分类方法,参见图1所示,该方法包括:
步骤S11:利用预设的正类惩罚因子Cip对逻辑回归算法中损失函数的正类惩罚因子Cp进行调整,得到优化后逻辑回归算法;
其中,正类惩罚因子Cip的表达式为:
式中,Cip为第i类样本数据的正类惩罚因子,wij为第i类第j个样本数据的样本权重;
步骤S12:利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练,得到分类器模型;
其中,历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。
需要说明的是,在本实施例中,步骤S11和步骤S12均为创建分类器模型的过程,在本实施例中可以是按照步骤S11和步骤S12来创建分类器模型后,直接向分类器模型中输入待判别的不平衡样本数据,根据分类器模型的输出值得到不平衡样本数据的分类结果;也可以是预先获取一个已经训练好的分类器模型直接对待判别的不平衡样本数据进行分类。一切以达到实际应用为目的,此处不作限定。
可见,在本发明中,利用样本数据中的数据权重对正类惩罚因子Cp进行调整,为均衡不平衡样本数据中的大样本和稀有类样本提供了可靠的理论依据,从而降低了不平衡样本数据对分类结果的影响;解决了在现有技术当中默认正类惩罚因子Cp为1,也即,认为样本数据中所有类别的数量都相等,而忽略了样本数据中大样本和稀有类样本分布不均匀问题,所以利用本发明中的方法可以提高不平衡样本数据的分类准确率。
发明实施例二公开了一种具体的不平衡样本分类方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:
在上一实施例步骤S21中,利用预设的正类惩罚因子Cip对逻辑回归算法中损失函数的正类惩罚因子Cp进行调整的过程,可以有多种不同的情况,具体的,在本实施例中公开了三种不同的调整方式,分别为第一种调整方式、第二种调整方式和第三种调整方式。
本实施例中,上述第一种调整方式的具体过程包括步骤S211和步骤S212,如图2所示。
步骤S211:当样本数据中的第i类中的每一个样本数据的权重均相等时,则对正类惩罚因子Cip进行化简,得到第一正类惩罚因子C'ip
其中,第一正类惩罚因子C'ip的表达式为:
式中,C'ip为第i类样本数据的正类惩罚因子,Ni为第i类样本数据的数量,wi为第i类样本数据的类别权重;
步骤S212:利用第一正类惩罚因子C'ip对正类惩罚因子Cp进行调整。
本实施例中,上述第二种调整方式的具体过程包括步骤H211和步骤H212,如图3所示。
步骤H211:当样本数据的权重均相等时,则对正类惩罚因子Cip进行化简,得到第二正类惩罚因子C”ip
其中,第二正类惩罚因子C”ip的表达式为:
C”ip=(N-Ni)/Ni
式中,C”ip为第i类样本数据的正类惩罚因子,N为样本数据的总数量,Ni为第i类样本数据的数量;
步骤H212:利用第二正类惩罚因子C”ip对正类惩罚因子Cp进行调整。
本实施例中,上述第三种调整方式的具体过程包括步骤S01和步骤S02,如图4所示。
步骤S01:当样本数据的权重均相等且样本数据为二分类时,则对正类惩罚因子Cip进行化简,得到第三正类惩罚因子C”'ip
其中,第三正类惩罚因子C”'ip的表达式为:
C”'ip=N0/Np
式中,C”'ip为第i类样本数据的正类惩罚因子,Np为第i类样本数据的数量,N0为样本数据的总数量除去第i类样本数据的数量;
步骤S02:利用第三正类惩罚因子C”'ip对正类惩罚因子Cp进行调整。
可以理解的是,在利用不平衡样本数据中的权重对样本数据的数量进行调整时,样本数据中的权重会出现不同的变化情况,根据权重的不同情况可以对正类惩罚因子Cip进行化简,从而减少计算量,进而对逻辑回归算法进行优化。
具体的,在本实施例中,逻辑回归算法中的损失函数为:
式中,l(θ)为损失函数,C为逆惩罚因子,Cp为正类惩罚因子,yi为样本数据的类别,xi为第i个样本数据的特征值,h(xi)激励函数,wi为第i个样本数据的特征的权重。
进一步的,在本实施例中逻辑回归算法中的正类惩罚因子Cp为1。
具体的,利用本发明中的方法对NLP意图识别中做分类识别,在实验过程中共有58451条人工标注语料,共91个分类,测试集有5118条人工标注语料,首先将人工标注语料进行分词,然后作3交叉验证,训练时采用第二正类惩罚因子C”ip=(N-Ni)/Ni对正类惩罚因子Cp进行调整,其他参数使用默认值,实验结果如图5、图6、图7和图8所示,由图中结果可得,在liblinear中对正类惩罚因子Cp调整后,测试结果相比于未调整正类惩罚因子Cp时,准确率提升了大约1%,该结果说明本方案的可靠性。
可见,在本发明中,利用样本数据中的数据权重对正类惩罚因子Cp进行调整,为均衡不平衡样本数据中的大样本和稀有类样本提供了可靠的理论依据,从而降低了不平衡样本数据对分类结果的影响。
相应的,本发明还公开了一种不平衡样本分类系统,如图9所示,该系统包括:
分类器分类模块32,用于向预先获取的分类器模型中输入待判别的不平衡样本数据,根据分类器模型的输出值得到不平衡样本数据的分类结果;
其中,分类器模型为分类器创建模块31创建获得,分类器创建模块包括:
逻辑回归算法优化子模块,用于利用预设的正类惩罚因子Cip对逻辑回归算法中损失函数的正类惩罚因子Cp进行调整,得到优化后逻辑回归算法;
其中,正类惩罚因子Cip的表达式为:
式中,Cip为第i类样本数据的正类惩罚因子,wij为第i类第j个样本数据的样本权重;
分类器获取子模块,用于利用历史不平衡样本数据对基于优化后逻辑回归算法构建的待训练模型进行训练,得到分类器模型;
其中,历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。
优选的,逻辑回归算法优化子模块包括:
第一参数化简单元,用于当样本数据中的第i类中的每一个样本数据的权重均相等时,则对正类惩罚因子Cip进行化简,得到第一正类惩罚因子C'ip
其中,第一正类惩罚因子C'ip的表达式为:
式中,C'ip为第i类样本数据的正类惩罚因子,Ni为第i类样本数据的数量,wi为第i类样本数据的类别权重;
第一参数调整单元,用于利用第一正类惩罚因子C'ip对正类惩罚因子Cp进行调整。
优选的,逻辑回归算法优化子模块包括:
第二参数化简单元,用于当样本数据的权重均相等时,则对正类惩罚因子Cip进行化简,得到第二正类惩罚因子C”ip
其中,第二正类惩罚因子C”ip的表达式为:
C”ip=(N-Ni)/Ni
式中,C”ip为第i类样本数据的正类惩罚因子,N为样本数据的总数量,Ni为第i类样本数据的数量;
第二参数调整单元,用于利用第二正类惩罚因子C”ip对正类惩罚因子Cp进行调整。
优选的,逻辑回归算法优化子模块包括:
第三参数化简单元,用于当样本数据的权重均相等且样本数据为二分类时,则对正类惩罚因子Cip进行化简,得到第三正类惩罚因子C”'ip
其中,第三正类惩罚因子C”'ip的表达式为:
C”'ip=N0/Np
式中,C”'ip为第i类样本数据的正类惩罚因子,Np为第i类样本数据的数量,N0为样本数据的总数量除去第i类样本数据的数量;
第三参数调整单元,用于利用第三正类惩罚因子C”'ip对正类惩罚因子Cp进行调整。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种不平衡样本数据分类方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种不平衡样本数据分类方法,其特征在于,包括:
向预先获取的分类器模型中输入待判别的不平衡样本数据,根据所述分类器模型的输出值得到所述不平衡样本数据的分类结果;
其中,所述分类器模型的获取过程为:
将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip,得到优化后逻辑回归算法;
其中,所述正类惩罚因子Cip的表达式为:
式中,Cip为第i类样本数据的正类惩罚因子,wij为第i类第j个样本数据的样本权重;
利用历史不平衡样本数据对基于所述优化后逻辑回归算法构建的待训练模型进行训练,得到所述分类器模型;
其中,所述历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip的过程,包括:
当所述样本数据中的第i类中的每一个样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第一正类惩罚因子C′ip
其中,所述第一正类惩罚因子C′ip的表达式为:
式中,C′ip为第i类样本数据的正类惩罚因子,Ni为第i类样本数据的数量,wi为第i类样本数据的类别权重;
将所述正类惩罚因子Cp调整为所述第一正类惩罚因子C′ip
3.根据权利要求1所述的方法,其特征在于,所述将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip的过程,包括:
当所述样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第二正类惩罚因子C″ip
其中,所述第二正类惩罚因子C″ip的表达式为:
C″ip=(N-Ni)/Ni
式中,C″ip为第i类样本数据的正类惩罚因子,N为所述样本数据的总数量,Ni为第i类样本数据的数量;
将所述正类惩罚因子Cp调整为所述第二正类惩罚因子C″ip
4.根据权利要求1所述的方法,其特征在于,所述将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip的过程,包括:
当所述样本数据的权重均相等且所述样本数据为二分类时,则对所述正类惩罚因子Cip进行化简,得到第三正类惩罚因子C″′ip
其中,所述第三正类惩罚因子C″′ip的表达式为:
C″′ip=N0/Np
式中,C″′ip为第i类样本数据的正类惩罚因子,Np为第i类样本数据的数量,N0为所述样本数据的总数量除去第i类样本数据的数量;
将所述正类惩罚因子Cp调整为所述第三正类惩罚因子C″′ip
5.根据权利要求1所述的方法,其特征在于,所述损失函数为:
式中,l(θ)为损失函数,C为逆惩罚因子,Cp为正类惩罚因子,yi为所述样本数据的类别,xi为第i个样本数据的特征值,h(xi)为激励函数,wi为第i个样本数据的特征的权重。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述正类惩罚因子Cp为1。
7.一种不平衡样本数据分类系统,其特征在于,包括:
分类器分类模块,用于向预先获取的分类器模型中输入待判别的不平衡样本数据,根据所述分类器模型的输出值得到所述不平衡样本数据的分类结果;
其中,所述分类器模型为分类器创建模块创建获得,所述分类器创建模块包括:
逻辑回归算法优化子模块,用于将逻辑回归算法中损失函数的正类惩罚因子Cp调整为预设的正类惩罚因子Cip,得到优化后逻辑回归算法;
其中,所述正类惩罚因子Cip的表达式为:
式中,Cip为第i类样本数据的正类惩罚因子,wij为第i类第j个样本数据的样本权重;
分类器获取子模块,用于利用历史不平衡样本数据对基于所述优化后逻辑回归算法构建的待训练模型进行训练,得到所述分类器模型;
其中,所述历史不平衡样本数据包括不平衡样本数据以及相应的分类结果。
8.根据权利要求7所述的系统,其特征在于,所述逻辑回归算法优化子模块包括:
第一参数化简单元,用于当所述样本数据中的第i类中的每一个样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第一正类惩罚因子C′ip
其中,所述第一正类惩罚因子C′ip的表达式为:
式中,C′ip为第i类样本数据的正类惩罚因子,Ni为第i类样本数据的数量,wi为第i类样本数据的类别权重;
第一参数调整单元,用于将所述正类惩罚因子Cp调整为所述第一正类惩罚因子C′ip
9.根据权利要求7所述的系统,其特征在于,所述逻辑回归算法优化子模块包括:
第二参数化简单元,用于当所述样本数据的权重均相等时,则对所述正类惩罚因子Cip进行化简,得到第二正类惩罚因子C″ip
其中,所述第二正类惩罚因子C″ip的表达式为:
C″ip=(N-Ni)/Ni
式中,C″ip为第i类样本数据的正类惩罚因子,N为所述样本数据的总数量,Ni为第i类样本数据的数量;
第二参数调整单元,用于将所述正类惩罚因子Cp调整为所述第二正类惩罚因子C″ip
10.根据权利要求7所述的系统,其特征在于,所述逻辑回归算法优化子模块包括:
第三参数化简单元,用于当所述样本数据的权重均相等且所述样本数据为二分类时,则对所述正类惩罚因子Cip进行化简,得到第三正类惩罚因子C″′ip
其中,所述第三正类惩罚因子C″′ip的表达式为:
C″′ip=N0/Np
式中,C″′ip为第i类样本数据的正类惩罚因子,Np为第i类样本数据的数量,N0为所述样本数据的总数量除去第i类样本数据的数量;
第三参数调整单元,用于将所述正类惩罚因子Cp调整为所述第三正类惩罚因子C″′ip
CN201710848315.5A 2017-09-19 2017-09-19 一种不平衡样本数据分类方法及系统 Active CN107563453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710848315.5A CN107563453B (zh) 2017-09-19 2017-09-19 一种不平衡样本数据分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710848315.5A CN107563453B (zh) 2017-09-19 2017-09-19 一种不平衡样本数据分类方法及系统

Publications (2)

Publication Number Publication Date
CN107563453A CN107563453A (zh) 2018-01-09
CN107563453B true CN107563453B (zh) 2018-07-06

Family

ID=60981511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710848315.5A Active CN107563453B (zh) 2017-09-19 2017-09-19 一种不平衡样本数据分类方法及系统

Country Status (1)

Country Link
CN (1) CN107563453B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304287B (zh) * 2018-01-22 2021-05-28 腾讯科技(深圳)有限公司 一种磁盘故障检测方法、装置以及相关设备
CN108091397B (zh) * 2018-01-24 2021-09-14 浙江大学 一种缺血性心脏病患者的出血事件预测方法
CN109460440B (zh) * 2018-09-18 2023-10-27 平安科技(深圳)有限公司 一种基于权重值的画像处理方法、装置及设备
CN113554228A (zh) * 2021-07-23 2021-10-26 中信银行股份有限公司 还款率预测模型的训练方法及还款率的预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034691A (zh) * 2012-11-30 2013-04-10 南京航空航天大学 一种基于支持向量机的专家系统知识获取方法
CN103927874A (zh) * 2014-04-29 2014-07-16 东南大学 基于欠抽样面向不平衡数据集的交通事件自动检测方法
CN103994858A (zh) * 2014-05-12 2014-08-20 上海大学 基于生物地理学智能优化支持向量机算法的动平衡检测控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103034691A (zh) * 2012-11-30 2013-04-10 南京航空航天大学 一种基于支持向量机的专家系统知识获取方法
CN103927874A (zh) * 2014-04-29 2014-07-16 东南大学 基于欠抽样面向不平衡数据集的交通事件自动检测方法
CN103994858A (zh) * 2014-05-12 2014-08-20 上海大学 基于生物地理学智能优化支持向量机算法的动平衡检测控制方法

Also Published As

Publication number Publication date
CN107563453A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107563453B (zh) 一种不平衡样本数据分类方法及系统
CN107908566A (zh) 自动化测试管理方法、装置、终端设备及存储介质
CN110348075A (zh) 一种基于改进支持向量机算法的磨削表面粗糙度预测方法
CN106651574A (zh) 一种个人信用评估方法及装置
JPH03122770A (ja) キーワード連想文書検索方法
CN109120632A (zh) 基于在线特征选择的网络流异常检测方法
CN104598586B (zh) 大规模文本分类的方法
CN103473598A (zh) 基于变长度粒子群优化算法的极限学习机
CN107844653A (zh) 一种油藏水驱开发潜力综合评价方法及装置
CN107193915A (zh) 一种企业信息分类方法及装置
CN104865827B (zh) 一种基于多工况模型的抽油机采油优化方法
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN107515822B (zh) 基于多目标优化的软件缺陷定位方法
CN109840413A (zh) 一种钓鱼网站检测方法及装置
CN107025598A (zh) 一种基于极限学习机的个人信用风险评估方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN107545038A (zh) 一种文本分类方法与设备
CN107977670A (zh) 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统
CN112784047A (zh) 一种基于自注意力机制的可控可解释司法文本分类方法
CN109658156A (zh) 一种材料价格测算方法、装置、终端设备及存储介质
CN108446735A (zh) 一种基于差分进化优化近邻成分分析的特征选择方法
CN107273922A (zh) 一种面向多源实例迁移学习的样本筛选和权重计算方法
Madan et al. Applications of data mining for power systems
Rofik et al. The Optimization of Credit Scoring Model Using Stacking Ensemble Learning and Oversampling Techniques
Zhang et al. Research on personal credit scoring model based on multi-source data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant