CN107766875A - 一种为有向有序多类不平衡数据分类的样本合成方法 - Google Patents
一种为有向有序多类不平衡数据分类的样本合成方法 Download PDFInfo
- Publication number
- CN107766875A CN107766875A CN201710829334.3A CN201710829334A CN107766875A CN 107766875 A CN107766875 A CN 107766875A CN 201710829334 A CN201710829334 A CN 201710829334A CN 107766875 A CN107766875 A CN 107766875A
- Authority
- CN
- China
- Prior art keywords
- sample
- classification
- data set
- growth
- grade
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010189 synthetic method Methods 0.000 title claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 37
- 239000002131 composite material Substances 0.000 claims abstract description 17
- 238000013142 basic testing Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 241001269238 Data Species 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007635 classification algorithm Methods 0.000 claims description 6
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 2
- 238000007689 inspection Methods 0.000 description 14
- 206010006187 Breast cancer Diseases 0.000 description 13
- 208000026310 Breast neoplasm Diseases 0.000 description 13
- 238000003745 diagnosis Methods 0.000 description 5
- 206010028980 Neoplasm Diseases 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- 230000006378 damage Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 210000005075 mammary gland Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000505 pernicious effect Effects 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种为有向有序多类不平衡数据分类的样本合成方法,包括:Step1、构建初始数据集;Step2、基础训练;Step3、基础测试;Step4、计算再合成指数;Step5、构建增长训练数据集;Step6、增长训练;Step7、增长测试;Step8、错误率判断。本发明解决了医学信息等有向有序多类不平衡数据分类的序列性和方向性问题,确保增长分类模型更倾向于错误分类代价为正及代价敏感度高的分类等级,以降低分类错误造成的代价,并且,本发明的样本合成方法不需要人工设立代价的先验概率,其可以缺省自动赋予不同的代价敏感因子即类不平衡指数和错误分类代价因子,解决了人工设立代价先验概率准确性难以确保的问题。
Description
技术领域
本发明涉及一种为有向有序多类不平衡数据分类的样本合成方法,属于数据挖掘技术领域。
背景技术
医学信息分类与其他信息分类不同,除了数据不平衡外,医学信息的分类还具有“方向性”和“序列性”。因而会出现相同的错误率,但其错误的代价却远不相同。医学诊断结果通常会分为不同等级的数据序列。
如乳腺癌检查结果标准通常分为六个等级的数据序列:1级到6级。其中1级为无异常发现;2级为良性所见,无恶性征象;3级、4级、5级病情逐级加重;6级为确诊恶性病变。分类错误的方向不同,等级不同其分类错误的代价也不同。如将一例乳腺癌检查结果1级错分为6级与将一例乳腺癌检查结果6级错分为1级,其分类正确率相同,但两者的错误代价却远不相同(1级错分为6级只会给病人造成困扰;但如果将乳腺癌检查结果6级错分为1级就极有可能导致失去生命),由此可知医学信息分类具有方向性(即将序列前边错分为序列后边的和将序列后边错分为序列前边的,其代价远不相同)。另外将6级“恶性”错分为5级和1级,其代价也不同,由此可知医学分类还具有序列性(即在医学诊断结果序列中是有等级区分的)。
由此可见,在医学领域里尽管分类的错误率相同,但其错误代价却远不相同,此类问题被称为有向有序多类不平衡数据分类(Directed&Ordered Multiclass ImbalanceData)问题。
发明内容
本发明所要解决的技术问题是:提供一种为有向有序多类不平衡数据分类的样本合成方法。
解决上述技术问题,本发明所采用的技术方案如下:
一种为有向有序多类不平衡数据分类的样本合成方法,其特征在于:所述的样本合成方法包括以下步骤:
Step1、构建初始数据集:
从样本数据集S中,采用不放回抽样方式依次随机抽取Nt个、Ns个、Ngs个样本,以依次生成基础训练数据集St、基础测试数据集Ss、增长测试数据集Sgs,其中,所述样本数据集S中的样本总数量为Nt+Ns+Ngs个,且所述样本数据集S中的样本均为有向有序多类不平衡数据,每一个所述样本均包含属性数据向量X和对应该属性数据向量X的正确分类等级c,该属性数据向量X是由多个属性数据组成的有序序列,该正确分类等级c为自然数;
Step2、基础训练:
使用所述基础训练数据集St,训练通用分类算法uCMb,以生成基础分类模型CMb,该基础分类模型CMb表达的是所述属性数据向量X与所述正确分类等级c之间的对应关系;
Step3、基础测试:
将所述基础训练数据集St和基础测试数据集Ss组成原始样本集Sp=(St,Ss),并将所述原始样本集Sp中每一个样本的属性数据向量X分别代入所述基础分类模型CMb,以计算出对应的分类等级,记为分类等级计算值c’;
Step4、计算再合成指数:
按照以下公式一、公式二和公式三,计算所述原始样本集Sp中每一个样本的再合成指数βc:
μci=nci/((Nt+Ns+Ngs)÷m) [公式一]
式中,μci表示所述原始样本集Sp中第i个样本xi的类不平衡指数,i为整数且1≤i≤Nt+Ns,样本xi的正确分类等级c记为ci,nc表示所述样本数据集S中正确分类等级c为ci的样本数量,m表示所述样本数据集S中的样本所划分的等级数;
λi=ci’-ci [公式二]
式中,λi表示所述原始样本集Sp中第i个样本xi的错误分类代价因子,样本xi在所述Step3中计算出的分类等级计算值c’记为ci’;
式中,βci表示所述原始样本集Sp中第i个样本xi的再合成指数,βci’为中间计算值,ρ1和ρ2均为预设的分类等级权重系数,且ρ2≤ρ1;
Step5、构建增长训练数据集:
使所述原始样本集Sp中的每一个样本均合成数量与其再合成指数βc相等的增长训练样本,并用所述原始样本集Sp中的全部样本所合成的增长训练样本作为元素生成增长训练数据集Sgt;
其中,所述原始样本集Sp中第i个样本xi合成其βci个增长训练样本xij的方法为:首先,按照k最近邻算法,从所述原始样本集Sp的正确分类等级c等于为ci的样本中找出与所述样本xi最近邻的k个样本,k为所述k最近邻算法中的预设值,然后,在所述k个样本中随机选一个出来,记为样本xj,最后,用所述样本xi与所述样本xj合成所述βci个增长训练样本xij,即:所述样本xi合成的增长训练样本xij同样包含由多个属性数据有序组成的属性数据向量X和对应该属性数据向量X的正确分类等级c,并且,所述βci个增长训练样本xij的正确分类等级c均取值为所述样本xi的正确分类等级ci,所述增长训练样本xij与所述样本xi中组成它们属性数据向量X的属性数据数量和属性排序相同,且对于所述样本xi、样本xj和所述βci个增长训练样本xij位于同一个属性排序的属性数据来说,所述βci个增长训练样本xij的属性数据取值为在所述样本xi的属性数据取值与所述样本xj的属性数据取值之间的βci个随机值;
Step6、增长训练:
使用所述增长训练数据集Sgt,训练所述基础分类模型CMb,以生成增长分类模型CMg,该增长分类模型CMg表达的是所述属性数据向量X与所述正确分类等级c之间的对应关系;
Step7、增长测试:
将所述增长测试数据集Sgs中每一个样本的属性数据向量X分别代入所述增长分类模型CMg,以计算出对应的分类等级,记为增长测试分类等级计算值c”,并且,将所述增长测试数据集Sgs中每一个样本的正确分类等级c与其增长测试分类等级计算值c”进行对比,如果该两者相等,则将对应的样本归属于增长测试正确测试数据集Sgrt,否则,将对应的样本归属于增长测试错误测试数据集Sger;
Step8、错误率判断:
计算错误率Rerr=Nger/Ngs,Nger为所述增长测试错误测试数据集Sger所包含样本的数量,Ngs为所述增长测试数据集Sgs所包含样本的数量;如果满足Rerr≤Ac,Ac为预设的最大错误率,则停止学习,并认定所述增长分类模型CMg能够正确表达出所述属性数据向量X与所述正确分类等级c之间的对应关系,否则,学习次数加1,并重新进行学习,即返回所述Step1以重新执行所述Step1至Step8,直至所述学习次数的累加值达到预设的最大学习次数Lmax时,停止学习,并认定最后一次学习所生成的增长分类模型CMg能够正确表达出所述属性数据向量X与所述正确分类等级c之间的对应关系。
作为本发明的优选实施方式:所述的Step1中,所述Nt、Ns、Ngs之间的比值为30%:30%:40%。
作为本发明的优选实施方式:所述的Step2中,所述通用分类算法uCMb为随机森林分类算法、支持矢量机算法和朴素贝叶斯算法中的任意一个。
作为本发明的优选实施方式:所述的Step4中,分类等级权重系数ρ1的取值范围在2至5之间。
作为本发明的优选实施方式:所述的Step5中,所述k最近邻分类算法中的预设值k取值在3至5之间。
作为本发明的优选实施方式:所述的Step8中,所述最大学习次数Lmax的取值在10至100之间。
与现有技术相比,本发明具有以下有益效果:
本发明针对医学诊断结果数据等有向有序多类不平衡数据的分类具有序列性和方向性的特点,通过为样本计算表征其正确分类等级稀有度的类不平衡指数(用于解决样本在各个正确分类等级中分布不均甚至严重倾斜的问题),以及为样本计算表征其错误分类代价的错误分类代价因子(用于解决有向有序多类不平衡数据分类错误的有向性与有序性的代价不同的问题),利用该类不平衡指数和错误分类代价因子形成再合成指数,然后再合成数量对应于再合成指数的增长训练样本,构建成增长训练数据集,以该增长训练数据集为基础训练得出能够正确表达出属性数据向量与述正确分类等级之间的对应关系的增长分类模型,使得类型与样本数据集中的样本相同的有向有序多类不平衡数据能够利用该增长分类模型进行分类,因此,本发明解决了医学信息等有向有序多类不平衡数据分类的序列性和方向性问题,确保增长分类模型更倾向于错误分类代价为正及代价敏感度高的分类等级,以降低分类错误造成的代价,并且,本发明的样本合成方法不需要人工设立代价的先验概率,其可以缺省自动赋予不同的代价敏感因子(即类不平衡指数和错误分类代价因子),解决了人工设立代价先验概率准确性难以确保的问题。
附图说明
下面结合附图和具体实施例对本发明作进一步的详细说明:
图1为本发明的样本合成方法的流程框图。
具体实施方式
如图1所示,本发明公开了一种为有向有序多类不平衡数据分类的样本合成方法,包括以下步骤:
Step1、构建初始数据集:
从样本数据集S中,采用不放回抽样方式依次随机抽取Nt个、Ns个、Ngs个样本,以依次生成基础训练数据集St、基础测试数据集Ss、增长测试数据集Sgs,其中,样本数据集S中的样本总数量为Nt+Ns+Ngs个,且样本数据集S中的样本均为有向有序多类不平衡数据,每一个样本均包含属性数据向量X和对应该属性数据向量X的正确分类等级c,该属性数据向量X是由多个属性数据组成的有序序列,该正确分类等级c为自然数;
前述有向有序多类不平衡数据是指其分类具有序列性和方向性的数据,序列性是指:数据的分类是有等级区分的,方向性是指:与正确的分类等级相比,数据的分类等级过大与分类等级过小所需付出的代价远不相同;举例来说,医学诊断结果数据就是典型的有向有序多类不平衡数据,以乳腺癌检查结果数据为例说明:患者的症状、检查信息等即为前述样本的属性数据向量X,对该患者的乳腺癌恶性程度检查结果即为分类等级,那么,乳腺癌检查结果数据的序列性就体现在乳腺癌恶性程度检查结果是有等级区分的(乳腺癌检查结果一般分为1级到6级),而其方向性就体现在:一例乳腺癌检查结果1级错分为6级与将一例乳腺癌检查结果6级错分为1级,其分类正确率相同,但两者的错误代价却远不相同(1级错分为6级只会给病人造成困扰;但如果将乳腺癌检查结果6级错分为1级就极有可能导致失去生命)。
Step2、基础训练:
使用基础训练数据集St,训练通用分类算法uCMb,以生成基础分类模型CMb,该基础分类模型CMb表达的是属性数据向量X与正确分类等级c之间的对应关系;
Step3、基础测试:
将基础训练数据集St和基础测试数据集Ss组成原始样本集Sp=(St,Ss),并将原始样本集Sp中每一个样本的属性数据向量X分别代入基础分类模型CMb,以计算出对应的分类等级,记为分类等级计算值c’;
Step4、计算再合成指数:
按照以下公式一、公式二和公式三,计算原始样本集Sp中每一个样本的再合成指数βc:
μci=nci/((Nt+Ns+Ngs)÷m) [公式一]
式中,μci表示原始样本集Sp中第i个样本xi的类不平衡指数,i为整数且1≤i≤Nt+Ns,样本xi的正确分类等级c记为ci,nc表示样本数据集S中正确分类等级c为ci的样本数量,m表示样本数据集S中的样本所划分的等级数,例如:样本所划分3级即等级数为3,样本的正确分类等级c可以为0级、1级、2级或者1级、2级、3级;其中,μci值越小,表示样本xi的正确分类等级ci的稀有度越小,则样本xi的再合成指数βci应该越大,合成样本数也应该越多;μci值越大,表示样本xi的正确分类等级ci的稀有度越大,则样本xi的再合成指数βci应该越小,合成样本数也应该越少。
λi=ci’-ci [公式二]
式中,λi表示原始样本集Sp中第i个样本xi的错误分类代价因子,样本xi在Step3中计算出的分类等级计算值c’记为ci’;其中,λi>0为前向分类错误,表示将样本xi错误地分类到过高的分类等级,其错误分类代价为正,λi=0为分类正确,表示将样本xi正确地分类到了正确分类等级ci,其错误分类代价为零,λi<0为前后分类错误,表示将样本xi错误地分类到过低的分类等级,其错误分类代价为负;λi的绝对值越大,表示样本xi的错误代价越高,则样本xi的再合成指数βci应该越大,合成样本数也应该越多;λi的绝对值越小,表示样本xi的错误代价越低,则样本xi的再合成指数βci应该越小,合成样本数也应该越少。
式中,βci表示原始样本集Sp中第i个样本xi的再合成指数,βci’为中间计算值,ρ1和ρ2均为预设的分类等级权重系数,且ρ2≤ρ1;
Step5、构建增长训练数据集:
使原始样本集Sp中的每一个样本均合成数量与其再合成指数βc相等的增长训练样本,并用原始样本集Sp中的全部样本所合成的增长训练样本作为元素生成增长训练数据集Sgt;
其中,原始样本集Sp中第i个样本xi合成其βci个增长训练样本xij的方法为:首先,按照k最近邻算法,从原始样本集Sp的正确分类等级c等于为ci的样本中找出与样本xi最近邻的k个样本,k为k最近邻算法中的预设值,然后,在k个样本中随机选一个出来,记为样本xj,最后,用样本xi与样本xj合成βci个增长训练样本xij,即:样本xi合成的增长训练样本xij同样包含由多个属性数据有序组成的属性数据向量X和对应该属性数据向量X的正确分类等级c,并且,βci个增长训练样本xij的正确分类等级c均取值为样本xi的正确分类等级ci,增长训练样本xij与样本xi中组成它们属性数据向量X的属性数据数量和属性排序相同,且对于样本xi、样本xj和βci个增长训练样本xij位于同一个属性排序的属性数据来说,βci个增长训练样本xij的属性数据取值为在样本xi的属性数据取值与样本xj的属性数据取值之间的βci个随机值;例如:如果将样本xi的属性数据向量Xi记为Ai,Bi,Ci,···,将样本xj的属性数据向量Xj记为Aj,Bj,Cj,···,样本xij的属性数据向量Xij记为Aij,Bij,Cij,···,Ai、Aj和Aij均为属性A的取值,Bi、Bj和Bij均为属性B的取值,Ci、Cj和Cij均为属性C的取值,那么,Aij就是Ai与Aj之间的随机值,Bij就是Bi与Bj之间的随机值,Cij就是Ci与Cj之间的随机值。
Step6、增长训练:
使用增长训练数据集Sgt,训练基础分类模型CMb,以生成增长分类模型CMg,该增长分类模型CMg表达的是属性数据向量X与正确分类等级c之间的对应关系;
Step7、增长测试:
将增长测试数据集Sgs中每一个样本的属性数据向量X分别代入增长分类模型CMg,以计算出对应的分类等级,记为增长测试分类等级计算值c”,并且,将增长测试数据集Sgs中每一个样本的正确分类等级c与其增长测试分类等级计算值c”进行对比,如果该两者相等,则将对应的样本归属于增长测试正确测试数据集Sgrt,否则,将对应的样本归属于增长测试错误测试数据集Sger;
Step8、错误率判断:
计算错误率Rerr=Nger/Ngs,Nger为增长测试错误测试数据集Sger所包含样本的数量,Ngs为增长测试数据集Sgs所包含样本的数量;如果满足Rerr≤Ac,Ac为预设的最大错误率(根据应用领域由用户自行设定,缺省值可设为85%),则停止学习,并认定增长分类模型CMg能够正确表达出属性数据向量X与正确分类等级c之间的对应关系,从而,可以利用该增长分类模型CMg对类型与样本数据集S中的样本相同的有向有序多类不平衡数据进行分类,例如:样本数据集S中的样本均为乳腺癌检查结果数据,则增长分类模型CMg就可以对以同样规则编辑的乳腺癌检查结果数据进行分类;否则,即满足Rerr>Ac时,学习次数加1,并重新进行学习,即返回Step1以重新执行Step1至Step8,直至学习次数的累加值达到预设的最大学习次数Lmax时,停止学习,并认定最后一次学习所生成的增长分类模型CMg能够正确表达出属性数据向量X与正确分类等级c之间的对应关系。
在上述步骤的基础上,本发明优选采用以下参数:
Step1中,Nt、Ns、Ngs之间的比值优选为30%:30%:40%。
Step2中,通用分类算法uCMb可以为随机森林分类算法、支持矢量机算法和朴素贝叶斯算法等适用于有向有序多类不平衡数据的分类算法中的任意一个。
Step4中,分类等级权重系数ρ1的取值范围在2至5之间。注:ρ1和ρ2均代表错误分类的危害程度,将低级错分为高级等级危害越大,则ρ1和ρ2取值越大。
Step5中,k最近邻分类算法中的预设值k取值在3至5之间。
Step8中,最大学习次数Lmax的取值在10至100之间。
本发明不局限于上述具体实施方式,根据上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,本发明还可以做出其它多种形式的等效修改、替换或变更,均落在本发明的保护范围之中。
Claims (6)
1.一种为有向有序多类不平衡数据分类的样本合成方法,其特征在于:所述的样本合成方法包括以下步骤:
Step1、构建初始数据集:
从样本数据集S中,采用不放回抽样方式依次随机抽取Nt个、Ns个、Ngs个样本,以依次生成基础训练数据集St、基础测试数据集Ss、增长测试数据集Sgs,其中,所述样本数据集S中的样本总数量为Nt+Ns+Ngs个,且所述样本数据集S中的样本均为有向有序多类不平衡数据,每一个所述样本均包含属性数据向量X和对应该属性数据向量X的正确分类等级c,该属性数据向量X是由多个属性数据组成的有序序列,该正确分类等级c为自然数;
Step2、基础训练:
使用所述基础训练数据集St,训练通用分类算法uCMb,以生成基础分类模型CMb,该基础分类模型CMb表达的是所述属性数据向量X与所述正确分类等级c之间的对应关系;
Step3、基础测试:
将所述基础训练数据集St和基础测试数据集Ss组成原始样本集Sp=(St,Ss),并将所述原始样本集Sp中每一个样本的属性数据向量X分别代入所述基础分类模型CMb,以计算出对应的分类等级,记为分类等级计算值c’;
Step4、计算再合成指数:
按照以下公式一、公式二和公式三,计算所述原始样本集Sp中每一个样本的再合成指数βc:
μci=nci/((Nt+Ns+Ngs)÷m) [公式一]
式中,μci表示所述原始样本集Sp中第i个样本xi的类不平衡指数,i为整数且1≤i≤Nt+Ns,样本xi的正确分类等级c记为ci,nc表示所述样本数据集S中正确分类等级c为ci的样本数量,m表示所述样本数据集S中的样本所划分的等级数;
λi=ci’-ci [公式二]
式中,λi表示所述原始样本集Sp中第i个样本xi的错误分类代价因子,样本xi在所述Step3中计算出的分类等级计算值c’记为ci’;
式中,βci表示所述原始样本集Sp中第i个样本xi的再合成指数,βci’为中间计算值,ρ1和ρ2均为预设的分类等级权重系数,且ρ2≤ρ1;
Step5、构建增长训练数据集:
使所述原始样本集Sp中的每一个样本均合成数量与其再合成指数βc相等的增长训练样本,并用所述原始样本集Sp中的全部样本所合成的增长训练样本作为元素生成增长训练数据集Sgt;
其中,所述原始样本集Sp中第i个样本xi合成其βci个增长训练样本xij的方法为:首先,按照k最近邻算法,从所述原始样本集Sp的正确分类等级c等于为ci的样本中找出与所述样本xi最近邻的k个样本,k为所述k最近邻算法中的预设值,然后,在所述k个样本中随机选一个出来,记为样本xj,最后,用所述样本xi与所述样本xj合成所述βci个增长训练样本xij,即:所述样本xi合成的增长训练样本xij同样包含由多个属性数据有序组成的属性数据向量X和对应该属性数据向量X的正确分类等级c,并且,所述βci个增长训练样本xij的正确分类等级c均取值为所述样本xi的正确分类等级ci,所述增长训练样本xij与所述样本xi中组成它们属性数据向量X的属性数据数量和属性排序相同,且对于所述样本xi、样本xj和所述βci个增长训练样本xij位于同一个属性排序的属性数据来说,所述βci个增长训练样本xij的属性数据取值为在所述样本xi的属性数据取值与所述样本xj的属性数据取值之间的βci个随机值;
Step6、增长训练:
使用所述增长训练数据集Sgt,训练所述基础分类模型CMb,以生成增长分类模型CMg,该增长分类模型CMg表达的是所述属性数据向量X与所述正确分类等级c之间的对应关系;
Step7、增长测试:
将所述增长测试数据集Sgs中每一个样本的属性数据向量X分别代入所述增长分类模型CMg,以计算出对应的分类等级,记为增长测试分类等级计算值c”,并且,将所述增长测试数据集Sgs中每一个样本的正确分类等级c与其增长测试分类等级计算值c”进行对比,如果该两者相等,则将对应的样本归属于增长测试正确测试数据集Sgrt,否则,将对应的样本归属于增长测试错误测试数据集Sger;
Step8、错误率判断:
计算错误率Rerr=Nger/Ngs,Nger为所述增长测试错误测试数据集Sger所包含样本的数量,Ngs为所述增长测试数据集Sgs所包含样本的数量;如果满足Rerr≤Ac,Ac为预设的最大错误率,则停止学习,并认定所述增长分类模型CMg能够正确表达出所述属性数据向量X与所述正确分类等级c之间的对应关系,否则,学习次数加1,并重新进行学习,即返回所述Step1以重新执行所述Step1至Step8,直至所述学习次数的累加值达到预设的最大学习次数Lmax时,停止学习,并认定最后一次学习所生成的增长分类模型CMg能够正确表达出所述属性数据向量X与所述正确分类等级c之间的对应关系。
2.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法,其特征在于:所述的Step1中,所述Nt、Ns、Ngs之间的比值为30%:30%:40%。
3.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法,其特征在于:所述的Step2中,所述通用分类算法uCMb为随机森林分类算法、支持矢量机算法和朴素贝叶斯算法中的任意一个。
4.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法,其特征在于:所述的Step4中,分类等级权重系数ρ1的取值范围在2至5之间。
5.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法,其特征在于:所述的Step5中,所述k最近邻分类算法中的预设值k取值在3至5之间。
6.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法,其特征在于:所述的Step8中,所述最大学习次数Lmax的取值在10至100之间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710829334.3A CN107766875B (zh) | 2017-09-14 | 2017-09-14 | 一种为有向有序多类不平衡数据分类的样本合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710829334.3A CN107766875B (zh) | 2017-09-14 | 2017-09-14 | 一种为有向有序多类不平衡数据分类的样本合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107766875A true CN107766875A (zh) | 2018-03-06 |
CN107766875B CN107766875B (zh) | 2020-09-08 |
Family
ID=61266071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710829334.3A Active CN107766875B (zh) | 2017-09-14 | 2017-09-14 | 一种为有向有序多类不平衡数据分类的样本合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766875B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111104922A (zh) * | 2019-12-30 | 2020-05-05 | 深圳纹通科技有限公司 | 一种基于有序抽样的特征匹配算法 |
CN111340057A (zh) * | 2018-12-19 | 2020-06-26 | 杭州海康威视数字技术股份有限公司 | 一种分类模型训练的方法及装置 |
CN113628697A (zh) * | 2021-07-28 | 2021-11-09 | 上海基绪康生物科技有限公司 | 一种针对分类不平衡数据优化的随机森林模型训练方法 |
CN115374859A (zh) * | 2022-08-24 | 2022-11-22 | 东北大学 | 一种针对非平衡、多类别的复杂工业数据的分类方法 |
CN117493514A (zh) * | 2023-11-09 | 2024-02-02 | 广州方舟信息科技有限公司 | 文本标注方法、装置、电子设备和存储介质 |
CN118012977A (zh) * | 2024-04-08 | 2024-05-10 | 莆田市数字城市互联网信息服务有限公司 | 一种基于ai与gis融合的二三维多模态数据处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140135743A1 (en) * | 2003-09-26 | 2014-05-15 | New York University | System and Method for Correction of Intracerebral Chemical Imbalances |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学习的不平衡数据分类方法 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
CN106960218A (zh) * | 2017-02-27 | 2017-07-18 | 同济大学 | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 |
-
2017
- 2017-09-14 CN CN201710829334.3A patent/CN107766875B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140135743A1 (en) * | 2003-09-26 | 2014-05-15 | New York University | System and Method for Correction of Intracerebral Chemical Imbalances |
CN104951809A (zh) * | 2015-07-14 | 2015-09-30 | 西安电子科技大学 | 基于不平衡分类指标与集成学习的不平衡数据分类方法 |
CN105373606A (zh) * | 2015-11-11 | 2016-03-02 | 重庆邮电大学 | 一种改进c4.5决策树算法下的不平衡数据抽样方法 |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
CN106777957A (zh) * | 2016-12-12 | 2017-05-31 | 吉林大学 | 不平衡数据集上生物医学多参事件抽取的新方法 |
CN106960218A (zh) * | 2017-02-27 | 2017-07-18 | 同济大学 | 基于代价敏感学习贝叶斯的乳腺癌数据计算机分类系统 |
Non-Patent Citations (4)
Title |
---|
HANQING HU ETAL.: "Selecting samples for labeling in unbalanced streaming data environments", 《2013 XXIV INTERNATIONAL CONFERENCE ON INFORMATION, COMMUNICATION AND AUTOMATION TECHNOLOGIES (ICAT)》 * |
朱亚奇 等: "一种基于不平衡数据的聚类抽样方法", 《南京大学学报(自然科学)》 * |
肖雨奇: "多标签学习应用于中医诊断帕金森中类别不均衡问题研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
谷琼 等: "基于非均衡数据集的新型混合重取样算法", 《武汉理工大学学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340057A (zh) * | 2018-12-19 | 2020-06-26 | 杭州海康威视数字技术股份有限公司 | 一种分类模型训练的方法及装置 |
CN111340057B (zh) * | 2018-12-19 | 2023-07-25 | 杭州海康威视数字技术股份有限公司 | 一种分类模型训练的方法及装置 |
CN111104922A (zh) * | 2019-12-30 | 2020-05-05 | 深圳纹通科技有限公司 | 一种基于有序抽样的特征匹配算法 |
CN111104922B (zh) * | 2019-12-30 | 2022-03-08 | 深圳纹通科技有限公司 | 一种基于有序抽样的特征匹配算法 |
CN113628697A (zh) * | 2021-07-28 | 2021-11-09 | 上海基绪康生物科技有限公司 | 一种针对分类不平衡数据优化的随机森林模型训练方法 |
CN115374859A (zh) * | 2022-08-24 | 2022-11-22 | 东北大学 | 一种针对非平衡、多类别的复杂工业数据的分类方法 |
CN117493514A (zh) * | 2023-11-09 | 2024-02-02 | 广州方舟信息科技有限公司 | 文本标注方法、装置、电子设备和存储介质 |
CN117493514B (zh) * | 2023-11-09 | 2024-05-14 | 广州方舟信息科技有限公司 | 文本标注方法、装置、电子设备和存储介质 |
CN118012977A (zh) * | 2024-04-08 | 2024-05-10 | 莆田市数字城市互联网信息服务有限公司 | 一种基于ai与gis融合的二三维多模态数据处理方法 |
CN118012977B (zh) * | 2024-04-08 | 2024-06-07 | 莆田市数字城市互联网信息服务有限公司 | 一种基于ai与gis融合的二三维多模态数据处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107766875B (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107766875A (zh) | 一种为有向有序多类不平衡数据分类的样本合成方法 | |
CN108921166A (zh) | 基于深度神经网络的医疗票据类文本检测识别方法及系统 | |
CN107957957A (zh) | 测试用例的获取方法和装置 | |
Ślęzak et al. | Ensembles of bireducts: towards robust classification and simple representation | |
US9122995B2 (en) | Classification of stream-based data using machine learning | |
CN103778262B (zh) | 基于叙词表的信息检索方法及装置 | |
CN104063713B (zh) | 一种基于随机蕨分类器的半自主在线学习方法 | |
CN105955890B (zh) | 一种功能测试案例的生成方法及装置 | |
CN104866829A (zh) | 一种基于特征学习的跨年龄人脸验证方法 | |
CN103679160B (zh) | 一种人脸识别方法和装置 | |
CN109753516A (zh) | 一种病历搜索结果的排序方法和相关装置 | |
US20150161728A1 (en) | System for determining hs commodity classification code | |
CN108304887A (zh) | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 | |
CN110225055A (zh) | 一种基于knn半监督学习模型的网络流量异常检测方法与系统 | |
CN109919925A (zh) | 印刷电路板智能检测方法、系统、电子装置及存储介质 | |
CN105975794A (zh) | 基于加权knn的乳腺癌化疗方案推荐方法 | |
CN105824961B (zh) | 一种标签确定方法及装置 | |
Yeung et al. | Learning to learn from noisy web videos | |
CN110019421A (zh) | 一种基于数据特征片段的时间序列数据分类方法 | |
CN103324758B (zh) | 一种新闻分类方法和系统 | |
CN110377659A (zh) | 一种智能图表推荐系统及方法 | |
CN107426610A (zh) | 视频信息同步方法及装置 | |
CN107945079A (zh) | 一种扶贫对象选择方法及装置 | |
US20130013244A1 (en) | Pattern based test prioritization using weight factors | |
CN103971191B (zh) | 工作线程管理方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |