CN107766875A

CN107766875A - 一种为有向有序多类不平衡数据分类的样本合成方法

Info

Publication number: CN107766875A
Application number: CN201710829334.3A
Authority: CN
Inventors: 蔡庆玲; 裴海军; 梁伟霞; 吕律
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-03-06
Anticipated expiration: 2037-09-14
Also published as: CN107766875B

Abstract

本发明公开了一种为有向有序多类不平衡数据分类的样本合成方法，包括：Step1、构建初始数据集；Step2、基础训练；Step3、基础测试；Step4、计算再合成指数；Step5、构建增长训练数据集；Step6、增长训练；Step7、增长测试；Step8、错误率判断。本发明解决了医学信息等有向有序多类不平衡数据分类的序列性和方向性问题，确保增长分类模型更倾向于错误分类代价为正及代价敏感度高的分类等级，以降低分类错误造成的代价，并且，本发明的样本合成方法不需要人工设立代价的先验概率，其可以缺省自动赋予不同的代价敏感因子即类不平衡指数和错误分类代价因子，解决了人工设立代价先验概率准确性难以确保的问题。

Description

一种为有向有序多类不平衡数据分类的样本合成方法

技术领域

本发明涉及一种为有向有序多类不平衡数据分类的样本合成方法，属于数据挖掘技术领域。

背景技术

医学信息分类与其他信息分类不同，除了数据不平衡外，医学信息的分类还具有“方向性”和“序列性”。因而会出现相同的错误率，但其错误的代价却远不相同。医学诊断结果通常会分为不同等级的数据序列。

如乳腺癌检查结果标准通常分为六个等级的数据序列：1级到6级。其中1级为无异常发现；2级为良性所见，无恶性征象；3级、4级、5级病情逐级加重；6级为确诊恶性病变。分类错误的方向不同，等级不同其分类错误的代价也不同。如将一例乳腺癌检查结果1级错分为6级与将一例乳腺癌检查结果6级错分为1级，其分类正确率相同，但两者的错误代价却远不相同(1级错分为6级只会给病人造成困扰；但如果将乳腺癌检查结果6级错分为1级就极有可能导致失去生命)，由此可知医学信息分类具有方向性(即将序列前边错分为序列后边的和将序列后边错分为序列前边的，其代价远不相同)。另外将6级“恶性”错分为5级和1级，其代价也不同，由此可知医学分类还具有序列性(即在医学诊断结果序列中是有等级区分的)。

由此可见，在医学领域里尽管分类的错误率相同，但其错误代价却远不相同，此类问题被称为有向有序多类不平衡数据分类(Directed&Ordered Multiclass ImbalanceData)问题。

发明内容

本发明所要解决的技术问题是：提供一种为有向有序多类不平衡数据分类的样本合成方法。

解决上述技术问题，本发明所采用的技术方案如下：

一种为有向有序多类不平衡数据分类的样本合成方法，其特征在于：所述的样本合成方法包括以下步骤：

Step1、构建初始数据集：

从样本数据集S中，采用不放回抽样方式依次随机抽取N_t个、N_s个、N_gs个样本，以依次生成基础训练数据集S_t、基础测试数据集S_s、增长测试数据集S_gs，其中，所述样本数据集S中的样本总数量为N_t+N_s+N_gs个，且所述样本数据集S中的样本均为有向有序多类不平衡数据，每一个所述样本均包含属性数据向量X和对应该属性数据向量X的正确分类等级c，该属性数据向量X是由多个属性数据组成的有序序列，该正确分类等级c为自然数；

Step2、基础训练：

使用所述基础训练数据集S_t，训练通用分类算法uCM_b，以生成基础分类模型CM_b，该基础分类模型CM_b表达的是所述属性数据向量X与所述正确分类等级c之间的对应关系；

Step3、基础测试：

将所述基础训练数据集S_t和基础测试数据集S_s组成原始样本集S_p＝(S_t,S_s)，并将所述原始样本集S_p中每一个样本的属性数据向量X分别代入所述基础分类模型CM_b，以计算出对应的分类等级，记为分类等级计算值c’；

Step4、计算再合成指数：

按照以下公式一、公式二和公式三，计算所述原始样本集S_p中每一个样本的再合成指数β_c：

μ_ci＝n_ci/((N_t+N_s+N_gs)÷m) [公式一]

式中，μ_ci表示所述原始样本集S_p中第i个样本x_i的类不平衡指数，i为整数且1≤i≤N_t+N_s，样本x_i的正确分类等级c记为c_i，n_c表示所述样本数据集S中正确分类等级c为c_i的样本数量，m表示所述样本数据集S中的样本所划分的等级数；

λ_i＝c_i’-c_i [公式二]

式中，λ_i表示所述原始样本集S_p中第i个样本x_i的错误分类代价因子，样本x_i在所述Step3中计算出的分类等级计算值c’记为c_i’；

式中，β_ci表示所述原始样本集S_p中第i个样本x_i的再合成指数，β_ci’为中间计算值，ρ₁和ρ₂均为预设的分类等级权重系数，且ρ₂≤ρ₁；

Step5、构建增长训练数据集：

使所述原始样本集S_p中的每一个样本均合成数量与其再合成指数β_c相等的增长训练样本，并用所述原始样本集S_p中的全部样本所合成的增长训练样本作为元素生成增长训练数据集S_gt；

其中，所述原始样本集S_p中第i个样本x_i合成其β_ci个增长训练样本x_ij的方法为：首先，按照k最近邻算法，从所述原始样本集S_p的正确分类等级c等于为c_i的样本中找出与所述样本x_i最近邻的k个样本，k为所述k最近邻算法中的预设值，然后，在所述k个样本中随机选一个出来，记为样本x_j，最后，用所述样本x_i与所述样本x_j合成所述β_ci个增长训练样本x_ij，即：所述样本x_i合成的增长训练样本x_ij同样包含由多个属性数据有序组成的属性数据向量X和对应该属性数据向量X的正确分类等级c，并且，所述β_ci个增长训练样本x_ij的正确分类等级c均取值为所述样本x_i的正确分类等级c_i，所述增长训练样本x_ij与所述样本x_i中组成它们属性数据向量X的属性数据数量和属性排序相同，且对于所述样本x_i、样本x_j和所述β_ci个增长训练样本x_ij位于同一个属性排序的属性数据来说，所述β_ci个增长训练样本x_ij的属性数据取值为在所述样本x_i的属性数据取值与所述样本x_j的属性数据取值之间的β_ci个随机值；

Step6、增长训练：

使用所述增长训练数据集S_gt，训练所述基础分类模型CM_b，以生成增长分类模型CM_g，该增长分类模型CM_g表达的是所述属性数据向量X与所述正确分类等级c之间的对应关系；

Step7、增长测试：

将所述增长测试数据集S_gs中每一个样本的属性数据向量X分别代入所述增长分类模型CM_g，以计算出对应的分类等级，记为增长测试分类等级计算值c”，并且，将所述增长测试数据集S_gs中每一个样本的正确分类等级c与其增长测试分类等级计算值c”进行对比，如果该两者相等，则将对应的样本归属于增长测试正确测试数据集S_grt，否则，将对应的样本归属于增长测试错误测试数据集S_ger；

Step8、错误率判断：

计算错误率R_err＝N_ger/N_gs，N_ger为所述增长测试错误测试数据集S_ger所包含样本的数量，N_gs为所述增长测试数据集S_gs所包含样本的数量；如果满足R_err≤Ac，Ac为预设的最大错误率，则停止学习，并认定所述增长分类模型CM_g能够正确表达出所述属性数据向量X与所述正确分类等级c之间的对应关系，否则，学习次数加1，并重新进行学习，即返回所述Step1以重新执行所述Step1至Step8，直至所述学习次数的累加值达到预设的最大学习次数L_max时，停止学习，并认定最后一次学习所生成的增长分类模型CM_g能够正确表达出所述属性数据向量X与所述正确分类等级c之间的对应关系。

作为本发明的优选实施方式：所述的Step1中，所述N_t、N_s、N_gs之间的比值为30％:30％:40％。

作为本发明的优选实施方式：所述的Step2中，所述通用分类算法uCM_b为随机森林分类算法、支持矢量机算法和朴素贝叶斯算法中的任意一个。

作为本发明的优选实施方式：所述的Step4中，分类等级权重系数ρ₁的取值范围在2至5之间。

作为本发明的优选实施方式：所述的Step5中，所述k最近邻分类算法中的预设值k取值在3至5之间。

作为本发明的优选实施方式：所述的Step8中，所述最大学习次数L_max的取值在10至100之间。

与现有技术相比，本发明具有以下有益效果：

本发明针对医学诊断结果数据等有向有序多类不平衡数据的分类具有序列性和方向性的特点，通过为样本计算表征其正确分类等级稀有度的类不平衡指数(用于解决样本在各个正确分类等级中分布不均甚至严重倾斜的问题)，以及为样本计算表征其错误分类代价的错误分类代价因子(用于解决有向有序多类不平衡数据分类错误的有向性与有序性的代价不同的问题)，利用该类不平衡指数和错误分类代价因子形成再合成指数，然后再合成数量对应于再合成指数的增长训练样本，构建成增长训练数据集，以该增长训练数据集为基础训练得出能够正确表达出属性数据向量与述正确分类等级之间的对应关系的增长分类模型，使得类型与样本数据集中的样本相同的有向有序多类不平衡数据能够利用该增长分类模型进行分类，因此，本发明解决了医学信息等有向有序多类不平衡数据分类的序列性和方向性问题，确保增长分类模型更倾向于错误分类代价为正及代价敏感度高的分类等级，以降低分类错误造成的代价，并且，本发明的样本合成方法不需要人工设立代价的先验概率，其可以缺省自动赋予不同的代价敏感因子(即类不平衡指数和错误分类代价因子)，解决了人工设立代价先验概率准确性难以确保的问题。

附图说明

下面结合附图和具体实施例对本发明作进一步的详细说明：

图1为本发明的样本合成方法的流程框图。

具体实施方式

如图1所示，本发明公开了一种为有向有序多类不平衡数据分类的样本合成方法，包括以下步骤：

Step1、构建初始数据集：

从样本数据集S中，采用不放回抽样方式依次随机抽取N_t个、N_s个、N_gs个样本，以依次生成基础训练数据集S_t、基础测试数据集S_s、增长测试数据集S_gs，其中，样本数据集S中的样本总数量为N_t+N_s+N_gs个，且样本数据集S中的样本均为有向有序多类不平衡数据，每一个样本均包含属性数据向量X和对应该属性数据向量X的正确分类等级c，该属性数据向量X是由多个属性数据组成的有序序列，该正确分类等级c为自然数；

前述有向有序多类不平衡数据是指其分类具有序列性和方向性的数据，序列性是指：数据的分类是有等级区分的，方向性是指：与正确的分类等级相比，数据的分类等级过大与分类等级过小所需付出的代价远不相同；举例来说，医学诊断结果数据就是典型的有向有序多类不平衡数据，以乳腺癌检查结果数据为例说明：患者的症状、检查信息等即为前述样本的属性数据向量X，对该患者的乳腺癌恶性程度检查结果即为分类等级，那么，乳腺癌检查结果数据的序列性就体现在乳腺癌恶性程度检查结果是有等级区分的(乳腺癌检查结果一般分为1级到6级)，而其方向性就体现在：一例乳腺癌检查结果1级错分为6级与将一例乳腺癌检查结果6级错分为1级，其分类正确率相同，但两者的错误代价却远不相同(1级错分为6级只会给病人造成困扰；但如果将乳腺癌检查结果6级错分为1级就极有可能导致失去生命)。

Step2、基础训练：

使用基础训练数据集S_t，训练通用分类算法uCM_b，以生成基础分类模型CM_b，该基础分类模型CM_b表达的是属性数据向量X与正确分类等级c之间的对应关系；

Step3、基础测试：

将基础训练数据集S_t和基础测试数据集S_s组成原始样本集S_p＝(S_t,S_s)，并将原始样本集S_p中每一个样本的属性数据向量X分别代入基础分类模型CM_b，以计算出对应的分类等级，记为分类等级计算值c’；

Step4、计算再合成指数：

按照以下公式一、公式二和公式三，计算原始样本集S_p中每一个样本的再合成指数β_c：

μ_ci＝n_ci/((N_t+N_s+N_gs)÷m) [公式一]

式中，μ_ci表示原始样本集S_p中第i个样本x_i的类不平衡指数，i为整数且1≤i≤N_t+N_s，样本x_i的正确分类等级c记为c_i，n_c表示样本数据集S中正确分类等级c为c_i的样本数量，m表示样本数据集S中的样本所划分的等级数，例如：样本所划分3级即等级数为3，样本的正确分类等级c可以为0级、1级、2级或者1级、2级、3级；其中，μ_ci值越小，表示样本x_i的正确分类等级c_i的稀有度越小，则样本x_i的再合成指数β_ci应该越大，合成样本数也应该越多；μ_ci值越大，表示样本x_i的正确分类等级c_i的稀有度越大，则样本x_i的再合成指数β_ci应该越小，合成样本数也应该越少。

λ_i＝c_i’-c_i [公式二]

式中，λ_i表示原始样本集S_p中第i个样本x_i的错误分类代价因子，样本x_i在Step3中计算出的分类等级计算值c’记为c_i’；其中，λ_i>0为前向分类错误，表示将样本x_i错误地分类到过高的分类等级，其错误分类代价为正，λ_i＝0为分类正确，表示将样本x_i正确地分类到了正确分类等级c_i，其错误分类代价为零，λ_i<0为前后分类错误，表示将样本x_i错误地分类到过低的分类等级，其错误分类代价为负；λ_i的绝对值越大，表示样本x_i的错误代价越高，则样本x_i的再合成指数β_ci应该越大，合成样本数也应该越多；λ_i的绝对值越小，表示样本x_i的错误代价越低，则样本x_i的再合成指数β_ci应该越小，合成样本数也应该越少。

式中，β_ci表示原始样本集S_p中第i个样本x_i的再合成指数，β_ci’为中间计算值，ρ₁和ρ₂均为预设的分类等级权重系数，且ρ₂≤ρ₁；

Step5、构建增长训练数据集：

使原始样本集S_p中的每一个样本均合成数量与其再合成指数β_c相等的增长训练样本，并用原始样本集S_p中的全部样本所合成的增长训练样本作为元素生成增长训练数据集S_gt；

其中，原始样本集S_p中第i个样本x_i合成其β_ci个增长训练样本x_ij的方法为：首先，按照k最近邻算法，从原始样本集S_p的正确分类等级c等于为c_i的样本中找出与样本x_i最近邻的k个样本，k为k最近邻算法中的预设值，然后，在k个样本中随机选一个出来，记为样本x_j，最后，用样本x_i与样本x_j合成β_ci个增长训练样本x_ij，即：样本x_i合成的增长训练样本x_ij同样包含由多个属性数据有序组成的属性数据向量X和对应该属性数据向量X的正确分类等级c，并且，β_ci个增长训练样本x_ij的正确分类等级c均取值为样本x_i的正确分类等级c_i，增长训练样本x_ij与样本x_i中组成它们属性数据向量X的属性数据数量和属性排序相同，且对于样本x_i、样本x_j和β_ci个增长训练样本x_ij位于同一个属性排序的属性数据来说，β_ci个增长训练样本x_ij的属性数据取值为在样本x_i的属性数据取值与样本x_j的属性数据取值之间的β_ci个随机值；例如：如果将样本x_i的属性数据向量X_i记为A_i,B_i,C_i,···，将样本x_j的属性数据向量X_j记为A_j,B_j,C_j,···，样本x_ij的属性数据向量X_ij记为A_ij,B_ij,C_ij,···，A_i、A_j和A_ij均为属性A的取值，B_i、B_j和B_ij均为属性B的取值，C_i、C_j和C_ij均为属性C的取值，那么，A_ij就是A_i与A_j之间的随机值，B_ij就是B_i与B_j之间的随机值，C_ij就是C_i与C_j之间的随机值。

Step6、增长训练：

使用增长训练数据集S_gt，训练基础分类模型CM_b，以生成增长分类模型CM_g，该增长分类模型CM_g表达的是属性数据向量X与正确分类等级c之间的对应关系；

Step7、增长测试：

将增长测试数据集S_gs中每一个样本的属性数据向量X分别代入增长分类模型CM_g，以计算出对应的分类等级，记为增长测试分类等级计算值c”，并且，将增长测试数据集S_gs中每一个样本的正确分类等级c与其增长测试分类等级计算值c”进行对比，如果该两者相等，则将对应的样本归属于增长测试正确测试数据集S_grt，否则，将对应的样本归属于增长测试错误测试数据集S_ger；

Step8、错误率判断：

计算错误率R_err＝N_ger/N_gs，N_ger为增长测试错误测试数据集S_ger所包含样本的数量，N_gs为增长测试数据集S_gs所包含样本的数量；如果满足R_err≤Ac，Ac为预设的最大错误率(根据应用领域由用户自行设定，缺省值可设为85％)，则停止学习，并认定增长分类模型CM_g能够正确表达出属性数据向量X与正确分类等级c之间的对应关系，从而，可以利用该增长分类模型CM_g对类型与样本数据集S中的样本相同的有向有序多类不平衡数据进行分类，例如：样本数据集S中的样本均为乳腺癌检查结果数据，则增长分类模型CM_g就可以对以同样规则编辑的乳腺癌检查结果数据进行分类；否则，即满足R_err>Ac时，学习次数加1，并重新进行学习，即返回Step1以重新执行Step1至Step8，直至学习次数的累加值达到预设的最大学习次数L_max时，停止学习，并认定最后一次学习所生成的增长分类模型CM_g能够正确表达出属性数据向量X与正确分类等级c之间的对应关系。

在上述步骤的基础上，本发明优选采用以下参数：

Step1中，N_t、N_s、N_gs之间的比值优选为30％:30％:40％。

Step2中，通用分类算法uCM_b可以为随机森林分类算法、支持矢量机算法和朴素贝叶斯算法等适用于有向有序多类不平衡数据的分类算法中的任意一个。

Step4中，分类等级权重系数ρ₁的取值范围在2至5之间。注：ρ₁和ρ₂均代表错误分类的危害程度，将低级错分为高级等级危害越大，则ρ₁和ρ₂取值越大。

Step5中，k最近邻分类算法中的预设值k取值在3至5之间。

Step8中，最大学习次数L_max的取值在10至100之间。

本发明不局限于上述具体实施方式，根据上述内容，按照本领域的普通技术知识和惯用手段，在不脱离本发明上述基本技术思想前提下，本发明还可以做出其它多种形式的等效修改、替换或变更，均落在本发明的保护范围之中。

Claims

1.一种为有向有序多类不平衡数据分类的样本合成方法，其特征在于：所述的样本合成方法包括以下步骤：

Step1、构建初始数据集：

Step2、基础训练：

Step3、基础测试：

Step4、计算再合成指数：

μ_ci＝n_ci/((N_t+N_s+N_gs)÷m) [公式一]

λ_i＝c_i’-c_i [公式二]

Step5、构建增长训练数据集：

Step6、增长训练：

Step7、增长测试：

Step8、错误率判断：

2.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法，其特征在于：所述的Step1中，所述N_t、N_s、N_gs之间的比值为30％:30％:40％。

3.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法，其特征在于：所述的Step2中，所述通用分类算法uCM_b为随机森林分类算法、支持矢量机算法和朴素贝叶斯算法中的任意一个。

4.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法，其特征在于：所述的Step4中，分类等级权重系数ρ₁的取值范围在2至5之间。

5.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法，其特征在于：所述的Step5中，所述k最近邻分类算法中的预设值k取值在3至5之间。

6.根据权利要求1所述为有向有序多类不平衡数据分类的样本合成方法，其特征在于：所述的Step8中，所述最大学习次数L_max的取值在10至100之间。