CN110400610A

CN110400610A - 基于多通道随机森林的小样本临床数据分类方法及系统

Info

Publication number: CN110400610A
Application number: CN201910533574.8A
Authority: CN
Inventors: 张军英; 康越; 习佳宁; 杨利英
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-06-19
Filing date: 2019-06-19
Publication date: 2019-11-01
Anticipated expiration: 2039-06-19
Also published as: CN110400610B

Abstract

本发明属于临床数据分析技术领域，公开了一种基于多通道随机森林的小样本临床数据分类方法(DASSMRF，Data Amplification and Semi‑Supervised Multi‑channel Random Forest)及系统。通过数据扩增方法对小样本临床数据进行数据扩增以扩大临床数据的容量，生成大量无标签的扩增数据；结合半监督学习思想，通过多通道随机森林集成为扩增数据标记可信度高的类别标签；用带标签的扩增数据和临床数据一道组成训练数据集，训练分类器，提升其对临床样本的分类性能。

Description

基于多通道随机森林的小样本临床数据分类方法及系统

技术领域

本发明属于临床数据分析技术领域，尤其涉及一种基于多通道随机森林集成的小样本临床数据分类方法及系统。

背景技术

临床决策往往基于医生的直觉和经验，而不是数据中隐藏的丰富知识，这种做法会导致不必要的偏见、错误和过高的医疗费用，从而影响医院为患者提供的服务质量。随着医学的进步以及医疗服务行业的不断发展，人们对于疾病诊断的准确性以及便捷性有了更高的要求。与此同时，医院在为患者诊断治疗的过程中会详尽地记录病人的临床信息，这些临床信息中蕴含着疾病本身的规律以及医生问诊的宝贵经验。从这些临床信息中挖掘出和疾病诊断有关的关键信息可以为以后的疾病诊断和医学研究做出重要贡献。随着“数据挖掘+医学”的提出，近年来许多专家将数据挖掘技术应用到临床数据的疾病诊断中，用于提高疾病诊断的正确率。临床医生对疾病的诊断实际上是一个疾病分类的过程，根据患者表现的临床特征和指标记录将其划分到某个疾病或者某种疾病的某个子类中。临床数据挖掘致力于通过已有的医学记录预测疾病的发生。近年来,数据挖掘技术已成功应用于医疗诊断中,帮助提高临床决策的质量。

目前，针对临床数据的分类方法主要有以下几类：

1)人工神经网络(Artificial Neural Network,ANN)：由输入层、隐藏层以及输出层组成，各层之间通过激活函数进行连接，输出层输出最终的分类结果。

2)支持向量机(Support Vector Machine,SVM)：它的目的是寻找一个超平面来对样本进行分割，分割的原则是间隔最大化，最终转化为一个凸二次规划问题来求解。由简至繁的模型包括：当训练样本线性可分时，通过硬间隔最大化，学习一个线性可分支持向量机；当训练样本近似线性可分时，通过软间隔最大化，学习一个线性支持向量机；当训练样本线性不可分时，通过核技巧和软间隔最大化，学习一个非线性支持向量机；

3)随机森林：指用随机的方式建立一个森林，森林由众多决策树组成，随机森林的每一颗决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每棵决策树分别进行判断，看看这个样本应该属于哪一类，然后看看哪一类被选择最多，就预测这个样本为哪一类。

以上三类算法(人工神经网络，支持向量机，随机森林)都是经典的传统机器学习算法，对样本数量有一定的要求。目前关于临床数据的分类问题只是将这些传统的算法应用到临床数据上，并没有考虑临床数据会存在小样本的特性，而小样本训练出来的分类性能过低，不能很好满足现实生活需要。

综上所述，现有技术存在的问题是：

(1)对于小样本临床数据直接采用传统的分类方法，会导致分类性能不足。

(2)现有方法并没有考虑样本数量少的问题，使得训练出来的分类器，性能太低，不足以辅助医生做出高质量诊断。

解决上述技术问题的难度：

(1)维度过高，样本过少，导致维数灾难现象的出现。

(2)如何扩增样本数量，获得更大样本集用于分类器训练，取得高质量的诊断性能。

(3)如何为扩增数据标记可信度高的类别标签，使其能够真正起到强化分类器分类性能的作用。

解决上述技术问题的意义：

(1)许多临床数据的样本量本身就非常有限(即使是有充分的样本，对样本的高质量标签也需要高水平医生在人力、物力和财力上的大量付出)。而小样本的扩增和高质量标签，将极大地降低对高水平医生在样本标签上的人力、物力和财力。

(2)对在一定时间内无法获取大量临床样本的疾病，能够通过少量的样本及对样本扩增和对其标签的有效标注，训练出分类性能更高的分类器，以辅助医生诊断疾病，减轻医生的诊断工作量。

发明内容

针对现有技术存在的问题，本发明提供了一种基于多通道随机森林的小样本临床数据分类方法及系统。

本发明是这样实现的，一种基于多通道随机森林的小样本临床数据分类方法，包括：

依据已有的小样本临床数据的统计特性，对数据进行扩增，获得扩增数据。

在数据扩增的基础上，通过多通道随机森林分类方法，提高临床数据分类性能，辅助医生诊断疾病。

进一步，所述基于多通道随机森林的小样本临床数据分类方法进一步包括：

步骤一，待扩增临床数据集的划分：对临床训练数据D按照类别g进行划分；将划分为g个子数据集，每一个子数据集称为单类临床数据集，作为下一步的输入；共有g个单类临床数据集，第i类临床数据集，记为D⁽ⁱ⁾(1＜i≤g)；

步骤二，通过高斯混合模型获得相关参数，对于给定的单类临床数据集D⁽ⁱ⁾(1＜i≤g)通过基于轮廓系数的k-means算法将D⁽ⁱ⁾聚成n个子簇实现对GMM模型参数的初始化，得到GMM模型初始化参数集其中i表示第i类临床数据集，k代表共有k个高斯混合模型，α_j是GMM模型的混合系数，μ_i,∑_j分别是第j个高斯模型的均值和协方差矩阵；

步骤三，对给定的第i类临床数据集D⁽ⁱ⁾以及步骤二中给出的初始化参数集通过EM算法的E步和M步的不断迭代直至收敛得到最优的GMM模型参数集，记为表示第i类临床数据集的最优GMM参数集；

步骤四，对于临床训练数据集D中的每一个D⁽ⁱ⁾(1＜i≤g)重复步骤二和步骤三，得到g个β^new，记为中包含了临床训练数据集D中的所有GMM参数集；

步骤五，根据高斯混合分布进行数据扩增，即对给出的中的任意一个生成服从高斯混合分布的单类扩增数据；

步骤六，不断重复步骤五直到每一类数据都进行扩增；

步骤七，通过步骤六得到的扩增数据集都是连续类型的，而对于离散特征，扩增数据需进行离散化；

步骤八，将离散后的值代替原有的值组成新的扩增数据即为最终的扩增数据集；

步骤九，构建半监督分类模型分类，即将数据扩增与半监督分类思想相结合，通过多通道随机森林集成实现对扩增数据类别标签的高可信标注。

临床数据和经过高可信的带类别标签的扩增数据，共同训练一个随机森林分类器，实现测试样本的分类和疾病诊断结果。

进一步，步骤五中，对于临床训练数据中的每个类别的临床数据，通过高斯混合分布生成一定数量的扩增数据包括：将临床训练数据D中的第i类数据记为D⁽ⁱ⁾；D⁽ⁱ⁾通过高斯混合模型参数的估计得到最新参数集其中k代表有k个成分,表示第i个高斯模型的权重系数，表示第i个高斯模型的均值向量，表示第i个高斯模型的协方差矩阵；现给定D⁽ⁱ⁾，根据D⁽ⁱ⁾得到的扩增数据Y的样本数量为Num；其中Y_i(1≤i≤k)代表GMM中每一个高斯模型对应的扩增数据子集，每一个扩增数据子集的样本个数为Num_i，并且服从分布

进一步，通过高斯混合分布生成一定数量的扩增数据进一步包括：

a)需要生成的扩增数据的数量记为Num，第i个扩增数据子集对应的样本数量为Num_i；根据β^new中给出的计算Num_i。

b)根据公式(1)给出的Num_i，生成Num_i个服从分布的扩增数据样本子集；

c)对D中的每一个D⁽ⁱ⁾重复上述步骤a)和b)，并将所有的扩增数据子集组合成完整的扩增数据集；扩增数据集为D⁽ⁱ⁾对应的扩增数据集为Y。

进一步，步骤七中，对于数据集D中的m个离散特征，采用分裂点法对离散变量进行离散化处理，将扩增得到的连续型临床特征离散为离散型临床特征，包括：

第一步：找到分裂点；

第二步，根据分裂点离散取值，假设某一维的变量X对应的扩增变量为X¹，生成的第i个虚拟值为

若时，那么

当时，那么

进一步，第一步：找到分裂点具体包括：

给定临床数据集中某一维的离散型临床特征X有m个不同的取值x_k，k＝1,2,...,m；按照从小到大排序，使得x₁＜x₂＜...＜x_m；

统计x_k，k＝1,2,...,m在X中出现的次数；记为N_k,k＝1,2,...,m；

假设分裂点为G_k,k＝1,2,...,m-1，则：

公式(2)根据各离散值出现的次数得到了分裂点G_k，G_k是x_k和x_k+1之间的分裂点；

进一步，步骤九中，数据扩增和多通道随机森林分类算法包括：

I)有标签训练数据生成无标签扩增数据:

通过基于高斯混合模型的数据扩增方法生成大量的去掉类别标签的扩增数据；

II)建立协同训练随机森林分类器，采用相同的分类算法通过样本集的差异性构建多个分类器；

III)分类器置信度的选择与权重，通过分类器置信度为每一个随机森林分类器赋予一个权重；

通过计算剩余的数据在该随机分类器的错误率e得到该分类器的置信度α；

α＝1-e (3)

公式(3)中α的值越高，分类器的分类能力越强，给出的结果越可信；

IV)确定扩增数据的类别标签

建立多通道的随机森林集成，对于每一通道都重新随机划分样本集建立多个随机森林分类器，从而该通道是多个随机森林的集成；用每一通道的集成随机森林为扩增数据标记一个备用类别标签。扩增数据的类别标签由多个通道的备用标签依投票取得；

V)通道数的确定，取测试数据准确率最大的通道数为确定的通道数目，即设有q个通道，将q个通道给出的备用类别标签通过投票获得其类别标签，并将其和临床数据一起作为训练集训练一个随机森林分类器，计算测试数据的准确率，选准确率大于某一数值的q为最终确定的通道数。

进一步，步骤II)中，建立多个随机森林分类器协同训练的方法包括：通过随机划分数据集的方法将临床训练数据集划分为k份，随机取其中的k-1份组成新的训练子集训练随机森林分类模型，通过这样的方式得到k个随机森林分类模型；

步骤III)获取每一通道的n个随机森林分类器的置信度α，具体包括：

将训练数据随机划分为k份训练子集，通过第i份训练子集得到第i个分类器的置信度α_i，不断计算得到每一个分类器的置信度，得到每个通道置信度向量α＝{α₁,α₂,...,α_k}；然后对于给定的k个分类器，根据每个分类器的置信度α_i(1≤i≤k)转换为分类器权重ω_i(1≤i≤k)；

对单个通道的多个分类器的置信度相加得到总的置信度，将每一个分类器的置信度与总的置信度相比就能得到单个分类器的权重ω_i(1≤i≤k)，如公式(4)；

通过公式(4)得到了每一通道的k个分类器的权重向量ω＝{ω₁,ω₂,...,ω_k}，使得

进一步地，步骤IV)中，每个通道决策输出备用标签，包括：

将随机森林的输出转换为类别概率，并结合单个随机森林分类器的权重确定扩增数据的类别得分情况，通过最终的加权得分给出扩增数据的备用类别标签。定义扩增数据属于某一类别的加权得分如公式(5)：

公式(5)中，y表示类别；h_i(y)表示单通道第i个随机森林所得出的类别概率；ω_i表示第i个随机森林的权重；Score(y)表示某一类别的加权得分；通过加权得分Score(y)确定扩增数据的备用类别标签记为y^s，计算方式在公式(6)中给出：

将每个通道决策得到的备用类别标签作为决策类别标签的输入；

决策输出为类别标签，包括：建立多通道的集成随机森林，每一通道都给扩增数据一个备用类别标签；每一通道均重新随机划分样本建立新的集成随机森林分类器，即每个通道均通过多个随机森林给扩增数据决策一个备用类别标签，最终通过m个通道得到m个备用类别标签；这m个备用类别标签作为决策的输入标签，最终决策采用少数服从多数的投票方式，将得票最多的标签作为扩增数据的类别标签。

运用临床数据和经过高可信的带类别标签的扩增数据，训练一个随机森林，实现测试样本的分类和疾病辅助诊断结果。

综上所述，本发明的优点及积极效果为：基于多通道随机森林方法是一种解决小样本临床数据分类性能低的方法，能有效提高分类器的分类性能，辅助医生进行疾病诊断。

针对样本数量少的临床数据，如果直接采用现有的有监督学习分类算法训练分类模型，样本量的不足会导致这些分类模型的准确率太低，无法为医生提供可靠的辅助诊断建议，而本发明从技术上很好解决了小样本临床数据的高性能分类和疾病辅助诊断问题。

本发明能够通过数据扩增方法对小样本临床数据生成大量的扩增数据，进而扩大临床数据的容量。

本发明引入多通道随机森林方法，为扩增数据标记可信度高的类别标签，进而临床数据和扩增数据一道，用于分类器训练，从而使分类性能明显提高。

附图说明

图1是本发明实施例提供的基于多通道随机森林的小样本临床数据分类方法流程图。

图2是本发明实施例提供的DASSMRF算法每个通道权重向量求解流程图。

图3是本发明实施例提供的测试样本的每个通道的备用类别标签决策与最终类别标签决策说明图。

图4是本发明实施例提供的脑膜炎临床特征重要性排名结果图。

图5是本发明实施例提供的随机森林对脑膜炎前k个特征的平均准确率结果图。

图6是本发明实施例提供的随机森林对脑膜炎前k个特征的变异系数结果图。

图7是本发明实施例提供的脑膜炎10维临床数据三维散点图。

图8是本发明实施例提供的脑膜炎10维扩增数据三维散点图。

图9是本发明实施例提供的52维随机森林、10维随机森林和DASSMRF在脑膜炎诊断中的准确率比较结果图。

图10是本发明实施例提供的52维随机森林、10维随机森林和DASSMRF在脑膜炎诊断中的召回率比较结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明涉及的数据扩增为一种虚拟数据生成的方法。

对于小样本临床数据直接采用传统的分类算法的分类性能太低，不能辅助医生给出可靠的诊断结果。为解决这一问题，下面结合具体方案对本发明作详细描述。

如图1所示，本发明实施例提供的基于多通道随机森林的小样本临床数据分类方法包括：

步骤一，待扩增临床数据集的划分：对临床训练数据D按照类别g进行划分。将其划分为g个子数据集，每一个子数据集称为单类临床数据集，作为下一步的输入。因此共有g个单类临床数据集，其中第i类临床数据集，记为D⁽ⁱ⁾(1＜i≤g)。

步骤二，通过高斯混合模型获得相关参数，对于给定的单类临床数据集D⁽ⁱ⁾(1＜i≤g)首先通过基于轮廓系数的k-means算法将D⁽ⁱ⁾聚成n个子簇实现对GMM模型参数的初始化，得到GMM模型初始化参数集其中i表示第i类临床数据集，k代表共有k个高斯混合模型，α_j是GMM模型的混合系数，μ_i,∑_j分别是第j个高斯模型的均值和协方差矩阵。

步骤三，对给定的第i类临床数据集D⁽ⁱ⁾以及步骤二中给出的初始化参数集通过EM算法的E步和M步的不断迭代直至收敛得到最优的GMM模型参数集，记为表示第i类临床数据集的最优GMM参数集。

步骤四，对于临床训练数据集D中的每一个D⁽ⁱ⁾(1＜i≤g)重复步骤二和步骤三，因此可以得到g个β^new，记为中包含了临床训练数据集D中的所有GMM参数集。

步骤五，根据高斯混合分布进行数据扩增,即对给出的中的任意一个生成服从高斯混合分布的单类扩增数据。

步骤六，不断重复步骤五直到每一类数据都进行了扩增。

步骤七，通过步骤六得到的扩增数据集都是连续类型的，而对于离散特征，扩增数据需进行离散化。本发明采用分裂点法实现对离散变量的离散化。

步骤八，将离散后的值代替原有的值组成新的扩增数据即为最终的扩增数据集。

步骤九，构建半监督分类模型分类：

为了为扩增数据标注可信度高的类别标签，本发明将数据扩增与半监督分类思想相结合。训练数据在训练分类模型的同时对训练数据进行基于高斯混合模型的数据扩增，生成大量的扩增数据。将扩增数据作为无标签数据和训练数据一起作为训练集通过半监督分类模型为扩增数据标注新的类别标签。本发明在此基础上提出了数据扩增和多通道随机森林(DASSMRF)分类算法。

在本发明实施例步骤五中，本发明的扩增原则是按照数据可能出现在某个高斯分布的概率生成相应的扩增数据。

对于临床训练数据中的每个类别的临床数据，通过高斯混合分布生成一定数量的扩增数据的步骤如下所示：将临床训练数据D中的第i类数据记为D⁽ⁱ⁾。D⁽ⁱ⁾通过高斯混合模型参数的估计得到最新参数集其中k代表有k个成分,表示第i个高斯模型的权重系数，表示第i个高斯模型的均值向量，表示第i个高斯模型的协方差矩阵。现给定D⁽ⁱ⁾，根据D⁽ⁱ⁾得到的扩增数据Y的样本数量为Num。其中Y_i(1≤i≤k)代表GMM中每一个高斯模型对应的扩增数据子集，每一个扩增数据子集的样本个数为Num_i，并且服从分布

生成流程包括：

a)需要生成的扩增数据的数量记为Num，第i个扩增数据子集对应的样本数量为Num_i。根据β^new中给出的计算Num_i。

根据公式(1)给出的Num_i，生成Num_i个服从分布的扩增数据样本子集。

b)根据公式给出的Num_i，生成Num_i个服从分布的扩增数据样本子集；

c)对D中的每一个D⁽ⁱ⁾重复上述步骤a)和b)，并将所有的扩增数据子集组合成一个完整的扩增数据集。该扩增数据集为D⁽ⁱ⁾对应的扩增数据集为Y。

通过上述步骤，本发明可以对临床数据中的每个类别的数据生成任意数量的带有类别标签的扩增数据。

在本发明实施例步骤七中，本发明采用分裂点离散化方法将扩增得到的连续型临床特征离散为离散型临床特征，主要包含两个步骤：第一步是找到分裂点；第二步是根据分裂点进行划分实现离散取值。具体实现方法如下：

第一步：找到分裂点

1)给定临床数据集中某一维的离散型临床特征X有m个不同的取值x_k，k＝1,2,...,m。将其按照从小到大排序，使得x₁＜x₂＜...＜x_m。

2)统计x_k，k＝1,2,...,m在X中出现的次数。记为N_k,k＝1,2,...,m。

3)假设分裂点为G_k,k＝1,2,...,m-1，则：

公式(2)根据各离散值出现的次数得到了分裂点G_k，G_k是x_k和x_k+1之间的分裂点。

第二步：根据分裂点离散取值

假设某一维的变量X对应的扩增变量为X¹，生成的第i个虚拟值为

若时，那么

当时，那么

分裂点法可以将生成的连续型临床特征离散为离散类型的变量。这样可以让扩增数据更接近真实临床数据。

在本发明实施例步骤九中，采用的DASSMRF分类算法包括：

I)有标签训练数据生成无标签扩增数据:

DASSMRF算法的第一步是通过基于高斯混合模型的数据扩增方法生成大量的无类别标签的扩增数据，通过训练多个通道的随机森林集成，为这些扩增数据标记可信度高的类别标签。

II)建立协同训练随机森林分类器:

半监督学习协同训练的思想是要训练多个有差异的分类器，一般有两种方法：第一种方法是采用相同的数据集通过不同的分类算法构建差异性大的分类器；第二种方法是采用相同的分类算法通过样本集的差异性构建多个分类器。这两种方法都可以产生多个有差异性的集成分类器。

本发明采用相同的分类算法以及样本集的差异性构建多个分类器。本发明的建立多个随机森林分类器协同训练的具体做法：通过随机划分数据集的方法将临床训练数据集划分为k份，随机取其中的k-1份组成新的训练子集训练随机森林分类模型，通过这样的方式可以得到k个随机森林分类模型。随机划分数据集的方式构建了多个随机森林分类器，但本发明对这些分类器的差异性不做具体的计算，本发明更多地关注划分的随机性，即数据集划分带来的随机性，通过随机性构造多个分类器。如图2所示，通过随机划分尽可能构造多个随机森林分类器，减少少数分类决策带来的不确定性。通过这样的划分方式，能为扩增数据的标签预测提供更多可供参考的选择。

III)分类器置信度的选择与权重:

分类器置信度是指对训练好的分类器的分类能力的评价。通过样本集的差异性训练了多个有差异性的随机森林分类器，但是通过随机性训练的每一个随机森林分类器的分类能力也是有差异的。分类能力的差异性说明分类器的可信度不同，即分类结果的可信度不同。因此需要一个指标度量分类器的可信度，对于可信度高的分类器，给出的标签更具有说服力。对于图2中的每一通道都有k个随机森林，本发明通过分类器置信度为每一个随机森林分类器赋予一个权重。

本发明中随机森林分类器置信度定义：每一个随机森林分类器由于只用了临床训练数据集中的k-1份数据，因此将剩余的1份数据的测试结果作为该分类器置信度的评价指标。本发明通过计算剩余的数据在该随机分类器的错误率e得到该分类器的置信度α。

α＝1-e (3)

公式(3)中α的值越高，说明该分类器的分类能力越强，给出的结果越可信。

获取每一通道的n个随机森林分类器的置信度α的具体做法如图2所示。

将训练数据随机划分为k份训练子集，通过第i份训练子集得到第i个分类器的置信度α_i，不断计算公式(3)得到每一个分类器的置信度，最后得到每个通道置信度向量α＝{α₁,α₂,...,α_k}。对给定的k个分类器，根据每个分类器的置信度α_i(1≤i≤k)转换为分类器权重ω_i(1≤i≤k)。

对单个通道的多个分类器的置信度相加得到总的置信度，将每一个分类器的置信度与总的置信度相比就能得到单个分类器的权重ω_i(1≤i≤k)，如公式(4)。

IV)确定扩增数据的类别标签:

本发明方法建立多个通道的随机森林集成。对于每一通道都重新随机划分样本集建立多个随机森林分类器，从而该通道是多个随机森林的集成。每一通道的集成随机森林为扩增数据标记备用类别标签。所有通道的备用类别标签经投票决策获得扩增数据的最终类标标签。图3给出了每一通道决策和最终决策确定扩增数据类别标签的说明图。具体包括：

1)每一通道决策输出备用标签

该决策的目的是为扩增数据标记置信度高的备用标签，本发明不仅利用了分类器置信度信息，给分类器加了相应的权重，同时本发明对随机森林分类器的输出做了修改，一般情况下随机森林分类器输出的是类别标签，本发明将随机森林的输出转换为类别概率，并结合单个随机森林分类器的权重确定扩增数据的类别得分，通过最终的加权得分给出扩增数据的备用类别标签。定义扩增数据属于某一类别的加权得分如公式(5)：

公式(5)中，y表示类别；h_i(y)表示单通道第i个随机森林所得出的类别概率；ω_i表示第i个随机森林的权重；Score(y)表示某一类别的加权得分。通过加权得分Score(y)确定扩增数据的备用类别标签记为y^s，计算方式在公式(6)中给出：

每个通道决策得到的备用类别标签是最终决策类别标签的输入。

2)最终决策输出类别标签：

由于本发明算法建立了多通道的集成随机森林，每一通道都会给扩增数据一个备用类别标签。这些备用类别标签作为最终决策的输入标签，最终决策采用少数服从多数的投票方式，将得票最多的标签作为扩增数据的类别标签。

V)通道数的确定：取测试数据准确率最大的通道数为确定的通道数目，即设有q个通道，将q个通道给出的备用类别标签经投票获得类别标签，并将其和原来的有标签数据一起作为训练集训练一个随机森林分类器，计算测试数据的准确率，选准确率最大的q为最终确定的通道数。

下面实验对本发明的应用效果作详细的描述。

将本发明应用到临床数据脑膜炎类型诊断上，脑膜炎类型主要分为四种：结核性脑膜炎(Tuberculous Meningitis,TBM)，细菌性脑膜炎(Bacterial Meningitis,BM)，隐球菌性脑膜炎(Cryptococcal Meningitis,CM)，病毒性脑膜炎(Viral Meningitis,VM)。现实生活中要在有限时间内要获得大量的脑膜炎临床数据是一件非常困难的事情。脑膜炎疾病临床数据规模符合本发明的研究问题，即小样本临床数据分类问题。

(1)数据准备与预处理

本发明所用的数据来自西安市某大型三甲综合医院的脑神外科，是该院2008年到2017年确诊的脑膜炎患者的病例资料，共包含487例。

由于医院给出的脑膜炎临床数据是由多种类型数据组成的表格数据，其中的临床信息由文字和数字组成，因此需要对数据进行预处理。

(一)数据抽取与转换：从原始临床数据中抽取特定的和疾病相关的属性集成到统一的数据表中。删除和疾病无关的信息，保留其它临床信息作为本发明的基本数据集。将临床数据的文字性描述转换为数字型数据，即计算机可读取的数据。例如：对于患者是否有既往史，可将有既往史属性值设置为1，无既往史属性值设置为0；结核接触史的属性值：“有”设为1，“无”设为2等等。

(二)数据清洗：临床数据中难免出现重复、缺失甚至错误等，为了减少这些噪声的干扰，提高分类预测的准确性，需要进行数据清洗。本发明对于脑膜炎临床数据的数据清洗过程主要结合脑神外科专家的指导，对基本数据集进行分析处理，去除冗余临床信息，填补其中的缺失数据。

本发明的实验数据分为两类：一、连续数据类型：在一定区间内可以任意取值的变量，例如年龄、体温、白细胞总数、脑脊液蛋白值等；二、离散数据类型，用自然数或者整数单位计算的变量，例如头痛的有无、脑脊液外观、近期感染史等。由于中值对训练和测试数据中的噪声和离群值具有鲁棒性，因此对于其中的连续类型数据采用类内中值填补法，而不是类内均值填补法。离散类型的数据采用类内众数填补法。

以上工作完成了将脑膜炎临床病例转换为完整的脑膜炎临床数据集。最后供本发明使用的临床数据集的样本数量为449例，其中TBM：127例，CM：61例，VM：121例以及BM：140例。其中与疾病相关的临床特征维度为52。因此，本发明所使用的脑膜炎临床数据集规模为449*52的矩阵。

(2)基于变异系数的特征选择

为了辅助医生做出脑膜炎类型的高性能诊断，本发明需要从52维脑膜炎临床特征中选择出最重要的、与疾病类型强相关的临床特征，为医生的诊断提供临床特征重要性的参考。

本发明采用随机森林进行特征选择，是因为它在分类的同时还能返回各个特征的重要性度量。由于临床特征每一维都对应具体的临床信息，通过特征选择方法可以从大量的临床信息中筛选出重要的信息，去掉不重要的临床信息。这样能够减轻临床医生的问诊负担，同时还能提高诊断速度，实现快速、高效诊断。

通过随机森林特征选择方法，将脑膜炎52个临床特征按重要性得分的下降顺序排列，图4给出了脑膜炎临床特征的重要性排名。为了选择出与脑膜炎疾病类型强相关的特征，本发明按照图4给出的特征顺序，从52个脑膜炎临床特征中选取前k个特征通过100次十折交叉验证的平均准确率和标准差作为当前k个特征下随机森林的分类性能。

图5给出了使用前k个特征(k从5到52)通过100次十折交叉验证的随机森林的平均准确率和标准差。从图5中可以看出特征选择从5到10的随机森林的平均识别率一直上升到82％，之后的10维到52维的特征，随机森林的平均准确率稳定在81％到82％。为了选择出稳定的脑膜炎临床特征，对图5中得到的前k个特征(k从5到52)下的平均准确率和标准差进行变异系数的计算，得到了图6(这里变异系数定义为准确率的标准差与均值之比)。从图6中可以看出，特征选择从5维到10维，变异系数一直单调下降，而10维到52维的变异系数则出现轻微波动。变异系数越小，说明越稳定，因此结合图5和图6的结果，最终选择出了10维脑膜炎临床特征作为与疾病强相关的特征，其含义示于表1中，这十维脑膜炎临床特征几乎可以代替原有的52维脑膜炎特征用以构建脑膜炎类型诊断模型，从而脑膜炎医生可以通过这10维脑膜炎临床特征判断病人的脑膜炎类型，极大减少了病人需要检查的项目及其所需费用，还可实现快速高效地进行脑膜炎类型的诊断。

表1 10维脑膜炎临床特征对应的临床信息含义表

特征维度	临床信息含义
		1	发病时长
2	白细胞总数
		3	血沉
4	淋巴细胞比例
		5	体温
6	中性粒细胞比例
		7	脑脊液糖/血糖
8	免疫球蛋白A
		9	腰穿压力
10	脑脊液外观

(3)数据扩增

因此通过特征选择后本发明实验所用的数据规模为449*10，其中TBM样本数为127，CM样本数为61，VM样本数121，VM样本数140，总计共449个样本。在此数据基础上进行数据扩增，其中TBM，CM，TM，BM这四种类型各自需要的高斯核个数为2，1，5，2。图7和图8展示了与原始临床数据相同容量的脑膜炎扩增数据在同一三维空间的散点图，其中不同颜色的点代表不同的脑膜炎类型，从中可以看到二者的分布非常类似。

(4)DASSMRF与其它算法的实验与比较

为了验证DASSMRF算法在脑膜炎疾病类型诊断中的实用性，将DASSMRF算法与其它有监督以及无监督算法进行了实验和性能比较。表2和图9、图10给出了各个分类模型100次十折交叉验证的准确率(Accuracy)和召回率(Recall)的均值以及标准差(均值±标准差(％))。其中包含了特征选择前的52维特征下的随机森林分类结果(52维RF)，特征选择后10维特征下的随机森林分类结果(10维RF)以及10维特征下的其它半监督算法(self-training，co-training，tri-training)和DASSMRF的分类结果。通过准确率和召回率可以看到，对于每一列，DASSMRF的分类性能都是最好的，同时，诊断准确率的标准差比其他方法也是最低的。

表2 DASSMRF与其它分类方法性能结果比较

从表2和图9可以看到，在准确率(Accuracy)上DASSMRF的诊断准确率比52维随机森林和10维随机森林提升了3％。而52维随机森林和10维随机森林的诊断准确率几乎一样。通过表2和图10可以看到，DASSMRF的召回率(Recall)和52维随机森林以及10维随机森林相比也有了明显的提升。其中TBM准确率比52维随机森林和10维随机森林提升了6％，CM准确率提升了10％，VM和BM的准确率提升了2％。

从以上的描述中可以看到，将本发明提出的数据扩增和多通道随机森林(DASSMRF)分类算法应用到脑膜炎疾病诊断中能有比其它分类算法更好的分类性能，尤其在较难诊断的两种脑膜炎类型：结核性脑膜炎(TBM)和隐球菌性脑膜炎(CM)的诊断性能上提升明显，分别提高了6％和10％，能够减少这两种类型脑膜炎的死亡率，拯救更多的生命。

因此，本发明提出的DASSMRF算法适用于脑膜炎辅助诊断，不仅能够提高脑膜炎诊断的准确率，同时由于本发明算法是在52维特征中的10维特征下训练的分类模型，医生仅通过对患者的10项临床检查就能预判为哪种类型的脑膜炎，极大降低了病人的检查费用，同时实现了快速高效的脑膜炎类型诊断。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多通道随机森林的小样本临床数据分类方法，其特征在于，所述基于数据扩增数据扩增和多通道随机森林的小样本临床数据分类方法包括：

利用扩增临床数据的方法，增大小样本临床数据的数量；

在数据扩增的基础上，通过多通道的随机森林集成获得对扩增数据的高可信类别标签，实现对临床数据的高性能分类和计算机辅助诊断。

2.如权利要求1所述的基于多通道随机森林的小样本临床数据分类方法，其特征在于，所述基于多通道随机森林集成的小样本临床数据分类方法进一步包括：

步骤一，临床数据集的划分：对临床数据D按照类别g进行划分；将划分为g个子数据集，每一个子数据集称为单类临床数据集，作为下一步的输入；共有g个单类临床数据集，第i类临床数据集记为D⁽ⁱ⁾(1＜i≤g)；

步骤五，根据高斯混合分布进行数据扩增，即依中的任意一个为参数，生成服从高斯混合分布的单类扩增数据；

步骤六，不断重复步骤五直到每一类数据都进行了扩增；

步骤八，将离散后的值代替原有的值组成新的扩增数据即为最终的扩增数据；

步骤九，构建半监督分类模型。

将数据扩增与半监督分类思想相结合，通过多通道的随机森林集成获得扩增数据类别标签的高可信标注。

3.如权利要求1所述的基于多通道随机森林的小样本临床数据分类方法，其特征在于，步骤五中，对于临床训练数据中的每个类别的临床数据，通过高斯混合分布生成一定数量的扩增数据，包括：将临床训练数据D中的第i类数据记为D⁽ⁱ⁾；D⁽ⁱ⁾通过高斯混合模型参数的估计得到最新参数集其中k代表有k个成分,表示第i个高斯模型的权重系数，表示第i个高斯模型的均值向量，表示第i个高斯模型的协方差矩阵；给定D⁽ⁱ⁾，根据D⁽ⁱ⁾得到的扩增数据Y的样本数量为Num；其中Y_i(1≤i≤k)代表GMM中每一个高斯模型对应的扩增数据子集，每一个扩增数据子集的样本个数为Num_i，并且服从分布

4.如权利要求3所述的基于多通道随机森林的小样本临床数据分类方法，其特征在于，通过高斯混合分布生成一定数量的扩增数据，包括：

a)需要生成的扩增数据总数记为Num，第i个扩增数据子集对应的样本数量为Num_i；根据β^new中给出的计算Num_i:

c)对D中的每一个D⁽ⁱ⁾重复上述步骤a)和b)，并将所有的扩增数据子集组合成一个完整的扩增数据集；扩增数据集为D⁽ⁱ⁾对应的扩增数据集为Y。

5.如权利要求1所述的基于多通道随机森林的小样本临床数据分类方法，其特征在于，步骤七中，数据集D中有m个特征是离散变量，对于每一个特征采用分裂点法进行离散化处理，将扩增得到的连续型临床特征离散为离散型临床特征，包括：

第一步：找到分裂点；

若时，那么

当时，那么

6.如权利要求5所述的基于多通道随机森林的小样本临床数据分类方法，其特征在于，所述第一步的找到分裂点具体包括：给定临床数据集中某一维的离散型临床特征X有m个不同的取值x_k，k＝1,2,...,m；按照从小到大排序，使得x₁＜x₂＜...＜x_m；

统计x_k，k＝1,2,...,m在X中出现的次数；记为N_k,k＝1,2,...,m；

分裂点为G_k,k＝1,2,...,m-1，则：

根据各离散值出现的次数得到了分裂点G_k，G_k是x_k和x_k+1之间的分裂点。

7.如权利要求1所述的基于多通道随机森林的小样本临床数据分类方法，其特征在于，步骤九中，数据扩增和多通道随机森林分类算法包括：

I)有标签训练数据生成无标签扩增数据。

通过基于高斯混合模型的数据扩增方法生成大量的无类别标签的扩增数据；

通过计算剩余的数据在该随机分类器的错误率e得到该分类器的置信度α：

α＝1-e；

式中α的值越高，分类器的分类能力越强，给出的结果越可信；

IV)确定扩增数据类别标签。

建立多通道的随机森林集成，对每一通道都重新随机划分样本集建立多个随机森林分类器，从而该通道是多个随机森林的集成；用每一通道的集成随机森林为扩增数据标记备用类别标签。扩增数据的类别标签由多个通道的备用标签依投票取得；

V)通道数的确定，取测试数据准确率最大的通道数为确定的通道数目，即设有q个通道，将q个通道给出的备用类别标签经投票获得其类别标签，并将其和原来的有标签数据一起作为训练集训练一个随机森林分类器，计算测试数据的准确率，选准确率大的q为最终确定的通道数。

8.如权利要求7所述的基于多通道随机森林的小样本临床数据分类方法，其特征在于，步骤II)中，建立多个随机森林分类器协同训练的方法包括：通过随机划分数据集的方法，将临床训练数据集划分为k份，随机取其中的k-1份组成新的训练集训练随机森林分类模型，通过这样的方式得到k个随机森林分类模型；

对单个通道的多个分类器的置信度相加得到总的置信度，将每一个分类器的置信度与总的置信度相比就能得到单个分类器的权重ω_i(1≤i≤k)，如下式；

通过公式得到了每一个通道的k个分类器的权重向量ω＝{ω₁,ω₂,...,ω_k}，使得

9.如权利要求7所述的数据扩增和多通道随机森林的小样本临床数据分类方法，其特征在于，步骤IV)中，每一通道输出扩增样本的备用标签，包括：

将随机森林的输出转换为类别概率，结合单个随机森林分类器的权重确定扩增数据的类别得分情况，通过最终的加权得分给出扩增数据的备用类别标签；定义扩增数据属于某一类别的加权得分公式：

式中，y表示类别；h_i(y)表示单通道第i个随机森林所得出的类别概率；ω_i表示第i个随机森林的权重；Score(y)表示某一类别的加权得分；通过加权得分Score(y)确定扩增数据的备用类别标签记为y^s，计算方式在公式中给出：

通过每一通道得到的备用类别标签将作为最终决策类别标签的输入；

最终决策输出扩增数据的类别标签，包括：建立多通道的集成随机森林，每一通道都给扩增数据一个备用类别标签；每一通道均重新随机划分样本建立新的集成随机森林分类器，即每个通道均通过多个随机森林给扩增数据决策一个备用类别标签，最终通过所有通道给出的备用类别标签，采用少数服从多数的投票方式，将得票最多的标签作为扩增数据的类别标签。

运用原有临床数据和经过高可信的带类别标签的扩增数据，训练一个随机森林，实现测试样本的分类和疾病诊断结果。

10.一种实施权利要求1所述基于多通道随机森林的小样本临床数据分类方法的小样本临床数据分类系统。