CN110189803A

CN110189803A - 基于聚类与分类相结合的疾病危险因素提取方法

Info

Publication number: CN110189803A
Application number: CN201910484068.4A
Authority: CN
Inventors: 沈兴鑫; 姚澜; 徐雷
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-08-30

Abstract

本发明公开了一种基于聚类与分类相结合的疾病危险因素提取方法。该方法包括以下步骤：根据用户调查问卷，构建用户信息矩阵与标签向量；将用户信息矩阵进行属性分割，获得若干个用户信息矩阵子集与原始用户信息矩阵；对每个用户矩阵进行标准化处理；对标准化用户矩阵进行降维处理，获得降维矩阵；对降维矩阵进行聚类，获得不同类别的聚类人群；对每一类聚类人群构造一棵决策树，并采用集成的思想对所有决策树进行统计，之后依据层次系数大小获得疾病危险因素。相较于目前医学领域中危险因素提取方法中的回归统计方法，本发明通过结合聚类与分类两种方法，不仅能充分利用原始数据，同时降低了由单独一棵决策树得出结论的错误率。

Description

基于聚类与分类相结合的疾病危险因素提取方法

技术领域

本发明属于大数据技术与医学领域，特别是一种基于聚类与分类相结合的疾病危险因素提取方法。

背景技术

胃食管反流疾病是指胃反流物反流入食管，引起不适症状和并发症的一种疾病，作为一种消化系统临床常见病，普遍存在于亚洲和西方各个国家，且发病率呈逐年升高的趋势。据研究发现，胃食管反流疾病与个人生活、饮食习惯、精神状况等多方面因素相关，且病情容易发生变化。因此，通过大数据技术探究引起胃食管反流疾病发病的危险因素对于该疾病的治疗与预防有重要意义。

目前针对引起胃食管反流等疾病的危险因素，各医学杂志根据临床经验以及理论知识总结出了可能引发该疾病的危险因素，但是这些方法往往存在一些弊端，一方面，大多数分析与研究往往存在样本量少，分析因素少，使得最终结果不具有泛化能力，人为分析需要大量的经验知识积累，缺乏权威性与科学性；另一方面，分析方法单一，大多基于统计学方法以及临床研究与医学经验相结合，当面临样本数足够多，疾病涉及因素广的情况时，此类方法往往导致效率低下，分析出的结果对于疾病的预防与诊治没有太大的帮助。

目前所存在的危险因素提取方法大多是基于传统统计学的统计推断方法，从对人群医学数据的分析中生成关于总体参数即致病因素的可能命题，估计由该因素引起患病的结果为偶然引发的概率。该类方法往往受到计算资源匮乏的限制，且计算方法单一，大多是基于t检验或卡方检验等方法对数据集进行验证。

在大数据分析技术中，聚类分析是处理复杂数据集的数值分类技术，是在缺乏划分标准或外在基准的情况下，根据事物本身的特性对所研究的对象进行分类。当前对于疾病危险因素的提取采用的聚类方法大多是层次聚类，在划分类簇时往往需要专业的医学知识对类簇特征进行确定，且计算量大。

发明内容

本发明的目的在于提供一种从高维度医学疾病数据中提取关键致病因素的提取方法。

实现本发明目的的技术解决方案为：基于聚类与分类相结合的疾病危险因素提取方法，包括以下步骤：

步骤1、根据某种疾病的用户调查问卷，构建用户信息矩阵与标签向量；

步骤2、对所述用户信息矩阵进行属性分割，获得若干个用户信息矩阵子集与原始用户信息矩阵；

步骤3、对属性分割后的每个用户信息矩阵进行标准化处理，获得若干个标准化用户信息矩阵；

步骤4、对每个标准化用户信息矩阵进行特征降维，获得若干个降维用户信息矩阵；

步骤5、对每个降维用户信息矩阵进行高斯混合聚类，获得相应的聚类人群；

步骤6、对每个聚类人群构建分类决策树，统计决策树特征节点信息，根据决策树得分进行加权统计，计算所有特征节点的层次系数，对层次系数进行降序排列，之后根据实际需求自定义选取排名前列的若干个层次系数作为疾病危险因素。

本发明与现有技术相比，其显著优点为：1)利用特征降维方法解决了处理医学数据大样本、高维度的难题；2)对原始数据进行数据分割，充分利用了原始数据中的信息，尤其适用于数据量较小，但特征维度较多的数据集；3)将聚类技术与分类技术相结合，构建大量决策树，降低了分类决策树数量少带来的误差。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于聚类与分类相结合的疾病危险因素提取方法流程图。

图2为本发明实施例中划分人群的示意图。

图3为本发明实施例中构建的一棵决策树实例示意图。

具体实施方式

结合图1，本发明基于聚类与分类相结合的疾病危险因素提取方法，包括以下步骤：

进一步地，步骤1中根据某种疾病用户调查问卷，构建用户信息矩阵与标签向量，具体为：

步骤1-1、收集若干份针对某种疾病的用户调查问卷，该问卷包括用户问卷ID号、若干问题及对应的选项，由所有用户调查问卷构建用户信息矩阵I，矩阵I的维度为N*(M+1)，N为参与调查的用户数目，M为调查问卷中问题特征的数量；

用户信息矩阵I中，第i行第1列的特征为用户问卷ID号；

用户信息矩阵I中，第i行第j列为第i个用户问卷对第j个问题的答案，其中1≤i≤N，2≤j≤M+1；

步骤1-2、构建N*1的标签向量target，标签向量target中的第i个值表示第i个用户卷对应的用户是否患病，其中0表示用户未患病，1表示用户患病。

进一步地，步骤2中对用户信息矩阵进行属性分割，使数据得到最大化的利用，具体为：

根据用户信息矩阵维度特征，针对根据疾病自定义选取的若干特征中的每个特征，将用户信息矩阵按照该特征的取值分为若干个矩阵，获得若干个N*M的用户信息矩阵子集，同时保留原始N*(M+1)的用户信息矩阵。

进一步地，步骤3中对每个用户信息矩阵进行标准化处理，获得若干个标准化用户信息矩阵，具体为：

利用Z-score标准化算法对用户信息矩阵进行标准化处理以使每个维度的数据服从均值为0、方差为1的分布，由此获得若干个N*M的标准化用户信息矩阵子集与N*(M+1)的原始标准化用户信息矩阵。

进一步地，步骤4中对每个标准化用户信息矩阵进行特征降维，获得降维用户信息矩阵，具体为：

对每一个标准化用户信息矩阵进行主成分分析降维，获得若干个N*M的降维用户信息矩阵子集与N*(M+1)的原始降维用户信息矩阵。

进一步地，步骤5中对每个降维用户信息矩阵进行高斯混合聚类，获得相应的聚类人群，具体为：

对每个降维用户信息矩阵进行高斯混合聚类，假设聚类类别为K，获得K个内簇；并根据标签向量target对用户进行标记，获得若干个带有患病与否标签的聚类人群。

进一步地，步骤6对每个聚类人群构建分类决策树，统计决策树特征节点信息，根据决策树得分进行加权，计算所有特征节点的层次系数，具体为：

步骤6-1、根据决策树分类预测结果与真实标签值计算决策树得分，将其作为该决策树权重系数，并将多棵决策树进行集成，获得第m棵决策树权重系数weight_m为：

式中，P_m代表第m棵决策树标签为正常人的数量，N_m代表第m棵决策树标签为患者的数量，rank_i代表标签为正常人的记录中第i条记录的排名，positive_m代表第m棵决策树中的标签为正常人的所有记录；

步骤6-2、获取第m棵决策树层次系数，具体为：

式中，L_mi为第m棵决策树特征节点i的层次系数，feature_m为第m棵决策树的特征节点集合，Y_ij表示特征节点i在决策树第j层的出现次数，h代表该决策树的高度；

步骤6-3、结合决策树权重系数和决策树层次系数，获取特征节点层次系数L_x为：

式中，x为所有决策树特征节点集合的并集中的某一个特征节点，L_mx为特征节点x在第m棵决策树的层次系数，L_x为集成所有决策树后特征节点x的层次系数。

下面结合实施例对本发明作进一步详细的描述。

实施例

本发明基于聚类与分类相结合的疾病危险因素提取方法，包括以下内容：

1、根据某种疾病的用户调查问卷，构建用户信息矩阵与标签向量：本实施例中采取儿童先天性心脏病数据集构建用户信息矩阵与标签向量，共有8672例检查案例，每个案例有39个乳房肿块活检图像显示的细胞核的与调查问卷问题，答案为数值型的指标，包括母亲的生产方式、生活方式、孕期事项、父亲生活方式、直系健康情况等。由此构建的用户信息矩阵大小为8672*40，其中第一列表示案例唯一标识号。本实施例用户信息矩阵中问题特征具体为：['孕次','产次','足月产','试管婴儿','生产方式','母亲文化','接触有毒物质','接触放射性物质','母亲吸烟量','孕期吸烟','孕期在二手烟环境','母亲喝酒','生子年龄','孕期合并症','孕期感冒','感冒时期','孕期用药','用药时期','叶酸','孕前口服避孕药','父亲生子年龄','父亲文化','常接触有害物质','常接触放射性物质','父亲吸烟量','经常饮酒','是否装修','是否有高压电缆','有无化工厂','直系中有无心脏病','直系中有无先心病','先天性疾病','medicine_Analgesics','medicine_Antibiotics','medicine_Antidepressant','medicine_Antitumor drug','medicine_Diet pill','medicine_Tranquilizer','medicine_Tocolytic agent']；

标签向量为8672例案例的疾病诊断结果，0表示患有先天性心脏病，1表示正常，标签向量大小为8672*1。

2、对原始数据源进行属性分割，这里根据医学常识选取分割属性为“生子年龄”、“直系中有无心脏病”，按照“生子年龄”将原始数据源分割为生子年龄分别在[16,20]、(20,25]、(25,29]、(29,34]区间内的四组数据源，分割后的信息矩阵子集大小分别为1841*40，3525*40，2266*40，1040*40；按照“直系中有无心脏病”将原始数据源分割为直系中有心脏病与直系中无心脏病的两组数据源，分割后的信息矩阵子集大小分别为1457*40，7215*40，保留原始全部数据源。

3、对用户信息矩阵进行标准化处理，使得数据分布服从方差为1，均值为0，获得标准化用户信息矩阵：

标准化处理具体内容如下：

data_stand＝[x₁,x'₂,...,x_i',...,x'_M+1]

式中，x_j为用户信息矩阵中的第j列，j＝2...M+1；x_j'为N*1矩阵，为标准化后的用户信息矩阵的第j列；为用户信息矩阵第j列数据的均值；s_j为用户信息矩阵第j列数据方差；x_ij为用户信息矩阵中的第i行第j列元素；data_stand为标准化用户信息矩阵；

本实施例中原始用户信息矩阵获得的均值向量为：

方差向量s₁为：

s₁＝[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1]

生子年龄分别在[16,20]的信息矩阵子集获得的均值向量为：

方差向量s₂为：

s₂＝[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1]

生子年龄分别在(20,25]的信息矩阵子集获得的均值向量为：

方差向量s₃为：

s₃＝[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1]

生子年龄分别在(25,29]的信息矩阵子集获得的均值向量为：

方差向量s₄为：

s₄＝[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1]

生子年龄分别在(29,34]的信息矩阵子集获得的均值向量为：

方差向量s₅为：

s₅＝[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1]

直系中有心脏病的信息矩阵子集获得的均值向量为：

[1.19562480e-16，1.46403036e-17，1.46403036e-17，-1.83003795e-16，-1.01262100e-16，-5.85612145e-17，-4.88010121e-16，-3.72107717e-16，7.32015181e-18，4.88010121e-18，-4.51409362e-17，1.80563745e-16，2.28144731e-16，3.05006325e-16，3.07446376e-16，-7.32015181e-18，1.06142201e-16，4.27008856e-18，3.29406831e-17，-1.58603289e-16，3.33066907e-16，8.54017711e-18，-3.78207844e-16，-4.41649159e-16，-1.58603289e-17，-1.70803542e-17，-5.80732044e-16，-5.86832170e-16，-3.73327742e-16，-1.19562480e-16，-1.19562480e-16，-1.46403036e-17，-3.90408097e-17，1.83003795e-17，0.00000000e+00，1.95204048e-17，1.83003795e-17，1.64703416e-17]

方差向量s₆为：

s₆＝[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，0，1，1，1]

直系中无心脏病的信息矩阵子集获得的均值向量为：

方差向量s₇为：

s₇＝[1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，1，0，1，1，1，1，1，1，1，1]。

4、对每一个标准化用户信息矩阵进行主成分分析降维，获得原始降维用户信息矩阵与6个降维用户信息矩阵子集。

5、结合图2，对每一个降维用户信息矩阵进行高斯混合聚类，聚类类别为4，得到4个具有不同健康特点的人群。根据标签向量target对用户进行标记，对7个降维用户信息矩阵进行聚类，得到共28个带有患病与否标签的聚类人群。其中，28个聚类人群人数分别为603，5390，1435，1243，208，219，450，163，358，183，1673，52，1987，57，870，610868，312，329，332108，696，359，293，1214，1377，3300，1324。

6、对每一个聚类人群构建分类决策树，如图3所示，为某个聚类人群的决策树结构。统计决策树特征节点信息，根据决策树得分进行加权，计算所有特征节点的层次系数，对层次系数进行降序排列，之后根据实际需求自定义选取排名前列的若干个层次系数作为疾病危险因素。具体为：

6-1、根据决策树分类预测结果与真实标签值计算决策树得分，将其作为该决策树权重系数，并将多棵决策树进行集成，获得第m棵决策树权重系数weight_m为：

6-2、获取第m棵决策树层次系数，具体为：

本实施例中，wight[0.57878041498731148,0.55405702396999357,0.56506365003164516,0.57288751606033406,0.6123271889400921,0.5766949152542372,0.6459303408455951,0.6435677530017152,0.6482769199304632,0.5825174825174825,0.6159198473282442,0.5,0.5,0.617998055015282,0.6265243902439024,0.6181280865671475,0.6332417582417582,0.6146678048086499,0.6528474756690997,0.5337321135350691,0.6378551136363636,0.6866776315789473,0.6898238747553816,0.5716733761288216,0.602598806940655,0.603139780931043,0.5392671523701246,0.5980196651397883]

6-3、结合决策树权重系数和决策树层次系数，获取特征节点层次系数L_x为：

本实施例中，L_x＝[('叶酸',4.833481393793019),('母亲文化',2.026894947705463),('用药时期',1.291982371787625),('父亲吸烟量',1.189030580909597),('父亲生子年龄',1.0946825360762695),('父亲文化',0.8284072233388199),('足月产',0.572335734857869),('孕期在二手烟环境',0.557266500667551),('生产方式',0.5400046577181231),('感冒时期',0.5220886479884121),('孕次',0.5172827942082023),('经常饮酒',0.423624194514647),('母亲喝酒',0.39480422713350777),('孕前口服避孕药',0.37386958978535484),('孕期吸烟',0.3217838765008576),('孕期用药',0.31344374024115196),('生子年龄',0.3050418676251667),('孕期合并症',0.281259279876853),('medicine_Antibiotics',0.24683447367784261),('接触放射性物质',0.19130225272841472),('是否有高压电缆',0.17223987583127676),('直系中有无心脏病',0.1523565225800948),('母亲吸烟量',0.15196680425330056),('产次',0.1222886760407011),('medicine_Analgesics',0.0625),('接触有毒物质',0.04051730749565395),('常接触有害物质',0.03737622907123677),('孕期感冒',0.033704197023132786),('先天性疾病',0.022291892811315887),('medicine_Tocolytic agent',0.015625),('是否装修',0.008132956253955645)]，取排名前十的层次系数，由此，本实施例中获得的疾病危险因素集合为：['叶酸','母亲文化'，'用药时期','父亲吸烟量','父亲生子年龄','父亲文化','足月产','孕期在二手烟环境','生产方式','感冒时期']。

本发明实现了聚类在医学领域特别是疾病危险因素的提取，将聚类方法与分类方法相结合，实现了软聚类在医学领域的应用，构建大量决策树，采用集成的方法降低了误差，使最终结果具有较高的解释性。

Claims

1.一种基于聚类与分类相结合的疾病危险因素提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于聚类与分类相结合的疾病危险因素提取方法，其特征在于，步骤1所述根据某种疾病用户调查问卷，构建用户信息矩阵与标签向量，具体为：

所述用户信息矩阵I中，第i行第1列的特征为用户问卷ID号；

所述用户信息矩阵I中，第i行第j列为第i个用户问卷对第j个问题的答案，其中1≤i≤N，2≤j≤M+1；

3.根据权利要求1或2所述的基于聚类与分类相结合的疾病危险因素提取方法，其特征在于，步骤2所述对用户信息矩阵进行属性分割，获得若干个信息矩阵子集与原始用户信息矩阵，具体为：

4.根据权利要求3所述的基于聚类与分类相结合的疾病危险因素提取方法，其特征在于，步骤3所述对属性分割后的每个用户信息矩阵进行标准化处理，获得若干个标准化用户信息矩阵，具体为：

5.根据权利要求4所述的基于聚类与分类相结合的疾病危险因素提取方法，其特征在于，步骤4所述对每个标准化用户信息矩阵进行特征降维，获得降维用户信息矩阵，具体为：对每个标准化用户信息矩阵进行主成分分析降维，获得若干个降维用户信息矩阵子集与原始降维用户信息矩阵。

6.根据权利要求5所述的基于聚类与分类相结合的疾病危险因素提取方法，其特征在于，步骤5所述对每个降维用户信息矩阵进行高斯混合聚类，获得相应的聚类人群，具体为：

7.根据权利要求6所述的基于聚类与分类相结合的疾病危险因素提取方法，其特征在于，步骤6所述对每个聚类人群构建分类决策树，统计决策树特征节点信息，根据决策树得分进行加权，计算所有特征节点的层次系数，具体为：

步骤6-2、获取第m棵决策树层次系数，具体为：