CN113707317A

CN113707317A - 一种基于混合模型的疾病危险因素重要性分析方法

Info

Publication number: CN113707317A
Application number: CN202110965479.2A
Authority: CN
Inventors: 刘勇国; 李家辉; 朱嘉静; 张云; 杨尚明; 李巧勤; 陆鑫
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-26
Anticipated expiration: 2041-08-23
Also published as: CN113707317B; ZA202202847B

Abstract

本发明公开一种基于混合模型的疾病危险因素重要性分析方法，应用于数据处理领域，针对现有的疾病危险因素分析方法可靠性较低的问题，本发明首先使用聚类算法划分初始危险因素，然后通过神经网络与ReliefF算法结合的混合模型分别分析危险因素类权重和类内危险因素权重，并进行权值融合获得危险因素的全局权重，最后使用逐级分类方法分析危险因素的有效性，并对危险因素之间的联合作用进行分析，提升方法的可靠性。

Description

一种基于混合模型的疾病危险因素重要性分析方法

技术领域

本发明属于数据处理领域，特别涉及一种疾病危险因素数据处理技术。

背景技术

疾病危险因素分析或相关因素研究是医学研究人员关注的重要领域，借助危险因素信息可以为疾病防治策略的制定提供可靠依据。目前，线性回归、逻辑回归、泊松回归和考克斯回归等回归模型是研究人员常用的分析工具，在疾病与危险因素之间的相关性分析中发挥着重要作用。随着医疗数据维度和数量的快速增长，高效可靠的数据挖掘技术越来越受到关注。机器学习，特别是神经网络的逐渐成熟，促进了医疗大数据分析的快速发展，可以有效提高分析效率和可靠性。

中国专利“CN108735296A基于Hidden Markov Model的2型糖尿病危险因素分析方法”提供了一种基于Hidden Markov Model的2型糖尿病危险因素分析方法，首先构建初始模型，根据经验、专业知识和研究目的，产生K个不同观察值的观察序列，并指定模型的初始参数；然后使用训练样本集合对模型进行拟合，最后采用总体样本分组重新训练模型参数，对模型的拟合结果进行评价。

目前有许多基于数据挖掘和机器学习的危险因素分析方法，但这些方法一次性考虑所有危险因素，随着医疗数据维度的增加，计算效率大幅降低。具体来说，现有技术存在的问题是：

(1)现有技术面对高维度大量数据的情形，算法运行占用空间大，计算时间长，效率低，无法适应真实的医疗大数据环境。

(2)目前的危险因素分析方法仅获得疾病相关的危险因素，未能分析危险因素的重要性权重，获取的危险因素信息较少。

此外，生活中一些疾病病理复杂，某些危险因素的单独作用重要性较低，但与其他危险因素具有联合作用，容易被忽视，影响医生的决策，同时，降低了模型或算法的可靠性。

发明内容

为解决上述技术问题，本发明提出一种基于混合模型的疾病危险因素重要性分析方法，通过聚类算法划分初始危险因素，结合神经网络与ReliefF算法计算危险因素的权重，分析疾病危险因素的重要性，此外，对危险因素的联合作用进行分析，增强分析的可靠性。

本发明采用的技术方案为：一种基于混合模型的疾病危险因素重要性分析方法，包括：

S1、通过电子病历获取危险因素数据，构建二维矩阵数据集，并针对缺失数据采用统计插值法补齐；

S2、对经步骤S1处理得到的数据集采用模糊C均值聚类算法进行聚类，得到危险因素的划分类别；

S3、采用神经网络与ReliefF算法结合的混合模型分别分析各类危险因素类权重和类内权重；

S4、通过权重融合，得到各初始危险因素的全局权重；

S5、按照全局权值递减获得危险因素重要度递减的危险因素集合；

S6、采用逐级分类法分析危险因素集合中的危险因素的有效性。

步骤S1所述针对缺失数据采用统计插值法补齐，具体为：对于离散特征使用样本中出现频次最高的特征值将空缺值补齐，对于连续特征使用样本总体的平均值将空缺值补齐；当某危险因素缺失值占比超过总体样本的十分之一时，将该危险因素删除。

步骤S2采用DBI指标确定聚类的最佳类数。

步骤S3具体为：

S31、基于神经网络学习各类危险因素的权重；

S32、使用ReliefF算法获取类内单独危险因素权重。

步骤S31所采用的神经网络为三层结构，第一层为嵌入层，将输入的危险因素映射为分布式特征向量；第二层为类权重层，对特征向量之间做Attention运算，提取关注的特征信息；第三层为分类层，利用提取的特征信息做分类预测。

步骤S31的具体实现过程为：

A1、在每个危险因素类的head进行自注意力机制：

定义fe代表危险因素类特征的分布式向量表示fe＝es₁,es₂,…,es_p，然后生成Query、Key、Value向量；es₁,es₂,…,es_p表示聚类形成的p个危险因素类经过神经网络的嵌入层分别得到的p个分布式向量表示。此外，es是所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示。

Q＝W_q(es)，Q为es通过W_q转换得到的query向量；

K＝W_k(fe)，K为fe通过W_k转换得到的key向量；

V＝W_v(fe)，V为fe通过W_v转换得到的value向量；

其中，W_q、W_k、W_v分别为训练过程学习到合适参数的linear神经网络层，linear神经网络层为权重层中的一个模块；

使用fe与es做Attention运算，使fe与es对齐，抽取危险因素类与疾病关联的关键信息，计算公式如下：

其中，head_i表示第i个危险因素类的加权向量，上标中的T表示转置，d_k为缩放因子；

A2、连接每个head，乘上权重矩阵得到最终预测结果z；

z＝sigmoid(concat(head₁，…，head_p)W°)

其中，p表示危险因素类的个数，W°为linear神经网络层参数；

在最后一层分类层中，利用提取的类特征信息做分类预测，得到预测结果z；

A3、计算危险因素类的权重比例：

使用类特征向量预测分类结果后，由神经网络反向推导，通过下式得到全连接层中与head_i关联的参数：

其中，

为全连接层中与head_i相关联的参数；

最终得到危险因素类i在分类过程中的权重比例表示为：

本发明的有益效果：与现有技术相比，本发明基于分治思想，将初始危险因素通过聚类算法进行划分，然后分别分析危险因素类权重和类内权重，极大提高计算分析效率，节省计算空间和时间消耗，最后通过权值融合，获得危险因素的全局权重，实现精确分析危险因素重要性，为医生和研究人员提供更多决策信息。

本发明同时对危险因素的联合作用进行分析，避免单独作用能力较弱的危险因素重要性被低估，提高分析的可靠性。

附图说明

图1为本发明方法的流程图；

图2为本发明实施例提供的危险因素有效性评估曲线图；

其中，图2(a)为单驼峰曲线，图2(b)为双驼峰或多驼峰曲线。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明基于混合模型的疾病危险因素重要性分析流程图如图1所示，具体步骤如下。

1.初始危险因素数据获取及数据预处理

通过电子病历获取初始危险因素数据，构建二维矩阵数据集X＝{x₁,…,x_i,…,x_n}，x_i表示第i个患者实例；初始危险因素集合表示为R＝{r₁,…，r_l，…，r_k}，r_l表示第l个初始危险因素，例如年龄、性别、静息血压、血清胆固醇等，也称为属性或者特征，每个实例均含k个属性值；疾病结果表示为C＝{c₁,…，c_j，…,c_n}，c_j表示第j个患者的疾病结果，例如疾病的诊断、死亡等，也可以称为类别或者标签，c_j可以取二值，即c_j＝0,1，如病人诊断是否患有该种疾病，为二分类问题；也可以取多值，即c_j＝1，2,…,d，如疾病的阶段，则为d分类问题。

针对缺失数据采用统计插值法补齐，对于离散特征使用样本中出现频次最高的特征值将空缺值补齐，对于连续特征使用样本总体的平均值将空缺值补齐。当某危险因素缺失值占比超过总体样本的十分之一时，为不影响样本平衡，将该危险因素删除。

2.通过聚类算法划分初始危险因素

将初始危险因素集合R使用模糊C均值聚类算法进行聚类，使用DBI(Davies-Bouldin-Index，戴维森堡丁指数)指标确定聚类的最佳类数。首先计算类内平均离散度S_i：

其中，下标i表示第i个危险因素类，取值范围为从1到p，p为危险因素聚类的个数，Z_i是s_i类的类中心；|s_i|表示s_i类样本数；dist(·,·)为欧几里得距离。其次两个类中心的距离表示类间距离：

d_ij＝dist(Z_i，Z_j) (2)

最终通过下式得到DBI：

其中，

是一个衡量相似度的值，p为聚类类数。DB_p值越小，聚类的效果越好，由此确定对危险因素聚类的最佳类数，将R中的k个初始危险因素划分为p个类，分别表示为s₁，s₂，…，s_p。

3.基于混合模型分析危险因素独立作用重要性

(1)基于神经网络学习危险因素类的权重

神经网络采用三层结构，第一层为嵌入层，将输入的危险因素映射为分布式特征向量；第二层为类权重层，对特征向量之间做Attention运算，提取关注的特征信息；第三层为分类层，利用提取的特征信息做分类预测。具体如下：

神经网络的嵌入层将s₁，s₂，…,s_p,contact(s₁,s₂,…,s_p)分别映射为长度为N的分布式向量表示es₁,es₂,…,es_p,es，其中contact为向量拼接运算，es为所有危险因素的分布式向量表示。

类权重层采用Multi-Head Attention模式，学习模型对不同危险因素类的关注度。

第一步，在每个危险因素类的head进行自注意力机制。

定义fe代表危险因素类特征的分布式向量表示fe＝es₁,es₂,…,es_p，首先生成Query，Key，Value向量；其中Value是表示危险因素类的特征向量，当fe取不同危险因素类的分布式向量时，得到其对应的Value，表示为V＝W_v(fe)，V为fe通过W_v转换得到的value向量；Query和Key是用于计算权重的向量，Query通过所有危险因素的分布式向量es计算得到，而Key针对于不同危险因素类fe计算得到，分别表示如下：

Q＝W_q(es)，Q为es通过W_q转换得到的query向量；es为所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示；

K＝W_k(fe)，K为fe通过W_k转换得到的key向量；

其中，W_q、W_k、W_v分别为训练过程学习到合适参数的linear神经网络层，linear神经网络层为权重层中的一个模块。

对Query和所有的Key分别计算相似度，将该相似度值通过softmax层得到一组权重，根据这组权重与对应Value的乘积求和得到Attention下的Value值。即使用fe与es做Attention运算，使fe与es对齐，抽取危险因素类与疾病关联的关键信息，计算公式如下：

其中，head_i表示第i个危险因素类的加权向量，d_k为缩放因子，上标中的T表示转置。Q和K通过乘法得到每对危险因素类之间的匹配度，缩放后得到注意力分数，与V相乘，得到加权向量。

第二步，连接每个head，乘上权重矩阵得到最终预测结果z。

z＝sigmoid(concat(head₁,…,head_p)W°) (5)

其中，W°为linear神经网络层。在最后一层分类层中，利用提取的类特征信息做分类预测，得到预测结果z。

第三步，计算危险因素类的权重比例。

使用类特征向量预测分类结果后，由神经网络反向推导，可以得到p个危险因素类的权重W，代表该类的重要性。由公式(6)可以得到：

其中，

为全连接层中与head_i相关联的参数。最终得到危险因素类i在分类过程中的权重比例表示为：

(2)使用ReliefF算法获取类内单独危险因素权重

ReliefF算法通过从所有样本(即二维矩阵数据集X)中随机取出一个样本，在与该样本相同疾病结果和各不同疾病结果的样本组中分别取出m个最近邻样本，计算每个危险因素的权重并排序，使用

表示第i个类维度内第j个危险因素(名称为r)的权重，取值范围为[-1，1]。危险因素r的权重通过迭代计算公式如下：

其中，m为参数，表示最近邻样本数；x为数据集中随机选择的一个样本实例，t表示抽取x的抽样次数，H_n是与x相同疾病结果分组中的第n个最近邻样本，class(x)代表样本x所在的疾病结果分组，M_n(c)表示与x不同疾病结果c分组中第n个最近邻样本，p(c)表示疾病结果为c的样本在总体样本中出现的概率，diff(r,x₁,x₂)表示样本x₁和样本x₂在危险因素r上的差，其计算公式如下：

其中，x[r]表示样本x在危险因素r上的值，max(r)和min(r)分别表示危险因素r所取的最大值与最小值。x[r]通过步骤1中的二维矩阵数据集直接获取，数据集的各行表示不同的样本，各列表示不同的危险因素。例如获取第5个样本的静息血压值，假设第3列表示静息血压，可通过(5，3)坐标在数据集中获取。

由于ReliefF算法计算的危险因素权重通常取决于参数m，m的设置需要根据危险因素排序和权重的稳定性确定，通过选取不同的m值，寻找m的稳定区间，在排序和权重稳定的m值范围内选取中位值作为m的最终取值，获取其对应的各危险因素权重。

(3)危险因素权值融合

用W_i表示第i个类维度的权重，

表示第i个类维度内第j个危险因素的权重，

表示第i个类维度内第j个危险因素的全局权重，计算如下：

其中，|W|等于危险因素类的个数，|w_a|表示危险因素类a中危险因素的个数。

按照全局权值递减获得危险因素重要度递减的危险因素集合，记为R_FS＝{r′₁,r′₂,r′₃,…,r′_k}。

4.评估危险因素的有效性并分析危险因素的联合作用

按照R_FS＝{r′₁,r′₂,r′₃,…,r′_k}中危险因素的顺序分别使用前1个危险因素r′₁、前两个危险因素r′₁,r′₂、…、前k个危险因素r′₁,r′₂,r′₃,…,r′_k进行疾病结果分类，分类器采用KNN，本方案选取K＝3，从而得到k个分类准确率，绘制不同危险因素集合下分类准确率曲线图观察分析危险因素的重要性。

曲线趋势分两种情况，第一种情况曲线为单驼峰，不存在危险因素的联合作用。峰值前所包含的危险因素均为有效的危险因素，与疾病结果正相关，对疾病结果的发生有增益效果。而峰值后的危险因素对疾病结果的发生不具备重要性，或者为冗余危险因素，如图2(a)所示。

第二种情况曲线为双驼峰或多驼峰，如图2(b)所示，第二个驼峰开始，各峰值处及其上升阶段包含的危险因素与前面危险因素可能有联合作用，进一步分析危险因素的联合作用。将分类准确率与上一级相比有提升的危险因素记为R⁺，使用分类准确率作为分析危险因素联合作用的指标，输入为R_FS、实例集X和所有实例的分类结果C，输出具有联合作用的危险因素。具体分析步骤为：

首先将第一峰值前的危险因素记为R⁰，将第一峰值后属于R⁺的危险因素记为R_up，R_up即为需要进一步分析是否有联合作用的危险因素。依次取R_up中各危险因素，令其分别与图2(b)中其前一峰值到峰谷之间的每一个危险因素联合，分别计算在R⁰基础上加入此两联合危险因素和不加的分类准确率，若加入分类准确率提升，则表示此联合作用实际存在，此两危险因素联合可对疾病结果产生增益，否则不存在联合作用。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，包括：

S4、通过权重融合，得到各初始危险因素的全局权重；

2.根据权利要求1所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，步骤S1所述针对缺失数据采用统计插值法补齐，具体为：对于离散特征使用样本中出现频次最高的特征值将空缺值补齐，对于连续特征使用样本总体的平均值将空缺值补齐；当某危险因素缺失值占比超过总体样本的十分之一时，将该危险因素删除。

3.根据权利要求2所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，步骤S2采用DBI指标确定聚类的最佳类数。

4.根据权利要求2所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，步骤S3采用的神经网络为三层结构，第一层为嵌入层，将输入的危险因素映射为分布式特征向量；第二层为类权重层，对特征向量之间做Attention运算，提取关注的特征信息；第三层为分类层，利用提取的特征信息做分类预测。

5.根据权利要求4所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，步骤S3基于神经网络学习各类危险因素的权重；具体过程为：

A1、在每个危险因素类的head进行自注意力机制：

定义fe代表危险因素类特征的分布式向量表示，fe＝es₁，es₂，...，es_p，然后生成Query、Key、Value向量；es₁，es₂，...，es_p表示聚类形成的p个危险因素类经过神经网络的嵌入层分别得到的p个分布式向量表示；

Q＝W_q(es)，Q为es通过W_q转换得到的query向量，es为所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示；

K＝W_k(fe)，K为fe通过W_k转换得到的key向量；

V＝W_v(fe)，V为fe通过W_v转换得到的value向量；

A2、连接每个head，乘上权重矩阵得到最终预测结果z；

z＝sigmoid(concat(head₁，...，head_p)W°)

其中，p表示危险因素类的个数，W°为linear神经网络层参数；

A3、计算危险因素类的权重比例：

其中，

为全连接层中与head_i相关联的参数；

最终得到危险因素类i在分类过程中的权重比例表示为：

6.根据权利要求5所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，步骤S3使用ReliefF算法获取类内单独危险因素权重，具体的：通过从所有样本中随机取出一个样本，在与该样本相同疾病结果和各不同疾病结果的样本组中分别取出m个最近邻样本，计算每个危险因素的权重w并排序，w代表类内危险因素重要度，取值范围为[-1，1]；危险因素r的重要度w(r)计算式为：

其中，m为参数，表示最近邻样本数；x为数据集中随机选择的一个样本实例，t表示抽取x的抽样次数，H_j是与x相同疾病结果分组中的第j个最近邻样本，class(x)代表样本x所在的疾病结果分组，M_j(c)表示与x不同疾病结果c分组中第j个最近邻样本，p(c)表示疾病结果为c的样本在总体样本中出现的概率，diff(r，x₁，x₂)表示样本x₁和样本x₂在危险因素r上的差。

7.根据权利要求6所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，所述diff(r，x₁，x₂)的计算式为：

其中，x[r]表示样本x在危险因素r上的值，max(r)和min(r)分别表示危险因素r所取的最大值与最小值。

8.根据权利要求7所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，步骤S6具体为：按照步骤S5所述危险因素集合中危险因素的顺序分别使用前1个危险因素r′₁、前两个危险因素r′₁，r′₂、...、前k个危险因素r′₁，r′₂，r′₃，...，r′_k进行疾病结果分类，从而得到k个分类准确率，绘制分类准确率曲线图，观察得到危险因素的重要性。

9.根据权利要求8所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，当曲线为单驼峰时，不存在危险因素的联合作用；峰值前所包含的危险因素均为有效的危险因素，与疾病结果正相关，对疾病结果的发生有增益效果；而峰值后的危险因素对疾病结果的发生不具备重要性。

10.根据权利要求8所述的一种基于混合模型的疾病危险因素重要性分析方法，其特征在于，当曲线为双驼峰或多驼峰时，第二个驼峰开始，各峰值处及其上升阶段包含的危险因素与前面危险因素可能有联合作用，进一步分析危险因素的联合作用，将分类准确率与上一级相比有提升的危险因素记为R⁺，使用分类准确率作为分析危险因素联合作用的指标，具体分析过程为：

首先将第一峰值前的危险因素记为R⁰，将第一峰值后属于R⁺的危险因素记为R_up，R_up即为需要进一步分析是否有联合作用的危险因素；依次取R_up中各危险因素，令其分别与其前一峰值到峰谷之间的每一个危险因素联合，分别计算在R⁰基础上加入此两联合危险因素和不加的分类准确率，若加入分类准确率提升，则表示此联合作用实际存在，此两危险因素联合可对疾病结果产生增益，否则不存在联合作用。