CN113707317A - 一种基于混合模型的疾病危险因素重要性分析方法 - Google Patents

一种基于混合模型的疾病危险因素重要性分析方法 Download PDF

Info

Publication number
CN113707317A
CN113707317A CN202110965479.2A CN202110965479A CN113707317A CN 113707317 A CN113707317 A CN 113707317A CN 202110965479 A CN202110965479 A CN 202110965479A CN 113707317 A CN113707317 A CN 113707317A
Authority
CN
China
Prior art keywords
risk factor
risk
disease
risk factors
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110965479.2A
Other languages
English (en)
Other versions
CN113707317B (zh
Inventor
刘勇国
李家辉
朱嘉静
张云
杨尚明
李巧勤
陆鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110965479.2A priority Critical patent/CN113707317B/zh
Publication of CN113707317A publication Critical patent/CN113707317A/zh
Priority to ZA2022/02847A priority patent/ZA202202847B/en
Application granted granted Critical
Publication of CN113707317B publication Critical patent/CN113707317B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开一种基于混合模型的疾病危险因素重要性分析方法,应用于数据处理领域,针对现有的疾病危险因素分析方法可靠性较低的问题,本发明首先使用聚类算法划分初始危险因素,然后通过神经网络与ReliefF算法结合的混合模型分别分析危险因素类权重和类内危险因素权重,并进行权值融合获得危险因素的全局权重,最后使用逐级分类方法分析危险因素的有效性,并对危险因素之间的联合作用进行分析,提升方法的可靠性。

Description

一种基于混合模型的疾病危险因素重要性分析方法
技术领域
本发明属于数据处理领域,特别涉及一种疾病危险因素数据处理技术。
背景技术
疾病危险因素分析或相关因素研究是医学研究人员关注的重要领域,借助危险因素信息可以为疾病防治策略的制定提供可靠依据。目前,线性回归、逻辑回归、泊松回归和考克斯回归等回归模型是研究人员常用的分析工具,在疾病与危险因素之间的相关性分析中发挥着重要作用。随着医疗数据维度和数量的快速增长,高效可靠的数据挖掘技术越来越受到关注。机器学习,特别是神经网络的逐渐成熟,促进了医疗大数据分析的快速发展,可以有效提高分析效率和可靠性。
中国专利“CN108735296A基于Hidden Markov Model的2型糖尿病危险因素分析方法”提供了一种基于Hidden Markov Model的2型糖尿病危险因素分析方法,首先构建初始模型,根据经验、专业知识和研究目的,产生K个不同观察值的观察序列,并指定模型的初始参数;然后使用训练样本集合对模型进行拟合,最后采用总体样本分组重新训练模型参数,对模型的拟合结果进行评价。
目前有许多基于数据挖掘和机器学习的危险因素分析方法,但这些方法一次性考虑所有危险因素,随着医疗数据维度的增加,计算效率大幅降低。具体来说,现有技术存在的问题是:
(1)现有技术面对高维度大量数据的情形,算法运行占用空间大,计算时间长,效率低,无法适应真实的医疗大数据环境。
(2)目前的危险因素分析方法仅获得疾病相关的危险因素,未能分析危险因素的重要性权重,获取的危险因素信息较少。
此外,生活中一些疾病病理复杂,某些危险因素的单独作用重要性较低,但与其他危险因素具有联合作用,容易被忽视,影响医生的决策,同时,降低了模型或算法的可靠性。
发明内容
为解决上述技术问题,本发明提出一种基于混合模型的疾病危险因素重要性分析方法,通过聚类算法划分初始危险因素,结合神经网络与ReliefF算法计算危险因素的权重,分析疾病危险因素的重要性,此外,对危险因素的联合作用进行分析,增强分析的可靠性。
本发明采用的技术方案为:一种基于混合模型的疾病危险因素重要性分析方法,包括:
S1、通过电子病历获取危险因素数据,构建二维矩阵数据集,并针对缺失数据采用统计插值法补齐;
S2、对经步骤S1处理得到的数据集采用模糊C均值聚类算法进行聚类,得到危险因素的划分类别;
S3、采用神经网络与ReliefF算法结合的混合模型分别分析各类危险因素类权重和类内权重;
S4、通过权重融合,得到各初始危险因素的全局权重;
S5、按照全局权值递减获得危险因素重要度递减的危险因素集合;
S6、采用逐级分类法分析危险因素集合中的危险因素的有效性。
步骤S1所述针对缺失数据采用统计插值法补齐,具体为:对于离散特征使用样本中出现频次最高的特征值将空缺值补齐,对于连续特征使用样本总体的平均值将空缺值补齐;当某危险因素缺失值占比超过总体样本的十分之一时,将该危险因素删除。
步骤S2采用DBI指标确定聚类的最佳类数。
步骤S3具体为:
S31、基于神经网络学习各类危险因素的权重;
S32、使用ReliefF算法获取类内单独危险因素权重。
步骤S31所采用的神经网络为三层结构,第一层为嵌入层,将输入的危险因素映射为分布式特征向量;第二层为类权重层,对特征向量之间做Attention运算,提取关注的特征信息;第三层为分类层,利用提取的特征信息做分类预测。
步骤S31的具体实现过程为:
A1、在每个危险因素类的head进行自注意力机制:
定义fe代表危险因素类特征的分布式向量表示fe=es1,es2,…,esp,然后生成Query、Key、Value向量;es1,es2,…,esp表示聚类形成的p个危险因素类经过神经网络的嵌入层分别得到的p个分布式向量表示。此外,es是所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示。
Q=Wq(es),Q为es通过Wq转换得到的query向量;
K=Wk(fe),K为fe通过Wk转换得到的key向量;
V=Wv(fe),V为fe通过Wv转换得到的value向量;
其中,Wq、Wk、Wv分别为训练过程学习到合适参数的linear神经网络层,linear神经网络层为权重层中的一个模块;
使用fe与es做Attention运算,使fe与es对齐,抽取危险因素类与疾病关联的关键信息,计算公式如下:
Figure BDA0003223778900000031
其中,headi表示第i个危险因素类的加权向量,上标中的T表示转置,dk为缩放因子;
A2、连接每个head,乘上权重矩阵得到最终预测结果z;
z=sigmoid(concat(head1,…,headp)W°)
其中,p表示危险因素类的个数,W°为linear神经网络层参数;
在最后一层分类层中,利用提取的类特征信息做分类预测,得到预测结果z;
A3、计算危险因素类的权重比例:
使用类特征向量预测分类结果后,由神经网络反向推导,通过下式得到全连接层中与headi关联的参数:
Figure BDA0003223778900000032
其中,
Figure BDA0003223778900000033
为全连接层中与headi相关联的参数;
最终得到危险因素类i在分类过程中的权重比例表示为:
Figure BDA0003223778900000034
本发明的有益效果:与现有技术相比,本发明基于分治思想,将初始危险因素通过聚类算法进行划分,然后分别分析危险因素类权重和类内权重,极大提高计算分析效率,节省计算空间和时间消耗,最后通过权值融合,获得危险因素的全局权重,实现精确分析危险因素重要性,为医生和研究人员提供更多决策信息。
本发明同时对危险因素的联合作用进行分析,避免单独作用能力较弱的危险因素重要性被低估,提高分析的可靠性。
附图说明
图1为本发明方法的流程图;
图2为本发明实施例提供的危险因素有效性评估曲线图;
其中,图2(a)为单驼峰曲线,图2(b)为双驼峰或多驼峰曲线。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
本发明基于混合模型的疾病危险因素重要性分析流程图如图1所示,具体步骤如下。
1.初始危险因素数据获取及数据预处理
通过电子病历获取初始危险因素数据,构建二维矩阵数据集X={x1,…,xi,…,xn},xi表示第i个患者实例;初始危险因素集合表示为R={r1,…,rl,…,rk},rl表示第l个初始危险因素,例如年龄、性别、静息血压、血清胆固醇等,也称为属性或者特征,每个实例均含k个属性值;疾病结果表示为C={c1,…,cj,…,cn},cj表示第j个患者的疾病结果,例如疾病的诊断、死亡等,也可以称为类别或者标签,cj可以取二值,即cj=0,1,如病人诊断是否患有该种疾病,为二分类问题;也可以取多值,即cj=1,2,…,d,如疾病的阶段,则为d分类问题。
针对缺失数据采用统计插值法补齐,对于离散特征使用样本中出现频次最高的特征值将空缺值补齐,对于连续特征使用样本总体的平均值将空缺值补齐。当某危险因素缺失值占比超过总体样本的十分之一时,为不影响样本平衡,将该危险因素删除。
2.通过聚类算法划分初始危险因素
将初始危险因素集合R使用模糊C均值聚类算法进行聚类,使用DBI(Davies-Bouldin-Index,戴维森堡丁指数)指标确定聚类的最佳类数。首先计算类内平均离散度Si
Figure BDA0003223778900000041
其中,下标i表示第i个危险因素类,取值范围为从1到p,p为危险因素聚类的个数,Zi是si类的类中心;|si|表示si类样本数;dist(·,·)为欧几里得距离。其次两个类中心的距离表示类间距离:
dij=dist(Zi,Zj) (2)
最终通过下式得到DBI:
Figure BDA0003223778900000051
其中,
Figure BDA0003223778900000052
是一个衡量相似度的值,p为聚类类数。DBp值越小,聚类的效果越好,由此确定对危险因素聚类的最佳类数,将R中的k个初始危险因素划分为p个类,分别表示为s1,s2,…,sp
3.基于混合模型分析危险因素独立作用重要性
(1)基于神经网络学习危险因素类的权重
神经网络采用三层结构,第一层为嵌入层,将输入的危险因素映射为分布式特征向量;第二层为类权重层,对特征向量之间做Attention运算,提取关注的特征信息;第三层为分类层,利用提取的特征信息做分类预测。具体如下:
神经网络的嵌入层将s1,s2,…,sp,contact(s1,s2,…,sp)分别映射为长度为N的分布式向量表示es1,es2,…,esp,es,其中contact为向量拼接运算,es为所有危险因素的分布式向量表示。
类权重层采用Multi-Head Attention模式,学习模型对不同危险因素类的关注度。
第一步,在每个危险因素类的head进行自注意力机制。
定义fe代表危险因素类特征的分布式向量表示fe=es1,es2,…,esp,首先生成Query,Key,Value向量;其中Value是表示危险因素类的特征向量,当fe取不同危险因素类的分布式向量时,得到其对应的Value,表示为V=Wv(fe),V为fe通过Wv转换得到的value向量;Query和Key是用于计算权重的向量,Query通过所有危险因素的分布式向量es计算得到,而Key针对于不同危险因素类fe计算得到,分别表示如下:
Q=Wq(es),Q为es通过Wq转换得到的query向量;es为所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示;
K=Wk(fe),K为fe通过Wk转换得到的key向量;
其中,Wq、Wk、Wv分别为训练过程学习到合适参数的linear神经网络层,linear神经网络层为权重层中的一个模块。
对Query和所有的Key分别计算相似度,将该相似度值通过softmax层得到一组权重,根据这组权重与对应Value的乘积求和得到Attention下的Value值。即使用fe与es做Attention运算,使fe与es对齐,抽取危险因素类与疾病关联的关键信息,计算公式如下:
Figure BDA0003223778900000061
其中,headi表示第i个危险因素类的加权向量,dk为缩放因子,上标中的T表示转置。Q和K通过乘法得到每对危险因素类之间的匹配度,缩放后得到注意力分数,与V相乘,得到加权向量。
第二步,连接每个head,乘上权重矩阵得到最终预测结果z。
z=sigmoid(concat(head1,…,headp)W°) (5)
其中,W°为linear神经网络层。在最后一层分类层中,利用提取的类特征信息做分类预测,得到预测结果z。
第三步,计算危险因素类的权重比例。
使用类特征向量预测分类结果后,由神经网络反向推导,可以得到p个危险因素类的权重W,代表该类的重要性。由公式(6)可以得到:
Figure BDA0003223778900000062
其中,
Figure BDA0003223778900000063
为全连接层中与headi相关联的参数。最终得到危险因素类i在分类过程中的权重比例表示为:
Figure BDA0003223778900000064
(2)使用ReliefF算法获取类内单独危险因素权重
ReliefF算法通过从所有样本(即二维矩阵数据集X)中随机取出一个样本,在与该样本相同疾病结果和各不同疾病结果的样本组中分别取出m个最近邻样本,计算每个危险因素的权重并排序,使用
Figure BDA0003223778900000065
表示第i个类维度内第j个危险因素(名称为r)的权重,取值范围为[-1,1]。危险因素r的权重通过迭代计算公式如下:
Figure BDA0003223778900000066
其中,m为参数,表示最近邻样本数;x为数据集中随机选择的一个样本实例,t表示抽取x的抽样次数,Hn是与x相同疾病结果分组中的第n个最近邻样本,class(x)代表样本x所在的疾病结果分组,Mn(c)表示与x不同疾病结果c分组中第n个最近邻样本,p(c)表示疾病结果为c的样本在总体样本中出现的概率,diff(r,x1,x2)表示样本x1和样本x2在危险因素r上的差,其计算公式如下:
Figure BDA0003223778900000071
其中,x[r]表示样本x在危险因素r上的值,max(r)和min(r)分别表示危险因素r所取的最大值与最小值。x[r]通过步骤1中的二维矩阵数据集直接获取,数据集的各行表示不同的样本,各列表示不同的危险因素。例如获取第5个样本的静息血压值,假设第3列表示静息血压,可通过(5,3)坐标在数据集中获取。
由于ReliefF算法计算的危险因素权重通常取决于参数m,m的设置需要根据危险因素排序和权重的稳定性确定,通过选取不同的m值,寻找m的稳定区间,在排序和权重稳定的m值范围内选取中位值作为m的最终取值,获取其对应的各危险因素权重。
(3)危险因素权值融合
用Wi表示第i个类维度的权重,
Figure BDA0003223778900000072
表示第i个类维度内第j个危险因素的权重,
Figure BDA0003223778900000073
表示第i个类维度内第j个危险因素的全局权重,计算如下:
Figure BDA0003223778900000074
其中,|W|等于危险因素类的个数,|wa|表示危险因素类a中危险因素的个数。
按照全局权值递减获得危险因素重要度递减的危险因素集合,记为RFS={r′1,r′2,r′3,…,r′k}。
4.评估危险因素的有效性并分析危险因素的联合作用
按照RFS={r′1,r′2,r′3,…,r′k}中危险因素的顺序分别使用前1个危险因素r′1、前两个危险因素r′1,r′2、…、前k个危险因素r′1,r′2,r′3,…,r′k进行疾病结果分类,分类器采用KNN,本方案选取K=3,从而得到k个分类准确率,绘制不同危险因素集合下分类准确率曲线图观察分析危险因素的重要性。
曲线趋势分两种情况,第一种情况曲线为单驼峰,不存在危险因素的联合作用。峰值前所包含的危险因素均为有效的危险因素,与疾病结果正相关,对疾病结果的发生有增益效果。而峰值后的危险因素对疾病结果的发生不具备重要性,或者为冗余危险因素,如图2(a)所示。
第二种情况曲线为双驼峰或多驼峰,如图2(b)所示,第二个驼峰开始,各峰值处及其上升阶段包含的危险因素与前面危险因素可能有联合作用,进一步分析危险因素的联合作用。将分类准确率与上一级相比有提升的危险因素记为R+,使用分类准确率作为分析危险因素联合作用的指标,输入为RFS、实例集X和所有实例的分类结果C,输出具有联合作用的危险因素。具体分析步骤为:
首先将第一峰值前的危险因素记为R0,将第一峰值后属于R+的危险因素记为Rup,Rup即为需要进一步分析是否有联合作用的危险因素。依次取Rup中各危险因素,令其分别与图2(b)中其前一峰值到峰谷之间的每一个危险因素联合,分别计算在R0基础上加入此两联合危险因素和不加的分类准确率,若加入分类准确率提升,则表示此联合作用实际存在,此两危险因素联合可对疾病结果产生增益,否则不存在联合作用。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,包括:
S1、通过电子病历获取危险因素数据,构建二维矩阵数据集,并针对缺失数据采用统计插值法补齐;
S2、对经步骤S1处理得到的数据集采用模糊C均值聚类算法进行聚类,得到危险因素的划分类别;
S3、采用神经网络与ReliefF算法结合的混合模型分别分析各类危险因素类权重和类内权重;
S4、通过权重融合,得到各初始危险因素的全局权重;
S5、按照全局权值递减获得危险因素重要度递减的危险因素集合;
S6、采用逐级分类法分析危险因素集合中的危险因素的有效性。
2.根据权利要求1所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S1所述针对缺失数据采用统计插值法补齐,具体为:对于离散特征使用样本中出现频次最高的特征值将空缺值补齐,对于连续特征使用样本总体的平均值将空缺值补齐;当某危险因素缺失值占比超过总体样本的十分之一时,将该危险因素删除。
3.根据权利要求2所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S2采用DBI指标确定聚类的最佳类数。
4.根据权利要求2所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S3采用的神经网络为三层结构,第一层为嵌入层,将输入的危险因素映射为分布式特征向量;第二层为类权重层,对特征向量之间做Attention运算,提取关注的特征信息;第三层为分类层,利用提取的特征信息做分类预测。
5.根据权利要求4所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S3基于神经网络学习各类危险因素的权重;具体过程为:
A1、在每个危险因素类的head进行自注意力机制:
定义fe代表危险因素类特征的分布式向量表示,fe=es1,es2,...,esp,然后生成Query、Key、Value向量;es1,es2,...,esp表示聚类形成的p个危险因素类经过神经网络的嵌入层分别得到的p个分布式向量表示;
Q=Wq(es),Q为es通过Wq转换得到的query向量,es为所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示;
K=Wk(fe),K为fe通过Wk转换得到的key向量;
V=Wv(fe),V为fe通过Wv转换得到的value向量;
其中,Wq、Wk、Wv分别为训练过程学习到合适参数的linear神经网络层,linear神经网络层为权重层中的一个模块;
使用fe与es做Attention运算,使fe与es对齐,抽取危险因素类与疾病关联的关键信息,计算公式如下:
Figure FDA0003223778890000021
其中,headi表示第i个危险因素类的加权向量,上标中的T表示转置,dk为缩放因子;
A2、连接每个head,乘上权重矩阵得到最终预测结果z;
z=sigmoid(concat(head1,...,headp)W°)
其中,p表示危险因素类的个数,W°为linear神经网络层参数;
在最后一层分类层中,利用提取的类特征信息做分类预测,得到预测结果z;
A3、计算危险因素类的权重比例:
使用类特征向量预测分类结果后,由神经网络反向推导,通过下式得到全连接层中与headi关联的参数:
Figure FDA0003223778890000022
其中,
Figure FDA0003223778890000023
为全连接层中与headi相关联的参数;
最终得到危险因素类i在分类过程中的权重比例表示为:
Figure FDA0003223778890000024
6.根据权利要求5所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S3使用ReliefF算法获取类内单独危险因素权重,具体的:通过从所有样本中随机取出一个样本,在与该样本相同疾病结果和各不同疾病结果的样本组中分别取出m个最近邻样本,计算每个危险因素的权重w并排序,w代表类内危险因素重要度,取值范围为[-1,1];危险因素r的重要度w(r)计算式为:
Figure FDA0003223778890000031
其中,m为参数,表示最近邻样本数;x为数据集中随机选择的一个样本实例,t表示抽取x的抽样次数,Hj是与x相同疾病结果分组中的第j个最近邻样本,class(x)代表样本x所在的疾病结果分组,Mj(c)表示与x不同疾病结果c分组中第j个最近邻样本,p(c)表示疾病结果为c的样本在总体样本中出现的概率,diff(r,x1,x2)表示样本x1和样本x2在危险因素r上的差。
7.根据权利要求6所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,所述diff(r,x1,x2)的计算式为:
Figure FDA0003223778890000032
其中,x[r]表示样本x在危险因素r上的值,max(r)和min(r)分别表示危险因素r所取的最大值与最小值。
8.根据权利要求7所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S6具体为:按照步骤S5所述危险因素集合中危险因素的顺序分别使用前1个危险因素r′1、前两个危险因素r′1,r′2、...、前k个危险因素r′1,r′2,r′3,...,r′k进行疾病结果分类,从而得到k个分类准确率,绘制分类准确率曲线图,观察得到危险因素的重要性。
9.根据权利要求8所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,当曲线为单驼峰时,不存在危险因素的联合作用;峰值前所包含的危险因素均为有效的危险因素,与疾病结果正相关,对疾病结果的发生有增益效果;而峰值后的危险因素对疾病结果的发生不具备重要性。
10.根据权利要求8所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,当曲线为双驼峰或多驼峰时,第二个驼峰开始,各峰值处及其上升阶段包含的危险因素与前面危险因素可能有联合作用,进一步分析危险因素的联合作用,将分类准确率与上一级相比有提升的危险因素记为R+,使用分类准确率作为分析危险因素联合作用的指标,具体分析过程为:
首先将第一峰值前的危险因素记为R0,将第一峰值后属于R+的危险因素记为Rup,Rup即为需要进一步分析是否有联合作用的危险因素;依次取Rup中各危险因素,令其分别与其前一峰值到峰谷之间的每一个危险因素联合,分别计算在R0基础上加入此两联合危险因素和不加的分类准确率,若加入分类准确率提升,则表示此联合作用实际存在,此两危险因素联合可对疾病结果产生增益,否则不存在联合作用。
CN202110965479.2A 2021-08-23 2021-08-23 一种基于混合模型的疾病危险因素重要性分析方法 Expired - Fee Related CN113707317B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110965479.2A CN113707317B (zh) 2021-08-23 2021-08-23 一种基于混合模型的疾病危险因素重要性分析方法
ZA2022/02847A ZA202202847B (en) 2021-08-23 2022-03-09 Method for analyzing importance of disease risk factors based on mixed model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110965479.2A CN113707317B (zh) 2021-08-23 2021-08-23 一种基于混合模型的疾病危险因素重要性分析方法

Publications (2)

Publication Number Publication Date
CN113707317A true CN113707317A (zh) 2021-11-26
CN113707317B CN113707317B (zh) 2023-04-07

Family

ID=78653864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110965479.2A Expired - Fee Related CN113707317B (zh) 2021-08-23 2021-08-23 一种基于混合模型的疾病危险因素重要性分析方法

Country Status (2)

Country Link
CN (1) CN113707317B (zh)
ZA (1) ZA202202847B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378929A (zh) * 2022-10-26 2022-11-22 杭州华橙软件技术有限公司 多方案执行冲突的解决方法、系统、设备及存储介质
CN116738320A (zh) * 2023-06-30 2023-09-12 成都市双流区妇幼保健院 一种医疗保健大数据分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1814055A2 (en) * 2006-01-31 2007-08-01 Deutsche Telekom AG Improved method and system for detecting malicious behavioral patterns in a computer, using machine learning
CN109961851A (zh) * 2019-02-25 2019-07-02 南京理工大学 一种基于改进k均值聚类的疾病危险因素提取方法
CN110569883A (zh) * 2019-08-16 2019-12-13 淮阴工学院 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法
CN111160635A (zh) * 2019-12-19 2020-05-15 金陵科技学院 一种基于ReliefF算法的区域物流需求影响因素预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1814055A2 (en) * 2006-01-31 2007-08-01 Deutsche Telekom AG Improved method and system for detecting malicious behavioral patterns in a computer, using machine learning
CN109961851A (zh) * 2019-02-25 2019-07-02 南京理工大学 一种基于改进k均值聚类的疾病危险因素提取方法
CN110569883A (zh) * 2019-08-16 2019-12-13 淮阴工学院 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法
CN111160635A (zh) * 2019-12-19 2020-05-15 金陵科技学院 一种基于ReliefF算法的区域物流需求影响因素预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱远枫等: "基于改进的ReliefF 算法的神经网络集成分类模型", 《电脑知识与技术》 *
李家辉等: "基于特征排序特征联合算法的疾病危险因素分析", 《计算机应用研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378929A (zh) * 2022-10-26 2022-11-22 杭州华橙软件技术有限公司 多方案执行冲突的解决方法、系统、设备及存储介质
CN116738320A (zh) * 2023-06-30 2023-09-12 成都市双流区妇幼保健院 一种医疗保健大数据分析方法

Also Published As

Publication number Publication date
CN113707317B (zh) 2023-04-07
ZA202202847B (en) 2022-06-29

Similar Documents

Publication Publication Date Title
Nanni et al. A classifier ensemble approach for the missing feature problem
CN113707317B (zh) 一种基于混合模型的疾病危险因素重要性分析方法
CN113113130A (zh) 一种肿瘤个体化诊疗方案推荐方法
CN110400610B (zh) 基于多通道随机森林的小样本临床数据分类方法及系统
CN109033990B (zh) 基于类内类间距离的cnn模型心拍分类方法
Asif et al. An ensemble machine learning method for the prediction of heart disease
CN115985503B (zh) 基于集成学习的癌症预测系统
CN114399634B (zh) 基于弱监督学习的三维图像分类方法、系统、设备及介质
Adi et al. Stroke risk prediction model using machine learning
CN118312816A (zh) 基于成员选择的簇加权聚类集成医学数据处理方法及系统
US11915833B2 (en) Integrated system and method for personalized stratification and prediction of neurodegenerative disease
CN109740669B (zh) 一种基于深度特征聚合的乳腺癌病理图像分类方法
Adigun et al. Classification of Diabetes Types using Machine Learning
Gulhane et al. Fusion of Various Machine Learning Algorithms for Early Heart Attack Prediction
CN112084935B (zh) 一种基于扩充高质量脑电样本的情绪识别方法
CN116228759B (zh) 肾细胞癌类型的计算机辅助诊断系统及设备
Duman et al. Ensemble the recent architectures of deep convolutional networks for skin diseases diagnosis
CN115036034B (zh) 一种基于患者表征图的相似患者识别方法及系统
CN110633368A (zh) 早期结直肠癌非结构化数据的深度学习分类方法
AU2021102593A4 (en) A Method for Detection of a Disease
Kumar et al. Estimation of inter-centroid distance quality in data clustering problem using hybridized K-means algorithm
Hakim Performance Evaluation of Machine Learning Techniques for Early Prediction of Brain Strokes
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Rao et al. Detection and Analysis of Cardiovascular Diseases using Machine Learning Techniques
CN118039157B (zh) 一种基于图神经网络的ii型糖尿病并发症协同预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230407

CF01 Termination of patent right due to non-payment of annual fee