CN113707317A - 一种基于混合模型的疾病危险因素重要性分析方法 - Google Patents
一种基于混合模型的疾病危险因素重要性分析方法 Download PDFInfo
- Publication number
- CN113707317A CN113707317A CN202110965479.2A CN202110965479A CN113707317A CN 113707317 A CN113707317 A CN 113707317A CN 202110965479 A CN202110965479 A CN 202110965479A CN 113707317 A CN113707317 A CN 113707317A
- Authority
- CN
- China
- Prior art keywords
- risk factor
- risk
- disease
- risk factors
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 53
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 53
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 230000009471 action Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000002301 combined effect Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000009795 derivation Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000002596 correlated effect Effects 0.000 claims description 2
- 230000009916 joint effect Effects 0.000 claims description 2
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000000556 factor analysis Methods 0.000 abstract description 6
- 230000036772 blood pressure Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000000284 resting effect Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开一种基于混合模型的疾病危险因素重要性分析方法,应用于数据处理领域,针对现有的疾病危险因素分析方法可靠性较低的问题,本发明首先使用聚类算法划分初始危险因素,然后通过神经网络与ReliefF算法结合的混合模型分别分析危险因素类权重和类内危险因素权重,并进行权值融合获得危险因素的全局权重,最后使用逐级分类方法分析危险因素的有效性,并对危险因素之间的联合作用进行分析,提升方法的可靠性。
Description
技术领域
本发明属于数据处理领域,特别涉及一种疾病危险因素数据处理技术。
背景技术
疾病危险因素分析或相关因素研究是医学研究人员关注的重要领域,借助危险因素信息可以为疾病防治策略的制定提供可靠依据。目前,线性回归、逻辑回归、泊松回归和考克斯回归等回归模型是研究人员常用的分析工具,在疾病与危险因素之间的相关性分析中发挥着重要作用。随着医疗数据维度和数量的快速增长,高效可靠的数据挖掘技术越来越受到关注。机器学习,特别是神经网络的逐渐成熟,促进了医疗大数据分析的快速发展,可以有效提高分析效率和可靠性。
中国专利“CN108735296A基于Hidden Markov Model的2型糖尿病危险因素分析方法”提供了一种基于Hidden Markov Model的2型糖尿病危险因素分析方法,首先构建初始模型,根据经验、专业知识和研究目的,产生K个不同观察值的观察序列,并指定模型的初始参数;然后使用训练样本集合对模型进行拟合,最后采用总体样本分组重新训练模型参数,对模型的拟合结果进行评价。
目前有许多基于数据挖掘和机器学习的危险因素分析方法,但这些方法一次性考虑所有危险因素,随着医疗数据维度的增加,计算效率大幅降低。具体来说,现有技术存在的问题是:
(1)现有技术面对高维度大量数据的情形,算法运行占用空间大,计算时间长,效率低,无法适应真实的医疗大数据环境。
(2)目前的危险因素分析方法仅获得疾病相关的危险因素,未能分析危险因素的重要性权重,获取的危险因素信息较少。
此外,生活中一些疾病病理复杂,某些危险因素的单独作用重要性较低,但与其他危险因素具有联合作用,容易被忽视,影响医生的决策,同时,降低了模型或算法的可靠性。
发明内容
为解决上述技术问题,本发明提出一种基于混合模型的疾病危险因素重要性分析方法,通过聚类算法划分初始危险因素,结合神经网络与ReliefF算法计算危险因素的权重,分析疾病危险因素的重要性,此外,对危险因素的联合作用进行分析,增强分析的可靠性。
本发明采用的技术方案为:一种基于混合模型的疾病危险因素重要性分析方法,包括:
S1、通过电子病历获取危险因素数据,构建二维矩阵数据集,并针对缺失数据采用统计插值法补齐;
S2、对经步骤S1处理得到的数据集采用模糊C均值聚类算法进行聚类,得到危险因素的划分类别;
S3、采用神经网络与ReliefF算法结合的混合模型分别分析各类危险因素类权重和类内权重;
S4、通过权重融合,得到各初始危险因素的全局权重;
S5、按照全局权值递减获得危险因素重要度递减的危险因素集合;
S6、采用逐级分类法分析危险因素集合中的危险因素的有效性。
步骤S1所述针对缺失数据采用统计插值法补齐,具体为:对于离散特征使用样本中出现频次最高的特征值将空缺值补齐,对于连续特征使用样本总体的平均值将空缺值补齐;当某危险因素缺失值占比超过总体样本的十分之一时,将该危险因素删除。
步骤S2采用DBI指标确定聚类的最佳类数。
步骤S3具体为:
S31、基于神经网络学习各类危险因素的权重;
S32、使用ReliefF算法获取类内单独危险因素权重。
步骤S31所采用的神经网络为三层结构,第一层为嵌入层,将输入的危险因素映射为分布式特征向量;第二层为类权重层,对特征向量之间做Attention运算,提取关注的特征信息;第三层为分类层,利用提取的特征信息做分类预测。
步骤S31的具体实现过程为:
A1、在每个危险因素类的head进行自注意力机制:
定义fe代表危险因素类特征的分布式向量表示fe=es1,es2,…,esp,然后生成Query、Key、Value向量;es1,es2,…,esp表示聚类形成的p个危险因素类经过神经网络的嵌入层分别得到的p个分布式向量表示。此外,es是所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示。
Q=Wq(es),Q为es通过Wq转换得到的query向量;
K=Wk(fe),K为fe通过Wk转换得到的key向量;
V=Wv(fe),V为fe通过Wv转换得到的value向量;
其中,Wq、Wk、Wv分别为训练过程学习到合适参数的linear神经网络层,linear神经网络层为权重层中的一个模块;
使用fe与es做Attention运算,使fe与es对齐,抽取危险因素类与疾病关联的关键信息,计算公式如下:
其中,headi表示第i个危险因素类的加权向量,上标中的T表示转置,dk为缩放因子;
A2、连接每个head,乘上权重矩阵得到最终预测结果z;
z=sigmoid(concat(head1,…,headp)W°)
其中,p表示危险因素类的个数,W°为linear神经网络层参数;
在最后一层分类层中,利用提取的类特征信息做分类预测,得到预测结果z;
A3、计算危险因素类的权重比例:
使用类特征向量预测分类结果后,由神经网络反向推导,通过下式得到全连接层中与headi关联的参数:
最终得到危险因素类i在分类过程中的权重比例表示为:
本发明的有益效果:与现有技术相比,本发明基于分治思想,将初始危险因素通过聚类算法进行划分,然后分别分析危险因素类权重和类内权重,极大提高计算分析效率,节省计算空间和时间消耗,最后通过权值融合,获得危险因素的全局权重,实现精确分析危险因素重要性,为医生和研究人员提供更多决策信息。
本发明同时对危险因素的联合作用进行分析,避免单独作用能力较弱的危险因素重要性被低估,提高分析的可靠性。
附图说明
图1为本发明方法的流程图;
图2为本发明实施例提供的危险因素有效性评估曲线图;
其中,图2(a)为单驼峰曲线,图2(b)为双驼峰或多驼峰曲线。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
本发明基于混合模型的疾病危险因素重要性分析流程图如图1所示,具体步骤如下。
1.初始危险因素数据获取及数据预处理
通过电子病历获取初始危险因素数据,构建二维矩阵数据集X={x1,…,xi,…,xn},xi表示第i个患者实例;初始危险因素集合表示为R={r1,…,rl,…,rk},rl表示第l个初始危险因素,例如年龄、性别、静息血压、血清胆固醇等,也称为属性或者特征,每个实例均含k个属性值;疾病结果表示为C={c1,…,cj,…,cn},cj表示第j个患者的疾病结果,例如疾病的诊断、死亡等,也可以称为类别或者标签,cj可以取二值,即cj=0,1,如病人诊断是否患有该种疾病,为二分类问题;也可以取多值,即cj=1,2,…,d,如疾病的阶段,则为d分类问题。
针对缺失数据采用统计插值法补齐,对于离散特征使用样本中出现频次最高的特征值将空缺值补齐,对于连续特征使用样本总体的平均值将空缺值补齐。当某危险因素缺失值占比超过总体样本的十分之一时,为不影响样本平衡,将该危险因素删除。
2.通过聚类算法划分初始危险因素
将初始危险因素集合R使用模糊C均值聚类算法进行聚类,使用DBI(Davies-Bouldin-Index,戴维森堡丁指数)指标确定聚类的最佳类数。首先计算类内平均离散度Si:
其中,下标i表示第i个危险因素类,取值范围为从1到p,p为危险因素聚类的个数,Zi是si类的类中心;|si|表示si类样本数;dist(·,·)为欧几里得距离。其次两个类中心的距离表示类间距离:
dij=dist(Zi,Zj) (2)
最终通过下式得到DBI:
3.基于混合模型分析危险因素独立作用重要性
(1)基于神经网络学习危险因素类的权重
神经网络采用三层结构,第一层为嵌入层,将输入的危险因素映射为分布式特征向量;第二层为类权重层,对特征向量之间做Attention运算,提取关注的特征信息;第三层为分类层,利用提取的特征信息做分类预测。具体如下:
神经网络的嵌入层将s1,s2,…,sp,contact(s1,s2,…,sp)分别映射为长度为N的分布式向量表示es1,es2,…,esp,es,其中contact为向量拼接运算,es为所有危险因素的分布式向量表示。
类权重层采用Multi-Head Attention模式,学习模型对不同危险因素类的关注度。
第一步,在每个危险因素类的head进行自注意力机制。
定义fe代表危险因素类特征的分布式向量表示fe=es1,es2,…,esp,首先生成Query,Key,Value向量;其中Value是表示危险因素类的特征向量,当fe取不同危险因素类的分布式向量时,得到其对应的Value,表示为V=Wv(fe),V为fe通过Wv转换得到的value向量;Query和Key是用于计算权重的向量,Query通过所有危险因素的分布式向量es计算得到,而Key针对于不同危险因素类fe计算得到,分别表示如下:
Q=Wq(es),Q为es通过Wq转换得到的query向量;es为所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示;
K=Wk(fe),K为fe通过Wk转换得到的key向量;
其中,Wq、Wk、Wv分别为训练过程学习到合适参数的linear神经网络层,linear神经网络层为权重层中的一个模块。
对Query和所有的Key分别计算相似度,将该相似度值通过softmax层得到一组权重,根据这组权重与对应Value的乘积求和得到Attention下的Value值。即使用fe与es做Attention运算,使fe与es对齐,抽取危险因素类与疾病关联的关键信息,计算公式如下:
其中,headi表示第i个危险因素类的加权向量,dk为缩放因子,上标中的T表示转置。Q和K通过乘法得到每对危险因素类之间的匹配度,缩放后得到注意力分数,与V相乘,得到加权向量。
第二步,连接每个head,乘上权重矩阵得到最终预测结果z。
z=sigmoid(concat(head1,…,headp)W°) (5)
其中,W°为linear神经网络层。在最后一层分类层中,利用提取的类特征信息做分类预测,得到预测结果z。
第三步,计算危险因素类的权重比例。
使用类特征向量预测分类结果后,由神经网络反向推导,可以得到p个危险因素类的权重W,代表该类的重要性。由公式(6)可以得到:
(2)使用ReliefF算法获取类内单独危险因素权重
ReliefF算法通过从所有样本(即二维矩阵数据集X)中随机取出一个样本,在与该样本相同疾病结果和各不同疾病结果的样本组中分别取出m个最近邻样本,计算每个危险因素的权重并排序,使用表示第i个类维度内第j个危险因素(名称为r)的权重,取值范围为[-1,1]。危险因素r的权重通过迭代计算公式如下:
其中,m为参数,表示最近邻样本数;x为数据集中随机选择的一个样本实例,t表示抽取x的抽样次数,Hn是与x相同疾病结果分组中的第n个最近邻样本,class(x)代表样本x所在的疾病结果分组,Mn(c)表示与x不同疾病结果c分组中第n个最近邻样本,p(c)表示疾病结果为c的样本在总体样本中出现的概率,diff(r,x1,x2)表示样本x1和样本x2在危险因素r上的差,其计算公式如下:
其中,x[r]表示样本x在危险因素r上的值,max(r)和min(r)分别表示危险因素r所取的最大值与最小值。x[r]通过步骤1中的二维矩阵数据集直接获取,数据集的各行表示不同的样本,各列表示不同的危险因素。例如获取第5个样本的静息血压值,假设第3列表示静息血压,可通过(5,3)坐标在数据集中获取。
由于ReliefF算法计算的危险因素权重通常取决于参数m,m的设置需要根据危险因素排序和权重的稳定性确定,通过选取不同的m值,寻找m的稳定区间,在排序和权重稳定的m值范围内选取中位值作为m的最终取值,获取其对应的各危险因素权重。
(3)危险因素权值融合
其中,|W|等于危险因素类的个数,|wa|表示危险因素类a中危险因素的个数。
按照全局权值递减获得危险因素重要度递减的危险因素集合,记为RFS={r′1,r′2,r′3,…,r′k}。
4.评估危险因素的有效性并分析危险因素的联合作用
按照RFS={r′1,r′2,r′3,…,r′k}中危险因素的顺序分别使用前1个危险因素r′1、前两个危险因素r′1,r′2、…、前k个危险因素r′1,r′2,r′3,…,r′k进行疾病结果分类,分类器采用KNN,本方案选取K=3,从而得到k个分类准确率,绘制不同危险因素集合下分类准确率曲线图观察分析危险因素的重要性。
曲线趋势分两种情况,第一种情况曲线为单驼峰,不存在危险因素的联合作用。峰值前所包含的危险因素均为有效的危险因素,与疾病结果正相关,对疾病结果的发生有增益效果。而峰值后的危险因素对疾病结果的发生不具备重要性,或者为冗余危险因素,如图2(a)所示。
第二种情况曲线为双驼峰或多驼峰,如图2(b)所示,第二个驼峰开始,各峰值处及其上升阶段包含的危险因素与前面危险因素可能有联合作用,进一步分析危险因素的联合作用。将分类准确率与上一级相比有提升的危险因素记为R+,使用分类准确率作为分析危险因素联合作用的指标,输入为RFS、实例集X和所有实例的分类结果C,输出具有联合作用的危险因素。具体分析步骤为:
首先将第一峰值前的危险因素记为R0,将第一峰值后属于R+的危险因素记为Rup,Rup即为需要进一步分析是否有联合作用的危险因素。依次取Rup中各危险因素,令其分别与图2(b)中其前一峰值到峰谷之间的每一个危险因素联合,分别计算在R0基础上加入此两联合危险因素和不加的分类准确率,若加入分类准确率提升,则表示此联合作用实际存在,此两危险因素联合可对疾病结果产生增益,否则不存在联合作用。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (10)
1.一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,包括:
S1、通过电子病历获取危险因素数据,构建二维矩阵数据集,并针对缺失数据采用统计插值法补齐;
S2、对经步骤S1处理得到的数据集采用模糊C均值聚类算法进行聚类,得到危险因素的划分类别;
S3、采用神经网络与ReliefF算法结合的混合模型分别分析各类危险因素类权重和类内权重;
S4、通过权重融合,得到各初始危险因素的全局权重;
S5、按照全局权值递减获得危险因素重要度递减的危险因素集合;
S6、采用逐级分类法分析危险因素集合中的危险因素的有效性。
2.根据权利要求1所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S1所述针对缺失数据采用统计插值法补齐,具体为:对于离散特征使用样本中出现频次最高的特征值将空缺值补齐,对于连续特征使用样本总体的平均值将空缺值补齐;当某危险因素缺失值占比超过总体样本的十分之一时,将该危险因素删除。
3.根据权利要求2所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S2采用DBI指标确定聚类的最佳类数。
4.根据权利要求2所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S3采用的神经网络为三层结构,第一层为嵌入层,将输入的危险因素映射为分布式特征向量;第二层为类权重层,对特征向量之间做Attention运算,提取关注的特征信息;第三层为分类层,利用提取的特征信息做分类预测。
5.根据权利要求4所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S3基于神经网络学习各类危险因素的权重;具体过程为:
A1、在每个危险因素类的head进行自注意力机制:
定义fe代表危险因素类特征的分布式向量表示,fe=es1,es2,...,esp,然后生成Query、Key、Value向量;es1,es2,...,esp表示聚类形成的p个危险因素类经过神经网络的嵌入层分别得到的p个分布式向量表示;
Q=Wq(es),Q为es通过Wq转换得到的query向量,es为所有危险因素类作为一个整体经过神经网络的嵌入层得到的分布式向量表示;
K=Wk(fe),K为fe通过Wk转换得到的key向量;
V=Wv(fe),V为fe通过Wv转换得到的value向量;
其中,Wq、Wk、Wv分别为训练过程学习到合适参数的linear神经网络层,linear神经网络层为权重层中的一个模块;
使用fe与es做Attention运算,使fe与es对齐,抽取危险因素类与疾病关联的关键信息,计算公式如下:
其中,headi表示第i个危险因素类的加权向量,上标中的T表示转置,dk为缩放因子;
A2、连接每个head,乘上权重矩阵得到最终预测结果z;
z=sigmoid(concat(head1,...,headp)W°)
其中,p表示危险因素类的个数,W°为linear神经网络层参数;
在最后一层分类层中,利用提取的类特征信息做分类预测,得到预测结果z;
A3、计算危险因素类的权重比例:
使用类特征向量预测分类结果后,由神经网络反向推导,通过下式得到全连接层中与headi关联的参数:
最终得到危险因素类i在分类过程中的权重比例表示为:
6.根据权利要求5所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S3使用ReliefF算法获取类内单独危险因素权重,具体的:通过从所有样本中随机取出一个样本,在与该样本相同疾病结果和各不同疾病结果的样本组中分别取出m个最近邻样本,计算每个危险因素的权重w并排序,w代表类内危险因素重要度,取值范围为[-1,1];危险因素r的重要度w(r)计算式为:
其中,m为参数,表示最近邻样本数;x为数据集中随机选择的一个样本实例,t表示抽取x的抽样次数,Hj是与x相同疾病结果分组中的第j个最近邻样本,class(x)代表样本x所在的疾病结果分组,Mj(c)表示与x不同疾病结果c分组中第j个最近邻样本,p(c)表示疾病结果为c的样本在总体样本中出现的概率,diff(r,x1,x2)表示样本x1和样本x2在危险因素r上的差。
8.根据权利要求7所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,步骤S6具体为:按照步骤S5所述危险因素集合中危险因素的顺序分别使用前1个危险因素r′1、前两个危险因素r′1,r′2、...、前k个危险因素r′1,r′2,r′3,...,r′k进行疾病结果分类,从而得到k个分类准确率,绘制分类准确率曲线图,观察得到危险因素的重要性。
9.根据权利要求8所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,当曲线为单驼峰时,不存在危险因素的联合作用;峰值前所包含的危险因素均为有效的危险因素,与疾病结果正相关,对疾病结果的发生有增益效果;而峰值后的危险因素对疾病结果的发生不具备重要性。
10.根据权利要求8所述的一种基于混合模型的疾病危险因素重要性分析方法,其特征在于,当曲线为双驼峰或多驼峰时,第二个驼峰开始,各峰值处及其上升阶段包含的危险因素与前面危险因素可能有联合作用,进一步分析危险因素的联合作用,将分类准确率与上一级相比有提升的危险因素记为R+,使用分类准确率作为分析危险因素联合作用的指标,具体分析过程为:
首先将第一峰值前的危险因素记为R0,将第一峰值后属于R+的危险因素记为Rup,Rup即为需要进一步分析是否有联合作用的危险因素;依次取Rup中各危险因素,令其分别与其前一峰值到峰谷之间的每一个危险因素联合,分别计算在R0基础上加入此两联合危险因素和不加的分类准确率,若加入分类准确率提升,则表示此联合作用实际存在,此两危险因素联合可对疾病结果产生增益,否则不存在联合作用。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110965479.2A CN113707317B (zh) | 2021-08-23 | 2021-08-23 | 一种基于混合模型的疾病危险因素重要性分析方法 |
ZA2022/02847A ZA202202847B (en) | 2021-08-23 | 2022-03-09 | Method for analyzing importance of disease risk factors based on mixed model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110965479.2A CN113707317B (zh) | 2021-08-23 | 2021-08-23 | 一种基于混合模型的疾病危险因素重要性分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113707317A true CN113707317A (zh) | 2021-11-26 |
CN113707317B CN113707317B (zh) | 2023-04-07 |
Family
ID=78653864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110965479.2A Expired - Fee Related CN113707317B (zh) | 2021-08-23 | 2021-08-23 | 一种基于混合模型的疾病危险因素重要性分析方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113707317B (zh) |
ZA (1) | ZA202202847B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115378929A (zh) * | 2022-10-26 | 2022-11-22 | 杭州华橙软件技术有限公司 | 多方案执行冲突的解决方法、系统、设备及存储介质 |
CN116738320A (zh) * | 2023-06-30 | 2023-09-12 | 成都市双流区妇幼保健院 | 一种医疗保健大数据分析方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1814055A2 (en) * | 2006-01-31 | 2007-08-01 | Deutsche Telekom AG | Improved method and system for detecting malicious behavioral patterns in a computer, using machine learning |
CN109961851A (zh) * | 2019-02-25 | 2019-07-02 | 南京理工大学 | 一种基于改进k均值聚类的疾病危险因素提取方法 |
CN110569883A (zh) * | 2019-08-16 | 2019-12-13 | 淮阴工学院 | 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法 |
CN111160635A (zh) * | 2019-12-19 | 2020-05-15 | 金陵科技学院 | 一种基于ReliefF算法的区域物流需求影响因素预测方法 |
-
2021
- 2021-08-23 CN CN202110965479.2A patent/CN113707317B/zh not_active Expired - Fee Related
-
2022
- 2022-03-09 ZA ZA2022/02847A patent/ZA202202847B/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1814055A2 (en) * | 2006-01-31 | 2007-08-01 | Deutsche Telekom AG | Improved method and system for detecting malicious behavioral patterns in a computer, using machine learning |
CN109961851A (zh) * | 2019-02-25 | 2019-07-02 | 南京理工大学 | 一种基于改进k均值聚类的疾病危险因素提取方法 |
CN110569883A (zh) * | 2019-08-16 | 2019-12-13 | 淮阴工学院 | 基于Kohonen网络聚类和ReliefF特征选择的空气质量指数预测方法 |
CN111160635A (zh) * | 2019-12-19 | 2020-05-15 | 金陵科技学院 | 一种基于ReliefF算法的区域物流需求影响因素预测方法 |
Non-Patent Citations (2)
Title |
---|
朱远枫等: "基于改进的ReliefF 算法的神经网络集成分类模型", 《电脑知识与技术》 * |
李家辉等: "基于特征排序特征联合算法的疾病危险因素分析", 《计算机应用研究》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115378929A (zh) * | 2022-10-26 | 2022-11-22 | 杭州华橙软件技术有限公司 | 多方案执行冲突的解决方法、系统、设备及存储介质 |
CN116738320A (zh) * | 2023-06-30 | 2023-09-12 | 成都市双流区妇幼保健院 | 一种医疗保健大数据分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113707317B (zh) | 2023-04-07 |
ZA202202847B (en) | 2022-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nanni et al. | A classifier ensemble approach for the missing feature problem | |
CN113707317B (zh) | 一种基于混合模型的疾病危险因素重要性分析方法 | |
CN113113130A (zh) | 一种肿瘤个体化诊疗方案推荐方法 | |
CN110400610B (zh) | 基于多通道随机森林的小样本临床数据分类方法及系统 | |
CN109033990B (zh) | 基于类内类间距离的cnn模型心拍分类方法 | |
Asif et al. | An ensemble machine learning method for the prediction of heart disease | |
CN115985503B (zh) | 基于集成学习的癌症预测系统 | |
CN114399634B (zh) | 基于弱监督学习的三维图像分类方法、系统、设备及介质 | |
Adi et al. | Stroke risk prediction model using machine learning | |
CN118312816A (zh) | 基于成员选择的簇加权聚类集成医学数据处理方法及系统 | |
US11915833B2 (en) | Integrated system and method for personalized stratification and prediction of neurodegenerative disease | |
CN109740669B (zh) | 一种基于深度特征聚合的乳腺癌病理图像分类方法 | |
Adigun et al. | Classification of Diabetes Types using Machine Learning | |
Gulhane et al. | Fusion of Various Machine Learning Algorithms for Early Heart Attack Prediction | |
CN112084935B (zh) | 一种基于扩充高质量脑电样本的情绪识别方法 | |
CN116228759B (zh) | 肾细胞癌类型的计算机辅助诊断系统及设备 | |
Duman et al. | Ensemble the recent architectures of deep convolutional networks for skin diseases diagnosis | |
CN115036034B (zh) | 一种基于患者表征图的相似患者识别方法及系统 | |
CN110633368A (zh) | 早期结直肠癌非结构化数据的深度学习分类方法 | |
AU2021102593A4 (en) | A Method for Detection of a Disease | |
Kumar et al. | Estimation of inter-centroid distance quality in data clustering problem using hybridized K-means algorithm | |
Hakim | Performance Evaluation of Machine Learning Techniques for Early Prediction of Brain Strokes | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
Rao et al. | Detection and Analysis of Cardiovascular Diseases using Machine Learning Techniques | |
CN118039157B (zh) | 一种基于图神经网络的ii型糖尿病并发症协同预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20230407 |
|
CF01 | Termination of patent right due to non-payment of annual fee |