CN111489827A - 一种基于关联决策树的甲状腺疾病预测建模方法 - Google Patents
一种基于关联决策树的甲状腺疾病预测建模方法 Download PDFInfo
- Publication number
- CN111489827A CN111489827A CN202010277951.9A CN202010277951A CN111489827A CN 111489827 A CN111489827 A CN 111489827A CN 202010277951 A CN202010277951 A CN 202010277951A CN 111489827 A CN111489827 A CN 111489827A
- Authority
- CN
- China
- Prior art keywords
- rule
- decision tree
- attribute
- item
- yes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 title claims abstract description 30
- 208000024799 Thyroid disease Diseases 0.000 title claims abstract description 16
- 208000021510 thyroid gland disease Diseases 0.000 title claims abstract description 14
- 238000003745 diagnosis Methods 0.000 claims abstract description 12
- 208000007433 Lymphatic Metastasis Diseases 0.000 claims description 42
- 238000013507 mapping Methods 0.000 claims description 8
- 238000004393 prognosis Methods 0.000 claims description 8
- 208000024891 symptom Diseases 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000007170 pathology Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims 1
- 201000010099 disease Diseases 0.000 abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 4
- 230000008569 process Effects 0.000 abstract description 4
- 239000002131 composite material Substances 0.000 abstract description 3
- 210000001165 lymph node Anatomy 0.000 description 8
- 206010027476 Metastases Diseases 0.000 description 6
- 230000009401 metastasis Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 4
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000002224 dissection Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 208000030836 Hashimoto thyroiditis Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 230000004850 protein–protein interaction Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 210000001685 thyroid gland Anatomy 0.000 description 2
- 206010033701 Papillary thyroid cancer Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011249 preoperative chemoradiotherapy Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 208000030045 thyroid gland papillary carcinoma Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于关联决策树的甲状腺疾病预测建模方法,提出一种关联决策树MsaDtd算法,充分利用复合特征,将原始特征空间转化为更大的疾病诊断特征空间的算法来预测PTMC患者的LNM,并且引入模糊逻辑来处理连续属性,以避免产生大量频繁项的成本,这提高了模型的鲁棒性和泛化能力。通过临床医生可以利用预测模型提供的信息,在整个治疗过程中采用特定的治疗方案,对于易发生LNM的患者,临床医生应采取针对性的干预措施,降低癌症复发的风险提供帮助。
Description
技术领域
本发明涉及计算机建模技术领域,尤其涉及一种基于关联决策树的甲状腺疾病预测建模方法。
背景技术
人工智能(AI)最近在自动驾驶、大数据、模式识别、智能搜索、图像理解、自动编程、机器人和人机游戏等应用领域取得了巨大进展,这些应用也在某种程度上激发了人工智能技术的发展和创新。近年来,随着医疗数据的日益丰富和大数据分析方法的快速发展,人工智能在医疗领域逐渐得到成功应用,人工智能利用复杂的算法从大量医疗数据中学习复杂的模式,人工智能的学习和自我纠错能力有助于减少人类临床实践中不可避免的诊断错误。
近年来,医疗保健行业通过利用来自医疗保健数据所有来源的信息,例如电子健康记录和个人健康记录,产生了大量的数字数据,同时,机器学习已足够完善,可以帮助临床研究人员挖掘医疗数据中的复杂预测模式,这些都为机器学习技术预测疾病提供了依据。例如研究人员在糖尿病视网膜病变检测,院内死亡率预测和医学图像分析等医学领域取得了令人瞩目的进展.但是,大多数机器学习方法,尤其是深度学习,仍然无法解释它们如何解决这些问题,并指出哪些信息,如测量指标,用药和病人特征等,对于预后更为重要。为解决甲状腺疾病的诊断问题,研究者做了大量的研究。但对PTMC患者LNM预后的研究较少,尤其是LNM的预后是预防癌症复发的关键,因此,数据的处理和建模尤为关键。
发明内容
针对上述缺陷或不足,本发明的目的在于提供一种基于关联决策树的甲状腺疾病预测建模方法。
为达到以上目的,本发明的技术方案为:
一种基于关联决策树的甲状腺疾病预测建模方法,包括:
1)、获取训练样本PTMC患者的医疗信息,所述医疗信息包括患者的属性、症状以及诊断结果,并且将症状映射到独立变量u=(u1;u2;...;ud),和诊断结果映射到因变量y∈{0,1};
2)、通过基于模糊逻辑的MS-Apriori算法,得到与诊断结果相关性高的频繁项集,并且将频繁项集转换为规则,得到规则集;
3)、根据所得到的规则集,建立决策树模型;
4)、将患者的医疗信息所映射的变量输入到决策树模型中,输出LNM的预后结果。
所述通过基于模糊逻辑的MS-Apriori算法,得到与诊断结果相关性高的频繁项集具体包括:
2.1、通过隶属函数δm(x)构造模糊集,将患者的每个属性映射到多个子区间;
2.2、将整个医疗信息中的项集定义为I,项目类型集为V,得到:
I={a1,a2,...,am}=IA1∪IA2∪...∪IAd,m=n*d
V={vi},i=1,2,...,u
2.3、计算每个项目的最小支持度其中,vi表示一个项,对应于临床病理数据中的一种值类型,LMyes表示患者发生淋巴结转移,N为患者总数。即项目vi与项LMyes出现在同一频繁项集的概率为vi的最小支持度。
2.4、将频繁项集定义为c={a1,a2,...ak},1≤k≤d;频繁项集c的MIS定义为MIS(c)=min(MIS(a1),MIS(a2)...MIS(ak)),并且将频繁项cj转化为规则Rulej。
所述步骤2.4中,将频繁项cj转化为规则Rulej的具体公式为:
cj:a1∪a2∪...∪LMyes/LMno
Rulej->LMyes,Rulej:a1∪a2∪...∪ak-1。
通过余弦测度对规则进行排序,并通过定义一个阈值来删除干扰规则,得到规则集。
步骤3中根据所得到的规则集,建立决策树模型具体包括:
5.1、定义规则集为R,将规则集R中的每个规则转换为决策树的候选属性,生成属性集A;
5.2、使用信息增益作为决策准则:
当一个样本包含规则rulei所需的所有项,则该规则被应用于该样本,并且将规则rulei视为新属性,属性值为LMyes/LMno;
若规则为正元组规则,则应用规则后rulei值为LMyes;若规则为负元组规则,应用规则后rulei值为LMno;
否则,不能应用该规则,其值为No,数据集D记为S={(xi,yi)},i=(1,2,...,n),yi∈{0,1},数据集的标签为LNM和正常,分别表示为S1和S0;S的信息熵的定义为:
其中pi表示xi属于S中类Si的概率,节点N的属性r∈A的信息增益定义为:
5.3、选择信息增益最大的属性作为节点N的分割属性,通过分析样本与MS-Apriori挖掘的规则之间的关系,递归地将样本划分为子集,当所有的子集都属于一个类,或者没有样本或属性可用于划分时,完成决策树模型。
与现有技术比较,本发明的有益效果为:
本发明提供了一种基于关联决策树的甲状腺疾病预测建模方法,提出一种关联决策树MsaDtd算法,充分利用复合特征,将原始特征空间转化为更大的疾病诊断特征空间的算法来预测PTMC患者的LNM,并且引入模糊逻辑来处理连续属性,以避免产生大量频繁项的成本,这提高了模型的鲁棒性和泛化能力。通过临床医生可以利用预测模型提供的信息,在整个治疗过程中采用特定的治疗方案,对于易发生LNM的患者,临床医生应采取针对性的干预措施,降低癌症复发的风险提供帮助。
附图说明
图1是本发明基于关联决策树的甲状腺疾病预测建模方法流程图;
图2是本发明与现有方法在中央区淋巴结转移预测准确性对比图;
图3是本发明与现有方法在中央区淋巴结转移预测稳定性对比图;
图4是本发明与现有方法在侧颈淋巴结转移预测准确性对比图;
图5是本发明与现有方法在侧颈淋巴结转移预测稳定性对比图。
具体实施方式
下面将结合附图对本发明做详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
如图1所示,本发明提供了一种基于关联决策树的甲状腺疾病预测建模方法,包括:
1)、获取训练样本PTMC患者的医疗信息,所述医疗信息包括患者的属性、症状以及诊断结果,并且将症状映射到独立变量u=(u1;u2;...;ud),和诊断结果映射到因变量y∈{0,1};
本发明中,通过将PTMC(甲状腺乳头微小癌)患者的LNM(淋巴结转移)预后映射到一个二元分类问题,患者的症状被映射到独立变量u=(u1;u2;...;ud)同时诊断结果被映射到因变量y∈{0,1}。
2)、通过基于模糊逻辑的MS-Apriori算法,得到与诊断结果相关性高的频繁项集,并且将频繁项集转换为规则,得到规则集;
在使用决策树预测疾病之前,需要分析了患者的特征,利用多个最小支持关联规则找出导致LNM的最相关规则;
MS-Apriori规则挖掘具体包括:
2.1、通过隶属函数δm(x)构造模糊集,将患者的每个属性映射到多个子区间;
对于属性值,特别是连续属性值,示例性的,如年龄,MTD(最大肿瘤直径)和CN(中央淋巴结数目),本文引入模糊逻辑,通过隶属函数将属性值映射到不同的子区间。以年龄为例,年龄的空间为U,利用隶属函数构造模糊集,年龄值被映射到e个不同的子区间,年龄的隶属度函数定义为:
2.2、将整个医疗信息中的项集定义为I,项目类型集为V,得到:
I={a1,a2,...,am}=IA1∪IA2∪...∪IAd,m=n*d
V={vi},i=1,2,...,u
其中,m为整个数据库中项数,u为项目类型的数量和d为特征维数;IA={ai}(i=1,2,...,n)表示属性下的模糊项集;指定同一属性下的不同属性值不属于相同的频繁项集,所述频繁项集中的项满足ax∈IAi,ay∈IAj,i=j;
2.3、计算每个项目的最小支持度其中,vi表示一个项,对应于临床病理数据中的一种值类型,LMyes表示患者发生淋巴结转移,N为患者总数。即项目vi与项LMyes出现在同一频繁项集的概率为vi的最小支持度。例如,有两个样本P和Q,年龄的值是20和30。P、Q的子区间为ω3和ω4,item(ω3)和item(ω4)将被限制出现在相同的频繁项集中,同时由于属性相同,
2.4、将频繁项集定义为c={a1,a2,...ak},1≤k≤d;频繁项集c的MIS定义为MIS(c)=min(MIS(a1),MIS(a2)...MIS(ak)),并且将频繁项cj转化为规则Rulej。
将频繁项cj转化为规则Rulej的具体公式为:
cj:a1∪a2∪...∪LMyes/LMno
Rulej->LMyes,Rulej:a1∪a2∪...∪ak-1。
2.5、通过余弦测度对规则进行排序,并通过定义一个阈值来删除干扰规则,得到规则集。
如计算包括项LMyes的正元组规则的余弦度量:
P(Rulej∪LMyes)表示了Rulej和LMyes属于相同频繁项的概率,P(Rulej)表示Rulej的概率,P(LMyes)表示LMyes的概率,包含项LMyes的负元组的余弦相似度如下所示:
3)、根据所得到的规则集,建立决策树模型;
决策树(DT)是一种基于树结构进行决策的分类器,决策树效率高,且学习的规则简单且可解释,是一种广泛使用的机器学习算法。当得到排序规则集R={rule|cosine(rule)≥threshold},规则集通过挖掘临床病理数据中的关联规则,发现哪些数据与LMN诊断密切相关,接下来,建立决策树模型,用于预测LNM。
建立决策树模型具体包括:
5.1、定义规则集为R,将规则集R中的每个规则转换为决策树的候选属性,生成属性集A;
5.2、使用信息增益作为决策准则:
当一个样本包含规则rulei所需的所有项,则该规则被应用于该样本,并且将规则rulei视为新属性,属性值为LMyes/LMno;
若规则为正元组规则,则应用规则后rulei值为LMyes;若规则为负元组规则,应用规则后rulei值为LMno;
否则,不能应用该规则,其值为No,数据集D记为S={(xi,yi)},i=(1,2,...,n),yi∈{0,1},数据集的标签为LNM和正常,分别表示为S1和S0;S的信息熵的定义为:
其中pi表示xi属于S中类Si的概率,节点N的属性r∈A的信息增益定义为:
5.3、选择信息增益最大的属性作为节点N的分割属性,通过分析样本与MS-Apriori挖掘的规则之间的关系,递归地将样本划分为子集,当所有的子集都属于一个类,或者没有样本或属性可用于划分时,完成决策树模型。
4)、将患者的医疗信息所映射的变量输入到决策树模型中,输出LNM的预后结果。
将医疗数据D={(ui,yi)},i=(1,2,...,n),yi∈{0,1},其包含特征向量u=(u1;u2;...;ud)和诊断标签y∈{0,1},输入MsaDtd模型,该模型分析样本之间的隶属关系和包含正元组和负元组的关联规则,然后通过决策树输出LNM的预后。
数据分析结果:
本研究在医院甲状腺外科进行,共包含2011-2015年间,行甲状腺切除术伴颈部剥离的PTMC患者5425例,淋巴结转移(LNM)分两种:中央区淋巴结转移(CLNM)和侧颈淋巴结转移(LLNM),根据以下标准筛选患者资料:
1、完整的病史:2、无颈部手术史或术前放疗史;3、曾用颈部剥离术治疗;4、术后病理检查为PTMC;5、没有远处转移。
最终,在5254例患者中,符合标准的有4855例,其中323例曾行侧颈清扫术.
表1特征描述
表2中央区淋巴结转移统计表
表3侧颈淋巴结转移统计表
本发明的特征包括性别、年龄、包膜侵犯(CI)、最大肿瘤直径(MTD)、多灶性、桥本甲状腺炎(HT)、中央淋巴结数(CN),这些特征如表1所示。其中有三个连续值的特征,包括年龄、CI和CN。对于LLNM,增加了两个额外的特征:CLNM和侧方淋巴结数(LN)。
为了深入分析数据,CLNM患者数据的统计信息如表2和表4所示。患者的年龄范围从12岁到82岁,平均年龄为43.15±9.73.男性患者887例,女性患者3968例,比例近似为1:4.47。肿瘤平均直径为0.58±0.24厘米。有3255例患者局限于甲状腺包膜,2568例为多灶性病变.所有患者中,有1778例易发生淋巴结转移,转移率为36.62%.323例侧颈淋巴结清扫术,其中243例为颈淋巴结清扫术。转移率为75.23%。类似地,LLNM患者的统计数据见表3和表5。
表4中央区淋巴结转移统计表
表5侧颈淋巴结转移统计表
数据预处理:
在电子病历中,难免会出现录入错误,进而造成数据分析错误,因此,有必要与临床医生沟通,找到每一项记录的标准值范围,并采取适当的方法处理异常值和缺失值,使用箱形图来分析数据,通过IRQ来识别噪声数据,并设置其值为null对于缺失值的处理,采用均值/模式归集(mean/mode imputation,MMI);对于连续属性,采用均值归集(mean);对于离散属性,采用模式归集(mode)。CLNM数据集中诊断标签为No的样本数量(3077条记录)大大超过为Yes的样本数量(1778条记录)。当用它来训练一个预测模型时,会产生偏差,因此使用平衡技术KNN-NearMiss解决数据集倾斜问题。KNN-NearMiss是一种基于K近邻的有监督欠采样技术,包含4中子类型:KNN-NearMiss-1,KNN-NearMiss-2,KNN-NearMiss-3,和Most-Distant。本发明使用KNN-NearMiss-2处理CLNM数据集中的倾斜数据。对于LLNM数据集,由于样本数量较少,因此采用SMOTE过采样技术。
MsaDtd预测性能:
CLNM数据集上与传统算法的比较
本发明将提出的预测器应用于医院的临床病理数据。数据集由1778个正样本和3077个负样本组成。使用KNN-NearMiss-2处理倾斜数据。为展示MsaDtd的性能,将其与一系列基线模型进行了比较,包括决策树DT,支持向量机(SVM),逻辑回归(LR),伯努利贝叶斯(BNB)。实验中使用10折交叉验证,如图2所示,展示了不同算法在CLNM数据集上的实验结果。MsaDtd模型实验结果的准确率Accuracy,精确率Precision,召回率Recall,F1值和AUC值分别为76.09%,72.16%,63.63%,72.63%和82.06%.实验中最高准确率76.09%由MsaDtd模型获得。其他基线模型准确率分别为73.62%,71.03%,70.58%和59.05%。本发明提出的关联决策树比传统的决策树和其他分类器具有更高的准确率。其中,MsaDtd相对传统决策树DT有2.47%的准确率提升。同时,MsaDtd与基线模型相比,具有最高的预测精确率(即医学敏感性)。
由图3所示,图3为MsaDtd与其他基线模型的ROC曲线,可以看到,MsaDtd的ROC曲线下面积显著高于其他模型。与在基线模型中ROC曲线下面积最大的LR相比,MsaDtd有6.69%的提升。
LLNM数据集上与传统算法的比较
如图4所示,在LLNM数据集上比较了MsaDtd和传统机器学习方法的性能MsaDtd模型实验结果的准确率Accuracy,精确率Precision,召回率Recall,F1值和AUC值分别为87.21%,82.75%,85.86%,86.85%和88.37%。本发明的方法在各个方面都优于传统决策树DT。其准确率,精确率,召回率,F1值和AUC值相对DT分别增加了3.51%,4.21%,1.91%,3.09%和5.17%。MsaDtd在所有比较算法中取得了最高的准确率,精确率,召回率和AUC值。如图3所示,MsaDtd的ROC区域为88.37%,是对比实验中最高值。以上结果表明,本发明的预测方法具有较好的预测效果。
在所有数据集上与DeepPPI-Con模型的比较
近年来几乎没有人提出PTMC患者淋巴结转移(LNM)预后的专门模型,因此,将本发明的方法与分类模型DeepPPI-Con进行了比较,其在蛋白质相互作用(Protein-ProteinInteractions)任务中效果极佳,表6中的实验结果表明本发明出的模型显著优于DeepPPI。在CLNM数据集上,MsaDtd的准确率,精确率,F1值和AUC值分别高于DeepPPI达10.43%,8.38%,4.35%和7.48%,同时在LLNM数据集上相对DeepPPI提升为分别为5.38%,6.53%,3.8%和2.06%。
表6 CLNM与LLNM数据集上MsaDtd与DeepPPI的性能对比
以上结果证明了MsaDtd模型的有效性和可行性。MsaDtd模型在准确率、精确率和ROC方面表现最好。
本发明提出一种关联决策树MsaDtd算法,通过建立预测PTMC患者LNM的预测因子,利用MS-Apriori改进决策树,应用于甲状腺疾病的预后。MMI和IRQ分别用来处理缺失值和噪声。KNN-NearMiss-2用于规避数据不平衡问题,以消除模型训练中的偏差。引入模糊逻辑处理连续属性,防止产生过多的频繁项。利用MS-Apriori算法挖掘出的规则进行排序和过滤,避免产生干扰,提高预测准确率。该算法通过规则的应用,获得新的特征来转换特征空间,充分利用复合特征,这提高了模型的鲁棒性和泛化能力。通过分析样本与规则之间的隶属关系,建立决策树,预测甲状腺疾病,从而进行有效预测。临床医生可以利用预测器提供的信息,在整个治疗过程中采用特定的治疗方案。对于易发生LNM的患者,临床医生应采取针对性的干预措施,降低癌症复发的风险。实验结果表明,MsaDtd在判断PTMC患者LNM预后方面优于其他机器学习方法。
对于本领域技术人员而言,显然能了解到上述具体事实例只是本发明的优选方案,因此本领域的技术人员对本发明中的某些部分所可能作出的改进、变动,体现的仍是本发明的原理,实现的仍是本发明的目的,均属于本发明所保护的范围。
Claims (5)
1.一种基于关联决策树的甲状腺疾病预测建模方法,其特征在于,包括:
1)、获取训练样本PTMC患者的医疗信息,所述医疗信息包括患者的属性、症状以及诊断结果,并且将症状映射到独立变量u=(u1;u2;...;ud),和诊断结果映射到因变量y∈{0,1};
2)、通过基于模糊逻辑的MS-Apriori算法,得到与诊断结果相关性高的频繁项集,并且将频繁项集转换为规则,得到规则集;
3)、根据所得到的规则集,建立决策树模型;
4)、将患者的医疗信息所映射的变量输入到决策树模型中,输出LNM的预后结果。
2.根据权利要求1所述的基于关联决策树的甲状腺疾病预测建模方法,其特征在于,所述通过基于模糊逻辑的MS-Apriori算法,得到与诊断结果相关性高的频繁项集具体包括:
2.1、通过隶属函数δm(x)构造模糊集,将患者的每个属性映射到多个子区间;
2.2、将整个医疗信息中的项集定义为I,项目类型集为V,得到:
I={a1,a2,...,am}=IA1∪IA2∪...∪IAd,m=n*d
V={vi},i=1,2,...,u
其中,m为整个数据库中项数,u为项目类型的数量和d为特征维数;ai为属性值,IA={ai}(i=1,2,...,n)表示属性ai下的模糊项集;所述频繁项集中的项满足ax∈IAi,ay∈IAj,i=j;
2.3、计算每个项目的最小支持度其中,vi表示一个项,对应于临床病理数据中的一种值类型,LMyes表示患者发生淋巴结转移,N为患者总数;即项目vi与项LMyes出现在同一频繁项集的概率为vi的最小支持度;
2.4、将频繁项集定义为c={a1,a2,...ak},1≤k≤d;频繁项集c的MIS定义为MIS(c)=min(MIS(a1),MIS(a2)...MIS(ak)),并且将频繁项cj转化为规则Rulej。
3.根据权利要求2所述的基于关联决策树的甲状腺疾病预测建模方法,其特征在于,所述步骤2.4中,将频繁项cj转化为规则Rulej的具体公式为:
cj:a1∪a2∪...∪LMyes/LMno
Rulej->LMyes,Rulej:a1∪a2∪...∪ak-1。
4.根据权利要求2所述的基于关联决策树的甲状腺疾病预测建模方法,其特征在于,通过余弦测度对规则进行排序,并通过定义一个阈值来删除干扰规则,得到规则集。
5.根据权利要求2所述的基于关联决策树的甲状腺疾病预测建模方法,其特征在于,步骤3中根据所得到的规则集,建立决策树模型具体包括:
5.1、定义规则集为R,将规则集R中的每个规则转换为决策树的候选属性,生成属性集A;
5.2、使用信息增益作为决策准则:
当一个样本包含规则rulei所需的所有项,则该规则被应用于该样本,并且将规则rulei视为新属性,属性值为LMyes/LMno;
若规则为正元组规则,则应用规则后rulei值为LMyes;若规则为负元组规则,应用规则后rulei值为LMno;
否则,不能应用该规则,其值为No,数据集D记为S={(xi,yi)},i=(1,2,...,n),yi∈{0,1},数据集的标签为LNM和正常,分别表示为S1和S0;S的信息熵的定义为:
其中pi表示xi属于S中类Si的概率,节点N的属性r∈A的信息增益定义为:
5.3、选择信息增益最大的属性作为节点N的分割属性,通过分析样本与MS-Apriori挖掘的规则之间的关系,递归地将样本划分为子集,当所有的子集都属于一个类,或者没有样本或属性可用于划分时,完成决策树模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277951.9A CN111489827A (zh) | 2020-04-10 | 2020-04-10 | 一种基于关联决策树的甲状腺疾病预测建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010277951.9A CN111489827A (zh) | 2020-04-10 | 2020-04-10 | 一种基于关联决策树的甲状腺疾病预测建模方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111489827A true CN111489827A (zh) | 2020-08-04 |
Family
ID=71812639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010277951.9A Pending CN111489827A (zh) | 2020-04-10 | 2020-04-10 | 一种基于关联决策树的甲状腺疾病预测建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111489827A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002414A (zh) * | 2020-08-23 | 2020-11-27 | 吾征智能技术(北京)有限公司 | 一种基于胃液认知胃病的系统、设备、存储介质 |
CN112270994A (zh) * | 2020-10-14 | 2021-01-26 | 中国医学科学院阜外医院 | 一种风险预测模型的构建方法、设备、终端及存储介质 |
CN112435757A (zh) * | 2020-10-27 | 2021-03-02 | 深圳市利来山科技有限公司 | 一种急性肝炎的预测装置及系统 |
CN112786192A (zh) * | 2021-01-18 | 2021-05-11 | 吾征智能技术(北京)有限公司 | 一种手足口病智能认知系统、设备、存储介质 |
CN113488123A (zh) * | 2021-04-21 | 2021-10-08 | 广州医科大学附属第一医院 | 建立基于诊断时效的covid-19分诊系统的方法、该系统及分诊方法 |
CN114078576A (zh) * | 2021-11-19 | 2022-02-22 | 中国人民解放军总医院 | 临床辅助决策方法、装置、设备及介质 |
CN114121296A (zh) * | 2021-12-09 | 2022-03-01 | 上海森亿医疗科技有限公司 | 基于数据驱动的临床信息规则提取方法、存储介质及设备 |
CN116994704A (zh) * | 2023-09-22 | 2023-11-03 | 北斗云方(北京)健康科技有限公司 | 基于临床多模态数据深度表示学习的合理用药判别方法 |
CN117373688A (zh) * | 2023-11-07 | 2024-01-09 | 爱奥乐医疗器械(深圳)有限公司 | 慢性病数据处理方法、装置、电子设备和存储介质 |
-
2020
- 2020-04-10 CN CN202010277951.9A patent/CN111489827A/zh active Pending
Non-Patent Citations (1)
Title |
---|
YUWEI HAO等: "Prognosis of Thyroid Disease Using MS-Apriori Improved Decision Tree" * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002414B (zh) * | 2020-08-23 | 2024-01-26 | 吾征智能技术(北京)有限公司 | 一种基于胃液认知胃病的系统、设备、存储介质 |
CN112002414A (zh) * | 2020-08-23 | 2020-11-27 | 吾征智能技术(北京)有限公司 | 一种基于胃液认知胃病的系统、设备、存储介质 |
CN112270994A (zh) * | 2020-10-14 | 2021-01-26 | 中国医学科学院阜外医院 | 一种风险预测模型的构建方法、设备、终端及存储介质 |
CN112435757A (zh) * | 2020-10-27 | 2021-03-02 | 深圳市利来山科技有限公司 | 一种急性肝炎的预测装置及系统 |
CN112786192A (zh) * | 2021-01-18 | 2021-05-11 | 吾征智能技术(北京)有限公司 | 一种手足口病智能认知系统、设备、存储介质 |
CN113488123A (zh) * | 2021-04-21 | 2021-10-08 | 广州医科大学附属第一医院 | 建立基于诊断时效的covid-19分诊系统的方法、该系统及分诊方法 |
CN113488123B (zh) * | 2021-04-21 | 2023-07-18 | 广州医科大学附属第一医院 | 建立基于诊断时效的covid-19分诊系统的方法、该系统及分诊方法 |
CN114078576A (zh) * | 2021-11-19 | 2022-02-22 | 中国人民解放军总医院 | 临床辅助决策方法、装置、设备及介质 |
CN114121296A (zh) * | 2021-12-09 | 2022-03-01 | 上海森亿医疗科技有限公司 | 基于数据驱动的临床信息规则提取方法、存储介质及设备 |
CN114121296B (zh) * | 2021-12-09 | 2024-02-02 | 上海森亿医疗科技有限公司 | 基于数据驱动的临床信息规则提取方法、存储介质及设备 |
CN116994704B (zh) * | 2023-09-22 | 2023-12-15 | 北斗云方(北京)健康科技有限公司 | 基于临床多模态数据深度表示学习的合理用药判别方法 |
CN116994704A (zh) * | 2023-09-22 | 2023-11-03 | 北斗云方(北京)健康科技有限公司 | 基于临床多模态数据深度表示学习的合理用药判别方法 |
CN117373688A (zh) * | 2023-11-07 | 2024-01-09 | 爱奥乐医疗器械(深圳)有限公司 | 慢性病数据处理方法、装置、电子设备和存储介质 |
CN117373688B (zh) * | 2023-11-07 | 2024-06-04 | 爱奥乐医疗器械(深圳)有限公司 | 慢性病数据处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489827A (zh) | 一种基于关联决策树的甲状腺疾病预测建模方法 | |
Abdellatif et al. | An effective heart disease detection and severity level classification model using machine learning and hyperparameter optimization methods | |
Peker | A decision support system to improve medical diagnosis using a combination of k-medoids clustering based attribute weighting and SVM | |
Nguyen et al. | Classification of healthcare data using genetic fuzzy logic system and wavelets | |
Antony et al. | A comprehensive unsupervised framework for chronic kidney disease prediction | |
Khashei et al. | Diagnosing diabetes type II using a soft intelligent binary classification model | |
Lashari et al. | Application of data mining techniques for medical data classification: a review | |
Barati et al. | A survey on utilization of data mining approaches for dermatological (skin) diseases prediction | |
Goswami et al. | A feature cluster taxonomy based feature selection technique | |
Książek et al. | Development of novel ensemble model using stacking learning and evolutionary computation techniques for automated hepatocellular carcinoma detection | |
Driss et al. | A novel approach for classifying diabetes’ patients based on imputation and machine learning | |
Rahman et al. | Feature selection from colon cancer dataset for cancer classification using artificial neural network | |
Asif et al. | An ensemble machine learning method for the prediction of heart disease | |
Srivastava et al. | Computer aided diagnostic system based on SVM and K harmonic mean based attribute weighting method | |
Singh et al. | A hybrid parallel classification model for the diagnosis of chronic kidney disease | |
Sande et al. | Statistical Learning in Medical Research with Decision Threshold and Accuracy Evaluation. | |
Ragunthar et al. | Classification of gene expression data with optimized feature selection | |
Ayad et al. | Diabetes disease prediction using artificial intelligence | |
Kumar et al. | Estimation of inter-centroid distance quality in data clustering problem using hybridized K-means algorithm | |
Mung et al. | Ensemble learning method for enhancing healthcare classification | |
Salim et al. | Science and Business," | |
Abdulkader et al. | A comparison of five machine learning algorithms in the classification of diabetes dataset | |
Juliet et al. | An improved prediction model for type 2 diabetes mellitus disease using clustering and classification algorithms | |
Abdu-Aljabar et al. | LUNG CANCER RELAPSE PREDICTION USING PARALLEL XGBOOST: Bioinformation | |
Atmakuru et al. | Improved Filter-Based Feature Selection Using Correlation and Clustering Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200804 |