CN111489827A

CN111489827A - 一种基于关联决策树的甲状腺疾病预测建模方法

Info

Publication number: CN111489827A
Application number: CN202010277951.9A
Authority: CN
Inventors: 梁世宁; 左祥麟; 史振坤; 张一嘉; 左万利
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-04

Abstract

本发明公开了一种基于关联决策树的甲状腺疾病预测建模方法，提出一种关联决策树MsaDtd算法，充分利用复合特征，将原始特征空间转化为更大的疾病诊断特征空间的算法来预测PTMC患者的LNM，并且引入模糊逻辑来处理连续属性，以避免产生大量频繁项的成本，这提高了模型的鲁棒性和泛化能力。通过临床医生可以利用预测模型提供的信息，在整个治疗过程中采用特定的治疗方案，对于易发生LNM的患者，临床医生应采取针对性的干预措施，降低癌症复发的风险提供帮助。

Description

一种基于关联决策树的甲状腺疾病预测建模方法

技术领域

本发明涉及计算机建模技术领域，尤其涉及一种基于关联决策树的甲状腺疾病预测建模方法。

背景技术

人工智能(AI)最近在自动驾驶、大数据、模式识别、智能搜索、图像理解、自动编程、机器人和人机游戏等应用领域取得了巨大进展，这些应用也在某种程度上激发了人工智能技术的发展和创新。近年来，随着医疗数据的日益丰富和大数据分析方法的快速发展，人工智能在医疗领域逐渐得到成功应用，人工智能利用复杂的算法从大量医疗数据中学习复杂的模式，人工智能的学习和自我纠错能力有助于减少人类临床实践中不可避免的诊断错误。

近年来，医疗保健行业通过利用来自医疗保健数据所有来源的信息，例如电子健康记录和个人健康记录，产生了大量的数字数据，同时，机器学习已足够完善，可以帮助临床研究人员挖掘医疗数据中的复杂预测模式，这些都为机器学习技术预测疾病提供了依据。例如研究人员在糖尿病视网膜病变检测，院内死亡率预测和医学图像分析等医学领域取得了令人瞩目的进展.但是，大多数机器学习方法，尤其是深度学习，仍然无法解释它们如何解决这些问题，并指出哪些信息，如测量指标，用药和病人特征等，对于预后更为重要。为解决甲状腺疾病的诊断问题，研究者做了大量的研究。但对PTMC患者LNM预后的研究较少，尤其是LNM的预后是预防癌症复发的关键，因此，数据的处理和建模尤为关键。

发明内容

针对上述缺陷或不足，本发明的目的在于提供一种基于关联决策树的甲状腺疾病预测建模方法。

为达到以上目的，本发明的技术方案为：

一种基于关联决策树的甲状腺疾病预测建模方法，包括：

1)、获取训练样本PTMC患者的医疗信息，所述医疗信息包括患者的属性、症状以及诊断结果，并且将症状映射到独立变量u＝(u₁；u₂；...；u_d)，和诊断结果映射到因变量y∈{0,1}；

2)、通过基于模糊逻辑的MS-Apriori算法，得到与诊断结果相关性高的频繁项集，并且将频繁项集转换为规则，得到规则集；

3)、根据所得到的规则集，建立决策树模型；

4)、将患者的医疗信息所映射的变量输入到决策树模型中，输出LNM的预后结果。

所述通过基于模糊逻辑的MS-Apriori算法，得到与诊断结果相关性高的频繁项集具体包括：

2.1、通过隶属函数δ_m(x)构造模糊集，将患者的每个属性映射到多个子区间；

2.2、将整个医疗信息中的项集定义为I，项目类型集为V，得到：

I＝{a₁,a₂,...,a_m}＝IA₁∪IA₂∪...∪IA_d,m＝n*d

V＝{v_i},i＝1,2,...,u

其中，m为整个数据库中项数，u为项目类型的数量和d为特征维数；a_i为属性值，IA＝{a_i}(i＝1,2,...,n)表示属性下的模糊项集；所述频繁项集中的项满足

a_x∈IA_i,a_y∈IA_j,i＝j；

2.3、计算每个项目的最小支持度

其中，v_i表示一个项，对应于临床病理数据中的一种值类型，LM_yes表示患者发生淋巴结转移，N为患者总数。即项目v_i与项LM_yes出现在同一频繁项集的概率为v_i的最小支持度。

2.4、将频繁项集定义为c＝{a₁,a₂,...a_k},1≤k≤d；频繁项集c的MIS定义为MIS(c)＝min(MIS(a₁),MIS(a₂)...MIS(a_k))，并且将频繁项c_j转化为规则Rule_j。

所述步骤2.4中，将频繁项c_j转化为规则Rule_j的具体公式为：

c_j:a₁∪a₂∪...∪LM_yes/LM_no

Rule_j-＞LM_yes,Rule_j:a₁∪a₂∪...∪a_k-1。

通过余弦测度对规则进行排序，并通过定义一个阈值来删除干扰规则，得到规则集。

步骤3中根据所得到的规则集，建立决策树模型具体包括：

5.1、定义规则集为R，将规则集R中的每个规则转换为决策树的候选属性，生成属性集A；

5.2、使用信息增益作为决策准则：

当一个样本包含规则rule_i所需的所有项，则该规则被应用于该样本，并且将规则rule_i视为新属性，属性值为LM_yes/LM_no；

若规则为正元组规则，则应用规则后rule_i值为LM_yes；若规则为负元组规则，应用规则后rule_i值为LM_no；

否则，不能应用该规则，其值为No，数据集D记为S＝{(x_i,y_i)},i＝(1,2,...,n),y_i∈{0,1}，数据集的标签为LNM和正常，分别表示为S₁和S₀；S的信息熵的定义为：

其中p_i表示x_i属于S中类S_i的概率,节点N的属性r∈A的信息增益定义为：

5.3、选择信息增益最大的属性作为节点N的分割属性，通过分析样本与MS-Apriori挖掘的规则之间的关系，递归地将样本划分为子集，当所有的子集都属于一个类，或者没有样本或属性可用于划分时，完成决策树模型。

与现有技术比较，本发明的有益效果为：

本发明提供了一种基于关联决策树的甲状腺疾病预测建模方法，提出一种关联决策树MsaDtd算法，充分利用复合特征，将原始特征空间转化为更大的疾病诊断特征空间的算法来预测PTMC患者的LNM，并且引入模糊逻辑来处理连续属性，以避免产生大量频繁项的成本，这提高了模型的鲁棒性和泛化能力。通过临床医生可以利用预测模型提供的信息，在整个治疗过程中采用特定的治疗方案，对于易发生LNM的患者，临床医生应采取针对性的干预措施，降低癌症复发的风险提供帮助。

附图说明

图1是本发明基于关联决策树的甲状腺疾病预测建模方法流程图；

图2是本发明与现有方法在中央区淋巴结转移预测准确性对比图；

图3是本发明与现有方法在中央区淋巴结转移预测稳定性对比图；

图4是本发明与现有方法在侧颈淋巴结转移预测准确性对比图；

图5是本发明与现有方法在侧颈淋巴结转移预测稳定性对比图。

具体实施方式

下面将结合附图对本发明做详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，本发明提供了一种基于关联决策树的甲状腺疾病预测建模方法，包括：

本发明中，通过将PTMC(甲状腺乳头微小癌)患者的LNM(淋巴结转移)预后映射到一个二元分类问题，患者的症状被映射到独立变量u＝(u₁；u₂；...；u_d)同时诊断结果被映射到因变量y∈{0,1}。

在使用决策树预测疾病之前，需要分析了患者的特征，利用多个最小支持关联规则找出导致LNM的最相关规则；

MS-Apriori规则挖掘具体包括：

对于属性值，特别是连续属性值，示例性的，如年龄，MTD(最大肿瘤直径)和CN(中央淋巴结数目)，本文引入模糊逻辑，通过隶属函数将属性值映射到不同的子区间。以年龄为例，年龄的空间为U，利用隶属函数构造模糊集，年龄值被映射到e个不同的子区间，年龄的隶属度函数定义为：

I＝{a₁,a₂,...,a_m}＝IA₁∪IA₂∪...∪IA_d,m＝n*d

V＝{v_i},i＝1,2,...,u

其中，m为整个数据库中项数，u为项目类型的数量和d为特征维数；IA＝{a_i}(i＝1,2,...,n)表示属性下的模糊项集；指定同一属性下的不同属性值不属于相同的频繁项集，所述频繁项集中的项满足

a_x∈IA_i,a_y∈IA_j,i＝j；

2.3、计算每个项目的最小支持度

其中，v_i表示一个项，对应于临床病理数据中的一种值类型，LM_yes表示患者发生淋巴结转移，N为患者总数。即项目v_i与项LM_yes出现在同一频繁项集的概率为v_i的最小支持度。例如，有两个样本P和Q，年龄的值是20和30。P、Q的子区间为ω₃和ω₄，item(ω₃)和item(ω₄)将被限制出现在相同的频繁项集中，同时由于属性相同，

将频繁项c_j转化为规则Rule_j的具体公式为：

c_j:a₁∪a₂∪...∪LM_yes/LM_no

Rule_j-＞LM_yes,Rule_j:a₁∪a₂∪...∪a_k-1。

2.5、通过余弦测度对规则进行排序，并通过定义一个阈值来删除干扰规则，得到规则集。

如计算包括项LM_yes的正元组规则的余弦度量：

P(Rule_j∪LM_yes)表示了Rule_j和LM_yes属于相同频繁项的概率,P(Rule_j)表示Rule_j的概率，P(LM_yes)表示LM_yes的概率，包含项LM_yes的负元组的余弦相似度如下所示：

3)、根据所得到的规则集，建立决策树模型；

决策树(DT)是一种基于树结构进行决策的分类器，决策树效率高，且学习的规则简单且可解释，是一种广泛使用的机器学习算法。当得到排序规则集R＝{rule|cosine(rule)≥threshold}，规则集通过挖掘临床病理数据中的关联规则，发现哪些数据与LMN诊断密切相关，接下来，建立决策树模型，用于预测LNM。

建立决策树模型具体包括：

5.2、使用信息增益作为决策准则：

将医疗数据D＝{(u_i,y_i)},i＝(1,2,...,n),y_i∈{0,1}，其包含特征向量u＝(u₁；u₂；...；u_d)和诊断标签y∈{0,1}，输入MsaDtd模型，该模型分析样本之间的隶属关系和包含正元组和负元组的关联规则，然后通过决策树输出LNM的预后。

数据分析结果：

本研究在医院甲状腺外科进行，共包含2011-2015年间，行甲状腺切除术伴颈部剥离的PTMC患者5425例，淋巴结转移(LNM)分两种：中央区淋巴结转移(CLNM)和侧颈淋巴结转移(LLNM)，根据以下标准筛选患者资料：

1、完整的病史：2、无颈部手术史或术前放疗史；3、曾用颈部剥离术治疗；4、术后病理检查为PTMC；5、没有远处转移。

最终，在5254例患者中，符合标准的有4855例，其中323例曾行侧颈清扫术.

表1特征描述

表2中央区淋巴结转移统计表

表3侧颈淋巴结转移统计表

本发明的特征包括性别、年龄、包膜侵犯(CI)、最大肿瘤直径(MTD)、多灶性、桥本甲状腺炎(HT)、中央淋巴结数(CN)，这些特征如表1所示。其中有三个连续值的特征，包括年龄、CI和CN。对于LLNM，增加了两个额外的特征:CLNM和侧方淋巴结数(LN)。

为了深入分析数据，CLNM患者数据的统计信息如表2和表4所示。患者的年龄范围从12岁到82岁，平均年龄为43.15±9.73.男性患者887例，女性患者3968例，比例近似为1:4.47。肿瘤平均直径为0.58±0.24厘米。有3255例患者局限于甲状腺包膜，2568例为多灶性病变.所有患者中，有1778例易发生淋巴结转移，转移率为36.62％.323例侧颈淋巴结清扫术，其中243例为颈淋巴结清扫术。转移率为75.23％。类似地，LLNM患者的统计数据见表3和表5。

表4中央区淋巴结转移统计表

表5侧颈淋巴结转移统计表

数据预处理：

在电子病历中，难免会出现录入错误，进而造成数据分析错误，因此，有必要与临床医生沟通，找到每一项记录的标准值范围，并采取适当的方法处理异常值和缺失值，使用箱形图来分析数据，通过IRQ来识别噪声数据，并设置其值为null对于缺失值的处理，采用均值/模式归集(mean/mode imputation,MMI)；对于连续属性，采用均值归集(mean)；对于离散属性，采用模式归集(mode)。CLNM数据集中诊断标签为No的样本数量(3077条记录)大大超过为Yes的样本数量(1778条记录)。当用它来训练一个预测模型时，会产生偏差，因此使用平衡技术KNN-NearMiss解决数据集倾斜问题。KNN-NearMiss是一种基于K近邻的有监督欠采样技术，包含4中子类型：KNN-NearMiss-1，KNN-NearMiss-2，KNN-NearMiss-3，和Most-Distant。本发明使用KNN-NearMiss-2处理CLNM数据集中的倾斜数据。对于LLNM数据集，由于样本数量较少，因此采用SMOTE过采样技术。

MsaDtd预测性能：

CLNM数据集上与传统算法的比较

本发明将提出的预测器应用于医院的临床病理数据。数据集由1778个正样本和3077个负样本组成。使用KNN-NearMiss-2处理倾斜数据。为展示MsaDtd的性能，将其与一系列基线模型进行了比较，包括决策树DT，支持向量机(SVM)，逻辑回归(LR)，伯努利贝叶斯(BNB)。实验中使用10折交叉验证，如图2所示，展示了不同算法在CLNM数据集上的实验结果。MsaDtd模型实验结果的准确率Accuracy，精确率Precision,召回率Recall，F1值和AUC值分别为76.09％，72.16％，63.63％，72.63％和82.06％.实验中最高准确率76.09％由MsaDtd模型获得。其他基线模型准确率分别为73.62％，71.03％，70.58％和59.05％。本发明提出的关联决策树比传统的决策树和其他分类器具有更高的准确率。其中，MsaDtd相对传统决策树DT有2.47％的准确率提升。同时，MsaDtd与基线模型相比，具有最高的预测精确率(即医学敏感性)。

由图3所示，图3为MsaDtd与其他基线模型的ROC曲线，可以看到，MsaDtd的ROC曲线下面积显著高于其他模型。与在基线模型中ROC曲线下面积最大的LR相比，MsaDtd有6.69％的提升。

LLNM数据集上与传统算法的比较

如图4所示，在LLNM数据集上比较了MsaDtd和传统机器学习方法的性能MsaDtd模型实验结果的准确率Accuracy，精确率Precision，召回率Recall，F1值和AUC值分别为87.21％，82.75％，85.86％，86.85％和88.37％。本发明的方法在各个方面都优于传统决策树DT。其准确率，精确率，召回率，F1值和AUC值相对DT分别增加了3.51％，4.21％，1.91％，3.09％和5.17％。MsaDtd在所有比较算法中取得了最高的准确率，精确率，召回率和AUC值。如图3所示，MsaDtd的ROC区域为88.37％，是对比实验中最高值。以上结果表明，本发明的预测方法具有较好的预测效果。

在所有数据集上与DeepPPI-Con模型的比较

近年来几乎没有人提出PTMC患者淋巴结转移(LNM)预后的专门模型，因此，将本发明的方法与分类模型DeepPPI-Con进行了比较，其在蛋白质相互作用(Protein-ProteinInteractions)任务中效果极佳，表6中的实验结果表明本发明出的模型显著优于DeepPPI。在CLNM数据集上，MsaDtd的准确率，精确率，F1值和AUC值分别高于DeepPPI达10.43％，8.38％，4.35％和7.48％，同时在LLNM数据集上相对DeepPPI提升为分别为5.38％，6.53％，3.8％和2.06％。

表6 CLNM与LLNM数据集上MsaDtd与DeepPPI的性能对比

以上结果证明了MsaDtd模型的有效性和可行性。MsaDtd模型在准确率、精确率和ROC方面表现最好。

本发明提出一种关联决策树MsaDtd算法，通过建立预测PTMC患者LNM的预测因子，利用MS-Apriori改进决策树，应用于甲状腺疾病的预后。MMI和IRQ分别用来处理缺失值和噪声。KNN-NearMiss-2用于规避数据不平衡问题，以消除模型训练中的偏差。引入模糊逻辑处理连续属性，防止产生过多的频繁项。利用MS-Apriori算法挖掘出的规则进行排序和过滤，避免产生干扰，提高预测准确率。该算法通过规则的应用，获得新的特征来转换特征空间，充分利用复合特征，这提高了模型的鲁棒性和泛化能力。通过分析样本与规则之间的隶属关系，建立决策树，预测甲状腺疾病，从而进行有效预测。临床医生可以利用预测器提供的信息，在整个治疗过程中采用特定的治疗方案。对于易发生LNM的患者，临床医生应采取针对性的干预措施，降低癌症复发的风险。实验结果表明，MsaDtd在判断PTMC患者LNM预后方面优于其他机器学习方法。

对于本领域技术人员而言，显然能了解到上述具体事实例只是本发明的优选方案，因此本领域的技术人员对本发明中的某些部分所可能作出的改进、变动，体现的仍是本发明的原理，实现的仍是本发明的目的，均属于本发明所保护的范围。

Claims

1.一种基于关联决策树的甲状腺疾病预测建模方法，其特征在于，包括：

3)、根据所得到的规则集，建立决策树模型；

2.根据权利要求1所述的基于关联决策树的甲状腺疾病预测建模方法，其特征在于，所述通过基于模糊逻辑的MS-Apriori算法，得到与诊断结果相关性高的频繁项集具体包括：

I＝{a₁,a₂,...,a_m}＝IA₁∪IA₂∪...∪IA_d,m＝n*d

V＝{v_i},i＝1,2,...,u

其中，m为整个数据库中项数，u为项目类型的数量和d为特征维数；a_i为属性值，IA＝{a_i}(i＝1,2,...,n)表示属性a_i下的模糊项集；所述频繁项集中的项满足

a_x∈IA_i,a_y∈IA_j,i＝j；

2.3、计算每个项目的最小支持度

其中，v_i表示一个项，对应于临床病理数据中的一种值类型，LM_yes表示患者发生淋巴结转移，N为患者总数；即项目v_i与项LM_yes出现在同一频繁项集的概率为v_i的最小支持度；

3.根据权利要求2所述的基于关联决策树的甲状腺疾病预测建模方法，其特征在于，所述步骤2.4中，将频繁项c_j转化为规则Rule_j的具体公式为：

c_j:a₁∪a₂∪...∪LM_yes/LM_no

Rule_j-＞LM_yes,Rule_j:a₁∪a₂∪...∪a_k-1。

4.根据权利要求2所述的基于关联决策树的甲状腺疾病预测建模方法，其特征在于，通过余弦测度对规则进行排序，并通过定义一个阈值来删除干扰规则，得到规则集。

5.根据权利要求2所述的基于关联决策树的甲状腺疾病预测建模方法，其特征在于，步骤3中根据所得到的规则集，建立决策树模型具体包括：

5.2、使用信息增益作为决策准则：