CN108766559A

CN108766559A - 用于智能疾病筛查的临床决策支持方法及系统

Info

Publication number: CN108766559A
Application number: CN201810496358.6A
Authority: CN
Inventors: 丁帅; 杨善林; 胡世康
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-05-22
Filing date: 2018-05-22
Publication date: 2018-11-06
Anticipated expiration: 2038-05-22
Also published as: CN108766559B

Abstract

本发明提供一种用于智能疾病筛查的临床决策支持方法及系统，该疾病筛查模型能够提升疾病筛查的准确率，减小误分类代价。该方法包括：对检查报告进行后结构化处理，得到样本数据集；根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型；至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到疾病筛查模型，所述疾病筛查模型的输入为检查报告，输出为疾病分类结果，所述疾病分类结果用于支持临床决策。

Description

用于智能疾病筛查的临床决策支持方法及系统

技术领域

本发明涉及医疗技术领域，具体地，涉及一种用于智能疾病筛查的临床决策支持方法及系统。

背景技术

传统上对癌症(例如胃癌，乳腺癌等)的诊断和筛查依靠医生对病历以及检查报告的分析。而由于日趋沉重的工作压力、冗长的病历和检查报告，对医生的工作效率产生较大的影响，以及癌症的诊断筛查工作本身的难度和基层医生自身专业水平的限制，导致对癌症的筛查存在较高的误诊率和漏诊率。

随着近年来人工智能技术的进步，数据驱动的分析研究逐渐成为临床和生物学领域癌症相关研究的有力支持和补充，使得疾病的筛查逐渐趋向智能化。例如，相关技术中运用集成学习方法，分析了超过140万名糖尿病患者的数据，在检测视网膜病变(DR)的易感性方面具有很高的准确性，同时，解决了视网膜病筛查依从性低的问题。又例如，将癌症的合并症纳入到癌症的诊断和治疗研究中，考虑使用准确率、灵敏度和特异性作为模型性能的评估指标，但是，却忽略了癌症相关数据集不平衡导致的准确率等指标使用局限的情况。

通常情况下，使用机器学习方法建立的分类模型不可避免地存在泛化误差，并且分类阈值选取的不同，会带来灵敏度、特异性等不同方面的误差损失。这种误差损失在胃癌筛查问题中表现为误诊和漏诊，即错误地将无癌样本判断为有癌和错误地将有癌样本判断为无癌，前者会带来进一步的检查困难，后者则可能引发医疗事故。

临床上，误诊和漏诊所造成的代价损失是不均等的，但是，如何降低误分类代价，提高疾病筛查准确率，本领域技术人员未做进一步考虑。

发明内容

本发明实施例提供一种用于智能疾病筛查的临床决策支持方法及系统，该疾病筛查模型能够提升疾病筛查的准确率，减小误分类代价。

为了实现上述目的，本发明第一方面提供一种用于智能疾病筛查的临床决策支持方法，所述方法包括：

对检查报告进行后结构化处理，得到样本数据集；

根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型；

至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到所述疾病筛查模型。

可选地，所述至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到所述疾病筛查模型，包括：

设定一分类阈值，并将发生疾病概率大于所述分类阈值的确定为患病样本，将发生疾病概率小于所述分类阈值的确定为正常样本；

每设定一分类阈值后，根据如下公式计算在该分类阈值下的误分类代价l_cost：

l_cost＝α*FPR+β*(1-TPR)；

其中，α为误诊代价系数，β为漏诊代价系数；TPR＝TP/(TP+FN)为真正例率，TP为正确预测的患病样本数，FN为错误预测的患病样本数；FPR＝FP/(FP+TN)代表患病样本的误诊率，FP为错误预测的无疾病本数，TN为正确预测的无疾病本数；1-TPR代表患病样本的漏诊率；

选取使得误分类代价l_cost具有最小值的分类阈值作为所述疾病筛查模型的目标分类阈值。

对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成，并使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，得到所述疾病筛查模型。

可选地，所述根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型，包括：

将所述样本数据集按照预设比例划分为训练数据集和测试数据集；

从所述训练数据集中采样得到k份互有交叉的采样数据集，k为大于1的正整数，其中，具体的采样方式可以是有放回的采样，使得采样数据集大小和原数据集大小相同；

采用同一机器学习算法，分别在所述k份训练数据集上进行模型的训练和校验，得到k个同质分类模型。

可选地，所述对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成，包括：

确定所述多个同质分类模型的权重组合集合；

分别计算在所述权重组合集合中的每一权重组合下，集成模型的性能评估值；

将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合，并将在所述最优权重组合下的集成模型作为所述疾病筛查模型。

本发明第二方面还提供一种用于智能疾病筛查的临床决策支持系统，包括：

后结构化处理模块，用于对检查报告进行后结构化处理，得到样本数据集；

模型训练模块，用于根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型；

模型选定模块，用于至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到所述疾病筛查模型。

可选地，所述模型选定模块包括：

预设定子模块，用于设定一分类阈值，并将发生疾病概率大于所述分类阈值的确定为患病样本，将发生疾病概率小于所述分类阈值的确定为正常样本；

误分类代价计算子模块，用于在所述预设定模块每设定一分类阈值后，根据如下公式计算在该分类阈值下的误分类代价l_cost：

l_cost＝α*FPR+β*(1-TPR)；

模型选定子模块，用于选取使得误分类代价l_cost具有最小值的分类阈值作为所述疾病筛查模型的目标分类阈值。

可选地，所述模型选定模块包括：

加权集成子模块，用于对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成；

分类阈值选取子模块，用于使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，得到所述疾病筛查模型。

可选地，所述模型训练模块包括：

数据划分子模块，用于将所述样本数据集按照预设比例划分为训练数据集和测试数据集；

采样子模块，用于从所述训练数据集中采样得到k份互有交叉的采样数据集，k为大于1的正整数；

训练子模块，用于采用同一机器学习算法，分别在所述k份训练数据集上进行模型的训练和校验，得到k个同质分类模型。

可选地，所述加权集成子模块包括：

权重组合确定单元，用于确定所述多个同质分类模型的权重组合集合；

性能评估单元，用于分别计算在所述权重组合集合中的每一权重组合下，集成模型的性能评估值；

加权集成单元，用于将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合，并使用所述最优权重组合对所述多个同质分类模型进行加权集成。

采用上述技术方案，至少可以达到如下技术效果：

本发明在建立疾病筛查模型时，采用了一种最小误分类代价阈值选取方法(MCTSM，Minimum-Cost Threshold Set Method)，确保建立的疾病筛查模型具有最小的误分类代价。进一步可选地，本发明实施例还可以同时融合该最小误分类代价阈值选取方法(MCTSM)和一种最优赋权的加权集成方法(OWIA，Optimal Weighted IntegratedApproach)，确保加权平均集成的过程中所使用的权重组合是最优的，使模型性能得到最大提升的同时，具有最小的误分类代价，提高疾病筛查的准确率。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的一种用于智能疾病筛查的临床决策支持方法的流程示意图；

图2为本发明实施例提供的另一种用于智能疾病筛查的临床决策支持方法的流程示意图；

图3为本发明实施例提供的又一种用于智能疾病筛查的临床决策支持方法的流程示意图；

图4为本发明实施例提供的一种用于智能疾病筛查的临床决策支持系统的结构示意图；

图5为本发明实施例提供的另一种用于智能疾病筛查的临床决策支持系统的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明实施例提供一种用于智能疾病筛查的临床决策支持方法，如图1所示，该方法包括：

S101、对检查报告进行后结构化处理，得到样本数据集。

值得说明的是，本发明实施例提供的技术方案可以用于针对不同疾病构建筛查模型。例如，胃癌，乳腺癌，糖尿病等。

下面以胃癌举例说明，上述后结构化处理是指通过整合胃镜检查报告和病理检查报告，构造形如<胃镜检查数据，病理检查结果>的数据集，并对整合后的检查报告数据进行特征提取和报告的数值化表示，得到用于建模的样本数据集。

S102、根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型。

其中，同质分类模型是指由同种学习算法学习得到的分类模型。另外，构建模型使用的学习算法例如可以是支持向量机(SVM，Support Vector Machine)、多层感知机(MLP，Multi-layer Perceptron)、极限梯度提升(XGBoost)、神经网络等，本发明实施例对此不做限定。

S103、至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到疾病筛查模型。

其中，该疾病筛查模型的输入为检查报告，输出为疾病分类结果，该疾病分类结果用于支持临床决策。该疾病分类结果是基于模型的训练标签决定的。例如，对于步骤S101得到的样本数据集，若所有样本数据的训练标签(训练标签表示数据的真实分类)分为有癌和无癌两种，则上述疾病分类结果即是指有癌和无癌两种结果。根据实际需求，样本数据可以有多种分类，还可以有多层分类，本公开对此不做限定。

具体地，分类阈值用于将模型对测试样本的概率输出转化为二值的疾病判断，即将发生疾病概率大于该分类阈值的判断为患病样本，小于该分类阈值的判断为正常样本。

也就是说，分类阈值的设定直接影响着模型对样本的预测结果，因此也影响着误分类代价。本发明实施例提供的技术方案采用了一种最小误分类代价阈值选取方法(MCTSM，Minimum-Cost Threshold Set Method)，通过设定合理的分类阈值，确保建立的疾病筛查模型具有最小的误分类代价，进而提高模型对疾病的筛查准确率。

下面详细说明本发明实施例提供的最小误分类代价阈值选取方法MCTSM。

具体地，使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到所述疾病筛查模型，包括：

l_cost＝α*FPR+β*(1-TPR)；

选取使得误分类代价l_cost具有最小值的分类阈值作为所述疾病筛查模型的目标分类阈值。以胃癌为例，对于每设定的一个分类阈值，模型在测试样本上的输出都可以得到如下表所示的混淆矩阵：

假设α为误诊代价系数，β为漏诊代价系数，则误分类代价函数为：

l_cost＝α*FPR+β*(1-TPR)

其中，TP为正确预测的癌变样本数，FN为错误预测的癌变样本数，FP为错误预测的无癌样本数，TN为正确预测的无癌样本数；TPR＝TP/(TP+FN)为真正例率，1-TPR代表癌变样本的漏诊率；FPR＝FP/(FP+TN)，代表癌变样本的误诊率。

通过对误分类代价函数l_cost进行最小化，即可得到误分类代价最小的分类阈值。在临床实际中，由于病种、医疗资源等的不同，代价系数α、β的选取并不存在唯一的标准，因此可以根据实际情况预先进行设定。

下表给出了最小误分类代价阈值选取方法的伪代码描述。

其中，行1)-3)为参数初始化，4)-9)为移动阈值点，在给定阈值下将概率预测转化为二值的类别预测，10)-11)为更新FPR和TPR并计算代价损失，12)-15)为遍历并返回代价损失最小的分类阈值。

为验证本发明实施例所提出的最小误分类代价阈值选取方法的有效性，精确量化该方法对模型性能的提升，做了如下实验。

经过病理检查报告和胃镜检查报告的整合，得到15955份病例数据样本。整合后的样本数据包括检查日期、性别、年龄、胃镜检查所见、病理检查结论等字段。

对整合后的报告数据进行特征提取，得到3个类别57种特征如下：

(1)文本型特征，由依据胃镜检查所见提取得到的病症阳性描述的词或短语构成。

(2)病人基本信息特征，统一由于数据来源不同而产生的数据表示不一致的问题，包括“性别”、“年龄”特征。

(3)时间特征，检查日期在检查报告中是区间编码划分的字符串型数据，包括年月日，从中抽取“月”作为时间特征。

对报告数据进行数值化表示后，剔除异常数据，得到了8546份实验数据。我们称样本数量较少的癌变样本为正样本，未发生癌变样本为负样本，划分训练集与测试集后，其正负样本数据分布如下表所示：

如上表所示的正负样本数据分布，保证了在预先设定的误诊代价系数以及漏诊代价系数下，具有最小的误分类代价。

上述只是对本发明实施例提供的一种最小误分类代价阈值选取方法进行的说明，在具体实施时，本发明实施例还可以在建立筛查模型的过程中，对模型进行加权集成，以提高模型的预测性能。也就是说，如图2所示，上述步骤S103所述的至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到所述疾病筛查模型还可以包括：

S1031、对多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成。

S1032、使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，得到疾病筛查模型。

也就是说，本发明实施例可以同时融合该最小误分类代价阈值选取方法(MCTSM)和一种最优赋权的加权集成方法(OWIA，Optimal Weighted Integrated Approach)，确保加权平均集成的过程中所使用的权重组合是最优的，使模型性能得到最大提升的同时，具有最小的误分类代价，提高疾病筛查的准确率。

下面对最优赋权的加权集成方法OWIA进行说明。

首先，仍然以对胃癌进行筛查进行举例说明，在此种情况下，步骤S101中所述的检查报告包括病理检查报告以及胃镜检查报告。后结构化处理具体包括以下步骤：

(1)报告数据整合：将相同病人的胃镜检查报告和病理检查报告进行整合。临床上，病理检查结果被视为金标准，即当前公认的诊断疾病最可靠的标准方法，可正确区分“有病”或“无病”。因此，在对报告数据进行整合的过程中，以病理检查结果为准。

(2)检查报告的特征提取：从报告数据中，提取出具有代表性和区分度的数据项，如特定病症的阳性描述词或短语、报告时间、病人信息等。

(3)报告数据的数值化表示：按照特征项将报告数据转化为数值型数据的过程。

进一步地，上述根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型，包括：将所述样本数据集按照预设比例划分为训练数据集和测试数据集；从所述训练数据集中采样得到k份互有交叉的采样数据集，k为大于1的正整数；采用同一机器学习算法，分别在所述k份训练数据集上进行模型的训练和校验，得到k个同质分类模型。

示例地，将经过后结构化处理的报告数据按4:1的比例划分为训练数据集和测试数据集，对训练数据集进行自采样，得到k份互有交叉的采样数据集，具体地，可以采用有放回的采样方式，使得采样数据集大小和原数据集大小相同；选择一种机器学习算法，如逻辑回归、支持向量机等，分别在k份采样数据集上进行模型的训练和校验，得到k个同质分类模型，作为下一步模型集成所使用的个体分类模型。

可选地，所述对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成，包括：确定所述多个同质分类模型的权重组合集合；分别计算在所述权重组合集合中的每一权重组合下，集成模型的性能评估值；将所述集成模型的最优性能评估值对应的权重组合作为最优权重组合，并将在所述最优权重组合下的集成模型作为所述疾病筛查模型。

值得说明的是，在二分类问题中，ROC曲线下面积，即AUC被广泛用于评估模型性能的优劣，通过分类模型在测试集上的AUC值来平均模型的期望泛化性能。又由于智能胃癌筛查模型的任务是判断癌变是否发生，是典型的二分类问题，因此，针对胃癌的筛查，本发明的一种优选的实现方式是采用AUC作为评估模型泛化性能的指标。

另外，上述确定所述多个同质分类模型的权重组合集合可以包括：在预设的权重精度ε下遍历所有的权重组合，得到所有权重组合的集合为W_n,k，其中，所述权重组合集合包含组权重组合，其中n＝1/ε＝10^p，p为正整数。这样，集成模型F(x)的公式表达如以下第一公式：

其中，k为同质分类模型的个数，f_i表示第i个分类模型，w_i表示第i个分类模型的权重，wi∈(0,1)，且F(x)的输出为样本隶属于正类的概率，即判断为发生癌变的置信度；

进一步地，评价集成模型F(x)的性能可以采用如下第二公式：

其中，Test Data为测试数据集，Q(F(x))表示集成模型F(x)在测试数据集上AUC值。

下面表格给出了最优赋权的加权集成方法的伪代码描述：

如上表格中所示，行1)-2)为参数初始化，3)-5)为在给定的权重精度下遍历所有的权重组合，6)-7)给出集成模型性能评估函数并计算评估值，8)-11)找出使模型性能最优的权重组合，以返回最优权重组合对多个同质分类模型进行加权集成。

图3示出了采用本发明实施例提供的技术方案针对胃癌建立胃癌筛查模型的流程，如图3所示，构建针对胃癌的筛查模型包括对病例检查报告以及胃镜检查包括的后结构化处理，具体可以参照上述对后结构化处理的描述，此处不再赘述。进一步地，对处理后的检查报告进行数据采样，用于分类模型训练，得到k个同质分类模型。针对每一种加权权重组合，对加权集成模型进行性能评估，其中，性能评估具体可采用AUC值。基于性能评估确定最优权重组合，利用最优权重组合对模型进行赋权，并采用最小误分类代价阈值选取方法(MCTSM)选取分类阈值，以得到最终的集成模型。使模型性能得到最大提升的同时，具有最小的误分类代价，提高疾病筛查的准确率，并且达到了减轻医疗压力，提升癌症筛查工作效率的目的。

基于相同的发明构思，本发明实施例还提供一种用于智能疾病筛查的临床决策支持系统40，如图4所示，所述系统40包括：

后结构化处理模块401，用于对检查报告进行后结构化处理，得到样本数据集；

模型训练模块402，用于根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型；

模型选定模块403，用于至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到疾病筛查模型。其中，该疾病筛查模型的输入为检查报告，输出为疾病分类结果，该疾病分类结果用于支持临床决策。

可选地，所述模型选定模块403包括：

l_cost＝α*FPR+β*(1-TPR)；

可选地，所述模型选定模块403还包括：

可选地，所述模型训练模块402包括：

可选地，所述加权集成子模块包括：

本领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述系统采用了一种最小误分类代价阈值选取方法(MCTSM，Minimum-CostThreshold Set Method)，确保建立的疾病筛查模型具有最小的误分类代价。进一步可选地，该系统还可以同时融合该最小误分类代价阈值选取方法(MCTSM)和一种最优赋权的加权集成方法(OWIA，Optimal Weighted Integrated Approach)，确保加权平均集成的过程中所使用的权重组合是最优的，使模型性能得到最大提升的同时，具有最小的误分类代价，提高疾病筛查的准确率。

本发明实施例还提供另一种用于智能疾病筛查的临床决策支持系统50，如图5所示，所述系统50包括：

处理器(processor)51、通信接口(Communications Interface)52、存储器(memory)53和通信总线54；其中，所述处理器51、所述通信接口52和所述存储器53通过所述通信总线54完成相互间的通信。

处理器51可能是一个多核中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器53用于存放程序代码，所述程序代码包括计算机操作指令和网络流图。存储器53可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器53也可以是存储器阵列。存储器53还可能被分块，并且所述块可按一定的规则组合成虚拟卷。

所述通信接口52，用于实现这些装置之间的连接通信。

所述处理器51用于执行所述存储器53中的程序代码，以实现以下操作：

对检查报告进行后结构化处理，得到样本数据集；

至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到疾病筛查模型。

其中，该疾病筛查模型的输入为检查报告，输出为疾病分类结果，该疾病分类结果用于支持临床决策。

l_cost＝α*FPR+β*(1-TPR)；

从所述训练数据集中采样得到k份互有交叉的采样数据集，k为大于1的正整数；

确定所述多个同质分类模型的权重组合集合；

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所发明的内容。

Claims

1.一种用于智能疾病筛查的临床决策支持方法，其特征在于，所述方法包括：

对检查报告进行后结构化处理，得到样本数据集；

至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到疾病筛查模型，所述疾病筛查模型的输入为检查报告，输出为疾病分类结果，所述疾病分类结果用于支持临床决策。

2.根据权利要求1所述的方法，其特征在于，所述至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到所述疾病筛查模型，包括：

l_cost＝α*FPR+β*(1-TPR)；

3.根据权利要求1或2所述的方法，其特征在于，所述至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到所述疾病筛查模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述样本数据集进行个体分类模型的训练，得到多个同质分类模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述对所述多个同质分类模型使用最优赋权加权集成方法OWIA进行加权集成，包括：

确定所述多个同质分类模型的权重组合集合；

6.一种用于智能疾病筛查的临床决策支持系统，其特征在于，包括：

模型选定模块，用于至少使用最小误分类代价阈值选取方法MCTSM设定集成模型的分类阈值，以得到疾病筛查模型，所述疾病筛查模型的输入为检查报告，输出为疾病分类结果，所述疾病分类结果用于支持临床决策。

7.根据权利要求6所述的系统，其特征在于，所述模型选定模块包括：

l_cost＝α*FPR+β*(1-TPR)；

8.根据权利要求6或7所述的系统，其特征在于，所述模型选定模块包括：

9.根据权利要求8所述的系统，其特征在于，所述模型训练模块包括：

10.根据权利要求8所述的系统，其特征在于，所述加权集成子模块包括：