CN111081381B

CN111081381B - 院内致命性消化道再出血预测关键指标的智能筛选方法

Info

Publication number: CN111081381B
Application number: CN201911087814.2A
Authority: CN
Inventors: 李静; 黎檀实; 李雪岩; 贾立静; 赵宇卓; 潘舒笑
Original assignee: Individual
Current assignee: Li Jing
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2023-11-24
Anticipated expiration: 2039-11-08
Also published as: CN111081381A

Abstract

本发明提出了一种院内致命性消化道再出血预测关键指标的智能筛选方法，包括：根据纳入排除标准，从数据库中提取消化道出血患者的指标数据并计算结局标识；对指标数据进行数据清洗以处理异常值，去除多余的指标和缺失值严重无法进行分析的指标；根据依据临床实际情况设置的离散标准对指标数据进行离散化处理；将离散后的指标数据作为条件属性，将结局标识作为决策属性；将条件属性和决策属性输入到筛选算法模型中，计算适应度，迭代重复至适应度不再增加，指标不再减少，得到筛选出的关键指标数据。本发明能够高效且稳定地计算出指示消化道出血患者发生院内致命性再出血的关键指标，辅助医生决策。

Description

院内致命性消化道再出血预测关键指标的智能筛选方法

技术领域

本发明涉及进化计算技术领域，特别涉及一种院内致命性消化道再出血预测关键指标的智能筛选方法。

背景技术

消化道出血为急诊临床常见病症，且病因复杂，可因消化道本身疾病如胃溃疡、胃黏膜急性病变、血管病变、肿瘤或机械性损伤等因素引起，也可因邻近器官的病变和全身性疾病累及消化道所致。消化道出血患者在医疗机构内接受救治，重要目标之一就是防止出现院内致命性再出血，因为患者一旦发生隐匿性消化道致命性再出血或短期不可控大出血，并由此引发的窒息或失血性休克往往是此类患者院内死亡的主要原因。

当前，大数据已经在医疗服务领域得到了广泛应用。在医疗信息化的推动下，每天都会产生数以亿计条医疗数据。大数据分析技术的发展以及急诊数据库的建立，为基于急救大数据的急诊消化道出血患者院内致命性再出血相关核心指标的研究提供了技术和数据支持。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1、目前，大部分的算法并不能明确筛选出对消化道出血患者致命性再出血有指示作用的关键指标，而是以前瞻性研究或回顾性研究的方式，结合现有的评分系统，通过不同的临床和内镜指标对患者进行危险评级后，再去评价或比较其在再出血预测方面的临床效用。

2、现有的约减算法，主要是从粗糙集的核出发，采用启发式搜索的方法构造所含条件属性，但是这种算法会随着问题规模的增大变得越来越复杂，难以找到全局最优。

3、消化道再出血的相关数据采集大多从前瞻性分析或回顾性分析中得到，数据量有限且耗时长。

4、现有的研究大多采用统计检验的方法对数据进行分析和处理，样本量较小，挖掘深度不够。

5、消化道再出血的研究多以治疗和评估的视角开展，将再出血率作为评价疾病危重性或治疗效果的一种指标，对预防和预测的参考价值有限。

粗糙集(Rough Set,RS)理论由波兰的Z.Pawlak教授于上世纪80年代初提出，该理论被称为是处理模糊和不确定性问题的新型的数学工具。其显著特点是不需要任何提前准备的和额外的相关数据信息，能有效地通过分析不完美(不确定和模糊)，不一致和不完整的数据，发现隐含的知识。与传统的逻辑回归的方法相比，粗糙集理论能够对其进行分类，从中产生决策规则。同时不需要对任何假设进行检验，更多地关注模型预测的准确性。医学领域往往涉及大量细分的医学指标，所以粗糙集理论非常适合于解决庞大的医学指标解析和预测问题。Rahman Ali等(2015)提出了一种新的混合粗糙集模型，对50个糖尿病病人的17项指标进行分析，来区分其糖尿病类型并预测其病情发展趋势。Eleazar Gil-Herrera等(2011)建立了包括9105个案例和15个变量的数据集，利用粗糙集理论来预测绝症病人晚期寿命，以改善临终关怀的转诊过程。Wang等(2006)将粒子群算法引入粗糙集理论当中，来预测脑胶质瘤的恶性程度，从280例病例当中提取出14个条件属性和1个决策属性，揭示出神经胶质瘤核磁共振成像特征与恶性程度之间的关系。但同时由于属性组合的爆炸，粗糙集属性约减求解的速度存在一定缺陷，如对噪声非常敏感，提取的决策规则很不稳定，精确性有待提高。遗传算法是由密歇根大学教授Holland及其学生于1975年创建，具有天生的隐含并行性和强大的全局搜索能力、通过模拟生物适者生存的遗传进化原理来得到解空间的全局最优解。然而传统的遗传算法仍然存在搜索效率低、局部搜索能力差、求解问题时易陷入局部最优等缺点。1948年,Von Neumann提出了元胞自动机思想,该方法立足于复杂系统的特征去模拟和描述复杂性。1993年Whitley首次提出元胞遗传算法(Cellular GeneticAlgorithm，CGA)，就是将遗传算法和元胞自动机结合起来寻找复杂系统的全局最优解，其核心思想就是通过多主体之间的信息交互实现优秀个体信息在种群当中的广泛传播，在克服局部极值方面表现出优异的性能。

综上，现有的约减算法，主要是从粗糙集的核出发，采用启发式搜索的方法构造所含条件属性最少的约减，即最小约减。但是这种算法会随着问题规模的增大变得越来越复杂，难以找到全局最优。

同时，鉴于院内致命性消化道再出血对于消化道出血病人来说危险极大，且时常发生隐匿，因此是否能对院内致命性消化道再出血进行预测预警，对消化道出血病人的救治有重要意义。在当前基于医疗大数据的临床决策支持方面，机器学习是最常使用的方法之一。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种院内致命性消化道再出血预测关键指标的智能筛选方法，有效利用时间序列数据，解决了现有的逻辑回归方法无法在消化道出血病人入院初期根据基础指标精确预测其结局的问题。

为了实现上述目的，本发明的实施例提供一种院内致命性消化道再出血预测关键指标的智能筛选方法，包括如下步骤：

步骤S1，根据纳入排除标准，从数据库中提取消化道出血患者的指标数据并计算结局标识；

步骤S2，对所述指标数据进行数据清洗以处理异常值，去除多余的指标和缺失值严重无法进行分析的指标，并进行数据补差，补充缺失值；

步骤S3，根据依据临床实际情况设置的离散标准对所述指标数据进行离散化处理；

步骤S4，将离散后的指标数据作为条件属性，将所述结局标识作为决策属性，由所述条件属性和所述决策属性共同构成智能筛选算法的决策表；

步骤S5，将所述条件属性和决策属性输入到筛选算法模型中，计算适应度，迭代至适应度不再增加，则记录下保留的指标数据，将保留的指标数据再次输入到筛选算法模型中，重复本步骤直至指标数据不再减少，得到筛选出的关键指标数据。

步骤S6，将筛选得到的关键指标输入到预测模型中，并通过预测模型对患者结局进行预测。

进一步，在所述步骤S1中，所述指标数据包括：生命体征、血气分析、血常规、凝血和生化；所述结局标识为是否发生院内致命性再出血，1表示发生，0表示未发生。

进一步，在所述步骤S2中，采用基于随机森林的多重插补法进行数据补差。

进一步，在所述步骤S4中，将离散后的指标数据作为条件属性，结局标识作为决策属性，构建粗糙集计算决策表，

设R为论域U上的等价关系，称(U，R)为近似空间，假设如果X能够表示成若干个R-基本知识的并集，则称X是R可定义的，也称X是R的精确集；否则，X是R不可定义的，也称X是R的粗糙集；

设(U，R)为近似空间，集合

分别为X的R下近似集和R上近似集，进一步，与X有关的几个集合为：

X的R边界域：X的R正域：POS_R(X)＝RX；

X的R负域：

集合X的近似精度：

集合X的粗糙度：β_R(X)＝1-α_R(X)。

进一步，在所述步骤S5中，所述筛选算法模型采用智能筛选算法。

进一步，所述智能筛选算法模型集合遗传算法、元胞自动机和粗糙集理论。

进一步，智能筛选算法的决策模型将不同属性集之间的灰色关联度和依赖度的传统定义进行有机结合，

消化道出血知识系统可表示为一个四元组：S＝{U,A,F,D}，F为对象的属性值

其中，U＝{x₁,x₂,…,x_n}为患者集合；A＝(a₁,a₂,…,a_m)表示消化道出血患者的临床相关指标；D表示院内致命性消化道再出血的决策选项；p表示决策属性(列)与条件属性(列)的关联程度，p的确定，通过灰色关联度计算确定，γ_i表示相应的灰色关联度。

进一步，在所述步骤S5之后还包括如下步骤：

根据筛选出的关键指标，利用机器学习算法对消化道出血患者是否会发生院内致命性再出血进行预测；

通过混淆矩阵来评价算法的预测精度；

利用ROC曲线和AUC评价模型的效能。

进一步，所述机器学习算法包括：逻辑回归、支持向量机、朴素贝叶斯和Adaboost算法。

根据本发明实施例的院内致命性消化道再出血预测关键指标的智能筛选方法，针对院内致命性消化道再出血的关键指标提取问题，将遗传算法和元胞自动机有机结合引入粗糙集理论，提出了一种新的智能筛选算法，其本质是在遗传算法基础上进行进化算法优化。根据粗糙集、遗传算法和元胞自动机的特点，遗传算法恰好由于它本身具有全局优化和隐含并行性等优点，因此很适合用于求解粗糙集属性约减问题。同时，元胞遗传算法邻居学习的模式使得种群的多样性得到更好的保持，为算法带来全局搜索和局部寻优之间的良好平衡。在当前医疗大数据的背景下，结合进化计算的思想，采用相关计算方法——智能筛选算法，可以有效地弥补现有的逻辑回归方法算力不足、难以求解最优解等缺点。从已有数据集中抽取满足条件的研究对象，高效且稳定地计算出指示消化道出血患者院内致命性再出血的关键指标，为临床治疗的决策提供更及时的、高效、科学的信息，从临床“真实世界”数据出发解决临床实际问题。本发明提高了消化道出血患者院内致命性再出血的关键指标筛选的速度和准确率，对临床有重要的应用价值。相对于传统使用逻辑回归提取关键指标的方法，有更好的预测精度和更强的泛化能力。

本发明实施例的院内致命性消化道再出血预测关键指标的智能筛选方法，具有以下效果：

1、将遗传算法、元胞自动机以及粗糙集三者进行有机结合提出一种智能筛选算法，通过属性约减提取出关键指标，合理降低数据维度减少冗余，挖掘隐含信息，提高预测的分类能力。辅助临床决策，实现消化道再出血患者的“早识别、早诊断、早救治”，挽救患者生命提高生存率。

2、属性约简是粗糙集理论中的一个核心内容，所谓属性约简，是指在不影响知识表达且信息系统分类能力保持不变的前提下，将知识库中的冗余知识(属性)进行削减，使知识库的表达更加简洁，最终提取出知识系统的规则。属性约简问题属于离散编码优化问题，当变量数目较多时，该问题属于NP-hard问题。已有研究表明，一些人工智能算法在求解基于不完备信息的约减NP-hard问题时取得了较好的效果，例如遗传算法等方法。

3、元胞遗传算法可以较好的保持种群多样性，对于复杂的优化问题具有较强的全局搜索能力。尤其是在面对多维度、高容量的医疗大数据时，由于遗传算法的局部搜索能力较差，容易产生早熟收敛的问题。元胞遗传算法既可以有效地保留优良个体，又能够维持群体的多样性。

4、相对于传统利用逻辑回归提取关键指标的方法，智能筛选算法结合机器学习算法构建的评估预测模型，能够在患者在院期间根据基础的生理化验指标及连续指标较准确的预测患者结局，并大大提高预测的精度。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的院内致命性消化道再出血预测关键指标的智能筛选方法的流程图；

图2为根据本发明实施例的元胞遗传算法的示意图；

图3为根据本发明实施例的急救数据库-全指标集ROC曲线和AUC的示意图；

图4为根据发明实施例的急救数据库数据库-智能筛选算法-关键指标集①ROC曲线和AUC的示意图；

图5为根据发明实施例的急救数据库数据库-智能筛选算法-关键指标集②ROC曲线和AUC的示意图；

图6为根据发明实施例的急救数据库数据库-逻辑回归算法-关键指标集ROC曲线和AUC的示意图；

图7为根据本发明实施例的智能筛选算法的流程框图；

图8为根据本发明实施例的条件属性(指标)约简算法适应度变化过程的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

鉴于考虑指标采集的经济效益和时间效益，本发明的目标是使用尽可能少的指标获得相对好的预测结果。为达到这样的目的，在本发明中将尝试使用多种机器学习的算法，应用每种算法使用不同指标数量进行分别计算，并对结果进行科学评测，以期获得应用机器学习进行院内致命性消化道再出血预测预警的最优解。

如图1所示，本发明实施例的院内致命性消化道再出血预测关键指标的智能筛选方法，包括如下步骤：

步骤S1，根据纳入排除标准，从数据库中提取消化道出血患者的指标数据并计算结局标识，标记院内致命性再出血发病标识(1表示发生，0表示未发生)。

具体的，数据库中的数据来源于解放军总医院急救数据库。急救数据库于2017年始建，并于次年初正式发布，该数据库是国内首批具有自主知识产权的急救领域专题数据库，包含2014年至2018年在解放军总医院急诊科就诊的530 585例次患者(年龄跨度0-117岁)的分诊信息，以及22 941例次(占总就诊人数4.32％，其中院内死亡540例)急诊抢救单元收治患者的信息，包括人口统计学资料、预检分诊情况、诊疗记录、生命体征、实验室检验结果、影像学检查报告、胃肠镜检查报告等信息，共建立了12个包含患者不同类别信息的表单。

在步骤S1中，指标数据包括：生命体征、血气分析、血常规、凝血和生化；结局标识为是否发生院内致命性再出血，1表示发生，0表示未发生。

步骤S2，对指标数据进行数据清洗以处理异常值，去除多余的指标和缺失值严重无法进行分析的指标，并进行数据补差，补充缺失值。

在本步骤中，采用多重插补的方法对数据进行补缺，为了避免直接排除缺失值带来的统计检验效能减少和偏性，使用基于随机森林的多重插补法来估算实验数据中的缺失值，并通过H-L检验，得到原始决策表。

步骤S3，根据医生依据临床实际情况设置的离散标准对指标数据进行离散化处理。

步骤S4，将离散后的指标数据作为条件属性，将结局标识作为决策属性，由条件属性和决策属性共同构成智能筛选算法的决策表。

将离散后的指标数据作为条件属性，结局标识作为决策属性，构建粗糙集决策表，

设(U，R)为近似空间，集合

X的R边界域：X的R正域：POS_R(X)＝RX；

X的R负域：

集合X的近似精度：

集合X的粗糙度：β_R(X)＝1-α_R(X)。

步骤S5，将条件属性和决策属性输入到筛选算法模型中，计算适应度，迭代至适应度不再增加，则记录下保留的指标数据，将保留的指标数据再次输入到筛选算法模型中，重复本步骤直至指标数据不再减少，得到筛选出的关键指标数据。在本发明的实施例中，筛选算法模型采用智能筛选算法模型。其中，智能筛选算法模型集合遗传算法、元胞自动机和粗糙集理论。

智能筛选算法的决策模型将不同属性集之间的灰色关联度和依赖度的传统定义进行有机结合，

具体的，消化道出血知识系统可表示为一个四元组：S＝{U，A，F，D}，F为对象的属性值。表1为消化道出血临床诊疗决策信息表。

表1

其中，U＝{x₁,x₂,…,x_n}为患者集合；A＝(a₁,a₂,…,a_m)表示消化道出血患者的临床相关指标；D表示院内致命性消化道再出血的决策选项。

其中，U＝{x₁,x₂,…,x_n}为患者集合；A＝(a₁,a₂,…,a_m)表示消化道出血患者的临床相关指标；D表示院内致命性消化道再出血的决策选项。p表示决策属性(列)与条件属性(列)的关联程度，p的确定，可通过灰色关联度计算确定，γ_i表示相应的灰色关联度。

(1)灰色关联度：p表示决策属性(列)与条件属性(列)的关联程度，p的确定，可通过灰色关联度计算确定

γ_i表示相应的灰色关联度 (1)

(2)粗糙隶属度：消化道出血知识系统S＝{U，A，F，D}中，U＝{x₁，x₂，...，x_n}，患者的指标集合相对于决策属性i的粗糙隶属度表示为：

“粗糙隶属度”的概念表示了决策属性与患者的指标集合之间的关联程度，可以这样理解，在由各种指标组成的指标集合中，某种决策属性出现的频率越高，则该属性对于这一指标集合的重要性越大。

(3)指标依赖度：依赖度反映了属性与属性之间的关系。如果把一种属性看作是反应物体的一种知识的话，那么属性依赖度就可以看作是一种知识对另一种知识的推导能力，是一种知识依赖性的度量。消化道出血知识系统S＝{U，A，F，D}中，U＝{x₁，x₂，…，x_n}，指标参数属性集与决策属性集之间的依赖度表示为：

其中，表示院内致命性消化道再出血与消化道出血患者指标的关联程度。

上式(3)将不同属性集之间的灰色关联度和依赖度的传统定义进行了有机结合，通过获取实际临床诊疗中患者的指标数据，提取出一组关键影响因素规则，预警院内致命性消化道再出血风险。

(4)元胞遗传算法筛选流程如下：

1)编码方式

令A＝(a₁，a₂，…，a_m)表示消化道出血粗糙集中的条件属性集合，令a_i＝0表示该条件属性可以被约简；令a_i＝1表示该条件属性不可被约简。

2)适应度函数

适应度函数采用(3)式所示的依赖度表示，条件属性与决策属性之间的依赖度越大，则条件属性越重要，即个体的适应度越大。

3)算法步骤如下：

Step1：产生初始种群。

在n×n的元胞空间内，随机产生n²个条件属性组合个体，用x_ij表示，其中，i，j∈[1，n]；令K表示条件属性数量，则有x_ij＝[a_ij1，…，a_ijk，…，a_ijK]，a_ijk随机取0或1，0表示个体x_ij中不包含属性a_ijk，1表示个体x_ij中包含属性a_ijk。

Step2：计算适应度。

每个元胞个体计算自身条件属性依赖度，用y_ij表示，为便于对比，进行标准化，令fit_ij即为个体i，j的适应度。

Step3：选择。

采用Moore型邻居结构([i-1，i+1],[j-1，j+1])，用Ω表示，每个个体x_ij寻找“邻居”中的最优个体作为学习对象。

Step4：交叉。

设置交叉概率为p_c，对于x_ij中的每一个属性a_ijk，以概率p_c与x_ef中的属性a_efk互换。

Step5：变异。

设置变异概率为p_m，对于x_ij中的每一个属性a_ijk，以概率p_m产生变异(1变0，或0变1)。

Step6：返回Step2，直到适应度不再上升。

图2为根据本发明实施例的元胞遗传算法的示意图。表2为上述流程的伪代码。

表2元胞遗传算法伪代码

如图7所示，将条件属性和决策属性输入智能筛选算法模型，计算适应度，迭代至适应度不再增加，记录下保留的指标。图8为根据本发明实施例的条件属性(指标)约简算法适应度变化过程的示意图。将保留的指标数据作为条件属性与决策属性再次输入智能筛选算法模型，计算适应度，迭代至适应度不再增加，记录下保留的指标。重复上述过程直至指标不再减少，余下即为通过智能筛选算法筛选出的关键指标。

步骤S6，将筛选得到的关键指标输入到预测模型中，并通过预测模型对患者结局进行预测。根据筛选出的关键指标，利用机器学习算法对消化道出血患者是否会发生院内致命性再出血进行预测。利用ROC曲线和AUC评价模型的效能。

根据筛选出的关键指标，利用机器学习算法对消化道出血患者是否会发生院内致命性消化道再出血进行预测；

通过混淆矩阵来评价算法的预测精度；

利用ROC曲线和AUC评价模型的效能。

在本发明的实施例中，机器学习算法包括：逻辑回归、支持向量机、朴素贝叶斯和Adaboost算法。

步骤S61，按照纳入排除标准，从数据库中提取患者关键指标时间序列数据。由于本部分希望实现的目的是提前预测预警，而筛选关键指标时使用的单一时间截面无法满足要求。因此需要根据纳入排除标准提取患者的关键指标时间序列数据。对数据进行数据清洗，包括：处理数据异常值、数据补缺。由于不同患者的指标数据提取时间与周期并不相同，数据并非规整的时间序列。对于数据集，将患者指标数据以时间跨度三等分，在等分内对数据进行平均处理，得到病例个数、时间步长、指标个数3个具有代表性的时间截面，标准化后得到最终结局预测使用的数据集。

如果最终标签数据集中正样本数量远少于负样本，构成样本不均衡问题，则对负样本进行随机下采样，使正负样本数量平衡。

根据k折交叉验证获得评分结果，将输入和标签数据划分为训练数据和测试数据；构建分类器，以训练数据集进行训练，并在测试数据集上预测，得到k折交叉验证的平均评分并记录；得到最优参数和最优分类器。

评价模型精度的指标有：

表示模型的精度。一般情况下，模型的精度越高，说明模型的效果越好。

表示查准率。一般情况下，查准率越高，说明模型的效果越好。

表示召回率。一般情况下，召回率越高，说明有更多的正类样本被模型预测正确，模型的效果越好。

一般来说，当Precision值越高，同时Recall值也越高时，模型的效果会越好。但是事实上这两者在某些情况下是矛盾的。比如极端情况下，模型只搜索出了一个结果，且是准确的，则Precision就是100％，但Recall就会很低；而如果把所有结果都返回，那么Recall就是100％，但Precision就会很低。因此最常见的方法就是引入一个综合评级指标——F-Measure(又称为F-Score，即Precision和Recall加权调和平均)：

在面对医学预测问题时，应当尽可能找出潜在的院内致命性再出血患者，因此召回率更加重要，所以本文令β＝1.5，即本文的评分指标为：

步骤S62，在获得最优参数后，根据最优参数构建分类器，得到预测结果。

在本发明的实施例中，采用决策树预测模型、支持向量机预测模型、朴素贝叶斯预测模型或Adaboost预测模型预测患者结局情况。

需要说明的是，预测模型不限于上述举例，还可以采用其他类型的预测模型，在此不再赘述。

采用接受者操作特性曲线(receiver operating characteristic curve，简称ROC曲线)ROC曲线和模型评估指标AUC对预测模型的效能进行评价。接受者操作特性曲线，又称为感受性曲线(sensitivity curve),ROC曲线上每个点反映着对同一信号刺激的感受性。

横轴：负正类率(false positive rate FPR)特异度，划分实例中所有负例占所有负例的比例；(1-Specificity)

纵轴：真正类率(true positive rate TPR)灵敏度，Sensitivity(正类覆盖率)

针对一个二分类问题，将实例分成正类(positive)或者负类(negative)。但是实际中分类时，会出现四种情况.

(1)若一个实例是正类并且被预测为正类，即为真正类(True Positive TP)

(2)若一个实例是正类，但是被预测成为负类，即为假负类(False Negative FN)

(3)若一个实例是负类，但是被预测成为正类，即为假正类(False Positive FP)

(4)若一个实例是负类，但是被预测成为负类，即为真负类(True Negative TN)

TP:正确的肯定数目

FN:漏报，没有找到正确匹配的数目

FP:误报，没有的匹配不正确

TN:正确拒绝的非匹配数目

表3如下，1代表正类，0代表负类：

表3

由上表可得出横、纵轴的计算公式：

(1)真正类率(True Positive Rate)TPR:TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。Sensitivity

(2)负正类率(False Positive Rate)FPR:FP/(FP+TN)，代表分类器预测的正类中实际负实例占所有负实例的比例。1-Specificity

(3)真负类率(True Negative Rate)TNR:TN/(FP+TN),代表分类器预测的负类中实际负实例占所有负实例的比例，TNR＝1-FPR。Specificity

AUC(Area under Curve)：ROC曲线下的面积，介于0.1和1之间。AUC作为数值可以直观的评价分类器的好坏，值越大越好。首先AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

下面结合具体的实施例进行对本发明的院内致命性消化道再出血预测预警关键指标提取的智能筛选算法进行详细说明

1、根据纳入排除标准从解放军总医院急救数据库中提取患者的截面指标数据(包括生命体征、血气分析、血常规、尿常规、血生化和凝血功能六大类)。本发明所使用的数据包含的指标如表4所示。表5为本发明的指标编号及指标单位。

表4解放军总医院急救数据库实验室指标

/>

表5指标名称、单位及序号对照表

/>

2、使用多重插补对截面数据进行补缺，补缺前的研究截面数据如表6所示，补缺后的数据如表7所示。

表6研究截面指标数据提取情况

表7补缺后的数据

/>

3、按照医生给出的离散标准，对补缺后的数据进行离散。离散标准如表8所示，离散后的数据构成的决策表如表9所示。

表8离散标准

/>

表9决策表

4、关键指标筛选。本发明进行了十次独立重复实验，筛选得到的关键指标如下表10所示。表11为智能筛选算法属性保留次数统计。

表10智能筛选算法关键指标筛选结果

/>

表11智能筛选算法属性保留次数统计

/>

本发明也包含了一种基于关键指标的机器学习模型结局预测方案。以急救数据库中消化道出血数据为例，则结局预测模型包括以下步骤：

1、确定关键指标数据集。经由医生讨论，决定依据不同指标集对研究数据进行分组(研究总样本量不变，仅在计算中使用的指标数量及种类不同)，大致分为全指标数据集(即包含全部64项指标)和关键指标数据集。根据智能筛选算法中所筛选出的64项关键指标被保留的次数不同，将保留次数大于等于4次的指标组成的时间序列数据为CGA-关键指标集①,将保留次数大于等于5次的指标组成的时间序列数据为CGA-关键指标集②；同时为了验证智能筛选算法的优越性，采用传统的逻辑回归的方法同样筛选得到Logit-关键指标集。关键指标集分组见表12。

表12关键指标数据集

CGA-关键指标集①	CGA关键指标集②	Logit-关键指标集
			pH	pH	红细胞计数
凝血酶时间测定	凝血酶时间测定	肌钙蛋白T
			无机磷	无机磷	钾
Glu	Glu	镁
			shousuoya	shousuoya	无机磷
shuzhangya	shuzhangya	中性粒细胞
			xinlv	xinlv	HCO3-
血红蛋白测定	血红蛋白测定	HCO3std
			C-反应蛋白测定
γ-谷氨酰基转移酶
			红细胞比积测定
淋巴细胞
			血清白蛋白
huxi

2、时间序列数据提取。按照纳入排除标准提取患者时间序列数据，经过数据清洗后，并根据关键指标集的分组将数据整理成为预测模型需要的格式。

3、构建预测模型并进行验证。为了验证本发明中不同类型分类器的预测能力，以决策树、支持向量机、朴素贝叶斯和极端梯度提升(XGBoost,eXtreme Gradient Boosting)构建预测模型。分别输入未经筛选的全指标数据集、CGA-关键指标数据集①、CGA-关键指标数据集②和Logit-关键指标数据集，内部验证预测结果如表13所示。

表13机器学习算法模型验证结果

从上述表和图3～6可以看出

1、分别使用不同个数的关键指标组合以及全部临床相关指标集合进行预测。从结果分析，AdaBoost算法的F1.5值在各个指标组合中均高于其他3种方法，表明基于弱分类器的AdaBoost算法综合性能最高，泛化能力强。

2、对比CGA-关键指标集①、②和Logit-关键指标集，智能筛选算法将指标从64个删减到14个或8个时，SVM和朴素贝叶斯算法的预测效果不降反升，优于全指标集，同时AdaBoost的算法和逻辑回归算法的预测效果与全指标集相比差距并不大。逻辑回归算法将指标从64个删减到8个，模型的预测精度就远不如前二者，且与全指标集相比还有很大的差距。既说明构建的预测模型拥有较高和较稳定的预测精度，对患者的结局有很好的拟合效果，同时也体现了智能筛选算法的优越性。

3、对比构建的四种预测模型，SVM和朴素贝叶斯更适用于较少指标的情况，AdaBoost和逻辑回归则在面对更高维度的数据有更好的泛化能力。

综上，本发明提供基于粗糙集约减和机器学习算法的消化道出血患者院内致命性再出血的结局预测模型，首先采用元胞遗传算法对决策表进行约减，去除冗余的条件属性。各指标之间存在一定的关联性，通过属性约减不仅可以消除指标间的信息重叠，还可以起到降维的作用，提高了模型的运行速度，同时减少采集指标的工作量使诊断更具针对性和时效性。然后根据筛选出的关键指标，利用机器学习算法进行预测，辅助医生决策，为临床治疗的决策提供更及时的、高效、科学的信息，实现消化道出血患者院内致命性再出血的“早识别、早诊断、早救治”，提高生存率。

1、将遗传算法、元胞自动机以及粗糙集三者进行有机结合提出一种智能筛选算法，通过属性约减提取出关键指标，可以帮助早期预测患者结局，辅助临床决策，挽救患者生命。

4、相对于传统利用逻辑回归提取关键指标的方法，智能筛选算法结合机器学习算法构建的评估预测模型，能够在患者入院早期根据基础的生理化验指标及连续指标较准确的预测患者结局，并大大提高预测的精度。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种院内致命性消化道再出血预测方法，其特征在于，包括如下步骤：

步骤S6，将筛选得到的关键指标输入到预测模型中，并通过预测模型对患者结局进行预测；

其中，在所述步骤S5中，所述筛选算法模型采用智能筛选算法模型，

所述智能筛选算法模型将遗传算法和元胞自动机有机结合引入粗糙集理论，在遗传算法基础上进行进化算法优化，通过属性约减提取出关键指标，将不同属性集之间的灰色关联度和依赖度的传统定义进行了有机结合，筛选出的关键指标数据；

其中，

灰色关联度：p表示决策属性与条件属性的关联程度，p通过灰色关联度计算确定：

γ_i表示相应的灰色关联度；

指标依赖度：依赖度反映了属性与属性之间的关系，将一种属性看作是反应物体的一种知识，属性依赖度则是一种知识对另一种知识的推导能力，是一种知识依赖性的度量；消化道出血知识系统表示为一个四元组：S＝{U,A,F,D}，其中，F为对象的属性值，U＝{x₁,x₂,…,x_n}为患者集合；A＝(a₁,a₂,…,a_m)表示消化道出血患者的临床相关指标；D表示院内致命性消化道再出血的决策选项；指标参数属性集与决策属性集之间的依赖度表示为：

；

适应度函数采用上式所示的依赖度表示，条件属性与决策属性之间的依赖度越大，则条件属性越重要，即个体的适应度越大。

2.如权利要求1所述的院内致命性消化道再出血预测方法，其特征在于，在所述步骤S1中，所述指标数据包括：生命体征、血气分析、血常规、凝血和生化；所述结局标识为是否发生院内致命性再出血，1表示发生，0表示未发生。

3.如权利要求1所述的院内致命性消化道再出血预测方法，其特征在于，在所述步骤S2中，采用基于随机森林的多重插补法进行数据补差。

4.如权利要求1所述的院内致命性消化道再出血预测方法，其特征在于，在所述步骤S5之后还包括如下步骤：

通过混淆矩阵来评价算法的预测精度；

利用ROC曲线和AUC评价模型的效能。

5.如权利要求4所述的院内致命性消化道再出血预测方法，其特征在于，所述机器学习算法包括：逻辑回归、支持向量机、朴素贝叶斯和Adaboost算法。