CN110289061B

CN110289061B - 一种创伤失血性休克伤情的时间序列预测方法

Info

Publication number: CN110289061B
Application number: CN201910570791.4A
Authority: CN
Inventors: 黎檀实; 李静; 赵宇卓; 魏子健; 郏瑞琪
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2022-04-01
Anticipated expiration: 2039-06-27
Also published as: CN110289061A

Abstract

本发明提出了一种创伤失血性休克伤情的时间序列预测方法，包括：从数据库中提取创伤失血性休克伤情数据，对所述创伤失血性休克伤情数据进行数据处理，包括：处理数据异常值、再对数据进行线性补缺和聚类补缺；对处理后的数据设计阶梯化指标；应用指标阶梯化结果和不同类型分类器构建预测模型，并通过预测模型对预设时长后的结果进行预测。本发明能够对缺失严重的时间序列数据进行处理，进行时序的、而非截面的预测，得到的预测结果会更加准确；引入预测时间窗，提出预测指标阶梯化概念，使用可实时监测的指标就能对创伤失血性休克实施基于时间序列的实时动态预测预警。

Description

一种创伤失血性休克伤情的时间序列预测方法

技术领域

本发明涉及人工智能技术领域，特别涉及一种创伤失血性休克伤情的时间序列预测方法。

背景技术

创伤是严重影响社会安定、百姓福祉、个人健康的重大事件，而创伤失血性休克(THS：Traumatic hemorrhagic shock)是创伤后常见的死亡原因，是一种因严重创伤而引起的低血容量性休克。创伤失血性休克是由严重创伤引起的最严重、最危急生命的并发症之一，由于失血导致有效血容量不足，心脑等重要器官供氧不足，即使立即进行液体复苏，仍可能导致多个器官组织发生不可逆的损伤，如不及时治疗，极有可能导致创伤伤员死亡。

尽管创伤失血性休克对伤员生命危害巨大，但其实它是所有引起创伤伤员死亡原因中占比最大的可预防因素，是急救医疗机构常见的急危重症，也是创伤早期死亡的主要原因，其重要性不言而喻。针对失血性休克救治的措施有很多，对于机体可见的大出血，通过局部压迫、截流、手术等方式可进行及时救治，创伤伤员在医疗机构内生存率较高；而隐形出血、不可见出血，却往往容易被医护人员忽视，一旦发展为失血性休克，创伤伤员可以在短时间内因血流灌注不足而出现序贯性器官功能衰竭、凝血功能障碍，甚至死亡。

长期以来，创伤领域研究一直受到广大学者青睐，尤其是近年来，随着医疗数据的爆发式增长，也使得创伤大数据的发展迎来黄金时期，美国、英国、日本、德国等国家都建有完善的国家创伤数据库，积累海量数据，创伤大数据业已在医疗健康大数据领域取得了突破性进展。

在医疗健康大数据领域，患者临床数据可分为只有一个截面的截面数据和有多个截面的时间序列数据。而后者因为含信息量大、包含趋势变动等特点，时间序列预测精度会高于截面预测，并且能够实现滚动预测、实时监测预警病情。但是由于伤员测量指标不尽相同、伤员指标测量的时间不同且大部分化验指标不会在短期内多次测量等问题，直接导致医疗数据稀疏和缺失问题异常严重。在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

1、在数据补缺方面，目前还没有比较成熟的补缺体系，而大多采用均值补缺或者线性补缺，补缺方法单一，且补缺后仍存在数据质量差、与真实数据相差较大等问题。

2、现有的技术方法多采用截面预测的方式，比如对数据取均值得到截面后进行预测，其得到的结果是“结局性”的，不能实现滚动预测和实时监测病情。

3、现有的少量时间序列预测，也仅选用测量成本低、次数多的生命体征指标，如心率、血压等，预测效果不佳。

这些方案在规避问题出现的同时，也舍弃了一些信息。在医疗领域尤其是急诊科存在着“黄金1小时”的说法，如果能够做到比发病时间或者比医生发现提前预测预警，则能对此类伤员进行早期前瞻性治疗，减少死亡率的发生，这对于创伤医学的研究有着重要的意义。

此外，在急救医疗机构内，不同种类指标测定所需条件不同、标本不同、仪器不同，导致来自不同检测项目的指标时间截面不同，因此从其时效性上考虑，具有一定的阶梯性。由于床旁监护设备的使用，生命体征相关指标(心率、血压、呼吸频率、体温、氧饱和度)最易获得，甚至能实现实时监控；随着血气分析仪的不断换代升级，血气分析项目在医疗机构中受重视程度越来越高，可检测小项也逐步增多，抢救室内1分钟可出结果，使其越来越受到医护工作者推崇；血常规是医疗机构内最常见的检验项目之一，具有简易、快速等特点，而且其中诸多指标对于失血的判定具有重要意义。

在战创伤救治或灾害事故现场救治时，由于设备条件有限，只能对生命体征进行采集，或进行部分简单化验分析检查，转入高级医疗机构才能采集血生化等指标，即辅助检查及指标采集存在梯度。即对创伤失血性休克进行预测时，所应用的指标越易于采集，可实现预测的频率就越高。当仅使用可实时监测的指标时，将可实现对创伤失血性休克进行基于时间序列的动态预警。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种创伤失血性休克伤情的时间序列预测方法。

为了实现上述目的，本发明的实施例提供一种创伤失血性休克伤情的时间序列预测方法，包括如下步骤：

步骤S1，从数据库中提取创伤失血性休克伤情数据，对所述创伤失血性休克伤情数据进行数据处理，包括：处理数据异常值、再对数据进行线性补缺和聚类补缺，采用Hosmer Lemeshow拟合优度指标对处理后的数据进行检验；

步骤S2，对处理后的数据设计阶梯化指标；

步骤S3，应用指标阶梯化结果和不同类型分类器构建预测模型。

进一步，所述步骤S1，包括如下步骤：

根据纳入排除标准从数据库中提取伤员数据，并标识创伤失血性休克发病伤员；

对非数字型指标数据进行编码处理，以处理数据异常值；

对数据中的同指标内的缺失值进行线性补缺；

在线性补缺的基础上进一步对仍存在的缺失值进行聚类补缺。

进一步，对所述缺失值进行聚类补缺，包括如下步骤：

(1)将所有伤员的数据进行降维；

(2)选定一个需要进行补缺的指标；

(3)对于一个缺失该指标数据的伤员，遍历所有拥有该指标数据的伤员，计算其与缺失伤员的欧氏距离：

(4)取其中u个欧氏距离最短的非缺失伤员(u须根据实际样本量选定)，以其该指标的平均数据填补缺失伤员该指标数据；

(5)对于所有缺失该指标数据的伤员重复步骤(3)和(4)；

(6)对于所有缺失比例低于设定阈值的指标重复步骤(2)～(5)。

进一步，在所述步骤S2中，对处理后的数据设计阶梯化指标，包括：

第一阶梯：生命体征；

第二阶梯：生命体征和血气分析；

第三阶梯：生命体征、血气分析和血常规。

进一步，所述步骤S3，还包括如下步骤：通过构建的预测模型对预设时长后的结果进行预测，包括：

确定需要提前m小时进行预测，在原数据减去最后m小时的数据，应用步骤S1中数据处理后得到的数据；

从预先给定的区间中选取时间步长，然后根据时间步长输入数据，根据参数m生成标签数据；

根据k折交叉验证获得评分结果，得到最优参数和最优分类器；

根据所述最优参数构建分类器；

以所述阶梯化指标进行提前预设时长的预测，得到预测结果。

进一步，在所述步骤S3中，采用GRU预测模型、MLP预测模型或XGBoost预测模型预测预设时长后的结果。

进一步，对数据进行降维，包括：将k个时间段的n个指标展开到一个截面中，形成共计k×n个特征；然后进行主成分分析，以得到较少的特征，实现对数据的降维。

进一步，在所述步骤S3中，采用混淆矩阵对对分类器进行评价，以得到最优分类器。

进一步，采用接受者操作特性曲线ROC曲线和模型评估指标AUC对所述预测模型的效能进行评价。

进一步，所述根据参数ts生成输入数据，根据参数m生成标签数据，包括：

(1)取一个伤员所有数据；

(2)取其中第i条数据，对第i条至第i+ts-1条数据进行数据降维、标准化，然后加入输入数据集，将第i+m条数据的状态加入标签数据集。如果数据长度不允许则不执行；如果使用GRU深度学习算法则不执行该步骤；

(3)对该伤员所有数据重复步骤(2)；

(4)对所有伤员重复步骤(1)～(3)；

(5)如果最终标签数据集中正样本数量远少于负样本，构成样本不均衡问题，则对负样本进行随机下采样，使正负样本数量平衡。

根据本发明实施例的创伤失血性休克伤情的时间序列预测方法，具有以下有益效果：

1、提出了一种时间序列补缺方法，解决了当前数据库中创伤失血性休克伤情指标数据稀疏缺失严重、难以进行时序分析的问题；

2、将清洗完成的数据处理为可用作预测的数据，中间涉及数据降维、同一伤员不同时段的数据选取、样本不均衡问题处理等过程；

3、通过使用线性补缺和一种聚类补缺方法，对时间序列进行合理的补缺。考虑到经济性和快捷性，本发明采用生命体征、血气分析和血常规三类指标，并采用阶梯式思路，建立应用多种指标组合对创伤失血性休克进行提前预测的模型；

4、针对创伤失血性休克问题，构建了一个从数据处理到时间序列提前预测的过程。与其他创伤失血性休克预测手段相比，本发明的数据处理部分能够对稀疏缺失严重的创伤失血性休克伤情时间序列数据进行处理，进行时序的、而非截面的预测，得到的预测结果会更加准确；

5、引入预测时间窗，提出预测指标阶梯化概念，当仅使用可实时监测的指标时就能对创伤失血性休克实施基于时间序列的实时动态预测预警。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的创伤失血性休克伤情的时间序列预测方法的流程图；

图2为根据本发明实施例的创伤失血性休克伤情的时间序列预测方法的示意图；

图3为根据本发明实施例的数据处理部分的流程图；

图4为根据本发明实施例的各预测模型内部验证和外部验证结果柱状图；

图5a和图5b为根据本发明实施例的内部验证ROC曲线图和外部验证ROC曲线图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提出一种创伤失血性休克伤情的时间序列预测方法，可以解决现有的医疗数据稀疏缺失问题。并应用不同的分类算法实现提前多小时的预测。

如图1和图2所示，本发明实施例的创伤失血性休克伤情的时间序列预测方法，包括如下步骤：

步骤S1，从数据库中提取创伤失血性休克伤情数据，对创伤失血性休克伤情数据进行数据处理，包括：处理数据异常值、再对数据进行线性补缺和聚类补缺，采用HosmerLemeshow拟合优度指标对处理后的数据进行检验。

步骤S11，创伤失血性休克伤情数据来源于重症监护医疗数据仓库(MedicalInformation Mart for Intensive Care III，MIMIC III)。MIMIC III最初是由麻省理工学院主导建立的大样本、单中心急危重症数据库，包含美国波士顿贝斯以色列女执事医学中心(Beth Israel Deaconess Medical Center，BID)6万余例伤病员去隐私化的医疗记录，记录数据全面。在本步骤中，提取其中院内出现创伤失血性休克的伤员医疗数据。

步骤S12，对于每个指标，取整点时间的半小时邻域内最后一条数据，作为该时点这一指标的数据。根据纳入排除标准从数据库中提取伤员数据并标识创伤失血性休克发病伤员。对非数字型指标数据进行编码处理，将各指标记录时间对齐，处理数据异常值，如图3所示。

在本发明的实施例中，本步骤中的纳入排除标准包括：纳入标准和排除标准。

纳入标准：(1)因创伤入院且年龄≥18岁；(2)休克指数(Shock Index，SI)≥1.0，即相同时间心率(次/分)/收缩压(mmHg)≥1；(3)平均动脉压(Mean Blood Pressure，MBP)≤70mmHg；(4)在伤员生命体征同时满足SI≥1.0和MBP≤70mmHg后5小时内有输血记录。

排除标准：(1)未同时满足以上条件，或在院时间距离失血性休克时间点不足4小时即出现该情况，该时间段用于后期进行创伤失血性休克预测预警研究。

步骤S13，考虑在病情诊断时，之所以并未频繁测量指标，可能仅是因为不需要进行测量。所以假设各指标数据在两次测量中的过程是平稳变化的，可以对所有缺失值进行线性补缺。对于数据头、尾缺失的情况，则分别以第一次、最后一次出现的非空数据进行替换。

步骤S14，在线性补缺的基础上进一步对仍存在的缺失值进行聚类补缺。对于多数指标，并非所有伤员都测过，因此会出现线性补缺无法解决的整列缺失问题。对于这部分缺失的数据，采用如下的聚类补缺手段：

(1)将所有伤员的数据进行降维；

在本发明的实施例中，对数据进行降维，包括：将k个时间段的n个指标展开到一个截面中，形成共计k×n个特征；然后进行主成分分析，以得到较少的特征，实现对数据的降维。

在本发明的实施例中，基于主成分分析(PCA)：首先将k个时间段的n个指标展开到一个截面中，形成共计k×n个特征；然后进行PCA，得到较少的特征。

(2)选定一个需要进行补缺的指标；

其中X，Y表示两条伤员记录向量，x_i表示X中第i个指标的值，y_i表示Y中第i个指标的值，n表示指标总个数。

(5)对于所有缺失该指标数据的伤员重复步骤(3)和(4)；

(6)对于所有缺失比例低于设定阈值的指标重复步骤(2)～(5)。

为了检验该补缺方法的合理性，本文采用Hosmer Lemeshow拟合优度指标(H-L)进行检验。Hosmer Lemeshow拟合优度指标是由Hosmer和Lemeshow提出的一种Logistic模型拟合优度检验的方法，用来评估预测值与实际值在各个分组中拟合程度。对基于线性补缺和距离测度补缺后的数据进行H-L检验，结果如表1所示，从表中可看出其显著性为0.1(＞0.05)，说明预测值与观测值没有显著差异，因此模型拟合度较好。

表1

卡方	自由度	显著性
			13.631	8	0.1

步骤S2，对处理后的数据设计阶梯化指标。

由于不同种类指标测定所需条件不同、标本不同、仪器不同，导致来自不同检测项目的指标时间截面不同。其中，由于床旁监护设备的使用，生命体征相关指标(心率、血压、呼吸频率、体温、氧饱和度)最易获得，甚至能实现实时监控；随着血气分析仪的不断换代升级，血气分析项目在医疗机构中受重视程度越来越高，可检测小项也逐步增多，抢救室内1分钟可出结果，使其越来越受到医护工作者推崇；血常规是医疗机构内最常见的检验项目之一，具有简易、快速等特点，而且其中诸多指标对于失血的判定具有重要意义。因此，从指标的时效性和经济性方面考虑，处理后的数据分成以下3个梯度。

在本发明的实施例中，对处理后的数据设计阶梯化指标，包括：

第一阶梯：生命体征；

第二阶梯：生命体征和血气分析；

第三阶梯：生命体征、血气分析和血常规。

需要说明的是，上述阶梯化指标仅是出于示例的目的，而不是为了限制本发明。本发明的各项指标可以根据用户需要进行选择设置。在上述生命体征、血气分析和血常规基础上，指标可以进一步包括尿常规、血生化和凝血功能。

步骤S3，应用指标阶梯化结果和不同类型分类器构建预测模型，并通过预测模型对预设时长后的结果进行预测。

步骤S31，确定需要提前m小时进行预测，在原数据减去最后m小时的数据，应用步骤S1中数据处理后得到的数据，此步骤目的是避免线性补缺、距离测度补缺中使用了未来已知的数据。

从预先给定的区间中选取时间步长ts，该参数的意义是，以过去ts小时的数据为输入，ts越大，输入中含历史信息就越多。

然后根据时间步长ts输入数据，根据参数m生成标签数据。具体包括如下步骤：

(1)取一个伤员所有数据；

(2)取其中第i条数据，对第i条至第i+ts-1条数据进行数据降维、标准化，然后加入输入数据集。将第i+m条数据的状态加入标签数据集。如果数据长度不允许则不执行；如果使用GRU等深度学习算法则不执行该步骤；

(3)对该伤员所有数据重复步骤(2)；

(4)对所有伤员重复步骤(1)～(3)；

如果最终标签数据集中正样本数量远少于负样本，构成样本不均衡问题，则对负样本进行随机下采样，使正负样本数量平衡。

根据k折交叉验证获得评分结果，将输入和标签数据划分为训练数据和测试数据；构建分类器，以训练数据集进行训练，并在测试数据集上预测，得到k折交叉验证的平均评分并记录；得到最优参数和最优分类器。

其中，采用混淆矩阵(confusion matrix)对对分类器进行评价，以得到最优分类器。

下面对混淆矩阵进行说明：

在机器学习领域中，混淆矩阵是一种评价分类模型好坏的形象化展示工具。其中，矩阵的每一列表示的是模型预测的样本情况；矩阵的每一行表示的是样本的真实情况。表2代表一个二分类模型的混淆矩阵：表2混淆矩阵

其中，True Positive(TP)代表真正类，即样本的真实类别是正类，并且模型预测的结果也是正类。

False Negative(FN)代表假负类，即样本的真实类别是正类，但是模型将其预测成为负类。

False Positive(FP)代表假正类，即样本的真实类别是负类，但是模型将其预测成为正类。

True Negative(TN)代表真负类，样本的真实类别是负类，并且模型将其预测成为负类。

从混淆矩阵当中衍生出来的评价模型精度的指标有：

表示模型的精度。一般情况下，模型的精度越高，说明模型的效果越好。

表示查准率。一般情况下，查准率越高，说明模型的效果越好。

表示召回率。一般情况下，召回率越高，说明有更多的正类样本被模型预测正确，模型的效果越好。

一般来说，当Precision值越高，同时Recall值也越高时，模型的效果会越好。但是事实上这两者在某些情况下是矛盾的。比如极端情况下，模型只搜索出了一个结果，且是准确的，则Precision就是100％，但Recall就会很低；而如果把所有结果都返回，那么Recall就是100％，但Precision就会很低。因此最常见的方法就是引入一个综合评级指标——F-Measure(又称为F-Score，即Precision和Recall加权调和平均)：

在面对医学预测问题时，应当尽可能找出潜在的创伤失血性休克伤员，因此召回率更加重要，所以本文令β＝1.5，即本文的评分指标为：

步骤S32，在获得最优参数后，根据最优参数构建分类器；以阶梯化指标进行提前预设时长的预测，得到预测结果。

在本发明的实施例中，采用GRU预测模型、MLP预测模型或XGBoost预测模型预测预设时长后的结果。

需要说明的是，预测模型不限于上述举例，还可以采用其他类型的预测模型，在此不再赘述。

采用接受者操作特性曲线(receiver operating characteristic curve，简称ROC曲线)ROC曲线和模型评估指标AUC对预测模型的效能进行评价。接受者操作特性曲线，又称为感受性曲线(sensitivity curve)，ROC曲线上每个点反映着对同一信号刺激的感受性。

横轴：负正类率(false positive rate FPR)特异度，划分实例中所有负例占所有负例的比例；(1-Specificity)

纵轴：真正类率(true positive rate TPR)灵敏度，Sensitivity(正类覆盖率)

针对一个二分类问题，将实例分成正类(positive)或者负类(negative)。但是实际中分类时，会出现四种情况.

(1)若一个实例是正类并且被预测为正类，即为真正类(True Positive TP)

(2)若一个实例是正类，但是被预测成为负类，即为假负类(False Negative FN)

(3)若一个实例是负类，但是被预测成为正类，即为假正类(False Positive FP)

(4)若一个实例是负类，但是被预测成为负类，即为真负类(True Negative TN)

TP：正确的肯定数目

FN：漏报，没有找到正确匹配的数目

FP：误报，没有的匹配不正确

TN：正确拒绝的非匹配数目

表3如下，1代表正类，0代表负类：

表3

由上表可得出横、纵轴的计算公式：

(1)真正类率(True Positive Rate)TPR：TP/(TP+FN)，代表分类器预测的正类中实际正实例占所有正实例的比例。Sensitivity

(2)负正类率(False Positive Rate)FPR：FP/(FP+TN)，代表分类器预测的正类中实际负实例占所有负实例的比例。1-Specificity

(3)真负类率(True Negative Rate)TNR：TN/(FP+TN)，代表分类器预测的负类中实际负实例占所有负实例的比例，TNR＝1-FPR。Specificity

AUC(Area under Curve)：ROC曲线下的面积，介于0.1和1之间。AUC作为数值可以直观的评价分类器的好坏，值越大越好。首先AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

步骤S33，重复步骤S31和步骤S32，选取其中能够得到最高评分的参数ts，即得到能够提前k小时预测的分类器。

本发明通过在预测模型中引入预测时间窗，提出了预测指标阶梯化的概念，即采用生命体征、血气分析和血常规三类指标不同的指标组合，建立应用多种指标组合对创伤失血性休克进行提前预测的模型，(即按照实际需求，采用不同的组合指标进行提前1h、2h、3h、4h、……进行预测，进而选出满足实际临床需求的预测模型)。

下面结合具体实施例进行对本发明的创伤失血性休克伤情的时间序列预测方法进行详细说明。

1、根据纳入排除标准从重症监护医疗数据库(Medical Information Mart forIntensive Care III，MIMIC III)中提取伤员指标数据(包括生命体征、血气分析、血常规、凝血和生化五大类)。本研究所使用的数据包含的指标如表4所示。

表4各类指标名称

2、对数据进行补缺，补缺前的数据如表5所示，补缺后的数据如表6所示。

表5 MIMIC III库中创伤失血性休克原始数据

表6补缺后的数据

本发明也包含了一种提前多小时的预测方案。以MIMIC III中创伤失血性休克数据为例，则提前多小时的预测模型包括以下步骤：

根据背景部分所述，考虑到经济性和快捷性，本发明采用生命体征、血气分析和血常规三类指标，并采用阶梯式思路，建立应用多种指标组合对创伤失血性休克进行提前预测的模型。

1、确定三种不同的指标组合。

表7提前预测指标不同组合

2、确定提前1-4h进行预测。首先根据数据补缺流程进行数据处理。补缺后的不同指标组合数据如表8-表10所示。

表8提前预测指标数据集：生命体征

伤员编号	心率	收缩压	舒张压	呼吸频率	体温
						100011	121	101	58	23	36.83333
100011	121	101	58	23	36.83333
						100011	121	101	58	22	36.83333
100011	111	100.5	46	0	36.83333
						100011	102	127	75	6	36.83333
100011	109	106	66	21	37
						100011	114	100	60	10	38.38889
100011	108	113	61	12.33333	38.14815
						100011	102	126	62	14.66667	37.90741
……	……	……	……	……	……
						199962	67	154	82	18	37.05556
199962	70	138	58	17	37.02778
						199962	64	138	66	17	37
199962	65	145.5	76	20	36.97222
						199962	83	153	86	18	36.94444
199962	66	142	65	21	36.94444
						199962	62	133	58	20	36.94444

表9提前预测指标数据集：生命体征+血气分析

3、构建预测模型。为了验证本发明中不同类型分类器的预测能力，以极端梯度提升(XGBoost，eXtreme Gradient Boosting)、门控循环单元(GRU，Gated Recurrent Unit)和多层感知机(MLP，Multi-Layer Perception)构建预测模型，使用生命体征、生命体征+血气分析、生命体征+血气分析+血常规三种阶梯化的指标实现提前1-4h预测，并使用MIMICIII数据库中的数据进行内部验证，其预测结果如表11所示。

4、对建立的预测模型进行外部验证。为了检测在该预测方案下建立的预测模型对不同的数据库是否具有泛化能力，使用中国人民解放军总医院急救数据库中的数据对建立的预测模型进行外部验证，其外部验证结果如表11所示。

图4中的标注如下：smtz：生命体征；smtz+xq：生命体征+血气分析；smtz+xq+xcg：生命体征+血气分析+血常规。图5a和图5b为根据本发明实施例的内部验证ROC和外部验证ROC的曲线图。

通过表11和图4，可以看出：

1、各个预测模型均取得了不错的预测效果，其中XGBoost预测模型的表现性能最好，说明发明的预测方案具有较好的预测能力。对分类器具有较好的泛化能力。

2、使用阶梯式的组合指标，其预测结果成明显的阶梯变化，符合在一定范围内指标越多性能越好的常识；从提前预测时间角度来看，提前的时间越长，其预测结果总体呈下降趋势，也是符合认知。因此根据应用场景以及实际的需求，使用本预测方案可以满足不同应用场景和不同的需求。

3、从各个预测模型内部验证和外部验证的结果来看，相对于内部验证结果，在外部验证上的各个评价指标或多或少的出现了下降的情况，这可能由于不同数据库之间数据分布不同造成的，但从结果来看本示例中建立的模型还是具有比较不错的泛化能力，尤其是XGBoost预测模型泛化能力最好。

1、提出了一种时间序列补缺方法，解决了目前各种医疗数据库时间序列数据缺失严重的问题；

3、通过使用线性补缺和一种聚类补缺方法，对时间序列进行合理补缺。考虑到经济性和快捷性，本发明采用生命体征、血气分析和血常规三类指标，并采用阶梯式思路，建立应用多种指标组合对创伤失血性休克进行提前预测的模型；

4、针对创伤失血性休克问题，构建了一个从数据处理到时间序列提前预测的过程。与其他创伤失血性休克预测手段相比，本发明的数据处理部分能够对缺失严重的时间序列数据进行处理，进行时序的、而非截面的预测，得到的预测结果会更加准确；

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种创伤失血性休克伤情的时间序列预测方法，其特征在于，包括如下步骤：

步骤S1，从数据库中提取创伤失血性休克伤情数据，对所述创伤失血性休克伤情数据进行数据处理，包括：处理数据异常值、再对数据进行线性补缺和聚类补缺，采用HosmerLemeshow拟合优度指标对处理后的数据进行检验；

步骤S2，对处理后的数据设计阶梯化指标；其中，对处理后的数据设计阶梯化指标，包括：

第一阶梯：生命体征；

第二阶梯：生命体征和血气分析；

第三阶梯：生命体征、血气分析和血常规；

步骤S3，应用指标阶梯化结果和不同类型分类器构建预测模型；其中，通过构建的预测模型对预设时长后的结果进行预测，包括：

这里的最优参数指的是最优的时间步长；

根据所述最优参数构建分类器；

2.如权利要求1所述的创伤失血性休克伤情的时间序列预测方法，其特征在于，所述步骤S1，包括如下步骤：

根据纳入排除标准从数据库中提取伤员数据和休克发病标识；

对非数字型指标数据进行编码处理，以处理数据异常值；

在数据库中有些指标是以文字形式记录的，需要对这部分指标进行编码处理，即使用离散值进行代替；并且在数据库中存在着很多记录不规范的情况，因此需要使用正则表达式对数据进行清洗以达到处理数据异常的目的；

对数据中的同指标内的缺失值进行线性补缺；

3.如权利要求2所述的创伤失血性休克伤情的时间序列预测方法，其特征在于，对所述缺失值进行聚类补缺，包括如下步骤：

（1）将所有伤员的数据进行降维；

（2）选定一个需要进行补缺的指标；

（3）对于一个缺失该指标数据的伤员，遍历所有拥有该指标数据的伤员，计算其与缺失伤员的欧氏距离：

其中

表示两条伤员记录向量，

表示X中第i个指标的值，

表示Y中第i个指标的值，n表示指标总个数；

（4）取其中u个欧氏距离最短的非缺失伤员，其中，u须根据实际样本量选定，以其该指标的平均数据填补缺失伤员该指标数据；

（5）对于所有缺失该指标数据的伤员重复步骤（3）和（4）；

（6）对于所有缺失比例低于设定阈值的指标重复步骤（2）~（5 ）。

4.如权利要求1所述的创伤失血性休克伤情的时间序列预测方法，其特征在于，在所述步骤S3中，采用GRU预测模型、MLP预测模型或XGBoost预测模型预测预设时长后的结果。

5.如权利要求3所述的创伤失血性休克伤情的时间序列预测方法，其特征在于，对数据进行降维，包括：将k个时间段的n个指标展开到一个截面中，形成共计

个特征；然后进行主成分分析，实现对数据的降维。

6.如权利要求1所述的创伤失血性休克伤情的时间序列预测方法，其特征在于，在所述步骤S3中，采用混淆矩阵对对分类器进行评价，以得到最优分类器。

7.如权利要求1所述的创伤失血性休克伤情的时间序列预测方法，其特征在于，采用接受者操作特性曲线ROC曲线和模型评估指标AUC对所述预测模型的效能进行评价。

8.如权利要求1所述的创伤失血性休克伤情的时间序列预测方法，其特征在于，所述根据参数ts生成输入数据，根据参数m生成标签数据，包括：

（1）取一个伤员所有数据；

（2）取其中第i条数据，对第i条至第i+ts-1条数据进行数据降维、标准化，然后加入输入数据集，将第i+m条数据的状态加入标签数据集；如果数据长度不允许则不执行；如果使用GRU深度学习算法则不执行该步骤；

（3）对该伤员所有数据重复步骤（2）；

（4）对所有伤员重复步骤（1）~（3）；

（5）如果最终标签数据集中正样本数量远少于负样本，构成样本不均衡问题，则对负样本进行随机下采样，使正负样本数量平衡。