CN117497182A

CN117497182A - 基于机器学习及体征时序的创伤性脑损伤结局预测系统

Info

Publication number: CN117497182A
Application number: CN202310967032.8A
Authority: CN
Inventors: 袁红斌; 丁瑞丰; 韦华伟
Original assignee: Shanghai Changzheng Hospital
Current assignee: Shanghai Changzheng Hospital
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2024-02-02

Abstract

本发明涉及智能系统技术领域，提出一种基于机器学习及体征时序的创伤性脑损伤结局预测系统，包括：数据获取模块、特征提取模块、数据处理模块、机器学习训练模块；以及重症创伤性脑损伤结局预测模块。本发明根据基于机器学习的结果，基于临床电子健康记录(EHR)数据和体征时序(PTS)信号，预测危重TBI患者的临床结局，预测结局包括住院死亡率、出院时的神经功能状态以及住重症监护室时间延长(PLOS)。

Description

基于机器学习及体征时序的创伤性脑损伤结局预测系统

技术领域

本发明总的来说涉及智能系统技术领域。具体而言，本发明涉及一种基于机器学习及体征时序的创伤性脑损伤结局预测系统。

背景技术

创伤性脑损伤(TBI)是指由交通事故、跌倒、运动或战争等引起的颅内损伤。全球每年约有6900万例TBI患者，造成了大量的死亡和残疾。据统计，约10％的TBI病例需要在重症监护室(ICU)中进行治疗。针对TBI，在早期对患者的预后进行预测以便实施及时有效的治疗措施是相当重要的一环。在此，术语“预后”是指根据病人当前状况来推估未来经过治疗后可能的结局。

现有技术中，通常使用APACHE IV评分来预测危重病患者的疾病严重程度和预后。然而临床上在使用APACHE评分的过程中，存在难以及时获得所需计算指标的问题，例如急诊科收治的TBI患者常处于昏迷状态，难以及时收集APACHE评分计算所需的有关既往史和家族史的详细信息。此外，计算APACHE评分需要收集100多个变量指标，由于医疗资源有限，在收集过程中存在困难。

由于统计理论和计算机技术的进步，目前机器学习在临床领域中得到了广泛的应用。然而，大多数机器学习所针对的数据是不同时间点相同变量的重复测量(纵向数据)，只有少于8％的预测模型使用纵向数据作为时间变化的协变量，而被忽略的这些高维度、纵向、时间变化的协变量已被证实可以用于改善预测结果，例如应用在心血管疾病(CVD)风险预测中。

发明内容

为至少部分解决现有技术中的上述问题，本发明提出一种基于机器学习及体征时序的创伤性脑损伤结局预测系统，包括：

数据获取模块，其被配置为从数据库中获取危重创伤性脑损伤患者数据；

特征提取模块，其被配置为根据所述危重创伤性脑损伤患者数据提取临床电子健康记录(EHR)数据以及体征时序信号(PTS)特征；

数据处理模块，其被配置为对所述临床电子健康记录数据以及体征时序信号特征进行处理以用于机器学习；

机器学习训练模块，其被配置为根据所述临床电子健康记录数据以及体征时序信号特征，使用机器学习模型针对危重创伤性脑损伤患者临床结局进行训练；以及

危重创伤性脑损伤患者结局预测模块，其被配置为根据训练后的机器学习模型预测危重创伤性脑损伤患者结局。

在本发明一个实施例中规定，所述数据获取模块被配置为执行下列动作的一项或者多项以从数据库中获取危重创伤性脑损伤患者数据：

从数据库中选择诊断为创伤性脑损伤后进入重症监护病房的患者数据，其中对于多次进入重症监护室的患者，只选择其第一次进入重症监护病房的数据；

选择年龄在18至89岁之间的患者数据；

选择在重症监护病房中停留时间超过24小时的患者数据；

选择具有可用的体征时序信号的患者数据；以及

选择在入院后有格拉斯哥昏迷评分记录，并且在出院前24小时内有格拉斯哥昏迷评分记录的患者数据。

在本发明一个实施例中规定，所述数据库包括eICU-CRD数据库以及MIMIC-III数据厍。

在本发明一个实施例中规定，所述临床电子健康记录数据包括：人口统计学数据、实验室检查数据、生命体征数据以及医疗治疗数据。

在本发明一个实施例中规定，所述体征时序信号特征包括：脉搏氧饱和度(Sp02)、心率(HR)、收缩压(SBP)、舒张压(DBP)以及呼吸频率(RR)。

在本发明一个实施例中规定，所述特征提取模块被配置为执行下列动作以根据所述危重创伤性脑损伤患者数据提取体征时序信号特征：

去除所述危重创伤性脑损伤患者数据中的异常数据；

使用缺失森林算法(missForest)进行缺失值插补；

进行体征时序数据输出文件标准化；

基于高度比较时间序列分析(HCTSA)算法处理体征时序信号数据；

以及

输出体征时序信号衍生特征。

在本发明一个实施例中规定，所述数据处理模块被配置为执行下列动作以对所述临床电子健康记录数据以及体征时序信号特征进行处理：

使用合成少数过采样算法(SMOTE)通过过度采样增加少数类别的临床电子健康记录数据的数量；

对于临床电子健康记录数据，排除仅存在于一个数据库中的临床变量，以及排除缺失值超过30％的数据；

基于高度比较时间序列算法分析生成体征时序信号衍生特征；

使用套索回归正则化算法进行特征选择；以及

去除方差膨胀因子算法评估值(VIF)大于10的临床电子健康记录数据以及体征时序信号衍生特征。

在本发明一个实施例中规定，所述机器学习模型包括：K最近邻模型(KNN)、多层感知器模型(MLP)以及极端梯度提升模型(XGBoost)。

在本发明一个实施例中规定，所述危重创伤性脑损伤患者临床结局包括住院死亡率、出院时的神经功能状态以及住重症监护室时间延长(PLOS)。

本发明还提出一种计算机系统，其包括：

处理器，其被配置为执行计算机可读指令；以及

存储器，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时执行如下步骤：

从数据库中获取危重创伤性脑损伤患者数据；

根据所述危重创伤性脑损伤患者数据提取临床电子健康记录数据以及体征时序信号特征；

对所述临床电子健康记录数据以及体征时序信号特征进行处理以用于机器学习；

根据所述临床电子健康记录数据以及体征时序信号特征，使用机器学习模型针对危重创伤性脑损伤患者临床结局进行训练；以及

根据训练后的机器学习模型预测危重创伤性脑损伤患者临床结局。

应当指出，本发明并不涉及疾病的诊断和治疗方法，而是仅仅提供了与医疗相关的信息，属于智能系统，也就是说，本发明既不旨在确定患者的疾病，也不旨在提供用于诊断疾病的某种参数或指标，亦不是一种疾病初筛方法。相反，本发明的方案所提供的信息不能用于疾病的诊断和治疗，而是相应的诊断和治疗应当由医院/医生向用户提供。

本发明至少具有如下有益效果：本发明提出了一种基于机器学习及体征时序的创伤性脑损伤结局预测系统，其基于临床电子健康记录数据和体征时序信号，预测危重TBI患者的临床结局，预测的结局包括住院死亡率、出院时的神经功能状态以及住重症监护室时间延长。此外，本发明使用可解释的机器学习算法技术来阐明表现最佳的模型并获得有价值的临床见解。这些发现使用多中心的eICU-CRD数据库进行训练和测试，并使用MIMIC-III数据库进行外部验证。

附图说明

为进一步阐明本发明的各实施例中具有的优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出了实现根据本发明的系统的计算机系统。

图2示出了本发明一个实施例中一个基于机器学习及体征时序的创伤性脑损伤结局预测系统的示意图。

图3A示出了本发明一个实施例中对数据库中的样本和数据进行处理的过程示意图。

图3B示出了本发明一个实施例中提取PTS特征的过程示意图。

图3C示出了本发明一个实施例中基于机器学习的创伤性脑损伤结局预测的流程示意图。

图4示出了本发明一个实施例中选择的分别用于预测三种临床结局的临床指标和PTS衍生特征的示意图。

图5、图6、图7示出了本发明一个实施例中各个预测模型在每个临床结局中的性能示意图。

图8示出了本发明一个实施例中的特征重要性图。

图9示出了本发明一个实施例中由HCTSA算法生成的PTS衍生特征类别的示意图。

图10示出了本发明一个实施例中使用Venn图进行分析描述的示意图。

图11示出了本发明一个实施例中使用SHAP依赖图进行分析描述的示意图。

图12示出了本发明一个实施例中对于住院死亡率的风险因素的分析示意图。

图13示出了本发明一个实施例中对于出院时神经功能状态的风险因素的分析示意图。

图14示出了本发明一个实施例中对于PLOS的风险因素的分析示意图。

图15示出了本发明一个实施例中一个在线预测工具的界面示意图。

具体实施方式

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

下面结合具体实施方式参考附图进一步阐述本发明。

图1示出了实现根据本发明的系统的计算机系统100。如非特殊说明，根据本发明的系统可以在图1所示的计算机系统100中执行以实现本发明目的，或者本发明可以在多个根据本发明的计算机系统100中通过网络、如局域网或因特网分布式地实现。本发明的计算机系统100可以包括各种类型的计算机系统、例如手持式设备、膝上型计算机、个人数字助理(PDA)、多处理器系统、基于微处理器或可编程消费者电子设备、网络计算机(PC)、小型机、大型机、网络服务器和平板计算机等等。

如图1所示，计算机系统100包括处理器111、系统总线101、系统存储器102、视频适配器105、音频适配器107、硬盘驱动器接口109、光驱接口113、网络接口114、通用串行总线(USB)接口112。系统总线101可以是若干种总线结构类型的任一种，例如存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。系统总线101用于各个总线设备之间的通信。除了图1中所示的总线设备或接口以外，其它的总线设备或接口也是可设想的。系统存储器102包括只读存储器(ROM)103和随机存取存储器(RAM)104，其中ROM 103例如可以存储用于在启动时实现信息传输的基本例程的基本输入/输出系统(BIOS)数据，而RAM 104用于为系统提供存取速度较快的运行内存。计算机系统100还包括用于对硬盘110进行读写的硬盘驱动器109、用于对诸如CD-ROM之类的光介质进行读写光驱接口113等等。硬盘110例如可以存储有操作系统和应用程序。驱动器及其相关联的计算机可读介质为计算机系统100提供了计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。计算机系统100还可以包括用于图像处理和/或图像输出的视频适配器105，其用于连接显示器106等输出设备。计算机系统100还可以包括用于音频处理和/或音频输出的音频适配器107，其用于连接扬声器108等输出设备。此外，计算机系统100还可以包括用于网络连接的网络接口114，其中网络接口114可以通过诸如路由器115之类的网络装置连接到因特网116，其中所述连接可以是有线或无线的。另外，此外，计算机系统100还可以包括用于连接外围设备的通用串行总线接口(USB)112，其中所述外围设备例如包括键盘117、鼠标118以及其它外围设备、例如麦克风、摄像头等。

当本发明在图1所述的计算机系统100上实现时，可以根据机器学习的结果，基于临床电子健康记录数据和体征时序信号特征，预测TBI患者的临床结局，预测结局包括住院死亡率、出院时的神经功能状态以及住重症监护室时间延长。

此外，可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、紧致盘只读存储器(CD-ROM)和磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但这不是必需的。

在本发明中，根据本发明的系统的各模块可以使用软件、硬件、固件或其组合来实现。当模块使用软件来实现时，可以通过计算机程序流程来实现模块的功能，例如模块可以通过存储在存储设备(如硬盘、内存等)中的代码段(如Python、PHP等语言的代码段)来实现，其中当所述代码段被处理器执行时能够实现模块的相应功能。当模块使用硬件来实现时，可以通过设置相应硬件结构来实现模块的功能，例如通过对现场可编程逻辑门阵列(FPGA)等可编程器件进行硬件编程来实现模块的功能，或者通过设计包括多个晶体管、电阻和电容等电子器件的专用集成电路(ASIC)来实现模块的功能。当模块使用固件来实现时，可以将模块的功能以程序代码形式写入设备的诸如EPROM或EEPROM之类的只读存储器中，并且当所述程序代码被处理器执行时能够实现模块的相应功能。另外，模块的某些功能可能需要由单独的硬件来实现或者通过与所述硬件协作来实现，例如检测功能通过相应传感器(如接近传感器、加速度传感器、陀螺仪等)来实现，信号发射功能通过相应通信设备(如蓝牙设备、红外通信设备、基带通信设备、Wi-Fi通信设备等)来实现，输出功能通过相应输出设备(如显示器、扬声器等)来实现，以此类推。

图2示出了本发明一个实施例中一个基于机器学习及体征时序的创伤性脑损伤结局预测系统的示意图。如图2所示，该系统包括数据获取模块201、特征提取模块202、数据处理模块203、机器学习训练模块204以及创伤性脑损伤结局预测模块205。

其中，所述数据获取模块201被配置为从数据库中获取危重创伤性脑损伤患者数据。所述特征提取模块202被配置为根据所述创伤性脑损伤患者数据提取临床电子健康记录数据以及体征时序信号特征。所述数据处理模块203被配置为对所述临床电子健康记录数据以及体征时序信号特征进行处理以用于机器学习。所述机器学习训练模块204被配置为根据所述临床电子健康记录数据以及体征时序信号特征，使用机器学习模型针对危重创伤性脑损伤患者临床结局进行训练。所述危重创伤性脑损伤患者结局预测模块205被配置为根据训练后的机器学习模型预测危重创伤性脑损伤患者结局。

下面结合附图详细说明该系统的运行过程。

图3A示出了本发明一个实施例中对数据库中的样本和数据进行处理的过程示意图。图3B示出了本发明一个实施例中提取PTS特征的过程示意图。图3C示出了本发明一个实施例中基于机器学习及体征时序的创伤性脑损伤结局预测的流程示意图。如图3A-C所示，其中首先从数据库中选择患者数据，其中所有患者数据均来自eICU-CRD(版本v2.0)数据库和MIMIC-III(版本v1.4)数据库。数据识别的纳入标准包括：在TBI后入住ICU；年龄在18至89岁之间；住ICU时间超过24小时；有PTS信号可用；入院后有格拉斯哥昏迷评分(GCS)记录，并在出院前24小时内有GCS记录。其中对于多次进入ICU中的患者，只对其第一次进入ICU时的数据进行分析。

进一步地，使用结构化查询语言(SQL)从两个数据库中提取TBI患者在ICU的第一个24小时内的临床变量以进行进一步分析。提取收集的EHR数据包括人口统计学数据、实验室检查数据、生命体征数据以及医疗治疗数据。

对eICU-CRD数据库中的PTS数据以5分钟间隔进行记录，包括脉搏氧饱和度(Sp02)、心率(HR)、收缩压(SBP)、舒张压(DBP)和呼吸频率(RR)。同样，从MIMIC-III波形数据库中提取MIMIC-III数据库中TBI患者相应的PTS数据。本发明重点关注TBI患者进入ICU后的第一个24小时内的上述五种PTS数据。表1示出了从elCU-CRD数据库中提取得到的EHR特征。表2示出了从MIMIC-III数据库中提取得到的EHR特征。

表1和表2中的数据是百分比n(％)或者平均值(SD)，对于数据中的连续变量通过双侧学生t检验或者曼-惠特尼U检验进行检验，对于分类变量则通过卡方或者费舍尔精确检验进行检验。表1中*＝P＜0.05，PLOS表示住ICU时间延长，HR表示心率，SBP表示收缩压，DBP表示舒张压，MBP表示平均血压，RR表示呼吸频率，Sp02表示氧饱和度，PTT表示部分凝血活酶时间，INR表示国际标准化比率，PT表示凝血酶原时间，BUN表示血尿素氮，WBC表示白细胞。

表1

表2

进一步地，针对三个临床结果进行研究，其中包括住院死亡率、出院时的神经功能状态以及住ICU时间延长(PLOS)。其中出院时的神经功能结局使用出院时格拉斯哥昏迷评分(GCS)的肢体运动亚评分(mGCS)进行评估，其中良好结局定义为mGCS得分为6，不良结局定义为mGCS得分≤5。住ICU时间延长(PLOS)被定义为一个二元变量，其根据所有研究参与者住ICU时间排序的75％进行划分。在eICU-CRD队列中，住ICU时间大于或等于5天被视为PLOS，而在MIMIC-III队列中，住ICU时间大于或等于16天被视为PLOS。

进一步地，进行数据处理。为了减少由于缺失数据引入的潜在偏差，从最终队列中排除缺失值比例超过30％的EHR变量。对于其余变量，使用缺失森林算法(missForest)进行缺失值插补。

此外，为了解决类别不平衡问题，使用合成少数过采样算法通过过度采样增加少数类别的样本数量，最终的输入特征集包括63个患者的临床特征。

随后，基于高度比较时间序列分析(HCTSA)算法处理PTS数据，其中计算了超过7700个特征，所述特征包括曲线形状、局部平均值、对称性、突变和峰值计数等。表3示出了本发明一个实施例中执行的HCTSA操作。

此外，将eICU-CRD患者数据随机分成两个不同的数据集：包括70％的患者的训练数据集，其用于特征选择和模型训练；以及包括剩余30％的患者的测试数据集，其用于评估模型的性能。表4示出了训练数据集和测试数据集中每个建模任务的基线特征。

表3

表4

/>

进一步地，为了减少模型复杂度并揭示每个结局中的潜在数据模式，并且提取包含最大信息内容的特征子集，使用了套索回归正则化算法进行特征选择。通过交叉验证确定正则化系数Iambda，并且选择了产生最佳预测性能的Iambda值。此外，在结合EHR数据和PTS数据时，使用方差膨胀因子算法(VIF)评估所选特征之间的多重共线性，以确保模型训练中包含的特征的VIF值都小于10。

本发明使用了三个机器学习模型(ML)：K最近邻(KNN)、多层感知器(MLP)以及极端梯度提升(XGBoost)。其中针对住院死亡率、出院时的神经功能状态以及住ICU时间延长(PLOS)，使用EHR数据、PTS数据以及两者的组合在训练集中训练这些模型。表5示出了本发明一个实施例中预定义的超参数。为了优化训练模型的性能，可以通过调整预定义的超参数进行模型调整。超参数调整是在训练集循环内使用10次交叉验证进行的。

表5

/>

在模型的训练过程中，以接收器操作特征(ROC)曲线下面积(AUROC)作为主要评估指标。此外，本发明也使用了其他常见的评估指标，包括决策曲线分析(DCA)、灵敏度、特异度、F1分数、准确度、阳性预测值(PPV)和阴性预测值(NPV)等。为了确保严格的验证过程，评估模型的泛化能力和稳健性，使用了MIMIC-III数据库进行外部验证。此外，将最优机器学习(ML)模型与传统评分系统例如APACHE IV、APS III、GCS和SOFA评分进行了比较。

为了确保精确的预测，机器学习模型使用了复杂的算法和数学模型公式。应用可解释算法对机器学习模型构建中使用的相关临床特征进行特征挖掘，有助于验证特征是否对实际临床情况具有可解释性和合理性，并进一步用于提示临床决策干预。在本发明中，使用沙普利加法解释(SHAP)算法计算每个特征的SHAP值，分配重要性得分以促进模型解释和指导临床决策。

在本发明的一个实施例中，对两个数据库中的所有患者进行筛选，其中包括eICU-CRD数据库中的4,809个TBI ICU入院数据和MIMIC-III数据库中的2,812个TBI ICU入院数据。表6示出了本发明一个实施例中一个TBI队列的特征和结果分布。在根据排除标准后排除部分数据后，共有1,085名患者最终被纳入研究队列。

表6

在进行多重共线性检查后，确保所包含指标的VIF值均小于10，如图4所示。最终，如图4A所示，选择了32个临床指标和8个PTS变量来预测住院死亡率。对于神经功能状态结局，如图4B所示，选择了29个临床指标和23个PTS衍生特征。最后，如图4C所示，对于住ICU时间延长(PLOS)，选择了13个临床指标和11个PTS变量。

图5、图6、图7以及表7示出了所有预测模型在每个临床结局中的性能。在图5中，图5A、D、G示出了住院死亡率的情况，图5B、E、H示出了神经功能状态的情况，图5C、F、I示出了PLOS的情况。在图6中，图6A、D示出了住院死亡率的情况，图6B、E示出了神经功能状态的情况，图6C、F示出了PLOS的情况。在图7中，图7A、D、G示出了住院死亡率的情况，图7B、E、H示出了神经功能状态的情况，图7C、F、l示出了PLOS的情况。评估过程包括不同的特征子集(包括仅EHR、仅PTS和组合EHR和PTS)以及各种评分系统(如APACHE IV、APS III、GCS和SOFA)。结果表明，单独的EHR数据在三个建模任务中均实现了最佳AUC值大于0.8，分别为0.869、0.863和0.803。EHR和PTS数据的组合增强了所有ML模型的预测性能，相对于仅使用EHR数据，AUROC的最高增加率为16.3％。在三个ML模型中，XGBoost模型表现出最高的判别能力，在预测住院死亡率、神经功能结局和PLOS方面的AUROC分别为0.878、0.877和0.835。此外，DCA曲线表明，XGBoost模型实现了最佳净收益。

表7

为了全面评估模型的预测性能，将本发明提出的系统与几个现有评分系统进行了全面比较。其中仅使用EHR数据已经实现了与现有评分系统相当甚至更好的神经功能结局和PLOS性能。在预测住院死亡率方面，APACHE IV评分系统表现出令人印象深刻的预测性能，具有最高的AUROC(0.908)。尽管本发明提出的优化后的模型在AUROC上略微下降约3％，但在灵敏度方面仍优于APACHE IV(0.911vs 0.889)。考虑到18.2％的住院死亡率，本发明的模型更好地避免了假阴性的问题，并有潜力改善高风险患者的识别。

此外，与传统的评分系统相比，本发明提出的优化后的模型在预测神经功能状态结局以及预测PLOS方面表现更好。具体而言，在神经功能状态结局方面，本发明相对于评分系统实现了3.2％的AUROC增加。对于PLOS，本发明提出的模型表现出显著的改进，AUROC增加了5.7％。此外，本发明的模型在PLOS结果中展示了显著的实用性，具有最高的PPV(0.554)和NPV(0.904)。

本发明使用SHAP算法直观地展示了每个临床特征对最优模型XGBoost预测的三个临床结局的重要性。图8显示了特征重要性图，其中包括按重要性降序排列的排名前20的EHR和PTS变量。在图8中，图8A示出了住院死亡率的情况，图8B示出了神经功能状态的情况，图8C示出了PLOS的情况。

就住院死亡率和神经功能状态结局而言，机械通气的使用与否是最重要的因素，而入院24小时内的最高温度与PLOS状态有关。如图9所示，其中总结了由HCTSA计算生成的PTS衍生特征数据类别。就所有临床结局而言，影响住院死亡率的PTS特征主要是HR、SBP和SP02；影响神经功能结局的主要PTS特征是SBP，DBP是影响PLOS的主要PTS特征。进一步观察发现，在预测神经功能结局的前20个EHR和PTS变量中，PTS变量占了相当大的比例，达到了60％。这加强了本发明的假设，也就是说这些PTS特征对最终模型性能的贡献是不可或缺的。

此外，为了获得影响所有临床结局的EHR因素的精确形式，本发明提供了使用韦恩(Venn)图和沙普利加法解释(SHAP)依赖图进行更好的临床解释的详细描述。分析结果如图10和图11所示。在图11中，图11A-F示出了住院死亡率的情况，图11G-L示出了神经功能状态的情况，图11M-R示出了PLOS的情况。总之，对于三种所有临床结局，最大INR、机械通气、最大血糖值、体温和尿量在预测模型中均发挥作用。对于住院死亡率，高水平的最大血小板值、最小碳酸氢盐值、最小肌酐值和硬膜下血肿以及低水平的最小血氯值、最大RR和最大WBC是单个风险因素(见图12)。关于出院神经功能状态结局，高水平的最小BUN和最小血小板数以及低水平的最大血红蛋白、最小spo2和使用血管加压药被确定为单个风险因素(见图13)。对于PLOS，高水平的最小血细胞比容和最大血氯值以及低水平的最大碳酸氢盐值被确定为单个风险因素(见图14)。

尽管有临床指导，但在不同的机构(甚至在同一ICU内)的TBI患者的急性护理有相当大的差别。与eICU-CRD队列相比，在MIMIC-III队列中的外部验证表现出了下降的趋势：在MIMIC-III队列中最优模型预测住院死亡率的AUROC为0.779，神经功能结局为0.78，PLOS为0.769，分别下降了9.9％、9.7％和6.6％。外部验证结果的总结可以见表8。总体来说，在外部验证中，模型总体AUC识别率仅降低了6-10％，这也说明了本发明最终模型性能的稳健性和可泛化性。

表8

考虑到临床实用性和EHR数据可以提供相当甚至超越传统评分系统的性能，本发明基于最优预测模型XGBoost和24小时内的EHR特征提出了一种紧急TBI预测工具(www.tbi-prophet.com)，其可以用于三个临床结局的预测。该系统允许批量预测，并基于自动生成的唯一ID进行结果查询。系统界面如图15所示。

根据本发明可知，ML算法和24小时内的临床数据对于预测重症TBI患者未来临床事件具有价值。本发明提供的的模型在三个临床结局(住院死亡率、出院时的神经功能状态结局和PLOS)方面表现出了优异的预测性能。这种性能在当前临床预后模型中并不常见，其中体征时序数据的纳入是这种改进的关键。本发明具有几个优点：1.使用了特定的患者队列(即具有创伤性脑损伤的危重患者)，而不是一般人群队列；2.使用的数据基于临床实际例行检查的临床特征，消除了对额外变量(例如APACHE评分，需要收集142个变量)的需求；3.可解释算法的应用可以提供监测患者临床状态快速变化和辅助治疗决策制定的见解；4.本发明还提供一种具有高预测性能的简化在线工具，可在临床环境中使用。

一些特征分析的探索性研究表明，对体征信号进行更详细的检查，例如曲线形状、局部平均值、对称性、突变和峰值计数，可以提供有关患者临床轨迹的有价值信息。本发明进一步强调了在住ICU后第一个24小时内收集PTS数据的潜在隐藏信息。虽然ML在TBI患者预后方面得到了广泛发展，但PTS尚未应用于这种模型。在本发明中，筛选了eICU-CRD和MIMIC-III数据库中的所有患者，并采用了1000多名TBI患者作为研究对象。通过ML技术和HTCSA分析进行了临床结局分析和验证。

鉴于个体临床特征的高度可变性和异质性，包含在风险评估预测中的特征的临床解释对于实现临床适用性至关重要，需要向医生提供ML决策过程的透明度和可追溯性。在本发明中，使用SHAP算法对传统的预测变量以及一些此前未使用的变量进行识别。其中，一些EHR变量对我们对三个临床结果的预测有显着贡献。治疗TBI的临床共识表明，使用血管加压素类药物可以维持适当的脑灌注压(CPP)，减少进一步损伤，改善患者预后和结果。然而，使用机械通气可能导致呼吸机相关性肺炎(VAP)，并可能影响患者的临床进展。此外，温度控制是必要的，因为异常体温也会影响患者的神经功能。监测尿量至关重要，因为TBI患者的功能障碍和泌尿动力学异常与不良结局相关。此外，TBI患者血糖水平升高可能与病情严重程度和预后有关，需要监测脑葡萄糖水平以预测继发性缺血的可能性并反映治疗效果。此外，凝血功能障碍是TBI患者常见并发症之一，保持INR在正常水平有助于改善治疗结果和预后。这些发现在某种程度上与当前主流报告相一致，并间接验证了我们采用的方法背后的原理以及准确性。

值得注意的是，除了上述变量之外，可能还有其他对个体结果具有特殊意义的影响因素。对于住院死亡率，可以确定硬膜下血肿和白细胞计数为潜在的关键因素。与本发明的发现类似，现有的研究也报告了硬膜下血肿与死亡率增加之间的强关联。此外，白细胞计数升高被认为是严重炎症反应的指标，因此监测和更好地管理全身性感染可能会潜在地降低TBI患者的死亡率。关于TBI患者出院时的神经功能结局，本发明观察到血尿素氮(BUN)和脉搏氧饱和度(Sp02)的关键作用。急性肾损伤是TBI后最常见和最严重的并发症之一。以前的研究表明，颅内压(ICP)监测可以指导曼尼托尔的使用以保护肾功能。此外，研究发现，TBI对死亡率的影响随着高氧水平而变化。然而，目前没有研究探讨BUN、SpO2与TBI患者神经功能结局之间的关系。PLOS是TBI严重程度的重要反映。本发明确定的一些指标在TBI死亡率方面的影响受到了更多关注，例如血氯、碳酸氢盐和血红蛋白。这些指标对PLOS的意义需要进一步探索。全面监测和管理这些关键临床特征对于治疗TBI患者至关重要。但是，需要强调的是，本发明分析得到的特征与临床结果之间的关系主要是相关性，并且实施适当的干预措施和确认因果关系。

需要注意本发明的几个局限性。首先，它基于对过去数据的回顾性分析，这可能引入偏差和混杂因素，未记录或缺失的数据的存在可能会影响结果。其次，该研究仅考虑了住ICU后第一个24小时内的电子病历数据，并未考虑治疗过程中后续护理强度和生命维持治疗的影响。此外，机器学习算法的有效性受到数据集和训练模型的大小、质量和复杂性的影响，决策过程可能难以解释。最后，机器学习算法的预测能力在应用于新数据集时可能受到限制。尽管存在这些局限性，但本研究采用了SHAP进行解释性分析并进行了外部验证，为TBI患者的电子病历分析和应用提供了新的见解，并有潜力指导未来的临床实践和决策。

总之，本发明基于电子病历和PTS数据训练的ML模型可以成功预测TB I患者的住院死亡率、出院时的神经功能状态和PLOS。高分辨率的I CU患者体征时序数据包含了有价值的隐藏信息。此外，本发明提出的模型是可解释的，并揭示了几个潜在相关的预后特征，值得进一步探索。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种基于机器学习及体征时序的创伤性脑损伤结局预测系统，其特征在于，包括：

特征提取模块，其被配置为根据所述危重创伤性脑损伤患者数据提取临床电子健康记录数据以及体征时序信号特征；

危重创伤性脑损伤患者结局预测模块，其被配置为根据训练后的机器学习模型预测危重创伤性脑损伤患者临床结局。

2.根据权利要求1所述的基于机器学习及体征时序的创伤性脑损伤结局预测系统，所述数据获取模块被配置为执行下列动作的一项或者多项以从数据库中获取危重创伤性脑损伤患者数据：

从数据库中选择诊断为创伤性脑损伤后进入重症监护病房的患者数据，其中对于多次进入重症监护病房的患者，只选择其第一次进入重症监护病房的数据；

选择年龄在18至89岁之间的患者数据；

选择在重症监护病房中停留时间超过24小时的患者数据；

选择具有可用的体征时序信号的患者数据；以及

3.根据权利要求2所述的基于机器学习及体征时序的创伤性脑损伤结局预测系统，其特征在于，所述数据库包括eICU-CRD数据库以及MIMIC-III数据厍。

4.根据权利要求3所述的基于机器学习及体征时序的创伤性脑损伤结局预测系统，其特征在于，所述临床电子健康记录数据包括：人口统计学数据、实验室检查数据、生命体征数据以及医疗治疗数据。

5.根据权利要求4所述的基于机器学习及体征时序的创伤性脑损伤结局预测系统，其特征在于，所述体征时序信号特征包括：脉搏氧饱和度、心率、收缩压、舒张压以及呼吸频率。

6.根据权利要求5所述的基于机器学习及体征时序的创伤性脑损伤结局预测系统，其特征在于，所述特征提取模块被配置为执行下列动作以根据所述危重创伤性脑损伤患者数据提取体征时序信号特征：

去除所述危重创伤性脑损伤患者数据中的异常数据；

使用缺失森林算法进行缺失值插补；

进行体征时序数据输出文件标准化；

基于高度比较时间序列分析算法处理体征时序信号数据；以及

输出体征时序信号特征。

7.根据权利要求6所述的基于机器学习及体征时序的创伤性脑损伤结局预测系统，所述数据处理模块被配置为执行下列动作以对所述临床电子健康记录数据以及体征时序信号特征进行处理：

使用合成少数过采样算法通过过度采样增加少数类别的临床电子健康记录数据的数量；

对于临床电子健康记录数据，排除仅存在于一个数据库中的临床变量，并且排除缺失值超过30％的数据；

使用套索回归正则化算法进行特征选择；以及

去除方差膨胀因子算法评估值大于10的临床电子健康记录数据以及体征时序信号衍生特征。

8.根据权利要求7所述基于机器学习及体征时序的创伤性脑损伤结局预测系统，其特征在于，所述机器学习模型包括：K最近邻模型、多层感知器模型以及极端梯度提升模型。

9.根据权利要求8所述的基于机器学习及体征时序的创伤性脑损伤结局预测系统，其特征在于，所述创伤性脑损伤患者临床结局包括住院死亡率、出院时的神经功能状态以及住重症监护室时间延长。

10.一种计算机系统，其特征在于，包括：

处理器，其被配置为执行计算机可读指令；以及

从数据库中获取危重创伤性脑损伤患者数据；

根据训练后的机器学习模型预测危重创伤性脑损伤患者结局。