CN114662623B

CN114662623B - 基于XGBoost的凝血检测中血液样本的分类方法及系统

Info

Publication number: CN114662623B
Application number: CN202210572321.3A
Authority: CN
Inventors: 李登旺; 洪亭轩; 黄浦; 陆华; 高祝敏; 王醒; 李玉玲; 周顺风; 赵本靖
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2022-08-16
Anticipated expiration: 2042-05-25
Also published as: CN114662623A

Abstract

本发明提供一种基于XGBoost的凝血检测中血液样本的分类方法及系统，属于智慧医疗技术领域，通过获取待检测血液样本的凝血指标数据；将血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；利用基于XGBoost的分类器，根据检测项目特征获取待检测血液样本的凝血检测分类结果。本发明具备鲁棒性，充分利用凝血分析仪的各项数据特征，能够动态调整预警信息，具有预测速度快、预测准确度高的显著效果。

Description

基于XGBoost的凝血检测中血液样本的分类方法及系统

技术领域

本发明属于智慧医疗技术领域，具体涉及一种基于XGBoost的凝血检测中血液样本的分类方法及系统。

背景技术

随着人口老龄化的加剧，血栓性疾病检测和抗凝药物监测的需求不断提升，而凝血检测是血栓与止血临床筛查的主要指标。凝血检测通常采用凝固法、免疫比浊法和发色底物法对人体血浆进行凝血和抗凝、纤溶和抗纤溶功能的分析。常规凝血检测试验项目包括凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)、纤维蛋白原(FIB)和凝血酶时间(TT)、D二聚体（D-dimer）和纤维蛋白降解产物(FDP)。临床上在对患者进行凝血检测实验时，其血液标本的质量可直接影响检测的结果。血液标本存放的时间、进行离心的时间、是否发生溶血及标本采集人员和检测人员操作的规范性及熟练性等过程均会对检测结果造成影响。其中，血液标本中的血栓可能导致凝血检测结果产生偏差，这可能严重影响临床决策过程。虽然在离心前插入木棍或倒置采集管可以检测到部分血栓凝块，但这些方法在使用自动化流水线的实验室很难实践，并且增加了检测成本。

近年来，机器学习因其在诊断、医学图像识别和预测癌症等方面的高准确率而受到越来越多医学研究人员的关注。机器学习是通过研究算法和统计模型来对目标进行预测，依靠模式推理而不使用明确指令来执行特定的任务，能够基于样本数据建立数学模型，以便在没有被明确指令的情况下作出预测或决策。把机器学习技术应用到检验医学领域，被证明是一种有前途的早期诊断和个性化治疗的有效方法。其中，XGBoost（eXtremeGradient Boosting）即极限梯度提升是最常用的最大似然算法之一，它是一个高性能的梯度提升树模型，能够高效、灵活地进行复杂的非线性学习。与传统的GBDT（梯度提升决策树）算法相比，XGBoost加入了正则项来控制模型的复杂度，有利于防止模型过拟合、加快收敛速度，从而提高模型的泛化能力。XGBoost的算法特点非常适用于进行凝血检测分析，但是，现有技术中尚无基于XGBoost算法的凝血检测分析方法。

因此，亟需一种基于XGBoost算法的凝血检测分析方法。

发明内容

本发明提供一种基于XGBoost的凝血检测中血液样本的分类方法、系统、电子设备及存储介质，用以克服现有技术中存在的至少一个技术问题。

为实现上述目的，本发明提供一种基于XGBoost的凝血检测中血液样本的分类方法，方法包括：

获取待检测血液样本的凝血指标数据；所述凝血指标数据的凝血指标包括凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原、凝血酶时间、D二聚体和纤维蛋白降解产物；

将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；

利用基于XGBoost的分类器，根据所述检测项目特征获取待检测血液样本的凝血检测分类结果；其中，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化。

进一步，优选的，在获取待检测血液样本的凝血指标数据之后，还包括对凝血指标数据的预处理，包括：

对凝血指标数据进行归一化处理；

遍历所述归一化处理后的凝血指标数据，查找缺失值，并利用正向填充策略对所述缺失值进行填充；

进行异常值去除。

进一步，优选的，各个凝血指标的权重的确定方法，包括：

获取包括凝血指标数据的数据集；对所述数据集按照是否含有血栓凝块进行手动标记；

利用双侧T检验比较数据集中有血栓凝块的数据均值和无血栓凝块的数据均值；

在有血栓凝块的数据和无血栓凝块的数据两组数据之间以及两组数据中分别计算皮尔逊相关系数；

根据所述皮尔逊相关系数，利用Logistic回归估计确定各个凝血指标与是否存在血栓凝块间的相关性；

根据各个凝血指标与是否存在血栓凝块间的相关性确定进行特征提取的权重。

进一步，优选的，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化的步骤，包括：

实施5折交叉验证，得到5个XGBoost分类器模型；

利用训练集对所述5个XGBoost分类器模型进行训练，实现对血液样本状态的检测；其中，将所述预处理后的待检测血液样本的凝血指标数据划分为测试集和训练集；所述训练集分成五个子集，每个子集轮流用作内部验证集；

利用内部验证集对其他子集训练的XGBoost分类器模型进行预测精度评估；

使用贝叶斯网络对所述XGBoost分类器模型进行参数优化。

进一步，优选的，还包括对于训练好的基于XGBoost的凝血检测中血液样本的分类模型进行模型评价，包括：

通过内部验证集对其他子集训练的XGBoost分类器模型进行预测精度评估的过程中获取所述XGBoost分类器模型的预测值；

将每个测试样本的预测值和二进制真实值结合，得到平均工作特性曲线和基于XGBoost的凝血检测中血液样本的分类模型的混淆矩阵；

根据所述混淆矩阵，利用无梯度优化算法确定使训练集效用分数最大的截止阈值作为所述工作特性曲线的最佳阈值；

筛选符合所述最佳阈值的基于XGBoost的凝血检测中血液样本的分类模型的分类结果，作为待检测血液样本的凝血检测分类结果。

进一步，优选的，使用贝叶斯网络对所述XGBoost分类器模型进行参数优化采用下述四种策略中的一种或多种组合：

L2范数正则化、学习率衰减策略、丢失法和提前停止策略。

为了解决上述问题，本发明还提供一种基于XGBoost的凝血检测中血液样本的分类系统，包括：

数据获取单元，用于获取待检测血液样本的凝血指标数据；所述凝血指标数据的凝血指标包括凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原、凝血酶时间、D二聚体和纤维蛋白降解产物；

特征提取单元，用于将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；

检测结果确定单元，用于利用基于XGBoost的分类器，根据所述检测项目特征获取待检测血液样本的凝血检测分类结果；其中，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化。

进一步，优选的，包括数据预处理单元，用于对凝血指标数据进行归一化处理；遍历所述归一化处理后的凝血指标数据，查找缺失值，并利用正向填充策略对所述缺失值进行填充；进行异常值去除。

为了解决上述问题，本发明还提供一种电子设备，电子设备包括：

存储器，存储至少一个指令；及

处理器，执行存储器中存储的指令以实现上述的基于XGBoost的凝血检测中血液样本的分类方法中的步骤。

本发明还保护一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现如上述的基于XGBoost的凝血检测中血液样本的分类方法。

本发明的一种基于XGBoost的凝血检测中血液样本的分类方法、系统、电子设备以及存储介质，具有有益效果如下：

1）能够自动化地预测样本中是否含有血栓凝块，可以最大限度地降低实验室血液检测的错误率、缩短周转时间，并提高实验室效率；能够嵌入到医院信息系统中进行血液样本的分类，提高实验室凝血检测的准确性；利用机器学习技术来提高样本质量控制的自动化，最终促进临床实验室的自动化。

2）本发明根据医疗数据分析的方法充分利用凝血分析仪的各项数据特征，能够动态调整预警信息，具有预测速度快、预测准确度高的显著效果。

附图说明

图1为根据本发明实施例的基于XGBoost的凝血检测中血液样本的分类方法的流程示意图；

图2为根据本发明实施例的基于XGBoost的凝血检测中血液样本的分类方法的原理示意图；

图3为根据本发明实施例的凝血检测试验流程图；

图4为根据本发明实施例的基于XGBoost的凝血检测中血液样本的分类系统的逻辑结构框图；

图5根据本发明实施例的实现基于XGBoost的凝血检测中血液样本的分类方法的电子设备的内部结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本申请实施例可以基于人工智能技术和计算机视觉技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

具体的，作为示例，图1为本发明一实施例提供的基于XGBoost的凝血检测中血液样本的分类方法的流程示意图。参照图1所示，本发明提供一种基于XGBoost的凝血检测中血液样本的分类方法，该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。基于XGBoost的凝血检测中血液样本的分类方法，包括步骤S110~ S130。

具体地说，S110、获取待检测血液样本的凝血指标数据；所述凝血指标数据的凝血指标包括凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原、凝血酶时间、D二聚体（D-dimer）和纤维蛋白降解产物；S120、将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；S130、利用基于XGBoost的分类器，根据所述检测项目特征获取待检测血液样本的凝血检测分类结果；其中，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化。

图2为根据本发明实施例的基于XGBoost的凝血检测中血液样本的分类方法的原理示意图；如图2所示，首先，获取病人的原始数据，然后对所获取的病人原始数据进行数据分析和预处理；对预处理后的病人的原始数据划分成测试集和训练集；其中，所述训练集分成五个子集，每个子集轮流用作内部验证集。第二，利用训练集对基于XGBoost的凝血检测中血液样本的分类模型进行训练，其中，基于XGBoost的凝血检测中血液样本的分类模型包括多层次特征提取模块和XGBoost分类器和贝叶斯优化器；基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化，获取训练好的基于XGBoost的凝血检测中血液样本的分类模型。第三，利用内部验证集对其他子集训练的XGBoost分类器模型进行预测精度评估。具体地说，通过内部验证集对其他子集训练的XGBoost分类器模型进行预测精度评估的过程中获取所述XGBoost分类器模型的预测值；将每个测试样本的预测值和二进制真实值结合，得到平均工作特性曲线和基于XGBoost的凝血检测中血液样本的分类模型的混淆矩阵；根据所述混淆矩阵，利用无梯度优化算法确定使训练集效用分数最大的截止阈值作为所述工作特性曲线的最佳阈值；筛选符合所述最佳阈值的基于XGBoost的凝血检测中血液样本的分类模型的分类结果，作为待检测血液样本的凝血检测分类结果。

需要说明的是，XGBoost是一种基于决策树的集成机器学习算法，使用梯度提升框架，适用于分类和回归问题。具有速度快、效果好、能处理大规模数据、支持自定义损失函数等优点。但是由于XGBoost算法梯度提升速度过快，训练过程容易过拟合，所以通过使用多层次特征提取器来提取缺失数据的不同种类的特征，并且整合不同特征的信息再输入到分类器对样本进行分类。该分类器支持决策树中的并行计算，通过使用正则化模型具有足够的泛化能力。此外，XGBoost算法对稀疏数据具有特定的处理方法，有利于对缺失数据进行分类任务。在进行分类过程中使用基于Parzen窗估计的贝叶斯优化来建立概率模型，并选择最有希望的超参数，对模型最大深度、学习率和正则化系数进行了优化。

在具体的实施过程中，基于XGBoost的凝血检测中血液样本的分类方法包括步骤S110~S130。

S110、获取待检测血液样本的凝血指标数据；所述凝血指标数据的凝血指标包括凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原、凝血酶时间、D二聚体和纤维蛋白降解产物。

待检测血液样本的凝血指标数据的获取是利用凝血分析仪来实现的。图3示出了本实施中凝血检测试验流程图，如图3所示，将所获取的病人血液标本输入智能凝血仪器，通过智能凝血仪器的分析获取凝血指标数据，其中，所述凝血指标数据的凝血指标包括凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)、纤维蛋白原(FIB)、凝血酶时间(TT)、D二聚体（D-dimer）和纤维蛋白降解产物(FDP)。利用所获得的凝血指标数据对基于XGBoost的凝血检测中血液样本的分类模型（即基于XGBoost的血液样本的分类系统）进行分析，获取血液样本的凝血检测分类结果。最终，将所获取的血液样本的凝血检测分类结果应用至医院信息系统（LIS）中。也就是说，可以将基于XGBoost的凝血检测中血液样本的分类模型嵌入到医院信息系统中进行血液样本的分类，提高实验室凝血检测的准确性。

在具体的实施过程中，凝血检测通常由凝血仪器加入特定试剂来完成操作，凝血分析仪是对血栓和止血进行实验室检查的仪器。仪器采用百分比检测法检测血液凝固时间。把刚加入试剂，还没有发生凝固反应时的透射光强度定义为0%，凝固反应完全结束时的透射光强度定义为100%，把50%作为凝固时间。透射光强度水平达到预定值所需要的时间可以在反应曲线上得到，该时间为凝固时间。通过该方法得到凝血酶原时间(PT)、活化部分凝血活酶时间(APTT)、纤维蛋白原(FIB)和凝血酶时间(TT)、D二聚体（D-dimer）和纤维蛋白降解产物(FDP)等六项凝血检测指标。

通过从医院信息系统中回顾性收集匿名的凝血测试记录作为数据集。对于获取的数据集需要进行手动标注以及划分训练集和测试集。具体地说，在检测前手动筛选血液标本中是否含有血栓凝块，并给有凝块的标本和无凝块标本分别标记为二进制数1和0。随机分为三个子数据集，即训练集、验证集和局部测试集。并将测试数据集的正确率设置为1%，以模拟真实的实验室检测误差情况。

需要说明的是，在具体的实施过程中，对于获取的原始数据需要进行数据预处理。数据预处理的方法包括但不限于数据清理、数据集成及数据变换，在数据挖掘之前使用此类数据处理技术是会较大提高挖掘效果并在很大程度上降低挖掘所需要的时间。

在一个具体的实施例中，对凝血指标数据的预处理包括：对凝血指标数据进行归一化处理；遍历所述归一化处理后的凝血指标数据，查找缺失值，并利用正向填充策略对所述缺失值进行填充；进行异常值去除。具体地说，由于获取的匿名凝血测试记录包含数据缺失、格式不统一等问题，造成序列数据缺失，这给临床数据分析带来了障碍。首先需要对数据进行归一化处理，其次进行缺失值填充，即去除缺失值占90%以上的变量。然后再采用正向填充策略对缺失数据进行填充，采用五邻域缺失值插补，即缺失值前后五个值的平均值填充到缺失值位置。最后进行异常值的去除，把不符合正常认知范围的数值进行去除。

S120、将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征。

多层次特征提取模块的各个神经网络均可以由卷积层、池化层组成，各个神经网络的结构可以相同，也可以不同，本申请实施例对各个神经网络的具体结构不作限定。其中，低层次特征包含底层结构细节，高层次特征包含高层语义信息。在具体的实施过程中，使用sklearn库中的特征选择模块进行低层次特征选择，然后再根据主成分分析方法进行高层次特征选择。把低层次特征与高层次特征相结合，最后提取出与血液样本状态最相关的检测项目特征。

需要说明的是，各个凝血指标的权重的确定方法，包括：获取凝血指标数据的数据集；对所述数据集按照是否含有血栓凝块进行手动标记；利用双侧T检验比较数据集中有血栓凝块的数据均值和无血栓凝块的数据均值，并假设两个总体均值相等；在有血栓凝块的数据和无血栓凝块的数据两组数据之间以及两组数据中分别计算皮尔逊相关系数；根据所述皮尔逊相关系数，利用Logistic回归估计确定各个凝血指标与是否存在血栓凝块间的相关性；根据各个凝血指标与是否存在血栓凝块间的相关性确定进行特征提取的权重。总之，在得到凝血指标的与是否凝块的相关性后，在特征提取时对各项凝血指标分配不同的权重，例如相关性越高，特征提取时权重越大，在进行分类器训练时，相关性越高的凝血指标项目对整体分类效果影响也越大。

S130、利用基于XGBoost的分类器，根据所述检测项目特征获取待检测血液样本的凝血检测分类结果；其中，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化。

所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化的步骤，包括：S1311、实施5折交叉验证，得到5个XGBoost分类器模型；S1312、利用训练集对所述5个XGBoost分类器模型进行训练，实现对血液样本状态的检测；其中，将所述预处理后的待检测血液样本的凝血指标数据划分为测试集和训练集；所述训练集分成五个子集，每个子集轮流用作内部验证集；S1313、利用内部验证集对其他子集训练的XGBoost分类器模型进行预测精度评估；S1314、使用贝叶斯网络对所述XGBoost分类器模型进行参数优化。

具体地说，由于XGBoost分类器支持灵活和复杂的非线性学习，因此被用于训练血液样本分类模型。XGBoost是一种基于决策树的集成机器学习算法，该算法支持决策树中的并行计算，通过正则化使模型具有足够的泛化能力。在训练过程中实施K 折交叉验证（K =5），产生 5 个 XGBoost 模型，然后平均来自五个模型预测风险的集成方法被用于提高整体模型的稳定性。使用贝叶斯优化器调整模型变量，并选择最有希望的超参数，对最大深度、学习率和正则化系数进行优化。分类器模型由训练集以五次交叉验证的方式进行训练。具体地，将训练集分成五个子集，每个子集轮流用作验证集，以评估由其余子集训练的模型的预测精度。5折交叉验证得到5种不同的XGBoost分类器，每个分类器通过对数据集学习实现对血液样本状态的检测，并通过验证数据集使用贝叶斯优化得到改进。在XGBoost分类器中将目标选项指定为样本状态，以进行二进制的样本分类和概率输出。此外，为了避免过拟合，还采用了提前停止策略。最后，通过平均五个XGBoost模型的输出概率，以做出最终决策。

需要说明的是，使用贝叶斯网络对所述XGBoost分类器模型进行参数优化采用下述四种策略中的一种或多种组合：L2范数正则化、学习率衰减策略、丢失法和提前停止策略。深度学习模型的训练过程使用四种策略来减少模型过度拟合从而提升模型精度，包括（1）损失函数中加入L2范数正则化项，并优化该正则化项的强度；（2）在模型结构中添加丢失层(Dropout)，并优化其强度，随机使一部分神经元失活，避免模型过度依赖于特定的参数配置；（3）使用学习率衰减(Learning rate decay)策略，在模型权重学习过程中逐步降低学习率，避免模型陷入局部最优；（4）使用提前停止策略(Early stopping)，在模型避免模型过度训练导致过拟合，可以应用提前停止策略和dropout(丢弃率)(dropout大小为0.4)。

作为本实施例的改进，对于训练好的基于XGBoost的凝血检测中血液样本的分类模型进行模型评价，包括：S1321、通过内部验证集对其他子集训练的XGBoost分类器模型进行预测精度评估的过程中获取所述XGBoost分类器模型的预测值；S1322、将每个测试样本的预测值和二进制真实值结合，得到平均工作特性曲线和基于XGBoost的凝血检测中血液样本的分类模型的混淆矩阵；S1323、根据所述混淆矩阵，利用无梯度优化算法确定使训练集效用分数最大的截止阈值作为所述工作特性曲线的最佳阈值；S1324、筛选符合所述最佳阈值的基于XGBoost的凝血检测中血液样本的分类模型的分类结果，作为待检测血液样本的凝血检测分类结果。

具体地说，为了评估本发明提出的基于XGBoost的凝血检测中血液样本的分类方法的有效性和可靠性，分别计算了五个单独的XGBoost模型和集成模型在验证集上的得分。在评估过程中，本发明利用验证集的预测值来绘制受试者工作特性曲线(ROC)，并计算ROC的最佳阈值以进行二元连续预测。将每个样本的预测值和二进制真实值结合，得到平均ROC曲线和总体模型的混淆矩阵。通过使用无梯度优化算法来确定使训练集效用分数最大化的截止阈值，将截止阈值应用于验证集，以做出总体预测并评估分数。对分类器的分类结果进行评价，如果分类评价结果不满足所设定的阈值，将重新输入到分类器进行再次分类，直至满足分类评价要求，然后输出分类结果。

综上，本发明通过建立一种基于XGBoost的凝血检测中血液样本的分类方法，能够自动化地预测样本中是否含有血栓凝块，可以最大限度地降低实验室血液检测的错误率、缩短周转时间，并提高实验室效率；能够嵌入到医院信息系统中进行血液样本的分类，提高实验室凝血检测的准确性；利用机器学习技术来提高样本质量控制的自动化，最终促进临床实验室的自动化。本发明根据医疗数据分析的方法充分利用凝血分析仪的各项数据特征，能够动态调整预警信息，具有预测速度快、预测准确度高的显著效果。

与上述基于XGBoost的凝血检测中血液样本的分类方法相对应，本发明还提供一种基于XGBoost的凝血检测中血液样本的分类系统。图4示出了根据本发明实施例的基于XGBoost的凝血检测中血液样本的分类系统的功能模块。

如图4所示，本发明提供的基于XGBoost的凝血检测中血液样本的分类系统400可以安装于电子设备中。根据实现的功能，所述基于XGBoost的凝血检测中血液样本的分类系统400可以包括数据获取单元410、特征提取单元420和检测结果确定单元430。本发明所述单元也可以称之为模块，指的是一种能够被电子设备的处理器所执行，并且能够完成某一固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

数据获取单元410，用于获取待检测血液样本的凝血指标数据；所述凝血指标数据的凝血指标包括凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原、凝血酶时间、D二聚体（D-dimer）和纤维蛋白降解产物；

特征提取单元420，用于将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；

检测结果确定单元430，用于利用基于XGBoost的分类器，根据所述检测项目特征获取待检测血液样本的凝血检测分类结果；其中，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化。

进一步，包括数据预处理单元，用于对凝血指标数据进行归一化处理；遍历所述归一化处理后的凝血指标数据，查找缺失值，并利用正向填充策略对所述缺失值进行填充；进行异常值去除。

本发明所提供的上述基于XGBoost的凝血检测中血液样本的分类系统的更为具体的实现方式，均可以参照上述对基于XGBoost的凝血检测中血液样本的分类方法的实施例表述，在此不再一一列举。

本发明通过建立一种基于XGBoost的凝血检测中血液样本的分类方法，能够自动化地预测样本中是否含有血栓凝块，可以最大限度地降低实验室血液检测的错误率、缩短周转时间，并提高实验室效率；能够嵌入到医院信息系统中进行血液样本的分类，提高实验室凝血检测的准确性；利用机器学习技术来提高样本质量控制的自动化，最终促进临床实验室的自动化。本发明根据医疗数据分析的方法充分利用凝血分析仪的各项数据特征，能够动态调整预警信息，具有预测速度快、预测准确度高的显著效果。

如图5所示，本发明提供一种基于XGBoost的凝血检测中血液样本的分类方法的电子设备5。

该电子设备5可以包括处理器50、存储器51和总线，还可以包括存储在存储器51中并可在所述处理器50上运行的计算机程序，如基于XGBoost的凝血检测中血液样本的分类程序52。

其中，所述存储器51至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器51在一些实施例中可以是电子设备5的内部存储单元，例如该电子设备5的移动硬盘。所述存储器51在另一些实施例中也可以是电子设备5的外部存储设备，例如电子设备5上配备的插接式移动硬盘、智能存储卡（Smart Media Card，SMC）、安全数字（SecureDigital，SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器51还可以既包括电子设备5的内部存储单元也包括外部存储设备。所述存储器51不仅可以用于存储安装于电子设备5的应用软件及各类数据，例如基于XGBoost的凝血检测中血液样本的分类程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器50在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器50是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器51内的程序或者模块（例如基于XGBoost的凝血检测中血液样本的分类程序等），以及调用存储在所述存储器51内的数据，以执行电子设备5的各种功能和处理数据。

所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器51以及至少一个处理器50等之间的连接通信。

图5仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备5的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备5还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器50逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备5还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备5还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备5与其他电子设备之间建立通信连接。

可选地，该电子设备5还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备5中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备5中的所述存储器51存储的基于XGBoost的凝血检测中血液样本的分类程序52是多个指令的组合，在所述处理器50中运行时，可以实现：S110、获取待检测血液样本的凝血指标数据；所述凝血指标数据的凝血指标包括凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原、凝血酶时间、D二聚体（D-dimer）和纤维蛋白降解产物；S120、将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；S130、利用基于XGBoost的分类器，根据所述检测项目特征获取待检测血液样本的凝血检测分类结果；其中，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化。

具体地，所述处理器50对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。需要强调的是，为进一步保证上述基于XGBoost的凝血检测中血液样本的分类程序的私密和安全性，上述基于XGBoost的凝血检测中血液样本的分类程序存储于本服务器集群所处区块链的节点中。

进一步地，所述电子设备5集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

本发明实施例还提供一种计算机可读存储介质，所述存储介质可以是非易失性的，也可以是易失性的，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现：S110、获取待检测血液样本的凝血指标数据；所述凝血指标数据的凝血指标包括凝血酶原时间、活化部分凝血活酶时间、纤维蛋白原、凝血酶时间、D二聚体（D-dimer）和纤维蛋白降解产物；S120、将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；S130、利用基于XGBoost的分类器，根据所述检测项目特征获取待检测血液样本的凝血检测分类结果；其中，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化。

具体地，所述计算机程序被处理器执行时具体实现方法可参考实施例基于XGBoost的凝血检测中血液样本的分类方法中相关步骤的描述，在此不赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等，区块链可以存储医疗数据，如个人健康档案、厨房、检查报告等。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于XGBoost的凝血检测中血液样本的分类方法，其特征在于，包括：

将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；其中，各个凝血指标的权重的确定方法，包括：

根据各个凝血指标与是否存在血栓凝块间的相关性确定进行特征提取的权重；

2.如权利要求1所述的基于XGBoost的凝血检测中血液样本的分类方法，其特征在于，在获取待检测血液样本的凝血指标数据之后，还包括对凝血指标数据的预处理，包括：

对凝血指标数据进行归一化处理；

进行异常值去除。

3.如权利要求1所述的基于XGBoost的凝血检测中血液样本的分类方法，其特征在于，所述基于XGBoost的分类器通过贝叶斯网络，采用5折交叉验证的方式进行参数优化的步骤，包括：

实施5折交叉验证，得到5个XGBoost分类器模型；

利用训练集对所述5个XGBoost分类器模型进行训练，实现对血液样本状态的检测；其中，将预处理后的待检测血液样本的凝血指标数据划分为测试集和训练集；所述训练集分成五个子集，每个子集轮流用作内部验证集；

使用贝叶斯网络对所述XGBoost分类器模型进行参数优化。

4.如权利要求3中所述的基于XGBoost的凝血检测中血液样本的分类方法，其特征在于，还包括对于训练好的基于XGBoost的凝血检测中血液样本的分类模型进行模型评价，包括：

5.如权利要求4中所述的基于XGBoost的凝血检测中血液样本的分类方法，其特征在于，使用贝叶斯网络对所述XGBoost分类器模型进行参数优化采用下述四种策略中的一种或多种组合：

L2范数正则化、学习率衰减策略、丢失法和提前停止策略。

6.一种基于XGBoost的凝血检测中血液样本的分类系统，其特征在于，包括：

特征提取单元，用于将所述血液样本的凝血指标数据输入预训练的基于XGBoost的凝血检测中血液样本的分类模型中，对所述血液样本的凝血指标数据，按照预设的各个凝血指标的权重进行低层次特征和高层次特征提取，并将提取的低层次特征和高层次特征进行融合，获取检测项目特征；其中，各个凝血指标的权重的确定方法，包括：获取包括凝血指标数据的数据集；对所述数据集按照是否含有血栓凝块进行手动标记；利用双侧T检验比较数据集中有血栓凝块的数据均值和无血栓凝块的数据均值；在有血栓凝块的数据和无血栓凝块的数据两组数据之间以及两组数据中分别计算皮尔逊相关系数；根据所述皮尔逊相关系数，利用Logistic回归估计确定各个凝血指标与是否存在血栓凝块间的相关性；根据各个凝血指标与是否存在血栓凝块间的相关性确定进行特征提取的权重；

7.如权利要求6中所述的基于XGBoost的凝血检测中血液样本的分类系统，其特征在于，包括数据预处理单元，用于对凝血指标数据进行归一化处理；遍历所述归一化处理后的凝血指标数据，查找缺失值，并利用正向填充策略对所述缺失值进行填充；进行异常值去除。

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5中任一所述的基于XGBoost的凝血检测中血液样本的分类方法中的步骤。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的基于XGBoost的凝血检测中血液样本的分类方法。