CN113555124A

CN113555124A - 一种基于机器学习的血常规样本差值核查方法

Info

Publication number: CN113555124A
Application number: CN202011473586.5A
Authority: CN
Inventors: 陈超; 宋彪; 王哲
Original assignee: Inner Mongolia Weishu Data Technology Co ltd
Current assignee: Inner Mongolia Weishu Data Technology Co ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-10-26

Abstract

本发明公开了一种基于机器学习的血常规样本差值的核查方法，涉及检验医学领域。针对临床出现的血液样本采集过程中的标签贴错、仪器故障、样本传输不当等因素引起的标本错误，或者病人的输液侧抽血等情况导致的血液样本无效，传统的实时质量控制方法需要设置复杂的审核规则，存在计算复杂、检验效率低和准确率低的不足。本发明通过机器学习算法在大数据的支撑下，将两次的样本差值作为模型分类依据训练模型，以代替传统差值核验算法，提高检验医学实验室在差值核验上的效率与精度。

Description

一种基于机器学习的血常规样本差值核查方法

技术领域

本发明涉及检验医学领域，具体涉及一种综合血常规指标，基于机器学习的血常规样本差值的核查方法。

背景技术

临床出现的血液样本采集过程中的标签贴错、仪器故障、样本传输不当等因素引起的标本错误，或者病人的输液侧抽血等情况导致的血液样本无效，导致病人结果与临床情况不符，可能使得临床决策错误从而导致医疗事故。获取样本检验结果之后，需要对所述样本检验结果进行审核，判定样本检验结果的有效性、对样本检验结果进行分类并确认其是否需要进一步检测。可疑或异常的样本检验结果可能对技术人员的工作流程有重大影响。有疑问或异常结果的样本检验结果可能需要由技术人员重新进行检验，以确认样本检验结果的有效性或判定样本检验结果的性状。此外，某些样本检验结果会导致后续的检验被指示或取消。例如，异常低或高的样本检验结果会被要求重新进行之前执行的检验，以确认之前的样本检验结果是否正确。进行检验、评估样本检验结果、重新进行检验、重新计算样本检验结果以及将样本检验结果报告给医疗人员的此过程使管理实验室的任务及其工作流程成为复杂的任务。

传统的核查方法是给指标设置差值（delta）限，delta check核查发现的问题通常分为2种情况，一种为真阳性，即delta值超出允许限是由样本识别、检测操作、结果报告等环节的错误引起的；另一种为假阳性，即delta值超出允许限是由疾病或治疗的生理反应引起的。通过对患者标本前后结果的比较，可发现错误或排除错误、避免重复检测，在不增加成本的基础上，发现分析前或分析后错误，提高了室内质控的效率，是临床实验室在检测质控物的基础上可采用的其他室内质控方法之一。这种方法可有效地检查出样本混淆、结果传输以及报告等方面发生的错误，从而监测分析前和分析后的误差。但是，现有技术中对样本检验结果的自动审核的自动审核方法均需自行设置复杂的检验条件，不易于用户操作，不仅导致审核效率低、而且容易导致审核出现错误。

发明内容

本发明提出了一种通过血常规所有指标差值对样本实时确认的方法，审核效率高且操作方便。目的在于解决现有的针对检验医学实验室实时质量控制方法检验效率和准确率低，无法满足临床医学的质量控制要求。针对现有研究关于差值检验研究中的不足，提出一种基于机器学习分类器的样本质量识别方法。

本发明通过采集多家医院在不同时段内的病人血常规样本集，经过统计各指标的个体生物变异范围进行样本筛选。构建包括24项检验指标，正确配对与错误配对下两种类型的样本集，引入样本类型对应标签，通过划分训练组和实验组，利用机器学习分类器实现预测样本是否合格的功能，其中被预测为异常的样本可归结为配对错误、样本污染、异常生物变异三种情况，步骤如下。

1、对数据预处理，研究24项指标的分布情况，信息熵权，提取主要特征指标。

2、机器学习分类模型的选型，依据“一对二”策略实现数据的二分类。

3、寻找各指标数据中的最大值元素与最小值元素，计算各指标的特征向量，将处于多种数量级的不同类型指标数据进行离差标准化处理。

4、将医疗信息采集系统中获取的血常规数据配对操作，同一个人前后两次的差值按正常样本标记，随机搭配的两个人各自前后的样本差值按异常样本标记。

5、将总样本集按照8:2的比例划分训练组与实验组，训练组用于支持向量机分类器的训练，实验组用于分类识别其样本类型。

6、将训练组输入到机器学习分类模型中进行训练，通过优化对参数调优，采用交叉验证法评估模型。

7、将实验组数据输入到机器学习模型中，获得每个实验组的样本差值类型识别结果。

所述步骤1中，血液样本在血常规检测下的各指标数量级、均值、方差、分布值各不相同，血液中MCV（红细胞的平均体积）、MCH（红细胞平均血红蛋白量）、MCHC（红细胞平均血红蛋白浓度）比较稳定，而WBC（白细胞数）、PLT（血小板数）的波动较大，稳定的参数更适用于delta check开展室内质控，因此有必要在建模前先分析各指标的信息贡献程度，按权重对各数据进行重塑。

研究各变量的贡献度，引入信息熵进行分析。信息熵是随机变量不确定性的度量，是一种评估信息离散程度的准则，计算公式如下所示。

。

式中，假设某一概率系统有个事件；[0，1]，表示信息熵值，单位为bit；表示第i种状态可能出现的概率。

熵权法的基本思路是根据指标变异性的大小来确定客观权重。一般来说，若某个指标的信息熵越小，表明指标值得变异程度越大，提供的信息量越多，在综合评价中所能起到的作用也越大，其权重也就越大。相反，某个指标的信息熵越大，表明指标值得变异程度越小，提供的信息量也越少，在综合评价中所起到的作用也越小，其权重也就越小。

假设指标值为

，其中

，将各个指标的数据进行标准归一化处理。

。

随后一组数的信息熵由下式计算：

。

其中，

，如果

，则定义

。

计算各个指标的信息熵后，通过信息熵计算各指标的权重。

。

所述步骤2中，如果有多个输入特征向量，每个特征向量之间相互独立，即当前特征向量的分类器输出仅仅和当前的特征向量输入有关，则凭经验应选择基于线性函数和距离函数的分类器和线性回归、支持向量机算法（SVM）、贝叶斯等。反之，如果特征向量之间存在复杂的相互关系，那么决策树和神经网络更加适合于这类问题。以下以支持向量机为例进行描述。

机器学习中的SVM在低维和高维数据空间上工作良好。它能有效地对高维数据集工作，因为SVM中的训练数据集的复杂度通常由支持向量的数量而不是维度来表征。即使删除所有其他训练示例并重复训练，将获得相同的最佳分离超平面。

针对输入样本

，支持向量机对于

与

之间的偏差有一个容忍阈值

，即只有当

与

之间的绝对偏差大于

时，才计算其损失。在

的两边构建一个宽度为

的范围，在训练过程中，若有样本落入这个范围，则认为该结果是正确的，不计入损失。

VM分类问题转化为约束优化问题。

。

在式中，

表示正则化常数，

表示不敏感损失函数，

表示模型输出，

是目标输出值。

不敏感损失函数数学表达式为。

。

在式中，

表示输入与输出的偏差的容忍阈值。

在实际中，并不是所有的样本点都满足阈值

，针对这一问题，在公式中引入两个松弛变量

和

，得到公式。

。

引入拉格朗日算子

（

），由拉格朗日乘子法可得拉格朗日函数。

。

将式

代入，再令

对

的偏导为零可得。

，

，

，

。

进而得到SVR的对偶问题表达式。

。

以上过程中必须满足KKT（最优解必要条件）前提，即要求。

。

因此，当且仅当

时，

能取非零值。只有当样本

不在

这个范围区间内，相应的

和

可以取非零值。否则，约束条件中的

和

不能同时成立，因此

和

中至少有一个为零。

针对

，SVM分界面的解形如。

。

可以使式

的样本即为SVM的支持向量，它们必落在

区间之外。很明显，支持向量仅仅是训练样本中的一部分，即其解仍具有稀疏性。

由KKT条件可知，对每个样本都有。

且

。

于是，在得到

后，若

，则必有

，进而有。

。

因此，在求解得到

后，理论上说，可任意选取满足

的样本求得

。实践中常采用一种更加鲁棒性的办法：选择满足

条件的多个（或所有）样本来求解

然后求平均值。

若考虑特征映射形式，则有如下关系。

。

代入

，则SVM分界面可由下表示。

。

其中

为核函数。

由上式可发现，给定训练样本

，若不考虑偏移项

，所得的模型总能表示成核函数

的线性组合。

因此，原始样本数据线性不可分，即无法用一条直线或分离超平面将两类分开。但是对原始数据采用非线性变换ϕ(x)，非线性变换将原始数据从低维映射到高维，高维上数据就可能变得线性可分。

所述步骤3中，在多指标评价体系中，由于各评价指标的性质不同，通常具有不同的量纲和量级。当各指标间的水平相差很大时，如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。因此，为了保证结果的可靠性，需要对原始指标数据进行标准化处理。

数据的标准化是很多多元统计方法必要的前期工作，计算公式如下表示。

。

经过处理的数据符合标准正态分布，即均值为 0，标准差为 1 。其中μ为所有样本数据的均值，σ为所有样本数据的标准差。计算时对每个特征分别进行。将数据按特征（按列进行）减去其均值，并除以其方差。得到的结果是，对于每个特征来说所有数据都聚集在0附近，方差为1。

所述步骤4中，从院方的样本采集系统中获取样本之后，近万个病人的前后两次指标，筛选整理后得到配对样本，阳性为正确配对的同源样本集，阴性为错误配对异源样本集，按8：2随机分配训练集与测试集，训练组用于支持向量机分类器的训练，实验组用于分类识别其负荷类型。

所述步骤5中，通过计算机软件程序进行样本训练，导入训练数据，规定样本的格式为前n-1维表示样本训练数据，第n维表示样本训练标签。采用二分类的策略进行样本的训练。

在机器学习模型中，需要人工选择的参数称为超参数。超参数选择不恰当，就会出现欠拟合或者过拟合的问题。如果手工调制超参数，直到找到一个好的超参数组合会非常冗长，所以使用GridSearchCV来搜索优参。

首先提供一个较小的超参数值域，这些超参数至于的笛卡尔积（排列组合）为一组组超参数。网格搜索算法使用每组超参数训练模型并挑选验证集误差最小的超参数组合。

在每次的训练结束后进行交叉验证，评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力（generalize），避免过拟合问题。

交叉验证采用k-CV原则，做法是将数据集分成k个子集，每个子集均做一次测试集，其余的作为训练集。k-CV交叉验证重复k次，每次选择一个子集作为测试集，并将k次的平均交叉验证识别率作为结果。其目的是所有的样本都被作为了训练集和测试集，每个样本都被验证一次。

为了验证模型的精度，设立以下评估指标：真阳性（True Positive，TP）：指被分类器正确分类的正例数据真阴性（True Negative，TN）：指被分类器正确分类的负例数据；假阳性（False Positive，FP）：被错误地标记为正例数据的负例数据；假阴性（FalseNegative，FN）：被错误地标记为负例数据的正例数据。直观的意义如下表：

具体设立如下几项评估准则。

精确率，所有分正确的正样本/所有预测为正类的样本数，计算公式如下。

。

召回率，所有分正确的正样本/所有的正样本数，计算公式如下。

。

F1-score，中和了二者的评估精确率和召回率的指标，计算公式如下。

。

ROC曲线：即受试者工作特征曲线(receiver operating characteristiccurve)，可反映敏感性和特异性连续变量的综合指标，是用构图法揭示敏感性和特异性的相互关系，通过将连续变量设定出多个不同的临界值，从而计算出一系列敏感性和特异性，再以敏感性为纵坐标、“1减去特异性”为横坐标绘制成曲线，曲线下面积越大，诊断准确性越高。在ROC曲线上，最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

AUC即为ROC曲线下的面积，其计算公式如下。

。

其中M为正类样本的数目，N为负类样本的数目，

是样本i模型预测概率的排名。

附图说明

图1是本发明基于机器学习分类算法的血常规差值识别方法的流程图。

图2是训练时对模型的调参流程图。

图3是测试样本的ROC曲线及AUC数值。

具体实施方式

以下结合附图及具体实施方式进一步补充说明本发明。

如图1所示，本发明基于机器学习分类的血常规差值识别方法的流程如下。

1、从多家院方系统采集到的病人检验样本，通过大数据库提取并清洗样本集。对齐每个患者的最近时段内的前后两次结果。在选定的患者集合中，将患者之间随机组合配对，这一类型的匹配近似于许多类型上的“错误样本”，为进一步模拟和测试，按不同错配比率配置标本，尽管这个错误率远高于实际值，但是错配率不影响评定的灵敏度。

2、进一步研究分析血常规各项指标差值的相关性，通过信息熵权重对数据进行重塑，标准化（归一）处理各项差值数值。

3、建立机器学习分类模型时，可采用的算法有逻辑回归分类、KNN分类、云计算分类、贝叶斯分类、决策树、支持向量机分类、神经网络分类、深度神经网络分类等，依据二分类策略实现数据的分类。

4、引入随机因子，按照8：2的比例乱序抽取样本，划分为训练组与测试组。所述步骤6中，通过计算机软件程序进行样本测试，与步骤5中训练样本数据格式类似，导入测试数据，测试样本的格式为前n-1维表示样本训练数据，第n维表示样本训练标签。输出结果给出了测试样本的类型标签，对应样本的合格识别结果。

5、将训练组输入到机器学习中进行训练并通过优化算法和交叉验证进行调优。以支持向量机为例，通过网格搜索法对以下参数进行优化：kernel类型范围设定为linear（线性核函数）、poly（多项式核函数）、rbf（径向基核函数）、sigmoid（神经元的非线性作用核函数）；C与gamma范围设定为若干个2的整数幂集。最终实验后确定的最佳参数为：C=1.64，kernel='rbf'，gamma=0.07。

6、将检验组数据输入到机器学习分类器中，为保证检验的合理性，需要将两种类别分别的数量均衡。以支持向量机为例，最终多次实验检测的准确率为：0.90，AUC=0.95，检验的ROC曲线如图3所示。评估准则如下表：

综上所述，本发明将机器学习分类算法应用到血常规的样本差值检测中。该方法是一种有标签的分类方法，避免了传统的单指标Delta check弊端，且识别过程不再需要人工进行，提高了审核效率。

Claims

1.一种基于机器学习分类算法的血常规样本差值核验方法，其特征在于：将两次的样本、差值作为模型分类依据，实现对样本质量的识别，其中被预测为异常的样本可归结为配对错误、样本污染、异常生物变异三种情况。

2.根据权利要求1所述的基于机器学习算法分类的血常规差值质量识别方法，其特征在于：所述检验样本数据为医院的实验室血常规各项检验指标数据。

3.所述样本的数据预处理过程包括数据区域转置、数据缺失值填补和变量筛选。

4.根据权利要求2所述的基于机器学习分类算法的血常规样本识别方法，其特征在于：将合适的样本数据配对操作，同一个人前后两次的差值按正常样本标记，随机搭配的两个人各自前后的样本差值按异常样本标记。

5.根据权利要求3所述的基于机器学习分类算法的血常规样本识别方法，其特征在于：对血常规下的各分类指标信息熵权，依据权重对样本重塑。

6.使得处理后的负荷数据处在统一的阈值范围内。

7.根据权利要求1所述的基于机器学习分类算法的血常规样本识别方法，其特征在于：建立机器学习分类器模型，依据二分类策略实现数据的分类。

8.可采用的算法有逻辑回归分类、KNN分类、云计算分类、贝叶斯分类、决策树、支持向量机分类、神经网络分类、深度神经网络分类等，依据二分类策略实现数据的分类。

9.根据权利要求4所述的基于机器学习分类算法的血常规样本识别方法，其特征在于：按照8:2的比例划分训练组与实验组，训练组用于机器学习分类模型的训练，实验组用于检测模型的辨别能力。

10.根据权利要求5所述的基于机器学习分类算法的血常规样本识别方法，其特征在于：将训练组输入到模型中进行训练；在每次的训练结束后进行交叉验证，为评估统计分析、机器学习算法对独立于训练数据的数据集的泛化能力，避免过拟合问题。

11.交叉验证一般要尽量满足两点：训练集的比例要足够多，一般大于一半；训练集和测试集要均匀抽样。