CN114330859A

CN114330859A - 一种实时质量控制的优化方法、系统和设备

Info

Publication number: CN114330859A
Application number: CN202111593922.4A
Authority: CN
Inventors: 段昕岑; 郭玮; 潘柏申; 王蓓丽; 蒋文海; 谭笑
Original assignee: Zhongshan Hospital Fudan University
Current assignee: Zhongshan Hospital Fudan University
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-12

Abstract

本发明提供一种实时质量控制的优化方法、系统和设备，在导出原始检验实验数据，进行预处理和清洗后，采用失控模拟的方式在数据中随机选取失控模拟的数据起始点，并在起始点后选取一段数据添加误差值；基于失控数据对实时质量控制模型进行模拟，根据模拟结果筛选优化模型；最后采用群体搜索算法评价实时质量控制模型性能，以此优化模型参数，相比于现有的网格搜索算法，本发明能更快速、更高效、更准确的确定实时质量控制模型的参数。

Description

一种实时质量控制的优化方法、系统和设备

技术领域

本发明涉及检验医学技术领域，具体涉及一种实时质量控制的优化方法、系统和设备。

背景技术

质量是检验医学实验室管理的生命线，为临床和患者提供稳定、准确的检验结果是实验室质量管理的重要一环。传统质量控制方法，即实验室内质控(IQC)，通过在一天中按规定进行一到多次检测，预估检测仪器在每次质控之间的情况。大多情况下，由于成本限制，IQC无法及时发现问题，导致错误样本发出。实时质量控制模型(PBRTQC)在IQC的基础上，通过监测病人样本的检测结果来评估检测系统的稳定性，在不同的时间点监控仪器的检测情况。

实时质量控制模型(PBRTQC)的参数选取是由人工完成，通过实验室工作人员长期积累的经验，对模型参数的取值进行模糊的估计，再使用估计的参数建立模型后，根据实际应用的效果对参数进行不断地优化。现有技术的参数优化算法主要采用网格搜索法，但网格搜索法十分低效，需要花费大量计算资源对模型参数进行优化。且网格搜索仅能实现离散优化，很难找到最优解。因此，我们希望提出效率和效果更优的方法实现PBRTQC模型参数优化。

发明内容

本发明的目的是提供一种实时质量控制的优化方法、系统和设备，更快速、更高效、更准确实现实时质量控制模型参数的优化。

为了达到上述目的，本发明一方面提供一种实时质量控制的优化方法，其特征在于，包括以下步骤：

导出原始实验数据，进行预处理和清洗；

在数据中随机选取失控模拟的数据起始点，并在起始点后选取一段数据添加误差值；

基于失控数据对实时质量控制模型进行模拟，根据模拟结果筛选优化模型；

采用群体搜索算法评价实时质量控制模型性能，以此优化模型参数。

进一步的，所述数据的误差值包括绝对值误差，计算公式如下：

其中x为检测结果、TEa为总允许误差、n为误差系数以控制引入误差的大小，x’为引入误差后的结果。

进一步的，所述数据的误差值包括百分比误差，计算公式如下：

x′＝x×(1+n×TEa)

进一步的，基于未添加误差值的正常数据对实时质量控制模型进行模拟，根据模型的假阳性报警率评价模型，所述假阳性报警率的计算公式(FAR)为：

FAR＝假阳性报警数/总样本数。

进一步的，基于添加误差值的正常数据对实时质量控制模型进行再次模拟，计算模拟数据中误差所需患者样本数后求平均值获得发现误差所需平均患者样本数(ANPed)，根据ANPed评价模型性能，选择最小ANPed的模型为优化模型。

进一步的所述群体搜索算法包括以下步骤：

随机选取模型的参数组合，生成100个实时质量控制模型；

采用体格函数评价多个实时质量控制模型；

获取性能排名前10的模型作为父辈，随机交配和变异进行传代，生成100个子辈模型；

采用体格函数对子辈模型进行评估，获取性能排名前10的子辈模型；

重复上述传代和评估过程，直到体格函数达到性能收敛或特定传代数。

进一步的，所述实时质量控制模型模型的参数组合包括上截断值、下截断值、浮动计算样本量。

另一方面，本发明还提出一种实时质量控制的优化系统，包括：

数据处理模块，数据导出原始实验数据，进行预处理和清洗；

失控模拟模块，在数据中随机选取失控模拟的数据起始点，并在起始点后选取一段数据添加误差值；

模型评价模块，基于失控数据对实时质量控制模型进行模拟，根据模拟结果筛选优化模型；

参数优化模块，采用群体搜索法评价实时质量控制模型性能，以此优化模型参数。

另一方面，本发明还提出一种电子设备，包括处理器和用于存储处理器可执行指令的存储器，所述存储器所存储的可执行指令被配置为执行如权利要求1到7所述任一项所述的实时质量控制的优化方法的步骤。

另一方面，本发明还提出一种一种存储装置，所述存储介质存储有多条指令，所述指令适

于处理器进行加载，以执行权利要求1至7任一项所述的实时质量控制的优化方法中的步骤。

本发明提供一种实时质量控制的优化方法、系统和设备，在导出原始实验数据，进行预处理和清洗后，采用失控模拟的方式在数据中随机选取失控模拟的数据起始点，并在起始点后选取一段数据添加误差值；基于失控数据对实时质量控制模型进行模拟，根据模拟结果筛选优化模型；最后采用群体搜索算法评价实时质量控制模型性能，以此优化模型参数，相比于现有的网格搜索算法，本发明能更快速、更高效、更准确的确定实时质量控制模型的参数。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种实时质量控制的优化方法的方法流程图。

图2是本发明参数优化流程的示意图。

图3是本发明一种实时质量控制系统的系统框架图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。、

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

如果申请文件中出现“第一/第二”的类似描述则增加以下的说明，在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本发明提供一种实时质量控制的优化方法，系统及设备，提出使用非微分参数优化法对实时质量控制模型进行高效的优化。实时质量控制模型的主要评价指标为平均发现错误所需患者样本数(ANPed)，但由于要通过计算患者数量来计算ANPed，因此ANPed的计算公式是离散的，无法使用微分法进行参数优化，加上参数中也存在离散变量，因此使用非微分参数优化法是最佳的选择。，本发明采用群体搜索算法在随机搜索算法上进一步增加了群体和选择的模式，通过模拟自然选择等方法快速找到最优解。

在一个具体实施例中，为了便于实验室检测人员在工作时使用，本发明采用PC设备作为运行本发明方法的电子设备，该电子设备包括：处理器和用于存储处理器可执行指令的存储器。其中，存储器所存储的可执行指令被配置为用以运行本发明实时质量控制的优化方法的程序，该微程序可与其他终端、服务器或其它形态的设备进行数据通信，以完成后台的程序计算。

图1本发明一种实时质量控制的优化方法的方法流程图。如图1所示，本发明一种实时质量控制的优化方法包括以下步骤：

S101，数据清理。

在一个具体的实施例中，需要从实验室信息系统中提取至少1年的数据，然后数据进行适当的预处理和清洗，去除重复数据、非患者样本的检测数据、仪器故障或失控情况下的检测数据，保证数据按照真实情况的顺序排列，确保数据都是在在控的条件下生成的。

此外，根据数据的时间点进行划分，将数据分割为训练集和测试集，分割时保留数据的时间信息，确保测试集数据晚于训练集数据。

S102，失控数据模拟。

具体的，在数据中随机选取失控模拟的数据起始点，并在起始点后选取一段数据添加误差值。

如图2所示，选取失控的起始点后，在起始点后1000个数据点中加入误差。

优选的，由于PBRTQC模型是浮动均值模型，在失控起始点前应保留一段未加误差的数据(依据所用浮动均值的算法决定)以保证模拟的真实性。由此完成失控模拟数据块的建立。

可以理解的是，检验医学实验室中常见有三种误差表现形式，定值误差、百分比误差和随机误差。

通常来说PBRTQC仅能检测定值误差和百分比误差，这两种误差的计算公式如下，

绝对值误差

百分比误差

x′＝x×(1+n×TEa)

其中x为检测结果，TEa为总允许误差，是检验医学实验室对每个检测项目能允许检测出现的最大误差，n为误差系数以控制引入误差的大小，x’为引入误差后的结果。

S103，模型性能评价。

具体的，在对模型参数优化之前我们需要选择合适的性能指标对模型性能进行评价。PBRTQC模型的性能评价包括在控(正常)数据模拟和失控数据模拟两个步骤。

其中，在控数据模拟使用假阳性报警率(false alarm rate，FAR)评价在控情况下的模型性能。PBRTQC模型通过确定一个合理的假阳性报警率为目标，用于确定PBRTQC模型的控制线。FAR是在未加误差的在控数据上评估的，FAR计算公式为：

FAR＝假阳性报警数/总样本数

具体的，失控数据模拟是通过发现误差所需平均患者样本数(average number ofpatient until error detected，ANPed)评价失控时模型的性能。

在每一段失控模拟数据可以记录从误差加入起始点到PBRTQC模型发现误差的点中间的患者样本数，通常计算1000段失控模拟数据块上发现误差所需患者样本数后求平均值获得ANPed。

在得到在控数据和失控数据模拟结果后，在最大允许误差条件下的ANPed作为模型选取的标准，最小ANPed的模型将作为优化结果。

S104，模型参数优化。

本发明采用群体搜索算法评价实时质量控制模型性能，以此优化模型参数。

在一个具体的实施例中，PBRTQC模型在使用浮动均值、浮动中值、指数加权浮动均值这一类算法时通常有3个参数组合需要优化，分别为上截断值(upper truncationlimit，UTL)、下截断值(lower truncation limit，LTL)以及浮动计算样本量(N)，以下以浮动均值算法为例说明优化方法。

首先，设定预定连续的搜素空间，如N取5-200、UTL取0％-40％、LTL取60％-100％，在扩宽选择的可能的同时增加优化的效率。

然后，随机选取参数组合(如100个参数组合)，生成100个PBRTQC模型，并使用体格函数评价100个模型的性能，作为起始群体。之后在这100个模型中，取性能排名前10的模型作为父辈，随机交配和变异进行传代，生成100个模型作为子辈。变异和交配是模拟遗传学中DNA遗传过程的随机方法，变异则是在父辈的参数中进行随机的修改，交配是将父辈变异后的参数进行计算获得新的子辈，如下，

父辈：A:{N＝5,LTL＝10％,UTL＝95％},B:{N＝35,LTL＝15％,UTL＝83％}

变异

A:{N＝10,LTL＝5％,UTL＝90％},B:{N＝30,LTL＝15％,UTL＝80％}

交配

{N＝(10+30)/2＝20,LTL＝(5％+15％)/2＝10％,UTL＝(90％+80％)/2＝85％}

子辈：{N＝20,LTL＝10％,UTL＝85％}

获得新的子辈后对子辈性能进行体格函数评估，并将子辈中新能最好的10个模型作为新的父辈进行下一传代过程。之后反复重复该过程直到体格函数或性能收敛或到达特定的传代数。群体搜索算法中，每一代的群体个数、父辈占比、变异比例、收敛条件、最大传代数都可以根据优化的情况进行调整。

本发明采用群体搜索方法与现有技术的网格搜索相比，采用以下实验进行验证：

从复旦大学附属中山医院检验科信息系统提取了血钠2019年全年数据，433186条分别使用网格搜索和群体搜索算法进行浮动均值算法进行PBRTQC建模。网格搜索的参数取值范围为N:5-200(步长为1)、LTL:0％-40％(步长为1％)、UTL：60％-100％(步长为1％)，群体搜索算法取相同范围，但取连续区间。我们通过实验计算，建立和评估一个PBRTQC模型的平均时间为2.4秒，在不利用并行运算时，网格搜索算法需要计算195x 40x 40x 2.4秒＝748800秒或者8.6天的时间获取最优解显然过于耗时。因此将网格搜索取值步长进行调整，减少搜索范围，N:5-200(步长为5)、LTL:0％-40％(步长为2％)、UTL：60％-100％(步长为2％)。这样需要大约10小时完成了网格搜索。同时我们测试了群体搜索算法，我们将群体搜索算法群体数设置为200、父辈比例为10％、变异率为40％、连续5次传代体格函数不变定义收敛、最大传代数为15。我们重复了5次群体搜索算法与网格搜索进行比较，网格搜索和群体搜索算法的结果如下表：

从表中可知，群体搜索算法可以在限制了搜索范围的网格搜索法的基础上再提高1000％的搜索速度，并且由于简化版网络搜索无法获得最佳结果，群体搜索算法获取的模型性能也更好。

在另一个实施例中，模型在优化之后需要对模型实际性能进行估计，以保证模型对未来数据预测的泛化性。模型的验证分两个部分，一是在测试集通过模拟误差的方法计算模型的假阳性报警率和偏倚检测曲线，二是将模型应用到实际工作场景，计算实际工作中的假阳性报警率和阳性预测值。模拟验证中需要观察模型性能在测试集和训练集中是否差异过大，若差异过大则需谨慎使用。在实际验证中则需要一段时间的适用，在模型每次报警时对警报进行评估，判断是否为假阳性或真阳性报警。

图3是本发明一种实时质量控制系统的系统框架图。如图3所示，本发明还提出一种实时质量控制的优化系统，包括：

数据处理模块101，数据导出原始实验数据，进行预处理和清洗。

失控模拟模块102，在数据中随机选取失控模拟的数据起始点，并在起始点后选取一段数据添加误差值。

模型评价模块103，基于失控数据对实时质量控制模型进行模拟，根据模拟结果筛选优化模型。

参数优化模块104，采用群体搜索法评价实时质量控制模型性能，以此优化模型参数。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实时质量控制的优化方法，其特征在于，包括以下步骤：

导出原始实验数据，进行预处理和清洗；

2.如权利要求1所述的一种实时质量控制的优化方法，其特征在于，所述数据的误差值包括绝对值误差，计算公式如下：

3.如权利要求1所述的一种实时质量控制的优化方法，其特征在于，所述数据的误差值包括百分比误差，计算公式如下：

x′＝x×(1+n×TEa)

4.如权利要求1所述的一种实时质量控制的优化方法，其特征在于，还包括：基于未添加误差值的正常数据对实时质量控制模型进行模拟，根据模型的假阳性报警率评价模型，所述假阳性报警率的计算公式为：

假阳性报警率FAR＝假阳性报警数/总样本数。

5.如权利要求4所述的一种实时质量控制的优化方法，其特征在于，还包括：基于添加误差值的正常数据对实时质量控制模型进行再次模拟，计算模拟数据中误差所需患者样本数后求平均值获得发现误差所需平均患者样本数ANPed，根据ANPed评价模型性能，选择ANPed最小的模型为优化模型。

6.如权利要求1所述的一种实时质量控制的优化方法，其特征在于，所述群体搜索算法包括以下步骤：

随机选取模型的参数组合，生成100个实时质量控制模型；

采用体格函数评价多个实时质量控制模型；

7.如权利要求6所述的一种实时质量控制的优化方法，其特征在于，所述实时质量控制模型的参数组合包括上截断值、下截断值、浮动计算样本量。

8.一种实时质量控制的优化系统，其特征在于，包括：

9.一种电子设备，其特征在于：包括处理器和用于存储处理器可执行指令的存储器，所述存储器所存储的可执行指令被配置为执行如权利要求1到7所述任一项所述的实时质量控制的优化方法的步骤。

10.一种存储装置，其特征在于所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的实时质量控制的优化方法中的步骤。