CN115691722B - 医疗数据检测的质控方法、装置、设备、介质及程序产品 - Google Patents
医疗数据检测的质控方法、装置、设备、介质及程序产品 Download PDFInfo
- Publication number
- CN115691722B CN115691722B CN202210395902.4A CN202210395902A CN115691722B CN 115691722 B CN115691722 B CN 115691722B CN 202210395902 A CN202210395902 A CN 202210395902A CN 115691722 B CN115691722 B CN 115691722B
- Authority
- CN
- China
- Prior art keywords
- data
- quality control
- error
- detection
- medical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请提供了一种医疗数据检测的质控方法、装置、设备、介质及程序产品,通过获取综合质控要求表,并根据综合质控要求表确定各个医学检测项目对检测误差的限制范围;根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型,误差识别模型库中包括多个待选误差识别模型,待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;利用目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测。解决了如何降低医疗质控相关系统的部署成本的技术问题。达到了使医疗质控方法能够在各个实验室落地部署并实施的技术效果。
Description
技术领域
本申请涉及医疗质控技术领域,尤其涉及一种医疗数据检测的质控方法、装置、设备、介质及程序产品。
背景技术
质量监控是产品生产过程中的一个重要环节,在医疗卫生领域也存在医疗质控技术,利用该医疗质控技术对医院、医疗研究机构、医疗监管机构中的医疗数据进行质量监控,以及时发现医务人员对患者采样的过程是否规范、采样仪器工作是否正常、病情分析是否准确等等。
目前在医疗质控方面,全国各医疗机构的自动化程度较低,大部分实验室依然需要大量的数据分析人员依照现有行业标准执行医疗质控。这就导致了很多医疗质控方案都只能停留在理论阶段,因为很多的医疗质控技术在理论上都需要依赖人工智能、大数据处理等高计算能力的处理系统。不幸的是,这样的处理系统构建成本十分高昂,这就导致这些医疗质控技术无法实际落实部署到各个医疗机构。
因此,如何降低医疗质控相关系统的部署成本成为了亟待解决的技术问题。
发明内容
本申请提供一种医疗数据检测的质控方法、装置、设备、介质及程序产品,以解决如何降低医疗质控相关系统的部署成本的技术问题。
第一个方面,本申请提供一种医疗数据检测的质控方法,包括:
获取综合质控要求表,并根据综合质控要求表确定各个医学检测项目对检测误差的限制范围;
根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型,误差识别模型库中包括多个待选误差识别模型,待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;
利用目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测。
在一种可能的设计中,综合质控要求表用于表征医疗检验机构对各个医学检测项目的综合质控要求,综合质控要求包括:各个医学检测项目的临床检测误差要求、各个临床诊疗阶段对检验误差识别的准确性要求和时效性要求、医疗工作人员的使用便利性要求以及系统开发部署要求。
在一种可能的设计中,限制范围包括:第一误差区间和第二误差区间,第一误差区间内的第一检测误差大于第二误差区间内的第二检测误差,第一误差区间和第二误差区间都在检验误差的总波动范围内;
对应的,根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型,包括:
当检测误差的限制范围为第一误差区间时,从各个室内质控模型和/或各个实时质控模型中确定目标误差识别模型;
当检测误差的限制范围为第二误差区间时,从各个机器学习模型中确定目标误差识别模型。
在一种可能的设计中,第一误差区间包括:第三误差区间和第四误差区间,第三误差区间内的第三检测误差大于第四误差区间内的第四检测误差;
对应的,当检测误差的限制范围为第一误差区间时,从各个室内质控模型和/或各个实时质控模型中确定目标误差识别模型,包括:
当检测误差的限制范围为第三误差区间时,从各个室内质控模型中确定目标误差识别模型;
当检测误差的限制范围为第四误差区间时,从各个实时质控模型中确定目标误差识别模型。
在一种可能的设计中,总波动范围包括:0%至50%,对应的,第一误差区间包括:大于5%且小于或等于50%,第二误差区间包括:0%至5%。
在一种可能的设计中,第三误差区间包括:大于20%且小于或等于50%,第四误差区间包括:大于5%且小于或等于20%。
在一种可能的设计中,该质控方法还包括:
获取一个或多个医疗机构的历史检测数据;
根据临床过滤规则对历史检测数据进行临床特性过滤,以确定待选训练数据,临床过滤规则用于识别由于各个患者间个体差异、患者病情变化、不规范的样本采集过程三者中的至少一种因素而引入的变异数据;
利用有监督的机器学习算法,根据待选训练数据,确定一个或多个机器学习模型,并将所有机器学习模型存入误差识别模型库中。
在一种可能的设计中,根据临床过滤规则对历史检测数据进行临床特性过滤,以确定待选训练数据,包括:
计算来源于同一医疗机构的所有历史检测数据的第一均值以及第一变异系数;
根据来源于同一医疗机构的各个历史检测数据的科室分类属性,将来源于同一医疗机构的所有历史检测数据分成多个数据组,并计算各个数据组的第二均值以及第二变异系数,每个数据组与一个科室分类属性相对应;
根据预设临床过滤规则、第一均值、第一变异系数、各个第二均值、各个第二变异系数,剔除满足预设临床过滤规则的数据组,以确定待选训练数据。
在一种可能的设计中,根据预设临床过滤规则、第一均值、第一变异系数、各个第二均值、各个第二变异系数,剔除满足预设临床过滤规则的数据组,包括:
将各个第二均值与第一均值进行对比,以确定各个第一对比结果;
将各个第二变异系数与第一变异系数进行对比,以确定各个第二对比结果;
分别判断各个第一对比结果是否满足第一过滤要求,和/或,各个第二对比结果是否满足第二过滤要求;
若是,则从历史检测数据中剔除对应的数据组。
在一种可能的设计中,第一比对结果包括第二均值与第一均值的第一差值,第二对比结果包括第二变异系数与第一变异系数的第二差值;
对应的,第一过滤要求包括:第一差值的绝对值小于第一阈值;
第二过滤要求包括:第二差值的绝对值小于第二阈值。
在一种可能的设计中,第一阈值的取值范围包括:10%至40%,第二阈值的取值范围包括:来源于同一医疗机构的所有历史检测数据的标准差的N倍,N大于或等于1。
在一种可能的设计中,第一阈值为25%,第二阈值为标准差的1.5倍。
在一种可能的设计中,利用有监督的机器学习算法,根据待选训练数据,确定一个或多个机器学习模型,包括:
利用预设特征工程对待选训练数据进行多维度的特征提取,以确定无偏移训练数据;
根据无偏移训练数据以及预设偏离规则,确定多组不同偏移量的偏移训练数据;
利用预设训练算法,根据无偏移训练以及各组偏移训练数据,对预设的初始机器学习模型进行训练,以确定训练后的机器学习模型。
在一种可能的设计中,利用预设特征工程对待选训练数据进行多维度的特征提取,以确定无偏移训练数据,包括:
统一待选训练数据的单位量纲,并滤除不在预设取值范围内的数据以及非数值型数据,以确定待提取特征数据;
利用预设特征提取模型,将待提取特征数据构成的多个特征向量投影到多个不同的超平面上,并对各个超平面上的投影数据进行聚类处理,以确定具有多个特征的特征空间以及特征空间中的待组合数据集;
根据各个特征以及待组合数据集,确定多个具有预设数量个特征的训练样本阵列,训练样本阵列的每一列对应一个特征;
对各个训练样本阵列进行归一化处理,以确定多个训练样本矩阵,无偏移训练数据包括各个训练样本矩阵。
在一种可能的设计中,预设数量的取值范围大于或等于5。
可选的,训练样本矩阵的元素数量的取值范围是10~100个。
优选的,训练样本矩阵的元素数量为20个。
可选的,医学检测项目包括:临床生化项目、临床血液项目、临床体液项目,临床免疫项目。
第二方面,本申请提供一种医疗数据检测的质控装置,包括:
获取模块,用于获取综合质控要求表;
处理模块,用于:
根据综合质控要求表确定各个医学检测项目对检测误差的限制范围;
根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型,误差识别模型库中包括多个待选误差识别模型,待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;
利用目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测。
第三个方面,本申请提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行第一方面所提供的任意一种可能的医疗数据检测的质控方法。
第四方面,本申请提供一种车辆,包括:第三方面所提供的电子设备。
第五个方面,本申请提供一种存储介质,可读存储介质中存储有计算机程序,计算机程序用于执行第一方面所提供的任意一种可能的医疗数据检测的质控方法。
第六方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的医疗数据检测的质控系统方法。
本申请提供了一种医疗数据检测的质控方法、装置、设备、介质及程序产品,通过获取综合质控要求表,并根据综合质控要求表确定各个医学检测项目对检测误差的限制范围;根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型,误差识别模型库中包括多个待选误差识别模型,待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;利用目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测。解决了如何降低医疗质控相关系统的部署成本的技术问题。达到了使医疗质控方法能够在各个实验室落地部署并实施的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种医疗数据检测的质控方法的流程示意图;
图2为本申请实施提供的另一种医疗数据检测的质控方法的流程示意图;
图3为本申请实施例中步骤S203的一种具体实施方式的流程示意图;
图4为本申请实施例提供的机器学习模型与PBRTQC中统计学模型的比例误差PE的质控效果对比图;
图5为本申请实施例提供的机器学习模型与PBRTQC中统计学模型的恒定误差CE的质控效果对比图;
图6为本申请实施例提供的机器学习模型与PBRTQC中统计学模型的随机误差RE的质控效果对比图;
图7为本申请实施例提供的一种医疗数据检测的质控装置的结构示意图;
图8为本申请提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,包括但不限于对多个实施例的组合,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面先对本申请所涉及到的专业名词进行解释:
(1)分析批(Analytical run):是一个时间的概念,指在一段时间中,被检测系统的精密度和准确度可以认为是不变的。也就是说,只要实验室在这个时间段中的某个时间点通过检测质控品证实了检测系统是可靠的,那么在整个分析批的时间段中系统就是可靠的。
(2)质控物:是临床医学检验中用含量已知的处于与实际标本相同基质的特性明确的物质,常与其他杂质混在一起,按用途可分为室内质控品、室间质评样本和质控血清盘三类。
(3)基于稳定质控物的室内质控(Internal Quality Control,下文简称IQC):
是一种传统的基于统计学的室内质控方法,是医学实验室质量管理技术手段之一。在定义的24h分析批内,测试2个水平的质控物,测试频次为1次,即不同专业、不同医学检测项目、不同设备采用相同质控程序。在质控实施中,以6σ为质量控制评价标准,较易实施。
(4)基于患者样本的实时质量控制(patient-based realtime quality control,下文简称PBRTQC):
是一种基于人工智能技术,通过统计学以及数学模型来实现质量控制的方法,是根据患者样本检测结果,利用统计学模型建立的一套以实时监测实验室检测质量的模型或者规则,是医学检验实验室提高质量控制体系的重要发展方向。
目前,在医疗质控领域,IQC是各医疗机构的实验室主要采用的医疗质控方案,而PBRTQC目前只在理论上不断完善,但是在实际应用部署时,却由于其高昂的系统部署成本,如大量数学模型的训练成本,使其难以得到有效推广应用。
本申请发明人在实际工作中发现,对于IQC由于质控物本身互换性问题,导致其质控监测存在准确度较低、监测频次较低、成本较高等稳妥,不能满足临床质量规范要求和实际使用需求。而对于PBRTQC目前尚无成熟完整的实施方案,虽然有一些仪器厂家开发了少量质控仪器所依赖的,基于统计学算法的中间件,但是PBRTQC仍存在以下问题:
1、算法过于复杂;
2、所涉及的各种算法模型在实际应用过程中的学习成本过高;
3、相关仪器存在局限性,例如不能覆盖仪器所对应的检测项目以外的其它医学检测项目;
4、不能获取仪器检测数值以外其它重要临床检测相关信息,如年龄、性别、科别、门诊/住院等;
5、不能根据不同检测项目的数据特征精准地设计医疗质控方案;
6、准确度不能满足临床所有检测项目监控要求;
7、无法解决患者结果中异常值的干扰,例如患者病情变化的影响;
8、对于检测的目标人群中的样本个体内部变异数据和各个样本个体之间的变异数据,对误差识别的干扰问题,尚无理想解决方案。
总之,PBRTQC目前在理论上可行,但是在实际应用上仍有很多尚未解决的技术问题。而本领域技术人员也经常只将医疗质控的研究着眼在理论研究上,很少能够真正去克服实际应用过程中,理论到实际之间的技术障碍。
综上,为解决上述技术问题,本申请的发明构思是:
利用基于统计学的传统医疗质控方法的低成本优势,在此基础上联合利用基于AI(Artificial Intelligence,人工智能)算法的医疗质控方法专门针对具有较高质量规范等级的医学检测项目进行检测误差的质量控制,以解决单纯利用IQC质控的精准度不足,以及单纯利用PBRTQC时由于成本过高而无法落地实施的技术问题。
值得说明的是,本申请联合使用基于统计学的传统医疗质控方法(如IQC)和基于AI算法的医疗质控方法(如PBRTQC),并不是将其简单的组合,联合使用的技术障碍在于两个方面:
第一个方面是:两种医疗质控方法如何分工?其工作分配的依据是什么?
第二个方面是:为了能够适应联合使用的需求,如何对现有的基于AI算法的医疗质控方法(如PBRTQC)进行适应性改造?
针对第一个方面,本申请发明人分析了临床400~500个常规医学检测项目,发现不同的医学检测项目与不同的临床质量规范相对应,临床质量规范用于表征医学检测项目的临床意义及价值,临床质量规范可以分为三类。
1)基于临床检测结果作为循证医学证据的第一质量规范,该第一质量规范对应的质控等级为高级,所谓循证医学证据意为“遵循证据的医学”,是一种医学诊疗方法,强调应用完善设计与执行的研究(或称为证据)将决策最佳化。
2)基于个体生物学变异的第二质量规范,该第二质量规范对应的质控等级为中等。所谓个体生物学变异包括两个方面:一个是个体内生物学变异,是指某个患者自身的生理指标随着其病情的发展或转变而引起的变化;另一个是个体间生物学变异,是指不同患者之间在相同的生理指标上的差异。
3)基于方法学的第三质量规范,该第三质量规范对应的质控等级为低级。第三质量规范是由于采用的质控方案的不同而引起的对质控要求的不同,例如对于某些医学检测项目,采用IQC的检测误差就比采用PBRTQC的检测误差要大,而对于另一些医学检测项目情况可能正好相反,还有可能是两种质控方法的检测误差基本相同。
此外,临床所有医学检测项目的误差类型包括:系统误差和随机误差。其中系统误差包括:比例误差和恒定误差之和。医学检测项目的误差大小的取值范围在0-50%。
因此,本申请根据临床各医学检测项目的误差大小,综合考虑临床对误差识别的准确度和实效性、用户使用的便捷性、软件开发成本等因素,对医疗质控的误差识别分类算法,例如基于统计学的IQC质控方法和基于AI算法的PBRTQC质控方法进行工作分配。
所达到的技术效果是:本申请跳出了只单独采用IQC或者PBRTQC的惯性思维,需要去结合临床医学的实际情况,来对医疗数据检测的质控方法的精确度在不同的医学检测项目上区分对待,IQC精准度较低,但是也不能完全抛弃,PBRTQC理论上的准确度高,但是也不能仅使用PBRTQC,因为其对应的算法模型的训练成本和训练时间过高。
针对第二个方面,本申请从以下几个方向进行改进:
一、改进质控模型的训练数据的过滤方式。
二、提升质控模型的训练纬度数,利用机器学习的方式提高患者数据中非离群的数据的利用率,以适应各项医疗检测项目中未被发现的关联关系。
三、减小质控模型在使用的开始阶段,对窗口样本数量积累的要求。因为基于患者数据样本的实时质控方法在应用开始时,需要积累一定量的样本后,才能填满质控窗口,进而通过窗口滑动的形式对之后的每个患者样本进行质控,但是那些初始时用来填充窗口的数据却无法实现质控。
四、对模型训练和验证进行标准化设计。以使得对于同一组训练及验证数据,减小因不同地点、不同人员、不同算法训模而产生的差异。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种医疗数据检测的质控方法的流程示意图。如图1所示,该医疗数据检测的质控方法的具体步骤,包括:
S101、获取综合质控要求表,并根据综合质控要求表确定各个医学检测项目对检测误差的限制范围。
在本步骤中,综合质控要求表用于表征医疗检验机构对各个医学检测项目的综合质控要求。综合质控要求包括:各个医学检测项目的临床检测误差要求、各个临床诊疗阶段对检验误差识别的准确性要求和时效性要求、医疗工作人员的使用便利性要求以及系统开发部署要求。
可选的,医学检测项目包括:临床生化项目、临床血液项目、临床体液项目,临床免疫项目。
在本实施例中,综合质控要求表是用户根据各项医学检测项目对应的三种质量规范(即上文记载的第一质量规范、第二质量规范和第三质量规范)而得到的,而每一种质量规范都为一个或多个医学检测项目定义了相应的检测误差的限制范围。在综合质控要求表中包含了多种对应关系。
还需要说明的是,综合质控要求并不仅仅考虑误差限制,还需要考虑质控方法在实际部署和使用时的其它影响因素,包括:各个临床诊疗阶段对检验误差识别的准确性要求和时效性要求、医疗工作人员的使用便利性要求以及系统开发部署要求等等,目的就是为了使得本申请所提供的医疗数据的质控方法能够顺利部署,打破现有的PBRTQC质控方法很难落地实施的技术障碍。这些要求都能够以表格的形式建立各种各样的对应关系,即形成了综合质控要求表。
S102、根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型。
在本步骤中,误差识别模型库中包括多个待选误差识别模型,待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型。
需要说明的是,基于质控物的室内质控模型包括:根据上文所记载的IQC室内质控方法所预先设立的质控模型;基于患者数据的实时质控模型包括:上文所记载的PBRTQC质控方法所预先设立的质控模型;基于患者数据的机器学习模型,包括:以无监督或者有监督的机器学习的方式训练的质控模型,也是下文中本申请对PBRTQC质控方法为适应多种质控方法联合使用所作出的改进型质控模型。也就是说,本申请不单只联合使用了IQC和PBRTQC,还引入了误差识别效果更好的基于患者数据的机器学习模型,以进一步提高医疗检测数据的质控方法的精确度和准确性。
在本实施例中,限制范围包括:第一误差区间和第二误差区间,第一误差区间内的第一检测误差大于第二误差区间内的第二检测误差,第一误差区间和第二误差区间都在检验误差的总波动范围内。
具体的,当检测误差的限制范围为第一误差区间时,从各个室内质控模型和/或各个实时质控模型中确定目标误差识别模型;
当检测误差的限制范围为第二误差区间时,从各个机器学习模型中确定目标误差识别模型。
本实施例所提供的质控方法,并不是像现有技术中单一只采用一种类型的质控模型,如单独采用IQC或PBRTQC,而是根据为实现能够确实部署实施医疗质控系统的综合质控要求,确定了检测误差的限制范围后,再灵活地根据不同的限制范围来为各个医学检测项目配置不同的质控模型。打破了医疗质控领域的技术人员只能采用单一质控模型来实施质控的惯性思维,并且本申请是综合考虑了各个医学检测项目对应的质量规范和影响质控方案实施的各个因素,才认定的误差限制范围,本申请的误差限制范围是在满足行业标准的前提下进一步根据上述综合因素来重新确定的,而不是简单应用行业标准中对检测误差的规定范围。
可选的,总波动范围包括:0%至50%,对应的,第一误差区间包括:大于5%且小于或等于50%,第二误差区间包括:0%至5%。
需要说明的是,由于基于患者数据的机器学习模型相比与传统的基于质控物的室内质控模型以及基于患者数据的实时质控模型,具有对医学检测项目更高的精准度,因此,在对第一质量规范对应的医学检测项目进行质控时,其所允许的检测误差的限制范围较小,因为其需要用来作为诊疗的直接依据,所以,需要用到基于患者数据的机器学习模型。该机器学习模型的具体构建过程会在下文图2所示的实施例中作具体介绍,在此不作赘述。
在一种可能的设计中,为了进一步细分IQC和PBRTQC在第一误差区间中如何作分配,还可以进一步的将第一误差区间分为:第三误差区间和第四误差区间,第三误差区间内的第三检测误差大于第四误差区间内的第四检测误差;
对应的,当检测误差的限制范围为第一误差区间时,从各个室内质控模型和/或各个实时质控模型中确定目标误差识别模型,包括:
当检测误差的限制范围为第三误差区间时,从各个室内质控模型中确定目标误差识别模型;
当检测误差的限制范围为第四误差区间时,从各个实时质控模型中确定目标误差识别模型。
可选的,第三误差区间包括:大于20%且小于或等于50%,第四误差区间包括:大于5%且小于或等于20%。
需要说明的是,室内质控模型即IQC模型由于其质控精度不理想,但是其实施简便,成本较低,在面对第三质量规范所对应的医学检测项目时,可以使用这种模型进行质控,以降低质控方法在实际部署时的难度和成本。而实时质控模型即PBRTQC模型在上述两种实施方式中,其既可以仅在第四误差区间时选择其作为质控模型,也可以在第一误差区间中都选用实时质控模型,以提高整个质控系统的精准度,当然这也将会提高质控系统的部署成本和部署难度。
在一种可能的设计中,对于检测误差的总波动范围,也可以仅使用IQC室内质控模型和机器学习模型,即在第一误差范围内使用IQC室内质控模型,在第二误差范围内使用机器学习模型。这样可以使得质控系统的部署成本降低。
在另一种可能设计中,也可以单独使用机器学习模型,但是为了降低质控系统的部署成本,在对机器学习模型进行训练时,可以对不同质量规范对应的医学检测项目采用不同的训练标准,以降低训练时间和成本,和/或,减少机器学习模型中的模型数量,从而使得在提高质控精准度的前提下,尽可能地降低质控系统的部署成本。
S103、利用目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测。
在本步骤中,在确定待部署质控系统的实验室所涉及到的各个医学检测项目所需要使用的质控模型后,即可进行质控系统的部署,在部署完成后,即可实时对医疗检验机构中医疗设备的实时检测数据进行质控监测。
本实施例提供了一种医疗数据检测的质控方法,通过获取综合质控要求表,并根据综合质控要求表确定各个医学检测项目对检测误差的限制范围;根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型,误差识别模型库中包括多个待选误差识别模型,待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;利用目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测。解决了如何降低医疗质控相关系统的部署成本的技术问题。达到了使医疗质控方法能够在各个实验室落地部署并实施的技术效果。
下面介绍本申请基于PBRTQC质控方法和机器学习技术相结合所得到的兼顾了部署成本和更高检测误差的识别精准度的机器学习模型的训练过程进行说明。
本申请发明人在对传统的PBRTQC质控方法进行改进研究时发现,传统的PBRTQC质控方法在进行误差识别时,各个医疗设备实时采集到的医疗检测数据按采集的时间先后排成了一个不断累积的数据队列,而所谓的质量监控,就是用一个数据窗口从该数据队列中截取部分样本出来,进行检验误差的识别判断。具体的,可以将该数据窗口看成一个不动的堆栈,数据按生成的时间先后进入这个堆栈,该堆栈遵循先进先出的原则,在该堆栈填充满后,即得到了第一次质控的样本集,计算该样本集的均值,根据这个均值在质控模型所对应的正态分布图中的位置,来判断该医疗质控模型是否处于质控在控状态,即其检测误差在允许的范围内。随后每新获取到一个新的检测数据,将其压入堆栈,堆栈同时推出一个位于堆栈底部的旧数据,然后重新计算堆栈内所有数据的均值,重新判断该均值在正态分布图中的位置。以此不断循环,以实现实时的质控监测。
但是本申请发明人发现,其存在两个问题:一个是每个次计算堆栈中数据的均值,其实只用到了堆栈中所有数据的一个特征来进行质控评判,而将其它隐藏的特征关系都忽略了,然而医疗检测数据具备其复杂性,各项数据之间可能存在着很多隐藏的,无法预知的关联特征,这就导致了质控方案的准确度不高,即假阳率或假阴率高的问题;另一个是为了使得均值更加稳定,更具代表性,堆栈的数据量需要设置的比较大,这就使得第一次质检的延迟时间比较大,这些数据就变成了质控遗漏数据,无法对其进行质控,因此,如何确定堆栈的数据量使其兼顾样本代表性、稳定性的同时,还要兼顾第一次质检的延迟性尽可能地小,成为了亟待解决的技术问题。
本申请发明人发现机器学习模型可以有效克服上述两个问题缺陷。下面就机器学习模型的训练过程以及其如何克服上述两个问题进行说明。
需要说明的是,下面的实施例可以与图1所示的实施例进行结合,可以作为图1所示实施例中对误差识别模型库中机器学习模型的训练过程。也可以作为误差识别模型库更新时对机器学习模型的更新训练过程。与图1所示实施例重复的步骤就不再赘述。
图2为本申请实施提供的另一种医疗数据检测的质控方法的流程示意图。如图2所示,具体步骤包括:
S201、获取一个或多个医疗机构的历史检测数据。
在本实施例中,获取在2018年10月至2020年7月期间,利用西门子advia2400系统对1095000名患者的5种代表性分析物的检测结果,包括:ALT(Alanine Transaminase,丙氨酸转氨酶)、AST(Aspartate Transaminase,天冬氨酸转氨酶)、GLU(Glucose,葡萄糖)、TP(Total Protein,总蛋白)和ALB(Albumin,白蛋白)。
需要说明的是,选择这些分析物的原因是,这5种分析物是在诊疗过程中最常被要求检测的分析物即具有普适性的医学检测项目,并且其代表了临床实验室中不同的数据分布情况,且没有显着的性别差异。因为性别分布的波动会导致平均值会出现非分析手段的原因而引起的,不可预测的变化。
可选的,在获取5种分析物的检测结果的同时,还可以收集相关患者信息,包括:年龄、性别、科室、样本类型、测量时间点等。
还需要说明的是,在检测这5种分析物时,仅收集血清样本进行检测,并且所有患者数据都是由处于质控在控状态的医疗设备所检测的。
S202、根据临床过滤规则对历史检测数据进行临床特性过滤,以确定待选训练数据。
在本步骤中,临床过滤规则用于识别由于各个患者间个体差异、患者病情变化、不规范的样本采集过程三者中的至少一种因素而引入的变异数据。
需要说明的是,本步骤与传统的机器学习训练时的预处理不同,是在机器学习训练的预处理之前,对获取到的历史检测数据进行符合临床场景要求的过滤处理,是一般的只剔除极限值或者无意义的检测结果,如“*”,“-”等等之外的过滤处理。之所以实施本步骤,是因为本申请发明人发现,利用机器学习的预处理无法有效适用于医疗质控场景,因为医疗数据本身的复杂性和特殊性,各个患者自身,患者与患者之间,不同的采样过程,采样时间与检测时间的间隔,等等因素都会对检测结果的有效性产生影响,即如果不过滤,训练出来的质控模型可能就会学习到错误的结论,或者说把错误结论当成正确的,从而导致质控模型的检测误差识别的精准度下降,甚至影响最后质控方案的落地部署和实施。以PSA(prostate-specificantigen,前列腺特异性抗原)检测为例,对应的质量规范的误差要求:Tea(Total analytic error,总分析误差,或者称为总允许误差)为2%,但是由于人群总的变异数据引起的误差就能达到10%,较大的人群干扰使实际待识别误差的识别难度大大增加。此外,医疗机构分析前的操作流程也是关键影响因素。
因此,通过本步骤,意在建立基于统计学的临床过滤规则,解决在分析前阶段,人群变异和操作流程变异对检测误差识别的干扰问题。
在本实施例中,本步骤具体包括:
S2021、计算来源于同一医疗机构的所有历史检测数据的第一均值以及第一变异系数。
在本步骤中,第一均值可以根据公式(1)来计算:
其中,表示第一均值,xi表示各个历史检测数据,n表示历史检测数据的总数。
第一变异系数可以根据公式(2)来计算:
其中,cv1表示第一变异系数,SD表示所有历史检测数据的标准差(StandardDeviation)。
S2022、根据来源于同一医疗机构的各个历史检测数据的科室分类属性,将来源于同一医疗机构的所有历史检测数据分成多个数据组,并计算各个数据组的第二均值以及第二变异系数。
在本步骤中,每个数据组与一个科室分类属性相对应。
具体的,将各个历史检测数据根据其对应的科室进行分组,如泌尿科、肿瘤科、内科、外科等等,然后参考公式(1)和公式(2)计算每个分组的均值和变异系数,即为第二均值和第二变异系数。
S2023、根据预设临床过滤规则、第一均值、第一变异系数、各个第二均值、各个第二变异系数,剔除满足预设临床过滤规则的数据组,以确定待选训练数据。
在本步骤中,将各个第二均值分别与第一均值进行对比,以确定各个第一对比结果;将各个第二变异系数分别与第一变异系数进行对比,以确定各个第二对比结果;分别判断各个第一对比结果是否满足第一过滤要求,和/或,各个第二对比结果是否满足第二过滤要求;若是,则从历史检测数据中剔除对应的数据组。
具体的,对比方式包括:作差和作商,或者其它的对比方式,如在作差或者作商的基础上乘以对应的修正系数。对应的过滤要求包括:差值或商值,或者其它的对比结果数值满足相应的阈值要求,如大于该阈值或者小于或等于该阈值。
在一种可能的设计中,第一比对结果包括第二均值与第一均值的第一差值,第二对比结果包括第二变异系数与第一变异系数的第二差值;对应的,第一过滤要求包括:第一差值的绝对值小于第一阈值;第二过滤要求包括:第二差值的绝对值小于第二阈值。
可选的,第一阈值的取值范围包括:10%至40%,第二阈值的取值范围包括:来源于同一医疗机构的所有历史检测数据的标准差的N倍,N大于或等于1。
优选的,第一阈值为25%,第二阈值为标准差的1.5倍。
通过将每个科室的第二均值和第二变异系数,分别与整体累计的第一均值和第一变异系数进行对比,剔除出不满足过滤要求的数据组,这样就可以降低甚至避免人群变异及采样过程变异对检测误差识别的干扰。
下面开始进入机器学习模型的训练阶段。
S203、利用有监督的机器学习算法,根据待选训练数据,确定一个或多个机器学习模型。
图3为本申请实施例中步骤S203的一种具体实施方式的流程示意图。如图3所示,在本步骤中,具体包括:
S301、利用预设特征工程对待选训练数据进行多维度的特征提取,以确定无偏移训练数据。
在本步骤中,根据待选训练数据的属性特征,统一待选训练数据中各项数据的单位量纲,以确定第一处理结果,根据预设取值范围对第一处理结果进行数值过滤,并剔除待选训练数据中的非数值型数据,以确定第二处理结果,利用预设特征提取模型,根据多维度,对第二处理结果进行特征提取,以确定特征空间,对特征空间中的各个数据元素进行归一化处理,并将处理后的预设数量个数据元素组合成一个训练样本,无偏移训练数据包括多个训练样本。
在本实施例中,预设特征工程是指在模型训练之前对待选训练数据进行的一组预处理操作,包括:单位量纲变换、数值过滤、数据归一化和构建样本向量阵列。其中,数值过滤是特征工程的关键步骤,其目的是将检测误差或者称为总分析误差控制在20%以内,从而消除大于或等于20%的总分析误差值,因为大于或等于20%的总分析误差值一般都是无实际意义的荒谬值或极端值。
在一种可能的设计中,本步骤具体包括:
S3011、统一待选训练数据的单位量纲,并滤除不在预设取值范围内的数据以及非数值型数据,以确定待提取特征数据。
例如,S201中获取的5种代表性分析物:ALT丙氨酸转氨酶、AST天冬氨酸转氨酶、GLU葡萄糖、TP总蛋白和ALB白蛋白,各自有其对应的单位,但是由于不同医疗机构可能采用不同的医疗设备,所得到的检测数据的单位并不一定相同,如ALB白蛋白有些医疗设备采用g/L作为单位,有些采用g/mL作为单位,这就使得都是ALB白蛋白的检测数据,但是其数值相差很大,因此需要对同一类型的医疗检测项目的数据进行单位量纲的统一处理。
然后,根据一个预设的数值范围,对统一单位量纲后的待选训练数据过滤,这个数值范围可以是经过统计学处理后的正常人的医学检测数据向左右两侧进行拓展后得到的,比如以正常人的医学检测数据为中心,拓展两倍后得到该数值范围。同时,由于机器学习训练只能够针对数值型数据,因此还需要把非数值型数据,如“*”,“-”,“#”等剔除掉。
S3012、利用预设特征提取模型,将待提取特征数据构成的多个特征向量投影到多个不同的超平面上,并对各个超平面上的投影数据进行聚类处理,以确定具有多个特征的特征空间以及特征空间中的待组合数据集。
在本步骤中,不同于传统的IQC或者PBRTQC仅基于统计学的方式,如均值、方差、标准差、正态分布等实质上仅利用了一个特征维度,本步骤的目的在于充分挖掘医疗检测数据中难以预先知道的关联关系,或者说是那些隐藏的特征维度。因此,需要将预设数量个待提取特征数据组合成一个特征向量,如10~100个待提取特征数据,优选地,考虑到后续在进行误差检测时也会采用相同的设计,为平衡特征提取的稳定性、检测效率和首次检测时的延迟,取20个待提取特征数据作为一组,形成特性向量。
将各个特征向量投影到多个超平面上,以实现从多个维度寻找不同特征的目的。然后,分析各个超平面上数据分布情况,进行聚类处理,找到聚类中心和聚类半径,即可确定聚类所对应的特征。最后,利用这些特征构建一个特征空间,组成特征空间的数据,或者说在特征空间中的所有数据即为待组合数据集。
可选的,预设特征提取模型包括神经网络模型,如孤立森林模型,本领域技术人员可以根据实际需要选择可以执行本步骤的神经网络模型的具体类型并设置具体的模型参数,本申请不作限定。
S3013、根据各个特征以及待组合数据集,确定多个具有预设数量个特征的训练样本阵列。
在本步骤中,训练样本阵列的每一列对应一个特征。预设数量的取值范围大于或等于5,例如特征的数量与S201获取的5种代表性分析物相对应。
S3014、对各个训练样本阵列进行归一化处理,以确定多个训练样本矩阵。
在本步骤中,无偏移训练数据包括多个训练样本矩阵。归一化处理,即为将训练样本矩阵中的数据元素的取值调整到0至1的范围内。
在本实施例中,训练样本矩阵的元素数量的取值范围是10~100个,优选的,为了平衡质控模型的维度、误差检测效率以及每个检测周期开始时首次检测时,填满数据窗口即堆栈所造成的检测延迟,将训练样本矩阵的元素数量为10个或15个或20个。
需要说明的是,归一化处理,也可以设置在S3013之前,本申请不作限定。
S302、根据无偏移训练数据以及预设偏离规则,确定多组不同偏移量的偏移训练数据。
在本实施例中,为了后续识别出检测误差的偏差范围,需要在S301中得到的无偏差训练数据的基础上以预设步长设置多个有偏差训练数据,以形成有监督学习的学习目标。
需要说明的是,本申请所涉及的检测误差,也可以称为总分析误差(Totalanalytic error,简记为TEa),其包括:随机误差(Random Error,简记为RE)和系统误差(Systematic Error,简记为SE)之和,其中系统误差SE包括:比例误差(ProportionalError,简记为PE)和恒定误差(Constant Error,简记为CE)。为了分析恒定误差CE、随机误差RE以及比例误差PE,可以根据总分析误差TEa来进一步对检测误差进行更为精细的监控。即本步骤所训练的机器学习模型至少适用于上述三种误差的监控。
其中,对于恒定误差CE的训练数据可以用公式(3)来计算:
对于随机误差RE的训练数据可以用公式(4)来计算:
对于比例误差PE的训练数据可以用公式(5)来计算:
x′=x×(1+n×TEa) (5)
在公式(3)(4)(5)中,x是原始患者数据即上述训练数据,x′表示预设了误差的患者数据,表示数据集的平均值。σ表示数据集的标准差,n是误差控制系数。
通过上述三个公式就可以模拟出一个标准的机器学习训练数据集,即有监督机器学习的学习目标。
S303、利用预设训练算法,根据无偏移训练以及各组偏移训练数据,对预设的初始机器学习模型进行训练,以确定训练后的机器学习模型。
在本实施例中,具体的,可以利用神经网络算法作为预设训练算法,如随机森林模型,构建适用于S302中三种误差类型的质控模型即机器学习模型。
具体的,当检测误差,或者TEa总分析误差大于预设误差阈值时,由于异常数据(即有偏差训练数据)和正常数据(即无偏差训练数据)之间存在显着差异,选用线性算法模型即可有效区分两组数据。
当检测误差,或者TEa总分析误差小于或等于预设误差阈值时,训练数据分布出现明显的数据交叉。这意味着异常数据和正常数据两组数据之间缺乏显著差异,以及异常数据特征的线性度下降。检测误差越小,可分离性越差。经过本申请发明人的对比,选用非线性的随机森林模型比其他机器学习算法更适合误差相对较小的识别场景,其具有精度高、拟合性能优良、学习速度快、对不平衡的分类数据均衡能力强的特点。
可选的,预设误差阈值的取值范围包括:10%~30%,优选的,取20%。
经过S303的训练后,本申请的机器学习模型能够对三种误差类型进行很好的质控效果,其与传统的PBRTQC质控中的算法模型的质控效果对比如图4至图6所示。
图4为本申请实施例提供的机器学习模型与PBRTQC中统计学模型的比例误差PE的质控效果对比图。
图5为本申请实施例提供的机器学习模型与PBRTQC中统计学模型的恒定误差CE的质控效果对比图。
图6为本申请实施例提供的机器学习模型与PBRTQC中统计学模型的随机误差RE的质控效果对比图。
如图4至图6所示,在横坐标中,ML代表机器学习模型(Machine Learning),EWMA代表指数加权移动平均值模型(exponentially weighted moving average),HD50代表HD统计中数模型(Harrell-Davis 50percentile estimator),MA代表浮动均值模型(movingaverage)、MM代表浮动中位数模型(moving median),纵坐标表示误差的大小。可以看出本申请所提供的机器学习模型在五种代表物:ALB、ALT、AST、GLU和TP中都远小于其它的模型,且对这五种代表物的质控效果的均衡性最好。
需要说明的是,本申请对于S303的模型训练和之后对机器学习模型的验证过程都遵循标准化的要求,使得对于同一组训练数据或验证数据,能够减小不同地点、不同人员、不同算法训模所造成的差异。
图7为本申请实施例提供的一种医疗数据检测的质控装置的结构示意图。该医疗数据检测的质控装置700可以通过软件、硬件或者两者的结合实现。
如图7所示,该医疗数据检测的质控装置700包括:
获取模块701,用于获取综合质控要求表;
处理模块702,用于:
根据综合质控要求表确定各个医学检测项目对检测误差的限制范围;
根据各个检测误差的限制范围,从误差识别模型库中确定目标误差识别模型,误差识别模型库中包括多个待选误差识别模型,待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;
利用目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测。
在一种可能的设计中,综合质控要求表用于表征医疗检验机构对各个医学检测项目的综合质控要求,综合质控要求包括:各个医学检测项目的临床检测误差要求、各个临床诊疗阶段对检验误差识别的准确性要求和时效性要求、医疗工作人员的使用便利性要求以及系统开发部署要求。
在一种可能的设计中,限制范围包括:第一误差区间和第二误差区间,第一误差区间内的第一检测误差大于第二误差区间内的第二检测误差,第一误差区间和第二误差区间都在检验误差的总波动范围内;
对应的,处理模块702,用于:
当检测误差的限制范围为第一误差区间时,从各个室内质控模型和/或各个实时质控模型中确定目标误差识别模型;
当检测误差的限制范围为第二误差区间时,从各个机器学习模型中确定目标误差识别模型。
在一种可能的设计中,第一误差区间包括:第三误差区间和第四误差区间,第三误差区间内的第三检测误差大于第四误差区间内的第四检测误差;
对应的,处理模块702,用于:
当检测误差的限制范围为第三误差区间时,从各个室内质控模型中确定目标误差识别模型;
当检测误差的限制范围为第四误差区间时,从各个实时质控模型中确定目标误差识别模型。
在一种可能的设计中,总波动范围包括:0%至50%,对应的,第一误差区间包括:大于5%且小于或等于50%,第二误差区间包括:0%至5%。
在一种可能的设计中,第三误差区间包括:大于20%且小于或等于50%,第四误差区间包括:大于5%且小于或等于20%。
在一种可能的设计中,获取模块701,还用于获取一个或多个医疗机构的历史检测数据;
处理模块702,还用于:
根据临床过滤规则对历史检测数据进行临床特性过滤,以确定待选训练数据,临床过滤规则用于识别由于各个患者间个体差异、患者病情变化、不规范的样本采集过程三者中的至少一种因素而引入的变异数据;
利用有监督的机器学习算法,根据待选训练数据,确定一个或多个机器学习模型,并将所有机器学习模型存入误差识别模型库中。
在一种可能的设计中,处理模块702,还用于:
计算来源于同一医疗机构的所有历史检测数据的第一均值以及第一变异系数;
根据来源于同一医疗机构的各个历史检测数据的科室分类属性,将来源于同一医疗机构的所有历史检测数据分成多个数据组,并计算各个数据组的第二均值以及第二变异系数,每个数据组与一个科室分类属性相对应;
根据预设临床过滤规则、第一均值、第一变异系数、各个第二均值、各个第二变异系数,剔除满足预设临床过滤规则的数据组,以确定待选训练数据。
在一种可能的设计中,处理模块702,还用于:
将各个第二均值与第一均值进行对比,以确定各个第一对比结果;
将各个第二变异系数与第一变异系数进行对比,以确定各个第二对比结果;
分别判断各个第一对比结果是否满足第一过滤要求,和/或,各个第二对比结果是否满足第二过滤要求;
若是,则从历史检测数据中剔除对应的数据组。
在一种可能的设计中,第一比对结果包括第二均值与第一均值的第一差值,第二对比结果包括第二变异系数与第一变异系数的第二差值;
对应的,第一过滤要求包括:第一差值的绝对值小于第一阈值;
第二过滤要求包括:第二差值的绝对值小于第二阈值。
在一种可能的设计中,第一阈值的取值范围包括:10%至40%,第二阈值的取值范围包括:来源于同一医疗机构的所有历史检测数据的标准差的N倍,N大于或等于1。
在一种可能的设计中,第一阈值为25%,第二阈值为标准差的1.5倍。
在一种可能的设计中,处理模块702,还用于:
利用预设特征工程对待选训练数据进行多维度的特征提取,以确定无偏移训练数据;
根据无偏移训练数据以及预设偏离规则,确定多组不同偏移量的偏移训练数据;
利用预设训练算法,根据无偏移训练以及各组偏移训练数据,对预设的初始机器学习模型进行训练,以确定训练后的机器学习模型。
在一种可能的设计中,处理模块702,还用于:
统一待选训练数据的单位量纲,并滤除不在预设取值范围内的数据以及非数值型数据,以确定待提取特征数据;
利用预设特征提取模型,将待提取特征数据构成的多个特征向量投影到多个不同的超平面上,并对各个超平面上的投影数据进行聚类处理,以确定具有多个特征的特征空间以及特征空间中的待组合数据集;
根据各个特征以及待组合数据集,确定多个具有预设数量个特征的训练样本阵列,训练样本阵列的每一列对应一个特征;
对各个训练样本阵列进行归一化处理,以确定多个训练样本矩阵,无偏移训练数据包括各个训练样本矩阵。
在一种可能的设计中,预设数量的取值范围大于或等于5。
可选的,训练样本矩阵的元素数量的取值范围是10~100个。
优选的,训练样本矩阵的元素数量为20个。
可选的,医学检测项目包括:临床生化项目、临床血液项目、临床体液项目,临床免疫项目。
值得说明的是,图7所示实施例提供的装置,可以执行上述任一方法实施例中所提供的方法,其具体实现原理、技术特征、专业名词解释以及技术效果类似,在此不再赘述。
图8为本申请实施例提供的一种电子设备的结构示意图。如图8所示,该电子设备800,可以包括:至少一个处理器801和存储器802。图8示出的是以一个处理器为例的电子设备。
存储器802,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器802可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器801用于执行存储器802存储的计算机执行指令,以实现以上各方法实施例所述的方法。
其中,处理器801可能是一个中央处理器(central processing unit,简称为CPU),或者是特定集成电路(application specific integrated circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器802既可以是独立的,也可以跟处理器801集成在一起。当所述存储器802是独立于处理器801之外的器件时,所述电子设备800,还可以包括:
总线803,用于连接所述处理器801以及所述存储器802。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheralcomponent,PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器802和处理器801集成在一块芯片上实现,则存储器802和处理器801可以通过内部接口完成通信。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述各方法实施例中的方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由本申请的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
Claims (13)
1.一种医疗数据检测的质控方法,其特征在于,包括:
获取综合质控要求表,并根据所述综合质控要求表确定各个医学检测项目对检测误差的限制范围;
根据各个所述检测误差的所述限制范围,从误差识别模型库中确定目标误差识别模型,所述误差识别模型库中包括多个待选误差识别模型,所述待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;
利用所述目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测;
所述质控方法还包括:
获取一个或多个医疗机构的历史检测数据;
根据临床过滤规则对所述历史检测数据进行临床特性过滤,确定待选训练数据,所述临床过滤规则用于识别由于各个患者间个体差异、患者病情变化、不规范的样本采集过程三者中的至少一种因素而引入的变异数据;
利用有监督的机器学习算法,根据所述待选训练数据,确定一个或多个所述机器学习模型,并将所有所述机器学习模型存入所述误差识别模型库中;
所述根据临床过滤规则对所述历史检测数据进行临床特性过滤,确定待选训练数据,包括:
计算来源于同一所述医疗机构的所有所述历史检测数据的第一均值以及第一变异系数;
根据来源于同一所述医疗机构的各个所述历史检测数据的科室分类属性,将来源于同一所述医疗机构的所有所述历史检测数据分成多个数据组,并计算各个所述数据组的第二均值以及第二变异系数,每个所述数据组与一个所述科室分类属性相对应;
将各个所述第二均值与所述第一均值进行对比,以确定各个第一对比结果;
将各个所述第二变异系数与所述第一变异系数进行对比,以确定各个第二对比结果;
分别判断各个所述第一对比结果是否满足第一过滤要求,和/或,各个所述第二对比结果是否满足第二过滤要求;
若是,则从所述历史检测数据中剔除对应的所述数据组,确定所述待选训练数据;
所述利用有监督的机器学习算法,根据所述待选训练数据,确定一个或多个所述机器学习模型,包括:
统一所述待选训练数据的单位量纲,并滤除不在预设取值范围内的数据以及非数值型数据,以确定待提取特征数据;
利用预设特征提取模型,将由所述待提取特征数据构成的多个特征向量投影到多个不同的超平面上,并对各个所述超平面上的投影数据进行聚类处理,以确定具有多个特征的特征空间以及所述特征空间中的待组合数据集;
根据各个所述特征以及所述待组合数据集,确定多个具有预设数量个所述特征的训练样本阵列,所述训练样本阵列的每一列对应一个所述特征;
对各个所述训练样本阵列进行归一化处理,以确定多个训练样本矩阵,无偏移训练数据包括各个所述训练样本矩阵;
根据所述无偏移训练数据以及预设偏离规则,确定多组不同偏移量的偏移训练数据;
利用预设训练算法,根据所述无偏移训练以及各组所述偏移训练数据,对预设的初始机器学习模型进行训练,以确定训练后的所述机器学习模型。
2.根据权利要求1所述的医疗数据检测的质控方法,其特征在于,所述综合质控要求表用于表征医疗检验机构对各个所述医学检测项目的综合质控要求,所述综合质控要求包括:各个所述医学检测项目的临床检测误差要求、各个临床诊疗阶段对检验误差识别的准确性要求和时效性要求、医疗工作人员的使用便利性要求以及系统开发部署要求。
3.根据权利要求1所述的医疗数据检测的质控方法,其特征在于,所述限制范围包括:第一误差区间和第二误差区间,所述第一误差区间内的第一检测误差大于所述第二误差区间内的第二检测误差,所述第一误差区间和所述第二误差区间都在检验误差的总波动范围内;
对应的,所述根据各个所述检测误差的所述限制范围,从误差识别模型库中确定目标误差识别模型,包括:
当所述检测误差的所述限制范围为所述第一误差区间时,从各个所述室内质控模型和/或各个所述实时质控模型中确定所述目标误差识别模型;
当所述检测误差的所述限制范围为所述第二误差区间时,从各个所述机器学习模型中确定所述目标误差识别模型。
4.根据权利要求3所述的医疗数据检测的质控方法,其特征在于,所述第一误差区间包括:第三误差区间和第四误差区间,所述第三误差区间内的第三检测误差大于所述第四误差区间内的第四检测误差;
对应的,所述当所述检测误差的所述限制范围为所述第一误差区间时,从各个所述室内质控模型和/或各个所述实时质控模型中确定所述目标误差识别模型,包括:
当所述检测误差的所述限制范围为所述第三误差区间时,从各个所述室内质控模型中确定所述目标误差识别模型;
当所述检测误差的所述限制范围为所述第四误差区间时,从各个所述实时质控模型中确定所述目标误差识别模型。
5.根据权利要求3所述的医疗数据检测的质控方法,其特征在于,所述总波动范围包括:0%至50%,对应的,所述第一误差区间包括:大于5%且小于或等于50%,所述第二误差区间包括:0%至5%。
6.根据权利要求4所述的医疗数据检测的质控方法,其特征在于,所述第三误差区间包括:大于20%且小于或等于50%,所述第四误差区间包括:大于5%且小于或等于20%。
7.根据权利要求1所述的医疗数据检测的质控方法,其特征在于,第一比对结果包括所述第二均值与所述第一均值的第一差值,所述第二对比结果包括第二变异系数与所述第一变异系数的第二差值;
对应的,所述第一过滤要求包括:所述第一差值的绝对值小于第一阈值;
所述第二过滤要求包括:所述第二差值的绝对值小于第二阈值。
8.根据权利要求7所述的医疗数据检测的质控方法,其特征在于,所述第一阈值的取值范围包括:10%至40%,所述第二阈值的取值范围包括:来源于同一所述医疗机构的所有所述历史检测数据的标准差的N倍,所述N大于或等于1。
9.根据权利要求8所述的医疗数据检测的质控方法,其特征在于,所述第一阈值为25%,所述第二阈值为所述标准差的1.5倍。
10.根据权利要求1所述的医疗数据检测的质控方法,其特征在于,所述预设数量的取值范围大于或等于5,所述训练样本矩阵的元素数量的取值范围是10~100个。
11.一种医疗数据检测的质控装置,其特征在于,包括:
获取模块,用于获取综合质控要求表;
处理模块,用于:
根据所述综合质控要求表确定各个医学检测项目对检测误差的限制范围;
根据各个所述检测误差的所述限制范围,从误差识别模型库中确定目标误差识别模型,所述误差识别模型库中包括多个待选误差识别模型,所述待选误差识别模型的类型包括:基于质控物的室内质控模型、基于患者数据的实时质控模型以及基于患者数据的机器学习模型;
利用所述目标误差识别模型对医疗检验机构中各个医疗设备的实时检测数据进行质控监测;
所述获取模块,还用于获取一个或多个医疗机构的历史检测数据;
所述处理模块,还用于根据临床过滤规则对所述历史检测数据进行临床特性过滤,确定待选训练数据,所述临床过滤规则用于识别由于各个患者间个体差异、患者病情变化、不规范的样本采集过程三者中的至少一种因素而引入的变异数据;利用有监督的机器学习算法,根据所述待选训练数据,确定一个或多个所述机器学习模型,并将所有所述机器学习模型存入所述误差识别模型库中;
所述处理模块,具体用于计算来源于同一所述医疗机构的所有所述历史检测数据的第一均值以及第一变异系数;根据来源于同一所述医疗机构的各个所述历史检测数据的科室分类属性,将来源于同一所述医疗机构的所有所述历史检测数据分成多个数据组,并计算各个所述数据组的第二均值以及第二变异系数,每个所述数据组与一个所述科室分类属性相对应;将各个所述第二均值与所述第一均值进行对比,以确定各个第一对比结果;将各个所述第二变异系数与所述第一变异系数进行对比,以确定各个第二对比结果;分别判断各个所述第一对比结果是否满足第一过滤要求,和/或,各个所述第二对比结果是否满足第二过滤要求;若是,则从所述历史检测数据中剔除对应的所述数据组,确定所述待选训练数据;
所述处理模块,具体用于统一所述待选训练数据的单位量纲,并滤除不在预设取值范围内的数据以及非数值型数据,以确定待提取特征数据;利用预设特征提取模型,将由所述待提取特征数据构成的多个特征向量投影到多个不同的超平面上,并对各个所述超平面上的投影数据进行聚类处理,以确定具有多个特征的特征空间以及所述特征空间中的待组合数据集;根据各个所述特征以及所述待组合数据集,确定多个具有预设数量个所述特征的训练样本阵列,所述训练样本阵列的每一列对应一个所述特征;对各个所述训练样本阵列进行归一化处理,以确定多个训练样本矩阵,无偏移训练数据包括各个所述训练样本矩阵;根据所述无偏移训练数据以及预设偏离规则,确定多组不同偏移量的偏移训练数据;利用预设训练算法,根据所述无偏移训练以及各组所述偏移训练数据,对预设的初始机器学习模型进行训练,以确定训练后的所述机器学习模型。
12.一种电子设备,其特征在于,包括:处理器以及存储器;
所述存储器,用于存储所述处理器的计算机程序;
所述处理器配置为经由执行所述计算机程序来执行权利要求1至10任一项所述的医疗数据检测的质控方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10任一项所述的医疗数据检测的质控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210395902.4A CN115691722B (zh) | 2022-04-15 | 2022-04-15 | 医疗数据检测的质控方法、装置、设备、介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210395902.4A CN115691722B (zh) | 2022-04-15 | 2022-04-15 | 医疗数据检测的质控方法、装置、设备、介质及程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115691722A CN115691722A (zh) | 2023-02-03 |
CN115691722B true CN115691722B (zh) | 2023-09-29 |
Family
ID=85060352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210395902.4A Active CN115691722B (zh) | 2022-04-15 | 2022-04-15 | 医疗数据检测的质控方法、装置、设备、介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115691722B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116844684B (zh) * | 2023-05-18 | 2024-04-02 | 首都医科大学附属北京朝阳医院 | 一种医学检验结果的质控处理方法、装置、设备及介质 |
CN117275644B (zh) * | 2023-08-31 | 2024-04-16 | 广州零端科技有限公司 | 基于深度学习的检测结果互认方法、系统及存储介质 |
CN117171478B (zh) * | 2023-09-05 | 2024-04-26 | 中国医学科学院北京协和医院 | 一种医学检测数据误差识别模型构建方法与装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324981A (zh) * | 2013-05-20 | 2013-09-25 | 浙江大学 | 基于神经网络的放化疗规范化质量控制的量化方法 |
CN110728315A (zh) * | 2019-09-30 | 2020-01-24 | 复旦大学附属中山医院 | 一种实时质量控制方法,系统和设备 |
CN112102903A (zh) * | 2020-08-25 | 2020-12-18 | 中国医学科学院北京协和医院 | 基于临床实验室检测结果的质量控制系统 |
CN112904270A (zh) * | 2021-01-15 | 2021-06-04 | 电子科技大学 | 一种阵列模型误差下基于拟合模型的波达方向估计方法 |
CN113539397A (zh) * | 2021-05-27 | 2021-10-22 | 内蒙古卫数数据科技有限公司 | 一种仅利用患者样本的实时质量控制体系 |
-
2022
- 2022-04-15 CN CN202210395902.4A patent/CN115691722B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324981A (zh) * | 2013-05-20 | 2013-09-25 | 浙江大学 | 基于神经网络的放化疗规范化质量控制的量化方法 |
CN110728315A (zh) * | 2019-09-30 | 2020-01-24 | 复旦大学附属中山医院 | 一种实时质量控制方法,系统和设备 |
CN112102903A (zh) * | 2020-08-25 | 2020-12-18 | 中国医学科学院北京协和医院 | 基于临床实验室检测结果的质量控制系统 |
CN112904270A (zh) * | 2021-01-15 | 2021-06-04 | 电子科技大学 | 一种阵列模型误差下基于拟合模型的波达方向估计方法 |
CN113539397A (zh) * | 2021-05-27 | 2021-10-22 | 内蒙古卫数数据科技有限公司 | 一种仅利用患者样本的实时质量控制体系 |
Non-Patent Citations (2)
Title |
---|
周睿等."再论定量测量程序质量控制计划的设计和实施".《临床检验杂志》.2021,第39卷(第12期),第881-889页. * |
文传军等."基于样本投影分布的平衡不平衡数据集分类".《计算机应用研究》.2009,第26卷(第8期),第3131-3133页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115691722A (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115691722B (zh) | 医疗数据检测的质控方法、装置、设备、介质及程序产品 | |
Lin et al. | Statistical methods in assessing agreement: Models, issues, and tools | |
Fagerland et al. | Multinomial goodness‐of‐fit tests for logistic regression models | |
JP7361187B2 (ja) | 医療データの自動化された検証 | |
Badrick et al. | A primer on patient-based quality control techniques | |
Loh et al. | Recommendations for laboratory informatics specifications needed for the application of patient-based real time quality control | |
CN112885481A (zh) | 病例分组方法、装置、电子设备及存储介质 | |
RU2707720C2 (ru) | Система для автоматизированного анализа результатов лабораторных исследований и оповещения о риске в отделении интенсивной терапии | |
CN112786204A (zh) | 一种机器学习糖尿病发病风险预测方法及应用 | |
CN113392894A (zh) | 一种多组学数据的聚类分析方法和系统 | |
CN112786203A (zh) | 一种机器学习糖尿病视网膜病变发病风险预测方法及应用 | |
US20230214998A1 (en) | Cell Evaluation Method, Cell Evaluation Device, and Cell Evaluation Program | |
CN107506606A (zh) | 常见疾病风险预测方法及系统 | |
Sperrin et al. | Quantifying the longitudinal value of healthcare record collections for pharmacoepidemiology | |
Futoma et al. | Scalable Joint Modeling of Longitudinal and Point Process Data for Disease Trajectory Prediction and Improving Management of Chronic Kidney Disease. | |
US10973467B2 (en) | Method and system for automated diagnostics of none-infectious illnesses | |
CN114944208B (zh) | 质量控制方法、装置、电子设备及存储介质 | |
CN116738261A (zh) | 基于聚类分箱的数值型特征离散化归因分析方法及装置 | |
CN113327655B (zh) | 多维度数据的离群值检测方法、装置、设备和介质 | |
CN113392086B (zh) | 基于物联网的医疗数据库构建方法、装置及设备 | |
Muflikhah et al. | Improving Performance for Diabetic Nephropathy Detection Using Adaptive Synthetic Sampling Data in Ensemble Method of Machine Learning Algorithms | |
CN117238491B (zh) | 一种基于尿液代谢组数据的尿结石风险预测方法及其系统 | |
Li et al. | JMASM 47: ANOVA_HOV: A SAS Macro for Testing Homogeneity of Variance in One-Factor ANOVA Models (SAS) | |
Conniff | On Semi-Parametric Regression for Time-to-Event Analyses in Electronic Health Records Studies | |
EP1933247A2 (en) | Biometric quality control process |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |