CN111524594A

CN111524594A - 目标人群血液系统恶性肿瘤筛查系统

Info

Publication number: CN111524594A
Application number: CN202010536183.4A
Authority: CN
Inventors: 薛付忠; 井明; 季晓康; 代晓宇; 王璟涛; 王志恒
Original assignee: Shandong Huachain Medical Technology Co ltd; Shandong University
Current assignee: Shandong Huachain Medical Technology Co ltd; Shandong University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-08-11

Abstract

本发明属于医疗数据处理领域，提供了一种目标人群血液系统恶性肿瘤筛查系统，包括数据获取模块，其用于获取符合目标人群的血常规化验单图片，识别血常规化验单图片中血常规检测指标、年龄和性别；筛查预测模块，其用于基于血液系统恶性肿瘤筛查模型预测出相应待筛查者的血液系统恶性肿瘤评价指标预测值；其中，血液系统恶性肿瘤筛查模型的训练过程为：构建符合目标人群真实患病水平的样本人群集合；利用样本人群集合训练机器学习算法模型，得到血液系统恶性肿瘤筛查模型。其更适用于真实目标人群，血液系统恶性肿瘤筛查精度高。

Description

目标人群血液系统恶性肿瘤筛查系统

技术领域

本发明属于医疗数据处理领域，尤其涉及一种目标人群血液系统恶性肿瘤筛查系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

血液系统恶性肿瘤(Hematological Malignances,HM)是一类严重影响人群健康的恶性肿瘤。早期诊断HM，无论是对提高患者生存率，还是对节约医疗费用，均至关重要。构建早期、廉价、无创、灵敏、特异、高效的HM筛查模型，从而及早筛查高危个体，是达到这一目标的前提。

然而，目前已有的HM筛查模型，均采用基于医院场景的病例对照研究设计。此种设计类型，发明人发现，往往采用1:1或1:2等阳性样本与阴性样本的比例，此种情况下，样本中的患病率为50％或33％等，远远高于真实世界社区人群中的HM患病率，基于上述病例对照设计所构建的HM筛查模型，即使灵敏度、特异度均达到很高的水平，当其运用于真实目标人群时，阳性预测值也会很低，因而其实际应用价值大打折扣，进而影响血液系统恶性肿瘤筛查精度。

发明内容

为了解决上述问题，本发明提供一种目标人群血液系统恶性肿瘤筛查系统，其适用于真实目标人群，且血液系统恶性肿瘤筛查精度高。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种目标人群血液系统恶性肿瘤筛查系统，包括：

数据获取模块，其用于获取符合目标人群的血常规化验单图片，识别血常规化验单图片中血常规检测指标、年龄和性别；

筛查预测模块，其用于基于血液系统恶性肿瘤筛查模型预测出相应待筛查者的血液系统恶性肿瘤评价指标预测值；

其中，血液系统恶性肿瘤筛查模型的训练过程为：

构建符合目标人群真实患病水平的样本人群集合；

利用样本人群集合训练机器学习算法模型，得到血液系统恶性肿瘤筛查模型。

本发明的第二个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：

接收符合目标人群的血常规化验单图片，识别血常规化验单图片中血常规检测指标、年龄和性别；

基于血液系统恶性肿瘤筛查模型预测出相应待筛查者的血液系统恶性肿瘤评价指标预测值；

其中，血液系统恶性肿瘤筛查模型的训练过程为：

构建符合目标人群真实患病水平的样本人群集合；

本发明的第三个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

其中，血液系统恶性肿瘤筛查模型的训练过程为：

构建符合目标人群真实患病水平的样本人群集合；

与现有技术相比，本发明的有益效果是：

本发明在构建血液系统恶性肿瘤筛查模型时，充分考虑目标筛查人群中血液系统恶性肿瘤的患病率水平，构建了与真实世界随机抽样高危血液系统恶性肿瘤目标人群的患病率一致的模拟建模样本人群，确保了所构建的血液系统恶性肿瘤筛查模型在真实世界社区人群中的可行性；再利用血常规检测指标及血液系统恶性肿瘤筛查模型对目标人群中的待筛查者进行血液系统恶性肿瘤筛查，提高了筛查结果的精度。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例的目标人群血液系统恶性肿瘤筛查系统结构示意图；

图2是本发明实施例的血液系统恶性肿瘤筛查队列的纳入排除标准；

图3是本发明实施例的模拟建模数据集的构成图；

图4是本发明实施例的基于随机森林的符合真实世界HM患病率的训练集与测试集(A→T)的变量重要性排序；

图5是本发明实施例的基于LightGBM算法符合真实世界HM患病率的训练集与测试集(A→T)的变量重要性排序；

图6是本发明实施例的基于XGBoost算法符合真实世界HM患病率的训练集与测试集(A→T)的变量重要性排序。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

图1给出了本实施例的一种目标人群血液系统恶性肿瘤筛查系统，其包括：

(1)数据获取模块，其用于获取符合目标人群的血常规化验单图片，识别血常规化验单图片中血常规检测指标、年龄和性别。

本实施例的目标人群以高危人群为例，其中，高危人群指的是大于50岁的人群。

在本实施例中，血液系统恶性肿瘤简称为HM。

根据国际疾病分类编码ICD10，HM包含霍奇金淋巴瘤(C81)，非霍奇金淋巴瘤(C82～85，C96)，白血病(C91～95)和骨髓瘤(多发性骨髓瘤和恶性浆细胞肿瘤(C90)合并恶性免疫增生性疾病(C88)。因此，诊断为上述任意一编码疾病的个体，均被定义为HM。

筛查指标包括基本信息和血常规指标两部分。其中，基本信息有年龄、性别；血常规指标包括白细胞计数(WBC,10^9/L)、红细胞计数(RBC,10^12/L)、血小板计数(PLT,10^9/L)、血小板压积(PCT,％)、血小板分布宽度(PDW,％CV)、淋巴细胞计数(LY,10^9/L)、淋巴细胞比率(LY_P,％)、血红蛋白(HB,g/L)、单核细胞比率(MONO_P,％)、单核细胞计数(MONO,10^9/L)、红细胞分布宽度(RDW,fL)、红细胞平均体积(MCV,fL)、红细胞压积(HCT,％)、平均血红蛋白含量(MCH,pg)、平均血红蛋白浓度(MCHC,g/L)、平均血小板体积(MPV,fL)、中性粒细胞计数(NEUT,10^9/L)、中性粒细胞比率(NEUT_P,％)。

血常规是一种常规的实验室检查，具有价格低廉和可操作性强的特点。

例如：利用图像采集装置采集血常规化验单图片，将血常规化验单图片上传到服务器；服务器会自动识别血常规指标以及年龄与性别。

具体地，识别血常规化验单图片中血常规检测指标、年龄和性别的方法可采用现有图像分割及语义识别方法来实现，此处不再累述。

(2)筛查预测模块，其用于基于血液系统恶性肿瘤筛查模型预测出相应待筛查者的血液系统恶性肿瘤评价指标预测值。

其中，血液系统恶性肿瘤筛查模型的训练过程为：

步骤1：构建符合目标人群真实患病水平的样本人群集合；

步骤2：利用样本人群集合训练机器学习算法模型，得到血液系统恶性肿瘤筛查模型。

其中，机器学习算法模型可以为预设的算法，比如：随机森林算法、LightGBM算法或XGBoost算法。

机器学习算法模型也可为经多个算法比较后筛选出的最优机器学习算法模型作为最优血液系统恶性肿瘤筛查模型，以最优血液系统恶性肿瘤筛查模型预测相应待筛查者的血液系统恶性肿瘤评价指标预测值。

下面本实施例的目标人群以高危人群为例：

具体地，血液系统恶性肿瘤筛查模型的训练过程为：

构建符合高危人群真实患病水平的样本人群集合。

下面以某省全人群全生命周期健康医疗大数据队列(1)和某省多中心健康管理队列(2)为数据源来构建符合高危人群真实患病水平的样本人群集合。其中，某省全人群全生命周期健康医疗大数据队列采取整群随机抽样方法，抽取该省22个县、17个城市500万人，融合136个行业数据库而构建的大型健康医疗大数据队列，队列以个人身份证为唯一索引。某省多中心健康管理队列融合30余家大型三级综合医院健康体检中心及上述队列(1)覆盖地区的基本公共卫生健康体检人群的健康体检数据，而构建的样本量达150万人的多中心健康管理队列。

上述队列(1)系随机抽样的大型人群队列，因而可以提供目标筛查人群的HM患病率信息，但该队列人群中具备完备血常规指标的样本仅不足一半；所以直接由该随机样本构建筛查模型并不可行。队列(2)涵盖了150万18岁以上人群的健康体检信息，均具备完备的血常规指标，但该人群系非随机抽样人群，具有选择偏倚，不能代表一般人群。

研究对象选择策略：①截取队列(1)中18岁以上的样本人群，用于计算HM患病率；进而，以人群中HM患病率大于等于100/10万定义HM高危人群界限(50岁以上)，计算得到其高危人群患病率为143.16/10万。选择其中具备完备血常规指标的3971例HM患者，作为构建HM筛查模型的病例组。②按照队列(1)中50岁以上人群的年龄、性别构成及其HM年龄性别患病率，43从队列(1)和队列(2)中具备完备血常规指标的样本中，按年龄性别构成抽取对照组，共计2769780人。由此，所构建的模拟建模人群患病率为3971/(3971+2769780)＝143.16/10万。可见，该模拟建模人群的患病率与真实世界随机抽样高危HM目标人群的患病率完全一致。基于该模拟样本人群的所构建的HM筛查模型，才具有在真实世界社区人群中使用的可行性。具体流程见图2。

将上述模拟建模样本(3971例HM病例，2769780例对照)，按照7:3的比例随机划分为训练集A与测试集T(即外推验证集)。其中，训练集A用于建模和内部交叉验证，测试集T用于外部验证。

为了观察目标筛查人群患病率，对HM筛查模型阳性预测的影响，基于上述模拟建模的样本，进一步分别产生患病率为50％、30％、10％、5％、0.07169％(目标筛查人群真实患病率的50％)的模拟建模训练集B、C、D、E、F；采用五折交叉验证建模策略建立筛查模型，进而在上述测试集T中进行外推验证。具体见图3。

在血液系统恶性肿瘤筛查模型的训练过程中，利用样本人群集合训练至少两种机器学习算法模型；利用血液系统恶性肿瘤评价指标预测值来比较所有训练的机器学习算法模型，筛选出血液系统恶性肿瘤评价指标值均最高的机器学习算法模型作为最优血液系统恶性肿瘤筛查模型。

其中，血液系统恶性肿瘤评价指标包括阳性预测值、灵敏度、特异度、阴性预测值以及ROC曲线下与坐标轴围成的面积。

机器学习算法模型为一种或多种。其中，机器学习算法模型为随机森林算法、LightGBM算法或XGBoost算法。

随机森林作为Bagging的代表算法，是由Leo Breiman于2001年提出的一种借助Bagging与随机子空间计数的集成学习算法。

LightGBM采用了基于梯度的单边采样GOSS，减少每次迭代训练所需样本量，从而提高训练速度。其基本思想是首先对数据的梯度值进行排序，由于梯度较大的样本对于进一步模型训练的作用较大，所以需要保留所有梯度较大的样本，然后对梯度较小的样本进行随机采样。同时由于梯度较小的样本的减少会导致数据分布的改变，为了消除这一不良影响，对梯度较小的样本的梯度乘以一个常数。如此，LightGBM就实现了减少计算量与保证精度的平衡。GOSS的具体过程如下所述，首先，对数据中所有样本的梯度绝对值进行排序，根据排序结果，选取a*100％的样本作为大梯度样本子集，对余下的(1-a)*100％的样本集，随机选取b*(1-a)*100％个样本作为小梯度样本子集，合并大梯度样本子集与小梯度样本子集。在小梯度样本子集上的梯度数据乘以(1-a)/b，由此得到最终的采样样本，将此样本带入新的弱学习器进行下一轮的训练。

LightGBM支持类别特征，可以多线程优化，基于GBDT改进后的LightGBM算法具有训练速度快、内存消耗低、准确率较高且可以处理大规模数据的特点。

XGBoost在基于GBDT上实施了两处改进：第一是在目标函数中增加了正则项，第二是将损失函数做二阶泰勒展开，而GBDT是使用损失函数的一阶导数作为残差的估计值。

当机器学习算法模型为多种时，利用预设阳性预测值指标来比较所有训练的机器学习算法模型，筛选出阳性预测值最高的机器学习算法模型作为最优血液系统恶性肿瘤筛查模型。

采取以模型阳性预测值为核心评价指标，以灵敏度、特异度、阴性预测值、AUC(ROC曲线下与坐标轴围成的面积)为辅助评价指标，制定最优建模策略与准则。具体策略为，针对特定模型(如随机森林模型)，根据上述图3，分别构建其训练集与测试集(A，T)、(B，T)、(C，T)、(D，T)、(E，T)、(F，T)；在每个训练集(A、B、C、D、E、F)中，采用五折交叉验证，建立训练模型；进而，将这些训练模型分别带入测试集T，通过遍历模型判别阳性(HM病例)和阴性(非HM病例)的界值，选择在阳性预测值高的前提下，灵敏度、特异度、阴性预测值、AUC(ROC曲线下与坐标轴围成的面积)均相对高的情形，作为最终的筛查模型判别界值，构建筛查模型。

表1基于随机森林算法的HM筛查模型结果

图4是基于随机森林算法在符合真实世界HM患病率的训练集与测试集(A→T)中，根据随机森林的基尼指数，所得到的筛查因子的重要性排序结果。由此可见，筛查因子对HM的预测能力由高到低依次为：PDW、RBC、MPV、HCT、MONO_P、WBC、LY、PCT、HB、MCH、MONO、NEUT、RDW、NEUT_P、PLT、MCV、MCHC、LY_P、AGE、GENDER。

表2基于LightGBM算法的HM筛查模型结果

图5是基于LightGBM算法在符合真实世界HM患病率的训练集与测试集(A→T)中，根据变量在LightGBM模型中被调用的次数，所得到的筛查因子的重要性排序结果。由此可见，筛查因子对HM的预测能力由高到低依次为：MONO_P、RDW、LY、PDW、HCT、MPV、MCV、PLT、RBC、AGE、MCHC、MCH、MONO、WBC、LY_P、HB、NEUT_P、PCT、NEUT、GENDER。与随机森林相比，变量的排序有所变化。

表3基于XGBoost算法的HM筛查模型结果

图6是基于XGBoost算法在符合真实世界HM患病率的训练集与测试集(A→T)中，根据变量在XGBoost模型中被调用的次数，所得到的筛查因子的重要性排序结果。由此可见，筛查因子对HM的预测能力由高到低依次为：MONO_P、MPV、PDW、LY、RDW、HCT、RBC、MCV、MCH、WBC、HB、PLT、AGE、LY_P、MONO、MCHC、PCT、NEUT_P、NEUT、GENDER。与随机森林模型和LightGBM模型相比，变量的排序也有所变化。

根据以模型阳性预测值为核心评价指标，以灵敏度、特异度、阴性预测值、AUC为辅助评价指标的建模策略及模型筛选准则，结合上述三种模型在不同情况下的表现，选择依据患病率符合真实世界社区人群HM患病率的训练集(A)与测试集(T)所构建的XGBoost HM筛查模型，作为最优筛查模型。该模型的阳性预测值为86.81％，灵敏度为83.39％，特异度为99.98％，阴性预测值为99.98％，AUC为0.991。

本实施例在构建血液系统恶性肿瘤筛查模型时，充分考虑目标筛查人群中血液系统恶性肿瘤的患病率水平，构建了与真实世界随机抽样高危血液系统恶性肿瘤目标人群的患病率一致的模拟建模样本人群，确保了所构建的血液系统恶性肿瘤筛查模型在真实世界社区人群中的可行性；再利用血常规检测指标及血液系统恶性肿瘤筛查模型对目标人群中的待筛查者进行血液系统恶性肿瘤筛查，提高了筛查结果的精度。

实施例二

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如下步骤：

步骤1：接收符合目标人群的血常规化验单图片，识别血常规化验单图片中血常规检测指标、年龄和性别；

步骤2：基于血液系统恶性肿瘤筛查模型预测出相应待筛查者的血液系统恶性肿瘤评价指标预测值；

其中，血液系统恶性肿瘤筛查模型的训练过程为：

步骤2.1：构建符合目标人群真实患病水平的样本人群集合；

步骤2.2：利用样本人群集合训练机器学习算法模型，得到血液系统恶性肿瘤筛查模型。

在具体实施中，在血液系统恶性肿瘤筛查模型的训练过程中，利用样本人群集合训练至少两种机器学习算法模型；利用血液系统恶性肿瘤评价指标预测值来比较所有训练的机器学习算法模型，筛选出血液系统恶性肿瘤评价指标值均最高的机器学习算法模型作为最优血液系统恶性肿瘤筛查模型。

血液系统恶性肿瘤评价指标包括阳性预测值、灵敏度、特异度、阴性预测值以及ROC曲线下与坐标轴围成的面积。

实施例三

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

其中，血液系统恶性肿瘤筛查模型的训练过程为：

步骤2.1：构建符合目标人群真实患病水平的样本人群集合；

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标人群血液系统恶性肿瘤筛查系统，其特征在于，包括：

其中，血液系统恶性肿瘤筛查模型的训练过程为：

构建符合目标人群真实患病水平的样本人群集合；

2.如权利要求1所述的目标人群血液系统恶性肿瘤筛查系统，其特征在于，在血液系统恶性肿瘤筛查模型的训练过程中，利用样本人群集合训练至少两种机器学习算法模型；利用血液系统恶性肿瘤评价指标预测值来比较所有训练的机器学习算法模型，筛选出血液系统恶性肿瘤评价指标值均最高的机器学习算法模型作为最优血液系统恶性肿瘤筛查模型。

3.如权利要求1或2所述的目标人群血液系统恶性肿瘤筛查系统，其特征在于，机器学习算法模型为随机森林算法、LightGBM算法或XGBoost算法。

4.如权利要求2所述的目标人群血液系统恶性肿瘤筛查系统，其特征在于，血液系统恶性肿瘤评价指标包括阳性预测值、灵敏度、特异度、阴性预测值以及ROC曲线下与坐标轴围成的面积。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

其中，血液系统恶性肿瘤筛查模型的训练过程为：

构建符合目标人群真实患病水平的样本人群集合；

6.如权利要求5所述的计算机可读存储介质，其特征在于，在血液系统恶性肿瘤筛查模型的训练过程中，利用样本人群集合训练至少两种机器学习算法模型；利用血液系统恶性肿瘤评价指标预测值来比较所有训练的机器学习算法模型，筛选出血液系统恶性肿瘤评价指标值均最高的机器学习算法模型作为最优血液系统恶性肿瘤筛查模型。

7.如权利要求5或6所述的目标人群血液系统恶性肿瘤筛查系统，其特征在于，机器学习算法模型为随机森林算法、LightGBM算法或XGBoost算法。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如下步骤：

其中，血液系统恶性肿瘤筛查模型的训练过程为：

构建符合目标人群真实患病水平的样本人群集合；

9.如权利要求8所述的计算机设备，其特征在于，在血液系统恶性肿瘤筛查模型的训练过程中，利用样本人群集合训练至少两种机器学习算法模型；利用血液系统恶性肿瘤评价指标预测值来比较所有训练的机器学习算法模型，筛选出血液系统恶性肿瘤评价指标值均最高的机器学习算法模型作为最优血液系统恶性肿瘤筛查模型。

10.如权利要求8或9所述的计算机设备，其特征在于，机器学习算法模型为随机森林算法、LightGBM算法或XGBoost算法。