CN114842960A

CN114842960A - 一种基于ct影像和临床数据评估新冠患者病情进展和预后的方法

Info

Publication number: CN114842960A
Application number: CN202210394209.5A
Authority: CN
Inventors: 毕苏艳; 代智涛
Original assignee: Shenzhen Hospital Cancer Hospital Chinese Academy Of Medical Sciences
Current assignee: Shenzhen Hospital Cancer Hospital Chinese Academy Of Medical Sciences
Priority date: 2022-04-14
Filing date: 2022-04-14
Publication date: 2022-08-02

Abstract

本发明公开了一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法，包括基于CT影像特征数据和非影像特征数据建立新冠患者病情进展和预后预测模型，而非影像数据信息包括：患者年龄、体重指数BMI，是否患有基础性疾病，血常规检查白细胞和淋巴细胞值，新冠肺炎十大症状和肺部病变发生部位的信息。本发明不仅考虑了患者直观的CT影像信息，还充分考虑了患者由于年龄、免疫水平、临床症状的差异情况，能够对新冠患者做出更为准确的预测，速度快、预测结果更准确的优点，为新冠患者预后情况判断提供一种新的手段。

Description

一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法

技术领域

本发明涉及新冠肺炎诊疗技术领域，具体为一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法。

背景技术

新型冠状病毒为新发现的病原体，具有传播速度快，潜伏时间长，人群易感等特点。重症患者多在发病一周后出现呼吸困难或者是低氧血症。临床检查中患者血常规中白细胞总数正常或减少，淋巴细胞计数减少，血沉升高，降钙素原正常。患者胸部影像学早期呈现多发小斑片影及间质改变，进而发展为双肺多发的磨玻璃影、浸润影，严重者可出现肺部实变。

目前，医院对收治患者病情进展的判断，一般是通过临床症状变化、血常规检查及胸部CT检查实现的，并由实验室核酸检测是否转阴为治愈的最终依据。

在此过程中存在以下问题：

(1)病情进展多样化、复杂化，诊疗难度大：这里包括a由于不同个体的年龄、身体机能差别很大，如是否患有基础性疾病、是否肥胖，这些因素导致机体对感染后反应差别大，导致初始症状的差异；b相似的初始症状、和检查结果，由于治疗后机体反应不同，导致预后差别很大。

(2)患者病情进展快，传统方法时间相对久：患者入院后实验室检查和影像学检查需要一定的时间才能获得结果，对于病情进展快的患者，需要随时密切关注和监测，判断病情变化情况，常规检测对于潜在重症患者具有一定的局限性。

(3)医务人员相对匮乏，预后判断的准确性受限：对于实验室检测和影像学结果需要非常有经验的医生多方面综合评估，才能合理判断患者病情进展。目前对比全球大量新冠患者以及相对匮乏的医务人员，传统方法无法提供优质诊断评估。对于以上问题，该方法提出一种快速检测方案：利用影像组学的方法，对患者CT图像特征和其他临床数据特征对新冠患者病情进展和预后进行预测。

目前机器学习技术(包括影像组学)在该方面的应用研究，均单纯利用CT图像信息作为诊断和鉴别诊断以及预后评估的信息来源。这就导致评估结果的局限性，不能完全符合实际临床要求。

所以我们提出了一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法，以便于解决上述中提出的问题。

发明内容

本发明的目的在于提供一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法，以解决上述背景技术提出的问题。本发明基于CT影像特征数据和非影像特征数据建立新冠患者病情进展和预后预测模型，其中，非影像数据信息包括以下几个方面：患者年龄、体重指数BMI，是否患有基础性疾病，血常规检查白细胞和淋巴细胞值，新冠肺炎十大症状和肺部病变发生的部位，更能体现个体化差异，能够对新冠患者做出更为准确的预测，速度快、预测结果更准确的优点。

为实现上述目的，本发明提供如下技术方案：一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法，包括以下步骤：

S1、将筛选的N例患者的CT影像，按照7：3的比例随机分为测试数据集和验证数据集；

S2、像采集和分割：将所述测试数据集和验证数据集中获取的影像资料，导入计划设计系统或影像处理系统后，由高年资医生在系统上手动勾画出病变区域，即感兴趣区域，记为ROI；用3D-slicer或Python编程软件将所述ROI区域内部密度设为1，外部密度设为0，得到掩膜，记为mask，作为后续获取影像组学信息时的影像范围；

S3、图像特征提取，即获取所述ROI的影像特征：在3D-slicer中安装Python和Radiomics模块后，调用程序，对处理后的影像进行批量特征提取，将提取的特征灰度值宽度设置为10，取样大小为1x1x1mm，运行程序后将所有获得的CT影像特征值保存在EXCEL表格中，作为模型训练的输入端数据；

S4、通过查找患者入院病历，获取非影像学特征，所述非影像学特征根据非影像学特征用二进制表示，满足条件记为1，不满足则记为0，即可获取非特征值；

S5、特征筛选和分析：将步骤S3和步骤S4中分别得到的所述影像特征值和非特征值，在python上运用方差检验和拉索回归进行特征筛选并与对应的临床结果建立lasso回归模型、多项式回归模型以及主成分分析；对所述lasso回归模型和多项式回归模型进行K折交叉检验筛选最优值；

S6、用筛选出的模型预测测试组患者情况，并与临床诊断结果进行比对，进行模型验证；

S7、通过调整筛选模型中样本数据和模型中正则化参数、迭代次数、阈值大小参数，进行优化模型；所述模型满足要求后，即可用于预测患者预后情况。

优选的，在步骤S3中，所述对处理后的影像进行批量特征提取，还可使用搭建Python和PyRadiomics环境后在Spyder中调用命令程序的方法。

优选的，在步骤S3中，所述PyRadiomics模块中已包含所需要的所有统计特征，即直方图特征和纹理特征；

所述纹理特征包括绝对梯度特征、灰度共生矩阵特征、灰度游程矩阵特征、灰度大小区域矩阵特征、邻域灰度差矩阵特征和灰度依赖矩阵特征。

优选的，所述直方图特征包括灰度均值、最大值、最小值、方差、百分位数、偏度和峰度；

其中，所述灰度均值、最大值、最小值、方差、百分位数均为基于单像素或单体素分析，则为一阶特征，记为First Order；

所述偏度和峰度描述数据强度分布的形状；

所述偏度反映数据分布曲线低于均值或高于均值的不对称性；

所述峰度反映数据分布相对于高斯分布由于异常值而导致的拖尾。

优选的，所述绝对梯度反映图像中灰度强度波动的程度或突然性；所述绝对梯度特征包括梯度平均值、方差、偏度和峰度。

优选的，所述灰度共生矩阵是二阶灰度直方图；所述灰度共生矩阵在2D分析的水平、垂直或对角线或3D分析13个方向以及像素或体素之间的预定义距离，捕获具有预定义灰度强度的像素对或体素对的空间关系；所述灰度共生矩阵特征；

所述灰度共生矩阵特征包括：

熵，反映灰度级不均匀性或随机性的度量；

角二阶矩，反映灰度级的均匀性或有序性；

对比度，反映像素或体素之间灰度差。

优选的，所述灰度游程矩阵提供关于具有相同灰度级的连续像素在一个或多个方向上，2维或3维的空间分布的信息；所述灰度游程矩阵特征包括：分数，用于评估作为运行一部分的ROI内像素或体素的百分比，反映了颗粒度；长期强调和短期强调矩，分别针对长期和短期运行的数量进行加权；灰度级和游程长度的不均匀性；

所述灰度大小区域矩阵特征可在2维，即8个相邻像素或3维，即26个相邻体素中计算；

所述邻域灰度差矩阵量化像素或体素的灰度级与其在预定义距离内的相邻像素或体素的平均灰度级之间的差异总和；所述邻域灰度差矩阵特征包括邻域灰度差矩阵的粗糙性、繁忙度和复杂性；

所述灰度依赖矩阵是基于中心像素或体素与其邻域之间的灰度关系；所述灰度依赖矩阵特征包括反映异质性和同质性的大依赖性强调和小依赖性强调，以及反映整个ROI中灰度级相似性和灰度级依赖性的灰度级非均匀性和依赖性均匀性。

优选的，在步骤S4中，所述根据非影像学特征用二进制表示时，其判断条件包括以下内容：

S40、病灶部位：将位置分为靠近肺门区域、肺叶边缘位于肺尖、肺叶边缘位于肺顶部；

S41、患者年龄：按年龄分为青少年含幼儿组、中年组、老年组；

S42、患者是否患有基础性疾病：分为患有、不患有；

S43、患者BMI指数：分为BMI指数正常、BMI指数低于正常值、BMI指数高于正常值；

S44、白细胞水平和淋巴细胞水平：分为低于正常水平组、位于正常范围内组、高于正常水平组；

S45、患者出现的临床症状：将新冠肺炎的十大症状分为十组。

优选的，在步骤S5中，所述K折交叉检验筛选具体方法如下：

S50、将数据集D随机分为k个包；

S51、每次将其中一个包作为测试集test，剩下k-1个包作为训练集train进行训练；

S52、所述训练集train由D变为K*D后，计算k次求得的分类率的平均值，作为所述模型或者假设函数的真实分类率。

优选的，在步骤S7中，所述优化模型具体方法如下：导入新一批病人，预测结果通过接受者操作特性曲线的好坏确定最终模型情况；所述接受者操作特性曲线是反映敏感度和特异度连续变量的综合指标，是被试在特定刺激条件下，由于采用不同的判断标准得出的不同结果画出的曲线；所述曲线下面积越大，则诊断准确性越高。

与现有技术相比，本发明的有益效果是：

本发明提供了一种运用CT影像特征和临床信息，建立新冠患者病情进展和预后预测的新方法，由于新冠发病急，传染性强，导致患病人数居高不下，而传统方法对患者病情预后判断需要临床医生具有非常丰富的经验，目前现有的运用影像组学进行患者预后预测的方案仅对CT影像特征进行筛选建模，存在一定的缺陷，和现有的技术方案相比，该方法不仅考虑了患者直观的CT影像信息，还充分考虑了患者由于年龄、免疫水平、临床症状的差异情况，能够对新冠患者做出更为准确的预测，速度快、预测结果更准确的优点，为新冠患者预后情况判断提供一种新的手段。

附图说明

图1为本发明一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法的流程图；

图2为本发明一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法中的靶区处理图；

图3为本发明一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法中的部分CT影像特征数据图；

图4为本发明一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法中的ROC曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施条例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，本发明提供了一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法，包括以下内容：

步骤一、将筛选的N例患者的CT影像，按照7：3的比例随机分为测试数据集和验证数据集。

步骤二、像采集和分割。具体方法为将步骤一中获取的影像资料，导入计划设计系统或影像处理系统，如Eclipse，3D-slicer，由高年资医生在系统上手动勾画出病变区域，即感兴趣区域(ROI)；用3D-slicer或Python编程软件将所述ROI区域内部密度设为1，外部密度设为0，得到掩膜(mask)，作为后续获取影像组学信息时的影像范围。如图2所示。

步骤三、图像特征提取，即获取所述ROI的影像特征：搭建好Python和PyRadiomics环境之后在Spyder中调用命令程序或在3D-slicer中安装Python和Radiomics模块，调用程序，对处理后的影像进行批量特征提取。该方法不对图像采用滤波，将提取的灰度值宽度(Bin Width)设置为10，取样大小为1x1x1mm，运行程序后将所有获得的CT影像特征结果保存在EXCEL表格中，部分结果如图3所示，作为模型训练的输入端数据。

PyRadiomics模块中已包含所需要的所有统计特征，即直方图特征和纹理特征，具体特征如下：

(1)直方图特征

最简单的统计描述符基于全局灰度直方图，包括灰度均值、最大值、最小值、方差和百分位数。由于这些特征基于单像素或单体素分析，因此称为一阶特征(First Order)。更复杂的特征包括偏度和峰度，它们描述了数据强度分布的形状：偏度反映了数据分布曲线向左(负偏，低于均值)或向右(正偏，高于均值)的不对称性；而峰度则反映了数据分布相对于高斯分布由于异常值而导致的拖尾。

(2)纹理特征

①绝对梯度(Absolute Gradient)

反映了图像中灰度强度波动的程度或突然性。对于2个相邻像素或体素，如果一个是黑色，另一个是白色，则梯度最高，而如果两个像素都是黑色(或都是白色)，则该定位处的梯度为零。灰度是从黑变白(正梯度)还是从白变黑(负梯度)与梯度大小无关。到直方图特征相似，梯度特征包括梯度平均值、方差、偏度和峰度。

②灰度共生矩阵(GLCM)

灰度共生矩阵(Gray Level Co-occurence Matrix，简称GLCM)是二阶灰度直方图，GLCM在不同方向(2D分析的水平、垂直或对角线或3D分析13个方向)以及像素或体素之间的预定义距离，捕获具有预定义灰度强度的像素对或体素对的空间关系。GLCM特征包括：熵，它是灰度级不均匀性或随机性的度量；角二阶矩(也称为均匀性或能量)，反映灰度级的均匀性或有序性；对比度，它强调属于像素或体素对(像素或体素之间灰度差)。

③灰度游程矩阵(GLRLM)

灰度游程矩阵(Gray Level Run-Length Matrix，简称GLRLM)提供了关于具有相同灰度级的连续像素在一个或多个方向上，2维或3维的空间分布的信息。GLRLM特征包括分数，它评估作为运行一部分的ROI内像素或体素的百分比，因此反映了颗粒度；长期强调和短期强调(逆)矩，分别针对长期和短期运行的数量进行加权；灰度级和游程长度的不均匀性。

④灰度大小区域矩阵(GLSZM)

灰度大小区域矩阵(Gray Level Size Zone Matrix，简称GLSZM)基于与GLRLM类似的原理，但在这里，具有相同灰度级的互连相邻像素或体素的组(所谓的区域)的数量的计数构成了矩阵的基础。更均匀的纹理将导致更宽更平坦的矩阵。GLSZM不是针对不同方向计算的，而是可以针对定义邻域的不同像素或体素距离计算的。GLSZM特征可以在2维(8个相邻像素)或3维(26个相邻体素)中计算。

⑤邻域灰度差矩阵(NGTDM)

邻域灰度差矩阵(Neighbouring Gray Tone Difference Matrix，简称NGTDM)量化像素或体素的灰度级与其在预定义距离内的相邻像素或体素的平均灰度级之间的差异总和。主要特性包括NGTDM的粗糙性、繁忙度和复杂性。粗糙度反映中心像素或体素与其邻域之间的灰度差异，从而捕捉灰度强度变化的空间速率；也就是说，由具有相对均匀灰度级(即空间强度变化率较低)的较大区域组成的ROI将具有较高的粗糙度值。另一方面，忙碌反映了中心像素或体素与其相邻像素之间的快速灰度变化(即强度变化的高空间频率)。

⑥灰度依赖矩阵(GLDM)

灰度依赖矩阵(Gray Level Dependence Matrix，简称GLDM)也是基于中心像素或体素与其邻域之间的灰度关系。如果在定义的灰度级差范围方面满足相关性标准，则将预定距离内的相邻像素或体素视为连接到中心像素或体素。然后分析ROI是否存在强度依赖于i和j的相邻像素或体素的中心像素或体素。同样，与GLRLM类似，GLDM的特征包括反映异质性和同质性的大依赖性强调和小依赖性强调，以及反映整个ROI中灰度级相似性和灰度级依赖性的灰度级非均匀性和依赖性均匀性。

步骤四、通过查找患者入院病历，获取非影像学特征，除了上述的图像特征外，该方案考虑了几项非影像学特征，包括以下内容：

(1)病灶部位：临床发现，肺部不同位置的感染对患者预后有极大的影响，将位置分为靠近肺门区域、肺叶边缘位于肺尖、肺叶边缘位于肺顶部。

(2)患者年龄：不同年龄段患者对病情进展和预后有一定的影响，按年龄分为青少年含幼儿组、中年组、老年组。

(3)患者是否患有基础性疾病：分为患有、不患有。

(4)患者BMI指数：分为BMI指数正常、BMI指数低于正常值、BMI指数高于正常值。

(5)血常规检查反应了患者对炎症刺激反应情况，和患者病情进展及预后密切相关，白细胞水平和淋巴细胞水平：分为低于正常水平组、位于正常范围内组、高于正常水平组。

(6)患者出现的临床症状：将新冠肺炎的十大症状分为十组。

以上非影像学特征根据非影像学特征用二进制表示，满足条件记为1，不满足则记为0，即可获取非特征值。

步骤五、特征筛选和分析：将步骤三和步骤四中分别得到的所述影像特征值和非特征值，在python上运用方差检验和拉索回归进行特征筛选并与对应的临床结果建立lasso回归模型、多项式回归模型以及主成分分析；对所述lasso回归模型和多项式回归模型进行K折交叉检验筛选最优值。

K折验证的具体方法如下：将数据集D随机分为k个包(这里假定K＝6)。每次将其中一个包作为测试集test，剩下k-1个包作为训练集train进行训练。此时训练集train由D变成了K*D，最后计算k次求得的分类率的平均值，作为该模型或者假设函数的真实分类率。它有效地避免过学习以及欠学习状态的发生，最后得到的结果也比较具有说服性。

步骤六、用筛选出的模型预测测试组患者情况，并与临床诊断结果进行比对，进行模型验证。

步骤七、通过调整筛选模型中样本数据和模型中正则化参数、迭代次数、阈值大小参数，进行优化模型；对模型验证可以作如下操作：

导入新一批病人，预测结果通过接受者操作特性曲线(receiver operatingcharacteristic curve，简称ROC曲线)的好坏确定最终模型情况。该方法中，模型测试获得的ROC曲线如图4所示。

ROC是反映敏感度(tpr)和特异度(fpr)连续变量的综合指标，是被试在特定刺激条件下由于采用不同的判断标准得出的不同结果画出的曲线，曲线下面积(AUC)越大，诊断准确性越高。模型满足要求后，即可以用该模型预测新冠患者预后情况。图中，tpr为预后差的患者被正常判别为预后差的比例，fpr为预后良好的患者被判别为预后差的比例。曲线下面积(AUC)值为0.86，说明该模型可以较好预测患者预后情况。

我们提出的方法与其不同点在于：在分析CT影像数据的同时也考虑了非影像特征，包括：

(1)考虑患者的年龄等基本信息对预后的影响。

(2)考虑患者的临床症状对病情进展的影响。

(3)实验室检查白细胞、淋巴细胞水平对预后的影响。

具体方法为：①建立预测模型：将所有研究患者按照7；3随机分为训练数据集和测试数据集；对训练集中患者CT影像学特征和非影像学特征数据作为模型训练的输入，将患者病情变化作为输出结果建立模型。

②模型训练：运用该模型对测试患者情况进行预测，调整模型直至最优。

本方法不仅考虑了患者直观的CT影像信息，还充分考虑了患者由于年龄、免疫水平、临床症状的差异情况，能够对新冠患者做出更为准确的预测，速度快、预测结果更准确的优点。为新冠患者预后情况判断提供一种新的手段。

尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，在步骤S3中，所述对处理后的影像进行批量特征提取，还可使用搭建Python和PyRadiomics环境后在Spyder中调用命令程序的方法。

3.根据权利要求1所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，在步骤S3中，所述PyRadiomics模块中已包含所需要的所有统计特征，即直方图特征和纹理特征；

4.根据权利要求3所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，所述直方图特征包括灰度均值、最大值、最小值、方差、百分位数、偏度和峰度；

所述偏度和峰度描述数据强度分布的形状；

5.根据权利要求3所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，所述绝对梯度反映图像中灰度强度波动的程度或突然性；所述绝对梯度特征包括梯度平均值、方差、偏度和峰度。

6.根据权利要求3所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，所述灰度共生矩阵是二阶灰度直方图；所述灰度共生矩阵在2D分析的水平、垂直或对角线或3D分析13个方向以及像素或体素之间的预定义距离，捕获具有预定义灰度强度的像素对或体素对的空间关系；所述灰度共生矩阵特征；

所述灰度共生矩阵特征包括：

熵，反映灰度级不均匀性或随机性的度量；

角二阶矩，反映灰度级的均匀性或有序性；

对比度，反映像素或体素之间灰度差。

7.根据权利要求3所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，所述灰度游程矩阵提供关于具有相同灰度级的连续像素在一个或多个方向上，2维或3维的空间分布的信息；所述灰度游程矩阵特征包括：分数，用于评估作为运行一部分的ROI内像素或体素的百分比，反映了颗粒度；长期强调和短期强调矩，分别针对长期和短期运行的数量进行加权；灰度级和游程长度的不均匀性；

8.根据权利要求1所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，在步骤S4中，所述根据非影像学特征用二进制表示时，其判断条件包括以下内容：

S42、患者是否患有基础性疾病：分为患有、不患有；

9.根据权利要求1所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，在步骤S5中，所述K折交叉检验筛选具体方法如下：

S50、将数据集D随机分为k个包；

10.根据权利要求1所述的基于CT影像和临床数据评估新冠患者病情进展和预后的方法，其特征在于，在步骤S7中，所述优化模型具体方法如下：导入新一批病人，预测结果通过接受者操作特性曲线的好坏确定最终模型情况；所述接受者操作特性曲线是反映敏感度和特异度连续变量的综合指标，是被试在特定刺激条件下，由于采用不同的判断标准得出的不同结果画出的曲线；所述曲线下面积越大，则诊断准确性越高。