CN114121227A

CN114121227A - 一种肝硬化患者上腹部增强ct影像组学特征处理方法及其应用

Info

Publication number: CN114121227A
Application number: CN202110208789.XA
Authority: CN
Inventors: 范春蕾; 刘瑾
Original assignee: Yinji Information Technology Beijing Co ltd; Beijing Youan Hospital
Current assignee: Yinji Information Technology Beijing Co ltd; Beijing Youan Hospital
Priority date: 2021-02-24
Filing date: 2021-02-24
Publication date: 2022-03-01

Abstract

本发明提供一种肝硬化患者上腹部增强CT影像组学特征的处理方法及其在判断肝硬化患者食管静脉曲张中的应用。所述处理方法包括如下步骤：S1.收集肝硬化患者上腹部增强CT影像；S2.对增强CT影像中肝脏、脾脏和食管下段区域逐层进行标记；S3.对所标记区域分别进行三维重建；S4.对每个三维区域提取影像组学特征，然后进行融合，得到所述患者的原始影像组学特征；S5.应用主成分分析方法对原始影像组学特征进行降维处理，得到降维后的影像组学特征；S6.利用分类算法构建患者食管静脉曲张影像组学分类模型。

Description

一种肝硬化患者上腹部增强CT影像组学特征处理方法及其应用

技术领域

本发明涉及医学、核医学和影像组学领域，具体涉及一种肝硬化患者上腹部增强CT影像组学特征处理方法及其在判断肝硬化患者食管静脉曲张中的应用。

背景技术

肝硬化是各种慢性肝病进展的终末阶段，是全球第11大最常见的死亡原因。静脉曲张破裂出血是肝硬化严重的致死性并发症。食管静脉曲张破裂出血引起的死亡率相对高于胃静脉曲张。约1/3的食管静脉曲张患者会出现食管静脉曲张破裂出血，急性出血后6周死亡率高达15％-25％，出血后1年的死亡率高达40％。因此，早期诊断静脉曲张尤其是食管静脉曲张，预测出血风险，并选择合适的方式进行治疗是降低静脉曲张破裂出血死亡率的关键。目前，胃镜检查是诊断静脉曲张和预测出血风险的“金标准”。肝硬化诊治相关指南及共识建议，所有患者一旦诊断为肝硬化，必须行胃镜检查，并且每1-3年复查一次，以便尽早发现需要治疗的静脉曲张。

但是胃镜检查是侵入性操作，有引起贲门撕裂、食管胃穿孔、出血等并发症风险。另外，静脉曲张的发生率及其严重程度与肝脏疾病的严重程度相关。虽然失代偿期肝硬化患者中食管胃静脉曲张比例高达85％，但是代偿期肝硬化患者中仅30-40％存在食管胃静脉曲张。在肝功能Child-Pugh B/C级患者中，食管胃静脉曲张发病率为70％；而Child-PughA级患者食管胃静脉曲张的发病率仅40％。因此，进行胃镜检查的患者中，有相当一部分患者是不必要进行检查的，他们并没有从中获益，却要忍受胃镜检查过程中的不适，承担检查带来的风险。

现有技术已经出现了多种替代胃镜检查判断肝硬化患者食管静脉曲张的尝试，并建立了相应的方法。如以肝静脉压力梯度(HVPG)判断静脉曲张风险。但是HVPG测量是一个有创的血管造影介入操作且需要专门的设备，价格相对昂贵；同时，易受一些因素影响：如体位、呼吸、麻醉药物和肝内分流等。有学者提出了几种基于血清标志物的诊断和预测模型，如FIB-4(Fibrosis Index Based on Four Factors,肝纤维化指数)、Lok评分、 APRI(Aspartate aminotransferase to platelet count ratio index,谷草转氨酶与血小板计数比值指数)、AAR(Aspartate aminotransferase to alanine aminotransferaseratio,谷草转氨酶与谷丙转氨酶比值)、VITRO评分(Von Willebrand factor antigen/platelet ratio，血管性血友病因子抗原水平与血小板计数比值)等，但是这些模型的准确度不高。

CT成像检查中，除肉眼可观察到的器官或病灶的大小、形状、边缘形态、增强结构等特征，同时会产生大量的图像数据，这些数据无法完全依靠医生来读取和解释。应用影像组学分析方法从医学影像图像中提取、量化数据，然后采用适合的算法进行分析，可以在临床实践中辅助疾病状况的判断。如中国发明专利申请CN11028223A(公开日2020年4月17日)公开了一种微卫星不稳定肠癌能谱CT碘水图影像组学特征处理方法，包括：收集肠癌样本图像；对肠癌样本图像进行感兴趣区域勾画，提取感兴趣区域的图像特征；对提取的图像特征进行哑变量处理，生成一个取值为0或1的哑变量特征；引用卡方检验，对经过哑变量处理后的图像特征采用假设检验法过滤出具有统计学意义的组学特征；采用相关性分析方法对组学特征之间的冗余性进行过滤，引用Kendall相关性分析，计算相关性系数，得到过滤后的组学特征；基于模型层面，引入LASSO算法，对组学特征进行降维处理；基于机器学习方法的最优化理论，引入5折交叉验证技术，通过L2正则化模型构建思想，最优化得到L2正则化Logistic 回归模型，采用ROC方法对L2正则化Logistic回归模型进行评价。利用机器学习方法，基于CT等医学影像对疾病的状态进行判断从而减少有创检查已经成为研究热点和趋势。

发明内容

本发明提供一种肝硬化患者上腹部增强CT影像组学特征处理方法以及该处理方法在判断肝硬化患者食管静脉曲张中的应用。

为实现上述发明目的，本发明采用了如下的技术方案：

一种肝硬化患者上腹部增强CT影像组学特征的处理方法，包括如下步骤：

S1.收集肝硬化患者上腹部增强CT影像，将肝脏、脾脏和食管静脉强化最明显的门静脉期CT影像转化为DICOM格式；

S2.对步骤S1中得到的DICOM格式的增强CT影像中肝脏、脾脏和食管下段区域逐层进行标记，将所述区域与其他组织分离；

S3.对步骤S2中所标记感兴趣区域分别进行三维重建；

S4.对步骤S3得到的每个三维区域提取影像组学特征，将三个区域的影像组学特征进行融合，即得到所述患者的原始影像组学特征；

S5.应用主成分分析方法对步骤S4得到的原始影像组学特征进行降维处理，得到降维后的影像组学特征；

S6.在步骤S5得到的降维后的组学特征基础上，利用分类算法构建患者食管静脉曲张影像组学分类模型。

优选地，所述步骤S2中，所述食管下段是指贲门至其上部5厘米区域。

优选地，所述步骤S2中，首先由医生对DICOM格式的增强CT影像中肝脏、脾脏和食管下段区域逐层进行标记，从DICOM格式的增强CT 图像中提取出所有标定数据；具体操作为：

解析影像数据，提取出所述区域的标记轮廓，然后对提取出的轮廓进行膨胀和填充得到标记区域内全为1、标记区域外为全为0的二值化图像，所述二值化图像和DICOM格式的增强CT图像形状大小相同；最后将 DICOM格式的增强CT图像数据和二值化图像相乘，从原始增强CT图像中提取出所有标定数据，将所述区域和其他组织分离。

优选地，所述步骤S3中，所述三维重建采用Marching Cubes(MC)算法。

所述MC算法的基本原理是在三维数据场中构造等值面，找出经过该等值面的体元，求出该体元内的等值面并计算相关参数。该算法计算速度快，重建出来的图像质量较高。数据的3D重建可以很好的还原目标区域真实形状，对于精准预测病人食管静脉曲张影像组学分类模型的训练起到关键作用。

优选地，所述步骤S4中，每个区域提取的影像组学特征包括：纹理特征42维，梯度方向直方图特征540维，小波特征48维和统计特征156 维，共786维。

因此，肝脏、脾脏和食管下段三个区域的影像组学特征融合后，得到的患者原始影像组学特征共2358维。

优选地，所述步骤S5中，所述降维处理的具体过程为：

S5-1.利用公式I将步骤S4得到的原始影像组学特征标准化，

Xi’＝(Xi-Xmin)/(Xmax-Xmin) I，

其中，Xi’为第i个病人在该维度标准化后的影像特征，

Xi为该病人在该维度未进行标准化的影像特征，

Xmax为该维度的最大值，

Xmin为该维度的最小值；

然后计算出多维特征的协方差矩阵，得到矩阵的特征值和特征向量；

S5-2.将步骤S4得到的原始影像组学特征值从大到小排序，选取主成分，找到其对应的特征向量，将所述原始影像组学特征数据投影到选取的特征向量上，所述原始影像组学特征的维度即被减少，得到降维后的影像组学特征。

优选地，所述步骤S6中，所述分类算法是指SVM(Support vector machine)。

进一步优选地，所述步骤S6中，将降维后的影像组学特征和临床特征进行整合，利用SVM分类方法构建患者食管静脉曲张影像组学分类模型；更进一步优选地，具体过程为：

将纳入模型的患者随机分为5组，分别将每一组患者作为验证集，其余4组作为训练集，基于机器学习方法的最优化理论，进行5折交叉验证，最优化得到SVM模型。

优选地，所述步骤S6还包括通过区分度、校准度和临床实用价值对所述SVM模型进行评价。

优选地，所述区分度通过ROC(Receiver Operating Characteristic Curves，受试者工作特征曲线)的AUC(曲线下面积)数值进行评价，AUC数值的正常范围在0.50到1.00之间，数值越大代表模型的区分度越好。

优选地，校准度通过决策曲线进行评价，以胃镜下判断的食管静脉曲张程度为金标准，预测病人食管静脉曲张与金标准的吻合程度越高代表模型校准度越好。

SVM的目标主旨就是特征空间上找到最佳的分离超平面使得训练集上正负样本间间隔最大。模型的目标函数如下：

目标是通过训练，使L(ω,b,α)数值最小，实现模型的优化。

是正则项，作用是减小过拟合影响；

用来构建算法“超平面”，用于分类。

本发明还提供一种基于上述肝硬化患者上腹部增强CT影像组学特征处理方法的判断肝硬化患者食管静脉曲张程度的装置，所述装置包括：

(1)输入模块

所述输入模块被设置为用于输入如下待判断肝硬化患者上腹部增强 CT影像：

DICOM格式的肝脏、脾脏和食管静脉强化最明显的门静脉期CT影像；

(2)食管静脉曲张程度判断模块

所述食管静脉曲张程度判断模块被设置为包括感兴趣区域标记模块、感兴趣区域三维重建模块、影像组学特征提取模块、影像组学特征降维模块和患者食管静脉曲张影像组学特征分类模型；

(3)输出模块

所述输出模块被设置为输出得到的患者的肝硬化患者食管静脉曲张程度。

优选地，所述感兴趣区域标记模块被设置为对DICOM格式的增强CT 影像中肝脏、脾脏和食管下段区域逐层进行标记，将所述区域与其他组织分离。

进一步优选地，所述感兴趣区域标记模块被设置为对DICOM格式的增强CT影像进行如下处理：

首先对由医生逐层标记的肝脏、脾脏和食管下段区域的DICOM格式的增强CT影像进行影像数据解析，提取出所述区域的标记轮廓，然后对提取出的轮廓进行膨胀和填充得到标记区域内全为1、标记区域外为全为 0的二值化图像，所述二值化图像和DICOM格式的增强CT图像形状大小相同；最后将原始增强CT图像数据和二值化图像相乘，从DICOM格式的增强CT图像中提取出所有标定数据，将所述区域和其他组织分离。

进一步优选地，所述食管下段是指贲门至其上部5厘米区域。

优选地，所述感兴趣区域三维重建模块被设置为对所标记区域分别进行三维重建，得到三维影像。

优选地，所述影像组学特征提取模块被设置为用于对三维影像分别提取纹理特征，梯度方向直方图特征，小波特征和统计特征，得到原始影像组学特征。

进一步优选地，所述影像组学特征提取模块被设置为用于对三维影像分别提取纹理特征42维，梯度方向直方图特征540维，小波特征48维和统计特征156维，得到目标区域的影像组学特征，将三个候选区域的影像组学特征进行融合，得到患者的原始影像组学特征。

优选地，所述影像组学特征降维模块被设置为用于对所述原始影像组学特征进行如下处理：

I.利用公式I将步骤S4得到的原始影像组学特征标准化，

Xi’＝(Xi-Xmin)/(Xmax-Xmin) I，

其中，Xi’为第i个病人在该维度标准化后的影像特征，

Xi为该病人在该维度未进行标准化的影像特征，

Xmax为该维度的最大值，

Xmin为该维度的最小值；

计算出多维特征的协方差矩阵，得到矩阵的特征值和特征向量；

II.将步骤S4得到的原始影像组学特征值从大到小排序，选取主成分，找到其对应的特征向量，将所述原始影像组学特征数据投影到选取的特征向量上，所述原始影像组学特征的维度即被减少，得到降维后的组学特征。

优选地，所述食管静脉曲张影像组学特征模型通过以下过程建立：

将纳入模型的患者随机分为5组，分别将每一组患者作为验证集，其余4组作为训练集，基于机器学习方法的最优化理论，进行5折交叉验证，最优化得到SVM模型；通过区分度，校准度和临床实用价值对所述SVM 模型进行评价。

所述区分度通过ROC(Receiver Operating Characteristic Curves，受试者工作特征曲线)的AUC(曲线下面积)数值进行评价；AUC数值的正常范围在0.50到1.0之间，数值越大代表模型的区分度越好。

所述校准度通过决策曲线进行评价，以胃镜下判断的食管静脉曲张程度为金标准，预测患者食管静脉曲张与金标准的吻合程度越高代表模型校准度越好。

本发明提供的基于上述肝硬化患者上腹部增强CT影像组学特征处理方法的判断肝硬化患者食管静脉曲张程度的装置可以是一种计算机设备。所述食管静脉曲张程度判断模块可被包括在该计算机设备的存储器中；所述计算机设备还包括处理器，所述处理器能够运行所述感兴趣区域三维重建模块、影像组学特征提取模块、影像组学特征降维模块和食管静脉曲张影像组学特征模型的计算机程序。

此外，本发明还有一个目的在于提供采用上述装置对肝硬化患者进行食管静脉曲张程度分组的方法，所述方法包括：

(1)获得待分组的肝硬化患者的肝硬化患者上腹部增强CT影像；

(2)将步骤(1)获得的肝脏、脾脏和食管静脉强化最明显的门静脉期CT影像以DICOM格式输入到所述装置的输入模块；

(3)使用所述食管静脉曲张程度判断模块判别肝硬化患者食管静脉曲张程度，并从输出模块中输出；所述食管静脉曲张程度为轻度食管静脉曲张或中重度食管静脉曲张；

(4)将输出结果为轻度食管静脉曲张的肝硬化患者确定为不需要进行胃镜检查的低出血风险组，将输出结果为中重度食管静脉曲张的肝硬化患者确定为需要进行胃镜检查的高出血风险组。

本发明提供的该分组方法不用于诊断疾病，但可以对肝硬化患者的临床随访与治疗提供中间结果或辅助信息。

附图说明

下面结合附图对本发明做进一步说明。

图1是实施例2所述的肝硬化患者上腹部增强CT影像组学特征处理方法的流程示意图。

图2是实施例2中已经对肝脏、脾脏和食管下段增强CT图片进行标记的示意图，其中A-D分别是标记的无食管静脉曲张患者的CT图片、标记的轻度食管静脉曲张患者的CT图片、标记的中度食管静脉曲张患者的 CT图片和标记的重度食管静脉曲张患者的CT图片。

图3是实施例2中，轻度食管静脉曲张(EV)的影像组学训练集和验证集的受试者工作特征曲线(ROC)曲线，其中A是训练集的ROC曲线， B是验证集的ROC曲线。

图4是实施例2中，中重度EV的影像组学训练集和验证集的ROC曲线，其中A是训练集的ROC曲线，B是验证集的ROC曲线。

图5是实施例2中，判别验证集的决策曲线；其中，A是模型判别轻度 EV的影像组学的验证集决策曲线，B是模型判别中重度EV的影像组学的验证集决策曲线。

具体实施方式

以下参照具体的实施例来说明本发明。本领域技术人员能够理解，这些实施例仅用于说明本发明，其不以任何方式限制本发明的范围。

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试剂材料等，如无特殊说明，均为市售购买产品。

实施例出现的简称：

EV：食管静脉曲张；

ROC(Receiver Operating Characteristic Curves)：受试者工作特征曲线；

AUC：曲线下面积。

在下面的实施例中，

胃镜检查：

检查前禁食8小时以上，使用日本Olympus GIF260或GIF290电子胃镜，观察并记录食管静脉曲张(EV)情况。EV分级标准：(1)无EV。(2) 轻度EV，曲张静脉呈直线形，直径≤0.3cm，红色征阴性。(3)中度EV，轻度EV红色征阳性；或曲张静脉呈蛇形迂曲隆起，0.3cm＜直径≤1.0cm，红色征阴性。(4)重度EV，中度EV红色征阳性；或曲张静脉呈串珠状、结节状或瘤状；或直径＞1.0cm，无论是否有红色征。

上腹部增强CT检查：

检查前禁食8小时以上，使用GE Lightspeed VCT 64层扫描仪检查，扫描参数：准直器宽度0.625mm，管电流380mA，管电压120kV，层厚5mm，层间距5mm。增强扫描采用高压注射器经肘前静脉以3ml/s的流率注入对比剂碘普胺(370mg I/ml)100ml。患者均行三期扫描，动脉期使用Smart prep 对比剂跟踪技术，当腹主动脉的CT值到达或超过所设阈值(150HU)时触发扫描，静脉期为65s～70s，延迟期180s～300s。在ADW 4.3工作站上行多平面重建后处理。

数据分析：

应用IBM SPSS Statistics 23统计软件，计量资料用均数±标准差

表示。计数资料以频数和百分数表示。比较两组间计量资料，正态分布资料采用t检验，非正态分布资料采用曼惠特尼U检验，组间计数资料采用卡方检验。比较临床基本资料的组间差异，P<0.05表示差异具有统计学意义。计算AUC、准确度、敏感度，特异度、PPV和NPV作为指标，评价影像组学特征模型分类准确性。通过对纳入研究患者中不同阈值的净收益进行量化，绘制决策曲线来评估影像组学模型的临床有效性。

涉及的程序和系统：

特征提取及建立模型应用Python 3.5(ubuntu系统，16.04.4版本)。使用的程序包包括Numpy、Pandas、Scikit-learn、Scipy和CV2。

实施例1纳入研究的肝硬化患者的基本情况

1.1研究对象

回顾性收集2016年1月至2017年12月期间首都医科大学附属北京佑安医院的住院肝硬化患者的临床资料、实验室资料，以及胃镜和上腹部增强 CT图像资料。肝硬化的诊断主要依据病史、病理组织活检、典型的临床症状、实验室检查和影像学表现。本研究中肝硬化诊断标准符合肝硬化诊治指南(2019版)的标准。

入组标准包括：(1)年龄18-85岁；(2)性别不限；(3)符合肝硬化的诊断标准，病因不限；(4)完成胃镜及上腹部增强CT检查，且二者相差时间不超过3个月。

排除标准包括：(1)非硬化性门脉高压；(2)既往行脾切除术、脾栓塞术、TIPS术患者；(3)既往行内镜下治疗患者；(4)胃镜或CT资料不全者；(5)原发性或转移性肝癌患者；其他部位肿瘤患者；(6)合并有未被控制的心血管、呼吸、泌尿、神经、精神等系统严重疾病者；(7)哺乳期妇女；(8)其他研究者认为不宜入组者。

共纳入研究391例患者，男性257例，女性134例，年龄(54.40±10.71) 岁；纳入患者的详细临床基本资料特征见表1。

表1纳入研究患者临床资料

^a统计方法为曼惠特尼U检验；^b统计方法皮尔逊卡方检验；^c统计方法为Fisher精确检验；^d统计方法为两独立样本t检验；^#表示无EV组与轻度EV组进行组间比较；^##表示轻度EV组与中重度EV组进行组间比较；以P<0.05为标准判断是否有存在统计学差异，*表示差异具有统计学意义。

肝硬化病因分类，酒精性肝病75例(19.18％)，乙型肝炎179例(45.78％)，丙型肝炎32例(8.18％)，乙型肝炎合并丙型肝炎7例(1.79％)，自身免疫性肝病30例(7.67％)，非酒精性脂肪性肝病3例(0.77％)，混合因素 (包括乙型肝炎合并酒精性肝病，丙型肝病合并酒精性肝病、自身免疫性肝病合并酒精性肝病)26例(6.65％)，其他病因(包括隐源性、心源性、药物所致肝硬化)39例(9.97％)。根据肝功能损害严重程度进行Child-Pugh 分级：A级160例(40.92％)，B级152例(38.87％)，C级79例(20.20％)。 MELD评分为10.35±5.47。

根据胃镜检查结果，对患者进行分组，其中无EV组患者109例(27.88％)，轻度EV组患者120例(30.69％)，中重度EV组患者162例(41.43％)。

无EV组与轻度EV组相比，轻度EV组患者的PLT、ALB和PTA降低，AST、INR、TB、PT、MELD评分升高，腹水程度更为严重。两组间年龄、性别组成、病因组成、ALT、Cr无显著差异。轻度EV组和中重度EV组患者间年龄、性别、病因组成、ALB、Cr、INR、PT、PTA、MELD评分和Child-Pugh 分级的差异均无统计学意义。轻度EV组患者PLT、ALT、AST、TB高于中重度EV组患者，中重度EV组患者腹水程度较轻度EV组患者更为严重，差异有统计学意义(P<0.05)。

实施例2一种肝硬化患者上腹部增强CT影像组学特征处理方法

本实施例所述方法的流程如图1所示，基于实施例1所述的研究对象，具体建立过程为：

S1.收集肝硬化患者上腹部增强CT影像，将肝脏、脾脏和食管静脉强化最明显的门静脉期CT影像以DICOM格式上传至精准医疗开放平台 (北京印迹信息科技(北京)有限公司开发)。

S2.首先由医生对步骤S1中得到的DICOM格式的增强CT影像中肝脏、脾脏和食管下段区域逐层进行标记。由于静脉曲张最严重的部位大多发生在贲门上方5厘米的范围内，因此食管的标记范围是食管下段，既贲门至其上部5厘米区域。标记的无食管静脉曲张患者的CT影像、轻度食管静脉曲张患者的CT影像、中度食管静脉曲张患者的CT影像和重度食管静脉曲张患者的CT影像分别如图2中A-D所示。

然后从DICOM格式的增强CT图像中提取出标记区域的所有标定数据，从而使所述区域与其他组织分离，具体操作过程是：

解析影像数据，提取出所述区域的标记轮廓，然后对提取出的轮廓进行膨胀和填充得到标记区域内全为1、标记区域外为全为0的二值化图像，所述二值化图像和DICOM格式的增强CT图像形状大小相同；最后将 DICOM格式的增强CT图像数据和二值化图像相乘，从DICOM格式的增强CT图像中提取出所有标定数据，将所述区域和其他组织分离。

S3.采用Marching Cubes(MC)算法，对步骤S2中所标记感兴趣区域分别进行三维重建。

S4.对步骤S3得到的每个三维影像分别提取图像纹理特征42维，梯度方向直方图特征540维，小波特征48维，统计特征156维，每个部分786 维特征，融合三部分特征共2358维，即为原始影像组学特征。

纹理特征是一种全局特征，它描述了图像区域所对应的物体的表面性质。在模式匹配中，这种区域的特征具有较大的优越性，并且对于噪声有较强的抵抗能力。统计特征是基于感兴趣区域像素的概率构建的直方图，然后计算直方图特征。小波特征是提取不同频率成分的三维影像的空间信息，主要提取三维影像的高频和低频信息，高频信息成分反应图像的细节信息，低频信息反应图像的结构信息。由于三维影像的边缘和形状能够被梯度方向密度分布很好的描述，因此梯度方向直方图特征能准确的反应出三维影像的边缘和形状信息，同时，三维梯度方向直方图把目标分解成许多单元块进行特征提取，所以能够准确的反应影像的局部信息和空间渐变信息。

S5.应用主成分分析方法对步骤S4得到的原始影像组学特征进行降维处理，得到降维后的影像组学特征。

大量的变量会使分类算法十分复杂，且变量之间可能存在相关性，因此，为了减少过拟合，增加分类器的泛化能力，应用主成分分析方法对从图像中获得的原始影像组学特征进行特征降维。首先利用公式I将步骤S4得到的原始影像组学特征标准化，计算出多维特征的协方差矩阵，从而得到矩阵的特征值和特征向量；

Xi’＝(Xi-Xmin)/(Xmax-Xmin) I，

其中，Xi’为第i个病人在该维度标准化后的影像特征，

Xi为该病人在该维度未进行标准化的影像特征，

Xmax为该维度的最大值，

Xmin为该维度的最小值；

然后将特征值从大到小排序，选取主成分，找到其对应的特征向量，将原始维度数据投影到选取的特征向量上，原始数据特征的维度即被减少。

构建轻度EV诊断模型时，原始影像组学特征经主成分分析降维后，163 维特征纳入模型。构建中重度EV诊断模型时，原始影像组学特征经主成分分析降维后，177维特征纳入模型。

S6.在步骤S5得到的降维后的组学特征基础上，利用分类算法构建食管静脉曲张影像组学特征模型。

采用经典分类算法SVM(Support vector machine，支持向量机)对食管静脉的曲张程度进行分类，建立判别EV程度的影像组学模型。

SVM的基本模型是在特征空间上找到最佳的分离超平面使得训练集上正负样本间间隔最大。模型的目标函数如下：

目标是通过训练，使L(ω,b,α)数值最小，实现模型的优化。

是正则项，作用是减小过拟合影响；

用来构建算法“超平面”，用于分类。

本实施例用于模型开发的各组患者病例数不平衡，无EV组病例数少于轻度EV组，轻度EV组病例数少于中重度EV组，这种不平衡可能导致模型对数量较少的一组分类的准确性降低。为克服这个问题，用轻度EV的影像组学特征训练模型时，从轻度EV组随机抽取109例患者，与无EV组进行1:1匹配，用中重度EV的影像组学特征训练模型时，从中重度EV组患者中随机抽取120例患者，与轻度EV组患者进行1:1匹配。分别将纳入模型的患者随机分为5组，分别将每一组患者作为验证集，其余4组作为训练集，进行5折交叉验证优化模型，得到最优的错误惩罚参数C为0.8。遍历所有可能的核函数,选择分类效果最优的Sigmoid核函数。核函数系数 gamma为“auto”，代表其值为样本特征数的倒数。

最后绘制ROC及决策曲线，对模型预测准确性进行评价。

轻度EV的影像组学的训练集和验证集的ROC曲线见图3所示，其中A 是训练集的ROC曲线，B是验证集的ROC曲线。中重度EV的影像组学的训练集和验证集的ROC曲线见图4所示，其中A是训练集的ROC曲线，B 是验证集的ROC曲线。

训练和优化完成后，对于轻度EV，各训练集AUC平均值为0.993，敏感度平均值为1.000，特异度平均值为0.977，PPV平均值为0.978，NPV平均值为1.000，准确度平均值为0.989；各验证集AUC平均值为0.893，敏感度平均值为0.952，特异度平均值为0.571，PPV平均值为0.690，NPV平均值为0.923，准确度平均值为0.762。对于中重度EV，各训练集AUC平均值为0.997，敏感度平均值为0.990，特异度平均值为0.979，PPV平均值为0.979， NPV平均值为0.989，准确度平均值为0.984；各验证集AUC平均值为0.984，敏感度平均值为0.833，特异度平均值为0.958，PP平均值为0.952，NPV平均值为0.852，准确度平均值为0.896。

本实施例建立的模型判别轻度EV的影像组学的验证集决策曲线分析结果如图5的A图，判别模型中重度EV的影像组学的验证组决策曲线分析结果如图5的B图所示。x轴表示阈值y轴表示净收益，用实线下的面积减去虚线下的面积为临床净获益，净获益>0则提示模型在该阈值范围内具有临床实用价值。

影像组学模型与胃镜一致性比较，见表2。

表2影像组学模型与胃镜诊断一致性比较

其中：TP：True Positive,真阳性，被模型判定为正样本，事实上也是正样本；

FP：False Positive,假阳性，被模型判定为正样本，但事实上是负样本；

FN：False Negative,假阴性，被模型判定为负样本，但事实上是正样本；

TN：True Negative,真阴性，被模型判定为负样本，事实上也是负样本。

以上4组中，因FP和FN都远小于TP和TN，即预测分类正确的多，预测类错误的少，与胃镜诊断效果一致，可以判别出模型判断准确。

对比例1一种肝硬化患者上腹部增强CT影像组学特征处理方法

本对比例所述方法的流程基本如图1所示，也基于实施例1所述的研究对象，具体建立过程与实施例2基本相同，不同之处在于：

S2.对步骤S1中得到的DICOM格式的增强CT影像中肝脏和食管下段区域逐层进行标记。

S4.对步骤S3得到的两个三维影像分别提取图像纹理特征42维，梯度方向直方图特征540维，小波特征48维，统计特征156维，每个部分786 维特征，融合三部分特征共1572维，即为原始影像组学特征。

S5.应用主成分分析方法对步骤S4得到的原始影像组学特征进行降维处理，得到30维特征用于模型构建。

S6.5折交叉验证优化模型，得到最优的错误惩罚参数C为0.6。本对比例中，对于轻度EV，各训练集AUC平均值为0.835，敏感度平均值为0.910，特异度平均值为0.945，PPV平均值为0.922，NPV平均值为0.935，准确度平均值为0.941；各验证集AUC平均值为0.802，敏感度平均值为0.895，特异度平均值为0.532，PPV平均值为0.555，NPV平均值为0.843，准确度平均值为0.653。对于中重度EV，各训练集AUC平均值为0.897，敏感度平均值为0.883，特异度平均值为0.825，PPV平均值为0.876，NPV平均值为0.855，准确度平均值为0.874；各验证集AUC平均值为0.914，敏感度平均值为0.763，特异度平均值为0.882，PP平均值为0.876，NPV平均值为0.769，准确度平均值为0.635。

本对比例建立的模型中各个指标均低于实施例2建立的模型，说明对比例1建立的模型的准确性较差。

Claims

1.一种肝硬化患者上腹部增强CT影像组学特征的处理方法，包括如下步骤：

S3.对步骤S2中所标记区域分别进行三维重建；

2.根据权利要求1所述的处理方法，其特征在于，所述步骤S2中，所述食管下段是指贲门至其上部5厘米区域；

优选地，所述步骤S2中，首先由医生对DICOM格式的增强CT影像中肝脏、脾脏和食管下段区域逐层进行标记，从DICOM格式的增强CT图像中提取出所有标定数据；具体操作为：

解析影像数据，提取出所述区域的标记轮廓，然后对提取出的轮廓进行膨胀和填充得到标记区域内全为1、标记区域外为全为0的二值化图像，所述二值化图像和DICOM格式的增强CT图像形状大小相同；最后将DICOM格式的增强CT图像数据和二值化图像相乘，从原始增强CT图像中提取出所有标定数据，将所述区域和其他组织分离。

3.根据权利要求1所述的处理方法，其特征在于，所述步骤S3中，所述三维重建采用Marching Cubes算法；

优选地，所述步骤S4中，每个区域提取的影像组学特征包括：纹理特征42维，梯度方向直方图特征540维，小波特征48维和统计特征156维，共786维。

4.根据权利要求1所述的处理方法，其特征在于，所述步骤S5中，所述降维处理的具体过程为：

S5-1.利用公式I将步骤S4得到的原始影像组学特征标准化，

Xi’＝(Xi-Xmin)/(Xmax-Xmin)I，

其中，Xi’为第i个病人在该维度标准化后的影像特征，

Xi为该病人在该维度未进行标准化的影像特征，

Xmax为该维度的最大值，

Xmin为该维度的最小值；

5.根据权利要求1所述的处理方法，其特征在于，所述步骤S6中，所述分类算法是指SVM(Support vector machine)；

将纳入模型的患者随机分为5组，分别将每一组患者作为验证集，其余4组作为训练集，基于机器学习方法的最优化理论，进行5折交叉验证，最优化得到SVM模型；

优选地，所述步骤S6还包括通过区分度、校准度和临床实用价值对所述SVM模型进行评价；

优选地，所述区分度通过ROC(Receiver Operating Characteristic Curves，受试者工作特征曲线)的AUC(曲线下面积)数值进行评价，AUC数值越大代表模型的区分度越好；

6.一种判断肝硬化患者食管静脉曲张程度的装置，所述装置基于权利要求1至5中任一项所述肝硬化患者上腹部增强CT影像组学特征的处理方法，所述装置包括：

(1)输入模块

所述输入模块被设置为用于输入如下待判断肝硬化患者上腹部增强CT影像：

(2)食管静脉曲张程度判断模块

所述食管静脉曲张程度判断模块被设置为包括感兴趣区域标记模块、感兴趣区域三维重建模块、影像组学特征提取模块、影像组学特征降维模块和病人食管静脉曲张影像组学特征分类模型；

(3)输出模块

7.根据权利要求6所述的装置，其特征在于，所述感兴趣区域标记模块被设置为对DICOM格式的增强CT影像中肝脏、脾脏和食管下段区域逐层进行标记，将所述区域与其他组织分离；

优选地，所述感兴趣区域标记模块被设置为对DICOM格式的增强CT影像进行如下处理：

首先对由医生逐层标记的肝脏、脾脏和食管下段区域的DICOM格式的增强CT影像进行影像数据解析，提取出所述区域的标记轮廓，然后对提取出的轮廓进行膨胀和填充得到标记区域内全为1、标记区域外为全为0的二值化图像，所述二值化图像和DICOM格式的增强CT图像形状大小相同；最后将原始增强CT图像数据和二值化图像相乘，从DICOM格式的增强CT图像中提取出所有标定数据，将所述区域和其他组织分离；

进一步优选地，所述食管下段是指贲门至其上部5厘米区域；

优选地，所述感兴趣区域三维重建模块被设置为对所标记区域分别进行三维重建，得到三维影像；

优选地，所述影像组学特征提取模块被设置为用于对三维影像分别提取纹理特征，梯度方向直方图特征，小波特征和统计特征，得到原始影像组学特征；

进一步优选地，所述影像组学特征提取模块被设置为用于对三维影像分别提取纹理特征42维，梯度方向直方图特征540维，小波特征48维和统计特征156维，得到目标区域的影像组学特征，将三个候选区域的影像组学特征进行融合，得到患者的原始影像组学特征；

I.利用公式I将步骤S4得到的原始影像组学特征标准化，

Xi’＝(Xi-Xmin)/(Xmax-Xmin)I，

其中，Xi’为第i个病人在该维度标准化后的影像特征，

Xi为该病人在该维度未进行标准化的影像特征，

Xmax为该维度的最大值，

Xmin为该维度的最小值；

8.根据权利要求6所述的装置，其特征在于，所述食管静脉曲张影像组学特征模型通过以下过程建立：

将纳入模型的患者随机分为5组，分别将每一组患者作为验证集，其余4组作为训练集，基于机器学习方法的最优化理论，进行5折交叉验证，最优化得到SVM模型；通过区分度，校准度和临床实用价值对所述SVM模型进行评价；

所述区分度通过ROC(Receiver Operating Characteristic Curves，受试者工作特征曲线)的AUC(曲线下面积)数值进行评价；AUC数值越大代表模型的区分度越好；

9.根据权利要求6至8中任一项所述的装置，其特征在于，所述装置是一种计算机设备；

优选地，所述食管静脉曲张程度判断模块可被包括在所述计算机设备的存储器中；

优选地，所述计算机设备还包括处理器，所述处理器能够运行所述感兴趣区域三维重建模块、影像组学特征提取模块、影像组学特征降维模块和食管静脉曲张影像组学特征模型的计算机程序。

10.一种采用权利要求6至9中任一项所述的装置对肝硬化患者进行食管静脉曲张程度分组的方法，所述方法包括：