CN111881724A

CN111881724A - 一种基于LightGBM和特征融合的食管静脉曲张分类系统

Info

Publication number: CN111881724A
Application number: CN202010534911.8A
Authority: CN
Inventors: 乔建苹; 李立娟; 高艳景; 林译肯
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-11-03
Anticipated expiration: 2040-06-12
Also published as: CN111881724B

Abstract

本发明公开了一种基于LightGBM和特征融合的食管静脉曲张分类系统，包括分割模块对CT图像中肝、脾和食管的感兴趣区域进行分割提取；特征提取模块对每个部位的感兴趣区域图像进行放射组学特征提取；第一权重分配模块对每个部位的放射组学特征分配相等权重得到第一特征矩阵；第二权重分配模块根据每个部位的放射组学特征采用LightGBM方法判断每个部位对患食管静脉曲张的重要性，根据重要性对每个部位的放射组学特征加权融合得到第二特征矩阵；分类模块将第一特征矩阵和第二特征矩阵分别训练LightGBM分类模型，对待测CT图像是否患食管静脉曲张进行分类。在放射组学基础上构建基于LightGBM和特征融合的食管静脉曲张分类模型，既发挥每个部位的重要性，又提高分类性能。

Description

一种基于LightGBM和特征融合的食管静脉曲张分类系统

技术领域

本发明涉及医学图像分类技术领域，特别是涉及一种基于LightGBM和特征融合的食管静脉曲张分类系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

医学图像分类为临床中的判定提供了重要依据，随着医学图像技术的发展，医学图像与机器学习相结合如何高效的实现图像正确分类，成为医学领域和机器学习领域中的研究热点，而在目前的医学图像分类领域中，针对食管静脉曲张风险等级分类的研究尚且较少。

食管静脉曲张是门体静脉系统的侧支，连接门体静脉循环，食管静脉曲张是门脉高压(肝硬化进展期的并发症)的结果，好发于食管下段黏膜下层。食管静脉曲张破裂出血是门脉高压的严重并发症，初次出血死亡率为7％-15％，再次出血死亡率达58％。因此，早期发现和治疗对于肝硬化食管静脉曲张患者尤为重要。目前，在临床上胃镜被用于诊断食管静脉曲张，属于有创的检查，相比之下无创检查可减少患者的痛苦、安全、可重复性好。无创诊断主要有实验室检查、彩色超声、瞬时弹性成像技术、计算机断层扫描(ComputedTomography，CT)及磁共振成像等方法。

在目前的主要研究中，祁等人在2017年提出了一种基于放射组学的肝静脉压力梯度计算模型的构建方法，主要是通过对CT图像提取放射组学特征，结合最小绝对收缩与选择算子(Least Absolute Shrinkage and Selection Operator，LASSO)方法来构建一种肝静脉压力梯度计算模型，为计算门脉高压患者的早期无创指标提供一种新的途径；ElbaLlop等人提出了以非侵入性方法来预测胃食管静脉曲张在代偿性晚期慢性肝病患者队列中的存在，该研究通过血小板、脾脏直径、瞬时弹性成像(TE)，肝硬度×脾脏大小/血小板(LSPS)，静脉曲张风险指数(VRI)，Baveno VI策略和Augustin算法方法来预测代偿性晚期慢性肝病患者中胃食管静脉曲张的存在；Dong T等人在2019年提出了一种基于机器学习的筛选高危食管静脉曲张的评分系统，主要通过实验室检查收集血小板计数、血红蛋白、天冬氨酸转氨酶水平、尿素氮、血清钠、丙氨酸转氨酶等临床特征数据，结合传统方法随机森林来识别出需要治疗的食管静脉曲张患者。总之，发明人认为，CT是检查肝硬化及其并发症最常用的技术，放射组学已应用在许多医学图像分类研究中，而目前利用放射组学和机器学习基于CT图像对食管静脉曲张的无创诊断目前研究尚且较少。

发明内容

为了解决上述问题，本发明提出了一种基于LightGBM和特征融合的食管静脉曲张分类系统，将LightGBM方法应用到食管静脉曲张分类中，在放射组学的基础上构建基于LightGBM方法食管静脉曲张分类模型；对肝、脾、食管三个部位特征相等权重，对其进行线性加权融合，以及根据每个部位对食管静脉曲张诊断的重要程度进行加权线性融合，实现特征融合，既充分发挥每个部位的重要性，同时又降低模型复杂度，提高分类性能。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于LightGBM和特征融合的食管静脉曲张分类系统，包括：

分割模块，用于对获取的CT图像中肝、脾和食管的感兴趣区域分别进行分割提取；

特征提取模块，用于对得到的每个部位的感兴趣区域图像进行放射组学特征提取；

第一权重分配模块，用于对每个部位的放射组学特征分配相等权重后得到第一特征矩阵；

第二权重分配模块，用于根据每个部位的放射组学特征采用LightGBM方法判断每个部位对患食管静脉曲张的重要性，并根据重要性对每个部位的放射组学特征加权融合后得到第二特征矩阵；

分类模块，用于将第一特征矩阵和第二特征矩阵分别训练LightGBM分类模型，以训练后的LightGBM分类模型对待测CT图像是否患食管静脉曲张进行分类。

第二方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

对获取的CT图像中肝、脾和食管的感兴趣区域分别进行分割提取；

对得到的每个部位的感兴趣区域图像进行放射组学特征提取；

对每个部位的放射组学特征分配相等权重后得到第一特征矩阵；

根据每个部位的放射组学特征采用LightGBM方法判断每个部位对患食管静脉曲张的重要性，并根据重要性对每个部位的放射组学特征加权融合后得到第二特征矩阵；

将第一特征矩阵和第二特征矩阵分别训练LightGBM分类模型，以训练后的LightGBM分类模型对待测CT图像是否患食管静脉曲张进行分类。

第三方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成以下步骤：

与现有技术相比，本发明的有益效果为：

本发明针对食管静脉曲张图像分类诊断，开创性地将食管部位加入到食管静脉曲张的研究队列中，探索食管部位对食管静脉曲张的诊断性能；对肝、脾、食管三个部位特征赋予相等权重，对其进行线性加权融合；以及根据每个部位对食管静脉曲张诊断的重要程度进行加权线性融合，实现特征融合，既充分发挥每个部位的重要性，同时又降低模型复杂度、提高分类性能；

本发明将LightGBM应用到食管静脉曲张分类中，在放射组学的基础上构建一种基于LightGBM和特征融合的食管静脉曲张分类模型，具备较好的分类准确率，为食管静脉曲张患者的无创技术诊断提供新的途径。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于LightGBM和特征融合的食管静脉曲张分类系统实现方法。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

针对目前食管静脉曲张研究的不足和现有技术的发展，本实施例基于放射组学对食管静脉曲张的CT图像进行分类诊断；食管静脉曲张涉及的部位包括肝、脾和食管三个部位，基于放射组学研究这三个部位来提高食管静脉曲张的分类性能是非常有必要的，如何更高效的结合机器学习方法来实现食管静脉曲张分类为本实施例的关键部分。LightGBM(Light Gradient Boosting Machine)机器学习方法，是一个实现梯度提升决策树(Gradient Boosting Decision Tree,GBDT)算法的框架，但是相比于其他基于GBDT的算法具有速度更快、内存占用率更小、支持高效率的并行训练等优点，在降低模型复杂度同时又能保证高的准确率。因此，针对食管静脉曲张疾病所具有的特点，本实施例提供一种基于LightGBM和特征融合的分类系统以解决食管静脉曲张分类问题，如图1所示，具体包括：

分割模块，用于对获取的CT图像中肝、脾和食管的感兴趣区域分别进行逐层分割提取，获得每个部位的感兴趣区域图像；

所述分割模块中，获取患者的CT图像中肝、脾、食管三个部位的DICOM格式图像，将图像导入影像控制软件并对图像进行逐层分割，获得肝、脾和食管每个部位的ROI图像；

在本实施例中，所述影像控制软件为ITK-SNAP 3.xTeam；

所述特征提取模块中，所述放射组学特征提取包括纹理特征和非纹理特征。

所述第一权重分配模块中，生成的第一特征矩阵均等的发挥了每个部位特征的作用，同时又减少了特征维度，降低了模型复杂度。

所述第二权重分配模块中，利用LightGBM机器学习方法对三个部位的所有特征进行选择，得到每个部位的特征分布情况，初步判断每个部位对食管静脉曲张分类诊断的重要程度，避免单一方法造成的偏向性，使得结论更具有代表性；

所述第二权重分配模块中，利用LightGBM机器学习方法对每个部位的放射组学特征进行分类预测，得到每个部位对食管静脉曲张的分类准确率情况，再次判断每个部位对食管静脉曲张分类的重要性；

结合上述两个过程的结果，综合判断每个部位对食管静脉曲张诊断的重要性，根据每个部位的重要性，对每个部位的放射组学特征给予相应的权重，将其进行线性加权融合生成第二特征矩阵。

在本实施例中，为验证LightGBM机器学习方法的有效性，采用LightGBM和其他多种机器学习方法对三个部位所有特征进行选择，观察多种方法所选择出的每个部位的特征分布情况；

将每个部位的放射组学特征分别输入到LightGBM和其他多种机器学习模型中进行分类预测，观察每个部位对食管静脉曲张的分类准确率情况；

以及将第一特征矩阵和第二特征矩阵分别作为输入，输入到LightGBM分类模型和其他多种机器学习模型中对食管静脉曲张进行预测；同时，将三个部位所有特征放到分类模型中进行预测和三个部位特征单独放到分类模型中进行预测，最后将所有的结果进行比较，从而找到最高效的食管静脉曲张分类模型。

在本实施例中，机器学习算法所用软件为R软件和Python软件，提供一个由CT图像组成的101例(39个0，62个1)肝硬化患者的数据集，进行基于LightGBM和特征融合的食管静脉曲张分类系统的实现方法，具体包括：

(1)读取DICOM格式的CT图像，并将CT图像导入到ITK-SNAP 3.xTeam中对图像中的肝、脾和食管胃底三个部位的区域分别进行逐层提取，得到每个部位的感兴趣区域图像；

(2)将得到的每个部位的感兴趣区域图像进行纹理特征和非纹理特征的放射组学特征提取，肝、脾和食管三个部位分别提取4维非纹理特征和10320维纹理特征，最终一共提取30972个放射学特征；

(3)根据以下公式，对每部位特征给予相等权重(1：1：1)，即：

然后将其进行线性加权融合，使得30972维特征生成了一个10324维特征；

(4)通过十倍交叉取稳定特征方法，利用LightGBM和LASSO、Boruta、极端梯度增强(eXtreme Gradient Boosting，XGBoost)四种方法对30972个特征进行选择，综合观察多种方法所选择出的特征中每个部位的特征分布情况；

在本实施例中，四种方法中食管特征占据了绝大多数的比重，脾特征占据了较少部分比重，而肝特征仅在一种方法中出现并且所占比重极少，因此可以初步判断食管特征对食管静脉曲张诊断有着最大且直接的重要程度，脾特征的重要程度较小，肝特征重要程度极小；

(5)将每个部位10324个特征分别输入到LightGBM和LASSO、Boruta、XGBoost特征选择方法和支持向量机(Support Vector Machine，SVM)、随机森林(Random Forests，RF)、XGBoost和LightGBM分类器交叉组合得到的16种模型中进行分类预测，同时将三个部位所有特征(30972个)输入到16种模型中进行预测；

在16种模型中，如表1-4所示为三个部位特征单独输入到模型以及所有特征输入到模型中的特异性(SP)、敏感性(SE)、曲线下面积(AUC)和准确率(ACC)的结果对比；可以看出，单独食管特征和三个部位所有特征对食管静脉曲张的分类准确率平均情况不相上下，也就是说单独食管的10324个特征就能达到和30972个特征所差无几的分类效果；脾特征的准确率(ACC)比食管特征的ACC低一些，但是高于肝部位，肝特征ACC最低。

(6)根据步骤(4)和步骤(5)，在特征分布情况中肝特征仅在一种方法中出现并且所占比重极少，同时肝特征ACC最低；除此之外，从数据本身和医学角度分析来看，在肝纤维化早期，门静脉压力升高主要由于肝内阻力升高引起的，当出现侧枝循环后，进一步维持和促进门静脉压力升高的主要动力为高动力循环，在101位病人中，轻度病人较少重度病人较多，所以肝内阻力影响较小，从而使得肝的作用会比较小；

综合上述情况，对食管特征分配较大的权重比，对脾和肝特征分配较小的权重比；此外，通过权重探索以确定融合的合适权重，通过分配不同权重值的试验发现，当忽略肝特征对EV诊断的作用、融合食管和脾特征时，所生成的新特征对EV诊断的效果更好，同时也消除了大量肝部冗余特征对诊断造成的干扰影响；

最终，在本实施例中，根据公式New feature＝0.9×feature_esophagus+0.1×feature_spleen对其进行线性加权融合同样生成一个10324维新的特征矩阵。

(7)将步骤(3)和步骤(6)的新特征矩阵分别作为输入，输入到16种模型中进行分类预测，并同所有情况的结果进行比较；如表5-6为两种权重下加权融合特征在16种模型中特异性(SP)、敏感性(SE)、曲线下面积(AUC)和准确率(ACC)的结果对比。

表1肝特征在16种模型中的SP、SE、AUC和ACC

表2脾特征在16种模型中的SP、SE、AUC和ACC

表3食管特征在16种模型中的SP、SE、AUC和ACC

表4肝、脾及食管所有特征在16种模型中的SP、SE、AUC和ACC

表5 1：1：1(食管：脾：肝)加权融合特征在16种模型中的SP、SE、AUC和ACC

表6 9：1：0(食管：脾：肝)加权融合特征在16种模型中的SP、SE、AUC和ACC

可以看出，从模型角度，LightGBM与SVM、RF、XGBoost和LightGBM分类器建立的四个模型的ACC平均情况比其他三种特征选择方法与分类器建立模型的ACC高，相应的特异性、敏感性、AUC平均情况也都优于其他特征选择方法；从融合方法角度，在16种模型中，按9：1：0(食管：脾：肝)权重比融合的特征最终能够得到更高的准确率，特异性、敏感性和AUC也都相应提高许多；此外，LightGBM在1：1：1相等权重比融合的新特征中得到的ACC与9：1：0(食管：脾：肝)权重比融合的新特征中得到的ACC不相上下，这两种情况下的ACC也是本实施例所有实验结果中最高的，特异性、敏感性、AUC也是所有实验结果中最好的，LightGBM适用于这两种融合情况；

综上，LightGBM建立的模型得到的分类性能优于其他方法；LightGBM在1：1：1相等权重比融合和9：1：0(食管：脾：肝)权重比融合的情况都达到了最好的分类效果，9：1：0(食管：脾：肝)权重比融合情况更适用于本实施例所有模型，本实施例方法在食管静脉曲张图像分类中得到的分类性能大幅度提升。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

对每个部位的放射组学特征采用LightGBM方法判断每个部位对患食管静脉曲张的重要性，并根据重要性对每个部位的放射组学特征加权融合后得到第二特征矩阵；

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成以下步骤：

该方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，包括：

2.如权利要求1所述的一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，所述第二权重分配模块中，采用LightGBM方法对每个部位的所有放射组学特征进行选择，得到每个部位的特征分布，初步判断每个部位对食管静脉曲张分类的重要性。

3.如权利要求2所述的一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，所述第二权重分配模块中，利用LightGBM方法对每个部位的放射组学特征进行分类预测，得到每个部位对食管静脉曲张分类的准确率，二次判断每个部位对食管静脉曲张分类的重要性。

4.如权利要求3所述的一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，根据每个部位的特征分布和分类准确率综合判断每个部位对食管静脉曲张分类的重要性，重要性从高到低依次为食管特征、脾特征和肝特征。

5.如权利要求1所述的一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，所述特征提取模块中，放射组学特征包括纹理特征和非纹理特征。

6.如权利要求1所述的一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，将所述CT图像导入到影像控制软件中进行不同部位的分割提取。

7.如权利要求6所述的一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，所述影像控制软件采用ITK-SNAP 3.xTeam。

8.如权利要求1所述的一种基于LightGBM和特征融合的食管静脉曲张分类系统，其特征在于，所述CT图像为DICOM格式。

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成以下步骤：

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成以下步骤：