CN111462116A

CN111462116A - 基于影像组学特征的多模态参数模型优化融合方法

Info

Publication number: CN111462116A
Application number: CN202010401162.1A
Authority: CN
Inventors: 张惠茅; 李雪妍; 李明洋; 苗政; 郭钰
Original assignee: First Hospital Jinlin University
Current assignee: First Hospital Jinlin University
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-07-28

Abstract

本发明公开了一种基于影像组学特征的多模态参数模型优化融合方法，包括：获取多种模态的医学影像，并对所述医学影像进行预处理；对预处理之后的医学影像进行区域分割，获取每一种模态医学影像对应的感兴趣区域；获取每一个感兴趣区域对应的高维影像组学特征；对所述高维影像组学特征进行划分得到训练集和测试集，并分别进行梯度降维得到低维影像组学特征标签；利用低维影像组学特征标签作为交叉训练数据集，利用不同算法训练多个候选参数模型；本发明通过绘制受试者工作特征曲线并计算所述受试者工作特征曲线下区域面积均值，并将所述区域面积均值最高者确定为最优参数模型，能够有效提取图像特征，以实现最大限度地挖掘医学影像信息。

Description

基于影像组学特征的多模态参数模型优化融合方法

技术领域

本发明涉及医学影像处理与分析领域，特别涉及一种基于影像组学特征的多模态参数模型优化融合方法。

背景技术

影像组学是近年来新兴的一种旨在通过对医学影像进行一阶和高阶图像特征提取和分析以建立可能提高诊断、预后和预测准确性模型的研究领域。随着影像组学的发展，更多的科研人员逐渐加入该领域并讨论和完善了一些不。目前在组学领域中，影像组学已与基因组学等相结合共同建立预测模型。

多数影像组学的研究采用Matlab软件或Python平台提取影像组学特征，由于Matlab属于半开源软件，无法方便查看和修改底层函数，所以无法便捷地供每个研究者使用。

随着人工智能的火热，越来越多的放射科医生开始关注人工智能在放射学中的应用。大多数放射科医生认为人工智能在放射学中会有很大的价值前景，并相信影像组学可以提高预后预测能力和准确度，也将会取代影像科医生的很多工作。有调查表明，放射科医生们表达了使用人工智能工具的意愿，并希望能有一个工具和平台快捷地提供算法和结果，在影像组学中发挥积极的作用。

目前应用人工智能技术的软件平台开发与应用是主流趋势。随着软件架构的不断发展和完善，开源框架成为主流。计算机辅助诊断(computer aided detection,CAD)是当前人工智能技术的热点应用场景。研究人员针对影像组学方向开发开源软件平台IBEX和QIFE，但平台内容仅包括图像处理和简单建模，并不具备完整的影像组学计算流程和模型参数调优等功能。

发明内容

本发明提供了一种基于影像组学特征的多模态参数模型优化融合方法，通过绘制受试者工作特征曲线并计算所述受试者工作特征曲线下区域面积均值，并将所述区域面积均值最高者确定为最优参数模型，能够有效提取图像特征，以实现最大限度地挖掘医学影像信息。

本发明提供的技术方案为：

一种基于影像组学特征的多模态参数模型优化融合方法，包括：

获取多种模态的医学影像，并对所述医学影像进行预处理；

对预处理之后的医学影像进行区域分割，获取每一种模态医学影像对应的感兴趣区域；

对每一种模态医学影像的每一个感兴趣区域进行特征提取，获取每一个感兴趣区域对应的高维影像组学特征；

对所述高维影像组学特征进行划分得到训练集和测试集，并分别进行梯度降维得到低维影像组学特征标签；

利用低维影像组学特征标签作为交叉训练数据集，利用不同算法训练多个候选参数模型；

通过绘制受试者工作特征曲线并计算所述受试者工作特征曲线下区域面积均值，并将所述区域面积均值最高者确定为最优参数模型。

优选的是，所述多种模态的医学影像包括：核磁解剖成像、CT影像、PET影像、X线影像和超声影像；

其中，所述核磁解剖影像包括T1加权成像、T1对比增强成像、T2加权成像和T2流动衰减反转恢复序列成像。

优选的是，所述医学影像的区域分割过程包括：

步骤一、手动勾选所述医学影像的感兴趣区域；

步骤二、先通过RGB三通道数值的调整，匹配标签图像的颜色，从而识别出ROI的主要轮廓；

步骤三、将每一像素点灰度值设置为邻域窗口的中值，能够有效抑制噪声；

步骤四、再通过动态调整RGB通道中所占成分最多的通道值，让ROI保持最小宽度；

步骤五、将ROI曲线进行二值化转化，得到最终的标签图像。

优选的是，所述感兴趣区域对应的高维影像组学特征至少包括：一阶纹理体征、形状特征、灰度共生矩阵、灰度区域矩阵、灰度游程矩阵、邻域灰度差分矩阵和灰度依赖矩阵。

优选的是，所述高维影像组学特征中训练集与测试集的比值为80:20。

优选的是，所述高维影像组学特征进行梯度降维过程包括：

首先，对所高维影像组学特征进行数据标准化，所述高维影像组学特征的标准化公式为：

其中，x^*表示高维影像组学特征标准化后的数据，x表示高维影像组学特征原始数据，μ表示高维影像组学特征均值，σ表示高维影像组学特征标准差；

对所述测试集数据进行数据标准化，所述测试集的标准化公式为：

其中，C^*为测试集标准化后的数据，c为测试集高维影像组学特征原始数据，μ^*为高维影像组学特征标准化后的标准化数据均值，σ^*为高维影像组学特征标准化后的标准化数据标准差；

然后，确定多组影像组学特征是否满足标准正态分布，若不满足正态分布，用秩和检验进一步检验影像组学特征的相关性；

最后，利用降维算法对高维影像组学特征进行降维，其计算公式为：

其中，y为预测的类别，w为影像组学特征对应的系数，x为影像组学特征，α代表系数，|| ||为稀疏降维运算。

优选的是，通过取10折交叉验证的均值曲线，得到均方误差最小时的α值。

优选的是，所述最优参数模型选取过程为：

步骤1、将所述训练集和均分，得到k个交叉验证子训练集；

步骤2、通过k折交叉验证得到k个中间模型，绘制所述k个中间模型的受试者工作特征曲线，计算所述k个中间模型的受试者工作特征曲线下区域面积，并对所述测试集进行预测；

步骤3，通过训练集和测试集训练第k+1个模型，计算第k+1个模型的受试者工作特征曲线下区域面积；

步骤4、综合比较不同模型的交叉验证数据集中的受试者工作特征曲线下区域面积均值、标准差和测试集的受试者工作特征均值曲线，将受试者工作特征曲线下区域面积均值的最高者对应的模型作为最优参数模型。

优选的是，所述候选参数模型包括：随机森林模型、梯度决策树模型、支持向量机模型、对率几率回归模型、多层感知机模型和集成学习模型；

所述集成学习模型包括：随机森林模型、梯度决策树模型和对率几率回归模型。

优选的是，所述测试集的预测公式为：

其中，TP为真正例，TN为真负例，FP为假正例，FN为假负例，TPR为灵敏度、TNR为特异度、PPV为阳性预测值、NPV为阴性预测值。。

本发明的有益效果

1、本发明通过图像分析和阈值调优，优化手动勾画的ROI，最大化降低ROI对组学特征计算的误差。

2、本发明创新性地引入梯度降维，即先通过统计学中的单变量独立t检验对原始特征预降维，再将预降维后的特征经机器学习lasso正则化降维。

3、本发明可以有效保留更多相关度较大的特征值，有利于提高建模精度。同时由于采用统计学方法预降维，因此对保留后的特征有较好的可解释性。

4、本发明通过绘制受试者工作特征曲线并计算所述受试者工作特征曲线下区域面积均值，并将所述区域面积均值最高者确定为最优参数模型，能够有效提取图像特征，以实现最大限度地挖掘医学影像信息。

附图说明

图1为本发明所述的基于影像组学特征的多模态参数模型优化融合方法的流程图。

图2为本发明所述的单个规则原始CT的感兴趣区域轮廓图。

图3为本发明所述的未优化的单个规则的感兴趣区域轮廓图。

图4为本发明所述的优化提取后的单个规则的感兴趣区域轮廓图。

图5为本发明所述的独立多个原始CT的感兴趣区域轮廓图。

图6为本发明所述的未优化的独立多个感兴趣区域轮廓图。

图7为本发明所述的优化提取后独立多个感兴趣区域轮廓图。

图8为本发明所述的不规则多个原始CT的感兴趣区域轮廓图。

图9为本发明所述未优化的不规则多个感兴趣区域轮廓图。

图10为本发明所述的优化提取后的不规则多个感兴趣区域轮廓图。

图11为本发明所述的嵌套多个原始CT的感兴趣区域轮廓图。

图12为本发明所述未优化的嵌套多个感兴趣区域轮廓图。

图13为本发明所述的优化提取后的嵌套多个感兴趣区域轮廓图。

图14为本发明所述的原始CT图像感兴趣区域图。

图15为本发明所述的原始CT图像。

图16为本发明所述的灰度共生矩阵图。

图17为本发明所述的经过小波变换后的图像。

图18为本发明所述的优化后的原始CT图像感兴趣区域图。

图19为本发明所述的优化后的原始CT图像。

图20为本发明所述的优化后的灰度共生矩阵图。

图21为本发明所述的优化后的经过小波变换后的图像。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

如图1所示，本发明提供的基于影像组学特征的多模态参数模型优化融合方法包括：

步骤S110、获取多种模态的医学影像，并对所述医学影像进行预处理；

步骤S120、对预处理之后的医学影像进行区域分割，获取每一种模态医学影像对应的感兴趣区域；

图像预处理后可通过自动提取的ROI图像或手动勾画的ROI图像；

其中，自动提取ROI的方法包括基于深度学习分割后的ROI，自动提取的ROI大多属于某一种疾病的单一ROI，在保证分割精度较高的前提下并不需要做过多的轮廓边界修正。

手动勾画ROI图像包括面积勾画或轮廓勾画等。由于有些手动勾画的ROI形状极不规则或是嵌套分布，所以修正轮廓边界将大大减少特征的计算误差。

本发明

采用轮廓识别和边缘采集算法，通过中值滤波去噪和二值图像转化，先提取ROI的主要轮廓，再通过对RGB通道的动态阈值处理，找到最佳边缘，最终达到对ROI优化的效果。除此之外，也可以对同一幅图像的多个ROI独立识别和实时优化。

对标注颜色的标签图像采用轮廓识别和边缘采集算法，进一步提取标签二值图像。首先通过RGB三通道数值的调整，匹配标签图像的颜色，从而识别出ROI的主要轮廓。由于受到线条粗细的影响，可能会让ROI偏大。因此再通过中值滤波算法平滑ROI曲线，即将每一像素点灰度值设置为邻域窗口的中值，可以有效抑制噪声。再通过动态调整RGB通道中所占成分最多的通道值，让ROI保持最小宽度，这样可以有效提取对应的感兴趣区域。最后将ROI曲线进行二值化转化，得到最终的标签图像。

如图2～13所示，由于DICOM格式的CT图像的ROI由手工勾画，因此需要通过ROI优化算法提取最佳ROI。RIAS支持对单个ROI、多个ROI、嵌套ROI的识别和优化，由图示可见，经过优化的ROI二值图像会更精准地还原原始ROI区域，减小误差。

步骤S130、对每一种模态医学影像的每一个感兴趣区域进行特征提取，获取每一个感兴趣区域对应的高维影像组学特征；

如图17～21所示，本发明对总数据集的每一幅DICOM格式图像分别提取841维影像组学特征，其中包括：1.小波变换；2.一阶纹理特征：能量、熵、标准差等；3.形状特征：表面积、球形度、平坦度等；4.灰度共生矩阵：对比度、相关度、联合熵等；5.灰度区域矩阵：灰度不均匀性、区域不均匀性、灰度级方差等；6.灰度游程矩阵：灰度短(长)游程增强、灰度游程方差、灰度游程熵等；7.邻域灰度差分矩阵：粗糙度、对比度、复杂度等；8.灰度依赖矩阵：灰度级方差、灰度级不均匀性、依赖熵等。原始ROI图像和对应经过影像组学特征提取后的ROI在某几种特征变换下的矩阵可视化。

1、小波变换，即原始图像进行Haar小波变换，分别得到高频和低频子带对应的图像；2.一阶纹理特征，即包括在原始图像中获取到的能量、熵、标准差等；3.形状特征，即包括原始图像所对应的表面积、球形度、平坦度等；4.灰度共生矩阵相关特征，即对原始图像先进行灰度共生矩阵的转换，再在灰度共生矩阵中计算对应的对比度、相关度、联合熵等具体特征值；5.灰度区域矩阵相关特征，即对原始图像先进行灰度区域矩阵的转换，进而在灰度区域矩阵中计算灰度不均匀性、区域不均匀性、灰度级方差等特征值；6.灰度游程矩阵相关特征，即对原始图像先进行灰度游程矩阵的转换，进而在灰度游程矩阵中计算灰度短(长)游程增强、灰度游程方差、灰度游程熵等特征值。

步骤S140、对所述高维影像组学特征进行划分得到训练集和测试集，并分别进行梯度降维得到低维影像组学特征标签；

由于原始影像组学特征的绝对值差异较大，因此对数据处理前首先进行数据标准化。首先对交叉验证数据集统一标准化，再用交叉验证数据集中的均值和方差对测试集标准化，标准化过程公式为：

其中，x^*表示标准化后的数据，x表示原始数据，μ表示均值，σ表示标准差。

由于过多的冗余特征将对最终的模型产生较大干扰，因此建模前需要对高维特征降维。我们对交叉验证数据集单独降维，以保证测试集全程不参与模型建立。

即先通过统计学中独立t检验预降维，选取P<0.05的特征；首先对某一种影像组学特征进行K-S检验，即判断该影像组学特征是否满足标准正态分布，若K-S检验中P<0.05证明满足标准正态分布，再用t检验进一步检验该影像组学特征，若t检验中P<0.05证明此特征具有显著相关性；若K-S检验中P>0.05证明不满足标准正态分布，此时需要用秩和检验进一步检验该影像组学特征，若秩和检验中P<0.05证明此特征具有显著相关性。

再将预降维后的特征经过机器学习lasso正则化做10折交叉验证降维，通过取10折交叉验证的均值曲线，找到均方误差最小时的α值，

首先给α一共100个递减的初始值，在10折交叉验证的每一折交叉验证中分别求每一个α对应的均方误差，共得到10条曲线，再求10条曲线的均值曲线，将最小均方误差对应的α值最为最终选定的值。

进而确定低维影像组学特征标签和对应的特征系数。即在保证均方误差最小情况下引入正则化L1范数，会更容易获得稀疏解，lasso降维公式为：

步骤S150、利用低维影像组学特征标签作为交叉训练数据集，利用不同算法训练多个候选参数模型；候选参数模型包括：随机森林模型、梯度决策树模型、支持向量机模型、对率几率回归模型、多层感知机模型和集成学习模型；

集成学习模型包括：随机森林模型、梯度决策树模型和对率几率回归模型。

步骤S160、通过绘制受试者工作特征曲线并计算所述受试者工作特征曲线下区域面积均值，并将所述区域面积均值最高者确定为最优参数模型。

步骤161、将所述训练集和均分，得到k个交叉验证子训练集；

步骤162、通过k折交叉验证得到k个中间模型，绘制所述k个中间模型的受试者工作特征曲线，计算所述k个中间模型的受试者工作特征曲线下区域面积，并对所述测试集进行预测；

步骤163，通过训练集和测试集训练第k+1个模型，计算第k+1个模型的受试者工作特征曲线下区域面积；

步骤164、综合比较不同模型的交叉验证数据集中的受试者工作特征曲线下区域面积均值、标准差和测试集的受试者工作特征均值曲线，将受试者工作特征曲线下区域面积均值的最高者对应的模型作为最优参数模型；其中，k的取值为5、7或10。

在选择每个模型的最优参数后，对交叉验证数据集进行5折交叉验证，其中每一折的训练集和验证集的阴性阳性患者比例保持1：1，分别绘制训练集和验证集的ROC曲线并计算对应ROC曲线下的AUC面积。训练集和验证集的ROC曲线中包含每一折的独立ROC曲线，5折曲线的均值ROC曲线和AUC均值面积及其标准差。通过均值ROC曲线和标准差可观察交叉验证数据集的整体数据分布情况和ROC曲线的波动情况，这样既可以验证降维方法在整个交叉验证数据集中的作用和泛化能力，也可以为独立测试集的ROC曲线做参考。因此是一种较为公正客观的模型效能评价方式。

均值AUC计算公式为：

均值AUC标准差计算公式为：

其中μ^*为AUC均值，σ^*为AUC标准差，x_i为每一折AUC值，n为折数。

将整个交叉验证数据集作为训练集，经过训练后得到新模型，再将标准化后的测试集提取对应梯度降维得到的影像组学特征标签，代入新模型得到独立测试集的ROC曲线。综合比较不同模型的交叉验证数据集中的ROC均值曲线和标准差以及测试集的ROC曲线，找到最佳模型。

除了将ROC曲线和AUC面积作为模型效能评价标准外，RIAS还提供灵敏度、特异度、阳性预测值和阴性预测值等标准。对于交叉验证数据集，每个参数得到交叉验证结果均值和标准差。对于测试集，每个参数只得到一个结果。其中灵敏度、特异度、阳性预测值、阴性预测值的公式为。

其中，TP为真正例，TN为真负例，FP为假正例，FN为假负例，TPR为灵敏度、TNR为特异度、PPV为阳性预测值、NPV为阴性预测值。

在另一实施例中，还包括：影像组学特征结合临床信息特征的模型效能评价过程

首先将每个患者经过降维后得到的多维影像组学标签变为一维影像组学特征标签，然后通过对每个患者的不同临床信息单独做t检验，留下P<0.05的特征，再将留下的临床信息特征和一维影像组学特征结合成新的特征参量表，利用机器学习模型独立建模。建模选取的数据集、建模方式、参数选优范围和影像组学单独建模过程相同，计算过程公式为：

其中R^*为一维影像特征值，v_i为经过梯度降维后得到的影像组学特征值，c_i为特征值对应的系数。

本发明通过图像分析和阈值调优，优化手动勾画的ROI，最大化降低ROI对组学特征计算的误差。发明创新性地引入梯度降维，即先通过统计学中的单变量独立t检验对原始特征预降维，再将预降维后的特征经机器学习lasso正则化降维。本发明可以有效保留更多相关度较大的特征值，有利于提高建模精度。同时由于采用统计学方法预降维，因此对保留后的特征有较好的可解释性。本发明通过绘制受试者工作特征曲线并计算所述受试者工作特征曲线下区域面积均值，并将所述区域面积均值最高者确定为最优参数模型，能够有效提取图像特征，以实现最大限度地挖掘医学影像信息。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于影像组学特征的多模态参数模型优化融合方法，其特征在于，包括：

获取多种模态的医学影像，并对所述医学影像进行预处理；

2.根据权利要求1所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述多种模态的医学影像包括：核磁解剖成像、CT影像、PET影像、X线影像和超声影像；

3.根据权利要求1所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述医学影像的区域分割过程包括：

步骤一、手动勾选所述医学影像的感兴趣区域；

步骤五、将ROI曲线进行二值化转化，得到最终的标签图像。

4.根据权利要求3所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述感兴趣区域对应的高维影像组学特征至少包括：一阶纹理体征、形状特征、灰度共生矩阵、灰度区域矩阵、灰度游程矩阵、邻域灰度差分矩阵和灰度依赖矩阵。

5.根据权利要求4所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述高维影像组学特征中训练集与测试集的比值为80:20。

6.根据权利要求5所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述高维影像组学特征进行梯度降维过程包括：

其中，y为预测的类别，w为影像组学特征对应的系数，x为影像组学特征，α代表系数，||||为稀疏降维运算。

7.根据权利要求6所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，通过取10折交叉验证的均值曲线，得到均方误差最小时的α值。

8.根据权利要求1所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述最优参数模型选取过程为：

步骤1、将所述训练集和均分，得到k个交叉验证子训练集；

9.根据权利要求8所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述候选参数模型包括：随机森林模型、梯度决策树模型、支持向量机模型、对率几率回归模型、多层感知机模型和集成学习模型；

10.根据权利要求8所述的基于影像组学特征的多模态参数模型优化融合方法，其特征在于，所述测试集的预测公式为：