CN111814868A

CN111814868A - 一种基于影像组学特征选择的模型、构建方法和应用

Info

Publication number: CN111814868A
Application number: CN202010635185.9A
Authority: CN
Inventors: 牛田野; 杨婧; 罗辰
Original assignee: Suzhou Dongying Information Technology Co ltd
Current assignee: Suzhou Dongying Information Technology Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-23

Abstract

本发明公开了一种基于影像组学特征选择的模型、构建方法和应用，包括：利用皮尔逊相关系数分析方法去除冗余特征，然后使用序列浮动前向选择算法确定所需的特征子集。采用逻辑回归分类器构建预测模型，通过自适应搜索策略确定皮尔逊相关系数分析方法和序列浮动前向选择算法的参数，以构建预测临床目标的最优模型。特征选择方法和模型分类器的合理选择决定了预测临床目标的最终效果，该方法不需要预先设定参数，方法简单直接，计算效率高，是一种对不同疾病均具有参考价值的可重复方法，有潜力作为一种通用的、无创的预测工具指导不同患者的临床决策。

Description

一种基于影像组学特征选择的模型、构建方法和应用

技术领域

本发明属于影像组学技术领域，具体涉及一种基于影像组学特征选择的模型、构建方法和应用。

背景技术

影像组学是一种从医学图像中提取大量定量特征，获取疾病病理生理信息的一种技术。近期研究表明，影像组学技术可运用在各种具有挑战性的临床任务的解决上，例如疾病的检测、诊断、预后和治疗反应评估等。它的分析过程主要包括图像采集、感兴趣区域分割、特征提取、特征选择和分类器建模五个步骤。通过各种成像技术进行的图像采集、手动/半自动/全自动感兴趣区域分割、使用开源工具包或内部软件提取特征，这三个步骤已发展得较为成熟。然而，最关键的特征选择和分类器建模两个步骤，尚未形成规范化的处理模式。

在现有研究中，学者们已找到多种特征选择方法和机器学习分类器创建影像组学特征和临床目标之间的关联，例如组内和组间相关系数、t检验、Mann-Whitney U检验等特征选择方法，随机森林、支持向量机、逻辑回归等分类器是较为常见的选择。如申请公布号为CN 108021916 A公开的基于注意力机制的深度学习糖尿病视网膜病变分类方法，再如申请公布号为CN 110808097 A公开的一种妊娠期糖尿病预测系统及方法。

在影像组学分析中一个重要的问题是不同的特征选择和建模方法影响最终结果，已有多个研究表明即使是处理同一个临床目标，选择不同的特征选择方法和不同的机器学习分类器获得的结果并不一致。由此可见，特征选择方法和分类器的合理使用决定了预测结果的最终效果，因此亟需一种对不同疾病、不同临床目标均具有参考价值的可重复方法。

发明内容

本发明的目的是提供一种基于影像组学特征选择的模型、构建方法和应用。通过对影像组学特征的筛选参数的优化来构建具有较好的通用性和适用性的预测模型。

为实现上述发明目的，本发明提供以下技术方案：

第一方面，一种基于影像组学特征选择的模型构建方法，其特征在于，所述模型构建方法包括以下步骤：

步骤1，采集并预处理医学临床数据后，获得医学临床数据样本，对医学临床数据样本进行感兴趣区域标记和特征提取，获得感兴趣区域的影像组学特征，再对影像组学特征标准化处理；

步骤2，初始化包括皮尔逊阈值和影像组学特征数量的多组筛选参数，根据每组筛选参数中的皮尔逊阈值，对标准化后的影像组学特征进行皮尔逊相关系数计算，依据皮尔逊阈值滤除掉皮尔逊相关系数大于皮尔逊阈值的影像组学特征，剩下的影像组学特征作为一级影像组学特征；

步骤3，依照每组筛选参数中影像组学特征数量，采用序列前向浮动选择算法对一级影像组学特征进行筛选，获得满足影像组学特征数量的影像组学特征作为二级影像组学特征；

步骤4，利用逻辑回归分类器对二级影像组学特征进行预测，获得预测结果，根据该预测结果与医学临床数据样本的真实标签，获得受试者工作特征曲线下面积；

步骤5，根据受试者工作特征曲线下面积计算每组筛选参数的信噪比来评价每组筛选参数的筛选性能，选择最大信噪比对应的那组皮尔逊阈值和影像组学特征数量作为最优筛选参数，该最优筛选参数与逻辑回归分类器组成最优预测模型。

第二方面，一种基于影像组学特征选择的模型，所述模型为采用上述基于影像组学特征选择的模型构建方法构建的最优预测模型。

第三方面，一种医学预测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中存有上述最优预测模型，所述计算机处理器执行所述计算机程序时实现以下步骤：

(1)接收待预测的医学临床数据样本，对所述医学临床数据样本进行特征提取和标准化后输入至最优预测模型中；

(2)对输入的影像组学特征进行皮尔逊相关系数计算，并根据最优皮尔逊阈值滤除掉皮尔逊相关系数大于皮尔逊阈值的影像组学特征，同时筛选并滤除掉样本之间相同的影像组学特征，剩下的影像组学特征作为一级影像组学特征；

(3)根据最优影像组学特征数量，采用序列前向浮动选择算法对一级影像组学特征进行筛选，获得满足影像组学特征数量的影像组学特征作为二级影像组学特征；

(4)利用逻辑回归分类器对二级影像组学特征进行预测，获得预测结果。

与现有技术相比，本发明具有的有益效果包括：

本发明提供的基于影像组学特征选择的模型构建方法通过对受试者工作特征曲线下面积对皮尔逊阈值和影像组学特征数量的筛选确定最优的皮尔逊阈值和影像组学特征数量，利用最优的皮尔逊阈值、影像组学特征数量和逻辑回归分类器构建最优预测模型，该最优预测模型具有通用性和适用性。同时，该最优预测模型的预测过程简单直接，计算效率高，可满足不同疾病不同临床目标的应用需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于影像组学特征选择的模型构建方法的流程图；

图2是本发明实施例提供的针对胰腺神经内分泌肿瘤病理分级时，不同皮尔逊阈值下皮尔逊相关系数分析后保留的影像组学特征数示意图；

图3(a)和图3(b)是本发明实施例提供的用于胰腺神经内分泌肿瘤病理分级的预测模型构建过程中不同筛选参数下的信噪比结果示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明说要解决的技术问题在于特征选择方法和机器学习分类器的合理选择，且对于选择的特征选择方法和机器学习分类器如何确定其最优参数，使得最终构建的预测模型具有较好的通用性和适用性，从而发明实施例提供了一种基于影像组学特征选择的模型构建方法。该方法采用多步特征选择方法包括皮尔逊相关系数分析方法和序列浮动前向选择算法去除冗余特征，降低特征维度，保留与临床目标具有相关性的影像组学特征。再利用逻辑回归分类器构建预测模型，采用自适应搜索策略确定最终模型的参数而不需要预先设定，可满足不同疾病不同临床目标的应用需求。

如图1所示，实施例提供的一种基于影像组学特征选择的模型构建方法，包括以下步骤：

S101，采集并预处理医学临床数据后，获得医学临床数据样本，对医学临床数据样本进行感兴趣区域标记和特征提取，获得感兴趣区域的影像组学特征，再对影像组学特征标准化处理。

实施例中，首先，确定临床目标和患者的纳入标准和排除标准，根据纳入标准和排除标准回顾性收集患者的影像数据和临床资料，这些影像数据和临床资料组成医学临床数据。一般影像数据是指对患者的某些器官做的检测结果数据。临床资料是患者的一些基本信息，疾病诊断数据等。

在获得医学临床数据后，对采集的医学临床数据进行数据类型的筛选来确定医学临床数据样本，和针对每类医学临床数据的临床目标的筛选来确定医学临床数据样本的真实标签。

其中，数据类型是指医学临床数据所属于的疾病类型，即数据类型包括各类型肿瘤，具体可以包括胃癌、骨肉瘤、胰腺神经内分泌肿。临床目标是指评价某种疾病的指标，可以包括病理分级、五年生存率、淋巴结转移预测。

在获得医学临床数据样本后，还需要筛选出感兴趣区域，一般时候，放射科医生手动勾选医学临床数据样本中的病灶轮廓，将勾画的病灶数据作为感兴趣区域。同时还对感兴趣区域进行特征提取，获得影像组学特征，然后对所有影像组学特征进行标准化处理。实施例中，可以采用Matlab软件、Python开源数据包对感兴趣区域进行特征提取，特征提取作为影像组学特征选择的前提，因此要保证提取特征的全面性，以提高影像组学特征筛选的鲁棒性和通用性。

在对医学临床数据样本进行感兴趣区域标记之前，还对对医学临床数据样本进行重采样和归一化处理，以提升特征提取的准确性。

S102，初始化包括皮尔逊阈值和影像组学特征数量的多组筛选参数，根据每组筛选参数中的皮尔逊阈值，对标准化后的影像组学特征进行皮尔逊相关系数计算，依据皮尔逊阈值滤除掉皮尔逊相关系数大于皮尔逊阈值的影像组学特征，剩下的影像组学特征作为一级影像组学特征。

实施例中，采用皮尔逊相关系数分析方法和序列浮动前向选择算法计算影像组学特征的重要程度，去除不相关的影像组学特征，保留与临床目标具有相关性的影像组学特征，以实现对影像组学特征的降维度筛选。在筛选的过程中，皮尔逊阈值和影像组学特征数量对筛选的效果至关重要，利用最优的皮尔逊阈值和影像组学特征数量进行影像组学特征筛选，获得的影像组学特征既能够最大程度地表征临床目标，同时数据量尽量足够少，以提升的逻辑回归分类器的数据计算量，提升预测速率和准确度。

实施例中，皮尔逊阈值作为皮尔逊相关系数的门限值，用于重复的对影像组学特征进行筛选，其取值范围为0.7～1，进一步地，皮尔逊阈值取值为0.7，0.75，0.8，0.85，0.9，0.95，1.0。影像组学特征数量是指影像组学特征的个数，这些个影像组学特征承载的信息足够表征医学临床数据样本的临床目标，影像组学特征数量的取值范围为医学临床数据样本数量的1/15-1/10。举例说明，可以获取了1561个影像组学特征，包括14个形状特征、306个一阶特征和1241个纹理特征。任取一个皮尔逊阈值和任取一个影像组学特征数量组成一组筛选参数。在初始化时，会预设多组筛选参数，后面利用通过对受试者工作特征曲线下面积对皮尔逊阈值和影像组学特征数量的筛选确定最优的皮尔逊阈值和影像组学特征数量。

对标准化后的影像组学特征进行皮尔逊相关系数计算，根据每个皮尔逊阈值对影像组学特征进行筛选，如果皮尔逊相关系数的绝对值超过皮尔逊阈值，即两个影像组学特征高度相关，则具有最大绝对相关系数平均值的影像组学特征被认为是冗余的，将该冗余的影像组学特征删除。

在实施例中，针对标准化后的影像组学特征，筛选并认为医学临床数据样本之间相同的影像组学特征为多余的影像组学特征，将这些多余的影像组学特征滤除。

S103，依照每组筛选参数中影像组学特征数量，采用序列前向浮动选择算法对一级影像组学特征进行筛选，获得满足影像组学特征数量的影像组学特征作为二级影像组学特征。

在剔除无关和冗余的影像组学特征后，对每组筛选参数中的皮尔逊阈值筛选剩余的影像组学特征，根据与皮尔逊阈值属于同一组筛选参数的影像组学特征数量，采用序列前向浮动选择算法筛选出最优影像组学特征，即特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J(X)最优，添加到的特征子集X的影像组学特征的个数满足影像组学特征数量时，停止筛选，获得筛选的影像组学特征。这样经过特征子集X从空集开始，每次选择一个特征x加入特征子集X，使得特征函数J(X)最优。

经过皮尔逊相关系数分析方法和序列浮动前向选择算法计算去除无关的影像组学特征和冗余的影像组学特征，有效降低特征维数，保留与临床目标具有相关性的影像组学特征。

S104，利用逻辑回归分类器对二级影像组学特征进行预测，获得预测结果，根据该预测结果与医学临床数据样本的真实标签，获得受试者工作特征曲线下面积。

S105，根据受试者工作特征曲线下面积计算每组筛选参数的信噪比来评价每组筛选参数的筛选性能，选择最大信噪比对应的那组皮尔逊阈值和影像组学特征数量作为最优筛选参数，该最优筛选参数与逻辑回归分类器组成最优预测模型。

本实施例中，在训练集中，采用受试者工作特征曲线下面积，对每个皮尔逊阈值、影像组学特征数量、逻辑回归分类器构建的预测模型性能进行量化。将受试者工作特征曲线下面积的平均值除以标准差定义为信噪比。利用该信噪比来评价每组筛选参数的筛选性能。

具体地，根据每组筛选参数对应的受试者工作特征曲线下面积计算每个皮尔逊阈值的信噪比和每个影像组学特征数量的信噪比；

筛选最大信噪比对应的皮尔逊阈值作为最优皮尔逊阈值；

筛选最大信噪比对应的影像组学特征数量作为最优影像组学特征数量；

将最优皮尔逊阈值和最优影像组学特征数量组成最优筛选参数，该最优筛选参数与逻辑回归分类器组成最优预测模型。

实施例中，针对每个皮尔逊阈值，利用包含该皮尔逊阈值的所有筛选参数对应的受试者工作特征曲线下面积的均值与标准差之商作为该皮尔逊阈值的信噪比；

针对每个影像组学特征数量，利用包含该影像组学特征数量的所有筛选参数对应的受试者工作特征曲线下面积的均值与方差之商作为该影像组学特征数量的信噪比。

实验例

实验例中，根据纳入标准和排除标准回顾性收集胰腺神经内分泌肿瘤患者的影像数据和临床资料，形成医学临床数据，然后对医学临床数据进行预处理获得108个医学临床数据样本。预设皮尔逊阈值为0.7，0.75，0.8，0.85，0.9，0.95，序列浮动前向选择算法中保留的影像组学特征数量为7，8，9，10，11。每个皮尔逊阈值和影像组学特征数量均组成一组筛选参数。根据0.7，0.75，0.8，0.85，0.9，0.95这6个皮尔逊阈值，利用皮尔逊相关系数分析方法对影像组学特征进行筛选后，剩下的影像组学特征个数分别为30，36，44，61，86，137，如图2所示。然后再根据序列浮动前向选择算法根据影像组学特征数量进行再一次的影像组学特征筛选，将筛选剩余的影像组学特征输入至逻辑回归分类器得到预测结果，根据预测结果和医学临床数据样本的真实标签计计算受试者工作特征曲线下面积AUC，AUC值如图3(a)和3(b)所示，然后根据AUC计算信噪比，具体针对图3(a)中影像组学特征数量11时，根据0.7943、0.8346、0.8216、0.8333、0.7826、0.8438这6个AUC值的均值和标准差之商计算影像组学特征数量11的信噪比，同理，针对影像组学特征数量10，9，8，7均采用该方法计算信噪比，经比较发现影像组学特征数量8对应的信噪比最大，则影像组学特征数量8为最优影像组学特征数量；针对皮尔逊阈值0.75，根据0.8346、0.8372、0.8385、0.8438、0.8411这5个AUC值的均值和标准差之商计算皮尔逊阈值0.75的信噪比，同理，针对皮尔逊阈值0.7，0.80，0.85，0.90，0.95均采用该方法计算信噪比，经比较发现皮尔逊阈值0.75对应的信噪比最大，则皮尔逊阈值0.75为最优皮尔逊阈值，该最优皮尔逊阈值0.75和最优影像组学特征数量8最为最优筛选参数，该组最优筛选参数对应的AUC值为0.8438，与逻辑回归分类器组成用于胰腺神经内分泌肿瘤病理分级的最优预测模型。

上述技术方案中，胰腺神经内分泌肿瘤病理分级的最终预测模型的受试者工作特征曲线下面积(训练集：0.8438，验证集：0.8212)优于所有预测模型的平均性能(训练集：0.8231，验证集：0.8003)，在自动获取模型参数的基础上仍能保证较好的量化指标。

该基于影像组学特征选择的模型构建方法采用采用皮尔逊相关系数分析方法和序列浮动前向选择算法去除特征之间不相关和相互依赖的特征，获得鲁棒性的影像组学特征，降低预测模型过拟合的可能性；利用逻辑回归分类器构建预测模型，采用自适应搜索策略确定最优参数。现有文献中往往将皮尔逊阈值、序列浮动前向选择算法特征数设置为某一固定值，这些固定值是否为最优参数尚不能明确。本发明能够确定最优的皮尔逊阈值和最优的影像组学特征数，而不需要预先设定，方法简单直接，计算效率高，可满足不同疾病不同临床目标的应用需求。

实施例还提供了一种医学预测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中存有上述基于影像组学特征选择的模型构建方法构建的最优预测模型，所述最优预测模型包括最优皮尔逊阈值、最优影像组学特征数量和逻辑回归分类器，所述计算机处理器执行所述计算机程序时实现以下步骤：

步骤1，接收待预测的医学临床数据样本，对所述医学临床数据样本进行特征提取和标准化后输入至最优预测模型中；

步骤2，对输入的影像组学特征进行皮尔逊相关系数计算，并根据最优皮尔逊阈值滤除掉皮尔逊相关系数大于皮尔逊阈值的影像组学特征，同时筛选并滤除掉样本之间相同的影像组学特征，剩下的影像组学特征作为一级影像组学特征；

步骤3，根据最优影像组学特征数量，采用序列前向浮动选择算法对一级影像组学特征进行筛选，获得满足影像组学特征数量的影像组学特征作为二级影像组学特征；

步骤4，利用逻辑回归分类器对二级影像组学特征进行预测，获得预测结果。

实际应用中，计算机存储器可以为在近端的易失性存储器，如RAM，还可以是失性存储器，如ROM，FLASH，软盘，机械硬盘等，还可以是远端的存储云。计算机处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)，即可以通过这些处理器实现根据医学临床数据样本进行关于临床目标的预测结果的计算步骤。

该医学预测装置由于利用最优预测模型能够快速准确对医学临床数据样本进行预测，获得预测结果。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于影像组学特征选择的模型构建方法，其特征在于，所述模型构建方法包括以下步骤：

2.如权利要求1所述的基于影像组学特征选择的模型构建方法，其特征在于，步骤2还包括：针对标准化后的影像组学特征，筛选并认为医学临床数据样本之间相同的影像组学特征为多余的影像组学特征，将这些多余的影像组学特征滤除。

3.如权利要求1或2所述的基于影像组学特征选择的模型构建方法，其特征在于，步骤5中，根据每组筛选参数对应的受试者工作特征曲线下面积计算每个皮尔逊阈值的信噪比和每个影像组学特征数量的信噪比；

筛选最大信噪比对应的皮尔逊阈值作为最优皮尔逊阈值；

4.如权利要求3所述的基于影像组学特征选择的模型构建方法，其特征在于，针对每个皮尔逊阈值，利用包含该皮尔逊阈值的所有筛选参数对应的受试者工作特征曲线下面积的均值与标准差之商作为该皮尔逊阈值的信噪比；

5.如权利要求1所述的基于影像组学特征选择的模型构建方法，其特征在于，步骤1中，对采集的医学临床数据进行数据类型的筛选来确定医学临床数据样本，和针对每类医学临床数据的临床目标的筛选来确定医学临床数据样本的真实标签。

6.如权利要求1所述的基于影像组学特征选择的模型构建方法，其特征在于，所述数据类型包括各类型肿瘤；所述临床目标包括病理分级、五年生存率、淋巴结转移预测。

7.如权利要求1所述的基于影像组学特征选择的模型构建方法，其特征在于，步骤1中，在对医学临床数据样本进行感兴趣区域标记之前，还对医学临床数据样本进行重采样和归一化处理。

8.如权利要求1所述的基于影像组学特征选择的模型构建方法，其特征在于，所述皮尔逊阈值取值范围为0.7～1，影像组学特征数量的取值范围为医学临床数据样本数量的1/15-1/10，优选地，所述皮尔逊阈值取值为0.7，0.75，0.8，0.85，0.9，0.95，1.0。

9.一种基于影像组学特征选择的模型，其特征在于，所述模型为采用权利要求1～8任一项所述的基于影像组学特征选择的模型构建方法构建的最优预测模型。

10.一种医学预测装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中存有权利要求9所述的最优预测模型，所述最优预测模型包括最优皮尔逊阈值、最优影像组学特征数量和逻辑回归分类器，所述计算机处理器执行所述计算机程序时实现以下步骤：