CN113139568B

CN113139568B - 一种基于主动学习的类别预测模型建模方法及装置

Info

Publication number: CN113139568B
Application number: CN202110197086.1A
Authority: CN
Inventors: 金征宇; 毛丽; 李秀丽; 宋兰; 俞益洲; 李一鸣; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2021-02-22
Filing date: 2021-02-22
Publication date: 2022-05-10
Anticipated expiration: 2041-02-22
Also published as: CN113139568A

Abstract

本申请公开了一种基于主动学习的类别预测模型建模方法及装置，该方法中用端到端的方式，使得在建立类别预测模型时可以优化深度学习提取的特征和临床特征的交互作用，提高所建立的类别预测模型的效能。结合影像组学特征、患者的临床特征和胸部医学图像，构建以深度学习模型为核心，有机整合临床多模态信息的类别预测模型，大大提高了类别预测模型的效能。基于主动学习的策略，筛选出最有可能提高类别预测模型表现的样本数据，在降低标注工作量的同时持续提高类别预测模型的效能，设计优化的委员会查询方法，既可以利用现有模型的信息筛选能够对类别预测模型提升有帮助的数据，又考虑到建模所用的特征存在的缺失，进一步提高类别预测模型的效能。

Description

一种基于主动学习的类别预测模型建模方法及装置

技术领域

本申请涉及类别预测模型建模技术领域，尤其涉及一种基于主动学习的类别预测模型建模方法及装置。

背景技术

由于基于卷积神经网络的深度学习算法，可以有效提取图像特征。因此，深度学习算法在图像的识别、分割和检测方面均有应用。现有技术中，已经存在基于深度学习算法建立的类别预测模型，例如肺结节类别预测模型。

现有技术中的类别预测模型在建立时是基于一次性临床时间点的CT影像特征和/临床特征组成的数据集进行训练，是单独训练的深度学习模型，而不是端到端的训练模型，因此，无法优化深度学习提取的特征和临床特征的交互作用，使得所建立的类别预测模型的效能较差。

发明内容

本申请提供一种基于主动学习的类别预测模型建模方法及装置，可以优化深度学习提取的特征和临床特征的交互作用，提高所建立的类别预测模型的效能。

第一方面，本申请提供了一种基于主动学习的类别预测模型建模方法，包括：

根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集；

从所述基础数据集中提取肺结节的影像组学特征，从所述影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征；

根据所述筛选后影像组学特征、所述筛选后临床特征和所述基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型；

收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，所述第二时间段的起始时间点晚于所述第一时间段的终止时间点；

根据所述基础数据集对所述第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据所述基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，所述第一委员会成员模型与所述基础模型的网络参数相同；

根据k个委员会成员模型计算所述候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在所述第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将所述第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由所述第一委员会成员模型和k-1个第二委员会成员模型组成；

提取各目标样本数据中的肺结节的目标影像组学特征，根据所述目标影像组学特征、所述补充数据集和所述基础数据集对所述基础模型进行训练直至收敛得到类别预测模型，其中，所述类别预测模型用于预测肺结节的类别。

可选的，所述根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集的步骤，包括：

对所收集的在第一时间段内的患者的临床特征进行标准化处理；

对所收集的在第一时间段内的患者的胸部医学图像进行预处理；

确定预处理后的胸部医学图像中的第二肺结节区域；

将在第一时间段内的标准化处理后的临床特征、预处理后的胸部医学图像、病理信息和所述第二肺结节区域作为基础数据集。

可选的，所述从所述基础数据集中提取肺结节的影像组学特征的步骤，包括：

通过滤波器对所述基础数据集中的胸部医学图像进行处理得到第一预设数量个第一处理后图像；

通过拉普拉斯高斯滤波器对所述基础数据集中的胸部医学图像进行处理得到第二预设数量个第二处理后图像；

从所述基础数据集中的胸部医学图像、所述第一处理后图像和所述第二处理后图像中提取肺结节的影像组学特征。

可选的，所述从所述影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征的步骤，包括：

根据t检测方法从所述影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征。

可选的，k-1个第二初始深度学习模型包括稠密连接DenseNet网络模型、ResNet网络模型、ResNeXt网络模型、双路网络DPN网络模型和/或SENet网络模型。

可选的，所述胸部医学图像为胸部平扫薄层CT图像、胸部增强CT图像或者胸部MRI图像。

可选的，上述基于主动学习的类别预测模型建模方法还包括：

利用所述类别预测模型对待预测图像进行预测，得到所述待预测图像中的肺结节的类别预测结果。

第二方面，本申请提供了一种基于主动学习的类别预测模型建模装置，包括：

基础数据集生成模块，用于根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集；

筛选模块，用于从所述基础数据集中提取肺结节的影像组学特征，从所述影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征；

基础模型训练模块，用于根据所述筛选后影像组学特征、所述筛选后临床特征和所述基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型；

候选数据集收集模块，用于收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，所述第二时间段的起始时间点晚于所述第一时间段的终止时间点；

委员会成员模型训练模块，用于根据所述基础数据集对所述第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据所述基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，所述第一委员会成员模型与所述基础模型的网络参数相同；

补充数据集生成模块，用于根据k个委员会成员模型计算所述候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在所述第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将所述第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由所述第一委员会成员模型和k-1个第二委员会成员模型组成；

类别预测模型训练模块，用于提取各目标样本数据中的肺结节的目标影像组学特征，根据所述目标影像组学特征、所述补充数据集和所述基础数据集对所述基础模型进行训练直至收敛得到类别预测模型，其中，所述类别预测模型用于预测肺结节的类别。

可选的，所述基础数据集生成模块，包括：

标准化处理子模块，用于对所收集的在第一时间段内的患者的临床特征进行标准化处理；

预处理子模块，用于对所收集的在第一时间段内的患者的胸部医学图像进行预处理；

肺结节区域确定子模块，用于确定预处理后的胸部医学图像中的第二肺结节区域；

基础数据集生成子模块，用于将在第一时间段内的标准化处理后的临床特征、预处理后的胸部医学图像、病理信息和所述第二肺结节区域作为基础数据集。

可选的，所述筛选模块，包括：

第一处理子模块，用于通过滤波器对所述基础数据集中的胸部医学图像进行处理得到第一预设数量个第一处理后图像；

第二处理子模块，用于通过拉普拉斯高斯滤波器对所述基础数据集中的胸部医学图像进行处理得到第二预设数量个第二处理后图像；

提取子模块，用于从所述基础数据集中的胸部医学图像、所述第一处理后图像和所述第二处理后图像中提取肺结节的影像组学特征。

可选的，所述筛选模块，具体用于：

可选的，上述基于主动学习的类别预测模型建模装置还包括：

预测模块，用于利用所述类别预测模型对待预测图像进行预测，得到所述待预测图像中的肺结节的类别预测结果。

第三方面，本申请提供了一种可读介质，包括执行指令，当电子设备的处理器执行所述执行指令时，所述电子设备执行如第一方面中任一所述的方法。

第四方面，本申请提供了一种电子设备，包括处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行如第一方面中任一所述的方法。

由上述技术方案可以看出，本申请提供了一种基于主动学习的类别预测模型建模方法，可以根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集；从基础数据集中提取肺结节的影像组学特征，从影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征；根据筛选后影像组学特征、筛选后临床特征和基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型；收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，第二时间段的起始时间点晚于第一时间段的终止时间点；根据基础数据集对第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，第一委员会成员模型与基础模型的网络参数相同；根据k个委员会成员模型计算候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由第一委员会成员模型和k-1个第二委员会成员模型组成；提取各目标样本数据中的肺结节的目标影像组学特征，根据目标影像组学特征、补充数据集和基础数据集对基础模型进行训练直至收敛得到类别预测模型，其中，类别预测模型用于预测肺结节的类别。在本申请的技术方案中，在训练得到基础模型后，还收集在第二时间段内的患者的胸部医学图像作为候选数据集，并通过主动学习的方式对候选数据集进行筛选生成补充数据集，再基于基础数据集和补充数据集对基础模型进行训练得到类别预测模型，由于本申请中的数据集并不是一次性离线数据集，而是随着时间的增长对数据集进行补充，补充的方式是端到端的方式，使得本申请在建立类别预测模型时可以优化深度学习提取的特征和临床特征的交互作用，提高所建立的类别预测模型的效能。

上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

为了更清楚地说明本申请实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中的一种基于主动学习的类别预测模型建模方法的一种流程示意图；

图2为基础模型的一种结构示意图；

图3为第一委员会成员模型的一种结构示意图；

图4为本申请提供的一种基于主动学习的类别预测模型建模方法的另一种流程示意图；

图5为本申请实施例中的一种基于主动学习的类别预测模型建模装置的结构示意图；

图6为本申请一实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决现有技术中，无法优化深度学习提取的特征和临床特征的交互作用，使得所建立的类别预测模型的效能较差的问题。

本申请提供了一种基于主动学习的类别预测模型建模方法，在本方法中，根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集；从基础数据集中提取肺结节的影像组学特征，从影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征；根据筛选后影像组学特征、筛选后临床特征和基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型；收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，第二时间段的起始时间点晚于第一时间段的终止时间点；根据基础数据集对第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，第一委员会成员模型与基础模型的网络参数相同；根据k个委员会成员模型计算候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由第一委员会成员模型和k-1个第二委员会成员模型组成；提取各目标样本数据中的肺结节的目标影像组学特征，根据目标影像组学特征、补充数据集和基础数据集对基础模型进行训练直至收敛得到类别预测模型，其中，类别预测模型用于预测肺结节的类别。在本申请的技术方案中，在训练得到基础模型后，还收集在第二时间段内的患者的胸部医学图像作为候选数据集，并通过主动学习的方式对候选数据集进行筛选生成补充数据集，再基于基础数据集和补充数据集对基础模型进行训练得到类别预测模型，由于本申请中的数据集并不是一次性离线数据集，而是随着时间的增长对数据集进行补充，补充的方式是端到端的方式，使得本申请在建立类别预测模型时可以优化深度学习提取的特征和临床特征的交互作用，提高所建立的类别预测模型的效能。

下面结合附图，详细说明本申请的各种非限制性实施方式。

参见图1，示出了本申请实施例中的一种基于主动学习的类别预测模型建模方法。在本实施例中，所述方法应用于电子设备，所述方法例如可以包括以下步骤：

S101：根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集。

本发明实施例中涉及两部分数据的收集，即第一时间段内的数据的收集和第二时间段内的数据的收集，两部分数据的收集时间节点不同。第一部分数据的收集时间节点是建立基础模型之前，收集的是在第一时间段内的患者的临床特征、病理信息和胸部医学图像，并根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集。第二部分数据收集时间节点是在建立基础模型完成后，收集的是在临床应用中后续的数据，收集得到的是候选数据集。

示例性的，胸部医学图像可以为胸部平扫薄层CT图像、胸部增强CT图像或者胸部MRI图像。临床特征可以包括临床诊断指标和肺部背景特征。

收集病理信息的目的是以病理信息中的病理检测结果作为判断肺结节的类别的标准，其中，肺结节的类别可以为肺结节的良恶性或者肺结节的大小类别。

其中，步骤S101可以包括：

确定预处理后的胸部医学图像中的第二肺结节区域；

将在第一时间段内的标准化处理后的临床特征、预处理后的胸部医学图像、病理信息和第二肺结节区域作为基础数据集。

第一时间段内的患者的临床特征可以包括癌胚抗原血清肿瘤标记物、吸烟史、肿瘤家族史、既往恶性肿瘤病史和/或PET-CT的标准摄取值。

其中，对所收集的在第一时间段内的患者的临床特征进行标准化处理，可以包括：a)数值化，对所收集的在第一时间段内的患者的临床特征的文本信息转化为数值信息；b)缺失值处理：对数值信息中的缺失数据进行统计，视不同情况对缺失数据进行丢弃或插值处理c)标准化处理，减少不同特征不同量纲、不同数量级的影响，提高结果的可靠性和分类器的准确性。

为防止在第一时间段内的患者的各胸部医学图像的分辨率不同以及大小不同对模型性能产生不利影响，需要对所收集的在第一时间段内的患者的胸部医学图像进行预处理，具体可以包括：a)分辨率归一化，将所有在第一时间段内的患者的胸部医学图像的x/y/z轴分辨率重采样到1x1x1(mm/pixel)，使得模型输入数据为各向同性，减少分辨率对于模型性能的干扰；b)窗宽窗位设置，设置在第一时间段内的患者的胸部医学图像的窗宽窗位为肺部窗宽窗位，从而聚焦感兴趣区域即肺结节所在区域。

确定预处理后的胸部医学图像中的第二肺结节区域，即对预处理后的胸部医学图像中的肺结节进行感兴趣区域勾画，如果胸部医学图像为胸部平扫薄层CT图像，则逐层对胸部平扫薄层CT图像中的肺结节进行感兴趣区域勾画。

在标准化处理、预处理以及确定肺结节区域后，即可将在第一时间段内的标准化处理后的临床特征、预处理后的胸部医学图像、病理信息和第二肺结节区域作为基础数据集。

S102：从基础数据集中提取肺结节的影像组学特征，从影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征。

得到基础数据集后，从基础数据集中提取肺结节的影像组学特征，即基于PyRadiomics工具包提取感兴趣区域VOI内肺结节的影像组学特征。

其中，从基础数据集中提取肺结节的影像组学特征，可以包括：

通过滤波器对基础数据集中的胸部医学图像进行处理得到第一预设数量个第一处理后图像；

通过拉普拉斯高斯滤波器对基础数据集中的胸部医学图像进行处理得到第二预设数量个第二处理后图像；

从基础数据集中的胸部医学图像、第一处理后图像和第二处理后图像中提取肺结节的影像组学特征。

示例性的，滤波器可以为高通小波滤波器或低通小波滤波器，第一预设数量可以为8个。

通过拉普拉斯高斯滤波器对基础数据集中的胸部医学图像进行处理得到第二预设数量个第二处理后图像可以为：通过具有不同λ参数的拉普拉斯高斯滤波器对基础数据集中的胸部医学图像进行处理得到第二预设数量个第二处理后图像，其中，λ参数为拉普拉斯高斯滤波器的固有参数，第二预设数量可以为5个。

从基础数据集中的胸部医学图像、第一处理后图像和第二处理后图像中提取肺结节的影像组学特征可以包括基于图像像素值的一阶特征、描述肿瘤形态的形态特征、描述肿瘤内部和表面纹理的灰度共生矩阵GLCM、灰度游程矩阵GLRLM、灰度区域大小矩阵GLSZM和/或灰度共生矩阵GLDM纹理特征。

由于本发明实施例中纳入的大量自动提取的影像组学特征和临床特征中会包含部分与病变分析无关或冗余的特征，为保证建立有效的类别预测模型，需要从大量的影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征用于后续类别模型的建立，其中，预测目标为进行类别预测的目标，例如肺结节。

其中，从影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征，可以包括：

根据t检测方法从影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征。

当肺结节的类别为肺结节的良恶性时，根据t检验方法计算肺结节良恶性之间的影像组学特征和临床特征的差异，并通过错误发现率控制方法修正t检验方法中的p值，保留p<0.05的特征，得到筛选后影像组学特征和筛选后临床特征，其中，p值是当原假设为真时,所得到的样本观察结果或更极端结果出现的概率。

S103：根据筛选后影像组学特征、筛选后临床特征和基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型。

本发明实施例以深度学习为基础，融合筛选后影像组学特征和筛选后临床特征，从而构造基础模型，即根据筛选后影像组学特征、筛选后临床特征和基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型。

示例性的，第一初始深度学习模型可以为稠密连接DenseNet网络模型。

图2为基础模型的一种结构示意图，参见图2，以第一初始深度学习模型为稠密连接DenseNet网络模型为例，基础模型包括输入模块用于输入图片、多个卷基层、池化层、稠密块1、稠密块2和稠密块3，将DenseNet网络的全连接层的前一层的输出连接筛选后影像组学特征和筛选后临床特征，得到融合后的特征向量。然后基于全连接的方法，预测肺结节的良恶性概率即模型预测结果。基础模型使用Adam优化器进行训练，并对输入图片进行数据扩增例如旋转、翻转和/或缩放，以提高模型的泛化能力。

S104：收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，第二时间段的起始时间点晚于第一时间段的终止时间点。

随着临床使用继续收集胸部医学图像，即收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，第二时间段的起始时间点晚于第一时间段的终止时间点。

为防止在第二时间段内的患者的各胸部医学图像的分辨率不同以及大小不同对模型性能产生不利影响，需要对所收集的在第一时间段内的患者的胸部医学图像进行预处理，具体可以包括：a)分辨率归一化，将所有在第一时间段内的患者的胸部医学图像的x/y/z轴分辨率重采样到1x1x1(mm/pixel)，使得模型输入数据为各向同性，减少分辨率对于模型性能的干扰；b)窗宽窗位设置，设置在第二时间段内的患者的胸部医学图像的窗宽窗位为肺部窗宽窗位，从而聚焦感兴趣区域即肺结节所在区域。

S105：根据基础数据集对第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，第一委员会成员模型与基础模型的网络参数相同。

本发明实施例中使用优化的委员会查询方法筛选候选数据集，得到补充数据集，因此，训练得到的模型命名为委员会成员模型。

图3为第一委员会成员模型的一种结构示意图，参见图3，对于以第一初始深度学习模型为稠密连接DenseNet网络模型所建立的基础模型，固定DenseNet网络模型的所有参数，即图3中矩形框起的部分是阴影覆盖部分参数固定，然后根据基础数据集以较小的学习率重新训练模型，直到模型收敛得到第一委员会成员模型，即根据基础数据集对第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，其中，为了后续描述方便，在本申请中第一委员会成员模型可以用M1模型来代替。

换言之，M1模型和基础模型的网络参数相同，但没有影像组学特征和临床特征。基于基础数据集和其它常用深度学习模型如ResNet网络模型、ResNeXt网络模型、DenseNet网络模型、DPN网络模型、SENet网络模型仅纳入胸部医学图像构造模型进行训练直至收敛得到k-1个第二委员会成员模型，即根据基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，为了后续描述方便，在本申请中k-1个第二委员会成员模型可以用M2模型,...,Mk模型代替。

同样的，M2模型,...,Mk模型在训练过程中没有用到影像组学特征和临床特征，而是基于胸部医学图像构造模型。第一委员会成员模型和第二委员会成员模型均可以包括输入模块用于输入图片、多个卷积层和全连接层，将深度学习特征输入全连接层得到模型预测结果。

示例性的，k-1个第二初始深度学习模型可以包括稠密连接DenseNet网络模型、ResNet网络模型、ResNeXt网络模型、双路网络DPN网络模型和/或SENet网络模型，其中，DPN为Dual Path Networks，SENet为Squeeze-and-Excitation Networks。

由此，第一委员会成员模型利用了基础模型的信息，使后续筛选得到的样本数据更有利于提高模型的表现。

S106：根据k个委员会成员模型计算候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由第一委员会成员模型和k-1个第二委员会成员模型组成。

在得到k个委员会成员模型后，根据k个委员会成员模型计算候选数据集中包含的各样本数据的投票熵，其中，k个委员会成员模型由第一委员会成员模型和k-1个第二委员会成员模型组成。

对于M1模型,...,Mk模型，对候选数据集中的所有样本数据进行预测，得到每一个模型对每一个样本的预测标签。

具体的，根据以下公式计算候选数据集中的样本数据i的投票熵H_BAG。

其中，c为预测类别，示例性的，预测类别可以为良性或恶性，N为类别总数，在本发明实施例中，N＝2。

表示样本数据i被k个第一模型预测为类别c的概率，即：预测该样本数据为类别c的模型个数/模型总数k。

得到各投票熵后，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，也就是提取投票熵较高的多个目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集。

其中，收集在第二时间段内各目标样本数据对应的患者的临床特征，并可以对在第二时间段内各目标样本数据对应的患者的临床特征进行标准化处理，具体标准化处理方式与步骤S101中的对所收集的在第一时间段内的患者的临床特征进行标准化处理的方式相同，在此不再赘述。

S107：提取各目标样本数据中的肺结节的目标影像组学特征，根据目标影像组学特征、补充数据集和基础数据集对基础模型进行训练直至收敛得到类别预测模型，其中，类别预测模型用于预测肺结节的类别。

其中，提取各目标样本数据中的肺结节的目标影像组学特征的方式与步骤S102中从基础数据集中提取肺结节的影像组学特征的方式相同，在此不再赘述。

在得到目标影像组学特征后，即可根据目标影像组学特征、补充数据集和基础数据集对基础模型进行训练直至收敛得到类别预测模型，其中，类别预测模型用于预测肺结节的类别。

综上可见，本申请提供的一种基于主动学习的类别预测模型建模方法，可以根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集；从基础数据集中提取肺结节的影像组学特征，从影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征；根据筛选后影像组学特征、筛选后临床特征和基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型；收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，第二时间段的起始时间点晚于第一时间段的终止时间点；根据基础数据集对第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，第一委员会成员模型与基础模型的网络参数相同；根据k个委员会成员模型计算候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由第一委员会成员模型和k-1个第二委员会成员模型组成；提取各目标样本数据中的肺结节的目标影像组学特征，根据目标影像组学特征、补充数据集和基础数据集对基础模型进行训练直至收敛得到类别预测模型，其中，类别预测模型用于预测肺结节的类别。在本申请的技术方案中，在训练得到基础模型后，还收集在第二时间段内的患者的胸部医学图像作为候选数据集，并通过主动学习的方式对候选数据集进行筛选生成补充数据集，再基于基础数据集和补充数据集对基础模型进行训练得到类别预测模型，由于本申请中的数据集并不是一次性离线数据集，而是随着时间的增长对数据集进行补充，补充的方式是端到端的方式，使得本申请在建立类别预测模型时可以优化深度学习提取的特征和临床特征的交互作用，提高所建立的类别预测模型的效能。

并且，本申请结合影像组学特征、患者的临床特征和胸部医学图像，构建了以深度学习模型为核心，有机整合临床多模态信息即影像组学特征、患者的临床特征和胸部医学图像的类别预测模型。由于该类别预测模型利用了多模态信息，相比于仅采用CT影像特征和/临床特征所建立的类别预测模型，大大提高了类别预测模型的效能。

同时，本申请基于主动学习的策略，进行候选数据集的筛选，筛选出最有可能提高类别预测模型表现的样本数据，在降低标注工作量的同时，持续提高类别预测模型的效能。

以及，相比于传统的主动学习方法，本申请设计了优化的委员会查询方法。该方法既可以利用现有模型的信息，筛选能够对类别预测模型提升有帮助的数据，又考虑到建模所用的特征存在的缺失，进一步提高类别预测模型的效能。

为了便于理解，下面从另一个角度对本申请提供了一种基于主动学习的类别预测模型建模方法进行介绍，图4为本申请提供的一种基于主动学习的类别预测模型建模方法的另一种流程示意图，参见图4，本申请提供的一种基于主动学习的类别预测模型建模方法包括7个模块：数据收集和预处理模块、影像组学特征提取模块、特征筛选模块、基础模型构造模块、主动学习模块、标注和收集模块以及模型更新模块，各模块之间的流程如图4中的箭头所示，执行模型更新模块后又返回执行主动学习模块。

其中，数据收集和预处理模块也就是图1中的步骤S101，影像组学特征提取模块和特征筛选模块也就是图1中的步骤S102，基础模型构造模块也就是图1中的步骤S103，主动学习模块也就是图1中的步骤S105-S106中的提取目标样本数据，标注和收集模块也就是图1中的步骤S106提取目标样本数据之后的部分-S107中提取目标影像组学特征，模型更新模块也就是图1中的步骤S107中提取目标影像组学特征后的部分，候选数据集的获取也就是图1中的步骤S104，有关各模块的描述，具体参见图1中各步骤的相关描述，在此不再赘述。

在一种实现方式中，在步骤S107之后，本申请提供的一种基于主动学习的类别预测模型建模方法还可以包括：

利用类别预测模型对待预测图像进行预测，得到待预测图像中的肺结节的类别预测结果。

由此，可以将待预测图像输入至类别预测模型中，即可得到待预测图像中的肺结节的类别预测结果。

在上述基于主动学习的类别预测模型建模方法的基础上，参见图5，本申请还提供了一种基于主动学习的类别预测模型建模装置，包括：

基础数据集生成模块501，用于根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集；

筛选模块502，用于从所述基础数据集中提取肺结节的影像组学特征，从所述影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征；

基础模型训练模块503，用于根据所述筛选后影像组学特征、所述筛选后临床特征和所述基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型；

候选数据集收集模块504，用于收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，所述第二时间段的起始时间点晚于所述第一时间段的终止时间点；

委员会成员模型训练模块505，用于根据所述基础数据集对所述第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据所述基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，所述第一委员会成员模型与所述基础模型的网络参数相同；

补充数据集生成模块506，用于根据k个委员会成员模型计算所述候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在所述第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将所述第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由所述第一委员会成员模型和k-1个第二委员会成员模型组成；

类别预测模型训练模块507，用于提取各目标样本数据中的肺结节的目标影像组学特征，根据所述目标影像组学特征、所述补充数据集和所述基础数据集对所述基础模型进行训练直至收敛得到类别预测模型，其中，所述类别预测模型用于预测肺结节的类别。

可见，本装置可以根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集；从基础数据集中提取肺结节的影像组学特征，从影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征；根据筛选后影像组学特征、筛选后临床特征和基础数据集对第一初始深度学习模型进行训练直至收敛得到基础模型；收集在第二时间段内的患者的胸部医学图像作为候选数据集，其中，第二时间段的起始时间点晚于第一时间段的终止时间点；根据基础数据集对第一初始深度学习模型进行训练直至收敛得到第一委员会成员模型，根据基础数据集对k-1个第二初始深度学习模型进行训练直至收敛得到k-1个第二委员会成员模型，其中，k为正整数，第一委员会成员模型与基础模型的网络参数相同；根据k个委员会成员模型计算候选数据集中包含的各样本数据的投票熵，对各投票熵进行排序，提取大于预设排序位数的投票熵对应的目标样本数据，确定各目标样本数据中的第一肺结节区域，收集在第二时间段内各目标样本数据对应的患者的临床特征和病理信息，将第一肺结节区域、各目标样本数据对应的患者的临床特征和病理信息和各目标样本数据作为补充数据集，其中，k个委员会成员模型由第一委员会成员模型和k-1个第二委员会成员模型组成；提取各目标样本数据中的肺结节的目标影像组学特征，根据目标影像组学特征、补充数据集和基础数据集对基础模型进行训练直至收敛得到类别预测模型，其中，类别预测模型用于预测肺结节的类别。在本申请的技术方案中，在训练得到基础模型后，还收集在第二时间段内的患者的胸部医学图像作为候选数据集，并通过主动学习的方式对候选数据集进行筛选生成补充数据集，再基于基础数据集和补充数据集对基础模型进行训练得到类别预测模型，由于本申请中的数据集并不是一次性离线数据集，而是随着时间的增长对数据集进行补充，补充的方式是端到端的方式，使得本申请在建立类别预测模型时可以优化深度学习提取的特征和临床特征的交互作用，提高所建立的类别预测模型的效能。

在一种实现方式中，所述基础数据集生成模块501，可以包括：

在一种实现方式中，所述筛选模块502，可以包括：

在一种实现方式中，所述筛选模块502，可以具体用于：

在一种实现方式中，k-1个第二初始深度学习模型包括稠密连接DenseNet网络模型、ResNet网络模型、ResNeXt网络模型、双路网络DPN网络模型和/或SENet网络模型。

在一种实现方式中，所述胸部医学图像为胸部平扫薄层CT图像、胸部增强CT图像或者胸部MRI图像。

在一种实现方式中，上述基于主动学习的类别预测模型建模装置还可以包括：

图6是本申请实施例提供的一种电子设备的结构示意图。在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放执行指令。具体地，执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器，并向处理器提供执行指令和数据。

在一种可能实现的方式中，处理器从非易失性存储器中读取对应的执行指令到内存中然后运行，也可从其它设备上获取相应的执行指令，以在逻辑层面上形供暖季城市天然气负荷预测装置。处理器执行存储器所存放的执行指令，以通过执行的执行指令实现本申请任一实施例中提供的基于主动学习的类别预测模型建模方法。

上述如本申请图1所示实施例提供的基于主动学习的类别预测模型建模方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

本申请实施例还提出了一种可读介质，该可读存储介质存储有执行指令，存储的执行指令被电子设备的处理器执行时，能够使该电子设备执行本申请任一实施例中提供的基于主动学习的类别预测模型建模方法。

前述各个实施例中所述的电子设备可以为计算机。

本领域内的技术人员应明白，本申请的实施例可提供为方法或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例，或软件和硬件相结合的形式。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于主动学习的类别预测模型建模方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所收集的在第一时间段内的患者的临床特征、病理信息和胸部医学图像生成基础数据集的步骤，包括：

确定预处理后的胸部医学图像中的第二肺结节区域；

3.根据权利要求1所述的方法，其特征在于，所述从所述基础数据集中提取肺结节的影像组学特征的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述从所述影像组学特征和在第一时间段内的患者的临床特征中筛选出与预测目标之间的相关性大于预设相关性阈值的筛选后影像组学特征和筛选后临床特征的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，k-1个第二初始深度学习模型包括稠密连接DenseNet网络模型、ResNet网络模型、ResNeXt网络模型、双路网络DPN网络模型和/或SENet网络模型。

6.根据权利要求1所述的方法，其特征在于，所述胸部医学图像为胸部平扫薄层CT图像、胸部增强CT图像或者胸部MRI图像。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种基于主动学习的类别预测模型建模装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述基础数据集生成模块，包括：

10.一种电子设备，其特征在于，包括：处理器以及存储有执行指令的存储器，当所述处理器执行所述存储器存储的所述执行指令时，所述处理器执行权利要求1-7任一项所述的方法。