CN114121288A

CN114121288A - 基于ct的慢性阻塞性肺预测模型的生成装置、方法和介质

Info

Publication number: CN114121288A
Application number: CN202110162141.3A
Authority: CN
Inventors: 王旻骏; 陈烜; 王浩宇; 胡智臻; 符莹莹
Original assignee: AstraZeneca Investment China Co Ltd
Current assignee: AstraZeneca Investment China Co Ltd
Priority date: 2020-06-22
Filing date: 2021-02-05
Publication date: 2022-03-01

Abstract

基于CT的慢性阻塞性肺预测模型的生成装置、方法和介质。本发明提供一种基于计算机断层成像(CT)的慢性阻塞性肺预测模型的生成装置、方法和介质。包括：数据获取单元，配置为CT成像系统获取用户的个人信息以及获取用户的胸部CT数据，并且从所述胸部CT数据提取与慢性阻塞性肺有关的CT特征数据，从而生成CT特征数据集；特征工程处理单元，配置为对所述CT特征数据集进行特征工程处理以生成扩展的CT特征数据集；变量筛选单元，配置为基于一个或多个筛选规则，从所述扩展的CT特征数据集中筛选出至少包括一个或多个CT特征数据的一个或多个CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量；以及模型生成单元，配置为使用所筛选的变量训练并生成慢性阻塞性肺的预测模型。

Description

基于CT的慢性阻塞性肺预测模型的生成装置、方法和介质

技术领域

本申请涉及基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成装置、方法和计算机记录介质。

背景技术

慢性阻塞性肺疾病(慢阻肺，COPD)是一种常见的、可预防、可治疗、以持续性呼吸系统症状和气流受限为特征的慢性呼吸系统疾病。通过肺功能检查判断气流受限(使用支扩剂后FEV1/FVC<0.7)是诊断慢阻肺的“金标准”。

我国慢阻肺患者基数大，且存在肺功能检测率低、慢阻肺诊断率低的问题。根据最新发表的流行病学调查结果，我国慢阻肺患者数预计高达9990万人，其中仅12.0％患者自述曾接受过肺功能检查，仅2.6％知晓自身疾病。这一现状与我国肺功能仪普及率以及肺功能检查本身局限性相关：1)基层医疗机构(1级和2级医院)肺功能仪配备率低(例如，在湖南省中，分别为1.6％和39％)；2)肺功能检查对技师能力和患者配合度要求高，而慢阻肺患者年龄普遍偏大，导致检查结果质控难度大(仅50％质控A级3)；3)肺功能检查经济效益一般。

X射线计算机断层成像(CT)是临床常用的影像学检查手段，在基层医疗机构有较高的普及率：2015年全国96％2级医院配有CT4；并且CT检查对患者配合度的要求较低，相较肺功能检查具有明显优势。CT目前广泛用于慢阻肺等呼吸系统疾病的鉴别诊断和评估，例如通过肺气肿和小气道病变评估慢阻肺的严重程度以及治疗前后的变化。然而，目前尚无通过CT筛查或识别诊断慢阻肺的成熟技术。

随着CT定量分析技术的发展，近年来陆续有研究围绕COPD CT影像学特征的定量分析结果与肺功能FEV1/FVC比值的相关性进行了探索，发现肺气肿、气道形态和肺微血管灌注与FEV1/FVC显著相关，但目前仍未开发基于CT定量分析识别慢阻肺的技术方法。

为此，期望一种能够利用CT成像系统进行CT定量分析来识别慢阻肺的技术方法。

发明内容

根据本发明的实施例，提供了一种基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成装置，包括：

数据获取单元，配置为CT成像系统获取用户的个人信息以及获取用户的胸部CT数据，并且从所述胸部CT数据提取与慢性阻塞性肺有关的CT特征数据，从而生成CT特征数据集；

特征工程处理单元，配置为对所述CT特征数据集进行特征工程处理以生成扩展的CT特征数据集；

变量筛选单元，配置为基于一个或多个筛选规则，从所述扩展的CT特征数据集中筛选出至少包括一个或多个CT特征数据的一个或多个CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量；以及

模型生成单元，配置为使用所筛选的变量训练并生成慢性阻塞性肺的预测模型。

在一些示例中，所述模型生成单元进一步配置为通过符合真实世界的数据评估训练的预测模型的模型检验指标是否满足预定标准，并且当所述预测模型满足预定标准时，输出训练的预测模型作为生成的预测模型。

在一些示例中，所述模型检验指标包括以下的一种或多种：稳定性、准确性、敏感性、特异性、混淆矩阵、准确率、精确率、召回率、作为精确率和召回率的调和值的F1值、ROC曲线、AUC曲线。

在一些示例中，所述模型生成单元进一步配置为当所述训练的预测模型不满足预定标准时，丢弃训练的预测模型，所述变量筛选单元进一步配置为响应训练的预测模型被丢弃，重新筛选另一CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量，以及所述模型生成单元使用重新筛选的另一CT特征数据子集作为变量，训练并生成慢性阻塞性肺的预测模型。

在一些示例中，所述用户的个人信息至少包括年龄、性别、身高、体重、吸烟史、粉尘相关工作中的一项或多项。

在一些示例中，所述系统还包括探索性数据分析单元，配置为根据一个或多个参数对所述CT特征数据集进行数据分析，从而对所述数据获取单元获取的数据执行数据清洗操作。

在一些示例中，所述探索性数据分析单元配置为执行以下的一项或多项数据分析：

探索数据分布以确定数据是否存在偏差，

分析数据的缺失率以确定是否删除数据或填充数据，

分析数据中是否有重复的记录，并删除重复记录，

分析数据中是否存在单一值，并删除单一值。

在一些示例中，所述CT特征数据集至少包括以下CT定量数据的一种或多种：

指示平均CT值的数据，包括分别计算全肺以及各肺区或肺叶的平均CT值，

指示肺气肿体积比的数据，其包括在预定HU区间内，以预定HU步长分别计算的在不同HU的肺气肿定义下、全肺以及各肺区或肺叶的的肺气肿区域的体积以及占比，

指示气道形态的数据，包括分别计算第一范围级别气道的平均、最大、有效管壁厚度，平均、最大、有效管腔内径，管壁截面积，管腔截面积，

指示气道数量的数据，包括分别计算全肺以及各肺区/肺叶的单位肺体积下包含的第一范围级别级气道数，

所述扩展的CT特征数据集至少包括以下数据的一种或多种：

在所述CT值之间执行预定处理获得的处理后的值，

在所述肺气肿区域的体积之间以及占比之间执行预定处理获得的处理后的值，

对不同级别气道的上述气道形态的参数之间执行预定处理获得的处理后的值，

对不同级别气道的上述气道数量的参数之间执行预定处理获得的处理后的值。

在一些示例中，所述变量筛选单元基于以下的一个或多个进行特征筛选：

基于缺失率进行特征筛选以去除高缺失率特征，

基于指示标准差与平均值之比的变异系数进行特征筛选，

基于稳定性进行特征筛选以去除超过预定阈值的特征，

基于指示变量和目标值之间的相关关系的信息值进行特征筛选，

基于XGBOOST模型的变量重要性进行特征筛选，

基于变量聚类进行特征筛选，

基于单个变量的线性相关性进行特征筛选，

基于多个变量的多重共线性进行特征筛选，

基于逐步回归进行特征筛选，以及

基于假定值的显著性进行特征筛选。

在一些示例中，所述模型生成单元通过以下方式训练并生成慢性阻塞性肺的预测模型：

接收所述变量筛选单元筛选的CT特征数据子集；

通过证据权重WOE编码对所述CT特征数据子集中的连续性特征执行分箱处理，转换为离散型分箱后的特征；

将分箱后的特征作为训练集输入多个分类器模型以对分类器模型进行训练以生成多个训练的预测模型，所述多个分类器模型包括多个单一的分类器模型；

评估训练的预测模型的模型检验指标是否满足预定标准；

当所述训练的预测模型满足预定标准时，保存并输出训练的预测模型；以及

当所述训练的预测模型不满足预定标准时，指示所述变量筛选单元重新筛选另一CT特征数据子集，并且重新接收所述变量筛选单元筛选的另一CT特征数据子集训练并生成预测模型。

在一些示例中，所述模型生成单元进一步配置为当存在多个满足预定标准的训练的预测模型时，输出具有最优综合指标的训练的预测模型。

在一些示例中，所述单一的分类器模型至少包括以下的一种或多种：Xgboost模型、lightGBM模型、GBDT模型、random forest模型和SVM模型。

在一些示例中，所述模型生成单元进一步配置为融合所述多个训练的预测模型中的两个或多个，以生成融合的预测模型作为慢性阻塞性肺的预测模型。

在一些示例中，所述模型生成单元基于所述慢性阻塞性肺的预测模型，确定与慢性阻塞性肺疾病关联最大的CT特征数据子集。

在一些示例中，所述慢性阻塞性肺预测模型是指示慢性阻塞性肺的气流受限预测模型。

在一些示例中，所述系统还包括诊断单元，配置为使用所述慢性阻塞性肺的预测模型来分析用户的胸部CT数据以筛查和/或识别用户是否有慢性阻塞性肺。

根据本发明另一实施例，提供了一种基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成方法，包括：

从CT成像系统获取用户的个人信息以及获取用户的胸部CT数据，并且从所述胸部CT数据提取与慢性阻塞性肺有关的CT特征数据，从而生成CT特征数据集；

对所述CT特征数据集进行特征工程处理以生成扩展的CT特征数据集；

基于一个或多个筛选规则，从所述扩展的CT特征数据集中筛选出至少包括一个或多个CT特征数据的一个或多个CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量；以及

使用所筛选的变量训练并生成慢性阻塞性肺的预测模型。

在一些示例中，所述方法还包括：

通过符合真实世界的数据评估训练的预测模型的模型检验指标是否满足预定标准，并且当所述预测模型满足预定标准时，输出训练的预测模型作为生成的预测模型。

在一些示例中，所述方法还包括：

当所述训练的预测模型不满足预定标准时，丢弃训练的预测模型，

响应训练的预测模型被丢弃，重新筛选另一CT特征数据子集，作为生成慢性阻塞性肺预测模型的变量，以及

使用重新筛选的另一CT特征数据子集作为变量，训练并生成慢性阻塞性肺的预测模型。

根据本发明另一实施例，提供了一种基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成装置，包括：

处理器，和

存储器，所述存储器存储有计算机可执行指令，所述计算机可执行指令当由处理器执行时促使处理器执行上面所述的方法。

根据本发明另一实施例，提供了一种计算机可读记录介质，存储有计算机可执行指令，其中，所述计算机可执行指令当由处理器执行时促使处理器执行上面所述的方法。

因此，根据本发明实施例的基于计算机断层成像(CT)系统的慢性阻塞性肺疾病的预测模型生成装置、方法和计算机记录介质，其能够提取临床相关的慢阻肺相关的CT特征，对提取的CT特征进行特征工程处理，然后通过机器学习建立慢阻肺气流受限预测模型，并且能够进行多模型融合提升模型效果。此外，该预测模型能够使用从CT成像系统获取的定量数据预测COPD，找到与COPD关联最大的肺部定量数据，从而优化CT定量分析技术和/或改进预测建模方法，因此，进一步提升了慢阻肺气流受限的识别效果，进而能够准确地筛查和/或识别慢阻肺。

附图说明

图1是说明根据本发明第一实施例的慢阻肺的预测模型生成方法的流程图；

图2是说明根据本发明第一实施例的预测模型生成方法中的模型训练流程的流程图；

图3是说明根据本发明第一实施例的预测模型生成方法中的模型评价指标的混淆矩阵的示意图；

图4是说明根据本发明第一实施例的预测模型生成方法中的模型评价指标的ROC曲线的示意图；

图5是说明根据本发明第一实施例的预测模型生成方法中的模型评价指标的AUC曲线的示意图；

图6是说明根据本发明第一实施例的预测模型生成方法中的模型评价指标的PR曲线的示意图；

图7是说明根据本发明第二实施例的预测模型生成装置的框图；以及

图8是说明根据本发明第三实施例的预测模型生成设备的框图。

具体实施方式

下面，将参考附图详细描述本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

<第一实施例>

下面，将参考附图1描述根据本发明第一实施例的慢阻肺的预测模型生成方法。

如图1所示，该预测模型生成方法100包括：

步骤S101：从CT成像系统获取用户的个人信息以及获取用户的胸部CT数据，并且从所述胸部CT数据提取与慢性阻塞性肺有关的CT特征数据，从而生成CT特征数据集。

在步骤S101中，首先获取用户的个人信息，例如用户的年龄、性别、身高、体重、吸烟史、粉尘相关工作等基本信息。

然后，通过通用的CT成像系统对用户的胸部进行成像，获取用户的胸部CT数据。然后，可以利用商业化的CT定量分析软件(例如，飞利浦Intellispace Portal 7.0-COPD分析模块)对用户的胸部CT数据进行分析，从而提取与慢性阻塞性肺有关的CT特征数据。

用户的个人信息和CT特征数据可以形成CT特征数据集，用于接下来的慢阻肺的预测模型的形成。

具体地，CT特征数据例如可以包括以下的一项或多项：

1)平均CT值

指示平均CT值的数据，包括分别计算全肺以及各肺区或肺叶的平均CT值。例如，分别计算全肺以及各肺区/肺叶(全肺；左肺，右肺；左肺上叶、下叶，右肺上叶、中叶、下叶)的平均CT值。

2)肺气肿体积比

指示肺气肿体积比的数据，其包括在预定HU区间内，以预定HU步长分别计算的在不同HU的肺气肿定义下、全肺以及各肺区或肺叶的的肺气肿区域的体积以及占比。例如，在[-980,-900]HU的区间内，以5HU的步长，分别计算在不同HU的肺气肿定义下、全肺以及各肺区/肺叶(全肺；左肺，右肺；左肺上叶、下叶，右肺上叶、中叶、下叶)肺气肿区域的体积以及占比。

3)气道形态

指示气道形态的数据，包括分别计算第一范围级别气道的平均、最大、有效管壁厚度，平均、最大、有效管腔内径，管壁截面积，管腔截面积。例如，分别计算6-10级气道的平均、最大、有效管壁厚度，平均、最大、有效管腔内径，管壁截面积，管腔截面积，以及不同级别气道上述参数之间的二次计算和转化，如差值和比值。

4)气道数量

指示气道数量的数据，包括分别计算全肺以及各肺区/肺叶的单位肺体积下包含的第一范围级别级气道数。例如，分别计算全肺以及各肺区/肺叶(全肺；左肺，右肺；左肺上叶、下叶，右肺上叶、中叶、下叶)，单位肺体积下包含的6-10级气道数量。

步骤S102：对所述CT特征数据集进行数据分析，从而对所述数据获取单元获取的数据执行数据清洗操作。

该步骤主要是对CT特征数据集中的数据样本进行分析以获得数据样本的总体情况，然后将一些不合理的数据清洗掉，从而控制CT特征数据中的数据的质量。

具体地，可以根据一个或多个参数，对CT特征数据集中的数据样本进行分析。

在一个示例中，可以探索数据分布以确定数据是否存在偏差。通过分析每一个字段中各个值的占比，例如性别，分析所有数据中男性占比和女性占比为多少，通过这个可以确定数据整体是否合理。例如，当男女占比与一比一相差很多时，说明数据有偏差。

在另一个示例中，可以分析数据的缺失率以确定是否删除数据或填充数据。如果某些字段缺失率过高，例如超过80％的记录是没有值的，则考虑是否要删除。对于低缺失率的进行平均值填充或者中位数填充。

在另一个示例中，可以分析数据中是否有重复的记录，并删除重复记录。如果某一个字段与其他字段的值相同，则该字段是重复记录。可以删除该字段。

在另一个示例中，可以分析数据中是否存在单一值，并删除单一值。如果某一个字段只有一个值，则这个字段是无意义字段，可以去除该字段。

通过对所述CT特征数据集进行数据分析，可以有效地提高输入到后面的训练模型中的数据的质量，从而提高预测模型的准确率。

步骤S103：对所述CT特征数据集进行特征工程处理以生成扩展的CT特征数据集。

该步骤通过不同肺部位置CT定量数据(例如，905HU下左肺上叶肺气肿体积/左肺肺气肿体积，7级级气道平均管壁厚度/7级级气道平均管壁厚度等等)的关系扩充特征。

所述CT特征数据集中的现有CT的定量特征是可以通过软件定量分析直接拿到的值，例如某肺叶肺气肿占比，气道的气道壁平均厚度等这些值。也就是说，在上面步骤S101中，通过软件定量分析直接拿到的值。

扩展的CT特征数据集进一步包括基于现有特征获得的衍生特征。具体地，通过对步骤S101中的现有特征进行扩展，所述扩展的CT特征数据集至少包括以下数据的一种或多种：在所述CT值之间执行预定处理获得的处理后的值，例如，在所述CT值之间进行二次计算和转化获得的差值和比值；在所述肺气肿区域的体积之间以及占比之间执行预定处理获得的处理后的值，例如，在上述肺气肿体积之间、占比之间进行二次计算和转化获得的差值和比值；对不同级别气道的上述气道形态的参数之间执行预定处理获得的处理后的值，例如，在不同级别气道上述参数之间进行二次计算和转化获得差值和比值；对不同级别气道的上述气道数量的参数之间执行预定处理获得的处理后的值，例如，在不同级别气道上述参数之间进行二次计算和转化获得的差值和比值。

这样的预定处理不限于获得差值和比值，而是可以根据需要，进行任意的二次计算和转换获得的转换后的值。

下面的表1-表4示出了扩展特征集中包括的现有特征和衍生特征的示例。

表1

表2

需要注意的是，为了简便，表2中仅示出了980HU下和900HU下的数据，但是实际上的数据包括在980HU到900HU的区间中，以5HU的步长，分别计算在不同HU的肺气肿定义下、全肺以及各肺区/肺叶等的特征。

表3

需要注意的是，为了简便，表3中仅示出了6级的数据，但是实际上的数据包括从6级到10级的不同级别气道的平均、最大、有效管壁厚度，平均、最大、有效管腔内径，管壁截面积，管腔截面积以及上述参数之间的差值和比值。

表4

需要注意的是，为了简便，表4中仅示出了全肺、左肺和右肺的数据，但是实际上的数据包括全肺以及各肺区/肺叶(全肺；左肺，右肺；左肺上叶、下叶，右肺上叶、中叶、下叶)，单位肺体积下包含的6-10级气道数量以及各参数之间的差值和比值。

通过布置S103的特征工程处理，可以获得更完整的CT特征数据的集合，可以为后续的预测模型的训练和生成提供更多的定量数据。

步骤S104：基于一个或多个筛选规则，从所述扩展的CT特征数据集中筛选出至少包括一个或多个CT特征数据的一个或多个CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量。

特征(即，变量)选择对于模型的训练和生成非常重要。好的特征选择能够提升模型的性能。在该步骤中，可以通过多个不同参数中的一个或多个来选择。

具体地，可以基于一个或多个参数进行特征筛选。例如，基于缺失率(missingrate)进行特征筛选以去除高缺失率特征。

可以基于指示标准差与平均值之比的变异系数进行特征筛选。变异系数又称为“离散系数”(coefficient of variation)，是概率分布离散程度的归一化量度，其定义为标准差与平均值之比：

变异系数越大说明该变量的差异性越大，能提供的信息就越多。

此外，还可以基于稳定性(PSI)进行特征筛选以去除超过预定阈值的特征。

PSI＝sum((实际占比-预期占比)*ln(实际占比/预期占比))

在建模初期，对变量稳定性进行筛选的一个常用方法是选择第一次检测做为基准日，将后续检测的数据都同基准日的数据计算psi，一旦有一次或者某几次的psi值超过一个阈值(一般为0.1)，则删除该变量。

此外，还可以基于指示变量和目标值之间的相关关系的信息值(IV)进行特征筛选。

变量和目标值之间有强相关关系指的是变量能够有效区分出健康人和患者。例如，以年龄这个变量为例，如果年龄越低，患者占比越低，也就是说在处在不同年龄的人群有明显发病率差异，那么年龄就是一个和目标值有强相关关系的变量，且这种发病率差异越大，相关关系就越强，对健康以及患者人群的区分度就越高。常用的IV值(InformationValue)可以量化这种区分度。

IV＝sum((该组患者占比-该组健康占比)*ln(该组患者占比/该组健康人群占比))＝sum((该组患者占比-该组健康人群占比)*该组WOE)

WOE(weight of evidence)指示证据权重。

此外，还可以基于XGBOOST模型的变量重要性进行特征筛选。通过输入训练数据进XGBOOST模型建模可以输出特征重要性(feature impotence)，高重要性的特征更需要被保留，低特征重要度的特征可以考虑删除。

此外，还可以基于变量聚类进行特征筛选。自变量间相关程度越低越好，这样会更加符合模型的假定，因此需利用变量聚类的方法去降低变量间的相关性。变量聚类是数据建模过程中标准的变量选择流程。

此外，还可以基于单个变量的线性相关性进行特征筛选。单一变量的分布与结果是否有相关性，例如随着年龄增长，发病概率线性增加。

此外，还可以基于多个变量的多重共线性进行特征筛选。多个变量是否与结果有线性相关性，例如年龄，肺气肿占比以及气道壁厚度等。

此外，还可以基于逐步回归进行特征筛选。逐步回归是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。从而保证最后所得到的解释变量集是最优的。

此外，还可以基于假定值(P-value)的显著性进行特征筛选。P-value表示假定值/假设机率。假设检验是推断统计中的一项重要内容，是用于判断原始假设是否正确的重要证据。统计学根据显著性检验方法所得到的P值，一般以P<0.05为显著，P<0.01为非常显著，其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。实际上，P值不能赋予数据任何重要性，只能说明某事件发生的机率。P<0.01时样本间的差异比P<0.05时更大，这种说法是错误的。统计结果中显示Pr>F，也可写成Pr(>F)，P＝P{F0.05>F}或P＝P{F0.01>F}。

步骤S105：使用所筛选的变量训练慢性阻塞性肺的预测模型。

该步骤将基于所筛选的变量多多个主流分类器模型(例如，Xgboost模型、lightGBM模型、GBDT模型、random forest模型和SVM模型)分别进行训练以获得训练后的模型。所述慢性阻塞性肺预测模型是指示慢性阻塞性肺的气流受限预测模型。

稍后将参考图2详细描述训练慢性阻塞性肺的预测模型的过程。

步骤S106：通过符合真实世界的数据评估训练的预测模型的模型检验指标是否满足预定标准。

模型检验指标包括以下的一种或多种：稳定性、准确性、敏感性、特异性、混淆矩阵、准确率、精确率、召回率、作为精确率和召回率的调和值的F1值、ROC曲线、AUC曲线。

下面将参考图3说明使用混淆矩阵来评估的情况。混淆矩阵是监督学习中的一种可视化工具，主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。

如图3所示，混淆矩阵是由false positives，false negatives，true positives和true negatives组成的两行两列的矩阵。

假正(False Positive,FP)表示被模型预测为正的负样本，假负(FalseNegative,FN)表示被模型预测为负的正样本，真正(True Positive,TP)表示被模型预测为正的正样本，以及真负(True Negative,TN)表示被模型预测为负的负样本。

通过分别计算矩阵的每个项目中的样本数与正样本实际数或负样本实际数，能够评估模型的精度。

真正率(True Positive Rate,TPR)：TPR＝TP/(TP+FN)，即被预测为正的正样本数/正样本实际数。

假正率(False Positive Rate,FPR)：FPR＝FP/(FP+TN)，即被预测为正的负样本数/负样本实际数。

假负率(False Negative Rate,FNR)：FNR＝FN/(TP+FN)，即被预测为负的正样本数/正样本实际数。

真负率(True Negative Rate,TNR)：TNR＝TN/(TN+FP)，即被预测为负的负样本数/负样本实际数。

通过混淆矩阵，可以计算准确率(Accuracy)。

Accuracy＝(TP+TN)/(TP+FN+FP+TN)

即，正确预测的正负样本数/总样本数。

通过混淆矩阵，还可以计算精确率(Precision)。

精确率与准确率不同。实际上，精确率只是针对预测正确的正样本而不是所有预测正确的样本。表现为预测出是正的样本数里面有多少样本真正是正的。精确率可理解为查准率。

Precision＝TP/(TP+FP)

通过混淆矩阵，还可以计算召回率(Recall)。

召回率表现出在实际正样本中，分类器模型能预测出多少。与真正率相等，可理解为查全率。

Recall＝TP/(TP+FN)

即正确预测的正样本数/实际正样本总数。

此外，还可以通过精确率和召回率确定F1值(F1 score)。

F1值是精确率和召回率(Recall)的调和值，更接近于两个数较小的那个，所以精确率和召回率接近时，F1值最大。

2/F1＝1/Precision+1/Recall。

另一个模型检验指标是接受者操作特性曲线(receiver operatingcharacteristic curve，ROC)。在逻辑回归里面，对于正负样本的界定，通常会设一个阈值，大于阈值的为正类，小于阈值为负类。如果减小该阀值，更多的样本会被识别为正类，提高正类的识别率，但同时也会使得更多的负类被错误识别为正类。为了直观表示这一现象，引入ROC曲线。根据分类结果计算得到ROC空间中相应的点，连接这些点就形成ROC曲线，横坐标为False Positive Rate(FPR假正率)，纵坐标为True Positive Rate(TPR真正率)。一般情况下，这个曲线都应该处于(0,0)和(1,1)连线的上方,如图4所示。

ROC曲线中的四个点和一条线说明如下：

点(0,1)：即FPR＝0,TPR＝1，意味着FN＝0且FP＝0，将所有的样本都正确分类。

点(1,0)：即FPR＝1，TPR＝0，最差分类器，避开了所有正确答案。

点(0,0)：即FPR＝TPR＝0，FP＝TP＝0，分类器模型把每个实例都预测为负类。

点(1,1)：分类器模型把每个实例都预测为正类。

总而言之，ROC曲线越接近左上角，该分类器的性能越好。一般来说，如果ROC是光滑的，那么基本可以判断没有太大的过度拟合。

另一个模型检验指标是曲线下面积(Area Under Curve，AUC)。AUC被定义为ROC曲线下的面积(ROC的积分)，通常大于0.5小于1。随机挑选一个正样本以及一个负样本，分类器判定正样本的值高于负样本的概率就是AUC值。AUC值(面积)越大的分类器，性能越好，如图5所示。

另一个模型检验指标是PR曲线。如图6所示，PR曲线的纵坐标是精确率P，横坐标是召回率R。对于一个排序模型来说，其P-R曲线上的一个点代表着，在某一阈值下，模型将大于该阈值的结果判定为正样本，小于该阈值的结果判定为负样本，此时返回结果对应的召回率和精确率。整条P-R曲线是通过将阈值从高到低移动而生成的。图1是P-R曲线样例图，其中实线代表模型A的P-R曲线，虚线代表模型B的P-R曲线。原点附近代表当阈值最大时模型的精确率和召回率。阈值越高，精确率越高，阈值越低，召回率越高。

在步骤S106中，通过符合真实世界的全新数据测试训练后的模型的敏感性、特异性、F1值等模型检验指标是否满足要求。

步骤S107：当所述训练的预测模型满足预定标准时，输出训练的预测模型作为生成的预测模型。

最后产生的预测模型使用从CT成像系统获取的定量数据预测COPD，能够确定与COPD关联最大的肺部定量数据。

另一方面，当所述训练的预测模型不满足预定标准时，丢弃训练的预测模型，然后返回步骤S103，并且重复步骤S103-S106的操作，重新筛选另一CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量，使用重新筛选的另一CT特征数据子集作为变量，训练慢性阻塞性肺的预测模型，并且评估训练的预测模型，直到获得满足预定标准的预测模型。

下面，将参考图2详细描述训练慢性阻塞性肺的预测模型的过程。

如图2所示，该训练预测模型的方法200包括：

步骤S201：接收筛选后的特征。

在该步骤中，接收经过上面步骤S104中的变量筛选后的CT特征数据子集，将筛选后的CT特征数据子集用作模型训练的训练数据。例如，筛选后的CT特征数据子集包括有用的特征a1,a2…an。

步骤S202：通过证据权重WOE编码对所述CT特征数据子集中的连续性特征执行分箱处理，转换为离散型分箱后的特征。

在该步骤中，通过WOE变化，对连续性变量a1,a2…an进行智能分箱处理(即，分组处理)，转换为离散型变量。

步骤S203：将分箱后的特征作为训练集输入多个分类器模型以对分类器模型进行训练以生成多个训练的预测模型，所述多个分类器模型包括多个单一的分类器模型。

在该步骤中，将分箱后的特征a1,a2…an作为训练集输入单一不同模型(Xgboost模型、lightGBM模型、GBDT模型、random forest模型和SVM模型等)。

步骤S204：融合所述多个训练的预测模型中的两个或多个，以生成融合的预测模型作为慢性阻塞性肺的预测模型。

在该步骤中，尝试融合不同的分类器模型，选出最好的融合结构以及融合分类器模型。

步骤S205：评估训练的预测模型的模型检验指标是否满足预定标准。

该步骤与上面描述的步骤S106的操作类似，检验训练的预测模型的模型检验标准是否满足预定标准。

步骤S206：当所述训练的预测模型不满足预定标准时，返回步骤S201，并且重复步骤S201-步骤S204的操作，指示所述变量筛选单元重新筛选另一CT特征数据子集，并且重新接收所述变量筛选单元筛选的另一CT特征数据子集训练并生成预测模型。

该步骤与上面描述的步骤S106的操作类似。

步骤S207：当所述训练的预测模型满足预定标准时，保存训练的预测模型。

如果模型的相关系数不达标则舍弃这个模型，如果有多个模型达标，则选择综合指标更优秀的模型进行保存。

在一个示例中，假设预定模型性能为：

准确率>0.75，精确率>0.75，召回率>0.8。

对多个模型进行评估后，模型A结果为：

准确率＝0.8，精确率＝0.79，召回率＝0.82。

模型B结果为：

准确率＝0.73，精确率＝0.75，召回率＝0.79。

模型C结果为：

准确率＝0.8，精确率＝0.74，召回率＝0.8。

因此，A模型为达标且最优模型，B模型准确率与召回率不达标，C模型精确率不达标。

如果有模型D准确率＝0.81，精确率＝0.80，召回率＝0.83，则模型A与D同时达标且模型D性能更佳，应该保存模型D。

该步骤保存的预测模型在步骤S106中，通过符合真实世界的全新数据测试训练后的模型的敏感性、特异性、F1值等模型检验指标是否满足要求。这样，最终产生各种性能都能达到要求的最优的模型。

因此，根据本发明实施例的基于计算机断层成像(CT)系统的慢性阻塞性肺疾病的预测模型生成方法，其能够提取临床相关的慢阻肺相关的CT特征，对提取的CT特征进行特征工程处理，然后通过机器学习的多个模型建立慢阻肺气流受限预测模型，并且能够进行多模型融合提升模型效果。此外，该预测模型能够使用从CT成像系统获取的定量数据预测COPD，找到与COPD关联最大的肺部定量数据，从而优化CT定量分析技术和/或改进预测建模方法，因此，进一步提升了慢阻肺气流受限的识别效果，进而能够准确地筛查和/或识别慢阻肺。

<第二实施例>

下面，将参考附图7描述根据本发明第二实施例的预测模型生成装置700的框图。

如图7所示，预测模型生成装置700包括数据获取单元701、探索性数据分析单元702、特征工程处理单元703、变量筛选单元704、模型生成单元705和诊断单元706。

数据获取单元701配置为CT成像系统获取用户的个人信息以及获取用户的胸部CT数据，并且从所述胸部CT数据提取与慢性阻塞性肺有关的CT特征数据，从而生成CT特征数据集.

特征工程处理单元702配置为对所述CT特征数据集进行特征工程处理以生成扩展的CT特征数据集.

变量筛选单元703配置为基于一个或多个筛选规则，从所述扩展的CT特征数据集中筛选出至少包括一个或多个CT特征数据的一个或多个CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量；以及

模型生成单元705配置为使用所筛选的变量训练并生成慢性阻塞性肺的预测模型。

所述模型生成单元705进一步配置为通过符合真实世界的数据评估训练的预测模型的模型检验指标是否满足预定标准，并且当所述预测模型满足预定标准时，输出训练的预测模型作为生成的预测模型。

所述模型检验指标包括以下的一种或多种：稳定性、准确性、敏感性、特异性、淆矩阵、准确率、精确率、召回率、作为精确率和召回率的调和值的F1值、ROC曲线、AUC曲线。

所述模型生成单元705进一步配置为当所述训练的预测模型不满足预定标准时，丢弃训练的预测模型.

所述变量筛选单元704进一步配置为响应训练的预测模型被丢弃，重新筛选另一CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量，以及所述模型生成单元705使用重新筛选的另一CT特征数据子集作为变量，训练并生成慢性阻塞性肺的预测模型。

探索性数据分析单元702配置为根据一个或多个参数对所述CT特征数据集进行数据分析，从而控制所述数据获取单元获取的数据的质量。

所述探索性数据分析单元702配置为执行以下的一项或多项数据分析：

探索数据分布以确定数据是否存在偏差，

分析数据的缺失率以确定是否删除数据或填充数据，

分析数据中是否有重复的记录，并删除重复记录，

分析数据中是否存在单一值，并删除单一值。

所述CT特征数据集至少包括以下CT定量数据的一种或多种：

所述扩展的CT特征数据集至少包括以下数据的一种或多种：

在所述CT值之间执行预定处理获得的处理后的值，

所述变量筛选单元704基于以下的一个或多个进行特征筛选：

基于缺失率进行特征筛选以去除高缺失率特征，

基于指示标准差与平均值之比的变异系数进行特征筛选，

基于稳定性进行特征筛选以去除超过预定阈值的特征，

基于XGBOOST模型的变量重要性进行特征筛选，

基于变量聚类进行特征筛选，

基于单个变量的线性相关性进行特征筛选，

基于多个变量的多重共线性进行特征筛选，

基于逐步回归进行特征筛选，以及

基于假定值的显著性进行特征筛选。

所述模型生成单元705通过以下方式训练并生成慢性阻塞性肺的预测模型：

接收所述变量筛选单元704筛选的CT特征数据子集；

评估训练的预测模型的模型检验指标是否满足预定标准；

所述模型生成单元705进一步配置为当存在多个满足预定标准的训练的预测模型时，输出具有最优综合指标的训练的预测模型。

所述单一的分类器模型至少包括以下的一种或多种：Xgboost模型、lightGBM模型、GBDT模型、random forest模型和SVM模型。

所述模型生成单元705进一步配置为融合所述多个训练的预测模型中的两个或多个，以生成融合的预测模型作为慢性阻塞性肺的预测模型。

所述模型生成单元705基于所述慢性阻塞性肺的预测模型，确定与慢性阻塞性肺疾病关联最大的CT特征数据子集。

所述慢性阻塞性肺预测模型是指示慢性阻塞性肺的气流受限预测模型。

诊断单元706配置为使用所述慢性阻塞性肺的预测模型来分析用户的胸部CT数据以筛查和/或识别用户是否有慢性阻塞性肺。

需要注意的是，数据收集单元701执行的操作与上面步骤S101中的操作类似，探索性数据分析单元702执行的操作与上面步骤S102中的操作类似，特征工程处理单元703执行的操作与上面步骤S103中的操作类似，变量筛选单元704执行的操作与上面步骤S104中的操作类似，模型生成单元705执行的操作与上面步骤S105、S106和S107中的操作类似，在此省略重复的描述。

因此，根据本发明实施例的基于计算机断层成像(CT)系统的慢性阻塞性肺疾病的预测模型生成装置，其能够提取临床相关的慢阻肺相关的CT特征，对提取的CT特征进行特征工程处理，然后通过机器学习的多个模型建立慢阻肺气流受限预测模型，并且能够进行多模型融合提升模型效果。此外，该预测模型能够使用从CT成像系统获取的定量数据预测COPD，找到与COPD关联最大的肺部定量数据，从而优化CT定量分析技术和/或改进预测建模方法，因此，进一步提升了慢阻肺气流受限的识别效果，进而能够准确地筛查和/或识别慢阻肺。

<第三实施例>

图8是示出根据本公开实施例的预测模型生成设备800的框图。

参见图8，电子设备800可以包括处理器801和存储器802。处理器801和存储器802都可以通过总线803相连。预测模型生成设备800可以是通用计算机、塔式服务器、机架服务器(Rack)、刀片服务器(Blade Server)、机柜式服务器等。

处理器801可以根据存储在存储器802中的程序执行各种动作和处理。具体地，处理器801可以是一种集成电路芯片，具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请前面的实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，可以是X86架构或ARM架构的。

预测模型生成设备800还可以通过网络接口从远程设备接收各种数据(如个人信息、CT数据等等)，处理器801可以处理接收的各种数据，然后将生成的预测模型发送给远程设备。

存储器802存储有计算机指令，在计算机指令被处理器801执行时实现上述基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成方法100。存储器802可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意，本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开还提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时可以实现上述的方法。类似地，本公开实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。应注意，本文描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

需要说明的是，附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

一般而言，本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

需要说明的是，在本说明书中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在上面详细描述的本发明的示例实施例仅仅是说明性的，而不是限制性的。本领域技术人员应该理解，在不脱离本发明的原理和精神的情况下，可对这些实施例或其特征进行各种修改和组合，这样的修改应落入本发明的范围内。

Claims

1.一种基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成装置，包括：

2.如权利要求1所述的系统，其中，所述模型生成单元进一步配置为通过符合真实世界的数据评估训练的预测模型的模型检验指标是否满足预定标准，并且当所述预测模型满足预定标准时，输出训练的预测模型作为生成的预测模型。

3.如权利要求2所述的系统，其中，所述模型检验指标包括以下的一种或多种：稳定性、准确性、敏感性、特异性、混淆矩阵、准确率、精确率、召回率、作为精确率和召回率的调和值的F1值、ROC曲线、AUC曲线。

4.如权利要求2所述的系统，其中，所述模型生成单元进一步配置为当所述训练的预测模型不满足预定标准时，丢弃训练的预测模型，

所述变量筛选单元进一步配置为响应训练的预测模型被丢弃，重新筛选另一CT特征数据子集，作为生成慢性阻塞性肺的预测模型的变量，以及

所述模型生成单元使用重新筛选的另一CT特征数据子集作为变量，训练并生成慢性阻塞性肺的预测模型。

5.如权利要求1所述的系统，其中，所述用户的个人信息至少包括年龄、性别、身高、体重、吸烟史、粉尘相关工作中的一项或多项。

6.如权利要求1所述的系统，还包括探索性数据分析单元，配置为根据一个或多个参数对所述CT特征数据集进行数据分析，从而对所述数据获取单元获取的数据执行数据清洗操作。

7.如权利要求6所述的系统，其中，所述探索性数据分析单元配置为执行以下的一项或多项数据分析：

探索数据分布以确定数据是否存在偏差，

分析数据的缺失率以确定是否删除数据或填充数据，

分析数据中是否有重复的记录，并删除重复记录，

分析数据中是否存在单一值，并删除单一值。

8.如权利要求1所述的系统，其中，所述CT特征数据集至少包括以下CT定量数据的一种或多种：

所述扩展的CT特征数据集至少包括以下数据的一种或多种：

在所述CT值之间执行预定处理获得的处理后的值，

9.如权利要求1所述的系统，其中所述变量筛选单元基于以下的一个或多个进行特征筛选：

基于缺失率进行特征筛选以去除高缺失率特征，

基于指示标准差与平均值之比的变异系数进行特征筛选，

基于稳定性进行特征筛选以去除超过预定阈值的特征，

基于XGBOOST模型的变量重要性进行特征筛选，

基于变量聚类进行特征筛选，

基于单个变量的线性相关性进行特征筛选，

基于多个变量的多重共线性进行特征筛选，

基于逐步回归进行特征筛选，以及

基于假定值的显著性进行特征筛选。

10.如权利要求1所述的系统，其中所述模型生成单元通过以下方式训练并生成慢性阻塞性肺的预测模型：

接收所述变量筛选单元筛选的CT特征数据子集；

评估训练的预测模型的模型检验指标是否满足预定标准；

11.如权利要求10所述的系统，其中，所述模型生成单元进一步配置为当存在多个满足预定标准的训练的预测模型时，输出具有最优综合指标的训练的预测模型。

12.如权利要求11所述的系统，其中，所述单一的分类器模型至少包括以下的一种或多种：Xgboost模型、lightGBM模型、GBDT模型、random forest模型和SVM模型。

13.如权利要求11所述的系统，其中，所述模型生成单元进一步配置为融合所述多个训练的预测模型中的两个或多个，以生成融合的预测模型作为慢性阻塞性肺的预测模型。

14.如权利要求13所述的系统，其中所述模型生成单元基于所述慢性阻塞性肺的预测模型，确定与慢性阻塞性肺疾病关联最大的CT特征数据子集。

15.如权利要求11所述的系统，其中所述慢性阻塞性肺预测模型是指示慢性阻塞性肺的气流受限预测模型。

16.如权利要求1-15的任一所述的系统，还包括诊断单元，配置为使用所述慢性阻塞性肺的预测模型来分析用户的胸部CT数据以筛查和/或识别用户是否有慢性阻塞性肺。

17.一种基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成方法，包括：

使用所筛选的变量训练并生成慢性阻塞性肺的预测模型。

18.如权利要求17所述的方法，还包括：

19.如权利要求17所述的方法，还包括：

20.一种基于计算机断层成像(CT)系统的慢性阻塞性肺的预测模型生成装置，包括：

处理器，和

存储器，所述存储器存储有计算机可执行指令，所述计算机可执行指令当由处理器执行时促使处理器执行如权利要求17-19中的任一项所述的方法。

21.一种计算机可读记录介质，存储有计算机可执行指令，其中，所述计算机可执行指令当由处理器执行时促使处理器执行如权利要求17-19中的任一项所述的方法。