CN115631387B

CN115631387B - 基于图卷积神经网络的肺癌病理高危因素预测方法和装置

Info

Publication number: CN115631387B
Application number: CN202211635881.5A
Authority: CN
Inventors: 冀瑛; 周静; 刘建华; 胡滨
Original assignee: Renmin University of China; Beijing Chaoyang Hospital
Current assignee: Renmin University of China; Beijing Chaoyang Hospital
Priority date: 2022-12-16
Filing date: 2022-12-16
Publication date: 2023-03-21
Anticipated expiration: 2042-12-16
Also published as: CN115631387A

Abstract

本发明公开了一种基于图卷积神经网络的肺癌病理高危因素预测方法和装置。该方法包括如下步骤：对肺部的CT图像进行标注，得到肺结节的位置信息；对于每个肺结节的多张CT切片，首先利用迁移学习模型对每一张CT切片提取特征向量，然后利用每一张CT切片的特征向量构造图结构数据；利用图卷积神经网络模型对图结构数据进行拟合和预测分类，得到每一张CT切片的预测概率；以肺结节为基本单位，通过平均法计算肺结节对应的所有CT切片的预测概率，得到肺结节是否包含病理高危因素的预测概率，通过ROC曲线选取最佳的分类阈值，得到肺结节的预测分类结果。利用本发明，可以给出可疑病灶包含病理高危因素的概率，提前帮助医生明确手术的方式以及切除范围。

Description

基于图卷积神经网络的肺癌病理高危因素预测方法和装置

技术领域

本发明涉及一种基于图卷积神经网络的肺癌病理高危因素预测方法，同时也涉及相应的肺癌病理高危因素预测装置，属于医疗保健信息学领域。

背景技术

肺癌发病的前期症状，多表现为肺部结节，在此阶段若能及时发现并介入治疗，就能有效减少发展为恶性肿瘤的几率，极大地延长患者的生存率。目前，针对肺部检查的主要方法是借助计算机断层扫描(computed tomography，简称为CT)技术。利用CT扫描得到的影像图片（即CT图像），医生可以进行初步诊断，得到肺部是否包含肺结节、肺结节的良恶性程度等重要信息。然而，CT扫描也面临着很多问题，最主要的问题就是CT图像的数量太多，需要医生花费很多的时间和精力阅片，并且诊断的准确率还与医生个人的资历、经验、诊断时的精神状态等有较大的关系。一旦出现误判，无论对医生还是患者来说，都可能带来很大的危害。

现有技术中，针对肺部CT图像的识别和诊断，有两大主要的研究方向，一是肺结节分割，即从CT图像中识别出肺结节所在的位置；二是肺结节分类，即根据肺结节的特征，对其进行良恶性分类，或者对于恶性肿瘤，进行浸润前病变或浸润后病变的分类等。在肺结节分类领域，目前主要的技术路线集中于利用机器学习方法或深度学习方法来进行肺结节分类。机器学习方法主要通过使用人工提取的特征数据集，或影像组学提取的图像特征数据集，利用随机森林等机器学习模型来进行分类。深度学习方法更常见的做法是直接将CT图像作为输入数据，利用卷积神经网络模型自动提取图像特征，并进行图像的分类。

在申请号为202011025660.7的中国发明申请中，公开了一种肺结节检测模型训练方法。该方法基于半监督学习方法训练肺结节检测模型，减少了训练肺结节检测模型所需的标注数据的数量，进而降低了标注成本。此外，通过计算各肺结节特征之间的连接矩阵，基于连接矩阵构建图卷积神经网络模型，利用图卷积神经网络模型充分挖掘标注数据和未标注数据之间的共性特征，能够提高肺结节检测模型的检测精度。另外，在申请号为202010900390.3的中国发明申请中，公开了一种肺结节检测方法。该方法包括如下步骤：获取待检测的多张肺部CT图像，分别从多张肺部CT图像中提取出几何特征，几何特征用于表征潜在肺结节的几何信息，基于几何特征计算各肺部CT图像之间的相似度矩阵，针对每个几何特征，将相似度矩阵和几何特征输入预置的图卷积神经网络模型中进行处理，得到图像特征；基于图像特征确定各肺部的CT图像存在肺结节的概率。该方法通过各肺部的CT图像的几何特征计算各肺部的CT图像之间的相似度矩阵，利用图卷积神经网络模型充分挖掘待检测的肺部CT图像之间的潜在几何信息和相似关系，能够降低肺部CT图片中血管及其他肺部阴影结构对检测结果的影响，提高了检测精度。

发明内容

本发明所要解决的首要技术问题在于提供一种基于图卷积神经网络的肺癌病理高危因素预测方法。

本发明所要解决的另一技术问题在于提供一种基于图卷积神经网络的肺癌病理高危因素预测系统。

为了实现上述目的，本发明采用以下的技术方案：

根据本发明实施例的第一方面，提供一种基于图卷积神经网络的肺癌病理高危因素预测方法，包括如下步骤：

对肺部CT图像进行标注，得到肺结节的位置信息；

对于每个肺结节的多张CT切片，首先利用迁移学习模型对每一张CT切片提取特征向量，然后利用每一张CT切片的特征向量构造图结构数据；

利用图卷积神经网络模型对图结构数据进行训练和预测分类，得到每一张CT切片的预测概率；

以肺结节为基本单位，通过平均法计算肺结节对应的所有CT切片的预测概率，得到肺结节的预测概率，通过ROC曲线选取最佳的分类阈值，得到肺结节是否包含病理高危因素的预测分类结果。

其中较优地，由多张所述CT切片构成数据集，再将所述数据集划分为训练集、验证集和测试集；

所述迁移学习模型在所述训练集上训练1个轮次，作为最后的特征提取模型；

将训练后得到的特征提取模型应用到所述数据集上，提取迁移学习模型顶层的全连接层的多维度输出，作为对应CT切片的特征变量。

其中较优地，所述迁移学习模型为VGG16模型。

其中较优地，将每一张CT图像复制两次并堆叠为一个三通道的数据块，作为所述迁移学习模型的数据输入，所述迁移学习模型的输出向量作为当前CT切片的特征表示。

其中较优地，所述图卷积神经网络模型为GCN模型或者GAT模型。

其中较优地，在构造图结构数据时，在肺结节的每两张相邻CT切片对应的节点之间构造一条双向边，生成链状图结构。

其中较优地，在构造图结构数据时，只针对肺结节的中心CT切片构造与其他CT切片的双向边，生成星形图结构。

其中较优地，在构造图结构数据时，在肺结节的任意两张CT切片对应的节点之间均构造一条双向边，使所有节点均相连，生成全连接图结构。

其中较优地，将训练得到的图卷积神经网络模型应用到测试集上，得到每一张CT切片的二分类预测概率；以肺结节为基本单位，将每个肺结节对应的所有CT切片的预测概率，通过平均法计算得到每个肺结节的二分类预测概率；通过绘制肺结节分类的ROC曲线，得到最佳的分类阈值；基于所述分类阈值得到肺结节的预测分类标记，即肺结节是否包含病理高危因素的预测分类结果。

根据本发明实施例的第二方面，提供一种基于图卷积神经网络的肺癌病理高危因素预测装置，其中包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行上述的肺癌病理高危因素预测方法。

与现有技术相比较，本发明率先将图卷积神经网络模型应用到肺结节是否具有病理高危因素的分类任务上。以肺结节为基本单位，将每个肺结节对应的所有CT切片的预测概率，通过平均法计算得到每个肺结节的二分类预测概率。通过绘制肺结节分类的ROC曲线，可以得到最佳的分类阈值，基于这个分类阈值可以得到肺结节的预测分类结果。利用本发明，可以给出可疑病灶包含病理高危因素的概率。对于医生而言，如果通过术前CT检查做到准确预测，可以提前帮助医生明确手术的方式以及切除范围。

附图说明

图1为本发明实施例提供的肺癌病理高危因素预测方法的整体流程图；

图2为肺部CT图像的一个典型示例；

图3为包含病理高危因素的肺癌CT图像示例；

图4为本发明实施例中，图结构的示例图；

图5为本发明实施例中，图卷积算子的示例图；

图6为由两个肺结节相关CT切片构成的两条链状图；

图7为由两个肺结节相关CT切片构成的两个星形图；

图8为由两个肺结节相关CT切片构成的两个全连接图；

图9为GCN模型和GAT模型的肺结节评估指标示意图；

图10为GCN模型和GAT模型的ROC曲线图；

图11为GCN模型在5个图数据集上的指标表现图；

图12为GAT模型在5个图数据集上的指标表现图；

图13为本发明实施例提供的肺癌病理高危因素预测装置的示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容进行详细具体的说明。

对于多数早期肺癌来说，亚肺叶切除已经被证实可以获得和肺叶切除相似的预后效果，同时能够给患者保留更多的健康肺组织。因此，亚肺叶切除已逐渐成为早期肺癌的一个重要术式。但是，多项研究也表明，包含微乳头、实体型、复杂腺体型和脉管瘤栓等病理高危因素的浸润型肺腺癌患者进行亚肺叶切除术会导致更高的复发率。对于这些存在病理高危因素的肺腺癌患者来说，外科治疗选择肺叶切除术更为合适。因此，准确识别这些具有病理高危因素的肺癌对胸外科手术方式的选择具有重要的指导意义：不仅能够使没有高危因素的低风险人群保留更多健康肺组织，同时能够使高风险肺癌患者获得更好的预后效果。

借助计算机对肺部的CT图像进行分析，识别出肺结节所在的位置，并进行良恶性分类等判断，能够大大减少医生花费在搜索、识别CT图像上肺结节的时间，将主要精力集中于对可疑肺结节的诊断上。在本发明的各个实施例中，高危及低危肺腺癌的判定是基于结节病理的金标准。其中，肺癌的病理高危因素定义如下：将石蜡病理中包含微乳头型（＞5%）、实体型（＞5%）、复杂腺体型（＞5%）、气腔播散（STAS）及脉管癌栓的肿瘤定义为具有病理高危因素（high-risk）；将石蜡病理中未包含上述高危病理亚型（或≤5%）的肿瘤定义为不具有病理高危因素（low-risk）。

本发明实施例首先提供一种基于图卷积神经网络的肺癌病理高危因素预测方法。如图1所示，该预测方法的基本思路是：首先，通过放射科医生对病人肺部的CT图像进行标注，得到肺结节的大小及位置等属性信息，并给出每个结节的标签：高危型结节和非高危型结节；接下来，对每个肺结节的多张CT切片（具体可以为：结节中心层面CT切片及其上下各一个层面的3张CT切片的组合，但不限于此），首先利用迁移学习模型（例如VGG16 模型等）对每一张CT切片进行特征向量的提取。在这里，每一张CT切片就是后续图结构中的一个节点，CT切片的特征向量即为节点的属性。然后，利用每一张CT切片的特征向量构造图结构数据，图中每一个节点表示一张CT切片，一个肺结节的3张CT切片构成一个子图。接下来，利用图卷积神经网络模型对图结构数据进行拟合和预测分类，得到每一张CT切片的标签预测概率；最后，以肺结节为基本单位，通过平均法计算肺结节对应的所有CT切片的标签预测概率，得到肺结节的标签预测概率。最后，通过ROC曲线选取最佳的分类阈值，得到肺结节的预测分类结果（高危结节或低危结节）。下面，对该预测方法的具体实施步骤进行详细说明。

在本发明的一个实施例中，所使用的数据集为国内三家医院提供的病人肺部CT图像，数据集已进行了脱敏处理，并已由多位医生进行了人工肺结节标注和诊断。从该数据集中共筛选出了来自336名病人的372个肺腺癌的CT图像，用于后面的是否包含高危因素的二分类任务。其中具有病理高危因素的肺结节有139个，不具有病理高危因素的肺结节有233个。

医生对肺结节的相关标注包括肺结节类型、位置、范围、大小等信息。从CT图像数据中，根据肺结节的位置信息和直径大小进行裁剪，得到包含肺结节的9157张CT图像。同一个肺结节所包含的CT切片具有相同的尺寸。最终得到4148张包含病理高危因素肺癌CT图像，以及5009张不包含病理高危因素的肺癌CT图像。图2显示了肺部CT图像的一个典型示例。图3显示了包含病理高危因素的肺癌CT图像示例。

在常见的医学CT图像的分类任务中，技术人员通常利用卷积神经网络（例如CNN模型等）来提取CT图像的局部特征信息，并尝试将2D卷积核改造为3D卷积核，将输入图像从单张CT切片改为由多张CT切片堆叠组成的3D块，从而使卷积神经网络能够同时捕捉到多张CT切片的特征信息，改善最终的特征表示。但是，卷积神经网络对计算资源和计算时间的需求比较高，并且对于小样本数据集的训练难度也明显增加。

相比之下，图卷积神经网络模型是基于图结构来捕捉不同节点之间的空间关系。一方面，图卷积神经网络模型采用的卷积方式对计算资源的需求要低于CNN模型；另一方面，图卷积神经网络模型不需要很高的网络深度就能在大部分场景下实现对样本信息的有效提取。因此，本发明实施例提供的基于肺癌病理高危因素预测方法优选基于普通卷积神经网络模型的实现。

要想利用图卷积神经网络模型进行预测分类，首先需要构造图结构数据。这里的图结构数据包括节点和边的关系。在本发明的一个实施例中，每个结节的3个CT切片即为图结构的3个节点，CT切片之间的空间关系可以作为图结构关系构造的基础。为此，首先需要获得节点的特征向量，选取VGG16迁移学习模型用于节点的特征向量提取。具体地说，将前面提到的9157张CT切片构成的数据集，按7:3的比例划分为训练集和测试集，用于迁移学习模型进行训练。划分后的数据情况如表1所示。

表1 迁移学习模型所使用的数据集

迁移学习模型只在训练集上训练1个轮次（epoch），作为最后的特征提取模型。

将前面训练后得到的特征提取模型（即迁移学习模型）应用到全部数据集上，提取迁移学习模型顶层的全连接层的多维度（例如128维、256维或512维等）输出，作为对应CT切片的特征变量。最后，即可得到一个由9157张CT切片的多维度特征向量构成的特征数据集。

需要说明的是，在本发明的其它实施例中，也可以使用影像组学特征作为CT切片特征。这是本领域技术人员普遍掌握的常规技术手段，在此就不详细说明了。

接下来，首先简要介绍本发明所使用的图卷积神经网络模型，再进一步说明如何在肺结节CT图像的分类任务中，使用图卷积神经网络模型进行肺结节是否包含高危因素的分类任务。

如图4所示，其中圆圈表示一个节点，双向箭头表示节点间的双向边。首先定义一个图

，其中

表示一个由若干节点构成的集合，节点用

表示，

。通常每个节点

即为一个样本，具有若干特征或属性（Features）。若用

表示由节点

指向

之间的一条边，将

定义为一个由边

构成的集合，

。在某些数据集中边

也会具有一些属性，可用来表示节点

之间连接强度关系或其他特征。

对于图结构，有两种比较常用的表示节点之间连接关系的存储方式：邻接矩阵和邻接表。通常在图神经网络模型的应用中，将图数据转换为邻接矩阵的形式更便于模型进行训练。除了用邻接矩阵或邻接表来表示节点之间的关联关系外，通常还需要一个特征矩阵

来表示由

个节点的特征向量

组成的特征集合。此外，在图神经网络模型聚合邻接节点的特征时，通常需要用到图的拉普拉斯矩阵。利用图的拉普拉斯矩阵的相关特性，可以方便地进行特征聚合的计算。

图神经网络模型是一大类被设计用来学习较为特殊的图结构数据的神经网络模型。它的特点是将节点之间的连接关系纳入到神经网络模型的结构设计和计算中，使得神经网络模型能够有效捕获到更多节点之间的相关信息，从而提升了图神经网络模型在这类数据集上的任务表现。并且由于图神经网络模型结构上的特性，往往能以较少的网络深度实现不弱于普通神经网络模型的训练效果，减少了计算资源的消耗和时间成本。

在本发明的一个实施例中，使用了GCN（Graph Convolutional Network，图卷积神经网络）模型开展后续工作。GCN模型最早由Bruna等人在2014年提出，首次将卷积计算的思想引入到图结构数据上，为图模型在图结构数据的训练过程上提供了一种新思路。图卷积神经网络模型的主要特点在于构建卷积算子和池化算子，分别对应普通神经网络模型的卷积操作和池化操作。卷积操作主要是提取图像某一局部的信息作为一个局部特征，而图卷积算子比较类似，主要是针对图结构中的某一节点，聚合其邻居节点的特征信息，目的也是提取局部特征。图5显示了图卷积算子的一个示例，其中每个节点均聚合了邻居节点的特征信息。

由于GCN模型成功引入了图卷积算子，能够有效提取相邻节点之间的特征信息，丰富了节点的特征表示，从而有助于改善在下游任务上的表现。但是，GCN模型也存在一些缺点，例如图卷积操作在融合特征时，其边的权值是固定的，不够灵活，不能体现不同节点之间连接的强度关系。为此，本发明实施例中考虑到CT图像的特殊性，对于节点间的连接强度问题主要是通过采用不同的图构造方式来进行处理的；由于单个肺结节所包含的CT切片数量相对较少，因此生成的图结构数据规模也比较小，使用GCN模型进行全图计算比较容易，也不需要过高的网络深度即可实现较好的训练效果。

在本发明的另一个实施例中，也使用了GAT（Multi-head Graph AttentionNetwork，多头注意力图神经网络）模型开展后续工作。GAT模型借鉴了注意力机制的相关思想，并将其应用到图神经网络模型的训练过程中，从而使得图模型能够更有效地捕捉到不同节点之间的不同强度的连接关系。在特征聚合过程中通过对不同的边给予不同的权值，限制了弱关联关系节点的特征聚合影响，改善了节点的特征表示，并且一定程度上解决了多次特征聚合后节点的特征表示相似度较高的问题，大大提高了图卷积神经网络模型在下游任务上的表现。

GAT模型在定义聚合函数时就增加了对注意力机制的考量，使得在进行特征聚合计算时能够对不同的节点给予不同的聚合权重，使得更新后的节点特征能够更加关注有强连接关系的邻居节点的特征，并减少弱连接关系的邻居节点的特征影响，并借此得以改善多次聚合操作后特征的“局部性”和“特异性”。

前已述及，在通过迁移学习模型得到每个结节的每张CT切片的特征向量后，需要将其转变为图结构数据。由于图卷积神经网络模型是通过节点之间的边来聚集特征的，构造图结构即构造CT切片之间的关联关系。进一步考虑到本发明所使用的是肺部CT图像，并且针对的是是否具有高危因素的肺结节的分类任务，因此在本发明的不同实施例中，针对性地提出了三种图构造方式，对应于三种不同的特征聚合方式。

第一种图构造方式是链状图结构。图6中展示了由两个肺结节的相关CT切片构成的两条链状图，每条子链中的节点表示对应肺结节的CT切片。对于一个肺结节的所有CT切片节点，按照空间的位置关系，将每两张相邻CT切片互相连接，即可得到一个由若干节点和双向边构成的链状图。对于链状图，图卷积神经网络模型的每次卷积操作只会聚集相邻节点的特征，相当于提取三维空间中多张CT切片的特征。

第二种图构造方式是星形图结构。图7中展示了由两个肺结节的相关CT切片构成的两个星形图。对于一个肺结节的所有CT切片节点，取其中间CT切片作为中心节点，构造其与其他所有节点的双向边，即可得到一个星形图。对于星形图，中心节点的卷积操作会同时聚合较大范围内的CT切片信息，相当于对整个肺结节信息的提炼，而其他节点则更多保留了CT切片的局部特征信息。

第三种图构造方式是全连接图结构。图8中展示了由两个肺结节的相关CT切片构成的两个全连接图。对于一个肺结节的所有CT切片节点，在任意两个节点间构建双向边，即可得到一个全连接图。对于全连接图，由于任意两个节点均相邻，每个节点在聚合特征后都同时融合了其他CT切片的特征，但仍以自身特征为主，保留了局部性和特异性。

由于图卷积神经网络模型在聚合特征时只聚合邻近节点的特征信息，因此通过调整节点之间的相邻关系，可以在一定程度上调整图模型聚合特征时的深度和广度，类似于CNN模型中感受野的概念。对于不同的图模型和数据集，三种图构造方式可能各有优劣。下面将通实验对两种图卷积神经网络模型的分类性能，以及三种图构造方式的适用场景进行对比。

本发明中涉及到的多个实验均在NVIDIA Tesla P100的GPU上完成。使用Python语言，在Tensorflow框架下搭建模型进行训练，所使用到的深度学习库的版本如下表所示。

表2 主要实验环境配置

前已述及，在本发明的一个实施例中，使用VGG 16作为迁移学习模型，以进行CT图像的特征提取。基于Tensorflow库提供的VGG 16预训练模型，先将模型顶层替换为二分类子网络，作为待训练的迁移学习模型。

由于预训练模型是在RGB图像上训练得到，需要三通道作为标准数据输入。而在本发明中仅希望得到单张CT切片的特征表示，因此采取复制CT切片的方式，将每张CT切片（60

60）复制两次并堆叠为一个三通道的数据块（60

60

3），作为迁移学习模型的数据输入。迁移学习模型的输出向量则作为当前CT切片的特征表示。

迁移学习模型采取预训练方法进行训练，损失函数为交叉熵损失函数，评估指标为二分类准确率，优化器采用Adam优化器，模型学习率为0.00005。训练批量（batch）大小为60，测试批量（batch）大小为40。在训练集上只训练一个轮次（epoch），对模型参数进行微调，作为最终的特征提取模型。

1. GCN模型

由于图神经网络模型的结构比较复杂，GCN模型的搭建可以使用tf_geometric库中的相关函数，可以比较便利地实现图模型的构建。以普通CNN模型结构做类比，本发明实施例中的GCN模型只有4层网络，一个dropout层加上一个GCN图卷积层作为一个基本单元，两个基本单元构成GCN模型。dropout层的随机丢弃率设置为50%。

GCN模型采用旁置法进行训练，在训练集上训练参数，在验证集上选择最优模型，在测试集上计算评估指标。损失函数为交叉熵损失函数，优化器采用Adam优化器，学习率设置为0.01，评估指标为二分类准确率。模型最多训练400个epoch。

2. GAT模型

GAT模型的搭建同样借助了相关函数，本发明实施例中的GAT模型也只有4层网络，一个dropout层加上一个GAT图卷积层作为一个基本单元，两个基本单元构成GAT模型。dropout层的随机丢弃率设置为60%。

GAT模型也采用旁置法进行训练，在训练集上训练参数，在验证集上选择最优模型，在测试集上计算评估指标。损失函数同样为交叉熵损失函数，优化器采用Adam优化器，学习率设置为0.005，评估指标为二分类准确率。模型最多训练400个epoch。

在本发明实施例中，设计了一组实验来对比GCN和GAT两种图卷积神经网络模型在肺结节分类任务中的性能。为了排除图构造方式对模型性能的影响，对于每个图模型，均在以链状构图方式构造的图结构数据上进行对比。完全链状图表示将全部CT切片数据，以链状构图方式生成的图结构数据集。

由图9可以看出，GAT模型在各分类指标的表现上均要优于GCN模型。GAT模型的分类准确率能达到0.8，精确率和召回率也分别能达到0.793和0.852。GCN模型的分类准确率能达到0.787精确率和召回率分别能达到0.765和0.765。从图10可以看出，GAT模型的ROC（受试者工作特征曲线）曲线与GCN模型比较接近，但GAT模型的AUC（Area Under Curve，即ROC曲线下与坐标轴围成的面积）指标值更高，而且AUC的95%置信区间要比GCN模型更窄。

为了更好地对比不同图构造方式的优劣，进一步考虑对数据集进行切分。第一类方式为使用包含肺结节的全部CT切片数据，依次构造三种图结构数据，分别为完全链状图、完全星形图、完全全连接图；第二种方式为只使用部分切片数据，即针对每一个肺结节，仅选取其中间位置的三张CT切片来构造图结构数据，最后可以得到部分链状图、部分星形图、部分全连接图。由于基于部分数据集生成的部分链状图和部分星形图完全一致，因此最后只根据完全链状图、完全星形图、完全全连接图、部分链状图和部分全连接图这五个图数据集进行模型训练。将这些数据集分别应用于GCN模型和GAT模型中，可对比不同构图方式在下游分类任务中的综合表现。

由图11可知，GCN模型在5种图数据集上的指标表现有一定差异。在全连接构图方式上，GCN模型的表现相对优于另外两种构图方式，其中基于完全全连接图的指标表现为最优。从ROC曲线上来看，基于完全全连接图计算得到的ROC曲线也最接近左上角，并且AUC的95%置信区间表现也是最优的。

从图12可以看出，GAT模型在5种不同图数据集上的表现差异相对较小，并且GAT模型在以全连接方式构造的图数据集上整体表现也要优于另外两种构图方式。在ROC曲线图上，基于不同图数据集得到的ROC曲线也更为相似。

综合来看，GCN模型在5种图数据集上的表现差异较大，在以全连接方式生成的数据集上表现相对更佳。这是由于GCN模型聚合特征时会同等地聚合所有邻居节点的特征，当以全连接方式构图时，相当于任意两个节点之间均相互连接。故每个节点在聚合特征时均能提取到其他所有肺结节的特征信息，从而一定程度上提高了模型的表现。而GAT模型在5种图数据集上的表现比较接近。这是由于GAT模型采用图注意力机制，一定程度上降低了模型对图数据的网络结构的敏感性，即更关注节点之间的特征的相关性，而不是关注网络结构的特殊性。

从上述实验结果可以看出，全连接构图方式在两种模型上均有不错的表现，而链状图和星形图则各有优劣。但考虑到本发明所使用的数据集规模较小，若数据量较大时，采用全连接构图方式进行模型训练时的计算量会远高于另外两种构图方式。因此，在不同的使用场景下，可以结合实验对精度的要求和资金成本等进行综合考虑，选择合适的构图方式和模型组合来进行实验。

在本发明的一个实施例中，以肺结节为基本单元，按6:2:2的比例划分到训练集、验证集和测试集中。在训练集上训练图模型，在验证集上选取最优模型，并在测试集上进行评估。划分后的数据集的基本情况如表3所示。

表3 图结构数据集

将训练得到的图卷积神经网络模型应用到测试集上，可以得到每一张CT切片的二分类预测概率

。以肺结节为基本单位，将每个肺结节对应的所有CT切片的预测概率，通过平均法计算得到每个肺结节的二分类预测概率

。通过绘制肺结节分类的ROC曲线，可以得到最佳的分类阈值，基于这个分类阈值可以得到肺结节的预测分类标记（label），用于后续的评估指标计算。

在此基础上，预先给定一套病人的CT图像以及肺癌病灶的中心位置，利用本发明实施例提供的肺癌病理高危因素预测方法可以给出该病灶包含病理高危因素的概率。对于医生而言，如果通过术前CT检查做到病理高危因素的准确预测，可以提前帮助医生明确手术的方式以及切除范围，为患者制定个体化手术方式。在上述基于图卷积神经网络的肺癌病理高危因素预测方法的基础上，本发明还提供一种基于图卷积神经网络的肺癌病理高危因素预测装置。如图13所示，该肺癌病理高危因素预测装置包括一个或多个处理器11和存储器12。其中，存储器12与处理器11耦接，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器11执行，使得所述一个或多个处理器11实现如上述实施例中基于图卷积神经网络的肺癌病理高危因素预测方法。

其中，处理器11用于控制该肺癌病理高危因素预测装置的整体操作，以完成上述肺癌病理高危因素预测方法的全部或部分步骤。该处理器11可以是中央处理器（CPU）、图形处理器（GPU）、现场可编程逻辑门阵列（FPGA）、专用集成电路（ASIC）、数字信号处理（DSP）芯片等。存储器12用于存储各种类型的数据以支持在该肺癌病理高危因素预测装置的操作，这些数据例如可以包括用于在该肺癌病理高危因素预测装置上操作的任何应用程序或方法的指令，以及应用程序相关的数据。

该存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器等。

在一个示例性实施例中，基于图卷积神经网络的肺癌病理高危因素预测装置具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现，用于执行上述基于图卷积神经网络的肺癌病理高危因素预测方法，并达到如上述方法一致的技术效果。一种典型的实施例为计算机。具体地说，计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在另一个示例性实施例中，本发明还提供一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任意一个实施例中的基于图卷积神经网络的肺癌病理高危因素预测方法的步骤。例如，该计算机可读存储介质可以为包括程序指令的存储器，上述程序指令可以由基于图卷积神经网络的肺癌病理高危因素预测装置的处理器执行，以完成上述基于图卷积神经网络的肺癌病理高危因素预测方法，并达到如上述方法一致的技术效果。

与现有技术相比较，本发明率先将图卷积神经网络模型应用到肺结节是否具有病理高危因素的分类任务上。以肺结节为基本单位，将每个肺结节对应的所有CT切片的预测概率，通过平均法计算得到每个肺结节的二分类预测概率。通过绘制肺结节分类的ROC曲线，可以得到最佳的分类阈值，基于这个分类阈值可以得到肺结节的预测分类标记，得到肺结节是否具有病理高危因素的预测分类结果。利用本发明，可以给出可疑病灶包含病理高危因素的概率。对于医生而言，如果通过术前CT检查做到准确预测，可以提前帮助医生明确手术的方式以及切除范围。

上面对本发明所提供的基于图卷积神经网络的肺癌病理高危因素预测方法和装置进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于图卷积神经网络的预测方法，其特征在于包括如下步骤：

对肺部CT图像进行标注，得到肺结节的位置信息；

对于每个肺结节的多张CT切片，首先由多张所述CT切片构成数据集，再将所述数据集划分为训练集、验证集和测试集，由迁移学习模型在所述训练集上训练1个轮次，作为最后的特征提取模型；将训练后得到的特征提取模型应用到所述数据集上，提取迁移学习模型顶层的全连接层的多维度输出，作为对应CT切片的特征向量；其中，所述迁移学习模型为VGG16模型；

利用所述迁移学习模型对每一张CT切片提取特征向量，然后利用每一张CT切片的特征向量构造图结构数据；其中，将每一张CT切片复制两次并堆叠为一个三通道的数据块，作为所述迁移学习模型的数据输入，所述迁移学习模型的输出向量作为当前CT切片的特征表示；

利用图卷积神经网络模型对图结构数据进行拟合和预测分类，得到每一张CT切片的预测概率；

以肺结节为基本单位，通过平均法计算肺结节对应的所有CT切片的预测概率，得到肺结节的预测概率，通过ROC曲线选取最佳的分类阈值，得到肺结节的预测分类结果。

2.如权利要求1所述的预测方法，其特征在于：

所述图卷积神经网络模型为GCN模型或者GAT模型。

3.如权利要求1所述的预测方法，其特征在于：

在构造图结构数据时，在肺结节的每两张相邻CT切片对应的节点之间构造一条双向边，生成链状图结构。

4.如权利要求1所述的预测方法，其特征在于：

在构造图结构数据时，只针对肺结节的中心CT切片构造与其他CT切片的双向边，生成星形图结构。

5.如权利要求1所述的预测方法，其特征在于：

在构造图结构数据时，在肺结节的任意两张CT切片对应的节点之间均构造一条双向边，使所有节点均相连，生成全连接图结构。

6.如权利要求1所述的预测方法，其特征在于：

将训练得到的图卷积神经网络模型应用到测试集上，得到每一张CT切片的二分类预测概率；以肺结节为基本单位，将每个肺结节对应的所有CT切片的预测概率，通过平均法计算得到每个肺结节的二分类预测概率；通过绘制肺结节分类的ROC曲线，得到最佳的分类阈值；基于所述分类阈值得到肺结节的预测分类标记，得到肺结节的预测分类结果。

7.一种基于图卷积神经网络的预测装置，其特征在于包括处理器和存储器，所述处理器读取所述存储器中的计算机程序，用于执行权利要求1～6中任意一项所述的预测方法。