CN115170564B

CN115170564B - 一种结直肠癌放化疗反应自动预测系统

Info

Publication number: CN115170564B
Application number: CN202211082384.7A
Authority: CN
Inventors: 夏邵君; 孙应实; 朱海涛; 秦源泽; 张晓燕; 卢巧媛; 李清扬
Original assignee: Beijing Cancer Hospital
Current assignee: Beijing Cancer Hospital
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2022-12-02
Anticipated expiration: 2042-09-06
Also published as: CN115170564A

Abstract

本发明涉及一种结直肠癌放化疗反应自动预测系统。该系统包括：图像获取模块，用于采集结直肠癌放化疗相关的医学图像；预处理模块，用于对图像获取模块采集的图像进行预处理；图像分类模块，用于将预处理后的图像使用一级级联网络进行图像分类，得到的分类结果为3类，包括非肿瘤图像、PCR图像、非PCR图像；语义分割模块，用于对分类得到的非PCR图像使用二级级联网络进行语义分割，以提取肿瘤区域；预测模块，用于对提取出的肿瘤区域使用三级级联网络分别进行T分期预测以及TRG分期预测，得到基于T的分期预测结果以及基于TRG的分期预测结果。本发明能够对放化疗反应进行有效预测，对结直肠癌患者后期治疗方案的决策具有重要意义。

Description

一种结直肠癌放化疗反应自动预测系统

技术领域

本发明属于信息技术、医疗技术领域，具体涉及一种基于级联Transformer网络的结直肠癌放化疗反应自动预测系统。

背景技术

对于局部进展期直肠癌（LARC）患者，新辅助放化疗（nCRT）加全直肠系膜切除手术(TME)已经成为标准治疗方法。大量临床实验证实，在进行新辅助放化疗（nCRT）后，约70%患者的肿瘤会出现降期或退缩，约20%患者能达到病理完全缓解（PCR）。因此，对放化疗反应进行有效预测，对结直肠癌患者后期治疗方案的决策具有重要意义。

目前，常规的放化疗反应预测方法主要基于影像组学的方法，通过提取影像特征指标，结合支持向量机、贝叶斯网络、决策树、随机森林等机器学习算法，构建预测模型。该流程存在以下几点问题：（1）组学指标的确定与筛选依赖医生的临床经验，或者医生加特征提取软件的配合。（2）建模过程中图像特征信息丢失信息过多，导致一般ROC曲线的AUC值无法达到很高。（3）现有的预测方法实际上是半自动化过程，耗费时间长。（4）对于接近病理完全缓解（PCR）的患者，医生描述病灶区域存在困难。

发明内容

本发明针对上述问题，提供一种基于级联Transformer网络的结直肠癌放化疗反应自动预测系统。

本发明采用的技术方案如下：

一种结直肠癌放化疗反应自动预测系统，其包括：

图像获取模块，用于采集结直肠癌放化疗相关的医学图像；

预处理模块，用于对图像获取模块采集的图像进行预处理；

图像分类模块，用于将预处理后的图像使用一级级联网络进行图像分类，得到的分类结果为3类，包括非肿瘤图像、PCR图像、非PCR图像；

语义分割模块，用于对分类得到的非PCR图像使用二级级联网络进行语义分割，以提取肿瘤区域；

预测模块，用于对提取出的肿瘤区域使用三级级联网络分别进行T分期预测以及TRG分期预测，得到基于T的分期预测结果以及基于TRG的分期预测结果。

进一步地，所述采集结直肠癌放化疗相关的医学图像，包括：

采集局部进展期直肠癌患者在接受新辅助放化疗nCRT前一周的T2-MRI图像；

采集局部进展期直肠癌患者在接受新全直肠系膜切除手术TME前一周的T2-MRI图像。

进一步地，所述一级级联网络、所述二级级联网络、所述三级级联网络采用SwinTransformer网络实现，分别称为Swin Transformer一级级联网络、Swin Transformer二级级联网络、Swin Transformer三级级联网络；所述Swin Transformer二级级联网络为SwinTransformer Unet网络；所述Swin Transformer三级级联网络包括T分期预测网络和TRG分期预测网络。

进一步地，所述Swin Transformer一级级联网络的处理过程包括：

获得预处理好的待分类图像，将其构建好训练集输入到所述Swin Transformer一级级联网络中；

对输入的图像进行分块处理，每一块称之为patch，然后进行patch embedding（分块嵌入）处理；

将图像输入三阶段的Swin Transformer block，其中：阶段一包括2个SwinTransformer block和1个patch merging（分块合并模块），2个Swin Transformer block进行连接，其中一个是基于窗口自注意力机制，另一个是基于滑动窗口自注意力机制；阶段二包括6个Swin Transformer block和1个patch merging，6个Swin Transformer block 分为3组，每组中一个是基于窗口自注意力机制，另一个是基于滑动窗口自注意力机制；阶段三与阶段一结构相似，包括2个Swin Transformer block和1个patch merging；

采用适应池化层对阶段三的输出进行池化操作；

采用线性分类层对池化操作后的所有特征进行分类，分为3类，包括非肿瘤图像、PCR图像、非PCR图像。

进一步地，所述Swin Transformer Unet由三部分组成，分别为左边的编码器，下面的瓶颈层即2个Swin Transformer block，以及右边的解码器；在解码器中使用patchexpanding（分块扩展）进行特征图的扩充，以和编码器中的特征图进行对齐，然后与编码器进行跳跃连接；通过跳跃连接将编码器中的浅层信息与解码器中的特征进行融合以减少信息丢失。

进一步地，所述T分期预测网络对图像进行T分期操作，预测的结果为4分类，分别为I、II、III、IV期；所述TRG分期预测网络对图像进行TRG分期操作，预测的结果为3分类，分别为TRG1、TRG2、TRG3；

T分期预测的损失函数为：

其中，

为二级级联网络的损失函数值，

为三级级联网络中T分期的损失函数值，λ ₂、λ ₃为权重系数；

TRG分期预测的损失函数为：

其中，

为二级级联网络的损失函数值，

为三级级联网络中TRG分期的损失函数值，

、

为权重系数，其中

与T分期预测的损失函数中的

是同一个超参数。

进一步地，所述一级级联网络不与所述二级级联网络、所述三级级联网络一起进行训练，而是单独训练；所述二级级联网络与所述三级级联网络一起进行训练，共同决定最终的损失函数，同时进行反向传播与梯度更新。

本发明的有益效果如下：

1.本发明能够实现结直肠癌放化疗反应的量化指标预测及评估，减少人工介入程度,极大地提升了预测及评估。

2. 采用分类-分割-分类一体化结构设计，能够解决自动分类、自动分割和自动预测多类问题，极大地节约人工时间。

3. 涵盖多种临床预测指标，能够更好地辅助医生全面、细致地评估患者的治疗反应情况。

4. 模型采用注意力机制的级联设计, 并在中间分割模型结合U-Net网络的结构优点，能够更好地提取图像的多级特征。

5. 设计适用于不同阶段的损失函数，有利于模型更好地学习。

附图说明

图1是本发明的基于级联Transformer网络的结直肠癌放化疗反应自动预测系统的模块组成图。

图2是本发明的基于级联Transformer网络的结直肠癌放化疗反应自动预测系统的工作流程图。

图3是Swin Transformer 1网络的结构图。

图4是Swin Transformer block的处理流程图。

图5是Swin Transformer Unet网络的结构图。

图6是Swin Transformer 2网络的结构图。

图7是Swin Transformer 3网络的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明提出一种基于级联Transformer网络的结直肠癌放化疗反应自动预测系统。该系统首先进行分类，对PCR、非PCR、非肿瘤区域（3分类）进行分类；进而对非PCR患者的MRI图像进行自动分割；在分割病灶信息的基础上，实现T分期（4分类）、TRG指标（3分类）的分类预测。

如图1所示，该基于级联Transformer网络的结直肠癌放化疗反应自动预测系统包括：

图像获取模块，用于采集结直肠癌放化疗相关的医学图像；

预处理模块，用于对图像获取模块采集的图像进行预处理；

图2是本发明的基于级联Transformer网络的结直肠癌放化疗反应自动预测系统整体工作流程图，具体包括：

1.图像获取模块采集局部进展期直肠癌（LARC）患者在接受新辅助放化疗（nCRT）前一周的T2-MRI图像（即基于T2加权的磁共振成像），采集局部进展期直肠癌（LARC）患者在接受新全直肠系膜切除手术(TME)前一周的T2-MRI图像。

2.预处理模块对获取的图像进行预处理，包括图像的降噪、归一化等。

3.图像分类模块将预处理好的图像输入到Swin Transformer一级级联网络（SwinTransformer 1）中进行图像的的分类，得到的分类结果为3类，包括非肿瘤图像、PCR图像、非PCR图像。

4.语义分割模块对上述判断为非PCR图像的图像，使用Swin Transformer二级级联网络（Swin Transformer Unet）进行语义分割，提取肿瘤区域。

5.预测模块对上述提取出的肿瘤区域使用Swin Transformer三级级联网络（包括T分期预测网络和TRG分期预测网络，分别称为Swin Transformer 2和Swin Transformer3）分别进行T分期预测以及TRG分期预测，最终得到基于T的分期预测以及基于TRG的分期预测两种预测结果。其中T分期是指肿瘤原发灶的情况分期，TRG分期是指肿瘤退缩分级(Tumor Regression Grading)。

图3是用于疾病预测的Swin Transformer 1网络的结构图。针对疾病预测，将预处理好的图像输入到搭建的Swin Transformer 1网络当中，Swin Transformer 1网络的骨架结构由3段Swin Transformer block组成。对Swin Transformer 1网络具体说明如下：

1. 待分类图像：预处理好的图像大小为(H,W,3)，其中，H代表图像的高度，W代表图像的宽度，3代表图像的通道数，将预处理好的图像构建好训练集输入到SwinTransformer 1网络中。

2. 分块嵌入（patch embedding）：对输入的图像进行分块处理，每一块称之为patch，然后对每一个patch展开成一个向量。设分块的区域大小为(P,P)，其中P表示分块的大小，即长和宽，则一共有

个patch。然后对所有的二维矩阵patch展开成一维向量，最终每个patch表示为

的向量。此时，图像可以表示为(

,

)，然后将图像经过一层线性变换层，将通道数映射为C，得到最终的patch embedding，此时图像表示为 (

,

)。

3. Swin Transformer阶段一由2个Swin Transformer block（即SwinTransformer模块）和一个patch merging（分块合并）模块组成。Swin Transformer block用于进行特征提取。因为Swin Transformer block不会改变对输入张量的改变，但对于patch merging，对整张特征图进行下采样，这里选择的是

的窗口大小，先将特征图的高度和宽度各减小一半，但是通道数变成了原来的4倍，然后通道数经过线性变换缩小一半。因此，一阶段输入的特征图

，其输出就变为了

。

图4是Swin Transformer block的处理流程图。针对Swin Transformer block，是由两个连续的transformer进行连接，其中一个是基于窗口自注意力机制(W-MSA)，另一个是基于滑动窗口自注意力机制(SW-MSA)。图4中，B代表批量训练中每一个batch（批）所含样本的数量，N代表每个阶段特征图的

（也就是特征图高度与宽度的乘积），E代表每个patch的特征维度。Swin Transformer block的处理流程包括：

首先进行层归一化（layer normalization），然后输入到窗口自注意力机制（W-MSA）当中，该操作并不改变输入特征的维度大小，然后与原始输入进行残差连接，然后再经过层归一化（layer normalization），然后输入到多层感知机（MLP）中进行全连接层特征映射，并设置dropout随机失活。

图4中右侧操作与左侧操作类似，但是将窗口自注意力机制(W-MSA)替换成了滑动窗口自注意力机制(SW-MSA)。特别的，窗口自注意力机制(W-MSA)与滑动窗口自注意力机制(SW-MSA)均与vision transformer 中的传统transformer类似，均使用多头注意力机制。与传统transformer不同的是，窗口自注意力机制(W-MSA)不在整张特征图中计算注意力，而限制在每个窗口内计算注意力。最后将每个窗口内的注意力向量拼接起来得到整张特征图的注意力向量。

与窗口自注意力机制(W-MSA)不同个是，滑动窗口自注意力机制(SW-MSA)将图像特征进行了像素位移（本实施例中使用的是2个像素位移），然后在位移后的图像上进行窗口自注意力机制(W-MSA)的计算。

上述公式表示的是2个Swin Transformer block中的具体实现，包含1个基于窗口自注意力机制的Swin Transformer block和1个基于滑动窗口自注意力机制的SwinTransformer block。其中，

是本层Swin Transformer block的输入，

是线性映射层操作，

是窗口自注意力操作，

是多层感知机操作，

是滑动窗口自注意力操作。经过上述操作，经过2个Swin Transformer block的输出为。

特别的，Swin Transformer block不改变特征图像的输入大小，即输入大小等于输出大小。

4. Swin Transformer阶段二是由6个Swin Transformer block组成，与上述阶段一类似，这里是由3组窗口自注意力机制(W-MSA)+滑动窗口自注意力机制(SW-MSA)构成，然后经过patch merging之后，输入的维度从

变成了

。

5.Swin Transformer阶段三与阶段一结构相似，也是由两个连续的SwinTransformer block组成，输入的维度从

变成了

。

6.自适应池化层是对阶段三的输出进行池化操作，将阶段三的输出维度从

下采样为

。

7. 线性分类层对上述所有的特征进行分类，最终分类为3种类别，分别为PCR、非PCR、非肿瘤三类。

8. 对上述分类结果与实际标签计算Swin Transformer的损失函数值

，即一级级联网络的损失函数：

其中，

代表第i个样本中的第j类标签真实值（本实施例中取1），

代表第i个样本最终经过softmax函数的预测结果为第j类的概率值，n表示样本的个数。

将一级级联网络即Swin Transformer 1网络分类得到的非PCR图像作为待分割图像输入到Swin Transformer unet当中进行语义分割，分割得到肿瘤区域。

图5是对非PCR图像进行语义分割的Swin Transformer unet级联网络的结构图。Swin Transformer unet大致由三部分组成，分别为左边的编码器（encoder）提取图像特征信息，下面的瓶颈层由2个Swin Transformer block组成，以及右边的解码器（decoder）将提取到的特征进行恢复并显示在图像当中。左边的编码器部分和一级级联操作一样，将Swin Transformer block + patch merging作为特征提取器得到提取到的特征图。Swintransformer block用于进行特征提取（每次都是由两个连续的Swin Transformer block组成，分别包含窗口自注意力机制(W-MSA)+ 滑动窗口自注意力机制(SW-MSA)），patchmerging用于进行下采样，对特征图的高度和宽度分别缩小一半，通道数增加一倍。

因为网络结构比较深，为避免在解码器中丢失编码器的浅层信息，特别是为了尽可能保留浅层中的边缘特征，所以这里使用了跳跃连接，将编码器中的浅层信息与解码器中特征进行融合，从而减少信息的丢失

解码器是为了对编码器提取的特征进行恢复，从而在最终与原图像同等形状下进行标记。因此，这里在解码器中需要对特征图进行扩充，因此使用了分块扩展（patchexpanding），其主要作用是进行特征图的扩充，本实施例使用双线性插值的方式对特征图进行上采样。分块扩展是先对长宽扩充为输入的两倍，使其输出能够和编码器中的特征图进行对齐，然后与之进行跳跃连接。

最后，通过分块映射（patch projection）将图像映射为掩膜（mask）图像特征。输出图中每个像素点均为二分类，即属于肿瘤区域与非肿瘤区域，所以最终的形成

的mask图像。

特征图中的每个像素点与标记图像计算损失值如下：

其中，L _dice是一种基于dice系数（计算集合相似度的系数）的损失，是基于IOU计算预测mask（记为

）与标签mask（记为Y）之间的相似度。L _bce即二分类任务交叉熵损失函数，计算输出mask中每个像素点与标签mask之间的交叉熵。

_ij为该像素点的标签，

_ij为该像素点的预测结果，h为标签mask（ground true）的高度，w为标签mask（ground true）的宽度，i、j为输出mask中的坐标点。L _dice与L _bce共同构成了Swin Transformer unet的损失值L ₂。

图6是T分期预测的Swin Transformer 2网络的结构图。对上述Swin Transformerunet输出的mask图像进行T分期。该步骤中整体骨架与Swin Transformer 1类似。不同的是该步骤的输入图像为

的mask图像。此外，该步骤是对图像进行T分期操作，预测的结果为4分类，分别为I、II、III、IV期。此步骤中的损失函数为：

其中，

代表第i个样本中的第j类标签真实值（本实施例中取1），

代表第i个样本最终经过softmax函数的预测结果为第j类的概率值，n表示样本数。

图7是TRG预测的Swin Transformer 3网络的结构图。同理，对上述SwinTransformer unet输出的mask图像进行TRG分期。该级联中整体骨架与Swin Transformer1类似。不同的是该步骤的输入图像为

的mask图像。此外，该步骤是对图像进行TRG分期操作，预测的结果为3分类，分别为 TRG1、TRG2、TRG3。此步骤中的损失函数为：

其中，

代表第i个样本中的第j类标签真实值（本实施例中取1），

最终，对于级联transformer的网络损失函数如下：

1）对于T分期预测的损失函数为：

其中，

为Swin Transformer二级级联网络Swin Transformer unet的损失函数值，

为Swin Transformer三级级联网络Swin Transformer 2中T分期的损失函数值，

、

为权重系数，这里调节

和

的占比比例，从而调节Swin Transformer unet损失函数与Swin Transformer 2中T分期损失函数的比例，这里是两个可调节的超参数。

2）TRG分期预测的损失函数为：

其中，

为二级级联网络Swin Transformer unet的损失函数值，

为SwinTransformer三级级联网络Swin Transformer 3中TRG的损失函数值，

、

为权重系数，这里调节

和

的占比比例，从而调节Swin Transformer unet损失函数与SwinTransformer三级级联网络Swin Transformer 3中TRG分期损失函数的比例，这里是两个可调节的超参数。这里的

与上面T分期预测的损失函数中的

是同一个超参数。

需要注意的是，在本发明中，一级级联网络Swin Transformer 1并不与后面的级联网络一起训练，即其并不接收从二级、三级级联网络的反向传播，该级联网络自身单独训练。而二级级联网络Swin Transformer unet与三级级联网络Swin Transformer 2、SwinTransformer 3进行一起训练，共同决定最终的损失函数，同时进行反向传播与梯度更新。

基于同一发明构思，本发明的另一实施例提供一种电子装置（计算机、服务器、智能手机等），其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括5个软件模块，即前文所述的图像获取模块、预处理模块、图像分类模块、语义分割模块、预测模块，每个软件模块包括用于实现该软件模块的具体操作步骤、具体功能的指令。各软件模块的具体操作步骤、具体功能见前文对各模块的具体工作流程的说明。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质（如ROM/RAM、磁盘、光盘），所述计算机可读存储介质存储计算机程序，所述计算机程序包括5个软件模块，即前文所述的图像获取模块、预处理模块、图像分类模块、语义分割模块、预测模块，每个软件模块包括用于实现该软件模块的具体操作步骤、具体功能的指令。各软件模块的具体操作步骤、具体功能见前文对各模块的具体工作流程的说明。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种结直肠癌放化疗反应自动预测系统，其特征在于，包括：

图像获取模块，用于采集结直肠癌放化疗相关的医学图像；

预处理模块，用于对图像获取模块采集的图像进行预处理；

预测模块，用于对提取出的肿瘤区域使用三级级联网络分别进行T分期预测以及TRG分期预测，得到基于T的分期预测结果以及基于TRG的分期预测结果；

所述一级级联网络、所述二级级联网络、所述三级级联网络采用Swin Transformer网络实现，分别称为Swin Transformer一级级联网络、Swin Transformer二级级联网络、SwinTransformer三级级联网络；所述Swin Transformer二级级联网络为Swin TransformerUnet网络；所述Swin Transformer三级级联网络包括T分期预测网络和TRG分期预测网络；

所述Swin Transformer一级级联网络的处理过程包括：

对输入的图像进行分块处理，然后进行分块嵌入处理；

将图像输入三阶段的Swin Transformer block，其中：阶段一包括2个SwinTransformer block和1个分块合并模块，2个Swin Transformer block进行连接，其中一个是基于窗口自注意力机制，另一个是基于滑动窗口自注意力机制；阶段二包括6个SwinTransformer block和1个分块合并模块，6个Swin Transformer block分为3组，每组中一个是基于窗口自注意力机制，另一个是基于滑动窗口自注意力机制；阶段三与阶段一结构相似，包括2个Swin Transformer block和1个分块合并模块；

采用适应池化层对阶段三的输出进行池化操作；

采用线性分类层对池化操作后的所有特征进行分类，分为3类，包括非肿瘤图像、PCR图像、非PCR图像；

所述Swin Transformer Unet由三部分组成，分别为左边的编码器，下面的瓶颈层即2个Swin Transformer block，以及右边的解码器；在解码器中使用分块扩展进行特征图的扩充，以和编码器中的特征图进行对齐，然后与编码器进行跳跃连接；通过跳跃连接将编码器中的浅层信息与解码器中的特征进行融合以减少信息丢失；所述Swin TransformerUnet通过分块映射将图像映射为掩膜图像特征，输出图中每个像素点均为二分类，即属于肿瘤区域与非肿瘤区域；

所述T分期预测网络对图像进行T分期操作，预测的结果为4分类，分别为I、II、III、IV期；所述TRG分期预测网络对图像进行TRG分期操作，预测的结果为3分类，分别为TRG1、TRG2、TRG3；

T分期预测的损失函数为：

L_T＝λ₂L₂+λ₃L₃

其中，L₂为二级级联网络的损失函数值，L₃为三级级联网络中T分期的损失函数值，λ₂、λ₃为权重系数；

TRG分期预测的损失函数为：

L_TRG＝λ₂L₂+λ₄L₄

其中，L₂为二级级联网络的损失函数值，L₄为三级级联网络中TRG分期的损失函数值，λ₂、λ₄为权重系数，其中λ₂与T分期预测的损失函数中的λ₂是同一个超参数。

2.根据权利要求1所述的系统，其特征在于，所述采集结直肠癌放化疗相关的医学图像，包括：

3.根据权利要求1所述的系统，其特征在于，所述一级级联网络不与所述二级级联网络、所述三级级联网络一起进行训练，而是单独训练；所述二级级联网络与所述三级级联网络一起进行训练，共同决定最终的损失函数，同时进行反向传播与梯度更新。

4.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于实现权利要求1～3中任一项所述系统的图像获取模块、预处理模块、图像分类模块、语义分割模块、预测模块的功能的指令。

5.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序包括实现权利要求1～3中任一项所述系统的图像获取模块、预处理模块、图像分类模块、语义分割模块、预测模块的功能的指令。