CN117275681B

CN117275681B - 基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置

Info

Publication number: CN117275681B
Application number: CN202311567971.XA
Authority: CN
Inventors: 白玉洁; 冯秀芳; 董云云; 赵子安; 范晓乐; 杨炳乾; 张源榕; 常云青
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-02-09
Anticipated expiration: 2043-11-23
Also published as: CN117275681A

Abstract

本发明提供一种基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置，属于蜂窝肺病程周期检测评估技术领域；所要解决的技术问题为：提供一种基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置；解决该技术问题采用的技术方案为：获取蜂窝肺CT图像数据，进行数据预处理，搭建视觉转换器网络模型，包括输入嵌入层、多头注意力机制、多层感知机制层、池化层、全连接层，设置视觉转换器超参数，使用交叉熵损失函数定义损失函数；基于自适应矩估计优化器的自适应学习率算法，根据梯度的一阶矩估计和二阶矩估计自适应地调整学习率；本发明应用于蜂窝肺病程周期检测。

Description

基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置

技术领域

本发明提供一种基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置，属于蜂窝肺病程周期检测评估技术领域。

背景技术

蜂窝状肺是特发性肺纤维化(IPF)的主要组织病理学特征，是多种晚期肺部疾病形成的蜂窝状肺改变，据统计，蜂窝肺的年发病率为每十万人6.8-16.3，患者初诊后，从诊断到死亡的中位生存期为2-4年，预后不佳，患者的死亡率高，且绝大多数患者早期症状不明显，漏诊和延误诊断现象普遍，超过50%的患者首诊时被误诊为慢阻肺、哮喘和充血性心力衰竭或其他肺病，耽误了宝贵的早期诊治时间；且由于在IPF病情发展过程中，不同患者疾病进展情况有很大差异，目前需要医生对大量CT图像数据进行人工采样和分析，并根据经验判断该病例的病程周期，检测分析工作量大，且存在检测错误的可能，已不能满足目前蜂窝状肺病程的检测评估需求。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：提供一种基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置。

为了解决上述技术问题，本发明采用的技术方案为：基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法，包括如下的检测评估步骤：

步骤S1：获取蜂窝肺CT图像数据，进行数据预处理，将蜂窝肺CT图像缩放为512*512像素尺寸作为数据集，将数据集整理为有标注数据与无标注数据，并将其划分为训练集、验证集、测试集，并对蜂窝肺CT图像数据进行标注，将每个CT图像的类别信息转换为类别标签；

步骤S2：搭建视觉转换器网络模型，包括输入嵌入层、多头注意力机制层、多层感知机制层、池化层、全连接层；

步骤S3：设置视觉转换器网络模型的超参数：设置图像块大小和输入图像的通道数，将每个图像块编码为向量的维度，设置多头注意力机制头数，设置多层感知机制中的隐藏层；

步骤S4：使用交叉熵函数定义损失函数；

步骤S5：基于自适应矩估计优化器的自适应学习率算法，根据梯度的一阶矩估计和二阶矩估计自适应地调整学习率；

步骤S6：通过视觉转换器分支获取到的蜂窝肺CT图像的全局特征，用于与残差神经网络获取的局部特征双向融合；

步骤S7：将蜂窝肺CT图像输入卷积神经网络分支模块，来提取蜂窝肺的局部特征，搭建残差神经网络-50网络模型；

步骤S8：将经过卷积操作输出的蜂窝肺特征与视觉转换器支路提取到的全局特征进行双向融合；

步骤S9：在视觉转换器分支和残差神经网络分支之间建立双向特征融合结构，融合两个分支的特征；

步骤S10：将两个分支提取的分类向量进行融合后计算损失，并进行逆梯度计算，调整模型参数；

步骤S11：输出检测评估的类别标签，定义标签显示0表示正常肺，1表示轻度蜂窝肺，2表示中度蜂窝肺，3表示重度蜂窝肺。

所述步骤2中搭建视觉转换器网络模型的具体方法为：

步骤S21：输入嵌入层：把输入的裁剪好的蜂窝肺CT图像切分成32块，设置为图像块0~图像块32，将输入图像块展开成向量，并对每个向量进行线性变换和位置编码，得到嵌入向量序列；

步骤S22：搭建多头注意力机制层：将由蜂窝肺CT图像转换的嵌入向量序列划分为多个头，多头注意力机制层包括多层自注意力机制、残差连接、层归一化操作，其中自注意力机制的计算公式为：

；

其中，d是输入序列的维度或特征向量的长度；

Q是查询矩阵，维度为N×d，用于计算注意力权重；

K是键矩阵，维度为N×d，用于计算注意力权重；

V是值矩阵，其维度为N×d，用于计算注意力加权和；

W_q是查询矩阵的权重矩阵，其维度为d×d；

W_k是键矩阵的权重矩阵，其维度为d×d；

W_v是值矩阵的权重矩阵，其维度为d×d；

softmax(·)是softmax函数，将注意力权重进行归一化，使其总和为1；

Attention(·, ·, ·)是自注意力计算函数，输入为查询、键和值矩阵，输出为注意力加权和；

并将输入的蜂窝肺CT图像转换成序列：；

其中，表示序列中的第i个元素，d表示输入向量的维度；

步骤S23：搭建多层感知机制层：对多头注意力机制得到的向量进行多层感知机操作，对输入的向量进行线性变换操作，包括一个全连接层和一个激活函数ReLU，在线性变换操作后添加残差连接，将输入的向量加上线性变换后得到的向量，得到新的向量，然后在残差连接后添加批归一化操作；

步骤S24：搭建池化层：将多层感知机制层得到的向量进行均值池化，得到整个图像的特征表示；

步骤S25：搭建全连接层：对池化得到的特征表示进行全连接层操作，得到最终的分类结果。

所述步骤S22中自注意力机制具体的计算方法为：

步骤S221：对于输入序列中的每个元素x _i，通过一个线性变换转换为 Query、Key和 Value 向量，即：

q _i=W _q x _i，k _i=W _k x _i，v _i =W _v x _i；

其中：分别是Query、Key和Value的线性变换矩阵；

步骤S222：对于每个位置i，计算与其他所有位置之间的相似度，用于计算注意力权重，采用点积的方式计算相似度，计算公式为：

；

其中，a _i,j表示位置i与位置j之间的注意力权重，q _i和k _j分别表示位置i和位置j的Query和Key向量，·表示点积运算；参数l表示自注意力机制中的一个索引，用于表示键矩阵K中的一个特定列向量；

步骤S223：基于步骤S222计算得到的注意力权重，对每个位置i的Value向量进行加权求和，得到自注意力机制的输出向量：

；

其中，y _i表示位置i的输出向量，v _j表示位置j的Value向量，j=1和n表示自注意力机制中Value向量的索引范围。

所述步骤S4中定义损失函数的具体方法为：

步骤S41：定义用于分类任务的交叉熵损失函数，表达式为：

；

其中，N表示样本数，C表示分类数，y _i,j表示第i个样本的第j个类别的真实标签，表示第i个样本的第j个类别的预测结果；

步骤S42：将预处理后的医学影像数据输入到视觉转换器模型中进行前向传播，得到模型的预测结果；

步骤S43：将模型的预测结果和真实标签输入到交叉熵损失函数中，计算模型的损失函数值；

步骤S44：将损失函数值反向传播回视觉转换器模型中，计算梯度并更新模型的参数，以最小化损失函数；

步骤S45：重复上述步骤S42至S44，直到模型的损失函数收敛或达到预定的训练轮数。

所述步骤S5中采用自适应矩估计优化器调整学习率的具体方法为：

步骤S51：初始化模型的参数，使用自适应矩估计优化器对模型参数进行更新，设置学习率为0.001，权重衰减为0.0001；

步骤S52：对于每个训练样本，计算模型在当前参数下的梯度；

步骤S53：计算梯度的一阶矩估计，即梯度的平均值，用于表示梯度的方向：

自适应矩估计优化器使用指数移动平均数来计算梯度的一阶矩估计m，计算公式为：

；

其中，m _t表示第t个时间步的一阶矩估计，β1是一个指数衰减率，通常取0.9或0.999；

步骤S54：计算梯度的二阶矩估计，即梯度的平方的平均值，用于表示梯度的大小：

自适应矩估计优化器使用指数移动平均数来计算梯度的二阶矩估计v，计算公式为：

；

其中，v _t表示第t个时间步的二阶矩估计，β2也是一个指数衰减率，通常取0.999；

步骤S55：根据一阶矩估计和二阶矩估计自适应地调整学习率，根据梯度的一阶矩估计和二阶矩估计来更新模型的参数θ，更新的计算公式为：

；

其中，α是学习率，ε是常数，防止分母为0；

步骤S56：根据调整后的学习率和梯度更新模型的参数，以最小化损失函数；

步骤S57：重复上述步骤S52至S56，直到模型的损失函数收敛或达到预定的训练轮数。

所述步骤S7中搭建残差神经网络-50分支模块的具体方法为：

步骤S71：搭建输入层：输入层接收图像数据，并传递给第一个卷积层；

步骤S72：搭建卷积层：残差神经网络-50包含多个卷积层，每个卷积层包括卷积操作、激活函数操作、批量归一化操作；

步骤S73：搭建残差块：残差神经网络-50包括多个残差块，每个残差块由多个卷积层和一个残差连接组成；

每个残差块包括一个主路径和一个残差路径；

每个阶段包含多个残差块：

阶段1：包含一个卷积层和3个残差块；

阶段2：包含一个卷积层和4个残差块；

阶段3：包含一个卷积层和6个残差块；

阶段4：包含一个卷积层和3个残差块；

阶段5：包含一个全局平均池化层和一个全连接层；

经过多个残差块的处理后，得到蜂窝肺CT图像数据的特征表示；

步骤S74：搭建池化层：残差神经网络-50包含多个池化层，用于对卷积层的输出进行降维和采样；

步骤S75：搭建全连接层：残差神经网络-50包含一个全连接层，用于对池化层的输出进行分类，输出图像所属的类别。

所述步骤S9中建立双向特征融合结构的具体方法为：

步骤S91：针对双向特征融合分别为残差神经网络→视觉转换器和视觉转换器→残差神经网络；

步骤S92：设X为视觉转换器分支提取到的特征，设Y为残差神经网络分支提取到的特征；

步骤S93：残差神经网络→视觉转换器融合时，将Y中的W_k与X做相似度计算，即点乘运算，运算后使用softmax将权重值控制在（0，1）之间，用算出的权重值与W_v点乘运算，得出的值和X连接运算，即融合完成；

步骤S94：视觉转换器→残差神经网络融合时，将X与Y提取的W_q点乘做相似度计算，使softmax得到权重值，将权重值与X做乘积得到的值经过W_o得到规格相同的值与Y相加连接，即融合完成；其中W_o是一个参数矩阵，用于将融合后的值与Y进行线性变换。

所述步骤S93和步骤S94中融合过程的具体计算方法为：

残差神经网络以图像为输入，提取局部特征；

其中，H是图像的高度，表示图像在垂直方向上的像素数，W是图像的宽度，表示图像在水平方向上的像素数，3是图像的通道数，表示图像的颜色通道数；

基于注意力机制的神经网络模型以可学习参数为输入，表示为，其中d为输入向量的维数，M为输入向量的个数；

为了与残差神经网络融合，选择d和M与目标融合层具有相同的维度，对输入的原始图像进行卷积得到初始的Y ₀，Y ₀表示经过卷积操作得到的初始特征表示矩阵。

实现基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法所使用的装置，包括用于获取、整理、标注蜂窝肺CT图像数据的采集计算机；

用于搭建设置视觉转换器网络模型和残差神经网络模型的评估服务器；

所述评估服务器内部设置有：

用于搭建残差神经网络-50网络模型的卷积神经网络分支模块；

用于在视觉转换器分支和残差神经网络分支之间建立双向特征融合结构的融合计算模块；

用于计算调整并输出检测评估结果的输出模块。

本发明相对于现有技术具备的有益效果为：本发明采用的蜂窝肺病程周期检测评估方法将视觉转换器ViT和残差神经网络ResNet并行且进行双分支结合，可以在蜂窝肺CT分类处理任务中利用各自的优势更好地进行特征表示、提高计算效率、增强模型可解释性并提高泛化能力，视觉转换器使用自注意力机制进行特征提取，可以捕捉全局特征，残差神经网络使用残差连接和卷积神经网络进行特征提取，可以捕捉局部特征，从而提高蜂窝肺CT分类模型的特征表示；与此同时视觉转换器的计算复杂度较高，而残差神经网络的计算复杂度较低；本发明将视觉转换器和残差神经网络结合可以在保证蜂窝肺CT分类模型性能的同时，降低模型的计算复杂度，提高模型计算效率，从而提高蜂窝肺CT模型性能。

附图说明

下面结合附图对本发明做进一步说明：

图1是本发明的评估步骤流程图；

图2是本发明实施例采用预测评估模型的结构示意图；

图3是本发明实施例采用双向特征融合的结构示意图。

具体实施方式

如图1所示，本发明提供一种基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法及装置，采用的Transformer是一种基于注意力机制的神经网络模型，用于处理序列数据，主要根据蜂窝肺CT图像的医学特征，充分利用卷积神经网络的局部特征提取能力和Transformer的全局特征提取优势，采用一种双向特征融合的双向桥模型，即视觉转换器-残差神经网络Res-VIT Net，将残差神经网络ResNet和视觉转换器ViT同步并行提取到的蜂窝肺特征根据交叉融合原理进行双向融合，其中ViT即VisionTransformer是一种基于Transformer架构的深度学习模型，用于处理计算机视觉任务。

具体的，本发明为了减轻医生的负担，提高诊断的准确率，利用计算机辅助技术、利用机器学习和深度学习算法，将提取的特征输入到分类模型中进行训练和测试，分类模型可以根据已标记的CT图像数据进行训练，以区分正常肺部和蜂窝肺病变，通过将未知图像输入已训练好的模型，可以自动对蜂窝征进行分类，并给出诊断结果；其实现原理在于，针对蜂窝肺病变常分布于中下肺野，形成直径约1cm左右的囊泡，逐个排列，宛如蜂窝或蜂巢样的外观，蜂窝肺的CT图像本身结构稳定，关注区域固定，容易形成信息、感知冗余，卷积神经网络关注局部性，Transform的注意力机制能更好的处理肺部信息。

本发明具体方法包括以下步骤：

步骤S1：获取蜂窝肺CT图像数据，进行数据预处理，将蜂窝肺CT图像缩放为512*512尺寸，将数据集整理为有标注数据与无标注数据，并将其划分为训练集、验证集和测试集；

对蜂窝肺CT图像数据集进行标注，将每个CT图像的类别信息转换为类别标签。对于医学影像多分类任务，类别标签通常是整数值，用于表示不同的CT图像类别。将类别标签设置为：0表示正常肺，1表示轻度蜂窝肺，2表示中度窝肺，3表示重度蜂窝肺。

在训练过程中，模型将根据输入影像的类别标签来计算损失函数，并根据损失函数进行反向传播和模型参数更新。在模型预测阶段，类别标签将用于确定每个蜂窝肺CT图像的预测类别，从而对其进行分类。

需要注意的是，在设置类别标签时，应该根据实际应用场景和数据集特征进行选择，并避免出现类别不平衡的情况。此外，在数据集准备阶段还需要进行数据增强、划分训练集、验证集和测试集等操作，以提高模型的泛化能力和性能。

步骤S2：搭建视觉转换器网络模型，包括输入嵌入层、多头注意力机制层、多层感知机制层、池化层、全连接层；其中搭建视觉转换器分支的具体步骤细节及流程如下：

步骤S21：输入嵌入层：把输入的裁剪好的蜂窝肺CT图像切分成32块，设置为图像块0~图像块32，将输入图像块展开成向量，并对每个向量进行线性变换和位置编码，得到嵌入向量。

步骤S22：多头注意力机制层：将由蜂窝肺CT图像转换的嵌入向量序列划分为多个头，每个头独立地进行注意力计算，从而能够学习到不同的特征表示。在多头注意力机制中，对于每个头，视觉转换器都会计算出一个注意力矩阵，该矩阵反映了序列中每个元素与其他元素的关系，然后将所有头的注意力矩阵进行加权平均，得到最终的特征表示对嵌入向量进行多头注意力机制处理，以获取图像块之间的相互关系和权重。多头注意力机制层包括多层自注意力机制、残差连接和层归一化等操作。

具体地：

自注意力机制的计算公式如下：

；

其中，d是输入序列的维度或特征向量的长度；

Q是查询矩阵，维度为N×d，用于计算注意力权重；

K是键矩阵，维度为N×d，用于计算注意力权重；

V是值矩阵，其维度为N×d，用于计算注意力加权和；

W_q是查询矩阵的权重矩阵，其维度为d×d；

W_k是键矩阵的权重矩阵，其维度为d×d；

W_v是值矩阵的权重矩阵，其维度为d×d；

并将输入的蜂窝肺CT图像转换成序列：

；

其中，表示序列中的第i个元素，d表示输入向量的维度。

自注意力机制的计算可以分为以下几个步骤：

步骤S221：计算 Query、Key 和 Value：对于输入序列中的每个元素x _i，都可以通过一个线性变换将其转换为 Query、Key 和 Value 向量，即：

q _i=W _q x _i，k _i=W _k x _i，v _i =W _v x _i；

其中：分别是Query、Key和Value的线性变换矩阵。

步骤S222：计算注意力权重：对于每个位置i，可以计算它与其他所有位置之间的相似度，用于计算注意力权重。这里通常采用点积的方式计算相似度，即：

；

其中，a _i,j表示位置i与位置j之间的注意力权重，q _i和k _j分别表示位置i和位置j的Query和Key向量，·表示点积运算。

步骤S223：计算加权和：利用步骤 2 中计算出来的注意力权重，我们可以对每个位置i的Value向量进行加权求和，得到自注意力机制的输出向量：

；

其中，y _i表示位置i的输出向量，v _j表示位置j的Value向量。

总之，自注意力机制通过计算Query、Key和Value向量之间的相似度来建模序列中不同位置之间的关系，并将不同位置的信息融合起来，生成一个更全局的表示。

步骤S23：多层感知机制层：对多头注意力机制得到的向量进行多层感知机制（MLP）操作，以提高特征表示的能力。线性变换：对输入的向量进行线性变换，得到新的向量。线性变换操作包括一个全连接层和一个激活函数ReLU。在线性变换操作后添加残差连接，将输入的向量加上线性变换后得到的向量，得到新的向量。然后在残差连接后添加批归一化操作，避免蜂窝肺CT分类模型的过拟合和梯度消失问题。

步骤S24：池化层：将多层感知机制层得到的向量进行均值池化，得到整个图像的特征表示。

步骤S25：全连接层：对池化得到的特征表示进行全连接层操作，得到最终的分类结果。

步骤S3：设置视觉转换器超参数，具体步骤为：

patch_size=32（图像块大小为：32*32）

num_channels=1（输入图像的通道数，对于蜂窝肺CT图像属于灰度图像，num_channels为1）

embedding_dim = patch_size * patch_size * num_channels（嵌入维度指的是将每个图像块编码为向量的维度大小）

num_attention_heads=8（多头注意力机制头数为：8）

mlp_hidden_size=1024（应用于变换器编码器中补丁嵌入的多层感知机制（MLP）中隐藏层的大小）。

步骤S4：定义损失函数，使用交叉熵损失函数，具体步骤如下：

视觉转换器ViT（Vision Transformer）模型的损失函数通常是交叉熵损失函数，用于衡量分类任务中预测结果和真实标签之间的差异；具体流程如下：

步骤S41：定义交叉熵损失函数：交叉熵损失函数通常用于分类任务，其定义如下：

；

其中，N表示样本数，C表示分类数，y _i,j表示第i个样本的第j个类别的真实标签，表示第i个样本的第j个类别的预测结果。

步骤S42：前向传播：将预处理后的医学影像数据输入到视觉转换器模型中进行前向传播，得到模型的预测结果。

步骤S43：计算损失函数：将模型的预测结果和真实标签输入到交叉熵损失函数中，计算模型的损失函数值。

步骤S44：反向传播：将损失函数值反向传播回视觉转换器模型中，计算梯度并更新模型的参数，以最小化损失函数。

步骤S45：重复训练：重复进行上述步骤，直到模型的损失函数收敛或达到预定的训练轮数。

步骤S5：定义优化器：自适应矩估计优化器。

自适应矩估计（Adaptive Moment Estimation）优化器是一种常用的梯度下降优化算法，用于更新神经网络模型的参数。它是一种自适应学习率算法，可以根据梯度的一阶矩估计和二阶矩估计自适应地调整学习率，具体流程如下：

步骤S51：初始化参数：初始化模型的参数：权重、偏置等。使用自适应矩估计优化器对模型参数进行更新，设置学习率为0.001，权重衰减为0.0001。在每个训练轮次中，我们遍历训练集中的每个批次，通过向前传递计算损失函数，然后使用反向传播算法计算各个参数相对于损失函数的梯度，并使用优化器对模型参数进行更新。

自适应矩估计优化器是一种基于梯度的优化算法，可以根据梯度的一阶矩估计和二阶矩估计来调整学习率，从而提高训练速度和稳定性。具体来说，自适应矩估计优化器的计算过程如下：

步骤S52：计算梯度：对于每个训练样本，计算模型在当前参数下的梯度。对于模型的参数θ，首先需要计算其在当前批次上的梯度g，通常使用反向传播算法来计算。

步骤S53：计算一阶矩估计：计算梯度的一阶矩估计，即梯度的平均值，用于表示梯度的方向。自适应矩估计优化器使用指数移动平均数来计算梯度的一阶矩估计m，公式如下：

；

其中，m _t表示第t个时间步的一阶矩估计，β1是一个指数衰减率，通常取0.9或0.999。

步骤S54：计算二阶矩估计：计算梯度的二阶矩估计，即梯度的平方的平均值，用于表示梯度的大小。自适应矩估计优化器使用指数移动平均数来计算梯度的二阶矩估计v，公式如下：

；

其中，v _t表示第t个时间步的二阶矩估计，β2也是一个指数衰减率，通常取0.999。

步骤S55：更新学习率：根据一阶矩估计和二阶矩估计自适应地调整学习率，以避免梯度消失或梯度爆炸问题。更新模型参数：根据梯度的一阶矩估计和二阶矩估计来更新模型的参数θ，公式如下：

；

其中，α是学习率，ε是常数，防止分母为0。

步骤S56：更新参数：根据调整后的学习率和梯度更新模型的参数，以最小化损失函数。

步骤S57：重复训练：重复进行上述步骤，直到模型的损失函数收敛或达到预定的训练轮数。

步骤S6：通过视觉转换器分支获取到的蜂窝肺CT图像的全局特征用于与残差神经网络获取的局部特征双向融合。

步骤S7：将蜂窝肺CT图像输入卷积神经网络分支模块，来提取蜂窝肺的局部特征，搭建残差神经网络-50网络模型（包含多个残差块和一些卷积层、池化层和全连接层）。

残差神经网络-50分支模块具体步骤为：

步骤S71：输入层：输入层接收图像数据，并将其传递给第一个卷积层。

步骤S72：卷积层：残差神经网络-50包含多个卷积层，每个卷积层包括卷积操作、激活函数和批量归一化等操作。卷积操作用于提取图像的特征，激活函数用于激活神经元，批量归一化用于加速网络收敛和提高模型的鲁棒性。conv1通过7*7大卷积核、stride=2迅速降低分辨率。conv2通过3*3卷积核、带重叠的最大池化、stride=2。

步骤S73：残差块（Residual Block）：残差神经网络-50包括多个残差块，每个残差块由多个卷积层和一个残差连接组成。每个残差块包括一个主路径和一个残差路径。主路径包括多个卷积层，分别用于提取特征。残差路径包括一个恒等映射和一个卷积层，用于将主路径的输出和输入进行加权求和，实现残差连接。每个阶段包含多个残差块：阶段1：包含一个卷积层和3个残差块；阶段2：包含一个卷积层和4个残差块；阶段3：包含一个卷积层和6个残差块；阶段4：包含一个卷积层和3个残差块；阶段5：包含一个全局平均池化层和一个全连接层。

经过多个残差块的处理后，得到蜂窝肺CT图像数据的特征表示。

步骤S74：池化层：残差神经网络-50包含多个池化层，用于对卷积层的输出进行降维和采样，减少网络参数和计算量，提高蜂窝肺CT图像分类模型的鲁棒性。

步骤S75：全连接层：残差神经网络-50包含一个全连接层，用于对池化层的输出进行分类，输出图像所属的类别。

步骤S8：经过卷积操作输出的蜂窝肺特征需要与视觉转换器支路提取到的全局特征进行双向融合。

步骤S9：在两个分支之间建立双向特征融合结构，融合两个分支的特征。这里的特征融合是双向融合，可以提取更丰富、更全面的特征，提高分类精度。

双向特征融合结构的具体步骤为：

步骤S91：双向特征融合分别为残差神经网络→视觉转换器和视觉转换器→残差神经网络。

步骤S92：设X为视觉转换器分支提取到的特征，设Y为残差神经网络分支提取到的特征。

步骤S93：残差神经网络→视觉转换器融合时，将Y中的W_k与X做相似度计算，即点乘运算，运算后使用softmax将权重值控制在（0，1）之间，用算出的权重值与W_v点乘运算，得出的值和X连接运算，即融合完成。

步骤S94：视觉转换器→残差神经网络融合时，将X与Y提取的W_q点乘做相似度计算然后softmax得到权重值，将权重值与X做乘积得到的值经过W_o得到规格相同的值与Y相加连接，即融合完成。

步骤S93、步骤S94具体操作如下：

残差神经网络以图像为输入，提取局部特征。Transformer以可学习参数为输入，表示为/>，其中d为输入向量的维数，M为输入向量的个数。为了与残差神经网络融合，选择d和M与目标融合层具有相同的维度，对输入的原始图像进行卷积得到初始的Y ₀。

如图2左侧部分所示，它是残差神经网络→视觉转换器的单向结构，其中使用注意机制融合局部特征(来自残差神经网络)和全局特征(来自视觉转换器)。在通道较少的残差神经网络层中进行特征向量融合。

将局部特征图记为X，全局标签记为Y。

将它们分为X∈[X _h]和Y∈[Y _h](1≤h≤H)，h表示多头自注意的头数。局部到全局融合的定义如下：

head_i=Attention(Y_hW_h ^Q,X_h,X_h)；

Y^out=Y+[Concat(head₁,...,head_h)]W^o；

式中，W_h ^Q为查询在多个标题中的投影矩阵，W^o用于组合多个标题，Attention(Q,K,V)为Q、K、V上的标准Attention函数，如下所示：

；

将全局输入特征Y为Q，局部输入特征X为K和V。W_h ^Q和W^o应用于全局特征Y。同理，从全局到局部的特征融合结构计算公式如下：

head_i=Attention(X_h,Y_hW_h ^K,Y_hW_h ^V)；

X^out=X+[Concat(head₁,...,head_h)]；

式中，W_h ^K和W_h ^V是键和值的投影矩阵。局部特征X是query，全局特征Y是key和value。该方向的特征融合示意图如图3(视觉转换器→残差神经网络)所示。

输入输出：残差神经网络→视觉转换器块有两个输入：

(a)局部特征图，有C个通道和hw个空间位置(hw=h×w，其中h和w为特征图的高度和宽度)；

(b)全局标记，其中M和d分别为特征块的数量和维数。

步骤S10：对两个分支提取的分类向量进行融合后，计算损失。并进行逆梯度计算，调整模型参数。

步骤S11：输出类别标签0表示正常肺，1表示轻度蜂窝肺，2表示中度蜂窝肺，3表示重度蜂窝肺。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法，其特征在于：包括如下的检测评估步骤：

步骤S4：使用交叉熵函数定义损失函数；

步骤S9：在视觉转换器分支和残差神经网络分支之间建立双向特征融合结构，融合两个分支的特征，具体方法为：

步骤S94：视觉转换器→残差神经网络融合时，将X与Y提取的W_q点乘做相似度计算，使softmax得到权重值，将权重值与X做乘积得到的值经过W_o得到规格相同的值与Y相加连接，即融合完成；其中W_o是一个参数矩阵，用于将融合后的值与Y进行线性变换；

所述步骤S93和步骤S94中融合过程的具体计算方法为：

残差神经网络以图像为输入，提取局部特征；

为了与残差神经网络融合，选择d和M与目标融合层具有相同的维度，对输入的原始图像进行卷积得到初始的Y ₀，Y ₀表示经过卷积操作得到的初始特征表示矩阵；

2.根据权利要求1所述的基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法，其特征在于：所述步骤S2中搭建视觉转换器网络模型的具体方法为：

；

其中，d是输入序列的维度或特征向量的长度；

Q是查询矩阵，维度为N×d，用于计算注意力权重；

K是键矩阵，维度为N×d，用于计算注意力权重；

V是值矩阵，其维度为N×d，用于计算注意力加权和；

W_q是查询矩阵的权重矩阵，其维度为d×d；

W_k是键矩阵的权重矩阵，其维度为d×d；

W_v是值矩阵的权重矩阵，其维度为d×d；

并将输入的蜂窝肺CT图像转换成序列：；

其中，表示序列中的第i个元素，d表示输入向量的维度；

3.根据权利要求2所述的基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法，其特征在于：所述步骤S22中自注意力机制具体的计算方法为：

步骤S221：对于输入序列中的每个元素x _i，通过一个线性变换转换为 Query、Key 和Value 向量，即：

q _i=W _q x _i，k _i=W _k x _i，v _i =W _v x _i；

其中：分别是Query、Key和Value的线性变换矩阵；

；

其中，a _i,j表示位置i与位置j之间的注意力权重，q _i和k _j分别表示位置i和位置j的Query和Key向量，·表示点积运算；参数l表示自注意力机制中的一个索引，用于表示键矩阵K中的一个列向量；

；

4.根据权利要求1所述的基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法，其特征在于：所述步骤S4中定义损失函数的具体方法为：

步骤S41：定义用于分类任务的交叉熵损失函数，表达式为：

；

5.根据权利要求1所述的基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法，其特征在于：所述步骤S5中采用自适应矩估计优化器调整学习率的具体方法为：

；

其中，α是学习率，ε是常数，防止分母为0；

6.根据权利要求1所述的基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法，其特征在于：所述步骤S7中搭建残差神经网络-50分支模块的具体方法为：

每个残差块包括一个主路径和一个残差路径；

每个阶段包含多个残差块：

阶段1：包含一个卷积层和3个残差块；

阶段2：包含一个卷积层和4个残差块；

阶段3：包含一个卷积层和6个残差块；

阶段4：包含一个卷积层和3个残差块；

阶段5：包含一个全局平均池化层和一个全连接层；

7.为实现权利要求1所述的基于Transformer并行交叉融合模型的蜂窝肺病程周期检测评估方法所使用的装置，其特征在于：包括用于获取、整理、标注蜂窝肺CT图像数据的采集计算机；

所述评估服务器内部设置有：

用于计算调整并输出检测评估结果的输出模块。