CN115132313A

CN115132313A - 基于注意力机制的医学影像报告自动生成方法

Info

Publication number: CN115132313A
Application number: CN202111485529.3A
Authority: CN
Inventors: 邢素霞; 鞠子涵; 刘子娇; 范福强; 王瑜; 肖洪兵
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-09-30

Abstract

本发明公开了一种基于注意力机制的医学影像报告自动生成方法，其中，方法步骤包括：获取胸腔X光影像以及疾病标签和诊断报告；划分得到训练集并对训练集中的医学影像进行预处理；构建基于注意力机制的医学影像报告自动生成模型；利用训练集对医学影像报告自动生成模型进行训练，并进行超参数调整；利用训练好的医学影像报告自动生成模型对胸片影像进行解译，生成诊断报告。本发明的目的是提供一种基于注意力机制的医学影像报告自动生成模型，可以利用注意力机制全局感知力强的优势，扩大感受视野，建立上下文的全局依赖，实现医学影像报告自动生成，意在提升报告在表述专业程度以及流畅度上的性能。

Description

基于注意力机制的医学影像报告自动生成方法

技术领域

本发明涉及计算机视觉和自然语言处理技术领域，尤其涉及一种基于注意力机制的医学影像报告自动生成方法。

背景技术

近年来，随着深度学习相关技术的迅猛发展，各项计算机视觉(如图像分类、语义分割、目标检测等)与自然语言处理任务(如机器翻译、文本语义理解、文本信息抽取等)的性能得到了大幅提升，同时，视觉与语言的跨模任务(如图像翻译等)也取得了巨大进步。极大地推动了深度学习在医学影像报告自动生成上的应用。

医学影像报告自动生成最初受图像字幕的相关研究启发，采用卷积神经网络(CNN)和循环神经网络(RNN)的结构，CNN能够从医学影像中提取图像特征，RNN根据图像特征生成诊断报告。然而由于CNN是使用卷积核提取特征以及RNN对长序列存在遗忘的问题，该方法视觉感受视野受限、缺乏上下文的长期依赖。近年来，Transformer凭借其优异的性能，逐渐在在计算机视觉和自然语言处理中取得了广泛应用。该方法主要使用了自注意力(Self-Attention，SA)的结构，能够捕捉到整个输入序列间的全局交互。然而，在医学报告自动生成的相关研究中，Transformer仅用来取代RNN结构生成诊断报告，如何捕捉视觉信息的长期依赖以及视觉和语义信息转换的性能方面还面临着诸多挑战。

发明内容

本发明提出一种注意力机制的医学影像报告自动生成方法，用于解决或者至少部分解决现有技术中存在的无法捕捉不同视觉信息的长期依赖以及视觉和语义信息转换的性能不强的技术问题。

为达到上述目的，本发明设计了一种注意力机制的医学影像报告自动生成方法，包括：

S101：获取胸腔X光影像以及每张影像对应的疾病标签和诊断报告，并对疾病标签和诊断报告分别进行编码；

S102：划分得到训练集并对训练集中的医学影像进行标准化和数据增强；

进一步地，在本发明的一个实施例中，步骤S102中划分得到训练集并对训练集中的医学影像进行数据增强的步骤包括：

按照预设比例将数据集划分为训练集、验证集和测试集；

使用随机翻转、错切等图像数据增强的方法对训练集中裁剪后的图像进行数据增强得到数据增强后的图像。

对数据增强后的图像进行标准化处理，使训练图像的像素均值为0且方差为1；

S103：构建基于注意力机制的医学影像报告自动生成模型，其中，该医学影像报告自动生成模型包括图像局部特征提取模块、图像全局特征提取模块、标签预测模块和诊断报告生成模块。所述图像局部特征提取模块为卷积神经网络特征提取模块，用来提取图像的纹理和边界，为局部图像特征；所述图像全局特征提取模块为视觉Transformer特征提取模块，用来建立全局图像特征的长期依赖关系；所述标签预测模块用于预测胸腔X光影像的疾病标签并融合标签的语义信息和概率信息；所述诊断报告生成模块为语义Transformer特征提取模块，通过捕捉图像和语义之间的长期依赖关系，生成医学影像的诊断报告。

进一步地，在本发明的一个实施例中，步骤S103中局部特征提取模块包含一个根网络、两个第一残差块、三个第二残差块、八个第三残差块、一个降维层以及一个展平层，且所述根网络由一个卷积核大小为7×7，通道数为64，步长为2的卷积层和一个核大小为3×3，步长为2的最大池化层组成，并在卷积层后加入了群组归一化层(Group Normalization，GN)以及线性整流函数(Rectified LinearUnit,ReLU)；所述第一残差块、第二残差块和第三残差块中均包含两个卷积核大小为1×1的卷积层和一个卷积核大小为3×3的卷积层，每个卷积层后都添加了GN层以及ReLU激活函数，且第二残差块和第三残差块的首个残差块的步长为2，其余残差块步长为1；所述一个降维层由一个1×1大小卷积核的卷积层构成，用来调整输出维度；所述展平层将降维层输出的三维局部特征图在空间维度进行展开，转换为二维局部特征图。

进一步地，在本发明的一个实施例中，步骤S103中全局特征提取模块的计算方法包括：

将局部特征提取模块输出的二维局部特征图添加可训练的位置编码得到输入矩阵；

对输入矩阵进行线性变换得到视觉Transformer自注意力机制的查询向量、被查向量和内容向量；

将视觉Transformer自注意力机制中的查询向量、被查向量和内容向量进行注意力计算与归一化处理、残差操作后得到图像信息聚合结果；

将图像信息聚合结果进行多层感知机计算与归一化处理、残差操作后得到新的图像信息聚合结果；

将新的图像信息聚合结果重新作为输入矩阵进行计算，重复多次循环后得到全局图像特征和标签预测向量。

进一步地，在本发明的一个实施例中，步骤S103中标签预测模块的计算过程包括：

将标签预测向量作为输入，经过线性变换和Sigmiod激活函数得到每个标签对应的概率；

将每个标签对应的概率分布与标签语义编码矩阵的对应列相乘得到含有概率的标签语义编码矩阵。

每个标签对应的概率分布与标签语义编码矩阵的对应列相乘得到含有概率的标签语义编码矩阵。

进一步地，在本发明的一个实施例中，步骤S103中诊断报告生成模块的计算过程包括：

将全局图像特征和带有概率的标签语义向量进行拼接作为输入，分别经过三次线性变换得到语义Transformer自注意力机制的查询向量、被查向量和内容向量；

对语义Transformer自注意力机制的查询向量、被查向量和内容向量进行注意力计算与归一化处理、残差操作后得到语义信息聚合结果；

将语义信息聚合结果进行归一化处理、多层感知机计算与残差操作后得到新的语义信息聚合结果；

将新的语义信息聚合结果重新作为输入矩阵进行计算，重复多次循环后得到语义特征；

将语义特征进行归一化处理，并使用线性变换和Softmax激活函数得到每个单词的分类概率。

S104：利用处理好的训练集对医学影像报告自动生成模型进行训练，并进行超参数的调整，将最终效果最优的模型作为最终的医学影像报告自动生成模型。

进一步地，在本发明的一个实施例中，所述方法还包括：在训练过程中验证模型在训练集上各项评价指标，分析模型的精度和泛化能力；在测试集中进行模型预测，与真实的报告进行对比。

S105：利用训练好的医学影像报告自动生成模型对胸片影像进行解译，生成诊断报告。

本发明提供的一种基于注意力机制的医学影像报告自动生成方法，构建了基于注意力机制的医学影像报告自动生成模型，该模型包括图像局部特征提取模块、图像全局特征提取模块、标签预测模块和诊断报告生成模块，图像全局特征提取模块基于Transformer中的多头自注意力机制构建，自注意力机制将所有输入序列拼接成矩阵的形式一次性输入到神经网络中，能够捕捉图像全局视觉信息上的长期依赖，诊断报告生成模块也使用了Transformer中的多头自注意力的结构进行构建，将图像特征和语义特征拼接为一个输入矩阵，不仅能够解决长文本序列长期依赖薄弱的问题，还有助于融合图像和文本之间的跨模态特征。本发明充分利用Transformer结构全局感知力强的优势，扩大感受视野，建立上下文的全局依赖，实现医学影像报告自动生成，意在提升报告在表述专业程度以及流畅度上的性能。

附图说明

图1是示出根据本申请实施方式的基于注意力机制的医学影像报告自动生成方法的流程图。

图2是示出根据本申请实施方式的后前位、前后位和侧位的胸腔X光影像示意图。

图3是示出根据本申请实施方式的BPE编码过程流程图。

图4是示出根据本申请实施方式的基于注意力机制的医学影像报告自动生成模型主体结构图。

图5是示出根据本申请实施方式的局部特征提取模块的结构示意图。

图6是示出根据本申请实施方式的残差块的结构示意图。

图7是示出根据本申请实施方式的图像全局特征提取模块的结构示意图。

图8是示出根据本申请实施方式的注意力机制计算方法示意图。

图9是示出根据本申请实施方式的标签预测模块的结构示意图。

图10是示出根据本申请实施方式的诊断报告生成模块的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

图1示出了基于注意力机制的医学影像报告自动生成方法流程图。

如图1所示，该基于注意力机制的医学影像报告自动生成方法包括以下步骤：

在步骤S101中，获取胸腔X光影像以及每张影像对应的疾病标签和诊断报告，并对疾病标签和诊断报告分别进行编码。

可以理解的是，在本发明的一个实施例中，胸腔X光影像及每张影像对应的疾病标签和诊断报告从公开的胸腔X光影像数据集中获取，每位患者均包含一张或多张胸腔X光影像，拍摄角度可能为前后位、后前位和侧位，图2示出了后前位、前后位和侧位的胸腔X光影像示意图。，图2中(a)为前后位胸腔X光影像，图2中(b)为后前位胸腔X光影像，图2中(c)为侧位胸腔X光影像，其中每位患者拥有正位和侧位两张胸腔X光影像的情况最多。

进一步地，每位患者均对应一个或多个疾病标签以及一份诊断报告，为了利于模型训练，本发明将阳性的疾病标签使用1进行标记，阴性使用0进行标记，同时对每个标签使用d维向量进行语义信息编码得到标签语义编码向量。诊断报告使用字节对(Byte PairEncoder，BPE)编码构建字词对词典，将一个单词切分成若干连续的片段，图3示出了BPE编码过程流程图，具体步骤如下：

(1)将句子切分成单词，构建语料库；

(2)将语料库中每个单词切分成字节对，构成字节对词表，并在单词结尾添加一个“/<w>”字符；

(3)在语料库中统计单词内相邻字节对的频次；

(4)将频次最高的字节对合并成新的字节对，并将新的字节对加入字节对词表；

(5)重复步骤(3)和(4)直到进行了设定的合并次数或达到了设定的字节对词表大小；

(6)将每个字节对使用一个d维向量进行编码。

在步骤S102中，划分得到训练集并对训练集中的医学影像进行标准化和数据增强。

可以理解的是，在本发明的一个实施例中，将数据集按8：1：1划分为训练集、验证集和测试集。在训练集中，每张胸腔x光影像减去所有像素的平均值，再除以标准差，使得每张胸腔x光影像的像素均值为0，方差为1。并从水平翻转、透视变换、剪切、旋转、平移、缩放、改变亮度中随机选取一种或多种方法对图像施加相应的变换，并将变换后的图像放入训练集，增加训练数据的数量，以达到数据增强的目的。

在步骤S103中，构建基于注意力机制的医学影像报告自动生成模型，如图4所示，其中，该医学影像报告自动生成模型包括图像局部特征提取模块、图像全局特征提取模块、和诊断报告生成模块。图像局部特征提取模块为卷积神经网络特征提取模块，用来提取图像的纹理和边界，为局部图像特征；图像全局特征提取模块为视觉Transformer特征提取模块，用来建立全局图像特征的长期依赖关系；标签预测模块用于预测胸腔X光影像的疾病标签并融合标签的语义信息和概率信息；诊断报告生成模块为语义Transformer特征提取模块，通过捕捉图像和语义之间的长期依赖关系，生成医学影像的诊断报告；

可以理解的是，在本发明的一个实施例中，图5示出了局部特征提取模块的结构示意图，其中Conv代表卷积层。局部特征提取模块包含根网络、第一残差块组、第二残差块组、第三残差块组以及头部网络，其中根网络由一个卷积核大小为7×7，数量为64，步长为2的卷积层和一个核大小为3×3，步长为2的最大池化层组成，并在卷积层后加入了群组归一化层(Group Normalization，GN)以及线性整流函数(Rectified LinearUnit,ReLU)作为激活函数；第一残差块组、第二残差块组和第三残差块组中均包含两个卷积核大小为1×1的卷积层和一个卷积核大小为3×3的卷积层，每个卷积层之后都加入了GN层和ReLU激活函数，且第二残差块和第三残差块的首个残差块中3×3卷积层的步长为2，其余残差块步长为1；头部网络中包含一个卷积层和一个展平层，卷积层的卷积核大小为1×1，数量为d，用来调整输出维度，展平层将卷积层输出的三维局部特征图在空间维度进行展开，转换为二维局部特征图。该模块的输入矩阵大小为M×M×1，M*M表示输入胸腔X光影像的尺度，“1”表示输入胸腔X光影像的通道数，胸腔X光影像为灰度图像，因此通道数为1，表1为局部特征提取模块结构的主要参数形式表。

其中，M表示输入图像的尺寸，R₁、R₂、R₃分别为第一残差块、第二残差块和第三残差块的数量，d是通过头部网络卷积层的卷积核数量，且在卷积层的每层参数中，第一个数为卷积核大小，第二个数为卷积核数量。

举例而言，本发明实施例中的图像局部特征提取模块为：根网络图像输入尺寸为224×224×1(前两项为输入图像大小，最后一项为输入图像的通道数，以下均类似)，输出尺寸为56×56×64；第一残差块组包含三个残差块，输入尺寸为56×56×64，输出尺寸为56×56×256；第二残差块组包含四个残差块，其中，第一个残差块的输入尺寸为56×56×256，输出尺寸为28×28×512，另外三个残差块的输入尺寸与输出尺寸均为28×28×512；第三残差块组包含九个残差块，其中，第一个残差块的输入尺寸为28×28×512，输出尺寸为14×14×1024，另外八个残差块的输入尺寸与输出尺寸均为14×14×1024；头部网络卷积层的卷积核数量为768，因此头部网络卷积层的输入尺寸为14×14×1024，输出尺寸为49×768。在图像局部特征提取模块中，图6示出了残差块的结构，其中第二残差块组与第三残差块组中第一个残差块的形式如图6中(a)所示，其余残差块的形式如图6中(b)所示，图6中X_l为残差块的输入，X_l+1为残差块的输出，卷积层结构为Conv-GN-ReLU。

表1

可以理解的是，在本发明的一个实施例中，图7示出了图像全局特征提取模块的结构示意图，将图像局部特征提取模块输出的局部特征矩阵直接作为图像全局特征提取模块的输入矩阵，并与参数可训练的d维位置编码矩阵相加，用来捕捉局部特征矩阵每个像素间的位置关系，然后将可训练的类别向量在整个输入矩阵的第一个位置与图像全局特征提取模块的输入矩阵拼接，用来捕捉图像的全局特征，构成新的图像全局特征提取模块输入矩阵，然后采用多头自注意力机制(Multi-head Self-attention，MSA)和多层感知机(Multi-layer Perception，MLP)得到图像全局特征提取模块的输出矩阵。

进一步地，图8中(a)示出了自注意力机制(Self-attention，SA)的计算方法示意图，如公式(1)所示，对新的输入矩阵进行线性变换得到视觉Transformer中SA的查询向量、被查向量和内容向量，

Q＝X_AttnW_q,K＝X_AttnW_k,V＝X_AttnW_v (1)

公式(1)中X_Attn表示新的输入矩阵，Q、K、V分别表示查询向量(Query)、被查向量(Key)、内容向量(Value)，W_q、W_k、W_v均为可训练的参数矩阵。

如公式(2)所示，得到Q、K、V后，采用点乘注意力计算方法实现自注意力机制，完成输入信息间的聚合，得到自注意力机制的输出矩阵。

公式(2)中X_Attn为SA的输入矩阵，X'_Attn为SA的输出矩阵，d_k为K的维度，除以根号d_k是为了进行归一化操作。

进一步地，为了让模型能够关注不同位置不同子空间的信息，本发明中的自注意力机制采用MSA的结构，图8中(b)示出了多头自注意力机制的计算方法示意图，如式(3)所示，MSA将Q、K、V拆分成了相同大小的多个小型矩阵，分别进行自注意力机制计算，最后将所有计算结果拼接在一起，得到最终的输出。

公式(3)中，X_MSA为多头自注意力机制的输入矩阵，X'_MSA为多头自注意力机制的输出矩阵，

和W^o均为可训练的参数矩阵。

进一步地，如公式(4)所示，本发明在MSA的基础上还加入了层归一化(LayerNorm，LN)和残差操作用来提升模型性能，构建多头自注意力层。

X'_MSA＝LN(MSA(X_MSA))+X_MSA (4)

公式(4)中，X_MSA为多头自注意力层的输入矩阵，X'_MSA为多头自注意力层的输出矩阵，MSA为多头自注意力机制，LN为层归一化。

随后，如公式(5)所示，进行MLP计算与归一化处理、残差操作，MLP中包含两个线性层，并在两层之间使用高斯线性误差(Gaussian Error Linerar Units，GELU)函数作为激活函数，构建MLP层。

X″_MSA＝LN(W₁(GELU(W₂X’_MSA+b₂))+b₁)+X’_MSA (5)

公式(5)中，X’_MSA为MLP层的输入矩阵，X″_MSA为MLP层的输出矩阵，W1、W2、b1、b2皆为可训练的参数矩阵，W1、W2为MLP线性层的权重矩阵，负责对输入进行线性变换，b1、b2为MLP线性层的偏置向量，负责控制神经元的激活状态。

进一步地，将MLP层的输出矩阵重新输入新的自注意力层和MLP层，通过堆叠N₁次自注意力层和MLP层并在最后添加一层LN的方式得到图像全局特征提取模块的输出矩阵，并将图像输出矩阵的第一列作为标签预测向量，其它部分作为全局图像特征。

可以理解的是，在本发明的一个实施例中，图9示出了标签预测模块的结构示意图，如公式(6)所示，对标签预测向量进行线性变换并使用S型生长曲线(Sigmoid)作为激活函数，得到每个标签各自的的概率分布。

X’_tag＝Sigmoid(WX_tag+b) (6)

公式(6)中，X_tag为标签预测模块的输入矩阵，X’_tag为标签预测模块的输出矩阵，W和b皆为可训练的参数矩阵，W为权重矩阵，b为偏置向量。

进一步地，每个标签对应的概率分布与标签语义编码矩阵的对应列相乘得到含有概率的标签语义编码矩阵。

可以理解的是，在本发明的一个实施例中，图10示出了诊断报告生成模块的结构示意图，如式(7)所示，将全局图像特征和含有概率的标签语义编码矩阵进行拼接作为诊断报告生成模块的输入矩阵，通过与图像全局特征提取模块相同的自注意力层和MLP层实现图像和语义特征的提取和融合。

X’_text＝MLP(MSA(X_text)) (7)

公式(7)中，X_text为诊断报告生成模块的输入矩阵，X’_text为诊断报告生成模块的输出矩阵，MSA为与图像全局特征提取模块相同的采用多头自注意力机制的自注意力层，MLP为与图像全局特征提取模块相同的MLP层。

进一步地，将MLP层的输出矩阵重新输入新的自注意力层和MLP层，通过堆叠N₂次自注意力层和MLP层的方式得到注意力计算的输出矩阵，对注意力计算的输出矩阵进行层归一化、线性变换并使用Softmax激活函数得到词典中所有字节对的概率分布，最后从概率最高的n个字节对中依概率选择一个字节对作为诊断报告生成模块的第一个输出。

进一步地，每生成一个新字节对就将这个字节对作为文本向量与全局图像特征和含有概率的标签语义编码矩阵进行拼接，重新输入到诊断报告生成模块中，举例而言，将诊断报告生成模块的第一个输出作为文本向量与全局图像特征和含有概率的标签语义编码矩阵进行拼接，重新作为诊断报告生成模块输入，并进行诊断报告生成模块计算后得到诊断报告生成模块的第二个输出，再次将诊断报告生成模块的第一个输出以及诊断报告生成模块的第二个输出作为新的文本向量同全局图像特征和含有概率的标签语义编码矩阵进行拼接，作为诊断报告生成模块输入，并进行诊断报告生成模块计算后得到诊断报告生成模块的第三个输出，如此往复，直到达到最大输出长度或输出终止向量。

步骤S104，利用处理好的训练集对医学影像报告自动生成模型进行训练，并以模型在验证集上的性能为依据进行超参数调整，将最终效果最优的模型作为最终的医学影像报告自动生成模型。

可以理解的是，在本发明的一个实施例中，在训练模型之前，需要对参数进行初始化，本发明使用Xavier正态分布初始化法对基于注意力机制的医学影像报告自动生成模型中的权重矩阵进行初始化，偏置向量使用全零初始化。训练模型时，采用随机梯度下降法(Stochastic Gradient Descent，SGD)优化模型，使用Pytorch深度学习框架，在模型训练过程中，首先将单张胸腔X光影像作为输入，预测的疾病标签作为输出，损失函数使用二元交叉熵损失函数(Binary Cross Entropy Loss，BCE)，训练图像局部特征提取模块和图像全局特征提取模块，之后固定图像局部特征提取模块和图像全局特征提取模块的参数，使用单张胸腔X光影像作为输入，诊断报告作为输出，损失函数使用稀疏类别交叉熵损失(Sparse Categorical Crossentropy)，训练报告生成模块，并在验证集上训练调整模型超参数至最优，当验证集的精确度不再提高，或者当训练次数达到设定的最大值时，训练过程终止，并保存训练好的模型权重。

可选地，在本发明的一个实施例中，由于单个患者进行胸腔X光成像时通常成像出正位和侧位两张胸腔X光影像，在训练报告生成模块的过程中，图像局部特征提取模块和图像全局特征提取模块的训练方式不变，固定训练好的图像局部特征提取模块和图像全局特征提取模块的参数，将正位和侧位两张胸腔X光影像依次输入同一个局部特征提取模块、图像全局特征提取模块和标签预测模块，分别得到正位和侧位两张胸腔X光影像各自的全局图像特征以及含有概率的标签语义编码矩阵，将正位和侧位两张胸腔X光影像各自的含有概率的标签语义编码矩阵相加，再除以2得到正位和侧位两张胸腔X光影像共同的含有概率的标签语义编码矩阵，再将正位胸腔X光影像的全局图像特征、侧位胸腔X光影像的全局图像特征、两张胸腔X光影像共同的含有概率的标签语义编码矩阵、文本向量进行拼接作为报告生成模块的输入，诊断报告作为输出，其他参数、训练方式以及模型结构保持不变，训练报告生成模块。

在步骤S105中，利用训练好的医学影像报告自动生成模型对测试集中的胸片影像进行解译，生成诊断报告。

综上所述，本发明所提出的基于注意力机制的医学影像报告自动生成模型相较于其他医学影像报告自动生成模型，在捕捉图像全局视觉信息上的长期依赖以及图像和语义跨模态信息间的融合和提取上具有显著优势，生成的报告在表述专业程度以及流畅度方面的性能好，能够为放射科医生的诊断提供有效的帮助。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于注意力机制的医学影像报告自动生成方法，其特征在于，包括以下步骤：

S103：构建基于注意力机制的医学影像报告自动生成模型，其中，该医学影像报告自动生成模型包括图像局部特征提取模块、图像全局特征提取模块、标签预测模块和诊断报告生成模块。图像局部特征提取模块为卷积神经网络特征提取模块，用来提取图像的纹理和边界，为局部图像特征；图像全局特征提取模块为视觉Transformer特征提取模块，用来建立全局图像特征的长期依赖关系；标签预测模块用于预测胸腔X光影像的疾病标签并融合标签的语义信息和概率信息；诊断报告生成模块为语义Transformer特征提取模块，通过捕捉图像和语义之间的长期依赖关系，生成医学影像的诊断报告；

2.根据权利要求1所述的方法，其特征在于，所述步骤S102中划分得到训练集并对训练集中的医学影像进行数据增强的步骤包括：

按照预设比例将数据集划分为训练集、验证集和测试集；

使用随机翻转、错切等图像数据增强的方法对训练集中裁剪后的图像进行数据增强得到数据增强后的图像；

对数据增强后的图像进行标准化处理。

3.根据权利要求1所述的方法，其特征在于，所述步骤S103中局部特征提取模块包括包含一个根网络、两个第一残差块、三个第二残差块、八个第三残差块、一个降维层和一个展平层，且所述根网络由一个卷积核大小为7×7的卷积层和一个核大小为3×3的最大池化层组成，并在卷积层后加入了群组归一化层(Group Normalization，GN)以及线性整流函数(Rectified LinearUnit,ReLU)；所述第一残差块、第二残差块和第三残差块中均包含三个卷积层，每个卷积层后都添加了GN层以及ReLU激活函数；所述降维层由一个1×1大小卷积核的卷积层构成；所述展平层将降维层输出的三维局部特征图展平为二维局部特征图。

4.根据权利要求1所述的方法，其特征在于，所述步骤S103中全局特征提取模块的计算方法包括：

将局部特征提取模块输出的二维局部特征图添加位置编码得到输入矩阵；

5.根据权利要求1所述的方法，其特征在于，所述步骤S103中标签预测模块的计算过程包括：

6.根据权利要求1所述的方法，其特征在于，所述步骤S103中诊断报告生成模块的计算过程包括：