CN115631183A

CN115631183A - 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质

Info

Publication number: CN115631183A
Application number: CN202211382324.7A
Authority: CN
Inventors: 朱煜; 蒋晓奔; 张琦; 叶炜韬; 杨达伟
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-01-20

Abstract

本发明涉及一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其中，该方法包括：(1)采集胸部X光片数据集，并对X光片图像进行预处理操作；(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取；(3)构建双路解码器模块对提取到的相关信息解码处理；(4)构建分类注意力模块进行分类识别处理；(5)使用非对称损失函数训练网络进行平衡优化。本发明还涉及一种相应的系统、装置、处理器及其存储介质。采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其存储介质，通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征，相较于基线模型，具有更好的X光分类识别的效果。

Description

基于双路解码器实现针对X光片图像的分类识别的方法、系统、装置、处理器及存储介质

技术领域

本发明涉及数字图像技术领域，尤其涉及计算机视觉技术领域，具体是指一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质。

背景技术

目前，胸部X射线(Chest X-ray，CXR)是一种高效且廉价的影像学检查技术，常用于进行目标识别和筛查。随着深度卷积网络的不断发展，研究人员可以从大规模医疗数据中挖掘出可用的信息，各种基于CNN的方法被应用于胸部X射线的图像识别中。然而，大多数现有的基于CNN的方法仍然存在一些缺陷。比如：申请号为：CN202210171528.X的发明专利申请，其公开了在backbone的基础上添加了FCAnet多频谱通道注意力机制，增强backbone的特征提取能，其设计重点在于FCAnet多频谱通道注意力机制上；申请号为：CN202111510584.3的发明专利申请，使用了X光片信息，以及个人经历数据进行联合训练及识别，重点放在数据预处理上，对于网络模型的设计不具有使用优势；申请号为：CN202010157966.1的发明专利申请，其设计了双通道分离网络的胸部X光，两个通道分别用来提取浅层以及深层信息，最后再将提取的特征进行融合，用于最终的分类。上述公开的申请均存在的缺陷是：都是直接利用从CXR图像中提取的特征图对胸部图形进行识别分类，但没有考虑到局部特征与对应标签之间的相关性，而这也应当是当前亟需解决的缺陷问题。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够有效考虑局部特征与对应标签之间的相关性的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质。

为了实现上述目的，本发明的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质如下：

该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其主要特点是，所述的方法包括以下步骤：

(1)采集胸部X光片数据集，并对X光片图像进行预处理操作；

(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取；

(3)构建双路解码器模块对提取到的相关信息解码处理；

(4)构建分类注意力模块对所述的双路解码器模块输出的解码信息进行分类识别处理，以得到目标对象的识别结果；

(5)使用非对称损失函数训练网络对采集到的数据集中类别分布不平衡的相关数据进行平衡优化。

较佳地，所述的步骤(1)具体包括以下步骤：

(1.1)从数据集官网上下载CC-CXRI数据集，得到尺寸为1024×1024pt的原始胸部X光片图；

(1.2)将所述的原始胸部X光片图缩放为384×384pt，并使用数据增强方式对缩放后的图片进行处理，得到最终训练以及测试的图像。

较佳地，所述的数据增强方式包括：

将经过缩放处理后的图像依次进行随机旋转[-15^°,15^°]，随后针对图像随机进行水平翻转处理，并使用均值为[0.485,0.456,0.406]，方差为[0.229,0.224,0.225]进行数据归一化处理，以得到最终训练以及测试的图像。

尤佳地，所述的步骤(2)具体包括以下步骤：

(2.1)采用如下方式构建所述的特征编码器模块：

使用CNN模型或者基于Transformer模型作为胸部X光片的特征提取网络，再将提取的3D特征图维度

转换成2D特征图

其中h和w分别代表特征图的长和宽，d代表特征图的维度；

(2.2)采用如下方式构建所述的标签编码器模块：

构建了一个可学习的标签嵌入图

作为标签编码器模块，其中N代表类别数，d代表维度，且所述的标签编码器模块与特征编码器模块的维度保持一致；

(2.3)基于构建的所述的特征编码器模块和标签编码器模块，对采集到的胸部X光片进行相关特征以及标签的提取。

尤佳地，所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块，所述的步骤(3)包括以下步骤：

(3.1)构建所述的标签解码器模块：使用多头自注意力机制MHSA，多头交叉注意力机制MHCA以及一个多层MLP构建标签解码器，并在执行完每个操作之后，均使用层归一化和残差连接来进一步调整输出，得到一标签解码器的输出结果；

(3.2)构建所述的特征解码器模块：使用多头自注意力机制MHSA，多头交叉注意力机制MHCA以及一个多层MLP构建特征解码器，并在执行完每个操作之后，均使用归一化和残差连接来进一步调整输出，得到一特征解码器的输出结果。

更佳地，所述的步骤(3.1)具体包括如下步骤：

(3.1.1)标签嵌入图

首先经过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

接着再将三个矩阵传入所述的多头自注意力机制MHSA中，如以下公式所示：

其中，T为矩阵转置操作。

(3.1.2)接着2D特征图

先经过位置编码之后，再通过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

再将所述的多头自注意力机制MHSA的输出值M，矩阵

和矩阵

传入所述的多头交叉注意力机制MHCA中，如以下公式所示：

(3.1.3)最后通过一个多层MLP处理，得到标签解码器的输出

更佳地，所述的步骤(3.2)具体包括如下步骤：

(3.2.1)标签嵌入图

首先经过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

接着再将三个矩阵传入所述的多头自注意力机制MHSA中，如以下公式所示：如以下公式所示：

其中，T为矩阵转置操作。

(3.2.2)接着2D特征图

一个Key矩阵

以及一个Value矩阵

再将所述的多头自注意力机制MHSA的输出值

所述的标签嵌入图的Key矩阵K和Value矩阵V传入所述的多头交叉注意力机制MHCA中，如以下公式所示：

(3.2.3)最后通过一个多层MLP处理，得到特征解码器的输出

更佳地，所述的步骤(4)具体包括以下步骤：

(4.1)采用如下方式处理所述的标签解码器的输出

将标签解码器的输出

按行取均值，得到

再使用一个全连接网络，将

维度d映射到类别数c，得到

其中，

为L_o按行取均值的结果，

为

映射之后的结果。

(4.2)采用如下方式处理所述的特征解码器的输出

将特征解码器的输出

按行取最大值，得到

再使用一个全连接网络，将维度d映射到类别数c，得到

其中，

为F_o按行取均值的结果，

为

映射之后的结果。

(4.3)引入平衡参数la，将所述的标签解码器的输出

以及特征解码器的输出

进行平衡处理，从而得到最终的X光片图像识别结果S_B，具体采用以下公式进行表示：

更佳地，所述的步骤(5)具体为：

将每个采集到的样本的标签均标记为Y＝{y₁,y₂,…y_N}，当采集到的数据中存在该被标记的标签时，则将y_N设为1，否则设为0；并将识别模型的预测值设置为P＝{p₁,p₂,…p_N}，γ⁺和γ^-为模型的超参，分别设为0和4，并采用以下公式进行平衡优化：

其中，ASL为非对称损失函数Asymmetric Loss。

该利用上述的方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统，其主要特点是，所述的系统包括：

特征和标签编码器模块，用于对采集到的胸部X光片数据集中的相关数据信息进行特征数据提取以及标签数据提取；

双路径解码器模块，与所述的特征和标签编码器模块相连接，用于通过使用多头自注意力机制MHSA，多头交叉注意力机制MHCA以及一个多层MLP，分别构建一个标签解码器以及特征解码器，并利用所述的标签解码器以及特征解码器对提取到的数据进行解码处理；以及

分类注意力模块，与所述的双路径解码器模块相连接，用于通过引入平衡参数，对所述的标签解码器以及特征解码器的输出值进行平衡处理，以获取最终的X光片图像识别结果。

该基于Transformer双路解码器实现针对X光片图像进行分类识别的装置，其主要特点是，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。

该基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器，其主要特点是，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。

该计算机可读存储介质，其主要特点是，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。

采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质，使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征编码器模块。为了加强目标区域和识别标签之间的联系，本发明还创新性地引入了可学习的标签嵌入图，作为标签编码器。双路径解码模块则由标签解码器和特征解码器组成，通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征。双路径可以有效地优化视觉特征并匹配相应的标签，以提高精准识别的性能。其中，分类注意模块则是用于平衡特征解码器和标签解码器的输出，以实现更好的识别效果。本技术方案在CC-CXRI数据集上进行实验验证，相较于基线模型，具有更为突出的分类识别效果。

附图说明

图1为本发明的整体结构示意图。

图2为本发明的分类注意力模块结构示意图。

图3为本发明在一具体实施例中TransDD-PVT模型以及其基线模型PVTv2-B4病变区域定位的可视化结果图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

在详细说明根据本发明的实施例前，应该注意到的是，在下文中，术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含，由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素，而且还包含没有明确列出的其他要素，或者为这种过程、方法、物品或者设备所固有的要素。

请参阅图1所示，该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其中，所述的方法包括以下步骤：

(1)采集胸部X光片数据集，并对X光片图像进行预处理操作；

(3)构建双路解码器模块对提取到的相关信息解码处理；

作为本发明的优选实施方式，所述的步骤(1)具体包括以下步骤：

在实际应用当中，上述步骤(1)具体为：

从数据集官网上下载CC-CXRI数据集，得到尺寸为1024×1024pt的原始胸部X光片图。接着将原始X光片图像尺寸缩放成384×384pt，再使用数据增强方式(包括图像旋转，图像翻转，直方图变换)得到最终训练以及测试图像。

作为本发明的优选实施方式，所述的数据增强方式包括：

将经过缩放处理后的图像依次进行随机旋转[-15°,15°]，随后针对图像随机进行水平翻转处理，并使用均值为[0.485,0.456,0.406]，方差为[0.229,0.224,0.225]进行数据归一化处理，以得到最终训练以及测试的图像。

作为本发明的优选实施方式，所述的步骤(2)具体包括以下步骤：

(2.1)采用如下方式构建所述的特征编码器模块：

使用CNN模型或者基于Transformer模型作为胸部X光片的特征提取网络，再将提取的3D特征图

转换成2D特征图

其中h和w分别代表特征图的长和宽，d代表特征图的维度；

(2.2)采用如下方式构建所述的标签编码器模块：

构建了一个可学习的标签嵌入图

在实际应用当中，上述步骤(2)具体为：

步骤2.1：构建特征编码器模块：

本发明可以使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征提取网络，接着再将提取的3D特征图

转成2D特征图

其中h和w分别代表特征图的长和宽，d代表特征图的维度，这些参数都由原始的特征提取网络决定；

步骤2.2：构建标签编码器模块：

为了能够更好地建立局部病变特征与对应标签之间的联系，本发明构建了一个可学习的标签嵌入图

作为标签编码器模块，其中N代表类别数，d代表维度，并且和特征编码器的维度保持一致。

作为本发明的优选实施方式，所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块，所述的步骤(3)包括以下步骤：

作为本发明的优选实施方式，所述的步骤(3.1)具体包括如下步骤：

(3.1.1)标签嵌入图

首先经过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

其中，T为矩阵转置操作。

(3.1.2)接着2D特征图

一个Key矩阵

以及一个Value矩阵

再将所述的多头自注意力机制MHSA的输出值M，矩阵

和矩阵

传入所述的多头交叉注意力机制MHCA中，如以下公式所示：

(3.1.3)最后通过一个多层MLP处理，得到标签解码器的输出

作为本发明的优选实施方式，所述的步骤(3.2)具体包括如下步骤：

(3.2.1)标签嵌入图

首先经过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

其中，T为矩阵转置操作。

(3.2.2)接着2D特征图

一个Key矩阵

以及一个Value矩阵

再将所述的多头自注意力机制MHSA的输出值

(3.2.3)最后通过一个多层MLP处理，得到特征解码器的输出

在实际应用当中，上述步骤(3)具体为：

步骤3.1：标签解码器设计：

标签解码器主要由多头自注意力机制(multi-head self-attention,MHSA)，多头交叉注意力机制(multi-head cross-attention,MHCA)，以及一个多层MLP组成，并且在执行完每个操作之后，都会使用层归一化和残差连接来进一步调整输出。标签嵌入图

首先经过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

接着再将三个矩阵传入多头MHSA，如以下公式所示：

接着特征图

一个Key矩阵

以及一个Value矩阵

再将MHSA的输出M，矩阵

和矩阵

传入MHCA，计算公式如下所示：

最后，再通过一个多层MLP，得到标签解码器的输出

步骤3.2：特征解码器设计：

特征解码器的设计和标签解码器的设计类似。也是由MHSA，MHCA，以及多层MLP层三个部分组成，同样的，在执行完每个部分之后都紧跟着归一化和残差连接操作。MHSA的公式如下所示：

接着将MHSA的输出

和标签嵌入图产生的K和V传入MHCA中。

最后，再通过一个多层MLP，得到特征解码器的输出

作为本发明的优选实施方式，所述的步骤(4)具体包括以下步骤：

(4.1)采用如下方式处理所述的标签解码器的输出

将标签解码器的输出

按行取均值，得到

再使用一个全连接网络，将

维度d映射到类别数c，得到

其中，

为L_o按行取均值的结果，

为

映射之后的结果。

(4.2)采用如下方式处理所述的特征解码器的输出

将特征解码器的输出

按行取最大值，得到

再使用一个全连接网络，将维度d映射到类别数c，得到

其中，

为F_o按行取均值的结果，

为

映射之后的结果。

(4.3)引入平衡参数la，将所述的标签解码器的输出

以及特征解码器的输出

在实际应用当中，上述步骤(4)具体为：

步骤4.1：处理标签解码器的输出

经过双路解码器之后，得到标签解码器的输出

以及特征解码器的输出

分类注意力模块的作用是利用这两个输出，得到每个类别的分数，从而完成分类识别任务。将

按行取均值，得到

接着使用一个全连接网络，将维度d映射到类别数c，得到

步骤4.2:处理特征解码器的输出

将

按行取最大值，得到

同样使用一个全连接网络，将维度d映射到类别数c，得到

步骤4.3：平衡两个输出：

引入平衡参数la,通过公式5，得到最终的目标识别预测分数。

作为本发明的优选实施方式，所述的步骤(5)具体为：

在实际应用当中，由于数据集中各类别分布不平衡，因此引入非对称损失函数。具体为：将每个采集到的样本的标签均标记为Y＝{y₁,y₂,…y_N}，当采集到的数据中存在该被标记的标签时，则将y_N设为1，否则设为0；并将识别模型的预测值设置为P＝{p₁,p₂,…p_N}，γ⁺和γ^-为模型的超参，分别设为0和4，并采用以下公式进行平衡优化：

其中，ASL为非对称损失函数。

该利用上述方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统，其中，所述的系统包括：

在本发明的一具体实施例中，采用了本技术方案的该分类识别方法测试如下：

(1)实验数据集

本发明使用由中国胸部X线影像检查联合会(CC-CXRI)发布的胸部X光片数据集进行实验验证。该数据集由SYSU和CC-CXRI-P两个子数据集组成。其中，SYSU包含120,012张胸部X光片，共计14种类型的胸部疾病(实变、纤维化、结节、疝、肺不张、气胸、水肿、肺炎、肺气肿、积液、浸润、胸膜增厚、肿块、心脏肿大)，每张图片中含有一种或者多种胸部疾病。CC-CXRI-P数据集中则包含7,921张胸部X光片，分为正常，病毒性肺炎(COVID-19新冠病毒性肺炎，非COVID-19新冠病毒性肺炎)，其他类型肺炎。每张图片只含有一种类型的疾病。两个子数据集都按照80％的训练集，10％的验证集，以及10％的测试集进行划分。

(2)训练过程

训练图片缩放成384×384pt，并采用随机旋转，翻转，直方图均衡化等数据增强方式。初始学习率设为le-4，采用余弦退火算法衰减学习率，batch设置为32，训练20轮。

(3)测试结果

如图3所示，是本案提出的TransDD-PVT模型以及其基线模型PVTv2-B4病变区域定位的可视化结果图。第一行表示的原始X光片图像，第二行中黑色方框标注的位置为病灶所在区域，第三行和第四行分别为PVTv2-B4和TransDD-PVT病灶定位的结果图，图中颜色变化显著的区域就是模型定位的结果。通过对比可以看出，本发明提出的TransDD-PVT模型相较于其基线模型，可更好地定位病灶所在区域，从而提升胸部X光片的分类结果。

该基于Transformer双路解码器实现针对X光片图像进行分类识别的装置，其中，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

该基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器，其中，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。

该计算机可读存储介质，其中，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的，程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的方法包括以下步骤：

(1)采集胸部X光片数据集，并对X光片图像进行预处理操作；

(3)构建双路解码器模块对提取到的相关信息解码处理；

2.根据权利要求1所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的步骤(1)具体包括以下步骤：

3.根据权利要求2所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的数据增强方式包括：

4.根据权利要求2所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的步骤(2)具体包括以下步骤：

(2.1)采用如下方式构建所述的特征编码器模块：

转换成2D特征图

其中h和w分别代表特征图的长和宽，d代表特征图的维度；

(2.2)采用如下方式构建所述的标签编码器模块：

构建了一个可学习的标签嵌入图

5.根据权利要求4所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块，所述的步骤(3)包括以下步骤：

6.根据权利要求5所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的步骤(3.1)具体包括如下步骤：

(3.1.1)标签嵌入图

首先经过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

其中，T为矩阵转置操作；

(3.1.2)接着2D特征图

一个Key矩阵

以及一个Value矩阵

再将所述的多头自注意力机制MHSA的输出值M，矩阵

和矩阵

传入所述的多头交叉注意力机制MHCA中，如以下公式所示：

(3.1.3)最后通过一个多层MLP处理，得到标签解码器的输出

7.根据权利要求6所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的步骤(3.2)具体包括如下步骤：

(3.2.1)标签嵌入图

首先经过一个线性映射层，产生一个query矩阵

一个Key矩阵

以及一个Value矩阵

其中，T为矩阵转置操作；

(3.2.2)接着2D特征图

一个Key矩阵

以及一个Value矩阵

再将所述的多头自注意力机制MHSA的输出值

(3.2.3)最后通过一个多层MLP处理，得到特征解码器的输出

8.根据权利要求7所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的步骤(4)具体包括以下步骤：

(4.1)采用如下方式处理所述的标签解码器的输出

将标签解码器的输出

按行取均值，得到

再使用一个全连接网络，将

维度d映射到类别数c，得到

其中，

为L_o按行取均值的结果，

为

映射之后的结果；

(4.2)采用如下方式处理所述的特征解码器的输出

将特征解码器的输出

按行取最大值，得到

再使用一个全连接网络，将维度d映射到类别数c，得到

其中，

为F_o按行取均值的结果，

为

映射之后的结果；

(4.3)引入平衡参数la，将所述的标签解码器的输出

以及特征解码器的输出

9.根据权利要求8所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法，其特征在于，所述的步骤(5)具体为：

其中，ASL为非对称损失函数。

10.一种利用权利要求1至9中任一项所述的方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统，其特征在于，所述的系统包括：

11.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的装置，其特征在于，所述的装置包括：

处理器，被配置成执行计算机可执行指令；

存储器，存储一个或多个计算机可执行指令，所述计算机可执行指令被所述处理器执行时，实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。

12.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器，其特征在于，所述的处理器被配置成执行计算机可执行指令，所述的计算机可执行指令被所述的处理器执行时，实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述的计算机程序可被处理器执行以实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。