CN115631183A - 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 - Google Patents
基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 Download PDFInfo
- Publication number
- CN115631183A CN115631183A CN202211382324.7A CN202211382324A CN115631183A CN 115631183 A CN115631183 A CN 115631183A CN 202211382324 A CN202211382324 A CN 202211382324A CN 115631183 A CN115631183 A CN 115631183A
- Authority
- CN
- China
- Prior art keywords
- decoder
- feature
- classification
- module
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10116—X-ray image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其中,该方法包括:(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;(3)构建双路解码器模块对提取到的相关信息解码处理;(4)构建分类注意力模块进行分类识别处理;(5)使用非对称损失函数训练网络进行平衡优化。本发明还涉及一种相应的系统、装置、处理器及其存储介质。采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其存储介质,通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征,相较于基线模型,具有更好的X光分类识别的效果。
Description
技术领域
本发明涉及数字图像技术领域,尤其涉及计算机视觉技术领域,具体是指一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质。
背景技术
目前,胸部X射线(Chest X-ray,CXR)是一种高效且廉价的影像学检查技术,常用于进行目标识别和筛查。随着深度卷积网络的不断发展,研究人员可以从大规模医疗数据中挖掘出可用的信息,各种基于CNN的方法被应用于胸部X射线的图像识别中。然而,大多数现有的基于CNN的方法仍然存在一些缺陷。比如:申请号为:CN202210171528.X的发明专利申请,其公开了在backbone的基础上添加了FCAnet多频谱通道注意力机制,增强backbone的特征提取能,其设计重点在于FCAnet多频谱通道注意力机制上;申请号为:CN202111510584.3的发明专利申请,使用了X光片信息,以及个人经历数据进行联合训练及识别,重点放在数据预处理上,对于网络模型的设计不具有使用优势;申请号为:CN202010157966.1的发明专利申请,其设计了双通道分离网络的胸部X光,两个通道分别用来提取浅层以及深层信息,最后再将提取的特征进行融合,用于最终的分类。上述公开的申请均存在的缺陷是:都是直接利用从CXR图像中提取的特征图对胸部图形进行识别分类,但没有考虑到局部特征与对应标签之间的相关性,而这也应当是当前亟需解决的缺陷问题。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种能够有效考虑局部特征与对应标签之间的相关性的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质。
为了实现上述目的,本发明的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质如下:
该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其主要特点是,所述的方法包括以下步骤:
(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;
(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;
(3)构建双路解码器模块对提取到的相关信息解码处理;
(4)构建分类注意力模块对所述的双路解码器模块输出的解码信息进行分类识别处理,以得到目标对象的识别结果;
(5)使用非对称损失函数训练网络对采集到的数据集中类别分布不平衡的相关数据进行平衡优化。
较佳地,所述的步骤(1)具体包括以下步骤:
(1.1)从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图;
(1.2)将所述的原始胸部X光片图缩放为384×384pt,并使用数据增强方式对缩放后的图片进行处理,得到最终训练以及测试的图像。
较佳地,所述的数据增强方式包括:
将经过缩放处理后的图像依次进行随机旋转[-15°,15°],随后针对图像随机进行水平翻转处理,并使用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]进行数据归一化处理,以得到最终训练以及测试的图像。
尤佳地,所述的步骤(2)具体包括以下步骤:
(2.1)采用如下方式构建所述的特征编码器模块:
(2.2)采用如下方式构建所述的标签编码器模块:
(2.3)基于构建的所述的特征编码器模块和标签编码器模块,对采集到的胸部X光片进行相关特征以及标签的提取。
尤佳地,所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块,所述的步骤(3)包括以下步骤:
(3.1)构建所述的标签解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建标签解码器,并在执行完每个操作之后,均使用层归一化和残差连接来进一步调整输出,得到一标签解码器的输出结果;
(3.2)构建所述的特征解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建特征解码器,并在执行完每个操作之后,均使用归一化和残差连接来进一步调整输出,得到一特征解码器的输出结果。
更佳地,所述的步骤(3.1)具体包括如下步骤:
其中,T为矩阵转置操作。
(3.1.2)接着2D特征图先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵一个Key矩阵以及一个Value矩阵再将所述的多头自注意力机制MHSA的输出值M,矩阵和矩阵传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
更佳地,所述的步骤(3.2)具体包括如下步骤:
其中,T为矩阵转置操作。
(3.2.2)接着2D特征图先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵一个Key矩阵以及一个Value矩阵再将所述的多头自注意力机制MHSA的输出值所述的标签嵌入图的Key矩阵K和Value矩阵V传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
更佳地,所述的步骤(4)具体包括以下步骤:
更佳地,所述的步骤(5)具体为:
将每个采集到的样本的标签均标记为Y={y1,y2,…yN},当采集到的数据中存在该被标记的标签时,则将yN设为1,否则设为0;并将识别模型的预测值设置为P={p1,p2,…pN},γ+和γ-为模型的超参,分别设为0和4,并采用以下公式进行平衡优化:
其中,ASL为非对称损失函数Asymmetric Loss。
该利用上述的方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统,其主要特点是,所述的系统包括:
特征和标签编码器模块,用于对采集到的胸部X光片数据集中的相关数据信息进行特征数据提取以及标签数据提取;
双路径解码器模块,与所述的特征和标签编码器模块相连接,用于通过使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP,分别构建一个标签解码器以及特征解码器,并利用所述的标签解码器以及特征解码器对提取到的数据进行解码处理;以及
分类注意力模块,与所述的双路径解码器模块相连接,用于通过引入平衡参数,对所述的标签解码器以及特征解码器的输出值进行平衡处理,以获取最终的X光片图像识别结果。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质,使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征编码器模块。为了加强目标区域和识别标签之间的联系,本发明还创新性地引入了可学习的标签嵌入图,作为标签编码器。双路径解码模块则由标签解码器和特征解码器组成,通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征。双路径可以有效地优化视觉特征并匹配相应的标签,以提高精准识别的性能。其中,分类注意模块则是用于平衡特征解码器和标签解码器的输出,以实现更好的识别效果。本技术方案在CC-CXRI数据集上进行实验验证,相较于基线模型,具有更为突出的分类识别效果。
附图说明
图1为本发明的整体结构示意图。
图2为本发明的分类注意力模块结构示意图。
图3为本发明在一具体实施例中TransDD-PVT模型以及其基线模型PVTv2-B4病变区域定位的可视化结果图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
在详细说明根据本发明的实施例前,应该注意到的是,在下文中,术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
请参阅图1所示,该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其中,所述的方法包括以下步骤:
(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;
(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;
(3)构建双路解码器模块对提取到的相关信息解码处理;
(4)构建分类注意力模块对所述的双路解码器模块输出的解码信息进行分类识别处理,以得到目标对象的识别结果;
(5)使用非对称损失函数训练网络对采集到的数据集中类别分布不平衡的相关数据进行平衡优化。
作为本发明的优选实施方式,所述的步骤(1)具体包括以下步骤:
(1.1)从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图;
(1.2)将所述的原始胸部X光片图缩放为384×384pt,并使用数据增强方式对缩放后的图片进行处理,得到最终训练以及测试的图像。
在实际应用当中,上述步骤(1)具体为:
从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图。接着将原始X光片图像尺寸缩放成384×384pt,再使用数据增强方式(包括图像旋转,图像翻转,直方图变换)得到最终训练以及测试图像。
作为本发明的优选实施方式,所述的数据增强方式包括:
将经过缩放处理后的图像依次进行随机旋转[-15°,15°],随后针对图像随机进行水平翻转处理,并使用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]进行数据归一化处理,以得到最终训练以及测试的图像。
作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
(2.1)采用如下方式构建所述的特征编码器模块:
(2.2)采用如下方式构建所述的标签编码器模块:
(2.3)基于构建的所述的特征编码器模块和标签编码器模块,对采集到的胸部X光片进行相关特征以及标签的提取。
在实际应用当中,上述步骤(2)具体为:
步骤2.1:构建特征编码器模块:
本发明可以使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征提取网络,接着再将提取的3D特征图转成2D特征图其中h和w分别代表特征图的长和宽,d代表特征图的维度,这些参数都由原始的特征提取网络决定;
步骤2.2:构建标签编码器模块:
作为本发明的优选实施方式,所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块,所述的步骤(3)包括以下步骤:
(3.1)构建所述的标签解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建标签解码器,并在执行完每个操作之后,均使用层归一化和残差连接来进一步调整输出,得到一标签解码器的输出结果;
(3.2)构建所述的特征解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建特征解码器,并在执行完每个操作之后,均使用归一化和残差连接来进一步调整输出,得到一特征解码器的输出结果。
作为本发明的优选实施方式,所述的步骤(3.1)具体包括如下步骤:
其中,T为矩阵转置操作。
(3.1.2)接着2D特征图先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵一个Key矩阵以及一个Value矩阵再将所述的多头自注意力机制MHSA的输出值M,矩阵和矩阵传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
作为本发明的优选实施方式,所述的步骤(3.2)具体包括如下步骤:
其中,T为矩阵转置操作。
(3.2.2)接着2D特征图先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵一个Key矩阵以及一个Value矩阵再将所述的多头自注意力机制MHSA的输出值所述的标签嵌入图的Key矩阵K和Value矩阵V传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
在实际应用当中,上述步骤(3)具体为:
步骤3.1:标签解码器设计:
标签解码器主要由多头自注意力机制(multi-head self-attention,MHSA),多头交叉注意力机制(multi-head cross-attention,MHCA),以及一个多层MLP组成,并且在执行完每个操作之后,都会使用层归一化和残差连接来进一步调整输出。标签嵌入图首先经过一个线性映射层,产生一个query矩阵一个Key矩阵以及一个Value矩阵接着再将三个矩阵传入多头MHSA,如以下公式所示:
步骤3.2:特征解码器设计:
特征解码器的设计和标签解码器的设计类似。也是由MHSA,MHCA,以及多层MLP层三个部分组成,同样的,在执行完每个部分之后都紧跟着归一化和残差连接操作。MHSA的公式如下所示:
作为本发明的优选实施方式,所述的步骤(4)具体包括以下步骤:
在实际应用当中,上述步骤(4)具体为:
经过双路解码器之后,得到标签解码器的输出以及特征解码器的输出 分类注意力模块的作用是利用这两个输出,得到每个类别的分数,从而完成分类识别任务。将按行取均值,得到接着使用一个全连接网络,将维度d映射到类别数c,得到
步骤4.3:平衡两个输出:
引入平衡参数la,通过公式5,得到最终的目标识别预测分数。
作为本发明的优选实施方式,所述的步骤(5)具体为:
在实际应用当中,由于数据集中各类别分布不平衡,因此引入非对称损失函数。具体为:将每个采集到的样本的标签均标记为Y={y1,y2,…yN},当采集到的数据中存在该被标记的标签时,则将yN设为1,否则设为0;并将识别模型的预测值设置为P={p1,p2,…pN},γ+和γ-为模型的超参,分别设为0和4,并采用以下公式进行平衡优化:
其中,ASL为非对称损失函数。
该利用上述方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统,其中,所述的系统包括:
特征和标签编码器模块,用于对采集到的胸部X光片数据集中的相关数据信息进行特征数据提取以及标签数据提取;
双路径解码器模块,与所述的特征和标签编码器模块相连接,用于通过使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP,分别构建一个标签解码器以及特征解码器,并利用所述的标签解码器以及特征解码器对提取到的数据进行解码处理;以及
分类注意力模块,与所述的双路径解码器模块相连接,用于通过引入平衡参数,对所述的标签解码器以及特征解码器的输出值进行平衡处理,以获取最终的X光片图像识别结果。
在本发明的一具体实施例中,采用了本技术方案的该分类识别方法测试如下:
(1)实验数据集
本发明使用由中国胸部X线影像检查联合会(CC-CXRI)发布的胸部X光片数据集进行实验验证。该数据集由SYSU和CC-CXRI-P两个子数据集组成。其中,SYSU包含120,012张胸部X光片,共计14种类型的胸部疾病(实变、纤维化、结节、疝、肺不张、气胸、水肿、肺炎、肺气肿、积液、浸润、胸膜增厚、肿块、心脏肿大),每张图片中含有一种或者多种胸部疾病。CC-CXRI-P数据集中则包含7,921张胸部X光片,分为正常,病毒性肺炎(COVID-19新冠病毒性肺炎,非COVID-19新冠病毒性肺炎),其他类型肺炎。每张图片只含有一种类型的疾病。两个子数据集都按照80%的训练集,10%的验证集,以及10%的测试集进行划分。
(2)训练过程
训练图片缩放成384×384pt,并采用随机旋转,翻转,直方图均衡化等数据增强方式。初始学习率设为le-4,采用余弦退火算法衰减学习率,batch设置为32,训练20轮。
(3)测试结果
如图3所示,是本案提出的TransDD-PVT模型以及其基线模型PVTv2-B4病变区域定位的可视化结果图。第一行表示的原始X光片图像,第二行中黑色方框标注的位置为病灶所在区域,第三行和第四行分别为PVTv2-B4和TransDD-PVT病灶定位的结果图,图中颜色变化显著的区域就是模型定位的结果。通过对比可以看出,本发明提出的TransDD-PVT模型相较于其基线模型,可更好地定位病灶所在区域,从而提升胸部X光片的分类结果。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的装置,其中,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器,其中,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质,使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征编码器模块。为了加强目标区域和识别标签之间的联系,本发明还创新性地引入了可学习的标签嵌入图,作为标签编码器。双路径解码模块则由标签解码器和特征解码器组成,通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征。双路径可以有效地优化视觉特征并匹配相应的标签,以提高精准识别的性能。其中,分类注意模块则是用于平衡特征解码器和标签解码器的输出,以实现更好的识别效果。本技术方案在CC-CXRI数据集上进行实验验证,相较于基线模型,具有更为突出的分类识别效果。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (13)
1.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的方法包括以下步骤:
(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;
(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;
(3)构建双路解码器模块对提取到的相关信息解码处理;
(4)构建分类注意力模块对所述的双路解码器模块输出的解码信息进行分类识别处理,以得到目标对象的识别结果;
(5)使用非对称损失函数训练网络对采集到的数据集中类别分布不平衡的相关数据进行平衡优化。
2.根据权利要求1所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图;
(1.2)将所述的原始胸部X光片图缩放为384×384pt,并使用数据增强方式对缩放后的图片进行处理,得到最终训练以及测试的图像。
3.根据权利要求2所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的数据增强方式包括:
将经过缩放处理后的图像依次进行随机旋转[-15°,15°],随后针对图像随机进行水平翻转处理,并使用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]进行数据归一化处理,以得到最终训练以及测试的图像。
4.根据权利要求2所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)采用如下方式构建所述的特征编码器模块:
(2.2)采用如下方式构建所述的标签编码器模块:
(2.3)基于构建的所述的特征编码器模块和标签编码器模块,对采集到的胸部X光片进行相关特征以及标签的提取。
5.根据权利要求4所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块,所述的步骤(3)包括以下步骤:
(3.1)构建所述的标签解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建标签解码器,并在执行完每个操作之后,均使用层归一化和残差连接来进一步调整输出,得到一标签解码器的输出结果;
(3.2)构建所述的特征解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建特征解码器,并在执行完每个操作之后,均使用归一化和残差连接来进一步调整输出,得到一特征解码器的输出结果。
6.根据权利要求5所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(3.1)具体包括如下步骤:
其中,T为矩阵转置操作;
(3.1.2)接着2D特征图先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵一个Key矩阵以及一个Value矩阵再将所述的多头自注意力机制MHSA的输出值M,矩阵和矩阵传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
7.根据权利要求6所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(3.2)具体包括如下步骤:
其中,T为矩阵转置操作;
(3.2.2)接着2D特征图先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵一个Key矩阵以及一个Value矩阵再将所述的多头自注意力机制MHSA的输出值所述的标签嵌入图的Key矩阵K和Value矩阵V传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
8.根据权利要求7所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(4)具体包括以下步骤:
10.一种利用权利要求1至9中任一项所述的方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统,其特征在于,所述的系统包括:
特征和标签编码器模块,用于对采集到的胸部X光片数据集中的相关数据信息进行特征数据提取以及标签数据提取;
双路径解码器模块,与所述的特征和标签编码器模块相连接,用于通过使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP,分别构建一个标签解码器以及特征解码器,并利用所述的标签解码器以及特征解码器对提取到的数据进行解码处理;以及
分类注意力模块,与所述的双路径解码器模块相连接,用于通过引入平衡参数,对所述的标签解码器以及特征解码器的输出值进行平衡处理,以获取最终的X光片图像识别结果。
11.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的装置,其特征在于,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
12.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382324.7A CN115631183A (zh) | 2022-11-07 | 2022-11-07 | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211382324.7A CN115631183A (zh) | 2022-11-07 | 2022-11-07 | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115631183A true CN115631183A (zh) | 2023-01-20 |
Family
ID=84909124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211382324.7A Pending CN115631183A (zh) | 2022-11-07 | 2022-11-07 | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631183A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385789A (zh) * | 2023-04-07 | 2023-07-04 | 北京百度网讯科技有限公司 | 图像处理方法、训练方法、装置、电子设备及存储介质 |
CN116958659A (zh) * | 2023-07-04 | 2023-10-27 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
CN117522877A (zh) * | 2024-01-08 | 2024-02-06 | 吉林大学 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
-
2022
- 2022-11-07 CN CN202211382324.7A patent/CN115631183A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116385789A (zh) * | 2023-04-07 | 2023-07-04 | 北京百度网讯科技有限公司 | 图像处理方法、训练方法、装置、电子设备及存储介质 |
CN116385789B (zh) * | 2023-04-07 | 2024-01-23 | 北京百度网讯科技有限公司 | 图像处理方法、训练方法、装置、电子设备及存储介质 |
CN116958659A (zh) * | 2023-07-04 | 2023-10-27 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
CN116958659B (zh) * | 2023-07-04 | 2024-04-02 | 阿里巴巴达摩院(杭州)科技有限公司 | 图像分类方法、训练图像分类模型的方法及装置 |
CN117522877A (zh) * | 2024-01-08 | 2024-02-06 | 吉林大学 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
CN117522877B (zh) * | 2024-01-08 | 2024-04-05 | 吉林大学 | 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | COVID-19 classification by CCSHNet with deep fusion using transfer learning and discriminant correlation analysis | |
Li et al. | MVP-Net: multi-view FPN with position-aware attention for deep universal lesion detection | |
CN115631183A (zh) | 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 | |
CN109949276A (zh) | 一种于改进SegNet分割网络的淋巴结检测方法 | |
Xiang et al. | Towards interpretable skin lesion classification with deep learning models | |
CN113298815A (zh) | 一种半监督遥感图像语义分割方法、装置和计算机设备 | |
CN112052877B (zh) | 一种基于级联增强网络的图片细粒度分类方法 | |
CN112581458B (zh) | 一种图像处理方法和装置 | |
Shu et al. | LVC-Net: Medical image segmentation with noisy label based on local visual cues | |
Meng et al. | Few-shot image classification algorithm based on attention mechanism and weight fusion | |
Liu et al. | Sagan: Skip-attention gan for anomaly detection | |
CN115471885A (zh) | 动作单元相关性学习方法、装置、电子设备及存储介质 | |
CN113592769B (zh) | 异常图像的检测、模型的训练方法、装置、设备及介质 | |
Costa et al. | Covid-19 detection on chest x-ray and ct scan: A review of the top-100 most cited papers | |
Zhao et al. | SiUNet3+-CD: A full-scale connected Siamese network for change detection of VHR images | |
CN114048851A (zh) | 基于不均衡间隔的语义特征自学习方法、设备及存储介质 | |
Basu et al. | Do Preprocessing and Class Imbalance Matter to the Deep Image Classifiers for COVID-19 Detection? An Explainable Analysis | |
Malygina et al. | GANs' N Lungs: improving pneumonia prediction | |
Duan et al. | Image information hiding method based on image compression and deep neural network | |
CN116467463A (zh) | 基于子图学习的多模态知识图谱表示学习系统及产品 | |
CN108154107B (zh) | 一种确定遥感图像归属的场景类别的方法 | |
CN116958154A (zh) | 图像分割方法和装置、存储介质及电子设备 | |
CN115546638A (zh) | 基于暹罗级联差分神经网络的变化检测方法 | |
CN113409351B (zh) | 基于最优传输的无监督领域自适应遥感图像分割方法 | |
CN115762721A (zh) | 一种基于计算机视觉技术的医疗影像质控方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |