CN115631183A - 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 - Google Patents

基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 Download PDF

Info

Publication number
CN115631183A
CN115631183A CN202211382324.7A CN202211382324A CN115631183A CN 115631183 A CN115631183 A CN 115631183A CN 202211382324 A CN202211382324 A CN 202211382324A CN 115631183 A CN115631183 A CN 115631183A
Authority
CN
China
Prior art keywords
decoder
feature
classification
module
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211382324.7A
Other languages
English (en)
Inventor
朱煜
蒋晓奔
张琦
叶炜韬
杨达伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN202211382324.7A priority Critical patent/CN115631183A/zh
Publication of CN115631183A publication Critical patent/CN115631183A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其中,该方法包括:(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;(3)构建双路解码器模块对提取到的相关信息解码处理;(4)构建分类注意力模块进行分类识别处理;(5)使用非对称损失函数训练网络进行平衡优化。本发明还涉及一种相应的系统、装置、处理器及其存储介质。采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其存储介质,通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征,相较于基线模型,具有更好的X光分类识别的效果。

Description

基于双路解码器实现针对X光片图像的分类识别的方法、系 统、装置、处理器及存储介质
技术领域
本发明涉及数字图像技术领域,尤其涉及计算机视觉技术领域,具体是指一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质。
背景技术
目前,胸部X射线(Chest X-ray,CXR)是一种高效且廉价的影像学检查技术,常用于进行目标识别和筛查。随着深度卷积网络的不断发展,研究人员可以从大规模医疗数据中挖掘出可用的信息,各种基于CNN的方法被应用于胸部X射线的图像识别中。然而,大多数现有的基于CNN的方法仍然存在一些缺陷。比如:申请号为:CN202210171528.X的发明专利申请,其公开了在backbone的基础上添加了FCAnet多频谱通道注意力机制,增强backbone的特征提取能,其设计重点在于FCAnet多频谱通道注意力机制上;申请号为:CN202111510584.3的发明专利申请,使用了X光片信息,以及个人经历数据进行联合训练及识别,重点放在数据预处理上,对于网络模型的设计不具有使用优势;申请号为:CN202010157966.1的发明专利申请,其设计了双通道分离网络的胸部X光,两个通道分别用来提取浅层以及深层信息,最后再将提取的特征进行融合,用于最终的分类。上述公开的申请均存在的缺陷是:都是直接利用从CXR图像中提取的特征图对胸部图形进行识别分类,但没有考虑到局部特征与对应标签之间的相关性,而这也应当是当前亟需解决的缺陷问题。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种能够有效考虑局部特征与对应标签之间的相关性的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质。
为了实现上述目的,本发明的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质如下:
该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其主要特点是,所述的方法包括以下步骤:
(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;
(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;
(3)构建双路解码器模块对提取到的相关信息解码处理;
(4)构建分类注意力模块对所述的双路解码器模块输出的解码信息进行分类识别处理,以得到目标对象的识别结果;
(5)使用非对称损失函数训练网络对采集到的数据集中类别分布不平衡的相关数据进行平衡优化。
较佳地,所述的步骤(1)具体包括以下步骤:
(1.1)从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图;
(1.2)将所述的原始胸部X光片图缩放为384×384pt,并使用数据增强方式对缩放后的图片进行处理,得到最终训练以及测试的图像。
较佳地,所述的数据增强方式包括:
将经过缩放处理后的图像依次进行随机旋转[-15°,15°],随后针对图像随机进行水平翻转处理,并使用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]进行数据归一化处理,以得到最终训练以及测试的图像。
尤佳地,所述的步骤(2)具体包括以下步骤:
(2.1)采用如下方式构建所述的特征编码器模块:
使用CNN模型或者基于Transformer模型作为胸部X光片的特征提取网络,再将提取的3D特征图维度
Figure BDA0003928929330000021
转换成2D特征图
Figure BDA0003928929330000022
其中h和w分别代表特征图的长和宽,d代表特征图的维度;
(2.2)采用如下方式构建所述的标签编码器模块:
构建了一个可学习的标签嵌入图
Figure BDA0003928929330000023
作为标签编码器模块,其中N代表类别数,d代表维度,且所述的标签编码器模块与特征编码器模块的维度保持一致;
(2.3)基于构建的所述的特征编码器模块和标签编码器模块,对采集到的胸部X光片进行相关特征以及标签的提取。
尤佳地,所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块,所述的步骤(3)包括以下步骤:
(3.1)构建所述的标签解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建标签解码器,并在执行完每个操作之后,均使用层归一化和残差连接来进一步调整输出,得到一标签解码器的输出结果;
(3.2)构建所述的特征解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建特征解码器,并在执行完每个操作之后,均使用归一化和残差连接来进一步调整输出,得到一特征解码器的输出结果。
更佳地,所述的步骤(3.1)具体包括如下步骤:
(3.1.1)标签嵌入图
Figure BDA0003928929330000031
首先经过一个线性映射层,产生一个query矩阵
Figure BDA0003928929330000032
一个Key矩阵
Figure BDA0003928929330000033
以及一个Value矩阵
Figure BDA0003928929330000034
接着再将三个矩阵传入所述的多头自注意力机制MHSA中,如以下公式所示:
Figure BDA0003928929330000035
其中,T为矩阵转置操作。
(3.1.2)接着2D特征图
Figure BDA0003928929330000036
先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵
Figure BDA0003928929330000037
一个Key矩阵
Figure BDA0003928929330000038
以及一个Value矩阵
Figure BDA0003928929330000039
再将所述的多头自注意力机制MHSA的输出值M,矩阵
Figure BDA00039289293300000310
和矩阵
Figure BDA00039289293300000311
传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
Figure BDA00039289293300000312
(3.1.3)最后通过一个多层MLP处理,得到标签解码器的输出
Figure BDA00039289293300000313
更佳地,所述的步骤(3.2)具体包括如下步骤:
(3.2.1)标签嵌入图
Figure BDA00039289293300000314
首先经过一个线性映射层,产生一个query矩阵
Figure BDA00039289293300000315
一个Key矩阵
Figure BDA00039289293300000316
以及一个Value矩阵
Figure BDA00039289293300000317
接着再将三个矩阵传入所述的多头自注意力机制MHSA中,如以下公式所示:如以下公式所示:
Figure BDA00039289293300000318
其中,T为矩阵转置操作。
(3.2.2)接着2D特征图
Figure BDA00039289293300000319
先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵
Figure BDA00039289293300000320
一个Key矩阵
Figure BDA00039289293300000321
以及一个Value矩阵
Figure BDA00039289293300000322
再将所述的多头自注意力机制MHSA的输出值
Figure BDA00039289293300000323
所述的标签嵌入图的Key矩阵K和Value矩阵V传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
Figure BDA00039289293300000324
(3.2.3)最后通过一个多层MLP处理,得到特征解码器的输出
Figure BDA00039289293300000325
更佳地,所述的步骤(4)具体包括以下步骤:
(4.1)采用如下方式处理所述的标签解码器的输出
Figure BDA0003928929330000041
将标签解码器的输出
Figure BDA0003928929330000042
按行取均值,得到
Figure BDA0003928929330000043
再使用一个全连接网络,将
Figure BDA0003928929330000044
维度d映射到类别数c,得到
Figure BDA0003928929330000045
其中,
Figure BDA0003928929330000046
为Lo按行取均值的结果,
Figure BDA0003928929330000047
Figure BDA0003928929330000048
映射之后的结果。
(4.2)采用如下方式处理所述的特征解码器的输出
Figure BDA0003928929330000049
将特征解码器的输出
Figure BDA00039289293300000410
按行取最大值,得到
Figure BDA00039289293300000411
再使用一个全连接网络,将维度d映射到类别数c,得到
Figure BDA00039289293300000412
其中,
Figure BDA00039289293300000413
为Fo按行取均值的结果,
Figure BDA00039289293300000414
Figure BDA00039289293300000415
映射之后的结果。
(4.3)引入平衡参数la,将所述的标签解码器的输出
Figure BDA00039289293300000416
以及特征解码器的输出
Figure BDA00039289293300000417
进行平衡处理,从而得到最终的X光片图像识别结果SB,具体采用以下公式进行表示:
Figure BDA00039289293300000418
更佳地,所述的步骤(5)具体为:
将每个采集到的样本的标签均标记为Y={y1,y2,…yN},当采集到的数据中存在该被标记的标签时,则将yN设为1,否则设为0;并将识别模型的预测值设置为P={p1,p2,…pN},γ+和γ-为模型的超参,分别设为0和4,并采用以下公式进行平衡优化:
Figure BDA00039289293300000419
其中,ASL为非对称损失函数Asymmetric Loss。
该利用上述的方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统,其主要特点是,所述的系统包括:
特征和标签编码器模块,用于对采集到的胸部X光片数据集中的相关数据信息进行特征数据提取以及标签数据提取;
双路径解码器模块,与所述的特征和标签编码器模块相连接,用于通过使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP,分别构建一个标签解码器以及特征解码器,并利用所述的标签解码器以及特征解码器对提取到的数据进行解码处理;以及
分类注意力模块,与所述的双路径解码器模块相连接,用于通过引入平衡参数,对所述的标签解码器以及特征解码器的输出值进行平衡处理,以获取最终的X光片图像识别结果。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质,使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征编码器模块。为了加强目标区域和识别标签之间的联系,本发明还创新性地引入了可学习的标签嵌入图,作为标签编码器。双路径解码模块则由标签解码器和特征解码器组成,通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征。双路径可以有效地优化视觉特征并匹配相应的标签,以提高精准识别的性能。其中,分类注意模块则是用于平衡特征解码器和标签解码器的输出,以实现更好的识别效果。本技术方案在CC-CXRI数据集上进行实验验证,相较于基线模型,具有更为突出的分类识别效果。
附图说明
图1为本发明的整体结构示意图。
图2为本发明的分类注意力模块结构示意图。
图3为本发明在一具体实施例中TransDD-PVT模型以及其基线模型PVTv2-B4病变区域定位的可视化结果图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
在详细说明根据本发明的实施例前,应该注意到的是,在下文中,术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
请参阅图1所示,该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其中,所述的方法包括以下步骤:
(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;
(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;
(3)构建双路解码器模块对提取到的相关信息解码处理;
(4)构建分类注意力模块对所述的双路解码器模块输出的解码信息进行分类识别处理,以得到目标对象的识别结果;
(5)使用非对称损失函数训练网络对采集到的数据集中类别分布不平衡的相关数据进行平衡优化。
作为本发明的优选实施方式,所述的步骤(1)具体包括以下步骤:
(1.1)从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图;
(1.2)将所述的原始胸部X光片图缩放为384×384pt,并使用数据增强方式对缩放后的图片进行处理,得到最终训练以及测试的图像。
在实际应用当中,上述步骤(1)具体为:
从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图。接着将原始X光片图像尺寸缩放成384×384pt,再使用数据增强方式(包括图像旋转,图像翻转,直方图变换)得到最终训练以及测试图像。
作为本发明的优选实施方式,所述的数据增强方式包括:
将经过缩放处理后的图像依次进行随机旋转[-15°,15°],随后针对图像随机进行水平翻转处理,并使用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]进行数据归一化处理,以得到最终训练以及测试的图像。
作为本发明的优选实施方式,所述的步骤(2)具体包括以下步骤:
(2.1)采用如下方式构建所述的特征编码器模块:
使用CNN模型或者基于Transformer模型作为胸部X光片的特征提取网络,再将提取的3D特征图
Figure BDA0003928929330000071
转换成2D特征图
Figure BDA0003928929330000072
其中h和w分别代表特征图的长和宽,d代表特征图的维度;
(2.2)采用如下方式构建所述的标签编码器模块:
构建了一个可学习的标签嵌入图
Figure BDA0003928929330000073
作为标签编码器模块,其中N代表类别数,d代表维度,且所述的标签编码器模块与特征编码器模块的维度保持一致;
(2.3)基于构建的所述的特征编码器模块和标签编码器模块,对采集到的胸部X光片进行相关特征以及标签的提取。
在实际应用当中,上述步骤(2)具体为:
步骤2.1:构建特征编码器模块:
本发明可以使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征提取网络,接着再将提取的3D特征图
Figure BDA0003928929330000074
转成2D特征图
Figure BDA0003928929330000075
其中h和w分别代表特征图的长和宽,d代表特征图的维度,这些参数都由原始的特征提取网络决定;
步骤2.2:构建标签编码器模块:
为了能够更好地建立局部病变特征与对应标签之间的联系,本发明构建了一个可学习的标签嵌入图
Figure BDA0003928929330000076
作为标签编码器模块,其中N代表类别数,d代表维度,并且和特征编码器的维度保持一致。
作为本发明的优选实施方式,所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块,所述的步骤(3)包括以下步骤:
(3.1)构建所述的标签解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建标签解码器,并在执行完每个操作之后,均使用层归一化和残差连接来进一步调整输出,得到一标签解码器的输出结果;
(3.2)构建所述的特征解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建特征解码器,并在执行完每个操作之后,均使用归一化和残差连接来进一步调整输出,得到一特征解码器的输出结果。
作为本发明的优选实施方式,所述的步骤(3.1)具体包括如下步骤:
(3.1.1)标签嵌入图
Figure BDA0003928929330000077
首先经过一个线性映射层,产生一个query矩阵
Figure BDA0003928929330000078
一个Key矩阵
Figure BDA0003928929330000079
以及一个Value矩阵
Figure BDA00039289293300000710
接着再将三个矩阵传入所述的多头自注意力机制MHSA中,如以下公式所示:
Figure BDA00039289293300000711
其中,T为矩阵转置操作。
(3.1.2)接着2D特征图
Figure BDA0003928929330000081
先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵
Figure BDA0003928929330000082
一个Key矩阵
Figure BDA0003928929330000083
以及一个Value矩阵
Figure BDA0003928929330000084
再将所述的多头自注意力机制MHSA的输出值M,矩阵
Figure BDA0003928929330000085
和矩阵
Figure BDA0003928929330000086
传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
Figure BDA0003928929330000087
(3.1.3)最后通过一个多层MLP处理,得到标签解码器的输出
Figure BDA0003928929330000088
作为本发明的优选实施方式,所述的步骤(3.2)具体包括如下步骤:
(3.2.1)标签嵌入图
Figure BDA0003928929330000089
首先经过一个线性映射层,产生一个query矩阵
Figure BDA00039289293300000810
一个Key矩阵
Figure BDA00039289293300000811
以及一个Value矩阵
Figure BDA00039289293300000812
接着再将三个矩阵传入所述的多头自注意力机制MHSA中,如以下公式所示:如以下公式所示:
Figure BDA00039289293300000813
其中,T为矩阵转置操作。
(3.2.2)接着2D特征图
Figure BDA00039289293300000814
先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵
Figure BDA00039289293300000815
一个Key矩阵
Figure BDA00039289293300000816
以及一个Value矩阵
Figure BDA00039289293300000817
再将所述的多头自注意力机制MHSA的输出值
Figure BDA00039289293300000818
所述的标签嵌入图的Key矩阵K和Value矩阵V传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
Figure BDA00039289293300000819
(3.2.3)最后通过一个多层MLP处理,得到特征解码器的输出
Figure BDA00039289293300000820
在实际应用当中,上述步骤(3)具体为:
步骤3.1:标签解码器设计:
标签解码器主要由多头自注意力机制(multi-head self-attention,MHSA),多头交叉注意力机制(multi-head cross-attention,MHCA),以及一个多层MLP组成,并且在执行完每个操作之后,都会使用层归一化和残差连接来进一步调整输出。标签嵌入图
Figure BDA00039289293300000821
首先经过一个线性映射层,产生一个query矩阵
Figure BDA00039289293300000822
一个Key矩阵
Figure BDA00039289293300000823
以及一个Value矩阵
Figure BDA00039289293300000824
接着再将三个矩阵传入多头MHSA,如以下公式所示:
Figure BDA00039289293300000825
接着特征图
Figure BDA00039289293300000826
先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵
Figure BDA00039289293300000827
一个Key矩阵
Figure BDA00039289293300000828
以及一个Value矩阵
Figure BDA00039289293300000829
再将MHSA的输出M,矩阵
Figure BDA0003928929330000091
和矩阵
Figure BDA0003928929330000092
传入MHCA,计算公式如下所示:
Figure BDA0003928929330000093
最后,再通过一个多层MLP,得到标签解码器的输出
Figure BDA0003928929330000094
步骤3.2:特征解码器设计:
特征解码器的设计和标签解码器的设计类似。也是由MHSA,MHCA,以及多层MLP层三个部分组成,同样的,在执行完每个部分之后都紧跟着归一化和残差连接操作。MHSA的公式如下所示:
Figure BDA0003928929330000095
接着将MHSA的输出
Figure BDA0003928929330000096
和标签嵌入图产生的K和V传入MHCA中。
Figure BDA0003928929330000097
最后,再通过一个多层MLP,得到特征解码器的输出
Figure BDA0003928929330000098
作为本发明的优选实施方式,所述的步骤(4)具体包括以下步骤:
(4.1)采用如下方式处理所述的标签解码器的输出
Figure BDA0003928929330000099
将标签解码器的输出
Figure BDA00039289293300000910
按行取均值,得到
Figure BDA00039289293300000911
再使用一个全连接网络,将
Figure BDA00039289293300000912
维度d映射到类别数c,得到
Figure BDA00039289293300000913
其中,
Figure BDA00039289293300000914
为Lo按行取均值的结果,
Figure BDA00039289293300000915
Figure BDA00039289293300000916
映射之后的结果。
(4.2)采用如下方式处理所述的特征解码器的输出
Figure BDA00039289293300000917
将特征解码器的输出
Figure BDA00039289293300000918
按行取最大值,得到
Figure BDA00039289293300000919
再使用一个全连接网络,将维度d映射到类别数c,得到
Figure BDA00039289293300000920
其中,
Figure BDA00039289293300000921
为Fo按行取均值的结果,
Figure BDA00039289293300000922
Figure BDA00039289293300000923
映射之后的结果。
(4.3)引入平衡参数la,将所述的标签解码器的输出
Figure BDA00039289293300000924
以及特征解码器的输出
Figure BDA00039289293300000925
进行平衡处理,从而得到最终的X光片图像识别结果SB,具体采用以下公式进行表示:
Figure BDA00039289293300000926
在实际应用当中,上述步骤(4)具体为:
步骤4.1:处理标签解码器的输出
Figure BDA00039289293300000927
经过双路解码器之后,得到标签解码器的输出
Figure BDA00039289293300000928
以及特征解码器的输出
Figure BDA00039289293300000929
Figure BDA00039289293300000930
分类注意力模块的作用是利用这两个输出,得到每个类别的分数,从而完成分类识别任务。将
Figure BDA00039289293300000931
按行取均值,得到
Figure BDA00039289293300000932
接着使用一个全连接网络,将维度d映射到类别数c,得到
Figure BDA0003928929330000101
步骤4.2:处理特征解码器的输出
Figure BDA0003928929330000102
Figure BDA0003928929330000103
按行取最大值,得到
Figure BDA0003928929330000104
同样使用一个全连接网络,将维度d映射到类别数c,得到
Figure BDA0003928929330000105
步骤4.3:平衡两个输出:
引入平衡参数la,通过公式5,得到最终的目标识别预测分数。
Figure BDA0003928929330000106
作为本发明的优选实施方式,所述的步骤(5)具体为:
在实际应用当中,由于数据集中各类别分布不平衡,因此引入非对称损失函数。具体为:将每个采集到的样本的标签均标记为Y={y1,y2,…yN},当采集到的数据中存在该被标记的标签时,则将yN设为1,否则设为0;并将识别模型的预测值设置为P={p1,p2,…pN},γ+和γ-为模型的超参,分别设为0和4,并采用以下公式进行平衡优化:
Figure BDA0003928929330000107
其中,ASL为非对称损失函数。
该利用上述方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统,其中,所述的系统包括:
特征和标签编码器模块,用于对采集到的胸部X光片数据集中的相关数据信息进行特征数据提取以及标签数据提取;
双路径解码器模块,与所述的特征和标签编码器模块相连接,用于通过使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP,分别构建一个标签解码器以及特征解码器,并利用所述的标签解码器以及特征解码器对提取到的数据进行解码处理;以及
分类注意力模块,与所述的双路径解码器模块相连接,用于通过引入平衡参数,对所述的标签解码器以及特征解码器的输出值进行平衡处理,以获取最终的X光片图像识别结果。
在本发明的一具体实施例中,采用了本技术方案的该分类识别方法测试如下:
(1)实验数据集
本发明使用由中国胸部X线影像检查联合会(CC-CXRI)发布的胸部X光片数据集进行实验验证。该数据集由SYSU和CC-CXRI-P两个子数据集组成。其中,SYSU包含120,012张胸部X光片,共计14种类型的胸部疾病(实变、纤维化、结节、疝、肺不张、气胸、水肿、肺炎、肺气肿、积液、浸润、胸膜增厚、肿块、心脏肿大),每张图片中含有一种或者多种胸部疾病。CC-CXRI-P数据集中则包含7,921张胸部X光片,分为正常,病毒性肺炎(COVID-19新冠病毒性肺炎,非COVID-19新冠病毒性肺炎),其他类型肺炎。每张图片只含有一种类型的疾病。两个子数据集都按照80%的训练集,10%的验证集,以及10%的测试集进行划分。
(2)训练过程
训练图片缩放成384×384pt,并采用随机旋转,翻转,直方图均衡化等数据增强方式。初始学习率设为le-4,采用余弦退火算法衰减学习率,batch设置为32,训练20轮。
(3)测试结果
如图3所示,是本案提出的TransDD-PVT模型以及其基线模型PVTv2-B4病变区域定位的可视化结果图。第一行表示的原始X光片图像,第二行中黑色方框标注的位置为病灶所在区域,第三行和第四行分别为PVTv2-B4和TransDD-PVT病灶定位的结果图,图中颜色变化显著的区域就是模型定位的结果。通过对比可以看出,本发明提出的TransDD-PVT模型相较于其基线模型,可更好地定位病灶所在区域,从而提升胸部X光片的分类结果。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的装置,其中,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器,其中,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
采用了本发明的该基于Transformer双路解码器实现针对X光片图像进行分类识别的方法、系统、装置、处理器及其计算机可读存储介质,使用经典的CNN模型(例如ResNet101和DenseNet121)或者最新的基于Transformer的模型(例如Swin-B和PVT)作为胸部X光片的特征编码器模块。为了加强目标区域和识别标签之间的联系,本发明还创新性地引入了可学习的标签嵌入图,作为标签编码器。双路径解码模块则由标签解码器和特征解码器组成,通过一种新颖的交叉注意机制从图像特征和标签嵌入图中提取公共特征。双路径可以有效地优化视觉特征并匹配相应的标签,以提高精准识别的性能。其中,分类注意模块则是用于平衡特征解码器和标签解码器的输出,以实现更好的识别效果。本技术方案在CC-CXRI数据集上进行实验验证,相较于基线模型,具有更为突出的分类识别效果。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (13)

1.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的方法包括以下步骤:
(1)采集胸部X光片数据集,并对X光片图像进行预处理操作;
(2)构建特征编码器模块和标签编码器模块对采集的数据进行相关信息的提取;
(3)构建双路解码器模块对提取到的相关信息解码处理;
(4)构建分类注意力模块对所述的双路解码器模块输出的解码信息进行分类识别处理,以得到目标对象的识别结果;
(5)使用非对称损失函数训练网络对采集到的数据集中类别分布不平衡的相关数据进行平衡优化。
2.根据权利要求1所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)从数据集官网上下载CC-CXRI数据集,得到尺寸为1024×1024pt的原始胸部X光片图;
(1.2)将所述的原始胸部X光片图缩放为384×384pt,并使用数据增强方式对缩放后的图片进行处理,得到最终训练以及测试的图像。
3.根据权利要求2所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的数据增强方式包括:
将经过缩放处理后的图像依次进行随机旋转[-15°,15°],随后针对图像随机进行水平翻转处理,并使用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]进行数据归一化处理,以得到最终训练以及测试的图像。
4.根据权利要求2所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)采用如下方式构建所述的特征编码器模块:
使用CNN模型或者基于Transformer模型作为胸部X光片的特征提取网络,再将提取的3D特征图
Figure FDA0003928929320000011
转换成2D特征图
Figure FDA0003928929320000012
其中h和w分别代表特征图的长和宽,d代表特征图的维度;
(2.2)采用如下方式构建所述的标签编码器模块:
构建了一个可学习的标签嵌入图
Figure FDA0003928929320000013
作为标签编码器模块,其中N代表类别数,d代表维度,且所述的标签编码器模块与特征编码器模块的维度保持一致;
(2.3)基于构建的所述的特征编码器模块和标签编码器模块,对采集到的胸部X光片进行相关特征以及标签的提取。
5.根据权利要求4所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的双路解码器模块具体包括标签解码器模块以及特征解码器模块,所述的步骤(3)包括以下步骤:
(3.1)构建所述的标签解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建标签解码器,并在执行完每个操作之后,均使用层归一化和残差连接来进一步调整输出,得到一标签解码器的输出结果;
(3.2)构建所述的特征解码器模块:使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP构建特征解码器,并在执行完每个操作之后,均使用归一化和残差连接来进一步调整输出,得到一特征解码器的输出结果。
6.根据权利要求5所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(3.1)具体包括如下步骤:
(3.1.1)标签嵌入图
Figure FDA0003928929320000021
首先经过一个线性映射层,产生一个query矩阵
Figure FDA0003928929320000022
一个Key矩阵
Figure FDA0003928929320000023
以及一个Value矩阵
Figure FDA0003928929320000024
接着再将三个矩阵传入所述的多头自注意力机制MHSA中,如以下公式所示:
Figure FDA0003928929320000025
其中,T为矩阵转置操作;
(3.1.2)接着2D特征图
Figure FDA0003928929320000026
先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵
Figure FDA0003928929320000027
一个Key矩阵
Figure FDA0003928929320000028
以及一个Value矩阵
Figure FDA0003928929320000029
再将所述的多头自注意力机制MHSA的输出值M,矩阵
Figure FDA00039289293200000210
和矩阵
Figure FDA00039289293200000211
传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
Figure FDA00039289293200000212
(3.1.3)最后通过一个多层MLP处理,得到标签解码器的输出
Figure FDA00039289293200000213
7.根据权利要求6所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(3.2)具体包括如下步骤:
(3.2.1)标签嵌入图
Figure FDA00039289293200000214
首先经过一个线性映射层,产生一个query矩阵
Figure FDA00039289293200000215
一个Key矩阵
Figure FDA00039289293200000216
以及一个Value矩阵
Figure FDA00039289293200000217
接着再将三个矩阵传入所述的多头自注意力机制MHSA中,如以下公式所示:如以下公式所示:
Figure FDA0003928929320000031
其中,T为矩阵转置操作;
(3.2.2)接着2D特征图
Figure FDA0003928929320000032
先经过位置编码之后,再通过一个线性映射层,产生一个query矩阵
Figure FDA0003928929320000033
一个Key矩阵
Figure FDA0003928929320000034
以及一个Value矩阵
Figure FDA0003928929320000035
再将所述的多头自注意力机制MHSA的输出值
Figure FDA0003928929320000036
所述的标签嵌入图的Key矩阵K和Value矩阵V传入所述的多头交叉注意力机制MHCA中,如以下公式所示:
Figure FDA0003928929320000037
(3.2.3)最后通过一个多层MLP处理,得到特征解码器的输出
Figure FDA0003928929320000038
8.根据权利要求7所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(4)具体包括以下步骤:
(4.1)采用如下方式处理所述的标签解码器的输出
Figure FDA0003928929320000039
将标签解码器的输出
Figure FDA00039289293200000310
按行取均值,得到
Figure FDA00039289293200000311
再使用一个全连接网络,将
Figure FDA00039289293200000312
维度d映射到类别数c,得到
Figure FDA00039289293200000313
其中,
Figure FDA00039289293200000314
为Lo按行取均值的结果,
Figure FDA00039289293200000315
Figure FDA00039289293200000316
映射之后的结果;
(4.2)采用如下方式处理所述的特征解码器的输出
Figure FDA00039289293200000317
将特征解码器的输出
Figure FDA00039289293200000318
按行取最大值,得到
Figure FDA00039289293200000319
再使用一个全连接网络,将维度d映射到类别数c,得到
Figure FDA00039289293200000320
其中,
Figure FDA00039289293200000321
为Fo按行取均值的结果,
Figure FDA00039289293200000322
Figure FDA00039289293200000323
映射之后的结果;
(4.3)引入平衡参数la,将所述的标签解码器的输出
Figure FDA00039289293200000324
以及特征解码器的输出
Figure FDA00039289293200000325
进行平衡处理,从而得到最终的X光片图像识别结果SB,具体采用以下公式进行表示:
Figure FDA00039289293200000326
9.根据权利要求8所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法,其特征在于,所述的步骤(5)具体为:
将每个采集到的样本的标签均标记为Y={y1,y2,…yN},当采集到的数据中存在该被标记的标签时,则将yN设为1,否则设为0;并将识别模型的预测值设置为P={p1,p2,…pN},γ+和γ-为模型的超参,分别设为0和4,并采用以下公式进行平衡优化:
Figure FDA00039289293200000327
其中,ASL为非对称损失函数。
10.一种利用权利要求1至9中任一项所述的方法的基于Transformer双路解码器实现针对X光片图像进行分类识别的系统,其特征在于,所述的系统包括:
特征和标签编码器模块,用于对采集到的胸部X光片数据集中的相关数据信息进行特征数据提取以及标签数据提取;
双路径解码器模块,与所述的特征和标签编码器模块相连接,用于通过使用多头自注意力机制MHSA,多头交叉注意力机制MHCA以及一个多层MLP,分别构建一个标签解码器以及特征解码器,并利用所述的标签解码器以及特征解码器对提取到的数据进行解码处理;以及
分类注意力模块,与所述的双路径解码器模块相连接,用于通过引入平衡参数,对所述的标签解码器以及特征解码器的输出值进行平衡处理,以获取最终的X光片图像识别结果。
11.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的装置,其特征在于,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
12.一种基于Transformer双路解码器实现针对X光片图像进行分类识别的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
13.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1至9中任一项所述的基于Transformer双路解码器实现针对X光片图像进行分类识别的方法的各个步骤。
CN202211382324.7A 2022-11-07 2022-11-07 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质 Pending CN115631183A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211382324.7A CN115631183A (zh) 2022-11-07 2022-11-07 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211382324.7A CN115631183A (zh) 2022-11-07 2022-11-07 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质

Publications (1)

Publication Number Publication Date
CN115631183A true CN115631183A (zh) 2023-01-20

Family

ID=84909124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211382324.7A Pending CN115631183A (zh) 2022-11-07 2022-11-07 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质

Country Status (1)

Country Link
CN (1) CN115631183A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385789A (zh) * 2023-04-07 2023-07-04 北京百度网讯科技有限公司 图像处理方法、训练方法、装置、电子设备及存储介质
CN116958659A (zh) * 2023-07-04 2023-10-27 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN117522877A (zh) * 2024-01-08 2024-02-06 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116385789A (zh) * 2023-04-07 2023-07-04 北京百度网讯科技有限公司 图像处理方法、训练方法、装置、电子设备及存储介质
CN116385789B (zh) * 2023-04-07 2024-01-23 北京百度网讯科技有限公司 图像处理方法、训练方法、装置、电子设备及存储介质
CN116958659A (zh) * 2023-07-04 2023-10-27 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN116958659B (zh) * 2023-07-04 2024-04-02 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN117522877A (zh) * 2024-01-08 2024-02-06 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法
CN117522877B (zh) * 2024-01-08 2024-04-05 吉林大学 一种基于视觉自注意力的胸部多疾病诊断模型的构建方法

Similar Documents

Publication Publication Date Title
Wang et al. COVID-19 classification by CCSHNet with deep fusion using transfer learning and discriminant correlation analysis
Li et al. MVP-Net: multi-view FPN with position-aware attention for deep universal lesion detection
CN115631183A (zh) 基于双路解码器实现针对x光片图像的分类识别的方法、系统、装置、处理器及存储介质
CN109949276A (zh) 一种于改进SegNet分割网络的淋巴结检测方法
Xiang et al. Towards interpretable skin lesion classification with deep learning models
CN113298815A (zh) 一种半监督遥感图像语义分割方法、装置和计算机设备
CN112052877B (zh) 一种基于级联增强网络的图片细粒度分类方法
CN112581458B (zh) 一种图像处理方法和装置
Shu et al. LVC-Net: Medical image segmentation with noisy label based on local visual cues
Meng et al. Few-shot image classification algorithm based on attention mechanism and weight fusion
Liu et al. Sagan: Skip-attention gan for anomaly detection
CN115471885A (zh) 动作单元相关性学习方法、装置、电子设备及存储介质
CN113592769B (zh) 异常图像的检测、模型的训练方法、装置、设备及介质
Costa et al. Covid-19 detection on chest x-ray and ct scan: A review of the top-100 most cited papers
Zhao et al. SiUNet3+-CD: A full-scale connected Siamese network for change detection of VHR images
CN114048851A (zh) 基于不均衡间隔的语义特征自学习方法、设备及存储介质
Basu et al. Do Preprocessing and Class Imbalance Matter to the Deep Image Classifiers for COVID-19 Detection? An Explainable Analysis
Malygina et al. GANs' N Lungs: improving pneumonia prediction
Duan et al. Image information hiding method based on image compression and deep neural network
CN116467463A (zh) 基于子图学习的多模态知识图谱表示学习系统及产品
CN108154107B (zh) 一种确定遥感图像归属的场景类别的方法
CN116958154A (zh) 图像分割方法和装置、存储介质及电子设备
CN115546638A (zh) 基于暹罗级联差分神经网络的变化检测方法
CN113409351B (zh) 基于最优传输的无监督领域自适应遥感图像分割方法
CN115762721A (zh) 一种基于计算机视觉技术的医疗影像质控方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination