CN117392473A - 基于多模态原型网络的可解释医学图像分类系统 - Google Patents

基于多模态原型网络的可解释医学图像分类系统 Download PDF

Info

Publication number
CN117392473A
CN117392473A CN202311426940.2A CN202311426940A CN117392473A CN 117392473 A CN117392473 A CN 117392473A CN 202311426940 A CN202311426940 A CN 202311426940A CN 117392473 A CN117392473 A CN 117392473A
Authority
CN
China
Prior art keywords
prototype
image
feature
network
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311426940.2A
Other languages
English (en)
Inventor
刘嵩
王光晨
李金保
田诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202311426940.2A priority Critical patent/CN117392473A/zh
Publication of CN117392473A publication Critical patent/CN117392473A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明公开了基于多模态原型网络的可解释医学图像分类系统,包括:取待分类的医学图像,将待分类的医学图像输入到训练后的多模态原型网络中,输出可解释医学图像分类结果;其中,训练后的多模态原型网络,对待分类的医学图像进行图像特征提取,得到图像特征图,为图像特征图嵌入位置特征,将嵌入位置信息的特征图划分为若干个潜在补丁,计算每一个潜在补丁与已知疾病原型的距离,找到距离原型最近的潜在补丁,将与最近的潜在补丁处于相同位置的原始医学图像区域进行可视化显示,同时,将距离转换为相似性分数,将相似性分数转换为预测分数,得到医学图像分类结果;其中已知疾病原型是训练集中已知病变图像区域对应的特征图。

Description

基于多模态原型网络的可解释医学图像分类系统
技术领域
本发明涉及图像处理技术领域,特别是涉及基于多模态原型网络的可解释医学图像分类系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
医学图像处理是指计算机图像处理技术对医学图像进行分析和处理,它可以辅助医生对病变体以及其它感兴趣的区域进行定性定量的分析,从而大大提高医疗诊断的准确性和可靠性。近几十年来,使用深度神经网络的自动化诊断方法取得了很高的性能,但是模型由于缺乏可解释性,导致这些模型在临床中很少使用。这是因为医疗决策关乎病人生命,这要求模型不仅有高准确性,还需要给出模型推理的依据。可解释人工智能(XAI,eXplanable Artificial Intelligence)旨在研究可解释的模型,同时保持高水平的学习性能和预测准确性。
发明人发现,近年来,原型网络受到了研究者的关注,原型通过比较待测试图像的区域补丁与特征原型的相似度来给出分类判断依据。现有的方法其在生成原型时,原型会不可避免的生成在一些重复出现的相似医学背景区域中,因此得到的原型可能呈现出疾病无关的特征。在胸部x射线图像中,大部分区域都是重复的健康区域,病变区域非常小并且是稀疏的,这为生成准确的疾病原型制造了障碍。最近的研究表明,机器学习模型容易学习医学无关特征(例如健康组织的模式)和预测目标(例如肿瘤边缘的类型)之间的虚假关联。除此之外,传统的基于原型的解决方案只关注原型在像素特征的相似度,忽略了原型的位置信息,在医学图像中,一些疾病往往发生在相似位置,这些信息并没有被利用。
发明内容
为了解决现有技术的不足,本发明提供了基于多模态原型网络的可解释医学图像分类系统;利用多模态数据引入专家知识,值得注意的是,本发明的模型仅仅在训练阶段使用医学图像和其对应医学文本报告,而在测试阶段,本发明只使用待测试医学图像。本发明的网络通过利用医学文本报告来为原型训练提供文本语义支持。与其他方法相比,本发明的模型保证了原型生成在医学语义密集的区域而不是无用的医学背景区域,为原型训练提供了专家依据,提高了模型的可解释性。本发明设计了一个位置嵌入层,生成的原型可以携带位置信息。此外,本发明还提出了一种多因子相似性计算方法,该方法使模型能够综合像素和位置信息来进行分类决策。
基于多模态原型网络的可解释医学图像分类系统,包括:
获取模块,其被配置为:获取训练集,所述训练集为已知健康区域和病变区域的医学图像和医学诊断报告;
训练模块,其被配置为:将训练集,输入到多模态原型网络中,对网络进行训练得到训练后的多模态原型网络;
输出模块,其被配置为:获取待分类的医学图像,将待分类的医学图像输入到训练后的多模态原型网络中,输出可解释医学图像分类结果;
其中,训练后的多模态原型网络,对待分类的医学图像进行图像特征提取,得到图像特征图,为图像特征图嵌入位置特征,将嵌入位置信息的特征图划分为若干个潜在补丁,计算每一个潜在补丁与已知疾病原型的距离,找到距离原型最近的潜在补丁,将与最近的潜在补丁处于相同位置的原始医学图像区域进行可视化显示,同时,将距离转换为相似性分数,将相似性分数转换为预测分数,得到医学图像分类结果;其中已知疾病原型是训练集中已知病变图像区域对应的特征图。
上述技术方案具有如下优点或有益效果:
本发明中设计了一种包括特征提取层、多模态注意力层,位置嵌入层,原型层和分类层的可解释医学图像分类模型;多模态注意力层解决了长期困扰于其他基于原型模型中普遍存在的局限性问题,即存在不明显的原型含义,可以帮助训练更为准确的原型。位置嵌入层证明了在原型中嵌入其他信息的可能性,提升了模型分类的精度。设计的原型激活限制性损失,抑制了疾病原型在非文本关联区域的激活,促进了原型学习,远离了可能出现在不是原型指定类中的任何特性。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一的模型流程图;
图2为本发明实施例一的多模态注意力模块示意图;
图3为本发明实施例一的位置嵌入层示意图;
图4为本发明实施例一的原型可视化。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
本实施例提供了基于多模态原型网络的可解释医学图像分类系统;
基于多模态原型网络的可解释医学图像分类系统,包括:
获取模块,其被配置为:获取训练集,所述训练集为已知健康区域和病变区域的医学图像和医学诊断报告;
训练模块,其被配置为:将训练集,输入到多模态原型网络中,对网络进行训练得到训练后的多模态原型网络;
输出模块,其被配置为:获取待分类的医学图像,将待分类的医学图像输入到训练后的多模态原型网络中,输出可解释医学图像分类结果;
其中,训练后的多模态原型网络,对待分类的医学图像进行图像特征提取,得到图像特征图,为图像特征图嵌入位置特征,将嵌入位置信息的特征图划分为若干个潜在补丁,计算每一个潜在补丁与已知疾病原型的距离,找到距离原型最近的潜在补丁,将与最近的潜在补丁处于相同位置的原始医学图像区域进行可视化显示,同时,将距离转换为相似性分数,将相似性分数转换为预测分数,得到医学图像分类结果;其中已知疾病原型是训练集中已知病变图像区域对应的特征图。
进一步地,所述将训练集,输入到多模态原型网络中,对网络进行训练得到训练后的多模态原型网络,其中,多模态原型网络,网络结构包括:
图像特征提取层和文本特征提取层;
图像特征提取层的输入端用于输入医学图像,文本特征提取层的输入端用于输入医学诊断报告;
所述图像特征提取层的输出端分别与位置嵌入层的输入端和多模态注意力层的输入端连接;
所述文本特征提取层的输出端与多模态注意力层的输入端连接;
所述位置嵌入层的输出端与原型层的输入端连接;
所述多模态注意力层的输出端与原型层的输入端连接;
原型层的输出端与分类层的输入端连接,分类层的输出端用于输出分类结果。
如图1所示,本实施例中可解释医学图像分类模型包括特征提取层(FeatureExtraction Layer)、多模态注意力层(Multimodal Attention Layer)、位置嵌入层(Position Embedding layer)、原型层(Prototype Layer)和分类层(ClassificationLayer)。
进一步地,所述图像特征提取层,采用Resnet-50网络来实现。
z=pz(Ez(xz))
其中,z表示经过编码后的图像特征,pz表示图像非线性投影器,Ez表示Resnet50编码器,xz表示原始输入图像;
示例性地,使用ImageNet上预先训练的Reset-50作为图像编码器。
t=pt(Et(xt))
其中,t表示经过编码后的文本特征,pt表示文本非线性投影器,Et表示BERT编码器,xt表示输入的医学文本报告;
进一步地,所述文本特征提取层,采用BERT网络来实现。为了从医学中更好地提取文本特征报告,使用BERT作为文本特征提取器。使用非线性投影函数分别将图像特征和文本特征投影到联合嵌入空间。
进一步地,如图3所示,所述位置嵌入层,用于嵌入位置信息;
其中,x,y分别代表水平和垂直位置索引,i,j∈[0,D/4]代表维度。位置特征PE(x,y,2i)、PE(x,y,2i+1)、PE(x,y,2j+D/2)和PE(x,y,2j+D/2)被嵌入到特征图中;PE(x,y,2i)表示嵌入的水平位置特征,PE(x,y,2i+1)表示嵌入的水平位置特征,PE(x,y,2j+D/2)表示嵌入的垂直位置特征,PE(x,y,2j+D/2)表示嵌入的垂直位置特征;
为了不影响原型投影和原型可视化,使用特征拼接的方式将位置嵌入与特征图拼接在一起,包含位置编码的新表示为:
其中,Concat(,)表示元素拼接,其中z表示图像像素特征,PE表示嵌入的位置特征向量。
应理解地,使用2D感知位置嵌入将水平和垂直位置信息与特征图连接起来,以生成具有2D位置信息的向量表示。生成的原型也携带位置信息。位置编码与图像特征图具有相同的大小和维度。具体地说,在水平或者垂直方向上生成一个正弦或者余弦信号,所有的正弦或者余弦信号将拼接成D维。其中前D/2维描述水平位置,后D/2维描述垂直位置。这种位置编码技术的优点是不向神经网络添加新的可训练参数。
进一步地,如图2所示,所述多模态注意力层,用于使用图像特征和文本特征计算相似度,生成多模态注意力矩阵:
首先计算文本特征和图像所有表征子区域之间的点积相似度:
Si=t·zi
其中,Si代表文本特征和图像第i个子区域特征图之间的相似度,t表示编码后的文本特征,zi表示编码后的图像特征图的第i个特征向量;
在注意力图上使用ReLu激活函数,以使不相似的图像文字区域之间的注意权重为零;
Hi=max(0,Si)
其中,Hi表示经过Reu函数处理过的相似性分数,Si表示代表文本特征和图像第i个子区域特征图之间的相似度,max表示取最大值;
计算图像子区域的多模态注意力,注意力权重ai是文本特征在所有图像区域上的归一化相似度:
其中,是温度参数,Hi表示经过Relu函数处理过的相似性分数,Hj表示经过Relu函数处理过的相似性分数,N表示特征图的特征向量补丁个数,j表示第j个补丁。
基于图像特征和文本特征计算多模态注意力权重矩阵。模型学习的注意力是根据不同的图像子区域对给定语句的意义进行权衡。
进一步地,所述原型层,由C组原型单元构成,其中C为疾病个数,每组原型单元g包含K个疾病原型;每个原型单元g的作用是计算该单元的疾病原型与特征图各补丁z之间的欧式距离;
所述原型层,是指Prototype layer,原型层使用多因子相似度机制计算特征图潜在补丁和疾病原型之间的欧式距离,并将距离转换为相似性分数:
其中,z1分别为图像潜在补丁和疾病原型的视觉特征,z2,/>分别为图像潜在补丁和疾病原型的位置嵌入特征;α,β分别为视觉特征相似度和位置特征相似度的超参数,/>表示原型单元的计算过程,/>表示嵌入位置信息后的特征图的各个补丁(特征图是7x7的,一共49块,每一块都称为一个补丁/>这里/>指的49个每一个补丁);
图像潜在补丁是对图像特征图进行网格化切分得到的;每一个补丁的尺寸与原型的尺寸大小一致;
疾病原型的视觉特征,是使用Resnet50对训练集已知疾病类型的病灶图像提取的视觉特征;
疾病原型的位置嵌入特征,是对训练集已知疾病类型的病灶图像提取的位置特征。
应理解地,原型向量和图像特征均由两部分组成,即像素特征和位置特征两部分。所以使用将图像信息和位置信息分开计算的多因子相似度。通过该过程,可以基于相应原型和输入图像之间的图像特征和位置特征之间的相似性综合考虑来得出分类结果。
所述原型层使用原型激活限制损失,利用多模态注意力矩阵来辅助原型训练和激活;以离原型最近的补丁为依据得出分类结果。在训练集医学胸片的特征图上为每个疾病学习多个疾病原型。使用原型激活限制损失,可以有效限制非文本相关疾病原型的激活区域。
特征图输入所述原型层,原型层能找到距离疾病原型最近的补丁,为图像分类提供依据,疾病原型定义为已知疾病类型的一个形状为(H1*W1*D)的可训练张量,此处H1<H,W1<W,同时,可以使用一种无偏差的广义卷积形式,其中,设定疾病类型c的第k个原型充当核,通过在形状为(H*W*D)的接受域/>上滑动,并计算原型/>与其当前接受域/>之间的欧式距离,接受域/>称之为一个补丁;
应用最小池化,选取接受域z中最接近原型的形状为(H1*Wl*D)的补丁;最近的潜在补丁和原型/>之间的距离决定了原型在输入图像中存在的程度;
选取原型之后进行原型可视化,为了有助于对决策可解释性的可视化,对原型进行投影操作,采用与可解释网络ProtoPNet相同的策略,选取距离原型最近的补丁作为原型投影对原型进行近似性表示,达到原型可视化的目的。每个原型被投影到与该原型同一类中的最近的潜在特征块上,这样就可以查看在图像分类决策中提供贡献的任一原型。H1*W1*D是原型的维度,H*W*D是特征图(7x7xD)的维度。
进一步地,所述分类层,采用全连接层来实现,使用分组的全连接层将相似性分数转换为预测分数,在每组分类层中,仅考虑一种疾病类别对应的原型来计算相似度。
预测分数p(yc|x):
其中,σ表示sigmoid激活函数,表示原型/>产生的相似度分数对应的权重,表示了每个原型对分类的重要性。
多标签分类是每个类别的二分类问题,在分类层中,本发明使用分组的全连接层来实现,在每组分类层中,本发明仅考虑设定的13种疾病类型c的原型来计算相似度分数。
进一步地,所述将训练集,输入到多模态原型网络中,对网络进行训练得到训练后的多模态原型网络,网络训练过程包括:
将训练集的医学图像输入到图像特征提取层,输出提取的图像特征图;
将训练集的医学诊断报告输入到文本特征提取层,输出提取的文本特征;
对图像特征图,嵌入位置信息,得到嵌入位置的图像特征图;
将图像特征图和文本特征,均输入到多模态注意力层中,计算图像特征和文本特征的特征相似度,生成多模态注意力矩阵;基于多模态注意力矩阵构造原型激活限制损失函数;
将嵌入位置的图像特征图输入到原型层,原型层将嵌入位置的图像特征图进行网格化分割,得到若干个特征图潜在补丁,计算每个特征图潜在补丁与已知疾病原型的欧式距离,将欧式距离转换为相似性分数;全连接将相似性分数转换为预测分数,给出图像分类结果;其中,已知疾病原型,是指已知疾病类型的病变区域对应的图像特征图;所述已知疾病类型的尺寸与特征图潜在补丁的尺寸大小一致;
当网络的总损失函数值不再下降时,停止训练,得到训练后的多模态原型网络。
训练整个网络需要学习图像编码器Ez的参数用于图像特征映射,文本编码器Et用于文本特征映射。图像和文本的联合嵌入语义空间的非线性投影器pz,pt,学习原型以及全连接层参数/>
分类损失。模型在学习时很难学习阳性实例(带有病理的图像),这可能是因为图像的标签非常稀疏,因为标签中的“0”远远多于“1”。为了解决类别标签不平衡的问题,使用加权的平衡损失来加强对正实例的学习。
其中,表示分类损失函数;/>和/>分别是在疾病c上标签为“0”和标签为“1”的样本数量。/>是第i个样本xi的预测分数;γ为平衡参数,/>是样本xi在类别c上的真实标签;
原型激活限制损失:
其中,Lres表示原型激活限制损失函数;
表示原型/>不属于该图像所属类别Y;/>表示原型属于该图像所属类别Y;/>表示原型/>与/>之间的欧式距离;Mi表示第i个图像的多模态注意力矩阵;⊙表示Hadamard product(哈达玛积);
聚类损失和分离损失。通过聚类损失,本发明鼓励每个阳性样本具有一些潜在的补丁,这些补丁至少接近一个其自身类型的原型。通过分离损失,本发明鼓励每个阴性样本的补丁远离这些原型。
其中,表示聚类损失函数;/>表示分离损失函数;
yc表示图像在疾病c上的真实标签;表示嵌有位置特征的特征图;/>表示第c类疾病的k个疾病原型。
为了对齐表示并学习联合嵌入,需要一个多模态关联的训练目标。在这里,本发明为学习多模态表征设置了一个对比目标。
对于大小为N的批次,图像和文本投影的全局对齐的对称对比损失有助于模型学习共享的潜在语义。医学报告包含医学图像详细描述,因此期望成对的图像和报告在多模态语义空间中具有相似的语义信息。
模型使用对比损失函数最小化负对数后验概率:
其中,τ2是缩放参数,<zi,ti>表示图像表征和文本特征之间的余弦相似度。
进一步地,网络的总损失函数,公式表达为:
L=LclscontLcontresLresclstLclstsepLsep
其中,λcont,λres,λclst,λsep为平衡损失的超参数。
原型可视化:学习到的潜在原型需要投影到训练图像以实现可解释。具体地说,本发明用训练图像的距离原型最近的补丁来替换原型,这些潜在补丁自然也是相应原型激活最强的部分,通过将原型单元生成的激活图上采样到图像x的大小,并且x的最强激活补丁由(上采样的)激活图中的高激活区域指示。由于本发明的原型和潜在特征包含图像特征和位置特征两部分,本发明只使用图像特征部分进行原型投影。
每个原型用公式表示:
其中,表示疾病原型的像素特征,z1表示特征图潜在补丁的像素特征,Z表示特征图,z表示特征图的每一个潜在补丁。原型可视化的一些示例如图4所示。
在实验中,将本方法应用于两个权威的多标签数据集MIMIC-CXR和OpenI。在接下来的实验中,将这三个数据集分为训练集、测试集和验证集三个子集,并且与一系列基线模型进行对比,验证模型的有效性。
将本实施例中的模型与数据集MIMIC-CXR和OpenI上的其他基线模型进行了比较,实验结果具有明显提升。待分类图像和配对医学报告通过特征提取层获得图像特征和文本特征;使用图像特征和文本特征计算相似度生成多模态注意力矩阵。使用2D感知位置嵌入为图像特征嵌入位置信息;原型层使用原型激活损失有效限制非文本相关区域的原型激活,计算特征图潜在补丁和疾病原型之间的欧式距离,生成相似性分数,并将相似性分数转换为预测分数,实现图像分类决策,得到分类结果;解决了传统模型中原型生成不准确、原型生成缺乏依据,以及丢失位置信息,容易造成分类错误的问题。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于多模态原型网络的可解释医学图像分类系统,其特征是,包括:
获取模块,其被配置为:获取训练集,所述训练集为已知健康区域和病变区域的医学图像和医学诊断报告;
训练模块,其被配置为:将训练集,输入到多模态原型网络中,对网络进行训练得到训练后的多模态原型网络;
输出模块,其被配置为:获取待分类的医学图像,将待分类的医学图像输入到训练后的多模态原型网络中,输出可解释医学图像分类结果;
其中,训练后的多模态原型网络,对待分类的医学图像进行图像特征提取,得到图像特征图,为图像特征图嵌入位置特征,将嵌入位置信息的特征图划分为若干个潜在补丁,计算每一个潜在补丁与已知疾病原型的距离,找到距离原型最近的潜在补丁,将与最近的潜在补丁处于相同位置的原始医学图像区域进行可视化显示,同时,将距离转换为相似性分数,将相似性分数转换为预测分数,得到医学图像分类结果;其中已知疾病原型是训练集中已知病变图像区域对应的特征图。
2.如权利要求1所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述将训练集,输入到多模态原型网络中,对网络进行训练得到训练后的多模态原型网络,其中,多模态原型网络,网络结构包括:
图像特征提取层和文本特征提取层;
图像特征提取层的输入端用于输入医学图像,文本特征提取层的输入端用于输入医学诊断报告;
所述图像特征提取层的输出端分别与位置嵌入层的输入端和多模态注意力层的输入端连接;
所述文本特征提取层的输出端与多模态注意力层的输入端连接;
所述位置嵌入层的输出端与原型层的输入端连接;
所述多模态注意力层的输出端与原型层的输入端连接;
原型层的输出端与分类层的输入端连接,分类层的输出端用于输出分类结果。
3.如权利要求2所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述图像特征提取层,采用Resnet-50网络来实现;
z=pz(Ez(xz))
其中,z表示经过编码后的图像特征,pz表示图像非线性投影器,Ez表示Resnet50编码器,xz表示原始输入图像。
4.如权利要求2所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述文本特征提取层,采用BERT网络来实现。
5.如权利要求2所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述位置嵌入层,用于嵌入位置信息;
其中,x,y分别代表水平和垂直位置索引,i,j∈[0,D/4]代表维度;位置特征PE(x,y,2i)、PE(x,y,2i+1)、PE(x,y,2j+D/2)和PE(x,y,2j+D/2)被嵌入到特征图中;PE(x,y,2i)表示嵌入的水平位置特征,PE(x,y,2i+1)表示嵌入的水平位置特征,PE(x,y,2j+D/2)表示嵌入的垂直位置特征,PE(x,y,2j+D/2)表示嵌入的垂直位置特征;
使用特征拼接的方式将位置嵌入与特征图拼接在一起,包含位置编码的新表示为:
其中,Concat(z,PE)表示元素拼接,其中z表示图像像素特征,PE表示嵌入的位置特征向量。
6.如权利要求2所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述多模态注意力层,用于使用图像特征和文本特征计算相似度,生成多模态注意力矩阵:
首先计算文本特征和图像所有表征子区域之间的点积相似度:
Si=t·zi
其中,Si代表文本特征和图像第i个子区域特征图之间的相似度,t表示编码后的文本特征,zi表示编码后的图像特征图的第i个特征向量;
在注意力图上使用ReLu激活函数,以使不相似的图像文字区域之间的注意权重为零;
Hi=max(0,Si)
其中,Hi表示经过Relu函数处理过的相似性分数,Si表示代表文本特征和图像第i个子区域特征图之间的相似度,max表示取最大值;
计算图像子区域的多模态注意力,注意力权重ai是文本特征在所有图像区域上的归一化相似度:
其中,是温度参数,Hi表示经过Relu函数处理过的相似性分数,Hj表示经过Relu函数处理过的相似性分数,N表示特征图的特征向量补丁个数,j表示第j个补丁。
7.如权利要求2所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述原型层,由C组原型单元构成,其中C为疾病个数,每组原型单元g包含K个疾病原型;每个原型单元g的作用是计算该单元的疾病原型与特征图各补丁z之间的欧式距离;所述原型层使用多因子相似度机制计算特征图潜在补丁和疾病原型之间的欧式距离,并将距离转换为相似性分数:
其中,z1分别为图像潜在补丁和疾病原型的视觉特征,z2,/>分别为图像潜在补丁和疾病原型的位置嵌入特征;α,β分别为视觉特征相似度和位置特征相似度的超参数,表示原型单元的计算过程,/>表示嵌入位置信息后的特征图的各个补丁。
8.如权利要求2所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述分类层,采用全连接层来实现,使用分组的全连接层将相似性分数转换为预测分数,在每组分类层中,仅考虑一种疾病类别对应的原型来计算相似度;
预测分数p(yc|x):
其中,σ表示sigmoid激活函数,表示原型/>产生的相似度分数对应的权重,表示了每个原型对分类的重要性。
9.如权利要求2所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,所述将训练集,输入到多模态原型网络中,对网络进行训练得到训练后的多模态原型网络,网络训练过程包括:
将训练集的医学图像输入到图像特征提取层,输出提取的图像特征图;
将训练集的医学诊断报告输入到文本特征提取层,输出提取的文本特征;
对图像特征图,嵌入位置信息,得到嵌入位置的图像特征图;
将图像特征图和文本特征,均输入到多模态注意力层中,计算图像特征和文本特征的特征相似度,生成多模态注意力矩阵;基于多模态注意力矩阵构造原型激活限制损失函数;
将嵌入位置的图像特征图输入到原型层,原型层将嵌入位置的图像特征图进行网格化分割,得到若干个特征图潜在补丁,计算每个特征图潜在补丁与已知疾病原型的欧式距离,将欧式距离转换为相似性分数;全连接将相似性分数转换为预测分数,给出图像分类结果;其中,已知疾病原型,是指已知疾病类型的病变区域对应的图像特征图;所述已知疾病类型的尺寸与特征图潜在补丁的尺寸大小一致;
当网络的总损失函数值不再下降时,停止训练,得到训练后的多模态原型网络。
10.如权利要求9所述的基于多模态原型网络的可解释医学图像分类系统,其特征是,网络的总损失函数,公式表达为:
L=LclscontLcontresLresclstLclstsepLsep
其中,λcont,λres,λclst,λsep为平衡损失的超参数;
其中,表示分类损失函数;/>和/>分别是在疾病c上标签为“0”和标签为“1”的样本数量;/>是第i个样本xi的预测分数;γ为平衡参数,/>是样本xi在类别c上的真实标签;
原型激活限制损失:
其中,Lres表示原型激活限制损失函数;
表示原型/>不属于该图像所属类别Y;/>表示原型/>属于该图像所属类别Y;/>表示原型/>与/>之间的欧式距离;Mi表示第i个图像的多模态注意力矩阵;⊙表示哈达玛积;
其中,表示聚类损失函数;/>表示分离损失函数;yc表示图像在疾病c上的真实标签;/>表示嵌有位置特征的特征图;/>表示第c类疾病的k个疾病原型;
每个原型用公式表示:
其中,表示疾病原型的像素特征,z1表示特征图潜在补丁的像素特征,Z表示特征图,z表示特征图的每一个潜在补丁;
模型使用对比损失函数最小化负对数后验概率:
其中,τ2是缩放参数,<zi,ti>表示图像表征和文本特征之间的余弦相似度。
CN202311426940.2A 2023-10-30 2023-10-30 基于多模态原型网络的可解释医学图像分类系统 Pending CN117392473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311426940.2A CN117392473A (zh) 2023-10-30 2023-10-30 基于多模态原型网络的可解释医学图像分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311426940.2A CN117392473A (zh) 2023-10-30 2023-10-30 基于多模态原型网络的可解释医学图像分类系统

Publications (1)

Publication Number Publication Date
CN117392473A true CN117392473A (zh) 2024-01-12

Family

ID=89462851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311426940.2A Pending CN117392473A (zh) 2023-10-30 2023-10-30 基于多模态原型网络的可解释医学图像分类系统

Country Status (1)

Country Link
CN (1) CN117392473A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636099A (zh) * 2024-01-23 2024-03-01 数据空间研究院 一种医学图像和医学报告配对训练模型
CN117951632A (zh) * 2024-03-27 2024-04-30 合肥工业大学 基于多模态原型网络的pu对比学习异常检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636099A (zh) * 2024-01-23 2024-03-01 数据空间研究院 一种医学图像和医学报告配对训练模型
CN117636099B (zh) * 2024-01-23 2024-04-12 数据空间研究院 一种医学图像和医学报告配对训练模型
CN117951632A (zh) * 2024-03-27 2024-04-30 合肥工业大学 基于多模态原型网络的pu对比学习异常检测方法及系统

Similar Documents

Publication Publication Date Title
US10496884B1 (en) Transformation of textbook information
US10692602B1 (en) Structuring free text medical reports with forced taxonomies
CN117392473A (zh) 基于多模态原型网络的可解释医学图像分类系统
Megjhani et al. Population-scale three-dimensional reconstruction and quantitative profiling of microglia arbors
WO2023204944A1 (en) Training of text and image models
Praveena et al. [Retracted] Effective CBMIR System Using Hybrid Features‐Based Independent Condensed Nearest Neighbor Model
Fan et al. Evolutionary neural architecture search for retinal vessel segmentation
CN111353445A (zh) 一种基于深度学习的患者援助智能审核系统
Hong et al. MMCL-Net: spinal disease diagnosis in global mode using progressive multi-task joint learning
CN114600155A (zh) 用于细胞检测和分割的弱监督多任务学习
EP3876236A1 (en) Extracting chemical structures from digitized images
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
Han et al. Nuclei counting in microscopy images with three dimensional generative adversarial networks
Guan et al. An Object Detection Framework Based on Deep Features and High-Quality Object Locations.
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法
Somase et al. Develop and implement unsupervised learning through hybrid FFPA clustering in large-scale datasets
Lai et al. Detection of lung nodules on ct images based on the convolutional neural network with attention mechanism
CN112216379A (zh) 一种基于智能联合学习的疾病诊断系统
Cullen et al. Convolutional neural networks for rapid and simultaneous brain extraction and tissue segmentation
Dwivedi et al. EMViT-Net: A novel transformer-based network utilizing CNN and multilayer perceptron for the classification of environmental microorganisms using microscopic images
AU2021106727A4 (en) Ai system for brain mri/ct malignancy identification and classification using modified cnn and adam optimization.
Sri et al. Detection Of MRI Brain Tumor Using Customized Deep Learning Method Via Web App
Alharthi et al. Do it the transformer way: a comprehensive review of brain and vision transformers for autism spectrum disorder diagnosis and classification
Salsabili et al. Multiresolution semantic segmentation of biological structures in digital histopathology
Ma et al. A pathology image diagnosis network with visual interpretability and structured diagnostic report

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination