CN112598024B - 一种基于深度多示例学习和自注意力的医学图像分类方法 - Google Patents
一种基于深度多示例学习和自注意力的医学图像分类方法 Download PDFInfo
- Publication number
- CN112598024B CN112598024B CN202011394327.3A CN202011394327A CN112598024B CN 112598024 B CN112598024 B CN 112598024B CN 202011394327 A CN202011394327 A CN 202011394327A CN 112598024 B CN112598024 B CN 112598024B
- Authority
- CN
- China
- Prior art keywords
- self
- attention
- image
- package
- medical image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种基于深度多示例学习和自注意力的医学图像分类方法,涉及医学图像处理技术,该方法包括:对医学图像进行预处理,产生多示例学习中的示例包;利用卷积神经网络提取包中示例特征;基于自注意力机制构造特征提取模块,学习示例间的依赖关系;使用特征池化模块聚合包中示例特征,得到包级特征向量;将包级特征向量作为分类器的输入,产生输入图像的预测标记。本发明通过卷积网络捕获待识别图像的局部细节特征,利用自注意力机制学习待识别图像的全局结构特征,两种特征互为补充,提高了整个网络的分类性能和稳定性,此外,通过引入可训练的池化算子,进一步增强了网络的可解释性。
Description
技术领域
本发明涉及医学图像处理技术,具体涉及一种基于深度多示例学习和自注意力的医学图像分类方法。
背景技术
近年来,深度学习方法在诸多人工智能领域已远远超越了传统的浅层机器学习方法,对学术界和工业界产生了广泛而深刻的影响。在图像分类领域,深度监督学习方法取得了前所未有的成功,在诸多大型图像分类任务中展现出不亚于人类的识别和分类能力,其中一个关键驱动力是大量有确切标注的样本数据。然而,在实际应用中对样本进行大量细致的标注往往是极为困难的,例如,在医学图像分析中,获取病灶的具体位置常常是费时费力的,多数情况下仅能获得图像的整体标注信息(良性/恶性)或大致的感兴趣区域;此外,特定分类任务的数据规模往往较小,若采用监督学习方法直接对其进行建模,容易出现过拟合现象,导致模型的泛化能力较差。因此,能够应对此类任务的弱监督学习模型逐渐引起了研究者的关注,弱监督学习模型仅依赖粗粒度标记即可完成图像的分类任务。
多示例学习是一种典型的弱监督学习范式,以示例包为基本处理单元。利用多示例学习技术对医学图像进行分类,可将每张图像视为一个示例包,其中每个示例对应图像的一个局部区域,通过学习示例特征进而构造整个包的表征来实现包与其标记的映射关系。大多数现有方法假设包内示例独立同分布,但实际应用中同一包内示例间往往存在某种关联,例如,医学图像的不同局部区域间常蕴含着重要的上下文信息,因而示例特征学习过程中考虑包的结构信息有利于设计出更合理的分类模型并取得更好的分类效果。
发明内容
本发明提出一种基于深度多示例学习和自注意力的医学图像分类方法,解决现有方法因忽视图像的全局结构信息而导致的分类性能较低等问题,为医学图像分类提供一种新的基于深度多示例学习网络的解决方案。
本发明提供一种基于深度多示例学习和自注意力的医学图像分类方法,包括:
预处理步骤,对医学图像进行预处理,产生多示例学习中的示例包;
特征构造步骤,利用卷积神经网络提取示例特征,捕获图像的局部细节信息;
特征提取步骤,基于自注意力机制构造特征提取模块,学习示例间的依赖关系,捕获图像的全局结构信息;
特征池化步骤,基于注意力机制构造特征池化模块,利用该模块聚合包中示例,得到示例包的包级特征向量;
类别预测步骤,使用一个带Sigmoid激活函数的全连接层作为分类器,对包级特征向量进行分类,产生输入图像的预测标记。
优选的,所述预处理步骤具体为:
对医学图像进行均匀分割,或者使用滑动窗口进行滑动分割,得到若干尺寸相同的图像块;根据待分类图像的具体特点,有选择地剔除没有价值的图像块;将分割自同一图像的图像块打包为一个示例包。
优选的,所述特征构造步骤具体为:
使用两个带ReLU激活函数的卷积层提取图像块特征,其中每个卷积层后接1个最大池化层过滤特征信息;调整特征图尺寸,按行优先原则转换为固定长度的特征向量;经过特征提取后,一个示例包由一组特征向量组成,记为X。
优选的,所述特征提取步骤具体为:
Att(Q,K,V;ω)=ω(QKT)X,
优选的,所述特征池化步骤具体为:
其中激活函数使用α-entmax函数,查询项Q和映射矩阵WZ是可学习参数,超参数k和do分别决定输出向量的数量和维度,本发明选取k=1,即将示例包池化为一个包级特征向量。
优选的,所述特征提取步骤还包括:
利用诱导点原理来改进自注意力模型,即利用诱导点作为中间的过渡变量来大幅降低自注意力运算的时间复杂度,改进后的模块可描述为:
其中诱导点I和映射矩阵WX是可训练参数。
本发明与现有方法相比具有如下优点:
1)本发明采用深度多示例神经网络对粗粒度标记的医学图像进行分类,有效解决现有深度监督学习网络依赖大规模、细粒度标注数据等问题。
2)本发明利用卷积网络和自注意力模块提取图像的多示例特征,其中卷积网络用于提取图像的局部细节特征,自注意力模块用于提取图像的全局结构特征,两种特征互为补充,共同作用,有利于提高模型的分类性能和健壮性。
3)本发明提出一种基于注意力机制的可学习的多示例池化算子,该算子具有极高的灵活性,在提高模型分类性能的同时能够增强模型的可解释性。
附图说明
为了使本发明实施例中的技术方案更加清楚明确,下面将对实施例或现有技术描述中所需要使用的附图做简要介绍,显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的基于深度多示例学习和自注意力的医学图像分类方法的流程示意图;
图2为本发明实施例提供的点乘注意力运算的结构示意图;
图3为本发明实施例提供的自注意力模型的结构示意图;
图4为本发明实施例提供的的基于注意力的池化模型结构示意图;
图5为本发明实施例提供的诱导自注意力模型的结构示意图。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、明确的描述。示例性的,具体实施方式以医学图像分类为例进行说明。显然,所描述的实例仅仅用于解释本发明,并非用于限定本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书中的术语“包括”和“具有”以及其他任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
参照图1,其示出了本发明实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法的流程示意图,可以包括以下步骤:
S11预处理步骤,对医学图像进行预处理,产生多示例学习中的示例包,示例包的标记与图像的标记保持一致;
S12特征构造步骤,利用卷积神经网络提取示例特征,捕捉图像的局部细节信息;
S13特征提取步骤,基于自注意力机制构造特征提取模块,学习示例间的依赖关系,捕捉图像的全局结构信息;
S14特征池化步骤,基于注意力机制构造特征池化模块,利用该模块聚合包中示例,得到示例包的包级特征向量;
S15类别预测步骤,使用一个带Sigmoid激活函数的全连接层作为分类器,对包级特征向量进行分类,产生输入图像的预测标记。
需要说明的是,步骤S11需要预先完成,步骤S12至步骤S15构成端到端的深度多示例神经网络。
上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中,所述预处理步骤,可以包括:
对医学图像进行均匀分割,或者使用滑动窗口进行滑动分割,得到若干尺寸相同的图像块;根据待分类图像的具体特点,有选择地剔除没有价值的图像块;将分割自同一图像的图像块打包为一个示例包。
上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中,所述特征构造步骤,可以包括:
使用两个带ReLU激活函数的卷积层提取图像块特征,其中每个卷积层后接1个最大池化层过滤特征信息;调整特征图尺寸,按行优先原则转换为固定长度的特征向量;经过特征提取后,一个示例包由一组特征向量组成,记为X。
上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中,所述特征提取步骤,可以包括:
Att(Q,K,V;ω)=ω(QKT)X,
上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中,所述特征池化步骤,可以包括:
其中激活函数使用α-entmax函数,查询项Q和映射矩阵WZ是可学习参数,超参数k和do分别决定输出向量的数量和维度,本发明选取k=1,即将示例包池化为一个包级特征向量。
上述实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法中,所述特征提取步骤,还可以包括:
利用诱导点原理来改进自注意力模型,即利用诱导点作为中间的过渡变量来大幅降低自注意力运算的时间复杂度,改进后的模型可描述为:
其中诱导点I和映射矩阵WX是可训练参数,改进后的模型结构如图5所示。
此外,本发明实施例在3个真实医学图像数据集UCSB breast、Messidor、Coloncancer上对本发明实施例所提供的一种基于深度多示例学习和自注意力的医学图像分类方法进行测试。为了验证本申请方法的分类性能,我们使用交叉验证作为评估方法,在3个数据集上,均采用不同的随机种子进行5次10折交叉验证,并报告5次实验的平均分类准确率。
参阅表1,本发明给出了所提基于深度多示例学习和自注意力的医学图像分类方法和Att.Net、Gated Att.Net、Set Transformer方法在UCSB breast、Messidor、Coloncancer医学图像数据集上的实验结果对比表,其中衡量指标为平均分类准确率和标准差。实验结果表明,本发明所提基于深度多示例学习和自注意力的医学图像分类方法在三个数据集上都取得了最佳的实验效果,表明本发明方法具有较好的稳定性和适用性。
表1.各种方法在UCSB breast、Messidor、Colon cancer数据集上的分类准确率
方法 | UCSB breast | Messidor | Colon cancer |
Att.Net | 0.867±0.127 | 0.690±0.044 | 0.872±0.122 |
Gated Att.Net | 0.874±0.137 | 0.697±0.040 | 0.868±0.119 |
Set Transformer | 0.887±0.106 | 0.702±0.037 | 0.900±0.089 |
SA-MIL(本发明方法) | 0.891±0.072 | 0.726±0.035 | 0.910±0.070 |
ISA-MIL(本发明方法) | 0.871±0.105 | 0.718±0.041 | 0.920±0.077 |
以上所描述的实例仅仅用于阐述本发明的技术方案,使本领域的任何技术人员能够实现或使用本发明。对于本领域技术人员来讲,这些实施例的各种修改方式都是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (3)
1.一种基于深度多示例学习和自注意力的医学图像分类方法,其特征在于,包括下列步骤:
预处理步骤,对医学图像进行预处理,产生多示例学习中的示例包;
特征构造步骤,利用卷积神经网络提取示例特征,捕获图像的局部细节信息;
特征提取步骤,基于自注意力机制构造特征提取模块,学习示例间的依赖关系,捕获图像的全局结构信息;
特征池化步骤,基于注意力机制构造特征池化模块,利用该模块聚合包中示例,得到示例包的包级特征向量;
类别预测步骤,使用一个带Sigmoid激活函数的全连接层作为分类器,对包级特征向量进行分类,产生输入图像的预测标记;
所述特征构造步骤具体为:
使用两个带ReLU激活函数的卷积层提取图像块特征,其中每个卷积层后接1个最大池化层过滤特征信息;调整特征图尺寸,按行优先原则转换为固定长度的特征向量;经过特征提取后,一个示例包由一组特征向量组成,记为X;
所述特征提取步骤具体为:
Att(Q,K,V;ω)=ω(QKT)X,
所述特征池化步骤具体为:
其中激活函数使用α-entmax函数,查询项Q和映射矩阵WZ是可学习参数,超参数k和do分别决定输出向量的数量和维度,选取k=1。
2.根据权利要求1所述的基于深度多示例学习和自注意力的医学图像分类方法,其特征在于,所述预处理步骤具体为:
对医学图像进行均匀分割,或者使用滑动窗口进行滑动分割,得到若干尺寸相同的图像块;根据待分类图像的具体特点,有选择地剔除没有价值的图像块;将分割自同一图像的图像块打包为一个示例包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011394327.3A CN112598024B (zh) | 2020-12-03 | 2020-12-03 | 一种基于深度多示例学习和自注意力的医学图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011394327.3A CN112598024B (zh) | 2020-12-03 | 2020-12-03 | 一种基于深度多示例学习和自注意力的医学图像分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112598024A CN112598024A (zh) | 2021-04-02 |
CN112598024B true CN112598024B (zh) | 2022-08-09 |
Family
ID=75188080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011394327.3A Active CN112598024B (zh) | 2020-12-03 | 2020-12-03 | 一种基于深度多示例学习和自注意力的医学图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112598024B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361540A (zh) * | 2021-05-25 | 2021-09-07 | 商汤集团有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN113313177A (zh) * | 2021-06-03 | 2021-08-27 | 紫东信息科技(苏州)有限公司 | 消化道内窥镜图片多标签分类系统 |
CN113378973B (zh) * | 2021-06-29 | 2023-08-08 | 沈阳雅译网络技术有限公司 | 一种基于自注意力机制的图像分类方法 |
CN114155400B (zh) * | 2022-02-10 | 2022-05-17 | 澄影科技(北京)有限公司 | 一种图像的处理方法、装置及设备 |
CN114826776B (zh) * | 2022-06-06 | 2023-05-02 | 中国科学院高能物理研究所 | 一种用于加密恶意流量的弱监督检测方法及系统 |
CN116188875B (zh) * | 2023-03-29 | 2024-03-01 | 北京百度网讯科技有限公司 | 图像分类方法、装置、电子设备、介质和产品 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447691A (zh) * | 2016-07-19 | 2017-02-22 | 西安电子科技大学 | 基于加权多示例学习的加权极限学习机视频目标跟踪方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111583271A (zh) * | 2020-04-13 | 2020-08-25 | 华东师范大学 | 一种基于癌症ct图像自动预测基因表达类别的方法 |
CN112016400B (zh) * | 2020-08-04 | 2021-06-29 | 香港理工大学深圳研究院 | 一种基于深度学习的单类目标检测方法、设备及存储介质 |
-
2020
- 2020-12-03 CN CN202011394327.3A patent/CN112598024B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106447691A (zh) * | 2016-07-19 | 2017-02-22 | 西安电子科技大学 | 基于加权多示例学习的加权极限学习机视频目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112598024A (zh) | 2021-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112598024B (zh) | 一种基于深度多示例学习和自注意力的医学图像分类方法 | |
CN111368896B (zh) | 基于密集残差三维卷积神经网络的高光谱遥感图像分类方法 | |
CN107679250A (zh) | 一种基于深度自编码卷积神经网络的多任务分层图像检索方法 | |
Chang et al. | Change detection of land use and land cover in an urban region with SPOT-5 images and partial Lanczos extreme learning machine | |
CN110210534B (zh) | 基于多包融合的高分遥感图像场景多标签分类方法 | |
CN110427990A (zh) | 一种基于卷积神经网络的艺术图像分类方法 | |
Gao et al. | Small sample classification of hyperspectral image using model-agnostic meta-learning algorithm and convolutional neural network | |
CN103745201B (zh) | 一种节目识别方法及装置 | |
CN106971145A (zh) | 一种基于极限学习机的多视角动作识别方法及装置 | |
Khemchandani et al. | Color image classification and retrieval through ternary decision structure based multi-category TWSVM | |
Wan et al. | Multi-level graph learning network for hyperspectral image classification | |
Alshehri | A content-based image retrieval method using neural network-based prediction technique | |
Du et al. | Multi-feature based network for multivariate time series classification | |
Kishore et al. | A Multi-class SVM Based Content Based Image Retrieval System Using Hybrid Optimization Techniques. | |
Le et al. | A deep belief network for classifying remotely-sensed hyperspectral data | |
Raikar et al. | Efficiency comparison of supervised and unsupervised classifier on content based classification using shape, color, texture | |
Mei et al. | Supervised segmentation of remote sensing image using reference descriptor | |
Lee et al. | Bridging structure and feature representations in graph matching | |
Kshirsagar et al. | A generalized neuro-fuzzy based image retrieval system with modified colour coherence vector and texture element patterns | |
Ashoka et al. | Feature extraction technique for neural network based pattern recognition | |
Hu et al. | Learning salient features for flower classification using convolutional neural network | |
Zhang et al. | Deep Neural Network with Strip Pooling for Image Classification of Yarn-Dyed Plaid Fabrics. | |
Dhanalakshmi et al. | Tomato leaf disease identification by modified inception based sequential convolution neural networks | |
Sai et al. | Flower Identification and Classification applying CNN through Deep Learning Methodologies | |
Balasubramaniam et al. | Active learning-based optimized training library generation for object-oriented image classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |