CN109190683A - 一种基于注意力机制和双模态图像的分类方法 - Google Patents
一种基于注意力机制和双模态图像的分类方法 Download PDFInfo
- Publication number
- CN109190683A CN109190683A CN201810925972.XA CN201810925972A CN109190683A CN 109190683 A CN109190683 A CN 109190683A CN 201810925972 A CN201810925972 A CN 201810925972A CN 109190683 A CN109190683 A CN 109190683A
- Authority
- CN
- China
- Prior art keywords
- data
- attention
- classification
- attention mechanism
- bimodal image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于注意力机制和双模态图像的分类方法,属于图像分类领域,对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果;本发明通过模型的学习提取出了样本各自比较重要的特征,实现了更优的特征提取,最终可以得到更好的分类结果,分类准确率高;且本发明提出的方法是端到端的模型,而不需要分开训练两个模态的网络。
Description
技术领域
本发明涉及图像分类领域,具体涉及一种基于注意力机制和双模态图像的分类方法。
背景技术
利用不同的成像原理、不同的传感器(设备)对于同一场景所采集到的不同图像即为多模态图像。随着计算机、电子信息等技术的迅速发展,传感器技术也得到飞速发展,图像的模态也越来越多样性,例如,医学图像中的MRI(Magnetic Resonance Imaging)图像、PET(Positron Emission Tomography)图像以及CT(Computed Tomography)图像等。
面对图像模态的多样性,多模态图像融合应运而生。多模态图像融合的目的是最大限度地提取各模态的图像信息,同时减少冗余信息。图像融合一般分为三个等级:像素级、特征级和决策级。像素级的处理对象是像素,最简单直接;特征级建立在抽取输入图像特征的基础上;决策级是对图像信息更高要求的抽象处理。常用的图像融合算法有加权平均法、IHS变换法、金字塔图像融合法等。
对于分类任务来说,显然,相比于单模态图像,多模态图像具有更多的信息,理应获得更好的分类效果。而目前利用双模态图像来进行分类的分类任务(例如医学图像分类),存在双模态图像信息融合困难、分类精度低等问题;以及双模态图像往往不能使用端到端的模型的问题。
发明内容
本发明的目的在于:提供一种基于注意力机制和双模态图像的分类方法,解决了现有技术中双模态图像信息融合困难、分类精度低的技术问题。
本发明采用的技术方案如下:
一种基于注意力机制和双模态图像的分类方法,包括以下步骤:
步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;
步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;
步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;
步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。
进一步的,所述步骤1中,双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理使A模态图像数据和B模态图像数据的尺寸相同。
进一步的,所述步骤2中,基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络用于输入B模态图像数据,输出主干网络特定层特征图的权重;
所述主干网络用于输入A模态图像数据并结合所述权重,输出最终的分类结果。
进一步的,所述主干网络包括若干个卷积层、若干个池化层、若干个ReLu单元、若干个全连接层、一个Attention module和一个softmax分类层;
所述Attention支干网络包括若干个卷积层、若干个池化层、若干个ReLu单元和一个归一化处理单元;
所述Attention支干网络归一化处理单元的输出输入至所述主干网络的Attention module。
进一步的,所述权重用于更新主干网络中传输至Attention module的特征图,且所述权重与特征图尺寸相等,采用的公式为:
其中,表示更新后的特征图,Fi表示更新前的特征图,Watten表示权重,n表示特征图的通道个数,i表示特征图通道的序号。
进一步的,所述归一化处理单元使输出位于0-1之间。
进一步的,所述归一化单元采用softmax函数;或
采用尺度变换函数;或
采用自定义函数f(x),所述自定义函数f(x)满足:定义域(2)值域且不能只包含单个元素。(3)f(x)只有有限个不可导点。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明在深度学习模型中引入注意力机制,从B模态图像数据得到相应的A模态图像的权重,一方面以一种新的方式融合了A、B两种模态图像的信息;另一方面在提取每个样本的A模态图像不同空间位置的信息上都有各自不同的侧重,通过模型的学习提取出了样本各自比较重要的特征,最终可以得到更好的分类结果,分类准确率高;此外,虽然输入数据是双模态图像,但本发明提出的模型是端到端的模型。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1是本发明的基本流程图;
图2是本发明的一般模型图;
图3是本发明用于阿尔兹海默病分类的模型图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合图1-3对本发明作详细说明。
一种基于注意力机制和双模态图像的分类方法,包括以下步骤:
步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;
步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;
步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;
步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。
进一步的,所述步骤1中,双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理使A模态图像数据和B模态图像数据的尺寸相同。
进一步的,所述步骤2中,基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络用于输入B模态图像数据,输出主干网络特定层特征图的权重;
所述主干网络用于输入A模态图像数据并结合所述权重,输出最终的分类结果。
进一步的,所述主干网络包括若干个卷积层、若干个池化层、若干个ReLu单元、若干个全连接层、一个Attention module和一个softmax分类层;
所述Attention支干网络包括若干个卷积层、若干个池化层、若干个ReLu单元和一个归一化处理单元;
所述Attention支干网络归一化处理单元的输出输入至所述主干网络的Attention module。
进一步的,所述权重用于更新主干网络中传输至Attention module的特征图,且所述权重与特征图尺寸相等,采用的公式为:
其中,表示更新后的特征图,Fi表示更新前的特征图,Watten表示权重,n表示特征图的通道个数,i表示特征图通道的序号。
进一步的,所述归一化处理单元使输出位于0-1之间。
进一步的,所述归一化单元采用softmax函数;或
采用尺度变换函数;或
采用自定义函数f(x),所述自定义函数f(x)满足:定义域(2)值域且不能只包含单个元素。(3)f(x)只有有限个不可导点。
具体实施例1
一种基于注意力机制和双模态图像的分类方法,包括以下步骤:
步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理采用插值或者下采样方法使A模态图像数据和B模态图像数据的尺寸相同;
步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;
基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络包括若干个卷积层、若干个池化层、若干个ReLu单元和一个归一化处理单元,用于输入B模态图像数据,输出A模态图像数据的权重,所述权重大小位于0-1;
所述主干网络包括若干个卷积层、若干个池化层、若干个ReLu单元、若干个全连接层、一个Attention module和一个softmax分类层;用于输入A模态图像数据并结合所述权重,输出最终的分类结果;
所述归一化处理单元的输出输入至所述主干网络的Attention module,
所述权重用于更新主干网络中传输至Attention module的特征图,且所述权重与特征图尺寸相等,采用的公式为:
其中,表示更新后的特征图,Fi表示更新前的特征图,Watten表示权重,n表示特征图的通道个数,i表示特征图通道的序号。
所述归一化单元采用softmax函数;或
采用尺度变换函数;或
采用自定义函数f(x),所述自定义函数f(x)满足:定义域(2)值域且不能只包含单个元素。(3)f(x)只有有限个不可导点。
假设深度学习模型为3D卷积神经网络,主干网络对Attention module的输入是一个m×n×p×c的张量,Attention支干网络对Attention module的输入是m×n×p×1的张量,通过点乘操作得到一个新的大小m×n×p×c的张量。
对模型进行训练的过程为:
(1)若A、B模态图像为三维数据则使用在行为识别数据集UCF101上预训练的主干网络卷积层参数作为模型主干网络卷积层参数初始值;若A、B模态图像为二维数据则使用在ImageNet上预训练的主干网络卷积层参数作为模型主干网络卷积层参数初始值;支干网络及主干网络其他层的参数随机初始化。
(2)本方法以每个训练数据的交叉熵损失作为损失函数,使用随机梯度下降法为优化方法,初始学习率设置为0.0001,后面根据参数优化效果适当调整学习率,当loss下降到一定程度不再有明显下降时停止训练。
步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;
步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。
具体实施例2
本实施例基于实施例1,以具体的双模态图像为例,进一步说明本发明的内容。
以阿尔兹海默病为例,A模态图像为MRI图像,B模态图像为PET图像。Attention支干网络由6个卷积层、4个池化层和一个Norm Unit(归一化单元)构成。其中每个卷积层的kernel size都是3×3×3、步长是1,Conv6的filter个数为64、Conv7的filter个数是128、Conv8a的filter个数是256、Conv8b的filter个数是128、Conv9a的filter个数是64、Conv9b的filter个数是1;每个池化层的filter size都是2×2×2,步长也是2×2×2;Norm Unite直接使用尺度变换函数,将Norm Unite的输入变换到[0,1]区间上。
主干网络去除Attention module是一个类似C3D的模型。共有8个3D卷积层、5个3D池化层、2个全连接层以及一个softmax层,具体结构如图3所示。其中每个卷积层的kernelsize都是3×3×3、步长是1,Conv1的filter个数为64、Conv2的filter个数是128、Conv3a和Conv3b的filter个数是256、Conv4a和Conv4b的filter个数是512、Conv5a和Conv5b的filter个数也是512;每个池化层的filter size都是2×2×2,步长也是2×2×2;
全连接层FC6的输出是大小为4096的列向量,FC7的输出是大小为2048的列向量;softmax层输出一个大小为3的列向量,表示当前受试者属于AD、MCI和NC的概率,取概率最大的为最终的分类结果。
Claims (7)
1.一种基于注意力机制和双模态图像的分类方法,其特征在于,包括以下步骤:
步骤1:对待分类项目的双模态图像数据进行预处理,将预处理后的双模态图像数据分为训练数据和测试数据;
步骤2:构建基于注意力机制的深度学习模型,将训练数据输入所述深度学习模型进行训练;
步骤3:利用反向传播及随机梯度下降算法对深度学习模型的网络参数进行优化,得到测试模型;
步骤4:将所述测试数据输入测试模型,通过前向传播得到该测试数据的分类结果。
2.根据权利要求1所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所述步骤1中,双模态图像数据包括A模态图像数据和B模态图像数据,所述预处理使A模态图像数据和B模态图像数据的尺寸相同。
3.根据权利要求2所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所述步骤2中,基于注意力机制的深度学习模型包括主干网络和Attention支干网络,所述Attention支干网络用于输入B模态图像数据,输出主干网络特定层特征图的权重;
所述主干网络用于输入A模态图像数据并结合所述权重,输出最终的分类结果。
4.根据权利要求3所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所述主干网络包括若干个卷积层、若干个池化层、若干个ReLu单元、若干个全连接层、一个Attention module和一个softmax分类层;
所述Attention支干网络包括若干个卷积层、若干个池化层、若干个ReLu单元和一个归一化处理单元;
所述Attention支干网络归一化处理单元的输出输入至所述主干网络的Attentionmodule。
5.根据权利要求4所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:
所述权重用于更新主干网络中传输至Attention module的特征图,采用的公式为:
其中,表示更新后的特征图,Fi表示更新前的特征图,Watten表示权重,n表示特征图的通道个数,i表示特征图通道的序号。
6.根据权利要求4所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所述归一化处理单元使输出位于0-1之间。
7.根据权利要求6所述的一种基于注意力机制和双模态图像的分类方法,其特征在于:所述归一化单元采用softmax函数;或
采用尺度变换函数;或
采用自定义函数f(x),所述自定义函数f(x)满足:定义域(2)值域且不能只包含单个元素。(3)f(x)只有有限个不可导点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810925972.XA CN109190683A (zh) | 2018-08-14 | 2018-08-14 | 一种基于注意力机制和双模态图像的分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810925972.XA CN109190683A (zh) | 2018-08-14 | 2018-08-14 | 一种基于注意力机制和双模态图像的分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109190683A true CN109190683A (zh) | 2019-01-11 |
Family
ID=64921796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810925972.XA Pending CN109190683A (zh) | 2018-08-14 | 2018-08-14 | 一种基于注意力机制和双模态图像的分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190683A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334689A (zh) * | 2019-07-16 | 2019-10-15 | 北京百度网讯科技有限公司 | 视频分类方法和装置 |
CN111053579A (zh) * | 2019-12-31 | 2020-04-24 | 深圳开立生物医疗科技股份有限公司 | 盆底状态的分类方法、系统、超声设备及计算机存储介质 |
CN111242233A (zh) * | 2020-01-18 | 2020-06-05 | 温州大学 | 一种基于融合网络的阿尔兹海默病分类方法 |
CN112702588A (zh) * | 2020-12-21 | 2021-04-23 | 北京灵汐科技有限公司 | 双模态图像信号处理器和双模态图像信号处理系统 |
CN113362915A (zh) * | 2021-07-16 | 2021-09-07 | 上海大学 | 一种基于多模态学习的材料性能预测方法及系统 |
CN114332947A (zh) * | 2021-12-31 | 2022-04-12 | 深圳市儿童医院 | 一种图像分类系统及终端设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3120300A2 (en) * | 2014-03-19 | 2017-01-25 | Neurala Inc. | Methods and apparatus for autonomous robotic control |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN108200483A (zh) * | 2017-12-26 | 2018-06-22 | 中国科学院自动化研究所 | 动态多模态视频描述生成方法 |
CN108229440A (zh) * | 2018-02-06 | 2018-06-29 | 北京奥开信息科技有限公司 | 一种基于多传感器融合室内人体姿态识别方法 |
-
2018
- 2018-08-14 CN CN201810925972.XA patent/CN109190683A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3120300A2 (en) * | 2014-03-19 | 2017-01-25 | Neurala Inc. | Methods and apparatus for autonomous robotic control |
CN107066583A (zh) * | 2017-04-14 | 2017-08-18 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN107979764A (zh) * | 2017-12-06 | 2018-05-01 | 中国石油大学(华东) | 基于语义分割和多层注意力框架的视频字幕生成方法 |
CN108200483A (zh) * | 2017-12-26 | 2018-06-22 | 中国科学院自动化研究所 | 动态多模态视频描述生成方法 |
CN108229440A (zh) * | 2018-02-06 | 2018-06-29 | 北京奥开信息科技有限公司 | 一种基于多传感器融合室内人体姿态识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334689A (zh) * | 2019-07-16 | 2019-10-15 | 北京百度网讯科技有限公司 | 视频分类方法和装置 |
CN111053579A (zh) * | 2019-12-31 | 2020-04-24 | 深圳开立生物医疗科技股份有限公司 | 盆底状态的分类方法、系统、超声设备及计算机存储介质 |
CN111242233A (zh) * | 2020-01-18 | 2020-06-05 | 温州大学 | 一种基于融合网络的阿尔兹海默病分类方法 |
CN112702588A (zh) * | 2020-12-21 | 2021-04-23 | 北京灵汐科技有限公司 | 双模态图像信号处理器和双模态图像信号处理系统 |
CN113362915A (zh) * | 2021-07-16 | 2021-09-07 | 上海大学 | 一种基于多模态学习的材料性能预测方法及系统 |
CN113362915B (zh) * | 2021-07-16 | 2022-08-02 | 上海大学 | 一种基于多模态学习的材料性能预测方法及系统 |
CN114332947A (zh) * | 2021-12-31 | 2022-04-12 | 深圳市儿童医院 | 一种图像分类系统及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Deep learning of the sectional appearances of 3D CT images for anatomical structure segmentation based on an FCN voting method | |
CN109190683A (zh) | 一种基于注意力机制和双模态图像的分类方法 | |
Han et al. | Combining noise-to-image and image-to-image GANs: Brain MR image augmentation for tumor detection | |
Khened et al. | Densely connected fully convolutional network for short-axis cardiac cine MR image segmentation and heart diagnosis using random forest | |
Liang et al. | MCFNet: Multi-layer concatenation fusion network for medical images fusion | |
Zhang et al. | Multivariate approach for Alzheimer’s disease detection using stationary wavelet entropy and predator-prey particle swarm optimization | |
CN107622485B (zh) | 一种融合深度张量神经网络的医学影像数据分析方法和系统 | |
Bi et al. | Automatic liver lesion detection using cascaded deep residual networks | |
Khagi et al. | Comparative analysis of Alzheimer's disease classification by CDR level using CNN, feature selection, and machine‐learning techniques | |
Zhou et al. | Three-dimensional CT image segmentation by combining 2D fully convolutional network with 3D majority voting | |
Kumar et al. | Breast cancer classification of image using convolutional neural network | |
CN110378381A (zh) | 物体检测方法、装置和计算机存储介质 | |
CN110188795A (zh) | 图像分类方法、数据处理方法和装置 | |
Lyu et al. | Using multi-level convolutional neural network for classification of lung nodules on CT images | |
CN110309856A (zh) | 图像分类方法、神经网络的训练方法及装置 | |
Li et al. | HEp-2 specimen image segmentation and classification using very deep fully convolutional network | |
CN110992351B (zh) | 基于多输入卷积神经网络的sMRI图像分类方法和装置 | |
CN111932529B (zh) | 一种图像分类分割方法、装置及系统 | |
CN110533683B (zh) | 一种融合传统特征与深度特征的影像组学分析方法 | |
Ahn et al. | Unsupervised deep transfer feature learning for medical image classification | |
CN113469958B (zh) | 一种胚胎发育潜能预测方法、系统、设备及存储介质 | |
Xiang et al. | Towards interpretable skin lesion classification with deep learning models | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
Ali et al. | Classification of glaucoma based on elephant-herding optimization algorithm and deep belief network | |
Bashir-Gonbadi et al. | Brain tumor classification using deep convolutional autoencoder-based neural network: Multi-task approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |