CN113076960B

CN113076960B - 基于多尺度特征迭代融合网络的图像分类方法和装置

Info

Publication number: CN113076960B
Application number: CN202110514525.7A
Authority: CN
Inventors: 李秀; 许菁
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2023-07-11
Anticipated expiration: 2041-05-11
Also published as: CN113076960A

Abstract

本发明涉及一种基于多尺度特征迭代融合网络的图像分类方法和装置，包括如下步骤：S1：将需要分类的原始图像导入N个特征提取网络以获取N个特征图；S2：将所述N个特征图分别导入多尺度特征迭代融合网络，以获得多尺度特征注意图；S3：将所述多尺度特征注意图导入分类器，以获得需要分类的图像。通过所述图像分类方法，从图像处理的角度，设计了一种灵活的端到端训练多尺度注意力网络体系结构，充分利用多尺度的信息，更好的自适应地学习判别性的特征，提高分类识别精度。

Description

基于多尺度特征迭代融合网络的图像分类方法和装置

技术领域

本发明涉及图像分类方法，具体是关于一种基于多尺度特征迭代融合网络的图像分类方法和一种基于多尺度特征迭代融合网络的图像分类装置。

背景技术

分类是根据训练数据集中的数据所表现出的类特性，为每个类找到一种准确的描述方法，由此生成类描述或模型，并用其对新的数据进行分类。而这种类描述是对源数据的过滤、提取及概念等，能够反映客观事物的一般规律。医学图像数据分类就是根据历史临床确诊病例的影像图像样本数据，结合专家知识形成的类描述，并依此对未知类别的临床影像图像进行分类、预测，辅助医生进行临床影像分析、诊断。其中，胸部X光检查是筛查和诊断胸部病变最常用的放射学检查，并且计算机辅助X光分析目前已得到广泛的应用。

胸部X射线数据通常是多标签的，正负样本不平衡，其中简单类样本通常占据主导地位；并且不同疾病所关注的特征区域是不一样的。因此，胸部疾病的自动分类具有挑战性。针对这些问题，国内外学者提出了许多先进的计算机视觉算法。Dai等人(Dai Y，Gieseke F，Oehmcke S，et al.Attentional Feature Fusion[J].arXiv preprint arXiv：2009.14082，2020.)提出了一种多尺度信道注意模块，将局部信道上下文添加到全局信道统计中，解决了融合不同尺度特征时的问题。Chen等人(Chen B，Li J，Lu G，et al.LabelCo-occurrence Learning with Graph Convolutional Networks for Multi-labelChest X-ray Image Classification[J].IEEE Journal of Biomedical and HealthInformatics，2020.)提出了一种新的基于图卷积网络的CheXGCN结构，该结构利用标签的共现性和相互依赖性对多标签CXR图像进行分类，提高了识别精度。

在多标签胸部疾病分类研究领域，Ho等人(Ho T K K，Gwak J.Multiple featureintegration for classification of thoracic disease in chest radiography[J].Applied Sciences，2019，9(19)：4130.)提出了一种融合浅层特征和深层特征的新框架，从公开的ChestX-ray14数据集中提取具有代表性和判别性的特征来区分14种病理类型。Liu等人(Liu Q，Yu L，Luo L，et al.Semi-supervised medical image classificationwith relation-driven self-ensembling model[J].IEEE Transactions on MedicalImaging，2020，39(11)：3429-3440.)提出了一种新的基于关系驱动的医学图像分类半监督框架，该框架利用未标记数据在扰动下激发给定输入的预测一致性，并利用自组装模型为未标记数据生成高质量的一致性目标。Ma等人(Ma C，Wang H，Hoi S C H.Multi-labelThoracic Disease Image Classification with Cross-Attention Networks[C]//International Conference on Medical Image Computing and Com-puter-AssistedIntervention.Springer，Cham，2019：730-738.)提出了交叉注意网络(CAN)框架，通过相互注意从数据中挖掘出有效的表示，并以更协作的方式更新模型。

尽管许多医学图像应用方法取得了巨大成功，但针对不同疾病的图像变换前后多标签分类模型的视觉呈现对应部分不一致的问题，并没有很好的解决方法。

发明内容

针对上述问题，本发明的目的是提供一种从图像处理的角度出发的多尺度特征迭代融合网络的图像分类方法和装置，所述方法和装置是灵活的分类方法和装置，能够以端到端的方式挖掘更有意义的信息。

为实现上述目的，本发明采取以下技术方案：一种基于多尺度特征迭代融合网络的图像分类方法，包括如下步骤：

S1：将需要分类的原始图像导入N个特征提取网络以获取N个特征图；

S2：将所述N个特征图分别导入多尺度特征迭代融合网络，以获得多尺度特征注意图；

S3：将所述多尺度特征注意图导入分类器，以获得分类后的图像。

所述的基于多尺度特征迭代融合网络的图像分类方法，优选地，所述步骤S1包括如下：

S11：将需要分类的原始图像输入到具有图像特征提取功能的第一特征提取网络；所述第一特征提取网络的输出作为具有图像特征提取功能的第二特征提取网络的输入，重复上述步骤，以得到将共N个所述具有图像特征提取功能的特征提取网络依次串联在一起；

S12：所述N个具有图像特征提取功能的特征提取网络输出N个特征图。

所述的基于多尺度特征迭代融合网络的图像分类方法，优选地，所述步骤S2包括如下：

S21：从第二个所述具有图像特征提取功能的特征提取网络开始，将N-1个具有图像特征提取功能的特征提取网络输出的N-1个所述特征图一一对应的导入到依次串联的N-1个多尺度特征迭代融合模块中；并且，将第一个所述特征图导入到所述N-1个多尺度特征迭代融合模块中的第一个所述多尺度特征迭代融合模块中；第一个所述多尺度特征迭代融合模块的输出作为第二个所述多尺度特征迭代融合模块的输入，依次重复，将每个所述多尺度特征迭代融合模块的输出导入到下一个串联在一起的所述多尺度特征迭代融合模块中；

S22：第N-1个所述多尺度特征迭代融合模块的输出为所述需要分类的原始图像的特征注意图；

S23：将所述需要分类的原始图像进行M种变换，分别得到M幅变换图像；

S24：将所述M幅变换图像分别重复所述步骤S11-S12和步骤S21-S22，以得到M幅特征注意图；总共得到M+1种尺度的特征注意图。

所述的基于多尺度特征迭代融合网络的图像分类方法，优选地，所述N个特征提取网络包含CNN、LeNET、ALexNET、VGG、NiN、GoogleNET、ResNET或DenseNET中的一种或者两种以上的组合。

所述的基于多尺度特征迭代融合网络的图像分类方法，优选地，所述步骤S22中的第N-1个所述多尺度特征迭代融合模块的输出为所述需要分类的原始图像的特征注意图，包括步骤如下：

S221：将第K个所述特征提取网络的输出和第K+1个特征提取网络的输出分别导入到所述多尺度特征迭代融合网络中；

S222：所述多尺度特征迭代融合模块中的降采样模块接收第K个所述特征提取网络的输出，所述降采样模块处理第K个所述特征提取网络的输出后输出的特征图的尺度和所述第K+1个所述特征提取网络的输出的特征图的尺度相同；

S223：将所述降采样模块的输出导入第一多通道注意力模块；将所述第K+1个特征提取网络的输出导入第二多通道注意力模块；所述第一多通道注意力模块和所述第二多通道注意力模块分别用于提取通道注意力权重；

S224：将所述第一多通道注意力模块的输出和所述第二多通道注意力模块的输出拼接在一起导入第三多通道注意力模块；所述第三多通道注意力模块用于提取通道注意力权重；

S225：所述第三多通道注意力模块的输出为所述多尺度特征迭代融合模块的输出。

本发明另一方面还提供一种基于多尺度特征迭代融合网络的图像分类装置，包括如下：

特征图获取模块：用于将需要分类的原始图像导入N个特征提取网络以获取N个特征图；

多尺度特征迭代融合网络：用于将所述N个特征图分别导入以获得多尺度特征注意图；

分类器：用于将所述多尺度特征注意图导入以获得分类后的图像。

所述的基于多尺度特征迭代融合网络的图像分类装置，优选地，所述特征图获取模块包括如下：

由N个具有图像特征提取功能的特征提取网络依次串联而成；

所述原始图像导入所述N个具有图像特征提取功能的特征提取网络中的第一个具有图像特征提取功能的特征提取网络；

所述N个具有图像特征提取功能的特征提取网络中的每一个的输出均连接所述多尺度特征迭代融合网络。

所述的基于多尺度特征迭代融合网络的图像分类装置，优选地，所述多尺度特征迭代融合网络包括如下：

由N-1个多尺度特征迭代融合模块依次串联而成；

所述N-1个多尺度特征迭代融合模块中的第一个多尺度特征迭代融合模块的输入包括所述N个具有图像特征提取功能的特征提取网络中的第一个特征提取网络和第二个特征提取网络；

所述第二个多尺度特征迭代融合模块的输入包括所述第一个多尺度特征迭代融合模块的输出和所述第三个特征提取网络的输出；

依次重复，将所述多尺度特征迭代融合模块的输出导入到下一个串联在一起的所述多尺度特征迭代融合模块中；第N-1个所述多尺度特征迭代融合模块的输出为所述需要分类的原始图像的特征注意图；

所述多尺度特征迭代融合网络还包括M组所述N-1个多尺度特征迭代融合模块；

所述M组所述N-1个多尺度特征迭代融合模块的输出为原始图像经过M种变换后获得的M种需要分类的图像的特征注意图。

所述的基于多尺度特征迭代融合网络的图像分类装置，优选地，所述N个特征提取网络包含CNN、LeNET、ALexNET、VGG、NiN、GoogleNET、ResNET或DenseNET中的一种或者两种以上的组合。

所述的基于多尺度特征迭代融合网络的图像分类装置，优选地，所述多尺度特征迭代融合模块包括：三个用于提取通道注意力权重的多通道注意力模块和一个对较大尺度特征注意图进行降采样的降采样模块；

所述多尺度特征迭代融合模块的输入包括：第K个所述特征提取网络的输出和第K+1个特征提取网络的输出；所述降采样模块使得所述第K个所述特征提取网络的输出的特征图和所述第K+1个所述特征提取网络的输出的特征图的尺度相同；

所述第K个所述特征提取网络的输出连接所述降采样模块的输入，所述降采样模块的输出连接第一多通道注意力模块；所述第K+1个特征提取网络的输出连接第二多通道注意力模块；所述第一多通道注意力模块的输出和所述第二多通道注意力模块的输出拼接在一起作为第三多通道注意力模块的输入；

所述第三多通道注意力模块的输出为所述多尺度特征迭代融合模块的输出。

本发明由于采取以上技术方案，其具有以下优点：

从图像处理的角度出发，设计了一个多尺度注意力网络框架，它是一个灵活的学习框架，能够以端到端的方式挖掘更有意义的信息。对于不同的疾病需要关注的地方不同，其感受野也不同，充分利用多尺度信息能更好地自适应地学习鉴别特征，提高分类精度。

附图说明

图1是本发明的基于多尺度特征迭代融合网络的图像分类方法的步骤示意图；

图2是本发明的将需要分类的原始图像导入N个特征提取网络以获取N个特征图的步骤示意图；

图3是本发明将所述N个特征图分别导入多尺度特征迭代融合模块，以获得多尺度特征注意图的步骤示意图；

图4是本发明的多尺度特征迭代融合模块的构成图。

图5是本发明的特征提取网络的串联结构图；

图6是本发明的单幅图基于多尺度特征迭代融合模块的图像分类装置的结构图；

图7是本发明的M幅图基于多尺度特征迭代融合模块的图像分类装置的结构图；

图8是本发明的多尺度特征迭代融合模块的实施步骤图。

附图标记：

1 多尺度特征迭代融合模块； 2 降采样模块；

3 第一多通道注意力模块； 4 第二多通道注意力模块；

5 第三多通道注意力模块。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“上”、“下”、“前”、“后”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的系统或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，使用术语“第一”、“第二”、“第三”等词语来限定零部件，仅仅是为了便于对上述零部件进行区别，如没有另行声明，上述词语并没有特殊含义，不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1所示，

一种基于多尺度特征迭代融合网络的图像分类方法，包括如下步骤：

S1：将需要分类的原始图像导入N个特征提取网络以获取N个特征图；所述特征提取网络在本技术方案中是神经网络；同一副原始图像导入不同的特征提取网络获得的是不同的特征图；所述不同的特征图起码在尺度上是不同的。将原始图像导入N个特征提取网络，可以是分别导入N个特征提取网络；也可以是依次导入，即原始图像送入第一个特征提取网络后，第一个特征提取网络的输出导入到第二个特征提取网络，然后依次类推，所述第N个特征提取网络的输入是第N-1个特征提取网络的输出；第N个特征提取网络的输出是第N个特征图。

S2：将所述N个特征图分别依次导入N-1个多尺度特征迭代融合模块，以获得多尺度特征注意图；N个特征图至少在尺度上不同，所以导入多尺度特征迭代融合模块后，分别获得的是多尺度特征注意图。

S3：将所述多尺度特征注意图导入分类器，以获得分类后的图像。在本实施例中分类器由一个全连接的层和非线性激活层组成，用来预测图像可能有胸部疾病的概率。

如图2、图5所示，

S11：将需要分类的原始图像输入到具有图像特征提取功能的第一特征提取网络；所述第一特征提取网络的输出作为具有图像特征提取功能的第二特征提取网络的输入，重复上述步骤，以得到将共N个所述具有图像特征提取功能的特征提取网络依次串联在一起；N为正整数。在本实施例中，每个特征提取网络都是由一个或者多个神经网络构成。所述神经网络提取图像中的特征，在本实施方式中，其提取的就是疾病区域的图像特征。本实施方式中，N＝4，即将4个具有图像特征提取功能的特征提取网络依次串联在一起。

S12：所述N个具有图像特征提取功能的特征提取网络输出N个特征图。每个特征提取网络输出的特征图的尺寸不一致，感受野也不一致；随着N的值得增长，每个特征提取网络得到的特征图的语义信息也越来越高级。为了获取最高级的语义信息，原始图像必然需要经过多个特征提取网络的处理。在本实施例中，图像每经过一个特征提取网络，输出的特征图的尺度就减小为输入图像的一半。由此可知，一幅原始图像经过了N个特征提取网络后，获得了N个特征图，所述N个特征图的尺度是不一样的；每个特征图的尺度是原始图像的1/2N倍，其中N为经过的特征提取网络的个数。

如图3、图6所示，

S21：从第二个所述具有图像特征提取功能的特征提取网络开始，将N-1个具有图像特征提取功能的特征提取网络输出的N-1个所述特征图一一对应的导入到依次串联的N-1个多尺度特征迭代融合模块中；并且，将第一个所述特征图导入到所述N-1个多尺度特征迭代融合模块中的第一个所述多尺度特征迭代融合模块中；第一个所述多尺度特征迭代融合模块的输出作为第二个所述多尺度特征迭代融合模块的输入，依次重复，将每个所述多尺度特征迭代融合模块的输出导入到下一个串联在一起的所述多尺度特征迭代融合模块中；将不同层次的特征组合在一起，可以获得更有意义的特征。第一个特征提取网络输出的特征图和第二个特征提取网络输出的特征图在尺度上相差一倍；将第一个特征提取网络输出的特征图和第二个特征提取网络输出的特征图输入第一个多尺度特征迭代融合模块，可以获得更有意义的特征。在本实施例中，即可获得关注的疾病区域的特征图。

S22：第N-1个所述多尺度特征迭代融合模块1的输出为所述需要分类的原始图像的特征注意图；按照上述步骤重复操作，所述第N-1个多尺度特征迭代融合模块的输入即为第N-2个多尺度特征迭代融合模块的输出和第N个特征提取网络的输出。所述第N-1个多尺度特征迭代融合模块的输出是融合了多尺度图像的输出，具有更高级的语义特征，即获得了更具有代表性的疾病特征。

如图7所示，

S23：将所述需要分类的原始图像进行M种变换，分别得到M幅变换图像；所述原始图像进行变换包括：镜像变换，放大，缩小等，对原始图像的处理。M为正整数。本实施例中，M＝2。

S24：将所述M幅变换图像分别重复所述步骤S11-S12和步骤S21-S22，以得到M幅特征注意图；总共得到M+1种尺度的特征注意图。由于每种尺度的特征注意图关注的图像特征不一样，所以将上述M+1种尺度的特征注意图注入分类器后，可以获得分类后的图像。

所述的基于多尺度特征迭代融合网络的图像分类方法，优选地，所述N个特征提取网络包含CNN、LeNET、ALexNET、VGG、NiN、GoogleNET、ResNET或DenseNET中的一种或者两种以上的组合。每种特征提取网络不同，侧重的图像提取特征也不同，所以，需要将不同的特征提取网络融合在一起。

如图4、图8所示，

S221：将第K个所述特征提取网络的输出和第K+1个特征提取网络的输出分别导入到所述多尺度特征迭代融合模块中；

所述第K个所述特征提取网络的输出连接所述降采样模块2的输入，所述降采样模块2的输出连接第一多通道注意力模块3；所述第K+1个特征提取网络的输出连接第二多通道注意力模块4；所述第一多通道注意力模块3的输出和所述第二多通道注意力模块4的输出拼接在一起作为第三多通道注意力模块5的输入；所述多通道注意力模块将输入的第K个所述特征提取网络的输出图像分为两个通道进行特征提取，使用尺度不同的两个分支来提取通道注意力权重。其中一个分支提取局部特征的空间注意力，另一个分支使用GAP(全局平均池化：GlobalAvg Pooling)均值化提取全局特征的通道注意力。

所述第三多通道注意力模块5的输出为所述多尺度特征迭代融合模块的输出。

如图7所示，

由N个具有图像特征提取功能的特征提取网络依次串联而成；

由N-1个多尺度特征迭代融合模块1依次串联而成；

所述N-1个多尺度特征迭代融合模块1中的第一个多尺度特征迭代融合模块的输入包括所述N个具有图像特征提取功能的特征提取网络中的第一个特征提取网络和第二个特征提取网络；

依次重复，将所述多尺度特征迭代融合模块1的输出导入到下一个串联在一起的所述多尺度特征迭代融合模块1中；第N-1个所述多尺度特征迭代融合模块的输出为所述需要分类的原始图像的特征注意图；

所述多尺度特征迭代融合网络还包括M组所述N-1个多尺度特征迭代融合模块1；

所述M组所述N-1个多尺度特征迭代融合模块1的输出为原始图像经过M种变换后获得的M种需要分类的图像的特征注意图。

所述的基于多尺度特征迭代融合网络的图像分类装置，优选地，所述多尺度特征迭代融合模块1包括：三个用于提取通道注意力权重的多通道注意力模块和一个对较大尺度特征注意图进行降采样的降采样模块2；

所述多尺度特征迭代融合模块1的输入包括：第K个所述特征提取网络的输出和第K+1个特征提取网络的输出；所述降采样模块2使得所述第K个所述特征提取网络的输出的特征图和所述第K+1个所述特征提取网络的输出的特征图的尺度相同；

所述第K个所述特征提取网络的输出连接所述降采样模块2的输入，所述降采样模块2的输出连接第一多通道注意力模块3；所述第K+1个特征提取网络的输出连接第二多通道注意力模块4；所述第一多通道注意力模块3的输出和所述第二多通道注意力模块4的输出拼接在一起作为第三多通道注意力模块5的输入；

所述第三多通道注意力模块5的输出为所述多尺度特征迭代融合模块1的输出。

综上所述，所述基于多尺度特征迭代融合网络的图像分类方法和装置，解决了图像分类的问题，尤其是疾病图像分类的问题。从图像处理的角度出发，设计了一个多尺度注意力网络框架，它是一个灵活的学习框架，能够以端到端的方式挖掘更有意义的信息。由于不同的疾病需要关注的地方不同，其感受野也不同，只有充分利用多尺度信息才能更好地自适应地学习鉴别特征，提高分类精度。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多尺度特征迭代融合网络的图像分类方法，其特征在于，包括如下步骤：

S3：将所述多尺度特征注意图导入分类器，以获得分类后的图像；

所述步骤S1包括如下：

S12：所述N个具有图像特征提取功能的特征提取网络输出N个特征图；

所述步骤S2包括如下：

S24：将所述M幅变换图像分别重复所述步骤S11-S12和步骤S21-S22，以得到M幅特征注意图；总共得到M+1种尺度的特征注意图；

所述步骤S22中的第N-1个所述多尺度特征迭代融合模块的输出为所述需要分类的原始图像的特征注意图，包括步骤如下：

2.根据权利要求1所述的基于多尺度特征迭代融合网络的图像分类方法，其特征在于，所述N个特征提取网络包含CNN、LeNET、ALexNET、VGG、NiN、GoogleNET、ResNET或DenseNET中的一种或者两种以上的组合。

3.一种基于多尺度特征迭代融合网络的图像分类装置，其特征在于，包括如下：

多尺度特征迭代融合网络：用于将所述N个特征图分别导入，以获得多尺度特征注意图；

分类器：用于将所述多尺度特征注意图导入以获得分类后的图像；

所述特征图获取模块包括如下：

由N个具有图像特征提取功能的特征提取网络依次串联而成；

所述N个具有图像特征提取功能的特征提取网络中的每一个的输出均连接所述多尺度特征迭代融合网络；

所述多尺度特征迭代融合网络包括如下：

由N-1个多尺度特征迭代融合模块依次串联而成；

所述第二个多尺度特征迭代融合模块的输入包括所述第一个多尺度特征迭代融合模块的输出和第三个特征提取网络的输出；

所述M组所述N-1个多尺度特征迭代融合模块的输出为原始图像经过M种变换后获得的M种需要分类的图像的特征注意图；

所述多尺度特征迭代融合模块(1)包括：三个用于提取通道注意力权重的多通道注意力模块和一个对较大尺度特征注意图进行降采样的降采样模块(2)；

所述多尺度特征迭代融合模块(1)的输入包括：第K个所述特征提取网络的输出和第K+1个特征提取网络的输出；所述降采样模块(2)使得所述第K个所述特征提取网络的输出的特征图和所述第K+1个所述特征提取网络的输出的特征图的尺度相同；

所述第K个所述特征提取网络的输出连接所述降采样模块(2)的输入，所述降采样模块(2)的输出连接第一多通道注意力模块(3)；所述第K+1个特征提取网络的输出连接第二多通道注意力模块(4)；所述第一多通道注意力模块(3)的输出和所述第二多通道注意力模块(4)的输出拼接在一起作为第三多通道注意力模块(5)的输入；

所述第三多通道注意力模块(5)的输出为所述多尺度特征迭代融合模块(1)的输出。

4.根据权利要求3所述的基于多尺度特征迭代融合网络的图像分类装置，其特征在于，所述N个特征提取网络包含CNN、LeNET、ALexNET、VGG、NiN、GoogleNET、ResNET或DenseNET中的一种或者两种以上的组合。