CN111275118A

CN111275118A - 基于自我修正式标签生成网络的胸片多标签分类方法

Info

Publication number: CN111275118A
Application number: CN202010072862.0A
Authority: CN
Inventors: 张玥杰; 胡玥琳
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-12
Anticipated expiration: 2040-01-22
Also published as: CN111275118B

Abstract

本发明属于医学图像处理领域，具体为基于自我修正式标签生成网络的胸片多标签分类方法。本发明通过构建自我修正式标签生成网络模型，用于胸片的多标签分类；该网络包括：ResNet图像编码器、自我修正式注意力机制模块以及GRU解码器；图像编码器用于获取输入图像即胸片图像的高层语义特征，生成图像特征表示，并输出至自我修正式注意力机制模块中；自我修正式注意力机制模块在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱，并向解码器输出上下文特征向量；解码器根据上下文特征向量和之前时刻生成的标签词向量，生成当前时刻图像所对应的标签。本发明有效解决了胸片多标签分类中的预测效果不平衡问题。

Description

基于自我修正式标签生成网络的胸片多标签分类方法

技术领域

本发明属于医学图像处理领域，具体涉及胸片的多标签分类方法。

背景技术

胸片广泛用于临床诊断和治疗，是检测和诊断胸部异常的主要手段之一。专业医师阅读胸片并撰写文本报告以阐述研究结果。这是一项需要丰富医学经验和高度专注的工作，对于没有经验的医生而言，诊断医学影像很容易出现错误。而对于人口稠密之地的医生而言，阅读医学影像既费时又乏味。所以，研究计算机辅助诊疗算法以帮助医生更好地诊断医学影像是一项十分重要的工作。

一般情况下，胸片通常含有一个或多个疾病标签，所以这是一个图像多标签分类问题。近年来，深度学习技术快速发展并在图像分类领域已取得显著进步。这促使越来越多的研究人员尝试利用卷积神经网络来解决胸片的多标签分类问题。一种比较常见的解决方式是将多标签分类问题看作多个单标签的二分类问题，分别利用卷积神经网络(Convolutional NeuralNetwork,CNN)进行处理。有研究学者提出一个基于残差网络(Residual Network,ResNet)的多标签分类框架并将其迁移至胸片分类问题中，尝试不同池化方法以获得更好效果，并且还设计加权的损失函数以缓解正样本数量极度稀缺的情况。其他研究学者提出一个名为CheXNet的深度学习框架并声称该模型在检测肺炎的任务上已经可以超越人类医生。也有研究学者提出基于类别的空间注意力机制，以帮助模型更好地关注到每个标签对应的异常区域。

但是，上述这些方法都将多标签问题看作多个独立的单标签问题，从而忽略标签之间的关联。疾病之间存在一定关联，如肺渗透通常会与肺扩张和肺积水有一定关联。所以，这些方法都会出现预测效果的不平衡现象，即模型在较为容易预测的标签上面具有很好效果，但在较难预测的标签上表现很差。

为此，研究人员开始着眼于疾病标签关联性的研究。有研究学者这使用空间正则化网络(Spatial Regularization Network,SRN)来帮助模型关注到潜在的异常区域并利用可学习的卷积操作捕捉标签之间潜在的空间关联。也有研究学者设计一个级联网络来捕捉标签之间的潜在关联。然而，这些捕捉到的潜在隐层关联只是标签关联的一种模糊表示，并不能改善模型在多标签之间表现不平衡的现象。在自然图像的多标签分类问题上表现良好的循环神经网络(Recurrent Neural Network,RNN)框架也曾被用于医学图像上。有研究学者利用RNN框架来捕捉标签之间的关联性和共现性，其模型的每个时间步对应于一个分类器，用于预测某一标签的存在与否，因此RNN的时间步长度和标签数量一致。但这类模型并非真正意义上的标签生成模型，因为RNN在其中的作用为连接一系列的二分类器，等同于先将多标签分类看作多个单标签分类问题，再使用RNN将这些分类器连接在一起。除此之外，该模型会受到预测顺序的影响，若两个相关性较高的标签被排列得很远，则会对RNN捕捉关联性造成一定难度。若两个无关的标签被排列得很近，则无用的关联性会被捕捉和存储在RNN中，对后续关联性的捕捉产生一定影响，该缺点在标签数量较大时会变得更加明显。

总而言之，之前的大部分研究将多标签看作独立的单标签问题，从而导致标签之间的关联性和共现性未得到有效利用。可学习的卷积操作和级联网络只能捕捉到潜在的隐层关联信息，这对于模型预测效果的不平衡并没有明显改善。本发明首次采用自我修正式标签生成网络(Self-calibration Label Generation Network,SLGN)以标签生成的方式对胸片进行多标签分类，可以同时捕捉和利用到多种标签的相互关联性，从而最大化地提升模型的预测精度。

发明内容

本发明的目的在于提供一种能够解决胸片多标签分类问题上产生的预测效果不平衡现象的胸片多标签分类方法。

本发明提供的胸片多标签分类方法，是基于一种全新的框架——自我修正式标签生成网络的，即本发明首先构建一个自我修正式标签生成网络模型，用于胸片的多标签分类。

本发明构建的自我修正式标签生成网络(Self-calibration Label GenerationNetwork,SLGN)，包括三个组成部分：ResNet图像编码器、自我修正式注意力机制模块以及作为解码器的门控循环单元(GRU)；其中：

所述ResNet图像编码器用于获取输入图像(即胸片图像)的高层语义特征，生成图像特征表示，并输出至自我修正式注意力机制模块中；

所述自我修正式注意力机制模块，包括：在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱，并向GRU解码器输出上下文特征向量；

所述GRU解码器，根据所述上下文特征向量和之前时刻生成的标签词向量，生成当前时刻图像所对应的标签。

进一步，所述ResNet图像编码器采用101层ResNet；所述ResNet从图像中提取得一个2,048维的图像特征表示，计算公式为：

其中θ_cnn是ResNet中包含的所有参数，I为所述图像，

为得到的图像特征表示，其中H、W和D分别表示图像的高度、宽度和通道数量。

进一步，所述自我修正式注意力机制模块中，当前输入包括：图像特征表示

和之前时刻所输出的状态信息h_t-1；并通过多层感知器的方式来计算每个区域的注意力得分，计算公式为：

其中，θ_MLP是多层感知器中包含的所有参数，X为图像特征表示，

为得到的当前时刻注意力图谱；

接着，该注意力图谱被输入至一个GRU修正器中，该GRU修正器根据当前时刻的注意力图谱α_t生成修正系数η_t，用于修正当前时刻注意力图谱中的错误和偏差，最终输出上下文特征向量

其计算公式为：

η_t＝GRU(α_t) (3)

其中，α_t′为当前时刻修正后的注意力图谱；

代表逐元素相加；f_z代表上下文特征向量的计算函数。

进一步，所述GRU解码器的当前输入包括：上下文特征向量

和之前时刻所生成的标签词所对应的词向量；

其中

表示词嵌入矩阵，x_t-1是之前时刻生成标签的one-hot表示，h_t对应的是t时刻GRU的状态信息；接着，GRU解码器向全连接层输出当前时刻状态信息，全连接层计算当前时刻标签词的概率分布。

本发明还提供基于上述自我修正式标签生成网络的多标签分类方法，具体步骤包括：

步骤一、所述ResNet图像编码器获取输入图像的高层语义特征，生成图像特征表示，并输出至自我修正式注意力机制模块中用于注意力图谱的生成；

步骤二、所述自我修正式注意力机制模块在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱，并向GRU解码器输出上下文特征向量；

步骤三、所述GRU解码器根据所述上下文特征向量和之前时刻生成的标签词向量生成当前时刻图像所对应的标签。

本发明的优点包括：

首先，自我修正式标签生成网络(SLGN)同时捕捉和利用标签之间的空间关联、语义关联和共现性，使模型的预测精度大大提升。由图像字幕生成这一图像理解任务启发而来，本发明利用文本生成的方式生成标签序列，较好地捕捉和利用标签之间的语义关联和共现性。

其次，本发明根据胸片的特殊性设计自我修正式注意力机制并将其加入至网络构建过程中，从而帮助模型更好地关注到潜在的异常区域。同时，所述注意力机制可以捕捉标签之间的空间关联并利用该关联修正错误的定位区域。

最后，本发明在公共数据集Chest X-ray和CheXpert上取得不错的结果，性能较目前最好的方法具有较大提升，模型预测的不平衡现象也得到有效缓解。

附图说明

图1是标签序列生成流程图。

图2是本发明的框架图。

图3为GRU单元的内部结构。

具体实施方式

由背景技术可知，之前的大部分研究将多标签看作独立的单标签问题从而忽略标签之间的关联性。最终导致模型预测效果的不平衡，即在较易预测的疾病标签上具有较好表现，但在较难预测的疾病标签上表现很差，如肺炎。

本发明针对上述问题进行进一步研究，在本发明中提供的自我修正式标签生成网络(SLGN)可以同时捕捉和利用标签之间的空间关联、语义关联和共现性，从而最大化地提升模型的预测精度。本发明采用编码器-解码器结构。在图像字幕生成任务中，CNN被用作编码器来提取图像特征。图像特征是对图像的抽象表示，包含图像的高层语义信息，对解码器的文本生成会提供很大帮助和引导。由此，采用ResNet作为编码器，并将提取得到的图像特征输入至解码器中用于字幕生成。循环神经网络RNN被用作解码器来生成对应字幕，因为它能够很好地处理序列数据并将上下文信息保存在内部记忆单元。在每个时间步，图像特征和上一步生成的词向量会作为RNN的输入。前者包含高层图像信息，后者包含丰富语义信息。然后，可根据RNN的输出来计算每个时间步候选词语的概率值。

与图像字幕生成任务相同，SLGN也采用RNN架构作为解码器来生成标签词序列，如图1所示。因为RNN可以很好地捕捉与保存标签序列的上下文信息并高效学习到标签之间的关联性和共现性，这对于多标签分类任务十分重要。同时，也采用标签词向量作为RNN的输入，词向量可以将标签词映射至一个由实数组成的向量中，高度语义相关的词向量会在低维度的欧几里德空间中相互靠近。下文中，结合附图和实施例对本发明的精神和实质做进一步阐述。

如图2所示，本发明提供的自我修正式标签生成网络，包括：ResNet图像编码器、自我修正式注意力机制、及GRU解码器3个关键部分。ResNet-101被用作编码器来获取输入图像的高层语义特征并输出图像特征表示。自我修正式注意力机制模块在每个时刻根据之前时刻的隐藏层状态和图像特征生成对应于当前时刻的注意力图谱；接着图像特征会被该注意力图谱加权后得到上下文特征向量；GRU网络被用作解码器来根据上下文特征向量和之前时刻生成的标签词向量来生成当前时刻的隐藏层状态；该隐藏层状态被输入分类器后得到当前生成的标签词。以此顺序循环地生成标签序列，直至生成的标签为结束符。

本实施例中，ResNet图像编码器采用101层的ResNet，所述101层的ResNet首先通过一系列网络层将原始图像转变为一个2,048维的图像特征表示。输入一幅胸片图像I，从ResNet的最后一层卷积层conv5_x提取得到的图像特征表示X可被表示为：

其中，θ_cnn是ResNet中包含的所有参数；I为所述图像；

为得到的图像特征表示；H、W和D分别表示图像的高度、宽度和通道数量。

循环神经网络RNN被用来处理句子、视频这样一些具有依赖关系的序列数据。但传统的RNN模型存在梯度消失或者爆炸的问题，难以用来建模长距离依赖关系。为此，在本发明中引入门控循环单元(GRU)作为解码器。作为RNN模型的变种，GRU添加两个门控单元，即复位门和更新门。复位门会学习如何筛选出有用的上一时间步提供的信息，更新门的目的是控制内部记忆单元的更新程度。有研究学者比较过多种RNN的变种框架，提出GRU在最终效果上与LSTM相当。同时，由于GRU的精简结构，其所需要的计算代价也较低。

本实施例中，GRU解码器负责为输入图像生成标签序列x，

其中，T是标签序列的长度，V是词库大小，词库由K个疾病标签、一个正常的“NoFindings”标签、及一个结束符EOS构成。在每个时刻t，GRU解码器基于上下文特征向量，之前时刻生成的标签词向量和之前时刻的隐藏层状态生成当前时刻的标签。所使用的GRU框架内部结构如图3所示。

其中，u_t、r_t、

和h_t分别代表GRU的更新门、复位门、候选隐藏层状态和隐藏层状态；向量

是上下文特征向量；

是嵌入矩阵，m代表词向量的维度；

和σ分别表示逐元素相乘和sigmoid激活函数。需要注意的是，在初始时间步输入一个虚拟标签，它是一个可学习的向量。最后，使用全连接层去计算每个候选标签的概率，如下所示：

其中，W_xh是全连接层的参数；是当前时间步所有候选标签词的预测概率。

为帮助模型更好地检测出疾病，设计自我修正式注意力机制模块并将其添加在标签生成网络上，以帮助模型在生成标签时更好地关注潜在的异常区域。从ResNet编码器提取得到的图像特征X∈R^H×W×D可被看作一系列D维向量，该向量在图像字幕生成任务中被称作局部特征。每个局部特征都代表从输入图像的某一部分所提取的图像特征，定义如下：

对于每个局部特征a_l，注意力机制模块会计算出一个对应的得分α_l，代表位置l在疾病区域内的可能性以及是否值得被关注。每个局部特征a_l的得分α_l是根据上一时间步的GRU隐藏层状态然后由多层感知器计算得出，如下所示：

e_t,l＝W_etanh(W_eaa_l+W_ehh_t-1+b_e) (12)

α_t,l＝softmax(e_t,l+b_α) (13)

其中，α_t,l和e_t,l代表t时刻l位置标准化之后和标准化之前的注意力得分。

在处理图像的多标签分类任务时，图像中尺寸较小的物体通常会较难被捕捉到，在医学图像中也是如此。例如，气胸一般发生在肺部和胸壁之间的区域内并占据较大的胸部空间，然而肺结节通常尺寸较小，有时甚至肉眼也难以辨别。所以，在生成注意力图谱时，所有疾病都使用相同的参数不合理。为缓解这个问题，注意力机制在每个时间步都会根据之前时间步的预测状态重新为当前时间步生成对应的注意力图谱。所以，每个标签的注意力图谱都具有一定特异性，即使疾病区域十分微小，注意力机制也可较好定位到。

不同于图像字幕生成任务，标签序列只包含名词，不包含介词和定冠词等其他词语。所以，每一时间步的注意力图谱都包含丰富的空间位置信息，这十分有助于标签之间空间关联的捕捉和保存。除此之外，与普通图像多变的图像背景相比，胸片的图像背景是固定的，即整个胸腔。同时，各器官之间的位置关系也是固定的。如果心脏的位置被准确判断到，则可较易推断出左肺或者右肺的位置。因此，根据器官之间的位置合理性，当前时间步的注意力图谱可被之前时间步的注意力图谱修正。例如，心脏疾病是胸腔积水的主要诱因之一，所以心脏肥大症患者很有可能伴随胸腔积水的出现。假设前一时间步预测的标签为心脏肥大症，则前一时间步的注意力图谱会在心脏位置具有较高得分。如果在当前时间步，模型倾向于生成胸腔积水标签，则修正器会根据上一步确定的心脏位置，将注意力图谱向心脏两侧靠下的位置修正(胸腔积水通常在胸片上的表现为肋膈角变钝、膈肌升高)。

在SLGN框架中，再次选择GRU来处理生成的注意力图谱序列。因为GRU可以很好地捕捉与保存标签之间的视觉上下文信息并高效学习到标签之间的位置关系。这里，定义α_t为t时刻生成的注意力图谱。接着，该注意力图谱会被输入至GRU修正器中，GRU修正器根据当前时刻的注意力图谱和之前时刻的隐藏层状态h′_t-1生成修正系数η_t。修正系数的范围是[-1,1]。接着，当前时间步t的注意力图谱α_t会被修正系数η_t修正，而生成最后的注意力图谱α′_t，如下所示：

η_t＝GRU(α_t,h′_t-1) (3)

其中，

代表逐元素相加。自我修正式注意力机制能够通过生成大于0的修正系数来提高原有的注意力得分，从而增强模型对正确区域的关注程度。同时，也可以通过生成小于0的修正系数来降低原有的注意力得分，从而削弱模型对错误区域的关注程度。值得注意的是，由于修正后的注意力图谱可能出现负数，因此使用ReLU激活函数来消除修正后注意力图谱中的负数。因此，最终错误区域的注意力得分会接近0，代表这块区域不参与最后的标签生成。同时，正确区域的注意力得分会接近一个阈值(该机制中设置为2)。此机制和GRU与LSTM中的门控机制有异曲同工之处。最后，上下文特征向量

由以下公式计算：

其中，*代表每个通道维度上图像特征和注意力得分的逐元素相乘。

本实施例中，胸片数据的来源选择两个公共的数据集进行网络训练，即Chest X-ray 14和CheXpert。Chest X-ray 14是由美国卫生研究院(National Institutes ofHealth,NIH)发布的标准胸片数据集，包含112,120张正面胸片图像、及14种标签标记。这14种标签分别为肺不张、心脏扩大、胸腔积液等。若以上14种疾病均被发现，则该胸片会被标记为正常(No Findings)。有关数据划分方式，采用NIH提供的官方划分。除此之外，该数据集还为880张胸片图像提供专业医师人工标注的疾病区域边界框(Bounding box)。其中，93张胸片图像被同时标注多个标签的边界框。CheXpert是近期由斯坦福大学发布的大规模胸片数据集，内含224,316万张正面和侧面的胸片图像、及14种标签标记。由于CheXpert的测试集标注结果未公开，因此将其作为补充数据集，用以进一步验证模型效果。

为对本发明实施例提供的自我修正式标签生成网络进行测试，本实施例中使用BeamSearch算法来搜索最优的标签序列。在每个时刻，GRU都会产生一个在标签词表上的概率分布，通过Beam Size的设定选择多个概率最高的标签词作为这一时刻的输出和下一时刻的输入。通过在验证集上的测试，在本实施例中将BeamSize值设置为2。

本实施例中选择AUC得分、查准率、召回率和F1得分来对多标签分类进行评价，分别计算类别平均查准率(Per-class Precision,C-P)、类别平均召回率(Per-classRecall,C-R)、类别平均F1(Per-Class F1,C-F)、样本平均查准率(Overall Precision,O-P)、样本平均召回率(Overall Recall,O-R)和样本平均F1(Overall F1,O-F)。

通过在验证集上的实验对比，对于本发明提出模型所包含的超参数，做以如下设定。对于两个数据集，词嵌入矩阵的维度都设置为128，而在GRU中隐状态的维度则都设置为512维。本发明提出的SLGN模型在Chest X-ray 14与CheXpert两个数据集上分别进行测试。其中，在Chest X-ray 14上，SLGN的类别平均F1得分达到0.440，与之前效果最好的模型相比领先12.1％。在样本平均F1得分达到0.479，领先11.8％。而在CheXpert上，SLGN的类别平均F1得分达到0.494，与baseline模型相比提升5.3％。在样本平均F1得分达到0.549，与baseline模型相比提升7.7％。

综上所述，本发明面向胸片的多标签分类问题，对标签之间的语义关联、空间关联和共现性进行分析和探索，并提出一种新颖的自我修正式标签生成网络SLGN。该网络利用文本生成的方式生成标签序列，较好地捕捉和利用标签之间的语义关联。同时，本发明根据胸片的特殊性设计自我修正式注意力机制模块，并将其加入到网络构建过程中。该注意力机制模块可以捕捉标签之间的空间关联，并利用该关联修正错误的定位区域。本发明在公共数据集Chest X-ray14和CheXpert上取得不错的结果，性能较目前最好的方法具有较大提升，模型预测的不平衡现象也得到有效缓解。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于自我修正式标签生成网络的胸片多标签分类方法，其特征在于，构建一个自我修正式标签生成网络模型，用于胸片的多标签分类；

构建的自我修正式标签生成网络(SLGN)，包括三个组成部分：ResNet图像编码器、自我修正式注意力机制模块以及作为解码器的门控循环单元(GRU)；其中：

所述ResNet图像编码器用于获取输入图像即胸片图像的高层语义特征，生成图像特征表示，并输出至自我修正式注意力机制模块中；

2.根据权利要求1所述的胸片多标签分类方法，其特征在于，所述ResNet图像编码器采用101层ResNet；所述ResNet从图像中提取得一个2,048维的图像特征表示，计算公式为：

其中θ_cnn是ResNet中包含的所有参数，I为所述图像，

为得到的图像特征表示，其中H、W和D分别表示图像的高度、宽度和通道数量；

所述自我修正式注意力机制模块中，当前输入包括：图像特征表示

和之前时刻所输出的状态信息h_t-1；并通过多层感知器的方式计算每个区域的注意力得分，计算公式为：

为得到的当前时刻注意力图谱；

其计算公式为：

η_t＝GRU(α_t) (3)

其中，α′_t为当前时刻修正后的注意力图谱；

代表逐元素相加；f_z代表上下文特征向量的计算函数；

所述GRU解码器的当前输入包括：上下文特征向量

和之前时刻所生成的标签词所对应的词向量；

其中

3.根据权利要求2所述的胸片多标签分类方法，其特征在于，所述GRU解码器向全连接层输出当前时刻状态信息，全连接层计算当前时刻标签词的概率分布，具体流程为：

在每个时刻t，GRU解码器基于上下文特征向量

之前时刻生成的标签词x_t-1和之前时刻的隐藏层状态h_t-1生成当前时刻的标签：

其中，u_t、r_t、

和h_t分别代表GRU的更新门、复位门、候选隐藏层状态和隐藏层状态；

是嵌入矩阵，m代表词向量的维度；

和σ分别表示逐元素相乘和sigmoid激活函数；其中，在初始时间步输入一个虚拟标签，它是一个可学习的向量；最后，使用全连接层去计算每个候选标签的概率，如下所示：

其中，W_xh是全连接层的参数；

是当前时间步所有候选标签词的预测概率。

4.根据权利要求2所述的胸片多标签分类方法，其特征在于，从ResNet编码器提取得到的图像特征X∈R^H×W×D可被看作一系列D维向量，该向量在图像字幕生成任务中被称作局部特征；每个局部特征都代表从输入图像的某一部分所提取的图像特征，定义如下：

对于每个局部特征a_l，注意力机制模块计算出一个对应的得分α_l，代表位置l在疾病区域内的可能性以及是否值得被关注；每个局部特征a_l的得分α_l根据上一时间步的GRU隐藏层状态然后由多层感知器计算得出：

e_t,l＝W_e tanh(W_eaa_l+W_ehh_t-1+b_e) (12)

α_t,l＝softmax(e_t,l+b_α) (13)

5.根据权利要求2所述的胸片多标签分类方法，其特征在于，在SLGN中，再次选择GRU来处理生成的注意力图谱序列，定义α_t为t时刻生成的注意力图谱；该注意力图谱被输入至GRU修正器中，GRU修正器根据当前时刻的注意力图谱和之前时刻的隐藏层状态h′_t-1生成修正系数η_t；修正系数的范围是[-1,1]；接着，当前时间步t的注意力图谱α_t被修正系数η_t修正，生成最后的注意力图谱α′_t：

η_t＝GRU(α_t,h′_t-1) (3)

其中，

代表逐元素相加；自我修正式注意力机制模块通过生成大于0的修正系数来提高原有的注意力得分，从而增强模型对正确区域的关注程度；同时，通过生成小于0的修正系数来降低原有的注意力得分，从而削弱模型对错误区域的关注程度；

由于修正后的注意力图谱可能出现负数，因此使用ReLU激活函数来消除修正后注意力图谱中的负数；最终错误区域的注意力得分会接近0，代表这块区域不参与最后的标签生成；同时，正确区域的注意力得分接近一个阈值；最后，上下文特征向量

由以下公式计算：