CN111275118B - 基于自我修正式标签生成网络的胸片多标签分类方法 - Google Patents

基于自我修正式标签生成网络的胸片多标签分类方法 Download PDF

Info

Publication number
CN111275118B
CN111275118B CN202010072862.0A CN202010072862A CN111275118B CN 111275118 B CN111275118 B CN 111275118B CN 202010072862 A CN202010072862 A CN 202010072862A CN 111275118 B CN111275118 B CN 111275118B
Authority
CN
China
Prior art keywords
image
attention
label
gru
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010072862.0A
Other languages
English (en)
Other versions
CN111275118A (zh
Inventor
张玥杰
胡玥琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010072862.0A priority Critical patent/CN111275118B/zh
Publication of CN111275118A publication Critical patent/CN111275118A/zh
Application granted granted Critical
Publication of CN111275118B publication Critical patent/CN111275118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明属于医学图像处理领域,具体为基于自我修正式标签生成网络的胸片多标签分类方法。本发明通过构建自我修正式标签生成网络模型,用于胸片的多标签分类;该网络包括:ResNet图像编码器、自我修正式注意力机制模块以及GRU解码器;图像编码器用于获取输入图像即胸片图像的高层语义特征,生成图像特征表示,并输出至自我修正式注意力机制模块中;自我修正式注意力机制模块在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱,并向解码器输出上下文特征向量;解码器根据上下文特征向量和之前时刻生成的标签词向量,生成当前时刻图像所对应的标签。本发明有效解决了胸片多标签分类中的预测效果不平衡问题。

Description

基于自我修正式标签生成网络的胸片多标签分类方法
技术领域
本发明属于医学图像处理领域,具体涉及胸片的多标签分类方法。
背景技术
胸片广泛用于临床诊断和治疗,是检测和诊断胸部异常的主要手段之一。专业医师阅读胸片并撰写文本报告以阐述研究结果。这是一项需要丰富医学经验和高度专注的工作,对于没有经验的医生而言,诊断医学影像很容易出现错误。而对于人口稠密之地的医生而言,阅读医学影像既费时又乏味。所以,研究计算机辅助诊疗算法以帮助医生更好地诊断医学影像是一项十分重要的工作。
一般情况下,胸片通常含有一个或多个疾病标签,所以这是一个图像多标签分类问题。近年来,深度学习技术快速发展并在图像分类领域已取得显著进步。这促使越来越多的研究人员尝试利用卷积神经网络来解决胸片的多标签分类问题。一种比较常见的解决方式是将多标签分类问题看作多个单标签的二分类问题,分别利用卷积神经网络(Convolutional Neural Network,CNN)进行处理。有研究学者提出一个基于残差网络(Residual Network,ResNet)的多标签分类框架并将其迁移至胸片分类问题中,尝试不同池化方法以获得更好效果,并且还设计加权的损失函数以缓解正样本数量极度稀缺的情况。其他研究学者提出一个名为CheXNet的深度学习框架并声称该模型在检测肺炎的任务上已经可以超越人类医生。也有研究学者提出基于类别的空间注意力机制,以帮助模型更好地关注到每个标签对应的异常区域。
但是,上述这些方法都将多标签问题看作多个独立的单标签问题,从而忽略标签之间的关联。疾病之间存在一定关联,如肺渗透通常会与肺扩张和肺积水有一定关联。所以,这些方法都会出现预测效果的不平衡现象,即模型在较为容易预测的标签上面具有很好效果,但在较难预测的标签上表现很差。
为此,研究人员开始着眼于疾病标签关联性的研究。有研究学者这使用空间正则化网络(Spatial Regularization Network,SRN)来帮助模型关注到潜在的异常区域并利用可学习的卷积操作捕捉标签之间潜在的空间关联。也有研究学者设计一个级联网络来捕捉标签之间的潜在关联。然而,这些捕捉到的潜在隐层关联只是标签关联的一种模糊表示,并不能改善模型在多标签之间表现不平衡的现象。在自然图像的多标签分类问题上表现良好的循环神经网络(Recurrent Neural Network,RNN)框架也曾被用于医学图像上。有研究学者利用RNN框架来捕捉标签之间的关联性和共现性,其模型的每个时间步对应于一个分类器,用于预测某一标签的存在与否,因此RNN的时间步长度和标签数量一致。但这类模型并非真正意义上的标签生成模型,因为RNN在其中的作用为连接一系列的二分类器,等同于先将多标签分类看作多个单标签分类问题,再使用RNN将这些分类器连接在一起。除此之外,该模型会受到预测顺序的影响,若两个相关性较高的标签被排列得很远,则会对RNN捕捉关联性造成一定难度。若两个无关的标签被排列得很近,则无用的关联性会被捕捉和存储在RNN中,对后续关联性的捕捉产生一定影响,该缺点在标签数量较大时会变得更加明显。
总而言之,之前的大部分研究将多标签看作独立的单标签问题,从而导致标签之间的关联性和共现性未得到有效利用。可学习的卷积操作和级联网络只能捕捉到潜在的隐层关联信息,这对于模型预测效果的不平衡并没有明显改善。本发明首次采用自我修正式标签生成网络(Self-calibration Label Generation Network,SLGN)以标签生成的方式对胸片进行多标签分类,可以同时捕捉和利用到多种标签的相互关联性,从而最大化地提升模型的预测精度。
发明内容
本发明的目的在于提供一种能够解决胸片多标签分类问题上产生的预测效果不平衡现象的胸片多标签分类方法。
本发明提供的胸片多标签分类方法,是基于一种全新的框架——自我修正式标签生成网络的,即本发明首先构建一个自我修正式标签生成网络模型,用于胸片的多标签分类。
本发明构建的自我修正式标签生成网络(Self-calibration Label GenerationNetwork,SLGN),包括三个组成部分:ResNet图像编码器、自我修正式注意力机制模块以及作为解码器的门控循环单元(GRU);其中:
所述ResNet图像编码器用于获取输入图像(即胸片图像)的高层语义特征,生成图像特征表示,并输出至自我修正式注意力机制模块中;
所述自我修正式注意力机制模块,包括:在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱,并向GRU解码器输出上下文特征向量;
所述GRU解码器,根据所述上下文特征向量和之前时刻生成的标签词向量,生成当前时刻图像所对应的标签。
进一步,所述ResNet图像编码器采用101层ResNet;所述ResNet从图像中提取得一个2,048维的图像特征表示,计算公式为:
Figure GDA0003638563500000021
其中θcnn是ResNet中包含的所有参数,I为所述图像,
Figure GDA0003638563500000022
为得到的图像特征表示,其中H、W和D分别表示图像的高度、宽度和通道数量。
进一步,所述自我修正式注意力机制模块中,当前输入包括:图像特征表示
Figure GDA0003638563500000023
和之前时刻所输出的状态信息ht-1;并通过多层感知器的方式来计算每个区域的注意力得分,计算公式为:
Figure GDA0003638563500000031
其中,θMLP是多层感知器中包含的所有参数,X为图像特征表示,
Figure GDA0003638563500000032
为得到的当前时刻注意力图谱;
接着,该注意力图谱被输入至一个GRU修正器中,该GRU修正器根据当前时刻的注意力图谱αt生成修正系数ηt,用于修正当前时刻注意力图谱中的错误和偏差,最终输出上下文特征向量
Figure GDA0003638563500000033
其计算公式为:
ηt=GRU(αt) (3)
Figure GDA0003638563500000034
Figure GDA0003638563500000035
其中,α′t为当前时刻修正后的注意力图谱;
Figure GDA0003638563500000036
代表逐元素相加;fz代表上下文特征向量的计算函数。
进一步,所述GRU解码器的当前输入包括:上下文特征向量
Figure GDA0003638563500000037
和之前时刻所生成的标签词所对应的词向量;
Figure GDA0003638563500000038
其中
Figure GDA0003638563500000039
表示词嵌入矩阵,xt-1是之前时刻生成标签的one-hot表示,ht对应的是t时刻GRU的状态信息;接着,GRU解码器向全连接层输出当前时刻状态信息,全连接层计算当前时刻标签词的概率分布。
本发明还提供基于上述自我修正式标签生成网络的多标签分类方法,具体步骤包括:
步骤一、所述ResNet图像编码器获取输入图像的高层语义特征,生成图像特征表示,并输出至自我修正式注意力机制模块中用于注意力图谱的生成;
步骤二、所述自我修正式注意力机制模块在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱,并向GRU解码器输出上下文特征向量;
步骤三、所述GRU解码器根据所述上下文特征向量和之前时刻生成的标签词向量生成当前时刻图像所对应的标签。
本发明的优点包括:
首先,自我修正式标签生成网络(SLGN)同时捕捉和利用标签之间的空间关联、语义关联和共现性,使模型的预测精度大大提升。由图像字幕生成这一图像理解任务启发而来,本发明利用文本生成的方式生成标签序列,较好地捕捉和利用标签之间的语义关联和共现性。
其次,本发明根据胸片的特殊性设计自我修正式注意力机制并将其加入至网络构建过程中,从而帮助模型更好地关注到潜在的异常区域。同时,所述注意力机制可以捕捉标签之间的空间关联并利用该关联修正错误的定位区域。
最后,本发明在公共数据集Chest X-ray和CheXpert上取得不错的结果,性能较目前最好的方法具有较大提升,模型预测的不平衡现象也得到有效缓解。
附图说明
图1是标签序列生成流程图。
图2是本发明的框架图。
图3为GRU单元的内部结构。
具体实施方式
由背景技术可知,之前的大部分研究将多标签看作独立的单标签问题从而忽略标签之间的关联性。最终导致模型预测效果的不平衡,即在较易预测的疾病标签上具有较好表现,但在较难预测的疾病标签上表现很差,如肺炎。
本发明针对上述问题进行进一步研究,在本发明中提供的自我修正式标签生成网络(SLGN)可以同时捕捉和利用标签之间的空间关联、语义关联和共现性,从而最大化地提升模型的预测精度。本发明采用编码器-解码器结构。在图像字幕生成任务中,CNN被用作编码器来提取图像特征。图像特征是对图像的抽象表示,包含图像的高层语义信息,对解码器的文本生成会提供很大帮助和引导。由此,采用ResNet作为编码器,并将提取得到的图像特征输入至解码器中用于字幕生成。循环神经网络RNN被用作解码器来生成对应字幕,因为它能够很好地处理序列数据并将上下文信息保存在内部记忆单元。在每个时间步,图像特征和上一步生成的词向量会作为RNN的输入。前者包含高层图像信息,后者包含丰富语义信息。然后,可根据RNN的输出来计算每个时间步候选词语的概率值。
与图像字幕生成任务相同,SLGN也采用RNN架构作为解码器来生成标签词序列,如图1所示。因为RNN可以很好地捕捉与保存标签序列的上下文信息并高效学习到标签之间的关联性和共现性,这对于多标签分类任务十分重要。同时,也采用标签词向量作为RNN的输入,词向量可以将标签词映射至一个由实数组成的向量中,高度语义相关的词向量会在低维度的欧几里德空间中相互靠近。下文中,结合附图和实施例对本发明的精神和实质做进一步阐述。
如图2所示,本发明提供的自我修正式标签生成网络,包括:ResNet图像编码器、自我修正式注意力机制、及GRU解码器3个关键部分。ResNet-101被用作编码器来获取输入图像的高层语义特征并输出图像特征表示。自我修正式注意力机制模块在每个时刻根据之前时刻的隐藏层状态和图像特征生成对应于当前时刻的注意力图谱;接着图像特征会被该注意力图谱加权后得到上下文特征向量;GRU网络被用作解码器来根据上下文特征向量和之前时刻生成的标签词向量来生成当前时刻的隐藏层状态;该隐藏层状态被输入分类器后得到当前生成的标签词。以此顺序循环地生成标签序列,直至生成的标签为结束符。
本实施例中,ResNet图像编码器采用101层的ResNet,所述101层的ResNet首先通过一系列网络层将原始图像转变为一个2,048维的图像特征表示。输入一幅胸片图像I,从ResNet的最后一层卷积层conv5_x提取得到的图像特征表示X可被表示为:
Figure GDA0003638563500000051
其中,θcnn是ResNet中包含的所有参数;I为所述图像;
Figure GDA0003638563500000052
为得到的图像特征表示;H、W和D分别表示图像的高度、宽度和通道数量。
循环神经网络RNN被用来处理句子、视频这样一些具有依赖关系的序列数据。但传统的RNN模型存在梯度消失或者爆炸的问题,难以用来建模长距离依赖关系。为此,在本发明中引入门控循环单元(GRU)作为解码器。作为RNN模型的变种,GRU添加两个门控单元,即复位门和更新门。复位门会学习如何筛选出有用的上一时间步提供的信息,更新门的目的是控制内部记忆单元的更新程度。有研究学者比较过多种RNN的变种框架,提出GRU在最终效果上与LSTM相当。同时,由于GRU的精简结构,其所需要的计算代价也较低。
本实施例中,GRU解码器负责为输入图像生成标签序列x,
Figure GDA0003638563500000053
其中,T是标签序列的长度,V是词库大小,词库由K个疾病标签、一个正常的“NoFindings”标签、及一个结束符EOS构成。在每个时刻t,GRU解码器基于上下文特征向量,之前时刻生成的标签词向量和之前时刻的隐藏层状态生成当前时刻的标签。所使用的GRU框架内部结构如图3所示。
Figure GDA0003638563500000054
Figure GDA0003638563500000055
Figure GDA0003638563500000056
Figure GDA0003638563500000057
其中,ut、rt
Figure GDA0003638563500000058
和ht分别代表GRU的更新门、复位门、候选隐藏层状态和隐藏层状态;向量
Figure GDA0003638563500000059
是上下文特征向量;
Figure GDA00036385635000000510
是嵌入矩阵,m代表词向量的维度;
Figure GDA00036385635000000511
和σ分别表示逐元素相乘和sigmoid激活函数。需要注意的是,在初始时间步输入一个虚拟标签,它是一个可学习的向量。最后,使用全连接层去计算每个候选标签的概率,如下所示:
Figure GDA0003638563500000061
其中,Wph是全连接层的参数;
Figure GDA0003638563500000062
是当前时间步所有候选标签词的预测概率。
为帮助模型更好地检测出疾病,设计自我修正式注意力机制模块并将其添加在标签生成网络上,以帮助模型在生成标签时更好地关注潜在的异常区域。从ResNet编码器提取得到的图像特征X∈RH×W×D可被看作一系列D维向量,该向量在图像字幕生成任务中被称作局部特征。每个局部特征都代表从输入图像的某一部分所提取的图像特征,定义如下:
Figure GDA0003638563500000063
对于每个局部特征al,注意力机制模块会计算出一个对应的得分αl,代表位置l在疾病区域内的可能性以及是否值得被关注。每个局部特征al的得分αl是根据上一时间步的GRU隐藏层状态然后由多层感知器计算得出,如下所示:
et,l=Wetanh(Weaal+Wehht-1+be) (12)
αt,l=softmax(et,l+bα) (13)
其中,αt,l和et,l代表t时刻l位置标准化之后和标准化之前的注意力得分。
在处理图像的多标签分类任务时,图像中尺寸较小的物体通常会较难被捕捉到,在医学图像中也是如此。例如,气胸一般发生在肺部和胸壁之间的区域内并占据较大的胸部空间,然而肺结节通常尺寸较小,有时甚至肉眼也难以辨别。所以,在生成注意力图谱时,所有疾病都使用相同的参数不合理。为缓解这个问题,注意力机制在每个时间步都会根据之前时间步的预测状态重新为当前时间步生成对应的注意力图谱。所以,每个标签的注意力图谱都具有一定特异性,即使疾病区域十分微小,注意力机制也可较好定位到。
不同于图像字幕生成任务,标签序列只包含名词,不包含介词和定冠词等其他词语。所以,每一时间步的注意力图谱都包含丰富的空间位置信息,这十分有助于标签之间空间关联的捕捉和保存。除此之外,与普通图像多变的图像背景相比,胸片的图像背景是固定的,即整个胸腔。同时,各器官之间的位置关系也是固定的。如果心脏的位置被准确判断到,则可较易推断出左肺或者右肺的位置。因此,根据器官之间的位置合理性,当前时间步的注意力图谱可被之前时间步的注意力图谱修正。例如,心脏疾病是胸腔积水的主要诱因之一,所以心脏肥大症患者很有可能伴随胸腔积水的出现。假设前一时间步预测的标签为心脏肥大症,则前一时间步的注意力图谱会在心脏位置具有较高得分。如果在当前时间步,模型倾向于生成胸腔积水标签,则修正器会根据上一步确定的心脏位置,将注意力图谱向心脏两侧靠下的位置修正(胸腔积水通常在胸片上的表现为肋膈角变钝、膈肌升高)。
在SLGN框架中,再次选择GRU来处理生成的注意力图谱序列。因为GRU可以很好地捕捉与保存标签之间的视觉上下文信息并高效学习到标签之间的位置关系。这里,定义αt为t时刻生成的注意力图谱。接着,该注意力图谱会被输入至GRU修正器中,GRU修正器根据当前时刻的注意力图谱和之前时刻的隐藏层状态h′t-1生成修正系数ηt。修正系数的范围是[-1,1]。接着,当前时间步t的注意力图谱αt会被修正系数ηt修正,而生成最后的注意力图谱α′t,如下所示:
ηt=GRU(αt,h′t-1) (3)
Figure GDA0003638563500000071
其中,
Figure GDA0003638563500000072
代表逐元素相加。自我修正式注意力机制能够通过生成大于0的修正系数来提高原有的注意力得分,从而增强模型对正确区域的关注程度。同时,也可以通过生成小于0的修正系数来降低原有的注意力得分,从而削弱模型对错误区域的关注程度。值得注意的是,由于修正后的注意力图谱可能出现负数,因此使用ReLU激活函数来消除修正后注意力图谱中的负数。因此,最终错误区域的注意力得分会接近0,代表这块区域不参与最后的标签生成。同时,正确区域的注意力得分会接近一个阈值(该机制中设置为2)。此机制和GRU与LSTM中的门控机制有异曲同工之处。最后,上下文特征向量
Figure GDA0003638563500000073
由以下公式计算:
Figure GDA0003638563500000074
其中,*代表每个通道维度上图像特征和注意力得分的逐元素相乘。
本实施例中,胸片数据的来源选择两个公共的数据集进行网络训练,即Chest X-ray 14和CheXpert。Chest X-ray 14是由美国卫生研究院(National Institutes ofHealth,NIH)发布的标准胸片数据集,包含112,120张正面胸片图像、及14种标签标记。这14种标签分别为肺不张、心脏扩大、胸腔积液等。若以上14种疾病均被发现,则该胸片会被标记为正常(No Findings)。有关数据划分方式,采用NIH提供的官方划分。除此之外,该数据集还为880张胸片图像提供专业医师人工标注的疾病区域边界框(Bounding box)。其中,93张胸片图像被同时标注多个标签的边界框。CheXpert是近期由斯坦福大学发布的大规模胸片数据集,内含224,316万张正面和侧面的胸片图像、及14种标签标记。由于CheXpert的测试集标注结果未公开,因此将其作为补充数据集,用以进一步验证模型效果。
为对本发明实施例提供的自我修正式标签生成网络进行测试,本实施例中使用Beam Search算法来搜索最优的标签序列。在每个时刻,GRU都会产生一个在标签词表上的概率分布,通过Beam Size的设定选择多个概率最高的标签词作为这一时刻的输出和下一时刻的输入。通过在验证集上的测试,在本实施例中将BeamSize值设置为2。
本实施例中选择AUC得分、查准率、召回率和F1得分来对多标签分类进行评价,分别计算类别平均查准率(Per-class Precision,C-P)、类别平均召回率(Per-classRecall,C-R)、类别平均F1(Per-Class F1,C-F)、样本平均查准率(Overall Precision,O-P)、样本平均召回率(Overall Recall,O-R)和样本平均F1(Overall F1,O-F)。
通过在验证集上的实验对比,对于本发明提出模型所包含的超参数,做以如下设定。对于两个数据集,词嵌入矩阵的维度都设置为128,而在GRU中隐状态的维度则都设置为512维。本发明提出的SLGN模型在Chest X-ray 14与CheXpert两个数据集上分别进行测试。其中,在Chest X-ray 14上,SLGN的类别平均F1得分达到0.440,与之前效果最好的模型相比领先12.1%。在样本平均F1得分达到0.479,领先11.8%。而在CheXpert上,SLGN的类别平均F1得分达到0.494,与baseline模型相比提升5.3%。在样本平均F1得分达到0.549,与baseline模型相比提升7.7%。
综上所述,本发明面向胸片的多标签分类问题,对标签之间的语义关联、空间关联和共现性进行分析和探索,并提出一种新颖的自我修正式标签生成网络SLGN。该网络利用文本生成的方式生成标签序列,较好地捕捉和利用标签之间的语义关联。同时,本发明根据胸片的特殊性设计自我修正式注意力机制模块,并将其加入到网络构建过程中。该注意力机制模块可以捕捉标签之间的空间关联,并利用该关联修正错误的定位区域。本发明在公共数据集Chest X-ray14和CheXpert上取得不错的结果,性能较目前最好的方法具有较大提升,模型预测的不平衡现象也得到有效缓解。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (5)

1.一种基于自我修正式标签生成网络的胸片多标签分类方法,其特征在于,构建一个自我修正式标签生成网络模型,用于胸片的多标签分类;
构建的自我修正式标签生成网络SLGN,包括三个组成部分:ResNet图像编码器、自我修正式注意力机制模块以及作为解码器的门控循环单元GRU;其中:
所述ResNet图像编码器用于获取输入图像即胸片图像的高层语义特征,生成图像特征表示,并输出至自我修正式注意力机制模块中;
所述自我修正式注意力机制模块,包括:在每个时刻根据之前时刻所输出的状态信息和图像特征生成对应于当前时间步的注意力图谱,并向GRU解码器输出上下文特征向量;
所述GRU解码器,根据所述上下文特征向量和之前时刻生成的标签词向量,生成当前时刻图像所对应的标签。
2.根据权利要求1所述的胸片多标签分类方法,其特征在于,所述ResNet图像编码器采用101层ResNet;所述ResNet从图像中提取得一个2,048维的图像特征表示,计算公式为:
Figure FDA0003638563490000011
其中θcnn是ResNet中包含的所有参数,I为所述图像,
Figure FDA0003638563490000012
为得到的图像特征表示,其中H、W和D分别表示图像的高度、宽度和通道数量;
所述自我修正式注意力机制模块中,当前输入包括:图像特征表示
Figure FDA0003638563490000013
和之前时刻所输出的状态信息ht-1;并通过多层感知器的方式计算每个区域的注意力得分,计算公式为:
Figure FDA0003638563490000014
其中,θMLP是多层感知器中包含的所有参数,X为图像特征表示,
Figure FDA0003638563490000015
为得到的当前时刻注意力图谱;
接着,该注意力图谱被输入至一个GRU修正器中,该GRU修正器根据当前时刻的注意力图谱αt生成修正系数ηt,用于修正当前时刻注意力图谱中的错误和偏差,最终输出上下文特征向量
Figure FDA0003638563490000019
其计算公式为:
ηt=GRU(αt) (3)
Figure FDA0003638563490000017
Figure FDA0003638563490000016
其中,α′t为当前时刻修正后的注意力图谱;
Figure FDA0003638563490000018
代表逐元素相加;fz代表上下文特征向量的计算函数;
所述GRU解码器的当前输入包括:上下文特征向量
Figure FDA0003638563490000021
和之前时刻所生成的标签词所对应的词向量;
Figure FDA0003638563490000022
其中
Figure FDA0003638563490000023
表示词嵌入矩阵,xt-1是之前时刻生成标签的one-hot表示,ht对应的是t时刻GRU的状态信息;接着,GRU解码器向全连接层输出当前时刻状态信息,全连接层计算当前时刻标签词的概率分布。
3.根据权利要求2所述的胸片多标签分类方法,其特征在于,所述GRU解码器向全连接层输出当前时刻状态信息,全连接层计算当前时刻标签词的概率分布,具体流程为:
在每个时刻t,GRU解码器基于上下文特征向量
Figure FDA0003638563490000024
之前时刻生成的标签词xt-1和之前时刻的隐藏层状态ht-1生成当前时刻的标签:
Figure FDA0003638563490000025
Figure FDA0003638563490000026
Figure FDA0003638563490000027
Figure FDA0003638563490000028
其中,ut、rt
Figure FDA0003638563490000029
和ht分别代表GRU的更新门、复位门、候选隐藏层状态和隐藏层状态;
Figure FDA00036385634900000210
是嵌入矩阵,m代表词向量的维度;
Figure FDA00036385634900000214
和σ分别表示逐元素相乘和sigmoid激活函数;其中,在初始时间步输入一个虚拟标签,它是一个可学习的向量;最后,使用全连接层去计算每个候选标签的概率,如下所示:
Figure FDA00036385634900000211
其中,Wph是全连接层的参数;
Figure FDA00036385634900000212
是当前时间步所有候选标签词的预测概率。
4.根据权利要求2所述的胸片多标签分类方法,其特征在于,从ResNet编码器提取得到的图像特征X∈RH×W×D可被看作一系列D维向量,该向量在图像字幕生成任务中被称作局部特征;每个局部特征都代表从输入图像的某一部分所提取的图像特征,定义如下:
Figure FDA00036385634900000213
对于每个局部特征al,注意力机制模块计算出一个对应的得分αl,代表位置l在疾病区域内的可能性以及是否值得被关注;每个局部特征al的得分αl根据上一时间步的GRU隐藏层状态然后由多层感知器计算得出:
et,l=We tanh(Weaal+Wehht-1+be) (12)
αt,l=softmax(et,l+bα) (13)
其中,αt,l和et,l代表t时刻l位置标准化之后和标准化之前的注意力得分。
5.根据权利要求2所述的胸片多标签分类方法,其特征在于,在SLGN中,再次选择GRU来处理生成的注意力图谱序列,定义αt为t时刻生成的注意力图谱;该注意力图谱被输入至GRU修正器中,GRU修正器根据当前时刻的注意力图谱和之前时刻的隐藏层状态h′t-1生成修正系数ηt;修正系数的范围是[-1,1];接着,当前时间步t的注意力图谱αt被修正系数ηt修正,生成最后的注意力图谱α′t
ηt=GRU(αt,h′t-1) (3)
Figure FDA0003638563490000032
其中,
Figure FDA0003638563490000033
代表逐元素相加;自我修正式注意力机制模块通过生成大于0的修正系数来提高原有的注意力得分,从而增强模型对正确区域的关注程度;同时,通过生成小于0的修正系数来降低原有的注意力得分,从而削弱模型对错误区域的关注程度;
由于修正后的注意力图谱可能出现负数,因此使用ReLU激活函数来消除修正后注意力图谱中的负数;最终错误区域的注意力得分会接近0,代表这块区域不参与最后的标签生成;同时,正确区域的注意力得分接近一个阈值;最后,上下文特征向量
Figure FDA0003638563490000034
由以下公式计算:
Figure FDA0003638563490000031
其中,*代表每个通道维度上图像特征和注意力得分的逐元素相乘。
CN202010072862.0A 2020-01-22 2020-01-22 基于自我修正式标签生成网络的胸片多标签分类方法 Active CN111275118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010072862.0A CN111275118B (zh) 2020-01-22 2020-01-22 基于自我修正式标签生成网络的胸片多标签分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010072862.0A CN111275118B (zh) 2020-01-22 2020-01-22 基于自我修正式标签生成网络的胸片多标签分类方法

Publications (2)

Publication Number Publication Date
CN111275118A CN111275118A (zh) 2020-06-12
CN111275118B true CN111275118B (zh) 2022-09-16

Family

ID=71001907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010072862.0A Active CN111275118B (zh) 2020-01-22 2020-01-22 基于自我修正式标签生成网络的胸片多标签分类方法

Country Status (1)

Country Link
CN (1) CN111275118B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084274A (zh) * 2020-08-24 2020-12-15 浙江云合数据科技有限责任公司 一种基于数据的时空频谱地图构建和预测方法
CN112052889B (zh) * 2020-08-28 2023-05-05 西安电子科技大学 基于双门控递归单元解码的喉镜图像识别方法
CN112508096B (zh) * 2020-12-08 2022-03-25 电子科技大学 一种基于几何自注意力机制的图像自动标注方法
CN112530595A (zh) * 2020-12-21 2021-03-19 无锡市第二人民医院 一种基于多分支链式神经网络的心血管疾病分类方法和装置
CN113159238B (zh) * 2021-06-23 2021-10-26 安翰科技(武汉)股份有限公司 内窥镜影像识别方法、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN108898595A (zh) * 2018-06-27 2018-11-27 慧影医疗科技(北京)有限公司 一种胸部疾病检测模型的构建方法及应用
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110377711A (zh) * 2019-07-01 2019-10-25 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110168573A (zh) * 2016-11-18 2019-08-23 易享信息技术有限公司 用于图像标注的空间注意力模型
CN108763284A (zh) * 2018-04-13 2018-11-06 华南理工大学 一种基于深度学习和主题模型的问答系统实现方法
CN108898595A (zh) * 2018-06-27 2018-11-27 慧影医疗科技(北京)有限公司 一种胸部疾病检测模型的构建方法及应用
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110232413A (zh) * 2019-05-31 2019-09-13 华北电力大学(保定) 基于gru网络的绝缘子图像语义描述方法、系统、装置
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法
CN110377711A (zh) * 2019-07-01 2019-10-25 浙江大学 一种利用分层卷积自注意力网络解决开放式长视频问答任务的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
K. Li et al..Visual Semantic Reasoning for Image-Text Matching.《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》.2019,第4653-4661页. *
薛丽霞 等.融合注意力机制和语义关联性的多标签图像分类.《光电工程》.2019,第46卷(第09期),第22-30页. *

Also Published As

Publication number Publication date
CN111275118A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111275118B (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
Chen et al. Label co-occurrence learning with graph convolutional networks for multi-label chest x-ray image classification
Wang et al. Tienet: Text-image embedding network for common thorax disease classification and reporting in chest x-rays
Yao et al. Learning to diagnose from scratch by exploiting dependencies among labels
Chen et al. Multi-label chest X-ray image classification via semantic similarity graph embedding
WO2018176035A1 (en) Method and system of building hospital-scale chest x-ray database for entity extraction and weakly-supervised classification and localization of common thorax diseases
WO2017151757A1 (en) Recurrent neural feedback model for automated image annotation
Zhou et al. Contrast-attentive thoracic disease recognition with dual-weighting graph reasoning
Majeed et al. Issues associated with deploying CNN transfer learning to detect COVID-19 from chest X-rays
EP4266195A1 (en) Training of text and image models
Khan et al. Classification and region analysis of COVID-19 infection using lung CT images and deep convolutional neural networks
Hou et al. Periphery-aware COVID-19 diagnosis with contrastive representation enhancement
Bassi et al. COVID-19 detection using chest X-rays: Is lung segmentation important for generalization?
Liu et al. Medical visual question answering via conditional reasoning and contrastive learning
Huang et al. Enhancing representation in radiography-reports foundation model: A granular alignment algorithm using masked contrastive learning
CN113204675B (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
Wu et al. AGNet: Automatic generation network for skin imaging reports
Rodin et al. Multitask and multimodal neural network model for interpretable analysis of x-ray images
CN117393098A (zh) 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法
CN114359741B (zh) 基于区域特征的图像描述模型注意力机制评价方法与系统
Bhuvana et al. Efficient generative transfer learning framework for the detection of COVID-19
CN116306681A (zh) 基于事实场景的可解释性视觉问答模型构建方法与系统
US11809826B2 (en) Assertion detection in multi-labelled clinical text using scope localization
Gouda et al. Detection of COVID-19 Based on Chest X-rays Using Deep Learning. Healthcare 2022, 10, 343
Yan et al. Fine-grained lesion annotation in CT images with knowledge mined from radiology reports

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant