一种用于图像分割的轻量级神经网络
技术领域
本发明涉及神经网络学习领域,具体涉及一种用于图像分割的轻量级神经网络。
背景技术
糖尿病视网膜病变(DR)一直是工作年龄人士失明的主要原因。据世界糖尿病基金会估计,到2030年将有4.38亿人获得DR。因此,早期介入和DR筛查对于预防视力丧失至关重要。由于DR筛查具有成本低,无痛,无创等优点,因此分析眼底视网膜图像是最流行的方法。此外,眼底图像中硬渗出物(EX)的存在和大小是诊断DR严重程度的主要指标。因此,开发用于硬渗出物检测的自动化工具至关重要。
与计算机视觉任务和医学图像分析中的传统方法相比,深度学习技术,特别是深度卷积神经网络(DCNN)已经获得优异的性能。DCNN通过堆叠多个卷积运算和非线性变换来学习很多丰富的特征表示。然而,在传统方法中,特征表示是人为设计的。硬渗出物检测可被视为计算机视觉中的分割任务。并且,在过去几年,有若干篇关于设计DCNN用于硬渗出物分割的文献。例如,Mo等人提出了一个全卷积残差网络(FCRN),它融合了多层次的特征来分割硬渗出物。FCRN使用ResNet-50作为主网络,并且它在源域ImageNet数据集上进行了预训练。谭等设计了基于图像块的分类网络,用来检测硬渗出物和其他两种病变。显然,这种基于图像块的方法需要将眼底图像分成大量的图像块,每个图像块需要被送入网络进行预测。这个过程需要大量的时间消耗。其中,在硬渗出物分割任务的速度和准确性方面,分割网络与分类网络相比具有更高的性能。
为了获得良好的性能,大多数分割模型都会在ImageNet上做预训练,用来微调他们的网络。由于眼底图像的数量有限(几十到几百张),因此微调可以缓解过拟合问题。
然而,申请人在实现本发明的技术方案的过程中,发现相关技术中在硬渗出物分割中采用预先训练好的网络时,存在着严重的局限性,具体包括以下两个问题:
(1)区域不匹配。源域(ImageNet)到目标域(眼底图像)存在巨大的不匹配。
(2)结构设计空间有限。最先进的语义分割模型的主干,例如DeepLab v3+和FCN都来自基于ImageNet的分类网络,还有VCGNet和ResNet。因此,调整网络结构并没有灵活性。
(3)参数量大。无论是VGGNet还是ResNet都有大量的参数并需要大量的计算资源,因此,对于一个资源受限的设备,配置硬渗出物分割模型是困难的。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种用于图像分割的轻量级神经网络,以至少解决由于相关技术中的用于图像分割的造成的参数较多,网络训练复杂的技术问题。
根据本发明实施例的一个方面,提供了一种用于图像分割的轻量级神经网络,包括多尺度特征融合模块、上下文信息编码模块、分类分支模块以及分割图生成模块,其中:所述多尺度特征融合模块,用于提取输入图像的图像特征;所述上下文信息编码模块,与所述多尺度特征融合模块连接,用于对所述图像特征进行处理,其中,所述上下文信息编码模块对所述图像特征进行处理仅包括一次池化操作;所述分类分支模块,与所述上下文信息编码模块连接;所述分割图生成模块,与所述上下文信息编码模块连接,用于生成目标分割图像,其中,在训练所述神经网络之前,根据所述多尺度特征融合模块、所述上下文信息编码模块以及所述分类分支模块构建分类神经网络;随机初始化所述分类神经网络的参数,且基于预设分类数据训练所述分类神经网络;在所述分类神经网络收敛的情况下,基于所述分类神经网络的参数初始化由所述多尺度特征融合模块、上下文信息编码模块以及分割图生成模块构成的分割神经网络,且根据预设分割数据训练所述分割神经网络。
进一步地,所述多尺度特征融合模块包括:第一卷积层、多尺度特征编码器,其中:所述第一卷积层,用于对所述输入图像进行处理;所述多尺度特征编码器,与所述第一卷积层连接,包括多个多尺度特征模块。
进一步地,所述多尺度特征编码器包括三个串联的多尺度特征模块,其中:所述多尺度特征模块包括:对所述图像特征依次进行1个卷积操作和4个并行的卷积操作。
进一步地,上下文信息编码模块包括:第二卷积层、池化层、上下文信息编码器,其中:所述第二卷积层,与所述多尺度特征编码器连接;所述池化层,与所述第二卷积层连接;所述上下文信息编码器,与所述池化层连接,包括多个上下文信息模块。
进一步地,所述上下文信息编码器包括2个串联的上下文信息模块,其中:所述上下文信息模块包括3个串联卷积操作;所述上下文信息模块的输出包括:连接所述3个串联卷积操作中的第一个卷积操作以及第三个卷积操作;拼接所述第一个卷积操作的输出与所述第三个卷积操作的输出,以得到所述上下文信息模块的输出。
进一步地,所述池化层仅包括一次池化操作。
进一步地,所述分割图生成模块分别与所述第二卷积层以及所述上下文信息编码器连接。
进一步地,所述分割图生成模块包括:对接收到的所述第二卷积层的第一特征图进行卷积,得到第一预设方向的第一方向特征图;对接收到的所述上下文信息编码器的第二特征图进行卷积,得到第二预设方向的第二方向特征图,其中所述第一方向与所述第二方向不同;对所述第一方向特征图和所述第二方向特征图进行拼接和卷积操作,得到所述目标分割图像。
进一步地,所述分类分支模块包括全局池化层和多个全连接层。
在本发明实施例中,采用在上下文信息编码模块中只进行一次池化操作的方式,通过随机初始化多尺度特征融合模块、上下文信息编码模块以及分类分支模块构建的分类神经网络的参数,在分类神经网络收敛的情况下,基于分类神经网络的参数初始化由多尺度特征融合模块、上下文信息编码模块以及分割图生成模块构成的分割神经网络,且根据预设分割数据训练分割神经网络,达到了简化神经网络结构的目的,从而实现了减少神经网络的参数,使神经网络的运算速度变快的技术效果,进而解决了由于相关技术中的用于图像分割的造成的参数较多,网络训练复杂的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的用于图像分割的轻量级神经网络的示意图;
图2是根据本发明实施例的另一种可选的用于图像分割的轻量级神经网络的示意图;
图3是根据本发明实施例的一种可选的多尺度特征编码器的示意图;
图4是根据本发明实施例的一种可选的上下文信息编码器的示意图;
图5是根据本发明实施例的一种可选的上下文信息模块的示意图;
图6是根据本发明实施例的一种可选的分割图生成模块的示意图;
图7是根据本发明实施例的一种可选的分类分支模块的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
由于相关技术中的用于图像分割的神经网络的参数较多,神经网络训练复杂的技术问题,因此本发明实施例中根据本发明实施例,提供了一种用于图像分割的轻量级神经网络,如图1所示,该神经网络包括:
1)多尺度特征融合模块10,用于提取输入图像的图像特征;
2)上下文信息编码模块20,与多尺度特征融合模块10连接,用于对图像特征进行处理,其中,上下文信息编码模块20对图像特征仅进行一次池化操作;
3)分类分支模块30,与上下文信息编码模块20连接;
4)分割图生成模块40,与上下文信息编码模块20连接,用于生成目标分割图像,
其中,在训练神经网络之前,根据多尺度特征融合模块10、上下文信息编码模块20以及分类分支模块30构建分类神经网络;
随机初始化分类神经网络的参数,且基于预设分类数据训练分类神经网络;
在分类神经网络收敛的情况下,基于分类神经网络的参数初始化由多尺度特征融合模块10、上下文信息编码模块20以及分割图生成模块40构成的分割神经网络,且根据预设分割数据训练分割神经网络。
通过本实施例的神经网络,在多尺度特征融合模块10中对输入图像进行特征提取得到图像特征,然后在上下文信息编码模块20对图像特征进行特征处理,其中,在该模块中的特征处理仅包括一次池化操作,可以有效减少神经网络的参数。
另一方面,在训练神经网络之前,通过多尺度特征融合模块10、上下文信息编码模块20以及分类分支模块30构建分类神经网络,随机初始化分类神经网络的参数,且基于预设分类数据训练分类神经网络;在分类神经网络收敛的情况下,基于分类神经网络的参数初始化由多尺度特征融合模块10、上下文信息编码模块20以及分割图生成模块40构成的分割神经网络,且根据预设分割数据训练分割神经网络。通过在训练分类神经网络收敛的情况下,可以使得多尺度特征融合模块10、上下文信息编码模块20得到学习,然后通过对分类神经网络的参数对分割神经网络的参数进行初始化,然后根据预设分割数据训练分割神经网络,直至分割神经网络收敛。通过训练好的分割神经网络对输入图像进行分割处理。
需要说明的是,上述实施例中通过预设分类训练数据训练分类神经网络,在实际的应用场景中,分类神经网络用于对眼底图像病变的识别,因此,可以将该预设分类数据设置为眼部病变数据集,即眼部病变图像。另一方面,上述实施例中通过预设分割训练数据训练分割神经网络,在实际的应用场景中,分割神经网络用于将眼底图像中的硬渗出物的图像单独分割出来,因此,可以通过将预设分割训练数据设置眼底硬渗出物分割数据集。
在本实施例中,采用在上下文信息编码模块中只进行一次池化操作的方式,并使用两阶段式的神经网络训练方法,达到了简化神经网络结构的目的,从而实现了减少神经网络的参数,使神经网络的运算速度变快、提高了神经网络的学习效率的技术效果,进而解决了由于相关技术中的用于图像分割的造成的参数较多,网络训练复杂的技术问题。
可选地,在本实施例中,如图2所示,多尺度特征融合模块10包括:第一卷积层102、多尺度特征编码器104,其中:
1)第一卷积层102,用于对输入图像进行处理;
2)多尺度特征编码器104,与第一卷积层连接102,包括多个多尺度特征模块。
进一步可选地,在本实施例中,如图3所示,多尺度特征编码器104包括三个串联的多尺度特征模块1042,其中:多尺度特征模块1042包括:对图像特征依次进行1个卷积操作1044和4个并行的卷积操作1046。需要说明的是,在图3中,只对第一个多尺度特征模块1042进行结构展示,在后续两个多尺度特征模块1042的结构均相同。
在实际的应用场景中,在四个并行卷积之前使用单个卷积操作来减少特征图,而不是在开始时使用四个1*1内核的卷积。使用内核大小为3*3的卷积来扩大感受野,较大的感受野对于较小的眼底图像病变识别很重要,因此在本实施例中,三个串联的多尺度特征模块1042构成了多尺度特征编码器104。
可选地,在本实施例中,如图2所示,上下文信息编码模块20包括:第二卷积层202、池化层204、上下文信息编码器206,其中:
1)第二卷积层202,与多尺度特征编码器104连接;
2)池化层204,与第二卷积层202连接;
3)上下文信息编码器206,与池化层204连接,包括多个上下文信息模块。
进一步可选地,在本实施例中,如图4所示,上下文信息编码器206包括2个串联的上下文信息模块2062,其中:如图5所示,上下文信息模块包括3个串联卷积操作(如图5中分别是卷积操作2064、卷积操作2066以及卷积操作2068)。在实际的应用场景中,上下文信息模块中由三个具有3*3内核128通道的卷积运算组成。
如图5所示,上下文信息模块2062的输出包括:连接3个串联卷积操作中的第一个卷积操作2064以及第三个卷积操作2068;拼接第一个卷积操作2064的输出与第三个卷积操作2068的输出,以得到上下文信息模块2062的输出。即上下文信息模块2062的输出是第一个卷积操作的输出与第三个卷积操作的输出拼接之后的结果。
可选地,在本实施例中,池化层仅包括一次池化操作。在实际的应用场景中,通过应用本实施例中只具有一次池化操作的轻量级神经网络,该神经网络的参数数量相当于普通图片分割神经网络的1/20。
可选地,在本实施例中,如图2所示,分割图生成模块40分别与第二卷积层202以及上下文信息编码器206连接。
进一步可选地,在本实施例中,分割图生成模块40用于:对接收到的第二卷积层的第一特征图进行卷积,得到第一预设方向的第一方向特征图;对接收到的上下文信息编码器的第二特征图进行卷积,得到第二预设方向的第二方向特征图,其中第一方向与第二方向不同;对第一方向特征图和第二方向特征图进行拼接和卷积操作,得到目标分割图像。
具体的,分割图生成模块用于生成分割概率图,如图6所示。首先进行内核大小为3*3的卷积操作602,对竖直方向的特征进行提取。然后,使用内核大小为1*1的卷积操作604来减少特征图,最终该过程输出一个特征图。向上缩放或向下卷积操作将特征图恢复为与输入图像相同的大小,以便我们在不同的尺度上获得两个分割结果。最后,我们使用拼接和卷积运算将上述两个分段结果融合在一起形成神经网络的多尺度输出。
可选地,在本实施例中,分类分支模块30包括全局池化层和多个全连接层。具体的,以图7所示为例,该分类分支模块中包括一个全局池化层以及两个全连接层,其中,全局池化层之后的第一个全连接层包含1024个隐藏的神经元,第二个全连接层连接到softmax损失函数。
通过本发明实施例中提出的轻量级神经网络,采用在上下文信息编码模块中只进行一次池化操作的方式,通过随机初始化多尺度特征融合模块、上下文信息编码模块以及分类分支模块构建的分类神经网络的参数,在分类神经网络收敛的情况下,基于分类神经网络的参数初始化由多尺度特征融合模块、上下文信息编码模块以及分割图生成模块构成的分割神经网络,且根据预设分割数据训练分割神经网络,达到了简化神经网络结构的目的,从而实现了减少神经网络的参数,使神经网络的运算速度变快的技术效果,进而解决了由于相关技术中的用于图像分割的造成的参数较多,网络训练复杂的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。