CN110097564B

CN110097564B - 基于多模型融合的图像标注方法、装置、计算机设备及存储介质

Info

Publication number: CN110097564B
Application number: CN201910268876.7A
Authority: CN
Inventors: 李风仪; 陈连军; 陈虎艳; 南洋; 侯晓帅; 吕传峰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2023-06-16
Anticipated expiration: 2039-04-04
Also published as: SG11202008418PA; WO2020199477A1; CN110097564A

Abstract

本申请涉及图像检测领域，通过融合基于DenseNet网络的分类模型的二分类结果以及基于Vnet网络和FPN网络的分割模型的二值化分割结果，提升标注效果。具体公开了一种基于多模型融合的图像标注方法、装置、计算机设备及存储介质，该方法包括：获取待标注图像并对待标注图像进行预处理以得到若干实例图像；将各实例图像输入基于DenseNet网络的分类模型进行二分类；将若干实例图像对应的二分类结果拼接以获取分类结果图像；将各实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割；将若干实例图像对应的二值化分割结果拼接以获取分割结果图像；根据分类结果图像和分割结果图像计算二值化的融合图像；提取融合图像的轮廓以根据轮廓标注待标注图像中的感兴趣区域。

Description

基于多模型融合的图像标注方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种基于多模型融合的图像标注方法、装置、计算机设备及存储介质。

背景技术

在一些应用场景中，需要在图像中分割出感兴趣的目标区域；但是由于有些图像，如皮肤病变图像的细粒度变化，让系统自动对图像各区域进行分类十分困难。虽然现有的深度卷积神经网络(CNN)常被用于分类各种不同细粒度的对象，并且在多项任务中表现良好，但是仍存在准确率低的问题。

发明内容

本申请实施例提供一种基于多模型融合的图像标注方法、装置、计算机设备及存储介质，能够较佳地实现对待标注图像中感兴趣区域的标注，标注的重合率、查准率较高。

第一方面，本申请提供了一种基于多模型融合的图像标注方法，所述方法包括：

获取待标注图像并对所述待标注图像进行预处理以得到若干实例图像；

将各所述实例图像输入基于DenseNet网络的分类模型进行二分类；

将所述若干实例图像对应的二分类结果拼接以获取分类结果图像；

将各所述实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割；

将所述若干实例图像对应的二值化分割结果拼接以获取分割结果图像；

根据所述分类结果图像和所述分割结果图像计算二值化的融合图像；

提取所述融合图像的轮廓，并根据所述轮廓标注所述待标注图像中的感兴趣区域。

第二方面，本申请提供了一种基于多模型融合的图像标注装置，所述装置包括：

预处理模块，用于获取待标注图像并对所述待标注图像进行预处理以得到若干实例图像；

二分类模块，用于将各所述实例图像输入基于DenseNet网络的分类模型进行二分类；

分类拼接模块，用于将所述若干实例图像对应的二分类结果拼接以获取分类结果图像；

二值化分割模块，用于将各所述实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割；

分割拼接模块，用于将所述若干实例图像对应的二值化分割结果拼接以获取分割结果图像；

融合模块，用于根据所述分类结果图像和所述分割结果图像计算二值化的融合图像；

标注模块，用于提取所述融合图像的轮廓，并根据所述轮廓标注所述待标注图像中的感兴趣区域。

第三方面，本申请提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现上述的基于多模型融合的图像标注方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，若所述计算机程序被处理器执行，实现上述的基于多模型融合的图像标注方法。

本申请公开了一种基于多模型融合的图像标注方法、装置、设备及存储介质，通过基于DenseNet网络的分类模型对待标注图像的实例图像进行二分类以获取分类结果图像，以及通过基于Vnet网络和FPN网络的分割模型对待标注图像的实例图像进行二值化分割以获取分割结果图像，进而将分类结果图像和分割结果图像融合提取用于标注待标注图像中感兴趣区域的轮廓；标注的重合率、查准率较高，可降低假阳性率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例的基于多模型融合的图像标注方法的流程示意图；

图2为一实施例中图像标注方法的应用场景示意图；

图3为待标注图像的示意图；

图4为图3中待标注图像处理得到的实例图像的示意图；

图5为DenseNet网络的结构示意图；

图6为一实施例中的分类模型进行二分类的子流程示意图；

图7为DenseNet网络中稠密块的结构示意图；

图8为一实施例中的分类模型进行二分类的子流程示意图；

图9为分类结果图像的示意图；

图10为分割模型中Vnet网络的结构示意图；

图11为FPN网络的结构示意图；

图12为分割模型进行二值化分割的子流程示意图；

图13为FPN网络根据Vnet网络上采样处理的结果输出二值化分割结果的子流程示意图；

图14为实例图像对应的二值化分割结果的示意图；

图15为分割结果图像的示意图；

图16为本申请另一实施例的基于多模型融合的图像标注方法的流程示意图；

图17为分类结果图像与分割结果图像取交集得到二值化的融合图像的子流程示意图；

图18为本申请再一实施例的基于多模型融合的图像标注方法的流程示意图；

图19为标注待标注图像中的感兴趣区域的示意图；

图20为本申请一实施例提供的基于多模型融合的图像标注装置的结构示意图；

图21为本申请另一实施例提供的基于多模型融合的图像标注装置的结构示意图；

图22为本申请一实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。另外，虽然在装置示意图中进行了功能模块的划分，但是在某些情况下，可以以不同于装置示意图中的模块划分。

本申请的实施例提供了一种基于多模型融合的图像标注方法、装置、设备及存储介质。其中，该基于多模型融合的图像标注方法可以应用于终端或服务器中，以实现对图像中感兴趣区域的标注。

例如，基于多模型融合的图像标注方法用于服务器，当然可以用于终端，比如手机、笔记本、台式机等。但为了便于理解，以下实施例将以应用于服务器的基于多模型融合的图像标注方法进行详细介绍。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请的实施例提供的一种基于多模型融合的图像标注方法的流程示意图。

如图1所示，基于多模型融合的图像标注方法包括以下步骤：

步骤S110、获取待标注图像并对所述待标注图像进行预处理以得到若干实例图像。

在一些可选的实施例中，待标注图像为用于实现基于多模型融合的图像标注方法的装置在本地存储的图像、该装置从网络获取的图像、该装置从与其连接的输入装置获取的图像、该装置从其他电子设备获取的图像等。

如图2所示，服务器从终端获取待标注图像，服务器与终端均连接于互联网，用户在终端将待标注图像上传至服务器；服务器通过基于多模型融合的图像标注方法标注待标注图像中的感兴趣区域，还可以将标注结果传回该终端。

待标注图像可以为彩色图像、灰度图像等。获取到待标注图像后可以对待标注图像进行一些预处理，如尺寸调整、裁剪处理、旋转处理和/或图像算法处理等等；其中图像算法处理包括：调整色温算法、调整曝光算法、调整对比度算法、高光恢复算法、低光补偿算法、白平衡算法、调整清晰度算法、雾化算法索引、调整自然饱和度算法等。

示例性的，如图3所示为服务器获取的待标注图像，具体为皮肤基底细胞癌病理图像。

在一些实施例中，待标注图像的尺寸较大，可以通过图像切割等预处理将待标注图像处理为若干预设尺寸的实例图像，即patch或instance。如图4所示为两个实例图像的示例。需要注意的是，图3和图4中示出的待标注图像和实例图像不体现实际待标注图像和实例图像之间的大小、比例关系。

步骤S120、将各所述实例图像输入基于DenseNet网络的分类模型进行二分类。

基于预先训练好的基于DenseNet网络，如DenseNet121网络的分类(classification)模型对各所述实例图像进行预测。

DenseNet网络是一种具有密集连接的卷积神经网络，可以缓解梯度消失的问题，加强特征传播，鼓励特征复用，可以极大的减少参数量。如图5所示，一个DenseNet网络包括多个稠密块Dense Block。相邻两个Dense Block的之间包括过渡块transition block，即transition layers。

在一些可选的实施例中，如图6所示，步骤S120将各所述实例图像输入基于DenseNet网络的分类模型进行二分类，具体包括：

步骤S121、若基于DenseNet网络的分类模型预测所述实例图像存在感兴趣区域，所述实例图像对应的二分类结果为第一值区块。

如果基于DenseNet网络的分类模型检测到某实例图像存在感兴趣区域，如癌变区域，则分类模型分类时将这一实例图像划分为第一值区块。示例性的，第一值区块的大小与实例图像的大小相同，即长、宽相等。

示例性的，第一值为255，在灰度或黑白图像中，第一值区块为白色区块。

步骤S122、若基于DenseNet网络的分类模型预测所述实例图像不存在感兴趣区域，所述实例图像对应的二分类结果为第二值区块。

如果基于DenseNet网络的分类模型检测到某实例图像不存在感兴趣区域，如癌变区域，则分类模型分类时将这一实例图像划分为第二值区块。示例性的，第二值区块的大小与实例图像的大小相同，即长、宽相等。

示例性的，第二值为0，在灰度或黑白图像中，第二值区块为黑色区块。

示例性的，感兴趣区域为癌变区域，若基于DenseNet网络的分类模型预测所述实例图像存在感兴趣区域，所述实例图像对应的二分类结果为阳性区块；若基于DenseNet网络的分类模型预测所述实例图像不存在感兴趣区域，所述实例图像对应的二分类结果为阴性区块。

在另一些实施例中，若基于DenseNet网络的分类模型预测所述实例图像中感兴趣区域的比例大于预设阈值，所述实例图像对应的二分类结果为第一值区块。若基于DenseNet网络的分类模型预测所述实例图像中感兴趣区域的比例不大于预设阈值，所述实例图像对应的二分类结果为第二值区块。

如图7所示为DenseNet网络中一个稠密块Dense Block的结构示意图。在各稠密块Dense Block中的任何两层之间都有直接的连接，即网络每一层的输入都是前面所有层输出的连接，即Concatenate，而该层所学习的特征图也会被直接传给其后面的各层作为输入；从而DenseNet网络可以最大化网络中所有层之间的信息流。

在一些实施例中，这种结构一方面可以减轻训练过程中梯度消散的问题，因为在反传时每一层都会接受其后所有层的梯度信号，所以不会出现随着网络深度的增加，靠近输入层的梯度越来越小的问题，使得底层的特征在高层中也有反映；另一方面由于大量的特征被复用，使得使用少量的卷积核就可以生成大量的特征，最终模型的尺寸比较小。

如图8所示，基于DenseNet网络的分类模型对输入的实例图像进行二分类，具体包括：

S11、对输入的实例图像进行预处理，以获取特征图像。

示例性的，输入的实例图像的大小为[512，512，3]，即实例图像的长和宽均为512个像素，有三个通道，例如实例图像为RGB三通道的图像。

具体的，对输入的实例图像进行预处理，包括以下步骤：

补零与卷积，利用补零层ZeroPadding2D将实例图像处理为[518，518，3]的大小，以及利用卷积层Conv2D对补零后的图像卷积，输出[256，256，64]的特征图像。补零层主要用于在单个矩阵的两边补零，以便后续卷积等处理时控制特征图的大小。

批标准化，利用正规化层Batch Normalization对[256，256，64]的特征图像进行批标准化，输出为批标准化了的[256，256，64]的特征图像。正规化层主要用于将数据分布状态归一化为标准正态分布，以利于在训练模型的时候加快收敛速度。具体的，对正规化层设置的位置以及数量不做限定，例如正规化层可以设置于DenseNet网络的开端、位于卷积层之前或者位于卷积层之后。示例性的，将正规化层设置于卷积层之后，可以提升卷积得到的结构化特征数据的收敛速度。

非线性处理，利用激活层Activation对批标准化了的[256，256，64]的特征图像进行非线性处理。具体的非线性处理可以根据非线性函数ReLU实现。非线性函数ReLU是一个元素级别的操作，可以将特征图中的所有小于0的像素值设置为零。非线性处理的目的是在DenseNet网络中引入非线性。

补零与池化，利用补零层ZeroPadding2D将非线性处理后的[256，256，64]的特征图像处理为[258，258，64]的大小，以及利用池化层MaxPooling2D对补零后的特征图像池化，输出[128，128，64]的特征图像。

具体的，这一步骤的池化采用最大值池化maxpooling；最大值池化具有不变(invariance)性，这种不变性包括平移(translation)不变性、旋转(rotation)不变性和尺度(scale)不变性；最大值池化还可以在保留主要特征的同时减少参数和计算量，防止过拟合，提高模型泛化能力。

S12、根据DenseNet网络中的第一个稠密块增加预处理后的特征图像的通道数。

具体的，如图5所示，根据第一个稠密块Dense Block增加特征图像的通道数channel。如图7所示，第一个稠密块循环执行若干次以下操作：批标准化BatchNormalization、激活层Activation非线性处理、卷积层Conv卷积处理、批标准化Batch Normalization、激活层Activation非线性处理、卷积层Conv卷积处理以及连接层Concatenate连接处理。其中连接层Concatenate将连接层后面一层和连接层前面所有层都建立一个连接，这样会减少网络网络层数，有利于网络的训练。每次循环完成，图像大小不变，通道数channel数量增加32。

S13、根据DenseNet网络中的第一个过渡块缩小所述第一个稠密块输出的特征图像的大小。

具体的，过渡块循环执行若干次以下操作：批标准化Batch Normalization、激活层Activation非线性处理、卷积层Conv卷积处理、池化处理；其中，卷积层的卷积核为1×1，池化采用均值池化AveragePooling，池化窗口为2×2；在减少维度的同时，更有利信息传递到下一步骤进行特征提取，能减小邻域大小受限造成的估计值方差增大引起的特征提取的误差，更多的保留图像的背景信息。每次循环完成，特征图像的大小变为原来的一半，通道数channel数量不变。

S14、根据DenseNet网络中的第二个稠密块增加所述第一个过渡块输出特征图像的通道数，以及根据第二个过渡块缩小所述第二个稠密块输出特征图像的大小。

S15、根据DenseNet网络中的第三个稠密块增加所述第二个过渡块输出特征图像的通道数，以及根据第三个过渡块缩小所述第三个稠密块输出特征图像的大小。

S16、根据DenseNet网络中的第四个稠密块增加所述第三个过渡块输出特征图像的通道数。

示例性的，DenseNet网络中的第四个稠密块dense block4的输出为[16，16，1024]的特征图像，即长和宽均为16个像素，有1024个通道。

S17、对所述第四个稠密块输出的特征图像进行批标准化以及全局平均池化。

示例性的，对所述第四个稠密块输出的[16，16，1024]的特征图像进行批标准化Batch Normalization，然后进行全局平均池化GlobalAvergatePooling，之后输出为长度为1024的一维特征向量。

S18、根据所述全局平均池化得到的特征向量对所述实例图像进行二分类。

示例性的，根据所述长度为1024的一维特征向量对所述实例图像进行预测，二分类的结果具体为第一值区块或第二值区块。

步骤S130、将所述若干实例图像对应的二分类结果拼接以获取分类结果图像。

示例性的，图3所示的待标注图像预处理得到若干实例图像后，基于DenseNet网络的分类模型对各实例图像进行预测，各实例图像的预测结果拼接后得到分类(classification)结果图像，如图9所示。图9中的黑色区域包括若干第二值区块，对应于不存在感兴趣区域的实例图像；图9中的白色区域包括若干第一值区块，对应于存在感兴趣区域的实例图像。

步骤S140、将各所述实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割。

Vnet网络适用于三维结构的医学影像分割，能够实现3D图像端到端的图像语义分割。如图10所示为一Vnet网络的结构示意图，Vnet网络包括下采样(encoder)部分和上采样(decoder)部分，整体可看作是一个V形。

如图11所示，FPN(feature pyramid networks，特征金字塔)网络包括一个自底向上的线路，一个自顶向下的线路以及横向连接(lateral connection)。图11虚线框中放大的区域就是横向连接，其中1×1的卷积核的主要作用是减少卷积核的个数，也就是减少了特征图像(feature map)的个数，并不改变特征图像的尺寸大小。

具体的，FPN网络自底向上的部分其实就是神经网络普通的正向传播过程，特征图经过卷积核计算，通常会越变越小。自顶向下的过程采用上采样(upsampling)进行，把更抽象、语义更强的高层特征图进行上采样；然后通过把该特征横向连接至前一层特征，横向连接将上采样的结果和自底向上生成的相同大小的特征图像进行融合(merge)，每一层预测(predict)所用的特征图像都融合了不同分辨率、不同语义强度的特征，可以完成对应分辨率大小的物体进行检测，保证每一层都有合适的分辨率以及强语义特征。横向连接的两层特征在空间尺寸上相同，利用底层定位细节信息。

FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。基于Vnet网络和FPN网络的分割(segmentation)模型利用Vnet网络结合特征金字塔网络的网络结构提升二值化分割的效果。

在一些可选的实施例中，如图12所示，步骤S140将各所述实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割具体包括：

步骤S141、将所述实例图像输入所述分割模型的Vnet网络。

示例性的，输入实例图像的大小为[1024，1024，3]，其中3代表3个通道如RGB通道。

步骤S142、基于所述Vnet网络对所述实例图像依次进行非线性激活、若干次下采样和若干次上采样处理。

示例性的，其中，非线性激活处理包括对输入的实例图像经进行批标准化BachNormalization、卷积操作，然后再经过PReLU激活层处理；卷积操作的过滤器filter为16个，卷积核尺寸为5×5，可以通过填充padding保证特征图像大小不变。

示例性的，通过卷积(convolutional)层对非线性激活处理后的特征图像依次进行5次下采样(encoder)处理。其中，前四次下采样都先进行批标准化(BatchNormalization)和PReLU激活，再将本次下采样的输入特征图像和经过处理的特征图像对应位置相加后，经过一次降维操作，缩小图像，缩小因子为2。第五次下采样的时候不进行降维操作。具体的，第一次下采样输入的特征图像的大小为[1024，1024，16]，输出的特征图像的大小为[512，512，32]；第二次下采样输入的特征图像的大小为[512，512，32]，输出的特征图像的大小为[256，256，64]；第三次下采样输入的特征图像的大小为[256，256，64]，输出的特征图像的大小为[128，128，128]；第四次下采样输入的特征图像的大小为[128，128，128]，输出的特征图像的大小为[64，64，256]；第五次下采样输入的特征图像的大小为[64，64，256]，输出的特征图像的大小为[64，64，256]，不进行降维操作。

示例性的，对若干次下采样后输出的特征图像进行四次上采样(decoder)处理。每次上采样过程的输入有两个：通过细粒度特征转发(fine-grained featuresforwarding)传来的相应下采样过程的输入和前一处理过程的输出；先经过连接(concatenate)层将两个输入合并到一起，然后对合并结果进行批标准化和PReLU激活，然后再将批标准化和PReLU激活的输出和前一处理过程的输出进行特征求和(element-wise sum)；之后通过去卷积(de-convolutional)层进行上采样操作。

具体的，第一次上采样的输入为第四次下采样的输入[128，128，128]和第五次下采样过程的输出[64，64，256]经过卷积得到的[128，128，128]，输出特征图像的大小为[256，256，64]；第二次上采样的输入为第三次下采样的输入[256，256，64]和第一次上采样的输出[256，256，64]，输出的大小为[512，512，32]；第三次上采样的输入为第二次下采样的输入[512，512，32]和第二次上采样的输出[512，512，32]，输出的大小为[1024，1024，16]；第四次上采样过程的输入为第一次下采样的输入[1024，1024，16]和第三次上采样的输出[1024，1024，16]，输出的大小为[1024，1024，16]。

步骤S143、基于所述分割模型的FPN网络，根据各所述上采样处理的结果输出二值化分割的结果。

具体的，根据FPN网络对上采样处理后的特征图像进行预测。

示例性的，如图13所示，步骤S143基于所述分割模型的FPN网络，根据各所述上采样处理的结果输出二值化分割的结果，具体包括以下步骤：

步骤S1431、对Vnet网络中第一次上采样过程的输出做卷积操作。

示例性的，卷积核数目filter为128，输入特征图像的大小为[256，256，64]，输出特征图像的大小为[256，256，128]。

步骤S1432、对Vnet网络中第二次上采样过程的输出做卷积操作。

示例性的，卷积核数目filter为128。

步骤S1433、将对第一次上采样过程的输出卷积操作的结果进行上采样处理，并将上采样处理的结果与对第二次上采样过程的输出卷积操作的结果进行相加。

示例性的，第二次上采样过程的输出[512，512，32]卷积操作后的大小为[512，512，128]，步骤S1431的输出[256，256，128]上采样操作后的大小为[512，512，128]，二者相加的输出的大小为[512，512，128]。

步骤S1434、对Vnet网络中第三次上采样过程的输出做卷积操作。

示例性的，卷积核数目filter为128。

步骤S1435、将对第二次上采样过程的输出卷积操作的结果进行上采样处理，并将上采样处理的结果与对第三次上采样过程的输出卷积操作的结果进行相加。

示例性的，第三次上采样过程的输出[1024，1024，16]卷积操作后的大小为[1024，1024，128]，步骤S1432的输出[512，512，128]上采样操作后的大小为[1024，1024，128]，二者相加输出的大小为[1024，1024，128]。

步骤S1436、对Vnet网络中第四次上采样过程的输出做卷积操作。

示例性的，卷积核数目filter为128。

步骤S1437、将对第三次上采样过程的输出卷积操作的结果与对第四次上采样过程的输出卷积操作的结果进行相加。

示例性的，第四次上采样过程的输出[1024，1024，16]卷积操作后的大小为[1024，1024，128]，步骤S1434的输出的大小为[1024，1024，128]，二者相加的输出的大小为[1024，1024，128]。

步骤S1438、对相加的结果进行1×1卷积，以获取二值化的分割结果图像。

示例性的，对步骤S1437的输出[1024，1024，128]做1×1卷积，得到二值化的分割(segmentation)结果图像。

在一些实施例中，输入分割模型中Vnet网络的实例图像与所述二值化分割的结果，即分割结果图像的长、宽相等。

在一些实施例中，若所述分割模型预测所述实例图像存在感兴趣区域，所述二值化分割的结果中与所述感兴趣区域对应的区域为第一值区域。若所述分割模型预测所述实例图像存在非感兴趣区域，所述二值化分割的结果中与所述非感兴趣区域对应的区域为第二值区域。

示例性的，如果分割模型检测到某实例图像存在感兴趣区域，如癌变区域，则分割模型输出的二值化分割结果中与所述感兴趣区域对应的区域为第一值区域；不与所述感兴趣区域对应的区域为第二值区域。

示例性的，第一值为255，在灰度或黑白图像中，第一值区域为白色区域；第二值为0，在灰度或黑白图像中，第二值区域为黑色区域。

示例性的，感兴趣区域为癌变区域，若基于Vnet网络和FPN网络的分割模型预测所述实例图像存在感兴趣区域，则所述分割模型输出的二值化分割结果中与所述感兴趣区域对应的区域为阳性区域，所述分割模型输出的二值化分割结果中不与所述感兴趣区域对应的区域为阴性区域。

步骤S150、将所述若干实例图像对应的二值化分割结果拼接以获取分割结果图像。

示例性的，图3所示的待标注图像预处理得到若干实例图像后，基于Vnet网络和FPN网络的分割模型对各实例图像进行二值化分割，图3中相应实例图像的二值化分割结果如图14所示。图14中的黑色区域对应于二值化分割结果中的第二值区域，表示不是感兴趣区域；图14中的白色区域对应于二值化分割结果中的第一值区域，表示是感兴趣区域。

如图15所示为将所述若干实例图像对应的二值化分割结果拼接以获取分割结果图像。

步骤S160、根据所述分类结果图像和所述分割结果图像计算二值化的融合图像。

通过综合基于DenseNet网络的分类模型预测的分类结果和基于Vnet网络和FPN网络的分割模型预测的分割结果，进一步提升对待标注图像中感兴趣区域预测的效果。

在一些可选的实施例中，如图16所示，步骤S160根据所述分类结果图像和所述分割结果图像计算二值化的融合图像，具体包括：

步骤S161、将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像。示例性的，如果分类结果图像中某位置对应于感兴趣区域，且分割结果图像中的相应位置也对应于感兴趣区域，则二值化的融合图像中的相应位置也对应于感兴趣区域。

示例性的，如图17所示，步骤S161将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像，具体包括：

步骤S1611、若所述分类结果图像中为第一值的像素在所述分割结果图像中也为第一值，将所述融合图像中相应的像素设为第一值。

示例性的，如果分类结果图像中某位置为白色，且分割结果图像中的相应位置也为白色，则二值化的融合图像中的相应位置也是白色。

步骤S1612、若所述分类结果图像中的像素为第二值，将所述融合图像中相应的像素设为第二值。

步骤S1613、若所述分割结果图像中的像素为第二值，将所述融合图像中相应的像素设为第二值。

示例性的，如果分类结果图像中某位置为黑色，或者分割结果图像中的相应位置为黑色，则二值化的融合图像中的相应位置就是黑色。

在一些可选的实施例中，如图18所示，在步骤S161将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像之前，基于多模型融合的图像标注方法还包括：

步骤S101、将所述分类结果图像中的第一值区块进行膨胀。

在本实施例中，步骤S161将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像，具体包括：

步骤S1601、将所述膨胀后的分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像。

膨胀可以让分类结果图像中第一值区块的边缘平滑，从而可以使得通过取交集得到的融合图像中第一值、第二值的边界平滑。

步骤S170、提取所述融合图像的轮廓，并根据所述轮廓标注所述待标注图像中的感兴趣区域。

融合图像中第一值、第二值的边界，即交集的边界限定的范围可以作为预测得到的感兴趣区域的范围。

示例性的，具体的，根据预测生成的融合图像，提取融合图像中感兴趣区域的所有轮廓点以构成融合图像的轮廓；然后基于轮廓点生成.xml文件，以待标注图像的名字命名，扩展名为.ndpa，即为待标注图像对应的标注文件，将该标注文件在原图像进行显示，如图19所示，就可以根据所述轮廓标注所述待标注图像中的感兴趣区域。

在一些实施例中，将待标注图像对应的标注文件在原图像进行显示可以由图2中的服务器执行，也可以由图2中的终端执行。

在另一些可行的实施例中，根据所述分类模型、分割模型对各所述实例图像进行预测，并分别根据各所述实例图像的二分类结果、二值化分割结果计算各实例图像对应的二值化的融合图像；然后将各实例图像对应的融合图像进行拼接后得到待标注图像对应的二值化的融合图像。

在一些可行的实施例中，基于DenseNet网络的分类模型和基于Vnet网络和FPN网络的分割模型可以一起训练。训练的样本包括不包含感兴趣区域的待分割图像、标记了感兴趣区域的待分割图像；损失函数采用weightedloss和focalloss，两者侧重点不一样，组合损失函数可以将不同的因素融合进模型训练过程，从而可以提升模型的重合率Dice、查准率IoU；降低假阳性率fpr，即实际无感兴趣区域但被判为阳性的百分比；而且通过使用精密度precision而非准确度accuracy评价训练效果，提升了对假阳性的抑制，并利用组合损失函数进一步优化训练效果。

基于DenseNet网络的分类模型和基于Vnet网络和FPN网络的分割模型的预测结果融合后，几近达到百分百抑制假阳性的效果，且模型的预测速度达到90秒/每张，显著减少医生的工作负担。具体的，模型的Dice为0.88，IoU为0.83。

其中，重合率Dice的定义如下：

A表示模型产生的目标窗口，即分割结果(SegResult)，B表示原来的标记窗口，即Ground Truth。

查准率IoU表示分割结果与标记窗口的交集比上分割结果与标记窗口的并集。

上述实施例提供的基于多模型融合的图像标注方法，通过基于DenseNet网络的分类模型对待标注图像的实例图像进行二分类以获取分类结果图像，以及通过基于Vnet网络和FPN网络的分割模型对待标注图像的实例图像进行二值化分割以获取分割结果图像，进而将分类结果图像和分割结果图像融合提取用于标注待标注图像中感兴趣区域的轮廓；标注的重合率、查准率较高，可降低假阳性率。

请参阅图20，图20是本申请一实施例提供的一种基于多模型融合的图像标注装置的结构示意图。示例性的，该基于多模型融合的图像标注装置可以配置于服务器中，用于执行前述的基于多模型融合的图像标注方法。

如图20所示，该基于多模型融合的图像标注装置，包括：

预处理模块110，用于获取待标注图像并对所述待标注图像进行预处理以得到若干实例图像。

二分类模块120，用于将各所述实例图像输入基于DenseNet网络的分类模型进行二分类。

具体的，如图21所示，二分类模块120包括：

第一分类子模块121、用于若基于DenseNet网络的分类模型预测所述实例图像存在感兴趣区域，所述实例图像对应的二分类结果为第一值区块。

第二分类子模块122、用于若基于DenseNet网络的分类模型预测所述实例图像不存在感兴趣区域，所述实例图像对应的二分类结果为第二值区块。

分类拼接模块130，用于将所述若干实例图像对应的二分类结果拼接以获取分类结果图像。

二值化分割模块140，用于将各所述实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割。

具体的，若所述分割模型预测所述实例图像存在感兴趣区域，所述二值化分割的结果中与所述感兴趣区域对应的区域为第一值区域；若所述分割模型预测所述实例图像存在非感兴趣区域，所述二值化分割的结果中与所述非感兴趣区域对应的区域为第二值区域。

具体的，如图21所示，二值化分割模块140包括：

输入子模块141、用于将所述实例图像输入所述分割模型的Vnet网络。

Vnet子模块142、用于基于所述Vnet网络对所述实例图像依次进行非线性激活、若干次下采样和若干次上采样处理。

FPN子模块143、用于基于所述分割模型的FPN网络，根据各所述上采样处理的结果输出二值化分割的结果。

分割拼接模块150，用于将所述若干实例图像对应的二值化分割结果拼接以获取分割结果图像。

融合模块160，用于根据所述分类结果图像和所述分割结果图像计算二值化的融合图像。

具体的，融合模块160用于将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像。

具体的，如图21所示，融合模块160包括：

第一融合子模块161、用于若所述分类结果图像中为第一值的像素在所述分割结果图像中也为第一值，将所述融合图像中相应的像素设为第一值。

第二融合子模块162、用于若所述分类结果图像中的像素为第二值，将所述融合图像中相应的像素设为第二值。

第三融合子模块163、用于若所述分割结果图像中的像素为第二值，将所述融合图像中相应的像素设为第二值。

标注模块170，用于提取所述融合图像的轮廓，并根据所述轮廓标注所述待标注图像中的感兴趣区域。

在一些实施例中，如图21所示，基于多模型融合的图像标注装置还包括：

膨胀模块101，用于将所述分类结果图像中的第一值区块进行膨胀。

融合模块160具体用于将所述膨胀后的分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的方法、装置可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

示例性的，上述的方法、装置可以实现为一种计算机程序的形式，该计算机程序可以在如图22所示的计算机设备上运行。

请参阅图22，图22是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备可以是服务器或终端。

参阅图22，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行任意一种基于多模型融合的图像标注方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种基于多模型融合的图像标注方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，该计算机设备的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

示例性的，处理器用于实现将各所述实例图像输入基于DenseNet网络的分类模型进行二分类时，具体用于实现：

若基于DenseNet网络的分类模型预测所述实例图像存在感兴趣区域，所述实例图像对应的二分类结果为第一值区块；

若基于DenseNet网络的分类模型预测所述实例图像不存在感兴趣区域，所述实例图像对应的二分类结果为第二值区块。

示例性的，处理器用于实现将各所述实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割时，具体用于实现：

将所述实例图像输入所述分割模型的Vnet网络；

基于所述Vnet网络对所述实例图像依次进行非线性激活、若干次下采样和若干次上采样处理；

基于所述分割模型的FPN网络，根据各所述上采样处理的结果输出二值化分割的结果。

若所述分割模型预测所述实例图像存在感兴趣区域，所述二值化分割的结果中与所述感兴趣区域对应的区域为第一值区域；

若所述分割模型预测所述实例图像存在非感兴趣区域，所述二值化分割的结果中与所述非感兴趣区域对应的区域为第二值区域。

示例性的，处理器用于实现根据所述分类结果图像和所述分割结果图像计算二值化的融合图像时，具体用于实现：

将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像。

示例性的，处理器用于实现将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像时，具体用于实现：

若所述分类结果图像中为第一值的像素在所述分割结果图像中也为第一值，将所述融合图像中相应的像素设为第一值；

若所述分类结果图像中的像素为第二值，将所述融合图像中相应的像素设为第二值；

若所述分割结果图像中的像素为第二值，将所述融合图像中相应的像素设为第二值。

示例性的，处理器还用于实现将所述分类结果图像中的第一值区块进行膨胀。处理器用于实现将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像时，具体用于实现：将所述膨胀后的分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法，如：

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项基于多模型融合的图像标注方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于多模型融合的图像标注方法，其特征在于，包括：

2.如权利要求1所述的基于多模型融合的图像标注方法，其特征在于，所述将各所述实例图像输入基于DenseNet网络的分类模型进行二分类，具体包括：

3.如权利要求2所述的基于多模型融合的图像标注方法，其特征在于，所述将各所述实例图像输入基于Vnet网络和FPN网络的分割模型进行二值化分割，具体包括：

将所述实例图像输入所述分割模型的Vnet网络；

4.如权利要求3所述的基于多模型融合的图像标注方法，其特征在于，若所述分割模型预测所述实例图像存在感兴趣区域，所述二值化分割的结果中与所述感兴趣区域对应的区域为第一值区域；

5.如权利要求4所述的基于多模型融合的图像标注方法，其特征在于，所述根据所述分类结果图像和所述分割结果图像计算二值化的融合图像，具体包括：

6.如权利要求5所述的基于多模型融合的图像标注方法，其特征在于，所述将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像，具体包括：

7.如权利要求5所述的基于多模型融合的图像标注方法，其特征在于，所述将所述分类结果图像与所述分割结果图像取交集之前，还包括：

将所述分类结果图像中的第一值区块进行膨胀；

所述将所述分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像，具体包括：

将所述膨胀后的分类结果图像与所述分割结果图像取交集，以得到所述二值化的融合图像。

8.一种基于多模型融合的图像标注装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1-8中任一项所述的基于多模型融合的图像标注方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于：若所述计算机程序被处理器执行，实现如权利要求1-8中任一项所述的基于多模型融合的图像标注方法。