CN111160356A

CN111160356A - 一种图像分割分类方法和装置

Info

Publication number: CN111160356A
Application number: CN202010002496.1A
Authority: CN
Inventors: 王文君; 朱婷; 候建伟; 王东; 邢婉丽; 程京
Original assignee: CapitalBio Corp
Current assignee: CapitalBio Corp
Priority date: 2020-01-02
Filing date: 2020-01-02
Publication date: 2020-05-15

Abstract

本发明涉及一种图像分割分类方法和装置，包括：S1建立图像分割分类网络模型，同时实现图像帧的分割与分类；分割分类的网络模型包括上下文信息提取通路和空间信息提取通路，上下文信息提取通路和空间信息提取通路通讯连接，且上下文信息提取通路输出图像分类结果；空间信息提取通路输出图像分割结果；S2训练分割分类的网络模型，使网络模型达到预设标准。本方法中的分割分类的网络模型，既可以对移动终端采集的视频进行端到端的实时语义分割，又能同时实时识别出图像帧中场景的目标状态类别，将对视频的语义分割与对图像帧中场景状态的分类并行完成。

Description

一种图像分割分类方法和装置

技术领域

本发明是关于一种图像分割分类方法和装置，属于图像处理技术领域。

背景技术

对于一段含有待分析目标对象的视频，有些图像帧场景中存在目标对象，有些图像帧则不存在，同时有些图像帧虽然存在目标对象，但由于在目标区域存在遮挡、或者目标不清晰、或者目标区域面积过小、或者目标对象姿势不正确等原因，致使这些图像帧图像不可用。所以要实现人机交互自动摄影就必须解决分割出目标对象区域并同时给出该帧图像分类类别的问题。

现有技术中常规的做法是将对图像帧中目标对象的分割与对图像帧场景状态的分类分两步进行，此种方法减小了移动电子设备端分析的速度。而且，目前存在的分割深度学习模型大多只能进行目标区域分割，而不能同时进行图像帧场景状态有效性分类识别，不能满足移动电子设备端对目标对象实时分析的需求。虽然，在自动驾驶领域中确实存在能够同时进行图像帧分割、分类或检测的方法，但该方法所用的模型占内存大，运算速度较慢，且对硬件平台有较高要求，并不能满足移动终端中的视频图像处理的需求。

发明内容

针对上述现有技术的不足，本发明的目的是提供了一种图像分割分类方法和装置，其通过引入分割与分类模型，有效简化了对图像帧场景中目标对象实时分析的前期预处理过程。

为实现上述目的，本发明提供了一种图像分割分类方法，包括以下步骤：S1建立图像分割分类网络模型，同时实现图像帧的分割与分类；分割分类的网络模型包括上下文信息提取通路和空间信息提取通路，上下文信息提取通路和空间信息提取通路通讯连接，且上下文信息提取通路输出图像分类结果；空间信息提取通路输出图像分割结果；S2训练分割分类的网络模型，使网络模型达到预设标准。

进一步，上下文信息提取通路包括两个支路，其中一个支路输出图像帧的场景状态的类别；另一个支路与空间信息提取通路连接，将上下文信息提取通路输出特征值输送至空间信息提取通路得到包括上下文信息和空间信息的特征图，并输出特征图作为图像帧的分割结果。

进一步，上下文信息提取通路包括依次连接的Conv3*3-BN-ReLU模块，Pooling层，倒残差模块组，Conv1*1-BN-ReLU模块、全局均值池化模块和分类器，经过分类器输出图像帧场景状态的类别，其中，上下文信息提取通路中，倒残差模块组包括依次连接的第一倒残差模块组、第二倒残差模块组和第三倒残差模块组，其中，第二倒残差模块组输出的特征图A经过模块注意力精炼模块处理，进入双线性插值采样层进行双线性插值采样操作，经过双线性差值采样操作的特征图A记为up1；Conv1*1-BN-ReLU模块输出的特征图B经过模块注意力精炼处理后，与全局均值池化模块输出的特征图C相乘，得到特征图D，特征图D经过双线性插值采样操作后记为up2，将up1与up2串联，得到特征图E，并将特征图E输入空间信息提取通路。

进一步，空间信息提取通路包括依次连接的深度可分离卷积模块、第一DenseNet模块、第一DenseNet过渡层、第二DenseNet模块和第二DenseNet过渡层，第二DenseNet过渡层输出的特征图F与特征图E一起输入特征融合模块进行处理，获得融合后的特征图G，对输出特征图G进行双线性插值操作，获得稀疏特征图H，特征图H经过一个Conv1*1层处理后，获得输入图像每个像素对应的类别，即图像分割结果。

进一步，分割分类的网络模型包括：采集并标注训练数据，初步训练分割分类的网络模型并测试，判断经过初步训练的分割分类网络模型处理每张图像帧的速度、分类精度和分割精度是否达到预设标准，并重复该步骤，直到得到符合预设标准的分割分类网络模型。

进一步，预设标准为分割和分类的精度大于精度标准值且处理每张图像帧的速度小于速度标准值。

进一步，处理每张图像帧的速度、分类精度和分割精度的方法具体为：根据处理完所有待测图像帧所用总时间和待测图像帧总张数的比值，获得分割分类的网络模型处理每张图像帧的速度；和/或根据类别预测正确的图像帧总张数与测试图像帧的总张数的比值，获得分割分类的网络模型的分类精度；和/或根据分割分类的网络模型对测试图像帧的分割结果与测试图像帧的人工标注分割结果，计算分割区域的交并比，获得分割分类的网络模型的分割精度。

进一步，步骤S1中，训练分割分类的网络模型采用学习率变化的训练方式，学习率的计算公式如下：

其中，“learning_rate”表示训练过程当前迭代次数的学习率，“lr₀”表示初始学习率，“iter”表示当前迭代次数，“max_iter”表示最大迭代次数。

进一步，训练模型中的损失函数采用如下公式进行计算：

loss＝loss_{1_seg}+loss_{2_seg}+loss_seg+loss_class

其中，“loss_{1_seg}”表示下文信息提取通路上第二倒残差模块输出的特征图A经过一个Conv1*1和一个双线性插值采样层后，输出的分割结果与模型输入图像相应的分割标签的误差；“loss_{2_seg}”表示下文信息提取通路上，up2经过一个Conv1*1和一个双线性插值采样层后，输出的分割结果与模型输入图像相应的分割标签的误差，“loss_seg”表示模型分割的输出结果与模型输入图像相对应的分割标签的误差，“loss_class”表示分割分类网络模型图像分类分支输出的图像分类结果与模型输入图像类别标签的误差。

本发明还公开了一种图像分割分类装置，包括：图像分割与分类模块，用于同时实现图像帧的分割与分类；分割分类的网络模型包括上下文信息提取通路和空间信息提取通路，上下文信息提取通路和空间信息提取通路通讯连接，且上下文信息提取通路输出图像分类结果；空间信息提取通路输出图像分割结果；

模型训练模块，用于训练分割分类的网络模型，使网络模型达到预设标准。

本发明由于采取以上技术方案，其具有以下优点：1、本方法中的分割分类的网络模型，既可以对移动终端采集的视频进行端到端的实时语义分割，又能实时识别出图像帧中场景的目标状态类别，将对视频的语义分割与对图像帧中场景状态的分类并行完成。2、在Pytorch框架下训练的该分割分类的网络模型，内存大小仅为3M左右，占用内存空间小，分割与分类速度快，很好的满足了移动电子设备端对视频实时处理的要求。3、采用较完整的轻量级网络，既获得了复杂、抽象的输入图像的上下文信息，又使得分割分类的网络模型的参数量较少。4、利用上万张带有类别标签和分割标签的图像在GPU服务器集群上训练分割分类的网络模型，系统封装模型后，在移动电子设备上利用训练好的分割分类的网络模型处理该设备拍摄的含有目标对象的视频；该分割分类的网络模型可以拓展应用到任意简单场景视频的并行实时分割与分类任务。5、该分割分类的网络模型分割出的目标信息可以进一步做图像帧内容进行进一步分析。

附图说明

图1是本发明一实施例中一种图像分割分类方法的步骤图；

图2是本发明一实施例中分割分类的网络模型结构示意图。

1-Conv3*3-BN-ReLU模块；2-池化(Pooling)层；3-第一倒残差模块组；4-第二倒残差模块组；5-第三倒残差模块组；6-Conv1*1-BN-ReLU模块；7-全局均值池化模块；8-分类器；9-深度可分离卷积模块，10-第一DenseNet模块；11-第一DenseNet过渡层；12-第二DenseNet模块；13-第二DenseNet过渡层；14-双线性插值采样层；15-Conv1*1层。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

本实施例中提供了一种图像分割分类方法，可以用于图片或视频中的图像，如图1、图2所示，包括以下步骤：S1建立图像分割分类网络模型，同时实现图像帧的分割与分类；分割分类的网络模型包括上下文信息提取通路和空间信息提取通路，上下文信息提取通路和空间信息提取通路通讯连接，且上下文信息提取通路输出图像分类结果；空间信息提取通路输出图像分割结果；S2训练分割分类的网络模型，使网络模型达到预设标准。本方法中的分割分类的网络模型，既可以对移动终端采集的视频进行端到端的实时语义分割，又能同时实时识别出图像帧中场景的目标状态类别，将对视频的语义分割与对图像帧中场景状态的分类并行完成。上下文信息提取通路采用较完整的轻量级网络，既获得了复杂、抽象的输入图像的上下文信息，又使得分割分类的网络模型的参数量较少。

其中，步骤S1中包括：将待处理视频分解成图像帧；建立图像分割分类网络模型，实现端到端的图像帧的分割与分类；分割分类的网络模型包括上下文信息提取通路和空间信息提取通路，上下文信息提取通路包括两个支路，其中一个支路输出图像帧的场景状态的类别，另一个支路与空间信息提取通路连接，并将另一个支路得到的特征图与空间信息提取通路得到的特征图融合，并输出图像帧的分割结果；

其中，步骤S1中建立用于图像分割分类的网络模型是本实施例的关键步骤。如图2所示，图像分割分类的网络模型具体包括上下文信息提取通路(Context path,CP)和空间信息提取通路(Spatial path,SP)，下文中简称为CP通路和SP通路。

CP通路主干由一种常用于移动端的轻量级深度学习网络ShuffleNet V2组成，其具体结构如图2中CP通路所示，ShuffleNet V2结构组成依次为模型输入端、1个Conv3*3-BN-ReLU模块1、1个池化(Pooling)层2、第一倒残差模块组3、第二倒残差模块组4、第三倒残差模块组5、1个Conv1*1-BN-ReLU模块6和1个全局均值池化模块7。在CP通路末端，即全局均值池化模块7下游，还设置有1个分类器8，该分类器得到分割分类网络模型的图像帧分类结果，并输出图像帧的类别。其中，Conv3*3-BN-ReLU模块1中的Conv3*3为3*3的卷积层，BN(batch normalization)为批标准化操作，ReLU表示ReLU激活函数层。第一倒残差模块组包括4个首尾相连的倒残差模块。第二倒残差模块组包括8个首尾相连的倒残差模块。第三倒残差模块组包括4个首尾相连的倒残差模块。Conv1*1-BN-ReLU模块Conv1*1为1*1的卷积层，BN为批标准化操作，ReLU表示ReLU激活函数层。分类器的结构为ReLU-局部平均池化层-Sigmoid函数层。

在CP通路上，经过第二倒残差模块组4中的8个首尾相连的倒残差模块后，输出的特征图A大小是分割分类的网络模型输入图像帧大小的1/16，将这些特征图A经过注意力精炼模块(Attention Refinement Module,ARM，即图2中模块A，以下简称为ARM模块)处理之后，通过双线性插值采样层14进行双线性插值采样操作，从而将特征图A的大小扩充为原来的2倍，记为up1。经过Conv1*1-BN-ReLU模块输出的特征图B大小是分割分类的网络模型输入图像帧大小的1/32，将这些特征图B经过ARM模块处理后，与经全局均值池化模块输出的特征图C相乘。图2中模块M即表示相乘。使相乘后的特征图D通过双线性插值采样层14进行双线性插值采样操作，从而将特征图B的大小扩充为原来的4倍，记为up2，将up1与up2串联(由模块”C”实现，模块”C”表示串联操作)，串联后得到的特征图记为特征图E。

SP通路上包含依次连接的1个深度可分离卷积模块9、第一DenseNet模块10、第一DenseNet过渡层11、第二DenseNet模块12和第二DenseNet过渡层13。其中，DenseNet是一种深度学习网络，通常用于图像识别或分类。

在SP通路上，经过第二DenseNet过渡层输出的特征图F大小是分割分类的网络模型输入图像帧大小的1/8，将这些特征图F与特征图E一起由特征融合模块，即模块F(Feature Fusion Module,FFM)处理，获得融合后的特征图G。使特征图G通过双线性插值采样层14进行双线性插值采样操作，从而将特征图G的大小扩充为原来的8倍，经过Conv1*1层15处理后，输出为待测图像中每个像素的类别，即图像分割结果。

其中，图2中每个立方体的宽度表示该层特征图的通道数(channel)，立方体的长度和高度分别表示该层特征图的高度(height)和宽度(width)。

SP通路较浅，提取的主要是输入图像的空间信息，CP通路为较完整的ShuffleNet网络结构，相对于SP通路更深，提取的是输入图像的上下文信息，其特征更加复杂、抽象，能够很好的用于图像识别或分类，因此，在CP通路引出用于进行图像分类的分支，这样图像分割与分类网络模型既能分割出图像帧场景中的目标对象，又能识别图像帧的状态，实现了端到端的实时语义分割和分类。

步骤S1中，采集并标注训练数据包括采集大量的图像帧，在本实施例中训练数据为近万张眼象图，即眼部的图像帧，并为每张眼象图人工标注分割标签和分类标签，用初步训练好的分割分类网络模型预测更多无标签的眼象图，将分类正确、分割效果好的眼象图及其预测结果一起放入训练集参加训练，以此训练方式不断扩展训练集，提升分割分类网络模型分割和分类性能，提高该分割分类网络模型的准确度。训练分割分类的网络模型是在Pytorch框架下采用学习率不断变化的训练方式实现的。在模型训练时，需要对训练集图像进行数据增强，包括在原始图像上进行随机裁剪、对原始图像左右翻转得到经过数据增强的训练集图像，并采用Adam算法对训练过程进行优化。学习率的计算公式如下：

训练模型中的损失函数采用如下公式进行计算：

loss＝loss_{1_seg}+loss_{2_seg}+loss_seg+loss_class

其中，“loss_{1_seg}”和“loss_{2_seg}”表示分割辅助损失函数，“loss_{1_seg}”表示CP通路上第二倒残差模块4末端输出的特征图A经过一个Conv1*1和一个双线性插值采样层14后，输出的分割结果与模型输入图像相应的分割标签的误差；“loss_{2_seg}”表示CP通路上up2经过一个Conv1*1和一个双线性插值采样层14后，输出的分割结果与模型输入图像相应的分割标签的误差，“loss_seg”表示分割损失函数，是模型分割的输出结果与模型输入图像相对应的分割标签的误差，“loss_{1_seg}”，“loss_{2_seg}”和“loss_seg”均采用Pytorch框架提供的torch.nn.BCEWithLogitsLoss()函数实现，“loss_class”表示分割分类网络模型图像分类分支输出的图像分类结果与模型输入图像类别标签的误差，采用Pytorch框架中提供的交叉熵损失torch.nn.CrossEntropyLoss()函数实现。

本实施例步骤S2中具体包括采集并标注训练数据，训练分割分类的网络模型；测试经过训练的分割分类的网络模型处理每张图像帧的速度、分类精度和分割精度；如果分割和分类的精度大于精度标准值且处理每张图像帧速度小于速度标准值，则将分割分类的网络模型作为最终模型，否则，重复本步骤，直到得到能够作为最终模型的分割分类的网络模型。

其中，处理每张图像帧的速度、分类精度和分割精度的方法具体为：根据处理完所有待测图像帧所用总时间和待测图像帧总张数的比值，获得分割分类的网络模型处理每张图像帧的速度；根据类别预测正确的图像帧总张数与测试图像帧的总张数的比值，获得分割分类的网络模型的分类精度；根据分割分类的网络模型对测试图像帧的分割结果与测试图像帧的人工标注分割结果，计算分割区域的交并比，获得分割分类的网络模型的分割精度。

本发明的另一个实施例还公开了一种图像分割分类装置，包括：视频分解模块，用于将待处理视频分解成图像帧；图像分割与分类模块，用于设计图像分割分类的网络模型，实现端到端的图像帧的分割与分类；模型训练模块，用于采集并标注训练数据，训练分割分类的网络模型；模型测试模块，用于测试分割分类的网络模型的分割精度和速度以及分类的精度和速度；模型判断模块，用于判断分割分类的网络模型是否能够作为最终模型；视频分解模块、图像分割与分类模块、模型训练模块、模型测试模块和模型判断模块依次连接，并按照上述任一种图像分割分类方法进行工作。

上述各实施例仅用于说明本发明，对各部件的结构、设置位置、连接关系及形状的具体描述都是为了充分阐述本发明技术方案，不应理解为对本发明保护范围的限定，在本发明技术方案的基础上，凡根据本发明原理对个别部件进行的改进和等同变换，均不应排除在本发明的保护范围之外。

Claims

1.一种图像分割分类方法，其特征在于，包括以下步骤：

S1建立图像分割分类网络模型，同时实现图像帧的分割与分类；所述分割分类的网络模型包括上下文信息提取通路和空间信息提取通路，所述上下文信息提取通路和所述空间信息提取通路通讯连接，且所述上下文信息提取通路输出图像分类结果；所述空间信息提取通路输出图像分割结果；

S2训练所述分割分类的网络模型，使所述网络模型达到预设标准。

2.如权利要求1所述的图像分割分类方法，其特征在于，所述上下文信息提取通路包括两个支路，其中一个支路输出所述图像帧的场景状态的类别；另一个支路与所述空间信息提取通路连接，将所述上下文信息提取通路输出特征值输送至所述空间信息提取通路得到包括上下文信息和空间信息的特征图，并输出所述特征图作为所述图像帧的分割结果。

3.如权利要求2所述的图像分割分类方法，其特征在于，所述上下文信息提取通路包括依次连接的Conv3*3-BN-ReLU模块，Pooling层，倒残差模块组，Conv1*1-BN-ReLU模块、全局均值池化模块和分类器，经过所述分类器输出图像帧场景状态的类别，其中，所述上下文信息提取通路中，所述倒残差模块组包括依次连接的第一倒残差模块组、第二倒残差模块组和第三倒残差模块组，其中，所述第二倒残差模块组输出的特征图A经过模块注意力精炼模块处理，进入双线性插值采样层进行双线性插值采样操作，经过所述双线性差值采样操作的特征图A记为up1；所述Conv1*1-BN-ReLU模块输出的特征图B经过模块注意力精炼处理后，与所述全局均值池化模块输出的特征图C相乘，得到特征图D，所述特征图D经过双线性插值采样操作后记为up2，将up1与up2串联，得到特征图E，并将所述特征图E输入所述空间信息提取通路。

4.如权利要求3所述的图像分割分类装置，其特征在于，所述，空间信息提取通路包括依次连接的深度可分离卷积模块、第一DenseNet模块、第一DenseNet过渡层、第二DenseNet模块和第二DenseNet过渡层，第二DenseNet过渡层输出的特征图F与特征图E一起输入特征融合模块进行处理，获得融合后的特征图G，对输出特征图G进行双线性插值操作，获得稀疏特征图H，特征图H经过一个Conv1*1层处理后，获得输入图像每个像素对应的类别，即图像分割结果。

5.如权利要求1-4任一项所述的图像分割分类方法，其特征在于，所述分割分类的网络模型包括：采集并标注训练数据，初步训练分割分类的网络模型测试，判断经过初步训练的所述分割分类网络模型处理每张图像帧的速度、分类精度和分割精度是否达到所述预设标准，重复该步骤，直到得到符合预设标准的分割分类网络模型。

6.如权利要求5所述的图像分割分类方法，其特征在于，所述预设标准为分割和分类的精度大于精度标准值且处理每张图像帧的速度小于速度标准值。

7.如权利要求6所述的图像分割分类方法，其特征在于，所述处理每张图像帧的速度、分类精度和分割精度的方法具体为：

根据处理完所有待测所述图像帧所用总时间和待测所述图像帧总张数的比值，获得所述分割分类的网络模型处理每张图像帧的速度；

和/或根据类别预测正确的图像帧总张数与测试图像帧的总张数的比值，获得所述分割分类的网络模型的分类精度；

和/或根据所述分割分类的网络模型对测试图像帧的分割结果与测试图像帧的人工标注分割结果，计算分割区域的交并比，获得所述分割分类的网络模型的分割精度。

8.如权利要求5或6所述的图像分割分类方法，其特征在于，所述步骤S1中，训练所述分割分类的网络模型采用学习率变化的训练方式，所述学习率的计算公式如下：

9.如权利要求8所述的移动终端的视频分割分类方法，其特征在于，所述训练模型中的损失函数采用如下公式进行计算：

loss＝loss_{1_seg}+loss_{2_seg}+loss_seg+loss_class

其中，“loss_{1_seg}”表示所述上下文信息提取通路上第二倒残差模块输出的所述特征图A经过一个Conv1*1和一个双线性插值采样层后，输出的分割结果与模型输入图像相应的分割标签的误差；“loss_{2_seg}”表示所述上下文信息提取通路上，所述up2经过一个Conv1*1和一个双线性插值采样层后，输出的分割结果与模型输入图像相应的分割标签的误差，“loss_seg”表示模型分割的输出结果与模型输入图像相对应的分割标签的误差，“loss_class”表示分割分类网络模型图像分类分支输出的图像分类结果与模型输入图像类别标签的误差。

10.一种图像分割分类装置，其特征在于，包括：

图像分割与分类模块，用于同时实现图像帧的分割与分类；所述分割分类的网络模型包括上下文信息提取通路和空间信息提取通路，所述上下文信息提取通路和所述空间信息提取通路通讯连接，且所述上下文信息提取通路输出图像分类结果；所述空间信息提取通路输出图像分割结果；

模型训练模块，用于训练所述分割分类的网络模型，使所述网络模型达到预设标准。