CN113096134A

CN113096134A - 基于单阶段网络的实时实例分割方法及其系统和电子设备

Info

Publication number: CN113096134A
Application number: CN202010022245.XA
Authority: CN
Inventors: 孙俊; 麻晓龙; 徐诚; 蒋坤君; 胡增新
Original assignee: Sunny Optical Zhejiang Research Institute Co Ltd
Current assignee: Sunny Optical Zhejiang Research Institute Co Ltd
Priority date: 2020-01-09
Filing date: 2020-01-09
Publication date: 2021-07-09

Abstract

一种基于单阶段网络的实时实例分割方法及其系统和电子设备。该基于单阶段网络的实时实例分割方法包括步骤：通过单阶段的目标检测网络模型，对原始图像进行目标检测处理，以得到一系列特征图和检测目标数据；分别对该一系列特征图中的一部分特征图进行预处理，以得到相应的参考特征图；通过将该检测目标数据中检测目标的边框作为感兴趣区域，对该参考特征图进行裁剪和拼接处理，以得到拼接特征图；以及通过掩码预测网络模型，对该拼接特征图进行掩码预测处理，以得到与该检测目标对应的掩码分割结果。

Description

基于单阶段网络的实时实例分割方法及其系统和电子设备

技术领域

本发明涉及图像分割技术领域，尤其是涉及基于单阶段网络的实时实例分割方法及其系统和电子设备。

背景技术

目前，计算机视觉中的图像分割任务通常包括语义分割和实例分割。该语义分割一般指的是将像素按照图像中表达的语义含义进行分类，使得计算机能够识别出各个像素的目标类别并标出相应标签，以实现对视觉场景的理解。而该实例分割则是在语义分割的基础上，除了识别各个像素的目标类别之外，还需要分隔出同一类别的不同实例。

随着卷积神经网络(英文Convolution Neural Network，简称CNN)在视觉理解方面取得了巨大成功，在可穿戴设备(如AR眼镜)、安全系统、移动电话、智能机器人以及汽车等各种应用中，现有的实例分割技术方案中也逐渐采用了卷积神经网络。例如，现有的掩码区域推荐卷积神经网络(英文Mask Regions proposal Convolution Neural Networks，简称Mask RCNN)先利用不含全连接层的景点卷积网络(如残差网络，ResNet50)作为主干网络，以计算图像的特征图；再利用区域推荐网络(英文Region Proposal Network，简称RPN)根据该特征图生成推荐区域(即可能包含目标的区域)；最后利用头层网络根据该推荐区域和该特征图预测各区域的类别、边框(bounding box)和掩码(Mask)。

然而，该现有的掩码区域推荐卷积神经网络的计算过程分为区域推荐和头层预测两个阶段。尤其在区域推荐阶段，该区域推荐网络先对特征图的每个位置生成九种候选区域，并在利用特征图计算候选区域的可能包含目标(即属于前景)的概率之后，再按照概率得分和非极大值抑制的原理对该候选区域进行筛选，进而得到推荐区域。而由于候选区域数量较大，且筛选过程计算复杂，因此该区域推荐阶段的存在将极大地增加了该现有的掩码区域推荐卷积神经网络的计算时间，使得该现有的掩码区域推荐卷积神经网络难以实现实时的实例分割，无法满足当下增强现实、智能机器人以及无人驾驶等领域越来越高的实时性要求。

发明内容

本发明的一优势在于提供一基于单阶段网络的实时实例分割方法及其系统和电子设备，其能够大幅地减少计算量，缩短计算时间，以便实现实时的实例分割。

本发明的另一优势在于提供一基于单阶段网络的实时实例分割方法及其系统和电子设备，其中，在本发明的一实施例中，所述基于单阶段网络的实时实例分割方法无需像Mask RCNN那样进行区域推荐的计算，而是直接输出检测目标数据和掩码分割结果，以大幅地减小计算时间。

本发明的另一优势在于提供一基于单阶段网络的实时实例分割方法及其系统和电子设备，其中，在本发明的一实施例中，所述基于单阶段网络的实时实例分割方法适于被部署至诸如AR眼镜或智能手机等移动端进行应用。

本发明的另一优势在于提供一基于单阶段网络的实时实例分割方法及其系统和电子设备，其中，在本发明的一实施例中，所述基于单阶段网络的实时实例分割方法能够在保留单阶段卷积神经网络的参数少、模型小以及计算速度快等优势的同时，还能够解决所述单阶段的目标检测网络无法分割单个检测目标实例的问题，进而实现实时的实例分割。

本发明的另一优势在于提供一基于单阶段网络的实时实例分割方法及其系统和电子设备，其中为了达到上述优势，在本发明中不需要采用复杂的结构和庞大的计算量，对软硬件要求低。因此，本发明成功和有效地提供一解决方案，不只提供一基于单阶段网络的实时实例分割方法及其系统和电子设备，同时还增加了所述基于单阶段网络的实时实例分割方法及其系统和电子设备的实用性和可靠性。

为了实现上述至少一优势或其他优势和目的，本发明提供了基于单阶段网络的实时实例分割方法，包括步骤：

通过单阶段的目标检测网络模型，对原始图像进行目标检测处理，以得到一系列特征图和检测目标数据；

分别对该一系列特征图中的一部分特征图进行预处理，以得到相应的参考特征图；

通过将该检测目标数据中检测目标的边框作为感兴趣区域，对该参考特征图进行裁剪和拼接处理，以得到拼接特征图；以及

通过掩码预测网络模型，对该拼接特征图进行掩码预测处理，以得到与该检测目标对应的掩码分割结果。

在本发明的一实施例中，所述通过单阶段的目标检测网络模型，对原始图像进行目标检测处理，以得到一系列特征图和检测目标数据的步骤，包括步骤：

对该原始图像进行特征提取处理，以得到该一系列特征图；

从该一系列特征图中选取不同尺寸的特征图，以作为待处理的特征图；以及

基于该待处理的特征图，对预设的候选区域进行边框回归和分类处理，以得到该检测目标数据中该检测目标的边框坐标和类别。

在本发明的一实施例中，所述分别对该一系列特征图中的一部分特征图进行预处理，以得到相应的参考特征图的步骤，包括步骤：

从该一系列特征图中选取不同尺寸的特征图，以作为初始特征图；

通过对该初始特征图进行卷积处理，分别得到卷积后的特征图；以及

根据该卷积后的特征图的尺寸大小，对该卷积后的特征图由小到大依次进行上采样和叠加操作，以分别得到该参考特征图。

在本发明的一实施例中，从该一系列特征图中具有同样尺寸的多个特征图中选取最后卷积处理后的特征图作为当前尺寸下的该初始特征图。

在本发明的一实施例中，所述通过将该检测目标数据中检测目标的边框作为感兴趣区域，对该参考特征图进行裁剪和拼接处理，以得到拼接特征图的步骤，包括步骤：

根据该感兴趣区域，分别对该参考特征图进行裁剪处理，以得到具有第一预定尺寸的子特征图；和

将该子特征图在通道维度上进行拼接，以得到该拼接特征图。

在本发明的一实施例中，所述通过掩码预测网络模型，对该拼接特征图进行掩码预测处理，以得到与该检测目标对应的掩码分割结果的步骤，包括步骤：

对该拼接特征图进行感兴趣区域对齐和改变尺寸处理，以得到具有第二预定尺寸的对齐特征图；和

通过对该对齐特征图进行卷积和反卷积处理，获得该原始图像上与该检测目标对应的掩码。

根据本发明的另一方面，本发明还提供了基于单阶段网络的实时实例分割系统，包括相互可通信地连接的：

一目标检测模块，用于通过单阶段的目标检测网络模型，对原始图像进行目标检测处理，以得到一系列特征图和检测目标数据；

一预处理模块，用于分别对该一系列特征图中的一部分特征图进行预处理，以得到相应的参考特征图；

一裁剪拼接模块，用于通过将该检测目标数据中检测目标的边框作为感兴趣区域，对该参考特征图进行裁剪和拼接处理，以得到拼接特征图；以及

一掩码预测模块，用于通过掩码预测网络模型，对该拼接特征图进行掩码预测处理，以得到与该检测目标对应的掩码分割结果。

在本发明的一实施例中，所述目标检测模块包括相互可通信地连接的一特征提取模块、一第一选取模块以及一回归分类模块，其中所述特征提取模块用于对该原始图像进行特征提取处理，以得到该一系列特征图；其中所述第一选取模块用于从该一系列特征图中选取不同尺寸的特征图，以作为待处理的特征图；其中所述回归分类模块用于基于该待处理的特征图，对预设的候选区域进行边框回归和分类处理，以得到该检测目标数据中该检测目标的边框坐标和类别。

在本发明的一实施例中，所述预处理模块包括相互可通信地连接的一第二选取模块、一卷积模块以及一采样叠加模块，其中所述第二选取模块用于从该一系列特征图中选取不同尺寸的特征图，以作为初始特征图；其中所述卷积模块用于通过对该初始特征图进行卷积处理，分别得到卷积后的特征图；其中所述采样叠加模块用于根据该卷积后的特征图的尺寸大小，对该卷积后的特征图由小到大依次进行上采样和叠加操作，以分别得到该参考特征图。

在本发明的一实施例中，所述掩码预测模块包括相互可通信地连接的一对齐模块和一掩码获得模块，其中所述对齐模块用于对该拼接特征图进行感兴趣区域对齐和改变尺寸处理，以得到具有第二预定尺寸的对齐特征图；其中所述掩码获得模块用于通过对该对齐特征图进行卷积和反卷积处理，获得该原始图像上与该检测目标对应的掩码。

根据本发明的另一方面，本发明还提供了电子设备，包括：

至少一处理器，用于执行指令；和

与所述至少一处理器可通信地连接的存储器，其中，所述存储器具有至少一指令，其中，所述指令被所述至少一处理器执行，以使得所述至少一处理器执行基于单阶段网络的实时实例分割方法中的部分或全部步骤，其中所述基于单阶段网络的实时实例分割方法包括步骤：

根据本发明的另一方面，本发明还提供了电子设备，包括：

一AR设备；和

一基于单阶段网络的实时实例分割系统，其中所述基于单阶段网络的实时实例分割系统被配置于所述AR设备，用于对经由所述AR设备采集的原始图像进行实时的实例分割，其中所述基于单阶段网络的实时实例分割系统包括依次可通信地连接的：

一目标检测模块，用于通过单阶段的目标检测网络模型，对该原始图像进行目标检测处理，以得到一系列特征图和检测目标数据；

通过对随后的描述和附图的理解，本发明进一步的目的和优势将得以充分体现。

本发明的这些和其它目的、特点和优势，通过下述的详细说明，附图和权利要求得以充分体现。

附图说明

图1是根据本发明的一实施例的基于单阶段网络的实时实例分割方法的框图示意图。

图2示出了根据本发明的一实施例的所述基于单阶段网络的实时实例分割方法的标记识别步骤的流程示意图。

图3示出了根据本发明的上述实施例的所述基于单阶段网络的实时实例分割方法的目标检测步骤的流程示意图。

图4A示出了根据本发明的单阶段的目标检测网络模型的框架示意图。

图4B示出了根据本发明的所述单阶段的目标检测网络模型中多层卷积运算的结构示意图。

图5示出了根据本发明的上述实施例的所述基于单阶段网络的实时实例分割方法的预处理步骤的流程示意图。

图6示出了根据本发明的上述实施例的所述预处理步骤的一个示例。

图7示出了根据本发明的上述实施例的所述基于单阶段网络的实时实例分割方法的裁剪拼接步骤的流程示意图。

图8示出了根据本发明的上述实施例的所述裁剪拼接步骤的一个示例。

图9示出了根据本发明的上述实施例的所述基于单阶段网络的实时实例分割方法的掩码预测步骤的流程示意图。

图10示出了根据本发明的上述实施例的所述基于单阶段网络的实时实例分割方法中掩码预测网络模型的框架示意图。

图11示出了根据本发明的一实施例的基于单阶段网络的实时实例分割系统的框图示意图。

图12示出了根据本发明的一实施例的一电子设备的框图示意图。

图13示出了根据本发明的一实施例的另一电子设备的立体示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

在本发明中，权利要求和说明书中术语“一”应理解为“一个或多个”，即在一个实施例，一个元件的数量可以为一个，而在另外的实施例中，该元件的数量可以为多个。除非在本发明的揭露中明确示意该元件的数量只有一个，否则术语“一”并不能理解为唯一或单一，术语“一”不能理解为对数量的限制。

在本发明的描述中，需要理解的是，属于“第一”、“第二”等仅用于描述目的，而不能理解为指示或者暗示相对重要性。本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接或者一体地连接；可以是机械连接，也可以是电连接；可以是直接连接，也可以是通过媒介间接连结。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

近年来，虽然随着卷积神经网络技术的快速发展，其应用也越来越广泛，但现有的掩码区域推荐卷积神经网络因候选区域数量较大且筛选过程计算复杂而导致区域推荐阶段的计算量极大，整个神经网络的计算时间相应地大幅增加，使得所述现有的掩码区域推荐卷积神经网络难以实现实时的实例分割。而现有的单阶段的目标预测网络虽然因属于单阶段卷积神经网络而能够根据特征图直接预测目标的类别和边框，以利用单阶段卷积神经网络的参数少、模型小以及计算速度快等优点来实现实时的目标检测，但却无法预测目标的掩码，因此该现有的阶段的目标预测网络无法针对单个检测目标分割出各像素的目标类别，进而无法实现实例分割。

因此，为了解决上述问题，本发明提出一种基于单阶段网络的实时实例分割方法及其系统和电子设备，其能够大幅地减少计算量，缩短计算时间，以便实现实时的实例分割，尤其能够满足当下增强现实、智能机器人以及无人驾驶等领域越来越高的实时性要求。具体地，如图1所示，本发明的所述基于单阶段网络的实时实例分割方法先通过单阶段的目标检测网络模型对原始图像进行特征提取以得到特征图，并在所述特征图上的每个目标位置生成4或6种候选区域；接着利用所述特征图对所述候选区域进行边框回归和分类，以得到检测目标的边框数据。最后，将所述检测目标的边框数据在所述特征图上进行裁剪并送入掩码预测网络模型(即掩码分支)，以通过反卷积得到每个边框内区域的像素在每个类别上的掩码，最终由分类结果筛选所述边框的一组掩码，以得到单个检测目标的类别、边框坐标以及掩码(即分割目标)，从而实现实时的实例分割。

示意性方法

参考说明书附图之图2至图10所示，根据本发明的一实施例的一种基于单阶段网络的实时实例分割方法被阐明。具体地，如图2所示，所述基于单阶段网络的实时实例分割方法包括步骤：

S100：通过单阶段的目标检测网络模型，对原始图像进行目标检测处理，以得到一系列特征图和检测目标数据；

S200：分别对所述一系列特征图中的一部分特征图进行预处理，以得到相应的参考特征图；

S300：通过将所述检测目标数据中检测目标的边框作为感兴趣区域，对所述参考特征图进行裁剪和拼接处理，以得到相应的拼接特征图；以及

S400：通过掩码预测网络模型，对所述拼接特征图进行掩码预测处理，以得到与所述检测目标对应的掩码分割结果。

值得注意的是，本发明的所述基于单阶段网络的实时实例分割方法所采用的所述单阶段的目标检测网络模型能够根据从原始图像提取的特征图直接预测目标的类别和边框(即所述检测目标的类别和边框坐标)，而无需像Mask RCNN那样进行区域推荐的计算，这样本发明的所述基于单阶段网络的实时实例分割方法就能够大幅地减小计算时间，以实现实时的目标检测。与此同时，本发明的所述基于单阶段网络的实时实例分割方法还通过构建的掩码预测网络模型对处理后的所述特征图和所述检测结果进行掩码预测，以解决所述单阶段的目标检测网络模型无法进行实例分割的问题，从而实现实时的实例分割。此外，本发明的所述基于单阶段网络的实时实例分割方法因采用了属于单阶段卷积神经网络的所述单阶段的目标检测网络模型，而保留了参数少、模型小以及计算速度快等优点，尤其能够满足当下增强现实、智能机器人以及无人驾驶等领域越来越高的实时性要求。

更具体地，在本发明的上述实施例中，如图3所示，所述基于单阶段网络的实时实例分割方法的所述步骤S100，可以包括步骤：

S110：对所述原始图像进行特征提取处理，以得到所述一系列特征图；

S120：从所述一系列特征图中选取不同尺寸的特征图，以作为待处理的特征图；以及

S130：基于所述待处理的特征图，对预设的候选区域进行边框回归和分类处理，以得到所述检测目标数据中所述检测目标的边框坐标和类别。

优选地，在所述步骤S100中，所述单阶段的目标检测网络模型的主干卷积神经网络被实施为Mobilenet卷积神经网络，使得本发明的所述基于单阶段网络的实时实例分割方法特别适于被部署至诸如AR眼镜或智能手机等移动端进行应用。可以理解的是，所述检测目标数据可以但不限于包括所述检测目标的边框坐标和类别。

示例性地，如图4A和图4B所示，所述单阶段的目标检测网络模型包括多层卷积运算以及回归和分类处理运算。这样，输入一张300*300*3的RGB图像(即原始图像)至所述单阶段的目标检测网络模型，先经过如图4B所示的多层卷积运算，再经过如图4A所示的卷积和最大池化操作，得到一系列特征图；之后，从所述一系列特征图中选取出如图4A所示的六种尺寸的特征图作为待处理的特征图；最后，对每个所述待处理的特征图使用特定大小的卷积核进行卷积运算而得到相应的检测结果，最终将所有六个所述待处理的特征图产生的检测结果聚合，以得到整张图像产生的检测目标数据，包括所述原始图像中检测目标的边框坐标和类别。

可以理解的是，图4A中的卷积：1s1表示核大小为1*1且步长为1的卷积操作；分类：卷积：1*1*(6*(类别+4))表示检测头网络，核大小为1*1且核数量为6*(类别+4)的分类卷积操作。图4B中的深度卷积3s1表示核大小为3*3且步长为1的深度可分离卷积；卷积3s2表示核大小为3*3且步长为2的常规卷积操作。

根据本发明的上述实施例，本发明的所述基于单阶段网络的实时实例分割方法采用所述掩码预测网络模型来获得所述原始图像中单个检测目标的类别、边框坐标以及掩码，而为了将所述掩码预测网络模型与所述单阶段的目标检测网络模型有机地融合，在将特征图输入所述掩码预测网络模型之前，所述基于单阶段网络的实时实例分割方法需要对所述特征图进行两步处理，依次得到所述参考特征图和所述拼接特征图。

具体地，如图5所示，本发明的所述基于单阶段网络的实时实例分割方法的所述步骤S200，可以包括步骤：

S210：从所述一系列特征图中选取不同尺寸的特征图，以作为初始特征图；

S220：通过对所述初始特征图进行卷积处理，分别得到卷积后的特征图；以及

S230：根据所述卷积后的特征图的尺寸大小，对所述卷积后的特征图由小到大依次进行上采样和叠加操作，以得到所述参考特征图。

更具体地，在所述步骤S210中，从所述一系列特征图中具有同样尺寸的多个特征图中优选地选取最后卷积处理后的特征图作为当前尺寸下的所述初始特征图，有助于提升后续掩码分割结果的精度。

示例性地，如图6所示，从图4B中的特征图中选取四种不同尺寸的特征图作为所述初始特征图(依次为75*75*128，38*38*256，19*19*512，10*10*1024的特征图)，分别对这些初始特征图通过核大小为1*1且核个数为256的卷积进行卷积操作，以在卷积后得到75*75*256，38*38*256，19*19*256，10*10*256的特征图(即所述卷积后的特征图)；之后，将所述10*10*256的卷积后的特征图作为10*10*256的参考特征图，并在对所述10*10*256的参考特征图进行上采样，以得到19*19*256的上采样后的特征图之后，将所述19*19*256的上采样后的特征图与所述19*19*256的卷积后的特征图进行叠加，以得到19*19*256的参考特征图；接着，先对所述19*19*256的参考特征图进行上采样，以得到38*38*256的上采样后的特征图，再将所述38*38*256的上采样后的特征图与所述38*38*256的卷积后的特征图进行叠加，以得到38*38*256的参考特征图；最后，以此类推，得到75*75*256的参考特征图。

值得一提的是，如图7所示，本发明的所述基于单阶段网络的实时实例分割方法的所述步骤S300，可以包括步骤：

S310：根据所述感兴趣区域，分别对所述参考特征图进行裁剪处理，以得到具有第一预定尺寸的子特征图；和

S320：将所述子特征图在通道维度上进行拼接，以得到所述拼接特征图。

优选地，本发明的所述第一预定尺寸被实施为7*7，以满足后续所述掩码预测网络模型的尺寸要求。

示例性地，如图8所示，将所述步骤S100中获得所述检测目标的边框作为感兴趣区域，分别对所述75*75*256，38*38*256，19*19*256，10*10*256的参考特征图进行裁剪，以得到四种7*7*256的子特征图；接着，将所述四种7*7*256的子特征图在通道维度上拼接在一起，以得到7*7*1024的拼接特征图。可以理解的是，所述7*7*256的子特征图的通道为256。

根据本发明的上述实施例，如图9所示，本发明的所述基于单阶段网络的实时实例分割方法的所述步骤S400，可以包括步骤：

S410：对所述拼接特征图进行感兴趣区域对齐和改变尺寸处理，以得到具有第二预定尺寸的对齐特征图；和

S420：通过对所述对齐特征图进行卷积和反卷积处理，获得所述原始图像上与所述检测目标对应的掩码。

优选地，所述第二预定尺寸等于所述第一预定尺寸的两倍，例如14*14。

示例性地，如图10所示，先通过所述掩码预测网络模型对所述7*7*1024的拼接特征图进行感兴趣区域对齐和改变尺寸处理，得到14*14*256的对齐特征图；再依次对所述14*14*256的对齐特征图进行四次卷积运算、一次反卷积运算以及又一次卷积运算，以得到与所述检测目标对应的掩码分割结果，从而使得本发明的所述基于单阶段网络的实时实例分割方法能够直接输出所述原始图像上所述检测目标的类别、边框坐标以及掩码，以完成实时的实例分割。

示意性系统

参考说明书附图之图11所示，根据本发明的一实施例的一基于单阶段网络的实时实例分割系统被阐明，其中所述基于单阶段网络的实时实例分割系统用于对原始图像进行实时的实例分割。具体地，如图11所示，所述基于单阶段网络的实时实例分割系统1包括相互可通信地连接的一目标检测模块10、一预处理模块20、一裁剪拼接模块30以及一掩码预测模块40。所述目标检测模块10用于通过单阶段的目标检测网络模型，对原始图像进行目标检测处理，以得到一系列特征图和检测目标数据。所述预处理模块20用于分别对该一系列特征图中的一部分特征图进行预处理，以得到相应的参考特征图。所述裁剪拼接模块30用于通过将该检测目标数据中检测目标的边框作为感兴趣区域，对该参考特征图进行裁剪和拼接处理，以得到拼接特征图。所述掩码预测模块40用于通过掩码预测网络模型，对该拼接特征图进行掩码预测处理，以得到与该检测目标对应的掩码分割结果。

值得注意的是，在本发明的一示例中，如图11所示，所述基于单阶段网络的实时实例分割系统1的所述目标检测模块10包括相互可通信地连接的一特征提取模块11、一第一选取模块12以及一回归分类模块13，其中所述特征提取模块11用于对该原始图像进行特征提取处理，以得到该一系列特征图；其中所述第一选取模块12用于从该一系列特征图中选取不同尺寸的特征图，以作为待处理的特征图；其中所述回归分类模块13用于基于该待处理的特征图，对预设的候选区域进行边框回归和分类处理，以得到该检测目标数据中该检测目标的边框坐标和类别。

此外，在本发明的一示例中，如图11所示，所述预处理模块20包括相互可通信地连接的一第二选取模块21、一卷积模块22以及一采样叠加模块23，其中所述第二选取模块21用于从该一系列特征图中选取不同尺寸的特征图，以作为初始特征图；其中所述卷积模块22用于通过对该初始特征图进行卷积处理，分别得到卷积后的特征图；其中所述采样叠加模块23用于根据该卷积后的特征图的尺寸大小，对该卷积后的特征图由小到大依次进行上采样和叠加操作，以分别得到该参考特征图。

值得一提的是，根据本发明的上述实施例，如图11所示，本发明的所述的基于单阶段网络的实时实例分割系统1的所述掩码预测模块40包括相互可通信地连接的一对齐模块41和一掩码获得模块42，其中所述对齐模块41用于对该拼接特征图进行感兴趣区域对齐和改变尺寸处理，以得到具有第二预定尺寸的对齐特征图；其中所述掩码获得模块42用于通过对该对齐特征图进行卷积和反卷积处理，获得该原始图像上与该检测目标对应的掩码。

示意性电子设备

下面，参考图12来描述根据本发明的一实施例的电子设备。如图12所示，电子设备90包括一个或多个处理器91和存储器92。

所述处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。换言之，所述处理器91包括被配置成执行指令的一个或多个物理设备。例如，所述处理器91可被配置成执行作为以下各项的一部分的指令：一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其他逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。

所述处理器91可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换，所述处理器91可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。所述处理器91的处理器可以是单核或多核，且在其上执行的指令可被配置为串行、并行和/或分布式处理。所述处理器91的各个组件可任选地分布在两个或更多单独设备上，这些设备可以位于远程和/或被配置成进行协同处理。所述处理器91的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

所述存储器92可以包括一个或多个计算程序产品，所述计算程序产品可以包括各种形式的计算可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算可读存储介质上可以存储一个或多个计算程序指令，所述处理器11可以运行所述程序指令，以实现上文所述的本发明的上述示意性方法中的部分或全部步骤，以及/或者其他期望的功能。

换言之，所述存储器92包括被配置成保存可由所述处理器91执行以实现此处所述的方法和过程的机器可读指令的一个或多个物理设备。在实现这些方法和过程时，可以变换所述存储器92的状态(例如，保存不同的数据)。所述存储器92可以包括可移动和/或内置设备。所述存储器92可包括光学存储器(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如，RAM、EPROM、EEPROM等)和/或磁存储器(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。所述存储器92可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解，所述存储器92包括一个或多个物理设备。然而，本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如，电磁信号、光信号等)来传播。所述处理器91和所述存储器92的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

在一个示例中，如图12所示，所述电子设备90还可以包括输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。例如，该输入装置93可以是例如用于采集图像数据或视频数据的摄像模组等等。又如，所述输入装置93可以包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与其对接。在一些实施例中，所述输入装置93可以包括所选择的自然用户输入(NUI)部件或与其对接。这种元件部分可以是集成的或外围的，并且输入动作的转导和/或处理可以在板上或板外被处理。示例NUI部件可包括用于语言和/或语音识别的话筒；用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机；用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪；以及用于评估脑部活动和/或身体运动的电场感测部件；和/或任何其他合适的传感器。

该输出装置94可以向外部输出各种信息，包括分类结果等。该输出装置94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，所述电子设备90还可以进一步包括所述通信装置，其中所述通信装置可被配置成将所述电子设备90与一个或多个其他计算机设备通信地耦合。所述通信装置可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例，通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中，所述通信装置可允许所述电子设备90经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其它设备接收消息。

将会理解，此处描述的配置和/或方法本质是示例性的，这些具体实施例或示例不应被视为限制性的，因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此，所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行，或者被省略。同样，上述过程的次序可以改变。

当然，为了简化，图12中仅示出了该电子设备90中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

根据本发明的另一方面，本发明进一步提供了诸如AR设备、智能机器人、智能手机等等之类的电子设备，其中所述电子设备配置有上述基于单阶段网络的实时实例分割系统，用于对经由所述电子设备采集的原始图像进行实时的实例分割。示例性地，如图13所示，所述电子设备包括一AR设备600和所述基于单阶段网络的实时实例分割系统1，其中所述基于单阶段网络的实时实例分割系统1被配置于所述AR设备600，用于对经由所述AR设备600采集的原始图像进行实时的实例分割。可以理解的是，所述AR设备600可以但不限于被实施为具有摄像功能的AR眼镜(如图13所示)。

示意性计算程序产品

除了上述方法和设备以外，本发明的实施例还可以是计算程序产品，其包括计算程序指令，所述计算程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算可读存储介质，其上存储有计算程序指令，所述计算程序指令在被处理器运行时使得所述处理器执行本说明书上述方法中的步骤。

所述计算可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本发明的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.基于单阶段网络的实时实例分割方法，其特征在于，包括步骤：

2.如权利要求1所述的基于单阶段网络的实时实例分割方法，其中，所述通过单阶段的目标检测网络模型，对原始图像进行目标检测处理，以得到一系列特征图和检测目标数据的步骤，包括步骤：

对该原始图像进行特征提取处理，以得到该一系列特征图；

3.如权利要求2所述的基于单阶段网络的实时实例分割方法，其中，所述分别对该一系列特征图中的一部分特征图进行预处理，以得到相应的参考特征图的步骤，包括步骤：

4.如权利要求3所述的基于单阶段网络的实时实例分割方法，其中，从该一系列特征图中具有同样尺寸的多个特征图中选取最后卷积处理后的特征图作为当前尺寸下的该初始特征图。

5.如权利要求3所述的基于单阶段网络的实时实例分割方法，其中，所述通过将该检测目标数据中检测目标的边框作为感兴趣区域，对该参考特征图进行裁剪和拼接处理，以得到拼接特征图的步骤，包括步骤：

6.如权利要求1至5中任一所述的基于单阶段网络的实时实例分割方法，其中，所述通过掩码预测网络模型，对该拼接特征图进行掩码预测处理，以得到与该检测目标对应的掩码分割结果的步骤，包括步骤：

7.基于单阶段网络的实时实例分割系统，其特征在于，包括相互可通信地连接的：

8.如权利要求7所述的基于单阶段网络的实时实例分割系统，其中，所述目标检测模块包括相互可通信地连接的一特征提取模块、一第一选取模块以及一回归分类模块，其中所述特征提取模块用于对该原始图像进行特征提取处理，以得到该一系列特征图；其中所述第一选取模块用于从该一系列特征图中选取不同尺寸的特征图，以作为待处理的特征图；其中所述回归分类模块用于基于该待处理的特征图，对预设的候选区域进行边框回归和分类处理，以得到该检测目标数据中该检测目标的边框坐标和类别。

9.如权利要求8所述的基于单阶段网络的实时实例分割系统，其中，所述预处理模块包括相互可通信地连接的一第二选取模块、一卷积模块以及一采样叠加模块，其中所述第二选取模块用于从该一系列特征图中选取不同尺寸的特征图，以作为初始特征图；其中所述卷积模块用于通过对该初始特征图进行卷积处理，分别得到卷积后的特征图；其中所述采样叠加模块用于根据该卷积后的特征图的尺寸大小，对该卷积后的特征图由小到大依次进行上采样和叠加操作，以分别得到该参考特征图。

10.如权利要求7至9中任一所述的基于单阶段网络的实时实例分割系统，其中，所述掩码预测模块包括相互可通信地连接的一对齐模块和一掩码获得模块，其中所述对齐模块用于对该拼接特征图进行感兴趣区域对齐和改变尺寸处理，以得到具有第二预定尺寸的对齐特征图；其中所述掩码获得模块用于通过对该对齐特征图进行卷积和反卷积处理，获得该原始图像上与该检测目标对应的掩码。

11.电子设备，其特征在于，包括：

至少一处理器，用于执行指令；和

12.电子设备，其特征在于，包括：

一AR设备；和