CN110136136A

CN110136136A - 场景分割方法、装置、计算机设备及存储介质

Info

Publication number: CN110136136A
Application number: CN201910446505.3A
Authority: CN
Inventors: 张渊
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-08-16
Anticipated expiration: 2039-05-27
Also published as: US20200272825A1; CN110136136B; US11244170B2

Abstract

本公开是关于一种场景分割方法、装置、计算机设备及存储介质，涉及机器学习技术领域，本公开将待识别的图像输入深度神经网络，通过下采样模块对图像进行深度可分离卷积，得到尺寸小于所述图像的第一特征图，通过空洞空间金字塔池化模块对第一特征图进行空洞卷积，得到不同尺度的第二特征图，通过上采样模块对不同尺度的第二特征图进行深度可分离卷积，得到与图像尺寸相同的第三特征图，通过分类模块对第三特征图中的每个像素进行分类，得到图像的场景分割结果。本公开可以减少通过深度神经网络进行场景分割的计算量，并且可以保证通过深度神经网络进行场景分割的准确性。

Description

场景分割方法、装置、计算机设备及存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及场景分割方法、装置、计算机设备及存储介质。

背景技术

场景分割是指针对给定的图像，预测出图像中的每个像素属于哪一种场景的技术，场景分割已经成为当前重要且具有挑战的研究方向，其可以应用于增强现实、虚拟现实以及混合现实等各个领域，应用前景十分广阔。

相关技术中，场景分割的过程可以包括：获取大量的样本图像，每个样本图像的每个像素标注了像素所属的场景；构建初始深度神经网络，采用样本图像对初始深度神经网络进行模型训练，得到深度神经网络；当需要对某一图像进行场景分割时，调用深度神经网络，将该图像输入深度神经网络，通过深度神经网络对图像进行运算，得到该图像的场景分割结果。

深度神经网络的运算量通常较为巨大，运算速度很慢，导致深度神经网络通常无法部署在移动终端上，进而导致移动终端上无法应用上述方法来进行场景分割。

发明内容

本公开提供一种场景分割方法、装置、计算机设备及存储介质，以至少解决相关技术中由于深度神经网络运算量巨大，导致移动终端无法通过深度神经网络进行场景分割的技术问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种场景分割方法，包括：

获取待识别的图像；

将所述图像输入深度神经网络，所述深度神经网络包括下采样模块、空洞空间金字塔池化模块、上采样模块以及分类模块，所述下采样模块以及所述上采样模块均采用了深度可分离卷积结构；

通过所述下采样模块对所述图像进行深度可分离卷积，得到尺寸小于所述图像的第一特征图，通过所述空洞空间金字塔池化模块对所述第一特征图进行空洞卷积，得到不同尺度的第二特征图，通过所述上采样模块对所述不同尺度的第二特征图进行深度可分离卷积，得到与所述图像尺寸相同的第三特征图，通过所述分类模块对所述第三特征图中的每个像素进行分类，得到所述图像的场景分割结果。

在一种可能的实现中，所述下采样模块包括步长大于1的卷积层。

在一种可能的实现中，所述上采样模块与所述下采样模块跨层连接。

在一种可能的实现中，所述上采样模块包括至少一个第一上采样模块以及至少一个第二上采样模块，所述第一上采样模块的输入为所述第二上采样模块输出的特征图与所述第一特征图的拼接结果，所述第二上采样模块为所述第一上采样模块的上一个上采样模块。

在一种可能的实现中，所述获取待识别的图像之前，所述方法还包括：

获取多个样本图像，每个样本图像的每个像素标注了场景标签，所述场景标签表示所述像素所属的场景；

调用初始深度神经网络，所述初始深度神经网络包括下采样模块、空洞空间金字塔池化模块、上采样模块以及分类模块，所述下采样模块以及所述上采样模块均采用了深度可分离卷积结构；

基于所述多个样本图像，对所述初始深度神经网络进行模型训练，得到所述深度神经网络。

在一种可能的实现中，所述获取多个样本图像之前，所述方法还包括：

对所述多个样本图像进行数据增强。

在一种可能的实现中，所述获取多个样本图像，包括：

获取多个数据集，每个所述数据集包括多个候选样本图像；

根据每个所述数据集中候选样本图像的数量，为每个所述数据集分配对应的采样权重，所述数据集对应的采样权重与所述数据集中候选样本图像的数量负相关；

根据每个所述数据集的采样权重，对每个所述数据集进行采样，得到所述多个样本图像。

根据本公开实施例的第二方面，提供一种场景分割装置，包括：

获取单元，被配置为获取待识别的图像；

输入单元，被配置为将所述图像输入深度神经网络，所述深度神经网络包括下采样模块、空洞空间金字塔池化模块、上采样模块以及分类模块，所述下采样模块以及所述上采样模块均采用了深度可分离卷积结构；

模型运算单元，被配置为通过所述下采样模块对所述图像进行深度可分离卷积，得到尺寸小于所述图像的第一特征图，通过所述空洞空间金字塔池化模块对所述第一特征图进行空洞卷积，得到不同尺度的第二特征图，通过所述上采样模块对所述不同尺度的第二特征图进行深度可分离卷积，得到与所述图像尺寸相同的第三特征图，通过所述分类模块对所述第三特征图中的每个像素进行分类，得到所述图像的场景分割结果。

在一种可能的实现中，所述获取单元，还被配置为获取多个样本图像，每个样本图像的每个像素标注了场景标签，所述场景标签表示所述像素所属的场景；

所述输入单元，被配置为将所述图像输入初始深度神经网络，所述初始深度神经网络包括下采样模块、空洞空间金字塔池化模块、上采样模块以及分类模块，所述下采样模块以及所述上采样模块均采用了深度可分离卷积结构；

所述装置还包括：模型训练单元，被配置为基于所述多个样本图像，对所述初始深度神经网络进行模型训练，得到所述深度神经网络。

在一种可能的实现中，所述装置还包括：

数据增强单元，被配置为对所述多个样本图像进行数据增强。

在一种可能的实现中，所述获取单元，具体被配置为获取多个数据集，每个所述数据集包括多个候选样本图像；根据每个所述数据集中候选样本图像的数量，为每个所述数据集分配对应的采样权重，所述数据集对应的采样权重与所述数据集中候选样本图像的数量负相关；根据每个所述数据集的采样权重，对每个所述数据集进行采样，得到所述多个样本图像。

根据本公开实施例的第三方面，提供一种计算机设备，包括：

一个或多个处理器；

用于存储所述处理器可执行指令的一个或多个存储器；

其中，所述处理器被配置为执行所述指令，以实现上述场景分割方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由计算机设备的处理器执行时，使得所述计算机设备能够执行上述场景分割方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令由计算机设备的处理器执行时，使得所述计算机设备能够执行上述场景分割方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开提供了一种基于深度神经网络的场景分割方法，通过将待识别的图像输入深度神经网络，通过下采样模块对图像进行深度可分离卷积，得到尺寸小于该图像的第一特征图，通过空洞空间金字塔池化模块对第一特征图进行空洞卷积，得到不同尺度的第二特征图，通过上采样模块对不同尺度的第二特征图进行深度可分离卷积，得到与图像尺寸相同的第三特征图，通过先进行下采样再进行上采样，可以将特征图恢复至输入的待识别的图像的尺寸，再通过分类模块对第三特征图中的每个像素进行分类，即可得到图像的场景分割结果。在场景分割过程中，由于下采样模块以及上采样模块均采用了深度可分离卷积结构，而深度可分离卷积结构的参数数量较少，复杂度较低，因此可以让深度神经网络得到极大地压缩，从而极大地减少了运行深度神经网络的计算量，进而可以减少通过深度神经网络进行场景分割的计算量，因此这种场景分割方法可以适用于移动终端，保证移动终端也可以通过运行该深度神经网络，来进行场景分割。并且，深度神经网络中通过采用了空洞空间金字塔池化模块，该空洞空间金字塔池化模块可以捕获各种尺度的感受野，使得模型既可以学习到细节信息，也可以学习到全局信息，从而避免损失细节信息，从而保证通过深度神经网络进行场景分割的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用场景的示意图。

图2是根据一示例性实施例示出的一种场景分割过程的流程图。

图3是根据一示例性实施例示出的一种空洞空间金字塔池化模块的结构示意图。

图4是根据一示例性实施例示出的一种场景分割方法的流程图。

图5是根据一示例性实施例示出的场景分割方法的效果示意图。

图6是根据一示例性实施例示出的场景分割方法的效果示意图。

图7是根据一示例性实施例示出的一种深度神经网络的训练方法的流程图。

图8是根据一示例性实施例示出的一种场景分割装置的框图。

图9是根据一示例性实施例示出的一种终端的结构框图。

图10是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

下面，对本公开涉及的一些术语进行阐述：

深度可分离卷积(depthwise separable convolution)：一种能够减少运算量的卷积方式，深度可分离卷积可以视为简化了的卷积。深度可分离卷积将标准的卷积运算拆分为深度卷积(depthwise convolution)以及点卷积(pointwise convolution，即1*1的卷积)。深度可分离卷积能够在按照深度方向进行卷积的同时，保持不同通道之间互相分离。在进行深度可分离卷积时，首先在每个通道上独立地进行深度卷积，从而增加了网络的宽度，使得提取的特征更加丰富，然后对深度卷积的结果进行点卷积，从而将深度卷积的多个通道映射到新的通道。在参数的数量方面，对于一个3×3大小的卷积核来说，如果输入通道为16、输出通道为32，标准卷积的操作是用32个3×3的卷积核来分别对输入的1个通道的数据进行卷积运算，这样整个过程使用了(3×3×16)×32＝4068个参数。而进行深度可分离卷积时，是用16个3×3大小的卷积核分别与输入的16个通道的数据进行卷积运算，这样整个过程使用了3×3×16+(1×1×16)×32＝656个参数，如此相比于标准的卷积来说，深度可分离卷积的参数数量和计算复杂度要减少8到9倍；而当通道的数量更多时，减少的参数的数量会更多，由此可见，深度可分离卷积在实现卷积功能的基础上，可以极大地减少参数的数量。

空洞卷积(dilated conv)：也称扩张卷积，所谓空洞是指在输入图像上进行采样，而采样的频率，即空洞的大小，是根据扩张率确定的。当扩张率为1时，空洞卷积是标准的卷积操作，卷积时不会丢失输入图像的信息。而当扩张率大于1时，空洞卷积是在输入图像上每隔一个或多个像素进行采样、以采样得到的多个像素作为感受野进行卷积，那么卷积得到的输出图像的尺寸会小于输入图像。例如，当扩张率等于N时，是在输入图像上每隔(N-1)个像素进行采样，以采样得到的多个像素作为感受野进行卷积，其中N为正整数。从卷积核的角度来看，空洞卷积可以理解为在卷积核中，相邻点之间插入(扩张率-1)个0，从而扩大了卷积核的尺寸，使用扩大的卷积核和输入图像做卷积，从而增大了感受野。

空洞空间金字塔池化(英文全称：atrous spatial pyramid pooling，英文简称：ASPP)：一种用于提供多尺度特征图的手段，为了实现获取多尺度特征图的功能，ASPP添加了一系列具有不同扩张率的空洞卷积，不同扩张率用于捕获不同尺度的感受野，每种扩张率的空洞卷积可以获取到一种尺度的特征图。

图1是根据一示例性实施例示出的一种应用场景的示意图。如图1所示，深度神经网络可以部署在终端100中，用户可以在终端100上输入待识别的图像，终端100可以将图像输入该深度神经网络，通过运行该深度神经网络，得到场景分割结果，将场景分割结果呈现给用户。

终端100可以是移动终端，例如智能手机、游戏主机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。当然终端100也可以是非移动终端，例如台式计算机等。终端100可以安装和运行有支持场景分割的应用程序。该应用程序可以是图像处理应用程序、社交应用程序、即时通讯应用程序、购物类应用程序、浏览器程序、视频程序中的任意一种。示意性的，该应用程序可以与场景分割平台关联，该用户在场景分割平台进行了注册并登陆后，可以使用场景分割平台提供的场景分割服务，场景分割平台可以向终端100下发深度神经网络，终端100可以从场景分割平台接收深度神经网络，以便通过深度神经网络进行场景分割。

图2是根据一示例性实施例示出的一种场景分割过程的流程图。参见图2，整个场景分割过程通过深度神经网络实现，该深度神经网络包含：下采样模块、空洞空间金字塔池化模块、上采样模块以及分类模块。其中，下采样模块与空洞空间金字塔池化模块连接，空洞空间金字塔池化模块与上采样模块连接，上采样模块与分类模块连接。

下采样模块的数量可以为一个或多个。如果下采样模块的数量为多个，每个下采样模块可以用于执行一次下采样，通过多个下采样模块可以执行多次下采样。其中，多个下采样模块可以串联，上一个下采样模块的输出为下一个下采样模块的输入。示意性地，参见图2，下采样模块的数量可以为4个，通过4个下采样模块可以进行4次下采样。其中，下采样模块1的输出为下采样模块2的输入，下采样模块2的输出为下采样模块3的输入，下采样模块3的输出为下采样模块4的输入。

每个下采样模块可以为1个步长大于1的卷积层，下采样模块通过采用大于1的步长进行卷积，可以实现下采样的功能。例如，如果下采样模块为步长为2的卷积层，下采样模块以2为步长进行卷积后，输出的特征图的尺寸为输入的特征图的尺寸的二分之一。

下采样模块可以采用深度可分离卷积结构。例如，每个下采样模块可以是采用了深度可分离卷积结构的卷积层。对于任一下采样模块来说，该下采样模块可以先采用深度卷积的方式进行卷积运算，再通过1×1卷积的方式对深度卷积的结果进行融合。下采样模块通过采用深度可分离卷积结构，实现了对下采样模块进行压缩的功能，可以极大地减少下采样模块的参数数量和计算复杂度，从而减少了运行下采样模块时的运算量，使得下采样模块更加轻量化。

上采样模块的数量可以为一个或多个。如果上采样模块的数量为多个，每个上采样模块可以用于执行一次上采样，通过多个下采样模块可以执行多次下采样。其中，多个上采样模块可以串联，上一个上采样模块的输出为下一个上采样模块的输入。示意性地，参见图2，上采样模块的数量可以为3个，通过3个上采样模块可以进行3次上采样。其中，上采样模块3的输出为上采样模块2的输入，上采样模块2的输出为上采样模块1的输入。

每个上采样模块可以包括卷积层以及上采样层，卷积层可以和上采样层连接。上采样模块中的卷积层可以采用了深度可分离卷积结构，该卷积层的步长可以等于1。上采样模块可以先通过卷积层，以1为步长进行卷积，再通过上采样层，对卷积得出的特征图进行上采样，来实现上采样的功能。

其中，上采样模块中的卷积层还可以和上采样模块的上一个模块连接，上采样模块中的上采样层还可以和上采样模块的下一个模块连接，比如说，第一个上采样模块中的卷积层还可以和空洞空间金字塔池化模块连接，第一个上采样模块中的上采样层还可以和第二个上采样模块连接；最后一个上采样模块中的卷积层还可以和倒数第二个上采样模块连接，最后一个上采样模块中的上采样层可以和分类模块连接。

上采样模块可以采用深度可分离卷积结构，具体来说，上采样模块中的每个上采样模块可以是采用了深度可分离卷积结构的卷积层。对于任一上采样模块来说，该上采样模块可以先采用深度卷积的方式进行卷积运算，再通过1×1的卷积的方式对深度卷积的结果进行融合。上采样模块通过采用深度可分离卷积结构，实现了对上采样模块进行压缩的功能，可以极大地减少上采样模块的参数数量和计算复杂度，从而减少了运行上采样模块时的运算量，使得上采样模块更加轻量化。

通过下采样模块和上采样模块均采用深度可分离卷积结构，使得深度神经网络得到极大地压缩，保证深度神经网络的数据量更小，深度神经网络的运行速度更快。那么对于计算处理能力通常有限的移动终端来说，通过设计了这种计算量小的深度神经网络，使得深度神经网络能够满足移动终端的计算能力，从而让移动终端也可以自如地运行该深度神经网络，从而可以通过深度神经网络进行场景分割，而不必依赖于与服务器的交互，从而加快了场景分割的速度，提高了场景分割的效率。

在一个示例性场景中，可以将本公开提供的深度神经网络部署在智能手机上，智能手机可以通过运行深度神经网络，来对用户输入的图像实时地进行场景分割。

在一些可能的实施例中，深度神经网络中的上采样模块可以与下采样模块跨层连接。例如在图2中，上采样模块1与下采样模块1连接，上采样模块2与下采样模块2连接，上采样模块3与下采样模块3连接。其中，上采样模块i可以和下采样模块j连接，i和j相等，i和j为整数，按照从输入层到输出层的顺序来说，各个上采样模块的索引号按照从小到大的顺序排序，各个下采样模块的索引号按照从大到小的顺序排序。

通过采用跨层连接的方式，对于任一个上采样模块来说，该上采样模块既可以通过上一个上采样模块输出的特征图，学习到高层语义，又可以通过与其跨层连接的下采样模块输出的第一特征图，学习到低层语义，如此，可以将高层语义和低层语义联合起来，让上采样模块中的卷积层可以同时学习到高层语义和低层语义的特征，从而满足了场景分割的过程对高层语义和低层语义这两方面信息的需求，因此可以提高深度神经网络进行场景分割的准确性。另外，通过将深度神经网络前端的下采样模块与深度神经网络后端的上采样模块连通起来，深度神经网络后端的上采样模块复用深度神经网络前端的特征，通过特征的复用，可以保证使用少量的卷积核就可以生成大量的特征，从而减少了模型的尺寸。

在一些可能的实施例中，参见图3，空洞空间金字塔池化模块可以包括多个空洞卷积分支，每个空洞卷积分支用于获取一个尺度的特征图。例如，每个空洞卷积分支可以对应一个扩张率，每个空洞卷积分支基于对应扩张率进行空洞卷积时，可以捕获一种尺度的感受野，在对应尺度的感受野上进行卷积后，可以得到一个尺度的特征图。其中，不同空洞卷积分支的扩张率可以不同，因此通过不同空洞卷积分支进行空洞卷积时，可以捕获到不同尺度的感受野。另外，多个空洞卷积分支可以并联，多个空洞卷积分支的空洞卷积过程可以相互独立，从而实现多个空洞卷积分支并行进行计算。

例如，如果空洞卷积分支的扩张率为N，则该空洞卷积分支可以每隔(N-1)个像素，在输入的特征图进行采样，将采样得到的像素点作为感受野，从而在感受野上进行卷积运算。如图3所示，空洞空间金字塔池化模块可以包括4个空洞卷积分支，空洞卷积分支1用于基于扩张率1进行1*1的空洞卷积，空洞卷积分支2用于基于扩张率2进行3*3的空洞卷积，空洞卷积分支3用于基于扩张率3进行3*3的空洞卷积，空洞卷积分支4用于基于扩张率4进行3*3的空洞卷积。示例性地，扩张率1可以为1，扩张率2可以为2，扩张率3可以为4，扩张率4可以为8，则空洞卷积分支1、空洞卷积分支2、空洞卷积分支3以及空洞卷积分支捕获的感受野的尺度会依次变大。

上述空洞空间金字塔池化模块可以实现获取多个尺度的特征图的功能，并且，空洞空间金字塔池化模块中通过不同扩张率的空洞卷积分支进行空洞卷积，可以捕获不同尺度的感受野，从而保证深度神经网络既可以通过小范围的感受野，学习到输入特征图的细节信息，也可以通过大范围的感受野，学习到输入特征图的全局信息，从而避免损失输入特征图的细节信息，比如说一些物体的空间位置信息，从而保证场景分割的准确性，同时可以避免损失特征空间的分辨率。

另外，本公开提供的深度神经网络的输入图像的尺寸较小，深度神经网络的层数较少，卷积核的数目较少，每一层的维度较低，从而可以减小模型的大小，降低复杂度，提高模型的运行速度，让模型更适合在移动终端上进行部署。另外，相对于依赖选取的初始种子点进行场景分割的基于图论的分割方法来说，基于图论的分割方法需要需预先设定初始种子点，而本公开的深度神经网络在进行场景分割时，可以无需预先设定初始种子点，从而实现了自适应分割。

基于上述各个模块，向该深度神经网络输入一幅图像，首先通过下采样模块来对图像进行深度可分离卷积，得到特征图，该深度可分离卷积的过程中由于卷积的步长大于1，卷积输出的特征图的大小会小于输入的图像的大小。然后将下采样模块输出的特征图输入到空洞空间金字塔池化模块，通过空洞空间金字塔池化模块进行不同扩张率的空洞卷积，以获取不同尺度的感受野的特征图，此后，将空洞空间金字塔池化模块的输出输入到上采样模块，以将特征图恢复到输入的图像的尺寸，最后通过分类模块对特征图进行逐像素分类，得到场景分割结果。

下面，基于上述图2所示的模型架构和简要流程，提供了如图4所示的一种场景分割方法的流程图，本公开实施例仅以执行主体为一计算机设备为例进行说明，该计算机设备在实施环境中可以实施为图1所示的终端100，例如该计算机设备可以是移动终端，当然计算机设备也可以是终端100以外的设备，比如可以是一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。参见图4，该方法包括以下步骤：

在步骤S41中，计算机设备获取待识别的图像。

待识别的图像也可以称为原始图像，待识别的图像可以为场景图像，例如为室内场景图像，比如说，待识别的图像可以包括墙面图像、地面图像、天花板图像中的至少一项。计算机设备可以预先存储待识别的图像，也可以接收用户输入的待识别的图像。比如说，用户可以通过在计算机设备上触发输入操作，来输入该待识别的图像。

在步骤S42中，计算机设备将该图像输入深度神经网络。

在步骤S43中，计算机设备通过深度神经网络中的下采样模块对该图像进行深度可分离卷积，得到尺寸小于该图像的第一特征图。

第一特征图是指通过下采样模块对待识别的图像进行深度可分离卷积后得到的特征图，第一特征图可以表示待识别的图像的语义，可以称为语义特征图。下采样模块可以为步长大于1的卷积层，该卷积层采用了深度可分离卷积结构，下采样模块通过基于大于1的步长进行深度可分离卷积，输出的第一特征图的尺寸会小于输入的待识别的图像的尺寸，从而实现下采样的功能。其中，第一特征图的宽度可以小于待识别的图像的宽度，第一特征图的高度可以小于待识别的图像的高度。示例性地，如果下采样模块的步长为2，则第一特征图的尺寸为待识别的图像的尺寸的一半，如果下采样模块的步长为4，则第一特征图的尺寸为待识别的图像的尺寸的四分之一。

在一些可能的实施例中，下采样模块的数量可以为多个，计算机设备可以采用多个下采样模块，对待识别的图像进行多次下采样。例如，可以对待识别的图像进行4次下采样。其中，可以将上一个下采样模块输出的特征图输入下一个下采样模块，通过下一个下采样模块对上一个下采样模块输出的第一特征图进行深度可分离卷积，从而对上一个上采样模块输出的第一特征图进行上采样。具体地，第一个下采样模块可以对输入的图像进行深度卷积，再通过1×1的卷积的方式对深度卷积的结果进行融合，输出第一特征图，第二个下采样模块至最后一个下采样模块中的每个下采样模块可以对前一个下采样模块输出的第一特征图，进行深度卷积，再通过1×1的卷积的方式对深度卷积的结果进行融合。例如参见图2，如果下采样模块的步长为2，可以首先通过下采样模块1对待识别的图像进行深度可分离卷积，得到特征图1，特征图1的尺寸为待识别的图像的尺寸的一半；然后，将特征图1输入下采样模块2，通过下采样模块2对特征图1进行深度可分离卷积，得到特征图2，特征图2的尺寸为特征图1的尺寸的一半；然后，将特征图2输入下采样模块3，通过下采样模块3对特征图2进行深度可分离卷积，得到特征图3，特征图3的尺寸为特征图2的尺寸的一半；然后，将特征图3输入下采样模块4，通过下采样模块4对特征图3进行深度可分离卷积，得到特征图4，该特征图4即为第一特征图，特征图4的尺寸为特征图3的尺寸的一半。

在步骤S44中，计算机设备通过深度神经网络中的空洞空间金字塔池化模块，对第一特征图进行空洞卷积，得到不同尺度的第二特征图。

第二特征图是指通过空洞空间金字塔池化模块对第一特征图进行空洞卷积后得到的特征图，第二特征图的数量可以为多个，不同第二特征图的尺度可以不同。

在一些可能的实施例中，空洞空间金字塔池化模块可以包括多个空洞卷积分支，每个空洞卷积分支用于得到一个尺度的第二特征图，对于多个空洞卷积分支中的每个空洞卷积分支，计算机设备可以通过该空洞卷积分支对第一特征图进行空洞卷积，得到该空洞卷积分支对应的尺度的第二特征图，则多个空洞卷积分支会输出不同尺度的第二特征图。

示例性地，空洞空间金字塔池化模块可以包括4个空洞卷积分支，空洞卷积分支1的扩张率为1，空洞卷积分支2的扩张率为2，空洞卷积分支3的扩张率为4，空洞卷积分支4的扩张率为8，可以通过空洞卷积分支1对第一特征图进行标准的卷积，得到一个尺度的第二特征图；通过空洞卷积分支2，以2为扩张率对第一特征图进行空洞卷积，得到另一个尺度的第二特征图；通过空洞卷积分支3，以4为扩张率对第一特征图进行空洞卷积，得到另一个尺度的第二特征图；通过空洞卷积分支3，以8为扩张率对第一特征图进行空洞卷积，得到另一个尺度的第二特征图。

其中，当多个空洞卷积分支输出不同尺度的第二特征图后，可以对每个尺度的第二特征图分别进行上采样，从而将不同尺度的第二特征图转换为同一尺度的多个第二特征图，再对多个第二特征图进行连接(concat)，再将连接后的第二特征图输入上采样模块，以便执行下述步骤S45。

在步骤S45中，计算机设备通过深度神经网络中的上采样模块对不同尺度的第二特征图进行深度可分离卷积，得到与待识别的图像尺寸相同的第三特征图。

第三特征图是指通过上采样模块对第二特征图进行深度可分离卷积后得到的特征图，第三特征图的尺寸大于第二特征图的尺寸，例如第三特征图的宽度可以大于第二特征图的宽度，第三特征图的高度可以大于第二特征图的高度。第三特征图的尺寸可以和待识别的图像的尺寸相同，例如，第三特征图的宽度可以和待识别的图像的宽度相同，第三特征图的高度可以和待识别的图像的高度相同。

待识别的图像通过被下采样模块进行处理，能够得以缩小，通过被上采样模块进行处理，能够得以放大，如此，在得到了多尺度的特征图的基础上，可以保证最终输出的特征图(第三特征图)的尺度会恢复到最开始向模型输入的待识别的图像的尺寸。

在一些可能的实施例中，上采样模块的数量可以为多个，计算机设备可以采用该至少一个上采样模块，对第二特征图进行至少一次上采样。例如，可以对第二特征图进行3次上采样。其中，可以将上一个上采样模块输出的第二特征图输入下一个上采样模块，通过下一个上采样模块对上一个上采样模块输出的第二特征图进行上采样。其中，每个上采样模块可以包括采用了深度可分离卷积结构的卷积层以及上采样层，该卷积层的步长可以为1，相应地，可以先通过卷积层进行深度可分离卷积，再通过上采样层，对卷积得到的特征图进行上采样。

示例性地，可以通过第一个上采样模块，先对第二特征图进行深度卷积，再通过1×1卷积的方式对深度卷积的结果进行融合，然后对融合结果进行上采样，输出第三特征图；再通过第二个上采样模块，先对第一个上采样模块输出的第三特征图进行深度卷积，再通过1×1的卷积的方式对深度卷积的结果进行融合，然后对融合后结果进行上采样，将得到的第三特征图输出至下一个模块，以此类推。

在一些可能的实施例中，深度神经网络中上采样模块可以与下采样模块跨层连接。通过跨层连接，下采样模块的输出可以输入至上采样模块中。

具体来说，上采样模块的数量可以为多个，上采样模块包括至少一个第一上采样模块以及至少一个第二上采样模块，该第一上采样模块的输入为该第二上采样模块输出的特征图与该第一特征图的拼接结果，其中，该第二上采样模块为该第一上采样模块的上一个上采样模块。例如，第一上采样模块可以是上采样模块2，第二上采样模块可以是上采样模块3，上采样模块2的输入，为上采样模块3输出的特征图与下采样模块2输出的第一特征图的拼接结果。同理地，第一上采样模块可以是上采样模块1，第二上采样模块可以是上采样模块2，上采样模块1的输入，为上采样模块2输出的特征图与下采样模块1输出的第一特征图的拼接结果。

另外，多个上采样模块中第一个上采样模块的输入，可以为空洞空间金字塔池化模块输出的不同尺度的第二特征图与第一个上采样模块对应的下采样模块输出的第一特征图的拼接结果。例如参见图2，上采样模块3的输入，为空洞空间金字塔池化模块输出的第二特征图与下采样模块3输出的第一特征图的拼接结果。对于该至少一个上采样模块中该第一个上采样模块之外的每个上采样模块，该上采样模块的输入，为上一个上采样模块输出的特征图与该上采样模块对应的下采样模块输出的第一特征图的拼接结果。

在步骤S46中，计算机设备通过分类模块，对第三特征图中的每个像素进行分类，得到该图像的场景分割结果。

场景分割结果可以包括第三特征图中每个像素的分类结果，像素的分类结果可以包括两种，一种是像素为场景，另一种是像素不为场景。可以根据场景分割结果，将属于场景的所有像素分割出来，作为图像中的场景。

在一些可能的实施例中，场景分割结果可以通过黑白二值图表示，该黑白二值图也称掩码(英文：mask),或者称为二进制掩码。该黑白二值图的尺寸可以和输入的图像相等。其中，对于输入的图像中的任一个像素来说，该像素在黑白二值图中对应像素的颜色可以表示该像素是否为场景。例如，对于输入图像中的像素X(i,j)来说，如果该黑白二值图中的像素Y(i,j)为白色，表示像素X(i,j)为场景，如果该黑白二值图中的像素Y(i,j)为黑色，表示像素X(i,j)不为场景，其中i和j为整数。在一些可能的实施例中，分类模块可以根据第三特征图，获取概率矩阵，该概率矩阵中的每个元素为对应像素点为场景的概率，分类模块可以将概率矩阵中大于或等于0.5的元素对应的像素标记为白色，将概率矩阵中小于0.5的元素对应的像素标记为黑色，得到该黑白二值图。

在一些可能的实施例中，分类模块可以为多分类器，多分类器的每个类别是一种场景，对于第三特征图中的每个像素，多分类器可以分别获取像素为多个场景中每个场景的概率，根据像素为每个场景的概率，确定像素的分类结果，该分类结果表示像素是多种场景中的哪一种场景。例如，多分类器可以分别获取每个像素为墙面的概率、每个像素为地面的概率、每个像素为天花板的概率，根据每个像素为墙的概率、每个像素为地面的概率、每个像素为天花板的概率，确定场景分割结果，也即是像素是墙面，还是地面，还是天花板，还是墙面、地面、天花板之外的场景。可以将分类结果为墙面的所有像素分割出来，作为图像中的墙面，将分类结果为地面的所有像素分割出来，作为图像中的地面，将分类结果为天花板的所有像素分割出来，作为图像中的天花板。

参见图5，图5是根据一示例性实施例示出的场景分割方法的效果示意图，图5中第1个图是待识别的图像，第2个图是墙面掩码，第2个图中白色的像素为墙面，黑色的像素为非墙面。图5中第3个图是分割出的墙面的效果示意图。图5中第4个图是地面掩码，即地面的黑白二值图，第4个图中白色的像素为地面，黑色的像素为非地面。图5中第5个图是分割出的地面的效果示意图。图5中第6个图是天花板掩码，即天花板的黑白二值图，第6个图中白色的像素为天花板，黑色的像素为非天花板，图5中第7个图是分割出的天花板的效果示意图。参见图6，图6是根据一示例性实施例示出的场景分割方法的效果示意图，图6中第1个图是待识别的图像，第2个图是墙面掩码。图6中第3个图是分割出的墙面的效果示意图。图6中第4个图是地面掩码，即地面的黑白二值图，图6中第5个图是分割出的地面的效果示意图。图6中第6个图是天花板掩码，即天花板的黑白二值图，图6中第7个图是分割出的天花板的效果示意图。

通过图5和图6可以看出，本公开提供的深度神经网络，在能够满足移动终端的计算能力的基础上，对室内场景的墙面、地面以及天花板均能够进行精细分割，针对不同室内场景具有较好的鲁棒性。在一些可能的实施例中，本公开可以为现在最流行的增强现实、虚拟现实以及混合现实等技术的研究和应用做铺垫，又可以作为室内场景的识别提供帮助，具有广阔的应用前景。

本实施例提供的方法，提供了一种基于深度神经网络的场景分割方法，通过将待识别的图像输入深度神经网络，通过下采样模块对图像进行深度可分离卷积，得到尺寸小于该图像的第一特征图，通过空洞空间金字塔池化模块对第一特征图进行空洞卷积，得到不同尺度的第二特征图，通过上采样模块对不同尺度的第二特征图进行深度可分离卷积，得到与图像尺寸相同的第三特征图，通过先进行下采样再进行上采样，可以将特征图恢复至输入的待识别的图像的尺寸，再通过分类模块对第三特征图中的每个像素进行分类，即可得到图像的场景分割结果。在场景分割过程中，由于下采样模块以及上采样模块均采用了深度可分离卷积结构，而深度可分离卷积结构的参数数量较少，复杂度较低，因此可以让深度神经网络得到极大地压缩，从而极大地减少了运行深度神经网络的计算量，进而可以减少通过深度神经网络进行场景分割的计算量，因此这种场景分割方法可以适用于移动终端，保证移动终端也可以通过运行该深度神经网络，来进行场景分割。并且，深度神经网络中通过采用了空洞空间金字塔池化模块，该空洞空间金字塔池化模块可以捕获各种尺度的感受野，使得模型既可以学习到细节信息，也可以学习到全局信息，从而避免损失细节信息，从而保证通过深度神经网络进行场景分割的准确性。

另外，深度神经网络可以采用跨层连接的方式，上采样模块通过与下采样模块跨层连接，那么一方面，以将高层语义和低层语义联合起来，让上采样模块可以同时学习到高层语义和低层语义的特征，从而满足了场景分割的过程对高层语义和低层语义这两方面信息的需求，进而提高了深度神经网络进行场景分割的准确性，另一方面，上采样模块通过复用下采样模块输出的特征图，使得使用少量的卷积核即可生成大量的特征，从而减少了深度神经网络的大小。

以下，对本公开实施例提供的深度神经网络的训练方法进行描述，参见图7，该方法包括下述步骤：

在步骤S71中，计算机设备获取多个样本图像，每个样本图像的每个像素标注了场景标签，该场景标签表示该像素所属的场景。

计算机设备可以获取多个数据集，从多个数据集中获取该多个样本图像。其中，数据集可以包括多个候选样本图像，该多个候选样本图像可以是多种场景的图像，比如说可以包括墙面图像、地面图像、天花板图像中的至少一项。通过根据多种场景的图像进行模型训练，可以让模型获取到各种各样的图像信息，从而学习到丰富的场景的特征，从而提高深度神经网络的鲁棒性，根据该鲁棒性更好的深度神经网络进行场景分割时，可以提高室内场景分割的准确性。

例如，该多个数据集可以包括企业数据集、scannet数据集(是一个标注过3D室内场景重构信息的大规模数据集，数据流在107万左右)、2D-3D-s数据集(是一个数据集，数据量在3.7万左右)以及NYUv2数据(是一个数据集，数据量在1450个左右)，该多个数据集可以共计包括114万个候选样本图像。

在一些可能的实施例中，可以根据每个数据集中候选样本图像的数量，为每个数据集分配对应的采样权重，根据每个数据集的采样权重，对每个数据集进行采样，得到该多个样本图像。

其中，数据集的采样权重与数据集中候选样本图像的数量负相关。也即是，如果某个数据集越大，例如该数据集包括的候选样本图像越多，则该数据集的采样权重越小，则从该数据集采样得到的候选样本图像的数量与该数据集中候选样本图像的数量之间的比值越小。如果某个数据集越小，例如该数据集包括的候选样本图像越少，则该数据集的采样权重越大，则从该数据集采样得到的候选样本图像的数量与该数据集中候选样本图像的数量之间的比值越大。

通过这种采样方式，在不同数据集大小不同的场景下，可以通过采样权重来控制从每个数据集中获取的样本图像的数量，通过根据不同的采样权重进行采样，保证来自于数据量较大的数据集中的样本图像不至于过多，来自于数据量较小的数据集的样本图像不至于过少，从而让数据量较大的数据集与数据量较小的数据集之间保持相对平衡，从而可以有效地解决数据集不平衡的问题。

在步骤S72中，计算机设备对该多个样本图像进行数据增强。

在一些可能的实施例中，计算机设备可以从该多个样本图像中随机选取部分样本图像，对选取的部分样本图像进行数据增强。在另一些可能的实施例中，计算机设备也可以对多个样本图像中的每个样本图像进行数据增强。

数据增强的方式包括而不限于下述方式(1)至方式(9)中的任一项或多项的组合。

(1)对多个样本图像进行旋转。

(2)对多个样本图像进行翻转。

(3)对多个样本图像进行平移。

(4)对多个样本图像的颜色进行变换。

(5)对多个样本图像的亮度进行变换。

(6)对多个样本图像的对比度进行变换。

(7)多个样本图像添加随机噪声。

(8)对多个样本图像进行裁剪。

(9)对多个样本图像进行拉伸。

在训练深度神经网络的过程中，通过进行数据增强，可以增强深度神经网络的鲁棒性，使得深度神经网络受外界因素的干扰影响很小，另外可以增加训练的数据量，提高模型的泛化能力。

在步骤S73中，计算机设备基于该多个样本图像，对该初始深度神经网络进行模型训练，得到深度神经网络，该初始深度神经网络包括下采样模块、空洞空间金字塔池化模块以及上采样模块。

在模型训练的过程中，损失函数可以使用交叉熵损失函数，优化器可以使用Adam优化器来更新模型的参数，该Adam优化器是一种对梯度的一阶矩估计(first momentestimation，梯度的均值)和二阶矩估计(second moment estimation，梯度的未中心化的方差)进行综合考虑，以计算出更新步长的优化器。在评价模型的性能时，可以使用墙面的交并比(英文全称：Intersection-over-Union，英文简称：IoU)、地面的IoU、天花板的IoU以及其他场景的IoU，另外还可以获取墙面的IoU、地面的IoU、天花板的IoU以及其他场景的IoU的平均值，得到平均交并比(mIoU)，从而对比不同模型的性能。

图8是根据一示例性实施例示出的一种场景分割装置的框图。参照图8，该装置包括获取单元801，输入单元802和模型运算单元803。

获取单元801，被配置为获取待识别的图像；

输入单元802，被配置为将该图像输入该深度神经网络，该深度神经网络包括下采样模块、空洞空间金字塔池化模块、上采样模块以及分类模块，该下采样模块以及该上采样模块均采用了深度可分离卷积结构；

模型运算单元803，被配置为通过该下采样模块对该图像进行深度可分离卷积，得到尺寸小于该图像的第一特征图，通过该空洞空间金字塔池化模块对该第一特征图进行空洞卷积，得到不同尺度的第二特征图，通过该上采样模块对该不同尺度的第二特征图进行深度可分离卷积，得到与该图像尺寸相同的第三特征图，通过该分类模块对该第三特征图中的每个像素进行分类，得到该图像的场景分割结果。

在一种可能的实现中，该下采样模块包括步长大于1的卷积层。

在一种可能的实现中，该上采样模块与该下采样模块跨层连接。

在一种可能的实现中，该上采样模块包括至少一个第一上采样模块以及至少一个第二上采样模块，该第一上采样模块的输入为该第二上采样模块输出的特征图与该第一特征图的拼接结果，该第二上采样模块为该第一上采样模块的上一个上采样模块。

在一种可能的实现中，该获取单元801，还被配置为获取多个样本图像，每个样本图像的每个像素标注了场景标签，该场景标签表示该像素所属的场景；

该输入单元802，被配置为将该图像输入初始深度神经网络，该初始深度神经网络包括下采样模块、空洞空间金字塔池化模块、上采样模块以及分类模块，该下采样模块以及该上采样模块均采用了深度可分离卷积结构；

该装置还包括：模型训练单元，被配置为基于该多个样本图像，对该初始深度神经网络进行模型训练，得到该深度神经网络。

在一种可能的实现中，该装置还包括：

数据增强单元，被配置为对该多个样本图像进行数据增强。

在一种可能的实现中，该获取单元801，具体被配置为获取多个数据集，每个该数据集包括多个候选样本图像；根据每个该数据集中候选样本图像的数量，为每个该数据集分配对应的采样权重，该数据集对应的采样权重与该数据集中候选样本图像的数量负相关；根据每个该数据集的采样权重，对每个该数据集进行采样，得到该多个样本图像。

关于上述实施例中的场景分割装置，其中各个单元执行操作的具体方式已经在有关场景分割方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例所提供的方法可以实施于计算机设备，该计算机设备可以实施为终端，例如，图9是根据一示例性实施例示出的一种终端的结构框图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：处理器901和存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本公开中方法实施例提供的场景分割方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时，由处理器901根据用户对触摸显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制触摸显示屏905的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏905的显示亮度；当环境光强度较低时，调低触摸显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例所提供的方法可以实施于计算机设备，该计算机设备可以实施为服务器，例如，图10是根据一示例性实施例示出的一种服务器的框图，该服务器1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1001和一个或一个以上的存储器1002，其中，该存储器1002中存储有至少一条指令，该至少一条指令由该处理器1001加载并执行以实现上述各个方法实施例提供的场景分割方法。当然，该服务器还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由计算机设备的处理器执行以完成上述场景分割方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-Only Memory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括一条或多条指令，该一条或多条指令由计算机设备的处理器执行时，使得计算机设备能够执行上述场景分割方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种场景分割方法，其特征在于，包括：

获取待识别的图像；

2.根据权利要求1所述的场景分割方法，其特征在于，所述下采样模块包括步长大于1的卷积层。

3.根据权利要求1所述的场景分割方法，其特征在于，所述上采样模块与所述下采样模块跨层连接。

4.根据权利要求3所述的场景分割方法，其特征在于，所述上采样模块包括至少一个第一上采样模块以及至少一个第二上采样模块，所述第一上采样模块的输入为所述第二上采样模块输出的特征图与所述第一特征图的拼接结果，所述第二上采样模块为所述第一上采样模块的上一个上采样模块。

5.根据权利要求1所述的场景分割方法，其特征在于，所述获取待识别的图像之前，所述方法还包括：

6.根据权利要求5所述的场景分割方法，其特征在于，所述获取多个样本图像之前，所述方法还包括：

对所述多个样本图像进行数据增强。

7.根据权利要求5所述的场景分割方法，其特征在于，所述获取多个样本图像，包括：

获取多个数据集，每个所述数据集包括多个候选样本图像；

8.一种场景分割装置，其特征在于，包括：

获取单元，被配置为获取待识别的图像；

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

用于存储所述处理器可执行指令的一个或多个存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的场景分割方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由计算机设备的处理器执行时，使得所述计算机设备能够执行如权利要求1至7中任一项所述的场景分割方法。