CN107766803A

CN107766803A - 基于场景分割的视频人物装扮方法、装置及计算设备

Info

Publication number: CN107766803A
Application number: CN201710906778.2A
Authority: CN
Inventors: 张蕊; 颜水成; 唐胜; 程斌
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-03-06
Anticipated expiration: 2037-09-29
Also published as: CN107766803B

Abstract

本发明公开了一种基于场景分割的视频人物装扮方法、装置、计算设备及计算机存储介质，该方法包括：实时获取视频中包含特定对象的当前帧图像；将当前帧图像输入至场景分割网络中，得到与当前帧图像对应的场景分割结果；根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息；依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像；将帧处理图像覆盖当前帧图像得到处理后的视频数据；显示处理后的视频数据。该技术方案能够实时、准确地得到帧图像对应的场景分割结果，基于场景分割结果能够更为精准地对帧图像中的人物添加美化效果。

Description

基于场景分割的视频人物装扮方法、装置及计算设备

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于场景分割的视频人物装扮方法、装置、计算设备及计算机存储介质。

背景技术

在现有技术中，图像场景分割处理方法主要是基于深度学习中的全卷积神经网络，这些处理方法利用迁移学习的思想，将在大规模分类数据集上经过预训练得到的网络迁移到图像分割数据集上进行训练，从而得到用于场景分割的分割网络，然后利用该分割网络对图像进行场景分割。

现有技术中得到的分割网络所使用的网络架构直接利用了图像分类网络，其卷积层中卷积块的大小是固定不变的，从而感受野的大小是固定不变的，其中，感受野是指输出特征图某个节点的响应对应的输入图像的区域，大小固定的感受野只适于捕捉固定大小和尺度的目标。然而对于图像场景分割，场景中经常会包含不同大小的目标，利用具有大小固定的感受野的分割网络在处理过大和过小的目标时常常会发生问题，例如，对于较小的目标，感受野会捕捉过多的目标周围的背景，从而将目标与背景混淆，导致目标遗漏并被错判为背景；对于较大的目标，感受野仅仅能捕捉目标的一部分，使得目标类别判断出现偏差，导致不连续的分割结果。因此，现有技术中的图像场景分割处理方式存在着图像场景分割的准确率低下的问题，那么利用所得到的分割结果也无法很好地对视频帧图像中的人物添加美化效果，所得到的处理后的视频数据的显示效果较差。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于场景分割的视频人物装扮方法、装置、计算设备及计算机存储介质。

根据本发明的一个方面，提供了一种基于场景分割的视频人物装扮方法，该方法基于经过训练的场景分割网络而执行，该方法包括：

实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像；

将当前帧图像输入至场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果；尺度回归层为场景分割网络的中间卷积层；

得到与当前帧图像对应的场景分割结果；

根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息；

依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像；

将帧处理图像覆盖当前帧图像得到处理后的视频数据；

显示处理后的视频数据。

进一步地，利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果进一步包括：

利用线性插值方法，从第二卷积块中采样得到特征向量，组成第三卷积块；

依据第三卷积块与该卷积层的卷积核进行卷积运算，获得该卷积层的输出结果。

进一步地，场景分割网络训练所用的样本包含：样本库存储的多个样本图像以及与样本图像对应的标注场景分割结果。

进一步地，场景分割网络的训练过程通过多次迭代完成；在一次迭代过程中，从样本库中提取样本图像以及与样本图像对应的标注场景分割结果，利用样本图像和标注场景分割结果实现场景分割网络的训练。

进一步地，场景分割网络的训练过程通过多次迭代完成；其中一次迭代过程包括：

将样本图像输入至场景分割网络，得到与样本图像对应的样本场景分割结果；

根据样本场景分割结果与标注场景分割结果之间的分割损失，得到场景分割网络损失函数，利用场景分割网络损失函数实现场景分割网络的训练。

进一步地，场景分割网络的训练步骤包括：

从样本库中提取样本图像以及与样本图像对应的标注场景分割结果；

将样本图像输入至场景分割网络中进行训练，其中，在场景分割网络中至少一层卷积层，利用上一次迭代过程尺度回归层输出的尺度系数或者初始尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果；

获取与样本图像对应的样本场景分割结果；

根据样本场景分割结果与标注场景分割结果之间的分割损失，得到场景分割网络损失函数，根据场景分割网络损失函数更新场景分割网络的权重参数；

迭代执行场景分割网络的训练步骤，直至满足预定收敛条件。

进一步地，预定收敛条件包括：迭代次数达到预设迭代次数；和/或，场景分割网络损失函数的输出值小于预设阈值。

进一步地，尺度系数为尺度回归层输出的尺度系数特征图中的特征向量。

进一步地，该方法还包括：在场景分割网络训练开始时，对尺度回归层的权重参数进行初始化处理。

进一步地，依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像进一步包括：

依据面部区域的轮廓信息和/或五官区域的轮廓信息，为面部区域和/或五官区域添加美妆效果贴图，得到帧处理图像。

依据面部区域的轮廓信息和/或五官区域的轮廓信息，为面部区域和/或五官区域进行色调处理、光照处理和/或亮度处理，得到帧处理图像。

进一步地，显示处理后的视频数据进一步包括：将处理后的视频数据实时显示；

该方法还包括：将处理后的视频数据上传至云服务器。

进一步地，将处理后的视频数据上传至云服务器进一步包括：

将处理后的视频数据上传至云视频平台服务器，以供云视频平台服务器在云视频平台进行展示视频数据。

将处理后的视频数据上传至云直播服务器，以供云直播服务器将视频数据实时推送给观看用户客户端。

将处理后的视频数据上传至云公众号服务器，以供云公众号服务器将视频数据推送给公众号关注客户端。

根据本发明的另一方面，提供了一种基于场景分割的视频人物装扮装置，该装置基于经过训练的场景分割网络而运行，该装置包括：

获取模块，适于实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像；

分割模块，适于将当前帧图像输入至场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果；尺度回归层为场景分割网络的中间卷积层；

生成模块，适于得到与当前帧图像对应的场景分割结果；

确定模块，适于根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息；

处理模块，适于依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像；

覆盖模块，适于将帧处理图像覆盖当前帧图像得到处理后的视频数据；

显示模块，适于显示处理后的视频数据。

进一步地，分割模块进一步适于：

进一步地，该装置还包括：场景分割网络训练模块；场景分割网络的训练过程通过多次迭代完成；

场景分割网络训练模块适于：在一次迭代过程中，从样本库中提取样本图像以及与样本图像对应的标注场景分割结果，利用样本图像和标注场景分割结果实现场景分割网络的训练。

场景分割网络训练模块适于：在一次迭代过程中，将样本图像输入至场景分割网络，得到与样本图像对应的样本场景分割结果；

进一步地，该装置还包括：场景分割网络训练模块；

场景分割网络训练模块包括：

提取单元，适于从样本库中提取样本图像以及与样本图像对应的标注场景分割结果；

训练单元，适于将样本图像输入至场景分割网络中进行训练，其中，在场景分割网络中至少一层卷积层，利用上一次迭代过程尺度回归层输出的尺度系数或者初始尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果；

获取单元，适于获取与样本图像对应的样本场景分割结果；

更新单元，适于根据样本场景分割结果与标注场景分割结果之间的分割损失，得到场景分割网络损失函数，根据场景分割网络损失函数更新场景分割网络的权重参数；

场景分割网络训练模块迭代运行，直至满足预定收敛条件。

进一步地，场景分割网络训练模块进一步适于：在场景分割网络训练开始时，对尺度回归层的权重参数进行初始化处理。

进一步地，处理模块进一步适于：

进一步地，显示模块进一步适于：将处理后的视频数据实时显示；

该装置还包括：

上传模块，适于将处理后的视频数据上传至云服务器。

进一步地，上传模块进一步适于：

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行上述基于场景分割的视频人物装扮方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，存储介质中存储有至少一可执行指令，可执行指令使处理器执行如上述基于场景分割的视频人物装扮方法对应的操作。

根据本发明提供的技术方案，实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像，将当前帧图像输入至场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果，然后得到与当前帧图像对应的场景分割结果，根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息，依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像，将帧处理图像覆盖当前帧图像得到处理后的视频数据，显示处理后的视频数据。本发明提供的技术方案依据尺度系数对卷积块进行缩放，实现了对感受野的自适应缩放，利用经过训练的场景分割网络能够实时、准确地得到视频中帧图像对应的场景分割结果，有效地提高了图像场景分割的准确率以及处理效率，基于所得到的场景分割结果能够更为精准地对帧图像中的人物添加美化效果，美化了视频数据显示效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的基于场景分割的视频人物装扮方法的流程示意图；

图2示出了根据本发明一个实施例的场景分割网络训练方法的流程示意图；

图3示出了根据本发明另一个实施例的基于场景分割的视频人物装扮方法的流程示意图；

图4示出了根据本发明一个实施例的基于场景分割的视频人物装扮装置的结构框图；

图5示出了根据本发明另一个实施例的基于场景分割的视频人物装扮装置的结构框图；

图6示出了根据本发明实施例的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的基于场景分割的视频人物装扮方法的流程示意图，该方法基于经过训练的场景分割网络而执行，如图1所示，该方法包括如下步骤：

步骤S100，实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像。

本实施例中图像采集设备以移动终端为例进行说明。实时获取到移动终端摄像头在录制视频时的当前帧图像或者拍摄视频时的当前帧图像。由于本发明对特定对象进行处理，因此获取当前帧图像时仅获取包含特定对象的当前帧图像。除实时获取图像采集设备所拍摄和/或所录制的视频外，还可以实时获取当前所播放的视频中包含特定对象的当前帧图像。

步骤S101，将当前帧图像输入至场景分割网络中。

当前帧图像中包含了特定对象，如人体。为了能够精准地为当前帧图像中的人物添加美化效果，需要利用场景分割网络对当前帧图像进行场景分割。其中，场景分割网络是经过训练的，经过训练的场景分割网络能够利用该网络中尺度回归层输出的尺度系数地对卷积层的卷积块进行缩放，从而能够更为准确地对所输入的当前帧图像进行场景分割。具体地，场景分割网络训练所用的样本包含：样本库存储的多个样本图像以及与样本图像对应的标注场景分割结果。其中，标注场景分割结果为样本图像中的各个场景经人工分割与标注所得到的分割结果。

其中，场景分割网络的训练过程通过多次迭代完成。可选地，在一次迭代过程中，从样本库中提取样本图像以及与样本图像对应的标注场景分割结果，利用样本图像和标注场景分割结果实现场景分割网络的训练。

可选地，一次迭代过程包括：将样本图像输入至场景分割网络，得到与样本图像对应的样本场景分割结果；根据样本场景分割结果与标注场景分割结果之间的分割损失，得到场景分割网络损失函数，利用场景分割网络损失函数实现场景分割网络的训练。

步骤S102，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块。

本领域技术人员可根据实际需要选择对哪一层或哪些层的卷积层的卷积块进行缩放处理，此处不做限定。为了便于区分，在本发明中将待缩放处理的卷积块称为第一卷积块，将经缩放处理后的卷积块称为第二卷积块。假设对场景分割网络中的某一层卷积层的第一卷积块进行缩放处理，那么在该卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块。

其中，尺度回归层为场景分割网络的中间卷积层，中间卷积层是指场景分割网络中的一层或多层卷积层，本领域技术人员可根据实际需要在场景分割网络中选择合适的一层或多层卷积层作为尺度回归层，此处不做限定。在本发明中，将尺度回归层输出的特征图称为尺度系数特征图，尺度系数为尺度回归层输出的尺度系数特征图中的特征向量。本发明依据尺度系数对卷积块进行缩放，从而实现了对感受野的自适应缩放，能够更为准确地对所输入的当前帧图像进行场景分割，有效地提高了图像场景分割的准确率。

步骤S103，利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果。

在得到了第二卷积块之后，就可利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果。

步骤S104，得到与当前帧图像对应的场景分割结果。

在步骤S103获得该卷积层的输出结果之后，在场景分割网络中若在该卷积层之后还存在其他的卷积层，那么将该卷积层的输出结果作为后一卷积层的输入进行后续的卷积运算。在经过场景分割网络中所有的卷积层的卷积运算之后，得到与当前帧图像对应的场景分割结果。

步骤S105，根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息。

在得到了与当前帧图像对应的场景分割结果之后，就可根据与当前帧图像对应的场景分割结果，确定出特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息。当特定对象为人体时，那么就可根据场景分割结果，确定出人体的面部区域的轮廓信息和/或人体的五官区域的轮廓信息，以便后续为面部区域和/或五官区域添加美化效果。

步骤S106，依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像。

在确定了特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息之后，就可依据面部区域的轮廓信息和/或五官区域的轮廓信息，为面部区域和/或五官区域添加美化效果，得到帧处理图像。其中，五官区域可泛指面部区域中眉毛等各部位的区域，具体地，五官区域可包括：眉毛、眼睛、耳朵、鼻子和嘴巴等部位对应的区域。本领域技术人员可根据实际需要设置美化效果，此处不做限定。

例如，特定对象为人体，可依据面部区域的轮廓信息为人物的面部区域添加美化效果，比如对面部区域对应的像素点进行提高亮度处理，使人物的面部显得嫩白；或者可依据五官区域的轮廓信息为人物的眉毛、眼睛、耳朵、鼻子和嘴巴等部位添加美化效果，比如，为眉毛添加不同的眉型效果、为眼睛添加眼影效果、为鼻子添加高光效果和阴影效果、为嘴唇添加不同颜色的唇彩效果等；又或者可依据面部区域和五官区域确定脸颊区域，为脸颊区域添加腮红效果等。

步骤S107，将帧处理图像覆盖当前帧图像得到处理后的视频数据。

使用帧处理图像直接覆盖掉原来的当前帧图像，直接可以得到处理后的视频数据。同时，录制的用户还可以直接看到帧处理图像。

在得到帧处理图像时，会将帧处理图像直接覆盖原来的当前帧图像。覆盖时的速度较快，一般在1/24秒之内完成。对于用户而言，由于覆盖处理的时间相对短，人眼没有明显的察觉，即人眼没有察觉到视频数据中的原当前帧图像被覆盖的过程。这样在后续显示处理后的视频数据时，相当于一边拍摄和/或录制和/或播放视频数据时，一边实时显示的为处理后的视频数据，用户不会感觉到视频数据中帧图像发生覆盖的显示效果。

步骤S108，显示处理后的视频数据。

得到处理后的视频数据后，可以将其实时的进行显示，用户可以直接看到处理后的视频数据的显示效果。

根据本实施例提供的基于场景分割的视频人物装扮方法，实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像，将当前帧图像输入至场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果，然后得到与当前帧图像对应的场景分割结果，根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息，依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像，将帧处理图像覆盖当前帧图像得到处理后的视频数据，显示处理后的视频数据。本发明提供的技术方案依据尺度系数对卷积块进行缩放，实现了对感受野的自适应缩放，利用经过训练的场景分割网络能够实时、准确地得到视频中帧图像对应的场景分割结果，有效地提高了图像场景分割的准确率以及处理效率，基于所得到的场景分割结果能够更为精准地对帧图像中的人物添加美化效果，美化了视频数据显示效果。

图2示出了根据本发明一个实施例的场景分割网络训练方法的流程示意图，如图2所示，场景分割网络的训练步骤包括如下步骤：

步骤S200，从样本库中提取样本图像以及与样本图像对应的标注场景分割结果。

样本库中不仅存储了样本图像，还存储了与样本图像对应的标注场景分割结果。本领域技术人员可根据实际需要设置样本库中所存储的样本图像的数量，此处不做限定。在步骤S200中，从样本库中提取样本图像，并提取与该样本图像对应的标注场景分割结果。

步骤S201，将样本图像输入至场景分割网络中进行训练。

在提取了样本图像之后，将样本图像输入至场景分割网络中进行训练。

步骤S202，在场景分割网络中至少一层卷积层，利用上一次迭代过程尺度回归层输出的尺度系数或者初始尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块。

本领域技术人员可根据实际需要选择对哪一层或哪些层的卷积层的卷积块进行缩放处理，此处不做限定。假设对场景分割网络中的某一层卷积层的第一卷积块进行缩放处理，那么在该卷积层，利用上一次迭代过程尺度回归层输出的尺度系数或者初始尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块。

具体地，为了有效对场景分割网络进行训练，在场景分割网络训练开始时，可对尺度回归层的权重参数进行初始化处理。本领域技术人员可根据实际需要设置具体的初始化的权重参数，此处不做限定。初始尺度系数即为经初始化处理后的尺度回归层输出的尺度系数特征图中的特征向量。

步骤S203，利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果。

在得到了第二卷积块之后，就可利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果。由于第二卷积块是对第一卷积块进行缩放处理后所得到的，那么第二卷积块中的特征向量对应的坐标可能并不是整数，因此，可利用预设计算方法得到这些非整数坐标对应的特征向量。本领域技术人员可根据实际需要设置预设计算方法，此处不做限定。例如，预设计算方法可为线性插值方法，具体地，利用线性插值方法，从第二卷积块中采样得到特征向量，组成第三卷积块，然后依据第三卷积块与该卷积层的卷积核进行卷积运算，获得该卷积层的输出结果。

在获得该卷积层的输出结果之后，在场景分割网络中若在该卷积层之后还存在其他的卷积层，那么将该卷积层的输出结果作为后一卷积层的输入进行后续的卷积运算。在经过场景分割网络中所有的卷积层的卷积运算之后，得到与样本图像对应的场景分割结果。

步骤S204，获取与样本图像对应的样本场景分割结果。

获取场景分割网络得到的与样本图像对应的样本场景分割结果。

步骤S205，根据样本场景分割结果与标注场景分割结果之间的分割损失，得到场景分割网络损失函数，根据场景分割网络损失函数更新场景分割网络的权重参数。

其中，本领域技术人员可根据实际需要设置场景分割网络损失函数的具体内容，此处不做限定。根据场景分割网络损失函数，进行反向传播(back propagation)运算，通过运算结果更新场景分割网络的权重参数。

步骤S206，迭代执行场景分割网络的训练步骤，直至满足预定收敛条件。

其中，本领域技术人员可根据实际需要设置预定收敛条件，此处不做限定。例如，预定收敛条件可包括：迭代次数达到预设迭代次数；和/或，场景分割网络损失函数的输出值小于预设阈值。具体地，可以通过判断迭代次数是否达到预设迭代次数来判断是否满足预定收敛条件，也可以根据场景分割网络损失函数的输出值是否小于预设阈值来判断是否满足预定收敛条件。在步骤S206中，迭代执行场景分割网络的训练步骤，直至满足预定收敛条件，从而得到经过训练的场景分割网络。

在一个具体的训练过程中，例如需要对场景分割网络中的某一层卷积层的第一卷积块进行缩放处理，假设将该卷积层称为卷积层J，卷积层J的输入特征图为其中，H_A为该输入特征图的高度参数，W_A为该输入特征图的宽度参数，C_A为该输入特征图的通道数；卷积层J的输出特征图为其中，H_B为该输出特征图的高度参数，W_B为该输出特征图的宽度参数，C_B为该输出特征图的通道数；尺度回归层输出的尺度系数特征图为其中，H_S为该尺度系数特征图的高度参数，W_S为该尺度系数特征图的宽度参数，该尺度系数特征图的通道数为1，具体地，H_S＝H_B，且W_S＝W_B。

在场景分割网络中，可选择一个普通的3×3的卷积层作为尺度回归层，尺度回归层对应的通道数为1的输出特征图即为尺度系数特征图。为了有效对场景分割网络进行训练，防止场景分割网络在训练过程中崩溃，需要在场景分割网络训练开始时，对尺度回归层的权重参数进行初始化处理。其中，尺度回归层的初始化的权重参数为

其中，w₀为尺度回归层初始化后的卷积核，a为卷积核中的任意位置，b₀为初始化的偏置项。在对尺度回归层的权重参数的初始化处理中，卷积核被设置为满足高斯分布的随机系数σ，且其值很小，接近于0，并且偏置项被设置为1，因此，经初始化处理的尺度回归层将全部输出接近于1的值，即初始尺度系数接近于1，那么将初始尺度系数应用到卷积层J后，所得到的输出结果与标准的卷积结果差别不大，从而提供了较为稳定的训练过程，有效防止了场景分割网络在训练过程中崩溃。

对于卷积层J，假设卷积层J的卷积核为偏置为卷积层J的输入特征图为卷积层J的输出特征图为卷积层J的第一卷积块为X^t，对第一卷积块X^t进行缩放处理后所得到的第二卷积块为Y^t，其中，一般情况下，k＝1。在输出特征图B中的任意位置t，对应的特征向量为特征向量B^t为由该特征向量对应于输入特征图A中的第二卷积块Y^t与卷积核K内积得到的，其中，位置

第一卷积块X^t是一个以输入特征图A中(p^t,q^t)为中心的正方形区域，其边长固定为2kd+1，其中，是卷积的膨胀系数，和是输入特征图A中的坐标。第一卷积块X^t中将均匀选取(2k+1)×(2k+1)个特征向量与卷积核K进行相乘，具体地，这些特征向量的坐标为

其中，

假设s^t是尺度系数特征图中对应于输出特征图B中位置t的特征向量B^t的尺度系数，s^t在尺度系数特征图中的位置也是t，与特征向量B^t在输出特征图 B中的位置相同。

利用尺度系数s^t对卷积层J的第一卷积块X^t进行缩放处理，得到第二卷积块Y^t，第二卷积块Y^t是一个以输入特征图A中(p^t,q^t)为中心的正方形区域，其边长会根据尺度系数s^t变化为第二卷积块Y^t中将均匀选取 (2k+1)×(2k+1)个特征向量与卷积核K进行相乘，具体地，这些特征向量的坐标为

其中，尺度系数s^t是实数值，那么特征向量的坐标x'_ij和y'_ij可能并不是整数。在本发明中，利用线性插值方法得到这些非整数坐标对应的特征向量。利用线性插值方法，从第二卷积块Y^t中采样得到特征向量，组成第三卷积块 Z^t，那么对于第三卷积块Z^t中各个特征向量的具体的计算公式为：

其中，若(x'_ij,y'_ij)超出了输入特征图A的范围，则对应的特征向量将被置为0作为填补。假设是卷积核K与对应的特征向量相乘且输出通道为c的卷积向量，其中，那么卷积运算中对应所有通道的按元素相乘过程可以用与进行矩阵相乘表示，则前向传播(forward propagation)过程为

在反向传播过程中，假定从B^t传来的梯度g(B^t)，梯度为

g(b)＝g(B^t)

其中，g(·)表示梯度函数，(·)^T表示矩阵转置。值得注意的是，在计算梯度的过程中，卷积核K和偏置b的最终梯度是从输出特征图B中所有位置得到的梯度的和。对于线性插值过程，其对应特征向量的偏导为

对应坐标的偏导为

对应的的偏导与上述的公式类似，此处不再赘述。

由于坐标是由尺度系数s^t计算得到，那么坐标对应尺度系数的偏导为

基于上述偏导，尺度系数特征图S和输入特征图A的梯度可以由下面的公式得到：

由此可见，上述卷积过程形成了一个整体可导的计算过程，因此，场景分割网络中各卷积层的权重参数和尺度回归层的权重参数均可以通过端对端的形式进行训练。另外，尺度系数的梯度可以通过其后一层传来的梯度计算得到，因此，尺度系数是自动且隐式的得到的。在具体的实现过程中，前向传播过程和反向传播过程均可以在图形处理器(GPU)上并行运算，具有较高的计算效率。

根据本实施例提供的场景分割网络训练方法，能够训练得到依据尺度系数对卷积块进行缩放的场景分割网络，实现了对感受野的自适应缩放，而且利用场景分割网络能够快速地得到对应的场景分割结果，有效地提高了图像场景分割的准确率以及处理效率。

图3示出了根据本发明另一个实施例的基于场景分割的视频人物装扮方法的流程示意图，该方法基于经过训练的场景分割网络而执行，如图3所示，该方法包括如下步骤：

步骤S300，实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像。

步骤S301，将当前帧图像输入至场景分割网络中。

其中，场景分割网络是经过训练的，经过训练的场景分割网络能够利用该网络中尺度回归层输出的尺度系数地对卷积层的卷积块进行缩放，更为准确地对所输入的当前帧图像进行场景分割。

步骤S302，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块。

本领域技术人员可根据实际需要选择对哪一层或哪些层的卷积层的卷积块进行缩放处理，此处不做限定。尺度系数为尺度回归层输出的尺度系数特征图中的特征向量，在步骤S302中，利用尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块。

步骤S303，利用线性插值方法，从第二卷积块中采样得到特征向量，组成第三卷积块。

由于第二卷积块是对第一卷积块进行缩放处理后所得到的，那么第二卷积块中的特征向量对应的坐标可能并不是整数，因此可利用线性插值方法，得到这些非整数坐标对应的特征向量。利用线性插值方法，从第二卷积块中采样得到特征向量，然后根据采样得到的特征向量组成第三卷积块。假设第二卷积块为Y^t，第三卷积块为Z^t，那么对于第三卷积块Z^t中各个特征向量的具体的计算公式为：

其中，d是卷积的膨胀系数，s^t是尺度系数，一般情况下，k＝1。

步骤S304，依据第三卷积块与该卷积层的卷积核进行卷积运算，获得该卷积层的输出结果。

在得到了第三卷积块之后，依据第三卷积块与该卷积层的卷积核进行卷积运算，获得该卷积层的输出结果。

步骤S305，得到与当前帧图像对应的场景分割结果。

在步骤S304获得该卷积层的输出结果之后，在场景分割网络中若在该卷积层之后还存在其他的卷积层，那么将该卷积层的输出结果作为后一卷积层的输入进行后续的卷积运算。在经过场景分割网络中所有的卷积层的卷积运算之后，得到与当前帧图像对应的场景分割结果。

步骤S306，根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息。

在步骤S305得到了与当前帧图像对应的场景分割结果之后，就可根据与当前帧图像对应的场景分割结果，确定出特定对象的面部区域的轮廓信息和/ 或所述特定对象的五官区域的轮廓信息。当特定对象为人体时，那么就可根据场景分割结果，确定出人体的面部区域的轮廓信息和/或人体的五官区域的轮廓信息，以便后续为面部区域和/或五官区域添加美化效果。

步骤S307，依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像。

在确定了特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息之后，就可依据面部区域的轮廓信息和/或五官区域的轮廓信息，为面部区域和/或五官区域添加美化效果，得到帧处理图像。具体地，可依据面部区域的轮廓信息和/或五官区域的轮廓信息，为面部区域和/或五官区域添加美妆效果贴图；另外，还可依据面部区域的轮廓信息和/或所述五官区域的轮廓信息，为面部区域和/或五官区域进行色调处理、光照处理和/或亮度处理，从而得到帧处理图像。

例如，可依据五官区域的轮廓信息为人物的眉毛、眼睛、耳朵、鼻子和嘴巴等部位添加美妆效果贴图，比如，为眉毛添加不同的眉型效果贴图、为眼睛添加眼影效果贴图、为鼻子添加高光效果贴图和阴影效果贴图、为嘴唇添加不同颜色的唇彩效果贴图等；又或者可依据面部区域和五官区域确定脸颊区域，为脸颊区域添加腮红效果贴图等。

又如，可依据面部区域的轮廓信息为人物的面部区域对应的像素点进行提高亮度处理，使人物的面部显得嫩白；或者为面部区域和/或五官区域添加整体的光照效果，对色调、亮度等进行调整等处理，使其整体的效果更加自然、美观。

步骤S308，将帧处理图像覆盖当前帧图像得到处理后的视频数据。

步骤S309，显示处理后的视频数据。

步骤S310，将处理后的视频数据上传至云服务器。

将处理后的视频数据可以直接上传至云服务器，具体的，可以将处理后的视频数据上传至一个或多个的云视频平台服务器，如爱奇艺、优酷、快视频等云视频平台服务器，以供云视频平台服务器在云视频平台进行展示视频数据。或者还可以将处理后的视频数据上传至云直播服务器，当有直播观看端的用户进入云直播服务器进行观看时，可以由云直播服务器将视频数据实时推送给观看用户客户端。或者还可以将处理后的视频数据上传至云公众号服务器，当有用户关注该公众号时，由云公众号服务器将视频数据推送给公众号关注客户端；进一步，云公众号服务器还可以根据关注公众号的用户的观看习惯，推送符合用户习惯的视频数据给公众号关注客户端。

根据本实施例提供的基于场景分割的视频人物装扮方法，不仅依据尺度系数对卷积块进行缩放，实现了对感受野的自适应缩放，而且还利用线性插值方法对缩放处理后卷积块进行进一步处理，解决了对于缩放处理后卷积块中坐标为非整数的特征向量的选取问题；并且利用经过训练的场景分割网络能够实时、准确地得到视频中帧图像对应的场景分割结果，有效地提高了图像场景分割的准确率以及处理效率，基于所得到的场景分割结果能够更为精准地对帧图像中的人物添加美化效果，美化了视频数据显示效果，优化了视频数据处理方式。

图4示出了根据本发明一个实施例的基于场景分割的视频人物装扮装置的结构框图，该装置基于经过训练的场景分割网络而运行，如图4所示，该装置包括：获取模块410、分割模块420、生成模块430、确定模块440、处理模块450、覆盖模块460和显示模块470。

获取模块410适于：实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像。

分割模块420适于：将当前帧图像输入至场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果。

其中，场景分割网络是经过训练的，具体地，场景分割网络训练所用的样本包含：样本库存储的多个样本图像以及与样本图像对应的标注场景分割结果。尺度回归层为场景分割网络的中间卷积层。本领域技术人员可根据实际需要在场景分割网络中选择合适的一层或多层卷积层作为尺度回归层，此处不做限定。尺度系数为尺度回归层输出的尺度系数特征图中的特征向量。

生成模块430适于：得到与当前帧图像对应的场景分割结果。

确定模块440适于：根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息。

处理模块450适于：依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像。

覆盖模块460适于：将帧处理图像覆盖当前帧图像得到处理后的视频数据。

覆盖模块460使用帧处理图像直接覆盖掉原当前帧图像，直接可以得到处理后的视频数据。同时，录制的用户还可以直接看到帧处理图像。

显示模块470适于：显示处理后的视频数据。

显示模块470得到处理后的视频数据后，可以将其实时的进行显示，用户可以直接看到处理后的视频数据的显示效果。

根据本实施例提供的基于场景分割的视频人物装扮装置，能够依据尺度系数对卷积块进行缩放，实现了对感受野的自适应缩放，利用经过训练的场景分割网络能够实时、准确地得到视频中帧图像对应的场景分割结果，有效地提高了图像场景分割的准确率以及处理效率，基于所得到的场景分割结果能够更为精准地对帧图像中的人物添加美化效果，美化了视频数据显示效果。

图5示出了根据本发明另一个实施例的基于场景分割的视频人物装扮装置的结构框图，该装置基于经过训练的场景分割网络而运行，如图5所示，该装置包括：获取模块510、场景分割网络训练模块520、分割模块530、生成模块540、确定模块550、处理模块560、覆盖模块570、显示模块580和上传模块590。

获取模块510适于：实时获取图像采集设备所拍摄和/或所录制的视频中包含特定对象的当前帧图像；或者，实时获取当前所播放的视频中包含特定对象的当前帧图像。

其中，场景分割网络的训练过程通过多次迭代完成。场景分割网络训练模块520适于：在一次迭代过程中，从样本库中提取样本图像以及与样本图像对应的标注场景分割结果，利用样本图像和标注场景分割结果实现场景分割网络的训练。

可选地，场景分割网络训练模块520适于：在一次迭代过程中，将样本图像输入至场景分割网络，得到与样本图像对应的样本场景分割结果；根据样本场景分割结果与标注场景分割结果之间的分割损失，得到场景分割网络损失函数，利用场景分割网络损失函数实现场景分割网络的训练。

在一个具体实施例中，场景分割网络训练模块520可包括：提取单元521、训练单元522、获取单元523和更新单元524。

具体地，提取单元521适于：从样本库中提取样本图像以及与样本图像对应的标注场景分割结果。

训练单元522适于：将样本图像输入至场景分割网络中进行训练，其中，在场景分割网络中至少一层卷积层，利用上一次迭代过程尺度回归层输出的尺度系数或者初始尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果。

其中，尺度回归层为场景分割网络的中间卷积层，尺度系数为尺度回归层输出的尺度系数特征图中的特征向量。

可选地，训练单元522进一步适于：利用线性插值方法，从第二卷积块中采样得到特征向量，组成第三卷积块；依据第三卷积块与该卷积层的卷积核进行卷积运算，获得该卷积层的输出结果。

获取单元523适于：获取与样本图像对应的样本场景分割结果。

更新单元524适于：根据样本场景分割结果与标注场景分割结果之间的分割损失，得到场景分割网络损失函数，根据场景分割网络损失函数更新场景分割网络的权重参数。

场景分割网络训练模块520迭代运行，直至满足预定收敛条件。

其中，本领域技术人员可根据实际需要设置预定收敛条件，此处不做限定。例如，预定收敛条件可包括：迭代次数达到预设迭代次数；和/或，场景分割网络损失函数的输出值小于预设阈值。具体地，可以通过判断迭代次数是否达到预设迭代次数来判断是否满足预定收敛条件，也可以根据场景分割网络损失函数的输出值是否小于预设阈值来判断是否满足预定收敛条件。

可选地，场景分割网络训练模块520进一步适于：在场景分割网络训练开始时，对尺度回归层的权重参数进行初始化处理。

分割模块530适于：将当前帧图像输入至场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用线性插值方法，从第二卷积块中采样得到特征向量，组成第三卷积块；依据第三卷积块与该卷积层的卷积核进行卷积运算，获得该卷积层的输出结果。

生成模块540适于：得到与当前帧图像对应的场景分割结果。

确定模块550适于：根据与当前帧图像对应的场景分割结果，确定特定对象的面部区域的轮廓信息和/或特定对象的五官区域的轮廓信息。

处理模块560适于：依据面部区域的轮廓信息和/或五官区域的轮廓信息，添加美化效果，得到帧处理图像。

可选地，处理模块560进一步适于：依据面部区域的轮廓信息和/或五官区域的轮廓信息，为面部区域和/或五官区域添加美妆效果贴图，得到帧处理图像。

可选地，处理模块560进一步适于：依据面部区域的轮廓信息和/或五官区域的轮廓信息，为面部区域和/或五官区域进行色调处理、光照处理和/或亮度处理，得到帧处理图像。

覆盖模块570适于：将帧处理图像覆盖当前帧图像得到处理后的视频数据。

显示模块580适于：显示处理后的视频数据。

显示模块580得到处理后的视频数据后，可以将其实时的进行显示，用户可以直接看到处理后的视频数据的显示效果。

上传模块590，适于将处理后的视频数据上传至云服务器。

上传模块590将处理后的视频数据可以直接上传至云服务器，具体的，上传模块590可以将处理后的视频数据上传至一个或多个的云视频平台服务器，如爱奇艺、优酷、快视频等云视频平台服务器，以供云视频平台服务器在云视频平台进行展示视频数据。或者上传模块590还可以将处理后的视频数据上传至云直播服务器，当有直播观看端的用户进入云直播服务器进行观看时，可以由云直播服务器将视频数据实时推送给观看用户客户端。或者上传模块590还可以将处理后的视频数据上传至云公众号服务器，当有用户关注该公众号时，由云公众号服务器将视频数据推送给公众号关注客户端；进一步，云公众号服务器还可以根据关注公众号的用户的观看习惯，推送符合用户习惯的视频数据给公众号关注客户端。

根据本实施例提供的基于场景分割的视频人物装扮装置，不仅依据尺度系数对卷积块进行缩放，实现了对感受野的自适应缩放，而且还利用线性插值方法对缩放处理后卷积块进行进一步处理，解决了对于缩放处理后卷积块中坐标为非整数的特征向量的选取问题；并且利用经过训练的场景分割网络能够实时、准确地得到视频中帧图像对应的场景分割结果，有效地提高了图像场景分割的准确率以及处理效率，基于所得到的场景分割结果能够更为精准地对帧图像中的人物添加美化效果，美化了视频数据显示效果，优化了视频数据处理方式。

本发明还提供了一种非易失性计算机存储介质，计算机存储介质存储有至少一可执行指令，可执行指令可执行上述任意方法实施例中的基于场景分割的视频人物装扮方法。

图6示出了根据本发明实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图6所示，该计算设备可以包括：处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。

其中：

处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。

通信接口604，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器602，用于执行程序610，具体可以执行上述基于场景分割的视频人物装扮方法实施例中的相关步骤。

具体地，程序610可以包括程序代码，该程序代码包括计算机操作指令。

处理器602可能是中央处理器CPU，或者是特定集成电路ASIC (ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器606，用于存放程序610。存储器606可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序610具体可以用于使得处理器602执行上述任意方法实施例中的基于场景分割的视频人物装扮方法。程序610中各步骤的具体实现可以参见上述基于场景分割的视频人物装扮实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种基于场景分割的视频人物装扮方法，所述方法基于经过训练的场景分割网络而执行，所述方法包括：

将所述当前帧图像输入至所述场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用所述第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果；所述尺度回归层为所述场景分割网络的中间卷积层；

得到与当前帧图像对应的场景分割结果；

根据与当前帧图像对应的场景分割结果，确定所述特定对象的面部区域的轮廓信息和/或所述特定对象的五官区域的轮廓信息；

依据所述面部区域的轮廓信息和/或所述五官区域的轮廓信息，添加美化效果，得到帧处理图像；

将帧处理图像覆盖所述当前帧图像得到处理后的视频数据；

显示处理后的视频数据。

2.根据权利要求1所述的方法，其中，所述利用所述第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果进一步包括：

利用线性插值方法，从所述第二卷积块中采样得到特征向量，组成第三卷积块；

依据所述第三卷积块与该卷积层的卷积核进行卷积运算，获得该卷积层的输出结果。

3.根据权利要求1或2所述的方法，其中，所述场景分割网络训练所用的样本包含：样本库存储的多个样本图像以及与样本图像对应的标注场景分割结果。

4.根据权利要求1-3任一项所述的方法，其中，所述场景分割网络的训练过程通过多次迭代完成；在一次迭代过程中，从所述样本库中提取样本图像以及与样本图像对应的标注场景分割结果，利用所述样本图像和所述标注场景分割结果实现场景分割网络的训练。

5.根据权利要求1-4任一项所述的方法，其中，所述场景分割网络的训练过程通过多次迭代完成；其中一次迭代过程包括：

根据所述样本场景分割结果与所述标注场景分割结果之间的分割损失，得到场景分割网络损失函数，利用所述场景分割网络损失函数实现场景分割网络的训练。

6.根据权利要求1-5任一项所述的方法，其中，所述场景分割网络的训练步骤包括：

从所述样本库中提取样本图像以及与样本图像对应的标注场景分割结果；

将所述样本图像输入至所述场景分割网络中进行训练，其中，在场景分割网络中至少一层卷积层，利用上一次迭代过程尺度回归层输出的尺度系数或者初始尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用所述第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果；

获取与样本图像对应的样本场景分割结果；

根据所述样本场景分割结果与所述标注场景分割结果之间的分割损失，得到场景分割网络损失函数，根据所述场景分割网络损失函数更新所述场景分割网络的权重参数；

迭代执行所述场景分割网络的训练步骤，直至满足预定收敛条件。

7.根据权利要求1-6任一项所述的方法，其中，所述预定收敛条件包括：迭代次数达到预设迭代次数；和/或，所述场景分割网络损失函数的输出值小于预设阈值。

8.一种基于场景分割的视频人物装扮装置，所述装置基于经过训练的场景分割网络而运行，所述装置包括：

分割模块，适于将所述当前帧图像输入至所述场景分割网络中，其中，在场景分割网络中至少一层卷积层，利用尺度回归层输出的尺度系数对该卷积层的第一卷积块进行缩放处理，得到第二卷积块，而后利用所述第二卷积块进行该卷积层的卷积运算，获得该卷积层的输出结果；所述尺度回归层为所述场景分割网络的中间卷积层；

生成模块，适于得到与当前帧图像对应的场景分割结果；

确定模块，适于根据与当前帧图像对应的场景分割结果，确定所述特定对象的面部区域的轮廓信息和/或所述特定对象的五官区域的轮廓信息；

处理模块，适于依据所述面部区域的轮廓信息和/或所述五官区域的轮廓信息，添加美化效果，得到帧处理图像；

覆盖模块，适于将帧处理图像覆盖所述当前帧图像得到处理后的视频数据；

显示模块，适于显示处理后的视频数据。

9.一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于场景分割的视频人物装扮方法对应的操作。

10.一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于场景分割的视频人物装扮方法对应的操作。