CN107705278A

CN107705278A - 动态效果的添加方法和终端设备

Info

Publication number: CN107705278A
Application number: CN201710814280.3A
Authority: CN
Inventors: 张学勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2018-02-16
Anticipated expiration: 2037-09-11
Also published as: CN107705278B

Abstract

本申请提出一种动态效果的添加方法和终端设备，其中，上述动态效果的添加方法包括：获取用户的场景图像；获取所述用户的深度图像；处理所述场景图像和所述深度图像以提取所述用户在所述场景图像中的人物区域而获得人物区域图像；对所述人物区域图像中所述用户的手势进行识别，当所述用户的手势为特定手势时，将所述特定手势对应的动态效果与所述人物区域图像融合以得到合并图像。本申请可以实现通过获取用户的深度图像以将场景图像中的人物区域提取出来，通过深度图像提取到的人物区域更加准确，可以更加准确地识别用户的手势，进而可以更好地将特定手势对应的动态效果与人物区域图像融合。

Description

动态效果的添加方法和终端设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种动态效果的添加方法和终端设备。

背景技术

现在，用户在视频聊天时，往往希望在视频聊天的图像中，在上述用户做出特定手势时，为场景添加特定的动态效果，但是现有相关技术中，通常使用特征点提取图像中的人物轮廓，使用特征点提取的人物轮廓精确度不高，尤其无法准确标定出人物的边界，影响用户手势的识别效果，以及动态效果的添加。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请第一方面提出一种动态效果的添加方法，以实现通过获取用户的深度图像以将场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，可以更加准确地识别用户的手势，进而可以更好地将特定手势对应的动态效果与人物区域图像融合。

本申请第二方面提出一种终端设备。

本申请第三方面提出一种非临时性计算机可读存储介质。

本申请第一方面实施例提出一种动态效果的添加方法，包括：获取用户的场景图像；获取所述用户的深度图像；处理所述场景图像和所述深度图像以提取所述用户在所述场景图像中的人物区域而获得人物区域图像；对所述人物区域图像中所述用户的手势进行识别，当所述用户的手势为特定手势时，将所述特定手势对应的动态效果与所述人物区域图像融合以得到合并图像。

本申请实施例的动态效果的添加方法中，获取用户的场景图像之后，获取上述用户的深度图像，然后处理上述场景图像和上述深度图像以提取上述用户在上述场景图像中的人物区域而获得人物区域图像，最后对上述人物区域图像中上述用户的手势进行识别，当上述用户的手势为特定手势时，将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像，从而可以实现通过获取用户的深度图像以将场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，可以更加准确地识别用户的手势，进而可以更好地将特定手势对应的动态效果与人物区域图像融合。

本申请第二方面实施例提出一种终端设备，包括：可见光摄像头、深度图像采集组件、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述可见光摄像头，用于获取用户的场景图像；所述深度图像采集组件，用于获取所述用户的深度图像；所述处理器执行所述计算机程序时，用于处理所述场景图像和所述深度图像以提取所述用户在所述场景图像中的人物区域而获得人物区域图像；以及对所述人物区域图像中所述用户的手势进行识别，当所述用户的手势为特定手势时，将所述特定手势对应的动态效果与所述人物区域图像融合以得到合并图像。

本申请实施例的终端设备中，可见光摄像头获取用户的场景图像之后，深度图像采集组件获取上述用户的深度图像，然后处理器处理上述场景图像和上述深度图像以提取上述用户在上述场景图像中的人物区域而获得人物区域图像，最后处理器对上述人物区域图像中上述用户的手势进行识别，当上述用户的手势为特定手势时，将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像，从而可以实现通过获取用户的深度图像以将场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，可以更加准确地识别用户的手势，进而可以更好地将特定手势对应的动态效果与人物区域图像融合。

为达上述目的，本申请第三方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请动态效果的添加方法一个实施例的流程图；

图2为本申请动态效果的添加方法另一个实施例的流程图；

图3为本申请动态效果的添加方法再一个实施例的流程图；

图4(a)至图4(e)为本申请动态效果的添加方法中获得三维模型一个实施例的示意图；

图5(a)至图5(b)为本申请动态效果的添加方法中获得被测物的深度信息一个实施例的示意图；

图6为本申请动态效果的添加方法再一个实施例的流程图；

图7为本申请动态效果的添加方法再一个实施例的流程图；

图8为本申请终端设备一个实施例的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

图1为本申请动态效果的添加方法一个实施例的流程图，如图1所示，上述动态效果的添加方法可以包括：

步骤101，获取用户的场景图像。

具体地，在视频聊天过程中，可以通过可见光摄像头获取用户的场景图像。

步骤102，获取上述用户的深度图像。

具体地，可以通过深度图像采集组件获取当前用户的深度图像。

本实施例中，场景图像可以为灰度图像或彩色图像，上述深度图像表征包含当前用户的场景中各个人或物体的深度信息。场景图像的场景范围与深度图像的场景范围一致，且场景图像中的各个像素均能在深度图像中找到对应该像素的深度信息。

步骤103，处理上述场景图像和上述深度图像以提取上述用户在上述场景图像中的人物区域而获得人物区域图像。

步骤104，对上述人物区域图像中上述用户的手势进行识别，当上述用户的手势为特定手势时，将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像。

其中，上述特定手势对应的动态效果包括动态图形；或者，上述特定手势对应的动态效果包括动态图形和/或上述动态图形对应的声音。也就是说，上述特定手势对应的动态效果可以只包括动态图形，也可以包括动态图形和/或上述动态图形对应的声音。

本实施例中，在获得人物区域图像之后，可以对上述人物区域图像中上述用户的手势进行识别，然后当上述用户的手势为特定手势时，将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像。举例来说，当上述用户的手势为爱心手势时，可以将爱心的动态图形以及心跳的声音与上述人物区域图像融合。

现有相关技术中，主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割，但这种分割方法易受外界光照等环境因素的影响。本申请实施例提供的动态效果的添加方法通过获取上述用户的深度图像以将场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，可以更加准确地识别用户的手势，进而可以更好地将特定手势对应的动态效果与人物区域图像融合。

图2为本申请动态效果的添加方法另一个实施例的流程图，如图2所示，本申请图1所示实施例中，步骤102可以包括：

步骤201，向上述用户投射结构光。

步骤202，拍摄经上述用户调制的结构光图像。

步骤203，解调上述结构光图像的各个像素对应的相位信息以得到上述深度图像。

本实施例中，上述深度图像采集组件可以包括结构光投射器和结构光摄像头。具体地，可以通过结构光投射器向上述用户投射结构光，然后由结构光摄像头拍摄经上述用户调制的结构光图像，以及解调上述结构光图像的各个像素对应的相位信息以得到上述深度图像。

具体地，结构光投射器将一定模式的结构光投射到上述用户的面部及躯体上后，在上述用户的面部及躯体的表面会形成由上述用户调制后的结构光图像。结构光摄像头拍摄经调制后的结构光图像，再对结构光图像进行解调以得到深度图像。其中，结构光的模式可以是激光条纹、格雷码、正弦条纹、非均匀散斑等。

图3为本申请动态效果的添加方法再一个实施例的流程图，如图3所示，本申请图2所示实施例中，步骤203可以包括：

步骤301，解调上述结构光图像中各个像素对应的相位信息。

步骤302，将上述相位信息转化为深度信息。

步骤303，根据上述深度信息生成上述深度图像。

具体地，可以通过结构光摄像头解调上述结构光图像中各个像素对应的相位信息，将相位信息转化为深度信息，以及根据深度信息生成深度图像。

与未经调制的结构光相比，调制后的结构光的相位信息发生了变化，在结构光图像中呈现出的结构光是产生了畸变之后的结构光，其中，变化的相位信息即可表征物体的深度信息。因此，结构光摄像头首先解调出结构光图像中各个像素对应的相位信息，再根据相位信息计算出深度信息，从而得到最终的深度图像。

为了使本领域的技术人员更加清楚的了解根据结构来采集当前用户的面部及躯体的深度图像的过程，下面以一种应用广泛的光栅投影技术(条纹投影技术)为例来阐述其具体原理。其中，光栅投影技术属于广义上的面结构光。

图4(a)至图4(e)为本申请动态效果的添加方法中获得三维模型一个实施例的示意图。

如图4(a)所示，在使用面结构光投影的时候，首先通过计算机编程产生正弦条纹，并将正弦条纹通过结构光投射器投射至被测物，再利用结构光摄像头拍摄条纹受物体调制后的弯曲程度，随后解调该弯曲条纹得到相位，再将相位转化为深度信息即可获取深度图像。为避免产生误差或误差耦合的问题，使用结构光进行深度信息采集前需对深度图像采集组件进行参数标定，标定包括几何参数(例如，结构光摄像头与结构光投射器之间的相对位置参数等)的标定、结构光摄像头的内部参数以及结构光投射器的内部参数的标定等。

具体而言，第一步，计算机编程产生正弦条纹。由于后续需要利用畸变的条纹获取相位，比如采用四步移相法获取相位，因此这里产生四幅相位差为的条纹，然后结构光投射器将该四幅条纹分时投射到被测物(图4(a)所示的面具)上，结构光摄像头采集到如图4(b)左边的图，同时要读取如图4(b)右边所示的参考面的条纹。

第二步，进行相位恢复。结构光摄像头根据采集到的四幅受调制的条纹图(即结构光图像)计算出被调制相位，此时得到的相位图是截断相位图。因为四步移相算法得到的结果是由反正切函数计算所得，因此结构光调制后的相位被限制在[-π,π]之间，也就是说，每当调制后的相位超过[-π,π]，其又会重新开始。最终得到的相位主值如图4(c)所示。

其中，在进行相位恢复过程中，需要进行消跳变处理，即将截断相位恢复为连续相位。如图4(d)所示，左边为受调制的连续相位图，右边是参考连续相位图。

第三步，将受调制的连续相位和参考连续相位相减得到相位差(即相位信息)，该相位差表征了被测物相对参考面的深度信息，再将相位差代入相位与深度的转化公式(公式中涉及到的参数经过标定)，即可得到如图4(e)所示的待测物体的三维模型。

应当理解的是，在实际应用中，根据具体应用场景的不同，本申请实施例中所采用的结构光除了上述光栅之外，还可以是其他任意图案。

作为一种可能的实现方式，本申请还可使用散斑结构光进行当前用户的深度信息的采集。图5(a)至图5(b)为本申请动态效果的添加方法中获得被测物的深度信息一个实施例的示意图。

具体地，散斑结构光获取深度信息的方法是使用一基本为平板的衍射元件，该衍射元件具有特定相位分布的浮雕衍射结构，横截面为具有两个或多个凹凸的台阶浮雕结构。衍射元件中基片的厚度大致为1微米，各个台阶的高度不均匀，高度的取值范围可为0.7微米～0.9微米。图5(a)所示结构为本实施例的准直分束元件的局部衍射结构。图5(b)为沿截面A-A的剖面侧视图，横坐标和纵坐标的单位均为微米。散斑结构光生成的散斑图案具有高度的随机性，并且会随着距离的不同而变换图案。因此，在使用散斑结构光获取深度信息前，首先需要标定出空间中的散斑图案，例如，在距离结构光摄像头的0～4米的范围内，每隔1厘米取一个参考平面，则标定完毕后就保存了400幅散斑图像，标定的间距越小，获取的深度信息的精度越高。随后，结构光投射器将散斑结构光投射到被测物(即上述用户)上，被测物表面的高度差使得投射到被测物上的散斑结构光的散斑图案发生变化。结构光摄像头拍摄投射到被测物上的散斑图案(即结构光图像)后，再将散斑图案与前期标定后保存的400幅散斑图像逐一进行互相关运算，进而得到400幅相关度图像。空间中被测物体所在的位置会在相关度图像上显示出峰值，把上述峰值叠加在一起并经过插值运算后即可得到被测物的深度信息。

由于普通的衍射元件对光束进行衍射后得到多数衍射光，但每束衍射光光强差别大，对人眼伤害的风险也大。即便是对衍射光进行二次衍射，得到的光束的均匀性也较低。因此，利用普通衍射元件衍射的光束对被测物进行投射的效果较差。本实施例中采用准直分束元件，该元件不仅具有对非准直光束进行准直的作用，还具有分光的作用，即经反射镜反射的非准直光经过准直分束元件后往不同的角度出射多束准直光束，且出射的多束准直光束的截面面积近似相等，能量通量近似相等，进而使得利用该光束衍射后的散点光进行投射的效果更好。同时，激光出射光分散至每一束光，进一步降低了伤害人眼的风险，且散斑结构光相对于其他排布均匀的结构光来说，达到同样的采集效果时，散斑结构光消耗的电量更低。

图6为本申请动态效果的添加方法再一个实施例的流程图，如图6所示，本申请图1所示实施例中，步骤103可以包括：

步骤601，识别上述场景图像中的人脸区域。

步骤602，从上述深度图像中获取与上述人脸区域对应的深度信息。

步骤603，根据上述人脸区域的深度信息确定上述人物区域的深度范围。

步骤604，根据上述人物区域的深度范围确定与上述人脸区域连接且落入上述深度范围内的人物区域以获得上述人物区域图像。

具体地，首先可采用已训练好的深度学习模型识别出场景图像中的人脸区域，随后根据场景图像与深度图像的对应关系可确定出人脸区域的深度信息。由于人脸区域包括鼻子、眼睛、耳朵、嘴唇等特征，因此，人脸区域中的各个特征在深度图像中所对应的深度数据是不同的，例如，在人脸正对深度图像采集组件时，深度图像采集组件拍摄得的深度图像中，鼻子对应的深度数据可能较小，而耳朵对应的深度数据可能较大。因此，上述的人脸区域的深度信息可能为一个数值或是一个数值范围。其中，当人脸区域的深度信息为一个数值时，该数值可通过对人脸区域的深度数据取平均值得到；或者，可以通过对人脸区域的深度数据取中值得到。

由于人物区域包含人脸区域，也即是说，人物区域与人脸区域同处于某一个深度范围内，因此，确定出人脸区域的深度信息后，可以根据人脸区域的深度信息设定人物区域的深度范围，再根据人物区域的深度范围提取落入该深度范围内且与人脸区域相连接的人物区域以获得人物区域图像。

如此，即可根据深度信息从场景图像中提取出人物区域图像。由于深度信息的获取不受环境中光照、色温等因素的影像响，因此，提取出的人物区域图像更加准确。

图7为本申请动态效果的添加方法再一个实施例的流程图，如图7所示，本申请图1所示实施例步骤103之后，还可以包括：

步骤701，处理上述场景图像以得到上述场景图像的全场边缘图像。

步骤702，根据上述全场边缘图像修正上述人物区域图像。

本实施例中，可以先对场景图像进行边缘提取以得到全场边缘图像，其中，全场边缘图像中的边缘线条包括当前用户以及当前用户所处场景中背景物体的边缘线条。具体地，可通过Canny算子对场景图像进行边缘提取。Canny算子进行边缘提取的算法的核心主要包括以下几步：首先，用2D高斯滤波模板对场景图像进行卷积以消除噪声；随后，利用微分算子得到各个像素的灰度的梯度值，并根据梯度值计算各个像素的灰度的梯度方向，通过梯度方向可以找到对应像素沿梯度方向的邻接像素；随后，遍历每一个像素，若某个像素的灰度值与其梯度方向上前后两个相邻像素的灰度值相比不是最大的，那么认为这个像素不是边缘点。如此，即可确定场景图像中处于边缘位置的像素点，从而获得边缘提取后的全场边缘图像。

获取全场边缘图像后，再根据全场边缘图像对人物区域图像进行修正。可以理解，人物区域图像是将场景图像中与人脸区域连接并落入设定的深度范围的所有像素进行归并后得到的，在某些场景下，可能存在一些与人脸区域连接且落入深度范围内的物体。因此，为使得提取的人物区域图像更为准确，可使用全场边缘图对人物区域图像进行修正。

进一步地，还可对修正后的人物区域图像进行二次修正，例如，可对修正后的人物区域图像进行膨胀处理，扩大人物区域图像以保留人物区域图像的边缘细节。

在得到人物区域图像后，即可对上述人物区域图像中上述用户的手势进行识别，当上述用户的手势为特定手势时，将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像。

本实施例中，融合后的合并图像可在终端设备的显示屏上进行显示，也可通过与上述终端设备连接的打印机进行打印。

在某些应用场景中，例如，当上述用户与他人进行视频通话过程中希望在视频聊天的图像中，当上述用户做出特定手势时，为场景添加特定的动态效果，可使用本申请实施例提供的动态效果的添加方法将上述用户对应的人物区域图像与特定手势对应的动态效果融合，再向对方显示融合后的合并图像。由于上述用户正与对方进行视频通话，因此，可见光摄像头需实时拍摄上述用户的场景图像，深度图像采集组件也需要实时采集当前用户对应的深度图像，并及时对实时采集的场景图像和深度图像进行处理以使得对方能够看到流畅的由多帧合并图像组合而成的视频画面。

图8为本申请终端设备一个实施例的结构示意图，如图8所示，上述终端设备可以包括：可见光摄像头81、深度图像采集组件82、存储器83、处理器84及存储在存储器83上并可在处理器84上运行的计算机程序。

其中，上述终端设备可以手机、平板电脑、笔记本电脑、智能手环、智能手表、智能头盔或智能眼镜等，本实施例对上述终端设备的形态不作限定。

其中，可见光摄像头81，用于获取用户的场景图像；具体地，在视频聊天过程中，可见光摄像头81获取用户的场景图像。

深度图像采集组件82，用于获取上述用户的深度图像；

处理器84执行上述计算机程序时，用于处理上述场景图像和上述深度图像以提取上述用户在上述场景图像中的人物区域而获得人物区域图像；以及对上述人物区域图像中上述用户的手势进行识别，当上述用户的手势为特定手势时，将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像。

本实施例中，在处理器84获得人物区域图像之后，处理器84可以对上述人物区域图像中上述用户的手势进行识别，然后当上述用户的手势为特定手势时，处理器84将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像。举例来说，当上述用户的手势为爱心手势时，处理器84可以将爱心的动态图形以及心跳的声音与上述人物区域图像融合。

本实施例中，上述深度图像采集组件82可以包括：结构光投射器821和结构光摄像头822；

其中，结构光投射器821，用于向上述用户投射结构光；

结构光摄像头822，用于拍摄经上述用户调制的结构光图像；以及解调上述结构光图像的各个像素对应的相位信息以得到上述深度图像。

本实施例中，结构光投射器821向上述用户投射结构光，然后由结构光摄像头822拍摄经上述用户调制的结构光图像，以及解调上述结构光图像的各个像素对应的相位信息以得到上述深度图像。

具体地，结构光投射器821将一定模式的结构光投射到上述用户的面部及躯体上后，在上述用户的面部及躯体的表面会形成由上述用户调制后的结构光图像。结构光摄像头822拍摄经调制后的结构光图像，再对结构光图像进行解调以得到深度图像。其中，结构光的模式可以是激光条纹、格雷码、正弦条纹、非均匀散斑等。

本实施例中，结构光摄像头822，具体用于解调上述结构光图像中各个像素对应的相位信息，将上述相位信息转化为深度信息，以及根据上述深度信息生成上述深度图像。

具体地，与未经调制的结构光相比，调制后的结构光的相位信息发生了变化，在结构光图像中呈现出的结构光是产生了畸变之后的结构光，其中，变化的相位信息即可表征物体的深度信息。因此，结构光摄像头822首先解调出结构光图像中各个像素对应的相位信息，再根据相位信息计算出深度信息，从而得到最终的深度图像。

如图4(a)所示，在使用面结构光投影的时候，首先通过计算机编程产生正弦条纹，并将正弦条纹通过结构光投射器投射至被测物，再利用结构光摄像头822拍摄条纹受物体调制后的弯曲程度，随后解调该弯曲条纹得到相位，再将相位转化为深度信息即可获取深度图像。为避免产生误差或误差耦合的问题，使用结构光进行深度信息采集前需对深度图像采集组件进行参数标定，标定包括几何参数(例如，结构光摄像头822与结构光投射器821之间的相对位置参数等)的标定、结构光摄像头822的内部参数以及结构光投射器821的内部参数的标定等。

具体而言，第一步，计算机编程产生正弦条纹。由于后续需要利用畸变的条纹获取相位，比如采用四步移相法获取相位，因此这里产生四幅相位差为的条纹，然后结构光投射器821将该四幅条纹分时投射到被测物(图4(a)所示的面具)上，结构光摄像头822采集到如图4(b)左边的图，同时要读取如图4(b)右边所示的参考面的条纹。

第二步，进行相位恢复。结构光摄像头822根据采集到的四幅受调制的条纹图(即结构光图像)计算出被调制相位，此时得到的相位图是截断相位图。因为四步移相算法得到的结果是由反正切函数计算所得，因此结构光调制后的相位被限制在[-π,π]之间，也就是说，每当调制后的相位超过[-π,π]，其又会重新开始。最终得到的相位主值如图4(c)所示。

作为一种可能的实现方式，本申请还可使用散斑结构光进行当前用户的深度信息的采集。

具体地，散斑结构光获取深度信息的方法是使用一基本为平板的衍射元件，该衍射元件具有特定相位分布的浮雕衍射结构，横截面为具有两个或多个凹凸的台阶浮雕结构。衍射元件中基片的厚度大致为1微米，各个台阶的高度不均匀，高度的取值范围可为0.7微米～0.9微米。图5(a)所示结构为本实施例的准直分束元件的局部衍射结构。图5(b)为沿截面A-A的剖面侧视图，横坐标和纵坐标的单位均为微米。散斑结构光生成的散斑图案具有高度的随机性，并且会随着距离的不同而变换图案。因此，在使用散斑结构光获取深度信息前，首先需要标定出空间中的散斑图案，例如，在距离结构光摄像头的0～4米的范围内，每隔1厘米取一个参考平面，则标定完毕后就保存了400幅散斑图像，标定的间距越小，获取的深度信息的精度越高。随后，结构光投射器821将散斑结构光投射到被测物(即上述用户)上，被测物表面的高度差使得投射到被测物上的散斑结构光的散斑图案发生变化。结构光摄像头822拍摄投射到被测物上的散斑图案(即结构光图像)后，再将散斑图案与前期标定后保存的400幅散斑图像逐一进行互相关运算，进而得到400幅相关度图像。空间中被测物体所在的位置会在相关度图像上显示出峰值，把上述峰值叠加在一起并经过插值运算后即可得到被测物的深度信息。

本实施例中，处理器84，具体用于识别上述场景图像中的人脸区域，从上述深度图像中获取与上述人脸区域对应的深度信息，根据上述人脸区域的深度信息确定上述人物区域的深度范围，根据上述人物区域的深度范围确定与上述人脸区域连接且落入上述深度范围内的人物区域以获得上述人物区域图像。

具体地，处理器84首先可采用已训练好的深度学习模型识别出场景图像中的人脸区域，随后根据场景图像与深度图像的对应关系可确定出人脸区域的深度信息。由于人脸区域包括鼻子、眼睛、耳朵、嘴唇等特征，因此，人脸区域中的各个特征在深度图像中所对应的深度数据是不同的，例如，在人脸正对深度图像采集组件时，深度图像采集组件拍摄得的深度图像中，鼻子对应的深度数据可能较小，而耳朵对应的深度数据可能较大。因此，上述的人脸区域的深度信息可能为一个数值或是一个数值范围。其中，当人脸区域的深度信息为一个数值时，该数值可通过对人脸区域的深度数据取平均值得到；或者，可以通过对人脸区域的深度数据取中值得到。

由于人物区域包含人脸区域，也即是说，人物区域与人脸区域同处于某一个深度范围内，因此，处理器84确定出人脸区域的深度信息后，可以根据人脸区域的深度信息设定人物区域的深度范围，再根据人物区域的深度范围提取落入该深度范围内且与人脸区域相连接的人物区域以获得人物区域图像。

本实施例中，处理器84，还用于处理上述场景图像以得到上述场景图像的全场边缘图像，根据上述全场边缘图像修正上述人物区域图像。

本实施例中，处理器84可以先对场景图像进行边缘提取以得到全场边缘图像，其中，全场边缘图像中的边缘线条包括当前用户以及当前用户所处场景中背景物体的边缘线条。具体地，可通过Canny算子对场景图像进行边缘提取。Canny算子进行边缘提取的算法的核心主要包括以下几步：首先，用2D高斯滤波模板对场景图像进行卷积以消除噪声；随后，利用微分算子得到各个像素的灰度的梯度值，并根据梯度值计算各个像素的灰度的梯度方向，通过梯度方向可以找到对应像素沿梯度方向的邻接像素；随后，遍历每一个像素，若某个像素的灰度值与其梯度方向上前后两个相邻像素的灰度值相比不是最大的，那么认为这个像素不是边缘点。如此，即可确定场景图像中处于边缘位置的像素点，从而获得边缘提取后的全场边缘图像。

处理器84获取全场边缘图像后，再根据全场边缘图像对人物区域图像进行修正。可以理解，人物区域图像是将场景图像中与人脸区域连接并落入设定的深度范围的所有像素进行归并后得到的，在某些场景下，可能存在一些与人脸区域连接且落入深度范围内的物体。因此，为使得提取的人物区域图像更为准确，处理器84可使用全场边缘图对人物区域图像进行修正。

进一步地，处理器84还可对修正后的人物区域图像进行二次修正，例如，可对修正后的人物区域图像进行膨胀处理，扩大人物区域图像以保留人物区域图像的边缘细节。

在得到人物区域图像后，处理器84即可对上述人物区域图像中上述用户的手势进行识别，当上述用户的手势为特定手势时，将上述特定手势对应的动态效果与上述人物区域图像融合以得到合并图像。

本实施例中，处理器84融合后的合并图像可在上述终端设备的显示屏85上进行显示，也可通过与上述终端设备连接的打印机进行打印。

在某些应用场景中，例如，当上述用户与他人进行视频通话过程中希望在视频聊天的图像中,当上述用户做出特定手势时，为场景添加特定的动态效果，可使用本申请实施例提供的终端设备将上述用户对应的人物区域图像与特定手势对应的动态效果融合，再向对方显示融合后的合并图像。由于上述用户正与对方进行视频通话，因此，可见光摄像头81需实时拍摄上述用户的场景图像，深度图像采集组件82也需要实时采集当前用户对应的深度图像，并由处理器84及时对实时采集的场景图像和深度图像进行处理以使得对方能够看到流畅的由多帧合并图像组合而成的视频画面。

现有相关技术中，主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割，但这种分割方法易受外界光照等环境因素的影响。本申请实施例提供的终端设备通过获取上述用户的深度图像以将场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，可以更加准确地识别用户的手势，进而可以更好地将特定手势对应的动态效果与人物区域图像融合。

参见图8，本实施例中，可见光摄像头81可用于捕捉当前用户的彩色信息以获得场景图像，其中，可见光摄像头81包括图像传感器811和透镜812，其中，图像传感器811包括彩色滤镜阵列(如Bayer滤镜阵列)，透镜812的个数可为一个或多个。可见光摄像头81在获取场景图像过程中，图像传感器811中的每一个成像像素感应来自拍摄场景中的光强度和波长信息，生成一组原始图像数据；图像传感器811将该组原始图像数据发送至处理器84中，处理器84对原始图像数据进行去噪、插值等运算后即得到彩色的场景图像。处理器84可按多种格式对原始图像数据中的每个图像像素逐一处理，例如，每个图像像素可具有8、10、12或14比特的位深度，处理器84可按相同或不同的位深度对每一个图像像素进行处理。

深度图像采集组件82包括结构光投射器821和结构光摄像头822，深度图像采集组件82可用于捕捉当前用户的深度信息以得到深度图像。结构光投射器821用于将结构光投射至当前用户，其中，结构光图案可以是激光条纹、格雷码、正弦条纹或者随机排列的散斑图案等。结构光摄像头822包括图像传感器8221和透镜8222，透镜8222的个数可为一个或多个。图像传感器8221用于捕捉结构光投射器821投射至当前用户上的结构光图像。结构光图像可由深度图像采集组件82发送至处理器84进行解调、相位恢复、相位信息计算等处理以获取当前用户的深度信息。

在某些实施方式中，可见光摄像头81与结构光摄像头822的功能可由一个摄像头实现，也即是说，图8中的成像设备80可以仅包括一个摄像头和一个结构光投射器821，上述摄像头不仅可以拍摄场景图像，还可拍摄结构光图像。

除了采用结构光获取深度图像外，还可通过双目视觉方法、基于飞行时间差(Timeof Flight；以下简称：TOF)等深度像获取方法来获取当前用户的深度图像。

处理器84进一步用于将由从场景图像和深度图像中提取的人物区域图像与特定手势对应的动态效果融合。在提取人物区域图像时，处理器84可以结合深度图像中的深度信息从场景图像中提取出二维的人物区域图像，也可以根据深度图像中的深度信息建立人物区域的三维图，再结合场景图像中的色彩信息对三维的人物区域进行颜色填补以得到三维的彩色的人物区域图像。因此，融合处理人物区域图像和特定手势对应的动态效果时可以是将二维的人物区域图像与特定手势对应的动态效果进行融合以得到合并图像，也可以是将三维的彩色的人物区域图像与特定手势对应的动态效果进行融合以得到合并图像。

本实施例中，上述存储器83还可以包括图像存储器。图像存储器可内嵌在上述终端设备中，也可以是独立于上述终端设备之外的存储器，并可包括直接存储器存取(DirectMemory Access；以下简称：DMA)特征。可见光摄像头81采集的原始图像数据或深度图像采集组件82采集的结构光图像相关数据均可传送至图像存储器中进行存储或缓存。处理器84可从图像存储器中读取原始图像数据以进行处理得到场景图像，也可从图像存储器中读取结构光图像相关数据以进行处理得到深度图像。另外，场景图像和深度图像还可存储在图像存储器中，以供处理器84随时调用处理，例如，处理器84调用场景图像和深度图像进行人物区域提取，并将提后的得到的人物区域图像与特定手势对应的动态效果进行融合处理以得到合并图像。其中，特定手势对应的动态效果和合并图像也可存储在图像存储器中。

上述终端设备还可包括显示器85。显示器85可直接从处理器84中获取合并图像，还可从图像存储器中获取合并图像。显示器85显示合并图像以供用户观看，或者由图形引擎或图形处理器(Graphics Processing Unit；以下简称：GPU)进行进一步的处理。上述终端设备还可以包括编码器/解码器86，编码器/解码器86可编解码场景图像、深度图像及合并图像等的图像数据，编码的图像数据可被保存在图像存储器中，并可以在图像显示在显示器85上之前由解码器解压缩以进行显示。编码器/解码器86可由中央处理器(CentralProcessing Unit；以下简称：CPU)、GPU或协处理器实现。换言之，编码器/解码器86可以是CPU、GPU、及协处理器中的任意一种或多种。

上述终端设备还包括控制逻辑器87。成像设备80在成像时，处理器84会根据成像设备80获取的数据进行分析以确定成像设备80的一个或多个控制参数(例如，曝光时间等)的图像统计信息。处理器84将图像统计信息发送至控制逻辑器87，控制逻辑器87控制成像设备80以确定好的控制参数进行成像。控制逻辑器87可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的图像统计信息确定成像设备80的控制参数。

本申请还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现本申请实施例提供的动态效果的添加方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(Random AccessMemory；以下简称：RAM)，只读存储器(Read Only Memory；以下简称：ROM)，可擦除可编辑只读存储器(Erasable Programmable Read Only Memory；以下简称：EPROM)或闪速存储器，光纤装置，以及便携式光盘只读存储器(Compact Disc Read Only Memory；以下简称：CD-ROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(ProgrammableGate Array；以下简称：PGA)，现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种动态效果的添加方法，其特征在于，包括：

获取用户的场景图像；

获取所述用户的深度图像；

处理所述场景图像和所述深度图像以提取所述用户在所述场景图像中的人物区域而获得人物区域图像；

对所述人物区域图像中所述用户的手势进行识别，当所述用户的手势为特定手势时，将所述特定手势对应的动态效果与所述人物区域图像融合以得到合并图像。

2.根据权利要求1所述的方法，其特征在于，所述获取所述用户的深度图像包括：

向所述用户投射结构光；

拍摄经所述用户调制的结构光图像；

解调所述结构光图像的各个像素对应的相位信息以得到所述深度图像。

3.根据权利要求2所述的方法，其特征在于，所述解调所述结构光图像的各个像素对应的相位信息以得到所述深度图像包括：

解调所述结构光图像中各个像素对应的相位信息；

将所述相位信息转化为深度信息；

根据所述深度信息生成所述深度图像。

4.根据权利要求1所述的方法，其特征在于，所述处理所述场景图像和所述深度图像以提取所述用户在所述场景图像中的人物区域而获得人物区域图像包括：

识别所述场景图像中的人脸区域；

从所述深度图像中获取与所述人脸区域对应的深度信息；

根据所述人脸区域的深度信息确定所述人物区域的深度范围；

根据所述人物区域的深度范围确定与所述人脸区域连接且落入所述深度范围内的人物区域以获得所述人物区域图像。

5.根据权利要求4所述的方法，其特征在于，所述处理所述场景图像和所述深度图像以提取所述用户在所述场景图像中的人物区域而获得人物区域图像之后，还包括：

处理所述场景图像以得到所述场景图像的全场边缘图像；

根据所述全场边缘图像修正所述人物区域图像。

6.根据权利要求1所述的方法，其特征在于，所述特定手势对应的动态效果包括动态图形；或者，所述特定手势对应的动态效果包括动态图形和/或所述动态图形对应的声音。

7.一种终端设备，其特征在于，包括：可见光摄像头、深度图像采集组件、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；

所述可见光摄像头，用于获取用户的场景图像；

所述深度图像采集组件，用于获取所述用户的深度图像；

所述处理器执行所述计算机程序时，用于处理所述场景图像和所述深度图像以提取所述用户在所述场景图像中的人物区域而获得人物区域图像；以及对所述人物区域图像中所述用户的手势进行识别，当所述用户的手势为特定手势时，将所述特定手势对应的动态效果与所述人物区域图像融合以得到合并图像。

8.根据权利要求7所述的终端设备，其特征在于，所述深度图像采集组件包括：

结构光投射器，用于向所述用户投射结构光；

结构光摄像头，用于拍摄经所述用户调制的结构光图像；以及解调所述结构光图像的各个像素对应的相位信息以得到所述深度图像。

9.根据权利要求8所述的终端设备，其特征在于，

所述结构光摄像头，具体用于解调所述结构光图像中各个像素对应的相位信息，将所述相位信息转化为深度信息，以及根据所述深度信息生成所述深度图像。

10.根据权利要求7所述的终端设备，其特征在于，

所述处理器，具体用于识别所述场景图像中的人脸区域，从所述深度图像中获取与所述人脸区域对应的深度信息，根据所述人脸区域的深度信息确定所述人物区域的深度范围，根据所述人物区域的深度范围确定与所述人脸区域连接且落入所述深度范围内的人物区域以获得所述人物区域图像。

11.根据权利要求10所述的终端设备，其特征在于，

所述处理器，还用于处理所述场景图像以得到所述场景图像的全场边缘图像，根据所述全场边缘图像修正所述人物区域图像。

12.根据权利要求7所述的终端设备，其特征在于，所述特定手势对应的动态效果包括动态图形；或者，所述特定手势对应的动态效果包括动态图形和/或所述动态图形对应的声音。

13.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。