CN107623824B

CN107623824B - 背景图像处理方法、装置和电子设备

Info

Publication number: CN107623824B
Application number: CN201710812759.3A
Authority: CN
Inventors: 张学勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2019-08-20
Anticipated expiration: 2037-09-11
Also published as: CN107623824A

Abstract

本发明公开了一种背景图像处理方法、装置和电子设备。背景图像处理方法包括：在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定所述第一用户的操作对应的目标物；获取与所述目标物对应的动态视频，其中所述动态视频用于表现所述目标物的动作；将所述动态视频叠加在所述视频画面的上层进行显示。由此，通过在视频画面上叠加显示包括目标物动作的动态视频，使得合成的视频画面更加真实、自然，提高了合成的视频画面的效果，改善了用户体验。

Description

背景图像处理方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，特别涉及一种背景图像处理方法、装置和电子设备。

背景技术

随着网络和电子技术的快速发展以及终端的迅速普及，终端的功能日益强大。例如，越来越多的终端配置了摄像头，用户可以利用摄像头拍摄照片、录像、视频聊天、网络直播或者游戏等等。

通常，利用摄像头进行视频聊天或网络直播时，视频画面中不仅会显示用户画面，还会显示用户所在环境的画面。若用户为了保护自己的卧室、家人等个人隐私，不希望对方看到自己所在环境的画面时，可以利用预设的背景图像替换当前视频画面中的背景图像。虽然这种方式虽然保护了用户的隐私，但是得到的视频画面效果较差。

发明内容

本发明的实施例提供了一种背景图像处理方法、装置及电子设备。

本发明实施方式的背景图像处理方法，包括：

在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定所述第一用户的操作对应的目标物；

获取与所述目标物对应的动态视频，其中所述动态视频用于表现所述目标物的动作；

将所述动态视频叠加在所述视频画面的上层进行显示。

本发明实施方式的背景图像处理装置，包括：确定模块，用于在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定所述第一用户的操作对应的目标物；获取模块，用于获取与所述目标物对应的动态视频，其中所述动态视频用于表现所述目标物的动作；处理模块，用于将所述动态视频叠加在所述视频画面的上层进行显示。

本发明实施方式的电子设备，包括：一个或多个处理器；存储器；和一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的背景图像处理方法的指令。

本发明实施例的计算机可读存储介质，包括与能够摄像的电子设备结合使用的计算机程序，所述计算机程序可被处理器执行以完成如上所述的背景图像处理方法。

本发明实施方式的背景图像处理方法、装置和电子设备，在获取到第一用户对合成的视频画面中的背景图像的触控操作时，首先确定第一用户的操作对应的目标物，进而获取与目标物对应的动态视频，然后将动态视频叠加在视频画面的上层进行显示。由此，通过在视频画面上叠加显示包括目标物动作的动态视频，使得合成的视频画面更加真实、自然，提高了合成的视频画面的效果，改善了用户体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明一个实施例提供的背景图像处理方法的流程示意图；

图2为本发明另一个实施例提供的背景图像处理方法的流程示意图；

图3(a)至图3(e)是根据本发明一个实施例的结构光测量的场景示意图；

图4(a)和图4(b)根据本发明一个实施例的结构光测量的场景示意图；

图5是本发明一个实施例提供的背景图像处理装置的结构示意图；

图6是本发明一个实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本申请实施例主要针对现有技术中，在获取视频画面时，通过利用预设的背景图像替换当前实际的背景图像时，得到的视频画面效果差的问题，提出一种背景图像处理方法。在获取到用户对合成的视频画面中背景图像的点击操作时，将点击操作对应的目标物对应的动态视频叠加显示在当前视频画面上，从而使得合成的视频画面具有动态特性，使得视频画面更自然。

图1为本发明一个实施例提供的背景图像处理方法的流程示意图。

如图1所示，该背景图像处理方法，包括：

步骤101，在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定所述第一用户的操作对应的目标物。

具体的，本实施例提供的背景图像处理方法，可以由本申请实施例提供的背景图像处理装置执行。该装置可以被配置在任意具有摄像组件的电子设备中，以对摄像组件获取的视频画面进行背景替换和处理。

在某些实施方式中，电子设备，可以包括手机、平板电脑、笔记本电脑、智能手环、智能手表、智能头盔、智能眼镜等。

其中，第一用户对合成的视频画面中背景图像的触控操作，可以是第一用户对背景图像中某一物体的点击操作，或者，也可以是第一用户对背景图像中某个区域执行的画线选取等操作，本实施例对此不做限定。

具体实现时，当背景图像处理装置，在获取到第一用户的触控操作后，即可首先根据用户的点击位置，或者选中的区域，确定第一用户选择的目标物。

举例来说，若已知背景图像中，位于区域A中的物体为“狗”，位于区域B中的物体为“鱼缸”。那么在根据第一用户的触控操作，确定第一用户选中的区域为B时，则可以确定第一用户选择的目标物为“鱼”。

步骤102，获取与所述目标物对应的动态视频，其中所述动态视频用于表现所述目标物的动作。

步骤103，将所述动态视频叠加在所述视频画面的上层进行显示。

其中，将动态视频叠加在视频画面的上层进行显示，是指动态视频所在的显示层的优先级高于视频画面所在的显示层的优先级。

具体的，本实施例中，对于背景图像中的所有具有动态特性的物体，均可以提前获取与该物体对应的动态视频，以对该物体的动作进行展示。进而在显示合成的视频画面的过程中，若第一用户对视频画面中的背景图像进行了触控操作，则可以在确定了第一用户的操作对应的目标物体后，即可获取与目标物体对应的动态视频，来对第一用户选择的目标物体的动作进行展示。从而使得第一用户看到的视频画面中，背景图像并具有动态特性，使得合成的视频画面更真实，提高了合成的视频画面的效果，改善了用户体验。

需要说明的是，本申请实施例提供的动态视频，除了可以展现目标物的动作外，还可以用于模拟目标物的声音。比如若目标物为“狗”，那么与“狗”对应的动态视频中，即可以包括狗走路、吐舌头等动作，还可以包括狗的喘息声；若目标物为“鱼”，那么与“鱼”对应的动态视频中，即可以包括鱼游动、吞食等动作，还可以包括鱼游动时的水声等，从而使得用户看到的合成后视频画面中，不仅包括背景图像中动态物的动作，还可以听到动态物由于动作而发出的声音，进一步提高了合成的视频画面的真实性，改善了用户体验。

具体实现时，上述步骤103可以通过多种方式实现。

示例一

将所述动态视频叠加在所述视频画面中所述目标物所在位置处进行显示。

举例来说，若合成的视频画面中，背景图像中包括一个“鱼缸”，那么当第一用户选择鱼缸区域时，则可以获取“鱼缸”中的鱼的动态视频，比如包括鱼的游动、进食等动作的视频，进而将该动态视频叠加在视频画面中的“鱼缸”所在区域进行显示，从而使得用户看到的视频画面中，“鱼缸”中的鱼为非静止的，使得视频画面更真是，效果更好。

进一步的，为了进一步提高叠加显示动态视频的视频画面的真实性，本实施例中，在将动态视频叠加在视频画面中的目标物位置处进行显示前，还可以包括：

确定所述动态视频的分辨率与所述视频画面的分辨率相同。

具体实现时，可以以与视频画面相同的分辨率获取视频画面中各动态物对应的动态视频。或者，也可以预置所有动态物对应的动态视频，进而在将动态视频展现前，再根据当前视频画面的分辨率，对动态视频的分辨率进行调整，比如插值或者压缩，以使动态视频的分辨率与视频画面的分辨率相同。从而使得叠加了动态视频的视频画面更加自然、真实，效果更好。

示例二

将所述动态视频叠加在所述视频画面中预设位置处进行放大显示。

具体的，本申请实施例中，为了使得第一用户可以更清晰的看到目标物体对应的动态视频，还可以将动态视频放大后进行显示。

其中，预设位置，可以根据需要设置，比如可以为视频画面的任意一个角落位置，或者也可以为视频画面中非人物所在位置处的任意位置，本实施例对此不做限定。

需要说明的是，对动态视频进行放大显示时，可以固定的放大倍数进行放大，或者，可以根据动态视频的分辨率选择合适的放大倍数进行放大，本实施例对此不做限定。

可以理解的是，本申请实施例中，目标物不仅可以为动物，还可以为植物。举例来说，若背景图像为室外场景，那么背景图像中包括的植物，比如花、草等在有风吹过或者人走过时，也会产生运动，相应的鱼草对应的动态视频，可以包括草随风摆动的视频等，本实施例对此不做限定。

本实施例提供的背景图像处理方法，在获取到第一用户对合成的视频画面中的背景图像的触控操作时，首先确定第一用户的操作对应的目标物，进而获取与目标物对应的动态视频，然后将动态视频叠加在视频画面的上层进行显示。由此，通过在视频画面上叠加显示包括目标物动作的动态视频，使得合成的视频画面更加真实、自然，提高了合成的视频画面的效果，改善了用户体验。

通过上述分析可知，可以根据用户的选择，通过将合成的视频画面背景图像中的目标物对应的动态视频叠加在视频画面中进行显示，来使得合成的视频画面更加真实性、自然。具体实现时，为了使得合成的视频画面更加真实，还需要保证进行画面合成时，背景图像与前景图像的融合自然，下面结合图2，对本实施例提供的背景图像处理方法进行进一步的说明。

图2为本发明另一个实施例提供的背景图像处理方法的流程示意图。

如图2所示，该背景图像处理方法在上述步骤101之前，还包括：

步骤201，获取包括第二用户的场景图像及深度图像。

具体的，本申请实施例中包括第二用户的场景图像，可以由电子设备中的可见光摄像头获得，包括第二用户的深度的图像，可以由电子设备中的深度图像采集组件获取。本实施例对此不做限定。

其中，场景图像为可以是灰度图像或彩色图像，深度图像表征包含当前用户的场景中各个人或物体的深度信息。场景图像的场景范围与深度图像的场景范围一致，且场景图像中的各个像素均能在深度图像中找到对应该像素的深度信息。

现有的分割人物与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割，但这种分割方法易受外界光照等环境因素的影响。本发明实施通过获取当前用户的深度图像以将场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，尤其可以准确标定出人物区域的边界。进一步地，较为精准的人物区域图像与预定三维背景融合后的合并图像的效果更佳。

在某些实施方式中，上述获取第二用户的深度图像的步骤包括：

向第二用户投射结构光；

拍摄经所述第二用户调制的结构光图像；和

解调结构光图像的各个像素对应的相位信息以得到包括所述第二用户的深度图像。

具体的，深度图像采集组件包括结构光投射器和结构光摄像头。结构光投射器可用于向当前用户透射结构光；结构光摄像头可用于拍摄经当前用户调制的结构光图像，以及解调结构光图像的各个像素对应的相位信息以得到深度图像。

具体地，结构光投射器将一定模式的结构光投射到当前用户的面部及躯体上后，在当前用户的面部及躯体的表面会形成由当前用户调制后的结构光图像。结构光摄像头拍摄经调制后的结构光图像，再对结构光图像进行解调以得到深度图像。其中，结构光的模式可以是激光条纹、格雷码、正弦条纹、非均匀散斑等。

进一步的，解调结构光图像的各个像素对应的相位信息以得到深度图像的步骤包括：

解调结构光图像中各个像素对应的相位信息；

将相位信息转化为深度信息；和

根据深度信息生成深度图像。

具体地，与未经调制的结构光相比，调制后的结构光的相位信息发生了变化，在结构光图像中呈现出的结构光是产生了畸变之后的结构光，其中，变化的相位信息即可表征物体的深度信息。因此，结构光摄像头首先解调出结构光图像中各个像素对应的相位信息，再根据相位信息计算出深度信息，从而得到最终的深度图像。

为了使本领域的技术人员更加清楚的了解根据结构来采集当前用户的面部及躯体的深度图像的过程，下面以一种应用广泛的光栅投影技术(条纹投影技术)为例来阐述其具体原理。其中，光栅投影技术属于广义上的面结构光。

如图3(a)所示，在使用面结构光投影的时候，首先通过计算机编程产生正弦条纹，并将正弦条纹通过结构光投射器投射至被测物，再利用结构光摄像头拍摄条纹受物体调制后的弯曲程度，随后解调该弯曲条纹得到相位，再将相位转化为深度信息即可获取深度图像。为避免产生误差或误差耦合的问题，使用结构光进行深度信息采集前需对深度图像采集组件进行参数标定，标定包括几何参数(例如，结构光摄像头与结构光投射器之间的相对位置参数等)的标定、结构光摄像头的内部参数以及结构光投射器的内部参数的标定等。

具体而言，第一步，计算机编程产生正弦条纹。由于后续需要利用畸变的条纹获取相位，比如采用四步移相法获取相位，因此这里产生四幅相位差为的条纹，然后结构光投射器将该四幅条纹分时投射到被测物(图3(a)所示的面具)上，结构光摄像头采集到如图3(b)左边的图，同时要读取如图3(b)右边所示的参考面的条纹。

第二步，进行相位恢复。结构光摄像头根据采集到的四幅受调制的条纹图(即结构光图像)计算出被调制相位，此时得到的相位图是截断相位图。因为四步移相算法得到的结果是由反正切函数计算所得，因此结构光调制后的相位被限制在[-π,π]之间，也就是说，每当调制后的相位超过[-π,π]，其又会重新开始。最终得到的相位主值如图3(c)所示。

其中，在进行相位恢复过程中，需要进行消跳变处理，即将截断相位恢复为连续相位。如图3(d)所示，左边为受调制的连续相位图，右边是参考连续相位图。

第三步，将受调制的连续相位和参考连续相位相减得到相位差(即相位信息)，该相位差表征了被测物相对参考面的深度信息，再将相位差代入相位与深度的转化公式(公式中涉及到的参数经过标定)，即可得到如图3(e)所示的待测物体的三维模型。

应当理解的是，在实际应用中，根据具体应用场景的不同，本发明实施例中所采用的结构光除了上述光栅之外，还可以是其他任意图案。

作为一种可能的实现方式，本发明还可使用散斑结构光进行当前用户的深度信息的采集。

具体地，散斑结构光获取深度信息的方法是使用一基本为平板的衍射元件，该衍射元件具有特定相位分布的浮雕衍射结构，横截面为具有两个或多个凹凸的台阶浮雕结构。衍射元件中基片的厚度大致为1微米，各个台阶的高度不均匀，高度的取值范围可为0.7微米～0.9微米。图4(a)所示结构为本实施例的准直分束元件的局部衍射结构。图4(b)为沿截面A-A的剖面侧视图，横坐标和纵坐标的单位均为微米。散斑结构光生成的散斑图案具有高度的随机性，并且会随着距离的不同而变换图案。因此，在使用散斑结构光获取深度信息前，首先需要标定出空间中的散斑图案，例如，在距离结构光摄像头的0～4米的范围内，每隔1厘米取一个参考平面，则标定完毕后就保存了400幅散斑图像，标定的间距越小，获取的深度信息的精度越高。随后，结构光投射器将散斑结构光投射到被测物(即当前用户)上，被测物表面的高度差使得投射到被测物上的散斑结构光的散斑图案发生变化。结构光摄像头拍摄投射到被测物上的散斑图案(即结构光图像)后，再将散斑图案与前期标定后保存的400幅散斑图像逐一进行互相关运算，进而得到400幅相关度图像。空间中被测物体所在的位置会在相关度图像上显示出峰值，把上述峰值叠加在一起并经过插值运算后即可得到被测物的深度信息。

由于普通的衍射元件对光束进行衍射后得到多数衍射光，但每束衍射光光强差别大，对人眼伤害的风险也大。即便是对衍射光进行二次衍射，得到的光束的均匀性也较低。因此，利用普通衍射元件衍射的光束对被测物进行投射的效果较差。本实施例中采用准直分束元件，该元件不仅具有对非准直光束进行准直的作用，还具有分光的作用，即经反射镜反射的非准直光经过准直分束元件后往不同的角度出射多束准直光束，且出射的多束准直光束的截面面积近似相等，能量通量近似相等，进而使得利用该光束衍射后的散点光进行投射的效果更好。同时，激光出射光分散至每一束光，进一步降低了伤害人眼的风险，且散斑结构光相对于其他排布均匀的结构光来说，达到同样的采集效果时，散斑结构光消耗的电量更低。

步骤202，处理所述场景图像和所述深度图像，提取所述第二用户在所述场景图像中的人物区域而获得人物区域图像。

具体实现时，上述步骤202，可以通过以下方式实现：

识别场景图像中的人脸区域；

从深度图像中获取与人脸区域对应的深度信息；

根据人脸区域的深度信息确定人物区域的深度范围；

根据人物区域的深度范围确定与人脸区域连接且落入深度范围内的人物区域以获得人物区域图像。

具体地，首先可采用已训练好的深度学习模型识别出场景图像中的人脸区域，随后根据场景图像与深度图像的对应关系可确定出人脸区域的深度信息。由于人脸区域包括鼻子、眼睛、耳朵、嘴唇等特征，因此，人脸区域中的各个特征在深度图像中所对应的深度数据是不同的，例如，在人脸正对深度图像采集组件时，深度图像采集组件拍摄得的深度图像中，鼻子对应的深度数据可能较小，而耳朵对应的深度数据可能较大。因此，上述的人脸区域的深度信息可能为一个数值或是一个数值范围。其中，当人脸区域的深度信息为一个数值时，该数值可通过对人脸区域的深度数据取平均值得到；或者，可以通过对人脸区域的深度数据取中值得到。

由于人物区域包含人脸区域，也即是说，人物区域与人脸区域同处于某一个深度范围内，因此，确定出人脸区域的深度信息后，可以根据人脸区域的深度信息设定人物区域的深度范围，再根据人物区域的深度范围提取落入该深度范围内且与人脸区域相连接的人物区域以获得人物区域图像。

如此，即可根据深度信息从场景图像中提取出人物区域图像。由于深度信息的获取不受环境中光照、色温等因素的影像响，因此，提取出的人物区域图像更加准确。

进一步的，为了使得获取的人物区域图像更加准确，在获得人物区域图像后，还可以通过以下步骤，对人物区域图像进行修正：

处理场景图像以得到场景图像的全场边缘图像；和

根据全场边缘图像修正人物区域图像。

具体的，可以首先对场景图像进行边缘提取以得到全场边缘图像，其中，全场边缘图像中的边缘线条包括当前用户以及当前用户所处场景中背景物体的边缘线条。具体地，可通过Canny算子对场景图像进行边缘提取。Canny算子进行边缘提取的算法的核心主要包括以下几步：首先，用2D高斯滤波模板对场景图像进行卷积以消除噪声；随后，利用微分算子得到各个像素的灰度的梯度值，并根据梯度值计算各个像素的灰度的梯度方向，通过梯度方向可以找到对应像素沿梯度方向的邻接像素；随后，遍历每一个像素，若某个像素的灰度值与其梯度方向上前后两个相邻像素的灰度值相比不是最大的，那么认为这个像素不是边缘点。如此，即可确定场景图像中处于边缘位置的像素点，从而获得边缘提取后的全场边缘图像。

在获取全场边缘图像后，再根据全场边缘图像对人物区域图像进行修正。可以理解，人物区域图像是将场景图像中与人脸区域连接并落入设定的深度范围的所有像素进行归并后得到的，在某些场景下，可能存在一些与人脸区域连接且落入深度范围内的物体。因此，为使得提取的人物区域图像更为准确，可使用全场边缘图对人物区域图像进行修正。

进一步地，还可对修正后的人物区域图像进行二次修正，例如，可对修正后的人物区域图像进行膨胀处理，扩大人物区域图像以保留人物区域图像的边缘细节。

步骤203，将所述人物区域图像与预设三维背景图像融合以得到所述合成的视频画面。

具体的，在得到人物区域图像后，即可将人物区域图像与预定三维背景进行融合，进而得到合成的视频画面。

在某些实施方式中，预定三维背景可以是由背景图像处理装置随机选取，或者由当前用户自行选定。

进一步的，上述预定的三维背景图像，可以是背景图像处理装置，通过三维建模生成的。具体的，可以通过以下步骤，生成上述遇到的三维背景图像：

向预设背景投射结构光；

拍摄经所述预设背景调制的结构光图像；

解调所述结构光图像的各个像素对应的相位信息，得到所述预定三维背景图像。

具体的，上述获取三维背景图像的过程，与获取第二用户的深度图像的过程相似，此处不再赘述。

具体的，在获取到预定三维背景图像后，若确定该三维背景图像中包含动态物，比如“够”、“鱼”、“草”等，还可以录制该动态物对应的动态视频。

本实施例提供的背景图像处理方法，首先获取包括第二用户的场景图像及深度图像，进而对获取的图像进行处理，提取第二用户在场景图像中的人物区域图像，然后将人物区域图像鱼预定的三维背景图像融合以得到合成的视频画面，然后在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定第一用户的操作对应的目标物，然后获取目标物对应的动态视频，进而将动态视频叠加在视频画面上进行显示。由此，通过利用深度图像提取人物区域，从而使得提取的人物区域更加准确，合成的视频画面的效果较好，且在获取到用户对合成的视频画面中背景图像的触控操作后，将用户操作对应的目标物的动态视频叠加显示在合成是视频画面上显示，使得合成的视频画面更加真实、自然，提高了合成的视频画面的效果，改善了用户体验。

图5为本申请一个实施例提供的背景图像处理装置结构示意图。

如图5所示，该背景图像处理装置，包括：

确定模块51，用于在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定所述第一用户的操作对应的目标物；

获取模块52，用于获取与所述目标物对应的动态视频，其中所述动态视频用于表现所述目标物的动作；

处理模块53，用于将所述动态视频叠加在所述视频画面的上层进行显示。

具体的，背景图像处理装置可以利用硬件和/或软件实现。

需要说明的是，本实施例提供的背景图像处理装置可执行如上述图1或图2所述的背景图像处理方法，以对背景图像进行处理，从而使得合成的视频画面更自然、更真实。

本实施例提供的背景图像处理装置，在获取到第一用户对合成的视频画面中的背景图像的触控操作时，首先确定第一用户的操作对应的目标物，进而获取与目标物对应的动态视频，然后将动态视频叠加在视频画面的上层进行显示。由此，通过在视频画面上叠加显示包括目标物动作的动态视频，使得合成的视频画面更加真实、自然，提高了合成的视频画面的效果，改善了用户体验。

图6为本申请一个实施例提供的电子设备结构示意图。

如图6所示，该电子设备(图中以手机为例进行示意)，包括：一个或多个处理器61；

存储器62；和

一个或多个程序，其中所述一个或多个程序被存储在所述存储器62中，并且被配置成由所述一个或多个处理器61执行，所述程序包括用于执行权利要求1至7任意一项所述的背景图像处理方法的指令。

进一步的，该电子设备还包括成像设备63。

成像设备63包括可见光摄像头631和深度图像采集组件632。

具体地，可见光摄像头包括图像传感器和透镜，可见光摄像头可用于捕捉当前用户的彩色信息以获得场景图像，其中，图像传感器包括彩色滤镜阵列(如Bayer滤镜阵列)，透镜的个数可为一个或多个。可见光摄像头在获取场景图像过程中，图像传感器中的每一个成像像素感应来自拍摄场景中的光强度和波长信息，生成一组原始图像数据；图像传感器将该组原始图像数据发送至处理器61中，处理器61对原始图像数据进行去噪、插值等运算后即得到彩色的场景图像。处理器可按多种格式对原始图像数据中的每个图像像素逐一处理，例如，每个图像像素可具有8、10、12或14比特的位深度，处理器可按相同或不同的位深度对每一个图像像素进行处理。

深度图像采集组件包括结构光投射器和结构光摄像头，深度图像采集组件可用于捕捉当前用户的深度信息以得到深度图像。结构光投射器用于将结构光投射至当前用户，其中，结构光图案可以是激光条纹、格雷码、正弦条纹或者随机排列的散斑图案等。结构光摄像头包括图像传感器和透镜，透镜的个数可为一个或多个。图像传感器用于捕捉结构光投射器投射至当前用户上的结构光图像。结构光图像可由深度采集组件发送至处理器61进行解调、相位恢复、相位信息计算等处理以获取当前用户的深度信息。

在某些实施方式中，可见光摄像头与结构光摄像头的功能可由一个摄像头实现，也即是说，成像设备63仅包括一个摄像头和一个结构光投射器，上述摄像头不仅可以拍摄场景图像，还可拍摄结构光图像。

除了采用结构光获取深度图像外，还可通过双目视觉方法、基于飞行时间差(Timeof Flight，TOF)等深度像获取方法来获取当前用户的深度图像。

处理器61进一步用于将由从场景图像和深度图像中提取的人物区域图像与预定二维背景图像融合。在提取人物区域图像时，处理器61可以结合深度图像中的深度信息从场景图像中提取出二维的人物区域图像，也可以根据深度图像中的深度信息建立人物区域的三维图，再结合场景图像中的色彩信息对三维的人物区域进行颜色填补以得到三维的彩色的人物区域图像。因此，融合处理人物区域图像和预定二维背景图像时可以是将二维的人物区域图像与预定二维背景图像进行融合以得到合并图像，也可以是将三维的彩色的人物区域图像与预定二维背景图像进行融合以得到合并图像。

电子设备还可包括显示器64。显示器64显示合成的视频画面以供用户观看，或者由图形引擎或图形处理器(Graphics Processing Unit，GPU)进行进一步的处理。

电子设备中还包括编码器/解码器，编码器/解码器可编解码场景图像、深度图像及合并图像等的图像数据，编码的图像数据可被保存在图像存储器中，并可以在图像显示在显示器上之前由解码器解压缩以进行显示。编码器/解码器可由中央处理器(CentralProcessing Unit，CPU)、GPU或协处理器实现。换言之，编码器/解码器可以是中央处理器(Central Processing Unit，CPU)、GPU、及协处理器中的任意一种或多种。

进一步的，还可以包括控制逻辑器65。成像设备63在成像时，处理器61会根据成像设备获取的数据进行分析以确定成像设备63的一个或多个控制参数(例如，曝光时间等)的图像统计信息。处理器61将图像统计信息发送至控制逻辑器65，控制逻辑器65控制成像设备63以确定好的控制参数进行成像。控制逻辑器65可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的图像统计信息确定成像设备65的控制参数。

进一步的，本发明实施例还提供一种计算机可读存储介质。

该计算机可读存储介质包括与能够摄像的电子设备结合使用的计算机程序。计算机程序可被处理器执行以完成上述任意一项实施方式的背景图像处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种背景图像处理方法，其特征在于，包括：

在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定所述第一用户的操作对应的目标物，其中，所述合成的视频画面为将第二用户对应的人物区域图像与预定三维背景图像融合后得到的视频画面，所述人物区域图像是根据向所述第二用户投射结构光后，拍摄的经所述第二用户调制的结构光图像得到的，所述预定三维背景图像是根据向预设背景投射结构光后，拍摄的经所述预设背景调制的结构光图像得到的；

将所述动态视频叠加在所述视频画面的上层进行显示。

2.如权利要求1所述的方法，其特征在于，所述将所述动态视频叠加在所述视频画面的上层进行显示，包括：

将所述动态视频叠加在所述视频画面中所述目标物所在位置处进行显示；

或者，将所述动态视频叠加在所述视频画面中预设位置处进行放大显示。

3.如权利要求2所述的方法，其特征在于，所述将所述动态视频叠加在所述视频画面中所述目标物所在位置处进行显示之前，还包括：

确定所述动态视频的分辨率与所述视频画面的分辨率相同。

4.如权利要求1-3任一所述的方法，其特征在于，所述获取到第一用户对合成的视频画面中背景图像的触控操作之前，还包括：

获取包括第二用户的场景图像及深度图像；

处理所述场景图像和所述深度图像，提取所述第二用户在所述场景图像中的人物区域而获得人物区域图像；

将所述人物区域图像与预定三维背景图像融合以得到所述合成的视频画面。

5.根据权利要求4所述的图像处理方法，其特征在于，所述提取所述第二用户在所述场景图像中的人物区域而获得人物区域图像的步骤包括：

识别所述场景图像中的人脸区域；

从所述深度图像中获取与所述人脸区域对应的深度信息；

根据所述人脸区域的深度信息确定所述人物区域的深度范围；和

根据所述人物区域的深度范围确定与所述人脸区域连接且落入所述深度范围内的人物区域以获得所述人物区域图像。

6.如权利要求4所述的方法，其特征在于，所述将所述人物区域图像与预定三维背景图像融合以得到所述画面之前，还包括：

向预设背景投射结构光；

拍摄经所述预设背景调制的结构光图像；

7.如权利要求6所述的方法，其特征在于，所述得到所述预定三维背景图像之后，还包括：

若确定所述预定三维背景图像中包含动态物，则录制所述动态物的动态视频。

8.一种背景图像处理装置，其特征在于，包括：

确定模块，用于在获取到第一用户对合成的视频画面中背景图像的触控操作时，确定所述第一用户的操作对应的目标物，其中，所述合成的视频画面为将第二用户对应的人物区域图像与预定三维背景图像融合后得到的视频画面，所述人物区域图像是根据向所述第二用户投射结构光后，拍摄的经所述第二用户调制的结构光图像得到的，所述预定三维背景图像是根据向预设背景投射结构光后，拍摄的经所述预设背景调制的结构光图像得到的；

获取模块，用于获取与所述目标物对应的动态视频，其中所述动态视频用于表现所述目标物的动作；

处理模块，用于将所述动态视频叠加在所述视频画面的上层进行显示。

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行权利要求1至7任意一项所述的背景图像处理方法的指令。

10.一种计算机可读存储介质，其特征在于，包括与能够摄像的电子设备结合使用的计算机程序，所述计算机程序可被处理器执行以完成权利要求1至7任意一项所述的背景图像处理方法。