CN107743205A

CN107743205A - 图像处理方法及装置、电子装置和计算机可读存储介质

Info

Publication number: CN107743205A
Application number: CN201710811476.7A
Authority: CN
Inventors: 张学勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2017-09-11
Filing date: 2017-09-11
Publication date: 2018-02-27

Abstract

本发明公开了一种图像处理方法，用于处理合并图像。合并图像由预定背景图像与当前用户在场景图像中的人物区域图像融合而成。图像处理方法包括判断连续两帧场景图像中的当前用户的真实位置是否发生变化，以及在真实位置发生变化时，将多帧合并图像与预定脚步声音模型融合以输出有声视频。本发明还公开了一种图像处理装置、电子装置和计算机可读存储介质。本发明实施方式的图像处理方法、图像处理装置、电子装置和计算机可读存储介质根据当前用户的人物区域图像的位置变化作为判定当前用户是否在真实场景下进行移动的依据，并在当前用户移动时将合并图像与预定脚步声音模型融合，从而实现当前用户移动过程中的脚步匹配，增强图像融合的趣味性。

Description

图像处理方法及装置、电子装置和计算机可读存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像处理方法及装置、电子装置和计算机可读存储介质。

背景技术

现有的图像融合通常只将人物图像和背景图像进行融合，缺乏声音的匹配，图像融合的趣味性较低。

发明内容

本发明的实施例提供了一种图像处理方法、图像处理装置、电子装置和计算机可读存储介质。

本发明实施方式的图像处理方法用于处理合并图像。所述合并图像由预定背景与当前用户在场景图像中的人物区域图像融合而成。所述图像处理方法包括：

判断连续两帧场景图像中的所述当前用户的真实位置是否发生变化，所述连续两帧场景图像包括前一帧场景图像和当前帧场景图像，所述前一帧场景图像与前一帧合并图像对应，所述当前帧场景图像与当前帧合并图像对应；和

在所述真实位置发生变化时，将多帧所述合并图像与预定脚步声音模型融合以输出有声视频。

本发明实施方式的图像处理装置用于处理合并图像。所述合并图像由预定背景图像与当前用户在场景图像中的人物区域图像融合而成。，所述图像处理装置包括处理器，所述处理器用于判断连续两帧场景图像中的所述当前用户的真实位置是否发生变化，所述连续两帧场景图像包括前一帧场景图像和当前帧场景图像，所述前一帧场景图像与前一帧合并图像对应，所述当前帧场景图像与当前帧合并图像对应；以及在所述真实位置发生变化时，将多帧所述合并图像与预定脚步声音模型融合以输出有声视频。

本发明实施方式的电子装置包括一个或多个处理器、存储器和一个或多个程序。其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个活多个处理器执行，所述程序包括用于执行上述的图像处理方法的指令。

本发明实施方式的计算机可读存储介质包括与能够摄像的电子装置结合使用的计算机程序所述计算机程序可被处理器执行以完成上述的图像处理方法。

本发明实施方式的图像处理方法、图像处理装置、电子装置和计算机可读存储介质根据当前用户的人物区域图像的位置变化信息作为判定当前用户是否在真实场景下进行移动的依据，并在当前用户移动时将合并图像与预定脚步声音模型融合，从而实现当前用户移动过程中的脚步匹配，增强图像融合的趣味性，改善用户的使用体验。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明某些实施方式的图像处理方法的流程示意图。

图2是本发明某些实施方式的图像处理装置的示意图。

图3是本发明某些实施方式的电子装置的结构示意图。

图4是本发明某些实施方式的图像处理方法的流程示意图。

图5是本发明某些实施方式的图像处理方法的流程示意图。

图6是本发明某些实施方式的图像处理方法的流程示意图。

图7(a)至图7(e)是根据本发明一个实施例的结构光测量的场景示意图。

图8(a)和图8(b)是根据本发明一个实施例的结构光测量的场景示意图。

图9是本发明某些实施方式的图像处理方法的流程示意图。

图10是本发明某些实施方式的图像处理方法的流程示意图。

图11是本发明某些实施方式的图像处理方法的流程示意图。

图12是本发明某些实施方式的图像处理方法的流程示意图。

图13是本发明某些实施方式的图像处理方法的流程示意图。

图14是本发明某些实施方式的图像处理方法的流程示意图。

图15是本发明某些实施方式的图像处理装置的示意图。

图16是本发明某些实施方式的电子装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1，本发明实施方式的图像处理方法用于处理合并图像。合并图像由预定背景图像与当前用户在场景图像中的人物区域图像融合而成。图像处理方法包括：

02：判断连续两帧场景图像中的当前用户的真实位置是否发生变化，连续两帧场景图像包括前一帧场景图像和当前帧场景图像，前一帧场景图像与前一帧合并图像对应，当前帧场景图像与当前帧合并图像对应；和

04：在真实位置发生变化时，将多帧合并图像与预定脚步声音模型融合以输出有声视频。

请参阅图2，本发明实施方式的图像处理方法可以由本发明实施方式的图像处理装置100实现。本发明实施方式的图像处理装置100用于处理合并图像。合并图像由预定背景图像与当前用户在场景图像中的人物区域图像融合而成。图像处理装置100包括处理器20。步骤02和步骤04均可以由处理器20实现。

也即是说，处理器20可用于判断连续两帧场景图像中的当前用户的真实位置是否发生变化，连续两帧场景图像包括前一帧场景图像和当前帧场景图像，前一帧场景图像与前一帧合并图像对应，当前帧场景图像与当前帧合并图像对应，以及在真实位置发生变化时，将多帧合并图像与预定脚步声音模型融合以输出有声视频。

请参阅图3，在某些实施方式中，本发明实施方式的图像处理装置100可以应用于本发明实施方式的电子装置100。也即是说，本发明实施方式的电子装置1000包括本发明实施方式的图像处理装置100。

在某些实施方式中，电子装置1000包括手机、平板电脑、笔记本电脑、智能手环、智能手表、智能头盔、智能眼镜等。

在某些实施方式中，预定背景图像可以是预定二维背景图像，也可以是预定三维背景图像。预定图像可以由处理器20随机选取，也可以由当前用户自行选择。

另外，在预定背景图像为预定三维背景图像时，预定三维背景图像可以由真实场景建模得到，也可以是由动画制作得到。

现有的图像融合通常只将用户的图像与背景图像进行融合，例如，在体感游戏等使用场景中，通常只将模拟用户的虚拟图像与游戏的背景图像进行融合，但并不进行脚步声匹配。本发明实施方式的图像处理方法、图像处理装置100和电子装置1000采用的是用户的真实图像(即，人物区域图像)与背景图像进行融合，且能根据当前用户的人物区域图像的位置变化信息作为判定当前用户是否在真实场景下进行移动的依据，并在当前用户移动时将合并图像与预定脚步声音模型融合，从而实现当前用户移动过程中的脚步匹配，增强图像融合的趣味性，改善用户的使用体验。

请参阅图4，在某些实施方式中，本发明实施方式的图像处理方法还包括：

011：以预设频率采集多帧当前用户的场景图像；

012：以预设频率采集多帧当前用户的深度图像；

013：处理每帧场景图像和深度图像以提取当前用户在场景图像中的人物区域图像；和

014：将每帧人物区域图像与预定背景图像融合得到多帧合并图像。

请再参阅图3，在某些实施方式中，图像处理装置100还包括可见光摄像头11和深度图像采集组件12。步骤011可以由可见光摄像头11实现。步骤012可以由深度图像采集组件12实现。步骤013和步骤014可以由处理器20实现。

也即是说，可见光摄像头11可用于以预设频率采集多帧当前用户的场景图像。深度图像采集组件12可用于以预设频率采集多帧当前用户的深度图像。处理器20可用于处理每帧场景图像和深度图像以提取当前用户在场景图像中的人物区域图像，以及将每帧人物区域图像与预定背景图像融合得到多帧合并图像。

其中，预设频率指的是可见光摄像头11和深度图像采集组件12每秒钟采集图像的帧率，帧率的取值可以是每秒钟30帧、每秒钟60帧、每秒钟120帧等。帧率越高，多帧合并图像与预定脚步声音模型融合后的有声视频播放时更加流畅。可见光摄像头11采集的场景图像是二维的灰度图像或彩色图像，深度图像采集组件12采集的深度图像表征包含当前用户的场景中各个人或物体的深度信息。在本发明的具体实施例中，可见光摄像头11和深度图像采集组件12应采用同一预设频率进行图像采集，如此，多帧场景图像与多帧深度图像一一对应，便于步骤013中对人物区域图像的提取。另外，场景图像的场景范围与深度图像的场景范围一致，且场景图像中的各个像素均能在深度图像中找到对应该像素的深度信息。

现有的分割人物与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行人物与背景的分割，但这种分割方法易受外界光照等环境因素的影响。本发明实施方式的图像处理方法通过获取当前用户的深度图像以将场景图像中的人物区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响，因此，通过深度图像提取到的人物区域更加准确，尤其可以准确标定出人物区域的边界。进一步地，较为精准的人物区域图像与预定背景图像融合后的合并图像的效果更佳。

请参阅图5，在某些实施方式中，步骤012以预设频率采集多帧当前用户的深度图像包括：

0121：向当前用户投射结构光；

0122：以预设频率拍摄多帧经当前用户调制的结构光图像；和

0123：解调每帧结构光图像的各个像素对应的相位信息以得到多帧深度图像。

请再参阅图2，在某些实施方式中，深度图像采集组件包括结构光投射器121和结构光摄像头122。步骤0121可以由结构光投射器121实现，步骤0122可以由结构光摄像头122实现。

也即是说，结构光投射器121可用于向当前用户投射结构光。结构光摄像头122可用于以预设频率拍摄多帧经当前用户调制的结构光图像，以及解调每帧结构光图像的各个像素对应的相位信息以得到多帧深度图像。

具体地，结构光投射器121将一定模式的结构光投射到当前用户的面部及躯体上后，在当前用户的面部及躯体的表面会形成由当前用户调制后的结构光图像。结构光摄像头122以预设频率拍摄多帧经调制后的结构光图像，再对每一帧结构光图像进行解调以得到与该帧结构光图像对应的深度图像，如此，对多帧结构光图像进行解调后即可得到多帧深度图像。其中，结构光的模式可以是激光条纹、格雷码、正弦条纹、非均匀散斑等。

请参阅图6，在某些实施方式中，步骤0123解调每帧结构光图像的各个像素对应的相位信息以得到多帧深度图像包括：

01231：解调每帧结构光图像中各个像素对应的相位信息；

01232：将相位信息转化为深度信息；和

01233：根据深度信息生成深度图像。

请再参阅图3，在某些实施方式中，步骤01231、步骤01232和步骤01233均可以由结构光摄像头122实现。

也即是说，结构光摄像头122还可用于解调每帧结构光图像中各个像素对应的相位信息，将相位信息转化为深度信息，以及根据深度信息生成深度图像。

具体地，与未经调制的结构光相比，调制后的结构光的相位信息发生了变化，在结构光图像中呈现出的结构光是产生了畸变之后的结构光，其中，变化的相位信息即可表征物体的深度信息。因此，结构光摄像头122首先解调出每帧结构光图像中各个像素对应的相位信息，再根据相位信息计算出深度信息，从而得到与该帧结构光图像对应的深度图像。

为了使本领域的技术人员更加清楚的了解根据结构光来采集当前用户的面部及躯体的深度图像的过程，下面以一种应用广泛的光栅投影技术(条纹投影技术)为例来阐述其具体原理。其中，光栅投影技术属于广义上的面结构光。

如图7(a)所示，在使用面结构光投影的时候，首先通过计算机编程产生正弦条纹，并将正弦条纹通过结构光投射器121投射至被测物，再利用结构光摄像头122拍摄条纹受物体调制后的弯曲程度，随后解调该弯曲条纹得到相位，再将相位转化为深度信息即可获取深度图像。为避免产生误差或误差耦合的问题，使用结构光进行深度信息采集前需对深度图像采集组件12进行参数标定，标定包括几何参数(例如，结构光摄像头122与结构光投射器121之间的相对位置参数等)的标定、结构光摄像头122的内部参数以及结构光投射器121的内部参数的标定等。

具体而言，第一步，计算机编程产生正弦条纹。由于后续需要利用畸变的条纹获取相位，比如采用四步移相法获取相位，因此这里产生四幅相位差为π/2的条纹，然后结构光投射器121将该四幅条纹分时投射到被测物(图7(a)所示的面具)上，结构光摄像头122采集到如图7(b)左边的图，同时要读取如图7(b)右边所示的参考面的条纹。

第二步，进行相位恢复。结构光摄像头122根据采集到的四幅受调制的条纹图(即结构光图像)计算出被调制相位，此时得到的相位图是截断相位图。因为四步移相算法得到的结果是由反正切函数计算所得，因此结构光调制后的相位被限制在[-π,π]之间，也就是说，每当调制后的相位超过[-π,π]，其又会重新开始。最终得到的相位主值如图7(c)所示。

其中，在进行相位恢复过程中，需要进行消跳变处理，即将截断相位恢复为连续相位。如图7(d)所示，左边为受调制的连续相位图，右边是参考连续相位图。

第三步，将受调制的连续相位和参考连续相位相减得到相位差(即相位信息)，该相位差表征了被测物相对参考面的深度信息，再将相位差代入相位与深度的转化公式(公式中涉及到的参数经过标定)，即可得到如图7(e)所示的待测物体的三维模型。

应当理解的是，在实际应用中，根据具体应用场景的不同，本发明实施例中所采用的结构光除了上述光栅之外，还可以是其他任意图案。

作为一种可能的实现方式，本发明还可使用散斑结构光进行当前用户的深度信息的采集。

具体地，散斑结构光获取深度信息的方法是使用一基本为平板的衍射元件，该衍射元件具有特定相位分布的浮雕衍射结构，横截面为具有两个或多个凹凸的台阶浮雕结构。衍射元件中基片的厚度大致为1微米，各个台阶的高度不均匀，高度的取值范围可为0.7微米～0.9微米。图8(a)所示结构为本实施例的准直分束元件的局部衍射结构。图8(b)为沿截面A-A的剖面侧视图，横坐标和纵坐标的单位均为微米。散斑结构光生成的散斑图案具有高度的随机性，并且会随着距离的不同而变换图案。因此，在使用散斑结构光获取深度信息前，首先需要标定出空间中的散斑图案，例如，在距离结构光摄像头122的0～4米的范围内，每隔1厘米取一个参考平面，则标定完毕后就保存了400幅散斑图像，标定的间距越小，获取的深度信息的精度越高。随后，结构光投射器121将散斑结构光投射到被测物(即当前用户)上，被测物表面的高度差使得投射到被测物上的散斑结构光的散斑图案发生变化。结构光摄像头122拍摄投射到被测物上的散斑图案(即结构光图像)后，再将散斑图案与前期标定后保存的400幅散斑图像逐一进行互相关运算，进而得到400幅相关度图像。空间中被测物体所在的位置会在相关度图像上显示出峰值，把上述峰值叠加在一起并经过插值运算后即可得到被测物的深度信息。

由于普通的衍射元件对光束进行衍射后得到多束衍射光，但每束衍射光光强差别大，对人眼伤害的风险也大。即便是对衍射光进行二次衍射，得到的光束的均匀性也较低。因此，利用普通衍射元件衍射的光束对被测物进行投射的效果较差。本实施例中采用准直分束元件，该元件不仅具有对非准直光束进行准直的作用，还具有分光的作用，即经反射镜反射的非准直光经过准直分束元件后往不同的角度出射多束准直光束，且出射的多束准直光束的截面面积近似相等，能量通量近似相等，进而使得利用该光束衍射后的散点光进行投射的效果更好。同时，激光出射光分散至每一束光，进一步降低了伤害人眼的风险，且散斑结构光相对于其他排布均匀的结构光来说，达到同样的采集效果时，散斑结构光消耗的电量更低。

请参阅图9，在某些实施方式中，步骤013处理每帧场景图像和深度图像以提取当前用户在场景图像中的人物区域图像包括：

0131：识别每帧场景图像中的人物区域；

0132：从与场景图像对应的深度图像中获取与人脸区域对应的深度信息；

0133：根据人脸区域的深度信息确定人物区域的深度范围；和

0134：根据人物区域的深度范围确定与人物区域连接且落入深度范围内的人物区域而获得人物区域图像。

请再参阅图3，在某些实施方式中，步骤0131、步骤0132、步骤0133和步骤0134可以由处理器20实现。

也即是说，处理器20可用于识别每帧场景图像中的人物区域，从与场景图像对应的深度图像中获取与人脸区域对应的深度信息，根据人脸区域的深度信息确定人物区域的深度范围，以及根据人物区域的深度范围确定与人物区域连接且落入深度范围内的人物区域而获得人物区域图像。

具体地，首先可采用已训练好的深度学习模型识别出每帧场景图像中的人脸区域，随后根据各帧场景图像与各帧深度图像一一对应的关系可确定出各帧场景图像中人脸区域的深度信息。由于人脸区域包括鼻子、眼睛、耳朵、嘴唇等特征，因此，人脸区域中的各个特征在深度图像中所对应的深度数据是不同的，例如，在人脸正对深度图像采集组件12时，深度图像采集组件12拍摄得的深度图像中，鼻子对应的深度数据可能较小，而耳朵对应的深度数据可能较大。因此，上述的人脸区域的深度信息可能为一个数值或是一个数值范围。其中，当人脸区域的深度信息为一个数值时，该数值可通过对人脸区域的深度数据取平均值得到；或者，可以通过对人脸区域的深度数据取中值得到。

由于人物区域包含人脸区域，也即是说，人物区域与人脸区域同处于某一个深度范围内，因此，处理器20确定出人脸区域的深度信息后，可以根据人脸区域的深度信息设定人物区域的深度范围，再根据人物区域的深度范围提取落入该深度范围内且与人脸区域相连接的人物区域，从而获得人物区域图像。

如此，即可根据深度信息从每帧场景图像中提取出人物区域图像。由于深度信息的获取不受环境中光照、色温等因素的影像响，因此，提取出的背景区域图像更加准确。

请再参阅图9，在某些实施方式中，步骤013处理每帧场景图像和深度图像以提取当前用户在场景图像中的人物区域图像还包括：

0135：处理每帧场景图像以得到每帧场景图像的全场边缘图像；和

0136：根据每帧场景图像的全场边缘图像修正与该帧场景图像的全场边缘图像对应的人物区域图像。

请再参阅图2，在某些实施方式中，步骤0135和步骤0136均可以由处理器20实现。

也即是说，处理器20可用于处理每帧场景图像以得到每帧场景图像的全场边缘图像，以及根据每帧场景图像的全场边缘图像修正与该帧场景图像的全场边缘图像对应的人物区域图像。

处理器20首先对每帧场景图像进行边缘提取以得到多帧场景图像的全场边缘图像，其中，场景图像的全场边缘图像中的边缘线条包括当前用户以及当前用户所处场景中背景物体的边缘线条。具体地，可通过Canny算子对每帧场景图像进行边缘提取。Canny算子进行边缘提取的算法的核心主要包括以下几步：首先，用2D高斯滤波模板对场景图像进行卷积以消除噪声；随后，利用微分算子得到各个像素的灰度的梯度值，并根据梯度值计算各个像素的灰度的梯度方向，通过梯度方向可以找到对应像素沿梯度方向的邻接像素；随后，遍历每一个像素，若某个像素的灰度值与其梯度方向上前后两个相邻像素的灰度值相比不是最大的，那么认为这个像素不是边缘点。如此，即可确定场景图像中处于边缘位置的像素点，从而获得边缘提取后的场景图像的全场边缘图像。

每一帧场景图像对应一帧全场边缘图像，同样地，每一帧场景图像对应一帧背景区域图像，因此，场景图像的全场边缘图像和人物区域图像是一一对应的。处理器20获取全场边缘图像后，根据场景图像的全场边缘图像对与场景图像的全场边缘图像对应的人物区域图像进行修正。可以理解，人物区域是将场景图像中与人脸区域连接并落入设定的深度范围的所有像素进行归并后得到的，在某些场景下，可能存在一些与人脸区域连接且落入深度范围内的物体。因此，可使用场景图像的全场边缘图对人物区域进行修正以得到更加准确的人物区域图像。

进一步地，处理器20还可对修正后的人物区域进行二次修正，例如，可对修正后的人物区域进行膨胀处理，扩大人物区域以保留人物区域的边缘细节，从而得到的人物区域图像的精准度更高。

请参阅图10，在某些实施方式中，当预定背景图像为预定三维背景图像时，步骤014将每帧人物区域图像与预定背景图像融合得到多帧合并图像包括：

01411：获取每帧预定背景图像中的预定融合区域；

01412：根据与该帧预定背景图像对应的人物区域图像确定预定融合区域的待替换像素区域；和

01433：将预定融合区域的待替换像素区域替换为与该帧预定背景图像对应的人物区域图像以得到合并图像。

请再参阅图3，在某些实施方式中，步骤01411、步骤01412和步骤01413均可以由处理器20实现。

也即是说，处理器20可用于获取每帧预定背景图像中的预定融合区域，根据与该帧预定背景图像对应的人物区域图像确定预定融合区域的待替换像素区域，以及将预定融合区域的待替换像素区域替换为与该帧预定背景图像对应的人物区域图像以得到合并图像。

可以理解，在预定背景图像通过实际场景建模得到时，预定背景图像中各个像素对应的深度数据在建模过程中就可直接获取；在预定背景图像通过动画制作得到时，预定背景图像中各个像素对应的深度数据可以由制作者自行设定；另外，预定背景图像中存在的各个物体也是已知的，因此，在使用预定背景图像进行图像融合处理前，可先根据深度数据以及存在于预定背景图像中的物体标定出人物区域图像的融合位置，即预定融合区域。由于可见光摄像头11采集到的人物区域图像的大小受采集距离的影响，采集距离较近时，人物区域图像较大，采集距离较远时，人物区域图像较小，因此，处理器20需根据可见光摄像头11实际采集到的每帧人物区域图像的大小确定对应的预定背景图像中预定融合区域的待替换像素区域。随后，将预定融合区域中的待替换像素区域替换为人物区域图像即可得到融合后的合并图像。如此，实现每帧人物区域图像与对应帧的预定背景图像的融合。

请参阅图11，在某些实施方式中，当预定背景图像为预定三维背景图像时，步骤014将每帧人物区域图像与预定背景图像融合得到多帧合并图像包括：

01421：处理每帧预定背景图像以获取每帧预定背景图像的全场边缘图像；

01422：获取每帧预定背景图像的深度数据；

01423：根据每帧预定背景图像的全场边缘图像及深度数据确定每帧预定背景图像的计算融合区域；

01424：根据与该帧预定背景图像对应的人物区域图像确定计算融合区域的待替换像素区域；和

01425：将待替换像素区域替换为与该帧预定背景图像对应的人物区域图像以得到合并图像。

请再参阅图2，在某些实施方式中，步骤01421、步骤01422、步骤01423、步骤01424和步骤01425均可以由处理器20实现。

也即是说，处理器20还可用于处理每帧预定背景图像以获取每帧预定背景图像的全场边缘图像，获取每帧预定背景图像的深度数据，根据每帧预定背景图像的全场边缘图像及深度数据确定每帧预定背景图像的计算融合区域，根据与该帧预定背景图像对应的人物区域图像确定计算融合区域的待替换像素区域，以及将待替换像素区域替换为与该帧预定背景图像对应的人物区域图像以得到合并图像。

可以理解，若预定背景图像与人物区域图像融合时，人物区域图像的融合位置未事先标定，则处理器20首先需确定人物区域图像在预定背景图像中的融合位置。具体地，处理器20先对预定背景图像进行边缘提取以得到全场边缘图像，并获取预定背景图像的深度数据，其中，深度数据在预定背景图像建模或动画制作过程中获取。随后，处理器20根据预定背景图像的全场边缘图像及深度数据确定预定背景图像中的计算融合区域。由于可见光摄像头11采集到的人物区域图像的大小受采集距离的影响，采集距离较近时，人物区域图像较大，采集距离较远时，人物区域图像较小，处理器20需根据可见光摄像头11实际采集到的每帧人物区域图像的大小确定对应的预定背景图像中计算融合区域的待替换像素区域。最终，将每帧计算融合区域图像中的待替换像素区域替换为人物区域图像，从而得到多帧合并图像。如此，实现人物区域图像与预定背景图像的融合。

在某些实施方式中，预定背景图像中的预定融合区域或计算融合区域可以是一个或者多个。当预定融合区域为一个时，人物区域图像在预定背景图像中的融合位置为即为上述唯一的一个预定融合区域；当计算融合区域为一个时，人物区域图像在预定背景图像中的融合位置为即为上述唯一的一个计算融合区域；当预定融合区域为多个时，人物区域图像在预定三维背景图像中的融合位置可为多个预定融合区域中的任意一个，更进一步地，当人物区域图像为三维人物区域图像时，由于人物区域图像具有深度信息，因此可在多个预定融合区域中寻找与人物区域图像的深度信息相匹配的预定融合区域作为融合位置，以得到更好的融合效果；当计算融合区域为多个时，人物区域图像在计算三维背景图像中的融合位置可为多个计算融合区域中的任意一个，更进一步地，当人物区域图像为三维人物区域图像时，由于人物区域图像具有深度信息，因此可在多个计算融合区域中寻找与人物区域图像的深度信息相匹配的计算融合区域作为融合位置，以得到更好的融合效果。

请参阅图12，在某些实施方式中，步骤02判断连续两帧场景图像中的当前用户的真实位置是否发生变化包括：

021：判断人物区域图像在前一帧场景图像中的第一位置和人物区域图像在当前帧场景图像中的第二位置是否不同；

022：在第一位置和所述第二位置不同时，确定真实位置发生变化。

请再参阅图3，在某些实施方式中，步骤021和步骤022均可以由处理器20实现。也即是说，处理器20可用于判断人物区域图像在前一帧场景图像中的第一位置和人物区域图像在当前帧场景图像中的第二位置是否不同，以及在第一位置和所述第二位置不同时，确定真实位置发生变化。

可以理解，当前用户对应的人物区域图像在连续两帧场景图像中的位置变化后，表明当前用户相对于可见光摄像头11的位置发生变化，此时可认为当前用户发生了移动，从而可为合并图像匹配上预定脚步声音模型。

其中，位置变化包括：前一帧场景图像中的人物区域图像与当前帧场景图像中的人物区域图像相比，当前帧场景图像中的人物区域图像向左或向右偏移，此时当前用户相对于可见光摄像头11向左或向右移动；或者，当前帧场景图像中的人物区域图像的面积大小相对于前一帧场景图像中的人物区域图像的面积大小发生了变化，此时当前用户向前靠近或向后远离可见光摄像头11。

更进一步地，请参阅图13，在某些实施方式中，预定脚步声音模型包括走动声音模型和跑动声音模型，在真实位置发生变化时，步骤04将多帧合并图像与预定脚步声音模型融合以输出有声视频包括：

041：判断单位时间内真实位置的变化量是否大于第一预定阈值且小于第二预定阈值，第一预定阈值小于第二预定阈值；

042：在变化量大于所述第一预定阈值且小于第二预定阈值时，将多帧合并图像与走动声音模型融合以输出有声视频；和

043：在变化量大于第二预定阈值时，将多帧合并图像与跑动声音模型融合以输出有声视频。

其中，第一预定阈值和第二预定阈值可以是连续两帧场景图像中人物区域图像的像素位置差异，还可以是连续两帧场景图像中人物区域图像的面积大小的差异。

具体地，在当前用户的真实位置发生变化时，有可能是当前用户身体向左倾、向右倾、向前倾或向后仰，从而导致连续两帧场景图像中的人物区域图像的位置不同或面积大小不一。相对于当前用户在可见光摄像头11的视场内走动的情况来说，当前用户身体向左倾、向右倾向前倾或向后仰时，可见光摄像头11拍摄的连续两帧当前用户的人物区域图像的位置差异或面积差异较小，因此，可设定第一预定阈值，在真实位置的变化量小于第一预定阈值时认为当前用户并未进行走动，在真实位置的变化量大于第一预定阈值且小于第二预定阈值时认为当前用户正在走动，从而为合并图像匹配上走动声音模型。在当前用户跑动时，连续两帧场景图像中的人物区域图像的位置差异或面积差异较大，因此，在真实位置的变化量大于第二预设阈值时，为合并图像匹配山跑动声音模型。如此，使得合并图像与预定声音模型融合输出后的有声视频更加贴合当前用户的现实场景，改善用户的使用体验。

请参阅图14，在某些实施方式中，预定背景图像为预定三维背景图像时，本发明实施方式的图像处理方法还包括：

05：处理预定背景图像以获取预定背景图像的全场边缘图像；

06：获取预定背景图像的深度数据；

07：根据预定背景图像的全场边缘图像和深度数据判断人物区域图像是否邻近预定背景图像中的物体边缘；和

08：在人物区域图像邻近预定背景图像中的物体边缘时发出碰壁提示。

请再参阅图3，在某些实施方式中，步骤05、步骤06、步骤07和步骤08均可以由处理器20实现。也即是说，处理器20还可用于处理预定背景图像以获取预定背景图像的全场边缘图像，获取预定背景图像的深度数据，根据预定背景图像的全场边缘图像和深度数据判断人物区域图像是否邻近预定背景图像中的物体边缘，在人物区域图像邻近预定背景图像中的物体边缘时发出碰壁提示。

具体地，有声视频中的第一帧合并图像由可见光摄像头11采集的第一帧场景图像中的人物区域图像和三维的预定背景图像融合得到，此时，人物区域图像在预定背景图像中的融合位置已经确定，在后续的每帧合并图像中，人物区域图像在预定背景图像中的融合位置则由当前用户位置移动的信息决定，当前用户向左移动时，人物区域图像在预定背景图像中的融合位置对应向左移动，当前用户向右移动时，人物区域图像在预定背景图像中的融合位置对应向右移动。如此，持续改变的融合位置可能使得人物区域图像与预定背景图像中与当前用户处于同一深度范围内的物体发生碰撞、重叠的情况，降低合并图像的逼真度。因此，处理器20需要获取预定背景图像的全场边缘图像和深度数据，从而确定预定背景图像中各个物体边缘及物体边缘对应的深度信息。在将人物区域图像与预定背景图像融合过程中，若发现人物区域的边缘所在像素与同处于一个深度范围内的预定背景图像中的物体边缘所在像素相邻近，处理器20应即刻向当前用户发出碰壁提示，从而避免当前用户继续向靠近该物体边缘的方向移动导致得到的合并图像中人物区域图像与预定背景图像中的物体碰撞或重叠的问题。

请一并参阅3和图15，本发明实施方式还提出一种电子装置1000。电子装置1000包括图像处理装置100。图像处理装置100可以利用硬件和/或软件实现。图像处理装置100包括成像设备10和处理器20。

成像设备10包括可见光摄像头11和深度图像采集组件12。

具体地，可见光摄像头11包括图像传感器111和透镜112，可见光摄像头11可用于捕捉当前用户的彩色信息以获得场景图像，其中，图像传感器111包括彩色滤镜阵列(如Bayer滤镜阵列)，透镜112的个数可为一个或多个。可见光摄像头11在获取场景图像过程中，图像传感器111中的每一个成像像素感应来自拍摄场景中的光强度和波长信息，生成一组原始图像数据；图像传感器111将该组原始图像数据发送至处理器20中，处理器20对原始图像数据进行去噪、插值等运算后即得到彩色的场景图像。处理器20可按多种格式对原始图像数据中的每个图像像素逐一处理，例如，每个图像像素可具有8、10、12或14比特的位深度，处理器20可按相同或不同的位深度对每一个图像像素进行处理。

深度图像采集组件12包括结构光投射器121和结构光摄像头122，深度图像采集组件12可用于捕捉当前用户的深度信息以得到深度图像。结构光投射器121用于将结构光投射至当前用户，其中，结构光图案可以是激光条纹、格雷码、正弦条纹或者随机排列的散斑图案等。结构光摄像头122包括图像传感器1221和透镜1222，透镜1222的个数可为一个或多个。图像传感器1221用于捕捉结构光投射器121投射至当前用户上的结构光图像。结构光图像可由深度采集组件12发送至处理器20进行解调、相位恢复、相位信息计算等处理以获取当前用户的深度信息。

在某些实施方式中，可见光摄像头11与结构光摄像头122的功能可由一个摄像头实现，也即是说，成像设备10仅包括一个摄像头和一个结构光投射器121，上述摄像头不仅可以拍摄场景图像，还可拍摄结构光图像。

除了采用结构光获取深度图像外，还可通过双目视觉方法、基于飞行时间差(Timeof Flight，TOF)等深度像获取方法来获取当前用户的深度图像。

处理器20可用于将由从场景图像和深度图像中提取的人物区域图像与预定背景图像融合。其中，融合处理人物区域图像和预定背景图像时可以是将二维的人物区域图像与预定背景图像进行融合以得到合并图像，也可以是将三维的彩色的人物区域图像与预定背景图像进行融合以得到合并图像。处理器20进一步用于根据连续两帧场景图像中的人物区域图像的位置变化对合并图像进行预定脚步声音模型匹配以得到有声视频。

此外，图像处理装置100还包括存储器30。存储器30可内嵌在电子装置1000中，也可以是独立于电子装置1000外的存储器，并可包括直接存储器存取(Direct MemoryAccess，DMA)特征。可见光摄像头11采集的原始图像数据或深度图像采集组件12采集的结构光图像相关数据均可传送至存储器30中进行存储或缓存。处理器20可从存储器30中读取原始图像数据以进行处理得到场景图像，也可从存储器30中读取结构光图像相关数据以进行处理得到深度图像。另外，场景图像和深度图像还可存储在存储器30中，以供处理器20随时调用处理，例如，处理器20调用场景图像和深度图像进行人物区域提取，并将提取后的得到的人物区域图像与预定背景图像进行融合处理以得到合并图像。其中，预定背景图像和合并图像也可存储在存储器30中。存储器30中还存储有预定脚步声音模型，处理器20从存储器30中读取预定脚步声音模型以将预定脚步声音模型与多帧合并图像融合输出有声视频。

图像处理装置100还可包括显示器50。显示器50可直接从处理器20中获取有声视频的合并图像，还可从存储器30中获取有声视频的合并图像。显示器50显示有声视频的合并图像以供用户观看，或者由图形引擎或图形处理器(Graphics Processing Unit，GPU)进行进一步的处理。图像处理装置100还包括编码器/解码器60，编码器/解码器60可编解码场景图像、深度图像、预定背景图像及有声视频的合并图像等的图像数据，编码的图像数据可被保存在存储器30中，并可以在图像显示在显示器50上之前由解码器解压缩以进行显示。编码器/解码器60可由中央处理器(Central Processing Unit，CPU)、GPU或协处理器实现。换言之，编码器/解码器60可以是中央处理器(Central Processing Unit，CPU)、GPU、及协处理器中的任意一种或多种。

图像处理装置100还包括控制逻辑器40。成像设备10在成像时，处理器20会根据成像设备获取的数据进行分析以确定成像设备10的一个或多个控制参数(例如，曝光时间等)的图像统计信息。处理器20将图像统计信息发送至控制逻辑器40，控制逻辑器40控制成像设备10以确定好的控制参数进行成像。控制逻辑器40可包括执行一个或多个例程(如固件)的处理器和/或微控制器。一个或多个例程可根据接收的图像统计信息确定成像设备10的控制参数。

请参阅图16，本发明实施方式的电子装置1000包括一个或多个处理器20、存储器30和一个或多个程序31。其中一个或多个程序31被存储在存储器30中，并且被配置成由一个或多个处理器20执行。程序31包括用于执行上述任意一项实施方式的图像处理方法的指令。

例如，程序31包括用于执行以下步骤的图像处理方法指令：

又如，程序31包括用于执行以下步骤的图像处理方法的指令：

0131：识别每帧场景图像中的人物区域；

0133：根据人脸区域的深度信息确定人物区域的深度范围；和

本发明实施方式的计算机可读存储介质包括与能够摄像的电子装置1000结合使用的计算机程序。计算机程序可被处理器20执行以完成上述任意一项实施方式的图像处理方法。

例如，计算机程序可被处理器20执行以完成以下步骤所述的图像处理方法：

又如，计算机程序可被处理器20执行以完成以下步骤所述的图像处理方法：

0131：识别每帧场景图像中的人物区域；

0133：根据人脸区域的深度信息确定人物区域的深度范围；和

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像处理方法，用于处理合并图像，所述合并图像由预定背景图像与当前用户在场景图像中的人物区域图像融合而成，其特征在于，所述图像处理方法包括：

2.根据权利要求1所述的图像处理方法，其特征在于，所述图像处理方法还包括：

以预设频率采集多帧所述当前用户的场景图像；

以所述预设频率采集多帧所述当前用户的深度图像；

处理每帧所述场景图像和所述深度图像以提取所述当前用户在所述场景图像中的所述人物区域图像；和

将每帧所述人物区域图像与所述预定背景图像融合得到多帧合并图像。

3.根据权利要求2所述的图像处理方法，其特征在于，所述以所述预设频率采集多帧所述当前用户的深度图像的步骤包括：

向所述当前用户投射结构光；

以所述预设频率拍摄多帧经所述当前用户调制的结构光图像；和

解调每帧所述结构光图像的各个像素对应的相位信息以得到多帧所述深度图像。

4.根据权利要求3所述的图像处理方法，其特征在于，所述解调每帧所述结构光图像的各个像素对应的相位信息以得到多帧所述深度图像的步骤包括：

解调每帧所述结构光图像中各个像素对应的相位信息；

将所述相位信息转化为深度信息；和

根据所述深度信息生成所述深度图像。

5.根据权利要求1所述的图像处理方法，其特征在于，所述判断连续两帧场景图像中的所述当前用户的真实位置是否发生变化的步骤包括：

判断所述人物区域图像在所述前一帧场景图像中的第一位置和所述人物区域图像在所述当前帧场景图像中的第二位置是否不同；

在所述第一位置和所述第二位置不同时，确定所述真实位置发生变化。

6.根据权利要求1所述的图像处理方法，其特征在于，所述预定脚步声音模型包括走动声音模型和跑动声音模型，所述在所述真实位置发生变化时，将多帧所述合并图像与预定脚步声音模型融合以输出有声视频的步骤包括：

判断单位时间内所述真实位置的变化量是否大于第一预定阈值且小于第二预定阈值，所述第一预定阈值小于所述第二预定阈值；

在所述变化量大于所述第一预定阈值且小于所述第二预定阈值时，将多帧所述合并图像与所述走动声音模型融合以输出有声视频；和

在所述变化量大于所述第二预定阈值时，将多帧所述合并图像与所述跑动声音模型融合以输出有声视频。

7.根据权利要求1所述的图像处理方法，其特征在于，所述预定背景图像包括预定二维背景图像和预定三维背景图像，所述预定背景图像能够随机选取或由所述当前用户自行选定；

所述预定背景图像为预定三维背景图像时，所述预定三维背景图像包括由实际场景建模得到的预定三维背景图像，和/或动画制作得到的预定三维背景图像。

8.根据权利要求1所述的图像处理方法，其特征在于，所述预定背景图像为预定三维背景图像，所述图像处理方法还包括：

处理所述预定背景图像以获取所述预定背景图像的全场边缘图像；

获取所述预定背景图像的深度数据；

根据所述预定背景图像的全场边缘图像和所述深度数据判断所述人物区域图像是否邻近所述预定背景图像中的物体边缘；和

在所述人物区域图像邻近所述预定背景图像中的物体边缘时发出碰壁提示。

9.一种图像处理装置，用于处理合并图像，所述合并图像由预定背景图像与当前用户在场景图像中的人物区域图像融合而成，其特征在于，所述图像处理装置包括处理器，所述处理器用于：

10.根据权利要求9所述的图像处理装置，其特征在于，所述图像处理装置还包括：

可见光摄像头，所述可见光摄像头用于以预设频率采集多帧所述当前用户的场景图像；

深度图像采集组件，所述深度图像采集组件用于以所述预设频率采集多帧所述当前用户的深度图像；

所述处理器还用于：

11.根据权利要求10所述的图像处理装置，其特征在于，所述深度图像采集组件包括：

结构光摄像头，所述结构光摄像头用于向所述当前用户投射结构光；和

结构光投射器，所述结构光投射器用于：

12.根据权利要求11所述的图像处理装置，其特征在于，所述结构光摄像头还用于：

解调每帧所述结构光图像中各个像素对应的相位信息；

将所述相位信息转化为深度信息；和

根据所述深度信息生成所述深度图像。

13.根据权利要求9所述的图像处理装置，其特征在于，所述处理器进一步用于：

14.根据权利要求9所述的图像处理装置，其特征在于，所述预定脚步声音模型包括走动声音模型和跑动声音模型，所述在所述真实位置发生变化时，所述处理器进一步用于：

15.根据权利要求9所述的图像处理装置，其特征在于，所述预定背景图像包括预定二维背景图像和预定三维背景图像，所述预定背景图像能够随机选取或由所述当前用户自行选定；

16.根据权利要求9所述的图像处理装置，其特征在于，所述处理器还用于：

获取所述预定背景图像的深度数据；

17.一种电子装置，其特征在于，所述电子装置包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个活多个处理器执行，所述程序包括用于执行权利要求1至8任意一项所述的图像处理方法的指令。

18.一种计算机可读存储介质，其特征在于，包括与能够摄像的电子装置结合使用的计算机程序所述计算机程序可被处理器执行以完成权利要求1至8任意一项所述的图像处理方法。