CN107911643A

CN107911643A - 一种视频通信中展现场景特效的方法和装置

Info

Publication number: CN107911643A
Application number: CN201711243074.8A
Authority: CN
Inventors: 金鑫; 张恒莉
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-04-13
Anticipated expiration: 2037-11-30
Also published as: CN107911643B

Abstract

本发明实施例提供了一种视频通信中展现场景特效的方法和装置，所述方法和装置应用于移动装置，移动装置包括第一移动装置和第二移动装置，所述方法应用于第一移动装置与第二移动装置之间；包括：当第一移动装置与第二移动装置建立视频通信成功时，第二移动装置接收第一移动装置发送的视频通信数据；视频通信数据包括视频帧图像，视频帧图像包含第一移动装置用户的面部图像；第二移动装置判断面部图像是否包括预设的面部特征值；若是，则第二移动装置依据预设的面部特征值，获取与预设的面部特征值对应的场景特效；第二移动装置展现场景特效。本发明实施例可以根据用户的表情、情绪播放场景特效。

Description

一种视频通信中展现场景特效的方法和装置

技术领域

本发明涉及移动通信技术领域，特别是涉及一种视频通信中展现场景特效的方法和一种视频通信中展现场景特效的装置。

背景技术

科技的发展给人们的生活带来了越来越多的便利。例如，从前人们见面只能是面对面，但是现在人们通过智能终端，比如手机、电脑，就能进行远程视频通信，即使不是面对面也能“见面”。

以智能手机为例，本端和对端的用户通过在智能手机上安装第三方APP，比如QQ、微信等，就可以进行视频通信了。现有技术中，本端的用户和对端的用户在视频通信的过程中，可以通过选择第三方APP自带的场景特效，实现在两端的视频通信画面中都播放场景特效。例如，本端用户选择了“烟花”特效，那么，第三方APP会在视频通信的画面中播放烟花燃放的效果，本端和对端的用户都可以看到，增加了视频通信的趣味性。

但是，这种方法依赖于第三方APP的功能设置。例如，用户使用QQ进行视频通信时，可以播放场景特效；但是使用微信进行视频通信时，则无法进行场景特效。而且，需要用户手动选择场景特效，才能播放场景特效，如果用户不选择，则无法播放场景特效。

发明内容

为了解决上述在视频通信画面中播放场景特效依赖于第三方APP的功能设置的问题，本发明实施例提出了一种视频通信中展现场景特效的方法和相应的一种视频通信中展现场景特效的装置。

为了解决上述问题，本发明实施例公开了一种视频通信中展现场景特效的方法，应用于移动装置，所述移动装置包括第一移动装置和第二移动装置，所述方法应用于第一移动装置与第二移动装置之间；所述的方法包括：

当所述第一移动装置与所述第二移动装置建立视频通信成功时，所述第二移动装置接收所述第一移动装置发送的视频通信数据；所述视频通信数据包括视频帧图像，所述视频帧图像包含第一移动装置用户的面部图像；

所述第二移动装置判断所述面部图像是否包括预设的面部特征值；

若是，则所述第二移动装置依据所述预设的面部特征值，获取与所述预设的面部特征值对应的场景特效；

所述第二移动装置展现所述场景特效。

相应的，本发明实施例还公开了一种视频通信中展现场景特效的装置，所述装置设置在第一移动装置和第二移动装置中；所述的装置包括：

接收模块，用于当所述第一移动装置与所述第二移动装置建立视频通信成功时，所述第二移动装置接收所述第一移动装置发送的视频通信数据；所述视频通信数据包括视频帧图像，所述视频帧图像包含本端用户的面部图像；

第一判断模块，用于所述第二移动装置判断所述面部图像是否包括预设的面部特征值；

第一获取模块，用于若是，则所述第二移动装置依据所述预设的面部特征值，获取与所述预设的面部特征值对应的场景特效；

展现模块，用于所述第二移动装置展现所述场景特效。

本发明实施例包括以下优点：

在本发明实施例中，当第一移动装置与第二移动装置建立视频通信成功时，第二移动装置接收第一移动装置发送的视频通信数据，其中，视频通信数据包括视频帧图像，视频帧图像包含本端用户的面部图像，然后第二移动装置判断面部图像是否包括预设的面部特征值，若是，则第二移动装置依据预设的面部特征值，获取与预设的面部特征值对应的场景特效，并展现场景特效。这样，第一移动装置与第二移动装置进行视频通信的过程中，可以根据用户的表情、情绪播放场景特效，在增加了视频通信的趣味性的同时，还提升了用户的使用体验。

附图说明

图1是本发明的一种视频通信中展现场景特效的方法实施例的步骤流程图；

图2是本发明的一种视频通信中展现场景特效的装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种视频通信中展现场景特效的方法实施例的步骤流程图，所述方法应用于第一移动装置与第二移动装置之间。

在本发明实施例中，第一移动装置和第二移动装置可以具有如下特点：

(1)在硬件体系上，设备具备中央处理器、存储器、输入部件和输出部件，也就是说，设备往往是具备通信功能的微型计算机设备。另外，还可以具有多种输入方式，诸如键盘、鼠标、触摸屏、送话器和摄像头等，并可以根据需要进行调整输入。同时，设备往往具有多种输出方式，如受话器、显示屏等，也可以根据需要进行调整；

(2)在软件体系上，设备必须具备操作系统，如Windows Mobile、Symbian、Palm、Android、iOS等。同时，这些操作系统越来越开放，基于这些开放的操作系统平台开发的个性化应用程序层出不穷，如通信簿、日程表、记事本、计算器以及各类游戏等，极大程度地满足了个性化用户的需求；

(3)在通信能力上，设备具有灵活的接入方式和高带宽通信性能，并且能根据所选择的业务和所处的环境，自动调整所选的通信方式，从而方便用户使用。设备可以支持GSM、WCDMA、CDMA2000、TDSCDMA、Wi-Fi以及WiMAX等，从而适应多种制式网络，不仅支持语音业务，更支持多种无线数据业务；

(4)在功能使用上，设备更加注重人性化、个性化和多功能化。随着计算机技术的发展，设备从“以设备为中心”的模式进入“以人为中心”的模式，集成了嵌入式计算、控制技术、人工智能技术以及生物认证技术等，充分体现了以人为本的宗旨。由于软件技术的发展，设备可以根据个人需求调整设置，更加个性化。同时，设备本身集成了众多软件和硬件，功能也越来越强大。

所述的方法具体可以包括如下步骤：

步骤101，当所述第一移动装置与所述第二移动装置建立视频通信成功时，所述第二移动装置接收所述第一移动装置发送的视频通信数据；所述视频通信数据包括视频帧图像，所述视频帧图像包含本端用户的面部图像；

在本发明实施例中，第一移动装置与第二移动装置可以通过第三方APP，比如QQ、微信等，建立视频通信，也可以基于WIFI、蓝牙等方式进行连接，进而进行视频通信，本发明实施例对此不作限制。

以QQ为例，当本端用户在QQ中与好友的聊天界面中点击开启视频后，QQ会发送一个视频通信的请求给第二移动装置，同时在第一移动装置中也会发送一个中断信号给第一移动装置的CPU，该中断信号表示QQ需要调用摄像头进行视频图像的采集，当CPU接收到该中断信号后，调用摄像头的接口以启用摄像头。当对端用户在第二移动装置中同意视频通信的请求后，第一移动装置的摄像头开始采集视频通信数据，其中，视频通信数据包括视频帧图像，视频帧图像包含本端用户的面部图像。一般来说，用户在进行视频通信时本人都会出现在镜头里，所以，摄像头是可以采集到包含用户面部图像的视频帧图像的。

在本发明一种优选实施例中，所述视频通信数据还包括本端用户的语音信息。

在视频通信的过程中，除了摄像头会采集视频帧图像外，麦克风也会采集语音信息，其中就包括用户的语音信息，和除用户的语音信息之外的环境声音信息，采集完成后发送至第二移动装置。

需要说明的，在本申请中，第一移动装置和第二移动装置是相对的，例如，有设备A和设备B，如果站在设备A的角度来说，那么设备A就是第一移动装置，设备B就是第二移动装置；如果站在设备B的角度来说，那么设备B就是第一移动装置，设备A就是第二移动装置。因为视频通信是需要双方设备同时开启摄像头的，所以，当第一移动装置开启视频通信，并采集视频通信数据时，其实第二移动装置也开启了视频通信，并采集视频通信数据了，本申请中的本端和对端只是为了方便描述技术方案，并非是对本申请的限制。

步骤102，所述第二移动装置判断所述面部图像是否包括预设的面部特征值；

视频的本质其实就是动画，所谓动画，就是采用逐帧拍摄对象并连续播放而形成运动的影像技术。动画是通过把人物的表情、动作、变化等分解后画成许多动作瞬间的画幅，再用摄影机连续拍摄成一系列画面，给视觉造成连续变化的图画。它的基本原理与电影、电视一样，都是视觉暂留原理。医学证明人类具有“视觉暂留”的特性，人的眼睛看到一幅画或一个物体后，在0.34秒内不会消失。利用这一原理，在一幅画还没有消失前播放下一幅画，就会给人造成一种流畅的视觉变化效果，本申请正是利用这一原理，从视频通信数据的每一帧图像中获取用户面部图像，并判断面部图像是否包括预设的面部特征值。

而面部特征值的提取则依赖于人脸识别技术，人脸识别本质上是三维塑性物体二维投影图像的匹配问题，它的困难体现在：(1)人脸塑性变形(如表情等)的不确定性；(2)人脸模式的多样性(如胡须、发型、眼镜、化妆等)；(3)图像获取过程中的不确定性(如光照的强度、光源方向等)。识别人脸主要依靠人脸上的特征。也就是说依据那些在不同个体上存在的较大差异而对同一个人则比较稳定的度量。由于人脸变化复杂，因此特征表述和特征提取十分困难。

在对人脸图像进行特征提取和分类之前一般需要做几何归一化和灰度归一化。几何归一化是指根据人脸定位结果将图像中人脸变换到同一位置和同样大小，灰度归一化是指对图像进行光照补偿等处理，光照补偿能够一定程度地克服光照变化的影响而提高识别率。

提取人脸面部特征值的方法可以有如下几种：

(1)基于几何特征的方法

人脸由眼睛、鼻子、嘴巴、下巴等部件构成，正因为这些部件的形状、大小和结构上的各种差异才使得世界上每个人脸干差万别，因此对这些部件的形状和结构关系的几何描述，可以作为人脸识别的重要特征。几何特征最早是用于人脸侧面轮廓的描述与识别，首先根据侧面轮廓曲线确定若干显著点，并由这些显著点导出一组用于识别的特征度量如距离、角度等。Jia等由正面灰度图中线附近的积分投影模拟侧面轮廓图是一种很有新意的方法。

采用几何特征进行正面人脸识别一般是通过提取人眼、口、鼻等重要特征点的位置和眼睛等重要器官的几何形状作为分类特征，但Roder对几何特征提取的精确性进行了实验性的研究，结果不容乐观。可变形模板法可以视为几何特征方法的一种改进，其基本思想是：设计一个参数可调的器官模型，定义一个能量函数，通过调整模型参数使能量函数最小化，此时的模型参数即做为该器官的几何特征。这种方法思想很好，但是存在两个问题，一是能量函数中各种代价的加权系数只能由经验确定，难以推广；二是能量函数优化过程十分耗时，难以实际应用。

基于参数的人脸表示可以实现对人脸显著特征的一个高效描述，但它需要大量的前处理和精细的参数选择。同时，采用一般几何特征只描述了部件的基本形状与结构关系，忽略了局部细微特征，造成部分信息的丢失，更适合于做粗分类，而且目前已有的特征点检测技术在精确率上还远不能满足要求，计算量也较大。

(2)基于特征脸的方法

Turk和Pentland提出特征脸的方法，它根据一组人脸训练图像构造主元子空间，由于主元具有脸的形状，也称为特征脸。识别时将测试图像投影到主元子空间上，得到一组投影系数，和各个己知的人脸图像比较进行识别。Pentland等报告了相当好的结果，在200个人的3000幅图像中得到95％的正确识别率，在FERET数据库上对150幅正面人脸象只有一个误识别。但系统在进行特征脸方法之前需要作大量预处理工作，如归一化等。

在传统特征脸的基础上，研究者注意到特征值大的特征人脸识向量(即特征脸)并不一定是分类性能好的方向，据此发展了多种特征(子空间)选择方法，如Peng的双子空间方法、Weng的线性歧义分析方法、Belhumeur的FisherFace方法等。事实上，特征脸方法是一种显式主元分析人脸建模，一些线性自联想、线性压缩型BP网则为隐式的主元分析方法。它们都是把人脸表示为一些向量的加权和，这些向量是训练集叉积阵的主特征向量，Valetin对此作了详细讨论。总之，特征脸方法是一种简单、快速、实用的基于变换系数特征的算法，但由于它在本质上依赖于训练集和测试集图像的灰度相关性，所以还有着很大的局限性。

(3)局部特征分析LFA方法

主元子空间的表示是紧凑的，特征维数大大降低，但它是非局部化的，其核函数的支集扩展在整个坐标空间中，同时它是非拓扑的，某个轴投影后邻近的点与原图像空间中点的邻近性没有任何关系，而局部性和拓扑性对模式分析和分割是理想的特性，似乎这更符合神经信息处理的机制，因此寻找具有这种特性的表达十分重要。基于这种考虑，Atick提出基于局部特征的人脸特征提取与识别方法。这种方法在实际应用取得了很好的效果，它构成了Facelt软件的基础。

局部特征分析(Local Feature Analysis，LFA)是一种基于特征表示的面像识别技术，源于类似搭建积木的局部统计的原理。LFA基于所有的面像(包括各种复杂的式样)都可以从由很多不能再简化的结构单元子集综合而成。这些单元使用复杂的统计技术而形成，它们代表了整个面像，通常跨越多个像素(在局部区域内)并代表了普遍的面部形状，但并不是通常意义上的面部特征。实际上，面部结构单元比面像的部位要多得多。

然而，要综合形成一张精确逼真的面像，只需要整个可用集合中很少的单元子集(12～40特征单元)。要确定身份不仅仅取决于特性单元，还决定于它们的几何结构(比如它们的相关位置)。通过这种方式，LFA将个人的特性对应成一种复杂的数字表达方式，可以进行对比和识别。“面纹”编码方式是根据脸部的本质特征和形状来工作的，它可以抵抗光线、皮肤色调、面部毛发、发型、眼镜、表情和姿态的变化，具有强大的可靠性，使它可以从百万人中精确地辨认出一个人。银晨面像识别系统用的就是这种方法。

(4)基于弹性模型的方法

Lades等人针对畸变不变性的物体识别提出了动态链接模型(DLA)，将物体用稀疏图形来描述，其顶点用局部能量的多尺度描述来标记，边则表示拓扑连接关系并用几何距离来标记，然后应用塑性图形匹配技术来寻找最近的己知图形。Wiscott等人在此基础上作了改进，用FERET等图像库做实验，用300幅人脸图像和另外300幅图像作比较，准确率达到97.3％；此方法的缺点是计算量非常巨大。

Nastar将人脸图像I(x，y)建模为可变形的3D网格表面(x，y，I(x，y))，从而将人脸匹配问题转化为可变形曲面的弹性匹配问题。利用有限元分析的方法进行曲面变形，并根据变形的情况判断两张图片是否为同一个人。这种方法的特点在于将空间(x，y)和灰度I(x，y)放在了一个3D空间中同时考虑，实验表明识别结果明显优于特征脸方法。

Lanitis等提出灵活表现模型方法，通过自动定位人脸的显著特征，将人脸编码为83个模型参数，并利用辨别分析的方法进行基于形状的人脸识别。

(5)神经网络方法

目前神经网络方法在人脸识别中的研究方兴未艾。Valentin提出一种方法，首先提取人脸的50个主元，然后用自相关神经网络将它映射到5维空间中，再用一个普通的多层感知器进行判别，对一些简单的测试图像效果较好；Intrator等提出了一种混合型神经网络来进行人脸识别，其中非监督神经网络用于特征提取，而监督神经网络用于分类。Lee等将人脸的特点用六条规则描述，然后根据这六条规则进行五官的定位，将五官之间的几何距离输入模糊神经网络进行识别，效果较一般的基于欧氏距离的方法有较大改善；Laurence等采用卷积神经网络方法进行人脸识别，由于卷积神经网络中集成了相邻像素之间的相关性知识，从而在一定程度上获得了对图像平移、旋转和局部变形的不变性，因此得到非常理想的识别结果；Lin等提出了基于概率决策的神经网络方法(PDBNN)，其主要思想是采用虚拟(正反例)样本进行强化和反强化学习，从而得到较为理想的概率估计结果，并采用模块化的网络结构(OCON)加快网络的学习。这种方法在人脸检测、人脸定位和人脸识别的各个步骤上都得到了较好的应用。其它研究还有：Dai等提出用Hopfield网络进行低分辨率人脸联想与识别；Gutta等提出将RBF与树型分类器结合起来进行人脸识别的混合分类器模型；Phillips等人将MatchingPursuit滤波器用于人脸识别；还有人用统计学习理论中的支撑向量机(SVM)进行人脸分类。

神经网络方法在人脸识别上的应用比起前述几类方法来有一定的优势，因为对人脸识别的许多规律或规则进行显性的描述是相当困难的，而神经网络方法则可以通过学习的过程获得对这些规律和规则的隐性表达，它的适应性更强，一般也比较容易实现。

(6)其他方法

Brunelli等对模板匹配方法作了大量实验，结果表明在尺度、光照、旋转角度等各种条件稳定的情况下，模板匹配的效果优于其他方法，但它对光照、旋转和表情变化比较敏感，影响了它的直接使用。Goudail等人采用局部自相关性作为人脸识别的判断依据，它具有平移不变性，在脸部表情变化时比较稳定。

当然，上述方法仅仅只是举例说明，除了上述方法外，其它可以用于提取用户面部特征值的方法都适用于本申请，本申请对此不作限制。

在本发明一种优选实施例中，所述的方法还包括：所述第二移动装置判断所述语音信息是否包括预设的关键字或关键词。

在实际视频通信的过程中，有可能会出现用户不在镜头里，但是能听到用户声音的情况，那么此时视频帧图像是肯定不包括用户的面部图像的，进而也不可能包括预设的面部特征值了。因此，在本发明实施例中，除了会判断面部图像是否包括预设的面部特征值之外，还会判断语音信息是否包括预设的关键字或关键词。

在本发明一种优选实施例中，所述第二移动装置设置有场景特效数据库，所述场景特效数据库包括多种场景特效，每种场景特效具有对应的面部特征值，以及，关键字或关键词。

具体的，在第二移动装置中设置有场景特效数据库，其中包括有多种场景特效，每种场景特效具有对应的面部特征值，以及关键字或关键词。例如，“火焰”的场景特效对应的面部特征为皱眉，对应的关键词为“生气”、“愤怒”等，当检测到“皱眉”的面部特征值，和/或，检测到语音信息中包括“生气”关键词时，则播放“火焰”的场景特效。

需要说明的是，每种场景特效可以不止对应一种面部特征值，以及一个关键字或关键词，可以同时对应多个不同的面部特征值，以及多个不同的关键字或关键词，本发明实施例对此不作限制。而且，面部特征值的展示方式也可以有很多种，本发明实施例对此也不作限制。

当然，除了面部特征值、关键字或关键词以外，还可以检测用户说话的音量、语速等信息，例如，当检测到用户说话的音量突然增加了很多，语速也突然加快，且语音信息包括“生气”等关键词的时候，也可以播放“火焰”的场景特效。

所述第二移动装置判断所述面部图像是否包括预设的面部特征值的步骤包括：

提取所述面部图像的面部特征值；

将所述面部特征值与所述场景特效数据库进行匹配；

基于匹配结果判断所述面部图像是否包括预设的面部特征值；

具体的，可以对视频帧图像的每一帧都进行面部特征值提取，但是一秒的视频包括至少24帧图像，所以，连续多帧的图像的相似度非常高，因此，也可以间隔一定的时间进行面部特征值提取，比如每间隔0.3秒进行一次面部特征值的提取，还可以间隔一定数量的帧图像进行面部特征值的提取，比如每间隔5帧图像进行一次面部特征值的提取，假设第一次是对第1帧图像进行面部特征值的提取，那么第二次就是第6帧图像进行面部特征值进行提取，当然，还可以通过其它方式提取面部图像的面部特征值，本发明实施例对此不作限制。

提取到面部特征值之后，就将提取到的面部特征值与场景特效数据库进行匹配，如果存在匹配结果，则表示提取到的面部特征值具有对应的场景特效。

所述第二移动装置判断所述语音信息是否包括预设的关键字或关键词的步骤包括：

通过语音识别将所述语音信息转化为文本信息；

对所述文本信息进行自然语言处理，提取所述文本信息的关键字或关键词；

将提取的关键字或关键词与所述场景特效数据库进行匹配；

基于匹配结果判断所述语音信息是否包括预设的关键字或关键词。

具体的，先通过语音识别技术将语音转化为文本，然后对文字进行自然语言处理，也就是对文本进行划分，将一个长句划分为多个字、词语，再将每个字、词语与特效数据库进行匹配，如果存在匹配结果，则表示提取到的一个或多个字/词语具有对应的场景特效。

步骤103，若是，则所述第二移动装置依据所述预设的面部特征值，获取与所述预设的面部特征值对应的场景特效；

在本发明一种优选实施例中，所述第二移动装置依据所述预设的面部特征值，获取与所述预设的面部特征值对应的场景特效的步骤包括：

所述第二移动装置从所述场景特效数据库中查找与所述预设的面部特征值对应的第一场景特效；

获取所述第一场景特效。

如果提取到的面部特征值具有对应的场景特效，则从场景特效库中提取对应的第一场景特效，准备播放。

在本发明一种优选实施例中，所述的方法还包括：若是，则所述第二移动装置依据所述预设的关键字或关键词，获取与所述预设的关键字或关键词对应的场景特效。

所述第二移动装置依据所述预设的关键字或关键词，获取与所述预设的关键字或关键词对应的场景特效的步骤包括：

所述第二移动装置从所述场景特效数据库中查找与所述预设的关键字或关键词对应的第二场景特效；

获取所述第二场景特效。

如果提取到的关键字或关键词具有对应的场景特效，则从场景特效库中提取对应的第二场景特效，准备播放。

需要说明的是，第一场景特效与第二场景特效可以是一样的。例如，检测到用户“皱眉”的面部特征值，且语音信息中包括“生气”的关键词，但是“皱眉”和“生气”对应的场景特效都是“火焰”，那么，此时，第一场景特效和第二场景特效就是一样的了。

而如果用户不在镜头内，那么只能采集到用户的语音信息，此时，就无法获取第一场景特效，只能获取第二场景特效了。

步骤104，所述第二移动装置展现所述场景特效。

第二移动装置在获取第一场景特效，和/或，第二场景特效后，则进行播放。

在本发明一种优选实施例中，所述第二移动装置展现所述场景特效的步骤包括：

所述第二移动装置确定所述视频帧图像的主体区域和背景区域；

在所述背景区域展现所述场景特效。

具体的，可以通过区分是否包含用户面部来确定视频帧图像的主体区域和背景区域，如果视频帧图像包含用户的面部，则包含用户面部的区域为主体区域，除主体区域外的区域为背景区域；也可以通过识别物体的景深来确定主体区域和背景区域。当然，也可以通过其它方式来确定视频帧图像的主体区域和背景区域，本发明实施例对此不作限制。

需要说明的是，在本申请中，第一移动装置和第二移动装置是相对的，上述步骤仅仅是从一侧的设备进行详细说明，并不是限定只有第二移动装置才有场景特效数据库，实际上第一移动装置和第二移动装置都设置有场景特效数据库，因此，第二移动装置从场景特效数据库中获取到场景特效后，可以将场景特效的编码发送给第一移动装置，这样，第一移动装置和第二移动装置都可以播放场景特效了。

也可以是第一移动装置在采集了视频通信数据后，在第一移动装置中基于视频通信数据获取场景特效，然后将场景特效的编码发送给第二移动装置，这样也可以实现在第一移动装置和第二移动装置中都播放场景特效了。

进一步，因为场景特效数据库是直接设置在设备中，而不是第三方APP中的，所以，当使用设备进行视频录制时，也可以根据设备采集的视频帧图像和语音信息来获取场景特效，然后播放场景特效，这样，录制的视频也包括场景特效。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明的一种视频通信中展现场景特效的装置实施例的结构框图，所述装置设置在第一移动装置和第二移动装置中；

所述的装置具体可以包括如下模块：

接收模块201，用于当所述第一移动装置与所述第二移动装置建立视频通信成功时，所述第二移动装置接收所述第一移动装置发送的视频通信数据；所述视频通信数据包括视频帧图像，所述视频帧图像包含本端用户的面部图像；

第一判断模块202，用于所述第二移动装置判断所述面部图像是否包括预设的面部特征值；

第一获取模块203，用于若是，则所述第二移动装置依据所述预设的面部特征值，获取与所述预设的面部特征值对应的场景特效；

展现模块204，用于所述第二移动装置展现所述场景特效。

在本发明一种优选实施例中，所述视频通信数据还包括本端用户的语音信息；所述的装置还包括：

第二判断模块，用于所述第二移动装置判断所述语音信息是否包括预设的关键字或关键词；

第二获取模块，用于若是，则所述第二移动装置依据所述预设的关键字或关键词，获取与所述预设的关键字或关键词对应的场景特效；

展现模块，还用于所述第二移动装置展现所述场景特效。

在本发明一种优选实施例中，所述第二移动装置设置有场景特效数据库，所述场景特效数据库包括多种场景特效，每种场景特效具有对应的面部特征值，以及，关键字或关键词；

所述第一判断模块包括：

第一提取子模块，用于提取所述面部图像的面部特征值；

第一匹配子模块，用于将所述面部特征值与所述场景特效数据库进行匹配；

第一确定子模块，用于基于匹配结果判断所述面部图像是否包括预设的面部特征值；

所述第二判断模块包括：

语音识别子模块，用于通过语音识别将所述语音信息转化为文本信息；

第二提取子模块，用于对所述文本信息进行自然语言处理，提取所述文本信息的关键字或关键词；

第二匹配子模块，用于将提取的关键字或关键词与所述场景特效数据库进行匹配；

第二确定子模块，用于基于匹配结果判断所述语音信息是否包括预设的关键字或关键词。

在本发明一种优选实施例中，第一获取模块包括：

第一查找子模块，用于所述第二移动装置从所述场景特效数据库中查找与所述预设的面部特征值对应的第一场景特效；

第一场景特效获取子模块，用于获取所述第一场景特效；

第二获取模块包括：

第二查找子模块，用于所述第二移动装置从所述场景特效数据库中查找与所述预设的关键字或关键词对应的第二场景特效；

第二场景特效获取子模块，用于获取所述第二场景特效。

在本发明一种优选实施例中，所述展现模块包括：

区域确定子模块，用于所述第二移动装置确定所述视频帧图像的主体区域和背景区域；

区域展现子模块，用于在所述背景区域展现所述场景特效。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频通信中展现场景特效的方法和一种视频通信中展现场景特效的装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频通信中展现场景特效的方法，应用于移动装置，其特征在于，所述移动装置包括第一移动装置和第二移动装置，所述方法应用于第一移动装置与第二移动装置之间；所述的方法包括：

所述第二移动装置展现所述场景特效。

2.根据权利要求1所述的方法，其特征在于，所述视频通信数据还包括第一移动装置用户的语音信息；所述的方法还包括：

所述第二移动装置判断所述语音信息是否包括预设的关键字或关键词；

若是，则所述第二移动装置依据所述预设的关键字或关键词，获取与所述预设的关键字或关键词对应的场景特效；

所述第二移动装置展现所述场景特效。

3.根据权利要求1或2所述的方法，其特征在于，所述第二移动装置设置有场景特效数据库，所述场景特效数据库包括多种场景特效，每种场景特效具有对应的面部特征值，以及，关键字或关键词；

提取所述面部图像的面部特征值；

将所述面部特征值与所述场景特效数据库进行匹配；

通过语音识别将所述语音信息转化为文本信息；

将提取的关键字或关键词与所述场景特效数据库进行匹配；

4.根据权利要求1或2所述的方法，其特征在于，所述第二移动装置依据所述预设的面部特征值，获取与所述预设的面部特征值对应的场景特效的步骤包括：

获取所述第一场景特效；

获取所述第二场景特效。

5.根据权利要求1或2所述的方法，其特征在于，所述第二移动装置展现所述场景特效的步骤包括：

在所述背景区域展现所述场景特效。

6.一种视频通信中展现场景特效的装置，其特征在于，所述装置设置在第一移动装置和第二移动装置中；所述的装置包括：

展现模块，用于所述第二移动装置展现所述场景特效。

7.根据权利要求6所述的装置，其特征在于，所述视频通信数据还包括本端用户的语音信息；所述的装置还包括：

展现模块，还用于所述第二移动装置展现所述场景特效。

8.根据权利要求6或7所述的装置，其特征在于，所述第二移动装置设置有场景特效数据库，所述场景特效数据库包括多种场景特效，每种场景特效具有对应的面部特征值，以及，关键字或关键词；

所述第一判断模块包括：

第一提取子模块，用于提取所述面部图像的面部特征值；

所述第二判断模块包括：

9.根据权利要求6或7所述的装置，其特征在于，第一获取模块包括：

第一场景特效获取子模块，用于获取所述第一场景特效；

第二获取模块包括：

第二场景特效获取子模块，用于获取所述第二场景特效。

10.根据权利要求6或7所述的装置，其特征在于，所述展现模块包括：

区域展现子模块，用于在所述背景区域展现所述场景特效。