CN108399358A

CN108399358A - 一种在视频聊天的表情显示方法及系统

Info

Publication number: CN108399358A
Application number: CN201810027132.1A
Authority: CN
Inventors: 杨林权; 谷俊允
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-08-14
Anticipated expiration: 2038-01-11
Also published as: CN108399358B

Abstract

本发明公开了一种在线视频聊天的表情显示方法及系统，首先获取在线视频聊天端的拍摄装置所拍摄的聊天者聊天时的面部的表情图像，分别对各个拍摄装置的表情图像进行处理，先将表情图像进行表情分类处理，再将表情图像输入至分类到的表情所对应的强度处理子模型进行处理，得到分类到的表情的强度，根据预设的转换关系，将得到各表情分类以及对应的表情的强度转换为表情图片/动画显示出来。本发明基于表情识别做出表情强度的估计，准确获知在线聊天者在聊天时的表情类别和强度水平，反映出用户在视频聊天时的情感状况，有助于增强聊天的互动效果，能更直观的了解聊天对象的实时状态或者是聊天时的趣味性。

Description

一种在视频聊天的表情显示方法及系统

技术领域

本发明涉及领域视频聊天领域，更具体地说，涉及一种在线视频聊天的表情显示方法及系统。

背景技术

随着网络科技的发展，视频通讯越来越普及，越来越多的领域采用视频通讯方法，包括网络聊天、视频会议、远程教学等方面。视频通讯拉近了人与人之间的距离，若是在视频交流过程当中可以了解更多对方的情感、心理活动将会大大降低交流误会、促进人与人之间的交流。

人脸识别，是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部的二系列相关技术，通常也叫做人像识别、面部识别。人们通过做一些表情把内心感受表达给对方看，在人们做的不同表情之间，或是某个表情里，脸部会"泄露"出其它的信息。

然而在目前的在线视频聊天中，只是提供了实时传输视频图像的功能，不具备判断聊天用户的情感状态和表情强度的功能。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述目前的在线视频聊天中，只是提供了实时传输视频图像的功能，不具备判断聊天用户的情感状态和表情强度的功能的缺陷，提供一种在线视频聊天的表情显示方法及系统。

本发明解决其技术问题，所采用的在线视频聊天的表情显示方法，包含如下步骤：

S1、获取在线视频聊天端的拍摄装置所拍摄的聊天者聊天时的面部的表情图像；

S2、分别对各个拍摄装置的表情图像进行处理；对任一个拍摄装置的表情图像进行处理的方法如下：先将表情图像进行表情分类处理，再将表情图像输入至分类到的表情所对应的强度处理子模型进行处理，得到分类到的表情的强度，其中一个表情分类下的强度处理子模型中具有该表情分类的多个强度；

S3、根据预设的转换关系，将步骤S2得到各表情分类以及对应的表情的强度转换为表情图片/动画显示出来。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，将步骤S2得到各表情分类以及对应的表情的强度转换为表情图片/动画显示出来包括：

将表情图片/动画在聊天视频显示装置上进行本地显示；或者，

将表情图片/动画发送至聊天对象的聊天视频显示装置上进行显示。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，还包括分别训练各个强度处理子模型的步骤，任意一个强度处理子模型的训练步骤包括：

A1、获取某一表情分类下的用于训练的包含人面部分的表情数据库，所述表情数据库包含具有面部表情强度标签的数据库与无面部表情强度标签的数据库；

A2、对所述表情数据库中的图像数据进行预处理，提取出人面部分的数据；

A3、对提取出的人面部分的数据分别进行面部几何特征、局部二值模式和Gabor小波变换三种模式的特征提取；

A4、分别使用全监督模式、半监督模式和无监督模式对步骤A3输出的数据进行训练，得到特征与面部表情强度的关系；

A5、将所述训练后形成的数据分别作为序数随机森林算法的输入进行训练，分别得出面部表情强度处理子模型，将k₁*B₁+k₂*B₂+k₃*B₃作为最终的面部表情强度计算模型，其中系数k₁、k₂、k₃的取值范围均为(0，1)，且k₁+k₂+k₃＝1，B₁、B₂、B₃分别为同一输入条件下全监督模式、半监督模式和无监督模式对应的输出值；

其中，全监督模式是指采用带有强度标签的图像数据作为该模式的表情数据库进行训练；半监督模式是指采用部分带有强度标签部分不带有强度标签的图像数据作为该模式的表情数据库进行训练；无监督模式是指采用不带有强度标签的图像数据作为该模式的表情数据库进行训练。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，所述步骤A2中预处理包括：人脸特征点定位、人脸识别、图像剪切和直方图均衡化；方案采用主动形状模型ASM获取面部特征点，利用瞳孔间的连线与水平线的夹角，旋转图像使得瞳孔间连线为水平，之后调用OpenCV库中人脸识别框架获取图像数据中人面部分，并且剪切面部区域为M*N像素，最后对剪切后的所有图像数据进行直方图均衡化处理；其中，M、N均为正整数且均大于3。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，所述步骤A3中还包括步骤：采用主成分分析方法，分别对三种模式提取的特征进行处理以降低特征数据的维度。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，所述步骤A3中对于任意一帧：是以该帧中下巴与鼻尖的像素间距离为标准值，将嘴角、下巴、眼角、上下眼皮之间的像素间的相互距离与该帧的标准值的比值作为面部几何特征。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，所述步骤A3中采用局部二值模式提取图像特征时，具体是指将步骤A2中提取出的人面部分的数据分割得到的面部图像均匀分为P*Q块，得到P*Q块(M/P)*(N/Q)的区域，对每一区域进行3*3邻域像素的处理，对比所有像素临近的8个像素的灰度值，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0，得到8个二进制数，将8位二进制数转换为10进制，得到该像素点的LBP值，最终按行拼接P*Q块图像的LBP值，得到图像的局部二值模式特征；其中，P、Q、M、N均为正整数，M、N分别为人面部分的图像数据的横向、纵向的像素大小。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，所述步骤A3中采用Gabor小波变换进行特征提取具体是指，将剪切后形成的M*N像素的面部图像进行多尺度多方向的Gabor小波变换，每幅图像得到(V*R)*M*N维的特征,V为尺度数，R为方向数。

进一步地，在本发明的所采用的在线视频聊天的表情显示方法中，所述序数随机森林算法中：对于参与训练的数据库中的图像序列中每一帧，首先进行序数回归分析，预测该帧在各个强度值上的分布比，然后在随机森林算法对该图像序列中的帧进行回归分析时，对每个决策树得到的强度值Q进行加权，所加权重为该帧在单独进行序数回归分析时，分析结果中强度值Q所占的比例。

根据本发明的另一方面，本发明为解决其技术问题，还提供了一种在线视频聊天的表情显示系统，采用如上述任意一项的在线视频聊天的表情显示方法进行在线视频聊天的表情显示。

实施本发明的在线视频聊天的表情显示方法及系统，首先获取在线视频聊天端的拍摄装置所拍摄的聊天者聊天时的面部的表情图像，分别对各个拍摄装置的表情图像进行处理，先将表情图像进行表情分类处理，再将表情图像输入至分类到的表情所对应的强度处理子模型进行处理，得到分类到的表情的强度，根据预设的转换关系，将得到各表情分类以及对应的表情的强度转换为表情图片/动画显示出来。本发明基于表情识别做出表情强度的估计，准确获知在线聊天者在聊天时的表情类别和强度水平，反映出用户在视频聊天时的情感状况，有助于增强聊天的互动效果，能更直观的了解聊天对象的实时状态或者是聊天时的趣味性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明的在线视频聊天的表情显示方法的一实施例的流程图；

图2是本发明的在线视频聊天的表情显示方法中的强度处理子模型的训练流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

参考图1，其为本发明的在线视频聊天的表情显示方法的一实施例的流程图，在本实施例中该表情显示方法包含如下步骤：

S1、获取在线视频聊天端的拍摄装置所拍摄的聊天者聊天时的面部的表情图像。对于聊天者而言，聊天可以通过电脑或者手机等进行，然后通过电脑配置的摄像头或者手机上安装的摄像头获取聊天者的面部的表情图像，获取聊天者的面部的表情图像是实时的。

S2、分别对各个拍摄装置的表情图像进行处理；对任一个拍摄装置的表情图像进行处理的方法如下：S21、先将表情图像进行表情分类处理，S22、再将表情图像输入至分类到的表情所对应的强度处理子模型进行处理，得到分类到的表情的强度，其中强度处理子模型中一个表情分类下具有该表情分类的多个强度。在本实施例中，在获取到各线视频聊天端的聊天者的面部图像数据后，将表情图像进行表情分类处理，分类的所有类型包括：高兴、悲伤、疑惑、愤怒等，相应的，存在与之一一对应的强度处理子模型：高兴强度处理子模型、悲伤强度处理子模型、疑惑强度处理子模型、愤怒强度处理子模型等。具有哪些表情分类，可以预先进行人为的设定，优选的，所有的表情分类组合起来应该可以概括出聊天时所有的聊天表情的可能情况，在本实施例中每个表情分类下具有6个强度值，分别记为0-5。关于上述处理过程，各个线视频聊天端的数据可以在本地进行实时处理，也可以发送至聊天的服务器进行处理，处理后分别得到各个在线视频聊天端的表情分类以及对应的表情的强度，如以高兴.2表示高兴表情分类下的强度值2。

S3、根据预设的转换关系，将步骤S2得到各表情分类以及对应的表情的强度转换为表情图片/动画显示出来。如高兴.5则显示出表征最高兴的表情图片/动画，高兴.0则显示出表征稍微有点高兴的表情图片/动画。在本实施例中，是将表情图片/动画在聊天视频显示装置上进行本地显示，从而增强聊天者的趣味性；在本发明的另一实施例中，将表情图片/动画发送至聊天对象的聊天视频显示装置上进行显示，如此可以让聊天对象观看到自己的表情，能更直观的了解聊天对象的实时状态，有助于增强聊天的互动效果。表情图片/动画可以采用预设好的具有卡通效果的表情图片/动画，也可以采用聊天者的表情图像，将聊天者的表情图像进行表情修饰后显示出来，修饰程度与聊天时的表情类别和强度水平相对应，修饰规则预设，聊天者的表情图像可以通过拍摄的视频数据获取或者聊天者进行预设，如高兴.5时，则按照预设规则，将聊天者的表情图像进行表情调整为最大高兴程度，高兴.0时，则按照预设规则，将聊天者的表情图像进行表情调整为稍微高兴。

如图2所示，其为本发明的在线视频聊天的表情显示方法中的强度处理子模型的训练流程图。下述仅以高兴表情分类所对应的高兴强度处理子模型的训练形成方法为例进行说明，其他表情分类的处理方式与此相同，下述不再进行重复叙述。

A1、获取高兴表情分类下用于训练的包含人面部分的表情数据库，数据库包含具有面部表情强度标签的数据库与无面部表情强度标签的数据库。数据库是人工采集的包含不同在线视频聊天者的多种表情的图像序列，并且由专业人员制作图像序列每一帧对应的强度标签和分类标签，然后作为表情数据库用于训练。

A2、对表情数据库中的图像数据进行预处理，提取出人面部分的数据。在本步骤中，由于在数据库中图像数据所包含的用户的头部姿势、拍摄光照强度等因素会导致图像质量有差别，因此首先要进行图像预处理，包括人脸特征点定位、人脸识别、图像剪切和直方图均衡化。方案采用主动形状模型ASM获取面部特征点，利用瞳孔间的连线与水平线的夹角，旋转图像使得瞳孔间连线为水平，之后采用OpenCV库中人脸识别框架获取图像中人面部分，并剪切面部区域为100*100像素，最后对所有图像数据进行直方图均衡化处理，以此减弱光照等干扰因素的影响。

A3、对提取出的人面部分的数据分别进行面部几何特征、局部二值模式和Gabor小波变换三种模式的特征提取，然后采用主成分分析方法，分别对三种模式提取的特征进行处理以降低特征数据的维度。本实施例对于任意一帧以下巴与鼻尖的距离为标准，将嘴角、下巴、眼角、上下眼皮之间的相互距离与该帧的标准的比值作为面部几何特征；对于任意两帧，其各自的标准值可能相同，也可能不同，具体视每一帧中内容而定。局部二值模式提取图像特征时，将前面步骤分割得到的100*100的面部图像均匀分为5*5块，得到25块20*20的区域，对每一区域进行3*3邻域像素的处理，即对比所有像素临近的8个像素的灰度值，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0，得到8个二进制数，将8位二进制数转换为10进制，得到该像素点的LBP值，最终按行拼接25块图像的LBP值，得到图像的局部二值模式特征。在提取图像Gabor小波变换特征时，我们将100*100的面部图像进行5尺度(v＝0，1，2，3，4)8方向的Gabor小波变换，每幅图像得到40*100*100维的特征。由于三种特征维度较高，计算量大，本实施例采用主成分分析方法，将高维特征映射到低维空间中，并保留每类特征95％的能量，达到降低特征维度，减少计算量的目的。最后，我们将降维后的特征用于后续步骤的学习训练。

A4、分别使用全监督模式、半监督模式和无监督模式对步骤S3输出的数据进行训练，得到特征与面部表情强度的关系。全监督模式是指采用带有强度标签的图像数据作为该模式的表情数据库；半监督模式是指，采用部分带有强度标签部分不带有强度标签的图像数据作为该模式的表情数据库；无监督模式是指，采用不带有强度标签的图像数据作为该模式的表情数据库。在无监督试验中，利用训练用的数据库中的某一帧距离顶点帧的相对距离来计算该帧的相对强度值，具体做法是：图像序列的每一帧均有一个序列号j，将图像序列的起点帧(序列号为1)和顶点帧(序列号为p)的强度分别标识为MIN和MAX(本实施例中MIN＝0，MAX＝10)，那么图像序列中序列号为j的帧的强度Q定义为其中δ表示预设的常数，m为图像序列长度。

A5、将所述训练后形成的数据分别作为序数随机森林算法的输入进行训练，分别得出面部表情强度处理子模型，将k₁*B₁+k₂*B₂+k₃*B₃作为最终的面部表情强度计算模型，其中系数k₁、k₂、k₃的取值范围均为(0，1)，且k₁+k₂+k₃＝1，B₁、B₂、B₃分别为同一输入条件下全监督模式、半监督模式和无监督模式对应的输出值。在训练表情强度估计模型时，我们秉承了传统机器学习分类方法中的随机森林，将关注图像帧间序列关系的序数回归与随机森林相结合，提出序数随机森林算法。随机森林是由多个决策树组成，每个决策树由强度值信息生成，在回归分析时对每个输入数据得到一个预测值，最终的回归结果为所有决策树预测值的平均值。而序数回归是利用序列的顺序关系进行回归分析，不考虑序列的值(也就是随机森林回归分析时所关心的强度值信息)。本发明将两者结合，对于图像序列中某一帧，首先进行序数回归分析，预测该帧的强度值在MIN～MAX之间的分布比，然后在随机森林对图像序列中任意一帧进行回归分析时，对每个决策树得到的强度值Q进行加权，所加权重为该帧在单独进行序数回归分析时，分析结果中强度值Q所占的比例。本实施例通过寻找最优的参数和回归范围等，训练出了既注重标签信息又注重图像序列关系的模型。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种在线视频聊天的表情显示方法，其特征在于，包含如下步骤：

2.根据权利要求1所述的表情显示方法，其特征在于，所述将步骤S2得到各表情分类以及对应的表情的强度转换为表情图片/动画显示出来包括：

3.根据权利要求1所述的表情显示方法，其特征在于，还包括分别训练各个强度处理子模型的步骤，任意一个强度处理子模型的训练步骤包括：

4.根据权利要求3所述的表情显示方法，其特征在于，所述步骤A2中预处理包括：人脸特征点定位、人脸识别、图像剪切和直方图均衡化；方案采用主动形状模型ASM获取面部特征点，利用瞳孔间的连线与水平线的夹角，旋转图像使得瞳孔间连线为水平，之后调用OpenCV库中人脸识别框架获取图像数据中人面部分，并且剪切面部区域为M*N像素，最后对剪切后的所有图像数据进行直方图均衡化处理；其中，M、N均为正整数且均大于3。

5.根据权利要求3所述的表情显示方法，其特征在于，所述步骤A3中还包括步骤：采用主成分分析方法，分别对三种模式提取的特征进行处理以降低特征数据的维度。

6.根据权利要求3所述的表情显示方法，其特征在于，所述步骤A3中对于任意一帧：是以该帧中下巴与鼻尖的像素间距离为标准值，将嘴角、下巴、眼角、上下眼皮之间的像素间的相互距离与该帧的标准值的比值作为面部几何特征。

7.根据权利要求3所述的表情显示方法，其特征在于，所述步骤A3中采用局部二值模式提取图像特征时，具体是指将步骤A2中提取出的人面部分的数据分割得到的面部图像均匀分为P*Q块，得到P*Q块(M/P)*(N/Q)的区域，对每一区域进行3*3邻域像素的处理，对比所有像素临近的8个像素的灰度值，若周围像素值大于中心像素值，则该像素点的位置被标记为1，否则为0，得到8个二进制数，将8位二进制数转换为10进制，得到该像素点的LBP值，最终按行拼接P*Q块图像的LBP值，得到图像的局部二值模式特征；其中，P、Q、M、N均为正整数，M、N分别为人面部分的图像数据的横向、纵向的像素大小。

8.根据权利要求4所述的表情显示方法，其特征在于，所述步骤A3中采用Gabor小波变换进行特征提取具体是指，将剪切后形成的M*N像素的面部图像进行多尺度多方向的Gabor小波变换，每幅图像得到(V*R)*M*N维的特征,V为尺度数，R为方向数。

9.根据权利要求3所述的表情显示方法，其特征在于，所述序数随机森林算法中：对于参与训练的数据库中的图像序列中每一帧，首先进行序数回归分析，预测该帧在各个强度值上的分布比，然后在随机森林算法对该图像序列中的帧进行回归分析时，对每个决策树得到的强度值Q进行加权，所加权重为该帧在单独进行序数回归分析时，分析结果中强度值Q所占的比例。

10.一种在线视频聊天的表情显示系统，其特征在于，采用如权利要求1-9任一项所述的在线视频聊天的表情显示方法进行在线视频聊天的表情显示。