CN110213521A

CN110213521A - 一种虚拟即时通信方法

Info

Publication number: CN110213521A
Application number: CN201910430618.4A
Authority: CN
Inventors: 张成文
Original assignee: Chuangyihui (beijing) Technology Co Ltd
Current assignee: Chuangyihui (beijing) Technology Co Ltd
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-09-06

Abstract

本发明公开了一种虚拟即时通信方法，通过终端摄像头实时捕获面部图像或特征，并与在该时间段内终端录音设备捕获到的声音一起打包发送到服务器，服务器处理后发送到另一个通信终端，该终端会根据接收到的面部图像或特征实时驱动虚拟2D/3D形象模型。本发明通过对面部图像或特征与声音进行打包传输，实现声音数据与表情数据的同步。在虚拟即时通信的过程中，使用与双方表情、姿态相同的虚拟2D/3D形象模型代替通信双方的真实面貌，以此来保护用户的隐私，同时也能增加即时通信的趣味性。

Description

一种虚拟即时通信方法

技术领域

本发明属于计算机技术领域，具体涉及一种虚拟即时通信方法，应用于即时通信、视频聊天。

背景技术

心理学家研究发现，人类进行会话交流传递信息时，言语内容占7％，说话时的语调占38％，而说话人的表情占55％，由此可见，在人类交流过程中，面部表情是必不可少的一个要素。

在即时通信的方式中，视频聊天是最能够准确的表达通信双方意思的方式，但是，出于隐私或其他方面的考虑，很多人并不想将真实的面容展示给通信方，目前市面上没有针对这一问题的解决方案。那么在即时视频通信的过程中如何在展示面部表情的同时保护用户的隐私是本发明需要解决的第一个问题。

目前市面上的视频即时通信软件(例如QQ的视频聊天)，在视频过程中包含很多2D挂件来增添视频的趣味性(例如实时定位到人脸的眼睛，在眼睛位置绘制2D的眼镜贴图)，虽然在一定程度上能够吸引用户，但是在当今这个3D应用/游戏、虚拟现实与增强现实日益普及的时代，单纯的2D挂件已经不足以满足用户的娱乐需求。那么在即时视频通信的过程中采用一种更加具有趣味性的方式是本发明需要解决的第二个问题。

发明内容

本发明的目的是通过以下技术方案实现的。

针对上述现有技术的缺点，本发明能够采用一种虚拟即时通信方法实现高趣味性并且能够保护用户隐私的视频即时通信。

具体的，根据本发明的第一个方面，本发明提供了一种虚拟即时通信方法，包括：

第一用户通过第一客户端选择或实时生成代表第一用户的虚拟2D/3D形象模型，并发起对第二用户的会话；

第二用户接受第一用户的会话请求，与第一用户建立会话连接，连接后，代表双方的虚拟2D/3D形象模型将会在通信的另一方呈现，第二用户可以提前设置或实时生成代表第二用户的虚拟2D/3D形象模型；

第一客户端、第二客户端分别通过各自设备的摄像头实时捕获各自用户(即第一用户、第二用户)的面部图像或特征；

第一客户端、第二客户端分别录制各自用户发出的声音，将同一时刻的声音与面部图像或特征打包，发送到对方客户端，实现声音与表情的同步；

第一客户端接收第二客户端发送的数据包，根据数据播放第二用户的声音并操纵代表第二用户的虚拟2D/3D形象模型做出对应表情；第二客户端接收第一客户端发送的数据包，根据数据播放第一用户的声音并操纵代表第一用户的虚拟2D/3D形象模型做出对应表情。

优选的，所述第一用户通过第一客户端选择或实时生成代表第一用户的虚拟2D/3D形象模型，包括：

如果第一用户选择自行上传代表第一用户的虚拟2D/3D形象模型，第一用户在第一客户端将含有表情动画的虚拟2D/3D形象模型上传到服务器进行有效性验证；如果第一用户上传的虚拟2D/3D形象模型通过了有效性验证，用户则能够使用该虚拟2D/3D形象模型实时模拟第一用户的面部表情，否则服务器向第一客户端发送与该错误信息相对应的提示信息，提示第一用户上传失败；

如果第一用户选择实时生成代表第一用户的虚拟2D/3D形象模型，调用第一客户端的摄像头拍摄任意人物面部图片或者从第一客户端的本地相册中选取含有任意人物面部的图片，将图片上传到服务器；服务器从面部图片中提取二维特征，构建与图片对应的虚拟2D/3D形象模型；找到重建后的虚拟2D/3D形象模型与面部纹理之间的映射关系，实现纹理映射，得到一个上传图片中人物的虚拟2D/3D形象模型；

如果第一用户选择从服务器上虚拟2D/3D形象模型库中选择代表第一用户的虚拟2D/3D形象模型，将服务器上虚拟2D/3D形象模型库中的模型发送到第一客户端，第一客户端加载并展示这些虚拟2D/3D形象模型，供第一用户选择使用。

优选的，进一步包括：根据实时生成的虚拟2D/3D形象模型生成对应的表情动画，将含有表情动画的虚拟2D/3D形象模型存储到虚拟2D/3D形象模型库中。

优选的，所述第一客户端与第二客户端分别录制各自用户发出的声音，将同一时刻的声音与面部图像或特征打包，发送到对方客户端，实现声音与表情的同步，包括如下步骤：

将面部图像或特征放入表情数据队列，若不存在表情数据队列则创建该队列；

通过客户端的录音设备采集声音，将采集的声音放入声音数据队列，若不存在声音数据队列则创建该队列；

每一帧都从表情数据队列与声音数据队列中取出队首元素，将其进行数据编码，设置能够表示先后顺序的标识并存入数据包中，并通过服务器将该数据包传送到指定的客户端。

优选的，所述第一客户端接收第二客户端发送的数据包，根据数据播放第二用户的声音并操纵代表第二用户的虚拟2D/3D形象模型做出对应表情，包括如下步骤：

第一客户端检测是否存在数据包队列，若不存在则创建该队列；将第一客户端接收的数据包按标识顺序存入数据包队列中；

第一客户端取出数据包队列的队首数据包并解析，播放队首数据包中的声音数据，并将数据包中的面部图像或特征转换为表情动画的参数，利用参数操纵表情动画，使得第二客户端呈现的虚拟2D/3D形象模型做出与第一用户相同的表情。

根据本发明的第二个方面，本发明提供了一种虚拟即时通信系统，包括：

人脸特征标定模块，用于提取图像、视频中人脸的特征，从而得到人脸结构的表征；

虚拟形象重建模块，用于重建出和输入源中人脸结构相同的虚拟形象，之后再生成虚拟形象对应的表情动画；

虚拟形象驱动模块，用于根据获取到的人脸特征数据，将其转化为表情动画参数，驱动虚拟形象模型做出与人脸特征数据对应的动作；

数据传输模块，用于设置声音与表情数据的队列，将同一时刻的声音与表情数据打包发送；

本发明的优点在于：在虚拟即时通信的过程中，通信双方看到的不再是通信另一方的真实面貌，而是代表通信另一方的虚拟2D/3D形象模型，该虚拟2D/3D形象模型会实时做出与通信另一方相同的表情与动作，既保护了用户的隐私，也能够准确表达通信另一方的情绪状态，同时也增加了视频通信的趣味性。

除此之外，本发明所述的虚拟2D/3D形象模型既可以是三维人脸模型，也可以选用与人脸结构类似的动物头像或卡通动漫人物，除了系统内置的虚拟2D/3D形象模型外，用户也能自行上传或实时生成。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

附图1示出了根据本发明实施方式的一种虚拟即时通信方法的主流程图；

附图2示出了根据本发明实施方式的虚拟2D/3D形象模型的设置流程图；

附图3示出了根据本发明实施方式的表情与声音同步流程图；

附图4示出了根据本发明实施方式的虚拟即时通信系统结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明采用的方法是通过终端摄像头实时捕获人脸的面部特征，并与在该时间段内终端录音设备捕获到的声音一起打包发送到服务器，服务器通过处理后发送到另一个通信终端，该终端会根据接收到的面部特征实时驱动虚拟2D/3D形象模型。

针对现有技术的缺点，本发明采用一种虚拟即时通信方法，实现高趣味性并且能够保护用户隐私的视频即时通信，本发明提出的虚拟即时通信方法是一完整的解决方案。

本发明包括四个主要模块，分别为人脸特征标定模块、虚拟形象重建模块、虚拟形象驱动模块与数据传输模块，如图4所示。

1.人脸特征标定模块

人脸特征标定模块的功能是提取图像、视频中人脸的多个特征，从而得到人脸结构的表征，如图4所示。首先对输入的图像进行人脸检测，检测是由图像中存在人脸，并框选出人脸区域，之后使用人脸特征提取方法，例如ASM、AAM对特征进行提取，使用不同的训练集、不同的方法提取出的人脸特征类型不完全相同，只要能对人脸的结构进行表征即可。

2.虚拟形象重建模块

虚拟形象重建模块的功能是根据输入源信息重建出和输入源中与人脸结构相同的虚拟形象，之后再自动生成表情动画，以便能够实现虚拟形象的驱动。

首先使用人脸特征标定模块提取输入源中的人脸特征，输入源可以是单张图像、图像集、RGB-D相机、单目视频，将提取出的人脸特征与模型先验进行优化分析，使得欧氏距离最小，从而使得模型先验的拓扑结构与输入源的人脸最为接近，之后提取图像中的面部纹理，根据面部纹理与特征的对应关系映射到重建后的虚拟形象上，最后，利用一组预制的表情动画模型对重建后的虚拟形象模型进行形变，生成用户特定的一组表情动画模型。

3.虚拟形象驱动模块

虚拟形象驱动模块的驱动源是面部图像或特征，在虚拟即时通信系统中，若双方进行通信，手机或其他通信设备会将捕获到的面部图像或特征发送到另一个通信方，从而实现驱动源的获取。

通信方获取到面部图像或特征后，将其转化为表情动画的控制参数，驱动虚拟形象模型做出与面部图像或特征对应的动作。

4.数据传输模块

为了保证虚拟即时通信中声音与画面保持一致，设置声音与表情数据的队列，如图3所示，将同一时刻的数据取出打包发送的通信方，从而保证数据传输的一致性。

两个用户进行虚拟即时通信前，通信双方需要选取代替自己呈现给对方的虚拟2D/3D形象模型，通信过程中，通信双方看到的不再是对方的真实面容，而是对方所选取的虚拟2D/3D形象模型，这一虚拟2D/3D形象模型会实时的做出与通话方相同的面部表情，通信双方的声音会与呈现的虚拟2D/3D形象模型实时同步。

虚拟2D/3D形象模型既可以是人的头像，也可以是动物或卡通角色的头像，本发明包含3种虚拟2D/3D形象模型的提供方式，分别为系统提供、用户创建并上传和根据用户提供的信息实时重建。

当用户选择生成虚拟2D/3D形象模型时，本发明会采用三维人脸重建的方式将用户提交的图像或视频信息转化为与其相同的虚拟2D/3D形象模型，根据生成的虚拟2D/3D形象模型自动生成用于表情驱动的表情动画，以便用户能够直接驱动虚拟2D/3D形象模型实现不同的表情动作。

在进行虚拟即时聊天时，除了能够实现虚拟2D/3D形象模型模拟用户的表情与声音外，用户还能为虚拟2D/3D形象模型增添2D/3D挂件等装饰，其中，2D/3D挂件可以由系统提供、也可以由用户创建并上传。

实施例1

为使本发明的目的、技术方案更加清楚明白，以下参照附图并举实施例，对本发明做进一步的详细说明。

本发明的实施例提供了一种在即时视频通信系统中两个用户进行实时虚拟视频通信的方法。

图1是本发明技术方案的主流程图。如图1所示，本发明提出的虚拟即时视频通信方法包括下列步骤：

步骤10：第一用户通过第一客户端登录服务器后，可以为每个联系人设置在对方展示的代表第一用户的虚拟2D/3D形象模型，发起对该第二用户的会话。

第一用户为联系人设置代表第一用户的虚拟2D/3D形象模型或设置默认虚拟2D/3D形象模型的具体方法步骤如下，流程图如图2所示。

步骤101：如果第一用户选择自行上传虚拟2D/3D形象模型，第一用户需要在第一客户端从本地将含有表情动画的虚拟2D/3D形象模型上传到服务器进行有效性验证，表情动画可以使用BlendShape的方式呈现。

步骤102：如果第一用户上传的虚拟2D/3D形象模型通过了有效性验证，用户则能够使用该虚拟2D/3D形象模型实时模拟面部表情，否则服务器向第一客户端发送与该错误信息相对应的提示信息，提示第一用户上传失败。

步骤103：如果第一用户选择实时生成虚拟2D/3D形象模型，这时会自动调用第一客户端的摄像头拍摄第一用户的面部图片，除此之外，也可以从第一客户端的本地相册中选取含有任意人物面部的图片，准备好图片后，将图片上传到服务器。

步骤104：服务器从图片中提取二维特征，构建虚拟2D/3D形象模型，使得二维特征与虚拟2D/3D形象模型上对应位置之间的二维投影欧式距离最小。

步骤105：找到重建后的虚拟2D/3D形象模型与面部纹理之间的映射关系，即找到虚拟2D/3D形象模型每一个顶点在纹理空间中对应的纹理坐标，实现纹理映射。

步骤106：完成纹理映射后，得到一个上传图片中人物的虚拟2D/3D形象模型，为了保护用户的隐私，可选地，第一用户可对该虚拟2D/3D形象模型进行修改，服务器中提供了多种不同的五官，第一用户可选择这些五官模型来替换虚拟2D/3D形象模型中的五官，通过此种方式对面部进行处理，需要注意，对虚拟2D/3D形象模型进行修改的方法并不局限于这一种，也可采用抽象变形等方法。

步骤107：根据最终生成的虚拟2D/3D形象模型生成对应的BlendShape表情基，这样就能够实现虚拟2D/3D形象模型的表情动画，生成之后将含有BlendShape表情基的虚拟2D/3D形象模型存储到虚拟2D/3D形象模型库中，丰富虚拟2D/3D形象模型，供其他用户选择使用。

更广泛的，可构建积分体系，当用户生成并上传成功虚拟2D/3D形象模型时，奖励给该用户相应的积分，积分可用来兑换系统中的虚拟2D/3D形象模型、装饰品、特效等。

步骤108：如果第一用户选择从虚拟2D/3D形象模型库中选择虚拟2D/3D形象模型，将服务器上虚拟2D/3D形象模型库中的模型发送到第一客户端，第一客户端加载并展示这些虚拟2D/3D形象模型，供第一用户选择使用。

更广泛的，虚拟2D/3D形象模型库中的模型分为两类，一类是免费提供给用户使用的，另一类需要使用积分进行兑换。

步骤20：第二用户通过第二客户端登录服务器后，发现第一用户向第二用户发起会话，此时第二用户可以设置与第一用户通信使用的虚拟2D/3D形象模型，并接受第一用户的会话请求，与第一用户建立会话连接，连接后，双方所选虚拟2D/3D形象模型将会在通信的另一方呈现。

在该步骤中更具体的分为下列步骤。

步骤201：第二用户通过第二客户端登录服务器，此过程与上述第一用户登录服务器的过程相同。

步骤202：第二用户设置虚拟2D/3D形象模型，此过程与上述第一用户设置虚拟2D/3D形象模型的过程相同。

步骤203：第二用户接受第一用户的会话请求，服务器向第一客户端发送第二用户选择的虚拟2D/3D形象模型，服务器向第二客户端发送第一用户选择的虚拟2D/3D形象模型，第一用户与第二用户分别在各自的会话窗口加载对应的虚拟2D/3D形象模型。

步骤30：第一、第二客户端分别通过各自设备的摄像头实时捕获各自用户(即第一、第二用户)的头像图片，从图片中提取面部特征，可选地，可以对特征进行优化处理。

在该步骤中更具体的分为下列步骤。

步骤301：启动第一与第二客户端的摄像头，提取每一帧摄像头捕获图片的特征。

面部特征的提取方法有很多中，包括ASM与AAM方法、统计能量函数类方法、回归分析方法、深度学习方法、分类器的方法和批量提取方法等等，关于面部特征提取的具体内容可参考相关论文，任何目前已知的面部特征提取方法均可与本发明的实施例相结合，本发明对此不作限制。

步骤302：可选地，受光照、误差等因素的影响，步骤301提取的面部特征可能会存在噪声，通过设置阀值的方法去噪。

对不同的面部特征设置不同的阀值，删除高于阀值的面部特征，同时，设置最小阀值，当面部特征活动范围小于最小阀值时，该特征同样会被删除，通过此种方法防止驱动虚拟2D/3D形象模型时模型过度抖动的问题。

注意：此步骤中的去噪方法并不局限于设置阀值，例如也可以利用Gabor滤波器计算脸部轮廓特征所在图像块的Gabor特征，通过选择有效的特征计算对应图像块之间纹理特征的相关系数，判别特征的匹配性，并寻找正确的匹配。

步骤303：可选地，采用Savitzky-Golay滤波器中的五点三次平滑算法进行平滑，取附近的五个点，确定一个三次曲线，使得曲线上的点和原来的点纵坐标差值的平方和最小，从而确定三次曲线的系数，通过不断调整三次曲线的系数，使得曲线更加平滑，并且更加的接近实际情况。

注意：此步骤中的平滑方法并不局限于Savitzky-Golay滤波器中的五点三次平滑算法，除此之外也可以采用七点线性平滑法，这里不作限制。

步骤40：第一与第二客户端分别录制用户发出的声音，将同一时刻的声音与面部特征打包，发送到对方客户端，实现声音与表情的同步。

在该步骤中更具体的分为下列步骤，如图3所示。

步骤401：将步骤30处理后的面部特征放入表情数据队列，若不存在表情数据队列则创建该队列。

步骤402：通过客户端的麦克风采集声音，将采集的声音放入声音数据队列，若不存在声音队列则创建该队列。

步骤403：每一帧都从表情数据队列与声音数据队列中取出队首元素，将其进行数据编码，设置能够表示先后顺序的标识并存入数据包中，并通过服务器将该数据包传送到指定的客户端。

步骤50：第一客户端接收第二客户端发送的数据包，根据数据播放第二用户的声音并操纵代表第二用户的虚拟2D/3D形象模型做出与第一用户相同的表情；第二客户端同样接收第一客户端发送的数据包，根据数据播放第一用户的声音并操纵代表第一用户的虚拟2D/3D形象模型做出与第一用户相同的表情。

在该步骤中更具体的分为下列步骤。

步骤501：第一客户端检测是否存在数据包队列，若不存在则创建该队列；将第一客户端接收的数据包按标识顺序存入数据包队列中。

步骤502：第一客户端取出数据包队列的队首数据包并解析，播放队首数据包中的声音数据，并将数据包中的面部图像或特征转换为表情动画的参数，利用参数操纵表情动画，使得第二客户端呈现的虚拟2D/3D形象模型做出与第一用户相同的表情。

在第一客户端进行步骤501～步骤502时，第二客户端进行同样的动作。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种虚拟即时通信方法，其特征在于，包括：

第一客户端、第二客户端分别通过各自设备的摄像头实时捕获各自用户的面部图像或特征；

2.根据权利要求1所述的一种虚拟即时通信方法，其特征在于，

所述第一用户通过第一客户端选择或实时生成代表第一用户的虚拟2D/3D形象模型，包括：

3.根据权利要求2所述的一种虚拟即时通信方法，其特征在于，进一步包括：

根据实时生成的虚拟2D/3D形象模型生成对应的表情动画，将含有表情动画的虚拟2D/3D形象模型存储到虚拟2D/3D形象模型库中。

4.根据权利要求1所述的一种虚拟即时通信方法，其特征在于，

所述第一客户端与第二客户端分别录制各自用户发出的声音，将同一时刻的声音与面部图像或特征打包，发送到对方客户端，实现声音与表情的同步，包括如下步骤：

5.根据权利要求1所述的一种虚拟即时通信方法，其特征在于，

所述第一客户端接收第二客户端发送的数据包，根据数据播放第二用户的声音并操纵代表第二用户的虚拟2D/3D形象模型做出对应表情，包括如下步骤：

6.一种虚拟即时通信系统，其特征在于，包括：

数据传输模块，用于设置声音与表情数据的队列，将同一时刻的声音与表情数据打包发送。