CN105704419B

CN105704419B - 一种基于可调模板头像的人人交互的方法

Info

Publication number: CN105704419B
Application number: CN201410704882.XA
Authority: CN
Inventors: 程超
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2018-06-29
Anticipated expiration: 2034-11-27
Also published as: CN105704419A

Abstract

本发明公开了一种基于可调模板头像的人人交互的方法，属于计算机技术领域。本基于可调模板头像的人人交互的方法包括如下步骤：通过摄像头获取发送者用户终端的用户脸部画面；根据获取的用户脸部画面与所述基本模板头像进行匹配，最终生成用户虚拟头像；发送者用户终端保存并发送用户虚拟头像至服务器；发送者用户终端获取关键点的表情变化数据，并将所得表情变化数据发送至接收者用户终端；驱动接收者用户终端上的发送者的用户虚拟头像显示脸部表情；驱动发送者用户终端自身的用户虚拟头像做脸部表情动作。本发明仅需获取关键点的表情变化数据，该表情变化数据所占的内存较小，有利于实现加快传输速度及降低流量耗费的目的。

Description

一种基于可调模板头像的人人交互的方法

技术领域

本发明属于计算机技术领域，特别涉及一种基于可调模板头像的人人交互的方法。

背景技术

目前，随着网络技术的快速增长，通过移动网络或无线网络进行传输数据的移动终端也在快速增长，其功能也是越来越丰富。为了方便人们在忙碌的生活中抽取短暂的时间进行比较全面而又形象的交流，在移动终端上开发了多款视屏聊天的软件。

由于传统的视频聊天是通过摄像头获取的整个视频数据，并将获取的视屏数据传输给对方。然而，整个视频数据所占的内存较大，在传输的过程中存在以下缺陷：在移动网络或无线网络的网速的限制下，内存越大的视频数据，其传输速度越慢，同时，还花费更多的流量，耗费更多的费用。

发明内容

本发明为了克服上述现有技术的不足，提供了一种基于可调模板头像的人人交互的方法，本方法仅需获取与头像及脸部表情动作相关的关键点的表情变化数据，该表情变化数据所占的内存较小，在交互的过程中，有利于实现加快传输速度及降低流量耗费的目的。

为实现上述目的，本发明采用了以下技术方案：

一种基于可调模板头像的人人交互的方法，包括如下步骤：

S1：通过摄像头对发送者用户终端的用户脸部进行定位捕捉，并获取用户脸部画面；

所述发送者用户终端上设有一个平面可调的基本模板头像，所述基本模板头像上设有多个用于表达脸部表情的关键点；

S2：发送者用户终端根据获取的用户脸部画面与所述基本模板头像进行匹配，并将所述基本模板头像的脸部特征修改成与所述用户脸部画面中的脸部特征相似，以生成用户模板头像，所述用户模板头像通过发送者设定生成用户虚拟头像；发送者用户终端将所述用户虚拟头像保存并发送至服务器，所述服务器使接收者用户终端和发送者用户终端彼此共享所述用户虚拟头像；

S3：发送者用户终端从所述用户脸部画面中获取用于表达该用户脸部画面表情的关键点的表情变化数据，并将所得表情变化数据发送至接收者用户终端，然后转入步骤S4和/或步骤S5；

S4：接收者用户终端根据接收到的表情变化数据，驱动接收者用户终端上的发送者的用户虚拟头像跟随发送者显示同样的脸部表情，并在接收者用户终端上的显示窗口上显示；

S5：发送者用户终端根据获取的表情变化数据，驱动发送者用户终端自身的用户虚拟头像跟随发送者做同步脸部表情动作，并在发送者用户终端的显示窗口上显示。

本发明还可以通过以下步骤进一步实现。

优选的，所述发送者用户终端获取发送者的音频数据，并对所述音频数据及表情变化数据加时间戳，所述时间戳用于使发送者的表情与声音在播放的过程中达到同步。

优选的，所述加有时间戳的音频数据及表情变化数据的传输步骤具体如下：

S11：判断接收者是否在线；

S12：若接收者在线时，则进行实时传输，转入步骤S13；否则，进行延时传输，转入步骤S14；

S13：实时传输时，发送者用户终端发送加有时间戳的表情变化数据及音频数据至服务器，服务器将接收到的加有时间戳的表情变化数据及音频数据发送至接收者用户终端；

S14：延时传输时，发送者用户终端预存该发送者的加有时间戳的表情变化数据及音频数据，然后将预存的加有时间戳的表情变化数据及音频数据进行打包后发送至服务器，并等待接收者用户终端下载。

优选的，在实时传输的过程中，其传输步骤如下：

S21：判断是否实时捕捉到发送者的用户脸部画面和声音；

S22：若能实时捕捉到发送者的用户脸部画面和声音，则实时传输获取的发送者的加有时间戳的表情变化数据和音频数据；否则转入步骤S23；

S23：在设定时间T内，判断是否能捕捉到发送者的用户脸部画面或声音；当仅能捕捉到发送者的用户脸部画面时，转入步骤S24；当仅能捕捉到发送者的声音时，转入步骤S25；当发送者的用户脸部画面或声音均捕捉不到时，停止传输发送者的加有时间戳的表情变化数据及音频数据，接收者用户终端上的显示窗口上显示的画面静止，同时停止播放发送者的音频数据；

若超过设定时间T，当能实时捕捉到发送者的用户脸部画面和声音，则重新转入步骤S22；当仅能捕捉到发送者的用户脸部画面时，转入步骤S26；当仅能捕捉到发送者的声音时，转入步骤S27；否则，结束传输过程；

S24：发送者用户终端获取发送者的表情变化数据，然后向接收者用户终端传输发送者的加有时间戳的表情变化数据；接收者用户终端上的显示窗口上显示发送者的表情，此时停止播放发送者的音频数据；

S25：发送者用户终端获取发送者的音频数据，然后向接收者用户终端传输发送者的加有时间戳的音频数据；此时接收者用户终端继续播放发送者的音频数据，其显示窗口上显示的画面静止；

S26：发送者用户终端获取发送者的表情变化数据，然后向接收者用户终端传输发送者的加有时间戳的表情变化数据；接收者用户终端上的显示窗口上显示发送者的表情，此时停止播放发送者的音频数据；

S27：发送者用户终端获取发送者的音频数据，然后向接收者用户终端传输发送者的加有时间戳的音频数据；此时接收者用户终端继续播放发送者的音频数据，并提取接收者用户终端自身内部已存储的表情变化数据，在其显示窗口上显示。

优选的，在延时传输的过程中，其预存步骤如下：

S31：判断是否实时捕捉到发送者的用户脸部画面和声音；

S32：若能实时捕捉到发送者的用户脸部画面和声音，则对获取的发送者的加有时间戳的表情变化数据和音频数据进行预存；否则，转入步骤S33；

S33：在设定的时间S内，判断是否捕捉到发送者的用户脸部画面或声音；当仅能捕捉到发送者的用户脸部画面时，转入步骤S34；当仅能捕捉到发送者的声音时，转入步骤S35；当发送者的用户脸部画面和声音均捕捉不到时，发送者的音频数据预存中断，在中断前后预存的发送者的表情变化数据之间进行插值算法；

若超过设定的时间S，当能实时捕捉到发送者的用户脸部画面和声音，则重新转入步骤S32；当仅能捕捉到发送者的用户脸部画面时，转入步骤S36；当仅能捕捉到发送者的声音时，转入步骤S37；否则，结束预存状态；

S34：发送者用户终端预存发送者的加有时间戳的表情变化数据，发送者的音频数据预存中断；

S35：发送者用户终端预存发送者的加有时间戳的音频数据，并在中断前后预存的发送者的表情变化数据之间进行插值算法，使得整个画面平滑过渡；

S36：发送者用户终端预存发送者的加有时间戳的表情变化数据；

S37：发送者用户终端预存发送者的加有时间戳的音频数据。

进一步，所述平面可调模板头像包括由多条Bezier曲线构成的具有脸部特征的数据模型。

优选的，所述表情变化数据至少包括24个关键点位置信息，所述关键点作为一个控制点，根据其位置信息驱动与关键点相连的Bezier曲线动作，从而使得具有脸部特征的数据模型显示出用户脸部画面中的脸部表情。

进一步，所述24个关键点分别如下：

脖子：左侧脖子轮廓线的中点，右侧脖子轮廓线的中点；

脸型：下颌最低点，左下颌角处的拐点，右下颌角处的拐点，左侧颧骨最高点，右侧颧骨最高点，额头中心点；

眉毛：左眉最左点，左眉最右点；右眉最左点，右眉最右点；

眼睛：左眼上眼皮轮廓线的中点，左眼下眼皮轮廓线的中点，左眼珠的中心点；右眼上眼皮轮廓线的中点，右眼下眼皮轮廓线的中点，右眼珠的中心点；

鼻子：左鼻翼中心点，右臂翼中心点；

嘴巴：嘴角最左点，嘴角最右点，上嘴唇轮廓线的中点，下嘴唇轮廓线的中点。

本发明的有益效果在于：

1)本发明首先在用户终端上建立可调的基本模板头像，然后根据摄像头采集到的头像画面，获取关键点处用户的脸部表情动作相关的表情变化数据，然后接收者用户终端上共享的发送用户的用户虚拟头像跟随发送用户进行同样的脸部表情动作。在此过程中，只需要较小的数据运算而且用户终端仅需获取内存较小的表情变化数据，有利于在交互的过程中，实现快速传输、降低流量耗费的目的，并且使得体验更加流畅、有趣。

2)本发明中采取了两种传输方式，即实时传输和延时传输，实时传输能够使得整个交互的过程得以及时的传输；延时传输有效地解决了接收用户不在线的问题，方便接收用户在事后能观看到发送用户发送的视频信息，使得交互过程更为完善。

3)本发明在数据传输出现中断的情况下，分别采用了两种急救措施，对于实时传输，采用的方法是调取用户终端内部已寄存的表情动作的表情变化数据来代替遗失的表情变化数据，从而使得整个交互画面完整，不至于出现空白情况；对于延时传输，采用的方法是在中断前后之间进行插值算法，使得整个交互画面达到平滑过渡。

附图说明

图1为本发明的流程图。

图2为本发明中数据传输的流程图。

图3为本发明中实时传输时传输的流程图。

图4为本发明中延时传输时预存的流程图。

图5为本发明中基本模板头像的示意图。

图6为本发明中基本模板头像上设有24个关键点的示意图。

图7为本发明中用户模板头像增加头发、服饰的示意图。

图8为本发明中用户模拟头像的显示状态图。

图中标注符号的含义如下：

01—左侧脖子轮廓线的中点 02—左下颌角处的拐点

03—下颌最低点 04—下嘴唇轮廓线的中点 05—嘴角最左点

06—上嘴唇轮廓线的中点 07—左鼻翼中心点

08—左侧颧骨最高点 09—左眼下眼皮轮廓线的中点

10—左眼珠的中心点 11—左眼上眼皮轮廓线的中点

12—左眉最右点 13—左眉最左点 14—额头中心点

15—右眉最左点 16—右眉最右点

17—右眼上眼皮轮廓线的中点 18—右眼珠的中心点；

19—右眼下眼皮轮廓线的中点 20—右侧颧骨最高点

21—右臂翼中心点 22—嘴角最右点

23—右下颌角处的拐点 24—右侧脖子轮廓线的中点

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发送者用户终端也可以作为接收者用户终端，接收者用户终端也可以作为发送者用户终端；发送者为发送者用户终端的持有者或用户，接收者为接收者用户终端的持有者或用户。

如图1所示，一种基于可调模板头像的人人交互的方法，包括如下步骤：

S1：通过摄像头对发送者用户终端的用户脸部进行定位捕捉，并获取一帧用户脸部画面，摄像头对用户的脸部进行定位捕捉，对脸部进行自动对焦，使得人的脸部表情达到最清楚的状态，有利于获取更为准确的一帧用户脸部画面；

所述发送者用户终端上设有一个平面可调的基本模板头像，如图5所示；所述基本模板头像上设有多个用于表达脸部表情的关键点；

S2：发送者用户终端根据获取的用户脸部画面与所述基本模板头像进行匹配，在用户头像画面与基本模板头像匹配的过程中，通过匹配算法，例如sift算法，并将所述基本模板头像的脸部特征修改成与所述用户脸部画面中的脸部特征相似，以生成用户模板头像；所述用户模板头像通过发送者设定即手动添加头发、服饰及肤色等生成用户虚拟头像，如图7、图8所示；

发送者用户终端将所述用户虚拟头像保存并发送至服务器，所述服务器使接收者用户终端和发送者用户终端彼此共享所述用户虚拟头像；

S4：接收者用户终端根据接收到的表情变化数据，驱动接收者用户终端上的发送者的用户模拟头像跟随发送者显示同样的脸部表情，并在接收者用户终端上的显示窗口上显示；

S5：发送者用户终端根据获取的表情变化数据，驱动发送者用户终端自身的用户模拟头像跟随发送者做同步脸部表情动作，并在发送者用户终端的显示窗口上显示。

在显示的过程中，针对不同性能的用户终端设备，可根据自身的性能参数对显示的画面作出适当的调整，从而使得整个画面更加清晰。

所述发送者用户终端获取发送者的音频数据，并对所述音频数据及表情变化数据加时间戳，所述时间戳用于使发送者的表情与声音在播放的过程中达到同步，然后再进行传输。

如图2所示，所述加有时间戳的音频数据及表情变化数据的传输步骤具体如下：

S11：判断接收者是否在线；

如图3所示，在实时传输的过程中，其传输步骤如下：

S21：判断是否实时捕捉到发送者的用户脸部画面和声音；

S23：在设定时间T内，例如T在1～3秒内取一个值；判断是否能捕捉到发送者的用户脸部画面或声音；当仅能捕捉到发送者的用户脸部画面时，转入步骤S24；当仅能捕捉到发送者的声音时，转入步骤S25；当发送者的用户脸部画面或声音均捕捉不到时，停止传输发送者的加有时间戳的表情变化数据及音频数据，接收者用户终端上的显示窗口上显示的画面静止，同时停止播放发送者的音频数据；

S27：发送者用户终端获取发送者的音频数据，然后向接收者用户终端传输发送者的加有时间戳的音频数据；此时接收者用户终端继续播放发送者的音频数据，并提取接收者用户终端自身内部已存储的表情变化数据，例如对不起人跑了的表情变化数据、人不知道去哪了的表情变化数据，在其显示窗口上显示。

只要还处于实时传输的过程，其获取表情变化数据及音频数据的功能均一直处于开启状态，例如在某段时刻，只能获取表情变化数据进行传输，超过该段时刻，摄像头能捕捉到头像，则继续获取表情变化数据进行传输。

如图4所示，在延时传输的过程中，其预存步骤如下：

S31：判断是否实时捕捉到发送者的用户脸部画面和声音；

S33：在设定的时间S内，例如S在2～5秒内取一个值；判断是否捕捉到发送者的用户脸部画面或声音；当仅能捕捉到发送者的用户脸部画面时，转入步骤S34；当仅能捕捉到发送者的声音时，转入步骤S35；当发送者的用户脸部画面和声音均捕捉不到时，发送者的音频数据预存中断，在中断前后预存的发送者的加有时间戳的表情变化数据之间进行插值算法；

S35：发送者用户终端预存发送者的加有时间戳的音频数据，并在中断前后预存的发送者的加有时间戳的表情变化数据之间进行插值算法，使得整个画面平滑过渡；

S37：发送者用户终端预存发送者的加有时间戳的音频数据。

只要还处于预存状态，其获取表情变化数据及音频数据的功能均一直处于开启状态，例如在某段时刻，只能获取表情变化数据进行预存，超过该段时刻，摄像头能捕捉到头像，则继续获取表情变化数据进行预存。

所述平面可调模板头像包括由多条Bezier曲线构成的具有脸部特征的数据模型，其中Bezier曲线包括用于定位的锚点和控制曲线方向及张力的控制点；所述基本模板头像具有多种风格，例如漫画风格、写真风格等；所述脸部特征包括脸型、眉毛、眼睛、鼻子、嘴巴、颈部。

所述表情变化数据至少包括24个关键点位置信息，该位置信息是通过移动侦测技术获取的多帧头像画面，对多帧头像画面进行逐帧对比的方法计算出关键点的位置信息；所述关键点作为一个控制点，根据其位置信息驱动与关键点相连的Bezier曲线动作，从而使得具有脸部特征的数据模型显示出用户脸部画面中的脸部表情，在显示的过程中，对具有脸部特征的数据模型进行渲染处理。

获取不同时刻用户头像上的关键点的位置，即可通过Bezier曲线描述出不同时刻的脸部表情，在间隔时间很短的情况下，即可看到一个动态的脸部表情。

作为本发明的优选方案，如图6所示，所述24个关键点分别为：

脖子：左侧脖子轮廓线的中点01，右侧脖子轮廓线的中点24；

脸型：下颌最低点03，左下颌角处的拐点02，右下颌角处的拐点23，左侧颧骨最高点08，右侧颧骨最高点20，额头中心点14；

眉毛：左眉最左点13，左眉最右点12；右眉最左点15，右眉最右点16；

眼睛：左眼上眼皮轮廓线的中点11，左眼下眼皮轮廓线的中点09，左眼珠的中心点10；右眼上眼皮轮廓线的中点17，右眼下眼皮轮廓线的中点19，右眼珠的中心点18；

鼻子：左鼻翼中心点07，右臂翼中心点21；

嘴巴：嘴角最左点05，嘴角最右点22，上嘴唇轮廓线的中点06，下嘴唇轮廓线的中点04。

Claims

1.一种基于可调模板头像的人人交互的方法，包括如下步骤：

2.如权利要求1所述的基于可调模板头像的人人交互的方法，其特征在于：所述发送者用户终端获取发送者的音频数据，并对所述音频数据及表情变化数据加时间戳，所述时间戳用于使发送者的表情与声音在播放的过程中达到同步。

3.如权利要求2所述的基于可调模板头像的人人交互的方法，其特征在于：加有时间戳的音频数据及表情变化数据的传输步骤具体如下：

S11：判断接收者是否在线；

4.如权利要求3所述的基于可调模板头像的人人交互的方法，其特征在于：在实时传输的过程中，其传输步骤如下：

S21：判断是否实时捕捉到发送者的用户脸部画面和声音；

5.如权利要求3所述的基于可调模板头像的人人交互的方法，其特征在于：在延时传输的过程中，其预存步骤如下：

S31：判断是否实时捕捉到发送者的用户脸部画面和声音；

S37：发送者用户终端预存发送者的加有时间戳的音频数据。

6.如权利要求1～5任一项所述的基于可调模板头像的人人交互的方法，其特征在于：所述平面可调模板头像包括由多条Bezier曲线构成的具有脸部特征的数据模型。

7.如权利要求6所述的基于可调模板头像的人人交互的方法，其特征在于：所述表情变化数据至少包括24个关键点位置信息，所述关键点作为一个控制点，根据其位置信息驱动与关键点相连的Bezier曲线动作，从而使得具有脸部特征的数据模型显示出用户脸部画面中的脸部表情。

8.如权利要求7所述的基于可调模板头像的人人交互的方法，其特征在于所述24个关键点分别如下：

脖子：左侧脖子轮廓线的中点，右侧脖子轮廓线的中点；

鼻子：左鼻翼中心点，右臂翼中心点；