CN110599359B

CN110599359B - 社交方法、装置、系统、终端设备及存储介质

Info

Publication number: CN110599359B
Application number: CN201910838943.4A
Authority: CN
Inventors: 袁小薇
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2022-09-16
Anticipated expiration: 2039-09-05
Also published as: CN110599359A

Abstract

本申请公开了一种社交方法、装置、系统、终端设备及存储介质，所述方法应用于社交系统的第一终端，所述社交系统还包括第二终端，该方法包括：获取所述第二终端发送的聊天信息；获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；根据所述聊天信息获取所述目标人脸模型的表情参数；基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；输出该聊天视频。本申请通过第二终端发送的聊天信息以及其获取的第二终端对应的用户的人脸图像生成聊天视频，该聊天视频的生成可以提高社交平台交互的丰富度。

Description

社交方法、装置、系统、终端设备及存储介质

技术领域

本申请涉及终端设备技术领域，更具体地，涉及一种社交方法、装置、系统、终端设备及存储介质。

背景技术

目前，手机等移动终端设备的普及率越来越高，智能手机已成为人们出行的必备随身物品。随着移动互联网发展迅速，移动终端上出现了各种各样的社交应用程序，通过这些社交应用程序用户可以更好的与朋友、亲人以及同事等进行沟通与交流。传统的社交平台，基本是通过语音、文字以及视频等进行聊天，其中，语音聊天和文字聊天的方式较单一，而视频聊天的方式则需大量消耗电子设备的资源，且其要求聊天双方同时在线，导致用户使用体验低。

发明内容

鉴于上述问题，本申请提出了一种社交方法、装置、系统、终端设备及存储介质，可增强社交丰富度，提升用户体验。

第一方面，本申请实施例提供了一种社交方法，所述方法应用于社交系统的第一终端，所述社交系统还包括第二终端，该方法包括：获取所述第二终端发送的聊天信息；获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；根据所述聊天信息获取所述目标人脸模型的表情参数；基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；输出该聊天视频。

进一步的，所述聊天信息包括视频数据，所述社交方法还包括：检测所述第一终端是否接收到所述第二终端发送的视频数据；当确定所述第一终端接收到所述第二终端发送的视频数据时，判断所述视频数据中是否包含有所述用户的人脸图像；如果所述视频数据中包含所述用户的人脸图像，则获取该用户的人脸图像。

进一步的，所述社交方法还包括：当所述第一终端未接收到所述第二终端发送的视频数据时，所述第一终端检测其是否存储有所述用户的人脸图像；如果所述第一终端中存储有所述用户的人脸图像，则获取所述用户的人脸图像。如果所述第一终端中未存储有所述用户的人脸图像，则获取预设人脸图像，并将该预设人脸图像作为所述用户的人脸图像。

进一步的，所述第一终端中存储有多个所述预设人脸图像，每个所述预设人脸图像对应一个身份特征，所述社交方法还包括：判断所述聊天信息中是否包含有语音信息；如果所述聊天信息中包含有语音信息，则根据所述语音信息获取所述用户的身份特征，并将所述身份特征对应的预设人脸图像作为所述用户的人脸图像。

进一步的，所述社交方法还包括：获取所述用户的人脸图像持续出现的时长，并判断该时长是否小于预设时长；如果所述用户的人脸图像出现的时长小于预设时长，则获取所述用户的人脸图像。

进一步的，所述社交方法还包括：获取所述视频数据对应的第二视频；将所述第二视频和所述聊天视频分别显示于所述第一终端的屏幕上。

第二方面，本申请实施例提供了一种社交方法，所述方法应用于社交系统的第二终端，所述社交系统还包括第一终端，该方法包括：获取用户输入的聊天信息；获取所述用户对应的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；根据所述聊天信息获取所述目标人脸模型的表情参数；基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；将所述聊天视频发送至所述第一终端，并指示所述第一终端输出该聊天视频。

第三方面，本申请实施例提供了一种社交方法，应用于社交系统的服务器，该社交系统还包括第一终端和第二终端，该方法包括：获取第二终端发送的聊天信息；获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；根据所述聊天信息获取所述目标人脸模型的表情参数；基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；将所述聊天视频发送至第一终端，并指示所述第一终端输出该聊天视频。

第四方面，本申请实施例提供了一种社交装置，所述装置应用于社交系统的第一终端，所述社交系统还包括第二终端，该装置包括：第一信息获取模块，用于获取所述第二终端发送的聊天信息；第一模型获取模块，用于获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；第一参数获取模块，用于根据所述聊天信息获取所述目标人脸模型的表情参数；第一视频生成模块，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；第一视频输出模块，用于输出该聊天视频。

进一步的，所述聊天信息包括视频数据，第一模型获取模块包括：检测单元，用于检测所述第一终端是否接收到所述第二终端发送的视频数据；判断单元，用于当确定所述第一终端接收到所述第二终端发送的视频数据时，判断所述视频数据中是否包含有所述用户的人脸图像；获取单元，用于如果所述视频数据中包含所述用户的人脸图像，则获取该用户的人脸图像。

进一步的，所述第一模型获取模块还用于当所述第一终端未接收到所述第二终端发送的视频数据时，所述第一终端检测其是否存储有所述用户的人脸图像；如果所述第一终端中存储有所述用户的人脸图像，则获取所述用户的人脸图像。如果所述第一终端中未存储有所述用户的人脸图像，则获取预设人脸图像，并将该预设人脸图像作为所述用户的人脸图像。

进一步的，所述第一终端中存储有多个所述预设人脸图像，每个所述预设人脸图像对应一个身份特征，所述第一模型获取模块还用于判断所述聊天信息中是否包含有语音信息；如果所述聊天信息中包含有语音信息，则根据所述语音信息获取所述用户的身份特征，并将所述身份特征对应的预设人脸图像作为所述用户的人脸图像。

进一步的，所述第一模型获取模块还包括：时长判断单元，用于获取所述用户的人脸图像持续出现的时长，并判断该时长是否小于预设时长；图像获取单元，用于如果所述用户的人脸图像出现的时长小于预设时长，则获取所述用户的人脸图像。

进一步的，第一视频生成模块包括第二视频获取单元，用于获取所述视频数据对应的第二视频；显示单元，用于将所述第二视频和所述聊天视频分别显示于所述第一终端的屏幕上。

第五方面，本申请实施例提供了一种社交装置，所述装置应用于社交系统的第二终端，所述社交系统还包括第一终端，该装置包括：第二信息获取模块，用于获取用户输入的聊天信息；第二模型获取模块，用于获取所述用户对应的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；第二参数获取模块，用于根据所述聊天信息获取所述目标人脸模型的表情参数；第二视频生成模块，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；第二视频发送模块，用于将所述聊天视频发送至所述第一终端，并指示所述第一终端输出该聊天视频。

第六方面，本申请实施例提供了一种社交装置，所述装置应用于社交系统的服务器，该社交系统还包括第一终端和第二终端，该装置包括：第三信息获取模块，用于获取第二终端发送的聊天信息；第三模型获取模块，用于获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；第三参数获取模块，用于根据所述聊天信息获取所述目标人脸模型的表情参数；第三视频生成模块，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；第三视频发送模块，用于将所述聊天视频发送至第一终端，并指示所述第一终端输出该聊天视频。

第七方面，本申请实施例提供了一种社交系统，其包括第一终端、第二终端和服务器，其中：第一终端，用于接收所述第二终端发送的聊天信息和获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型，根据所述聊天信息获取所述目标人脸模型的表情参数，基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频，输出该聊天视频；服务器，用于接收所述第二终端发送的聊天信息并将该聊天信息传输至第一终端；第二终端，用于获取用户输入的聊天信息，并将该聊天信息通过服务器发送至第一终端。

第八方面，本申请实施例提供了一种终端设备，其包括：存储器；一个或多个处理器，与存储器耦接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第九方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供的社交方法、装置、系统、终端设备及存储介质，可先获取第二终端发送的聊天信息以及第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型，然后根据所述聊天信息获取所述目标人脸模型的表情参数，基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成对应的聊天视频，最后输出该聊天视频。本申请实施例通过第二终端发送的聊天信息以及其获取的第二终端对应的用户的人脸图像生成聊天视频，该聊天视频的生成可以提高社交平台交互的丰富度，且本申请中虚拟机器人能够以逼真自然的形象呈现在用户面前，提升用户的使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请一个实施例提供的社交方法的流程示意图；

图3示出了本申请一个实施例提供的社交方法中的一种可能的沟通界面示意图；

图4示出了本申请另一个实施例提供的社交方法的流程示意图；

图5示出了本申请另一个实施例提供的社交方法中步骤S220的流程示意图；

图6示出了本申请又一个实施例提供的社交方法的流程示意图；

图7示出了本申请又一个实施例提供的社交方法中步骤S320的流程示意图；

图8示出了本申请又一个实施例提供的社交方法中第一终端屏幕显示示例图；

图9示出了本申请再一个实施例提供的社交方法的流程示意图；

图10示出了本申请又一个实施例提供的社交方法的流程示意图；

图11示出了本申请一个实施例提供的社交装置的模块框图；

图12示出了本申请另一个实施例提供的社交装置的模块框图；

图13示出了本申请又一个实施例提供的社交装置的模块框图；

图14是本申请实施例的用于执行根据本申请实施例的社交方法的终端设备的框图；

图15是本申请实施例的用于保存或者携带实现根据本申请实施例的社交方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着移动互联网发展迅速，移动终端上出现了各种各样的社交应用程序，通过这些社交应用程序用户可以更好的与朋友、亲人以及同事等进行沟通与交流。传统的社交平台，基本是通过语音、文字以及视频等进行聊天，其中，语音聊天和文字聊天的方式较单一，而视频聊天的方式则需大量消耗电子设备的资源，且其要求聊天双方同时在线，导致用户使用体验低。

现有的社交方式主要包括语音、文字或视频，而当通过语音或文字进行聊天时，聊天双方无法准确知晓对方表情，且因聊天方式比较单一，用户的体验度不高，而视频聊天通常需要消耗大量的资源，而且视频聊天时也无法保证用户时刻在摄像头的视野范围内，如此不仅消耗资源，而且用户的使用体验也不高。

为了改善上述问题，发明人研究了虚拟机器人在实现过程中的困难点，更是综合考虑实际社交场景中的使用需求，提出了本申请实施例中的社交方法、装置、终端设备及存储介质。

为便于更好的理解本申请实施例提供的社交方法、装置、系统、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的社交方法可以应用于如图1所示的社交系统100。社交系统100包括第一终端101、服务器102以及第二终端103，服务器102可以与第一终端101通信连接也可以与第二终端103通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，第一终端101和第二终端103可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于第一终端101和第二终端103上具有的语音模块输入语音、字符输入模块输入字符、图像输入模块输入图像等，还可以是基于第一终端101和第二终端103上安装有的手势识别模块，使得用户可以实现手势输入等交互方式。

其中，第一终端101和第二终端103上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如微信、QQ等)与服务器102进行通信，具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信。例如，用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字信息、语音信息或图像信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至第一终端101或第二终端103。显然，第一终端101与第二终端103可以通过客户端应用程序进行信息的交互，而第一终端101和第二终端103之间则可以通过有线或者无线的方式进行数据通信。

在一些实施方式中，第一终端101或第二终端103在获取对方输入的回复信息后，可以在第一终端101或第二终端103的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像。作为一种方式，在播放虚拟机器人图像的同时，可以通过第一终端101或第二终端103的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在第一终端101或第二终端103的显示屏上显示与该回复信息对应的文字或图像，实现在图像、语音、文字等多个方面上与用户的社交。在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于第一终端101或第二终端103上，使得第一终端101或第二终端103无需依赖于服务器102建立通信即可实现信息的交互，此时社交系统100可以只包括第一终端101和第二终端103。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的社交方法、装置、系统、终端设备及存储介质进行详细说明。

请参阅图2，图2示出了本申请一个实施例提供的社交方法的流程示意图。本实施例提供的社交方法可以适用于具有显示屏或其他图像输出装置的第一终端，第一终端可以是智能手机、平板电脑、穿戴式智能终端等电子设备。在具体的实施例中，社交方法可应用于如图11所示的社交装置600以及图14所示的终端设备1000。下面将针对图2所示的流程进行详细的阐述。上述的社交方法具体地可以包括以下步骤：

步骤S110：获取所述第二终端发送的聊天信息。

在一些实施方式中，聊天信息包括但不限于语音信息、文本信息、图像信息、动作信息等各种类型的信息。其中，语音信息可以包括语言类的音频信息(例如汉语、英语音频等)以及非语言类的音频信息(例如音乐音频等)；文本信息可以包括文字类的文本信息(例如中文、英文等)以及非文字类的文本信息(例如特殊符号、字符表情等)；图像信息可以包括静态图像信息(例如静态图片、照片等)以及动态图像信息(例如动态图片、视频图像等)；动作信息可以包括用户动作信息(例如用户手势、身体动作、表情动作等)以及终端动作信息(例如终端设备的位置、姿态和摇动、旋转等运动状态等)。

可以理解的是，对应于不同种类的聊天信息，可以通过终端设备上不同类型的信息输入模块进行信息采集。例如，可通过麦克风等音频输入设备采集用户的语音信息，通过触摸屏或物理按键采集用户输入的文本信息，通过摄像头采集图像信息，通过光学传感器、重力传感器等采集动作信息等。

本实施例中，可以通过多种方式来获取不同种类的聊天信息，使得用户的多种交互方式可以自由得到响应，不再局限于传统机械式的人机交互手段，实现了人机之间的社交，满足更多的交互场景。

步骤S120：获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

第一终端在获取到第二终端发送的聊天信息时，可以获取第二终端对应的用户的人脸图像，所述第二终端对应的用户的人脸图像指的是使用第二终端的用户，该用户通过第二终端与所述第一终端建立连接与沟通，本实施例中所述第二终端对应的用户的人脸图像可以是第二终端实时发送至第一终端的图像。例如，第二终端对应的用户与第一终端对应的用户通过社交软件的视频通话功能进行相互沟通时，第一终端就可以实时获取所述第二终端对应的用户的人脸图像，与此同时需要保证第二终端对应的用户的人脸是在第二终端摄像头的视野范围内。另外，第二终端对应的用户的人脸图像也可以是第二终端对应的用户通过第二终端将其采集的自身的人脸图像或者是包含人脸图像的视频数据发送至第一终端的。所述第二终端对应的用户的人脸图像也可以是第一终端通过其他方式获取的，具体如何获取的这里不进行明确限制，可以根据实际情况进行选择。

在一种实施方式中，第一终端获取到第二终端对应的人脸图像后，可以利用该用户的人脸图像获取目标人脸模型。具体的，可以预先建立一个特定的人脸模型，该特定的人脸模型可以是基于平均人脸以及目标人脸图像构建的，而平均人脸可以是用于三维人脸建模的基础人脸模型，目标人脸图像则可以是第二终端对应的人脸图像。通过获取平均人脸以及目标人脸图像，即可基于3DMM中的人脸重建技术，通过二维的人脸图像(目标人脸图像)重建出该人脸的三维模型，即特定人脸模型。

可以理解的是，上述建立的特定人脸模型从外部轮廓及形态上与需要模拟的真实人脸已经非常相似，但为了让模拟出的人脸模型图像能够替代真实人脸，还需要在特定人脸模型上补充皮肤材质等细节，即可以将目标人脸图像中的人脸材质通过材质渲染替换至特定人脸模型得到目标人脸模型。本实施例中，可先从目标人脸图像中提取需要模拟的真实人脸的人脸皮肤材质，再基于纹理贴图技术将提取的人脸材质经过材质替换至特定人脸模型，即可获得无论从表面形态结构还是皮肤细节上，均可替代真实人脸的目标人脸模型。

步骤S130：根据所述聊天信息获取所述目标人脸模型的表情参数。

在一个实施例中，可以将所述聊天信息输入至视觉预测模型中，并利用该视觉预测模型获取与聊天信息对应的目标人脸模型的表情参数。视觉预测模型，可以是基于大量真人说话视频(包含真人说话图像以及与真人说话图像对应的真人说话音频)以及对应的人脸模型表情参数的训练样本，通过神经网络训练得到的。可以理解的是，视觉预测模型，是用于将音频转换为对应人脸模型表情参数的模型。通过获取的聊天信息输入至预测模型，即可由视觉预测模型输出目标人脸模型的表情参数。通过上述介绍可以知道，聊天信息可以是语音信息也可以是文本信息，当其为语音信息时可以直接将其输入至视觉预测模型，而当其为文本信息时可以先将该文本信息转换为语音信息，然后再输入至视觉预测模型，具体如何将文本信息转换为语音信息这里就不进行一一赘述。

本实施例中，目标人脸模型的表情参数，可以是用于调节目标人脸模型的一系列表情参数。其中，目标人脸模型，可以是通过基于3DMM(3D Morphable Models，三维形变模型)的三维人脸建模(3D Face Morphable Models)技术制作得到的三维人脸模型，该目标人脸模型的细节可以近似于真人人脸。可以理解的是，本实施例中，获取的目标人脸模型的表情参数是多组对应于时间的变化的参数序列，每一组目标人脸模型的表情参数对应于一组预设的人脸模型的三维模型关键点，其与聊天信息在时间上是相互对应的。

步骤S140：基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

在一个实施方式中，第一终端可以基于所述表情参数对目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。具体的，第一终端安装有社交应用程序，社交应用程序根据表情参数可以驱动目标人脸模型的表情。

步骤S150：输出该聊天视频。

本实施例中，在生成包含聊天信息和人脸图像的聊天视频后，即可对该聊天信息进行输出，向用户呈现出模拟的外形与声音均形似真人的虚拟机器人。作为一种方式，第一终端从接收第二终端发送的聊天信息开始，可以依次获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型、根据所述聊天信息获取所述目标人脸模型的表情参数、基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频以及输出所述聊天视频，使得第一终端可以更加快速有效的生成聊天视频，同时可以保证即使在断网的情况下也可以通过本申请生成虚拟机器人。

在一种具体的应用场景中，如图3所示，第一终端对应的用户可以通过打开社交应用程序客户端(例如微信、QQ等)进入与第二终端对应的用户进行沟通的界面，该沟通界面可以包括视频界面和聊天界面。当第二终端对应的用户通过聊天界面输入语音聊天信息“美女，你在干什么呢”至第一终端时，所述第一终端可以对所述语音聊天信息进行语音识别、语义识别以及感情识别等操作，得到识别结果。然后可以根据该识别结果获取目标人脸模型的表情参数，同时可以获取第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型，基于该聊天信息和人脸图像即可以生成对应的聊天视频，第一终端可以将其生成的聊天视频显示于视频播放界面。换句话说，第一终端生成聊天视频后可以利用视频界面播放该聊天视频(图3所示聊天视频中的女性形象即为利用第二终端对应的用户的人脸图像模拟出的虚拟机器人的形象)，该虚拟机器人同时可以以语音的形式播放所述第二终端发送的语音聊天信息“美女，你在干什么呢”。

本申请一个实施例提供的社交方法，可通过第二终端发送的聊天信息以及第二终端对应的人脸图像生成聊天视频，该聊天视频中的虚拟机器人是通过所述第二终端对应的人脸图像生成的，且其可以播放所述聊天信息，如此可以使社交聊天更加具有趣味性，在一定程度上可以避免传统的语音聊天或文字聊天的单一性。

请参阅图4，图4示出了本申请另一个实施例提供的社交方法的流程示意图。下面将针对图4所示的流程进行详细的阐述。上述的社交方法具体地可以包括以下步骤：

步骤S210：获取所述第二终端发送的聊天信息。

步骤S220：获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

如图5所示，步骤S220可以包括步骤S221至步骤S223。

步骤S221：检测所述第一终端是否接收到所述第二终端发送的视频数据。

在一个实施例中，当所述第一终端与所述第二终端通过社交应用程序建立连接时，所述第一终端可以检测是否接收到所述第二终端发送的视频数据。所述第二终端发送的视频数据可以是第一终端对应的用户与所述第二终端对应的用户利用社交应用程序的视频功能进行视频通话时生成的视频数据；所述第二终端发送的视频数据也可以是第二终端通过文件传输功能将其预先获取的视频数据发送至第一终端的。

步骤S222：当确定所述第一终端接收到所述第二终端发送的视频数据时，判断所述视频数据中是否包含有所述用户的人脸图像。

接收到第二终端发送的视频数据后，所述第一终端可以利用Faster RCNN、YOLO、SSD等目标检测算法检测该视频数据中是否包含有人脸图像，如果所述视频数据中包含所述用户的人脸图像则进入步骤S223。另外，因所述第二终端发送的为视频数据，故所述视频数据中可能包括多张所述用户的人脸图像，且这些人脸图像可以是第二终端对应的用户不同角度、不同方向或者是不同表情的图像。

步骤S223：如果所述视频数据中包含所述用户的人脸图像，则获取该用户的人脸图像。

本实施例中，当视频数据中包含所述用户的人脸图像时，则获取该用户的人脸图像，通过上述介绍可以知道所述视频数据中可以包括多张第二终端对应的用户的人脸图像，因此可以先判断这些人脸图像所包含的人脸是否完整，如果完整则保留该人脸图像，否则的话则不保留。然后可以对保留下来的人脸图像的清晰度、颜色、噪声、畸变以及锐度损失等进行分析，进而获取到一张质量最佳的人脸图像，同时最佳人脸图像包含的人脸的面部特征需完整有效，如此才能使最终获取的目标人脸模型更加真实。

在一种实施方式中，当所述第一终端未接收到所述第二终端发送的视频数据时，所述第一终端检测其是否存储有所述用户的人脸图像，如果所述第一终端中存储有所述用户的人脸图像，则获取所述用户的人脸图像。具体的，可以先获取所述第一终端对应的用户与所述第二终端对应的用户之间的历史聊天信息，并判断该历史聊天信息中是否包含有所述第二终端对应的用户的人脸图像，如果包含则获取该图像，如果不包含则获取所述第一终端上存储的所有图像，并检测这些图像中是否包含有所述第二终端对应的用户的人脸图像。

在另一种实施方式中，如果所述第一终端中未存储有所述用户的人脸图像，则获取预设人脸图像，并将该预设人脸图像作为所述用户的人脸图像。所述第一终端中存储有多个所述预设人脸图像，而每个所述预设人脸图像对应一个身份特征，此时获取第二终端对应的用户的人脸图像可以包括：判断所述聊天信息中是否包含有语音信息，如果所述聊天信息中包含有语音信息，则根据所述语音信息获取所述用户的身份特征，并将所述身份特征对应的预设人脸图像作为所述用户的人脸图像。而根据所述语音信息获取所述用户的身份特征，则可以包括：对所述语音信息进行处理得到处理后的语音信息；从处理后的语音信息中提取语音特征；利用所述语音特征得到所述用户的身份特征。

本实施例中，语音特征可以包括语速、停顿、基频(基音频率)、共振峰、梅尔倒谱系数、短时能量、声强、响度、音高等等。在一些实施方式中，在提取基频时，可以在语音信息的短时间谱被取对数后，由离散傅里叶逆变换(Inverse Discrete Fourier Transform，IDEF)得到了语音的倒谱，因此，声音信号的周期性激发反映在倒谱的同一周期内。在这种情况下，可以从反向频谱波形来估计音高周期。一般来说，反向谱波形的第二个脉冲被认为是对应的激励源的基频。

另外，可以采用谱包络法、倒谱法、LPC内插法、LPC求根法、希尔伯特变换法等获取共振峰。具体地，可以通过倒谱法计算使得语音信息中的基音和频谱包络进行分离。其低时部分可以对声道、声门和辐射信息进行分析，而其余的部分可以用来激励源信息的分析。通过对语音倒谱进行离散傅里叶变换(Discrete Fourier Transform，DFT)后进行对数运算然后取模。取得一个平滑的对数谱，该对数谱反映了输入的语音信息的谐振结构，其谱峰所对应的即为共振峰的频率。找到该平滑对数谱中最大对应的位置，即得到其共振峰。

在一些实施例中，用户的身份特征可以包括脸部特征、体型特征、性别特征以及年龄特征中的至少一种。语音特征可以反映说话人的身份特征。例如，语音特征中的基频和共振峰可以反映人物的性别特征，例如女性的基频和共振峰通常比男性的高。语速可以在一定程度上反映人物的年龄特征，例如语速较慢的人年龄通常较大，而语速较快的人年龄则较小。响度可以在一定程度上反映人物的体型特征，例如身材越魁梧的响度越大。又例如，可以通过语音特征能够确定说话者所说的语言是哪一种，由于同一个区域的人通常具有相似的面部特征，因此，可以通过语音特征大致判定说话者的面部特征。例如，说话者所说的语言是汉语时，表明其可能是中国人，则其对应的面部特征是黄皮肤、黑头发，而如果说话者所说的语言是英语，表明其可能是英国人，则其对应的面部特征可能是白皮肤、黄头发等。用户的身份特征具体包括哪些，且如何根据语言特征获取这些身份特征这里不进行一一赘述。

步骤S230：根据所述聊天信息获取所述目标人脸模型的表情参数。

步骤S240：基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

步骤S250：输出该聊天视频。

本申请一个实施例提供的社交方法，可通过不同的方式获取第二终端对应的用户的人脸图像，而当无法获取到第二终端对应的用户的人脸图像时，本申请实施例也可以通过语音聊天信息生成聊天视频，如此可以保证无论在何种情况下都可以生成虚拟机器人，且该虚拟机器人的脸部特征和声音特征均与第二终端对应的用户紧密相关，即保证了虚拟机器人的真实感和自然度，提升用户的使用体验。

本申请又一个实施例提供了一种社交方法，应用于社交系统的第一终端，所述社交系统还包括第二终端，请参阅图6，该社交方法可以包括步骤S310至步骤S360。

步骤S310：获取所述第二终端发送的聊天信息。

步骤S320：获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

如图7所示，步骤S220可以包括步骤S321至步骤S322。

步骤S321：获取所述用户的人脸图像持续出现的时长，并判断该时长是否小于预设时长。

在一个实施例中，当第一终端接收到所述第二终端发送的视频时，且所述视频数据中包含有用户的人脸图像时，可以获取该人脸图像持续出现的时长，并判断该时长是否小于预设时长。换句话说，当第一终端对应的用户与第二终端对应的用户通过社交应用程序的视频聊天功能进行聊天时，其可以获取所述第二终端对应的用户的人脸持续出现在摄像头视野范围内的时长，可以将该时长作为目标时长。获取到目标时长后，第一终端可以判断该目标时长是否小于预设时长，如果目标时长小于预设时长则进入步骤S322，而如果目标时长大于预设时长则不需要获取用户的人脸图像，且视频界面上显示的人脸是第二终端对应的用户的真实人脸，此时第一终端上可以不生成聊天视频。

步骤S322：如果所述用户的人脸图像出现的时长小于预设时长，则获取所述用户的人脸图像。

本实施例中，如果用户的人脸图像出现时长小于预设时长，则获取用户的人脸图像，第一终端获取到第二终端发送的视频数据后可以检测该视频数据中是否有用户的人脸图像出现，如果有，则判断该用户的人脸图像出现的时长是否小于预设时长，如果小于预设时长，则获取用户的人脸图像，并利用该人脸图像生成聊天视频。在一种具体的应用场景中，第一终端对应的用户A与第二终端对应的用户B利用社交应用程序中的视频功能进行聊天，此时第一终端对应的用户A可以获取到第二终端对应的用户B的视频数据，获取到该视频数据后，第一终端可以先检测该视频数据中是否包有用户B的人脸图像，如果包含，则获取用户B的人脸图像持续出现在视频数据中的时长，将该时长作为目标时长，而后判断该目标时长是否小于预设时长，如果小于则获取所述用户的人脸图像。例如，用户B的人脸图像持续出现在视频数据中的时长为2S，而预设时长为10S，显然，用户B的人脸图像持续出现在视频数据中的时长小于预设时长，此时则可以获取该用户B的人脸图像，并利用该人脸图像生成聊天视频。

步骤S330：根据所述聊天信息获取所述目标人脸模型的表情参数。

步骤S340：基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

步骤S350：获取所述视频数据对应的第二视频。

通过上述介绍可以知道，第一终端可以接收所述第二终端发送的视频数据，当该视频数据中用户的人脸图像持续出现的时长大于预设时长时可以只显示视频数据，而不需要生成聊天视频。但是当用户的人脸图像持续出现的时长小于预设时长时，可以先根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频，然后获取所述视频数据对应的第二视频，该第二视频中不含有第二终端对应的用户的人脸图像，但是包含所述用户所处环境的图像。

步骤S360：将所述第二视频和所述聊天视频分别显示于所述第一终端的屏幕上。

第二终端获取到第二视频和聊天视频后，可以将二者分别显示于所述第一终端的屏幕上，最终显示如图8所示，从图8可以看出第一终端的屏幕上显示的视频包括两部分，一部分是利用聊天信息以及用户的人脸图像生成的聊天视频，该聊天视频中的人为虚拟机器人，另一部分则是不包含人脸图像的环境视频，该视频是第二终端对应的用户所处的真实环境的视频，该视频内容主要由第二终端摄像头摆放位置决定的。例如，第二终端摄像头的摆放位置朝向天花板，则视频内容中只包含有天花板，而如果第二终端摄像头的摆放位置朝向电视柜等，则第二视频则就是包含有电视以及电视周围环境等的视频，且该视频可以是静止不变的，也就可以是不断变化的，具体如何这里不进行明确限制。

本申请又一个实施例提供的社交方法，第一终端与第二终端通过视频进行聊天时，其可以实时判断该视频中是否有人脸图像出现，当该人脸图像出现的时长小于预设时长时，第一终端的屏幕上可以同时显示虚拟聊天视频与第二视频，其中，聊天视频包含有虚拟机器人，该虚拟机器人与第二终端对应的用户的人脸紧密相关，而第二视频则是第二终端对应的用户所处环境的视频，如此可以避免在进行视频沟通时用户不在视野范围内带来的枯燥感，增加聊天的趣味性，同时可以提高人机交互的真实感和自然度，提升用户的使用体验。

本申请再一个实施例提供了一种社交方法，应用于社交系统的第二终端，所述社交系统还包括第一终端，请参阅图9，该社交方法可以包括步骤S410至步骤S450。

步骤S410：获取用户输入的聊天信息。

步骤S420：获取所述用户对应的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

步骤S430：根据所述聊天信息获取所述目标人脸模型的表情参数。

步骤S440：基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

步骤S450：将所述聊天视频发送至所述第一终端，并指示所述第一终端输出该聊天视频。

本申请又一个实施例提供了一种社交方法，应用于社交系统的服务器，所述社交系统还包括第一终端和第二终端，请参阅图10，该社交方法可以包括步骤S510至步骤S550。

步骤S510：获取用户输入的聊天信息。

步骤S520：获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

步骤S530：根据所述聊天信息获取所述目标人脸模型的表情参数。

步骤S540：基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

步骤S550：将所述聊天视频发送至所述第一终端，并指示所述第一终端输出该聊天视频。

请参阅图11，图11示出了本申请一个实施例提供的社交装置600的模块框图。该社交装置600应用于社交系统的第一终端。下面将针对图11所示的模块框图进行阐述，社交装置600包括：第一信息获取模块610、第一模型获取模块620、第一参数获取模块630、第一视频生成模块640以及第一视频输出模块650，其中：

第一信息获取模块610，用于获取所述第二终端发送的聊天信息。

第一模型获取模块620，用于获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

进一步的，所述聊天信息包括视频数据，第一模型获取模块620包括：检测单元，用于检测所述第一终端是否接收到所述第二终端发送的视频数据；判断单元，用于当确定所述第一终端接收到所述第二终端发送的视频数据时，判断所述视频数据中是否包含有所述用户的人脸图像；获取单元，用于如果所述视频数据中包含所述用户的人脸图像，则获取该用户的人脸图像。

进一步的，所述第一模型获取模块620还用于当所述第一终端未接收到所述第二终端发送的视频数据时，所述第一终端检测其是否存储有所述用户的人脸图像；如果所述第一终端中存储有所述用户的人脸图像，则获取所述用户的人脸图像。如果所述第一终端中未存储有所述用户的人脸图像，则获取预设人脸图像，并将该预设人脸图像作为所述用户的人脸图像。

进一步的，所述第一终端中存储有多个所述预设人脸图像，每个所述预设人脸图像对应一个身份特征，所述第一模型获取模块620还用于判断所述聊天信息中是否包含有语音信息；如果所述聊天信息中包含有语音信息，则根据所述语音信息获取所述用户的身份特征，并将所述身份特征对应的预设人脸图像作为所述用户的人脸图像。

进一步的，所述第一模型获取模块620还包括：时长判断单元，用于获取所述用户的人脸图像持续出现的时长，并判断该时长是否小于预设时长；图像获取单元，用于如果所述用户的人脸图像出现的时长小于预设时长，则获取所述用户的人脸图像。

第一参数获取模块630，用于根据所述聊天信息获取所述目标人脸模型的表情参数。

第一视频生成模块640，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

进一步的，第一视频生成模块640包括第二视频获取单元，用于获取所述视频数据对应的第二视频；显示单元，用于将所述第二视频和所述聊天视频分别显示于所述第一终端的屏幕上。

第一视频输出模块650，用于输出该聊天视频。

请参阅图12，图12示出了本申请一个实施例提供的社交装置700的模块框图。该社交装置700应用于社交系统的第二终端。下面将针对图12所示的模块框图进行阐述，社交装置700包括：第二信息获取模块710、第二模型获取模块720、第二参数获取模块730、第二视频生成模块740以及第二视频发送模块750，其中：

第二信息获取模块710，用于获取用户输入的聊天信息。

第二模型获取模块720，用于获取所述用户对应的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

第二参数获取模块730，用于根据所述聊天信息获取所述目标人脸模型的表情参数。

第二视频生成模块740，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

第二视频发送模块750，用于将所述聊天视频发送至所述第一终端，并指示所述第一终端输出该聊天视频。

请参阅图13，图13示出了本申请一个实施例提供的社交装置800的模块框图。该社交装置800应用于社交系统的服务器，该社交系统还包括第一终端和第二终端。下面将针对图13所示的模块框图进行阐述，社交装置800包括：第三信息获取模块810、第三模型获取模块820、第三参数获取模块830、第三视频生成模块840以及第三视频发送模块850，其中：

第三信息获取模块810，用于获取第二终端发送的聊天信息。

第三模型获取模块820，用于获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型。

第三参数获取模块830，用于根据所述聊天信息获取所述目标人脸模型的表情参数。

第三视频生成模块840，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频。

第三视频发送模块850，用于将所述聊天视频发送至第一终端，并指示所述第一终端输出该聊天视频。

本申请实施例提供的社交装置用于实现前述方法实施例中相应的社交方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的社交装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请实施例还提供了一种社交系统，该社交系统包括第一终端、第二终端和服务器，其中：第一终端，用于接收所述第二终端发送的聊天信息和获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型，根据所述聊天信息获取所述目标人脸模型的表情参数，基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频，输出该聊天视频；服务器，用于接收所述第二终端发送的聊天信息并将该聊天信息传输至第一终端；第二终端，用于获取用户输入的聊天信息，并将该聊天信息通过服务器发送至第一终端。

本申请实施例提供的社交系统用于实现前述方法实施例中相应的社交方法，并具有相应的方法实施例的有益效果，在此不再赘述。

请参阅图14，其示出了本申请实施例提供的一种终端设备的结构框图。本申请中的终端设备1000可以包括一个或多个如下部件：处理器1010、存储器1020以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1020中并被配置为由一个或多个处理器1010执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个终端设备1000内的各个部分，通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集，以及调用存储在存储器1020内的数据，执行终端设备1000的各种功能和处理数据。可选地，处理器1010可以采用数字信号处理(Digital Signal ProceSSing，DSP)、现场可编程门阵列(Field－PrograMMable Gate Array，FPGA)、可编程逻辑阵列(PrograMMable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1010可集成中央处理器(Central ProceSSing Unit，CPU)、图像处理器(Graphics ProceSSing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块通信芯片进行实现。

存储器1020可以包括随机存储器(Random AcceSS Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备1000在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

进一步地，终端设备1000还可以包括可折叠的显示屏，所述显示屏可以为液晶显示屏(Liquid Crystal Display，LCD)，可以为有机发光二极管(Organic Light-EmittingDiode，OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的移动终端的限定，具体的移动终端可以包括比图14中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图15，其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1100中存储有程序代码1110，所述程序代码1110可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是智能网关，手机，计算机，服务器，空调器或者网络设备等)执行本申请各个实施例所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种社交方法，其特征在于，所述方法应用于社交系统的第一终端，所述社交系统还包括第二终端，该方法包括：

获取所述第二终端发送的聊天信息，其中，所述聊天信息包括视频数据；

获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；

根据所述聊天信息获取所述目标人脸模型的表情参数；

基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；

若所述用户的人脸图像出现的持续时长小于预设时长，将聊天视频以及第二视频发送至所述第一终端，所述第一终端输出该聊天视频以及第二视频，所述第二视频不含有所述第二终端对应的用户的人脸图像，但包含所述用户所处环境的图像。

2.根据权利要求1所述的方法，其特征在于；

所述获取所述第二终端对应的用户的人脸图像，包括：

检测所述第一终端是否接收到所述第二终端发送的视频数据；

当确定所述第一终端接收到所述第二终端发送的视频数据时，判断所述视频数据中是否包含有所述用户的人脸图像；

如果所述视频数据中包含所述用户的人脸图像，则获取该用户的人脸图像。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当所述第一终端未接收到所述第二终端发送的视频数据时，所述第一终端检测其是否存储有所述用户的人脸图像；

如果所述第一终端中存储有所述用户的人脸图像，则获取所述用户的人脸图像。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

如果所述第一终端中未存储有所述用户的人脸图像，则获取预设人脸图像，并将该预设人脸图像作为所述用户的人脸图像。

5.根据权利要求4所述的方法，其特征在于，所述第一终端中存储有多个所述预设人脸图像，每个所述预设人脸图像对应一个身份特征；

所述获取所述第二终端对应的用户的人脸图像，包括：

判断所述聊天信息中是否包含有语音信息；

如果所述聊天信息中包含有语音信息，则根据所述语音信息获取所述用户的身份特征，并将所述身份特征对应的预设人脸图像作为所述用户的人脸图像。

6.根据权利要求2所述的方法，所述如果所述视频数据中包含所述用户的人脸图像，则获取该用户的人脸图像，包括：

获取所述用户的人脸图像持续出现的时长，并判断该时长是否小于预设时长；

如果所述用户的人脸图像出现的时长小于预设时长，则获取所述用户的人脸图像。

7.根据权利要求6所述的方法，其特征在于，所述根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频之后，包括：

获取所述视频数据对应的第二视频；

将所述第二视频和所述聊天视频分别显示于所述第一终端的屏幕上。

8.一种社交方法，其特征在于，所述方法应用于社交系统的第二终端，所述社交系统还包括第一终端，该方法包括：

获取用户输入的聊天信息，其中，所述聊天信息包括视频数据；

获取所述用户对应的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；

根据所述聊天信息获取所述目标人脸模型的表情参数；

若所述用户的人脸图像出现的持续时长小于预设时长，将聊天视频以及第二视频发送至所述第一终端，所述第一终端所述第一终端输出该聊天视频以及第二视频，所述第二视频不含有所述第二终端对应的用户的人脸图像，但包含所述用户所处环境的图像。

9.一种社交方法，其特征在于，应用于社交系统的服务器，该社交系统还包括第一终端和第二终端，该方法包括：

获取第二终端发送的聊天信息，其中，所述聊天信息包括视频数据；

根据所述聊天信息获取所述目标人脸模型的表情参数；

10.一种社交装置，其特征在于，所述装置应用于社交系统的第一终端，所述社交系统还包括第二终端，该装置包括：

第一信息获取模块，用于获取所述第二终端发送的聊天信息，其中，所述聊天信息包括视频数据；

第一模型获取模块，用于获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；

第一参数获取模块，用于根据所述聊天信息获取所述目标人脸模型的表情参数；

第一视频生成模块，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；

第一视频输出模块，用于若所述用户的人脸图像出现的持续时长小于预设时长，将聊天视频以及第二视频发送至所述第一终端，所述第一终端输出该聊天视频以及第二视频，所述第二视频不含有所述第二终端对应的用户的人脸图像，但包含所述用户所处环境的图像。

11.一种社交装置，其特征在于，所述装置应用于社交系统的第二终端，所述社交系统还包括第一终端，该装置包括：

第二信息获取模块，用于获取用户输入的聊天信息，其中，所述聊天信息包括视频数据；

第二模型获取模块，用于获取所述用户对应的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；

第二参数获取模块，用于根据所述聊天信息获取所述目标人脸模型的表情参数；

第二视频生成模块，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；

第二视频发送模块，用于若所述用户的人脸图像出现的持续时长小于预设时长，将聊天视频以及第二视频发送至所述第一终端，所述第一终端输出该聊天视频以及第二视频，所述第二视频不含有所述第二终端对应的用户的人脸图像，但包含所述用户所处环境的图像。

12.一种社交装置，其特征在于，所述装置应用于社交系统的服务器，该社交系统还包括第一终端和第二终端，该装置包括：

第三信息获取模块，用于获取第二终端发送的聊天信息，其中，所述聊天信息包括视频数据；

第三模型获取模块，用于获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型；

第三参数获取模块，用于根据所述聊天信息获取所述目标人脸模型的表情参数；

第三视频生成模块，用于基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频；

第三视频发送模块，用于若所述用户的人脸图像出现的持续时长小于预设时长，将聊天视频以及第二视频发送至所述第一终端，所述第一终端输出该聊天视频以及第二视频，所述第二视频不含有所述第二终端对应的用户的人脸图像，但包含所述用户所处环境的图像。

13.一种社交系统，其特征在于，所述系统包括第一终端，第二终端和服务器，其中：

所述第一终端，用于接收所述第二终端发送的聊天信息和获取所述第二终端对应的用户的人脸图像，并利用所述用户的人脸图像获取目标人脸模型，其中，所述聊天信息包括视频数据；

所述第一终端还用于根据所述聊天信息获取所述目标人脸模型的表情参数，基于所述表情参数对所述目标人脸模型的表情进行驱动，并根据所述聊天信息及经过表情驱动的人脸图像生成相对应的聊天视频，输出该聊天视频；

所述服务器，用于接收所述第二终端发送的聊天信息并将所述聊天信息传输至第一终端；

所述第二终端，用于若所述用户的人脸图像出现的持续时长小于预设时长，将聊天视频以及第二视频发送至所述第一终端，所述第一终端输出该聊天视频以及第二视频，所述第二视频不含有所述第二终端对应的用户的人脸图像，但包含所述用户所处环境的图像。

14.一种终端设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-7任一项所述的方法。

15.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。