CN107911644A

CN107911644A - 基于虚拟人脸表情进行视频通话的方法及装置

Info

Publication number: CN107911644A
Application number: CN201711262683.8A
Authority: CN
Inventors: 吕庆祥
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-04-13
Anticipated expiration: 2037-12-04
Also published as: CN107911644B

Abstract

本发明提供了一种基于虚拟人脸表情进行视频通话的方法及装置，其中，该方法包括：实时连续获取第一用户基于通话终端发送的第一视频帧数据和与第一视频帧数据相对应的第一音频数据，第一视频帧数据包括第一用户的第一人脸特征值；选择虚拟人脸模型，并根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情；实时连续播放虚拟人脸表情，同时解码并播放相对应的第一音频数据。该方法中的视频通话的另一方只需要提供包含人脸特征值的数据即可，之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情，从而可以避免另一侧用户的信息泄露，保证信息安全，可以提高隐私性。

Description

基于虚拟人脸表情进行视频通话的方法及装置

技术领域

本发明涉及视频通话技术领域，特别涉及一种基于虚拟人脸表情进行视频通话的方法及装置。

背景技术

目前，用户在进行视频通话时，一般选择计算机、手机、或者其他的有摄像头的电子设备，通过互联网传输上述电子设备采集的视频信号，进而实现视频通话。具体的，视频通话的双方均使用电子设备的前置摄像头来捕捉人脸或者物体的信息，并通过电子设备的听筒来获取声音信息，从而实现视频通话。

发明人在实现发明创造的过程中，发现现有方案至少存在以下缺陷：

现有的视频通话方式会使用原始的视频图像以及用户的原始声音，隐私性较差；同时，原始的视频图像所需较大的存储空间，在传输原始的视频图像时会占用过高的传输带宽，在网络信号不强、信道状况不好的情况下视频通信效果较差。

发明内容

本发明提供一种基于虚拟人脸表情进行视频通话的方法及装置，用以解决现有视频通话隐私性较差的缺陷。

本发明实施例提供的一种基于虚拟人脸表情进行视频通话的方法，包括：

实时连续获取第一用户基于通话终端发送的第一视频帧数据和与所述第一视频帧数据相对应的第一音频数据，所述第一视频帧数据包括所述第一用户的第一人脸特征值；

选择虚拟人脸模型，并根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情；

实时连续播放所述虚拟人脸表情，同时解码并播放相对应的所述第一音频数据。

在一种可能的实现方式中，所述根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情包括：

根据所述第一视频帧数据确定所述第一用户的人脸特征点的位置坐标，并确定所述第一用户的人脸特征点之间的相对位置；

根据所述第一用户的人脸特征点之间的相对位置调整所述虚拟人脸模型的人脸特征点的位置，并将调整后的虚拟人脸模型作为与所述第一视频帧数据相对应的虚拟人脸表情。

在一种可能的实现方式中，所述确定所述第一用户的人脸特征点之间的相对位置包括：

对所述人脸特征点进行分组，并确定每组中的关键人脸特征点；

分别确定每组中相邻的人脸特征点之间的相对位置，并确定不同组的关键人脸特征点之间的相对位置。

在一种可能的实现方式中，该方法还包括：

实时采集第二用户的人脸图像和原始声音数据；

根据所述人脸图像确定所述第二用户的第二人脸特征值，生成第二视频帧数据，并根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据；

将所述第二视频帧数据和所述第二音频数据发送至所述第一用户的通话终端。

在一种可能的实现方式中，所述第一音频数据为经过变声处理的音频数据；

所述根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据包括：

对所述原始声音数据进行变声处理，将变声处理后的原始声音数据作为与所述第二视频帧数据相对应的第二音频数据。

在一种可能的实现方式中，所述第一视频帧数据还包括：第一用户的人脸运动速度和人脸运动方向；

所述实时连续播放所述虚拟人脸表情，还包括：

在预设虚拟场景下，根据所述人脸运动速度和所述人脸运动方向播放所述虚拟人脸表情；所述预设虚拟场景为视频通话双方同时选择的同一场景，所述虚拟人脸表情的运动速度与所述人脸运动速度相一致，所述虚拟人脸表情的运动方向与所述人脸运动方向相一致。

基于同样的发明构思，本发明实施例还提供一种基于虚拟人脸表情进行视频通话的装置，包括：

获取模块，用于实时连续获取第一用户基于通话终端发送的第一视频帧数据和与所述第一视频帧数据相对应的第一音频数据，所述第一视频帧数据包括所述第一用户的第一人脸特征值；

处理模块，用于选择虚拟人脸模型，并根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情；

播放模块，用于实时连续播放所述虚拟人脸表情，同时解码并播放相对应的所述第一音频数据。

在一种可能的实现方式中，所述处理模块包括：

确定单元，用于根据所述第一视频帧数据确定所述第一用户的人脸特征点的位置坐标，并确定所述第一用户的人脸特征点之间的相对位置；

调整单元，用于根据所述第一用户的人脸特征点之间的相对位置调整所述虚拟人脸模型的人脸特征点的位置，并将调整后的虚拟人脸模型作为与所述第一视频帧数据相对应的虚拟人脸表情。

在一种可能的实现方式中，所述确定单元包括：

分组子单元，用于对所述人脸特征点进行分组，并确定每组中的关键人脸特征点；

确定子单元，用于分别确定每组中相邻的人脸特征点之间的相对位置，并确定不同组的关键人脸特征点之间的相对位置。

在一种可能的实现方式中，该装置还包括：

采集模块，用于实时采集第二用户的人脸图像和原始声音数据；

生成模块，用于根据所述人脸图像确定所述第二用户的第二人脸特征值，生成第二视频帧数据，并根据所述原始声音数据确定与所述第二视频帧数据相对应的第二音频数据；

发送模块，用于将所述第二视频帧数据和所述第二音频数据发送至所述第一用户的通话终端。

所述生成模块用于：对所述原始声音数据进行变声处理，将变声处理后的原始声音数据作为与所述第二视频帧数据相对应的第二音频数据。

本发明实施例提供的基于虚拟人脸表情进行视频通话的方法及装置，视频通话的另一方只需要提供包含人脸特征值的数据即可，之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情，从而可以避免另一侧用户的信息泄露，保证信息安全，可以提高隐私性。人脸特征值可以只包含人脸特征点的位置坐标，即视频通话过程中只需要传输人脸特征点的位置坐标，大大缩小了所要传输的数据，可以降低占用的传输带宽，在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。同时，以分组的方式计算人脸特征点之间的相对位置，在保证不同人脸特征点之间相对位置准确性的同时，可以提高计算速度。该方案在保护用户隐私的情况下还可以提升对话的趣味性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中基于虚拟人脸表情进行视频通话的方法流程图；

图2为本发明实施例中人脸特征点的一种排序方式示意图；

图3为本发明实施例中基于虚拟人脸表情进行视频通话的装置的第一结构图；

图4为本发明实施例中基于虚拟人脸表情进行视频通话的装置的第二结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供的一种基于虚拟人脸表情进行视频通话的方法，参见图1所示，包括步骤101-103：

步骤101：实时连续获取第一用户基于通话终端发送的第一视频帧数据和与第一视频帧数据相对应的第一音频数据，第一视频帧数据包括第一用户的第一人脸特征值。

本发明实施例提供的方法具体可以由本地终端执行，具体可以由下述的第二用户操作本地终端。步骤101中的第一用户是视频通话的另一侧用户，即第一用户通过步骤101中的通话终端与使用本地终端的第二用户进行视频通话。在视频通话的过程中，第一用户的通话终端会实时逐帧采集第一用户的第一视频帧数据和与第一视频帧数据相对应的第一音频数据，并将该第一视频帧数据和第一音频数据发送至第二用户的本地终端；且该第一视频帧数据中包含可以表示第一用户人脸状态、形状或表情的第一人脸特征值。

步骤102：选择虚拟人脸模型，并根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情。

本发明实施例中，预先设有多种虚拟人脸模型，第二用户可以从中选择一个虚拟人脸模型。具体的，该虚拟人脸模型可以为动物面部模型，或者卡通人物的人脸模型，或者其他人物(如电影明星等)的人脸模型等。同时，第一视频帧数据中的第一人脸特征值可以包含第一用户的人脸特征点的位置坐标，将该位置坐标映射至虚拟人脸模型的特征点的相应位置处，从而可以调整虚拟人脸模型的人脸表情，使得虚拟人脸模型的人脸表情与第一用户的人脸表情尽可能一致。此时，调整后的虚拟人脸模型即可以作为当前的虚拟人脸表情。

步骤103：实时连续播放虚拟人脸表情，同时解码并播放相对应的第一音频数据。

本发明实施例中，在步骤101中逐帧获取第一用户的第一视频帧数据，之后从而可以逐帧确定相对应的虚拟人脸表情，在逐帧播放虚拟人脸表情时使得第二用户可以观看虚拟人脸表情的视频，从而实现在视频通话过程中将第一用户的视频图像转换为虚拟人脸表情，通过虚拟人脸表情展示第一用户的人脸表情。第二用户只能获知第一用户的表情，但并不能直接获得第一用户的人脸图像，从而可以保证第一用户的隐私性。

本发明实施例提供的基于虚拟人脸表情进行视频通话的方法，视频通话的另一方(即第一用户)只需要提供包含人脸特征值的数据即可，之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情，从而可以避免另一侧用户的信息泄露，保证信息安全，可以提高隐私性。

本发明另一实施例提供一种基于虚拟人脸表情进行视频通话的方法，该方法包括上述实施例中的步骤101-103，其实现原理以及技术效果参见图1对应的实施例。同时，本发明实施例中，步骤102中根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情，具体包括步骤A1-A2：

步骤A1：根据第一视频帧数据确定第一用户的人脸特征点的位置坐标，并确定第一用户的人脸特征点之间的相对位置。

本发明实施例中，第一视频帧数据中的第一人脸特征值具体包括人脸特征点的标识以及相对应的位置坐标。例如，采集第一用户的68个人脸特征点，标志分别为01,02,03,…,68，此时的人脸特征值具体可以包括：01-(61.5149,134.076)，02-(61.1954,151.526)，03-(63.4041,169.403)，……，68-(67.9898,186.943)。或者，采集的人脸特征点按照预设顺序排列，此时的第一视频帧数据只包含人脸特征点的位置坐标即可。例如，采集第一用户的68个人脸特征点，此时人脸特征值具体可以包括：(61.5149,134.076)，(61.1954,151.526)，(63.4041,169.403)，……，(67.9898,186.943)共68个位置坐标。人脸特征点的一种排序方式示意图参见图2所示，也可以采用其他排序或定位方式，本申请对此不做限定。

在确定人脸特征点的位置坐标后，根据数学原理即可以确定人脸特征点之间的相对位置，具体可以将人脸特征点之间的距离向量作为上述的相对位置。同时，为避免计算量过大，本发明实施例中，以分组的方式计算人脸特征点之间的相对位置。从理论上来讲，在确定所有人脸特征点的顺序后，依次确定相邻的特征点之间的距离向量后即可以确定所有人脸特征点之间的相对位置(即距离向量)；但是在实际应用中，由于每次计算距离向量都会引入距离以及方向上的误差，上述计算方式容易引入过大的误差。例如上述68个人脸特征点的情况，假设只计算01至02之间的距离向量、02至03之间的距离向量、……67至68之间的距离向量，则此时01与68之间的相对位置会存在较大的误差。

本发明实施例中，确定人脸特征点之间的相对位置具体包括步骤B1-B2：

步骤B1：对人脸特征点进行分组，并确定每组中的关键人脸特征点。

具体的，可以根据聚类算法对人脸特征点进行分组，也可以根据人脸特征点所在的位置进行分组，例如将左眼相关的人脸特征点作为一组，将右眼相关的人脸特征点作为一组，将脸型轮廓相关的人脸特征点作为一组等。同时，每组中需要选取一个或多个人脸特征点作为关键的人脸特征点，该关键人脸特征点用于确定组间的相对位置。由于每组中人脸特征点的个数远远小于总的人脸特征点个数(如上述的68个)，每组中计算相对位置的误差较小；且分组后的特征点组的数量也较少，计算组间的相对位置时误差同样较小。

步骤B2：分别确定每组中相邻的人脸特征点之间的相对位置，并确定不同组的关键人脸特征点之间的相对位置。

本发明实施例中，上述步骤B1-B2的目的在于提高计算效率，即可以预先对人脸特征点进行分组；同时，预先确定需要计算哪些人脸特征点之间的相对位置即可，在计算过程中并不需要关注哪些人脸特征点为同一组、哪些人脸特征点为关键人脸特征点。本发明实施例中以分组的方式计算人脸特征点之间的相对位置，在保证不同人脸特征点之间相对位置准确性的同时，可以提高计算速度。

步骤A2：根据第一用户的人脸特征点之间的相对位置调整虚拟人脸模型的人脸特征点的位置，并将调整后的虚拟人脸模型作为与第一视频帧数据相对应的虚拟人脸表情。

本发明实施例中，虚拟人脸模型也设有相对应的人脸特征点，在确定第一用户的人脸特征点之间的相对位置后，即可以根据该第一用户的人脸特征点之间的相对位置调整虚拟人脸模型的人脸特征点之间的相对位置，从而形成相对应的虚拟人脸表情。对于每一帧的第一视频帧数据，调整一次虚拟人脸模型的人脸特征点之间的相对位置，即为每一帧的第一视频帧数据生成相应的虚拟人脸表情。

在本发明实施例中，人脸特征值可以只包含人脸特征点的位置坐标，即视频通话过程中只需要传输人脸特征点的位置坐标，大大缩小了所要传输的数据，可以降低占用的传输带宽，在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。

在一种可能的实现方式中，该方法还包括发送视频数据的过程，具体包括步骤C1-C3：

步骤C1：实时采集第二用户的人脸图像和原始声音数据。

步骤C2：根据人脸图像确定第二用户的第二人脸特征值，生成第二视频帧数据，并根据原始声音数据确定与第二视频帧数据相对应的第二音频数据。

步骤C3：将第二视频帧数据和第二音频数据发送至第一用户的通话终端。

本发明实施例提供的方法适用于视频通话场景，即第二用户在接收第一用户发送的视频数据时，第二用户还需要向第一用户发送本地的视频数据。具体的，如上所述，第二用户利用本地终端进行视频通话时，本地终端通过摄像头采集第二用户的人脸图像以及附近环境的原始声音数据；之后利用人脸识别算法，根据第二用户的人脸图像即可以确定第二用户的第二人脸特征值，进而生成包含第二人脸特征值的第二视频帧数据；同时将模拟的原始声音数据转换为数字的第二音频数据，并将该第二视频帧数据和第二音频数据发送至第一用户使用的通话终端。

同样的，第一用户的通话终端在接收到第二视频帧数据和第二音频数据后，与上述步骤101-103中第二用户的本地终端处理第一视频帧数据和第一音频数据的处理方式相似，即第一用户的通话终端也只能获取到第二用户的人脸表情，并不能直接获得第二用户的人脸图像，从而也可以保证第二用户的隐私性。

可选的，本发明实施例中还对音频数据进行变声处理，即视频通话的对方只能获取到变声处理后的声音，可以进一步提高通过的隐私性。具体的，第一音频数据为经过变声处理的音频数据。步骤C2中根据原始声音数据确定与第二视频帧数据相对应的第二音频数据，具体包括：对原始声音数据进行变声处理，将变声处理后的原始声音数据作为与第二视频帧数据相对应的第二音频数据。这样一方面可以保护自己的隐私，一方面提升了对话的趣味性。

在一种可能的实现方式中，该方法还包括步骤D1-D2：

步骤D1：接收第二用户输入的缩放指令，并确定与缩放指令相对应的缩放比例。

步骤D2：根据缩放比例对虚拟人脸表情进行缩放处理。

本发明实施例中，由于视频通话的双方只是传递人脸特征值，并根据人脸特征值以及选择的虚拟人脸模型生成相应的虚拟人脸表情，该方法使得视频通话过程具有较高的可塑性和可扩展性，即根据用户输入的缩放指令可以任意缩放虚拟人脸表情，如上述的步骤D1-D2；同时，用户还可以选择虚拟场景，并将虚拟人脸头像设置于所选的虚拟场景中，从而实现在虚拟的场景中利用虚拟人脸表情来进行视频通话，使得该视频通话方法更加多样化。

在一种可能的实现方式中，第一视频帧数据还包括：第一用户的人脸运动速度和人脸运动方向。

具体的，第一用户基于通话终端采集第一用户的通话视频时，还可以采集第一用户的人脸或头部运动，具体可以利用与该通话终端相匹配的可穿戴头部设备(如智能头盔或智能眼镜等)采集第一用户的人脸运动速度和人脸运动方向。或者第一用户的通话终端在采集到当前时刻第一用户的人脸图像时，同时获取该人脸图像的上一帧的人脸图像，在两帧相邻的人脸图像中选择一个基准点(可以是人脸中的一个点，比如眼睛等；也可以外部环境中共同存在的一个点，外部环境中的某样事物)，进而将两帧人脸图像进行比对，确定当前时刻的人脸图像与上一帧的人脸图像之间的相对运动，从而可以确定当前时刻的人脸图像的运动速度和运动方向，可以将该运动速度和运动方向作为第一视频帧数据中的第一用户的人脸运动速度和人脸运动方向。

此时，上述步骤103实时连续播放虚拟人脸表情，还包括：在预设虚拟场景下，根据人脸运动速度和人脸运动方向播放虚拟人脸表情；预设虚拟场景为视频通话双方同时选择的同一场景，虚拟人脸表情的运动速度与人脸运动速度相一致，虚拟人脸表情的运动方向与人脸运动方向相一致。

本发明实施例中，视频通话双方(即第一用户和第二用户)同时选择同一个虚拟场景，即预设虚拟场景，在该预设虚拟场景下播放二者的虚拟人脸表情从而实现视频通话。同时，通过人脸运动速度和人脸运动方向移动相应的虚拟人脸表情，可以增加视频通话双方的互动性，有效降低人之间的生疏感，提升通话的趣味性。例如，视频通话双方可以在该预设的虚拟场景下一起玩顶气球的游戏，使得双方具有更强的交互性。

本发明实施例提供的基于虚拟人脸表情进行视频通话的方法，视频通话的另一方只需要提供包含人脸特征值的数据即可，之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情，从而可以避免另一侧用户的信息泄露，保证信息安全，可以提高隐私性。人脸特征值可以只包含人脸特征点的位置坐标，即视频通话过程中只需要传输人脸特征点的位置坐标，大大缩小了所要传输的数据，可以降低占用的传输带宽，在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。同时，以分组的方式计算人脸特征点之间的相对位置，在保证不同人脸特征点之间相对位置准确性的同时，可以提高计算速度。

以上详细介绍了基于虚拟人脸表情进行视频通话的方法流程，该方法也可以通过相应的装置实现，下面详细介绍该装置的结构和功能。

本发明实施例提供的一种基于虚拟人脸表情进行视频通话的装置，参见图3所示，包括：

获取模块31，用于实时连续获取第一用户基于通话终端发送的第一视频帧数据和与第一视频帧数据相对应的第一音频数据，第一视频帧数据包括第一用户的第一人脸特征值；

处理模块32，用于选择虚拟人脸模型，并根据第一视频帧数据生成与虚拟人脸模型相对应的虚拟人脸表情；

播放模块33，用于实时连续播放虚拟人脸表情，同时解码并播放相对应的第一音频数据。

在一种可能的实现方式中，处理模块32包括：

确定单元，用于根据第一视频帧数据确定第一用户的人脸特征点的位置坐标，并确定第一用户的人脸特征点之间的相对位置；

调整单元，用于根据第一用户的人脸特征点之间的相对位置调整虚拟人脸模型的人脸特征点的位置，并将调整后的虚拟人脸模型作为与第一视频帧数据相对应的虚拟人脸表情。

在一种可能的实现方式中，确定单元包括：

分组子单元，用于对人脸特征点进行分组，并确定每组中的关键人脸特征点；

在一种可能的实现方式中，参见图4所示，该装置还包括：

采集模块34，用于实时采集第二用户的人脸图像和原始声音数据；

生成模块35，用于根据人脸图像确定第二用户的第二人脸特征值，生成第二视频帧数据，并根据原始声音数据确定与第二视频帧数据相对应的第二音频数据；

发送模块36，用于将第二视频帧数据和第二音频数据发送至第一用户的通话终端。

在一种可能的实现方式中，第一音频数据为经过变声处理的音频数据；

生成模块35用于：对原始声音数据进行变声处理，将变声处理后的原始声音数据作为与第二视频帧数据相对应的第二音频数据。

本发明实施例提供的基于虚拟人脸表情进行视频通话的装置，视频通话的另一方只需要提供包含人脸特征值的数据即可，之后本地的终端根据该人脸特征值以及虚拟人脸模型重新生成只包含另一侧用户表情信息的虚拟人脸表情，从而可以避免另一侧用户的信息泄露，保证信息安全，可以提高隐私性。人脸特征值可以只包含人脸特征点的位置坐标，即视频通话过程中只需要传输人脸特征点的位置坐标，大大缩小了所要传输的数据，可以降低占用的传输带宽，在网络信号不强、信道状况不好的情况下也可以实现视频通话功能。同时，以分组的方式计算人脸特征点之间的相对位置，在保证不同人脸特征点之间相对位置准确性的同时，可以提高计算速度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于虚拟人脸表情进行视频通话的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一视频帧数据生成与所述虚拟人脸模型相对应的虚拟人脸表情包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述第一用户的人脸特征点之间的相对位置包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

实时采集第二用户的人脸图像和原始声音数据；

5.根据权利要求4所述的方法，其特征在于，所述第一音频数据为经过变声处理的音频数据；

6.根据权利要求1所述的方法，其特征在于，所述第一视频帧数据还包括：第一用户的人脸运动速度和人脸运动方向；

所述实时连续播放所述虚拟人脸表情，还包括：

7.一种基于虚拟人脸表情进行视频通话的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述处理模块包括：

9.根据权利要求8所述的装置，其特征在于，所述确定单元包括：

10.根据权利要求7所述的装置，其特征在于，还包括：