CN116137673A

CN116137673A - 数字人表情驱动方法及其装置、设备、介质

Info

Publication number: CN116137673A
Application number: CN202310153527.7A
Authority: CN
Inventors: 冯进亨; 戴长军
Original assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Current assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-19

Abstract

本申请涉及网络直播领域中一种数字人表情驱动方法及其装置、设备、介质，所述方法包括：检测直播视频流的当前图像帧是否存在人脸图像，当存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸参数；检测所述直播视频流中是否存在人声信息，当存在人声信息时，调用语音驱动模型生成人声信息相对应的所述数字人的第二人脸参数；平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数；基于所述目标人脸参数构建出所述直播视频流中的数字人的人脸图像。本申请实现数字人与直播视频流中人物的表情高度同步，视觉效果上自然贴切。

Description

数字人表情驱动方法及其装置、设备、介质

技术领域

本申请涉及网络直播领域，尤其涉及一种数字人表情驱动方法及其相应的装置、计算机设备、计算机可读存储介质。

背景技术

随着元宇宙时代的到来，基于数字人生成动画的相关技术正如火如荼地发展，各方正在积极探索数字人相关的动画控制技术，以期精益求精。

在诸如数字人偶、虚拟直播房之类的应用场景中，对话交谈是必不可少的社交行为，因此，需要数字人偶可以同步用户说话时的面部表情，以达到传神的效果。

目前从技术角度上，数字人偶脸部表情一般是通过多个基础变形目标(blendshape)的线性融合得到对应的真实情况下的表情，包括张嘴、闭嘴、笑、抿嘴、眉毛与眼睛活动等基本表情动作，已有不少技术可以实现语音驱动或视频中面部表情驱动这些变形目标的变化来生成相应的数字人动画。但是，这些技术仍然存在不少的问题，如在视频中面部表情驱动过程中，无有效人脸的视频数据输入时，相应的变形目标无法更新，使得数字人同步出现断层；又如在视频中面部表情驱动过程中，输入的视频数据中的人脸嘴巴变动幅度过小，相应的变形目标基本无更新，使得数字人体现为嘴巴发声而不动；又如语音驱动过程中，采用专用的情感分析模型以语音作为输入，输出相应的变形目标的变化，然而情感分析模型的计算量庞大，耗时严重，而且单凭语音推理出的人脸的表情难以确保与人脸的真实表情精准匹配。

有鉴于此，需要进一步探索数字人的表情驱动技术，以便在多个方面取得产业进步。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种数字人表情驱动方法及其相应的装置、计算机设备、计算机可读存储介质。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提供的一种数字人表情驱动方法，包括如下步骤：

检测直播视频流的当前图像帧是否存在人脸图像，当存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸参数；

检测所述直播视频流中是否存在人声信息，当存在人声信息时，调用语音驱动模型生成人声信息相对应的所述数字人的第二人脸参数；

平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数；

基于所述目标人脸参数构建出所述直播视频流中的数字人的人脸图像。

进一步的实施例中，检测直播视频流的当前图像帧是否存在人脸图像或检测所述直播视频流中是否存在人声信息之后，包括如下步骤：

当所述当前图像帧不存在人脸图像时，确定预设人脸参数作为第一人脸参数；

当所述直播视频流中不存在人声信息时，确定预设人脸参数作为第二人脸参数。

进一步的实施例中，检测直播视频流的当前图像帧是否存在人脸图像之前，包括如下步骤：

检测带宽是否满足预设条件；

当所述带宽不满足预设条件时，不执行检测直播视频流的当前图像帧是否存在人脸图像的步骤，确定预设人脸参数作为第一人脸参数。

进一步的实施例中，检测所述直播视频流中是否存在人声信息之前，包括：

判断所述表情驱动模型所生成的第一人脸参数中的人脸嘴部参数是否达到预设标准，当未达到预设标准时，执行检测所述直播视频流中是否存在人声信息的步骤，否则，不执行检测所述直播视频流中是否存在人声信息的步骤，确定预设人脸参数作为第二人脸参数。

进一步的实施例中，先执行所述检测所述直播视频流中是否存在人声信息的步骤，在该步骤执行完后，包括如下步骤：

根据各个特定人脸部位相对应的帧数为触发条件，在每个特定人脸部位相对应的帧数到达时，执行所述检测直播视频流的当前图像帧的步骤，以获取所述第一人脸参数，从中确定出帧数到达时的特定人脸部位对应的形变参数；

获取上一次帧数到达时所得的第一人脸参数，从中确定出所述各个特定人脸部位对应的原始参数，以所述帧数到达的特定人脸部位对应的形变参数，以及所述帧数到达时的特定人脸部位以外的特定人脸部位对应的原始参数，构成所述当前图像帧对应的第一人脸参数。

进一步的实施例中，当所述当前图像帧不存在人脸图像时，且所述直播视频流中不存在人声信息时，包括如下步骤：

根据上一次所得的数字人的目标人脸参数，确定出数字人的过渡人脸参数，所述过渡人脸参数表征人脸表情的自然过渡；

基于所述过渡人脸参数构建出所述直播视频流中的数字人的人脸图像。

进一步的实施例中，平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数，包括：将所述第一人脸参数与所述第二人脸参数加权融合为所述数字人的目标人脸参数。

另一方面，适应本申请的目的之一而提供的一种数字人表情驱动装置，包括表情驱动模块、语音驱动模块、参数平滑模块以及数字人脸构建模块，其中，表情驱动模块，用于检测直播视频流的当前图像帧是否存在人脸图像，当存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸参数；语音驱动模块，用于检测所述直播视频流中是否存在人声信息，当存在人声信息时，调用语音驱动模型生成人声信息相对应的所述数字人的第二人脸参数；参数平滑模块，用于平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数；数字人脸构建模块，用于基于所述目标人脸参数构建出所述直播视频流中的数字人的人脸图像。

进一步的实施例中，所述表情驱动模块和/或所述语音驱动模块之后，包括：第一预设参数子模块，用于当所述当前图像帧不存在人脸图像时，确定预设人脸参数作为第一人脸参数；第二预设参数子模块，用于当所述直播视频流中不存在人声信息时，确定预设人脸参数作为第二人脸参数。

进一步的实施例中，所述表情驱动模块之前，包括：带宽检测子模块，用于检测带宽是否满足预设条件；带宽异常子模块，用于当所述带宽不满足预设条件时，不执行检测直播视频流的当前图像帧是否存在人脸图像的步骤，确定预设人脸参数作为第一人脸参数。

进一步的实施例中，所述语音驱动模块之前，包括：语音驱动判断子模块，用于判断所述表情驱动模型所生成的第一人脸参数中的人脸嘴部参数是否达到预设标准，当未达到预设标准时，执行检测所述直播视频流中是否存在人声信息的步骤，否则，不执行检测所述直播视频流中是否存在人声信息的步骤，确定预设人脸参数作为第二人脸参数。

进一步的实施例中，所述语音驱动模块后，包括：变动确定子模块，用于根据各个特定人脸部位相对应的帧数为触发条件，在每个特定人脸部位相对应的帧数到达时，执行所述检测直播视频流的当前图像帧的步骤，以获取所述第一人脸参数，从中确定出帧数到达时的特定人脸部位对应的形变参数；参数构建子模块，用于获取上一次帧数到达时所得的第一人脸参数，从中确定出所述各个特定人脸部位对应的原始参数，以所述帧数到达的特定人脸部位对应的形变参数，以及所述帧数到达时的特定人脸部位以外的特定人脸部位对应的原始参数，构成所述当前图像帧对应的第一人脸参数。

进一步的实施例中，第一预设参数子模块及所述第二预设参数子模块，包括：参数确定子模块，用于根据上一次所得的数字人的目标人脸参数，确定出数字人的过渡人脸参数，所述过渡人脸参数表征人脸表情的自然过渡；数字人脸图像构建子模块，用于基于所述过渡人脸参数构建出所述直播视频流中的数字人的人脸图像。

进一步的实施例中，所述参数平滑模块，包括：加权融合计算子模块，用于将所述第一人脸参数与所述第二人脸参数加权融合为所述数字人的目标人脸参数。

又一方面，适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的数字人表情驱动方法的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的数字人表情驱动方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

本申请的技术方案存在多方面优势，包括但不限于如下各方面：

本申请通过检测出直播视频流的当前图像帧中存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸图像，此外，通过检测出直播视频流中存在人声信息时，调用语音驱动模型生成人声信息相对应的数字人的第二人脸图像，平滑第一人脸图像与第二人脸图像得到目标人脸图像，据此，构建出直播视频流中的数字人的人脸图像。合理自然地融合第一人脸参数完整表示人脸图像的形变的优势和第二人脸参数精准表示人声信息对应的人脸部位的形变的优势，使得相应所得的数字人的人脸图像视觉效果上自然贴切，能够与直播视频流中的人物的表情高度同步。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的数字人表情驱动方法的典型实施例的流程示意图；

图2为本申请的实施例中示范性举例的对应人脸各个部位的52个变形目标的示意图；

图3为本申请的实施例中示范性提供的一种语音驱动模型的结构示意图；

图4为本申请的实施例中图像帧不存在人脸图像时确定第一人脸参数和/或直播视频流不存在人声信息时确定第二人脸参数的流程示意图；

图5为本申请的实施例中带宽异常时确定第一人脸参数的流程示意图；

图6为本申请的实施例中构成当前图像帧对应的第一人脸参数的流程示意图；

图7为本申请的实施例中构建出数字人的人脸图像的流程示意图；

图8为本申请的数字人表情驱动装置的原理框图；

图9为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩充到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种数字人表情驱动方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如，本申请的示例性应用场景中，可以在电商平台的服务器中部署实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的数字人表情驱动方法，在其典型实施例中，包括如下步骤：

步骤S1100、检测直播视频流的当前图像帧是否存在人脸图像，当存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸参数；

直播用户(即主播)进行直播时，在终端设备实时持续地上传的视频流作为所述直播视频流，例如可由所述终端设备上装载的摄像装置直接进行拍摄，生成相应的视频流，或者可由终端设备接收摄像设备进行拍摄所生成的视频流，诸如此类均可获得视频流作为所述直播视频流。

采用预设的人脸检测模型检测直播视频流中的每个图像帧，检测出每个图像帧中是否存在人脸图像。所述预设的人脸检测模型为适用于目标检测任务的基于卷积神经网络实现的模型，其预先训练至收敛状态，习得以人脸为目标对象，检测出图像中是否存在该目标对象的能力。具体选型可为任意一种现成可用的模型例如SSD、YOLO系列、R-CNN家族、RetinaNet、CornerNet等，鉴于这些模型的训练过程均为本领域技术人员所知晓，故对所述训练过程恕不详述。所述图像帧可通过对直播视频流进行分帧处理而得，所述分帧处理可由本领域技术人员灵活变通实现，例如开源的适用于视频分帧的接口、算法、插件、程序等等。

所述表情驱动模型预先被训练至收敛状态后投入推理使用，包括图像特征提取网络和分类器，所述图像特征提取网络适用于提取出图像的图像语义特征，具体选型可为任意一种现成可用的模型例如Resnet系列、VGG、Mobilenet系列等，推荐的实施例中，所述图像特征提取网络为MobilenetV2模型，所述MobilenetV2模型通过线性瓶颈的倒置残差结构，首先将输入图像的低维压缩表示扩展到高维表示，使用轻量级深度卷积(DW)提取出图像语义特征，最后用linear convolution将图像语义特征投射回低维表示，具有轻量化、精准度高的优点，故而便于快速部署，能够快速精准地提取出图像的图像语义特征，相应所需的运算资源较少。所述分类器为FC(全连接层)，适用于根据所述图像特征提取网络所提取出的图像语义特征进行分类映射，分类出N个变形目标(blendshape)对应的分类概率作为形变参数，所述N可由本领域技术人员按需设定，推荐N为52。所述N个变形目标分别对应表示人脸不同部位，示范性举例如图2所示，所述图2中是52个变形目标对应表示的人脸部位名称。

一种实施例中，当所述人脸检测模型检测出当前图像帧存在人脸图像时，人脸检测模型输出当前图像帧中人脸图像所处的位置信息，根据所述位置信息便可从当前图像帧中定位出人脸图像，进而调用表情驱动模型以该人脸图像作为输入，输出N个变形目标对应的形变参数构成所述数字人的第一人脸参数。

步骤S1200、检测所述直播视频流中是否存在人声信息，当存在人声信息时，调用语音驱动模型生成人声信息相对应的所述数字人的第二人脸参数；

所述直播视频流在数据层面上包含图像帧及音频数据。所述人声信息为直播视频流中人物说话发出的语音。

为了方便对所述的音频数据进行按时序处理，可以给定一个预设频率，该预设频率为采样频率，根据该预设频率对音频数据进行采样，从而获得多个语音帧，这些语音帧按时序关系构成音频数据的语音帧序列。

为了方便借助语音驱动模型进行处理，进一步可通过对所述语音帧序列中的各个语音帧提取人声信息对应的语音特征并进行相应的编码，获得特征编码信息，来实现对所述语音帧序列中的各个语音帧的特征表示。所述的语音特征可以从以下任意一项信息中提取确定：时频谱信息、梅尔频谱信息、音级轮廓信息、CQT滤波信息、Chroma信息。通过各个采样时序下根据语音特征编码获得的特征编码信息的序列化结果，便可作为所述音频数据的语音特征序列使用。

请参阅图3，根据本申请的创造精神，还给出一个示例性的深度学习模型，称为语音驱动模型，该语音驱动模型预先被训练至收敛状态后投入推理使用，包括卷积神经网络、第一循环神经网络、第二循环神经网络，以及分类器。

所述卷积神经网络可采用多级卷积层构造，用于提取所输入的语音特征序列的初始特征信息。一种实施例中，所述卷积神经网络可以包括两级卷积层，其中第一卷积层对原始尺度的所述音频数据的语音特征序列执行卷积操作获得多个通道的特征信息，第二卷积层对所述多个通道的特征信息执行卷积操作后实现特征压缩，还原出原始尺度相对应的初始特征信息。一个实施例中，所述卷积层可以是时序卷积网络(TCN,TemporalConvolutional Network)，时序卷积网络可以较好地处理时序较长的音频数据。

所述第一循环神经网络、第二循环神经网络可采用循环神经网络(RNN，RecurrentNeural Network)来构造，或者其他适于为时序数据提取特征信息的其他网络亦可，此类网络典型的有如长短期记忆网络(LSTM，Long Short-Term Memory)，某些实施例中，还可以是基于循环神经网络添加了自注意力层的各类网络，例如Transformer的编码器等，这些循环神经网络共同的特点是能够参考时序数据中的上下文信息进行特征整理，获得相应的特征表示，使所获得的特征表示更为精准有效。第一循环神经网络和第二循环神经网络可以是相同的选型，也可以是不同的选型，例如第一循环神经网络可以采用Transformer的编码器，第二循环神经网络可以采用LSTM；或者第一循环神经网络与第二循环神经网络均可采用LSTM。

所述第一循环神经网络主要用于对所述卷积神经网络输出的初始特征信息提取语义特征获得浅层语义信息，所述第二循环神经网络主要用于根据第一循环神经网络获得的浅层语义信息进一步提取出深层语义信息，所述浅层语义信息相对于所述深层语义信息可以有更高的维度，以便由第一循环神经网络充分挖掘出语义特征，而由第二循环神经网络对浅层语义信息进行高度浓缩，使语义特征更凝练，使所述深层语义信息成为相应时序的形变参数。每个时序输出N个变形目标对应的形变参数，所述N可由本领域技术人员按需设定与所述N相等，推荐N为52。所述N个变形目标分别对应表示人脸不同部位，示范性举例如图2所示，所述图2中是52个变形目标对应表示的人脸部位名称。所述第一人脸参数与所述第二人脸参数对应的变形目标及变形目标总数相同。

所述分类器可以是利用Sigmoid函数构造的二分类器，主要用于将第一循环神经网络输出的浅层语义信息映射到预设的分类空间，从而获得正类空间和负类空间相对应的分类概率，以便根据分类概率最大的分类空间确定出的直播视频流中是否存在人声信息。所述正类空间表征直播视频流的音频数据中存在人声信息，所述负类空间表征直播视频流的音频数据中不存在人声信息。

调用所述语音驱动模型以所述直播视频流的音频数据的语音特征序列作为输入，当分类器预测出分类概率最大的分类空间是正类空间时确定直播视频流存在人声信息，此时由第二循环网络输出相应的N个变形目标对应的形变参数构成所述数字人的第二人脸参数；当分类器预测出分类概率最大的分类空间是负类空间时确定直播视频流不存在人脸信息，不输出N个变形目标对应的形变参数。

所述第一循环神经网络及第二循环神经网络对应提取的浅层语义信息及深层语义信息均是音频数据中的人声信息对应的语音特征(表征人在说话时人脸嘴巴部位的形变)，不包含音频数据中的人声信息对应的情感特征(表征人在说话时蕴含的情感)。因此，基于所述语音驱动模型所得的第二人脸参数，其中除人脸嘴巴部位的变形目标以外，人脸其他部位的变形目标对应的形变参数为0。也因此，所述语音驱动模型的计算量较小，计算耗时低，便于快速部署，部署方能够以较小的系统资源开销即可调用语音驱动模型，高效及时地得到相应的输出结果。

步骤S1300、平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数；

采用线性融合所述第一人脸参数与所述第二人脸参数，获得两者加权融合结果作为所述数字人的目标人脸参数，使得以不同的占比合理自然地融合第一人脸参数完整表示的人脸各部位的形变的优势和第二人脸参数显著表示的人脸嘴巴部位的形变的优势，具体而言，计算所述第一人脸参数与所述第二人脸参数乘上对应的权重后求和，算出目标人脸参数，示范性公式举例：

Fusion＝(1-α)*Facesync+α*Lipsync

其中，Fusion为目标人脸参数，Facesync为第一人脸参数，Lipsync为第二人脸参数，α为融合系数。所述融合系数可由本领域技术人员按需确定。

推荐的实施例中，根据所述示范性公式，预设的人脸嘴巴部分的变形目标对应的融合系数为：JawOpen(张开下颌)的融合系数0.7、JawForward(顶出下颌)的融合系数为0.7、MouthFunnel(张开噘嘴)的融合系数为0.5、MouthPucker(合起噘嘴)的融合系数为0.5、MouthUpperUP_L(左上唇上抬)的融合系数为0.6、MouthUpperUP_R(右上唇上抬)的融合系数为0.6、MouthLowerDown_L(左下唇下拉)的融合系数为0.5、MouthLowerDown_R(右下唇下拉)的融合系数为0.5。可以理解，本实施例中对所述融合系数针对性的预设，使得相应的融合更为自然贴切，呈现出来的视觉效果较佳。

步骤S1400、基于所述目标人脸参数构建出所述直播视频流中的数字人的人脸图像。

可以理解，所述目标人脸参数中的变形目标对应人脸相应部位，其对应的形变参数量化表示形变幅度，因此，根据所述目标人脸参数便可精准确定出数字人的人脸各部位的形变即在视觉效果上体现为表情，从而构建出相应的人脸图像。

实现在直播视频流的每个时序下，基于直播视频流的包含人脸的当前图像帧所确定出的人脸各部位的形变，以及与其同一时序下的包含人声信息的音频数据所确定出的人脸嘴巴部位的形变的有机结合，塑造出数字人的人脸图像，使得数字人的人脸图像与直播视频流中人物的人脸图像高度同步，呈现自然贴切的视觉效果。

根据本申请的典型实施例可以知晓，本申请的技术方案存在多方面优势，包括但不限于如下各方面：

请参阅图4，进一步的实施例中，步骤S1100、检测直播视频流的当前图像帧是否存在人脸图像或步骤S1200、检测所述直播视频流中是否存在人声信息之后，包括如下步骤：

步骤S1110、当所述当前图像帧不存在人脸图像时，确定预设人脸参数作为第一人脸参数；

在直播过程中，直播用户可能短时间离开镜头前，导致镜头拍摄不到人脸，或者镜头前直播用户的转头、抬头、低头动作幅度过大，导致镜头拍摄的人脸不全，此时，所述人脸检测模型检测出当前图像帧不存在人脸图像，即无法根据直播视频流的人脸图像调用所述表情驱动模型生成相应的数字人的第一人脸参数，据此，将预设人脸参数作为第一人脸参数，所述预设人脸参数可设定为对应第一人脸参数包含的N个变形目标对应的形变参数全为0，即人脸各个部位无形变。

步骤S1210、当所述直播视频流中不存在人声信息时，确定预设人脸参数作为第二人脸参数。

在直播过程中，直播用户可能有时只有面部动作而没有说话，此时，所述语音驱动模型检测出所述直播视频流中不存在人声信息，即无法根据直播视频流的人声信息调用所述语音驱动模型生成相应的数字人的第二人脸参数，据此，将预设人脸参数作为第二人脸参数，所述预设人脸参数可设定为对应第二人脸参数包含的N个变形目标对应的形变参数全为0，即人脸各个部位无形变。

本实施例中，针对直播过程中可能出现的两种特殊情况，对应提供相应的解决方案，确保本申请实现的数字人表情驱动方法的鲁棒性和可靠性，以及数字人与直播视频流中人物的表情流畅同步。

根据本实施例的进一步的实施例中，加权融合当所述当前图像帧不存在人脸图像时的所述第一人脸参数与所述当直播视频流中存在人声信息时其相对应的第二人脸参数，以对两者进行平滑，获得数字人的目标人脸参数，基于所述目标人脸参数构建出直播视频流中的数字人的人脸画像。一方面，实现基于直播视频流中的人物的语音即人声信息驱动数字人，确保直播视频流中数字人保持与人物同步的流畅性，有效避免直播视频流中突然无法检测出人物的人脸只有人物的语音在播放时，相对应呈现出来的数字人的人脸画像无形变，数字人同步出现断层的事故。另一方面，直播视频流中存在或不存在人脸图像的情况下，均平滑相对应的第一人脸参数与第二人脸参数得出数字人的目标人脸参数，使得相应的两种情况下直播视频流中的数字人的人脸图像之间自然衔接，避免人脸嘴巴部位的形变幅度突然过大而产生异样的视觉效果，影响观感。

另一进一步的实施例中，加权融合当直播视频流中存在人脸图像时其相对应的第一人脸参数与所述当所述直播视频流中不存在人声信息时的所述第二人脸参数，以对两者进行平滑，获得数字人的目标人脸参数，基于所述目标人脸参数构建出直播视频流中的数字人的人脸画像。实现基于直播视频流中的人物的人脸画像驱动数字人，确保直播视频流中数字人保持与人物同步的流畅性，有效避免直播视频流中突然无法检测出人物的人脸只有人物的语音在播放时，相对应呈现出来的数字人的人脸画像无形变，数据人同步出现断层的事故。另一方面，直播视频流中存在或不存在人声信息的情况下，均平滑相对应的第一人脸参数与第二人脸参数得出数字人的目标人脸参数，使得相应的两种情况下直播视频流中的数字人的人脸图像之间自然衔接，避免人脸各个部位的形变幅度突然过大而产生异样的视觉效果，影响观感。

请参阅图5，进一步的实施例中，步骤S1100、检测直播视频流的当前图像帧是否存在人脸图像之前，包括如下步骤：

步骤S1000、检测带宽是否满足预设条件；

直播用户在其终端设备实时持续地上传所述直播视频流时，可能受限于终端设备的网络带宽，影响到直播视频流的传输速率不足，导致直播视频流中的数据量小的音频数据传输成功，而数据量大的图像帧传输失败，进而接收不到当前图像帧无法检测其是否存在人脸图像，便确定不出相应的第一人脸参数，无法构建数字人的人脸图像。据此，需要对直播用户的终端设备的网络带宽进行检测，不难理解，网络带宽越充足相应的直播视频流中的上下图像帧之间的传输时延便越小，所述传输时延指的是直播视频流中的上下图像帧对应传输成功时的时间差。因此，以直播视频流中的上下图像帧之间的传输时延是否超过预设阈值作为所述预设条件，当超过时表示带宽不满足预设条件，当不超过时表示带宽满足预设条件，所述预设阈值用于衡量传输时延是否过大，本领域技术人员可按此处揭示灵活变通设定。

步骤S1010、当所述带宽不满足预设条件时，不执行检测直播视频流的当前图像帧是否存在人脸图像的步骤，确定预设人脸参数作为第一人脸参数。

为了应对接收不到当前图像帧无法检测其是否存在人脸图像，确定不出相应的第一人脸参数的情况，将预设人脸参数作为第一人脸参数，所述预设人脸参数可设定为对应第一人脸参数包含的N个变形目标对应的形变参数全为0，即人脸各个部位无形变。

本实施例中，针对直播视频流传输可能的异常情况，提供相应的解决方案，确保本申请实现的数字人表情驱动方法的鲁棒性和可靠性，以及数字人与直播视频流中人物的表情流畅同步。

进一步的实施例中，步骤S1200、检测所述直播视频流中是否存在人声信息之前，包括：

步骤S2200、判断所述表情驱动模型所生成的第一人脸参数中的人脸嘴部参数是否达到预设标准，当未达到预设标准时，执行检测所述直播视频流中是否存在人声信息的步骤，否则，不执行检测所述直播视频流中是否存在人声信息的步骤，确定预设人脸参数作为第二人脸参数。

所述人脸嘴部参数为人脸的嘴巴部位的变形目标对应的形变参数。

可以理解，直播视频流中直播用户在说话时可能通过声带发声，而人脸的嘴巴部位的形变幅度很小，尤其是说中文的时候这种情况非常普遍，因此，所述表情驱动模型所生成的第一人脸参数中的人脸嘴部参数就很小甚至可能为0，相应的视觉效果上体现的表情就如嘴巴没怎么动，观感上难以察觉到直播用户在说话，与实际又能听到直播视频流的语音即人声信息偏差较大，不够精准。此外，直播用户在说话时可能头部有些转动，比如低头约20度，此时镜头拍摄到的人脸的嘴巴部位较小且有明显畸变。因此，所述表情驱动模型所生成的第一人脸参数相应的视觉效果上体现的表情，便与实际直播用户的表情的偏差较大，不够精准。

可见，针对上述的各种异常情况，需要判断所述表情驱动模型所生成的第一人脸参数中的人脸的嘴巴部位的变形目标对应的形变参数的是否小于预设阈值，当小于时确定所述人脸嘴部参数未达到预设标准，当不小于时确定所述人脸嘴部参数达到预设标准，所述预设阈值用于衡量人脸嘴部参数是否过小，可由本领域技术人员按此处揭示按需设定，推荐的预设阈值为0.1。当达到预设标准时，即表示相应的第一人脸参数够精准，为了提高运行效率，不执行检测所述直播视频流中是否存在人声信息的步骤，将预设人脸参数作为第二人脸参数，所述预设人脸参数可设定为对应第二人脸参数包含的N个变形目标对应的形变参数全为0，即人脸各个部位无形变。当未达到预设标准时，执行检测所述直播视频流中是否存在人声信息的步骤，后续进一步与相应的第二人脸参数进行平滑，获得数字人的目标人脸参数，可以理解，实现在第一人脸参数基础上弥补其不足，融合到精准的人脸嘴部参数。

本实施例中，针对可能出现的人脸嘴部参数精度不够的情况，提供相应的解决方案，以提升原本精度至高精度，相应的视觉效果更佳。针对人脸嘴部参数精度达标的情况，提供相应的解决方案，缩短了执行流程，提升运行效率。

请参阅图6，进一步的实施例中，步骤S1200、先执行所述检测所述直播视频流中是否存在人声信息的步骤，在该步骤执行完后，包括如下步骤：

步骤S1201、根据各个特定人脸部位相对应的帧数为触发条件，在每个特定人脸部位相对应的帧数到达时，执行所述检测直播视频流的当前图像帧的步骤，以获取所述第一人脸参数，从中确定出帧数到达时的特定人脸部位对应的形变参数；

所述语音驱动模型以所述直播视频流中的人声信息所得的第二人脸参数中除表示人脸的嘴巴部位的变形目标的形变参数以外，人脸的其他部位的变形目标的形变参数为0，即是无法识别到人声信息蕴含的情感，但缺失的这些部分完全可以通过加权融合所述表情驱动模型以所述直播视频流中包含人脸的当前图像帧所得的第一人脸参数，其中包含的完整的表示人脸各个部位的变形目标的形变参数，从而得到相应的目标人脸参数，使得其即具备表示完整的人脸各个部位的形变，又得以精准地表示人脸的嘴巴部分的形变，从而实现数字人与直播视频流中的人物高度同步，相应的数字人的人脸画像的观感较佳。然而，为了在保持数字人的人脸画像的观感可观的基础上，合理减少加权融合第一人脸参数与第二人脸参数的次数，从每个时序即每帧图像帧确定出第一人脸参数后均执行一次，减少至特定人脸部位的帧数到达时确定出相应的形变参数构成第一人脸参数后才执行一次，以大幅提升运行效率。由于较长帧数间隔方才执行一次，故而所述特定人脸部位是预先选定的能够表示明显表情，及出现该表情时人们会自然维持该表情一定帧数内不变相对应的人脸部位，本领域技术人员可按此处揭示按需选定。进一步，不同的特定人脸部位自然维持不变的帧数不同，故而对于不同的特定人脸部位需设定相应的帧数，本领域技术人员可根据先验知识或实验数据灵活变通设定。推荐的特定人脸部位的变形目标及其帧数包括：BrowDown_L(左眉向下压)的帧数为30、BrowDown_R(右眉向下压)的帧数为30、BrowOuterUp_L(左眉尖外挑)的帧数为30、BrowOuterUp_R(右眉尖外挑)的帧数为30、BrowlnnerUp(眉心向上移动)的帧数为30、EyeWide_L(左眼用力张开)的帧数为50、EyeWide_R(右眼用力张开)的帧数为50、MouthSmile_L(左嘴角微笑上挑)的帧数为60、MouthSmile_R(右嘴角微笑上挑)的帧数为60、MouthFrown_L(左嘴角耷拉)的帧数为60、MouthFrown_R(右嘴角耷拉)的帧数为60。

据此，在每个特定人脸部位相对应的帧数到达时，检测直播视频流的当前图像帧是否存在人脸图像，当存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸参数，从其中确定出帧数到达时的特定人脸部位对应的形变参数，示范性举例，特定人脸部位的变形目标：BrowDown_L、BrowDown_R、BrowOuterUp_L、BrowOuterUp_R、BrowInnerUp相对应的30帧到达，从调用表情驱动模型所得的第一人脸参数中确定出这些特定人脸部位的变形目标对应的形变参数。

可以理解，初始状态下即未开始根据各个特定人脸部位相对应的帧数是否到达而获取相应的第一人脸参数时，执行所述检测直播视频流的当前图像帧的步骤，以获取所述初始状态下对应的所述第一人脸参数，其中包含人脸各个部位的变形目标对应的形变参数。

步骤S1202、获取上一次帧数到达时所得的第一人脸参数，从中确定出所述各个特定人脸部位对应的原始参数，以所述帧数到达的特定人脸部位对应的形变参数，以及所述帧数到达时的特定人脸部位以外的特定人脸部位对应的原始参数，构成所述当前图像帧对应的第一人脸参数。

可以理解，帧数未到达的第一人脸参数中的特定人脸部位对应的形变参数为原始参数，因相应的直播视频流中的人物仍在自然维持所述特定人脸部位的形变，故而无需在帧数未到达时更新。

本实施例中，实现了在保持数字人的人脸画像的观感可观的基础上，合理减少加权融合第一人脸参数与第二人脸参数的次数，从每个时序即每帧图像帧确定出第一人脸参数后均执行一次，减少至特定人脸部位的帧数到达时确定出相应的形变参数构成第一人脸参数后才执行一次，以大幅提升运行效率。

请参阅图7，进一步的实施例中，步骤S1110、当所述当前图像帧不存在人脸图像时，且步骤S1210、所述直播视频流中不存在人声信息时，包括如下步骤：

步骤S3300、根据上一次所得的数字人的目标人脸参数，确定出数字人的过渡人脸参数，所述过渡人脸参数表征人脸表情的自然过渡；

可以理解，在直播过程中，直播视频流中的直播用户可能短暂离开，此时相应的当前图像帧不存在人脸图像，且直播视频流中不存在人声信息。数字人的人脸图像同步需要从当前状态自然过渡趋向无表情状态，故而根据上一次所得的数字人的目标人脸参数，确定其中包含的人脸各个部位的变形目标对应的形变参数的衰减指数，各个形变参数根据所述衰减指数缩减，确定出数字人的过渡人脸参数。所述衰减指数可由本领域技术人员根据先验知识或实验数据设定，推荐的BrowDown_L、BrowDown_R、BrowOuterUp_L、BrowOuterUp_R、BrowInnerUp相对应的形变参数的衰减指数为0.3、EyeWide_L、EyeWide_R对应的形变参数的衰减指数为0.25，MouthSmile_L、MouthSmile_R、MouthFrown_L、MouthFrown_R对应的形变参数的衰减指数为0.15，其余人脸部位对应的变形目标对应的形变参数的衰减指数为0.5。

步骤S3310、基于所述过渡人脸参数构建出所述直播视频流中的数字人的人脸图像。

可以理解，所述过渡人脸参数中的变形目标对应人脸相应部位，其对应的形变参数量化表示形变幅度，因此，根据所述过渡人脸参数便可精准确定出数字人的人脸各部位的形变即在视觉效果上体现为表情，从而构建出相应的人脸图像。

本实施例中，针对直播视频流传输可能的特殊情况，提供相应的解决方案，确保本申请实现的数字人表情驱动方法的鲁棒性和可靠性，以及数字人与直播视频流中人物的表情流畅同步。

请参阅图8，适应本申请的目的之一而提供的一种数字人表情驱动装置，是对本申请的数字人表情驱动方法的功能化体现，该装置包括表情驱动模块1100、语音驱动模块1200、参数平滑模块1300以及数字人脸构建模块1400，其中，表情驱动模块1100，用于检测直播视频流的当前图像帧是否存在人脸图像，当存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸参数；语音驱动模块1200，用于检测所述直播视频流中是否存在人声信息，当存在人声信息时，调用语音驱动模型生成人声信息相对应的所述数字人的第二人脸参数；参数平滑模块1300，用于平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数；数字人脸构建模块1400，用于基于所述目标人脸参数构建出所述直播视频流中的数字人的人脸图像。

进一步的实施例中，所述表情驱动模块1100和/或所述语音驱动模块1200之后，包括：第一预设参数子模块，用于当所述当前图像帧不存在人脸图像时，确定预设人脸参数作为第一人脸参数；第二预设参数子模块，用于当所述直播视频流中不存在人声信息时，确定预设人脸参数作为第二人脸参数。

进一步的实施例中，所述表情驱动模块1100之前，包括：带宽检测子模块，用于检测带宽是否满足预设条件；带宽异常子模块，用于当所述带宽不满足预设条件时，不执行检测直播视频流的当前图像帧是否存在人脸图像的步骤，确定预设人脸参数作为第一人脸参数。

进一步的实施例中，所述语音驱动模块1200之前，包括：语音驱动判断子模块，用于判断所述表情驱动模型所生成的第一人脸参数中的人脸嘴部参数是否达到预设标准，当未达到预设标准时，执行检测所述直播视频流中是否存在人声信息的步骤，否则，不执行检测所述直播视频流中是否存在人声信息的步骤，确定预设人脸参数作为第二人脸参数。

进一步的实施例中，所述语音驱动模块1200后，包括：变动确定子模块，用于根据各个特定人脸部位相对应的帧数为触发条件，在每个特定人脸部位相对应的帧数到达时，执行所述检测直播视频流的当前图像帧的步骤，以获取所述第一人脸参数，从中确定出帧数到达时的特定人脸部位对应的形变参数；参数构建子模块，用于获取上一次帧数到达时所得的第一人脸参数，从中确定出所述各个特定人脸部位对应的原始参数，以所述帧数到达的特定人脸部位对应的形变参数，以及所述帧数到达时的特定人脸部位以外的特定人脸部位对应的原始参数，构成所述当前图像帧对应的第一人脸参数。

进一步的实施例中，所述参数平滑模块1300，包括：加权融合计算子模块，用于将所述第一人脸参数与所述第二人脸参数加权融合为所述数字人的目标人脸参数。

为解决上述技术问题，本申请实施例还提供计算机设备。如图9所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种数字人表情驱动方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的数字人表情驱动方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的数字人表情驱动装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的数字人表情驱动方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请实现数字人与直播视频流中人物的表情流畅地高度同步，视觉效果上自然贴切。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数字人表情驱动方法，其特征在于，包括：

2.根据权利要求1所述的数字人表情驱动方法，其特征在于，检测直播视频流的当前图像帧是否存在人脸图像或检测所述直播视频流中是否存在人声信息之后，包括如下步骤：

3.根据权利要求1所述的数字人表情驱动方法，其特征在于，检测直播视频流的当前图像帧是否存在人脸图像之前，包括如下步骤：

检测带宽是否满足预设条件；

4.根据权利要求1所述的数字人表情驱动方法，其特征在于，检测所述直播视频流中是否存在人声信息之前，包括：

5.根据权利要求1所述的数字人表情驱动方法，其特征在于，先执行所述检测所述直播视频流中是否存在人声信息的步骤，在该步骤执行完后，包括如下步骤：

6.根据权利要求1所述的数字人表情驱动方法，其特征在于，当所述当前图像帧不存在人脸图像时，且所述直播视频流中不存在人声信息时，包括如下步骤：

7.根据权利要求1所述的数字人表情驱动方法，其特征在于，平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数，包括：将所述第一人脸参数与所述第二人脸参数加权融合为所述数字人的目标人脸参数。

8.一种数字人表情驱动装置，其特征在于，包括：

表情驱动模块，用于检测直播视频流的当前图像帧是否存在人脸图像，当存在人脸图像时，调用表情驱动模型生成人脸图像相对应的数字人的第一人脸参数；

语音驱动模块，用于检测所述直播视频流中是否存在人声信息，当存在人声信息时，调用语音驱动模型生成人声信息相对应的所述数字人的第二人脸参数；

参数平滑模块，用于平滑所述第一人脸参数与所述第二人脸参数，获得所述数字人的目标人脸参数；

数字人脸构建模块，用于基于所述目标人脸参数构建出所述直播视频流中的数字人的人脸图像。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。