CN116185191A

CN116185191A - 一种服务器、显示设备和虚拟数字人交互方法

Info

Publication number: CN116185191A
Application number: CN202310106714.XA
Authority: CN
Inventors: 付爱国; 李绪送; 于子亿; 杨善松; 王旭升
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-05-30

Abstract

本公开涉及一种服务器、显示设备和虚拟数字人交互方法，涉及虚拟数字人技术领域。其中，服务器包括：控制器，被配置为：接收显示设备发送的问询语音和用户图像；确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频，第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配；将第一动态视频发送至显示设备。本公开实施例降低了虚拟数字人的制作成本和制作难度。

Description

一种服务器、显示设备和虚拟数字人交互方法

技术领域

本公开涉及虚拟数字人技术领域，尤其涉及一种服务器、显示设备和虚拟数字人交互方法。

背景技术

虚拟数字人是指具有数字化外形的虚拟人物，广泛应用于显示设备的人机交互过程中。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等模块构成。传统的制作虚拟数字人需要事先采集大量的视频数据，并通过各种软件及花费大量的人工方式来制作、驱动人物模型，制作周期长、成本过高，并且需在具体场景中进行调试之后才能被使用，且很难支持二次编辑和开发，因此亟需一种简单、低功耗且动态逼真的虚拟数字人交互方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种服务器、显示设备和虚拟数字人交互方法，降低了虚拟数字人的制作成本和制作难度。

为了实现上述目的，本公开实施例提供的技术方案如下：

第一方面，提供一种服务器，该服务器包括：

控制器，被配置为：接收显示设备发送的问询语音和用户图像；

确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频，第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配；

将第一动态视频发送至显示设备。

第二方面，提供一种显示设备，该显示设备包括：

声音采集器，被配置为：接收用户输入的问询语音；

控制器，被配置为：响应于问询语音，控制图像采集器采集用户图像；

将问询语音和用户图像发送至服务器，以由服务器生成第一动态视频，第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配；

接收服务器发送的第一动态视频，并控制显示器播放第一动态视频。

第三方面，本公开提供一种虚拟数字人交互方法，该方法包括：

接收显示设备发送的问询语音和用户图像；

将第一动态视频发送至显示设备。

第四方面，本公开提供另一种虚拟数字人交互方法，该方法包括：

接收用户输入的问询语音；

响应于问询语音，控制图像采集器采集用户图像；

第五方面，本公开提供了一种计算机可读存储介质，包括：计算机可读存储介质上存储计算机程序，计算机程序被处理器执行时实现如第三方面或第四方面所示的虚拟数字人交互方法。

第六方面，本公开提供了一种计算机程序产品，该计算机程序产品包括计算机程序，当该计算机程序在计算机上运行时，使得计算机实现如第三方面或第四方面所示的虚拟数字人交互方法。

本公开实施例提供一种服务器、显示设备和虚拟数字人交互方法，其中该服务器所包括的控制器，首先接收显示设备发送的问询语音和用户图像，进而确定该问询语音对应的交互语音，并根据这个交互语音和用户图像生成第一动态视频，该第一动态视频中包括交互语音以及基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态和交互语音匹配；进一步的将该第一动态视频返回给显示设备，以在显示设备上播放该第一动态视频，从而通过用户对应的虚拟数字人输出交互语音。本公开实施例通过用户图像和交互语音生成动态的虚拟数字人，无需预先采集大量的视频数据制作人物模型，降低了虚拟数字人的制作成本和制作难度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一些实施例中的场景示意图；

图2为本公开实施例提供的控制装置100的配置框图；

图3为本公开实施例提供的一种服务器的结构框图；

图4为本公开实施例提供的一种服务器的配置框图；

图5为本公开实施例提供的显示设备200的硬件配置框图；

图6为本公开实施例提供的显示设备200中软件配置示意图；

图7为本公开实施例提供的一种虚拟数字人交互方法的流程示意图一；

图8为本公开实施例提供的训练神经网络的示意图；

图9为本公开实施例提供的一种虚拟数字人交互方法的流程示意图二；

图10为本公开实施例提供的一种特定场景下虚拟数字人交互方法的流程示意图三。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

目前虚拟数字人技术发展迅速，并且在人工智能技术的持续推动下，虚拟数字人技术正朝着智能化、精细化、多样化的方向发展，相关技术中，关于虚拟数字人的制作和驱动需要实现采集大量的视频数据，并通过各种软件及耗费人力制作和驱动人物模型，这样的方法制作周期长、成本过高，并且应用在具体场景时需要进行适应性调试后才能使用，也很难支持二次编辑和开发。因此，如何简单、低功耗地制作并驱动虚拟数字人进行交互是本领域亟需解决的技术问题。

为解决上述全部技术问题或部分技术问题，本公开实施例提供一种服务器、显示设备和虚拟数字人交互方法，其中该服务器包括控制器，控制器被配置为：首先接收显示设备发送的问询语音和用户图像，然后确定问询语音对应的交互语音，以实现对问询语音的答复，并且根据交互语音和用户图像生成第一动态视频，该第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，该虚拟数字人的面部表情状态和交互语音匹配，进一步的将第一动态视频发送至显示设备，以由显示设备对第一动态视频进行播放，以展示用户对应的虚拟数字人对用户输入的问询语音进行答复，虚拟数字人的面部表情状态与交互语音匹配，动态逼真，进一步提升了人机交互性能。本公开实施例通过用户图像和交互语音生成虚拟数字人，无需事先采集大量的视频数据建立用户的人物模型，操作简便，所消耗的资源较少。

图1为本公开实施例提供的一些实施例中的场景示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200，在显示设备200上播放音视频资源。

如图1所示的场景，以用户通过控制装置100操作显示设备200为例，用户按下控制装置100上的按键，唤起语音交互界面，以由显示设备200接收用户输入的问询语音，例如“明天天气怎么样”，显示设备响应于该问询语音，采集用户图像，进而将问询语音和用户图像发送给服务器400。服务器400首先根据问询语音确定其对应的交互语音，也即以语音形式对问询语音进行答复，进而根据问询语音和用户图像生成第一动态视频，第一动态视频中包括交互语音以及用户图像对应的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配，进一步的服务器400向显示设备发送第一动态视频。显示设备200接收到服务器400返回的第一动态视频进行播放时，展示出的虚拟数字人能够声情并茂地向用户介绍明天天气的详细情况。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信、蓝牙协议通信，无线或其他有线方式来控制显示设备200。用户可以通过遥控器上按键，语音输入、控制面板输入等输入用户指令，来控制显示设备200。在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备200。

在一些实施例中，智能设备300可与显示设备200安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。也可以将智能设备300上显示音视频内容传输到显示设备200上，实现同步显示功能显示设备200还与服务器400通过多种通信方式进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。显示设备200，可以液晶显示器、OLED显示器、投影显示设备。显示设备200除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能。

图2为本公开实施例提供的控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3为本公开实施例提供的一种服务器的结构框图。如图3所示，本公开实施例提供一种服务器，该服务器包括：

控制器410，被配置为：

接收显示设备发送的问询语音和用户图像；

将第一动态视频发送至显示设备。

上述服务器首先接收显示设备发送的问询语音和用户图像，进而确定该问询语音对应的交互语音，并根据这个交互语音和用户图像生成第一动态视频，该第一动态视频中包括交互语音以及基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态和交互语音匹配；进一步的将该第一动态视频返回给显示设备，以在显示设备上播放该第一动态视频，从而通过用户对应的虚拟数字人输出交互语音。本公开实施例通过用户图像和交互语音生成动态的虚拟数字人，无需预先采集大量的视频数据制作人物模型，降低了虚拟数字人的制作成本和制作难度。

一些实施例中，控制器410，根据交互语音和用户图像生成第一动态视频，被配置为：根据交互语音和用户图像，生成用户图像中人脸的关键点序列；将关键点序列和用户图像输入预先训练的神经网络，得到神经网络输出的预测图像序列；将交互语音和预测图像序列进行对齐，合成得到第一动态视频。

一些实施例中，控制器410，接收显示设备发送的问询语音和用户图像之后，确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频之前，还被配置为：根据用户图像和预设关键点序列生成第二动态视频，第二动态视频包括基于用户图像生成的虚拟数字人；将第二动态视频发送至显示设备。

一些实施例中，控制器410，根据用户图像和预设关键点序列生成第二动态视频之后，还被配置为：根据历史统计数据，确定生成第一动态视频所需的时长；根据时长，确定第二动态视频的播放次数，以及确定第二动态视频中时长对应的目标帧；

控制器410，根据交互语音和用户图像生成第一动态视频，被配置为：将目标帧作为第一动态视频的起始帧，根据交互语音和用户图像生成第一动态视频的其他帧。

一些实施例中，控制器410，根据交互语音和用户图像生成第一动态视频，被配置为：对用户图像进行识别，确定用户图像中是否包含人脸特征信息；在用户图像中包含人脸特征信息的情况下，根据交互语音和用户图像生成第一动态视频。

图4为本公开实施例提供的一种服务器的配置框图。如图4所示，服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器，还可以是云服务器。本公开实施例中提供的服务器400可以向显示设备200提供各种内容和互动。

本公开实施例提供的服务器400包括中央处理器(Central Processing Unit，CPU)401、包括随机存取存储器(Random Access Memory，RAM)402和只读存储器(Read-OnlyMemory，ROM)403的系统存储器404，以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(Input/Output，I/O)系统406，和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。

基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入/输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入/输出控制器410以用于接收和处理来自键盘、鼠标或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说，大容量存储设备407可以包括诸如硬盘或只读光盘(CompactDiscRead-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

系统存储器404和大容量存储设备407可以统称为存储器。

根据本公开的各种实施例，服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412，或者说，也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。

本公开实施例提供一种显示设备200，该显示设备200包括：

声音采集器，被配置为：接收用户输入的问询语音；

控制器250，被配置为：响应于问询语音，控制图像采集器采集用户图像；

上述显示设备，首先接收用户输入的问询语音，然后响应于该问询语音控制图像采集器采集用户图像，进而将问询语音和用户图像发送至服务器，以由服务器生成第一动态视频，该第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，该虚拟数字人的面部表情状态与交互语音匹配；进一步的，显示设备接收服务器发送的第一动态视频，并控制显示器播放第一动态视频，从而由第一动态视频中的虚拟数字人声情并茂地输出交互语音，提升显示设备的人机交互性能。

一些实施例中，控制器250，还被配置为：对问询语音进行解析，确定问询语音对应的声纹信息；查询是否存储有声纹信息对应的第二动态视频，第二动态视频中包括基于用户图像生成的虚拟数字人；在查询存储有第二动态视频的情况下，控制显示器播放第二动态视频。

图5为本公开实施例提供的显示设备200的硬件配置框图。如图5所示显示设备200包括：调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源等。

其中，控制器250包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、OLED显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。检测器230用于采集外部环境或与外部交互的信号，检测器230包括声音采集器和图像采集器，例如麦克风、摄像头。控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，上述显示设备是具有显示功能的终端设备，例如电视机、手机、电脑、学习机等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。输出接口(显示器260，和/或，音频输出接口270)，被配置为输出用户交互信息；通信器220，用于与服务器400或其它设备进行通信。

如图6所示，图6为本公开实施例提供的显示设备200中软件配置示意图，如图6所示，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

为了更加详细的说明本方案，以下将以示例性的方式结合图7进行说明，可以理解的是，图7中所涉及的步骤在实际实现时可以包括更多的步骤，或者更少的步骤，并且这些步骤之间的顺序也可以不同，以能够实现本公开实施例中提供的虚拟数字人交互方法为准。

如图7所示，图7为本公开实施例提供的一种虚拟数字人交互方法的流程示意图一，该方法应用于上述服务器400，包括如下步骤S701～S703：

S701、接收显示设备发送的问询语音和用户图像。

其中，问询语音是用户输入显示设备的语音，问询语音中包括关键字。用户图像是包括用户面部特征的图像。

在显示设备一侧，接收用户输入的问询语音，可选的，对该问询语音进行解析，得到问询语音对应的声纹信息，将该声纹信息与显示设备存储的注册声纹信息进行比对，注册声纹信息是被授权登陆显示设备的用户的声纹信息，比对结果表示该声纹信息与注册声纹信息匹配的情况下，表示当前向显示设备输入问询语音的用户是已经被授权登陆的用户，实现语音验证用户身份。注册声纹信息对应存在已经建立的虚拟数字人，表示用户并非首次请求以虚拟数字人的形式与显示设备进行语音交互。显示设备响应于问询语音，获取用户图像，然后将问询语音和用户图像发送给服务器。

一些实施例中，服务器接收显示设备发送的问询语音和用户图像，服务器根据接收到的用户图像，首先进行人脸识别，检测用户图像中是否包含人脸特征信息。若未检测到用户图像中包含人脸特征信息，则向显示设备返回提示信息，该提示信息用于提示用户图像采集失败，重新采集；若检测到用户图像中包含人脸特征信息，则执行步骤S702，以根据用户图像和问询语音对应的交互语音生成第一动态视频。

一些实施例中，服务器预先配置有预设关键点序列，预设关键点序列是基于产品需求预置的预设动作的关键点序列，例如眨眼动作对应的关键点序列，点头对应的关键点序列，喘气对应的关键点序列等。在服务器接收到显示设备发送的问询语音和用户图像之后，由于执行步骤S702需要消耗一定的时间，本公开实施例提供一种实施方式，在执行步骤S702之前，根据用户图像和预设关键点序列生成第二动态视频，第二动态视频中包括基于用户图像生成的虚拟数字人，可以理解的是，第二动态视频中的虚拟数字人能够做出眨眼、喘气、点头等预设动作。将第二动态视频发送至显示设备，以由显示设备在未接收到第一动态视频之前，先播放第二动态视频，使得显示设备尽快对问询语音做出响应，提升用户的使用体验感。

一些实施例中，在显示设备一侧，显示设备首次接收到服务器发送的第二动态视频之后，显示设备将注册声纹信息和第二动态视频对应存储，以在后续接收到用户输入的问询语音时，根据问询语音对应的注册声纹信息，查询得到对应的第二动态视频，从而及时响应于问询语音，播放第二动态视频。

S702、确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频。

其中，第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配。可以理解的是，第一动态视频播放时，画面中呈现虚拟数字人，虚拟数字人动态逼真地说出交互语音，且面部表情状态与交互语音匹配，达到声情并茂的效果。

一些实施例中，服务器基于问询语音中包括的关键字进行搜索，识别问询语音所包含的用户意图，基于问询语音搜索对应的交互语音，可参考现有语音交互技术，本公开在此不做赘述。

一些实施例中，服务器根据交互语音和用户图像生成第一动态视频的过程，本公开实施例提供一种实施方式，首先根据交互语音和用户图像，通过人脸图像化处理算法，生成用户图像中人脸的关键点序列，然后将关键点序列和用户图像输入预先训练的神经网络，得到该神经网络输出的预测图像序列，进一步的，将交互语音和预测图像序列进行对齐，合成得到第一动态视频。

其中，人脸图像化处理算法是一种基于RGB通道的图像处理算法，该算法首先根据人脸关键点检测器检测人脸图像中的面部关键点，进而针对检测到的面部关键点的数量，再结合不同的细节区域，使用不同颜色的线条对人脸图像中的面部关键点进行标识，从而得到一幅标准的RGB图像。

可选的，在根据交互语音和用户图像，生成用户图像中人脸的关键点序列的过程中，首先通过人脸图像化处理算法得到用户图像对应的标准RGB图像，以对用户图像中的面部关键点进行标识；然后，提取交互语音的音频特征，基于音频特征预测眼睛、嘴巴等面部区域对应的面部关键点的变化位置，按照交互语音中每个音频帧对应的面部关键点的变化位置，改变标准RGB图像中面部关键点的位置，从而得到每一音频帧对应的关键点图像，每个关键点图像包括语音驱动的人脸的关键点序列。

上述预先训练的神经网络的训练过程如下：

步骤1、获取样本集，样本集中包括语音样本和用户图像样本，根据语音样本和用户图像样本(imageA)生成用户图像样本中人脸的关键点序列(landmarksB)，该关键点序列的变化能够反映输出语音样本时面部表情的变化。

步骤2、基于U-net构建初始神经网络。

其中，U-net的结构包括编码器(Encoder)、z变换模块、解码器(Decoder)、判别器(Discriminator)和损失判别器(Loss)，其中编码器、z变换模块、解码器组成生成器。初始神经网络的结构与U-net的结构相同或相似。

如图8所示，图8为本公开实施例提供的训练神经网络的示意图，其中示出初始神经网络800的结构包括编码器801、z变换模块802、解码器803、判别器804和第一损失判别器805和第二损失判别器806。

步骤3、训练过程中，将基于步骤1得到的关键点序列和用户图像样本输入至初始神经网络。

关键点序列和用户图像样本首先经过编码器编码，然后由z变换模块对编码结果进行z变换，进而由解码器对z变换结果进行解码，得到预测图像(Pre_image)，以根据用户图像得到交互语音对应的预测图像，实现语音驱动。本公开通过判别器和损失判别器对生成器中各个结构的参数进行调节，用户图像样本中包括真值(gt_imageB)，由第一损失判别器计算真值和预测图像之间的损失函数值，从而在损失函数值大于预设阈值的情况下，反馈并调整生成器中各个结构的参数；也可以将预测图像和关键点序列输入判别器，判别预测图像是否接近真值，并根据第二判别器计算预测图像和关键点序列之间的损失函数值，同样在损失函数值大于预设阈值的情况下，反馈并调整生成器中各个结构的参数。

在第一损失判别器和第二损失判别器计算得到的损失函数值均小于预设阈值的情况下，确定神经网络收敛，将生成器作为预先训练的神经网络，服务器确定显示设备发送的问询语音所对应的交互语音之后，根据交互语音和用户图像生成用户图像中人脸的关键点序列，进而将该关键点序列和用户图像作为预先训练的神经网络的输入，得到该神经网络输出的预测图像序列，进一步的将交互语音与预测图像序列进行对齐，合成得到第一动态视频，使得第一动态视频中虚拟数字人能够声情并茂地输出交互语音。

一些实施例中，步骤S701中根据用户图像和预设关键点序列生成第二动态视频之后，确定第二动态视频的视频时长，进而根据历史统计数据，确定生成第一动态视频所需的时长，根据这个时长和第二动态视频的视频时长，确定第二动态视频的播放次数，以按照该播放次数循环播放第二动态视频；并且根据生成第一动态视频所需的时长，确定第二动态视频中该时长对应的目标帧，可以理解的是，在生成第一动态视频的时刻，查询这一时刻所对应的第二动态视频的目标帧，将目标帧作为第一动态视频的起始帧。显示设备根据该目标帧，能够将第二动态视频和第一动态视频进行拼接，从而实现第二动态视频和第一动态视频的无缝衔接。

示例性的，预设关键点序列是眨眼对应的关键点序列，该预设关键点序列是两秒左右的关键点序列。根据眨眼对应的关键点序列和用户图像生成的第二动态视频中，虚拟数字人动态眨眼持续两秒。若历史统计数据记录生成第一动态视频需要4秒，则在得到第一动态视频之前，需要循环播放第二动态视频两次。生成第一动态视频的时刻，也即第4秒时，确定第二动态视频第四秒时对应的目标帧，是第二次播放第二动态视频的最后一帧，将这最后一帧作为第一动态视频的起始帧，以将第一动态视频和第二动态视频进行无缝拼接，实现第二动态视频平滑过渡至第一动态视频。

S703、将第一动态视频发送至显示设备。

服务器生成第一动态视频之后发送给显示设备，以由显示设备播放第一动态视频对用户输入的问询语音进行响应，展示出虚拟数字人，该虚拟数字人的面部表情与交互语音匹配，达到声情并茂、动态逼真的效果。

综上，本公开实施例提供一种虚拟数字人交互方法，该方法首先接收显示设备发送的问询语音和用户图像，进而确定该问询语音对应的交互语音，并根据这个交互语音和用户图像生成第一动态视频，该第一动态视频中包括交互语音以及基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态和交互语音匹配；进一步的将该第一动态视频返回给显示设备，以在显示设备上播放该第一动态视频，从而通过用户对应的虚拟数字人输出交互语音。本公开实施例通过用户图像和交互语音生成动态的虚拟数字人，无需预先采集大量的视频数据制作人物模型，降低了虚拟数字人的制作成本和制作难度。

如图9所示，图9为本公开实施例提供的一种虚拟数字人交互方法的流程示意图二，该方法应用于显示设备，该方法包括如下步骤S901～S904：

S901、接收用户输入的问询语音。

一些实施例中，显示设备在接收到用户输入的问询语音之后，对该问询语音进行解析，以得到问询语音对应的声纹信息，并将该声纹信息与存储的注册声纹信息进行比对，其中，注册声纹信息是被授权登陆显示设备的用户的声纹信息。比对之后若该声纹信息与注册声纹信息匹配的情况下，表示用户已被授权登陆该显示设备，可查询到显示设备存储有第二动态视频，实现语音验证用户身份，提升虚拟数字人交互的安全性。

一些实施例中，显示设备将注册声纹信息和第二动态视频对应存储，第二动态视频中包括被授权登陆显示设备的用户所对应的虚拟数字人，播放第二动态视频时虚拟数字人可动态展示预设动作，例如眨眼动作、点头动作、喘气动作等。在确定用户已被授权登陆该显示设备的情况下，查询对应的第二动态视频，并进行播放，以由虚拟数字人动态展示预设动作，从而及时响应于用户输入的问询语音进行虚拟数字人交互。

S902、响应于问询语音，控制图像采集器采集用户图像。

一些实施例中，显示设备响应于问询语音，控制图像采集器采集用户图像。图像采集器可以是显示设备内置的摄像头，也可以是显示设备外接的摄像头，本公开对此并不加以限制。

一些实施例中，显示设备接收用户输入的问询语音之后，针对解析问询语音所得到声纹信息，与存储的注册声纹信息进行比对，确定该声纹信息与注册信息不匹配的情况下，表示用户是首次请求以虚拟数字人的形式进行语音交互，可选的生成第二动态视频的获取请求，并向服务器发送用户图像和该获取请求，以由服务器根据预设关键点序列和用户图像生成第二动态视频。在显示设备接收到服务器返回的第二动态视频之后，将第二动态视频和声纹信息对应存储，以在后续该用户发起虚拟数字人交互时，显示设备能够及时响应，播放用户的第二动态视频，由用户的虚拟数字人动态地展示预设动作，提升虚拟数字人交互的效率，进而提升了用户的使用体验感。

一些实施例中，在控制图像采集器采集用户图像时，针对采集到的图像进行人脸识别，检测图像中是否包括人脸特征信息，在检测到图像中包括人脸特征信息的情况下，确定采集到用户图像；在检测到图像中不存在人脸特征信息的情况下，生成提示信息并显示，以提示重新调整位置进行用户图像的采集。通过人脸识别对图像采集器采集到的用户图像进行质检，保留包括人脸特征的用户图像，以便于服务器根据该用户图像生成用户的虚拟数字人，提升虚拟数字人交互的准确性。

S903、将问询语音和用户图像发送至服务器，以由服务器生成第一动态视频。

其中，第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，虚拟数字人的面部表情状态与交互语音匹配。

一些实施例中，显示设备根据历史统计数据，确定服务器生成第一动态视频所需的时长，进而根据第二动态视频的时长和生成第一动态视频所需的时长，确定第二动态视频的播放次数，从而在显示设备接收到第一动态视频之前，循环播放第二动态视频，避免虚拟数字人交互出现中断。

S904、接收服务器发送的第一动态视频，并控制显示器播放第一动态视频。

一些实施例中，接收服务器发送的第一动态视频，该第一动态视频的起始帧是第二动态视频的目标帧，其中目标帧是服务器生成第一动态视频时对应的第二动态视频中的一帧，从而控制显示器播放第一动态视频，实现从播放第二动态视频平滑过渡至播放第一动态视频。

综上，本公开实施例提供的一种虚拟数字人交互方法，应用于显示设备，该方法首先接收用户输入的问询语音，然后响应于该问询语音控制图像采集器采集用户图像，进而将问询语音和用户图像发送至服务器，以由服务器生成第一动态视频，该第一动态视频中包括交互语音和基于用户图像生成的虚拟数字人，该虚拟数字人的面部表情状态与交互语音匹配；进一步的，显示设备接收服务器发送的第一动态视频，并控制显示器播放第一动态视频，从而由第一动态视频中的虚拟数字人声情并茂地输出交互语音，提升显示设备的人机交互性能。

如图10所示，图10为本公开实施例提供的一种特定场景下虚拟数字人交互方法的流程示意图三。在一种特定场景下，用户首次向显示设备发起以虚拟数字人的形式进行语音交互，该方法包括如下步骤S1001～S1006：

S1001、显示设备接收用户输入的问询语音。

S1002、显示设备响应于问询语音，控制图像采集器采集用户图像。

S1003、显示设备将问询语音和用户图像发送至服务器。

S1004、服务器根据用户图像和预设关键点序列，生成第二动态视频，并将第二动态视频发送至显示设备。

服务器在接收到显示设备发送的问询语音和用户图像之后，根据用户图像和预设关键点序列，生成第二动态视频，第二动态视频中包括虚拟数字人，该虚拟数字人能够展示预设关键点序列对应的预设动作，例如眨眼、点头、喘气等。

S1005、服务器确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频，并将第一动态视频发送至显示设备。

第一动态视频中包括用户图像对应的虚拟数字人和交互语音，虚拟数字人的面部表情与交互语音匹配。

一些实施例中，服务器根据历史统计数据确定生成第一动态视频所需的时长，并根据该时长确定第二动态视频的播放次数，以及确定第二动态视频中该时长对应的目标帧，可以理解的是，第一动态视频未完全生成之前，需要显示设备持续播放第二动态视频，而第二动态视频的时长是根据预设关键点序列的长度确定的，通常情况下设置为两秒，期望显示设备在第一动态视频未完全生成之前循环播放第二动态视频。确定生成第一动态视频的时刻，第二动态视频循环播放到的目标帧，将目标帧作为第一动态视频的起始帧，而根据交互语音和用户图像生成第一动态视频的其他帧。从而使得显示设备能够从播放第二动态视频平滑地切换至播放第一动态视频，减小虚拟数字人语音交互的不连贯性，提升用户的使用体验感。

S1006、显示设备播放第二动态视频，在接收到第一动态视频之后，衔接播放第一动态视频。

一些实施例中，显示设备在未接收到第一动态视频之前，按照播放次数循环播放第二动态视频。在接收到第一动态视频之后，第二动态视频的起始帧能够衔接第二动态视频的目标帧，实现第二动态视频和第一动态视频之间的平滑过渡。

上述步骤可在用户首次发起与显示设备以虚拟数字人形式进行语音交互的场景中，在这个过程中，本公开实施例将第二动态视频进行存储，以便于用户下次发起虚拟数字人交互时显示设备能够快速响应。此后，显示设备可以根据不同的问询语音，生成面部表情逼真且匹配于交互语音的虚拟数字人，以由该虚拟数字人声情并茂地输出交互语音与用户进行交互。为实现虚拟数字人交互的连贯性，本公开实施例将第二动态视频和第一动态视频进行无缝拼接，提升了虚拟数字人交互的用户体验感。

上述步骤的具体实施方式可参考步骤S701～703和步骤S901～S904的具体实施方式，为避免重复本公开在此不做赘述。

综上，本公开实施例提供一种虚拟数字人交互方法，应用于用户首次发起以虚拟数字人的形式进行语音交互的场景中，该方法首先由显示设备接收用户输入的问询语音，显示设备响应于该问询语音控制图像采集器采集用户图像，进而将问询语音和用户图像发送至服务器；服务器根据用户图像和预设关键点序列生成第二动态视频，并将第二动态视频发送至显示设备，服务器还确定问询语音对应的交互语音，并根据交互语音和用户图像生成第一动态视频；显示设备接收到第二动态视频进行播放，在接收到第一动态视频之后，停止对第二动态视频的播放，衔接第一动态视频进行播放，其中第二动态视频包括虚拟数字人，是在通过虚拟数字人语音响应问询语音之前的用于缓冲的动态视频，播放第二动态视频以由虚拟数字人展示预设动作；在显示设备接收到第一动态视频之后，由播放第二动态视频平滑切换至播放第一动态视频，展示虚拟数字人声情并茂地输出交互语音，对用户的问询语音进行答复，提升人机交互性能。

本公开实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述虚拟数字人交互方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，该计算机可读存储介质可以为只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本公开提供一种计算机程序产品，该计算机程序产品中包括计算机程序，当该计算机程序在计算机上运行时，使得所述计算机实现上述的虚拟数字人交互方法。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种服务器，其特征在于，包括：

确定所述问询语音对应的交互语音，并根据所述交互语音和所述用户图像生成第一动态视频，所述第一动态视频中包括所述交互语音和基于所述用户图像生成的虚拟数字人，所述虚拟数字人的面部表情状态与所述交互语音匹配；

将所述第一动态视频发送至所述显示设备。

2.根据权利要求1所述的服务器，其特征在于，所述控制器，根据所述交互语音和所述用户图像生成第一动态视频，被配置为：

根据所述交互语音和所述用户图像，生成所述用户图像中人脸的关键点序列；

将所述关键点序列和所述用户图像输入预先训练的神经网络，得到所述神经网络输出的预测图像序列；

将所述交互语音和所述预测图像序列进行对齐，合成得到所述第一动态视频。

3.根据权利要求1所述的服务器，其特征在于，所述控制器，接收显示设备发送的问询语音和用户图像之后，所述确定所述问询语音对应的交互语音，并根据所述交互语音和所述用户图像生成第一动态视频之前，还被配置为：

根据所述用户图像和预设关键点序列生成第二动态视频，所述第二动态视频包括基于所述用户图像生成的虚拟数字人；

将所述第二动态视频发送至所述显示设备。

4.根据权利要求3所述的服务器，其特征在于，所述控制器，根据所述用户图像和预设关键点序列生成第二动态视频之后，还被配置为：

根据历史统计数据，确定生成所述第一动态视频所需的时长；

根据所述时长，确定所述第二动态视频的播放次数，以及确定所述第二动态视频中所述时长对应的目标帧；

所述控制器，根据所述交互语音和所述用户图像生成第一动态视频，被配置为：

将所述目标帧作为第一动态视频的起始帧，根据所述交互语音和所述用户图像生成第一动态视频的其他帧。

5.根据权利要求1所述的服务器，其特征在于，所述控制器，根据所述交互语音和所述用户图像生成第一动态视频，被配置为：

对所述用户图像进行识别，确定所述用户图像中是否包含人脸特征信息；

在所述用户图像中包含所述人脸特征信息的情况下，根据所述交互语音和所述用户图像生成所述第一动态视频。

6.一种显示设备，其特征在于，包括：

声音采集器，被配置为：接收用户输入的问询语音；

控制器，被配置为：响应于所述问询语音，控制图像采集器采集用户图像；

将所述问询语音和所述用户图像发送至服务器，以由所述服务器生成第一动态视频，所述第一动态视频中包括所述交互语音和基于所述用户图像生成的虚拟数字人，所述虚拟数字人的面部表情状态与所述交互语音匹配；

接收所述服务器发送的所述第一动态视频，并控制显示器播放所述第一动态视频。

7.根据权利要求6所述的显示设备，其特征在于，所述控制器，还被配置为：

对所述问询语音进行解析，确定所述问询语音对应的声纹信息；

查询是否存储有所述声纹信息对应的第二动态视频，所述第二动态视频中包括基于所述用户图像生成的虚拟数字人；

在查询存储有所述第二动态视频的情况下，控制显示器播放所述第二动态视频。

8.一种虚拟数字人交互方法，其特征在于，包括：

接收显示设备发送的问询语音和用户图像；

将所述第一动态视频发送至所述显示设备。

9.一种虚拟数字人交互方法，其特征在于，包括：

接收用户输入的问询语音；

响应于所述问询语音，控制图像采集器采集用户图像；

10.一种计算机可读存储介质，其特征在于，包括：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求8或权利要求9所述的虚拟数字人交互方法。