CN117809677A

CN117809677A - 一种服务器、显示设备及数字人交互方法

Info

Publication number: CN117809677A
Application number: CN202311256230.XA
Authority: CN
Inventors: 王娜; 付爱国; 刘蔚
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-04-02

Abstract

本申请一些实施例示出一种服务器、显示设备及数字人交互方法，所述方法包括：接收显示设备发送用户输入的语音数据；识别所述语音数据，得到识别结果；如果所述识别结果中包括实体数据，获取所述识别结果对应的媒资数据，以及所述实体数据对应的数字人数据，所述实体数据包括人物名称和/或媒资名称；将所述数字人数据及所述媒资数据发送至所述显示设备，播放音视频数据或显示界面数据，以及根据数字人数据播放数字人的图像及语音。本申请实施例通过识别出显示设备上传的语音数据中包括实体数据，将实体数据对应的数字人数据下发至显示设备，结合语义理解进行相应场景展示，提升语音交互的趣味性体验。

Description

一种服务器、显示设备及数字人交互方法

技术领域

本申请涉及数字人交互技术领域，尤其涉及一种服务器、显示设备及数字人交互方法。

背景技术

随着人工智能技术的不断发展，数字人已经成为了一种备受关注的技术。数字人是指由计算机程序和算法生成的虚拟人物，可以模拟人类的语言、行为、情感等特征，具有高度的智能化和交互性。目前，数字人技术主要应用于游戏、教育、医疗、金融等领域。

数字人应用场景较为单一，主要局限于单一场景，如虚拟主播新闻播报、教育视频讲师等。数字人形象展示也较为单一，仅替换传统意义的语音助手形象，由用户选用可供选择的数字人形象。

发明内容

本申请一些实施例提供了一种服务器、显示设备及数字人交互方法，通过识别出显示设备上传的语音数据中包括实体数据，将实体数据对应的数字人数据下发至显示设备，结合语义理解进行相应场景展示，提升语音交互的趣味性体验。

第一方面，本申请一些实施例中提供一种服务器，被配置为：

接收显示设备发送用户输入的语音数据；

识别所述语音数据，得到识别结果；

如果所述识别结果中包括实体数据，获取所述识别结果对应的媒资数据，以及所述实体数据对应的数字人数据，所述实体数据包括人物名称和/或媒资名称，所述数字人数据包括数字人的图像数据和播报语音，所述媒资数据包括音视频数据或界面数据；

将所述数字人数据及所述媒资数据发送至所述显示设备，以使所述显示设备播放所述音视频数据或显示所述界面数据，以及根据所述数字人数据播放数字人的图像及语音。

在一些实施例中，在接收显示设备发送用户输入的语音数据之前，所述服务器，被配置为：

生成至少一个人物名称对应的绘画模型；

生成至少一个媒资名称对应的动作模型；

生成至少一个人物名称对应的基于音调和韵律的语音合成模型；

构建和训练条件对抗网络；

将所述绘画模型、所述动作模型和所述语音合成模型输入至训练好的所述条件对抗网络中，得到待存储数字人数据；

对所述待存储数字人数据进行特征标注并存储至服务器。

在一些实施例中，所述服务器执行生成至少一个人物名称对应的绘画模型，被进一步配置为：

获取预设数量所述人物名称对应的图片；

将所述图片输入文生图模型，得到所述人物名称对应绘画模型。

在一些实施例中，所述服务器执行生成至少一个媒资名称对应的动作模型，被进一步配置为：

获取预设数量的样本视频数据，并对所述样本视频数据进行预处理和标注；

利用标注后的样本视频数据对所述动作生成模型进行训练；

将媒资名称对应的视频数据输入训练好的动作生成模型，生成所述媒资名称对应的动作模型。

在一些实施例中，所述服务器执行生成至少一个人物名称对应的基于音调和韵律的语音合成模型，被进一步配置为：

获取预设数量的样本音频数据，并对所述样本音频数据进行预处理和标注，样本音频数据包括人物名称对应的音频数据及媒资名称对应的音频数据；

利用标注后的样本音频数据对所述语音合成模型进行训练，得到人物名称对应的基于音调和韵律的语音合成模型。

在一些实施例中，所述服务器执行对所述待存储数字人数据进行特征标注并存储至服务器，被进一步配置为：

对待存储数字人数据的人物信息、媒资名称和热度进行标注，所述人物信息包括人物名称，所述热度为训练数据的数量；

获取第一热度和第二热度，所述第一热度为已存储的数字人数据中所述人物名称对应的最高热度，所述第二热度为已存储的数字人数据中所述媒资名称对应的最高热度；

如果待存储数字人数据的热度不小于第一热度或第二热度，将标注后的待存储数字人数据存储至服务器。

在一些实施例中，所述服务器执行如果所述识别结果中包括实体数据，获取所述实体数据对应的数字人数据，被进一步配置为：

如果所述识别结果中包括人物名称或者媒资名称，则获取已存储数字人数据中特征标注为所述人物名称或者所述媒资名称对应的数字人数据。

如果所述识别结果中包括人物名称和媒资名称，且所述人物名称和所述媒资名称在已存储数字人数据特征标注不匹配，将所述媒资名称对应的绘画模型替换为所述人物名称对应的绘画模型，以及将所述媒资名称对应的语音数据替换为所述人物名称对应的语音数据，生成替换数字人数据；

确定所述替换数字人数据为所述人物名称和所述媒资名称对应的数字人数据。

第二方面，本申请一些实施例中提供一种显示设备，包括：

显示器，被配置为显示用户界面；

通信器，被配置为与服务器进行数据通信；

控制器，被配置为：

接收用户输入的语音数据；

将所述语音数据通过所述通信器发送至服务器；

接收所述服务器基于所述语音数据下发的数字人数据；

根据所述数字人数据播放所述数字人的图像及语音。

第三方面，本申请一些实施例中提供一种数字人交互方法，包括：

接收显示设备发送用户输入的语音数据；

识别所述语音数据，得到识别结果；

本申请的一些实施例提供一种服务器、显示设备及数字人交互方法。接收显示设备发送用户输入的语音数据；识别语音数据，得到识别结果；获取识别结果对应的媒资数据；如果识别结果中包括实体数据，获取实体数据对应的数字人数据，其中，实体数据包括人物名称和/或媒资名称，数字人数据包括数字人的图像数据和播报语音，媒资数据包括音视频数据或界面数据；将数字人数据及媒资数据发送至显示设备，以使显示设备播放音视频数据或显示界面数据，以及根据数字人数据播放数字人的图像及语音。本申请实施例通过识别出显示设备上传的语音数据中包括实体数据，将实体数据对应的数字人数据下发至显示设备，结合语义理解进行相应场景展示，提升语音交互的趣味性体验。

附图说明

图1示出了根据一些实施例的显示设备与控制装置之间操作场景；

图2示出了根据一些实施例的控制设备的硬件配置框图；

图3示出了根据一些实施例的显示设备的硬件配置框图；

图4A示出了根据一些实施例的显示设备中一种软件配置图；

图4B示出了根据一些实施例的显示设备中另一种软件配置图；

图5示出了根据一些实施例提供的一种数字人交互的流程图；

图6示出了根据一些实施例提供的一种数字人入口界面的示意图；

图7示出了根据一些实施例提供的一种数字人选择界面的示意图；

图8示出了根据一些实施例提供的一种显示数字人界面的流程图；

图9示出了根据一些实施例提供的一种添加数字人界面的流程图；

图10示出了根据一些实施例提供的一种视频录制准备界面的示意图；

图11示出了根据一些实施例提供的一种音色设置界面的示意图；

图12示出了根据一些实施例提供的一种音频录制准备界面的示意图；

图13示出了根据一些实施例提供的一种数字人命名界面的示意图；

图14示出了根据一些实施例提供的另一种数字人选择界面的示意图；

图15示出了根据一些实施例提供的一种数字人定制的流程图；

图16示出了根据一些实施例提供的第一种数字人交互的流程图；

图17示出了根据一些实施例提供的一种直播数据推流过程的示意图；

图18示出了根据一些实施例提供的一种用户界面的示意图；

图19示出了根据一些实施例提供的另一种数字人交互时序图；

图20示出了根据一些实施例提供的第二种数字人交互的流程图；

图21示出了根据一些实施例提供的一种数字人形象模型生成的流程图；

图22示出了根据一些实施例提供的第一种数字人数据播放界面的示意图；

图23示出了根据一些实施例提供的第三种数字人交互的流程图；

图24示出了根据一些实施例提供的第二种数字人数据播放界面的示意图；

图25示出了根据一些实施例提供的第三种数字人数据播放界面的示意图；

图26示出了根据一些实施例提供的第四种数字人数据播放界面的示意图；

图27示出了根据一些实施例提供的第五种数字人数据播放界面的示意图；

图28示出了根据一些实施例提供的一种服务器执行语音交互的流程图；

图29示出了根据一些实施例提供的一种情感语音模型的示意图；

图30示出了根据一些实施例提供的一种获取情感类型和情感强度的流程图；

图31示出了根据一些实施例提供的另一种情感语音模型的示意图；

图32示出了根据一些实施例提供的第四种数字人交互的流程图；

图33示出了根据一些实施例提供的一种个人中心界面的示意图；

图34示出了根据一些实施例提供的一种家庭关系的示意图；

图35示出了根据一些实施例提供的一种声纹识别的流程图；

图36示出了根据一些实施例提供的第六种数字人数据播放界面的示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，可以是电视、智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)等。图1和图2为本申请的显示设备的一种具体实施方式。

图1为根据实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过终端300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用终端300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在终端300上运行的应用程序控制显示设备200。

在一些实施例中，显示设备可以不使用上述的终端300或控制装置100接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和终端300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

如图3，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

显示器260还包括触控屏，触控屏用于接收用户手指在触控屏上滑动或点击等动作输入控制指令。

通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部控制设备100或服务器400建立控制信号和数据信号的发送和接收。

用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM(Random AccessMemory，RAM)，ROM(Read-Only Memory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。

“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

在一些实施例中，如图4A所示，将显示设备的系统分为三层，从上至下分别为应用层、中间件层和硬件层。

应用层主要包含电视上的常用应用，以及应用框架(Application Framework)，其中，常用应用主要是基于浏览器Browser开发的应用，例如：HTML5 APPs；以及原生应用(Native APPs)；

应用框架(Application Framework)是一个完整的程序模型，具备标准应用软件所需的一切基本功能，例如：文件存取、资料交换...，以及这些功能的使用接口(工具栏、状态列、菜单、对话框)。

原生应用(Native APPs)可以支持在线或离线，消息推送或本地资源访问。

中间件层包括各种电视协议、多媒体协议以及系统组件等中间件。中间件可以使用系统软件所提供的基础服务(功能)，衔接网络上应用系统的各个部分或不同的应用，能够达到资源共享、功能共享的目的。

硬件层主要包括HAL接口、硬件以及驱动，其中，HAL接口为所有电视芯片对接的统一接口，具体逻辑由各个芯片来实现。驱动主要包含：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

参见图4B，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

框架层为应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4B所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的括图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4B所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

本申请实施例提供一种数字人交互方法，如图5所示。

步骤S501：终端300通过服务器400与显示设备200建立关联关系；

在一些实施例中，服务器400分别建立与显示设备200和终端300的连接关系，以使显示设备200与终端300建立关联关系。

其中，服务器400建立与显示设备200连接关系的步骤，包括：

服务器400与显示设备200建立长连接；

其中，服务器400与显示设备200建立长连接的目的在于服务器400可以实时推送数字人定制的状态等至显示设备200。

长连接指在一个连接上可以连续发送多个数据包，在连接保持期间，如果没有数据包发送，需要双方发链路检测包。长连接只需要建立一次连接就可以进行多次通信，从而节省网络开销；长连接只需要进行一次握手和认证就可以保持通信状态，从而提高通信效率；长连接可以实现双向的数据传输，让服务器主动向显示设备发送数字人定制数据，从而实现实时通信效果。

在一些实施例中，服务器400在接收到显示设备200开机消息后，与显示设备200建立长连接。

在一些实施例中，服务器400在接收到显示设备200启用语音数字人服务的消息后，与显示设备200建立长连接。

在一些实施例中，服务器400在接收到显示设备200发送添加数字人指令后，与显示设备200建立长连接。

服务器400接收显示设备200发送的请求数据，其中，所述请求数据包括显示设备200的设备标识。

服务器400在接收到请求数据后，判断数据库中是否存在设备标识对应的识别码，其中，识别码用于表征显示设备200的设备信息，识别码可以是数个随机的数字或字母，也可以是条形码，还可以是二维码。

如果数据库中存在设备标识对应的识别码，则将识别码发送至显示设备200，以使显示设备200在添加数字人界面上显示识别码。

如果数据库中不存在设备标识对应的识别码，则创建设备标识对应的识别码，将设备标识和识别码对应保存到数据库中，以及将识别码发送至显示设备200，以使显示设备200在添加数字人界面上显示识别码。

为了明确服务器400与显示设备200建立连接的交互过程，公开以下实施例：

显示设备200在接收到用户输入的打开数字人入口界面的指令后，控制显示器260显示数字人入口界面，其中，数字人入口界面包括语音数字人控件；

示例性的，如图6所示，数字人入口界面包括语音数字人控件61、自然对话控件62、免唤醒词控制控件63和焦点64。

需要说明的是，控件是指在显示设备200中用户界面的各展示区中显示以表示诸如图标、缩略图、视频剪辑、链接等对应内容的视觉对象，这些控件可以为用户提供通过数据广播接收的各种传统节目内容、以及由内容制造商设置的各种应用和服务内容。

控件的展示形式通常多样化。例如，控件可以包括文本内容和/或用于显示与文本内容相关的缩略图的图像，或与文本相关的视频剪辑。又如，控件可以是应用程序的文本和/或图标。

焦点用于指示其中任一控件已被选择。一方面，可根据用户通过控制装置100的输入，控制显示设备200中显示焦点对象的移动来选择或控制控件。如：用户可通过控制装置100上方向键控制焦点对象在控件之间的移动来选择和控制控件。另一方面，可根据用户通过控制装置100的输入，控制显示设备200中显示的各控件的移动来使得焦点对象选择或控制控件。如：用户可通过控制装置100上方向键控制各控件一并进行左右移动，以在保持焦点对象的位置不变时使得焦点对象选择和控制控件。

焦点的标识形式通常多样化。示例的，可通过放大项目来实现或标识焦点对象的位置，还通过设置项目背景色来实现或标识焦点对象的位置，也可以通过改变聚焦项目的文本或图像的边框线、尺寸、颜色、透明度和轮廓和/或字体等标识焦点对象的位置。

显示设备200在接收到用户输入选中语音数字人控件的指令后，控制显示器260显示数字人选择界面，其中，数字人选择界面包括至少一个数字人控件和添加控件，数字人控件以数字人形象及数字人形象对应的名称展示，添加控件用于添加新的数字人形象、音色及名称。

示例性的，在图6中，显示设备200在接收到用户输入选中语音数字人控件61的指令后，显示设备200显示数字人选择界面。如图7所示，数字人选择界面包括默认形象控件71、丁丁控件72、瓶子控件73、添加控件74及焦点75。用户可通过移动焦点75的位置选择想要的数字人作为响应语音指令的数字人。

在一些实施例中，显示设备200显示数字人界面的流程如图8所示。显示设备200的数字人应用在接收到用户输入打开数字人入口界面(主页)的指令后，数字人应用向语音专区请求数据，语音专区从运营端获取主页配置信息(主页数据)，语音专区将主页数据发送至数字人应用，以使数字人应用控制显示器260显示数字人主页。数字人应用可以直接发送数字人账号请求，语音专区在接收到虚拟数字人账号请求后从运营端获取预设数据，例如默认数字人账号信息，同时向服务器400的算法服务获取云存储的数字人账号数据，如果有默认补充参数，则将预设数据、云存储的数字人账号数据及补充参数一同发给数字人应用，以使数字人应用在接收显示数字人选择界面的指令后控制显示器260显示数字人选择界面。显示数字人主页后，数字人应用也可以在接收到用户输入显示数字人选择界面的指令后，发送虚拟数字人账号请求，并在接收到预设数据、云存储的数字人账号数据及补充参数后，直接显示数字人选择界面。

其中，语音专区面向服务器400，基于运营支撑平台，实现后台默认数据项与配置项的运营可配置管理，完成显示设备200所需数据的协议下发。语音专区串联显示设备200与服务器400的算法服务交互，通过获取显示设备200上报数据参数，完成指令解析，并完成算法后台交互转接，解析并下发后台存储数据，最终实现全链路的数据对接过程。

在接收到用户输入选中添加控件的指令后，显示设备200发送的携带有显示设备200的设备标识的请求数据至服务器400的定制中控服务。

定制中控服务调用目标应用程序接口，以判断数据库中存在设备标识对应的识别码，如果数据库中存在设备标识对应的识别码，则将识别码发送至显示设备200。如果数据库中不存在设备标识对应的识别码，则创建识别码并将识别码发送至显示设备200。其中，目标应用程序是指具有识别码识别功能的应用程序。

显示设备200接收服务器400下发的识别码，并在添加数字人界面上显示。

示例性的，在图7中，在接收到用户输入选中添加控件74的指令，显示设备200显示添加数字人界面。如图9所示，添加数字人界面包括二维码91。

其中，服务器400建立与终端300连接关系的步骤，包括：

服务器400接收终端300上传的识别码；

判断是否存在与识别码对应的显示设备200；

如果存在与识别码对应的显示设备200，则建立终端300与显示设备200的关联关系，以将终端300上传的数据通过服务器400处理后发送至显示设备200。

为了明确服务器400与终端300建立连接的交互过程，公开以下实施例：

终端300在接收到用户输入打开目标应用程序的指令后，启动目标应用程序并显示目标应用程序对应的主页界面。其中，主页界面包括扫一扫控件。

终端300在接收到用户输入选中扫一扫控件的指令后，显示扫码界面。

终端300在扫描到显示设备200显示的识别码，例如二维码后，将识别码上传到服务器400。其中，用户可将终端300的摄像头对准显示设备200上添加数字人界面显示的识别码。

如果识别码的形式是数字或字母，主页界面包括识别码控件，在接收到用户输入选中识别码控件的指令后，显示识别码输入界面，将显示设备200显示的数字或字母输入到识别码输入界面，以将识别码上传到服务器400。

服务器400判断是否存在与识别码对应的显示设备；如果存在与识别码对应的显示设备200，则建立终端300与显示设备200的关联关系，以将终端300上传的数据通过服务器400处理后发送至显示设备200。如果不存在与识别码对应的显示设备200，将识别失败的消息发送至终端300，以使终端300显示报错消息。

服务器400在确定存在与识别码对应的显示设备200，将识别成功的消息发送至终端300。终端300显示启动页面，其中，启动页面开始进入数字人定制流程。

在一些实施例中，启动页面包括数字人形象选择界面。数字人形象选择界面包括至少一个默认形象控件和自定义形象控件。在接收到用户输入选择自定义形象控件的指令后，终端300显示视频录制准备界面，视频录制准备界面包括录制控件。示例性的，如图10所示，视频录制准备界面包括视频录制注意事项101和开始录制控件102。

在一些实施例中，启动页面也可以是视频录制准备界面。

在一些实施例中，终端300通过服务器400与显示设备200建立关联关系的步骤，包括：

服务器400接收终端300上传的用户账号和密码并在验证用户账号和密码正确后，发送登录成功的消息，以使终端300可以获取到该用户账号对应的数据。

服务器400接收显示设备200上传的用户账号和密码，在验证用户账号和密码正确后，发送登录成功的消息，以使显示设备200可以获取该用户账号对应的数据。其中，终端300与显示设备200登录用户账号相同。终端300与显示设备200通过登录相同用户账号建立关联关系，以使终端300更新的数据可以同步到显示设备200上。例如：在终端300定制的数字人相关数据可同步至显示设备200上。步骤S502：终端300将图像数据和音频数据上传至服务器400；

其中，图像数据包括用户拍摄的视频或图片，用户在相册中选择的视频或图片以及在网址中下载的视频或图片。

在一些实施例中，终端300将接收到用户拍摄视频或图片上传至服务器400。

示例性的，在图10中，在接收到用户输入选择开始录制控件102的指令后，采用终端300媒体组件video录制视频。为了避免由于人脸检测不合格而多次录制，录制界面显示人脸的建议位置，终端300可对人脸位置做初步检测。在结束录制后可反复预览录制视频。在接收用户输入确认上传的指令后，将用户录制视频发送至服务器400。

在一些实施例中，终端300可以将拍摄的用户照片发送至服务器。

在一些实施例中，终端300可以从相册中选择一个用户照片或用户视频，将用户照片或用户视频上传至服务器400。

服务器400接收终端上传的图像数据；

检测图像数据中人脸点位是否合格；

定制中控服务在接收到终端上传的图像数据后，调用算法服务校验人脸点位。

如果检测到图像数据中人脸点位合格，则发送图像检测合格消息至终端300；

如果检测到图像数据中人脸点位不合格，则发送图像检测不合格消息至终端，以使终端300提示用户重新上传。

其中，人脸点位检测可以是利用算法检测人脸的关键点是否都在规定区域内等。

终端300在接收到图像检测合格消息后，显示在线特效页面。

在在线特效页面中，用户可以采用原视频或原照片上传至服务器400，即以原视频或原照片作为数字人头像，也可以选择喜欢的特效风格，拖动或点击特效强度，采用特效后视频或照片上传至服务器400，即以特效后视频或照片作为数字人头像。在制作特效过程中可触摸特效图右下角随时比较与原图的差异。在特效制作中采用图片预加载，监听图片资源加载进度，设置图片层级关系。

在图像数据通过人脸点位校验并成功上传至服务器400后，终端300显示音色设置界面。其中，音色设置界面包括至少一个预置推荐音色控件和自定义音色控件；

终端300接收用户输入选择预置推荐音色控件的指令，将预置推荐音色对应的标识发送至服务器400，并显示数字人命名界面。

在一些实施例中，终端300在接收用户输入选择自定义音色控件的指令后，显示音频录制选择界面，音频录制选择界面包括成人控件和儿童控件。

示例性的，如图11所示，音色设置界面包括小婉控件111、小升控件112和自定义音色控件113。接收用户输入选择自定义音色控件113的指令，显示音频录制准备界面，如图12所示。音频录制选择界面包括录音注意事项121、成人控件122和儿童控件123。在接收到用户输入选择成人控件122或儿童控件123后进入各自对应的流程。接收用户输入选择小婉控件111的指令，显示数字人命名界面，如图13所示。

终端300在接收到用户输入选择成人控件的指令后，显示环境音检测界面。

终端300采集预设时长的环境音，并将用户录制环境录制音发送至服务器400。

服务器400接收终端300上传的环境录制音；

检测环境录制音是否合格；

定制中控服务在接收终端300上传的环境录制音后，调用算法服务检测环境录制音是否合格。

检测环境录制音是否合格的步骤，包括：

获取环境录制音的噪音值；

判断噪音值是否超过预设阈值；

如果噪音值超过预设阈值，则确定环境录制音不合格；

如果噪音值不超过预设阈值，则确定环境录制音合格。

如果检测到环境录制音合格，则发送环境音合格消息及录制音频所需要的目标文本至终端300；

如果检测到环境录制音不合格，则发送环境音不合格消息至终端300，以使终端300提示用户选个安静的空间重新录制。

终端300在接收到环境音合格消息和录制音频所需要的目标文本后，显示目标文本，其中，目标文本可以选取体现用户音色特点的文本。

终端300接收用户读取目标文本的音频，并将音频发送至服务器400。终端300可在接收到预设时长的音频数据就发送至服务器400，以使服务器400可以将识别结果发送回终端300，以达到实时识别在读文字的效果。

服务器400接收用户读取目标文本的音频；

识别音频对应的用户文本；

根据目标文本与用户文本计算合格率；

根据目标文本与用户文本计算合格率的步骤，包括：

比较目标文本与用户文本，得到用户文本中正确文字的字数；

确定合格率为正确文字的字数与目标文本中字数的比值。

判断合格率是否小于预设值；

如果合格率小于预设值，则发送语音上传失败消息至终端300，以使终端300提示用户重新录制读取目标文本的音频；

在一些实施例中，实时识别在读文字时，比较目标文本与用户文本以确定错误、多读和漏读文本，将错误、多读和漏读文本标注出来发送至终端300，以使终端300将错误、多读和漏读文本以不同颜色或字体显示出来。

如果合格率不小于预设值，则发送语音上传成功消息至终端300，以使终端300显示下一条目标文本或语音录制完成信息。

在跟读预设数量的目标文本并合格后，音频采集流程结束，终端300显示数字人命名界面。

服务器400接收预设数量目标文本对应的音频数据。

终端300在接收到用户输入选择儿童控件的指令后，同样显示环境音检测界面，环境音检测步骤与选择成人控件时相同。

如果检测到用户录制环境音合格，则发送环境音合格消息及录制音频所需要的领读音频至终端300。

终端300可自动播放领读音频，可反复试听。在接收到用户按压录音键的指令时，开始录制用户跟读的音频，将音频发送至服务器400。

服务器400接收用户跟读的音频；

识别音频对应的用户文本；

根据领读音频对应的目标文本与跟读音频对应的用户文本计算合格率；

判断合格率是否小于预设值；

如果合格率小于预设值，则发送语音上传失败消息至终端300，以使终端300提示用户重新录制读取领读音频对应的音频；实时识别在读文字时，比较目标文本与用户文本以确定错误、多读和漏读文本，将错误、多读和漏读文本标注出来发送至终端300，以使终端300将错误、多读和漏读文本以不同颜色或字体显示出来。

如果合格率不小于预设值，则发送语音上传成功消息至终端300，以使终端300播放下一条领读音频或语音录制完成信息。

终端300在接收到语音录制完成后，显示数字人命名界面。

在一些实施例中，终端300在接收用户输入选择自定义音色控件的指令后，可选择上传一段音频数据。服务器400在接收到音频数据后检测噪音值，如果噪音值超过预设阈值，则发送上传失败消息至终端300，以使终端300提示用户重新上传。如果噪音值未超过预设阈值，则上传成功消息至终端300，以使终端300显示数字人命名界面。

终端300在接收到用户输入的数字人名称后，将数字人名称发送至服务器400。

示例性的，如图13所示，数字人命名界面包括输入框131、唤醒词控件132、完成创建控件133和训练得到的数字人形象134。唤醒词控件132用于确定是否同时设置为显示设备唤醒词。如果选中唤醒词控件132则将数字人名称设置为显示设备200的唤醒词。示例性的，设置为显示设备的唤醒词的数字人命名规则为：长度为4-5个汉字、避免使用叠词(例如“小小乐乐”)、避免使用口语词(例如“我回来了”)、避免含敏感词汇。如果未选中唤醒词控件132，则将数字人名称不设置为显示设备的唤醒词。示例性的，不设置为显示设备200的唤醒词的数字人命名规则为：最长5个字符，可使用中文、英文、数字，避免含敏感词汇。其中，一个显示设备或一个用户账号创建的数字人名称不能重复。

在接收到用户输入选中完成创建控件133的指令后，将数字人的名称发送至服务器400。服务器400在检测到用户发送数字人的名称通过审核后，发送创建成功的消息至终端300。终端300可显示创建成功的提示信息。服务器400在检测到用户发送数字人的名称未通过审核后，发送创建失败的消息及失败原因至终端300。终端300可显示创建失败原因并重新命名的提示信息。

步骤S503：服务器400基于图像数据确定数字人形象数据，以及基于音频数据确定数字人语音特征。

对用户上传的秒级视频或用户照片进行图像预处理，得到数字人形象数据。图像预处理是将每一个图像分检出来交给识别模块识别的过程。在图像分析中，对输入图像进行特征抽取、分割和匹配前所进行的处理。图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性和最大限度地简化数据，从而改进特征抽取、图像分割、匹配和识别的可靠性。本申请实施例通过相关算法，实现定制形象高保真、高清晰度的交互形象。

在一些实施例中，数字人形象数据包括2D数字人图像以及人脸关键点坐标信息，人脸关键点坐标信息为数字人语音关键点驱动提供数据支撑。

在一些实施例中，数字人形象数据包括数字人参数，例如3D BS(Blend Shape，混合变形)参数。数字人参数是在基础模型的基础上提供人脸关键点的偏移量，从而使得显示设备200可以基于基础模型和数字人参数绘制出数字人形象。

利用用户上传的音频数据训练人声克隆模型，得到符合用户音色的音色参数。在语音合成时，可以将播报文字输入嵌入音色参数的人声克隆模型，得到符合用户音色的播报语音。

为支撑数字人语音交互，本申请实施例在一般语音合成语音架构基础上增加音素时长预测，以供下游数字人面部关键点驱动。为支撑数字人形象定制，在多说话人语音合成模型的基础上实现少样本音色定制，通过1-10句用户语音样本，微调少量模型参数实现人声克隆。

数字人形象可以选择真人形象或卡通形象，也可以选择同时创建真人形象和卡通形象。

服务器400在接收到终端300上传的图像数据(未检测人脸点位)时，即可通知对用户的真人形象或卡通形象进行训练，即真人形象或卡通形象训练与人脸点位检测同时进行。如果人脸点位检测失败，则终止真人形象或卡通形象的训练。如果人脸点位检测成功，则可以缩短等待数字人训练的时间。

在一些实施例中，服务器400将训练得到的真人形象和卡通形象发送至终端300，以使终端300展示数字人形象及供用户选择使用。

终端300在接收并展示训练后的真人形象，可提供给用户对该真人形象进行美颜、添加特效等操作，也可以提供制作卡通形象以及重新录制视频等选项，以便用户可以得到自己想要的数字人形象。

步骤S504：服务器400将数字人形象数据发送至与终端300建立关联关系的显示设备200，以使显示设备200基于数字人形象数据显示数字人图像。

在一些实施例中，在接收到2D数字人图像后可直接在数字人选择界面显示数字人图像。

在一些实施例中，在接收到数字人参数后，基于基础模型和数字人参数绘制出数字人图像，并在数字人选择界面显示数字人图像。

在一些实施例中，服务器400还可将数字人形象数据对应的数字人名称发送至与终端300建立关联关系的显示设备200，以使显示设备200在数字人图像的对应位置显示数字人名称。

在一些实施例中，服务器400在接收到终端300上传的数字人名称后，将初形象和数字人名称后发送至显示设备200并在数字人选择界面显示。该数字人以“训练中”进行标识，还可标识训练时间，示例性的，数字人选择界面如图14所示。在训练完成后，服务器400将训练得到的最终形象发送至显示设备200，以更新显示。

在一些实施例中，也可将基于数字人语音特征生成的目标语音(例如问候语)发送至显示设备200，以使在接收到用户将焦点移动至数字人对应的控件时，可以播放出数字人音色对应的语音。例如，在图7中，当接收到焦点75移动至丁丁控件72时，播放具有丁丁音色的“你好，我是丁丁”的语音。

在一些实施例中，基于数字人语音特征生成的目标语音，基于目标语音确定关键点序列；根据关键点序列和数字人形象数据合成图像数据，将图像数据和目标语音发送至显示设备200，并由显示设备200保存至本地。数字人控件以图像数据中第一帧(首个参数)或指定帧(指定参数)显示，或基于图像数据中首个参数或指定参数绘制图像显示，在接收到用户将焦点移动至数字人控件时，播放图像和目标语音。

在一些实施例中，在显示设备200显示数字人选择界面时，接收用户输入管理数字人的指令；

响应于用户输入管理数字人的指令，控制显示器260显示数字人管理界面，数字人管理界面包括至少一个数字人对应的删除控件、修改控件和禁用控件。

如果接收到用户输入选择删除控件的指令，则删除该数字人对应的相关数据。

如果接收到用户输入选择禁用控件的指令，则保留该数字人对应的相关数据并标记为禁用。

如果接收到用户输入选择修改控件的指令，控制显示器260显示修改识别码，通过终端300扫描修改识别码后，可在终端300重新上传用户视频或照片以更改数字人的形象，和/或，在终端300重新上传用户音频以更改数字人的语音特征，和/或，在终端300更改数字人的名称/唤醒词。

需要说明的是，在上述定制数字人的过程中，用户可以随时中途退出定制过程，终端300的目标应用程序实时向服务器记录缓存，记录用户的每一次数据。当用户中途进入，目标应用程序从服务器获取之前记录的数据，为用户继续操作提供便利，避免重新录制。如果用户不满意继续录制，也可随时选择重新录制。

本申请实施例对视频录制、音频录制及数字人命名的顺序不做限制。

在一些实施例中，数字人交互的示意图如图15所示。显示设备200展示二维码。终端300扫描二维码后，接收用户录制视频和音频。终端300将录制视频和音频发送至服务器400，服务器400通过人声克隆技术和图像预处理技术得到数字人的定制数据，定制数据包括数字人形象和语音特征。服务器400将数字人形象分别发送至终端300和显示设备200。显示设备200在用户界面上展示数字人形象。

在一些实施例中，显示设备200与终端300无需建立关联关系。图9的添加数字人界面还包括本机上传控件92。接收用户输入选择本机上传控件92的指令，启动显示设备200的摄像头，通过摄像头拍摄用户的图像数据，或者，显示本地视频和图片，由用户选择本地存储的图像数据，将图像数据上传至服务器400，由服务器400进行人脸点位检测及数字人形象数据生成处理，显示设备200基于服务器400发送的数字人形象数据展示数字人图像。同样，也可通过显示设备200的声音采集器采集环境音，显示设备200将环境音发送至服务器400，由服务器400进行环境音检测。通过显示设备200的声音采集器或控制装置100的语音采集功能也可以将用户读取目标文本音频发送至服务器400，由服务器400生成数字人语音特征。

在一些实施例中，本申请实施例对服务器400的一些功能做进一步的完善。服务器400执行以下步骤，如图16所示。

步骤S1601：接收显示设备200发送用户输入的语音数据；

显示设备200在启动数字人交互程序后，接收用户输入的语音数据；

在一些实施例中，启动数字人交互程序的步骤，包括：

显示设备200在显示用户界面时，接收用户输入的选中数字人应用对应控件的指令，其中，用户界面包括显示设备200安装应用对应的控件；

响应于用户输入的选中数字人应用对应控件的指令，显示如图6所示的数字人入口界面。

响应于用户输入选中自然对话控件62的指令，启动数字人交互程序，等待用户通过控制装置100输入语音数据或控制声音采集器开始采集用户的语音数据。自然对话包括闲聊模式，即用户可以与数字人聊天。

在一些实施例中，启动数字人交互程序的步骤，包括：

接收声音采集器采集的环境语音数据；

当检测到环境语音数据大于或等于预设音量或者环境语音数据声音信号时程大于或等于预设阈值时，判断环境语音数据是否包括数字人对应的唤醒词；

如果环境语音数据包括数字人对应的唤醒词，则启动数字人交互程序，控制声音采集器开始采集用户的语音数据，并在当前用户界面上浮层显示语音接收框；

如果环境语音数据不包括数字人对应的唤醒词，则不执行显示语音接收框的相关操作。

在一些实施例中，数字人交互程序与语音助手可同时安装在显示设备200中，接收用户将数字人交互程序设置为默认交互程序的指令，将数字人交互程序设置为默认交互程序；可将接收到的语音数据发送至数字人交互程序，由数字人交互程序将语音数据发送至服务器400。还可以由数字人交互程序接收语音数据并将语音数据发送至服务器400。

在一些实施例中，启动数字人交互程序后，接收用户按压控制装置100的语音键输入的语音数据。

其中，在用户开始按压控制装置100的语音键后开始采集语音数据，在用户停止按压控制装置100的语音键后结束采集语音数据。

在一些实施例中，启动数字人交互程序后，当前用户界面上浮层显示语音接收框时，控制声音采集器开始采集用户输入的语音数据。如果长时间未接收到语音数据，可关闭数字人交互程序并取消显示语音接收框。

在一些实施例中，显示设备200接收用户输入的语音数据，并将语音数据与用户选中数字人标识发送至服务器400。数字人标识用于表征数字人的形象、语音特征和名称等。

在一些实施例中，显示设备200接收到用户输入的语音数据后，将语音数据和显示设备200的设备标识发送至服务器400。服务器400从数据库中获取设备标识对应的数字人标识。需要说明的是，当显示设备200检测到用户更改显示设备200的数字人时，会将更改后的数字人标识发送至服务器400，以使服务器400将数据库中设备标识对应的数字人标识更改为修改后的数字人标识。本申请实施例无需用户每次都需要上传数字人标识，可直接从数据库中获取。

在一些实施例中，用户可以通过如图7所示的数字人选择界面显示的数字人图像选择想要使用的数字人。

在一些实施例中，每个创建的数字人都有唯一数字人名称，该数字人名称可被设置为唤醒词，可根据环境语音数据包括的唤醒词确定用户选择的数字人。

在一些实施例中，显示设备200接收用户输入的语音数据本质为流式音频数据。显示设备200在接收到语音数据后，将语音数据发送至声音处理模块，通过声音处理模块对其进行声学处理。声学处理包括声源定位、去噪及音质增强等。声源定位用于在多人说话的情况下增强或保留目标说话人的信号，抑制其他说话人的信号，对说话人进行跟踪和后续的语音定向拾取。去噪用于去除语音数据中的环境噪声等。音质增强用于在说话人声音强度较低时增加其声音强度。声学处理的目的在于获取语音数据中目标说话人比较干净清晰的声音。将声学处理后语音数据发送至服务器400。

在一些实施例中，显示设备200在接收到用户输入的语音数据后，直接发送至服务器400，由服务器400对语音数据进行声学处理，并将声学处理后的语音数据发送至语义服务。服务器400对接收到的语音数据进行语音识别、语义理解等处理后，将处理后的语音数据发送至显示设备200。

步骤S1602：根据语音数据生成播报文本；

服务器400的语义服务在接收到语音数据后利用语音识别技术识别语音数据对应的文本内容。对文本内容进行语义理解、业务分发、垂域解析和文本生成等处理，得到播报文本。

步骤S1603：基于播报文本、数字人语音特征和数字人形象数据生成数字人数据；

在一些实施例中，服务器400的语义服务可以将播报文本或语义结果发送至显示设备200，并由显示设备200完成语音交互转接，连通服务器400的推流中控服务，即显示设备向服务器400的推流中控服务发起请求，所述请求携带播报文本或语义结果，由推流中控服务完成语音合成、关键点预测、图像合成和直播交互等。

在一些实施例中，服务器400的语义服务可以将播报文本直接发送至推流中控服务，由推流中控服务完成语音合成、关键点预测、图像合成和直播交互等。

在一些实施例中，数字人数据包括数字人图像数据和播报语音，推流中控服务执行基于播报文本、数字人语音特征和数字人形象数据生成数字人数据的步骤，包括：

根据数字人标识对应的语音特征和播报文本合成播报语音；

其中，将播报文本输入训练好的数字人标识对应的人声克隆模型中，得到带有数字人音色的播报语音。播报语音为音频帧序列。

根据播报语音确定关键点序列；

其中，对播报语音进行去噪等数据预处理，得到语音特征。将语音特征输入编码器，得到高层语义特征，将高层语义特征输入解码器，解码器结合真实关节点序列生成预测的关节点序列，生成数字人肢体动作。

根据关键点序列和数字人形象数据合成数字人图像数据；

在一些实施例中，根据关键点序列和数字人标识对应的数字人形象合成数字人图像帧序列。根据预测的关键点序列和数字人形象数据(数字人图像)利用图像合成服务完成图像合成，得到数字人数据，即所有图像帧序列和音频帧序列。

在一些实施例中，根据关键点序列和数字人形象数据(数字人参数)生成数字人参数序列；其中，数字人参数序列为数字人形象、唇形、表情及动作等参数序列。根据预测的关键点序列和数字人形象数据(数字人参数)，得到数字人数据，即所有数字人参数序列和音频帧序列。

步骤S1604：将数字人数据发送至显示设备200，以使显示设备200根据数字人数据播放数字人的图像及语音。

在一些实施例中，推流中控服务依靠直播通道将图像帧序列和播报语音编码后推送给直播间完成数字人推流。

在一些实施例中，直播数据推流过程如图17所示。终端300向直播通道发送建立直播通道的请求，以及创建直播通道房间并将直播通道房间发送至推流中控服务。推流中控服务将经过语音合成、关键点预测及图像合成等步骤得到的直播数据以直播拉流的方式通过直播通道发送至显示设备200并由显示设备200播放。

推流中控服务是数字人的驱动展示和终端呈现的重要部分，负责虚拟形象的驱动和展示，体现整个数字人的定制和驱动效果。

推流中控服务接收到显示设备请求有以下三种：1)restart(重新开始)，推流中控服务打断当前的视频播放，重新申请房间实例，验证定制形象有效性和敏感性，记录实例状态，创建直播房间并发布广播，完成直播准备动作；2)query(查询)，推流中控服务异步处理请求内容，执行语音合成、关键点预测、图像合成、直播间推流等动作，直至图像帧组和音频帧组推送完毕，完成直播播放，销毁房间，回收实例；3)stop(停止)，推流中控服务打断当前的视频播放，销毁房间，回收实例。

为了保证数字人驱动的实时性，借用直播技术，将接收到的请求内容实时进行数字人合成数据并推流到直播间，实现播放端的即时播放。

此外，推流中控服务使用实例池机制。针对同一验证信息申请唯一实例使用。实例池会自动回收使用结束的实例，以提供给其他设备使用。发生异常或超长时间未回收的实例会自动被实例池发现并销毁重新创建新实例，保证实例池的健康实例数量。

显示设备200将接收到编码后的图像帧序列和播报语音注入解码器进行解码，并同步播放解码后的图像帧和播报语音，即数字人的图像及语音。

在一些实施例中，服务器400将数字人参数序列及播报语音发送至显示设备200，显示设备200基于数字人参数及基础模型绘制和渲染数字人图像，在播放播报语音时，同步显示绘制的数字人图像。

在一些实施例中，服务器400在识别所述语音数据后，除了数字人数据，还下发关于语音数据中的请求用户界面数据或媒资数据等。显示设备200显示服务器400下发的用户界面数据并在指定位置显示数字人数据。示例性的，当用户输入“今天天气怎么样”时，显示设备200的用户界面如图18所示。

在一些实施例中，数字人图像显示在用户界面层。

在一些实施例中，数字人图像显示在用户界面层上层浮层显示。

在一些实施例中，用户界面层位于视频层的上层。数字人图像显示在视频层的预设区域，在用户界面层绘制目标区域，目标区域为透明状态，预设区域与目标区域的位置重合，以使视频层的数字人图像可以显示给用户。

在一些实施例中，数字人交互时序图如图19所示。显示设备200在接收到语音数据后，将语音数据发送至语义服务，语义服务将语义结果发送至显示设备200。显示设备200向推流中控服务发起请求，推流中控服务响应后通过语音合成、关键点预测及图像合成服务等生成图像合成数据，并推送图像合成数据和音频数据至直播间。显示设备200可从直播间获取直播数据。推送列队为空时，推流中控服务自动结束推流并退出直播间。显示设备200检测无动作超时，结束直播，退出直播间。

本申请实施例支撑向企业用户、个人用户提供小样本、低资耗的通用数字人高保真定制能力，并提供基于复刻数字人形象、声音的新式拟人化智能交互系统。数字人形象包括2D真人形象、2D卡通形象及3D类真人形象等。用户通过应用程序扫码进入终端定制流程，通过采集用户的秒级视频信息/自拍图片信息定制专属数字人形象，通过采集用户1～10句音频数据定制专属声音，实现专属数字人声音的定制。定制完成后，通过显示设备200可进行形象及语音的选择、切换，使用选择形象、音色提供基于语音、文本的交互。交互过程中显示设备200收入用户请求，由基于语义理解、语音分析、共情理解等的感知、认知算法服务完成回复语(播报文本)生成，回复语通过数字人形象、声音以视频、音频形式输出，音视频数据通过语音合成、人脸驱动、图像生成等算法服务产生，并由推流中控服务协调转发至目标显示设备，完成一次交互。

在一些实施例中，本申请实施例对服务器400的一些功能做进一步的完善。服务器400执行以下步骤，如图20所示。

步骤S2001：接收显示设备200发送用户输入的语音数据；

步骤S2002：识别语音数据，得到识别结果；

在接收到显示设备200发送用户输入的语音数据后，服务器400利用语音识别技术识别语音数据对应的文本。

步骤S2003：判断识别结果中是否包括实体数据，实体数据包括人物名称和/或媒资名称；

在得到识别结果后，服务器400的语义服务对文本内容进行语义理解。在语义理解过程中，对识别到的文本进行分词标注处理获取分词信息，判断分词信息是否包括实体数据。

如果识别结果中不包括实体数据，则对识别结果进行语义理解、业务分发、垂域解析和文本生成等处理，得到播报文本。基于播报文本、数字人语音特征和数字人形象生成数字人数据，并将数字人数据发送至显示设备200，以使显示设备200播放数字人数据。

如果识别结果中包括实体数据，执行步骤S2004：获取识别结果对应的媒资数据，以及实体数据对应的数字人数据。其中，数字人数据包括数字人的图像数据和播报语音，所述媒资数据包括音视频数据或界面数据。音视频数据是指音频数据和视频数据中至少一种。

如果识别结果中包括实体数据，服务器400基于分词信息通过垂域分类定位到领域和意图，获取领域和意图对应的媒资数据。

在接收显示设备200发送用户输入的语音数据之前，服务器400从人物的面部图像、身体姿势、语音等三部分进行预处理和标准化，然后进行模型训练生成高度逼真的数字人形象模型。

如图21所示，数字人形象模型生成步骤，包括：

步骤S2101：生成至少一个人物名称对应的绘画模型；

其中，生成至少一个人物名称对应的绘画模型的步骤，包括：

获取预设数量人物名称对应的图片；

网络上存在人物名称对应的大量物料，基于多种不同角度收集人物名称对应的照片和视频，作为原始数据集进行训练，对图像进行预处理和标注，提取数字人的关键特征，如面部表情、体态姿势等。预处理的目的在于去除水印等，以使照片或视频中人物更加清晰。标注是对照片中的人物进行标注。

将图片输入文生图模型，得到所述人物名称对应绘画模型。

利用文生图大模型(Stablediffusion)，基于采集的不同人物照片清晰的角度、场景等(10～20张照片)生成一个人物名称对应的LoRA模型(一种体积较小的绘画模型)。

步骤S2102：生成至少一个媒资名称对应的动作模型；

其中，生成至少一个媒资名称对应的动作模型的步骤，包括：

获取多组不同主题的视频数据，每组视频数据包括多个相同主题的视频数据。对多个相同主题的视频数据进行预处理和标准化。对视频数据预处理包括视频剪辑、去除噪声和标注。对视频数据标准化是指将视频数据中人物的动作幅度调整到统一标准。预处理和标准化的目的在于去除无关信息，统一标准，以便后续的模型训练。

利用标注后的样本视频数据对所述动作生成模型进行训练；

使用预处理和标准化后的视频数据，进行骨骼关键点标注，利用深度学习算法训练动作生成模型，以学习视频中的典型动作和动作序列。在训练过程中，需要对模型进行多次迭代级标注，优化模型的动作真实性。

步骤S2103：生成至少一个人物名称对应的基于音调和韵律的语音合成模型；

在一些实施例中，获取预设数量的样本音频数据，其中，样本音频数据包括人物名称对应的音频数据及媒资名称对应的音频数据；

对样本音频数据进行预处理和标注；

其中，对人物名称对应的音频数据的预处理为去除噪声等，标注其人物名称。

对媒资名称对应的音频数据进行预处理的步骤，包括：

1)音频处理：对音频数据进行处理，例如分离歌声和伴奏等。可以使用音频处理软件，如Audacity等进行处理。

2)歌曲分析：使用音频处理软件或者音乐分析工具，如Sonic Visualizer等，对歌声进行分析，提取歌声的音调和韵律信息。

3)歌词转换：使用歌词转换工具，将歌曲的歌词转换为文本格式。可以使用在线歌词转换工具，如LRC(歌词)文件转文本工具等进行转换。

音频数据是整个歌曲中具有代表性的一段音频数据，对音频数据标注其对应的媒资名称及样本音频数据中对应的歌词。

使用深度学习算法训练语音合成(Text To Speech，TTS)模型，以学习歌曲的音调和韵律信息以及人物的音色，并将歌词转换为语音。在训练过程中，需要对模型进行多次迭代，以不断优化模型的生成能力。利用训练好的TTS模型，生成符合人物音色基于音调韵律的语音。

在一些实施例中，获取预设数量人物名称对应的音频数据，基于该人物的音频数据利用人声克隆技术生成语音合成模型，该语音合成模型可以在输入文本数据后，生成符合该人物音色的与文本数据对应的语音。

获取预设数量歌曲的音频数据，并对音频数据进行预处理和标注；

利用标注后的音频数据对该人物对应的语音合成模型进行进一步训练，得到人物名称对应的基于音调和韵律的语音合成模型。

在一些实施例中，获取预设数量歌曲的音频数据，并对音频数据进行预处理和标注，利用标注后的歌曲的音频数据对TTS模型进行训练，得到基于音调和韵律的语音合成模型，该语音合成模型可以在输入文本数据后，生成与文本数据对应带有音调和韵律对应的语音。

获取预设数量人物名称对应的音频数据，利用人物名称对应的音频数据对基于音调和韵律的语音合成模型继续训练，得到该人物名称对应的基于音调和韵律的语音合成模型。

步骤S2104：构建和训练条件对抗网络；

步骤S2105：将绘画模型、动作模型和语音合成模型输入至训练好的条件对抗网络中，得到待存储数字人数据。

本申请实施例使用条件生成对抗网络(Conditional GAN)、变分自编码器(Variational Autoencoder)、深度强化学习等技术生成整合模型。整合模型的具体步骤如下：

1)条件生成对抗网络的构建：构建一个条件生成对抗网络，包括生成器和判别器两个模块。生成器接受人物名称对应的LoRA形象模型(绘画模型)、媒资名称对应的动作模型和TTS模型作为输入，并生成一个完整的数字人形象模型。判别器则接受完整的数字人形象模型和真实的数字人形象模型作为输入，并对两者进行判断。

2)模型训练：使用大量的人物名称对应的LoRA形象模型、媒资名称对应的动作模型和TTS模型，主要需要对动作和声音进行标注调参，对条件生成对抗网络进行训练。在训练过程中，不断优化生成器和判别器的参数，以实现高真实感和高逼真度的数字人形象生成效果。

3)数字人形象模型的生成：使用训练好的条件生成对抗网络，生成一个完整的数字人形象模型。可以通过输入不同的人物名称对应的LoRA形象模型、媒资名称对应的动作模型和TTS模型，以获得不同的数字人形象模型效果。

4)优化和调整：根据数字人形象的实际需要，对数字人形象模型进行优化和调整，以提高数字人形象的真实感和逼真度。例如，可以对数字人形象模型进行面部表情和体态姿势的优化，以实现更加真实和逼真的数字人形象效果。

5)渲染和动画处理：对数字人形象进行渲染和动画处理，以实现更加真实和逼真的数字人形象效果。使用Nerf等渲染算法对数字人进行渲染，使用动画制作软件对数字人进行动画处理。

在一些实施例中，数字人形象模型存储步骤，包括：

对待存储数字人数据进行特征标注并存储至服务器400。

对待存储数字人数据进行特征标注，并进行云端存储。

在一些实施例中，存储特征结构如下:【人物名称，媒资名称，热度】。其中，热度为训练数据的数量，网络中能找到的训练数据的数量也是人物和媒资热度的体现。

在一些实施例中，存储特征结构如下:【人物名称(包含性别、年龄等基本属性)，媒资名，热度】。

在一些实施例中，可将所有待存储数字人数据进行特征标注后存储至服务器400。

在一些实施例中，可将部分待存储数字人数据(热度高的待存储数字人数据)进行特征标注后存储至服务器400。

其中，对待存储数字人数据进行特征标注并存储至服务器的步骤，包括：

对待存储数字人数据的人物信息、媒资名称和热度进行标注，所述人物信息包括人物名称、性别、年龄等基本属性。性别、年龄等基本属性便于对用户的请求进行筛选。例如用户的请求是查询年龄在20-40岁之间的女歌手视频。如果仅仅从名字无法确定年龄数据，因此可以进一步设置人物的基本属性。

获取第一热度和第二热度，其中，第一热度为已存储的数字人数据中该人物名称对应的最高热度，第二热度为已存储的数字人数据中该媒资名称对应的最高热度；

判断待存储数字人数据的热度是否小于第一热度；

如果待存储数字人数据的热度不小于第一热度，将标注后的待存储数字人数据存储至服务器400。

如果待存储数字人数据的热度小于第一热度，判断待存储数字人数据的热度是否小于第二热度；

如果待存储数字人数据的热度不小于第二热度，将标注后的待存储数字人数据存储至服务器400。

如果待存储数字人数据的热度小于第二热度，不将标注后的待存储数字人数据存储至服务器400。

示例性的，待存储数字人数据标注信息为人物名称为小A，视频名称为XX，热度为3000。如果已存储的数字人数据中小A(人物小A-视频YY)对应的最高热度为4000，和已存储的数字人数据中XX(人物小B-视频XX)对应的最高热度为4000，则待存储数字人数据不用存储至服务器400。如果已存储的数字人数据中小A(人物小A-视频YY)对应的最高热度为2000或已存储的数字人数据中XX(人物小B-视频XX)对应的最高热度为2000，则待存储数字人数据不用存储至服务器400。

在一些实施例中，可定期更新服务器400中已存储的数字人数据。更新已存储的数字人数据的方式包括定期获取最新大量数据参与到数字人数据的生成中。更新已存储的数字人数据的方式还包括记录数字人日期的生成时间，如果当前时间超过生成时间一定时间后，可适当降低该数字人数据对应的热度，以防止早期热度较高的人物或视频一直占据数字人数据资源，无法将最近更新且比较有热度的数字人数据推送给用户。

在一些实施例中，如果识别结果中包括实体数据，获取所述实体数据对应的数字人数据的步骤，包括：

如果识别结果中包括人物名称，判断已存储数字人数据中是否存在特征标注为人物名称对应的数字人数据；

如果已存储数字人数据中不存在特征标注为人物名称对应的数字人数据，则对识别结果进行语义理解、业务分发、垂域解析和文本生成等处理，得到播报文本。基于播报文本、选中数字人语音特征和数字人形象生成数字人数据，并将数字人数据发送至显示设备200，以使显示设备200播放数字人数据。

如果已存储数字人数据中存在特征标注为人物名称对应的数字人数据，则获取已存储数字人数据中特征标注为人物名称对应的数字人数据。其中，该数字人数据为以人物名称对应人物的形象和音色的视频数据。

示例性的，接收用户输入“我想看小A的视频”的语音数据，在对语音数据进行识别和分词后，确定识别结果中包括小A这个实体数据，在服务器400获取到标注为小A对应的数字人数据，同时，获取小A对应的媒资数据。

在一些实施例中，在人物名称对应的数字人数据不止一个时，获取人物名称对应的数字人数据的步骤，包括：

获取已存储数字人数据中特征标注为人物名称对应热度最高的数字人数据。

示例性的，接收用户输入“我想看小A的视频”的语音数据，在对语音数据进行识别和分词后，确定识别结果中包括小A这个实体数据，服务器400中包括小A(人物小A-视频YY)对应的最高热度为4000，视频XX(人物小A-视频XX)对应的最高热度为3000，则获取标注为人物小A-视频YY对应的数字人数据(形象、音色为小A，动作和歌词为视频YY)，同时，获取小A对应的媒资数据。

如果识别结果中包括媒资名称，判断已存储数字人数据中是否存在特征标注为媒资名称对应的数字人数据；

如果已存储数字人数据中不存在特征标注为媒资名称对应的数字人数据，则基于播报文本、选中数字人语音特征和数字人形象生成数字人数据。

如果已存储数字人数据中存在特征标注为媒资名称对应的数字人数据，则获取已存储数字人数据中特征标注为媒资名称对应的数字人数据。其中，该数字人数据为媒资名称对应的视频数据。

示例性的，接收用户输入“我想看XX视频”的语音数据，在对语音数据进行识别和分词后，确定识别结果中包括XX这个实体数据，在服务器400获取到标注为XX对应的数字人数据，同时，获取XX对应的媒资数据。

在一些实施例中，在媒资名称对应的数字人数据不止一个时，获取媒资名称对应的数字人数据的步骤，包括：

获取已存储数字人数据中特征标注为媒资名称对应热度最高的数字人数据。

示例性的，接收用户输入“我想看XX视频”的语音数据，在对语音数据进行识别和分词后，确定识别结果中包括XX这个实体数据，服务器400中包括小A(人物小A-视频YY)对应的最高热度为1000，视频XX(人物小B-视频XX)对应的最高热度为3000，则获取标注为人物小B-视频XX对应的数字人数据(形象和音色为小B，歌词和动作为视频XX)，同时，获取XX对应的媒资数据。

如果识别结果中包括人物名称和媒资名称，判断已存储数字人数据中是否存在特征标注为媒资名称对应的数字人数据；

如果已存储数字人数据中存在特征标注为媒资名称对应的数字人数据，判断已存储数字人数据中是否存在特征标注为人物名称对应的数字人数据；

如果已存储数字人数据中不存在特征标注为人物名称对应的数字人数据，可获取已存储数字人数据中特征标注为媒资名称对应的数字人数据及报错消息，也可以基于播报文本、选中数字人语音特征和数字人形象生成数字人数据。

如果已存储数字人数据中存在特征标注为人物名称对应的数字人数据，判断人物名称和媒资名称在已存储数字人数据中特征标注是否匹配；

如果人物名称和媒资名称在已存储数字人数据中特征标注匹配，则获取人物名称和媒资名称对应的数字人数据；

如果人物名称和媒资名称在已存储数字人数据特征标注不匹配，将媒资名称对应的绘画模型替换为人物名称对应的绘画模型，以及将媒资名称对应的语音数据替换为人物名称对应的语音数据，生成替换数字人数据；

确定替换数字人数据为人物名称和媒资名称对应的数字人数据。

示例性的，接收用户输入“我想看小A的XX视频”的语音数据，在对语音数据进行识别和分词后，确定识别结果中包括小A和XX这两个实体数据，服务器400中视频XX对应的人物标注为小B，即只存储人物小B-视频XX的数字人数据，将视频XX的LoRA形象模型替换为小A的形象，声音替换为小A的TTS模型，生成替换数字人数据，同时，获取小A的XX视频对应的媒资数据。

在一些实施例中，人物名称可以是个体名称，也可以是组合名称。在人物名称是组合名称时，可以在一个数字人数据中体现多个人物形象。

步骤S2005：将数字人数据及媒资数据发送至显示设备200，以使显示设备200播放音视频数据或显示界面数据，以及根据数字人数据播放数字人的图像及语音。

在一些实施例中，数字人图像数据为图像帧序列，服务器400以直播推流的方式将图像帧序列和播报语音发送至显示设备200。显示设备200显示图像帧对应的图像并播放播报语音。

在一些实施例中，数字人图像数据为数字人参数序列，服务器400将数字人参数序列和播报语音发送至显示设备200。显示设备200基于数字人参数及基础模型显示数字人的图像并播放播报语音。

如果媒资数据是界面数据，则显示设备200基于界面数据展示用户界面的同时，根据数字人数据播放数字人的图像和语音。

如果媒资数据是音视频数据，则显示设备200在播放音视频数据之前，根据数字人数据播放数字人的图像和语音。

示例性的，接收用户输入“我想看小A的XX视频”的语音数据，下发小A的XX视频数据及数字人数据至显示设备200。显示设备200会使用小A对应的数字人形象、XX视频动作并使用小A的歌声进行趣味化播报：“xxx，xxxxx”(歌声)，小A为您带来XX视频，如图22所示。在播报完成后，展示XX视频数据。

本申请实施例在采集明星或网络热梗的不同角度的照片及视频信息后，生成人物基本形象及特定动作形象，再通过AIGC(Artificial Intelligence Generated Content，生成式人工智能)进行人物的形象生成美化，基于各关键点驱动形象动作生成完整的视频形象，添加特定的播报合成进行个性化语音播报展示，在显示设备200搜索场景进行数字人形象、动作及声音三个维度的展示，增加搜索与语音反馈的联系度，提升语音交互的趣味性。

在一些实施例中，本申请实施例对服务器400的一些功能做进一步的完善。服务器400执行以下步骤，如图23所示。

步骤S2301：接收显示设备200发送用户输入的语音数据；

步骤S2302：识别语音数据，以获取语音文本；

在接收到显示设备200发送用户输入的语音数据后，服务器400利用语音识别技术识别语音数据对应的语音文本。

步骤S2303：对语音文本进行语义理解，以获取语音数据对应的领域意图；

其中，对语音文本进行语义理解，以获取语音数据对应的领域意图的步骤，包括：

1)对语音文本进行预处理。其中，预处理包括敏感词过滤、文本格式化和分词归一。

2)调用三分类模型服务确定预处理后的语音文本的具体类型，即确定预处理后的语音文本时属于聊天(chat)类型、问答(questions&answers，qa)类型还是任务(task)类型。其中，对三分类算法不做限制。

3)如果确定预处理后的语音文本的具体类型为聊天类型，则调用聊天服务解析聊天意图，即确定语音数据对应的领域和意图为聊天。

4)如果确定预处理后的语音文本的具体类型为问答类型，则调用问答服务，并判断是否命中问答对；

如果命中问答对，则确定语音数据对应的领域和意图为问答；

如果未命中问答对，则调用聊天服务解析聊天意图，即确定语音数据对应的领域和意图为聊天。

5)如果确定预处理后的语音文本的具体类型为任务类型，则继续解析意图，调用强规则算法并判断是否命中强规则。其中，强规则算法包含正则匹配，ABNF(augmentedBackus-Naur Form，增强型巴科斯范式)规则匹配。

如果命中强规则，则返回对应领域、意图以及槽位。

如果未命中强规则，则指代消解；调用多分类模型服务，得出对应领域，并在对应领域内解析槽位和语法，匹配出对应意图，输出领域、意图以及槽位。

步骤S2304：基于领域意图确定播报语音，以及基于领域意图确定数字人形象参数，数字人形象参数用于生成数字人的图像，和/或，生成数字人的动作；

其中，基于领域意图确定播报语音的步骤，包括：

基于领域意图确定播报文本；其中，根据领域意图调用不同业务系统得出业务结果，即播报文本。

利用语音合成技术生成播报文本对应的播报语音。其中，根据用户选中数字人对应的语音特征和播报文本合成播报语音。

基于领域意图确定数字人形象参数的步骤，包括：

在数字人形象映射表中查找领域意图对应的数字人形象标识，其中，数字人形象映射表用于表征领域意图与数字人形象标识的对应关系。

示例性的，数字人形象映射表如表1所示。

表1

领域	意图	数字人形象标识
			天气主题	天气普通搜索	1
天气主题	天气温度搜索	2
			聊天主题	聊天	3
问答主题	问答	4
			……	……	……

在数字人定义表中查找所述数字人形象标识对应的数字人形象参数，其中，数字人定义表用于表征数字人形象标识与数字人形象参数的对应关系，所述数字人形象参数包括装饰参数和动作参数。装饰参数包括数字人资源参数、服饰资源参数、头发资源参数、道具资源参数、妆容资源参数和特效资源参数等。服饰资源参数包括上衣资源参数、下衣资源参数、鞋子资源参数和配饰资源参数等。动作参数包括摆臂角度、屈膝角度、面部表情参数等。

示例性的，数字人定义表如表2所示。

表2

基于不同的服饰、头发、配饰、鞋子和道具等可组成不同的数字人形象。

步骤S2305：基于数字人形象参数和播报语音生成数字人数据；

在一些实施例中，数字人形象可由数字人形象参数中数字人资源标识确定，数字人资源标识用于标识选用的基础模型，或基础模型和基础参数，基础参数用于表征人脸关键点特征偏移量，可实现数字人形象定制化。

在一些实施例中，数字人形象可由显示设备200上传数字人标识确定，该数字人标识是用户选中的定制数字人对应的数字人标识。

在一些实施例中，数字人模型可选用Unity的数字人模型。Unity的数字人模型通常会依靠动作参数驱动。Unity的数字人模型主要是通过Unity的动画系统实现的，特别是Animator Controller(动画器控制器)和Blend Trees(混合树)。其中，AnimatorController是Unity动画系统的核心部分，允许创建和管理动画状态和转换。可以在Animator Controller中定义动作参数(例如速度，方向，是否跳跃等)，然后根据这些参数来控制动画的播放。Blend Trees是Animator Controller的一个重要特性，允许根据动作参数混合和过渡不同的动画。例如，创建一个Blend Tree来根据速度参数混合行走和跑步的动画。通过这种方式，可以创建出非常复杂和流畅的动画效果。例如，可以创建一个数字人模型，当改变速度参数时，模型会自然地从行走过渡到跑步。

在一些实施例中，基于数字人形象参数和播报语音生成数字人数据的步骤包括：

将数字人形象参数和播报语音输入到数字人驱动系统得到数字人数据，其中，数字人数据包括数字人装饰参数、动作参数、唇形参数及播报语音。在输入数字人驱动系统时，可基于播报语音通过数字人唇形驱动算法得到唇形参数。在输入数字人驱动系统时，还可根据数字人装饰参数得到数字人具体形象参数，则数字人数据包括数字人最终形象参数序列、动作参数序列、唇形参数序列及播报语音。

数字人的唇形驱动算法主要用于同步人物的口型与发出的语音，使得人物的口型动作与发音相匹配，增加人物的真实感和生动性。

在一些实施例中，唇形驱动算法是基于规则的方法。基于规则的方法主要是根据语音的特性，如音素、音节等，预设一套口型动作规则。当语音输入时，根据这套规则生成相应的口型动作。

在一些实施例中，唇形驱动算法是基于数据驱动的方法。基于数据驱动的方法主要是通过机器学习算法，从大量的语音和口型动作数据中学习模型，然后用这个模型预测新的语音的口型动作。常用的机器学习算法有深度学习、支持向量机(SVM)等。

在一些实施例中，唇形驱动算法是混合方法。混合方法是将基于规则的方法和基于数据驱动的方法结合起来，既利用规则的明确性，也利用数据驱动的灵活性。

根据播报语音预测关键点序列；

根据预测关键点序列、用户选择的数字人形象及数字人形象参数合成数字人图像帧序列；

数字人数据为数字人音视频直播数据，即数字人图像帧序列及播报语音。

步骤S2306：将数字人数据发送至显示设备200，以使显示设备200根据数字人数据播放数字人的图像及语音。

在一些实施例中，选用Unity的数字人模型时，将数字人装饰参数(或数字人最终形象参数)、动作参数、唇形参数及播报语音发送至显示设备200，显示设备200可数字人装饰参数(或数字人最终形象参数)绘制Unity的数字人模型的形象，并在播放播报语音时，利用动作参数及唇形参数驱动该数字人模型做出相应的动作表情。

在一些实施例中，通过直播推流的方式将数字人数据(数字人图像数据和播报语音)发送至显示设备200，显示设备200基于所述数字人图像数据显示数字人图像并播放所述播报语音。

示例性的，当确定领域意图为音乐时，数字人形象上可配置一个带有耳机的道具，如图24所示。当确定领域意图为足球比赛时，数字人形象上服饰可以是球服，道具可以是足球，并配置一个踢球的动作，如图25所示。

在一些实施例中，服务器400在接收显示设备200发送用户输入的语音数据或获取语音文本后，还执行确定语音数据对应的用户情感类型。用户情感类型分为三大类Optimistic-乐观的(like-喜爱、happy-愉快、praise-夸赞和thankful-感谢)、Pessimistic-悲观(angry-愤怒、disgusting-厌恶、fearful-恐惧、sad-悲伤)和Neutral-中性的。

情感识别技术是一种通过分析人类语言、声音、面部表情、体态等信息，来识别和理解人类情感状态的技术。它可以帮助计算机系统更好地理解和响应人类情感，从而实现更智能、人性化的交互体验。

在一些实施例中，在接收显示设备200发送用户输入的语音数据后，确定语音数据对应的用户情感类型的步骤，包括：

基于语音数据确定语音数据对应的用户情感类型。

本申请实施例主要是通过分析语音数据中的声调、音频特征和语音内容等，来识别说话者的情感状态。例如，通过分析语音数据中的音高、音量、语速等特征，可以判断说话者是愤怒、高兴、悲伤还是中性等。

在一些实施例中，在获取语音文本后，确定语音数据对应的用户情感类型的步骤，包括：

基于语音文本确定语音数据对应的用户情感类型。

本申请通过分析语音文本中的词汇、语法和语义等信息，来识别用户的情感状态。例如，通过分析语音文本中的情感词汇、情感强度和情感极性等，可以判断用户是积极、消极还是中性等。

在一些实施例中，确定语音数据对应的用户情感类型的步骤，包括：

在接收显示设备200发送用户输入的语音数据时，还接收显示设备200上传采集到的用户视频，用户视频包括用户面部图像；

显示设备200在接收到数字人的唤醒语音后，开启显示设备200的图像采集器，在接收用户输入语音数据的同时，采集用户的视频数据。将用户视频数据发送至服务器400后，服务器400如果在用户视频中检测到面部图像，则执行分析用户面部图像的步骤。如果在用户视频中未检测到面部图像，则可以将用户情感类型确定为中性。

分析用户面部图像，以确定语音数据对应的用户情感类型。

本申请实施例通过分析人脸图像或视频中的面部表情特征，来识别人的情感状态。例如，通过分析面部表情中的眼睛、眉毛、嘴巴等部位的运动和变化，可以判断人的情感状态是愤怒、高兴、悲伤还是惊讶等。

在接收显示设备200发送用户输入的语音数据时，还接收显示设备上传采集到的用户生理信号，用户生理信号包括心率、皮肤电导包和/或脑电波；

在一些实施例中，显示设备200在接收到数字人的唤醒语音后，开启显示设备200的红外摄像头，在接收用户输入语音数据的同时，采集用户的体温。

在一些实施例中，显示设备200在接收用户输入语音数据的同时，获取与显示设备200相关联手环等智能设备采集的心率等信息。其中，智能设备需与显示设备200的距离在一定范围内。如果服务器400未接收到显示设备上传的用户生理信号，则可以将用户情感类型确定为中性。

基于用户生理信号确定语音数据对应的用户情感类型。

本申请实施例通过分析人体的生理信号，如心率、皮肤电导、脑电波等，来识别人的情感状态。例如，通过监测心率的变化，可以判断人是紧张、放松还是兴奋等。

基于所述领域意图确定数字人形象参数的步骤，包括：

基于用户情感类型及领域意图确定数字人形象参数。

其中，基于用户情感类型及所述领域意图确定数字人形象参数的步骤，包括：

在数字人形象映射表中查找用户情感类型及领域意图对应的数字人形象标识，数字人形象映射表用于表征领域意图、用户情感类型与数字人形象标识的对应关系；

示例性的，数字人形象映射表如表3所示。

表3

在数字人定义表中查找数字人形象标识对应的数字人形象参数，数字人定义表用于表征数字人形象标识与数字人形象参数的对应关系，数字人形象参数包括装饰参数和动作参数。

示例性的，数字人定义表如表4所示。

表4

在相同领域意图时，可根据改变基于服饰的配色等组成针对不同用户、不同情绪的数字人形象。

示例性的，闲聊模式下用户情感类型是愉悦，则使用愉悦的数字人形象，如图26所示，如果用户情感类型是喜爱，则使用喜爱形象，如图27所示。

示例性的，领域意图为天气搜索时，如果识别到用户情感类型是愉悦，显示设备200展示穿着明亮颜色(如红色、黄色)气象员服装的数字人；如果识别到用户情感类型是悲伤，显示设备200展示穿着暗色(如深蓝色、灰色)气象员服装的数字人。

在一些实施例中，服务器400还可执行：接收显示设备发送用户输入的语音数据；识别语音数据，以获取语音文本；确定语音数据对应的用户情感类型；对语音文本进行语义理解，以获取语音数据对应的领域意图；基于领域意图确定播报语音，以及基于用户情感类型确定数字人形象参数；基于数字人形象参数和播报语音生成数字人数据；将数字人数据发送至所述显示设备，以使显示设备播放数字人数据。

本申请实施例可以通过改变数字人的服装、道具、肢体动作来适配当前的显示设备场景(领域意图)，增强趣味互动体验和情感共鸣。同时根据用户的情感倾向适时的改变数字人服装颜色、表情、肢体动作，起到烘托气氛，对坏情绪的安慰作用。

在一些实施例中，本申请实施例对服务器400的一些功能做进一步的完善。服务器400执行以下步骤，如图28所示。

步骤S2801：接收显示设备200发送用户输入的语音数据；

步骤S2802：将语音数据输入至情感语音模型，以获取情感类型和情感强度；

其中，语音情感模型是基于不同人群针对多个语义场景的样本语音数据训练得到的。

收集不同年龄、性别、语速、音色、方言等维度的群体针对多个语义场景的样本语音数据，并样本语音数据进行相应的标注。将样本语音数据输入情感语音模型进行训练，调整模型相关参数。随着训练样本语音数据的丰富，可获取稳定准确的情感类型和情感强度。

在一些实施例中，情感语音模型如图29所示。将语音数据输入至情感语音模型，以获取情感类型和情感强度的步骤，如图30所示，包括：

步骤S3001：识别语音数据，以获取语音文本及用户语音特征；

利用语音识别服务利用语音识别技术(Automatic Speech Recognition，ASR)从语音数据中解析出语音文本，语音文本是指用户语音表达的文字内容。

利用声纹识别技术解析出语音数据的声纹、韵律、强度及特质等信息确定用户语音特征。用户语音特征包括年龄、性别、语速、音色及方言等。其中，年龄可为儿童、成年人和老年人。语速可为快、中和慢。方言可为闽南语、北京话和东北话等。

步骤S3002：对语音文本进行语义理解，以获取语音数据对应的语义场景；

其中，对语音文本进行语义理解，以获取语音数据对应的语义场景的步骤，包括：

对语音文本进行分词标注处理，以获取分词信息；

示例性的，语音文本为“刘德华的歌曲”，对“刘德华的歌曲”进行分词标注处理，得到分词信息为[{刘德华-刘德华[actor-1.0，singer-0.8，roleFeeble-1.0，officialAccount-1.0]},{的-的[funcwordStructuralParticle-1.0]}，{歌曲-歌曲[musicKey-1.0]}]。

对分词信息进行句法分析和语义分析，以获取槽位信息；

示例性的，对分词信息进行句法分析和语义分析，获取中心词为“歌曲”，修饰词为“刘德华”，关系为形容词修饰关系。语义分析中知道歌曲musicKey和singer之前有强语义关系，因此解析语义槽位结果为：融合分词信息:[{刘德华-刘德华[singer-1.0]}，{歌曲-歌曲[musicKey-1.0]}]。

通过垂域分类定位到槽位信息对应的语义场景，其中，语义场景在技术上可称为领域意图；

中控系统结合各种业务得分，获取最优的垂域业务，分配给具体垂域业务。

示例性的，通过垂域分类定位到音乐领域，音乐搜索意图。中控意图集合中仅包含MUSIC_TOPIC(音乐主题)，获取分值为0.9999393，score:{topicSet＝[MUSIC_TOPIC]，'query':['刘德华的歌曲']，'task':0.9999393}，因此，最优业务为音乐业务。

步骤S3003：将用户语音特征转化为用户语音特征向量；

将群体特征转为特征向量表示，记为用户特征向量。

步骤S3004：将语义场景转化为语义场景特征向量；

语义场景采用特征向量表示，记为语义场景特征向量。

步骤S3005：将语音数据分帧，以获取至少一个语音片段序列；

步骤S3006：基于语音片段序列确定语音序列特征向量及情感特征向量；

在一些实施例中，基于语音片段序列确定语音序列特征向量及情感特征向量的步骤，包括：

对语音片段序列进行特征抽取，以获取语音序列特征向量；

基于梅尔谱特征提取技术，获取语音片段序列对应的情感特征向量。

在一些实施例中，采用文本情感分析技术分析输入的语音文本，以确定所需表达的情感状态。它可以通过自然语言处理和情感识别算法来识别情感词汇、情感强度和情感倾向。

步骤S3007：将用户语音特征向量、语义场景特征向量、语音序列特征向量及情感特征向量输入多级神经网络，以获取情感语音向量；

其中，多级神经网络包括二维卷积网络、循环神经网络及两个全连接网络，多级神经网络的参数已在训练完成后确定。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。

循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。

全连接神经网络是一种最基础的人工神经网络结构，也称为多层感知器。在全连接神经网络中，每个神经元都与前一层和后一层的所有神经元相连接，形成一个密集的连接结构。全连接神经网络能够学习输入数据的复杂特征，并进行分类、回归等任务。

步骤S3008：基于情感语音向量确定情感类型和情感强度。

情感语音向量经soft-max(归一化指数函数)分类器以获取情感分类和情感强度。

本申请实施例结合语义场景，用户的性别、年龄特征，以及用户语音的情感特征，综合输出对语音合成的情感干预，从而使语音交互过程更加自然，提升语音助手的个性特征，提升用户的语音交互体验。

本申请实施例也可以不考虑用户输入语音数据的情感对播报语音情感的影响，情感语音模型如图31所示。将语音数据输入至训练好的情感语音模型，以获取情感类型和情感强度的步骤，包括：

识别语音数据，以获取语音文本及用户语音特征；

对语音文本进行语义理解，以获取语音数据对应的语义场景；

将用户语音特征转化为用户语音特征向量；

将语义场景转化为语义场景特征向量；

将用户语音特征向量和语义场景特征向量输入多级神经网络，以获取情感语音向量，多级神经网络包括二维卷积网络、循环神经网络及两个全连接网络；

基于情感语音向量确定情感类型和情感强度。

步骤S2803：获取语音数据对应的播报文本；

在一些实施例中，获取语音数据对应的播报文本的步骤，包括：

识别语音数据，以获取语音文本；

将语音文本进行语义理解、业务分发、垂域解析和文本生成等处理，获取语义业务场景和播报文本。

对语音文本进行语义理解，以获取语音数据对应的槽位信息及语义场景；

调用语义场景对应的服务确定所述槽位信息对应的播报文本。

由语义场景对应的服务进行槽位解析，并给出业务处理命令结果，结合处理结果，合成符合语义执行结果的播报文本。

示例性的，通过垂域分类定位到音乐领域，音乐搜索意图，并确定最优业务为音乐业务，则分发给音乐微服务进行处理。音乐微服务将解析槽位刘德华、音乐信息封装起来，调取第三方音乐媒资信息进行搜索，并获取第三方反馈结果。如20首刘德华的歌曲信息。根据音乐业务场景生成播报文本“为您找到忘情水等20首歌曲，快来听听吧！”

从情感语音模型中获取语音数据对应的槽位信息及语义场景；

步骤S2804：基于播报文本、情感类型及情感强度合成播报语音；

在一些实施例中，基于播报文本、情感类型及情感强度合成播报语音的步骤，包括：

确定所述播报文本对应的音素序列；

音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。

生成与音素序列对应的音频特征向量序列；

基于情感类型和情感强度计算音频特征情感；

基于音频特征向量序列和音频特征情感生成与情感类型和情感强度对应的语调、语调及音量的播报语音。

本申请实施例利用语音合成技术生成播报语音。语音合成技术用于将文本转换为自然流畅的语音。它可以通过合成音素、单词或句子来生成语音，并根据情感模型的输出来调整语音的语调、语速、音量等特征，以传达特定的情感状态。

将情感类型及情感强度输入情感模型中，以获取情感语音特征；

其中，情感模型可以根据情感分类和情感强度来生成相应的语音表达。情感模型是一种训练好的机器学习模型，用于将情感类型及情感强度映射到相应的语音特征。

基于情感语音特征和播报文本利用语音合成技术生成播报语音。

步骤S2805：将播报语音发送至显示设备200，以使显示设备200播放播报语音。

在一些实施例中，显示设备200在发送用户输入语音数据的同时，还发送语音交互标识，所述语音交互标识用于确定显示设备200所使用的语音程序，语音程序包括语音助手和数字人。

如果检测到所述语音交互标识为语音助手，则在生成播报语音后，将播放语音发送至显示设备200，以使显示设备200播放播报语音。还可以将播报文本与播报语音一同发给显示设备200，播报文本显示在显示设备200的用户界面上。

如果检测到所述语音交互标识为数字人，则在生成播报语音后，服务器400执行：

根据播报语音预测关键点序列；

根据关键点序列和数字人形象数据合成数字人图像数据；

在一些实施例中，数字人形象数据为用户选择数字人对应的形象数据。其中，用户选择形象可由接收到显示设备200发送数字人标识确定。

在一些实施例中，数字人形象数据为在用户选择形象或默认形象的基础上经过数字人形象参数调整后的图像或数字人参数。数字人图像数据为数字人图像帧序列或数字人参数序列。其中，数字人形象参数基于场景和/或用户情感类型确定。

将数字人图像数据和播报语音发送至显示设备200，以使显示设备200基于数字人图像数据显示数字人图像并播放播报语音。

在一些实施例中，在接收到显示设备200输入的语音数据后，对语音数据进行识别，得到语音文本及用户语音特征。对语音文本进行语义理解，得到语义场景及播报文本。将用户语音特征、语义场景(也可加入语音数据)输入情感语音模型，得到情感类型及情感强度。基于播报文本、情感类型及情感强度合成播报语音，将播报语音发送至显示设备，以使显示设备播放播报语音。需要说明的是，本申请实施例情感语音模型在训练时输入是用户语音特征、语义场景(也可加入语音数据)，输出是情感类型及情感强度。模型内部处理方法参考上文，在此不在赘述。

在一些实施例中，在接收到显示设备200输入的语音数据后，对语音数据进行识别，得到语音文本及用户语音特征。对语音文本进行语义理解，得到语义场景及播报文本。将用户语音特征、语义场景、播报文本(也可加入语音数据)输入情感语音模型，得到播报语音，将播报语音发送至显示设备，以使显示设备播放播报语音。需要说明的是，本申请实施例情感语音模型在训练时输入是用户语音特征、语义场景、播报文本(也可加入语音数据)，输出是播报语音。模型内部处理方法参考上文，在此不在赘述。

本申请实施例结合语义场景、用户语音特征等方面进行情感语音模型训练，充分挖掘用户交互特征，提升情感语音合成的自然度，提升用户体验和情感交流效果，使用户能够更加自然地与显示设备200进行交互。

在一些实施例中，本申请实施例对服务器400的一些功能做进一步的完善。服务器400执行以下步骤，如图32所示。

步骤S3201：接收显示设备200发送数字人标识及用户输入的语音数据；

其中，数字人标识用于表征用户选择的数字人形象和语音特征；

在接收显示设备200发送数字人标识及用户输入的语音数据之前，需要完成数字人的选择或定制(注册)过程。可在已注册数字人中选择想要使用的数字人。

数字人注册过程，包括以下步骤：

1)形象录制：

支持用户录制视频、拍照或选择相册图片用于虚拟人形象生成。在接收到用户录制一段视频或照片后，服务器400经过抠图、美颜、图像生成等一系列操作生成数字人形象。

2)音色定制：

音色定制是将用户录制的读几段基础文本音频通过人声克隆技术将用户声音复制或再现出来。通过音色定制为数字人进行语音交互时提供个性化的播放音色。

3)设置昵称(数字人命名)：

完成形象录制和音色定制后，为该虚拟数字人创建昵称，作为数字人标识，同一个账号下，虚拟数字人昵称不可重复。

以上步骤已在上文详细说明，在此不在赘述。

需要补充的是，在设置昵称后，还增加一个步骤：4)设置成员(例如，家庭成员)：

选择数字人录制用户对应的成员昵称，建立关联。

在一些实施例中，在设置家庭成员的过程中，可填入家庭成员昵称，并设置该家庭成员与户主的关系，从而构建家庭关系图。

在一些实施例中，在显示设备上提供添加家庭成员的创建入口，由用户自由录入，家庭成员信息包括：家庭成员昵称(为保护用户隐私可不使用真实姓名)、与户主关系(用于构建家庭关系)、序号(标识为第几个孩子，用于构建子女间的关系)。

示例性的，家庭成员创建完成后，可在用户的个人中心查看到家庭成员信息，如图33所示。基于家庭成员信息可构建家庭关系图，如图34所示。本申请实施例为了图示清晰，至画出了单线关系，实际上应画出双线关系。

在确定家庭成员信息后，在设置家庭成员的过程中，可填入家庭成员昵称即可确定数字人录制用户与户主的关系。

在设置家庭成员后，经过3-5分钟的算法训练过程，生成该用户的虚拟数字人，可选择作为数字人进行语音交互。

数字人数据存储如表5所示：

表5

数字人标识	数字人昵称	家庭成员昵称
			1	阿俊	张aa
2	阿雅	李bb
			3	老张	张cc
……	……	……

步骤S3202：确定语音数据对应的用户身份信息，以及识别语音数据，以获取语音文本；

在确定语音数据对应的用户身份信息之前，需要进行声纹注册。

在一些实施例中，声纹注册可为无感知注册，即在用户说话过程中自动识别用户声纹信息，完成声纹注册。具体为：在接收到用户输入的语音数据后，提取语音数据的声纹信息，如果该声纹信息与个人声纹库中已注册声纹信息均不匹配，则弹出提示信息，所述提示信息用于提示用户是否注册为新成员；如果接收到用户输入选择不注册的指令，则不执行注册流程；如果接收到用户输入选择注册的指令，则需要用户设置声纹昵称及家庭成员昵称，从而建立声纹账号与家庭成员之间的关联关系。为了提高声纹信息的准确性，也可补录基础文本的朗读音频。

声纹信息的数据存储如表6所示：

表6

声纹标识	声纹昵称	家庭成员昵称
			1	胡子哥	张aa
2	小仙女	李bb
			3	老张	张cc
……	……	……

在一些实施例中，声纹注册可为引导式注册。可在语音专区中查找到声纹注册功能，一般为引导用户完成3段基础文本的朗读，设置声纹昵称及家庭成员昵称，完成声纹注册，从而建立声纹账号与家庭成员之间的关联关系。

本申请实施例通过声纹识别技术分析和比对个人的声音特征来进行身份验证或识别。如图35所示，经过对用户输入语音检测、预处理(去噪等)、特征提取、声纹比对、判定结果等一系列操作，确认说话人的身份。当前说话人声纹与已注册声纹信息相似度高(大于设定阈值)，则认为是同一人。其中，可将提取的声纹特征用于声纹注册，得到声纹模型，存储至声纹库，以便后续进行声纹比对。

其中，确定语音数据对应的用户身份信息的步骤，包括：

提取语音数据的声纹信息；

在一些实施例中，提取语音数据的声纹信息的步骤，包括：

将语音数据切分为至少一个预设长度的音频数据；

对音频数据的声音信号时程进行预加重、分帧和加窗，得到加窗后的声音信号时程；

对加窗后的声音信号时程进行快速傅里叶变换，得到频谱分布信息；

基于频谱分布信息确定能量谱；

将能量谱通过一组三角形滤波器组，得到滤波器输出的对数能量；

将对数能量经过离散弦变换，得到梅尔频率倒谱系数、梅尔频率倒谱系数对应的导数和二阶导数；

确定梅尔频率倒谱系数、梅尔频率倒谱系数对应的导数和二阶导数为声纹信息。

判断声纹信息与声纹库中已注册声纹信息是否匹配；

在一些实施例中，判断声纹信息与声纹库中已注册声纹信息是否匹配的步骤，包括：

计算声纹特征信息与已注册声纹信息的相似度；

统计相似度大于相似度阈值的最大数量；

如果最大数量大于预设数量，则确定声纹信息与声纹库中已注册声纹信息相匹配；

如果最大数量不大于预设数量，则确定声纹信息与声纹库中已注册声纹信息不匹配。

如果声纹信息与声纹库中已注册声纹信息相匹配，则根据所述已注册声纹信息确定用户身份信息，即获取已注册声纹信息的声纹昵称和家庭成员昵称。

利用语音识别技术将语音数据转为为语音文本。

步骤S3203：基于数字人标识及用户身份信息确定数字人与用户的关系；

其中，用户身份信息包括说话人的家庭成员昵称。

获取数字人标识对应的家庭成员昵称；

基于说话人的家庭成员昵称与数字人标识对应的家庭成员昵称在家庭关系图中确定数字人与用户的关系。

示例性的，说话人的家庭成员昵称为张cc，数字人标识对应的家庭成员昵称为张aa，则确定数字人与用户的关系为子-父关系。

需要说明的是，用户和数字人需要都拥有家庭成员昵称才可确定数字人与用户的关系。

步骤S3204：根据语音文本确定基础文本；

将语音文本经过自然语言处理(Natural Language Processing，NLP)，以确定基础文本。其中，基础文本是指正常针对语音数据反馈的文本。自然语言处理是以语言为对象，利用计算机技术来分析、理解和处理自然语言的技术。自然语言处理包括自然语言理解(Natural Language Understanding，NLU)和自然语言生成(Natural LanguageGeneration，NLG)两部分。自然语言理解用于理解自然语言文本的意义，自然语言生成用于以自然语言文本来表达给定的意图、思想等。

根据语音文本确定基础文本的步骤，包括：

对语音文本进行分词标注处理，以获取分词信息；

对分词信息进行句法分析和语义分析，以获取槽位信息；

通过垂域分类定位槽位信息对应的领域意图；

基于领域意图及槽位信息确定基础文本。

关于根据语音文本确定基础文本的步骤已在上文详细说明，在此不再赘述。

需要说明的是，每个语音领域业务都有默认的基础文本，默认基础文本可以是业务内实时生成，也可以是预先配置的(播报语配置中数据)。如“今天的天气”，基础文本句式为{area(地区)}{date(日期)}{condition(天气)}，{temperature(温度)}，{winddir(风向)}{windlevel(风级)}，如北京市今天多云，22到29摄氏度，北风3到4级，也可选用播报语配置中数据：“为您查到天气信息”。

步骤S3205：基于基础文本及关系生成播报文本；

其中，播报文本生成方式有前置拼接、后置拼接、前置+后置拼接及替换默认基础文本等方式。

在一些实施例中，基于基础文本及关系生成播报文本的步骤，包括：

获取关系对应的拼接信息，拼接信息包括拼接位置和拼接内容，拼接位置包括前置拼接，前置拼接对应的拼接内容为根据所述关系设置的称谓；

其中，根据所述关系设置的称谓可以是由服务器随机选择，也可以由用户设置的称谓。

根据亲属关系可设置对说话人的称谓。例如爸爸可以设置称谓为父亲、爹爹、爹地、爸比、老爹、老豆，还可设置表达亲昵的形容词，如亲爱的、尊敬的、敬爱的等。

基于拼接信息与基础文本生成播报文本。

将拼接内容拼接到基础文本的拼接位置，生成播报文本。

示例性的，当用户语音输入为“今天天气怎么样”，通过语义解析领域意图和槽位等得到基础文本为“北京市今天多云，22到29摄氏度，北风3到4级”。在确定数字人与用户的关系为子-父关系后，拼接信息为前置拼接(拼接位置)-老爸(拼接内容)，则生成播报文本为“老爸，北京市今天多云，22到29摄氏度，北风3到4级”。

在一些实施例中，如果基础文本中包括特殊文本内容，可将基础文本替换为针对特殊文本内容的文本。例如，在查询天气时，想突出天气条件中的某一项，如天气预警和温差过大等，可以根据天气信息拼接成想要的播报文本，然后将基础文本替换，生成播报文本。

在一些实施例中，如果基础文本中包括特殊文本内容，可针对该特殊文本内容会配置一些与提醒相关的文本，添加到基础文本的后面。根据天气状况配置一些关系的话术，通过后置拼接的方式与基础文本组合。

在一些实施例中，拼接位置还包括后置拼接，基于基础文本及关系生成播报文本的步骤，包括：

获取用户的年龄；

在一些实施例中，获取用户的年龄的步骤，包括：利用语音识别技术确定用户的年龄。

在一些实施例中，在声纹注册时，可增加添加年龄的选项，可直接在声纹注册信息中获取用户的年龄。

基于年龄及基础文本，确定后置拼接对应的拼接内容。

在基础文本中包括特殊文本内容，针对该特殊文本内容会配置一些与提醒相关的文本，针对不同年龄设置的不同拼接内容。

示例性的，当用户语音输入为“今天天气怎么样”，通过语义解析领域意图和槽位等得到的基础文本包含暴风雨天气，则可将基础文本替换为“今天有暴雨蓝色预警，6-8级风”。在确定说话人年龄为老年人时，后置拼接对应的拼接内容为“没事就不要出门了”，生成播报文本为“今天有暴雨蓝色预警，6-8级风，没事就不要出门了”。在确定说话人年龄为中年人时，后置拼接对应的拼接内容为“出门记得做好防护”，生成播报文本为“今天有暴雨蓝色预警，6-8级风，出门记得做好防护”。可根据关系添加称谓到最终播报文本，如“爸爸，今天有暴雨蓝色预警，6-8级风，没事就不要出门了”。

检测当前日期是否为目标日期，所述目标日期为节日和/或纪念日，节日包括父亲节、母亲节、儿童节、情人节等，纪念日包括生日和结婚纪念日等，纪念日可由用户自行编写和存储。

如果检测到当前日期为目标日期，则判断目标日期与关系是否相关；

示例性的，当前日期是父亲节，如果数字人与用户的关系为子-父关系，则父亲节与子-父关系相关。如果数字人与用户的关系为爷-孙关系，则父亲节与爷-孙关系不相关。

如果目标日期与关系相关，则根据关系确定目标文本，所述目标文本包括祝福文本和/或提醒文本；

如果根据关系及目标日期确定用户是被祝福人，确定目标文本为祝福文本；

如果根据关系及目标日期确定用户是祝福人，确定目标文本为提示文本。

示例性的，当前日期是父亲节，如果数字人与用户的关系为子-父关系，则确定目标文本为祝福文本，祝福文本为“爸爸，父亲节快乐，祝福您岁岁愉快，年年如意”。如果数字人与用户的关系为父-子关系，则确定目标文本为提示文本，提示文本为“今天是父亲节，记得给爸爸送祝福哦”。

检测当前日期是否为目标日期；

如果检测到当前日期为目标日期，则判断目标日期与用户是否相关；

示例性的，当前日期是儿童节，如果用户为儿童，则儿童节与用户相关。如果用户为成人，则儿童节与用户不相关。

如果目标日期与用户相关，生成目标文本。

示例性的，播报文本为“祝宝贝儿童节快乐”。

检测预设范围日期内是否包括目标日期，预设范围日期可以是当前日期基于当前日期后三天；

如果预设范围日期内包括目标日期，则判断目标日期与用户或关系是否相关；

如果目标日期与用户或关系相关，生成目标文本。如果目标日期不是当天，则目标文本为提示文本，提示还有多少天是目标日期。

在一些实施例中，如果解析语音文本得到的意图为节日或纪念日查询意图，则调用接入查询接口得到节日或纪念日名称，在播报文本配置中查询到对应的目标文本，然后与称谓拼接，生成播报文本。

在一些实施例中，如果解析语音文本得到的意图不为节日或纪念日查询意图，获取所述用户对应的节日查询标识；

如果节日查询标识为1，则执行获取意图对应的基础文本的同时，调用接入查询接口，执行检测当前日期是否为目标日期的步骤，并将所述用户对应的节日查询标识设置为0。每天固定时间，如00:00，将节日查询标识重新设置为1，以保证节日查询指令每天每个用户只查询一次。如果获取到目标文本，将目标文本添加至所述基础文本中，即将目标文本拼接到基础文本前面或后面，得到播报文本。

对于所有的语音应用场景，均可使用上述方法生成播报文本，不同的业务领域播报语存在细微差异，但整体思路都是获取业务关键信息，获取对应的业务信息(基础文本)，再结合说话人年龄和节日信息，生成最终的播报文本。

步骤S3206：基于数字人标识对应的语音特征和形象数据，以及播报文本生成数字人数据；

数字人生成算法是生成对抗网络，生成对抗网络是一种由生成器和判别器组成的神经网络模型。生成器负责生成逼真的数字人图像，而判别器则负责判断生成的图像是真实的还是伪造的。通过不断的对抗和学习，生成器能够逐渐生成更加逼真的数字人图像。

基于数字人标识对应的语音特征和形象数据，以及播报文本生成数字人数据的步骤，包括：

根据数字人标识对应的语音特征和播报文本合成播报语音；

根据播报语音预测关键点序列；

根据关键点序列和数字人标识对应的形象数据合成数字人图像数据；数字人数据为数字人图像数据和播报语音。

在一些实施例中，数字人形象数据可根据领域意图和/或用户情感类型进行装饰。

步骤S3207：将数字人数据发送至显示设备200，以使显示设备200根据数字人数据播放数字人图像及语音。

在一些实施例中，显示设备200在检测到进入目标场景的时长超过预设时长后，发送超时消息至服务器400。超时消息包括目标场景。

服务器400在接收超时消息后，基于关系和目标场景生成提示文本；

基于数字人标识对应的语音特征和形象数据，以及提示文本生成数字人数据；

将数字人数据发送至显示设备，以使显示设备根据数字人数据播放数字人的图像及语音。

示例性的，用户说出“我要玩麻将”，数字人播报“老爸，快来让他们见识一下你高超的胡牌技术吧”。当检测到停留在麻将界面时间超过1个小时，将超时消息上传至服务器400，生成数字人数据下发至显示设备200，显示设备200显示数字人播报“老爸，已经玩很长时间了，结束一局，去休息一下吧”，如图36所示。

本申请实施例中数字人通过真人录像录音生成，通过建立家庭关系图，基于声纹信息和虚拟数字人信息，获取说话人和数字人的亲属关系，生成如亲人聊天似的趣味播报内容，让用户使用语音时有亲人陪伴的感觉，从而提升用户体验。

本申请的一些实施例提供一种数字人交互方法，所述方法适用于服务器400，服务器400被配置为：接收显示设备200发送用户输入的语音数据；识别语音数据，得到识别结果；获取识别结果对应的媒资数据；如果识别结果中包括实体数据，获取实体数据对应的数字人数据，其中，实体数据包括人物名称和/或媒资名称，数字人数据包括数字人的图像数据和播报语音，媒资数据包括音视频数据或界面数据；将数字人数据及媒资数据发送至显示设备，以使显示设备播放音视频数据或显示界面数据，以及根据数字人数据播放数字人的图像及语音。本申请实施例通过识别出显示设备200上传的语音数据中包括实体数据，将实体数据对应的数字人数据下发至显示设备200，结合语义理解进行相应场景展示，提升语音交互的趣味性体验。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种服务器，其特征在于，被配置为：

接收显示设备发送用户输入的语音数据；

识别所述语音数据，得到识别结果；

2.根据权利要求1所述的服务器，其特征在于，在接收显示设备发送用户输入的语音数据之前，所述服务器，被配置为：

生成至少一个人物名称对应的绘画模型；

生成至少一个媒资名称对应的动作模型；

构建和训练条件对抗网络；

对所述待存储数字人数据进行特征标注并存储至服务器。

3.根据权利要求2所述的服务器，其特征在于，所述服务器执行生成至少一个人物名称对应的绘画模型，被进一步配置为：

获取预设数量所述人物名称对应的图片；

4.根据权利要求2所述的服务器，其特征在于，所述服务器执行生成至少一个媒资名称对应的动作模型，被进一步配置为：

利用标注后的样本视频数据对所述动作生成模型进行训练；

5.根据权利要求2所述的服务器，其特征在于，所述服务器执行生成至少一个人物名称对应的基于音调和韵律的语音合成模型，被进一步配置为：

6.根据权利要求2所述的服务器，其特征在于，所述服务器执行对所述待存储数字人数据进行特征标注并存储至服务器，被进一步配置为：

7.根据权利要求1所述的服务器，其特征在于，所述服务器执行如果所述识别结果中包括实体数据，获取所述实体数据对应的数字人数据，被进一步配置为：

8.根据权利要求1所述的服务器，其特征在于，所述服务器执行如果所述识别结果中包括实体数据，获取所述实体数据对应的数字人数据，被进一步配置为：

9.一种显示设备，其特征在于，包括：

显示器，被配置为显示用户界面；

通信器，被配置为与服务器进行数据通信；

控制器，被配置为：

接收用户输入的语音数据；

将所述语音数据通过所述通信器发送至服务器；

接收所述服务器基于所述语音数据下发的数字人数据；

根据所述数字人数据播放所述数字人的图像及语音。

10.一种数字人交互方法，其特征在于，包括：

接收显示设备发送用户输入的语音数据；

识别所述语音数据，得到识别结果；