CN116129004A

CN116129004A - 数字人生成方法及装置、计算机可读存储介质、终端

Info

Publication number: CN116129004A
Application number: CN202310135294.8A
Authority: CN
Inventors: 沈旭立
Original assignee: Huayuan Computing Technology Shanghai Co ltd
Current assignee: Huayuan Computing Technology Shanghai Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-16
Anticipated expiration: 2043-02-17
Also published as: CN116129004B; WO2024168981A1

Abstract

一种数字人生成方法及装置、计算机可读存储介质、终端，所述方法包括：确定输入语音以及目标情绪信息；对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。采用上述方案，可以生成带有情绪的数字人，且实现数字人的情绪可编辑化。

Description

数字人生成方法及装置、计算机可读存储介质、终端

技术领域

本发明涉及计算机技术领域，尤其涉及一种数字人生成方法及装置、存储介质、终端。

背景技术

数字人生成任务，是通过一段给定的语音或文字，生成一段说话人为视角中心的数字人视频。数字人具有特定的形象，可被应用于新闻广播，旅游场所介绍，产品服务介绍等领域。

目前的数字人生成方法有很多种，例如，基于生成对抗网络(GenerativeAdversarial Network，GAN)或者基于隐式神经场(Neural Radiance Fields，NeRF)等理论的数字人生成方法。这些方法的目的在于尽可能生成质量高清、嘴型与语音对齐的数字人，但无法生成带有情绪的数字人。

然而，在现实使用场景中，仅能够进行语音表达的数字人已无法满足用户的交互需求。以产品服务介绍应用场景为例，期待生成的数字人不仅能够正确回复用户提出的问题，同时展示出符合场景需求的表情状态，例如，可以基于给定的目标情绪或感知到的用户的情绪，相应地生成与用户共情的数字人，从而使得生成的数字人可以更好的传递情绪，提升用户体验。这样的情绪可编辑的数字人生成方案在医疗康复、自动驾驶、家政服务等领域存在较大需求。但是，目前的数字人生成技术中，尚缺乏可以编辑数字人的情绪的有效方案。

发明内容

本发明实施例解决的技术问题是如何生成带有情绪的数字人，且实现数字人的情绪可编辑化。

为解决上述技术问题，本发明实施例提供一种数字人生成方法，包括以下步骤：确定输入语音以及目标情绪信息；对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。

可选的，所述目标情绪信息是预设的，或者，所述目标情绪信息是基于所述输入语音和情绪预测模型确定的。

可选的，在得到所述输入语音对应的数字人图像之后，所述方法还包括：采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像以及预设的损失函数，对所述数字人生成模型进行训练，得到优化后的数字人生成模型；将所述融合矩阵输入至所述优化后的数字人生成模型，得到所述输入语音对应的优化后数字人图像。

可选的，所述目标情绪信息指示的情绪类型和所述输入语音中包含的情绪类型一致。

可选的，所述预设的损失函数为：

其中，L表示所述损失函数，A表示所述数字人图像或所述原始图像在第一方向上的像素点个数，B表示所述数字人图像或所述原始图像在第二方向上的像素点个数，(a,b)表示所述数字人图像或所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点，ch表示像素点的色彩通道，I_g,ch(a,b)表示所述原始图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值，I_ch(a,b)表示所述数字人图像中第一方向上的第a行与第二方向上的第b列的交叉像素点在ch通道上的像素值。

可选的，在得到所述输入语音对应的优化后数字人图像之后，所述方法还包括：对多段输入语音分别对应的优化后数字人图像进行拼接处理，得到数字人生成视频。

可选的，对所述目标情绪信息进行编码得到情绪编码矩阵，包括：基于预设的情绪编码长度，对所述目标情绪信息进行预编码，得到多组情绪子编码，每组情绪子编码中包含两个相同的情绪子编码；对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码；基于所得到的多个情绪编码，确定所述情绪编码矩阵。

可选的，采用下述公式，对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码，并基于所得到的多个情绪编码，确定所述情绪编码矩阵：

P＝[sin(2⁰πE),cos(2⁰πE),sin(2¹πE),cos(2¹πE)…,sin(2^L-1πE),cos(2^L-1πE)]；

其中，P表示所述情绪编码矩阵，E表示所述目标情绪信息，L表示预编码得到的情绪子编码的组数，2^L-1πE表示第L组情绪子编码中的一个情绪子编码，sin(2^L-1πE)表示第L组情绪子编码中的其中一个情绪子编码的正弦值，cos(2^L-1πE)表示第L组情绪子编码中另一个情绪子编码的余弦值，[x]表示由x组成的矩阵。

可选的，对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵，包括：将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置，以得到所述融合矩阵，其中，所述语音编码矩阵的时间维度保持不变。

可选的，采用下述公式，将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置，以得到所述融合矩阵：

P∈R^2L；

v∈R^t×s；

其中，P表示所述情绪编码矩阵，v标识所述语音编码矩阵，

表示所述融合矩阵，t表示所述语音编码矩阵的行数，即所述语音编码矩阵的时间维度，s表示所述语音编码矩阵中每一行语音编码的长度，2L表示情绪编码长度。

可选的，所述数字人生成模型选自：基于对抗生成网络GAN的模型、基于隐式神经场NeRF的模型。

本发明实施例还提供一种数字人生成装置，包括：输入信息确定模块，用于确定输入语音以及目标情绪信息；编码模块，用于对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；融合模块，用于对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；数字人生成模块，用于将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述数字人生成方法的步骤。

本发明实施例还提供一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述数字人生成方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供一种数字人生成方法，确定输入语音以及目标情绪信息；对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。本发明实施例中，通过矩阵融合方法，将输入语音与目标情绪信息进行融合，得到融合矩阵后输入数字人生成模型，使得生成的数字人不仅可以完成语音表达，还能够展示符合所述目标情绪信息指示的表情状态，即，生成具有情绪的数字人。进一步，由于所述目标情绪信息可以根据场景需要而设置，在不同的应用场景中，可以设置不同的目标情绪信息，从而实现数字人的情绪可编辑化。

进一步，所述目标情绪信息可以是预设的，例如，用户可以根据个人需求或期待而预先设置所述目标情绪信息，由此可以使得生成的数字人带有期望的情绪/表情状态。或者，所述目标情绪信息也可以是基于所述输入语音和情绪预测模型确定的，由此可以使得生成的数字人的情绪与输入语音中包含的说话者的情绪一致，生成具有共情能力的数字人，提升用户体验。

进一步，在得到所述输入语音对应的数字人图像之后，所述方法还包括：采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像以及预设的损失函数，对所述数字人生成模型进行训练，得到优化后的数字人生成模型；将所述融合矩阵输入至所述优化后的数字人生成模型，得到所述输入语音对应的优化后数字人图像。通过采用输入语音对应的数字人图像和原始图像(例如，用户表达所述输入语音时针对该用户采集的其脸部图像)构建训练数据集，对数字人生成模型进行优化，可以使得数字人生成模型学习到所述原始图像中包含的用户真实情绪。由此，在输入融合矩阵至优化后的数字人生成模型之后，可以获得更加符合用户真实情绪状态的数字人，提升数字人的共情效果。

进一步，对所述目标情绪信息进行编码得到情绪编码矩阵，包括：基于预设的情绪编码长度，对所述目标情绪信息进行预编码，得到多组情绪子编码，每组情绪子编码中包含两个相同的情绪子编码；对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码；基于所得到的多个情绪编码，确定所述情绪编码矩阵。在本发明实施例中，通过对所述目标情绪信息进行编码，以将所述目标情绪信息向量化或矩阵化，相较于采用单个标量定义的目标情绪信息作为输入，可以提升所述目标情绪信息的输入维度，有助于使得生成的数字人能更准确地表达所述目标情绪信息指示的情绪状态。

进一步，对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵，包括：将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置，以得到所述融合矩阵，其中，所述语音编码矩阵的时间维度保持不变。通过采用上述拼接方式进行矩阵融合，使得融合矩阵中包含语音编码矩阵中的语音编码以及情绪编码矩阵中的情绪编码。由此，可以使得生成的数字人不仅可以准确表达输入语音的语音特征，还可以准确表达目标情绪的情绪特征。

附图说明

图1是本发明实施例中一种数字人生成方法的流程图；

图2是本发明实施例中另一种数字人生成方法的部分流程图；

图3是本发明实施例中一种数字人生成装置的结构示意图。

具体实施方式

如背景技术所言，目前的数字人生成方法有很多种，例如，基于生成对抗网络(Generative Adversarial Network，GAN)或者基于隐式神经场(Neural RadianceFields，NeRF)等理论的数字人生成方法。这些方法的目的在于尽可能生成质量高清、嘴型与语音对齐的数字人，但无法生成带有情绪的数字人。

为解决上述技术问题，本发明实施例提供一种数字人生成方法，以弥补现有技术缺陷，所述数字人生成方法具体包括：确定输入语音以及目标情绪信息；对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。

由上，在本发明实施例中，通过矩阵融合方法，将输入语音与目标情绪信息进行融合，得到融合矩阵后输入数字人生成模型，使得生成的数字人不仅可以完成语音表达，还能够展示符合所述目标情绪信息指示的表情状态，即，生成具有情绪的数字人。进一步，由于所述目标情绪信息可以根据场景需要而设置，在不同的应用场景中，可以设置不同的目标情绪信息，从而实现数字人的情绪可编辑化。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细说明。

参照图1，图1是本发明实施例中一种数字人生成方法的流程图。所述数字人生成方法可以应用于具有数据处理以及数字人生成功能的终端，所述终端可以包括但不限于：手机、计算机、平板电脑、智能可穿戴设备(例如，智能手表)、车载式终端设备，还可以为服务器、云平台等。

所述方法可以包括步骤S11至步骤S14：

步骤S11：确定输入语音以及目标情绪信息；

步骤S12：对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；

步骤S13：对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；

步骤S14：将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。

在步骤S11的具体实施中，所述输入语音可以是现场针对说话者表达的一段语音进行录制后输入的语音，也可以是从历史采集的语音数据库中选取的一段语音。每段输入语音具有各自的内容和时长，以及可以包含对应的说话者/表达者的情绪。

非限制性地，所述输入语音的表达者可以包括但不限于：正在驾驶车辆的司机、正在做家务的人、正在玩游戏的儿童、生病住院的患者、独居的老年人等等。

非限制性地，所述目标情绪信息指示情绪可以包括但不限于：开心、悲伤、疲惫、担心、惊讶等等。

在具体实施中，可以采用标量E定义所述目标情绪信息。例如，将“开心”情绪赋值为1，将“悲伤”情绪赋值为2，将“疲惫”情绪赋值为3等等。

在一种具体实施方式中，所述目标情绪信息可以是预设的。具体而言，预设的目标情绪信息指示的情绪，例如可以是用户期望生成的数字人带有的情绪。由此，可以结合实际场景需要，预先设定满足场景需要的目标情绪信息，方便、灵活地实现数字人的情绪可编辑化。

在另一种具体实施方式中，所述目标情绪信息可以是基于所述输入语音和情绪预测模型确定的。具体而言，可以将所述输入语音输入所述情绪预测模型(或情绪感知模型)，以使得模型预测出所述输入语音中包含的情绪(具体可以指所述输入语音的说话者在表达该输入语音时的真实情绪)。由此，可以使得生成的数字人的情绪与输入语音中包含的说话者的真实情绪一致，生成的数字人可以与说话者共情，提升用户体验。

在步骤S12的具体实施中，对输入语音进行编码的过程，可以是对模拟的语音信号进行编码以将模拟信号转化成数字信号的过程。具体地，可以采用语音编码模型确定所述语音编码矩阵，例如可以包括如下步骤：将所述输入语音输入至语音编码模型；将所述语音编码模型的输出作为所述输入语音对应的语音编码矩阵。其中，所述语音编码模型可以是现有的可以实现语音编码功能的各种模型。

对所述目标情绪信息进行编码的过程，可以是对单一标量定义的所述目标情绪信息转换为情绪编码矩阵(或情绪编码向量)的过程，其中，所述情绪编码矩阵中的每个元素表示一个情绪编码。

进一步，所述步骤S12中对所述目标情绪信息进行编码得到情绪编码矩阵，具体可以包括：基于预设的情绪编码长度，对所述目标情绪信息进行预编码，得到多组情绪子编码，每组情绪子编码中包含两个相同的情绪子编码；对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码；基于所得到的多个情绪编码，确定所述情绪编码矩阵。

在一个具体实施例中，所述情绪编码矩阵可以是一维矩阵，也即，所述情绪编码矩阵的行数可以为1，行数为1的情绪编码矩阵也可以称为情绪编码向量。其中，所述情绪编码长度可以用于指示所述情绪编码矩阵的每一行包含的情绪编码的数量或者所述情绪编码向量中包含的情绪编码的数量。

更进一步地，可以采用下述公式，对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码，并基于所得到的多个情绪编码，确定所述情绪编码矩阵：

其中，P表示所述情绪编码矩阵，E表示所述目标情绪信息，E可以为标量，L表示预编码得到的情绪子编码的组数，2^L-1πE表示第L组情绪子编码中的一个情绪子编码，sin(2^L-1πE)表示第L组情绪子编码中的其中一个情绪子编码的正弦值，cos(2^L-1πE)表示第L组情绪子编码中另一个情绪子编码的余弦值，[x]表示由x组成的矩阵。

由上述公式可知，P表示的是一维的情绪编码矩阵，也即，情绪编码向量。并且，由于每组情绪子编码中包含两个情绪子编码，则所述情绪编码长度(所述情绪编码向量包含的情绪编码的数量)为情绪子编码的组数的两倍，即，2L。

在本发明实施例中，通过对所述目标情绪信息进行编码，以将所述目标情绪信息向量化或矩阵化，相较于采用单个标量定义的目标情绪信息作为输入，可以提升所述目标情绪信息的输入维度，有助于使得生成的数字人能更准确地表达所述目标情绪信息指示的情绪状态。

在步骤S13的具体实施中，所述语音编码矩阵通常是一个二维矩阵，该语音编码矩阵的行数表示矩阵的时间维度，具体可以指对输入语音采用预设帧率分帧处理后得到的语音帧数，其中，每帧语音具有各自的采集时刻；该语音编码矩阵的每一行包含若干个语音编码，每一行包含的语音编码的数量，也可以称为语音编码长度。

进一步地，所述步骤S13可以包括：将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置，以得到所述融合矩阵，其中，所述语音编码矩阵的时间维度保持不变。

更进一步地，可以采用下述公式，将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置，以得到所述融合矩阵：

P∈R^2L；

v∈R^t×s；

其中，P表示所述情绪编码矩阵，所述情绪编码矩阵是一维的情绪编码矩阵，也可称为情绪编码向量，2L表示情绪编码长度，即，所述情绪编码向量中包含的情绪编码的数量，v标识所述语音编码矩阵，

表示所述融合矩阵，t表示所述语音编码矩阵的行数，即，所述语音编码矩阵的时间维度，s表示所述语音编码矩阵中每一行语音编码的长度，即，所述语音编码矩阵每一行包含的语音编码的数量。

在上述拼接方法中，所述预设位置例如可以是所述语音编码矩阵中每一行语音编码的最后一个语音编码的后一个位置。具体而言，可以将所述最后一个语音编码的后一个位置作为接入位置；然后将所述情绪编码矩阵中的各个情绪编码，按照各个情绪编码的原来顺序插入所述接入位置。

又如，所述预设位置可以是所述语音编码矩阵中每一行语音编码的第一个语音编码的前一个位置。具体而言，可以将所述第一个语音编码的前一个位置作为接入位置；然后将所述情绪编码矩阵中的各个情绪编码，按照各个情绪编码的原来顺序插入所述接入位置。

在一种具体实施方式中，所述情绪编码矩阵中的各个情绪编码拼接至每一行语音编码中的方式，可以是将各个情绪编码作为一串编码整体插入。由此，可以降低矩阵融合的复杂度，且减少拼接过程中的错误，提高矩阵融合的准确性。

在另一种具体实施方式中，所述情绪编码矩阵中的各个情绪编码拼接至每一行语音编码中的方式，也可以是将各个情绪编码分别插入每一行语音编码中的不同位置。由此，可以避免不同位置的编码差异过大，提高融合矩阵的编码的均衡性。

需要指出的是，在本发明实施例中，可以根据具体需求，在所述语音编码矩阵中每一行语音编码中选择其他适当位置作为拼接的接入位置(即，所述预设位置)，以及选取其他适当的拼接方式。

需要指出的是，除了采用上述拼接方式进行矩阵融合，在具体实施中，也可以结合实际场景需要，采用其他适当的矩阵融合方式。例如，采用两个矩阵中的元素直接相加求和、加权求和等。本发明实施例对于矩阵融合方式不做限定。

在步骤S14的具体实施中，作为示例，所述数字人生成模型可以是基于隐式神经场NeRF的模型，该模型可以采用隐式神经场的多层感知函数(Multi-Layer Perception，MLP)表示。

具体地，可以采用体渲染的生成方式生成数字人图像，具体步骤可以如下：

将所述融合矩阵

相机视角d以及像素的位置信息x，输入到MLP(θ)中，公式如下：

其中，MLP(θ)表示所述多层感知函数，用于指示基于隐式神经场NeRF的模型，d表示相机视角或光线方向，每个像素具有各自的光线方向d，c_θ表示在光线方向d上的像素的颜色，σ_θ表示像素的透明度，θ为MLP函数的参数，x表示像素的位置信息，通常是一个二维坐标(a,b)，0≤a≤A，0≤b≤B，a，A，b，B均为正整数。

为获得在光线r(w)＝o+wd传播在相机中心o沿相机视角d的像素值C，可以采用体渲染的方法确定在近端距离w_n和远端距离w_f的像素值，公式如下：

r(w)表示光线，w表示光线射出的距离，d表示相机视角或光线方向，w_n表示近端距离，w_f表示远端距离，

表示像素的像素值，T(w)表示光线方向沿w_n至w的累计透明度，

θ表示MLP函数的参数，c_θ表示光线方向d上的像素的颜色，σ_θ表示像素的透明度，z表示T(w)中光线射出的距离，r(z)表示T(w)中的光线。

其中σ_θ与c_θ为上述MLP函数基于所述融合矩阵，结合相机视角d与像素位置信息x预测出来的值。

至此，可以通过利用所述融合矩阵以及上述体渲染公式，渲染出所述数字人图像I中的全部像素点，所述数字人图像的分辨率为A×B。

需要指出的是，所述数字人生成模型也可以是现有的其他模型，例如，基于对抗生成网络GAN的模型。本发明实施例对此不做限定。

参照图2，图2是本发明实施例中另一种数字人生成方法的部分流程图。所述另一种数字人生成方法可以包括图1所述实施例示出的步骤S11至步骤S14，还可以包括步骤S21至步骤S22，其中，步骤S21可在步骤S14之后执行。以下对各个步骤进行说明。

在步骤S21中，采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像以及预设的损失函数，对所述数字人生成模型进行训练，得到优化后的数字人生成模型。

具体而言，可以采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像构建训练数据集，然而采用所述训练数据集合所述预设的损失函数，对数字人生成模型进行训练。

其中，所述输入语音对应的原始图像，可以是说话者在表达所述输入语音的过程中，相机针对该说话者采集的图像，或者从摄像头针对该说话者采集的视频中选取的图像。可以理解的是，所述原始图像中至少包含可以反映该说话者的情绪状态的身体部位(例如，脸部区域)，从而可以使得所述数字人生成模型可以根据所述原始图像，确定该说话者表达所输入语音时的情绪类型。

进一步，所述目标情绪信息指示的情绪类型和所述输入语音中包含的情绪类型一致。

进一步，所述预设的损失函数为：

其中，所述第一方向例如可以是所述数字人图像或所述原始图像所在的二维空间坐标系的横坐标方向，所述第二方向例如可以所述数字人图像或所述原始图像所在的二维空间坐标系的纵坐标方向。

在步骤S22中，将所述融合矩阵输入至所述优化后的数字人生成模型，得到所述输入语音对应的优化后数字人图像。

在本发明实施例中，通过采用输入语音对应的数字人图像和原始图像构建训练数据集，对数字人生成模型进行优化，可以使得数字人生成模型学习到所述原始图像中包含的用户表达所述输入语音时的真实情绪特征。由此，在输入融合矩阵至优化后的数字人生成模型之后，可以获得更加符合说话者真实情绪状态的数字人，使得数字人可以传递说话者的情绪，提升数字人的共情效果。

可以理解的是，采用输入语音对应的原始图像构建的训练数据集对所述数字人生成模型进行训练，相比于采用其他图像(例如建模图像)构建的训练数据集对所述数字人生成模型进行训练，也可以获得更优的训练效果，使得优化后的数字人生成模型输出的数字人图像更加符合真实情况。

进一步，在得到所述输入语音对应的优化后数字人图像之后，所述方法还包括：对多段输入语音分别对应的优化后数字人图像进行拼接处理，得到数字人生成视频。

具体地，在实际应用中，对于每段输入语音，所述数字人生成模型通常可以生成对应的一帧数字人图像。为了拼接得到所述数字人生成视频，可以根据该段输入语音的时长，以及预设的视频帧率，对该段输入语音对应的数字人图像进行复制(复制的份数为：该段输入语音的时长/视频帧率)，得到该段输入语音对应的多帧数字人图像；对各段输入语音对应的数字人图像进行拼接处理，得到所述数字人生成视频。

通过采用本发明实施例提供的数字人生成方案，可以生成带有情绪的数字人，并可以根据实际应用需要，编辑数字人的情绪，实现数字人的情绪可编计化，以弥补现有技术空缺，满足当前现实场景需要，提升使用体验感。

例如，在驾驶场景中，用户(例如，司机或乘客)与车载式终端设备进行语音交互，所述车载式终端设备从用户的输入语音中感知到用户的情绪状态为“疲倦”疲倦情绪，可以生成一段严肃的数字人视频，以提示用户注意危险。又例如，在智能医疗服务场景中，终端设备感知到患者的情绪状态为“担心”，可以生成一段表情柔和的数字人视频，以安抚用户的情绪。

在具体实施中，有关步骤S21至步骤S22的更多详细内容请参照前文以及图1中的步骤描述进行执行，此处不再赘述。

参照图3，图3是本发明实施例中一种数字人生成装置的结构示意图。所述装置可以包括：

输入信息确定模块31，用于确定输入语音以及目标情绪信息；

编码模块32，用于对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；

融合模块33，用于对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；

数字人生成模块34，用于将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。

关于该数字人生成装置的原理、具体实现和有益效果请参照前文及图1至图2示出的关于数字人生成方法的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时执行上述图1至图2示出的数字人生成方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器，还可以包括光盘、机械硬盘、固态硬盘等。

具体地，在本发明实施例中，所述处理器可以为中央处理单元(centralprocessing unit，简称CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specificintegrated circuit，简称ASIC)、现成可编程门阵列(field programmable gate array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，简称ROM)、可编程只读存储器(programmable ROM，简称PROM)、可擦除可编程只读存储器(erasable PROM，简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM，简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器(random access memory，简称RAM)可用，例如静态随机存取存储器(staticRAM，简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM，简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，简称DR RAM)。

本发明实施例还提供了一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行上述图1至图2示出的数字人生成方法的步骤。

所述终端可以包括但不限于手机、计算机、平板电脑等终端设备，还可以为服务器、云平台等。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。

本申请实施例中出现的第一、第二等描述，仅作示意与区分描述对象之用，没有次序之分，也不表示本申请实施例中对设备个数的特别限定，不能构成对本申请实施例的任何限制。

需要指出的是，本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种数字人生成方法，其特征在于，包括：

确定输入语音以及目标情绪信息；

对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；

对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；

将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。

2.根据权利要求1所述的方法，其特征在于，所述目标情绪信息是预设的，或者，所述目标情绪信息是基于所述输入语音和情绪预测模型确定的。

3.根据权利要求1所述的方法，其特征在于，在得到所述输入语音对应的数字人图像之后，所述方法还包括：

采用所述输入语音对应的数字人图像、所述输入语音对应的原始图像以及预设的损失函数，对所述数字人生成模型进行训练，得到优化后的数字人生成模型；

将所述融合矩阵输入至所述优化后的数字人生成模型，得到所述输入语音对应的优化后数字人图像。

4.根据权利要求2或3所述的方法，其特征在于，所述目标情绪信息指示的情绪类型和所述输入语音中包含的情绪类型一致。

5.根据权利要求3所述的方法，其特征在于，所述预设的损失函数为：

6.根据权利要求3所述的方法，其特征在于，在得到所述输入语音对应的优化后数字人图像之后，所述方法还包括：

对多段输入语音分别对应的优化后数字人图像进行拼接处理，得到数字人生成视频。

7.根据权利要求1所述的方法，其特征在于，对所述目标情绪信息进行编码得到情绪编码矩阵，包括：

基于预设的情绪编码长度，对所述目标情绪信息进行预编码，得到多组情绪子编码，每组情绪子编码中包含两个相同的情绪子编码；

对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码，并基于所得到的多个情绪编码，确定所述情绪编码矩阵。

8.根据权利要求7所述的方法，其特征在于，采用下述公式，对于每组情绪子编码，确定其中一个情绪子编码的正弦值，以及确定另一个情绪子编码的余弦值，从而确定各个情绪子编码对应的情绪编码，并基于所得到的多个情绪编码，确定所述情绪编码矩阵：

9.根据权利要求1所述的方法，其特征在于，对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵，包括：

将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置，以得到所述融合矩阵；

其中，所述语音编码矩阵的时间维度保持不变。

10.根据权利要求9所述的方法，其特征在于，采用下述公式，将所述情绪编码矩阵中的各个情绪编码拼接至所述语音编码矩阵中每一行语音编码的预设位置，以得到所述融合矩阵：

P∈R^2L；

v∈R^t×s；

其中，P表示所述情绪编码矩阵，v标识所述语音编码矩阵，

11.根据权利要求1所述的方法，其特征在于，所述数字人生成模型选自：

基于对抗生成网络GAN的模型、基于隐式神经场NeRF的模型。

12.一种数字人生成装置，其特征在于，包括：

输入信息确定模块，用于确定输入语音以及目标情绪信息；

编码模块，用于对所述输入语音进行编码得到语音编码矩阵，以及对所述目标情绪信息进行编码得到情绪编码矩阵；

融合模块，用于对所述语音编码矩阵和所述情绪编码矩阵进行融合，得到融合矩阵；

数字人生成模块，用于将所述融合矩阵输入至数字人生成模型，得到所述输入语音对应的数字人图像。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至10任一项所述数字人生成方法的步骤。

14.一种终端，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至10任一项所述数字人生成方法的步骤。