CN116168686B

CN116168686B - 数字人动态拟真方法、装置及存储介质

Info

Publication number: CN116168686B
Application number: CN202310438267.8A
Authority: CN
Inventors: 李兵; 刘一立; 陈波; 谢诗星; 徐东
Original assignee: Carbon Silk Road Culture Communication Chengdu Co ltd
Current assignee: Yuanmeng Space Cultural Communication Chengdu Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-11
Anticipated expiration: 2043-04-23
Also published as: CN116168686A

Abstract

本发明公开了一种数字人动态拟真方法、装置及存储介质，涉及动态拟真技术领域。该方法包括根据语法结构将音频会议中的语音段分割成多个语音块；提取多个语音块的语音特征和语义特征；将多个语音块、多个语音块所对应的运动块、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块、多个语音块的语音特征以及多个语音块的语义特征作为预先训练的训练模型的输入进行运算，得到与多个语音块对应的动作序列；基于与多个语音块对应的动作序列，控制数字人执行与动作序列对应的动作。本发明公开的方法、装置及存储介质可使数字人在模拟演讲者时动作更连贯自然，不会出现动作僵硬、不连贯的问题。

Description

数字人动态拟真方法、装置及存储介质

技术领域

本发明属于动态拟真技术领域，具体涉及一种数字人动态拟真方法、装置及存储介质。

背景技术

在虚拟会议中，常常通过数字人来模拟演讲者的动作，从而呈现演讲者现场演讲的效果。

现有的虚拟会议中，较常用的方式是通过提取语音特征，并根据语音特征确定出与语音特征相对应的手势，然后控制数字人依次执行输出的手势。然而，采用这样的方式，容易出现动作僵硬、不连贯的问题。

因此，如何提供一种有效的方案以避免数字人在模拟演讲者时出现动作僵硬、不连贯的问题，已成为现有技术中一亟待解决的难题。

发明内容

本发明的目的是提供数字人动态拟真方法、装置及存储介质，用以解决现有技术中存在的上述问题。

为了实现上述目的，本发明采用以下技术方案：

第一方面，本发明提供了一种数字人动态拟真方法，包括：

根据语法结构将音频会议中的语音段分割成多个语音块，所述语音段为一句话所对应的语音；

提取所述多个语音块的语音特征和语义特征，所述语音特征用于表征声音强度和/或语言重复度；

将所述多个语音块、所述多个语音块所对应的运动块、所述多个语音块所对应的相邻语音段中的语音块、所述多个语音块的在前语音段中的语音块所对应的运动块、所述多个语音块的语音特征以及所述多个语音块的语义特征作为预先训练的训练模型的输入进行运算，得到与所述多个语音块对应的动作序列；

基于与所述多个语音块对应的动作序列，控制数字人执行与所述动作序列对应的动作；

其中，语音块所对应的运动块是指用于执行语音块所表征动作的人体关节点，所述训练模型包括输入层、隐藏层和输出层；

所述训练模型的输入层用于根据所述多个语音块和所述多个语音块所对应的运动块输出第一特征；

所述训练模型的隐藏层用于根据所述第一特征、所述多个语音块所对应的相邻语音段中的语音块以及所述多个语音块的在前语音段中的语音块所对应的运动块输出第二特征；

所述训练模型的输出层用于根据所述第二特征、所述多个语音块的语音特征以及所述多个语音块的语义特征输出与所述多个语音块对应的动作序列。

基于上述公开的内容，本发明先根据语法结构将音频会议中的语音段分割成多个语音块，并提取多个语音块的语音特征和语义特征，然后将多个语音块、多个语音块所对应的运动块、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块、多个语音块的语音特征以及多个语音块的语义特征作为预先训练的训练模型的输入进行运算，得到与多个语音块对应的动作序列，最后基于与多个语音块对应的动作序列，控制数字人执行与动作序列对应的动作。如此，能够根据音频会议中的语音段控制数字人执行相应的运动，从而模拟演讲者的动作，呈现出演讲者现场演讲的效果。其中，神经网络模型包括输入层、隐藏层和输出层，神经网络模型的输入层用于根据多个语音块和多个语音块所对应的运动（即用于执行该多个语音块所表征动作的人体关节点）块输出第一特征，如此在模拟演讲者动作过程中，考虑到了语音块和用于执行该多个语音块所表征动作的人体关节点，从而使得模拟出演讲者的动作。训练模型的隐藏层用于根据输入层输出的第一特征、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块输出第二特征，如此在模拟演讲者动作过程中，既考虑到了前后的语句，又考虑到了执行该在前语句的多个语音块所表征动作的人体关节点，从而输出更为自然平滑的动作序列，即数字人在模拟演讲者时动作更连贯自然，不会出现动作僵硬、不连贯的问题。训练模型的输出层用于根据第二特征、多个语音块的语音特征（表征声音强度和/或语言重复度）以及多个语音块的语义特征输出与多个语音块对应的动作序列，如此在模拟演讲者动作过程中，还考虑到了演讲者的声音强度和语言重复度等来叠加随机扰动动作实现各岗位自然的表达。

通过上述的设计，本发明可通过数字人在模拟出演讲者动作的同时，能够输出更为自然平滑的动作序列，使得数字人在模拟演讲者时动作更连贯自然，不会出现动作僵硬、不连贯的问题，同时在模拟演讲者动作过程中，还考虑到了演讲者的声音强度和语言重复度等来叠加随机扰动动作实现各岗位自然的表达，形成个性化的演讲风格。

在一个可能的设计中，在将音频会议中的语音段分割成多个语音块之前，所述方法还包括：

根据语法结构将样本语音段分割成多个样本语音块；

提取所述多个样本语音块的语音特征和语义特征；

将所述多个样本语音块、所述多个样本语音块所对应的运动块、所述多个样本语音块所对应的相邻样本语音段中的样本语音块、所述多个样本语音块的在前样本语音段中的样本语音块所对应的运动块、所述多个样本语音块的语音特征以及所述多个样本语音块的语义特征作为神经网络模型的输入，样本人物在播放所述样本语音段时所对应的动作序列作为输出进行训练，得到所述训练模型；

其中，所述神经网络模型包括输入层、隐藏层和输出层；

所述神经网络模型的输入层用于根据所述多个样本语音块和所述多个样本语音块所对应的运动块，输出第一样本特征；

所述神经网络模型的隐藏层用于根据所述第一样本特征、所述多个样本语音块所对应的相邻样本语音段中的样本语音块以及所述多个样本语音块的在前样本语音段中的样本语音块所对应的运动块，输出第二样本特征；

所述神经网络模型的输出层用于根据所述第二样本特征、所述多个样本语音块的语音特征以及所述多个样本语音块的语义特征，输出样本人物在播放所述样本语音段所对应的动作序列。

在一个可能的设计中，所述训练模型为多层感知的全连接神经网络模型。

在一个可能的设计中，所述根据语法结构将音频会议中的语音段分割成多个语音块，包括：

根据语法结构，通过自然语言处理算法将音频会议中的语音段分割成多个语音块。

在一个可能的设计中，所述提取所述多个语音块的语音特征和语义特征，包括：

通过vq-wav2vec模型提取所述多个语音块的语音特征；

通过BERT模型提取所述多个语音块的语义特征。

在一个可能的设计中，所述基于与所述多个语音块对应的动作序列，控制数字人执行与所述动作序列对应的动作，包括：

基于与所述多个语音块对应的动作序列，在播放与所述多个语音块所对应的语音段时控制数字人执行与所述动作序列对应的动作。

在一个可能的设计中，所述方法还包括：

延时播放音频会议中的语音段，以使数字人执行的动作与音频会议中的语音段保持同步。

第二方面，本发明提供了一种数字人动态拟真装置，包括：

分割单元，用于根据语法结构将音频会议中的语音段分割成多个语音块，所述语音段为一句话所对应的语音；

提取单元，用于提取所述多个语音块的语音特征和语义特征，所述语音特征用于表征声音强度和/或语言重复度；

运算单元，用于将所述多个语音块、所述多个语音块所对应的运动块、所述多个语音块所对应的相邻语音段中的语音块、所述多个语音块的在前语音段中的语音块所对应的运动块、所述多个语音块的语音特征以及所述多个语音块的语义特征作为预先训练的训练模型的输入进行运算，得到与所述多个语音块对应的动作序列；

控制单元，用于基于与所述多个语音块对应的动作序列，控制数字人执行与所述动作序列对应的动作；

第三方面，本发明提供了另一种数字人动态拟真装置，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如上述第一方面所述的数字人动态拟真方法。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行第一方面所述的数字人动态拟真方法。

第五方面，本发明提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如第一方面所述的数字人动态拟真方法。

有益效果：

本发明提供的数字人动态拟真方法，能够通过数字人在模拟出演讲者动作的同时，能够输出更为自然平滑的动作序列，使得数字人在模拟演讲者时动作更连贯自然，不会出现动作僵硬、不连贯的问题，同时在模拟演讲者动作过程中，还考虑到了演讲者的声音强度和语言重复度等来叠加随机扰动动作实现各岗位自然的表达，形成个性化的演讲风格。

附图说明

图1为本申请实施例提供的数字人动态拟真方法的流程图；

图2为本申请实施例提供的数字人动态拟真装置的结构示意图；

图3为本申请实施例提供的另一数字人动态拟真装置的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍，显而易见地，下面关于附图结构的描述仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。

应当理解，尽管本文可能使用术语第一、第二等等来描述各种单元，但是这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

应当理解，对于本文中可能出现的术语“和/或”，其仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B三种情况；对于本文中可能出现的术语“/和”，其是描述另一种关联对象关系，表示可以存在两种关系，例如，A/和B，可以表示：单独存在A，单独存在A和B两种情况；另外，对于本文中可能出现的字符“/”，一般表示前后关联对象是一种“或”关系。

为了避免数字人在模拟演讲者时出现动作僵硬、不连贯的问题，本申请实施例提供了一种数字人动态拟真方法、装置及存储介质，该数字人动态拟真方法、装置及存储介质可使数字人在模拟演讲者时动作更连贯自然，不会出现动作僵硬、不连贯的问题。

本申请实施例提供的数字人动态拟真方法可以应用于用于虚拟会议的服务器或用于虚拟会议的用户终端，所述用户终端可以但不限于是个人电脑、智能手机、平板电脑、膝上型便携计算机、个人数字助理（personal digital assistant，PDA）等。可以理解，所述执行主体并不构成对本申请实施例的限定。

下面将对本申请实施例提供的数字人动态拟真方法进行详细说明。

如图1所示，是本申请实施例第一方面提供的数字人动态拟真方法的流程图，该数字人动态拟真方法可以但不限于包括如下步骤S101-S104。

步骤S101.根据语法结构将音频会议中的语音段分割成多个语音块。

其中，语音段为一句话所对应的语音。

本申请实施例中，演讲者所说的完整的一句所对应的语音可以称之为一个语音段。在音频会议中，可以根据语法结构将音频会议中的每个语音段分割成多段，为便于描述，本申请实施例中将分割成的每一端语音称之为一个语音块。其中，在进行分割块时，可以通过自然语言处理（Natural Language Processing，NLP）算法将音频会议中的每个语音段分割成多个语音块。为便于理解，本申请实施例中以对一个语音段进行动态拟真的过程为例进行说明。

步骤S102.提取多个语音块的语音特征和语义特征。

其中，语音特征用于表征声音强度和/或语言重复度。

本申请实施例中，可但不限于通过wav2vec模型、vq-wav2vec模型或wav2vec2.0模型提取多个语音块的语音特征。可以但不限于通过BERT（Bidirectional EncoderRepresentation from Transformers）模型或GPT（Generative Pre-trainedTransformer）模型提取多个语音块的语义特征。具体原理本申请实施例中不做详细说明。

步骤S103.将多个语音块、多个语音块所对应的运动块、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块、多个语音块的语音特征以及多个语音块的语义特征作为预先训练的训练模型的输入进行运算，得到与多个语音块对应的动作序列。

其中，语音块所对应的运动块是指用于执行语音块所表征动作的人体关节点，所述人体关节点可以但不限于包括头部、左手、左前臂、左后臂、右手、右前臂、右后臂、躯干、左小腿、左大腿、右小腿和右大腿等。

本申请实施例中，预先根据用户在演讲过程全身动作将人体划分为多个运动块（人体关节点），每个运动块对应有多个动作（如平移、旋转等），并定义不同动作对应的运动块（即不同动作需要哪些人体关节点参与），以及不同语音块所表征的动作。

本申请实施例中预先训练有用于输出与语音块对应的动作序列的训练模型，并可将多个语音块、多个语音块所对应的运动块、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块、多个语音块的语音特征以及多个语音块的语义特征作为预先训练的训练模型的输入进行运算，得到与多个语音块对应的动作序列。

其中，训练模型包括输入层、隐藏层和输出层。训练模型的输入层用于根据多个语音块和多个语音块所对应的运动块（即执行该多个语音块所对应动作的人体关节点）输出第一特征。训练模型的隐藏层用于根据输入层输出的第一特征、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块（即执行前一语音段中各语音块所对应动作的人体关节点）输出第二特征，如此既考虑到了前后的语句，又考虑到了执行该在前语句的多个语音块所表征动作的人体关节点，从而使得能够输出更为自然平滑的动作序列，即数字人在模拟演讲者时动作会更连贯自然，不会出现动作僵硬、不连贯的问题。训练模型的输出层用于根据隐藏层输出的第二特征、多个语音块的语音特征以及多个语音块的语义特征输出与该多个语音块对应的动作序列，如此在模拟演讲者动作过程中，还考虑到了演讲者的声音强度和语言重复度等来叠加随机扰动动作实现各岗位自然的表达。

本申请实施例中，训练模型可以采用多层感知的全连接神经网络模型。

训练前述训练模型的过程，可以但不限于包括如下步骤S201-S203。

步骤S201.根据语法结构将样本语音段分割成多个样本语音块。

步骤S202.提取多个样本语音块的语音特征和语义特征。

步骤S203.将多个样本语音块、多个样本语音块所对应的运动块、多个样本语音块所对应的相邻样本语音段中的样本语音块、多个样本语音块的在前样本语音段中的样本语音块所对应的运动块、多个样本语音块的语音特征以及多个样本语音块的语义特征作为神经网络模型的输入，样本人物在播放样本语音段时所对应的动作序列作为输出进行训练，得到训练模型。

其中，神经网络模型包括输入层、隐藏层和输出层。该样本人物和播放样本语音段分别为同一演讲音视频文件中的演讲人物和语音段。

神经网络模型的输入层用于根据多个样本语音块和所述多个样本语音块所对应的运动块，输出第一样本特征。神经网络模型的隐藏层用于根据第一样本特征、多个样本语音块所对应的相邻样本语音段中的样本语音块以及多个样本语音块的在前样本语音段中的样本语音块所对应的运动块，输出第二样本特征。神经网络模型的输出层用于根据第二样本特征、多个样本语音块的语音特征以及多个样本语音块的语义特征，输出样本人物在播放样本语音段所对应的动作序列。

步骤S104.基于与多个语音块对应的动作序列，控制数字人执行与动作序列对应的动作。

具体的，可基于与多个语音块对应的动作序列，在播放与多个语音块所对应的语音段时控制数字人执行与动作序列对应的动作。

在通过训练模型生成多个语音块对应的动作序列时，生成动作序列需要的一定的时间，从而导致生成的动作序列晚于用于生成该动作序列的多个语音块。因此，在一个或多个实施例中，可延时播放音频会议中的语音段，以使数字人执行的动作与音频会议中的语音段保持同步。延长的时长可根据实际情况确定。

综上，本发明提供的数字人动态拟真方法，先根据语法结构将音频会议中的语音段分割成多个语音块，并提取多个语音块的语音特征和语义特征，然后将多个语音块、多个语音块所对应的运动块、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块、多个语音块的语音特征以及多个语音块的语义特征作为预先训练的训练模型的输入进行运算，得到与多个语音块对应的动作序列，最后基于与多个语音块对应的动作序列，控制数字人执行与动作序列对应的动作。如此，能够根据音频会议中的语音段控制数字人执行相应的运动，从而模拟演讲者的动作，呈现出演讲者现场演讲的效果。其中，神经网络模型包括输入层、隐藏层和输出层，神经网络模型的输入层用于根据多个语音块和多个语音块所对应的运动块输出第一特征，如此在模拟演讲者动作过程中，考虑到了语音块和用于执行该多个语音块所表征动作的人体关节点，从而使得模拟出演讲者的动作。训练模型的隐藏层用于根据输入层输出的第一特征、多个语音块所对应的相邻语音段中的语音块、多个语音块的在前语音段中的语音块所对应的运动块输出第二特征，如此在模拟演讲者动作过程中，既考虑到了前后的语句，又考虑到了执行该在前语句的多个语音块所表征动作的人体关节点，从而输出更为自然平滑的动作序列，即数字人在模拟演讲者时动作更连贯自然，不会出现动作僵硬、不连贯的问题。训练模型的输出层用于根据第二特征、多个语音块的语音特征（声音强度和/或语言重复度）以及多个语音块的语义特征输出与多个语音块对应的动作序列，如此在模拟演讲者动作过程中，还考虑到了演讲者的声音强度和语言重复度等来叠加随机扰动动作实现各岗位自然的表达，形成个性化的演讲风格。另外，人体关节点可以但不限于包括头部、左手、左前臂、左后臂、右手、右前臂、右后臂、躯干、左小腿、左大腿、右小腿和右大腿等，如此可通过数字人模拟演讲者全身的动作。

请参阅图2，本申请实施例第二方面提供了一种数字人动态拟真装置，该数字人动态拟真装置包括：

本实施例第二方面提供的装置的工作过程、工作细节和技术效果，可以参见实施例第一方面，于此不再赘述。

如图3所示，本申请实施例第三方面提供了另一种数字人动态拟真装置，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如实施例第一方面所述的数字人动态拟真方法。

具体举例的，所述存储器可以但不限于包括随机存取存储器（RAM）、只读存储器（ROM）、闪存（Flash Memory）、先进先出存储器（FIFO）和/或先进后出存储器（FILO）等等；所述处理器可以不限于采用型号为STM32F105系列的微处理器、ARM（Advanced RISCMachines）、X86等架构处理器或集成NPU（neural-network processing units）的处理器；所述收发器可以但不限于为WiFi（无线保真）无线收发器、蓝牙无线收发器、通用分组无线服务技术（General Packet Radio Service，GPRS）无线收发器、紫蜂协议（基于IEEE802.15.4标准的低功耗局域网协议，ZigBee）无线收发器、3G收发器、4G收发器和/或5G收发器等。

本实施例第四方面提供了一种存储包含有实施例第一方面所述的数字人动态拟真方法的指令的计算机可读存储介质，即所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如第一方面所述的数字人动态拟真方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

本实施例第五方面提供了一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行如实施例第一方面所述的数字人动态拟真方法，其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

应当理解，在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实例中，可以不以不必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数字人动态拟真方法，其特征在于，包括：

2.根据权利要求1所述的数字人动态拟真方法，其特征在于，在将音频会议中的语音段分割成多个语音块之前，所述方法还包括：

根据语法结构将样本语音段分割成多个样本语音块；

提取所述多个样本语音块的语音特征和语义特征；

其中，所述神经网络模型包括输入层、隐藏层和输出层；

3.根据权利要求1所述的数字人动态拟真方法，其特征在于，所述训练模型为多层感知的全连接神经网络模型。

4.根据权利要求1所述的数字人动态拟真方法，其特征在于，所述根据语法结构将音频会议中的语音段分割成多个语音块，包括：

5.根据权利要求1所述的数字人动态拟真方法，其特征在于，所述提取所述多个语音块的语音特征和语义特征，包括：

通过vq-wav2vec模型提取所述多个语音块的语音特征；

通过BERT模型提取所述多个语音块的语义特征。

6.根据权利要求1所述的数字人动态拟真方法，其特征在于，所述基于与所述多个语音块对应的动作序列，控制数字人执行与所述动作序列对应的动作，包括：

7.根据权利要求1所述的数字人动态拟真方法，其特征在于，所述方法还包括：

8.一种数字人动态拟真装置，其特征在于，包括：

9.一种数字人动态拟真装置，其特征在于，包括依次通信相连的存储器、处理器和收发器，其中，所述存储器用于存储计算机程序，所述收发器用于收发消息，所述处理器用于读取所述计算机程序，执行如权利要求1～7任意一项所述的数字人动态拟真方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，执行如权利要求1～7任意一项所述的数字人动态拟真方法。