CN117093669A

CN117093669A - 数字人动作智能生成方法和数字人动作智能生成设备

Info

Publication number: CN117093669A
Application number: CN202310270767.5A
Authority: CN
Inventors: 宋震; 包仪华; 谌俊宇; 刘朝
Original assignee: Digital Life Beijing Technology Co ltd
Current assignee: Digital Life Beijing Technology Co ltd
Priority date: 2023-03-16
Filing date: 2023-03-16
Publication date: 2023-11-21

Abstract

本发明公开了一种数字人动作智能生成方法和数字人动作智能生成设备，所述数字人动作智能生成方法，包括：获取数字人输出的目标文本；根据所述目标文本，获取动作引导词；根据所述动作引导词，得到所述数字人的目标动作；控制所述数字人执行所述目标动作。本发明实施例的数字人动作智能生成方法，可对数字人所要说的目标文本进行释义，以通过目标文本的含义确定数字人所要说的话的内容的意义，即通过将自然语言的语义信息转化为数字人动作的动作引导词，并生成具有高度语义一致性的数字人动作序列，可以让数字人的行为更加自然，提升用户体验。

Description

数字人动作智能生成方法和数字人动作智能生成设备

技术领域

本发明涉及数字人控制技术领域，尤其是涉及一种数字人动作智能生成方法和适用于该数字人动作智能生成方法的数字人动作智能生成设备。

背景技术

英伟达Omniverse中的Audio2Gesture是一种语音驱动的数字人动作生成技术。它使用深度学习模型将语音信号转换为数字人的运动序列。具体来说，该技术使用Transformer神经网络模型将语音信号转换为语音特征向量，然后将其输入到一个生成器模型中，生成数字人动作序列。Omniverse中的Audio2Gesture并不考虑语音的语义信息，因此生成的动作通常不会准确地反映语音的含义。相反，它主要关注语音的节奏和语调，生成的数字人动作可能只是一个简单的、不具体含义的运动序列，如此导致数字人的动作不自然，甚至于可能与数字人的语言不匹配，存在改进的空间。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种数字人动作智能生成方法，对数字人所要说的语言文本进行分析以用于生成数字人的动作，利于使得数字人执行动作更加自然、舒适，数字人更加智能。

根据本发明实施例的数字人动作智能生成方法，包括：获取数字人输出的目标文本；根据所述目标文本，获取动作引导词；根据所述动作引导词，得到所述数字人的目标动作；控制所述数字人执行所述目标动作。

本发明实施例的数字人动作智能生成方法，可对数字人所要说的目标文本进行释义，以通过目标文本的含义确定数字人所要说的话的内容的意义，即通过将自然语言的语义信息转化为数字人动作的动作引导词，并生成具有高度语义一致性的数字人动作序列，可以让数字人的行为更加自然，提升用户体验。

根据本发明一些实施例的数字人动作智能生成方法，所述根据所述目标文本，获取动作引导词包括：将所述目标文本输入至预先训练的大语言模型中，以获取对应的动作引导词。

根据本发明一些实施例的数字人动作智能生成方法，所述根据所述动作引导词，得到所述数字人的目标动作，包括：在动作数据库中匹配与所述动作引导词相似度最高的动作名词；将所述相似度最高的动作名词对应的动作作为所述目标动作。

根据本发明一些实施例的数字人动作智能生成方法，所述动作数据库中包括：至少一个动作名词和与所述至少一个动作名词匹配的动作。

根据本发明一些实施例的数字人动作智能生成方法，还包括：在所述动作数据库中的动作名词与所述动作引导词相似度均低于设定值时，将所述动作引导词输入所述动作数据库中作为新的动作名词，且输入与所述新的动作引导词匹配的动作。

根据本发明一些实施例的数字人动作智能生成方法，所述根据所述动作引导词，得到所述数字人的目标动作，包括：利用动作生成器中将所述动作引导词转化为与所述动作引导词匹配的动作序列，以得到所述目标动作。

根据本发明一些实施例的数字人动作智能生成方法，还包括：根据所述动作引导词，得到与所述动作引导词相匹配的面部动作；将所述面部动作融合于所述动作序列中。

本发明还提出了一种数字人动作智能生成设备。

根据本发明一些实施例的数字人动作智能生成设备，适用于上述任一种实施例所述的数字人动作智能生成方法，且所述数字人动作智能生成设备包括：获取模块，所述获取模块用于获取数字人输出的目标文本；语义特征提取器，所述语义特征提取器用于根据所述目标文本，获取动作引导词；融合模块，所述融合模块用于根据所述动作引导词，得到所述数字人的目标动作；控制模块，所述控制模块用于控制所述数字人执行所述目标动作。

本发明还提出了一种服务器，所述服务器包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现上述任一种实施例所述的数字人动作智能生成方法。

本发明还提出了一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现上述任一种实施例所述的数字人动作智能生成方法。

所述数字人动作智能生成设备、所述服务器、所述计算机程序的非易失性计算机可读存储介质和上述的数字人动作智能生成方法相对于现有技术所具有的优势相同，在此不再赘述。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明实施例的数字人动作智能生成方法的执行步骤图；

图2是根据本发明实施例的数字人动作智能生成方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

下面参考图1-图2描述根据本发明实施例的数字人动作智能生成方法，其中，数字人是人工智能和计算机图形学的结合体，是一种具有人类形态和行为的人工智能应用。数字人可以应用于各种场景，例如教育、游戏、表演等领域。如果数字人的动作不符合语义，会让用户感到不自然和不真实，降低用户的体验感。本发明中的数字人动作智能生成方法在执行过程中，可对数字人所要说的目标文本进行释义，以通过目标文本的含义确定数字人所要说的话的内容的意义，进而根据实际表达的意义生成相应的目标动作，使得最终数字人输出的动作能够更加贴合数字人说出的话，使得数字人的动作更加智能。

如图1-图2所示，根据本发明实施例的数字人动作智能生成方法，包括：

S1：获取数字人输出的目标文本。其中，实际的输出方式可为通过语音的方式说出来。其中，目标文本为数字人即将要语言表达的文字内容，该目标文本的内容也可为人工制作的，也可以是机器生成的，如通过自然语言处理技术从对话中提取出来的文字。具体的目标文本可为常规语言，如为“我要喝水”、“你好，我是A”、“今天天气有点冷”等。

S2：根据目标文本，获取动作引导词。其中，动作引导词为从目标文本中获取到的与动作相关的词，动作引导词可为对目标文本的语义的进一步地理解，即动作引导词可包含目标文本的语义含义，换言之，动作引导词并非完全是目标文本的原文，为能够表达目标文本的含义的相关动作词。如目标文本为“你好”，获取的动作引导词可为与之对应的打招呼的动作如“朝前摆手”。

S3：根据动作引导词，得到数字人的目标动作。其中，在获取到动作引导词之后，可通过动作引导词得到数字人的目标动作，如可将动作引导词结合到动作数据库中，从动作数据库中选择与动作引导词相对应的动作，或者可通过生成器针对动作引导词生成相应的动作。如在动作数据库中提前录好与动作引导词对应的动作，以在动作数据库直接寻找与动作引导词对应的动作。由此，可生成数字人的目标动作，便于数字人在说话的同时进行相应的动作示意。

S4：控制数字人执行目标动作。即在获得目标动作时，可将对应的动作指令发送至数字人的控制模块中，使得控制模块可驱动数字人的肢体、面部等进行相应的动作，进而保证数字人在进行语言输出时，能够匹配有相应的动作，实现数字人的智能化应用。

由此，本发明实施例的数字人动作智能生成方法，可对数字人所要说的目标文本进行释义，以通过目标文本的含义确定数字人所要说的话的内容的意义，即通过将自然语言的语义信息转化为数字人动作的动作引导词，其中，通过动作引导词在动作数据库中匹配更加准确的动作，同时可结合生成器生成更加自然生动的动作，从而生成具有高度语义一致性的数字人动作序列，可以让数字人的行为更加自然，提升用户体验。同时，如果数字人的动作和语义匹配，用户可以更好地理解数字人所表达的意图，提升交互效率。由此，相较于现有技术中英伟达Omniverse中的Audio2Gesture将语音信号转为数字人的运动序列的方式，产生的动作更加自然、贴合于数字人语言的本意，使得数字人的行为、表达更加自然、生动，进而提升数字人的智能化程度。

在一些实施例中，根据目标文本，获取动作引导词包括：

将目标文本输入至预先训练的大语言模型中，以获取对应的动作引导词。其中，大语言模型(LLM)是指使用大量的文本数据预训练的深度神经网络模型，能够学习和生成自然语言。大语言模型具有强大的泛化能力和迁移能力，可以应用于多种自然语言处理任务。其中最知名的大语言模型是chatgpt模型，它有超过1750亿个参数，并且展现了一些突现能力，比如上下文学习。上下文学习是指对于一个预训练好的大语言模型，迁移到新任务上的时候，只需要给模型输入几个示例(示例输入和示例输出对)，模型就能为新输入生成正确输出而不需要对模型做fine-tuning。即在执行本申请中的方法时，可预先通过大量的目标文本和对应的动作引导词进行模型训练，即形成目标文本与动作引导词的对应库，从而在识别目标文本时，能够自动匹配对应的动作引导词。

其中，输入方式可采用prompt，prompt是指用于引导模型生成期望的输出的一种输入方式。prompt可以是语句、代码块或词语串。prompt的作用是为不同的任务提供上下文信息，帮助模型理解输入和输出之间的关系。恰当的中文翻译可能有多种，比如提示、启发、引导等。

由此，在实际执行方法的步骤时，目标文本可在大语言模型中自动匹配对应的动作引导词，即不需临时进行匹配，匹配效率高，从而使得数字人呈现较快的反应能力，即动作引导词最终转换为动作时可与数字人的语言输出时机相匹配。进而，可将动作引导词输出给下一处理模块，如为融合模块，以在融合模块中根据动作引导词、动作数据库和生成器生成对应的目标动作。

在一些实施例中，将目标文本输入至大语言模型中，以获取对应的动作引导词包括：

首先，识别目标文本的语义；即通过大语言模型识别目标文本所指代的含义，具体地，可通过大语言模型对目标文本的语义和上下文信息进行更全面和深入的理解，从而更加准确地生成符合语义的动作指导。

以及，根据语义对目标文本的内容分类为多个不同类别的词语；即在目标文本的内容较长时，可对目标文本中的内容进行划分，以将目标文本的内容划分为多个不同类别的词语，且不同的词语可代表不同的含义。如目标文本为“我带你和你的小伙伴参观博物馆”，可将目标文本划分为“我带”、“你和你的小伙伴”、“参加博物馆”。

进一步地，根据多个词语获取动作引导词；由此，可根据划分后的多个词语分别获取对应的动作引导词，以通过多个动作引导词产生连贯的动作序列，使得数字人可连续作出多个与语义匹配的动作，行为更加生活。

在一些实施例中，根据语义对目标文本的内容分类为多个不同类别的词语包括：

将目标文本中的主语、谓语和宾语分别分为不同的类别的词语。如目标文本为“我牵着你走”，可划分为“我”、“牵着你”、“走”，从而可对应形成三个动作引导词，如“我”为指向自己，“牵着你”为牵手动作，“走”为行走动作。

由此，实现对目标文本的细致解析，对目标文本中的语义和上下文信息进行更全面和深入的理解，从而更准确地生成符合语义的动作指导，达到更好的语义一致性：使用文本信息可以更好地捕捉到文本的语义含义，生成的动作序列更加符合文本的语义和意图，具有更好的语义一致性。

换言之，这个步骤的作用是将自然语言的语义信息转化为数字人的动作引导词。且可使用语义特征提取器，它是基于大语言模型的提取器。大语言模型通过深度学习技术从大量的文本数据中训练得到，能够自动学习并表示自然语言中的语法、语义和上下文信息。在实际应用时，例如，通过合适的动作引导词问大预言模型在说“大家好，我是一名老师。”时，应该做出什么样的动作。大语言模型会返回：

打招呼动作：当说出“大家好”时，可以通过挥手或者点头的方式向听众问好，以表明自己的友好和礼貌。

自我介绍动作：当说出“我是一名老师”时，可以做出类似于指向自己的动作，或者手指向自己的胸口，表示自我介绍。

表情动作：在说话的同时，可以适当调整面部表情，表达出自信、温和、友善等情绪，以更好地与听众建立联系。

通过这种方式，我们可以获得生成动作时和语义相匹配的动作引导词，这些引导词可以作为后续生成数字人动作序列的指导。

在一些实施例中，根据动作引导词，得到数字人的目标动作，包括：

先在动作数据库中匹配与动作引导词相似度最高的动作名词；需要说明的是，在进行动作数据库的建立时，可预先在动作数据库中输入大量的执行动作，且每个执行动作均对应有相应的动作名词，即在获取需要的执行动作时，确定与该执行动作对应的动作名词即可。其中，在动作引导词能够与动作数据库中的动作名词进行完全匹配时，可直接输出与动作名词对应的执行动作，但在动作引导词与动作名词不完全相同匹配时，可对动作引导词进行分析，获取与动作引导词相似度最高的动作名词且进一步地根据选择中的动作名词匹配对应的执行动作作出目标动作的生成元素。

进而将相似度最高的动作名词对应的动作用于生成目标动作。即在最终生成目标动作时，可直接将动作数据库中的选中的执行动作作为目标动作，也可将选中的执行动作结合到生成器中进行进一步地优化，从而产生更加自然的目标动作，提高数字人活动的生动性。

在一些实施例中，数字人动作智能生成方法还包括建立动作数据库：建立动作数据库包括预先输入动作名词和与动作名词匹配的动作。

即在执行数字人动作智能生成方法之前，可预先建立动作数据库，即输入大量的执行动作，且每个执行动作可对应备注一个动作名词，其中，执行动作的数量和动作名词的数量不限，数据库越大越利于匹配更加精确地动作。

其中，动作数据库中包括：至少一个动作名词和与至少一个动作名词匹配的动作，即动作名词的数量可根据实际的需求进行灵活地输入，以保证根据动作引导词能够找到与之匹配的动作名词，进而利于生成相应的目标动作。

在一些实施例中，数字人动作智能生成方法还包括：

在动作数据库中的动作名词与动作引导词相似度均低于设定值时，将动作引导词输入动作数据库中作为新的动作名词，且输入与新的动作引导词匹配的动作。换言之，在对动作引导词和动作数据库中的动作名词进行匹配时，若未搜索到相似度较高的动作名词，即当前动作数据库中的动作与数字人实际需要表达的动作无法有效地匹配，此时，可将动作引导词和与该动作引导词对应的动作输入到动作数据库中，以更新动作数据库，同时，数字人也可执行新的动作，丰富数字人的动作。

在一些实施例中，根据动作引导词，得到数字人的目标动作包括：

利用动作生成器中将动作引导词转化为与动作引导词匹配的动作序列，以得到目标动作。通过生成器可采用更为智能的方式将动作引导词转换为更加真实、自然的动作。需要说明的是，现有的文字引导绘画是一种基于生成式深度学习技术的艺术生成方法，通过将文字描述转化为图像内容，并将其与随机噪声向量相结合，生成高分辨率的艺术作品。而本发明中，可用生成器将给定的文字描述转化为数字人的动作序列，并且具有一定的随机性，能够产生不同的数字人动作序列，使得生成的数字人动作更加真实自然。

在一些实施例中，数字人动作智能生成方法还包括：

首先，根据动作引导词，得到与动作引导词相匹配的面部动作；换言之，可根据动作引导词生成面部动作，如微笑、难过、委屈、开心等具有人物表情的面部动作。

例如，在动作引导词为自我介绍时，可面带微笑的动作，使得数字人的表情更加亲和。

进一步地，将面部动作融合于动作序列中。即在根据动作引导词确定人物语言表达时的情绪状态后，可将对应增加的面部动作接合到动作序列中，从而使得数字人最终输出的动作，不仅能够产生实质的行为动作，且可伴有相应的面部表情，使得数字人的呈现更加灵活、生动。其中，面部表情不仅包括脸部动作，还可包括眼神等视觉上的变化。

以及，还可以通过引入更多的动作引导词和动作数据库来拓展方法。此外，也可以通过改进生成器的算法和模型，使得数字人动作的生成更加高效和精准。例如，引入视觉信息可以使得数字人动作更加真实自然。另外，还可以利用深度学习技术对数字人动作进行优化和自适应，根据观众的反馈和需求，进一步改进和升级数字人动作的表现。

在本发明中，语言模型的选择可以采用不同的模型，如BERT、GPT、T5等；在生成器中，可以使用不同的生成算法，如VAE、GAN、Diffusion等；动作数据库的选择和构建方式也可以因应用场景不同而变化，如可以使用不同的动作采集和标注工具，或者使用不同的运动捕捉设备和算法。

本发明中的数字人动作智能生成方法具有一下诸多优点：

1.更高的语义理解能力：使用大语言模型可以对文本中的语义和上下文信息进行更全面和深入的理解，从而更准确地生成符合语义的动作指导。

2.更好的语义一致性：使用文本信息可以更好地捕捉到文本的语义含义，生成的动作序列更加符合文本的语义和意图，具有更好的语义一致性。

3.更高的自由度和扩展性：使用动作数据库和生成器结合文本和大语言模型，可以灵活地扩展和改进系统，增加更多的引导词和动作，提高生成的动作的多样性和自然性。

4.更加普适的应用场景：相比较于语音信息，文本信息更容易获得和处理，因此这种方法可以应用于更加普遍的数字人应用场景，例如数字人表演、游戏、教育、交互设计等领域。

本发明还提出了一种数字人动作智能生成设备。

根据本发明实施例的数字人动作智能生成设备，适用于上述任一种实施例的数字人动作智能生成方法，且数字人动作智能生成设备包括：获取模块、语义特征提取器、融合模块和控制模块。

其中，获取模块用于获取数字人输出的目标文本；语义特征提取器用于根据目标文本，获取动作引导词；融合模块用于根据动作引导词，得到数字人的目标动作；控制模块用于控制数字人执行目标动作。

由此，通过在数字人动作智能生成设备执行上述方法时，如图2所示，获取模块输入对应的目标文本，目标文本进入到语义特征提取器中，语义特征提取器中通过prompt输入方式将目标文本输入到大语言模型(LLM)中，进一步地，由大语言模型(LLM)输出返回文本，即输出动作引导词，再进一步地，融合模块将动作引导词在动作数据库以及生成器中生成对应的动作序列，最终朝向控制模块输出对应的动作序列，其中，控制模块安装于数字人，且控制模块可驱动数字人执行上述的动作序列，即作出与目标文本相对应的动作。

此外，对于其中的组成单元和步骤的联接方式，也可以进行变化和替换。例如，可以将生成器和语言模型一起训练，或者将动作数据库中的数据直接输入到生成器中进行训练，而不是像我们提出的方法一样将其作为中间步骤。这些不同的实现方式都可能会对方法的效果和性能产生影响，需要在实际应用中进行验证和选择。

本发明还提出了一种服务器，包括存储器和处理器，存储器中存储有计算机程序，该计算机程序被处理器执行时实现上述数字人动作智能生成方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述

本申请还提供一种计算机程序的非易失性计算机可读存储介质，当计算机程序被一个或多个处理器执行时，实现上述数字人动作智能生成方法的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述方法中的全部或部分流程，是可以通过计算机程序来指令相关的软件来完成。程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的流程。其中存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的软件来完成。程序可存储于一非易失性计算机可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等。

在本说明书的描述中，参考术语“一个实施方式”、“一些实施方式”、“示意性实施方式”、“示例”、“具体示例”或“一些示例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行动作的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本申请，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种数字人动作智能生成方法，其特征在于，包括：

获取数字人输出的目标文本；

根据所述目标文本，获取动作引导词；

根据所述动作引导词，得到所述数字人的目标动作；

控制所述数字人执行所述目标动作。

2.根据权利要求1所述的数字人动作智能生成方法，其特征在于，所述根据所述目标文本，获取动作引导词包括：

将所述目标文本输入至预先训练的大语言模型中，以获取对应的动作引导词。

3.根据权利要求1所述的数字人动作智能生成方法，其特征在于，所述根据所述动作引导词，得到所述数字人的目标动作，包括：

在动作数据库中匹配与所述动作引导词相似度最高的动作名词；

将所述相似度最高的动作名词对应的动作作为所述目标动作。

4.根据权利要求3所述的数字人动作智能生成方法，其特征在于，

所述动作数据库中包括：至少一个动作名词和与所述至少一个动作名词匹配的动作。

5.根据权利要求3所述的数字人动作智能生成方法，其特征在于，还包括：

在所述动作数据库中的动作名词与所述动作引导词相似度均低于设定值时，将所述动作引导词输入所述动作数据库中作为新的动作名词，且输入与所述新的动作引导词匹配的动作。

6.根据权利要求1所述的数字人动作智能生成方法，其特征在于，所述根据所述动作引导词，得到所述数字人的目标动作，包括：

利用动作生成器中将所述动作引导词转化为与所述动作引导词匹配的动作序列，以得到所述目标动作。

7.根据权利要求6所述的数字人动作智能生成方法，其特征在于，还包括：

根据所述动作引导词，得到与所述动作引导词相匹配的面部动作；

将所述面部动作融合于所述动作序列中。

8.一种数字人动作智能生成设备，其特征在于，适用于权利要求1-7中任一项所述的数字人动作智能生成方法，且所述数字人动作智能生成设备包括：

获取模块，所述获取模块用于获取数字人输出的目标文本；

语义特征提取器，所述语义特征提取器用于根据所述目标文本，获取动作引导词；

融合模块，所述融合模块用于根据所述动作引导词，得到所述数字人的目标动作；

控制模块，所述控制模块用于控制所述数字人执行所述目标动作。

9.一种服务器，其特征在于，所述服务器包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-7中任一项所述的数字人动作智能生成方法。

10.一种计算机程序的非易失性计算机可读存储介质，其特征在于，当所述计算机程序被一个或多个处理器执行时，实现权利要求1-7中任一项所述的数字人动作智能生成方法。