CN116361512A

CN116361512A - 基于文字的虚拟人模型驱动方法、装置和计算机设备

Info

Publication number: CN116361512A
Application number: CN202310326597.8A
Authority: CN
Inventors: 郑喜民; 黄嘉铉; 舒畅; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-06-30

Abstract

本申请属于人工智能的机器学习技术领域，可用于金融领域的投资教育、医疗领域的病理教学等场景，特别涉及一种基于文字的虚拟人模型驱动方法、装置和计算机设备。方法包括：获取待处理的文本；基于所述文本获得第一动作序列；基于每一所述第一姿态帧，对应的第一预设格式文件；分别判断每一所述第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；若是，则将所述第一预设文件对应的第一姿态帧设为目标姿态帧；将所有所述目标姿态帧进行整合，获得目标动作序列；基于所述目标动作序列驱动所述预设虚拟人模型。上述方法、装置和计算机设备可简化虚拟人模型驱动的过程。

Description

基于文字的虚拟人模型驱动方法、装置和计算机设备

技术领域

本申请涉及人工智能的机器学习技术领域，具体而言，本申请涉及一种基于文字的虚拟人模型驱动方法、装置和计算机设备。

背景技术

目前，虚拟人技术应用于诸多领域(如金融领域的投资教育、医疗领域的病理教学等虚拟人网络视频教学)，而虚拟人模型的生成与驱动是一个虚拟人产品是否能实现的最重要的两个环节，建模是生成虚拟人的肉体，驱动方法则是让虚拟人获得灵魂。现在主流的驱动方法有基于视觉的驱动方法、基于动作捕捉设备的驱动方法等，例如，基于视觉的驱动方法是依靠摄像头或者视频获取现实中人的动作数据，并将这些动作数据一帧帧映射到模型上，从而使模型运动，而基于动作捕捉设备的驱动方法则使用动作捕捉设备(如动捕服)将穿戴者的动作数据直接绑定到模型的骨骼上，从而驱动模型。由上可知，主流的驱动方法需要预先布置动作信息获取精度较高的硬件设备或预先准备相应的动作视频素材，无法方便、快捷地驱动虚拟人模型。

发明内容

本申请的主要目的为提供一种基于文字的虚拟人模型驱动方法、装置和计算机设备，旨在解决应用现有的虚拟人驱动方式驱动虚拟人模型的过程较为复杂的技术问题。

为了实现上述发明目的，本申请提供一种基于文字的虚拟人模型驱动方法，包括：

获取待处理的文本；

基于所述文本获得第一动作序列，其中，所述第一动作序列中包括多个第一姿态帧；

基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件，其中，所述第一预设格式文件中包括所述第一姿态帧的关节点坐标；

分别判断每一所述第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；

若所述第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件，则将所述第一预设文件对应的第一姿态帧设为目标姿态帧；

将所有所述目标姿态帧进行整合，获得目标动作序列；

基于所述目标动作序列驱动所述预设虚拟人模型。

在一个实施例中，所述基于所述文本获得第一动作序列的步骤，包括；

将所述文本输入预训练的动作序列生成模型，生成初始动作序列，其中，所述初始动作序列包括多个初始姿态帧；

将所述文本和每一所述初始姿态帧分别输入预训练的CLIP模型，获得每一所述初始姿态帧与所述文本的相似度；

分别判断每一所述初始姿态帧与所述文本的相似度是否满足第二预设条件；

若所述初始姿态帧与所述文本的相似度满足第二预设条件，则将所述初始姿态帧设定为第一姿态帧；

将所有所述第一姿态帧进行整合，获得第一动作序列。

在一个实施例中，所述基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件的步骤，包括：

将每一所述第一姿态帧输入预训练的姿态解算模型，获得每一所述第一姿态帧对应的第一预设格式文件。

在一个实施例中，所述将所有所述目标姿态帧进行整合，获得目标动作序列的步骤，包括：

判断所有所述目标姿态帧中是否具有相似度满足第三预设条件的至少两个所述目标姿态帧；

若是，则进行去重处理，获得优化目标姿态帧集；

若否，则将所有所述目标姿态帧的集合设定为优化目标姿态帧集；

将所述目标姿态帧集中的目标姿态帧按照预设规则进行排序，获得目标动作序列。

在一个实施例中，在所述将所述文本输入预训练的动作序列生成模型的步骤之前，还包括：

对所述文本进行关键字抽取的预处理。

在一个实施例中，所述预训练的CLIP模型包括文本编码器和图像编码器，所述初始姿态帧与所述文本的相似度由如下公式获得：

S＝1-norm(f_p)*norm(f_T),

其中，S为相似度，f_p为所述姿态帧经由所述图像编码器输出的编码值，f_T为所述文本经由所述文本编码器输出的编码值。

在一个实施例中，所述预训练的CLIP模型的训练损失由如下公式获得：

其中，Loss为训练损失，L为训练样本序列的姿态帧的总数量，i为训练样本序列的第i个姿态帧，γ(i)为第i个姿态帧的正则化参数，S_i为第i个姿态帧与所述文本的相似度。

本申请还提供一种基于文字的虚拟人模型驱动装置，包括：

文本获取模块，用于获取待处理的文本；

第一动作序列获取模块，用于基于所述文本获得第一动作序列，其中，所述第一动作序列中包括多个第一姿态帧；

第一预设格式文件获取模块，用于基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件，其中，所述第一预设格式文件中包括所述第一姿态帧的关节点坐标；

判断模块，用于分别判断每一所述第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；

第一执行模块，用于当所述第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件时，将所述第一预设文件对应的第一姿态帧设为目标姿态帧；

目标动作序列获取模块，用于将所有所述目标姿态帧进行整合，获得目标动作序列；

虚拟人模型驱动模块，用于基于所述目标动作序列驱动所述预设虚拟人模型。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例提供的基于文字的虚拟人模型驱动方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例提供的基于文字的虚拟人模型驱动方法的步骤。

本申请所提供的一种基于文字的虚拟人模型驱动方法、装置和计算机设备，包括获取待处理的文本；基于所述文本获得第一动作序列，其中，所述第一动作序列中包括多个第一姿态帧；基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件，其中，所述第一预设格式文件中包括所述第一姿态帧的关节点坐标；分别判断每一所述第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；若所述第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件，则将所述第一预设文件对应的第一姿态帧设为目标姿态帧；将所有所述目标姿态帧进行整合，获得目标动作序列；基于所述目标动作序列驱动所述预设虚拟人模型。本申请通过输入文本的方式驱动虚拟人模型，相较于传统的使用视频或真人驱动虚拟人模型的方式，均需输入一段文字即可完成虚拟人模型的驱动，而无需布置精度要求较高或笨重复杂的动作采集设备(如摄像机、动捕服等)或预先准备视频素材，从而使得虚拟人模型的驱动过程变得更为简单和方便。

附图说明

图1为本申请一实施例的基于文字的虚拟人模型驱动方法的流程示意图；

图2为本申请一实施例的基于文字的虚拟人模型驱动方法中步骤S20的流程示意图；

图3为本申请一实施例的基于文字的虚拟人模型驱动方法中步骤S60的流程示意图；

图4为本申请另一实施例的基于文字的虚拟人模型驱动方法中步骤S20的流程示意图；

图5为本申请一实施例的基于文字的虚拟人模型驱动装置的结构示意图；

图6为本申请一实施例的计算机设备的结构示意图。

具体实施方式

虚拟人指存在于非物理世界中，由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用，并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物，也称为虚拟形象、虚拟数字人、数字人等。虚拟数字人的三大特征是虚拟化、NLP(Natural Language Processing，自然语言处理)\CV(Computer Vision，计算机视觉)\语音等多种技术共同成熟、高度拟人化，其高度拟人化为用户带来的亲切感、关怀感与沉浸感是多数用户的核心使用动力。目前，虚拟人技术被应用于诸多领域(如金融领域的投资教育、医疗领域的病理教学等虚拟人网络视频教学)，然而，现有的虚拟人模型的驱动方式需要预先布置动作信息获取精度较高的硬件设备或预先准备相应的动作视频素材，无法方便、快捷地驱动虚拟人模型，因此，需要探索新的虚拟人驱动方式以简化其驱动过程，从而方便、快捷地完成虚拟人模型的驱动。

请参照图1，本申请实施例提供一种基于文字的虚拟人模型驱动方法，该方法包括步骤S10-S70，对于该方法的各个步骤的详细阐述如下。

在其中一个实施例中，基于文字的虚拟人模型驱动方法包括：

S10、获取待处理的文本；

S20、基于所述文本获得第一动作序列，其中，所述第一动作序列中包括多个第一姿态帧；

S30、基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件，其中，所述第一预设格式文件中包括所述第一姿态帧的关节点坐标；

S40、分别判断每一所述第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；

S50、若所述第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件，则将所述第一预设文件对应的第一姿态帧设为目标姿态帧；

S60、将所有所述目标姿态帧进行整合，获得目标动作序列；

S70、基于所述目标动作序列驱动所述预设虚拟人模型。

如上述步骤S10所述，首先获取待处理的文本，其中，待处理的文本可以是金融领域的投资教育、医疗领域的医疗教学等内容。示例性的，待输入文本为“投资培训专家正在讲台授课”、“医生在为患者示范手部康复训练动作”等。

如上述步骤S20所述，基于待处理的文本获得第一动作序列，其中，第一动作系列中包括多个第一姿态帧。其中，动作序列可看作是一种封装多个动作(每一动作对应一个姿态帧)的对象，当该对象执行时被封装的动作会顺序执行。示例性的，一个手部康复训练的动作序列可包括垂臂、握拳、直臂至胸前、抬手至头顶、重复上下拉伸等多个姿态帧。具体的，可通过将待处理的文本输入至预训练的第一动作序列生成模型，第一动作序列生成模型基于待处理的文本生成与待处理的文本对应的第一动作序列。需要说明的是，由于动作序列生成模型的构成及训练方法的选择不同，同一待处理的文本输入至不同的动作序列生成模型可能获得形式不一(人物模型、动作表现形式等)的动作序列。

如上述步骤S30所述，基于第一动作序列中的每一第一姿态帧，获得每一第一姿态帧对应的第一预设格式文件(一般为bvh或fbx格式的文件，以方便输入模型动画生成软件)，其中，第一预设格式文件中包括与之对应的第一姿态帧的关节点坐标。由上述步骤S20获取得到的第一动作序列中的姿态帧并不一定能与预设的虚拟人模型有效结合，为了避免虚拟人模型无法与姿态帧有效匹配而导致其动作变形或错误，需要预先对第一姿态帧进行筛选，以使其最终能与虚拟人模型具有较好的匹配效果，优选的，在一些实施例中，可通过将姿态帧中重要位置的关节点坐标与预设虚拟人模型中对应位置的骨骼关节点的坐标进行映射，以判断其是否能与预设虚拟人模型结合，在其他实施例中，也可以将姿态帧中的运动矩阵等参数作为判断依据。

如上述步骤S40-S50所述，分别判断每一第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；若第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件，则将一预设文件对应的第一姿态帧设为目标姿态帧。在本实施例中，第一预设条件可设置为第一预设格式文件中的四肢、头部、胸部的关节点坐标与预设虚拟人模型的四肢、头部、胸部的骨骼关节点对齐，在其他实施例中，也可以适当增加或减少关节点对齐的数量(如追求更高的精度，则增加关节点对齐的数量，而若精度要求较低，则可减少关节点对齐的数量)。若第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件，则表示其对应的第一姿态帧与预设虚拟人模型的匹配度较高，能实现较好的匹配效果，则将对应的第一姿态帧设为目标姿态帧，以用于后续的虚拟人模型驱动。

如上述步骤S60所述，当筛选出第一动作序列中满足第一预设条件的目标姿态帧(即与预设虚拟人模型匹配度较高的姿态帧)后，将所有的目标姿态帧进行整合(如制定各姿态帧的先后顺序)，从而获得目标动作序列，以驱动虚拟人模型。

如上述步骤S70所述，基于上述获取得到的目标动作序列驱动预设虚拟人模型，以使其按照该目标动作序列完成相应的动作输出效果。具体的，将由目标动作序列生成的bvh、fbx等符合预选的模型生成软件的格式的文件输入至预选的模型生成软件中，即可获得相应的虚拟人模型动作输出效果的动图或视频，以备后续使用。

本申请所提供的一种基于文字的虚拟人模型驱动方法，包括：获取待处理的文本；基于所述文本获得第一动作序列，其中，所述第一动作序列中包括多个第一姿态帧；基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件，其中，所述第一预设格式文件中包括所述第一姿态帧的关节点坐标；分别判断每一所述第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；若所述第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件，则将所述第一预设文件对应的第一姿态帧设为目标姿态帧；将所有所述目标姿态帧进行整合，获得目标动作序列；基于所述目标动作序列驱动所述预设虚拟人模型。本申请通过输入文本的方式驱动虚拟人模型，相较于传统的使用视频或真人驱动虚拟人模型的方式，均需输入一段文字即可完成虚拟人模型的驱动，而无需布置精度要求较高或笨重复杂的动作采集设备(如摄像机、动捕服等)或预先准备视频素材，从而使得虚拟人模型的驱动过程变得更为简单和方便。

在一些实施例中，请参照图2，所述基于所述文本获得第一动作序列的步骤，包括：

S201、将所述文本输入预训练的动作序列生成模型，生成初始动作序列，其中，所述初始动作序列包括多个初始姿态帧；

S202、将所述文本和每一所述初始姿态帧分别输入预训练的CLIP模型，获得每一所述初始姿态帧与所述文本的相似度；

S203、分别判断每一所述初始姿态帧与所述文本的相似度是否满足第二预设条件；

S204、若所述初始姿态帧与所述文本的相似度满足第二预设条件，则将所述初始姿态帧设定为第一姿态帧；

S205、将所有所述第一姿态帧进行整合，获得第一动作序列。

如上述步骤S201所述，在本实施例中，可以先由预训练的动作序列生成模型，如VAE(Variational Autoencoder，VAE)模型生成待处理的文本相关的姿态帧，示例性的，当待处理的文本为“running man”，则可通过预训练的动作序列生成模型生成多个跑动的人形(多个跑动的人形不一定具有相同的人物模型或动作姿态)。上述的模型动作序列生成模型可由动作编码器、重参数模块和动作解码器构成，该模型的损失函数一般设定为动作编码器的输入与动作解码器的输出间的MSE(Mean Square Error，均方差误差)。需要说明的是，预训练的动作序列生成模型的模型构成与训练方式均为现有技术，在此不做赘述，具体请参看与之相关的现有技术的内容。

如上述步骤S202所述，将待处理的文本和每一初始姿态帧分别输入预训练的CLIP(Contrastive Language-Image Pre-training，CLIP)模型，获得每一初始姿态帧与待处理的文本的相似度。CLIP模型是一个开源的用于匹配图像和文本的预训练神经网络模型，该模型在很多任务处理上具有非常亮眼的表现。CLIP模型包括文字编码器和图像编码器，通过CLIP模型可以计算出单张人物姿态帧与待处理的文本描述的相似度，由其得到的一连串的姿态帧经过适当的处理可构建获得所需的目标动作序列。

如上述步骤S203-S205所述，分别判断初始动作序列中的每一初始姿态帧与待处理的文本的相似度是否满足第二预设条件；若其中某一初始姿态帧与待处理的文本的相似度满足第二预设条件，则将该初始姿态帧设定为第一姿态帧；当通过上述判断过程获得所有的第一姿态帧后，将所有的第一姿态帧进行整合(如制定各姿态帧的先后顺序)，从而获得第一动作序列。在本实施例中，第二预设条件可以设置为初始姿态帧与待处理的文本的相似度大于90％，因此，当某一初始姿态帧与待处理的文本的相似度大于90％，即表示该初始姿态帧基本符合待处理的文本所描述的动作姿态，则将该初始姿态帧设定为第一姿态帧。需要说明的是，在其他实施例中，相似度的阈值(即第二预设条件的满足要求)也可以根据实际的设计需求(精度的高低)进行合理设定，在此不作限定。

在一些实施例中，所述基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件的步骤，包括：

S301、将每一所述第一姿态帧输入预训练的姿态解算模型，获得每一所述第一姿态帧对应的第一预设格式文件。

如上述步骤S301所述，将每一第一姿态帧输入预训练的姿态解算模型，从而获得每一第一姿态帧对应的第一预设格式文件，其中，第一预设格式文件中包括该第一姿态帧中人物的关节点坐标。具体的，人体姿态解算是计算机视觉中的一个重要任务，也是计算机理解人类动作、行为必不可少的一步，使用机器学习(深度学习)进行人体姿态解算的方式已成为主流。在实际的人体姿态解算过程中，一般是将人体姿态的解算转化为对人体关节点的确定问题，即从得到的人体骨架(一般为图像形式)以及根据先验知识确定关节点之间的空间位置关系，获得人体各个关节点的位置坐标；而目前主流的模型生成软件一般主要适配的文件类型为bvh、fbx格式的文件，因此，通过预训练的姿态解算模型获得第一预设格式(如bvh、fbx格式)文件以适配主流的模型生成软件。需要说明的是，预训练的姿态解算模型的模型构成与训练方式亦均为现有技术，在此不做赘述，具体请参看与之相关的现有技术的内容。

在一些实施例中，请参照图3，所述将所有所述目标姿态帧进行整合，获得目标动作序列的步骤，包括：

S601、判断所有所述目标姿态帧中是否具有相似度满足第三预设条件的至少两个所述目标姿态帧；

S602、若是，则进行去重处理，获得优化目标姿态帧集；

S603、若否，则将所有所述目标姿态帧的集合设定为优化目标姿态帧集；

S604、将所述目标姿态帧集中的目标姿态帧按照预设规则进行排序，获得目标动作序列。

如上述步骤S601-S604所述，判断所有目标姿态帧中是否具有相似度满足第三预设条件的至少两个目标姿态帧；若是，则进行去重处理，获得优化目标姿态帧集；若否，则将所有目标姿态帧的集合设定为优化目标姿态帧集。在本实施例中，为了避免目标姿态帧中具有多个高度类似的姿态帧，从而导致后续生成的目标动作序列无法表现出较大幅度的动作跨度(即动作序列变现的动作过程不明显，没有较好的应用价值)，因此，需要进行去重处理，具体的，将满足第三预设条件(如图像相似度达到95％)的至少两个高度类似的姿态帧选择其中一个保留，并剔除其余的姿态帧，获得优化目标姿态帧集；若所有所述目标姿态帧中不具有相似度满足第三预设条件的至少两个目标姿态帧，则表示所有的目标姿态帧均具有不同的动作姿态，可直接将该包括所有目标姿态帧的集合设定直接为优化目标姿态帧集；在确定优化目标姿态帧集后，将目标姿态帧集中的目标姿态帧按照预设规则(即根据先验知识推测得到的人物动作姿态的先后顺序，如跑步运动中，按照起跑、小跨步、大跨步、小跨步、跑步动作结束的人体姿态进行)进行排序，获得目标动作序列。

在一些实施例中，请参照图4，在所述将所述文本输入预训练的动作序列生成模型的步骤之前，还包括：

S200、对所述文本进行关键字抽取的预处理。

如上述步骤S200所述，为了提高动作序列生成模型的处理效率，对待处理的文本进行关键字抽取的预处理，示例性的，待处理的文本为“医生为患者示范手部康复训练动作”，则通过关键字抽取的预处理后，得到关键字“手部康复训练”，并将其输入动作序列生成模型，从而提高了动作序列生成模型的处理效率。

在一些实施例中，预训练的CLIP模型包括文本编码器和图像编码器，初始姿态帧与待处理文本的相似度可由如下公式获得(其中，norm为一个向量处理函数，其功能是在向量空间里对向量赋予长度和大小)：

S＝1-norm(f_p)*norm(f_T),

在一些实施例中，预训练的CLIP模型的训练损失由如下公式获得：

模型训练的目的是最小化其训练损失Loss，模型训练的过程是根据每次训练得到的训练损失值调整模型的参数，以使其满足预设的训练条件(如训练损失小于2％)。上述的正则化参数的设置是为了防止模型的过拟合，即提高模型的泛化能力，以提升模型的通用性，正则化参数需根据实际的设计需求及结合先验知识进行设定。

请参照图5，本申请实施例中还提供一种基于文字的虚拟人模型驱动装置，包括：

文本获取模块501，用于获取待处理的文本；

第一动作序列获取模块502，用于基于所述文本获得第一动作序列，其中，所述第一动作序列中包括多个第一姿态帧；

第一预设格式文件获取模块503，用于基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件，其中，所述第一预设格式文件中包括所述第一姿态帧的关节点坐标；

判断模块504，用于分别判断每一所述第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；

第一执行模块505，用于当所述第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件时，将所述第一预设文件对应的第一姿态帧设为目标姿态帧；

目标动作序列获取模块506，用于将所有所述目标姿态帧进行整合，获得目标动作序列；

虚拟人模型驱动模块507，用于基于所述目标动作序列驱动所述预设虚拟人模型。

在本实施例中，首先通过文本获取模块501获取待处理的文本，其中，待处理的文本可以是金融领域的投资教育、医疗领域的医疗教学等内容。示例性的，待输入文本为“投资培训专家正在讲台授课”、“医生在为患者示范手部康复训练动作”等。

在本实施例中，还通过第一动作序列获取模块502基于待处理的文本获得第一动作序列，其中，第一动作系列中包括多个第一姿态帧。其中，动作序列可看作是一种封装多个动作(每一动作对应一个姿态帧)的对象，当该对象执行时被封装的动作会顺序执行。示例性的，一个手部康复训练的动作序列可包括垂臂、握拳、直臂至胸前、抬手至头顶、重复上下拉伸等多个姿态帧。具体的，可通过将待处理的文本输入至预训练的第一动作序列生成模型，第一动作序列生成模型基于待处理的文本生成与待处理的文本对应的第一动作序列。需要说明的是，由于动作序列生成模型的构成及训练方法的选择不同，同一待处理的文本输入至不同的动作序列生成模型可能获得形式不一(人物模型、动作表现形式等)的动作序列。

在本实施例中，还通过第一预设格式文件获取模块503基于第一动作序列中的每一第一姿态帧，获得每一第一姿态帧对应的第一预设格式文件(一般为bvh或fbx格式的文件，以方便输入模型动画生成软件)，其中，第一预设格式文件中包括与之对应的第一姿态帧的关节点坐标。由上述第一动作序列获取模块502获取得到的第一动作序列中的姿态帧并不一定能与预设的虚拟人模型有效结合，为了避免虚拟人模型无法与姿态帧有效匹配而导致其动作变形或错误，需要预先对第一姿态帧进行筛选，以使其最终能与虚拟人模型具有较好的匹配效果，优选的，在一些实施例中，可通过将姿态帧中重要位置的关节点坐标与预设虚拟人模型中对应位置的骨骼关节点的坐标进行映射，以判断其是否能与预设虚拟人模型结合，在其他实施例中，也可以将姿态帧中的运动矩阵等参数作为判断依据。

在本实施例中，还通过判断模块504分别判断每一第一预设格式文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况是否满足第一预设条件；以及当第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件时，通过第一执行模块505将一预设文件对应的第一姿态帧设为目标姿态帧。在本实施例中，第一预设条件可设置为第一预设格式文件中的四肢、头部、胸部的关节点坐标与预设虚拟人模型的四肢、头部、胸部的骨骼关节点对齐，在其他实施例中，也可以适当增加或减少关节点对齐的数量(如追求更高的精度，则增加关节点对齐的数量，而若精度要求较低，则可减少关节点对齐的数量)。若第一预设文件中的关节点坐标与预设虚拟人模型的骨骼关节点对齐的情况满足第一预设条件，则表示其对应的第一姿态帧与预设虚拟人模型的匹配度较高，能实现较好的匹配效果，则将对应的第一姿态帧设为目标姿态帧，以用于后续的虚拟人模型驱动。

在本实施例中，当筛选出第一动作序列中满足第一预设条件的目标姿态帧(即与预设虚拟人模型匹配度较高的姿态帧)后，还通过目标动作序列获取模块506将所有的目标姿态帧进行整合(如制定各姿态帧的先后顺序)，从而获得目标动作序列，以驱动虚拟人模型。

在本实施例中，还通过虚拟人模型驱动模块507基于上述获取得到的目标动作序列驱动预设虚拟人模型，以使其按照该目标动作序列完成相应的动作输出效果。具体的，通过虚拟人模型驱动模块507将由目标动作序列生成的bvh、fbx等符合预选的模型生成软件的格式的文件输入至预选的模型生成软件中，即可获得相应的虚拟人模型动作输出效果的动图或视频，以备后续使用。

在一些实施例中，第一动作序列获取模块502包括初始动作序列生成单元、相似度获取单元、第一判断单元、第一执行单元和第一动作序列获取单元。其中，初始动作序列生成单元将所述文本输入预训练的动作序列生成模型，生成初始动作序列，其中，所述初始动作序列包括多个初始姿态帧；相似度获取单元用于将所述文本和每一所述初始姿态帧分别输入预训练的CLIP模型，获得每一所述初始姿态帧与所述文本的相似度；第一判断单元用于分别判断每一所述初始姿态帧与所述文本的相似度是否满足第二预设条件；第一执行单元用于当所述初始姿态帧与所述文本的相似度满足第二预设条件时，将所述初始姿态帧设定为第一姿态帧；第一动作序列获取单元用于将所有所述第一姿态帧进行整合，获得第一动作序列。

在本实施例中，通过初始动作序列生成单元将所述文本输入预训练的动作序列生成模型，如VAE(Variational Autoencoder，VAE)模型生成待处理的文本相关的姿态帧，示例性的，当待处理的文本为“running man”，则可通过预训练的动作序列生成模型生成多个跑动的人形(多个跑动的人形不一定具有相同的人物模型或动作姿态)。上述的模型动作序列生成模型可由动作编码器、重参数模块和动作解码器构成，该模型的损失函数一般设定为动作编码器的输入与动作解码器的输出间的MSE(Mean Square Error，均方差误差)。需要说明的是，预训练的动作序列生成模型的模型构成与训练方式均为现有技术，在此不做赘述，具体请参看与之相关的现有技术的内容。

在本实施例中，还通过相似度获取单元将待处理的文本和每一初始姿态帧分别输入预训练的CLIP(Contrastive Language-Image Pre-training，CLIP)模型，获得每一初始姿态帧与待处理的文本的相似度。CLIP模型是一个开源的用于匹配图像和文本的预训练神经网络模型，该模型在很多任务处理上具有非常亮眼的表现。CLIP模型包括文字编码器和图像编码器，通过CLIP模型可以计算出单张人物姿态帧与待处理的文本描述的相似度，由其得到的一连串的姿态帧经过适当的处理可构建获得所需的目标动作序列。

在本实施例中，还通过第一判断单元分别判断初始动作序列中的每一初始姿态帧与待处理的文本的相似度是否满足第二预设条件；以及当其中某一初始姿态帧与待处理的文本的相似度满足第二预设条件时，通过第一执行单元将该初始姿态帧设定为第一姿态帧；以及当通过上述判断过程获得所有的第一姿态帧后，通过第一动作序列获取单元将所有的第一姿态帧进行整合(如制定各姿态帧的先后顺序)，从而获得第一动作序列。

在一些实施例中，第一预设格式文件获取模块503包括第一预设格式文件获取单元，第一预设格式文件获取单元用于将每一所述第一姿态帧输入预训练的姿态解算模型，获得每一所述第一姿态帧对应的第一预设格式文件。

在本实施例中，通过第一预设格式文件获取单元将每一第一姿态帧输入预训练的姿态解算模型，从而获得每一第一姿态帧对应的第一预设格式文件，其中，第一预设格式文件中包括该第一姿态帧中人物的关节点坐标。具体的，人体姿态解算是计算机视觉中的一个重要任务，也是计算机理解人类动作、行为必不可少的一步，使用机器学习(深度学习)进行人体姿态解算的方式已成为主流。在实际的人体姿态解算过程中，一般是将人体姿态的解算转化为对人体关节点的确定问题，即从得到的人体骨架(一般为图像形式)以及根据先验知识确定关节点之间的空间位置关系，获得人体各个关节点的位置坐标；而目前主流的模型生成软件一般主要适配的文件类型为bvh、fbx格式的文件，因此，通过预训练的姿态解算模型获得第一预设格式(如bvh、fbx格式)文件以适配主流的模型生成软件。需要说明的是，预训练的姿态解算模型的模型构成与训练方式亦均为现有技术，在此不做赘述，具体请参看与之相关的现有技术的内容。

在一些实施例中，目标动作序列获取模块506包括第二判断单元，第二执行单元、第三执行单元和目标动作序列获取单元。其中，第二判断单元用于判断所有所述目标姿态帧中是否具有相似度满足第三预设条件的至少两个所述目标姿态帧；第二执行单元用于当所有所述目标姿态帧中具有相似度满足第三预设条件的至少两个所述目标姿态帧时，进行去重处理，获得优化目标姿态帧集；第三执行单元用于当所有所述目标姿态帧中不具有相似度满足第三预设条件的至少两个所述目标姿态帧时，将所有所述目标姿态帧的集合设定为优化目标姿态帧集；目标动作序列获取单元用于将所述目标姿态帧集中的目标姿态帧按照预设规则进行排序，获得目标动作序列。

在本实施例中，通过第二判断单元判断所有目标姿态帧中是否具有相似度满足第三预设条件的至少两个目标姿态帧；当所有所述目标姿态帧中具有相似度满足第三预设条件的至少两个所述目标姿态帧时，则通过第二执行单元进行去重处理，获得优化目标姿态帧集；而当所有所述目标姿态帧中不具有相似度满足第三预设条件的至少两个所述目标姿态帧时，则通过第三执行单元将所有目标姿态帧的集合设定为优化目标姿态帧集。在本实施例中，为了避免目标姿态帧中具有多个高度类似的姿态帧，从而导致后续生成的目标动作序列无法表现出较大幅度的动作跨度(即动作序列变现的动作过程不明显，没有较好的应用价值)，因此，需要进行去重处理，具体的，通过第二执行单元将满足第三预设条件(如图像相似度达到95％)的至少两个高度类似的姿态帧选择其中一个保留，并剔除其余的姿态帧，获得优化目标姿态帧集；若所有所述目标姿态帧中不具有相似度满足第三预设条件的至少两个目标姿态帧，则表示所有的目标姿态帧均具有不同的动作姿态，可通过第三执行单元直接将该包括所有目标姿态帧的集合设定直接为优化目标姿态帧集；在确定优化目标姿态帧集后，通过目标动作序列获取单元将目标姿态帧集中的目标姿态帧按照预设规则(即根据先验知识推测得到的人物动作姿态的先后顺序，如跑步运动中，按照起跑、小跨步、大跨步、小跨步、跑步动作结束的人体姿态进行)进行排序，从而获得目标动作序列。

在一些实施例中，第一动作序列获取模块502还包括关键字提取单元，关键字提取单元用于对所述文本进行关键字抽取的预处理。在本实施例中，为了提高动作序列生成模型的处理效率，通过关键字提取单元对待处理的文本进行关键字抽取的预处理，示例性的，待处理的文本为“医生为患者示范手部康复训练动作”，则通过关键字抽取模型对待处理的文本进行关键字抽取的预处理后，得到关键字“手部康复训练”，并将其输入动作序列生成模型，从而提高了动作序列生成模型的处理效率。

在一些实施例中，上述的预训练的CLIP模型包括文本编码器和图像编码器，初始姿态帧与待处理文本的相似度可由如下公式获得(其中，norm为一个向量处理函数，其功能是在向量空间里对向量赋予长度和大小)：

S＝1-norm(f_p)*norm(f_T),

在一些实施例中，上述的预训练的CLIP模型的训练损失由如下公式获得：

可以理解地，本申请中提出的基于文字的虚拟人模型驱动装置的各组成部分可以实现上述任一实施例提供的基于文字的虚拟人模型驱动方法的任一项的功能，具体结构不再赘述。

请参照图6，本申请实施例中还提供一种计算机设备，其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种基于文字的虚拟人模型驱动方法的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例提供的基于文字的虚拟人模型驱动方法。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质可以是非易失性的，也可以是易失性的，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例提供的基于文字的虚拟人模型驱动方法。

本领域普通技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、扩增型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其他任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于文字的虚拟人模型驱动方法，其特征在于，包括：

获取待处理的文本；

将所有所述目标姿态帧进行整合，获得目标动作序列；

基于所述目标动作序列驱动所述预设虚拟人模型。

2.根据权利要求1所述的基于文字的虚拟人模型驱动方法，其特征在于，所述基于所述文本获得第一动作序列的步骤，包括；

将所有所述第一姿态帧进行整合，获得第一动作序列。

3.根据权利要求1所述的基于文字的虚拟人模型驱动方法，其特征在于，所述基于每一所述第一姿态帧，获得每一所述第一姿态帧对应的第一预设格式文件的步骤，包括：

4.根据权利要求1所述的基于文字的虚拟人模型驱动方法，其特征在于，所述将所有所述目标姿态帧进行整合，获得目标动作序列的步骤，包括：

若是，则进行去重处理，获得优化目标姿态帧集；

5.根据权利要求2所述的基于文字的虚拟人模型驱动方法，其特征在于，在所述将所述文本输入预训练的动作序列生成模型的步骤之前，还包括：

对所述文本进行关键字抽取的预处理。

6.根据权利要求2所述的基于文字的虚拟人模型驱动方法，其特征在于，所述预训练的CLIP模型包括文本编码器和图像编码器，所述初始姿态帧与所述文本的相似度由如下公式获得：

S＝1-norm(f_p)*norm(f_T),

7.根据权利要求6所述的基于文字的虚拟人模型驱动方法，其特征在于，所述预训练的CLIP模型的训练损失由如下公式获得：

8.一种基于文字的虚拟人模型驱动装置，其特征在于，包括：

文本获取模块，用于获取待处理的文本；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的基于文字的虚拟人模型驱动方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于文字的虚拟人模型驱动方法的步骤。