CN113689530A

CN113689530A - 一种驱动数字人的方法、装置及电子设备

Info

Publication number: CN113689530A
Application number: CN202010420678.0A
Authority: CN
Inventors: 樊博
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2021-11-23
Anticipated expiration: 2040-05-18
Also published as: CN113689530B; WO2021232875A1

Abstract

本发明公开了一种驱动数字人的方法、装置及电子设备，该方法包括获取目标文本对应的目标动作；获得基于所述目标文本驱动数字人输出语音时，所述数字人在执行所述目标动作之前所要执行的参考动作；根据所述参考动作的参考动作参数修改所述目标动作的目标动作参数；在基于所述目标文本驱动数字人输出语音的过程中，根据修改后的目标动作参数驱动所述数字人执行所述目标动作。上述技术方案中，基于文本获得相应动作，并根据数字人的参考动作修改文本对应的目标动作的动作参数，使得数字人从参考动作切换到目标动作的过程自然、细腻，解决了现有技术中数字人动作变动突兀的技术问题，提高数字人动作变动的细腻度。

Description

一种驱动数字人的方法、装置及电子设备

技术领域

本发明涉及软件技术领域，特别涉及一种驱动数字人的方法、装置及电子设备。

背景技术

数字人类(Digital Human)简称数字人，是利用计算机模拟真实人类的一种综合性的渲染技术，也被称为虚拟人类、超写实人类、照片级人类。由于人对真人太熟悉了，导致了著名的恐怖谷现象，所以实现数字人的写实程度的难度不是线性增长的，而是指数型增长的，有可能3D静态模型很真，但是一说话一眨眼立马就变得不真实。如何使数字人的动作变动更为细腻、真实，成了当前数字人发展亟待解决的技术问题。

发明内容

本发明实施例提供一种驱动数字人的方法、装置及电子设备，用于解决现有技术中数字人动作变动突兀的技术问题，提高数字人动作变动的细腻度。

本发明实施例提供一种驱动数字人的方法，所述方法包括：

获取目标文本对应的目标动作；

获得基于所述目标文本驱动数字人输出语音时，所述数字人在执行所述目标动作之前所要执行的参考动作；

根据所述参考动作的参考动作参数修改所述目标动作的目标动作参数；

在基于所述目标文本驱动数字人输出语音的过程中，根据修改后的目标动作参数驱动所述数字人执行所述目标动作。

可选的，在获取目标文本对应的目标动作之前，所述方法还包括：

获取待处理文本对应的目标动作；

通过语音合成标记语言将所述待处理文本转换为所述目标文本，并将所述目标动作的标签插入所述目标文本中。

可选的，所述获取待处理文本对应的目标动作，包括：

获取所述待处理文本中的预设关键词；

获取所述预设关键词对应的预定动作作为所述目标动作。

可选的，所述获取待处理文本对应的目标动作，包括：

对所述待处理文本进行语义识别，获得所述待处理文本中包含的动作意图；

获取所述动作意图对应的预定动作作为所述目标动作。

可选的，所述根据所述参考动作的参考动作参数调整所述目标动作的目标动作参数，包括：

从预设动作库中获取至少一个所述目标动作以及每个所述目标动作的动作参数，所述动作参数包含起始动作参数和终止动作参数；

根据所述每个目标动作的动作参数，获取与所述参考动作参数中的终止动作参数差值最小的起始动作参数对应的动作参数作为所述目标动作参数；

根据所述参考动作参数修改所述目标动作参数，使得修改后的目标动作参数与所述参考动作参数对应的基本动作参数之间的差值减小。

可选的，所述动作参数为骨骼位置参数或肌肉运动参数。

可选的，所述目标动作为面部表情或躯体动作。

本发明实施例还提供一种驱动数字人的装置，所述装置包括：

获取单元，用于获取目标文本对应的目标动作；获得基于所述目标文本驱动数字人输出语音时，所述数字人在执行所述目标动作之前所要执行的参考动作；

调整单元，用于根据所述参考动作的参考动作参数修改所述目标动作的目标动作参数；

驱动单元，用于在基于所述目标文本驱动数字人输出语音的过程中，根据修改后的目标动作参数驱动所述数字人执行所述目标动作。

可选的，所述装置还包括：

识别单元，用于在获取目标文本对应的目标动作之前，获取待处理文本对应的目标动作；

插入单元，用于通过语音合成标记语言将所述待处理文本转换为所述目标文本，并将所述目标动作的标签插入所述目标文本中。

可选的，所述识别单元用于：

获取所述待处理文本中的预设关键词；

获取所述预设关键词对应的预定动作作为所述目标动作。

可选的，所述识别单元还用于：

获取所述动作意图对应的预定动作作为所述目标动作。

可选的，所述调整单元用于：

可选的，所述动作参数为骨骼位置参数或肌肉运动参数。

可选的，所述目标动作为面部表情或躯体动作。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果：

本申请实施例提供一种驱动数字人的方法，获取目标文本对应的目标动作；获得基于目标文本驱动数字人输出语音时，数字人在执行目标动作之前所执行的参考动作；根据该参考动作的参考动作参数修改目标动作的目标动作参数，使得目标动作与参考动作尽可能的接近；在基于目标文本驱动数字人的过程中，驱动数字人执行在参考动作之后执行修改动作参数后的目标动作，使得数字人以当前所处的动作状态为参考无缝切换到目标动作，动作变动过程自然、细腻，解决了现有技术中数字人动作变动突兀的技术问题，提高数字人动作变动的细腻度。

附图说明

图1为本申请实施例提供的一种数字人驱动文本的生成方法的流程示意图；

图2为本申请实施例提供的一种驱动数字人的方法的流程示意图；

图3为本申请实施例提供的一种驱动数字人的装置的方框图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

在本申请实施例提供的技术方案中，提供一种驱动数字人的方法，通过基于数字人的参考动作对插入动作进行调整，使得参考动作与插入动作之间的动作变动过程自然、细腻，从而解决现有技术中数字人动作变动突兀的技术问题。

下面结合附图对本申请实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例

请参考图1，本申请实施例提供一种数字人驱动文本的生成方法，该方法包括：

S10、获取待处理文本对应的目标动作；

S12、通过语音合成标记语言将所述待处理文本转换为所述目标文本，并将所述目标动作的标签所述目标文本中。

其中，待处理文本的文本内容需要进行语音转换输出的。在输出语音的过程中可能还需对应输出与文本内容对应的动作，例如，假设待处理文本为“请像我这样挥挥手，给远方的朋友打个招呼”，该文本在转换为语音输出时，需要在输出语音“挥挥手”的时候，输出动作“挥挥手”。S10获取待处理文本对应的目标动作，该目标动作可能是一个、也可能是多个，本实施例并不限制目标动作的具体数量。

具体的，S10可以通过如下任意一种或多种方式来获取待处理文本对应的目标动作：

方式一、获取待处理文本中的预设关键词。该预设关键词可以是躯体动作关键词、面部表情关键词，例如：“挥手”、“摇头”、“微笑”、“难过”等。获取预设关键词对应的预定动作作为目标动作，目标动作可以是面部表情也可以是驱动动作。预先创建动作库，存储各个关键词与各动作之间的对应关系，以及每个动作的动作参数如骨骼位置参数、肌肉运动参数。其中，动作库中的动作可以通过数据采集设备如摄像头、三维扫描仪等采集真人动作获得，也可以从已有的视频中提取。

方式二、对待处理文本进行语义识别，获得待处理文本中包含的动作意图；获取动作意图对应的预定动作作为目标动作。通过语义识别更为准确、全面的获得待处理文本的意图，而不仅限于动作文本，例如：对于文本“今日阳关明媚空气清新，让人神清气爽”，虽然整个文本中并没有提到任何动作，但根据整个文本的意思表达，“阳关明媚”可能对应有一抬头的动作意图、“空气清新”可能对应有一呼吸的动作意图，根据这些动作意图获取对应的预定动作。同样的，可以预先建立动作库，存储各个动作意图与各个动作之间的对应关系，以及各个动作的动作参数，这样可以从动作库中快速的获得动作意图对应的预定动作。

方式三、由人工对待处理文本进行标注，插入动作标识，不同的动作标识对应不同的目标动作。获取目标动作时通过对待处理文本中的动作标识进行查找，根据查找获得的动作标识获取对应的目标动作即可。

在获取到目标动作之后，继续执行S12进行文本转换和动作插入，使得转换获得的目标文本能够被语音合成服务识别，从而提供相应的服务。语音合成标记语言(SpeechSynthesis Markup Language，SSML)是一种基于XML的标记语言，与纯文本的合成相比，使用SSML可以充实合成的内容，为最终合成效果带来更多变化。本实施例通过SSML标记语言转换为目标文本，将需要转换的文本放入在<speak></speak>标签之内，每个语音合成任务包含一个<speak></speak>标签。在转换获得目标文本的过程中，本实施例还通过SSML标记语言将目标动作的标签插入目标文本中，使得目标文本不仅能够控制语音合成读什么，还可以控制读语音时输出相应的动作。

需要说明的是，目标动作的标签可以是动作名称，后续驱动数字人时根据动作名称去获取相应的动作参数，也可以直接将其目标动作参数作为标签插入目标文本中，驱动数字人时可以直接获取该目标动作参数。

请参考图2，本申请实施例提供一种驱动数字人的方法，该方法包括：

S20、获取目标文本对应的目标动作；

S22、获得基于目标文本驱动数字人输出语音时，数字人在执行目标动作之前所要执行的参考动作；

S24、根据参考动作的参考动作参数修改目标动作的目标动作参数；

S26、在基于目标文本驱动数字人输出语音的过程中，根据修改后的目标动作参数驱动数字人执行目标动作。

文本驱动数字人输出语音的过程中，数字人通常情况下可能处于一个常用状态即基准状态，如对于一个新闻播报的数字人，其基准状态可能正面站立或正面坐于桌前无表情播报，也可能是根据新闻播报人的习惯，习惯性的做了一些动作，为此，在播报过程中插入动作时，可能会出现前后两个动作差异较大，动作变化突兀的技术问题。本实施例通过预先获得目标文本中的目标动作以及数字人执行该目标动作之前所处的参考动作，基于参考动作来对目标动作进行修改，使得目标动作与参考动作尽可能的接近，从而解决因动作差异较大导致的动作变化突兀的技术问题。

具体实施过程中，S20可以直接从目标文本中查找获得目标动作的动作标签，根据该动作标签获得相应的目标动作。其中，目标文本中可能包含一个或多个目标动作的标签，S20执行时可以根据标签一次获取一个动作，也可以一次获得目标文本中对应的多个目标动作，形成目标动作序列，针对每一个目标动作执行步骤S22～S26。

S22获得数字人在执行目标动作前的参考动作。具体的，可以先获得目标动作在目标文本中的位置特征，如在关键词x1与x2之间，以及获得目标文本的时长特征，该时长特征根据目标文本对应的音素特征生成；根据目标文本的时长特征和目标动作的位置特征，获得目标动作执行时的第一时间点，即目标动作在这个语音播报的总时长的哪个时间点执行；进而根据该第一时间点取获取数字人在第一时间点之前的相邻时间点的参考动作。例如：假设目标动作的执行时间点为00：50：45，那么获取数字人在00:50:44所执行的参考动作。该参考动作可能是数字人常处的基准状态对应的基本动作，也可以能是语音输入过程中采用的习惯性动作，还可能是目标文本中的其它目标动作。

在获得参考动作之后，继续执行S24修改动作参数，根据参考动作参数修改目标动作参数，使得修改后的目标动作参数与参考动作参数对应的基本动作参数之间的差值减小。一个动作通常包含基本动作和特征动作，分别对应基本动作参数和特征动作参数，基本动作可以适场景改变，特征动作一般不随场景改变，例如：一般的，“再见”的特征动作为小臂带动手掌挥动、基本动作则包括大臂、头、脚等动作。修改目标动作参数时，可以根据参考动作参数中的基本动作参数修改目标动作参数中的基本动作参数。动作参数之间的差值是指，将动作参数中对应参数相减然后累加得到的总差值。假设：基本动作参数V＝[x₁₁～x_1n、y₁₁～y_1m、z₁₁～z_1k]，基本动作参数W＝[x₂₁～x_2n、y₂₁～y_2m、z₂₁～z_2k]，两个基本动作参数之间的差值＝∑(x_1n-x_2n)+∑(y_1m-y_2m)+∑(z_1k-z_2k)。

其中，本实施例所指的动作参数可以是数字人的骨骼位置参数或肌肉运动参数，其中，肌肉运动参数包括肌肉收缩参数和肌肉舒张参数。具体获取哪一种参数依据数字人的驱动模型确定，若数字人的驱动模型是肌肉绑定模型，那么采用肌肉运动参数；若数字人的驱动模型是骨骼动画，那么采用骨骼位置参数。下面以骨骼位置参数为例对目标动作的目标动作参数的修改进行详细说明：

第一步，获取目标动作的动作参数。动作库中一类动作可能会对应多种不同形态，例如：动作“再见”可能包含在胸前的挥手“再见”、在身体一侧的挥手“再见”、举过头顶的挥手“再见”，一种形态对应一组动作参数(统称为动作参数)，每组动作参数按时序不同划分为起始动作参数、中间动作参数、终止时间参数，每组动作参数对应一个完整的动作。为了使数字人的动作变化自然、细腻，本实施例从预设动作库中获取至少一个目标动作即至少一种形态的目标动作，以及每个目标动作的动作参数；根据每个目标动作的起始动作参数，获取与参考动作的起始动作参数差值最小的起始动作参数对应的动作参数作为目标动作参数，即从多个形态的动作中获取一个与参考动作差异最小的目标动作。例如：对于参考动作是“双手交叉位于胸前”，那么选择“再见”这个目标动作时，选择在胸前的挥手“再见”更为合适，这两个动作的手手臂骨骼位置参数的差值最小，动作变换自然而真实。

第二步，修改目标动作参数。在确定了目标动作的目标动作参数之后，进一步根据参考动作参数修改目标动作参数，使得修改后的目标动作参数与参考动作参数对应的基本动作参数之间的差值减小，从而使修改后的目标动作与参动作之间的差异尽可能小，基本动作尽可能重合。作为一种可选的实施方式，修改目标动作参数时，可以将目标动作参数中的基本动作参数修改为参考动作参数中的基本动作参数，修改后的目标动作参数与参考动作参数之间的差值最小，参考动作与修改参数后的目标动作的基本动作重合。例如，对于参考动作“双手交叉位于胸前”、目标动作胸前的挥手“再见”，可以将目标动作中大臂动作对应的动作参数修改为参考动作中大臂动作对应的动作参数，或者减小目标动作中大臂动作对应的动作参数与参考动作中大臂动作对应的动作参数之间的差值。

在S24之后，进一步执行S26根据修改后的目标动作参数驱动数字人。具体的，基于目标文本驱动数字人时，可以根据目标文本获得时长特征；根据时长特征，获得目标文本对应的目标语音序列；根据时长特征和目标文本中包含的所有目标动作的修改参数，获得目标文本的目标动作序列；将所述目标语音序列和所述目标动作序列输入数字人的驱动模型，驱动数字人输出相应的语音和动作。本实施例还可以在执行完目标动作之后，进一步驱动数字人执行参考动作，即从目标动作回到参考动作。具体实现时，在生成动作序列时在目标动作参数后加入参考动作的参考动作参数即可。

在上述技术方案中，通过对文本的语义和/或关键词的识别，获取文本表达里携带的目标动作，并将该目标动作的标签插入文本中，促使在通过文本驱动数字人时，通过插入的动作标签驱动数字人执行相应的动作，实现了文本对数字人的动作驱动。进一步的，针对文本对应的目标动作，获取目标动作执行前的参考动作，依据参考动作的动作参数修改目标动作的动作参数，较小目标动作与参考动作之间的差异，使得数字人在执行参考动作到目标动作的转换时，转换过程自然、协调，解决了现有技术中数字人动作转换突兀的技术问题，增加了数字人动作转换的细腻性。

针对上述实施例提供一种驱动数字人的方法，本申请实施例还对应提供一种驱动数字人的装置，请参考图3，该装置包括：

获取单元31，用于获取目标文本对应的目标动作；获得基于所述目标文本驱动数字人输出语音时，所述数字人在执行所述目标动作之前所要执行的参考动作；

调整单元32，用于根据所述参考动作的参考动作参数修改所述目标动作的目标动作参数；

驱动单元33，用于在基于所述目标文本驱动数字人输出语音的过程中，根据修改后的目标动作参数驱动所述数字人执行所述目标动作。

其中，所述目标动作为面部表情或躯体动作。所述动作参数为骨骼位置参数或肌肉运动参数。

作为一种可选的实施方式，所述装置还包括：识别单元34和插入单元35。其中，识别单元34，用于在获取目标文本对应的目标动作之前，获取待处理文本对应的目标动作；插入单元35，用于通过语音合成标记语言将所述待处理文本转换为所述目标文本，并将所述目标动作的标签插入所述目标文本中。

具体实施过程中，识别单元34可以采用以下任一方式识别获取目标动作：

方式一、获取所述待处理文本中的预设关键词；获取所述预设关键词对应的预定动作作为所述目标动作。

方式二、对所述待处理文本进行语义识别，获得所述待处理文本中包含的动作意图；获取所述动作意图对应的预定动作作为所述目标动作。

作为一种可选的实施方式，所述调整单元32在修改动作参数时，可以从预设动作库中获取至少一个所述目标动作以及每个所述目标动作的动作参数，所述动作参数包含起始动作参数和终止动作参数；根据所述每个目标动作的动作参数，获取与所述参考动作参数中的终止动作参数差值最小的起始动作参数对应的动作参数作为所述目标动作参数；根据所述参考动作参数修改所述目标动作参数，使得修改后的目标动作参数与所述参考动作参数对应的基本动作参数之间的差值减小。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种用于实现驱动数字人的方法的电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/展现(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个展现接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为展现和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于展现音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种驱动数字人的方法，所述方法包括：

获取目标文本对应的目标动作；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种驱动数字人的方法，其特征在于，所述方法包括：

获取目标文本对应的目标动作；

2.如权利要求1所述的方法，其特征在于，在获取目标文本对应的目标动作之前，所述方法还包括：

获取待处理文本对应的目标动作；

3.如权利要求2所述的方法，其特征在于，所述获取待处理文本对应的目标动作，包括：

获取所述待处理文本中的预设关键词；

获取所述预设关键词对应的预定动作作为所述目标动作。

4.如权利要求2所述的方法，其特征在于，所述获取待处理文本对应的目标动作，包括：

获取所述动作意图对应的预定动作作为所述目标动作。

5.如权利要求1所述的方法，其特征在于，所述根据所述参考动作的参考动作参数调整所述目标动作的目标动作参数，包括：

6.如权利要求1～5任一所述的方法，其特征在于，所述动作参数为骨骼位置参数或肌肉运动参数。

7.如权利要求1～5任一所述的方法，其特征在于，所述目标动作为面部表情或躯体动作。

8.一种驱动数字人的装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上的程序存储于存储器中，且经配置以由一个或者一个以上的处理器执行所述一个或者一个以上的程序所包含的用于进行如权利要求1～7任一所述方法对应的操作指令。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7任一所述方法对应的步骤。