CN116524924A

CN116524924A - 数字人交互控制方法、装置、电子设备和存储介质

Info

Publication number: CN116524924A
Application number: CN202310443312.9A
Authority: CN
Inventors: 沈中熙; 钱晓亮
Original assignee: Xiamen Black Mirror Technology Co ltd
Current assignee: Xiamen Black Mirror Technology Co ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-08-01

Abstract

本发明公开了一种数字人交互控制方法、装置、电子设备和存储介质，该方法包括：获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画，以此基于与用户音频对应的形象参数和动作参数驱动数字人进行互动，实现了更加高效的进行数字人交互，提升了用户体验。

Description

数字人交互控制方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，更具体地，涉及一种数字人交互控制方法、装置、电子设备和存储介质。

背景技术

随着人工智能的不断发展，数字人交互也开始应用在各个领域中，以实现智能化的人机交互。现有技术中，在与数字人进行交互时，数字人的语言交互与肢体动作中经常存在衔接延迟、动作与表述不一致、动作单一等问题，造成交互效率较低，影响了用户体验。

因此，如何更加高效的进行数字人交互，提升用户体验，是目前有待解决的技术问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本申请实施例提出了一种数字人交互控制方法、装置、电子设备和存储介质，用以更加高效的进行数字人交互，提升用户体验。

第一方面，提供一种数字人交互控制方法，所述方法包括：获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

第二方面，提供一种数字人交互控制装置，所述装置包括：获取模块，用于获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；第一确定模块，用于根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；第二确定模块，用于根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；生成模块，用于基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人交互控制方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的数字人交互控制方法。

通过应用以上技术方案，获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画，以此基于与用户音频对应的形象参数和动作参数驱动数字人进行互动，实现了更加高效的进行数字人交互，提升了用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种数字人交互控制方法的流程示意图；

图2示出了本发明另一实施例提出的一种数字人交互控制方法的流程示意图；

图3示出了本发明又一实施例提出的一种数字人交互控制方法的流程示意图；

图4示出了本发明实施例提出的一种数字人交互控制装置的结构示意图；

图5示出了本发明实施例提出的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请实施例提供一种数字人交互控制方法，如图1所示，该方法包括以下步骤：

步骤S101，获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息。

用户音频可以是基于音频采集设备实时采集的，也可以是从本地上传或从其他服务器获取的，获取用户音频后，将用户音频输入预设语音识别模型进行语音识别，根据语音识别结果得到交互请求信息。

可选的，与预设语音识别模型对应的语音识别算法可以为包括基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等算法的任一种。

步骤S102，根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数。

目标数字人为与用户进行交互的数字人，音频属性可以是音调和/或音色，还可以是强度特征和发音特征，根据用户音频的音频属性和交互请求信息确定目标数字人的形象参数。可选的，形象参数为包括外形特征、动作特征、声音特征中的任一种。外形特征可包括数字人的发型、服装、背景图等，动作特征可包括数字人的肢体动作，如招手、挥手、鞠躬、点头、弯腰等，声音特征可包括男声/女声，甜美/轻柔，活泼/可爱/严肃等。

其中，若音频属性为强度特征和发音特征，音频属性的获取过程包括：对所述用户音频进行频谱分析处理，得到频谱强度，并将所述频谱强度作为所述强度特征；识别所述用户音频的音调周期频率，并根据所述音调周期频率和预设周期阈值的比较结果确定所述发音特征。其中，发音特征包括颤音和平稳声音，若音调周期频率小于预设周期阈值，发音特征为颤音，否则，发音特征为平稳声音。

步骤S103，根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数。

可先将交互请求信息输入预设问答模型，得到答复信息，然后对答复信息进行语音识别，得到答复音频，再根据答复音频确定目标数字人的动作参数，该动作参数用于后续驱动目标数字人执行与交互请求信息对应的动作。

步骤S104，基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

在获取形象参数和动作参数后，使目标数字人按形象参数和动作参数响应交互请求信息，得到与交互请求信息对应的交互动画。

在本申请一些实施例中，在基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画之后，所述方法还包括：

获取所述目标数字人的表情动作；

将所述表情动作与预设动作表情库中的预设表情动作进行比对；

若所述预设动作表情库中存在与所述表情动作匹配的目标表情动作，将与所述目标表情动作对应的特效参数添加到所述交互动画。

本实施例中，在交互动画中获取目标数字人的表情动作，可以在后台直接获取该表情动作，也可通过图像采集设备对目标数字人的表情动作进行捕捉后获取所述表情动作。然后将获取的表情动作与预设动作表情库中的多个预设表情动作进行比对，其中，每个预设表情动作均设置有相应的特效参数，例如可以按预设相似度算法将表情动作与各预设表情动作进行比对，将相似度高于预设预置的预设表情动作作为与所述表情动作匹配的目标表情动作，最后将与目标表情动作对应的特效参数添加到交互动画，以此实现在交互动画中增加特效，提升了用户体验。

例如，若目标表情动作为与开心对应的表情动作，则增加可以触发“太阳”特效的特效参数，若目标表情动作为与生气对应的表情动作，则增加可以触发“乌云”或“大火”特效的特效参数。

本申请实施例还提出了一种数字人交互控制方法，如图2所示，包括以下步骤：

步骤S201，获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息。

步骤S202，根据所述音频属性确定所述用户的用户特征信息。

用户特征信息可以为包括音调信息、音色信息、年龄信息和性别信息中的至少一种，根据音频属性可确定用户的用户特征信息，具体的，可预先建立不同音频属性与不同用户特征信息之间的对应关系，根据音频属性和该对应关系确定相应的用户特征信息。

步骤S203，根据所述交互请求信息确定场景信息。

场景信息可包括业务问答场景、直播场景和聊天场景，可通过对交互请求信息进行语义识别，确定场景信息。

步骤S204，根据所述用户特征信息和所述场景信息确定所述形象参数。

在确定用户特征信息和场景信息后，可根据两者确定相应的形象参数，从而提高了形象参数的准确性。例如，若场景信息为业务问答场景，则为目标数字人匹配正式着装，且选用较为严肃的表情和语气作为目标数字人的形象参数。又比如，根据用户的语音信息确定用户为小男孩，则为目标数字人匹配儿童数字人外形，以及可爱、甜美的童声作为目标数字人的形象参数。

在本申请一些实施例中，所述根据所述用户特征信息和所述场景信息确定所述形象参数，包括：

将所述用户特征信息与多个预设动作特征标签和多个预设声音特征标签比对，确定与所述用户特征信息匹配的目标动作特征标签和目标声音特征标签；

将所述场景信息与多个预设外形特征标签进行比对，确定与所述场景信息匹配的目标外形特征标签；

根据与所述目标动作特征标签对应的动作特征参数、与所述目标声音特征标签对应的声音特征参数和与所述目标外形特征标签对应的外形特征参数确定所述形象参数。

本实施例中，预先设置多个预设动作特征标签、多个预设声音特征标签和多个预设外形特征标签，每个预设动作特征标签对应一种动作特征参数，每个预设声音特征标签对应一种声音特征参数，每个预设外形特征标签对应一种外形特征参数。在获取用户特征信息和场景信息后，将用户特征信息分别与各预设动作特征标签和各预设声音特征标签进行比对，获取与用户特征信息匹配的目标动作特征标签和目标声音特征标签，并将场景信息与各预设外形特征标签进行比对，获取与场景信息匹配的目标外形特征标签，从而确定相应的动作特征参数、声音特征参数和外形特征参数，并根据三种特征参数确定形象参数，从而提高了形象参数的准确性。

步骤S205，根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数。

步骤S206，基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

通过应用以上技术方案，获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；根据所述音频属性确定所述用户的用户特征信息；根据所述交互请求信息确定场景信息；根据所述用户特征信息和所述场景信息确定所述形象参数；根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画，以此基于与用户音频对应的形象参数和动作参数驱动数字人进行互动，实现了更加高效的进行数字人交互，提升了用户体验。

本申请实施例还提出了一种数字人交互控制方法，如图3所示，包括以下步骤：

步骤S301，获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息。

步骤S302，根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数。

步骤S303，根据所述交互请求信息获取答复音频，按预设解析规则对所述答复音频进行解析，得到所述答复音频的语义信息和/或语调信息。

可先将交互请求信息输入预设问答模型，得到答复信息，然后对答复信息进行语音识别，得到答复音频。再按预设解析规则对答复音频进行解析，得到答复音频的语义信息和/或语调信息。其中，语义信息包括答复音频所要表达的意思，例如打招呼、告别等。语调信息可以包括答复音频中的重音字、尾音音调等。

步骤S304，根据预设匹配关系从多个第一动作中确定与所述语义信息和/或语调信息匹配的至少一个第一目标动作。

预先建立预设匹配关系，该预设匹配关系为多个第一动作与多种语义信息和/或语调信息之间的对应关系。根据该预设匹配关系从多个第一动作中确定与语义信息和/或语调信息匹配的至少一个第一目标动作。例如，若答复音频是“先生，您好。有什么可以帮助您吗？”，则答复音频的语义是打招呼，语调信息为：您”、“有”、“帮”几个字为重音字，且尾音上扬。根据预设匹配关系，与打招呼匹配的第一动作可以是鞠躬、招手、微笑等。对于重音字，可以匹配数字人轻微点头、手臂轻微晃动等第一动作。对于尾音音调上扬的情况，可以匹配轻微挑眉、轻微睁大双眼、嘴角上翘等第一动作。

步骤S305，根据所述第一目标动作确定所述动作参数。

将第一目标动作的参数作为动作参数，例如，若第一目标动作为招手动作，则将与招手动作对应的骨骼运动参数作为动作参数，从而更加高效的确定动作参数。

另外，若第一目标动作为多个，按预设规则将多个第一目标动作进行融合。例如，在语义信息是打招呼的情况下，可以在播放答复音频的过程中控制目标数字人全程保持微笑。对于语调信息，在每个重音字处随机增加目标数字人的轻微点头、手臂轻微晃动等动作，在尾音处随机增加目标数字人的轻微挑眉或嘴角上翘等动作。

在本申请一些实施例中，在根据所述第一目标动作确定所述动作参数之后，所述方法还包括：

根据所述答复音频的长度信息从多个第二动作中确定至少一个第二目标动作；

按预设插入规则将与所述第二目标动作对应的参数增加至所述动作参数中。

本实施例中，第一动作为主动动作，第二动作为下意识动作，例如，主动动作可以包括微笑、挥手等。下意识动作可以包括眨眼、身体轻微晃动，由呼吸带来的胸部和腹部的轻微起伏动作等。

根据答复音频的长度信息从多个第二动作中确定至少一个第二目标动作，然后按预设插入规则将与第二目标动作对应的参数增加至动作参数中。预设插入规则可以按固定时间间隔插入，例如相邻两次呼吸之间的时间间隔相同；也可以是随机插入，例如相邻两次眨眼之间的时间间隔可以随机。从而使得目标数字人具备真人的下意识动作，使交互动画中目标数字人的行为方式更接近于真人，提升了用户体验。

另外，还可以根据答复音频的长度信息确定各第二目标动作的出现次数，例如计算眨眼次数、身体轻微晃动次数以及呼吸次数等第二目标动作的出现次数。其中，呼吸次数可以对应胸部和腹部的轻微起伏次数。第二目标动作的次数可以根据对于真人的下意识动作进行学习确定。

若所述第一目标动作为多个，依次将各所述第一目标动作作为当前第一目标动作，判断所述当前第一目标动作与相邻的下一个第一目标动作之间是否存在冲突骨骼点；

若存在，确定从所述当前第一目标动作中各骨骼点的第一位置到所述下一个第一目标动作中各骨骼点的第二位置之间的运动路径，基于所述运动路径使所述当前第一目标动作衔接所述下一个第一目标动作，并将得到的衔接参数加入所述动作参数；

若不存在，按所述第一位置、所述第二位置和预设人体运动规律融合所述当前第一目标动作和所述下一个第一目标动作，并将得到的融合参数加入所述动作参数。

本实施例中，在第一目标动作为多个时，需要对各第一目标动作进行衔接或融合，具体的，依次将各第一目标动作作为当前第一目标动作，先判断当前第一目标动作与相邻的下一个第一目标动作之间是否存在冲突骨骼点，例如，若当前第一目标动作为弯腰捡东西的动作，相邻的下一个第一目标动作为用手接东西的动作，若将弯腰捡东西的动作和用手接东西的动作融合，则得到的融合动作会比较怪异，则判定存在冲突骨骼点。

若存在冲突骨骼点，则先确定从当前第一目标动作中各骨骼点的第一位置到下一个第一目标动作中各骨骼点的第二位置之间的运动路径，然后基于运动路径使当前第一目标动作衔接下一个第一目标动作，并将相应的衔接参数加入动作参数。例如，若当前第一目标动作为弯腰捡东西的动作，相邻的下一个第一目标动作为用手接东西的动作，先确定弯腰捡东西的动作的第一位置到用手接东西的动作的第二位置之间的运动路径，基于该运动路径控制目标数字人从弯腰捡东西的动作过渡到用手接东西的动作，从而实现两种动作之间的自然过渡。

若不存在冲突骨骼点，则按所述第一位置、所述第二位置和预设人体运动规律融合当前第一目标动作和下一个第一目标动作，并将得到的融合参数加入动作参数。例如，若当前第一目标动作为走向水杯的动作，下一个第一目标动作为拿起水杯喝水的动作，则根据真人走向水杯并喝水的动作的运动规律，走向水杯的动作中各骨骼点的第一位置，以及拿起水杯喝水的动作中骨骼点的第二位置，将走向水杯的动作和拿起水杯喝水的动作进行融合，从而实现两种动作之间的自然过渡。

以此通过判断是否存在冲突骨骼点进行各第一目标动作之间的衔接或融合，使动作参数更加符合真人，提升了用户体验。

步骤S306，基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

通过应用以上技术方案，获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；根据所述交互请求信息获取答复音频，按预设解析规则对所述答复音频进行解析，得到所述答复音频的语义信息和/或语调信息；根据预设匹配关系从多个第一动作中确定与所述语义信息和/或语调信息匹配的至少一个第一目标动作；根据所述第一目标动作确定所述动作参数；基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画，以此基于与用户音频对应的形象参数和动作参数驱动数字人进行互动，实现了更加高效的进行数字人交互，提升了用户体验。

本申请实施例还提出了一种数字人交互控制装置，如图4所示，所述装置包括：获取模块401，用于获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；第一确定模块402，用于根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；第二确定模块403，用于根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；生成模块404，用于基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

在具体的应用场景中，第一确定模块402，具体用于：根据所述音频属性确定所述用户的用户特征信息；根据所述交互请求信息确定场景信息；根据所述用户特征信息和所述场景信息确定所述形象参数。

在具体的应用场景中，第一确定模块402，还具体用于：将所述用户特征信息与多个预设动作特征标签和多个预设声音特征标签比对，确定与所述用户特征信息匹配的目标动作特征标签和目标声音特征标签；将所述场景信息与多个预设外形特征标签进行比对，确定与所述场景信息匹配的目标外形特征标签；根据与所述目标动作特征标签对应的动作特征参数、与所述目标声音特征标签对应的声音特征参数和与所述目标外形特征标签对应的外形特征参数确定所述形象参数。

在具体的应用场景中，第二确定模块403，具体用于：按预设解析规则对所述答复音频进行解析，得到所述答复音频的语义信息和/或语调信息；根据预设匹配关系从多个第一动作中确定与所述语义信息和/或语调信息匹配的至少一个第一目标动作；根据所述第一目标动作确定所述动作参数。

在具体的应用场景中，第二确定模块403，还用于：根据所述答复音频的长度信息从多个第二动作中确定至少一个第二目标动作；按预设插入规则将与所述第二目标动作对应的参数增加至所述动作参数中。

在具体的应用场景中，第二确定模块403，还用于：若所述第一目标动作为多个，依次将各所述第一目标动作作为当前第一目标动作，判断所述当前第一目标动作与相邻的下一个第一目标动作之间是否存在冲突骨骼点；若存在，确定从所述当前第一目标动作中各骨骼点的第一位置到所述下一个第一目标动作中各骨骼点的第二位置之间的运动路径，基于所述运动路径使所述当前第一目标动作衔接所述下一个第一目标动作，并将得到的衔接参数加入所述动作参数；若不存在，按所述第一位置、所述第二位置和预设人体运动规律融合所述当前第一目标动作和所述下一个第一目标动作，并将得到的融合参数加入所述动作参数。

在具体的应用场景中，所述装置还包括添加模块，用于：获取所述目标数字人的表情动作；将所述表情动作与预设动作表情库中的预设表情动作进行比对；若所述预设动作表情库中存在与所述表情动作匹配的目标表情动作，将与所述目标表情动作对应的特效参数添加到所述交互动画。

通过应用以上技术方案，数字人交互控制装置包括：获取模块，用于获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；第一确定模块，用于根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；第二确定模块，用于根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；生成模块，用于基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画，以此基于与用户音频对应的形象参数和动作参数驱动数字人进行互动，实现了更加高效的进行数字人交互，提升了用户体验。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存储处理器的可执行指令；

处理器501，被配置为经由执行所述可执行指令来执行：

获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

上述通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的数字人交互控制方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的数字人交互控制方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数字人交互控制方法，其特征在于，所述方法包括：

获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；

根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；

根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；

基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

2.如权利要求1所述的方法，其特征在于，所述根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数，包括：

根据所述音频属性确定所述用户的用户特征信息；

根据所述交互请求信息确定场景信息；

根据所述用户特征信息和所述场景信息确定所述形象参数。

3.如权利要求2所述的方法，其特征在于，所述根据所述用户特征信息和所述场景信息确定所述形象参数，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述答复音频确定所述目标数字人的动作参数，包括：

按预设解析规则对所述答复音频进行解析，得到所述答复音频的语义信息和/或语调信息；

根据预设匹配关系从多个第一动作中确定与所述语义信息和/或语调信息匹配的至少一个第一目标动作；

根据所述第一目标动作确定所述动作参数。

5.如权利要求4所述的方法，其特征在于，在根据所述第一目标动作确定所述动作参数之后，所述方法还包括：

6.如权利要求4所述的方法，其特征在于，在根据所述第一目标动作确定所述动作参数之后，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，在基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画之后，所述方法还包括：

获取所述目标数字人的表情动作；

8.一种数字人交互控制装置，其特征在于，所述装置包括：

获取模块，用于获取用户音频，基于预设语音识别模型对所述用户音频进行语音识别，得到交互请求信息；

第一确定模块，用于根据所述用户音频的音频属性和所述交互请求信息确定目标数字人的形象参数；

第二确定模块，用于根据所述交互请求信息获取答复音频，并根据所述答复音频确定所述目标数字人的动作参数；

生成模块，用于基于所述形象参数和所述动作参数生成与所述目标数字人对应的交互动画。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～7中任意一项所述的数字人交互控制方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～7中任意一项所述的数字人交互控制方法。