CN116798427B

CN116798427B - 基于多模态的人机交互方法及数字人系统

Info

Publication number: CN116798427B
Application number: CN202310746954.6A
Authority: CN
Inventors: 王晶
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Filing date: 2023-06-21
Publication date: 2024-07-05
Anticipated expiration: 2043-06-21

Abstract

本说明书实施例提供了基于多模态的人机交互方法及数字人系统。该方法应用于数字人系统，包括：在目标用户与数字人系统模拟的数字人进行交互的过程中，获取目标用户在说话时的多模态交互信息；将多模态交互信息输入预先训练的多任务预测模型，得到多任务预测模型输出的目标用户当前的第一用户意图，以及对目标用户当前语句是否结束的第一预测结果；在预设的数字人承接内容库中查找与第一用户意图和第一预测结果的组合相对应的目标承接内容，数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；响应于查找到目标承接内容，向目标用户输出目标承接内容。

Description

基于多模态的人机交互方法及数字人系统

技术领域

本说明书实施例涉及计算机技术领域，具体地，涉及基于多模态的人机交互方法及数字人系统。

背景技术

随着互联网软硬件技术发展逐步成熟，“元宇宙”概念成为热点的同时，虚拟数字人产业也进入爆发期。虚拟数字人出现在越来越多的领域，在越来越多的场景实现人机交互，成为一种人机交互的新模式。现阶段虚拟数字人的交互能力一般沿用早期人机对话产品中的交互方案，在和用户的交互过程中，通常不能适时承接，无法达到和真人交流的体感。

因此，迫切需要一种合理、可靠的方案，可以使得数字人在和用户的交互过程中，适时的承接以表示正在倾听和理解，达到和真人交流的体感。

发明内容

本说明书实施例提供了基于多模态的人机交互方法及数字人系统，可以使得数字人在和用户的交互过程中，适时的承接以表示正在倾听和理解，达到和真人交流的体感。

第一方面，本说明书实施例提供了一种基于多模态的人机交互方法，应用于数字人系统，包括：在目标用户与所述数字人系统模拟的数字人进行交互的过程中，获取所述目标用户在说话时的多模态交互信息；将所述多模态交互信息输入预先训练的多任务预测模型，得到所述多任务预测模型输出的所述目标用户当前的第一用户意图，以及对所述目标用户当前语句是否结束的第一预测结果；在预设的数字人承接内容库中查找与所述第一用户意图和所述第一预测结果的组合相对应的目标承接内容，所述数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；响应于查找到所述目标承接内容，向所述目标用户输出所述目标承接内容。

在一些实施例中，所述多模态交互信息包括以下中的至少两种：近N次采样的所述目标用户的语音流、通过对所述语音流进行文本转换而得到的第一文本信息、从近N次采样的所述目标用户的视频流中提取的若干帧用户动作图像。

在一些实施例中，所述目标承接内容包括以下中的至少一种：文本承接内容、语音承接内容、动作动画承接内容。

在一些实施例中，所述多模态交互信息包括所述语音流，当所述第一预测结果为所述目标用户当前语句结束时，还包括：获取所述语音流所在的完整语音对应的第二文本信息；基于所述第二文本信息，预测数字人应答文本和若干帧数字人动作图像；将所述数字人应答文本转换成语音信息，以及基于所述若干帧数字人动作图像生成动作动画；在向所述目标用户输出所述目标承接内容之后，还包括：向所述目标用户输出所述语音信息和所述动作动画。

在一些实施例中，所述方法还包括：在向所述目标用户输出所述语音信息和所述动作动画的过程中，响应于检测到所述目标用户的用于打断对话的行为，停止对所述语音信息和所述动作动画的输出。

在一些实施例中，所述用于打断对话的行为包括以下中的任一种：所述目标用户开始说话、用于表示所述目标用户要开始说话的动作。

在一些实施例中，所述多任务预测模型包括用于不同模态交互信息编码的若干编码器，针对用户意图的第一预测模块，以及针对用户当前语句是否结束的第二预测模块。

在一些实施例中，所述多模态交互信息包括所述语音流、所述第一文本信息和所述若干帧用户动作图像，所述若干编码器包括第一编码器、第二编码器和第三编码器；以及所述将所述多模态交互信息输入预先训练的多任务预测模型，得到所述多任务预测模型输出的所述目标用户当前的第一用户意图，以及对所述目标用户当前语句是否结束的第一预测结果，包括：将所述语音流输入所述第一编码器，得到所述第一编码器输出的第一编码结果；将所述第一文本信息输入所述第二编码器，得到所述第二编码器输出的第二编码结果；将所述若干帧用户动作图像输入所述第三编码器，得到所述第三编码器输出的第三编码结果；对所述第一编码结果、所述第二编码结果和所述第三编码结果进行拼接，得到拼接结果；将所述拼接结果输入所述第一预测模块和所述第二预测模块，得到所述第一预测模块输出的所述第一用户意图，以及所述第二预测模块输出的所述第一预测结果。

第二方面，本说明书实施例提供了一种数字人系统，包括双工控制单元，所述双工控制单元包括：获取模块，被配置成在目标用户与所述数字人系统模拟的数字人进行交互的过程中，获取所述目标用户在说话时的多模态交互信息；预测模块，被配置成将所述多模态交互信息输入预先训练的多任务预测模型，得到所述多任务预测模型输出的所述目标用户当前的第一用户意图，以及对所述目标用户当前语句是否结束的第一预测结果；查找模块，被配置成在预设的数字人承接内容库中查找与所述第一用户意图和所述第一预测结果的组合相对应的目标承接内容，所述数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；输出模块，被配置成响应于查找到所述目标承接内容，向所述目标用户输出所述目标承接内容。

在一些实施例中，所述多模态交互信息包括所述语音流，所述数字人系统还包括对话控制单元和动作决策单元，所述双工控制单元还包括接收模块、语音生成模块和动画生成模块；所述获取模块，还被配置成当所述第一预测结果为所述目标用户当前说话结束时，获取所述语音流所在的完整语音对应的第二文本信息；所述输出模块，还被配置成将所述第二文本信息发送至所述对话控制单元和所述动作决策单元；所述接收模块，被配置成接收所述对话控制单元返回的数字人应答文本，以及接收所述动作决策单元返回的若干帧数字人动作图像，所述数字人应答文本和所述若干帧数字人动作图像均基于所述第二文本信息预测得到；所述语音生成模块，被配置成将所述数字人应答文本转换成语音信息；所述动画生成模块，被配置成基于所述若干帧数字人动作图像生成动作动画；所述输出模块，还被配置成在向所述目标用户输出所述目标承接内容之后，向所述目标用户输出所述语音信息和所述动作动画。

第三方面，本说明书实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令该计算机执行如第一方面中任一实现方式描述的方法。

第四方面，本说明书实施例提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现如第一方面中任一实现方式描述的方法。

第五方面，本说明书实施例提供了一种计算机程序，其中，当该计算机程序在计算机中执行时，令该计算机执行如第一方面中任一实现方式描述的方法。

本说明书的上述实施例提供的方案，可以使得数字人系统在目标用户与数字人系统模拟的数字人进行交互的过程中，获取目标用户在说话时的多模态交互信息，并基于多模态交互信息准确预测出目标用户当前的第一用户意图和目标用户当前语句是否结束的第一预测结果，而后可以基于第一用户意图和第一预测结果在预设的数字人承接内容库中快速查找合适的目标承接内容，并向目标用户输出目标承接内容。由此，可以积极响应用户，引导用户表达，并提升数字人响应速度，而且根据第一用户意图和第一预测结果来选择合适的承接内容，会使得承接内容更加丰富，从而可以使得数字人在和用户的交互过程中，适时的承接以表示正在倾听和理解，达到和真人交流的体感。

附图说明

为了更清楚地说明本说明书披露的多个实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书披露的多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本说明书实施例可以应用于其中的一个应用场景的示意图；

图2是本说明书实施例中基于多模态的人机交互方法的流程图；

图3是将基于对目标用户的近3次采样而得到的多模态交互信息输入多任务预测模型的示意图；

图4是多任务预测模型的模型架构示意图；

图5本说明书实施例中基于多模态的人机交互方法的流程图；

图6是目标用户与数字人的交互过程的效果示意图；

图7是本说明书实施例中数字人系统的一个结构示意图。

具体实施方式

下面结合附图和实施例对本说明书作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本说明书中的实施例及实施例中的特征可以相互组合。另外，本说明书实施例中的“第一”、“第二”、“第三”，仅用于信息区分，不起任何限定作用。

虚拟数字人可以理解为集计算机图形学、计算机视觉、智能语音和自然语言处理技术于一体的系统，可称为数字人系统。通常，用户可以与数字人系统模拟的数字人进行交互，该数字人可以具有三维的数字身体，并可以通过自然语言与真实人类用户进行对话，理解语句内容，推断含义，还可以具有类似真人的面部表情，情绪和性格特点等人物特点。在给定的虚拟场景中，数字人还可以执行各种躯体动作。

如前所述，现阶段虚拟数字人的交互能力一般沿用早期人机对话产品中的交互方案，在和用户的交互过程中，通常不能适时承接，无法达到和真人交流的体感。基于此，本说明书的一些实施例提供了基于多模态的人机交互方法，可以使得数字人在和用户的交互过程中，适时的承接以表示正在倾听和理解，达到和真人交流的体感。

图1是本说明书实施例可以应用于其中的一个应用场景的示意图。在图1所示的应用场景中，可以包括目标用户和数字人系统100。数字人系统100可以部署在任何具有数据存储、计算、处理能力的设备、平台或设备集群中。数字人系统100中可以包括预先训练的多任务预测模型和预设的数字人承接内容库。

数字人系统100和目标用户可以处于任意的场景，该任意的场景例如可以为直播间或元宇宙等。当该任意的场景为直播间时，数字人系统100模拟的数字人例如可以是该直播间的主播，目标用户可以是进入该直播间的用户。当该任意的场景为元宇宙时，数字人系统100模拟的数字人例如可以是元宇宙中的系统角色，目标用户可以是真人用户，或该真人用户控制的玩家角色。

多任务预测模型可以用于基于用户在说话时的多模态交互信息，预测用户当前的用户意图和用户当前语句是否结束。数字人承接内容库可以用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系。实践中，数字人承接内容库可以离线构造，例如可以通过分析真人对话过程中的承接行为，找到高频承接语，以及对应的音视频，从而离线构造数字人承接内容库。

在实际应用中，数字人系统100可以实时的接收目标用户的语音流。进一步地，数字人系统100还可以实时的接收目标用户的视频流。基于此，在目标用户与数字人系统100模拟的数字人进行交互的过程中，数字人系统100可以获得目标用户在说话时的多模态交互信息。在一个例子中，当数字人系统100实时的接收目标用户的语音流时，该多模态交互信息可以包括目标用户的语音流，以及通过对该语音流进行文本转换而得到的文本信息T1。进一步地，该语音流可以是近N次采样的目标用户的语音流。其中，N可以是2、3或4等自然数，采样间隔时长例如可以是100ms(毫秒)或200ms等。应该理解，N和采样间隔时长可以根据实际需求设定，在此不做具体限定。在另一个例子中，当数字人系统100实时的接收目标用户的语音流和视频流时，该多模态交互信息可以包括从目标用户的视频流中提取出的若干帧用户动作图像，以及以下中的至少一种：目标用户的语音流、通过对该语音流进行文本转换而得到的文本信息T1。进一步地，该视频流可以是近N次采样的目标用户的视频流，该语音流可以是近N次采样的目标用户的语音流。

数字人系统100在获得目标用户在说话时的多模态交互信息后，可以利用预先训练的多任务预测模型，基于该多模态交互信息，预测出目标用户当前的用户意图I1和目标用户当前语句是否结束的预测结果R1。之后，数字人系统100可以在预设的数字人承接内容库中查找与用户意图I1和预测结果R1的组合相对应的目标承接内容。在查找到目标承接内容时，数字人系统100可以向目标用户输出目标承接内容。由此，可以使得数字人适时的承接以表示正在倾听和理解，达到和真人交流的体感。

下面，结合具体的实施例，描述上述方法的具体实施步骤。

参看图2，其是本说明书实施例中基于多模态的人机交互方法的流程图。该方法的执行主体可以为数字人系统(如图1所示的数字人系统100)。该方法包括以下步骤：步骤202，在目标用户与数字人系统模拟的数字人进行交互的过程中，获取目标用户在说话时的多模态交互信息；步骤204，将多模态交互信息输入预先训练的多任务预测模型，得到多任务预测模型输出的目标用户当前的第一用户意图，以及对目标用户当前语句是否结束的第一预测结果；步骤206，在预设的数字人承接内容库中查找与第一用户意图和第一预测结果的组合相对应的目标承接内容，数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；步骤208，响应于查找到目标承接内容，向目标用户输出目标承接内容。

下面，对步骤204-208做进一步说明。

在步骤204中，在目标用户与数字人系统模拟的数字人进行交互的过程中，可以获取目标用户在说话时的多模态交互信息。该多模态交互信息可以包括以下中的至少两种：目标用户的语音流、通过对该语音流进行文本转换而得到的第一文本信息、从目标用户的视频流中提取的若干帧用户动作图像。进一步地，该语音流可以是近N次采样的目标用户的语音流，该视频流可以是近N次采样的目标用户的视频流。该若干帧用户动作图像中任意的用户动作图像，可以示出目标用户的面部表情和/或肢体动作。

实践中，在每次采样得到目标用户的语音流和视频流后，可以采用自动语音识别技术(Automatic Speech Recognition，ASR)将该语音流转换成文本信息，以及采用现有的图像提取技术从该视频流中提取出用户动作图像。

当上述多模态交互信息包括以下中的至少两种时：近N次采样的目标用户的语音流、通过对该语音流进行文本转换而得到的第一文本信息、从近N次采样的目标用户的视频流中提取的若干帧用户动作图像，从对目标用户的第N次采样开始，每完成一次采样后，就可以通过执行步骤202获取目标用户在说话时的多模态交互信息，进而可以将该多模态交互信息作为多任务预测模型的输入，使得多任务预测模型预测目标用户当前的用户意图，以及目标用户当前语句是否结束。

以N为3、采样间隔时长为200ms为例。参看图3，其是将基于对目标用户的近3次采样而得到的多模态交互信息输入多任务预测模型的示意图。其中，图3中处于中间位置的虚线框内示意性的示出了对目标用户的多次采样而得到的多个语音流。最上方的虚线框内示意性的示出了该多个语音流各自对应的文本信息。最下方的虚线框内示意性的示出了从对目标用户的多次采样而得到的多个视频流中分别提取出的用户动作图像。如图3所示，在完成对目标用户的第3次采样后，就可以将基于对目标用户第1-3次的采样而得到的多模态交互信息输入多任务预测模型，使得多任务预测模型预测目标用户当前的用户意图，以及目标用户当前语句是否结束。在完成对目标用户的第4次采样后，就可以将基于对目标用户第2-4次的采样而得到的多模态交互信息输入多任务预测模型，使得多任务预测模型预测目标用户当前的用户意图，以及目标用户当前语句是否结束。

接着，在步骤204中，可以将目标用户在说话时的多模态交互信息输入预先训练的多任务预测模型，得到多任务预测模型输出的目标用户当前的第一用户意图，以及对目标用户当前语句是否结束的第一预测结果。

多任务预测模型可以包括用于不同模态交互信息编码的若干编码器，针对用户意图的第一预测模块，以及针对用户当前语句是否结束的第二预测模块。作为示例，当目标用户在说话时的多模态交互信息包括语音流时，该若干编码器可以包括用于语音编码的第一编码器；当该多模态交互信息包括第一文本信息时，该若干编码器可以包括用于文本编码的第二编码器；当该多模态交互信息包括若干帧用户动作图像时，该若干编码器可以包括用于动作图像编码的第三编码器。

以目标用户在说话时的多模态交互信息包括语音流，该语音流对应的文本信息T1，以及若干帧用户动作图像为例，多任务预测模型的模型架构可以如图4所示。其中，图4是多任务预测模型的模型架构示意图。

参看图4，其示出了多任务预测模型可以包括用于语音编码的编码器E1，用于文本编码的编码器E2，用于动作图像编码的编码器E3，针对用户意图的预测模块P1，以及针对用户当前语句是否结束的预测模块P2。其中，编码器E1例如可以包括长短期记忆网络(LongShort-Term Memory，LSTM)。编码器E2、E3例如可以包括文本卷积神经网络(TextCNN)。预测模块P1例如可以包括全连接层和softmax函数。预测模块P2例如可以包括全连接层和sigmoid函数。

在利用多任务预测模型进行预测时，可以如图4中所示，将目标用户在说话时的多模态交互信息中的语音流输入编码器E1，得到编码器E1输出的编码结果ER1，将该多模态交互信息中对应于该语音流的文本信息T1输入编码器E2，得到编码器E2输出的编码结果ER2，以及将该多模态交互信息中的若干帧用户动作图像输入编码器E3，得到编码器E3输出的编码结果ER3。其中，编码结果ER1、ER2、ER3均可以为稠密向量。之后，可以对编码结果ER1、ER2、ER3进行拼接，得到拼接结果。接着，可以将该拼接结果输入预测模块P1、P2，得到预测模块P1输出的目标用户当前的用户意图I1，以及预测模块P2输出的目标用户当前语句是否结束的预测结果R1。

在一个例子中，预测结果R1可以具体指示出输入的语音流是否为句尾。当预测结果R1指示出该语音流为句尾时，可以表示目标用户当前语句结束。当预测结果R1指示出该语音流不是句尾时，可以表示目标用户当前语句未结束。

当预测结果R1指示出目标用户当前语句未结束时，可以表示目标用户处于说话过程中，此时的用户意图I1可以用于指示是否需要承接。当用户意图I1用于指示需要承接时，可以表示目标用户当前处于换气或思考等停顿状态。当用户意图I1用于指示不需要承接时，可以表示目标用户当前还在说话。当预测结果R1指示出目标用户当前语句结束时，可以表示目标用户刚刚说话结束，此时的用户意图I1可以指示出目标用户真正的意图。

在预测结果R1指示出目标用户当前语句未结束且用户意图I1用于指示需要承接时，或者在预测结果R1指示出目标用户当前语句结束时，可以通过执行步骤206，在预设的数字人承接内容库中查找合适的目标承接内容。

需要指出，本说明书实施例提供的方案利用了目标用户在说话时的多模态交互信息，考虑的范围比较全面，预测准确率较高。同时，多任务预测模型用不同的编码器对不同模态的交互信息进行编码，有助于进一步提升多任务预测模型的预测准确率。另外，在该多模态交互信息基于对目标用户的近N次采样而确定时，通过将该多模态交互信息作为多任务预测模型的输入，来预测目标用户当前的用户意图和目标用户当前语句是否结束，能使得预测结果时效性高。

在步骤206中，可以在预设的数字人承接内容库中查找与第一用户意图和第一预测结果的组合相对应的目标承接内容。数字人承接内容库可以用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系。其中，目标承接内容可以包括以下中的至少一种：文本承接内容、语音承接内容、动作动画承接内容等。该文本承接内容例如可以包括助词或叹词等。该语音承接内容可以是一个声音，或者可以表达出助词或叹词等。该动作动画承接内容可以示出数字人的面部表情和/或肢体动作。该面部表情可以是任何适合作为承接内容的表情，例如该面部表情可以是微笑或惊讶等。该肢体动作可以是任何适合作为承接内容的动作，例如该动作可以是点头或手势等。

需要说明，由于句中承接需要快速响应，因此承接内容需要提前制作好并加载到内存中，判定需要承接时直接渲染输出。若仍需检索或生成的方式构造承接内容，则无法满足实时响应，承接体验会变差。本说明书实施例提供的方案通过预设数字人承接内容库，不仅可以使得数字人承接内容更加丰富，而且可以达到使得数字人快速响应的目的。

接着，在步骤208中，在查找到目标承接内容时，可以向目标用户输出目标承接内容。由此，在目标用户说话过程中，数字人可以在目标用户处于换气或思考等停顿状态时承接以表示正在倾听对话，让目标用户的表达更加积极且避免疲劳。在目标用户刚刚说话结束时，数字人可以先承接以表示理解，能极大缓解目标用户体感响应时间，从而能有效提升数字人的交互体验。

图2对应的实施例提供的方案，可以使得数字人系统在目标用户与数字人系统模拟的数字人进行交互的过程中，获取目标用户在说话时的多模态交互信息，并基于多模态交互信息准确预测出目标用户当前的第一用户意图和目标用户当前语句是否结束的第一预测结果，而后可以基于第一用户意图和第一预测结果在预设的数字人承接内容库中快速查找合适的目标承接内容，并向目标用户输出目标承接内容。由此，可以积极响应用户，引导用户表达，并提升数字人响应速度，而且根据第一用户意图和第一预测结果来选择合适的承接内容，会使得承接内容更加丰富，从而可以使得数字人在和用户的交互过程中，适时的承接以表示正在倾听和理解，达到和真人交流的体感。

在一种实施方式中，在目标用户说话时的多模态交互信息包括语音流的情况下，当第一预测结果为目标用户当前语句结束时，还可以基于该语音流所在的完整语音对应的第二文本信息，预测数字人应答信息，从而在向目标用户输出目标承接内容后，可以接着向目标用户输出该数字人应答信息。其中，该实施方式可以通过图5中的步骤510-516实现。

参看图5，其是本说明书实施例中基于多模态的人机交互方法的流程图。该方法的执行主体可以为数字人系统(如图1所示的数字人系统100)。该方法包括以下步骤：步骤502，在目标用户与数字人系统模拟的数字人进行交互的过程中，获取目标用户在说话时的多模态交互信息；步骤504，将多模态交互信息输入预先训练的多任务预测模型，得到多任务预测模型输出的目标用户当前的第一用户意图，以及对目标用户当前语句是否结束的第一预测结果；步骤506，在预设的数字人承接内容库中查找与第一用户意图和第一预测结果的组合相对应的目标承接内容，数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；步骤508，响应于查找到目标承接内容，向目标用户输出目标承接内容；步骤510，当第一预测结果为目标用户当前语句结束时，获取多模态交互信息中的语音流所在的完整语音对应的第二文本信息；步骤512，基于第二文本信息，预测数字人应答文本和若干帧数字人动作图像；步骤514，将数字人应答文本转换成语音信息，以及基于若干帧数字人动作图像生成动作动画；步骤516，在向目标用户输出目标承接内容后，向目标用户输出语音信息和动作动画；步骤518，在向目标用户输出语音信息和动作动画的过程中，响应于检测到目标用户的用于打断对话的行为，停止对语音信息和动作动画的输出。

在本实施例中，目标用户在说话时的多模态交互信息可以包括目标用户的语音流和以下中的至少一种：通过对该语音流进行文本转换而得到的第一文本信息、从目标用户的视频流中提取的若干帧用户动作图像。其中，关于步骤502-508的具体解释，可参考图2对应实施例中步骤202-208的相关说明，在此不再赘述。

在步骤510中，当第一预测结果为目标用户当前语句结束时，可以获取上述多模态交互信息中的语音流所在的完整语音对应的第二文本信息。在一个例子中，该完整语音可以由采样得到的多个语音流组成，可以获取该多个语音流各自对应的文本信息，并对获取到的文本信息进行拼接，从而得到第二文本信息。

需要说明，为了提升数字人的响应速度，步骤510可以与步骤506并行执行。

接着，在步骤512中，可以基于第二文本信息，预测数字人应答文本和若干帧数字人动作图像。

作为示例，数字人系统中例如可以存储有预先训练的数字人应答内容预测模型，或者存储有数字人应答内容库，该数字人应答内容库可以用于表征用户语句和数字人应答内容之间的对应关系。基于此，可以将第二文本信息输入数字人应答内容预测模型，得到数字人应答内容预测模型输出的数字人应答内容；或者，可以在数字人应答内容库中查找与第二文本信息相匹配的目标用户语句，并获取该目标用户语句对应的数字人应答内容。

另外，数字人系统中例如还可以存储有预先训练的数字人动作图像预测模型，或者存储有数字人动作图像库，该数字人动作图像库可以用于表征用户语句和数字人动作图像之间的对应关系。基于此，可以将第二文本信息输入数字人动作图像预测模型，得到数字人动作图像预测模型输出的数字人动作图像；或者，可以在数字人动作图像库中查找与第二文本信息相匹配的目标用户语句，并获取该目标用户语句对应的数字人动作图像。

接着，在步骤514中，可以将数字人应答文本转换成语音信息，以及基于若干帧数字人动作图像生成动作动画。具体地，可以采用TTS(Text To Speech，从文本到语音)语音合成技术将数字人应答文本转换成语音信息，以及采用现有的动画生成技术基于该若干帧数字人动作图像生成动作动画。

在执行完步骤508、514后，可以接着执行步骤516。在步骤516中，可以向目标用户输出在步骤514中得到的语音信息和动作动画。

实践中，在数字人说话的过程中，用户有可能会做出用于打断对话的行为。为了进一步达到和真人交流的体感，在用户做出该行为时，数字人应该停止说话，听用户开始说话。基于此，在向目标用户输出语音信息和动作动画的过程中，可以实时检测目标用户的用于打断对话的行为。在检测到该行为时，可以通过执行步骤518，停止对该语音信息和动作动画的输出。其中，该用于打断对话的行为可以包括以下中的任一种：目标用户开始说话、用于表示目标用户要开始说话的动作。

在图5对应的实施例提供的方案中，在目标用户说话过程中，数字人可以在目标用户处于换气或思考等停顿状态时承接以表示正在倾听对话，例如，如图6中所示，在目标用户说出“我昨天有一笔转款”之后的短暂间隙，数字人可以承接叹词“哦”和正在倾听的表情，以及在目标用户说出“呃前天了吧”之后的短暂间隙，数字人可以承接叹词“嗯”和正在倾听的表情，这样可以让目标用户的表达更加积极且避免疲劳。其中，图6是目标用户与数字人的交互过程的效果示意图。在目标用户刚刚说话结束时，数字人可以先承接以表示理解，而后对目标用户的完整语音进行应答，例如，如图6中所示，数字人可以先承接短语“了解了”和表示理解的手势，之后可以输出相应的应答信息，如“这边帮你查询到XX”，此时的承接可以减少目标用户的等待时间，提升用户体验。另外，数字人在说话过程中，可以实时检测到目标用户开始说话或其他打断对话的行为并停止说话，听目标用户开始说话。通过这样的系统设计，可以达到全双工交互的能力，目标用户在和数字人交互过程中，不再有单轮次对话的生硬感觉，而是有和真人对话的体验。

进一步参看图7，其是本说明书实施例中数字人系统的一个结构示意图。该数字人系统可以部署在任何具有数据存储、计算、处理能力的设备、平台或设备集群中。

如图7所示，数字人系统700可以包括双工控制单元701，双工控制单元701可以包括：获取模块7011、预测模块7012、查找模块7013和输出模块7014。其中，获取模块7011被配置成在目标用户与数字人系统模拟的数字人进行交互的过程中，获取目标用户在说话时的多模态交互信息；预测模块7012被配置成将该多模态交互信息输入预先训练的多任务预测模型，得到多任务预测模型输出的目标用户当前的第一用户意图，以及对目标用户当前语句是否结束的第一预测结果；查找模块7013被配置成在预设的数字人承接内容库中查找与第一用户意图和第一预测结果的组合相对应的目标承接内容，数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；输出模块7014被配置成响应于查找到目标承接内容，向目标用户输出目标承接内容。

在一种实施方式中，多任务预测模型和数字人承接内容库包含在数字人系统700中。进一步地，多任务预测模型和数字人承接内容库可以包含在双工控制单元701中。更进一步地，多任务预测模型可以包含在预测模块7012中，数字人承接内容库可以包含在查找模块7013中。

在一种实施方式中，上述多模态交互信息可以包括以下中的至少两种：近N次采样的目标用户的语音流、通过对该语音流进行文本转换而得到的第一文本信息、从近N次采样的目标用户的视频流中提取的若干帧用户动作图像。

在一种实施方式中，目标承接内容可以包括以下中的至少一种：文本承接内容、语音承接内容、动作动画承接内容。

在一种实施方式中，上述多模态交互信息包括上述语音流，数字人系统还可以包括对话控制单元702和动作决策单元703，双工控制单元701还可以包括接收模块7015、语音生成模块7016和动画生成模块7017。其中，获取模块7011还可以被配置成当第一预测结果为目标用户当前说话结束时，获取上述语音流所在的完整语音对应的第二文本信息；输出模块7014还可以被配置成将第二文本信息发送至对话控制单元702和动作决策单元703；接收模块7015可以被配置成接收对话控制单元702返回的数字人应答文本，以及接收动作决策单元703返回的若干帧数字人动作图像，数字人应答文本和该若干帧数字人动作图像均基于第二文本信息预测得到；语音生成模块7016可以被配置成将数字人应答文本转换成语音信息；动画生成模块7017可以被配置成基于该若干帧数字人动作图像生成动作动画；输出模块7014还可以被配置成在向目标用户输出目标承接内容之后，向目标用户输出该语音信息和该动作动画。

在一种实施方式中，输出模块7014还可以被配置成：在向目标用户输出语音信息和动作动画的过程中，响应于检测到目标用户的用于打断对话的行为，停止对语音信息和动作动画的输出。其中，该用于打断对话的行为可以包括以下中的任一种：目标用户开始说话、用于表示目标用户要开始说话的动作。

在一种实施方式中，多任务预测模型可以包括用于不同模态交互信息编码的若干编码器，针对用户意图的第一预测模块，以及针对用户当前语句是否结束的第二预测模块。

在一种实施方式中，上述多模态交互信息可以包括上述语音流、第一文本信息和上述若干帧用户动作图像，上述若干编码器可以包括第一编码器、第二编码器和第三编码器；以及预测模块7012可以进一步被配置成：将上述语音流输入第一编码器，得到第一编码器输出的第一编码结果；将第一文本信息输入第二编码器，得到第二编码器输出的第二编码结果；将上述若干帧用户动作图像输入第三编码器，得到第三编码器输出的第三编码结果；对第一编码结果、第二编码结果和第三编码结果进行拼接，得到拼接结果；将拼接结果输入第一预测模块和第二预测模块，得到第一预测模块输出的第一用户意图，以及第二预测模块输出的第一预测结果。

在一种实施方式中，双工控制单元701还可以包括语音识别模块(图中未示出)和动捕模块(图中未示出)。第一文本信息可以由语音识别模块对上述语音流进行文本转换而得到。上述若干帧用户动作图像可以由动捕模块从上述视频流中提取出。

在图7对应的实施例中，各单元、模块的具体处理及其带来的技术效果可参考前文中方法实施例中的相关说明，在此不再赘述。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行以上各方法实施例分别描述的基于多模态的人机交互方法。

本说明书实施例还提供了一种计算设备，包括存储器和处理器，其中，该存储器中存储有可执行代码，该处理器执行该可执行代码时，实现以上各方法实施例分别描述的基于多模态的人机交互方法。

本说明书实施例还提供了一种计算机程序，其中，当该计算机程序在计算机中执行时，令计算机执行以上各方法实施例分别描述的基于多模态的人机交互方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书披露的多个实施例的具体实施方式而已，并不用于限定本说明书披露的多个实施例的保护范围，凡在本说明书披露的多个实施例的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书披露的多个实施例的保护范围之内。

Claims

1.一种基于多模态的人机交互方法，应用于数字人系统，包括：

在目标用户与所述数字人系统模拟的数字人进行交互的过程中，获取所述目标用户在说话时的多模态交互信息；

将所述多模态交互信息输入预先训练的多任务预测模型，得到所述多任务预测模型输出的所述目标用户当前的第一用户意图，以及对所述目标用户当前语句是否结束的第一预测结果；其中，所述第一用户意图和所述第一预测结果均基于所述多模态交互信息预测得到；

在预设的数字人承接内容库中查找与所述第一用户意图和所述第一预测结果的组合相对应的目标承接内容，所述数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；

响应于查找到所述目标承接内容，向所述目标用户输出所述目标承接内容。

2.根据权利要求1所述的方法，其中，所述多模态交互信息包括以下中的至少两种：近N次采样的所述目标用户的语音流、通过对所述语音流进行文本转换而得到的第一文本信息、从近N次采样的所述目标用户的视频流中提取的若干帧用户动作图像。

3.根据权利要求1所述的方法，其中，所述目标承接内容包括以下中的至少一种：文本承接内容、语音承接内容、动作动画承接内容。

4.根据权利要求2所述的方法，其中，所述多模态交互信息包括所述语音流，当所述第一预测结果为所述目标用户当前语句结束时，还包括：

获取所述语音流所在的完整语音对应的第二文本信息；

基于所述第二文本信息，预测数字人应答文本和若干帧数字人动作图像；

将所述数字人应答文本转换成语音信息，以及基于所述若干帧数字人动作图像生成动作动画；

在向所述目标用户输出所述目标承接内容之后，还包括：

向所述目标用户输出所述语音信息和所述动作动画。

5.根据权利要求4所述的方法，还包括：

在向所述目标用户输出所述语音信息和所述动作动画的过程中，响应于检测到所述目标用户的用于打断对话的行为，停止对所述语音信息和所述动作动画的输出。

6.根据权利要求5所述的方法，其中，所述用于打断对话的行为包括以下中的任一种：所述目标用户开始说话、用于表示所述目标用户要开始说话的动作。

7.根据权利要求2所述的方法，其中，所述多任务预测模型包括用于不同模态交互信息编码的若干编码器，针对用户意图的第一预测模块，以及针对用户当前语句是否结束的第二预测模块。

8.根据权利要求7所述的方法，其中，所述多模态交互信息包括所述语音流、所述第一文本信息和所述若干帧用户动作图像，所述若干编码器包括第一编码器、第二编码器和第三编码器；以及

所述将所述多模态交互信息输入预先训练的多任务预测模型，得到所述多任务预测模型输出的所述目标用户当前的第一用户意图，以及对所述目标用户当前语句是否结束的第一预测结果，包括：

将所述语音流输入所述第一编码器，得到所述第一编码器输出的第一编码结果；

将所述第一文本信息输入所述第二编码器，得到所述第二编码器输出的第二编码结果；

将所述若干帧用户动作图像输入所述第三编码器，得到所述第三编码器输出的第三编码结果；

对所述第一编码结果、所述第二编码结果和所述第三编码结果进行拼接，得到拼接结果；

将所述拼接结果输入所述第一预测模块和所述第二预测模块，得到所述第一预测模块输出的所述第一用户意图，以及所述第二预测模块输出的所述第一预测结果。

9.一种数字人系统，包括双工控制单元，所述双工控制单元包括：

获取模块，被配置成在目标用户与所述数字人系统模拟的数字人进行交互的过程中，获取所述目标用户在说话时的多模态交互信息；

预测模块，被配置成将所述多模态交互信息输入预先训练的多任务预测模型，得到所述多任务预测模型输出的所述目标用户当前的第一用户意图，以及对所述目标用户当前语句是否结束的第一预测结果；其中，所述第一用户意图和所述第一预测结果均基于所述多模态交互信息预测得到；

查找模块，被配置成在预设的数字人承接内容库中查找与所述第一用户意图和所述第一预测结果的组合相对应的目标承接内容，所述数字人承接内容库用于表征用户意图、用户当前语句是否结束的预测结果和数字人承接内容之间的对应关系；

输出模块，被配置成响应于查找到所述目标承接内容，向所述目标用户输出所述目标承接内容。

10.根据权利要求9所述的数字人系统，其中，所述多模态交互信息包括以下中的至少两种：近N次采样的所述目标用户的语音流、通过对所述语音流进行文本转换而得到的第一文本信息、从近N次采样的所述目标用户的视频流中提取的若干帧用户动作图像。

11.根据权利要求10所述的数字人系统，其中，所述多模态交互信息包括所述语音流，所述数字人系统还包括对话控制单元和动作决策单元，所述双工控制单元还包括接收模块、语音生成模块和动画生成模块；

所述获取模块，还被配置成当所述第一预测结果为所述目标用户当前说话结束时，获取所述语音流所在的完整语音对应的第二文本信息；

所述输出模块，还被配置成将所述第二文本信息发送至所述对话控制单元和所述动作决策单元；

所述接收模块，被配置成接收所述对话控制单元返回的数字人应答文本，以及接收所述动作决策单元返回的若干帧数字人动作图像，所述数字人应答文本和所述若干帧数字人动作图像均基于所述第二文本信息预测得到；

所述语音生成模块，被配置成将所述数字人应答文本转换成语音信息；

所述动画生成模块，被配置成基于所述若干帧数字人动作图像生成动作动画；

所述输出模块，还被配置成在向所述目标用户输出所述目标承接内容之后，向所述目标用户输出所述语音信息和所述动作动画。

12.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项所述的方法。

13.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。