CN114020153A

CN114020153A - 一种多模态人机交互方法及装置

Info

Publication number: CN114020153A
Application number: CN202111301441.1A
Authority: CN
Inventors: 方家挺; 顾文元; 张雪源
Original assignee: Yuanmeng Human Intelligence International Co ltd; Shanghai Yuanmeng Intelligent Technology Co ltd
Current assignee: Yuanmeng Human Intelligence International Co ltd; Shanghai Yuanmeng Intelligent Technology Co ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08
Anticipated expiration: 2041-11-04

Abstract

本发明提供了一种多模态人机交互方法及装置，包括：获取来自用户的交互文本信息；根据交互文本信息预测过渡语；根据过渡语获取对应的多模态内容，将其作为第一回复内容，将第一回复内容推送至虚拟人客户端；根据交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。本发明通过在正式回复内容之前插入过渡语，对答复文本信息分段处理，将一轮回复变成多轮回复，提高了虚拟人的响应速度，实现了顺畅的人机交互体验。

Description

一种多模态人机交互方法及装置

技术领域

本发明涉及人机交互领域，尤指一种多模态人机交互方法及装置。

背景技术

语音交互一般经过语音识别、语义处理、语音合成等流程环节。虚拟人的人机交互不仅仅只有语音信息，还包含了其他诸如口型、表情、动作等多种模态的信息交互。

虚拟人的人机交互一般包括三个环节：语音识别(Auto Speech Recgnition,ASR)、语义理解(Natural Language Understanding,NLU)和多模态生成(Multi-ModalLanguage Generation,MMLG)。语音识别用于获取与用户语音信息对应的交互文本信息。语义理解用于获取与交互文本信息对应的答复文本信息。多模态生成用于生成与答复文本信息对应的多模态内容。其中多模态生成包含了语音合成、口型对齐生成、动作对齐生成等。

常规的交互流程为：经语音识别、语义理解，确定答复文本信息；再一次性将答复文本信息的多模态内容生成好，再推送给虚拟人，虚拟人按照收到的多模态内容进行响应。若答复容量大，则在多模态生成阶段需要计算的内容较多，处理时间长，导致虚拟人响应回复慢，无法满足顺畅的人机交互体验。

为了提高虚拟人说话的响应速度，减小多模态生成的处理时间，有一种方法是，对多模态内容进行缓存。将多模态生成的内容进行预先缓存，这样进行交互时，虚拟人直接取缓存中的内容回复即可，从而提高响应速度。但是该方法只能针对预先设定好的答案进行缓存，若是遇到新的答案，还是需要临时生成多模态信息，当答复内容多时，还是会导致虚拟人响应慢。

发明内容

本发明的目的之一是为了克服现有技术中存在的至少一种不足，提供一种多模态人机交互方法及装置。

本发明提供的技术方案如下：

一种多模态人机交互方法，包括：获取来自用户的交互文本信息；根据所述交互文本信息预测过渡语；根据所述过渡语获取对应的多模态内容，将其作为第一回复内容，将所述第一回复内容推送至虚拟人客户端；根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。

进一步地，在预测过渡语之前，还包括：确定所述交互文本信息的答复文本信息；所述的根据所述交互文本信息预测过渡语包括：若所述答复文本信息不为预设文本，则根据所述交互文本信息和所述答复文本信息，预测与所述交互文本信息相匹配的过渡语。

进一步地，还包括：若所述答复文本信息为预设文本，则从预设缓存中获取所述预设文本的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。

进一步地，预先设置若干过渡语及每个过渡语对应的多模态内容；

所述的根据所述交互文本信息预测过渡语包括：从预先设置的所有过渡语中选择与所述交互文本信息相匹配的过渡语；所述的根据所述过渡语获取对应的多模态内容包括：从预设设置的所有过渡语的多模态内容中获取与所述交互文本信息相匹配的过渡语对应的多模态内容。

进一步地，所述的根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将第二回复内容推送至虚拟人客户端，包括：

若所述答复文本信息的长度超过预设长度，则对所述答复文本信息进行分割，得到依次排列的短内容片段；按序依次对每个短内容片段生成对应的多模态内容并缓存；按序将每个短内容片段的多模态内容逐次推送至虚拟人客户端。

进一步地，所述的对所述答复文本信息进行分割，包括：采用神经网络结构的内容分段模型对所述答复文本信息进行分割，所述内容分段模型根据语义间的停顿信息将答复文本信息分割成多个短内容片段。

进一步地，还包括：当收到来自虚拟人客户端的会话终止指示时，停止后续的多模态内容生成，释放本次会话占用的资源。

本发明还提供一种多模态人机交互装置，包括：交互文本获取模块，用于获取来自用户的交互文本信息；第一回复内容生成模块，用于根据所述交互文本信息预测过渡语；根据所述过渡语获取对应的多模态内容，将其作为第一回复内容；发送模块，用于将所述第一回复内容推送至虚拟人客户端；第二回复内容生成模块，用于根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容；所述发送模块，还用于将所述第二回复内容推送至虚拟人客户端。

进一步地，还包括：答复文本确定模块，用于在预测过渡语之前，确定所述交互文本信息的答复文本信息；所述第一回复内容生成模块，还用于若所述答复文本信息不为预设文本，则根据所述交互文本信息和所述答复文本信息，预测与所述交互文本信息相匹配的过渡语。

进一步地，所述第二回复内容生成模块，还用于若所述答复文本信息为预设文本，则从预设缓存中获取所述预设文本的多模态内容，将其作为第二回复内容。

通过本发明提供的一种多模态人机交互方法及装置，至少能够带来以下有益效果：

1、本发明通过在正式回复内容之前插入过渡语，不仅提高了虚拟人客户端的响应速度，还对交互信息到正式回复内容之间起到了良好的承上启下的作用。

2、本发明通过在回复内容量大时，将答复文本信息分段处理，利用虚拟人客户端在执行前一部分的动作时，立即生成下一部分的内容，将一轮回复变成多轮回复，从而使虚拟人可以无间断地进行响应，实现顺畅的人机交互体验。

3、本发明针对预设的答复文本信息直接生成第二回复内容，针对非预设的答复文本信息，先生成第一回复内容，再生成第二回复内容，这样不仅加快了虚拟人的响应速度，还提高了人机交互的灵活性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种多模态人机交互方法及装置的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明的一种多模态人机交互方法的一个实施例的流程图；

图2是本发明的一种多模态人机交互方法的另一个实施例的流程图；

图3是步骤S400的一种流程图；

图4是本发明的一种多模态人机交互装置的一个实施例的结构示意图；

图5是本发明的一种多模态人机交互装置的另一个实施例的结构示意图；

图6是一种适用于本申请实施例的应用环境的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘制了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本申请所述的虚拟人是以虚拟形象的形态呈现在一电子设备上，以视频或图像的形式实现与用户的交互。

请参阅图6，图6示出了一种适用于本申请实施例的应用环境的结构示意图。

如图6所示，人机交互系统包括虚拟人客户端101和服务器102。其中，虚拟人客户端101是一电子设备，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。服务器102可以与虚拟人客户端101通信连接。

虚拟人客户端101上安装有客户端应用程序，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序(例如APP)与服务器102进行通信。用户通过客户端应用程序进行输入，可以输入文字信息、语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理，服务器102还可以根据该信息返回对应的输出信息至虚拟人客户端101。

客户端应用程序接收用户输入的交互信息，并基于虚拟形象对该交互信息作出应答。虚拟人客户端101在获取与用户输入的信息对应的回复信息后，可以在虚拟人客户端101的显示屏或与其连接的其他图像显示装置上显示与该回复信息对应的虚拟形象，包括虚拟人客户端的口型、脸部表情、肢体动作等。在播放基于虚拟形象的图像或视频同时，还通过虚拟人客户端101的扬声器或与其连接的其他音频输出装置播放与虚拟人客户端图像对应的音频。进一步地，还可以在虚拟人客户端101的显示屏上显示与该回复信息对应的文字或图形，如此实现在图像、语音、文字等多个方面上与用户的多模态交互。

下面对本申请实施例提供的多模态人机交互方法及装置进行详细说明。

本发明的一个实施例，如图1所示，一种多模态人机交互方法，应用于上述服务器，该方法包括：

步骤S100获取来自用户的交互文本信息；

步骤S200根据该交互文本信息预测过渡语；

步骤S300根据该过渡语获取对应的多模态内容，将其作为第一回复内容，将第一回复内容推送至虚拟人客户端；

步骤S400根据该交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将第二回复内容推送至虚拟人客户端。

具体的，用户与虚拟人开启一轮对话，虚拟人客户端接收用户输入的信息。用户输入的信息可以为文字信息、语音信息。虚拟人客户端可设置语音识别装置，利用语音识别技术获取用户语音信息对应的交互文本信息，再将交互文本信息发送给服务器；也可不设置语音识别装置，将收到的用户语音信息发送给服务器；在服务器侧部署语音识别装置，由服务器对用户语音信息进行识别得到对应的交互文本信息。若用户输入的是文字信息，虚拟人客户端可将收到的文字信息发送给服务器。

服务器根据收到的交互文本信息预测过渡语，一种实施方式是随机生成过渡语，另一种方式是优选语义上与交互文本信息相匹配的过渡语，同时也可以从随机生成的过渡语中选择语义更匹配的过渡语。过渡语的多模态内容可提前离线计算生成。过渡语是一种承接上下文的语句，它没有对交互文本信息进行直接答复，而是一种在直接答复前将用户从交互文本信息顺畅转移到答复文本信息的衔接语。比如，用户问“今天下单的商品什么时候能到货”，假设针对该问题的答复为“新疆7天，港澳台8天，国内其他地区4天左右”，虚拟人可以在该答复前说一些诸如“先生(或女士)你好，是这样的”等过渡语。

服务器还可根据上一轮交互内容和本轮的交互文本信息预测过渡语。上一轮交互内容可以帮助确定当前对话的应用场景，结合应用场景，可以提高过渡语的预测准确性。

一种实施方式，可以将本轮的交互文本信息，或本轮的交互文本信息和上一轮交互内容输入过渡语生成模型，获得与交互文本信息相匹配的过渡语。过渡语生成模型可以为采用规则和/或神经网络算法构成的分类器。

也可以预先设置若干过渡语，计算本轮的交互文本信息与各个过渡语的匹配度，选择匹配度最高的过渡语作为与本轮的交互文本信息相匹配的过渡语。

过渡语一般比较简单，长度可限定在预设范围内，其对应的多模态内容也可比较简单，比如，可不存在肢体动作信息，相对虚拟人的基础脸部表情，可不增加新的脸部表情等等。所以即时临时生成过渡语的多模态内容，服务器增加的处理时间也在可接受范围内。

若所有的过渡语是预先确定的，可为每个过渡语预先设置对应的多模态内容并缓存，该多模态内容包括与过渡语对应的语音合成信息、口型信息、脸部表情信息和肢体动作信息。这样，一旦确定好过渡语，就可以从缓存中快速地获得对应的多模态内容，避免了临时生成过渡语的多模态内容，进一步减少了服务器的处理时间。

将与过渡语对应的多模态内容作为第一回复内容，将第一回复内容主动推送给虚拟人客户端。虚拟人客户端收到后，根据第一回复内容进行响应。这样，在用户表达完毕后，虚拟人就可即刻进行反馈，极大地提高了虚拟人的响应速度。

在虚拟人客户端执行第一回复内容的同时，服务器也在同步工作。服务器根据交互文本信息的答复文本信息生成第二回复内容。

其中答复文本信息的确定有两种可选方式：

一种实施方式，可以在第一回复内容推送给虚拟人客户端后，服务器对本轮的交互文本信息进行语义理解，根据语义理解结果确定本轮的答复文本信息。

另一种实施方式，服务器可以在预测过渡语之前，确定交互文本信息的答复文本信息。

若采用后者，过渡语的预测可改进为：根据该交互文本信息和该交互文本信息的答复文本信息，预测与该交互文本信息相匹配的过渡语。这样可以提高过渡语的预测准确性。

第二回复内容为答复文本信息的多模态内容，该多模态内容包括与答复文本信息对应的语音合成信息、口型信息、脸部表情信息和肢体动作信息。第二回复内容生成完毕后，将第二回复内容推送给虚拟人客户端。此处的推送有两种方式可选，一是由服务器主动推送给虚拟人客户端，这样需要在虚拟人客户端设置缓存，缓存收到的第二回复内容。另一种方式，在服务器处设置缓存，第二回复内容生成后，先缓存在服务器的缓存中，当虚拟人在执行完第一回复内容，向服务器请求第二回复内容时，服务器从缓存中提取第二回复内容，推送给虚拟人客户端。后一种方式，可以节省虚拟人客户端的存储资源，降低虚拟人客户端的成本。

虚拟人客户端收到第二回复内容后，执行第二回复内容。至此，虚拟人完成了对用户输入需求的正式答复，一轮人机对话结束。

本实施例，虽然服务器处理得到第二回复内容的时间点基本没有变化，或略有延迟(因插入过渡语)，但通过在正式回复内容之前插入过渡语，不仅提高了虚拟人的响应速度，还对交互信息到正式回复内容之间起到了良好的承上启下的作用，使用户体验更好。

虚拟人可以在用户输入需求结束后即刻执行第一回复内容，也可以在间隔预设时间后执行第一回复内容，这样可以缩短第二回复内容的执行与第一回复内容的结束点之间的间隔。

由于虚拟人客户端执行多模态内容的速度(受语言表达速度、动作执行速度等影响)比服务器的处理速度慢很多，若虚拟人执行第一回复内容的时间与服务器得到第二答复内容的时间相当时，第二回复内容的执行可以无缝衔接第一回复内容的执行，实现顺畅的人机交互体验。

在上述实施例的基础上：

作为一种优选的实施例，如图3所示，步骤S400进一步包括：

步骤S410若答复文本信息的长度超过预设长度，则对答复文本信息进行分割，得到依次排列的短内容片段；

步骤S420按序依次对每个短内容片段生成对应的多模态内容并缓存；

步骤S430按序将每个短内容片段的多模态内容逐次推送至虚拟人客户端。

具体的，若答复文本信息比较长，或预计答复文本信息的多模态内容的生成时间超过预设长度，则对答复文本信息进行分割。如果不对这类文本进行分割，而是按传统做法，一次性将答复文本信息的多模态内容全部生成好后，再推送给虚拟人客户端，会让人明显感觉到第一回复内容执行完到第二回复内容开始执行之间有停顿，人机交互体验不顺畅。

可根据预设规则对答复文本信息进行分割，比如：

首先将答复文本信息进行分词，得到分词序列，再利用正则规则将答复文本信息中的关键词配上动作标签；按照预设分词数或预设动作标签数对答复文本信息进行分割。比如，选取N个分词或M个动作标签作为一个内容片段，假设N＝8，M＝2，将(分词个数＝N)或(分词个数<N&&动作标签＝M)的文本作为一个短内容片段。

也可以根据答复文本信息中的文本间隔符对答复文本信息进行分割。比如，逗号、句号、问号等文本间隔符作为内容分段标记对答复文本信息进行分割。也可以根据答复文本信息中的句式或时长特征对答复文本信息进行分割。

也可以采用神经网络结构的内容分段模型对答复文本信息进行分割。采用标注好的数据训练该模型，该模型可以根据语义间的停顿信息将长内容分割成多个短内容片段。

按序依次对每个短内容片段生成对应的多模态内容。若在虚拟人客户端设置了缓存，服务器在生成好一个短内容片段的多模态内容后，可即刻将其发送给虚拟人客户端，虚拟人客户端缓存。若在服务器设置了缓存，则在生成好一个短内容片段的多模态内容后，将其缓存，接着生成下一个短内容片段的多模态内容。若收到虚拟人客户端的请求，服务器从缓存中提取对应短内容片段的多模态内容并反馈。

以后者为例进行说明，比如，将答复文本信息分成4段，得到短内容片段seg1-4。先生成seg1的多模块内容，即第二回复内容的第一部分，将其进行缓存；接着生成seg2的多模块内容，即第二回复内容的第二部分，将其进行缓存；依次类推，完成seg3、seg4的多模块内容的生成与缓存；所有短内容片段的多模块内容构成完整的第二回复内容。

虚拟人客户端执行完第一回复内容后，向服务器请求第二回复内容。若缓存中已有第二回复内容的第一部分，则服务器从缓存中提取第二回复内容的第一部分，将其反馈给虚拟人客户端，可在反馈中告知第二回复内容分成了若干部分，本次反馈的是第几部分，或类似的实现方式。虚拟人客户端执行完第二回复内容的第一部分后，继续向服务器请求下一部分的内容。依次类推，直至虚拟人客户端收到第二回复内容的最后一部分的内容。

由于虚拟人客户端执行多模态内容的速度(受语言表达速度、动作执行速度等影响)比服务器的处理速度慢很多，所以通过将答复文本信息分段处理，利用虚拟人客户端在执行前一部分的动作时，立即生成下一部分的内容，将一轮回复变成多轮回复，从而使虚拟人可以无间断地进行响应，实现顺畅的人机交互体验。

作为一种优先的实施例，该多模态人机交互方法还包括：

当收到来自虚拟人客户端的会话终止指示时，停止后续的多模态内容生成，释放本次会话占用的资源。比如，在第二回复内容的回复过程中，虚拟人客户端通过配置的摄像头监测到用户中途离开，则可通知服务器停止后续内容的生成，避免造成计算和第三方调用资源的浪费。服务器收到通知后，可停止后续内容的生成，释放本轮对话占用的资源。

本发明的另一个实施例，如图2、图3所示，一种多模态人机交互方法，应用于上述服务器，包括：步骤S100至步骤S430。

步骤S100获取来自用户的交互文本信息；

步骤S110确定该交互文本信息的答复文本信息；

步骤S120判断答复文本信息是否为预设文本；若是，则执行步骤S130；否则，执行步骤S210；

步骤S130若答复文本信息为预设文本，则从预设缓存中获取预设文本的多模态内容，将其作为第二回复内容，将第二回复内容推送至虚拟人客户端；

步骤S210若答复文本信息不为预设文本，则根据交互文本信息和答复文本信息，预测与交互文本信息相匹配的过渡语。

步骤S400根据答复文本信息生成对应的多模态内容，将其作为第二回复内容，将第二回复内容推送至虚拟人客户端。

具体的，预先缓存若干常用的答复文本信息及其对应的多模态内容。比如，收集用户问题，整理出常用问题，将这些常用问题的答复文本信息及其对应的多模态内容预先缓存。

预设文本为预先缓存的答复文本信息。若答复文本信息为预设文本，可从缓存中快速得到第二回复内容，因此可以向虚拟人客户端直接推送第二回复内容，加快虚拟人的响应速度，使用户体验更好。

若答复文本信息不为预设文本，则需要临时生成第二回复内容，处理时间可能比较长，为了提高虚拟人的响应速度，先生成第一回复内容，再生成第二回复内容。

步骤S400包括：

本实施例，针对预设的答复文本信息直接生成第二回复内容，针对非预设的答复文本信息，先生成第一回复内容，再生成第二回复内容，这样不仅加快了虚拟人的响应速度，还提高了人机交互的灵活性。

在上述实施例的基础上，作为一种优先的实施例，该多模态人机交互方法还包括：

当收到来自虚拟人客户端的会话终止指示时，停止后续的多模态内容生成，释放本次会话占用的资源。比如，在第二回复内容的回复过程中，虚拟人客户端通过配置的摄像头监测到用户中途离开，则可通知服务器停止后续内容的生成，避免造成资源的浪费。服务器收到通知后，可停止后续内容的生成，释放本轮对话占用的资源。

本发明的一个实施例，如图4所示，一种多模态人机交互装置200，应用于服务器102，该装置包括：

交互文本获取模块210，用于获取来自用户的交互文本信息；

第一回复内容生成模块220，用于根据交互文本信息预测过渡语；根据过渡语获取对应的多模态内容，将其作为第一回复内容；

发送模块230，用于将第一回复内容推送至虚拟人客户端；

第二回复内容生成模块240，用于根据交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容；

发送模块230，还用于将第二回复内容推送至虚拟人客户端。

具体的，用户与虚拟人开启一轮对话，虚拟人客户端接收用户输入的信息。用户输入的信息可以为文字信息、语音信息。若用户输入的是语音信息，可由虚拟人客户端获取用户语音信息对应的交互文本信息，再将交互文本信息发送给服务器；也可将用户语音信息发送给服务器，由服务器对用户语音信息进行识别得到对应的交互文本信息。若用户输入的是文字信息，虚拟人客户端可将收到的文字信息发送给服务器。

服务器根据收到的交互文本信息预测过渡语。一种实施方式是随机生成过渡语，另一种方式是优选语义上与交互文本信息相匹配的过渡语，可以从随机生成的过渡语中选择语义更匹配的过渡语。

可以预先设置若干过渡语，并为每个过渡语预先设置对应的多模态内容并缓存。这样，一旦确定好过渡语，就可以从缓存中快速地获得对应的多模态内容，避免了临时生成过渡语的多模态内容，减少了服务器的处理时间。

第二回复内容为答复文本信息的多模态内容，该多模态内容包括与答复文本信息对应的语音合成信息、口型信息、脸部表情信息和肢体动作信息。第二回复内容生成完毕后，将第二回复内容推送给虚拟人客户端。

本实施例，虽然服务器处理得到第二回复内容的时间点基本没有变化，或略有延迟(因插入过渡语)，但通过在用户输入需求的正式答复前插入过渡语，加快了虚拟人的响应速度，使用户体验更好。虚拟人可以在用户输入需求结束后即刻执行第一回复内容，也可以在间隔预设时间后执行第一回复内容，这样可以缩短第二回复内容的执行与第一回复内容的结束点之间的间隔。

作为一种优选的实施例，第二回复内容生成模块240还包括分割单元、生成单元。分割单元用于若答复文本信息的长度超过预设长度，则对答复文本信息进行分割，得到依次排列的短内容片段。生成单元用于按序依次对每个短内容片段生成对应的多模态内容并缓存。发送模块230，还用于按序将每个短内容片段的多模态内容逐次推送至虚拟人客户端。

具体的，若答复文本信息比较长，或预计答复文本信息的多模态内容的生成时间超过预设长度，则对答复文本信息进行分割。

作为一种优先的实施例，该多模态人机交互装置还包括会话终止模块。会话终止模块用于：当收到来自虚拟人客户端的会话终止指示时，停止后续的多模态内容生成，释放本次会话占用的资源。

本发明的一个实施例，如图5所示，一种多模态人机交互装置200，应用于服务器102，该装置200包括：

交互文本获取模块210，用于获取来自用户的交互文本信息；

答复文本确定模块250，用于确定该交互文本信息的答复文本信息；

第二回复内容生成模块240，用于若答复文本信息为预设文本，则从预设缓存中获取预设文本的多模态内容，将其作为第二回复内容；

发送模块230，用于将第二回复内容推送至虚拟人客户端；

第一回复内容生成模块220，用于若答复文本信息不为预设文本，则根据交互文本信息和答复文本信息，预测与交互文本信息相匹配的过渡语；根据过渡语获取对应的多模态内容，将其作为第一回复内容；

发送模块230，还用于将第一回复内容推送至虚拟人客户端；

第二回复内容生成模块240，还用于根据答复文本信息生成对应的多模态内容，将其作为第二回复内容；

发送模块230，还用于将第二回复内容推送至虚拟人客户端。

具体的，预先缓存若干常用的答复文本信息及其对应的多模态内容。

预设文本为预先缓存的答复文本信息。若答复文本信息为预设文本，可从缓存中快速得到第二回复内容，因此可以向虚拟人客户端直接推送第二回复内容。

需要说明的是，本发明提供的多模态人机交互装置的实施例与前述提供的多模态人机交互方法的实施例均基于同一发明构思，能够取得相同的技术效果。因而，多模态人机交互装置的实施例的其它具体内容可以参照前述多模态人机交互方法的实施例内容的记载。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种多模态人机交互方法，其特征在于，包括：

获取来自用户的交互文本信息；

根据所述交互文本信息预测过渡语；

根据所述过渡语获取对应的多模态内容，将其作为第一回复内容，将所述第一回复内容推送至虚拟人客户端；

根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。

2.根据权利要求1所述的多模态人机交互方法，其特征在于：

在预测过渡语之前，还包括：确定所述交互文本信息的答复文本信息；

所述的根据所述交互文本信息预测过渡语包括：若所述答复文本信息不为预设文本，则根据所述交互文本信息和所述答复文本信息，预测与所述交互文本信息相匹配的过渡语。

3.根据权利要求2所述的多模态人机交互方法，其特征在于，还包括：

若所述答复文本信息为预设文本，则从预设缓存中获取所述预设文本的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端。

4.根据权利要求1或2所述的多模态人机交互方法，其特征在于：

预先设置若干过渡语及每个过渡语对应的多模态内容；

所述的根据所述交互文本信息预测过渡语包括：从预先设置的所有过渡语中选择与所述交互文本信息相匹配的过渡语；

所述的根据所述过渡语获取对应的多模态内容包括：从预设设置的所有过渡语的多模态内容中获取与所述交互文本信息相匹配的过渡语对应的多模态内容。

5.根据权利要求1所述的多模态人机交互方法，其特征在于，所述的根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容，将所述第二回复内容推送至虚拟人客户端，包括：

若所述答复文本信息的长度超过预设长度，则对所述答复文本信息进行分割，得到依次排列的短内容片段；

按序依次对每个短内容片段生成对应的多模态内容并缓存；

按序将每个短内容片段的多模态内容逐次推送至虚拟人客户端。

6.根据权利要求5所述的多模态人机交互方法，其特征在于，所述的对所述答复文本信息进行分割，包括：

采用神经网络结构的内容分段模型对所述答复文本信息进行分割，所述内容分段模型根据语义间的停顿信息将答复文本信息分割成多个短内容片段。

7.根据权利要求1所述的多模态人机交互方法，其特征在于，还包括：

当收到来自虚拟人客户端的会话终止指示时，停止后续的多模态内容生成，释放本次会话占用的资源。

8.一种多模态人机交互装置，其特征在于，包括：

交互文本获取模块，用于获取来自用户的交互文本信息；

第一回复内容生成模块，用于根据所述交互文本信息预测过渡语；根据所述过渡语获取对应的多模态内容，将其作为第一回复内容；

发送模块，用于将所述第一回复内容推送至虚拟人客户端；

第二回复内容生成模块，用于根据所述交互文本信息的答复文本信息生成对应的多模态内容，将其作为第二回复内容；

所述发送模块，还用于将所述第二回复内容推送至虚拟人客户端。

9.根据权利要求8所述的多模态人机交互装置，其特征在于，还包括：

答复文本确定模块，用于在预测过渡语之前，确定所述交互文本信息的答复文本信息；

所述第一回复内容生成模块，还用于若所述答复文本信息不为预设文本，则根据所述交互文本信息和所述答复文本信息，预测与所述交互文本信息相匹配的过渡语。

10.根据权利要求8所述的多模态人机交互装置，其特征在于：

所述第二回复内容生成模块，还用于若所述答复文本信息为预设文本，则从预设缓存中获取所述预设文本的多模态内容，将其作为第二回复内容。