CN110413841A

CN110413841A - 多态交互方法、装置、系统、电子设备及存储介质

Info

Publication number: CN110413841A
Application number: CN201910511189.3A
Authority: CN
Inventors: 文博; 刘致远; 徐易楠
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-11-05

Abstract

本申请实施例公开了一种多态交互方法、装置、系统、电子设备及存储介质。该方法包括：接收用户通过终端设备输入的交互信息；获取基于对交互信息进行识别生成的答复音频信息；将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数；基于视觉模型驱动参数，对终端设备本地运行的机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。本申请实施例根据用户输入的交互信息获取答复音频信息，并通过音频视觉预测模型获取视觉模型驱动参数用来驱动机器人的表情，使得机器人可以模拟真人说话并且根据用户输入的交互信息利用语音配合自然的表情与用户进行交互，提高人机交互的真实感和自然度，优化人机交互体验。

Description

多态交互方法、装置、系统、电子设备及存储介质

技术领域

本申请实施例涉及人机交互技术领域，更具体地，涉及一种多态交互方法、装置、系统、电子设备及存储介质。

背景技术

客服是企业获得用户反馈意见、解决用户产品疑问的一个主要途径。传统的客服业务主要由人工客服人员来处理，使得企业在客服方面的投入会随着客服业务量的增加而高速线性增长，成为不可忽视的支出。针对这一问题，目前比较先进的方案是引入客服机器人，其做法是首先对用户可能提出的问题整理入客服问答库中，然后针对用户的问题，从客服问答库中匹配对应的回答并返回给用户，达到高效解决用户疑问的效果。从长远看来，客服机器人的引入可以显著降低人工客服量以及企业所需投入的成本。

传统客服机器人方案也已经被验证可用于高效解决部分的用户问题，然而传统客服机器人的交互方式较为单一，通常仅可通过文字的方式与用户进行交互。但随着科技和社会的发展，简单的文字交互未免过于机械，难以满足用户日益提高的交互要求。

发明内容

鉴于上述问题，本申请实施例提供一种多态交互方法、装置、系统、电子设备及存储介质，可以提高人机交互的真实感和自然度，优化人机交互体验。

第一方面，本申请实施例提供了一种多态交互方法，该多态交互方法可包括：接收用户通过终端设备输入的交互信息；获取基于对交互信息进行识别生成的答复音频信息；将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数，视频模型驱动参数为BlendShapes参数；基于视觉模型驱动参数，对终端设备本地运行的机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

可选地，交互信息包括语音信息、文本信息、图像信息中的至少一种，获取基于对交互信息进行识别生成的答复音频信息，包括：对交互信息进行识别，获取对应的交互文本信息；在问答库中查询并获取与交互文本信息对应的答复文本信息；获取与答复文本信息对应的答复音频信息。

可选地，基于问答库建立问答模型；在问答库中查询并获取与交互文本信息对应的答复文本信息，包括：将交互文本信息输入问答模型，获取与交互文本信息对应的答复文本信息。

可选地，音频视觉预测模型通过如下步骤训练得到：获取训练样本集合，训练样本集合包括样本音频信息以及与样本音频信息对应的样本视觉模型驱动参数；将样本音频信息作为音频视觉预测模型的输入，将样本视觉模型驱动参数作为期望输出，基于机器学习算法训练得到音频视觉预测模型。

可选地，获取训练样本集合，包括：采集样本视觉模型驱动参数以及样本音频信息；根据样本视觉模型驱动参数的时间戳信息以及样本音频信息的时间戳信息，对样本视觉模型驱动参数与样本音频信息进行对齐。

可选地，视觉模型驱动参数为BlendShapes参数，机器人为虚拟机器人或实体机器人。

可选地，若机器人为虚拟机器人，显示驱动的表情。

第二方面，本申请实施例提供了一种多态交互装置，该多态交互装置可包括：信息接收模块，用于接收用户通过终端设备输入的交互信息；信息识别模块，用于获取基于对交互信息进行识别生成的答复音频信息；参数获取模块，用于将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数，视频模型驱动参数为BlendShapes参数；模型驱动模块，用于基于视觉模型驱动参数，对终端设备本地运行的机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

可选地，信息识别模块包括：交互文本获取单元，用于对交互信息进行识别，获取对应的交互文本信息；答复文本获取单元，用于在问答库中查询并获取与交互文本信息对应的答复文本信息；答复音频获取单元，用于获取与答复文本信息对应的答复音频信息。

可选地，多态交互装置还包括：问答模型建立模块，用于基于问答库建立问答模型；问答模型答复模块，用于将交互文本信息输入问答模型，获取于在机器人为虚拟机器人时，显示驱动的表情；样本集合获取模块，用于获取训练样本集合，其中，训练样本集合包括样本音频信息以及与样本音频信息对应的样本视觉模型驱动参数；预测模型训练模块，用于将样本音频信息作为音频视觉预测模型的输入，将样本视觉模型驱动参数作为期望输出，基于机器学习算法训练得到音频视觉预测模型。

可选地，样本集合获取模块包括：样本采集单元，用于采集样本视觉模型驱动参数以及样本音频信息；样本对齐单元，用于根据样本视觉模型驱动参数的时间戳信息以及样本音频信息的时间戳信息，对样本视觉模型驱动参数与样本音频信息进行对齐。

可选地，机器人为虚拟机器或实体机器人。

可选地，多态交互装置还包括：表情显示模块，用于在机器人为虚拟机器人时，显示驱动的表情。

第三方面，本申请实施例提供了一种多态交互系统，该多态交互系统可包括终端设备，用于接收用户通过终端设备输入的交互信息，并发送至服务器；服务器，用于接收交互信息，获取基于对交互信息进行识别生成的答复音频信息，将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数，并将视觉模型驱动参数发送至终端设备；终端设备，还用于接收视觉模型驱动参数，视频模型驱动参数为BlendShapes参数，并基于视觉模型驱动参数，对终端设备本地运行的机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

第四方面，本申请实施例提供了一种电子设备，该电子设备可包括：存储器；一个或多个处理器，与存储器连接；一个或多个程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如上述第一方面所述的方法。

第五方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如上述第一方面所述的方法。

在本申请实施例中，通过接收用户通过终端设备输入的交互信息，接着获取基于对交互信息进行识别生成的答复音频信息，然后将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数，最后基于视觉模型驱动参数，对终端设备本地运行的机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。本申请实施例根据用户输入的交互信息获取答复音频信息，并通过音频视觉预测模型获取视觉模型驱动参数用来驱动机器人的表情，使得机器人可以模拟真人说话并且根据用户输入的交互信息利用语音配合自然的表情与用户进行交互，提高人机交互的真实感和自然度，优化人机交互体验，并且由于机器人在终端设备本地运行，终端设备只需获取参数即可实现对机器人表情的驱动，大大降低数据传输的压力，降低成本，使得本发明可以应用于企业级应用，提供客服型机器人。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例及附图，都属于本发明保护的范围。

图1a示出了一种适用于本申请实施例的应用环境示意图；

图1b示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请一个实施例提供的多态交互方法的流程示意图；

图3示出了本申请另一个实施例提供的多态交互方法的流程示意图；

图4示出了本申请另一个实施例提供的多态交互方法的交互示意图；

图5示出了本申请另一个实施例提供的多态交互方法中音频视觉预测模型的训练方法的流程示意图；

图6示出了本申请另一个实施例提供的多态交互方法中训练样本集合的获取方法的流程示意图；

图7示出了一个RNN模型的结构示意图；

图8示出了本申请又一个实施例提供的多态交互方法的时序图；

图9示出了本申请一个实施例提供的多态交互装置的模块框图；

图10示出了本申请实施例用于执行根据本申请实施例的多态交互方法的电子设备的结构框图；

图11示出了本申请实施例用于执行根据本申请实施例的多态交互方法的计算机可读存储介质的模块框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处描述的具体实施例仅用于解释本申请，并不用于限定本申请。

随着科技发展，人们的社交需求也在逐渐增加，在与客服沟通过程中，用户也希望可以不仅仅只是得到文字或语音的回复，而是可以通过与实际生活中的人际沟通相似的更自然的交互方式进行沟通，例如客服机器人模拟真人说话，与用户进行对话，将对用户的回答基于人物形象通过语音的方式表达出来，让用户可以看到客服机器人在说话，即客服机器人以可视语音的方式与用户进行对话。

而实现过程中，由于人眼对可视语音的感知较为灵敏，客服机器人说话的表情包括嘴型如果与语音有微小的偏差都可能会给用户带来不自然的感觉，因此，更自然的人机交互还需要考虑机器人的表情和语音之间的匹配度。

在研究的过程中，发明人研究了目前客服机器人与用户进行交互的困难点，更是综合考虑实际场景的使用需求，提出了本申请实施例的多态交互方法、装置、系统、电子设备及存储介质。

为了更好理解本申请实施例提供的一种多态交互方法、装置、系统、电子设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1a，图1a为适用于本申请一个实施例的应用环境示意图。本申请实施例提供的多态交互方法可以应用于如图1a所示的多态交互系统100中。多态交互系统100包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备101可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备101上具有的语音模块输入语音、字符输入模块输入字符等，还可以是基于终端设备101上安装有的手势识别模块，使得用户可以实现手势输入等交互方式。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP、微信小程序等)与服务器102进行通信，具体的，服务器102上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器102注册一个用户帐号，并基于该用户帐号与服务器102进行通信，例如用户在客户端应用程序登录用户帐号，并基于该用户帐号通过客户端应用程序进行输入，可以输入文字或语音信息，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一种实施方式中，客户端应用程序可以用于向用户提供客户服务，与用户进行客服沟通，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息作出应答。其中，虚拟机器人是不依赖于硬件结构的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身形态建立的形似用户的机器人，也可以是动漫效果式的机器人，例如树懒形态或卡通人物式的机器人。

在另一种实施方式中，用户基于客户端应用程序，也可以与实体机器人进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于实体机器人对该信息作出应答。

在一些实施方式中，对用户输入的信息进行处理的装置也可以安装与终端设备101上，使得终端设备101无需与服务器102通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备101。

请参阅图1b，图1b为适用于本申请另一个实施例的应用环境示意图。本申请实施例提供的多态交互方法可以应用于如图1b所示的多态交互系统110中。多态交互系统110包括实体机器人111以及服务器112，服务器112与实体机器人111通信连接。其中，服务器112可以是传统服务器，也可以是云端服务器，还可以是安装有服务端应用程序的终端设备，在此不作具体限定。

其中，实体机器人111支持多种数据输入，包括但不限于文字、语音、手势、动作等。具体的，实体机器人111可以安装有语音模块使得用户可以输入语音，安装有字符输入模块使得用户可以输入文本、字符等，还可以安装有手势识别模块、动作识别模块等，使得用户可以通过手势输入或动作输入的方式输入信息，并且实体机器人111可以接收用户输入的信息。

其中，实体机器人111可以接收用户输入的信息，并将该信息发送至服务器112，使得服务器112可以接收该信息并存储，服务器112还可以接收该信息并根据该信息返回一个对应的输出信息至实体机器人111，实体机器人111基于输出信息可以执行相应的指令，使得用户可以通过实体机器人的表现来获取机器人的应答，实现用户与机器人之间的交互。其中，实体机器人为可以模拟人类或其他生物面部表情的机器人，例如类人机器人等，实体机器人的表现可以包括但不限于依赖于硬件结果进行呈现的机器人的表情、语音或动作等。

在一些实施方式中，对用户输入的信息进行处理的装置也可以安装于实体机器人111上，使得实体机器人111无需与服务器112通信即可实现与用户的交互，此时多态交互系统110可以只包括实体机器人111。

上述应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的多态交互方法、装置、系统、电子设备及存储介质进行详细说明。

请参阅图2，本申请一个实施例提供了一种多态交互方法，可应用于上述多态交互系统。下面将针对图2所示的流程进行详细的阐述，上述多态交互方法具体地可以包括以下步骤：

步骤S210：接收用户输入的交互信息。

本实施例中，交互信息可以包括但不限于语音信息、字符信息、手势信息和动作信息等不同类型的信息，其中，字符信息还可以包括文本、特殊符号、表情等字符类型的信息。该文本、语音信息不局限于中文、英文，可以是任何国家的语言。

具体的，交互信息可以是用户向客服机器人提出的问题，在一种可选实施例中，该交互信息可以是用户基于终端设备在某个网站、应用程序、微信小程序等平台上，在聊天窗口上输入的，不同类型的交互信息可以基于终端设备上不同的功能进行输入，包括但不限于基于文本输入功能输入的字符信息、基于语音输入功能输入的语音信息，基于摄像功能输入的手势信息、动作信息等。本实施例通过集成多种功能模块可以接收多种交互信息，使得用户的多种交互方式可以得到响应，实现人机之间的多态交互，满足更多交互场景。

在一些实施方式中，终端设备与服务器通信连接，终端设备接收用户输入的交互信息后，可以将该交互信息发送至服务器。其中服务器可以是安装有客服系统或问答系统等的服务器，使得服务器可以基于该交互信息对用户输入的交互信息作应答，具体的，服务器可以将用于应答该交互信息的数据发送至终端设备，使得用户可以基于终端设备实现人机交互。

在另一些实施方式中，终端设备接收用户输入的交互信息后，可以对该交互信息进行进一步处理，即对该交互信息进行处理的装置安装于终端设备，使得终端设备可以对接收到的交互信息进行处理，具体处理方式可参考下述步骤。

步骤S220：获取基于对交互信息进行识别生成的答复音频信息。

在一些实施方式中，步骤S220可以在服务器上执行，具体的，终端设备接收用户输入的交互信息后，将该交互信息发送至服务器，服务器对该交互信息进行识别，并生成与该交互信息对应的答复音频信息。即上述用于对交互信息进行识别的模型可以不必存储于终端设备，也无需由终端设备进行识别，减少对终端设备的存储容量以及运算资源等的占用，使得存储容量较低以及运算资源较少的终端设备也可实现本实施例提供的多态交互方法。

在另一些实施方式中，步骤S220也可以在终端设备上执行，终端设备上存储有对应不同交互信息的类型的识别模型。使得在终端设备与服务器没有建立通信连接或通信连接断开时，终端设备仍可以对用户输入的交互信息进行识别，并获取对应的答复音频信息，使得本实施例提供的多态交互方法还可以适用于离线环境，在网络状态差的环境下仍可正常运行并实现本实施例可以实现的技术效果。

本实施例中，基于交互信息的不同类型，将交互信息输入与交互信息的类型对应的识别模型中，基于该识别模型对该交互信息进行识别，从而得到与该交互信息对应的答复音频信息。具体的，识别该交互信息后，可以得到与该交互信息对应的交互文本信息，将该交互文本信息输入问答库，可以得到对应的答复文本信息，将该答复文本信息输入语音合成模型，生成与该答复文本信息对应的答复音频信息，其中，交互文本信息以及答复文本信息是文本类型的信息，答复音频信息是音频类型的信息。其中，问答库可以是预先配置的包含了多个问答对的问答库，问答对包括预存的问句以及和问句对应的答复。

在一种具体的应用场景中，例如终端设备接收到用户输入的一段语音信息，基于语音识别模型识别该语音信息后可以得到交互文本信息“你是谁”，也就是终端设备认为用户输入的语音信息所表达的是“你好”，然后在问答库中查找对应的答复文本信息为“你好，我是客服机器人小一”，将该答复文本信息输入语音合成模型，得到与该答复文本信息对应的答复音频信息。

具体的，当交互信息为语音信息时，上述识别模型可以为语音识别模型；当交互信息为文本信息时，可以不经过识别模型；当交互信息为手势信息时，上述识别模型可以为手势识别模型；当交互信息为动作信息时，上述识别模型可以为动作识别模型。具体实现原理与上述当交互信息为语音信息的实现原理大致相同，在此不再赘述。

可以理解的是，基于用户输入的交互信息可以获取与该交互信息对应的答复音频信息均属于本发明的保护内容。

步骤S230：将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数。

其中，音频视觉预测模型是由大量基于真人说话视频得到的包含音频信息与视觉模型驱动参数的训练样本利用神经网络训练得到的，将答复音频输入音频视觉预测模型，可以输出与所输入的答复音频信息对应的视觉模型驱动参数，使得根据该视觉模型驱动参数驱动机器人，可以得到机器人与该音频信息对应的呈现，使得机器人可以实现表情与音频对应的更自然的说话效果。其中，该呈现可以包括以视频动画的形式进行呈现，例如以在终端设备上显示虚拟机器人的视频动画进行呈现，还可以包括以依赖于硬件结构的形式进行呈现，例如将表情与音频基于实体机器人进行呈现。

其中，视觉模型驱动参数可以是机器人的表情参数，使得可执行程序的设备可以基于视觉模型驱动参数对机器人的表情进行驱动。其中，机器人的表情包括但不限于嘴型以及其他面部动作，使得机器人可以模拟真人说话，不仅实现嘴型和语音的对应，还可以实现嘴型以外的其他面部动作均和语音对应，使得机器人的表情更符合真人说话的表情，有利于实现更自然的人机交互。

本实施例中，视觉模型驱动参数可以基于视觉模型驱动参数的采集装置进行采集，音频信息可以基于音频采集装置进行采集，在一些可选的实施方式中，视觉模型驱动参数的采集装置可以采集视频序列，从中可以分别获得基于时间序列的视频模型驱动参数以及音频信息，并且基于视频模型驱动参数以及音频信息的时间戳信息，可以将视频模型驱动参数与音频信息对齐，从而可以得到音频信息与视频模型驱动参数对应的音频视觉预测模型。

在一些实施方式中，音频视觉预测模型可以存储于服务器，由服务器基于音频视觉预测模型获取与答复音频信息对应的视觉模型驱动参数。从而减少对终端设备的存储容量和运算资源的占用。

作为一种方式，步骤S210至步骤S220可以是由终端设备执行，并由终端设备将获取的答复音频信息发送至服务器，使得服务器可以执行步骤S230，使得占用较大存储容量和运算资源的音频视觉预测模型可以在服务器上存储和运行，从而减少对终端设备不必要的资源占用。

作为另一种方式，终端设备接收用户输入的交互信息后，可以将该交互信息发送至服务器，由服务器执行步骤S220至步骤S230，使得占用较大存储容量和运算资源的识别模型、问答库、语音合成模型以及音频视觉预测模型等可以在服务器上存储和运行，大大减少对终端设备的存储容量以及运算资源等的占用，并且服务器只需接收交互信息并且返回对应的视觉模型驱动参数，也大大降低了数据传输的压力，提高数据传输的效率，如此，不仅使得存储容量较低以及运算资源较少的终端设备可以实现本实施例提供的多态交互方法，也提高了终端设备的响应速度，提升了用户体验。

在另一些实施方式中，音频视觉预测模型也可以存储于终端设备，并在终端设备上运行，使得在终端设备与服务器没有建立通信连接或通信连接断开时，终端设备仍可以根据用户输入的交互信息，获取视觉模型驱动参数，使得本实施例提供的多态交互方法还可以适用于离线环境，在网络状态差的环境下仍可正常运行并实现对机器人表情的驱动，实现自然的人机交互。

步骤S240：基于视觉模型驱动参数，对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

本实施例中，终端设备基于视觉模型驱动参数，对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。具体的，终端设备安装有客户端应用程序，基于该客户端应用程序根据视觉模型驱动参数，可以驱动机器人的表情，并针对驱动的表情对应播放答复音频信息。进一步地，在一些实施方式中，终端设备还可以对与答复音频信息对应的答复文本信息进行显示，使得用户还可以通过文字形式获知机器人的应答，从而在会议等需静音的场所下仍可与机器人进行交互，满足用户的交互需求。

作为一种方式，终端设备可以基于客户端应用程序播放包含机器人的视频动画，该视频动画包含对应驱动的表情的答复音频信息，即基于客户端应用程序将包含与答复音频信息对应的机器人的视频动画显示于终端设备，使得用户可以以视频动画的形式看到并听到机器人对交互信息的应答，实现自然的人机交互。

作为另一种方式，实体机器人作为一种终端设备可以基于客户端应用程序驱动实体机器人自身的表情，并针对驱动的表情对应播放答复音频信息，使得用户可以实际看到并听到实体机器人对交互信息的应答，实现自然的人机之间的面对面对话功能，丰富和优化人机交互体验。

其中，视觉模型驱动参数可以是由服务器运算得到的，也可以是由终端设备本身运算得到的。

在一种实施方式中，视觉模型驱动参数可以是由服务器运算得到的，从而使得服务器仅需存储视觉模型驱动参数，无需耗费服务器资源生成视频动画，如此也使得服务器只需向终端设备返回参数，以使终端设备基于视觉模型驱动参数对终端设备本地运行的机器人的表情进行驱动，大大降低数据传输的压力，降低成本，使得本发明可以应用于企业级应用，提供客服型机器人，优化客服体验。并且通过传输参数的方式，实体机器人也可以作为一种终端设备接收视觉模型驱动参数驱动自身的表情与答复音频信息对应，模拟真人说话，真正实现人与机器人之间的面对面对话。

本实施例中，基于视觉模型驱动参数对机器人的表情进行驱动，并通过将答复音频信息的时间戳与视觉模型驱动参数的时间戳对齐，实现针对驱动的表情对应播放答复音频信息，使得机器人表情与答复音频信息对应，其中，机器人的表情包括但不限于嘴型以及其他面部动作，使得机器人的表情和答复音频信息匹配，使得机器人可以模拟真人说话，并且根据用户输入的交互信息利用语音配合自然的表情与用户进行多态交互，提高人机交互的真实感和自然度，优化以及丰富人机交互体验。

本申请一个实施例提供的多态交互方法，通过接收用户通过终端设备输入的交互信息，交互信息多样化，可以响应用户的多种交互方式，接着获取基于对交互信息进行识别生成的答复音频信息，然后将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数，最后基于视觉模型驱动参数，对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。从而使得机器人可以模拟真人说话，并且根据用户输入的交互信息利用语音配合自然的表情与用户进行多态交互，提高人机交互的真实感和自然度，优化以及丰富人机交互体验。并且通过在一些实施方式中，将资源耗费大的模型运算在服务器执行，降低了对终端设备存储容量以及运算资源的要求，并且服务器只需接收交互信息并且返回对应的视觉模型驱动参数，由终端设备根据视觉模型驱动参数对终端设备本地运行的机器人的表情进行驱动，也大大降低了数据传输的压力，提高数据传输的效率，进而提高了终端设备的响应速度，提升了用户体验。

请参阅图3，本申请另一个实施例提供了一种多态交互方法，可应用于上述多态交互系统。下面将针对图3所示的流程进行详细的阐述，上述多态交互方法具体地可以包括以下步骤：

步骤S310：接收用户输入的交互信息。

其中，步骤S310的具体描述可以参考步骤S210，本实施例在此不再赘述。

步骤S320：对交互信息进行识别，获取对应的交互文本信息。

本实施例中，基于交互信息的不同类型，将交互信息输入与交互信息的类型对应的识别模型中，基于该识别模型对该交互信息进行识别，获取对应的交互文本信息。

具体的，当交互信息为语音信息时，基于语音识别模型对交互信息进行识别，获取对应的交互文本信息；当交互信息为文本信息时，可以不经过识别模型；当交互信息为手势信息时，上述识别模型可以为手势识别模型；当交互信息为动作信息时，上述识别模型可以为动作识别模型。需要说明的是，对交互信息进行识别的模型为本领域常用模型，如语音识别模型可以采用循环神经网络(Recurrent Neural Network，RNN)模型如长短期记忆网络(Long Short Term Memory，LSTM)，本实施例在此不对所用识别模型进行其他限定和赘述。

步骤S330：在问答库中查询并获取与交互文本信息对应的答复文本信息。

具体的，问答库可以是预先配置的包含了多个问答对的问答库，其中，问答对包括预存的问句和与问句对应的预存的答复。每个问句与其匹配的答复一一对应。基于交互文本信息可以在问答库中查询并获取与交互文本信息对应的答复文本信息。从而实现针对问答库可以覆盖的问句，可以给出较准确的答复。

进一步地，问答库中预存的问句可以是完整的问题如“你们店铺包邮吗？”，也可以只是问题的关键词“包邮”，从而基于包含相同关键词的多个交互文本信息，可以获取与关键词对应的同一答复文本信息，而不会因为交互文本信息的多样化，而导致无法查询到对应的答复。从而提升问答效率，和问答库对用户所提问题的覆盖率。

在一些实施方式中，还可以基于问答库建立问答模型，将交互文本信息输入问答模型，通过问答模型获取与该交互文本信息对应的答复文本信息。具体的，问答模型是基于大量的问答对训练得到的，例如可以将从海量人工客服的沟通记录得到的海量问答对作为训练样本，将问句作为输入，问句对应的答复作为期望输出，基于机器学习的方法训练得到问答模型，从而通过问答模型获取与交互文本信息对应的答复文本信息，实现对于问答库中不存在的问题也可以进行答复。

进一步地，在一些可选的实施方式中，根据海量人工客服的沟通记录训练问答模型，同时将人工客服所用的表情包或后缀符号进行语气的标注，使得根据问答模型输出对应的答复文本信息携带有语气标签，语气标签包括但不限于陈述、疑问、感叹、大笑、委屈等，使得根据携带有语气标签的答复文本信息可以生成包含对应语气的答复音频信息，并基于该语气对视觉模型驱动参数进行微调，使得最终输出的视觉模型驱动参数除了与答复音频信息对应外，还更契合答复音频信息对应的语气。从而使得机器人说话更生动自然，使得机器人答复更生动富有感情。例如视觉模型驱动参数为BlendShapes参数，若答复文本信息为“哈哈哈哈”，携带有对应大笑的语气标签时，可以将与“哈哈哈哈”对应的答复音频信息所对应的BlendShapes参数中的“mouthSmileLeft”以及“mouthSmileRight”的参数值进一步增大，使得机器人在对应说出“哈哈哈哈”时的表情更符合大笑的表情。

步骤S340：获取与答复文本信息对应的答复音频信息。

本实施例中，基于预先训练的语音合成模型，将答复文本信息输入语音合成模型，得到根据答复文本信息合成的答复音频信息，从而获取与答复文本信息对应的答复音频信息。

本实施例中，上述语音合成模型例如可以为卷积神经网络，该卷积神经网络可以通过卷积核进行特征提取，将与交互文本信息对应的音素序列中的各音素与频谱信息、基频信息一一对应，从而生成合成的与答复文本信息对应的答复音频信息。

在一些实施方式中，上述语音合成模型还可以是循环神经网路模型，如WaveRNN。

其中，语音合成模型可以在终端设备存储并运行，也可以在服务器存储并运行，在此不作限定。

步骤S350：将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数。

其中，步骤S350的具体描述可以参考步骤S230，本实施例在此不再赘述。

步骤S360：基于视觉模型驱动参数，对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

本实施例中，机器人可以是虚拟机器人，也可以是实体机器人。

在一种实施方式中，机器人为虚拟机器人时，对机器人的表情进行驱动后，还可以显示驱动的表情。具体的，作为一种方式，终端设备可以接收服务器发送的视觉模型驱动参数，并在终端设备基于该视觉模型驱动参数对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息，从而通过视频动画的形式将驱动的表情显示给用户，使得用户可以查看表情与语音对应的机器人答复，如此服务器在获取视觉模型驱动参数后只需向终端设备传输参数而非视频流，可以大大减少数据传输的压力，提高交互响应速度；作为另一种方式，服务器根据视觉模型驱动参数，对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息，得到答复音频信息以及所驱动的表情的视频动画，服务器将视频动画发送至终端设备，使得用户可以通过终端设备直接查看被驱动的机器人的表情以及与驱动的表情对应的答复音频信息。

在一种具体的应用场景中，机器人可以是虚拟机器人，例如，客户端应用程序以微信小程序的形式可以被用户基于终端设备进行操作，具体的如图4所示，用户可以通过微信小程序进入与客服机器人的交互界面，交互界面包括视频界面与聊天界面，用户在聊天界面上的输入框中输入文字“为什么我无法下单？”，微信小程序接收到该文字后发送至客服服务器，客服服务器获取答复文本信息为“需要您提供一下错误提示截图，我才能帮您分析噢～”，并将对应生成的答复音频信息输入音频视觉预测模型获取与答复音频信息对应的视觉模型驱动参数，并将该视觉模型驱动参数发送至客户端，使得微信小程序可以基于该视觉模型驱动参数，对客服机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息，同时在终端设备上显示驱动的表情，从而实现在接收用户输入的文字后，微信小程序可以在视频界面显示所驱动的表情，通过终端设备的音频播放模块对应所驱动的表情播放该答复音频信息，使得用户通过微信小程序，发送问题后，可以看到在视频界面上看到客服机器人说话的表情，并听到终端设备对应客服机器人说话的表情播放的音频，模拟真人对话的方式，并且根据用户输入的交互信息利用语音配合自然的表情与用户进行多态交互，提高人机交互的真实感和自然度，优化以及丰富人机交互体验。

进一步地，还可以将答复音频信息对应的答复文本信息“需要您提供一下错误提示截图，我才能帮您分析噢～”显示于聊天界面，从而实现在以视频动画的形式反馈应答的同时，还可以通过在聊天界面上显示答复文本信息，使得用户还可以看到客服机器人所说的答复文本信息，如此，不仅可以留存文本式的客服沟通记录，还可以满足用户在静音场景下与客服机器人交互的需求，进一步提升用户体验。

在另一种具体的应用场景中，机器人可以是实体机器人，例如，用户在一家饭馆前，实体机器人出来迎接用户，并询问用户是否需要帮助时，用户可以对实体机器人说“今天天气好闷热，有什么推荐的菜吗”，实体机器人接收到用户的语音信息后，将该语音信息识别成文本信息后将该文本信息发送至客服服务器，或将该语音信息直接发送至客服服务器，客服服务器获取与该语音信息对应的答复文本信息为“闷热的天气与绿豆汤更配噢”，并基于语音合成模型，合成对应的答复音频信息，接着将答复音频信息输入音频视觉预测模型获取与答复音频信息对应的视觉模型驱动参数，并将该视觉模型驱动参数发送至实体机器人，使得实体机器人可以基于该视觉模型驱动参数，对自身的表情进行驱动，并针对驱动的表情对应播放答复音频信息，使得用户实现与实体机器人的面对面交流，并且实体机器人可以模拟真人说话的方式，并且根据用户输入的交互信息利用语音配合自然的表情与用户进行多态交互，提高人机交互的真实感和自然度，优化以及丰富人机交互体验，从而通过本实施例可以优化客服机器人与用户之间的交互，优化客服体验。

进一步地，请参阅图5，图5示出了本实施例提供的音频视觉预测模型的训练方法的流程示意图，具体地可以包括以下步骤：

步骤S510：获取训练样本集合。

其中，训练样本集合包括样本音频信息以及与样本音频信息对应的样本视觉模型驱动参数。具体的，视觉模型驱动参数可以是BlendShapes参数。

进一步地，请参阅图6，图6示出了本实施例提供的训练样本集合的获取方法的流程示意图，步骤S510可以包括步骤S610以及步骤S620，其中：

步骤S610：采集样本视觉模型驱动参数以及样本音频信息。

本实施例中，让表演者朗读一段文字，该文字的音素覆盖范围较大，朗读时保持头部姿态不变，在表演者脸部的正前方进行录音录像。具体的，基于BlendShapes采集装置采集表演者脸部对应的样本视觉模型驱动参数，同时基于音频采集装置录制音频文件，从音频文件中获取与样本视觉模型驱动参数对应的样本音频信息，所录制的音频文件可以是wav格式的文件，也可以是mp3格式的文件。其中，BlendShapes参数采集装置可以是传统的电影行业所使用的动作捕捉设备，也可以是配置有深度摄像头的手机设备，例如iPhoneX，基于iOS Face Tracking结合Unity ARKit Remote采集样本视觉模型驱动参数，即样本BlendShapes参数。

其中，基于BlendShapes参数可以驱动3D模型，并且基于不同的BlendShapes参数采集装置，采集的BlendShapes参数的数量不同，在一些实施方式中，采集的BlendShapes参数的数量可以是51个，在其他一些实施方式中，采集的BlendShapes参数的数量还可以是100个。对应于不同数量的BlendShapes参数，都提供由标注或接口进行驱动，使得终端设备基于不同数量的BlendShapes参数，可以对应驱动机器人的表情。

其中，采集样本视觉模型驱动参数的同时需要对样本视觉模型驱动参数标注时间戳信息。

步骤S620：根据样本视觉模型驱动参数的时间戳信息以及样本音频信息的时间戳信息，对样本视觉模型驱动参数与样本音频信息进行对齐。

其中，采集样本视觉模型驱动参数的同时需要对样本视觉模型驱动参数标注时间戳信息，以用于在音频视觉预测模型的训练过程中和样本音频信息基于时间戳信息对齐。由于录制的音频文件也包含时间戳信息，因而基于时间戳信息可以将样本视觉模型驱动参数与音频文件的样本音频信息对齐，使得样本音频信息与样本视觉模型驱动参数基于时间戳信息一一对应。

步骤S520：将样本音频信息作为音频视觉预测模型的输入，将样本视觉模型驱动参数作为期望输出，基于机器学习算法训练得到音频视觉预测模型。

本实施例中，音频视觉预测模型可以是RNN模型，具体的，请参阅图7，图7示出了一个RNN模型的结构示意图，图7左侧为RNN模型未按时间展开的图，图7右侧未RNN模型按时间序列展开的图。其中，图7右侧描述了在序列索引号t附近的RNN模型，其中：

x^(t)表征在序列索引号t时训练样本的输入，即t时刻的样本音频信息，同理，x^(t-1)和x^(t+1)表征在序列索引号(t-1)和(t+1)时训练样本的输入；h^(t)表征在序列索引号t时模型的隐藏状态，h^(t)由x^(t)和h^(t-1)共同决定；o^(t)表征在序列索引号t时模型的输出，其中，o^(t)仅由模型当前的隐藏状态h^(t)决定；L^(t)表征在序列索引号t时模型的损失函数；y^(t)表征在序列索引号t时训练样本序列的真实输出，即t时刻的样本视觉模型驱动参数；矩阵U，W，V是模型的线性关系参数，在整个RNN模型中是共享的。

本实施例中，对RNN模型的训练方法可以采用RNN前向传播算法，也可以采用RNN反向传播算法(Back-Propagation Through Time，BPTT)。

作为一种方式，采用RNN前向传播算法进行训练，基于上述RNN模型，对于任一序列索引号t，隐藏状态h^(t)由x^(t)和h^(t-1)得到：

h^(t)＝σ(z^(t))＝σ(Ux^(t)+Wh^(t-1))+b

其中，σ为RNN模型的激活函数，b为线性关系的偏置。

在序列索引号t时RNN模型的输出o^(t)的表达式为：

o^(t)＝Vh^(t)+c

在序列索引号t时RNN模型的预测输出为：

通过损失函数L^(t)，如对数似然损失函数，可以量化RNN模型在当前位置的损失，即预测输出和真实输出y^(t)的差距。

基于上述RNN模型，首先将样本音频信息作为初始RNN模型的输入，将与样本音频信息对应的样本视觉模型驱动参数作为初始RNN模型的期望输出，对初始RNN模型进行训练，得到与样本音频信息对应的预测视觉模型驱动参数。接着，基于预设损失函数，确定预设损失函数的损失值是否达到预设目标值。一方面，在响应于确定预设损失函数的损失值达到预设目标值时，可以确定初始RNN模型训练完成，并将训练完成的初始RNN模型确定为音频视觉预测模型。其中，预设损失函数可以用于表征预测视觉模型驱动参数与样本视觉模型驱动参数之间的差异。另一方面，在响应于确定预设损失函数的损失值未达到预设目标值时，调整初始RNN模型的参数，以及从上述训练样本集合中重新选取样本，将调整后的初始RNN模型作为初始RNN模型，继续执行上述训练步骤。

需要说明的是，本实施例中未详细描述的部分，可参考前述实施例，在此不再赘述。

本实施例提供的多态交互方法，可以应用于客服机器人，在上一实施例的基础上，通过问答库或问答模型可以根据用户输入的交互信息获得对应的答复文本信息，从而针对用户所提问题可以给出较准确的答复；通过采集视觉模型驱动参数与对应的音频信息来训练音频视觉预测模型，从而可以基于音频信息获取对应的视觉模型驱动参数，然后，基于视觉模型驱动参数驱动机器人的表情，并针对驱动的表情对应播放答复音频信息。从而使得虚拟机器人或实体机器人可以模拟真人说话，并且根据用户输入的交互信息利用语音配合自然的表情与用户进行多态交互，提高人机交互的真实感和自然度，优化客服机器人与用户之间的交互，优化客服体验。

请参阅图8，图8示出了本申请又一个实施例提供的多态交互方法的时序图，可应用于上述多态交互系统。下面将针对图8所示的实施例进行详细的阐述，所述方法具体可以包括以下步骤：

步骤S810：终端设备接收用户输入的交互信息，并发送至服务器。

步骤S820：服务器接收交互信息，获取基于对交互信息进行识别生成的答复音频信息，将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数，并将视觉模型驱动参数发送至终端设备。

具体的，步骤S820可以包括步骤S820a以及步骤S820b，其中：

步骤S820a：服务器接收交互信息，获取基于对交互信息进行识别生成的答复音频信息，将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数。

步骤S820b：服务器将视觉模型驱动参数发送至终端设备。

步骤S830：发终端设备接收视觉模型驱动参数，基于视觉模型驱动参数，对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

应该理解的是，虽然图2、图3、图5、图6以及图8的流程示意图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、图3、图5、图6以及图8中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图9，图9示出了本申请一个实施例提供的一种多态交互装置的模块框图。下面将针对图9所示的模块框图进行阐述，所述多态交互装置900包括：信息接收模块910、信息识别模块920、参数获取模块930以及模型驱动模块940，其中：

信息接收模块910，用于接收用户通过终端设备输入的交互信息。

进一步地，交互信息包括语音信息、文本信息、图像信息中的至少一种。

信息识别模块920，用于获取基于对交互信息进行识别生成的答复音频信息。

参数获取模块930，用于将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数。

在一种实施方式中，视觉模型驱动参数为BlendShapes参数。

模型驱动模块940，用于基于视觉模型驱动参数，对终端设备本地运行的机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

本实施例中，机器人可以是虚拟机器人或实体机器人。

进一步地，所述信息识别模块920包括：交互文本获取单元、答复文本获取单元以及答复音频获取单元，其中：

交互文本获取单元，用于对交互信息进行识别，获取对应的交互文本信息。

答复文本获取单元，用于在问答库中查询并获取与交互文本信息对应的答复文本信息。

答复音频获取单元，用于获取与答复文本信息对应的答复音频信息。

进一步地，所述多态交互装置900还包括：问答模型建立模块、问答模型答复模块、样本集合获取模块、预测模型训练模块以及表情显示模块，其中：

问答模型建立模块，用于基于问答库建立问答模型。

问答模型答复模块，用于将交互文本信息输入问答模型，获取于在机器人为虚拟机器人时，显示驱动的表情。

样本集合获取模块，用于获取训练样本集合。

其中，训练样本集合包括样本音频信息以及与样本音频信息对应的样本视觉模型驱动参数

预测模型训练模块，用于将样本音频信息作为音频视觉预测模型的输入，将样本视觉模型驱动参数作为期望输出，基于机器学习算法训练得到音频视觉预测模型。

表情显示模块，用于在机器人为虚拟机器人时，显示驱动的表情。

进一步地，所述样本集合获取模块可以包括样本采集单元以及样本对齐单元，其中：

样本采集单元，用于采集样本视觉模型驱动参数以及样本音频信息。

样本对齐单元，用于根据样本视觉模型驱动参数的时间戳信息以及样本音频信息的时间戳信息，对样本视觉模型驱动参数与样本音频信息进行对齐。

本申请实施例提供的多态交互装置用于实现前述方法实施例中相应的多态交互方法，并具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的多态交互装置能够实现图2到图6的方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

本申请实施例还提供了一种多态交互系统，所述多态交互系统包括终端设备以及服务器，其中，服务器与终端设备通信连接，其中：

终端设备，用于接收用户输入的交互信息，并发送至服务器；

服务器，用于接收交互信息，获取基于对交互信息进行识别生成的答复音频信息，将答复音频信息输入音频视觉预测模型，获取与答复音频信息对应的视觉模型驱动参数，并将视觉模型驱动参数发送至终端设备；

终端设备，还用于接收视觉模型驱动参数，并基于视觉模型驱动参数，对机器人的表情进行驱动，并针对驱动的表情对应播放答复音频信息。

本申请实施例提供的多态交互系统用于实现前述方法实施例中相应的多态交互方法，并具有相应的方法实施例的有益效果，在此不再赘述。

本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的如图2至图6所述的多态交互方法。本实施例中，电子设备可以是手机、平板、电脑、可穿戴式设备等能够运行应用程序的电子设备，还可以是实体机器人或服务器，具体实施方式可参见上述方法实施例所描述的方法。

存储器可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述设备的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

请参阅图10，其示出了本申请实施例提供的一种移动终端的结构框图。本申请中的电子设备1000可以包括一个或多个如下部件：处理器1010、存储器1020以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器1020中并被配置为由一个或多个处理器1010执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器1010可以包括一个或者多个处理核。处理器1010利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1020内的指令、程序、代码集或指令集，以及调用存储在存储器1020内的数据，执行电子设备1000的各种功能和处理数据。可选地，处理器1010可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1010可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1010中，单独通过一块通信芯片进行实现。

存储器1020可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器1020可用于存储指令、程序、代码、代码集或指令集。存储器1020可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备1000在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

进一步地，电子设备1000还可以包括可折叠的显示屏，所述显示屏可以为液晶显示屏(Liquid Crystal Display，LCD)，可以为有机发光二极管(Organic Light-EmittingDiode，OLED)等。所述显示屏用于显示由用户输入的信息、提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、数字、视频和其任意组合来构成。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的移动终端的限定，具体的移动终端可以包括比图10中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参阅图11，其示出了本申请实施例提供的一种计算机可读存储介质的模块框图。该计算机可读存储介质1100中存储有程序代码1110，所述程序代码1110可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1100可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1100包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1100具有执行上述方法中的任何方法步骤的程序代码1110的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1110可以例如以适当形式进行压缩。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是智能网关，手机，计算机，服务器，空调器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请各实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护范围之内。

Claims

1.一种多态交互方法，其特征在于，所述方法包括：

接收用户通过终端设备输入的交互信息；

获取基于对所述交互信息进行识别生成的答复音频信息；

将所述答复音频信息输入音频视觉预测模型，获取与所述答复音频信息对应的视觉模型驱动参数，所述视频模型驱动参数为BlendShapes参数；

基于所述视觉模型驱动参数，对所述终端设备本地运行的机器人的表情进行驱动，并针对驱动的所述表情对应播放所述答复音频信息。

2.根据权利要求1所述的方法，其特征在于，所述交互信息包括语音信息、文本信息、图像信息中的至少一种，所述获取基于对所述交互信息进行识别生成的答复音频信息，包括：

对所述交互信息进行识别，获取对应的交互文本信息；

在问答库中查询并获取与所述交互文本信息对应的答复文本信息；

获取与所述答复文本信息对应的答复音频信息。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

基于所述问答库建立问答模型；

所述在问答库中查询并获取与所述交互文本信息对应的答复文本信息，包括：

将所述交互文本信息输入所述问答模型，获取与所述交互文本信息对应的答复文本信息。

4.根据权利要求1所述的方法，其特征在于，所述音频视觉预测模型通过如下步骤训练得到：

获取训练样本集合，所述训练样本集合包括样本音频信息以及与所述样本音频信息对应的样本视觉模型驱动参数；

将所述样本音频信息作为所述音频视觉预测模型的输入，将所述样本视觉模型驱动参数作为期望输出，基于机器学习算法训练得到所述音频视觉预测模型。

5.根据权利要求4所述的方法，其特征在于，所述获取训练样本集合，包括：

采集样本视觉模型驱动参数以及样本音频信息；

根据所述样本视觉模型驱动参数的时间戳信息以及所述样本音频信息的时间戳信息，对所述样本视觉模型驱动参数与所述样本音频信息进行对齐。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述视觉模型驱动参数为BlendShapes参数，所述机器人为虚拟机器人或实体机器人；

若所述机器人为虚拟机器人，所述方法还包括：

显示驱动的所述表情。

7.一种多态交互装置，其特征在于，所述装置包括：

信息接收模块，用于接收用户通过终端设备输入的交互信息；

信息识别模块，用于获取基于对所述交互信息进行识别生成的答复音频信息；

参数获取模块，用于将所述答复音频信息输入音频视觉预测模型，获取与所述答复音频信息对应的视觉模型驱动参数，所述视频模型驱动参数为BlendShapes参数；

模型驱动模块，用于基于所述视觉模型驱动参数，对所述终端设备本地运行的机器人的表情进行驱动，并针对驱动的所述表情对应播放所述答复音频信息。

8.一种多态交互系统，其特征在于，所述多态交互系统包括终端设备以及服务器，所述服务器与所述终端设备通信连接，其中：

所述终端设备，用于接收用户通过终端设备输入的交互信息，并发送至所述服务器；

所述服务器，用于接收所述交互信息，获取基于对所述交互信息进行识别生成的答复音频信息，将所述答复音频信息输入音频视觉预测模型，获取与所述答复音频信息对应的视觉模型驱动参数，并将所述视觉模型驱动参数发送至所述终端设备，所述视频模型驱动参数为BlendShapes参数；

所述终端设备，还用于接收所述视觉模型驱动参数，基于所述视觉模型驱动参数，对所述终端设备本地运行的机器人的表情进行驱动，并针对驱动的所述表情对应播放所述答复音频信息。

9.一种电子设备，其特征在于，包括：

存储器；

一个或多个处理器，与所述存储器耦接；

一个或多个程序，其中，所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码被处理器执行时实现如权利要求1至6中任一项所述的方法。