CN110647636A

CN110647636A - 交互方法、装置、终端设备及存储介质

Info

Publication number: CN110647636A
Application number: CN201910838941.5A
Authority: CN
Inventors: 杨国基; 刘致远; 刘炫鹏
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-01-03
Anticipated expiration: 2039-09-05
Also published as: CN110647636B

Abstract

本申请实施例提供了一种交互方法、装置、终端设备及存储介质。该方法包括：获取待处理信息；对待处理信息进行识别，获取与待处理信息对应的答复信息；基于文本信息生成虚拟智能客服的面部形象参数，并基于视频展示信息生成虚拟智能客服的体态行为参数；基于面部形象参数和体态行为参数生成虚拟智能客服的外在表现；基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频。本申请通过针对待处理信息获取对应的答复信息，基于答复信息得到虚拟智能客服的外在表现，并根据答复信息及虚拟智能客服的外在表现生成对应的答复视频，从而增加了虚拟智能客服的信息反馈量，使得用户可以获取更丰富的信息，进而增强用户体验。

Description

交互方法、装置、终端设备及存储介质

技术领域

本申请涉及人机交互技术领域，更具体地，涉及一种交互方法、装置、终端设备及存储介质。

背景技术

客服是企业获得用户反馈意见、解决用户产品疑问的一个主要途径。传统的客服业务主要由人工客服人员来处理，使得企业在客服方面的投入会随着客服业务量的增加而高速线性增长，成为不可忽视的支出。针对这一问题，目前比较先进的方案是引入客服机器人，其做法是首先对用户可能提出的问题整理入客服问答库中，然后针对用户的问题，从客服问答库中匹配对应的回答并返回给用户，达到高效解决用户疑问的效果。从长远看来，客服机器人的引入可以显著降低人工客服量以及企业所需投入的成本。然而，目前客服机器人一般基于与客户所输入的交互信息来进行交互，并根据所提供的内容来进行反馈，反馈内容较为单一，使得用户接收到的信息不够丰富，难以满足日益增长的用户交互需求体验。

发明内容

本申请实施例提出了一种交互方法、装置、终端设备及存储介质，以解决用户接收信息不够丰富的问题。

第一方面，本申请实施例提供了一种交互方法，该方法包括：获取待处理信息；对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息；基于所述文本信息生成虚拟智能客服的面部形象参数，并基于所述视频展示信息生成所述虚拟智能客服的体态行为参数；基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现；基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

可选地，所述基于所述文本信息生成虚拟智能客服的面部形象参数，包括：将所述文本信息转换为音频信息；将所述音频信息输入音频视觉预测模型，获得与所述音频信息对应的面部形象参数，其中，所述音频视觉预测模型是通过将样本音频信息作为输入，将样本音频信息对应的样本面部形象参数作为输出，基于机器学习算法训练得到的。

可选地，所述视频展示信息包括展示内容和与所述展示内容对应的展示位置，其中，所述展示内容包括图片、视频以及文字中的一种或多种，所述展示位置为所述展示内容在所述答复视频中的位置信息；所述基于所述视频展示信息生成所述虚拟智能客服的体态行为参数，包括：根据所述展示内容获得所述虚拟智能客服的第一体态行为参数；根据所述展示位置获得所述虚拟智能客服的第二体态行为参数，所述第二体态行为参数用于调整所述第一体态行为参数；基于所述第一体态行为参数和所述第二体态行为参数生成所述体态行为参数。

可选地，所述展示内容包括文字，所述根据所述展示内容获得所述虚拟智能客服的第一体态行为参数，包括：对所述文字进行语义识别，得到语义识别结果；基于语义识别结果对文字进行分词处理得到至少一个关键词；从预先建立的规则库中查找与所述至少一个关键词对应的动作参数；基于所述动作参数生成所述虚拟智能客服的第一体态行为参数。

可选地，所述基于面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现，包括：基于所述面部形象参数获得模拟人脸图像，并将预设视频中的预设虚拟智能客服的人脸图像替换为所述模拟人脸图像；基于所述体态行为参数驱动所述预设视频中的预设虚拟智能客服的人体模型，得到所述虚拟智能客服的肢体动作；基于所述模拟人脸图像和所述肢体动作生成所述虚拟智能客服的外在表现。

可选地，所述将预设视频中的预设虚拟智能客服的人脸图像替换为模拟人脸图像，包括：在所述预设视频中确定与所述模拟人脸图像对应的图像替换区域，所述图像替换区域为所述预设视频中的预设虚拟智能客服的人脸图像的局部区域或全部区域；将所述模拟人脸图像覆盖至所述图像替换区域。

可选地，所述基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，包括：将所述文本信息转换为音频信息；根据所述音频信息、所述视频展示信息以及所述外在表现的时间戳信息，将所述音频信息、所述视频展示信息以及所述外在表现进行对齐，生成并输出针对所述待处理信息的答复视频。

第二方面，本申请实施例提供了一种交互装置，该装置包括：信息获取模块，用于获取待处理信息；信息识别模块，用于对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息；参数生成模块，用于基于所述文本信息生成虚拟智能客服的面部形象参数，并基于所述视频展示信息生成所述虚拟智能客服体态行为参数；外在表现生成模块，用于基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现；视频生成模块，用于基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

可选地，所述参数生成模块包括：转换子模块，用于将所述文本信息转换为音频信息；参数获得子模块，用于将所述音频信息输入音频视觉预测模型，获得与所述音频信息对应的面部形象参数，其中，所述音频视觉预测模型是通过将样本音频信息作为输入，将样本音频信息对应的样本面部形象参数作为输出，基于机器学习算法训练得到的。

可选地，所述参数生成模块包括：第一参数获得子模块，用于根据所述展示内容获得所述虚拟智能客服的第一体态行为参数；第二参数获得子模块，用于根据所述展示位置获得所述虚拟智能客服的第二体态行为参数，所述第二体态行为参数用于调整所述第一体态行为参数；参数生成子模块，用于基于所述第一体态行为参数和所述第二体态行为参数生成所述体态行为参数。

可选地，所述展示内容包括文字，所述第一参数获得子模块包括：语义识别单元，用于对所述文字进行语义识别，得到语义识别结果；分词处理单元，用于基于语义识别结果对文字进行分词处理得到至少一个关键词；参数查找单元，用于从预先建立的规则库中查找与所述至少一个关键词对应的动作参数；参数生成单元，用于基于所述动作参数生成所述虚拟智能客服的第一体态行为参数。

可选地，所述外在表现生成模块包括：图像替换子模块，用于基于所述面部形象参数获得模拟人脸图像，并将预设视频中的预设虚拟智能客服的人脸图像替换为所述模拟人脸图像；模型驱动子模块，用于基于所述体态行为参数驱动所述预设视频中的预设虚拟智能客服的人体模型，得到所述虚拟智能客服的肢体动作；外在表现生成子模块，用于基于所述模拟人脸图像和所述肢体动作生成所述虚拟智能客服的外在表现。

可选地，所述图像替换子模块包括：区域确定单元，用于在所述预设视频中确定与所述模拟人脸图像对应的图像替换区域，所述图像替换区域为所述预设视频中的预设虚拟智能客服的人脸图像的局部区域或全部区域；区域覆盖单元，用于将所述模拟人脸图像覆盖至所述图像替换区域。

可选地，所述视频生成模块包括：信息转换子模块，用于将所述文本信息转换为音频信息；视频生成子模块，用于根据所述音频信息、所述视频展示信息以及所述外在表现的时间戳信息，将所述音频信息、所述视频展示信息以及所述外在表现进行对齐，生成并输出针对所述待处理信息的答复视频。

第三方面，本申请实施例提供了一种终端设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，该计算机可读取存储介质中存储有程序代码，该程序代码可被处理器调用执行如上述第一方面所述的方法。

本申请实施例提供了一种交互方法、装置、终端设备及存储介质。通过获取待处理信息；对待处理信息进行识别，获取与待处理信息对应的答复信息；基于文本信息生成虚拟智能客服的面部形象参数，并基于视频展示信息生成虚拟智能客服的体态行为参数；基于面部形象参数和体态行为参数生成虚拟智能客服的外在表现；基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频。本申请通过针对待处理信息获取对应的答复信息，基于答复信息得到虚拟智能客服的外在表现，并根据答复信息及虚拟智能客服的外在表现生成对应的答复视频，从而增加了虚拟智能客服的信息反馈量，使得用户可以获取更丰富的信息，进而增强用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种适用于本申请实施例的应用环境示意图；

图2示出了本申请实施例提供的一交互方法的流程示意图；

图3示出了本申请实施例提供的虚拟智能客服的显示示例图；

图4示出了本申请实施例提供的另一交互方法的流程示意图；

图5示出了本申请实施例提供的又一交互方法的流程示意图；

图6示出了本申请实施例提供的再一交互方法的流程示意图；

图7示出了本申请实施例提供的交互装置的结构框图；

图8示出了本申请实施例的用于执行根据本申请实施例的交互方法的终端设备的结构框图；

图9示出了本申请实施例的用于保存或者携带实现根据本申请实施例的交互方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

近年来，随着移动互联网、大数据、云计算、传感器等技术的加速突破和广泛应用，人工智能的发展也进入了一个崭新的阶段。而智能语音技术作为人工智能产业链上的关键一环，人工智能应用最成熟的技术之一，在营销客服、智能家居、智能车载、智能穿戴等领域都有着迅猛发展。例如，智能客服。

随着互联网、社会化媒体的发展，除了传统上对客服需求旺盛的行业(例如运营商客服、银行客服、政府部门政策解答的在线机器人等等)，一些新的行业如：手机、汽车、快递行业等也都开始尝试引入虚拟客服助理(即虚拟智能客服)。目前，虚拟智能客服与用户进行对话时，可以将对用户咨询的回复内容经过虚拟的人物形象之口，通过语音的方式表达出来，让用户可以在人机交互界面上直观的看到具有虚拟人物形象的虚拟客服助理在“说话”，使用户与虚拟客服助理之间能够进行“面对面”的沟通交流。然而，用户在与虚拟智能客服进行交互时，在人机交互界面仅能看到虚拟智能客服的形象，而没有获取到更多的信息反馈，影响用户体验。

为了解决上述问题，发明人提出了本申请实施例中的交互方法、装置、终端设备及存储介质，通过针对待处理信息获取对应的答复信息，基于答复信息得到虚拟智能客服的外在表现，并根据答复信息及虚拟智能客服的外在表现生成对应的答复视频，从而增加了虚拟智能客服的信息反馈量，使得用户可以获取更丰富的信息，进而增强用户体验。

为便于更好的理解本申请实施例提供的交互方法、装置、终端设备及存储介质，下面先对适用于本申请实施例的应用环境进行描述。

请参阅图1，图1示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的交互方法可以应用于如图1所示的多态交互系统100。多态交互系统100包括终端设备110以及服务器120，服务器120与终端设备110通信连接。其中，服务器120可以是传统服务器，也可以是云端服务器，在此不作具体限定。

其中，终端设备110可以是具有显示屏且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和可穿戴式电子设备等。具体的，数据输入可以是基于终端设备110上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备110上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如应用程序(application，APP)、微信小程序等)与服务器120进行通信。具体的，服务器120上安装有对应的服务端应用程序，用户可以基于客户端应用程序在服务器120注册一个用户账号，并基于该用户账号与服务器120进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器120，使得服务器120可以接收该信息并进行处理及存储，服务器120还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备110。

在一些实施方式中，客户端应用程序可以用于向用户提供客户服务，与用户进行客服沟通，客户端应用程序可以基于虚拟机器人与用户进行交互。具体的，客户端应用程序可以接收用户输入的信息，并基于虚拟机器人对该信息做出应答。其中，虚拟机器人是基于可视化图形的软件程序，该软件程序被执行后可以向用户呈现出模拟生物行为或思想的机器人形态。虚拟机器人可以是模拟真人式的机器人，例如根据用户自身或其他人的形态建立的形似真人的机器人，也可以是动漫效果式的机器人，例如动物形态或卡通人物形态的机器人，在此不作限定。

在一些实施方式中，终端设备110在获取与用户输入的信息对应的回复信息后，可以在终端设备110的显示屏或与其连接的其他图像输出设备上显示对应与该回复信息的虚拟机器人图像(其中，该虚拟机器人图像特征可以包括虚拟机器人的性别、与答复音频所对应的答复情感以及形象特征等)。作为一种方式，在播放虚拟机器人图像的同时，可以通过终端设备110的扬声器或与其连接的其他音频输出设备播放与虚拟机器人图像对应的音频，还可以在终端设备110的显示屏上显示与该回复信息对应的文字或图形，实现在图像、语音、文字等多个方面上与用户的多态交互。

在一些实施方式中，对用户输入的信息进行处理的装置也可以设置于终端设备110上，使得终端设备110无需依赖与服务器120建立通信即可实现与用户的交互，此时多态交互系统100可以只包括终端设备110。

上述的应用环境仅为方便理解所作的示例，可以理解的是，本申请实施例不仅局限于上述应用环境。

下面将通过具体实施例对本申请实施例提供的交互方法、装置、终端设备及存储介质进行详细说明。

请参阅图2，图2示出了本申请实施例提供的一交互方法的流程示意图。本实施例提供的交互方法可以应用于具有显示屏或其他图像输出装置的终端设备，终端设备可以是智能手机、平板电脑、穿戴式智能终端等电子设备。

在具体的实施例中，交互方法可应用于如图7所示的交互装置500以及图8所示的终端设备110。下面将针对图2所示的流程进行详细的阐述。上述的交互方法具体地可以包括以下步骤：

步骤S110：获取待处理信息。

待处理信息可以是音频信息、字符信息、手势信息和动作信息等不同类型的信息，其中，字符信息可以包括文本、特殊符号、表情等字符类型的信息。该文本、音频信息可以是中文、英文等任何国家的语言。

在一些实施方式中，待处理信息可以用于表征用户向虚拟智能客服提出的交互意向，可以是明确的询问，例如“我购买的商品发货了吗？”，也可以是某种请求，例如“请帮我查询我购买的这件商品的物流信息”，还可以是表达某种交互意愿的问候语，例如“你好，我有问题需要咨询”，等等。

可以理解的是，同一个问题，可以对应于不同类型的待处理信息。例如，用户想要输入“请帮我查询我购买的这件商品的物流信息”的请求时，用户可以通过语音输入的方式输入对应的音频，也可以上传与“我购买的这件商品”对应的图片或输入对应的文本信息，或是直接在应用程序界面上选择“我购买的这件商品”对应的虚拟图标来触发待处理信息的输入。可以理解的是，对应于同一个问题，可以仅输入一种类型的待处理信息，也可以同时输入多种类型的待处理信息，来使用户的咨询请求更加明确，更易被虚拟智能客服识别。

在一种实施方式中，该待处理信息可以是用户基于终端设备在某个网站、应用程序、微信小程序等平台上，在聊天窗口上输入的，不同类型的待处理信息可以基于终端设备上不同的功能进行输入，包括但不限于基于文本输入功能输入的字符信息、基于语音输入功能输入的语音信息，基于摄像功能输入的手势信息、动作信息等。本实施例通过集成多种功能模块可以接收多种待处理信息，使得用户的多种交互方式可以得到响应，实现人机之间的多态交互，满足更多交互场景。

在一些实施方式中，终端设备与服务器通信连接，终端设备接收用户输入的待处理信息后，可以将该待处理信息发送至服务器。其中服务器可以是安装有客服系统或问答系统等的服务器，使得服务器可以基于该待处理信息对用户输入的待处理信息作应答，具体的，服务器可以将用于应答该待处理信息的数据发送至终端设备，使得用户可以基于终端设备实现人机交互。

步骤S120：对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息。

在一些实施方式中，针对待处理信息的不同类型，可以将待处理信息输入与待处理信息类型对应的识别模型中，并基于识别模型对该待处理信息进行识别，获取对应的交互文本信息。

作为一种方式，当用户输入的待处理信息为语音信息时，可以基于语音识别模型对待处理信息进行识别，获取对应的交互文本信息；当待处理信息为文本信息时，可以不经过识别模型，直接将待处理信息作为交互文本信息；当待处理信息为图像信息时，可以基于图像识别模型对待处理信息进行识别，获取对应的交互文本信息；当待处理信息为动作信息时，可以基于肢体语言识别模型、终端姿态识别模型或手势识别模型来对待处理信息进行识别，获取对应的交互文本信息。

作为一种实施方式，答复信息可以是基于上述交互文本在问答库中查询并获取与交互文本信息对应的答复信息，其中，问答库包括预存的文本信息和与文本信息对应的预存的答复信息，每个文本信息与其匹配的答复信息一一对应。例如问答库中预存的文本信息可以是完整的问题如“你们店铺包邮吗？”，从而基于该交互文本信息，可以获取与该交互文本信息对应的答复信息。

作为一种实施方式，答复信息也可以是基于问答模型获取的，具体地，可以将交互文本信息输入问答模型，通过问答模型获取与该交互文本信息对应的答复信息。其中，问答模型可以是基于大量的问答对训练得到的，例如可以将从海量人工客服的沟通记录得到的海量问答对作为训练样本，将交互文本信息作为输入，交互文本信息对应的答复信息作为期望输出，基于机器学习的方法训练得到问答模型，从而通过问答模型获取与交互文本信息对应的答复信息。

答复信息可以包括文本信息和视频展示信息，其中，视频展示信息可以包括需要在视频中展示的图片信息、视频信息、文字信息以及信息的展示位置及展示起始终止位置等一种或多种。例如，待处理信息为用户询问的“请问我的快递到哪里了？”，则该待处理信息对应的视频展示信息可以包括物流信息的截图以及该截图的展示位置。

步骤S130：基于所述文本信息生成虚拟智能客服的面部形象参数，并基于所述视频展示信息生成所述虚拟智能客服的体态行为参数。

在一些实施方式中，不同的待处理信息对应不同的答复信息，而为了使得虚拟智能客服与用户的交互更加自然，可以根据用户输入的交互信息(即待处理信息)生成匹配的虚拟智能客服以提升用户体验。在一些实施方式中，可以基于待处理信息对应的答复信息生成相应的参数，虚拟智能客服的生成一般可以包括虚拟智能客服的脸部形象的生成(即面部形象参数)和肢体动作的生成(即体态行为参数)。具体地，可以基于文本信息生成虚拟智能客服的面部形象参数，并基于视频展示信息生成虚拟智能客服的体态行为参数。其中，面部形象参数可以包括脸部特征点的相对位置关系、唇部关键点信息等，体态行为参数可以包括动作驱动参数、肢体的方位参数等。

作为一种实施方式，可以基于预先训练得到的第一神经网络模型，根据文本信息生成虚拟智能客服的面部形象参数。具体地，可以预先获取大量的训练文本信息以及训练文本信息对应的面部形象参数作为训练样本集，并将训练样本集输入机器学习模型进行训练，得到对应的第一神经网络模型，从而可以将基于待处理信息获取的文本信息输入该第一神经网络模型，得到虚拟智能客服的面部形象参数。

作为一种实施方式，还可以基于预先训练得到的第二神经网络模型，根据视频展示信息生成虚拟智能客服的体态行为参数。具体地，可以预先获取大量的训练视频展示信息以及训练视频展示信息对应的体态行为参数作为训练样本集，并将训练样本集输入机器学习模型进行训练，得到对应的第二神经网络模型，从而可以将基于待处理信息获取的视频展示信息输入该第二神经网络模型，得到虚拟智能客服的体态行为参数。

第一神经网络模型和第二神经网络模型可以是循环神经网络(recurrent neuralnetwork，RNN)或者长短期记忆网络(long short-term memory，LSTM)等神经网络模型。

从而虚拟智能客服在接收到用户的询问时，可以通过语音告知用户回复内容，且身体可以做出对应的动作。例如，在用户询问店铺的方位时，虚拟智能客服可以通过语音告知用户具体路线，且做出“用手指着路的方向或者显示的电子地图”的动作。

步骤S140：基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现。

虚拟智能客服的外在表现可以包括虚拟智能客服的面容以及肢体动作，则可以基于面部形象参数和体态行为参数生成虚拟智能客服的外在表现。

作为一种实施方式，可以通过三维重建的方式生成虚拟智能客服的外在表现。具体地，可以设置预设的虚拟智能客服的三维模型，基于面部形象参数调节三维模型中的面部区域，基于体态行为参数驱动三维模型的肢体动作，从而得到最终的三维模型，即虚拟智能客服的外在表现。

作为一种实施方式，还可以通过预设的算法生成虚拟智能客服的外在表现。其中，预设的算法可以是预先存储的可以将上述生成的面部形象参数以及体态行为参数进行集成的算法，例如，可以是一套高效的程序框架，通过将面部形象参数以及体态行为参数输入，可以输出得到一个完整的虚拟智能客服的外在表现，使得集成得到的虚拟智能客服形象更加逼真与自然，还原用户与机器交互的真实性。

步骤S150：基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

作为一种实施方式，答复视频，可以是虚拟智能客服针对用户输入的待处理信息，获取的用于向用户进行相应答复的视频。进一步地，可以基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频，具体地，可以获取预设视频，预设视频可以是预先准备的用于针对待处理信息对用户进行反馈的视频，预设视频中包括有预设虚拟智能客服的外在表现以及预设答复信息，那么可以将预设视频中的预设虚拟智能客服的外在表现更新为上述的智能客服的外在表现，并将预设答复信息替换为上述的答复信息，从而生成针对上述待处理信息的答复视频，进而将该答复视频输出并向用户展示。

作为一种实施方式，答复视频可以包括虚拟智能客服的外在表现和答复音频，例如，以图3所示的终端设备110的显示界面为例，用户可以通过终端设备110发起投诉，客服系统在获得用户的投诉内容后，对投诉内容进行识别，并获取对应的答复信息，进而可以基于答复信息生成带有歉意表情的虚拟智能客服101的外在表现，并展示给用户。

作为一种实施方式，答复视频可以包括虚拟智能客服的外在表现和图片，例如，以图3所示的终端设备110的显示界面为例，用户可以通过终端设备110查询账单，客服系统根据用户需求验证用户信息后，获取用户的账单，并可以将账单的明细展示在视频中(例如，图3中的答复信息102可以是账单的明细截图)，虚拟智能客服101将明细的摘要通过语音播报给用户。

作为一种实施方式，答复视频可以包括虚拟智能客服的外在表现、视频和文字，例如，以图3所示的终端设备110的显示界面为例，用户可以通过移动终端110咨询产品的使用方法，客服系统在获得用户的咨询内容后，可以在系统中进行检索并合成答案，进而可以将使用方法对应的视频展示给用户(例如，图3中的答复信息102可以是产品使用方法对应的视频)，并显示对应的字幕，同时虚拟智能客服101可以向用户播报使用中的注意事项。

其中，需要说明的是，图3中的虚拟智能客服的形象仅作为一种示例，实际实现时虚拟智能客服的形象可以是多样化的。作为一种方式，当用户开启了视频客服功能按钮时，可以在视频客服的用户端显示虚拟智能客服。可选的，对于显示虚拟智能客服的场所可以不受限制，例如，可以是在手机的APP客户端的显示界面进行显示，也可以是在运营商的网站的页面上进行显示，也可以是在银行的客服机等终端设备的显示界面进行显示，具体不作限定。

本实施例提供的交互方法，通过获取待处理信息；对待处理信息进行识别，获取与待处理信息对应的答复信息；基于文本信息生成虚拟智能客服的面部形象参数，并基于视频展示信息生成虚拟智能客服的体态行为参数；基于面部形象参数和体态行为参数生成虚拟智能客服的外在表现；基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频。本申请通过针对待处理信息获取对应的答复信息，基于答复信息得到虚拟智能客服的外在表现，并根据答复信息及虚拟智能客服的外在表现生成对应的答复视频，从而增加了虚拟智能客服的信息反馈量，使得用户可以获取更丰富的信息，进而增强用户体验。

请参阅图4，图4示出了本申请实施例提供的另一交互方法的流程示意图，所述方法包括：

步骤S210：获取待处理信息。

步骤S220：对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息。

其中，步骤S210-步骤S220的具体描述请参阅步骤S110-步骤S120，在此不再赘述。

步骤S230：将所述文本信息转换为音频信息。

作为一种实施方式，可以基于预先训练的语音合成模型，将文本信息输入语音合成模型，得到与文本信息对应的音频信息。

作为一种实施方式，语音合成模型可以选择卷积神经网络(convolutionalneural networks，CNN)模型，其可以通过卷积核进行特征提取，将与文本信息对应的音素序列中的各音素与频谱信息、基频信息一一对应，从而生成与文本信息对应的音频信息。

作为一种实施方式，同一文本信息由于不同的情绪，所表达出的音频也会有所不同，例如，当用户是伤心的语气时，虚拟智能客服在回答时可以采用低声安慰的语气。那么，对待处理信息进行识别时，还可以获取对应的情绪参数，例如，待处理信息为语音信息时，可以根据用户的语气识别用户当前的情绪，或待处理信息为视频信息时，可以根据用户的表情识别用户当前的情绪。进一步地，将文本信息转换为音频信息时，可以结合情绪参数，从而更准确的确定用户的意图，提升用户的交互体验。

步骤S240：将所述音频信息输入音频视觉预测模型，获得与所述音频信息对应的面部形象参数，其中，所述音频视觉预测模型是通过将样本音频信息作为输入，将样本音频信息对应的样本面部形象参数作为输出，基于机器学习算法训练得到的。

作为一种实施方式，音频视觉预测模型，可以是基于大量真人说话视频(包含真人说话图像以及与真人说话图像对应的真人说话音频)以及对应的面部形象参数的训练样本，通过神经网络训练得到的。可以理解的是，音频视觉预测模型，是用于将音频信息转换为对应面部形象参数的模型。通过将之前获取的音频信息输入音频视觉预测模型，即可由音频视觉预测模型输出与音频信息对应的面部形象参数。

可以理解的是，为了更好的匹配与不同的客户对应的虚拟智能客服，进而提升匹配的准确性，本申请实施例可以预先获取不同用户的音频数据，其中这些不同用户包括不同年龄段，不同国籍，不同性别或者是同一国家不同地区的用户。例如，获取的语音数据可以包括“稚嫩的孩童的语音数据、甜美的小女孩的语音数据、具有磁性的女性的语音数据、老年人的语音数据以及外国人的语音数据等等”。可选的，将上述不同用户的音频数据作为训练样本集，从而可以丰富样本库的音频来源以及类别，使得训练出的结果更加精准。

步骤S250：基于所述视频展示信息生成所述虚拟智能客服的体态行为参数。

步骤S260：基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现。

步骤S270：基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

其中，步骤S250-步骤S270的具体描述请参阅步骤S130-步骤S150，在此不再赘述。

本实施例提供的交互方法，获取待处理信息，对待处理信息进行识别，获取与待处理信息对应的答复信息，其中，答复信息包括文本信息和视频展示信息。将文本信息转换为音频信息，将音频信息输入音频视觉预测模型，获得与音频信息对应的面部形象参数。基于视频展示信息生成虚拟智能客服的体态行为参数，基于面部形象参数和体态行为参数生成虚拟智能客服的外在表现，基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频。通过将音频信息输入音频视觉预测模型，获得与音频信息对应的面部形象参数，从而基于音频视觉预测模型，得到更精准的面部形象参数，使得虚拟智能客服的形象更加逼真和自然。

请参阅图5，图5示出了本申请实施例提供的又一交互方法的流程示意图，其中，视频展示信息包括展示内容和与所述展示内容对应的展示位置，其中，所述展示内容包括图片、视频以及文字中的一种或多种，所述展示位置为所述展示内容在所述答复视频中的位置信息，所述方法包括：

步骤S310：获取待处理信息。

步骤S320：对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息。

步骤S330：基于所述文本信息生成虚拟智能客服的面部形象参数。

其中，步骤S310-步骤S330的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

步骤S340：根据所述展示内容获得所述虚拟智能客服的第一体态行为参数。

展示内容可以是在答复视频中展示的图片、子视频以及文字等。作为一种实施方式，可以根据展示内容，在预先构建的第一体态行为参数库中查找与展示内容对应的第一体态行为参数。其中，数据库中存储大量预先设置号的展示内容与第一体态行为参数的对应关系表，例如，展示内容为衣服的图片，对应的第一体态行为参数可以是手指指向图片的手指关节参数，从而可以根据展示内容，从数据库中匹配到与展示内容对应的第一体态行为参数。

作为一种实施方式，展示内容包括为文字时，可以对文字进行语义识别，得到语义识别结果，基于语义识别结果对文字进行分词处理得到至少一个关键词，例如，展示内容为“非常抱歉给您带来不便”，在对该展示内容进行语义识别后，基于语义结果对文字进行分词处理得到关键词“抱歉”。

进一步地，可以从预先建立的规则库中查找与至少一个关键词对应的动作参数，并基于动作参数生成虚拟智能客服的第一体态行为参数。其中，规则库中可以存储有大量关键词与动作参数的对应关系表，从而可以基于关键词，从规则库中查找到与关键词对应的动作参数。动作参数可以是该关键词对应的动作形态，例如，关键词“抱歉”对应的动作参数可以是鞠躬。那么基于动作参数生成虚拟智能客服的第一体态行为参数，可以是根据动作形态确定对应的第一体态行为参数，其中，第一体态行为参数可以包括针对躯干的位置的方位参数(如旋转参数)、左右上肢和左右下肢的关节参数等，例如，鞠躬对应的第一体态行为参数可以是身体弯曲的角度等。

进一步地，还可以对答复信息中的文本信息进行分词处理，并筛选出关键字段，按照关键字段的发音顺序依次调取，然后结合文本信息对应的音频信息获得虚拟智能客服的第一体态行为参数。

步骤S350：根据所述展示位置获得所述虚拟智能客服的第二体态行为参数，所述第二体态行为参数用于调整所述第一体态行为参数。

作为一种实施方式，根据展示内容仅能确定第一体态行为参数，第一体态行为参数可以理解为展示内容对应的动作，但展示内容的位置发生变化时，第一体态行为参数是不改变的，故无论展示内容的位置如何变化，虚拟智能客服的动作都是不变的，使得虚拟智能客服的动作看起来僵硬、不自然。

针对上述问题，可以根据展示位置获得虚拟智能客服的第二体态行为参数，其中，第二体态行为参数用于调整第一体态行为参数。具体地，可以获取展示位置的坐标信息，展示位置的坐标信息得到第二体态行为参数，例如，展示内容为图片，根据该图片在视频中的展示位置的坐标信息，可以得到第二体态行为参数中的左手食指的坐标信息。

步骤S360：基于所述第一体态行为参数和所述第二体态行为参数生成所述体态行为参数。

作为一种实施方式，基于第二体态行为参数调整第一体态行为参数，可以将调整后的第一体态行为参数作为体态行为参数。例如，展示内容为图片，获取了第一体态行为参数中左手指向图片的角度以及左手食指与其他部位的相对关系，基于图片的展示位置获取第二体态行为参数中左手食指的坐标信息，基于第二体态行为参数调整第一体态行为参数中左手的位置，将左手食指的位置移至第二体态行为参数对应的坐标信息，并根据第一体态行为参数中的相对关系，确定其他部位的坐标信息或角度信息，并将调整后的左手的参数作为虚拟智能客服的体态行为参数。

步骤S370：基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现。

步骤S380：基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

其中，步骤S370-步骤S380的具体描述请参阅步骤S140-步骤S150，在此不再赘述。

本实施例提供的交互方法，获取待处理信息，对待处理信息进行识别，获取与待处理信息对应的答复信息，其中，答复信息包括文本信息和视频展示信息。基于文本信息生成虚拟智能客服的面部形象参数。根据展示内容获得虚拟智能客服的第一体态行为参数，根据展示位置获得虚拟智能客服的第二体态行为参数，基于第一体态行为参数和第二体态行为参数生成体态行为参数。基于面部形象参数和体态行为参数生成虚拟智能客服的外在表现。基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频。从而根据展示内容和展示位置生成虚拟智能客服的体态行为参数，获得更为逼真的虚拟智能客服的肢体动作，使得虚拟智能客服的形象更为自然，提升用户的交互体验。

请参阅图6，图6示出了本申请实施例提供的再一交互方法的流程示意图，所述方法包括：

步骤S410：获取待处理信息。

步骤S420：对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息。

步骤S430：基于所述文本信息生成虚拟智能客服的面部形象参数，并基于所述视频展示信息生成所述虚拟智能客服的体态行为参数。

其中，步骤S410-步骤S430的具体描述请参阅步骤S110-步骤S130，在此不再赘述。

步骤S440：基于所述面部形象参数获得模拟人脸图像，并将预设视频中的预设虚拟智能客服的人脸图像替换为所述模拟人脸图像。

在一些实施方式中，可以基于面部形象参数调节三维模型中的面部区域从而得到模拟人脸图像，也可以基于深度学习模型输入面部形象参数获得模拟人脸图像。

预设视频，可以是预先准备的用于针对用户输入的待处理信息对用户进行反馈的视频。预设虚拟智能客服的人脸图像，可以是预设视频中包含的虚拟智能客服的人脸图像。在获取模拟人脸图像后，即可将预设视频中的预设人脸图像替换为模拟人脸图像，获得替换人脸后的答复视频。

在一些实施方式中，根据模拟人脸图像对应真实人脸区域的不同，预设视频中的预设人脸图像的替换，可以是全部替换，也可以是局部替换。具体地，可以在预设视频中确定与模拟人脸图像对应的图像替换区域，其中，图像替换区域为预设视频中的预设虚拟智能客服的人脸图像的局部区域或全部区域，并将模拟人脸图像覆盖至图像替换区域。

作为一种实施方式，若模拟人脸图像为整个人脸模拟，则对应的图像替换区域为预设视频中的预设虚拟智能客服的整个人脸图像的区域，则可以将模拟人脸图像覆盖至预设人脸图像中的整个人脸区域即可。作为另一种实施方式，若模拟人脸图像为局部图像，例如嘴部图像，则可以确定预设视频中嘴部图像所对应的替换区域，并将该嘴部图像覆盖叠加至预设人脸图像的嘴部位置，最终获得的图像可以为模拟人脸图像与背景图像(背景图像一般可包括人的身体其他部位例如除嘴部之外的其他部位，以及真实环境背景等)叠加后的图像，而除该部分区域以外的预设视频中的其他区域则可以保留预设视频中原有的图像。

步骤S450：基于所述体态行为参数驱动所述预设视频中的预设虚拟智能客服的人体模型，得到所述虚拟智能客服的肢体动作。

作为一种实施方式，预设虚拟智能客服的人体模型，可以是通过三维建模等三维制作软件制作得到的三维人体模型，故可以基于体态行为参数驱动预设视频中的预设虚拟智能客服的人体模型，得到虚拟智能客服的肢体动作。具体地，可以根据体态行为参数解析出各个重点关节的旋转角度等信息，并根据这些信息驱动人体模型中相应的关节进行动作，从而得到虚拟智能客服的肢体动作。

步骤S460：基于所述模拟人脸图像和所述肢体动作生成所述虚拟智能客服的外在表现。

作为一种实施方式，可以通过预设的算法生成虚拟智能客服的外在表现。其中，预设的算法可以是预先存储的可以将上述生成的模拟人脸图像以及肢体动作进行集成的算法，例如，可以是一套高效的程序框架，通过将模拟人脸图像以及肢体动作输入，可以输出得到一个完整的虚拟智能客服的外在表现。

步骤S470：基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

作为一种实施方式，生成针对待处理信息的答复视频时，为了使得输出的答复视频中的虚拟智能客服的形象、语音以及视频的画面同步，可以在获取答复信息时对答复信息中的文本信息和视频展示信息分别标注时间戳信息，以及对生成的外在表现标注时间戳信息，以用于在生成答复视频时将答复信息和外在表现基于时间戳信息对齐，实现答复视频中的内容同步。

进一步地，答复视频包括音频，则可以将答复信息中的文本信息转换为音频信息，并对音频信息标注时间戳信息，将音频信息、视频展示信息以及外在表现基于时间戳信息对齐，从而生成对应的答复视频。

本实施例提供的交互方法，获取待处理信息，对待处理信息进行识别，获取与待处理信息对应的答复信息，其中，答复信息包括文本信息和视频展示信息。基于文本信息生成虚拟智能客服的面部形象参数，并基于视频展示信息生成虚拟智能客服的体态行为参数。基于面部形象参数获得模拟人脸图像，并将预设视频中的预设虚拟智能客服的人脸图像替换为模拟人脸图像。基于体态行为参数驱动预设视频中的预设虚拟智能客服的人体模型，得到虚拟智能客服的肢体动作。基于模拟人脸图像和肢体动作生成虚拟智能客服的外在表现。基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频。从而通过模拟人脸图像和肢体动作生成虚拟智能客服的外在表现，使得虚拟智能客服的形象更加逼真和自然，提升用户的交互体验。

请参阅图7，图7示出了本申请实施例提供的交互装置500的结构框图。下面将针对图7所示的框图进行阐述，所述交互装置500包括：信息获取模块510、信息识别模块520、参数生成模块530、外在表现生成模块540以及视频生成模块550，其中：

信息获取模块510，用于获取待处理信息。

信息识别模块520，用于对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息。

参数生成模块530，用于基于所述文本信息生成虚拟智能客服的面部形象参数，并基于所述视频展示信息生成所述虚拟智能客服体态行为参数。

进一步地，所述参数生成模块530还包括：转换子模块以及参数获得子模块，其中：

转换子模块，用于将所述文本信息转换为音频信息。

参数获得子模块，用于将所述音频信息输入音频视觉预测模型，获得与所述音频信息对应的面部形象参数，其中，所述音频视觉预测模型是通过将样本音频信息作为输入，将样本音频信息对应的样本面部形象参数作为输出，基于机器学习算法训练得到的。

进一步地，所述视频展示信息包括展示内容和与所述展示内容对应的展示位置，其中，所述展示内容包括图片、视频以及文字中的一种或多种，所述展示位置为所述展示内容在所述答复视频中的位置信息，所述参数生成模块530还包括：第一参数获得子模块、第二参数获得子模块以及参数生成子模块，其中：

第一参数获得子模块，用于根据所述展示内容获得所述虚拟智能客服的第一体态行为参数。

进一步地，所述展示内容包括文字，所述第一参数获得子模块还包括：语义识别单元、分词处理单元、参数查找单元以及参数生成单元，其中：

语义识别单元，用于对所述文字进行语义识别，得到语义识别结果。

分词处理单元，用于基于语义识别结果对文字进行分词处理得到至少一个关键词。

参数查找单元，用于从预先建立的规则库中查找与所述至少一个关键词对应的动作参数。

参数生成单元，用于基于所述动作参数生成所述虚拟智能客服的第一体态行为参数。

第二参数获得子模块，用于根据所述展示位置获得所述虚拟智能客服的第二体态行为参数，所述第二体态行为参数用于调整所述第一体态行为参数。

参数生成子模块，用于基于所述第一体态行为参数和所述第二体态行为参数生成所述体态行为参数。

外在表现生成模块540，用于基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现。

进一步地，所述外在表现生成模块540还包括：图像替换子模块、模型驱动子模块以及外在表现生成子模块，其中：

图像替换子模块，用于基于所述面部形象参数获得模拟人脸图像，并将预设视频中的预设虚拟智能客服的人脸图像替换为所述模拟人脸图像。

进一步地，所述图像替换子模块还包括：区域确定单元以及区域覆盖单元，其中：

区域确定单元，用于在所述预设视频中确定与所述模拟人脸图像对应的图像替换区域，所述图像替换区域为所述预设视频中的预设虚拟智能客服的人脸图像的局部区域或全部区域。

区域覆盖单元，用于将所述模拟人脸图像覆盖至所述图像替换区域。

模型驱动子模块，用于基于所述体态行为参数驱动所述预设视频中的预设虚拟智能客服的人体模型，得到所述虚拟智能客服的肢体动作。

外在表现生成子模块，用于基于所述模拟人脸图像和所述肢体动作生成所述虚拟智能客服的外在表现。

视频生成模块550，用于基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

进一步地，所述视频生成模块还包括：信息转换子模块以及视频生成子模块，其中：

信息转换子模块，用于将所述文本信息转换为音频信息。

视频生成子模块，用于根据所述音频信息、所述视频展示信息以及所述外在表现的时间戳信息，将所述音频信息、所述视频展示信息以及所述外在表现进行对齐，生成并输出针对所述待处理信息的答复视频。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的交互装置能够实现前述方法实施例中的各个过程，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参阅前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图8，其示出了本申请实施例提供的一种终端设备110的结构框图。该终端设备110可以是智能手机、平板电脑、电子书等能够运行应用程序的终端设备。本申请中的终端设备110可以包括一个或多个如下部件：处理器111、存储器112以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器112中并被配置为由一个或多个处理器111执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器111可以包括一个或者多个处理核。处理器111利用各种接口和线路连接整个终端设备110内的各个部分，通过运行或执行存储在存储器112内的指令、程序、代码集或指令集，以及调用存储在存储器112内的数据，执行终端设备110的各种功能和处理数据。可选地，处理器111可以采用数字信号处理(digital signal processing，DSP)、现场可编程门阵列(field－programmable gate array，FPGA)、可编程逻辑阵列(programmable logicarray，PLA)中的至少一种硬件形式来实现。处理器111可集成中央处理器(centralprocessing unit，CPU)、图像处理器(graphics processing unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器111中，单独通过一块通信芯片进行实现。

存储器112可以包括随机存储器(random access memory，RAM)，也可以包括只读存储器(read-only memory，ROM)。存储器112可用于存储指令、程序、代码、代码集或指令集。存储器112可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备110在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参阅图9，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读取存储介质600可以是诸如闪存、电可擦除可编程只读存储器(electrically-erasable programmable read-only memory，EEPROM)、可擦除可编程只读存储器(erasable programmable read only memory，EPROM)、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质600包括非易失性计算机可读介质(non-transitorycomputer-readable storage medium)。计算机可读取存储介质600具有执行上述方法中的任何方法步骤的程序代码610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610可以例如以适当形式进行压缩。

综上所述，本申请实施例提供的交互方法、装置、终端设备及存储介质，通过获取待处理信息；对待处理信息进行识别，获取与待处理信息对应的答复信息；基于文本信息生成虚拟智能客服的面部形象参数，并基于视频展示信息生成虚拟智能客服的体态行为参数；基于面部形象参数和体态行为参数生成虚拟智能客服的外在表现；基于答复信息和虚拟智能客服的外在表现，生成并输出针对待处理信息的答复视频。本申请通过针对待处理信息获取对应的答复信息，基于答复信息得到虚拟智能客服的外在表现，并根据答复信息及虚拟智能客服的外在表现生成对应的答复视频，从而增加了虚拟智能客服的信息反馈量，使得用户可以获取更丰富的信息，进而增强用户体验。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种交互方法，其特征在于，所述方法包括：

获取待处理信息；

对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息；

基于所述文本信息生成虚拟智能客服的面部形象参数，并基于所述视频展示信息生成所述虚拟智能客服的体态行为参数；

基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现；

基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

2.根据权利要求1所述的方法，其特征在于，所述基于所述文本信息生成虚拟智能客服的面部形象参数，包括：

将所述文本信息转换为音频信息；

将所述音频信息输入音频视觉预测模型，获得与所述音频信息对应的面部形象参数，其中，所述音频视觉预测模型是通过将样本音频信息作为输入，将样本音频信息对应的样本面部形象参数作为输出，基于机器学习算法训练得到的。

3.根据权利要求1所述的方法，其特征在于，所述视频展示信息包括展示内容和与所述展示内容对应的展示位置，其中，所述展示内容包括图片、视频以及文字中的一种或多种，所述展示位置为所述展示内容在所述答复视频中的位置信息；

所述基于所述视频展示信息生成所述虚拟智能客服的体态行为参数，包括：

根据所述展示内容获得所述虚拟智能客服的第一体态行为参数；

根据所述展示位置获得所述虚拟智能客服的第二体态行为参数，所述第二体态行为参数用于调整所述第一体态行为参数；

基于所述第一体态行为参数和所述第二体态行为参数生成所述体态行为参数。

4.根据权利要求3所述的方法，其特征在于，所述展示内容包括文字，所述根据所述展示内容获得所述虚拟智能客服的第一体态行为参数，包括：

对所述文字进行语义识别，得到语义识别结果；

基于语义识别结果对文字进行分词处理得到至少一个关键词；

从预先建立的规则库中查找与所述至少一个关键词对应的动作参数；

基于所述动作参数生成所述虚拟智能客服的第一体态行为参数。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现，包括：

基于所述面部形象参数获得模拟人脸图像，并将预设视频中的预设虚拟智能客服的人脸图像替换为所述模拟人脸图像；

基于所述体态行为参数驱动所述预设视频中的预设虚拟智能客服的人体模型，得到所述虚拟智能客服的肢体动作；

基于所述模拟人脸图像和所述肢体动作生成所述虚拟智能客服的外在表现。

6.根据权利要求5所述的方法，其特征在于，所述将预设视频中的预设虚拟智能客服的人脸图像替换为模拟人脸图像，包括：

在所述预设视频中确定与所述模拟人脸图像对应的图像替换区域，所述图像替换区域为所述预设视频中的预设虚拟智能客服的人脸图像的局部区域或全部区域；

将所述模拟人脸图像覆盖至所述图像替换区域。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，包括：

将所述文本信息转换为音频信息；

根据所述音频信息、所述视频展示信息以及所述外在表现的时间戳信息，将所述音频信息、所述视频展示信息以及所述外在表现进行对齐，生成并输出针对所述待处理信息的答复视频。

8.一种交互装置，其特征在于，所述装置包括：

信息获取模块，用于获取待处理信息；

信息识别模块，用于对所述待处理信息进行识别，获取与所述待处理信息对应的答复信息，其中，所述答复信息包括文本信息和视频展示信息；

参数生成模块，用于基于所述文本信息生成虚拟智能客服的面部形象参数，并基于所述视频展示信息生成所述虚拟智能客服体态行为参数；

外在表现生成模块，用于基于所述面部形象参数和所述体态行为参数生成所述虚拟智能客服的外在表现；

视频生成模块，用于基于所述答复信息和所述虚拟智能客服的外在表现，生成并输出针对所述待处理信息的答复视频，所述答复视频包含所述虚拟智能客服基于所述答复信息所更新的外在表现。

9.一种终端设备，其特征在于，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行如权利要求1-7任一项所述的方法。

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。