CN114637833A

CN114637833A - 一种人机交互方法、装置及设备

Info

Publication number: CN114637833A
Application number: CN202210296215.7A
Authority: CN
Inventors: 王昊天; 吴晓烽; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-17

Abstract

本说明书实施例公开了一种人机交互方法、装置及设备，该方法包括：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息，如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到，可以将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

Description

一种人机交互方法、装置及设备

技术领域

本文件涉及计算机技术领域，尤其涉及一种人机交互方法、装置及设备。

背景技术

当前，人机交互通常是基于纯文本的形式实现(即用户与计算机设备之间通过语言文字进行交互)，然而，在实际的网络交互中通常是文本与表情图像相结合的形式实现，其中，表情图像可以更生动的表达当前用户的情感，而且，一个有趣的表情图像也会让用户有继续交流的欲望，为此，很多用户还会专门去收集表情图像，以便后续使用。由于人机交互通常是基于纯文本的形式实现，这样势必会降低对话沟通效率，而且很多时候计算机设备可能无法准确理解用户的需求，使得大量用户跳过人机交互而转向人工服务，从而增加人工服务的处理压力，为此，需要提供一种能够提高人机交互中的对话沟通效率，降低用户转向人工服务的概率的人机交互方案。

发明内容

本说明书实施例的目的是提供一种能够提高人机交互中的对话沟通效率，降低用户转向人工服务的概率的人机交互方案。

为了实现上述技术方案，本说明书实施例是这样实现的：

本说明书实施例提供的一种人机交互方法，所述方法包括：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息。如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到。将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例提供的一种人机交互装置，所述装置包括：回复信息获取模块，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息。表情确定模块，如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到。表情回复模块，将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例提供的一种人机交互设备，所述人机交互设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息。如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到。将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例还提供了一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息。如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到。将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1A为本说明书一种人机交互方法实施例；

图1B为本说明书一种人机交互过程的示意图；

图2为本说明书一种人机交互界面的示意图；

图3A为一种表情图像的示意图；

图3B为本说明书另一种人机交互界面的示意图；

图3C为本说明书又一种人机交互界面的示意图；

图4为本说明书另一种人机交互过程的示意图；

图5为本说明书一种对话模型训练过程的示意图；

图6为本说明书一种人机交互装置实施例；

图7为本说明书一种人机交互设备实施例。

具体实施方式

本说明书实施例提供一种人机交互方法、装置及设备。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

实施例一

如图1A和图1B所示，本说明书实施例提供一种人机交互方法，该方法的执行主体可以为计算机设备，其中，该计算机设备可以为终端设备、服务器或相应的机具等，该终端设备可以如手机、平板电脑等移动终端设备，还可以如笔记本电脑或台式电脑等计算机设备，或者，也可以为IoT设备(具体如智能手表、车载设备等)等，该机具可以如某业务的智能客服机具等，具体可以根据实际情况设定。该方法具体可以包括以下步骤：

在步骤S102中，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息。

其中，对话模型可以是人机交互过程中用户与计算机设备进行对话的模型，该对话模型可以由多种不同的算法构建，例如，可以通过搜索引擎、自然语言理解NLU(NaturalLanguage Understanding)、对话策略等算法构建该对话模型，具体可以根据实际情况设定，此外，也可以使用当前常用的对话模型进行重新训练，得到训练后的对话模型作为本实施例中使用的对话模型等，本说明书实施例对此不做限定。其中的计算机设备可以是手机、平板电脑、智能机具、可穿戴设备等，计算机设备中可以安装有相应的应用程序，通过该应用程序可以与用户进行对话，具体如某购物应用的智能客服系统等。目标用户可以是与计算机设备进行交互的任意用户。输入信息可以是目标用户输入到计算机设备中的信息，输入信息可以包括文本信息，也可以包括表情图像等，表情图像可以为是一种表示感情的图像，在移动互联网时期，人们以当前流行的明星、语录、动漫、影视截图为素材，配以一系列相匹配的字符，用以表达特定的情感，表情图像可以是静态图像，也可以是动态图像，还可以是配置有某种动画展示效果的图像(如表情图像中为虎头，发送该表情图像后，可以在预设的页面范围内展示一只跳动的虎，并配以虎的叫声等动画展示效果)，表情图像中可以只包括能够呈现某种表情的图像，例如，表情图像中可以包括一个“OK”手势的图像，或者，其中可以包括能够呈现某种表情的图像和字符，例如，表情图像中可以包括一个正在大笑的卡通头像和4个字符“哈”。

在实施中，当前，人机交互通常是基于纯文本的形式实现(即用户与计算机设备之间通过语言文字进行交互)，然而，在实际的网络交互中通常是文本与表情图像相结合的形式实现，其中，表情图像可以更生动的表达当前用户的情感，而且，一个有趣的表情图像也会让用户有继续交流的欲望，为此，很多用户还会专门去收集表情图像，以便后续使用。由于人机交互通常是基于纯文本的形式实现，这样势必会降低对话沟通效率，而且很多时候计算机设备可能无法准确理解用户的需求，使得大量用户跳过人机交互而转向人工服务，从而增加人工服务的处理压力，为此，需要提供一种能够提高人机交互中的对话沟通效率，降低用户转向人工服务的概率的人机交互方案。本说明书实施例提供一种可实现的技术方案，具体可以包括以下内容：

计算机设备中可以设置有预先训练的对话模型，该对话模型可以使用人机交互(基于纯文本的形式实现)中常用的对话模型(可以通过多种不同的算法构建，例如可以通过神经网络算法构建等)作为初始模型，然后，可以获取包括表情图像的对话数据(其中，可以包括表情图像和文本，或者，也可以只包括表情图像等)，将获取的对话数据作为训练样本，可以使用训练样本对上述初始模型进行训练，得到训练后的对话模型，对话模型通过上述方式训练后至少能够识别表情图像，在某些情况下，也可以向用户发送合适的表情图像等，具体可以根据实际情况设定。

当某用户(即目标用户)需要与计算机设备进行人机交互时，目标用户可以激活计算机设备，并可以启动计算机设备中安装的人机交互的应用程序，如图2所示，该应用程序中可以设置有对话框和用户输入框，目标用户可以在该用户输入框中输入需要交互的信息，输入完成后，可以点击该应用程序中的发送按键，计算机设备可以获取用户输入框中的输入信息，并可以将该输入信息呈现在对话框中，同时，还需要将该输入信息输入到上述训练的对话模型中，通过该对话模型对该输入信息进行分析，即可以分析其中的文本信息所表达的语义，同时，也可以分析其中的表情图像所表达的含义，从而得到该输入信息的完整语义，以判断目标用户的真实意图或需求，基于上述分析得到的分析结果，对话模型可以输出与该输入信息相匹配的回复信息，例如，目标用户的输入信息为“收到订单号为xxxxx的商品后，发现该商品有一处磕碰损坏

”，回复信息可以如“放心有我呢，别担心，我们可以为您无条件换货，当然，您也可以选择退款，那么您是想换货呢还是想退款呢？”。

在步骤S104中，如果预先建立的表情图像与表情主题信息的对应关系中存在与上述回复信息相匹配的第一表情主题信息，则获取第一表情主题信息对应的表情图像，上述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和该表情图像中包含的字符信息进行识别得到，多模态预训练模型是通过包含表情图像的训练图像和该训练图像中包含的字符信息进行模型训练得到。

其中，表情主题信息可以是表情图像所要表达的信息(可以是用户的情感信息等)，例如，上述步骤S102的示例中的输入信息中的表情图像

其表情主题信息可以为“心碎”。

在实施中，可以预先建立表情图像与表情主题信息的对应关系，该对应关系可以存储于计算机设备中，在实际应用中，表情图像会越来越多，可以根据实际情况，选择相应的表情图像，并确定每个表情图像对应的表情主题信息，可以将各个表情图像与其相应的表情主题信息对应存储于上述对应关系中。其中，对于表情图像对应的表情主题信息的确定方式可以包括多种，例如，可以通过相应的模型确定，具体地，可以获取多个表情图像，然后，可以通过字符提取算法对每个表情图像中包含的字符进行提取，得到每个表情图像中包含的字符信息。可以基于预先设定的算法(具体如神经网络算法等)构建多模态预训练模型的模型架构，该模型架构中可以包括一个或多个不同的待确定的模型参数，此外，还可以根据实际情况设定多模态预训练模型的损失函数，上述处理完成后，可以使用上述获取的多个表情图像和每个表情图像中包含的字符信息，以及基于上述设定的损失函数对多模态预训练模型进行模型训练，直到多模态预训练模型收敛为止，从而得到训练后的多模态预训练模型。通过上述方式得到的多模态预训练模型能够结合表情图像中包含的字符信息对表情图像进行分析，确定表情图像所要表达的语义信息，并可以基于表情图像所要表达的语义信息生成表情图像的表情主题信息。

每当获取到一个表情图像后，可以提取该表情图像中包含的字符信息，可以将该表情图像和该表情图像中包含的字符信息输入到上述训练后的多模态预训练模型中，生成该表情图像的表情主题信息，通过上述方式，可以对多个不同的表情图像生成相应的表情主题信息，基于表情信息和生成的相应表情主题信息，可以构建表情信息与表情主题信息的对应关系，并可以存储上述对应关系。

通过上述步骤S102的处理得到目标用户的输入信息的回复信息后，可以基于该回复信息与上述对应关系中的表情主题信息进行匹配，如果上述对应关系中的表情主题信息中包括该回复信息，或者，如果在该回复信息中匹配到一个或多个表情主题信息，则可以获取该回复信息对应的表情主题信息(可以是一个，也可以是多个，此时获取的表情主题信息即为第一表情主题信息)，然后们可以在上述对应关系中查找获取的第一表情主题信息对应的表情图像。

在步骤S106中，将第一表情主题信息对应的表情图像作为对上述输入信息的回复提供给目标用户。

在实施中，例如，回复信息可以如“放心有我呢”，如果预先建立的表情图像与表情主题信息的对应关系中包括表情主题信息为“放心有我”与相应的表情图像(如图3A所示)，则如图3B所示，可以将图3A的表情图像作为对上述输入信息的回复发送给目标用户，目标用户可以查看到上述表情图像，此外，还可以将文本信息发送给目标用户，如在发送给上述表情图像后，还可以将“别担心，我们可以为您无条件换货，当然，您也可以选择退款，那么您是想换货呢还是想退款呢？”等文本信息发送给目标用户，具体可以根据实际情况设定，本说明书实施例对此不做限定。

需要说明的是，在实际应用中，除了可以将相应的表情图像作为对上述输入信息的回复提供给目标用户外，还可以将上述回复信息提供给目标用户，即将上述回复信息和第一表情主题信息对应的表情图像作为对上述输入信息的回复提供给目标用户，此外，还可以将上述回复信息和第一表情主题信息对应的表情图像进行某种执行的融合处理，得到融合后的信息，如图3C所示，可以将融合后的信息作为对上述输入信息的回复提供给目标用户，具体可以根据实际情况设定，本说明书实施例对此不做限定。

另外，如果预先建立的表情图像与表情主题信息的对应关系中不存在与上述回复信息相匹配的表情主题信息，则可以直接输出上述回复信息给目标用户。

本说明书实施例提供一种人机交互方法，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息，如果预先建立的表情图像与表情主题信息的对应关系中存在与该回复信息相匹配的第一表情主题信息，则获取第一表情主题信息对应的表情图像，该对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和表情图像中包含的字符信息进行识别得到，多模态预训练模型是通过包含表情图像的训练图像和训练图像中包含的字符信息进行模型训练得到，可以将第一表情主题信息对应的表情图像作为对该输入信息的回复提供给目标用户，这样，在人机交互中，计算机设备可以理解用户发送的表情图像或者计算机设备可以给用户发送合适的表情图像，从而可以提高用户的满意率，提高人机交互中的对话沟通效率，降低用户转向人工服务的概率。

实施例二

如图4所示，本说明书实施例提供一种人机交互方法，该方法的执行主体可以为计算机设备，其中，该计算机设备可以为终端设备、服务器或相应的机具等，该终端设备可以如手机、平板电脑等移动终端设备，还可以如笔记本电脑或台式电脑等计算机设备，或者，也可以为IoT设备(具体如智能手表、车载设备等)等，该机具可以如某业务的智能客服机具等，具体可以根据实际情况设定。该方法具体可以包括以下步骤：

在步骤S402中，获取预先存储的交互日志，该交互日志包括文本信息、第二表情图像和第二表情图像的表情主题信息。

其中，交互日志可以是记录交互双方在信息交互过程中的信息等内容的日志，交互日志可以包括交互各方发送的信息、该信息的发送时间，该信息中可以包括文本信息和/或表情图像等，对于表情图像，还可以包括该表情图像的表情主题信息等。交互日志中记录的信息可以是某时间段内(如最近一年内或最近一个月内等)任意的两个或两个以上的交互方(包括人机交互，以及人与人之间的交互等)进行交互的信息。

在实施中，可以通过多种方式获取交互日志，例如，每当到达指定的周期时，计算机设备可以从某个数据库或多个不同的数据库获取交互日志，可以将获取的交互日志存储于本地，或者，还可以在需要训练或更新对话模型时，计算机设备可以从某个数据库或多个不同的数据库获取交互日志，可以将获取的交互日志存储于本地等，具体可以根据实际情况设定。当需要训练或更新对话模型时，计算机设备可以获取预先存储的上述交互日志。

在步骤S404中，基于上述交互日志中的文本信息和第二表情图像的表情主题信息对对话模型进行模型训练，得到训练后的对话模型。

在实施中，对话模型可以通过多种算法构建，例如可以通过卷积神经网络算法、深度神经网络算法等构建，对话模型可以包括多个部分，例如，对话模型中可以包括自然语言理解、对话策略等，可以根据不同的部分构建对话模型的相应的功能，最终可以得到对话模型的模型架构。此外，为了提高模型的构建效率，还可以直接使用当前常用的对话模型，例如，如上所述的基于纯文本的形式的对话模型等。

获取到对话模型的模型架构后，可以确定本次模型训练对应的损失函数，然后，如图5所示(其中，Tij(包括T11、T12、Tt1、Tt2等)表示第i个用户在第j轮发送的文本信息，Pij(包括P22、P42等)表示第i个用户在第j轮发送的第二表情图像的表情主题信息，Rsp表示预测的结果，可以包括文本信息和/或表情主题信息等)，可以使用上述交互日志中的文本信息(包括图5中一方输入的文本信息和/或另一方回复的文本信息)和第二表情图像(包括图5中一方输入的表情图像和/或另一方回复的表情图像)的表情主题信息，以及上述损失函数对对话模型进行模型训练，直到对话模型收敛为止，最终可以得到训练后的对话模型。

在步骤S406中，获取包含表情图像的训练图像。

在实施中，可以通过多种不同的方式获取包含表情图像的训练图像，例如，可以从一个或多个不同的数据库中获取包含表情图像的训练图像，或者，也可以通过网络爬虫从网络中爬取表情图像，可以将爬取的表情图像作为训练图像等，具体可以根据实际情况设定，本说明书实施例对此不做限定。

在步骤S408中，对训练图像中包含的字符进行识别，得到训练图像中包含的字符信息。

在实施中，可以通过字符提取算法对训练图像中包含的字符进行识别、提取，具体如，可以通过OCR(Optical Character Recognition，光学字符识别)算法对训练图像中包含的字符进行识别、提取，得到训练图像中包含的字符信息，或者，也可以通过神经网络模型构建字符提取模型，对该字符提取模型进行一定的模型训练后，可以使用该字符提取模型对训练图像中包含的字符进行识别、提取，得到训练图像中包含的字符信息等，具体可以根据实际情况设定，本说明书实施例对此不做限定。

在步骤S410中，基于包含表情图像的训练图像和训练图像中包含的字符信息，对多模态预训练模型进行模型训练，得到训练后的多模态预训练模型。

在实施中，多模态预训练模型可以通过多种算法构建，例如可以通过卷积神经网络算法、深度神经网络算法等构建，从而得到多模态预训练模型的模型架构，然后，可以根据实际情况确定多模态预训练模型的损失函数，然后，可以使用上述包含表情图像的训练图像和训练图像中包含的字符信息，以及上述损失函数对多模态预训练模型进行模型训练，直到多模态预训练模型收敛为止，最终可以得到训练后的多模态预训练模型，多模态预训练模型可以用于为表情图像生成相应的表情主题信息。

为了便于计算机设备向用户发送表情图像，可以预先构建表情图像与表情主题信息的对应关系，后续，计算机设备可以通过该对应关系为用户选择合适的表情图像与用户进行交互，具体可以包括以下步骤S412～步骤S418的处理。

在步骤S412中，获取待处理的第三表情图像。

其中，第三表情图像可以是任意表情图像，第三表情图像可以是一个，也可以是多个，具体可以根据实际情况设定。

在步骤S414中，对第三表情图像中包含的字符进行识别，得到第三表情图像中包含的字符信息。

步骤S414的具体处理过程可以参见前述相关内容，在此不再赘述。

在步骤S416中，将第三表情图像和第三表情图像中包含的字符信息输入到多模态预训练模型中，得到第三表情图像对应的第二表情主题信息。

在步骤S418中，将第二表情主题信息与第三表情图像对应存储于表情图像与表情主题信息的对应关系中。

针对上述构建的对应关系，还可以向上述对应关系中添加新的表情图像和相应的表情主题信息，还可以对上述对应关系中的表情图像或表情主题信息进行修改，以下提供一种对表情图像的修改方式，对于对表情主题信息的修改方式可以参见下述内容处理，在此不再赘述，具体可以包括以下步骤A2～步骤A6的处理。

在步骤A2中，接收对上述对应关系的修改请求，该修改请求中包括第三表情图像的图像标识和第四表情图像。

在步骤SA4中，基于上述图像标识，从表情图像与表情主题信息的对应关系中获取该图像标识对应的第三表情图像。

在步骤SA6中，将第三表情图像从上述对应关系中删除，并将第四表情图像与第二表情主题信息对应存储于上述对应关系中。

通过上述处理，分别得到了能够识别表情图像的对话模型、用于为表情图像生成表情主题信息的多模态预训练模型，以及表情图像与表情主题信息的对应关系，后续计算机设备可以基于上述模型和对应关系与目标用户进行交互，具体可以参见下述步骤S420～步骤S430的处理。

在步骤S420中，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息。

在步骤S422中，对上述回复信息进行分词处理，得到该回复信息中包含的一个或多个分词。

在实施中，可以通过多种不同的方式对上述回复信息进行分词处理，例如可以通过预先设定的分词算法对上述回复信息进行分词处理，其中的分词算法可以如基于字典、词库匹配的分词算法、基于词频度统计的分词算法、基于预设规则的分词算法等，此外，还可以通过预先训练的分词模型对上述回复信息进行分词处理，其中的分词模型可以如隐马尔科夫模型、条件随机场(CRF)模型等，具体可以根据实际情况设定，本说明书实施例对此不做限定。

在步骤S424中，分别将每个分词与预先建立的表情图像与表情主题信息的对应关系中的表情主题信息进行匹配，确定表情图像与表情主题信息的对应关系中存在的分词。

在步骤S426中，将确定的分词对应的表情主题信息确定为与该回复信息相匹配的第一表情主题信息。

在步骤S428中，获取第一表情主题信息对应的表情图像。

在步骤S430中，使用第一表情主题信息对应的表情图像分别替换上述回复信息中相应的分词，得到替换后的回复信息，将替换后的回复信息作为对上述输入信息的回复提供给目标用户。

通过上述方式构建的计算机设备的人机交互系统，在Dialogue SystemTechnology Challenge(DSTC-10)中的赛道一进行了测试，在三个子任务共6个测试集中均获得了较好的成绩。

实施例三

以上为本说明书实施例提供的人机交互方法，基于同样的思路，本说明书实施例还提供一种人机交互装置，如图6所示。

该人机交互装置包括：回复信息获取模块601、表情确定模块602和表情回复模块603，其中：

回复信息获取模块601，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息；

表情确定模块602，如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到；

表情回复模块603，将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例中，所述装置还包括：

日志获取模块，获取预先存储的交互日志，所述交互日志包括文本信息、第二表情图像和所述第二表情图像的表情主题信息；

第一模型训练模块，基于所述交互日志中的文本信息和所述第二表情图像的表情主题信息对所述对话模型进行模型训练，得到训练后的对话模型。

本说明书实施例中，所述装置还包括：

训练图像获取模块，获取包含表情图像的训练图像；

第一字符识别模块，对所述训练图像中包含的字符进行识别，得到所述训练图像中包含的字符信息；

第二模型训练模块，基于所述包含表情图像的训练图像和所述训练图像中包含的字符信息，对所述多模态预训练模型进行模型训练，得到训练后的多模态预训练模型。

本说明书实施例中，所述装置还包括：

表情图像获取模块，获取待处理的第三表情图像；

第二字符识别模块，对所述第三表情图像中包含的字符进行识别，得到所述第三表情图像中包含的字符信息；

表情主题确定模块，将所述第三表情图像和所述第三表情图像中包含的字符信息输入到所述多模态预训练模型中，得到所述第三表情图像对应的第二表情主题信息；

信息存储模块，将所述第二表情主题信息与所述第三表情图像对应存储于所述表情图像与表情主题信息的对应关系中。

本说明书实施例中，所述装置还包括：

修改请求模块，接收对所述对应关系的修改请求，所述修改请求中包括所述第三表情图像的图像标识和第四表情图像；

图像获取模块，基于所述图像标识，从所述表情图像与表情主题信息的对应关系中获取所述图像标识对应的所述第三表情图像；

调整模块，将所述第三表情图像从所述对应关系中删除，并将所述第四表情图像与所述第二表情主题信息对应存储于所述对应关系中。

本说明书实施例中，所述表情回复模块603，将所述回复信息和所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例中，所述装置还包括：

分词模块，对所述回复信息进行分词处理，得到所述回复信息中包含的一个或多个分词；

匹配模块，分别将每个所述分词与预先建立的表情图像与表情主题信息的对应关系中的表情主题信息进行匹配，确定所述表情图像与表情主题信息的对应关系中存在的所述分词；

第一表情主题确定模块，将确定的所述分词对应的表情主题信息确定为与所述回复信息相匹配的第一表情主题信息；

所述表情回复模块603，使用所述第一表情主题信息对应的表情图像分别替换所述回复信息中相应的所述分词，得到替换后的回复信息，将所述替换后的回复信息作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例提供一种人机交互装置，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息，如果预先建立的表情图像与表情主题信息的对应关系中存在与该回复信息相匹配的第一表情主题信息，则获取第一表情主题信息对应的表情图像，该对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和表情图像中包含的字符信息进行识别得到，多模态预训练模型是通过包含表情图像的训练图像和训练图像中包含的字符信息进行模型训练得到，可以将第一表情主题信息对应的表情图像作为对该输入信息的回复提供给目标用户，这样，在人机交互中，计算机设备可以理解用户发送的表情图像或者计算机设备可以给用户发送合适的表情图像，从而可以提高用户的满意率，提高人机交互中的对话沟通效率，降低用户转向人工服务的概率。

实施例四

以上为本说明书实施例提供的人机交互装置，基于同样的思路，本说明书实施例还提供一种人机交互设备，如图7所示。

所述人机交互设备可以为上述实施例提供的计算机设备等。

人机交互设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器701和存储器702，存储器702中可以存储有一个或一个以上存储应用程序或数据。其中，存储器702可以是短暂存储或持久存储。存储在存储器702的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对人机交互设备中的一系列计算机可执行指令。更进一步地，处理器701可以设置为与存储器702通信，在人机交互设备上执行存储器702中的一系列计算机可执行指令。人机交互设备还可以包括一个或一个以上电源703，一个或一个以上有线或无线网络接口704，一个或一个以上输入输出接口705，一个或一个以上键盘706。

具体在本实施例中，人机交互设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对人机交互设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息；

如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到；

将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例中，还包括：

获取预先存储的交互日志，所述交互日志包括文本信息、第二表情图像和所述第二表情图像的表情主题信息；

基于所述交互日志中的文本信息和所述第二表情图像的表情主题信息对所述对话模型进行模型训练，得到训练后的对话模型。

本说明书实施例中，还包括：

获取包含表情图像的训练图像；

对所述训练图像中包含的字符进行识别，得到所述训练图像中包含的字符信息；

基于所述包含表情图像的训练图像和所述训练图像中包含的字符信息，对所述多模态预训练模型进行模型训练，得到训练后的多模态预训练模型。

本说明书实施例中，还包括：

获取待处理的第三表情图像；

对所述第三表情图像中包含的字符进行识别，得到所述第三表情图像中包含的字符信息；

将所述第三表情图像和所述第三表情图像中包含的字符信息输入到所述多模态预训练模型中，得到所述第三表情图像对应的第二表情主题信息；

将所述第二表情主题信息与所述第三表情图像对应存储于所述表情图像与表情主题信息的对应关系中。

本说明书实施例中，还包括：

接收对所述对应关系的修改请求，所述修改请求中包括所述第三表情图像的图像标识和第四表情图像；

基于所述图像标识，从所述表情图像与表情主题信息的对应关系中获取所述图像标识对应的所述第三表情图像；

将所述第三表情图像从所述对应关系中删除，并将所述第四表情图像与所述第二表情主题信息对应存储于所述对应关系中。

本说明书实施例中，所述将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户，包括：

将所述回复信息和所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例中，还包括：

对所述回复信息进行分词处理，得到所述回复信息中包含的一个或多个分词；

分别将每个所述分词与预先建立的表情图像与表情主题信息的对应关系中的表情主题信息进行匹配，确定所述表情图像与表情主题信息的对应关系中存在的所述分词；

将确定的所述分词对应的表情主题信息确定为与所述回复信息相匹配的第一表情主题信息；

所述将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户，包括：

使用所述第一表情主题信息对应的表情图像分别替换所述回复信息中相应的所述分词，得到替换后的回复信息，将所述替换后的回复信息作为对所述输入信息的回复提供给所述目标用户。

本说明书实施例提供一种人机交互设备，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息，如果预先建立的表情图像与表情主题信息的对应关系中存在与该回复信息相匹配的第一表情主题信息，则获取第一表情主题信息对应的表情图像，该对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和表情图像中包含的字符信息进行识别得到，多模态预训练模型是通过包含表情图像的训练图像和训练图像中包含的字符信息进行模型训练得到，可以将第一表情主题信息对应的表情图像作为对该输入信息的回复提供给目标用户，这样，在人机交互中，计算机设备可以理解用户发送的表情图像或者计算机设备可以给用户发送合适的表情图像，从而可以提高用户的满意率，提高人机交互中的对话沟通效率，降低用户转向人工服务的概率。

实施例五

进一步地，基于上述图1A到图5所示的方法，本说明书一个或多个实施例还提供了一种存储介质，用于存储计算机可执行指令信息，一种具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令信息在被处理器执行时，能实现以下流程：

本说明书实施例中，还包括：

获取包含表情图像的训练图像；

本说明书实施例中，还包括：

获取待处理的第三表情图像；

本说明书实施例中，还包括：

本说明书实施例提供一种存储介质，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息，如果预先建立的表情图像与表情主题信息的对应关系中存在与该回复信息相匹配的第一表情主题信息，则获取第一表情主题信息对应的表情图像，该对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和表情图像中包含的字符信息进行识别得到，多模态预训练模型是通过包含表情图像的训练图像和训练图像中包含的字符信息进行模型训练得到，可以将第一表情主题信息对应的表情图像作为对该输入信息的回复提供给目标用户，这样，在人机交互中，计算机设备可以理解用户发送的表情图像或者计算机设备可以给用户发送合适的表情图像，从而可以提高用户的满意率，提高人机交互中的对话沟通效率，降低用户转向人工服务的概率。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本说明书的实施例可提供为方法、系统、或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器，使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种人机交互方法，所述方法包括：

2.根据权利要求1所述的方法，所述方法还包括：

3.根据权利要求1所述的方法，所述方法还包括：

获取包含表情图像的训练图像；

4.根据权利要求3所述的方法，所述方法还包括：

获取待处理的第三表情图像；

5.根据权利要求4所述的方法，所述方法还包括：

6.根据权利要求4所述的方法，所述将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户，包括：

7.根据权利要求4所述的方法，所述方法还包括：

8.一种人机交互装置，所述装置包括：

回复信息获取模块，获取预先训练的对话模型针对目标用户的输入信息而输出的回复信息；

表情确定模块，如果预先建立的表情图像与表情主题信息的对应关系中存在与所述回复信息相匹配的第一表情主题信息，则获取所述第一表情主题信息对应的表情图像，所述对应关系中的表情主体信息是通过预先训练的多模态预训练模型对表情图像和所述表情图像中包含的字符信息进行识别得到，所述多模态预训练模型是通过包含表情图像的训练图像和所述训练图像中包含的字符信息进行模型训练得到；

表情回复模块，将所述第一表情主题信息对应的表情图像作为对所述输入信息的回复提供给所述目标用户。

9.一种人机交互设备，所述人机交互设备包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器：

10.一种存储介质，所述存储介质用于存储计算机可执行指令，所述可执行指令在被处理器执行时实现以下流程：