CN114416931A

CN114416931A - 标签生成方法、装置及相关设备

Info

Publication number: CN114416931A
Application number: CN202011172997.0A
Authority: CN
Inventors: 卫万成; 卢栋才; 李明磊; 左志斌; 怀宝兴; 袁晶
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2022-04-29
Also published as: WO2022089546A1

Abstract

本申请实施例提供标签生成方法、装置及相关设备，所述方法包括：接收用户输入的对话信息，通过意图识别模块确定所述对话信息的第一用户意图，并向所述用户反馈所述第一用户意图；获取所述第一用户意图对应的多模态信息；根据所述第一用户意图对应的多模态信息确定所述第一用户意图是否正确；在确定所述第一用户意图正确的情况下，将所述第一用户意图记录为所述对话信息的标签。该方法用于解决在获取大量训练数据对应的意图标签时存在的费时费力、效率低、成本高，以及标注错误率高等问题。

Description

标签生成方法、装置及相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及标签生成方法、装置及相关设备。

背景技术

智能对话系统在接收到用户发起的对话后，通常利用意图识别模块自动对用户发起的对话进行意图识别，得到预测的用户意图，然后根据预测的用户意图查找到对应的回答，对用户进行答复，如此，便形成了人与机器之间的对话。其中，意图识别模块通常利用智能模型(也可以称为意图识别模型)进行意图识别。

在实际应用中，当智能对话系统中的智能模型上线运行后，需要不断地对智能模型进行优化训练，以提升智能模型的识别准确度。若要实现智能模型的优化训练，通常需要获取大量的训练数据和大量训练数据对应的意图标签。

目前常见的获取大量训练数据对应的意图标签的方法通常存在着费时费力、效率低、成本高，以及标注错误率高等问题。

发明内容

本申请提供了标签生成方法、装置及相关设备，用于解决现有技术在获取大量训练数据对应的意图标签时存在的费时费力、效率低、成本高，以及标注错误率高等问题。

第一方面，提供了一种标签生成方法，所述方法包括：

接收用户输入的对话信息，通过意图识别模块确定所述对话信息的第一用户意图，并向所述用户反馈所述第一用户意图；

获取所述第一用户意图对应的多模态信息；

根据所述第一用户意图对应的多模态信息确定所述第一用户意图是否正确；

在确定所述第一用户意图正确的情况下，将所述第一用户意图记录为所述对话信息的标签。

实施上述标签生成方法，在接收用户输入的对话信息后，通过意图识别模块确定对话信息的第一用户意图，并向用户反馈第一用户意图，然后获取第一用户意图对应的多模态信息，根据第一用户意图对应的多模态信息确定第一用户意图是否正确，在确定第一用户意图正确的情况下，将第一用户意图记录为对话信息的标签。可以看出，该方法无需数据标注人员对对话信息进行数据标注，便可得到对话信息对应的标签，不像现有技术中是由数据标注人员对对话信息进行意图分析得到人工识别意图后，根据人工识别意图对对话信息进行标注得到对话信息对应的标签，可以解决现有技术在获取大量训练数据对应的意图标签时存在的费时费力、效率低、成本高，以及标注错误率高等问题。

还可以看出，实施上述标签生成方法，在向用户反馈第一用户意图之后，可以主动获取第一用户意图对应的多模态信息，并不像现有技术中需要用户主动点击界面上显示的满意或者不满意等快捷键输入反馈信息，解决了现有技术存在的用户主动进行反馈的意愿性较差的问题。

在一些可能的实施例中，所述第一用户意图对应的多模态信息包括以下任意一种或多种：用户的动作信息、用户的表情信息、用户发出的语音信息、用户输入的文字信息。

在一些可能的实施例中，所述对话信息和所述对话信息的标签作为正样本用于所述意图识别模块的训练。

在一些可能的实施例中，在确定所述第一用户意图不正确的情况下，向所述用户反馈所述第二用户意图，其中，所述第一用户意图的置信度高于所述第二用户意图；

获取所述第二用户意图对应的多模态信息；

根据所述第二用户意图对应的多模态信息确定所述第二用户意图是否正确。

在一些可能的实施例中，所述通过意图识别模块确定所述对话信息的第一用户意图，包括：

所述意图识别模块确定是否存在与所述对话信息匹配的规则；

如果所述意图识别模块确定存在与所述对话信息匹配的规则，所述意图识别模块获取所述匹配的规则对应的意图作为所述第一用户意图。

如果所述意图识别模块确定不存在与所述对话信息匹配的规则，所述意图识别模块将所述对话信息输入所述意图识别模块的智能模型，以获得所述第一用户意图。

在一些可能的实施例中，所述根据所述第一用户意图对应的多模态信息确定所述第一用户意图是否正确，包括：

根据所述多模态信息进行识别，确定所述用户对所述第一用户意图的情绪是否积极；

在确定所述用户对所述第一用户意图的情绪积极的情况下，确定所述第一用户意图正确。

统计所述多模态信息中出现所述对话信息的部分或全部的次数；

在所述次数小于或者等于预设次数阈值的情况下，确定所述第一用户意图正确。

第二方面，本申请提供了一种标签生成装置，所述装置包括：

意图识别模块，用于接收用户输入的对话信息，确定所述对话信息的第一用户意图，并向所述用户反馈所述第一用户意图；

获取模块，用于获取所述第一用户意图对应的多模态信息；

标签生成模块，用于根据所述第一用户意图对应的多模态信息确定所述第一用户意图是否正确；

所述标签生成模块，还用于在确定所述第一用户意图正确的情况下，将所述第一用户意图记录为所述对话信息的标签。

在一些可能的实施例中，所述对话信息和所述对话信息对应的标签作为正样本用于所述意图识别模块的训练。

在一些可能的实施例中，所述标签生成模块，还用于：

在确定所述第一用户意图不正确的情况下，向所述用户反馈所述第二用户意图，其中，所述第一用户意图的置信度高于所述第二用户意图；

获取所述第二用户意图对应的多模态信息；

在一些可能的实施例中，所述意图识别模块，具体用于：

确定是否存在与所述对话信息匹配的规则；

如果确定存在与所述对话信息匹配的规则，获取所述匹配的规则对应的意图作为所述第一用户意图。

在一些可能的实施例中，所述意图识别模块包括智能模型，所述意图识别模块，具体用于：

确定是否存在与所述对话信息匹配的规则；

如果确定不存在与所述对话信息匹配的规则，将所述对话信息输入所述智能模型，以获得所述第一用户意图。

在一些可能的实施例中，所述标签生成模块，具体用于：

根据所述第一用户意图对应的多模态信息确定所述用户对所述第一用户意图的情绪是否积极；

在一些可能的实施例中，所述标签生成模块，具体用于：

统计所述第一用户意图对应的多模态信息中出现所述对话信息的部分或全部的次数；

第三方面，本申请提供了一种标签生成设备，包括：处理器、通信接口以及存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述通信接口用于接收或者发送数据；其中，所述处理器执行所述指令时执行如上述第一方面或者第一方面的任意具体实现方式中所描述方法。

第四方面，本申请提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面或者第一方面的任意具体实现方式中所描述方法。

第五方面，本申请提供了一种计算机程序产品，当所述计算机程序产品被计算机读取并执行时，实现如上述第一方面或者第一方面的任意具体实现方式中所描述方法。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例涉及的一种智能对话系统的示意图；

图2是本申请实施例涉及的一种现有意图标签获取方法的流程示意图；

图3是本申请实施例涉及的另一种现有意图标签获取方法的流程示意图；

图4是本申请实施例涉及的一种服务器300显示的目标意图的示意图；

图5A是本申请实施例涉及的一种服务器300接收的意图标签的示意图；

图5B是本申请实施例涉及的另一种服务器300接收的意图标签的示意图；

图6是本申请实施例提供的一种标签生成方法的流程示意图；

图7是本申请实施例提供的一种标签生成装置的结构示意图；

图8是本申请实施例提供的另一种标签生成设备的结构示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了便于理解本申请实施例，下面先对本申请实施例涉及的应用场景进行说明。

图1为本申请实施例涉及的一种智能对话系统的结构示意图，该智能对话系统可以对用户输入的对话信息(如语音信息或者文本信息)进行意图识别，确定用户意图，然后根据用户意图查找对应的回答，回复用户提出的问题，实现人与机器之间的对话。该智能对话系统可以是视频、音乐、资讯等资源搜索场景中的对话系统，也可以是打车、票务预订、网上点餐等业务场景中的对话系统，此处不作具体限定。

如图1所示，该智能对话系统可以包括：终端设备100、网络设备200以及服务器300。其中，

终端设备100也可以称为移动终端、移动设备、智能机器人或者对话机器人等，终端设备100可以与用户进行语音或者文本对话交互。终端设备100上可以安装有各种客户端应用，例如语音识别类应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。客户端应用是用户和服务器300之间的中介，用户向客户端应用输入指令，如语音指令或者文本指令等，客户端应用将用户输入的指令翻译成数据通过网络设备200发送给服务器300，服务器300对数据处理完毕后返回结果，再由客户端应用将结果呈现给用户。

终端设备100可以是个人电脑、智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备(例如智能手表、智能手环、计步器等)等电子设备，此处不作具体限定。

网络设备200用于在终端设备100通过任何通信机制/通信标准的通信网络与服务器300之间传输数据。其中，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

服务器300可以是提供各种服务的服务器，服务器300可以是个人电脑，也可以是基于云的服务器。图1以服务器300是基于云的服务器为例，服务器300包括多个对话处理节点，每个对话处理节点自下而上包括对话处理硬件、虚拟化服务、对话处理引擎以及对话处理服务端应用。其中，

对话处理硬件包括计算资源、存储资源以及网络资源。计算资源可以采用异构计算架构，例如，可以采用中央处理器(central processing unit，CPU)+图形处理器(graphics processing unit，GPU)架构，CPU+AI芯片，CPU+GPU+AI芯片架构等等，此处不作具体限定。存储资源可以包括内存等等。这里，计算资源可以被分成多个计算单位资源，存储资源可以被分成多个存储单位资源，网络资源可以被分成多个网络单位资源。因此，图像处理平台可以按照用户的资源需求以单位资源为基础进行自由组合，从而用户的需要提供资源。例如，计算资源可以被分成5u的计算单位资源，存储资源可以被分成10G的存储单位资源，则计算资源和存储资源的组合可以是，5u+10G，5u+20G，5u+30u，…，10u+10G，10u+20G，10u+30u，…。

虚拟化服务是通过虚拟化技术将多个物理主机的资源构建为统一的资源池，并按照用户的需要灵活地隔离出相互独立的资源以运行用户的应用程序的服务。虚拟化服务可以包括虚拟机(virtual machine，VM)服务、裸金属服务器(bare metal server，BMS)服务以及容器(container)服务。其中，VM服务可以是通过虚拟化技术在多个物理主机上虚拟出虚拟机(virtual machine，VM)资源池以为用户按需提供VM进行使用的服务。BMS服务是在多个物理主机上虚拟出BMS资源池以为用户按需提供BMS进行使用的服务。容器服务是在多个物理主机上虚拟出容器资源池以为用户按需提供容器进行使用的服务。VM是模拟出来的一台虚拟的计算机，也即逻辑上的一台计算机。BMS是一种可弹性伸缩的高性能计算服务，计算性能与传统物理机无差别，具有安全物理隔离的特点。容器是一种内核虚拟化技术，可以提供轻量级的虚拟化，以达到隔离用户空间、进程和资源的目的。应理解，上述虚拟化服务中的VM服务、BMS服务以及容器服务仅仅是作为具体的事例，在实际应用中，虚拟化服务还可以其他轻量级或者重量级的虚拟化服务，此处不作具体限定。

对话处理引擎可以用于实现对话处理算法，例如，语音识别(automatic speechrecognition，ASR)算法、自然语言处理(natural language processing，NLP)算法等等。

对话处理服务端应用可以用于调用对话处理引擎以完成对话的处理，如从用户输入的对话信息中抽取语义信息识别出用户意图，或者将用户输入的对话信息与规则库中的多条规则进行匹配从而确定用户意图等等，然后根据用户意图查找到对应的回答，对用户进行回复。

应该理解，图1所示的智能对话系统仅仅是作为具体的示例，在实际应用中，智能对话系统可以包括任意数目的终端设备100、网络设备200和服务器300，此处不作具体限定。

具体地，图1所示的智能通话系统若要实现与用户之间的对话，可以在终端设备100或者服务器300中预先存储多条规则、多个意图以及多条规则与多个意图之间的对应关系，终端设备100或者服务器300在接收到用户输入的对话信息后，可以将用户输入的对话信息与多条规则进行匹配，确定多条规则中是否存在与对话信息匹配的规则，在确定存在与对话信息匹配的规则的情况下，将匹配的规则对应的意图确定为用户意图，然后根据用户意图查找到对应的回答，对用户进行答复。需要说明的是，多条规则与多个意图之间存在一一对应关系。

在实际应用中，图1所示的智能对话系统除了可以利用预先存储的多条规则、多个意图以及多条规则与多个意图之间的对应关系实现与用户之间的对话，还可以在终端设备100或者服务器300中训练得到智能模型，然后终端设备100或者服务器300利用训练好的智能模型对用户输入的对话信息进行意图识别，确定用户意图，然后根据用户意图查找到对应的回答，从而实现智能对话系统与用户之间的对话。

为了便于描述，在本申请接下来的实施例中，均以训练得到智能模型和使用智能模型的设备为服务器300为例进行描述。

在实际应用中，服务器300通常需要获取几十万甚至几百万的训练数据以及训练数据对应的意图标签才能训练出识别效果较好的智能模型，但是大量的训练数据以及训练数据对应的意图标签的获取难度比较大，若是使用少量的训练数据以及训练数据对应的意图标签训练得到智能模型，意图识别效果通常较差，不能准确识别用户意图。因此，在智能模型上线运行的过程中，服务器300需要继续获取训练数据和训练数据对应的意图标签对智能模型进行优化训练，以提升智能模型的识别效果。

现有技术中，在智能模型上线运行的过程中，服务器300主要通过以下两种方法获取训练数据对应的意图标签。

方法一、数据标注人员直接对训练数据进行标注得到意图标签，并将意图标签输入至服务器300。

如图2所示，该方法主要包括以下步骤：

S101、服务器300获取对话信息。

需要说明，这里的对话信息即为训练数据。

其中，对话信息可以为语音信息，也可以为文本信息、图像信息等，此处不作具体限定。服务器300获取对话信息可以为服务器300接收用户输入的对话信息，也可以为服务器300通过爬虫等技术在互联网上获取到的对话信息，此处不作具体限定。其中，服务器300接收用户输入的对话信息可以是用户直接向服务器300输入的，也可以是用户向终端设备100输入，然后由终端设备100发送至服务器300的，此处不作具体限定。

S102、服务器300向数据标注人员反馈对话信息。

服务器300向数据标注人员反馈对话信息，可以为服务器300直接通过服务器300的界面向用户反馈，也可以为服务器300将对话信息发送至终端设备100，由终端设备100通过终端设备100的界面向用户反馈，此处不作具体限定。

S103、服务器300接收数据标注人员输入的对话信息对应的标签。

其中，对话信息对应的标签是数据标注人员对对话信息进行意图分析得到人工识别意图后，根据人工识别意图对对话信息进行标注得到的。

以对话信息为“我想看电影”的语音信息为例，数据标注人员对对话信息“我想看电影”进行意图分析后可以得到的人工识别意图为“看电影”，在得到人工识别意图“看电影”之后，数据标注人员可以将该人工识别意图“看电影”作为对话信息对应的标签输入至服务器300。

在该方法中，若对话信息包含的信息量较小且信息内容较简单，数据标注人员可以很容易地分析得到人工识别意图，而且得到的人工识别意图通常较准确，根据较准确的人工识别意图对对话信息进行标注得到的标签的准确度也较高。但是，若对话信息包含的信息量较大且信息内容复杂难懂，数据标注人员通常需要查阅大量相关资料对对话信息进行意图分析才能得到人工识别意图，而且得到的人工识别意图很可能不准确，根据不准确的人工识别意图对对话信息进行标注得到的标签也很可能是错误的。

另外，若要实现对智能模型的优化训练，通常需要获取大量对话信息对应的标签，若是利用该方法进行获取，则需要大量的数据标注人员花费大量的时间才能完成数据标注工作，效率低，成本高。

方法二、数据标注人员根据用户主动反馈的反馈信息对训练数据进行标注得到意图标签，并将意图标签输入至服务器300。

如图3所示，该方法主要包括以下步骤：

S201、服务器300接收用户输入的对话信息。

S202、服务器300根据对话信息得到目标意图，并向用户反馈目标意图。

其中，服务器300可以包括多条规则和/或智能模型，多条规则与多个意图之间存在一一对应关系。

具体地，服务器300在接收到用户输入的对话信息之后，可以直接将对话信息输入智能模型进行意图识别，得到目标意图，也可以先将对话信息与多条规则进行匹配，确定多条规则中是否存在与对话信息匹配的规则，若多条规则中存在与对话信息匹配的规则，则将该规则对应的意图确定为目标意图；若多条规则中不存在与对话信息匹配的规则，再将对话信息输入智能模型进行意图识别，得到目标意图。

在实际应用中，服务器300在得到目标意图后，在向用户反馈目标意图的同时，还可以根据目标意图对用户输入的对话信息进行回复，如，假设用户输入的对话信息为“我想看电影”，服务器300得到的目标意图为“看电影”，服务器300给用户的回复可以是“你想看什么电影？”或者“你想看什么类型的电影”等等。

S203、服务器300接收用户输入的目标意图对应的反馈信息。

其中，用户输入的目标意图对应的反馈信息，为用户查看到目标意图后向服务器300输入的。

在具体实现中，服务器300在向用户反馈目标意图时，还可以在界面上显示与目标意图相关的快捷键，用户在查看到目标意图后，可以主动点击服务器300的界面上显示的与目标意图相关的快捷键向服务器300输入目标意图对应的反馈信息，服务器300的界面上显示的与目标意图相关的快捷键可以为“满意”快捷键和“不满意”快捷键等。

具体地，用户在接收到服务器300反馈的目标意图后，若是用户对目标意图满意，用户可以点击服务器300的界面上显示的“满意”快捷键向服务器300输入对目标意图表示满意的反馈信息，若是用户对目标意图不满意，用户可以点击服务器300的界面上显示的“不满意”快捷键向服务器300输入对目标意图表示不满意的反馈信息。

举例来讲，继续以对话信息为“我想看电影”，服务器300对对话信息“我想看电影”进行意图识别后，得到的目标意图为“看电影”为例，如图4所示，服务器300的界面上显示了目标意图“看电影”，“满意”快捷键和“不满意”快捷键，以及服务器300对用户输入的对话信息“我想看电影”的回复“你想看什么电影”，用户可以主动点击“满意”快捷键和“不满意”快捷键向服务器300输入对目标意图“看电影”表示满意或者不满意的反馈信息。

在具体实现中，用户向服务器300输入的目标意图对应的反馈信息还可以为用户对目标意图进行满意度评级或者进行满意度打分的信息，此处不作具体限定。

S204、服务器300向数据标注人员反馈对话信息、目标意图和目标意图对应的反馈信息。

S205、服务器300接收数据标注人员输入的对话信息对应的标签。

其中，对话信息对应的标签由数据标注人员根据用户输入的目标意图对应的反馈信息和目标意图对对话信息进行标注得到。

具体地，在用户向服务器300输入的目标意图对应的反馈信息是对目标意图表示满意的信息的情况下，数据标注人员可以将目标意图标注为对话信息对应的标签；在用户向服务器300输入的目标意图对应的反馈信息是对目标意图表示不满意的信息的情况下，数据标注人员可以参考目标意图对对话信息进行意图分析，得到人工识别意图，并将该人工识别意图标注为对话信息对应的标签。

继续以对话信息为“我想看电影”为例，示例性地，如图5A和图5B所示，图5A显示了用户在看到目标意图“看电影”并点击了“满意”快捷键之后，数据标注人员向服务器300输入的对话信息对应的标签，该标签为“看电影”，图5B显示了用户在看到目标意图“打游戏”并点击了“不满意”快捷键之后，数据标注人员根据人工识别意图“看电影”向服务器300输入的对话信息对应的标签，该标签为“看电影”。

可以看出，该方法中数据标注人员是根据用户主动反馈的反馈信息对对话信息进行标注得到标签的，用户主动反馈的反馈信息可以对数据标注人员起到辅助作用，可以缩减数据标注人员对对话信息进行标注得到意图标签所耗费的精力和时间，有利于提高标注效率和节省成本。

但是，即便服务器300的界面上显示有对目标意图表示满意或者不满意的快捷键，或者显示有对目标意图进行评级或者打分的快捷键，用户大多也不愿意主动点击快捷键进行反馈。也就是说，该方法存在着用户主动进行反馈的意愿性较差的问题。

为了解决上述问题，本申请提供了标签生成方法、装置以及相关设备。请参见图6，图6为本申请实施例提供的一种标签生成方法的流程示意图，该方法可以应用于图1所示的智能对话系统中，具体可以应用于图1所示的服务器300或者终端设备100，此处不作具体限定。

为了便于描述，在本申请接下来的实施例中，均以本申请实施例提供的标签生成方法应用于服务器300为例进行描述。

如图6所示，该方法包括：

S301、接收用户输入的对话信息，通过意图识别模块确定对话信息的第一用户意图，并向用户反馈第一用户意图。

可以理解，用户可以直接或者通过终端设备100间接与服务器300进行对话，在用户与服务器300进行对话的过程中，服务器300可以将接收到的用户输入的每一句对话，作为一个对话信息。

其中，对话信息可以为用户发出的语音信息，也可以为用户通过键盘、触摸屏等输入设备输入的文本信息，还可以为用户输入的图像信息，此处不作具体限定。在用户输入的对话信息为语音信息的情况下，服务器300可以通过ASR技术将语音信息转化为文本信息。

在一种具体的实施例中，通过意图识别模块确定对话信息的第一用户意图的过程具体可以包括如下步骤：

A1、意图识别模块确定是否存在与对话信息匹配的规则。

其中，意图识别模块可以包括多条规则和多个意图，多条规则和多个意图之间存在一一对应关系。

由于多条规则和多个意图之间存在一一对应关系，因此，意图识别模块确定是否存在与对话信息匹配的规则，可以理解为，意图识别模块确定多个意图中是否存在与对话信息匹配的意图。

在具体实现中，多条规则以及多条规则对应的意图可以为专门的规则设计人员预先根据多种应用场景得到的，然后将多条规则、多个意图以及多条规则与多个意图之间的对应关系预先存储在服务器300中的意图识别模块。服务器300在接收到用户输入的对话信息后，通过意图识别模块将对话信息与多条规则进行匹配，确定多条规则中是否存在与对话信息匹配的规则。

A2、如果意图识别模块确定存在与对话信息匹配的规则，意图识别模块获取匹配的规则对应的意图作为第一用户意图。

举例来讲，假设多条规则为规则A、规则B和规则C，规则A为“*查银行卡余额*”，规则A对应的意图A为“查银行卡余额”，规则B为“*看电影*”，规则B对应的意图B为“看电影”，规则C为“*订火车票*”，规则C对应的意图C为“订火车票”，若用户输入服务器300的对话信息为“我想查银行卡余额”，服务器300在将对话信息与多条规则进行匹配时，可以匹配到规则A，则服务器300可以确定多条规则中存在与对话信息匹配的规则，即规则A，便将规则A对应的意图A确定为第一用户意图；若用户输入服务器300的对话信息为“我想打游戏”，服务器300在将对话信息与多条规则进行匹配时，匹配不到对应的规则，则确定多条规则中不存在与对话信息匹配的规则，即意图A、意图B和意图C中不存在与对话信息匹配的意图。

可以理解，由于多条规则以及多条规则对应的意图为专门的规则设计人员预先根据多种应用场景得到的，这些意图通常是正确的，因此，在多条规则中存在与对话信息匹配的规则的情况下，将对话信息匹配的规则对应的意图确定为第一用户意图，那么第一用户意图的正确性也是可以保证的。

在另一种具体的实施例中，通过意图识别模块确定对话信息的第一用户意图的过程具体可以包括如下步骤：

B1、意图识别模块确定是否存在与对话信息匹配的规则。

该步骤与A1相同，具体可以参考上文对A1的相关描述，此处不再展开赘述。

B2、如果意图识别模块确定不存在与对话信息匹配的规则，意图识别模块将对话信息输入意图识别模块的智能模型，以获得第一用户意图。

在具体实现中，将对话信息输入智能模型进行意图识别，可以得到包括第一用户意图和第二用户意图在内的多个用户意图以及多个用户意图的置信度，其中，第一用户意图的置信度大于第二用户意图的置信度，第二用户意图的置信度大于多个用户意图中除第一用户意图和第二用户意图之外的其他用户意图的置信度。也就是说，第一用户意图为多个用户意图中置信度最高的意图，第二用户意图为多个用户意图中置信度仅次于第一用户意图的置信度的意图。举例来讲，假设用户输入的对话信息为“我想看电视剧”，智能模型对对话信息“我想看电视剧”进行意图识别，得到的多个用户意图为“看电视剧”、“看电影”、“看话剧”，其中，用户意图“看电视剧”的置信度为0.5，用户意图“看电影”的置信度为0.4，用户意图“看话剧”的置信度为0.1，则第一用户意图为用户意图“看电视剧”，第二用户意图为用户意图“看电影”。

在本申请具体的实施例中，智能模型可以表示为：

y₁＝f₁(x₁)

其中，y₁为用户意图，x₁为对话信息，f₁()为对话信息与用户意图之间的映射关系，f₁()可以是通过大量对话信息样本和大量对话信息样本对应的意图标签进行训练得到的。

在具体实现中，智能模型可以是采用卷积神经网络(convolutional neuralnetworks，CNN)实现的模型，也可以是采用循环神经网络(recurrent neural networks，RNN)实现的模型，此处不作具体限定。其中，卷积神经网络可以为VGGNet、ResNET、FPNet等等，循环神经网络可以为长短时记忆(long short-term memory，LSTM)模型、双向长短时记忆(Bidirectional long short-term memory，BiLSTM)模型等等，此处不作具体限定。

在实际应用中，服务器300在得到第一用户意图后，在向用户反馈第一用户意图的同时，还可以根据第一用户意图对用户输入的对话信息进行回复，如，假设用户输入的对话信息为“我想看电影”，服务器300得到的第一用户意图为“看电影”，服务器300给用户的回复可以是“你想看什么电影？”或者“你想看什么类型的电影”等等。

S302、获取第一用户意图对应的多模态信息。

其中，第一用户意图对应的多模态信息为用户查看到第一用户意图之后的反应信息，其可以包括用户的动作信息、用户的表情信息、用户发出的语音信息和用户输入的文字信息等信息中的一种或者多种，此处不作具体限定。

可以理解，用户在查看到服务器300反馈的第一用户意图之后，若是用户对第一用户意图满意，用户做出的动作通常为用户点头或者竖起大拇指表示赞许，用户的表情通常为平静或者微笑等，若是用户是通过语音信息与服务器300进行交互的，用户通常会发出的“识别效果挺好”或者“识别结果挺准确的”等语音信息，若是用户是通过文本信息与服务器300进行交互的，用户通常会通过键盘、触摸屏等输入设备输入“点赞”或者“服务好评”等文本信息，或者还会输入表示满意的表情包；若是用户对第一用户意图不满意，用户做出的动作通常为用户摇头或者叹气等，用户的表情通常为诧异或者生气，若是用户是通过语音信息与服务器300进行交互的，用户通常会发出“你的回复不正确”或者“我对你的答复不满意”等语音信息，若是用户是通过文本信息与服务器300进行交互的，用户通常会通过输入设备输入“识别效果一点都不好”或者“对识别结果不满意”等文本信息，或者还会输入表示不满意的表情包。

具体地，服务器300可以通过摄像头等摄像装置对用户进行拍摄得到包括用户的动作信息和用户的表情信息的图像，通过拾音器等拾音装置获取用户发出的语音信息，通过键盘、触摸屏等输入设备接收用户输入的文本信息。

S303、根据第一用户意图对应的多模态信息确定第一用户意图是否正确。

在一种具体的实施例中，根据第一用户意图对应的多模态信息确定第一用户意图是否正确的具体过程可以为：

C1、根据第一用户意图对应的多模态信息，确定用户对第一用户意图的情绪是否积极。

具体地，可以将第一用户意图对应的多模态信息输入情绪识别模型进行识别，确定用户对第一用户意图的情绪是否积极。

举例来讲，假设用户输入的第一用户意图对应的多模态信息中包括图像，图像中用户的表情为微笑，则情绪识别模型可以确定用户对第一用户意图的情绪积极，若图像中用户的表情为诧异，则情绪识别模型可以确定用户对第一用户意图的情绪不积极。又例如，若用户输入的第一用户意图对应的多模态信息中包括用户发出的“识别效果挺好”的语音信息，则情绪识别模型可以确定用户对第一用户意图的情绪积极，若用户输入的第一用户意图对应的多模态信息中包括用户发出的“识别效果一点都不好”的语音信息，则情绪识别模型可以确定用户对第一用户意图的情绪不积极。

在本申请具体的实施例中，情绪识别模型可以表示为：

y₂＝f₂(x₂)

其中，y₂为用户情绪，x₂为多模态信息，f₂()为多模态信息与用户情绪之间的映射关系，f₂()可以是通过大量多模态信息样本和大量多模态信息样本对应的用户情绪标签进行训练得到的。

在具体实现中，情绪识别模型可以是采用卷积神经网络实现的模型，也可以是采用循环神经网络实现的模型，此处不作具体限定。其中，卷积神经网络可以为VGGNet、ResNET、FPNet等等，循环神经网络可以为LSTM模型、BiLSTM模型等等，此处不作具体限定。

C2、在确定用户对第一用户意图的情绪积极的情况下，确定第一用户意图正确。

C3、在确定用户对第一用户意图的情绪不积极的情况下，确定第一用户意图不正确。

可以理解，用户在查看到服务器300反馈的第一用户意图之后，若是用户对第一用户意图满意，通常会输入新的对话信息，新的对话信息与之前的对话信息是不相同的对话信息，若是用户对第一用户意图不满意，通常会再次或者多次输入与之前的对话信息相同的对话信息。举例来讲，假设用户输入的对话信息为“我想查银行卡余额”，若服务器300反馈的第一用户意图为“查银行卡余额”，用户觉得服务器300反馈的用户意图与自己的意图相符，则不会重复向服务器300输入“我想查银行卡余额”的对话信息，若服务器300反馈的第一用户意图为“买火车票”，用户觉得服务器300反馈的用户意图与自己的意图不符，则会再次向服务器300输入“我想查银行卡余额”的对话信息。

因此，在另一种具体的实施例中，可以通过统计第一用户意图对应的多模态信息中出现对话信息的部分或者全部的次数，然后根据第一用户意图对应的多模态信息中出现的对话信息的部分或者全部的次数确定第一用户意图是否正确。

具体地，若第一用户意图对应的多模态信息中出现对话信息的部分或者全部的次数小于或者等于预设次数阈值，则确定第一用户意图正确；若第一用户意图对应的多模态信息中出现对话信息的部分或者全部的次数大于预设次数阈值，则确定第一用户意图不正确。其中，预设次数阈值可以为0、1、2等，此处不作具体限定。

S304、在确定第一用户意图正确的情况下，将第一用户意图记录为对话信息的标签。

在本申请具体的实施例中，在确定第一用户意图不正确的情况下，可以向用户反馈第二用户意图，然后获取第二用户意图对应的多模态信息，并根据第二用户意图对应的多模态信息确定第二用户意图是否正确。在确定第二用户意图正确的情况下，将第二用户意图记录为对话信息的标签；在确定第二用户意图不正确的情况下，向用户反馈第三用户意图，然后获取第三用户意图对应的多模态信息，并根据第三用户意图对应的多模态信息确定第三用户意图是否正确，以此类推。其中，第二用户意图和第三用户意图也是将对话信息输入智能模型进行意图识别得到的，第一用户意图的置信度大于第二用户意图的置信度，第二用户意图的置信度大于第三用户意图的置信度。

在本申请具体的实施例中，在将第一用户意图或者第二用户意图记录为对话信息的标签之后，可以使用对话信息和对话信息的标签作为正样本用于意图识别模块的训练。

在实际使用中，用户可以直接或者通过终端设备100间接与服务器300进行对话，在用户与服务器300进行对话的过程中，服务器300可以将自身接收到的用户输入的每一句对话，作为一个对话信息。若是一个用户与服务器300进行了大量对话或者多个用户均与服务器300进行了对话，则服务器300可以接收到大量对话信息。服务器300可以对大量对话信息中的每个对话信息均进行上述图6所示操作，得到每个对话信息对应的标签，从而得到大量对话信息对应的大量标签。

在具体实现中，在服务器300获取的对话信息的数量和对话信息对应的标签的数量均达到预设数量之后，服务器300可以自动触发模型训练功能，使用预设数量的对话信息和预设数量的标签对意图识别模块的智能模型进行优化训练，得到优化后的智能模型。在得到优化后的智能模型之后，可以验证优化后的智能模型是否符合预设要求，若该模型符合预设要求，则将原有的智能模型更新为该优化后的智能模型，反之，则不进行更新。

本申请提供的标签生成方法中，在接收到用户输入的对话信息后，通过意图识别模块确定对话信息的第一用户意图，并向用户反馈第一用户意图，然后获取第一用户意图对应的多模态信息，根据第一用户意图对应的多模态信息确定第一用户意图是否正确，在确定第一用户意图正确的情况下，将第一用户意图记录为对话信息的标签。可以看出，该方法无需数据标注人员对对话信息进行数据标注，便可得到对话信息对应的标签，不像现有技术是由数据标注人员对对话信息进行意图分析得到人工识别意图后，根据人工识别意图对对话信息进行标注得到标签，可以解决现有技术在获取大量训练数据对应的意图标签时存在的费时费力、效率低、成本高，以及标注错误率高等问题。

还可以看出，本申请提供的方法中，在向用户反馈第一用户意图之后，可以主动获取第一用户意图对应的多模态信息，并不像现有技术中需要用户主动点击界面上显示的满意或者不满意等快捷键向服务器300输入反馈信息，解决了现有技术存在的用户主动进行反馈的意愿性较差的问题。

上文详细阐述了本申请实施例的一种标签生成方法，基于相同的发明构思，下面继续提供本申请实施例的一种标签生成装置，该标签生成装置可以应用于图1所示的智能对话系统中，具体可以应用于图1所示的服务器300或者终端设备100中，此处不作具体限定。

参见图7，图7是本申请实施例提供的一种标签生成装置400的结构示意图，该标签生成装置400至少包括：意图识别模块410、获取模块420和标签生成模块430，其中，

意图识别模块410，接收用户输入的对话信息，通过意图识别模块确定对话信息的第一用户意图，并向用户反馈第一用户意图。

获取模块420，用于获取第一用户意图对应的多模态信息。

标签生成模块430，用于根据第一用户意图对应的多模态信息确定第一用户意图是否正确。

标签生成模块430，还用于在确定第一用户意图正确的情况下，将第一用户意图记录为对话信息的标签。

在一种可能的实现方式中，第一用户意图对应的多模态信息包括以下任意一种或多种：用户的动作信息、用户的表情信息、用户发出的语音信息、用户输入的文字信息。

在一种可能的实现方式中，对话信息和对话信息对应的标签作为正样本用于意图识别模块的训练。

在一种可能的实现方式中，上述标签生成模块430，还用于：在确定第一用户意图不正确的情况下，向用户反馈第二用户意图，其中，第一用户意图的置信度高于第二用户意图；获取第二用户意图对应的多模态信息；根据第二用户意图对应的多模态信息确定第二用户意图是否正确。

在一种可能的实现方式中，上述意图识别模块410，具体用于：确定是否存在与对话信息匹配的规则；如果确定存在与对话信息匹配的规则，获取匹配的规则对应的意图作为第一用户意图。

在一种可能的实现方式中，上述意图识别模块410包括智能模型，意图识别模块，具体用于：确定是否存在与对话信息匹配的规则；如果确定不存在与对话信息匹配的规则，将对话信息输入智能模型，以获得第一用户意图。

在一种可能的实现方式中，上述标签生成模块430，具体用于：根据第一用户意图对应的多模态信息确定用户对第一用户意图的情绪是否积极；在确定用户对第一用户意图的情绪积极的情况下，确定第一用户意图正确。

在一种可能的实现方式中，上述标签生成模块430，具体用于：统计第一用户意图对应的多模态信息中出现对话信息的部分或全部的次数；在次数小于或者等于预设次数阈值的情况下，确定第一用户意图正确。

具体地，上述标签生成装置400执行各种操作的具体实现可参照上述标签生成方法实施例中相关内容中的描述，为了说明书的简洁，这里不再赘述。

应当理解，标签生成装置400仅为本申请实施例提供的一个例子，并且，标签生成装置400可具有比图7示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

本申请实施例还提供一种标签生成设备，参见图8，图8是本申请实施例提供的一种标签生成设备500的结构示意图，该标签生成设备500包括：处理器510、通信接口530以及存储器520，其中，处理器510、通信接口530和存储器520通过总线540进行耦合。其中，

处理器510可以包括一个或者多个通用处理器，其中，通用处理器可以是能够处理电子指令的任何类型的设备，包括中央处理器(central processing unit，CPU)、微处理器、微控制器、主处理器、控制器以及专用集成电路(application specific integratedcircuit，ASIC)等等。处理器510读取存储器520中存储的程序代码，与通信接口530配合执行本申请上述实施例中由标签生成装置400执行的方法的部分或者全部步骤。

通信接口530可以为有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口)，用于与其他计算节点或装置进行通信。当通信接口530为有线接口时，通信接口530可以采用传输控制协议/网际协议(transmission control protocol/internet protocol，TCP/IP)之上的协议族，例如，远程函数调用(remote function call，RFC)协议、简单对象访问协议(simple object access protocol，SOAP)协议、简单网络管理协议(simple network management protocol，SNMP)协议、公共对象请求代理体系结构(common object request broker architecture，CORBA)协议以及分布式协议等等。

存储器520可以存储有程序代码以及程序数据。其中，程序代码包括：意图识别模块410的代码、获取模块420的代码和标签生成模块430的代码等，程序数据包括：用户输入的对话信息、第一用户意图、第一用户意图对应的多模态信息和对话信息对应的标签等等。在实际应用中，存储器520可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)、快闪存储器(flash memory)、硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)存储器还可以包括上述种类的存储器的组合。

总线540可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。总线540可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

应当理解，标签生成设备500仅为本申请实施例提供的一个例子，并且，标签生成设备500可具有比图8示出的部件更多或更少的部件，可以组合两个或更多个部件，或者可具有部件的不同配置实现。

本申请实施例还提供一种非瞬态计算机存储介质，所述计算机存储介质中存储有指令，当其在处理器上运行时，可以实现上述方法实施例中的方法步骤，所述计算机存储介质的处理器在执行上述方法步骤的具体实现可参照上述方法实施例的具体操作，在此不再赘述。

本申请实施例还提供一种计算机程序产品，当计算机程序产品被计算机读取并执行时，以实现上述方法实施例中的方法步骤，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如数字通用光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state drive，SSD))等。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并或删减；本申请实施例装置中的模块可以根据实际需要进行划分、合并或删减。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种标签生成方法，其特征在于，所述方法包括：

获取所述第一用户意图对应的多模态信息；

2.根据权利要求1所述的方法，其特征在于，所述第一用户意图对应的多模态信息包括以下任意一种或多种：用户的动作信息、用户的表情信息、用户发出的语音信息、用户输入的文字信息。

3.根据权利要求1或2所述的方法，其特征在于，所述对话信息和所述对话信息的标签作为正样本用于所述意图识别模块的训练。

4.根据权利要求1至3任一项所述的方法，其特征在于，在确定所述第一用户意图不正确的情况下，向所述用户反馈所述第二用户意图，其中，所述第一用户意图的置信度高于所述第二用户意图；

获取所述第二用户意图对应的多模态信息；

5.根据权利要求1至4任一项所述的方法，其特征在于，所述通过意图识别模块确定所述对话信息的第一用户意图，包括：

6.根据权利要求至1至4任一项所述的方法，其特征在于，所述通过意图识别模块确定所述对话信息的第一用户意图，包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述第一用户意图对应的多模态信息确定所述第一用户意图是否正确，包括：

8.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述第一用户意图对应的多模态信息确定所述第一用户意图是否正确，包括：

9.一种标签生成装置，其特征在于，所述装置包括：

获取模块，用于获取所述第一用户意图对应的多模态信息；

10.根据权利要求9所述的装置，其特征在于，所述第一用户意图对应的多模态信息包括以下任意一种或多种：用户的动作信息、用户的表情信息、用户发出的语音信息、用户输入的文字信息。

11.根据权利要求9或10所述的装置，其特征在于，所述对话信息和所述对话信息的标签作为正样本用于所述意图识别模块的训练。

12.根据权利要求9至11任一项所述的装置，其特征在于，所述标签生成模块，还用于：

获取所述第二用户意图对应的多模态信息；

13.根据权利要求9至12任一项所述的装置，其特征在于，所述意图识别模块，具体用于：

确定是否存在与所述对话信息匹配的规则；

14.根据权利要求至9至12任一项所述的装置，其特征在于，所述意图识别模块包括智能模型，所述意图识别模块，具体用于：

确定是否存在与所述对话信息匹配的规则；

15.根据权利要求9至14任一项所述的装置，其特征在于，所述标签生成模块，具体用于：

16.根据权利要求9至14任一项所述的装置，其特征在于，所述标签生成模块，具体用于：

17.一种标签生成设备，其特征在于，包括：处理器、通信接口以及存储器；所述存储器用于存储指令，所述处理器用于执行所述指令，所述通信接口用于接收或者发送数据；其中，所述处理器执行所述指令时执行如权利要求1至8任一权利要求所述的方法。

18.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一权利要求所述的方法。