CN115617975A

CN115617975A - 针对少样本多轮对话的意图识别方法及装置

Info

Publication number: CN115617975A
Application number: CN202211637205.1A
Authority: CN
Inventors: 安业腾; 赵伟; 陈曦; 刘芳; 张烁; 杨睿; 张宇萌; 徐胤; 徐李阳; 赵文华
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-01-17
Anticipated expiration: 2042-12-20
Also published as: CN115617975B

Abstract

本发明公开了一种针对少样本多轮对话的意图识别方法及装置，方法包括：在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取当前意图标签的历史对话数据后与待处理描述文本输入预先训练的意图切换模型中，输出待处理描述文本对应的第一相关度；预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；当第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；基于每个历史意图标签的第二相关度将当前意图标签进行切换。本申请实现了问答系统中每轮对话都能在最合理的意图下进行，同时可在多个意图中基于输入文本随机切换，实现智能问答。

Description

针对少样本多轮对话的意图识别方法及装置

技术领域

本发明涉及机器学习技术领域，特别涉及一种针对少样本多轮对话的意图识别方法及装置。

背景技术

问答系统是信息检索系统的一种高级形式，它能用准确、简洁的自然语言回答用户用自然语言提出的问题常见的对话系统可分为闲聊型、问答型和任务型。闲聊型不关注某项特定任务，主要任务是与人进行开放领域的对话，关注点是生成流畅、合理且自然的回复；问答型侧重一问一答，根据用户的问题给出精确答案；任务型帮助用户完成某项任务指令，需要通过多轮交互来不断收集任务所需的必要信息，进而根据信息进行决策，执行不同的动作。

目前在任务型的多轮对话中，如果对话过程存在意图嵌套、意图穿插、意图跳转等问题，通常会采用逐级进入和返回的方式进行意图管理，这种方式没有很好地利用历史对话信息，无法实现意图的灵活跳转，会造成无法切入到正确意图、无法充分利用该意图之前的对话信息，造成后续对话中命中之前意图不能在此基础上继续进行，从而降低了问答系统的对话效率。

发明内容

本申请实施例提供了一种针对少样本多轮对话的意图识别方法及装置。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键／重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

第一方面，本申请实施例提供了一种针对少样本多轮对话的意图识别方法，方法包括：

在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取当前意图标签的历史对话数据；

将待处理描述文本与当前意图标签的历史对话数据输入预先训练的意图切换模型中，输出待处理描述文本对应的第一相关度；其中，所述预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；

当第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；

基于每个历史意图标签的第二相关度将当前意图标签进行切换。

可选的，预先训练的意图切换模型至少包括双向长短期记忆网络、全连接层以及Sigmoid激活函数；

计算每个历史意图标签的第二相关度，包括：

利用双向长短期记忆网络对每个历史意图标签的历史对话数据和待处理描述文本进行编码，并结合注意力机制进行逐层级的上下文学习，得到最终上下文表示；

将最终上下文表示输入全连接层进行处理，并将处理后的结果输入到Sigmoid激活函数中，得到每个历史意图标签的第二相关度。

可选的，基于每个历史意图标签的第二相关度将当前意图标签进行切换，包括：

根据预设过滤阈值将每个历史意图标签的第二相关度进行过滤，并将过滤后剩余的第二相关度进行排序，得到多个第三相关度；

当多个第三相关度中存在一个大于预设阈值的第三相关度时，将当前意图标签切换至大于预设阈值的第三相关度对应的历史意图标签；或者，

当多个第三相关度中存在至少两个大于预设阈值的第三相关度时，根据至少两个大于预设阈值的第三相关度的历史意图标签构建候选意图列表；

将候选意图列表进行展示；

当接收针对展示的候选意图列表的选择指令时，基于选择指令在候选意图列表中确定出目标意图标签；

将当前意图标签切换至目标意图标签。

可选的，按照以下步骤生成预先训练的意图切换模型，包括：

构建意图切换模型；

根据少样本的历史问答数据对意图切换模型进行训练，训练结束后得到第一阶段意图切换模型；

对少样本的历史问答数据进行数据增强处理，得到EDA增强数据；

根据少样本的历史问答数据和EDA增强数据对第一阶段意图切换模型进行训练，训练结束后得到第二阶段意图切换模型；

采用主动学习方式对第二阶段意图切换模型进行训练，训练结束后得到预先训练的意图切换模型。

可选的，第一阶段意图切换模型至少包括双向长短期记忆网络、全连接层、归一化函数以及Sigmoid激活函数；

根据少样本的历史问答数据和EDA增强数据对第一阶段意图切换模型进行训练，训练结束后得到第二阶段意图切换模型，包括：

将所述少样本的历史问答数据和EDA增强数据中每个句子进行分词处理，得到每个句子的多个词汇；

将每个句子的每个词汇映射为固定维度的向量，得到每个句子的向量序列；

根据双向长短期记忆网络以及全连接层对每个句子的向量序列进行处理，得到每个句子的句子表示；

根据双向长短期记忆网络以及全连接层对每个句子的句子表示进行处理，得到EDA增强数据的对话上下文表示；

根据EDA增强数据的对话上下文表示以及Sigmoid激活函数，生成交叉熵损失值；

当交叉熵损失值到达最小时，生成第二阶段意图切换模型。

可选的，根据双向长短期记忆网络以及全连接层对每个句子的向量序列进行处理，得到每个句子的句子表示，包括：

将每个句子的向量序列通过双向长短期记忆网络进行编码，得到每个句子中各词汇的前向和后向的隐层状态；

将各词汇的前向和后向的隐层状态进行拼接，得到各词汇的隐层输出；

将各词汇的隐层输出输入全连接层中，得到各词汇的隐含输出；

将各词汇的隐含输出和随机初始化的预设上下文向量进行相似度计算，得到各词汇的相似度；

通过归一化函数将各词汇的相似度进行归一化处理，得到每个句子中各词汇的重要程度；

基于每个句子中各词汇的重要程度计算每个句子的句子表示。

可选的，根据EDA增强数据的对话上下文表示以及Sigmoid激活函数，生成交叉熵损失值，包括：

将EDA增强数据的对话上下文表示经过全连接层进行处理，得到样本数据处理结果；

将样本数据处理结果输入Sigmoid激活函数中计算EDA增强数据和自身携带的多个预设意图标签之间的相关度；

根据EDA增强数据和自身携带的多个预设意图标签之间的相关度计算交叉熵损失值。

第二方面，本申请实施例提供了一种针对少样本多轮对话的意图识别装置，装置包括：

历史对话数据获取模块，用于在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取当前意图标签的历史对话数据；

第一相关度计算模块，用于将待处理描述文本与当前意图标签的历史对话数据输入预先训练的意图切换模型中，输出待处理描述文本对应的第一相关度；其中，所述预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；

第二相关度计算模块，用于当第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；

意图标签切换模块，用于基于每个历史意图标签的第二相关度将当前意图标签进行切换。

本申请实施例提供的技术方案可以包括以下有益效果：

在本申请实施例中，针对少样本多轮对话的意图识别装置在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取当前意图标签的历史对话数据后与待处理描述文本输入预先训练的意图切换模型中，输出待处理描述文本对应的第一相关度；其中，所述预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；当第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；基于每个历史意图标签的第二相关度将当前意图标签进行切换。由于本申请通过计算待处理描述文本与每个意图标签之间的相关度，通过相关度可确定出待处理描述文本的最优意图标签进行切换，实现了问答系统中每轮对话都能在最合理的意图下进行，同时可在多个意图中基于输入文本随机切换，实现智能问答，从而提升了对话效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本申请实施例提供的一种针对少样本多轮对话的意图识别方法的流程示意图；

图2是本申请实施例提供的一种意图切换过程的过程示意框图；

图3是本申请实施例提供的一种意图切换模型的模型训练方法的流程示意框图；

图4是本申请实施例提供的一种意图切换模型的模型结构图；

图5是本申请实施例提供的一种意图切换模型的模型训练过程的过程示意框图；

图6是本申请实施例提供的一种针对少样本多轮对话的意图识别装置的结构示意图；

图7是本申请实施例提供的一种终端的结构示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请提供了一种针对少样本多轮对话的意图识别方法及装置，以解决上述相关技术问题中存在的问题。本申请提供的技术方案中，由于本申请通过计算待处理描述文本与每个意图标签之间的相关度，通过相关度可确定出待处理描述文本的最优意图标签进行切换，实现了问答系统中每轮对话都能在最合理的意图下进行，同时可在多个意图中基于输入文本随机切换，实现智能问答，从而提升了对话效率，下面采用示例性的实施例进行详细说明。

下面将结合附图1-附图5，对本申请实施例提供的针对少样本多轮对话的意图识别方法进行详细介绍。该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的针对少样本多轮对话的意图识别装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

请参见图1，为本申请实施例提供了一种针对少样本多轮对话的意图识别方法的流程示意图。如图1所示，本申请实施例的方法可以包括以下步骤：

S101，在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取当前意图标签的历史对话数据；

其中，客户端是安装了智能问答系统的设备，例如问答机器人。待处理描述文本为输入到设备的用户问题，该待处理描述文本可以是用户编辑输入的，也可以是基于用户的语音进行转换的。意图标签是设置在设备中的意图标识符。

在一种可能的实现方式中，用户针对问答机器人输入待处理描述文本，问答机器人在接收到针对客户端输入的待处理描述文本时，判断是否存在当前意图标签。若存在，则说明目前存在历史对话，则需要获取当前意图标签的历史对话数据；若不存在，则说明目前才刚开始对话，此时需要识别待处理描述文本的意图，当识别成功时，当前意图为识别的意图，当识别失败时，进入闲聊模式。

S102，将待处理描述文本与当前意图标签的历史对话数据输入预先训练的意图切换模型中，输出待处理描述文本对应的第一相关度；其中，所述预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；

在本申请实施例中，在获取到当前意图标签的历史对话数据后，可将待处理描述文本与当前意图标签的历史对话数据输入预先训练的意图切换模型中，根据该模型计算待处理描述文本与当前意图标签之间的相关度，并将计算的相关度作为第一相关度进行输出，得到待处理描述文本对应的第一相关度。

S103，当第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；

其中，预先训练的意图切换模型至少包括双向长短期记忆网络、全连接层以及Sigmoid激活函数。

在一种可能的实现方式中，在得到第一相关度后，可判断第一相关度是否大于预设阈值，若大于预设阈值，则说明当前输入的待处理描述文本还是属于当前意图标签下的对话，此时将当前意图标签确定为待处理描述文本的意图标签。若第一相关度小于等于预设阈值，则说明当前输入的待处理描述文本不属于当前意图标签下的对话，此时判断是否存在多个历史意图标签，

若不存在多个历史意图标签，则识别待处理描述文本的意图，当识别成功时，当前意图为识别的意图，当识别失败时，进入闲聊模式。若存在多个历史意图标签，则计算每个历史意图标签的第二相关度。

具体的，预先训练的意图切换模型至少包括双向长短期记忆网络、全连接层以及 Sigmoid激活函数。在计算每个历史意图标签的第二相关度时，首先利用双向长短期记忆网络对每个历史意图标签的历史对话数据和待处理描述文本进行编码，并结合注意力机制进行逐层级的上下文学习，得到最终上下文表示v，然后将最终上下文表示v输入全连接层进行处理，并将处理后的结果输入到Sigmoid激活函数中，得到每个历史意图标签的第二相关度

。

S104，基于每个历史意图标签的第二相关度将当前意图标签进行切换。

在本申请实施例中，得到每个历史意图标签的第二相关度c后，可根据预置的阈值进行判断，如果大于等于阈值，则维持当前意图，否则进行意图切换。

在一种可能的实现方式中，在基于每个历史意图标签的第二相关度将当前意图标签进行切换时，首先根据预设过滤阈值将每个历史意图标签的第二相关度进行过滤，并将过滤后剩余的第二相关度进行排序，得到多个第三相关度；当多个第三相关度中存在一个大于预设阈值的第三相关度时，说明用户的意图又重新回到了历史意图标签中，此时将当前意图标签切换至大于预设阈值的第三相关度对应的历史意图标签；或者，当多个第三相关度中存在至少两个大于预设阈值的第三相关度时，说明用户的意图在多个历史意图中，此时根据至少两个大于预设阈值的第三相关度的历史意图标签构建候选意图列表；将候选意图列表进行展示，以提供给用户进行选择；当接收针对展示的候选意图列表的选择指令时，基于选择指令在候选意图列表中确定出目标意图标签；将当前意图标签切换至目标意图标签。

需要说明的是，在多轮对话过程中，同时进行多个意图的管理时，以用户ID为关键词，维护用户的整个对话；对某个用户的对话，以意图ID为关键词，维护意图的对话状态；对某个用户的某个意图，以槽位ID为关键词，维护槽位的对话状态；对槽位设置提问次数，超出一定次数没得到有效槽值则终止该意图；对意图设置对话时长，超过一定时间没得到应答则终止该意图。

例如图2所示，图2是本申请提供的一种意图切换流程的流程示意框图，该流程步骤如下：

（1）对用户输入的描述文本，判断是否有正在进行的意图，如果没有则执行步骤（2），否则执行步骤（4）；

（2）针对输入的描述文本进行意图识别，如果识别到新的意图，则执行步骤（3），否则进入闲聊模式；

（3）多意图管理更新，当前意图切换到新意图，执行步骤（9）；

（4）计算用户输入与当前意图的相关度，如果大于等于阈值，保持当前意图，执行步骤（9），否则执行步骤（5）；

（5）判断是否还有其他正在进行的意图，如果没有，执行步骤（2），否则执行步骤（6）；

（6）计算用户输入与其他意图的相关度，如果其他意图的相关度都小于阈值，执行步骤（2），否则执行步骤（7）；

（7）判断是否只有一个其他意图的相关度大于等于阈值，如果是，则将当前意图切换到该意图，执行步骤（9），否则，执行步骤（8）；

（8）给出候选意图，接收用户选择并将当前意图切换到用户选择的其他意图；

（9）根据当前对话状态返回系统输出。

请参见图3，为本申请实施例提供了一种意图切换模型训练的流程示意图。如图3所示，本申请实施例的方法可以包括以下步骤：

S201，构建意图切换模型；

其中，意图切换模型是基于层次注意力机制的模型。

S202，根据少样本的历史问答数据对意图切换模型进行训练，训练结束后得到第一阶段意图切换模型；

其中，意图切换模型至少包括双向长短期记忆网络、全连接层、归一化函数以及Sigmoid激活函数。

在本申请实施例中，首先获取一段时间的少量样本对话数据，然后对少量样本对话数据进行意图标签标注，得到少样本的历史问答数据，再将少样本的历史问答数据输入意图切换模型中进行训练，输出模型损失值，当模型损失值到达最小时，得到第一阶段意图切换模型。

S203，对少样本的历史问答数据进行数据增强处理，得到EDA增强数据；

在本申请实施例中，采用EDA数据增强技术对少样本的历史问答数据进行扩充，可得到EDA增强数据。数据增强的主要方式包括：同义词替换(Synonym Replacement, SR)：从句子中随机选取n个不属于停用词集的单词，并随机选择其同义词替换它们；随机插入(Random Insertion, RI)：随机找出句中某个不属于停用词集的词，并求出其随机的同义词，将该同义词插入句子的一个随机位置。重复n次；随机交换(Random Swap, RS)：随机选择句中两个单词并交换它们的位置。重复n次；随机删除(Random Deletion, RD)：以一定概率，随机移除句中的每个单词。

例如，在电力客服领域中的任务型对话的实际业务中，可能面临查电费后，还想要充电费的意图切换场景。例如少样本的历史问答数据中某句话为：“好的。再帮我充100块钱电费”，经过EDA数据增强处理后得到以下表述内容：

“好的。再帮我充100块钱电费。”、“好的。再帮我充100块钱用电费用。”、“好的。再帮我交100块钱电费。”、“好的。再帮我充100元电费。”、“好的。再帮我充电费100块钱。”、“好的。再充100块钱电费。”、“好的。再帮我充100块钱电表电费。”、“好的。再充100块钱电费。”、“好的。再帮我充100电费。

S204，根据少样本的历史问答数据和EDA增强数据对第一阶段意图切换模型进行训练，训练结束后得到第二阶段意图切换模型；

其中，第一阶段意图切换模型至少包括双向长短期记忆网络、全连接层、归一化函数以及Sigmoid激活函数。

在本申请实施例中，在根据少样本的历史问答数据和EDA增强数据对第一阶段意图切换模型进行训练，训练结束后得到第二阶段意图切换模型时，首先将所述少样本的历史问答数据和EDA增强数据中每个句子进行分词处理，得到每个句子的多个词汇，再将每个句子的每个词汇映射为固定维度的向量，得到每个句子的向量序列，然后根据双向长短期记忆网络以及全连接层对每个句子的向量序列进行处理，得到每个句子的句子表示，其次根据双向长短期记忆网络以及全连接层对每个句子的句子表示进行处理，得到EDA增强数据的对话上下文表示，再根据EDA增强数据的对话上下文表示以及Sigmoid激活函数，生成交叉熵损失值，最后当交叉熵损失值到达最小时，生成第二阶段意图切换模型。

例如，EDA增强数据中句子序列表示为：

，每个句子的向量序列可表示为：

。在映射为固定维度的向量时可根据中文大规模词向量或BERT将每个词映射为固定维度的向量，其中包含每个词的语义信息。

具体的，在根据双向长短期记忆网络以及全连接层对每个句子的向量序列进行处理，得到每个句子的句子表示时，首先将每个句子的向量序列通过双向长短期记忆网络进行编码，得到每个句子中各词汇的前向和后向的隐层状态，再将各词汇的前向和后向的隐层状态进行拼接，得到各词汇的隐层输出，然后将各词汇的隐层输出输入全连接层中，得到各词汇的隐含输出，再将各词汇的隐含输出和随机初始化的预设上下文向量进行相似度计算，得到各词汇的相似度，其次通过归一化函数将各词汇的相似度进行归一化处理，得到每个句子中各词汇的重要程度，最后基于每个句子中各词汇的重要程度计算每个句子的句子表示。

例如图4所示，在得到每个句子的向量序列后，将每个句子的向量序列中各词汇的向量通过双向长短期记忆网络LSTM进行编码，以获取句子中前向和后向的所有信息，将前向和后向的隐层状态进行拼接，得到各词汇的隐层输出为：

，然后将各词汇的隐层输出输入全连接层中，得到各词汇的隐含输出为：

，

为线性变换矩阵，

为偏移量；将各词汇的隐含输出与一个随机初始化的上下文向量

进行相似度计算，通过softmax操作得到归一化的权重，以此确定句子中每个词的重要程度：

，

是单词级别衡量相似度的上下文向量，

为转置操作，最后基于每个句子中各词汇的重要程度计算每个句子的句子表示为：

。

进一步地，根据双向长短期记忆网络以及全连接层对每个句子的句子表示进行处理，得到EDA增强数据的对话上下文表示时，通过

可计算出句子的隐层输出，通过

可得到句子的隐含输出，

和

分别是句子级别的对隐藏输出的线性变换和偏置量，通过

可计算出对话的上下文中每个句子的重要程度，

是句子级别衡量相似度的上下文向量，最后通过

，即对每个句子的隐层输出进行加权求和，可得到EDA增强数据的对话上下文表示v。

为每个句子的隐层输出对应的权重。

具体的，在根据EDA增强数据的对话上下文表示v以及Sigmoid激活函数，生成交叉熵损失值时，首先将EDA增强数据的对话上下文表示经过全连接层进行处理，得到样本数据处理结果，然后将样本数据处理结果输入Sigmoid激活函数中计算EDA增强数据和自身携带的多个预设意图标签之间的相关度，最后根据EDA增强数据和自身携带的多个预设意图标签之间的相关度计算交叉熵损失值。

S205，采用主动学习方式对第二阶段意图切换模型进行训练，训练结束后得到预先训练的意图切换模型。

在本申请实施例中，采用主动学习方式对第二阶段意图切换模型进行训练，训练结束后得到预先训练的意图切换模型。

例如图5所示，本申请模型训练过程分为3个阶段，在第一阶段经过原始数据训练结束后，经过由原始数据以及EDA增强数据第一阶段训练后的意图切换模型再次训练，直至达到指定的二次迭代次数时，采用主动学习策略，开始模型的第三阶段训练, 当模型完成指定迭代次数后, 整个训练过程结束。

具体的，主动学习阶段的训练过程为：在得到第二阶段意图切换模型后，该模型被用于对未标注样本实例进行分类，选择分类结果中置信度最高的样本加入到训练集中。同时，利用主动学习选择不确定性最高的样本(即分类置信度最低的样本)，这类样本所包含的信息量最为丰富，因而对修正分类器模型最有帮助。通过人工对这部分样本进行手工标注，然后将标注的样本加入到训练集中。在下一次迭代过程中，利用扩展的训练数据集训练意图切换模型，经过多次迭代直到终止条件满足后停止，得到预先训练的意图切换模型，并保存该模型用于最终预测，该过程能够在保证模型准确率的基础上极大地减少人工标注的成本。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

请参见图6，其示出了本发明一个示例性实施例提供的针对少样本多轮对话的意图识别装置的结构示意图。该针对少样本多轮对话的意图识别装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括历史对话数据获取模块10、第一相关度计算模块20、第二相关度计算模块30、意图标签切换模块40。

历史对话数据获取模块10，用于在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取当前意图标签的历史对话数据；

第一相关度计算模块20，用于将待处理描述文本与当前意图标签的历史对话数据输入预先训练的意图切换模型中，输出待处理描述文本对应的第一相关度；其中，所述预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；

第二相关度计算模块30，用于当第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；

意图标签切换模块40，用于基于每个历史意图标签的第二相关度将当前意图标签进行切换。

需要说明的是，上述实施例提供的针对少样本多轮对话的意图识别装置在执行针对少样本多轮对话的意图识别方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的针对少样本多轮对话的意图识别装置与针对少样本多轮对话的意图识别方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本发明还提供一种计算机可读介质，其上存储有程序指令，该程序指令被处理器执行时实现上述各个方法实施例提供的针对少样本多轮对话的意图识别方法。

本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个方法实施例的针对少样本多轮对话的意图识别方法。

请参见图7，为本申请实施例提供了一种终端的结构示意图。如图7所示，终端1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏（Display）、摄像头（Camera），可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理（Digital Signal Processing，DSP）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）、可编程逻辑阵列（Programmable Logic Array，PLA）中的至少一种硬件形式来实现。处理器1001可集成中央处理器（Central Processing Unit，CPU）、图像处理器（Graphics Processing Unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器（Random Access Memory，RAM），也可以包括只读存储器（Read-Only Memory）。可选的，该存储器1005包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令（比如触控功能、声音播放功能、图像播放功能等）、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及意图切换应用程序。

在图7所示的终端1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的意图切换应用程序，并具体执行以下操作：

在一个实施例中，处理器1001在执行计算每个历史意图标签的第二相关度时，具体执行以下操作：

在一个实施例中，处理器1001在执行基于每个历史意图标签的第二相关度将当前意图标签进行切换时，具体执行以下操作：

将候选意图列表进行展示；

将当前意图标签切换至目标意图标签。

在一个实施例中，处理器1001还执行以下操作：

构建意图切换模型；

在一个实施例中，处理器1001在执行根据少样本的历史问答数据和EDA增强数据对第一阶段意图切换模型进行训练，训练结束后得到第二阶段意图切换模型时，具体执行以下操作：

当交叉熵损失值到达最小时，生成第二阶段意图切换模型。

在一个实施例中，处理器1001在执行根据双向长短期记忆网络以及全连接层对每个句子的向量序列进行处理，得到每个句子的句子表示时，具体执行以下操作：

在一个实施例中，处理器1001在执行根据EDA增强数据的对话上下文表示以及Sigmoid激活函数，生成交叉熵损失值时，具体执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，意图切换的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，意图切换的程序的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种针对少样本多轮对话的意图识别方法，其特征在于，所述方法包括：

在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取所述当前意图标签的历史对话数据；

将所述待处理描述文本与所述当前意图标签的历史对话数据输入预先训练的意图切换模型中，输出所述待处理描述文本对应的第一相关度；其中，所述预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；

当所述第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；

基于所述每个历史意图标签的第二相关度将所述当前意图标签进行切换。

2.根据权利要求1所述的方法，其特征在于，所述预先训练的意图切换模型至少包括双向长短期记忆网络、全连接层以及Sigmoid激活函数；

所述计算每个历史意图标签的第二相关度，包括：

利用所述双向长短期记忆网络对所述每个历史意图标签的历史对话数据和所述待处理描述文本进行编码，并结合注意力机制进行逐层级的上下文学习，得到最终上下文表示；

将所述最终上下文表示输入所述全连接层进行处理，并将处理后的结果输入到所述Sigmoid激活函数中，得到每个历史意图标签的第二相关度。

3.根据权利要求1所述的方法，其特征在于，所述基于所述每个历史意图标签的第二相关度将所述当前意图标签进行切换，包括：

根据预设过滤阈值将所述每个历史意图标签的第二相关度进行过滤，并将过滤后剩余的第二相关度进行排序，得到多个第三相关度；

当所述多个第三相关度中存在一个大于预设阈值的第三相关度时，将所述当前意图标签切换至大于预设阈值的第三相关度对应的历史意图标签；或者，

当所述多个第三相关度中存在至少两个大于预设阈值的第三相关度时，根据至少两个大于预设阈值的第三相关度的历史意图标签构建候选意图列表；

将所述候选意图列表进行展示；

当接收针对展示的候选意图列表的选择指令时，基于所述选择指令在所述候选意图列表中确定出目标意图标签；

将所述当前意图标签切换至所述目标意图标签。

4.根据权利要求1所述的方法，其特征在于，按照以下步骤生成预先训练的意图切换模型，包括：

构建意图切换模型；

根据少样本的历史问答数据对所述意图切换模型进行训练，训练结束后得到第一阶段意图切换模型；

对所述少样本的历史问答数据进行数据增强处理，得到EDA增强数据；

根据所述少样本的历史问答数据和EDA增强数据对所述第一阶段意图切换模型进行训练，训练结束后得到第二阶段意图切换模型；

采用主动学习方式对所述第二阶段意图切换模型进行训练，训练结束后得到预先训练的意图切换模型。

5.根据权利要求4所述的方法，其特征在于，所述第一阶段意图切换模型至少包括双向长短期记忆网络、全连接层、归一化函数以及Sigmoid激活函数；

所述根据所述少样本的历史问答数据和EDA增强数据对所述第一阶段意图切换模型进行训练，训练结束后得到第二阶段意图切换模型，包括：

根据所述双向长短期记忆网络以及全连接层对每个句子的向量序列进行处理，得到每个句子的句子表示；

根据所述双向长短期记忆网络以及全连接层对每个句子的句子表示进行处理，得到EDA增强数据的对话上下文表示；

根据所述EDA增强数据的对话上下文表示以及所述Sigmoid激活函数，生成交叉熵损失值；

当所述交叉熵损失值到达最小时，生成第二阶段意图切换模型。

6.根据权利要求5所述的方法，其特征在于，所述根据所述双向长短期记忆网络以及全连接层对每个句子的向量序列进行处理，得到每个句子的句子表示，包括：

将所述每个句子的向量序列通过所述双向长短期记忆网络进行编码，得到每个句子中各词汇的前向和后向的隐层状态；

将所述各词汇的前向和后向的隐层状态进行拼接，得到各词汇的隐层输出；

将各词汇的隐层输出输入所述全连接层中，得到各词汇的隐含输出；

通过所述归一化函数将各词汇的相似度进行归一化处理，得到每个句子中各词汇的重要程度；

7.根据权利要求5所述的方法，其特征在于，所述根据所述EDA增强数据的对话上下文表示以及所述Sigmoid激活函数，生成交叉熵损失值，包括：

将所述EDA增强数据的对话上下文表示经过所述全连接层进行处理，得到样本数据处理结果；

将所述样本数据处理结果输入所述Sigmoid激活函数中计算所述EDA增强数据和自身携带的多个预设意图标签之间的相关度；

根据所述EDA增强数据和自身携带的多个预设意图标签之间的相关度计算交叉熵损失值。

8.一种针对少样本多轮对话的意图识别装置，其特征在于，所述装置包括：

历史对话数据获取模块，用于在接收到针对客户端输入的待处理描述文本且存在当前意图标签时，获取所述当前意图标签的历史对话数据；

第一相关度计算模块，用于将所述待处理描述文本与所述当前意图标签的历史对话数据输入预先训练的意图切换模型中，输出所述待处理描述文本对应的第一相关度；其中，所述预先训练的意图切换模型是基于少样本的历史问答数据训练生成的；

第二相关度计算模块，用于当所述第一相关度小于等于预设阈值且存在多个历史意图标签时，计算每个历史意图标签的第二相关度；

意图标签切换模块，用于基于所述每个历史意图标签的第二相关度将所述当前意图标签进行切换。