CN112100368A

CN112100368A - 对话交互意图的识别方法和装置

Info

Publication number: CN112100368A
Application number: CN202010704472.0A
Authority: CN
Inventors: 杨志明
Original assignee: Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd
Current assignee: Deep Thinking Of Artificial Intelligence Technology Shanghai Co ltd
Priority date: 2020-07-21
Filing date: 2020-07-21
Publication date: 2020-12-18
Anticipated expiration: 2040-07-21
Also published as: CN112100368B

Abstract

本申请公开了一种对话交互意图的识别方法和装置，其中方法包括：对于首轮对话语句，利用预设的多分类模型，对该轮对话语句所属的垂直领域进行识别；对于除所述首轮对话语句之外的每轮对话语句，利用预设的上一轮对话语句所属垂直领域对应的二分类模型，判断该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域，如果不是，则利用所述多分类模型，对该轮对话语句所属的垂直领域进行识别；其中，所述二分类模型利用属于相应垂直领域的语料和不属于相应垂直领域的语料训练得到，且所述语料包括不完整语句。本申请易于实现，且可以提高识别效率和用户体验。

Description

对话交互意图的识别方法和装置

技术领域

本发明涉及人工智能技术，特别是涉及一种对话交互意图的识别方法和装置。

背景技术

随着人工智能技术的快速发展，人机对话技术近年来受到学术界和工业界的广泛关注。各种各样的智能机器人层出不穷，已经在医疗、军事、汽车、商业等领域获得了成功的应用，并逐渐对我们的生活产生重大影响。典型的智能对话交互机器人框架都是分模块串行处理对话任务的，每个模块负责特定的任务，并将生成的结果传递给下一个模块。图1为现有的面向任务的对话系统框架示意图，如1所示，整个交互框架通常由自然语言理解(Natural Language Understanding,NLU),对话状态跟踪(Dialogue State Tracking,DST),对话策略学习(Dialogue Policy Learning，DPL)，自然语言生成(NaturalLanguage Generation，NLG)四个部分构成。

人机对话系统的一个关键任务就是：如何让聊天机器人理解用户的问句意图、将用户的输入正确地分类到相应的领域中。该任务的实现将直接影响特定领域的人机对话质量。因此，图1中的NLU模块是整个人机交互过程中比较核心的部分，该模块的主要任务就是把用户输入的自然语言语句映射成为机器可读的结构化语义表述，这种结构化的语义表述通常包含两部分内容，一部分是获取用户的意图，另一部分是提取自然语言问句的槽值。自然语言理解是人工智能的AI-Hard问题，也是当前智能交互的核心难题，因为机器要理解用户的自然语言问句，要面临语言的多样性、多义性、知识依赖和上下文依赖等诸多挑战。

发明人在实现本发明的过程中发现，上述现有针对多轮对话的对话意图识别方案存在实现复杂，效率低以及对用户参与的依赖性强等问题。具体分析如下：

在现有的对话意图识别方案中，需要预先针对意图不完整问句单独设置一类(比如select类)，然后，将该类语句作为语料，进行多标签分类模型训练，得到一个多标签分类模型。在人机对话过程中，如果会话过程中存在属于上述不完整问句所在类的问句，为了明确这些问句具体属于哪个垂直领域，首先，通过多标签分类模型获得多个标签指示的多个可能的垂直领域，然后，再利用上下文信息决策当前问句的垂直领域，如果利用上下文还不能够明确问句属于哪个垂直领域，就需要再与用户进行新一轮的交互，在交互中通过反问用户，再基于用户的回答进行垂直领域的识别，如果基于该轮回答还不能明确问句属于哪个垂直领域，将会再触发新一轮的交互。

可见，上述对话意图方案是基于预设的多标签分类模型进行识别的。而利用多标签分类模型所识别出的是多个可能的垂直领域，并不是一个明确的垂直领域，之后，还需要从这些多个可能的垂直领域中，确认出不完整自然语言问句真正所属的垂直领域，此时，需要再利用上下文进行决策，极端情况下还需要一轮一轮地向用户询问。因此，上述现有的对话意图方案需要结合上下文决策、与用户交互等手段，实现复杂。另外，与用户之间的交互确认，一方面会增加处理时延，另一方面，增加了用户的对话轮数，从而降低了用户体验。

发明内容

有鉴于此，本发明的主要目的在于提供一种对话交互意图的识别方法和装置，该方法易于实现，且可以提高识别效率和用户体验。

为了达到上述目的，本发明提出的技术方案为：

一种对话交互意图的识别方法，包括：

对于首轮对话语句，利用预设的多分类模型，对该轮对话语句所属的垂直领域进行识别；

对于除所述首轮对话语句之外的每轮对话语句，利用预设的上一轮对话语句所属垂直领域对应的二分类模型，判断该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域，如果不是，则利用所述多分类模型，对该轮对话语句所属的垂直领域进行识别；其中，所述二分类模型利用属于相应垂直领域的语料和不属于相应垂直领域的语料训练得到，且所述语料包括不完整语句。

较佳地，利用所述多分类模型，对一轮对话语句所属的垂直领域进行识别包括：

利用预设的多领域先验知识，识别对话语句所属的垂直领域；如果识别失败，则利用所述多分类模型，识别对话语句所属的垂直领域。

较佳地，所述判断该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域包括：

利用所述上一轮对话语句所属垂直领域对应的先验知识，识别该轮对话语句所属的垂直领域，如果识别失败，则利用所述上一轮对话语句所属垂直领域对应的二分类模型，识别该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域。

较佳地，所述多分类模型采用K折交叉验证的方式训练得到。

一种对话交互意图的识别设备，包括：处理器，所述处理器用于：

较佳地，所述处理器，具体用于利用所述多分类模型，对一轮对话语句所属的垂直领域进行识别，包括：

较佳地，所述处理器，具体用于判断该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域，包括：

较佳地，所述多分类模型采用K折交叉验证的方式训练得到。

一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如上文所述的对话交互意图的识别方法的步骤。

一种电子设备，包括如上文所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

由上述技术方案可见，本发明提出的一种对话交互意图的识别方法和装置，引入了预先训练的一个多分类模型以及各垂直领域的二分类模型，并区分首轮对话语句和非首轮对话语句采用不同的识别方式，对每轮对话语句所属的垂直领域进行识别。对于首轮对话语句，直接利用多分类模型，识别出其所属的垂直领域；而对于首轮对话语句之外的其他各轮对话语句，则需要先采用最近一次识别出的垂直领域的二分类模型，判断该轮对话语句所属的垂直领域是否就是最近一次识别出的垂直领域，如果不是，再通过多分类模型识别出其所属的垂直领域。由于各垂直领域的二分类模型在训练时所采用的语料包含了不完整语句，而在实际对话过程中，不完整语句的垂直领域往往是与上一轮对话语句的垂直领域相同，因此，对于非首轮对话语句，先利用最近一次识别出的垂直领域的二分类模型，判断该轮对话语句所属的垂直领域是否就是最近一次识别出的垂直领域，可以对包含不完整语句的对话语句所属的垂直领域进行准确识别，且不需要与用户之间的反复交互，因此，可以减少不完整语句对对话语句所属垂直领域的识别效率以及用户体验的影响，并且利用基于各垂直领域的语料训练得到的多分类模型，也可以确保对对话语句所属垂直领域进行准确判断。由此可见，本申请提出的对话交互意图的识别方案，有效简化了对话交互意图的识别过程，提高了识别效率和用户体验。

附图说明

图1为现有的面向任务的对话系统框架示意图；

图2为本发明实施例的方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图2为本发明实施例的流程示意图，如图2所示，该实施例实现的对话交互意图的识别方法主要包括：

步骤201、对于首轮对话语句，利用预设的多分类模型，对该轮对话语句所属的垂直领域进行识别。

本步骤中，对于首轮对话语句(即第一轮对话语句)，需要利用多分类模型对其所属的垂直领域进行识别。这里，由于多分类模型是预先根据预设的多个垂直领域的语料进行训练得到，而且不同于多标签分类模型，多分类模型输出结果的标签只有一个，因此，利用多分类模型即可确定出首轮对话语句具体所属的垂直领域。另外，考虑到只有语意完整语句的语料对应的垂直领域具有唯一性，在预先对多分类模型训练时，为了确保所训练的多分类模型识别结果的准确性，需要以语意完整的语句作为语料进行模型训练。

在实际应用中，本领域技术人员可以根据实际需要确定用于训练该多分类模型的语料所涉及到的垂直领域，例如可以是天气类、音乐类、飞机票类、美食类等27个垂直领域。

具体地，可以使用卷积神经网络(Convolutional Neural Networks，CNN), 循环神经网络(Recurrent Neural Network,RNN)，fastText等模型作为多分类模型的分类器。

较佳地，为了提高多分类模型输出结果的准确性，所述多分类模型采用K 折交叉验证的方式训练得到。即具体如下：

在对多分类模型进行训练时，第一步使用不重复抽样将原始数据随机分割成k份，第二步从k份中取出一份数据用于测试模型，将剩下的k-1份数据用于模型的训练，第三步，利用当前用于训练的k-1份数据进行模型训练，利用当前用于测试的一份数据，第四步，如果当前k份数据中还存在至少一份数据未被取出用于模型测试，则取出一份未被取出用于模型测试的数据用于模型训练，将剩下的k-1份数据用于模型的训练，返回第三步执行。这样，就可以得到k 个模型和相应的评估结果。在使用的过程中，把训练得到的k个模型的预测结果进行融合作为最终的预测结果，可以大大提高多分类模型预测结果的准确性。

较佳地，为了进一步提高对首轮对话语句所属垂直领域进行识别的准确性和效率，本步骤中，可以先利用多领域先验知识进行识别，以充分利用先验知识对自然语言对话意图识别的精准优势，只有当基于先验知识识别失败时，再利用所述多分类模型，对对话语句所属的垂直领域进行识别，具体如下：

所述多领域先验知识具体包括预设的多个垂直领域的关键词词典和句子词典。其中所涉及的垂直领域可根据实际需要确定，例如，可以涉及天气类、音乐类、飞机票类和美食类等27个垂直领域。所述关键词词典和句子词典，具体可由本领域技术人员预先设置。

步骤202、对于除所述首轮对话语句之外的每轮对话语句，利用预设的上一轮对话语句所属垂直领域对应的二分类模型，判断该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域，如果不是，则利用所述多分类模型，对该轮对话语句所属的垂直领域进行识别；其中，所述二分类模型利用属于相应垂直领域的语料和不属于相应垂直领域的语料训练得到，且所述语料包括不完整语句。

本步骤，用于对首轮对话语句之后的对话语句所属的垂直领域进行识别。这里，引入了各垂直领域对应的二分类模型。用于训练某个垂直领域的二分类模型的数据包括两类，一类是该垂直领域的语料，另一类是非该垂直领域的语料。具体地训练时，可以使用CNN、fastText作为分类器。

考虑到此前已为其上文确定出垂直领域，上下文属于相同垂直领域的可能性很大，而且，相比于多分类模型，二分类模型的识别效率高一些，因此，这里为了提高识别效率，优先利用相邻的上一轮对话语句所属的垂直领域的二分类模型，来识别当前轮的对话语句所属的垂直领域是否为其上一轮对话语句所属的垂直领域，如果不是，再利用步骤201中的多分类模型对其所属垂直领域进行识别。另外，由于二分类模型训练时所使用的相应垂直领域的语料和不属于相应垂直领域的语料中均包括不完整语句(语意关键信息省略的语句)，因此，利用上一轮对话语句所属垂直领域的二分类模型，可以对相同垂直领域的不完整语句进行准确判断。该效果是多分类模型所无法实现的，因为多分类模型涉及的领域多，会存在同一个不完整语句可以应用于多个领域的情况，此时，将无法确定其所属的垂直领域。

由此可见，本步骤中综合利用二分类模型和多分类模型，对非首轮对话语句所属的垂直领域进行识别，可以支持多轮跨垂直领域的语句对话的识别，提高了识别的效率、准确性和智能化，且避免了对与用户交互的依赖，进而减少了用户的参与，有效改善了用户体验。

具体地，本步骤中利用多分类模型，对对话语句所属的垂直领域进行识别的方法同步骤201，在此不再赘述。

较佳地，为了进一步提高本步骤对非首轮对话语句处理的准确性，可以先利用上一轮对话语句所属垂直领域对应的先验知识，对非首轮对话语句所属垂直领域进行识别，在识别失败时，再利用上一轮对话语句所属垂直领域对应的二分类模型进行处理，具体如下：

这里，上一轮对话语句所属垂直领域对应的先验知识即包括相应垂直领域的关键词词典和句子词典，具体可由本领域技术人员预先设置。

通过上述技术方案可以看出，本发明可以在多轮对话交互中，对用户的交互意图(即与用户之间的每轮对话语句的垂直领域)进行准确、快速地智能识别，且可以获得较好的用户体验。当每轮对话语句的垂直领域准确识别出来后，则可以执行后续的语句处理操作如容错、补全、槽位抽取等NLP领域的其他工作内容。

在实际应用中，上述实施例中的二分类模型和多分类模型训练时所使用的语料可通过分析交互日志数据集得到，但不限于此。可以从交互日志数据集中选取部分数据集，涉及到订票类、天气类、音乐类、美食类等27个领域。每个领域的数据标签，以及对应的标签解释、样本举例如下表1所示。

表1数据类别和样例

对日志数据进行标注，用于支持多分类模型和2分类模型的训练，在标注的过程中，对于意图不明确的自然语言问句(那后天呢、明天吧、那去韩国等) 需要根据上下文的意图来确定这些不完整语料可能属于的领域来完成标注的任务。最终会从标注数据中选取意图比较完整的语料用于训练多分类模型。根据上下文对语料标注的样例如下表2所示。

表2标注数据样例

与上述方法相对应，本发明还提供了一种对话交互意图的识别设备，包括：处理器，所述处理器用于：

较佳地，所述多分类模型采用K折交叉验证的方式训练得到。

本发明还提供了一种非易失性计算机可读存储介质，存储用于使一机器执行如本申请所述的对话交互意图的识别方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或 MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘 (如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、 DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

本发明还提供了一种电子设备，包括如上文所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、 “右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种对话交互意图的识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用所述多分类模型，对一轮对话语句所属的垂直领域进行识别包括：

3.根据权利要求1所述的方法，其特征在于，所述判断该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域包括：

4.根据权利要求1所述的方法，其特征在于，所述多分类模型采用K折交叉验证的方式训练得到。

5.一种对话交互意图的识别设备，其特征在于，包括：处理器，所述处理器用于：

6.根据权利要求5所述的设备，其特征在于，所述处理器，具体用于利用所述多分类模型，对一轮对话语句所属的垂直领域进行识别，包括：

7.根据权利要求5所述的设备，其特征在于，所述处理器，具体用于判断该轮对话语句所属的垂直领域是否是上一轮对话语句所属的垂直领域，包括：

8.根据权利要求5所述的设备，其特征在于，所述多分类模型采用K折交叉验证的方式训练得到。

9.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至4中任一项所述的对话交互意图的识别方法的步骤。

10.一种电子设备，其特征在于，包括如权利要求9所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。