CN111581361B

CN111581361B - 一种意图识别方法及装置

Info

Publication number: CN111581361B
Application number: CN202010320457.6A
Authority: CN
Inventors: 童丽霞; 雷植程; 杨念民
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2023-09-15
Anticipated expiration: 2040-04-22
Also published as: CN111581361A

Abstract

本申请涉及人工智能领域，尤其涉及一种意图识别方法及装置，对待识别语句进行语义分析，从所述待识别语句中分别获得与多个目标分类任务关联的语义类别，所述多个目标分类任务关联的语义类别至少包括实体类别、状态类别和动作类别；将获得的各个语义类别组合成简化后的待识别语句；根据简化后的待识别语句，确定所述待识别语句的意图类别，这样，结合语义信息，提高语句简化准确性，从而基于简化后的语句，提高了意图理解的准确性。

Description

一种意图识别方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种意图识别方法及装置。

背景技术

在人工智能领域，意图理解是智能客服中重要的一环，相关技术中意图分类模型是通过构建问题答案(question-answer，QA)对的样本集训练分类模型来实现，但是这种直接根据QA对训练的方式很容易学到单个词的特征，这样如果Q中只要出现该词，相应这个意图类别的分值就会很高，即使这个词在当前Q中无意义，导致就会出现意图理解错误。

发明内容

本申请实施例提供一种意图识别方法及装置，以实现结合语义信息，提高语句简化准确性，从而基于简化后的语句，提高意图理解的准确性。

本申请实施例提供的具体技术方案如下：

本申请一个实施例提供了一种意图识别方法，包括：

对待识别语句进行语义分析，从所述待识别语句中分别获得与多个目标分类任务关联的语义类别，所述多个目标分类任务关联的语义类别至少包括实体类别、状态类别和动作类别；

将获得的各个语义类别组合成简化后的待识别语句；

根据简化后的待识别语句，确定所述待识别语句的意图类别。

本申请另一个实施例提供了一种意图识别装置，包括：

语义提取模块，用于对待识别语句进行语义分析，从所述待识别语句中分别获得与多个目标分类任务关联的语义类别，所述多个目标分类任务关联的语义类别至少包括实体类别、状态类别和动作类别；

获得模块，用于将获得的各个语义类别组合成简化后的待识别语句；

意图识别模块，用于根据简化后的待识别语句，确定所述待识别语句的意图类别。

本申请另一个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一种意图识别方法的步骤。

本申请另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种意图识别方法的步骤。

本申请实施例中，对待识别语句进行语义分析，从待识别语句中分别获得与多个目标分类任务关联的语义类别，即实体类别、状态类别和动作类别，并将获得的各个语义类别组合成简化后的待识别语句，进而可以根据简化后的待识别语句，确定待识别语句的意图类别，这样，先对待识别语句进行简化，基于简化后的待识别语句，获得对应的意图类别，相比于直接将输入的待识别语句进行意图识别，可以降低干扰，提高意图识别准确性，并且进行简化时，结合待识别语句的语义信息，从待识别语句中同时提取实体类别、动作类别和状态类别，得到的简化结果更加可控，解释性更强，并且同时提取还可以更好地获得各目标分类任务之间的关联信息，提高了待识别语句简化的准确性。

附图说明

图1为相关技术中依存句法分析原理示意图；

图2为本申请实施例中意图识别方法的应用架构示意图；

图3为本申请实施例中意图识别方法流程图；

图4为本申请实施例中句子简化模型的网络结构示意图；

图5为本申请实施例中句子简化模型的训练方法流程图；

图6为本申请实施例中意图识别装置结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于对本申请实施例的理解，下面先对几个概念进行简单介绍：

句子简化：目的是在维持一个句子表义不变的情况下，降低该句子的复杂度，从而更好地帮助对该句子的掌握。本申请实施例中提供了一种新的句子简化模型，是一种基于多任务的句子简化模型，可以对句子进行语义分析，从而将句子划分为三部分，包括实体、动作和状态。

序列到序列(Sequence-to-Sequence，Seq2Seq)：是一种编码器-解码器(Encoder–Decoder)结构的网络，它的输入是一个序列，输出也是一个序列，Encoder中将一个可变长度的信号序列变为固定长度的向量表达，Decoder将这个固定长度的向量变成可变长度的目标的信号序列。

依存句法分析：依存语法(Dependency Parsing，DP)通过分析语言单位内成分之间的依存关系揭示其句法结构，直观来讲，依存句法分析识别句子中的“主谓宾”、“定状补”这些语法成分，并分析各成分之间的关系。

变压器的双向编码器表示法(Bidirectional Encoder Representation fromTransformers，Bert)：即双向变压器(Transformer)的Encoder，因为Decoder是不能获得预测的信息的，该模型的主要创新点都在前期训练(pre-train)方法上，即用了蒙面语言模型(Masked Language Model，Masked LM)和下个句子预测(Next Sentence Prediction)两种方法分别捕捉分词和句子级别的表示(representation)。

双向循环神经网络(Bi-directional Long Short-Term Memory，BiLSTM)：是由前向长短期记忆(Long Short-Term Memory，LSTM)网络与后向LSTM网络组合而成，主要用来弥补LSTM无法编码从后向前的信息，使LSTM可以更好的捕捉到较长距离的依赖关系，例如，本申请实施例中可以采用BiLSTM来捕捉句子中的序列信息，获得句子中各分词的前后方向的隐藏编码向量。

Word2vec：是为一群用来产生词向量的相关模型，这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本，网络以词表现，并且需猜测相邻位置的输入词，在Word2vec中词袋模型假设下，词的顺序是不重要的，训练完成之后，Word2vec模型可用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络之隐藏层，例如，本申请实施例中可以采用Word2vec来对待识别语句中的各分词进行编码，获得各分词的词向量表示，还可以采用Bert模型来获得各分词的词向量表示，本申请实施例中并不进行限制。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。例如，本申请实施例中，主要是涉及自然语言处理技术，可以对待识别语句的各分词进行词性标注、编码等操作，并且对待识别语句进行语义分析，从而将待识别语句划分出实体、动作和状态三个类别，获得简化后的待识别语句。并且本申请实施例中，还可以利用自然语言处理技术中的机器人问答技术，基于简化后的待识别语句，对其进行意图理解，获得对应的意图类别，并可以匹配出相应的答案。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案主要涉及人工智能的自然语言处理技术，具体通过如下实施例进行说明：

目前，意图理解是智能客服中重要的一环，通过对用户输入的语句的意图理解，定位用户问题并可以给出相应的答案，相关技术中，意图理解模型是通过构建QA对的样本集训练分类模型来实现，但是这种直接根据QA对训练的方式，很容易学到单个词的特征，导致如果Q中只要出现该词，相应这个类别的分值就会很高，即使这个词在当前Q中无意义，这样就会出现意图理解错误。

因此，本申请实施例中基于上述问题，提出了可以先对语句进行简化，从语句中提取出非结构化的信息，即实体、动作和状态类别，进而可以利用简化后的语句来用于意图识别，这样由于简化后的语句中可以剔除一些无意义的词，因此通过简化后的语句来进行意图识别，可以提高意图识别和理解的准确性。

另外，通过对句子分析的相关方法的研究，发现相关技术中对句子进行分析的方法主要有：1)依存句法分析，参阅图1所示，为相关技术中依存句法分析原理示意图，依存句法分析是比较传统的句子分析方法，直接关注词本身以及词之间的二元依存关系，识别出句子中的“主谓宾”“定状补”等句法结构，从而得到可以表示整个句子最简略的部分，但是依存句法分析是从句法结构层面进行分析，识别出句子中的句法结构，获得句子最简略的部分，没有考虑语义信息，依存关系也只是二元的关系，对于智能客服场景中句子普遍简短而且没有明确的句法结构的情况很难抽取出有用的信息，不适用于智能客服场景；2)基于seq2seq模型直接生成简化句子，主要是使用了基于机器翻译的隐式学习方式，进行端到端的模型训练，从而实现“复杂句-简单句”的转换，但是该方案依赖于隐藏向量表示，错误难以跟踪，结果解释性较弱。

因此本申请实施例中针对上述问题，提供了一种意图识别方法，对待识别语句进行语义分析，从待识别语句中获得实体类别、动作类别和状态类别，并根据获得的实体类别、动作类别和状态类别，获得简化后的待识别语句，进而根据简化后的待识别语句，获得待识别语句的意图类别，这样，考虑待识别语句的语义信息，对待识别语句中的实体类别、动作类别和状态类别同时提取，可以更好地获得待识别语句之间的关联信息，并且提取的实体类别、动作类别和状态类别，可以基于分类模型实现，可解释性更强，结果更可控，提高了语句简化准确性，从而基于简化后的待识别语句，进行意图识别，减少了干扰，提高了意图识别的准确性。

参阅图1所示，为本申请实施例中意图识别方法的应用架构示意图，包括服务器100、终端200。

终端200可以是智能手机、平板电脑、便携式个人计算机、机器人等任何智能设备，终端200上可以安装有各种应用程序，并且应用程序可以提供智能客服的服务，例如，本申请实施例中用户可以通过终端200输入问题，进而服务器100可以对输入的问题进行处理，获得简化后的问题，并根据简化后的问题，识别出意图类别，并根据识别出的意图类别，获得对应的答案，将答案返回给终端200，终端200接收到答案后进行展示，这样，用户可以从终端200上获得问题对应的答案，实现与智能客服的问答交互过程。

终端200与服务器100之间可以通过互联网相连，实现相互之间的通信。可选地，上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-upLanguage，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(VirtualPrivate Network，VPN)、网际协议安全(Internet Protocol Security，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器100可以为终端200提供各种网络服务，其中，服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

具体地，服务器100可以包括处理器110(Center Processing Unit，CPU)、存储器120、输入设备130和输出设备140等，输入设备130可以包括键盘、鼠标、触摸屏等，输出设备140可以包括显示设备，如液晶显示器(Liquid Crystal Display，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器110提供存储器120中存储的程序指令和数据。在本申请实施例中，存储器120可以用于存储本申请实施例中意图识别方法的程序。

处理器110通过调用存储器120存储的程序指令，处理器110用于按照获得的程序指令执行本申请实施例中任一种意图识别方法的步骤。

需要说明的是，本申请实施例中，意图识别方法或句子简化模型的训练方式主要由服务器100或终端200执行。本实施例以该方法应用于服务器100进行说明，例如，终端200获得用户输入的待识别语句，并将待识别语句发送给服务器100，服务器100基于句子简化模型对待识别语句进行语义分析，获得简化后的待识别语句，并基于意图分类模型，根据简化后的待识别语句，识别对应的意图类别，进而，服务器100还可以根据识别出的意图类别，获取意图类别对应的答案语句，并返回给终端200。又例如，服务器100可以获取训练语句样本集，并根据训练语句样本集，训练获得句子简化模型。当然，服务器100还可以训练并不断更新意图分类模型。如图2所示的应用架构，是以应用于服务器100侧为例进行说明的，当然，本申请实施例中意图识别方法也可以由终端200执行，例如终端200可以从服务器100侧获得已训练的句子简化模型和意图分类模型，从而可以根据句子简化模型，对待识别语句进行语义分析，获得简化后的待识别语句，并根据意图分类模型，输入简化后的待识别语句，获得待识别语句对应的意图类别，对此本申请实施例中并不进行限制。

另外，本申请实施例中所涉及到的句子简化模型和意图分类模型，需要预先进行训练，其训练过程通常由服务器100侧执行，这是由于受到终端200的性能限制。

本申请实施例中的应用架构图是为了更加清楚地说明本申请实施例中的技术方案，并不构成对本申请实施例提供的技术方案的限制，当然，也并不仅限于智能客服业务应用，对于其它的应用架构和应用，本申请实施例提供的技术方案对于类似的问题，同样适用。

本申请各个实施例以应用于图2所示的应用架构图为例进行示意性说明。

基于上述实施例，参阅图3所示，为本申请实施例意图识别方法流程图，该方法包括：

步骤300：对待识别语句进行语义分析，从待识别语句中分别获得与多个目标分类任务关联的语义类别，多个目标分类任务关联的语义类别至少包括实体类别、状态类别和动作类别。

本申请实施例中，主要针对智能客服应用场景，对于智能客服应用场景中的问句的特性，一般为简短而且没有明确句子结构，因此，本申请实施例中将待识别语句从语义而非句法结构进行划分，具体地预设了多个目标分类任务，包括实体类别、状态类别和动作类别三个目标分类任务，即相应地关联的语义类别分别为实体类别、状态类别和动作类别。

其中，实体表征业务名词，例如，红包、零钱、商户等，动作表征用户想要执行的操作，例如，退款、提现、充值等，状态表征与业务关联的操作状态，为当前动作的补充，例如，失败、异常等。

执行步骤300时包括：

基于已训练的句子简化模型，以待识别语句为输入，对待识别语句进行语义分析，从待识别语句中分别获得与各个目标分类任务关联的语义类别，其中，句子简化模型的网络结构至少包括输入层、表示层、聚合层、输出层，输入层用于进行词向量编码和位置向量编码，表示层和聚合层用于提取待识别语句的序列信息，输出层用于各个目标分类任务的识别。

也就是说，本申请实施例中可以通过多任务学习模型，即句子简化模型，对待识别语句中的实体、动作和状态同时提取。

具体地，基于句子简化模型的网络结构，对待识别语句进行简化的过程，本申请实施例中，还提供了一种具体的实施方式，基于已训练的句子简化模型，以待识别语句为输入，对待识别语句进行语义分析，从待识别语句中分别获得与各个目标分类任务关联的语义类别，具体包括：

S1、基于已训练的句子简化模型，以待识别语句为输入，依次通过句子简化模型的输入层，对待识别语句的各分词进行编码，获得各分词的词向量表示和位置向量表示。

其中，对待识别语句的各分词进行编码时，可以采用Bert模型进行编码获得各分词的词向量表示，Bert模型考虑上下文，可以将各分词映射为向量；使用结巴(jieba)(jieba分词是python语言的一个中文分词包)对每个分词进行词性标记，并使用独热(one-hot)编码进行编码获得各分词的位置向量表示，位置向量表示即可以表征分词在待识别语句中的位置信息，具体地，获得位置向量表示时，可以采用jieba分词工具对待识别语句进行分词，进而获得各个分词，并且还可以获得各分词的词性，jieba分词主要是基于统计词典，构造一个前缀词典，并利用前缀词典对输入语句进行切分，得到所有的切分可能，根据切分位置，构造一个有向无环图，然后通过动态规划算法，计算得到最大概率路径，即获得最终的切分形式，进而采用one-hot编码，one-hot编码是分类变量作为二进制向量的表示，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都有其独立的寄存器位，并且在任意时候只有一位有效。

S2、将各分词的词向量表示和位置向量表示进行拼接，并通过句子简化模型的表示层和聚合层，根据待识别语句中各分词的序列信息，获得各分词的隐藏编码向量。

其中，本申请实施例中句子简化模型的表示层和聚合层，可以采用BiLSTM来实现，主要用于捕捉待识别语句的序列信息，获得各分词的前后方向的隐藏编码向量。

具体地，BiLSTM可以理解为前向的LSTM与后向的LSTM的结合，例如，对于某待识别语句：“我喜欢语文”，其对应的分词为“我”“喜欢”“语文”，对各分词进行编码后，前向的LSTM依次输入我”“喜欢”“语文”，得到三个向量，后向的LSTM依次输入“语文”“喜欢”“我”，得到三个向量，然后将前向的LSTM和后向的LSTM进行组合拼接得到各分词最终的隐藏编码向量。

S3、将各分词的隐藏编码向量，输入句子简化模型的输出层，分别通过输出层的各个目标任务分类模型，获得每个目标分类任务关联的语义类别。

本申请实施例中根据设定的不同的目标分类任务，相应地在输出层分成不同的目标任务分类模型，具体地，当目标分类任务包括实体类别、状态类别和动作类别时，输出层的各个目标任务分类模型包括实体分类模型、动作分类模型和状态分类模型，则执行上述步骤S3时，具体包括：

S3.1、将各分词的隐藏编码向量，通过实体分类模型中的平均池化层、全连接层，获得待识别语句的实体类别。

S3.2、将各分词的隐藏编码向量，通过动作分类模型中的注意力机制模块，获得待识别语句的局部交叉信息，并通过动作分类模型中的全连接层，获得待识别语句的动作类别。

S3.3、将各分词的隐藏编码向量，通过状态分类模型中的注意力机制模块，获得待识别语句的局部交叉信息，并通过状态分类模型中的全连接层，获得待识别语句的状态类别。

本申请实施例中，根据各个目标分类任务的难易程度，针对实体分类模型、动作分类模型和状态分类模型分别采用了不同的模型，通常一个产品中涉及的实体类别较少，特征也比较明显，因此可以直接对表示层和聚合层后输出的隐藏编码向量进行平均池化操作，再输入到全连接层，获得最终识别出的实体类别，而对于动作类别和状态类别这两个类别的种类比较多，差异性较小，因此可以采用注意力机制模块获得待识别语句的局部交叉信息，再输入到全连接层，获得最终识别出的动作类别和状态类别。

需要说明的是，上述步骤S3.1-S3.3的执行顺序并不进行限制，本申请实施例中的句子简化模型为一个多任务模型，可以同时从待识别语句中提取出实体类别、状态类别和动作类别。

这样，本申请实施例中考虑语义信息，从待识别语句中同时提取出实体类别、动作类别和状态类别，而不是单类别分类提取再融合，可以更好地学习了各个目标分类任务之间丰富的关联信息，提高准确性，并且句子简化模型为多任务分类模型，即使用分类模型来进行句子简化，相比SeqSeq模型，可解释性更强，更好调优，结果更加可控，这是因为，SeqSeq模型简化的方法，完全由模型输出，生成式不可控，简化后的句子很可能出现语句不通顺的情况，而本申请实施例中的句子简化模型中分类提取出的实体类别、动作类别和状态类别，只是将待识别语句匹配到某个类别，类别是预设好的，可控性更强。

步骤310：将获得的各个语义类别组合成简化后的待识别语句。

例如，待识别语句为“对方已领取了红包能退回吗”，通过句子简化模型获得的实体类别、动作类别和状态类别分别为“红包”、“退回”、“对方已领取”，则简化后的待识别语句为：“红包退回对方已领取”。

又例如，待识别语句为“我就是在那个美团上面电脑定了那个美团的那个消费我现在申请退回把款退给我我说那个钱退到我的手机上面了但是我的手机上面还没有收到信息是怎么回事”，简化后的待识别语句为“第三方，退款，未收到”。

这样，本申请实施例中通过语义分析，将待识别语句进行简化，并简化为属于预设语义类别的句子，结果更加可控，提高句子简化准确性，简化后的待识别语句中各个分词都是能够代表一定意义的，进而在进行意图理解时，可以提高意图理解的准确性。

步骤320：根据简化后的待识别语句，确定待识别语句的意图类别。

具体地，执行步骤320时，包括：

基于已训练的意图分类模型，以简化后的待识别语句为输入参数，确定待识别语句对应的意图类别。

其中，本申请实施例中的意图分类模型，并不进行限制，可以采用现有技术中的意图分类模型，只是本申请实施例中意图分类模型的输入为基于本申请实施例中句子简化模型进行简化后的待识别语句。

进一步地，当简化后的待识别语句输入到意图分类模型后，若输出的结果中有几个意图类别均超过了阈值，还可以根据简化后的待识别语句进行筛选，具体本申请实施例中提供了一种可能的实施方式，1)根据待识别语句对应的意图类别，获得与意图类别相似度大于相似度阈值的关联选项；2)根据简化的待识别语句，对获得的关联选项进行筛选，并将筛选出的关联选项进行推荐。

例如，待识别语句为“如何设置支付密码”，会推送关联的四个关联选项，分别为“1、找回支付密码方法2、未设置却要支付密码3、是否可以取消支付密码4、需要修改支付密码”，经过简化后得到的简化后的待识别语句为“支付密码，设置，方法”，那么关联选项2和关联选项3关联不大可以去掉，仅推荐关联选项1和关联选项4。

这样，根据简化后的待识别语句，也可以提高推送关联选项的准确性，更能符合用户需求，提升用户体验。

本申请实施例中，对待识别语句进行语义分析，从待识别语句中分别获得与多个目标分类任务关联的语义类别，包括实体类别、状态类别和动作类别，并根据获得的实体类别、状态类别和动作类别，获得简化后的待识别语句，进而再根据简化后的待识别语句，获得待识别语句的意图类别，这样，当用户输入的待识别语句过长时，直接进行意图识别，干扰比较大，意图识别的分值会比较低，而将待识别语句简化后再进行意图识别，可以大大提升意图识别和理解的准确率，降低了坏案例(badcase)的比例，并且本申请实施例中待识别语句简化时采用分类方式，多语义类别同时提取，更能充分理解和学习到待识别语句中的语义信息和各目标分类任务之间的关联信息，提高了语句简化的准确性。

基于上述实施例中，下面对本申请实施例中的句子简化模型的网络结构进行简单说明，以输出层的各个目标任务分类模型包括实体分类模型、动作分类模型和状态分类模型为例，具体参阅图4，为本申请实施例中句子简化模型的网络结构示意图。

如图4所示，句子简化模型的网络结构至少包括输入层(input layer)、表示层(representation layer)、聚合层(aggregation layer)、输出层(output layer)，其中，表示层和聚合层也可以统称为共享层，并且由于输出层是包括三个目标任务分类模型，因此输出层也可以称为多任务输出层(multitask output layer)。

并且，本申请实施例中句子简化模型的训练任务定义为，给定一个对话集合即训练语句样本集D＝(X,E,A,S)_Z,z＝1,...,N，其中X＝{w₁,w₂,...,w_i},i＝1...n；其中wi表示待识别语句X的第i个分词，E、A、S分别表示实体类别、动作类别和状态类别，E∈{0,N_e},A∈{0,N_a},S∈{0,N_s}是多目标分类标签，本申请实施例中句子简化模型是基于BiLSTM的多任务模型，其目标是用数据集D同时学习三个目标任务分类模型g₁(X,E),g₂(X,A),g₃(X,S)，即分别为实体分类模型、动作分类模型和状态分类模型。

1)输入层。

输入层包括两部分编码，分别获得语句样本的各分词的词向量表示(wordembedding)和位置向量表示(pos embedding)。

具体地，用户输入语句样本X后，对其每个分词wi进行词向量编码，获得词向量表示为XE＝{xe₁,xe₂,...,xe_i},i＝1...n，其中xe_i∈R^d，d为词向量维度，其中，词向量编码可以采用Bert模型，Bert模型利用智能客服领域累积的海量语料进行无监督训练得到，增强了模型的泛化能力，只需要人工标注少量样本进行微调就能达到更好的效果，并且为了更充分的表示词信息，本申请实施例中还使用jieba对每个分词进行词性标记，并使用one-hot进行编码，得到各分词的位置向量表示，最后将分词的词向量表示和位置向量表示进行拼接，例如将分词的位置向量表示拼接到词向量表示后，从而得到最终的输入编码，即输入到共享层的编码向量为XSE＝{xse₁,xse₂,...,xse_i},i＝1...n。

2)共享层。

本申请实施例中共享层可以采用BiLSTM，来捕捉语句中的序列信息，从而获得各分词的隐藏编码向量为：

XSE_lstm＝{xse₁_lstm,xse₂_lstm,...,xse_i_lstm},i＝1...n。

另外，本申请实施例中的共享层的实现方式并不进行限制，还可以先使用卷积提取语句的句向量信息，例如ngram信息，然后再使用BiLSTM获取语句的语序信息，也便于获得更多的语义信息。

3)输出层。

本申请实施例中输出层包括三个目标任务分类模型，分别为实体分类模型g₁(X,E)，动作分类模型g₂(X,A)和状态分类模型g₃(X,S)。

其中，实体分类模型的网络结构包括平均池化层和全连接层，动作分类模型和状态分类模型的网络结构均包括注意力机制模块和全连接层，最终输出识别出的实体类别、动作类别和状态类别，具体地：

g₁(X,E)＝g₁(w₁avg_pool(XSE_lstm)+b₁)

g₂(X,A)＝g₂(w₂Attention(XSE_lstm)+b₂)

g₃(X,S)＝g₃(w₃Attention(XSE_lstm)+b₃)

其中，w1、w2、w3，以及b₁、b₂、b₃为模型训练时的调节参数，avg_pool表示平均池化操作，Attention表示注意力机制模块的操作。

本申请实施例中，对语句中的实体、动作和状态类别使用多任务学习同时提取，更好地学习了各个目标任务分类模型之间的关联信息，使得句子简化模型的泛化能力更强，并且经过测试实验，本申请实施例中的多任务的句子简化模型的准确率在0.95以上，提升了句子简化准确性，也更加适用于智能客服场景。

基于上述实施例，下面介绍下本申请实施例中的句子简化模型的训练方法，参阅图5所示，为本申请实施例中句子简化模型的训练方法流程图，该方法包括：

步骤500：获取训练语句样本集，其中，训练语句样本集中包括多个语句样本，每个训练语句样本表示有实体类别、动作类别和状态类别标注的语句样本。

执行步骤500时，具体包括：

1)获得各训练语句样本，其中，各训练语句样本是根据预设的实体集、动作集和状态集对语句进行标注后获得的，实体集、动作集和状态集是与业务知识库关联的。

本申请实施例中，可以根据选定的一款产品，由业务人员根据该产品相关的业务知识库预先整理并设置出实体集、动作集和状态集，其中，实体集包括产品中涉及的业务名词，例如红包、零钱、商户等，动作集中包括用户想干什么的一些动作，例如“退款”、“提现”、“充值”等，状态集中包括对当前动作的补充相关的词，例如“失败”“异常”等。

然后业务标注人员从预设的各个意图类别中分别选取有少量差异的语句，根据整理出的实体集、动作集和状态集进行标注，获得标注后的训练语句样本，例如，标注后的训练语句样本的形式为q1,e1,a1,s1、q2,e2,a2,s2、q3,e3,a3,s3等，其中，q表示用户问句(即从意图类别中选取的语句)，e表示实体类别，a表示动作类别，s表示状态类别。

2)对各训练语句样本进行重采样，获得训练语句样本集。

本申请实施例中，考虑到通常部分业务量比较小，标注量也较少，容易造成训练语句样本不均衡，因此，为了防止句子简化模型因为样本类别不均衡而导致分类准确性不高，因此，本申请实施例中对标注后的训练语句样本进行重采样，主要是对小类(即语料较少的类别)的语句样本进行采样来增加小类的语句样本个数，使类别不平衡比例不超过4:1，从而可以提高训练语句样本数量，还可以提高最终训练句子简化模型的准确性。

步骤510：根据训练语句样本集，分别获得训练语句样本集中语句样本的各分词的词向量表示和位置向量表示，并根据各分词的词向量表示和位置向量表示，获得各分词的隐藏编码向量，以及根据各分词的隐藏编码向量，识别出语句样本属于实体类别、动作类别和状态类别的标记。

步骤520：根据识别出的语句样本属于实体类别、动作类别和状态类别的标记和训练语句样本中标记的实体类别、动作类别和状态类别，训练句子简化模型，直至句子简化模型的损失函数收敛，获得已训练的句子简化模型。

其中，损失函数为识别出的实体类别、动作类别和状态类别与语句样本中标注的实体类别、动作类别和状态类别之间的损失函数。

其中，训练过程和上述实施例中句子简化模型相关的操作过程相同，这里就不再进行赘述了。

本申请实施例中，训练获得多任务的句子简化模型，从而可以基于句子简化模型，从语句中提取非结构化的实体类别、动作类别和状态类别信息，根据这些信息来辅助进行意图识别和理解，从而可以提高语句意图理解的准确性，更加准确的定位用户问题，进而智能客服可以更加准确回答用户问题，提升用户体验。

基于同一发明构思，本申请实施例中还提供了一种意图识别装置，该意图识别装置例如可以是前述实施例中的服务器或终端，该意图识别装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例，参阅图6所示，本申请实施例中意图识别装置，具体包括：

语义提取模块60，用于对待识别语句进行语义分析，从所述待识别语句中分别获得与多个目标分类任务关联的语义类别，所述多个目标分类任务关联的语义类别至少包括实体类别、状态类别和动作类别；

获得模块61，用于将获得的各个语义类别组合成简化后的待识别语句；

意图识别模块62，用于根据简化后的待识别语句，确定所述待识别语句的意图类别。

可选的，对待识别语句进行语义分析，从所述待识别语句中分别获得与多个目标分类任务关联的语义类别时，语义提取模块60，具体用于：

基于已训练的句子简化模型，以所述待识别语句为输入，对所述待识别语句进行语义分析，从所述待识别语句中分别获得与各个目标分类任务关联的语义类别，其中，所述句子简化模型的网络结构至少包括输入层、表示层、聚合层、输出层，所述输入层用于进行词向量编码和位置向量编码，所述表示层和聚合层用于提取待识别语句的序列信息，所述输出层用于各个目标分类任务的识别。

可选的，基于已训练的句子简化模型，以所述待识别语句为输入，对所述待识别语句进行语义分析，从所述待识别语句中分别获得与各个目标分类任务关联的语义类别时，语义提取模块60具体用于：

基于已训练的句子简化模型，以所述待识别语句为输入，依次通过所述句子简化模型的输入层，对所述待识别语句的各分词进行编码，获得所述各分词的词向量表示和位置向量表示；

将所述各分词的词向量表示和位置向量表示进行拼接，并通过所述句子简化模型的表示层和聚合层，根据所述待识别语句中各分词的序列信息，获得所述各分词的隐藏编码向量；

将所述各分词的隐藏编码向量，输入所述句子简化模型的输出层，分别通过所述输出层的各个目标任务分类模型，获得每个目标分类任务关联的语义类别。

可选的，当所述目标分类任务包括实体类别、状态类别和动作类别时，所述输出层的各个目标任务分类模型包括实体分类模型、动作分类模型和状态分类模型；

所述将所述各分词的隐藏编码向量，输入所述句子简化模型的输出层，分别通过所述输出层的各个目标任务分类模型，获得每个目标分类任务关联的语义类别时，语义提取模块60具体用于：

将所述各分词的隐藏编码向量，通过所述实体分类模型中的平均池化层、全连接层，获得所述待识别语句的实体类别；

将所述各分词的隐藏编码向量，通过所述动作分类模型中的注意力机制模块，获得所述待识别语句的局部交叉信息，并通过所述动作分类模型中的全连接层，获得所述待识别语句的动作类别；

将所述各分词的隐藏编码向量，通过所述状态分类模型中的注意力机制模块，获得所述待识别语句的局部交叉信息，并通过所述状态分类模型中的全连接层，获得所述待识别语句的状态类别。

可选的，针对所述句子简化模型的训练方式，还包括，训练模块63，用于：

获取训练语句样本集，其中，所述训练语句样本集中包括多个语句样本，每个训练语句样本表示有实体类别、动作类别和状态类别标注的语句样本；

根据所述训练语句样本集，分别获得所述训练语句样本集中语句样本的各分词的词向量表示和位置向量表示，并根据所述各分词的词向量表示和位置向量表示，获得所述各分词的隐藏编码向量，以及根据所述各分词的隐藏编码向量，识别出语句样本属于实体类别、动作类别和状态类别的标记；

并根据识别出的语句样本属于实体类别、动作类别和状态类别的标记和训练语句样本中标记的实体类别、动作类别和状态类别，训练句子简化模型，直至所述句子简化模型的损失函数收敛，获得已训练的句子简化模型，其中，所述损失函数为识别出的实体类别、动作类别和状态类别与语句样本中标注的实体类别、动作类别和状态类别之间的损失函数。

可选的，获取训练语句样本集时，训练模块63具体用于：

获得各训练语句样本，其中，所述各训练语句样本是根据预设的实体集、动作集和状态集对语句进行标注后获得的，所述实体集、动作集和状态集是与业务知识库关联的；

对所述各训练语句样本进行重采样，获得训练语句样本集。

可选的，根据简化后的待识别语句，确定所述待识别语句的意图类别时，意图识别模块62具体用于：

基于已训练的意图分类模型，以所述简化后的待识别语句为输入参数，确定所述待识别语句对应的意图类别。

可选的，进一步包括，推荐模块64用于：

根据所述待识别语句对应的意图类别，获得与所述意图类别相似度大于相似度阈值的关联选项；

根据所述简化的待识别语句，对获得的关联选项进行筛选，并将筛选出的关联选项进行推荐。

基于上述实施例，本申请实施例中还提供了另一示例性实施方式的电子设备，在一些可能的实施方式中，本申请实施例中电子设备可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时可以实现上述实施例中意图识别方法的步骤。

例如，以电子设备为本申请图2中的服务器100为例进行说明，则该电子设备中的处理器即为服务器100中的处理器110，该电子设备中的存储器即为服务器100中的存储器120。

基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任意方法实施例中的意图识别方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种意图识别方法，其特征在于，包括：

将获得的各个语义类别组合成简化后的待识别语句；

根据简化后的待识别语句，确定所述待识别语句的意图类别；

所述对待识别语句进行语义分析，从所述待识别语句中分别获得与多个目标分类任务关联的语义类别，具体包括：

将所述各分词的隐藏编码向量，通过所述句子简化模型的输出层包含的实体分类模型中的平均池化层、全连接层，获得所述待识别语句的实体类别；

将所述各分词的隐藏编码向量，通过所述输出层包含的动作分类模型中的注意力机制模块，获得所述待识别语句的局部交叉信息，并通过所述动作分类模型中的全连接层，获得所述待识别语句的动作类别；

将所述各分词的隐藏编码向量，通过所述输出层包含的状态分类模型中的注意力机制模块，获得所述待识别语句的局部交叉信息，并通过所述状态分类模型中的全连接层，获得所述待识别语句的状态类别。

2.如权利要求1所述的方法，其特征在于，所述句子简化模型的训练方式，包括：

3.如权利要求2所述的方法，其特征在于，获取训练语句样本集，具体包括：

对所述各训练语句样本进行重采样，获得训练语句样本集。

4.如权利要求1所述的方法，其特征在于，根据简化后的待识别语句，确定所述待识别语句的意图类别，具体包括：

5.如权利要求4所述的方法，其特征在于，进一步包括：

6.一种意图识别装置，其特征在于，包括：

意图识别模块，用于根据简化后的待识别语句，确定所述待识别语句的意图类别；

所述对待识别语句进行语义分析，从所述待识别语句中分别获得与多个目标分类任务关联的语义类别时，所述语义提取模块具体用于：

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-5任一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。