CN111581375A

CN111581375A - 对话意图类型识别方法、多轮对话方法、装置及计算设备

Info

Publication number: CN111581375A
Application number: CN202010250336.9A
Authority: CN
Inventors: 石智中; 翟羽佳
Original assignee: CHEZHI HULIAN (BEIJING) SCIENCE & TECHNOLOGY CO LTD
Current assignee: CHEZHI HULIAN (BEIJING) SCIENCE & TECHNOLOGY CO LTD
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2020-08-25
Anticipated expiration: 2040-04-01
Also published as: CN111581375B

Abstract

本发明公开了一种对话意图类型识别方法、一种多轮对话方法、装置及计算设备。其中对话意图类型识别方法包括：对当前轮对话文本进行实体识别，得到当前轮对话文本的实体和实体类型；对当前轮对话文本进行实体意图识别，得到当前轮对话文本的意图；融合当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，得到实体集合、实体类型集合及意图集合；对实体集合、实体类型集合及意图集合中的实体、实体类型、意图分别进行向量化处理，得到多个实体向量、实体类型向量及意图向量；拼接实体向量、实体类型向量及意图向量，作为拼接向量；将拼接向量输入至分类模型，得到当前轮对话文本的意图类型。

Description

对话意图类型识别方法、多轮对话方法、装置及计算设备

技术领域

本发明涉及人机交互领域，具体涉及一种对话意图类型识别方法、多轮对话方法、装置及计算设备。

背景技术

在任务型多轮对话系统模型的训练和建立中，一般需要大量的人工标注数据作为训练和建立多轮对话系统模型的基础。若在用户意图不明确的情况下，不仅需要标注的数据量成倍增长，还会由于答复内容不贴合语境等问题导致用户流失。

目前，为了解决在用户意图不明确的情况下造成的标注数据量大、答复内容不符合语境等的问题，提出了意图识别的概念。但已有的意图识别仅通过将用户输入的语句进行语义分析，简单分辨意图后，直接将分析出语义的词汇填进对应的槽位，导致对用户意图识别的准确率偏低，较难对用户的潜在意图进行识别，并作出最贴合语境的回答。因此，如何准确、高效的识别用户的潜在意图是亟需解决的问题。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的对话意图类型识别方法、多轮对话方法、装置及计算设备。根据本发明的第一方面，提供了一种对话意图类型识别方法，包括：对当前轮对话文本进行实体识别，得到当前轮对话文本的实体和实体类型；对当前轮对话文本进行实体意图识别，得到当前轮对话文本的意图；融合当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，得到实体集合、实体类型集合及意图集合；对实体集合、实体类型集合及意图集合中的实体、实体类型、意图分别进行向量化处理，得到多个实体向量、实体类型向量及意图向量；拼接实体向量、实体类型向量及意图向量，作为拼接向量；将拼接向量输入至分类模型，得到所述当前轮对话文本的意图类型。

可选地，在根据本发明的对话意图类型识别方法中，当前轮对话文本利用词典匹配和/或实体识别模型进行实体识别，当前轮对话文本利用意图识别模型进行意图识别。

可选的，在根据本发明的对话意图类型识别方法中，实体识别模型采用BERT+CRF模型，意图识别模型采用TextCNN模型。

可选的，在根据本发明的对话意图类型识别方法中，历史对话文本采用预定轮数的最近对话文本。

可选的，在根据本发明的对话意图类型识别方法中，融合当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，包括：对当前轮对话文本的实体及历史对话文本的实体归类；融合当前轮对话文本的实体类型、意图、历史对话文本的实体类型、意图及归类后的实体，得到实体集合、实体类型集合及意图集合。

可选的，在根据本发明的对话意图类型识别方法中，实体类型采用如下方式进行分类：判定实体是否已经存在于类别集合中，若不存在，则添加到类别集合中，并添加该实体出现的轮次标签，若存在，则更新该实体的轮次标签。

可选的，在根据本发明的对话意图类型识别方法中，分类模型包括特征提取器和分类器，输入拼接向量至分类模型，得到当前轮对话的意图类型，包括：输入拼接向量至特征提取器，得到特征向量；输入特征向量至分类器，得到意图类型概率；选择意图类型概率中最大概率对应的意图类型，作为当前轮对话的意图类型。

可选的，在根据本发明的对话意图类型识别方法中，特征提取器采用CNN网络、RNN网络、LSTM网络或者GRU网络，分类器采用SoftMax分类器。

根据本发明第二方面，提供一种对话意图类型识别装置，所述装置包括：应用于多轮对话场景中，所述装置包括：实体识别单元，用于对当前轮对话文本进行实体识别，得到当前轮对话文本的实体和实体类型；意图识别单元，用于对当前轮对话文本进行实体意图识别，得到当前轮对话文本的意图；融合单元，用于融合当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，得到实体集合、实体类型集合及意图集合；向量化处理单元，用于对实体集合、实体类型集合及意图集合中的实体、实体类型、意图分别进行向量化处理，得到多个实体向量、实体类型向量及意图向量；向量拼接单元，用于拼接实体向量、实体类型向量及意图向量，作为拼接向量；意图类型识别单元，用于将拼接向量输入至分类模型，得到当前轮对话文本的意图类型。

可选地，在根据本发明的对话意图类型识别装置中，当前轮对话文本利用词典匹配和/或实体识别模型进行实体识别，当前轮对话文本通过意图识别模型进行意图识别。

可选地，在根据本发明的对话意图类型识别装置中，实体识别模型采用BERT+CRF模型，意图识别模型采用TextCNN模型。

可选地，在根据本发明的对话意图类型识别装置中，历史对话文本采用预定轮数的最近对话文本。

可选地，在根据本发明的对话意图类型识别装置中，融合单元的工作方式包括：对当前轮对话文本的实体及历史对话文本的实体归类；融合当前轮对话文本的实体类型、意图、历史对话文本的实体类型、意图及归类后的实体，得到实体集合、实体类型集合及所述意图集合。

可选地，在根据本发明的对话意图类型识别装置中，实体类型采用如下方式进行分类：判定实体是否已经存在于类别集合中，若不存在，则添加到类别集合中，并添加该实体出现的轮次标签，若存在，则更新该实体的轮次标签。

可选地，在根据本发明的对话意图类型识别装置中，分类模型包括特征提取器和分类器，意图类型识别单元的工作方式包括：输入拼接向量至特征提取器，得到特征向量；输入特征向量至分类器，得到意图类型概率；选择意图类型概率中最大概率对应的意图类型，作为当前轮对话的意图类型。

可选地，在根据本发明的对话意图类型识别装置中，特征提取器采用CNN网络、RNN网络、LSTM网络或者GRU网络，分类器采用SoftMax分类器。

根据本发明的第三方面，提供了一种多轮对话方法，包括：确定当前轮对话文本的意图类型，当前轮对话文本的意图类型是基于第一方面所述的对话意图类型识别方法确定的；通过当前轮对话文本的意图类型，分析用户意图；基于用户意图，确定回复内容；返回回复内容至客户端。

可选地，在根据本发明的多轮对话方法中，还包括：基于当前轮对话文本的实体以及用户意图，分析下一轮用户意图。

根据本发明第四方面，提供一种多轮对话装置，所述装置包括：意图类型确定单元，用于确定当前轮对话文本的意图类型，当前轮对话文本的意图类型是基于第一方面所述的对话意图类型识别方法确定的；用户意图预测单元，用于通过当前轮对话文本的意图类型，预测用户意图，还用于基于当前轮对话文本的实体以及用户意图，分析下一轮用户意图；回复内容确定单元，用于基于用户意图，确定回复内容；返回单元，用于返回回复内容至客户端。

根据本发明第五方面，提供一种移动终端，包括：至少一个处理器；和存储有程序指令的存储器，其中，程序指令被配置为适于由至少一个处理器执行，程序指令包括用于执行上述方法中任一项所述的方法。

根据本发明第六方面，提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述的方法中的任一方法。

根据本发明的意图类型识别方案，适于多轮对话中，通过对当前轮对话文本进行实体识别及意图识别，得到当前轮对话文本的实体、实体类型及意图，接下来对当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图进行融合，得到实体集合、实体类型集合及意图集合，通过对实体集合、实体类型集合及意图集合中的多个实体、实体类型以及意图进行向量化处理，得到多个实体向量、实体类型向量及意图向量，并对上述向量进行拼接得到拼接向量，将拼接向量输入至分类模型，得到当前轮对话文本的意图类型。通过该方案对当前轮对话文本意图类型进行预测，为得到当前轮对话中满足用户意图、更加贴合用户语境的回复内容做铺垫。

基于意图类型识别方案，本发明又提供了多轮对话方案，该方案基于意图类型识别方法确定当前轮对话文本的意图类型，进而在当前轮对话文本的意图类型中，预测用户意图，最后通过预测的用户意图确定贴合语境的回复内容，将回复内容返回至客户端。该方案利用了意图类型识别方案得到当前轮对话文本的意图类型，再基于当前轮对话文本的意图类型实现对多轮对话中当前轮对话文本的意图预测，从而挖掘出用户潜在的需求，并根据预测意图选择对话方式，进而得到满足用户需求的回复话术，使得多轮对话整个过程更加的简洁高效，提高了多轮对话的用户满意度和完成率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的多轮对话系统100的示意性结构图；

图2示出了根据本发明一个实施例的计算设备200的构造框图；

图3示出了根据本发明一个实施例的对话意图类型识别方法300的流程图；

图4示出了根据本发明一个实施例的多轮对话方法400的流程图；

图5示出了根据本发明一个实施例的对话意图类型识别装置500的示意图；

图6示出了根据本发明一个实施例的多轮对话装置600的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的多轮对话系统100的示意图。如图1所示，多轮对话系统100包括用户终端110和计算设备200。

用户终端110即用户所使用的终端设备，其具体可以是桌面电脑、笔记本电脑等个人计算机，也可以是手机、平板电脑、多媒体设备、智能音箱、智能可穿戴设备等，但不限于此。计算设备200用于向用户终端110提供服务，其可以实现为服务器，例如应用服务器、Web服务器等；也可以实现为桌面电脑、笔记本电脑、处理器芯片、平板电脑等，但不限于此。

根据一种实施例，计算设备200可以提供人机对话服务，终端设备110可以经由互联网与计算设备200建立连接，从而使得用户可以经由终端设备110与计算设备200进行人机对话。用户在终端设备110上打开浏览器或者人机对话类应用(APP)，例如人工智能助手，并通过输入用户语句()，由终端设备110将用户语句发送到计算设备200。计算设备200接收到用户语句后，将用户语句以及该用户语句所针对的系统语句(紧邻用户语句的计算设备上一次回复语句)组成当前轮对话文本，并利用当前轮对话文本进行意图类型预测，在预测的意图类型中进一步预测用户意图，根据用户意图向终端设备110返回贴合语境的、准确性高的答复内容，从而实现人机对话。

在一种实现方式中，终端设备110还可以采集用户的语音数据，并对语音数据进行语音识别处理，得到当前轮对话文本，或者，终端设备也可以将语音数据发送到计算设备200，由计算设备200对语音数据进行语音识别处理，得到当前轮对话文本。

人机对话的过程通常有多轮，计算设备200需要对人机对话中历史对话文本(语句)的意图进行分类，当计算设备200接收到当前轮对话文本后，基于已分类的意图类型对当前轮对话文本进行意图类型预测，在预测的意图类型中进一步预测用户意图，根据用户意图向终端设备110返回贴合语境的、准确性高的答复内容，从而实现人机对话。

在一个实施例中，多轮对话系统100还包括数据存储装置120。数据存储装置120可以是关系型数据库例如MySQL、ACCESS等，也可以是非关系型数据库例如NoSQL等；可以是驻留于计算设备200中的本地数据库，也可以作为分布式数据库例如HBase等设置于多个地理位置处，总之，数据存储装置120用于存储数据，本发明对数据存储装置120的具体部署、配置情况不做限制。计算设备200可以与数据存储装置120连接，并获取数据存储装置120中所存储的数据。例如，计算设备200可以直接读取数据存储装置120中的数据(在数据存储装置120为计算设备200的本地数据库时)，也可以通过有线或无线的方式接入互联网，并通过数据接口来获取数据存储装置120中的数据。

在本发明的实施例中，数据存储装置120适于存储各种实体识别模型、实体词典、意图识别模型、意图预测模型、问题库、答案库、话术模板等，这样，计算设备200就可以基于存储的数据来相应地提供多种对话服务。

本发明的对话意图类型识别方法及多轮对话方法可以在计算设备200中执行。图2示出了根据本发明一个实施例的计算设备200的结构图。如图2所示，在基本的配置202中，计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置，处理器204可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用，或者在一些实现中，存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置，系统存储器206可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统220、一个或者多个应用222以及程序数据224。应用222实际上是多条程序指令，其用于指示处理器204执行相应的操作。在一些实施方式中，应用222可以布置为在操作系统上使得处理器204利用程序数据224进行操作。

计算设备200还可以包括有助于从各种接口设备(例如，输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256，它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260，其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备200中，应用222包括对话意图类型识别装置500及多轮对话装置600，装置500及装置600包括多条程序指令，这些程序指令可以指示处理器104执行对话意图类型识别方法300及多轮对话方法400。

图3示出了根据本发明一个实施例的对话意图类型识别方法300的示意性流程图。如图3所示，该方法适于多轮对话中，该方法始于步骤S310。

多轮对话是指用户和人机对话系统之间进行了多个轮次的对话，每个轮次的对话语句包括用户输入的用户语句以及系统(例如人机对话服务端)针对该用户语句的回复语句。而人机对话系统的一次回复文本与相邻的一次客户端输入文本组成一个轮次的对话。

在步骤S310中，对当前轮对话文本进行实体识别，得到当前轮对话文本的实体和实体类型。

命名实体，简称实体，是文本中具有特别意义或者指代性较强的以名称为标识的实体，实体包括实体值(本发明中称为实体)和该实体对应的实体类型。例如，实体包括人名、地名等实体类型。另外，在不同的领域还有该领域的命名实体类型，例如，在汽车领域，则有车型、车系、价格、排量、车的部件、车身配置等实体类型。

在本发明实施例中，可以利用词典匹配的方式来对当前轮对话文本进行实体识别，也可以利用实体识别模型来对当前轮对话文本进行实体识别，还可以采用这两种方式的结合对当前轮对话文本进行实体识别。

在词典匹配方式中，会设置一实体词典，例如，汽车领域的实体词典，将当前轮对话文本与实体词典进行匹配，就能获取到当前轮对话文本中包括的实体。

实体识别模型是从自然语言文件中找出相关实体的模型，直接将当前轮对话文本输入到实体识别模型，就会输出当前轮对话文本中包括的实体以及实体。实体识别模型可以采用现有的各种神经网络模型，例如采用BERT+CRF模型，本发明实施例对具体采用何种模型不做限制，本领域技术人员可以根据需要进行合理选择，并且，还可以根据现有方法对特定领域的实体模型进行训练。

根据本公开一实施例，采用词典匹配和实体识别模型的结合来对当前轮对话文本进行实体识别。具体地，利用词典匹配从当前轮对话文本中匹配出第一实体集合，利用实体模型从当前轮对话文本中识别出第二实体集合，然后，去除第一实体集合与第二实体集合中存在冲突的实体，将第一实体集合与第二实体集合中剩余的实体作为最后的识别结果。例如，对于当前轮对话文本，首先利用词典匹配和BERT+CRF模型分别进行实体识别，其中词典匹配获取所有可能出现的汽车领域的实体，其覆盖率较高，BERT+CRF模型可处理存在冲突的实体，其准确率较高，将二者结合使用可提升汽车领域的实体识别的准确率和覆盖率。

例如：“宝马2017款2.0L”，词典匹配可得到四个实体，即“宝马”、“宝马2”、“2017款”和“2.0L”，而BERT+CRF模型得到“宝马”、“2017款”两个实体；结合使用可得到最终实体为“宝马”、“2017款”和“2.0L”三个实体。

每一轮的实体通过实体识别模型识别后，该轮实体都有相应的类别，在本发明实施例中，实体识别模型中的实体类型包括：车系(如宝马三系)、车身配置(如发动机)、车身参数(如能源类型)等。

随后，执行步骤S320，在步骤S320中，对当前轮对话文本进行实体意图识别，得到当前轮对话文本的意图。

意图是希望达到某种目的的打算。意图识别，是将文本所代表的希望达到的某种目的识别处理。

根据本公开一实施例，当前轮对话文本利用意图识别模型进行意图识别，意图识别模型实际上是一种文本分类模型，其训练数据就是用户输入的文本，文本的类别标签即为该输入对应的意图。意图识别模型可以采用神经网络模型，例如采用TextCNN模型。当然，本发明实施例对具体采用何种意图识别模型不做限制，本领域技术人员可以根据需要进行合理选择，并且，还可以根据现有方法对特定领域的意图识别模型进行训练。

得到当前轮对话文本的实体、实体类型及意图后，执行步骤S330，在步骤S330中，融合当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，得到实体集合、实体类型集合及意图集合。

融合指熔成或如熔化那样融成一体。在本发明实施例中，融合即为将当前轮对话文本的实体与历史对话文本的实体汇总并去重得到无重复的实体集合，以及将当前轮对话文本的实体类型与历史对话文本的实体类型汇总并去重得到无重复的实体类型集合，以及将当前轮对话文本的意图与历史对话文本的意图汇总并去重得到意图集合。

根据本公开一实施例，在融合当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图之前，需要对当前轮对话文本的实体及历史对话文本的实体进行归类。采用如下方式对实体进行归类：将实体按照实体识别模型中的实体类型进行归类，归类即为将类别一样的实体作为一个集合，如“宝马三系”和“奥迪A4”的类别都是“车系”类型，则他们会被归类至车系实体类型集合中。实体归类规则为：判定该实体是否已经存在于实体类型集合中，若不存在，则添加到该实体类型集合中，并添加该实体出现的轮次标签；若存在，则在该实体类型集合中更新该实体的轮次标签。

例如，第一轮对话文本出现宝马三系，则车系实体类型集合为：车系＝{(宝马三系，1)}；第二轮对话文本出现奥迪A4，由于车系实体类型集合中没有奥迪A4，则车系＝{(宝马三系，1),(奥迪A4，2)}；第三轮对话文本中又出现宝马三系，由于已经存在于车系实体类型集合中，则更新轮次标签，即车系＝{(宝马三系，3),(奥迪A4，2)}。

在本公开实施例中，历史对话文本采用预定轮数的最近对话文本。例如，历史对话文本代表从对话发起开始至上一轮对话结束的所有对话文本，由于通常存在多轮历史对话文本，为了降低处理时间的复杂度，一般选择前3轮的历史对话文本。

得到实体类型集合、意图集合及归类的实体集合后，执行步骤S340，在步骤S340中，对实体集合、实体类型集合及意图集合中的实体、实体类型、意图分别进行向量化处理，得到多个实体向量、实体类型向量及意图向量。

根据本公开一实施例，利用one-hot方法对意图和实体类型进行向量化，利用预训练的word2vec模型对实体进行向量化，利用预训练的word2vec模型对实体进行向量化过程中不区分实体类别，当然，本发明实施例对具体采用何种向量化模型不做限制，本领域技术人员可以根据需要进行合理选择，并且，还可以根据现有方法对特定领域的向量化模型进行训练。

在得到汇总并去重的实体集合、实体类型集合及意图集合后，执行步骤S350，在步骤S350中，拼接实体向量、实体类型向量及意图向量，作为拼接向量。

可选的，可按照实体类型向量、实体向量、意图向量的向量拼接顺序将上述三种向量进行拼接，得到拼接向量，该拼接向量作为分类模型的输入。

可选的，将拼接后的向量截取至固定长度的向量，此处设置向量的固定长度为30个单词，若拼接向量长度超过30则截取前30个向量，若拼接向量长度未超过30则用0补齐，其中词向量维度为300。

得到固定长度的拼接向量后，执行步骤S360，在步骤S360中，将拼接向量输入至分类模型，得到当前轮对话文本的意图类型。

本公开中，分类模型中的意图类型包括反问意图、答案意图、语义结构意图、论元意图。反问意图：当前轮对话文本缺少主语或宾语，例如用户问“耗油怎样？”，缺少主语，则对话系统需反问用户当前对话的主语；再如用户问奥迪A4的耗油量怎样，则对话系统给出奥迪A4的耗油量呢，用户继续问“那宝马三系呢”，这时缺少宾语。答案意图：当前轮对话文本的目的是得到一个答案，比如用户问“请推荐20万左右的车”，则由于条件太过简单导致答案太多，需要继续了解用户所问的“请推荐20万左右的车”的实体。论元意图：对话系统与同一用户的对话过程中缺少主语，例如用户问奥迪A4的耗油量，对话系统对其进行回答后，用户问“价格呢”，则需要对话系统了解用户想要了解价格的实体这一意图。

根据本公开一实施例，分类模型包括特征提取器和分类器，特征提取器采用CNN网络、RNN网络、LSTM网络或者GRU网络，分类器采用SoftMax分类器。当然，本发明实施例对具体采用分类模型不做限制，本领域技术人员可以根据需要进行合理选择，并且，还可以根据现有方法对特定领域的分类模型进行训练。

在本公开中，将拼接向量输入至特征提取器，得到特征向量；输入特征向量至分类器，得到意图类型概率；选择意图类型概率中最大概率对应的意图类型，作为当前轮对话的意图类型。

根据本发明的一个实施例，首先通过对当前轮对话文本进行实体识别及意图识别，得到当前轮对话文本的实体、实体类型及意图，接下来对当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图进行融合，得到实体集合、实体类型集合及意图集合，通过对实体集合、实体类型集合及意图集合进行向量化处理，得到实体向量、实体类型向量及意图向量，并对上述向量进行拼接得到拼接向量，将拼接向量输入至训练好的分类模型，得到当前轮对话文本的意图类型。通过该方案对当前轮对话文本意图进行预测，为得到满足用户意图、更加贴合用户语境的回复内容做铺垫。

在一些实施例中，移动终端200还被配置为执行本发明的多轮对话方法400。

图4示出了根据本发明一个实施例的多轮对话方法400的示意性流程图。如图4所示，该方法基于上述的对话意图类别识别方法300实现多轮对话，方法始于步骤S410。

在步骤S410中，确定当前轮对话文本的意图类型。当前轮对话文本的意图类型是基于上述的对话意图类型识别方法确定的。

随后，执行步骤S420，在步骤S420中，通过当前轮对话文本的意图类型，预测用户意图。

本公开中，在确定当前轮对话文本的意图类型基础上，通过意图预测模型再该意图类型中预测用户意图，意图预测模型可以采用神经网络模型。

意图预测模型的训练过程如下：

获取包括多条样本数据的训练数据集，每条样本数据包括到当前轮对话为止的所有用户语句中的实体内容、上一轮对话的意图和目标意图，以及关联的意图标签；

对于每条样本数据，将该样本数据中的到当前轮对话为止的所有用户语句中的实体内容、上一轮对话的意图和目标意图进行向量化处理，并将所有向量拼接成一个固定长度的向量，输入到待训练的意图预测模型；

根据意图预测模型的输出以及所述样本数据的意图标签的差别，调整所述意图预测模型的参数。

随后，执行步骤S430，在步骤S430中，基于用户意图，确定回复内容。

随后，执行步骤S440，在步骤S440中，返回回复内容至客户端。

根据本发明的一个实施例，基于意图类型识别方法确定当前轮对话文本的意图类型，进而依据当前轮对话文本的意图类型，利用意图预测模型再当前意图类型中预测用户意图，最后通过预测的用户意图确定贴合语境的回复内容，将回复内容返回至客户端。该方案利用了意图类型识别方案得到当前轮对话文本的意图类型，再基于当前轮对话文本的意图类型实现对多轮对话中当前轮对话文本的意图预测，从而挖掘出用户潜在的需求，并根据预测意图选择对话方式，进而得到满足用户需求的回复话术，使得多轮对话整个过程更加的简洁高效，提高了多轮对话的用户满意度和完成率。

根据本发明的另一个实施例，方法400还可以包括步骤：基于当前轮对话文本的实体以及用户意图，分析下一轮用户意图。

根据本发明的又一个实施例，基于意图类型识别方法确定当前轮对话文本的意图类型，进而依据当前轮对话文本的意图类型，利用意图预测模型再当前意图类型中预测用户意图，同时基于当前轮对话文本的实体以及用户意图分析下一轮用户意图，最后通过预测的当前轮对话文本意图及下一轮用户意图确定贴合语境的回复内容，将回复内容返回至客户端。该方案利用了意图类型识别方案得到当前轮对话文本的意图类型，再基于当前轮对话文本的意图类型实现对多轮对话中当前轮对话文本的意图预测，从而更深层次的挖掘出用户潜在的需求，并根据预测意图选择最恰当的对话方式，进而得到更加满足用户需求的回复话术，使得多轮对话整个过程更加的简洁高效，进一步提高了多轮对话的用户满意度和完成率。

图5示出了根据本发明一个实施例的对话意图类型识别装置500的示意图，装置500驻留在计算设备中。参照图5，装置500包括：

实体识别单元510，用于对当前轮对话文本进行实体识别，得到当前轮对话文本的实体和实体类型，当前轮对话文本利用词典匹配和/或实体识别模型进行实体识别；实体采用如下方式进行归类：判定实体是否已经存在于类别集合中，若不存在，则添加到类别集合中，并添加该实体出现的轮次标签，若存在，则更新该实体的轮次标签。

意图识别单元520，用于对当前轮对话文本进行实体意图识别，得到当前轮对话文本的意图，当前轮对话文本利用意图识别模型进行意图识别，本公开中，实体识别模型采用BERT+CRF模型；

融合单元530，用于融合当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，得到实体集合、实体类型集合及意图集合，本公开中，上述实现过程包括如下步骤：对当前轮对话文本的实体及历史对话文本的实体归类；融合当前轮对话文本的实体类型、意图、历史对话文本的实体类型、意图及归类后的实体，得到实体集合、实体类型集合及意图集合；意图识别模型可采用TextCNN模型；历史对话文本采用预定轮数的最近对话文本；

向量化处理单元540，用于对实体集合、实体类型集合及意图集合中的实体、实体类型、意图分别进行向量化处理，得到多个实体向量、实体类型向量及意图向量；

向量拼接单元，用于拼接实体向量、实体类型向量及意图向量，作为拼接向量；

意图类型识别单元550，用于将拼接向量输入至分类模型，得到当前轮对话文本的意图类型，其中分类模型包括特征提取器和分类器，特征提取器采用CNN网络、RNN网络、LSTM网络或者GRU网络，分类器采用SoftMax分类器；上述实现过程包括：输入拼接向量至所述特征提取器，得到特征向量；输入特征向量至分类器，得到意图类型概率；选择意图类型概率中最大概率对应的意图类型，作为当前轮对话的意图类型。

实体识别单元510、意图识别单元520、融合单元530、向量化处理单元540和意图类型识别单元550所执行的具体处理，可参照上述方法300，这里不做赘述。

综上所述，本发明通过在多轮对话中识别当前轮对话文本的意图类型，为得到满足用户意图、更加贴合用户语境的回复内容做铺垫。

图6示出了根据本发明一个实施例的多轮对话装置600的示意图，装置600驻留在计算设备中。参照图6，装置600包括：

意图类型确定单元610，用于确定当前轮对话文本的意图类型，当前轮对话文本的意图类型是基于对话意图类型识别方法300确定的；

用户意图预测单元620，用于通过当前轮对话文本的意图类型，分析用户意图，还用于基于当前轮对话文本的实体以及用户意图，分析下一轮用户意图；

回复内容确定单元630，用于基于用户意图，确定回复内容；

返回单元640，用于返回回复内容至客户端。

意图类型确定单元610、用户意图分析单元620、回复内容确定单元630和返回单元640所执行的具体处理，可参照上述方法400，这里不做赘述。

综上所述，该方案利用了意图类型识别方案得到当前轮对话文本的意图类型，再基于当前轮对话文本的意图类型实现对多轮对话中当前轮对话文本的意图预测，从而更深层次的挖掘出用户潜在的需求，并根据预测意图选择最恰当的对话方式，进而得到更加满足用户需求的回复话术，使得多轮对话整个过程更加的简洁高效，进一步提高了多轮对话的用户满意度和完成率。

A2如A1所述的方法，其中，所述当前轮对话文本利用词典匹配和/或实体识别模型进行实体识别，所述当前轮对话文本利用意图识别模型进行意图识别。

A3如A2所述的方法，其中，所述实体识别模型采用BERT+CRF模型，所述意图识别模型采用TextCNN模型。

A8如A7所述的方法，其中，所述特征提取器采用CNN网络、RNN网络、LSTM网络或者GRU网络，所述分类器采用SoftMax分类器。

B10如B9所述的方法，其中，所述方法还包括：

基于所述当前轮对话文本的实体以及所述用户意图，分析下一轮用户意图。

C12如C11所述的装置，其中，所述当前轮对话文本利用词典匹配和/或实体识别模型进行实体识别，所述当前轮对话文本通过意图识别模型进行意图识别。

C13如C12所述的装置，其中，所述实体识别模型采用BERT+CRF模型，所述意图识别模型采用TextCNN模型。

C14如C11至13中任一项所述的装置，其中，所述历史对话文本采用预定轮数的最近对话文本。

C15如C11至14中任一项所述的装置，其中，所述融合单元的工作方式包括：

对所述当前轮对话文本的实体及所述历史对话文本的实体归类；

融合所述当前轮对话文本的实体类型、意图、所述历史对话文本的实体类型、意图及归类后的实体，得到所述实体集合、所述实体类型集合及所述意图集合。

C16如C15所述的方法，其中，所述实体类型采用如下方式进行分类：判定实体是否已经存在于类别集合中，若不存在，则添加到所述类别集合中，并添加该实体出现的轮次标签，若存在，则更新该实体的轮次标签。

C17如C11至16中任一项所述的装置，其中，所述分类模型包括特征提取器和分类器，所述意图类型识别单元的工作方式包括：

输入所述拼接向量至所述特征提取器，得到特征向量；

输入所述特征向量至分类器，得到意图类型概率；

选择所述意图类型概率中最大概率对应的意图类型，作为所述当前轮对话的意图类型。

C18如C17所述的方法，其中，所述特征提取器采用CNN网络、RNN网络、LSTM网络或者GRU网络，所述分类器采用SoftMax分类器。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的对话意图类型识别方法及多轮对话方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种对话意图类型识别方法，应用于多轮对话场景中，所述方法包括：

对当前轮对话文本进行实体识别，得到当前轮对话文本的实体和实体类型；

对当前轮对话文本进行实体意图识别，得到当前轮对话文本的意图；

融合所述当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，得到实体集合、实体类型集合及意图集合；

对所述实体集合、所述实体类型集合及所述意图集合中的实体、实体类型、意图分别进行向量化处理，得到多个实体向量、实体类型向量及意图向量；

拼接所述实体向量、实体类型向量及意图向量，作为拼接向量；

将所述拼接向量输入至分类模型，得到所述当前轮对话文本的意图类型。

2.如权利要求1所述的方法，其中，所述历史对话文本采用预定轮数的最近对话文本。

3.如权利要求1或2所述的方法，其中，所述融合所述当前轮对话文本的实体、实体类型、意图及所述历史对话文本的实体、实体类型、意图，包括：

4.如权利要求3所述的方法，其中，所述实体类型采用如下方式进行分类：判定实体是否已经存在于类别集合中，若不存在，则添加到所述类别集合中，并添加该实体出现的轮次标签，若存在，则更新该实体的轮次标签。

5.如权利要求1至4中任一项所述的方法，其中，所述分类模型包括特征提取器和分类器，所述输入所述拼接向量至分类模型，得到所述当前轮对话的意图类型，包括：

输入所述拼接向量至所述特征提取器，得到特征向量；

输入所述特征向量至分类器，得到意图类型概率；

6.一种多轮对话方法，所述方法包括：

确定当前轮对话文本的意图类型，所述当前轮对话文本的意图类型是基于权利要求1至5中任一项所述的对话意图类型识别方法确定的；

通过所述当前轮对话文本的意图类型，分析用户意图；

基于所述用户意图，确定回复内容；

返回所述回复内容至客户端。

7.一种对话意图类型识别装置，应用于多轮对话场景中，所述装置包括：

实体识别单元，用于对当前轮对话文本进行实体识别，得到当前轮对话文本的实体和实体类型；

意图识别单元，用于对当前轮对话文本进行实体意图识别，得到当前轮对话文本的意图；

融合单元，用于融合所述当前轮对话文本的实体、实体类型、意图及历史对话文本的实体、实体类型、意图，得到实体集合、实体类型集合及意图集合；

向量化处理单元，用于对所述实体集合、所述实体类型集合及所述意图集合中的实体、实体类型、意图分别进行向量化处理，得到多个实体向量、实体类型向量及意图向量；

向量拼接单元，用于拼接所述实体向量、实体类型向量及意图向量，作为拼接向量；

意图类型识别单元，用于将所述拼接向量输入至分类模型，得到所述当前轮对话文本的意图类型。

8.一种多轮对话装置，所述装置包括：

意图类型确定单元，用于确定当前轮对话文本的意图类型，所述当前轮对话文本的意图类型是基于权利要求1至5中任一项所述的对话意图类型识别方法确定的；

用户意图预测单元，用于通过所述当前轮对话文本的意图类型，预测用户意图，还用于基于所述当前轮对话文本的实体以及所述用户意图，分析下一轮用户意图。；

返回单元，用于返回所述回复内容至客户端。

9.一种计算设备，包括：

至少一个处理器；和

存储有程序指令的存储器，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1-5中任一项所述的方法。

10.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1-5中任一项所述的方法。