CN110795531B

CN110795531B - 一种意图识别方法、装置及存储介质

Info

Publication number: CN110795531B
Application number: CN201910959928.5A
Authority: CN
Inventors: 林田谦谨
Original assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Current assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2023-01-20
Anticipated expiration: 2039-10-10
Also published as: CN110795531A

Abstract

本发明实施例公开了一种意图识别方法、装置及存储介质，所述方法包括：获取用户的当前发言、前次回答；其中，所述前次回答表征当前发言之前的至少一次发言对应的至少一次回答中与当前方言存在预设关联度的回答；基于图神经网络模型对所述当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征；基于注意力模型对所述当前发言、前次回答所对应的特征进行预设次数的处理，提取所述当前发言、前次回答所对应的特征中的预设维度的特征；基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图。

Description

一种意图识别方法、装置及存储介质

技术领域

本发明涉及智能对话技术领域，尤其涉及一种意图识别方法、装置及存储介质。

背景技术

计算机在现代社会各个方面中起着必不可少的作用，以计算机智能识别应用技术为核心的自然语言智能识别更是飞速发展，慢慢地走入我们大众的视线。基于计算机智能识别应用技术的对话系统一般分为意图识别和对话管理两个部分，意图识别用于识别用户的目的或者说将要完成的任务，对话管理负责给出回答，填充槽位等。基于对话的意图识别是一个有挑战性的任务的原因是对话中的用户输入通常非常短，而且缺少足够的信息，需要对话系统准确理解上文含义后，再做出最终回答。

在目前，意图识别的方法一般集中在单轮对话的情境下，在对用户消息文本分词的基础上，将意图识别看作一个分类问题，然后使用机器学习模型做有监督的训练，在词的向量化上往往不能结合具体的任务，从而无法保证词向量与任务的高度切合，可能使模型收敛较慢或者更大的概率陷入局部最优，并且预训练的开销一般较大；即使存在多轮对话的情境，也是直接将当前对话前的对话文本整体编码引入当前的分析，一般不区分用户与回答者的身份，笼统地将前文文本整体引入当前分析，这使得当前回答对用户下一步消息的引导作用被忽视，事实上每一步的回答对用户下一步的消息都是有很强的关联的。

发明内容

有鉴于此，本发明实施例期望提供一种意图识别方法、装置及存储介质，能够针对多轮对话的特点，正确分析出用户的意图，从而可以提升对话的效率和用户满意度。

为达到上述目的，本发明的技术方案是这样实现的：

本发明实施例提供一种意图识别方法，所述方法包括：

获取用户的当前发言、前次回答；其中，所述前次回答表征当前发言之前的至少一次发言对应的至少一次回答中与当前方言存在预设关联度的回答；

基于图神经网络模型对所述当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征；

基于注意力模型对所述当前发言、前次回答所对应的特征进行预设次数的处理，提取所述当前发言、前次回答所对应的特征中的预设维度的特征；

基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图。

在上述方案中，所述基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图，包括：

基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的初始意图；

基于当前发言对应的初始意图、前次发言对应的意图，确定用户的当前发言对应的意图；其中，所述前次发言表征当前发言的前一句发言。

在上述方案中，所述基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的初始意图，包括：

对所述当前发言所对应的特征中的预设维度的特征、前次回答所对应的特征中的预设维度的特征进行拼接处理，得到拼接后的预设维度的特征；

对所述拼接后的预设维度的特征进行扁平化处理，转化为预设维度的向量；

基于所述预设维度的向量，确定用户的当前发言对应的初始意图。

在上述方案中，所述方法还包括：

采集目标平台上的历史对话，确定所述历史对话所包含的意图；

对所述历史对话进行预处理操作，得到至少两个词语，统计所述至少两个词语中的每个词语与对应的意图的关系强度，以及所述意图之间的关系强度；

基于统计的每个词语与对应的意图的关系强度、所述意图之间的关系强度，构建用于表征意图、词语之间的关系的异构图；其中，所述异构图的节点由意图、词语构成；

基于所述异构图，构建关于词语、意图关系的所述图神经网络模型。

在上述方案中，所述基于所述异构图，构建关于词语、意图关系的所述图神经网络模型，包括：

对所述异构图中的节点进行向量表示，得到由意图、词语组成的初始特征矩阵；

基于所述意图、词语组成的初始特征矩阵，构建关于词、意图关系的图神经网络模型。

本发明实施例还提供一种意图识别装置，所述装置包括：获取单元、第一处理单元、第二处理单元、确定单元；其中，

所述获取单元，用于获取用户的当前发言、前次回答；其中，所述前次回答表征当前发言之前的至少一次发言对应的至少一次回答中与当前方言存在预设关联度的回答；

所述第一处理单元，用于基于图神经网络模型对所述当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征；

所述第二处理单元，用于基于注意力模型对所述当前发言、前次回答所对应的特征进行预设次数的处理，提取所述当前发言、前次回答所对应的特征中的预设维度的特征；

所述确定单元，用于基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。

本发明实施例还提供一种意图识别装置，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行上述任一项所述方法的步骤。

本发明实施例所提供的意图识别方法、装置及存储介质，基于图神经网络模型对获取的当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征；再基于注意力模型提取所述当前发言、前次回答所对应的特征中的预设维度的特征；由此确定出用户的当前发言对应的意图。如此，在图神经网络的结构优势下迅速获得符合场景特性的词向量与意图向量的表达，通过前次回答对应的意图概率对用户的当前发言对应的意图概率进行修正，实现正确分析出用户的意图，从而可以提升对话的效率和用户满意度。

附图说明

图1为本发明实施例提供的一种意图识别方法的实现流程示意图；

图2为本发明实施例提供的表征意图、词语之间的关系的异构图；

图3为本发明实施例提供的一种意图识别方法中步骤103、104的具体实现流程示意图；

图4为本发明实施例提供的一种意图识别方法的另一种流程示意图；

图5为本发明实施例提供的一种意图识别装置的结构示意图；

图6为本发明实施例提供的一种意图识别装置的具体硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种意图识别方法的实现流程示意图，如图1所示，所述方法包括：

步骤101，获取用户的当前发言、前次回答；其中，所述前次回答表征当前发言之前的至少一次发言对应的至少一次回答中与当前方言存在预设关联度的回答。

需要说明的是，所述意图识别方法可以应用于B2B(Business-to-Business)场景下的任意平台上的对话装置；例如，信息推荐平台上的对话装置、购物平台上的对话装置等，本发明实施例以信息推荐平台为例进行下述说明。

实际应用中，由于B2B场景下发生的对话中包含有明确的任务导向，对话的前后语句会存在一定程度的先后顺序，且存在一定程度的相互关系；仅根据用户的当前发言来确定用户的意图，一方面可能无法很好地抓住用户的实际意图，另一方面也只能解决用户当前的需求，对用户之后可能的需求没有引导作用，对话效率得不到提升。

作为一个示例，一个业务领域是捕鱼的厂商，为了完成捕鱼、在完成捕鱼后顺利销售、按时送出产品，他需要寻求一个租赁渔船的厂商、需要被推荐下游客户、需要能提供第三方的运输服务。那么，当他在上述信息推荐平台上进行需求对话时，上述信息推荐平台上的对话装置不仅仅要求回答该用户当前的问题，很大程度上也需要针对该用户的意图做进一步的业务推进，例如，当用户租赁渔船了，就可以建议是否接入其他平台以联系下游客户群体；如此，这样有引导性的回答也很容易影响用户接下来的发言，更为迅速地了解到用户的意图。

基于此，当用户在上述信息推荐平台上进行对话时，所述信息推荐平台的对话装置需要获取用户的当前发言、前次回答。B2B场景下发生的对话中，考虑到对话间的关联度、以及存在的引导关系，上述与当前发言存在的预设关联度的回答一般是指用户的当前发言的前一句发言所对应的回答，也就是说，前次回答是指当前发言的前一句发言所对应的回答。

实际应用中，一次关于需求的会话中会包含多轮对话，一轮对话可以定义为：连续的用户发言、连续的回复。那么，一次会话可以表示为：[[[发言1]，[回复1]]；[[发言2]，[回复2]]…]的形式。如此，假设用户的当前发言是[发言2]时，当前发言的前一句发言是指[发言1]，前次回答是指[回复1]。

步骤102，基于图神经网络模型对所述当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征。

这里，由于计算机需要去识别用户的自然语言，进而才能进行后续的意图识别，对此，需要将用户的自然语言转换为计算机能识别的数据结构。基于此，所述当前发言、前次回答所对应的特征可以用矩阵来表示，即，基于图神经网络模型对所述当前发言、前次回答进行处理，可以得到当前发言对应的第一特征矩阵，前次回答对应的第二特征矩阵。所述第一、二特征矩阵由词向量、意图向量组成。

需要说明的是，由于B2B场景下发生的对话都是短对话，每次对话中涉及的发言都是句子，而句子是由词语组成，那么，可以将词语转化成计算机能识别的数值的形式来表示，再基于词语来组成句子，以此将用户的发言转化成计算机能识别的数值的形式。

这里，本发明实施例中将词语通过向量的形式来表示，即词向量；再基于词向量来得到相应的句子向量。需要说明的是，一个句子中会包含至少一个意图，这里的句子向量也称为意图向量。

所述词向量的获取可以通过CBOW(Continuous Bag of Words Model)模型、skip-gram模型等实现，所述CBOW模型通过上下文词语的词向量的均值来预测当前词语的概率值，skip－gram模型是给定目标词语预测上下文词语的概率值。需要说明的是，上述获取方式均可，本发明实施例对词向量的获取方式不作限定。

需要说明的是，基于上述CBOW模型获取的词向量的表示是初始的表示方式，考虑到不同的情景需要用到不同的方法和处理方式，对于本发明实施例的意图识别而言，为了快速获取特定场景下的用户的意图，本发明实施例利用图神经网络(Graph NeuralNetwork，GNN)的结构优势来实现迅速获得符合场景特性的词向量与意图向量的表达。

实际应用中，数据由于包含许多潜在关系可以表示为图，因此，许多领域数据可以自然的转化为图结构，比如自然语言处理、图像分析、软件工程等。GNN模型处理的数据就是图，图是一种对节点和节点间关系建模的数据结构，是一种链接主义模型，它靠图中节点之间的信息传递来捕捉图中的依赖关系。

基于此，本发明实施例中首先找到目标平台上所有的自然语言中包含的词、意图之间的关系，将词、意图之间的关系表示为对应的图结构，再基于上述CBOW模型等获取的词向量的方式，先获取词向量、再基于词向量获取意图向量，如此，基于词向量、意图向量得到目标平台上所有的自然语言所包含的词、意图的特征表达；这里，将目标平台上所有的自然语言所包含的词、意图的特征表达记为F₀。再基于F₀来训练GNN模型，得到符合场景特性的GNN模型。

需要说明的是，上述将词、意图之间的关系表示为对应的图结构可以是得到由词、意图组成的异构图，上述目标平台是指上述信息推荐平台。如此，在得到词、意图组成的异构图后，基于GNN模型对词、意图组成的异构图进行预设次数的训练，得到符合场景特性的GNN模型。这里，考虑到B2B场景下发生的对话中词语之间的关联程度，本发明实施例中的预设次数可以是2，即通过2次迭代得到符合场景特性的GNN模型。

这里，上述步骤102中的GNN模型的生成步骤主要包括：

步骤1021，采集目标平台上的历史对话，确定所述历史对话所包含的意图；

需要说明的是，所述目标平台是指应用于B2B(Business-to-Business)场景下的任意平台上，在本发明实施例中可以是指信息推荐平台。由于用户在所述信息推荐平台上会产生大量的对话，而用户的对话都会带有一定的目的性，由此，在进行处理之前，需要先去确定出采集的历史对话中所包含的意图。

这里，可以人工设定意图集合I，I中的一个元素对应一个意图。I中任意元素以动宾结构存在，表征着业务场景内不可拆分且有明确含义的最小意图单元；例如“租赁渔运船”即可标识一个意图。

这里，可以通过人工设置来选取意图的规则，如上述的动宾结构，通过机器学习来构建意图确定模型，基于意图确定模型来确定出历史对话中所包含的意图。

在处理历史对话，获取意图的过程中，可以对历史对话做标注工作，每一轮对话若正在处理某个意图，则标记意图，若没有处理某个意图，则标记无。如此，如果有K轮对话的会话，则应标记一个长度为K的序列[意图1，意图2…]。

需要说明的是，由于一句话可能包含多个意图，例如“我想租赁一艘10000箱载量的渔运船，最好还能帮我介绍下游买家”包含“租赁渔运船”和“推荐下游买家”两个意图，那么，上述长度为K的序列[意图1，意图2…]中任意一个标记的意图，同样也是一个序列。

还需要说明的是，如果多轮对话在处理同一个意图，显然标记的意图应该是相同的。例如，对话1的意图为“租赁渔运船”，标记为意图1，对话18的意图也为“租赁渔运船”，则同样应该标记为意图1。

步骤1022，对所述历史对话进行预处理操作，得到至少两个词语，统计所述至少两个词语中的每个词语与对应的意图的关系强度，以及所述意图之间的关系强度。

由于历史对话一般由意图和其他主语、宾语、语气词等组成，如历史对话：我想租赁一艘10000箱载量的渔运船可以认为是由意图“租赁渔运船”和主语、宾语、语气词等组成。主语、宾语、语气词对意图的识别影响不大，可能会影响意图的确定。如此，上述对历史对话进行预处理可以是：对历史对话进行分词、去停用词、建立词与ID的索引表等操作。

这里，所述分词处理包括两个主要步骤，第一个是词典的构造，第二个是分词算法的操作。在本发明中，我们构造的是字典树，对于分词操作，可以采用的是最短路径方法进行分词操作。例如，用户甲在上述信息推荐平台上输入对话信息：“渔运船什么时候能租？”，获取到该对话信息后，进行分词，得到分词信息：(渔运船，什么，时候，能，租，？)。

所述去停用词处理是指去掉标点，数字，单子和其他一些无意义的词；所述其他一些无意义的词是指如助词、语气词等。这里，利用人工规则对停用词进行处理，即利用人工建立的停用词词典对停用词进行处理，如对特殊符号，标点，数字等进行替换。

所述建立词与ID的索引表的处理是指对每一个词设置一个标记，由此得到一个长度为V的序列[词1，词2…]；这里，所述长度为V的序列也称为词表，词表大小为|V|。

这里，需要说明的是，由于在上述信息推荐平台上发生的对话均是短对话，可以根据实际情况设定短对话的最大长度L，长度不足L的尾部填充0，大于L的截去尾部，以此来使得对话的长度相同。

进一步地，可以对标记的意图进行one-hot编码，当历史对话中包含的意图的个数为|I|时，每一个对话的对应的意图编码为一个|I|维的向量，在其对应意图的索引上为1，其他位置全为0。对标记的词语也同样进行one-hot编码，当历史对话中包含的词语的个数为|V|时，每一个词语的对应的意图编码为一个|V|维的向量，在其对应的索引上为1，其他位置全为0。通过将词语对应的one-hot编码输入上述CBOW模型中，即可获取的该词语对应的向量表示。

需要说明的是，将每句话对应的意图分词处理后，用词向量均值来表示意图向量。例如，意图“租赁渔运船”分为“租赁”、“渔运船”两个词，假设“租赁”对应的词向量为V1，“渔运船”对应的词向量为V2，则“租赁渔运船”用(V₁+V₂)/2表示。

作为一个示例，假设词1“租赁”对应的词向量是[0.1，0.2，0.3]，词2“渔运船”对应的词向量是[0.3，0.8，0.6]，则意图“租赁渔运船”的对应的意图向量为[0.2，0.5，0.45]。

进一步地，上述步骤1022中统计意图之间的关系强度A，以及所述至少两个词语中的每个词语与对应的意图的关系强度B可以是：

关于意图之间的关系强度A：对于每一个会话中的每一轮对话，会存在意图的转移；当在对话中发生意图转移情况，则对该对话所包含的意图对应的|I|×|I|的矩阵的对角上均加1，得到意图转移后的新的|I|×|I|的矩阵，基于新的|I|×|I|的矩阵，确定意图之间关系强度，|I|为历史对话中包含的意图的个数。这里，可以通过意图向量组成的矩阵中意图1、意图2对应的索引的值来表征意图1到意图2的强度。

作为一个示例，假设第1个对话中所包含的意图可能有：“租赁渔运船”、“安装海上WIFI”；第2个对话中所包含的意图可能有：“介绍下游买家”、“提供运输服务”，可以得到一个4*4的意图矩阵；由于意图从“租赁渔运船”、“安装海上WIFI”到“介绍下游买家”、“提供运输服务”，发生的转移次数都加1。那么可以对4*4的意图矩阵的每一个对角元素均加1，由此得到新的意图矩阵。这里，所述意图矩阵是由意图向量组成的矩阵。

需要说明的是，当原始数据在不同维度上的特征的尺度不一致时，需要标准化步骤对数据进行预处理。在一些实际问题中，我们得到的样本数据都是多个维度的，即一个样本是用多个特征来表征的，这些特征的量纲和数值的量级可能都是不一样的，如果直接使用原始的数据值，那么每个数据值对结果的影响程度将是不一样的，而通过标准化处理，可以使得不同的特征具有相同的尺度(Scale)。如此，实现不同特征对参数的影响程度一样。

所述标准处理可以是：对所有矩阵的所有元素做(x-μ)/σ标准化，μ为矩阵的所有元素中大于0的数值的均值，σ为标准差，x为矩阵中的元素。

关于至少两个词语中的每个词语与对应的意图的关系强度B：在本发明实施例中，以

来表示至少两个词语中的每个词语与对应的意图的关系强度B；其中，total frequency为每个词语对应的总词频，specific frequency为每个词语在对应的意图中的词频。若一个词出现在了一个标记了意图i的一轮对话中，则该词的总词频(total frequency)加1，该词在意图i中的词频(specific frequency)加1，如果关系强度B小于意图个数的倒数1/|I|，则关系强度B记为0。如此，统计出所有的词语与意图的关系强度并保存。

步骤1023，基于统计的每个词语与对应的意图的关系强度、所述意图之间的关系强度，构建用于表征意图、词语之间的关系的异构图；其中，所述异构图的节点由意图、词语构成。

图2为本发明实施例提供的表征意图、词语之间的关系的异构图；如图2所述，词“租赁”与意图“租赁渔运船”之间的关系强度为0.85，词“租借”与意图“租赁渔运船”之间的关系强度为0.7；意图“租赁渔运船”与意图“推荐买家”之间的关系强度为0.7。

如此，基于上述对历史对话的预处理操作、统计每个词语与对应的意图的关系强度、所述意图之间的关系强度的操作，即可得到一张意图、词语之间的关系的异构图。

步骤1024，基于所述异构图，构建关于词、意图关系的所述图神经网络模型。

这里，所述基于所述异构图，构建关于词、意图关系的所述图神经网络模型，包括：对所述异构图中的节点进行向量表示，得到由意图、词语组成的初始特征矩阵；基于所述意图、词语组成的初始特征矩阵，构建关于词、意图关系的图神经网络模型。

在得到关于意图、词语之间的关系的异构图后，由于异构图的节点是由词语、意图组成，而每个词语均可基于上述CBOW模型，获取的该词语对应的向量表示，即得到词向量；每个意图可用所包含的词语对应的词向量的均值来表示，如此，即可得到意图对应的意图向量。基于词向量、意图向量，得到所述异构图中全部节点的初始的特征矩阵F₀。

作为一个示例，假设词1“租赁”对应的词向量是[0.1，0.2，0.3]，词2“渔运船”对应的词向量是[0.3，0.8，0.6]，则意图“租赁渔运船”的对应的意图向量为[0.2，0.5，0.45]，则

需要说明的是，对于上述关于意图、词语之间的关系的异构图，由于意图部分的连接是有向，由此得到一个有向的异构图；假设该异构图的邻接矩阵为A，A是一个非对称矩阵，A中所有的值都在0-1之间；这里，所述邻接矩阵A对应的出度矩阵为D_out和入度矩阵为D_in。

需要说明的是，异构图(Graph)是由节点和节点之间边的集合组成，通常表示为：G(X,Y)，其中，G表示一个图，X是图G中节点的集合，Y是图G中边的集合。以顶点X为头的弧的数目称为X的入度，记为D_in，以X为尾的弧的数目称为X的出度，记为D_out；一般指的是在有向图(DAG)中，某个节点，箭头指向它的为入度，从这个节点出发，指向别的节点的边就是出度。

如此，在得到历史对话所包含的意图、词语的特征表达F₀后，基于F₀来训练GNN模型，得到符合场景特性的GNN模型，即：

式中，

为激活函数；其中，当i＝0，得到F₁，当i＝1，得到F₂；F₁、F₂为节点的输出特征矩阵，是一个(|V|+|I|)×d的矩阵，d为特征维数。W_i为第i次传递信息时的权重矩阵，是随机初始化得到的；A为上述历史对话中意图、词语组成的异构图对应的邻接矩阵；D_out为上述邻接矩阵A对应的出度矩阵；D_in为上述邻接矩阵A对应的入度矩阵。

上式为一次图节点信息的传递过程，即一次GNN模型的迭代过程。假设节点i将接受节点j的信息，节点j给m个节点发了信息，节点i接收了来自n节点的信息，那么该公式满足节点i实际接收到的j节点的信息将除以(m+n)。如此处理可以使得连接节点少的节点将与其连接的节点看得更重要。

需要说明的是，考虑到节点传递的影响关系，在本发明实施例中对关于词、意图关系的GNN模型进行预设次数的迭代，预设次数取2；即对GNN模型迭代2次，如此，在迭代2次后，得到符合场景特性的GNN模型F₂。

在得到符合场景特性的GNN模型后，即可基于GNN模型对所述当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征。

这里，基于GNN模型对当前发言、前次回答进行处理的过程可以认为是将当前发言对应的第一矩阵、前次回答对应的第二矩阵经过F₂嵌入成L×d的矩阵；L为上述一个句子所允许的最大的长度，也可以是指一个句子包含的词的最大数量，d为上述特征矩阵对应的特征维数。这里，用R表示当前发言对应的特征矩阵，用AnS_prev表示前次回答对应的特征矩阵。

步骤103，基于注意力模型对所述当前发言、前次回答所对应的特征进行预设次数的处理，提取所述当前发言、前次回答所对应的特征中的预设维度的特征。

需要说明的是，所述注意力模型为Transformer模型，Transformer模型是一种基于Attention机制来加速深度学习训练过程的算法模型，transformer模型由2个部分组成：Encoders和Decoders，每个Encoders中分别由6个Encoder组成，而每个Decoders中同样也是由6个Decoder组成。每个Encoder的输入首先会通过一个self-attention层，通过self-attention层帮助Encoder在编码单词的过程中查看输入序列中的其他单词。Self-attention的输出会被传入一个全连接的前馈神经网络，每个encoder的前馈神经网络参数个数都是相同的，但是他们的作用是独立的。

Transformer中的每个Encoder接收一个d维度的向量的列表作为输入，然后将这些向量传递到self-attention层，self-attention层产生一个等量d维向量列表，然后进入前馈神经网络，前馈神经网络的输出也为一个d维度的列表，然后将输出向上传递到下一个encoder。

如此，通过Transformer模型对上述当前发言对应的特征矩阵R、前次回答对应的特征AnS_prev进行预设次数的处理，得到关于所述当前发言所对应的特征中的预设维度的特征。这里，通过Transformer模型对上述当前发言对应的特征矩阵R进行一次处理可以得到当前发言对应的预设维度特征，用R_out表示，那么，当通过Transformer模型对上述当前发言对应的特征矩阵R进行预设次数的处理即可得到一组{Rⁱ _out|i＝1,2,3...}，其中，i为预设次数，{Rⁱ _out|i＝1,2,3...}是指当前用户发言所对应的特征中的预设维度的特征的集合。

需要说明的是，所述预设特征是指高维度特征。为了更好地获取用户意图，本发明实施例中需要对前次回答也进行相同的处理，如此，通过Transformer模型对上述前次回答所对应的特征矩阵AnS_prev也进行一次处理可以得到前次回答所对应的特征中的预设维度的特征，用AnS_out表示；那么，当通过Transformer模型对前次回答所对应的特征矩阵AnS_prev进行预设次数的处理即可得到一组{Ansⁱ _out|i＝1,2,3...}，其中，i为预设次数，{Ansⁱ _out|i＝1,2,3...}是指前次回答对应的特征中的预设维度的特征的集合。

步骤104，基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图。

这里，所述基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图，包括：

步骤1041，基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的初始意图；

步骤1042，基于当前发言对应的初始意图、前次发言对应的初始意图，确定用户的当前发言对应的意图；其中，所述前次发言表征当前发言的前一句发言。

需要说明的是，步骤1041中基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的初始意图，包括：

需要说明的是，由于一组{Rⁱ _out|i＝1,2,3...}、{Ansⁱ _out|i＝1,2,3...}相当于卷积网络中的多个通道，并且卷积网络相比于循环递归神经网络，因为并行运算的特点，更节省运算时间，本发明实施例采用卷积的方式提取每个词语在对应位置上的信息，基于每个词语在对应位置上的信息，确定出当前发言对应的初始意图。

如此，将{Rⁱ _out|i＝1,2,3...}、{Ansⁱ _out|i＝1,2,3...}，在通道维度上拼接，然后使用Inception模块做卷积操作，提取不同尺度的特征后，将矩阵扁平化，接入全连接层，输出一个d维的向量，记为I_current；I_current表示当前发言对应的初始意图。

这里，采用Inception模块做卷积操作可以增加网络深度和宽度的同时减少参数。所述全连接层(fully connected layers，FC)在整个GNN模型中起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话，全连接层则起到将“分布式特征表示”映射到样本标记空间的作用。在实际使用中，全连接层可由卷积操作实现：对前层是全连接的全连接层可以转化为卷积核为1x1的卷积。

如此，可通过对矩阵扁平化，接入全连接层得到一个预设维度的向量；这里得到的预设维度的向量是指当前对话对应的初始意图。

在得到当前对话对应的初始意图后，上述步骤1042中，基于当前发言对应的初始意图、前次发言对应的初始意图，确定用户的当前发言对应的意图可以通过如下公式实现：

IP_finally＝σ((IP_init,IP_prev)×W_finally)

在式中，IP_init＝σ(I_current×W_ip×I^T)；其中，IP_finally是当前发言在各个意图上的概率向量，其中，概率向量最大的向量所对应的意图可认为是当前发言对应的意图。

W_ip是一个待训练的矩阵，其大小为d×d，I为当前发言对应的特征矩阵；W_finally是一个2|I|×|I|的矩阵，用于将(IP_init,IP_prev)转化为1×|I|的向量。σ是激活函数Sigmoid(x)，

需要说明的是，(IP_init,IP_prev)是一个1×2|I|的向量，将(IP_init,IP_prev)与2|I|×|I|的矩阵相乘后，即可得到1×|I|的向量。

需要说明的是，IP_init是上一步中输出的IP_finally，即前次发言对应的意图概率，这里为了便于表示，将当前发言对应的初始意图表示为I_current(a)，当前发言对应的意图概率表示为IP_finally(a)；前次发言对应的初始意图I_current(b)，前次发言对应的意图概率表示为IP_finally(b)。那么，IP_init是指IP_finally(b)。如果是第一轮对话，没有前次发言，则引入一个全0的向量来表示前次发言。

需要说明的是，所述激活函数用于作为神经网络的阈值函数，将上述概率向量映射到0-1之间。如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这种情况就是最原始的感知机(Perceptron)。如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

图3为上述步骤103、104的具体实现流程示意图，如图3所示，在得到当前发言对应的特征，前次回答对应的特征后；这里，用R表示前发言对应的特征，用AnS_prev表示前次回答对应的特征；基于Transformer模型，使用不同的Scaled Dot-Product Attention，对R、AnS_prev进行预设次数的处理，得到提取所述当前发言、前次回答所对应的特征中的预设维度的特征{Rⁱ _out|i＝1,2,3...}、{Ansⁱ _out|i＝1,2,3...}；将{Rⁱ _out|i＝1,2,3...}、{Ansⁱ _out|i＝1,2,3...}，在通道维度上拼接，然后使用若干个Inception模块做卷积操作，提取不同尺度的特征后，将矩阵扁平化，接入若干个全连接层，输出一个d维的向量，记为I_current；I_current表示当前发言对应的初始意图。对应的，对当前发言的前次发言也进行上述步骤101-104的处理，得到当前发言的前次发言对应的意图。在基于当前发言的前次发言对应的意图、当前发言的对应的初始意图，确定出最终的当前发言的对应的意图。

进一步地，可以通过确定某个会话的某轮对话的损失值来确定每轮对话的意图与上轮对话的意图的关联度。所述某个会话的某轮对话的损失loss值可以基于前次发言对应的意图概率IP_init对应的损失值、当前面发言对应的意图概率IP_finally对应的损失值共同确定。即：

其中，loss_init为前次对话对应的意图概率IP_init对应的损失值，loss_finally为当前面发言对应的意图概率IP_finally对应的损失值。

需要说明的是，将IP_init与IP_finally共同考虑，一定程度上可以防止两词激活带来的梯度损失的问题，α和β是超参数，β的权重越大，越认为每轮对话的当前意图与上轮对话的意图存在强关联，反之越认为是对话间的意图是独立的。

本发明实施例提供的意图识别方法，基于图神经网络模型对获取的当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征；再基于注意力模型提取所述当前发言、前次回答所对应的特征中的预设维度的特征；由此确定出用户的当前发言对应的意图。如此，在图神经网络的结构优势下迅速获得符合场景特性的词向量与意图向量的表达，通过前次回答对应的意图概率对用户的当前发言对应的意图概率进行修正，实现正确分析出用户的意图，从而可以提升对话的效率和用户满意度。

图4为本发明实施例提供的一种意图识别方法的另一种流程示意图。如图4所示，所述方法包括：

步骤401，获取历史语料。

需要说明的是，所述历史语料为应用于B2B(Business-to-Business)场景下的任意平台上发生的历史对话所产生的语料。例如，信息推荐平台上的对话装置、购物平台上的对话装置等，本发明实施例以信息推荐平台为例进行说明。

步骤402，获取用户的当前发言。

需要说明的是，用户的当前发言可以是信息推荐平台中的对话装置上的采集设备来采集用户的当前发言。用户的当前发言可以是语音数据、文本数据等。

还需要说明的是，步骤402、401之间没有先后关系。

步骤403，将前次回答、用户的当前发言作为意图识别模型的输入，得到用户当前发言的高维表达、意图概率向量。

需要说明的是，前次回答即是指当前发言的上一条回答，所述当前发言的上一条回答用于辅助当前意图识别。在训练阶段，所述前次回答可以由数据集直接给出。

还需要说明的是，在得到前次发言对应的意图概率向量IP_init后，再次将意图概率向量IP_init输入意图识别模型，通过上一轮的意图来辅助当前发言的意图识别。

步骤404，将用户当前发言的高维表达、意图概率向量输入对话生曾模块，生成回答。

需要说明的是，可以基于当前发言的高维表达、意图概率向量，由对话生曾模块来生成当前发言对应的回答。

基于前述发明构思，本发明实施例还提供的一种意图识别装置，图5为本发明实施例提供的一种意图识别装置的结构示意图，如图5所示，所述意图识别装置500，包括：获取单元501、第一处理单元502、第二处理单元503、确定单元504；其中，

所述获取单元501，用于获取用户的当前发言、前次回答；其中，所述前次回答表征当前发言之前的至少一次发言对应的至少一次回答中与当前方言存在预设关联度的回答；

所述第一处理单元502，用于基于图神经网络模型对所述当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征；

所述第二处理单元503，用于基于注意力模型对所述当前发言、前次回答所对应的特征进行预设次数的处理，提取所述当前发言、前次回答所对应的特征中的预设维度的特征；

所述确定单元504，用于基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图。

需要说明的是，所述确定单元504，还包括初始意图确定单元、意图确定单元；

所述初始意图确定单元，用于基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的初始意图；

所述意图确定单元，用于基于当前发言对应的初始意图、前次发言对应的初始意图，确定用户的当前发言对应的意图；其中，所述前次发言表征当前发言的前一句发言。

所述初始意图确定单元，还用于对所述当前发言所对应的特征中的预设维度的特征、前次回答所对应的特征中的预设维度的特征进行拼接处理，得到拼接后的预设维度的特征；

所述意图识别装置500，还包括：建模单元；

所述建模单元，包括采集单元、预处理单元、构图单元、建模子单元；其中，

所述采集单元，用于采集目标平台上的历史对话，确定所述历史对话所包含的意图；

所述预处理单元，用于对所述历史对话进行预处理操作，得到至少两个词语，统计所述至少两个词语中的每个词语与对应的意图的关系强度，以及所述意图之间的关系强度；

所述构图单元，用于基于统计的每个词语与对应的意图的关系强度、所述意图之间的关系强度，构建用于表征意图、词语之间的关系的异构图；其中，所述异构图的节点由意图、词语构成；

所述建模子单元，用于基于所述异构图，构建关于词、意图关系的所述图神经网络模型。

所述建模子单元，还用于对所述异构图中的节点进行向量表示，得到由意图、词语组成的初始特征矩阵；基于所述意图、词语组成的初始特征矩阵，构建关于词、意图关系的图神经网络模型。

本发明实施例提供的意图识别装置，基于图神经网络模型对获取的当前发言、前次回答进行处理，得到所述当前发言、前次回答所对应的特征；再基于注意力模型提取所述当前发言、前次回答所对应的特征中的预设维度的特征；由此确定出用户的当前发言对应的意图。如此，在图神经网络的结构优势下迅速获得符合场景特性的词向量与意图向量的表达，通过前次回答对应的意图概率对用户的当前发言对应的意图概率进行修正，实现正确分析出用户的意图，从而可以提升对话的效率和用户满意度。

在本发明实施例中的各组成部分可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时，可以存储在一个计算机可读取存储介质中，基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

因此，本发明实施例提供了一种计算机存储介质，该计算机存储介质存储有计算机程序，所述计算机程序被至少一个处理器执行时实现上述实施例所述的步骤。

参见图6，示出了本发明实施例提供的一种意图识别装置600的具体硬件结构，包括：网络接口601、存储器602和处理器603；各个组件通过总线系统604耦合在一起。可理解，总线系统604用于实现这些组件之间的连接通信。总线系统604除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线系统604。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种意图识别方法，其特征在于，所述方法包括：

获取用户的当前发言、前次回答；其中，所述前次回答表征当前发言之前的至少一次发言对应的至少一次回答中与当前发言存在预设关联度的回答；根据所述当前发言中每个词与意图之间关系强度、所述当前发言中意图之间的关系强度、前次回答中包含词和意图之间的关系强度、所述前次回答包含的意图之间的关系强度，构建表征意图、词语之间的关系的异构图；

基于图神经网络模型对所述异构图进行处理，得到所述当前发言、前次回答所对应的特征；

2.根据权利要求1所述的方法，其特征在于，所述基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的意图，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述当前发言、前次回答所对应的特征中的预设维度的特征，确定用户的当前发言对应的初始意图，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述异构图，构建关于词语、意图关系的所述图神经网络模型，包括：

6.一种意图识别装置，其特征在于，所述装置包括：获取单元、第一处理单元、第二处理单元、确定单元；其中，

所述第一处理单元，用于根据所述当前发言中每个词与意图之间关系强度、所述当前发言中意图之间的关系强度、前次回答中包含词和意图之间的关系强度、所述前次回答包含的意图之间的关系强度，构建表征意图、词语之间的关系的异构图；基于图神经网络模型对所述异构图进行处理，得到所述当前发言、前次回答所对应的特征；

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。

8.一种意图识别装置，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，其中，所述处理器用于运行所述计算机程序时，执行权利要求1至5任一项所述方法的步骤。