CN111143561B

CN111143561B - 意图识别模型训练方法、装置及电子设备

Info

Publication number: CN111143561B
Application number: CN201911368294.2A
Authority: CN
Inventors: 张红阳; 韩磊; 孙叔琦; 孙珂; 李婷婷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-04-07
Anticipated expiration: 2039-12-26
Also published as: CN111143561A

Abstract

本申请提出一种意图识别模型训练方法、装置及电子设备，涉及人工智能技术领域。其中，该方法包括：确定训练样本集中各意图对应的槽位特征；根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量；利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量；利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图；根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器及预设的解码器进行更新。由此，通过这种意图识别模型训练方法，提升了深度神经网络模型在小规模训练样本下的意图识别的准确性。

Description

意图识别模型训练方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提出一种意图识别模型训练方法、装置及电子设备。

背景技术

在人机对话交互过程中，机器需要理解对话语句的意图，目前通常使用基于深度神经网络的分类模型进行意图分类，从而得到一条对话的意图。

相关技术中，为了保证分类模型的准确性，通常需要数十万级以上的标注训练语料训练意图分类模型。但是在实际应用中，由于标注数据的成本较高，冷启动阶段通常只有万级别甚至百级别的标注训练数据。在万级别以下的小规模训练语料上，由于训练数据的不足，深度神经网络模型很难对对话的语义进行准确的建模，从而导致意图识别的准确性较差，影响了用户体验。

发明内容

本申请提出的意图识别模型训练方法、装置及电子设备，用于解决相关技术中，基于深度神经网络训练意图识别模型时，若训练语料的规模较小，由于训练数据的不足，深度神经网络模型很难对对话的语义进行准确的建模，从而导致意图识别的准确性较差，影响了用户体验的问题。

本申请一方面实施例提出的意图识别模型训练方法，包括：对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征；根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量；利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量；利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图；根据每个样本对应的预测意图与标注意图的差异，对所述第一预设的编码器及所述预设的解码器进行更新。

本申请另一方面实施例提出的意图识别模型训练装置，包括：第一确定模块，用于对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征；第二确定模块，用于根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量；第三确定模块，用于利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量；第四确定模块，用于利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图；第一更新模块，用于根据每个样本对应的预测意图与标注意图的差异，对所述第一预设的编码器及所述预设的解码器进行更新。

本申请再一方面实施例提出的电子设备，其包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的意图识别模型训练方法。

本申请又一方面实施例提出的存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行如前所述的意图识别模型训练方法。

上述申请中的任一个实施例具有如下优点或有益效果：通过结合训练样本集中各意图对应的槽位特征，对意图识别模型进行训练，从而提升了深度神经网络模型在小规模训练样本下的意图识别的准确性，改善了用户体验。因为采用了对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征，并根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量，以及利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量，之后利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图，进而根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器及预设的解码器进行更新的技术手段，所以克服了在小规模训练语料下，深度神经网络模型很难对对话的语义进行准确的建模，从而导致意图识别的准确性较差的问题，进而达到了提升了深度神经网络模型在小规模训练样本下的意图识别的准确性，改善了用户体验的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1为本申请实施例所提供的一种意图识别模型训练方法的流程示意图；

图2为本申请实施例所提供的另一种意图识别模型训练方法的流程示意图；

图3为本申请实施例提供的一种意图识别模型训练装置的结构示意图；

图4为本申请实施例提供的电子设备的结构示意图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例针对相关技术中，基于深度神经网络训练意图识别模型时，若训练语料的规模较小，由于训练数据的不足，深度神经网络模型很难对对话的语义进行准确的建模，从而导致意图识别的准确性较差，影响了用户体验的问题，提出一种意图识别模型训练方法。

下面参考附图对本申请提供的意图识别模型训练方法、装置、电子设备及存储介质进行详细描述。

下面结合图1，对本申请实施例提供的意图识别模型训练方法进行详细说明。

图1为本申请实施例所提供的一种意图识别模型训练方法的流程示意图。

如图1所示，该意图识别模型训练方法，包括以下步骤：

步骤101，对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征。

其中，意图对应的槽位特征，可以包括意图对应的槽位(即在意图对应的样本中出现过的槽位)、及各槽位在样本中的位置特征；或者，还可以包括意图对应的必要槽位及意图对应的最小槽位覆盖比。

其中，每个意图对应的必要槽位为该意图对应的每个样本均包含的槽位；槽位覆盖比，为样本中槽位部分长度占样本总长度的比例；最小槽位覆盖比，为意图对应的样本集中的最小槽位覆盖比。

需要说明的是，实际使用时，意图对应的槽位特征中包括的具体槽位信息，可以根据实际需要及具体的应用场景预设，本申请实施例对此不作限定。

在本申请实施例中，训练样本集中的每个样本均具有对应的标注信息，其中，样本对应的标注信息包括该样本对应的标注意图及该样本中对应的标注槽位。从而，在对训练样本集中的意图及槽位进行统计时，可以根据每个样本对应的标注意图，确定训练样本集中包括的所有意图，进而根据每个意图对应的样本包括的标注槽位，确定各意图对应的槽位特征。

可选的，若槽位特征中包括槽位、及各槽位在样本中的位置特征，则可以在确定出训练样本集中包括的各意图之后，统计各意图对应的样本中出现过的各槽位，以及各槽位在样本中的位置特征，进而将意图对应的样本中出现过的各槽位，以及各槽位在样本中的位置特征，确定为该意图对应的槽位特征。

可选的，若槽位特征中包括意图对应的必要槽位及意图对应的最小槽位覆盖比，则可以在确定出训练样本集中包括的各意图之后，统计每个意图对应的样本中均出现过的槽位，并将该槽位确定为该意图的必要槽位；进而统计意图对应的样本集中每个样本的槽位覆盖比，并将意图对应的样本集中槽位覆盖比的最小值，确定为意图对应的最小槽位覆盖比。

举例来说，训练样本集中包括四条样本，如表1所示，分别为样本1、样本2、样本3和样本4，其中，ROUTE是查询路线意图，TRAFFIC是询问路况意图，user_navi是导航槽位，kw_go是表示“去”槽位，user_route_arrival是目的地槽位，kw_traffic是路况关键词槽位，user_travel_type是出行方式槽位。从而，可以确定训练样本集中包括的各意图为“ROUTE、TRAFFIC”；“ROUTE”意图对应的样本为样本1和样本2，由于样本1与样本2中均包括槽位kw_go与槽位user_route_arrival，样本2的槽位覆盖比为6/6＝100％，样本2的槽位覆盖比为6/11＝54.5％，从而可以确定“ROUTE”意图对应的槽位特征为“必要槽位：kw_go、user_route_arrival；最小槽位覆盖比：54.5％”；“TRAFFIC”意图对应的样本为样本3和样本4，由于样本3和样本4中均包括槽位kw_traffic，样本3的槽位覆盖比为8/8＝100％，样本4的槽位覆盖比为2/4＝50％，从而可以确定“TRAFFIC”意图对应的槽位特征为“必要槽位：kw_traffic；最小槽位覆盖比：50％”。

表1

步骤102，根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量。

其中，样本的第一意图向量，是指该样本对应的意图候选知识，可以用于指示与该样本的关联性较高的各意图。需要说明的是，第一意图向量的维度与训练样本集中包括的意图数量相同，且第一意图向量中的每一维对应训练样本集中的一个意图，每一维元素的取值用于指示该维对应的意图是否为样本的候选意图。

举例来说，包括如表1所示的四条样本的训练样本集，包括两个意图“ROUTE”和“TRAFFIC”，可以采用第一意图向量的第一维表示意图“ROUTE”，第二维表示意图“TRAFFIC”，若确定样本1的第一意图向量为[1,0]，则可以确定意图“ROUTE”与样本1关联，意图“TRAFFIC”与样本1不关联。

作为一种可能的实现方式，若意图对应的槽位特征中包括意图对应的槽位、及各槽位在样本中的位置特征，则可以首先确定样本的各标注槽位与各意图对应的槽位的匹配度，若样本包括N各标注槽位，且样本的M个标注槽位与第一意图对应的槽位匹配，即第一意图对应的槽位中包括样本的M个标注槽位，若M/N大于第一阈值，则可以将第一意图确定为该样本的候选意图；之后根据该样本中M个标注槽位的位置特征与各候选意图中与之匹配的槽位的位置特征的匹配度，确定该样本对应的第一意图向量。可选的，若该样本的M个标注槽位中的K个槽位的位置特征，与第二意图(候选意图中的任意一个或几个意图)中K个槽位的位置特征匹配，且K/M大于第二阈值，则可以确定第二意图与该样本的关联性较高，从而可以将该样本对应的第一意图向量中第二意图的对应维度的取值设为1，第一意图向量中其他维度的取值设为0，从而确定出该样本对应的第一意图向量。

需要说明的是，实际使用时，可以根据实际需要预设第一阈值和第二阈值的具体取值，本申请实施例对此不做限定。比如，第一阈值可以为0.6，第二阈值可以为0.8。

作为一种可能的实现方式，意图对应的槽位特征中可以包括意图对应的必要槽位及最小槽位覆盖比。即在本申请实施例一种可能的实现形式中，上述步骤102，可以包括：

根据每个样本与各意图对应的必要槽位的匹配关系，确定每个样本对应的候选意图；

根据每个样本的槽位覆盖比，与对应的各候选意图的最小槽位覆盖比间的关系，确定每个样本的第一意图向量。

在本申请实施例中，若样本中包括与第一意图对应的必要槽位匹配的标注槽位，则可以将第一意图确定为该样本的候选意图；之后确定该样本的槽位覆盖比，以及各候选意图对应的最小槽位覆盖比，进而根据该样本的槽位覆盖比，与对应的各候选意图的最小槽位覆盖比间的关系，确定该样本的第一意图向量。

具体的，若样本的槽位覆盖比，大于或等于第一候选意图的最小槽位覆盖比，则确定该样本的第一意图向量中与所述第一候选意图对应的元素取第一预设值；若样本的槽位覆盖比，小于第二候选意图的最小槽位覆盖比，则确定该样本的第一意图向量中与所述第二候选意图对应的元素取第二预设值。其中，第一预设值可以为1，第二预设值可以为0，本申请实施例对此不做限定。

需要说明的是，确定每个样本的第一意图向量的方式，可以包括但不限于以上列举的情形。实际使用时，可以根据实际需要选择确定每个样本的第一意图向量的方式，本申请实施例对此不做限定。

步骤103，利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量。

其中，第一预设的编码器，可以是训练的用于根据语句本身的信息进行意图识别的深度神经网络模型。比如，可以为双向循环神经网络(BidirectionalRecurrentNeuralNetwork,简称Bi-RNN)。

在本申请实施例中，可以首先对每个样本进行分词处理，以确定每个样本中包括的各分词，之后对每个样本中包括的各分词进行词性识别，确定每个样本包括的各分词的词性特征，以及对每个样本包括的各分词进行命名实体识别，以确定每个样本中包括的各实体。进而将每个样本对应的分词处理结果、词性识别结果、命名实体识别结果分别输入嵌入层，以确定每个样本对应的分词向量、词性向量及实体向量。

在确定出每个样本对应的分词向量、词性向量及实体向量之后，即可利用第一预设的编码器对每个样本对应的分词向量、词性向量及实体向量进行编码处理，以通过深度神经网络模型对每个样本进行意图识别，确定每个样本对应的第二意图向量。

进一步的，在对每个样本对应的分词向量、词性向量及实体向量进行编码处理之前，还可以首先对每个样本对应的分词向量、词性向量及实体向量进行拼接，以确定更好的融合每个样本多个维度的特征信息，提高意图识别的准确性。即在本申请实施例一种可能的实现形式中，上述步骤103，之前，还可以包括：

将每个样本对应的分词向量、词性向量及实体向量进行拼接，生成每个样本对应的特征向量；

相应的，上述步骤103，可以包括：

利用第一预设的编码器，对每个样本对应的特征向量进行编码处理，确定每个样本对应的第二意图向量。

作为一种可能的实现方式，可以采用将每个样本对应的分词向量、词性向量及实体向量进行相加的方式，实现每个样本对应的分词向量、词性向量及实体向量的拼接，即将每个样本对应的分词向量、词性向量及实体向量之和，确定为每个样本对应的特征向量，从而特征向量中不仅可以将每个样本对应的所有向量的特征都纳入，且不会改变每个向量原有的意义。

在本申请实施例中，将每个样本对应的分词向量、词性向量及实体向量进行拼接之后，则可以采用第一预设的编码器直接对每个样本对的特征向量进行编码处理，以确定每个样本对应的第二意图向量。

作为一种可能的实现方式，确定出每个样本对应的第二意图向量之后，还可以对第二意图向量进行进一步的处理，以使得每个样本对应的第二意图向量的维度数量与训练样本集中的意图数量相同，即使得第二意图向量维度数量与第一意图向量的维度数量相同。比如，可以在通过第一预设的编码器确定出每个样本对应的第二意图向量之后，将每个样本对应的第二意图向量经过最大池化层和全连接层的处理，使得每个样本对应的第二意图向量的维度数量与训练样本集中的意图数量相同，以便于后续的处理。

步骤104，利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图。

在本申请实施例中，由于样本对应的第一意图向量包含了样本对应的意图候选知识，样本对应的第二意图向量为第一预设的编码器对样本进行意图识别的结果，从而可以利用样本对应的第一意图向量指导预设的解码器对样本进行意图识别的过程，以提高小规模训练样本情况下，意图识别的准确性。因此，在本申请实施例中，可以利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图。

进一步的，可以将每个样本对应的第一意图向量与第二意图向量进行融合之后，再利用预设的解码器对融合后的向量进行解码处理。即在本申请实施例一种可能的实现形式中，上述步骤104之前，还可以包括：

分别计算第一意图向量中每个元素与第二意图向量中对应元素的和，生成预设的解码器待处理的意图向量。

作为一种可能的实现方式，对于每个样本，可以分别计算第一意图向量中每个元素与第二意图向量中对应元素的和，生成预设的解码器待处理的意图向量，即将每个样本对应的第一意图向量与第二意图向量之和，确定为每个样本对应的意图向量，从而使得意图向量中融合了样本的意图候选指示信息与第一预设的解码器对样本的意图识别信息，以通过样本的意图候选指示信息对预设的解码器最终的意图识别过程进行指导，提高了意图识别的准确性。

步骤105，根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器及预设的解码器进行更新。

在本申请实施例中，由于样本对应的标注意图为样本的真实意图，因此样本对应的预测意图与标注意图的差异，可以反映第一预设的编码器及预设的解码器的意图识别的准确性，从而可以根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器及预设的解码器的参数进行更新。

作为一种可能的实现方式，可以根据每个样本对应的预测意图与标注意图的匹配度，确定出预测意图与标注意图的匹配度大于第三阈值的第一样本数量，进而根据第一样本数量与训练样本集中包括的样本数量的比值，确定是否需要对第一预设的编码器及预设的解码器进行更新。

具体的，若第一样本数量与训练样本集中包括的样本数量的比值大于或等于第四阈值，则可以确定第一预设的编码器与预设的解码器的性能符合意图预测需求，从而可以不对第一预设的解码器和预设的编码器进行更新，即可以完成意图识别模型的训练过程；若第一样本数量与训练样本集中包括的样本数量的比值小于第四阈值，则可以确定第一预设的编码器与预设的解码器的性能不符合意图预测需求，从而可以对第一预设的编码器与预设的解码器进行更新，并进入下一轮的训练过程，直至第一预设的编码器与预设的解码器的性能符合意图预测需求，则完成意图识别模型的训练过程。

需要说明的是，由于在意图识别模型的训练过程中，融合了样本的候选意图知识，从而可以提高在小规模训练样本下，意图识别模型的准确性。

根据本申请实施例的技术方案，通过对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征，并根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量，以及利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量，之后利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图，进而根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器及预设的解码器进行更新。由此，通过结合训练样本集中各意图对应的槽位特征，对意图识别模型进行训练，从而提升了深度神经网络模型在小规模训练样本下的意图识别的准确性，改善了用户体验。

在本申请一种可能的实现形式中，为更好的表达样本的候选意图知识，在利用预设的解码器进行解码之前，还可以对样本的第一意图向量进行编码，以提高意图模型的训练效果。

下面结合图2，对本申请实施例提供的意图识别模型训练方法进行进一步说明。

图2为本申请实施例所提供的另一种意图识别模型训练方法的流程示意图。

如图2所示，该意图识别模型训练方法，包括以下步骤：

步骤201，对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征。

步骤202，根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量。

上述步骤201-202的具体实现过程及原理，可以参照上述实施例的详细描述此处不再赘述。

步骤203，利用第二预设的编码器，对每个样本对应的第一意图向量进行编码处理，确定每个样本对应的第三意图向量。

在本申请实施例中，由于每个样本通常仅与训练样本集中的少数几个意图的关联性较高，从而导致样本对应的第一意图向量非常稀疏，从而不仅浪费存储空间，而且不能更好的表达样本的意图候选知识，因此，在本申请实施例中，确定出样本对应的第一意图向量之后，可以利用第二预设的编码器，对样本对应的第一意图向量进行编码处理，确定样本对应的第三意图向量，以通过第三意图向量更好的表示样本的意图候选知识。

举例来说，第二预设的编码器可以由嵌入层和全连接层构成，从而可以在确定出样本对应的第一意图向量之后，将样本对应的第一意图向量输入嵌入层和全连接层，进而通过全连接层输出样本对应的第三意图向量。

步骤204，利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量。

上述步骤204的具体实现过程及原理，可以参照上述实施例的详细描述，此处不再赘述。

步骤205，利用预设的编码器，对每个样本对应的第二意图向量及第三意图向量进行解码处理，确定每个样本对应的预测意图。

在本申请实施例中，确定出样本对应的第三意图向量之后，即可采用预设的编码器对样本对应的第二意图向量及第三意图向量进行解码处理，以对样本进行意图识别处理，确定样本对应的预测意图。

需要说明的是，预设的解码器对样本对应的第二意图向量及第三意图向量进行解码处理的具体实现过程及原理，与预设的解码器对样本对应的第二意图向量及第一意图向量进行解码处理的具体实现过程及原理相同，可以参照上述实施例的详细描述，此处不再赘述。

步骤206，根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器、预设的解码器及第二预设的编码器进行更新。

在本申请实施例中，确定出每个样本对应的预测意图之后，即可以根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器、预设的解码器及第二预设的编码器进行更新，具体的更新过程可以参照上述实施例的详细描述，此处不再赘述。

进一步的，还可以根据训练样本集中包含的所有槽位，对预设的槽位词典进行增补，以在利用训练完成的意图识别模型进行意图识别时，可以根据预设的槽位词典确定待识别的语句总包含的各槽位。即在本申请实施例一种可能的实现形式中，上述方法，还可以包括：

利用训练样本集中每个样本包含的所有槽位，对预设的槽位词典进行增补，生成槽位词典；

在获取到待识别的语句时，根据待识别语句中的各分词分别与所述槽位词典中各槽位的匹配关系，确定待识别语句中包含的各槽位。

其中，槽位词典中包括槽位及槽位对应的槽位词表。

作为一种可能的实现方式，可以利用训练样本集中每个样本包含的所有槽位，确定各槽位对应的槽位词表。若预设的槽位词典中未包括第一槽位，则可以将第一槽位及第一槽位对应的分词加入预设的槽位词典，以使槽位词典中包括第一槽位及第一槽位对应的槽位词表；若预设的槽位词典中包括第二槽位，但第二槽位对应的槽位词表中未包括第一分词，则可以将第一分词加入第二槽位对应的槽位词表，以对槽位词典中第二槽位对应的槽位词表进行增补，从而生成槽位词典。

在本申请实施例中，利用训练完成的意图识别模型，对待识别的语句进行意图识别时，可以首先对待识别的语句进行分词处理，以确定待识别的语句包括的各分词，进而根据待识别的语句包括的各分词与生成的槽位词典，确定槽位词典中是否包括待识别的语句中的各分词。若槽位词典中的第三槽位对应的槽位词典中包括待识别的语句中的分词，则可以将第三槽位确定为待识别的语句包含的槽位。

需要说明的是，在确定出待识别的语句包含的各槽位之后，可以根据待识别的语句中包含的各槽位与训练样本集中各意图的必要槽位的匹配度，确定待识别的语句的候选意图，进而根据待识别语句的槽位覆盖比与各候选意图的最小槽位覆盖比的关系，确定待识别的语句的第一意图向量；并对待识别的语句分别进行分词处理、词性识别处理及命名实体识别处理，确定待识别的语句对应的分词向量、词性向量及实体向量，进而通过第一预设的编码器对待识别的语句对应的分词向量、词性向量及实体向量进行编码处理，以确定待识别语句对应的第二意图向量，进而利用预设的解码器对待识别的语句对应的第一意图向量及第二意图向量进行解码处理，以确定待识别的语句对应的意图，从而完成对待识别语句的意图识别过程。

举例来说，训练样本集包括如表1所示的四条样本，则生成的槽位词典包括“user_navi:{导航}、kw_go:{去}、user_route_arrival:{西二旗}、kw_traffic:{路况、堵吗}”，待识别的语句为“导航去西二旗怎么走”，从而根据生成的槽位词典，确定待识别的语句包含的各槽位为“user_navi:导航，kw_go:去，user_route_arrival:西二旗”

由于待识别的语句包含的槽位中含有意图“ROUTE”的必要槽位kw_go和user_route_arrival，且槽位覆盖比为6/9＝66.7％，大于意图“ROUTE”的最小槽位覆盖比54.5％，从而可以确定意图“ROUTE”与待识别的语句关联；由于待识别的语句包含的槽位中不包含意图“TRAFFIC”的必要槽位kw_traffic，则可以确定待识别的语句与意图“TRAFFIC”不关联，则可以确定待识别的语句对应的第一意图向量为[1,0]。

之后对待识别的语句分别进行分词处理、词性识别处理及命名实体识别处理，确定对待识别的语句的分词结果为：“导航”、“去”、“西二旗”、“怎么”、“走”，词性识别结果为“动词动词地点名词代词动词”，命名实体识别结果为“NorNorsys_loc Nor Nor”，进而利用第一预设的编码器对待识别的语句对应的分词向量、词性向量及实体向量进行编码处理，以确定待识别语句对应的第二意图向量，进而利用预设的解码器对待识别的语句对应的第一意图向量及第二意图向量进行解码处理，确定待识别的语句的意图为“ROUTE”意图。

根据本申请实施例的技术方案，通过对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征，并根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量，以及利用第二预设的编码器，对每个样本对应的第一意图向量进行编码处理，确定每个样本对应的第三意图向量，之后利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量，进而利用预设的解码器，对每个样本对应的第二意图向量及第三意图向量进行解码处理，确定每个样本对应的预测意图，以根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器、预设的解码器及第二预设的编码器进行更新。由此，通过结合训练样本集中各意图对应的槽位特征，对意图识别模型进行训练，并利用预设的第二编码器对样本的第一意图向量进行处理，从而丰富了样本的意图候选知识，进一步提升了深度神经网络模型在小规模训练样本下的意图识别的准确性，改善了用户体验。

为了实现上述实施例，本申请还提出一种意图识别模型训练装置。

图3为本申请实施例提供的一种意图识别模型训练装置的结构示意图。

如图3所示，该意图识别模型训练装置30，包括：

第一确定模块31，用于对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征；

第二确定模块32，用于根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量；

第三确定模块33，用于利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量；

第四确定模块34，用于利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图；

第一更新模块35，用于根据每个样本对应的预测意图与标注意图的差异，对第一预设的编码器及预设的解码器进行更新。

在实际使用时，本申请实施例提供的意图识别模型训练装置，可以被配置在任意电子设备中，以执行前述意图识别模型训练方法。

在本申请一种可能的实现形式中，上述各意图对应的槽位特征，包括：意图对应的必要槽位及最小槽位覆盖比，其中，每个意图对应的必要槽位为该意图对应的每个样本均包含的槽位，槽位覆盖比，为样本中槽位部分长度占样本总长度的比例，最小槽位覆盖比，为意图对应的样本集中的最小槽位覆盖比；

相应的，上述第二确定模块32，包括：

第一确定单元，用于根据每个样本与各意图对应的必要槽位的匹配关系，确定每个样本对应的候选意图；

第二确定单元，用于根据每个样本的槽位覆盖比，与对应的各候选意图的最小槽位覆盖比间的关系，确定每个样本的第一意图向量。

进一步的，在本申请另一种可能的实现形式中，上述第二确定单元，具体用于：

若样本的槽位覆盖比，大于或等于第一候选意图的最小槽位覆盖比，则确定该样本的第一意图向量中与第一候选意图对应的元素取第一预设值；

若样本的槽位覆盖比，小于第二候选意图的最小槽位覆盖比，则确定该样本的第一意图向量中与第二候选意图对应的元素取第二预设值。

在本申请一种可能的实现形式中，上述意图识别模型训练装置30，还包括：

第五确定模块，用于利用第二预设的编码器，对每个样本对应的第一意图向量进行编码处理，确定每个样本对应的第三意图向量；

相应的，上述第四确定模块34，包括：

第三确定单元，用于利用所述预设的编码器，对每个样本对应的第二意图向量及第三意图向量进行解码处理，确定每个样本对应的预测意图；

相应的，上述意图识别模型训练装置30，还包括：

第二更新模块，用于根据每个样本对应的预测意图与标注意图的差异，对第二预设的编码器进行更新。

进一步的，在本申请另一种可能的实现形式中，上述意图识别模型训练装置30，还包括：

第一生成模块，用于将每个样本对应的分词向量、词性向量及实体向量进行拼接，生成每个样本对应的特征向量；

相应的，上述第三确定模块33，包括：

第四确定单元，用于利用第一预设的编码器，对每个样本对应的特征向量进行编码处理，确定每个样本对应的第二意图向量。

进一步的，在本申请再一种可能的实现形式中，上述意图识别模型训练装置30，还包括：

第二生成模块，用于分别计算第一意图向量中每个元素与第二意图向量中对应元素的和，生成预设的解码器待处理的意图向量。

进一步的，在本申请又一种可能的实现形式中，上述意图识别模型训练装置30，还包括：

第三生成模块，用于利用训练样本集中每个样本包含的所有槽位，对预设的槽位词典进行增补，生成槽位词典；

第六确定模块，用于在获取到待识别的语句时，根据待识别语句中的各分词分别与槽位词典中各槽位的匹配关系，确定待识别语句中包含的各槽位。

需要说明的是，前述对图1、图2所示的意图识别模型训练方法实施例的解释说明也适用于该实施例的意图识别模型训练装置30，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图4所示，是根据本申请实施例的意图识别模型训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，该电子设备包括：一个或多个处理器401、存储器402，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个电子设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。

存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的意图识别模型训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的意图识别模型训练方法。

存储器402作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的意图识别模型训练方法对应的程序指令/模块(例如，附图3所示的第一确定模块31、第二确定模块32、第三确定模块33、第四确定模块34及第一更新模块35)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的意图识别模型训练方法。

存储器402可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据意图识别模型训练方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器402可选包括相对于处理器401远程设置的存储器，这些远程存储器可以通过网络连接至意图识别模型训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

意图识别模型训练方法的电子设备还可以包括：输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接，图4中以通过总线连接为例。

输入装置403可接收输入的数字或字符信息，以及产生与意图识别模型训练方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种意图识别模型训练方法，其特征在于，包括：

对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征；

根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量；

利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量；

利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图；

根据每个样本对应的预测意图与标注意图的差异，对所述第一预设的编码器及所述预设的解码器进行更新。

2.如权利要求1所述的方法，其特征在于，所述各意图对应的槽位特征，包括：意图对应的必要槽位及最小槽位覆盖比，其中，每个意图对应的必要槽位为该意图对应的每个样本均包含的槽位，槽位覆盖比，为样本中槽位部分长度占样本总长度的比例，最小槽位覆盖比，为意图对应的样本集中的最小槽位覆盖比；

所述根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量，包括：

3.如权利要求2所述的方法，其特征在于，所述根据每个样本的槽位覆盖比，与对应的各候选意图的最小槽位覆盖比间的关系，确定每个样本的第一意图向量，包括：

若样本的槽位覆盖比，大于或等于第一候选意图的最小槽位覆盖比，则确定该样本的第一意图向量中与所述第一候选意图对应的元素取第一预设值；

若样本的槽位覆盖比，小于第二候选意图的最小槽位覆盖比，则确定该样本的第一意图向量中与所述第二候选意图对应的元素取第二预设值。

4.如权利要求1所述的方法，其特征在于，所述确定每个样本的第一意图向量之后，还包括：

利用第二预设的编码器，对每个样本对应的第一意图向量进行编码处理，确定每个样本对应的第三意图向量；

所述确定每个样本对应的预测意图，包括：

利用所述预设的编码器，对每个样本对应的第二意图向量及第三意图向量进行解码处理，确定每个样本对应的预测意图；

所述确定每个样本对应的预测意图之后，还包括：

根据每个样本对应的预测意图与标注意图的差异，对所述第二预设的编码器进行更新。

5.如权利要求1-4任一所述的方法，其特征在于，所述对每个样本对应的分词向量、词性向量及实体向量进行编码处理之前，还包括：

将所述每个样本对应的分词向量、词性向量及实体向量进行拼接，生成每个样本对应的特征向量；

所述确定每个样本对应的第二意图向量，包括：

6.如权利要求1-4任一所述的方法，其特征在于，所述对每个样本对应的第一意图向量及第二意图向量进行解码处理之前，还包括：

分别计算所述第一意图向量中每个元素与所述第二意图向量中对应元素的和，生成所述预设的解码器待处理的意图向量。

7.如权利要求1-4任一所述的方法，其特征在于，还包括：

在获取到待识别的语句时，根据所述待识别语句中的各分词分别与所述槽位词典中各槽位的匹配关系，确定所述待识别语句中包含的各槽位。

8.一种意图识别模型训练装置，其特征在于，包括：

第一确定模块，用于对训练样本集中每个样本的意图及槽位进行统计，确定各意图对应的槽位特征；

第二确定模块，用于根据每个样本与各意图对应的槽位特征的匹配度，确定每个样本的第一意图向量；

第三确定模块，用于利用第一预设的编码器，对每个样本对应的分词向量、词性向量及实体向量进行编码处理，确定每个样本对应的第二意图向量；

第四确定模块，用于利用预设的解码器，对每个样本对应的第一意图向量及第二意图向量进行解码处理，确定每个样本对应的预测意图；

第一更新模块，用于根据每个样本对应的预测意图与标注意图的差异，对所述第一预设的编码器及所述预设的解码器进行更新。

9.如权利要求8所述的装置，其特征在于，所述各意图对应的槽位特征，包括：意图对应的必要槽位及最小槽位覆盖比，其中，每个意图对应的必要槽位为该意图对应的每个样本均包含的槽位，槽位覆盖比，为样本中槽位部分长度占样本总长度的比例，最小槽位覆盖比，为意图对应的样本集中的最小槽位覆盖比；

所述第二确定模块，包括：

10.如权利要求9所述的装置，其特征在于，所述第二确定单元，具体用于：

11.如权利要求8所述的装置，其特征在于，还包括：

所述第四确定模块，包括：

所述装置，还包括：

第二更新模块，用于根据每个样本对应的预测意图与标注意图的差异，对所述第二预设的编码器进行更新。

12.如权利要求8-11任一所述的装置，其特征在于，还包括：

第一生成模块，用于将所述每个样本对应的分词向量、词性向量及实体向量进行拼接，生成每个样本对应的特征向量；

所述第三确定模块，包括：

13.如权利要求8-11任一所述的装置，其特征在于，还包括：

第二生成模块，用于分别计算所述第一意图向量中每个元素与所述第二意图向量中对应元素的和，生成所述预设的解码器待处理的意图向量。

14.如权利要求8-11任一所述的装置，其特征在于，还包括：

第六确定模块，用于在获取到待识别的语句时，根据所述待识别语句中的各分词分别与所述槽位词典中各槽位的匹配关系，确定所述待识别语句中包含的各槽位。

15.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。