CN112364664B

CN112364664B - 意图识别模型的训练及意图识别方法、装置、存储介质

Info

Publication number: CN112364664B
Application number: CN202011303627.6A
Authority: CN
Inventors: 乐雨泉; 赵宇明; 陈蒙
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2023-12-05
Anticipated expiration: 2040-11-19
Also published as: CN112364664A

Abstract

本申请实施例公开了一种意图识别模型的训练方法、意图识别方法及相关装置及计算机存储介质，其中所述训练方法包括：获得第一数据，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；获得第二数据，所述第二数据为表征为各个意图的文字描述数据的集合；将所述输入句子和第二数据进行融合，得到融合数据；依据融合数据和所述人工识别结果，对所述意图识别模型进行训练；其中所述意图识别模型至少用于对输入至所述意图识别模型的句子所表达的意图进行识别。

Description

意图识别模型的训练及意图识别方法、装置、存储介质

技术领域

本申请涉及意图识别技术领域，具体涉及一种意图识别模型的训练方法、意图识别方法及相关装置、存储介质。

背景技术

用户的意图识别是客服场景中自动问答系统中的关键技术，旨在对用户输入至自动问答系统中的意图进行自动识别，精确的理解用户意图，为系统下一步操作提供指导，以提高用户对自动问答系统的使用体验。目前意图识别方法主要采用机器学习的方法，对用户输入的意图进行识别。相关技术中，在对用户输入的意图进行识别之前，需要对用于识别用户意图的意图识别模型进行训练，在训练完成的情况下，利用训练好的意图识别模型对意图进行识别。目前，意图识别模型被训练的准确性不足，还有待进一步提升，以提高意图识别的准确性。

发明内容

为解决现有存在的技术问题，本申请实施例提供一种意图识别模型的训练方法、意图识别方法及相关装置、存储介质。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种意图识别模型的训练方法，包括：

获得第一数据，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；

获得第二数据，所述第二数据为表征为各个意图的文字描述数据的集合；

将所述输入句子和第二数据进行融合，得到融合数据；

依据融合数据和所述人工识别结果，对所述意图识别模型进行训练；其中所述意图识别模型至少用于对输入至所述意图识别模型的句子所表达的意图进行识别。

前述方案中，所述将所述输入句子和所述第二数据进行融合，得到融合数据，包括：

依据所述文字描述数据，得到意图嵌入数据；

获得所述输入句子中各词汇的词向量；或者提取输入句子中表征为句子语义的词汇并获得该词汇的词向量；

获得词向量的目标值，所述目标值表征各词向量经隐藏层后得到的输出值；

依据各词向量的目标值和意图嵌入数据，对所述输入句子进行重新构建；其中，被重新构建的所述输入句子的意图显著于所述第一数据中的所述输入句子；

确定所述被重新构建的所述输入句子为融合数据。

前述方案中，所述依据所述文字描述数据，得到意图嵌入数据，包括：

对所述文字描述数据进行词汇划分；

将划分后的词汇转换成词向量；

对所述文字描述数据的词向量进行平均运算，得到所述文字描述数据的意图嵌入数据。

前述方案中，所述依据各词向量的目标值和意图嵌入数据，对所述输入句子进行重新构建，包括：

依据各词向量的目标值和所述意图嵌入数据，计算相似度矩阵；

依据所述相似度矩阵，计算各词向量的目标值的比例参数；

依据所述比例参数及所述目标值，对所述输入句子进行重新构建。

前述方案中，所述方法还包括：

获得为所述意图识别模型建立的损失函数；

依据融合数据，对所述输入句子的表达意图进行识别；

依据识别结果和所述人工识别结果，计算损失函数值；

在所述损失函数值小于或等于损失阈值的情况下，结束对所述意图识别模型的训练。

本申请实施例提供一种意图识别方法，包括：

获得待识别的输入句子；

利用被训练的意图识别模型对所述输入句子的表达意图进行识别；

其中，所述意图识别模型依据融合数据和人工识别结果而被训练；所述融合数据依据第一数据中的输入句子和第二数据而得；其中，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；所述第二数据为表征为各个意图的文字描述数据的集合。

本申请实施例提供一种意图识别模型的训练装置，包括：

第一获得单元，用于获得第一数据，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；

第二获得单元，用于获得第二数据，所述第二数据为表征为各个意图的文字描述数据的集合；

融合单元，用于将所述输入句子和第二数据进行融合，得到融合数据；

训练单元，用于依据融合数据和所述人工识别结果，对所述意图识别模型进行训练；其中所述意图识别模型至少用于对输入至所述意图识别模型的句子所表达的意图进行识别。

本申请实施例提供一种意图识别装置，包括：

获得单元，用于获得待识别的输入句子；

识别单元，用于利用被训练的意图识别模型对所述输入句子的表达意图进行识别；

本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的训练方法和/或识别方法。

本申请实施例提供一种意图识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行前述的训练方法和/或识别方法。

本申请实施例提供一种意图识别模型的训练方法、意图识别方法及相关装置及计算机存储介质，其中所述训练方法包括：获得第一数据，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；获得第二数据，所述第二数据为表征为各个意图的文字描述数据的集合；将所述输入句子和第二数据进行融合，得到融合数据；依据融合数据和所述人工识别结果，对所述意图识别模型进行训练；其中所述意图识别模型至少用于对输入至所述意图识别模型的句子所表达的意图进行识别。

本申请实施例中，将该文字描述数据和输入句子进行融合，表征为各个意图的文字描述数据包括了意图的语义信息，融合各意图的语义信息进行意图识别模型的训练，可提高对意图识别模型的训练准确性。在意图识别模型被训练的准确的情况下，利用准确的意图识别模型进行句子意图的识别，可保证意图识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例意图识别模型的训练方法的实现流程示意图一；

图2为本申请实施例意图识别模型的训练方法的实现流程示意图二；

图3为本申请实施例意图识别模型的训练方法的实现流程示意图三；

图4为本申请实施例中获得第二数据的示意图；

图5为本申请实施例中意图识别模型的训练原理示意图；

图6为本申请实施例中长短时记忆网络(LSTM)的结构示意图；

图7为本申请实施例意图识别方法的实现流程示意图；

图8为本申请实施例中意图识别模型的训练装置的组成结构示意图；

图9为本申请实施例中意图识别装置的组成结构示意图；

图10为本申请实施例中意图识别模型的训练装置和/或意图识别装置的硬件构成示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例提供了一种对意图识别模型的训练方法，该训练方法由于将输入句子和表征为各个意图的文字描述数据进行融合，其中表征为各个意图的文字描述数据包括了意图的语义信息，融合各意图的语义信息进行意图识别模型的训练，可提高对意图识别模型的训练准确性。在意图识别模型被训练好或训练完成的情况下，利用训练好或训练完成的意图识别模型可提高对意图识别的准确性。下面对意图识别模型的训练方法和意图识别方法进行依次介绍。

本申请实施例提供一种意图识别模型的训练方法，应用于训练装置中，如图1所示，所述方法包括：

S101：获得第一数据，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；

本步骤中，训练装置可从自动问答系统中采集两个或两个以上在客服场景中用户向自动问答系统输入的句子(买家向卖家用于询问其欲购买的商品的发货时间、颜色大小等句子)，以向卖家咨询一些信息。示例性地，输入句子可以为“什么时间发货”、“默认快递是哪家”等。这些句子基于客服场景中买家实际询问问题而产生。对采集到这些输入句子的情况下，人工对采集的各个输入句子的意图进行标注。示例性地，针对买家输入的“什么时间发货”，可标注其意图的人工识别结果为“询问发货时间”；针对买家输入的“默认快递是哪家”，可标注其意图的人工识别结果为“询问配送情况”。

S102：获得第二数据，所述第二数据为表征为各个意图的文字描述数据的集合；

本步骤中，可针对采集的各个输入句子对各个输入句子进行分析，得到体现各个输入句子的意图的文字描述数据。示例性地，以输入句子为“默认快递是哪家”，意图是“配送情况”，该意图的文字描述数据可以是“询问卖家的配送快递”。如果将识别出的各种意图视为一种意图标签，则用文字将意图标签描述出，与用意图标签来表示意图相比，将意图标签用文字描述的形式表现出，是对意图的高度概括、能够有效地体现意图标签所表达的意图，还包含有丰富的语义信息。

S101和S102无严格的先后顺序，还可以同时进行。

S103：将所述输入句子和第二数据进行融合，得到融合数据；

本步骤中，将采集到的各个输入句子中的每个句子和表征为各个意图的文字描述数据进行融合。相当于，将输入句子和包含有语义的且体现一定意图的文字描述数据相结合。

S104：依据融合数据和所述人工识别结果，对所述意图识别模型进行训练；其中所述意图识别模型至少用于对输入至所述意图识别模型的句子所表达的意图进行识别。

本步骤中，利用融合数据和对采集的各个输入句子的人工标注结果，对用于识别句子意图的意图识别模型进行识别。

前述S101～S104中，在对意图识别模型的训练方案中，考虑到了包含有语义的且体现一定意图的文字描述数据对意图识别的重要性，将该文字描述数据和输入句子进行融合，表征为各个意图的文字描述数据包括了意图的语义信息，融合各意图的语义信息进行意图识别模型的训练，可提高对意图识别模型的训练准确性。融合有文字描述数据的输入句子，可有效挖掘出各个输入句子的意图，可提高对意图识别模型的训练准确性。在意图识别模型被训练的准确的情况下，利用准确的意图识别模型进行句子的意图识别，可保证意图识别的准确性。

在一些可选的方案中，S103将所述输入句子和所述第二数据进行融合，得到融合数据可进一步通过图2所示的方案来实现：

S201：依据表征为意图的文字描述数据，得到意图嵌入数据；

S202：获得所述输入句子中的各词汇的目标值，所述目标值表征为词汇经隐藏层后得到的输出值；

可以理解，S201和S202无严格的先后顺序，还可以同时进行。

S203：依据所述输入句子中的各词汇的目标值和意图嵌入数据，对所述输入句子进行重新构建；其中，被重新构建的所述输入句子的意图显著于所述第一数据中的所述输入句子；

S204：确定所述被重新构建的所述输入句子为融合数据；

相应的，所述S104包括：

S1041：利用所述意图识别模型和所述融合数据，对所述输入句子的表达意图进行识别，得到识别结果；

S1042：利用所述识别结果和对所述输入句子的人工识别结果，对所述意图识别模型进行训练。

利用S201～S204的方案，利用意图嵌入数据重建构建的输入句子的意图比第一数据中的输入句子的意图显著，相当于利用了意图的文字描述数据对输入句子中的表征为意图的词汇进行了语义增强，如此可使得构建出的输入句子的意图更加明显，进而对输入句子的意图识别更加准确。对输入句子的意图识别更加准确，可提高对意图识别模型的训练准确性。

此外，还可以对所述输入句子进行词汇划分，将划分后的词汇转化成词向量；或者提取输入句子中表征为句子语义的词汇并获得该词汇的词向量；计算各词向量的目标值，所述目标值表征为词向量经隐藏层后得到的输出值；依据词向量的目标值和意图嵌入数据对输入句子进行重新构建。具体过程请参见后续相关说明。

在一些可选的方案中，所述依据所述文字描述数据，得到意图嵌入数据，在技术实现上可以通过如下方案来实现：对所述文字描述数据进行词汇划分；将划分后的词汇转换成词向量；对所述文字描述数据的词向量进行平均运算，得到所述文字描述数据的意图嵌入数据。

可以理解，本申请实施例中的文字描述数据也可视为句子，在句子中，句子是由两个或两个以上的词汇构成的。在实际的客服场景中一个句子中可能有一个或几个词汇就能表达说话者的意图。基于此，本申请实施例中将文字描述数据和输入句子均进行词汇的划分，基于对文字描述数据划分的词汇进行意图嵌入数据的计算。基于对输入句子的词汇划分计算输入句子中各个词汇的目标值。这种将文字描述数据和输入句子进行词汇划分，基于划分的词汇得到意图嵌入数据和各个词汇的目标值的方案，可提高对输入句子的意图识别的准确性，从而可保证对意图识别模型的训练准确性。

前述方案中，还可以：在对输入句子进行词汇划分的情况下，提取输入句子中能够表征输入句子语义的词汇，将该词汇转换成词向量，依据该词向量，计算表征为输入句子语义的词汇的目标值。

在一些可选的方案中，所述步骤S203依据所述输入句子中的各词汇的目标值和意图嵌入数据，对所述输入句子进行重新构建，在技术实现上可以通过如下方案来实现，结合图3所示：

S301：依据所述输入句子中的各词汇的目标值和所述意图嵌入数据，计算相似度矩阵；

本步骤中，相似度矩阵可表示第二数据表征的各意图与输入句子中各词汇的相似度。

S302：依据所述相似度矩阵，计算所述输入句子中各词汇的目标值的比例参数；

本步骤中，依据第二数据表征的各意图与输入句子中各词汇的相似度，对输入句子中的各词汇的目标值的比例参数进行计算。因为词汇能够表示说话者的意图，计算出的比例参数可视为为各词汇的目标值分配的比重，用以通过各词汇在句子中的含义比重来表达输入句子的意图。

S303：依据所述比例参数及所述目标值，对所述输入句子进行重新构建。

本步骤中，依据对输入句子中各词汇的目标值和目标值的比例参数，进行输入句子的重新构建。相当于利用了意图的文字描述数据对输入句子中的表征为意图的词汇进行了语义增强，如此可使得构建出的输入句子的意图更加明显，进而对输入句子的意图识别更加准确。对输入句子的意图识别更加准确，可提高对意图识别模型的训练准确性。

可以理解，还可以利用词向量实现对输入句子的重新构建。示例性地，在对所述输入句子进行词汇划分并将划分后的词汇转化成词向量、以及计算各词向量的目标值的方案中，依据词向量的目标值和意图嵌入数据，计算相似度矩阵；依据所述相似度矩阵，计算所述输入句子中各词向量的目标值的比例参数；依据该比例参数及该目标值，对所述输入句子进行重新构建。具体实现过程请参见后续相关说明，此处不赘述。

应该理解，本申请实施例中在对意图识别模型的训练方案中，可预先为意图识别模型进行损失函数的建立，依据建立的损失函数决定何时停止对意图识别模型的训练。在具体应用中，所述方法还包括：获得为所述意图识别模型建立的损失函数；利用所述意识识别模型和融合数据，对所述输入句子的表达意图进行识别；依据识别结果和对所述输入句子的人工识别结果，计算损失函数值；在所述损失函数值小于或等于损失阈值的情况下，结束对所述意图识别模型的训练。可以理解，在损失函数值小于或等于损失第一阈值，说明对意图识别模型的训练已经训练好或训练完成，无需再训练了。

在意图识别模型被训练好或训练完成的情况下，在后续应用即在应用层面上时，如图7所示，所述方法还包括：

S701：获得待识别意图的输入句子；

S702：利用被训练的意图识别模型对所述输入句子的表达意图进行识别；其中，所述意图识别模型依据融合数据和人工识别结果而被训练；所述融合数据依据第一数据中的输入句子和第二数据而得；其中，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；所述第二数据为表征为各个意图的文字描述数据的集合。

S701和S702中被训练的意图识别模型由于利用了文字描述数据和输入句子的融合，可有效挖掘出各个输入句子的意图，提高了对意图识别模型的训练准确性。在对意图识别模型训练准确的情况下，利用被训练得准确的意图识别模型进行输入句子的意图的识别，可保证意图识别的准确性。

在S701～S702所示的方案中，在S701之后，所述方法还包括：对输入句子进行预处理。具体的，将输入句子进行词汇的划分，得到词序列，将词序列映射为词向量，将各个词向量输入至意图识别模型以对输入句子的表达意图进行识别，可准确实现对意图的识别。

应该而知，S701～S702的方案也可视为本申请实施例提供的意图识别方法的实现过程。具体实现请参见后续相关说明。

下面结合附图及具体实施例对本申请作进一步详细的说明。

本应用场景中，以客服场景为例，买家可向自动问答系统输入其询问的问题等。

下面针对客服场景先介绍获得第二数据的方案。具体方案请参见附图4，包括：

1)采集语料数据，语料数据来自于客服场景中的买家询问的问题。本应用场景中，针对客服场景中买家询问的问题可以进行记录，例如“什么时间发货”、“买的东西如何安装等”。该数据为海量数据，待到需要时，从中读取即可。

2)对语料数据进行预处理。可以理解，采集的语料数据中可能存在有表示询问意思相同或相似的句子，预处理包括从询问意思相同或相似的多个句子中删除掉意思重复的句子，表示询问意思相同或相似的句子保留一个即可。一个询问问题的句子中可能存在有用于强调询问口气的拟声词、助词等，以及对分析句子的表示含义不大的词汇，预处理还包括将这样的词汇删除。

3)针对语料数据中的各个句子，生成其句子向量。具体的可利用word embedding(词汇嵌入)技术或BERT方法进行各个句子的句子向量的生成。为方便机器对句子含义的理解，需要将句子变换成句子向量。由于BERT方法可理解句子的句意，则本应用场景中可优选利用BERT方法生成句子的句子向量。

4)将语料数据中的所有句子进行聚类。具体的可采用聚类算法(AP，AffinityPropagation)算法对所有句子进行聚类。可以理解，聚类相当于将句意表示为相同或相近的句子进行聚集，聚集在一起的句意表示为相同或相近的句子视为句子簇。假定将语料数据中的所有句子进行聚类得到M个句子簇，每个句子簇中所有句子表示的句意相同或相近。M个句子簇具有M个句意，每个句意表示买家的一个询问意图，如询问配送周期和安装步骤。

5)对各个句子簇的句意进行分析，得到M个意图。如果用意图类别或意图标签标识为一种意图，则意图类别或标签与表征为各意图的文字描述数据的具体举例可参照表1所示。

表1.

可以理解，如果经对语料数据中的所有句子进行聚类，得到M个句子簇，则对M个句子簇进行分析会得到M个意图类别或标签以及用于表征各个意图(类别或标签)的文字描述数据。表1仅是一种具体举例而已，并不代表本申请实施例的所有情况，任何合理的情况均位于本申请实施例的覆盖范围内。

下面介绍获得第一数据的方案。本领域技术人员应该而知，本应用场景中的获得第一数据和获得第二数据无严格的先后顺序，还可以同时进行。

1)实际客服场景中，买家询问卖家的句子假设为多轮，假设其中某一轮询问句子列表为：{sen₁,sen₂,...sen_p}，其中p表示该轮询问一共包含p句话，每句话视为一个输入句子。

2)利用滑窗按照从左至右的顺序在句子列表中进行滑动。这里，假定滑窗的窗口长度为L，每次滑动的步长为1。需要对句子列表中的p句话进行p-L次滑动，得到的结果为：

(sen₁,sen₂,...,sen_L),(sen₂,sen₃,...,sen_L+1),...,(sen_p-L,sen_p-L+1,...,sen_p)；

可以理解，滑窗窗口长度以及滑动步长还可以取值为其它合理的数值，本应用场景中不做具体限定。

3)如果将前述的每个滑动结果视为一个样本，计算任意两个样本之间的编辑距离，依据计算结果，删除冗余样本。可以理解，在前述的滑动结果中，可能会存在有句意相同或相近的样本，对于这样的样本需要删除其中一个。在具体实现上，计算任意两个样本之间的编辑距离，若两个样本为s＝(sen₁,sen₂,...,sen_L)和s’＝(sen’₁,sen’₂,...,sen’_L)，若f(s,s’)＜第一阈值，则表明这两个样本中存在一个冗余样本，删除这两个样本中句子短的样本，保留句子较长的样本，其中f表示两个样本之间的编辑距离函数。第一阈值为预先设定好的值，可根据实际情况而灵活应用。本应用场景中，视预处理后的语料数据中经被冗余过滤之后，余下的样本数据中的各个(输入)句子为待标注的输入句子。

前述的步骤2和步骤3可视为对该轮数据中的输入句子进行预处理的方案。

4)对待标注的输入句子进行意图的人工标注。示例性地，标注待标注的输入句子1其意图类别为“配送周期”；标注待标注的输入句子2的意图类别为“修改订单”等。在对待标注的输入句子进行意图标注时可参考待标注的输入句子的上文进行意图的标注，标注其为M个意图(类别或标签中)的哪种。至此待标注的输入句子已被进行了人工标注。

结合图5所示，接下来，对第一数据和第二数据进行融合，得到融合数据，并利用融合数据和对待标注的输入句子的人工标注结果，对意图识别模型进行训练的方案进行说明。

1)构建对意图识别模型的训练样本，该训练样本包含已被进行了人工标注的句子，假定已被进行了人工标注的任意(输入)句子为X。所有意图类别/标签和各个意图类别对应的文字描述数据得到集合D。

2)对句子X和集合D中所有样本进行词汇划分，得到句子X的词序列和集合D中所有样本的词序列。其中，X的词序列为：X＝{x₁,x₂,...,x_n}，x_i∈W；W为预设的词库。相当于，按照预设的词汇对句子X和集合D中的所有样本进行词汇划分。其中，n表示对句子X划分得到的词汇数量；x_i表示句子X中的某个词汇。集合D中的任意一个样本可视为表征为一意图的文字描述数据。集合D中的第i个样本的词序列为：i∈[1,M]，其中D_i表示集合D中第i个样本，k表示D_i中被划分的词汇的数量，W表示整个词库大小；M表示集合D中样本的数量即意图标签/类别的数量。

3)利用word2vec工具将句子X的词序列和集合D中所有样本的词序列映射为词向量。得到X词序列对应的词向量为得到D_i词序列对应词向量为其中词向量中的各个词向量为词序列中的各个元素对应的词向量。示例性地，/>分别为词序列中的元素x₁、/>对应的词向量。

4)依据计算集合D中第i个样本D_i的意图嵌入数据；

其中，为D集合中第i个样本对应的意图标签嵌入。average为求平均函数；M表示集合D中意图标签的数量；d_size表示意图标签嵌入维度。D集合所有样本经过前述的步骤3)和步骤4)得到/>意图嵌入数据可以认为是意图标签的嵌入，后续方案相当于将意图嵌入数据嵌入至输入句子中，以得到融合数据。

5)本应用场景中，意图识别模型为神经网络中的长短时记忆网络(LSTM)。该网络的具体结构请参见图6所示。将前述的句子X中的各个词汇的词向量输入至LSTM，得到各词向量经LSTM的隐藏层而得到的输出其中，/>为句子X中的/>的经LSTM的隐藏层而得到的输出值；/>为句子X中的/>的经LSTM的隐藏层而得到的输出值；以此类推。

将句子X中的各个词汇的词向量输入至LSTM中，得到LSTM的遗忘门f_t、输入门i_t、输出门o_t。在本应用场景中，遗忘门f_t、输入门i_t、输出门o_t的公式为：

其中，表示输入至LSTM中的词向量为第t个词向量时的候选值，C_t表示输入至LSTM中的词向量为第t个词向量时的状态值。/>表示输入至LSTM中的词向量为第t-1个词向量；/>表示输入至LSTM中的词向量为第t个词向量。σ表示sigmoid函数；正切函数(tanh)为LSTM的激活函数。W_f、W_t、W₀、W_c为权重矩阵；b_f、b_t、b₀、b_c为偏置向量；权重矩阵和偏置向量均为LSTM模型中的参数。对意图识别模型的训练过程实际上就是确定这些参数取值的过程。关于LSTM中的遗忘门f_t、输入门i_t、输出门o_t的由来和含义具体请参见相关说明，此处不赘述。

本步骤是将步骤3中得到的句子X的词向量输入至LSTM而得到隐藏层序列该序列中的各个元素表示为相应词向量经LSTM的隐藏层而得到的输出值。利用拼接函数(concatenate)将句子X中的词向量拼接成R_x，即

6)计算R_x与R_d的相似度，得到相似度矩阵G：G∈R^M×n，其中/>为R_x的转置，sim是表示为余弦相似度的函数。

7)计算将意图嵌入数据嵌入至句子X的句子表示vec_sen，其中α＝soft max(p),α∈R^1×n；p＝g(u_i),i∈[1,n]；u_i＝f(G_i-r:i+rW_G+b_G)，i∈[1,n]；G_i-r:i+r是G以i为中心r为半径的局部矩阵，r取为定值如r＝5。示例性地，在计算出矩阵G的情况下，在i＝1时，取矩阵G中的以1为中心5为半径的矩阵作为当前的局部矩阵计算u₁。其中，α_i可视为第i个词向量的比例参数。

其中，W_G和b_G分别为权重矩阵和偏置参数，需要通过训练过程进行确定。g为最大池化(max-pooling)函数，f为正切(tanh)函数。句子表示vec_sen即可视为对句子X的重新构建结果，也可看成是融合有意图标签的句子即融合数据。在句子表示vec_sen中，相比于原句子X中的词向量，句子表示vec_sen中的词向量被重新赋予比重，示例性地，对原句子X中表示为意图的词汇将赋予大的比重。

8)利用意图识别模型对构建为句子表示vec_sen的句子X进行意图的识别。具体的，利用公式y^pred＝soft max(tanh(W_secvec_sen+b_sen))进行意图识别，得到识别结果y^pred。其中，W_sec和b_sen分别为权重矩阵和偏置，需要通过训练过程进行确定。

9)读取利用交叉熵预先构建好的损失函数loss：

loss＝-[y*log(y^pred)+(1-y)log(1-y^pred)]；

其中，y^pred为通过前述步骤得到的对句子X表达意图的识别结果；y表示人工对句子X的意图进行标注的结果。

判断loss与预设的损失阈值之间的大小关系；

在loss大于损失阈值的情况下，读取训练样本中的下一个句子作为前述步骤5)至步骤9中的句子X进行重新训练。可以理解，将训练样本中的各个句子逐一作为步骤5)至步骤8中的句子X，即为对意图识别模型的训练过程。在一轮句子被训练完但是loss仍大于损失阈值的情况下，取下一轮句子列表中的各个句子继续对意图识别模型进行训练。直至loss小于或等于损失阈值，训练完成或训练好。即在loss小于或等于损失阈值的情况下，可结束对意图识别模型的训练。可以理解，对意图识别模型的训练过程实际上就是优化意图识别模型中的W_f、W_t、W₀、W_c、b_f、b_t、b₀、b_c、W_sec和b_sen等参数的过程。本应用场景中，可采用Adam优化器优化模型参数，以训练好意图识别模型。

在应用层面上，如果存在有需要进行意图识别的句子，则先对该句子进行预处理，如前述的对该句子进行词汇划分，得到该句子的词序列，将该词序列映射为词向量，将该句子的各个词向量输入至训练好的意图识别模型中，以识别出该句子的表达意图。具体的识别意图的步骤与前述对步骤5)至步骤9)的相关描述类似，重复之处不赘述。

前述方案中，是以客服场景为例进行的说明，在训练意图识别模型的方案中，将输入句子和表征为各个意图的文字描述数据进行融合，其中表征为各个意图的文字描述数据包括了意图的语义信息，在融合有意图的语义信息的基础上进行意图识别模型的训练，可提高对意图识别模型的训练准确性。通俗地讲，本申请实施例将意图标签和句子中的词汇映射到同一语义空间，通过从词和意图标签共享的联合(同一语义)空间中对意图识别模型进行训练，可以有效地将句子编码成基于意图标签的表示，可实现对意图的准确识别。这种方式可以有效地建立了词汇与所有意图标签的联系，能够增强意图识别的性能。在意图识别模型被训练好或训练完成的情况下，利用训练好或训练完成的意图识别模型可提高对意图识别的准确性。

本申请实施例提供一种意识识别模型的训练装置，如图8所示，所述装置包括：第一获得单元1001、第二获得单元1002、融合单元1003、训练单元1004；其中，

第一获得单元1001，用于获得第一数据，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；

第二获得单元1002，用于获得第二数据，所述第二数据为表征为各个意图的文字描述数据的集合；

融合单元1003，用于将所述输入句子和第二数据进行融合，得到融合数据；

训练单元1004，用于依据融合数据和所述人工识别结果，对所述意图识别模型进行训练；其中所述意图识别模型至少用于对输入至所述意图识别模型的句子所表达的意图进行识别。

在一个可选方案中，融合单元1003，用于依据所述文字描述数据，得到意图嵌入数据；

获得所述输入句子中的各词汇的目标值；

确定所述被重新构建的所述输入句子为融合数据。

在一个可选方案中，融合单元1003，用于对所述文字描述数据进行词汇划分；

将划分后的词汇转换成词向量；

在一个可选方案中，融合单元1003，用于依据各词向量的目标值和所述意图嵌入数据，计算相似度矩阵；

依据所述相似度矩阵，计算各词向量的目标值的比例参数；

在一个可选方案中，所述装置还包括计算单元，用于获得为所述意图识别模型建立的损失函数；

依据融合数据，对所述输入句子的表达意图进行预测；

依据预测结果和所述人工识别结果，计算损失函数值；

可以理解，所述装置中的第一获得单元1001、第二获得单元1002、融合单元1003、训练单元1004在实际应用中均可由意识识别模型的训练装置中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable GateArray)实现。

本申请实施例还提供一种意图识别装置，如图9所示，所述装置包括：获得单元1101、识别单元1102；其中，

获得单元1101，用于获得待识别的输入句子；

识别单元1102，用于利用被训练的意图识别模型对所述输入句子的表达意图进行识别；

在一个可选的方案中，所述装置还包括预处理单元，用于将输入句子进行词汇的划分，得到词序列，将词序列映射为词向量，将各个词向量输入至意图识别模型，相应的，识别单元1102用于利用被训练的意图识别模型对所述输入句子的表达意图进行识别。

可以理解，所述装置中的获得单元1101、识别单元1102在实际应用中均可由意图识别装置中的中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital Signal Processor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)实现。

需要说明的是，本申请实施例的意图识别模型的训练装置和意图识别装置，由于装置解决问题的原理与前述的意图识别模型的训练方法、意图识别方法相似，因此，意图识别模型的训练装置和意图识别装置的实施过程及实施原理均可以参见前述方法的实施过程及实施原理描述，重复之处不再赘述。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时至少用于执行图1至图7任一所示方法的步骤。所述计算机可读存储介质具体可以为存储器。所述存储器可以为如图10所示的存储器62。

图10为本申请实施例的意图识别模型的训练装置和/或意图识别装置的硬件结构示意图，如图10所示，装置包括：用于进行数据传输的通信组件63、至少一个处理器61和用于存储能够在处理器61上运行的计算机程序的存储器62。终端中的各个组件通过总线系统64耦合在一起。可理解，总线系统64用于实现这些组件之间的连接通信。总线系统64除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图10中将各种总线都标为总线系统64。

其中，所述处理器61执行所述计算机程序时至少执行图1至图7任一所示方法的步骤。

可以理解，存储器62可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，Random AccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器62旨在包括但不限于这些和任意其它适合类型的存储器。

上述本申请实施例揭示的方法可以应用于处理器61中，或者由处理器61实现。处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器61可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器62，处理器61读取存储器62中的信息，结合其硬件完成前述方法的步骤。

在示例性实施例中，意图识别模型的训练装置和/或意图识别装置装置可以被一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、FPGA、通用处理器、控制器、MCU、微处理器(Microprocessor)、或其他电子元件实现，用于执行前述的意图识别模型的训练方法和/或意图识别方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本申请所提供的几个方法实施例中所揭露的方法，在不冲突的情况下可以任意组合，得到新的方法实施例。

本申请所提供的几个产品实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的产品实施例。

本申请所提供的几个方法或设备实施例中所揭露的特征，在不冲突的情况下可以任意组合，得到新的方法实施例或设备实施例。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种意图识别模型的训练方法，其特征在于，包括：

将所述输入句子和第二数据进行融合，得到融合数据；

依据融合数据和所述人工识别结果，对所述意图识别模型进行训练；其中所述意图识别模型至少用于对输入至所述意图识别模型的句子所表达的意图进行识别；

其中，所述将所述输入句子和所述第二数据进行融合，得到融合数据，包括：依据所述文字描述数据，得到意图嵌入数据；获得所述输入句子中各词汇的词向量；或者提取输入句子中表征为句子语义的词汇并获得该词汇的词向量；获得词向量的目标值，所述目标值表征各词向量经隐藏层后得到的输出值；依据各词向量的目标值和意图嵌入数据，对所述输入句子进行重新构建；其中，被重新构建的所述输入句子的意图显著于所述第一数据中的所述输入句子；确定所述被重新构建的所述输入句子为融合数据。

2.根据权利要求1所述的方法，其特征在于，所述依据所述文字描述数据，得到意图嵌入数据，包括：

对所述文字描述数据进行词汇划分；

将划分后的词汇转换成词向量；

3.根据权利要求1或2所述的方法，所述依据各词向量的目标值和意图嵌入数据，对所述输入句子进行重新构建，包括：

依据所述相似度矩阵，计算各词向量的目标值的比例参数；

4.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获得为所述意图识别模型建立的损失函数；

依据融合数据，对所述输入句子的表达意图进行识别；

依据识别结果和所述人工识别结果，计算损失函数值；

5.一种意图识别方法，其特征在于，包括：

获得待识别的输入句子；

其中，所述意图识别模型依据融合数据和人工识别结果而被训练；所述融合数据依据第一数据中的输入句子和第二数据而得，对应包括以下步骤：依据文字描述数据，得到意图嵌入数据；获得所述输入句子中各词汇的词向量；或者提取输入句子中表征为句子语义的词汇并获得该词汇的词向量；获得词向量的目标值，所述目标值表征各词向量经隐藏层后得到的输出值；依据各词向量的目标值和意图嵌入数据，对所述输入句子进行重新构建；其中，被重新构建的所述输入句子的意图显著于所述第一数据中的所述输入句子；确定所述被重新构建的所述输入句子为融合数据；其中，所述第一数据包括至少两个输入句子以及对各个输入句子的表达意图的人工识别结果；所述第二数据为表征为各个意图的文字描述数据的集合。

6.一种意图识别模型的训练装置，其特征在于，包括：

融合单元，用于依据所述文字描述数据，得到意图嵌入数据；获得所述输入句子中各词汇的词向量；或者提取输入句子中表征为句子语义的词汇并获得该词汇的词向量；获得词向量的目标值，所述目标值表征各词向量经隐藏层后得到的输出值；依据各词向量的目标值和意图嵌入数据，对所述输入句子进行重新构建；其中，被重新构建的所述输入句子的意图显著于所述第一数据中的所述输入句子；确定所述被重新构建的所述输入句子为融合数据；

7.一种意图识别装置，其特征在于，包括：

获得单元，用于获得待识别的输入句子；

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至4任一所述方法的步骤、和/或权利要求5所述方法的步骤。

9.一种意图识别装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器可执行权利要求1至4任一所述的方法的步骤、和/或权利要求5所述方法的步骤。