CN111625634B

CN111625634B - 词槽识别方法及装置、计算机可读存储介质、电子设备

Info

Publication number: CN111625634B
Application number: CN202010447885.5A
Authority: CN
Inventors: 杜维; 刘设伟
Original assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Current assignee: Taikang Insurance Group Co Ltd; Taikang Online Property Insurance Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-08-22
Anticipated expiration: 2040-05-25
Also published as: CN111625634A

Abstract

本发明实施例是关于一种词槽识别方法及装置、计算机可读存储介质、电子设备，该方法包括：对待识别语句进行分词得到多个待识别短语句，并根据各所述待识别短语句得到待识别句子意图；对各所述待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各所述待识别句子意图进行编码得到多个待识别意图向量；对各所述待识别短语句向量以及各所述待识别意图向量进行拼接得到多个待识别拼接向量；根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话。本发明实施例提高了词槽识别结果的准确率。

Description

词槽识别方法及装置、计算机可读存储介质、电子设备

技术领域

本发明实施例涉及机器学习技术领域，具体而言，涉及一种词槽识别方法、词槽识别装置、计算机可读存储介质以及电子设备。

背景技术

多轮对话是目前NLP(Natural Language Processing，自然语言处理)领域的一个重要应用场景。多轮对话指的是机器人与人之间进行的多回合对话。为了实现多回合的对话，需要建立多轮对话机器人，每个机器人下面建立不同的意图，而意图下面设置必填词槽，当必填词槽未被识别到时，需要通过反问澄清方式反问用户，用户做出回答后进入下一个必填槽位的澄清环节，当所有必填槽位都被澄清后，多轮对话给出最终答案。因此，多轮对话是基于满足特定的意图下的所触发的一系列反问澄清和答案生成的过程。

具体的，在机器人输出反问引导话术到用户后，用户回答以进行反问澄清，此时用户回答的语句通常为短语句。其中，短语句是指具有意图模糊，句子成分不全，词槽数不多的句子。短语句的意图模糊性和缺乏足够的槽位标注，导致训练模型无法收敛。因此，普通的词槽识别方式将无法识别短语句的词槽。

在现有的短语句词槽识别方法中，可以包括如下两种方式。一种是，同义词匹配：通过配置待澄清词槽和他的同义词，并采用同义词匹配的方式捕获词槽。另一种是实体识别：通过各种不同的实体识别的算法，识别出句子中的词槽，比较常用的实体识别算法是基于incoder-decoder的seq2seq算法。

但是上述方式存在如下缺陷：在第一种方式中，通过配置待澄清词槽的所有可能出现的主词及其同义词副词，在反问澄清时进行完全匹配，识别词槽，该枚举方案不能完全穷尽词槽的所有可能值，当澄清对话中含有其他字词时，无法从同义词库中找到完全匹配项，从而导致词槽识别结果的准确率较低。

在第二种方式中，利用事先标注好的词槽和句子作为训练数据训练出识别模型，通过模型识别出句中的待澄清词槽。在反问澄清环节，系统已获取到意图。因此，训练每个意图的词槽识别模型，这样每条澄清语句进入到该意图下的模型，进行澄清词槽的识别。但是，该方案需要训练每个意图下的模型，因此词槽识别过程较为繁琐且识别速度较慢。

因此，需要提供一种新的词槽识别方法。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的目的在于提供一种词槽识别方法、词槽识别装置、计算机可读存储介质以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的识别结果的准确率较低以及识别过程较为繁琐且识别速度较慢的问题。

根据本公开的一个方面，提供一种词槽识别方法，包括：

对待识别语句进行分词得到多个待识别短语句，并根据各所述待识别短语句得到待识别句子意图；

对各所述待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各所述待识别句子意图进行编码得到多个待识别意图向量；

对各所述待识别短语句向量以及各所述待识别意图向量进行拼接得到多个待识别拼接向量；

根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话。

在本公开的一种示例性实施例中，所述词槽识别方法还包括：

利用历史反问语句对双向LSTM模型进行训练，得到词槽识别模型；

其中，根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果包括：

将各所述待识别拼接向量输入至词槽识别模型中，得到所述待识别短语句的特征词槽识别结果以及关键词槽识别结果。

在本公开的一种示例性实施例中，利用历史反问语句对双向LSTM模型进行训练，得到所述词槽识别模型包括：

根据历史反问语句得到标准短语句以及标准句子意图，并对所述标准短语句以及所述标准句子意图进行向量化得到标准短语句向量以及标准意图向量；

对所述标准短语句向量以及所述标准意图向量进行拼接得到标准输入向量，并根据所述标准输入向量得到初始关键词槽以及初始特征词槽；

根据所述初始关键词槽以及目标关键词槽得到关键词槽损失函数，并根据初始特征词槽与目标特征词槽得到特征词槽损失函数；

根据所述关键词槽损失函数以及所述特征词槽损失函数得到交叉熵损失函数，并利用所述交叉熵损失函数对双向LSTM模型进行迭代训练，得到所述词槽识别模型。

在本公开的一种示例性实施例中，根据所述标准输入向量得到初始关键词槽以及初始特征词槽包括：

将所述标准输入向量输入至编解码框架中的编码双向LSTM模型中，得到标准词槽向量以及标准编码向量；

根据所述标准编码向量得到标准意图向量，并根据所述标准词槽向量计算词槽注意力权重，以及根据所述标准意图向量计算意图注意力权重；

根据所述词槽注意力权重计算词槽上下文值，并根据所述意图注意力权重计算意图上下文值；

将所述标准编码向量、词槽上下文值以及意图上下文值输入至编解码框架中的解码双向LSTM模型中得到所述初始关键词槽以及初始特征词槽。

在本公开的一种示例性实施例中，根据所述标准词槽向量计算词槽注意力权重包括：

利用归一化指数函数对所述标准词槽向量进行计算，得到所述词槽注意力权重。

在本公开的一种示例性实施例中，根据所述词槽注意力权重计算词槽上下文值包括：

对所述词槽注意力权重进行加权求和，得到所述词槽上下文值。

在本公开的一种示例性实施例中，在得到所述词槽识别模型之后，所述词槽识别方法还包括：

利用所述词槽识别模型对待识别语句进行标注得到初始标注样本，并对所述初始标注样本进行校正得到标准样本；

根据所述初始标注样本以及标准样本构建训练数据集以及测试数据集，并利用所述测试数据集对所述词槽识别模型进行测试；

在确定测试结果的准确率未达到预设阈值时，利用所述训练数据集对所述词槽识别模型进行再次训练。

根据本公开的一个方面，提供一种词槽识别装置，包括：

分词模块，用于对待识别语句进行分词得到多个待识别短语句，并根据各所述待识别短语句得到待识别句子意图；

第一处理模块，用于对各所述待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各所述待识别句子意图进行编码得到多个待识别意图向量；

第二处理模块，用于对各所述待识别短语句向量以及各所述待识别意图向量进行拼接得到多个待识别拼接向量；

词槽识别模块，用于根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的词槽识别方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的词槽识别方法。

本发明实施一种词槽识别方法及装置，一方面，通过对待识别语句进行分词得到多个待识别短语句，并根据各待识别短语句得到待识别句子意图；然后对各待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各待识别句子意图进行编码得到多个待识别意图向量；再对各待识别短语句向量以及各待识别意图向量进行拼接得到多个待识别拼接向量；根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话，解决了现有技术中由于枚举方案不能完全穷尽词槽的所有可能值，当澄清对话中含有其他字词时，无法从同义词库中找到完全匹配项，从而导致识别结果的准确率较低的问题，提高了识别结果的准确率；另一方面，解决了现有技术中由于需要训练每个意图下的模型，导致的识别过程较为繁琐且识别速度较慢的问题，简化了词槽识别流程同时提高了识别速度；再一方面，通过根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话，进一步的提高了识别结果的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出根据本公开示例实施例的一种词槽识别方法的流程图；

图2示意性示出根据本公开示例实施例的一种利用历史反问语句对双向LSTM模型进行训练，得到所述词槽识别模型的方法流程图；

图3示意性示出根据本公开示例实施例的一种根据标准输入向量得到初始关键词槽以及初始特征词槽的方法流程图；

图4示意性示出根据本公开示例实施例的另一种词槽识别方法的流程图；

图5示意性示出根据本公开示例实施例的一种对双向LSTM模型进行训练的方法流程图；

图6示意性示出根据本公开示例实施例的另一种词槽识别方法的流程图；

图7示意性示出根据本公开示例实施例的一种词槽识别装置的框图；

图8示意性示出根据本公开示例实施例的一种用于实现上述词槽识别方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本发明将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。

此外，附图仅为本发明的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本示例实施方式中首先提供了一种词槽识别方法，该方法可以运行于服务器、服务器集群或云服务器等；当然，本领域技术人员也可以根据需求在其他平台运行本发明的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该词槽识别方法可以包括如下步骤：

步骤S110.对待识别语句进行分词得到多个待识别短语句，并根据各所述待识别短语句得到待识别句子意图。

步骤S120.对各所述待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各所述待识别句子意图进行编码得到多个待识别意图向量。

步骤S130.对各所述待识别短语句向量以及各所述待识别意图向量进行拼接得到多个待识别拼接向量。

步骤S140.根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话。

上述词槽识别方法中，一方面，通过对待识别语句进行分词得到多个待识别短语句，并根据各待识别短语句得到待识别句子意图；然后对各待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各待识别句子意图进行编码得到多个待识别意图向量；再对各待识别短语句向量以及各待识别意图向量进行拼接得到多个待识别拼接向量；最后根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话，解决了现有技术中由于枚举方案不能完全穷尽词槽的所有可能值，当澄清对话中含有其他字词时，无法从同义词库中找到完全匹配项，从而导致识别结果的准确率较低的问题，提高了识别结果的准确率；另一方面，解决了现有技术中由于需要训练每个意图下的模型，导致的识别过程较为繁琐且识别速度较慢的问题，简化了词槽识别流程同时提高了识别速度；再一方面，通过根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话，进一步的提高了识别结果的准确率。

以下，将结合附图对本示例实施例中涉及的词槽识别方法中的各步骤进行详细的解释以及说明。

本方案采用seq2seq词槽标注的算法，将意图和短语句作为模型输入，将已标注好的词槽(目标关键词槽以及目标特征词槽)作为样本训练模型。

通过将意图和反问语句输入模型得到关键词槽的标注，可以在一个模型中识别任意意图的短语句词槽。相比于实体识别方式分意图模型，极大地减少了训练模型的数量。

相比于同义词匹配识别短语句词槽的方案，本方案既利用了已识别的意图信息，又不局限于已配置的同义词来识别短语句词槽，提高了方案的准确性和适用性。

在步骤S110中，对待识别语句进行分词得到多个待识别短语句，并根据各所述待识别短语句得到待识别句子意图。

具体的，可以通过分词工具(譬如任一中文分词工具)对待识别语句进行分词得到多个待识别短语句；譬如，当待识别语句为“我想买一张明天早上到上海的机票”，则各待识别短语句例如可以包括：我、想买一张、明天早上、到上海、的、机票；待识别句子意图例如可以是：买机票、买到上海的机票等等。

在步骤S120中，对各所述待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各所述待识别句子意图进行编码得到多个待识别意图向量。

具体的，首先，对各待识别短语句进行编码以及降维处理得到待识别短语句向量；其中，待识别短语句向量的格式可以包括(batchsize1，M)，batchsize1为待识别短语句向量的批次数量，M为待识别短语句向量的长度；其次，对各待识别句子意图进行编码处理得到多个待识别意图向量；其中，待识别意图向量的格式为(batchsize2，M)，batchsize2为待识别意图向量的批次数量，与待识别短语句向量的批次数量相同。

进一步的，当得到待识别短语句向量以后，该词槽识别方法还可以包括：判断待识别短语句向量的长度是否达到预设长度；其中，所述预设长度为M；在判断待识别短语句向量的长度未达到预设长度时，对待识别短语句向量进行填充。譬如，可以设定待识别短语句向量的固定长度为M(预设长度)，当任一条待识别短语句向量的长度小于该预设长度时，则可以对该待识别短语句向量进行填充以达到固定长度；其中，对于不足M长度的部分，可以用0进行填充，也可以通过其他字符进行填充，本示例对此不做特殊限制。通过该方法，便于在通过待识别短语句向量以及待识别意图向量进行拼接得到待识别拼接向量，并将待识别拼接向量输入至词槽识别模型中得到特征词槽识别结果以及关键词槽识别结果时，由于待识别短语句向量的长度不统一带来的识别结果的准确率下降的问题，提高了关键词槽识别结果以及特征词槽识别结果的准确率。

在步骤S130中，对各所述待识别短语句向量以及各所述待识别意图向量进行拼接得到多个待识别拼接向量。

在本示例实施例中，可以按照如下方式对待识别短语句向量以及各待识别意图向量进行拼接得到多个待识别拼接向量；譬如：encoder_emb_inputs＝reshape((concat(query,intent_extend)),[batchsize,M]),

其中，encoder_emb_inputs为待识别拼接向量；reshape()函数可以用于重新调整待识别短语句向量以及待识别意图向量的行数、列数、维数；contact()函数可以用于对待识别短语句向量以及待识别意图向量进行拼接。

在步骤S140中，根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话。

具体的，可以将各待识别拼接向量输入至词槽识别模型中，得到待识别短语句的特征词槽识别结果以及关键词槽识别结果，具体识别过程可以为：首先，根据待识别拼接向量生成待识词槽向量以及待识别编码向量，然后，根据待识别词槽向量计算词槽注意力权重，再根据待识别编码向量计算意图注意力权重；进一步的，根据词槽注意力权重以及意图注意力权重分别计算词槽上下文值以及意图上下文值，最后根据上述待识别拼接向量以及词槽上下文值得到词槽识别结果，再根据待识别拼接向量以及意图上下文值得到关键词槽识别结果。

其中，得到的关键词槽识别结果例如可以是：人物对象、时间、地点、事件等等；对应的特征词槽例如可以是：我、明天、上海以及买机票等等。进一步的，生成的对话例如是：

A：买什么时候的机票？

B：明天；

A：给谁买？

B：我；

A：买去哪儿的机票？

B：去上海。

……

进一步的，为了便于利用词槽识别模型对待识别语句进行识别得到特征词槽识别结果以及关键词槽识别结果，该词槽识别方法还包括：利用历史反问语句对双向LSTM模型进行训练，得到所述词槽识别模型。

具体的，参考图2所示，该利用历史反问语句对双向LSTM模型进行训练，得到所述词槽识别模型可以包括步骤S210-步骤S240，以下进行详细说明。

在步骤S210中，根据历史反问语句得到标准短语句以及标准句子意图，并对所述标准短语句以及所述标准句子意图进行向量化得到标准短语句向量以及标准意图向量。

在本示例实施例中，首先，对历史反问语句进行分词得到多个标准短语句，再根据各标准短语句得到标准句子意图；然后，对标准短语句进行编码以及降维处理得到标准短语句向量；进一步的，当得到标准短语句向量以后，该词槽识别方法还可以包括：判断标准短语句向量的长度是否达到预设长度；其中，所述预设长度为M；在判断标准短语句向量的长度未达到所述预设长度时，对标准短语句向量进行填充。譬如，可以设定标准短语句向量的固定长度为M(预设长度)，当任一条标准短语句向量的长度小于该预设长度时，则可以对该标准短语句向量进行填充以达到固定长度；其中，对于不足M长度的部分，可以用0进行填充，也可以通过其他字符进行填充，本示例对此不做特殊限制。通过该方法，便于在通过标准短语句向量以及标准意图向量进行拼接得到标准输入向量，并通过标准输入向量得到初始关键词槽以及初始特征词槽时，由于短语句向量的长度不统一带来的准确率下降的问题，提高了初始关键词槽以及初始特征词槽的准确率。

在步骤S220中，对所述标准短语句向量以及所述标准意图向量进行拼接得到标准输入向量，并根据所述标准输入向量得到初始关键词槽以及初始特征词槽。

在本示例实施例中，首先，对标准短语句向量以及标准意图向量进行拼接得到标准输入向量，具体的，譬如，encoder_emb_inputs＝reshape((concat(query,intent_extend)),[batchsize,M]),

其中，encoder_emb_inputs为标准输入向量；reshape()函数可以用于重新调整标准短语句向量以及标准意图向量的行数、列数、维数；contact()函数可以用于对标准短语句向量以及标准意图向量进行拼接；

并且有：intent_extend＝reshape(intent_extend,[batchsize,M])

其中，query是批量标准短语句经分词和embedding后的形如(batchsize,M)的标准短语句向量，intent是批量标准短语句的意图经embedding后的形如(batchsize,1)标准意图向量。

进一步的，当得到标准输入向量以后，可以根据标准输入向量得到初始关键词槽以及初始特征词槽。具体的，参考图3所示，根据标准输入向量得到初始关键词槽以及初始特征词槽可以包括步骤S310-步骤S340，以下进行详细说明。

在步骤S310中，将所述标准输入向量输入至编解码框架中的编码双向LSTM模型中，得到标准词槽向量以及标准编码向量。

在本示例实施例中，将拼接后的标准输入向量encoder_emb_inputs按照时序依次输入到encoder-decoder框架的编码双向LSTM模型中，在函数API static_bidirectional_rnn中进行运算，第t时刻输入的原始词组单元经过含dropout的LSTM cell逻辑单元后转换成一个固定长度cellsize的hidden输出向量，第T+1时刻的输入包括第T时刻输出的Hidden向量和第T+1时刻的原始输入单元，输出T+1时刻固定长度的Hidden向量。双向LSTM output输出由每时刻forward LSTM和backward LSTM的单元输出拼接而成。这样，输出的encoder_outputs就是形如(batchsize,M，2cellsize)的向量。Batchsize为批次大小，Cellsize为LSTM单元输出的向量维度大小。

同时，输出encoder_state以及encoder_outputs(编码向量)，且有rnn_outputs＝attention_state；其中，encoder_state(词槽向量)由forward LSTM的最终状态和backward LSTM的最终状态拼接而成，并且最终状态由LSTM state的C和H值组成。

譬如：rnn_outputs＝static_bidirectional_rnn(cell_fw,cell_bw,encoder_emb_inputs,self.sequence_length,dtype)。

在步骤S320中，根据所述标准编码向量得到标准意图向量，并根据所述标准词槽向量计算词槽注意力权重，以及根据所述标准意图向量计算意图注意力权重。

在本示例实施例中，首先，可以根据encoder_outputs(标准编码向量)变换得到attention_state(标准意图向量)。进一步的，由于encoder_outputs是数组，因此将数组按照特定的维度拼接后生成attention_state的三维张量(batchsize，M,cellsize)，可以用于注意力权重的计算。其次，根据标准词槽向量计算词槽注意力权重可以包括：利用归一化指数函数对所述标准词槽向量进行计算，得到所述词槽注意力权重。进一步的，计算意图注意力权重的计算方式与词槽注意力权重的计算方式相似，此处不再赘述。

进一步的，在本示例实施例中，利用归一化指数函数对标准词槽向量进行计算，得到所述词槽注意力权重可以包括：

首先，计算出e_ij。其中，e_ij＝g(s_i-1,h_j)，h_j为第j步编码输出的隐藏状态，s_i-1为i-1的解码输出，实际上由encoder_output_[i]与encoder_hidden拼接，再输入激活函数后生成e_ij。encoder_hidden是提取自encoder_outputs的张量，用于表征LSTM encoder输出的全体张量信息。

然后，当得到e_ij后，可以利用归一化指数函数(Softmax)对其进行计算，得到词槽注意力权重w_ij，其中：

在步骤S330中，根据所述词槽注意力权重计算词槽上下文值，并根据所述意图注意力权重计算意图上下文值。

在本示例实施例中，据词槽注意力权重计算词槽上下文值可以包括：对所述词槽注意力权重进行加权求和，得到所述词槽上下文值。进一步的，意图上下文值的计算方式与词槽上下文值的计算方式相似，此处不再赘述。

进一步的，在本示例实施例中，对词槽注意力权重进行加权求和，得到所述词槽上下文值可以包括：对注意力权重w_ij进行加权求和得到意图上下文值c_i，其中：

i时刻相对所有位置encoder_hidden的加权求和，生成了i时刻的context上下文。

在步骤S340中，将所述标准编码向量、词槽上下文值以及意图上下文值输入至编解码框架中的解码双向LSTM模型中得到所述初始关键词槽以及初始特征词槽。

在本示例实施例中，首先，Decoder框架下i时刻的LSTM cell状态s_i由s_i＝f(s_i-1,c_i,h_i)得到，在decoder框架中，i-1的cell输出的s_i-1，和c_i、h_i经过共同输入LSTM forwardLSTM层，即可以输出i时刻的初始关键词y_i。

同理，Decoder框架下slot_tagging层i时刻的模型输入s'_i由s'_i＝f(s'_i-1,c'_i,h'_i)得到，将s'_i输入decoder模型，输出i时刻的初始特征词槽位标注结果y'_i。

在步骤S230中，根据所述初始关键词槽以及目标关键词槽得到关键词槽损失函数，并根据初始特征词槽与目标特征词槽得到特征词槽损失函数。

在本示例实施例中，当得到初始关键词槽以及初始特征词槽后，可以计算初始关键词槽(keySlottagging)与目标关键词槽(target_keyslot)的关键词槽损失函数；以及初始特征词槽(Slottagging)与目标特征词槽(target_slot)之间的特征词槽损失函数。

在步骤S240中，根据所述关键词槽损失函数以及所述特征词槽损失函数得到交叉熵损失函数，并利用所述交叉熵损失函数对双向LSTM模型进行迭代训练，得到所述词槽识别模型。

在本示例实施例中，首先，根据关键词槽损失函数以及特征词槽损失函数得到交叉熵损失函数；其中，交叉熵损失函数可以为：crossent(logits,weight,target)，其中weight是短语句的权重，填充的短语句权重为0，其余为1。然后，再通过该交叉熵损失函数迭代encoder和decoder模型。譬如：

gradients＝gradients([keySlottagging_loss,slottagging_loss],params)，keySlottagging_loss是关键词槽损失函数,slottagging_loss是特征词槽的损失函数；params为参数，最后将得到词槽识别模型。

图4示意性示出根据本公开示例实施例的另一种词槽识别方法的流程图。参考图4所示，该词槽识别方法还可以包括步骤S410-步骤S430，以下进行详细说明。

在步骤S410中，利用所述词槽识别模型对待识别语句进行标注得到初始标注样本，并对所述初始标注样本进行校正得到标准样本。

在步骤S420中，根据所述初始标注样本以及标准样本构建训练数据集以及测试数据集，并利用所述测试数据集对所述词槽识别模型进行测试。

在步骤S430中，在确定测试结果的准确率未达到预设阈值时，利用所述训练数据集对所述词槽识别模型进行再次训练。

以下，对步骤S410-步骤S430进行解释以及说明。首先，由于前期由于人力资源有限，已标注的训练样本集规模较小。因此可以采用模型辅助标注+人工审核进行样本集标注，在工程上更有效率和可行性。然后，将标注样本进行模型训练并评估指标，当指标优于之前模型，则更替模型。最后，重复采用模型辅助标注+人工审核进行样本集标注以及采用样本集进行训练，直到算法模型指标达到设定目标。需要指出的时，在迭代过程中，第一步输入的都是未标注样本集。

图5示意性示出根据本公开示例实施例的另一种词槽识别方法的流程图。参考图5所示，该词槽识别方法还可以包括以下步骤：

步骤S501，对短语句句子进行预处理(分词,词槽标注，编码，embedding)；

步骤S502，将所有意图编码并向量化意图；

步骤S503，拼接短语句句子和意图，整型成(1,M)形状，作为模型输入。

步骤S504，将输入向量批量输入到encoder-decoder框架中，在encoder部分，输出encoder-output list(batchsize,2cellsize),batchsize为批次中样本数量，cellsize为LSTM cell输出的向量维度。同时，encoder模型还会生成encoder_state和Attention_state。用于计算初始的词槽标识任务的注意力权重。encoder_state是encoder LSTM最后一层状态值的叠加后生成的张量，张量大小(batchsize,5cellsize)。Attention_state是根据LSTM outputs得出的张量，(batchsize,M,2cellsize)。

步骤S505，计算意图分类任务的注意力权重和上下文context值。具体的，将encoder_state经过神经网络并进行softmax计算，得到attentionWeights,再通过与Attention_state的加权求和计算出context。

步骤S506，在decoder框架下实现关键词槽识别和特征词槽识别两个任务。在关键词槽识别任务中，将content_[i]与output_[i]拼接后作为i时刻的Decoder LSTM输入，输出为Logit，即i时刻的关键词槽识别。同理，特征词槽的识别结果也由此方法生成。

步骤S507，根据target_slot,target_keyslot与decoder输出的关键词槽和特征词槽进行损失函数计算，采用交叉熵损失函数crossent(logits,weight,target)，其中weight是句子中每组分词的权重，填充的分组权重为0，其余为1。

步骤S508，根据损失函数进行模型训练。每100次epoch批训练后，当测试集中准确率高于上一次，记录并保存该epoch的模型。否则继续下100次epoch训练。最终，当总训练轮次达到10000次，结束训练。

步骤S509，在验证集中进行模型评估，记录准确率。模型训练完成。

图6示意性示出根据本公开示例实施例的对利用上述词槽识别方法训练出来的槽识别模型进行应用的方法流程图。参考图6所示，该方法可以包括以下步骤：

步骤S601，反问语句预处理(分词，编码，填充，句子向量化)。

步骤S602，将短语句句子的意图进行编码，向量化意图并与反问语句embedding后的向量拼接和整形。

步骤S603，将拼接后的向量输入模型，得出关键词槽和特征词槽。

步骤S604，人工审核，并作为训练样本的补充。

步骤S605，利用模型批量分析和人工审核后的标注样本，迭代训练模型，直到准确率达到期望。

本公开示例实施例涉及的词槽识别方法至少具有以下有点：

一方面，只需一个模型，即可适用于任意在样本集中出现过的用户意图。输入这些意图下的语句，即可识别关键词槽。

另一方面，解决早期标注训练集规模较小的问题，即通过模型将训练语料的关键词槽和特征词槽都标注出来，并通过人工方式审核后，再作为训练集训练多任务模型，反复迭代。

再一方面，适用于短语自动补齐场景，识别用户补齐的短语成分。

进一步的，通过深度学习算法，使得模型很好的适应各种意图下，短语句文本与词槽的关联关系。

更进一步的，输入特定意图+短语句文本到模型中，模型通过训练好的参数，很好的适应并展现出该意图下文本与词槽的关联关系。为使用者提供更高效和更广泛的短语句词槽识别能力及短语句中各成分标注能力。

最后，提出了“模型+人工”的迭代模型训练概念。通过模型对样本集自动化标注，再经过人工审核。处理后的标注样本加入训练集，训练模型。再用新模型进行“模型+人工”的样本标注，不断迭代训练模型，直到模型指标达到预期。

本公开还提供了一种词槽识别装置。参考图7所示，该词槽识别装置可以包括分词模块710、第一处理模块720、第二处理模块730以及词槽识别模块740。其中：

分词模块710可以用于对待识别语句进行分词得到多个待识别短语句，并根据各所述待识别短语句得到待识别句子意图。

第一处理模块720可以用于对各所述待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各所述待识别句子意图进行编码得到多个待识别意图向量。

第二处理模块730可以用于对各所述待识别短语句向量以及各所述待识别意图向量进行拼接得到多个待识别拼接向量。

词槽识别模块740可以用于根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话。

在本公开的一种示例性实施例中，所述词槽识别装置还包括：

训练模块，用于利用历史反问语句对双向LSTM模型进行训练，得到词槽识别模型；

处理模块，可以用于利用所述词槽识别模型对待识别语句进行标注得到初始标注样本，并对所述初始标注样本进行校正得到标准样本；

测试模块，可以用于根据所述初始标注样本以及标准样本构建训练数据集以及测试数据集，并利用所述测试数据集对所述词槽识别模型进行测试；

训练子模块，可以用于在确定测试结果的准确率未达到预设阈值时，利用所述训练数据集对所述词槽识别模型进行再次训练。

上述词槽识别装置中各模块的具体细节已经在对应的词槽识别方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图8来描述根据本发明的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830以及显示单元840。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元810执行，使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元810可以执行如图1中所示的步骤S110：对待识别语句进行分词得到多个待识别短语句，并根据各所述待识别短语句得到待识别句子意图；步骤S120：对各所述待识别短语句进行编码以及降维处理得到多个待识别短语句向量，并对各所述待识别句子意图进行编码得到多个待识别意图向量；步骤S130：对各所述待识别短语句向量以及各所述待识别意图向量进行拼接得到多个待识别拼接向量；步骤S140：根据各所述待识别拼接向量计算所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话。

存储单元820可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202，还可以进一步包括只读存储单元(ROM)8203。

存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204，这样的程序模块8205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线830可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备800交互的设备通信，和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的方法。

在本发明的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

根据本发明的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本发明的其他实施例。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。

Claims

1.一种词槽识别方法，其特征在于，包括：

判断所述待识别短语句向量的长度是否达到预设长度；在判断所述待识别短语句向量的长度未达到预设长度时，对所述待识别短语句向量进行填充；

将各所述待识别拼接向量输入至词槽识别模型得到所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话，包括：根据所述待识别拼接向量生成待识别词槽向量以及待识别编码向量；根据所述待识别词槽向量计算词槽注意力权重，根据所述待识别编码向量计算意图注意力权重；根据所述词槽注意力权重以及所述意图注意力权重分别计算词槽上下文值以及意图上下文值；根据所述待识别拼接向量以及所述词槽上下文值得到词槽识别结果，并根据所述待识别拼接向量以及所述意图上下文值得到所述关键词槽识别结果。

2.根据权利要求1所述的词槽识别方法，其特征在于，所述词槽识别方法还包括：

利用历史反问语句对双向LSTM模型进行训练，得到所述词槽识别模型；

3.根据权利要求2所述的词槽识别方法，其特征在于，利用历史反问语句对双向LSTM模型进行训练，得到所述词槽识别模型包括：

4.根据权利要求3所述的词槽识别方法，其特征在于，根据所述标准输入向量得到初始关键词槽以及初始特征词槽包括：

5.根据权利要求4所述的词槽识别方法，其特征在于，根据所述标准词槽向量计算词槽注意力权重包括：

6.根据权利要求5所述的词槽识别方法，其特征在于，根据所述词槽注意力权重计算词槽上下文值包括：

7.根据权利要求3所述的词槽识别方法，其特征在于，在得到所述词槽识别模型之后，所述词槽识别方法还包括：

8.一种词槽识别装置，其特征在于，包括：

词槽识别模块，用于将各所述待识别拼接向量输入至词槽识别模型得到所述待识别短语句的特征词槽识别结果以及关键词槽识别结果，并根据所述特征词槽识别结果以及关键词槽识别结果生成与所述待识别语句对应的对话，包括：根据所述待识别拼接向量生成待识别词槽向量以及待识别编码向量；根据所述待识别词槽向量计算词槽注意力权重，根据所述待识别编码向量计算意图注意力权重；根据所述词槽注意力权重以及所述意图注意力权重分别计算词槽上下文值以及意图上下文值；根据所述待识别拼接向量以及所述词槽上下文值得到词槽识别结果，并根据所述待识别拼接向量以及所述意图上下文值得到所述关键词槽识别结果；

所述装置还用于，判断所述待识别短语句向量的长度是否达到预设长度；在判断所述待识别短语句向量的长度未达到预设长度时，对所述待识别短语句向量进行填充。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的词槽识别方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的词槽识别方法。