CN111062220B

CN111062220B - 一种基于记忆遗忘装置的端到端意图识别系统和方法

Info

Publication number: CN111062220B
Application number: CN202010173480.7A
Authority: CN
Inventors: 张翀; 江岭
Original assignee: Chengdu Xiaoduo Technology Co Ltd
Current assignee: Chengdu Xiaoduo Technology Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-06-16
Anticipated expiration: 2040-03-13
Also published as: CN111062220A

Abstract

本发明公开了一种基于记忆遗忘装置的端到端意图识别系统和方法，包括数据预处理单元，对输入语句进行句子级向量表示，得到每个语句的句子向量；输入语句包括若干上文和当前问句；上下文意图识别单元，对输入语句的句子向量进行意图识别计算，得到结合上下文预测的意图、当前问句的完整性以及输入语句的注意力权重；单句识别单元，对当前问句的句子向量进行意图识别计算，得到单一句子的意图；上下文意图判定单元，根据当前问句的完整性以及输入语句的注意力权重判定当前问句的意图为单一句子的意图或结合上下文预测的意图。能够有效识别上文对当前问句的重要性，兼顾了上文和当前问句，保证了信息的无损传递。

Description

一种基于记忆遗忘装置的端到端意图识别系统和方法

技术领域

本发明属于计算机技术领域，具体地说涉及一种基于记忆遗忘装置的端到端意图识别系统和方法。

背景技术

随着互联网的发展与普及，网上购物是大多数人的生活习惯，人们在购物中通常需要与商家客服交流获取售前售中售后相关信息，但是传统的真人客服并不能满足日益增长的消费群体，在客服服务中，如何为客户提供更快速的响应，更精准的答案，是电商客服面临的巨大挑战，机器人客服是解决该问题的首选方案，机器人客服是指一个代替真人客服来为用户提供问题解答的应答系统，语义识别系统是其中的核心模块，其技术核心为自然语言处理技术，最早的方式为基于关键词或基于语法规则来识别用户咨询意图，比如当你在某购物app客服聊天页面中输入“优惠”，机器人则会匹配包含“优惠”关键词的问题，这些问题都是由服务提供方预先设置好的，如果只匹配到一个问题，如“希望价格优惠”，就回复该问题对应答案，如果匹配到多个问题，则会将多个问题输出，供用户点击选择，选到一个就回复对应问题答案。这里举了一个简单的例子，更复杂的识别上，会配置更加复杂的规则，总的来讲传统的方式在识别上非常依赖人工配置的复杂规则，重配置的方式也导致识别的领域非常受限。

随着人工智能技术的发展，机器人客服也逐渐开始使用人工智能技术下最火热的深度学习技术，目前市面上的主流机器人也主要是基于深度学习技术，相比传统的方式，深度学习技术带来更好的识别效果，机器人能识别的更加模糊的表达，不再要求用户准确的输入某些关键词，同时不需要配置复杂的关键词检索，或者语法规则，一切交给机器人，做到端到端的意图识别，意图识别模型又是语义识别系统的核心，通常在为一家店铺构建智能客服机器人时，我们需要先训练意图识别模型，会根据该店铺的业务提前制定数百或者上千种语义，每个语义会对应一个答案，然后人工智能训练师会基于这些语义标注训练样本，具体来讲语义指的是预先确定好的电商客服对话场景中客户会问客服的问题类别，比如：询问发货时间，询问是否有赠品等。在标注的时候将用户聊天语料划分到对应的语义下，如：“什么时候发货”，“好久发货”都会被划分到“询问发货时间”这个语义下。这样在“询问发货时间”这个语义下会有非常丰富的问法都表示“询问发货时间”这个语义，同理其他语义标注过程也是这样，模型训练的时候学习不同问法和所对应的语义，这样在模型执行预测的时候能够将训练时候见过的问法，或者相似的问法划分到正确的语义下面，同时提前配置好语义对应的机器人回复内容，这样实现了机器人自动应答的过程。

尽管基于深度学习的自然语言处理大大提升了机器人客服的识别准确率，和识别覆盖率，但是现阶段的识别模型主要是单句模型，没有做到结合上文作出准确预测，但是真实环境的对话中由于用户的聊天习惯，会将一句完整的问句分多次发送，用户的意图需要结合上文进行理解，单句识别会出现无法识别的情况，例如电商场景中用户问“能不能快点”，仅仅通过这一句话很难区分用户是在问“快点回复”还是“快点发货”，用户的问法有歧义，脱离上文进行识别容易识别到错误的场景。

为了弥补单句识别带来的缺陷，业界采用的方式是额外加入一些基于规则的判别模块，如用户问“能不能快点”，则去搜索用户之前问题的识别结果，如果提到了“赠品”相关语义，则将“能不能快点”识别为语义：“赠品快点发货”，这种方式本质也是通过规则配置来结合上文识别，一个规则只能处理一个或者一类语义，但是真实场景的语义往往成千上万，配置如此庞大的规则会给开发，和维护带来沉重负担，而且在新的场景下会不断的增量的做规则配置，所以需要一种更智能的方式来解决结合上文的识别问题。

CN104951433B同样使用上文的意图分类结果作为特征来实现参考上文识别意图。只参考上文意图识别结果过于简单粗暴，丢失大量原始文本信息，导致识别错误。上文的问题也可能存在意图不明的情况，这时候这种方式将无法处理。比如如下对话:“好的”“快递”“多久发”，“多久发”的上文只有“快递”两个字，这两个字的意图是不明确的，“快递”意图识别结果会是“其他类别”，该识别结果对“多久发”没有任何帮助，这时候将没有可参考的上文信息。

CN108874782A-一种层次注意力LSTM和知识图谱的多轮对话管理方法，使用层次注意力方式实现对上下文的意图识别。该方案中LSTM基于词汇级别的记忆与遗忘，不能很好的覆盖句子，且注意力仅关注当前问句和上文的关系，当上文的所有问句与当前问句都没有关系时，会造成识别结果误差。

发明内容

针对现有技术中上述的不足，本发明提供一种基于记忆遗忘装置的端到端意图识别系统和方法，该系统通过端到端的方式，即输入原始文本信息，输出意图识别结果，实现了信息的无损传递，能够有效识别上文对当前问句的重要性，最终通过提炼的信息结合当前问句来识别用户真实的意图，兼顾了上文和当前问句，该方法基于该系统，保证了信息的无损传递。

为了达到上述目的，本发明采用的解决方案是：一种基于记忆遗忘装置的端到端意图识别系统，包括：数据预处理单元、上下文意图识别单元、单句识别单元和上下文意图判定单元。

数据预处理单元，对输入语句进行句子级向量表示，得到每个语句的句子向量。输入语句包括若干上文和当前问句。所述的数据预处理单元包括句子数值转换单元和句子向量化单元，所述的句子数值转换单元将语句进行数值转换，得到指定长度的向量，并将同一数据集中的多个向量组成第一矩阵；所述的句子向量化单元采用预训练模型对句子数值转换单元得到的矩阵进行计算得到每一个向量对应一句话的句子向量的第二矩阵。所述的预训练模型为固定参数的预训练模型，这样同样的句子每次计算得到的句子向量相同，预训练模型可以有多种选择，可以是业界流行的BERT等。

上下文意图识别单元，对输入语句的句子向量进行意图识别计算，得到结合上下文预测的意图、当前问句的完整性以及输入语句的注意力权重；所述的上下文意图识别单元包括记忆遗忘模块、注意力模块、融合模块和输出模块，所述的记忆遗忘模块用于结合上文和当前问句向量更新记忆，选择遗忘内容，通过记忆遗忘模块，不断更新记忆，这里的记忆是指上文的句子向量表示；所述的注意力模块用于结合当前问句向量，识别多句上文对当前问句的重要程度，算出权重，得到多句上文的注意力权重向量，通过注意力模块过滤对当前识别无用的信息实现了信息的提炼，保证当前问题的识别不受上文无用信息的干扰；所述的融合模块用于计算权重向量和输入语句向量的加权，得到关键信息向量，将关键信息向量与当前问句向量做向量纬度拼接得到结合上下文预测的意图；所述的输出模块输出结合上下文预测的意图、当前问句的完整性以及输入语句的注意力权重。

单句识别单元，对当前问句的句子向量进行意图识别计算，得到单一句子的意图，单句识别单元采用的是在为店铺构建智能客服机器人时训练的意图识别模型。

上下文意图判定单元，根据当前问句的完整性以及输入语句的注意力权重判定当前问句的意图为单一句子的意图或结合上下文预测的意图，具体包括：若句子完整则采用单一句子的意图作为意图识别系统的输出，若句子不完整则进一步判断注意力权重，若注意力权重集中在当前问句上，则判定上文多个句子都不重要，则采用单一句子的意图作为意图识别系统的输出；若注意力权重集中在上文某个句子上，则采用结合上下文预测的意图。

根据基于记忆遗忘装置的端到端意图识别系统的方法，包括如下步骤：

S1：数据预处理，对输入语句进行句子级向量表示，得到每个语句的句子向量，输入语句包括若干上文和当前问句，具体包括：

S101：将语句进行数值转换，得到指定长度的向量，并将同一数据集中的多个向量组成第一矩阵，首先定义生成汉字到数字的映射表，将不同的汉字对应到一个数字上，每个汉字都有唯一的数字对应，对应关系为汉字对应其排序后的序号；然后根据映射表将每个句子转换成一个具有指定长度的向量，长度不足的补0，以达到指定长度；

S102：采用预训练模型对句子数值转换单元得到的矩阵进行计算得到每一个向量对应一句话的句子向量的第二矩阵。

S2：意图识别，对输入语句的句子向量进行意图识别计算，得到结合上下文预测的意图、当前问句的完整性以及输入语句的注意力权重，根据当前问句的完整性以及输入语句的注意力权重判定当前问句的意图，具体包括：

S201：将第二矩阵中的句子向量输入上下文意图识别单元；

S203：记忆遗忘模块结合上文和当前问句向量更新记忆，选择遗忘内容；

S203：结合当前问句向量，识别多句上文对当前问句的重要程度，算出权重，得到多句上文的注意力权重向量；

S204：计算权重向量和输入语句向量的加权，得到关键信息向量，将关键信息向量与当前问句向量做向量纬度拼接得到结合上下文预测的意图；

S205：根据当前问句的完整性以及输入语句的注意力权重判定当前问句的意图为单一句子的意图或结合上下文预测的意图；

A.若句子完整则采用单一句子的意图作为意图识别系统的输出，跳转步骤S206；

B.若句子不完整则进一步判断注意力权重，若注意力权重集中在当前句子上，则判定上文多个句子都不重要，则采用单一句子的意图作为意图识别系统的输出，跳转步骤S206；若注意力权重集中在上文某个句子上，则采用结合上下文预测的意图，输出结合上下文预测的意图；

S206：对当前问句的句子向量进行意图识别计算，得到并输出单一句子的意图。

本发明的有益效果是：

该系统通过端到端的方式，即输入原始文本信息，输出意图识别结果，实现了信息的无损传递，能够有效识别上文对当前问句的重要性，最终通过提炼的信息结合当前问句来识别用户真实的意图，兼顾了上文和当前问句，该方法基于该系统，保证了信息的无损传递。

附图说明

图1为本发明意图识别系统结构框图；

图2为本发明句子向量表示过程示意图；

图3为本发明上下文意图识别模型示意图；

图4为本发明注意力模块示意图；

图5为本发明意图识别方法流程图。

具体实施方式

以下结合附图对本发明作进一步描述：

如图1所示，一种基于记忆遗忘装置的端到端意图识别系统，包括：数据预处理单元、上下文意图识别单元、单句识别单元和上下文意图判定单元。

句子向量表示过程如图2所示，首先进行数值转换，在数值转换过程中首先要定义生成汉字到数字的映射表，将不同的汉字对应到一个数字上，每个汉字都有唯一的数字对应，对应关系为汉字对应其排序后的序号；然后根据映射表将每个句子转换成一个具有指定长度的向量，长度不足的补0，以达到指定长度。比如：“在”->“1”，“吗”->“2”，等等，那么“在吗”变成[1,2]，根据电商客服聊天中统计的卖家消息的平均长度，设置指定长度为35，即最多处理35个字得到长度为35的向量，长度不足35的向量补0，补到35个，比如这里“在吗”变成[0,0,0,0,0,…,1,2]；然后将处理得到的多个向量组成的矩阵，一个数据集包括几个句子就组成几维矩阵；例如上述四个问句为[“在吗”,“请问什么时候发货”，“成都多久能到”，“可以送到楼上吗”]，那么组成的矩阵就是二维数字矩阵[[0,…,1,2],[…],[…],[…]]，这个矩阵就是句子数值转换单元转换得到的第一矩阵。

然后进行句子向量化，将前述得到的第一矩阵，输入预训练模型进行计算将得到一个新的二维矩阵，矩阵中的每一个向量对应一句话的句子向量，这个矩阵就是句子向量化单元得到的第二矩阵。

上下文意图识别单元，对输入语句的句子向量进行意图识别计算，得到结合上下文预测的意图、当前问句的完整性以及输入语句的注意力权重。

上下文意图识别单元是一个训练好的上下文意图识别模型，模型训练过程首先进行语句标注，标注时将参考用户多句上文语句，在本申请中主要采用三句上文。人工智能训练师将会标注问句结合上文对应的实际意图，如“询问发货时间”，“催物流”等，同时需要标注问句是否意图完整，即不参考上文也能明确意图；对已标注语句进行句子级向量表示，包含上文三句语句的句子向量表示，不足三句的置空，由上万条已标注语句构成一个训练集，包含一个电商类目下的问题场景，对应数百或者上千个语义，如之前提到的“询问发货时间”等，使用该训练集训练上下文意图识别模型得到识别模型。

上下文意图识别模型结构如图3所示，包括记忆遗忘模块、注意力模块、融合模块和输出模块。所述的记忆遗忘模块用于结合上文和当前问句向量更新记忆，选择遗忘内容，在时序N时，会将时序N的句子向量与上一时刻记忆空间向量一起计算跟新记忆空间输出记忆空间N向量。如时序0:当机器人收到“在吗”时，当前会话记忆空间是空的，因为没有上文，记忆空间向量为0向量，问句向量为“在吗”的句子向量。

时序1:当收到“请问什么时候发货”时，记忆空间向量为“在吗”的句子向量，问句向量为“请问什么时候发货”的句子向量，当前问句向量和记忆空间向量在记忆遗忘模块进行计算更新记忆空间向量，得到“在吗”与“请问什么时候发货”综合后的记忆空间向量。

时序N:依次类推，第N句问句会输入记忆遗忘模块更新记忆空间的向量。通过记忆遗忘模块，不断更新记忆。

所述的注意力模块用于结合当前问句向量，识别多句上文对当前问句的重要程度，算出权重，得到多句上文的注意力权重向量，注意力模块如图4所示，通过注意力模块过滤对当前识别无用的信息实现了信息的提炼，保证当前问题的识别不受上文无用信息的干扰。例子中的时序3时，模型会计算之前的三句话相对“可以送货到楼上吗”的重要程度，得到一个重要程度的权重向量[0.09,0.7,0.2,0.01],向量长度为4，第一个值为参考问句自身的注意力打分，后面三个值为三句上文的注意力打分。因为有的情况下当前问句与所有的上文都无关，所以当上文都无关时，注意力权重最高的得分在自身，即向量中第一个值最大。

所述的融合模块用于计算权重向量和输入语句向量的加权，得到关键信息向量，将关键信息向量与当前问句向量做向量纬度拼接得到结合上下文预测的意图，在本申请中，融合模块用于计算权重向量和四个句子向量的加权；所述的输出模块输出结合上下文预测的意图、句子的完整性以及注意力权重。

单句识别单元，对当前问句的句子向量进行意图识别计算，得到单一句子的意图，单句识别单元采用的是在为店铺构建智能客服机器人时训练的意图识别模型，在本申请中不再进行赘述。

上下文意图判定单元，根据当前语句的完整性以及输入语句的注意力权重判定当前问句的意图为单一句子的意图或结合上下文预测的意图，具体包括：若句子完整则采用单一句子的意图作为意图识别系统的输出，若句子不完整则进一步判断注意力权重，若注意力权重集中在当前问句上，则判定上文多个句子都不重要，则采用单一句子的意图作为意图识别系统的输出；若注意力权重集中在上文某个句子上，则采用结合上下文预测的意图。

如图5所示，根据基于记忆遗忘装置的端到端意图识别系统的方法，包括如下步骤：

S2：意图识别，对输入语句的句子向量进行意图识别计算，得到结合上下文预测的意图、当前语句的完整性以及输入语句的注意力权重，根据当前语句的完整性以及输入语句的注意力权重判定当前问句的意图，具体包括：

S201：将第二矩阵中的句子向量输入上下文意图识别单元；

S205：根据当前语句的完整性以及输入语句的注意力权重判定当前问句的意图为单一句子的意图或结合上下文预测的意图；

进一步应用时，在电商客服实时对话中，对用户的问题句子级向量化，将用户三句上文句子向量化，不足三句的置空，将所得向量输入上下文意图识别模型，进而得到语句的意图识别结果。

通过端到端的方式，即输入原始文本信息，输出意图识别结果，实现了信息的无损传递。通过记忆遗忘模块，不断更新记忆，这里的记忆是指上文的句子空间向量表示。通过注意力机制过滤对当前识别无用的信息实现了信息的提炼，保证当前问题的识别不受上文无用信息的干扰，例如上文在问价格，接下来问快递，我们的方式能有效识别上文对当前问句的重要性，最终通过提炼的信息结合当前问句来识别用户真实的意图，兼顾了上文和当前问句，同时保证了信息的无损传递。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于记忆遗忘装置的端到端意图识别系统，其特征在于：包括

数据预处理单元，对输入语句进行句子级向量表示，得到每个语句的句子向量；所述的输入语句包括若干上文和当前问句；

上下文意图识别单元，对输入语句的句子向量进行意图识别计算，得到结合上下文预测的意图、当前问句的完整性以及输入语句的注意力权重；

单句识别单元，对当前问句的句子向量进行意图识别计算，得到单一句子的意图；

上下文意图判定单元，根据当前问句的完整性以及输入语句的注意力权重判定当前问句的意图为单一句子的意图或结合上下文预测的意图。

2.根据权利要求1所述的基于记忆遗忘装置的端到端意图识别系统，其特征在于：所述的数据预处理单元包括句子数值转换单元和句子向量化单元，所述的句子数值转换单元将语句进行数值转换，得到指定长度的向量，并将同一数据集中的多个向量组成第一矩阵；所述的句子向量化单元采用预训练模型对句子数值转换单元得到的矩阵进行计算得到每一个向量对应一句话的句子向量的第二矩阵。

3.根据权利要求2所述的基于记忆遗忘装置的端到端意图识别系统，其特征在于：所述的预训练模型为固定参数的预训练模型。

4.根据权利要求1所述的基于记忆遗忘装置的端到端意图识别系统，其特征在于：所述的上下文意图识别单元包括记忆遗忘模块、注意力模块、融合模块和输出模块，所述的记忆遗忘模块用于结合上文和当前问句向量更新记忆，选择遗忘内容；所述的注意力模块用于结合当前问句向量，识别多句上文对当前问句的重要程度，算出权重，得到多句上文的注意力权重向量；所述的融合模块用于计算权重向量和输入语句向量的加权，得到关键信息向量，将关键信息向量与当前问句向量做向量纬度拼接得到结合上下文预测的意图；所述的输出模块输出结合上下文预测的意图、句子的完整性以及注意力权重。

5.根据权利要求1所述的基于记忆遗忘装置的端到端意图识别系统，其特征在于：所述的根据当前问句的完整性以及输入语句的注意力权重判定当前问句的意图为单一句子的意图或结合上下文预测的意图具体包括：若句子完整则采用单一句子的意图作为意图识别系统的输出，若句子不完整则进一步判断注意力权重，若注意力权重集中在当前问句上，则判定上文多个句子都不重要，则采用单一句子的意图作为意图识别系统的输出；若注意力权重集中在上文某个句子上，则采用结合上下文预测的意图。

6.根据权利要求1-5中任意一项所述的基于记忆遗忘装置的端到端意图识别系统的方法，其特征在于：包括如下步骤：

S1：数据预处理，对输入语句进行句子级向量表示，得到每个语句的句子向量；所述的输入语句包括若干上文和当前问句；

S2：意图识别，对输入语句的句子向量进行意图识别计算，得到结合上下文预测的意图、当前问句的完整性以及输入语句的注意力权重，根据当前问句的完整性以及输入语句的注意力权重判定当前问句的意图。

7.根据权利要求6所述的基于记忆遗忘装置的端到端意图识别方法，其特征在于：所述的数据预处理包括：

S101：将语句进行数值转换，得到指定长度的向量，并将同一数据集中的多个向量组成第一矩阵；

8.根据权利要求7所述的基于记忆遗忘装置的端到端意图识别方法，其特征在于：所述的步骤S101包括：定义生成汉字到数字的映射表，将不同的汉字对应到一个数字上，每个汉字都有唯一的数字对应，对应关系为汉字对应其排序后的序号；然后根据映射表将每个句子转换成一个具有指定长度的向量，长度不足的补0，以达到指定长度。

9.根据权利要求7所述的基于记忆遗忘装置的端到端意图识别方法，其特征在于：所述的意图识别具体包括：

S201：将第二矩阵中的句子向量输入上下文意图识别单元；