CN107193865B

CN107193865B - 人机交互中自然语言意图理解方法及装置

Info

Publication number: CN107193865B
Application number: CN201710219326.7A
Authority: CN
Inventors: 刘振国; 孙世杰; 张海雷; 胡一川; 汪冠春
Original assignee: Shanghai Fast Shadow Network Technology Co Ltd
Current assignee: Shanghai Laiyibert Network Technology Co ltd
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2020-03-10
Anticipated expiration: 2037-04-06
Also published as: CN107193865A

Abstract

本发明公开了一种人机交互中自然语言意图理解方法以及装置，其中，该方法包括：获取待解析的对话文本信息；确定对话文本信息中每个分词的词向量；根据意图识别模型和词向量，生成与对话文本信息的意图类型；获取与意图类型对应的意图要素抽取模型；根据意图要素抽取模型和词向量，从对话文本信息中确定出表达意图类型所需要的意图要素的关键词信息。本发明实施例提供的人机交互中自然语言意图理解方法，无需提取对话文本信息在其对应领域上的特征信息，通过分析对话文本信息中每个分词的词向量即可从对话文本信息中准确确定出表达意图类型所需要的意图要素的关键词信息。

Description

人机交互中自然语言意图理解方法及装置

技术领域

本发明涉及自然语言技术领域，尤其涉及一种人机交互中自然语言意图理解方法及装置。

背景技术

对话系统(Dialogue System)是一种基于自然语言的人机交互系统。通过对话系统，人可以使用自然语言和计算机进行多轮交互来完成特定的任务，如信息查询、服务获取等。对话系统提供了一种更自然、便捷的人机交互方式，广泛应用于车载、家居、客服等场景。

其中，自然语言理解(Natural Language Understanding)是对话系统中的核心模块。自然语言理解的目标是将自然语言的文本信息转换为可被计算机处理的语义表示(Semantic Representation)，即用一种结构化的数据来表示一句话所表达的含义。也就是说，自然语言理解的目标是根据待解析的文本信息确定用户想表达的意图以及满足用户意图的条件。

相关技术中，最常见的一种技术方案是基于规则的自然语言理解。基于规则的自然语言理解方式通过定义若干规则来进行意图识别和意图要素从文本信息中获取表达对应意图所需要的意图元素的关键词。例如，当输入文本符合「…订…X到Y…航班」这样的规则时，系统就输出意图是订机票，X和Y分别为出发和达到城市。然而，上述基于规则的自然语言理解方式至少存在如下技术问题：1)规则的设定通常依赖领域知识，需要专业人员来设定，耗费人力。2)因为自然语言表达方式的多样性，覆盖不同的表达方式就需要设定大量的规则，但即便这样，也无法穷尽出所有规则。3)基于规则的方法无法根据实际数据进行自学习而不断进化，遇到问题时只能靠不断地设定新的规则来解决。4)如果规则越来越多，规则之间甚至会发生冲突。另外，还可以通过传统统计机器学习的方法进行自然语言理解，通过该方式进行自然语言理解需要人工设计模型的输入特征(例如，n-gram、tf-idf(termfrequency–inverse document frequency，信息检索数据挖掘的常用加权技术))，这带来两个问题。首先，特征的好坏会影响模型的效果，而特征设计依赖于领域知识，因此需要专业人员投入大量精力在特征设计上。其次，因为大部分特征是与领域知识相关的，同样的特征在解决一个领域的问题时有效并不代表该特征在解决另一个领域的问题时依然有效，这使得该方法跨领域迁移的能力较弱。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种人机交互中自然语言意图理解方法，该方法无需提取对话文本信息在其对应领域上的特征信息，通过分析对话文本信息中每个分词的词向量即可从对话文本信息中准确确定出表达意图类型所需要的意图要素的关键词信息。

本发明的第二个目的在于提出一种人机交互中自然语言意图理解装置。

为达上述目的，本发明第一方面实施例提出了一种人机交互中自然语言意图理解方法，包括：获取待解析的对话文本信息；确定所述对话文本信息中每个分词的词向量；根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；获取与所述意图类型对应的意图要素抽取模型；根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息。

根据本发明实施例的人机交互中自然语言意图理解方法，通过向意图识别模型输入的对话文本信息中每个分词对应的词向量，即可通过意图识别模型确定对话文本信息的意图类型，并应用与意图类型对应的意图抽取模型从对话文本信息中确定表达表达意图类型所需要的意图要素的关键词信息。由此，无需提取对话文本信息在其对应领域上的特征信息，通过分析对话文本信息中每个分词的词向量即可从对话文本信息中准确确定出表达意图类型所需要的意图要素的关键词信息。

优选的，所述确定所述对话文本信息中每个分词的词向量，包括：对所述对话文本信息进行分词，以生成所述对话文本信息的分词结果；根据所述分词结果生成所述对话文本信息中每个分词的词向量。

优选的，所述意图识别模型是基于长短时记忆(LSTM)的循环神经网络预先建立的，所述意图识别模型包括多个LSTM单元，所述根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型，包括：在当前分词为第一个分词时，获取第一初始隐向量，并将所述第一初始隐向量和所述第一个分词的词向量输入第一个LSTM单元，以通过所述LSTM单元生成所述当前分词的第一隐向量；在当前分词为第i个分词时，获取第i-1个分词的第一隐向量，并将所述第i-1个分词的第一隐向量和所述第i个分词的词向量输入第i个LSTM单元，以通过所述第i个LSTM单元生成所述第i个分词的第一隐向量，其中，i为大于或者等于2，且小于N的正整数，其中，N为所述文本信息中分词的总数；获取第N个分词的第一隐向量，并根据所述第N个分词的第一隐向量确定出所述文本信息所表达的候选意图类型及其对应的概率信息；根据所述候选意图类型所对应的概率信息，确定出所述对话文本信息的意图类型。

优选的，所述意图要素抽取模型是基于双向的长短时记忆(LSTM)的循环神经网络预先建立的。

优选的，所述根据所述意图要素抽取模型包括正向LSTM层和反向LSTM层，所述正向LSTM层和反向LSTM层均包括多个LSTM单元，所述根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息，包括：获取所述正向LSTM层的初始隐向量f₀和所述反向LSTM层的初始隐向量b_N；从中间变量i的取值等于1开始，执行步骤S1，将中间变量i的取值增加1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S1，直至中间变量i的取值等于N-1，其中，N为所述文本信息中分词的总数；其中，所述步骤S1，将第二隐向量f_i-1和所述第i个分词的词向量V_i输入所述正向LSTM层中的第i个LSTM单元，以通过所述正向LSTM层中的第i个LSTM单元生成所述第i个分词的第二隐向量f_i和第一输出向量y_1，i；从中间变量i的取值等于N开始，执行步骤S2，将中间变量i的取值减1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S2，直至中间变量i的取值等于2；其中，所述步骤S2，将第三隐向量b_i和所述第i个分词的词向量V_i输入所述反向LSTM层中的第i个LSTM单元，以通过所述反向LSTM层中的第i个LSTM单元生成所述第i个分词的第二隐向量b_i-1和第二输出向量y_2，i；针对反向LSTM层中的第1个LSTM单元，将第三隐向量b₁和第1个分词的词向量V₁输入反向LSTM层中的第1个LSTM单元，以通过反向LSTM层中的第1个LSTM单元生成第1个分词的第二输出向量y_2，1；根据每个分词的第一输出向量y₁，_i和第二输出向量y_2，i，分别确定每个分词对应的意图要素标签的概率信息；根据每个分词对应的意图要素标签的概率信息，确定出表达所述意图类型所需要的意图要素的关键词信息。

为达上述目的，本发明第二方面实施例提出了一种人机交互中自然语言意图理解装置，包括：第一获取模块，用于获取待解析的对话文本信息；第一确定模块，用于确定所述对话文本信息中每个分词的词向量；生成模块，用于根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；第二获取模块，用于获取与所述意图类型对应的意图要素抽取模型；第二确定模块，用于根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息。

根据本发明实施例的人机交互中自然语言意图理解装置，通过向意图识别模型输入的对话文本信息中每个分词对应的词向量，即可通过意图识别模型确定对话文本信息的意图类型，并应用与意图类型对应的意图抽取模型从对话文本信息中确定表达表达意图类型所需要的意图要素的关键词信息。由此，无需提取对话文本信息在其对应领域上的特征信息，通过分析对话文本信息中每个分词的词向量即可从对话文本信息中准确确定出表达意图类型所需要的意图要素的关键词信息。

优选的，所述第一确定模块，具体用于：对所述对话文本信息进行分词，以生成所述对话文本信息的分词结果，然后根据所述分词结果生成所述对话文本信息中每个分词的词向量。

优选的，所述意图识别模型是基于长短时记忆(LSTM)的循环神经网络预先建立的，所述生成模块，具体用于：在当前分词为第一个分词时，获取第一初始隐向量，并将所述第一初始隐向量和所述第一个分词的词向量输入第一个LSTM单元，以通过所述LSTM单元生成所述当前分词的第一隐向量；在当前分词为第i个分词时，获取第i-1个分词的第一隐向量，并将所述第i-1个分词的第一隐向量和所述第i个分词的词向量输入第i个LSTM单元，以通过所述第i个LSTM单元生成所述第i个分词的第一隐向量，其中，i为大于或者等于2，且小于N的正整数，其中，N为所述文本信息中分词的总数；获取第N个分词的第一隐向量，并根据所述第N个分词的第一隐向量确定出所述文本信息所表达的候选意图类型及其对应的概率信息；根据所述候选意图类型所对应的概率信息，确定出所述对话文本信息的意图类型。

优选的，所述根据所述意图要素抽取模型包括正向LSTM层和反向LSTM层，所述正向LSTM层和反向LSTM层均包括多个LSTM单元，所述第二确定模块，包括：获取单元，用于获取所述正向LSTM层的初始隐向量f₀和所述反向LSTM层的初始隐向量b_N；第一执行单元，用于从中间变量i的取值等于1开始，执行步骤S1，将中间变量i的取值增加1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S1，直至中间变量i的取值等于N-1，其中，N为所述文本信息中分词的总数；其中，所述步骤S1，将第二隐向量f_i-1和所述第i个分词的词向量V_i输入所述正向LSTM层中的第i个LSTM单元，以通过所述正向LSTM层中的第i个LSTM单元生成所述第i个分词的第二隐向量f_i和第一输出向量y_1，i；第二执行单元，用于从中间变量i的取值等于N开始，执行步骤S2，将中间变量i的取值减1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S2，直至中间变量i的取值等于2；其中，所述步骤S2，将第三隐向量b_i和所述第i个分词的词向量V_i输入所述反向LSTM层中的第i个LSTM单元，以通过所述反向LSTM层中的第i个LSTM单元生成所述第i个分词的第二隐向量b_i-1和第二输出向量y_2，i；生成单元，用于针对反向LSTM层中的第1个LSTM单元，将第三隐向量b₁和第1个分词的词向量V₁输入反向LSTM层中的第1个LSTM单元，以通过反向LSTM层中的第1个LSTM单元生成第1个分词的第二输出向量y_2，1；第一确定单元，用于根据每个分词的第一输出向量y_1，i和第二输出向量y_2，i，分别确定每个分词对应的意图要素标签的概率信息；第二确定单元，用于根据每个分词对应的意图要素标签的概率信息，确定出表达所述意图类型所需要的意图要素的关键词信息。

本发明第三方面实施例提供了一种人机交互中自然语言意图理解装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：获取待解析的对话文本信息；确定所述对话文本信息中每个分词的词向量；根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；获取与所述意图类型对应的意图要素抽取模型；根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息。

本发明第四方面实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备执行以本发明第一方面实施例的人机交互中自然语言意图理解方法。

本发明第五方面实施例提供了一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，执行一种人机交互中自然语言意图理解方法，所述方法包括：获取待解析的对话文本信息；确定所述对话文本信息中每个分词的词向量；根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；获取与所述意图类型对应的意图要素抽取模型；根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明一个实施例的人机交互中自然语言意图理解方法的流程图；

图2是根据意图识别模型和词向量，生成与对话文本信息的意图类型的过程的示意图；

图3是根据意图要素抽取模型和词向量获取每个分词对应的意图要素标签的概率信息的过程的示意图；

图4是本发明一个实施例的人机交互中自然语言意图理解装置的结构示意图；

图5是本发明另一个实施例的人机交互中自然语言意图理解装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的人机交互中自然语言意图理解方法以及装置。

图1是本发明一个实施例的人机交互中自然语言意图理解方法的流程图。

如图1所示，该人机交互中自然语言意图理解方法可以包括以下几个步骤：

S11，获取待解析的对话文本信息。

通常，在进行人机交互的过程中，获取人机交互过程中待解析的对话文本信息。

其中，需要理解的是，在人机交互的过程中，用户可通过文本或者语音方式进行人机交互。

作为一种示例性的实施方式，在用户通过语音方式进行人机交互时，在接收到用户输入的语音信息后，可对接收的语音信息进行语音识别，以获取语音信息对应的文本信息。

S12，确定对话文本信息中每个分词的词向量。

在本发明的一个实施例中，在获取待解析的对话文本信息后，对对话文本信息进行分词，以生成对话文本信息的分词结果，然后，根据分词结果生成对话文本信息中每个分词的词向量。

作为一种示例性的实施方式，将待解析的对话文本信息输入至分词器，以通过分词器将对话文本信息分为若干个分词。

举例而言，假设待解析的对话文本信息为“帮我订周五北京到上海的机票”，通过分词器对该对话文本信息进行分词，得到分词结果，假设用w₁,w₂,…,w_n来表示分词，所获取的分词结果为：w₁＝帮,w₂＝我,w₃＝订,w₄＝周五,w₅＝北京,w₆＝到,w₇＝上海,w₈＝的,w₉＝机票。

在本发明的一个实施例中，在获取对话文本信息对应的分词结果后，可根据分词结果生成每个分词对应的词向量。

其中，生成分词对应的词向量的过程可通过现有技术实现，此处不再赘述。

S13，根据意图识别模型和词向量，生成与对话文本信息的意图类型。

其中，意图识别模型是基于长短时记忆(LSTM)的循环神经网络预先建立的，意图识别模型包括多个LSTM单元。

其中，需要说明的是，通过基于长短时记忆(LSTM)的循环神经网络所建立的意图识别模型，使得意图识别模型可以对不定长度的输入序列进行处理，并且，该意图识别模型可以很好地捕捉输入序列的相关性，并结合相关性信息进行自然语言处理，可以使模型确认的意图更加准确。

在本发明的一个实施例中，根据意图识别模型和词向量，生成与对话文本信息的意图类型可以包括：在当前分词为第一个分词时，获取第一初始隐向量，并将第一初始隐向量和第一个分词的词向量输入第一个LSTM单元，以通过LSTM单元生成当前分词的第一隐向量；在当前分词为第i个分词时，获取第i-1个分词的第一隐向量，并将第i-1个分词的第一隐向量和第i个分词的词向量输入第i个LSTM单元，以通过第i个LSTM单元生成第i个分词的第一隐向量，其中，i为大于或者等于2，且小于N的正整数，其中，N为文本信息中分词的总数。然后，获取第N个分词的第一隐向量，并根据第N个分词的第一隐向量确定出文本信息所表达的候选意图类型及其对应的概率信息，以及根据候选意图类型所对应的概率信息，确定出对话文本信息的意图类型。

其中，初始隐向量为全零向量。

具体地，在获取每个分词的词向量后，可将词向量依次输入意图识别模型，意图识别模型根据输入的分词的词向量获取当前对话文本信息的候选意图类型和其对应的概率信息，并从候选意图类型和其对应的概率信息中获取概率最大的候选意图类型，并将概率最大的候选意图类型作为当前对话文本信息的意图类型。

下面结合图2对根据意图识别模型和词向量，生成与对话文本信息的意图类型的过程进行描述。其中，图2中的h₀表示第一初始隐向量，h₁至h_N-1表示第一个隐向量至第N-1个隐向量，v₁至v_N表示第一个分词至第N个分词。通过图2可以看出，LSTM单元根据第一初始隐向量h₀和第一分词的词向量v₁生成第一分词对应的隐向量h₁，然后，将第一分词对应的隐向量h₁和第二分词的词向量v₂输入LSTM单元，以通过LSTM单元生成第二分词对应的隐向量h₂，不断重复根据上一个分词对应的隐向量和当前分词对应的词向量生成当前分词对应的隐向量的过程，直至第N-1个分词，对于最后一个分词，将第N-1个分词的隐向量h_N-1和当前分词的词向量v_N输入LSTM单元，并将LSTM单元输出的隐向量输入到Softmax层，以使Softmax层根据第N个分词的第一隐向量h_N确定出文本信息所表达的候选意图类型及其对应的概率信息，以及根据候选意图类型所对应的概率信息，确定出对话文本信息的意图类型。

举例而言，假设待解析的对话文本信息为“帮我订周五北京到上海的机票”，通过分词器对该对话文本信息进行分词，得到分词结果，假设用w₁,w₂,…,w_n来表示分词，所获取的分词结果为：w₁＝帮,w₂＝我,w₃＝订,w₄＝周五,w₅＝北京,w₆＝到,w₇＝上海,w₈＝的,w₉＝机票，在根据分词结果获取每个分词的词向量，并将词向量依次输入至意图识别模型，假设意图识别模型通过分析对话文本信息确定出意图类型为预定机票的概率为0.9、预定火车票的概率为0.07，查询天气的概率为0.03，根据上述三种意图类型的概率，可以确定出该对话文本信息对应的意图类型为预定机票。

S14，获取与意图类型对应的意图要素抽取模型。

其中，需要理解的是，由于表达不同意图所需要的意图要求不同，因此，不同意图类型所使用的意图要素抽取模型是不同的。

举例而言，对于订票意图类型和约保洁意图类型，其所对应的表达对应意图所需要的意图要求不同，在意图类型为订票意图类型时，表达订票意图类型所需要的意图要素可以包括但不限于出发日期、出发时间、出发城市和达到城市(即，目的地城市)等要素，也就是说，用户所表达的对话文本信息中包括与意图要素对应的关键词。然而，在意图类型为约保洁意图类型时，表达“约保洁意图类型”所需要的意图要素可以包括但不限于日期、时间和地址信息等要素。

S15，根据意图要素抽取模型和词向量，从对话文本信息中确定出表达意图类型所需要的意图要素的关键词信息。

其中，该实施例的意图要素抽取模型是基于双向的长短时记忆(LSTM)的循环神经网络预先建立的。

在本发明的一个实施例中，根据意图要素抽取模型包括正向LSTM层和反向LSTM层，正向LSTM层和反向LSTM层均包括多个LSTM单元，根据意图要素抽取模型和词向量，从对话文本信息中确定出表达意图类型所需要的意图要素的关键词信息的过程，可以包括：

首先，获取正向LSTM层的初始隐向量f₀和反向LSTM层的初始隐向量b_N。

然后，从中间变量i的取值等于1开始，执行步骤S1，将中间变量i的取值增加1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S1，直至中间变量i的取值等于N-1，其中，N为文本信息中分词的总数。

其中，步骤S1为：将第二隐向量f_i-1和第i个分词的词向量V_i输入正向LSTM层中的第i个LSTM单元，以通过正向LSTM层中的第i个LSTM单元生成第i个分词的第二隐向量f_i和第一输出向量y_1，i。

从中间变量i的取值等于N开始，执行步骤S2，将中间变量i的取值减1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S2，直至中间变量i的取值等于2。

其中，步骤S2为：将第三隐向量b_i和第i个分词的词向量V_i输入反向LSTM层中的第i个LSTM单元，以通过反向LSTM层中的第i个LSTM单元生成第i个分词的第二隐向量b_i-1和第二输出向量y_2，i。

针对反向LSTM层中的第1个LSTM单元，将第三隐向量b₁和第1个分词的词向量V₁输入反向LSTM层中的第1个LSTM单元，以通过反向LSTM层中的第1个LSTM单元生成第1个分词的第二输出向量y_2，1。

然后，根据每个分词的第一输出向量y_1，i和第二输出向量y_2，i，分别确定每个分词对应的意图要素标签的概率信息。

最后，根据每个分词对应的意图要素标签的概率信息，确定出表达意图类型所需要的意图要素的关键词信息。

其中，根据意图要素抽取模型和词向量获取每个分词对应的意图要素标签的概率信息的过程的示意图，如图3所示。通过正向LSTM层和反向LSTM层中的LSTM单元分别生成每个分词的第一输出向量和第二输出向量后，针对第i个分词，将第i分词的第一输出向量y_1，i和第二输出向量y_2，i输入至Softmax层，以使Softmax层根据第i分词的第一输出向量y_1，i和第二输出向量y_2，i确定出第i个分词意图要素的概率信息。

其中，需要说明的是，正向LSTM层和反向LSTM层中的每个LSTM单元均有两个输入和两个输出,针对正向LSTM层中的第i个LSTM单元，第i个分词的词向量V_i和第i-1分词的第二隐向量f_i-1。两个输出分别为第i分词的隐向量h_i和第i分词的输出向量y_1,i。

其中，第i分词的隐向量h_i是根据第i分词的词向量V_i和第i-1分词的第二隐向量f_i-1生成的。

其中，第i分词的输出向量y_1,i是根据第i分词的隐向量h_i生成的。

举例而言，假设待解析的对话文本信息为“帮我订周五北京到上海的机票”，通过分词器对该对话文本信息进行分词，得到分词结果，假设用w₁,w₂,…,w_n来表示分词，所获取的分词结果为：w₁＝帮,w₂＝我,w₃＝订,w₄＝周五,w₅＝北京,w₆＝到,w₇＝上海,w₈＝的,w₉＝机票，在确定该对话文本信息对应的意图为预定机票后，可获取预定机票对应的意图要素抽取模型，并将每个分词对应的词向量输入至意图要素抽取模型，假设意图要素抽取模型获取对应每个分词属于对应意图要素标签的概率如表1所示：

表1 分词与对应意图要素以及概率的对应关系

分词	对应意图要素以及概率
		帮	无对应意图要素
我	无对应意图要素
		订	无对应意图要素
周五	出发日期0.9，预订日期0.1
		北京	出发城市0.8，到达城市0.2
到	无对应意图要素
		上海	到达城市0.9，出发城市0.1
的	无对应意图要素
		机票	无对应意图要素

在获取每个分词在意图要素的概率信息后，针对每个分词，可以分别将每个分词对应概率最大的意图要素，作为对应分词的意图要素。根据表1中的概率信息，可以确定该对话文本信息对应的意图要素的关键词信息为：出发日期意图要素对应的关键词为周五，出发城市意图要素对应的关键词为北京，达到城市意图要素对应的关键词为上海。

其中，需要理解的是，该方法在进行自然语言理解的过程中，无需提取对话文本信息在其对应领域上的特征信息，因此，该实施例的人机交互中自然语言意图理解方法可以准确对属于不同领域的对话文本信息进行准确的自然语言理解，提高了该方法的通用性。

为了实现上述实施例，本发明还提出了一种人机交互中自然语言意图理解装置。

图4是本发明一个实施例的人机交互中自然语言意图理解装置的结构示意图。

如图4所示，该人机交互中自然语言意图理解装置包括第一获取模块110、第一确定模块120、生成模块130、第二获取模块140和第二确定模块150，其中：

第一获取模块110用于获取待解析的对话文本信息。

第一确定模块120用于确定对话文本信息中每个分词的词向量。

生成模块130用于根据意图识别模型和词向量，生成与对话文本信息的意图类型。

第二获取模块140用于获取与意图类型对应的意图要素抽取模型。

第二确定模块150用于根据意图要素抽取模型和词向量，从对话文本信息中确定出表达意图类型所需要的意图要素的关键词信息。

在本发明的一个实施例中，第一确定模块120具体用于：对对话文本信息进行分词，以生成对话文本信息的分词结果，然后，根据分词结果生成对话文本信息中每个分词的词向量。

其中，意图识别模型是基于长短时记忆(LSTM)的循环神经网络预先建立的，

在本发明的一个实施例中，生成模块130具体用于：在当前分词为第一个分词时，获取第一初始隐向量，并将第一初始隐向量和第一个分词的词向量输入第一个LSTM单元，以通过LSTM单元生成当前分词的第一隐向量；在当前分词为第i个分词时，获取第i-1个分词的第一隐向量，并将第i-1个分词的第一隐向量和第i个分词的词向量输入第i个LSTM单元，以通过第i个LSTM单元生成第i个分词的第一隐向量，其中，i为大于或者等于2，且小于N的正整数，其中，N为文本信息中分词的总数；获取第N个分词的第一隐向量，并根据第N个分词的第一隐向量确定出文本信息所表达的候选意图类型及其对应的概率信息；根据候选意图类型所对应的概率信息，确定出对话文本信息的意图类型。

其中，意图要素抽取模型是基于双向的长短时记忆(LSTM)的循环神经网络预先建立的。

其中，根据意图要素抽取模型包括正向LSTM层和反向LSTM层，正向LSTM层和反向LSTM层均包括多个LSTM单元。

在本发明的一个实施例中，在图4所示的基础上，如图5所示，第二确定模块150可以包括获取单元151、第一执行单元152、第二执行单元153、生成单元154、第一确定单元155和第二确定单元156，其中：

获取单元151用于获取正向LSTM层的初始隐向量f₀和反向LSTM层的初始隐向量b_N。

第一执行单元152用于从中间变量i的取值等于1开始，执行步骤S1，将中间变量i的取值增加1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S1，直至中间变量i的取值等于N-1，其中，N为文本信息中分词的总数。

其中，步骤S1，将第二隐向量f_i-1和第i个分词的词向量V_i输入正向LSTM层中的第i个LSTM单元，以通过正向LSTM层中的第i个LSTM单元生成第i个分词的第二隐向量f_i和第一输出向量y_1，i。

第二执行单元153用于从中间变量i的取值等于N开始，执行步骤S2，将中间变量i的取值减1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S2，直至中间变量i的取值等于2。

其中，步骤S2，将第三隐向量b_i和第i个分词的词向量V_i输入反向LSTM层中的第i个LSTM单元，以通过反向LSTM层中的第i个LSTM单元生成第i个分词的第二隐向量b_i-1和第二输出向量y_2，i。

生成单元154用于针对反向LSTM层中的第1个LSTM单元，将第三隐向量b₁和第1个分词的词向量V₁输入反向LSTM层中的第1个LSTM单元，以通过反向LSTM层中的第1个LSTM单元生成第1个分词的第二输出向量y_2，1。

第一确定单元155用于根据每个分词的第一输出向量y_1，i和第二输出向量y_2，i，分别确定每个分词对应的意图要素标签的概率信息。

第二确定单元156用于根据每个分词对应的意图要素标签的概率信息，确定出表达意图类型所需要的意图要素的关键词信息。

其中，第i分词的输出向量y_1,i是根据第i分词的隐向量h_i生成的。其中，需要说明的是，前述对人机交互中自然语言意图理解方法实施例的解释说明也适用于该实施例的人机交互中自然语言意图理解装置，其实现原理类似，此处不再赘述。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种人机交互中自然语言意图理解方法，其特征在于，包括以下步骤：

获取待解析的对话文本信息；

确定所述对话文本信息中每个分词的词向量；

根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；

获取与所述意图类型对应的意图要素抽取模型；

根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息。

2.如权利要求1所述的人机交互中自然语言意图理解方法，其特征在于，所述确定所述对话文本信息中每个分词的词向量，包括：

对所述对话文本信息进行分词，以生成所述对话文本信息的分词结果；

根据所述分词结果生成所述对话文本信息中每个分词的词向量。

3.如权利要求1所述的人机交互中自然语言意图理解方法，其特征在于，所述意图识别模型是基于长短时记忆(LSTM)的循环神经网络预先建立的，所述意图识别模型包括多个LSTM单元，所述根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型，包括：

在当前分词为第一个分词时，获取第一初始隐向量，并将所述第一初始隐向量和所述第一个分词的词向量输入第一个LSTM单元，以通过所述LSTM单元生成所述当前分词的第一隐向量；

在当前分词为第i个分词时，获取第i-1个分词的第一隐向量，并将所述第i-1个分词的第一隐向量和所述第i个分词的词向量输入第i个LSTM单元，以通过所述第i个LSTM单元生成所述第i个分词的第一隐向量，其中，i为大于或者等于2，且小于N的正整数，其中，N为所述文本信息中分词的总数；

获取第N个分词的第一隐向量，并根据所述第N个分词的第一隐向量确定出所述文本信息所表达的候选意图类型及其对应的概率信息；

根据所述候选意图类型所对应的概率信息，确定出所述对话文本信息的意图类型。

4.如权利要求1所述的人机交互中自然语言意图理解方法，其特征在于，所述意图要素抽取模型是基于双向的长短时记忆(LSTM)的循环神经网络预先建立的。

5.如权利要求4所述的人机交互中自然语言意图理解方法，其特征在于，所述根据所述意图要素抽取模型包括正向LSTM层和反向LSTM层，所述正向LSTM层和反向LSTM层均包括多个LSTM单元，所述根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息，包括：

获取所述正向LSTM层的初始隐向量f₀和所述反向LSTM层的初始隐向量b_N；

从中间变量i的取值等于1开始，执行步骤S1，将中间变量i的取值增加1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S1，直至中间变量i的取值等于N-1，其中，N为所述文本信息中分词的总数；

其中，所述步骤S1，将第二隐向量f_i-1和第i个分词的词向量V_i输入所述正向LSTM层中的第i个LSTM单元，以通过所述正向LSTM层中的第i个LSTM单元生成所述第i个分词的第二隐向量f_i和第一输出向量y_1，i；

从中间变量i的取值等于N开始，执行步骤S2，将中间变量i的取值减1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S2，直至中间变量i的取值等于2；

其中，所述步骤S2，将第三隐向量b_i和所述第i个分词的词向量V_i输入所述反向LSTM层中的第i个LSTM单元，以通过所述反向LSTM层中的第i个LSTM单元生成所述第i个分词的第二隐向量b_i-1和第二输出向量y_2，i；

针对反向LSTM层中的第1个LSTM单元，将第三隐向量b₁和第1个分词的词向量V₁输入反向LSTM层中的第1个LSTM单元，以通过反向LSTM层中的第1个LSTM单元生成第1个分词的第二输出向量y_2，1；

根据每个分词的第一输出向量y_1，i和第二输出向量y_2，i，分别确定每个分词对应的意图要素标签的概率信息；

根据每个分词对应的意图要素标签的概率信息，确定出表达所述意图类型所需要的意图要素的关键词信息。

6.一种人机交互中自然语言意图理解装置，其特征在于，包括：

第一获取模块，用于获取待解析的对话文本信息；

第一确定模块，用于确定所述对话文本信息中每个分词的词向量；

生成模块，用于根据意图识别模型和所述词向量，生成与所述对话文本信息的意图类型；

第二获取模块，用于获取与所述意图类型对应的意图要素抽取模型；

第二确定模块，用于根据所述意图要素抽取模型和所述词向量，从所述对话文本信息中确定出表达所述意图类型所需要的意图要素的关键词信息。

7.如权利要求6所述的人机交互中自然语言意图理解装置，其特征在于，所述第一确定模块，具体用于：

对所述对话文本信息进行分词，以生成所述对话文本信息的分词结果，然后根据所述分词结果生成所述对话文本信息中每个分词的词向量。

8.如权利要求6所述的人机交互中自然语言意图理解装置，其特征在于，所述意图识别模型是基于长短时记忆(LSTM)的循环神经网络预先建立的，所述生成模块，具体用于：

9.如权利要求6所述的人机交互中自然语言意图理解装置，其特征在于，所述意图要素抽取模型是基于双向的长短时记忆(LSTM)的循环神经网络预先建立的。

10.如权利要求9所述的人机交互中自然语言意图理解装置，其特征在于，所述根据所述意图要素抽取模型包括正向LSTM层和反向LSTM层，所述正向LSTM层和反向LSTM层均包括多个LSTM单元，所述第二确定模块，包括：

获取单元，用于获取所述正向LSTM层的初始隐向量f₀和所述反向LSTM层的初始隐向量b_N；

第一执行单元，用于从中间变量i的取值等于1开始，执行步骤S1，将中间变量i的取值增加1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S1，直至中间变量i的取值等于N-1，其中，N为所述文本信息中分词的总数；

第二执行单元，用于从中间变量i的取值等于N开始，执行步骤S2，将中间变量i的取值减1之后所获得的取值作为中间变量i的当前取值，重复执行步骤S2，直至中间变量i的取值等于2；

生成单元，用于针对反向LSTM层中的第1个LSTM单元，将第三隐向量b₁和第1个分词的词向量V₁输入反向LSTM层中的第1个LSTM单元，以通过反向LSTM层中的第1个LSTM单元生成第1个分词的第二输出向量y_2，1；

第一确定单元，用于根据每个分词的第一输出向量y_1，i和第二输出向量y_2，i，分别确定每个分词对应的意图要素标签的概率信息；

第二确定单元，用于根据每个分词对应的意图要素标签的概率信息，确定出表达所述意图类型所需要的意图要素的关键词信息。