CN110674259A

CN110674259A - 意图理解方法和装置

Info

Publication number: CN110674259A
Application number: CN201910927583.5A
Authority: CN
Inventors: 于博
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-10

Abstract

本发明提出一种意图理解方法和装置，其中，方法包括：识别目标文本中的组成词对应的目标词槽标签，并根据目标词槽标签生成目标文本的目标泛化文本；将目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板；计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度确定目标泛化模板；获取目标泛化模板的模板意图，取目标泛化模板的模板意图，根据模板意图、目标词槽标签和目标词槽标签对应的组成词生成目标文本的意图理解结果。由此，基于泛化处理的方式实现有关信息的意图理解，不依赖于大量的标注训练样本，降低了样本人标注工作量和难度，丰富了意图理解的方式。

Description

意图理解方法和装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种意图理解方法和装置。

背景技术

通常，对自然语言的意图理解是目前智能化场景中必不可少的一环，口语对话理解任务是自然语言处理任务中的一种，通常的处理方式为：定义一个意图集合与实体词集合，其中每个意图可以对应实体词集合的一个子集，每个口语句子都可以对应意图集合中的一个或多个意图，同时句子中可以包含若干词语片段，每个片段对应一个实体词。

相关技术中，口语对话理解任务通过利用标注样本或模板等训练数据，实现口语句子的意图和实体词的识别，基于人工标注的模板做匹配，并采用一定的实体识别方法标注词槽标签，对满足模板条件的自然语言返回对应的意图和实体词识别结果，然而这种意图理解的方式依赖于人工抽象总结自然语言的规律，从而标注数量庞大的高质量模板，以实现模板对业务范围的覆盖，导致人工标注的工作量较大。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种意图理解方法，以

基于泛化处理的方式实现有关信息的意图理解，不依赖于大量的标注训练样本，降低了样本人标注工作量和难度，丰富了意图理解的方式。

本发明的第二个目的在于提出一种意图理解装置。

本发明的第三个目的在于提出一种计算机设备。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种意图理解方法，包括以下步骤：识别目标文本中的组成词对应的目标词槽标签，并根据所述目标词槽标签生成所述目标文本的目标泛化文本；将所述目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板；计算所述目标泛化文本与所述候选泛化模板的语义相似度，根据所述语义相似度在所述候选泛化模板中确定目标泛化模板；获取所述目标泛化模板的模板意图，根据所述模板意图、所述目标词槽标签和所述目标词槽标签对应的组成词生成所述目标文本的意图理解结果。

本发明实施例的意图理解方法，识别目标文本中的组成词对应的目标词槽标签，并根据目标词槽标签生成目标文本的目标泛化文本，将目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板，进而，计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度在候选泛化模板中确定目标泛化模板，最后，获取目标泛化模板的模板意图，根据模板意图、目标词槽标签和目标词槽标签对应的组成词生成目标文本的意图理解结果。由此，基于泛化处理的方式实现有关信息的意图理解，不依赖于大量的标注训练样本，降低了样本人标注工作量和难度，丰富了意图理解的方式。

为达上述目的，本发明第二方面实施例提出了一种意图理解装置，包括：识别模块，用于识别目标文本中的组成词对应的目标词槽标签；生成模块，用于根据所述目标词槽标签生成所述目标文本的目标泛化文本；第一确定模块，用于将所述目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板；第二确定模块，用于计算所述目标泛化文本与所述候选泛化模板的语义相似度，根据所述语义相似度在所述候选泛化模板中确定目标泛化模板；意图理解模块，用于获取所述目标泛化模板的模板意图，根据所述模板意图、所述目标词槽标签和所述目标词槽标签对应的组成词生成所述目标文本的意图理解结果。

本发明实施例的意图理解装置，识别目标文本中的组成词对应的目标词槽标签，并根据目标词槽标签生成目标文本的目标泛化文本，将目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板，进而，计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度在候选泛化模板中确定目标泛化模板，最后，获取目标泛化模板的模板意图，根据模板意图、目标词槽标签和目标词槽标签对应的组成词生成目标文本的意图理解结果。由此，基于泛化处理的方式实现有关信息的意图理解，不依赖于大量的标注训练样本，降低了样本人标注工作量和难度，丰富了意图理解的方式。

为达上述目的，本发明第三方面实施例提出了一种计算机设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上述第一方面实施例所述的意图理解方法。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，使得能够执行如上述第一方面实施例所述的意图理解方法。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种意图理解的流程示意图；

图2为本发明实施例所提供的一种意图理解方法的流程示意图；

图3为本发明实施例所提供的另一种意图理解方法的流程示意图；

图4为本发明实施例所提供的又一种意图理解方法的流程示意图；

图5为本发明实施例所提供的还一种意图理解方法的流程示意图；

图6为本发明实施例所提供的再一种意图理解方法的流程示意图；

图7为本发明实施例提供的一种意图理解装置的结构示意图；

图8为本发明实施例提供的另一种意图理解装置的结构示意图；以及

图9为本发明实施例提供的还一种意图理解装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的意图理解方法和装置。其中，本发明实施例中的意图理解的处理对象可以是口语对话，也可以是文本信息，为了说明的方便，下述实施例中以口语对话为例说明，口语句子的概念在领域内也会被称为query，在下文中会使用该术语。

为了解决现有技术中，意图理解依赖于模板的精确匹配，而模板需要标注完全以覆盖业务范围，从而导致人工标注成本比较大的技术问题，本发明提出了一种新的意图理解方式，在本申请中，使用小规模的标注样本实现口语对话理解，在一定程度上解决了口语对话理解任务的冷启动问题。

此案提出的方法包括训练和预测两个过程，首先将小规模的标注样本做训练，构建资源索引；在预测时对输入query做抽象，得到泛化表示，在资源索引中进行检索匹配，通过对检索候选进行语义相似度计算，解析输入query的意图与词槽标签，其中，词槽标签可以理解为与意图对应的组成词对应，词槽标签对应的组成词用于对意图进行细节内容的补充，比如，当意图为：定会议室，则词槽标签可以包括时间词槽标签、地点词槽标签等。

为了便于本领域的技术人员更加清楚的了解本发明的实施例，下面结合一种具体的可能示例，来总体说明本发明实施例的意图理解方式，需要理解的是，本示例指示为了本领域的技术人员更加清楚的理解本发明，只是一种具体的示例，本发明实际上可能有多种方式来实现，该示例不能作为本实发明的保护范围的限制。

具体而言，如图1所示，本发明实施例的意图理解分为两个流程，一个流程为训练流程，另一个流程为预测流程，其中，训练流程用于训练少量的泛化模板，预测流程用于预测当前目标文本的意图和词槽标签对应的组成词。

在训练流程中，标注模板资源经过成分分析(属性分析、词性分析等)解析后得到query的泛化表示，并通过资源索引构建得到资源字典树(资源字典树此处理解为一种可能的示例)；

在预测流程中，用户query首先经过成分分析解析，得到query中可能包含的重要成分，此处主要指词槽标签。根据query中可能包含的词槽标签，进行query抽象，得到query的泛化表示。然后，以该泛化表示对资源字典树进行检索匹配得到一系列候选实例。

接下来，对泛化表示和各个候选实例进行语义相似度计算，得到其语义相似度。根据泛化表示和各候选实例的语义相似度，进行意图与词槽标签的解析，原则是选择语义相似度与泛化表示最接近的候选泛化模板的意图作为意图的解析结果，选择对应泛化表示中的词槽标签作为词槽标签的解析结果。

下面对本发明实施例的意图理解方法进行具体说明：

图2为本发明实施例所提供的一种意图理解方法的流程示意图。如图2所示，该方法包括：

步骤101，识别目标文本中的组成词对应的目标词槽标签，并根据目标词槽标签生成目标文本的目标泛化文本。

应当理解的是，上述目标文本可以是实时监测得到的，也可以是从存储位置提取的历史文本信息，目标文本可以是将检测到的口语对话语音识别得到的。

另外，上述词槽标签可以为用户预先标定的，也可以是根据一种属性识别规则识别的，通常词槽标签根据表示与意图有关的组成词的属性信息等来确定。

在本实施例中，为了确定出目标文本的意图理解结果，需要识别目标文本中的组成词对应的目标词槽标签，并根据目标词槽标签生成目标文本的目标泛化文本，由于目标词槽标签是一种相对泛化的表示，因而，基于目标词槽标签生成的目标泛化文本显然可以以一种泛化的形式表示出目标文本。

作为一种可能的实施例，识别目标文本中组成词的属性信息，根据属性信息与预设属性信息匹配，其中，预设属性信息可以包括时间、地点、动作特征等，进而，确定匹配成功的目标组成词以及与目标组成词对应的目标词槽标签，通过目标词槽标签替换目标文本中对应的目标组成词生成目标泛化文本，即将目标文本以词槽标签的形式体现。

在本实施例中，为了进一步提高意图识别准确率，还可以对目标文本中的口语词进行去噪处理，即在识别目标文本中的组成词对应的目标词槽标签之前，识别目标文本中的口语组成词，比如，可以基于口语组成词的特征等识别出对应的口语组成词，进而，去除目标文本中的口语组成词。

举例而言，如图3所示，当用户query为“帮我预订一号楼上午10点的会议室”，首先通过组成词的属性分析，得到如下的词槽标签和口语化词：一号楼：词槽标签(user_location)，上午10点：词槽标签(user_time)，帮我：口语化词，的：口语化词，query抽象中包含词槽标签(包括特征词和实体词对应的词槽标签)、去口语化词，会得到如下的泛化表示：(kw_book)(user_location)(user_time)会议室，其中，“会议室”由于没有匹配到对应的词槽标签，因而保留，这种直接保留的方式也由于后续的意图理解，这是由于，若是在预先构建的模板中也保留了这种没有匹配到词槽标签的词，则会在后续语义匹配时，起到匹配增强的效果。

当然，在实际执行过程中，一个词可能会对应多个词槽标签，则会生成所有可能的泛化表示的泛化文本，例如在出行场景下，一个地点可能会对应多个词槽：Query：从北京到上海；词槽标签和对应的组成词：北京(user_departure)，上海(user_arrival)，此时如果给定一条用户query：“我要去杭州”，那么“杭州”可以被识别为两个可能的词槽标签：user_departure、user_arrival，那么会生成两条泛化表示后的目标泛化文本：我要去(user_departure)和我要去(user_arrival)。

如果产生的泛化表示较多，为了提升效率，可以通过裁剪来控制泛化表示的数量，比如，可以采用随机的方式去除部分泛化文本，又比如，可以统计每个泛化文本中包含的多个词槽标签之间的关联度，或者，词槽标签和没有匹配到词槽的组成词之间的关联度，将关联度较低的泛化文本去除。

步骤102，将目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板。

具体地，将目标泛化文本与预设的多个泛化模板匹配，以根据匹配度确定匹配成功的候选泛化模板，该候选泛化模板可以为一个也可以为多个。

需要说明的是，在不同的应用场景中，将目标泛化文本与预设的多个泛化模板匹配的方式不同，示例如下：

示例一：

在本示例中，预先构建泛化树结构，基于该泛化树结构进行目标泛化文本与多个泛化模板的匹配。

即获取多个模板文本，进而，识别多个模板文本中每个模板文本组成词对应的模板词槽标签，进一步地，根据模板词槽标签生成所有模板文本的泛化模板。

比如，如图4所示，模板文本为：预订一下今天下午两点的三号楼的会议室，则识别到的结果为：今天下午两点(user_time)、三号楼(user_location)，query中包含两个词槽标签对应的组成词，第一个是“今天下午两点”，是预定会议室的时间，表示为user_time，第二个是“三号楼”，是会议室的地点，表示为user_location。对于每一条上述的样本模板文本，首先经过组成词的属性分析得到query中的重要成分(词槽标签)以及口语化词。词槽标签识别可以使用实体识别技术对query进行实体标注，口语化词提取可以通过口语化词表挖掘等技术对口语化词进行识别。另外，用户可以定义一些特征词作为词槽标签对应的组成词，这些词往往并非实体，但是对表征场景的意图有重要的区分度，比如“预定”被用户标注为特征词对应的词槽标签kw_book。这类特征词可以通过词表匹配的方式进行识别。接下来，我们将query中的词槽标签进行替换，并将口语化词去除，可以得到如下的泛化表示：

(kw_book)(user_time)(user_location)会议室。

我们将所有的泛化模板组成泛化树结构(图中的Trie树)，该泛化树结构的每个节点为词槽标签，基于泛化树结构匹配的优点是利用泛化文本的公共前缀词槽标签来减少查询时间，最大限度地减少无谓的字符串比较，查询效率高。

最后，通过将目标文本的目标词槽标签与泛化树结构中的模板词槽匹配，即可获取到匹配成功的候选泛化模板。具体而言，可以将每个目标词槽标签看作一个节点，按照目标词槽标签的顺序，将目标词槽标签由第一个开始按照节点等级与泛化树结构中的节点匹配，进而，获取到对应的候选泛化模板。

示例二：

在本示例中，为了提高匹配效率，获取目标泛化文本中包含的目标词槽标签的数量，在预先训练的多个泛化模板中，获取包含相同数量的词槽标签的泛化模板作为候选泛化模板。

示例三：

在本示例中，获取目标泛化文本中包含的目标词槽标签，将包含与目标词槽标签相同词槽标签的个数超过一定值的泛化模板作为候选泛化模板。

步骤103，计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度在候选泛化模板中确定目标泛化模板。

容易理解的是，候选泛化模板只是初步筛选出的与目标泛化文本相似的泛化模板，因而，需要进一步计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度在候选泛化模板中确定目标泛化模板。

需要说明的是，在不同的应用场景中，计算目标泛化文本与候选泛化模板的语义相似度的方式不同，示例如下：

第一种示例：基于编辑距离确定相似度。

具体而言，计算目标泛化文本与候选泛化模板的加权编辑距离，基于该加权编辑距离确定语义相似度。即计算目标泛化文本与候选泛化模板的编辑距离，确定目标泛化文本中与编辑距离对应的组成词的词槽标签，比如目标泛化文本实现与候选泛化文本相同时，需要调整的组成词即为与编辑距离对应的组成词，进而，预先根据场景主题确定编辑词槽标签的编辑权重，根据编辑距离和编辑权重计算加权编辑距离，其中，编辑距离是针对二个字符串的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。可采用莱文斯坦距离(Levenshtein距离)，是编辑距离的一种，指两个字串之间，由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个泛化词替换成另一个泛化词，插入一个泛化词，删除一个泛化词。

举例而言，如图5所示，当目标泛化文本是s1＝(kw_book)(user_location)(user_time)会议室，候选泛化模板是s2＝(kw_book)(user_time)(user_location)会议室，则两者的编辑距离为2，即将s1中的第二个词user_location删除，在user_time后插入user_location，即可转成s2，由于一次删除一次插入共2次操作，所以编辑距离为2。加权编辑距离是指每次插入、删除、替换操作的代价由1改为对应泛化模板的词槽标签的权重，假设删除的user_location的权重为0.3，插入的user_time的权重为0.2，那么加权编辑距离为0.3+0.2＝0.5。词槽标签的权重赋值方法可以通过词的重要程度来赋予，目前有一些可以采用的机器学习技术来实现。进而，基于加权编辑距离确定语义相似度，比如，预先建立加权编辑距离与语义相似度的对应关系，基于该对应关系确定语义相似度。

当然，在本示例中，也可以直接基于编辑距离确定语义相似度，由于编辑距离越大，两条文本的相似度应该越小，因此需要将编辑距离映射到语义相似度上。具体而言，可定义编辑距离的范围，比如[0,3]，最小值0代表两条文本完全一样，编辑距离为0，最大值3代表认为编辑距离超过该值时两条语句的相似度为0，那么将该区间通过线性映射到[0,1]之间，由于语义相似度的取值应该在该区间，0代表两条语句完全不相似，1代表两条语句语义完全一致。

第二种示例：基于算法确定相似度。

需要说明的是，本实施中的语义相似度的算法可以为多种，为了说明的方便，如图5所示，本示例中以Jaccard算法为例进行说明。Jaccard相似度，又称为Jaccard相似系数(Jaccard similarity coefficient)，用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大，样本相似度越高。

具体而言，给定两个集合A,B，Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值。本例中可以认为目标泛化文本为A＝{kw_book,user_location,user_time,会议室}，候选泛化模板为B＝{kw_book,user_time,user_location,会议室}，可见A＝B，因此Jaccard相似度为1.0。加权的文本相似度将集合的大小替换为集合中元素权重之和。

第三种示例：基于词向量确定相似度。

词向量(是自然语言处理领域中的一组语言建模和特征学习技术的统称，词向量是指将词汇表里的单词或短语映射为实数向量。词向量可以使用特定场景或通用场景的语料进行无监督训练得到，在应用时，如图5所示，可以将目标泛化文本和候选泛化模板中的所有词槽标签的词向量加权平均得到的结果作为该文本的向量表示，两条文本的相似度可以通过计算两条文本对应的向量的余弦相似度得出。

当然，上述三种语义相似度的计算方式也可以共同使用，从而面积与三种方式计算得到的语义相似度的最大值作为最后的语义相似度。

步骤104，获取目标泛化模板的模板意图，根据模板意图、目标词槽标签和目标词槽标签对应的组成词生成目标文本的意图理解结果。

具体地，获取目标泛化模板的模板意图，由于目标泛化模板与目标泛化文本语义相似度很高，因而，认为二者的意图是相似的或者是一致的，直接将目标泛化模板的模板意图作为目标文本的意图，进而，由于目标词槽标签是意图的细节补充内容，因而，还需要将目标词槽标签和目标词槽标签对应的组成词作为意图理解结果呈现。比如，对于目标文本“帮我预订一号楼上午10点的会议室”，则呈现的意图理解结果为：

意图：BOOK_MEETING；

词槽：一号楼(user_time)，上午10点(user_location)。

从而，基于该意图理解结果，我们即可以了解到当前的目标文本意图是“会议预定”，又可以了解到会议预定的时间和地点。

需要说明的是，获取目标泛化末班意图的方式在不同的应用场景中可不同，作为一种可能的实现方式，可以预先存储目标泛化末班和模板意图的对应关系，基于该对应关系确定模板意图，在实际应用中，可以基于倒排索引源的方式记录该对应关系，从而，根据目标泛化模板查询预先构建的倒排索引源，获取模板意图；其中，倒排索引源的属性值为泛化模板，属性值对应的记录包括泛化模板对应的模板意图。

在本实施中，如图3和图4所示，在预先训练过程中，将所有训练样本资源转换而成的泛化表示构建成Trie树和倒排索引，统称资源字典树，即为训练过程的产出。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。本例中会将样本资源中出现的每个词槽标签(kw_book、user_time、user_location、会议室)作为属性值，建立倒排索引，对应的记录则是一条泛化模板即该泛化模板意图，或，仅仅为模板意图。由此，继续以图3和图4所示的场景为例，检索匹配模块首先将query抽象得到的泛化表示进行Trie树匹配，这里的Trie树是训练产出的资源字典树的一部分，如果完全匹配命中某条训练样本，则直接返回结果；否则，进行倒排检索匹配，这里的倒排检索也是训练产出的资源字典树的一部分，匹配得到一些候选泛化模板。

假设存在一条目标泛化文本的泛化表示是“(kw_book)(user_location)(user_time)会议室”，意图为BOOK_MEETING，且被Trie树完全匹配命中，则返回的意图为BOOK_MEETING，返回的词槽标签为目标泛化模板表示中的两个词槽标签及对应的短语，即：一号楼：user_location；上午十点：user_time。

本例则是没有被Trie树完全匹配命中，那么通过倒排检索得到一条候选实例：“(kw_book)(user_time)(user_location)会议室”。

在本发明的一个实施例中，可能会匹配得到多个目标泛化模板，此时，可以基于目标泛化模板的可信度确定出最后要参考的参考目标泛化模板。

在本实施例中，目标泛化模板为多个，则对应的候选泛化模板必然也为多个，因而，获取每个候选泛化模板对应的模板意图，获取每个目标泛化模板的模板意图，统计与每个目标泛化模板的模板意图相同的候选泛化模块的数量，也就是说，统计候选泛化模板中与目标泛化模板的模板意图相同的数量，数量越多，则认为该目标泛化模板越可信，进而，根据数量在多个目标泛化模板筛选出参考目标泛化模板，并获取参考目标泛化模板的模板意图。比如，将数量大于一定值的目标泛化模板作为参考目标泛化模板，又比如，将数量最高的目标泛化模板作为参考目标泛化模板。

为了使得本领域的技术人员，更加系统的了解本发明实施例的意图理解方法，下面结合具体的示例进行说明：

在本示例中，目标文本(用户query)为：“帮我预订一号楼上午10点的会议室”，泛化模板以上述资源字典树的形式提供服务。

如图6所示，定义了两个表示时间的词槽，user_time和user_newtime，那么用户query将被抽象为两条泛化表示P_1和P_2，如图5所示。检索匹配也会得到两条候选泛模板C_1和C_2，经过语义相似度计算，得到相似度结果：

Score(P_1,C_1):1.0；

Score(P_2,C_2):0.4。

意图与词槽解析算法首先进行语义相似度排序，然后选取超过相似度阈值(例如0.7)的候选泛化模板作为目标泛化模板，如果得分最高的目标泛化模板对应的候选泛化模板的模板意图的匹配数(即候选泛化模板与目标泛化模板的模板意图一致的数量)未超过规定阈值，则返回无解析结果，即超过相似度阈值的目标泛化模板的模板意图与候选泛化模板的模板意图的主流意图不一致，出现了冲突，因此不返回解析结果；否则，选取得分最高的目标泛化模板的模板意图作为意图解析结果，对应的目标泛化文本(例如P_1)中的词槽标签即对应的组成词作为词槽解析结果。因此，在本例中将得到如下的解析结果：

意图：BOOK_MEETING；

词槽解析结果：一号楼(user_time)，上午10点(user_location)。

综上，本发明实施例的意图理解方法，识别目标文本中的组成词对应的目标词槽标签，并根据目标词槽标签生成目标文本的目标泛化文本，将目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板，进而，计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度在候选泛化模板中确定目标泛化模板，最后，获取目标泛化模板的模板意图，根据模板意图、目标词槽标签和目标词槽标签对应的组成词生成目标文本的意图理解结果。由此，基于泛化处理的方式实现有关信息的意图理解，不依赖于大量的标注训练样本，降低了样本人标注工作量和难度，丰富了意图理解的方式。

为了实现上述实施例，本发明还提出一种意图理解装置。

图7为本发明实施例提供的一种意图理解装置的结构示意图。

如图7所示，该意图理解装置包括：识别模块10、生成模块20、第一确定模块30、第二确定模块40、意图理解模块50。

其中，识别模块10，用于识别目标文本中的组成词对应的目标词槽标签。

生成模块20，用于根据目标词槽标签生成目标文本的目标泛化文本。

第一确定模块30，用于将目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板。

第二确定模块40，用于计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度在候选泛化模板中确定目标泛化模板。

意图理解模块50，用于获取目标泛化模板的模板意图，根据模板意图、目标词槽标签和目标词槽标签对应的组成词生成目标文本的意图理解结果。

进一步地，在本发明实施例的一种可能的实现方式中，如图8所示，在如图7所示的基础上，第二确定模块40包括：计算单元41、确定单元42、第一获取单元43。

其中，计算单元41，用于计算目标泛化文本与候选泛化模板的编辑距离。

确定单元42，用于确定目标泛化文本中与编辑距离对应的组成词的词槽标签。

第一获取单元43，用于获取编辑词槽标签的编辑权重。

计算单元41，还用于根据编辑距离和编辑权重计算加权编辑距离。

确定单元42，还用于根据加权编辑距离确定语义相似度。

在本发明的一个实施例中，当目标泛化模板为多个时，如图9所示，在如图7所示的基础上，意图理解模块50包括：第二获取单元51和统计单元52，其中，

第二获取单元51，用于获取每个候选泛化模板对应的模板意图。

第二获取单元51，还用于获取每个目标泛化模板的模板意图。

统计单元52，用于统计与每个目标泛化模板的模板意图相同的候选泛化模块的数量。

第二获取单元52，还用于根据数量在多个目标泛化模板筛选出参考目标泛化模板，并获取参考目标泛化模板的模板意图。

需要说明的是，前述对意图理解方法实施例的解释说明也适用于该实施例的意图理解装置，此处不再赘述。

综上，本发明实施例的意图理解装置，识别目标文本中的组成词对应的目标词槽标签，并根据目标词槽标签生成目标文本的目标泛化文本，将目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板，进而，计算目标泛化文本与候选泛化模板的语义相似度，根据语义相似度在候选泛化模板中确定目标泛化模板，最后，获取目标泛化模板的模板意图，根据模板意图、目标词槽标签和目标词槽标签对应的组成词生成目标文本的意图理解结果。由此，基于泛化处理的方式实现有关信息的意图理解，不依赖于大量的标注训练样本，降低了样本人标注工作量和难度，丰富了意图理解的方式。

为了实现上述实施例，本发明还提出一种计算机设备，包括：处理器，以及用于存储所述处理器可执行指令的存储器。处理器执行计算机程序时，实现如上述实施例所描述的意图理解方法。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器被执行时，使得其可以实现如上述实施例所描述的意图理解方法

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种意图理解方法，其特征在于，包括以下步骤：

识别目标文本中的组成词对应的目标词槽标签，并根据所述目标词槽标签生成所述目标文本的目标泛化文本；

将所述目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板；

计算所述目标泛化文本与所述候选泛化模板的语义相似度，根据所述语义相似度在所述候选泛化模板中确定目标泛化模板；

获取所述目标泛化模板的模板意图，根据所述模板意图、所述目标词槽标签和所述目标词槽标签对应的组成词生成所述目标文本的意图理解结果。

2.如权利要求1所述的方法，其特征在于，所述识别目标文本中的组成词对应的目标词槽标签，并根据所述目标词槽标签生成所述目标文本的目标泛化文本，包括：

识别所述目标文本中组成词的属性信息，根据所述属性信息与预设属性信息匹配；

确定匹配成功的目标组成词以及与所述目标组成词对应的所述目标词槽标签；

通过所述目标词槽标签替换所述目标文本中对应的目标组成词生成所述目标泛化文本。

3.如权利要求1或2所述的方法，其特征在于，在所述识别目标文本中的组成词对应的目标词槽标签之前，还包括：

识别所述目标文本中的口语组成词；

去除所述目标文本中的所述口语组成词。

4.如权利要求1所述的方法，其特征在于，在所述将所述目标泛化文本与预设的多个泛化模板匹配之前，包括：

获取多个模板文本，并识别所述多个模板文本中每个模板文本中组成词对应的模板词槽标签；

根据所述模板词槽标签生成所有所述模板文本的泛化模板；

根据所述模板词槽标签构建泛化树结构；

其中，所述将所述目标泛化文本与预设的多个泛化模板匹配，包括：

将所述目标词槽标签与所述泛化树结构中的模板词槽标签匹配。

5.如权利要求1所述的方法，其特征在于，所述获取所述目标泛化模板的模板意图，包括：

根据所述目标泛化模板查询预先构建的倒排索引源，获取所述模板意图；其中，所述倒排索引源的属性值为泛化模板，所述属性值对应的记录包括所述泛化模板对应的模板意图。

6.如权利要求1所述的方法，其特征在于，所述计算所述目标泛化文本与所述候选泛化模板的语义相似度，包括：

计算所述目标泛化文本与所述候选泛化模板的编辑距离；

确定所述目标泛化文本中与所述编辑距离对应的组成词的词槽标签；

获取所述编辑词槽标签的编辑权重；

根据所述编辑距离和所述编辑权重计算加权编辑距离；

根据所述加权编辑距离确定所述语义相似度。

7.如权利要求1所述的方法，其特征在于，当所述目标泛化模板为多个时，所述获取所述目标泛化模板的模板意图，包括：

获取每个所述候选泛化模板对应的模板意图；

获取所述每个目标泛化模板的模板意图；

统计与所述每个目标泛化模板的模板意图相同的候选泛化模块的数量；

根据所述数量在多个所述目标泛化模板筛选出参考目标泛化模板，并获取所述参考目标泛化模板的模板意图。

8.一种意图理解装置，其特征在于，包括：

识别模块，用于识别目标文本中的组成词对应的目标词槽标签；

生成模块，用于根据所述目标词槽标签生成所述目标文本的目标泛化文本；

第一确定模块，用于将所述目标泛化文本与预设的多个泛化模板匹配，根据匹配度确定候选泛化模板；

第二确定模块，用于计算所述目标泛化文本与所述候选泛化模板的语义相似度，根据所述语义相似度在所述候选泛化模板中确定目标泛化模板；

意图理解模块，用于获取所述目标泛化模板的模板意图，根据所述模板意图、所述目标词槽标签和所述目标词槽标签对应的组成词生成所述目标文本的意图理解结果。

9.如权利要求8所述的装置，其特征在于，所述第二确定模块，包括：

计算单元，用于计算所述目标泛化文本与所述候选泛化模板的编辑距离；

确定单元，用于确定所述目标泛化文本中与所述编辑距离对应的组成词的词槽标签；

第一获取单元，用于获取所述编辑词槽标签的编辑权重；

所述计算单元，还用于根据所述编辑距离和所述编辑权重计算加权编辑距离；

所述确定单元，还用于根据所述加权编辑距离确定所述语义相似度。

10.如权利要求8所述的装置，其特征在于，当所述目标泛化模板为多个时，所述意图理解模块，包括：

第二获取单元，用于获取每个所述候选泛化模板对应的模板意图；

所述第二获取单元，还用于获取所述每个目标泛化模板的模板意图；

统计单元，用于统计与所述每个目标泛化模板的模板意图相同的候选泛化模块的数量；

所述第二获取单元，还用于根据所述数量在多个所述目标泛化模板筛选出参考目标泛化模板，并获取所述参考目标泛化模板的模板意图。

11.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的意图理解方法。

12.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的意图理解方法。