CN114036289A

CN114036289A - 一种意图识别方法、装置、设备及介质

Info

Publication number: CN114036289A
Application number: CN202111245421.7A
Authority: CN
Inventors: 钱佳佳; 刘伟棠; 陈立力; 周明伟
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-02-11

Abstract

本申请公开了一种意图识别方法、装置、设备及介质，该方法中对输入的文本进行实体抽取处理，获取所述文本对应的至少包含实体关系的脱敏文本，将所述脱敏文本与每个该规则对应的关键词进行匹配，若存在与所述脱敏文本匹配成功的规则，则确定所述文本的意图为该规则对应的意图。由于在本申请实施例中对输入的文本进行实体抽取处理，得到了至少包含实体关系的脱敏文本，将脱敏文本作为后续意图识别的输入文本，提高了意图识别的准确率，并且预先设定了多个规则，基于规则对应的关键词进行意图识别，在保证意图识别精度的情况下，极大减少了意图识别时间，提高了意图识别的效率。

Description

一种意图识别方法、装置、设备及介质

技术领域

本申请涉及充信息检索技术领域，尤其涉及一种意图识别方法、装置、设备及介质。

背景技术

在数据信息库中存在大量的人员基本信息数据、人员轨迹数据、案件数据、车辆基本信息数据、车辆轨迹数据和各种设备数据。其中人员基本信息数据、车辆基本信息数据和案件数据每天都会产生大量的新增数据，人员轨迹数据和车辆轨迹数据更是每时每刻发生着变化，因此如何从海量的数据中精准查找到自己想要数据成为一个挑战。信息检索作为解决信息过载的一种技术手段，完美解决了信息精准查找问题。意图识别作为信息检索最核心的技术之一，对于检索结果的准确性起着决定性的作用。

目前，常用的意图识别方法是使用机器学习或者深度学习对数据进行模型训练，从而进行意图识别。虽然该方法在很多领域都取得了很好的效果，但是，取得很好的效果的前提是依赖大量的样本进行模型训练。模型训练的周期较长影响使用，并且为了实现精准识别，一般模型的结果设计的会比较复杂，尤其是卷积核较多时，在基于这样模型进行意图识别时，耗时也是非常长的，将会影响整个意图识别的效率。

发明内容

本申请实施提供一种意图识别方法、装置、设备及介质，用以解决现有技术中意图识别需要大量样本进行训练，意图识别过程时间较长以及每次扩充新的意图都需要重新对模型进行训练无法实现动态扩展的问题。

第一方面，本申请提供了一种意图识别方法，所述方法包括：

对输入的文本进行实体抽取处理，获取所述文本对应的至少包含实体关系的脱敏文本；

将所述脱敏文本与每个规则对应的关键词进行匹配，若存在与所述脱敏文本匹配成功的规则，则确定所述文本的意图为该规则对应的意图。

第二方面，本申请还提供了一种意图识别装置，所述装置包括：

获取模块，用于对输入的文本进行实体抽取处理，获取所述文本对应的至少包含实体关系的脱敏文本；

识别模块，用于将所述脱敏文本与每个规则对应的关键词进行匹配，若存在与所述脱敏文本匹配成功的规则，则确定所述文本的意图为该规则对应的意图。

第三方面，本申请还提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现上述任一所述的意图识别方法的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述的意图识别方法的步骤。

本申请实施例提供了一种意图识别方法、装置、设备及介质，该方法中对输入的文本进行实体抽取处理，获取所述文本对应的至少包含实体关系的脱敏文本，将所述脱敏文本与每个该规则对应的关键词进行匹配，若存在与所述脱敏文本匹配成功的规则，则确定所述文本的意图为该规则对应的意图。由于在本申请实施例中对输入的文本进行实体抽取处理，得到了至少包含实体关系的脱敏文本，将脱敏文本作为后续意图识别的输入文本，提高了意图识别的准确率，并且预先设置了多个规则，基于规则对应的关键词进行意图识别，在保证意图识别精度的情况下，极大减少了意图识别时间，提高了意图识别的效率。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的意图识别过程示意图；

图2为本申请提出的一种意图识别过程流程图；

图3为本申请实施例提供的意图识别装置的结构示意图；

图4为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图，对本申请的实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种意图识别方法、装置、设备及介质，该方法中对输入的文本进行实体抽取处理，获取所述文本对应的至少包含实体关系的脱敏文本，将所述脱敏文本与每个该规则对应的关键词进行匹配，若存在与所述脱敏文本匹配成功的规则，则确定所述文本的意图为该规则对应的意图。由于在本申请实施例中对输入的文本进行实体抽取处理，得到了至少包含实体关系的脱敏文本，将脱敏文本作为后续意图识别的输入文本，提高了意图识别的准确率，并且预先设定了多个规则，基于规则对应的关键词进行意图识别，在保证意图识别精度的情况下，极大减少了意图识别时间，提高了意图识别的效率。

图1为本申请实施例提供的意图识别过程示意图，该过程具体包括以下步骤：

S101：对输入的文本进行实体抽取处理，获取所述文本对应的至少包含实体关系的脱敏文本。

本申请实施例提供的意图识别过程适用于电子设备，该电子设备可以是服务器、PC等设备。

当接收到输入的文本后，对该文本进行实体抽取处理，实体抽取方法包括：根据输入的文本确定未知实体的自然问句，得到自然问句和待抽取文本的向量表示；基于向量表示确定自然问句的答案，即得到未知实体。其中自然问句是由已知实体和实体关系构建而成，实体关系为已知实体和未知实体之间的关系。

在本申请实施例中，根据输入的文本获取到的脱敏文本可以只包含实体关系，也可以包含相关的描述。例如输入文本为“张三的父亲是谁”，脱敏文本为“{姓名}的{人物关系}是谁”；输入文本为“近三周在滨江区出现的身高180男性”，脱敏文本为“{时间}在{地址}出现的{身高}{性别}”；输入文本为“五一期间，张三的入住记录”，脱敏文本为“{时间}，{姓名}的入住记录”；输入文本为“张三李四王五”，脱敏文本为“{姓名}{姓名}{姓名}”等。

本申请实施例首先对输入的文本进行实体抽取处理，经过实体抽取后获得到实体关系和对应的实体，使用实体关系替换实体即完成实体脱敏，最终得到该文本对应的至少包含实体关系的脱敏文本，使用脱敏文本作为后续意图识别过程的原始输入。其中，实体关系和实体相互对应，在获取到包含有实体的脱敏文本后，可以采用该实体对应的实体关系对该实体进行替换，从而得到包含实体关系的脱敏文本。

本申请实施例中，若分别输入“张三的父亲”、“李四的儿子”两个内容完全不同的文本，经过实体抽取处理后，获取到的脱敏文本都为包含“{姓名}的{人物关系}”文本，在后续意图识别过程中，将包含“{姓名}的{人物关系}”的脱敏文本作为原始输入进行意图识别，因此本申请实施例并不会因为姓名或者人物关系内容的变化而影响意图识别的结果，更好的利用了实体关系这一特征信息，忽略了实体，减小了由于实体多样化带来的意图识别误差，并且使用较少的数据就可以得到较高的意图识别准确率。

本申请实施例将获取到的至少包含实体关系的脱敏文本作为后续意图识别的输入文本。在本申请中对文本进行实体抽取处理，获取包含实体关系的脱敏文本的过程属于现有技术，在此不再赘述。

S102：将所述脱敏文本与每个规则对应的关键词进行匹配，若存在与所述脱敏文本匹配成功的规则，则确定所述文本的意图为该规则对应的意图。

根据数据信息库信息的特点将检索意图主要分为：静态档案、时空事件和轨迹等，其中轨迹又细分为：人轨迹、车轨迹、上网记录、住宿记录、铁路出行记录和飞机出行记录等。针对上述意图，本申请实施例中预先针对意图设置了对应的规则，具体包括：静态档案规则、时空事件规则、人轨迹规则、车轨迹规则、上网记录规则、住宿记录规则、铁路出行记录规则、飞机出行记录规则等等。

具体的，在本申请实施例中，为了方便进行规则的匹配，针对每种规则，预先设置有该规则对应的关键词，在确定脱敏文本与每个规则是否匹配时，将该脱敏文本与每个规则包含的关键词进行匹配，若存在与该脱敏文本匹配成功的规则，则确定该文本的意图为该规则对应的意图。其中，若脱敏文本与该规则对应的每组关键词匹配，若存在与该脱敏文本匹配成功的一组关键词，则确定该文本的意图为该规则对应的意图。

针对每种规则，将脱敏文本与该规则对应的关键词进行匹配，即判断该脱敏文本中是否包含该规则对应的关键词组，也可以通过AC自动机(Aho-Corasick automaton)匹配脱敏文本中是否包含该规则包含的关键词。AC自动机是一种多模式匹配算法，主要解决关键词匹配问题，给定一个字典库，对于输入文本，匹配文本中所有在字典中出现过的关键词。

例如输入人文本为“近三个月，与张三在****区同住酒店的人”，对该文本进行实体抽取处理，得到的脱敏文本为“{时间}，与{姓名}在{地址}{同住宿}的人”，将该脱敏文本与时空事件规则对应的关键词进行匹配，该脱敏文本与时空事件规则对应的关键词匹配成功，则确定该文本的意图为时空事件意图。例如输入文本为“张三儿子的铁路出行记录”，对该文本进行实体抽取处理，得到的脱敏文本为“{姓名}{人物关系}的铁路出行记录”，将该脱敏文本与时空事件规则对应的关键词进行匹配，该脱敏文本与时空事件规则对应的关键词匹配不成功，则将该脱敏文本与其他规则对应的关键字进行匹配，将该脱敏文本与铁路出行记录规则对应的关键字进行匹配，该脱敏文本与铁路出行记录规则对应的关键词匹配成功，则确定该文本的意图为铁路出行记录意图。

由于在本申请实施例中对输入的文本进行实体抽取处理，得到了至少包含实体关系的脱敏文本，将脱敏文本作为后续意图识别的输入文本，提高了意图识别的准确率，并且预先设定了多个规则，基于规则对应的关键词进行意图识别，在保证意图识别精度的情况下，极大减少了意图识别时间，提高了意图识别的效率。

为了提高意图识别的准确性，在上述实施例的基础上，在本申请实施例中，该方法还包括：

判断所述脱敏文本中是否只包含实体关系和分隔符；若是，则确定所述文本的意图为关键词意图。

在本申请实施例中，结合数据信息库中数据的特点，针对关键词意图，预先设置了对应的关键词规则，具体的该关键词规则为判断脱敏文本中是否只包含实体关系和分隔符，若该脱敏文本中只包含实体关系和分隔符，则确定该脱敏文本符合该关键词规则，该文本对应的意图为关键词意图，否则，则确定该文本的意图非关键词意图。

具体的，在判断脱敏文本中是否只包含实体关系和分隔符时，可以采用正则表达式进行判断。在本申请中通过组合简单规则对文本进行意图识别，有效提高了意图识别的效率。

为了提高意图识别的准确性，在上述各实施例的基础上，在本申请实施例中，若所述脱敏文本与每个规则匹配均不成功，则将所述脱敏文本输入到预先训练完成的分类模型中，获取所述分类模型输出的意图，将所述分类模型输出的意图确定为所述文本的意图。

当脱敏文本与每个规则匹配均不成功时，为了准确的确定脱敏文本的意图，在本申请实施例中还可以将脱敏文本输入到预先训练完成的分类模型中，从而基于该分类模型的输出，确定文本的意图。

在本申请实施例中，该分类模型可以基于文本分类工具FastText完成对指定意图的识别，实现对脱敏文本意图的预测。在本申请实施例中该分类模块可以识别的意图，可以与上述不同规则对应的意图完全相同，或者该分类模型可以识别的意图是上述部分规则对应的意图。若分类模型可以识别的意图与上述不同规则对应的意图完全相同，则该分类模型可以识别的意图包括：关键词意图、静态档案意图、时空事件意图、人轨迹意图、车轨迹意图、上网记录意图、住宿记录意图、铁路出行记录意图、飞机出行记录意图和其他意图类型。其中关键词意图、静态档案意图、时空事件意图、人轨迹意图、车轨迹意图、上网记录意图、住宿记录意图、铁路出行记录意图、飞机出行记录意图为已有规则对应的意图；其他意图类型则意味着分类模型无法识别该文本的意图。

在本申请实施例中，已有规则对应的意图是结合数据信息库中数据的特点预先设置的，由于数据多样性的特点，基于上述规则可能无法识别出文本的意图。因此，在本申请实施例中，当基于预设的规则无法识别文本的意图时，可以将脱敏文本输入到分类模型中，基于分类模型确定文本的意图。

为了保证意图识别的准确性，使用浅层神经网络文本分类工具FastText对上述基于不同规则未识别出意图的脱敏文本进行意图识别，如果分类模型输出的结果为某一规则对应的意图，则认为分类模型能够识别脱敏文本的意图，确定该文本的意图为分类模型输出的意图；如果分类模型输出的结果为其他意图类型，则认为分类模型无法识别该文本的意图。

文本分类工具FastText是一种浅层神经网络模型，也可以称为FastText模型，使用词带和N元语言模型表征语句，其性能比肩深度学习而且速度更快。主要包含三层：输入层、隐含层和输出层，输入层是多个经过向量表示的单词，隐含层是对多个词向量的叠加平均形成输入文本的句子向量表示，输出层核心内容是一个分层softmax分类器。

FastText模型输入一个词序列(一段文本或者一句话)，输出这个序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到隐含层，隐含层再映射到输出层。其中，softmax分类器在FastText模型中充当了非线性激活函数，在输出层使用非线性激活函数，但在中间层不使用非线性激活函数。在本申请实施例中FastText模型输出是指定的意图。

本申请实施例可以基于文本分类工具FastText完成对指定场景的意图识别，使用文本分类工具FastText对基于不同规则未识别出意图的脱敏文本进行意图识别，保证了意图识别的准确性。并且，文本分类工具FastText是一种浅层神经网络模型，其性能比肩深度学习而且速度更快，极大减少了意图识别运行时间。

为了实现意图的灵活扩展，在上述各实施例的基础上，在本申请实施例中，该方法还包括：若所述分类模型无法识别所述文本的意图，则将所述脱敏文本输入到词移距离(Word Mover’s Distance，WMD)模型中，获取所述WMD模型输出的意图识别结果，根据所述WMD模型输出的意图识别结果，确定是否能够确定所述文本的意图。

当分类模型无法识别文本的意图时，说明已有的规则对应的意图中没有与该文本相匹配的意图，因为上述已有的规则对应的意图是根据数据信息库的特点预先设置的，难免会存在预先设置的意图无法满足实际意图识别需求的情况，因此需要进行意图的灵活扩展，从而方便识别新增意图。

若分类模型无法识别文本的意图，则可以将脱敏文本输入到WMD模型中，根据所述WMD模型输出的意图识别结果，确定是否能够确定该文本的意图。在本申请实施例中，WMD模型可以基于新增意图脱敏文本，确定文本的意图。其中，新增意图脱敏文本是预先保存在WMD模型中的。如果已有规则对应的意图无法满足实际意图识别的需求，需要新增意图，即可以构造相应的新增意图文本。

当电子设备接收到输入的新增意图文本后，对该新增意图文本进行实体抽取处理，获取到至少包含实体关系的新增意图脱敏文本，并将新增意图脱敏文本保存到WMD模型中。当然，也可以存在已有规则对应的意图足以满足实际意图需求的情况，则不需要新增意图，也就不存在新增意图脱敏文本。若WMD模型中存在新增意图脱敏文本，则可以基于脱敏文本与新增意图脱敏文本之间的相似度，确定对应的意图识别结果；若不存在新增意图脱敏文本，则该WMD模型无法识别该文本的意图。

本申请实施例基于无监督WMD模型进行新增意图的识别，根据WMD模型输出的意图识别结果，确定是否能够确定该文本的意图。并且需要新增意图时，电子设备只需将接收到的新增意图文本进行实体抽取处理，获取到至少包含实体关系的新增意图脱敏文本，并将新增意图脱敏文本保存到WMD模型中，实现了不重新训练模型也可以动态扩展意图，完成新增意图识别。

为了获取WMD模型输出的意图识别结果，在上述各实施例的基础上，在本申请实施例中，所述将所述脱敏文本输入到WMD模型中，获取所述WMD模型输出的意图识别结果包括：

基于所述WMD模型计算所述脱敏文本与预先保存的每个新增意图脱敏文本的相似度；

若存在与所述脱敏文本的相似度大于设定的相似度阈值的新增意图脱敏文本，则输出包含所述相似度大于设定的相似度阈值的新增意图脱敏文本对应的意图的第一识别结果；

若每个新增意图脱敏文本与所述脱敏文本的相似度均不大于设定的相似度阈值，则输出无法识别所述脱敏文本的意图的第二识别结果。

在进行意图识别时，若分类模型无法识别文本的意图，会将脱敏文本输入到WMD模型中，基于WMD模型计算脱敏文本与预先保存的每个新增意图脱敏文本的相似度，进行文本意图的识别。

为了获取WMD模型输出的意图识别结果确定该文本的意图是否为新增意图，在本申请实施例中基于WMD模型计算该脱敏文本与预先保存的每个新增意图脱敏文本的相似度，通过判断是否存在与脱敏文本的相似度大于预先设置的相似度阈值的新增意图脱敏文本，确定输出的意图识别结果。若存在与该脱敏文本的相似度大于设定的相似度阈值的新增意图脱敏文本，则输出包含该相似度大于设定的相似度阈值的新增意图脱敏文本对应的意图的第一识别结果；若每个新增意图脱敏文本与该脱敏文本的相似度均不大于设定的相似度阈值，则输出无法识别该脱敏文本的意图的第二识别结果。其中，预先设置的相似度阈值是一个大于0小于等于1的数字，比如0.9。

WMD模型是一种无监督模型，核心思想是计算文本之间的相似度，通过将文本距离建模成两个文本中词的语义距离的一个组合。在本申请中基于WMD模型计算文本之间的相似度过程属于现有技术，在此不再赘述。

本申请实施例WMD模型进行脱敏文本与预先保存的每个新增意图脱敏文本之间相似度的计算，通过判断是否存在与脱敏文本的相似度大于预先设置的相似度阈值的新增意图脱敏文本，输出相应的意图识别结果，便于接下来基于意图识别结果确定文本的意图。

为了确定该文本的意图，在上一实施例的基础上，在本申请实施例中，所述根据所述WMD模型输出的意图识别结果，确定是否能够确定所述文本的意图包括：

若所述意图识别结果为第一识别结果，则根据所述第一识别结果中包含的意图，确定所述文本的意图。

为了确定该文本的意图，在本申请实施例中，如果WMD模型输出的意图识别结果为第一识别结果，则说明WMD模型计算脱敏文本与预先保存的每个新增意图脱敏文本的相似度，存在与该脱敏文本的相似度大于预先设定的相似度阈值的新增意图脱敏文本，为了方便识别该文本的意图，第一识别结果中包含该相似度大于预先设定的相似度阈值的新增意图脱敏文本对应的意图，因此获取该第一识别结果中包含的意图，将该意图作为该文本的意图，从而完成新增意图识别。

在本申请实施例中基于WMD模型输出的意图识别结果，确定该文本的意图是否为新增意图，实现了新增意图识别。

为了方便用户获知意图识别的结果，在上述各实施例的基础上，在本申请实施例中，该方法还包括：

若所述意图识别结果为第二识别结果，则输出无法识别所述文本的意图的提示信息。

在本申请实施例中，若WMD模型输出的意图识别结果为第二识别结果，则说明无法完成对该文本的意图的识别，则输出无法识别该文本的意图的提示信息。

本申请实施例基于词移距离WMD模型进行新增意图识别，实现动态扩展意图，无需在扩充新的意图时重新对模型进行训练，只需对接收到的新增意图文本进行实体抽取处理，获取新增意图文本对应的至少包含实体关系的新增意图脱敏文本并保存，计算脱敏文本与新增意图脱敏文本之间的相似度，通过判断相似度的大小确定文本的意图是否为新增意图。使用无监督算法模型WMD进行新增意图识别，并且在不需要重新训练模型的情况下，完美解决了意图识别的动态扩展问题。

为了提高意图识别效率，在上述各实施例的基础上，在本申请实施例中，所述将所述脱敏文本与每个规则对应的关键词进行匹配包括：

将所述脱敏文本与每个规则对应的每组必要关键词进行匹配；

确定存在与所述脱敏文本匹配成功的规则包括：

确定存在与所述脱敏文本匹配成功的一组必要关键词。

在本申请实施例中，每个规则对应至少一组必要关键词，其中每组必要关键词是根据该规则对应的意图设定的必要关键词，其中每组必要关键字中可能有部分关键词重复。

例如，静态档案规则对应的一组必要关键词可以是“姓名”和“人物关系”，对应的另外一组必要关键词可以是“姓名”和“案件类型”；时空事件规则对应的一组必要关键词组可以是“时间”和“同行”，对应的另外一组必要关键词可以是“姓名”和“同住宿”；上网记录规则对应的一组必要关键词可以是“姓名”和“上网信息”，对应的另外一组必要关键词可以是“身份信息”和“上网记录”；住宿记录规则对应的一组必要关键词可以是“时间”和“住宿记录”，对应的另外一组必要关键词可以是“姓名”、“时间”和“住宿”；铁路出行记录规则对应的一组必要关键词可以是“车次”，对应的另外一组必要关键词可以是“时间”和“车次”，对应的再另外一组必要关键词可以是“姓名”和“高铁出行记录”；飞机出行记录规则对应的一组必要关键词可以是“航班号”，对应的另外一组必要关键词可以是“时间”和“航班号”，对应的再另外一组必要关键词可以是“身份信息”和“航空公司”；人轨迹规则对应的一组必要关键词可以是“经过”和“地址”，对应的另外一组必要关键词可以是“姓名”、和“轨迹信息”；车轨迹规则对应的一组必要关键词可以是“车牌号”、“出现”和“地址”，对应的另外一组必要关键词可以是“车辆类型”和“轨迹信息”，对应的再另外一组必要关键词可以是“车辆类型”和“地址”。上述只是一个具体的举例说明，本领域技术人员可以根据要识别的意图，针对应的规则设置对应的必要关键词。

在本申请实施例中，针对每个规则，将脱敏文本与每个规则对应的每组必要关键词进行匹配，若存在与该脱敏文本匹配成功的一组必要关键词，则确定该文本的意图为该规则对应的意图。例如输入文本为“张三五一凌晨乘坐****航班去上海”，经过实体抽取处理后脱敏文本为“{姓名}{时间}乘坐{航班号}去{地址}”，将该脱敏文本与本申请实施例中的每个规则对应的每组必要关键词进行匹配，在与飞机出行记录规则对应的每组必要关键词进行匹配时，存在与该脱敏文本匹配成功的一组必要关键词“姓名”、“时间”和“航班号”，因此该输入文本的意图为飞机出行记录规则对应的意图，确定该输入文本的意图为飞机出行记录意图。

在本申请实施例中为了提高意图识别效率，根据数据信息库的特点预先设置了多个意图识别规则，通过使用多个小规则的关键词进行意图识别，针对每个规则对应的意图预先设置了至少一组必要关键词，在意图识别过程中，将脱敏文本逐一与已有规则对应的每组必要关键词进行匹配，若存在与该脱敏文本匹配成功的一组必要关键词，则确定该文本的意图为该规则对应的意图，在保证意图识别精度的前提下，相对于在整个数据库中对大量数据进行识别，极大减少了内存使用量和运行时间。

信息检索流程主要包括：实体识别、意图识别、实体属性三元组生成、查询语句生成、返回检索结果五大步骤，本申请实施例提供的意图识别方法，针对数据信息库数据信息的特点进行分析，设计了一种快速且可动态扩展的意图识别方法，对于输入的文本，首先经过实体抽取处理，获取该文本对应的至少包含实体关系的脱敏文本，通过组合多种简单意图规则和浅层算法模型代替深层神经网络算法进行意图识别，极大减少了内存使用量和运行时间。同时使用脱敏文本作为意图识别的原始输入，更好的利用了实体关系特征信息，从根本上消除了实体多样化带来的意图识别误差，与此同时也减少了模型对训练数据的过分依赖，使得仅适用较少的数据就可以得到较高的意图识别准确率。

此外本申请实施例充分结合了有监督方法和无监督方法的优点，首先使用多种意图规则和有监督算法FastText对完成指定场景的意图识别，使用无监督算法WMD进行新增意图识别，在不需要重新训练模型的情况下，解决了意图识别的动态扩展问题。

下面结合一个具体的实施例，对本申请实施例的意图识别进行详细说明，图2为本申请提出的一种意图识别过程流程图，具体控制流程如下：

S201：对输入的文本进行实体抽取获取脱敏文本，使用脱敏文本作为意图识别的原始输入。

当接收到输入的文本后，对该文本进行实体抽取处理，得到至少包含实体关系的脱敏文本，实体抽取处理结果详见表1。使用脱敏文本作为意图识别的原始输入，该方法可以更好的利用实体关系特征信息，忽略实体多样化带来的意图识别误差，因此仅适用较少的数据就可以得到较高的意图识别准确率。

表1实体抽取处理结果

S202：判断脱敏文本中是否只包含实体关系和分隔符，如果是，则直接输出该文本对应的意图为关键词意图，否则执行步骤S203。

示例性地，如果输入的文本为“张三李四王五”，则脱敏文本为“{姓名}{姓名}{姓名}”，经过关键词规则判断，该脱敏文本中只包含实体关系和分隔符，则确定该文本的意图为关键词意图。

S203：将脱敏文本与时空事件规则对应的每组必要关键词进行匹配，判断是否为时空事件意图，如果是，则直接输出该文本对应的意图为时空事件意图，否则执行步骤S204。

示例性地，如果输入文本为“近三个月，与张三在****区同行的人”，则脱敏文本为“{时间},与{姓名}在{地址}{同行}的人”，经过AC自动机匹配该规则存在与该脱敏文本匹配成功的一组必要关键词“时间”和“同行”，则确定该文本的意图为时空事件意图。

S204：将脱敏文本与上网记录规则对应的每组必要关键词进行匹配，若确定存在与该脱敏文本匹配成功的一组必要关键词，则直接输出该文本对应的意图为上网记录意图，否则执行步骤S205。

示例性地，如果输入文本为“张三近三个月的上网信息”，则脱敏文本为“{姓名}{时间}的上网信息”，将脱敏文本与上网记录规则对应的每组必要关键词进行匹配，确定存在与该脱敏文本匹配成功的一组必要关键词“姓名”和“上网信息”，则确定该文本的意图为上网记录意图。

S205：将脱敏文本与住宿记录规则对应的每组必要关键词进行匹配，若确定存在与该脱敏文本匹配成功的一组必要关键词，则直接输出该文本对应的意图为住宿记录意图，否则执行步骤S206。

示例性地，如果输入文本为“五一期间，张三的住宿记录”，则脱敏文本为“{时间}，{姓名}的住宿记录”，将脱敏文本与住宿记录规则对应的每组必要关键词进行匹配，确定存在与该脱敏文本匹配成功的一组必要关键词“姓名”和“住宿记录”，则确定该文本的意图为住宿记录意图。

S206：将脱敏文本与铁路出行记录规则对应的每组必要关键词进行匹配，若确定存在与该脱敏文本匹配成功的一组必要关键词，直接输出该文本对应的意图为铁路出行记录意图，否则执行步骤S207。

示例性地，如果输入文本为“2021/5/1 10:00左右K****8次车的所有绍兴籍男性”，则脱敏文本为“{时间}{火车车次}的所有{地址}籍{性别}”，将脱敏文本与铁路出行记录规则对应的每组必要关键词进行匹配，确定存在与该脱敏文本匹配成功的一组必要关键词“时间”和“车次”，则确定该文本的意图为铁路出行记录意图。

S207：将脱敏文本与飞机出行记录规则对应的每组必要关键词进行匹配，若确定存在与该脱敏文本匹配成功的一组必要关键词，则直接输出该文本对应的意图为飞机出行记录意图，否则执行步骤S208。

示例性地，如果输入文本为“五一凌晨，乘坐HU****6的离异女性”，则脱敏文本为“{时间}，乘坐{航班号}的离异女性”，将脱敏文本与飞机出行记录规则对应的每组必要关键词进行匹配，确定存在与该脱敏文本匹配成功的一组必要关键词“时间”和“航班号”，则确定该文本的意图为飞机出行记录。

S208：将脱敏文本与人轨迹规则对应的每组必要关键词进行匹配，若确定存在与该脱敏文本匹配成功的一组必要关键词，则直接输出该文本对应的意图为人轨迹意图，否则执行步骤S209。

示例性地，如果输入文本为“国庆期间经过****区的男性”，则脱敏文本为“{时间}经过{地址}的{性别}”，将脱敏文本与人轨迹规则对应的每组必要关键词进行匹配，确定存在与该脱敏文本匹配成功的一组必要关键词“经过”和“地址”，则确定该文本的意图为人轨迹。

S209：将脱敏文本与车轨迹规则对应的每组必要关键词进行匹配，若确定存在与该脱敏文本匹配成功的一组必要关键词，则直接输出该文本对应的意图为车轨迹意图，否则执行步骤S210。

示例性地，如果输入文本为“过去一周****小区附近被抓拍到的灰黑色汽油车”，则脱敏文本为“{时间}{地址}被抓拍到的{车辆颜色}{车辆类型}”，将脱敏文本与车轨迹规则对应的每组必要关键词进行匹配，确定存在与该脱敏文本匹配成功的一组必要关键词“车辆类型”和“地址”，则确定该文本的意图为车轨迹。

S210：将脱敏文本与静态档案规则对应的每组必要关键词进行匹配，若确定存在与该脱敏文本匹配成功的一组必要关键词，则直接输出该文本对应的意图为静态档案意图，否则执行S211。

示例性地，如果输入文本为“张三的父亲是谁”，则脱敏文本为“{姓名}的{人物关系}是谁”，将脱敏文本与车轨迹规则对应的每组必要关键词进行匹配，确定存在与该脱敏文本匹配成功的一组必要关键词“姓名”和“人物关系”，则确定该文本的意图为静态档案意图。

S211：将脱敏文本输入到预先训练完成的分类模型中，获取该分类模型输出的意图，将所述分类模型输出的意图作为该文本的意图，若分类模型无法识别该文本的意图则执行步骤S212。

S212：将脱敏文本输入到WMD模型中，获取WMD模型输出的意图识别结果，若为第一识别结果，则根据该第一识别结果中包含的意图，确定该文本的意图；若为第二识别结果，则输出无法识别所述文本的意图的提示信息。

图3为本申请实施例提供的意图识别装置的结构示意图，如图3所示，该装置包括：

获取模块301，用于对输入的文本进行实体抽取处理，获取所述文本对应的至少包含实体关系的脱敏文本；

识别模块302，用于将所述脱敏文本与每个规则对应的关键词进行匹配，若存在与所述脱敏文本匹配成功的规则，则确定所述文本的意图为该规则对应的意图。

在一种可能的实施方式中，所述识别模块302，还用于判断所述脱敏文本中是否只包含实体关系和分隔符；若是，则确定所述文本的意图为关键词意图。

在一种可能的实施方式中，所述识别模块302，还用于若所述脱敏文本与每个规则匹配均不成功，则将所述脱敏文本输入到预先训练完成的分类模型中，获取所述分类模型输出的意图；将所述分类模型输出的意图作为所述文本的意图。

在一种可能的实施方式中，所述识别模块302，还用于若所述分类模型无法识别所述文本的意图，则将所述脱敏文本输入到词移距离WMD模型中，获取所述WMD模型输出的意图识别结果；根据所述WMD模型输出的意图识别结果，确定是否能够确定所述文本的意图。

在一种可能的实施方式中，所述识别模块302，具体用于基于所述WMD模型计算所述脱敏文本与预先保存的每个新增意图脱敏文本的相似度；若存在与所述脱敏文本的相似度大于设定的相似度阈值的新增意图脱敏文本，则输出所述相似度大于设定的相似度阈值的新增意图脱敏文本对应的意图的第一识别结果；若每个新增意图脱敏文本与所述脱敏文本的相似度均不大于设定的相似度阈值，则输出无法识别所述脱敏文本的意图的第二识别结果。

在一种可能的实施方式中，所述识别模块302，还用于若所述意图识别结果为第一识别结果，则根据所述第一识别结果中包含的意图，确定所述文本的意图。

在一种可能的实施方式中，所述识别模块302，还用于若所述意图识别结果为第二识别结果，则输出无法识别所述文本的意图的提示信息。

在一种可能的实施方式中，所述识别模块302，还用于所述将所述脱敏文本与每个规则对应的关键词进行匹配包括：

确定存在与所述脱敏文本匹配成功的规则包括：

确定存在与所述脱敏文本匹配成功的一组必要关键词。

图4为本申请提供的一种电子设备结构示意图，在上述各实施例的基础上，本申请还提供了一种电子设备，如图4所示，包括：处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信；

所述存储器403中存储有计算机程序，当所述程序被所述处理器401执行时，使得所述处理器401执行如下步骤：

在一种可能的实施方式中，所述方法还包括：

判断所述脱敏文本中是否只包含实体关系和分隔符，若是，则确定所述文本的意图为关键词意图。

在一种可能的实施方式中，所述方法还包括：

若所述脱敏文本与每个规则匹配均不成功，则将所述脱敏文本输入到预先训练完成的分类模型中，获取所述分类模型输出的意图；

将所述分类模型输出的意图作为所述文本的意图。

在一种可能的实施方式中，所述方法还包括：

若所述分类模型无法识别所述文本的意图，则将所述脱敏文本输入到词移距离WMD模型中，获取所述WMD模型输出的意图识别结果；

根据所述WMD模型输出的意图识别结果，确定是否能够确定所述文本的意图。

在一种可能的实施方式中，所述将所述脱敏文本输入到词移距离WMD模型中，获取所述WMD模型输出的意图识别结果包括：

基于所述WMD模型计算所述脱敏文本与预先保存的每个新增意图脱敏文本的相似度；若存在与所述脱敏文本的相似度大于设定的相似度阈值的新增意图脱敏文本，则输出所述相似度大于设定的相似度阈值的新增意图脱敏文本对应的意图的第一识别结果；若每个新增意图脱敏文本与所述脱敏文本的相似度均不大于设定的相似度阈值，则输出无法识别所述脱敏文本的意图的第二识别结果。

在一种可能的实施方式中，所述根据所述WMD模型输出的意图识别结果，确定是否能够确定所述文本的意图包括：

在一种可能的实施方式中，所述方法还包括：

在一种可能的实施方式中，所述将所述脱敏文本与每个规则对应的关键词进行匹配包括：

确定存在与所述脱敏文本匹配成功的规则包括：

确定存在与所述脱敏文本匹配成功的一组必要关键词。

由于上述电子设备解决问题的原理与意图识别方法相似，因此上述电子设备的实施可以参见上述实施例，重复之处不再赘述。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口402用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(RandomAccess Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。上述处理器可以是通用处理器，包括中央处理器、网络处理器(Network Processor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

在上述各实施例的基础上，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有可由处理器执行的计算机程序，当所述程序在所述处理器上运行时，使得所述处理器执行时实现如下步骤：

在一种可能的实施方式中，所述方法还包括：

若所述脱敏文本与每个规则匹配均不成功，则将所述脱敏文本输入到预先训练完成的分类模型中，获取所述分类模型输出的意图；将所述分类模型输出的意图作为所述文本的意图。

在一种可能的实施方式中，所述方法还包括：

若所述分类模型无法识别所述文本的意图，则将所述脱敏文本输入到词移距离WMD模型中，获取所述WMD模型输出的意图识别结果；根据所述WMD模型输出的意图识别结果，确定是否能够确定所述文本的意图。

在一种可能的实施方式中，所述方法还包括：

确定存在与所述脱敏文本匹配成功的规则包括：

确定存在与所述脱敏文本匹配成功的一组必要关键词。

由于上述提供的计算机可读取介质解决问题的原理与意图识别方法相似，因此处理器执行上述计算机可读取介质中的计算机程序后，实现的步骤可以参见上述实施例，重复之处不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

对于系统/装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种意图识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

判断所述脱敏文本中是否只包含实体关系和分隔符；

若是，则确定所述文本的意图为关键词意图。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

将所述分类模型输出的意图作为所述文本的意图。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

5.如权利要求4所述的方法，其特征在于，所述将所述脱敏文本输入到词移距离WMD模型中，获取所述WMD模型输出的意图识别结果包括：

若存在与所述脱敏文本的相似度大于设定的相似度阈值的新增意图脱敏文本，则输出所述相似度大于设定的相似度阈值的新增意图脱敏文本对应的意图的第一识别结果；

6.如权利要求5所述的方法，其特征在于，所述根据所述WMD模型输出的意图识别结果，确定是否能够确定所述文本的意图包括：

7.如权利要求5所述的方法，其特征在于，所述方法还包括：

8.如权利要求1所述的方法，其特征在于，所述将所述脱敏文本与每个规则对应的关键词进行匹配包括：

确定存在与所述脱敏文本匹配成功的规则包括：

确定存在与所述脱敏文本匹配成功的一组必要关键词。

9.一种意图识别装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现权利要求1-8中任一所述的意图识别方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-8中任一所述的意图识别方法的步骤。