CN113627197B

CN113627197B - 文本的意图识别方法、装置、设备及存储介质

Info

Publication number: CN113627197B
Application number: CN202110919623.9A
Authority: CN
Inventors: 郭宗超
Original assignee: Sinosoft Co ltd
Current assignee: Sinosoft Co ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2024-04-30
Anticipated expiration: 2041-08-11
Also published as: CN113627197A

Abstract

本申请实施例公开一种文本的意图识别方法、装置、设备及存储介质，其中方法包括如下步骤：获取待检测的目标文本，获取所述目标文本的长度信息；根据所述长度信息确定目标分类模型，所述目标分类模型为第一分类模型或者第二分类型模型；将所述目标文本输入所述第一分类模型或者所述第二分类模型；通过所述第一分类模型的所述至少两种单一分类模型确定出所述目标文本的至少两个初始意图识别结果，并根据所述至少两个初始意图识别结果确定出所述目标文本的意图识别结果，其中一种单一分类模型用于确定所述目标文本的一种初始意图识别结果；或者通过所述第二分类模型确定出所述目标文本的意图识别结果。采用本申请，可以提高文本的意图识别结果的准确率。

Description

文本的意图识别方法、装置、设备及存储介质

技术领域

本申请涉及人工智能的语义解析领域，尤其涉及一种文本的意图识别方法、装置、设备及存储介质。

背景技术

近年来，随着自然语言理解和深度学习技术的快速发展和广泛应用，智能交互已成为自然语言处理领域的一项重要研究任务，已引起学术界和企业界的广泛关注。经典的人机交互系统一般包括三个主要部分：意图识别、对话管理和自然语言生成。其中客户意图识别是人机交互系统能否进行准确、有效对话的一个首要基础环节。然而，由于人机对话中对话环境的复杂性及客户表达方式的多样性，现有技术中对话系统经常对意图识别出错，大大影响了交互的体验。因此迫切需要针对智能交互中的意图识别任务提出更有效的解决办法。

发明内容

本申请实施例提供一种文本的意图识别方法、装置、设备及存储介质，可以提高文本的意图识别结果的准确率。

本申请实施例一方面提供了一种文本的意图识别方法，可包括：

获取待检测的目标文本，获取目标文本的长度信息；

根据长度信息确定目标分类模型，目标分类模型为第一分类模型或者第二分类型模型；第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同；第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层，第二分类模型由样本数据以及样本数据通过至少两种注意力层生成的初始特征向量融合训练得到；

将目标文本输入第一分类模型或者第二分类模型；

通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，并根据至少两个初始意图识别结果确定出目标文本的意图识别结果，其中一种单一分类模型用于确定目标文本的一种初始意图识别结果；或者通过第二分类模型确定出目标文本的意图识别结果。

在一种可行的实施方式中，根据长度信息确定目标分类模型，包括：

根据目标文本的长度信息确定目标文本的长度；

若目标文本的长度小于或者等于长度阈值，则确定目标分类模型为第一分类模型；

若目标文本的长度大于长度阈值，则确定目标分类模型为第二分类模型。

在一种可行的实施方式中，根据至少两个初始意图识别结果确定出目标文本的意图识别结果，包括：

统计至少两个初始意图识别结果的意图种类和每种意图种类对应的数量，获取数量最大的意图种类对应的初始意图识别结果；

当数量最大的意图种类为一个时，将数量最大的意图种类对应的初始意图识别结果确定为目标文本的意图识别结果；

当数量最大的意图种类大于一个时，随机获取一个数量最大的意图种类对应的初始意图识别结果，作为目标文本的意图识别结果。

在一种可行的实施方式中，第二分类模型的初始分类模型中包括初始向量生成模块和初始向量融合模块，初始向量生成模块具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层；方法还包括：

获取初始分类模型和初始分类模型对应的训练数据集合，训练数据集合中包括训练样本数据以及训练样本数据携带的样本意图标签；

将训练样本数据输入初始分类模型，并通过初始向量生成模块中的至少两种注意力层和训练样本数据，生成训练样本数据对应的至少两种初始特征向量；

基于初始向量融合模块、训练样本数据对应的至少两种初始特征向量和训练样本数据携带的样本意图标签，生成第二分类模型。

在一种可行的实施方式中，通过初始向量生成模块中的至少两种注意力层和训练样本数据，生成训练样本数据对应的至少两种初始特征向量，包括：

通过初始向量生成模块获得训练数据对应词向量和位置向量，并通过至少两种注意力层基于词向量与位置向量，生成训练样本数据对应的至少两个初始特征向量。

在一种可行的实施方式中，基于初始向量融合模块、训练样本数据对应的至少两种初始特征向量和训练样本数据携带的样本意图标签，生成第二分类模型包括：

通过初始向量融合模块和至少两种初始特征向量，生成训练样本数据对应的意图识别结果；

根据训练样本数据对应的意图识别结果和训练数据携带的样本意图标签调整初始分类模型的模型参数，初始分类模型的模型参数包括初始向量融合模块的模型参数；

当调整后的初始分类模型满足收敛条件时，将包含调整后的模型参数的初始分类模型确定为第二分类模型。

在一种可行的实施方式中，通过初始向量融合模块和至少两种初始特征向量，生成训练样本数据对应的意图识别结果，包括：

通过初始向量融合模块获得至少两种初始特征向量拼接生成的初始融合向量，通过向量融合模块中的全连接层基于初始融合向量生成训练样本数据对应的意图识别结果。

本申请实施例一方面提供了一种文本的意图识别装置，可包括：

文本获取单元，用于获取待检测的目标文本，获取目标文本的长度信息；

模型确定单元，用于根据长度信息确定目标分类模型，目标分类模型为第一分类模型或者第二分类型模型；第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同；第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层，第二分类模型由样本数据以及样本数据通过至少两种注意力层生成的初始特征向量融合训练得到；

文本输入单元，用于将目标文本输入第一分类模型或者第二分类模型；

结果生成单元，用于通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，并根据至少两个初始意图识别结果确定出目标文本的意图识别结果，其中一种单一分类模型用于确定目标文本的一种初始意图识别结果；或者通过第二分类模型确定出目标文本的意图识别结果。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例一方面提供了一种计算机设备，包括处理器和存储器；其中，存储器存储有计算机程序，计算机程序适于由处理器加载并执行上述的方法步骤。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法步骤。

在本申请实施例中，通过获取待检测的目标文本，获取目标文本的长度信息，并根据长度信息确定目标分类模型，目标分类模型为第一分类模型或者第二分类型模型，第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同，第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层，进一步将目标文本输入第一分类模型或者第二分类模型，进一步的，通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，并根据至少两个初始意图识别结果确定出目标文本的意图识别结果，或者通过第二分类模型确定出目标文本的意图识别结果。采用上述方法，避免了单一分类模型无法完全覆盖复杂业务场景，导致对文本的意图识别结果出现偏差的问题，提高了文本的意图识别结果的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本的意图识别的系统架构图；

图2是本申请实施例提供的一种文本的意图识别方法的流程示意图；

图3是本申请实施例提供的一种第二分类模型的举例示意图；

图4是本申请实施例提供的一种文本的意图识别方法的流程示意图；

图5是本申请实施例提供的一种文本的意图识别装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，是本发明实施例提供的一种文本的意图识别的系统架构图。服务器10f通过通信总线10d与用户终端集群建立连接，用户终端集群可包括：用户终端10a、用户终端10b、...、用户终端10c，用户终端集群之间可以存在通信连接，例如用户终端10a与用户终端10b之间存在通信连接。数据库10g中存储了用于预测目标文本的意图识别结果的分类模型，以及用于训练上述模型的训练数据。上述用户终端集群(也包括上述的用户终端10a、用户终端10b以及用户终端10n)均可以获取待检测的目标文本，并检测目标文本的长度信息，目标文本可以是本地获取，也可以是通过网络从线上下载，具体可根据实际应用场景确定，在此不做限制。用户终端可以通过数据库10中的训练数据对初始分类模型进行训练，生成目标分类模型，目标分类模型可以有多种，同时每一种分类模型可以采用不同的训练数据也可采用相同的训练数据，具体可根据实际应用场景确定，在此不做限制。目标分类模型的训练过程也可以在服务器10f中完成，具体可根据实际应用场景确定，在此不做限制。进一步的，用户终端获取待检测的目标文本，获取目标文本的长度信息，并根据长度信息确定目标分类模型，目标分类模型为第一分类模型或者第二分类型模型，第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同，第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层。换句话说，第二分类模型中可具有多种注意力层，一种注意力层可与第一分类模型中的一种单一分类模型的注意力层结构相同。进一步，用户终端将目标文本输入第一分类模型或者第二分类模型，通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，并根据至少两个初始意图识别结果确定出目标文本的意图识别结果，或者通过第二分类模型确定出目标文本的意图识别结果。可选的，上述用户终端可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端，比如，该用户终端可以为上述用户终端10a，则用户可以在用户终端10a的显示界面上检测目标文本的意图识别结果。

可以理解的是，本申请实施例所提供的方法可以由计算机设备执行，计算机设备包括但不限于终端或服务器，本申请实施例中的服务器10f可以为计算机设备，用户终端集群中的用户终端也可以为计算机设备，此处不限定。本申请实施例涉及的用户终端包括：平板电脑、智能手机、个人电脑(PC)、笔记本电脑、掌上电脑等终端设备。

请参见图2，为本申请实施例提供了一种文本的意图识别方法的流程示意图。该方法可以由用户终端(例如，上述图1所示的用户终端)执行，也可以由用户终端和服务器(如上述图1所对应实施例中的服务器10f)共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。如图2所示，本申请实施例的方法可以包括以下步骤S101-步骤S104。

S101，获取待检测的目标文本，检测目标文本的长度信息。

在一些可行的实施例中，用户终端可以先获取待检测的目标文本。这里，目标文本为意图结果未知的文本，文本的语言类型可以是中文，也可以是其他语种，在此不做限制。为方便描述，本申请实施例中将以中文为例进行说明。进一步的，用户终端可检测目标文本的长度信息，并根据长度信息确定目标文本的类型，目标文本的类型可以分为长句和断句。具体的，可以设定长度阈值，根据长度信息确定目标文本的长度，判断上述目标文本的长度是否大于目标文本的长度阈值。例如，这里的目标文本的长度阈值可以为30个字，也就意味着目标文本超过30个字时可确定上述目标文本为长句，目标文本小于或者等于30个字时，可确定上述目标文本为短句。

S102，根据长度信息确定目标分类模型。

在一些可行的实施例中，可以针对目标文本的类型(即长句或者短句)选择目标分类模型，进而可基于目标分类模型对上述目标文本进行意图识别。具体的，根据目标文本的长度信息确定目标文本的长度，若目标文本的长度小于或者等于长度阈值，则目标文本为短句，此时确定目标分类模型为第一分类模型。换句话说，此时可选择第一分类模型作为目标分类模型。若目标文本的长度大于长度阈值，则目标文本为长句，确定目标分类模型为第二分类模型。换句话说，此时可选择第二分类模型作为目标分类模型。

在一些可行的实施例中，第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同，单一分类模型可以是Bert(BidirectionalEncoderRepresentationsfrom Transformer)模型、Albert模型、Tinybert模型等对文本具有意图识别的模型。下面以Bert模型、Albert模型和Tinybert模型对单一模型的区别进行说明，其中Bert模型是采用Transformer模型的编码(Encoder)结构，在Bert模型中会将目标文本中的各个字或词的一维词向量加上位置信息后作为输入，经过模型中的多层注意力层的处理后，输出一个一维词向量作为目标文本的语义表示(即输出的是目标文本中各个字或词融合了全文语义信息后的向量表示)。Albert模型也是采用和Bert模型一样的Transformer模型的编码结构，在Albert模型中，词向量没有上下文依赖的表述，而在Albert模型注意力层的输出值包括文本本身的意思和上下文信息，Albert模型具有比Bert模型更少层数的注意力层，同时，Albert模型的全连接层与注意力层进行参数共享，提升了模型的数据处理速度。Tinybert模型采用知识蒸馏法，将Bert模型中编码的知识迁移到Tinybert模型中，减少了Tinybert模型中注意力层的层数，同时大大降低了模型的大小，提高了模型的数据处理速度。

第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层，第二分类模型由样本数据以及样本数据通过至少两种注意力层生成的初始特征向量融合训练得到。下面同样以Bert模型、Albert模型和Tinybert模型对第二分类模型进行说明，第二分类模型为融合Bert模型、Albert模型和Tinybert模型的分类模型，第二分类模型中的注意力层由与Bert模型、Albert模型和Tinybert模型具有相同结构三种注意力层组成，第二分类模型中三种注意力层采用并联的方式进行连接，即可以将Bert模型、Albert模型和Tinybert模型中的三种注意力层并联生成第二分类模型中的注意力层。在训练过程中，初始第二分类模型首先对样本数据进行特征提取生成样本数据对应的词向量和位置向量，词向量和位置向量分别通过并联的三种注意力层，生成三种初始特征向量，初始第二分类模型进一步将三种初始特征向量融合生成融合向量，根据样本数据以及融合向量训练生成第二分类模型。

针对文本长度较小的目标文本，目标文本中包含较小的信息，可以采用单一分类模型预测目标文本的意图识别结果，同时，通过对多个单一分类模型的意图识别结果进行投票，可以提高预测目标文本的意图识别结果的准确率。针对文本长度较大的目标文本，目标文本中包含较多的信息，采用单一分类模型无法准确预测目标文本的意图识别结果，则采用融合多种单一分类模型的第二分类模型进行意图识别结果的预测，可以提高预测目标文本的意图识别结果的准确率。

S103，将目标文本输入第一分类模型或者第二分类模型。

S104，通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，并根据至少两个初始意图识别结果确定出目标文本的意图识别结果，其中一种单一分类模型用于确定目标文本的一种初始意图识别结果；或者通过第二分类模型确定出目标文本的意图识别结果。

在一些可行的实施例中，若目标文本的长度小于或者等于长度阈值，则将目标文本输入第一分类模型。通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，其中一种单一分类模型用于确定目标文本的一种初始意图识别结果。进一步的，统计至少两个初始意图识别结果的意图种类和每种意图种类对应的数量，获取数量最大的意图种类对应的初始意图识别结果；当数量最大的意图种类为一个时，将数量最大的意图种类对应的初始意图识别结果确定为目标文本的意图识别结果；当数量最大的意图种类大于一个时，随机获取一个数量最大的意图种类对应的初始意图识别结果，作为目标文本的意图识别结果。

下面对第一分类模型的具体实施场景进行说明，为了便于理解，采用三种单一分类模型进行说明，例如，在意图识别场景中，采用Bert模型、Albert模型以及Tinybert模型三种单一分类模型对目标文本进行识别，三种单一分类模型分别输出三个初始意图识别结果。进一步的，采用投票机制将票数最高的初始意图识别结果作为最终的意图识别结果，具体的，统计初始意图识别结果的意图种类和每种意图种类的数量，获取数量最大的意图种类对应的初始意图识别结果。当数量最大的意图种类对应一种初始意图识别结果时，则将初始意图识别结果确定为目标文本的意图识别结果。例如，若上述三个模型的初始意图识别结果分别为“推荐产品”、“推荐产品”、“询问目的”，则将“推荐产品”作为目标文本的最终意图识别结果。当数量最大的意图种类对应至少两种初始意图识别结果，则随机获取一个数量最大的意图种类对应的初始意图识别结果。例如，若上述三个模型的初始意图识别结果分别为“推荐产品”、“人工服务”、“询问目的”，即三个模型输出的结果都不一致，则可以从三个结果中随机选择一个结果作为最终的意图识别结果。

同时，当数量最大的意图种类对应至少两种初始意图识别结果，可以根据目标文本和目标文本对应的意图识别结果更新上述单一分类模型的训练数据集合，采用更新后的训练数据集合，更新上述单一分类模型，进一步优化分类模型，提高文本的意图识别结果的准确率。

在一些可行的实施例中，若目标文本的长度大于长度阈值，则将目标文本输入第二分类模型。具体的，上述第二分类模型可以通过融合第一分类模型中多种单一分类模型得到。

通过第二分类模型生成目标文本的意图识别结果的过程如下：将目标文本输入第二分类模型，第二分类模型包括向量生成模块和向量融合模块，向量生成模块具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层。进一步的，通过向量生成模块中的至少两种注意力层和目标文本，生成目标文本对应的至少两种初始特征向量。具体的，通过向量生成模块获得目标文本对应词向量和位置向量，并通过至少两种注意力层基于词向量与位置向量，生成目标文本对应的至少两个初始特征向量。进一步的，通过向量融合模块和至少两种初始特征向量，生成目标文本对应的意图识别结果。具体的，通过初始向量融合模块获得至少两种初始特征向量拼接生成的融合向量，通过向量融合模块中的全连接层基于融合向量生成目标文本对应的意图识别结果。

请参见图3，为本申请实施例提供的一种第二分类模型的举例示意图，如图3所示，第二分类模型是融合Bert模型、Albert模型以及Tinybert模型三种模型生成的，第二分类模型中的注意力层由与Bert模型、Albert模型和Tinybert模型具有相同结构三种注意力层组成，第二分类模型中三种注意力层采用并联的方式进行连接，第二分类模型包括向量生成模块和向量融合模块，向量生成模块中包括并联的三种注意力层。首先，用户终端将目标文本输入第二分类模型中，通过第二分类模型中的向量生成模块获得目标文本对应词向量和位置向量，将上述词向量与位置向量分别输入向量生成模块中的三种注意力层，经过注意力层的特征提取，生成目标文本对应的三个初始特征向量，然后将三个初始特征向量通过向量融合模块拼接在一起生成融合向量，将融合向量输入向量融合模块中的全连接层，最终生成目标文本对应的意图识别结果。一般情况下，融合向量输入全连接层后会配合softmax函数生成意图识别结果，softmax函数的输入可表示为Softmax(Concat(V₁,V₂，V₃))，Concat(V₁，V₂,V₃)为融合向量，V₁，V₂，V₃分别为第二分类模型中三个注意力层生成的初始特征向量。在本实施例中，由于每个模型的输出向量是728维，因此拼接后的特征向量的长度为728*3，将拼接后的特征向量作为全连接层的输入，将softmax模型的输出结果确定为目标文本的意图识别结果。例如，当目标文本为“给我推荐高收益的产品”时，通过上述第二分类模型输出的目标文本的意图识别结果为“推荐产品”；当目标文本为“这个奖励到底怎么用呀？”时，通过上述第二分类模型输出的目标文本的意图识别结果为“奖励使用规则”。

请参见图4，为本申请实施例提供了一种文本的意图识别方法的流程示意图。该方法可以由用户终端(例如，上述图1所示的用户终端)执行，也可以由用户终端和服务器(如上述图1所对应实施例中的服务器10f)共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。如图4所示，本申请实施例的方法可以包括以下步骤S201-步骤S207。

S201，获取初始分类模型和初始分类模型对应的训练数据集合。

在一些可行的实施例中，初始分类模型是未完成训练的第二分类模型，用户终端从本地获取或者从服务器中下载初始分类模型和初始分类模型对应的训练数据集合，进一步的，用户终端采用上述初始分类模型对应的训练数据集合训练初始分类模型，生成第二分类模型，训练数据集合中包括训练样本数据以及训练样本数据携带的样本意图标签。

S202，将训练样本数据输入初始分类模型，并通过初始向量生成模块中的至少两种注意力层和训练样本数据，生成训练样本数据对应的至少两种初始特征向量；

在一些可行的实施例中，用户终端将训练样本数据输入初始分类模型，初始分类模型包括初始向量生成模块和初始向量融合模块，进一步通过初始向量生成模块对训练样本数据进行特征提取，获得训练数据对应词向量和位置向量，并将上述词向量和位置向量分别输入初始向量生成模块中的至少两种注意力层，生成训练样本数据对应的至少两个初始特征向量，其中，每种注意力层生成一种对应的初始特征向量。

S203，基于初始向量融合模块、训练样本数据对应的至少两种初始特征向量和训练样本数据携带的样本意图标签，生成第二分类模型。

在本申请实施例中，用户终端通过初始向量融合模块和至少两种初始特征向量，生成训练样本数据对应的意图识别结果，具体的，将上述至少两种初始特征向量输入初始向量融合模块，通过初始向量融合模块对至少两种初始特征向量进行拼接，生成的初始融合向量，例如，初始向量融合模块输出三个维度为728维的初始特征向量，则通过初始向量融合模块拼接后的初始融合向量的维度为728*3。进一步的，将上述初始融合向量输入向量融合模块中的全连接层，生成训练样本数据对应的意图识别结果，一般情况下，初始融合向量输入全连接层后会配合softmax函数生成意图识别结果，当第二分类模型中包括三个注意力层时，softmax函数的输入可表示为Softmax(Concat(V₁,V₂,V₃))，Concat(V₁,V₂,V₃)为初始融合向量，V₁,V₂,V₃分别为初始第二分类模型中三个注意力层生成的初始特征向量。

进一步根据训练样本数据对应的意图识别结果和训练数据携带的样本意图标签调整初始分类模型的模型参数，初始分类模型的模型参数包括初始向量融合模块的模型参数；当调整后的初始分类模型满足收敛条件时，将包含调整后的模型参数的初始分类模型确定为第二分类模型。

下面采用具体的场景对第二分类模型的训练进行说明，在训练时，会在每条训练样本数据(如“推荐收益高的产品”)句首添加[CLS]标签(如“[CLS]推荐收益高的产品”)。这里的[CLS]就是分类(Classification)的意思，可以用于模型下游的分类任务，在文本分类的任务中与文本已有的其他字/词相比，[CLS]标签这个无明显语义信息的符号会更公平的融合各个字/词的语义信息。这是因为在对分类模型进行预训练的阶段，通过将训练样本数据的各个字或词的一维词向量映射到该[CLS]标签上生成一个新的向量，这个新的向量再经过模型的Self-Attention机制(通过计算每个字词与其他所有字词之间的关联，得到上下文信息充分表征)可以获取训练样本数据的句子级别的信息表示(即每个句子的语义信息)。

在训练上述第二分类模型时首先将训练样本数据的各个字或词的一维词向量加上位置信息后作为初始分类模型输入，这里的位置信息即出现在训练样本数据不同位置的字/词所携带的语义信息存在差异。经过上述多个注意力层的信息提取，可以输出上述训练样本数据的多维语义向量，然后选择带有[CLS]标签的一组向量作为最终输出的特征向量。可以理解经过初始分类模型中的每一注意力层后每个字或词的一维词向量融合了训练样本数据中所有字或词的信息，虽然[CLS]标签本身没有语义信息，但在训练时通过训练样本数据的各个字或词的一维词向量映射到该[CLS]标签上生成一个新的向量，然后上述新的向量经过多个注意力层的信息提取后，上述带有[CLS]标签的一组向量就可以作为训练样本数据的语义表示(即初始特征向量)，最后基于初始向量融合模块、训练样本数据对应的至少两种初始特征向量和训练样本数据携带的样本意图标签，生成第二分类模型。

在本申请实施例中，针对单一分类模型的训练，是采用与第二分类模型不同的训练数据集合，具体的，获取初始单一分类模型和初始单一分类模型对应的训练数据集合，将训练样本数据输入初始单一分类模型，基于初始单一分类模型生成训练样本数据对应的意图识别结果，进一步根据训练样本数据对应的意图识别结果和训练数据携带的样本意图标签调整初始单一分类模型的模型参数，当调整后的初始单一分类模型满足收敛条件时，将包含调整后的模型参数的初始单一分类模型确定为单一分类模型。

需要说明的是，不同的单一分类模型采用不同的训练数据集合，例如，单一分类模型具体可以是Bert模型、Albert模型、Tinybert模型等对文本具有意图识别的模型，上述Bert模型可以采用中文维基百科和电子图书语料进行训练，训练数据主要是正式文本(normal text)，而Albert模型和Tinybert模型可以采用中文论坛和社交媒体数据进行训练，训练数据偏向口语化，与对话机器人的对话语料匹配度较高，采用不同的与训练模型能够覆盖更广泛的语义空间，从而提高文本的意图识别结果的准确率。

S204，获取待检测的目标文本，检测目标文本的长度信息。

S205，根据长度信息确定目标分类模型。

S206，将目标文本输入第一分类模型或者第二分类模型。

S207，通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，并根据至少两个初始意图识别结果确定出目标文本的意图识别结果，其中一种单一分类模型用于确定目标文本的一种初始意图识别结果；或者通过第二分类模型确定出目标文本的意图识别结果。

其中，本发明实施例的步骤S204-S207参见图2所示实施例的步骤S101-S104的具体描述，在此不进行赘述。

请参见图5，为本申请实施例提供了一种文本的意图识别装置的结构示意图。文本的意图识别装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该文本的意图识别装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图5所示，本申请实施例的文本的意图识别装置1可以包括：文本获取单元11、模型确定单元12、文本输入单元13、结果生成单元14。

文本获取单元11，用于获取待检测的目标文本，获取目标文本的长度信息；

模型确定单元12，用于根据长度信息确定目标分类模型，目标分类模型为第一分类模型或者第二分类型模型；第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同；第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层，第二分类模型由样本数据以及样本数据通过至少两种注意力层生成的初始特征向量融合训练得到；

文本输入单元13，用于将目标文本输入第一分类模型或者第二分类模型；

结果生成单元14，用于通过第一分类模型的至少两种单一分类模型确定出目标文本的至少两个初始意图识别结果，并根据至少两个初始意图识别结果确定出目标文本的意图识别结果，其中一种单一分类模型用于确定目标文本的一种初始意图识别结果；或者通过第二分类模型确定出目标文本的意图识别结果。

在一种可行的实施方式中，模型确定单元12具体用于：

根据目标文本的长度信息确定目标文本的长度；

在一种可行的实施方式中，结果生成单元14具体用于：

在一种可行的实施方式中，第二分类模型的初始分类模型中包括初始向量生成模块和初始向量融合模块，初始向量生成模块具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层；

请参见图5，本申请实施例的文本的意图识别装置1可以包括：训练数据获取单元15、特征向量生成单元16、模型生成单元17；

训练数据获取单元15，用于获取初始分类模型和初始分类模型对应的训练数据集合，训练数据集合中包括训练样本数据以及训练样本数据携带的样本意图标签；

特征向量生成单元16，用于将训练样本数据输入初始分类模型，并通过初始向量生成模块中的至少两种注意力层和训练样本数据，生成训练样本数据对应的至少两种初始特征向量；

模型生成单元17，用于基于初始向量融合模块、训练样本数据对应的至少两种初始特征向量和训练样本数据携带的样本意图标签，生成第二分类模型。

在一种可行的实施方式中，特征向量生成单元16具体用于：

请参见图5，本申请实施例的模型生成单元17可以包括：结果生成子单元171、模型生成子单元172；

结果生成子单元171，用于通过初始向量融合模块和至少两种初始特征向量，生成训练样本数据对应的意图识别结果；

模型生成子单元172，用于根据训练样本数据对应的意图识别结果和训练数据携带的样本意图标签调整初始分类模型的模型参数，初始分类模型的模型参数包括初始向量融合模块的模型参数；

在一种可行的实施方式中，结果生成子单元171具体用于：

请参见图6，为本申请实施例提供了一种计算机设备的结构示意图。如图6所示，所述计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是随机存取存储器(Random Access Memory，RAM)，也可以是非易失性存储器(non-volatile memory，NVM)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文本的意图识别应用程序。

在图6所示的计算机设备1000中，网络接口1004可提供网络通讯功能，用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的文本的意图识别应用程序，以实现上述图2-图4任一个所对应实施例中对所述文本的意图识别方法的描述，在此不再赘述。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2-图4任一个所对应实施例中对所述文本的意图识别方法的描述，也可执行前文图5所对应实施例中对所述文本的意图识别装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且所述计算机可读存储介质中存储有前文提及的文本的意图识别装置所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图2-图4任一个所对应实施例中对所述文本的意图识别方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行，分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、NVM或RAM等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种文本的意图识别方法，其特征在于，包括：

获取待检测的目标文本，获取所述目标文本的长度信息；

根据所述长度信息确定目标分类模型，所述目标分类模型为第一分类模型或者第二分类型模型；所述第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同；所述第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层，所述第二分类模型由样本数据以及所述样本数据通过至少两种注意力层生成的初始特征向量融合训练得到；

将所述目标文本输入所述第一分类模型或者所述第二分类模型；

通过所述第一分类模型的所述至少两种单一分类模型确定出所述目标文本的至少两个初始意图识别结果，并根据所述至少两个初始意图识别结果确定出所述目标文本的意图识别结果，其中一种单一分类模型用于确定所述目标文本的一种初始意图识别结果；或者通过所述第二分类模型确定出所述目标文本的意图识别结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述长度信息确定目标分类模型，包括：

根据所述目标文本的长度信息确定所述目标文本的长度；

若所述目标文本的长度小于或者等于长度阈值，则确定所述目标分类模型为所述第一分类模型；

若所述目标文本的长度大于所述长度阈值，则确定所述目标分类模型为所述第二分类模型。

3.根据权利要求1所述的方法，其特征在于，所述根据所述至少两个初始意图识别结果确定出所述目标文本的意图识别结果，包括：

统计所述至少两个初始意图识别结果的意图种类和每种意图种类对应的数量，获取所述数量最大的意图种类对应的初始意图识别结果；

当所述数量最大的意图种类为一个时，将所述数量最大的意图种类对应的初始意图识别结果确定为所述目标文本的意图识别结果；

当所述数量最大的意图种类大于一个时，随机获取一个数量最大的意图种类对应的初始意图识别结果，作为所述目标文本的意图识别结果。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述第二分类模型的初始分类模型中包括初始向量生成模块和初始向量融合模块，所述初始向量生成模块具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层；所述方法还包括：

获取所述初始分类模型和所述初始分类模型对应的训练数据集合，所述训练数据集合中包括训练样本数据以及所述训练样本数据携带的样本意图标签；

将所述训练样本数据输入所述初始分类模型，并通过所述初始向量生成模块中的所述至少两种注意力层和所述训练样本数据，生成所述训练样本数据对应的至少两种初始特征向量；

基于所述初始向量融合模块、所述训练样本数据对应的至少两种初始特征向量和所述训练样本数据携带的样本意图标签，生成第二分类模型。

5.根据权利要求4所述的方法，其特征在于，所述通过所述初始向量生成模块中的所述至少两种注意力层和所述训练样本数据，生成所述训练样本数据对应的至少两种初始特征向量，包括：

通过所述初始向量生成模块获得所述训练数据对应词向量和位置向量，并通过所述至少两种注意力层基于所述词向量与所述位置向量，生成所述训练样本数据对应的至少两个初始特征向量。

6.根据权利要求4所述的方法，其特征在于，所述基于所述初始向量融合模块、所述训练样本数据对应的至少两种初始特征向量和所述训练样本数据携带的样本意图标签，生成第二分类模型包括：

通过所述初始向量融合模块和所述至少两种初始特征向量，生成训练样本数据对应的意图识别结果；

根据所述训练样本数据对应的意图识别结果和所述训练数据携带的样本意图标签调整所述初始分类模型的模型参数，所述初始分类模型的模型参数包括所述初始向量融合模块的模型参数；

7.根据权利要求6所述的方法，其特征在于，所述通过所述初始向量融合模块和所述至少两种初始特征向量，生成训练样本数据对应的意图识别结果，包括：

通过所述初始向量融合模块获得所述至少两种初始特征向量拼接生成的初始融合向量，通过所述向量融合模块中的全连接层基于所述初始融合向量生成所述训练样本数据对应的意图识别结果。

8.一种文本的意图识别装置，其特征在于，包括：

文本获取单元，用于获取待检测的目标文本，获取所述目标文本的长度信息；

模型确定单元，用于根据所述长度信息确定目标分类模型，所述目标分类模型为第一分类模型或者第二分类型模型；所述第一分类模型包括至少两种单一分类模型，不同单一分类模型的注意力层不同；所述第二分类模型具有与第一分类模型中各单一分类模型相同结构的至少两种注意力层，所述第二分类模型由样本数据以及所述样本数据通过至少两种注意力层生成的初始特征向量融合训练得到；

文本输入单元，用于将所述目标文本输入所述第一分类模型或者所述第二分类模型；

结果生成单元，用于通过所述第一分类模型的所述至少两种单一分类模型确定出所述目标文本的至少两个初始意图识别结果，并根据所述至少两个初始意图识别结果确定出所述目标文本的意图识别结果，其中一种单一分类模型用于确定所述目标文本的一种初始意图识别结果；或者通过所述第二分类模型确定出所述目标文本的意图识别结果。

9.一种计算机设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行权利要求1-7任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行权利要求1-7任意一项所述的方法。