CN112287672A

CN112287672A - 文本意图识别方法及装置、电子设备、存储介质

Info

Publication number: CN112287672A
Application number: CN201911193708.2A
Authority: CN
Inventors: 王颖帅; 李晓霞; 苗诗雨
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2021-01-29

Abstract

本公开提供了一种文本意图识别方法及装置、电子设备、计算机可读存储介质，涉及人工智能技术领域。该方法包括：从待识别文本中提取关键词；基于各所述关键词的词向量，生成所述待识别文本的初始张量；对所述初始张量进行编码，得到所述待识别文本的特征张量；利用膨胀卷积网络模型处理所述特征张量，得到所述待识别文本的识别结果。本公开可以充分挖掘文本的语义特征，提高文本意图识别的准确率。

Description

文本意图识别方法及装置、电子设备、存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种文本意图识别方法及装置、电子设备、计算机可读存储介质。

背景技术

随着人工智能技术的发展，文本信息处理从依靠人工完成逐渐转变为由机器完成，例如越来越多的人工客服被智能助理所取代，相比于人工客服，智能助理具有更主动的双向交互能力、更便捷的沟通方式以及更专业的领域知识，因此能够提供更加优质的服务。

智能助理的实现依赖于通过机器学习技术对用户输入的文本进行识别，相较于文本的基本语义识别，对文本所体现的用户意图进行识别则具有更高的难度。现有的文本意图识别方法还无法达到较高的准确率。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种文本意图识别方法及装置、电子设备、计算机可读存储介质，进而至少在一定程度上克服现有的文本意图识别方法无法达到较高的准确率的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种文本意图识别方法，包括：从待识别文本中提取关键词；基于各所述关键词的词向量，生成所述待识别文本的初始张量；对所述初始张量进行编码，得到所述待识别文本的特征张量；利用膨胀卷积网络模型处理所述特征张量，得到所述待识别文本的识别结果。

在本公开的一种示例性实施例中，所述基于各所述关键词的词向量，生成所述待识别文本的初始张量包括：将各所述关键词转换为词向量，生成所述待识别文本的第一初始张量；将各所述关键词拆分为关键字，并基于所述关键字的字向量，生成所述待识别文本的第二初始张量；将所述第一初始张量与第二初始张量拼接为所述初始张量。

在本公开的一种示例性实施例中，所述方法还包括：提取各所述关键词在所述待识别文本中的位置特征，生成所述待识别文本的第三初始张量；提取各所述关键字的上下文特征，生成所述待识别文本的第四初始张量；所述将所述第一初始张量与第二初始张量拼接为所述初始张量包括：将所述第一初始张量、第二初始张量、第三初始张量与第四初始张量拼接为所述初始张量。

在本公开的一种示例性实施例中，所述对所述初始张量进行编码，得到所述待识别文本的特征张量包括：利用注意力模型(Attention model)对所述初始张量进行处理，得到所述待识别文本的特征张量。

在本公开的一种示例性实施例中，所述膨胀卷积网络模型包括：Highway层，用于对所述特征张量进行非线性变换，得到中间矩阵；膨胀卷积层(Dilated层)，用于利用多个膨胀卷积核对所述中间矩阵进行卷积操作，得到卷积层向量；全连接层，用于对所述卷积层向量进行全连接操作，得到全连接向量；Dropout层，用于根据预设丢弃比例丢弃所述全连接层向量的部分维度，得到Dropout层向量；输出层，用于对所述Dropout层向量进行归一化操作，得到输出向量。

在本公开的一种示例性实施例中，所述方法还包括：获取样本文本，并对各样本文本进行分词，得到样本词；通过textrank算法计算每个样本词的内部权重；计算所述每个样本词的TF-IDF(词频-逆文本频率)；根据所述每个样本词的内部权重与TF-IDF得到所述每个样本词的综合权重；筛选出所述综合权重高于权重阈值的样本词，生成关键词库；所述从待识别文本中提取关键词包括：基于所述关键词库，从所述待识别文本中提取关键词。

在本公开的一种示例性实施例中，在从待识别文本中提取关键词前，所述方法还包括：对所述待识别文本进行预处理；其中，所述预处理包括分词、去除停用词、正则清洗中的至少一种。

根据本公开的一个方面，提供一种文本意图识别装置，包括：提取模块，用于从待识别文本中提取关键词；转换模块，用于基于各所述关键词的词向量，生成所述待识别文本的初始张量；编码模块，用于对所述初始张量进行编码，得到所述待识别文本的特征张量；处理模块，用于利用膨胀卷积网络模型处理所述特征张量，得到所述待识别文本的识别结果。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果：

从待识别文本中提取关键词后，通过转换词向量的方式得到初始张量，再通过编码的方式转换为特征张量，并利用膨胀卷积网络模型进行分析处理，得到待识别文本的意图识别结果。一方面，对待识别文本进行初步的向量化转换后，还通过编码的方式进一步提取特征，可以更好的挖掘待识别文本的语义及意图，使得特征张量更好的表征待识别文本的全局信息。另一方面，利用膨胀卷积网络模型进行分析，可以从机器的角度提取特征张量中的特征，提取更充分，且对特征张量的膨胀卷积操作可以保留待识别文本的全局信息或较长的词序特征信息，从而提高了文本意图识别的准确率。再一方面，膨胀卷积网络模型以神经网络模型为基础，适用于大数据的场景，且训练过程简单，实用性较强。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本示例性实施例中一种文本意图识别方法的流程图；

图2示意性示出本示例性实施例中一种膨胀卷积核的示意图；

图3示意性示出本示例性实施例中一种多头注意力编码过程的示意图；

图4示意性示出本示例性实施例中一种文本意图识别方法的子流程图；

图5示意性示出本示例性实施例中一种膨胀卷积网络模型建立过程的示意图；

图6示意性示出本示例性实施例中一种文本意图识别装置的结构框图；

图7示意性示出本示例性实施例中一种用于实现上述方法的电子设备；

图8示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

相关技术的一种方案中，是通过支持向量机模型(SVM)进行文本意图识别的，虽然支持向量机模型能够根据文本的特征进行较为有效的意图分类，但是应用于大数据场景中，模型的训练速度较慢，且特征需要人工设定，具有一定的局限性，影响了模型的准确率。相关技术的另一种方案中，是利用斯坦福大学开发的CoreNLP工具(一种自然语言处理工具)对文本进行正则话术匹配，以实现文本意图识别的，其缺点是话术需要人工设定，对于实际应用中的线上文本则无法灵活适用。

鉴于上述问题，本公开的示例性实施例首先提出了一种文本意图识别方法，可以应用于搜索、智能助理等场景中，通过识别用户输入的文本的意图，针对性的提供服务内容。以智能助理的应用场景为例，智能助理可以划分以下7种业务类型：商品查询业务、订单业务、售后服务业务、模糊优惠业务、特定商品优惠业务、频道直达业务与未识别业务，则本实施例的目的在于识别出文本意图属于上述7种业务中的哪一种，从而能够在具体的业务场景下提供服务。

下面结合附图1做进一步说明，如图1所示，该文本意图识别方法可以包括步骤S110～S140：

步骤S110中，从待识别文本中提取关键词。

在本实施例中，文本意图识别是以语句为单位进行的，对于用户输入的一段文本，可以分别对其中的每个语句进行意图识别，也可以对其中的重要语句(例如第一句)进行意图识别等。因此，待识别文本通常为一句话。关键词是指待识别文本中对于语义或意图有贡献的词，一般情况下，将待识别文本中的停用词与语气词等移除，剩下的词为关键词。

在一示例性实施例中，可以对待识别文本依次进行分词、去除停用词与正则清洗的预处理操作。举例而言，可以采用结巴jieba分词或LTP工具(哈尔滨工业大学团队开发的语言分析工具)等，并结合应用场景的个性化词库对待识别文本进行分词；然后去除停用词，例如“的”、“了”、“呢”、数字、字母、标点符号等无实际意义的内容；最后可以正则清洗掉在特定应用场景中常出现的无意义词，例如“好的”、“哈哈”、“嗯嗯”等语气词，也可以采用斯坦福大学开发的话术模板清洗掉常见的一些不文明用语等。经过以上过程，待识别文本中还剩余一部分词，可以确定为关键词。

步骤S120中，基于各关键词的词向量，生成待识别文本的初始张量。

其中，词向量可以是通过词袋模型确定的one-hot(独热码)类型的向量，也可以是通过word2vec模型(一个自然语言处理工具)确定的分布式向量等。在将每个关键词转换为词向量后，可以将各词向量按照关键词在待识别文本中的顺序进行拼接，具体而言，可以拼接为维度更高的向量，也可以拼接为矩阵，即为待识别文本的初始张量，因此初始张量可以是一维张量(即向量)，也可以是二维张量(即矩阵)。

通过关键词转换词向量的方式对待识别文本进行特征表示，通常只能表示出待识别文本的词意的简单组合，因此在步骤S120中标记为初始张量，还需要在步骤S130中做进一步的特征提取与整理。

需要补充的是，除了关键词的词向量外，也可以将其他与待识别文本相关的信息以向量的形式拼接到初始张量中，例如用户输入待识别文本时勾选的特定选项，进入文本输入页面的路径等，这些信息可能有利于文本意图识别。

步骤S130中，对初始张量进行编码，得到待识别文本的特征张量。

基于步骤S120得到的初始张量，对其做进一步的特征提取与整理，即编码的过程。可以采用编码-解码Encoder-Decoder模型中编码的过程，例如通过已有的卷积神经网络模型(CNN)、循环神经网络模型(RNN)或长短时记忆网络模型(LSTM)等可以实现编码。编码的过程考虑待识别文本中的每个关键词与上下文之间的关系，可以充分表示出待识别文本的语义及意图特征。初始张量经过编码后得到特征张量。

步骤S140中，利用膨胀卷积网络模型处理特征张量，得到待识别文本的识别结果。

在一般的卷积神经网络模型中，利用卷积核对输入的张量(或图像的像素矩阵)进行卷积操作，以提取局部特征，通常还与池化操作一起进行，以减少过拟合情况，并降低数据的处理量，然而池化操作也会造成信息损失。而在膨胀卷积网络模型中，利用膨胀卷积核进行卷积操作，膨胀卷积核可以参考图2所示，将原本3*3的卷积核进行膨胀设计，并在中间的空洞填充“0”，膨胀卷积核尺寸＝膨胀系数*(原卷积核尺寸-1)+1，图2所示膨胀系数为2，通常还可以将膨胀系数设定为4、6、8等。膨胀卷积网络模型可以在避免池化损失信息的情况下，增加卷积核的感受野，使每一次卷积操作的输出都包含较大范围的信息，特别在文本意图识别中，可以将文本的全局信息或较长的词序特征信息体现在卷积输出中，再进行神经网络模型的后续处理，能够提高文本意图识别的准确率。

基于上述说明，从待识别文本中提取关键词后，通过转换词向量的方式得到初始张量，再通过编码的方式转换为特征张量，并利用膨胀卷积网络模型进行分析处理，得到待识别文本的意图识别结果。一方面，对待识别文本进行初步的向量化转换后，还通过编码的方式进一步提取特征，可以更好的挖掘待识别文本的语义及意图，使得特征张量更好的表征待识别文本的全局信息。另一方面，利用膨胀卷积网络模型进行分析，可以从机器的角度提取特征张量中的特征，提取更充分，且对特征张量的膨胀卷积操作可以保留待识别文本的全局信息或较长的词序特征信息，从而提高了文本意图识别的准确率。再一方面，膨胀卷积网络模型以神经网络模型为基础，适用于大数据的场景，且训练过程简单，实用性较强。

在一示例性实施例中，步骤S120可以包括以下步骤：

将各关键词转换为词向量，生成待识别文本的第一初始张量；

将各关键词拆分为关键字，并基于关键字的字向量，生成待识别文本的第二初始张量；

将第一初始张量与第二初始张量拼接为初始张量。

其中，关键词转换词向量后，拼接生成第一初始张量；关键字转换字向量后，拼接生成第二初始张量。即对于待识别文本，分别从关键词与关键字两个方面进行特征表示，初始张量是将第一初始张量与第二初始张量拼接而成，同时包含了关键词与关键字的特征表示，对于待识别文本的表征更加充分。

在转换字向量时，可以基于word2vec模型对场景的语料进行预训练，调试字向量维度与滑动窗口大小等参数，训练得到语料中每个关键字的分布式向量，从而实现对应的转换。

进一步的，文本意图识别方法还可以包括以下步骤：

提取各关键词在待识别文本中的位置特征，生成待识别文本的第三初始张量；

提取各关键字的上下文特征，生成待识别文本的第四初始张量；

相应的，可以将第一初始张量、第二初始张量、第三初始张量与第四初始张量拼接为初始张量。

其中，位置特征可以是关键词在待识别文本中的大致位置，例如处于待识别文本的开始、中间、结尾，或者关键词为单个词的文本，位置特征也可以是关键词在待识别文本中的序号等。可以通过向量或矩阵的形式表示上述位置特征，举例而言，在one-hot类型关键词的词袋中，可以记录每个关键词在待识别文本中处于开始(用1表示)、中间(用2表示)、结尾(用3表示)或为单个词(用4表示)，如果未在关键词中出现，则相应的维度为0，则可以通过n维向量表示待识别文本中关键词的位置特征，n为词袋的大小，该n维向量即第三初始张量。

上下文特征是指与特定关键字相邻的其他关键字的特征信息，例如可以定义为每个关键字相邻的前两个字与后两个字，通过关键字的词袋模型进行转换，相邻关键字命中的维度值为1，其余维度值为0，则可以得到每个关键字的上下文特征向量，拼接后得到第四初始向量。

需要说明的是，第三初始张量与第四初始张量的具体转换方式不限于上述方式，本实施例对此不做特别限定。

第三初始张量与第四初始张量可视为对待识别文本信息的补充表示，将其与第一初始张量、第二初始张量一起拼接为初始张量，可以更加充分地表征待识别文本的特征。

在一示例性实施例中，步骤S130可以包括以下步骤：

利用注意力模型对初始张量进行处理，得到待识别文本的特征张量。

其中，注意力模型在对初始张量编码的过程中，可以调整对于初始张量各部分的关注程度，缩小重点关注的范围。举例而言，假设初始张量input_X＝{x₁,x₂,x₃…x_m}，在注意力层输出的张量为Y＝{y₁,y₂,y₃…y_p}，则有以下关系：

a_i＝Softmax(Similarity({y₁,y₂,…y_i-1},x_i))；

其中，Attention(input_X,Y)为注意力模型输出的特征张量，a_i为注意力机制的权重，Softmax为归一化函数，Similarity为相似度函数。

进一步的，上述注意力模型可以是多头注意力模型(Multi-head attentionmodel)。参考图3所示，在多头注意力模型中，分别对初始张量input_X(对应于注意力模型中的key与value)、注意力张量Y(对应于注意力模型中的query)进行多次线性化操作，并计算放缩点积，再进行拼接，还可以再进行一次线性化操作，输出特征向量。“多头”是指在多个线性投影子空间上进行注意力点积计算，以得到注意力权重，然后综合考虑多次计算的结果，得到最终的特征向量，其优点是允许模型在不同的子空间内学习相关性信息，特征向量的信息表征更加充分。

在一示例性实施例中，膨胀卷积网络模型可以包括以下网络层：

高速网络Highway层，用于对特征张量进行非线性变换，得到中间矩阵；

膨胀卷积层，用于利用多个膨胀卷积核对中间矩阵进行卷积操作，得到卷积层向量；

全连接层，用于对卷积层向量进行全连接操作，得到全连接向量；

丢弃Dropout层，用于根据预设丢弃比例丢弃全连接层向量的部分维度，得到Dropout层向量；

输出层，用于对Dropout层向量进行归一化操作，得到输出向量。

其中，Highway层可以通过一维卷积(conv1d)与多层感知机(MLP)两种具体方式实现。conv1d适用于特征张量为向量的情况，可以定义多个卷积核，将卷积结果拼接为中间矩阵；MLP适用于特征张量为矩阵或更高维张量的情况。Highway层的设计使得神经网络层增加了信息通道，可用于捕获特征张量中的重要语义。

无论特征张量的维度是多少，都可以通过Highway层转换为二维张量形式的中间矩阵，然后输入到膨胀卷积层中，可以利用二维的膨胀卷积核进行卷积操作。针对于不同范围的局部特征信息，可以设计多个不同感受野的膨胀卷积核，分别对中间矩阵做卷积，得到卷积层向量。此外，膨胀卷积层也可以包括多个分层，对中间矩阵进行连续多次卷积操作，则相应的，上述多个膨胀卷积核的每个卷积核可以是一组具有先后顺序的卷积核，本实施例对此不做特别限定。

在卷积操作中，对文本信息进行多个方面的局部特征提取，因此可以在全连接层中，通过全连接操作使各局部特征进一步学习。在全连接层后设计Dropout层，其表现为丢弃全连接层的一部分神经元，实质是丢弃全连接层向量的一部分维度，可以防止过拟合。通常在模型中设定Keep_prob参数(保留率)，按照该参数随机选择保留的神经元，得到Dropout层向量。最后进行归一化操作，例如通过Softmax、Sigmoid等函数计算归一化值，得到输出向量。

需要说明的是，以上仅是示例性列出了膨胀卷积网络模型的几个代表性的网络层，实际应用中，还可以根据需要增设其他中间层，例如一般的隐藏层、池化层、ReLu(线性修正单元)激活层、优化层(如选用Adam优化器)、Accuracy层等，且各网络层之间的先后顺序也可以调换，本实施例对此不做特别限定。

在一示例性实施例中，参考图4所示，文本意图识别方法还可以包括步骤S410～S450：

步骤S410，获取样本文本，并对各样本文本进行分词，得到样本词；

步骤S420，通过文本关键词提取算法textrank算法计算每个样本词的内部权重；

步骤S430，计算每个样本词的TF-IDF；

步骤S440，根据每个样本词的内部权重与TF-IDF得到每个样本词的综合权重；

步骤S450，筛选出综合权重高于权重阈值的样本词，生成关键词库；

在获得关键词库后，可以基于关键词库，从待识别文本中提取关键词。

其中，样本文本是从应用场景的语料中提取的海量文本，可以反映该场景中各种类型的文本特点，例如在智能助理的场景中，可以从智能助理的Hive(一种数据库)日志表中，提取用户输入文本的第一句话，作为样本文本。Textrank算法是基于样本文本集的内部统计而计算的内部权重，反映了各样本词的内部重要程度；TF-IDF是基于内部与外部的统计而计算的指数，反映了各样本词对于特定场景的重要程度。联系这两种指数，例如相乘、带权重指数相乘、求平均、加权计算等，可以得到各样本词的综合权重，综合权重考虑了文本的信息增益、文档频率等多种指标，能够更加准确的反映各样本词在特定场景中的代表性，因此按照权重阈值筛选出综合权重较高的样本词，可以构建关键词库。权重阈值可以根据经验与实际使用情况设定具体的数值。

在获得关键词库后，可以通过文本与词库匹配的方式，从待识别文本中提取关键词。相比于常规的分词工具，通过关键词库的方式提取的关键词更具有场景代表性，更能反映用户的意图，有利于后续的文本意图识别。

在一示例性实施例中，在从待识别文本中提取关键词前，文本意图识别方法还包括以下步骤：

对待识别文本进行预处理；其中，预处理包括分词、去除停用词、正则清洗中的至少一种。

举例而言，可以采用jieba分词或LTP工具等，并结合应用场景的个性化词库对待识别文本进行分词；停用词可以是例如“的”、“了”、“呢”、数字、字母、标点符号等无实际意义的内容；正则清洗可以是去除在特定应用场景中常出现的无意义词，例如“好的”、“哈哈”、“嗯嗯”等语气词，也可以采用斯坦福大学开发的话术模板清洗掉常见的一些不文明用语等。经过预处理，可以使待识别文本仅保留有效信息，减少后续的数据处理量，并降低无效信息对于意图识别的干扰，进一步提高识别的准确率。

在一示例性实施例中，膨胀卷积网络模型(膨胀CNN)的建立过程可以参考图5所示。首先获取样本文本，进行分词、去除停用词、正则清洗，得到样本词；对于样本词，计算textrank权重与TF-IDF，并筛选综合权重较高的样本词，构建关键词库；再通过关键词库去匹配处理样本文本，对于每个样本文本，在匹配出关键词后，通过提取词向量、字向量、位置特征、上下文特征，用初始张量的形式对样本文本进行初始表示；然后可以利用多头注意力模型对初始张量进行处理，实现在初始表示的基础上对文本的编码，这一过程也可以输入文本的初始类别，以辅助意图识别；在得到特征张量后，输入到膨胀CNN中，并通过样本文本的标签训练模型、调整权重。在训练的过程中也可以调整多头注意力模型的参数。

在一示例性实施例中，膨胀CNN的参数可以设置如下：

嵌入层维度Embedding_dim＝64//每个字向量(或词向量)的维度

文本长度Seq_length＝100//分析并统计文本长度，由高斯分布设置长度为100

Num_classes＝7//意图分类数

Kernel_sizes＝[1,3,5]//卷积核尺寸

Vocab_size＝5000//关键词库大小

Hidden_dim＝128//隐藏层维度

Dilated_rate＝2//膨胀卷积核的膨胀系数

Dropout_keep_prob＝0.5//Dropout层的保留率

Learning_rate＝0.003//学习率

Batch_size＝64//每批训练数

Num_epochs＝10//样本迭代轮数

Use_attention＝True//使用注意力机制

Attention_dim＝128//注意力模型输出维度

Use_highway＝True//使用Highway层

Highway_type＝’MLP’//Highway层采用MLP

Print_per_batch＝100//每100批输出一次结果

Save_per_batch＝10//每10批储存一次结果

基于训练完成的膨胀CNN，可以进行实际应用。例如可以应用于智能助理场景中，对用户意图进行分类：商品查询业务、订单业务、售后服务业务、模糊优惠业务、特定商品优惠业务、频道直达业务与未识别业务，以在具体的业务场景下提供服务。上述膨胀CNN模型可以基于Tensorflow(一种人工智能学习系统)系统，用java语言搭建算法服务，并通过GPU资源提高服务性能，配合上下游联调。此外，也可以在算法服务中构建业务监控机制，例如可以监控某个时间段的用户点击情况与离线指标的变化趋势，然后从智能助理的日志表中提取效果差的时间段的数据，进行针对性数据分析，以优化模型。膨胀CNN的评估指标可以采用F1值、精确率、召回率、AUC或ROC曲线等，本实施例对此不做特别限定，以F1值为例，在智能助理的应用中，膨胀CNN对于测试集的F1值可以达到0.92，说明本示例性实施例的文本意图识别准确率较高。

本公开的示例性实施例还提供了一种文本意图识别装置，参考图6所示，该装置600可以包括：提取模块610，用于从待识别文本中提取关键词；转换模块620，用于基于各关键词的词向量，生成待识别文本的初始张量；编码模块630，用于对初始张量进行编码，得到待识别文本的特征张量；处理模块640，用于利用膨胀卷积网络模型处理特征张量，得到待识别文本的识别结果。

在一示例性实施例中，转换模块还可以包括：第一转换单元，用于将各关键词转换为词向量，生成待识别文本的第一初始张量；第二转换单元，用于将各关键词拆分为关键字，并基于关键字的字向量，生成待识别文本的第二初始张量；拼接单元，用于将第一初始张量与第二初始张量拼接为初始张量。

进一步的，转换模块还可以包括：第三转换单元，用于提取各关键词在待识别文本中的位置特征，生成待识别文本的第三初始张量；第四转换单元，用于提取各关键字的上下文特征，生成待识别文本的第四初始张量；拼接单元还可以用于将第一初始张量、第二初始张量、第三初始张量与第四初始张量拼接为初始张量。

在一示例性实施例中，编码模块还可以用于利用注意力模型对初始张量进行处理，得到待识别文本的特征张量。

Highway层，用于对特征张量进行非线性变换，得到中间矩阵；

Dropout层，用于根据预设丢弃比例丢弃全连接层向量的部分维度，得到Dropout层向量；

在一示例性实施例中，文本意图识别装置还可以包括词库构建模块，其中词库构建模块又可以包括以下单元：

样本分词单元，用于获取样本文本，并对各样本文本进行分词，得到样本词；

Textrank计算单元，用于通过textrank算法计算每个样本词的内部权重；

TF-IDF计算单元，用于计算每个样本词的TF-IDF；

综合计算单元，用于根据每个样本词的内部权重与TF-IDF得到每个样本词的综合权重；

权重筛选单元，用于筛选出综合权重高于权重阈值的样本词，生成关键词库；

相应的，提取模块还可以用于基于关键词库，从待识别文本中提取关键词。

在一示例性实施例中，文本意图识别装置还可以包括：预处理模块，用于对待识别文本进行预处理；其中，预处理包括分词、去除停用词、正则清洗中的至少一种。

上述装置的模块/单元的具体细节在方法部分的实施例中已经详细说明，因此不再赘述。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本公开的这种示例性实施例的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，存储单元存储有程序代码，程序代码可以被处理单元710执行，使得处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元710可以执行图1所示的步骤S110～S140，也可以执行图4所示的步骤S410～S450等。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(ROM)723。

存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。

本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图8所示，描述了根据本公开的示例性实施例的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种文本意图识别方法，其特征在于，包括：

从待识别文本中提取关键词；

基于各所述关键词的词向量，生成所述待识别文本的初始张量；

对所述初始张量进行编码，得到所述待识别文本的特征张量；

利用膨胀卷积网络模型处理所述特征张量，得到所述待识别文本的识别结果。

2.根据权利要求1所述的方法，其特征在于，所述基于各所述关键词的词向量，生成所述待识别文本的初始张量包括：

将各所述关键词转换为词向量，生成所述待识别文本的第一初始张量；

将各所述关键词拆分为关键字，并基于所述关键字的字向量，生成所述待识别文本的第二初始张量；

将所述第一初始张量与第二初始张量拼接为所述初始张量。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

提取各所述关键词在所述待识别文本中的位置特征，生成所述待识别文本的第三初始张量；

提取各所述关键字的上下文特征，生成所述待识别文本的第四初始张量；

所述将所述第一初始张量与第二初始张量拼接为所述初始张量包括：

将所述第一初始张量、第二初始张量、第三初始张量与第四初始张量拼接为所述初始张量。

4.根据权利要求1所述的方法，其特征在于，所述对所述初始张量进行编码，得到所述待识别文本的特征张量包括：

利用注意力模型对所述初始张量进行处理，得到所述待识别文本的特征张量。

5.根据权利要求1所述的方法，其特征在于，所述膨胀卷积网络模型包括：

高速网络Highway层，用于对所述特征张量进行非线性变换，得到中间矩阵；

膨胀卷积层，用于利用多个膨胀卷积核对所述中间矩阵进行卷积操作，得到卷积层向量；

全连接层，用于对所述卷积层向量进行全连接操作，得到全连接向量；

丢弃Dropout层，用于根据预设丢弃比例丢弃所述全连接层向量的部分维度，得到Dropout层向量；

输出层，用于对所述Dropout层向量进行归一化操作，得到输出向量。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取样本文本，并对各样本文本进行分词，得到样本词；

通过文本关键词提取textrank算法计算每个样本词的内部权重；

计算所述每个样本词的词频-逆文本频率TF-IDF；

根据所述每个样本词的内部权重与TF-IDF得到所述每个样本词的综合权重；

筛选出所述综合权重高于权重阈值的样本词，生成关键词库；

所述从待识别文本中提取关键词包括：

基于所述关键词库，从所述待识别文本中提取关键词。

7.根据权利要求1所述的方法，其特征在于，在从待识别文本中提取关键词前，所述方法还包括：

对所述待识别文本进行预处理；

其中，所述预处理包括分词、去除停用词、正则清洗中的至少一种。

8.一种文本意图识别装置，其特征在于，包括：

提取模块，用于从待识别文本中提取关键词；

转换模块，用于基于各所述关键词的词向量，生成所述待识别文本的初始张量；

编码模块，用于对所述初始张量进行编码，得到所述待识别文本的特征张量；

处理模块，用于利用膨胀卷积网络模型处理所述特征张量，得到所述待识别文本的识别结果。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。