CN112464674A

CN112464674A - 一种字级别的文本意图识别方法

Info

Publication number: CN112464674A
Application number: CN202011489791.0A
Authority: CN
Inventors: 彭浩; 周杰; 贾川江
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-09

Abstract

本发明公开了一种字级别的文本意图识别方法，包括创建字向量语义字典并获取字向量组成句子矩阵，搭建CNN网络结构进行模型训练，利用训练的意图识别模型进行意图预测，本发明的字级别的意图识别方法，通过向量库和语料库构建字向量语义字典获取语料字级别的句子矩阵，并使用三个独立且不同的卷积神经网络相结合模拟词向量信息得到文本的语义特征来训练意图识别模型，从而实现缩小资源占用但不降低识别率的目的，减小意图识别模型占用的内存，保证识别的准确率，提高用户语音使用的智能交互体验。

Description

一种字级别的文本意图识别方法

技术领域

本发明涉及文本意图识别技术领域，特别是一种字级别的文本意图识别方法。

背景技术

传统的文本分类方法，大多以词为单位，利用多样化的向量库构造向量空间。分词后读取向量空间得到句子矩阵，随后经过多种网络融合结构的计算得到识别率较高的模型。而汉语中词语数量大，对应的向量空间也大，因此占用的资源空间也就多。而以字为单位进行文本分类的模型通常用one-hot编码进行字向量获取，虽然占用的资源空间更小，但丧失了语义信息，得到的分类结果比以词为单位的文本分类方法更差。且在一些对于意图识别模型的大小和识别准确率都有一定的需求的场景中，因此，现有技术存在文本分类中算法识别率和资源占用之间不平衡的问题。

发明内容

为解决现有技术中存在的问题，本发明的目的是提供一种字级别的文本意图识别方法，通过构建字向量语义字典以缩小空间资源占用率，并搭建CNN网络结构弥补字向量丧失部分语言信息的缺陷，以达到文本识别率和资源占用之间的平衡。

为实现上述目的，本发明采用的技术方案为：一种字级别的文本意图识别方法，包括：步骤S101，创建字向量语义字典，根据模型使用领域进行语料收集、去重、并以单字为单位查询mitie向量库构造字向量语义字典；步骤S102，获取字向量组成句子矩阵，将句子切分为若干个单字，将所获得的单字分别输入字向量语义字典中获得相应的字向量，并按顺序组成对应的句子矩阵；步骤S103，搭建CNN网络结构，CNN网络结构包括若干个CNN网络，将句子矩阵分别输入若干个CNN网络进行池化处理得到句子的语义特征，将所获得的语义特征进行水平拼接、意图分类和softmax处理，得到各个意图的概率并输出；步骤S104，模型训练，通过CNN网络结构和标记好意图的语料进行模型训练，得到意图识别模型；步骤S105，意图预测，根据步骤S102的方法获取文本的字向量组成句子矩阵，并将句子矩阵输入意图识别模型进行意图预测，以完成文本的意图识别。

作为优选，所述方法还包括：设置字向量的维度和句子最大字数。

作为优选，所述mitie向量库查出的字向量只截取所设置维度的字向量作为该字的字向量来构建字向量语义字典。

作为优选，若句子中单字的数量少于所设置的句子最大字数，则补充相同维数的零向量；若句子中单字的数量大于所设置的句子最大字数，则去除多余的字。

作为优选，所述CNN网络结构包括第一CNN网络、第二CNN网络和第三CNN网络，对应的卷积窗口分别为1、2和4，且分别对输出的特征矩阵做前四大值均值池化处理、最大值和次大值均值池化处理和最大池化处理，得到句子信息中的4个单字、两组相邻的两个单字和一组相邻的四个单字的特征作为该句子的语义特征。

本发明的有益效果是：

本发明通过向量库和语料库构建字向量语义字典获取语料字级别的句子矩阵，并使用三个独立且不同的卷积神经网络相结合模拟词向量信息得到文本的语义特征来训练意图识别模型，从而实现缩小资源占用但不降低识别率的目的，减小意图识别模型占用的内存，保证识别的准确率，提高用户语音使用的智能交互体验。

附图说明

图1为本发明实施例一种字级别的文本意图识别方法的流程图；

图2为本发明实施例一种字级别的文本意图识别方法的框架图；

图3为本发明实施例CNN网络的卷积过程示意图。

具体实施方式

下面结合附图对本发明的实施例进行详细说明。

实施例，

参照附图1，本发明实施例的一种字级别的文本意图识别方法，包括以下步骤：

步骤S101，创建字向量语义字典，

根据模型使用领域进行语料收集，并对语料中的字去重，以单个字为单位查询mitie向量库，得到每个字的字向量，截取固定维度的向量作为该字的字向量，固定维度取值为不影响算法识别率的最小维度，以构造字向量语义字典，例如，

思[1.335914134979248,......,-0.5145779252052307]

权[1.2839683294296265,......,0.8642581105232239]

......

在一定的领域内，语料涉及的字，对比词的数量来说，是十分有限的，可以极大地减少内存的占用，并且相比字one-hot向量又保留了字本身的语义信息，对提高算法识别率有益。在不影响算法识别率的前提下，压缩字向量的维度，有助于进一步减少内存占用。

步骤S102，获取字向量组成句子矩阵，

将句子的每个字一一提取获得若干个单字，将所获得的单字分别输入字向量语义字典中获得相应的字向量，并按顺序组成对应的句子矩阵；

例如，将句子“打开电视”切分为“打”、“开”、“电”、“视”并加到list。假设字向量的维度为90维，每句话最大字数为10，最终意图分类数为120。通过特征提取组件将所述list中的各个字一一通过字向量语义字典查询获得相应的字向量，作为优选，若句子中单字的数量少于设置的句子最大字数，则补充相同维数的零向量；若句子中单字的数量大于设置的句子最大字数，则去除多余的字，使句子矩阵具有相同的维度，得到最终的句子矩阵。例如：

打[1.2711501121520996,......,-0.6230699419975281]

开[1.326598882675171,......,-0.3172447383403778]

电[1.2370820045471191,......,-0.14718323945999146]

视[1.2136116027832031,......,0.6326875686645508]

[0,......,0]

步骤S103，搭建CNN网络结构，

CNN网络包括输入层、网络层、池化层、特征连接层、全连接层和输出层；其中网络层包括CNN网络层1、CNN网络层2和CNN网络层3，且分别与池化层的池化层1、池化层2和池化层3相对应；

CNN网络1、2、3的卷积窗口大小分别为1、2、4，将句子矩阵通过CNN网络的输入层传输至各网络层。再分别通过池化层1将CNN网络层1输出的特征矩阵前四大值做均值池化处理，池化层2将CNN网络层2输出的特征矩阵最大值和次大值做均值池化处理，通过池化层3将CNN网络层3输出的特征矩阵做最大池化处理，得到句子信息中的4个单字、两组相邻的两个单字、一组相邻的四个单字的特征作为该句子的语义特征，从而通过字向量来模拟词向量，来提高意图识别的识别率，同时也可以消除未登录字对结果的影响。将三个池化层的输出通过特征连接层进行水平拼接。然后，将特征连接层的输出通过全连接层进行意图分类。将全连接层输出结果经过softmax处理得到各个意图的概率，并通过输出层进行输出。例如,

输入层：输入句子矩阵(10×90)

网络层：

CNN网络层1→池化层1：对句子矩阵用卷积窗口为1的256个卷积核(1×90)进行卷积，得到维度为(10×256)的特征矩阵，然后进行前4大值均值池化，得到维度为(1×256)的特征矩阵，包含256种句子中最重要的4个字的特征；

CNN网络层2→池化层2：对句子矩阵用卷积窗口为2的256个卷积核(2×90)进行卷积，得到维度为(9×256)的特征矩阵，然后进行最大值和次大值均值池化，得到维度为(1×256)的特征矩阵，包含256种最重要的两组相邻两个字的特征；

CNN网络层3→池化层3：对句子矩阵用卷积窗口为4的256个卷积核(4×90)进行卷积，得到维度为(7×256)的特征矩阵，然后进行最大池化，得到维度为(1×256)的特征矩阵，包含256种最重要的相邻4个字的特征；

卷积过程，以卷积窗口为2为例，具体的过程如附图3所示。

特征连接层：将三个池化层的输出水平连接，得到维度为(1×768)的特征向量。

全连接层：全连接层包括了三个部分，输入层、隐藏层和输出层，输入层即网络层的输出，结点数为768，隐藏层为两层，结点分别设置为256和128，而输出层结点数与意图数量保持一致，即120。

输出层：全连接层的输出经过softmax函数处理得到每个意图的概率。

步骤S104，模型训练，

通过上述字级别的CNN网络和标记好意图的语料进行模型训练，得到意图识别模型。

步骤S105，意图预测，

将文本经过步骤S102获取字向量组成句子矩阵、并将句子矩阵通过经过CNN网络训练后的意图识别模型进行意图预测得到各个意图的概率，并选取概率最大的意图作为最终的意图进行输出，完成文本的意图识别。

通过本发明的一种字级别的文本意图识别方法，通过向量库和语料库构建字向量语义字典获取语料字级别的句子矩阵，并构建CNN网络结构，且CNN网络结构包括三个并行CNN网络,使用三个独立的不同的卷积神经网络相结合模拟词向量信息得到文本的语义特征来训练意图识别模型，以对文本分类算法的识别率和资源的占用进行平衡，减小意图识别模型占用的内存，保证识别的准确率，提高用户语音使用的智能交互体验。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种字级别的文本意图识别方法，其特征在于，包括：

步骤S101，创建字向量语义字典，根据模型使用领域进行语料收集、去重、并以单字为单位查询mitie向量库构造字向量语义字典；

步骤S102，获取字向量组成句子矩阵，将句子切分为若干个单字，将所获得的单字分别输入字向量语义字典中获得相应的字向量，并按顺序组成对应的句子矩阵；

步骤S103，搭建CNN网络结构，CNN网络结构包括若干个CNN网络，将句子矩阵分别输入若干个CNN网络进行池化处理得到句子的语义特征，将所获得的语义特征进行水平拼接、意图分类和softmax处理，得到各个意图的概率并输出；

步骤S104，模型训练，通过CNN网络结构和标记好意图的语料进行模型训练，得到意图识别模型；

步骤S105，意图预测，根据步骤S102的方法获取文本的字向量组成句子矩阵，并将句子矩阵输入意图识别模型进行意图预测，以完成文本的意图识别。

2.根据权利要求1所述字级别的文本意图识别方法，其特征在于，所述方法还包括：设置字向量的维度和句子最大字数。

3.根据权利要求2所述字级别的文本意图识别方法，其特征在于，所述mitie向量库查出的字向量只截取所设置维度的字向量作为该字的字向量来构建字向量语义字典。

4.根据权利要求2所述字级别的文本意图识别方法，其特征在于，若句子中单字的数量少于所设置的句子最大字数，则补充相同维数的零向量；若句子中单字的数量大于所设置的句子最大字数，则去除多余的字。

5.根据权利要求1所述字级别的文本意图识别方法，其特征在于，所述CNN网络结构包括第一CNN网络、第二CNN网络和第三CNN网络，对应的卷积窗口分别为1、2和4，且分别对输出的特征矩阵做前四大值均值池化处理、最大值和次大值均值池化处理和最大池化处理，得到句子信息中的4个单字、两组相邻的两个单字和一组相邻的四个单字的特征作为该句子的语义特征。