CN112559680B

CN112559680B - 基于多层次特征提取的文本分类方法、模型及存储介质

Info

Publication number: CN112559680B
Application number: CN202011384063.3A
Authority: CN
Inventors: 余本功; 朱晓洁; 杨善林; 张强; 张子薇; 王惠灵
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-10-04
Anticipated expiration: 2040-12-01
Also published as: CN112559680A

Abstract

本发明实施方式提供一种基于多层次特征提取的文本分类方法、模型及存储介质，属于自然语言处理技术。所述文本分类方法包括：将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵；获取所述词嵌入矩阵的上下文语义信息；对所述上下文语义信息给予不同的关注以得到全局特征；基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示；根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率；根据所述分类概率确定所述输入文本的分类结果。该文本分类方法能够通过提取深层次的局部语义信息，从而实现文本的准确分类。

Description

基于多层次特征提取的文本分类方法、模型及存储介质

技术领域

本发明涉及自然语言处理技术，具体地涉及一种基于多层次特征提取的文本分类方法、模型及存储介质。

背景技术

随着互联网技术的发展和移动社交网络平台的普及，各大新闻网站、社交媒体、电子邮件等新媒体平台产生的文本信息呈指数式增长，这些文本信息具有较强的时效性，且隐藏着潜在的经济价值。例如对电商用户评论文本进行观点挖掘和情感分析，企业可以分析客户偏好、了解用户需求，并及时发现企业在运营过程中的不足，改进相关产品和客户服务，对提升企业竞争力具有重要作用，能为不同企业带来巨大的价值。

有效的组织和管理文本信息是开展分析工作的基础，面对非结构化的海量文本，传统的人工处理方式耗时费力，因此需要设计出一种能够快速有效处理文本数据的方法。对文本进行分类是一种有效的文本信息组织和管理方法，被广泛应用于信息分类、标签推荐、情感分析、垃圾邮件过滤、用户意图分析等领域。近年来，深度学习利用词向量的分布式表示构建模型的输入，主流的深度学习模型，如卷积神经网络和循环神经网络在文本分类任务上都取得了不错的效果。

由于机器学习算法具有无法很好表征文本上下文信息等局限性，深度学习算法开始被广泛应用到文本分类任务上。对文本分类任务而言，基于深度学习的文本分类算法进行文本特征提取主要是利用word2vec、glove等模型获取词向量，word2vec词向量可以定量地度量词语之间的语义关系，挖掘词语之间的联系。

有学者使用CNN模型进行文本分类，通过多通道卷积获取局部信息，也有学者将卷积神经网络应用于字符级别的文本分类，但卷积神经网络只能提取局部语义信息，为解决CNN局部提取的局限性，很多学者利用循环神经网络提取序列文本特征，其中LSTM的研究更为广泛。另外也有人提出TextRNN，利用BiLSTM的输出表达上下文信息。利用LSTM和attention机制捕获上下文特征，循环神经网络的另一个变种是GRU，与LSTM设置的输入门、输出门和遗忘门不同，GRU组合了输入们和遗忘门，构造更加简单，使用较少的参数加快了训练数据的速度。朱茂然等学者利用BiGRU结合层次注意力对文本中的比较关系进行识别。Tang等学者提出了一种利用BiGRU对文档进行全局特征表示的情感分类模型，结果表明循环网络在文本情感分类任务上取得了不错的效果。这类方法提高了文本分类模型在全局上下文特征提取上的性能，但无法很好地提取深层次的局部语义信息。

发明内容

本发明实施方式的目的是提供一种基于多层次特征提取的文本分类方法、模型及存储介质，该文本分类方法能够通过提取深层次的局部语义信息，从而实现文本的准确分类。

为了实现上述目的，本发明实施方式提供一种基于多层次特征提取的文本分类方法，包括：

将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵；

获取所述词嵌入矩阵的上下文语义信息；

对所述上下文语义信息给予不同的关注以得到全局特征；

基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示；

根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率；

根据所述分类概率确定所述输入文本的分类结果。

可选地，所述将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵具体包括：

采用Word2vec模型的skip-gram模型处理所述输入文本以得到所述词嵌入矩阵。

可选地，采用Word2vec模型的skip-gram模型处理所述输入文本以得到所述词嵌入矩阵具体包括：

对所述输入文本执行预处理操作，其中，所述预处理操作包括文本清洗、去除停用词、去重以及分词中的至少一者；

采用变换矩阵E与所述输入文本中的每个单词x_i对应的one-hot向量点乘以得到每个单词x_i对应的嵌入向量；

组合所有的嵌入向量以得到所述词嵌入矩阵。

可选地，获取所述词嵌入矩阵的上下文语义信息具体包括：

将所述词嵌入矩阵输入前向门控循环单元和后向门控循环单元中以得到所述上下文语义信息。

可选地，对所述上下文语义信息给予不同的关注以得到全局特征具体包括：

采用权值注意力层对所述上下文语义信息给予不同的关注。

可选地，基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示具体包括：

将所述全局特征输入卷积层中以得到对应的特征矩阵；

将所述特征矩阵输入主胶囊层以得到对应的主胶囊；

采用动态路由算法处理所述主胶囊以得到文本胶囊，其中，所述文本胶囊为所述高层次特征表示。

可选地，采用动态路由算法处理所述主胶囊以得到文本胶囊具体包括：

根据公式(1)和公式(2)计算所述文本胶囊的输入s_j，

其中，u_i为主胶囊中第i个胶囊，w_j第j个共享权值矩阵，c_ij为第i个胶囊与第j个共享权值矩阵的耦合系数；

根据公式(3)计算输出向量v_j，

其中，ε为预设的参数值；

判断迭代次数是否大于或等于预设值；

在判断所述迭代次数小于所述预设值的情况下，根据公式(4)和公式(5)更新耦合系数c_ij，

再次根据公式(1)和公式(2)计算所述文本胶囊的输入s_j，直到判断所述迭代次数大于或等于所述预设值；

在判断所述迭代次数大于或等于所述预设值的情况下，将所述输出向量v_j作为所述文本胶囊。

可选地，根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率具体包括：

将所述高层次特征表示输入全连接层中以得到所述分类概率。

另一方面，本发明还提供一种基于多层次特征提取的文本分类模型，所述文本分类模型包括：

输入层，用于将输入文本进行词嵌入操作以获得所述输入文本的词嵌入矩阵；

BiGRU层，用于获取所述词嵌入矩阵的上下文语义信息；

权值注意力层，用于对所述上下文语义信息给予不同的关注以得到全局特征；

卷积层、主胶囊层以及文本胶囊层，用于基于所述全局特征进行高层次特征提取以得到对应的高层次特征表示；以及

输出层，用于根据所述高层次特征表示确定所述输入文本被分类至各个类别的分类概率，并根据所述分类概率确定所述输入文本的分类结果。

再一方面，本发明还提供一种存储介质，所述存储介质存储有指令，所述指令用于被机器读取以使得所述机器执行如上述任一所述的文本分类方法。

通过上述技术方案，本发明提供的基于多层次特征提取的文本分类方法、模型及存储介质首先通过采用输入层获取输入文本的嵌入矩阵，再设置BiGRU层提取上下文语义信息，然后针对上下文语义信息采用权值注意力层予以不同的关注，接着采用卷积层、主胶囊层以及文本胶囊层获取高层次特征表示，最后采用输出层根据该高层次特征表示确定输入文本的分类结果。通过输入层、BiGRU层、权值注意力层、卷积层、主胶囊层、文本胶囊层以及输出层各自的特性，实现了对输入文本高层次特征表示的提取以及精确的分类，克服了现有技术中的文本分类模型无法很好地提取深层次的局部语义信息的技术缺陷。

本发明实施方式的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明实施方式的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明实施方式，但并不构成对本发明实施方式的限制。在附图中：

图1是根据本发明的一个实施方式的基于多层次特征提取的文本分类方法的流程图；

图2是根据本发明的一个实施方式的获取词嵌入矩阵的方法的流程图；

图3是根据本发明的一个实施方式的前向门控循环单元和后向门控循环单元的具体工作方式的示意图；

图4是根据本发明的一个实施方式的获取高层次特征表示的方法的流程图；

图5是根据本发明的一个实施方式的动态路由算法的流程图；

图6是根据本发明的一个实施方式的动态路由算法的示意图；以及

图7是根据本发明的一个实施方式的基于多层次特征提取的文本分类模型的结构示意图。

具体实施方式

以下结合附图对本发明实施方式的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明实施方式，并不用于限制本发明实施方式。

在本发明实施方式中，在未作相反说明的情况下，使用的方位词如“上、下、顶、底”通常是针对附图所示的方向而言的或者是针对竖直、垂直或重力方向上而言的各部件相互位置关系描述用词。

另外，若本发明实施方式中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1所示是根据本发明的一个实施方式的基于多层次特征提取的文本分类方法的流程图。在图1中，该方法可以包括：

在步骤S10中，将输入文本进行词嵌入操作以获得输入文本的词嵌入矩阵。在该实施方式中，可以是采用Word2vec模型的skip-gram模型处理输入文本以得到该词嵌入矩阵。具体地，获取该词嵌入矩阵的方式可以包括如图2中所示出的步骤。在图2中，该步骤S10可以包括：

在步骤S20中，对输入文本执行预处理操作。其中，该预处理操作可以包括文本清洗、去除停用词、去重以及分词中的至少一者。在针对不同类型的输入文本，可以对文本清洗、去除停用词、去重以及分词等操作进行删减或增加。另外，为了使得词向量矩阵的维度保持一致，在该步骤中，可以将输入文本的长度设置为L。

在步骤S21中，采用变换矩阵E与输入文本中的每个单词x_i对应的one-hot向量点乘以得到每个单词x_i对应的嵌入向量e_i。

在步骤S22中，组合所有的嵌入向量e_i以得到词嵌入矩阵e＝{e₁,e₂,e₃,…,e_L}。其中，该词嵌入矩阵e可以一个具有d个行向量，L个列向量的矩阵，即：e∈R^L×d。e₁、e₂等均可以为该预处理后的输入文本S＝{x₁,x₂,x₃,…,x_L}中的单词x_i所对应的嵌入向量。

在步骤S11中，获取词嵌入矩阵的上下文语义信息。上下文语义信息可以用于表示词嵌入矩阵中上下文之间的相关关系。传统的GRU模型虽然能够捕捉输入文本中的长距离信息。但是，就某一位置而言，传统的GRU模型只能够捕获在该位置之前的文本信息。就汉语的习惯而言，在语言表述时常常存在转折、过渡等语句，例如“文本A，但是，文本B”，其中，文本A和文本B所要表达的内容完全相反。因此要获取文本实质要表达的内容，势必需要结合输入文本的整体内容来确定。所以传统的GRU模型显然难以满足这一技术条件。故在该实施方式中，该步骤S11可以是将词嵌入矩阵输入前向门控循环单元和后向门控循环单元中。对于该前向门控循环单元和后向门控循环单元的具体工作方式，可以是如图3所示。在图3中，前向门控循环单元(Forward GRU)和后向门控循环单元(Backward GRU)均可以包括多个隐藏单元(h₁ ⁽¹⁾、h₂ ⁽¹⁾、h₃ ⁽¹⁾、h₁ ⁽²⁾、h₂ ⁽²⁾、h₃ ⁽²⁾…)。其中，前向门控循环单元的隐藏单元(h₁ ⁽¹⁾、h₂ ⁽¹⁾、h₃ ⁽¹⁾)和后向门控循环单元(h₁ ⁽²⁾、h₂ ⁽²⁾、h₃ ⁽²⁾)的顺序相反。其具体过程如可以是如公式(1)(前向门控循环单元)和公式(2)(后向门控循环单元)所示，

其中，

为t时刻前向门控循环单元的输出，e_t为t时刻的词嵌入矩阵输入的词向量，

为t-1时刻前向门控循环单元的输出，

为t时刻后向门控循环单元的输出，

为t-1时刻后向门控循环单元的输出。

因此，在接收到词嵌入矩阵时，前向门控循环单元和后向门控循环单元分别从两个方向(从前到后和从后到前)进行处理，并相互拼接，从而得到该上下文语义信息H＝(h₁、h₂…h_t)。具体地，该拼接过程可以是如公式(3)和公式(4)所示，

H＝[h₁,h₂,…,h_n]，(4)。

由于前向门控循环单元和后向门控循环单元分别从两个方向进行处理，克服了现有技术中单个GRU无法结合上下文信息而导致出现文本分类错误的技术缺陷，大大提高了本发明提供的文本分类方法的识别准确度。

在步骤S12中，对上下文语义信息给予不同的关注以得到全局特征。在确定表示单个单词的上下文语义信息后，为了得到全局特征，可以针对每个上下文语义信息赋予对应的关注。具体地，如图3所示，可以是采用权值注意力层(Attention)对该上下文信息给予不同的关注。其中，关注α_t的数值可以是0-1范围内，且所有的关注α_t的总和为1，其具体的计算公式可以是如公式(5)和(6)所示，

c_t＝tanh(W^th_t+b_t)，(5)

其中，W^t为权值注意力层的更新参数，b_t为可更新的偏置项。

经过该步骤S12，该全局特征也可以表示为公式(7)和公式(8)，

h′_t＝α_t*h_t，(7)

H′＝[h′₁,h′₂…,h′_n]，(8)

其中，H′为该全局特征，h′_t、h′₁、h′₂以及h′_n均为全局特征中的向量。

在步骤S13中，基于全局特征进行高层次特征提取以得到对应的高层次特征表示。具体地，该步骤S13可以进一步包括如图4中所示出的步骤。在图4中，该步骤S13可以包括：

在步骤S30中，将全局特征输入卷积层中以得到对应的特征矩阵。全局特征H′是一个具有L个行向量，2V个列向量的矩阵(H′∈R^L×2V)。在该卷积层中，包括B个大小为W_a∈R^K×2V(K为卷积滤波器的高度，2V为该卷积滤波器的宽度)的卷积滤波器。该B个卷积滤波器在步长为1的情况下提取该矩阵中不同位置的n-gram特征。具体地，该过程可以是如公式(9)所示，

其中，

为卷积滤波器W_a与序列窗口X_i:i+k-1生成的第i个特征映射，a∈{1,2,…,B}，f表示非线性激活函数，f＝max(0,x)；

表示卷积运算，b₁为偏置项。由于该卷积滤波器的数量为B，因此所产生的特征映射的数量自然也为B，即如公式(10)所示，

M＝[m₁,m₂,…,m_B]∈R^(L-K+1)×B且m_a∈R^(L-K+1)，(10)

其中，M为特征矩阵。

在步骤S31中，将特征矩阵输入主胶囊层以得到对应的主胶囊。该主胶囊层中包括C个滤波器，该滤波器W_d的大小为B×d，即：W_b∈R^B×d。在该步骤S31中，滤波器W_b通过在特征矩阵上滑动以选取对应的向量，并根据公式(11)处理以得到对应的主胶囊，

其中，u_i为主胶囊中的一个(第i个)胶囊，squash为非线性挤压函数，M_i∈R^B为选取的向量，

为卷积运算，b₂为偏置项。

在步骤S32中，采用动态路由算法处理主胶囊以得到文本胶囊。其中，该文本胶囊即为高层次特征表示。具体地，该步骤S32可以包括如图5所示的步骤，而其流程的示意图则可以是如图6所示。在图5和图6中，该步骤S32可以包括：

在步骤S40中，根据公式(12)和公式(13)计算文本胶囊的输入s_j，

其中，u_i为主胶囊中第i个胶囊，w_j第j个共享权值矩阵，c_ij为第i个胶囊与第j个共享权值矩阵的耦合系数，表示主胶囊中各个胶囊之间的连接概率；

在步骤S41中，根据公式(14)计算输出向量v_j，

其中，为预设的参数值。在本发明的一个示例中，该参数值可以是1e-7。

在步骤S42中，判断迭代次数是否大于或等于预设值。

在步骤S43中，在判断迭代次数小于预设值的情况下，根据公式(4)和公式(5)更新耦合系数c_ij，

再次根据公式(12)和公式(13)计算文本胶囊的输入s_j(即返回执行步骤S40)，直到判断迭代次数大于或等于预设值。

在步骤S44中，在判断迭代次数大于或等于预设值的情况下，将输出向量v_j作为文本胶囊。

在步骤S14中，根据高层次特征表示确定输入文本被分类至各个类别的分类概率。具体地，可以是将高层次特征表示输入全连接层中以得到分类概率。对于该全连接层，其激活函数可以是例如softmax函数。

在步骤S15中，根据分类概率确定输入文本的分类结果。例如选择概率值最大的类作为最终的分类结果。

另一方面，本发明还提供一种基于多层次特征提取的文本分类模型，如图7所示，该文本分类模型可以包括输入层01、BiGRU层02、权值注意力层03、卷积层04、主胶囊层05、文本胶囊层06以及输出层07。其中，输入层01可以用于将输入文本进行词嵌入操作以获得输入文本的词嵌入矩阵；BiGRU层02可以用于获取词嵌入矩阵的上下文语义信息；权值注意力层03可以用于对上下文语义信息给予不同的关注以得到全局特征；卷积层04、主胶囊层05以及文本胶囊层06可以用于基于全局特征进行高层次特征提取以得到对应的高层次特征表示；输出层07(Dense)则可以用于根据高层次特征表示确定输入文本被分类至各个类别的分类概率，并根据该分类概率确定输入文本的分类结果。由于其中各个层的工作方式在前文中已经详述，故此处不再赘述。

再一方面，本发明还提供一种存储介质，该存储介质可以存储有指令，该指令可以用于被机器读取以使得机器执行如上述任一所述的文本分类方法。

为了进一步验证本发明提供的文本分类方法的技术效果，在采用同样数据集的情况下，分别采用现有技术中常用的TextRNN、GRU-Capule、TextRCNN以及本发明提供的方法(a multi-level feature extraction capsule network model for textclassfication，MLF-CapsNet)进行识别，其结果如表1所示，

表1

其中，精确率、召回率以及F1值均为评价文本识别结果优劣的指标，且该指标越接近1，文本识别结果越准确。

从表1中可以看出，无论是关于汽车评论的文本，还是电信投诉或头条新闻的文本，本发明提供的文本识别方法均优于其余的神经网络模型。

以上结合附图详细描述了本发明例的可选实施方式，但是，本发明实施方式并不限于上述实施方式中的具体细节，在本发明实施方式的技术构思范围内，可以对本发明实施方式的技术方案进行多种简单变型，这些简单变型均属于本发明实施方式的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明实施方式对各种可能的组合方式不再另行说明。

本领域技术人员可以理解实现上述实施方式方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个可以是单片机，芯片等或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外，本发明实施方式的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明实施方式的思想，其同样应当视为本发明实施方式所公开的内容。