CN111651602A

CN111651602A - 一种文本分类方法及系统

Info

Publication number: CN111651602A
Application number: CN202010492419.9A
Authority: CN
Inventors: 时翔; 蔡丽君
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2020-06-03
Filing date: 2020-06-03
Publication date: 2020-09-11

Abstract

本发明公开了一种文本分类的方法及文本分类系统，其中主要内容包括：首先对分类数据进行预处理，然后由于计算机无法识别自然语言，计算机只能识别特定的数字符号，为了将自然语言转换为机器能处理的符号，采用训练词嵌入矩阵的方法进行文本表示，将自然语言字符转换为词向量，能够使语义相近的词保持较高的相似度，生成高质量的词组特征，并基于上述方式得到的词向量使用训练好的深度学习模型，对待分类文本进行分类处理，确定待分类文本的类别。

Description

一种文本分类方法及系统

技术领域

本发明涉及自然语言处理领域，具体涉及根据文本语义特征和文本句间依赖关系，来对待分类文本进行分类。

背景技术

文本分类是根据文本特征进行分类规则的设定，来对文本进行自动分类。宏观上来说就是构建文本信息与分类类别的映射关系。针对文本分类其主要步骤分为文本信息预处理，文本表达，文本特征选择，分类器构建。其中最重要的就是文本特征选择和分类方法的构建。

分类算法主要分为三类：无监督，半监督，有监督的文本分类。无监督的文本分类的方法主要是通过文本聚类，种子词匹配等方式，对没有标注过的文本信息进行分类，这样的方式减少人工标注的工作量；半监督文本分类只利用少量的标注数据和大量无监督的数据进行分类模型的建立；有监督的方式需要大量的标注数据，但是精度远远高于前两者，信息时代的到来，这给有监督的分类方法提供了很好的数据基础。同时，随着计算机硬件与运算能力的不断提高，深度学习作为有监督机器学习的重要分支，在文本分类现在大放异彩。

深度学习能够通过构建不同的神经元，以不同形式的拓扑结构进行组合，达到提取数据深层特征的目的，这样的方式我们只需要对关注如何将更多的信息丢入到我们的网络结构中，不用花费更多的精力在抽取规则的建立，这是一种十分方便且快速的方法。目前深度学习的方法在新闻文本分类的主要的技术为卷积神经网络(CNN)，循环神经网络(RNN)。卷积神经网络通过对卷积和池化的操作对输入的文本信息进行局部信息的提取，来构建高层语义特征然后进行分类；对于循环神经网络，擅长处理序列数据，通过上一个时刻的状态和这一时刻的输入来预测下一阶段的新的状态，这样能够文本长度不要求，同时能够将整个句子的信息进行获取，输出最后文本序列预测的结果，但是单纯这样的结构存在最明显的问题，由于句子长度的增加，这样会导致梯度消失或者梯度爆炸等问题，这对这样的现象，LSTM(Long short–Term Memory)是当前主要的循环神经网络的算法，他利用门控存储结构来解决梯度不稳定和长距离依赖问题。在前面的研究基础上，自注意力机制的提出，为CNN和RNN的结构增加更多的可解释性以及更高的精度。自注意力机制其主要思想就是构建的序列中每个元素都需要和整个序列的元素进行关系建模，他能够更好的捕捉序列中每个元素之间的关系，并且对于他们的距离不敏感。在这些方法的基础上衍生除了很多的改进基于LSTM的GRU，在注意力机制上实现了多重注意力机制等。这些都在文本分类上取得了很好的结果。

因此针对单个深度学习模型对文本特征提取的局限性，比如卷积神经网络不能考虑句间依赖关系，循环神经网络不能考虑文本语义特征，都将导致文本分类的精确率下降。

发明内容

本发明提出一种文本分类方法对文本特征向量进行高层次特征提取，通过Word2vec获得的词嵌入分两步走，一部分使用CNN模型进行多尺度卷积计算，来获取单词与单词之间的特征关系，抽取长距离的文本间依赖关系，获取文本的语义信息，另一部分使用LSTM网络进一步学习到短语间的长短依赖关系。将获取到的词嵌入丢入LSTM中，每个词作为一个时序状态，根据语序将整个文本进行排列，经过LSTM的特征利用attention机制进行更深层次的全局信息捕捉，然后利用全连接将获取到的特征进行展开，最后将两个部分的特征进行整合，作为模型分类器的输入，使用此模型能充分提取文本词间特征和句间特征。

根据本发明实施的一个方面，提供CNN模型进行特征提取，其流程如下：

(1)输入层：通过词向量word embedding将自然语言中的字词转为计算机理解的稠密向量Dense Vector，本发明即是使用Word2vec直接对交通事故文本进行处理，训练好得到词向量，词向量的每一行代表文本中单个词的词向量，由句子中所有单词拼接得到矩阵，作为CNN模型的输入。

(2)卷积层：卷积层是由若干个卷积单元组成，每个卷积单元的参数都是通过反向传播算法得到优化，卷积计算的目的是提取不同输入的不同特征，不同大小的核决定了卷积的感受野，理论上越大的卷积核越能过获得更多的信息，但是计算量较大，为了获取更大更深的特征，同时减少计算量，本发明选择了四个卷积(5，7，9，11)进行多尺度的卷积，利用卷积的可乘性，通过堆叠多次卷积进行计算来完成更大感受野的特征。

(3)池化层：池化层负责对特征进行压缩，目的是提取句子的主要特征，在进行了多次卷积计算后利用全局最大池化，获取到每个特征图上的信息，这样减少了对于矩阵补零操作的噪声影响，同时对获取到的特征进行更高层次的表示。通过池化层可以解决可变长度的句子输入问题，输出每个特征映射向量中的最大值[3]。本章通过最大值下采样(Max-Pooling)法，使用pooling操作提取出通过卷积运算得到的列向量中的最大值，以达到压缩数据核参数的量和减少过拟合现象，提高模型的泛化能力。

(4)全连接+softmax层：在进行全局最大池化后，将提取的特征进行非线性组合来得到输出，将输出的文本特征向量和LSTM输出的文本特征向量进行结合，将输出的文本特征向量丢入Softmax分类器进行概率类别的预测，得到分类结果。

根据本发明实施的另外一个方面，实现了基于LSTM+Attention的文本分类模型，该模型主要包括Embedding层，特征提取层，全连接以及分类层。

第一层为Embedding层，主要是将文本编码成词向量。经过这样的处理，我们会得到一个固定长度的词向量，这样方便将我们的文本信息转化为可计算的数字信息，以便进行相应的数值特征计算。

第二层为特征提取层，首先对于基础的LSTM模型，我们进行了多层LSTM，在保证精度和计算复杂的情况下，我们进行层数为1,2,3,4层的设定，同时将LSTM的神经元个数设为128，在层数为2时，已经能够保证良好的精度并且计算量也较小。在多层LSTM的基础上将文本信息通过时序信息捕捉的方式进行提取。

因为LSTM在长输入的序列中表现不是那么显著，为了避免提取到的浅层特征陷入局部判定的困境，对提取到的浅层信息结合Attention机制，将每个信息与全局信息进行关联，然后对每个输入特征进行权重赋值，来捕捉更深层次的信息，达到更好的分类精度。

第三层为全连接层，将获取到的特征进行特征降维，为了避免过拟合现象，在全连接层中使用Dropout，以一定几率随机激活全连接层中的神经元。

第四层为分类器层。利用Softmax函数对提取到的特征进行类别判定实现文本分类。

附图说明：

为了更清楚的说明本发明提出的文本分类方法，此处添加一些处理流程图和模型结构图来帮助理解。

图1为本发明实施例中文本分类方法的分类流程框架示意图

图2为本发明实施例中文本分类混合模型结构示意图

图3为本发明实施例中卷积神经网络模型流程示意图

具体实施方式

本发明实施了基于本发明使用的文本分类方法的文本分类系统，根据前期自己收集的语料训练生成分类模型，然后对文本进行预测，得到其分类模型。

为了更好的理解本发明的内容，接下来结合本发明设计的附图对本发明的设计方案和步骤进行描述。

据图1，本发明实施的一种文本分类方法，包括：

101，对训练样本进行预处理操作；

本实例操作中，在将文本转换为特征向量时，必须先进行特殊符号和停用词的去除过程，减少文本的冗余信息，对文本分类结果造成干扰，浪费存储资源。

102，文本表示，生成词向量；

本实例操作中，首先根据得到的训练语料构建词汇表，再根据词汇表使用Word2vec工具将文本转换机器可识别字符，即特征向量转换。

103，特征降维，提取重要特征，忽略其他特征；

文本的特征有许多，比如语义特征、文本长度、文本使用词语、句间特征等，考虑的因素众多，很难将每个特征都提取出来，本发明使用特征降维的方式，进行特征融合和主要特征的凸显。

104，性能评价，评价文本分类方法的好坏；

文本分类领域常用的评价指标主要有三个，分别为准确率、召回率和衍生评价指标F1值，其计算公式和分别每个参数的意义如下：

(1)精确率(Precision)：正确分类的正例个数占分类为正例的实例个数的比例，衡量的是查准率。公式如下所示：

(2)召回率(Recall)：指正确分类的正例个数占实际正例个数的比例，衡量的是查全率。公式如下所示：

(3)F1-Score：在Precision和Recall的基础上提出了F1值的概念，来对Precision和Recall进行整体评价。公式如下所示：

其中TP表示实例是正类，被预测为正类的样本数，即为真正类(True Positive)，FN表示实例是正类，被预测为负类的样本数，即为假负类(False Negative)，FP表示实例是负类，被预测为正类的样本数，即为假正类(False Positive)，TN表示实例是负类，被预测为负类的样本数，即为真负类(True Negative)。

105，分类器，对模型输出结果进行分类；

经过前几步操作后，由201得到的向量分别输入到分类模型中，一部分输入到卷积神经网络中，得到文本语义特征；另一部分输入到循环神经网络中，得到句间依赖关系，最后通过注意力机制，关注主要信息，输出最后的特征到分类器中。

202，卷积神经网络的卷积层；

在卷积神经网络的卷积层中，经过多层卷积，对文本局部信息进行捕获，每个卷积核计算完成之后我们就得到了1个列向量，代表着该卷积核从句子中提取出来的特征。有多少和卷积核就能提取出多少种特征，即图中在纵深方向上channel的数量。

203，卷积神经网络的池化层；

文中提到pooling操作就是将卷积得到的列向量的最大值提取出来。这样pooling操作之后我们会获得一个num_filters维的行向量，即将每个卷积核的最大值连接起来。这样做还有一个好处就是，如果我们之前没有对句子进行padding操作，那么句子的长度是不同的，卷积之后得到的列向量维度也是不同的，可以通过pooling来消除句子之间长度不同的差异。

204，卷积神经网络的全连接层；

全连接层，为了将pooling层输出的向量转化为我们想要的预测结果，加上一个softmax层即可。针对电影评价的分类任务，就是将其转化为正面、负面两个结果。文中还提到了过拟合的问题，因为实验中所使用的数据集相对较小，很容易就会发生过拟合现象，本发明引如dropout来减少过拟合现象。

205，循环神经网络模型；

本发明的另外一部分训练数据，通过循环神经网络，提取出文本中长短句间依赖关系，获得文本句间特征，然后通过注意力机制，捕获局部信息中的主要特征，最后丢入全连接层中。

208，分类器，Softmax分类器；

本发明使用的是Softmax分类器，将通过分类模型得到的文本特征进行处理，应用softmax函数来将原始分数转换成归一化概率，至此，可以对分类文本进行预测。

可选的，本发明的一些实例中，包括：

本发明整理出包括车、车祸、交通事故、事故、受伤、失事、出事、意外、死亡、去世、逝世、丧命、丧生、遇害、遇难、相撞、追尾、被撞、侧翻、翻车、侧滑、自燃等23个与道路交通事故事件发生紧密相关的关键词去搜集的如新浪新闻，腾讯新闻等30个新闻网站中爬取的8000多个文本，使用训练好的分类模型进行分类，最后得到精确率为84％，召回率为87％，F1值为86％。

以上所述，为本发明的技术方案说明。对于本技术领域的其他技术人员而言，可以在不脱离发明原理的前提下，参照前述实例对本发明进行改进和修改，而相应更改的技术方案不应该脱离本发明的保护范围。

Claims

1.一种文本分类方法。其特征在于，包括：

通过对文本进行预处理，得到待分类文本，主要从以下两个方面来对文本进行处理：特殊符号的去除、去停用词；

将预处理得到的待分类文本，根据从训练文本中得到的词汇表，通过使用词嵌入工具，将自然语言处理字符转换为字符表示的词向量；

将上述得到的词向量，使用训练好的深度学习模型进行处理，确定待分类文本的类别。

2.根据权利要求1所述的文本分类的方法，其特征在于，特殊符号的去除及去停用词，包括：

特殊符号的去除，从互联网下载的文本或者从网页提取的内容中，经常包括一些特殊符号，对文本的内容表述没有任何影响，本发明使用此“[\n`～！@#$％^&*@#￥％……&*()——+|{}【】‘；：”“’。，、？]”正则表达式去除待分类文本中的特殊符号。

去停用词，去除停用词可以减少文本冗余使文本分类更加准确，如果文档中存在大量停用词容易对文本中的有效信息造成噪音干扰，去除停用词策略能节省储存空间和计算时间并且不影响分类的准确度。本发明去除的停用词主要包括自己收集的包括语气助词、副词、介词、连接词等，这些词自身并无明确的意义，出现频率又极高，如常见的“的”、“在”、“之”等。在进行特征提取过程时，去除停用词表中出现的词，这部分操作也属于特征选择的一部分。

3.根据权利要求2所述的文本分类的方法，其特征在于，根据所述预处理步骤后的文本，构建词汇表和使用词嵌入工具，包括：

构建词汇表，词汇表的构建直接影响词向量的特征提取准确度，并且方便构造相同维度的特征向量，词汇表是在文本中出现的单词列表，为了构建自己的词汇表语料，本发明对所有类别的训练语料，使用python中的Counter工具包，进行词频统计，保留5000个高频词汇作为词汇表。

使用词嵌入工具构建词向量，本发明使用Word2vec中的Skip-gramModel(Skip-gram)训练词嵌入矩阵的方法进行文本表示，此方法能够使语义相近的词保持较高的相似度，生成高质量的词组特征，根据使用的数据文本长度，Skip-gram模型是一个带有单层隐藏层的简单神经网络，通过训练该网络得到隐藏层的权重，这些权重就是希望学习的词向量。本发明根据所有文本数据的平均长度，确定输出的向量维度为600，超过600的文本，取后600个词，不足此长度的文本在后面补0，将由Skip-gram模型训练得到的词向量存储在一个词嵌入矩阵E∈R^nx|V|中，其中|V|表示词汇表的大小，n为词向量维度。假设一个语句X包含有j个词，则此语句可以表示为X_[1:j]，每个词语在词嵌入矩阵E中都有唯一的用于检索其对应词向量的索引k，句子中第i个词的词向量用x_i表示：

x_i＝Eb_k 公式(4-1)

其中，b_k是一个维度为词表大小，值为0或1的二值向量，除了第k个索引之外的所有位置都是0。则一个分词后的中文句子可以用矩阵X表示，计算公式如下：

X＝(x₁，x₂，...，x_j) 公式(4-2)

4.根据权利要求3所述的文本分类方法，其特征在于，根据得到的词向量，采用卷积神经网络和循环神经网络引入注意力机制的混合模型对所述待分类文本进行分类，得到文本的分类结果。

5.根据权利要求4所述的文本分类方法，其特征在于，实验模型参数的调整，针对多卷积选择，做了单个卷积核大小为3，5，7，9，11，13的实验，在词嵌入大小为128的基础上，选择了四个卷积表现最好的(5，7，9，11)进行多尺度的卷积结果，然后把每个卷积的结果连接，每个卷积核的个数经过试验设置为64，词嵌入大小进行不同大小的控制实验，在64，128，256，512中选择256。