CN111737470B

CN111737470B - 文本分类方法

Info

Publication number: CN111737470B
Application number: CN202010595117.4A
Authority: CN
Inventors: 刘云翔; 徐齐; 原鑫鑫; 张国庆; 唐泽莘
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2024-04-16
Anticipated expiration: 2040-06-24
Also published as: CN111737470A

Abstract

本发明提供了一种文本分类方法，方法首先对带标签的文本数据进行清洗，分数据集；然后将文本序列映射为文本向量S；并将文本向量S输入到双向LSTM网络中得到与文本向量S维度相同的文本向量S1、S2，由文本向量S、S1、S2计算得到文本向量S_w。最后，将句子S_w输入到神经网络中按照预设的超参数训练模型，根据模型在验证集上的表现选取最优的模型。本发明利用LSTM网络获取全局文本信息，并通过加权求和方式得到包含全局信息的文本向量S_w，实验结果显示，该模型取得了较好的分类精度。

Description

文本分类方法

技术领域

本发明涉及一种文本分类方法。

背景技术

文本分类在信息处理中占据着重要的地位，随着互联网的发展海量的文本数据不断产生，这些文本数据中存在着大量的信息，利用有效的方法对这些信息进行有效的管理和提取对企业和社会信息技术发展有着重大作用。

目前，深度学习技术被广泛的应用在文本分类任务上。

具体来说，Kim等人将CNN应用在文本分类任务上，利用卷积层获取局部的文本信息。但卷积网络无法很好的利用文本的序列信息。

之后人们将RNN以及在RNN基础上改进的LSTM网络应用在文本分类任务上取得了更好的分类效果。但是，由于人类语言存在的歧义性，相同的词在不同的上下文语意中有着不同的含义。传统的RNN、LSTM网络按照文本序列处理文本信息忽略了后文信息对当前词义的影响。

发明内容

本发明的目的在于提供一种文本分类方法。

为解决上述问题，本发明提供一种文本分类方法，包括：

步骤S1，对带标签的文本数据进行清洗，对清洗后的带标签的文本数据划分训练数据集和验证集；

步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列；

步骤S3，构建词向量字典；

步骤S4，基于所述词向量字典，将所述单词索引序列映射为文本向量S；

步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2；

步骤S6，由文本向量S和文本全局信息向量S1、S2计算得到文本向量S_w；

步骤S7，利用改进的CNN网络模型提取文本向量S_w中的文本类别信息，以输出文本类别；

步骤S8，根据文本数据的标签和改进的CNN网络模型输出的文本类别和计算损失函数；

步骤S9，重复步骤S2～步骤S8，以批量输入训练数据，使用批量梯度下降算法优化损失函数；

步骤S10，根据改进的CNN网络模型在所述验证集上的表现，选取最优的改进的CNN网络模型作为最终的模型。

进一步的，在上述方法中，对带标签的文本数据进行清洗，包括：

对带标签的文本数据去除多余的符号，保留词语间的空格和预设的必要的标点符号、单词，并将标签用one-hot向量表示。

进一步的，在上述方法中，步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列，包括：

首先按照训练数据集中的文本数据的单词频率为每个单词进行编号，然后取前num个频率最高的单词，将用对应的编号分别替换前num个频率最高的单词得到替换后的数据集，其中，num为正整数；

将替换后的数据集中的文本截取或填充为相同长度，该长度设置为平均长度，计算公式为：

其中，n表示数据集大小、S_i表示第i个句子、len(S_i)表示句子S_i的长度。

进一步的，在上述方法中，步骤S3，构建词向量字典，包括：

使用glove预训练词向量或者Word2Vec工具获取单词对应的维度为dim的词向量。

进一步的，在上述方法中，步骤S4，基于所述词向量字典，将所述单词索引序列映射为文本向量S，包括：

构建维度为num*dim的Embedding矩阵，并使用所述Embedding矩阵初始化模型Embedding层，当单词索引序列输入Embedding层后得到文本向量S，其中，dim为正整数。

进一步的，在上述方法中，步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2，包括：

将所述文本向量S以顺序和逆序的方式输入LSTM网络得到S1、S2向量。

进一步的，在上述方法中，步骤S6，由文本向量S和文本全局信息向量S1、S2计算得到文本向量S_w，包括：

使用权重矩阵W_S、W_S1、W_S2分别对文本向量S和文本全局信息向量S1、S2进行加权求和，得到文本向量Sw，其中，W_S、W_S1、W_S2为dim*dim的方阵，其中，dim为正整数。

进一步的，在上述方法中，利用改进的CNN网络模型提取文本向量S_w中的文本类别信息，以输出文本类别，包括：

使用维度为3*dim过滤器提取文本向量S_w中的文本特征，然后使用前馈神经网络代替Pooling层，使用Relu作为神经网络的激活函数，使用dropout作为正则化方法，最后使用sotfmax层将输入映射为类别概率，以输出文本类别。

进一步的，在上述方法中，所述损失函数计算公式为：

其中，批量大小batch-size＝128，y为数据标签。

与现有技术相比，传统的RNN、LSTM网络按照文本序列处理文本信息忽略了后文信息对当前词义的影响，所以本发明的文本分类方法考虑到全局信息。本发明利用LSTM网络获取全局文本信息，并通过加权求和方式得到包含全局信息的文本向量S_w，实验结果显示，该模型取得了较好的分类精度。本发明解决了现有文本分类技术中存在的对文本全局信息利用不足的情况，提高了文本分类的精度。

附图说明

图1为本发明一实施例提供的文本分类模型流程图；

图2为本发明一实施例提供的词向量的获取方法的结构示意图；

图3为本发明一实施例提供的获取向量S1、S2的结构示意图；

图4为本发明一实施例提供的获取向量S_w方法的结构示意图；

图5为本发明一实施例提供的用于分类的卷积神经网络的结构示意。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种文本分类方法，包括：

步骤S3，构建词向量字典；

步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2；

在此，模型训练的迭代次数epochs＝1000。每次更新参数后将在验证集上评估模型性能，选取最优的模型作为最终的模型。

传统的RNN、LSTM网络按照文本序列处理文本信息忽略了后文信息对当前词义的影响，所以本发明的文本分类方法考虑到全局信息。本发明利用LSTM网络获取全局文本信息，并通过加权求和方式得到包含全局信息的文本向量S_w，实验结果显示，该模型取得了较好的分类精度。本发明解决了现有文本分类技术中存在的对文本全局信息利用不足的情况，提高了文本分类的精度。

本发明的文本分类方法一实施例中，步骤S1，对带标签的文本数据进行清洗，包括：

本发明的文本分类方法一实施例中，步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列，包括：

具体的，例如，可以根据频率将文本数据中的词编号，取前15000个频率最高的常用词，并用对应的编号分别代替15000个频率最高的常用词；将数据集中的文本截取或填充为相同长度，该长度设置为平均长度，计算公式为：

本发明的文本分类方法一实施例中，步骤S3，构建词向量字典，包括：

具体的，可以加载Glove预训练词向量，将词向量维度设置为100维，得到数据集中单词对应的词向量。

本发明的文本分类方法一实施例中，步骤S4，基于所述词向量字典，将所述单词索引序列映射为文本向量S，包括：

具体的，可以如图2构建维度为15000*100的Embedding矩阵，将单词索引序列输入到用Embedding矩阵初始化的Embedding层得到句子向量S，并在模型训练过程中微调Embedding层参数。

本发明的文本分类方法一实施例中，步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2，包括：

在此，如图3所示，将文本向量S输入到双向LSTM网络中得到向量S1、S2。

本发明的文本分类方法一实施例中，步骤S6，由文本向量S和文本全局信息向量S1、S2计算得到文本向量S_w，包括：

使用权重矩阵W_S、W_S1、W_S2分别对文本向量S和文本全局信息向量S1、S2进行加权求和，得到文本向量Sw，其中，W_S、W_S1、W_S2为dim*dim的方阵。

具体的，如图4将S、S1、S2分别乘以权重矩阵W_S、W_S1、W_S2再求和得到文本向量S_W，其中W_S、W_S1、W_S2为100*100维矩阵。

本发明的文本分类方法一实施例中，步骤S7，利用改进的CNN网络模型提取文本向量S_w中的文本类别信息，以输出文本类别，包括：

在此，将步骤6得到的文本向量S_w输入到如图5所示CNN分类网络，CNN网络的Fi1ter大小为3*100，由于Pooling层会丢失许多重要信息，所以我们使用两层前馈神经网络代替，最后使用Softmax层将输入映射为对应的类别概率向

本发明的文本分类方法一实施例中，步骤8中，所述损失函数计算公式为：

其中，批量大小batch-size＝128，y为数据标签。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种文本分类方法，其特征在于，包括：

步骤S3，构建词向量字典；

步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2；

步骤S8，根据文本数据的标签和改进的CNN网络模型输出的文本类别，计算损失函数；

步骤S10，根据改进的CNN网络模型在所述验证集上的表现，选取最优的改进的CNN网络模型作为最终的模型；

步骤S5，基于所述文本向量S，获取文本全局信息向量S1、S2，包括：

将所述文本向量S以顺序和逆序的方式输入LSTM网络得到S1、S2向量；

步骤S6，由文本向量S和文本全局信息向量S1、S2计算得到文本向量S_w，包括：

使用权重矩阵W_S、W_S1、W_S2分别对文本向量S和文本全局信息向量S1、S2进行加权求和，得到文本向量Sw，其中，W_S、W_S1、W_S2为dim*dim的方阵，其中，dim为正整数；

利用改进的CNN网络模型提取文本向量S_w中的文本类别信息，以输出文本类别，包括：

使用维度为3*dim过滤器提取文本向量S_w中的文本特征，然后使用前馈神经网络代替Pooling层，使用Relu作为神经网络的激活函数，使用dropout作为正则化方法，最后使用sotfmax层将输入映射为类别概率，以输出文本类别；

所述损失函数计算公式为：

其中，批量大小batch-size＝128，y为数据标签。

2.如权利要求1所述的文本分类方法，其特征在于，对带标签的文本数据进行清洗，包括：

3.如权利要求1所述的文本分类方法，其特征在于，步骤S2，统计训练数据集中的文本数据，然后将文本数据中文本序列替换为单词索引序列，包括：

将替换后的数据集中的文本截取或填充为相同长度，该长度设置为平均长度，计算公式为:

4.如权利要求1所述的文本分类方法，其特征在于，步骤S3，构建词向量字典，包括：

5.如权利要求1所述的文本分类方法，其特征在于，步骤S4，基于所述词向量字典，将所述单词索引序列映射为文本向量S，包括：