CN109977226A

CN109977226A - 基于卷积神经网络的高精度文本分类方法和系统

Info

Publication number: CN109977226A
Application number: CN201910193637.XA
Authority: CN
Inventors: 于舒娟; 朱弘扬; 汪云霄; 马海斌; 廖许德
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-03-14
Filing date: 2019-03-14
Publication date: 2019-07-05

Abstract

本发明公布了一种基于卷积神经网络的高精度文本分类方法和系统。方法包括：读取数据集进行分词和停用词处理，将处理后的语料库送入统计共现矩阵，训练出词向量，进而保存向量矩阵，最后把矩阵向量集导入卷积神经网络进行分类处理得到预测结果。包括五个步骤：步骤一，将源数据集预处理成为统一格式，再进行分词处理。步骤二，将数据集送入训练glove模型，保存模型；步骤三，将语句以词向量的矩阵形式保存为数据集；步骤四，将数据导入文本分类CNN模型训练；步骤五，用训练好的模型对数据进行分类并与标准进行比对，输出准确度高达99％。

Description

基于卷积神经网络的高精度文本分类方法和系统

技术领域

本发明涉及计算机机器学习领域，尤其是卷积神经网络在高精度文本分类方向的应用。

技术背景

文本分类技术起源于上个世纪50年代末，由美国IBM公司的Luhn提出，他把词频统计的思想运用到了自动分类中，而后Maron于1960年发表了文本分类史上的第一篇论文，同时预示了文本分类技术研究的开始。到了上世纪90年代，因为网络信息技术的极大发展，基于知识工程的技术渐渐赶上了网络在线文本的增长速度。这一现象无形中促进了文本分类技术的提升和转变，使得机器学习方法逐渐成为主流。后来Joachim首次把支持向量机应用到了文本分类的过程中，时期分类性能有了非常大的提高。近些年来随着深度学习的迅猛发展，BP前馈神经网络被应用到文本分类领域。文献[Kim Y.Convolutional neuralnetworks for sentence classification[J].arXiv preprint arXiv:1408.5882,2014.]提出了将CNN应用于情感分析和问题分类问题，取得了很好的效果。Zhou等人提出C-LSTM模型，该模型先利用卷积神经网络提取文本特征，再送入长短期记忆网络(LSTM，Long Short-Term Memory)，考虑了文本结构之间存在的关系，该模型在文本分类上取得了较好的效果。借助大量数据，深度学习模型可以提高特征对文本语义信息的表达能力，有着很好的学习和理解能力。但是在大量文本分类过程中，如何优化网络结构并且提高分类精度一直是需要研究解决的问题。

发明内容

本发明的目的在于解决现有文本分类技术方面的缺陷和不足的技术问题，提供一种基于卷积神经网络的高精度文本分类方法。

本发明通过以下技术方案来实现上述目的：

基于卷积神经网络的高精度文本分类方法，包括：

步骤1：对文本数据预处理：即将本文数据集格式转为统一格式并对其进行分词和停用词处理，得到预处理后的语料库；

步骤2：基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型学习词向量矩阵；

步骤3：构建文本分类卷积神经网络模型基于词向量矩阵训练文本分类卷积神经网络模型；

步骤4：基于测试集数据验证卷积神经网络模型并优化，最终确定文本分类卷积神经网络模型。

在以上技术方案中，步骤1所述对文本数据预处理的具体方法如下：

读取数据集，采用字符串匹配的分词算法、正向最大匹配法、逆向最大匹配法和最少切分方法；通过正则匹配去除文本中的无用字符；

统一数据集文本编码方式为utf-8。

在以上技术方案中，设基于语料库构建词的共现矩阵为X，其元素为X_ij，X_ij表示在整个语料库中，单词i和单词j共同出现在一个特定大小的窗口的次数。

在以上技术方案中，基于共现矩阵和GloVe模型学习词向量矩阵的方法包括以下步骤：

S01：根据两个单词在上下文窗口的距离d，构建衰减函数f，所述衰减函数f的表达式如下：

decay＝1/d，

其中decay为词的权重，d为两个单词在上下文窗口的距离d。

S02：构建GloVe模型的损失函数；

S03：基于共现矩阵输出训练好的词向量矩阵。

在以上技术方案中，所述GloVe模型的损失函数如下，即Glove模型的代价公式为：

其中v_i，v_j是单词i和单词j的词向量，b_i，b_j是两个标量(作者定义的偏差项)，f是权重函数，N是词汇表的大小，共现矩阵维度为N*N。

在另一方面，本发明提供了基于卷积神经网络的高精度文本分类系统，包括：

数据预处理模块，用于将本文数据集格式转为统一格式并对其进行分词和停用词处理，得到预处理后的语料库；

词向量矩阵生成模块：基于语料库构建词的共现矩阵，然后基于共现矩阵和GloVe模型学习词向量矩阵；

文本分类卷积神经网络模型构建模块，用于构建文本分类卷积神经网络模型并基于词向量矩阵训练文本分类卷积神经网络模型；

文本分类卷积神经网络模型验证优化模块：基于测试集数据验证卷积神经网络模型并优化，最终确定文本分类卷积神经网络模型。

本发明所取得的有益技术效果：本发明采用GloVe模型学习词向量矩阵，并采用卷积神经网络完成文本分类，取得了更高精度的分类结果，值得推广使用。

附图说明

图1是本发明具体实施例的方法流程图；

图2是本发明具体实施例的Glove模型的原理图；

图3是本发明具体实施例的文本分类CNN模型的原理图。

具体实施方式

本发明的目的在于解决高精度文本分类过程中的高精度分类问题，因而提出了一种基于卷积神经网络的高精度文本分类方法。

本发明通过以下技术方案来实现上述目的，包括：

步骤1，数据集的预处理，将文本数据集格式化为统一格式，而后进行分词和停用词处理，以便后续操作；

本实施例中步骤1具体包括：

步骤1-1，读取数据集，进行切词处理。本发明中采用了基于字符串匹配的分词算法，混合使用了正向最大匹配法(从左到右的方法)、逆向最大匹配法(从右到左的方向)和最少切分(使每一句中切出的词最少)的算法。

正向最大匹配法，例如语句为“南京是一座文化名城”，使用正向最大匹配法分词的结果就是，“南京/是一/座/文化/名城”；

逆向最大匹配法，则为“南京/是/一座/文化/名城”；

最少切分法，则是“南京/是/一座/文化名城”。

步骤1-2，通过正则匹配去除文本中的无用字符。

步骤1-3，统一数据集文本编码方式为utf-8。

步骤2，统计词共现矩阵，训练词向量。

本发明中用到的词向量化的方法是，Glove算法模型。

Glove模型中输入的是预处理好的语料库，输出的是训练好的词向量矩阵，它的原理就是首先基于语料库构建词的共现矩阵，然后基于共现矩阵和Glove模型学习词向量(原理如图2)。

统计共现矩阵：设共现矩阵为，其元素为X_ij。X_ij的意义是，在整个语料库中，单词i和单词j共同出现在一个特定大小的窗口的次数。一般而言，这个次数的最小单位是1，但是Glove不会这么认为：它根据两个单词在上下文窗口的距离d，提出了一个衰减函数，decay＝1/d用来计算权重，也就是说距离越远的两个单词所占总计数的权重越小。再使用窗口将整个语料库遍历一遍，即可得到共现矩阵X。

使用Glove模型训练词向量的方法如下：

Glove模型的代价公式为：

其中v_i，v_j是单词i和单词j的词向量，b_i，b_j是两个标量(作者定义的偏差项)，f是权重函数，N是词汇表的大小(共现矩阵维度为N*N)。

在本实施例中，具体包括：

步骤2-1，加载20newsgroups数据集的第三个版本18828，不包含重复文档，只有来源和主题。保存类别ID和每个类别的文件数目。统计共现矩阵和训练词向量，并保存训练好的Glove模型。

步骤2-2，处理IMDB影视数据集，该数据集有5万条来自网络电影数据库的评论。IMDB集成在Keras中，经过了预处理。本发明中只需要加载该数据集，设置参数，进行训练。

步骤2-3，处理康奈尔大学电影对白语料库，方法同上。

步骤2-4，处理ling_span垃圾邮件样本数据集，方法同上。

步骤2-5，设置阈值，低于所设置阈值threshold的词，被丢弃，仅留下出现次数大于阈值的词。

步骤2-6，保存Glove向量模型。

步骤2-7，保存词向量矩阵。

步骤3，构建文本分类卷积神经网络模型基于词向量矩阵训练文本分类卷积神经网络模型。

本实施例中的模型是一个多层架构，由卷积层和非线性层交替多次排列后构成，这些层最终通过全连通层对接到softmax分类器上。

1.模型输入:分别用于读取CIFAR数据集的图像并进行预处理，做为后续评估和训练的输入。

2.模型预测:用于进行统计计算，比如在提供的图像进行分类；

3.模型训练:用于计算损失、计算梯度、进行变量更新以及呈现最终结果。

步骤3，训练文本分类卷积神经网络模型。

步骤3包括以下步骤：

步骤3-1，搭建文本分类CNN模型：

步骤3-2，写一个TextCNN类，实例化这个类，定义以下参数：

(1)sequence_len,句子的长度。设置所有句子的长度均为300，不足300者用空字符补全。

(2)num_classes，输出层中的分类数目。

(3)embedding_size,嵌入的向量维度。

(4)filter_sizes,卷积滤波器覆盖的字数。例如，[3,4,5]意味着我们将有过滤器分别滑过3,4和5个单词，总共3*num_filters过滤器。

(5)num_filters，每个不同尺寸的过滤器的数目。

(6)l2_reg_lambda，2正则权值。

步骤3-2，Input Placeholders，即输入层。创建Placeholders变量，作为训练的输入和测试的输入。

步骤3-3，Embedding Layer，嵌入层。将单词向量向更低维度向量表示。

步骤3-4，Convolution and Max-Pooling Layers，即卷积层和池化层。首先开始构建卷积层，再进行最大值池化。由于每个卷积产生不同形状的张量，因此为他们中的每一个创建一个层，然后合并结果为一个大的特征向量。

步骤3-5，Dropout层,即输出层。Dropout层随机“禁用”神经元的一部分，这可以防止神经元共同适应并迫使他们独立学习有用的特征。神经元中启用的比例是由初始化参数中的dropout_keep_prob决定的，训练时我们将它定义为0.1，而在测试时定义为1(禁用Dropout)。

步骤3-6，评估和预测。使用从max-pooling中得到的特征向量(带Dropout)，我们可以通过矩阵乘法生成预测并选择得分最高的分类，我们使用softmax将原分数转换为归一化概率，但它并不会改变预测结果。其中，tf.nn.xw_plus是一个实现Wx+b矩阵乘法的一个封装方法。

步骤3-7，loss和准确率计算。我们可以使用步骤3-6得到的score来定义lossfunction。分类问题的标准损失方程为交叉熵损失方程。其中，tf.nn.softmax_cross_entropy_with_logits是一个对每个分类计算交叉熵损失的封装方法，通过score和正确分类作为参数，我们可以得到每一类的loss，对其求平均值，可以得到平均损失，同时也定义了准确率函数。

步骤3-8，模型训练。

步骤4，评估分类结果，在NVIDIA Tesla K40C上经过五分钟左右的训练后，该模型达到了最高99％以上的精度。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.基于卷积神经网络的高精度文本分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的文本分类方法，其特征在于，步骤1所述对文本数据预处理的具体方法如下：

统一数据集文本编码方式为utf-8。

3.根据权利要求1所述的文本分类方法，其特征在于，设基于语料库构建词的共现矩阵为X，其元素为X_ij，X_ij表示在整个语料库中，单词i和单词j共同出现在一个特定大小的窗口的次数。

4.根据权利要求3所述的文本分类方法，其特征在于，基于共现矩阵和GloVe模型学习词向量矩阵的方法包括以下步骤：

decay＝1/d，

其中decay为词的权重，d为两个单词在上下文窗口的距离d；

S02：构建GloVe模型的损失函数；

S03：基于共现矩阵输出训练好的词向量矩阵。

5.根据权利要求4所述的文本分类方法，其特征在于，所述GloVe模型的损失函数如下：

其中v_i，v_j是单词i和单词j的词向量，b_i，b_j是两个标量，f是权重函数，N是词汇表的大小，共现矩阵维度为N*N。

6.基于卷积神经网络的高精度文本分类系统，其特征在于，包括：