CN109062958B

CN109062958B - 一种基于TextRank和卷积神经网络的小学作文自动分类方法

Info

Publication number: CN109062958B
Application number: CN201810671815.0A
Authority: CN
Inventors: 朱晓亮; 刘三女牙; 孙建文; 石昀东
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2018-06-26
Filing date: 2018-06-26
Publication date: 2021-06-11
Anticipated expiration: 2038-06-26
Also published as: CN109062958A

Abstract

本发明属于教育信息化领域，提供一种基于TextRank和卷积神经网络的小学作文自动分类方法，该方法首先使用基于TextRank的关键句提取模型为各类作文提取关键句来去除多余的语义信息，然后使用卷积神经网络提取定长的文本特征向量，用于训练分类器，并用于文本类别的预测。本发明方法事先使用TextRank算法对数据集进行了冗余信息的剔除，较其他深度学习方法减少了长文本的干扰信息；本发明方法特征选取自动完成，较传统机器学习方法提高了效率。

Description

一种基于TextRank和卷积神经网络的小学作文自动分类方法

技术领域

本发明属于教育信息化领域，涉及一种基于TextRank和卷积神经网络的小学作文自动分类方法。

背景技术

众所周知，阅读范文是学生学习写作的重要方法，通过阅读范文能明显提高小学生的写作成绩，故范文素材库的快速构建是实现写作信息化辅助手段的重要环节。

文本分类是自然语言处理领域的一个经典课题，它是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别，随着数据时代的到来，互联网上电子文档的数量大幅增长，文本分类已经成为信息检索和管理的关键技术。目前文本分类研究的主流方向包括如何为文档设计最佳的特征表示方法和对机器学习分类模型的研究。

在文本表示方面，传统的分类模型的表示方法包括词频–逆文档频率(TF-IDF)表示、布尔表示、潜在狄利克雷分配(LDA)表示等，它们都属于向量空间模型(VSM)，这类方法生成的文本向量往往维度太高且具有稀疏性的问题。目前的主流方法为wordembedding及在此基础之上的word2Vec，word embedding是Hinton提出的一种词向量表示方法，它能将文本中的单词分布式的映射成到低维空间，解决了传统向量空间模型的高维稀疏特征问题。Word2Vec是Tomas Mikolov等提出的一个工具包，它既能使用分布式向量对文本进行表示，还能引入传统模型不具有的语义特征，有助于短文本分类。

在分类模型方面，主要有传统机器学习模型和深度学习模型。传统的机器学习分类器包括Logistic回归、随机森林、支持向量机(SVM)等。其优点是模型的结构较为简单，因此可以快速的完成训练过程，且更容易去理解和解释其原理，缺点是其输入特征需要人工去选取，故其效率较低且分类效果受人工因素的影响较大。关于深度学习模型，YKim提出了一种word embedding结合卷积神经网络的方法实现了对句子分类；XiangZhang等提出了一种以字为语义单位的字符级卷积神经网络来实现对文本的分类。

目前关于中文文本分类的研究大部分都是关于情感分类的二分类问题或是对于新闻和微博等语义较为单纯的短文本的分类，它们的一般方法是直接使用数据集去训练分类器，不预先对数据集进行处理，而相较于新闻和微博来说，小学作文类别较多，篇幅更长且语义信息更为丰富，若采用现有方法进行作文分类任务其效果并不会理想。

发明内容

本发明的目的是为了克服上述现有技术中的不足，提出了一种基于TextRank和字符级卷积神经网络的小学作文自动分类方法，本方法事先使用TextRank算法对数据集进行了冗余信息的剔除，减少了长文本的干扰信息；同时，本方法的特征选取自动完成，提高了效率。

为了实现所述目的，本发明提供了一种基于TextRank和卷积神经网络的小学作文自动分类方法，包括以下步骤：

(1)分析小学作文常见的写人、叙事、写景、状物、读后感五类作文的特征，并以此为标准对数据集进行划分；

(2)使用基于TextRank的关键句提取模型为各类作文提取关键句来去除多余的语义信息并将其作为数据集；

(3)在卷积神经网络的第一层，随机初始化数据集中每个字的word embedding，将每条数据中的字映射到其对应的wordembedding组成二维特征矩阵作为卷积神经网络的输入；

(4)在卷积神经网络的第二层，使用一维卷积核与输入文本的特征矩阵进行卷积运算，得到的结果经过非线性变换并加上偏置向后，最终生成和卷积核数量一致的文本的多层局部卷积特征图；

(5)在卷积神经网络第三层，使用max-pooling算法对多层局部卷积特征图进行采样，得到文本的局部最优特征图；

(6)在卷积神经网络的全连接层，将文本的局部最优特征图赋予全连接层，经过全连接层的计算后结果会赋予分类器，用于对文本的类型进行预测并输出最终的分类结果。

本发明的有益效果如下：本发明提出的基于TextRank和卷积神经网络的小学作文自动分类方法，使用TextRank算法对数据集进行了冗余信息的剔除，减少了长文本的干扰信息，使卷积神经网络能够更加准确的学习到各类作文文本的特征；使用文本的每个字的word embedding对文本进行表示，避免了传统方法中文本向量维度太高且具有稀疏性的问题；使用卷积神经网络作为分类器，使特征选取自动完成，提高了效率。

附图说明

图1是本发明提出的基于TextRank和卷积神经网络的小学作文自动分类的流程图。

图2是本发明所使用的卷积神经网络结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

如图1所示，本发明实施例提供了一种基于TextRank和字符级卷积神经网络的小学作文自动分类方法，包括以下步骤：

(1)分析小学作文常见的写人、叙事、写景、状物、读后感五类作文的特征，并以此为标准对数据集进行正确的划分，各类作文的特征分析如表1。

表1.小学各类作文的特征

(2)使用基于TextRank的关键句提取模型为各类作文提取关键句来去除多余的语义信息并将其作为数据集。在使用TextRank模型进行关键句提取时，需要设定一个叫提取率的参数，即为所要提取的关键句句数占数据总句数的百分比，这里将提取率分别设为0.6、0.7、0.8、0.9，测试找出对作文分类任务最佳的提取率。

(3)卷积神经网络的第一层为embedding层，在该层，数据集中出现的每一个字都会被随机初始化一个word embedding，每条数据中的字都会被映射到其对应的wordembedding从而组成二维特征矩阵T∈R^d*v作为卷积神经网络的输入，矩阵的行数d为文本的字数，列数v为word embedding的维度。在训练过程中，会使用随机梯度下降(SGD)方法对word embedding进行更新，使word embedding更适合于具体的分类任务。

(4)卷积神经网络的第二层为卷积层，这里采用的是一维卷积操作，每个卷积核C∈R^h*v的行数为h，列数与文本特征矩阵T相同为v，每个卷积核会从上到下依次与h行v列的文本的特征矩阵块做卷积操作，每一次的输出r_i(i＝1，2……，d-h+1)如式(1)：

r_i＝C*T_i:i+h-1 (式1)

接着输出结果r_i会被加上偏置项b，并使用激活函数进行非线性化处理，这里选择的激活函数为f(x)＝max(0，x)，即ReLu函数，得到结果s_i(i＝1，2……，d-h+1)如式(2):

s_i＝max(0,r_i+b) (式2)

最终会得到d-k+1个结果，这些结果就组成了一张局部卷积特征图特征图S∈R^(d ^-k+1)*1，特征图的总数与卷积核的数量m一样，每张特征图S_j(j＝1，2……，m)如式(3)：

S_j＝[s₁,s₂,s₃......,s_d-h+1] (式3)

其中卷积核矩阵C，全连接层的权值都是在卷积神经网络的训练过程中得到，在训练过程中需要设定一些超参数，具体的设置如表2：

表2.超参数设置

超参数	数值
		word embedding的维度	128
文本的长度	固定为1000个字符
		卷积神经网络的卷积核数目	256
卷积神经网络的学习率	1e<sup>-3</sup>
		卷积神经网络的卷积核尺寸	5
全连接层神经元数目	128
		Dropout比率	0.5

具体的训练过程如下：

A，本实施例所采用的卷积神经网络，在输出层通过softmax分类器对目标文本类别预测一个概率分布P(i)，其具体公式如式(4)：

其中，θ即为卷积神经网络中需要确定的权值的集合，K为所设定种类的数量，即该函数会将在全连接层中计算出的分数映射为关于所有预定义类别的概率分布向量。

B，在对所述卷积神经网络进行训练时，所采用的损失函数为交叉熵函数J(θ)，具体公式如式(5)：

其中t是训练样本的数目，α是正则化因子。

C，基于A、B所述，训练目标函数，批量计算样本的误差，利用梯度下降法和反向传播的方式对神经网络中的权值集合θ进行更新，具体的更新公式为式(6)：

其中λ是学习率。

(5)卷积神经网络第三层为池化层，在该层会提取每张特征图中最大的元素，即max{S_j}并将其组成局部最优特征图P∈R^m*1。通过池化，文本的局部最优特征的提取被提取了出来，特征的维度也得到了降低，大大提升了分类的效率和准确率。

(6)卷积神经网络的第四层为全连接层，该层与池化层全连接，以最优特征图P为输入，采用softmax分类器对向量P进行分类，并输出最终的分类结果。

本实施例采用的环境参数如表3。

表3.实验环境

实验环境	环境配置
		操作系统	Ubuntu16.04.3
Cpu	IntelXeonE7-4820V31.90GHz
		内存	32GB
编程语言	Python3.6.3
		深度学习框架	Tensorflow1.5.0

实验及结果：

本实施例从网络上爬取了共16415篇小学作文，依照表1各类作文的特征，分别筛选出了各类作文3000篇，共15000篇作文，接着对其进行去停用词，去特殊符号的处理，以此作为基础数据集。接着按照每组实验的具体设计，在对基础数据集进行相关预处理后，将预处理后的数据集随机排序后选出数据总数的15％即2250条作为测试集，剩下的数据将其划分为10份，轮流将其中9份作为训练集，1份作为验证集进行10折交叉验证，每次实验的结果选取在验证集上表现最好的模型在测试集上的表现，最终结果是十次实验结果的平均值。

具体的实验效果如表4。

表4.实验结果

模型	TextRank提取率	F1-score均值
			Char-level CNN+TextRank	0.6	87.82％
Char-level CNN+TextRank	0.7	88.47％
			Char-level CNN+TextRank	0.8	89.24％
Char-level CNN+TextRank	0.9	88.45％
			Char-level CNN	-	88.12％

可以看到当TextRank的提取率设为0.8时效果最好，F1-score均值为89.24％，相比不使用TextRank处理的效果提升了1.12％。

综上所述，针对小学作文种类较多且语义信息较为丰富的情况，本文提出了一种基于TextRank和字符级卷积神经网络的小学作文自动分类方法，本方法事先使用TextRank算法对数据集进行了冗余信息的剔除，减少了长文本的干扰信息；较传统机器学习方法，本方法的特征选取自动完成，提高了效率和准确率。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于TextRank和卷积神经网络的小学作文自动分类方法，其特征在于该方法包括以下步骤：

(3)在卷积神经网络的第一层，随机初始化数据集中每个字的word embedding，将每条数据中的字映射到其对应的word embedding组成二维特征矩阵作为卷积神经网络的输入；

2.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法，其特征在于：卷积神经网络的第一层为embedding层，在该层，数据集中出现的每一个字都会被随机初始化一个word embedding，每条数据中的字都会被映射到其对应的wordembedding从而组成二维特征矩阵T∈R^d*v作为卷积神经网络的输入，矩阵的行数d为文本的字数，列数v为word embedding的维度；在训练过程中，使用随机梯度下降方法对wordembedding进行更新。

3.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法，其特征在于：卷积神经网络的第二层为卷积层，采用的是一维卷积操作，每个卷积核C∈R^h*v的行数为h，列数与文本特征矩阵T相同为v，每个卷积核会从上到下依次与h行v列的文本的特征矩阵块做卷积操作，每一次的输出r_i，i＝1，2……，d-h+1，如下式：

r_i＝C*T_i:i+h-1

接着输出结果r_i会被加上偏置项b，并使用激活函数进行非线性化处理，这里选择的激活函数为f(x)＝max(0，x)，即ReLu函数，得到结果s_i，i＝1，2……，d-h+1，如下式:

s_i＝max(0,r_i+b)

最终得到d-h+1个结果，这些结果就组成了一张局部卷积特征图S∈R^(d-h+1)*1，特征图的总数与卷积核的数量m一样，每张特征图S_j，j＝1，2……，m，如下式：

S_j＝[s₁,s₂,s₃......,s_d-h+1]。

4.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法，其特征在于：卷积神经网络第三层为池化层，在该层，提取每张特征图中最大的元素，即max{S_j}并将其组成局部最优特征图P∈R^m*1。

5.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法，其特征在于：卷积神经网络的第四层为全连接层，该层与池化层全连接，以最优特征图P为输入，采用softmax分类器对向量P进行分类，并输出最终的分类结果。