CN109062958B - 一种基于TextRank和卷积神经网络的小学作文自动分类方法 - Google Patents

一种基于TextRank和卷积神经网络的小学作文自动分类方法 Download PDF

Info

Publication number
CN109062958B
CN109062958B CN201810671815.0A CN201810671815A CN109062958B CN 109062958 B CN109062958 B CN 109062958B CN 201810671815 A CN201810671815 A CN 201810671815A CN 109062958 B CN109062958 B CN 109062958B
Authority
CN
China
Prior art keywords
neural network
convolutional neural
layer
textrank
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810671815.0A
Other languages
English (en)
Other versions
CN109062958A (zh
Inventor
朱晓亮
刘三女牙
孙建文
石昀东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201810671815.0A priority Critical patent/CN109062958B/zh
Publication of CN109062958A publication Critical patent/CN109062958A/zh
Application granted granted Critical
Publication of CN109062958B publication Critical patent/CN109062958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明属于教育信息化领域,提供一种基于TextRank和卷积神经网络的小学作文自动分类方法,该方法首先使用基于TextRank的关键句提取模型为各类作文提取关键句来去除多余的语义信息,然后使用卷积神经网络提取定长的文本特征向量,用于训练分类器,并用于文本类别的预测。本发明方法事先使用TextRank算法对数据集进行了冗余信息的剔除,较其他深度学习方法减少了长文本的干扰信息;本发明方法特征选取自动完成,较传统机器学习方法提高了效率。

Description

一种基于TextRank和卷积神经网络的小学作文自动分类方法
技术领域
本发明属于教育信息化领域,涉及一种基于TextRank和卷积神经网络的小学作文自动分类方法。
背景技术
众所周知,阅读范文是学生学习写作的重要方法,通过阅读范文能明显提高小学生的写作成绩,故范文素材库的快速构建是实现写作信息化辅助手段的重要环节。
文本分类是自然语言处理领域的一个经典课题,它是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别,随着数据时代的到来,互联网上电子文档的数量大幅增长,文本分类已经成为信息检索和管理的关键技术。目前文本分类研究的主流方向包括如何为文档设计最佳的特征表示方法和对机器学习分类模型的研究。
在文本表示方面,传统的分类模型的表示方法包括词频–逆文档频率(TF-IDF)表示、布尔表示、潜在狄利克雷分配(LDA)表示等,它们都属于向量空间模型(VSM),这类方法生成的文本向量往往维度太高且具有稀疏性的问题。目前的主流方法为wordembedding及在此基础之上的word2Vec,word embedding是Hinton提出的一种词向量表示方法,它能将文本中的单词分布式的映射成到低维空间,解决了传统向量空间模型的高维稀疏特征问题。Word2Vec是Tomas Mikolov等提出的一个工具包,它既能使用分布式向量对文本进行表示,还能引入传统模型不具有的语义特征,有助于短文本分类。
在分类模型方面,主要有传统机器学习模型和深度学习模型。传统的机器学习分类器包括Logistic回归、随机森林、支持向量机(SVM)等。其优点是模型的结构较为简单,因此可以快速的完成训练过程,且更容易去理解和解释其原理,缺点是其输入特征需要人工去选取,故其效率较低且分类效果受人工因素的影响较大。关于深度学习模型,YKim提出了一种word embedding结合卷积神经网络的方法实现了对句子分类;XiangZhang等提出了一种以字为语义单位的字符级卷积神经网络来实现对文本的分类。
目前关于中文文本分类的研究大部分都是关于情感分类的二分类问题或是对于新闻和微博等语义较为单纯的短文本的分类,它们的一般方法是直接使用数据集去训练分类器,不预先对数据集进行处理,而相较于新闻和微博来说,小学作文类别较多,篇幅更长且语义信息更为丰富,若采用现有方法进行作文分类任务其效果并不会理想。
发明内容
本发明的目的是为了克服上述现有技术中的不足,提出了一种基于TextRank和字符级卷积神经网络的小学作文自动分类方法,本方法事先使用TextRank算法对数据集进行了冗余信息的剔除,减少了长文本的干扰信息;同时,本方法的特征选取自动完成,提高了效率。
为了实现所述目的,本发明提供了一种基于TextRank和卷积神经网络的小学作文自动分类方法,包括以下步骤:
(1)分析小学作文常见的写人、叙事、写景、状物、读后感五类作文的特征,并以此为标准对数据集进行划分;
(2)使用基于TextRank的关键句提取模型为各类作文提取关键句来去除多余的语义信息并将其作为数据集;
(3)在卷积神经网络的第一层,随机初始化数据集中每个字的word embedding,将每条数据中的字映射到其对应的wordembedding组成二维特征矩阵作为卷积神经网络的输入;
(4)在卷积神经网络的第二层,使用一维卷积核与输入文本的特征矩阵进行卷积运算,得到的结果经过非线性变换并加上偏置向后,最终生成和卷积核数量一致的文本的多层局部卷积特征图;
(5)在卷积神经网络第三层,使用max-pooling算法对多层局部卷积特征图进行采样,得到文本的局部最优特征图;
(6)在卷积神经网络的全连接层,将文本的局部最优特征图赋予全连接层,经过全连接层的计算后结果会赋予分类器,用于对文本的类型进行预测并输出最终的分类结果。
本发明的有益效果如下:本发明提出的基于TextRank和卷积神经网络的小学作文自动分类方法,使用TextRank算法对数据集进行了冗余信息的剔除,减少了长文本的干扰信息,使卷积神经网络能够更加准确的学习到各类作文文本的特征;使用文本的每个字的word embedding对文本进行表示,避免了传统方法中文本向量维度太高且具有稀疏性的问题;使用卷积神经网络作为分类器,使特征选取自动完成,提高了效率。
附图说明
图1是本发明提出的基于TextRank和卷积神经网络的小学作文自动分类的流程图。
图2是本发明所使用的卷积神经网络结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
如图1所示,本发明实施例提供了一种基于TextRank和字符级卷积神经网络的小学作文自动分类方法,包括以下步骤:
(1)分析小学作文常见的写人、叙事、写景、状物、读后感五类作文的特征,并以此为标准对数据集进行正确的划分,各类作文的特征分析如表1。
表1.小学各类作文的特征
Figure BDA0001708514890000041
(2)使用基于TextRank的关键句提取模型为各类作文提取关键句来去除多余的语义信息并将其作为数据集。在使用TextRank模型进行关键句提取时,需要设定一个叫提取率的参数,即为所要提取的关键句句数占数据总句数的百分比,这里将提取率分别设为0.6、0.7、0.8、0.9,测试找出对作文分类任务最佳的提取率。
(3)卷积神经网络的第一层为embedding层,在该层,数据集中出现的每一个字都会被随机初始化一个word embedding,每条数据中的字都会被映射到其对应的wordembedding从而组成二维特征矩阵T∈Rd*v作为卷积神经网络的输入,矩阵的行数d为文本的字数,列数v为word embedding的维度。在训练过程中,会使用随机梯度下降(SGD)方法对word embedding进行更新,使word embedding更适合于具体的分类任务。
(4)卷积神经网络的第二层为卷积层,这里采用的是一维卷积操作,每个卷积核C∈Rh*v的行数为h,列数与文本特征矩阵T相同为v,每个卷积核会从上到下依次与h行v列的文本的特征矩阵块做卷积操作,每一次的输出ri(i=1,2……,d-h+1)如式(1):
ri=C*Ti:i+h-1 (式1)
接着输出结果ri会被加上偏置项b,并使用激活函数进行非线性化处理,这里选择的激活函数为f(x)=max(0,x),即ReLu函数,得到结果si(i=1,2……,d-h+1)如式(2):
si=max(0,ri+b) (式2)
最终会得到d-k+1个结果,这些结果就组成了一张局部卷积特征图特征图S∈R(d -k+1)*1,特征图的总数与卷积核的数量m一样,每张特征图Sj(j=1,2……,m)如式(3):
Sj=[s1,s2,s3......,sd-h+1] (式3)
其中卷积核矩阵C,全连接层的权值都是在卷积神经网络的训练过程中得到,在训练过程中需要设定一些超参数,具体的设置如表2:
表2.超参数设置
超参数 数值
word embedding的维度 128
文本的长度 固定为1000个字符
卷积神经网络的卷积核数目 256
卷积神经网络的学习率 1e<sup>-3</sup>
卷积神经网络的卷积核尺寸 5
全连接层神经元数目 128
Dropout比率 0.5
具体的训练过程如下:
A,本实施例所采用的卷积神经网络,在输出层通过softmax分类器对目标文本类别预测一个概率分布P(i),其具体公式如式(4):
Figure BDA0001708514890000061
其中,θ即为卷积神经网络中需要确定的权值的集合,K为所设定种类的数量,即该函数会将在全连接层中计算出的分数映射为关于所有预定义类别的概率分布向量。
B,在对所述卷积神经网络进行训练时,所采用的损失函数为交叉熵函数J(θ),具体公式如式(5):
Figure BDA0001708514890000062
其中t是训练样本的数目,α是正则化因子。
C,基于A、B所述,训练目标函数,批量计算样本的误差,利用梯度下降法和反向传播的方式对神经网络中的权值集合θ进行更新,具体的更新公式为式(6):
Figure BDA0001708514890000063
其中λ是学习率。
(5)卷积神经网络第三层为池化层,在该层会提取每张特征图中最大的元素,即max{Sj}并将其组成局部最优特征图P∈Rm*1。通过池化,文本的局部最优特征的提取被提取了出来,特征的维度也得到了降低,大大提升了分类的效率和准确率。
(6)卷积神经网络的第四层为全连接层,该层与池化层全连接,以最优特征图P为输入,采用softmax分类器对向量P进行分类,并输出最终的分类结果。
本实施例采用的环境参数如表3。
表3.实验环境
实验环境 环境配置
操作系统 Ubuntu16.04.3
Cpu IntelXeonE7-4820V31.90GHz
内存 32GB
编程语言 Python3.6.3
深度学习框架 Tensorflow1.5.0
实验及结果:
本实施例从网络上爬取了共16415篇小学作文,依照表1各类作文的特征,分别筛选出了各类作文3000篇,共15000篇作文,接着对其进行去停用词,去特殊符号的处理,以此作为基础数据集。接着按照每组实验的具体设计,在对基础数据集进行相关预处理后,将预处理后的数据集随机排序后选出数据总数的15%即2250条作为测试集,剩下的数据将其划分为10份,轮流将其中9份作为训练集,1份作为验证集进行10折交叉验证,每次实验的结果选取在验证集上表现最好的模型在测试集上的表现,最终结果是十次实验结果的平均值。
具体的实验效果如表4。
表4.实验结果
模型 TextRank提取率 F1-score均值
Char-level CNN+TextRank 0.6 87.82%
Char-level CNN+TextRank 0.7 88.47%
Char-level CNN+TextRank 0.8 89.24%
Char-level CNN+TextRank 0.9 88.45%
Char-level CNN - 88.12%
可以看到当TextRank的提取率设为0.8时效果最好,F1-score均值为89.24%,相比不使用TextRank处理的效果提升了1.12%。
综上所述,针对小学作文种类较多且语义信息较为丰富的情况,本文提出了一种基于TextRank和字符级卷积神经网络的小学作文自动分类方法,本方法事先使用TextRank算法对数据集进行了冗余信息的剔除,减少了长文本的干扰信息;较传统机器学习方法,本方法的特征选取自动完成,提高了效率和准确率。
本说明书中未作详细描述的内容,属于本专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于TextRank和卷积神经网络的小学作文自动分类方法,其特征在于该方法包括以下步骤:
(1)分析小学作文常见的写人、叙事、写景、状物、读后感五类作文的特征,并以此为标准对数据集进行划分;
(2)使用基于TextRank的关键句提取模型为各类作文提取关键句来去除多余的语义信息并将其作为数据集;
(3)在卷积神经网络的第一层,随机初始化数据集中每个字的word embedding,将每条数据中的字映射到其对应的word embedding组成二维特征矩阵作为卷积神经网络的输入;
(4)在卷积神经网络的第二层,使用一维卷积核与输入文本的特征矩阵进行卷积运算,得到的结果经过非线性变换并加上偏置向后,最终生成和卷积核数量一致的文本的多层局部卷积特征图;
(5)在卷积神经网络第三层,使用max-pooling算法对多层局部卷积特征图进行采样,得到文本的局部最优特征图;
(6)在卷积神经网络的全连接层,将文本的局部最优特征图赋予全连接层,经过全连接层的计算后结果会赋予分类器,用于对文本的类型进行预测并输出最终的分类结果。
2.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法,其特征在于:卷积神经网络的第一层为embedding层,在该层,数据集中出现的每一个字都会被随机初始化一个word embedding,每条数据中的字都会被映射到其对应的wordembedding从而组成二维特征矩阵T∈Rd*v作为卷积神经网络的输入,矩阵的行数d为文本的字数,列数v为word embedding的维度;在训练过程中,使用随机梯度下降方法对wordembedding进行更新。
3.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法,其特征在于:卷积神经网络的第二层为卷积层,采用的是一维卷积操作,每个卷积核C∈Rh*v的行数为h,列数与文本特征矩阵T相同为v,每个卷积核会从上到下依次与h行v列的文本的特征矩阵块做卷积操作,每一次的输出ri,i=1,2……,d-h+1,如下式:
ri=C*Ti:i+h-1
接着输出结果ri会被加上偏置项b,并使用激活函数进行非线性化处理,这里选择的激活函数为f(x)=max(0,x),即ReLu函数,得到结果si,i=1,2……,d-h+1,如下式:
si=max(0,ri+b)
最终得到d-h+1个结果,这些结果就组成了一张局部卷积特征图S∈R(d-h+1)*1,特征图的总数与卷积核的数量m一样,每张特征图Sj,j=1,2……,m,如下式:
Sj=[s1,s2,s3......,sd-h+1]。
4.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法,其特征在于:卷积神经网络第三层为池化层,在该层,提取每张特征图中最大的元素,即max{Sj}并将其组成局部最优特征图P∈Rm*1
5.根据权利要求1所述的基于TextRank和卷积神经网络的小学作文自动分类方法,其特征在于:卷积神经网络的第四层为全连接层,该层与池化层全连接,以最优特征图P为输入,采用softmax分类器对向量P进行分类,并输出最终的分类结果。
CN201810671815.0A 2018-06-26 2018-06-26 一种基于TextRank和卷积神经网络的小学作文自动分类方法 Active CN109062958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810671815.0A CN109062958B (zh) 2018-06-26 2018-06-26 一种基于TextRank和卷积神经网络的小学作文自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810671815.0A CN109062958B (zh) 2018-06-26 2018-06-26 一种基于TextRank和卷积神经网络的小学作文自动分类方法

Publications (2)

Publication Number Publication Date
CN109062958A CN109062958A (zh) 2018-12-21
CN109062958B true CN109062958B (zh) 2021-06-11

Family

ID=64821073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810671815.0A Active CN109062958B (zh) 2018-06-26 2018-06-26 一种基于TextRank和卷积神经网络的小学作文自动分类方法

Country Status (1)

Country Link
CN (1) CN109062958B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871441A (zh) * 2019-03-13 2019-06-11 北京航空航天大学 一种基于神经网络的导学问答系统及方法
CN110427609B (zh) * 2019-06-25 2020-08-18 首都师范大学 一种写人作文篇章结构合理性自动评测方法
CN110516064A (zh) * 2019-07-11 2019-11-29 同济大学 一种基于深度学习的航空科研论文分类方法
CN112418354B (zh) * 2020-12-15 2022-07-15 江苏满运物流信息有限公司 货源信息分类方法、装置、电子设备、存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102307B2 (en) * 2013-03-15 2018-10-16 Oath Inc. Method and system for multi-phase ranking for content personalization
CN106294330B (zh) * 2015-05-11 2020-11-20 清华大学 一种科技文本挑选方法及装置
CN105022787A (zh) * 2015-06-12 2015-11-04 广东小天才科技有限公司 一种推送作文的方法及装置
US20170213130A1 (en) * 2016-01-21 2017-07-27 Ebay Inc. Snippet extractor: recurrent neural networks for text summarization at industry scale
CN106126620A (zh) * 2016-06-22 2016-11-16 北京鼎泰智源科技有限公司 基于机器学习的中文自动文摘方法

Also Published As

Publication number Publication date
CN109062958A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN109376242B (zh) 基于循环神经网络变体和卷积神经网络的文本分类方法
CN109062958B (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
Qian et al. Hierarchical CVAE for fine-grained hate speech classification
CN108197109A (zh) 一种基于自然语言处理的多语言分析方法和装置
CN109740154A (zh) 一种基于多任务学习的在线评论细粒度情感分析方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN107301171A (zh) 一种基于情感词典学习的文本情感分析方法和系统
CN106445919A (zh) 一种情感分类方法及装置
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN109241377A (zh) 一种基于深度学习话题信息增强的文本文档表示方法和装置
CN109670182B (zh) 一种基于文本哈希向量化表示的海量极短文本分类方法
CN109389166A (zh) 基于局部结构保存的深度迁移嵌入聚类机器学习方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN107220311A (zh) 一种利用局部嵌入话题建模的文本表示方法
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
Li et al. Text classification method based on convolution neural network
CN105701225A (zh) 一种基于统一关联超图规约的跨媒体检索方法
CN114722805A (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN103268346A (zh) 半监督分类方法及系统
CN111460146A (zh) 一种基于多特征融合的短文本分类方法及系统
CN111241271B (zh) 文本情感分类方法、装置及电子设备
CN112489689B (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN113806543A (zh) 一种基于残差跳跃连接的门控循环单元的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant