CN110414556A

CN110414556A - 一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法

Info

Publication number: CN110414556A
Application number: CN201910538890.4A
Authority: CN
Inventors: 朱晓亮; 殷姿; 龚颖; 董鑫; 谯宇同; 石昀东; 刘三女牙; 杨宗凯
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2019-06-20
Filing date: 2019-06-20
Publication date: 2019-11-05

Abstract

本发明属于教育信息化领域，提供一种基于Word2Vec和循环神经网络的小学语文作文比喻句与拟人句自动提取方法，首先，利用经过人工标记后的数据集，预处理后得到符合实验要求的数据集。然后，利用Skip‑Gram模型结合Hierarchical Softmax的方式训练Word2Vec模型。最后，利用训练后的模型来表示文本，将其作为循环神经网络分类器的输入训练相应的循环神经网络分类器。本发明提出作文中比喻句与拟人句的自动提取方法，为构建基于修辞使用的小学语文作文自动评价器提供了比喻句与拟人句的提取方案。

Description

一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法

技术领域

本发明属于教育信息化领域，具体涉及一种基于Word2Vec和循环神经网络的小学语文作文比喻句与拟人句自动提取方法。

背景技术

语文课标明确要求，在小学生的作文中需要了解和运用常用的修辞手法。在小学生的写作中，比喻句和拟人句是小学生最为常用的修辞手法，这两种修辞手法的使用使小学生作文的语言表达更加丰富、写作表达更加生动形象。

比喻是指采用另一个与当前事物相似的事物对当前事物进行描述或刻画，比喻在类型上分为明喻和暗喻。明喻基本上具有较明显的比喻词，如“似”、“好像”等；暗喻则比较隐晦，例如句子“我们来到了北京，来到了祖国的心脏”就是没有比喻词的暗喻句。拟人就是将一个事物人格化，使句子的表达更加生动鲜活。例如句子“到了秋天，长成熟的麦子随风舞蹈”则属于拟人句。

比喻句与拟人句在内容上与作文中其他句子区别较大。比如，比喻句具有比喻词以及特定的本体和喻体；拟人句则具有被拟人化的对象以及特定的拟人化的描写词。

比喻句和拟人句是小学语文作文评价的重要一个方面，是基于修辞使用的作文自动评价器构建的重要一环。但目前还未提出作文中比喻句与拟人句的自动提取方法。

发明内容

本发明的目的是为小学语文基于修辞使用的作文自动评价器的构建提供比喻句和拟人句的自动提取方法。首先，利用经过人工标记后的数据集，预处理后得到符合实验要求的数据集；然后，利用Skip-Gram模型结合Hierarchical Softmax的方式训练Word2Vec模型。最后，利用训练后的模型来表示文本，将其作为循环神经网络分类器的输入训练相应的循环神经网络分类器。

本发明是通过以下技术方案实现的。

一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法，包括以下步骤：

(1)作文数据集的提取及标记；利用自然语言处理框架gensim中的WiKiCourpus类对WiKi语料进行提取。从作文数据集中抽取出比喻句、拟人句和普通句，并打上相应的标签，进行下一步预处理。

(2)文本预处理；对数据txt文档进行文本预处理，借助opencc，将txt文档中的繁体字转换为简体字。利用jieba分词，将文本进行分词和去停用词处理，以此获得可用于训练Word2Vec模型的数据集。

(3)训练Word2Vec模型；以经过预处理后的数据集作为输入，利用Skip-Gram模型结合Hierarchical Softmax的方式训练Word2Vec模型。

(4)训练循环神经网络分类器。利用训练后的Word2Vec模型表示文本，并将其作为循环神经网络分类器的输入用来训练相应的循环神经网络分类器。进行测试，获得能对比喻句和拟人句进行自动提取的最优模型。

本发明提出的是一种基于Word2Vec和循环神经网络的小学语文作文比喻句与拟人句自动提取的方法。鉴于当前修辞手法的运用成为了小学语文作文评价的关键指标，且比喻句与拟人句是小学生写作中较常用的修辞手法。本发明提出作文中比喻句与拟人句的自动提取方法，为构建基于修辞使用的小学语文作文自动评价器提供了比喻句与拟人句的提取方案。

附图说明

图1为本发明比喻句与拟人句自动提取的流程图。

图2为连续词袋CBOW模型示意图。

图3为Skip-Gram模型示意图。

图4为循环神经网络时序展开图。

具体实施方式

下面将结合实施案例参照附图进行详细说明，以便对本发明的目的，特征及优点进行更深入的理解。

如图1所示，本发明实施例提供了一种基于Word2Vec和循环神经网络的小学语文作文比喻句与拟人句的自动提取方法，包括以下步骤：

(1)对数据集进行提取及人工标记。利用自然语言处理框架gensim中的WiKiCourpus类对原始的WiKi语料进行提取，与已有的作文集一起进行人工标记。从所有的数据集中抽取出比喻句、拟人句和普通句，并打上相应标签，进行下一步预处理工作。

(2)语料预处理。首先，针对txt文档进行预处理，利用opencc，将txt文本中的繁体字转换为简体字，以便于后续操作。然后，利用jieba分词将文本进行分词和去停用词处理。经过上述步骤后，便得到了训练Word2Vec模型的数据集。

(3)训练Word2Vec模型。使用Word2Vec工具包可以将文本中的词汇转化为定长的词向量，同时，该词向量还可以携带上下文语义信息。因此，利用Word2Vec进行短文本的词向量表示能提高短文本的分类效果。

由于模型训练时的输入与输出的不同，Word2Vec被分为了两种不同的模型，一种称为连续词袋CBOW模型，一种称为Skip-Gram模型。CBOW模型训练目的是使特定词的Softmax概率值最大，其模型图如图2所示。而Skip-Gram模型则与CBOW模型相反，其训练目的是使特定词上下文的Softmax概率值排在前面，其模型图如图3所示。

Word2Vec在训练过程中有两种方式来提升其性能，一种是Hierarchical Softmax方法，另一种是Negative Sampling方法。Hierarchical Softmax方法主要利用梯度计算的方式提升模型效率，该方法对不常见词有更强的处理能力。Negative Sampling方法则是通过使用带权采样法对模型进行负采样来提升模型效率，该方法对常见词的处理能力更强。

在本实施例中，使用Skip-Gram模型与Hierarchical Softmax相结合的方法对Word2Vec模型进行训练。

(4)训练循环神经网络模型。利用训练后的Word2Vec模型表示文本，并将其作为循环神经网络分类器的输入用来训练相应的循环神经网络分类器。

循环神经网络结构图在训练时展开时序如图4所示。可看到，循环神经网络的输入层在某个时刻t接收到了输入X_t，其隐藏层的值是S_t，输出值是O_t，需要注意的是，S_t的值不光由X_t和W₁决定，还由t-1时刻的S_t-1决定。循环神经网络的计算方法可由以下公式表示：

S_t＝f(W₁*X_t+W₂*S_t-1)

O_t＝g(W₃*S_t)

标准的循环神经网络在训练过程中会存在梯度消失的问题，同时在较为复杂的语言场景环境下，其性能会有所下降。因此，引入长短时记忆模型LSTM作为循环神经网络的中隐藏层的基本单元，以此来提高模型的性能。

另外，循环神经网络在训练时的超参数设置如表1所示。

表1循环神经网络超参数设置

超参数	数值
		word embedding的维度	64
文本的长度	固定为50个字符
		隐藏层层数	2
隐藏层神经元数	128
		学习率	1e<sup>-3</sup>
Dropout比率	0.8

实验结果及说明

利用上述方法，按照图1所示流程图，本发明提出了一种小学作文中比喻句与拟人句的自动提取方法。利用提取到的WiKi语料约30万篇，对比喻句和拟人句的自动提取方法进行训练和测试。测试指标为精确率、召回率及F1-score值，实验结果如表1所示。

表2比喻句与拟人句自动提取方法实验结果

分类器	精确率加权均值	召回率加权均值	F1-score加权均值
				CNN	85.97％	86.19％	85.96％
RNN	86.28％	86.49％	86.21％
				LSTM	87.81％	87.99％	87.78％

综上所述，本发明Word2Vec训练模型以及循环神经网络训练并选择最优模型的方法，实现了对小学语文作文中比喻与拟人句的自动提取。同时，对比了当前在排比句自动识别中具有较高F1-score值的实验结果，发现本发明方法具有更高的F1-score值，且在实施过程中更加简洁高效，提高了小学语文作文比喻句与拟人句自动提取的整体性能。

本说明书中未作详细描述的内容，属于本专业技术人员公知的现有技术。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法，其特征在于该提取方法包括以下步骤：

(1)作文数据集的提取及标记；利用自然语言处理框架gensim中的WiKiCourpus类对WiKi语料进行提取，从作文数据集中抽取出比喻句、拟人句和普通句，并打上相应的标签；

(2)文本预处理；对数据txt文档进行文本预处理，借助opencc，将txt文档中的繁体字转换为简体字，利用jieba分词，将文本进行分词和去停用词处理，以此获得可用于训练Word2Vec模型的数据集；

(3)训练Word2Vec模型；以经过预处理后的数据集作为输入，利用Skip-Gram模型结合Hierarchical Softmax的方式训练Word2Vec模型；

(4)训练循环神经网络分类器；利用训练后的Word2Vec模型表示文本，并将其作为循环神经网络分类器的输入用来训练相应的循环神经网络分类器，进行测试，获得能对比喻句和拟人句进行自动提取的最优模型。

2.根据权利要求1所述的基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法，其特征在于：循环神经网络的输入层在某个时刻t接收到了输入X_t，其隐藏层的值是S_t，输出值是O_t，S_t的值不光由X_t和W₁决定，还由t-1时刻的S_t-1决定；循环神经网络的计算方法由以下公式表示：

S_t＝f(W₁*X_t+W₂*S_t-1)

O_t＝g(W₃*S_t)

标准的循环神经网络在训练过程中会存在梯度消失的问题，同时在较为复杂的语言场景环境下，其性能会有所下降，引入长短时记忆模型LSTM作为循环神经网络的中隐藏层的基本单元，以此来提高模型的性能。

3.根据权利要求1所述的基于Word2Vec和循环神经网络的小学语文作文比喻句和拟人句自动提取方法，其特征在于循环神经网络在训练时的超参数设置如下：word embedding的维度为64；文本的长度固定为50个字符；隐藏层层数为2；隐藏层神经元数为128；学习率为1e^-3；Dropout比率为0.8。