CN109948152A

CN109948152A - 一种基于lstm的中文文本语法纠错模型方法

Info

Publication number: CN109948152A
Application number: CN201910168386.XA
Authority: CN
Inventors: 段大高; 赵振东; 梁少虎; 韩忠明
Original assignee: Beijing Technology and Business University
Current assignee: HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.
Priority date: 2019-03-06
Filing date: 2019-03-06
Publication date: 2019-06-28
Anticipated expiration: 2039-03-06
Also published as: CN109948152B

Abstract

本发明公开了一种基于LSTM的中文文本语法纠错模型的方法，首先收集大量的中文文本语料用以计算5‑gram语言模型，保存的语言模型将会用作数据处理过程和模型输出的结果选择，然后收集语法纠错平行语料数据，语法纠错平行语料数据用作训练LSTM神经网络模型，实现模型对错误句子到正确句子的序列翻译过程；其次用保存好的5‑gram语言模型对平行语料数据进行预处理，修改掉明显的错误，最后构建LSTM神经网络并用预处理后的数据进行训练，训练结束保存网络参数，并用已训练好的网络，输出语法正确的文本序列。本发明数据容易获取，过程简单有效，LSTM神经网络自动抽取抽象特征，完成语法纠错任务，算法效率和准确度都相对较高，应用于中文学习过程和语音识别后端处理。

Description

一种基于LSTM的中文文本语法纠错模型方法

技术领域

本发明涉及基于LSTM的中文文本语法纠错模型的方法，它应用于中文语言学习和语音识别后端数据处理等任务，属于数据挖掘与自然语言处理技术领域。

背景技术

汉语是目前使用人数最多的语言。随着经济全球化和中国影响力的不断提升，越来越多外国人士学习汉语。汉语也被称为世界上最古老和最复杂的语言之一。汉语的复杂性也给很多汉语学习者造成了很大困难，一个有效的中文语法纠错系统可以为学习者提供及时的纠错反馈，在汉语学习过程中有重要的应用价值。当前语音识别技术取得飞速发展，而由于汉语的发音组合灵活多变也造成了语音识别出的结果有时不符合语法规则，而一个有效的语法纠错系统对语音识别结果的改善同样具有极高的应用价值。汉语语法错误通常被划分为四个类别：词语冗余、词语缺失、词序紊乱和选词错误。由于输入待纠正句子和输出纠错后的句子不一定是长度是一致的，所以将语法纠错视为一个错误序列到正确序列的翻译过程是比较有效的解决方案。

目前，基于深度学习技术在人工智能领域取得了非凡成就，而且越来越受到研究者重视。本方法主要基于深度学习中LSTM循环神经网络实现对中文语法纠错任务。LSTM可以有效处理时序数据，广泛的应用于自然语言处理领域。

发明内容

针对现有技术存在的不足，本发明目的是提供基于LSTM的中文文本语法纠错模型的方法，可以有效自动对中文文本纠错，对汉语学习者和语音识别后端处理具有极高的价值。

为实现上述目的，本发明提供了如下技术方案：

一种基于LSTM的中文文本语法纠错模型方法，该方法具体步骤如下：

步骤一：获取大量文本语料库；

步骤二：计算和保存5-gram语言模型：

语言模型负责评价计算一个句子的合理性，计算有n个词的句子W＝(w₁，w₂，…，w_n)的合理性用如公式(1)所示：

P(w₁，w₂，…，w_n)＝p(w₁)p(w₂|w₁)…p(w_n|w₁，w₂，…，w_n-1) (1)

P(w₁，w₂，…，，w_n)是指一个句子W的概率，通常用P(w₁，w₂，…，w_n)的几何平均做为困惑度(perplexity)指数，如公式(2)所示，

困惑度指数越小代表句子合理性越强；

步骤三：获取较多的语法错误句子和纠正句子平行语料库：

平行语料库提供语法错误句子和人工纠正句子训练的数据对；

步骤四：数据预处理：

对收集到的数据做进一步处理，用保存的5-gram语言模型修改掉原始句子的简单拼写错误，将句子看做单个汉字的序列，对每个汉字构造出一个相似候选集合，然后根据语言模型选择候选集合中使得整个句子困惑度最小的候选字，这样将原始句子中简单的拼写错误去除；

步骤五：构建网络模型：

1)词嵌入层，词嵌入将文本分词后的词汇词向量化，本方法用公开的搜狗新闻预训练的词向量数据，每个词汇的词向量维度为300；

2)输入层，输入层将输入的词向量数做线性变换然后做为LSTM神经网络的输入；

3)编码器，编码器负责将输出的原始句子编码为特征向量，用两层的双向LSTM实现，输入的维度为128，输出维度为256；

4)解码器，解码器将编码器的输出特征向量作为输入，然后输出修改后的句子，其中应用了注意机制，每输出一个状态的词语都会和输入数据做一次注意力计算；

5)输出层，输出层将输出的向量映射到词典维度的向量，并作为各个词的采样概率，采样生成当前状态的输出词；

步骤六：把准备好的数据输入步骤五建立的神经网络，计算损失，反向传播，随机梯度下降法迭代500次，训练LSTM神经网络，以多分类交叉熵为代价函数，最终得到收敛的算法模型；

步骤七：将待纠正的错误文本经过语言模型预处理，输入LSTM神经网络，得到输出结果，实现对文本语法纠错过程。

本发明的原理是：首先收集大量的中文文本语料用以计算N-gram语言模型，本方法取N＝5即用5-gram语言模型，保存的语言模型将会用作数据处理过程和模型输出的结果选择。然后收集语法纠错平行语料数据，语法纠错平行语料数据用作训练LSTM神经网络模型，实现模型对错误句子到正确句子的序列翻译过程。其次用保存好的5-gram语言模型对平行语料数据进行预处理，修改掉明显的拼写错误。最后构建LSTM神经网络并用预处理后的数据进行训练，训练结束保存网络参数，并用已训练好的网络输出语法正确的文本序列。

通过采用上述技术方案，本发明所提供的一种基于LSTM的中文文本语法纠错模型的方法，数据容易获取，预处理过程简单有效，LSTM神经网络自动抽取抽象特征完成语法纠错任务，算法效率和准确度都相对较高，可以有效应用于中文学习过程和语音识别后端处理。

附图说明

图1所示为本发明方法的流程图；

图2所示为本发明步骤五建立的LSTM神经网络结构图；图中：w₁，w₂…，w_n分别代表输入句子词嵌入向量，H₁，H₂…，H_n代表编码器输出隐藏状态，O₁，O₂…，O_n代表解码器输出隐藏状态。

具体实施方式

为了使本领域的技术人员可以更好地理解本发明，下面结合附图和实施例对本发明技术方案进一步说明。

参照图1-2对本发明实施例做进一步的说明。

本发明基于LSTM的中文文本语法纠错模型的方法，具体包括如下步骤：

步骤一：获取大量文本语料库(以搜狐新闻数据(SogouCS)为例下载地址为：https://www.sogou.com/labs/resource/cs.php.此数据搜狐新闻2012年6月-7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据。本方法借用此数据来计算和保存语言模型；

步骤二：计算和保存5-gram语言模型：

P(w₁，w₂，…，w_n)是指一个句子W的概率，通常用P(w₁，w₂，…，w_n)的几何平均做为困惑度(perplexity)指数，如公式(2)所示，

困惑度指数越小代表句子合理性越强；

步骤三：获取较多的语法错误句子和纠正句子平行语料数据：以NLPCC 2018Shared Task公开数据集为例(http://tcci.ccf.org.cn/conference/2018/taskdata.php)；词数据包含717,241条训练纠错平行样本；

步骤四：数据预处理：

对收集到的数据做进一步处理，用保存的5-gram语言模型修改掉原始句子的简单拼写错误，将句子看做单个汉字的序列，对每个汉字构造出一个相似候选集合，然后根据语言模型选择候选集合中使得困惑度最小的候选字，这样将原始句子中简单的拼写错误去除；

步骤五：构建网络模型：

2)输入层，输入层将输入的向量数做线性变换然后做为LSTM神经网络的输入；

3)编码器，编码器负责将输出的原始句子编码为特征向量，用两层的双向的LSTM实现，输入的维度为128，输出维度为256；

5)输出层，输出层将输出的向量映射到词典维度的向量，并作为各个词的采样概率，采样生成当前状态的输出词汇；

步骤六：把准备好的数据输入步骤五建立的网络结构，用反向传播，随机梯度下降法迭代500次，每次选择batch size为200个训练样本训练LSTM网络，以多分类交叉熵为代价函数，最终得到分类算法模型；实验表示在模型迭代500次左右基本收敛，较之传统机器学习算法有很大提升。

步骤七：将需要纠正的文本数据输入到步骤六已训练好的LSTM纠错模型，得到纠正后的输出结果。

以上所述实施例仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于LSTM的中文文本语法纠错模型方法，其特征在于，该方法具体步骤如下：

步骤一：获取大量文本语料库；

步骤二：计算和保存5-gram语言模型：

P(w₁，w₂，…，w_nD＝p(w₁)p(w₂|w₁)…p(w_n|w₁，w₂，…，w_n-1) (1)

P(w₁，w₂，…，w_n)是指一个句子W的概率，通常用P(w₁，w₂，…，w_n)的几何平均做为困惑度(perplexity)指数，如公式(2)所示：

困惑度指数越小代表句子合理性越强；

步骤三：获取较多的语法错误句子和纠正句子平行语料库：

平行语料库提供语法错误句子和人工纠正句子的训练对；

步骤四：数据预处理：

步骤五：构建网络模型：

1)词嵌入层，词嵌入是将文本分词后的词汇进行向量化，本方法用公开的搜狗新闻预训练的词向量数据，每个词汇的词向量维度为300；

2)输入层，输入层将输入的词向量做线性变换然后做为LSTM神经网络的输入；