CN109948152B - 一种基于lstm的中文文本语法纠错模型方法 - Google Patents

一种基于lstm的中文文本语法纠错模型方法 Download PDF

Info

Publication number
CN109948152B
CN109948152B CN201910168386.XA CN201910168386A CN109948152B CN 109948152 B CN109948152 B CN 109948152B CN 201910168386 A CN201910168386 A CN 201910168386A CN 109948152 B CN109948152 B CN 109948152B
Authority
CN
China
Prior art keywords
sentence
model
output
stm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910168386.XA
Other languages
English (en)
Other versions
CN109948152A (zh
Inventor
段大高
赵振东
梁少虎
韩忠明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.
Original Assignee
Beijing Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Technology and Business University filed Critical Beijing Technology and Business University
Priority to CN201910168386.XA priority Critical patent/CN109948152B/zh
Publication of CN109948152A publication Critical patent/CN109948152A/zh
Application granted granted Critical
Publication of CN109948152B publication Critical patent/CN109948152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于LSTM的中文文本语法纠错模型的方法,首先收集大量的中文文本语料用以计算5‑gram语言模型,保存的语言模型将会用作数据处理过程和模型输出的结果选择,然后收集语法纠错平行语料数据,语法纠错平行语料数据用作训练LSTM神经网络模型,实现模型对错误句子到正确句子的序列翻译过程;其次用保存好的5‑gram语言模型对平行语料数据进行预处理,修改掉明显的错误,最后构建LSTM神经网络并用预处理后的数据进行训练,训练结束保存网络参数,并用已训练好的网络,输出语法正确的文本序列。本发明数据容易获取,过程简单有效,LSTM神经网络自动抽取抽象特征,完成语法纠错任务,算法效率和准确度都相对较高,应用于中文学习过程和语音识别后端处理。

Description

一种基于LSTM的中文文本语法纠错模型方法
技术领域
本发明涉及基于LSTM的中文文本语法纠错模型的方法,它应用于中文语言学习和语音识别后端数据处理等任务,属于数据挖掘与自然语言处理技术领域。
背景技术
汉语是目前使用人数最多的语言。随着经济全球化和中国影响力的不断提升,越来越多外国人士学习汉语。汉语也被称为世界上最古老和最复杂的语言之一。汉语的复杂性也给很多汉语学习者造成了很大困难,一个有效的中文语法纠错系统可以为学习者提供及时的纠错反馈,在汉语学习过程中有重要的应用价值。当前语音识别技术取得飞速发展,而由于汉语的发音组合灵活多变也造成了语音识别出的结果有时不符合语法规则,而一个有效的语法纠错系统对语音识别结果的改善同样具有极高的应用价值。汉语语法错误通常被划分为四个类别:词语冗余、词语缺失、词序紊乱和选词错误。由于输入待纠正句子和输出纠错后的句子不一定是长度是一致的,所以将语法纠错视为一个错误序列到正确序列的翻译过程是比较有效的解决方案。
目前,基于深度学习技术在人工智能领域取得了非凡成就,而且越来越受到研究者重视。本方法主要基于深度学习中LSTM循环神经网络实现对中文语法纠错任务。LSTM可以有效处理时序数据,广泛的应用于自然语言处理领域。
发明内容
针对现有技术存在的不足,本发明目的是提供基于LSTM的中文文本语法纠错模型的方法,可以有效自动对中文文本纠错,对汉语学习者和语音识别后端处理具有极高的价值。
为实现上述目的,本发明提供了如下技术方案:
一种基于LSTM的中文文本语法纠错模型方法,该方法具体步骤如下:
步骤一:获取大量文本语料库;
步骤二:计算和保存5-gram语言模型:
语言模型负责评价计算一个句子的合理性,计算有n个词的句子W=(w1,w2,…,wn)的合理性用如公式(1)所示:
P(w1,w2,…,wn)=p(w1)p(w2|w1)…p(wn|w1,w2,…,wn-1) (1)
P(w1,w2,…,,wn)是指一个句子W的概率,通常用P(w1,w2,…,wn)的几何平均做为困惑度(perplexity)指数,如公式(2)所示,
Figure BDA0001987104060000021
困惑度指数越小代表句子合理性越强;
步骤三:获取较多的语法错误句子和纠正句子平行语料库:
平行语料库提供语法错误句子和人工纠正句子训练的数据对;
步骤四:数据预处理:
对收集到的数据做进一步处理,用保存的5-gram语言模型修改掉原始句子的简单拼写错误,将句子看做单个汉字的序列,对每个汉字构造出一个相似候选集合,然后根据语言模型选择候选集合中使得整个句子困惑度最小的候选字,这样将原始句子中简单的拼写错误去除;
步骤五:构建网络模型:
1)词嵌入层,词嵌入将文本分词后的词汇词向量化,本方法用公开的搜狗新闻预训练的词向量数据,每个词汇的词向量维度为300;
2)输入层,输入层将输入的词向量数做线性变换然后做为LSTM神经网络的输入;
3)编码器,编码器负责将输出的原始句子编码为特征向量,用两层的双向LSTM实现,输入的维度为128,输出维度为256;
4)解码器,解码器将编码器的输出特征向量作为输入,然后输出修改后的句子,其中应用了注意机制,每输出一个状态的词语都会和输入数据做一次注意力计算;
5)输出层,输出层将输出的向量映射到词典维度的向量,并作为各个词的采样概率,采样生成当前状态的输出词;
步骤六:把准备好的数据输入步骤五建立的神经网络,计算损失,反向传播,随机梯度下降法迭代500次,训练LSTM神经网络,以多分类交叉熵为代价函数,最终得到收敛的算法模型;
步骤七:将待纠正的错误文本经过语言模型预处理,输入LSTM神经网络,得到输出结果,实现对文本语法纠错过程。
本发明的原理是:首先收集大量的中文文本语料用以计算N-gram语言模型,本方法取N=5即用5-gram语言模型,保存的语言模型将会用作数据处理过程和模型输出的结果选择。然后收集语法纠错平行语料数据,语法纠错平行语料数据用作训练LSTM神经网络模型,实现模型对错误句子到正确句子的序列翻译过程。其次用保存好的5-gram语言模型对平行语料数据进行预处理,修改掉明显的拼写错误。最后构建LSTM神经网络并用预处理后的数据进行训练,训练结束保存网络参数,并用已训练好的网络输出语法正确的文本序列。
通过采用上述技术方案,本发明所提供的一种基于LSTM的中文文本语法纠错模型的方法,数据容易获取,预处理过程简单有效,LSTM神经网络自动抽取抽象特征完成语法纠错任务,算法效率和准确度都相对较高,可以有效应用于中文学习过程和语音识别后端处理。
附图说明
图1所示为本发明方法的流程图;
图2所示为本发明步骤五建立的LSTM神经网络结构图;图中:w1,w2…,wn分别代表输入句子词嵌入向量,H1,H2…,Hn代表编码器输出隐藏状态,O1,O2…,On代表解码器输出隐藏状态。
具体实施方式
为了使本领域的技术人员可以更好地理解本发明,下面结合附图和实施例对本发明技术方案进一步说明。
参照图1-2对本发明实施例做进一步的说明。
本发明基于LSTM的中文文本语法纠错模型的方法,具体包括如下步骤:
步骤一:获取大量文本语料库(以搜狐新闻数据(SogouCS)为例下载地址为:https://www.sogou.com/labs/resource/cs.php.此数据搜狐新闻2012年6月-7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据。本方法借用此数据来计算和保存语言模型;
步骤二:计算和保存5-gram语言模型:
语言模型负责评价计算一个句子的合理性,计算有n个词的句子W=(w1,w2,…,wn)的合理性用如公式(1)所示:
P(w1,w2,…,wn)=p(w1)p(w2|w1)…p(wn|w1,w2,…,wn-1) (1)
P(w1,w2,…,wn)是指一个句子W的概率,通常用P(w1,w2,…,wn)的几何平均做为困惑度(perplexity)指数,如公式(2)所示,
Figure BDA0001987104060000031
困惑度指数越小代表句子合理性越强;
步骤三:获取较多的语法错误句子和纠正句子平行语料数据:以NLPCC 2018Shared Task公开数据集为例(http://tcci.ccf.org.cn/conference/2018/taskdata.php);词数据包含717,241条训练纠错平行样本;
步骤四:数据预处理:
对收集到的数据做进一步处理,用保存的5-gram语言模型修改掉原始句子的简单拼写错误,将句子看做单个汉字的序列,对每个汉字构造出一个相似候选集合,然后根据语言模型选择候选集合中使得困惑度最小的候选字,这样将原始句子中简单的拼写错误去除;
步骤五:构建网络模型:
1)词嵌入层,词嵌入将文本分词后的词汇词向量化,本方法用公开的搜狗新闻预训练的词向量数据,每个词汇的词向量维度为300;
2)输入层,输入层将输入的向量数做线性变换然后做为LSTM神经网络的输入;
3)编码器,编码器负责将输出的原始句子编码为特征向量,用两层的双向的LSTM实现,输入的维度为128,输出维度为256;
4)解码器,解码器将编码器的输出特征向量作为输入,然后输出修改后的句子,其中应用了注意机制,每输出一个状态的词语都会和输入数据做一次注意力计算;
5)输出层,输出层将输出的向量映射到词典维度的向量,并作为各个词的采样概率,采样生成当前状态的输出词汇;
步骤六:把准备好的数据输入步骤五建立的网络结构,用反向传播,随机梯度下降法迭代500次,每次选择batch size为200个训练样本训练LSTM网络,以多分类交叉熵为代价函数,最终得到分类算法模型;实验表示在模型迭代500次左右基本收敛,较之传统机器学习算法有很大提升。
步骤七:将需要纠正的文本数据输入到步骤六已训练好的LSTM纠错模型,得到纠正后的输出结果。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (1)

1.一种基于LSTM的中文文本语法纠错模型方法,其特征在于,该方法具体步骤如下:
步骤一:获取大量文本语料库;
步骤二:计算和保存5-gram语言模型:
语言模型负责评价计算一个句子的合理性,计算有n个词的句子W=(w1,w2,…,wn)的合理性用如公式(1)所示:
P(w1,w2,…,wn)=p(w1)p(w2|w1)…p(wn|w1,w2,…wn-1) (1)
P(w1,w2,…,wn)是指一个句子W的概率,通常用P(w1,w2,…,wn)的几何平均做为困惑度(perplexity)指数,如公式(2)所示:
Figure FDA0002502332760000011
困惑度指数越小代表句子合理性越强,保存的语言模型将会用作数据处理过程和模型输出的结果选择;
步骤三:获取较多的语法错误句子和纠正句子平行语料库:
平行语料库提供语法错误句子和人工纠正句子的训练对;
步骤四:数据预处理:
对收集到的数据做进一步处理,用保存的5-gram语言模型修改掉原始句子的简单拼写错误,将句子看做单个汉字的序列,对每个汉字构造出一个相似候选集合,然后根据语言模型选择候选集合中使得整个句子困惑度最小的候选字,这样将原始句子中简单的拼写错误去除;
步骤五:构建网络模型:
1)词嵌入层,词嵌入是将文本分词后的词汇进行向量化,本方法用公开的搜狗新闻预训练的词向量数据,每个词汇的词向量维度为300;
2)输入层,输入层将输入的词向量做线性变换然后做为LSTM神经网络的输入;
3)编码器,编码器负责将输出的原始句子编码为特征向量,用两层的双向LSTM实现,输入的维度为128,输出维度为256;
4)解码器,解码器将编码器的输出特征向量作为输入,然后输出修改后的句子,其中应用了注意机制,每输出一个状态的词语都会和输入数据做一次注意力计算;
5)输出层,输出层将输出的向量映射到词典维度的向量,并作为各个词的采样概率,采样生成当前状态的输出词;
步骤六:把准备好的数据输入步骤五建立的神经网络,计算损失,反向传播,随机梯度下降法迭代500次,训练LSTM神经网络,以多分类交叉熵为代价函数,最终得到收敛的算法模型;
步骤七:将待纠正的错误文本经过语言模型预处理,输入LSTM神经网络,得到输出结果,实现对文本语法纠错过程。
CN201910168386.XA 2019-03-06 2019-03-06 一种基于lstm的中文文本语法纠错模型方法 Active CN109948152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910168386.XA CN109948152B (zh) 2019-03-06 2019-03-06 一种基于lstm的中文文本语法纠错模型方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910168386.XA CN109948152B (zh) 2019-03-06 2019-03-06 一种基于lstm的中文文本语法纠错模型方法

Publications (2)

Publication Number Publication Date
CN109948152A CN109948152A (zh) 2019-06-28
CN109948152B true CN109948152B (zh) 2020-07-17

Family

ID=67009165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910168386.XA Active CN109948152B (zh) 2019-03-06 2019-03-06 一种基于lstm的中文文本语法纠错模型方法

Country Status (1)

Country Link
CN (1) CN109948152B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309512A (zh) * 2019-07-05 2019-10-08 北京邮电大学 一种基于生成对抗网络的中文语法错误更正方法
CN110598203B (zh) * 2019-07-19 2023-08-01 中国人民解放军国防科技大学 一种结合词典的军事想定文书实体信息抽取方法及装置
CN110427619B (zh) * 2019-07-23 2022-06-21 西南交通大学 一种基于多通道融合与重排序的中文文本自动校对方法
CN112447172B (zh) * 2019-08-12 2024-03-15 云号(北京)科技有限公司 一种语音识别文本的质量提升方法和装置
CN110473523A (zh) * 2019-08-30 2019-11-19 北京大米科技有限公司 一种语音识别方法、装置、存储介质及终端
CN110807312A (zh) * 2019-10-10 2020-02-18 南京摄星智能科技有限公司 一种基于神经网络模型和规则结合的冗余表达去除方法
CN110851599B (zh) * 2019-11-01 2023-04-28 中山大学 一种中文作文自动评分方法及教辅系统
CN112836495A (zh) * 2019-11-22 2021-05-25 Tcl集团股份有限公司 一种语句的纠错方法及设备
CN111046663B (zh) * 2019-11-26 2023-05-23 华南理工大学 一种中文表单的智能校正方法
CN111859919A (zh) * 2019-12-02 2020-10-30 北京嘀嘀无限科技发展有限公司 文本纠错模型训练方法、装置、电子设备及存储介质
CN110909147B (zh) * 2019-12-02 2022-06-21 支付宝(杭州)信息技术有限公司 一种训练排序结果选择模型输出标准问法的方法和系统
CN111079416B (zh) * 2019-12-03 2024-02-02 河海大学常州校区 基于共享控制门结构的中文文本校正方法
CN110889284B (zh) * 2019-12-04 2023-04-07 成都中科云集信息技术有限公司 一种基于双向长短时记忆网络的多任务学习中文语病诊断方法
CN111062205B (zh) * 2019-12-16 2021-10-01 北京大学 一种中文自动语法纠错中的动态掩码训练方法
CN111144101B (zh) * 2019-12-26 2021-12-03 北大方正集团有限公司 错别字处理方法和装置
CN113128224B (zh) * 2019-12-30 2024-01-09 北京阿博茨科技有限公司 一种中文纠错方法、装置、设备以及可读存储介质
CN111460794A (zh) * 2020-03-11 2020-07-28 云知声智能科技股份有限公司 一种增加拼写纠错功能的语法纠错方法
CN111539199B (zh) * 2020-04-17 2023-08-18 中移(杭州)信息技术有限公司 文本的纠错方法、装置、终端、及存储介质
CN111639489A (zh) * 2020-05-15 2020-09-08 民生科技有限责任公司 中文文本纠错系统、方法、装置及计算机可读存储介质
CN111753530B (zh) * 2020-06-24 2024-05-31 上海依图网络科技有限公司 一种语句处理方法、装置、设备及介质
CN111767718B (zh) * 2020-07-03 2021-12-07 北京邮电大学 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN111931496B (zh) * 2020-07-08 2022-11-15 广东工业大学 一种基于递归神经网络模型的文本风格转换系统及方法
CN112183094B (zh) * 2020-11-03 2023-06-16 北京信息科技大学 一种基于多元文本特征的中文语法查错方法及系统
CN112395861A (zh) * 2020-11-18 2021-02-23 平安普惠企业管理有限公司 中文文本的纠错方法、装置和计算机设备
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN112597771A (zh) * 2020-12-29 2021-04-02 重庆邮电大学 基于前缀树合并的中文文本纠错方法
CN112686030B (zh) * 2020-12-29 2023-12-01 科大讯飞股份有限公司 语法纠错方法、装置、电子设备和存储介质
CN113051896B (zh) * 2021-04-23 2023-08-18 百度在线网络技术(北京)有限公司 对文本进行纠错的方法、装置、电子设备和存储介质
CN113221545B (zh) * 2021-05-10 2023-08-08 北京有竹居网络技术有限公司 一种文本处理方法、装置、设备及介质、程序产品
CN113627158A (zh) * 2021-07-02 2021-11-09 南京理工大学 基于多表征和多预训练模型的中文拼写纠错方法及装置
CN113673228B (zh) * 2021-09-01 2024-09-24 阿里巴巴达摩院(杭州)科技有限公司 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN114153971B (zh) * 2021-11-09 2024-06-14 浙江大学 一种含错中文文本纠错识别分类设备
CN114611494B (zh) * 2022-03-17 2024-02-02 平安科技(深圳)有限公司 文本纠错方法、装置、设备及存储介质
CN114881010A (zh) * 2022-04-26 2022-08-09 上海师范大学 一种基于Transformer和多任务学习的中文语法纠错方法
CN114818666B (zh) * 2022-04-26 2023-03-28 广东外语外贸大学 一种汉语语法纠错的评估方法、装置、设备及存储介质
CN114896966B (zh) * 2022-05-17 2024-09-06 西安交通大学 一种中文文本语法错误定位方法、系统、设备及介质
CN114881011B (zh) * 2022-07-12 2022-09-23 中国人民解放军国防科技大学 多通道中文文本更正方法、装置、计算机设备和存储介质
CN118095260B (zh) * 2024-03-01 2024-08-16 中国人民解放军国防科技大学 一种融合定长序列到序列网络的中文成语纠错方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126507B (zh) * 2016-06-22 2019-08-09 哈尔滨工业大学深圳研究生院 一种基于字符编码的深度神经翻译方法及系统
US10839284B2 (en) * 2016-11-03 2020-11-17 Salesforce.Com, Inc. Joint many-task neural network model for multiple natural language processing (NLP) tasks
CN109213988B (zh) * 2017-06-29 2022-06-21 武汉斗鱼网络科技有限公司 基于N-gram模型的弹幕主题提取方法、介质、设备及系统
CN107451106A (zh) * 2017-07-26 2017-12-08 阿里巴巴集团控股有限公司 文本纠正方法及装置、电子设备
CN107766324B (zh) * 2017-09-25 2020-09-01 浙江大学 一种基于深度神经网络的文本一致性分析方法
CN109145287B (zh) * 2018-07-05 2022-11-29 广东外语外贸大学 印尼语单词检错纠错方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109359294A (zh) * 2018-09-18 2019-02-19 湖北文理学院 一种基于神经机器翻译的古汉语翻译方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别系统及方法

Also Published As

Publication number Publication date
CN109948152A (zh) 2019-06-28

Similar Documents

Publication Publication Date Title
CN109948152B (zh) 一种基于lstm的中文文本语法纠错模型方法
CN109684648B (zh) 一种多特征融合的古今汉语自动翻译方法
CN108763504B (zh) 一种基于强化双通道序列学习的对话回复生成方法及系统
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN107967262A (zh) 一种神经网络蒙汉机器翻译方法
CN111767718B (zh) 一种基于弱化语法错误特征表示的中文语法错误更正方法
CN112989796B (zh) 一种基于句法指导的文本命名实体信息识别方法
CN112464676B (zh) 机器翻译结果打分方法和装置
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN104637482B (zh) 一种语音识别方法、装置、系统以及语言交换系统
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN110717345A (zh) 一种译文重对齐的循环神经网络跨语言机器翻译方法
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.
Göker et al. Neural text normalization for turkish social media
CN110188342B (zh) 一种基于知识图谱与语义图技术的口语理解方法
CN113392629B (zh) 基于预训练模型的人称代词消解方法
CN109960782A (zh) 一种基于深度神经网络的藏文分词方法及装置
CN115270771A (zh) 细粒度自适应字音预测任务辅助的中文拼写纠错方法
CN114896966A (zh) 一种中文文本语法错误定位方法、系统、设备及介质
Lv et al. StyleBERT: Chinese pretraining by font style information
CN112597771A (zh) 基于前缀树合并的中文文本纠错方法
CN107368473B (zh) 一种语音交互的实现方法
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211215

Address after: 410000 Room 101, building 3, wisdom Park, country garden, Xuehua village, bachelor street, Yuelu District, Changsha City, Hunan Province

Patentee after: HUNAN ZHONGKE YOUXIN TECHNOLOGY CO.,LTD.

Address before: 100089 No. 11, Fucheng Road, Haidian District, Beijing

Patentee before: BEIJING TECHNOLOGY AND BUSINESS University

TR01 Transfer of patent right