CN111062205B - 一种中文自动语法纠错中的动态掩码训练方法 - Google Patents

一种中文自动语法纠错中的动态掩码训练方法 Download PDF

Info

Publication number
CN111062205B
CN111062205B CN201911292849.XA CN201911292849A CN111062205B CN 111062205 B CN111062205 B CN 111062205B CN 201911292849 A CN201911292849 A CN 201911292849A CN 111062205 B CN111062205 B CN 111062205B
Authority
CN
China
Prior art keywords
replacement
sentence
word
error correction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911292849.XA
Other languages
English (en)
Other versions
CN111062205A (zh
Inventor
王厚峰
赵泽伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201911292849.XA priority Critical patent/CN111062205B/zh
Publication of CN111062205A publication Critical patent/CN111062205A/zh
Application granted granted Critical
Publication of CN111062205B publication Critical patent/CN111062205B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种中文自动语法纠错的动态掩码训练方法,属于自然语言处理领域。本发明引入了多种基于词替换的加噪模式,提出了一种混合加噪模式来更好地利用已有标注数据,提升模型泛化能力和健壮性;且利用动态掩码机制来避免静态掩码机制重复产生样例的缺陷,进一步提升语法纠错效果。在得到经过动态掩码的源端的错误句子后,将其与原本的目标端的正确句子组成新的训练样例,进行字级别的序列到序列模型的训练。本发明通过不同的加噪模式引入多种噪声信息,增加神经网络模型的泛化能力,缓解中文语法纠错领域数据稀缺的问题,提升了中文自动语法纠错模型的训练效果。

Description

一种中文自动语法纠错中的动态掩码训练方法
技术领域
本发明属于自然语言处理领域,具体涉及一种对中文自动语法纠错中训练神经网络模型的动态掩码方法。
背景技术
自动语法纠错有着很广阔的应用场景,比如外语学习、公文纠错等等。在语法纠错系统中,用户输入一个可能含有错误的自然语言句子,系统输出更正后的句子。
把含有错误的句子视为源语言,改正后的句子视为目标语言,那么语法纠错的过程可以视为一个翻译的过程。系统将有错的句子(语言片段)转换为正确的句子(片段)过程,是通过编码器将(有错误的)源句子中的信息编码,再通过解码器解码成(没有错误的)目标句子而成的,即“序列到序列”模型。
序列到序列模型的训练需要大量的数据。现有的监督式方法通常依赖有标注的数据,而要获得高质量的数据需要花费大量的人力物力。然而在现实中,自动语法纠错,尤其是中文领域的数据量相当有限,严重限制了神经网络模型的性能,这也使得目前的中文语法纠错模型普遍性能不佳。
发明内容
本发明的目的在于提供一种中文自动语法纠错中的动态掩码训练方法,用于提升中文自动语法纠错模型的训练效果。
本发明提供的中文自动语法纠错中的动态掩码训练方法,在序列到序列模型的源端加入动态掩码机制,在模型训练过程中产生多样化的噪声句对,增强编码器和解码器的泛化能力。具体流程如图1所示。
具体技术方案如下:
A.中文自动语法纠错中的动态掩码训练,即根据词替换方法进行源端训练语句的掩码,其作用是提升语法纠错模型的泛化能力。具体为:
A1.对于中文自动语法纠错中动态掩码训练的掩码任务,定义四大类词替换模式。定义四大类词替换模式:
Figure BDA0002319566440000021
模式1(空白替换):源句子中的每一个词,都按照一定的概率被选中,并被替换为一个特殊的空白符号。
Figure BDA0002319566440000022
模式2(随机替换):选择被替换词的过程与模式1相同,但是改从词汇表中按照均匀分布随机选择一个词进行替换。
Figure BDA0002319566440000023
模式3(词频替换):选择被替换词和替换词的过程与模式2基本相同,但是从词汇表中选词时改为按照词频分布选择替换词。
Figure BDA0002319566440000024
模式4(同音替换):选择被替换词和替换词的过程与模式3基本相同,但是选择替换词的范围从完整的词汇表改为同音词的词汇表。
A2.模型在纠错语句的字级别层面上对语法信息进行编码,并据此生成语法纠错结果。模型使用一个编码器和一个解码器来模拟语义信息的抽取和还原:字级别的编码器用来表示每一个待纠错的句子,解码器则负责根据抽取的语义信息按照正确的语法还原成自然语言。字级别的编码器以加了动态掩码的错误句子作为输入,学习句子的向量表示。而解码器则将编码器学习到的句子向量作为初始状态,以上一个时刻解码器的输出作为当前时刻的输入,输出目标句子到当前时刻为止的隐状态,并通过束搜索方法得到当前时刻生成的词。
B.模型使用一个均匀分布来进行词替换模式的选择,在神经网络模型训练的每一个批次,等概率地从A1中四种替换模式和不进行替换的模式中选择。混合替换模式可以将多种基本词例替换模式结合,生成更多样化的噪声样例。使用一个均匀分布采样决定当前批次使用的基本替换模式,也可能不进行替换。这样对于同一训练样本,在不同轮次中可能采用不同的掩码模式。在增加训练用例的丰富性的同时,又保留了原有标注数据,达到了增强模型泛化能力的效果。
C.利用动态生成的加噪源句子和目标句子进行自然语言的语法错误纠正。
C1.本发明使用序列到序列的方法来为中文句子进行语法纠错。模型将经过掩码后的源句子输入到编码器中,依次将语句中的每个字转换为随机初始化的字向量,由编码器学习出一个向量作为句子的语义表示。在得到上述句子表示后,最终采用束搜索方法进行语法正确句子的生成,从而得到更加完善的纠错结果。
C2.在训练的过程中动态生成掩码,不同轮次的掩码各自独立。模型训练过程中输入源句子到加噪器中,加噪器随机按照某个替换模式对源端(含错)语句进行掩码,每一个训练轮次的掩码各自独立,故相比于预处理阶段就生成若干固定掩码的做法,本发明提出的掩码过程是动态的。
本发明使用不同的词例替换模式对源句子进行动态掩码,根据加噪后的源句子和原本的目标句子组成的噪声句对进行神经网络模型训练,使用基于字的序列到序列模型进行自动语法纠错。本发明在序列到序列模型的源端加入动态掩码机制,在模型训练过程中产生多样化的噪声句对,增强编码器和解码器的泛化能力。除此之外,本发明还将多种替换模式结合为混合模式,进一步提升噪声句对的丰富性。在得到当前的被动态掩码过的源句子后,本发明根据此源句子和原本的目标句子,对自动语法纠错模型进行参数更新。
附图说明
图1本发明中文自动语法纠错中的动态掩码训练方法的流程图;
图2本发明所述动态掩码过程的示意图;
图3本发明所述动态掩码训练方法的操作示意图。
具体实施方式
下面通过实例对本发明做进一步的说明。
参考图2,假定有一个已标注的由含有语法错误的句子X和相应改正后句子Y组成的平行语料库S。在模型Θ训练的第t个轮次,令当前轮次的训练集为S(t),对于S中的每一个(X,Y)句对,动态加噪模块选定当前的替换方法f。若替换模式为空白、随机、词频、同音这四种替换模式,则加噪时的替换方法固定为相应模式;若替换模式为混合模式,则按照相同概率从这四种替换模式和不进行替换的模式之中随机确定当前的替换方法。将替换方法f应用到X上,得到噪声句对
Figure BDA0002319566440000031
经过动态掩码后的源句子
Figure BDA0002319566440000032
如下面式子所示:
Figure BDA0002319566440000036
其中m为源句子X的长度。
Figure BDA0002319566440000033
的第i个词由下式给出:
Figure BDA0002319566440000034
其中p为由[0.0,1.0]区间的均匀分布采样的随机值,δ是控制替换概率的阈值,δ为可调节的超参数。
将新得到的噪声句对
Figure BDA0002319566440000035
加到当前轮次的训练集S(t)中,重复此过程直到S中所有句对都经过掩码为止。最后模型Θ根据S(t)更新参数,完成该轮训练。每一轮训练都重复此过程,直到满足训练终止条件为止。
通过序列到序列的方法来训练语法纠错模型,模型需要估计以下条件概率:
Figure BDA0002319566440000041
模型通过最大似然估计训练,给定输入的源句子X=(x1,x2,…,xm),以及标注好的目标句子Y=(y1,y2,…,yn),目标函数是以下负对数似然函数:
Figure BDA0002319566440000042
模型通过反向传播来进行端到端训练,使用的优化器为Adam。
参考图3,预测时,在编码器中输入源句子序列对应的词向量,由编码器得到句子表示后,传给解码器,在t时刻输入t-1时刻解码器生成的词
Figure BDA0002319566440000043
对应的词向量,得到t时刻的隐状态ht。再通过softmax层得到当前时刻目标词的概率分布,利用束搜索方法确定当前生成的词yt,束搜索的大小是可以调节的超参数。当所有的目标词都生成完毕后,即模型输出了句子结束标志,就得到了最终的语法纠错结果。
本发明所涉及的技术不限于上文所提到的中文纠错问题。凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均属于本发明技术方案保护的范围内。

Claims (6)

1.一种中文自动语法纠错中的动态掩码训练方法,其步骤包括:
A. 根据词替换方法进行源端训练语句的掩码,包括:
A1. 定义四大类词替换模式,分别为空白替换、随机替换、词频替换和同音替换;
A2. 模型在纠错语句的字级别层面上对语法信息进行编码,并据此生成语法纠错结果;
B. 根据混合方法进行源端训练语句的掩码,包括:
B1. 模型使用一个均匀分布来进行词替换模式的选择,在神经网络模型训练的每一个批次,等概率地从A1中四种替换模式和不进行替换的模式中选择;
C. 利用动态生成的加噪源句子和目标句子进行自然语言的语法错误纠正,包括:
C1. 使用序列到序列的方法来为中文句子进行语法纠错,具体为,将经过掩码后的源句子输入到编码器中,依次将语句中的每个字转换为随机初始化的字向量,由编码器学习出一个向量作为句子的语义表示;
C2. 在训练的过程中动态生成掩码,不同轮次的掩码各自独立,具体为,模型训练过程中输入源句子到加噪器中,加噪器随机按照某个替换模式对源端语句进行掩码,每一个训练轮次的掩码各自独立。
2.如权利要求1所述的中文自动语法纠错中的动态掩码训练方法,其特征是,步骤A1中空白替换模式具体为:源句子中的每一个词,都按照设定的概率被选中,并被替换为一个空白符号。
3.如权利要求2所述的中文自动语法纠错中的动态掩码训练方法,其特征是,步骤A1中随机替换模式具体为:选择被替换词的过程与空白替换模式相同,但是改从词汇表中按照均匀分布随机选择一个词进行替换。
4.如权利要求3所述的中文自动语法纠错中的动态掩码训练方法,其特征是,步骤A1中词频替换模式具体为:选择被替换词和替换词的过程与随机替换模式相同,但是从词汇表中选词改为按照词频分布选择替换词。
5.如权利要求4所述的中文自动语法纠错中的动态掩码训练方法,其特征是,步骤A1中同音替换模式具体为:选择被替换词和替换词的过程与词频替换模式相同,但是选择替换词的范围从完整的词汇表改为同音词的词汇表。
6.如权利要求1所述的中文自动语法纠错中的动态掩码训练方法,其特征是,步骤A2具体为:使用一个编码器和一个解码器来模拟语义信息的抽取和还原:字级别的编码器以加了动态掩码的错误句子作为输入,学习句子的向量表示;而解码器则将编码器学习到的句子向量作为初始状态,以上一个时刻解码器的输出作为当前时刻的输入,输出目标句子到当前时刻为止的隐状态,并通过束搜索方法得到当前时刻生成的词。
CN201911292849.XA 2019-12-16 2019-12-16 一种中文自动语法纠错中的动态掩码训练方法 Active CN111062205B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911292849.XA CN111062205B (zh) 2019-12-16 2019-12-16 一种中文自动语法纠错中的动态掩码训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911292849.XA CN111062205B (zh) 2019-12-16 2019-12-16 一种中文自动语法纠错中的动态掩码训练方法

Publications (2)

Publication Number Publication Date
CN111062205A CN111062205A (zh) 2020-04-24
CN111062205B true CN111062205B (zh) 2021-10-01

Family

ID=70300935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911292849.XA Active CN111062205B (zh) 2019-12-16 2019-12-16 一种中文自动语法纠错中的动态掩码训练方法

Country Status (1)

Country Link
CN (1) CN111062205B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563166B (zh) * 2020-05-28 2024-02-13 浙江学海教育科技有限公司 一种针对数学问题分类的预训练模型方法
CN111950292B (zh) * 2020-06-22 2023-06-27 北京百度网讯科技有限公司 文本纠错模型的训练方法、文本纠错处理方法和装置
CN111767731A (zh) * 2020-07-09 2020-10-13 北京猿力未来科技有限公司 语法纠错模型的训练方法及装置、语法纠错方法及装置
CN112560846B (zh) * 2020-12-23 2022-03-15 北京百度网讯科技有限公司 纠错语料的生成方法、装置及电子设备
CN112836497A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地址纠正方法、装置、电子设备及存储介质
CN113591475B (zh) * 2021-08-03 2023-07-21 美的集团(上海)有限公司 无监督可解释分词的方法、装置和电子设备
CN115935957B (zh) * 2022-12-29 2023-10-13 广东南方网络信息科技有限公司 一种基于句法分析的句子语法纠错方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460015A (zh) * 2018-02-08 2018-08-28 合肥工业大学 文本情感分类数据增强分析方法
CN110162767A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 文本纠错的方法和装置
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Text augmentation for Machine Learning;Maali Mnasri;《https://medium.com/opla/text-augmentation-for-machine-learning-tasks-how-to-grow-your-text-dataset-for-classification-38a9a207f88d》;20190119;全文 *
基于深度学习的英语语法纠错系统的设计与实现;周深;《中国优秀硕士学位论文全文数据库》;20190815;全文 *

Also Published As

Publication number Publication date
CN111062205A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062205B (zh) 一种中文自动语法纠错中的动态掩码训练方法
CN109582789B (zh) 基于语义单元信息的文本多标签分类方法
CN109190131B (zh) 一种基于神经机器翻译的英语单词及其大小写联合预测方法
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN109117483B (zh) 神经网络机器翻译模型的训练方法及装置
CN111178094B (zh) 一种基于预训练的稀缺资源神经机器翻译训练方法
CN108874174A (zh) 一种文本纠错方法、装置以及相关设备
CN110472252B (zh) 基于迁移学习的汉越神经机器翻译的方法
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
CN110782881A (zh) 一种语音识别及实体识别后的影视实体纠错方法
CN113590761B (zh) 文本处理模型的训练方法、文本处理方法及相关设备
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN108132932A (zh) 带有复制机制的神经机器翻译方法
CN111985219A (zh) 一种融合单语数据的文本语法错误纠正方法
CN110569505A (zh) 一种文本输入方法及装置
CN115293139B (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN112329447A (zh) 中文纠错模型的训练方法、中文纠错方法及装置
US20230325423A1 (en) Method and system for improving performance of text summarization
CN115293138A (zh) 一种文本纠错方法及计算机设备
CN111222329B (zh) 句向量训练方法及模型、句向量预测方法及系统
CN115906815A (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN111428518B (zh) 一种低频词翻译方法及装置
CN111626041A (zh) 一种基于深度学习的音乐评论生成方法
CN114548053A (zh) 一种基于编辑方法的文本对比学习纠错系统、方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant