CN113822054A - 基于数据增强的中文语法纠错方法及装置 - Google Patents

基于数据增强的中文语法纠错方法及装置 Download PDF

Info

Publication number
CN113822054A
CN113822054A CN202110758581.5A CN202110758581A CN113822054A CN 113822054 A CN113822054 A CN 113822054A CN 202110758581 A CN202110758581 A CN 202110758581A CN 113822054 A CN113822054 A CN 113822054A
Authority
CN
China
Prior art keywords
error correction
training
grammar
grammar error
neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110758581.5A
Other languages
English (en)
Inventor
孙邱杰
王凯
樊小伟
蓝海波
闵睿
刘剑青
张锐
宋磊
刘晓敏
张昊
王明轩
高欣
耿艳
李思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing University of Posts and Telecommunications
State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing University of Posts and Telecommunications, State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202110758581.5A priority Critical patent/CN113822054A/zh
Publication of CN113822054A publication Critical patent/CN113822054A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Abstract

本发明公开了一种基于数据增强的中文语法纠错方法及装置,其中该方法包括:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声函数进行映射处理,得到含有不同类型语法错误的句子;将含有不同语法错误的句子及对应的目标语句作为当前轮的含噪样本对,训练神经语法纠错模型,得到数据增强处理后的神经语法纠错模型;利用增强处理后的该模型进行中文语法纠错处理。本发明可以通过基于BART噪声器来实现数据增强,在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本,进而得到高性能的神经语法纠错模型,利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。

Description

基于数据增强的中文语法纠错方法及装置
技术领域
本发明涉人工智能技术领域,尤其涉及一种基于数据增强的中文语法纠错方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着计算机技术的发展,机器学习和深度学习的研究取得了一系列重要成果,自然语言处理逐渐得到了广泛应用,例如通过情感分析技术挖掘商品评论中的用户喜好,通过机器翻译技术自动为用户翻译外文内容等。在如今信息量与日俱增的大数据时代,每天都会产生大量的文本信息,随之而来的语法纠错任务也越来越繁重。传统的人工纠错不仅周期长、劳动强度大,而且效率低,研究快速高效的自动纠错方法是十分必要的。中文语法纠错任务是近些年发展起来的一项自然语言理解任务,其目的是利用自然语言处理技术,自动识别并纠正文本包含中的缺失词、冗余词、选词错误、语序错误等语法错误。中文语法纠错在搜索、OCR、文章评分等领域有着广泛应用。
早期,解决语法纠错任务的主流方法是先检测错误再利用大型的字典对错误处的文本进行匹配,得到更正文本。近年来,为了修正更多类型的错误,语法纠错任务常被作为翻译任务处理,并引入统计机器翻译方法来提高语法纠错任务的性能。最近,随着深度学习的广泛应用,基于神经机器翻译的方法也被应用到语法纠错领域,如循环神经网络、卷积神经网络、Transformer架构等,在语法纠错任务的公开数据集上取得了不错的效果。
然而,在中文语法纠错任务中,错误数据的订正标注难度较大,需要有专业语言学知识的人员才能准确标注,这使得中文语法纠错任务中难以获得大量的标注数据。因此,采用基于神经机器翻译方法的语法纠错模型难以得到充分的训练,无法获取高效的信息特征,使得模型纠错的准确率不高。
发明内容
本发明实施例提供一种基于数据增强的中文语法纠错方法,用以高效准确地进行中文语法纠错,该方法包括:
在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;
将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
本发明实施例还提供一种基于数据增强的中文语法纠错装置,用以高效准确地进行中文语法纠错,该装置包括:
数据增强单元,用于在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子,包括按照如下公式得到含有不同类型语法错误的句子;
训练单元,用于将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
处理单元,用于利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于数据增强的中文语法纠错方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述基于数据增强的中文语法纠错方法的步骤。
本发明实施例中,基于数据增强的中文语法纠错方案,通过:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;利用增强处理后的神经语法纠错模型进行中文语法纠错处理,可以通过基于BART噪声器的数据增强算法,在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本,进而得到高性能的神经语法纠错模型,利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中基于数据增强的中文语法纠错的原理示意图;
图2为本发明实施例中不同噪声方案引入的噪声示例图;
图3为本发明实施例中基于数据增强的中文语法纠错方法的流程示意图;
图4为本发明实施例中基于数据增强的中文语法纠错装置的结构示意图;
图5为本发明另一实施例中基于数据增强的中文语法纠错装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
发明人发现现有的中文语法纠错方案存在的技术问题是:现有的中文语法纠错任务的技术主要从下述三方面缓解训练数据不足的问题:(1)引入外部资源,将外部的拼音、形状等信息作为额外特征的形式集成到模型中。(2)使用预训练神经网络模型引入信息,通过使用分布式词表征来初始化模型,如Word2Vec、基于BERT的预训练模型。(3)使用随机遮蔽、纠错模型回译等数据增强的方法。
现有技术之一的“SpellGCN:Incorporating Phonological and VisualSimilarities into Language Models for Chinese Spelling Check”通过图卷积神经网络引入中文的拼音以及形状信息:首先,通过混淆集中的字构建拼音相似度图和形状相似度图;然后,通过图卷积神经网络提取两个相似度图中的特征,将其构建成一个生成分类器;最后,将BERT模型抽取到的语义信息和图神经网络抽取到的形状、拼音信息进行进一步推理得到输出。
现有技术之二的“Chinese Grammatical Correction Using BERT-based Pre-trained Model”通过使用基于BERT的预训练语言模型引入额外信息:首先,Transformer模型的编码器将含有N个字符的源句子编码成含有整个输入句子语义信息的隐藏层表征
Figure BDA0003147822260000041
然后解码器从
Figure BDA0003147822260000042
中解码得到目标隐藏层表征
Figure BDA0003147822260000043
最后,目标隐藏层表征可以得到各个字符的生成概率p(yi|y1:i-1),通过一个投影矩阵WH和softmax层得到输出序列y1:i-1。整个过程计算如式(2-1)-(2-3)所示。
Figure BDA0003147822260000044
Figure BDA0003147822260000045
Figure BDA0003147822260000046
然后,将生成概率的负对数将生成概率的负对数作为目标函数,其中θ是可训练的参数。目标函数的计算如下式(2-4)所示。
Figure BDA0003147822260000047
在训练开始前,使用基于BERT的预训练模型权重Θ对Transformer的编码器层所有参数θe进行初始化,Transformer的解码器参数θd则是使用权重Wij对解码器每层参数进行初始化,Wij服从均匀分布,如式(2-5)所示:
Figure BDA0003147822260000048
其中,
Figure BDA0003147822260000049
是一个在区间
Figure BDA00031478222600000410
上的均匀分布。
现有技术之三的“Generating artificial errors for grammatical errorcorrection”通过对干净的文本人工引入基于规则的错误,人工合成标注数据,这一过程也是错误生成的过程,它属于数据增强方法的一种,实验表明它们的方法合成的数据与额外附加的非合成数据有着相同的效果。
综上,目前的中文语法纠错任务仍然缺乏大量标注数据,导致基于神经机器翻译方法的语法纠错模型无法得到性能上的保障。
考虑到上述技术问题,发明人提出一种基于数据增强的中文语法纠错方案,该方案旨在通过基于BART噪声器的数据增强算法,自动生成大量含噪文本,以此来提高中文语法纠错的性能。下面对该基于数据增强的中文语法纠错方案进行详细介绍。
图3为本发明实施例中基于数据增强的中文语法纠错方法的流程示意图,如图3所示,该方法包括如下步骤:
步骤101:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;
步骤102:将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
步骤103:利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
本发明实施例提供的基于数据增强的中文语法纠错方法可以通过基于BART噪声器的数据增强算法,在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本,进而得到高性能的神经语法纠错模型,利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。下面对该方法涉及的各个步骤进行详细介绍。
如图1所示,本发明在之前的基于Transformer的中文语法纠错模型(基础模型)上,增加了一个BART噪声器来实现数据增强。BART(Bidirectional and Auto-RegressiveTransformers)是一种采用Seq2Seq模型构建的降噪自编码器,可将含有噪声的文本映射为原始文本,常作为预训练模型用于文本生成等任务。文本噪声是指文本数据中含有的一些不规范数据,如特殊符号、特殊操作引入或删除的字符(插入、删除、替换等)、OCR识别过程引入的错误字符等,这些噪声通常会破坏文本原有的语义信息,降低原本的文本数据质量。BART噪声器是BART在预训练过程中用来破坏样本的噪声函数组合(例如下文所述的字屏蔽、随机字替换、文本填充)构建而成的噪声器,它可以通过多种噪声函数组合对文本引入噪声来得到更多较高质量的伪训练数据。与其他数据增强的方法不同,BART不是将得到的伪数据作为额外的训练数据与原始数据结合训练,而是直接使用这些引入噪声后的伪数据作为训练数据,这在一定程度上能够起到正则化的作用,而且不会增加训练的数据量。另外,BART噪声器还能改变文本的长度,迫使模型预测不等长的序列,因而也适用于输入序列和输出序列是不对齐序列的情况。
因此,本发明实施例提出基于数据增强的中文语法纠错方法为一种基于BART噪声器的中文语法纠错模型(Chinese grammatical error correction model based on BARTNoiser,BN-CGECM)。该语法纠错模型使用基于BART噪声器的数据增强算法,在训练过程中,通过BART噪声器对输入样本引入文本噪声,自动生成更多样的含噪文本用于模型训练,以此来提高中文语法纠错的性能。针对选词错误,引入BART噪声器中字屏蔽和随机字替换的噪声方法,让模型学习预测对齐序列;针对缺失词和冗余词错误,引入文本填充的噪声方法,让模型预测学习预测不对齐序列。实验结果表明该模型对于中文语法纠错任务有着很好的表现。具体的方法定义如下:如下表1所示的算法1所示,对于给定的输入源语句X=(x1,...,xn),对应目标语句Y=(y1,...,yn),将X通过BART噪声器中的映射函数f(x)进行映射,对于第t轮训练批次的源句子X(t)中的每个字
Figure BDA0003147822260000061
都有固定的概率通过噪声器中的一种噪声函数fs(xi)进行映射(图2给出了源语句通过噪声器中噪声函数映射的例子),从而得到有噪输入
Figure BDA0003147822260000062
Figure BDA0003147822260000063
其中
Figure BDA0003147822260000064
的第i个字由下式给出:
Figure BDA0003147822260000065
其中,X(t)为第t轮的输入源语句,p是在[0,1]的均匀分布上产生的随机数,δ则是引入噪声的固定概率。fs(xi)是BART噪声函数,s∈{TM,RS,TI,Mixed},TM为字屏蔽,RS为随机字替换,TI为文本填充,Mixed为字屏蔽、随机字替换和文本填充的任意组合。将
Figure BDA0003147822260000066
与Y构建成新的句子对S(t)并用于语法纠错模型训练。上述训练终止条件可以是满足预设轮或是达到预设训练时间等。图1中的噪声单元可以利用上面式(4-2)来实现。
Figure BDA0003147822260000071
表1
不同的噪声策略在模型表现上能够产生不同的效果,本文使用字屏蔽(TokenMask,TM)、随机字替换(Random Substitution,RS)、文本填充(Text Infilling,TI)以及混合方法(Mixed)4种噪声方法来对输入的含错语句引入噪声。4种方法具体如下:
1)字屏蔽:参照中的做法,输入的含错句子中的每个字都有固定的概率δ被替换成“#”符号,这种方式能够成倍地增加训练样本的数目,并且能够增加样本错误的多样性,减少训练样本错误的重复性。这种方式也能减少语法纠错模型对一些特定单词的依赖,更好地学习上下文信息,从而提高性能。另外,这种方法能促使模型做出字的替换,更有利于纠正选词错误类型。对应的噪声函数fTM(xi)如式(4-3)所示:
fTM(xi)=# 式(4-3)
2)随机字替换:与字屏蔽方法类似,从字典中随机采样一个字Vr,输入的含错句子中的每个字有δ的概率被替换成字典中的任意一个字,而不是“#”,字典中被选中替换的字是等概的。这种方式可以产生更接近真实错误的训练样本。对应的噪声函数fRS(xi)如式(4-4)所示:
fRS(xi)=Vr 式(4-4)
3)文本填充:按照δ的概率选取句子中的多个文本段,每个文本段的长度l是由一个服从λ的泊松分布确定,将每个文本段都替换成单个[MASK]字符,这种方法能够让模型学习预测一个跨度中丢失了多少个字,能更好地应对缺失字的补充这一类语法错误。这种方式能够改变输入文本长度,有利于模型对缺失词和冗余词错误进行纠正。对应的噪声函数fTI(xi)如式(4-5)-(4-6)所示。
Figure BDA0003147822260000081
k为(0,+∞)的随机数 式(4-5)
fTI(xi:i+l-1)=# 式(4-6)
不同噪声方案引入的噪声示例如图2所示。假定有输入句子:明天我要早起。通过字遮蔽的方法,“天”和“要”两个字被替换成了“#”符号。随机字替换的方法则是将“天”和“要”分别替换成了字典中的随机字“后”和“字”。与前面两种方法不同的是,文本填充将文本段“天”和“早起。”替换成了“#”符号。
通过上述可知,在一个实施例中,所述BART噪声器中的噪声函数可以包括字屏蔽、随机字替换和文本填充的其中之一或任意组合。
通过上述可知,在一个实施例中,在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子,可以包括按照如下公式得到含有不同类型语法错误的句子:
Figure BDA0003147822260000082
其中
Figure BDA0003147822260000083
的第i个字由下式给出:
Figure BDA0003147822260000084
式中,X(t)为第t轮的输入源语句,fs(xi)是BART噪声器中的噪声函数,s∈{TM,RS,TI,Mixed},TM为字屏蔽,RS为随机字替换,TI为文本填充,Mixed为字屏蔽、随机字替换和文本填充的任意组合,p是在[0,1]的均匀分布上产生的随机数,δ是固定概率。
通过上述可知,在一个实施例中,将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,可以包括:
Figure BDA0003147822260000091
及Y构建成新的句子对S(t),训练所述神经语法纠错模型,其中:
Figure BDA0003147822260000092
为含有不同类型语法错误的句子,Y为输入源语句对应的目标语句,S(t)为所述当前轮训练批次的含噪样本对。
为了便于理解本发明如何实施,下面结合附图1举一例子进行介绍。
步骤一、搭建一个基于Transformer结构的基础神经语法纠错模型,并使用基于BERT的预训练模型权重对其进行参数初始化。
通过上述可知,在一个实施例中,所述神经语法纠错模型可以为基于Transformer结构的神经语法纠错模型;
所述基于数据增强的中文语法纠错方法还可以包括:使用基于BERT的预训练模型权重对基于Transformer结构的神经语法纠错模型进行参数初始化。
步骤二、在基础模型上搭建一个BART噪声器,用于对训练语料中源句子引入噪声。
步骤三、在训练过程中,通过BART噪声器对训练语料引入噪声,得到含噪文本作为有噪输入。
步骤四、通过Transformer解码器的输出输入到一个Softmax层,进行输出序列各个字符的生成概率计算。
步骤五、将生成概率的负对数作为目标函数,其中θ是可训练的参数。
Figure BDA0003147822260000093
步骤六、利用反向传播算法对Transformer的编码器层和解码器层以及嵌入层参数进行更新,此处的更新是指更改模型网络结构中的参数,即通过上面步骤一至步骤五能够计算出目标函数
Figure BDA0003147822260000094
然后通过反向传播算法,从最后一层逐层向前更改网络参数,使得目标函数值向变小的方向变化
更新完参数之后,再开启新的一轮训练。
本发明实施例要求保护的关键结构在于用于引入噪声的BART噪声器,其具体结构形式如下:如式(4-1)至式(4-2)所示,该噪声器通过固定的概率,使用噪声函数对输入源句子的每个字进行映射,得到含有更多样性错误的句子,即含噪文本,从而实现中文语法纠错任务中的数据增强,提高了中文语法纠错的效率和准确率。
与现有数据增强的方法不同,BART不是将得到的伪数据作为额外的训练数据与原始数据结合训练,而是直接使用这些引入噪声后的伪数据作为训练数据,这在一定程度上能够起到正则化的作用,而且不会增加训练的数据量。另外,BART噪声器还能改变文本的长度,迫使模型预测不等长的序列,因而也适用于输入序列和输出序列是不对齐序列的情况。
本发明实施例中还提供了一种基于数据增强的中文语法纠错装置,如下面的实施例所述。由于该装置解决问题的原理与基于数据增强的中文语法纠错方法相似,因此该装置的实施可以参见基于数据增强的中文语法纠错方法的实施,重复之处不再赘述。
图4为本发明实施例中基于数据增强的中文语法纠错装置的结构示意图,如图4所示,该装置(也可以称为基于BART噪声器的中文语法纠错模型)包括:
数据增强单元01,用于在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子,包括按照如下公式得到含有不同类型语法错误的句子;
训练单元02,用于将含有不同语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
处理单元03,用于利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
在一个实施例中,所述BART噪声器中的噪声函数可以包括字屏蔽、随机字替换和文本填充的其中之一或任意组合。
在一个实施例中,所述数据增强单元具体用于按照如下公式得到含有不同类型语法错误的句子:
Figure BDA0003147822260000101
其中
Figure BDA0003147822260000102
的第i个字由下式给出:
Figure BDA0003147822260000111
式中,X(t)为第t轮的输入源语句,fs(xi)是BART噪声器中的噪声函数,s∈{TM,RS,TI,Mixed},TM为字屏蔽,RS为随机字替换,TI为文本填充,Mixed为字屏蔽、随机字替换和文本填充的任意组合,p是在[0,1]的均匀分布上产生的随机数,δ是固定概率。
在一个实施例中,所述训练单元具体可以用于:
Figure BDA0003147822260000112
及Y构建成新的句子对S(t),训练所述神经语法纠错模型,其中:
Figure BDA0003147822260000113
为含有不同类型语法错误的句子,Y为输入源语句对应的目标语句,S(t)为所述当前轮训练批次的含噪样本对。
在一个实施例中,所述神经语法纠错模型可以为基于Transformer结构的神经语法纠错模型;
如图5所示,所述基于数据增强的中文语法纠错装置还可以包括:初始化单元04,用于使用基于BERT的预训练模型权重对基于Transformer结构的神经语法纠错模型进行参数初始化。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于数据增强的中文语法纠错方法。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述基于数据增强的中文语法纠错方法的步骤。
本发明实施例中,基于数据增强的中文语法纠错方案,通过:在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;利用增强处理后的神经语法纠错模型进行中文语法纠错处理,可以通过基于BART噪声器的数据增强算法,在模型训练的过程中自动生成大量含有不同类型语法错误的含噪文本,进而得到高性能的神经语法纠错模型,利用该高性能的神经语法纠错模型可以实现高效准确地进行中文语法纠错。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于数据增强的中文语法纠错方法,其特征在于,包括:
在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子;
将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
2.如权利要求1所述的基于数据增强的中文语法纠错方法,其特征在于,所述BART噪声器中的噪声函数包括字屏蔽、随机字替换和文本填充的其中之一或任意组合。
3.如权利要求2所述的基于数据增强的中文语法纠错方法,其特征在于,在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子,包括按照如下公式得到含有不同类型语法错误的句子:
Figure FDA0003147822250000011
其中
Figure FDA0003147822250000012
的第i个字由下式给出:
Figure FDA0003147822250000013
式中,X(t)为第t轮的输入源语句,fs(xi)是BART噪声器中的噪声函数,s∈{TM,RS,TI,Mixed},TM为字屏蔽,RS为随机字替换,TI为文本填充,Mixed为字屏蔽、随机字替换和文本填充的任意组合,p是在[0,1]的均匀分布上产生的随机数,δ是固定概率。
4.如权利要求3所述的基于数据增强的中文语法纠错方法,其特征在于,将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,包括:
Figure FDA0003147822250000014
及Y构建成新的句子对S(t),训练所述神经语法纠错模型,其中:
Figure FDA0003147822250000015
为含有不同类型语法错误的句子,Y为输入源语句对应的目标语句,S(t)为所述当前轮训练批次的含噪样本对。
5.如权利要求1所述的基于数据增强的中文语法纠错方法,其特征在于,所述神经语法纠错模型为基于Transformer结构的神经语法纠错模型;
所述基于数据增强的中文语法纠错方法还包括:使用基于BERT的预训练模型权重对基于Transformer结构的神经语法纠错模型进行参数初始化。
6.一种基于数据增强的中文语法纠错装置,其特征在于,包括:
数据增强单元,用于在训练神经语法纠错模型过程中,以预设固定概率,将当前轮训练批次的输入源语句中的每个字通过BART噪声器中的噪声函数进行映射处理,得到含有不同类型语法错误的句子,包括按照如下公式得到含有不同类型语法错误的句子;
训练单元,用于将含有不同类型语法错误的句子及输入源语句对应的目标语句作为所述当前轮训练批次的含噪样本对,训练所述神经语法纠错模型,直至满足预设训练终止条件,得到数据增强处理后的神经语法纠错模型;
处理单元,用于利用增强处理后的神经语法纠错模型进行中文语法纠错处理。
7.如权利要求6所述的基于数据增强的中文语法纠错装置,其特征在于,所述BART噪声器中的噪声函数包括字屏蔽、随机字替换和文本填充的其中之一或任意组合。
8.如权利要求6所述的基于数据增强的中文语法纠错装置,其特征在于,所述数据增强单元具体用于按照如下公式得到含有不同类型语法错误的句子:
Figure FDA0003147822250000021
其中
Figure FDA0003147822250000022
的第i个字由下式给出:
Figure FDA0003147822250000023
式中,X(t)为第t轮的输入源语句,fs(xi)是BART噪声器中的噪声函数,s∈{TM,RS,TI,Mixed},TM为字屏蔽,RS为随机字替换,TI为文本填充,Mixed为字屏蔽、随机字替换和文本填充的任意组合,p是在[0,1]的均匀分布上产生的随机数,δ是固定概率。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5任一所述方法的步骤。
CN202110758581.5A 2021-07-05 2021-07-05 基于数据增强的中文语法纠错方法及装置 Pending CN113822054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758581.5A CN113822054A (zh) 2021-07-05 2021-07-05 基于数据增强的中文语法纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758581.5A CN113822054A (zh) 2021-07-05 2021-07-05 基于数据增强的中文语法纠错方法及装置

Publications (1)

Publication Number Publication Date
CN113822054A true CN113822054A (zh) 2021-12-21

Family

ID=78924156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110758581.5A Pending CN113822054A (zh) 2021-07-05 2021-07-05 基于数据增强的中文语法纠错方法及装置

Country Status (1)

Country Link
CN (1) CN113822054A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510925A (zh) * 2022-01-25 2022-05-17 森纵艾数(北京)科技有限公司 一种中文文本纠错方法、系统、终端设备及存储介质
CN115906815A (zh) * 2023-03-08 2023-04-04 北京语言大学 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN116167388A (zh) * 2022-12-27 2023-05-26 无锡捷通数智科技有限公司 专有词翻译模型训练方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510925A (zh) * 2022-01-25 2022-05-17 森纵艾数(北京)科技有限公司 一种中文文本纠错方法、系统、终端设备及存储介质
CN116167388A (zh) * 2022-12-27 2023-05-26 无锡捷通数智科技有限公司 专有词翻译模型训练方法、装置、设备及存储介质
CN115906815A (zh) * 2023-03-08 2023-04-04 北京语言大学 一种用于修改一种或多种类型错误句子的纠错方法及装置

Similar Documents

Publication Publication Date Title
US20210390271A1 (en) Neural machine translation systems
US11501182B2 (en) Method and apparatus for generating model
CN110532554B (zh) 一种中文摘要生成方法、系统及存储介质
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN113822054A (zh) 基于数据增强的中文语法纠错方法及装置
CN111062205B (zh) 一种中文自动语法纠错中的动态掩码训练方法
CN111727442A (zh) 使用质量分数来训练序列生成神经网络
CN104462072A (zh) 面向计算机辅助翻译的输入方法与装置
CN111738002A (zh) 基于Lattice LSTM的古文领域命名实体识别方法和系统
CN115293138B (zh) 一种文本纠错方法及计算机设备
CN115795009A (zh) 基于生成式多语言模型的跨语言问答系统构建方法和装置
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN112417092A (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN111125333A (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN115293139A (zh) 一种语音转写文本纠错模型的训练方法和计算机设备
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN115017924B (zh) 跨语际语言翻译的神经机器翻译模型构建及其翻译方法
CN116340507A (zh) 一种基于混合权重和双通道图卷积的方面级情感分析方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
CN114881010A (zh) 一种基于Transformer和多任务学习的中文语法纠错方法
CN114330375A (zh) 一种基于固定范式的术语翻译方法及系统
CN111709245A (zh) 基于语义自适应编码的汉-越伪平行句对抽取方法
CN115293177B (zh) 基于二重迁移学习的小语种神经网络机器翻译方法及系统
CN114996424B (zh) 一种基于深度学习的弱监督跨域问答对生成方法
CN115905500B (zh) 问答对数据的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination