CN113627158A - 基于多表征和多预训练模型的中文拼写纠错方法及装置 - Google Patents

基于多表征和多预训练模型的中文拼写纠错方法及装置 Download PDF

Info

Publication number
CN113627158A
CN113627158A CN202110751495.1A CN202110751495A CN113627158A CN 113627158 A CN113627158 A CN 113627158A CN 202110751495 A CN202110751495 A CN 202110751495A CN 113627158 A CN113627158 A CN 113627158A
Authority
CN
China
Prior art keywords
corrected
chinese
character
word
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110751495.1A
Other languages
English (en)
Inventor
黄河燕
顾雅涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast Institute Of Information Technology Beijing University Of Technology
Nanjing University of Science and Technology
Original Assignee
Southeast Institute Of Information Technology Beijing University Of Technology
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast Institute Of Information Technology Beijing University Of Technology, Nanjing University of Science and Technology filed Critical Southeast Institute Of Information Technology Beijing University Of Technology
Priority to CN202110751495.1A priority Critical patent/CN113627158A/zh
Publication of CN113627158A publication Critical patent/CN113627158A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提出了基于多表征和多预训练模型的中文拼写纠错方法及装置,方法包括:将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;特征值包括词边界特征值以及偏旁特征值;将带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;用预先设定的标记替换待纠正字,获取中间待纠错中文;将中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换待纠正字,获取纠正后的中文。本申请提供的方法能从多个角度识别出拼写错误,提高了拼写纠错的准确率。

Description

基于多表征和多预训练模型的中文拼写纠错方法及装置
技术领域
本申请涉及中文纠错技术领域,特别涉及基于多表征和多预训练模型的中文拼写纠错方法及装置。
背景技术
包括语音识别错误、图片转文本错误、书写错误等拼写错误广泛的出现在我们的生活中。据调查约83%的拼写错误与语音相似性有关,约48%的拼写错误与视觉相似性有关。这些拼写错误对于下游的例如图形识别和命名实体识别等任务具有很大的影响。
拼写纠错也是一项非常具有挑战性的任务,一种良好的拼写纠错方法需要具备深层的语言理解和联系上下文的能力。目前导致拼写错误主要由以下三种原因造成:原因1为,中文文本缺少单词的边界信息,导致单词划分出现错误;原因2为,中文在形态上隐含的信息被误识别;原因3为,拼写过程中,词语被同音近意词替换。针对以上三中造成错误的主要原因,工作人员也采取了相应的拼写纠错方法。虽然上述的拼写错误都具有一定的纠正方法,但是,目前的方法都只侧重某一方面的功能,无法实现中文拼写方法中全方面的纠错。
发明内容
本申请提供了基于多表征和多预训练模型的中文拼写纠错方法及装置,可用于解决现有技术中无法实现全面纠错的技术问题。
第一方面,本申请实施例提供基于多表征和多预训练模型的中文拼写纠错方法,所述方法包括:
将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;所述特征值包括词边界特征值以及偏旁特征值;
将所述带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;
用预先设定的标记替换所述待纠正字,获取中间待纠错中文;
将所述中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换所述待纠正字,获取纠正后的中文。
结合第一方面,在第一方面的一种可实现方式中,如果所述混淆集中不存在所述目标正确字,则利用三元文法以及困惑度对候选句打分;
并将分数最高的候选句作为所述纠正后的中文。
结合第一方面,在第一方面的一种可实现方式中,在将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,之前,还包括:
对所述待纠错中文进行数据预处理;所述数据预处理包括将所述待纠错中文从繁体形式转变为简体形式,以及对对所述待纠错中文中的错误字进行标记,以及对所述待纠错中文的句首以及句尾进行标记。
结合第一方面,在第一方面的一种可实现方式中,所述提取偏旁特征处理包括:
将所述待纠错中文中的每个字的偏旁映射到线性空间上,然后对线性空间的值进行压缩编码,得到偏旁向量,并将所述偏旁向量添加到对应的字的向量中。
结合第一方面,在第一方面的一种可实现方式中,所述错字识别模型采用以下方法确定:
所述错字识别模型为双向长短期记忆网络模型;
将样本数据划分为多组训练集数据以及测试集数据;所述样本数据为用于训练的带有特征值的待纠错中文;
将所述训练集数据输入所述错字识别模型,进行训练,确定所述错字识别模型的参数以及权重,直至所述测试集数据输入所述错字识别模型中后,得到预期的识别结果;
其中,所述双向长短期记忆网络模型的构建方法如下:
Figure BDA0003144592050000021
Figure BDA0003144592050000022
Figure BDA0003144592050000023
式中,
Figure BDA0003144592050000024
为前一个字的正序隐藏层信息;
Figure BDA0003144592050000025
为前一个字的逆序隐藏层信息;wi表示任一带有特征值的待纠错中文中第i个字;
使用条件随机场算法预测所述错字识别模型的识别结果,并用维特比优化算法优化。
结合第一方面,在第一方面的一种可实现方式中,使用条件随机场算法预测所述错字识别模型的识别结果,并用维特比优化算法优化,包括:
带有标签的训练样本表示为(Wt,yt);其中,Wt表示一个批次中第t个句子,yt=(y1,…,yi,…,yn)表示第t个句子真实的标签序列,yi表示真实标签序列的第i项,n表示真实标签序列的长度;
假定条件随机场层的输入是Zt=(z1,z2,…,zi,…zn),其中;Zt表示前馈神经网络层的输出,zi表示输出序列中的第i项,n表示Zt的长度;
后验概率为
Figure BDA0003144592050000026
为预测的标签序列,
Figure BDA0003144592050000027
表示预测的标签序列中的第i项,
Figure BDA0003144592050000028
的公式如下:
Figure BDA0003144592050000029
式中,Y(Zt)是所有预测的标签序列,并且,
Figure BDA00031445920500000210
Figure BDA00031445920500000211
表示(yj-1,yj)的权重;
Figure BDA00031445920500000212
表示(yj-1,yj)的偏置参数;j表示序列中任何一个标签;使得后验概率最大的
Figure BDA00031445920500000213
就是最后的预测结果;
具体的,采用最小化损失函数来实现,所述最小化损失函数如下:
Figure BDA00031445920500000214
式中,L为最小化损失函数;
在所述测试集数据上进行测试时,找到最优的序列ybest就需要最大化p(yt|Zt),具体的:
Figure BDA00031445920500000215
以上步骤采用维特比优化算法优化。
结合第一方面,在第一方面的一种可实现方式中,利用三元文法以及困惑度对候选句打分,包括:
Scoretp=λ·ScoreTri-gram-(1-λ)·Scoreppl,
ScoreTri-Gram=p(w1)·p(w2|w1)·p(w3|w2,w1)...p(wn|wn-1,wn-2),
Figure BDA00031445920500000216
式中,ScoreTri-Gram是三元文法得分;Scoreppl是困惑度得分;Scoretp表示三元文法和困惑度的得分加权求和,λ∈[0,1]是权重系数。
第二方面,本申请提出了基于多表征和多预训练模型的中文拼写纠错装置,所述装置包括:
获取模块,用于将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;所述特征值包括词边界特征值以及偏旁特征值;
识别模块,用于将所述带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;
替换模块,用于用预先设定的标记替换所述待纠正字,获取中间待纠错中文;
处理模块,用于将所述中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换所述待纠正字,获取纠正后的中文。
结合第二方面,在第二方面的一种可实现方式中,所述处理模块,还用于:
如果所述混淆集中不存在所述目标正确字,则利用三元文法以及困惑度对候选句打分;
并将分数最高的候选句作为所述纠正后的中文。
结合第二方面,在第二方面的一种可实现方式中,所述处理模块,还用于:
对所述待纠错中文进行数据预处理;所述数据预处理包括将所述待纠错中文从繁体形式转变为简体形式,以及对对所述待纠错中文中的错误字进行标记,以及对所述待纠错中文的句首以及句尾进行标记
结合第二方面,在第二方面的一种可实现方式中,所述获取模块具体用于:
将所述待纠错中文中的每个字的偏旁映射到线性空间上,然后对线性空间的值进行压缩编码,得到偏旁向量,并将所述偏旁向量添加到对应的字的向量中。
结合第二方面,在第二方面的一种可实现方式中,所述识别模块具体用于:
所述错字识别模型为双向长短期记忆网络模型;
将样本数据划分为多组训练集数据以及测试集数据;所述样本数据为用于训练的带有特征值的待纠错中文;
将所述训练集数据输入所述错字识别模型,进行训练,确定所述错字识别模型的参数以及权重,直至所述测试集数据输入所述错字识别模型中后,得到预期的识别结果;
其中,所述双向长短期记忆网络模型的构建方法如下:
Figure BDA0003144592050000031
Figure BDA0003144592050000032
Figure BDA0003144592050000033
式中,
Figure BDA0003144592050000034
为前一个字的正序隐藏层信息;
Figure BDA0003144592050000035
为前一个字的逆序隐藏层信息;wi表示任一带有特征值的待纠错中文中第i个字;
使用条件随机场算法预测所述错字识别模型的识别结果,并用维特比优化算法优化。
结合第二方面,在第二方面的一种可实现方式中,所述识别模块具体用于:
带有标签的训练样本表示为(Wt,yt);其中,Wt表示一个批次中第t个句子,yt=(y1,…,yi,…,yn)表示第t个句子真实的标签序列,yi表示真实标签序列的第i项,n表示真实标签序列的长度;
假定条件随机场层的输入是Zt=(z1,z2,…,zi,…zn),其中;Zt表示前馈神经网络层的输出,zi表示输出序列中的第i项,n表示Zt的长度;
后验概率为
Figure BDA0003144592050000036
为预测的标签序列,
Figure BDA0003144592050000037
表示预测的标签序列中的第i项,
Figure BDA0003144592050000038
的公式如下:
Figure BDA0003144592050000039
式中,Y(Zt)是所有预测的标签序列,并且,
Figure BDA00031445920500000310
Figure BDA00031445920500000311
表示(yj-1,yj)的权重;
Figure BDA00031445920500000312
表示(yj-1,yj)的偏置参数;j表示序列中任何一个标签;使得后验概率最大的
Figure BDA00031445920500000313
就是最后的预测结果;
具体的,采用最小化损失函数来实现,所述最小化损失函数如下:
Figure BDA0003144592050000041
式中,L为最小化损失函数;
在所述测试集数据上进行测试时,找到最优的序列ybest就需要最大化p(yt|Zt),具体的:
Figure BDA0003144592050000042
以上步骤采用维特比优化算法优化。
结合第二方面,在第二方面的一种可实现方式中,所述处理模块具体用于:
Scoretp=λ·ScoreTri-gram-(1-λ)·Scoreppl,
ScoreTri-Gram=p(w1)·p(w2|w1)·p(w3|w2,w1)...p(wn|wn-1,wn-2),
Figure BDA0003144592050000043
式中,ScoreTri-Gram是三元文法得分;Scoreppl是困惑度得分;Scoretp表示三元文法和困惑度的得分加权求和,λ∈[0,1]是权重系数。
本申请在特征抽取的编码阶段融合了深层语义、词边界和字偏旁部首特征,解决了现有模型无法正确分词和无法学习到视觉信息的缺点。另一方面,提出了多种预训练模型,将预训练模型无法预测的字在混淆集上使用困惑度和Tri-gram机制打分后重排序,使用最优的结果进行纠正。由于考虑到了错误字与候选字的语音和视觉相似性,与现有技术相比有效地提高了中文文本校正的准确率。
附图说明
图1为本申请实施例适用的基于多表征和多预训练模型的中文拼写纠错方法对应的流程示意图;
图2为本申请实施例提供的一种词边界示意图;
图3为本申请实施例提供的一种偏旁部首信息示意图;
图4为本申请实施例提供的一种检错阶段示意图;
图5为本申请实施例提供的一种校正阶段的流程示图;
图6为本申请实施例提供的基于多表征和多预训练模型的中文拼写纠错装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了本申请实施例叙述方便,首先对本申请实施例中涉及到的专业词汇进行解释。
中文拼写纠错,即从句子中检测并校正错误拼写的字。
词边界特征,即中文句子中词组之间的边界特征。
BiLSTM网络,即双向长短时记忆网络(LSTM),是一种适合于序列数据的神经网络。BiLSTM由前向LSTM与后向LSTM组合而成。
条件随机场(Conditional Random field,CRF),即一种鉴别式机率模型,用于在众多预测标签序列中找出最接近真实的标签序列。
维特比优化算法(Viterbi),即一种动态规划算法用于寻找最有可能产生观测时间序列的路径序列,可以用来加速条件随机场的搜寻过程。
独热编码(one-hot),即使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位。
隐藏层,神经网络模型中除了输入和输出层之外还有的基层称之为隐藏层。
Word2vec模型,即一种用来产生词向量的相关模型,可用来映射每个词到一个向量,表示词对词之间的关系,该向量为神经网络之隐藏层。
注意力机制,即一种关注特殊信息的神经网络模型,其功能是使得神经网络具备关注其重要输入信息,而忽略次要输入信息。
BERT编码器,即一种基于双向注意力机制的预训练语言表征模型编码器,能够将字编码成神经网络的隐藏层向量。
BERT预训练模型,即一种预先训练的、能够预测被掩盖字(MASK)并生成多个候选字的模型,在预训练阶段时随机掩盖每个句子中15%的词,用其上下文来预测被掩盖的字。
ROBERTA预训练模型,即一种预先训练的、能够预测被掩盖字并生成多个候选字的模型,在BERT的基础之上,在预训练阶段采用了动态掩盖策略,每一轮的掩盖的字都保证不相同,然后用其上下文来预测被掩盖的字。
ELECTRA预训练模型,即一种预先训练的、能够预测被掩盖字并生成多个候选字的模型,使用判别模块判断句子中的每个字是否被替换的预训练语言表征模型。
ERNIE预训练模型,即一种预先训练的、能够预测被掩盖字并生成多个候选字的模型,在BERT的基础上,在预训练的基础上对实体和短语进行掩盖,用其上下文来预测被掩盖的字。
混淆集,即一种包含了中文大部分同音同形字、前后鼻音相似字、平卷舌相似字、常用字的字典,用于生成被掩盖字的候选字,以及判断预训练模型预测的字是否正确。
N元文法(N-gram),即一种基于马尔可夫模型上的一种概率算法,它将文本里面的内容按照词组大小为N的滑动窗口操作,形成多个词组片段,根据前N个字计算当前字的后验概率。
三元文法(Tri-gram),即N=3的N元文法。
困惑度(Perplexity,ppl),即评价整个句子是否通顺的指标。
检错阶段,即通过神经网络训练检错模型,标注出错误位置后将错误位置的字掩盖,再将包含掩盖字的句子送入校正阶段。
校正阶段,即根据多个预训练模型和混淆集的结合,预测掩盖位置的字。
目前造成中文拼写错误的原因主要有三种,如表1所示,为中文拼写错误的三种原因。
表1:中文文本纠错的例子
Figure BDA0003144592050000051
表1中示出了中文的拼写错误的例子,与英文等西方语言相比,中文拼写检查更为复杂,因为中文文本缺少单词的边界符。第一个例子中,“他既/温柔又幽默”被错误地识别成了“他祭文/柔又幽默”。这是由于识别过程中缺少词边界的信息导致。作为最古老的象形文字之一,中文在形态上也隐含了信息。在第二个例子中,“耕耘”被错误的转换成了“耕云”。这是由于转换过程中模型忽视了“耕”和“耘”都包含了相同的偏旁部首“耒”这一特征。中文也是一种上下文敏感的语言。在第三个例子中,“素描”被错误地识别成了“速描”,其实二者都可以,但是“素描”的使用的概率大一些。
对于第一种问题,以往的技术主要依赖于中文分词系统。但是,由于一般分词系统是在正确的语料上进行训练,包含错误的句子可能会使分词出错。尽管词向量表示可以避免分词错误,却因缺少分词信息而导致纠错效果不佳。
对于第二种问题,以往技术中主要是基于偏旁部首的规则纠错。然而规则的设计需要额外的人力和物力,且不具备可拓展性。另一种技术,基于神经网络的语言模型,神经网络能够学习到词之间的逻辑关系,却很难学习字视觉上的特征。
对于第三种问题,之前的技术中使用统计模型来统计每个词和前n个词同时出现的概率,如N-gram语言模型。然而N-gram模型没能考虑到长距离依赖。另一种技术,基于注意力机制的预训练模型,其根据整句话词之间的关联度来解决长距离依赖的问题,但注意力机制的预训练模型忽视了被掩盖词与候选词语音和视觉上的相似。
本申请实施例提供的方法可以有效解决以上问题。
下面首先结合图1对本申请实施例适用的可能的系统架构进行介绍。
请参考图1,其示例性示出了本申请实施例适用的基于多表征和多预训练模型的中文拼写纠错方法对应的流程示意图。本申请实施例提供的方法包括以下步骤:
在执行步骤S101之前,首先执行以下数据预处理步骤:
对待纠错中文进行数据预处理。数据预处理包括将待纠错中文从繁体形式转变为简体形式,以及对待纠错中文中的错误字进行标记,以及对待纠错中文的句首以及句尾进行标记。
具体的,对正确的字标记上正确标记。在待纠错中文的句首加上起始标记,例如[CLS]。在待纠错中文的句尾加上起始标记,例如[SEP]。
使用BERT编码器获得待纠错句的词向量。具体实施方案是将每个字转换成768维的预训练词向量,未知的字使用<PAD>记号填充。
步骤S101,将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文。
特征值包括词边界特征值以及偏旁特征值。
如图2所示为本申请实施例提供的一种词边界示意图。本申请实施例提供的方法就是让每个字带上词边界特征,进行融合词边界处理。
本申请实施例中,提取偏旁特征处理包括:
将待纠错中文中的每个字的偏旁映射到线性空间上,然后对线性空间的值进行压缩编码,得到偏旁向量,并将偏旁向量添加到对应的字的向量中。
具体的,使用分词模块对正确的句子进行分词,再映射到线性空间转换为独热编码的形式存储。偏旁部首包含了中文的一些深层信息,这里使用偏旁部首提取模块(Radical)提取中文的偏旁部首信息,如图3所示为本申请实施例提供的一种偏旁部首信息示意图。
具体实施方案是将偏旁部首映射到线性空间上,最后使用Word2vec对线性空间的值进行压缩编码得到偏旁部首向量。
步骤S102,将带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字。
具体的,本申请实施例中错字识别模型为双向长短期记忆网络模型。
将样本数据划分为多组训练集数据以及测试集数据。样本数据为用于训练的带有特征值的待纠错中文。
将训练集数据输入错字识别模型,进行训练,确定错字识别模型的参数以及权重,直至测试集数据输入错字识别模型中后,得到预期的识别结果。
其中,双向长短期记忆网络模型的构建方法如下:
Figure BDA0003144592050000061
Figure BDA0003144592050000062
Figure BDA0003144592050000063
式中,
Figure BDA0003144592050000064
为前一个字的正序隐藏层信息。
Figure BDA0003144592050000065
为前一个字的逆序隐藏层信息。wi表示任一带有特征值的待纠错中文中第i个字。
使用条件随机场算法预测错字识别模型的识别结果,并用维特比优化算法优化。
具体的,带有标签的训练样本表示为(Wt,yt)。其中,Wt表示一个批次中第t个句子,yt=(y1,…,yi,…,yn)表示第t个句子真实的标签序列,yi表示真实标签序列的第i项,n表示真实标签序列的长度。
假定条件随机场层的输入是Zt=(z1,z2,…,zi,…zn),其中。Zt表示前馈神经网络层的输出,zi表示输出序列中的第i项,n表示Zt的长度。
后验概率为
Figure BDA0003144592050000071
为预测的标签序列,
Figure BDA0003144592050000072
表示预测的标签序列中的第i项,
Figure BDA0003144592050000073
的公式如下:
Figure BDA0003144592050000074
式中,Y(Zt)是所有预测的标签序列,并且,
Figure BDA0003144592050000075
Figure BDA0003144592050000076
表示(yj-1,yj)的权重。
Figure BDA0003144592050000077
表示(yj-1,yj)的偏置参数。j表示序列中任何一个标签。使得后验概率最大的
Figure BDA0003144592050000078
就是最后的预测结果。
条件随机场的作用是在众多的预测标签序列结果中找出最接近真实标签序列的预测标签序列,维特比算法的作用是加速条件随机场的搜寻过程。
具体的,采用最小化损失函数来实现,最小化损失函数如下:
Figure BDA0003144592050000079
式中,L为最小化损失函数。
在测试集数据上进行测试时,找到最优的序列ybest就需要最大化p(yt|Zt),具体的:
Figure BDA00031445920500000710
以上步骤采用维特比优化算法优化。
步骤S103,用预先设定的标记替换待纠正字,获取中间待纠错中文。
具体的,对于有疑似错误标记的字使用[MASK]标记掩盖。
步骤S104,将中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换待纠正字,获取纠正后的中文。
本申请实施例中多预训练模型包含了BERT预训练模型、ROBERTA预训练模型、ELECTRA预训练模型和ERNIE预训练模型。
预训练模型无须额外的训练步骤,需要选取合适的材料,例如在人民日报2014版和语音数据集上进行了5轮微调以适应数据集,然后直接进行预测。将数据输入到每一个预训练模型中,分别进行预测,生成总的候选字集合。
候选字集合命中混淆集则将候选字填入句子后将句子输出。
需要说明的是,为了更好的适应语音转文本的纠错,在混淆集中包含了中文大部分同音同形字、前后鼻音相似字、平卷舌相似字和常用字。例如,“千(qian)”和“嵌(qian)”同音,“千”是“迁”是同形,“跟(gen)”和“更(geng)”是前后鼻音相似,“冲(chong)”和“匆(cong)”是平卷舌相似。
本申请实施例在实施过程中,还存在一种可能性,即候选字集合未命中混淆集,则继续执行以下步骤:
利用三元文法以及困惑度对候选句打分;
并将分数最高的候选句作为纠正后的中文。
具体的,采用以下方法:
Scoretp=λ·ScoreTri-gram-(1-λ)·Scoreppl,
ScoreTri-Gram=p(w1)·p(w2|w1)·p(w3|w2,w1)...p(wn|wn-1,wn-2),
Figure BDA00031445920500000711
式中,ScoreTri-Gram是三元文法得分;Scoreppl是困惑度得分;Scoretp表示三元文法和困惑度的得分加权求和,λ∈[0,1]是权重系数。
为了进一步说明本申请实施提供的方法,下面结合一个实施例进行说明。
如待纠错中文为:“一分耕云一分收货阿。在进行数据预处理后变成了“[CLS]一分耕云一分收货阿[SEP]”。在步骤S101中标记出“云”、“货”和“阿”出错,使用多预训练模型预测“耕耘”,“耕作”,“耕种”,“耕读”,“耕农”中“耕耘”的概率最高。同理“收获”的概率也最高,但是多预训练模型在预测最后一个“阿”的时候前5个全是标点符号。出现这种情况由于“阿”字位于句末,导致了模型误以为句子已经结束。使用“阿”对应混淆集中的目标正确字,如“啊”、“阿”、“俄”、“额”来替换被掩盖的字。最后打分排序,得到“啊”的概率最高,最后输出正确的句子“一分耕耘一分收获啊”。
本申请实施例提供的方法包括两个阶段,第一阶段为检错阶段,如图4所示,为本申请实施例提供的一种检错阶段示意图,对应本申请实施例中的步骤S101至步骤S102。
如图5所示,为本申请实施例提供的一种校正阶段的流程示图,对应本申请实施例中的步骤S103至步骤S104。
本申请实施例在特征抽取的编码阶段融合了深层语义、词边界和字偏旁部首特征,解决了现有模型无法正确分词和无法学习到视觉信息的缺点。另一方面,提出了多种预训练模型,将预训练模型无法预测的字在混淆集上使用困惑度和Tri-gram机制打分后重排序,使用最优的结果进行纠正。由于考虑到了错误字与候选字的语音和视觉相似性,与现有技术相比有效地提高了中文文本校正的准确率。
图6示例性示出了本申请实施例提供的基于多表征和多预训练模型的中文拼写纠错装置的结构示意图。如图6所示,该装置具有实现上述基于多表征和多预训练模型的中文拼写纠错方法的功能。所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以包括:获取模块601、识别模块602、替换模块603以及处理模块604。
获取模块601,用于将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文。特征值包括词边界特征值以及偏旁特征值。
识别模块602,用于将带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字。
替换模块603,用于用预先设定的标记替换待纠正字,获取中间待纠错中文。
处理模块604,用于将中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换待纠正字,获取纠正后的中文。
可选的,处理模块604,还用于:
如果混淆集中不存在目标正确字,则利用三元文法以及困惑度对候选句打分。
并将分数最高的候选句作为纠正后的中文。
可选的,处理模块604,还用于:
对待纠错中文进行数据预处理。数据预处理包括将待纠错中文从繁体形式转变为简体形式,以及对对待纠错中文中的错误字进行标记,以及对待纠错中文的句首以及句尾进行标记
可选的,获取模块601具体用于:
将待纠错中文中的每个字的偏旁映射到线性空间上,然后对线性空间的值进行压缩编码,得到偏旁向量,并将偏旁向量添加到对应的字的向量中。
可选的,识别模块602具体用于:
错字识别模型为双向长短期记忆网络模型。
将样本数据划分为多组训练集数据以及测试集数据。样本数据为用于训练的带有特征值的待纠错中文。
将训练集数据输入错字识别模型,进行训练,确定错字识别模型的参数以及权重,直至测试集数据输入错字识别模型中后,得到预期的识别结果。
其中,双向长短期记忆网络模型的构建方法如下:
Figure BDA0003144592050000081
Figure BDA0003144592050000082
Figure BDA0003144592050000083
式中,
Figure BDA0003144592050000084
为前一个字的正序隐藏层信息。
Figure BDA0003144592050000085
为前一个字的逆序隐藏层信息。wi表示任一带有特征值的待纠错中文中第i个字。
使用条件随机场算法预测错字识别模型的识别结果,并用维特比优化算法优化。
可选的,识别模块602具体用于:
带有标签的训练样本表示为(Wt,yt)。其中,Wt表示一个批次中第t个句子,yt=(y1,…,yi,…,yn)表示第t个句子真实的标签序列,yi表示真实标签序列的第i项,n表示真实标签序列的长度。
假定条件随机场层的输入是Zt=(z1,z2,…,zi,…zn),其中。Zt表示前馈神经网络层的输出,zi表示输出序列中的第i项,n表示Zt的长度。
后验概率为
Figure BDA0003144592050000091
为预测的标签序列,
Figure BDA0003144592050000092
表示预测的标签序列中的第i项,
Figure BDA0003144592050000093
的公式如下:
Figure BDA0003144592050000094
式中,Y(Zt)是所有预测的标签序列,并且,
Figure BDA0003144592050000095
Figure BDA0003144592050000096
表示(yj-1,yj)的权重。
Figure BDA0003144592050000097
表示(yj-1,yj)的偏置参数。j表示序列中任何一个标签。使得后验概率最大的
Figure BDA0003144592050000098
就是最后的预测结果。
具体的,采用最小化损失函数来实现,最小化损失函数如下:
Figure BDA0003144592050000099
式中,L为最小化损失函数。
在测试集数据上进行测试时,找到最优的序列ybest就需要最大化p(yt|Zt),具体的:
Figure BDA00031445920500000910
以上步骤采用维特比优化算法优化。
可选的,处理模块604具体用于:
Scoretp=λ·ScoreTri-gram-(1-λ)·Scoreppl,
ScoreTri-Gram=p(w1)·p(w2|w1)·p(w3|w2,w1)...p(wn|wn-1,wn-2),
Figure BDA00031445920500000911
式中,ScoreTri-Gram是三元文法得分。Scoreppl是困惑度得分。Scoretp表示三元文法和困惑度的得分加权求和,λ∈[0,1]是权重系数。
本申请实施例在特征抽取的编码阶段融合了深层语义、词边界和字偏旁部首特征,解决了现有模型无法正确分词和无法学习到视觉信息的缺点。另一方面,提出了多种预训练模型,将预训练模型无法预测的字在混淆集上使用困惑度和Tri-gram机制打分后重排序,使用最优的结果进行纠正。由于考虑到了错误字与候选字的语音和视觉相似性,与现有技术相比有效地提高了中文文本校正的准确率。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于服务构建装置和服务加载装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims (10)

1.基于多表征和多预训练模型的中文拼写纠错方法,其特征在于,所述方法包括:
将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;所述特征值包括词边界特征值以及偏旁特征值;
将所述带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;
用预先设定的标记替换所述待纠正字,获取中间待纠错中文;
将所述中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换所述待纠正字,获取纠正后的中文。
2.根据权利要求1所述的方法,其特征在于,如果所述混淆集中不存在所述目标正确字,则利用三元文法以及困惑度对候选句打分;
并将分数最高的候选句作为所述纠正后的中文。
3.根据权利要求1所述的方法,其特征在于,在将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,之前,还包括:
对所述待纠错中文进行数据预处理;所述数据预处理包括将所述待纠错中文从繁体形式转变为简体形式,以及对对所述待纠错中文中的错误字进行标记,以及对所述待纠错中文的句首以及句尾进行标记。
4.根据权利要求1所述的方法,其特征在于,所述提取偏旁特征处理包括:
将所述待纠错中文中的每个字的偏旁映射到线性空间上,然后对线性空间的值进行压缩编码,得到偏旁向量,并将所述偏旁向量添加到对应的字的向量中。
5.根据权利要求1所述的方法,其特征在于,所述错字识别模型采用以下方法确定:
所述错字识别模型为双向长短期记忆网络模型;
将样本数据划分为多组训练集数据以及测试集数据;所述样本数据为用于训练的带有特征值的待纠错中文;
将所述训练集数据输入所述错字识别模型,进行训练,确定所述错字识别模型的参数以及权重,直至所述测试集数据输入所述错字识别模型中后,得到预期的识别结果;
其中,所述双向长短期记忆网络模型的构建方法如下:
Figure FDA0003144592040000011
Figure FDA0003144592040000012
Figure FDA0003144592040000013
式中,
Figure FDA0003144592040000014
为前一个字的正序隐藏层信息;
Figure FDA0003144592040000015
为前一个字的逆序隐藏层信息;wi表示任一带有特征值的待纠错中文中第i个字;
使用条件随机场算法预测所述错字识别模型的识别结果,并用维特比优化算法优化。
6.根据权利要求5所述的方法,其特征在于,使用条件随机场算法预测所述错字识别模型的识别结果,并用维特比优化算法优化,包括:
带有标签的训练样本表示为(Wt,yt);其中,Wt表示一个批次中第t个句子,yt=(y1,…,yi,…,yn)表示第t个句子真实的标签序列,yi表示真实标签序列的第i项,n表示真实标签序列的长度;
假定条件随机场层的输入是Zt=(z1,z2,…,zi,…zn),其中;Zt表示前馈神经网络层的输出,zi表示输出序列中的第i项,n表示Zt的长度;
后验概率为
Figure FDA0003144592040000021
为预测的标签序列,
Figure FDA0003144592040000022
表示预测的标签序列中的第i项,
Figure FDA0003144592040000023
的公式如下:
Figure FDA0003144592040000024
式中,Y(Zt)是所有预测的标签序列,并且,
Figure FDA0003144592040000025
Figure FDA0003144592040000026
表示(yj-1,yj)的权重;
Figure FDA0003144592040000027
表示(yj-1,yj)的偏置参数;j表示序列中任何一个标签;使得后验概率最大的
Figure FDA0003144592040000028
就是最后的预测结果;
具体的,采用最小化损失函数来实现,所述最小化损失函数如下:
Figure FDA0003144592040000029
式中,L为最小化损失函数;
在所述测试集数据上进行测试时,找到最优的序列ybest就需要最大化p(yt|Zt),具体的:
Figure FDA00031445920400000210
以上步骤采用维特比优化算法优化。
7.根据权利要求1所述的方法,其特征在于,利用三元文法以及困惑度对候选句打分,包括:
Scoretp=λ·ScoreTri-gram-(1-λ)·Scoreppl,
ScoreTri-Gram=p(w1)·p(w2|w1)·p(w3|w2,w1)...p(wn|wn-1,wn-2),
Figure FDA00031445920400000211
式中,ScoreTri-Gram是三元文法得分;Scoreppl是困惑度得分;Scoretp表示三元文法和困惑度的得分加权求和,λ∈[0,1]是权重系数。
8.基于多表征和多预训练模型的中文拼写纠错装置,其特征在于,所述装置包括:
获取模块,用于将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;所述特征值包括词边界特征值以及偏旁特征值;
识别模块,用于将所述带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;
替换模块,用于用预先设定的标记替换所述待纠正字,获取中间待纠错中文;
处理模块,用于将所述中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换所述待纠正字,获取纠正后的中文。
9.根据权利要求8所述的装置,其特征在于,所述处理模块,还用于:
如果所述混淆集中不存在所述目标正确字,则利用三元文法以及困惑度对候选句打分;
并将分数最高的候选句作为所述纠正后的中文。
10.根据权利要求8所述的装置,其特征在于,所述处理模块,还用于:
对所述待纠错中文进行数据预处理;所述数据预处理包括将所述待纠错中文从繁体形式转变为简体形式,以及对对所述待纠错中文中的错误字进行标记,以及对所述待纠错中文的句首以及句尾进行标记。
CN202110751495.1A 2021-07-02 2021-07-02 基于多表征和多预训练模型的中文拼写纠错方法及装置 Pending CN113627158A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110751495.1A CN113627158A (zh) 2021-07-02 2021-07-02 基于多表征和多预训练模型的中文拼写纠错方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110751495.1A CN113627158A (zh) 2021-07-02 2021-07-02 基于多表征和多预训练模型的中文拼写纠错方法及装置

Publications (1)

Publication Number Publication Date
CN113627158A true CN113627158A (zh) 2021-11-09

Family

ID=78378920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110751495.1A Pending CN113627158A (zh) 2021-07-02 2021-07-02 基于多表征和多预训练模型的中文拼写纠错方法及装置

Country Status (1)

Country Link
CN (1) CN113627158A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510925A (zh) * 2022-01-25 2022-05-17 森纵艾数(北京)科技有限公司 一种中文文本纠错方法、系统、终端设备及存储介质
CN114861637A (zh) * 2022-05-18 2022-08-05 北京百度网讯科技有限公司 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN114861635A (zh) * 2022-05-10 2022-08-05 广东外语外贸大学 一种中文拼写纠错方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114510925A (zh) * 2022-01-25 2022-05-17 森纵艾数(北京)科技有限公司 一种中文文本纠错方法、系统、终端设备及存储介质
CN114861635A (zh) * 2022-05-10 2022-08-05 广东外语外贸大学 一种中文拼写纠错方法、装置、设备及存储介质
CN114861637A (zh) * 2022-05-18 2022-08-05 北京百度网讯科技有限公司 拼写纠错模型生成方法和装置、拼写纠错方法和装置
CN114861637B (zh) * 2022-05-18 2023-06-16 北京百度网讯科技有限公司 拼写纠错模型生成方法和装置、拼写纠错方法和装置

Similar Documents

Publication Publication Date Title
Xia et al. Multi-grained named entity recognition
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
Chiron et al. ICDAR2017 competition on post-OCR text correction
US9535896B2 (en) Systems and methods for language detection
CN106202153B (zh) 一种es搜索引擎的拼写纠错方法及系统
Kim et al. Two-stage multi-intent detection for spoken language understanding
CN109800414B (zh) 语病修正推荐方法及系统
CN111859921B (zh) 文本纠错方法、装置、计算机设备和存储介质
CN113627158A (zh) 基于多表征和多预训练模型的中文拼写纠错方法及装置
CN114818668B (zh) 一种语音转写文本的人名纠错方法、装置和计算机设备
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN113435186A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
CN110705262B (zh) 一种改进的应用于医技检查报告的智能纠错方法
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN116127952A (zh) 一种多粒度中文文本纠错方法和装置
CN110427619B (zh) 一种基于多通道融合与重排序的中文文本自动校对方法
CN107111607B (zh) 用于语言检测的系统和方法
Chen et al. Integrating natural language processing with image document analysis: what we learned from two real-world applications
KR20230009564A (ko) 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
CN114818669A (zh) 一种人名纠错模型的构建方法和计算机设备
CN114386399A (zh) 一种文本纠错方法及装置
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
Dutta Word-level language identification using subword embeddings for code-mixed Bangla-English social media data
Byambakhishig et al. Error correction of automatic speech recognition based on normalized web distance.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination