CN114970503A - 一种基于预训练的字音字形知识增强的中文拼写纠正方法 - Google Patents

一种基于预训练的字音字形知识增强的中文拼写纠正方法 Download PDF

Info

Publication number
CN114970503A
CN114970503A CN202210598799.3A CN202210598799A CN114970503A CN 114970503 A CN114970503 A CN 114970503A CN 202210598799 A CN202210598799 A CN 202210598799A CN 114970503 A CN114970503 A CN 114970503A
Authority
CN
China
Prior art keywords
character
training
chinese
characters
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210598799.3A
Other languages
English (en)
Inventor
赵铁军
王晨懿
徐冰
杨沐昀
朱聪慧
曹海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202210598799.3A priority Critical patent/CN114970503A/zh
Publication of CN114970503A publication Critical patent/CN114970503A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法。属于自然语言处理技术领域。本发明的目的是为了改进中文拼写纠正技术的准确性,更好地解决字音或字形混淆导致的拼写错误,节省人工复核的时间。本发明首先从数据库中取出待纠错文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。本发明还采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。本发明可用于各种文本纠错场景,提高了校验文章的效率。

Description

一种基于预训练的字音字形知识增强的中文拼写纠正方法
技术领域
本发明属于自然语言处理技术领域,特别是涉及一种基于预训练的字音字形知识增强的中文拼写纠正方法。
背景技术
随着互联网的飞速发展,文本的数量急速增长,传统的以人工为主的拼写纠错已经不能适应日益增多的电子文本信息的发展,面对这些无穷无尽的文章,人工逐字校验显然是不现实的。而自然语言处理技术的发展让机器自动修改文本中的拼写错误成为可能。此外,文本查错技术保证了许多常见应用的性能,在搜索引擎、文章自动评分、光学字符识别等应用中都发挥着重要作用。
然而目前的关键词抽取技术并不十分成熟,依旧有很多需要改进的地方。本发明提出的字音字形增强的中文拼写检查系统试图解决如下困难:
一、中文文本中的拼写错误大多与字音字形相关,据统计有76%的错误与发音相似有关,46%与字形相似有关,29%与二者都有关。因此,本发明在理解如何纠正错误的同时,整合了字符的字音字形知识;
二、最新的技术大多基于以BERT为代表的预训练语言模型,但是BERT预训练阶段的Masked language model任务和中文拼写纠正技术存在差异性,因此本发明采用了特定的mask策略和预训练任务,在大规模中文语料上预训练得到更适用于中文拼写纠正技术的预训练语言模型。
发明内容
本发明目的是为了解决现有技术中的问题,提出了一种基于预训练的字音字形知识增强的中文拼写纠正方法。所述方法能够更好地解决字音或字形混淆导致的拼写错误。
本发明是通过以下技术方案实现的,本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法,所述方法具体包括:
步骤一、对于输入的文本,从数据库中取出每个汉字的拼音和仓颉码作为字音和字形知识;
步骤二、将汉字的拼音和仓颉码映射到可训练的嵌入,然后将拼音序列和仓颉码序列嵌入进行编码,获得汉字的字音和字形特征向量;
步骤三、使用特定预训练任务在海量中文文本上预训练得到的语言模型作为编码器,将文本的字音字形特征和文本一起输入模型中,获得每个位置的字的上下文表示;
步骤四、使用词表大小的分类器,选择得分最高的分类结果对应的字符作为该位置的纠正结果。
进一步地,采用GRU网络分别对汉字的拼音序列和仓颉码序列进行编码,具体过程包括以下步骤:
步骤2.1、对于输入的每个字符c,获得其拼音序列和仓颉码序列;
步骤2.2、将字符的拼音序列中的声母、韵母、声调,分别映射到可训练的嵌入,将字符的仓颉码序列中的每个字码也映射到可训练的嵌入,嵌入的维度设置为768;
步骤2.3、使用两个GRU网络,分别作为字音编码器和字形编码器,将每个汉字的拼音序列和仓颉码序列分别作为二者的输入,将GRU网络在序列最后时刻的隐藏层作为该字符的字音字形特征向量。
进一步地,将步骤2中获得的字音和字形特征向量作为BERT模型的输入之一,一同输入BERT模型中,从而获得该位置的上下文表示;所述BERT模型,其输入包含五个部分:Token Embeddings,Position Embeddings,Segment Embeddings,Phonetic Embeddings和Graphic Embeddings;Phonetic Embeddings和Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量,在输入端将这五个部分的嵌入相加并经过LayerNorm后,一同输入BERT模型中。
进一步地,在步骤4中使用词表大小的分类器,将其权重矩阵和BERT模型的TokenEmbeddings进行权值共享;
对每个位置进行一个词表大小的分类,具体地,取BERT模型最后一层隐藏层输出的上下文表示hi,用于进行分类,
P(yi=j|X)=softmax(Whi)[j],
其中W是分类器的可训练参数,将BERT的Token Embeddings层和W进行权值共享,二者在语义上是相似的,权重矩阵的每一行和词表中的每个字相对应,且大小均为RV|*H,其中|V|表示词表大小,H表示隐藏层维度大小。
进一步地,所述特定预训练任务为适用于CSC任务的基于混淆集的预训练任务,随机替换语料中15%的token,其中:
(1)50%的情况下替换为发音相似的字符,25%的情况下替换为字形相似的字符,考虑到与字音相关的错误和与字形相关的错误出现的频率不同,在替换时这两种类型的相似字符被分配不同的比例,相似字符从公开的混淆集中获得;
(2)10%的情况下替换为词表中的任一中文字符,混淆集的大小是有限的,但是拼写错误是由于任意字符错误造成的,为了提高泛化能力,用词汇表中的随机字符替换选定标记;
(3)15%的情况下保持不变。
进一步地,步骤3中所使用的预训练模型,是采用了更适合中文拼写纠正任务的三个预训练任务进行预训练得到,即字符预测任务、拼音预测任务和仓颉码预测任务;取BERT模型最后一层隐藏层输出的上下文表示hi,用于进行预测。
进一步地,字符预测任务和MLM任务类似,预测mask位置的正确字符,选择得分最高的字符作为预测结果,将BERT的Token Embeddings层和分类器权值共享。
进一步地,拼音预测任务预测mask位置字符的正确拼音;分为声母、韵母、声调三个预测子任务,选择得分最高的声母、韵母、声调作为预测结果,将声母、韵母、声调的特征嵌入和对应的分类器进行权值共享,来计算特征嵌入和hi的相似性,相关的嵌入会被拉近,不相关的嵌入会被拉远。
进一步地,仓颉码预测任务预测mask位置字符的正确仓颉码序列组成,视为多标签分类任务,选择得分经过sigmoid后大于一定阈值的字码作为预测结果;将仓颉码的特征嵌入和分类器进行权值共享,来计算仓颉码嵌入和hi的相似性,相关的嵌入会被拉近,不相关的嵌入会被拉远。
进一步地,在预训练过程中,收集104万条中文wiki数据和250万篇新闻语料,从中随机选择7,000,000条句子作为预训练的数据。
本发明所涉及的基于预训练的字音字形知识增强的中文拼写纠正方法,通过引入拼音和仓颉码外部知识,将汉字的字形和字音特点整合进模型中,并且依赖于在海量中文文本上进行适用于拼写检查技术的预训练方法,得到了更好地利用字音字形知识的中文拼写纠正系统。由于大多数的拼写错误都是由于使用了拼音相似或者字形相似的错字导致的,例如使用拼音输入法或者光学字符识别得到的文本,因此本发明方法使用者可以轻松地找到文章中的拼写错误,节省校验时间。此外本发明方法可以应用在搜索引擎中,对用户输入的错字进行修改可以帮助系统更好地理解检索需求;或者是应用在文章自动评分系统中,通过分析文章中的拼写错误的数量,将其作为评分的重要参考之一;或者是应用在光学字符识别系统中,将中文拼写纠正系统应用于图片转文字识别结果的后处理步骤中;亦或者是直接应用在对拼写错误容忍度较低的新闻文本上,校验人员在此方法的帮助下可以节省大量的时间,快速锁定可能存在的拼写错误。
附图说明
图1为本发明方法实施例流程图;
图2为本发明中字音字形知识增强的中文拼写纠正模型的模型结构图;
图3为本发明中基于预训练的字音字形知识增强的中文拼写纠正模型在预训练期间的模型结构图;
图4为本发明实施例中待纠错文本的原始网页;
图5为本发明实施例中的文本纠错效果图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1-图5,本发明提出一种基于预训练的字音字形知识增强的中文拼写纠正方法,所述方法具体包括:
步骤一、对于输入的文本,从数据库中取出每个汉字的拼音和仓颉码作为字音和字形知识;
在中文文本中,大多数的拼写错误都是由于字音相似或字形相似导致的。因此,中文拼写纠正系统需要在理解如何纠正错误的同时,整合字符的相似性知识。例如在句子“我觉得看电影很有意事”中,其错误字符“事”应改为字符“思”。如果仅考虑语义,将字符“事”改为字符“义”也是可行的,但是考虑到语言使用者出现拼写错误的原因,字符“思”和字符“事”的拼音更接近,因此改为“思”是更好的选择。因此本发明使用字音和字形的知识引导中文拼写纠正方法。在中文中,拼音表示了一个字的发音,它是由声母、韵母和声调组成。仓颉码可以表示一个汉字的字形组成。在仓颉码中,汉字以字码表示。字母A至Y各代表一个字码,每个字码各代表一个字形,如G对应“土”、R对应“口”。一个字符的仓颉码序列可以展示该字的字形组成结构,这使得仓颉码可以用来衡量两个字之间的字形相似度,仓颉码越接近的两个字,它们的字形越相似。
步骤二、将汉字的拼音和仓颉码映射到可训练的嵌入,然后将拼音序列和仓颉码序列嵌入进行编码,获得汉字的字音和字形特征向量;
本步骤是将人类可读的字音和字形的信息转化为机器可读的向量。每个汉字的拼音是由声母、韵母、声调三个部分组成的;每个汉字的仓颉码是一个最长长度为5的仓颉字码序列。本发明将声母、韵母、声调和每个仓颉字码分别映射到可训练的嵌入,然后使用字音和字形编码器对拼音和仓颉码序列的特征嵌入进行编码,获得该字符的字音字形特征向量。
采用GRU网络分别对汉字的拼音序列和仓颉码序列进行编码,具体过程包括以下步骤:
步骤2.1、对于输入的每个字符c,获得其拼音序列和仓颉码序列;
步骤2.2、将字符的拼音序列中的声母、韵母、声调,分别映射到可训练的嵌入,将字符的仓颉码序列中的每个字码也映射到可训练的嵌入,嵌入的维度设置为768;
步骤2.3、使用两个GRU网络,分别作为字音编码器和字形编码器,将每个汉字的拼音序列和仓颉码序列分别作为二者的输入,将GRU网络在序列最后时刻的隐藏层作为该字符的字音字形特征向量。
步骤三、使用特定预训练任务在海量中文文本上预训练得到的语言模型作为编码器,将文本的字音字形特征和文本一起输入模型中,获得每个位置的字的上下文表示;
将步骤2中获得的字音和字形特征向量作为BERT模型的输入之一,一同输入BERT模型中,从而获得该位置的上下文表示;所述BERT模型,其输入包含五个部分:TokenEmbeddings,Position Embeddings,Segment Embeddings,Phonetic Embeddings和Graphic Embeddings;Phonetic Embeddings和Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量,在输入端将这五个部分的嵌入相加并经过LayerNorm后,一同输入BERT模型中。
步骤3中所使用的预训练模型,是采用了更适合中文拼写纠正任务的新的mask策略,在大规模语料上预训练得到。
在中文拼写纠正领域,最新的技术大都依赖于预训练语言模型的强大的语义表征能力。以BERT为代表的自编码语言模型大都采用Masked language model(MLM)的预训练任务。在BERT的MLM的在预训练阶段,会随机进行mask。其中80%使用特殊标记“[MASK]”代替,10%使用词表中的随机字符来代替MASK的字,10%保持不变。而这种MASK策略实际上和中文拼写纠正任务不完全一致:
(1)MLM任务待预测字符大部分情况下是“[MASK]”标记,CSC任务待预测字符大部分情况下是中文字符;
(2)MLM任务的输入“[MASK]”标记和输出字符之间没有明显关系,CSC任务输入的错误字符通常和输出的字符是字形或字音上相似的;
这就导致了预训练和微调的不一致问题。因此这种方式预训练的语言模型并不是最适用于CSC任务的。
本发明提出一种适用于CSC任务的基于混淆集的预训练任务。和MLM任务类似,随机替换一定百分比的输入token,然后希望模型恢复它们。具体的,替换语料中15%的token。
所述特定预训练任务为适用于CSC任务的基于混淆集的预训练任务,随机替换语料中15%的token,其中:
(1)50%的情况下替换为发音相似的字符,25%的情况下替换为字形相似的字符,中文拼写错误大多与字形字音相关,希望模型能够关注到这种现象,考虑到与字音相关的错误和与字形相关的错误出现的频率不同,在替换时这两种类型的相似字符被分配不同的比例,相似字符从公开的混淆集中获得;
(2)10%的情况下替换为词表中的任一中文字符,混淆集的大小是有限的,但是拼写错误是由于任意字符错误造成的,为了提高泛化能力,用词汇表中的随机字符替换选定标记;
(3)15%的情况下保持不变。如果在预训练期间要预测的所有标记都是“拼写错误”的,模型将倾向于对所有输入做出更正决策。
在预训练过程中,收集104万条中文wiki数据和250万篇新闻语料,从中随机选择7,000,000条句子作为预训练的数据。
步骤3中所使用的预训练模型,是采用了更适合中文拼写纠正任务的三个预训练任务进行预训练得到,即字符预测任务、拼音预测任务和仓颉码预测任务;在预训练时,模型需要预测mask位置的正确字符。考虑到字音和字形特征是通过设计从外部添加的,为了更好地学习字音字形知识,本发明设计了另外两个类似的预训练任务,即拼音预测和仓颉码预测。因此模型包含三个预测任务。取BERT模型最后一层隐藏层输出的上下文表示hi,用于进行预测。
字符预测任务和MLM任务类似,预测mask位置的正确字符,选择得分最高的字符作为预测结果,将BERT的Token Embeddings层和分类器权值共享。
拼音预测任务预测mask位置字符的正确拼音;分为声母、韵母、声调三个预测子任务,选择得分最高的声母、韵母、声调作为预测结果,将声母、韵母、声调的特征嵌入和对应的分类器进行权值共享,来计算特征嵌入和hi的相似性,相关的嵌入会被拉近,不相关的嵌入会被拉远。
仓颉码预测任务预测mask位置字符的正确仓颉码序列组成,视为多标签分类任务,选择得分经过sigmoid后大于一定阈值的字码作为预测结果;将仓颉码的特征嵌入和分类器进行权值共享,来计算仓颉码嵌入和hi的相似性,相关的嵌入会被拉近,不相关的嵌入会被拉远。
步骤四、使用词表大小的分类器,选择得分最高的分类结果对应的字符作为该位置的纠正结果。本步骤是对每个位置进行一个词表大小的分类,如果分类结果对应的字符和该位置的输入字符相同,则系统表示该位置无错误,否则将该位置纠正为分类结果对应的字符。
在步骤4中使用词表大小的分类器,将其权重矩阵和BERT模型的TokenEmbeddings进行权值共享;
对每个位置进行一个词表大小的分类,具体地,取BERT模型最后一层隐藏层输出的上下文表示hi,用于进行分类,
P(yi=j|X)=softmax(Whi)[j],
其中W是分类器的可训练参数,将BERT的Token Embeddings层和W进行权值共享,二者在语义上是相似的,权重矩阵的每一行和词表中的每个字相对应,且大小均为RV|*H,其中|V|表示词表大小,H表示隐藏层维度大小。通过这样的权重共享可以减少参数的数量,加快收敛。
实施例
本发明中按照上述步骤可实现一个简单的自动化中文拼写纠正模块,该模块可以嵌入到任何现存的系统中,达到即插即用的效果,具体验证发明有益效果如下:
本实施例按照如图1所示流程进行,搭建一个基于预训练的字音字形知识增强的中文拼写纠正系统。本发明所实现的系统启动之后,会先加载预训练模型和拼音、仓颉码数据库至内存中。之后系统会根据用户输入的文本,从数据库中取出文本对应的拼音和仓颉码序列,然后将文本和拼音、仓颉码序列一同输入模型中。模型会整合文本的上下文语义信息和字音字形知识,给出拼写纠正建议。
图4为随机选取的一篇示例文章和系统对其提示的拼写纠正结果。
随机选取的一篇示例文章,如图4,这里选取了一篇较容易出现拼写错误的中学生作文作为示例,将其作为待纠错文本输入系统。
本发明最终的实际运行结果如图5所示。根据图中的纠正效果可以看到,本发明实现的中文拼写纠正系统,可以直观指出中学生作文的错误位置,并给出纠正意见。得到了错误位置后可以对待纠错文本以不同颜色等形式呈现;根据纠正意见,可以生成纠正后的正确句子供使用者进行比对。并且图中的示例可以看出,本发明对于中学生常见的“的地得”错误也能很好地纠正。并且拥有相似发音或字形的纠正选项会被优先考虑。通过本发明实现的系统,使用者可以轻松地找出文章中可能存在的拼写错误,提高了校验文章的效率。
以上对本发明所提出的一种基于预训练的字音字形知识增强的中文拼写纠正方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于预训练的字音字形知识增强的中文拼写纠正方法,其特征在于,所述方法具体包括:
步骤一、对于输入的文本,从数据库中取出每个汉字的拼音和仓颉码作为字音和字形知识;
步骤二、将汉字的拼音和仓颉码映射到可训练的嵌入,然后将拼音序列和仓颉码序列嵌入进行编码,获得汉字的字音和字形特征向量;
步骤三、使用特定预训练任务在海量中文文本上预训练得到的语言模型作为编码器,将文本的字音字形特征和文本一起输入模型中,获得每个位置的字的上下文表示;
步骤四、使用词表大小的分类器,选择得分最高的分类结果对应的字符作为该位置的纠正结果。
2.根据权利要求1所述的方法,其特征在于,采用GRU网络分别对汉字的拼音序列和仓颉码序列进行编码,具体过程包括以下步骤:
步骤2.1、对于输入的每个字符c,获得其拼音序列和仓颉码序列;
步骤2.2、将字符的拼音序列中的声母、韵母、声调,分别映射到可训练的嵌入,将字符的仓颉码序列中的每个字码也映射到可训练的嵌入,嵌入的维度设置为768;
步骤2.3、使用两个GRU网络,分别作为字音编码器和字形编码器,将每个汉字的拼音序列和仓颉码序列分别作为二者的输入,将GRU网络在序列最后时刻的隐藏层作为该字符的字音字形特征向量。
3.根据权利要求2所述的方法,其特征在于,将步骤2中获得的字音和字形特征向量作为BERT模型的输入之一,一同输入BERT模型中,从而获得该位置的上下文表示;所述BERT模型,其输入包含五个部分:Token Embeddings,Position Embeddings,SegmentEmbeddings,Phonetic Embeddings和Graphic Embeddings;Phonetic Embeddings和Graphic Embeddings分别对应步骤2中经过GRU编码得到的字音特征向量和字形特征向量,在输入端将这五个部分的嵌入相加并经过LayerNorm后,一同输入BERT模型中。
4.根据权利要求3所述的方法,其特征在于,在步骤4中使用词表大小的分类器,将其权重矩阵和BERT模型的Token Embeddings进行权值共享;
对每个位置进行一个词表大小的分类,具体地,取BERT模型最后一层隐藏层输出的上下文表示hi,用于进行分类,
P(yi=j|X)=softmax(Whi)[j],
其中W是分类器的可训练参数,将BERT的Token Embeddings层和W进行权值共享,二者在语义上是相似的,权重矩阵的每一行和词表中的每个字相对应,且大小均为R|V|*H,其中|V|表示词表大小,H表示隐藏层维度大小。
5.根据权利要求4所述的方法,其特征在于,所述特定预训练任务为适用于CSC任务的基于混淆集的预训练任务,随机替换语料中15%的token,其中:
(1)50%的情况下替换为发音相似的字符,25%的情况下替换为字形相似的字符,考虑到与字音相关的错误和与字形相关的错误出现的频率不同,在替换时这两种类型的相似字符被分配不同的比例,相似字符从公开的混淆集中获得;
(2)10%的情况下替换为词表中的任一中文字符,混淆集的大小是有限的,但是拼写错误是由于任意字符错误造成的,为了提高泛化能力,用词汇表中的随机字符替换选定标记;
(3)15%的情况下保持不变。
6.根据权利要求5所述的方法,其特征在于,步骤3中所使用的预训练模型,是采用了更适合中文拼写纠正任务的三个预训练任务进行预训练得到,即字符预测任务、拼音预测任务和仓颉码预测任务;取BERT模型最后一层隐藏层输出的上下文表示hi,用于进行预测。
7.根据权利要求6所述的方法,其特征在于,字符预测任务和MLM任务类似,预测mask位置的正确字符,选择得分最高的字符作为预测结果,将BERT的Token Embeddings层和分类器权值共享。
8.根据权利要求7所述的方法,其特征在于,拼音预测任务预测mask位置字符的正确拼音;分为声母、韵母、声调三个预测子任务,选择得分最高的声母、韵母、声调作为预测结果,将声母、韵母、声调的特征嵌入和对应的分类器进行权值共享,来计算特征嵌入和hi的相似性,相关的嵌入会被拉近,不相关的嵌入会被拉远。
9.根据权利要求8所述的方法,其特征在于,仓颉码预测任务预测mask位置字符的正确仓颉码序列组成,视为多标签分类任务,选择得分经过sigmoid后大于一定阈值的字码作为预测结果;将仓颉码的特征嵌入和分类器进行权值共享,来计算仓颉码嵌入和hi的相似性,相关的嵌入会被拉近,不相关的嵌入会被拉远。
10.根据权利要求9所述的方法,其特征在于,在预训练过程中,收集104万条中文wiki数据和250万篇新闻语料,从中随机选择7,000,000条句子作为预训练的数据。
CN202210598799.3A 2022-05-30 2022-05-30 一种基于预训练的字音字形知识增强的中文拼写纠正方法 Pending CN114970503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210598799.3A CN114970503A (zh) 2022-05-30 2022-05-30 一种基于预训练的字音字形知识增强的中文拼写纠正方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210598799.3A CN114970503A (zh) 2022-05-30 2022-05-30 一种基于预训练的字音字形知识增强的中文拼写纠正方法

Publications (1)

Publication Number Publication Date
CN114970503A true CN114970503A (zh) 2022-08-30

Family

ID=82958680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210598799.3A Pending CN114970503A (zh) 2022-05-30 2022-05-30 一种基于预训练的字音字形知识增强的中文拼写纠正方法

Country Status (1)

Country Link
CN (1) CN114970503A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116127953A (zh) * 2023-04-18 2023-05-16 之江实验室 一种基于对比学习的中文拼写纠错方法、装置和介质
CN116306596A (zh) * 2023-03-16 2023-06-23 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN116756345A (zh) * 2023-08-15 2023-09-15 杭州同花顺数据开发有限公司 一种实体链接方法和系统
CN118133813A (zh) * 2024-05-08 2024-06-04 北京澜舟科技有限公司 中文拼写纠错模型的训练方法以及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116306596A (zh) * 2023-03-16 2023-06-23 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN116306596B (zh) * 2023-03-16 2023-09-19 北京语言大学 一种结合多重特征进行中文文本拼写检查的方法及装置
CN116127953A (zh) * 2023-04-18 2023-05-16 之江实验室 一种基于对比学习的中文拼写纠错方法、装置和介质
CN116127953B (zh) * 2023-04-18 2023-07-25 之江实验室 一种基于对比学习的中文拼写纠错方法、装置和介质
CN116756345A (zh) * 2023-08-15 2023-09-15 杭州同花顺数据开发有限公司 一种实体链接方法和系统
CN118133813A (zh) * 2024-05-08 2024-06-04 北京澜舟科技有限公司 中文拼写纠错模型的训练方法以及存储介质

Similar Documents

Publication Publication Date Title
WO2023065544A1 (zh) 意图分类方法、装置、电子设备及计算机可读存储介质
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
JP2021106017A (ja) テキストの創作方法、装置、機器及び記憶媒体
CN114118065B (zh) 一种电力领域中文文本纠错方法、装置、存储介质及计算设备
CN112699216A (zh) 端到端的语言模型预训练方法、系统、设备及存储介质
CN110688854A (zh) 命名实体识别方法、装置及计算机可读存储介质
CN109410949B (zh) 基于加权有限状态转换器的文本内容添加标点方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN116258137A (zh) 文本纠错方法、装置、设备和存储介质
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Hung Vietnamese diacritics restoration using deep learning approach
CN115269834A (zh) 一种基于bert的高精度文本分类方法及装置
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN113705222A (zh) 槽识别模型训练方法及装置和槽填充方法及装置
Dutta Word-level language identification using subword embeddings for code-mixed Bangla-English social media data
Whitelaw et al. Named entity recognition using a character-based probabilistic approach
CN115455948A (zh) 一种拼写纠错模型训练方法、拼写纠错方法及存储介质
Buoy et al. Joint Khmer word segmentation and part-of-speech tagging using deep learning
CN115809658A (zh) 平行语料的生成方法及装置和无监督同义转写方法及装置
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
CN111090720B (zh) 一种热词的添加方法和装置
Basumatary et al. Deep Learning Based Bodo Parts of Speech Tagger
CN111428475A (zh) 分词词库的构建方法、分词方法、装置及存储介质
CN118133813B (zh) 中文拼写纠错模型的训练方法以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination