CN112328737B

CN112328737B - 一种拼写数据的生成方法

Info

Publication number: CN112328737B
Application number: CN201910647316.2A
Authority: CN
Inventors: 段建勇; 王昊; 张梅; 马东超; 潘利建; 王冰; 袁阳
Original assignee: North China University of Technology
Current assignee: North China University of Technology
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2023-05-05
Anticipated expiration: 2039-07-17
Also published as: CN112328737A

Abstract

本发明公开了一种拼写数据的生成方法，包括以下步骤：基于输入法构建拼音语料库、语音语料库以及手写语料库；通过输入法输入不同形式的错误句子或词组；通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索；当检索出对应的错误时，通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。本发明用于中文拼写检查的标记语料库的获取变得更加简单可行，克服了以往通过人工收集费事费力且难以大量获取的弊端，使用不同的方法为不同的输入法构建对应的标记语料库，可以获得更加接近真实情况的语料数据。

Description

一种拼写数据的生成方法

技术领域

本发明涉及语料检查技术领域，尤其涉及一种拼写数据的生成方法。

背景技术

随着互联网技术的快速发展，每时每刻都会有大量的中文文本信息产生，越来越多的行业开始或者已经将本部的工作职能与互联网关联，人们已经习惯了从网络中获取需要的知识和概念。然而网络上的文本信息都是通过输入法进行输入的，常见的输入方式包括键盘录入、OCR识别、语音识别等。然而这些录入方式都不能保证所输入的信息准确无误，这些中文文本或多或少地存在着拼写错误。国家广电总局重视图书编校质量，曾多次对图书进行抽查。以合格率衡量图书质量，2012年为88.4％，2013年为86.8％，2014为82.5％。

除了普通刊物出现拼写错误影响阅读以外，在某些重要领域，比如政治文件、权威发言、重要新闻等，拼写错误还会造成及其严重的影响，甚至影响国家的稳定。此类错误一旦发生，将对国家和社会带来严重影响。因此中文文本的拼写检查越来越受到相关行业的重视。

当前越来越多的人采用数据驱动的方法，来完成中文文本自动拼写检查任务。但是使用这类方法的前提是拥有大量用于拼写检查任务的标记语料库。这里的标记是指为错误句子中的每个字符打上相应的标签。当前人们在获得语料库的时，多数采用人工收集真实的错误句子的方法，但其只包含700条数据；国际计算机语言学会中文语言处理小组(SIGHAN)分别于2013年、2014年和2015年公布了用于拼写检查的标准数据集，这三年公布的数据分别包含1290、5734和3632处拼写错误，共计10656处，这对于需要大量数据用于训练的有监督模型，显得有些捉襟见肘。并且显然通过收集真实数据用以构建语料库的方法费事费力，且错误句子难以大量获取，因此如何自动构建拼写检查语料库引起了业内人士的关注。

发明内容

为克服相关技术中存在的问题，本发明实施例提供一种拼写数据的生成方法，克服了以往通过人工收集费事费力且难以大量获取的弊端。

本发明实施例提供一种拼写数据的生成方法，包括以下步骤：

基于输入法构建拼音语料库、语音语料库以及手写语料库；

通过输入法输入不同形式的错误句子或词组；

通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索；

当检索出对应的错误时，通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。

进一步地，所述构建拼音语料库包括以下步骤；

将生成的正确句子进行分词处理，随机选择一个汉字词；

将选择的汉字词转化为拼音，将拼音转化为对应的词语；

在转换出来的词语中选择一个和原词不同的词，代替原来的词进而生成误用拼音相同的词的句子。

进一步地，所述将拼音转化为对应的词语中，每个词语都有对应的得分，分数基于隐马尔科夫模型进行设定，越常用的词得分越高。

进一步地，所述在选择生成的词代替原来的词时，通过对应的预设替换概率进行替换，与原词相同的词的替换概率为零，将剩余的词语按照降序排序，第i个词的得分设为Socre(i)，对应的替换概率设为RP(i)，替换公式如下：

RP(i)代表第i个词的替换概率，Socre(i)代表第i个词的得分，n代表和原词不同的词的数量。

进一步地，所述在将汉字转化为拼音时，使用pypinyin进行转换；在将拼音转化为汉字时，使用Pinyin2Hanzi进行转换。

进一步地，所述构建语音语料库包括以下步骤；

通过语音自动识别技术将生成的错误句子分为两类，第一类为与原句长度相同，第二类为与原来的句子长度不同；

当生成与原来句子长度相同的错误句子时，对相应的字符进行标签标记处理。

进一步地，所述对相应的字符进行标签标记处理时，采用字字对应的方法进行处理，将正确的字标签为C，错误的字标签为W。

进一步地，所述生成的错误句子采用Kaldi工具进行生成，将SL表示和原来句子相同长度的错误句子，将DL表示和原来句子不同长度的错误句子。

进一步地，所述构建手写语料库包括以下步骤：

将输入的文本转化为图片格式；

对图片进行部分模糊化处理；

使用OCR工具对图片进行识别，当识别与原来的汉字不同时，将生成的字符代替原来的字符，生成误用视觉相似字符的句子。

本发明的实施例提供的技术方案具有以下有益效果：用于中文拼写检查的标记语料库的获取变得更加简单可行，克服了以往通过人工收集费事费力且难以大量获取的弊端，使用不同的方法为不同的输入法构建对应的标记语料库，可以获得更加接近真实情况的语料数据。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明实施例一中拼写数据的生成方法的流程图。

图2是本发明实施例一中拼写数据的生成方法的定量比较图。

图3是本发明实施例二中拼写数据的生成方法的流程图。

图4是本发明实施例三中拼写数据的生成方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置及相关应用、方法的例子。

实施例一

图1是本发明实施例中拼写数据的生成方法的流程图，如图1所示，该拼写数据的生成方法，包括以下步骤：

步骤101、基于输入法构建拼音语料库、语音语料库以及手写语料库。

通过输入法输入不同形式的错误句子或词组。

通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索。

构建拼音语料库包括以下步骤；

将生成的正确句子进行分词处理，随机选择一个汉字词；之所以词为单位生成错误，是因为在使用拼音输入法进行输入时，是以词为单位进行输入(火势\逐渐\向\四周\蔓延)，而不是以单个的字为单位进行输入(火\势\逐\渐\向\四\周\蔓\延)。

将选择的汉字词转化为拼音，将拼音转化为对应的词语；每个词语都有对应的得分，分数基于隐马尔科夫模型进行设定，越常用的词得分越高。

使用拼音输入法时，主要会产生两种类型的错误：误用拼音相同的词和误用拼音相似的词，因为拼音输入法没有音调信息，所以这里拼音相同的词不包括音调，比如抱负、包袱、报复都是相同拼音的词，本发明将拼音的编辑距离为一或者二的词都认为是拼音相似的词，比如词性和刺青拼音的编辑距离为一，因此二者互为拼音相似词，在生成误用拼音相似词的句子时,如词性和刺青都是具有相似的拼音。

汉字和拼音的相互转化生成误用拼音相同的词的句子，方法如下；随即选择一个汉语词，并提取这个词的拼音，再将拼音转化为对应的词语，选择一个词代替原来的词，在转换出来的词语中选择一个和原词不同的词，代替原来的词进而生成误用拼音相同的词的句子。

通过对应的预设替换概率进行替换，与原词相同的词的替换概率为零，将剩余的词语按照降序排序，第i个词的得分设为Socre(i)，对应的替换概率设为RP(i)，替换公式如下：

RP(i)代表第i个词的替换概率，Socre(i)代表第i个词的得分，n代表和原词不同的词的数量，在将汉字转化为拼音时，使用pypinyin进行转换；在将拼音转化为汉字时，使用Pinyin2Hanzi进行转换。

构建语音语料库包括以下步骤；

通过自动生成误用语音相似字符和误用视觉相似字符的句子，构建拼音语料库，通过语音自动识别技术将生成的错误句子分为两类，第一类为与原句长度相同，第二类为与原来的句子长度不同；将生成的错误句子采用Kaldi工具进行生成，将SL表示和原来句子相同长度的错误句子，将DL表示和原来句子不同长度的错误句子。

本方法只收集和原来句子长度一样的错误句子，当生成与原来句子长度相同的错误句子时，对相应的字符进行标签标记处理，采用字字对应的方法进行处理，将正确的字标签为C，错误的字标签为W，当生成的句子和原来的句子长度不同时，会出现错误标记的情况，前四个字符发生错误，导致后面所有的字符都标错了，当生成的句子和原来的句子不同时，产生错误标记的情况，如正确的句子为五氧化二磷可以做干燥剂，错误的句子为养花二零可以做干燥剂，所以在这种情况下会对模型的学习造成极大的干扰，因此本方法不收集和原来句子长度不同的句子。

使用手写输入法时，经常产生误用视觉相似字符的情况，比如粟和栗、日和曰，而且产生的错误通常以字的形式出现，不同于拼音输入法那样，错误通常以词的形式出现，因此在构建手写语料库时，首先要生成视觉相似字符。

构建手写语料库包括以下步骤：

将输入的文本转化为图片格式；

对图片进行部分模糊化处理；

步骤102、通过输入法输入不同形式的错误句子或词组。

步骤103、通过拼音语料库、语音语料库以及手写语料库对不同形式的错误句子或词组进行匹配检索。

步骤104、当检索出对应的错误时，通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组。

图2是本发明实施例一中拼写数据的生成方法的定量比较图，如图2所示，本发明将王鼎民等构建的语料库作为基准语料库，进行了定量比较，本发明通过Precision、Recall和F1三个基准的指标来衡量语料库的质量，本发明构建的语料库主要用于校对三大主流输入法生成的中文文本，因此测试集包含三个，三个测试集中的句子分别收集于拼音输入法、语音输入法以及手写输入法生成的真实的文本，测试集的大小均为三千，四个训练集的大小均为五万。

拼写检查测试结果如图2所示，得出如下结论，相比于基准语料库，使用本发明构建的语料库相比于基准语料库可以取得更好的效果，构建的语料库其形式更加接近真实的错误句子；并且使用本发明构建的语料库作为训练集可以取得更好的校对效果。

实施例二

图3是本发明实施例二中拼写数据的生成方法的流程图，如图3所示。

步骤201、采用实施例一中的方法构造不同形式的错误句子。

步骤202、按比例合成语料库，通过语料库检查不同输入法生成的文本。

在生成误用相同拼音的字符的句子时，以字为单位，不以词为单位生成错误，选择一个字符将其转为拼音形式，再将该拼音转为汉字形式，选择新转出来的和原来汉字不同的字符替换原来的字符。

实施例三

图4是本发明实施例三中拼写数据的生成方法的流程图，如图4所示。

步骤301、采用实施例一中的方法构建一种或者几种语料库。

步骤302、采用语料库检查中文文本中的拼写错误。

在生成误用相同拼音的字符的句子时，使用汉字转拼音的工具包，将整个句子转化为拼音的形式，再将拼音形式的句子转化为汉字形式，进而生成想要的错误句子。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种拼写数据的生成方法，其特征在于，包括以下步骤：

基于输入法构建拼音语料库、语音语料库以及手写语料库；

通过输入法输入不同形式的错误句子或词组；

当检索出对应的错误时，通过拼音语料库、语音语料库以及手写语料库替换为正确的句子或词组，

其中，所述构建拼音语料库包括以下步骤：

将生成的正确句子进行分词处理，随机选择一个汉字词；

将选择的汉字词转化为拼音，将拼音转化为对应的词语，所述将拼音转化为对应的词语中，每个词语都有对应的得分，分数基于隐马尔科夫模型进行设定，越常用的词得分越高；

在转换出来的词语中选择一个和原词不同的词，代替原来的词进而生成误用拼音相同的词的句子，所述在选择生成的词代替原来的词时，通过对应的预设替换概率进行替换，与原词相同的词的替换概率为零，将剩余的词语按照降序排序，第i个词的得分设为Socre(i)，对应的替换概率设为RP(i)，替换公式如下：

RP(i)代表第i个词的替换概率，Socre(i)代表第i个词的得分，n代表和原词不同的词的数量，

所述构建语音语料库包括以下步骤：

当生成与原来句子长度相同的错误句子时，对相应的字符进行标签标记处理，

所述构建手写语料库包括以下步骤：

将输入的文本转化为图片格式；

对图片进行部分模糊化处理；

2.根据权利要求1所述的拼写数据的生成方法，其特征在于，所述在将汉字转化为拼音时，使用pypinyin进行转换；在将拼音转化为汉字时，使用Pinyin2Hanzi进行转换。

3.根据权利要求1所述的拼写数据的生成方法，其特征在于，所述对相应的字符进行标签标记处理时，采用字字对应的方法进行处理，将正确的字标签为C，错误的字标签为W。

4.根据权利要求1所述的拼写数据的生成方法，其特征在于，所述生成的错误句子采用Kaldi工具进行生成，用SL表示和原来句子相同长度的错误句子，用DL表示和原来句子不同长度的错误句子。