CN109086266A

CN109086266A - 一种文本形近字的检错与校对方法

Info

Publication number: CN109086266A
Application number: CN201810707676.2A
Authority: CN
Inventors: 邵玉斌; 王林坪; 龙华; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-07-02
Filing date: 2018-07-02
Publication date: 2018-12-25
Anticipated expiration: 2038-07-02
Also published as: CN109086266B

Abstract

本发明涉及一种文本形近字的检错与校对方法，属于自然语言处理技术领域。首先用汉字形近字库找出输入句子中每个字对应的形近字，并与原字符组成候选字向量；然后利用常用字库将向量中的不常用字清洗掉，将所有字的候选字向量组成一个候选矩阵；其次将候选矩阵中的相邻向量捆绑成词，将能组合成词语的向量压缩形成候选词向量，将不能成词的向量与停用字库对比，剔除非停用字；最后引入N‑Gram语言模型对上述词进行组合，使关键词具有上下衔接关系，组成连接关系最强的句子，将句子与原句子对比找出原句子的错误及给出校对建议。

Description

一种文本形近字的检错与校对方法

技术领域

本发明涉及一种文本形近字的检错与校对方法，属于自然语言处理技术领域。

背景技术

当前，由于OCR文本识别技术的运用，在将纸质文本文字翻译成计算机文字时，经常会将一些文字识别错误，将其识别为它的形近字，而在大量文本中用人工校对的方法效率极低。

利用分词工具将句子分解成词，再将词与词库对比判断，发现文本出现错误的位置的方法是一种常用的方法，但是对于分词来说分词的准确性对文本的检错起到了决定性的作用，在分词不能够做到准确的情况下，检错结果的正确率是极低的。

发明内容

本发明要解决的技术问题是提供一种文本形近字的检错与校对方法，用于解决文本检错对分词的依耐性、因分词不准确而带来的检错正确率低的问题。

本发明的技术方案是：一种文本形近字的检错与校对方法，首先用汉字形近字库找出输入句子中每个字对应的形近字，并与原字符组成候选字向量；然后利用常用字库将向量中的不常用字清洗掉，将所有字的候选字向量组成一个候选矩阵；其次将候选矩阵中的相邻向量捆绑成词，将能组合成词语的向量压缩形成候选词向量，将不能成词的向量与停用字库对比，剔除非停用字；最后引入N-Gram语言模型对上述词进行组合，使关键词具有上下衔接关系，组成连接关系最强的句子，将句子与原句子对比找出原句子的错误及给出校对建议；

具体步骤为：

Step0.1、建立一个数据库，里面包含形近字库X，语料库Y，常用字库Q，停用词库T；

Step1、选取待处理样本句子A；

Step2、对句子A进行预处理，去除句子中的非字字符，得到新的字符串B＝c₁c₂...c_n，n为字符串B长度；

Step3、将B＝c₁c₂...c_n中的每一个字，在形近字库X中，找出与之相似的形近字{c_n1,c_n2...c_nm}作为c_n的候选字，与c_n的相似程度从左到右依次减少，并将候选字与常用字库Q对比，剔除不常用的字，并将c_n与候选字一起组成候选字向量z_n＝[c_nc_n1...c_ni]，从而得到B的候选字矩阵B＝z₁z₂...z_n；

Step4、将相邻两个候选字向量中的字排列组合，判断组合的词语是否存在语料库Y中，若存在则说明两个向量捆绑成词，若没有捆绑成词，将判断是否属于停用词库T中，如果不存在则把这个字剔除，得到B的候选词向量矩阵B'＝B₁'B₂'…B_n'，其中B'_n＝[w_iw₂…w_i]，n为字符串B长度，i取决于相邻两个字向量组合成词的个数或者是某个向量去除非停用词后的个数；

Step5、将Step4中得出来的结果B'_nB'_n+1中的词排列组合，用马尔可夫模型计算出相邻两个词同时出现的概率p(w₁w₂)，概率越大表示其连接关系越强，将所有概率最大的词组合成一个新句子S，将句子S与原句B对比，标记两个句子不同的位置，B里面的标记词为错误词，S里面的标记词为修正词。

所述步骤Step0.1中，形近字库X包含所有汉字的形近字，语料库Y是经过分词处理、统计后的语料，常用字库Q为一级字库和二级字库，停用词指的是功能词。没有实际意义，如‘的’‘我’‘是’‘为何’‘倘若’等，停用词库T中包含的就是这一类词。

所述步骤Step1中，所述待处理样本句子A为短句子，是两个标点符号之间的文字字符串。

所述步骤Step2中，新的字符串B是去除所有标点符号后的字符串。

所述步骤Step3中，候选字向量为[c_nc_n1...c_ni]，i的大小取决于在剔除不常用字后形近字的个数。

所述步骤Step4中，相邻两个候选字向量中的字组合，是以以下形式组合：

若z_nz_n+1组合中有能捆绑的词语，下一个相邻候选向量组合应为z_n+2z_n+3；

若z_nz_n+1组合中没有捆绑的词语，下一个相邻候选向量组合应为z_n+1z_n+2。

所述步骤Step4中，没有捆绑成词z_nz_n+1，是将前一个候选词向量z_n中的字，与词库T对比，剔除非停用词。

所述步骤Step5中用马尔可夫模型计算出每两个词之间的概率公式为：

所述步骤Step5中，将句子S与原句B对比，找出原句中错误的词，是将S与B进行匹配，标记出两个句子中不一样的地方，原句B的所标记的地方为错误的词，句子S中标记的地方为修正词。

本发明的有益效果是：解决了文本检错对分词的依耐性，从而解决了因分词不准确而带来的检错正确率低的问题，并将检错和校对同时进行，当检出错误的同时就能得到正确的修正词，省去了校对文本所花费的时间。

附图说明

图1是本发明的步骤流程图；

图2是本发明步骤Step4流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-2所示，一种文本形近字的检错与校对方法，具体步骤如下：

Step0.1、建立一个数据库，里面包含形近字库X，语料库Y，常用字库Q，停用词库T。

Step1、选取待处理样本句子A，例‘我是太学生。’。

Step2、对句子A进行预处理，去除句子中的标点符号，得到新的字符串，B＝‘我是太学生’n为字符串B长度。

Step3、将B＝‘我是太学生’中的每一个字，在形近字库X中，找出与之相似的形近字{c_n1,c_n2...c_nm}作为c_n的候选字，与c_n的相似程度从左到右依次减少，我们暂取m＝3，即与c_n相似度最大的前3个形近字，比如‘我’的形近字有{牫，伐，找}，并将候选字与常用字库Q对比，剔除不常用的字，则剩余的形近字为{伐，找}，并将‘我’与候选字一起组成候选字向量[我，伐，找]，从而得到B的候选字矩阵B＝[我伐找][是疌][太犬大人][学][生牛主]。

Step4、将候选矩阵中相邻两个候选字向量中的字排列组合，组合的结果为[我是我疌伐是伐疌找是找疌]，判断组合的词语是否存在语料库Y中，判断结果为不存在，则去除[我伐找]中的非停用词，去非停后用词结果为[我]，则下一个相邻字向量为[是疌][太犬大人]，组合后不存在词语，去非停为[是]，依次循环得出候选词向量B'＝B₁'B₂'…B_n'＝[我][是][大学太学][生]

Step5、将Step4中得出来的结果，将B'_nB'_n+1中的词排列组合，用马尔可夫模型计算出相邻两个词同时出现的概率p(w₁w₂)，概率越大表示其连接强度越强，这里需要计算[大学太学][生]排列结果[大学生太学生]，得出p(大学生)和p(太学生)的概率，选出概率较大的结果，得出重组的新句子为S＝‘我是大学生’，与B＝‘我是太学生’比较，则可以标记出错误词‘太’，修正词‘大’。

所述步骤Step0.1中，形近字库X包含所有汉字的形近字，语料库Y是经过分词处理、统计后的语料，常用字库Q为一级字库和二级字库，停用词指的是功能词，没有实际意义，如‘的’‘我’‘是’‘为何’‘倘若’等，停用词库T中包含的就是这一类词

所述步骤Step1中，所述输入句子A为短句子，是两个标点符号之间的文字字符串。

所述步骤Step2中，处理后的文本B是去除所有标点符号后的字符串

所述步骤Step4中，相邻两个候选字向量中的字组合，是以以下形式组合：若z_nz_n+1组合中有能捆绑的词语，下一个相邻候选向量组合应为z_n+2z_n+3；若z_nz_n+1组合中没有捆绑的词语，下一个相邻候选向量组合应为z_n+1z_n+2。

所述步骤Step4中所述的，没有捆绑成词z_nz_n+1，是将前一个候选词向量z_n中的字，与词库T对比，剔除非停用词。

所述步骤Step5中所述的用马尔可夫模型计算出每两个词之间的概率公式为：

所述步骤Step5中所述，将句子S与原句B对比，找出原句中错误的词，是将S与B进行匹配，标记出两个句子中不一样的地方，原句B的所标记的地方为错误的词，句子S中标记的地方为修正词。

本发明引入了一种直接利用文本信息特征的方法，不经过文本分词处理，利用N-Gram语言模型对句子重新组合，对文本错误定位和校对。首先用汉字形近字库找出输入句子中每个字对应的形近字，并与原字符组成候选字向量；然后利用常用字库将向量中的不常用字清洗掉，将所有字的候选字向量组成一个候选矩阵；其次将候选矩阵中的相邻向量捆绑成词，将能组合成词语的向量压缩形成候选词向量，将不能成词的向量与停用字库对比，剔除非停用字；最后引入N-Gram语言模型对上述词进行组合，使关键词具有上下衔接关系，组成连接关系最强的句子，将句子与原句子对比找出原句子的错误及给出校对建议。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种文本形近字的检错与校对方法，其特征在于：首先用汉字形近字库找出输入句子中每个字对应的形近字，并与原字符组成候选字向量；然后利用常用字库将向量中的不常用字清洗掉，将所有字的候选字向量组成一个候选矩阵；其次将候选矩阵中的相邻向量捆绑成词，将能组合成词语的向量压缩形成候选词向量，将不能成词的向量与停用字库对比，剔除非停用字；最后引入N-Gram语言模型对上述词进行组合，使关键词具有上下衔接关系，组成连接关系最强的句子，将句子与原句子对比找出原句子的错误及给出校对建议；

具体步骤为：

Step1、选取待处理样本句子A；

2.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step0.1中，形近字库X包含所有汉字的形近字，语料库Y是经过分词处理、统计后的语料，常用字库Q为一级字库和二级字库，停用词指的是功能词。

3.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step1中，所述待处理样本句子A为短句子，是两个标点符号之间的文字字符串。

4.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step2中，新的字符串B是去除所有标点符号后的字符串。

5.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step3中，候选字向量为[c_nc_n1...c_ni]，i的大小取决于在剔除不常用字后形近字的个数。

6.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step4中，相邻两个候选字向量中的字组合，是以以下形式组合：

7.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step4中，没有捆绑成词z_nz_n+1，是将前一个候选词向量z_n中的字，与词库T对比，剔除非停用词。

8.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step5中用马尔可夫模型计算出每两个词之间的概率公式为：

9.根据权利要求1所述的文本形近字的检错与校对方法，其特征在于：所述步骤Step5中，将句子S与原句B对比，找出原句中错误的词，是将S与B进行匹配，标记出两个句子中不一样的地方，原句B的所标记的地方为错误的词，句子S中标记的地方为修正词。