CN107665190A

CN107665190A - 一种文本校对错误词库的自动构造方法和装置

Info

Publication number: CN107665190A
Application number: CN201710905273.4A
Authority: CN
Inventors: 李晓妮
Original assignee: Individual
Current assignee: Individual
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-02-06

Abstract

本发明涉及一种文本校对错误词库的自动构造方法和装置。该方法包括：构建一个大规模的正确词库表，并将每个词按照在正确词库表中的先后顺序进行编号；针对计算机系统字库中的每一个汉字，构造一系列的字表；创建字字之间的相关度系统矩阵表；依次枚举正确词库表中的每一个词，并针对每一个词中的每个汉字依次进行其他汉字替换，计算替换一个汉字后的错误词语与正确词语的词语匹配相似度；将词语匹配相似度的数值从大到小进行排序，设定词语匹配的相似度阈值，将大于阈值的词语作为候选对象补充至错误词库。本发明能够克服现有技术中错误词表收集过多依赖人工方式、效率低、覆盖面窄以及词库规模受限等缺点，并能够提高文本自动校对的准确率。

Description

一种文本校对错误词库的自动构造方法和装置

技术领域

本发明属于文字处理领域，涉及一种文本自动校对处理技术，具体涉及一种用于文本校对的错误词库的自动构造方法和装置。

背景技术

随着现代激光照排技术和电子出版业的迅速发展，如何保证所传达的信息正确无误成为研究的重要方面之一。目前人们使用计算机进行写作、编辑和排版等工作，不可避免地会出现些文字错误，例如多字、漏字、易位、英文单词拼写错误、不规范标点等。因此，需要有专门的校对系统对文稿进行校对。从长远发展来看，信息化是将来社会发展的趋势，人们面临的电子信息和文稿日益增多，像电子期刊、电子报纸等，而传统的手工校对需要校对人员对文本进行逐字逐句的阅读、检查，从成本和效率两个方面都不能适应电子文本数量迅猛增长的趋势。因此，对一个准确度高、效率高的自动校对系统的需求越来越迫切。

自动校对具有很重要的实用价值，有着广泛的应用领域。在出版业，文本自动校对的实现可以太大减轻校对人员的工作量，将他们从繁琐无味的工作中解脱出来，加快出版节奏推动整个出版业的迅速发展；在文字识别方面。需要用查错、纠错技术对语音识别，OCR(Optical Character Recognition)光学文字识别等识别结果进行修改：在文字编辑方面，例如Word等很多文本编辑系统中都提供有自动查错技术，对输入的文本进行自动报错；在人机接口方面，例如数据库查询、自然语言接口等人机接口中要求有一定的容错性能；在辅助教学等系统中需要对输入的句子进行分析，查找出其中的错误，并给出可能的正确答案等。

而在文本自动校对技术中，常用的方法为：收集对文字进行校对的修改信息；根据所述修改信息建立易错词表；根据易错词表查找文字中的可疑字并进行提示。因此，错误词库的构建对于文本自动校对技术的发展至关重要，词库数量多少直接影响着文本自动校对结果的准确率。而现有技术中，易错词表的收集主要依赖人工为主，存在着效率低、覆盖面不全以及词库规模受限等问题。

发明内容

本发明提供一种文本校对错误词库的自动构造方法和装置，用以解决现有技术中错误词表收集过多依赖人工方式、效率低、覆盖面窄以及词库规模受限等缺点，进一步提高文本自动校对的准确率。

本发明的构思在于，首先，构建一个大规模的正确词库表，包括各种通用的新华词典、汉语分词词表、成语词典库、古诗词名句以及各种专业领域词库(比如外交、计算机、医药等)，并将每个词按照在词库中的先后顺序进行编号；针对计算机系统字库中的每一个汉字，构造一系列的字表，主要有拼音编码表、偏旁部首表和五笔字型编码表；创建字字之间的相关度系统矩阵表；依次枚举正确词库中的每一个词，并针对每一个词中的每个汉字依次进行其他汉字替换，计算替换一个汉字后的错误词语与正确词语的相似度；将词语匹配相似度的数值从大到小进行排序，设定词语匹配的相似度阈值，大于阈值的词语作为候选对象补充至错误词库。由此得到了一种文本校对错误词库的自动构造方法和装置。

本发明中一种文本校对错误词库的自动构造方法，包括如下步骤：

步骤一，构建一个大规模的正确词库表，并将每个词按照在正确词库表中的先后顺序进行编号；

步骤二，针对计算机系统字库中的每一个汉字，构造一系列的字表；

步骤三，根据构造的字表创建字字之间的相关度系统矩阵表；

步骤四，依次枚举正确词库表中的每一个词，并针对每一个词中的每个汉字依次进行其他汉字替换，根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的词语匹配相似度；

步骤五，将词语匹配相似度的数值从大到小进行排序，设定词语匹配的相似度阈值，将大于阈值的词语作为候选对象补充至错误词库。

较佳地，所述的正确词库表包括：新华词典、汉语分词词表、成语词典库、古诗词名句以及特定专业领域词库；

较佳地，所述的字表包括：拼音编码表、偏旁部首表和五笔字型编码表；

较佳地，所述的相关度系统矩阵表，是指计算不同词之间相对应位置处汉字的相关度值，规则如下：

1)两个字相同，相关度为2；

2)两个字不同，但拼音相同或相近，则相关度为1；

3)两个字不同，但字形相近，即汉字主体部首结构相同，则相关度为1；

4)两个字不同，但五笔编码相同或相近，则相关度为1；

5)否则，相关度为0。

较佳地，所述的字形相近的判断方法，包括人工辅助方法、OCR识别方法和机器自动图像匹配识别方法；

较佳地，所述的人工辅助方法，主要包括如下步骤：

1)人工将所有汉字的偏旁部首进行拆分；

2)指定汉字本身的主体结构部首，形成汉字偏旁部首构成表；

3)当判断是否为字形相近时，读取每个汉字的偏旁部首构成和主体结构部首，并进行比较；

4)当待比较的两个汉字的主体结构部首相同时则判断为字形相近，否则判断为字形不相近。

较佳地，所述的OCR识别方法，主要包括如下步骤：

1)将每个汉字经过电脑编辑排版后打印输出；

2)接着将打印后的每个汉字经过扫描处理后进行OCR识别；

3)在OCR识别结果集合中选择排名靠前的文字对象，作为该汉字对应的字形相近候选字存储在子集合中；

4)通过判断两个汉字是否属于同一个子集合来判断他们是否为字形相近。

较佳地，所述的机器自动图像匹配识别方法，主要包括：

1)提取易错字、形近字图像集合中每个字符图像的多维的方向线素特征；

2)根据每个字符图像的多维的方向线素特征，通过最大最小距离法对字符图像进行图像聚类。

较佳地，所述的词语匹配相似度的数值，当词语匹配相似度的数值相同时，候选词语的优先级次序如下：

1)音同且形近；

2)音近且形近；

3)形近；

4)音同；

5)音近。

基于同一发明构思，本发明还提供了一种文本校对错误词库的自动构造装置，包括：

正确词库表构造模块，负责构建一个大规模的正确词库表，并将每个词按照在正确词库表中的先后顺序进行编号；

汉字字表构造模块，负责针对计算机系统字库中的每一个汉字，构造一系列的字表；

相关度系统矩阵表构造模块，负责依据汉字字表构造模块产生的字表，创建字字之间的相关度系统矩阵表；

词语匹配相似度计算模块，负责依次枚举正确词库表构造模块产生的正确词库表中的每一个词，并针对每一个词中的每个汉字依次进行其他汉字替换，根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的相似度；

错误词语选择模块，负责将词语匹配相似度计算模块计算得到的词语匹配相似度的数值从大到小进行排序，设定词语匹配的相似度阈值，将大于阈值的词语作为候选对象补充至错误词库。

本发明的有益效果如下：

由于本发明中，在生成正确词语相对应的错误词语时，使用了字词匹配算法，其中涉及到了字形和拼音比较，通过枚举的方法，找到了最接近的词语错误示例。因此，构造出的错误词语跟正确词语的匹配度较高，更符合人为主观错误类型。

由于本发明中，提供了一种通过正确词库自动构造错误词库的方法，使得错误词库的收集不再主要依赖人工为主，具有以下优势：

1)该方法提高了错误词库的构造效率，缩短了词库构造周期。

2)扩大了错误词语覆盖面。每一个词可能有多种不同的错法，而依靠人工收集可能只能针对已经出现的有限错误问题进行整理，收集其中的一种或者两种，比如“天翻地覆”，可以被错写为“天翻地复”、“天幡地覆”、“天番地覆”、“夫翻地复”和“夭翻地复”等，而本方法可以在理论上收集所有可能出错的情况。

3)提高了错误词库中的词条数目规模，进而提高了文本自动校对的准确率。

4)具有很好地扩展性。随着时代的发展，很多新的词语会出现在人们的日常生活中，尤其是一些网络热词，比如“洪荒之力”、“老司机”以及“友谊的小船”等。当这些新词出现后，通过该方法可以补充到正确词库中，自动构造出相应的错误词语，可以很快地更新到文本自动校对系统中；另外，当有新的生僻汉字出现时，补充到汉字字表中，同样可以达到自动生成错误词语的目的。

附图说明

图1为实施例中所述的文本校对错误词库的自动构造方法流程示意图；

图2为所有的汉字拼音相同或者相近的情况示意图；

图3为部分同音字汉字集合示意图；

图4为部分形近字汉字集合示意图；

图5为实施例中所述的文本校对错误词库的自动构造装置结构示意图。

具体实施方式

下面结合附图对本发明的具体实施作出说明。

如图1所示，一种文本校对错误词库的自动构造方法包括如下步骤：

S101，首先构建一个大规模的正确词库表，并将每个词按照在该正确词库表中的先后顺序进行编号。

所述的正确词库表包括新华词典、汉语分词词表、成语词典库、古诗词名句以及特定专业领域词库，比如外交、计算机、医药等。

S102，针对计算机系统字库中的每一个汉字，构造一系列的字表。

所述的构造的字表，包括拼音编码表、偏旁部首表和五笔字型编码表。

a.创建所有汉字的拼音编码表，其中每一个字都有一个或多个拼音表，比如：告：91；哥：92；歌：92；搁：92；戈：92；鸽：92；胳：92。

如果两个汉字的拼音符合图2所示的对应关系即可判别为音同或者音近，图3为相应的部分同音字汉字集合示意图。

b.创建所有汉字的偏旁部首表，将每个汉字的拆成所有偏旁部首的组合。比如：

侥：亻：尧：

侦：亻：贞：

侧：亻：则：

侨：亻：乔：

侩：亻：会：

侮：亻：每：

便：亻：更：

促：亻：足：

俄：亻：我：

俏：亻：肖。

同时创建正确词库的倒排索引表，每个词都包含若干个字,将每个字的拼音和部首展开，形成一个词到拼音、部首的表。如:

“战线”的拼音编码是:375,337；

“战线”的部首是:占,戈,纟,戋。

(1)拼音编码倒排索引，倒排索引表中的每一项为拼音编码,和所有包含这个拼音编码的词的编号。

(2)偏旁部首倒排索引，倒排索引表中的每一项为部首,和所有包含这个部首的词的编号。

c.五笔输入相似码词典的构造。五笔输入相似码词典的构造是在五笔字型编码表的基础上，将编码相同或者相近的字词进行组织并以特定的格式存储，包括同码候选词和近码候选词。同码候选词从五笔字型码表直接得到，而近码候选词是在五笔字型编码表的基础上，通过构造特定的五笔字形编码相似函数获得。

S103，根据构造的字表，创建字字之间的相关度系统矩阵表。

所述的相关度系统矩阵表，是指计算不同词之间相对应位置处汉字的相关度值，根据以下规则计算得到：

1)两个字相同，相关度为2；

2)两个字不同，但拼音相同或相近，则相关度为1；

3)两个字不同，但字形相近，即汉字主体部首结构相同,则相关度为1；

4)两个字不同，但五笔编码相同或相近，则相关度为1；在判断五笔编码是否相同时，可利用前文所述的五笔输入相似码词典进行判断；

5)否则，相关度为0。

由于汉字的拼音类型固定，且数量不多，因此，拼音相同或者相近判断方法较为简单。相比之下，字形相似的判断比较复杂。在本实施例中，字形相近的判断方法，包括人工辅助、OCR识别和机器自动图像匹配识别方法。

a.人工辅助字形相近判断方法。

主要包括如下步骤：

1)人工将所有汉字的偏旁部首进行拆分；

b.OCR识别字形相近判断方法。

主要包括如下步骤：

1)将每个汉字经过电脑编辑排版后打印输出；

2)接着将打印后的每个汉字经过扫描处理后进行OCR识别；

c.机器自动图像匹配识别字形相近判断方法。

1)提取易错字形近字图像集合中每个字符图像的多维的方向线素特征；

方向线素特征是一种典型的结合了结构特征和统计特征的一种表征汉字的方法，在该方法中首先利用汉字的轮廓做处理，考察轮廓像素点的八邻域中的像素点在水平，垂直，主对角线和次对角线上的分布情况。如有符合水平，垂直，主对角线或次对角线四个方向中的任一种情况，则该像素对应方向上的方向线素值(权重)就会增加一个单位。方向线素特征同时反映了字符的结构和统计特征，比较全面地代表汉字字符信息。

因为基于方向的特征反映了汉字的属性，故本实施例中采用字符的方向线素特征来记录字符图像的字形特征。提取每张字符图像多维的方向线素特征，然后对这些字符图像的方向线素特征进行聚类。

经过上述方法得到的形近字集合，如图4为部分形近字汉字集合示意图。

S104，依次枚举正确词库中的每一个词，并针对每一个词中的每个汉字依次进行其他汉字替换，根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的相似度。

相似度计算法具体如下：

Step1：初始化匹配矩阵；

令矩阵的行数和列数分别为两个匹配词的长度m和n。根据字的相关度表得到每两个字的相关度r,填充矩阵中每个点。r(i,j)即为第i行、第j列的相关度的值。

如：匹配“待任道”和“待人之道”，则m＝3,n＝4，匹配矩阵如表1所示。

表1.匹配矩阵

	待	人	之	道
					待	2	0	0	0
任	0	1	0	0
					道	0	0	0	2

Step2：计算每个点的最大相关度rmax,得到最大相关度矩阵。

其计算方法为：

rmax(i,1)＝r(0,0)，(i＝1...m)；

rmax(1,j)＝r(0,0)，(j＝1...n)；

rmax(i,j)＝max(rmax(i-1,j),rmax(i,j-1),rmax(i-1,j-1))+r(i,j)；

如:匹配“待任道”和“待人之道”，则匹配矩阵的最大相关度矩阵如表2所示。

表2.最大相关度矩阵

	待	人	之	道
					待	2	2	2	2
任	2	3	3	3
					道	2	3	3	5

Step3：计算相似度rs＝rmax(m,n)/(2*max(m,n))。

比如：“待任道”和“待人之道”的相似度为5/8＝0.625。

S105，将词语匹配相似度的数值从大到小进行排序，设定词语匹配的相似度阈值，将大于阈值的词语作为候选对象补充至错误词库。

如果相似度大于τ，则判断为错误词语；否则排除。此处，选择τ＝75％。

当词语相似度数值τ相同时，候选词语的优先级次序如下：

1)音同且形近。

即两汉字间不仅读音相同而且字形相似，此种情况下汉字间的相似度最高。例如：

杨-扬

织-职枳帜

伴-拌绊

2)音近且形近。

3)形近。

即两个汉字间形近但音不同，比如：

崇-祟

凋-调绸

妙-纱抄

4)音同。比如：

差-岔姹镲叉刹嵖茶

传-串舡船舛喘圌遄川钏氚椽穿

5)音近。

下面以词语“老当益壮”为例，详细说明上述错误词的构建过程。

步骤一，搜索正确词语中每个汉字的形近字。

词语“老当益壮”中，搜索到的每个字的形近字如下：

老-考铑佬孝姥

当-挡档珰裆铛

益-盖

壮-状妆

步骤二，在每个字的形近字中，找出符合音同且形近的汉字。

读音为“lao”的同音字集合为：“老耢佬唠劳崂酪醪铑姥嫪捞涝橑痨牢烙”。因此，与“老”同时满足音同行近的汉字是：“铑”、“佬”和“姥”.

读音为“dang”的同音字集合为：“裆谠荡菪蟷噹凼党当铛宕挡愓欓档璫珰筜砀”。因此，“挡档珰裆铛”均为“当”的同音形近字。

同理，“益”没有同音形近字，“状”和“妆”均是“壮”的同音形近字。

步骤三，利用找到的形近字构建错误词。

由于音同且形近的汉字间的相似度最高，而且替换后具有良好的视觉效果和较高的迷惑性，因此首先利用汉字的同音且形近的字做形似字替换生成错误词。替换的原则是只用词语中某一个汉字的相似字做替换生成一个错误词。

因此，词语“老当益壮”的错误词构建结果如下：

(1)利用“老”的同音且形近字替换：“铑当益壮”、“佬当益壮”、“姥当益壮”；

(2)利用“当”的同音且形近字替换：“老挡益壮”、“老档益壮”、“老珰益壮”、“老裆益壮”、“老铛益壮”；

(3)利用“壮”的同音且形近字替换：“老当益妆”、“老当益状”。

步骤四，选取生成的错误词加入错误词库中。

在本实施例中，我们可以根据需要对错误词语进行多种替换变形，下面分别为2种、4种、8种和16种替换方式的例子。

(1)2种替换。如表3所示。

表3. 2种替换

排头	俳头
		严冬	俨冬
今宵	今霄
		他们	他扪

(2)4种替换。如表4所示。

表4. 4种替换

(3)8种替换。如表5所示。

表5. 8种替换

一路平安

一路平按

一路平案

一路平桉

一路平胺

一路平鞍

一路平垵

一路枰安

一蹶不振

一蹶不赈

一蹶不震

一镢不振

一噘不振

一撅不振

一橛不振

不辨真伪

不辨真沩

不辨真为

不辨稹伪

不辨缜伪

不辨镇伪

不辩真伪

不辫真伪

主干道

住干道

柱干道

注干道

驻干道

主杆道

主秆道

主竿道

(4)16种替换。如表6所示。

表6. 16种替换

不谋其政

不谋旗政

不谋期政

不谋棋政

不谋欺政

不谋淇政

不谋琪政

不谋祺政

五彩缤纷

伍彩缤纷

五睬缤纷

五菜缤纷

五踩缤纷

五采缤纷

五彩缤芬

五彩缤份

交互式

交冱式

交枑式

交沍式

佼互式

姣互式

狡互式

皎互式

倨傲无礼

剧傲无礼

居傲无礼

据傲无礼

椐傲无礼

琚傲无礼

裾傲无礼

踞傲无礼

不谋蜞政

不谋骐政

不谋鲯政

不谋其正

不谋其症

不谋其眐

不谋其证

不谋其钲

五彩缤分

五彩缤吩

五彩缤坋

五彩缤枌

五彩缤汾

五彩缤粉

五彩膑纷

五彩镔纷

绞互式

胶互式

跤互式

郊互式

饺互式

交互拭

交互试

交互轼

锯傲无礼

倨嗷无礼

倨熬无礼

倨璈无礼

倨磝无礼

倨遨无礼

倨傲抚礼

崛傲无礼

当然，如果对每个正确词语中多个汉字同时替换，可以得到更多的错误词语组合，这样得到的错误词库的规模会更大。

基于同一发明构思，本发明还提供了一种文本校对错误词库的自动构造装置，如图5所示，包括：

正确词库构造模块，负责构建一个大规模的正确词库表，并将每个词按照在正确词库表中的先后顺序进行编号；

词语匹配相似度计算模块，负责依次枚举正确词库构造模块产生的正确词库中的每一个词，并针对每一个词中的每个汉字依次进行其他汉字替换，根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的相似度；

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文本校对错误词库的自动构造方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述正确词库表包括：新华词典、汉语分词词表、成语词典库、古诗词名句以及特定专业领域词库。

3.如权利要求1所述的方法，其特征在于，所述字表包括：拼音编码表、偏旁部首表和五笔字型编码表。

4.如权利要求1所述的方法，其特征在于，所述相关度系统矩阵表包括不同词之间相对应位置处汉字的相关度值，计算规则如下：

1)两个字相同，相关度为2；

2)两个字不同，但拼音相同或相近，则相关度为1；

4)两个字不同，但五笔编码相同或相近，则相关度为1；

5)否则，相关度为0。

5.如权利要求4所述的方法，其特征在于，所述字形相近的判断方法，包括人工辅助方法、OCR识别方法和机器自动图像匹配识别方法。

6.如权利要求5所述的方法，其特征在于，所述人工辅助方法包括以下步骤：

1)人工将所有汉字的偏旁部首进行拆分；

7.如权利要求5所述的方法，其特征在于，所述OCR识别方法包括以下步骤：

1)将每个汉字经过电脑编辑排版后打印输出；

2)接着将打印后的每个汉字经过扫描处理后进行OCR识别；

8.如权利要求5所述的方法，其特征在于，所述机器自动图像匹配识别方法包括以下步骤：

9.如权利要求1所述的方法，其特征在于，当所述词语匹配相似度的数值相同时，候选词语的优先级次序如下：

1)音同且形近；

2)音近且形近；

3)形近；

4)音同；

5)音近。

10.一种文本校对错误词库的自动构造装置，其特征在于，包括：