CN107665190A - 一种文本校对错误词库的自动构造方法和装置 - Google Patents
一种文本校对错误词库的自动构造方法和装置 Download PDFInfo
- Publication number
- CN107665190A CN107665190A CN201710905273.4A CN201710905273A CN107665190A CN 107665190 A CN107665190 A CN 107665190A CN 201710905273 A CN201710905273 A CN 201710905273A CN 107665190 A CN107665190 A CN 107665190A
- Authority
- CN
- China
- Prior art keywords
- word
- dictionary
- chinese character
- correct
- degree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种文本校对错误词库的自动构造方法和装置。该方法包括:构建一个大规模的正确词库表,并将每个词按照在正确词库表中的先后顺序进行编号;针对计算机系统字库中的每一个汉字,构造一系列的字表;创建字字之间的相关度系统矩阵表;依次枚举正确词库表中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,计算替换一个汉字后的错误词语与正确词语的词语匹配相似度;将词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,将大于阈值的词语作为候选对象补充至错误词库。本发明能够克服现有技术中错误词表收集过多依赖人工方式、效率低、覆盖面窄以及词库规模受限等缺点,并能够提高文本自动校对的准确率。
Description
技术领域
本发明属于文字处理领域,涉及一种文本自动校对处理技术,具体涉及一种用于文本校对的错误词库的自动构造方法和装置。
背景技术
随着现代激光照排技术和电子出版业的迅速发展,如何保证所传达的信息正确无误成为研究的重要方面之一。目前人们使用计算机进行写作、编辑和排版等工作,不可避免地会出现些文字错误,例如多字、漏字、易位、英文单词拼写错误、不规范标点等。因此,需要有专门的校对系统对文稿进行校对。从长远发展来看,信息化是将来社会发展的趋势,人们面临的电子信息和文稿日益增多,像电子期刊、电子报纸等,而传统的手工校对需要校对人员对文本进行逐字逐句的阅读、检查,从成本和效率两个方面都不能适应电子文本数量迅猛增长的趋势。因此,对一个准确度高、效率高的自动校对系统的需求越来越迫切。
自动校对具有很重要的实用价值,有着广泛的应用领域。在出版业,文本自动校对的实现可以太大减轻校对人员的工作量,将他们从繁琐无味的工作中解脱出来,加快出版节奏推动整个出版业的迅速发展;在文字识别方面。需要用查错、纠错技术对语音识别,OCR(Optical Character Recognition)光学文字识别等识别结果进行修改:在文字编辑方面,例如Word等很多文本编辑系统中都提供有自动查错技术,对输入的文本进行自动报错;在人机接口方面,例如数据库查询、自然语言接口等人机接口中要求有一定的容错性能;在辅助教学等系统中需要对输入的句子进行分析,查找出其中的错误,并给出可能的正确答案等。
而在文本自动校对技术中,常用的方法为:收集对文字进行校对的修改信息;根据所述修改信息建立易错词表;根据易错词表查找文字中的可疑字并进行提示。因此,错误词库的构建对于文本自动校对技术的发展至关重要,词库数量多少直接影响着文本自动校对结果的准确率。而现有技术中,易错词表的收集主要依赖人工为主,存在着效率低、覆盖面不全以及词库规模受限等问题。
发明内容
本发明提供一种文本校对错误词库的自动构造方法和装置,用以解决现有技术中错误词表收集过多依赖人工方式、效率低、覆盖面窄以及词库规模受限等缺点,进一步提高文本自动校对的准确率。
本发明的构思在于,首先,构建一个大规模的正确词库表,包括各种通用的新华词典、汉语分词词表、成语词典库、古诗词名句以及各种专业领域词库(比如外交、计算机、医药等),并将每个词按照在词库中的先后顺序进行编号;针对计算机系统字库中的每一个汉字,构造一系列的字表,主要有拼音编码表、偏旁部首表和五笔字型编码表;创建字字之间的相关度系统矩阵表;依次枚举正确词库中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,计算替换一个汉字后的错误词语与正确词语的相似度;将词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,大于阈值的词语作为候选对象补充至错误词库。由此得到了一种文本校对错误词库的自动构造方法和装置。
本发明中一种文本校对错误词库的自动构造方法,包括如下步骤:
步骤一,构建一个大规模的正确词库表,并将每个词按照在正确词库表中的先后顺序进行编号;
步骤二,针对计算机系统字库中的每一个汉字,构造一系列的字表;
步骤三,根据构造的字表创建字字之间的相关度系统矩阵表;
步骤四,依次枚举正确词库表中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的词语匹配相似度;
步骤五,将词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,将大于阈值的词语作为候选对象补充至错误词库。
较佳地,所述的正确词库表包括:新华词典、汉语分词词表、成语词典库、古诗词名句以及特定专业领域词库;
较佳地,所述的字表包括:拼音编码表、偏旁部首表和五笔字型编码表;
较佳地,所述的相关度系统矩阵表,是指计算不同词之间相对应位置处汉字的相关度值,规则如下:
1)两个字相同,相关度为2;
2)两个字不同,但拼音相同或相近,则相关度为1;
3)两个字不同,但字形相近,即汉字主体部首结构相同,则相关度为1;
4)两个字不同,但五笔编码相同或相近,则相关度为1;
5)否则,相关度为0。
较佳地,所述的字形相近的判断方法,包括人工辅助方法、OCR识别方法和机器自动图像匹配识别方法;
较佳地,所述的人工辅助方法,主要包括如下步骤:
1)人工将所有汉字的偏旁部首进行拆分;
2)指定汉字本身的主体结构部首,形成汉字偏旁部首构成表;
3)当判断是否为字形相近时,读取每个汉字的偏旁部首构成和主体结构部首,并进行比较;
4)当待比较的两个汉字的主体结构部首相同时则判断为字形相近,否则判断为字形不相近。
较佳地,所述的OCR识别方法,主要包括如下步骤:
1)将每个汉字经过电脑编辑排版后打印输出;
2)接着将打印后的每个汉字经过扫描处理后进行OCR识别;
3)在OCR识别结果集合中选择排名靠前的文字对象,作为该汉字对应的字形相近候选字存储在子集合中;
4)通过判断两个汉字是否属于同一个子集合来判断他们是否为字形相近。
较佳地,所述的机器自动图像匹配识别方法,主要包括:
1)提取易错字、形近字图像集合中每个字符图像的多维的方向线素特征;
2)根据每个字符图像的多维的方向线素特征,通过最大最小距离法对字符图像进行图像聚类。
较佳地,所述的词语匹配相似度的数值,当词语匹配相似度的数值相同时,候选词语的优先级次序如下:
1)音同且形近;
2)音近且形近;
3)形近;
4)音同;
5)音近。
基于同一发明构思,本发明还提供了一种文本校对错误词库的自动构造装置,包括:
正确词库表构造模块,负责构建一个大规模的正确词库表,并将每个词按照在正确词库表中的先后顺序进行编号;
汉字字表构造模块,负责针对计算机系统字库中的每一个汉字,构造一系列的字表;
相关度系统矩阵表构造模块,负责依据汉字字表构造模块产生的字表,创建字字之间的相关度系统矩阵表;
词语匹配相似度计算模块,负责依次枚举正确词库表构造模块产生的正确词库表中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的相似度;
错误词语选择模块,负责将词语匹配相似度计算模块计算得到的词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,将大于阈值的词语作为候选对象补充至错误词库。
本发明的有益效果如下:
由于本发明中,在生成正确词语相对应的错误词语时,使用了字词匹配算法,其中涉及到了字形和拼音比较,通过枚举的方法,找到了最接近的词语错误示例。因此,构造出的错误词语跟正确词语的匹配度较高,更符合人为主观错误类型。
由于本发明中,提供了一种通过正确词库自动构造错误词库的方法,使得错误词库的收集不再主要依赖人工为主,具有以下优势:
1)该方法提高了错误词库的构造效率,缩短了词库构造周期。
2)扩大了错误词语覆盖面。每一个词可能有多种不同的错法,而依靠人工收集可能只能针对已经出现的有限错误问题进行整理,收集其中的一种或者两种,比如“天翻地覆”,可以被错写为“天翻地复”、“天幡地覆”、“天番地覆”、“夫翻地复”和“夭翻地复”等,而本方法可以在理论上收集所有可能出错的情况。
3)提高了错误词库中的词条数目规模,进而提高了文本自动校对的准确率。
4)具有很好地扩展性。随着时代的发展,很多新的词语会出现在人们的日常生活中,尤其是一些网络热词,比如“洪荒之力”、“老司机”以及“友谊的小船”等。当这些新词出现后,通过该方法可以补充到正确词库中,自动构造出相应的错误词语,可以很快地更新到文本自动校对系统中;另外,当有新的生僻汉字出现时,补充到汉字字表中,同样可以达到自动生成错误词语的目的。
附图说明
图1为实施例中所述的文本校对错误词库的自动构造方法流程示意图;
图2为所有的汉字拼音相同或者相近的情况示意图;
图3为部分同音字汉字集合示意图;
图4为部分形近字汉字集合示意图;
图5为实施例中所述的文本校对错误词库的自动构造装置结构示意图。
具体实施方式
下面结合附图对本发明的具体实施作出说明。
如图1所示,一种文本校对错误词库的自动构造方法包括如下步骤:
S101,首先构建一个大规模的正确词库表,并将每个词按照在该正确词库表中的先后顺序进行编号。
所述的正确词库表包括新华词典、汉语分词词表、成语词典库、古诗词名句以及特定专业领域词库,比如外交、计算机、医药等。
S102,针对计算机系统字库中的每一个汉字,构造一系列的字表。
所述的构造的字表,包括拼音编码表、偏旁部首表和五笔字型编码表。
a.创建所有汉字的拼音编码表,其中每一个字都有一个或多个拼音表,比如:告:91;哥:92;歌:92;搁:92;戈:92;鸽:92;胳:92。
如果两个汉字的拼音符合图2所示的对应关系即可判别为音同或者音近,图3为相应的部分同音字汉字集合示意图。
b.创建所有汉字的偏旁部首表,将每个汉字的拆成所有偏旁部首的组合。比如:
侥:亻:尧:
侦:亻:贞:
侧:亻:则:
侨:亻:乔:
侩:亻:会:
侮:亻:每:
便:亻:更:
促:亻:足:
俄:亻:我:
俏:亻:肖。
同时创建正确词库的倒排索引表,每个词都包含若干个字,将每个字的拼音和部首展开,形成一个词到拼音、部首的表。如:
“战线”的拼音编码是:375,337;
“战线”的部首是:占,戈,纟,戋。
(1)拼音编码倒排索引,倒排索引表中的每一项为拼音编码,和所有包含这个拼音编码的词的编号。
(2)偏旁部首倒排索引,倒排索引表中的每一项为部首,和所有包含这个部首的词的编号。
c.五笔输入相似码词典的构造。五笔输入相似码词典的构造是在五笔字型编码表的基础上,将编码相同或者相近的字词进行组织并以特定的格式存储,包括同码候选词和近码候选词。同码候选词从五笔字型码表直接得到,而近码候选词是在五笔字型编码表的基础上,通过构造特定的五笔字形编码相似函数获得。
S103,根据构造的字表,创建字字之间的相关度系统矩阵表。
所述的相关度系统矩阵表,是指计算不同词之间相对应位置处汉字的相关度值,根据以下规则计算得到:
1)两个字相同,相关度为2;
2)两个字不同,但拼音相同或相近,则相关度为1;
3)两个字不同,但字形相近,即汉字主体部首结构相同,则相关度为1;
4)两个字不同,但五笔编码相同或相近,则相关度为1;在判断五笔编码是否相同时,可利用前文所述的五笔输入相似码词典进行判断;
5)否则,相关度为0。
由于汉字的拼音类型固定,且数量不多,因此,拼音相同或者相近判断方法较为简单。相比之下,字形相似的判断比较复杂。在本实施例中,字形相近的判断方法,包括人工辅助、OCR识别和机器自动图像匹配识别方法。
a.人工辅助字形相近判断方法。
主要包括如下步骤:
1)人工将所有汉字的偏旁部首进行拆分;
2)指定汉字本身的主体结构部首,形成汉字偏旁部首构成表;
3)当判断是否为字形相近时,读取每个汉字的偏旁部首构成和主体结构部首,并进行比较;
4)当待比较的两个汉字的主体结构部首相同时则判断为字形相近,否则判断为字形不相近。
b.OCR识别字形相近判断方法。
主要包括如下步骤:
1)将每个汉字经过电脑编辑排版后打印输出;
2)接着将打印后的每个汉字经过扫描处理后进行OCR识别;
3)在OCR识别结果集合中选择排名靠前的文字对象,作为该汉字对应的字形相近候选字存储在子集合中;
4)通过判断两个汉字是否属于同一个子集合来判断他们是否为字形相近。
c.机器自动图像匹配识别字形相近判断方法。
1)提取易错字形近字图像集合中每个字符图像的多维的方向线素特征;
方向线素特征是一种典型的结合了结构特征和统计特征的一种表征汉字的方法,在该方法中首先利用汉字的轮廓做处理,考察轮廓像素点的八邻域中的像素点在水平,垂直,主对角线和次对角线上的分布情况。如有符合水平,垂直,主对角线或次对角线四个方向中的任一种情况,则该像素对应方向上的方向线素值(权重)就会增加一个单位。方向线素特征同时反映了字符的结构和统计特征,比较全面地代表汉字字符信息。
2)根据每个字符图像的多维的方向线素特征,通过最大最小距离法对字符图像进行图像聚类。
因为基于方向的特征反映了汉字的属性,故本实施例中采用字符的方向线素特征来记录字符图像的字形特征。提取每张字符图像多维的方向线素特征,然后对这些字符图像的方向线素特征进行聚类。
经过上述方法得到的形近字集合,如图4为部分形近字汉字集合示意图。
S104,依次枚举正确词库中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的相似度。
相似度计算法具体如下:
Step1:初始化匹配矩阵;
令矩阵的行数和列数分别为两个匹配词的长度m和n。根据字的相关度表得到每两个字的相关度r,填充矩阵中每个点。r(i,j)即为第i行、第j列的相关度的值。
如:匹配“待任道”和“待人之道”,则m=3,n=4,匹配矩阵如表1所示。
表1.匹配矩阵
待 | 人 | 之 | 道 | |
待 | 2 | 0 | 0 | 0 |
任 | 0 | 1 | 0 | 0 |
道 | 0 | 0 | 0 | 2 |
Step2:计算每个点的最大相关度rmax,得到最大相关度矩阵。
其计算方法为:
rmax(i,1)=r(0,0),(i=1...m);
rmax(1,j)=r(0,0),(j=1...n);
rmax(i,j)=max(rmax(i-1,j),rmax(i,j-1),rmax(i-1,j-1))+r(i,j);
如:匹配“待任道”和“待人之道”,则匹配矩阵的最大相关度矩阵如表2所示。
表2.最大相关度矩阵
待 | 人 | 之 | 道 | |
待 | 2 | 2 | 2 | 2 |
任 | 2 | 3 | 3 | 3 |
道 | 2 | 3 | 3 | 5 |
Step3:计算相似度rs=rmax(m,n)/(2*max(m,n))。
比如:“待任道”和“待人之道”的相似度为5/8=0.625。
S105,将词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,将大于阈值的词语作为候选对象补充至错误词库。
如果相似度大于τ,则判断为错误词语;否则排除。此处,选择τ=75%。
当词语相似度数值τ相同时,候选词语的优先级次序如下:
1)音同且形近。
即两汉字间不仅读音相同而且字形相似,此种情况下汉字间的相似度最高。例如:
杨-扬
织-职枳帜
伴-拌绊
2)音近且形近。
3)形近。
即两个汉字间形近但音不同,比如:
崇-祟
凋-调绸
妙-纱抄
4)音同。比如:
差-岔姹镲叉刹嵖茶
传-串舡船舛喘圌遄川钏氚椽穿
5)音近。
下面以词语“老当益壮”为例,详细说明上述错误词的构建过程。
步骤一,搜索正确词语中每个汉字的形近字。
词语“老当益壮”中,搜索到的每个字的形近字如下:
老-考铑佬孝姥
当-挡档珰裆铛
益-盖
壮-状妆
步骤二,在每个字的形近字中,找出符合音同且形近的汉字。
读音为“lao”的同音字集合为:“老耢佬唠劳崂酪醪铑姥嫪捞涝橑痨牢烙”。因此,与“老”同时满足音同行近的汉字是:“铑”、“佬”和“姥”.
读音为“dang”的同音字集合为:“裆谠荡菪蟷噹凼党当铛宕挡愓欓档璫珰筜砀”。因此,“挡档珰裆铛”均为“当”的同音形近字。
同理,“益”没有同音形近字,“状”和“妆”均是“壮”的同音形近字。
步骤三,利用找到的形近字构建错误词。
由于音同且形近的汉字间的相似度最高,而且替换后具有良好的视觉效果和较高的迷惑性,因此首先利用汉字的同音且形近的字做形似字替换生成错误词。替换的原则是只用词语中某一个汉字的相似字做替换生成一个错误词。
因此,词语“老当益壮”的错误词构建结果如下:
(1)利用“老”的同音且形近字替换:“铑当益壮”、“佬当益壮”、“姥当益壮”;
(2)利用“当”的同音且形近字替换:“老挡益壮”、“老档益壮”、“老珰益壮”、“老裆益壮”、“老铛益壮”;
(3)利用“壮”的同音且形近字替换:“老当益妆”、“老当益状”。
步骤四,选取生成的错误词加入错误词库中。
在本实施例中,我们可以根据需要对错误词语进行多种替换变形,下面分别为2种、4种、8种和16种替换方式的例子。
(1)2种替换。如表3所示。
表3. 2种替换
排头 | 俳头 |
严冬 | 俨冬 |
今宵 | 今霄 |
他们 | 他扪 |
(2)4种替换。如表4所示。
表4. 4种替换
(3)8种替换。如表5所示。
表5. 8种替换
一路平安 | 一路平按 | 一路平案 | 一路平桉 | 一路平胺 | 一路平鞍 | 一路平垵 | 一路枰安 |
一蹶不振 | 一蹶不赈 | 一蹶不震 | 一蹶不震 | 一镢不振 | 一噘不振 | 一撅不振 | 一橛不振 |
不辨真伪 | 不辨真沩 | 不辨真为 | 不辨稹伪 | 不辨缜伪 | 不辨镇伪 | 不辩真伪 | 不辫真伪 |
主干道 | 住干道 | 柱干道 | 注干道 | 驻干道 | 主杆道 | 主秆道 | 主竿道 |
(4)16种替换。如表6所示。
表6. 16种替换
不谋其政 | 不谋旗政 | 不谋期政 | 不谋棋政 | 不谋欺政 | 不谋淇政 | 不谋琪政 | 不谋祺政 |
五彩缤纷 | 伍彩缤纷 | 五睬缤纷 | 五菜缤纷 | 五踩缤纷 | 五采缤纷 | 五彩缤芬 | 五彩缤份 |
交互式 | 交冱式 | 交枑式 | 交沍式 | 佼互式 | 姣互式 | 狡互式 | 皎互式 |
倨傲无礼 | 剧傲无礼 | 居傲无礼 | 据傲无礼 | 椐傲无礼 | 琚傲无礼 | 裾傲无礼 | 踞傲无礼 |
不谋蜞政 | 不谋骐政 | 不谋鲯政 | 不谋其正 | 不谋其症 | 不谋其眐 | 不谋其证 | 不谋其钲 |
五彩缤分 | 五彩缤吩 | 五彩缤坋 | 五彩缤枌 | 五彩缤汾 | 五彩缤粉 | 五彩膑纷 | 五彩镔纷 |
绞互式 | 胶互式 | 跤互式 | 郊互式 | 饺互式 | 交互拭 | 交互试 | 交互轼 |
锯傲无礼 | 倨嗷无礼 | 倨熬无礼 | 倨璈无礼 | 倨磝无礼 | 倨遨无礼 | 倨傲抚礼 | 崛傲无礼 |
当然,如果对每个正确词语中多个汉字同时替换,可以得到更多的错误词语组合,这样得到的错误词库的规模会更大。
基于同一发明构思,本发明还提供了一种文本校对错误词库的自动构造装置,如图5所示,包括:
正确词库构造模块,负责构建一个大规模的正确词库表,并将每个词按照在正确词库表中的先后顺序进行编号;
汉字字表构造模块,负责针对计算机系统字库中的每一个汉字,构造一系列的字表;
相关度系统矩阵表构造模块,负责依据汉字字表构造模块产生的字表,创建字字之间的相关度系统矩阵表;
词语匹配相似度计算模块,负责依次枚举正确词库构造模块产生的正确词库中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的相似度;
错误词语选择模块,负责将词语匹配相似度计算模块计算得到的词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,将大于阈值的词语作为候选对象补充至错误词库。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种文本校对错误词库的自动构造方法,其特征在于,包括以下步骤:
步骤一,构建一个大规模的正确词库表,并将每个词按照在正确词库表中的先后顺序进行编号;
步骤二,针对计算机系统字库中的每一个汉字,构造一系列的字表;
步骤三,根据构造的字表创建字字之间的相关度系统矩阵表;
步骤四,依次枚举正确词库表中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的词语匹配相似度;
步骤五,将词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,将大于阈值的词语作为候选对象补充至错误词库。
2.如权利要求1所述的方法,其特征在于,所述正确词库表包括:新华词典、汉语分词词表、成语词典库、古诗词名句以及特定专业领域词库。
3.如权利要求1所述的方法,其特征在于,所述字表包括:拼音编码表、偏旁部首表和五笔字型编码表。
4.如权利要求1所述的方法,其特征在于,所述相关度系统矩阵表包括不同词之间相对应位置处汉字的相关度值,计算规则如下:
1)两个字相同,相关度为2;
2)两个字不同,但拼音相同或相近,则相关度为1;
3)两个字不同,但字形相近,即汉字主体部首结构相同,则相关度为1;
4)两个字不同,但五笔编码相同或相近,则相关度为1;
5)否则,相关度为0。
5.如权利要求4所述的方法,其特征在于,所述字形相近的判断方法,包括人工辅助方法、OCR识别方法和机器自动图像匹配识别方法。
6.如权利要求5所述的方法,其特征在于,所述人工辅助方法包括以下步骤:
1)人工将所有汉字的偏旁部首进行拆分;
2)指定汉字本身的主体结构部首,形成汉字偏旁部首构成表;
3)当判断是否为字形相近时,读取每个汉字的偏旁部首构成和主体结构部首,并进行比较;
4)当待比较的两个汉字的主体结构部首相同时则判断为字形相近,否则判断为字形不相近。
7.如权利要求5所述的方法,其特征在于,所述OCR识别方法包括以下步骤:
1)将每个汉字经过电脑编辑排版后打印输出;
2)接着将打印后的每个汉字经过扫描处理后进行OCR识别;
3)在OCR识别结果集合中选择排名靠前的文字对象,作为该汉字对应的字形相近候选字存储在子集合中;
4)通过判断两个汉字是否属于同一个子集合来判断他们是否为字形相近。
8.如权利要求5所述的方法,其特征在于,所述机器自动图像匹配识别方法包括以下步骤:
1)提取易错字、形近字图像集合中每个字符图像的多维的方向线素特征;
2)根据每个字符图像的多维的方向线素特征,通过最大最小距离法对字符图像进行图像聚类。
9.如权利要求1所述的方法,其特征在于,当所述词语匹配相似度的数值相同时,候选词语的优先级次序如下:
1)音同且形近;
2)音近且形近;
3)形近;
4)音同;
5)音近。
10.一种文本校对错误词库的自动构造装置,其特征在于,包括:
正确词库表构造模块,负责构建一个大规模的正确词库表,并将每个词按照在正确词库表中的先后顺序进行编号;
汉字字表构造模块,负责针对计算机系统字库中的每一个汉字,构造一系列的字表;
相关度系统矩阵表构造模块,负责依据汉字字表构造模块产生的字表,创建字字之间的相关度系统矩阵表;
词语匹配相似度计算模块,负责依次枚举正确词库表构造模块产生的正确词库表中的每一个词,并针对每一个词中的每个汉字依次进行其他汉字替换,根据相关度系统矩阵表计算替换一个汉字后的错误词语与正确词语的相似度;
错误词语选择模块,负责将词语匹配相似度计算模块计算得到的词语匹配相似度的数值从大到小进行排序,设定词语匹配的相似度阈值,将大于阈值的词语作为候选对象补充至错误词库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710905273.4A CN107665190A (zh) | 2017-09-29 | 2017-09-29 | 一种文本校对错误词库的自动构造方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710905273.4A CN107665190A (zh) | 2017-09-29 | 2017-09-29 | 一种文本校对错误词库的自动构造方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107665190A true CN107665190A (zh) | 2018-02-06 |
Family
ID=61097081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710905273.4A Pending CN107665190A (zh) | 2017-09-29 | 2017-09-29 | 一种文本校对错误词库的自动构造方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107665190A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086266A (zh) * | 2018-07-02 | 2018-12-25 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN109977412A (zh) * | 2019-03-29 | 2019-07-05 | 北京林业大学 | 一种字段值纠错方法、装置、可读介质及存储控制器 |
CN110223678A (zh) * | 2019-06-12 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN111079415A (zh) * | 2019-11-12 | 2020-04-28 | 中国标准化研究院 | 一种基于搭配冲突的中文自动查错方法 |
CN111291552A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 一种文本内容修正的方法和系统 |
CN111488466A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 中文带标记错误语料生成方法、计算装置和存储介质 |
CN111737982A (zh) * | 2020-06-29 | 2020-10-02 | 武汉虹信技术服务有限责任公司 | 一种基于深度学习的汉语文本错别字检测方法 |
CN111913573A (zh) * | 2020-07-10 | 2020-11-10 | 山东大学 | 用于英语单词辅助学习的人机交互方法及系统 |
CN112001169A (zh) * | 2020-07-17 | 2020-11-27 | 北京百度网讯科技有限公司 | 文本纠错的方法、装置、电子设备和可读存储介质 |
CN113554033A (zh) * | 2021-09-18 | 2021-10-26 | 深圳市一号互联科技有限公司 | 智能文本机器人的文本识别方法、装置及系统 |
WO2021218329A1 (zh) * | 2020-04-28 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 平行语料生成方法、装置、设备及存储介质 |
CN116312915A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN116502614A (zh) * | 2023-06-26 | 2023-07-28 | 北京每日信动科技有限公司 | 一种数据校对方法、系统及存储介质 |
CN116580402A (zh) * | 2023-05-26 | 2023-08-11 | 读书郎教育科技有限公司 | 一种词典笔的文本识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2033120A2 (en) * | 2006-05-23 | 2009-03-11 | Lexisnexis, A Division of Reed Elsevier Inc. | Method and apparatus for multilingual spelling corrections |
CN102063508A (zh) * | 2011-01-10 | 2011-05-18 | 浙江大学 | 基于广义后缀树的中文搜索引擎模糊自动补全方法 |
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN104572595A (zh) * | 2013-10-11 | 2015-04-29 | 北大方正集团有限公司 | 字库校验装置和字库校验方法 |
CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
CN106919681A (zh) * | 2017-02-28 | 2017-07-04 | 东软集团股份有限公司 | 错别字的纠错方法和装置 |
-
2017
- 2017-09-29 CN CN201710905273.4A patent/CN107665190A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2033120A2 (en) * | 2006-05-23 | 2009-03-11 | Lexisnexis, A Division of Reed Elsevier Inc. | Method and apparatus for multilingual spelling corrections |
CN102063508A (zh) * | 2011-01-10 | 2011-05-18 | 浙江大学 | 基于广义后缀树的中文搜索引擎模糊自动补全方法 |
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN104572595A (zh) * | 2013-10-11 | 2015-04-29 | 北大方正集团有限公司 | 字库校验装置和字库校验方法 |
CN105573979A (zh) * | 2015-12-10 | 2016-05-11 | 江苏科技大学 | 一种基于汉字混淆集的错字词知识生成方法 |
CN106919681A (zh) * | 2017-02-28 | 2017-07-04 | 东软集团股份有限公司 | 错别字的纠错方法和装置 |
Non-Patent Citations (1)
Title |
---|
施恒利 等: "汉字种子混淆集的构建方法研究", 《计算机科学》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086266B (zh) * | 2018-07-02 | 2021-09-14 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN109086266A (zh) * | 2018-07-02 | 2018-12-25 | 昆明理工大学 | 一种文本形近字的检错与校对方法 |
CN109977412A (zh) * | 2019-03-29 | 2019-07-05 | 北京林业大学 | 一种字段值纠错方法、装置、可读介质及存储控制器 |
CN109977412B (zh) * | 2019-03-29 | 2022-12-27 | 北京林业大学 | 语音识别文本的字段值纠错方法、装置及存储控制器 |
CN110223678A (zh) * | 2019-06-12 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 语音识别方法及系统 |
CN111079415A (zh) * | 2019-11-12 | 2020-04-28 | 中国标准化研究院 | 一种基于搭配冲突的中文自动查错方法 |
CN111488466B (zh) * | 2020-04-16 | 2023-06-06 | 清华大学 | 中文带标记错误语料生成方法、计算装置和存储介质 |
CN111488466A (zh) * | 2020-04-16 | 2020-08-04 | 清华大学 | 中文带标记错误语料生成方法、计算装置和存储介质 |
WO2021218329A1 (zh) * | 2020-04-28 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 平行语料生成方法、装置、设备及存储介质 |
CN111291552A (zh) * | 2020-05-09 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 一种文本内容修正的方法和系统 |
CN111737982A (zh) * | 2020-06-29 | 2020-10-02 | 武汉虹信技术服务有限责任公司 | 一种基于深度学习的汉语文本错别字检测方法 |
CN111913573A (zh) * | 2020-07-10 | 2020-11-10 | 山东大学 | 用于英语单词辅助学习的人机交互方法及系统 |
CN111913573B (zh) * | 2020-07-10 | 2022-03-22 | 山东大学 | 用于英语单词辅助学习的人机交互方法及系统 |
CN112001169A (zh) * | 2020-07-17 | 2020-11-27 | 北京百度网讯科技有限公司 | 文本纠错的方法、装置、电子设备和可读存储介质 |
CN113554033A (zh) * | 2021-09-18 | 2021-10-26 | 深圳市一号互联科技有限公司 | 智能文本机器人的文本识别方法、装置及系统 |
CN113554033B (zh) * | 2021-09-18 | 2021-12-10 | 深圳市一号互联科技有限公司 | 智能文本机器人的文本识别方法、装置及系统 |
CN116312915A (zh) * | 2023-05-19 | 2023-06-23 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN116312915B (zh) * | 2023-05-19 | 2023-09-19 | 之江实验室 | 一种电子病历中药物术语标准化关联方法及系统 |
CN116580402A (zh) * | 2023-05-26 | 2023-08-11 | 读书郎教育科技有限公司 | 一种词典笔的文本识别方法及装置 |
CN116502614A (zh) * | 2023-06-26 | 2023-07-28 | 北京每日信动科技有限公司 | 一种数据校对方法、系统及存储介质 |
CN116502614B (zh) * | 2023-06-26 | 2023-09-01 | 北京每日信动科技有限公司 | 一种数据校对方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107665190A (zh) | 一种文本校对错误词库的自动构造方法和装置 | |
CN110489760B (zh) | 基于深度神经网络文本自动校对方法及装置 | |
Handel | Sinography: The borrowing and adaptation of the Chinese script | |
Fischer et al. | Transcription alignment of Latin manuscripts using hidden Markov models | |
Kondrak | Algorithms for language reconstruction | |
Naz et al. | Segmentation techniques for recognition of Arabic-like scripts: A comprehensive survey | |
CN105957518A (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
CN104809142A (zh) | 商标查询系统和方法 | |
De Pauw et al. | Automatic diacritic restoration for resource-scarce languages | |
CN109241540A (zh) | 一种基于深度神经网络的汉盲自动转换方法和系统 | |
CN106297764A (zh) | 一种多语种混语文本处理方法及系统 | |
Zhang et al. | HANSpeller++: A unified framework for Chinese spelling correction | |
Scherrer et al. | Word-based dialect identification with georeferenced rules | |
Kessler et al. | Writing systems: Their properties and implications for reading | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
JP5528420B2 (ja) | 翻訳装置、翻訳方法及びコンピュータプログラム | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
Teshome et al. | Phoneme-based English-Amharic statistical machine translation | |
CN106201007A (zh) | 集拼音和字形编码多种方式于一体的汉字输入系统 | |
CN115310433A (zh) | 一种针对中文文本校对的数据增强方法 | |
CN114840680A (zh) | 一种实体关系联合抽取方法、装置、存储介质及终端 | |
Hosszú | A novel computerized paleographical method for determining the evolution of graphemes | |
Stanley | To Read Images Not Words: Computer-Aided Analysis of the Handwriting in the Codex Seraphinianus. | |
Thuon et al. | Syllable Analysis Data Augmentation for Khmer Ancient Palm leaf Recognition | |
Van Hal | Early modern views on language and languages (ca. 1450-1800) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180206 |