CN102375807A

CN102375807A - 文字校对方法和装置

Info

Publication number: CN102375807A
Application number: CN2010102661000A
Authority: CN
Inventors: 刘正珍; 高书征
Original assignee: Hanwang Technology Co Ltd
Current assignee: BEIJING HANVON DIGITAL TECHNOLOGY CO., LTD.
Priority date: 2010-08-27
Filing date: 2010-08-27
Publication date: 2012-03-14
Anticipated expiration: 2030-08-27
Also published as: CN102375807B

Abstract

本发明公开了一种文字校对方法和装置，涉及文字处理领域。本发明实施例提供的方法，包括如下步骤：收集对文字进行校对的修改信息；根据所述修改信息建立易错词表；根据易错词表查找文字中的可疑字并进行提示。本发明适用于文字录入、数据加工系统。本发明为解决目前书籍资料电子化过程中校对文字质量核查工作量大效率低的问题而发明，利用文字校对的修改信息建立易错词表，然后去全文中搜索残留的可疑字并对残留可疑字报警，方便核查，相对之前逐字核查找错检验校对质量的方法，本发明大大减少了核查工作量，减轻了核查人员的疲劳程度，在低报警率下保证了文字校对的质量。

Description

文字校对方法和装置

技术领域

本发明涉及文字处理领域，尤其涉及一种对校对文字质量的控制方法和装置。

背景技术

一个完整的文档录入系统分为以下部分：纸质资料的整理、扫描、图像预处理、版面分析、识别、校对和保存，其中校对是保证录入文档内容准确性的重要一环。现有校对主要借助机器进行，主要方式有两种：横向校对和纵向校对。

横向校对：直接将识别结果文本与图像进行对比，系统自动调用文本所对应的图像进行比对，同时，以颜色标记识别可信度不高的文字。

纵向校对：将文档中识别结果为同一个字的文字图像集中显示，并以突出颜色标出可疑字，发现错误并修改。

在实现上述文字校对的过程中，现有技术中至少存在如下问题：无论是横向校对还是纵向校对，校对后都会存在一些残留的没有校对出的错误，比如某字多处识别错误，只修改了一部分，对于这些残留错误需要逐字核查，如果做大量这样的工作的话，容易引起校对人员视觉疲劳，造成校对的准确率降低，而且需要消耗大量的时间和精力。

发明内容

本发明的实施例提供一种文字校对方法和装置，能够保证校对的准确率。

为达到上述目的，本发明的实施例采用如下技术方案：

一种文字校对方法，包括：

收集对文字进行校对的修改信息；

根据所述修改信息建立易错词表；

根据易错词表查找文字中的可疑字并进行提示。

一种文字校对装置，包括：

修改统计模块：用于收集对文字进行校对的修改信息；

易错词表建立模块：用于根据所述修改信息建立易错词表；

易错词表报警模块：用于根据易错词表查找文字中的可疑字并进行报警。

本发明实施例提供的文字校对方法和装置，利用文字校对的修改信息建立易错词表，然后去全文中搜索残留的可疑字并对残留可疑字报警，方便核查，相对之前逐字核查找错检验校对质量的方法，本发明大大减少了核查工作量，减轻了核查人员的疲劳程度，在低报警率下保证了文字校对的质量。

附图说明

图1为本发明文字校对方法的一个实施例的流程图。

图2为本发明文字校对方法的另一个实施例的流程图。

图2a为易错词表结构采用哈希表结构的结构示意图。

图2b为易错词表结构采用汉字内码索引结构的结构示意图。

图2c为“比”字的形似字集合示意图。

图2d为分类图像示意图。

图2e为图像聚类中的个类示意图。

图3为本发明文字校对装置的一个实施例的结构示意图。

具体实施方式

下面结合附图对本发明实施例校对方法和装置进行详细描述。

本发明文字校对方法的一个实施例，如图1所示，包括：

S101、收集对文字进行校对的修改信息。

首先对电子化文档进行或者其它机器辅助校对，所述文档可以是中文、英文或其它语言写成，校对可以借助现有校对方式进行，比如横向校对和纵向校对。将所述校对后的文档信息与校对前的文档信息进行通篇逐字比较，得到校对过程中的修改信息，包括字符的识别候选，修改之后的字符编码，该字符在数据包的位置信息和该字符图像的位置信息等。

S102、根据所述修改信息建立易错词表。

本步骤中，根据校对文字的语种确定该语种文字表述的使用习惯，比如，校对的文档主体是以中文构成的，中文是以单字结合成词语的方式使用的，那么就先建立一个中文的语言模型，所述语言模型包括中文中不同文字组合成一个词使用的概率。将概率量化成组合得分的形式，比如可以根据常用程度将不同字组合成一个词的概率映射到0至255之间的组合得分，最生僻的词为0，最常见的词为255。

如果从修改信息中查找到一处孤立修改的字，结合语言模型，取该字与前后相邻字组合成词中得分最高的词，用目标字符(也就是修改前的字)替换更新字符(也就是修改后的字)添加到易错词表。比如，修改信息显示文档中有一处将“期间发生”错识成“期问发生”，又有修改成“间”的记录，结合语言模型可以得到“期间”的得分高于“间发”的得分，因此将“期问”和对应的可疑字“问”添加到易错词表。

S103、根据易错词表查找文字中的可疑字并进行提示。

根据易错词表对校对后的文档进行通篇查找，如果在校对后的文档中出现易错词表中的词，对该词的可疑字(曾经出现在修改信息中的字)进行标识提示。

本实施例利用文字校对的修改信息建立易错词表，然后去全文中搜索残留的易错词并对残留可疑字进行提示，方便核查，相对之前逐字核查找错检验校对质量的方法，本发明大大减少了核查工作量，减轻了核查人员的疲劳程度，保证了校对的准确率。

本发明文字校对方法的另一个实施例，如图2所示，包括：

S201、收集对文字进行校对的修改信息。

本步骤同步骤101，在此不做赘述。

S202、根据所述修改信息建立易错词表。

本实施例中，首先建立语言模型，所述语言模型由已经校对过的文本构建，所述已经校对过的文本可以是本语言大规模可靠语料，也可以是本方法校对过的大量文件。所述语言模型包括不同文字组合成一个词使用的概率。

然后结合语言模型，查找修改信息中用于对目标字符修正的更新字符与前后相邻没有修改过的字组合成的词中，使用概率最高的词，将该词用目标字符替换更新字符，存入易错词表，也将所述目标字符作为与该词对应的可疑字存入易错词表。此处评价不同字结合成词的使用概率的方法，除了用步骤102中将概率量化成数值的形式外，也可以将不同字结合成词的使用概率分为生僻、一般、常用等不同档次，每一档次内可以根据实际需要进一步细化成更小的档次，通过档次的比较来确定更新字符与前后相邻字组合成的词中，哪一个使用概率最高。

如果连续修改两个或者两个以上字，查找更新字符与前后相邻没有修改过的字组合成的词中，使用概率最高的两个或者两个以上词，将上述词用目标字符替换更新字符，存入易错词表。比如文档中有一处将“2005-2006年间人口增长”错识成“2005-2006年问入口增长”，又有修改成“间”和“人”的记录，结合语言模型可以得到“年间”的得分高于“间人”的得分，“人口”的得分高于“间人”的得分，因此对应将“期问”和“问”“，“入口”和“入”“这两个词组和对应可疑字添加到易错词表。

为了避免将常用词添加到易错词表，造成过多错误提示，本实施例设定一个常用词概率阈值，如果存入易错词表的词使用的概率超过所述常用词概率阈值，删除所述存入易错词表的词及对应的可疑字。常用词概率阈值可以根据经验或者统计结果，按照评价不同字结合成词的组合得分的方法设定，比如，如果将得分量化成数值0至255之间，那么常用词概率阈值可以设定在180；如果将不同字结合成词的使用概率分为生僻、一般、较常用，最常用等不同档次，那么常用词概率阈值可以设定在“较常用”档次。比如，上面提到将“入口”添加到易错词表，但是“入口”的组合得分为255，超过了系统设定的常用词组合得分阈值180，所以从易错词表中删除“入口”和对应的“入”字。

易错词表存储结构采用哈希表结构或者汉字内码运算作为位置索引的数组结构。

易错词表结构采用哈希表结构的方式，可以适用于多种语言，以汉语为例，首先对添加的易错词内码组成的字符串进行哈希运算得到数值，以该数值为索引，将所述易错词的汉字内码和可疑字内码(如果是其它种类的文字，以该种语言对应的编码方式替换)加入到该索引下，如果多个易错词哈希运算数值相同，以单向链表的方式在同一哈希运算数值索引下依次存储多个易错词和可疑字的汉字内码，如果某个哈希运算数值索引下没有易错词对应，该哈希运算数值索引对应的单向链表为空。

易错词表结构采用哈希表结构的方式如图2a所示。假设“期闸”的哈希运算数值为10001，“期问”和“重耍”的哈希运算数值同为10002，词组内码分别为C6DACECA、D6D8CBA3，错字内码分别为CECA和CBA3。没有与哈希运算数值为10003对应的词。由于“期问”和“重耍”的哈希运算数值同为10002，在哈希表中冲突，所以用单向链表依次存储“期问”和“重耍”的汉字内码。由于没有与汉字内码为10003对应的词，所以哈希表10003的内容为空(NULL)。

由于汉字编码的特殊性，对定长的汉字编码，比如二元词组，易错词表结构也可以采用汉字内码作为索引的数组方式，用汉字内码进行压缩运算作为一维数组索引进行存储，压缩过程保证汉字内码和压缩值的一一映射。若该词在易错词表中该存储单元可以设为可疑字的内码，否则设为0。或者对二元词组采用二维数组存储，每个汉字的内码进行压缩作为数组的行列坐标，压缩过程也要保证汉字内码和压缩值的一一映射。假设“重耍”的汉字内码压缩为10000；“期问”的汉字内码为11000、“期闸”的汉字内码为11010，汉字内码运算作为一维数组索引的数组结构如图2b所示。

S203、根据易错词表查找文字中的可疑字并进行提示。

根据易错词表对校对后的文档进行通篇查找，如果在校对后的文档中出现易错词表中的词，对该词对应的可疑字进行标识提示。

结合步骤S202易错词表结构，如果易错词表结构采用哈希表结构方式，对校对后的文档逐词进行哈希运算，得到哈希运算数值作为索引查找，如果在易错词表中该哈希运算数值下有易错词，进一步比对文档中该哈希运算数值的词与易错词表中该哈希运算数值下的易错词的文字内码是否相同，如果相同，对校对后的文档中的该易错词对应的可疑字进行提示，否则如果易错词表中该哈希运算数值下易错词链表下一项指针不为空，说明还有其他易错词，继续比较，直到易错词链表指向下一项的指针为空。

如果易错词表结构采用汉字内码作为索引的数组方式，对校对后的文档逐词对内码进行运算，查找数组对应位置，如果该存储单元不为0，对校对后的文档中的该词的可疑字进行提示；其它情况下不提示。

S204、结合修改信息从扫描的文本图像中提取易错形似字图像，整理成易错形似字集。

对文本图像中每个字符图像，采用OCR识别引擎进行识别的过程中每个识别字符会有多个候选，按识别距离从近到远排列，显示的结果为第一候选。

如果某个字符图像的识别的候选字中出现修改信息中的原始识别结果，将该字符图像、原始识别结果、修改后的结果、该字符在文档中的位置等信息作为易错形似字单元保存到修改信息后的字对应的易错形似字集中。

作为改进，本实施例将OCR识别结果的候选字只限定在前三个候选字，候选取太多会增加计算量和提示数目，取太少无法充分检查排除残留的可疑字。

比如文档中有“比较”识别错误为“此较”，又有把“此”改为“比”的记录，查找将识别候选有“此”字的“此”、“比”、“业”等字符图像等信息全部添加到“比”的形似字集合中，如图2c所示是“比”字的形似字集合图像示意图。数字为形似字集顺序编号，数字上面的大字符为从扫描的文本图像中抠出的文字二值化图像。数字右边的小字符为当前字符在文档中当前编码，先前校对过程中没有经过修改的保持了初始识别结果，有修改的是修改后的结果。

S205、对所述易错形似字图像集进行图像聚类。

提取易错形似字图像集中每个字符图像多维的方向线素特征。

根据每个字符图像多维的方向线素特征，通过最大最小距离法对字符图像进行图像聚类。

因为基于方向的特征反映了汉字的属性，故本实施例中采用字符的方向线素特征来记录字符图像的字形特征。提取每张字符图像多维的方向线素特征，然后对这些字符图像的方向线素特征进行聚类。由于本实施例中聚类的特征向量集合数目不大，如果使用通常的聚类算法K-means方法进行聚类则初始时选择的聚类中心过于邻近，使多个聚类中心都被选择在同一类中。故本实施例中，采用最大最小距离算法进行图像分类。需要指出的是最大最小距离算法是本实施例采用的优选算法，本发明并不排斥采用其它常规聚类算法，如改进的K-means方法。

优选的，图像算法首先统计易错形似字图像集中文字当前内码，将每一种文字内码设为一类，得到实际类别数，将图像聚类的最大类别数设定为实际类别数的一倍或几倍以上，这样可以有效区分不同字符图像。然后选取尽可能离得远的对象作为初始聚类中心，这样就可以得到数据的一个特征明显的初始划分，使各字符图像的差异化更加显著，从而形成各种分类。

S206、统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量，以及每一类易错形似字集中每种字的文字识别结果数量。

S207、将图像聚类后每一类易错形似字集中修改记录最多的一种更新字符作为该类的标准字，若没有修改记录则取文字识别结果最多的字作为标准字。

如图2d所示，这一类易错形似字集中修改记录中最多的是将识别的“此”改为“比”字，则将“比”字作为本类的标准字。

S208、对每一类易错形似字集中当前结果与标准字不同的易错形似字进行提示。

如图2e所示，是实施例中图像聚类中的一类易错形似字集，该类易错形似字集标准字是“比”，则依次比较该类易错形似字集中所有字符的当前编码，发现部分编码依然为“此”，则对其进行提示。

本实施例利用文字校对的修改信息建立易错词表，然后去全文中搜索残留的可疑字并对残留可疑字进行提示，方便核查。进一步的，本实施例建立易错形似字集合，对可疑形似字符集图像进行图像聚类，这样通过统计以前校对信息得到的标准字，对残留可疑字进行提示。还可以先建立易错形似字集合，图像聚类统计标准字查找错误提示，然后再根据修改信息结合语言模型建立易错词表查找错误提示。这两个阶段是互补的，以求在低提示率下尽可能多的发现残留错误。两个阶段的执行顺序不是固定的，在统计完校对过程中的修改信息后，可以先执行后者再执行前者。两个阶段只要有一处提示，该字就要放到最后的可疑字集合中。相对现有逐字核查找错检验校对质量的方法，本发明大大减少了核查工作量，减轻了核查人员的疲劳程度。

本发明文字校对装置的一个实施例，如图3所示，包括：

修改统计模块31：用于收集对文字进行校对的修改信息。

所述修改信息包括修改字符修改前后的字符编码和在文档的位置等。

易错词表建立模块32：用于根据所述修改信息建立易错词表。

本模块首先建立语言模型，所述语言模型包括不同文字组合成一个词使用的概率。然后结合语言模型，查找修改信息中更新字符与前后相邻字组合成的词中，使用概率最高的词，将该词用目标字符替换更新字符，连同修改前的可疑字，存入易错词表。

易错词表报警模块33：用于根据易错词表查找文字中的可疑字并进行提示。

进一步的，本实施例的文字校对装置，还包括：

易错形似字图像集建立模块34：用于结合修改信息从二值化后的单页整幅图像中提取易错形似字图像，整理成易错形似字集。

易错形似字图像集建立模块34遍历文本中每个字符；如果某个字符原始识别的候选字中出现修改信息中的字，将该字符作为易错形似字保存到易错形似字集中。

图像聚类模块35：用于对所述易错形似字集进行图像聚类。

图像聚类模块35首先提取易错形似字图像集中每个字符图像多维的方向线素特征；然后根据每个字符图像多维的方向线素特征，通过最大最小距离法对字符图像进行图像聚类。

统计模块36：用于统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量，以及每一类易错形似字集中每种字的文字识别结果数量

标准字选取模块37：自动统计分析类别的标准字，将图像聚类后每一类易错形似字集中修改记录最多的一种修改的更新字符作为该类的标准字，若没有修改记录则取文字识别结果最多的字作为标准字。

图像聚类报警模块38：用于对每一类中当前结果与标准字不同的易错形似字进行提示。

以上装置实施例的具体实现过程见本发明方法实施例。

本实施例建立易错词表模块利用文字校对的修改信息建立易错词表，易错词表报警模块去全文中搜索残留的可疑字并对残留可疑字提示，方便核查。进一步的，本实施例建立易错形似字集模块建立易错形似字集，图像聚类模块对可疑形似字符集图像进行图像聚类，标准字选取模块得到标准字，图像聚类报警模块对残留可疑字提示，相对之前逐字核查找错检验校对质量的方法，本发明大大减少了核查工作量，减轻了核查人员的疲劳程度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文字校对方法，其特征在于，包括：

收集对文字进行校对的修改信息；

根据所述修改信息建立易错词表；

根据易错词表查找文字中的可疑字并进行提示。

2.根据权利要求1所述的方法，其特征在于，根据所述修改信息建立易错词表包括：

建立语言模型，所述语言模型包括不同文字组合成一个词使用的概率；

结合语言模型查找修改信息中用于对目标字符进行修正的更新字符与前后相邻字组合成的词中使用概率最高的词，用目标字符替换使用概率最高的词中的更新字符后将该使用概率最高的词存入易错词表，并将所述目标字符作为与该词对应的可疑字存入易错词表。

3.根据权利要求2所述的方法，其特征在于，结合语言模型查找修改信息中用于对目标字符进行修正的更新字符与前后相邻字组合成的词中使用概率最高的词时，如果连续修改两个或者两个以上字，查找更新字符与前后相邻没有修改过的字组合成的词中，使用概率最高的两个或者两个以上词，将上述词用目标字符替换更新字符，连同所述目标字符作为与该词对应的可疑字存入易错词表。

4.根据权利要求2所述的方法，其特征在于，根据所述修改信息建立易错词表还包括：

设定常用词概率阈值；

如果存入易错词表的词使用概率超过所述常用词概率阈值，删除所述存入易错词表的词及对应的可疑字。

5.根据权利要求2所述的方法，其特征在于，易错词表结构采用哈希表结构或者汉字内码运算作为位置索引的数组结构。

6.根据权利要求2所述的方法，其特征在于，所述语言模型由已经校对过的文本或者本语言其他可靠语料构建。

7.根据权利要求1所述的方法，其特征在于，还包括：

结合修改信息从二值化的单页整幅文本图像中提取易错形似字图像，整理成易错形似字集；

对所述易错形似字集进行图像聚类；

统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量，以及每一类易错形似字集中每种字的文字识别结果数量；

将图像聚类后每一类易错形似字集中修改记录最多的一种更新字符作为该类的标准字，若没有修改记录则取文字识别结果最多的字作为标准字；

对每一类易错形似字集中当前结果与标准字不同的易错形似字进行提示。

8.根据权利要求7所述的方法，其特征在于，结合修改信息从二值化的单页整幅文本图像中提取易错形似字图像，整理成易错形似字集包括：

对文本图像中每个字符图像进行OCR识别；

如果某个字符图像的OCR识别结果的候选字中出现修改信息中目标字符，将该字符图像作为其对应的修改后字的易错形似字图像保存到其对应的易错形似字集中。

9.根据权利要求7所述的方法，其特征在于，对所述易错形似字图像集进行图像聚类包括：

提取易错形似字集中每个字符图像多维的方向线素特征；

10.根据权利要求9所述的方法，其特征在于，对所述易错形似字集进行图像聚类还包括：

聚类前统计易错形似字集中文字内码类别，得到实际类别数，将图像聚类的最大类别数设定为实际类别数的一倍以上。

11.一种文字校对装置，其特征在于，包括：

修改统计模块：用于收集对文字进行校对的修改信息；

易错词表建立模块：用于根据所述修改信息建立易错词表；

易错词表报警模块：用于根据易错词表查找文字中的可疑字并进行提示。

12.根据权利要求11所述的装置，其特征在于，还包括：

易错形似字集建立模块：用于结合修改信息从二值化的单页整幅文本图像中提取易错形似字图像，整理成易错形似字集；

图像聚类模块：用于对所述易错形似字集进行图像聚类；

统计模块：用于统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量，以及每一类易错形似字集中每种字的文字识别结果数量；

标准字选取模块：用于将图像聚类后每一类易错形似字集中修改记录最多的一种更新字符作为该类的标准字，若没有修改记录则取文字识别结果最多的字作为标准字；

图像聚类报警模块：用于对每一类中当前结果与标准字不同的易错形似字进行报警。