具体实施方式
下面结合附图对本发明实施例校对方法和装置进行详细描述。
本发明文字校对方法的一个实施例,如图1所示,包括:
S101、收集对文字进行校对的修改信息。
首先对电子化文档进行或者其它机器辅助校对,所述文档可以是中文、英文或其它语言写成,校对可以借助现有校对方式进行,比如横向校对和纵向校对。将所述校对后的文档信息与校对前的文档信息进行通篇逐字比较,得到校对过程中的修改信息,包括字符的识别候选,修改之后的字符编码,该字符在数据包的位置信息和该字符图像的位置信息等。
S102、根据所述修改信息建立易错词表。
本步骤中,根据校对文字的语种确定该语种文字表述的使用习惯,比如,校对的文档主体是以中文构成的,中文是以单字结合成词语的方式使用的,那么就先建立一个中文的语言模型,所述语言模型包括中文中不同文字组合成一个词使用的概率。将概率量化成组合得分的形式,比如可以根据常用程度将不同字组合成一个词的概率映射到0至255之间的组合得分,最生僻的词为0,最常见的词为255。
如果从修改信息中查找到一处孤立修改的字,结合语言模型,取该字与前后相邻字组合成词中得分最高的词,用目标字符(也就是修改前的字)替换更新字符(也就是修改后的字)添加到易错词表。比如,修改信息显示文档中有一处将“期间发生”错识成“期问发生”,又有修改成“间”的记录,结合语言模型可以得到“期间”的得分高于“间发”的得分,因此将“期问”和对应的可疑字“问”添加到易错词表。
S103、根据易错词表查找文字中的可疑字并进行提示。
根据易错词表对校对后的文档进行通篇查找,如果在校对后的文档中出现易错词表中的词,对该词的可疑字(曾经出现在修改信息中的字)进行标识提示。
本实施例利用文字校对的修改信息建立易错词表,然后去全文中搜索残留的易错词并对残留可疑字进行提示,方便核查,相对之前逐字核查找错检验校对质量的方法,本发明大大减少了核查工作量,减轻了核查人员的疲劳程度,保证了校对的准确率。
本发明文字校对方法的另一个实施例,如图2所示,包括:
S201、收集对文字进行校对的修改信息。
本步骤同步骤101,在此不做赘述。
S202、根据所述修改信息建立易错词表。
本实施例中,首先建立语言模型,所述语言模型由已经校对过的文本构建,所述已经校对过的文本可以是本语言大规模可靠语料,也可以是本方法校对过的大量文件。所述语言模型包括不同文字组合成一个词使用的概率。
然后结合语言模型,查找修改信息中用于对目标字符修正的更新字符与前后相邻没有修改过的字组合成的词中,使用概率最高的词,将该词用目标字符替换更新字符,存入易错词表,也将所述目标字符作为与该词对应的可疑字存入易错词表。此处评价不同字结合成词的使用概率的方法,除了用步骤102中将概率量化成数值的形式外,也可以将不同字结合成词的使用概率分为生僻、一般、常用等不同档次,每一档次内可以根据实际需要进一步细化成更小的档次,通过档次的比较来确定更新字符与前后相邻字组合成的词中,哪一个使用概率最高。
如果连续修改两个或者两个以上字,查找更新字符与前后相邻没有修改过的字组合成的词中,使用概率最高的两个或者两个以上词,将上述词用目标字符替换更新字符,存入易错词表。比如文档中有一处将“2005-2006年间人口增长”错识成“2005-2006年问入口增长”,又有修改成“间”和“人”的记录,结合语言模型可以得到“年间”的得分高于“间人”的得分,“人口”的得分高于“间人”的得分,因此对应将“期问”和“问”“,“入口”和“入”“这两个词组和对应可疑字添加到易错词表。
为了避免将常用词添加到易错词表,造成过多错误提示,本实施例设定一个常用词概率阈值,如果存入易错词表的词使用的概率超过所述常用词概率阈值,删除所述存入易错词表的词及对应的可疑字。常用词概率阈值可以根据经验或者统计结果,按照评价不同字结合成词的组合得分的方法设定,比如,如果将得分量化成数值0至255之间,那么常用词概率阈值可以设定在180;如果将不同字结合成词的使用概率分为生僻、一般、较常用,最常用等不同档次,那么常用词概率阈值可以设定在“较常用”档次。比如,上面提到将“入口”添加到易错词表,但是“入口”的组合得分为255,超过了系统设定的常用词组合得分阈值180,所以从易错词表中删除“入口”和对应的“入”字。
易错词表存储结构采用哈希表结构或者汉字内码运算作为位置索引的数组结构。
易错词表结构采用哈希表结构的方式,可以适用于多种语言,以汉语为例,首先对添加的易错词内码组成的字符串进行哈希运算得到数值,以该数值为索引,将所述易错词的汉字内码和可疑字内码(如果是其它种类的文字,以该种语言对应的编码方式替换)加入到该索引下,如果多个易错词哈希运算数值相同,以单向链表的方式在同一哈希运算数值索引下依次存储多个易错词和可疑字的汉字内码,如果某个哈希运算数值索引下没有易错词对应,该哈希运算数值索引对应的单向链表为空。
易错词表结构采用哈希表结构的方式如图2a所示。假设“期闸”的哈希运算数值为10001,“期问”和“重耍”的哈希运算数值同为10002,词组内码分别为C6DACECA、D6D8CBA3,错字内码分别为CECA和CBA3。没有与哈希运算数值为10003对应的词。由于“期问”和“重耍”的哈希运算数值同为10002,在哈希表中冲突,所以用单向链表依次存储“期问”和“重耍”的汉字内码。由于没有与汉字内码为10003对应的词,所以哈希表10003的内容为空(NULL)。
由于汉字编码的特殊性,对定长的汉字编码,比如二元词组,易错词表结构也可以采用汉字内码作为索引的数组方式,用汉字内码进行压缩运算作为一维数组索引进行存储,压缩过程保证汉字内码和压缩值的一一映射。若该词在易错词表中该存储单元可以设为可疑字的内码,否则设为0。或者对二元词组采用二维数组存储,每个汉字的内码进行压缩作为数组的行列坐标,压缩过程也要保证汉字内码和压缩值的一一映射。假设“重耍”的汉字内码压缩为10000;“期问”的汉字内码为11000、“期闸”的汉字内码为11010,汉字内码运算作为一维数组索引的数组结构如图2b所示。
S203、根据易错词表查找文字中的可疑字并进行提示。
根据易错词表对校对后的文档进行通篇查找,如果在校对后的文档中出现易错词表中的词,对该词对应的可疑字进行标识提示。
结合步骤S202易错词表结构,如果易错词表结构采用哈希表结构方式,对校对后的文档逐词进行哈希运算,得到哈希运算数值作为索引查找,如果在易错词表中该哈希运算数值下有易错词,进一步比对文档中该哈希运算数值的词与易错词表中该哈希运算数值下的易错词的文字内码是否相同,如果相同,对校对后的文档中的该易错词对应的可疑字进行提示,否则如果易错词表中该哈希运算数值下易错词链表下一项指针不为空,说明还有其他易错词,继续比较,直到易错词链表指向下一项的指针为空。
如果易错词表结构采用汉字内码作为索引的数组方式,对校对后的文档逐词对内码进行运算,查找数组对应位置,如果该存储单元不为0,对校对后的文档中的该词的可疑字进行提示;其它情况下不提示。
S204、结合修改信息从扫描的文本图像中提取易错形似字图像,整理成易错形似字集。
对文本图像中每个字符图像,采用OCR识别引擎进行识别的过程中每个识别字符会有多个候选,按识别距离从近到远排列,显示的结果为第一候选。
如果某个字符图像的识别的候选字中出现修改信息中的原始识别结果,将该字符图像、原始识别结果、修改后的结果、该字符在文档中的位置等信息作为易错形似字单元保存到修改信息后的字对应的易错形似字集中。
作为改进,本实施例将OCR识别结果的候选字只限定在前三个候选字,候选取太多会增加计算量和提示数目,取太少无法充分检查排除残留的可疑字。
比如文档中有“比较”识别错误为“此较”,又有把“此”改为“比”的记录,查找将识别候选有“此”字的“此”、“比”、“业”等字符图像等信息全部添加到“比”的形似字集合中,如图2c所示是“比”字的形似字集合图像示意图。数字为形似字集顺序编号,数字上面的大字符为从扫描的文本图像中抠出的文字二值化图像。数字右边的小字符为当前字符在文档中当前编码,先前校对过程中没有经过修改的保持了初始识别结果,有修改的是修改后的结果。
S205、对所述易错形似字图像集进行图像聚类。
提取易错形似字图像集中每个字符图像多维的方向线素特征。
根据每个字符图像多维的方向线素特征,通过最大最小距离法对字符图像进行图像聚类。
因为基于方向的特征反映了汉字的属性,故本实施例中采用字符的方向线素特征来记录字符图像的字形特征。提取每张字符图像多维的方向线素特征,然后对这些字符图像的方向线素特征进行聚类。由于本实施例中聚类的特征向量集合数目不大,如果使用通常的聚类算法K-means方法进行聚类则初始时选择的聚类中心过于邻近,使多个聚类中心都被选择在同一类中。故本实施例中,采用最大最小距离算法进行图像分类。需要指出的是最大最小距离算法是本实施例采用的优选算法,本发明并不排斥采用其它常规聚类算法,如改进的K-means方法。
优选的,图像算法首先统计易错形似字图像集中文字当前内码,将每一种文字内码设为一类,得到实际类别数,将图像聚类的最大类别数设定为实际类别数的一倍或几倍以上,这样可以有效区分不同字符图像。然后选取尽可能离得远的对象作为初始聚类中心,这样就可以得到数据的一个特征明显的初始划分,使各字符图像的差异化更加显著,从而形成各种分类。
S206、统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量,以及每一类易错形似字集中每种字的文字识别结果数量。
S207、将图像聚类后每一类易错形似字集中修改记录最多的一种更新字符作为该类的标准字,若没有修改记录则取文字识别结果最多的字作为标准字。
如图2d所示,这一类易错形似字集中修改记录中最多的是将识别的“此”改为“比”字,则将“比”字作为本类的标准字。
S208、对每一类易错形似字集中当前结果与标准字不同的易错形似字进行提示。
如图2e所示,是实施例中图像聚类中的一类易错形似字集,该类易错形似字集标准字是“比”,则依次比较该类易错形似字集中所有字符的当前编码,发现部分编码依然为“此”,则对其进行提示。
本实施例利用文字校对的修改信息建立易错词表,然后去全文中搜索残留的可疑字并对残留可疑字进行提示,方便核查。进一步的,本实施例建立易错形似字集合,对可疑形似字符集图像进行图像聚类,这样通过统计以前校对信息得到的标准字,对残留可疑字进行提示。还可以先建立易错形似字集合,图像聚类统计标准字查找错误提示,然后再根据修改信息结合语言模型建立易错词表查找错误提示。这两个阶段是互补的,以求在低提示率下尽可能多的发现残留错误。两个阶段的执行顺序不是固定的,在统计完校对过程中的修改信息后,可以先执行后者再执行前者。两个阶段只要有一处提示,该字就要放到最后的可疑字集合中。相对现有逐字核查找错检验校对质量的方法,本发明大大减少了核查工作量,减轻了核查人员的疲劳程度。
本发明文字校对装置的一个实施例,如图3所示,包括:
修改统计模块31:用于收集对文字进行校对的修改信息。
所述修改信息包括修改字符修改前后的字符编码和在文档的位置等。
易错词表建立模块32:用于根据所述修改信息建立易错词表。
本模块首先建立语言模型,所述语言模型包括不同文字组合成一个词使用的概率。然后结合语言模型,查找修改信息中更新字符与前后相邻字组合成的词中,使用概率最高的词,将该词用目标字符替换更新字符,连同修改前的可疑字,存入易错词表。
易错词表报警模块33:用于根据易错词表查找文字中的可疑字并进行提示。
进一步的,本实施例的文字校对装置,还包括:
易错形似字图像集建立模块34:用于结合修改信息从二值化后的单页整幅图像中提取易错形似字图像,整理成易错形似字集。
易错形似字图像集建立模块34遍历文本中每个字符;如果某个字符原始识别的候选字中出现修改信息中的字,将该字符作为易错形似字保存到易错形似字集中。
图像聚类模块35:用于对所述易错形似字集进行图像聚类。
图像聚类模块35首先提取易错形似字图像集中每个字符图像多维的方向线素特征;然后根据每个字符图像多维的方向线素特征,通过最大最小距离法对字符图像进行图像聚类。
统计模块36:用于统计图像聚类后每一类易错形似字集中的每种更新字符的修改记录数量,以及每一类易错形似字集中每种字的文字识别结果数量
标准字选取模块37:自动统计分析类别的标准字,将图像聚类后每一类易错形似字集中修改记录最多的一种修改的更新字符作为该类的标准字,若没有修改记录则取文字识别结果最多的字作为标准字。
图像聚类报警模块38:用于对每一类中当前结果与标准字不同的易错形似字进行提示。
以上装置实施例的具体实现过程见本发明方法实施例。
本实施例建立易错词表模块利用文字校对的修改信息建立易错词表,易错词表报警模块去全文中搜索残留的可疑字并对残留可疑字提示,方便核查。进一步的,本实施例建立易错形似字集模块建立易错形似字集,图像聚类模块对可疑形似字符集图像进行图像聚类,标准字选取模块得到标准字,图像聚类报警模块对残留可疑字提示,相对之前逐字核查找错检验校对质量的方法,本发明大大减少了核查工作量,减轻了核查人员的疲劳程度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。