CN1916941A

CN1916941A - 一种字符识别的后处理方法

Info

Publication number: CN1916941A
Application number: CN 200510090878
Authority: CN
Inventors: 杜鹏飞; 康凯; 徐剑波
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University Founder Group Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Peking University Founder Research and Development Center
Priority date: 2005-08-18
Filing date: 2005-08-18
Publication date: 2007-02-21
Anticipated expiration: 2025-08-18
Also published as: CN100356392C

Abstract

本发明公开了一种字符识别的后处理方法，对初始识别之后的错误内容进行自动纠正处理。首先，识别文档中的字符，并获取文档中字符的候选字符及候选字符的相似度。而后，将候选字符相似度与预定阈值相比较确定被误识的字符。对于误识字符的候选字符，形成至少包含所述候选字符的搜索词，用所述搜索词在已知的文本数据库中搜索，从而获得搜索词的至少一种测量值。最后，用所获得的测量值来计算误识字符搜索词的权值，比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。本发明在选取候选字符时考虑的因素更合理，保证了纠正过程的准确性，提高了识别率和识别速度。

Description

一种字符识别的后处理方法

技术领域

本发明涉及计算机信息处理领域的后处理技术，尤其涉及一种对识别后的错字进行纠正的方法。

背景技术

后处理是OCR(光学字符识别)技术应用的一个重要环节，目前OCR文字识别结果中总有误识的字符存在，后处理算法的应用在一定程度上纠正了识别错误的字符。

对于识别后出现的错字传统上采用作标记的办法，标记出来后依赖于人工进行纠正处理。因而不能进行自动处理，由此对于批量处理识别结果的工作人员来说，工作量是非常大的。

现有技术中还有另外一种方法，如文献“一种基于字词结合的汉字识别上下文处理新方法”(清华电子工程系智能技术与系统国家重点实验室，作者：丁晓青等)中所述的方法，首先通过识别得到识别结果，而后对于错误识别的汉字，在其候选字列表中查找可以跟后面正确的字组成词语的字，如果找到了，就选择这个候选字，如果没找到，则选择第一个候选字。该方法提供了词语选择，可以达到半自动的处理效果。

这种方法的优点在于，根据逻辑来组词可以在一定程度上准确地选择正确的候选字。缺陷在于，依靠组词来选择候选字，忽略了词语的词频信息和词语的长度信息，缺乏一定的可靠性。

发明内容

针对现有技术中进行字符识别后处理时纠正错字的效率和准确度不高的问题，本发明的目的是提供一种通过对识别结果中误识字符的所有候选字符进行组词判断来自动选出正确字符的方法。

本发明提供一种字符识别的后处理方法，包括以下步骤：识别文档中的字符，并获取文档中字符的候选字符及候选字符的相似度；将候选字符相似度与预定阈值相比较确定被误识的字符；对于误识字符的候选字符，形成至少包含所述候选字符的搜索词，用所述搜索词在已知的文本数据库中搜索，从而获得搜索词的至少一种测量值；用所获得的测量值来计算误识字符搜索词的权值，比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。

上述方法中，形成至少包含所述候选字符的搜索词进一步包括：用所述误识字符的一个候选字符取代其位置，与所述误识字符的前后字符组成搜索词形成至少包含所述候选字符的搜索词。

上述方法中，形成至少包含所述候选字符的搜索词进一步包括：如果在已知的文本数据库中搜索到了所述搜索词，则在搜索词上增加一个相邻字符，加长搜索词直到获得在已知文本数据库中可以搜索到的最长的搜索词。

上述用来计算权值的至少一种测量值可以是搜索词的词长、词频和其中各个字符的相似度三种测量值中的至少一种。

上述方法中，用如下公式计算搜索词的权值：

P_wi＝an²-bD+f，

这里Wi表示一个误识字符的候选字符，n、f和D分别表示包含Wi的搜索词的词长、词频和词语相似度，并且a和b是大于0的系数。

上述方法中，词语相似度D＝d1’+d2’+…+di+…+dn’；

这里di表示候选字符Wi的相似度，d’表示所述搜索词中Wi左右各个字符的相似度。

上述比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符进一步包括：如果第一权值是所有搜索词的权值中最大的，就将第一权值对应的候选字符确定为所述误识字符位置上的正确字符。

上述比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符进一步包括：如果第一权值和第二权值相同而且都是搜索词的权值中最大的，那么判断第一搜索词中与第一候选字符成词的字符能否与相邻的另一个字符成词，如果能成词就选取第二权值对应的第二搜索词所包含的第二候选字符。

上述方法中，如果第一和第二两个搜索词中与第一和第二候选字符成词的字符都与相邻的另一个字符不成词，就拿与第一候选字符成词的字符的相似度和与第二候选字符成词的字符的相似度作比较，选取相似度好的字符所在的搜索词，也就是选取了这个搜索词所包含的候选字符。

上述方法中，如果与第一候选字符成词的字符的相似度和与第二候选字符成词的字符的相似度相同，就以第一候选字符的相似度和第二候选字符的相似度作比较，选取相似度好的候选字符。

本发明的实施方案具有很多优点和进步。采用本发明所述的后处理方法可以根据逻辑组词，准确纠正误识字符，算法简单易行。另外，选取候选字符时考虑的因素更合理，保证了纠正过程的准确性。可以连续纠正相邻的几个不正确的字，提高识别率和识别速度。对初始识别之后的错误内容进行自动纠正处理，减少了人工工作量，同时减少了人工后期检查性的干预，提高可靠性和工作效率。

附图说明

图1是按照本发明实施例的字符识别装置的结构示意图。

图2是图1的字符识别装置所执行的字符识别过程的流程图。

图3是权值公式中各个量测量过程的流程图。

图4是误识字符的确定结果的范例。

具体实施方式

下面结合说明书附图来说明本发明的具体实施方式。

图1示出按照本发明的实施例用来将打印文档或手写文档转换成文本数据的字符识别装置。因为OCR识别装置可能对文档中的某些字符不能准确识别，所以本实施例引入一种后处理装置以便从推荐的多个候选字符中确定正确的字符，从而提高识别率。

在图1中，字符识别装置包括图像输入单元11，它可以是扫描仪、传真机或数码相机等图像输入装置，还包括图像数据存储单元12、版面分析单元13、预处理单元14、OCR识别单元15、后处理单元16、识别结果存储单元17和文本数据输出单元18。其中，图像输入单元11用于输入打印文档或手写文档作为图像数据；图像数据存储单元12用于以位映像形式存储由图像输入单元11读取的图像数据；版面分析单元13用于将图像数据划分成具有不同符号的区域，比如字符区域、图形区域、公式区域等等；预处理单元14用于对所划分的字符区域进行行列切分，逐个提取单个字符的图像数据；OCR识别单元15用于将提取的图像数据转换为待选的文本字符，并且生成表示各个待选的文本字符与对应的图像数据匹配程度的数值；后处理单元16用于校正被OCR识别单元15错误识别的文本数据，OCR识别单元15生成由后处理单元123确定的最为可信的文本数据的数据文档；而识别结果存储单元17用来存储由OCR识别单元122获得的识别结果；文本数据输出单元18用来输出已被转换成文本数据的文档数据。

后处理单元16包括中央控制模块160、搜索模块161、文本数据存储模块162和存储模块163。其中，中央控制模块160用于分析识别结果存储单元17中所存储的初始识别结果从而确定被错误识别的字符，用于根据权值公式计算误识字符各个侯选字符对应的权值，并将与一个误识字符相关的所有权值作比较以确定最佳候选字符，而且还用于管理后处理单元16中的其他模块；搜索模块161响应中央控制模块160给定的搜索词，在事先已转换成文本数据的文档数据或事先收集形成的文本数据资料库中进行搜索，并将搜索词在整个文档或整个资料库中出现的次数送回中央控制模块160；文本数据存储模块162用于保存事先已转换成文本数据的文档数据或事先收集形成的文本数据资料库；存储模块163用于存储中央控制模块160处理的中间结果。

接着参照图2描述具有上述结构的字符识别装置的操作，图2示出在扫描打印文档的情况下，由本实施例的字符识别装置执行的整个过程的流程图。

在步骤201中，准备识别样张，由图像输入单元11扫描打印文档，并存储到图像数据存储单元12上。通过用户指定所存储的上述图像数据文件而开始进行文本数据转换。

在步骤202中版面分析单元13获得这个图像数据文件，并将图像数据划分成不同的区域，诸如图像区域、图形区域、字符区域等等，然后将字符区域的位置信息发送给预处理单元14。

在步骤203中，预处理单元14可以利用如投影法、连通域法之类的方法从字符区域中将第一个字符切分出来，而且向OCR识别单元15提供这个字符的位置信息。

在步骤204中，OCR识别单元15识别从所提供的位置信息获得的字符图象数据，并且生成多个候选字符以形成候选字符列表。此外，OCR识别单元15还用数值表示每个候选字符与该字符图像数据的匹配程度，在此称为相似度。可以将候选字符的相似度与预定标准作比较从而选取匹配程度比较高的候选字符构成候选字符列表，而且以选取的候选字符相似度的顺序生成候选字符列表。

在步骤205中，将候选字符列表存储在识别结果存储单元17中。处理流程在步骤203、204和205上循环，按照上述方法，预处理单元14和OCR识别单元15对字符区域中剩下的字符继续进行切分和识别。重复这三个步骤，直到字符区域中的最后一个字符。这时，识别结果存储单元17中的候选字符列表具有如下形式：

字符	候选字符W1	候选字符W2	…		候选字符WT
字符	候选字符W1	候选字符W2	…		候选字符WT	第一	字符	相似度	字符	相似度	…	…	字符	相似度
第C			…	…		第一	字符	相似度	字符	相似度	…	…	字符	相似度

这里，C表示在字符区域中的字符数，而T表示候选字符的最大数目。后处理单元16在步骤206上基于一个预先确定的标准来判断字符区域中的各个字符是否被误识别。如果对于字符区域第一位置上的字符，其转换候选者的相似度未达到预定标准，那么确定第一位置上的字符被误识别。相反，如果达到了预定标准，那么确定第一位置上的字符被正确识别，并认定该位置上的正确字符就是其候选字符W1。进而，对已存储在识别结果存储单元17中的字符区域其他位置上的字符重复这个判断过程，直到字符区域最后一个位置上的字符是否被误识别都已经确定。

本实施例提供一种改进的误识字符纠正方法，下面对这种方法作进一步详细的描述。

假设字符区域中有X个误识字符，在步骤207中首先根据公式P_wi＝F(D，f，n)来计算误识字符1的候选字符的权值。这里，Wi是误识字符1的候选字符列表W中的任一候选字符，它的相似度为di。对于包含候选字符Wi的词语A，通过搜索得到这个词的词频f和词的长度n，而且得到A中Wi左右各个字符的相似度d’，所以词语A的相似度D为：

D＝g(d1’，d2’，…，di…，dn’)；

权值公式的具体表达式可以为：

P_wi＝an²-bD+f。

其中，a和b是大于0的系数，D＝d1’+d2’+…+di+…+dn’。

假如误识字符1的候选字符列表W中有T个候选字符，那么重复步骤207，直到计算出候选字符W₁至W_T中每一个的权值。这时在步骤208上将所有的权值互相比较，基于比较结果从W₁至W_T中给误识字符1选出一个最佳的候选字符，并存储到存储模块163中。

在步骤207和208上循环直到给字符区域中X个误识字符都选取了最佳的候选字符，并且将这些最佳的候选字符都存储到了识别结果存储单元17中。这时流程进行到步骤209，在此由文本数据输出单元18输出最后生成的文本数据。整个流程结束。

图3示出在图2的步骤207中用来计算权值的各个量的测量过程。这里假设，事先将已被文本数据转换单元12转换成文本数据的多个文档数据或已形成的文本数据资料库保存在文本数据存储模块162中了。

在步骤801上，后处理单元16的中央控制模块160要求搜索模块161首先将包括两个字符的字符串作为搜索词，在文本数据存储模块162内的文本数据中进行搜索。这两个字符包括候选字符W1，还包括比如W1对应的误识字符前面相邻的字符。

在步骤802上，搜索模块161将词频f作为搜索结果送回给中央控制模块160。

在步骤803上根据搜索模块161的搜索结果进行判定。如果在文本数据存储模块162内没有搜索到上述包含两个字符的字符串，即f＝0，中央控制模块160就在步骤804上将词长n设置为0。接着，流程进行到步骤808。相反，如果在文本数据存储模块162内搜索到了这个字符串，即f＞0，中央控制模块160就在步骤805上将词长n设置为2。

接着在步骤806上，中央控制模块160在字符串中增加一个字符，在本实施例的情况下是误识字符前面第二个字符。而且，中央控制模块160要求搜索模块161用加长了的搜索词重新进行搜索。

在步骤807上，搜索词出现的次数f作为搜索结果送回给中央控制模块160。

在步骤808上根据搜索模块161的搜索结果进行判定。如果在文本数据存储模块162内搜索到这个增加了一个字符的搜索词，即f＞0，中央控制模块160就在步骤809上将词长n递加。在这一步，流程返回步骤806，进一步前向递增作为搜索词的字符串中的字符。相反，如果在文本数据存储模块162内没有搜索到上述包含三个字符的字符串，即f＝0，中央控制模块160就在步骤810上开始后向递增作为搜索词的字符串中的字符，并用加长后的搜索词重新进行搜索。

类似地，在步骤811上，将搜索词出现的次数f作为搜索结果送回给中央控制模块160，在步骤812上根据搜索模块161的搜索结果进行判定。如果搜索到了该搜索词，即f＞0，中央控制模块160就在步骤813上将词长n递加，然后返回步骤810，进一步后向递增作为搜索词的字符串中的字符。相反，如果没有搜索到该搜索词，即f＝0，后处理单元16就在步骤814从识别结果存储单元17中取出可以搜索到的最长字符串中每个字符的相似度数值，并送到中央控制模块160中。

至此，整个测量流程结束。

如果这个误识字符的候选字符有多个，中央控制模块160进一步用该误识字符前面相邻的字符和候选字符2组成字符串作为搜索词，并且要求搜索模块161用包括候选字符2的搜索词作如上所述的搜索并记录可以搜索到的最长的搜索词的词频，同时中央控制模块160记录该最长搜索词的词长，而且后处理单元16还从识别结果存储单元17中取出可以搜索到的最长字符串中每个字符的相似度数值并送到中央控制模块160中。该误识字符的其他候选字符替换候选字符1组成包含两个字符的字符串。

可见，当后处理单元16用每个候选字符代替难以识别的字符以形成搜索字符串的时候，就用这个替换后的检索词进行一遍这样的测量过程。同样要记录可以搜索到的最长的搜索词的词频和词长并取出搜索词中每个字符的相似度数值。需要说明的是，增加搜索词的长度也可以先作后向递增再作前向递增。

通过图3的测量流程得到包含候选字符Wi的搜索词的词频、词长和其中各个字符的相似度之后，在后处理单元16的中央控制模块160中按照图2中步骤207所示的方式来计算候选字符Wi的权值P_Wi，并将计算出的权值存储到存储模块163中。

在图2的步骤208上，将一个误识字符所有搜索词的权值互相比较，基于比较结果给该误识字符选出一个最佳的候选字符。在比较时。如果出现权值相同的两个词语，而且这个相同的权值就是最大权值，那么需要从分别包含在两个词语中的两个候选字符中选取最适合的一个作为识别结果，下面通过实际例子来说明选取方法。

例如，一个字符串的图像数据是“那样成为……”。对这个字符串进行初始识别得到的结果是，“成”字有两个候选字符“式”和“成”。而在后处理过程中，“样式”和“成为”两个词最后求出的权值相同。在这种情况下，解决步骤1，首先假定“样”是正确识别的字，如果“样”和它前面的字组成一个词语，例如“那样”，就把“样式”排除掉，也就是排除掉了候选字“式”。这时选取“成为”，也就是选取了候选字“成”。步骤2，如果“样”和前面的字不成词，则假定“为”是正确识别的字，判断“为”是否和它后面的字成为词语，如果成词，则排除掉“成为”，选取“样式”，也就是选取了候选字“式”。步骤3，如果“样”和“为”都和前面或者后面那个字不能成为词语，就要看“样”和“为”中哪一个的相似度好，就选择由哪个字组成的词语。例如：“样”的相似度是2，“为”的相似度是0，因为这里相似度越小越好，所以就选择“成为”，也就是选取了候选字“成”。步骤4，如果“样”和“为”相似度一样，则判断“式”和“成”这两个候选字符中哪一个的相似度好，就选择哪个字符。

现在以包括两个候选字符W1和W2的候选字符列表W为例，说明包含其中一个候选字符的词语A的相似度D的计算过程。可以从OCR识别单元122的识别结果中得到候选字符W1和W2的相似度d1和d2。例如，“子”的d1＝3，“于”的d2＝2。假设候选字符W1和前面相邻的字符组成词语A，例如：“样子”，“样”的相似度也从识别结果中得到，是d1’＝0，“子”的相似度是d1＝3，所以D＝d1’+d1＝0+3＝3。

下面结合图4的具体情况来说明利用P函数计算权值的实际过程。

如图所示，在这段词语中发现误识别的字符为圆形内的字符“入”和“民”，其中每一个误识字符的各个候选字符的相似度和候选字符列表在初始识别时已经得到，所得到的结果如图4所示。“入”的候选字列表中有两个候选字，W1是“入”，d1＝2，W2是“人”，d2＝2。“民”的候选字列表中有两个候选字，W1是“民”，d1＝0，W2是“良”，d2＝2。

在这个实施例中，相似度的数值越小这个候选字的正确性越高。在此，为了简化计算，假设权值表达式中的系数b＝1。先计算“入”的权值，由于没有找到“入”和“民”“良”“华”形成的词语，所以“入”的权值是：P_入＝a0×0-2+0＝-2。

再计算“人”的权值，从已经准备好的文本数据文档或资料库中找到了“人民”这个词语，然后根据公式算出P_人＝a2×2-(2+0)+f，词频是量词，这里f＝200，所以P_人＝4a+198。又因为权值公式中的a大于0，所以4a+198大于-2，因而选择“人”作为识别结果。

这里，搜索词这个术语并不局限于字、词、句等的概念。

总而言之，按照本实施例的字符识别后处理方法形成用于每个误识字符的多个搜索词，在已被转换成文本数据的多个文档中或在根据经验形成的文本数据资料库中进行搜索，以便在候选字符中找出正确字符。按照本实施例的后处理方法可以真实地反映原始样张中的字形，对误识字符的纠正达到了自动化。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1、一种字符识别的后处理方法，包括以下步骤：

识别文档中的字符，并获取文档中字符的候选字符及候选字符的相似度；

将候选字符相似度与预定阈值相比较确定被误识的字符；

对于误识字符的候选字符，形成至少包含所述候选字符的搜索词，用所述搜索词在已知的文本数据库中搜索，从而获得搜索词的至少一种测量值；

用所获得的测量值来计算误识字符搜索词的权值，比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符。

2、如权利要求1所述的方法，其特征在于形成至少包含所述候选字符的搜索词进一步包括：用所述误识字符的一个候选字符取代其位置，与所述误识字符的前后字符组成搜索词。

3、如权利要求2所述的方法，其特征在于形成至少包含所述候选字符的搜索词进一步包括：如果在已知的文本数据库中搜索到了所述搜索词，则在搜索词上增加一个相邻字符，加长搜索词直到获得在已知文本数据库中可以搜索到的最长的搜索词。

4、如权利要求1所述的方法，其特征在于用来计算权值的至少一种测量值可以是搜索词的词长、词频和其中各个字符的相似度三种测量值中的至少一种。

5、如权利要求1所述的方法，其特征在于用如下公式计算搜索词的权值：

P_wi＝an²-bD+f，

6、如权利要求5所述的方法，其特征在于词语相似度D＝d1’+d2’+...+di+...+dn’；

7、如权利要求6所述的方法，其特征在于比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符进一步包括：如果第一权值是所有搜索词的权值中最大的，就将第一权值对应的候选字符确定为所述误识字符位置上的正确字符。

8、如权利要求7所述的方法，其特征在于比较误识字符所有搜索词的权值从而确定用来纠正所述误识字符的正确字符进一步包括：如果第一权值和第二权值相同而且都是搜索词的权值中最大的，那么判断第一搜索词中与第一候选字符成词的字符能否与相邻的另一个字符成词，如果能成词就选取第二权值对应的第二搜索词所包含的第二候选字符。

9、如权利要求8所述的方法，其特征在于如果第一和第二两个搜索词中与第一和第二候选字符成词的字符都与相邻的另一个字符不成词，就拿与第一候选字符成词的字符的相似度和与第二候选字符成词的字符的相似度作比较，选取相似度好的字符所在的搜索词，也就是选取了这个搜索词所包含的候选字符。

10、如权利要求9所述的方法，其特征在于如果与第一候选字符成词的字符的相似度和与第二候选字符成词的字符的相似度相同，就以第一候选字符的相似度和第二候选字符的相似度作比较，选取相似度好的候选字符。