CN109635801A

CN109635801A - 光学字符识别后处理的方法、装置及计算机可读存储介质

Info

Publication number: CN109635801A
Application number: CN201710929630.0A
Authority: CN
Inventors: 熊怀欣
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2017-10-09
Filing date: 2017-10-09
Publication date: 2019-04-16

Abstract

本发明提供了一种光学字符识别后处理的方法、装置及计算机可读存储介质，本发明实施例基于单个字符的后验概率评估，可以有效的去除OCR识别结果中的噪音字符/错误字符，减少最终人工参与修正确认的次数，从而改善OCR的识别性能。另外，本发明还可以对多个OCR识别结果进行融合，使得后处理输出的结果可以包含更多正确字符的同时，去除噪音字符/错误字符干扰。另外，本发明还可以通过在线更新的方式更新字典，有助于实现OCR识别处理的自我完善，进一步提升OCR识别性能。

Description

光学字符识别后处理的方法、装置及计算机可读存储介质

技术领域

本发明涉及光学字符识别(OCR，Optical Character Recognition)技术领域，具体涉及一种光学字符识别后处理的方法、装置及计算机可读存储介质。

背景技术

在人工智能领域里，OCR一直占据着重要的位置，它提供了一种便捷的从外部采集数据的手段。除了传统的文档识别，OCR技术还被广泛的运用到其它方面，比如药盒药品注册管理(提取药盒上印刷的药品名称)，信封地址识别，身份证信息采集，电影票名称识别等。在这些应用系统里，尽管OCR只占据了比较小的部分，但其所涉及的待识别的字符集通常也是比较大的字符集。上述应用系统通常直接采用成熟的商业OCR引擎或者开源的OCR算法来执行对应的OCR识别任务，而不是针对性的开发一个新的OCR引擎。然而，由于被识别的对象的字体的多样性，且大小不一，同时受背景图案的干扰，同传统的文档识别相比，诸如药盒识别这样的应用系统的识别结果的正确率较低。

另外，由于每个OCR引擎/算法通常都有自己的适用条件，其性能在一些具有挑战性的环境下未必很好。一个典型的现象就是，在这些环境下OCR输出的字符串长度通常都大于实际的字符串长度，其原因在于OCR识别的字符串中就包含了被错误识别出的字符和由于字符分割错误或背景干扰引入的噪音字符。例如，采用开源引擎TesseractOCR来识别药盒名称，其正确字符识别率为75.9％，平均的编辑距离是0.505204，这就意味着对于长度为10个字符的药盒名，大约只有7.5个字符能被正确识别出来，需要人工参与修改和更正至少5次操作(删除错误字符和插入新的缺失字符操作)才能完成药品名称的正确采集。

发明内容

本发明实施例要解决的技术问题是提供一种光学字符识别后处理的方法、装置及计算机可读存储介质，可以有效去除OCR识别结果中的噪音字符和/或错误字符，提升OCR的识别性能。

为解决上述技术问题，本发明实施例提供的光学字符识别后处理的方法，包括：

获取光学字符识别得到的第一字符串；

对所述第一字符串进行第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第一字符串集合；

针对所述第一字符串的每个字符，确定所述第一字符串集合中包含有所述字符的第一类字符串，并根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述字符的后验概率，其中，所述字符的后验概率与所述第一类字符串的出现频次正相关；

根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串；

其中，所述第一迭代减字分解处理是针对待分解处理的字符串构造第一树状结构，所述第一树状结构中：各个节点均为互不相同的字符串，根节点的字符串为所述待分解处理的字符串，子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且若一个节点的字符串存在于所述字典中，或该节点的字符串的长度等于预设长度，则该节点为叶子节点。

本发明实施例还提供了一种光学字符识别的后处理装置，包括：

第一获取单元，用于获取光学字符识别得到的第一字符串；

第一分解单元，用于对所述第一字符串进行第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第一字符串集合；

概率计算单元，用于针对所述第一字符串的每个字符，确定所述第一字符串集合中包含有所述字符的第一类字符串，并根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述字符的后验概率，其中，所述字符的后验概率与所述第一类字符串的出现频次正相关；

去噪处理单元，用于根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串；

本发明实施例还提供了一种光学字符识别的后处理装置，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上所述的光学字符识别的后处理方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的光学字符识别的后处理方法的步骤。

与现有技术相比，本发明实施例提供的光学字符识别后处理的方法、装置及计算机可读存储介质，以贝叶斯后验概率估计理论为依托，基于单个字符的后验概率评估，有效的去除OCR识别结果中的噪音字符/错误字符，减少最终人工参与修正确认的次数，从而改善OCR的识别性能。另外，本发明实施例还可以对多个OCR识别结果进行融合，使得后处理输出的结果可以包含更多的正确字符的同时，去除噪音字符/错误字符干扰。另外，本发明实施例还可以通过在线更新的方式更新字典，有助于实现OCR识别处理的自我完善，进一步提升OCR识别性能。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的光学字符识别后处理的方法的一种流程示意图；

图2为本发明实施例提供的迭代减字分解处理的一个具体示例图；

图3为本发明实施例的光学字符识别后处理的方法的另一种流程示意图；

图4为本发明实施例的光学字符识别的后处理装置的一种结构示意图；

图5为本发明实施例的光学字符识别的后处理装置的另一种结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

如背景技术中所述的，现有OCR引擎输出的识别结果中通常存在着噪音字符/错误字符。本发明实施例提供了一种光学字符识别后处理的方法，基于单个字符的后验概率，可以有效的去除OCR识别结果中的噪音字符/错误字符的干扰，减少最终人工参与修正确认的次数，从而改善OCR的识别性能。

本发明实施例可以应用于传统的文档识别，除此之外，本发明实施例尤其适用于诸如药盒药品注册管理(提取药盒上印刷的药品名称)，信封地址识别，身份证信息采集，票据名称识别(如电影票)等场景。

另外，需要说明的是，本发明实施例中所述字符，具体可以是汉字，也可以是英文单词。对于其他不同国家的语言，如韩语、日语、法语等，若其文字是由一个或多个预定义字母组成的单词，则所述字符是指该语言中的单词，反之，所述字符是指单个字。在本发明的以下实施例中，将以字符为中文的单个汉字为例进行说明。

请参照图1，本发明实施例提供的光学字符识别后处理的方法的一个流程示意图，如图1所示，该方法包括：

步骤101，获取光学字符识别得到的第一字符串。

这里，可以利用各种OCR引擎对待识别图像进行光学字符识别，获得识别结果，从而得到第一字符串。具体的，OCR识别，通常需要经过图像输入、图像预处理以及OCR引擎处理等过程，例如，首先，对待识别的第一图像进行图像预处理，得到第二图像；然后，通过一预定OCR引擎，对所述第二图像进行识别，从而获得第一字符串。其中，在图像预处理过程中，通常可以通过对图像进行二值化处理，使图像只包含黑色的前景信息和白色的背景信息，以提升识别处理的效率和精确度。在OCR引擎处理过程中，通常会对图像进行文字特征抽取以及比对识别等处理。

步骤102，对所述第一字符串进行第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第一字符串集合。

本发明实施例中，上述第一迭代减字分解处理的一种具体实现为：将待分解处理的字符串作为第一树状结构的根节点的字符串；从根节点开始，对第一树状结构中的每个节点(包括根节点和子节点)均进行子节点生成处理；在所述第一树状结构中的每个节点均已执行完上述子节点生成处理后，得到最终的第一树状结构。

这里，针对某个节点(当前节点)进行的上述子节点生成处理具体为：

判断当前节点的字符串是否存在于预先生成的字典中：

若前节点的字符串存在于字典中，则结束当前节点的处理，即不再生成当前节点的子节点；

若前节点的字符串不存在于字典中，则判断当前节点的字符串长度是否大于预设长度：若当前节点的字符串长度等于预设长度，则结束当前节点的处理，即不再生成当前节点的子节点；若当前节点的字符串长度大于预设长度，则从当前节点的字符串去除一个字符，得到新字符串(可能有多个)，然后判断每个新字符串是否已存在树状结构中，若是，则丢弃该新字符串，若否，则将该新字符串作为当前节点的子节点。

本发明实施例中，所述字典可以是预先生成的，包括有多个字符串以及每个字符串的出现频次，且所述字典中的字符串，是对一样本集合中的字符串样本，进行第二迭代减字分解处理所得到的第二树状结构的节点，所述第二树状结构的各个节点均为互不相同的字符串，其中，根节点的字符串为所述字符串样本；子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且所述第二树状结构中的叶子节点的字符串的长度为预设长度；所述字符串的出现频次等于包含有所述字符串的第二树状结构的数量。

可以看出，本发明实施例的所述第一迭代减字分解处理，是针对待分解处理的字符串(这里是指第一字符串)，构造第一树状结构。在最终获得的第一树状结构中：各个节点均为互不相同的字符串，根节点的字符串为所述待分解处理的字符串，子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且若一个节点的字符串存在于预先生成的字典中，或该节点的字符串的长度等于预设长度，则该节点为叶子节点。

图2给出了上述第一迭代减字分解处理的一个具体示例。在该示例中，假设待分解处理的字符串为“ABCDE”，预设长度为3，这里，“ABCDE”中的每个字母均代表一个汉字。

在进行第一迭代减字分解处理时，首先将待分解处理的字符串“ABCDE”作为树状结构的根节点。

然后，对根节点执行上述的子节点生成处理，即判断该根节点的字符串是否存在于字典中，如果存在，此时可以结束处理，即所生成的树状结构仅包括一个根节点，该根节点的字符串为待分解处理的字符串“ABCDE”。如果该根节点的字符串不存在于字典中，此时根节点字符串长度为5，因此，对该根节点的字符串减去一个字符，从而可以获得5个新字符串：ABCD、ABCE、ABDE、ACDE和BCDE。针对这5个新字符串，再继续判断每个新字符串是否已存在树状结构中，由于上述5个新字符串均不存在于树状结构中，则将该新字符串作为当前节点的子节点，从而生成了根节点的5个子节点。

对于新生成的5个子节点，依次执行上述子节点生成处理，例如，对于节点“ABCD”，可以进一步生成下一级子节点“ABC”、“ABD”、“ACD”和“BCD”。对于节点“ABCE”，可以进一步生成下一级子节点“ABE”、“ACE”和“BCE”，其中，由于节点“ABC”已存在于树状结构中，因此，节点ABCE的子节点中将不会包括该节点“ABC”。由于节点“ABC”、“ABD”、“ACD”和“BCD”的长度等于预设长度，因此不再生成下一级子节点。为节约篇幅，后续的生成过程不再详述。通过以上处理，最终生成的树状结构如图2所示，图2中的虚线圆圈代表在子节点生成过程中发现的已存在于树状结构中的字符串。根据最终的树状结构中各个节点的字符串(即图2中所有的实线节点的字符串)，可以生成第一字符串集合。

步骤103，针对所述第一字符串的每个字符，确定所述第一字符串集合中包含有所述字符的第一类字符串，并根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述字符的后验概率，其中，所述字符的后验概率与所述第一类字符串的出现频次正相关。

这里，一种计算后验概率的具体实现可以包括：对第一类字符串中的所有字符串的出现频次，进行加权求和，获得所述字符对应的频次和值，其中，每个字符串的权值与该字符串的长度正相关；对所述频次和值进行归一化处理，得到该字符的后验概率。具体的，每个字符串的权值，可以直接采用该字符串的长度来表征。

在一个完整的名称字符串里，每个字符都紧密的和其它字符关联着，即使部分字符丢失(在分解中去除部分字符)，但其局部的关联特性是会保留下来的，因此一个字符最终的真伪，依赖于有多少和其关联的字段存在以及这些关联字段有多么可信。基于此，本发明实施例可以定义每个字符的后验概率计算公式为如下：

上述公式里，C_i是第一字符串中的第i个字符；IS_j是第一字符串集合中的第j个字符串；P(.)是0-1分布，代表字符串IS_j是否包含字符C_i；w_j是对字符串IS_j出现频次Frequency(IS_j)的加权权值。上述公式表明每个字符的后验概率是所有包含该字符的第一字符串的出现频次的加权和，第一字符串的出现频次可以通过查询字典获得。

通常地，权值代表重要程度。优选的，本发明实施例中，字符串IS_j对应的权值w_j将随着IS_j长度的增加而增加。这是因为字符串IS_j越长，字符串IS_j存在就越稳定和可信，因此可定义权值为字符串IS_j的长度length(IS_j)，此时，上述的计算公式可改写为如下：

当完成字符后验概率计算后，可以据此评估每个字符的真伪并决定是接受还是舍弃。在评估前可以对字符后验概率计算结果归一化到[0，1]，归一化操作可表达为如下：

即以所有字符中最大的后验概率值为分母进行归一化处理。

步骤104，根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串。

这里，作为一种实现方式，可以根据后验概率的高低排序，从第一字符串中删除后验概率最低的一个或多个字符，从而得到第二字符串。作为另一种实现方式，也可以从所述第一字符串中去除后验概率低于预设阈值的字符，从而得到第二字符串。

从以上步骤可以看出，本发明实施例以上方法，根据字典中记录的所述第一类字符串的出现频次，计算得到字符的后验概率。由于所述字符的后验概率与所述第一类字符串的出现频次正相关，因此后验概率的高低，可以反映出所述字符为正确字符的可能性的高低。通过步骤104中的去噪/去错处理，本发明实施例可以从OCR识别结果中去除噪声/错误字符，实现了从带有噪音和错误字符的OCR识别结果中提取出正确的字符，可以减少第二字符串与实际字符串之间的编辑距离(Edit distance)值，进而减少后续通过人工处理对第二字符串进行校正时的人工修正操作，提升了OCR识别性能。

下面对本发明实施例所用到的字典的生成进行说明。

在上述步骤101之前，本发明实施例可以基于预先获得的样本集合，生成一字典。所述样本集合包括有多个字符串样本。例如，对于药盒药名识别场景，可以预先收集大量的药品名称(例如，覆盖药品库中30％以上的药品名)，每个药品名称都是一条字符串样本，该字符串样本将通过分解成为多个长度更短的字符串。所有的字符串样本及其所有的分解出的字符串都将注册收录到字典里，每个字符串在样本集合中的出现频次的统计数据也同时记录在字典里。表1示意性给出了药品药名的字典的局部快照图，其中，每一行是一条数据记录，左列是出现频次，右边的字符串则是药品名称或其分解的字符串。字典中每一个字符串对应着至少一个药品名称，该字符串是药品名称的字符串或者是其分解产生的字符串。

1	胃食服
		1	胃食服液
1	胃食液
		2	胆
3	胆丸
		1	胆口
1	胆口服
		1	胆口服液
……	……

表1

具体的，所述字典的生成步骤可以包括：针对所述样本集合中的每个字符串样本，分别进行第二迭代减字分解处理，构造一个第二树状结构；根据所述第二树状结构的各个节点的字符串，确定所述字典中包括的字符串，并根据包含有同一字符串的所有第二树状结构的数量，在所述字典中记录该字符串的出现频次。这里，所述第二迭代减字分解处理是针对所述字符串样本构造第二树状结构，所述第二树状结构中：各个节点均为互不相同的字符串，根节点的字符串为所述字符串样本；子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且所述第二树状结构中的叶子节点的字符串的长度为预设长度。

本发明实施例中，上述第二迭代减字分解处理的一种具体实现为：将字符串样本作为第二树状结构的根节点的字符串；从根节点开始，对第二树状结构中的每个节点(包括根节点和子节点)均进行子节点生成处理；在所述第二树状结构中的每个节点均已执行完上述子节点生成处理后，得到最终的第二树状结构。

判断当前节点的字符串长度是否大于预设长度：

若当前节点的字符串长度等于预设长度，则结束当前节点的处理，即不再生成当前节点的子节点；

若当前节点的字符串长度大于预设长度，则从当前节点的字符串去除一个字符，得到新字符串(可能有多个)，然后判断每个新字符串是否已存在树状结构中，若是，则丢弃该新字符串，若否，则将该新字符串作为当前节点的子节点。

可以看出，上述第二迭代减字分解处理与第一迭代减字分解处理的差别在于，第二迭代减字分解处理得到的树状结构中的叶子节点的字符串长度均为所述预设长度，而第一迭代减字分解处理得到的树状结构中的叶子节点的字符串长度可以大于或等于所述预设长度。

基于以上步骤，本发明实施例生成的字典，其中的字符串是来自于字符串样本的分解结果，字典里所有字符串的记录体现了数据集内部数据转移概率属性。自然地，字典里每条字符串的出现频次信息可被当作先验概率对待，以用于后续计算字符的后验概率。

更进一步的，本发明实施例可以对所述字典进行在线更新，例如，在上述步骤104之后，可以获得所述第二字符串经人工校正处理后得到的第三字符串，这里，第三字符串可能与第二字符串相同或不同；然后，将所述第三字符串添加至所述样本集合中，并根据更新后的样本集合，更新所述字典包括的字符串及其出现频次。

提高OCR的精度，减少自动化数据采集中的人工修正操作的目的，可以从两方面实现：第一方面为从OCR输出中去除错误字符和/或噪音字符，第二方面为提高OCR输出中正确字符的数量。本发明以上实施例从第一方面减少了人工修正操作。更进一步的，本发明实施例还可以同时从上述第一方面和第二方面来减少了人工修正操作，下面将对此进行说明。

基于不同的图像预处理和/或OCR引擎的OCR识别结果具有不同的性能，多个OCR对同一文字串的识别结果可能会提供更多的正确字符。如果2个OCR引擎独立不相关，假设每个OCR识别结果的精度是75％，那么2个OCR组成的并行识别系统其精度理论上可以达到1-(1-75％)*(1-75％)＝93.75％。本文中，两个以上的OCR识别结果既包括多个不同OCR引擎对同一文字材料的识别结果，也可为对同一文字材料进行不同预处理后的图像，经过同一OCR引擎得到的不同识别结果。多个OCR识别结果融合既可能增加正确字符的数量，也可能带来更多的噪音或错误字符。本发明实施例基于融合后的OCR识别结果，利用图1类似流程进行噪声字符/错误字符的去除，可以保留下更多正确的字符数，同时也把疑似错误的字符去掉，从而从两个方面来共同减少后处理输出的字符串与实际字符串之间的平均编辑距离，提升OCR性能，减少人工修正处理的次数。

请参照图3，本发明实施例提供的另一光学字符识别后处理的方法，该方法同时从上述第一方面和第二方面提高OCR性能。该方法融合了同一待识别图像的至少两个识别结果，使得融合后的OCR识别结果中可能包括更多的正确字符。然后，利用图1中的类似流程，去除融合后的OCR识别结果中的错误字符/噪声字符，从而可以获得更优的识别结果，进一步减少后续人工修正的工作量。请参照图3，光学字符识别后处理的方法，包括：

步骤301，获得针对同一待识别图像的至少两个识别结果。

以两个识别结果为例，作为一种实现方式，可以对待识别的第一图像进行第一图像预处理，得到第三图像；以及，对待识别的第一图像进行第二图像预处理，得到第四图像；然后，通过同一OCR引擎，分别对所述第三图像和第四图像进行识别，从而获得两个识别结果，这里，第一图像预处理不同于第二图像预处理，例如，在图像预处理过程中的二值化处理中，分别设置不同的二值化门限。

作为另一种实现方式，还可以通过对待识别的第一图像进行图像预处理，得到第五图像；然后分别通过第一OCR引擎和第二OCR引擎，对所述第五图像进行识别，获得两个识别结果，其中，第一OCR引擎不同于第二OCR引擎。

当然，每个识别结果也可以分别基于不同的图像预处理和不同的OCR引擎。

步骤302，针对所述至少两个识别结果，分别进行第一迭代减字分解处理，构造第一树状结构，并包括第一树状结构各节点的字符串的第二字符串集合。

步骤303，选择出同时存在于每个第二字符串集合中，两两字符串相同且长度最大的字符串，作为匹配字符串，所述匹配字符串包含的字符为匹配字符。

步骤304，确定每个识别结果中除所述匹配字符外的剩余字符，按照剩余字符与所述匹配字符之间的相对距离关系，将所有剩余字符均插入至所述匹配字符串中，得到第一字符串。

这里，将所述至少两个识别结果，混合成一条更大长度的字符串，但并不改变最终融合结果中各个字符之间的相对位置关系。为了不打乱字符间的相对位置关系，这里以匹配到的最大长度的匹配子字串作为穿插字符的基准锚点。以匹配字符为分隔点，对每个识别结果中除所述匹配字符外的剩余字符，可以按其外包矩形中心点在预定轴的投影位置的顺序，进行相互穿插，从而融合成一条包含所有出现字符的新字符串，即所述第一字符串。这里，所述预定轴可以是将两个匹配字符的外包矩形中心点连接形成的一条直线。

举例来说，假设有2个OCR引擎对同一药盒图像的药名识别结果分别为字符串A：“振源胶裹”和字符串B：“振原胶囊”。这两个字符串经各自单向分解后可得到最大的匹配字符串为“振胶”。此时可以以字符串B为基础，将2个字符“源裹”从字符串A插入到字符串B中，以使融合后的字符串包括所有出现的字符。更具体地，需要在字符“振”和“胶”之间插入“源”和“原”，同时在字符“胶”之后插入“裹”和“囊”。因此融合后第一个字符是“振”，第2个字符是选自“源”或“原”则决定于它们的外包矩形框中心位置在横轴(假设字符串为横向排列)上的投影位置。如果“源”的中心点在“原”的左边，则第二个字符就是“源”，第三个字符是“原”，下一个字符是“胶”。最终的融合后的字符类似于“振源原胶囊裹”，事实上正确的药品名称字符串是“振源胶囊”，通过上述融合处理，可以使融合后的字符串中包括更多的正确字符。

步骤305，对所述第一字符串进行第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第一字符串集合。

步骤306，针对所述第一字符串的每个字符，确定所述第一字符串集合中包含有所述字符的第一类字符串，并根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述字符的后验概率，其中，所述字符的后验概率与所述第一类字符串的出现频次正相关。

步骤307，根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串。

在步骤304获得融合后的第一字符串之后，本发明实施例可以按照类似于图1的流程，对第一字符串进行去除噪声字符/错误字符的处理，延续上述举例，对于“振源原胶囊裹”，可以通过上述步骤305～307(分别类似于图1的步骤102～104)，去除其中的错误字符“裹”和“原”，从而得到正确的药名“振源胶囊”。

通过以上步骤，本发明实施例从上述两个方面来共同减少后处理输出的字符串与实际字符串之间的平均编辑距离，提升了OCR性能，减少了人工修正处理的次数。

同其它OCR后处理方法相比，本发明实施例提供的上述方法，在使用上具有更少的限制，本发明实施例只需要关注当前字符与其它字符之间的组合概率属性，以贝叶斯后验概率估计理论为依托，可从概率角度有效的去除噪音字符的干扰，减少最终人工参与修正确认的次数。此外，本发明实施例的字典可通过在线更新的方式进行自我完善，有助于OCR应用更加的智能和稳健。

基于以上实施例所提供的光学字符识别后处理方法，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一个方法实施例中的光学字符识别后处理的方法中的步骤。

基于以上方法，本发明实施例还提供了实施上述方法的装置，请参考图4，本发明实施例提供的光学字符识别的后处理装置40包括：

第一获取单元41，用于获取光学字符识别得到的第一字符串；

第一分解单元42，用于对所述第一字符串进行第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第一字符串集合；

概率计算单元43，用于针对所述第一字符串的每个字符，确定所述第一字符串集合中包含有所述字符的第一类字符串，并根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述字符的后验概率，其中，所述字符的后验概率与所述第一类字符串的出现频次正相关；

去噪处理单元44，用于根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串；

优选的，上述光学字符识别的后处理装置还包括：

第二分解单元，用于针对一样本集合中的每个字符串样本，分别进行第二迭代减字分解处理，构造一个第二树状结构；

字典生成单元，用于根据所述第二树状结构的各个节点的字符串，确定所述字典中包括的字符串，并根据包含有同一字符串的所有第二树状结构的数量，在所述字典中记录该字符串的出现频次；

其中，所述第二迭代减字分解处理是针对所述字符串样本构造第二树状结构，所述第二树状结构中：各个节点均为互不相同的字符串，根节点的字符串为所述字符串样本；子节点的字符串为上一级父节点的字符串去除一个字符，且保持剩余字符的排序不变所得到的；且所述第二树状结构中的叶子节点的字符串的长度为预设长度。

优选的，上述光学字符识别的后处理装置还包括：

第二获取单元，用于获取所述第二字符串经人工校正处理后得到的第三字符串；

字典更新单元，用于将所述第三字符串添加至所述样本集合中，并根据更新后的样本集合，更新所述字典包括的字符串及其出现频次。

优选的，上述概率计算单元43包括：

和值计算单元，用于对第一类字符串中的所有字符串的出现频次，进行加权求和，获得所述字符对应的频次和值，其中，每个字符串的权值与该字符串的长度正相关；

归一化单元，用于对所述频次和值进行归一化处理，得到该字符的后验概率。

优选的，上述去噪处理单元44包括：

字符去除单元，用于从所述第一字符串中去除后验概率低于预设阈值的字符，得到第二字符串。

优选的，上述第一获取单元41包括：

识别结果获得单元，用于获得针对同一待识别图像的至少两个识别结果；

第二分解单元，用于针对所述至少两个识别结果，分别进行所述第一迭代减字分解处理，构造第一树状结构，并包括第一树状结构各节点的字符串的第二字符串集合；

匹配字符串确定单元，用于选择出同时存在于每个第二字符串集合中，两两相同且长度最大的字符串，作为匹配字符串，所述匹配字符串包含的字符为匹配字符；

字符串融合单元，用于确定每个识别结果中除所述匹配字符外的剩余字符，按照剩余字符与所述匹配字符之间的相对距离关系，将所有剩余字符均插入至所述匹配字符串中，得到所述第一字符串。

请参考图5，本发明实施例还提供了光学字符识别的后处理装置的一种硬件结构框图，该系统接收OCR识别结果并进行后处理后输出最终的识别结果。如图5所示，该光学字符识别的后处理装置50包括：

处理器52；和

存储器54，在所述存储器54中存储有计算机程序指令，

其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器52执行以下步骤：

获取光学字符识别得到的第一字符串；

进一步地，如图5所示，该光学字符识别的后处理装置50还包括网络接口51、输入设备53、硬盘55、和显示设备56。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器52代表的一个或者多个中央处理器(CPU)，以及由存储器54代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解，总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，这些都是本领域所公知的，因此本文不再对其进行详细描述。

所述网络接口51，可以连接至网络(如因特网、局域网等)，从网络中接收信息，并可以将接收到的信息保存在硬盘55中。

所述输入设备53，可以接收操作人员输入的各种指令，例如，针对预设长度、预设阈值的设置信息等，并发送给处理器52以供执行。所述输入设备53可以包括键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备56，可以将处理器52执行指令获得的结果进行显示，例如显示后处理后得到的最终识别结果等。

所述存储器54，用于存储操作系统运行所必须的程序和数据，以及处理器52计算过程中的中间结果等数据。

可以理解，本发明实施例中的存储器54可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)，其用作外部高速缓存。本文描述的装置和方法的存储器34旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器54存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统541和应用程序542。

其中，操作系统541，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序542，包含各种应用程序，例如浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序542中。

本发明上述实施例揭示的方法可以应用于处理器52中，或者由处理器52实现。处理器52可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器52中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器52可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器54，处理器52读取存储器54中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地，所述计算机程序被处理器52执行时还可实现如下步骤：

针对一样本集合中的每个字符串样本，分别进行第二迭代减字分解处理，构造一个第二树状结构；

根据所述第二树状结构的各个节点的字符串，确定所述字典中包括的字符串，并根据包含有同一字符串的所有第二树状结构的数量，在所述字典中记录该字符串的出现频次；

获取所述第二字符串经人工校正处理后得到的第三字符串；

将所述第三字符串添加至所述样本集合中，并根据更新后的样本集合，更新所述字典包括的字符串及其出现频次。

对第一类字符串中的所有字符串的出现频次，进行加权求和，获得所述字符对应的频次和值，其中，每个字符串的权值与该字符串的长度正相关；

对所述频次和值进行归一化处理，得到该字符的后验概率。

从所述第一字符串中去除后验概率低于预设阈值的字符，得到第二字符串。

获得针对同一待识别图像的至少两个识别结果；

针对每个识别结果，分别进行所述第一迭代减字分解处理，构造第一树状结构，并生成包括第一树状结构各节点的字符串的第二字符串集合；

选择出同时存在于每个第二字符串集合中，两两相同且长度最大的字符串，作为匹配字符串，所述匹配字符串包含的字符为匹配字符；

确定每个识别结果中除所述匹配字符外的剩余字符，按照剩余字符与所述匹配字符之间的相对距离关系，将所有剩余字符均插入至所述匹配字符串中，得到所述第一字符串。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种光学字符识别后处理的方法，其特征在于，包括：

获取光学字符识别得到的第一字符串；

2.如权利要求1所述的方法，其特征在于，在所述获取光学字符识别得到的第一字符串的步骤之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，在得到第二字符串的步骤之后，所述方法还包括：

获取所述第二字符串经人工校正处理后得到的第三字符串；

4.如权利要求1所述的方法，其特征在于，所述根据一预先生成的字典中记录的所述第一类字符串的出现频次，计算得到所述第一字符串的每个字符的后验概率的步骤，包括：

对所述频次和值进行归一化处理，得到该字符的后验概率。

5.如权利要求1所述的方法，其特征在于，所述根据所述后验概率，对所述第一字符串中去噪/去错处理，得到第二字符串的步骤，包括：

6.如权利要求1所述的方法，其特征在于，所述获取光学字符识别得到的第一字符串的步骤，包括：

获得针对同一待识别图像的至少两个识别结果；

选择出同时存在于每个第二字符串集合中，两两相同的且长度最大的字符串，作为匹配字符串，所述匹配字符串包含的字符为匹配字符；

7.一种光学字符识别的后处理装置，其特征在于，包括：

第一获取单元，用于获取光学字符识别得到的第一字符串；

8.如权利要求7所述的后处理装置，其特征在于，所述第一获取单元包括：

9.一种光学字符识别的后处理装置，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的光学字符识别的后处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的光学字符识别的后处理方法的步骤。