CN111783695A

CN111783695A - 文本识别方法、装置、电子设备及存储介质

Info

Publication number: CN111783695A
Application number: CN202010640844.8A
Authority: CN
Inventors: 康凯; 李兵; 李盼盼
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-16
Anticipated expiration: 2040-07-06
Also published as: CN111783695B

Abstract

本申请提出一种文本识别方法、装置、电子设备及存储介质。具体实现方案为：识别步骤，对待识别图像中的部分区域进行文本识别，得到部分区域对应的字符串；第一计算步骤，将字符串分别与字表中的每个字符组合成字符串组，并计算各个字符串组的概率；排序步骤，根据概率对各个字符串组进行排序，选取排序在前的预定个数的字符串组；第二计算步骤，计算选取的字符串组的末尾字符的单字符置信度，单字符置信度用于对待识别图像的文本识别结果进行筛选。本申请实施例利用单字符置信度可以对文本识别结果进行有效筛选，大幅提高文本识别的准确率，减少误判。

Description

文本识别方法、装置、电子设备及存储介质

技术领域

本申请涉及信息技术领域，尤其涉及一种文本识别方法、装置、电子设备及存储介质。

背景技术

在采用深度学习算法进行文本识别的过程中，通常将包含文字的图像输入文本识别模型中，得到概率分布矩阵。在得到该概率分布矩阵后，可以通过集束搜索(BeamSearch)进一步确定最终的识别结果。

集束搜索是一种启发式图搜索算法。通常用在图的解空间比较大的情况下，在集束搜索的算法执行过程中，为了减少搜索所占用的空间和时间，在每一步深度扩展的时候，会剪掉一些质量比较差的结点，保留下一些质量较高的结点。这种方法可减少空间消耗，并提高时间效率。

但是通过集束搜索进一步确定最终的识别结果，仍有可能会导致误判。例如，在拍照批改算法中，有一个默认的规则是“尽可能地将题目判为正确”。因为考虑到正常用户做题时绝大部分题目都能做对，只有少量题目会做错，因此在算法的判题决策中，算法会尽可能地去选择一个能够将题目判为正确的识别结果。如果将上述默认的规则与集束搜索相结合，则有可能会导致误判，从而降低了文本识别的准确率。

发明内容

本申请实施例提供一种文本识别方法、装置、电子设备及存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种文本识别方法，包括：

识别步骤，对待识别图像中的部分区域进行文本识别，得到部分区域对应的字符串；

第一计算步骤，将字符串分别与字表中的每个字符组合成字符串组，并计算各个字符串组的概率；

排序步骤，根据概率对各个字符串组进行排序，选取排序在前的预定个数的字符串组；

第二计算步骤，计算选取的字符串组的末尾字符的单字符置信度，单字符置信度用于对待识别图像的文本识别结果进行筛选。

在一种实施方式中，将字符串分别与字表中的每个字符组合成字符串组，包括：

将字符串分别与字表中的每个字符组合，得到组合串组；

对组合串组进行规范化处理，得到字符串组。

在一种实施方式中，对组合串组进行规范化处理，得到字符串组，包括采用以下方式中的至少一种对组合串组进行规范化处理：

去除组合串组中处于非末尾位置上的空字符；

在组合串组中的两个相邻的字符是相同字符的情况下，去掉两个相邻的字符中的一个字符。

在一种实施方式中，计算选取的字符串组的末尾字符的单字符置信度，包括：

从选取的字符串组中，将末尾字符为空字符的字符串组过滤掉；

计算过滤后的字符串组的末尾字符的单字符置信度。

在末尾字符与末尾字符的前一个字符是相同字符的情况下，利用以下单字符置信度公式计算单字符置信度；

单字符置信度公式为：p＝1-(1-p1)×(1-p2)，其中，p表示单字符置信度，p2表示末尾字符的概率，p1表示末尾字符的前一个字符的概率。

在一种实施方式中，上述方法还包括：

将待识别图像划分成多个区域；

在每次执行识别步骤之前，将待识别图像的第一个区域到当前识别区域组成的连续区域，构成与当前识别区域对应的部分区域；

在每次执行识别步骤之后，对于部分区域对应的字符串，执行第一计算步骤、排序步骤和第二计算步骤，得到每个部分区域对应的单字符置信度。

在一种实施方式中，上述方法还包括：

根据每个部分区域对应的单字符置信度，对待识别图像的文本识别结果进行筛选。

在一种实施方式中，根据每个部分区域对应的单字符置信度，对待识别图像的文本识别结果进行筛选，包括：

计算每个部分区域对应的任意两个单字符置信度之间的差别程度；

在差别程度大于预定阈值的情况下，从待识别图像的文本识别结果中，将两个单字符置信度中较小的一个单字符置信度对应的文本识别结果筛选掉。

第二方面，本申请实施例提供了一种文本识别装置，包括：

识别单元，用于对待识别图像中的部分区域进行文本识别，得到部分区域对应的字符串；

第一计算单元，用于将字符串分别与字表中的每个字符组合成字符串组，并计算各个字符串组的概率；

排序单元，用于根据概率对各个字符串组进行排序，选取排序在前的预定个数的字符串组；

第二计算单元，用于计算选取的字符串组的末尾字符的单字符置信度，单字符置信度用于对待识别图像的文本识别结果进行筛选。

在一种实施方式中，第一计算单元包括：

组合子单元，用于将字符串分别与字表中的每个字符组合，得到组合串组；

处理子单元，用于对组合串组进行规范化处理，得到字符串组。

在一种实施方式中，处理子单元用于：

去除组合串组中处于非末尾位置上的空字符；

在一种实施方式中，第二计算单元还用于：

计算过滤后的字符串组的末尾字符的单字符置信度。

在一种实施方式中，第二计算单元用于：

在一种实施方式中，上述装置还包括：

划分单元，用于将待识别图像划分成多个区域；将待识别图像的第一个区域到当前识别区域组成的连续区域，构成与当前识别区域对应的部分区域；

遍历单元，用于对于部分区域对应的字符串，执行第一计算单元、排序单元和第二计算单元所执行的功能，得到每个部分区域对应的单字符置信度。

在一种实施方式中，上述装置还包括筛选单元，用于：

在一种实施方式中，筛选单元用于：

第三方面，本申请实施例提供了一种电子设备，该设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：利用单字符置信度可以对文本识别结果进行有效筛选，大幅提高文本识别的准确率，减少误判。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为根据本申请实施例的文本识别方法的流程图；

图2为根据本申请另一实施例的文本识别方法的流程图；

图3为根据本申请又一实施例的文本识别方法的流程图；

图4为根据本申请实施例的文本识别装置的结构示意图；

图5为根据本申请实施例的文本识别装置的第一计算单元的结构示意图；

图6为根据本申请另一实施例的文本识别装置的结构示意图；

图7为用来实现本申请实施例的电子设备的框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1为根据本申请实施例的文本识别方法的流程图。如图1所示，该文本识别方法可以包括：

识别步骤S110，对待识别图像中的部分区域进行文本识别，得到部分区域对应的字符串；

第一计算步骤S120，将字符串分别与字表中的每个字符组合成字符串组，并计算各个字符串组的概率；

排序步骤S130，根据概率对各个字符串组进行排序，选取排序在前的预定个数的字符串组；

第二计算步骤S140，计算选取的字符串组的末尾字符的单字符置信度，单字符置信度用于对待识别图像的文本识别结果进行筛选。

在采用深度学习算法进行文本识别的过程中，通常将包含文字的待识别图像输入文本识别模型中，得到概率分布矩阵。概率分布矩阵的宽度W为待识别图像被划分的区域数。该区域数的数值为文本识别模型的输出宽度，与待识别图像的实际宽度无关。概率分布矩阵的高度H为待识别字符的字表长度。例如在简单的数字串识别中，待识别的字符共有‘0123456789’十个字符，再加上一个表示空白区域的空字符，则待识别字符的字表长度H＝11。若以‘_’表示空字符，则字表为‘_0123456789’。假设文本识别的输出宽度W＝32，表示将待识别图像横向划分为32个区域。可将任意一幅待识别图像输入该文本识别模型，输出为11×32的概率分布矩阵，即共有32个11×1的概率向量。其中每一个向量都表示在待识别图像的原图对应的区域中含有各个字符的概率。在得到该概率分布矩阵后，可以通过贪心搜索(Greedy Search)或者集束搜索(Beam Search)等解码得到最终的识别结果。

贪心搜索是使用得最频繁也是最简单的解码算法。在上述例子中，直接取每个11×1概率向量中的最大值所表示的字符组成最终的字符串，即可作为待识别图像的文本识别结果。采用贪心搜索在大部分情况下能够获得比较理想的识别结果，在某些追求高精度的应用场景，可以使用集束搜索来对文本识别结果进行补充和完善。

集束搜索相对于贪心搜索的区别在于，在搜索过程中追求的是最大化字符串的概率，并且根据概率从高到低可以一次获得多个可能的结果。集束搜索不像贪心搜索那样追求的是最大化各个单字符的概率。因此，通过集束搜索得到的最终输出结果会优于贪心搜索的最终输出结果。从数学角度上可解释为：对于文本识别模型而言，集束搜索得到的第一个结果的正确概率要高于贪心搜索得到的结果的正确概率。

但是通过集束搜索进一步确定最终的识别结果，仍有可能会导致误判。例如，在拍照批改算法中，有一个默认的规则是“尽可能地将题目判为正确”。假如一道题用户写的是“1+1＝3”，通过贪心搜索得到了“1+1＝3”这样一个识别结果。但显然这是一个错误的式子，所以继续利用集束搜索来获取更多可能的答案。假设集束搜索给出了两个可能的结果“1+1＝3”和“1+1＝2”，那么按照上述默认的规则，算法会认为用户实际写的更可能是“1+1＝2”，从而将该题判为正确。

在上述示例中，当用户写的式子确实是“1+1＝3”，只是“3”写得有一点像“2”的时候，算法可能会将其误认为“2”而导致误判。因此在这种情况下需要有一个指标，可以用来筛选集束搜索的答案，以使得文本识别的结果更加准确。

有鉴于此，本申请提出了一种针对集束搜索结果的单字符置信度的计算方法。该方法可以用来计算得到的集束搜索结果中每一个字符的置信度，并将单字符置信度用于对文本识别的结果进行筛选。在上述辅助判题决策的示例中，假如“3”的置信度为0.6，“2”的置信度为0.4，那么算法就可以相信“1+1＝2”这样一个答案。但如果“3”的置信度为0.99，“2”的置信度为“0.01”，那显然算法就会舍弃“1+1＝2”这个式子，认为“1+1＝3”就是用户实际写的式子。

在本申请实施例中，在利用文本识别模型对待识别图像进行文本识别之前，可以先将待识别图像横向划分为多个区域，并对多个区域顺序进行文本识别。文本识别模型的得到概率分布矩阵的宽度即为待识别图像被划分的区域数。概率分布矩阵中的每一个向量表示在待识别图像的原图对应的区域中含有字表中的各个字符的概率。

在识别步骤S110中，在对多个区域顺序进行文本识别的过程中，将当前已识别的区域作为部分区域，得到该部分区域对应的字符串。例如，待识别图像中的文本为“101”；模型的输出宽度W＝5，即将待识别图像划分为5个区域。在这个示例中由于划分的区域多于待识别图像中包含的字符个数，因此待识别图像中的每个字符可能对应于多个区域。在对多个区域顺序进行文本识别的过程中，可能一个字符会在对应的多个区域中多次被识别到，因此在后续处理过程中会将重复识别的字符去掉，只保留其中的一个。若当前已识别的区域为前3个区域，则当前已识别的部分区域对应的字符串可能为“10”。

在第一计算步骤S120中，将字符串“10”分别与字表中的每个字符组合成字符串组。例如，文本识别模型的字表长度H＝4。字表中包括1个空字符“_”加上0、1和2三个数字。则字符串“10”分别与字表中的每个字符组合成字符串组为“10_”、“100”、“101”和“102”。然后计算上述各个字符串组的概率。

在排序步骤S130中，根据上述各个字符串组的概率对各个字符串组进行排序。选取排序在前的预定个数的字符串组，也就是说，选取识别结果中置信度高的字符串组、舍弃置信度低的字符串组。例如预定个数为2，假设上述各个字符串组中概率较大的2个分别是“101”和“102”，则选取“101”和“102”，舍弃“10_”和“100”。

在第二计算步骤S140中，计算选取的字符串组“101”和“102”的末尾字符的单字符置信度，也就是分别计算末尾字符“1”和“2”的单字符置信度。计算得到的单字符置信度用于对待识别图像的文本识别结果进行筛选。例如，“1”的置信度为0.99，“2”的置信度为“0.01”，那显然算法就会舍弃“102”这个结果，认为“101”是待识别图像中包含的文本。

图2为根据本申请另一实施例的文本识别方法的流程图。如图2所示，在上述实施例的基础上，在一种实施方式中，该方法还包括：

S102，将待识别图像划分成多个区域。

S104，将待识别图像的第一个区域到当前识别区域组成的连续区域，构成与当前识别区域对应的部分区域。

在每次执行识别步骤S110之前，可以先执行步骤S104，得到与当前识别区域对应的部分区域。然后执行识别步骤S110，得到该部分区域对应的字符串。在每次执行识别步骤S110之后，对于该部分区域对应的字符串，执行第一计算步骤S120、排序步骤S130和第二计算步骤S140，得到该部分区域对应的单字符置信度。

参见图2，在本次循环结束后，将当前识别区域的下一个区域作为当前识别区域，返回执行步骤S104开始下一次循环。直到将该图像所划分的所有区域处理完为止。例如本次循环的当前识别区域是第w个区域，则从第一个区域到第w个区域组成的连续区域构成与当前识别区域对应的部分区域，也就是待识别图像的前w个区域构成与当前识别区域对应的部分区域。如果第w个区域的下一个区域是第w+1个区域，则在下一次循环中，将第w+1个区域作为当前识别区域，将待识别图像从第一个区域到第w+1个区域的前w+1个区域，构成与下一次循环的当前识别区域对应的部分区域。并且，针对待识别图像的前w+1个区域，分别执行识别步骤、第一计算步骤、排序步骤和第二计算步骤，得到前w+1个区域对应的单字符置信度。也就是将前w+1个区域的识别结果对应的字符串与字表中的每个字符组合成字符串组，经过排序步骤选取排序在前的预定个数的字符串组，计算选取的字符串组的末尾字符的单字符置信度。

如果将待识别图像划分成N个区域，在可以循环执行N次对组合的部分区域执行识别步骤S110、第一计算步骤S120、排序步骤S130和第二计算步骤S140。直到将最后一个区域(第N个区域)处理完为止。

图3为根据本申请又一实施例的文本识别方法的流程图。图3中所示的步骤如下：

步骤S1：在当前位置w循环遍历字表，取字符组合成新的字符串组，并更新每一个字符串组的概率。其中，当前位置w即待识别图像的当前识别区域是第w个区域。遍历字表包括从字表中取每一个字符，与前w个区域的识别结果对应的字符串组合成新的字符串组。

步骤S2：根据概率对新的字符串组排序，保留前K个字符串组。其中K为正整数，是预先设置的集束宽度，也是排序步骤130中的预定个数。

步骤S3：对于保留的字符串组，计算并更新字符串组中每一个字符串的末位字符的单字符置信度。

判断w是否小于文本识别模型输出的概率分布矩阵的宽度。若否则结束循环。若是则将w+1赋值给w，继续下一次循环。循环体中的步骤包括步骤S1、步骤S2和步骤S3。

将字符串分别与字表中的每个字符组合，得到组合串组；

对组合串组进行规范化处理，得到字符串组。

去除组合串组中处于非末尾位置上的空字符；

参见图1至图3，在一个示例中，待识别图像中的文本为“101”。文本识别模型的字表长度H＝3。字表包括1个空字符“_”加上0和1两个数字。模型的输出宽度W＝5。图3中步骤S2中的K取2。

在步骤S1中，集束搜索算法会针对待识别图像的划分区域，从左到右遍历每一个位置w，将字表中的字符与前w个区域的文本识别结果组合成新的字符串组。假设当前w＝3，则前3个区域对应的字符串，也就是当前已识别的部分区域对应的K个字符串为“1_”和“10”。将这两个字符串与字表中的三个字符“_”、“0”、“1”组合得到新的字符串：“1__”、“1_0”、“1_1”、“10_”、“100”、“101”。再对这六个字符串进行规范化处理。规范化处理包括去重和归纳。

其中，“去重”包括在组合串组中的两个相邻的字符是相同字符的情况下，去掉两个相邻的字符中的一个字符。由于划分的区域多于待识别图像中包含的字符个数，因此待识别图像中的每个字符可能在图像中占据了多个区域的位置。在对所述多个区域顺序进行文本识别的过程中，可能一个字符会在对应的多个区域中多次被识别到，因此在规范化处理过程中会将重复识别的字符去掉，只保留其中的一个。例如，经过“去重”处理，上述六个字符串中的“1__”变成了“1_”，“100”变成了“10”。

“归纳”包括去除组合串组中处于非末尾位置上的空字符。非末尾位置上的空字符可能在待识别图像中对应于空白区域，属于没有意义的识别结果，因此将其去除。另外，去除处于非末尾位置上的空字符也是去掉冗余，可以使存储形式变得简单。例如，经过“归纳”处理，上述六个字符串中的“1_0”变成了“10”，“1_1”变成了“11”。

例如，经过以上“去重”和“归纳”处理，得到新的五个字符串组“1_”、“10”、“11”、“10_”、“101”。

参见图1至图3，在步骤S2中，每一个字符串组都会有一个对应的概率，为了减少计算消耗，算法执行过程中只保留概率最高的K个字符串，舍弃掉其余的概率较低的字符串。因此需要根据概率对S1得到的字符串组排序，选取前K个排序在前的字符串组。在上述示例中，假设上述五个字符串中“10”和“10_”概率最高，则经过步骤S2得到选取的新的字符串组[“10”,“10_”]。

计算过滤后的字符串组的末尾字符的单字符置信度。

参见图1至图3，在步骤S3中，由于空字符是没有意义的，只需要非空字符的单字符置信度，所以在选取的新的字符串组中，只需要考虑末尾位置为非空字符的字符串组。在上述示例中，在选取的新的字符串组[“10”,“10_”]中，不需要考虑字符串组“10_”，只需要考虑字符串组“10”。将字符串“10_”从选取的字符串组中过滤掉，只需要计算过滤后的字符串组“10”的末尾字符的单字符置信度。

参见图1至图3，在步骤S3中，“10”字符串的组成可分为三种情况：1)“10”加上“0”；2)“1_”加上“0”；3)“1”加上“0”。其中，第一种情况是由于进行了“去重”处理，将“10”加上“0”变成了“10”。第二种情况是由于进行了“归纳”处理，将“1_”加上“0”变成了“10”。

假设当前位置上“0”的概率为p2，即p2表示末尾字符的概率，对于后两种情况，直接使用p2作为单字符置信度即可。对于第一种情况，也就是在没有经过“去重”处理之前末尾字符与末尾字符的前一个字符是相同字符的情况下，假设在上一次循环中计算出的“10”中“0”的单字符置信度为p1，即p1表示末尾字符的前一个字符的概率，则本次循环中新得到的“10”中“0”的单字符置信度p＝1-(1-p1)×(1-p2)。显然该置信度p大于p1且p大于p2，表示当相邻位置出现同一个字符的时候，该字符的概率应当大于只有一个位置出现该字符的概率，符合客观规律。由于在两个相邻位置中都识别到包含字符“0”，则与只有一个位置出现该字符的情况相比，该单字符置信度应该更大。在两个相邻位置中的任一个位置中识别到字符“0”，都可以增加该单字符置信度的置信度。上述单字符置信度公式中置信度p的计算过程利用了在两个相邻位置中的任一位置识别到该单字符的概率，且相邻位置出现同一个字符的综合概率大于只有一个位置出现该字符的单一概率。

在一种实施方式中，上述方法还包括：

参见图1至图3，在对待识别图像的多个区域顺序进行文本识别的过程中，对文本识别模型的输出的识别结果从左到右遍历，每次遍历均重复执行S1、S2、S3三个步骤，最终可得到集束搜索的解码结果以及每个字符串中每个字符的单字符置信度。单字符置信度可以很好地被用来衡量每个字符自身的概率，进而有效辅助后续算法对集束搜索解码结果的利用。

例如，在拍照批改算法中，仍使用“尽可能地将题目判为正确”的默认规则。在拍照判题的应用场景中，例如一道题的答案用户写的是“19+5＝24”。假设集束搜索给出了两个可能的结果“19+5＝34”和“19+5＝24”。假如“3”的置信度为0.6，“2”的置信度为0.4，那么算法就可以相信“19+5＝24”这样一个答案。但如果“3”的置信度为0.99，“2”的置信度为“0.01”，那显然算法就会舍弃“19+5＝24”这个式子，认为“19+5＝34”就是用户实际写的式子。

在一个示例中，差别程度的预定阈值可设置为两个置信度的比值。两个单字符置信度相等的情况下，两者比值为1。若两个单字符置信度的比值远大于1或者远小于1，则说明两者相差悬殊。因此，可将差别程度的预定阈值设置为：两个置信度的比值范围的上限和下限。

在另一个示例中，差别程度的预定阈值可设置为两个置信度的差值。两个单字符置信度的差值的绝对值较大，则说明两者相差悬殊。因此，可设置两个置信度的差值的绝对值大于预定阈值的情况下，将两个单字符置信度中较小的一个单字符置信度对应的文本识别结果筛选掉。

本申请实施例定义了集束搜索结果中单字符置信度及其计算方法。该单字符置信度为集束搜索结果提供了一个很好的量化指标，可以有效地用来筛选集束搜索的结果，从而最终得到更准确的文本识别结果。在拍照判题项目中的实验发现，由于单字符置信度的引入可将口算项目的重要指标“页面全对率”从75％提升至85％。其中，页面全对率是拍照判题项目中的重要指标，表示整个拍照页面中所有题目均被算法批改正确的概率。例如100张图像中有80张图像里的所有题目均被批改正确，则页面全对率为80％。

另外，本申请提出的单字符置信度计算步骤可与集束搜索算法解码同步进行，无需耗费额外的计算资源即可计算得到单字符置信度，可在不占用系统资源的情况下提高的系统的识别精度。

图4为根据本申请实施例的文本识别装置的结构示意图。如图4所示，该装置可以包括：

识别单元112，用于对待识别图像中的部分区域进行文本识别，得到部分区域对应的字符串；

第一计算单元114，用于将字符串分别与字表中的每个字符组合成字符串组，并计算各个字符串组的概率；

排序单元116，用于根据概率对各个字符串组进行排序，选取排序在前的预定个数的字符串组；

第二计算单元118，用于计算选取的字符串组的末尾字符的单字符置信度，单字符置信度用于对待识别图像的文本识别结果进行筛选。

图5为根据本申请实施例的文本识别装置的第一计算单元的结构示意图。如图5所示，在一种实施方式中，第一计算单元114包括：

组合子单元1141，用于将字符串分别与字表中的每个字符组合，得到组合串组；

处理子单元1142，用于对组合串组进行规范化处理，得到字符串组。

在一种实施方式中，处理子单元1142用于：

去除组合串组中处于非末尾位置上的空字符；

在一种实施方式中，第二计算单元118还用于：

计算过滤后的字符串组的末尾字符的单字符置信度。

在一种实施方式中，第二计算单元118用于：

图6为根据本申请另一实施例的文本识别装置的结构示意图。如图6所示，在一种实施方式中，上述装置还包括：

划分单元105，用于将待识别图像划分成多个区域；将待识别图像的第一个区域到当前识别区域组成的连续区域，构成与当前识别区域对应的部分区域；

遍历单元110，用于对于部分区域对应的字符串，执行识别单元112、第一计算单元114、排序单元116和第二计算单元118所执行的功能，得到每个部分区域对应的单字符置信度。

在一种实施方式中，上述装置还包括筛选单元120，用于：

在一种实施方式中，筛选单元120用于：

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图7为用来实现本申请实施例的电子设备的框图。如图7所示，该电子设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的文本识别方法。存储器910和处理器920的数量可以为一个或多个。

该电子设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本识别方法，其特征在于，包括：

识别步骤，对待识别图像中的部分区域进行文本识别，得到所述部分区域对应的字符串；

第一计算步骤，将所述字符串分别与字表中的每个字符组合成字符串组，并计算各个所述字符串组的概率；

排序步骤，根据概率对各个所述字符串组进行排序，选取排序在前的预定个数的字符串组；

第二计算步骤，计算选取的字符串组的末尾字符的单字符置信度，所述单字符置信度用于对所述待识别图像的文本识别结果进行筛选。

2.根据权利要求1所述的方法，其特征在于，将所述字符串分别与字表中的每个字符组合成字符串组，包括：

将所述字符串分别与字表中的每个字符组合，得到组合串组；

对所述组合串组进行规范化处理，得到所述字符串组。

3.根据权利要求2所述的方法，其特征在于，对所述组合串组进行规范化处理，得到所述字符串组，包括采用以下方式中的至少一种对所述组合串组进行规范化处理：

去除所述组合串组中处于非末尾位置上的空字符；

在所述组合串组中的两个相邻的字符是相同字符的情况下，去掉所述两个相邻的字符中的一个字符。

4.根据权利要求1所述的方法，其特征在于，计算选取的字符串组的末尾字符的单字符置信度，包括：

从所述选取的字符串组中，将末尾字符为空字符的字符串组过滤掉；

计算过滤后的字符串组的末尾字符的单字符置信度。

5.根据权利要求1所述的方法，其特征在于，计算选取的字符串组的末尾字符的单字符置信度，包括：

在所述末尾字符与所述末尾字符的前一个字符是相同字符的情况下，利用以下单字符置信度公式计算所述单字符置信度；

所述单字符置信度公式为：p＝1-(1-p1)×(1-p2)，其中，p表示所述单字符置信度，p2表示所述末尾字符的概率，p1表示所述末尾字符的前一个字符的概率。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述待识别图像划分成多个区域；

在每次执行所述识别步骤之前，将所述待识别图像的第一个区域到当前识别区域组成的连续区域，构成与所述当前识别区域对应的所述部分区域；

在每次执行所述识别步骤之后，对于所述部分区域对应的字符串，执行所述第一计算步骤、所述排序步骤和所述第二计算步骤，得到每个所述部分区域对应的单字符置信度。

7.根据权利要求1至6中任一项所述的方法，其特征在于，还包括：

根据每个所述部分区域对应的单字符置信度，对所述待识别图像的文本识别结果进行筛选。

8.根据权利要求7所述的方法，其特征在于，根据每个所述部分区域对应的单字符置信度，对所述待识别图像的文本识别结果进行筛选，包括：

计算每个所述部分区域对应的任意两个单字符置信度之间的差别程度；

在所述差别程度大于预定阈值的情况下，从所述待识别图像的文本识别结果中，将两个所述单字符置信度中较小的一个单字符置信度对应的文本识别结果筛选掉。

9.一种文本识别装置，其特征在于，包括：

识别单元，用于对待识别图像中的部分区域进行文本识别，得到所述部分区域对应的字符串；

第一计算单元，用于将所述字符串分别与字表中的每个字符组合成字符串组，并计算各个所述字符串组的概率；

排序单元，用于根据概率对各个所述字符串组进行排序，选取排序在前的预定个数的字符串组；

第二计算单元，用于计算选取的字符串组的末尾字符的单字符置信度，所述单字符置信度用于对所述待识别图像的文本识别结果进行筛选。

10.根据权利要求9所述的装置，其特征在于，所述第一计算单元包括：

组合子单元，用于将所述字符串分别与字表中的每个字符组合，得到组合串组；

处理子单元，用于对所述组合串组进行规范化处理，得到所述字符串组。

11.根据权利要求10所述的装置，其特征在于，所述处理子单元用于：

去除所述组合串组中处于非末尾位置上的空字符；

12.根据权利要求9所述的装置，其特征在于，所述第二计算单元还用于：

计算过滤后的字符串组的末尾字符的单字符置信度。

13.根据权利要求9所述的装置，其特征在于，所述第二计算单元用于：

14.根据权利要求9所述的装置，其特征在于，所述装置还包括：

划分单元，用于将所述待识别图像划分成多个区域；将所述待识别图像的第一个区域到当前识别区域组成的连续区域，构成与所述当前识别区域对应的所述部分区域；

遍历单元，用于对于所述部分区域对应的字符串，执行所述第一计算单元、所述排序单元和所述第二计算单元所执行的功能，得到每个所述部分区域对应的单字符置信度。

15.根据权利要求9至14中任一项所述的装置，其特征在于，所述装置还包括筛选单元，用于：

16.根据权利要求15所述的装置，其特征在于，所述筛选单元用于：

17.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的方法。