CN111126394A

CN111126394A - 文字识别方法、阅读辅助设备、电路和介质

Info

Publication number: CN111126394A
Application number: CN201911355337.3A
Authority: CN
Inventors: 李林峰; 蔡海蛟; 冯歆鹏; 周骥
Original assignee: NextVPU Shanghai Co Ltd
Current assignee: NextVPU Shanghai Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08

Abstract

提供一种文字识别方法、阅读辅助设备、电路和介质。所述文字识别方法包括：获取包括待识别对象的初始图像，所述待识别对象包括文本区域；在所述初始图像中确定一前景区域，所述前景区域至少包括所述待识别对象；对所述初始图像进行抠图处理，得到包含所述前景区域的目标图像；以及对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别。

Description

文字识别方法、阅读辅助设备、电路和介质

技术领域

本公开涉及数据处理技术领域，特别涉及一种文字识别方法、阅读辅助设备、电路和介质。

背景技术

与文字相关的数据处理可以包括对于文字的检测和识别。尽管当前与文字相关的数据处理技术广泛应用于各个领域中，但文字检测的准确性仍待提高。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

根据本公开的一方面，提供一种文字识别方法，包括：获取包括待识别对象的初始图像，所述待识别对象包括文本区域；在所述初始图像中确定一前景区域，所述前景区域至少包括所述待识别对象；对所述初始图像进行抠图处理，得到包含所述前景区域的目标图像；以及对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别。

根据本公开的另一方面，提供一种电子电路，包括：被配置为执行上述的方法的步骤的电路。

根据本公开的另一方面，还提供一种阅读辅助设备，包括：摄像机，被配置为获取包括待识别对象的初始图像，所述待识别对象包括文本区域；上述的电子电路；被配置为按照段落划分结果而将逐个段落中的文字数据转换成声音数据的电路，以及被配置为输出所述声音数据的电路。

根据本公开的另一方面，还提供一种电子设备，包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述的方法。

根据本公开的另一方面，还提供一种存储程序的非暂态计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行上述的方法。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1是示出根据本公开示例性实施例的文字识别方法的流程图；

图2是示出根据本公开示例性实施例的获取的初始图像的示意图；

图3是示出根据本公开示例性实施例的得到的目标图像的示意图；

图4是示出根据本公开示例性实施例的对获取的初始图像进行抠图处理的流程图；

图5是示出根据本公开示例性实施例的单步多框检测神经网络模型的检测原理示意图；

图6是示出根据本公开示例性实施例的对目标图像中的前景区域中待识别对象的文字区域进行文字识别的部分流程图；

图7是示出根据本公开示例性实施例的前景区域为包围待识别对象的最小矩形框中的区域的示意图；

图8是示出根据本公开示例性实施例检测的文本行的示意图；

图9是示出根据本公开示例性实施例检测的两个文本行的重叠率的计算的示意图；

图10是示出根据本公开示例性实施例的文字识别方法的流程图；

图11是示出根据本公开示例性实施例的文字识别方法的流程图；

图12和图13是示出根据本公开示例性实施例的得到的目标图像中未包括完整的待识别对象的示意图；

图14是示出根据本公开示例性实施例的文字识别方法的流程图；

图15是示出根据本公开示例性实施例的前景区域的面积与初始图像的面积的比值小于预设的第四阈值的示意图；

图16是示出根据本公开示例性实施例的文字识别方法的流程图；

图17-图19是示出根据本公开示例性实施例的对目标图像中的前景区域中待识别对象的文字区域进行文字进行识别的过程示意图；

图20是示出根据本公开的示例性实施例的电子设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

诸如书籍或杂志之类的读物通常会有一定的排版，例如内容会分成不同的段落(例如包括上下的分段和左右的分栏等)。阅读这些读物时，人们通过视觉捕获视野中的图像，通过大脑来对图像中的文字进行段落划分。然而，如果是由机器来“阅读”这些读物，则不仅需要对图像中的文字进行文字识别，还要对这些文字进行段落划分，从而能够以正确的段落次序“阅读”读物中的文字。例如在将纸质书转换成电子书的应用中，或者在将图像中的文字转换成声音信号并输出该声音信号的应用中，可能会用到这种段落划分。在本公开中，“段落划分”是指将图像中的文字划分为成不同段落。上下的段落划分也可称为分段，而左右的段落划分也可称为分栏。

在本公开中，文本行是指相邻文字间距小于阈值间距的文字的序列，即连续的一行文字。相邻文字间距指的是相邻文字的对应位置的坐标之间的距离，例如相邻文字左上角坐标之间、右下角坐标之间或质心坐标之间的距离等。如果相邻文字间距不大于所述阈值间距，则可认为所述相邻文字连续，从而将其划分到同一文本行中。如果相邻文字间距大于所述阈值间距，则可认为所述相邻文字不连续(例如可能分别属于不同的段落或分别属于左右两栏)，从而将其划分到不同的文本行中。所述阈值间距可以根据文字大小来设置，例如：字体大小大于四号(如三号、二号)的相邻文字设置的阈值间距大于字体大小为四号以下(如小四、五号)的相邻文字设置的阈值间距。图8是示出根据本公开示例性实施例检测的文本行的示意图，其中示出了图像中的文本行TL1～TL6。

在本公开中，对于文本行的倾斜角度是指文本行相对于文本行的图像的一条边(为了便于理解和描述，将该边定义为水平边，所述图像的与该边相邻的另一条边定义为垂直边)的角度。“文本行水平”是指文本行基本与所述图像的水平边平行(例如，所述角度小于30度)。

在本公开中，阈值可以是各种参数的绝对值，也可以是比值(例如，某一绝对值的倍数或若干分之一)。阈值可以是预先设定的，也可以是动态调整的。

图像处理的目的可包括对图像中某一对象或一部分对象的文本区域进行文字识别。如果对整幅图像都进行特征提取，数据处理量非常庞大。

基于以上相关技术，本公开在对图像进行处理之前，首先对图像进行抠图处理，获得包含前景区域的目标图像，待识别对象位于目标图像的前景区域中。然后，对目标图像中的前景区域中待识别对象的文本区域进行文字识别。本公开的技术方案通过抠图处理使得待识别对象位于目标图像中的前景区域中，使得对待识别对象的文本区域进行文字识别时不会受到除前景区域以外的背景的影响，克服了复杂背景对识别准确性的影响，提高识别的准确性。

以下将结合附图对本公开的文字识别方法进行进一步描述。

图1是示出根据本公开示例性实施例的文字识别方法的流程图。如图1所示，所述文字识别方法包括：步骤S101、获取包括待识别对象的初始图像，所述待识别对象包括文本区域；步骤S102、在所述初始图像中确定一前景区域，所述前景区域至少包括所述待识别对象；步骤S103、对所述初始图像进行抠图处理，得到包含所述前景区域的目标图像，以及步骤S103、对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别。

步骤S101中，根据一些实施例，所述初始图像可以是通过摄像机获取的电子图像数据。所述摄像机可以是独立装置(例如照相机、视频摄像机、摄像头等)，也可以包括在各类电子设备(例如移动电话、计算机、个人数字助理、阅读辅助设备、平板电脑、阅读辅助设备、可穿戴设备等)中。

根据一些实施例，摄像机可以设置于用户的可穿戴设备或眼镜等设备上，从而所述初始图像可以是由该摄像机拍摄的、用户手中所握持的待识别对象的图像。因而，所述待识别对象可包含文字(包括各种国家的文字、数字、字符、标点符号等)、图片等内容。所述待识别对象例如可以为：身份证、名片、护照、驾照、读物、平板电脑或移动电话等。所述文本区域对应于文字所在的区域。根据一些实施例，所述初始图像也可以是经过了一些预处理的图像，所述预处理例如可以包括但不限于灰度处理、模糊去除等等。

图2是示出根据本公开示例性实施例的获取的初始图像的示意图。如图2所示，初始图像100中的待识别对象101为身份证，待识别对象101的拍摄背景包括文字。

根据相关技术，在对图2中待识别对象101的文字区域进行文字识别的同时，还会对拍摄背景中的文字也进行识别，影响对待识别对象101的文本区域进行文字识别的准确性，降低识别效率。

根据一些实施例，可以修改所述初始图像中除所述前景区域以外的区域的像素值，得到包含前景区域的所述目标图像。

根据一些实施例，可以修改所述初始图像中除所述前景区域以外的区域的像素值以获得背景区域，得到包含前景区域和背景区域的目标图像。所述初始图像中除所述前景区域以外的区域的像素值例如可以被修改为同一值以获得所述背景区域。图3中示出了将图2中的初始图像中除所述前景区域以外的区域的像素值修改为位于0～255之间的灰色像素值，获得背景区域20，从而得到包含前景区域10的目标图像200。还可以将所述初始图像中除所述前景区域以外的区域的像素值修改为“0”或“255”，以获得全黑或全白的背景区域。还可以通过对所述初始图像中除所述前景区域以外的区域进行透明化或模糊化等处理以获得所述背景区域。由此，通过抠图处理获得的目标图像不仅包括前景区域，还包括除前景区域以外的背景区域。从而，通过抠图处理获得的目标图像能够具有与抠图处理之前的初始图像相同的尺寸。换言之，所述目标图像保留了在抠图处理之前的初始图像中除前景区域以外的区域，使得目标图像中的所述前景区域中待识别对象的位置参数与在抠图处理之前的初始图像中待识别对象的位置参数相同。因此，在对目标图像中的前景区域中所述待识别对象的文本区域进行文字识别(例如：可包括获取文本行的坐标信息)时，不需要重新获取和存储所述目标图像中所述待识别对象中的文字的位置参数。从而能够减少对待识别对象进行文字识别的计算量，提高文字识别的效率。

需要说明的是，图2和图3中示意的待识别对象包括身份证，仅是举例说明，便于理解和描述，并不作为一种限定。本公开的待识别对象还可以包括名片、护照、驾照、读物、平板电脑或移动电话等其它包括文本区域的任何对象。

根据另一些实施例，还可以直接将前景区域从初始图像中提取出来，得到仅包含前景区域的目标图像，也能够使得对待识别对象的文本区域进行文字识别时不会受到除前景区域以外的背景的影响，克服复杂背景对识别准确性的影响，提高识别的准确性。

根据一些实施例，如图4所示，步骤S102包括：步骤S1021、获取能够包围所述初始图像中的所述待识别对象的边界框；以及步骤S1022、将所述边界框映射到所述初始图像中以获得所述前景区域，所述前景区域为所述初始图像中所述边界框中的区域。由于所述边界框映射到所述初始图像中能够包围所述待识别对象，从而能够实现得到的目标图像中的前景区域包括待识别对象。根据一些实施例，所述初始图像中除所述前景区域以外的区域的像素值可以被修改为同一值以获得所述背景区域。像素值的具体修改方式可以已在上述内容中描述，在此不再详述。

基于边界框对所述初始图像进行抠图处理的方法并不局限于上述一种，例如：还可以根据边界框的各顶点坐标在初始图像中获取对应坐标的目标像素，所述多个目标像素所确定的框形区域即为前景区域，修改所述初始图像中除所述前景区域以外的区域的像素值以获得背景区域，得到包含前景区域的目标图像。

根据一些实施例，能够包围所述初始图像中的所述待识别对象的边界框可以由用户标记，或采用其它可根据待识别对象的形状来获取边界框的方式获得，只要能够实现所述边界框能够包围所述初始图像中的所述待识别对象即可。例如：可以检测待识别对象的边界特征，然后根据所述边界特征确定包围待识别对象的最小矩形框为所述边界框，或将包围待识别对象的最小矩形框向上、下、左和/或右膨胀一定的倍数后得到所述边界框。

图3中示意的待识别对象101的各顶点位于边界框102中的前景区域10中。所述边界框还可以为包围待识别对象的最小矩形框。根据一些实施例，图3示意的边界框102可以由包围待识别对象的最小矩形向上、下、左和/或右膨胀一定的倍数后获得。

图3中示意的前景区域10为矩形区域。可以理解的是，所述前景区域还可以为圆形、多边形、椭圆形等规则图形区域，或不规则的图形区域。上述形状的前景区域的获取方式与矩形区域的前景区域的获取方式类似，在此不再详述。

根据一些实施例，可以通过将包括待识别对象的初始图像输入单步多框检测(英文全名为Single Shot Multi-Box Detector，简称为“SSD”)神经网络模型，来获取能够包围所述初始图像中的所述待识别对象的边界框。相应地，步骤S1021中获取能够包围所述初始图像中的所述待识别对象的边界框可以包括：将所述初始图像输入单步多框检测神经网络模型(SSD神经网络模型)，输出能够包围所述初始图像中的所述待识别对象的边界框。由于SSD神经网络能够对多个不同尺度的特征图进行检测，错误率低。而且只需要一步即可完成对输入图像中的对象进行分类和位置检测，检测速度快。

下面对SSD神经网络的检测原理和训练过程进行描述。

如图5所示，SSD神经网络的结构建立在VGG-16的基础上，VGG-16是一种经典的卷积神经网络结构，可以提供高质量的图像分类和迁移学习来改善输出结果。SSD神经网络在VGG-16的基础上进行了如下修改：取消全连接层，替换为一系列辅助卷积层(Conv6～Conv11)。通过使用辅助卷积层，并逐步减小每个辅助卷积层的尺寸(像素数)，可以提取图像多个尺度的特征图。不同特征图设置不同尺度的预检测框，同一特征图设置多个不同长宽比的预检测框，采用卷积对不同的特征图直接进行检测，输出预测的边界框。输出的预测的边界框包括其类别置信度和位置参数。大尺度(即大尺寸)特征图可以用来检测小物体，而小尺度特征图用来检测大物体。因此，SSD神经网络只需要一步即可完成分类和位置检测，检测速度快、错误率低。其中，类别置信度和边界框位置各采用一次卷积来检测。下面以一个示例性实施例来说明SSD神经网络的检测原理：假设一特征图所采用的预检测框的数目为n，特征图中对象的类别数为c，那么类别置信度需要数量为n×c的卷积核来检测，而边界框的位置(可以由边界框的中心坐标、宽和高四个参数表示)需要数量为n×4的卷积核来检测。VGG-16的卷积层Conv4输出的特征图可以作为用于检测的第一个特征图。新增的辅助卷积层中可以提取Conv7，Conv8，Conv9，Conv10，Conv11输出的特征图作为检测所用的特征图，加上Conv4，共提取了6个特征图，其大小分别是38×38、19×19、10×10、5×5、3×3、1×1。由于每个预检测框都会预测一个边界框，SSD神经网络一共可以预测(即输出)38×38×(4)+19×19×(6)+10×10×(6)+5×5×(6)+3×3×(4)+1×1×(4)＝8732个边界框，其中，括号里的数字代表该特征图设置的预检测框的数目。然后，通过检测器300对预测的边界框进行分类和回归。最后通过非极大值抑制(英文全称为Non-maximum suppression，简称为NMS)算法过滤掉非极大值，输出每一对象对应的边界框，包括其类别(类别置信度最大)和位置参数。

根据一些实施例，所述边界框可以为矩形框。

根据一些实施例，SSD神经网络模型输出的边界框可以包括边界框的特征点(可以为边界框的中心或顶点等)位置、宽和高。当然，所述边界框也可以包括其它能够表示位置信息的参数组合，在此不作限定。在抠图处理过程中，可以根据具体的需求来选择使用边界框的哪类位置参数。

根据一些实施例，所述单步多框检测神经网络模型的训练过程可以包括：获取包括所述待识别对象的样本图像，并在所述样本图像中标记包围所述待识别对象的目标框；将所述样本图像输入至单步多框检测神经网络，输出包括类别为所述待识别对象的边界框；利用损失函数计算所述边界框和对应的目标框之间的损失值；根据所述损失值调整所述单步多框检测神经网络的参数。训练的目的是调整SSD神经网络的参数使得边界框的位置逼近目标框，同时提高类别置信度。

根据一些实施例，所述损失函数可以为边界框的类别置信度误差和边界框位置误差的加权和。在训练过程中可以通过梯度下降法以及反向传播机制不断减少所述损失值，使得边界框的位置逼近目标框，同时提高类别置信度。通过多次优化，不断增强网络模型检测对象的效果，最终得到一个最优的对象检测模型。

根据一些实施例，所述目标框可以为包围所述待识别对象的最小矩形框。因此，所述边界框也相应为矩形框。

根据一些实施例，SSD神经网络模型的训练过程中采用的样本图像集例如可以包括在不同拍摄背景下调整摄像机和待识别对象之间的相对距离获取的包括待识别对象的多个样本图像，以及在不同拍摄背景下调整摄像机和待识别对象之间的相对角度获取的包括待识别对象的多个样本图像。

本公开的上述技术方案将包括待识别对象的初始图像输入SSD神经网络模型，能够快速、准确输出能够包围待识别对象的边界框。然后基于所述边界框对初始图像进行抠图处理，得到包含前景区域的目标图像，实现待识别对象位于所述目标图像中的前景区域中。

在得到包含前景区域的目标图像后，执行步骤S103，对所述目标图像中的前景区域中的待识别对象的文本区域进行文字识别。

根据一些实施例，如图6所示，步骤S104之前，还可以包括：步骤S1031、检测所述前景区域中的文本区域的文本行；步骤S1032、获取所述文本行相对于所述目标图像的一条边的角度(即倾斜角度)；以及步骤S1033、如果所述角度不位于预设的范围内，则将所述文本行作为冗余文本行并去除所述冗余文本行。通过去除所述目标图像中的前景区域中倾斜角度较大的冗余文本行，能够过滤掉所述前景区域中除待识别对象的文本区域以外的文本行，从而能够提高对待识别对象的文本区域进行文字识别的效率和准确性。

所述预设的范围例如可以为[-30°，30°]。

根据一些实施例，可以通过以下方法来获取文本行的倾斜角度：基于Hough变换的方法、基于交叉相关性的方法、基于投影的方法、基于Fourier变换的方法和K-最近邻簇方法。

根据一些实施例，所述前景区域可以为能够包围所述初始图像中的所述待识别对象的最小矩形框(边界框)中的区域，则靠近前景区域的中心的文本行为待识别对象的文本区域的文本行。为了便于描述和理解，定义待识别对象的文本区域的文本行为第一文本行。根据一些实施例，所述待识别对象的第一文本行的倾斜角度(相对于目标图像的水平边的角度)位于预设的范围(例如[-30°，30°])内。因此，待识别对象101的第一文本行可能与初始图像的水平边不平行，从而使得包围待识别对象101的最小矩形框102中的区域(前景区域10)的面积大于待识别对象101的面积，如图7所示。

因此，图7示出的前景区域10包括除待识别对象101的第一文本行以外的冗余文本行。为了提高对待识别对象的第一文本行的识别效率和准确性，可以去除所述冗余文本行。根据一些实施例，所述前景区域可以为能够包围所述待识别对象的最小矩形框(边界框)中的区域。参见图6所示，步骤S104之前，还可以包括：步骤S1031、检测所述前景区域中的文本区域的文本行；以及步骤S1034、如果所述文本行不与靠近所述前景区域的中心的特定文本行(即一个第一文本行)平行，则将所述文本行作为冗余文本行并去除所述冗余文本行。

根据一些实施例，靠近所述前景区域的中心的特定文本行可以分为以下两种：

第一种特定文本行：所述前景区域的中心落入包含所述特定文本行的最小矩形内；

第二种特定文本行：所述前景区域的中心不落入包含所述特定文本行的最小矩形内。这种情况下，确定最靠近前景区域的中心的一个文本行为所述特定文本行。一种示例性的方法可以为：对于所述前景区域中的多个文本行，计算包含每个文本行的最小矩形的中心与前景区域的中心的距离，距离最小的最小矩形中所包含的文本行即为所述特定文本行。

以上两个实施例分别去除所述目标区域的前景区域中倾斜角度不位于预设的范围内的冗余文本行，以及所述目标区域的不与靠近前景区域的中心的特定文本行平行的冗余文本行。在一个示例性实施例中，如图6所示，可以同时去除所述目标区域的前景区域中倾斜角度不位于预设的范围内的冗余文本行，以及所述目标区域的不与靠近前景区域的中心的特定文本行平行的冗余文本行，以充分去除前景区域中的冗余文本行，提高对前景区域中待识别对象的文字的识别效率和准确性。其中，图6中的步骤S1033和步骤S1034的顺序可以互换，在此不作限定。本公开的文字识别方法还可以仅包括图6中的步骤S1033或步骤S1034。

根据一些实施例，步骤S104还可以包括：获取所述待识别对象的文本区域的文本行的坐标信息；根据所述坐标信息对所述待识别对象的文本区域进行版面分析，以划分段落；以及根据段落划分结果，对所述待识别对象的文本区域进行文字识别。

根据一些实施例，一个文本行的坐标信息可以是包含该文本行的矩形(例如包含该文字行的最小矩形，如图8所示，或者将包含该文本行的最小矩形向上、下、左和/或右膨胀一定倍数的矩形)的坐标信息。文本行的坐标信息例如可以包括所述矩形的四个顶点的坐标信息，所述文本行的坐标信息也包括所述矩形的任一顶点的坐标信息以及该矩形的高度和长度。然而，文本行的坐标信息定义不限于此，只要其能够代表文字行占据的空间位置和尺寸即可。

根据一些实施例，文本行的坐标信息例如可以从其他机器(例如远程服务器或云计算设备)或其他应用(例如第三方算法)获得，但也可以在本地应用中通过文字识别处理来获得。

根据一些实施例，可以根据文本行的坐标信息，根据相邻的两个文本行之间的间距和/或在与文本行平行的方向上的重叠率是否满足预设的规则来进行段落划分，例如：对于不同扫描行：读取当前扫描行，若当前扫描行的文本行与上一扫描行的文本行之间在垂直于文本行的方向上的间距不大于(小于或等于)预设的第一阈值，且当前扫描行的文本行与上一扫描行的文本行之间在与文本行平行的方向上的重叠率大于预设的第二阈值，将这两个文本行划分到同一段落，例如：如图8所示，TL1和TL2划分为同一段落。若当前扫描行的文本行与上一扫描行的文本行之间在垂直于文本行的方向上的间距大于所述第一阈值，将当前扫描行的文本行划分到新的段落，例如：TL2和TL5划分为不同段落。

对于同一扫描行，读取当前扫描行，若位于当前扫描行上的相邻两个文本行在与文本行平行的方向上的间距不大于(小于或等于)预设的第三阈值，将这两个文本行划分为同一段落，例如：TL3和TL5划分为同一段落，TL4和TL6划分为同一段落。根据上面的规则，可以将TL2、TL3、TL4、TL5和TL6划分为同一段落。若位于当前扫描行上的相邻两个文本行之间在与文本行平行的方向上的间距大于预设的第三阈值，将这两个文本行划分为不同段落。

根据一些实施例，相邻的两个文本行之间在与文本行平行的方向上的重叠率可以为：OVR＝max(OVL/L1，OVL/L2)，其中max表示括号中较大的数，OVL表示这两个文本行之间在与文字行平行的方向上重叠的长度(例如文字个数或像素个数)，L1和L2分别是这两个文本行的长度(例如文字个数或像素个数)。图9是示出相邻的两个文本行的重叠率的计算的示意图。在图9的例子中，OVL＝12，L1＝20，L2＝17，因此这两个文字数据序列的重叠率OVR＝max(OVL/L1，OVL/L2)＝12/17。图9中用数字“1”表示文字，可以理解的是，在此并不是限定这两个文本行必须为数字“1”，也不是限定所有文字必须相同。

需要说明的是，以上仅是举例来说明如何根据文本行的坐标信息来对所述待识别对象的文本区域进行版面分析，以划分段落，并不是限定只能通过上述一种方式来对待识别对象的文本区域进行段落划分。还可以根据现有的相关技术来获取待识别对象的文本区域的段落划分结果。

根据一些实施例，根据段落划分结果，可以根据相关技术中的诸如光学文字识别(OCR)技术的文字识别技术对所述待识别对象的文本区域进行文字识别。

根据一些实施例，可以按照段落划分结果而将逐个段落中的文字转换成声音，进行播放，可以适用于视障辅助阅读设备。

为了进一步提高识别效率，根据一些实施例，如图10所示，所述文字识别方法还可以包括：步骤S105、在摄像机执行拍摄之前，检测所述摄像机的预览图像中是否包括所述待识别对象；以及步骤S106、在所述摄像机的预览图像中不包括所述待识别对象的情况下，输出第一提示信息，提示用户调整摄像机和待识别对象之间的相对位置。可以进行迭代，直至在所述摄像机的预览图像中包括所述待识别对象，即所述待识别对象位于所述摄像机的拍摄范围内。然后可以提示执行拍摄。通过预先检测待识别对象是否位于摄像机的拍摄范围内，能够提高识别效率，而且避免对不包括待识别对象的图像进行识别，实现降低功耗。

根据一些实施例，可以采用计算机视觉算法来检测所述摄像机的预览图像中是否包括所述待识别对象，例如：图像分割法、聚类分析法。

根据一些实施例，所述文字识别方法还可以包括：在所述摄像机的预览图像中包括所述待识别对象的情况下，提示执行拍摄以获取包括待识别对象的初始图像。

根据一些实施例，在所述摄像机的预览图像中不包括所述待识别对象的情况下，可以以文字显示或语音播放的形式输出所述第一输出提示信息。所述第一输出提示信息可包括提示用户未检测到对象。

在所述摄像机的预览图像中包括所述待识别对象的情况下，也可以通过文字显示或语音播放的形式提示用户执行拍摄。

根据一些实施例，如图10所示，在获取包括待识别对象的初始图像之前，所述文字识别方法还可以包括：步骤S107、在摄像机执行拍摄之前，通过检测指引物，确定要拍摄的待识别对象。从而可以实现在检测到所述摄像机的预览图像中包括多个所述待识别对象的情况下，通过检测指引物的位置来确定要拍摄的待识别对象，然后可对该待识别对象的文本区域进行文字识别。所述指引物例如可以为用户的手指，可以利用计算机视觉算法来检测手指并确定手指的位置，例如，可以采用来自OpenCV的算法，比如CascadeClassifier函数

(https://docs.opencv.org/3.2.0/d1/de5/classcv_1_1CascadeClassifier.html)，来确定摄像机的预览图像中手指的位置。所述指引物并不局限于为手指，例如还可以为笔。

根据一些实施例，还可以在检测到摄像机的预览图像中包括多个待识别对象的情况下，通过文字显示或语音播放的形式提示用户选择要拍摄的待识别对象。然后用户可以通过指引物来选择要拍摄的待识别对象。

根据一些实施例，如图11所示，所述文字识别方法还可以包括：步骤S201、检测所述前景区域的至少一条边与所述目标图像的相应边是否至少部分重合；步骤S202，在所述前景区域的至少一条边与所述目标图像的相应边至少部分重合的情况下，输出第二提示信息，提示用户调整摄像机与待识别对象之间的相对位置以重新拍摄待包括识别对象的初始图像。在所述前景区域的至少一条边与所述目标图像的相应边至少部分重合的情况下，可以执行步骤S104。需要说明的是，图11中的步骤S105、步骤S106和步骤S107不是该实施例中的文字识别方法所必须包括的步骤。

上述技术方案通过调整摄像机与所述待识别对象之间的相对距离，避免在摄像机与待识别目标之间的相对距离太近的情况下导致无法获取待识别对象的完整图像而影响对待识别对象中文字的识别。

图12和图13示出根据本公开示例性实施例的得到的目标图像的示意图。图12示意了前景区域10的一条边与目标图像200的相应边部分重合，图13示意了前景区域10的两条边与目标图像200的相应边部分重合。图12和图13的情况均会导致无法完整识别待识别对象中的文字。

在摄像机与待识别目标之间的距离太近的情况下，甚至还可能会出现所述前景区域的三条边与目标图像的相应边部分重合，或所述前景区域的至少一条边(以待识别对象为身份证为例，包括一条、两条、三条或四条)与目标图像的相应边完全重合。

无论是以上哪种情况，均可提示用户调整摄像机与所述待识别对象之间的相对距离(具体可以为将待识别对象放远)并重新拍摄待包括识别对象的初始图像。可以进行迭代，直至得到的目标图像中，所述前景区域的所有边均不与目标图像的相应边具有重合部分。

根据一些实施例，所述文字识别方法还可以包括：在所述前景区域的至少一条边与所述目标图像的相应边至少部分重合的情况下，基于所述前景区域的中心与所述目标图像的中心的相对位置，确定所述待识别对象的建议移动方向。其中，所述第二提示信息可以包括提示用户将所述待识别对象放远，以及所述待识别对象的建议移动方向。使得用户能够快速将待识别对象移动至摄像机的拍摄范围内，获取包括完整的待识别对象的初始图像，提高用户体验。

所述第二提示信息中待识别对象的建议移动方向可以为提示用户移动待识别对象的方向，所述建议移动方向可以包括上方、下方、左方、右方、左下方、右下方、左上方、右上方等。例如：在所述前景区域的中心位于目标图像的中心的下方的情况下，输出的第二提示信息中待识别对象的建议移动方向为上方，如图12所示。在所述前景区域的中心位于目标图像的中心的右上方的情况下，输出的第二提示信息中待识别对象的移动方向为左下方，如图13所示。在所述前景区域的中心位于目标图像的中心的左方的情况下，输出的第二提示信息中待识别对象的移动方向为右方。

所述第二提示信息可以以文字显示和/或语音播放的形式提供给用户。

根据一些实施例，在通过抠图处理得到的目标图像中，所述前景区域为边界框中的区域的情况下，具体可以判断所述边界框的至少一条边与目标图像的相应边是否至少部分重合，来判断所述前景区域是否包含完整的待识别对象(待识别对象完全位于前景区域中)。在所述边界框的至少一条边与目标图像的相应边至少部分重合的情况下，输出所述第二提示信息。

根据一些实施例，如图14所示，在执行步骤S104、对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别的之前，所述文字识别方法还可以包括：步骤S301、获取所述前景区域的面积和所述初始图像的面积；步骤S302、判断所述前景区域的面积与所述初始图像的面积的比值是否小于预设的第四阈值；步骤S303、在所述前景区域的面积与所述初始图像的面积的比值小于预设的第四阈值的情况下，输出第三提示信息，提示用户调整摄像机与所述待识别对象之间的相对距离以重新拍摄包括所述待识别对象的初始图像。可以进行迭代，直至得到的目标图像中前景区域的面积与所述初始图像的面积的比值不小于预设的第四阈值。需要说明的是，图14中的步骤S105、步骤S106和步骤S107不是该实施例中的文字识别方法所必须包括的步骤。

上述技术方案通过调整摄像机与所述待识别对象之间的相对距离，能够使得得到的目标图像中前景区域的面积与所述初始图像的面积的比值不小于预设的第四阈值，保证待识别对象的文字较大，提高文字识别的准确性。

图2和图15示出根据本公开示例性实施例的获取的初始图像的示意图，图2和图15中的待识别对象为身份证。图2示意了前景区域的面积与所述初始图像的面积的比值不小于预设的第四阈值的情况下对应的示例性初始图像，图15示意了在摄像机和待识别图像的相对距离较大的情况下拍摄的示例性初始图像，即前景区域的面积与所述初始图像的面积的比值小于预设的第四阈值的情况下对应的示例性初始图像。图2中待识别对象101的文字大小大于图15中待识别对象101的文字大小，较大的文字有利于进一步提高文字识别的准确性。

根据一些实施例，所述预设的第四阈值可以为一比值，例如可为1/4～2/3之间的比值。

所述第三提示信息可以以文字显示和/或语音播放的形式提供给用户，以提示用户调整摄像机与所述待识别对象之间的相对距离。通过语音播放提示信息，可以适用于视障者的使用。

上述技术方案在获取的初始图像中待识别对象较小情况下，重新拍摄以获取包括所述待识别对象的初始图像。可以进行迭代，直至得到的目标图像中前景区域的面积与所述目标图像的面积的比值不小于(大于或等于)预设的第四阈值。然后可以执行步骤S103，对所述前景区域中所述待识别对象的文本区域进行文字识别，提高文字识别的准确性。

根据一些实施例，如图16所示，为了提高文字识别的可靠性，本公开在步骤S104、对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别之前，所述文字识别方法还可以包括：步骤401、获取所述待识别对象的文本区域的文本行相对于所述目标图像的一条边的角度(以下简称为倾斜角度)；步骤402、判断所述角度是否位于预设的范围内；步骤403、在所述角度不位于所述预设的范围内的情况下，输出第四提示信息，提示用户调整摄像机与所述待识别对象之间的相对角度以重新拍摄包括所述待识别对象的初始图像。需要说明的是，图16中的步骤S105、步骤S106和步骤S107不是该实施例中的文字识别方法所必须包括的步骤。

受到算法精度以及拍摄稳定性的影响，本公开中，在文本行的倾斜角度位于所述预设的范围内的情况下，即认为文本行基本水平。所述预设的范围例如可以为[-30°，30°]。可以理解的是，在算法更精细化后，以及拍摄稳定性的提高，可以合理调整上述预设的范围，例如：[-20°，20°]、[-10°，10°]。

根据一些实施例，可以通过以下方法来检测文本行的倾斜角度：基于Hough变换的方法、基于交叉相关性的方法、基于投影的方法、基于Fourier变换的方法和K-最近邻簇方法。

根据一些实施例，可以通过调整待识别对象的角度来调整摄像机与所述待识别对象之间的相对角度，则所述第四提示信息可以但并不局限于包括待识别对象的旋转方向及旋转角度，例如：还可以仅包括旋转方向或旋转角度，还可以包括其它语音提示信息，例如：播放“请调整待识别对象的角度”的语音数据。

所述第四提示信息可以以文字显示和/或语音播放的形式提供给用户，以提示用户调整摄像机与所述待识别对象之间的相对角度。通过语音播放提示信息，可以适用于视障者的使用。

根据一些实施例，所述前景区域可以为包围所述待识别对象的最小矩形框(边界框)中的区域(如图7所示)，则靠近所述前景区域的中心的特定文本行即为待识别对象的文本行。步骤401可以包括：检测所述前景区域中的文本区域的文本行；获取靠近所述前景区域的中心的特定文本行相对于所述目标图像的一条边的角度，即为待识别对象的文本行相对于所述目标图像的一条边的角度。其中，所述特定文本行的获取方式已在上面的内容中描述，在此不再赘述。

在所述目标图像中所述待识别对象的各顶点位于所述前景区域内的情况下(如图3所示)，可以检测所述待识别对象的边界特征，以获取所述待识别对象的中心。然后获取所述前景区域的中心。从而可以基于所述待识别对象的中心和所述前景区域的中心的相对位置，来获取所述待识别对象的文本行。当然，还可以通过其它方式来获取所述待识别对象的文本行，在此不作限定。

上述技术方案，在目标图像中待识别对象的文本行的倾斜角度不位于预设的角度范围情况下，重新拍摄包括所述待识别对象的初始图像。可以进行迭代，直至得到的目标图像中待识别对象的文本行的倾斜角度位于所述预设的角度范围。然后可以执行步骤S103，对所述前景区域中所述待识别对象的文本区域进行文字识别，提高文字识别的准确性。

根据一些实施例，结合图14和图16所示，在步骤S103之前，可以先判断确定目标图像中前景区域的面积与初始图像的面积的比值是否小于所述预设的第四阈值，如果是，提示用户调整摄像机和待识别对象之间的距离，以重新获取包括待识别对象的初始图像，直至得到的前景区域的面积与初始图像的面积的比值不小于所述预设的第四阈值。然后，判断得到的目标图像中待识别对象的文本行的倾斜角度是否位于预设的范围内(如[-30°，30°])，如果否，提示用户调整摄像机和待识别对象的相对角度，重新获取包括待识别对象的初始图像，直至得到的目标图像中待识别对象的文本行的倾斜角度位于预设的范围内。然后，对待识别对象进行的文本区域进行文字识别。通过上述技术方案，能够保证获取待识别对象大小合适、文本倾斜角度较小的初始图像，提高后续文字识别的准确性和可靠性。

根据一些实施例，结合图14和图16所示，还可以先判断得到的目标图像中待识别对象的文本行的倾斜角度是否位于预设的范围内，如果否，提示用户调整摄像机和待识别对象的相对角度，重新获取包括待识别对象的初始图像，直至得到的目标图像中待识别对象的文本行的倾斜角度位于预设的范围内。然后，判断得到的目标图像中前景区域的面积与初始图像的面积的比值是否小于预设的第四阈值，如果是，提示用户调整摄像机和待识别对象之间的距离，重新获取包括待识别对象的初始图像，直至得到的目标图像中前景区域的面积与初始图像的面积的比值不小于所述预设的第四阈值。然后，对待识别对象进行的文本区域进行文字识别。通过所述技术方案，能够保证获取待识别对象大小合适、文本倾斜角度较小的初始图像，提高后续文字识别的准确性和可靠性。

根据一些实施例，上述公开的三个判断过程：判断所述前景区域的至少一条边与所述目标图像的相应边是否至少部分重合(如图11所示)、判断前景区域的面积与初始图像的面积的比值是否小于预设的第四阈值(如图14所示)，以及判断得到的目标图像中待识别对象的文本行的倾斜角度是否位于预设的范围内(如图16所示)，只要任一判断不能够满足上述对应的预设条件，则提示用户重新拍摄获取包括待识别对象的初始图像。上述三个判断过程的执行顺序可以任意，只要当前判断不能够满足上述对应的预设条件，则提示用户重新拍摄获取包括待识别对象的初始图像。根据一些实施例，可以先判断得到的目标图像中前景区域的面积与初始图像的面积的比值是否小于预设的第四阈值，以及判断所述前景区域的至少一条边与所述目标图像的相应边是否至少部分重合。只有上述两个判断同时满足上述对应的预设条件时，才判断得到的目标图像中待识别对象的文本行的倾斜角度是否位于预设的范围内。从而保证能够文字识别的效率以及能够完整识别待识别对象的文字的前提下，再检测文本行是否基本水平，提高判断效率。

下面以图2中获取的包括待识别对象101的初始图像为示例，结合图7、图17-图19所示，来具体说明本公开的技术方案如何实现对初始图像中待识别对象(图中的身份证)的文本区域进行文字识别的具体过程为：

将图2中示意的初始图像输入SSD神经网络模型，输出能够包围所述初始图像中的待识别对象101的边界框；

将边界框102映射到初始图像100中以获取前景区域10，所述前景区域10为所述边界框2中的区域，如图7所示。图7中示意的边界框为包围所述待识别对象101的最小矩形框；

修改所述初始图像中除前景区域10以外的区域的像素值为同一值以获得背景区域20，得到包含前景区域10的目标图像200，如图17所示；

检测前景区域10中的文本区域的文本行，如图18所示；

获取所述文本行相对于目标图像的一条边的角度；

去除前景区域中倾斜角度不位于预设的范围内的冗余文本行12，以及不与靠近前景区域10的中心的特定文本行(即待识别对象101的一个第一文本行11)平行的冗余文本行12，保留待识别对象1的第一文本行11，结合图18和图19所示。需要说明的是，由于图18中背景区域20中的黑色块不影响待识别对象中的文字检测，因此，在图19中黑色块的像素值也示意为与背景区域20的其它区域的像素值为同一值，仅是为了便于示意，不具有其它限定意义；

对图19中的前景区域的文本行进行版面分析，以划分段落；

根据段落划分结果，对所述待识别对象的文本区域进行文字识别；

按照段落划分结果而将逐个段落中的文字数据转换成声音数据的电路；

播放所述声音数据。

至此完成对获取的初始图像中待识别对象的文本区域的文字识别。

根据本公开的另一方面，还提供一种电子电路，包括：被配置为执行上述的方法的步骤的电路。

图20是示出根据本公开的示例性实施例的电子设备的示例的框图。要注意的是，图20所示出的结构仅是一个示例，根据具体的实现方式，本公开的电子设备可以仅包括图20所示出的组成部分中的一种或多个。

电子设备2000例如可以是通用计算机(例如膝上型计算机、平板计算机等等各种计算机)、移动电话、个人数字助理。根据一些实施例，电子设备2000可以是视障辅助设备。

电子设备2000可被配置为拍摄图像，对所拍摄的图像进行处理，并且响应于所述处理所获得的数据而提供声音提示。例如，电子设备2000可被配置为拍摄图像，对该图像进行文字检测和/或识别以获得文字数据，将文字数据转换成声音数据，并且输出声音数据供用户聆听。

根据一些实施方式，所述电子设备2000可以被配置为包括眼镜架或者被配置为能够可拆卸地安装到眼镜架(例如眼镜架的镜框、连接两个镜框的连接件、镜腿或任何其他部分)上，从而能够拍摄到近似包括用户的视野的图像。

根据一些实施方式，所述电子设备2000也可被安装到其它可穿戴设备上，或者与其它可穿戴设备集成为一体。所述可穿戴设备例如可以是：头戴式设备(例如头盔或帽子等)、可佩戴在耳朵上的设备等。根据一些实施例，所述电子设备可被实施为可附接到可穿戴设备上的配件，例如可被实施为可附接到头盔或帽子上的配件等。

根据一些实施方式，所述电子设备2000也可具有其他形式。例如，电子设备2000可以是移动电话、通用计算设备(例如膝上型计算机、平板计算机等)、个人数字助理，等等。电子设备2000也可以具有底座，从而能够被安放在桌面上。

根据一些实施方式，所述电子设备2000作为视障辅助设备可以用于辅助阅读，在这种情况下，所述电子设备2000有时也被称为“电子阅读器”或“阅读辅助设备”。借助于电子设备2000，无法自主阅读的用户(例如视力障碍人士、存在阅读障碍的人士等)可以采用类似阅读姿势的姿势即可实现对常规读物(例如书本、杂志等)的“阅读”。在“阅读”过程中，所述电子设备2000可以拍摄图像，获取包括待识别对象的初始图像。并对所述初始图像进行抠图处理，得到包括前景区域的目标图像，所述前景区域包括待识别对象，然后对所述目标图像中的前景区域中的待识别对象的文本区域的文字进行版面分析、文字检测和文字识别(例如利用光学文字识别OCR方法)，以获得文字数据，克服复杂背景对识别待识别对象中的文字的影响，提高文字识别效率和准确性。然后将文字数据转换成声音数据，并且通过扬声器或耳机等声音输出设备输出所述声音数据供用户聆听。所述电子设备还可以获取能够包围所述初始图像中的待识别对象的边界框，将所述边界框映射到初始图像中，所述前景区域即为所述边界框中的区域，以快速准确的确定包括待识别对象的前景区域。所述电子设备还可以检测获取的目标图像中的前景区域的面积来判断待识别对象足够大，如果待识别对象较小，提示用户调整摄像机与待识别对象的相对距离，使得获取的初始图像中待识别对象足够大，以提高对待识别对象的文字识别的准确率。所述电子设备还可以检测得到的目标图像中前景区域的文本行的倾斜角度是否位于预设的范围内，来判断待识别对象是否基本水平放置，如果待识别对象没有水平放置，提示用户调整摄像机与待识别对象的相对角度，使得得到的目标图像中待识别对象基本水平放置。所述电子设备还可以检测前景区域的至少一条边是否与目标图像的相应边是否至少部分重合，来判断是否获取待识别对象的完整图像，如果存在重合，提示用户调整摄像机与待识别对象的相对位置，来获取包括完整待识别对象的初始图像，以实现对待识别对象的文字区域的所有文字进行识别。所述电子设备还可以去除所述前景区域中的倾斜角度不位于预设的范围内的冗余文本行，以及不与靠近前景区域的中心的特定文本行平行的冗余文本行，提高对待识别对象的文字识别的准确率。

电子设备2000可以包括摄像机2004，用于获取图像。摄像机2004可以包括但不限于摄像头或照相机等，被配置为获取包括待识别对象的初始图像。电子设备2000还可以包括电子电路2100，所述电子电路2100包括被配置为执行如前所述的方法的步骤(例如图3和图6的流程图中所示的方法步骤)的电路。电子设备2100还可以包括文字识别电路2005，所述文字识别电路2005被配置为对所述初始图像中待识别对象的文字区域的文字进行文字检测和/或识别(例如OCR处理)，从而获得文字数据。所述文字识别电路2005例如可以通过专用芯片实现。电子设备2000还可以包括声音转换电路2006，所述声音转换电路2006被配置为将所述文字数据转换成声音数据。所述声音转换电路2006例如可以通过专用芯片实现。电子设备2000还可以包括声音输出电路2007，所述声音输出电路2007被配置为输出所述声音数据。所述声音输出电路2007可以包括但不限于耳机、扬声器、或振动器等，及其相应驱动电路。

根据一些实施方式，所述电子设备2000还可以包括图像处理电路2008，所述图像处理电路2008可以包括被配置为对图像进行各种图像处理的电路。图像处理电路2008例如可以包括但不限于以下中的一个或多个：被配置为对图像进行降噪的电路、被配置为对图像进行去模糊化的电路、被配置为对图像进行几何校正的电路、被配置为对图像进行特征提取的电路、被配置为对图像中的对象进行对象检测和/或识别的电路、被配置为对图像中包含的文字进行文字检测的电路、被配置为从图像中提取文本行的电路、被配置为从图像中提取文字坐标的电路、被配置为从图像中提取对象框的电路、被配置为从图像中提取文本框的电路、被配置为基于图像进行版面分析(例如段落划分)的电路，等等。

根据一些实施方式，电子电路2100还可以包括文字处理电路2009，所述文字处理电路2009可以被配置为基于所提取的与文字有关的信息(例如文字数据、文本框、段落坐标、文本行坐标、文字坐标等)进行各种处理，从而获得诸如段落排序、文字语义分析、版面分析结果等处理结果。

上述的各种电路(例如文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、电子电路2100中的一个或多个可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现。例如，上述的各种电路中的一个或多个可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

根据一些实施方式，电子设备2000还可以包括通信电路2010，所述通信电路2010可以是使得能够与外部设备和/或与网络通信的任何类型的设备或系统，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信设备和/或芯片组，例如蓝牙设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

根据一些实施方式，电子设备2000还可以包括输入设备2011，所述输入设备2011可以是能向电子设备2000输入信息的任何类型的设备，并且可以包括但不限于各种传感器、鼠标、键盘、触摸屏、按钮、控制杆、麦克风和/或遥控器等等。

根据一些实施方式，电子设备2000还可以包括输出设备2012，所述输出设备2012可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、视觉输出终端、振动器和/或打印机等。尽管电子设备2000根据一些实施例用于视障辅助设备，基于视觉的输出设备可以方便用户的家人或维修工作人员等从电子设备2000获得输出信息。

根据一些实施方式，电子设备2000还可以包括处理器2001。所述处理器2001可以是任何类型的处理器，并且可以包括但不限于一个或多个通用处理器和/或一个或多个专用处理器(例如特殊处理芯片)。处理器2001例如可以是但不限于中央处理单元CPU或微处理器MPU等等。电子设备2000还可以包括工作存储器2002，所述工作存储器2002可以存储对处理器2001的工作有用的程序(包括指令)和/或数据(例如图像、文字、声音，以及其他中间数据等)的工作存储器，并且可以包括但不限于随机存取存储器和/或只读存储器设备。电子设备2000还可以包括存储设备2003，所述存储设备2003可以包括任何非暂时性存储设备，非暂时性存储设备可以是非暂时性的并且可以实现数据存储的任何存储设备，并且可以包括但不限于磁盘驱动器、光学存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁介质，光盘或任何其他光学介质、ROM(只读存储器)、RAM(随机存取存储器)、高速缓冲存储器和/或任何其他存储器芯片或盒、和/或计算机可从其读取数据、指令和/或代码的任何其他介质。工作存储器2002和存储设备2003可以被集合地称为“存储器”，并且在有些情况下可以相互兼用。

根据一些实施方式，处理器2001可以对摄像机2004、文字识别电路2005、声音转换电路2006、声音输出电路2007、图像处理电路2008、文字处理电路2009、通信电路2010、电子电路2100以及电子设备2000包括的其他各种装置和电路中的至少一个进行控制和调度。根据一些实施方式，图20中所述的各个组成部分中的至少一些可通过总线2013而相互连接和/或通信。

软件要素(程序)可以位于所述工作存储器2002中，包括但不限于操作系统2002a、一个或多个应用程序2002b、驱动程序和/或其他数据和代码。

根据一些实施方式，用于进行前述的控制和调度的指令可以被包括在操作系统2002a或者一个或多个应用程序2002b中。

根据一些实施方式，执行本公开所述的方法步骤(例如图1、图4、图6、图10和图11、图14和图16的流程图中所示的方法步骤)的指令可以被包括在一个或多个应用程序2002b中，并且上述电子设备2000的各个模块可以通过由处理器2001读取和执行一个或多个应用程序2002b的指令来实现。换言之，电子设备2000可以包括处理器2001以及存储程序的存储器(例如工作存储器2002和/或存储设备2003)，所述程序包括指令，所述指令在由所述处理器2001执行时使所述处理器2001执行如本公开各种实施例所述的方法。

根据一些实施方式，文字识别电路2005、声音转换电路2006、图像处理电路2008、文字处理电路2009、电子电路2100中的至少一个所执行的操作中的一部分或者全部可以由处理器2001读取和执行一个或多个应用程序2002的指令来实现。

软件要素(程序)的指令的可执行代码或源代码可以存储在非暂时性计算机可读存储介质(例如所述存储设备2003)中，并且在执行时可以被存入工作存储器2001中(可能被编译和/或安装)。因此，本公开提供存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备(例如视障辅助设备)的处理器执行时，致使所述电子设备执行如本公开各种实施例所述的方法。根据另一种实施方式，软件要素(程序)的指令的可执行代码或源代码也可以从远程位置下载。

还应该理解，可以根据具体要求而进行各种变型。例如，也可以使用定制硬件，和/或可以用硬件、软件、固件、中间件、微代码，硬件描述语言或其任何组合来实现各个电路、单元、模块或者元件。例如，所公开的方法和设备所包含的电路、单元、模块或者元件中的一些或全部可以通过使用根据本公开的逻辑和算法，用汇编语言或硬件编程语言(诸如VERILOG，VHDL，C++)对硬件(例如，包括现场可编程门阵列(FPGA)和/或可编程逻辑阵列(PLA)的可编程逻辑电路)进行编程来实现。

根据一些实施方式，电子设备2000中的处理器2001可以分布在网络上。例如，可以使用一个处理器执行一些处理，而同时可以由远离该一个处理器的另一个处理器执行其他处理。电子设备2001的其他模块也可以类似地分布。这样，电子设备2001可以被解释为在多个位置执行处理的分布式计算系统。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

以下描述本公开的一些示例性方面。

方面1.一种文字识别方法，包括：

获取包括待识别对象的初始图像，所述待识别对象包括文本区域；

在所述初始图像中确定一前景区域，所述前景区域至少包括所述待识别对象；

对所述初始图像进行抠图处理，得到包含所述前景区域的目标图像；以及

对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别。

方面2.如方面1所述的文字识别方法，其中，对所述初始图像进行抠图处理，得到包含前景区域的目标图像包括：

修改所述初始图像中除所述前景区域以外的区域的像素值，得到包含前景区域的所述目标图像。

方面3.如方面1所述的文字识别方法，其中，在所述初始图像中确定所述前景区域包括：

获取能够包围所述初始图像中的所述待识别对象的边界框；以及

将所述边界框映射到所述初始图像中以获得所述前景区域，所述前景区域为所述初始图像中所述边界框中的区域。

方面4.如方面2或3所述的文字识别方法，其中，所述初始图像中除所述前景区域以外的区域的像素值被修改为同一值。

方面5.如方面3所述的文字识别方法，其中，获取能够包围所述初始图像中的所述待识别对象的边界框包括：

将所述初始图像输入单步多框检测神经网络模型，输出能够包围所述初始图像中的所述待识别对象的边界框。

方面6.如方面5所述的文字识别方法，其中，所述边界框包括边界框的特征点位置、宽和高。

方面7.如方面5所述的文字识别方法，其中，所述单步多框检测神经网络模型的训练过程包括：

获取包括所述待识别对象的样本图像，并在所述样本图像中标记包围所述待识别对象的目标框；

将所述样本图像输入至单步多框检测神经网络，输出包括类别为所述待识别对象的边界框；

利用损失函数计算所述目标框与所述类别为所述待识别对象的边界框之间的损失值；以及

根据所述损失值调整所述单步多框检测神经网络的参数。

方面8.如方面1所述的文字识别方法，其中，对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别之前，还包括：

检测所述前景区域中的文本区域的文本行；

获取所述文本行相对于所述目标图像的一条边的角度；以及

如果所述角度不位于预设的范围内，则将所述文本行作为冗余文本行并去除所述冗余文本行。

方面9.如方面1所述的文字识别方法，其中，对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别之前，还包括：

检测所述前景区域中的文本区域的文本行；以及

如果所述文本行不与靠近所述前景区域的中心的特定文本行平行，则将所述文本行作为冗余文本行并去除所述冗余文本行。

方面10.如方面1所述的文字识别方法，其中，对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别包括：

获取所述待识别对象的文本区域的文本行的坐标信息；

根据所述坐标信息对所述待识别对象的文本区域进行版面分析，以划分段落；以及

根据段落划分结果，对所述待识别对象的文本区域进行文字识别。

方面11.如方面1所述的文字识别方法，其中，所述待识别对象包括身份证、名片、护照、驾照、平板电脑或移动电话。

方面12.如方面1～11中任一项所述的文字识别方法，还包括：

在摄像机执行拍摄之前，检测所述摄像机的预览图像中是否包括所述待识别对象；以及

在所述摄像机的预览图像中不包括所述待识别对象的情况下，输出第一提示信息，提示用户调整摄像机和待识别对象之间的相对位置。

方面13.如方面1～11中任一项所述的文字识别方法，还包括：

在摄像机执行拍摄之前，通过检测指引物来确定要拍摄的待识别对象。

方面14.如方面1～11中任一项所述的文字识别方法，还包括：

检测所述前景区域的至少一条边与所述目标图像的相应边是否至少部分重合；以及

在所述前景区域的至少一条边与所述目标图像的相应边至少部分重合的情况下，输出第二提示信息，提示用户调整摄像机与待识别对象之间的相对位置以重新拍摄待包括识别对象的初始图像。

方面15.如方面14所述的文字识别方法，还包括：

在所述前景区域的至少一条边与所述目标图像的相应边至少部分重合的情况下，基于所述前景区域的中心与所述目标图像的中心的相对位置，来确定所述待识别对象的建议移动方向；

其中，所述第二提示信息包括提示用户将所述待识别对象放远，以及所述待识别对象的建议移动方向。

方面16.如方面1～11中任一项所述的文字识别方法，其中，在对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别之前，所述文字识别方法还包括：

获取所述前景区域的面积和所述初始图像的面积；

判断所述前景区域的面积与所述初始图像的面积的比值是否小于预设的阈值；以及

在所述前景区域的面积与所述初始图像的面积的比值小于预设的阈值的情况下，输出第三提示信息，提示用户调整摄像机与所述待识别对象之间的相对距离以重新拍摄包括所述待识别对象的初始图像。

方面17.如方面1～11中任一项所述的文字识别方法，其中，在对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别之前，所述文字识别方法还包括：

获取所述待识别对象的文本区域的文本行相对于所述目标图像的一条边的角度；

判断所述角度是否位于预设的范围内；以及

在所述角度不位于所述预设的范围内的情况下，输出第四提示信息，提示用户调整摄像机与所述待识别对象之间的相对角度以重新拍摄包括所述待识别对象的初始图像。

方面18.如方面17所述的文字识别方法，其中，所述第四提示信息包括所述待识别对象的旋转方向及旋转角度。

方面19.如方面17所述的文字识别方法，其中，所述预设的范围为[-30°，30°]。

方面20.一种电子电路，包括：

被配置为执行根据方面1-19中任一项所述的方法的步骤的电路。

方面21.一种阅读辅助设备，包括：

摄像机，被配置为获取包括待识别对象的初始图像，所述待识别对象包括文本区域；

如方面20所述的电子电路；

被配置为按照段落划分结果而将逐个段落中的文字数据转换成声音数据的电路，以及

被配置为输出所述声音数据的电路。

方面22.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据方面1-19中任一项所述的方法。

方面23.一种存储程序的非暂态计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据方面1-19中任一项所述的方法。

Claims

1.一种文字识别方法，包括：

2.如权利要求1所述的文字识别方法，其中，对所述初始图像进行抠图处理，得到包含前景区域的目标图像包括：

3.如权利要求1所述的文字识别方法，其中，在所述初始图像中确定所述前景区域包括：

4.如权利要求3所述的文字识别方法，其中，获取能够包围所述初始图像中的所述待识别对象的边界框包括：

5.如权利要求1所述的文字识别方法，其中，对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别之前，还包括：

检测所述前景区域中的文本区域的文本行；

获取所述文本行相对于所述目标图像的一条边的角度；以及

6.如权利要求1所述的文字识别方法，其中，对所述目标图像中的所述前景区域中所述待识别对象的文本区域进行文字识别之前，还包括：

检测所述前景区域中的文本区域的文本行；以及

7.一种电子电路，包括：

被配置为执行根据权利要求1-6中任一项所述的方法的步骤的电路。

8.一种阅读辅助设备，包括：

如权利要求7所述的电子电路；

被配置为输出所述声音数据的电路。

9.一种电子设备，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

10.一种存储程序的非暂态计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据权利要求1-6中任一项所述的方法。