CN110717366A

CN110717366A - 文本信息的识别方法、装置、设备及存储介质

Info

Publication number: CN110717366A
Application number: CN201810770973.1A
Authority: CN
Inventors: 朱丽
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-07-13
Filing date: 2018-07-13
Publication date: 2020-01-21

Abstract

本发明公开了一种文本信息的识别方法、装置、设备及存储介质，属于图像处理领域。本发明中，当定位到文本信息所处的整体区域后，基于深度学习，直接确定每个字符以及每个字符的位置的，从而高效、准确地识别出目标物上的文本信息，而无需从图片中分割出各个字符，从而避免了由于印刷或成像质量，而导致字符分割困难的问题，提高了文本信息的识别率。同时，也无需对各个字符分别进行图像识别，提高了识别文本信息的速度和效率。本发明提供的方法，可以应用在识别集装箱号的场景中，在港口作业的过程中，当抓拍到集装箱图片后，可以自动识别出集装箱图片包含的集装箱号，实现集装箱的自动化管理，避免人工抄录错误，减少人工成本。

Description

文本信息的识别方法、装置、设备及存储介质

技术领域

本发明涉及图像处理领域，特别涉及一种文本信息的识别方法、装置、设备及存储介质。

背景技术

随着图像处理以及计算机视觉技术的发展，可以通过电子设备，识别出图片中目标物上的文本信息，例如从集装箱图片中识别出集装箱上的集装箱号、从快递单图片中识别出快递单上的运单号码、从图书图片中识别出图书上的标题等，以便记录文本信息，从而极大地提高了管理目标物的效率，便于跟踪目标物在运输过程中的状态。

以文本信息为集装箱上的集装箱号为例，在识别集装箱号的过程中，会根据集装箱图片，定位包含集装箱号的区域，对该区域进行字符分割，即将区域分割为多个图像块，每个图像块包含单个字符，例如，将包含“CAI”的区域，分割为包含“C”的图像块、包含“A”的图像块以及包含“I”的图像块。之后，对于多个图像块中的每个图像块，会将该图像块输入至分类器，分类器会将图像块包含的字符作为图像块的类别，输出图像块包含的字符，例如，将包含“A”的图像块输入至分类器后，分类器会输出字符“A”。之后，会将分类器输出的每个字符，按照对应的图像块的顺序进行排列，组合为集装箱号，输出集装箱号。

由于印刷质量以及成像质量等因素的影响，字符分割的过程往往难度较大、准确性差，导致识别文本信息的准确性较差。

发明内容

本发明实施例提供了一种文本信息的识别方法、装置、设备及存储介质，能够解决相关技术中，识别文本信息时需要进行字符分割而导致准确性差的技术问题。所述技术方案如下：

一方面，提供了一种文本信息的识别方法，所述方法包括：

获取目标物图片中的目标区域，所述目标区域包含目标物上的文本信息；

将所述目标区域输入至卷积神经网络中，得到所述文本信息中的至少一个字符以及第一位置信息，所述第一位置信息用于指示每个字符在所述目标区域中的位置；

根据所述第一位置信息，对所述至少一个字符进行排序，得到所述文本信息；

其中，所述卷积神经网络用于识别图片中的字符以及字符在图片中的位置。

可选地，所述根据所述第一位置信息，对所述至少一个字符进行排序，包括：

确定所述目标物上文本信息的排版方向；

根据所述第一位置信息，确定每个字符的位置；

根据所述排版方向，对所述至少一个字符按照位置进行排序。

可选地，所述根据所述排版方向，对所述至少一个字符按照位置进行排序，包括：

当所述排版方向为竖向排版时，对所述至少一个字符，按照位置从上至下的顺序进行排序；或，

当所述排版方向为竖向排版时，对所述至少一个字符，按照位置从下至上的顺序进行排序；或，

当所述排版方向为横向排版时，对所述至少一个字符，按照位置从左至右的顺序进行排序；或，

当所述排版方向为横向排版时，对所述至少一个字符，按照位置从右至左的顺序进行排序。

可选地，所述确定所述目标物上文本信息的排版方向，包括：

根据所述卷积神经网络输出的姿态信息，确定所述目标物图片中目标物的姿态；

根据所述目标物的姿态，确定所述姿态对应的排版方向；

其中，所述卷积神经网络还用于识别图片中目标物的姿态。

可选地，所述得到所述文本信息之前，所述方法还包括：

当所述至少一个字符中包含混淆字符时，确定所述混淆字符对应的正确字符，所述混淆字符是指被所述卷积神经网络误识别的字符；

将所述混淆字符调整为正确字符。

可选地，所述确定所述混淆字符对应的正确字符，包括：

查询字符与字符之间的预设对应关系，得到所述混淆字符对应的正确字符，所述预设对应关系中包括至少一对图像相似而语义不同的字符。

可选地，所述确定所述混淆字符对应的正确字符之前，所述方法还包括：

对于所述至少一个字符中的任一字符，当所述字符的排位以及属性不符合文本信息的排列标准时，确定所述字符为混淆字符；

其中，所述排列标准用于指示文本信息中每个排位上字符的属性。

可选地，所述将所述目标区域输入至卷积神经网络中，得到所述文本信息中的至少一个字符以及第一位置信息，包括：

当所述卷积神经网络的输出层接收到特征图时，将所述特征图划分为多个栅格；

针对所述多个栅格中的任一栅格，确定中心落入所述栅格的字符以及第二位置信息，所述第二位置信息用于指示中心落入所述栅格的字符在所述目标区域中的位置；

将所述多个栅格对应的字符，作为所述文本信息中的至少一个字符；

对所述多个栅格对应的第二位置信息进行组合，得到所述第一位置信息。

可选地，所述确定中心落入所述栅格的字符以及第二位置信息，包括：

确定至少一个边界框的中心点坐标、宽度以及高度，得到所述第二位置信息；

其中，所述至少一个边界框用于标注所述字符的边界。

可选地，所述卷积神经网络通过以下过程训练得到：

根据多个第一样本目标物图片，对第一初始卷积神经网络进行预训练，得到至少一个训练后的卷积层；

根据所述至少一个训练后的卷积层以及多个第二样本目标物图片，对第二初始卷积神经网络进行训练，得到所述卷积神经网络；

其中，每个第一样本目标物图片中标注了字符，每个第二目标物图片中标注了字符以及字符在第二目标物图片中的位置，所述第二初始卷积神经网络包含所述至少一个训练后的卷积层以及初始化的输出层。

可选地，所述获取目标物图片中的目标区域，包括：

确定所述目标物图片中的多个候选边界框；

对每个候选边界框进行特征提取，得到每个候选边界框的特征数据；

根据每个候选边界框的特征数据，确定每个候选边界框的类别，候选边界框的类别包括候选边界框中包含字符以及候选边界框中不包含字符；

根据每个候选边界框的类别，从所述多个候选边界框中选取包含字符的候选边界框，作为目标区域。

可选地，所述获取目标物图片中的目标区域，包括：

对所述目标物图片进行特征提取，得到所述目标物图片的特征图，所述特征图包括多个特征点；

确定每个特征点的类别，特征点的类别包括候选点属于字符以及候选点不属于字符；

根据每个特征点的类别，对所述目标物图片进行图像分割，得到所述目标区域，所述目标区域中每个像素映射的特征点属于字符。

另一方面，提供了一种文本信息的识别装置，所述装置包括：

获取模块，用于获取目标物图片中的目标区域，所述目标区域包含目标物上的文本信息；

识别模块，用于将所述目标区域输入至卷积神经网络中，得到所述文本信息中的至少一个字符以及第一位置信息，所述第一位置信息用于指示每个字符在所述目标区域中的位置；

排序模块，用于根据所述第一位置信息，对所述至少一个字符进行排序，得到所述文本信息；

可选地，所述排序模块，包括：

确定子模块，用于确定所述目标物上文本信息的排版方向；

所述确定子模块，还用于根据所述第一位置信息，确定每个字符的位置；

排序子模块，用于根据所述排版方向，对所述至少一个字符按照位置进行排序。

可选地，所述排序子模块，用于：

可选地，所述确定子模块，用于：

根据所述目标物的姿态，确定所述姿态对应的排版方向；

其中，所述卷积神经网络还用于识别图片中目标物的姿态。

可选地，所述装置还包括：

确定模块，用于当所述至少一个字符中包含混淆字符时，确定所述混淆字符对应的正确字符，所述混淆字符是指被所述卷积神经网络误识别的字符；

调整模块，用于将所述混淆字符调整为正确字符。

可选地，所述确定模块，用于查询字符与字符之间的预设对应关系，得到所述混淆字符对应的正确字符，所述预设对应关系中包括至少一对图像相似而语义不同的字符。

可选地，所述确定模块，用于对于所述至少一个字符中的任一字符，当所述字符的排位以及属性不符合文本信息的排列标准时，确定所述字符为混淆字符；

可选地，所述识别模块，包括：

划分子模块，用于当所述卷积神经网络的输出层接收到特征图时，将所述特征图划分为多个栅格；

确定子模块，用于针对所述多个栅格中的任一栅格，确定中心落入所述栅格的字符以及第二位置信息，所述第二位置信息用于指示中心落入所述栅格的字符在所述目标区域中的位置；

所述确定子模块，还用于将所述多个栅格对应的字符，作为所述文本信息中的至少一个字符；

组合子模块，用于对所述多个栅格对应的第二位置信息进行组合，得到所述第一位置信息。

可选地，所述确定子模块，用于：

其中，所述至少一个边界框用于标注所述字符的边界。

可选地，所述卷积神经网络通过以下过程训练得到：

可选地，所述获取模块，包括：

确定子模块，用于确定所述目标物图片中的多个候选边界框；

特征提取子模块，用于对每个候选边界框进行特征提取，得到每个候选边界框的特征数据；

所述确定子模块，还用于根据每个候选边界框的特征数据，确定每个候选边界框的类别，候选边界框的类别包括候选边界框中包含字符以及候选边界框中不包含字符；

选取子模块，用于根据每个候选边界框的类别，从所述多个候选边界框中选取包含字符的候选边界框，作为目标区域。

可选地，所述获取模块，包括：

特征提取子模块，用于对所述目标物图片进行特征提取，得到所述目标物图片的特征图，所述特征图包括多个特征点；

确定子模块，用于确定每个特征点的类别，特征点的类别包括候选点属于字符以及候选点不属于字符；

分割子模块，用于根据每个特征点的类别，对所述目标物图片进行图像分割，得到所述目标区域，所述目标区域中每个像素映射的特征点属于字符。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现上述文本信息的识别方法所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述文本信息的识别方法所执行的操作。

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例提供的方法、装置、设备以及存储介质，提供了一种定位到文本信息所处的整体区域后，基于深度学习，直接确定每个字符以及每个字符的位置的方式，能够高效、准确地识别出目标物上的文本信息，而无需从图片中分割出各个字符，从而避免了由于印刷或成像质量，而导致字符分割困难的问题，提高了文本信息的识别率。同时，也无需对各个字符分别进行图像识别，提高了识别文本信息的速度和效率。本发明提供的方法，可以应用在识别集装箱号的场景中，在港口作业的过程中，当抓拍到集装箱图片后，可以自动识别出集装箱图片包含的集装箱号，实现集装箱的自动化管理，避免人工抄录错误，减少人工成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种文本信息的识别方法的流程图；

图2是本发明实施例提供的一种文本信息的识别方法的流程图；

图3是本发明实施例提供的一种目标物图片；

图4是本发明实施例提供的一种目标物图片；

图5是本发明实施例提供的一种从目标物图片定位的目标区域的示意图；

图6是本发明实施例提供的一种卷积神经网络的架构示意图；

图7是本发明实施例提供的一种卷积神经网络的字符识别结果的示意图；

图8是本发明实施例提供的一种文本信息的识别方法的流程图；

图9是本发明实施例提供的一种文本信息的识别装置的结构示意图；

图10是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解本发明，以下对卷积神经网络涉及的术语进行介绍：

卷积神经网络的架构：卷积神经网络由N个层构建而成(N为大于1的正整数)，每个层的输出可以作为下一个层的输入，例如第一个层输出的特征图可以作为第二个层输入的特征图，第二个层输出的特征图可以作为第三个层输入的特征图，依次类推。

卷积神经网络的层：从层的位置的角度来说，卷积神经网络的层可以分为输入层、隐藏层和输出层，其中输入层(input layer)是指第一个层，输出层(output layer)是指最后一个层，隐藏层(hidden layer)是指输入层和输出层之间的每个层。从层的运算方式的角度来说，卷积神经网络的层可以分为卷积层、全连接层、池化层、递归层、激活函数层。

卷积层：也称CONV层，用于进行特征提取，具有局部连接和权重共享的特点。卷积层包含多个卷积核，每个卷积核用于对输入的特征图中的部分区域进行卷积处理，输出特征点，多个卷积核输出的特征点会组成二维的图像，称为特征图，是整个卷积层的输出结果。

全连接层：也称FC层或CONN层，具有和上一层的所有节点全部连接的特点。全连接层用于综合提取的特征，全连接层输出的结果为一维的向量。

卷积核(kernel)：也可以称为滤波器(filter)、过滤器、特征检测器、核函数、内核、权重核等。卷积核可以看作一个具有扫描窗口的权重矩阵，权重矩阵包括多个权重(weight)，权重即为卷积核的参数，不同卷积核包含的权重不同，从而能够识别特征图中不同的特征。卷积核的大小(filter size，即权重矩阵的大小)可以根据实际需求确定，其中卷积层中每个卷积核的大小为M×M(N为大于1的正整数)，通常为3×3。每个卷积核用于对特征图进行卷积，得到输出的特征图，每个层可以包括至少一个卷积核，通过至少一个卷积核可以输出至少一个特征图。

特征图(feature map)：也可以称为特征映射、激活图(Activation Map)、激活映射、卷积特征(Convolved Feature)等，特征图是卷积神经网络中每个卷积层的输出结果，特征图包括多个特征点，特征图中的每个特征点的取值为特征图中的像素值。

图1是本发明实施例提供的一种文本信息的识别方法的流程图，该方法包括：

101、获取目标物图片中的目标区域，该目标区域包含目标物上的文本信息。

102、将该目标区域输入至卷积神经网络中，得到该文本信息中的至少一个字符以及第一位置信息，该第一位置信息用于指示每个字符在该目标区域中的位置。

103、根据该第一位置信息，对该至少一个字符进行排序，得到该文本信息。

本发明实施例提供的方法，提供了一种定位到文本信息所处的整体区域后，基于深度学习，直接确定每个字符以及每个字符的位置的方式，能够高效、准确地识别出目标物上的文本信息，而无需从图片中分割出各个字符，从而避免了由于印刷或成像质量，而导致字符分割困难的问题，提高了文本信息的识别率。同时，也无需对各个字符分别进行图像识别，提高了识别文本信息的速度和效率。本发明提供的方法，可以应用在识别集装箱号的场景中，在港口作业的过程中，当抓拍到集装箱图片后，可以自动识别出集装箱图片包含的集装箱号，实现集装箱的自动化管理，避免人工抄录错误，减少人工成本。

其中，该卷积神经网络用于识别图片中的字符以及字符在图片中的位置。

可选地，该根据该第一位置信息，对该至少一个字符进行排序，包括：

确定该目标物上文本信息的排版方向；

根据该第一位置信息，确定每个字符的位置；

根据该排版方向，对该至少一个字符按照位置进行排序。

可选地，该根据该排版方向，对该至少一个字符按照位置进行排序，包括：

当该排版方向为竖向排版时，对该至少一个字符，按照位置从上至下的顺序进行排序；或，

当该排版方向为竖向排版时，对该至少一个字符，按照位置从下至上的顺序进行排序；或，

当该排版方向为横向排版时，对该至少一个字符，按照位置从左至右的顺序进行排序；或，

当该排版方向为横向排版时，对该至少一个字符，按照位置从右至左的顺序进行排序。

可选地，该确定该目标物上文本信息的排版方向，包括：

根据该卷积神经网络输出的姿态信息，确定该目标物图片中目标物的姿态；

根据该目标物的姿态，确定该姿态对应的排版方向；

其中，该卷积神经网络还用于识别图片中目标物的姿态。

可选地，该得到该文本信息之前，该方法还包括：

当该至少一个字符中包含混淆字符时，确定该混淆字符对应的正确字符，该混淆字符是指被该卷积神经网络误识别的字符；

将该混淆字符调整为正确字符。

可选地，该确定该混淆字符对应的正确字符，包括：

查询字符与字符之间的预设对应关系，得到该混淆字符对应的正确字符，该预设对应关系中包括至少一对图像相似而语义不同的字符。

可选地，该确定该混淆字符对应的正确字符之前，该方法还包括：

对于该至少一个字符中的任一字符，当该字符的排位以及属性不符合文本信息的排列标准时，确定该字符为混淆字符；

其中，该排列标准用于指示文本信息中每个排位上字符的属性。

可选地，该将该目标区域输入至卷积神经网络中，得到该文本信息中的至少一个字符以及第一位置信息，包括：

当该卷积神经网络的输出层接收到特征图时，将该特征图划分为多个栅格；

针对该多个栅格中的任一栅格，确定中心落入该栅格的字符以及第二位置信息，该第二位置信息用于指示中心落入该栅格的字符在该目标区域中的位置；

将该多个栅格对应的字符，作为该文本信息中的至少一个字符；

对该多个栅格对应的第二位置信息进行组合，得到该第一位置信息。

可选地，该确定中心落入该栅格的字符以及第二位置信息，包括：

确定至少一个边界框的中心点坐标、宽度以及高度，得到该第二位置信息；

其中，该至少一个边界框用于标注该字符的边界。

可选地，该卷积神经网络通过以下过程训练得到：

根据该至少一个训练后的卷积层以及多个第二样本目标物图片，对第二初始卷积神经网络进行训练，得到该卷积神经网络；

其中，每个第一样本目标物图片中标注了字符，每个第二目标物图片中标注了字符以及字符在第二目标物图片中的位置，该第二初始卷积神经网络包含该至少一个训练后的卷积层以及初始化的输出层。

可选地，该获取目标物图片中的目标区域，包括：

确定该目标物图片中的多个候选边界框；

根据每个候选边界框的类别，从该多个候选边界框中选取包含字符的候选边界框，作为目标区域。

可选地，该获取目标物图片中的目标区域，包括：

对该目标物图片进行特征提取，得到该目标物图片的特征图，该特征图包括多个特征点；

根据每个特征点的类别，对该目标物图片进行图像分割，得到该目标区域，该目标区域中每个像素映射的特征点属于字符。

图2是本发明实施例提供的一种文本信息的识别方法的流程图，该方法的执行主体为电子设备，参见图2，该方法包括：

201、电子设备获取目标物图片。

电子设备可以为任一种能够识别图像的设备，包括而不限于摄像机、服务器、个人电脑、平板电脑、手机等。

目标物图片包含一个或多个目标物的图像，目标物可以为任一种物体，包括而不限于集装箱、包装箱、快递单、图书等，例如在智能交通、物流配送等场景中，目标物可以为任一种需要跟踪传输状态的物体，又如在仓储管理场景中，目标物可以为任一种需要登记入库的物体，再如在商品管理和销售场景中，目标物可以为任一种需要记录的商品。

目标物上具有文本信息，电子设备具有从目标物图片上识别出文本信息的任务，以便记录文本信息。例如，集装箱上具有集装箱号，需要识别集装箱图片上的集装箱号，以便自动化管理集装箱。又如，快递单上具有快递单号，需要识别快递单图片上的快递号码，以便批量的记录快递单。再如，图书上具有国际标准书号(International Standard BookNumber，以下简称：ISBN)，需要识别图书图片上的ISBN，以便批量化地管理上架的图书。

以目标物为集装箱为例，示例性地，请参见图3和图4，集装箱图片可以如图3和图4所示，图3和图4的右上角包含了待识别的集装箱号。

关于电子设备得到目标物图片的方式，目标物图片可以由电子设备实时拍摄，或在电子设备中预先存储，或由电子设备从某一数据库或网站中下载，或由其他设备发送给电子设备，或由电子设备检测用户的输入操作，得到用户输入的目标物图片，本实施例对电子设备如何得到目标物图片不做限定。

在一个示例性场景中，电子设备可以为港口布设的摄像机，摄像机可以对集装箱进行抓拍，得到目标物图片。在另一个示例性场景中，电子设备可以为服务器，服务器可以接收摄像机发送的目标物图片，从而得到目标物图片。

202、电子设备获取目标物图片中的目标区域。

目标区域是指目标物图片中包含文本信息的区域，目标区域为一个图像块，包含完整的目标物上的文本信息，可以理解为从整个目标物图片中截取出的一小块图片。目标区域可以为矩形或其他形状。示例性地，请参见图4和图5，如果目标物图片为图4，该目标物图片中的目标区域可以参见图5，在图5中，矩形框为目标区域的边界，矩形框围住的区域为目标区域。

关于获取目标区域的过程，在一种可能的实现方式中，电子设备可以通过以下方式一至方式二，对目标物图片中包含文本信息的区域进行定位，从而确定出目标区域：

方式一、电子设备可以从目标物图片中选取大量的候选边界框，再通过进一步筛选和微调(fine tuning)，得到目标区域。具体来说，本方式可以通过以下步骤一至步骤四实现：

步骤一、确定目标物图片中的多个候选边界框。

候选边界框：也称region proposal、候选区域、候选边界框或anchor。候选边界框是目标物图片中可能包含字符的边界框，可以为一个矩形区域。电子设备可以从目标物图片中，提取出多个候选边界框，也可以直接将目标物图片划分为多个候选边界框。

以提取候选边界框的方式为例，示例性地，提取候选边界框的方式可以包括以下(1)至(2)：

(1)电子设备可以应用候选框算法，从目标物图片提取出多个候选边界框。该候选框算法包括而不限于选择性搜索(Selective Search)、EdgeBox算法等。

(2)电子设备可以调用候选边界框生成网络(Region Proposal Network,以下简称：RPN)，将目标物图片输入至RPN中，输出多个候选边界框。其中RPN用于根据输入的目标物图片预测候选边界框，RPN可以根据大量的样本目标物图片训练得到，每个样本目标物图片中标注了真实边界框，该真实边界框也称Ground Truth或true box，为设定的准确边界框，可以由人工标注得到。

步骤二、对每个候选边界框进行特征提取，得到每个候选边界框的特征数据。

在一种可能的实现中，电子设备可以通过深度学习的方式，将候选边界框输入至深度神经网络中，输出候选边界框的特征数据，从而实现特征提取。其中，深度神经网络用于进行特征提取，可以包括卷积神经网络和/或循环神经网络。

其中，特征数据用于指示候选边界框的特征，包括而不限于一维的向量、二维的特征图以及三维或三维以上的张量。示例性地，可以通过卷积神经网络，对候选边界框进行前向运算，获取第五个池化层输出的特征图，将第五个池化层输出的特征图作为候选边界框的特征数据。

步骤三、根据每个候选边界框的特征数据，确定每个候选边界框的类别，候选边界框的类别包括候选边界框包含字符以及候选边界框不包含字符。

关于确定候选边界框的类别的方式，可以调用分类器，将候选边界框的特征数据输入至分类器，根据该分类器的输出结果，确定候选边界框的类别，从而提取的所有候选边界框，按照是否包含字符进行了二分类。其中，分类器用于根据输入的候选边界框，预测候选边界框的类别，可以包括支持向量机(Support Vector Machine，以下简称：SVM)，或者其他分类器。

其中，分类器的输出结果可以为类别(label)或概率，若输出结果为类别，可以预先设置，候选边界框包含字符表示为1，候选边界框不包含字符表示为0，则当分类器输出1时，可以确定候选边界框包含字符。若输出结果为概率，可以预先设置概率阈值，当分类器输出的概率大于概率阈值时，可以确定候选边界框包含字符。

可选地，可以为分类器确定置信度，置信度用于评价分类器的输出结果的可靠程度，可以根据置信度对分类器的输出结果进一步处理，根据处理后的输出结果确定候选边界框的类别。

步骤四、根据每个候选边界框的类别，从多个候选边界框中选取类别为包含字符的候选边界框，作为目标区域。

可选地，电子设备确定目标边界框后，可以对目标边界框位置和/或形状进行调整，让目标区域得以精细化，以便提高从目标区域识别文本信息的精准性。其中，关于调整的具体过程，可以采用边界框回归(Bounding Box Regression)的方式，令目标区域逼近于真实边界框。

方式二、电子设备可以采用图像分割的方式，对整个目标物图片进行特征提取，再根据提取的特征图进行像素级分割，得到目标区域。具体来说，本方式可以通过以下步骤一至步骤三实现：

步骤一、对目标物图片进行特征提取，得到目标物图片的特征图。

在一种可能的实现中，电子设备可以通过深度学习的方式，将目标物图片输入至深度神经网络中，输出目标物图片的特征图，从而实现对目标物图片进行特征提取。其中，深度神经网络用于进行特征提取，可以包括卷积神经网络和/或循环神经网络，特征图用于表征目标物图片的特征。

步骤二、确定每个特征点的类别，特征点的类别包括特征点属于字符以及特征点不属于字符。

特征点可以为特征图中的一个像素点，也可以为多个像素点组成的图像块。对于特征图中的每个特征点，可以调用分类器，将特征点输入至分类器，输出特征点的类别，如此，可以得到特征图中每个特征点的类别，从而将特征图中的所有特征点，按照是否属于字符进行了二分类。

步骤三、根据每个特征点的类别，对目标物图片进行图像分割，得到目标区域。

可以根据每个特征点的类别，从特征图中确定类别为属于字符的特征点，得到多个特征点，而特征图的特征点与目标物图片的像素点之间存在映射关系，可以根据确定出的多个特征点，查询映射关系，得到目标物图片中映射的多个像素点，从目标物图片中提取该多个像素点，将该多个像素点组成目标区域。

需要说明的是，上述仅是以通过候选边界框或图像分割的方式，实现定位目标区域的过程为例进行描述，在一种可能的实现中，也可以通过其他传统方式定位包含文本信息的区域，例如滑动窗口算法等，对此不作限定。

综上所述，通过上述步骤202，定位到了目标物图片中包含文本信息的目标区域，该目标区域可以看作一个完整的小图片，会将目标区域作为卷积神经网络的输入参数，输入至卷积神经网络中。基于上述步骤202，至少可以达到以下技术效果(1)至(3)：

(1)目标区域是一个整体性的区域，包含文本信息中的每个字符的图像信息，因此，可供卷积神经网络识别出每个字符的位置和类别。同时，无需进行对目标区域进行分割，更无须经过颜色二值化、行切分、列切分等字符分割流程，简化了步骤。

(2)目标区域主要由文本信息组成，可以看作包含文本信息的最小图像单元，目标区域去除了对于识别文本信息无用的其他图像信息，例如集装箱本体、集装箱的背景以及环境噪声等干扰信息，因此，将目标区域作为卷积神经网络的识别对象，能够提高卷积神经网络识别的准确率。

(3)相对于完整的目标物图片来说，目标区域面积较小，因此像素数量较少，数据量较少，因此，将目标区域作为卷积神经网络的识别对象，能够减少卷积神经网络的运算量，加快卷积神经网络识别的速度。

203、电子设备将目标区域输入至卷积神经网络中，得到文本信息中的至少一个字符以及第一位置信息。

具体地，电子设备可以调用卷积神经网络，将目标区域输入至卷积神经网络，卷积神经网络会对目标区域进行图像识别，输出类别概率信息以及第一位置信息，可以根据类别概率信息，确定文本信息中的每个字符，可以根据第一位置信息，确定每个字符的位置。

该类别概率信息用于指示目标区域中的每个字符，可以包括至少一种类别概率(conditional class probability)，该至少一个类别概率对应至少一种字符，类别概率的大小用于指示目标区域包含对应字符的可能性。

例如，字符可以分为字母和数字，相应地，类别概率可以分为字母的类别概率以及数字的类别概率。以字母为例，字符可以包括A至Z，共计26种，相应地，类别概率信息可以包括A至Z对应的26种类别概率，分别指示目标区域中包含“A”的概率、包含“B”的概率，依次类推。以数字为例，数字可以包括0至9，共计10种，相应地，类别概率信息可以包括0至9对应的10种类别概率，分别指示目标区域中包含“1”的概率、包含“2”的概率，依次类推。

结合字母以及数字，类别概率信息可以包括36个类别概率，该36个类别概率包括26个字母的类别概率以及10个数字的类别概率，这36个类别概率的顺序可以根据实际需求确定，示例性地，前26个类别概率可以对应A～Z，后10个类别概率可以对应0～9。

可选地，卷积神经网络可以将目标区域划分为多个栅格(grid)，每个栅格为卷积神经网络识别的基本单元，每个栅格用于对中心落入栅格的字符进行识别，即，若字符的中心落入某个栅格，则由该栅格识别该字符以及该栅格的位置。例如，当字符“C”的中心落入第1行第5列的栅格时，则会由该第1行第5列的栅格预测“C”。

其中，目标区域所划分的栅格总数量可以为默认值、经验值，或由用户的配置操作自定义确定，可选地，将目标区域划分为栅格时可以采用均分的方式，则划分出的多个栅格的面积可以相等，例如可以将目标区域划分为7*7＝49个栅格。

结合划分栅格的方式，卷积神经网络可以输出每个栅格的类别概率信息，可以根据栅格的类别概率信息，确定中心点落入栅格的字符。具体地，每个栅格的类别概率信息均可以包括至少一种类别概率，每个类别概率用于指示中心落入该栅格中的字符，例如，类别概率信息可以包括每个栅格的36种类别概率，36种类别概率分别指示栅格对应的字符属于“A”的概率、属于“B”的概率，依次类推。

因此，当得到类别概率信息后，可以从任一栅格对应的所有类别概率中，选取最大的类别概率，将该最大的类别概率对应的类别(字符)，作为栅格的类别，即得到了栅格对应的字符。示例性地，若某一栅格的36种类别概率中，“8”的类别概率最大，则将“8”作为栅格对应的字符。

第一位置信息用于指示每个字符在目标区域中的位置，可以包括至少一个点坐标，可以通过该至少一个点坐标在目标区域中定位字符的位置。例如，该至少一个点坐标可以包括x坐标、y坐标、w坐标和h坐标，x坐标可以在目标区域的x方向上定位字符，y坐标可以在目标区域的y方向上定位字符，w坐标可以指示字符的宽度，h坐标可以指示字符的高度。

进一步地，可以在目标区域中通过边界框来标注字符，边界框也称bounding box、窗口、目标框等，边界框的外形为可以为一个矩形的空心框，边界框用于定位一个字符，准确的边界框会正好框住一个字符，令字符落入边界框中，不至于面积过小，以致字符超过边界框的边界，也不至于面积过大，以致包括过多的空余区域。边界框在电子设备中可以记录为四维向量，例如，边界框可以记录为(x，y，w，h)，其中x表示边界框中心的横坐标，y表示边界框中心的纵坐标，w表示边界框的宽，h表示边界框的高。

结合边界框的概念，该第一位置信息可以包括至少一个边界框的点坐标，例如可以包括每个边界框的(x，y，w，h)，从而通过边界框的点坐标，能够在目标区域中确定边界框，以便通过边界框标定字符。其中，卷积神经网络可以为目标区域中的每个栅格预测至少一个边界框，相应的，第一位置信息可以包括每个栅格对应的至少一个边界框的点坐标，那么，若将目标区域划分为SxS个栅格，每个栅格对应B个边界框，则第一位置信息可以包括S*S*B*4个点坐标。

可选地，卷积神经网络还可以输出每个边界框的置信度(confidence scores)，置信度用于指示边界框是否包含字符和/或边界框的位置准确性，例如，若边界框中包含字符，则边界框的置信度为1，若边界框中不包含字符，则边界框的置信度为0。另外，当边界框包含字符时，边界框的置信度与边界框的位置准确性正相关，即边界框的位置越准确，置信度越大，边界框越偏移于真实边界框，则置信度越小。

示例性地，置信度可以通过交并比(intersection over union，以下简称：IOU)指示，IOU为一种衡量预测边界框的准确性的指标，IOU反映了真实边界框与预测边界框之间的重叠程度，可以为真实边界框与预测边界框的交集与并集之间的比例。在一种可能的实现中，置信度可以应用以下公式得到：。

其中，confidence表示置信度，IOU表示交并比，truth表示真实边界框，pred表示预测边界框。

综合以上描述，目标区域中，每个栅格可以为对应的边界框预测5个变量，这五个变量包括x、y、w、h以及置信度，其中x和y用于指示预测的边界框的位置，可以表示为边界框的中心坐标与栅格边界坐标之间的偏移值，可选地，x和y可以归一化至(0，1)。w和h用于指示预测的边界框的宽和高，可以为预测的边界框与整个目标区域之间的宽和高的比例。

以S表示划分的栅格数量，以B表示每个栅格预测的边界框的数量，以C表示字符有多少种，则每个栅格用于预测(B*5+C)个维度的参数，其中5对应于4个坐标点(x、y、w、h)和1个置信度，在此基础上，若将目标区域划分为SxS个栅格，则卷积神经网络的输出层的输出参数的维度可以为S*S*(B*5+C)个维度。其中，S为正整数，S的取值可以根据需要设置，例如S可以取7。

以S取7，B取2，C取36为例，即将目标区域划分为7*7＝49个栅格，每个栅格预测2个边界框，则卷积神经网络的输出层的输出参数的维度可以为S*S*(B*5+C)＝7*7(2*5+36)＝2254个维度。

关于卷积神经网络的基本架构，示例性地，请参见图6，卷积神经网络包括多个层，该多个层从输入输出的顺序来说，依次为输入层、至少一个隐藏层和输出层，输入层用于接收图片，每个隐藏层用于提取特征，输出层用于输出图片的识别结果。其中，图6中的Conv.layer表示卷积层，Maxpool Layer表示池化层，Conn.Layer表示全连接层。

结合无分割以识别字符的任务，本实施例提供的卷积神经网络为end to end(端到端)的模型，用于根据输入的图片，识别图片中的字符以及字符在图片中的位置。本实施例中，检测每个字符的位置和类别的流程，均在卷积神经网络的内部实现，而无需经过中间处理。因此，当得到目标区域后，无需对目标区域进行字符分割，可以将整个目标区域输入至卷积神经网络中，通过卷积神经网络，直接预测出目标区域包含的每个字符以及每个字符的位置，实现端到端的预测，极大地提高了识别文本信息的效率和准确性，优化字符检测的性能。

结合卷积神经网络的功能，针对卷积神经网络的具体结构，在一种可能的设计中，卷积神经网络可以包括至少一个卷积层以及输出层，可选地，卷积神经网络还可以包括至少一个池化层。其中，关于卷积神经网络中层的排列顺序，卷积神经网络中的第一个层为输入层，可以为卷积层，最后一个层为输出层。另外卷积神经网络中两个相邻的层之间可以互相连接，例如卷积层可以通过局部连接的方式与上一层连接。

卷积层：用于对目标区域进行特征提取，具体地，第一个卷积层可以作为卷积神经网络的输入层，能够接收目标区域，对目标区域进行卷积处理后，得到特征图，将特征图输出给下一个卷积层。中间的每个卷积层能够接收上一层输出的特征图，对上一层输出的特征图进行卷积处理后，得到本层的特征图，输出给下一个卷积层，依次类推。

其中，每个卷积层中包含大量的卷积核，每个卷积核用于对特征图的局部进行卷积处理，输出特征点，以提取特征图的局部特征，而大量的卷积核之间权重共享，即不同卷积核的权重矩阵均相同，汇总所有卷积核输出的特征点后，卷积层能够提取特征图的完整特征。

需要说明的是，卷积层中卷积核的数量、卷积核的尺寸、卷积核的滑动窗口的步长可以根据实际需求设置，本实施例对此不做限定。

池化(Pooling)层：也称降采样层，可以通过平均池化(mean pooling)以及最大池化(max pooling)等方式实现。池化层用于对卷积层输出的特征图进行降维。在卷积神经网络中，卷积层和池化层可以交替出现，每个卷积层之后可以连接一个池化层，该池化层再连接下一个卷积层，依次类推，则卷积神经网络中，各个层的级联顺序可以为：卷积层-池化层-卷积层-池化层，以此类推。

输出层：输出层用于根据至少一个卷积层提取的特征，预测图片中的字符和位置。本实施例中，输出层可以为卷积层，例如大量1*1大小的卷积核组成的卷积层，则识别结果可以为一个高维的张量(tensor)。通过将输出层设计为卷积层，可以支持不同大小的输入图像，而无需要求所有输入图像具有相同的大小的限制。在另一种可能的实施例中，输出层也可以为全连接层。

本实施例提供的卷积神经网络中，整个卷积神经网络的输出维度，即卷积神经网络中输出层的输出参数的维度固定，输出层的输出参数的维度包括至少一个类别维度以及至少一个位置维度，基于这种设计的输出层，卷积神经网络为目标区域输出的结果，也会相应的具有至少一个类别维度以及至少一个位置维度，不同的维度可以具有不同的物理含义，通过多个维度，完整地表达了文本信息中各个字符和位置。

具体地，类别维度对应字符，类别维度的取值可以为目标区域所包含的字符的类别概率，类别维度可以分为字母的类别维度以及数字的类别维度。字母的类别维度可以包括26个维度，分别对应A至Z，每个字母的类别维度的取值为字符是对应字母的概率，例如A的类别维度的取值为字符是A的概率。数字的类别维度可以包括10个维度，分别对应0至9，每个数字的类别维度的取值为字符是对应数字的概率，例如3的类别维度的取值为字符是3的概率。因此，输出层的输出参数的维度共计36个类别维度，这36个类别维度的顺序可以根据实际需求确定，例如前26个类别维度对应A～Z，后10个类别维度对应0～9。

位置维度对应字符的位置，输出参数在位置维度上的取值为点坐标，点坐标用于在目标区域中定位字符的位置。在一种可能的设计中，输出参数可以具有多个位置维度，通过在不同的位置维度的取值，能够从不同方面定位字符的位置。例如，输出参数的位置维度可以包括x维度、y维度、h维度和w维度，x维度的取值为字符的x坐标，y维度的取值为字符的y坐标，h维度的取值为字符的宽度，w维度的取值为字符的高度。

进一步地，结合通过边界框定位字符的方式，输出参数在每个位置维度上的取值，可以为边界框的点坐标。例如，输出层中x维度的取值可以为边界框中心的横坐标，y维度的取值可以为边界框中心的纵坐标，w维度的取值可以为边界框的宽度，h维度的取值可以为边界框的高度。

可选地，输出层的输出参数的维度还可以包括置信度维度，置信度维度的取值为边界框的置信度。

结合上述对卷积神经网络的描述，关于卷积神经网络的内部运算过程，以栅格预测的字符的位置信息称为第二位置信息为例，在一种可能的实现中，在卷积神经网络内部，当卷积神经网络的输出层接收到特征图时，卷积神经网络可以将特征图划分为多个栅格，针对多个栅格中的任一栅格，卷积神经网络可以确定中心落入该栅格的字符以及第二位置信息，从而得到多个栅格预测的字符以及第二位置信息。如此，可以汇总所有栅格预测的字符，作为文本信息中的至少一个字符。同理地，可以对多个栅格对应的第二位置信息进行组合，例如可以将多个第二位置信息排列为一个列向量，从而汇总了所有栅格预测的字符的位置，得到第一位置信息，该第一位置信息中包括多个栅格对应的第二位置信息。

其中，针对划分栅格的过程，可以为卷积神经网络预先配置栅格的总数量，栅格的总数量可以包括水平方向上的栅格总数量以及垂直方向上的栅格总数量，当卷积神经网络的输出层接收到目标区域后，可以按照该栅格的总数量，对输入图像在水平方向以及垂直方向上进行划分，得到多个栅格。

第二位置信息用于指示字符在目标区域中的位置，关于确定第二位置信息的具体过程，对于每个栅格，可以确定该栅格预测的至少一个边界框，可以确定至少一个边界框的中心点坐标、宽度以及高度，将该中心点坐标、宽度以及高度作为第二位置信息，其中，该至少一个边界框用于标注中心落入所述栅格的字符的边界。

示例性地，请参见图7，图7为本实施例提供的一种字符检测的效果图，图7中的左图为步骤202中获取的目标区域，即向卷积神经网络输入的图片，图7中的右图为卷积神经网络输出的识别结果，即文本信息的检测结果。在图7的右图中，包括很多矩形的小框，每个小框是一个卷积神经网络预测的边界框，从图7可以看出，C、A、I等数字以及8、2、1等字母均被识别出来，另外每个字符的边界框位置精确，达到恰好框住字符的效果，可见，卷积神经网络准确地识别了每个字符的类别和位置。

本实施例提供的卷积神经网络，可以提供为一种字符检测的专用网络，该卷积神经网络与传统分类器不同，无需进行字符分割，也无需对单个字符逐个识别，可以将包含文本信息的目标区域直接送入卷积神经网络，通过端到端的识别过程，得到文本信息的识别结果，避免了由于印刷或成像质量导致的字符分割困难的问题，提高了识别文本信息的准确性，并且，由于无需进行繁琐的分割过程，提高了识别文本信息的效率和速度。

关于本实施例提供的卷积神经网络的训练过程，在一种可能的实现中，卷积神经网络的训练过程可以包括两个阶段，分别为预训练阶段以及训练阶段，通过预训练阶段，令卷积神经网络具有特征检测的能力，能够提取目标物图片的图像特征。通过训练阶段，令卷积神经网络能够基于特征检测的能力，预测字符的类别和位置。通过分阶段的训练，最终得到能够同时识别字符的类别和位置的卷积神经网络。

其中，预训练阶段主要用于训练卷积神经网络中的卷积层，经过预训练阶段，可以确定卷积神经网路中各个卷积层的参数，例如卷积层中每个卷积核的权重。训练阶段会在预训练阶段得到的卷积层的基础上，进一步进行模型训练，主要用于训练卷积神经网络中的输出层，另外也可以对卷积层的参数进行进一步调整。

示例性地，卷积神经网络的训练过程可以包括以下步骤(1)至步骤(2)，预训练阶段可以如以下步骤(1)，训练阶段可以如以下步骤(2)。其中，为了区分描述，在此将预训练阶段中，使用的样本目标物图片称为第一样本目标物图片，训练的卷积神经网络称为第一初始卷积神经网络，将预训练阶段中，使用的样本目标物图片称为第二样本目标物图片，训练的卷积神经网络称为第二初始卷积神经网络。

需要说明的是，术语“第一初始卷积神经网络”、“第二初始卷积神经网络”仅是用来区分不同的待训练的卷积神经网络，而不能理解为指示或暗示卷积神经网络的数据量、卷积神经网络的层数、每个卷积层中卷积核的数量以及卷积神经网络之间的相对重要性。术语“第一样本目标物图片、“第二样本目标物图片”仅是用来区分不同阶段使用的样本目标物图片，而不能理解为指示或暗示样本目标物图片的数量、样本目标物图片之间的相对重要性。

(1)根据多个第一样本目标物图片，对第一初始卷积神经网络进行预训练，得到多个训练后的卷积层。

第一样本目标物图片中标注了字符的类别，例如标注了字符为A。结合识别集装箱号的场景，第一样本目标物图片可以为集装箱图片。第一样本目标物图片可以在电子设备中预先存储，或由电子设备从服务器或某一数据库中下载，或由用户在电子设备中输入，本实施例对电子设备得到第一样本目标物图片的方式不做限定。

第一初始卷积神经网络可以包括至少一个卷积层、至少一个池化层以及全连接层。举例来说，按照从输入层至输出层的顺序，第一初始卷积神经网络中可以依次为20个卷积层、1个池化层以及1个全连接层。其中，第一初始卷积神经网络中每个层的参数可以为随机数或根据经验设置。

关于预训练的实现方式，在一种可能的实现中，可以采用反向传播算法(BackPropagation)进行训练，该反向传播算法包括前向传播阶段以及向后传播阶段，可以先通过前向传播阶段，将第一样本目标物图片输入第一初始卷积神经网络，第一样本目标物图片会经过逐层的卷积处理，传输到输出层，由输出层输出字符的类别，之后通过后向传播阶段，获取实际输出字符的类别与标记的字符的类别的差距，按照极小化误差的方法调整卷积核的权重矩阵，直至第一初始卷积神经网络的准确性符合要求时，训练结束。通过训练的过程，第一初始卷积神经网络中的多个卷积层具有了特征提取的能力，每个卷积层的卷积核的权重得以确定，可以用于对包含字符的图像进行特征提取。

需要说明的第一点是，卷积神经网络的预训练过程可以在电子设备上执行，也可以在电子设备以外的其他设备上执行，由其他设备预训练得到多个训练后的卷积层后，获取多个训练后的卷积层，以执行后续训练的过程。

需要说明的第二点是，预训练过程中所采用的第一样本目标物图片，可以为完整的目标物图片，也可以为从目标物图片中截取的包含文本信息的区域，本实施例对此不做限定。

(2)根据多个训练后的卷积层以及多个第二样本目标物图片，对第二初始卷积神经网络进行训练，得到卷积神经网络。

第二样本目标物图片中标注了字符以及字符在第二目标物图片中的位置，结合识别集装箱号的场景，第一样本目标物图片可以为集装箱图片。其中，关于标注字符的位置的方式，第二样本目标物图片中可以标注至少一个标定边界框，标定边界框也称真实边界框、真实边界框，标定边界框为第二样本目标物图片中的准确边界框，标定边界框会框住第二样本目标物图片中的字符，从而标注字符的位置。标定边界框可以人工在第二样本目标物图片上标注得到，标定边界框在实际程序中，可以记录为边界框的点坐标。

第二初始卷积神经网络包含多个训练后的卷积层以及初始化的输出层，关于得到第二初始卷积神经网络的方式，在一种可能的实现中，可以获取一个初始化的深度神经网络，该初始化的深度神经网络中包含多个初始化的卷积层以及初始化的输出层。可以将该初始化的深度神经网络中的多个卷积层的参数，置为第一初始卷积神经网络中的多个卷积层的参数，从而得到第二初始卷积神经网络。在另一种可能的实现中，可以删除第一初始卷积神经网络中的池化层以及全连接层，再向第一初始卷积神经网络中添加初始化的输出层，得到第二初始卷积神经网络。

需要说明的第一点是，卷积神经网络的训练过程可以在电子设备上执行，也可以在电子设备以外的其他设备上执行，由其他设备训练得到卷积神经网络后，获取已训练的卷积神经网络，发送给电子设备。

需要说明的第二点是，训练过程中所采用的第二样本目标物图片，可以为完整的目标物图片，也可以为从目标物图片中截取的包含文本信息的区域，本实施例对此不做限定。

204、电子设备根据第一位置信息，对至少一个字符进行排序，得到该文本信息。

电子设备通过卷积神经网络，得到文本信息中的每个字符，以及指示每个字符位置的第一位置信息后，可以根据第一位置信息，确定每个字符在目标区域中的位置，对至少一个字符按照对应的位置进行排序，从而将卷积神经网络识别出的各个字符，组合为一个有机的整体，成为具有语义的文本信息。

结合识别集装箱号的场景，当得到卷积神经网络识别出的各个字母和数字后，可以将每个字母和数字按照对应的位置进行排序，从而组合成为集装箱号。示例性地，请参见图7，若卷积神经网络识别的字符检测结果如图7中右图所示，则电子设备会对“C”、“4”、“A”、“5”等所有识别出的字符进行排序，最终得到“CAIU8216940”。

关于对该至少一个字符进行排序的具体过程，在一种可能的实现中，可以通过(1)至(3)，对识别出的每个字符进行排序：

(1)确定目标物上文本信息的排版方向。

文本信息的排版方向用于确定阅读文本信息的方向，可以包括横向排版和竖向排版。若文本信息横向排版，要从左到右地阅读字符，以确定文本信息的语义。若文本信息竖向排版，要从上至下地阅读字符，以理解文本信息的语义。

本实施例中，计算机设备可以确定文本信息的排版方向，按照文本信息的排版方向，对各个字符进行排序，以保证得到的文本信息的语义准确。例如，若集装箱上的集装箱号横向排版，可以将识别出的各个字符，按照位置从左至右的顺序排列，组合为集装箱号。若集装箱上的集装箱号竖向排版，可以将识别出的各个字符，按照位置从上至下的顺序排序，组合为集装箱号。

针对确定文本信息的排版方向，在一种可能的实现中，可以通过卷积神经网络，对目标区域进行识别，以确定文本信息的排版方向。具体地，确定排版方向可以通过以下(1.1)至(1.2)实现：

(1.1)根据卷积神经网络输出的姿态信息，确定目标物图片中目标物的姿态。

目标物的姿态可以包括水平姿态和垂直姿态，目标物的姿态可以确定目标物上文本信息的排版方向。例如，当目标物为集装箱时，若集装箱为水平姿态，即集装箱的长度大于高度，则集装箱上的集装箱号会横向排版。若集装箱为垂直姿态，即集装箱的高度大于长度，则集装箱上的集装箱号会竖向排版。

针对卷积神经网络输出姿态信息的具体实现，在模型训练的过程中，可以采用标注了物体姿态的样本图片，对卷积神经网络进行模型训练，根据卷积神经网络对样本图片中物体姿态的识别准确率，调整卷积神经网络的参数，则训练结束后，卷积神经网络能够识别图片中目标物的姿态。

那么，上述步骤203中，将目标区域输入至卷积神经网络后，卷积神经网络会将目标物的姿态也作为目标区域的类别，输出姿态信息，该姿态信息用于指示目标物的姿态，可以根据姿态信息确定目标物的姿态。

具体地，姿态信息可以包括两个类别概率，一个类别概率为目标物为水平姿态的概率，另一个类别概率为目标物为垂直姿态的概率，可以从两个类别概率中选取最大的概率，将该概率对应的姿态作为目标物的姿态。结合识别集装箱号的场景，假设姿态信息中，第一个类别概率为集装箱为水平姿态的概率，第二个类别概率为集装箱为垂直姿态的概率，则将集装箱图片的目标区域输入至卷积神经网络后，若卷积神经网络输出的姿态信息为(0.8，0.2)，则可以确定集装箱为水平姿态。

(1.2)根据目标物的姿态，确定姿态对应的排版方向。

在一种可能的实现中，可以预先建立目标物的姿态与排版方向之间的映射关系，可以根据目标物的姿态查询该映射关系，得到该姿态映射的排版方向。其中，该映射关系可以如表1所示：

结合识别集装箱号的场景，当确定集装箱图片上的集装箱为垂直姿态后，可以确定集装箱号是竖向排版的。

需要说明的是，上述(1.1)至(1.2)仅是以目标物的姿态为水平姿态或垂直姿态为例进行描述，在实施中，目标物的姿态并不局限于水平姿态以及垂直姿态，例如目标物的姿态也可以为倾斜姿态、倒立姿态、镜像翻转姿态等，相应地，排版方向也不局限于横向排版或竖向排版，可以根据实际需求，灵活地采用标注各种物体姿态的样本图片，训练卷积神经网络，以提高卷积神经网络识别各种姿态的泛化能力。另外还可以根据实际需求，灵活地设置姿态与排版方向之间的映射关系。本实施例对卷积神经网络识别出的目标物的姿态、姿态与排版方向之间的映射关系均不做限定。

(2)根据第一位置信息，确定每个字符的位置。

第一位置信息中可以包括每个字符的点坐标，可以对根据字符的点坐标，确定字符的位置。例如，第一位置信息中可以包括字符的x坐标、y坐标、w坐标和h坐标，可以根据x坐标和y坐标，确定字符中心点的位置，根据w坐标，确定字符的高度，根据h坐标，确定字符的宽度。

结合通过边界框标定字符的方式，第一位置信息可以包括边界框中心的横坐标，边界框中心的纵坐标，边界框的宽度以及边界框的高度，可以根据第一位置信息，确定边界框的位置和大小，从而确定了边界框标定的字符。

(3)根据排版方向，对至少一个字符按照位置进行排序。

当确定了排版方向以及每个字符的位置后，可以对识别出的至少一个字符，按照对应的位置排序，以保证组合得到的文本信息语义准确。具体地，本方式可以包括以下情况(3.1)至(3.4)：

(3.1)当排版方向为竖向排版时，可以对至少一个字符，按照位置从上至下的顺序进行排序。

针对按照位置从上至下排序的具体实现，字符位置的上与下，可以通过字符的纵坐标的大小确定，例如字符的纵坐标越大，可以确定字符位置越靠上，字符的纵坐标越小，可以确定字符位置越靠小。那么，当确定排版方向为竖向排版后，可以确定每个字符的纵坐标，对该至少一个字符，按照纵坐标从大到小的顺序进行排序。

示例性地，请参见图7，若字符识别结果如图7中右图所示，将识别出的字符按照从上至下的顺序排序，可以得到“CAIU8216940”。

(3.2)当排版方向为竖向排版时，对至少一个字符，按照位置从下至上的顺序进行排序。

考虑到目标物可能倒立放置，或者出现其他的字符从下至上排列的情况，也可以对至少一个字符按照位置从下至上的顺序排序，例如，对该至少一个字符，按照纵坐标从小到大的顺序进行排序。

(3.3)当排版方向为横向排版时，对至少一个字符，按照位置从左至右的顺序进行排序。

针对按照位置从左至右排序的具体实现，字符位置的左与右，可以通过字符的横坐标的大小确定，例如字符的横坐标越大，可以确定字符位置越靠右，字符的横坐标越小，可以确定字符位置越靠左。那么，当确定排版方向为横向排版后，可以确定每个字符的横坐标，对该至少一个字符，按照横坐标从小到大的顺序进行排序。

(3.4)当排版方向为横向排版时，对至少一个字符，按照位置从右至左的顺序进行排序。

例如，可以对识别出的至少一个字符，按照横坐标从大到小的顺序进行排序。

当对至少一个字符进行排序后，会得到依次排列的至少一个字符，可以直接将依次排列的至少一个字符作为文本信息，输出文本信息。可选地，也可以先进行结果整理，对排序后的字符进行调整，从而避免0与O、I与1等字符被识别混淆。具体来说，调整字符的过程可以包括以下步骤一至步骤三：

步骤一、从识别出的至少一个字符中，确定混淆字符。

混淆字符是指卷积神经网络误识别的字符，即识别错误的字符，例如，字符实际为“O”，而被卷积神经网络误识别为“0”，则“0”为混淆字符。

关于确定混淆字符的过程，在一种可能的实现方式中，可以预先确定文本信息的排列标准，对于至少一个字符中的每个字符，可以判断字符的排位以及属性是否符合文本信息的排列标准，当字符的排位以及属性不符合文本信息的排列标准时，确定字符为混淆字符，当字符的排位以及属性符合文本信息的排列标准时，确定字符为准确字符。

其中，文本信息的排列标准用于指示文本信息中每个排位上字符的属性，字符的属性可以包括字母和数字。因此，通过排列标准可以确定，排在某一位的字符应该是字母，还是数字。排列标准可以在电子设备中预先存储。以文本信息为集装箱号为例，集装箱号的排列标准可以为：排在前4位的字符为字母，排在后7位的字符为数字。

具体地，对于每个字符，可以根据字符在该至少一个字符中的排位，从文本信息的排列标准中，确定该排位对应的准确属性，判断字符是否与该准确属性匹配，若字符与该准确属性匹配，则确定字符为正确字符，若字符不与该准确属性匹配，则确定字符为混淆字符。

示例性地，以识别集装箱号为例，假设识别出了“CA0U8216940”，对于这一识别结果中的“0”，“0”排在第3位，根据集装箱号的排列标准，可以确定排在第3位的字符的准确属性为字母，而“0”不与字母匹配，则确定“0”为混淆字符。对于这一识别结果中的“8”，“8”排在第5位，根据集装箱号的排列标准，可以确定排在第5位的字符的准确属性为数字，而“8”与数字匹配，则确定“8”为正确字符。

步骤二、当至少一个字符中包含混淆字符时，确定混淆字符对应的正确字符。

在一种可能的实现中，可以预先建立字符与字符之间的预设对应关系，预设对应关系中包括至少一对图像相似而语义不同的字符，每对字符由于图像相似，可能被卷积神经网络相互混淆。示例性地，该预设对应关系可以如下表2所示，表2中“0”与“O”映射，“1”“与I”映射。

表2

0	O
		1	I
a	α
		……	……

结合字符与字符的预设对应关系，当确定至少一个字符中包含混淆字符后，可将混淆字符作为索引，查询字符与字符之间的预设对应关系，得到混淆字符对应的正确字符，例如，当确定识别出了混淆字符“0”后，可以根据“0”查询预设对应关系，得到“0”对应的正确字符为“O”。

步骤三、将混淆字符调整为正确字符。

当确定了混淆字符对应的正确字符后，可以对混淆字符进行调整，将混淆字符替换为正确字符，以保证识别出的文本信息的准确性。

本实施例中，通过执行上述结果整理的过程，可以保证识别的文本信息的准确性，避免0和O、1和I这种图像相似而语义不同的字符被卷积神经网络识别混淆，防止识别出的文本信息产生歧义。示例性地，以识别集装箱号的场景为例，假设卷积神经网络识别出了“CA0U82I6940”，则在结果整理的过程中，可以发现排在第3位的“0”和排在第7位的“I”为混淆字符，对“0”和“I”进行调整后，最终识别出的集装箱号为“CAOU8216940”，可见，完成了精确地识别集装箱号的任务。

综上所述，请参见图8，其示出了本实施例提供的文本信息的识别方法的流程图，本实施例主要由三大模块组成：定位模块、检测字符模块以及后处理模块，定位模块用于检测出文本信息在抓拍帧中的位置，检测字符模块用于通过卷积神经网络，识别出每个字符以及每个字符的位置，后处理模块用于对识别出的各个字符进行整理后，输出文本信息。

图9是本发明实施例提供的一种文本信息的识别装置的结构示意图。参见图9，该装置包括：获取模块901、识别模块902和排序模块903。

获取模块901，用于获取目标物图片中的目标区域，该目标区域包含目标物上的文本信息；

识别模块902，用于将该目标区域输入至卷积神经网络中，得到该文本信息中的至少一个字符以及第一位置信息，该第一位置信息用于指示每个字符在该目标区域中的位置；

排序模块903，用于根据该第一位置信息，对该至少一个字符进行排序，得到该文本信息；

可选地，该排序模块903，包括：

确定子模块，用于确定该目标物上文本信息的排版方向；

该确定子模块，还用于根据该第一位置信息，确定每个字符的位置；

排序子模块，用于根据该排版方向，对该至少一个字符按照位置进行排序。

可选地，该排序子模块，用于：

可选地，该确定子模块，用于：

根据该目标物的姿态，确定该姿态对应的排版方向；

其中，该卷积神经网络还用于识别图片中目标物的姿态。

可选地，该装置还包括：

确定模块，用于当该至少一个字符中包含混淆字符时，确定该混淆字符对应的正确字符，该混淆字符是指被该卷积神经网络误识别的字符；

调整模块，用于将该混淆字符调整为正确字符。

可选地，该确定模块，用于查询字符与字符之间的预设对应关系，得到该混淆字符对应的正确字符，该预设对应关系中包括至少一对图像相似而语义不同的字符。

可选地，该确定模块，用于对于该至少一个字符中的任一字符，当该字符的排位以及属性不符合文本信息的排列标准时，确定该字符为混淆字符；

可选地，该识别模块902，包括：

划分子模块，用于当该卷积神经网络的输出层接收到特征图时，将该特征图划分为多个栅格；

确定子模块，用于针对该多个栅格中的任一栅格，确定中心落入该栅格的字符以及第二位置信息，该第二位置信息用于指示中心落入该栅格的字符在该目标区域中的位置；

该确定子模块，还用于将该多个栅格对应的字符，作为该文本信息中的至少一个字符；

组合子模块，用于对该多个栅格对应的第二位置信息进行组合，得到该第一位置信息。

可选地，该确定子模块，用于：

其中，该至少一个边界框用于标注该字符的边界。

可选地，该卷积神经网络通过以下过程训练得到：

可选地，该获取模块901，包括：

确定子模块，用于确定该目标物图片中的多个候选边界框；

该确定子模块，还用于根据每个候选边界框的特征数据，确定每个候选边界框的类别，候选边界框的类别包括候选边界框中包含字符以及候选边界框中不包含字符；

选取子模块，用于根据每个候选边界框的类别，从该多个候选边界框中选取包含字符的候选边界框，作为目标区域。

可选地，该获取模块901，包括：

特征提取子模块，用于对该目标物图片进行特征提取，得到该目标物图片的特征图，该特征图包括多个特征点；

分割子模块，用于根据每个特征点的类别，对该目标物图片进行图像分割，得到该目标区域，该目标区域中每个像素映射的特征点属于字符。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的文本信息的识别装置在识别文本信息时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本信息的识别装置与文本信息的识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图10是本发明实施例提供的一种电子设备的结构示意图，该电子设备1000可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1001和一个或一个以上的存储器1002，其中，该存储器1002中存储有至少一条指令，该至少一条指令由该处理器1001加载并执行以实现上述各个方法实施例提供的文本信息的识别方法。当然，该电子设备还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该电子设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备中的处理器执行以完成上述实施例中的文本信息的识别方法。例如，所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本信息的识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一位置信息，对所述至少一个字符进行排序，包括：

确定所述目标物上文本信息的排版方向；

根据所述第一位置信息，确定每个字符的位置；

3.根据权利要求2所述的方法，其特征在于，所述根据所述排版方向，对所述至少一个字符按照位置进行排序，包括：

4.根据权利要求2所述的方法，其特征在于，所述确定所述目标物上文本信息的排版方向，包括：

根据所述目标物的姿态，确定所述姿态对应的排版方向；

其中，所述卷积神经网络还用于识别图片中目标物的姿态。

5.根据权利要求1所述的方法，其特征在于，所述得到所述文本信息之前，所述方法还包括：

将所述混淆字符调整为正确字符。

6.根据权利要求5所述的方法，其特征在于，所述确定所述混淆字符对应的正确字符，包括：

7.根据权利要求5所述的方法，其特征在于，所述确定所述混淆字符对应的正确字符之前，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述将所述目标区域输入至卷积神经网络中，得到所述文本信息中的至少一个字符以及第一位置信息，包括：

9.根据权利要求8所述的方法，其特征在于，所述确定中心落入所述栅格的字符以及第二位置信息，包括：

其中，所述至少一个边界框用于标注所述字符的边界。

10.根据权利要求1至9任一项所述的方法，其特征在于，所述卷积神经网络通过以下过程训练得到：

11.根据权利要求1所述的方法，其特征在于，所述获取目标物图片中的目标区域，包括：

确定所述目标物图片中的多个候选边界框；

12.根据权利要求1所述的方法，其特征在于，所述获取目标物图片中的目标区域，包括：

13.一种文本信息的识别装置，其特征在于，所述装置包括：

14.根据权利要求13所述的装置，其特征在于，所述排序模块，包括：

确定子模块，用于确定所述目标物上文本信息的排版方向；

15.根据权利要求14所述的装置，其特征在于，所述排序子模块，用于：

16.根据权利要求14所述的装置，其特征在于，所述确定子模块，用于：

根据所述目标物的姿态，确定所述姿态对应的排版方向；

其中，所述卷积神经网络还用于识别图片中目标物的姿态。

17.根据权利要求13所述的装置，其特征在于，所述装置还包括：

调整模块，用于将所述混淆字符调整为正确字符。

18.根据权利要求17所述的装置，其特征在于，所述确定模块，用于查询字符与字符之间的预设对应关系，得到所述混淆字符对应的正确字符，所述预设对应关系中包括至少一对图像相似而语义不同的字符。

19.根据权利要求17所述的装置，其特征在于，所述确定模块，用于对于所述至少一个字符中的任一字符，当所述字符的排位以及属性不符合文本信息的排列标准时，确定所述字符为混淆字符；

20.根据权利要求13所述的装置，其特征在于，所述识别模块，包括：

21.根据权利要求20所述的装置，其特征在于，所述确定子模块，用于：

其中，所述至少一个边界框用于标注所述字符的边界。

22.根据权利要求13至21任一项所述的装置，其特征在于，所述卷积神经网络通过以下过程训练得到：

23.根据权利要求13所述的装置，其特征在于，所述获取模块，包括：

24.根据权利要求13所述的装置，其特征在于，所述获取模块，包括：

25.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本信息的识别方法所执行的操作。

26.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的文本信息的识别方法所执行的操作。。