CN112749694B

CN112749694B - 用于识别图像方向、识别铭牌文字的方法及装置

Info

Publication number: CN112749694B
Application number: CN202110077784.8A
Authority: CN
Inventors: 黄跃峰; 易作天; 王晓冬; 霍斌; 冯雷
Original assignee: Zoomlion Heavy Industry Science and Technology Co Ltd; Zhongke Yungu Technology Co Ltd
Current assignee: Zoomlion Heavy Industry Science and Technology Co Ltd; Zhongke Yungu Technology Co Ltd
Priority date: 2021-01-20
Filing date: 2021-01-20
Publication date: 2024-05-21
Anticipated expiration: 2041-01-20
Also published as: CN112749694A

Abstract

本发明公开了一种用于识别图像方向、识别铭牌文字的方法及装置。该方法包括：接收图像采集设备发送的图像；将图像裁剪为多个窗口图像；预测多个窗口图像中每个窗口图像的方向；通过投票算法，根据每个窗口图像的方向确定图像的方向。通过该方法，可以使得图像的角度识别精度较高。

Description

用于识别图像方向、识别铭牌文字的方法及装置

技术领域

本发明涉及图像识别技术领域，具体地，涉及一种用于识别图像方向、识别铭牌文字的方法及装置。

背景技术

光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字。图像中文字OCR识别有非常广泛的应用，在实际应用场景中存在手持设备拍照角度与预期不一致的情况，可能是倒拍(旋转了180度，文字上下颠倒)，竖拍(旋转90度或270度)；这种情况下文本行检测一般没有问题，但是文本行识别性能会急剧下降。现有技术会在OCR识别之前对整张图像的角度进行识别和校正，但是目前基于深度学习分类方法对图像的角度识别精度较低。

发明内容

本发明的目的是提供一种用于识别图像方向、识别铭牌文字的方法及装置，用以解决目前对图像的角度识别精度较低的问题。

为了实现上述目的，本发明第一方面提供一种用于识别图像方向的方法，该方法包括：

接收图像采集设备发送的图像；

将图像裁剪为多个窗口图像；

预测多个窗口图像中每个窗口图像的方向；

通过投票算法，根据每个窗口图像的方向确定图像的方向。

在本发明的实施方式中，将图像裁剪为多个窗口图像，包括：

将图像的尺寸进行缩放，以得到缩放图像；

依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，以得到多个窗口图像。

在本发明的实施方式中，将图像的尺寸进行缩放，以得到缩放图像，包括：

将图像的尺寸缩放到预设尺寸，其中预设尺寸为Size+(N-1)*Stride，Size为预设窗口尺寸，Stride为预设窗口步长，N为预设窗口数量；

依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，以得到多个窗口图像，包括：

使用预设窗口依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，得到多个窗口图像。

在本发明的实施方式中，该方法还包括：

根据图像的方向对图像的方向进行校正。

本发明第二方面提供一种用于识别铭牌文字的方法，该方法包括：

获取图像采集设备发送的铭牌图像；

使用根据上述用于识别图像方向的方法来识别铭牌图像的图像方向，并根据识别出的图像方向对铭牌图像的方向并进行校正；

通过可微的二值化网络对校正的铭牌图像进行文字检测以得到多个文本框；

将多个文本框合并成文本行；

通过文字识别网络对文本行进行文字识别。

在本发明的实施方式中，将文本框合并成文本行，包括：

根据位于校正的铭牌图像一侧的第一文本框拟合直线；

依次合并与拟合的直线相交的其他文本框；

根据合并的文本框得到文本行。

在本发明的实施方式中，根据位于校正的铭牌图像一侧的第一文本框拟合直线包括：

根据第一文本框第一边和第二边的中点拟合直线；

依次合并与拟合的直线相交的其他文本框，包括：

如果拟合的直线与第一文本框的相邻文本框相交，则合并第一文本框及第一文本框的相邻文本框。

本发明第三方面提供一种识别图像方向的装置，被配置成执行上述的用于识别图像方向的方法。

本发明第四方面提供一种用于识别铭牌文字的装置，配置成执行上述的用于识别铭牌文字的方法。

本发明第五方面提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行根据上述的用于识别图像方向的方法和上述的用于识别铭牌文字的方法。

通过上述技术方案，将接收到的图像裁剪为多个窗口图像；预测多个窗口图像中每个窗口图像的方向；通过投票算法，根据每个窗口图像的方向确定图像的方向，可以使得图像的角度识别精度较高。

本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明一实施方式提供的一种用于识别图像方向的方法的流程示意图；

图2是本发明另一实施方式提供的一种用于识别图像方向的方法的流程示意图；

图3是本发明另一实施方式提供的一种用于识别铭牌文字的方法的流程示意图；

图4(a)是本发明另一实施方式提供的一种文本框的示意图；

图4(b)是本发明另一实施方式提供的一种文本行的示意图；

图5是本发明另一实施方式提供的一种将文本框合并成文本行的方法的流程示意图；

图6是本发明另一实施方式提供的一种用于识别图像方向和用于识别铭牌文字的装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

需要说明，若本申请实施方式中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施方式中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施方式之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1是本发明一实施方式提供的一种用于识别图像方向的方法的流程示意图。如图1所示，本发明实施方式提供一种用于识别图像方向的方法，该方法可以包括以下步骤。

在步骤S11中，接收图像采集设备发送的图像。在本发明的实施方式中，计算机设备接收到图像采集设备发送的图像。其中，图像采集设备可以是手持照相设备，包括但不限于相机、手机、平板等等。通过图像采集设备采集图像，将图像输入至计算机设备，计算机设备接收到图像采集设备发送的图像，并且存储接收到的图像。

在步骤S12中，将图像裁剪为多个窗口图像。在本发明实施方式中，窗口指的是图形界面中设置的基本单元。裁剪指的是通过窗口在图像上的滑动，将图像裁剪为多个窗口图像。计算机设备可以将窗口缩放到预设尺寸，然后根据预设窗口尺寸、预设窗口步长在图像上进行滑动，可以产生预设数量的窗口图像。需要说明的是，将图像裁剪为多个窗口图像不限于上述的裁剪方式，还可以是其他将图像裁剪为多个窗口图像的方法。

在步骤S13中，预测多个窗口图像中每个窗口图像的方向。在本发明实施方式中，可以采用深度神经网络训练一个四分类模型，该四分类模型可以是图像的四种方向类别。例如，将图像的某一方向确定为正确方向，则可以有0度、顺时针旋转90度、顺时针旋转180度和顺时针旋转270度四个方向类别。则该四个方向类别是训练好的四分类模型。在将图像裁剪为多个窗口图像之后，将多个窗口图像输入训练好的四分类模型，可以通过该四分类模型预测每个窗口图像的方向。

在步骤S14中，通过投票算法，根据每个窗口图像的方向确定图像的方向。在本发明实施方式中，预测了每个窗口图像的方向后，可以对每个方向的窗口图像数量进行统计，根据少数服从多数的机制，将预测类别最多的方向类别确定为图像的方向。例如，顺时针旋转180度的预测方向类别的数量最多，则确定接收到的图像的方向为顺时针旋转180度。

本发明实施方式通过将接收到的图像裁剪为多个窗口图像；预测多个窗口图像中每个窗口图像的方向；通过投票算法，根据每个窗口图像的方向确定图像的方向。通过实验可以得出本发明实施方式与现有的未使用窗口识别图像方向的误差率降低了64％，因此本发明实施方式可以使得图像的角度识别精度较高。

在本发明的实施方式中，将图像裁剪为多个窗口图像，可以包括：

将图像的尺寸进行缩放，以得到缩放图像；

具体地，在计算机设备接收到图像后，可以对图像的尺寸进行缩放，得到与训练好的深度神经网络的预设尺寸匹配的缩放图像。这样可以便于后续对图像进行裁剪。得到缩放图像后，依次沿着缩放图像的高度和宽度方向滑动并裁剪，以得到多个窗口图像。其中，对缩放图像进行裁剪可以是先沿着缩放图像的高度方向滑动并裁剪，再沿着缩放图像的宽度方向滑动并裁剪；也可以是先沿着缩放图像的高度方向滑动并裁剪，再沿着缩放图像的宽度方向滑动并裁剪。需要说明的是，对缩放图像进行裁剪不限于上述的裁剪方式，还可以是其他能够将缩放图像裁剪为多个窗口图像的方式。通过将图像裁剪为多个窗口图像，可以便于根据每个窗口图像的方向预测图像的方向。

在本发明的实施方式中，将图像的尺寸进行缩放，以得到缩放图像，可以包括：

依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，得到多个窗口图像，包括：

具体地，步长指的是程序语言中，让一个数值在每次运算中加上某个数值，重复执行该运算。假设预设窗口尺寸为Size，预设窗口步长为Stride，则遍历整个图像需要走N-1步。因此，可以将预设尺寸确定为预设窗口尺寸加上N-1个预设窗口步长。先将图像进行缩放，再以尺寸为Size，步长为Stride的预设窗口，沿着缩放图像的高度和宽度方向进行滑动并裁剪。这样可以得到多个窗口图像。

图2是本发明另一实施方式提供的一种用于识别图像方向的方法的流程示意图。如图2所示，本发明实施方式提供一种用于识别图像方向的方法，该方法还可以包括以下步骤。

在步骤S15中，根据图像的方向对图像的方向进行校正。在本发明的实施方式中，在确定了图像的方向后，根据确定的图像的方向对图像的方向进行校正。例如，确定的图像的方向为顺时针旋转90度，则将图像顺时针旋转90，则可以得到我们需要的图像的方向。该步骤可以通过计算机设备自动进行旋转，也可以根据用户输入的操作命令进行旋转。需要说明的是，对图像的方向进行校正的方式不限于上述的校正方式。将图像的方向进行校正后，便于后续对图像进行进一步处理，例如，识别图像的文字等。

图3是本发明另一实施方式提供的一种用于识别铭牌文字的方法的流程示意图。如图3所示，本发明实施方式提供一种用于识别铭牌文字的方法，该方法可以包括以下步骤。

在步骤S21中，获取图像采集设备发送的铭牌图像。在本发明的实施方式中，铭牌指的是固定在产品上，向用户提供厂家商标识别、品牌区分及产品参数等信息的标牌，铭牌又称标牌，主要用来记载生产厂家及额定工作情况下的一些技术数据，以供正确使用而不损坏设备。铭牌图像则是包含铭牌的图片。图像采集设备可以包括但不限于手持式的终端设备，例如，手机、平板和相机等，通过手持式的终端设备采集铭牌图像，更加方便快捷。

在步骤S22中，使用根据上述用于识别图像方向的方法来识别铭牌图像的图像方向，并根据识别出的图像方向对铭牌图像的方向并进行校正。在本发明的实施方式中，可以通过上述用于识别图像方向的方法来识别铭牌图像的图像方向，通过接收图像采集设备发送的图像；将图像裁剪为多个窗口图像；预测多个窗口图像中每个窗口图像的方向；通过投票算法，根据每个窗口图像的方向确定图像的方向。通过实验得出本发明实施方式与现有的未使用窗口识别图像方向的误差率降低了64％，因此本发明实施方式可以使得图像的角度识别精度较高。

在本发明的一可选实施方式中，将图像裁剪为多个窗口图像可以包括：将图像的尺寸进行缩放，以得到缩放图像；依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，以得到多个窗口图像。

进一步地，将图像的尺寸进行缩放，以得到缩放图像，可以包括：将图像的尺寸缩放到预设尺寸，其中预设尺寸为Size+(N-1)*Stride，Size为预设窗口尺寸，Stride为预设窗口步长，N为预设窗口数量；依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，以得到多个窗口图像，包括：使用预设窗口依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，得到多个窗口图像。通过将图像裁剪为多个窗口图像，可以便于根据每个窗口图像的方向预测图像的方向。为避免重复，这里对具体的技术方案不再赘述。

在步骤S23中，通过可微的二值化网络对校正的铭牌图像进行文字检测以得到多个文本框。在本发明实施方式中，可以通过可微的二值化(Differentiable Binarization，DB)网络对铭牌图像进行文字检测。例如，对铭牌图像进行特征提取和分割，获取待检测的铭牌图像的文本区域概率图，再根据文本区域概率图，确定铭牌图像的文本区域二值图。其中，获取铭牌图像的文本区域概率图可以通过对铭牌图像进行特征提取，获得特征映射图。再将特征映射图进行上采样，并串联上采样后的特征；基于串联后的特征对应的特征映射图进行图像分割，获取文本区域概率图。具体地，可以使用神经网络模型的像素聚合网络(Pixel Aggregation Network，PAN)结构对铭牌图像进行特征提取，获得PAN特征提取结果；将PAN特征提取结果输入神经网络模型的DB结构进行上采样，通过DB结构对上采样后的特征进行串联；并基于串联后的特征对应的特征映射图进行图像分割，获得铭牌图像的文本区域的概率图。相比较于传统的文字检测方法，降低了检测数据计算量，节省了计算资源，提高了检测速度和效率。

在步骤S24中，将多个文本框合并成文本行。在本发明的实施方式中，文本框是指通过文字检测后识别出的铭牌图片中的文本框。由于铭牌文字可能会包含空格，因此，识别出的文本框可能为多个。如图4(a)所示，图4(a)是本发明另一实施方式提供的一种文本框的示意图，该铭牌图片可以识别出四个文本框(即图4(a)的四个黑色方框)。文本行指的是，将多个文本框合并过后的包含全部铭牌文字的图片，如图4(b)所示，图4(b)是本发明另一实施方式提供的一种文本行的示意图。将多个文本框进行合并后生成文本行，便于对铭牌文字进行识别。不仅能识别无空格的文字还能识别有空格的铭牌文字，使得文字识别范围更加广泛。

在步骤S25中，通过文字识别网络对文本行进行文字识别。在本发明的实施方式中，可以通过文字识别网络对文本行进行文字识别，例如，使用CRNN(ConvolutionalRecurrent Neural Network)网络进行处理，CRNN是一种End-to-End(端到端)的文字识别网络。该网络由卷积层、循环层和转录层组成。卷积层对输入的图像提取特征，得到特征图，再使用双向循环层对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布；使用转录层损失，把从循环层获取的一系列标签分布转换成最终的标签序列。具体地，铭牌图像经过卷积神经网络的卷积层提取深度特征，利用循环神经网络的循环层对深层特征进一步提取文字序列特征，最后将提取文字序列特征转录为字符。使用文字识别网络对文字进行识别，可以减小处理每次识别任务时的计算量，适应铭牌不同大小的文字，以及适应铭牌的特殊类型的文字，例如雕刻文字、手写文字等，提高处理效率。

通过上述方案，并且结合试验结果，本发明的实施方式中用于识别铭牌文字的识别精度接近90％。而目前的方案识别精度不到30％，大大优于目前的文字识别技术。因此，基于深度学习的文字检测和文字识别对铭牌文字进行识别，识别精度较高，并且提高了处理效率。

图5是本发明另一实施方式提供的一种将文本框合并成文本行的方法的流程示意图。如图5所示，步骤S24、将文本框合并成文本行，可以包括：

S241、根据位于校正的铭牌图像一侧的第一文本框拟合直线；

S242、依次合并与拟合的直线相交的其他文本框；

S243、根据合并的文本框得到文本行。

具体地，将文本框合并成文本行，可以通过拟合直线依次合并多个文本框。拟合直线代表了离散的数据之间的线性规律。以从铭牌图像的左侧第一个文本框开始合并为例，从铭牌图像的最左边开始，用左边第一个文本框拟合直线，如果该直线与从左边数第二个文本框，也就是与第一个文本框相邻的文本框相交，则合并第一个文本框和第二个文本框。将合并后的文本框继续拟合直线，与第三个文本框合并，依次递归地进行合并，直到不能再合并位置。最后合并的文本框可以作为检测结果，再将合并后的文本框矫正为矩形，得到最终的合并框，即文本行。这样，误检的文本框自然会被过滤掉，减少了铭牌文字被误检的概率。需要说明的是，对文本框进行合并不限于上述实施方式，还可以是其他对文本框进行合并的方法，例如从铭牌图像的右边开始进行拟合直线，依次合并与拟合的直线相交的其他文本框。

在本发明的实施方式中，S241、根据位于校正的铭牌图像一侧的第一文本框拟合直线可以包括：

根据第一文本框第一边和第二边的中点拟合直线；

依次合并与拟合的直线相交的其他文本框，包括：

具体地，第一边和第二边可以是文本框的左边和右边，以从铭牌图像的左侧第一个文本框开始合并为例，从铭牌图像的最左边开始，用左边第一个文本框的左边和右边的中点拟合直线，如果该直线与从左边数第二个文本框，也就是与第一个文本框相邻的文本框相交，则合并第一个文本框和第二个文本框。将合并后的文本框继续拟合直线，根据合并后的文本框的左边和右边的中点拟合直线，如果该直线与第三个文本框相交，则将合并后的文本框和第三个文本框继续合并，生成新的合并后的文本框，从左向右依次递归地进行合并，直到不能再合并位置。最后合并的文本框可以作为检测结果，再将合并后的文本框矫正为矩形，得到最终的合并框，即文本行。这样，误检的文本框自然会被过滤掉，减少了铭牌文字被误检的概率。需要说明的是，对文本框进行合并不限于上述实施方式，还可以是其他对文本框进行合并的方法，例如从铭牌图像的右边开始进行拟合直线，依次合并与拟合的直线相交的其他文本框。

如图6所示，图6是本发明另一实施方式提供的一种用于识别图像方向和用于识别铭牌文字的装置的结构示意图。在本申请的实施方式中，该装置可以包括处理器610和存储器620。存储器620可以存储有指令，该指令在被处理器610执行时可以使得处理器610执行之前实施方式中描述的以下中至少一者：

用于识别图像方向的方法；

用于识别铭牌文字的方法。

具体地，在本发明一实施方式中，处理器610被配置成：

接收图像采集设备发送的图像；

将图像裁剪为多个窗口图像；

预测多个窗口图像中每个窗口图像的方向；

通过投票算法，根据每个窗口图像的方向确定图像的方向。

在本发明的实施方式中，计算机设备接收到图像采集设备发送的图像。其中，图像采集设备可以是手持照相设备，包括但不限于相机、手机、平板等等。通过图像采集设备采集图像，将图像输入至计算机设备，计算机设备接收到图像采集设备发送的图像，并且存储接收到的图像。窗口指的是图形界面中设置的基本单元。裁剪指的是通过窗口在图像上的滑动，将图像裁剪为多个窗口图像。计算机设备可以将窗口缩放到预设尺寸，然后根据预设窗口尺寸、预设窗口步长在图像上进行滑动，可以产生预设数量的窗口图像。需要说明的是，将图像裁剪为多个窗口图像不限于上述的裁剪方式，还可以是其他将图像裁剪为多个窗口图像的方法。在本发明实施方式中，可以采用深度神经网络训练一个四分类模型，该四分类模型可以是图像的四种方向类别。例如，将图像的某一方向确定为正确方向，则可以有0度、顺时针旋转90度、顺时针旋转180度和顺时针旋转270度四个方向类别。则该四个方向类别是训练好的四分类模型。在将图像裁剪为多个窗口图像之后，将多个窗口图像输入训练好的四分类模型，可以通过该四分类模型预测每个窗口图像的方向。预测了每个窗口图像的方向后，可以对每个方向的窗口图像数量进行统计，根据少数服从多数的机制，将预测类别最多的方向类别确定为图像的方向。例如，顺时针旋转180度的预测方向类别的数量最多，则确定接收到的图像的方向为顺时针旋转180度。

进一步地，处理器610被配置成：

将图像的尺寸进行缩放，以得到缩放图像；

进一步地，处理器610被配置成：

将图像的尺寸缩放到预设尺寸，其中预设尺寸为Size+(N-1)*Stride，其中，Size为预设窗口尺寸，Stride为预设窗口步长，N为预设窗口数量；

进一步地，处理器610还被配置成：

根据图像的方向对图像的方向进行校正。

在本发明的实施方式中，在确定了图像的方向后，根据确定的图像的方向对图像的方向进行校正。例如，确定的图像的方向为顺时针旋转90度，则将图像顺时针旋转90，则可以得到我们需要的图像的方向。该步骤可以通过计算机设备自动进行旋转，也可以根据用户输入的操作命令进行旋转。需要说明的是，对图像的方向进行校正的方式不限于上述的校正方式。将图像的方向进行校正后，便于后续对图像进行进一步处理，例如，识别图像的文字等。

在本发明另一实施方式中，处理器610被配置成：

获取图像采集设备发送的铭牌图像；

将多个文本框合并成文本行；

通过文字识别网络对文本行进行文字识别。

在本发明的实施方式中，铭牌指的是固定在产品上，向用户提供厂家商标识别、品牌区分及产品参数等信息的标牌，铭牌又称标牌，主要用来记载生产厂家及额定工作情况下的一些技术数据，以供正确使用而不损坏设备。铭牌图像则是包含铭牌的图片。图像采集设备可以包括但不限于手持式的终端设备，例如，手机、平板和相机等，通过手持式的终端设备采集铭牌图像，更加方便快捷。在获取了图像采集设备发送的铭牌图像后，可以通过上述用于识别图像方向的方法来识别铭牌图像的图像方向，通过接收图像采集设备发送的图像；将图像裁剪为多个窗口图像；预测多个窗口图像中每个窗口图像的方向；通过投票算法，根据每个窗口图像的方向确定图像的方向。通过实验得出本发明实施方式与现有的未使用窗口识别图像方向的误差率降低了64％，因此本发明实施方式可以使得图像的角度识别精度较高。

进一步地，将图像的尺寸进行缩放，以得到缩放图像，可以包括：将图像的尺寸缩放到预设尺寸，其中预设尺寸为Size+(N-1)*Stride，其中，Size为预设窗口尺寸，Stride为预设窗口步长，N为预设窗口数量；依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，以得到多个窗口图像，包括：使用预设窗口依次沿着缩放图像的高度方向和宽度方向滑动并裁剪，得到多个窗口图像。通过将图像裁剪为多个窗口图像，可以便于根据每个窗口图像的方向预测图像的方向。为避免重复，这里对具体的技术方案不再赘述。

在本发明实施方式中，可以通过可微的二值化(Differentiable Binarization，DB)网络对铭牌图像进行文字检测。例如，对铭牌图像进行特征提取和分割，获取待检测的铭牌图像的文本区域概率图，再根据文本区域概率图，确定铭牌图像的文本区域二值图。其中，获取铭牌图像的文本区域概率图可以通过对铭牌图像进行特征提取，获得特征映射图。再将特征映射图进行上采样，并串联上采样后的特征；基于串联后的特征对应的特征映射图进行图像分割，获取文本区域概率图。具体地，可以使用神经网络模型的像素聚合网络(Pixel Aggregation Network，PAN)结构对铭牌图像进行特征提取，获得PAN特征提取结果；将PAN特征提取结果输入神经网络模型的DB结构进行上采样，通过DB结构对上采样后的特征进行串联；并基于串联后的特征对应的特征映射图进行图像分割，获得铭牌图像的文本区域的概率图。相比较于传统的文字检测方法，降低了检测数据计算量，节省了计算资源，提高了检测速度和效率。

在本发明的实施方式中，文本框是指通过文字检测后识别出的铭牌图片中的文本框。由于铭牌文字可能会包含空格，因此，识别出的文本框可能为多个。如图4(a)所示，图4(a)是本发明另一实施方式提供的一种文本框的示意图，该铭牌图片可以识别出四个文本框(即图4(a)的四个黑色方框)。文本行指的是，将多个文本框合并过后的包含全部铭牌文字的图片，如图4(b)所示，图4(b)是本发明另一实施方式提供的一种文本行的示意图。将多个文本框进行合并后生成文本行，便于对铭牌文字进行识别。不仅能识别无空格的文字还能识别有空格的铭牌文字，使得文字识别范围更加广泛。

在本发明的实施方式中，可以通过文字识别网络对文本行进行文字识别，例如，使用CRNN(Convolutional Recurrent Neural Network)网络进行处理，CRNN是一种End-to-End(端到端)的文字识别网络。该网络由卷积层、循环层和转录层组成。卷积层对输入的图像提取特征，得到特征图，再使用双向循环层对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布；使用转录层损失，把从循环层获取的一系列标签分布转换成最终的标签序列。具体地，铭牌图像经过卷积神经网络的卷积层提取深度特征，利用循环神经网络的循环层对深层特征进一步提取文字序列特征，最后将提取文字序列特征转录为字符。使用文字识别网络对文字进行识别，可以减小处理每次识别任务时的计算量，适应铭牌不同大小的文字，以及适应铭牌的特殊类型的文字，例如雕刻文字、手写文字等，提高处理效率。

进一步地，处理器610被配置成：

根据位于校正的铭牌图像一侧的第一文本框拟合直线；

依次合并与拟合的直线相交的其他文本框；

根据合并的文本框得到文本行。

进一步地，处理器610被配置成：

根据第一文本框第一边和第二边的中点拟合直线；

依次合并与拟合的直线相交的其他文本框，包括：

处理器610的示例可以包括但不限于通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)以及状态机等等。处理器可以执行信号编码、数据处理、功率控制、输入/输出处理。

存储器620的示例可以包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被处理器访问的信息。

在本发明的实施方式中，还提供一种机器可读存储介质，该机器可读存储介质上存储有指令，该指令用于使得机器执行时能够使得处理器执行根据之前实施方式中描述的以下中的至少一者：

用于识别图像方向的方法；

用于识别铭牌文字的方法。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施方式可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。例

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种用于识别铭牌文字的方法，其特征在于，所述方法包括：

获取图像采集设备发送的铭牌图像；

使用用于识别图像方向的方法来识别所述铭牌图像的图像方向，并根据识别出的图像方向对所述铭牌图像的方向并进行校正；其中，所述用于识别图像方向的方法包括：接收图像采集设备发送的图像；将所述图像的尺寸进行缩放，以得到缩放图像；依次沿着所述缩放图像的高度方向和宽度方向滑动并裁剪，以得到多个窗口图像；预测所述多个窗口图像中每个窗口图像的方向；通过投票算法，根据所述每个窗口图像的方向确定所述图像的方向；

通过可微的二值化网络对校正后的铭牌图像进行文字检测以得到多个文本框；

根据位于所述校正后的铭牌图像一侧的第一文本框拟合直线；

依次合并与拟合的直线相交的其他文本框；

根据合并的文本框得到文本行；

通过文字识别网络对所述文本行进行文字识别；

其中，所述根据位于所述校正后的铭牌图像一侧的第一文本框拟合直线，包括：

根据所述第一文本框第一边和第二边的中点拟合直线，其中，所述第一边为所述第一文本框的左边，所述第二边为所述第一文本框的右边；

所述依次合并与拟合的直线相交的其他文本框，包括：

如果所述拟合的直线与所述第一文本框的相邻文本框相交，则合并所述第一文本框及所述第一文本框的相邻文本框。

2.根据权利要求1所述的方法，其特征在于，所述将所述图像的尺寸进行缩放，以得到缩放图像，包括：

将所述图像的尺寸缩放到预设尺寸，其中所述预设尺寸为Size+(N-1)*Stride，Size为预设窗口尺寸，Stride为预设窗口步长，N为预设窗口数量；

所述依次沿着所述缩放图像的高度方向和宽度方向滑动并裁剪，以得到所述多个窗口图像，包括：

使用预设窗口依次沿着所述缩放图像的高度方向和宽度方向滑动并裁剪，得到所述多个窗口图像。

3.一种用于识别铭牌文字的装置，其特征在于，被配置成执行根据权利要求1至2中任一项所述的用于识别铭牌文字的方法。

4.一种机器可读存储介质，其特征在于，该机器可读存储介质上存储有指令，该指令用于使得机器执行根据权利要求1至2中任一项所述的用于识别铭牌文字的方法。