CN109886174A

CN109886174A - 一种仓库货架标识牌文字识别的自然场景文字识别方法

Info

Publication number: CN109886174A
Application number: CN201910112721.4A
Authority: CN
Inventors: 吴成东; 陆正; 张亚平
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2019-06-14

Abstract

本发明提供一种仓库货架标识牌文字识别的自然场景文字识别方法，至少包括以下步骤：搭建待识别标识牌文本检测网络；所述待识别标识牌文本检测网络的具体结构为：来自VGG‑16的13个卷积层，卷积层为10个特征提取的额外的卷积层的全卷积网络，以及6个连接到6个中间卷积层的文本框层；保留所述VGG‑16的13个卷积层，将所述VGG‑16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。本发明提供一种用于仓库货架标识牌文字识别的自然场景文字识别方法，可以在物流仓库环境中有较高的自然场景文字识别的准确率、精确率和召回率的同时，也有着很好的效率。

Description

一种仓库货架标识牌文字识别的自然场景文字识别方法

技术领域

本发明涉及文字识别的技术领域，具体而言，尤其涉及一种仓库货架标识牌文字识别的自然场景文字识别方法。

背景技术

自然场景文字识别技术不同于传统OCR(光字符识别)技术目前可以分成两个部分：文本检测与文字识别。文本检测有如下方法：CTPN方案中，用BLSTM模块提取字符所在图像上下文特征，以提高文本块识别精度。RRPN等方案中，文本框标注采用BBOX+方向角度值的形式，模型中产生出可旋转的文字区域候选框，并在边框回归计算过程中找到待测文本行的倾斜角度。DMPNet等方案中，使用四边形(非矩形)标注文本框，来更紧凑的包围文本区域。SegLink将单词切割为更易检测的小文字块，再预测邻近连接将小文字块连成词。TextBoxes等方案中，调整了文字区域参考框的长宽比例，并将特征层卷积核调整为长方形，从而更适合检测出细长型的文本行。FTSN方案中，作者使用Mask-NMS代替传统BBOX的NMS算法来过滤候选框。WordSup方案中，采用半监督学习策略，用单词级标注数据来训练字符级文本检测模型。

现有技术中，常见的文字识别方法：CRNN是目前较为流行的图文识别模型，可识别较长的文本序列。它包含CNN特征提取层和BLSTM序列特征提取层，能够进行端到端的联合训练。它利用BLSTM和CTC部件学习字符图像中的上下文关系，从而有效提升文本识别准确率，使得模型更加鲁棒。预测过程中，前端使用标准的CNN网络提取文本图像的特征，利用BLSTM将特征向量进行融合以提取字符序列的上下文特征，然后得到每列特征的概率分布，最后通过转录层进行预测得到文本序列。

RARE在识别变形的图像文本时效果很好。模型预测过程中，输入图像首先要被送到一个空间变换网络中做处理，矫正过的图像然后被送入序列识别网络中得到文本预测结果。空间变换网络内部包含定位网络、网格生成器、采样器三个部件。经过训练后，它可以根据输入图像的特征图动态地产生空间变换网格，然后采样器根据变换网格核函数从原始图像中采样获得一个矩形的文本图像。RARE中支持一种称为TPS的空间变换，从而能够比较准确地识别透视变换过的文本、以及弯曲的文本。

此外还有所谓端到端模的方法，即一站式直接从图片中定位和识别出所有文本内容来，有如下方法：

FOTS是图像文本检测与识别同步训练、端到端可学习的网络模型。检测和识别任务共享卷积特征层，既节省了计算时间，也比两阶段训练方式学习到更多图像特征。引入了旋转感兴趣区域,可以从卷积特征图中产生出定向的文本区域，从而支持倾斜文本的识别.

STN-OCR是集成了了图文检测和识别功能的端到端可学习模型。在它的检测部分嵌入了一个空间变换网络来对原始输入图像进行仿射变换。利用这个空间变换网络，可以对检测到的多个文本块分别执行旋转、缩放和倾斜等图形矫正动作，从而在后续文本识别阶段得到更好的识别精度。在训练上STN-OCR属于半监督学习方法，只需要提供文本内容标注，而不要求文本定位信息。作者也提到，如果从头开始训练则网络收敛速度较慢，因此建议渐进地增加训练难度。STN-OCR已经开放了工程源代码和预训练模型。

随着物流行业的发展智慧物流将成为该行业发展的主要方向，由于物流规模的逐渐扩大，在物流仓库中货架标识牌的数量越来越多，现有的自然场景文字识别技术缺少应用于物流仓库环境中的，并且准确率、精确率和召回率都不是非常理想。

发明内容

根据上述提出准确率、精确率和召回率都不是非常理想的技术问题，而提供一种仓库货架标识牌文字识别的自然场景文字识别方法。本发明主要利用一种仓库货架标识牌文字识别的自然场景文字识别方法，至少包括以下步骤：

S1：搭建待识别标识牌文本检测网络；所述待识别标识牌文本检测网络的具体结构为：来自VGG-16的13个卷积层，卷积层为10个特征提取的额外的卷积层的全卷积网络，以及6个连接到6个中间卷积层的文本框层；保留所述VGG-16的13个卷积层，将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层。

进一步地，所述文本框层的每个位置预测每个默认框的n维向量，包括通过iot方法计算文本存在分数，水平边界矩形偏移和旋转矩形边界框偏移或四边形边界框偏移；所述文本框图层均为3*5像素的卷积核；通过非最大抑制方法，合并所述6个文本框层的结果。

进一步地，S2：默认边框垂直偏移；所述文本检测网络的输出边界框包括：定向边界框{q}或{r}，其中，q表示长方形边框r表示旋转边框；通过预测每个位置的多个预先设计的水平默认框的偏移回归计算所述定向边界框的最小水平边界矩形{b}；设置所述默认框的宽高比分别为：1、2、3、5、7、10。

更进一步地，S3：训练数据集；训练过程分三个阶段首先是预训练阶段，训练一阶段，训练二阶段；所述预训练阶段分别采用10-4，10-4，10-5的学习率，分别迭代60000次，20000次，30000次，采用COCO-Text数据集；

更进一步地，S4：通过损失函数实现梯度下降寻找最优值；对于第i个默认框和第j个实际框，x_ij＝1表示在它们之间的框重叠之后匹配，否则x_ij＝0；设c为置信度，l为预测位置，g为实际位置，则所述损失函数定义为：

其中，N表示与所述实际框匹配的所述默认框的数量，L_loc采用平滑L1正则，对L_conf采用二分类softmax；

更进一步地，S5：在线强负样本开采；通过SSD强负样本开采策略，第一阶段的负样本和正样本之间的比率设定为3：1，然后第二阶段的比率变为6：1，三个训练阶段分别采用3，3，6的强负样本开采负比率。

进一步地，S6：对所述训练数据集进行扩充；通过随机裁剪策略，将最小重叠或覆盖阈值随机设置为0、0.1、0.3、0.5、0.7和0.9；将每个裁剪区域调整为固定大小的图像，并输入网络。

进一步地，所述步骤S1文字识别的框架搭建的具体方法为：

S11：搭建全卷积层，从输入图像中提取特征序列，卷积层的分量是通过从标准DCNN模型中取出卷积和最大池化层来构建的，即去掉所有全连接层；

S12：采用LSTM网络搭建循环层，预测每帧的标签分布；

S13：搭建转录层，将每帧预测转换为最终标签序列，CTC作为输出层。

更进一步地，文字识别网络的训练方法为：通过随机梯度下降SGD进行训练并将梯度由反向传播算法计算；在转录层中，误差偏差与前向后向算法反向传播，在循环层中，应用反向传播时间(BPTT)来计算误差。

较现有技术相比，本发明具有以下优点：本发明提供一种用于仓库货架标识牌文字识别的自然场景文字识别方法，可以在物流仓库环境中有较高的自然场景文字识别的准确率、精确率和召回率的同时，也有着很好的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明整体流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

作为优选的实施方式，一种仓库货架标识牌文字识别的自然场景文字识别方法，至少包括以下步骤：

在本实施方式中，所述文本框层的每个位置预测每个默认框的n维向量，包括通过iot方法计算文本存在分数，水平边界矩形偏移和旋转矩形边界框偏移或四边形边界框偏移；所述文本框图层均为3*5像素的卷积核；通过非最大抑制方法，合并所述6个文本框层的结果。可以理解为，在其它实施方式中，还可以根据实际情况选择文本框的大小。

在本实施方式中，所述步骤S1文字识别的框架搭建的具体方法为：

S12：采用LSTM网络搭建循环层，预测每帧的标签分布；

作为优选的实施方式，步骤S2：默认边框垂直偏移；所述文本检测网络的输出边界框包括：定向边界框{q}或{r}，其中，q表示长方形边框r表示旋转边框；通过预测每个位置的多个预先设计的水平默认框的偏移回归计算所述定向边界框的最小水平边界矩形{b}；设置所述默认框的宽高比分别为：1、2、3、5、7、10。可以理解为在其它的实施方式中，还可以按照实际待检测的文本框的尺寸选择高度比，只要能够满足能够有效的优化即可。

在本实施方式中，步骤S3：训练数据集；训练过程分三个阶段首先是预训练阶段，训练一阶段，训练二阶段；所述预训练阶段分别采用10-4，10-4，10-5的学习率，分别迭代60000次，20000次，30000次，采用COCO-Text数据集。

在本实施方式中，步骤S4：通过损失函数实现梯度下降寻找最优值；对于第i个默认框和第j个实际框，x_ij＝1表示在它们之间的框重叠之后匹配，否则x_ij＝0；设c为置信度，l为预测位置，g为实际位置，则所述损失函数定义为：

其中，N表示与所述实际框匹配的所述默认框的数量，L_loc采用平滑L1正则，对L_conf采用二分类softmax。

作为优选的实施方式，步骤S5：在线强负样本开采；通过SSD强负样本开采策略，第一阶段的负样本和正样本之间的比率设定为3：1，然后第二阶段的比率变为6：1，三个训练阶段分别采用3，3，6的强负样本开采负比率。

在本实施方式中，S6：对所述训练数据集进行扩充；通过随机裁剪策略，将最小重叠或覆盖阈值随机设置为0、0.1、0.3、0.5、0.7和0.9；将每个裁剪区域调整为固定大小的图像，并输入网络。

在本实施方式中，文字识别网络的训练方法为：通过随机梯度下降SGD进行训练并将梯度由反向传播算法计算；在转录层中，误差偏差与前向后向算法反向传播，在循环层中，应用反向传播时间(BPTT)来计算误差。

作为本申请的一种实施例，为了让相关领域技术人员更好地理解本方法，下面将结合实例，对本发明做进一步的详细说明。本实例在系统版本为Ubuntu14.10，装备GTX1080Ti的个人电脑上进行，完成物流仓库的自然场景文字识别的任务。

本实例针对京东沈阳亚洲一号分拣中心的物流仓库环境，进行仓库标识牌的自然场景文字识别。

首先在物流仓库内取景拍照，共拍400张清晰照片分辨率为1024*1024。然后在系统版本为Ubuntu14.10，装备GTX1080Ti的个人电脑上，分别搭建文字检测网络和文字识别网络。其中文字识别网络的结构包括来自VGG-16的13个卷积层，后面是10个额外的卷积层的全卷积网络。以及6个连接到6个中间卷积层的文本框层。保留VGG-16前13个卷积层，将后两个全连接层替换为参数下采样的两个卷积层。文本框图层的每个位置预测每个默认框的n维向量，包括文本存在分数(2维)，水平边界矩形偏移(4维)和旋转矩形边界框偏移(5维)或四边形边界框偏移(8维)。文本框图层均采用特殊的3*5的卷积核。最后应用非最大抑制以合并所有6个文本框图层的结果。文字识别网络的结构由三部分组成：1)全卷积层，源自VGG-VeryDeep结构从输入图像中提取特征序列，卷积层的分量是通过从标准DCNN模型中取出卷积和最大池化层来构建的，即去掉所有全连接层；2)循环层，预测每帧的标签分布，采用LSTM网络；3)转录层，将每帧预测转换为最终标签序列，CTC作为输出层。

接着按照本方法中的训练方法分别训练文字检测网络和文字识别网络，该阶段预计需要3～4天的时间。将训练好的两个模型的参数保存，然后整体封装。

依次输入物流仓库照片到文字检测网络，检测出相应的文字位置，并用绿色边框标注，输出文字检测结果。将文字检测结果生成的标注照片输入到文字识别网络，在文字检测边框附近标出所识别的具体文字。重复上述操作，得出100张物流仓库照片的自然场景文字识别结果，经过统计该方法正确率高达95％。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种仓库货架标识牌文字识别的自然场景文字识别方法，其特征在于，至少包括以下步骤：

S1：搭建待识别标识牌文本检测网络；所述待识别标识牌文本检测网络的具体结构为：

来自VGG-16的13个卷积层，卷积层为10个特征提取的额外的卷积层的全卷积网络，以及6个连接到6个中间卷积层的文本框层；保留所述VGG-16的13个卷积层，将所述VGG-16够成的两个全连接层全链接替换为参数下采样原理的两个卷积层；

所述文本框层的每个位置预测每个默认框的n维向量，包括通过iot方法计算文本存在分数，水平边界矩形偏移和旋转矩形边界框偏移或四边形边界框偏移；

所述文本框图层均为3*5像素的卷积核；通过非最大抑制方法，合并所述6个文本框层的结果；

S2：默认边框垂直偏移；所述文本检测网络的输出边界框包括：定向边界框{q}或{r}，其中，q表示长方形边框r表示旋转边框；通过预测每个位置的多个预先设计的水平默认框的偏移回归计算所述定向边界框的最小水平边界矩形{b}；设置所述默认框的宽高比分别为：1、2、3、5、7、10；

S3：训练数据集；训练过程分三个阶段首先是预训练阶段，训练一阶段，训练二阶段；所述预训练阶段分别采用10-4，10-4，10-5的学习率，分别迭代60000次，20000次，30000次，采用COCO-Text数据集；

S4：通过损失函数实现梯度下降寻找最优值；对于第i个默认框和第j个实际框，x_ij＝1表示在它们之间的框重叠之后匹配，否则x_ij＝0；设c为置信度，l为预测位置，g为实际位置，则所述损失函数定义为：

S5：在线强负样本开采；通过SSD强负样本开采策略

第一阶段的负样本和正样本之间的比率设定为3：1，然后第二阶段的比率变为6：1，三个训练阶段分别采用3，3，6的强负样本开采负比率。

S6：对所述训练数据集进行扩充；通过随机裁剪策略，将最小重叠或覆盖阈值随机设置为0、0.1、0.3、0.5、0.7和0.9；将每个裁剪区域调整为固定大小的图像，并输入网络。

2.根据权利要求1所述的一种仓库货架标识牌文字识别的自然场景文字识别方法，其特征在于：

所述步骤S1文字识别的框架搭建的具体方法为：

S12：采用LSTM网络搭建循环层，预测每帧的标签分布；

3.根据权利要求1所述的一种仓库货架标识牌文字识别的自然场景文字识别方法，其特征在于：

文字识别网络的训练方法为：通过随机梯度下降SGD进行训练并将梯度由反向传播算法计算；

在转录层中，误差偏差与前向后向算法反向传播，在循环层中，应用反向传播时间BPTT来计算误差。