CN116189165A

CN116189165A - 烟草样品瓶标签的光学字符识别方法

Info

Publication number: CN116189165A
Application number: CN202310038446.2A
Authority: CN
Inventors: 周芸; 梁海玲; 王艳伟; 昊晶晶; 兰柳妮; 潘玉灵; 覃斌
Original assignee: China Tobacco Guangxi Industrial Co Ltd
Current assignee: China Tobacco Guangxi Industrial Co Ltd
Priority date: 2023-01-05
Filing date: 2023-01-05
Publication date: 2023-05-30

Abstract

本发明提出了一种烟草样品瓶标签的光学字符识别方法，包括以下步骤：S`，采用CTPN对采集的图像进行识别得到多个文本建议框，以及确定各文本建议框的连接情况；然后由文本连接算法对文本建议框合并，构成目标区域；S2，将目标区域输入CRNN模型进行解码，得到的文本序列即是最终的识别出的文本信息。本发明能够对样本信息进行提取并自动录入，减少人工的操作量，提高检测效率。

Description

烟草样品瓶标签的光学字符识别方法

技术领域

本发明涉及图像识别技术领域，特别是涉及一种烟草样品瓶标签的光学字符识别方法。

背景技术

信息技术的迅猛发展为传统生产企业提供了新的发展机遇，烟草的检测流程与工业互联网相结合，融入自动化数据采集。目前对烟草的检测流程的数据存取还依赖人工输入输出，各个设备在汇总信息制表时需要手动输入样品编号等标签标注的信息和检测数据。人工对检测数据的输入输出效率较低，人工参与的环节越多，整体检测时间越长，并且通过人工的采集信息的成本也高。

目前的烟草样品瓶标签的光学字符识别方法多基于深度学习模型构建多层视觉感知机，采用Resnet、Densenet、Inception以及基于此改进的神经网络结构取得了不错的效果。同时也存在一些问题：图片识别、鉴定的准确度不高，例如，未能准确识别年幼宝宝相册、视频中的不合规的内容；另一方面，由于晒的图片涉及的场景很复杂，现有的OCR(Optical Character Recognition，光学字符识别)算法所构建的文字识别的模型对于社区图片上所呈现的文字识别效果较弱。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种烟草样品瓶标签的光学字符识别方法。

为了实现本发明的上述目的，本发明提供了一种烟草样品瓶标签的光学字符识别方法，包括以下步骤：

S1，采用CTPN网络对采集的图像进行识别得到多个文本建议框，以及确定各文本建议框的连接情况；然后由文本连接算法对文本建议框合并，构成目标区域；

S2，将目标区域输入CRNN模型进行解码，得到的文本序列即是最终的识别出的文本信息。

进一步地，在步骤S1中对得到的文本建议框进行角度补偿，包括以下步骤：

S1-1，通过最小二乘法对相邻文本建议框的中心点进行拟合操作，得到与各文本建议框中心点欧几里得距离之和最小的直线为中心线，然后通过公式(2)(3)求得中心线的截距和斜率；

/>

其中k表示截距；

m为需合并文本建议框的个数；

y_i表示第i个文本建议框的y坐标；

x_i表示第i个文本建议框的x坐标；

表示文本建议框x坐标的均值；

b表示斜率；

S1-2，对文本建议框进行角度补偿：

首先要使用文本建议框合并后生成的文本框的左上和右下的x坐标，使用这两个x坐标在带入上下两条斜线，求得四个交点，获得的四个点构成一个平行四边形；

根据中心线的截距b_c结合相邻文本建议框平均高度h来求出上下两条直线的截距b₁，b₂，其中b₁为b_c加平均高度的一半，b₂为减掉平均高度的一半；

随后使用中心线的斜率k_c即上下两条线的斜率，即可得到上下边界的两条直线，将x₁，x₂代入上下边界直线即可得出y₁，y₂，y₃，y₄；

其中h_i表示第i个文本建议框的高度。

由于CTPN建议框组合时以竖直方向上的重合度为门限值，只有达到门限值才会视为同一连接，这导致倾斜文本容易被识别为不同连接，造成错误识别或重复识别。由于实际拍摄中存在的文本倾斜问题，对倾斜文本的识别需要对文本建议框进行角度补偿，通过添加倾斜矫正，将计算竖直方向重合度的门限值适当调低，可使其能够适应具有一定倾角的文本，能将竖直方向差距很大的文本建议框进行连接。

本文中的锚框为初始生成框，锚框经过回归操作得到文本建议框，文本建议框合并后简称为文本框。锚框约等于文本建议框，文本建议框合并得到文本框。

进一步地，还包括：

S1-3，将平行四边形补全为矩形：以三角形竖直的边为d_y为底，高为d_x，补全后右上点的坐标为(x₄+d_x，y₂+d_y)；补全后左下点的坐标为(x₁-d_x，y₃-d_y)。补全三角形以d_x为界划分为上下三角形，根据相似三角形定理可求出补全三角形直角处坐标。

进一步地，所述CTPN网络的损失函数为：

其中，N_s表示分类任务的样本数量；

i表示分类任务第i个锚框；

表示分类损失；

s_i为前后景分类预测结果；

为前后景分类真实结果；/>

λ₁、λ₂为超参数，平衡各任务的损失；

N_v表示回归任务的样本数量；

j表示坐标回归任务中第j个有效锚框；

表示建议框坐标回归损失；

v_j为建议框坐标偏移；

为真实建议框坐标；

N_o表示边界回归任务的样本数量；

k表示边界回归任务中第k个锚框；

表示边界回归损失；

o_k为边界校准结果；

为真实边界。

进一步地，在步骤S2之前，对CTPN输出的目标区域图像高度进行调整，令目标区域图像高度与CRNN的输入图片高度相一致。

进一步地，所述CRNN模型包括：卷积层、循环层和转录层，

所述卷积层为8层卷积结构，并以每两个卷积层为一组，每组卷积层之间接一个池化层；且卷积层后面均添加有批标准化层和激活函数。

在特征提取层每一次卷积操作之后，添加批标准化层使数据归一化，有助于加速模型收敛。并且，由于字符通常不会过长，因此由字符的每部分提取出的特征向量中，其感受野的特征的表达不会出现较大偏差，使归一化操作不会严重影响预测能力，使得深层双向LSTM的抽象能力得以很好表达。

此外，将卷积操作、归一化操作和激活操作组合，通过堆叠组合来达到很好的提取特征向量的目的。

进一步地，所述CRNN模型还包括：通过构筑残差块，来保证经过了多层的卷积操作后，每一层的数据信息能够比上一层的更加丰富，使序列信息特征保存更加完整：

y＝h(x)+f(x，w) (8)

其中h(x)是直接映射，通过卷积对特征信息进行提取，并输出的特征信息大小和残差块的保持一致；

f(x，w)是残差部分，是经过残差块的直接输出。

最后将直接映射和残差部分的加和经过激活操作后，输出到下一层网络中。

综上所述，由于采用了上述技术方案，本发明能够对样本信息进行提取并自动录入，减少人工的操作量，提高检测效率。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明的结构示意图。

图2是CTPN算法结构图。

图3是CRNN算法示意图。

图4是本发明的倾斜示意图。

图5是本发明的补正示意图。

图6是本发明实施例的补正示意图。

图7是本发明实施例验证集样本部分展示示意图。

图8是本发明实施例部分结果展示示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

如图1所示，本发明提供了一种烟草样品瓶标签的光学字符识别方法，用于提高烟草样品瓶标签的文本准确率，包括以下步骤：

S1，采用CTPN对采集的图像进行识别得到多个文本建议框，然后由文本连接算法对文本建议框合并，构成目标区域即文本区域。

由于CRNN识别模块输入图片高度为32，对CTPN输出的文本区域图像高度调整为32。

S2，再传入CRNN模型进行解码，得到的文本序列即是最终的识别出的文本信息。

CTPN模型用于进行横向文本检测，具体结构如图2所示，主要由三部分组成：VGG16网络、BLSTM网络和全连接层。特征图通过VGG-16网络得到N×C×H×W大小的Conv5特征图(N、C、H、W分别是批量大小、通道数、高度以及宽度)。在这个特征图上，通过3×3的滑动窗口，使通道数C增加至9C，将其调整为(NH)×W×9C的数据，然后以Batch(NH)且最大时间长度T_max＝W的数据流输入到BLSTM网络学习每一行序列特征。BLSTM的输出(NH)×W×256调整为N×256×H×W使其既包含空间特征，也包含序列特征。再将前面的输出送入到全连接层中，随后得到的数据再输入到一个RPN网络中得到text proposals。RPN通过边界框回归和锚框坐标微调生成建议框。CTPN将全连接层的输出再分别传入三个全连接层，verticalcoordinate预测中心位置的高(y坐标)和矩形框的高度，Score预测anchor中是否包含文本，side-refinement预测每个proposal的水平平移量。得到的数据再通过Softmax操作并结合生成建议框的算法得到目标区域。

CTPN的文本区域选取类似Faster-RCNN中的RPN网络，即在特征图上做3*3的滑窗，通过固定anchor的宽度并在水平方向滑动实现建议框的选取。但滑窗对应的感受野和送入BLSTM的时空序列限制了CTPN对于倾斜程度较大的文本的定位能力。因此，本发明对CTPN识别倾斜文本的能力进行了优化：通过添加倾斜矫正，将计算竖直方向重合度的门限值适当调低，可使其能够适应具有一定倾角的文本。可将竖直方向差距很大的文本建议框进行连接。

CTPN是先确定各文本建议框的连接情况，最后再由相应函数来构成目标区域。由于同一文本序列的文字，即使都是倾斜的，倾斜角度往往也是大体一致的，因此如果能找到某种表达这样倾角的斜线，再将建议框根据斜线进行补正，就可构成倾斜的目标区域。通过最小二乘法对相邻文本候选框的中心点进行拟合操作，得到与各锚框中心点欧几里得距离之和最小的直线为中心线。

其中k，b分别表示截距和斜率；

f(x)为预测值，y为真实值，m为需合并锚框的个数。

通过公式(2)(3)可得中心线的截距b_c和斜率k_c。如图4(a)所示。

对倾斜文本的识别需要对锚框进行角度补偿。首先要使用文本框的左上和右下的x坐标，使用这两个x坐标在上面求出的上下两条斜线的四个交点。如图4(b)所示，获得的四个点构成一个平行四边形。其中x₁＝x₃，x₂＝x₄。根据中心线的截距b_c结合相邻文本建议框平均高度h来求出上下两条直线的截距b₁，b₂。b₁为b_c加平均高度的一半，b₂为减掉平均高度的一半。随后使用中心线的斜率k_c上下两条线的斜率，即可得到上下边界的两条直线，将x₁，x₂代入上下边界直线即可得出y₁，y₂，y₃，y₄。

由于输入CRNN的目标区域要求为矩形，故需将平行四边形补全为矩形。如图5所示，虚线围成的三角形即是平行四边形右边界所需补正的部分，以三角形竖直的边为d_y为底，高为d_x，右上补全坐标为(x₄+d_x，y₂+d_y)。补全三角形以d_x为界划分为上下三角形，根据相似三角形定理可求出补全三角形直角处坐标。左半部分同理。

CTPN是先确定各文本建议框的连接情况，最后再由相应函数来构成目标区域。由于同一文本序列的文字，即使都是倾斜的，倾斜角度往往也是大体一致的，因此如果能找到某种表达这样倾角的斜线，再将建议框根据斜线进行补正，就可构成倾斜的目标区域。本文使用的斜线是各文本建议框的中心的连线，但由于各中心点存在一定偏差，很难直接定位到一条倾斜直线上，因而需要使用各中心点的(x，y)坐标进行直线的拟合。可得到中心线的截距b_c和斜率k_c。还需使用各文本建议框的一条竖直边的上下两点去分别拟合两条直线，这里使用的是左边的上下两点，也即左上点和左下点，考虑文本建议框还存在高度上的差距，如果忽视这一点，很可能使局部较高的文本丢失特征，即得到三条拟合直线。因为文本建议框宽度固定，高度不定，考虑高度不一致，所以使用相邻文本建议框的平均高度，作为后续求上下边界截距的值。

由于建议框进行一定旋转，故需要求出目标区域四角各点的x，y坐标进行角度补偿。其中四角各点的x，y坐标是神经网络在识别过程中生成文本建议框的坐标信息。首先要使用文本框的最左和最右的x坐标，使用这两个x坐标在上面求出的上下两条斜线的四个交点。如图4(b)所示，获得的四个点构成一个平行四边形。

其中x₁＝x₃，x₂＝x₄，而y₁，y₂，y₃，y₄则是使用中心线的截距b_c和文本建议框的平均高度求出的。首先根据中心线的截距b_c结合前面求出的平均高度即相邻的文本建议框的平均高度来求出上下两条直线的截距b₁，b₂。b₁为b_c加平均高度的一半，b₂为减掉平均高度的一半。随后使用中心线的斜率k_c上下两条线的斜率，即可得到上下边界的两条直线。

图4(b)所示平行四边形并非所选取的目标区域，由于输入CRNN的目标区域要求为矩形，故需其补全为矩形。如图5所示，应该由点(x₃，y₃)和点(x₂，y₂)来分别向对向的边界线做垂线才能补齐目标区域。

图5虚线围成的三角形即是平行四边形右边界所需补正的部分，设三角形竖直的边为d_y，以d_y为底高为d_x，(x₂，y₂)是补全区域右下点的坐标，而右上角的坐标需要(x₄+d_x，y₄-d_y)。使用(x₃，y₃)与(x₄，y₄)即可求出平行四边形的底边长，让y₃-y₄的结果比上底边长可得到一个sin函数值，而使用y₄-y₂的结果乘上这个sin函数值可求得补正三角形的斜边长，根据相似三角形定理，可知d_y就是这个斜边长乘上sin函数值，进而d_x也可求出，就可得到目标区域右半部分的四个坐标了，左半部分同理可求，进而一个带有倾角的矩形框就被求出了，这可在一定程度上增强CTPN适应倾斜文本的能力。如图6所示，识别结果存在一定倾斜，使建议框更好的框选文本区域。可以看出在一定角度内的适应能力，而真实应用场景中，虽然会出现一定的倾角，但是倾斜程度往往不会过大，一般为0～30°，使得这样的改进有一定的应用空间。

以图6为例，可以看到“广西中烟检测中心检测样品(监督检测)”这一行的文本是沿一定倾角倾斜的，而经过对建议框的修正后，可以看到框选它的部分文字的建议框也是倾斜的，而并非是边界与图片边界平行的矩形框。这样得到的矩形区域为后面CRNN进行预测提供了便利。改进的CTPN网络的损失函数会有三个部分，分别包含前景背景分类误差，竖直方向的y坐标和高度h的偏移回归误差，以及针对边界的矫正误差。损失函数公式如下：

其中，s_i为前后景分类预测结果，

为前后景分类真实结果，v_j为建议框坐标偏移，

为真实建议框坐标，o_k边界校准结果，/>

真实边界。N_s、N_v、N_o表示各个任务的样本数量，

分别表示分类损失、建议框坐标回归损失、边界回归损失，λ₁、λ₂为超参数，平衡各任务的损失，i、j、k分别表示分类任务i个锚框、坐标回归任务中第j个有效锚框、边界回归任务中第k个锚框。

CRNN模型用于实现端到端的对不定长的文本序列的识别工作，具体流程如图3所示。将文本作为一个序列进行预测，可以解决单个字符难以切割的问题。不用先对单个文字进行切割，而是将文本识别转化为时序依赖的序列学习问题。CRNN的结构类似CTPN，均为先提取特征再学习序列特征，区别在于CTPN使用循环神经网络的输出来矫正预测值，而CRNN则使用循环神经网络的输出来转录为字符序列，其主要由三部分组成：卷积层(Convolutional Layers)，循环层(Recurrent Layers)，转录层(Transcription Layers)。CRNN根据预先设计的字符集的编码来构建图像信息和文本信息之间的抽象联系，将字符数据和其ASCII值构成一一对应关系的方式构建字典，减小字符数据存在二义性的可能性，同时字典中还预留了一个给空格的编码。

卷积层使用7层卷积结构，在最后一层卷积后经过一个批标准化层和激活的操作后，将特征信息高度调整为1，并输入到循环层学习序列信息；循环层传入的特征向量宽度对应时序上的生成顺序，传入深层LSTM网络得到分类信息；转录层将深层双向LSTM网络中输出的预测分类值，看作是指向预先设计的字符字典中的坐标值，key值为ASCII值，value值为该字符在字符集中的下标i。实际使用时，根据key值，进行匹配预先囊括进字符集的ASCII值，就能得到value值。即把分类信息转化为字符信息，从而提高网络识别效果。

此前的网络中由于共享权重，在面对长度较长的关系时，会使序列信息进行学习时遗忘距离较远的信息，从而在计算前期关系时发生梯度消失即丧失信息间的长期依赖，致使上下文信息的提取受制于一定的范围内，不利于深层双向LSTM网络发挥挖掘更深层次抽象的能力。因而，CRNN的卷积层会添加批标准化层，使用批标准化层来使每batch的均值和方差调整到标准正态分布上去。据此思想，为了加速模型收敛，本文在特征提取层每一次卷积操作之后，添加批标准化层使数据归一化。由于字符通常不会过长，因此由字符的每部分提取出的特征向量中，其感受野的特征的表达不会出现较大偏差，使归一化操作不会严重影响预测能力，使得深层双向LSTM的抽象能力得以很好表达。

经过CNN层提取特征后，使特征向量的宽度为1，其中宽度与下层网络输入有关；这样的特征向量的序列正好按照时序，对应上字符信息的出现顺序，可使感受野内的信息得以最大化利用，为了保证这样的设计不变，不对4个最大池化层做改动，将原先的7层卷积结构改为8层，并以每两个卷积层为一组，在每组的两个卷积层之间不加池化层，只有在数据通过两次卷积层后，才会接一次池化层。且卷积层后面，添加批标准化层和激活函数，将卷积操作改到池化层前面，保证在卷积操做后，进行归一化和激活，然后每两次这样的组合操作完成后再进行一次池化。

将卷积操作、归一化操作和激活操作组合，通过堆叠组合来达到很好的提取特征向量的目的。除了添加更多的归一化操作，借鉴ResNet残差网络的思想，对CNN层的网络结构进行改进。通过构筑残差块，来保证经过了多层的卷积操作后，每一层的数据信息能够比上一层的更加丰富，使序列信息特征保存更加完整。

y＝h(x)+f(x，w) (8)

其中h(x)是直接映射，通过卷积对特征信息进行提取，并输出的特征信息大小和残差块的保持一致。另一部分f(x，w)是残差部分，是经过残差块的直接输出。最后将直接映射和残差部分的加和经过激活操作后，输出到下一层网络中。

具体实施例：

本文使用场景文本检测中常用的数据集ICDAR 2017 RCTW。数据集的图片中的文本多是中文，数据集均为真实场景拍摄，数据多为标志牌上的文字，因而可以用于在真实场景下针对中文文本的识别问题。该数据集一共有12263张图像，把其中的8034张作为训练集，剩下的4229张作为测试，并使用50张样品瓶标签作为验证集，验证集样本部分展示如图7所示。训练环境为CUDA11.1的Ubuntu和NVIDIA RTX3090(24G)，Python3.8.3和PyTorch1.8.0。

首先，借助CTPN网络，提取出拍摄图片中存在文本的区域，随后输入CRNN网络，识别目标区域中的文本序列。如图8所示，每组第一行是CPTN提取文本区域的结果，第二行图片是CRNN识别提取出的文本序列的结果。其中第一张图片上的百分数是文本区域的得分值，这个得分值是经过全连接网络给出的输出，再经过Softmax处理后，得到的前景背景分类概率。

本文使用准确率、精确率和召回率为模型评价指标，公式如下：

其中，TP(True Positive)表示将样本预测为正类且预测正确的样本数，TN(TrueNegative)表示将样本预测为负类且预测正确的样本数，FP(False Positive)表示将样本预测为正类且预测错误的样本数，FN(False Negative)表示将样本预测为负类且预测错误的样本数。

CTPN模型在测试集上测试结果如表1所示。预测框与真实框交并比小于0.3，则认为是背景，反之为前景。改进的CTPN文本区域识别准确率达92.19％，准确率和召回率分别为83.59％，90.80％。

表1 CTPN测试结果

准确率(Accuracy)	精确率(Precision)	召回率(Recall)
			92.19％	83.59％	90.80％

改进的CTPN对于较为清晰，文本排列与水平方向角度偏移较小的样本可以准确识别，但对于样品瓶标签上倾斜、变形的文字也能将其进行选取，依然存在无法提取文本区域的情况。通过对实验结果分析，验证集中图像存在字体变形或倾斜角度过大等情况时，会使原本字体的特征表征的不是很清晰，可能导致网络无法将其作为文本来看待；还由于部分预测锚框与真实字体锚框的偏差较大，无法进行线性回归变换导致特征丢失；另外在文本序列连接算法中，可能存在竖直方向上的重合水平不达标，导致无法构成链接，使存在文本区域无法被提取出来的情况。考虑有些边缘部分的文本本身就难以识别，即使CTPN能够提取文本区域，CRNN的识别模块也无法进行识别，结合实际使用场景，可以认为改进后CTPN在文本特征表达清晰的区域有较好的区域提取能力，可以一定程度上适应有一定曲度的圆柱体表面文本的倾斜和弯曲现象。

CRNN在测试集上测试结果如表2所示，本文针对烟草化学样品瓶多为圆柱体使文字出现倾斜变形问题，对CRNN添加批处理层和残差结构。改进后准确率提高2.13个百分点。

表2 CRNN测试结果

	原始CRNN	改进CRNN
			准确率	78.96％	81.09％

改进的CRNN，可以对大部分文本进行识别，但依旧存在部分文字无法识别的情况，一是汉字数量多、字体多，训练集样本不足导致网络泛化能力不够；二是网络在提取特征时，字体的原本特征表征的不明显或者与其他结构相近的字体特征混淆；三是文本倾斜和变形过大，导致CRNN无法进行识别。由于CRNN对于样本的要求比较严格，在很多情况下，如果字体特征变样，很可能网络无法充分学习到这样的特征，使得网络不能在实际应用场景中表现得足够出色。

本文基于已有文献和领域内较为成熟的CTPN和CRNN组合方法，针对化学样品瓶标签上的文本的场景文本检测问题，参照CTPN+CRNN的实现方案，分别改进了文本检测算法和文本识别算法。通过对CTPN识别倾斜文本的能力进行了优化，使模型应对倾斜文本的能力得到增强；以及对CRNN网络的CNN层进行了改进，对CRNN的训练数据使用各种功能函数进行了加噪的操作，使得模型增强了一定的抗干扰能力，具体为：对数据集图像加入高斯噪声和动态模糊模拟干扰环境；使用伽马变换、自适应直方图变换、随机亮度等方法增强图片对比度，用于提高网络获取目标信息的能力。并达到81.09％的准确率。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。