CN116259050B

CN116259050B - 灌装桶标签文字定位识别方法、装置、设备及检测方法

Info

Publication number: CN116259050B
Application number: CN202310523551.5A
Authority: CN
Inventors: 霍箭东; 王玲; 张静; 张超; 许新; 丁满森; 王健; 赵天野; 赵新
Original assignee: Changchun Lanzhou Technology Co ltd; Changchun Rongcheng Intelligent Equipment Manufacturing Co ltd
Current assignee: Changchun Rongcheng Intelligent Equipment Manufacturing Co ltd
Priority date: 2023-05-11
Filing date: 2023-05-11
Publication date: 2023-07-25
Anticipated expiration: 2043-05-11
Also published as: CN116259050A

Abstract

本发明涉及灌装技术领域，提供一种灌装桶标签文字定位识别方法、装置、设备及检测方法，首先使用事先标注好的工业场景标签数据集训练YOLOv5定位模型，对输入标签图像的Logo区域进行定位，计算需要识别区域的位置，对不需要识别的区域添加掩膜，减少定位与识别范围，提高文字识别效率；其次使用事先标注好的工业场景标签数据集训练DBNet文字定位模型，获取需要识别区域文字框的位置坐标，把定位结果传递给文字识别模块；最后使用事先做好的文字识别数据集训练CRNN文字识别模型，对上阶段定位区域内的文字进行识别，输出文字识别结果，完成整个文字定位识别处理，该方法可提高文字识别效率以及识别结果的准确性。

Description

灌装桶标签文字定位识别方法、装置、设备及检测方法

技术领域

本发明涉及灌装技术领域，特别是涉及一种灌装桶标签文字定位识别方法、装置、设备及检测方法。

背景技术

近年来自然场景下的文字定位与识别技术得到了广泛的应用，但是由于工业场景背景复杂、字体多样、成像质量不佳等问题，导致文字定位识别精度低下，应用受限。在灌装技术领域，灌装桶的身份识别、传输、贴标、物流、仓储等工业场景下，都需要对灌装桶铭牌、标签等进行文字定位识别，因其工作环境恶劣，铭牌、标签经常被物料污染、腐蚀，并且铭牌、标签中包含中文、英文、符号和数字等多种字符，使得工业场景下的文字定位和识别具有很大的挑战性。

目前现有的文字定位识别软件对英文和数字的识别效果较好，但是对中文的识别准确率低，甚至大部分软件不能识别中文，因此没有办法将该技术应用到工业环境中带有中文文字的识别任务中；另外在工业环境中，灌装桶标签上内容较多，包含文字、特殊的字符和图像，使用市面提供的软件和方法也没有办法识别，因此大部分工业环境下灌装桶的标签还是依赖于人工识别，不但生产效率低，而且随着工人工作时间的增长，识别准确率也会随之下降。

发明内容

本发明的目的是提出一种灌装桶标签文字定位识别方法、装置、设备及检测方法，解决工业环境下灌装桶标签文字识别效率低、准确率差的问题。

为实现上述目的，本发明提供如下技术方案。

一方面，本申请提供一种灌装桶标签文字定位识别方法，包括以下步骤：

S10，将标签划分为显著特征区域、识别区域和掩膜区域；

S20，获取标签图像，识别定位标签图像中的所述显著特征区域，根据所述显著特征区域与所述识别区域和所述掩膜区域固定的相对位置关系，计算出所述识别区域和所述掩膜区域位置，并对所述掩膜区域添加掩膜；

S30，对上一步获得的所述识别区域内的文字进行定位，获取文字框的位置坐标；

S40，对上一步获得的所述文字框进行文字识别，输出文字识别结果。

进一步地，在执行所述步骤S20之前，还包括以下步骤：

构建工业场景下标签数据集，并对标签数据集内的标签图像的所述显著特征区域、识别区域和掩膜区域进行标注，使用标注好的工业场景下标签数据集训练神经网络定位模型。

进一步地，计算所述识别区域和所述掩膜区域位置的方法为：

首先通过所述神经网络定位模型定位所述显著特征区域的位置，得到位置坐标，并计算得到所述显著特征区域的中心点坐标；

然后根据标注好的所述识别区域和所述掩膜区域中心点与所述显著特征区域中心点的偏移量，计算出所述识别区域和所述掩膜区域的中心点坐标；

最后根据标注好的所述识别区域和所述掩膜区域的宽度和高度，计算得到所述识别区域和所述掩膜区域的位置坐标。

进一步地，所述显著特征区域的定位方法为：

S21,首先对获取的标签图像行特征提取，对输入图像进行切片操作，在不损失任何信息的情况下增加特征图的维度来缩小特征图的尺寸，使特征图在每个特征信息没有变化的前提下增加图像的特征数；然后对输入信息使用残差结构处理后再进行反向传播，采用四种尺寸的最大池化操作，然后再进行合并操作，增大特征网络的感受野，分离特征信息；

S22,经过上述处理得到的特征图，利用上采样的方式自顶向下传达强语义特征，同时使用跨阶段局部网络加强网络的特征融合能力，输出端采用加权非极大值抑制对多个目标框进行筛选，保留最优目标框。

进一步地，所述输出端对生成的特征图分别经过卷积操作生成大小为76×76× 255、38×38×255、19×19×255的特征图，做为最终的特征图用于预测目标的类别，所述神经网络定位模型使用CIOU_Loss做为损失函数，，其中， IOU代表预测框和真实框的交集面积与并集面积之比，代表预测框的中心点和真实框的中心点的欧式距离，代表预测框和真实框最小外接矩阵的对角线距离，v代表长宽比影响因子，，gt代表真实框，p代表预测框，w代表宽；h代表高，考虑重叠面积，长宽比和中心点距离，其数值越小，代表预测结果越好。

进一步地，所述步骤S30中对上一步获得的所述识别区域内的文字进行定位，获取文字框的位置坐标的方法，具体包括以下步骤：

S31,首先对所述步骤S20中添加掩膜后的标签图像进行特征提取，得到四个大小不同的特征图，再将四个特征图采用Concat方式进行融合得到最后的特征图；

S32,把得到的所述特征图输入到预测网络，得到概率图和阈值图；

S33,再将概率图和阈值图自适应二值化得到二值化预测图；

S34, 由所述概率图得到文本连通区域，最后利用偏移量将连通区域缩放得到文本区域，再经过后处理画出文本框，得到图像中文本的位置信息。

进一步地，所述步骤S40中对上一步获得的所述文字框进行文字识别，输出文字识别结果的方法，具体包括以下步骤：

S41,从上一步骤获得的标注所述文本框后的标签图像中提取特征；

S42,然后经过循环层预测真实结果的概率，循环层利用两个相连的双向LSTM网络层来预测特征序列中每个特征向量的标签分布，输出字符类别数的向量构成后验概率矩阵，然后将其传入转录层，即预测真实结果的概率列表；同时，循环层的误差可以转换成特征序列，反向传播到卷积层；

S43,最后通过转录层利用CTC模型来对循环层输出的标签分布转换为最终的识别结果，输出识别内容。

另一方面，本申请还提供一种灌装桶标签文字定位识别设备，包括处理器和存储器，所述处理器执行所述存储器中存储的计算机程序时实现上述方法。

另一方面，本申请还提供一种灌装桶标签文字定位识别装置，包括：

图像获取模块，用于获取待识别标签图像；

区域定位模块，用于识别定位标签图像中的所述显著特征区域，根据所述显著特征区域与所述识别区域和所述掩膜区域固定的相对位置关系，计算出所述识别区域和所述掩膜区域位置，并对所述掩膜区域添加掩膜；

文字定位模块，用于对所述识别区域内的文字进行定位，获取文字框的位置坐标；

文字识别模块，用于对所述文字框进行文字识别，输出文字识别结果。

另一方面，本申请还提供一种灌装桶标签文字检测方法，采用的检测系统包括上述的文字定位识别装置，以及上位机和下位机，所述文字定位识别装置同时和所述上位机和所述下位机进行通信，所述检测方法具体包括以下步骤：

步骤一，所述文字定位识别装置接收所述上位机发出的指令，对实时获取的标签图像进行文字定位和识别操作，并将识别结果返回给所述上位机；

步骤二，所述上位机将识别结果与所述下位机预设的标签信息进行比对，并根据预设的比对规则，所述上位机做出下一步指令。

与现有技术相比本发明的有益效果是：

本发明提供一种灌装桶标签文字定位识别方法，首先使用事先标注好的工业场景标签数据集训练神经网络定位模型，对输入标签图像的显著区域进行定位，计算得到需要识别区域和不需要识别区域的位置，对不需要识别的区域添加掩膜，减少定位与识别范围，提高文字识别效率；其次使用事先标注好的工业场景标签数据集训练文字定位模型，获取需要识别区域文字框的位置坐标，把定位结果传递给文字识别模块；最后使用事先做好的文字识别数据集训练文字识别模型，对上阶段定位区域内的文字进行识别，输出文字识别结果，完成整个文字定位识别处理，该方法可以提高文字识别效率以及识别结果的准确性。通过获取各种场景下的灌装桶标签图像，构建灌装桶标签数据集，训练文字定位和识别模型，保证算法能够对各种类型的标签中的各种文字进行准确的定位和识别，该方法能够识别英文、数字、中文以及特殊字符。

本发明提供一种工业环境下一种灌装桶标签文字检测方法，该方法可以根据实际生产需求，设定标签中需要识别的区域，不同的生产环境、不同类型的标签可以设定不同的识别区域；同时通过和上位机，下位机进行通信，判断桶标签文字是否和预先设定的标签内容一致，上位机根据预设规则发出进一步的指令。减轻车间工人的工作量的同时，能够提高生产效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中灌装桶标签文字定位识别方法的流程图；

图2为一个实施列中灌装桶标签文字定位识别过程示意图；

图3为一个实施列中标签图像区域划分示意图；

图4为一个实施例中标签图像各区域偏移量计算示意图；

图5为一个实施例中添加掩膜后的标签图像示意图；

图6为一个实施列中YOLOv5定位模型结构示意图；

图7为一个实施例中YOLOv5定位模型的主干网络中的Focus结构示意图；

图8为一个实施例中YOLOv5定位模型的主干网络中的CSP1_X结构的示意图；

图9为一个实施例中实施例中YOLOv5定位模型的主干网络中的SPP模块结构的示意图；

图10为一个实施例中YOLOv5定位模型中FPN结合PAN结构的Neck网络的结构示意图；

图11为一个实施例中YOLOv5定位模型中Neck网络的CSP2_X结构示意图；

图12为一个实施例中YOLOv5定位模型输出端结构示意图；

图13为一个实施例中ResNet网络结构示意图；

图14为一个实施例中标签生成过程示意图；

图15为一个实施例中位置推理过程图；

图16为一个实施例中CRNN文字识别模型的结构示意图；

图17为一个实施例中CRNN文字识别模型循环层的结构示意图；

图18为一个实施例中CRNN文字识别模型LSTM结构示意图；

图19为一个实施例中CTC模型标注过程示意图；

图20为一个实施列中灌装桶标签文字定位识别装置的结构框图；

图21为一个实施例中一种灌装桶标签文字检测方法流程图；

上述图中：1.文字定位识别装置、11.图像获取模块、12.区域定位模块、13.文字定位模块、14.文字识别模块、2.上位机、3.下位机。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明提供的一种灌装桶标签文字定位识别方法、装置、设备及检测方法，适用于工业环境下灌装桶的标签识别与检测，也可迁移应用于自控仪表、装备制造、数控机床、汽车制造、轨道交通等不同面向领域的自然场景文本识别，解决了工业场景下工作环境恶劣，标签容易被腐蚀，并且标签中包含中文、英文、符号和数字等多种字符，使得工业场景下的文字定位、识别与检测困难的问题，实现了对工业环境下标签文字更精准的识别。

标签上包含的信息较多，例如LOGO图像、常规说明信息以及桶的身份信息等，通常情况下，并不需要识别标签上所有的信息，同时标签中有很多文字不需要识别，比如标签中的一些常规说明信息等，在不同的场景下，需要识别的文字信息不同，如果对标签图像中的所有文字识别的话不但耗时，而且会增加信息筛选的难度，所以本方法可以根据业务需求将不需要识别的区域加上掩膜，只识别业务上需要识别部分的信息，提高识别效率。

在一个实施例中，提供了一种灌装桶标签文字定位识别方法包括，如图1、图2所示，所述方法包括以下步骤：

S10，将标签划分为显著特征区域、识别区域和掩膜区域；

S20，获取标签图像，识别定位标签图像中的所述显著特征区域，根据所述显著特征区域与所述识别区域和所述掩膜区域固定的相对位置关系，计算出所述识别区域和所述掩膜区域位置，并对所述掩膜区域添加掩膜。本实施例中，使用YOLOv5定位模型根据预设规则对输入的图像中需要进行文字识别的区域和不需要进行文字识别的区域的位置进行定位。

在所述步骤S20之前，通过获取各种场景下的灌装桶标签图像，构建工业场景下灌装桶标签数据集，并对标签数据集内的标签图像的所述显著特征区域、识别区域和掩膜区域进行标注，使用标注好的工业场景下标签数据集训练神经网络定位模型、文字定位和识别模型，保证能够对各种类型的标签中的各种文字进行准确的定位和识别。

参阅图3，本实施例中，将标签图像划分为显著特征区域、识别区域和掩膜区域，标注构建好的工业场景标签数据集，并训练YOLOv5定位模型，使用训练得到YOLOv5定位模型对输入的标签图像中的所述显著特征区域进行定位，根据所述显著特征区域与所述识别区域和所述掩膜区域固定的相对位置关系，计算出所述识别区域和所述掩膜区域位置。

计算所述识别区域和所述掩膜区域位置的方法为：

首先通过所述神经网络定位模型定位所述显著特征区域的位置，计算得到所述显著特征区域的中心点坐标；

最后根据标注好的所述识别区域和所述掩膜区域的宽度和高度，计算的到所述识别区域和所述掩膜区域的位置。

所述YOLOv5定位模型对同种类型标签的图像所添加掩膜区域的大小是相同的，但是由于相机在拍摄过程中标签的位置和形态略有差异，如果在标签图像的固定位置给图像添加掩膜，会导致掩膜的位置有偏差，不但可能会暴露出无用的信息，而且还有可能把有用信息遮挡住。相对于标签图像来说，每张图像中所述显著特征区域预所述识别区域和掩膜区域的相对位置关系是相同的，所以通过所述YOLOv5定位模型定位标签中所述显著特征区域的位置来确定所述识别区域和所述掩膜区域的位置。

参阅图4，作为一示例，本实施例中以标签中特征最明显的Logo作为所述显著特征区域，通过Logo的位置来确定添加掩膜的位置。

根据事先标注好的Logo区域左上角和右下角坐标计算出Logo的中心点坐标，如公式(1)和公式(2)所示。

(1)

(2)

式中，是Logo区域中心点的横坐标，是Logo区域中心点的纵坐标；、分别是Logo区域左上角横坐标和右下角横坐标；、分别是Logo区域左上角纵坐标和右下角纵坐标。

再根据事先标注好的掩码区域左上角坐标和右下角坐标计算出掩膜区域的中心点坐标，如公式(3)、公式(4)所示：

(3)

(4)

式中，是掩膜区域中心点的横坐标，是掩膜区域中心点的纵坐标，、分别是掩膜区域左上角横坐标和右下角横坐标，、分别是掩膜区域左上角纵坐标和右下角纵坐标，如图4所示，计算出Logo区域和掩膜区域中心点的横、纵坐标的偏移量、，计算方式如公式(5)和公式(6)所示。

(5)

(6)

同时，根据事先标注的信息，可以得到掩膜区域的宽度和高度。

当有一个新的图片输入，需要进行定位时，首先通过所述YOLOv5定位模型识别出 Logo区域的位置，根据公式(1)和公式(2)计算得到输入图片的Logo区域的中心坐标、。

根据公式(5)和公式(6)计算得到logo区域和掩膜区域中心点的相对偏移量和，利用公式(7)和公式(8)计算得到输入图片的掩膜区域中心点坐标和。

(7)

(8)

再根据事先标注得到的掩膜区域的宽度、掩膜区域的高度，结合上步计算得到的掩膜区域中心点坐标(,)，计算输入图片掩膜区域的左上角和右下角坐标（,）和（,），如公式(9)、公式(10)、公式(11)和公式(12)所示，从而实现对掩膜区域位置的定位。

(9)

(10)

(11)

(12)

同样，所述识别区域位置的计算方法和所述掩膜区域的计算方法相同，添加掩膜后的图片如图5所示。

使用所述YOLOv5定位模型对标签图像中的Logo进行定位，如图6所示，图6示出了本实施例中YOLOv5定位模型的结构，从相机实时获取的标签图像经过输入端处理后送入到主干网络进行特征提取，主干网络包括Focus结构、CSP1_X结构、SSP模块。

参阅图7，图7示出了本实施例中所述Focus结构，使用所述Focus结构对输入图像进行切片操作，保证在不损失任何信息的情况下通过增加特征图的维度来缩小特征图的尺寸，使特征图在每个特征信息没有变化的前提下增加图像的特征数。

参阅图8，图8示出了本实施例中所述CSP1_X结构，所述YOLOv5定位模型的骨干网络和Neck网络分别采用了不同的CSP结构，在骨干网络中采用了所述CSP1_X结构，它在加入残差结构后再进行反向传播，加强了特征融合能力，并且有效防止了梯度消失。

参阅图9，图9示出了本实施例中所述SPP模块结构，所述SPP模块采用四种尺寸的最大池化操作，然后再进行合并操作，能够增大特征网络的感受野，可以有效分离特征信息。

参阅图10，图10示出了本实施例中所述YOLOv5定位模型中的Neck网络结构，所述Neck网络采用FPN结合PAN的结构，其中，图10中的①、②、③在输出端中经过卷积操作后作为最终的特征图用于预测，所述FPN结构利用上采样的方式自顶向下传达强语义特征，提高对小目标的检测能力。所述PAN结构使底层的定位信息更好地传递到顶层，两个结构相融合，提高了对遮挡目标的测试效果。

参阅图11，图11示出了本实施例中所述YOLOv5定位模型中Neck网络中的CSP结构，所述Neck网络中的CSP结构与主干网络的CSP结构不同，所述Neck网络中的CSP结构用CSP2_X表示，这样的结构加强了网络的特征融合能力。

参阅图12，图12示出了本实施例中所述YOLOv5定位模型输出端的结构，生成三种特征图分别经过卷积操作生成大小为76×76×255、38×38×255、19×19×255的特征图，做为最终的特征图用于预测目标的类别。

所述YOLOv5定位模型使用CIOU_Loss做为损失函数，计算公式见公式(13)：

（13）

式中，IOU代表预测框和真实框的交集面积与并集面积之比，代表预测框的中心点和真实框的中心点的欧式距离，代表预测框和真实框最小外接矩阵的对角线距离，v代表长宽比影响因子，v的计算公式见公式(14)：

（14）

式中，gt代表真实框，p代表预测框，w代表宽，h代表高。

考虑了重叠面积，长宽比和中心点距离，其数值越小，代表预测结果越好，改善了模型预测效果。网络采用加权非极大值抑制对多个目标框进行筛选，保留最优目标框，提高了目标识别的准确性。

S30，使用标注好的工业场景标签数据集训练DBNet文字定位模型，使用所述DBNet文字定位模型对上一步中标注的所述识别区域内的文字进行定位，获取所述识别区域内文字框的位置坐标。

首先使用ResNet网络进行特征提取，所述ResNet网络结构如图13所示，然后使用FPN结构得到四张大小为1/4、 1/8、 1/16、 1/32的特征图，再将四个特征图分别上采样至原图的1/4大小，采用Concat方式进行融合得到特征图F，接着把特征图F输入到预测网络，得到概率图和阈值图。所述概率图表示每个像素上文本/非文本的概率；所述阈值图为阈值预测图，用来表示每个像素二值化后的值，在训练时可对其进行优化，最后将所述概率图和所述阈值图自适应二值化得到二值化预测图。基于分割的传统文字检测网络的二值化预测图是通过固定阈值获得的，计算方法如公式（15）所示：

(15)

式中，，分别表示像素（i,j）的二值化预测值和像素预测值，t为固定的二值化阈值。由于阈值对文字检测结果的影响较大，使用固定阈值的二值化函数不可微，所以所述DBNet文字定位模型提出了一种自适应阈值函数，计算如公式（16）所示：

(16)

式中，表示近似的二值化预测值，/>是从网络中学习的自适应阈值，k是放大系数，k的作用是在反向传播中放大传播的梯度。

参阅图14，图14示出了本实施例中标签生成过程，第一标签为概率图训练所需要的标签，第二标签为阈值图训练所需要的标签。其中概率图的阈值标签是将文本的多边形标签经过一定偏移量缩小而生成的。阈值图的训练标签是经过一定的偏移量扩大而产生的。偏移量可由公式（17）计算得出：

(17)

式中，L是标注文本框的周长，A是标注文本框的面积，r为预设的缩放因子。

参阅图15，图15示出了本实施例中推理过程，主要分以下三步进行：

（1）对所述概率图使用事先确定好的阈值得到二值图；

（2）通过二值图获取文本连通区域；

（3）利用偏移量将连通区域放大得到文本定位区域。

计算方法如公式（18）所示：

(18)

式中，为预测的文本区域的面积，为扩张系数，为预测的文本区域的周长。

S40，使用文字识别数据集训练CRNN文字识别模型，使用CRNN文字识别模型对上一步标注出的所述文字框进行文字识别，输出文字识别结果。

参阅图16，图16示出了本实施例中所述CRNN文字识别模型的结构，卷积层使用VGG网络从输入图像中提取特征，然后经过循环层预测真实结果的概率，最后通过转录层把标签分布转换为最终的识别结果，输出识别内容。

在进入网络之前需要将所有图片缩放到同一个高度，然后从卷积层分量生成的特征映射中提取特征向量序列，作为循环层的输入。具体来说，特征序列的每个特征向量在特征图上按列从左到右的顺序生成，这意味着第i个特征向量是所有映射的第i列的拼接，本模型设置每列的宽度为单个像素。

由于卷积层、最大池化层和激活函数作用于局部区域，是平移不变的。因此，特征序列的每列对应原始图像中的一个矩形区域，该矩形区域的顺序与特征序列的顺序从左到右依次对应，特征序列中的每个向量都与图像中的矩形区域相关联，特征序列可以认为是该区域的图像描述符。

参阅图17，图17示出了本实施例中CRNN文字识别模型循环层结构，利用两个相连的双向LSTM来预测特征序列中每个特征向量的标签分布，即预测真实结果的概率列表。同时，循环层的误差可以转换成特征序列，反向传播到卷积层。

LSTM结构如图18所示，一个基础的LSTM单元由一个单元模块、输入门、输出门和遗忘门组成。其中单元模块用于存储过去的上下文，输入门和输出门允许单元长时间存储上下文，同时，单元格中的内存可以被遗忘门清除。LSTM的特殊设计使其能够捕获基于图像序列中的远程依赖关系。单向的LSTM只使用了过去的上下文，但在基于图像的序列中，联系上下文信息是十分必要的。因此，CRNN将两个LSTM组合成一个双向LSTM。同时，由于深层结构能够增强模型的表达能力，因此CRNN堆叠了两个双向LSTM。根据输入的特征向量，通过LSTM进行预测，输出字符类别数的向量构成后验概率矩阵，然后将其传入转录层。

在循环层进行时序分类时，会出现很多冗余信息，比如一个字符连续识别两次，这就需要一套去冗余机制，但是看到两个相同字母就去冗余的方法存在一些问题，比如book这类的词就无法进行简单的去重操作。因此，CRNN模型的转录层就是利用CTC来对循环层输出的标签分布转换为最终的识别结果。

CTC是序列标注问题中的一种损失函数，为了解决损失计算时文字标注与网络输出之间的对齐问题，CTC引入了空白符号，如图19所示，输入是循环成输出的对单词“state”的识别结果，首先将重复的字符”t”和”a”去掉，然后再将不表示任何字符的符号“-”去掉，最后得到对应的输出序列为[s,t,a,t,e]。

在另一个实施例中，如图20所示，提供一种灌装桶标签文字定位识别装置，所述文字定位识别装置1包括：

图像获取模块11，用于获取待识别标签图像；

区域定位模块12，用于识别定位标签图像中的所述显著特征区域，根据所述显著特征区域与所述识别区域和所述掩膜区域固定的相对位置关系，计算出所述识别区域和所述掩膜区域位置，并对所述掩膜区域添加掩膜；

文字定位模块13，用于对标签中所述识别区域内的文字进行定位；

文字识别模块14，用于对所述文字定位模块标注出的文字框进行文字识别，并输出文字识别结果。

所述文字定位识别装置1同时和上位机2和下位机3进行通信，所述文字定位识别装置1接收所述上位机2发出的指令，对当前图像进行文字定位和识别操作，并将识别结果返回给所述上位机2，所述上位机2将识别结果与所述下位机3预设的标签信息进行比对，并根据预设的比对规则，所述上位机2做出下一步指令。

在另外的实施例中，还提供一种灌装桶标签文字定位识别设备，包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现以下步骤：

获取标签图像，使用YOLOv5定位模型识别定位标签图像中的所述显著特征区域，根据所述显著特征区域与所述识别区域和所述掩膜区域固定的相对位置关系，计算出所述识别区域和所述掩膜区域位置，并对所述掩膜区域添加掩膜；

使用DBNet文字定位模型对上一步中获得的所述识别区域内的文字进行定位，获取文字框的位置坐标；

使用CRNN文字识别模型对上一步标注出的所述文字框进行文字识别，输出文字识别结果。

为了验证所述的灌装桶标签文字定位识别适用于工业场景，在11th Gen Intel(R) Core(TM) i7-11700F+ NVIDIA GeForce RTX 3090环境下对三个模型进行实验，并且针对于文字识别程序在不同设备上的性能进行测试。测试使用的三个设备分别为工控机、服务器以及拯救者笔记本电脑。工控机的配置和工业环境现场使用的工控机完全一致，没有独立显卡；服务器为训练模型用的服务器，有独立显卡；拯救者笔记本电脑有独立显卡。各测试环境的硬件配置如表1所示：

表1 测试环境硬件配置

	处理器	内存	显卡
				工控机	i5-12500	16GB	Inter(R)UHD Graphics770
服务器	i7-11700F	64GB	NVIDIA GeForce RTX 3090
				笔记本	i7-11800H	32GB	NVIDIA GeForce RTX 3060

三个设备的软件环境配置内容一致，均是在Windows10 操作系统下使用PyCharm编译软件和 python3.8执行程序。三个模型的测试结果如下表所示：

所述YOLOv5定位模型对工业环境下获取的200张标签图像中的Logo进行定位，Logo识别准确率为100%。

表2为YOLOv5模型在三种环境下的测试结果：

表2 YOLOv5模型测试指标

实验结果表明，YOLOv5模型内存占量小，检测速度快，可以应用到工业环境中对标签Logo进行定位。

使用所述DBNet文字定位模型对200张工业标签图像中的文字进行检测，文字定位准确率达到99.05%，在三种环境下进行测试，实验结果如表3所示：

表3 DBNet模型测试指标

由表3可知，所述DBNet文字定位模型在三台机器上的测试结果整体趋势是一样的，使用CPU进行推理时，CPU占用率高于使用GPU推理时的占用率，内存占用率比使用GPU进行推理时低，推理速度低于使用GPU的推理速度，文字检测是该算法中占用时间最多的一个处理，但文字检测的准确率较高，决定了后面的文字识别的结果。

使用所述CRNN文字识别模型，对1000张工业标签图像裁剪出来的小图像进行文字识别，文字识别准确率可达到99.80%，在三种环境下的进行测试，实验结果如表4所示：

表4 CRNN模型测试指标

由表4测试结果可知，该文字识别模型在三台机器上CPU的占用率无明显差别，使用GPU推理的速度高与使用CPU推理是的速度，但是内存占用较高。

最后，融合所述YOLOv5定位模型、DBNet文字定位模型、CRNN文字识别模型的文字识别定位方法，在不同硬件环境下的性能测试结果如表5：

表5 文字识别软件测试结果

如上表5所示，使用CPU推理时占用较少的内存，但推理速度比较慢，CPU占用率比较高；使用GPU推理时推理速度较快，CPU占用率低，但内存占用比较高。综上实验结果可知，本研究提出的算法在内存为6G的GPU环境下每秒可识别2张图像，CPU环境下每秒可识别1张图像，定位识别准确率高，能够达到工业环境的要求。

在另一个实施例中，如图20、图21所示，还提供一种灌装桶标签文字检测方法，采用的检测系统包括所述文字定位识别装置1，以及上位机2和下位机3，所述文字定位识别装置1同时和所述上位机2和所述下位机3进行通信，所述文字定位识别装置1包括用于获取待识别标签图像的图像获取模块11、用于对标签中需要进行文字识别的区域定位并对不需要识别的区域添加掩膜的区域定位模块12、用于对标签中需要识别区域的文字进行定位的文字定位模块13、以及用于对所述文字定位模块标注出的文字区域进行文字识别并输出文字识别结果的文字识别模块14，所述检测方法具体包括以下步骤：

步骤一，所述文字定位识别装置1接收所述上位机2发出的指令，对所述图像获取模块11实时获取的标签图像进行文字定位和识别操作，并将识别结果返回给所述上位机2；

步骤二，所述上位机2将识别结果与所述下位机3预设的标签信息进行比对，并根据预设的比对规则，所述上位机2做出下一步指令。

本实施例中，所述图像获取模块11采用海康相机，所述上位机2采用PLC系统，所述下位机采用MES系统，PLC系统将识别结果与MES系统预先设置的标签信息进行比对，如果识别结果和MES系统预先设置的信息不一致，PLC发出报警信息。

以上对本发明所提供的一种灌装桶标签文字定位识别方法、装置、设备及检测方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种灌装桶标签文字定位识别方法，其特征在于，包括以下步骤：

S10，将标签划分为显著特征区域、识别区域和掩膜区域；

构建工业场景下标签数据集，并对标签数据集内的标签图像的所述显著特征区域、识别区域和掩膜区域进行标注，使用标注好的工业场景下标签数据集训练神经网络定位模型；

S40，对上一步获得的所述文字框进行文字识别，输出文字识别结果；

计算所述识别区域和所述掩膜区域位置的方法为：

最后根据标注好的所述识别区域和所述掩膜区域的宽度和高度，计算得到所述识别区域和所述掩膜区域的位置坐标；

其中，计算得到掩膜区域的位置坐标具体为：

以标签中特征最明显的Logo作为所述显著特征区域；

根据事先标注好的Logo区域左上角和右下角坐标计算出Logo的中心点坐标，是Logo区域中心点的横坐标，/>是Logo区域中心点的纵坐标；

根据事先标注好的掩码区域左上角坐标和右下角坐标计算出掩膜区域的中心点坐标，是掩膜区域中心点的横坐标，/>是掩膜区域中心点的纵坐标；

计算出Logo区域和掩膜区域中心点的横、纵坐标的偏移量、/>:

（5）

（6）

根据事先标注的信息，可以得到掩膜区域的宽度和高度;

当有一个新的图片输入，通过所述神经网络定位模型识别出Logo区域的位置，得到输入图片的Logo区域的中心点坐标和，是输入图片的 Logo区域的中心点的横坐标，是输入图片的Logo区域的中心点的纵坐标；

根据公式(5)和公式(6)计算得到logo区域和掩膜区域中心点的相对偏移量和，利用公式（7）和公式（8）计算得到输入图片的掩膜区域中心点坐标和，是输入图片的掩膜区域中心点的横坐标，是输入图片的掩膜区域中心点的纵坐标：

（7）

（8）

根据事先标注得到的掩膜区域的宽度、掩膜区域的高度，结合掩膜区域中心点坐标，计算输入图片掩膜区域的左上角和右下角坐标，实现对掩膜区域位置的定位；

识别区域位置的计算方法和掩膜区域的计算方法相同。

2.根据权利要求1 所述的灌装桶标签文字定位识别方法，其特征在于，所述显著特征区域的定位方法为：

S21,首先对获取的标签图像进行特征提取，对输入图像进行切片操作，在不损失任何信息的情况下增加特征图的维度来缩小特征图的尺寸，使特征图在每个特征信息没有变化的前提下增加图像的特征数；然后对输入信息使用残差结构处理后再进行反向传播，采用四种尺寸的最大池化操作，然后再进行合并操作，增大特征网络的感受野，分离特征信息；

3.根据权利要求2 所述的灌装桶标签文字定位识别方法，其特征在于，所述输出端对生成的特征图分别经过卷积操作生成大小为76×76×255、38×38×255、19×19×255 的特征图，做为最终的特征图用于预测目标的类别，所述神经网络定位模型使用CIOU_Loss做为损失函数，，其中，IOU 代表预测框和真实框的交集面积与并集面积之比，Distance₂代表预测框的中心点和真实框的中心点的欧式距离，Distance_c代表预测框和真实框最小外接矩阵的对角线距离，v 代表长宽比影响因子，/>，gt 代表真实框，p代表预测框，w 代表宽，h 代表高，CIOU_Loss虑重叠面积，长宽比和中心点距离。

4.根据权利要求1 所述的灌装桶标签文字定位识别方法，其特征在于，所述步骤S30中对上一步获得的所述识别区域内的文字进行定位，获取文字框的位置坐标的方法，具体包括以下步骤：

S31,首先对所述步骤S20 中添加掩膜后的标签图像进行特征提取，得到四个大小不同的特征图，再将四个特征图采用Concat 方式进行融合得到最后的特征图；

S33,再将概率图和阈值图自适应二值化得到二值化预测图；

5. 根据权利要求1 所述的灌装桶标签文字定位识别方法，其特征在于，所述步骤S40中对上一步获得的所述文字框进行文字识别，输出文字识别结果的方法，具体包括以下步骤：

S41,从上一步骤获得的标注文本框后的标签图像中提取特征；

S42,然后经过循环层预测真实结果的概率，循环层利用两个相连的双向LSTM 网络层来预测特征序列中每个特征向量的标签分布，输出字符类别数的向量构成后验概率矩阵，然后将其传入转录层，即预测真实结果的概率列表；同时，循环层的误差可以转换成特征序列，反向传播到卷积层；

S43,最后通过转录层利用CTC 模型来对循环层输出的标签分布转换为最终的识别结果，输出识别内容。

6.一种灌装桶标签文字定位识别装置，其特征在于，包括：

图像获取模块，用于获取待识别标签图像；

区域定位模块，用于识别定位标签图像中的显著特征区域，根据显著特征区域与识别区域和掩膜区域固定的相对位置关系，计算出所述识别区域和所述掩膜区域位置，并对所述掩膜区域添加掩膜；

计算所述识别区域和所述掩膜区域位置的方法为：

首先通过神经网络定位模型定位所述显著特征区域的位置，得到位置坐标，并计算得到所述显著特征区域的中心点坐标；

其中，计算得到掩膜区域的位置坐标具体为：

以标签中特征最明显的Logo作为所述显著特征区域；

计算出Logo区域和掩膜区域中心点的横、纵坐标的偏移量、/>:

（5）

（6）

根据事先标注的信息，可以得到掩膜区域的宽度和高度;

（7）

（8）

识别区域位置的计算方法和掩膜区域的计算方法相同；

文字识别模块，用于对所述文字框内的文字进行文字识别，并输出文字识别结果。

7.一种灌装桶标签文字定位识别设备，其特征在于，包括处理器和存储器，所述处理器执行所述存储器中存储的计算机程序时实现如权利要求1 至5 任意一项所述方法。

8.一种灌装桶标签文字检测方法，其特征在于，采用的检测系统包括权利要求6所述的文字定位识别装置，以及上位机和下位机，所述文字定位识别装置同时和所述上位机和所述下位机进行通信，所述检测方法具体包括以下步骤：