CN115497106B

CN115497106B - 基于数据增强和多任务模型的电池激光喷码识别方法

Info

Publication number: CN115497106B
Application number: CN202211417328.4A
Authority: CN
Inventors: 孙俊; 艾坤; 刘海峰; 王子磊
Original assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd
Current assignee: Hefei Zhongke Leinao Intelligent Technology Co ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-01-24
Anticipated expiration: 2042-11-14
Also published as: CN115497106A

Abstract

本发明提供了基于数据增强和多任务模型的电池激光喷码识别方法，制作待识别物体定位、源文本框、文字识别的标注数据，将标注数据按照一定的比例划分为电池定位、源文本框的第一训练数据和第一测试数据，文字识别的第二训练数据和第二测试数据；对第一训练数据中的图片进行缩放、裁剪、翻转、擦除的数据增强处理，将数据增强后的图片更新电池定位、源文本框检测的第一模型；利用第二训练数据中的图片，重新构建文本行以及带有背景图片的文本行图片，通过丰富包含背景图片的文本行图片的数据库更新文本的第二模型。通过构建丰富的数据库，预测更新模型从而实现对电池激光喷码识别的精确性和准确率，提高文字识别的鲁棒性。

Description

基于数据增强和多任务模型的电池激光喷码识别方法

技术领域

本发明涉及喷码识别技术领域，尤其涉及到基于数据增强和多任务模型的电池激光喷码识别方法。

背景技术

目前在工业、制造业中，通常使用激光喷码作为一种鉴别电池身份的信息，类似于人的身份证，所以一旦电池出现相关产品的质量问题，可以通过激光喷码信息快速的对不合格产品进行召回，因此，是否能够准确判断电池上的激光喷码对于产品的召回或者产品的查找是否准确也是至关重要的事情。

现有技术中，一般情况下，通过人工进行随机抽样来检测电池上的激光喷码是否准确推测批量电池中激光喷码有没有出现问题，但该种抽样方式效率比较低下，同时，对于非大规模连续性错误，容易出现漏检的情况。为了提高检测效率，现有技术通过引入计算机视觉中的OCR技术，能够全流程自动化、不间断的识别喷码内容是否正确。

传统定义下，OCR是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。传统方法下的OCR方法受背景、光照等影响较大，在一些不可控的环境下识别效果较差。

由于同一批次的电池喷码的文字内容只有一部分改变，大部分的内容可能是相同的，因此，在收集数据时，整体的样本数据的背景、文本行内容是比较单调的；同时，激光喷码的位置并不能保证固定不变，有时激光喷码会和电池上其他位置的印制标志相耦合或者部分重叠，或者有时电池在传送带上的位置、角度也会发生变化，虽然OCR技术变得越来越成熟，但是基于背景的复杂化以及应用场景的多样性，现有技术已经不能实现精确的检测。

针对上述两个情况，应用现有的OCR技术检测效果较差，不能满足生产应用的需求。针对OCR技术在电池激光喷码识别领域的局限性，现有技术中也提出了对拍摄的图片进行检测、定位及识别的方法，但是现有技术中采用拍摄图片方式进行识别较为单一，应用在电池激光喷码领域时存在如下缺陷：

第一、训练数据文本内容单一时，直接应用于卷积神经网络会出现过拟合、泛化性不好的情况，影响最终识别效果，如图9所示，效果不好是指卷积神经网络在使用相似度极高的数据进行训练时，网络会过拟合，以一个较为极限的例子进行过拟合的解释：如果我们输入的数据都是123，没有其他的内容，那么网络学习过后，不管对于什么输入，识别后的输出结果都会是123（过拟合，泛化性不好），即不具备识别能力；

第二、当激光喷码文字区域背景出现变化时，如激光喷码文字在其他印制标志上，而训练数据又没有相似样本，则会识别出错；如图7所示，这种突兀出现的标签会导致训练和测试时不一致的情况，举两个例子进行辅助理解：第一，由于数据的限制，这些印制标志出现在固定的一些字符上，模型会将这两者（也即字符和标志）耦合到一起（比如看到印制标志就认为是对应耦合的字符），但实际上这个印制标志完全可以在其他的字符上，从而导致识别出错；第二，卷积神经网络对高频信息非常敏感，这些印制标志恰巧会引入高频信息，而训练阶段无对应充分数据，就会导致测试的时候，被这些印制标志的高频信息所影响；

第三、现有技术中容易忽略文字的方向或者判定文字方向的方式不够鲁棒、忽略文字出现区域的问题。

有鉴于此，如何提高电池激光喷码识别准确性是业内相关技术人员亟待解决的一项课题。

发明内容

本发明提供了一种基于数据增强和多任务模型的电池激光喷码识别方法，首先，为了应对文本内容单一的问题，本发明对文字区域进行字符级别标注，随机从不同图片选取若干个字符进行拼接，构造出大规模的内容变化丰富的文本数据，从而训练文字识别网络；同时，在训练电池定位、文字区域和预测文字方向模型时，随机将部分文字区域进行遮盖，构造变化的文字；为了应对激光喷码文字区域背景发生变化，在训练文字识别模型过程中，从电池中提取仅包含印制标志的图片，与文字图片进行叠加；为了应对文字的区域、方向不确定时导致的错误，构造检测电池定位、检测文字区域、预测文字方向的一个multi-task的任务（多任务），通过第一模型实现了多任务融合的处理，来检测到电池的位置以及图片中的文字区域，从而判定电池上的文字区域包括哪些，进一步的，通过预测文字方向，可以将文字区域进行矫正为水平且文字朝上的图片，该方案中不用另外建立文字方向校正的模型。

本发明通过如下的方式实现提高电池激光喷码识别的准确度，具体方案如下：制作待识别电池定位、源文本框、文字识别的标注数据，将标注数据按照一定的比例划分为电池定位、源文本框的第一训练数据和第一测试数据，文字识别的第二训练数据和第二测试数据；

制作带有印制图案的背景图片数据；

获得数据增强后的第二图片，利用第一训练数据中的第一图片、待识别电池定位坐标以及待识别电池上源文本框坐标，对第一图片进行数据增强得到所述第二图片；其中，数据增强是指以第一概率对第一图片进行随机缩放，以第二概率对第一图片进行随机裁剪，以第三概率对第一图片进行随机翻转。

获得数据增强后的第三图片，以一概率随机擦除训练数据中图片的源文本框部分区域，得到数据增强后的第三图片，

将数据增强后的第三图片输入到一预测网络中，计算损失，通过损失反向更新电池定位、源文本框检测的第一模型；

利用第二训练数据中的第四图片及源文本框的标注数据，根据文字识别标注数据截取图片中的字符图片，将截取的字符图片进行拼接，得到新的文本行图片，文字识别标注数据是指人工标注的文字框及内容的信息。

从制作的背景图片数据中选择一图片，将背景图片尺寸和文本行图片尺寸调整一致，将所述图片和文本行图片进行叠加，得到包含背景图片的文本行图片；

将包含背景图片的文本行图片输入到文本识别网络中，计算损失，根据损失更新文本的第二模型。构建更为丰富的数据库，通过预测更新模型从而实现对电池激光喷码识别的精确性和准确率。

进一步地，源文本框标注数据包括文字区域和文字方向信息，通过所述第一模型实现多任务融合处理，根据电池区域的坐标信息对文字区域进行赋值，不在电池区域内的值设置为0，结合文字方向区域，得到文字区域中对应文字区域的方向，使用透视变换将文字区域校正为方向朝上的图片。本发明不用另行设置文字区域方向检测模型。

更进一步地，所述标注数据会对待识别电池的四个顶点坐标、源文本框的四个顶点坐标和源文本框内文字方向、文字识别进行标注。

更进一步地，所述识别方法中还包括识别文字区域中每个字符的位置坐标及对应的内容。可以更精确的识别字符以及其对应内容，采用字符级的标注，可以实现提高识别内容的精度。

更进一步地，源文本框坐标表示为：

，其中所述源文本框坐标表示第i个文本行点0的横坐标、点0的纵坐标、点1的横坐标、点1的纵坐标、点2的横坐标、点2的纵坐标、点3的横坐标、点3的纵坐标以及对应的角度，其中a的取值为1、2、3、4，1表示文本行朝上、2表示文本行朝右、3表示文本行朝下、4表示文本行朝左。

更进一步地，擦除训练数据中图片的源文本框部分区域的方式为：源文本框的坐标为

，从^Ti的横坐标范围内随机选取两个值

，从T_i的纵坐标范围内随机选取两个值

,将图像中

组成的矩形区域的每一个值置为(0,255)的随机值，得到增强后的第三图片。采用擦除图像可以构件新的包含新的文本框的图片，提高图片的丰富度。

更进一步地，损失函数均为交叉熵，公式如下：

其中，g表示真实标签，p表示预测标签，N代表预测类别， w和h表示图像的宽和高。N取值为2时，所述公式Loss(g,p)代表电池定位的损失函数或源文本框检测的损失函数，N取值为5时，所述Loss(g,p)代表文字方向检测的损失函数。其中，电池定位和源文本框定位中均涉及两个参数类型，文字方向检测中涉及5个文字参数类型，通过N的取值可以直接获取对应的损失函数。

损失函数的目的是计算预测和真实值之间的差异，从而进行纠正，再经过多次纠正（其实也就是训练模型的过程）后得到预测值与真实值接近或相同的模型。此处的损失函数分为三个部分，分别时电池定位的损失函数，源文本框检测的损失函数，文字方向检测的损失函数。

更进一步地，所述第一模型对待测图片中的电池定位、文字区域、文字方向实现预测，所述第二模型对图片中的文字内容进行识别。

更进一步地，所述文字识别的标注采用字符级别的标注，方便检测字符坐标以及随机截取字符进行重新拼接，构建新的文本行。所述第二模型基于第一模型预测的源文本框坐标，用于识别待测电池中源文本框中包含的文字内容。

为了提高电池喷码识别的准确率，本发明技术方案主要从以下几个方面进行改进：1）对文字区域进行字符级别标注，随机从不用图片选取若干个字符进行拼接，构造出大规模的变化丰富的文本数据；2）在训练文字识别模型过程中，从电池中提取仅包含印制标志的图片，与文字图片进行叠加；3）构造检测电池、检测文字、预测文字方向的一个multi-task（多任务）的任务，来检测到电池的位置以及图片中的文字区域，从而判定电池上的文字区域是哪些，通过预测文字方向，可以将文字区域进行矫正；4）在训练检测电池、文字和预测文字方向模型时，随机将部分文字区域进行遮盖，构造变化的文字。

附图说明

图1为本发明提供的文字识别处理流程图；

图2为本发明提供的制作训练文本行流程图；

图3为本发明提供的训练文本行图像流程图；

图4为本发明提供提高数据增强方式一的流程图；

图5为本发明提供的提高数据增强方式二的流程图；

图6为本发明提供的检测电池、文字及文字方向结构图；

图7为被识别图片的不同情况，上方是被图案污染的待识别图片，下方是未被图案污染的待识别图片；

图8为本发明提供的叠加背景之后的结构图；

图9提供了内容较为接近的图片数据，如果作为训练数据会比较单一，训练结果出现过拟合化；

图10为本发明提供的解决文本内容单一的数据增强示意图；

图11为本发明提供的第二模型进行文字识别的示意图。

具体实施方式

下面结合附图详细说明本发明的具体实施例。然而，应当将本发明理解成并不局限于以下描述的这种实施方式，并且本发明的技术理念可以与其他公知技术或功能与那些公知技术相同的其他技术组合实施。

在以下具体实施例的说明中，为了清楚展示本发明的结构及工作方式，将借助诸多方向性词语进行描述，但是应当将“前”、“后”、“左”、“右”、“外”、“内”、“向外”、“向内”、“轴向”、“径向”等词语理解为方便用语，而不应当理解为限定性词语。

本发明提供一种基于数据增强和多任务模型的电池激光喷码识别方法，通过电池定位、文字检测、文字方向、文字识别的标注数据，对字符级别的文字进行标注，以及各个字符进行重新组合，构造出大规模的变化丰富的文本数据，另外，从电池中提取仅包含印制标志的图片，将图片与文字进行叠加，构建不仅包含各种文字且包含污染文字图案的图片，通过设计多种多样的待检测文字的形式，保证电池激光喷码识别模型可以提高字符识别的精确度。

第一模型中的第一训练数据和第一测试数据，是对包含所有内容的图片进行标注以及定位，对图片以及源文本框处理获得增强图片，提高图片的丰富度；

第二模型第四图片是包含文本行的图片，第二模型中的数据增强是对文本行中的文字字符进行截取和重新拼接，构建新的文本行图片，使第二模型能够更准确的识别包含文本行的图片中的文字内容。

通过第一模型和第二模型融合使用，保证能够准确识别电池中的文本字符。

基于OCR的电池激光喷码识别方法及其实施的主要步骤是：

步骤1：制作电池定位、源文本框、文字识别的标注数据，将标注数据按照8：2的比例划分为训练集和测试集，最终得到电池定位、文字检测、文字方向的训练数据train1和测试数据test1，文字识别的训练数据train2和测试数据test2；制作带有印制图案的背景图片数据background，其中源文本框中包括文字检测、文字方向信息；

对于步骤1，更进一步的：

步骤1.1：制作电池定位、文字检测、文字方向的标注数据，我们使用Labelme（图像标注工具），标注电池的四个顶点坐标

，其中

分别表示电池点0的横坐标、点0的纵坐标、点1的横坐标、点1的纵坐标、点2的横坐标、点2的纵坐标、点3的横坐标、点3的纵坐标，文字区域的四个顶点坐标以及源文本框坐标

，源文本框坐标

分别表示第i个文本行点0的横坐标、点0的纵坐标、点1的横坐标、点1的纵坐标、点2的横坐标、点2的纵坐标、点3的横坐标、点3的纵坐标以及对应的角度，其中a的取值为1、2、3、4，1表示文本行朝上、2表示文本行朝右、3表示文本行朝下、4表示文本行朝左；

步骤1.2：基于步骤1.1的标注，我们扣取出文本行（文字识别），使用Labelme标注每一个字符的位置及对应的内容

,其中，C_i 表示第i个字符，

分别表示第i个字符的左上角的横坐标、左上角的纵坐标、右上角的横坐标、右上角的纵坐标、右下角的横坐标、右下角的纵坐标、左下角的横坐标、左下角的纵坐标、c表示字符内容。

步骤2：如图5所示，使用步骤1中的第一训练数据train1训练电池定位、文字检测、文字方向模型，直至收敛，得到第一模型model1；

对于步骤2，更进一步的：

步骤2.1：输入第一训练数据train1的第一图像（图像包含了电池、电池上的文字等）以及对应的电池区域坐标

、文本行坐标

，以概率P₁对第一图片进行随机缩放，以概率P₂对第一图片进行随机裁剪，以概率P₃对第一图片进行随机翻转，得到增强后的第二图片I以及对应电池区域坐标

, 文本行坐标

。本实施例中，

取值为0.25、0.25、0.25；该部分也可采用本领域其他实现方式对图片进行数据增强处理。

步骤2.2：以p₄概率随机擦除第二图像中的部分文本区域，假设源文本框的坐标为

,从T_i的横坐标范围内随机选取两个值

，从T_i的纵坐标范围内随机选取两个值

将图像中R

组成的矩形区域的每一个值置为(0,255)的随机值，得到增强后的第三图像I₂；根据T_i生成文本检测标签t-map、角度标签a-map，具体来说，初始化t-map和a-map为原图等大小的值为0的图像，将组成的t-map的区域内的值置为1、a-map的区域内的值置为a，再将R组成的t-map的区域内的值置为0、a-map的区域内的值置为0；根据

生成电池定位标签e-map，具体来说，初始化e-map为原图等大小的值为0的图像，将E组成的e-map的区域内的值置为1；对a-map进行one-hot形式编码（One-hot编码就是将单个数字转化为一个向量），得到新的角度标签a-map；本实施例中p₄取值为0.25；

步骤2.3：将第三图像I₂输入到第一模型，电池定位、文字检测、文字方向预测网络中（第一模型结构如图6所示），得到电池定位网络预测标签p-e-map、文本检测网络预测标签p-t-map、文字方向网络预测标签p-a-map，分别与e-map、t-map、a-map计算损失，使用的损失函数均为交叉熵，公式如下：

其中，g表示真实标签，p表示预测标签，N代表预测类别，上述公式中N取值为2时，上述损失函数对应为电池定位损失函数和文字检测损失函数的，N取值为5时，上述损失函数代表文字方向检测的损失函数，w和h表示图像的宽和高。通过获得的损失函数反向传播更新模型，最终得到收敛的模型，选取在第一测试数据test1上效果最好的模型model1。

步骤3：如图4所示，使用步骤1中的第二训练数据 train2和背景图片background训练文字识别模型，直至收敛，得到第二模型model2；

对于步骤3，详细的包括如下步骤：

步骤3.1：输入文字识别的第二训练数据train2中的第四图片及其对应标注text’文本行内容，对第四图片I’以概率

选取一个角度进行随机旋转；以概率

对第四图片进行随机缩放，以概率

对第四图片进行随机裁剪，以概率

添加高斯模糊；本实施例中，

取值分别为0.25, 0.25,0.25,0.25，

取值为10。添加高斯模糊是因为文字的字符识别对模糊比较敏感，因此在此处采用高斯模糊进行处理。其中，技术方案中第一、第二训练数据和第一、第二测试数据是基于人工标注的信息得到的。

步骤3.2：如图3所示，以概率

从第二训练数据train2中取M张图片，随机根据标注的字符框

截取对应字符图片

，共截取L个，保持长宽比调整截取图片

为统一高度h、对应的宽度为W，随机调整截取图片

的宽度使其宽度在(0.9 *w, 1.1 * w)之间，将这些截取的图片

进行拼接；特别地，在拼接图片图片

和图片

时，随机在其中间插入高度h、宽度

的值为

和

均值的图片，最终得到一张新的文本行图片I，更新text’为对应拼接字符text；本实施例中，概率

取值为0.25，L取值范围为（3，20），h取值为32，

取值范围为（0，4），本发明提供的图10为结果示例。

步骤3.3：如图2所示，以概率

从背景图片background中随机选取图片B，调整B的尺寸与图片I相同，最后将图片B与图片I进行叠加，叠加公式如下：

从而得到包含印制图案的文本行图片

。本实施例中，λ取值区间为(0.1, 0.6)，

取值为0.25，本发明提供的图8显示了上述结果示例；

步骤3.4：将图片

输入到文本识别网络中，得到输入p-text，与文本text计算损失loss，使用的损失函数为CTC（时序连通分类），更新模型参数直至收敛，选取在第二测试数据test2上效果最好的第二模型model2；

步骤1-步骤3提供了第一模型和第二模型的构建方式，下面针对图片通过第一模型和第二模型进行处理予以说明。

实施方式概述：如图1所示，对于一张待识别图片，首先使用第一模型model1得到预测的电池区域的电池定位标签e-map、文字区域的文本检测标签t-map和对应的文字方向区域的文字角度标签a-map，根据电池区域的电池定位标签e-map得到电池的坐标信息，将文字区域的文本检测标签t-map中不在电池区域内的值置为0，再根据文字方向区域的文字角度标签a-map，得到文字区域的文本检测标签t-map中对应文字区域的方向，使用透视变换，将文字方向区域的文本检测标签t-map中文字区域矫正为方向朝上的图片；然后使用第二模型model2预测矫正的图片的内容，得到识别的激光喷码内容。

对于实施方式，更进一步的：

第一步：对于一张待识别图片

，使用第一模型model1得到预测的电池区域的电池定位标签e-map、文字区域的文本检测标签t-map、文字方向区域的文字角度标签a-map，对电池区域的电池定位标签e-map使用阈值th1二值化的be-map，对文字区域的文本检测标签t-map使用阈值th2进行二值化的bt-map，对文字方向区域的文字角度标签a-map的每个位置选取最大值对应的索引index。使用连通域查找算法得到be-map的连通域集合，选择其中面积最大的认为是电池区域；对bt-map使用连通域查找算法得到bt-map的连通域集合，去除不在电池区域内的连通域，取剩下来的连通域组成区域的最小外接矩形，得到矩形的两个长边对应坐标（l1, l2）和（l3, l4）；获取对应文字角度标签a-map中该矩形区域内的索引值集合index_s，进行投票，选取票数最高的索引值作为该文本行的index_s值，根据index_s取值进行透视变换。具体地，若index_s为0, 比较(l1, l2)和(l3, l4)，选择纵坐标最大的长边作为矫正后文本行的上边；若index_s为1，比较(l1, l2)和(l3, l4)，选择横坐标最大的长边作为矫正后文本行的上边；若index_s为2，比较(l1, l2)和(l3, l4)，选择纵坐标最小的长边作为矫正后文本行的上边；若index_s为3，比较(l1, l2)和(l3, l4)，选择横坐标最小的长边作为矫正后文本行的上边；至此，我们可以得到排序后的文字框顶点（以文字朝向为基准，左上顶点，右上顶点，右下顶点，左下顶点），计算左上顶点和右上顶点的距离dis1，左下顶点和右下顶点的距离dis2，左上顶点和左下顶点的距离dis3，右上顶点和右下顶点的距离dis4，选取dis1和dis2中较大值为图片长度height，选取dis3和dis4中较大值为图片宽度width，将左上顶点映射至(0, 0)，右上顶点映射至（width, 0），右下顶点映射至(width, height)，左下顶点映射至(0, height)。其中，计算距离的方式如下：欧式距离，坐上顶点（x1, y1）-右上顶点距离(x2, y2)，距离 dis1 =sqrt(（x1 - x2）*(x1-x2) +(y1 - y2）*（y1-y2）)，sqrt表示开根号。最终，我们可以得到文本水平且字体方向朝上的图片

。

第二步：使用第二model2识别图片

的内容输出，输出图片中的文本行中的文字内容，图11显示了第二模型进文字识别的示意图，输入带有背景的文本行图片，图片中包含的字符为2108054-2KEWULF1001DZRB210727,经过第二模型后，输出的文本行字符为2108054-2KEWULF1001DZRB210727，验证即便文本行中带有背景图案，如果在构建第二模型时，考虑了数据库中包含带有背景图案的文本行，在遇到该种情况时，第二模型仍然可以准确的将文本行中的字符进行识别。

为了提高电池喷码识别的准确率，本发明提出的技术方案相较于现有技术具有如下优势：1）对文字区域进行字符级别标注，随机从不用图片选取若干个字符进行拼接，构造出大规模的变化丰富的文本数据；2）在训练文字识别模型过程中，从电池中提取仅包含印制标志的图片，与文字图片进行叠加，模拟现实中可能出现的情况，训练出更好的模型；3）构造检测电池、检测文字、预测文字方向的一个multi-task（多任务）的任务，来检测到电池的位置以及图片中的文字区域，从而判定电池上的文字区域是哪些，通过预测文字方向，可以将文字区域进行矫正；4）在训练检测电池、文字和预测文字方向模型时，随机将部分文字区域进行遮盖，构造变化的文字，丰富模型中的数据库。

本说明书中所述的只是本发明的较佳具体实施例，以上实施例仅用以说明本发明的技术方案而非对本发明的限制。凡本领域技术人员依本发明的构思通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在本发明的范围之内。