CN115497106B - 基于数据增强和多任务模型的电池激光喷码识别方法 - Google Patents

基于数据增强和多任务模型的电池激光喷码识别方法 Download PDF

Info

Publication number
CN115497106B
CN115497106B CN202211417328.4A CN202211417328A CN115497106B CN 115497106 B CN115497106 B CN 115497106B CN 202211417328 A CN202211417328 A CN 202211417328A CN 115497106 B CN115497106 B CN 115497106B
Authority
CN
China
Prior art keywords
picture
text
data
character
battery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211417328.4A
Other languages
English (en)
Other versions
CN115497106A (zh
Inventor
孙俊
艾坤
刘海峰
王子磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Zhongke Leinao Intelligent Technology Co ltd
Original Assignee
Hefei Zhongke Leinao Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Zhongke Leinao Intelligent Technology Co ltd filed Critical Hefei Zhongke Leinao Intelligent Technology Co ltd
Priority to CN202211417328.4A priority Critical patent/CN115497106B/zh
Publication of CN115497106A publication Critical patent/CN115497106A/zh
Application granted granted Critical
Publication of CN115497106B publication Critical patent/CN115497106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明提供了基于数据增强和多任务模型的电池激光喷码识别方法,制作待识别物体定位、源文本框、文字识别的标注数据,将标注数据按照一定的比例划分为电池定位、源文本框的第一训练数据和第一测试数据,文字识别的第二训练数据和第二测试数据;对第一训练数据中的图片进行缩放、裁剪、翻转、擦除的数据增强处理,将数据增强后的图片更新电池定位、源文本框检测的第一模型;利用第二训练数据中的图片,重新构建文本行以及带有背景图片的文本行图片,通过丰富包含背景图片的文本行图片的数据库更新文本的第二模型。通过构建丰富的数据库,预测更新模型从而实现对电池激光喷码识别的精确性和准确率,提高文字识别的鲁棒性。

Description

基于数据增强和多任务模型的电池激光喷码识别方法
技术领域
本发明涉及喷码识别技术领域,尤其涉及到基于数据增强和多任务模型的电池激光喷码识别方法。
背景技术
目前在工业、制造业中,通常使用激光喷码作为一种鉴别电池身份的信息,类似于人的身份证,所以一旦电池出现相关产品的质量问题,可以通过激光喷码信息快速的对不合格产品进行召回,因此,是否能够准确判断电池上的激光喷码对于产品的召回或者产品的查找是否准确也是至关重要的事情。
现有技术中,一般情况下,通过人工进行随机抽样来检测电池上的激光喷码是否准确推测批量电池中激光喷码有没有出现问题,但该种抽样方式效率比较低下,同时,对于非大规模连续性错误,容易出现漏检的情况。为了提高检测效率,现有技术通过引入计算机视觉中的OCR技术,能够全流程自动化、不间断的识别喷码内容是否正确。
传统定义下,OCR是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。传统方法下的OCR方法受背景、光照等影响较大,在一些不可控的环境下识别效果较差。
由于同一批次的电池喷码的文字内容只有一部分改变,大部分的内容可能是相同的,因此,在收集数据时,整体的样本数据的背景、文本行内容是比较单调的;同时,激光喷码的位置并不能保证固定不变,有时激光喷码会和电池上其他位置的印制标志相耦合或者部分重叠,或者有时电池在传送带上的位置、角度也会发生变化,虽然OCR技术变得越来越成熟,但是基于背景的复杂化以及应用场景的多样性,现有技术已经不能实现精确的检测。
针对上述两个情况,应用现有的OCR技术检测效果较差,不能满足生产应用的需求。针对OCR技术在电池激光喷码识别领域的局限性,现有技术中也提出了对拍摄的图片进行检测、定位及识别的方法,但是现有技术中采用拍摄图片方式进行识别较为单一,应用在电池激光喷码领域时存在如下缺陷:
第一、训练数据文本内容单一时,直接应用于卷积神经网络会出现过拟合、泛化性不好的情况,影响最终识别效果,如图9所示,效果不好是指卷积神经网络在使用相似度极高的数据进行训练时,网络会过拟合,以一个较为极限的例子进行过拟合的解释:如果我们输入的数据都是123,没有其他的内容,那么网络学习过后,不管对于什么输入,识别后的输出结果都会是123(过拟合,泛化性不好),即不具备识别能力;
第二、当激光喷码文字区域背景出现变化时,如激光喷码文字在其他印制标志上,而训练数据又没有相似样本,则会识别出错;如图7所示,这种突兀出现的标签会导致训练和测试时不一致的情况,举两个例子进行辅助理解:第一,由于数据的限制,这些印制标志出现在固定的一些字符上,模型会将这两者(也即字符和标志)耦合到一起(比如看到印制标志就认为是对应耦合的字符),但实际上这个印制标志完全可以在其他的字符上,从而导致识别出错;第二,卷积神经网络对高频信息非常敏感,这些印制标志恰巧会引入高频信息,而训练阶段无对应充分数据,就会导致测试的时候,被这些印制标志的高频信息所影响;
第三、现有技术中容易忽略文字的方向或者判定文字方向的方式不够鲁棒、忽略文字出现区域的问题。
有鉴于此,如何提高电池激光喷码识别准确性是业内相关技术人员亟待解决的一项课题。
发明内容
本发明提供了一种基于数据增强和多任务模型的电池激光喷码识别方法,首先,为了应对文本内容单一的问题,本发明对文字区域进行字符级别标注,随机从不同图片选取若干个字符进行拼接,构造出大规模的内容变化丰富的文本数据,从而训练文字识别网络;同时,在训练电池定位、文字区域和预测文字方向模型时,随机将部分文字区域进行遮盖,构造变化的文字;为了应对激光喷码文字区域背景发生变化,在训练文字识别模型过程中,从电池中提取仅包含印制标志的图片,与文字图片进行叠加;为了应对文字的区域、方向不确定时导致的错误,构造检测电池定位、检测文字区域、预测文字方向的一个multi-task的任务(多任务),通过第一模型实现了多任务融合的处理,来检测到电池的位置以及图片中的文字区域,从而判定电池上的文字区域包括哪些,进一步的,通过预测文字方向,可以将文字区域进行矫正为水平且文字朝上的图片,该方案中不用另外建立文字方向校正的模型。
本发明通过如下的方式实现提高电池激光喷码识别的准确度,具体方案如下:制作待识别电池定位、源文本框、文字识别的标注数据,将标注数据按照一定的比例划分为电池定位、源文本框的第一训练数据和第一测试数据,文字识别的第二训练数据和第二测试数据;
制作带有印制图案的背景图片数据;
获得数据增强后的第二图片,利用第一训练数据中的第一图片、待识别电池定位坐标以及待识别电池上源文本框坐标,对第一图片进行数据增强得到所述第二图片;其中,数据增强是指以第一概率对第一图片进行随机缩放,以第二概率对第一图片进行随机裁剪,以第三概率对第一图片进行随机翻转。
获得数据增强后的第三图片,以一概率随机擦除训练数据中图片的源文本框部分区域,得到数据增强后的第三图片,
将数据增强后的第三图片输入到一预测网络中,计算损失,通过损失反向更新电池定位、源文本框检测的第一模型;
利用第二训练数据中的第四图片及源文本框的标注数据,根据文字识别标注数据截取图片中的字符图片,将截取的字符图片进行拼接,得到新的文本行图片,文字识别标注数据是指人工标注的文字框及内容的信息。
从制作的背景图片数据中选择一图片,将背景图片尺寸和文本行图片尺寸调整一致,将所述图片和文本行图片进行叠加,得到包含背景图片的文本行图片;
将包含背景图片的文本行图片输入到文本识别网络中,计算损失,根据损失更新文本的第二模型。构建更为丰富的数据库,通过预测更新模型从而实现对电池激光喷码识别的精确性和准确率。
进一步地,源文本框标注数据包括文字区域和文字方向信息,通过所述第一模型实现多任务融合处理,根据电池区域的坐标信息对文字区域进行赋值,不在电池区域内的值设置为0,结合文字方向区域,得到文字区域中对应文字区域的方向,使用透视变换将文字区域校正为方向朝上的图片。本发明不用另行设置文字区域方向检测模型。
更进一步地,所述标注数据会对待识别电池的四个顶点坐标、源文本框的四个顶点坐标和源文本框内文字方向、文字识别进行标注。
更进一步地,所述识别方法中还包括识别文字区域中每个字符的位置坐标及对应的内容。可以更精确的识别字符以及其对应内容,采用字符级的标注,可以实现提高识别内容的精度。
更进一步地,源文本框坐标表示为:
Figure 602780DEST_PATH_IMAGE001
,其中所述源文本框坐标表示第i个文本行点0的横坐标、点0的纵坐标、点1的横坐标、点1的纵坐标、点2的横坐标、点2的纵坐标、点3的横坐标、点3的纵坐标以及对应的角度,其中a的取值为1、2、3、4,1表示文本行朝上、2表示文本行朝右、3表示文本行朝下、4表示文本行朝左。
更进一步地,擦除训练数据中图片的源文本框部分区域的方式为:源文本框的坐标为
Figure 271659DEST_PATH_IMAGE002
,从Ti的横坐标范围内随机选取两个值
Figure 265022DEST_PATH_IMAGE003
,从Ti的纵坐标范围内随机选取两个值
Figure 957035DEST_PATH_IMAGE004
,将图像中
Figure 694047DEST_PATH_IMAGE005
组成的矩形区域的每一个值置为(0,255)的随机值,得到增强后的第三图片。采用擦除图像可以构件新的包含新的文本框的图片,提高图片的丰富度。
更进一步地,损失函数均为交叉熵,公式如下:
Figure 217432DEST_PATH_IMAGE006
其中,g表示真实标签,p表示预测标签,N代表预测类别, w和h表示图像的宽和高。N取值为2时,所述公式Loss(g,p)代表电池定位的损失函数或源文本框检测的损失函数,N取值为5时,所述Loss(g,p)代表文字方向检测的损失函数。其中,电池定位和源文本框定位中均涉及两个参数类型,文字方向检测中涉及5个文字参数类型,通过N的取值可以直接获取对应的损失函数。
损失函数的目的是计算预测和真实值之间的差异,从而进行纠正,再经过多次纠正(其实也就是训练模型的过程)后得到预测值与真实值接近或相同的模型。此处的损失函数分为三个部分,分别时电池定位的损失函数,源文本框检测的损失函数,文字方向检测的损失函数。
更进一步地,所述第一模型对待测图片中的电池定位、文字区域、文字方向实现预测,所述第二模型对图片中的文字内容进行识别。
更进一步地,所述文字识别的标注采用字符级别的标注,方便检测字符坐标以及随机截取字符进行重新拼接,构建新的文本行。所述第二模型基于第一模型预测的源文本框坐标,用于识别待测电池中源文本框中包含的文字内容。
为了提高电池喷码识别的准确率,本发明技术方案主要从以下几个方面进行改进:1)对文字区域进行字符级别标注,随机从不用图片选取若干个字符进行拼接,构造出大规模的变化丰富的文本数据;2)在训练文字识别模型过程中,从电池中提取仅包含印制标志的图片,与文字图片进行叠加;3)构造检测电池、检测文字、预测文字方向的一个multi-task(多任务)的任务,来检测到电池的位置以及图片中的文字区域,从而判定电池上的文字区域是哪些,通过预测文字方向,可以将文字区域进行矫正;4)在训练检测电池、文字和预测文字方向模型时,随机将部分文字区域进行遮盖,构造变化的文字。
附图说明
图1为本发明提供的文字识别处理流程图;
图2为本发明提供的制作训练文本行流程图;
图3为本发明提供的训练文本行图像流程图;
图4为本发明提供提高数据增强方式一的流程图;
图5为本发明提供的提高数据增强方式二的流程图;
图6为本发明提供的检测电池、文字及文字方向结构图;
图7为被识别图片的不同情况,上方是被图案污染的待识别图片,下方是未被图案污染的待识别图片;
图8为本发明提供的叠加背景之后的结构图;
图9提供了内容较为接近的图片数据,如果作为训练数据会比较单一,训练结果出现过拟合化;
图10为本发明提供的解决文本内容单一的数据增强示意图;
图11为本发明提供的第二模型进行文字识别的示意图。
具体实施方式
下面结合附图详细说明本发明的具体实施例。然而,应当将本发明理解成并不局限于以下描述的这种实施方式,并且本发明的技术理念可以与其他公知技术或功能与那些公知技术相同的其他技术组合实施。
在以下具体实施例的说明中,为了清楚展示本发明的结构及工作方式,将借助诸多方向性词语进行描述,但是应当将“前”、“后”、“左”、“右”、“外”、“内”、“向外”、“向内”、“轴向”、“径向”等词语理解为方便用语,而不应当理解为限定性词语。
本发明提供一种基于数据增强和多任务模型的电池激光喷码识别方法,通过电池定位、文字检测、文字方向、文字识别的标注数据,对字符级别的文字进行标注,以及各个字符进行重新组合,构造出大规模的变化丰富的文本数据,另外,从电池中提取仅包含印制标志的图片,将图片与文字进行叠加,构建不仅包含各种文字且包含污染文字图案的图片,通过设计多种多样的待检测文字的形式,保证电池激光喷码识别模型可以提高字符识别的精确度。
第一模型中的第一训练数据和第一测试数据,是对包含所有内容的图片进行标注以及定位,对图片以及源文本框处理获得增强图片,提高图片的丰富度;
第二模型第四图片是包含文本行的图片,第二模型中的数据增强是对文本行中的文字字符进行截取和重新拼接,构建新的文本行图片,使第二模型能够更准确的识别包含文本行的图片中的文字内容。
通过第一模型和第二模型融合使用,保证能够准确识别电池中的文本字符。
基于OCR的电池激光喷码识别方法及其实施的主要步骤是:
步骤1:制作电池定位、源文本框、文字识别的标注数据,将标注数据按照8:2的比例划分为训练集和测试集,最终得到电池定位、文字检测、文字方向的训练数据train1和测试数据test1,文字识别的训练数据train2和测试数据test2;制作带有印制图案的背景图片数据background,其中源文本框中包括文字检测、文字方向信息;
对于步骤1,更进一步的:
步骤1.1:制作电池定位、文字检测、文字方向的标注数据,我们使用Labelme(图像标注工具),标注电池的四个顶点坐标
Figure 647276DEST_PATH_IMAGE007
,其中
Figure 826585DEST_PATH_IMAGE008
分别表示电池点0的横坐标、点0的纵坐标、点1的横坐标、点1的纵坐标、点2的横坐标、点2的纵坐标、点3的横坐标、点3的纵坐标,文字区域的四个顶点坐标以及源文本框坐标
Figure 101708DEST_PATH_IMAGE009
,源文本框坐标
Figure 745179DEST_PATH_IMAGE010
分别表示第i个文本行点0的横坐标、点0的纵坐标、点1的横坐标、点1的纵坐标、点2的横坐标、点2的纵坐标、点3的横坐标、点3的纵坐标以及对应的角度,其中a的取值为1、2、3、4,1表示文本行朝上、2表示文本行朝右、3表示文本行朝下、4表示文本行朝左;
步骤1.2:基于步骤1.1的标注,我们扣取出文本行(文字识别),使用Labelme标注每一个字符的位置及对应的内容
Figure 80346DEST_PATH_IMAGE011
,其中,Ci 表示第i个字符,
Figure 245486DEST_PATH_IMAGE012
分别表示第i个字符的左上角的横坐标、左上角的纵坐标、右上角的横坐标、右上角的纵坐标、右下角的横坐标、右下角的纵坐标、左下角的横坐标、左下角的纵坐标、c表示字符内容。
步骤2:如图5所示,使用步骤1中的第一训练数据train1训练电池定位、文字检测、文字方向模型,直至收敛,得到第一模型model1;
对于步骤2,更进一步的:
步骤2.1:输入第一训练数据train1的第一图像(图像包含了电池、电池上的文字等)以及对应的电池区域坐标
Figure 324300DEST_PATH_IMAGE013
、文本行坐标
Figure 822277DEST_PATH_IMAGE014
,以概率P1对第一图片进行随机缩放,以概率P2对第一图片进行随机裁剪,以概率P3对第一图片进行随机翻转,得到增强后的第二图片I以及对应电池区域坐标
Figure 531608DEST_PATH_IMAGE015
, 文本行坐标
Figure 482246DEST_PATH_IMAGE016
。本实施例中,
Figure 364751DEST_PATH_IMAGE017
取值为0.25、0.25、0.25;该部分也可采用本领域其他实现方式对图片进行数据增强处理。
步骤2.2:以p4概率随机擦除第二图像中的部分文本区域,假设源文本框的坐标为
Figure 717235DEST_PATH_IMAGE018
,从Ti的横坐标范围内随机选取两个值
Figure 597467DEST_PATH_IMAGE019
,从Ti的纵坐标范围内随机选取两个值
Figure 35401DEST_PATH_IMAGE020
将图像中R
Figure 456018DEST_PATH_IMAGE021
组成的矩形区域的每一个值置为(0,255)的随机值,得到增强后的第三图像I2;根据Ti生成文本检测标签t-map、角度标签a-map,具体来说,初始化t-map和a-map为原图等大小的值为0的图像,将组成的t-map的区域内的值置为1、a-map的区域内的值置为a,再将R组成的t-map的区域内的值置为0、a-map的区域内的值置为0;根据
Figure 928588DEST_PATH_IMAGE022
生成电池定位标签e-map,具体来说,初始化e-map为原图等大小的值为0的图像,将E组成的e-map的区域内的值置为1;对a-map进行one-hot形式编码(One-hot编码就是将单个数字转化为一个向量),得到新的角度标签a-map;本实施例中p4取值为0.25;
步骤2.3:将第三图像I2输入到第一模型,电池定位、文字检测、文字方向预测网络中(第一模型结构如图6所示),得到电池定位网络预测标签p-e-map、文本检测网络预测标签p-t-map、文字方向网络预测标签p-a-map,分别与e-map、t-map、a-map计算损失,使用的损失函数均为交叉熵,公式如下:
Figure 979720DEST_PATH_IMAGE023
其中,g表示真实标签,p表示预测标签,N代表预测类别,上述公式中N取值为2时,上述损失函数对应为电池定位损失函数和文字检测损失函数的,N取值为5时,上述损失函数代表文字方向检测的损失函数,w和h表示图像的宽和高。通过获得的损失函数反向传播更新模型,最终得到收敛的模型,选取在第一测试数据test1上效果最好的模型model1。
步骤3:如图4所示,使用步骤1中的第二训练数据 train2和背景图片background训练文字识别模型,直至收敛,得到第二模型model2;
对于步骤3,详细的包括如下步骤:
步骤3.1:输入文字识别的第二训练数据train2中的第四图片及其对应标注text’文本行内容,对第四图片I’以概率
Figure 904951DEST_PATH_IMAGE024
选取一个角度进行随机旋转;以概率
Figure 129259DEST_PATH_IMAGE025
对第四图片进行随机缩放,以概率
Figure 190756DEST_PATH_IMAGE026
对第四图片进行随机裁剪,以概率
Figure 911325DEST_PATH_IMAGE027
添加高斯模糊;本实施例中,
Figure 323852DEST_PATH_IMAGE028
取值分别为0.25, 0.25,0.25,0.25,
Figure 351851DEST_PATH_IMAGE029
取值为10。添加高斯模糊是因为文字的字符识别对模糊比较敏感,因此在此处采用高斯模糊进行处理。其中,技术方案中第一、第二训练数据和第一、第二测试数据是基于人工标注的信息得到的。
步骤3.2:如图3所示,以概率
Figure 471116DEST_PATH_IMAGE030
从第二训练数据train2中取M张图片,随机根据标注的字符框
Figure 660789DEST_PATH_IMAGE031
截取对应字符图片
Figure 560612DEST_PATH_IMAGE032
,共截取L个,保持长宽比调整截取图片
Figure 64406DEST_PATH_IMAGE033
为统一高度h、对应的宽度为W,随机调整截取图片
Figure 366074DEST_PATH_IMAGE033
的宽度使其宽度在(0.9 *w, 1.1 * w)之间,将这些截取的图片
Figure 726648DEST_PATH_IMAGE034
进行拼接;特别地,在拼接图片图片
Figure 113767DEST_PATH_IMAGE032
和图片
Figure 421252DEST_PATH_IMAGE035
时,随机在其中间插入高度h、宽度
Figure 311848DEST_PATH_IMAGE036
的值为
Figure 108902DEST_PATH_IMAGE033
Figure 717738DEST_PATH_IMAGE037
均值的图片,最终得到一张新的文本行图片I,更新text’为对应拼接字符text;本实施例中,概率
Figure 327449DEST_PATH_IMAGE038
取值为0.25,L取值范围为(3,20),h取值为32,
Figure 338130DEST_PATH_IMAGE036
取值范围为(0,4),本发明提供的图10为结果示例。
步骤3.3:如图2所示,以概率
Figure 306086DEST_PATH_IMAGE039
从背景图片background中随机选取图片B,调整B的尺寸与图片I相同,最后将图片B与图片I进行叠加,叠加公式如下:
Figure 339901DEST_PATH_IMAGE040
从而得到包含印制图案的文本行图片
Figure 51505DEST_PATH_IMAGE041
。本实施例中,λ取值区间为(0.1, 0.6),
Figure 916693DEST_PATH_IMAGE042
取值为0.25,本发明提供的图8显示了上述结果示例;
步骤3.4:将图片
Figure 55550DEST_PATH_IMAGE043
输入到文本识别网络中,得到输入p-text,与文本text计算损失loss,使用的损失函数为CTC(时序连通分类),更新模型参数直至收敛,选取在第二测试数据test2上效果最好的第二模型model2;
步骤1-步骤3提供了第一模型和第二模型的构建方式,下面针对图片通过第一模型和第二模型进行处理予以说明。
实施方式概述:如图1所示,对于一张待识别图片,首先使用第一模型model1得到预测的电池区域的电池定位标签e-map、文字区域的文本检测标签t-map和对应的文字方向区域的文字角度标签a-map,根据电池区域的电池定位标签e-map得到电池的坐标信息,将文字区域的文本检测标签t-map中不在电池区域内的值置为0,再根据文字方向区域的文字角度标签a-map,得到文字区域的文本检测标签t-map中对应文字区域的方向,使用透视变换,将文字方向区域的文本检测标签t-map中文字区域矫正为方向朝上的图片;然后使用第二模型model2预测矫正的图片的内容,得到识别的激光喷码内容。
对于实施方式,更进一步的:
第一步:对于一张待识别图片
Figure 576662DEST_PATH_IMAGE044
,使用第一模型model1得到预测的电池区域的电池定位标签e-map、文字区域的文本检测标签t-map、文字方向区域的文字角度标签a-map,对电池区域的电池定位标签e-map使用阈值th1二值化的be-map,对文字区域的文本检测标签t-map使用阈值th2进行二值化的bt-map,对文字方向区域的文字角度标签a-map的每个位置选取最大值对应的索引index。使用连通域查找算法得到be-map的连通域集合,选择其中面积最大的认为是电池区域;对bt-map使用连通域查找算法得到bt-map的连通域集合,去除不在电池区域内的连通域,取剩下来的连通域组成区域的最小外接矩形,得到矩形的两个长边对应坐标(l1, l2)和(l3, l4);获取对应文字角度标签a-map中该矩形区域内的索引值集合indexs,进行投票,选取票数最高的索引值作为该文本行的indexs值,根据indexs取值进行透视变换。具体地,若indexs为0, 比较(l1, l2)和(l3, l4),选择纵坐标最大的长边作为矫正后文本行的上边;若indexs为1,比较(l1, l2)和(l3, l4),选择横坐标最大的长边作为矫正后文本行的上边;若indexs为2,比较(l1, l2)和(l3, l4),选择纵坐标最小的长边作为矫正后文本行的上边;若indexs为3,比较(l1, l2)和(l3, l4),选择横坐标最小的长边作为矫正后文本行的上边;至此,我们可以得到排序后的文字框顶点(以文字朝向为基准,左上顶点,右上顶点,右下顶点,左下顶点),计算左上顶点和右上顶点的距离dis1,左下顶点和右下顶点的距离dis2,左上顶点和左下顶点的距离dis3,右上顶点和右下顶点的距离dis4,选取dis1和dis2中较大值为图片长度height,选取dis3和dis4中较大值为图片宽度width,将左上顶点映射至(0, 0),右上顶点映射至(width, 0),右下顶点映射至(width, height),左下顶点映射至(0, height)。其中,计算距离的方式如下:欧式距离,坐上顶点(x1, y1)-右上顶点距离(x2, y2),距离 dis1 =sqrt((x1 - x2)*(x1-x2) +(y1 - y2)*(y1-y2)),sqrt表示开根号。最终,我们可以得到文本水平且字体方向朝上的图片
Figure 826377DEST_PATH_IMAGE045
第二步:使用第二model2识别图片
Figure 811651DEST_PATH_IMAGE046
的内容输出,输出图片中的文本行中的文字内容,图11显示了第二模型进文字识别的示意图,输入带有背景的文本行图片,图片中包含的字符为2108054-2KEWULF1001DZRB210727,经过第二模型后,输出的文本行字符为2108054-2KEWULF1001DZRB210727,验证即便文本行中带有背景图案,如果在构建第二模型时,考虑了数据库中包含带有背景图案的文本行,在遇到该种情况时,第二模型仍然可以准确的将文本行中的字符进行识别。
为了提高电池喷码识别的准确率,本发明提出的技术方案相较于现有技术具有如下优势:1)对文字区域进行字符级别标注,随机从不用图片选取若干个字符进行拼接,构造出大规模的变化丰富的文本数据;2)在训练文字识别模型过程中,从电池中提取仅包含印制标志的图片,与文字图片进行叠加,模拟现实中可能出现的情况,训练出更好的模型;3)构造检测电池、检测文字、预测文字方向的一个multi-task(多任务)的任务,来检测到电池的位置以及图片中的文字区域,从而判定电池上的文字区域是哪些,通过预测文字方向,可以将文字区域进行矫正;4)在训练检测电池、文字和预测文字方向模型时,随机将部分文字区域进行遮盖,构造变化的文字,丰富模型中的数据库。
本说明书中所述的只是本发明的较佳具体实施例,以上实施例仅用以说明本发明的技术方案而非对本发明的限制。凡本领域技术人员依本发明的构思通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在本发明的范围之内。

Claims (12)

1.一种基于数据增强和多任务模型的电池激光喷码识别方法,其特征在于,
制作待识别电池定位、源文本框、文字识别的标注数据,将标注数据按照一定的比例划分为电池定位、源文本框的第一训练数据和第一测试数据,文字识别的第二训练数据和第二测试数据;
制作带有印制图案的背景图片数据;
获得数据增强后的第二图片,利用第一训练数据中的第一图片、待识别电池定位坐标以及待识别电池上源文本框坐标,对第一图片进行数据增强得到所述第二图片;
获得数据增强后的第三图片,以一概率随机擦除训练数据中图片的源文本框部分区域,得到数据增强后的第三图片,
将数据增强后的第三图片输入到一预测网络中,计算损失,通过损失反向更新电池定位、源文本框检测的第一模型;
利用第二训练数据中的第四图片及源文本框的标注数据,根据文字识别标注数据截取图片中的字符图片,将截取的字符图片进行拼接,得到新的文本行图片;
从制作的背景图片数据中选择一图片,将背景图片尺寸和文本行图片尺寸调整一致,将所述图片和文本行图片进行叠加,得到包含背景图片的文本行图片;
将包含背景图片的文本行图片输入到文本识别网络中,计算损失,根据损失更新文本的第二模型。
2.根据权利要求1所述的识别方法,其特征在于,源文本框标注数据包括文字区域和文字方向信息,通过所述第一模型实现多任务融合处理,根据电池区域的坐标信息对文字区域进行赋值,不在电池区域内的值设置为0,结合文字方向区域,得到文字区域中对应文字区域的方向,使用透视变换将文字区域校正为方向朝上的图片。
3.根据权利要求1所述的识别方法,其特征在于,所述标注数据会对待识别电池的四个顶点坐标、源文本框的四个顶点坐标和源文本框内文字方向、文字识别进行标注。
4.根据权利要求3所述的识别方法,其特征在于,所述识别方法中还包括文字识别,识别文字区域中每个字符的位置坐标及对应的内容。
5.根据权利要求3所述的识别方法,其特征在于,源文本框坐标表示为:
Figure 43240DEST_PATH_IMAGE001
,所述源文本框坐标表示第i个文本行点0的横坐标、点0的纵坐标、点1的横坐标、点1的纵坐标、点2的横坐标、点2的纵坐标、点3的横坐标、点3的纵坐标以及对应的角度,其中a的取值为1、2、3、4,1表示文本行朝上、2表示文本行朝右、3表示文本行朝下、4表示文本行朝左。
6.根据权利要求3所述的识别方法,其特征在于,所述擦除训练数据中图片的源文本框部分区域的方式为:源文本框的坐标为
Figure 960380DEST_PATH_IMAGE001
,从Ti的横坐标范围内随机选取两个值
Figure 677800DEST_PATH_IMAGE002
,从Ti的纵坐标范围内随机选取两个值
Figure 73010DEST_PATH_IMAGE003
,将图像中R(
Figure 887382DEST_PATH_IMAGE004
,
Figure 647528DEST_PATH_IMAGE005
)组成的矩形区域的每一个值置为(0,255)的随机值,得到增强后的第三图片。
7.根据权利要求4所述的识别方法,其特征在于,所述文字识别包括标注字符框。
8.根据权利要求1所述的识别方法,其特征在于,损失函数均为交叉熵,公式如下:
Figure 914561DEST_PATH_IMAGE006
其中,g表示真实标签,p表示预测标签,N代表预测类别, w和h表示图像的宽和高。
9.根据权利要求8所述的识别方法,其特征在于,N取值为2时,所述公式Loss(g,p)代表电池定位的损失函数和源文本框检测的损失函数,N取值为5时,所述Loss(g,p)代表文字方向检测的损失函数。
10.根据权利要求1所述的识别方法,其特征在于,所述第一模型对待测图片中的电池定位、文字区域、文字方向实现预测,所述第二模型对图片中的文字内容进行识别。
11.根据权利要求1所述的识别方法,其特征在于,所述文字识别的标注采用字符级别的标注。
12.权利要求2所述的识别方法,其特征在于,所述第二模型基于第一模型预测的源文本框坐标,用于识别待测电池中源文本框中包含的文字内容。
CN202211417328.4A 2022-11-14 2022-11-14 基于数据增强和多任务模型的电池激光喷码识别方法 Active CN115497106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211417328.4A CN115497106B (zh) 2022-11-14 2022-11-14 基于数据增强和多任务模型的电池激光喷码识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211417328.4A CN115497106B (zh) 2022-11-14 2022-11-14 基于数据增强和多任务模型的电池激光喷码识别方法

Publications (2)

Publication Number Publication Date
CN115497106A CN115497106A (zh) 2022-12-20
CN115497106B true CN115497106B (zh) 2023-01-24

Family

ID=84974395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211417328.4A Active CN115497106B (zh) 2022-11-14 2022-11-14 基于数据增强和多任务模型的电池激光喷码识别方法

Country Status (1)

Country Link
CN (1) CN115497106B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
CN102968637A (zh) * 2012-12-20 2013-03-13 山东科技大学 一种复杂背景图像文字分割方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108875735A (zh) * 2018-05-25 2018-11-23 昆山湖大机器人技术有限公司 钢板生产线点阵喷码字符自动检测方法
CN108960229A (zh) * 2018-04-23 2018-12-07 中国科学院信息工程研究所 一种面向多方向的文字检测方法和装置
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN110136225A (zh) * 2019-03-29 2019-08-16 北京旷视科技有限公司 生成书面印刷数据的样本的方法、装置及计算机存储介质
CN110516541A (zh) * 2019-07-19 2019-11-29 金蝶软件(中国)有限公司 文本定位方法、装置、计算机可读存储介质和计算机设备
WO2020123764A1 (en) * 2018-12-14 2020-06-18 Markem-Imaje Corporation Method and device for enabling a pattern to be marked on a substrate
WO2021056621A1 (zh) * 2019-09-27 2021-04-01 深圳市商汤科技有限公司 文本序列的识别方法及装置、电子设备和存储介质
CN114092478A (zh) * 2022-01-21 2022-02-25 合肥中科类脑智能技术有限公司 一种异常检测方法
CN114359916A (zh) * 2021-07-19 2022-04-15 山东潍坊烟草有限公司 一种录入登记条盒卷烟32位喷码的识别系统及其实现方法
CN114445707A (zh) * 2022-01-25 2022-05-06 张弛 瓶装水标签缺陷智能化视觉精细检测方法
CN114898375A (zh) * 2022-05-20 2022-08-12 深信服科技股份有限公司 字符检测模型训练方法及组件,文本识别方法及组件
CN115116073A (zh) * 2022-05-31 2022-09-27 青岛海尔科技有限公司 洗涤标签识别方法、装置、存储介质及电子装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983211B2 (en) * 2012-05-14 2015-03-17 Xerox Corporation Method for processing optical character recognizer output
KR20150044697A (ko) * 2013-10-17 2015-04-27 삼성전자주식회사 문서 보정 방법 및 그 전자 장치
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
CN102968637A (zh) * 2012-12-20 2013-03-13 山东科技大学 一种复杂背景图像文字分割方法
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108960229A (zh) * 2018-04-23 2018-12-07 中国科学院信息工程研究所 一种面向多方向的文字检测方法和装置
CN108875735A (zh) * 2018-05-25 2018-11-23 昆山湖大机器人技术有限公司 钢板生产线点阵喷码字符自动检测方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
WO2020123764A1 (en) * 2018-12-14 2020-06-18 Markem-Imaje Corporation Method and device for enabling a pattern to be marked on a substrate
CN110136225A (zh) * 2019-03-29 2019-08-16 北京旷视科技有限公司 生成书面印刷数据的样本的方法、装置及计算机存储介质
CN110516541A (zh) * 2019-07-19 2019-11-29 金蝶软件(中国)有限公司 文本定位方法、装置、计算机可读存储介质和计算机设备
WO2021056621A1 (zh) * 2019-09-27 2021-04-01 深圳市商汤科技有限公司 文本序列的识别方法及装置、电子设备和存储介质
CN114359916A (zh) * 2021-07-19 2022-04-15 山东潍坊烟草有限公司 一种录入登记条盒卷烟32位喷码的识别系统及其实现方法
CN114092478A (zh) * 2022-01-21 2022-02-25 合肥中科类脑智能技术有限公司 一种异常检测方法
CN114445707A (zh) * 2022-01-25 2022-05-06 张弛 瓶装水标签缺陷智能化视觉精细检测方法
CN114898375A (zh) * 2022-05-20 2022-08-12 深信服科技股份有限公司 字符检测模型训练方法及组件,文本识别方法及组件
CN115116073A (zh) * 2022-05-31 2022-09-27 青岛海尔科技有限公司 洗涤标签识别方法、装置、存储介质及电子装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep learning for zero-defect inkjet-printing of electronics;F. Minnette et al.;《2021 IEEE International Workshop on Metrology for Industry 4.0 & IoT》;20210727;458-463 *
一种基于卷积神经网络学习的条烟激光码识别;谢宏 等;《计算机与数字工程》;20190630;第47卷(第6期);1507-1511 *

Also Published As

Publication number Publication date
CN115497106A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
JP6831480B2 (ja) テキスト検出分析方法、装置及びデバイス
KR100248917B1 (ko) 패턴인식장치및방법
CN112836650B (zh) 一种质量检验报告扫描图像表格语义解析方法与系统
CN112801146B (zh) 一种目标检测方法及系统
CN107169485A (zh) 一种数学公式识别方法和装置
CN113537227B (zh) 一种结构化文本识别方法及系统
CN109918523B (zh) 一种基于yolo9000算法的电路板元器件检测方法
CN111242024A (zh) 基于机器学习识别图纸内图例及文字的方法及系统
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN110705630A (zh) 半监督学习式目标检测神经网络训练方法、装置及应用
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN110598698A (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN111079641A (zh) 作答内容识别方法、相关设备及可读存储介质
CN112347997A (zh) 一种试题检测识别方法、装置、电子设备及介质
CN115661836A (zh) 一种自动批改方法、装置、系统及可读存储介质
US11906441B2 (en) Inspection apparatus, control method, and program
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
CN114758341A (zh) 一种智能化合同图像识别与合同要素抽取方法及装置
CN114359917A (zh) 一种手写汉字检测识别及字形评估方法
CN111274863B (zh) 一种基于文本山峰概率密度的文本预测方法
CN115497106B (zh) 基于数据增强和多任务模型的电池激光喷码识别方法
CN116704508A (zh) 信息处理方法及装置
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN112651353B (zh) 一种基于自定义标签的目标口算的定位识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant