CN110728307A

CN110728307A - 自生成数据集与标签实现x光影像图小样本字符识别方法

Info

Publication number: CN110728307A
Application number: CN201910894724.8A
Authority: CN
Inventors: 王征; 靳亚东; 李威; 孙美君
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2020-01-24

Abstract

本发明公开了一种自生成数据集与标签实现X光影像图小样本字符识别方法，所述方法包括：在训练应用场景的数据集之前，采用自生成的数据集与label进行预训练，达到辅助应用场景数据集训练的效果；生成由原少量训练影像图旋转一定角度后得到的新影像图，作为自生成增强数据集，同时获取及其对应label；采用增强数据集训练模型即可提高识别的准确率，从而实现对X光影像图小样本字符识别。本发明的目的是在使用深度学习的方法时，扩充小样本的训练数据集，从而帮助因实际数据集样本较少达不到较好训练结果的情况。

Description

自生成数据集与标签实现X光影像图小样本字符识别方法

技术领域

本发明涉及计算机深度学习字符识别领域，尤其涉及一种自生成数据集与标签实现X光影像图小样本字符识别方法，通过对图像内字符位置以及字符语义信息的特征学习，实现对指定图片内的字符位置定位及语义识别。

背景技术

目前在工业生产和制造领域，大量的零件X光影像数据都是逐步改变实体胶片的形式存放，换为更方便管理的数字影像，而每张X光影像图数据信息的录入都比较繁琐，一般至少需要将每张图片内大量的字符信息存入到数据库中，需要花费工作人员大量的精力和时间，造成了许多成本的浪费。为了提高工作效率以及增加录入字符信息的准确率，通过字符识别算法来识别提取图像内信息，可以比工作人员更快的速度输入字符信息，并以较高的准确率录入，极大了降低了录入成本。

在过去的几十年里，已经发展出了许多种比较成熟的算法，这些算法主要有：

1、扫描件切字：图片内字分布均匀且字体都是统一工整的，根据扫描件的字一个一个切出来变成图片，并根据原位置建立索引的方法。对用户输入的关键字图片与扫描件库中的字特征点之间做匹配，筛选出可靠的匹配并rank得出检索的结果。

2、形状上下文(Shape Context)：利用Shape Context进行字符识别的过程，便是找出与待识别形状最相似模板库图像的过程。这种特征提取方法使得计算机能够衡量形状之间的相似性，并且能够同时得出形状上的点对应关系。

3、模板匹配算法(Template Matching)：模板匹配是图像识别中最具代表性的方法之一。它从待识别图像中提取若干特征向量与模板对应的特征向量进行比较，计算图像与模板特征向量之间的距离，用最小距离法判定所属类别。模板匹配通常事先建立好标准模板库。

4、传统的光学字符识别(OCR)算法：主要通过字符特征提取，将当前字符提取的特征向量与特征模板库进行模板粗分类和模板细匹配，识别出字符的算法。

5、深度学习的方法：使用分类器将每个字符训练多次，最终让分类器能认识图片上的文字，一般情况下，需要训练用的数据集的量会比较多时，才会使识别的准确率较高，该方法是最近几年非常流行的字符识别算法。

由于深度学习方法自身强大的灵活性和自适应能力，在各个领域都有越来越多的应用投入使用，在图像字符识别领域的准确性以及使用也在逐渐增加，其中针对X光影像图等小样本数据做字符识别，就是典型的一种深度学习训练方法。

对工业生产或制造等特定领域，存在的X光影像图量较少的情况，以及影像图焊接的字符数据可能存在的字符位置不工整，可能出现的角度倾斜等问题，均对图像的训练及其识别精度造成了较大的影响，如何在较少样本影像图数据的情况下训练，对最终识别精度得出一个较高的准确率，仍然是一个非常具有挑战性的问题。

发明内容

本发明提供了一种自生成数据集与标签实现X光影像图小样本字符识别方法，本发明的目的是在使用深度学习的方法时，扩充小样本的训练数据集，从而帮助因实际数据集样本较少达不到较好训练结果的情况，详见下文描述：

一种自生成数据集与标签实现X光影像图小样本字符识别方法，所述方法包括：

在训练应用场景的数据集之前，采用自生成的数据集与label进行预训练，达到辅助应用场景数据集训练的效果；

生成由原少量训练影像图旋转一定角度后得到的新影像图，作为自生成增强数据集，同时获取及其对应label；

采用增强数据集训练模型即可提高识别的准确率，从而实现对X光影像图小样本字符识别。

其中，所述采用自生成的数据集与label进行预训练具体为：

1)采用python图片生成库，自定义大写字母以及数字字典；

2)生成原数据集图像大小近似的新影像图；

3)在生成新影像图上模仿原少量数据集样本中数字和字母在图像内的位置，从步骤1)中自定义的字典中随机取出字母或数字，且大小与数量均与原少量数据集样本数字和字母相同，选择好字母和数字后填充到新影像图内。

4)循环3000次2)-3)步骤，生成3000张新数据集图像作为预训练数据集。

进一步地，所述生成由原少量训练影像图旋转一定角度后得到的新影像图，作为自生成增强数据集具体为：

1)构建生成字符与数字的字典，设置不同的偏转角度；

2)根据设置的不同偏转角度，使图像整体做旋转，并使旋转后的图像重新填充成新的矩形状图像，即为新生成的影像图；

3)根据偏转角度、原数据集图像的大小、原数据集图像内字符标注的位置信息、宽高等计算旋转后的新数据集字符标注信息，根据后续深度学习训练选择的具体方法，将标注信息存入到xml或txt等格式文件中；

4)根据不同阈值的偏转角度即可生成大量与原数据集类似，但是为旋转后的不同大小的影像图新数据集，达到增强数据集的目的。

本发明提供的技术方案的有益效果是：

1、通过自生成的方法来增加预训练数据集、增强数据集，大大减少了在收集数据集时的时间、成本等；

2、在自生成预训练数据集、增强数据集的同时自生成了label(标注)，减少了人员在收集到数据集后做标注的过程，极大的减少了时间、成本等；

3、采用自生成预训练数据集可以自控图像生成质量、生成字符位置，生成数据集的数量等等，使训练时网络的鲁棒性有了保证；

4、增强数据集采用旋转固定或随机角度的方式生成，扩充了原始数据集库的同时，又增强了网络训练的鲁棒性。

附图说明

图1为训练采用50张X光影像图字符分布示意图；

图2为自生成与影像图类似的预训练集示意图；

图3为图像旋转一定角度填充矩形得到新图像示意图；

图4为Yolo_v3模型结构示意图；

图5为训练得到的不同尺度分类器下的recall以及precision示意图；

图6为图像类别以及对应的AP、mAP值示意图；

图7为字符类别的数量及识别结果示意图；

图8为一种自生成数据集与标签实现X光影像图小样本字符识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

由于在现有的工业领域中，经常存在影像图数据量较少，且字符位置倾斜的问题，因此在影像图等类似数据集较少训练时，会造成最终分类器对字符分类的效果较差，从而影响对影像图字符识别的准确率。

本发明实施例提供了一种自生成数据集的方法进行训练，首先自动生成图像大小形状、以及图像内文字大小均与原少量数据集样本类似的3000张影像图，做预训练迭代后，使用自生成增强数据集的方法，生成由原少量训练影像图旋转一定角度(-α，α，-β，β等，α，β为0到90°区间内的值)后得到的新影像图，再训练最终达到较好效果。由于在自生成训练集的同时生成了对应的label信息，比采用其他字符数据集再标记label节省了大量的时间和成本。

实施例1

基于自生成预训练集以及对应的label，并在此训练基础上对增强数据集及其label的生成训练，最终达成对小样本影像图字符的识别算法，其主要流程可以分为四个部分：

自生成预训练数据集及其对应标签；自生成增强数据集及其对应label；采用的模型整体方法；模型预测结果分析。

实验数据来自中国武汉的一个船舶制造厂，包含了几个特殊系列的X光影像图字符编号信息。其中仅有0，A，J字符数据集较多分布，大部分数据集字符量没有超过20个。(如图1所示)。由于在实际应用场景中，该数据集分布是一个十分常见的现象，所以使用当前的数据集作为整个算法训练的主要数据，并以此为基础做数据集的扩充、训练，识别等等。

一、预训练数据集及其label的自生成

在训练应用场景的数据集之前，采用自生成的数据集与label进行大量预训练，达到辅助应用场景数据集训练的效果。

A)采用自生成的3000张width*height(width，height对应应用场景内的影像图宽和高)大小的jpg格式图片，背景设置为随机颜色像素填充，字符为随机生成的0～9，A～Z，一共36个元素。在对应每张图片散落位置附近自动生成，每张图像生成30个。字体为与编号相近的Arial字体(字体可以选择其他与实际情况近似的)，大小为140像素(定义与应用场景近似大小的字符)，如图2所示。

B)在生成预训练图片的同时，根据随机生成的位置信息对字符画方框，并取得方框在图片内中心点x坐标、中心点y坐标、宽度width，高度信息height，存入到对应图片数据集的txt文本中。

算法描述如下：

1)采用python图片生成库，自定义大写字母以及数字字典；

2)生成原数据集图像大小近似的新影像图(此时无字母和数字)；

3)在生成新影像图上模仿原少量数据集样本中数字和字母在图像内的位置(大概即可)，从步骤1)中自定义的字典中随机取出字母或数字，且大小与数量均尽可能与原少量数据集样本数字和字母相同，选择好字母和数字后填充到新影像图内即可。

4)循环3000次2)-3)步骤，即可生成3000张新数据集图像作为预训练数据集。

二、自生成增强数据集及其对应label

由于训练数据集在实际场景中较少的情况，现采用如下方法来扩充数据集，并生成对应的label：

A)为保证旋转后生成的新数据集与原数据集图像相比清晰度一样，使原图像对应翻转一定角度(-α，α，-β，β等，α，β为0到90°区间内的值)生成新图像后，直接对多余部分做填充而不对原图大小做缩放，保证了原图像没有信息的缺失，(如图3所示)。

B)根据应用场景图像的xml或json原标注信息，对原标注字符位置的矩形框位置信息，做一定角度(在步骤A中旋转的角度)的坐标变换，生成新的图像字符位置信息label，包含每个字符位置矩形框中心点的x，y坐标，及框的宽width高height。坐标变换算法如下(new-x、new-y、new-width，new-height为旋转后对应字符外框的外框中心点坐标及其宽高)。

算法描述如下：

1)构建生成字符与数字的字典，设置不同的偏转角度。

2)根据设置的不同偏转角度，使图像整体做旋转，并使旋转后的图像重新填充成新的矩形状图像(如图3)，即为新生成的影像图。

3)根据偏转角度、原数据集图像的大小、原数据集图像内字符标注的位置信息、宽高等计算旋转后的新数据集字符标注信息，根据后续深度学习训练选择的具体方法，将标注信息存入到xml或txt等格式文件中。

4)根据不同阈值的偏转角度即可生成大量与原数据集类似，但是为旋转后的不同大小的影像图新数据集，达到了增强数据集的目的。

三、采用的模型整体方法

整个Yolo_v3结构里面，没有池化层和全连接层。前向传播过程中，张量的尺寸变换是通过改变卷积核的步长来实现的，有5次下采样，每次采样步长为2，所以网络的最大步幅(步幅指层的输入大小除以输出)为2^5＝32。Yolo_v3网路使用了darknet-53的前面的52层(没有全连接层)，是一个全卷积网络，大量使用残差的跳层连接。最终输出的featuremap中的每一个cell都会预测3个边界框(bounding box)，每个边界框都会预测三个值：(1)每个框的位置(4个值，中心坐标tx(中心点横坐标)和ty(中心点纵坐标)，框的bh(框的高度)和bw(框的宽度))，(2)一个目标预测结果(objectness prediction)，(3)N个类别。

四、模型预测结果分析

评价当前图像字符识别模型算法结果，采取精确度、召回率、AP、mAP作为评价指标，计算方法描述如下：

True Positive(真正，TP)：将正类预测为正类数

True Negative(真负，TN)：将负类预测为负类数

False Positive(假正，FP)：将负类预测为正类数误报(Type I error)

False Negative(假负，FN)：将正类预测为负类数→漏报(Type II error)

准确率：

召回率：

AP等于是对每个类别训练样本划分多块，对所有块内样本的precision进行取平均，衡量的是学出来的模型在每个类别上的好坏，mAP衡量的是学出的模型在所有类别上的好坏，得到AP后取所有AP的平均值，得到mAP。

仅使用50影像图做训练时，recall与precision均为50％左右，AP与mAP值均为0.2左右。字符识别的准确率仅为10％左右。

在自生成预训练数据集训练，再使用增强数据集做训练后的结果如下图：图5和图6展示了对应分类结果的recall、precision、AP，mAP。图7展示了最终字符类别的数量及识别结果。

对比在使用自生成的预训练数据集训练，再使用增强数据集做训练后的结果，可以很明显的看出本发明的这种自生成数据集以及标签的算法可以很大程度的提升训练的精确度等。最终提升字符识别时的准确率。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自生成数据集与标签实现X光影像图小样本字符识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种自生成数据集与标签实现X光影像图小样本字符识别方法，其特征在于，所述采用自生成的数据集与label进行预训练具体为：

1)采用python图片生成库，自定义大写字母以及数字字典；

2)生成原数据集图像大小近似的新影像图；

3)在生成新影像图上模仿原少量数据集样本中数字和字母在图像内的位置，从步骤1)中自定义的字典中随机取出字母或数字，且大小与数量均与原少量数据集样本数字和字母相同，选择好字母和数字后填充到新影像图内；

3.根据权利要求1所述的一种自生成数据集与标签实现X光影像图小样本字符识别方法，其特征在于，所述生成由原少量训练影像图旋转一定角度后得到的新影像图，作为自生成增强数据集具体为：

1)构建生成字符与数字的字典，设置不同的偏转角度；