CN111582329A

CN111582329A - 一种基于多示例学习的自然场景文本字符检测标注方法

Info

Publication number: CN111582329A
Application number: CN202010322988.9A
Authority: CN
Inventors: 熊绒; 刘剑毅
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-08-25
Anticipated expiration: 2040-04-22
Also published as: CN111582329B

Abstract

本发明公开了一种基于多示例学习的自然场景文本字符检测标注方法，包括以下步骤：1)得初始化的辅助分类器D₀；2)对自然场景图像B_i进行画框处理，得整张图像B_i中的所有提案框b_i,j，将图片b_i通过基础网络框架进行特征提取，得多示例学习中的具体示例s_i,j；3)在标签生成器中进行内部迭代循环，同时辅助分类器D_₀联合并指导标签生成器中的SVM进行迭代训练，得所有正值示例标签y_i,j；4)优化更新辅助分类器的模型参数，得辅助分类器D__i，然后转至步骤2)，待完成外部循环训练后，得最终的辅助分类器D__n，再对待处理的自然场景图像进行分类，该方法能够实现自然场景的文本字符检测标注，且标注成本低，标注质量高。

Description

一种基于多示例学习的自然场景文本字符检测标注方法

技术领域

本发明属于计算机视觉与人工智能领域，涉及一种基于多示例学习的自然场景文本字符检测标注方法。

背景技术

文本图像在生活中随处可见，它是伴随着人类信息文明发展的一个重要标志。在人们日常生活中，存在着大量的文本图像，例如：交通指示牌、商品铭牌、车牌和驾驶证等。随着互联网和各类移动电子设备(手机、相机等)的快速发展，人们通过这些设备能浏览到大量包含文本信息的自然场景图像，准确检测和识别这些图像所包含的文本信息具有很重要的研究意义。

随着计算机视觉与模式识别等领域的飞速崛起，目标检测和识别作为其中的重要领域也在不断的成长和发展中，相比较于其他自然场景中的检测和识别，文本检测和识别具有其独特的重要性，它能直观的反映出自然场景图像中的具体内容，对于分析和理解图像具有重要意义。在这个数据为王的深度学习时代，更大规模更高质量的标注数据往往可以得到更好的识别模型，但与此同时也意味着高昂的标注成本，同时，标注过程会受到标注人员的主观意识影响导致标注质量参差不齐，最终影响识别模型的性能。具体到文本检测和识别领域，在收集训练数据的过程中，根据不同检测对象，标注内容不仅要求标注对象类别，同时要求标注对象位置，这进一步增加了标注难度，制约了研究进展。因此，如何实现自动的且高质量的自然场景图像文本区域检测定位得到了广泛的关注。

图像中的文本通常被视为若干视觉元素的层次结构，文本的组成可以分为字符、单词、文本行和文本块，目前基于完全监督的深度学习研究自然场景下的文本检测多是使用单词或者文本级别进行位置坐标的真值标注，每一张自然场景图像中含有大量文本内容，文本排列方向并不一致，且分布不均匀，而用于文本识别模块大多是使用字符级别注释的标签信息进行标注，每一个单词级别的文本需要拆分成一个个单独的字符，字符之间的间隔相对单词更为紧密，难以手工标注，这样的数据集处理起来耗时且准备成本高，标注人员稍有松懈将导致整体标签质量较低。除此之外，国内外研究字符级别检测的算法相对于单词级别而言较为欠缺，研究人员尝试采用半监督和弱监督的学习方式对字符级别的文本进行检测，弱监督和半监督的学习方式都是针对数据的标签信息而言的，一般而言，一个训练数据样本由两部分组成：描述对象或事件的特征向量和对应的真值数据标签，完全监督学习中特征向量和真值具有一一对应的关系，而弱监督学习中与特征向量对应的真值并不具有完整信息，简单来说，弱监督学习中的标签蕴含的信息量较低，通过弱监督学习，可以将输入数据映射到一组更强的标签，获得完整标签信息。弱监督学习一般包括不完全监督、不确切监督和不准确监督。现有研究人员为了获得字符级别的检测器，采用少量单词级别的标注信息作为基础检测器进行检测，然后使用SSD(Single shot multibox detector)针对字符检测进行训练，虽然能检测标注出特定数据集ICDAR2013上字符的具体位置，但从本质上而言，并没有摆脱需要初始标注信息的前提，并且使用少量的单词级别标注训练的单词检测器并不具有鲁棒性，通过单词级别的标注信息获得字符级别标注信息，这种不确切监督在更为复杂的自然场景图像中对字符级别的检测效果并不理想。

不确切监督是训练样本数据集只有粗粒度标签信息，通过粗粒度信息获得更强的标签信息是其主要任务，解决不确切监督的主要方法是多示例学习，在多示例学习中，训练集由一组具有分类标签的多示例包(bag)组成，每个包含有若干个没有分类标签的示例(instance)。如果多示例包至少含有一个正示例，则该包被标记为正类多示例包(正包)。如果多示例包的所有示例都是负示例，则该包被标记为负类多示例包(负包)。多示例学习的目的是，通过对具有分类标签的多示例包的学习，建立多示例分类器，并将该分类器应用于未知多示例包的预测和每一个包中具体示例的标签预测。

在上述背景以及调研了国内外研究现状后，现有技术中文本字符人工标注的成本高，标注质量差的缺点，因此急需开发一种新的标注方法，以解决上述问题。

发明内容

本发明的目的在于克服上述现有技术的缺点，提供了一种基于多示例学习的自然场景文本字符检测标注方法，该方法能够实现自然场景的文本字符检测标注，且标注成本低，标注质量高。

为达到上述目的，本发明所述的基于多示例学习的自然场景文本字符检测标注方法包括以下步骤：

1)使用基本二分类网络将文本字符示例及不含有文本字符的背景示例进行训练分类，得初始化的辅助分类器D₀；

2)对自然场景图像B_i进行画框处理，得整张图像B_i中的所有提案框b_i,j，其中，B_i∈B表示第i个包，i＝1,…,k，B表示所有k个包，即所有训练图像，b_i,j∈B_i，j＝1,…,n，n表示提案框的个数，将图片b_i通过基础网络框架进行特征提取，得所有提案框b_i,j的特征图f_i,j，并将所有提案框b_i,j的特征图f_i,j作为多示例学习中的具体示例x_i,j；

3)将步骤2)得到的多示例学习中的具体示例x_i,j送入到示例标签生成器中，并在标签生成器中进行内部迭代循环，同时使用步骤1)中的辅助分类器D_₀联合并指导标签生成器中的SVM进行迭代训练，得所有正值示例标签y_i,j；

4)将步骤3)中的多示例学习中的具体示例x_i,j与与其对应的示例标签y_i,j重新作为新的训练样本输入到辅助分类器D_₀中进行外部循环迭代，以优化更新辅助分类器的模型参数，得辅助分类器D__i，然后转至步骤2)，待完成外部循环训练后，得最终的辅助分类器D__n，再利用最终的辅助分类器D__n对待处理的自然场景图像进行分类，得自然场景图像的示例标签信息，完成自然场景额文本字符检测标注。

步骤1)中采用selective search算法或者Edge boxes算法对自然场景图像Bi进行画框处理。

步骤4)中使用keep and drop算法进行训练。

本发明具有以下有益效果：

本发明所述的基于多示例学习的自然场景文本字符检测标注方法在具体操作时，使用少量的文本字符示例及不含有文本字符的背景示例进行训练分类，得到初始化的辅助分类器，然后利用弱监督学习中的多示例学习并结合深度学习，进行循环训练迭代，实现以弱信息含量的标签映射出强信息含量的标签功能，以降低文本字符人工标注的成本，解决由于人工标注无法保证标注质量的问题，为文本字符区域自动检测标注提供新的研究思路。

附图说明

图1为本发明的流程示意图；

图2为辅助分类器的基础网络结构图；

图3为示例标签生成器的结构图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

本发明所述的基于多示例学习的自然场景文本字符检测标注方法在具体操作时，首先通过少量含有字符示例及背景示例的图像进行二分类辅助分类器的初始化训练，使得初始辅助分类器具有一定的标签分类能力，其中，所述字符示例及背景示例均为人工选择得到的图像，只具有一定的类别区分性，并不具有全面性，再采用selective search算法对训练图像进行提案框的获取，得全图中所有对象示例的具体位置信息，再将训练图像送入到基础网络架构中进行卷积操作，以提出图像特征，然后将得到的对象示例送入到标签生成器中，并使用初始辅助分类器指导标签生成器中的SVM进行对象示例标签的训练，同时训练迭代SVM的分类能力，通过示例标签生成器后，将所有真值对象及真值对象标签作为新的置信训练集重新迭代训练初始辅助分类器，进行外部循环和内部迭代结合的方式，最终得到示例检测器模型。在自然场景图像进行文本字符检测时，使用上述示例生成及示例检测步骤便可得到最后字符级别标签信息，具体为：

辅助分类器作为指导示例标签生成器中SVM进行内部迭代训练，由于是作为字符示例及背景示例的两类分类器，本发明直接采用VGG16的前5层卷积网络结构作为基础网络结构中的特征提取层，所述VGG16的前5层网络结构使用已经在ImageNet的数据集上提前训练过的网络参数进行初始化，特征提取层保持不变，分类层根据特定两种类别分类进行设计，基础特征层到分类层之间采用ROI Align层操作对每一个对象特征图的大小做归一化处理，输入图像做归一化处理后得到固定特征大小作为弱监督学习中的示例，由于文本字符大小相比于整张自然场景图而言区域小，因此单独设计ROI Align归一化的比例为4x4x512，展开为一维特征大小为8192，辅助分类器的具体网络结构为：

输入图像尺寸为224x224x3，分别对应长、宽及通道数，第一层卷积网络设置卷积核为64，经过两次卷积网络结果为224x224x64，长宽不变，将通道数卷积到64层，然后通过maxpool层，将图像大小变为112x112x64。

第二层卷积网络设置卷积尺寸为128，经过两次卷积操作后，卷积结果为112x112x128，将特征图通过maxpool层，图像大小变为56x56x128。

第三层卷积网络设置卷尺尺寸为256，经过三次卷积操作后，卷积结果为56x56x256，将特征图通过maxpool层后，图像大小变为28x28x256。

第四层卷积网络设置卷积尺寸为512，经过三次卷积操作后，卷积结果为28x28x512，将特征图通过maxpool层后，图像大小变为14x14x512。

第五层卷积网络设置卷积尺寸为512，经过三次卷积操作后，卷积结果为14x14x512，将特征图通过maxpool层后，图像大小变为7x7x512。

完成上述五层基础网络特征提取后，将得到7x7x512的特征图大小，为得到统一的特征图，将其通过ROI Align层，将所有特征图归一化到4x4x512，ROI Align层的图像宽高设置为4x4，通过ROI Align层后，得总特征数为8192大小的一维特征图。

辅助分类器最后的分类层为二分类器，设置的全连接层为两层基本映射，第一层将4x4x512的一维特征图映射到1000的特征图大小，第二层将1000的特征图映射到2类别，所述2类分别为背景示例类及字符示例类。

本发明中的示例生成器结构为：

示例生成器是为了得到真实的包中所有对象示例，为将包Bi中的所有对象进行提取，本发明首先使用基本图像操作selective search算法得到目标区域的提案框b_i,j，其中，所述提案框为目标对象在图像中相对于图像左上角原始顶点的偏移位置，然后将图像送入基础网路结构中，其中，本发明并不用辅助分类器中的分类层进行分类，只需基础网路结构前5层卷积网络操作及ROI Align特征提取的操作，ROI Align及辅助分类器中不同的是，输入的提案区域宽高比不一定相同，根据selective search中得到的提案框的具体位置及整张图片通过卷积操作后的缩放比例进行设置，最后，得到的固定8192大小的一维特征数组，即生成示例i_i,j，其中，{j＝1,…,n}，由于整个算法为了得到字符示例检测的功能，且仅使用弱监督学习的算法，因此示例生成器中生输入的图片仅有两类：即含有文本的图片和不含有文本的图片。

具体算法参数设置如下：

selective search的算法参数为(im_orig,scale＝1.0,sigma＝0.8,min_size＝20)，im_orig为输入的原始自然场景图像，为统一化原始图像大小，为算法计算提供方便，图像输入首先根据原始图像的宽高比进行计算，得到以短边为主的统一尺寸图像，scale表示felzenszwalb分割时，值越大，表示保留的下来的集合就越大，其中，felzenszwalb为图像分割的传统算法，sacle大小设置为1，sigma表示felzenszwalb分割时，所使用的高斯核宽度，设置为0.8，min_size表示分割后最小组尺寸，由于相比于整张图像而言，字符示例的尺寸很小，因此设置的字符示例尺寸为20大小。

原始图像比例设置以短边为主计算图像原始比例，固定图像一边尺寸为1200，整张图像根据这个基础比例进行宽高比的计算，根据基础网路结构中的卷积操作，图像缩放为32倍大小，因此通过最后ROI Align层时，提案框的具体位置大小根据32倍的缩放比例进行缩放，通过ROI Align层后，得到8192大小的一维特征示例。

本发明中的示例标签生成器

示例标签生成器的作用是将从示例生成器中得到的具体示例s_i,j进行标签生成的过程，j＝1,…,n，由于本发明是基于弱监督学习的文本字符检测，必须要得到示例级别标签才能后续进行具体字符示例位置检测。本发明中采用弱监督学习中的多示例学习方法进行模型的学习，在示例生成器中，本发明的输入包有两类：即含有文本类包和不含文本类包，按照多示例包级别标签的设置，负包中所有示例标签都应该为负标签y_i-,j，正包中至少有一个示例的标签设置为正标签y_i+,j，示例标签生成器的作用便是将正包中的所有标签进行预测，且必须至少含有一个正标签。

示例标签生成器中主要算法称为KD(keep and drop)算法，算法中主要采用的标签分类器为SVM，本发明称为gd-SVM(guide direction-SVM)，gd-SVM的迭代优化需要使用初始化的辅助分类器D_₀进行指导优化，在完成优化过程后便得到第一代gd-SVM，其具有一定功能的字符示例标签生成的功能，但是由于采用初始化辅助分类器进行指导，所以gd-SVM并不能作为最终的示例检测器使用，还需要同辅助分类器进行内外部结合的方式循环优化。

在完成示例标签生成器的功能后，得到自然场景图像中所有相对正确的具体示例及其对应的示例标签，由于初始化辅助分类器的功能具有一定局限性，示例标签进行预测的时候并不能保证所有标签都准确，所以需要进行迭代，完成一次示例标签生成后，得到的具体示例及标签便可作为训练示例和标签给辅助分类器进行新一轮的训练。

具体KD算法实施步骤为：

初始化SVM的基本参数，λ初始化为0，λ为KD算法中内部循环迭代的最大次数，正包中的所有示例标签设置为y_i+,j＝1，负标签中所有示例标签设置为y_i-,j＝-1。

11)内部迭代训练

训练SVM并更新参数，对于负包中的示例标签设置为y_i-,j＝-1，正包中示例标签的预测过程为：

a)SVM与辅助分类器预测结果相同的标签和示例保存作为正确示例及标签；

b)SVM与辅助分类器预测结果不相同的标签设置为孤儿标签及孤儿示例，并保存。

如果SVM与辅助分类器预测相同的示例和标签全为负标签，则取SVM中预测最可能为正的标签作为该包中的正确示例保存。

12)使用第11步中得到的负包中的所有示例x_i-,j及标签y_i-,j以及正包中使用SVM和gd得到的预测结果相同的正确标签y_i+,j及示例r_i+,j作为新的训练集进行内部迭代训练SVM模型，SVM更新参数，同时使用该SVM模型对正包中的所有示例进行重新预测，采取和第11步同样的方案对孤儿示例和标签进行设置，λ＝λ+1，并进行循环迭代；

3)当SVM和辅助分类器预测的所有正包中示例标签相同或者迭代次数λ达到最大迭代次数时，则返回所有正包中正确的示例和标签以及负包中的示例和标签，当达到最大迭代次数时，还存在孤儿标签，则舍弃孤儿示例和孤儿标签。

本发明中的示例检测器：

示例检测器是使用最终辅助分类器D__i进行具体自然场景文本字符示例预测的功能，示例检测器本质上分为训练及检测两部分，训练是指在完成示例标签生成器后，初始化辅助分类器D_₀需要根据得到的具体示例r_i,j及对应标签y_i,j进行新一轮的训练，训练过程和初始化辅助分类器不同的是，由于已经得到示例及示例标签，因此不需要通过基础网络结构，只需要训练辅助分类器的二分类器的参数，检测部分是指辅助分类器在完成所有外部迭代次数后得到的最终模型D__n，使用最终模型对具体示例进行检测，便可完成示例预测的功能，其中，具体预测步骤为：

在完成示例标签生成器后，辅助分类器根据得到的具体示例及对应标签进行新一轮的训练，示例检测器为辅助分类器在完成所有外部迭代次数后得到的最终模型，自然场景图像通过selective search算法后得到区域提案，同时将图像送入到基础网络结构后得到对应的特征图，使用ROI Align得到固定尺寸的示例，最后使用最终辅助分类器进行示例的类别预测，得示例的标签预测。

Claims

1.一种基于多示例学习的自然场景文本字符检测标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于多示例学习的自然场景文本字符检测标注方法，其特征在于，步骤1)中采用selective search算法或者Edge boxes算法对自然场景图像Bi进行画框处理。

3.根据权利要求1所述的基于多示例学习的自然场景文本字符检测标注方法，其特征在于，步骤4)中使用keep and drop算法进行训练。