CN110956167B

CN110956167B - 一种基于定位字符的分类判别强化分离的方法

Info

Publication number: CN110956167B
Application number: CN201911253572.XA
Authority: CN
Inventors: 田博帆; 纪睿哲
Original assignee: Nanjing Hongsong Information Technology Co ltd
Current assignee: Nanjing Hongsong Information Technology Co ltd
Priority date: 2019-12-09
Filing date: 2019-12-09
Publication date: 2023-04-28
Anticipated expiration: 2039-12-09
Also published as: CN110956167A

Abstract

本发明公开了一种基于定位字符的分类判别强化分离的方法，具体步骤包括：(1)字符定位：通过字符连通域算法或目标识别检测YoLo v3算法对文本图片中的文本字符进行定位处理；(2)字符分类：采用DenseNet网络进行文本字符的多特征提取，并用于文本字符的分类，再对分类后的文本字符进行样本收集和标注；(3)特征提取：根据步骤(2)获得的样本，进行像素级特征提取；(4)强化分离：利用分类器分类得到的重叠混合字符再做强化分离，得到像素级的分类结果，并结合分类器已有的分类结果；直接从步骤(1)中的文本图像中对定位的印刷体字符从像素层面将其灰度值全部设置为白色，实现去除印刷体字符只保留手写体字符。

Description

一种基于定位字符的分类判别强化分离的方法

技术领域

本发明属于文本图像处理技术领域，尤其是涉及一种基于定位字符的分类判别强化分离的方法。

背景技术

随着人工智能信息化时代的发展，图像识别技术逐渐兴起并已深入至各个行业，彻底改变了人类的生产和生活方式。然而技术的不断迭代更新，在传统图像识别领域，原本难以完成的图像处理任务，现阶段可通过人工智能方法实现图像处理的任务需求，弥补传统方法存在的不足。

随着科技的发展，随着人工智能的到来，新的一轮技术革命已然开始；计算机已逐步取代了人工的繁重工作。例如，在文本识别领域，由于大量文本信息待处理，传统的人工审阅方式已然无法满足需求；或者学生考试使用的部分自动批阅系统，以及票据、凭据等的识别录入系统，这些不仅节省了由人工参与而浪费的大量时间，同时提高了工作效率。但作为文本识别系统，对其识别的精度一直以来都有很高的要求，也是目前研究的重点；文本识别主要分为手写体识别和印刷体识别两种，考虑到手写体书写的随意性和复杂性等特点，混合识别变的非常有难度，大多数的识别系统都是将其分开进行识别；伴随智能化识别系统的发展，开始逐渐打破了旧的格局，开辟新的天地；文本识别的前提是先对文本进行定位，实际识别应用中文本大多为印刷体和手写体字符的混合，而手写体通常为识别的重点目标，故需提前对待识别的手写体做出精确定位变得至关重要。

机器视觉发展至今，已取得了辉煌成就。但有关它的研究仍在继续深入，而在当今多元化的社会，随着信息化和智能化技术的逐步展开，开启了一种时代新模式。目前，采用机器视觉技术可以完成各类人工难以实现的复杂任务，为了能够充分利用技术带来的便利，各类产品应运而生。在教育应用领域，存在着众多智能化的批阅产品，这些产品不仅在使用过程中能够增加用户的体验感，同时在行为互动上也增强了用户的参与感。

智能化批阅系统的核心离不开图像中文本字符的识别技术，而识别的前提依赖于强大的学习模型。研究表明，任何一种模型若过于复杂，都将导致其过拟合，使它在预测未知数据时的泛化能力较差。因此，为了提高模型的预测能力，针对复杂情况下的数据识别，模型大多采用分类机制。在图像的文本识别方面，字符种类大致可分为：数字、符号、中文、英文四种，其中除了印刷体字符较为统一规整外，其他的手写体字符则形态万千，因人而异。考虑到手写字符识别的困难性和混合模型学习的复杂性，采取印刷体字符和手写体字符的分类将变得十分必要。

因此，有必要开发一种基于定位字符的分类判别强化分离方法，它采用字符多特征分类的方法并结合其像素级的局部特征进行字符二分类以解决两类字符难以分离的问题，达到字符的强化分离目的。

发明内容

本发明要解决的技术问题是，提供一种基于定位字符的分类判别强化分离方法，它采用字符多特征分类的方法并结合其像素级的局部特征进行字符二分类以解决两类字符难以分离的问题，达到字符的强化分离目的。

为解决上述技术问题，本发明采用的技术方案是：该基于定位字符的分类判别强化分离的方法，具体包括以下步骤：

(1)字符定位：通过字符连通域算法或目标识别检测YoLo v3算法对文本图片中的文本字符进行定位处理，获取所述文本字符的定位坐标；

(2)字符分类：采用DenseNet网络进行文本字符的多特征提取，并用于文本字符的分类，再对分类后的文本字符进行样本收集和标注；

(3)特征提取：根据步骤(2)获得的样本，进行像素级特征提取；

(4)强化分离：利用手写印刷的字符分类器对输入的字符图片进行多特征提取和分类，将分类得到的重叠混合字符再做强化分离，得到像素级的分类结果，并结合所述分类器已有的分类结果；直接从所述步骤(1)中的文本图像中对定位的印刷体字符从像素层面将其灰度值全部设置为白色，将印刷体字符去除，只保留手写体字符，强化分离手写体字符和印刷体字符。

采用上述技方案，通过多种算法对图片中文本字符进行定位，再通过提取文本字符的特征，进行分类；对分类后的样本进行像素级特征提取，再将重叠混合字符做强化分离，从而获得手写体字符和印刷体字符的强化分离；该基于定位字符的分类判别强化分离的方法无需模板，便可达到手写印刷字符完全分离的目的，进而提取出手写体字符；该基于定位字符的分类判别强化分离的方法属于无模板分离技术；可实现复杂图像文本字符情形下对三种字符的分类，并有针对性的解决了印刷手写重叠字符问题，达到手写印刷字符强化分离的目的。

作为本发明的优选技术方案，所述步骤(2)中的将文本字符分成三种类别：印刷体字符、手写体字符和重叠混合字符。为了能够对印刷体和手写体字符做出精准分离，将图片中的文本字符分成三种类别。

作为本发明的优选技术方案，所述步骤(1)中采用目标识别检测YoLo v3算法对图片中的文本字符进行定位处理的具体步骤为：

S1-1：对图片中的每个文本字符进行标注；

S1-2：通过DarkNet53网络对每个文本字符进行特征提取；并采用不同尺度的特征图对提取的特征进行目标检测；

S1-3：将DarkNet53网络产出的不同尺度的所述特征图作为输入，以FPN(featurepyramid networks)算法作为参考，通过卷积层和上采样对不同尺度的特征图进行融合，从而实现快速的对图片中的每个字符进行定位和检测。

作为本发明的优选技术方案，所述步骤(1)中采用所述字符连通域算法对图片中的文本字符进行定位处理的具体步骤为：

S11：按行和列遍历图片中第一个有像素值的点P(x,y)，并赋予其一个标注label，然后将与像素点相邻的所有前景像素都压入栈中；

S12：弹出栈顶像素，赋予其相同的标注label，然后再将与所述栈顶像素相邻的所有前景像素都压入栈中，重复此步骤，直至栈为空，便得到了图片中的某一个连通区域；

S13：重复步骤S11和步骤S12，完成整张图片的遍历，最终可得到所有文本字符的连通区域，从而实现文本字符的定位。

作为本发明的优选技术方案，所述步骤(2)具体步骤为：

S21：采用DenseNet网络进行文本字符的多特征提取，并将提取到的文本字符根据特征分成印刷体字符、手写体字符和重叠混合字符；

S22：对所述步骤S21中的所述印刷体字符、手写体字符和重叠混合字符分别进行样本收集和标注，其中重叠混合字符则采用图片合成技术生成其样本。

作为本发明的优选技术方案，所述步骤S22中所述重叠混合字符则采用图片合成技术生成其样本的具体步骤为：

S221：将手写体文本字符图片和印刷体文本字符图片的大小调整为相同大小；

S222：对步骤S221中调整大小后的图片做二值化处理，再对处理后的图片做“或”运算保留其有效像素位；

S223：根据二值化处理后的合成图，筛选出有效像素位，再从文本字符的原始图的对应位置选取合成图像素值，从而得到重叠混合的文本字符图。

作为本发明的优选技术方案，所述步骤(3)中使用深度学习神经网络FCN进行多层卷积后，提取到所述印刷体字符和所述手写体字符的像素级特征。

作为本发明的优选技术方案，所述步骤S222中的二值化处理具体过程为：设定全局阈值128，将大于128的像素群像素值设定为白色，将小于128的像素群像素值设定为黑色。

作为本发明的优选技术方案，将输入的文本字符图片的大小调整为统一的固定大小32*32。

作为本发明的优选技术方案，所述步骤(4)中先通过上采样处理将提取到的文本字符的特征图片放大至输入图片的大小，保证特征图片的每个像素位与原图对齐，再对字符像素特征进行分类处理。由于字符的像素级分类和字符的分类不同，像素级分类要求的特征更加精确，因此先将图片放大至输入图片大小。

作为本发明的优选技术方案，所述步骤(4)中将判断为印刷体的字符像素的灰度值设置为255。

相比现有技术，该技术方案具有的有益效果是：通过多种算法对图片中文本字符进行定位，再通过提取文本字符的特征，进行分类；对分类后的样本进行像素级特征提取，再将重叠混合字符做强化分离，从而获得手写体字符和印刷体字符的强化分离；该基于定位字符的分类判别强化分离的方法无需模板，便可达到手写印刷字符完全分离的目的，进而提取出手写体字符；该基于定位字符的分类判别强化分离的方法属于无模板分离技术；可实现复杂图像文本字符情形下对三种字符的分类，并有针对性的解决了印刷手写重叠字符问题，达到手写印刷字符强化分离的目的。

附图说明

下面结合附图和本发明的实施方式进一步详细说明：

图1是本发明的基于定位字符的分类判别强化分离的方法的流程图；

图2是本发明的基于定位字符的分类判别强化分离的方法的步骤(1)的文本字符定位结果图；

图3是本发明的基于定位字符的分类判别强化分离的方法的步骤(2)中的三种字符分类的效果图；

图4是本发明的基于定位字符的分类判别强化分离的方法的步骤(2)中手写字符提取的结果图；

图5是本发明的基于定位字符的分类判别强化分离的方法的重叠混合字符分离的效果图；

具体实施方式

实施例：如图1～5所示，该基于定位字符的分类判别强化分离的方法，具体包括以下步骤：

(1)字符定位：通过字符连通域算法或目标识别检测YoLo v3算法对文本图片中的文本字符进行定位处理，获取所述文本字符的定位坐标，定位效果如图2所示；

所述步骤(1)中采用目标识别检测YoLo v3算法对图片中的文本字符进行定位处理的具体步骤为：

S1-1：对图片中的每个文本字符进行标注；

S1-3：将DarkNet53网络产出的不同尺度的所述特征图作为输入，以FPN(featurepyramid networks)算法作为参考，通过卷积层和上采样对不同尺度的特征图进行融合，从而实现快速的对图片中的每个字符进行定位和检测；

(2)字符分类：采用DenseNet网络进行文本字符的多特征提取，并用于文本字符的分类，为了能够对印刷体和手写体字符做出精准分离，将图片中的文本字符分成三种类别：印刷体字符、手写体字符和重叠混合字符，如图3所示；再对分类后的文本字符进行样本收集和标注；

所述步骤(2)具体步骤为：

S22：对所述步骤S21中的所述印刷体字符、手写体字符和重叠混合字符分别进行样本收集和标注，其中重叠混合字符则采用图片合成技术生成其样本；

所述步骤S22中所述重叠混合字符则采用图片合成技术生成其样本的具体步骤为：

所述步骤S222中的二值化处理具体过程为：设定全局阈值128，将大于128的像素群像素值设定为白色，将小于128的像素群像素值设定为黑色；

S223：根据二值化处理后的合成图，筛选出有效像素位，再从文本字符的原图的对应位置选取像素较大的值作为最终的合成图像素值，从而得到重叠混合的文本字符图，如图4所示；

所述步骤(3)中使用深度学习神经网络FCN进行多层卷积后，提取到所述印刷体字符和所述手写体字符的像素级特征；

(4)强化分离：利用手写印刷的字符分类器对输入的字符图片进行多特征提取和分类，将分类得到的重叠混合字符再做强化分离，得到像素级的分类结果，并结合所述分类器已有的分类结果；直接从所述步骤(1)中的文本图像中对定位的印刷体字符从像素层面将其灰度值全部设置为255(白色)，将印刷体字符去除，只保留手写体字符，强化分离手写体字符和印刷体字符，如图5所示。

实施例2：该基于定位字符的分类判别强化分离的方法，具体包括以下步骤：

所述步骤(1)中采用所述字符连通域算法对图片中的文本字符进行定位处理的具体步骤为：

S13：重复步骤S11和步骤S12，完成整张图片的遍历，最终可得到所有文本字符的连通区域，从而实现文本字符的定位；

(2)字符分类：采用DenseNet网络进行文本字符的多特征提取，并用于文本字符的分类，为了能够对印刷体和手写体字符做出精准分离，将图片中的文本字符分成三种类别：印刷体字符、手写体字符和重叠混合字符；再对分类后的文本字符进行样本收集和标注；

所述步骤(2)具体步骤为：

S221：将手写体文本字符图片和印刷体文本字符图片的大小调整为相同大小32*32；

S223：根据二值化处理后的合成图，筛选出有效像素位，再从文本字符的原图的对应位置选取像素较大的值作为最终的合成图像素值，从而得到重叠混合的文本字符图；

(4)强化分离：先通过上采样处理将提取到的文本字符的特征图片放大至输入图片的大小，保证特征图片的每个像素位与原图对齐，再对字符像素特征进行分类处理；利用手写印刷的字符分类器对输入的字符图片进行多特征提取和分类，将分类得到的重叠混合字符再做强化分离，得到像素级的分类结果，并结合所述分类器已有的分类结果；直接从所述步骤(1)中的文本图像中对定位的印刷体字符从像素层面将其灰度值全部设置为255(白色)，以达到去除印刷体字符只保留手写体字符的目的，最终实现手写体字符和印刷体字符的强化分离。

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于定位字符的分类判别强化分离的方法，其特征在于，具体包括以下步骤：

(2)字符分类：采用DenseNet网络进行文本字符的多特征提取，再对提取到文本字符特征用于文本字符的分类，最后对分类的文本字符进行样本收集和标注；

(4)强化分离：利用手写印刷的字符分类器对输入的字符图片进行多特征提取和分类，将分类得到的重叠混合字符再做强化分离，得到像素级的分类结果，并结合所述分类器已有的分类结果；直接从所述步骤(1)中的文本图像中对定位的印刷体字符从像素层面将其灰度值全部设置为白色，将印刷体字符去除，只保留手写体字符，强化分离手写体字符和印刷体字符；

S1-1：对图片中的每个文本字符进行标注；

2.根据权利要求1所述的基于定位字符的分类判别强化分离的方法，其特征在于，所述步骤(2)中的将文本字符分成三种类别：印刷体字符、手写体字符和重叠混合字符。

3.根据权利要求2所述的基于定位字符的分类判别强化分离的方法，其特征在于，所述步骤(2)具体步骤为：

S21：采用DenseNet网络进行文本字符的多特征提取，网络提取特征使用了3个densblock，特征图层的增长率k设置为3，每个dens block均采用3*3的卷积核进行卷积，且每个dens block前又添加了一层1*1的卷积操作，并将提取到的文本字符根据特征分成印刷体字符、手写体字符和重叠混合字符；

4.根据权利要求3所述的基于定位字符的分类判别强化分离的方法，其特征在于，所述步骤S22中所述重叠混合字符则采用图片合成技术生成其样本的具体步骤为：

5.根据权利要求4所述的基于定位字符的分类判别强化分离的方法，其特征在于，所述步骤(3)中使用深度学习神经网络FCN进行多层卷积后，提取到所述印刷体字符和所述手写体字符的像素级特征。

6.根据权利要求4所述的基于定位字符的分类判别强化分离的方法，其特征在于，所述步骤S222中的二值化处理具体过程为：设定全局阈值128，将大于128的像素群像素值设定为白色，将小于128的像素群像素值设定为黑色。