CN110503103A

CN110503103A - 一种基于全卷积神经网络的文本行中的字符切分方法

Info

Publication number: CN110503103A
Application number: CN201910801512.0A
Authority: CN
Inventors: 刘晋; 余超
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2019-11-26
Anticipated expiration: 2039-08-28
Also published as: CN110503103B

Abstract

本发明公开了一种基于全卷积神经网络的文本行中的字符切分方法，所述方法包括：获取待检测的文本行图像区域；采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果；获取所述分类结果中属于同一类别的分类结果；对所述同一类别的分类结果进行区域划分，获得划分结果；根据划分结果，获得文字切分结果。应用本发明实施例，能够有效的避免复杂背景区域以及噪声的干扰，对大小，间距不统一的多语言文字混和的文本行图像进行精确的字符切分。

Description

一种基于全卷积神经网络的文本行中的字符切分方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于全卷积神经网络的文本行中的字符切分方法。

背景技术

随着移动终端和移动互联网的快速发展与广泛普及，通过摄像录像进行资讯的获取，分享和检索成为了现代人们的日常生活方式。在通过摄像头所获得的图像信息中，文字信息往往是用户首先会去注意和理解的内容，因此，通过识别图像中的文字信息能够使用户更方便的理解图片，同样也可以使图像文字转化为语音方便人们感受。

近年来，文本行的文字分割和识别是通过传统的图像处理方式进行，处理前需要经过大量的预处理，包括降噪，增强对比度，灰度化，二值化等。文字切割包括：连通域算法，识别则通过规则和特征的匹配进行。

由于人工设定的阈值，特征，规则受较多的主观因素影响，通用性较差，对于多种变化的复杂场景,包括：背景遮挡文字，切分文字，污损文字，粘连文字，传统的字符切分方法往往不尽人意。另外文字的形态变化如：艺术字，手写字，渐变色文字会对规则特征匹配产生较大的影响。因此，传统的字符切分方法在对复杂背景下的文本行中的字符进行切分时很容易会产生字符过切、漏切、错切等问题，导致字符切分的准确率较低。

发明内容

本发明的目的在于提供一种基于全卷积神经网络的文本行中的字符切分方法，旨在解决现有的字符进行切分时出现字符过切、漏切、错切的问题,通过将文本行图像缩放至不同尺度与对应大小的上采样层进行跳跃连接，以还原得到初始分辨率的特征信息图，在此过程中高级的语义特征信息和低级的边缘特征信息都能够保留。

为了实现上述目的，本发明提供一种基于全卷积神经网络的文本行中的字符切分方法，所述方法包括：

获取待检测的文本行图像区域；

采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果；

获取所述分类结果中属于同一类别的分类结果；

对所述同一类别的分类结果进行区域划分，获得划分结果；

根据划分结果，获得文字切分结果。

进一步的，所述获取待检测的文本行图像区域的步骤，包括：

获取待检测文本图像；

对所述待检测文本图像进行预处理，获取所述待检测文本图像所对应的单行文本行；

将所述单行文本行所组成的区域确定为待检测的文本行图像区域。

进一步的，所述采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果步骤，包括：

根据语义分割模型的编码器，提取所述文本行图像区域的文字边缘特征；

根据语义分割模型中的解码器，对所述文字边缘特征信息进行空间位置还原和像素分类。

进一步的，所述对所述同一类别的分类结果进行区域划分，获得划分结果，步骤包括：

对连通区域进行标记搜索，在所述同一类别的分类结果中，查找连通区域并标记；

获取相邻且具有相同特性的联通区域进行合并，并对合并区域进行标记。

进一步的，所述根据划分结果，获得文字切分结果的步骤，包括：

根据文字的类别标记，获取文字字符块，并记录所述文字字符块的位置参数，其中，所述位置参数包括：位置，高度和宽度；

根据所述位置参数，确定文字所在的最小的矩形区域。

进一步的，所述根据文字的类别标记，获取文字字符块，并记录所述文字字符块的位置参数的步骤，包括：

根据文字和矩形框的对应关系，得到每个文字范围区域的四个边界，其中，所述四个边界为该文字所对应的上边界、下边界、左边界和右边界；

根据坐标位置，计算文字字符块的高度和宽度。

进一步的，语义分割模型的训练方法包括：

接收样本图像和样本的标注信息；

将样本图像输入神经网络中，获得预测结果；

将所述预测结果与样本图像的标注信息进行损失函数的比较，获得损失值；

根据损失值和随机梯度下降法，对神经网络中各个节点进行反向传播，并修改节点权重；

根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络，获取所述语义预测模型。

进一步的，所述语义预测模型的条件随机场所使用的能量函数表达为：

θ_i(x_i)＝-logP(x_i)

其中，θ_i(x_i)为一元势函数，P(x_i)为语义分割模型输出的像素i的结果类别的概率值，θ_ij(x_i，x_j)为二元势函数，f(x_i，x_j)用于判断i和j是否是同一个像素，如果是则函数输出为0，否则输出为1，是两个高斯滤波器，p_i代表像素i的位置坐标，g_i代表像素i的灰度值，三个超参数控制高斯滤波器的缩放尺度大小。

应用本发明实施例提供的一种基于全卷积神经网络的文本行中的字符切分方法，结合了融合多尺度特征的全卷积神经网络和完全连接的条件随机场，通过计算相邻像素之间的位置与灰度分数来细化语义分割模型的输出结果，能够有效的避免复杂背景区域以及噪声的干扰，对大小，间距不统一的多语言文字混和的文本行图像进行精确的字符切分。

附图说明

图1是本发明实施例一种流程示意图。

图2是本发明实施例一种结构示意图。

图3是本发明实施例一种文本行图像输入示意图。

图4是本发明实施例一种文本行图像输出示意图。

图5是本发明实施例一种结果示意图。

图6是本发明实施例另一种流程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

请参阅图1-6。需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

如图1本发明提供一种基于全卷积神经网络的文本行中的字符切分方法，所述方法包括：

S1010，获取待检测的文本行图像区域；

需要说明的是，待检测图像可以是原始图像，也可以是经过灰度化等预处理后得到的图像，可以是不规则图像，大小尺寸可以不固定。

进一步的，对待检测文本图像进行预处理，确定待检测文本图像为所对应的单行文本行,将单行文本行所组成的区域确定为待检测的文本行图像区域。

S1020，采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果；

可以理解的是，通过语义分割模型中的编码器部分中的卷积层与池化层实现对待检测文本图像中的文字边缘特征信息进行提取。通过使用语义分割模型中的解码器部分中的转置卷积层与上采样层以及条件随机场实现对提取的文字边缘特征信息进行空间位置的还原和像素级别的分类。

进一步的，所述的基于多尺度的全卷积网络，其多尺度的实现包括使用将文本行图像缩放不同的比例使其尺寸和特征图的尺寸大小一致后连接合并或者通过在编码器和解码器中相应的层中加入跳跃结构。

本发明的一种实现方式中，所述的条件随机场，是一种全连接的条件随机场，这种条件随机场的模型使用的能量函数的公式表达为：

θ_i(x_i)＝-logP(x_i)

需要说明的是，语义分割模型通过训练全卷积神经网络获得，神经网络可以通过大量的输入估计一般的近似函数，有较强的适应性，而卷积网络通过局部连接，全局共享进一步的减少训练参数并且提升了神经网络对于特征的提取的能力，全卷积网络取消了卷积网络中全连接层替换成转置卷积层从而达到特征还原的效果。

如图2，在文本行图像的输入端，语义分割模型使用十三层卷积层与五层池化层组成了模型的编码层，用于对文本行图像进行文字边缘特征进行抽取。需要注意的是，所述语义分割模型虽然能够在进行预测时接受任意尺寸的文本行图像，但在应用到实施例中需要对模型进行训练时通常需要保证输入图像尺寸一致才能够进行批量训练。在一个实施例中，具体的卷积层及池化层的输入输出参数设置如下：

	输入尺寸	输出尺寸
			卷积层1	256×256×3	256×256×32
卷积层2	256×256×32	256×256×32
			池化层1	256×256×32	128×128×32
卷积层3	128×128×32	128×128×64
			卷积层4	128×128×64	128×128×64
池化层2	128×128×64	64×64×64
			卷积层5	64×64×64	64×64×128
卷积层6	64×64×128	64×64×128
			池化层3	64×64×128	32×32×128
卷积层7	32×32×128	32×32×256
			卷积层8	32×32×256	32×32×256
池化层4	32×32×256	16×16×256
			卷积层9	16×16×256	16×16×512
卷积层10	16×16×256	16×16×256
			池化层5	16×16×256	8×8×256

整个网络中卷积层和转置卷积层中的卷积核尺寸都设置为3x3的大小，卷积层的卷积核的数目如上表所示，转置卷积层中的卷积核数目与卷积层正相反。池化层使用滤波器大小固定为2x2，上采样层位置与池化层相对应，使用滤波器大小也为2x2，每一层卷积层后都会进行一次归一化，并将线性整流函数(ReLU)作为激活函数。模型最后加入完全连接的条件随机场进行语义分割结果细化处理。模型使用预测结果的未归一化对数概率(logits)的求最大值的结果与真实值进行交叉熵(CrossEntropy)的运算从而获得损失值，通过使用随机梯度下降法将损失值进行反向传播用于修改神经网络中各个节点的权重，学习率设置为0.001。反向传播的原理是通过链式法则求出某个节点对于总损失函数的偏导。其中logits的最大值不再采用普通的将参数中最大的取出的办法，而是取出其中Softmax的最大值，其公式表达为：

其中V代表一个logits值，V_i代表V中第i个元素值，l代表V的长度，即logits中的每个元素的Softmax值为该元素的对数比上所有元素对数之和所得到的结果。

交叉熵的公式表达为：

其中n为输入特征数目，x为输入，y为预期输出值，y_l为实际输出值。

神经网络中任意节点的更新值的计算公式为：

其中η为学习率，要利用该公式计算某个节点的损失值，可以通过链式法则对网络输出结果的损失值求偏导值得出。

可以理解的是，将待检测的文本行图像输入至预先训练得到的语义分割模型中进行语义分割，获取语义分割结果。其中所述分割结果通过将不同的文字区域和背景区域用不同的像素值来进行区分。其中文字区域指的是文字符号区别于背景图像的边缘内所有区域，而不是指包含文字的最小的矩形区域。

本发明的具体实施例中，图3为一个实施例中所接受的文本行图像输入，其中除了黑色区域以外的其他颜色的区域就是文字区域。每个文字区域中应当只包含一个单独完整的文字。在该实施例中，通过不同的像素值进行不同文字区域之间的区分，例如，在文本行中一个字符区域的颜色将会被标注为1，第二个字符区域则会被标注为2，以此类推，背景图像将被标注为0，所以一位的灰度值能够标注255个文字与背景图像的区别，图4为本方法预期得出的标准输出结果，获取分类结果。

S1030，获取所述分类结果中属于同一类别的分类结果；

S1040，对所述同一类别的分类结果进行区域划分，获得划分结果；

需要说明的是，使用连通区域标记搜索算法，对同一类别的分类结果中进行连通区域的查找，将分类结果中相邻且具有相同特性的结果标记合并在同一个区域中获得该区域的标记，获得划分结果。

S1050，根据划分结果，获得文字切分结果。

可以理解的是，获得文字切分结果后，根据文字的类别标记，获取文字字符块，并记录所述文字字符块的位置，高度和宽度，根据文字字符块的位置，高度和宽度，确定文字所在的最小的矩形区域。

具体来说就是通过将矩形框从四个方向逼近得到每个文字范围区域的上下左右四个边界，将矩形框左上角坐标记录为位置，计算右下角的坐标值减去左上角的坐标值得出文字字符块的高度和宽度，从而获得文字切分结果，如图5。

需要说明的是，收集大量复杂背景下包含文本行的图像，图像可以是二值化，灰度化或者RGB三通道彩色进行编码的，也可以是有噪声的，模糊的或者光照不均匀的。文字可以是不同语种，不同字体，不同颜色，经过旋转扭曲的或者不同尺寸的。但是必须得保证文字是完整的，截断的文字对于文字识别的客观因素影响目前阶段难以解决，样本图像的数量应当多于300。

遍历提取图像中的像素点并根据像素点所属类别进行标注，将不同的文字区域和背景区域用不同的像素值来进行区分。

根据标注内容重新生成新的标注图像，由于训练时灰度图所占用的内存更少而彩色的像素图可以让肉眼更清晰地看出语义分割的结果，所以在训练之前需要将彩色图像进行转换，将每种颜色值转换为对应一种灰度值，该步骤不能直接通过灰度化进行转换。

如图6，本发明还提供一种语义分割模型的训练方法：

步骤S5010，接收样本图像和样本的标注信息。

步骤S5020，将样本图像输入神经网络中，获得预测结果；

步骤S5030，将所述预测结果与样本图像的标注信息进行损失函数的比较，获得损失值；

步骤S5040，根据损失值和随机梯度下降法，对神经网络中各个节点进行反向传播，并修改节点权重；

步骤S5050，根据所述样本图像和所述样本的标注信息多次迭代训练出的所述神经网络，获取所述语义预测模型。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述方法包括：

获取待检测的文本行图像区域；

获取所述分类结果中属于同一类别的分类结果；

对所述同一类别的分类结果进行区域划分，获得划分结果；

根据划分结果，获得文字切分结果。

2.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述获取待检测的文本行图像区域的步骤，包括：

获取待检测文本图像；

3.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述采用语义分割模型对所述文本行图像区域进行像素分类，获取分类结果步骤，包括：

4.根据权利要求2所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述对所述同一类别的分类结果进行区域划分，获得划分结果，步骤包括：

5.根据权利要求3所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述根据划分结果，获得文字切分结果的步骤，包括：

根据所述位置参数，确定文字所在的最小的矩形区域。

6.根据权利要求5述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述根据文字的类别标记，获取文字字符块，并记录所述文字字符块的位置参数的步骤，包括：

根据坐标位置，计算文字字符块的高度和宽度。

7.根据权利要求1所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，语义分割模型的训练方法包括：

接收样本图像和样本的标注信息；

将样本图像输入神经网络中，获得预测结果；

8.根据权利要求7所述的一种基于全卷积神经网络的文本行中的字符切分方法，其特征在于，所述语义预测模型的条件随机场所使用的能量函数表达为：

θ_i(x_i)＝-logP(x_i)

其中，θ_i(x_i)为一元势函数，P(x_i)为语义分割模型输出的像素i的结果类别的概率值，θ_ij(x_i，x_j)为二元势函数，t(x_i，x_j)用于判断i和j是否是同一个像素，如果是则函数输出为0，否则输出为1，是两个高斯滤波器，p_i代表像素i的位置坐标，g_i代表像素i的灰度值，三个超参数控制高斯滤波器的缩放尺度大小。