CN105469047A

CN105469047A - 基于无监督学习深度学习网络的中文检测方法及系统

Info

Publication number: CN105469047A
Application number: CN201510819927.2A
Authority: CN
Inventors: 周异; 陈凯; 周曲; 任逍航
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-04-06
Anticipated expiration: 2035-11-23
Also published as: CN105469047B

Abstract

本发明公开一种基于无监督学习深度学习网络的中文检测方法及系统。本发明使用无监督学习法训练一个深度卷积神经网络，而后使用该网络对自然图像中的各个候选文字区域进行分类，最后对分类为文字的区域进行文本行聚合，检测得到图像中的文字区域。本发明抓住深度学习网络对图像特征超强的提取能力，利用无监督学习强大的训练能力，针对中文字特征训练深度卷积神经网络，实现文字区域定位和分割，方法简单有效；针对文字特征构建了深度卷积神经网络无监督学习方法，在文字检测方面具有更好的针对性，因此具有更高的主动性和精确性。

Description

基于无监督学习深度学习网络的中文检测方法及系统

技术领域

本发明涉及一种图像处理技术领域，具体地说，涉及的是一种在自然场景图像中基于无监督学习深度学习网络的文字检测方法及系统。

背景技术

文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息，对视觉内容理解和获取至关重要。文本提取的主要目的是将文本图像转化为符号形式，从而利于修改、检索、利用及传输。文本定位是文本提取的一个重要步骤。

文本定位是对图像中文本位置的精确定位。基于极值连通域的文本定位方法首先将图像表示为一个个的连通域，然后从结构分析出发，通过合并方法将文本行标示，输出结果。

传统的合并方法在处理一些结构复杂的汉字时效果不甚理想。外语如最常见的英语单词字符之间一般水平排列。对于中文文字，情况更加复杂。

经检索，于慧敏和李天豪申请的公开号为104794504A、申请号为201510207913.5的发明专利申请，该发明公开了一种在自然场景图像中基于深度学习的文字检测方法。首先，通过图形图案文字样本合成训练深度卷积自编码网络，然后使用已标记的样本，通过稀疏字典进行分类。之后使用合成的样本集，建立深度卷积自编码网络，并使用分层训练、整体调优的方式学习特征模板；然后对已有的标记样本，使用深度网络学习得到的特征模板进行特征提取；最后把提取的特征上采样至原图大小，并以单个分块作为识别的单位，训练稀疏字典以及分类器。在完成训练步骤后，对待处理的图像进行多分辨率分解，并使用特征模板提取特征，再使用稀疏字典进行分类获取结果。该发明使用稀疏字典分类方法在复杂中文文字的检测上效果不佳，原因是此类文字出现概率小，字典中很难找到。

发明内容

本发明的目的在于针对目前图像文本定位上的定位不甚理想的情况，提出一种在自然场景图像中基于无监督学习深度学习网络的中文检测方法及系统，采用基于深度学习的文字区域特征提取和分类的方法，可以克服上述问题，提高识别效果。

为实现上述目的，本发明采用以下技术方案：本发明使用无监督学习法训练一个深度卷积神经网络，而后使用该网络对自然图像中的各个候选文字区域进行分类，最后对分类为文字的区域进行文本行聚合，检测得到图像中的文字区域。

本发明抓住深度学习网络对图像特征超强的提取能力，利用无监督学习强大的训练能力，针对中文字特征训练深度卷积神经网络，实现文字区域定位和分割，方法简单有效。这种方法针对文字特征构建了深度卷积神经网络无监督学习方法，在文字检测方面具有更好的针对性，因此具有更高的主动性和精确性。

具体的：

本发明提供一种基于无监督学习深度学习网络的文字检测的方法，包括以下步骤：

第一步，训练深度卷积神经网络：

构建无监督学习算法：以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；

建立中文字数据集：中文字数据集包括常用字以及常用字体；

使用无监督学习算法和所述中文字数据集训练深度卷积神经网络；

第二步，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的所述深度卷积神经网络进行分类，得到文字区域；

第三步，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。

上述第一步中，需要根据中文字特征构建无监督学习算法，算法具体流程如下：

(1)根据卷积运算和离散编码算法构建目标函数，优化目标为：特征h，字典D和网络参数p；

(2)固定字典D，使用FISTA(FASTIterativeShrinkage-ThresholdingAlgorithm)法得到最优特征h‘；

(3)固定最优特征h‘，单次使用随机梯度下降法训练字典D；

(4)固定最优特征h‘，多次使用随机梯度下降法训练网络参数p，直至训练误差小于预设值θ；

(5)使用最新网络参数p重新计算特征h；

(6)重复上述(2)-(5)步骤直至达到学习目标。

上述第一步中，人工建立中文字数据集，数据集具体特征如下：

(1)所用文字为3500个常用字；

(2)所用字体为15种有代表性的字体；

(3)文字图像类型为黑底白字和白底黑字两种；

(4)文字图像大小为32×32。

上述第二步中，所述多尺度滑动窗算法的提取参数如下：

(1)最大尺度为1/4图像大小，最小尺度为20像素；

(2)重叠系数为0.5滑动提取；

(3)提取出的图像块长宽比为1：1，并统一缩放为32×32的图像块。

上述第三步中，利用第二步得到的文字区域，执行基于区域相关性的文本行聚合算法，具体相关性特征和聚合规则如下：

(1)两个文字区域的高度比值该在0.5和2之间；

(2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2；

(3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍；

(4)单个文本行至少有三个或以上的文字区域。

本发明还提供一种用于实现上述方法的基于无监督学习深度学习网络的中文检测系统，包括：

深度卷积神经网络模块，该模块包括构建无监督学习算法子模块和建立中文字数据集子模块，其中：

构建无监督学习算法子模块，以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；

建立中文字数据集子模块，用于建立中文字数据集，所述中文字数据集包括常用字以及常用字体；

构建的所述无监督学习算法和所述中文字数据集用于训练深度卷积神经网络；

文字区域提取模块，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的所述深度卷积神经网络进行分类，得到文字区域；

文字区域聚合模块，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。

与现有技术相比，本发明具有如下的有益效果：

本发明利用无监督学习法训练深度卷积神经网络，然后多尺度滑动窗算法提取候选文字区域，最后训练得到的神经网络模型对候选文字区域进行分类并根据相关性进行文本行聚合得到文字区域。传统的区域提取方法在处理一些受到干扰的文字时效果不甚理想，比如最常见的闪光灯下的文字，传统方法会将一个文字的不同部分和背景连成一体，成为混合了背景的多个区域。本发明的深度卷积神经网络方法可以有效地将存在干扰的文字和背景分成不同的两类，因此在处理复杂干扰影响的文字具有更高的准确性。综上，本发明基于无监督学习深度学习网络的文字检测方法相比于传统的文本检测等方法，拥有更高的主动性和精确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一实施例的方法流程图；

图2是本发明一实施例中的无监督学习算法的流程图；

图3是本发明一实施例的系统框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明使用无监督学习法训练一个深度卷积神经网络，而后使用该网络对自然图像中的各个候选文字区域进行分类，最后对分类为文字的区域进行文本行聚合，检测得到图像中的文字区域。该无监督学习方法基于卷积运算和离散编码算法构成，针对文字特性强化了网络参数的学习过程。在无监督学习过程中，使用人工构建的文字图像(训练数据集)进行训练，扩大了训练样本数，增强了训练的准确性。使用多尺度滑动窗算法提取自然图像中的候选文字区域，可以保证检测出各个尺度的文字区域。本发明以无监督学习深度学习网络的强文字特征提取能力为出发点，针对中文字特性做了强化训练，因此具有更高的主动性和精确性。

如图1所示，本实施例提供一种基于无监督学习深度学习网络的文字检测方法，流程可以分为以下几个步骤：

步骤1：人工构建中文字数据集作为训练数据集，提供足够多的训练数据；

步骤2：构建无监督学习算法：以卷积运算和离散编码算法为基础，针对深度学习网络和中文字的特性，构建深度卷积神经网络的无监督学习算法；

上述步骤1和2可以顺序互换，或者同时进行，步骤1和2都完成后，使用无监督学习算法，用构建好的数据集训练深度卷积神经网络；

步骤3：使用多尺度滑动窗算法提取自然图像中的候选文字区域；

步骤4：使用训练好的深度卷积神经网络对候选文字区域进行分类；

步骤5：对分类得到的文字区域进行相关性分析，根据规则进行聚合；

步骤6：标记检测出的文本行，检测结束。

作为一个优选实施方式，所述步骤1：使用人工合成的方式获得足够多的训练图像，合成的图像参数如下：

(1)图像大小：32×32；

(2)文字集：3500常用字；

(3)文字字体：15种常用字体；

(4)文字大小：24；

(5)文字背景：白底黑字和黑底白字；

作为一个优选实施方式，所述步骤2：如图2所示，需要注意的是，结合卷积运算和离散编码算法构建无监督学习算法只是无监督学习算法的一种可能方式，也可以采取其它方式得到进行无监督学习。无监督学习算法的思路如下：由于在一个优化方程中存在三个优化目标，因此首先固定一个优化目标：字典D，使用FISTA法对特征h进行优化；然后根据优化得到的最优特征h’，使用随机梯度下降法对字典D和网络参数p进行优化，由于网络参数p的优化难度大大高于字典D，因此在优化网络参数p是需要引入优化目标，在达到目标之前反复优化；最后使用优化结果更新优化目标初始值，重复上述过程进行迭代，直到达到优化目标。具体过程如下：

(1)对优化目标进行随机初始化；

(2)固定字典D，使用FISTA法对特征h进行优化，FISTA法的最大迭代次数为50；

(3)固定(2)中得到的最优特征h’，使用随机梯度下降法对字典D进行单次优化；

(4)固定(2)中得到的最优特征h’，使用随机梯度下降法对网络参数p进行多次优化，直到误差值小于预设值θ；

(5)使用优化结果更新优化目标初始值；

(6)重复(2)-(5)过程，直到训练完成。

作为一个优选实施方式，所述步骤3：使用多尺度滑动窗算法提取自然图像中的候选文字区域，算法具体参数如下：

(1)最大尺度为1/4图像大小，最小尺度为20像素；

(2)最小尺度为20像素；

(3)重叠系数为0.5滑动提取；

(4)图像块长宽比为1：1；

(5)图像块大小缩放为32×32。

所述重叠系数可以根据计算能力调整，图像块大小根据神经网络可以调整。

作为一个优选实施方式，所述步骤4：训练好的深度卷积神经网络对候选文字区域进行分类，将候选文字区域分成文字区域和非文字区域两类：

作为一个优选实施方式，所述步骤5：分析文字区域之间的相关性，并根据一定规则进行聚合。具体相关性和规则如下：

①相关性：

1)文字区域的高度；

2)文字区域的水平位置；

3)文字区域的垂直位置.

②文字区域聚合规则：

1)两个文字区域的高度比值该在0.5和2之间；

2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2；

3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍；

4)单个文本行至少有三个或以上的文字区域。

如图3所示，本发明还提供一种用于实现上述方法的基于无监督学习深度学习网络的中文检测系统，包括：

上述各个模块中采用与方法各步骤中的技术特征相对应，图3中：中文字数据集对应数据集建立(步骤1和步骤2)，深度卷积神经网络对应了文字结构检测层的深度神经网络(步骤1和步骤2完成后的训练深度卷积神经网络)，文字区域提取对应了滑动窗提取并用神经网络分类(步骤3和4)，文字区域聚合对应了文字区域相关性分析与聚合(步骤5)。系统中对各模块的具体实现技术不再赘述，该系统能很好的实现文字结构检测。

常用的文字区域分类方法在处理一些受到干扰的文字时效果不甚理想，比如最常见的闪光灯下的文字，传统方法会将一个文字的不同部分和背景连成一体，成为混合了背景的多个区域。本发明的深度卷积神经网络方法可以有效地将存在干扰的文字和背景分成不同的两类，因此在处理复杂干扰影响的文字具有更高的准确性，方法简单有效，而且对复杂背景图像文字检测有非常好的效果。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于无监督学习深度学习网络的中文检测方法，其特征在于包括以下步骤：

第一步，训练深度卷积神经网络：

使用所述无监督学习算法和所述中文字数据集训练深度卷积神经网络；

2.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，其特征在于所述第一步，具体过程如下：

(2)固定字典D，使用FISTA法得到最优特征h‘；

(3)固定最优特征h‘，单次使用随机梯度下降法训练字典D；

(5)使用最新网络参数p重新计算特征h；

(6)重复上述(2)-(5)步骤直至达到学习目标。

3.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，其特征在于第一步中，建立的中文字数据集特征如下：

所用文字为3500个常用字；

所用字体为15种有代表性的字体；

文字图像类型为黑底白字和白底黑字两种；

文字图像大小为32×32。

4.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，其特征在于第二步中，所述多尺度滑动窗算法，其提取参数如下：

最大尺度为1/4图像大小，最小尺度为20像素；

重叠系数为0.5滑动提取；

提取出的图像块长宽比为1：1，并统一缩放为32×32的图像块。

5.根据权利要求1所述的基于无监督学习深度学习网络的中文检测方法，其特征在于第三步中，利用第二步得到的文字区域，执行基于区域相关性的文本行聚合算法，具体相关性特征和聚合规则如下：

(1)两个文字区域的高度比值在0.5和2之间；

(4)单个文本行至少有三个或以上的文字区域；

相关性为：两个文字区域的高度、两个文字区域外接矩形的中心点y坐标差、两个文字区域的外接矩形的中心点x坐标差；

聚合规则为：高度比值该在0.5和2之间、中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2、中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍。

6.一种用于实现权利要求1-5任一项所述方法的基于无监督学习深度学习网络的中文检测系统，其特征在于包括：