CN105608454B

CN105608454B - 基于文字结构部件检测神经网络的文字检测方法及系统

Info

Publication number: CN105608454B
Application number: CN201510968301.8A
Authority: CN
Inventors: 周异; 吴敏辰; 陈凯; 苗丽; 奚国坚; 周曲; 任逍航
Original assignee: Shanghai Jiaotong University; China Pacific Insurance Group Co Ltd CPIC
Current assignee: Shanghai Jiaotong University; China Pacific Insurance Group Co Ltd CPIC
Priority date: 2015-12-21
Filing date: 2015-12-21
Publication date: 2019-08-09
Anticipated expiration: 2035-12-21
Also published as: CN105608454A

Abstract

本发明公开一种基于文字结构部件检测神经网络的文字检测方法及系统，所述方法在深度卷积神经网络中构建文字结构部件检测层，所述文字结构部件检测层对文字结构部件进行检测，从而实现文字区域定位和分割。在文字结构部件检测层中，构建是多个文字结构检测器，对某一类文字结构使用单独的文字结构检测器进行检测，提高了文字结构检测的准确性和独特性。本发明以文字结构部件检测的深度学习网络对文字结构特征的强提取能力为出发点，针对中文字结构特征做了专项检测，因此具有更高的主动性和精确性。

Description

基于文字结构部件检测神经网络的文字检测方法及系统

技术领域

本发明涉及一种图像处理技术领域，具体地说，涉及的是一种在自然场景图像中基于文字结构部件检测的深度学习网络的文字检测方法及系统。

背景技术

文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息，对视觉内容理解和获取至关重要。文本提取的主要目的是将文本图像转化为符号形式，从而利于修改、检索、利用及传输。文本定位是文本提取的一个重要步骤。

文本定位是对图像中文本位置的精确定位。基于极值连通域的文本定位方法首先将图像表示为一个个的连通域，然后从结构分析出发，通过合并方法将文本行标示，输出结果。

传统的合并方法在处理一些结构复杂的汉字时效果不甚理想。外语如最常见的英语单词字符之间一般水平排列。对于中文文字，情况更加复杂。

经检索，于慧敏和李天豪申请的公开号为104794504A、申请号为201510207913.5的发明专利申请，该发明公开了一种在自然场景图像中基于深度学习的文字检测方法。首先，通过图形图案文字样本合成训练深度卷积自编码网络，然后使用已标记的样本，通过稀疏字典进行分类。之后使用合成的样本集，建立深度卷积自编码网络，并使用分层训练、整体调优的方式学习特征模板；然后对已有的标记样本，使用深度网络学习得到的特征模板进行特征提取；最后把提取的特征上采样至原图大小，并以单个分块作为识别的单位，训练稀疏字典以及分类器。在完成训练步骤后，对待处理的图像进行多分辨率分解，并使用特征模板提取特征，再使用稀疏字典进行分类获取结果。该发明使用稀疏字典分类方法在复杂中文文字的检测上效果不佳，原因是此类文字出现概率小，字典中很难找到。

发明内容

本发明的目的在于针对目前图像文本定位上的定位不甚理想的情况，提出一种在自然场景图像中基于文字结构部件检测的深度学习网络的中文检测方法及系统，采用文字结构特征分类提取的方法，可以克服上述问题，提高识别效果。

为实现上述目的，本发明采用以下技术方案：

本发明在深度卷积神经网络中构建文字结构部件检测层，所述文字结构部件检测层对文字结构部件进行检测，从而实现文字区域定位和分割。

本发明抓住深度学习网络对图像特征超强的提取能力，针对中文字中多种文字结构部件，构建了文字部件检测层，通过对文字结构部件的准确检测，从而实现文字区域定位和分割，方法简单有效。这种方法针对文字结构部件构建了文字部件检测深度卷积神经网络，在文字检测方面具有更好的针对性，因此具有更高的主动性和精确性。

具体的：

本发明提供一种基于文字结构部件检测神经网络的文字检测方法，包括以下步骤：

S1，在深度卷积神经网络构建文字结构部件检测层，所述文字结构部件检测层由多个文字结构部件检测器组成，针对中文字包含的文字结构部件的种类，对每一种文字结构部件构建相应的文字结构部件检测器；

S2，建立中文字数据集，包括从文字检测数据集中选出大量文字区域和非文字区域，用于训练深度学习网络；

所述S1、S2没有先后顺序要求，S1、S2完成后进行训练得到训练后的深度卷积神经网络；

S3，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的深度卷积神经网络分类，得到文字区域；

S4，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。

优选地，所述构建文字结构部件检测层，具体如下：

S11，根据文字结构的长宽比，提取中文字中的文字结构种类；

S12，对于每一种文字结构，构建与其长宽比相同的卷积窗大小的卷积网络，网络大小由该种文字结构占所有文字结构的比例确定，作为一个文字结构检测器；

S13，将输入图像输入所有文字结构检测器，对所有种类的文字结构进行检测；

S14，合并所有文字结构检测器的输出进行合并，即为文字结构检测层的输出。

优选地，上述S2中，建立的中文字数据集特征如下：

非文字区域图像中不包含任何文字；

文字区域图像有两种类型：全文字图像和半文字图像；

全文字图像中大部分区域为文字图像；

半文字图像中小部分区域为文字图像

数据集图像大小为32×32。

优选地，上述S3中，使用多尺度滑动窗算法提取自然图像中的候选文字区域，其中提取参数如下：

最大尺度为1/4图像大小，最小尺度为20像素；

重叠系数为0.5滑动提取；

提取出的图像块长宽比为1：1，并统一缩放为32×32的图像块。

优选地，上述S4中，利用S3得到的文字区域，执行基于区域相关性的文本行聚合算法，具体相关性特征和聚合规则如下：

两个文字区域的高度比值该在0.5和2之间；

两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2；

两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍；

单个文本行至少有三个或以上的文字区域。

相关性为：两个文字区域的高度、两个文字区域外接矩形的中心点y坐标差、两个文字区域的外接矩形的中心点x坐标差

聚合规则为：高度比值该在0.5和2之间、中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2、中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍。

本发明还提供一种用于实现上述方法的基于文字结构部件检测神经网络的文字检测系统，包括：深度卷积神经网络模块，所述深度卷积神经网络模块中构建文字结构部件检测层，所述文字结构部件检测层对文字结构部件进行检测，从而实现文字区域定位和分割。

优选地，所述文字结构部件检测层，由多个文字结构部件检测器组成，针对中文字包含的文字结构部件的种类，对每一种文字结构部件构建相应的文字结构部件检测器。

优选地，所述文字检测系统进一步包括：

中文字数据集，是从文字检测数据集中选出的大量文字区域和非文字区域，用于训练学习深度卷积神经网络模块。

优选地，所述文字检测系统进一步包括：

文字区域提模块，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的深度卷积神经网络分类，得到文字区域；

文字区域聚合模块，分析文字区域之间的相关性，将相关文字区域聚合成文本行，并用矩形框对文本行加以标定。

与现有技术相比，本发明具有如下的有益效果：

本发明在深度卷积神经网络构建文字结构部件检测层，然后采用多尺度滑动窗算法提取候选文字区域，最后训练得到的神经网络模型对候选文字区域进行分类并根据相关性进行文本行聚合得到文字区域。传统的文字区域分类方法在处理一些复杂背景中的文字时效果不甚理想，比如最常见建筑物中的文字，传统方法会将一个文字和背景认为是一体的，会检测不到文字或者扩大文字区域。本发明的文字结构检测深度卷积神经网络方法可以有效地将复杂背景中的文字单独提取出来，因此在处理复杂背景中的文字时具有更高的准确性。综上，本发明基于文字结构部件检测深度学习网络的文字检测方法相比于传统的文本检测等方法，拥有更高的主动性和精确性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一实施例的方法流程图；

图2是本发明一实施例的中文字结构检测层的结构图；

图3是本发明一实施例的检测系统结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明在深度卷积神经网络中构建一个文字结构部件检测层，而后使用该网络对自然图像中的各个候选文字区域进行分类，最后对分类为文字的区域进行文本行聚合，检测得到图像中的文字区域。在文字结构部件检测层中，构建多个文字结构检测器，对某一类文字结构使用单独的文字结构检测器进行检测，提高了文字结构检测的准确性和独特性。文字结构部件检测层可以检测中文字中绝大多数的文字结构部件，使得深度卷积神经网络在检测中文字时有更高的准确性。使用多尺度滑动窗算法提取自然图像中的候选文字区域，可以保证检测出各个尺度的文字区域。本发明方法以文字结构部件检测的深度学习网络对文字结构特征的强提取能力为出发点，针对中文字结构特征做了专项检测，因此具有更高的主动性和精确性。

如图1所示，一种基于文字结构部件检测神经网络的文字检测方法，流程可以分为以下几个步骤：

步骤1：从文字检测数据库中提取图像区域，构建训练数据集，提供足够多的训练数据；

步骤2：构建文字结构部件检测层；

用构建好的数据集训练文字结构部件检测深度卷积神经网络；

所述步骤1、步骤2没有特定顺序要求，也可以先完成步骤2，在进行步骤1，或者同时完成；

步骤3：使用多尺度滑动窗算法提取自然图像中的候选文字区域；

步骤4：使用训练好的深度卷积神经网络对候选文字区域进行分类；

步骤5：对分类得到的文字区域进行相关性分析，根据规则进行聚合；

步骤6：标记检测出的文本行，检测结束。

作为一个优选实施方式，上述步骤1：从文字检测数据库中提取图像区域，提取图像要求如下：

(1)文字检测数据库：包含自然图像200张，内含457个中文字区域；

(2)提取图像数量：25000个，其中文字图像9000个，非文字图像16000个；

(3)文字图像：由3000个全文字图像和6000个半文字图像组成；

(4)全文字图像：图像中60％以上区域为文字区域；

(5)半文字图像：图像中25％～60％的区域为文字区域；

(6)非文字区域：图像中不含任何文字区域

(7)图像大小：32×32。

作为一个优选实施方式，上述步骤2：文字结构部件检测层如图2所示，需要注意的是，利用文字结构部件的长宽比特征构建文字结构检测器只是文字结构检测器的一种可能构建方式，也可以采取其它方式构建文字结构检测器。

文字结构部件检测层的构建思路如下：首先统计常用中文字中的文字结构部件种类，将它们按照长宽比的不同进行分类，得到8种最具代表性的文字结构部件长宽比，占所有文字结构部件的99％以上；然后根据每种文字结构部件的长宽比构建具有卷积窗长宽比与之相同的卷积网络，其网络大小与该种文字结构部件占所有文字结构部件的比例相对应，得到对应该种文字结构部件的文字结构检测器；最后，将输入图像同时输入所有文字结构部件检测器中，并将检测器的输出进行合并，从而得到文字结构部件检测层的输出。

文字结构部件检测层具体构建过程如下：

(1)由8个文字结构部件检测器并联组成；

(2)文字结构部件有8种，分别为3：1，3：2，2：1，1：3，2：3，1：2，4：5和1：1；这里的比例是指文字结构部件长宽比；

(3)各个文字结构部件的占比依次为：8.8％，5.8％，12.2％，19.7％，16.3％，14.9％，2.4％和19.2％；

(4)每个输入图像同时输入所有文字结构检测器中进行检测；

(5)由于每个文字结构检测器的网络大小不同，最后合并输出特征时需要先将特征图转换为一维向量再进行合并；

步骤3使用多尺度滑动窗算法提取自然图像中的候选文字区域，算法具体参数如下：

(1)最大尺度为1/4图像大小，最小尺度为20像素；

(2)最小尺度为20像素；

(3)重叠系数为0.5滑动提取；

(4)图像块长宽比为1：1；

(5)图像块大小缩放为32×32。

所述重叠系数可以根据计算能力调整，图像块大小根据神经网络可以调整。

作为一个优选实施方式，上述步骤4：训练好的深度卷积神经网络对候选文字区域进行分类，将候选文字区域分成文字区域和非文字区域两类：

作为一个优选实施方式，上述步骤5：分析文字区域之间的相关性，并根据一定规则进行聚合。具体相关性和规则如下：

①相关性：

1)文字区域的高度；

2)文字区域的水平位置；

3)文字区域的垂直位置.

②文字区域聚合规则：

1)两个文字区域的高度比值该在0.5和2之间；

2)两个文字区域外接矩形的中心点y坐标差值不大于两个文字区域之间最高的高度值的1/2；

3)两个文字区域的外接矩形的中心点x坐标差值不大于两个文字区域之间最宽的宽度值的2倍；

4)单个文本行至少有三个或以上的文字区域。

如图3所示，为实现上述方法的一个文字检测系统，该系统包括：

深度卷积神经网络模块，所述深度卷积神经网络模块中构建文字结构部件检测层，所述文字结构部件检测层对文字结构部件进行检测，从而实现文字区域定位和分割；文字结构部件检测层，由多个文字结构部件检测器组成，针对中文字包含的文字结构部件的种类，对每一种文字结构部件构建相应的文字结构部件检测器；

中文字数据集，是从文字检测数据集中选出的大量文字区域和非文字区域，用于训练学习深度卷积神经网络模块；

上述各个模块中采用与方法各步骤中的技术特征相对应，不再赘述，该系统能很好的实现文字结构检测。

常用的文字区域分类方法在处理一些复杂背景中的文字时效果不甚理想，比如最常见建筑物中的文字，传统方法会将一个文字和背景认为是一体的，会检测不到文字或者扩大文字区域。本发明的文字结构检测深度卷积神经网络方法可以有效地将复杂背景中的文字单独提取出来，因此在处理复杂背景中的文字时具有更高的准确性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于文字结构部件检测神经网络的文字检测方法，其特征在于：所述方法在深度卷积神经网络中构建文字结构部件检测层，所述文字结构部件检测层对文字结构部件进行检测，从而实现文字区域定位和分割；

所述方法包括以下步骤：

2.根据权利要求1所述的基于文字结构部件检测神经网络的文字检测方法，其特征在于：所述构建文字结构部件检测层，具体如下：

3.根据权利要求1所述的基于文字结构部件检测神经网络的文字检测方法，其特征在于：所述S2中，建立的中文字数据集特征如下：

非文字区域图像中不包含任何文字；

文字区域图像有两种类型：全文字图像和半文字图像；

全文字图像中大部分区域为文字图像；

半文字图像中小部分区域为文字图像

数据集图像大小为32×32。

4.根据权利要求1所述的基于文字结构部件检测神经网络的文字检测方法，其特征在于，所述S3中，使用多尺度滑动窗算法提取自然图像中的候选文字区域，其中提取参数如下：

最大尺度为1/4图像大小，最小尺度为20像素；

重叠系数为0.5滑动提取；

5.根据权利要求1所述的基于文字结构部件检测神经网络的文字检测方法，其特征在于，所述S4中，利用S3得到的文字区域，执行基于区域相关性的文本行聚合算法，具体相关性和聚合规则如下：

两个文字区域的高度比值该在0.5和2之间；

单个文本行至少有三个以上的文字区域；

相关性为：两个文字区域的高度、两个文字区域外接矩形的中心点y坐标差、两个文字区域的外接矩形的中心点x坐标差；

6.一种用于实现权利要求1-5任一项所述方法的基于文字结构部件检测神经网络的文字检测系统，其特征在于包括：深度卷积神经网络模块，所述深度卷积神经网络模块中构建文字结构部件检测层，所述文字结构部件检测层对文字结构部件进行检测，从而实现文字区域定位和分割。

7.根据权利要求6所述的基于文字结构部件检测神经网络的文字检测系统，其特征在于，所述文字结构部件检测层，由多个文字结构部件检测器组成，针对中文字包含的文字结构部件的种类，对每一种文字结构部件构建相应的文字结构部件检测器。

8.根据权利要求6所述的基于文字结构部件检测神经网络的文字检测系统，其特征在于，所述文字检测系统进一步包括：

9.根据权利要求6-8任一项所述的基于文字结构部件检测神经网络的文字检测系统，其特征在于，所述文字检测系统进一步包括：

文字区域提取模块，使用多尺度滑动窗算法提取自然图像中的候选文字区域，并由训练得到的深度卷积神经网络分类，得到文字区域；