CN112418216A

CN112418216A - 一种复杂自然场景图像中的文字检测方法

Info

Publication number: CN112418216A
Application number: CN202011292690.4A
Authority: CN
Inventors: 王润民; 李秀梅; 张翔宇; 徐尉翔; 钱盛友
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-02-26
Anticipated expiration: 2040-11-18
Also published as: CN112418216B

Abstract

本发明公开了一种复杂自然场景图像中的文字检测方法，属于计算机视觉和模式识别领域，涉及神经网络和计算机视觉技术领域，特别是基于深度学习实现复杂场景下的文字检测方法。它通过融合了基于字符标注的文字检测方法和基于单词标注的文字检测方法，学习字符间的组合特征，能降低文字的误检率，降低检测框的冗余度，具有灵活应对任意形状文字的能力。一种复杂场景下的文字检测方法，它的方法步骤为：图像数据预处理、构建网络框架、对模型进行预训练、训练网络框架；文字真实标签生成、输入一张待检测的自然场景下的文字图像、特征提取、图像判定、文字校正模块。

Description

一种复杂自然场景图像中的文字检测方法

技术领域

本发明涉及计算机视觉和模式识别领域，尤其涉及一种复杂自然场景图像中的文字检测方法。

背景技术

近年来，随着互联网、通讯技术的高速发展和社交网络的兴起，视频、音频和图像等多媒体数据日益飞速增长，这些信息使人与人之间的交流也变得非常容易。而图像相对于视频数据所需的存储容量更小、采集设备更为简便，相对于音频、文字数据包含信息更为丰富和直观，所以图像更符合日常的场景需求。人们面对海量图像数据，如何高效地从图像中自动获取有用的文字信息，近年来已经成为计算机视觉领域的研究热点。但是由于自然场景的多样性和拍摄视角的多变性，且自然场景文字通常具有不规则透视、弯曲和任意方向排列等情况，这时自然场景图像中的文字检测成为一个极具挑战性的任务。

此外在大部分图像中，文字区域占比很小，通常以小目标的形式出现。进而导致文字检测过程中，出现一定的误检和检测框冗余的问题。

针对自然场景文字的类内多变性和背景的复杂性，本发明提出了一种对任意形状的文字都具有强鲁棒性的自然场景文字检测的方法。

发明内容

本发明为解决上述问题，而提出的一种复杂自然场景图像中的文字检测方法。

为了实现上述目的，本发明采用了如下技术方案：

一种复杂自然场景图像中的文字检测方法，包括以下步骤：

S1、进行图像数据预处理，准备好包含不同形状文字图像的数据集；

S2、构建网络框架采用基于批量规格化的VGG-16的全卷积网络架构作为骨干，模型在译码部分有跳过连接，与U-net类似，因为它聚合低级特性；对于VGG-16，使用4个上采样比的卷积特征图作为最终的卷积图，最终输出有两个分支：字符检测分支和文字行检测分支；图像首先送入一个全卷积神经网络进行特征提取，再由文字判别模块对输入文字框进行文字检测；

S3、对模型进行预训练，引入信息迁移机制对模型进行预训练；

S4、训练网络框架：训练深度神经网络来预测字符区域；

S5、生成文字真实标签：对于每一幅训练图像，我们使用字符级边界框生成字符区域得分，字符区域得分表示给定像素为字符中心的概率；

S6、输入一张待检测的自然场景下的文字图像；

S7、将S6中的文字图像首先送入S2中的全卷积神经网络进行特征提取，再由文字判别模块对输入文字框进行文字检测；

S8、根据判定结果决定将图像送入文字行检测分支或字符检测分支；

S9、文字校正模块，可以自然地添加到端到端的文字识别方法使用，将任意形状的文字矫正成水平形状的文字，以方便后续的识别操作；首先我们将文字表现形式拟合三种文字线模型，其复杂度不断增加；首先是零阶模型：文字行可以是水平的，也可以是垂直的；第二是一阶模型：文字行可以任意方向定位；第三是分段线性模型，文字行用一个有限多边形表示，任何形状的文字都可由一组中心线{l_i}ⁿi＝1和一个高度值h表示，其中l_i＝(a_i,b_i,c_i)表示一条a_ix+b_iy+c_i＝0的线；

对于零阶和一阶模型，利用所有字符的中心坐标(n＝1)来估计一条中心线，对于分段线性模型，利用每个字符的相邻的字符k＝min(n,11)(n＝N,N表示字符数)估计每两个字符组成的N-1个线段，高度值h设为

其中G为所有字符角坐标的集合，d(g,l_i)为点g与直线l_i之间的距离；

通过最小参数来选择最佳的线模型D计算如下：

式中，h_d为模型D的高度估计值，h_d越小，表明模型拟合越好；C_d为模型复杂度惩罚，对零阶、一阶和分段线性模型分别将模型复杂度惩罚分别设为1.0，1.2和1.4，然后对文字进校正。

优选地，所述S1中的数据集包括：ICDAR2013、ICDAR2015、ICDAR2017、CTW-1500、MSRA-TD500、VGGSynthText-part。

优选地，所述S4中由于S3中引入信息迁移机制对模型进行预训练，因此采用S1中准备好的ICDAR2013、ICDAR2015和ICDAR2017作为训练数据集。

优选地，所述S4中训练网络框架包括以下步骤：首先使用SynthText-part数据集对网络进行50k迭代训练，然后使用每个基准数据集对模型进行微调；在训练时，将s_conf(w)设置为0，忽略ICDAR2015和ICDAR2017数据集中的非文字区域，我们在所有训练过程中使用ADAM优化器。在微调期间，还以1：5的比率使用SynthText-part数据集，以确保字符区域确实是分开的，为了在自然场景中过滤出类似纹理的文字，在线硬负挖掘按1：3的比例应用，此外，还应用了基本的数据增广技术，如采用但不限于采用裁剪、旋转和/或颜色变化等数据增广技术。

优选地，所述S5中字符区域得分表示给定像素为字符中心的概率，与离散标记每个像素的二值分割映射不同，我们用高斯热力图编码字符中心的概率，由于图像上的字符边界框通过透视投影通常会发生畸变，故我们采用以下步骤来近似生成字符区域得分真实标签：

A1、准备二维各向同性高斯图；

A2、计算高斯映射区域与每个字符框之间的透视变换；

A3、扭曲高斯映射到边界区域。

优选地，所述S8中的文字行检测分支主要是针对不易分割成字符的特殊语言，针对此类文字我们的检测步骤如下：首先，通过将输入图像输入到主干网络中提取特征图，然后，我们采用文字定位模块对文字进行定位预测每个像素中的单词或文字行边界框，通常，由于接受域的限制，文字定位模块无法完整的检测到长文字，因此，引入下一个分支即迭代求精模块来解决这个问题，迭代求精模块可以迭代地从文字定位模块或自身的输出中提炼输入建议，使它们更接近于真实值边界框，迭代求精模块可以根据不同场景的需要，执行一次或多次细化操作，在迭代求精模块的帮助下，初步建议能更完整的覆盖文字实例。

优选地，所述S8中的字符检测分支检测步骤如下：首先输入一张待检测的图像，则卷积神经网络会生成字符区域得分，字符区域评分用于定位图像中的单个字符，这一步骤在训练时需要相应的字符级标签，但字符的边界标注非常复杂以及耗时，与合成数据集不同，数据集中的真实图像通常有单词级别的标注，故我们设计了一个信息迁移机制，它可以在现有的附有单词标注的真实图像中，迁移学习文字图像的字符区域得分，生成字符级边界框，迁移学习步骤如下：

B1、从原始图像中裁剪出字符级图像；

B2、最新训练的模型预测了字符区域得分；

B3、使用分水岭算法分割字符区域，使字符边界框覆盖图像上的文字区域；

B4、使用裁剪步骤的反变换将字符框的坐标转换回原始图像坐标；

B5、利用获得的四边形字符级边界盒，生成字符区域得分的伪真实值；

该过程迭代实现，逐步增强模型的字符检测能力，进而不断提高字符区域得分的伪真实值的质量，当使用信息迁移机制训练模型时，被迫使用不完全伪真实值进行训练，因为如果用不准确的区域分值训练模型，输出的结果可能会在字符区域内模糊，为了防止这种情况发生，需要测量模型生成的每个伪真实值的质量，在文字标注中有一个非常强的提示，即单词长度，在大多数数据集中，单词的转录是被提供的且和单词的长度可以用来评估伪真实值的置信度，将训练数据中的一个单词级标注样本记为w，设R(w)和l(w)分别为样本的边界框区域和单词长度，通过字符分割过程，我们可以得到估计的字符边界框及其对应的字符长度l^c(w)，对样本w的置信分数s_conf(w)计算为：

图像的像素级置信度映射S_c(P)计算为：

式中，p为区域R(w)内的像素，目标L定义为：

式中

和

分别表示字符区域得分的伪真实值和字符关联得分的伪真实值；S_r(p)和S_a(p)分别表示预测的字符区域得分和字符关联得分；

在推断阶段，最终的输出可以是各种形状的，比如单词框或字符框，以及进一步的多边形，为了得到更紧凑的表示，特别是不规则的文字，因为四边形的提案形式很容易覆盖大量的背景区域，因此我们使用文字关系探索模块学习文字区域、文字中心线和边框偏移量等几何属性来重构文字实例，将得到的字符边界框重构成单词边界框或者完整的文字行边界框，寻找边界框的后处理总结如下：

首先，将覆盖图像的二进制映射记为M并初始化为0，如果区域得分真实值大于区域阈值，则覆盖图像的像素二进制映射设置为1；其次，对M进行连接部件标记(ConnectedComponentLabeling，CCL)，最后，通过寻找一个旋转矩形并将每个标签对应的连通分量围成最小面积，得到边界框，此外，还可以在整个字符区域周围生成一个多边形，从而有效地处理弯曲文字，除了上面采用的寻找边界框的后处理方法，不再需要任何的后处理方法。

优选地，所述S8中的文字校正步骤如下：

C1、在给定估计模型的基础上，首先将文字行分割为H×W的条形图像，再估计每个条形图像的中心点和高度值，然后连接每个中心点得到一条文字中心线；

C2、根据文字中心线和高度值就能确定文字行的控制点，这里需要指出的是，控制点的在生成过程需确保其满足空间分布中的对称性约束；

C3、最后采用薄板样条法对控制点进行校正，从而得到能方便后续识别工作的水平文字行。

应用于一种复杂自然场景图像中的文字检测方法的一种复杂自然场景图像中的文字检测装置，包括：

图像获取模块，用于获取待处理的文档图片；

特征提取判别模块，用于对所述文档图片进行文字特征提取，并根据检测文字特征提取结果判别，根据判别结果进入文字行检测模块或字符检测模块；

文字行检测模块，用于对所述不易分割成字符的特殊语言对其进行精确定位后进入迭代求精模块，并通过迭代求精模块得到更完整的文字边界框；

字符检测模块，用于对所述多数文字进行字符的边界标注，之后通过信息迁移模块，得到文字边界框；

文本校正模块，用于对所述任意形状的文字矫正成水平形状的文字，以方便后续的识别操作。

应用于一种复杂自然场景图像中的文字检测方法的一种复杂自然场景图像中的文字检测装置的电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述一种复杂自然场景图像中的文字检测方法，所述计算机程序被处理器执行时实现如权利要求1至8中任一所述一种复杂自然场景图像中的文字检测方法。

与现有技术相比，本发明提供了一种复杂自然场景图像中的文字检测方法，具备以下有益效果：

1.本发明的有益效果是：字符检测分支检测基于字符标注的文字；文字行检测分支能够检测水平文字，本发明将二者的融合能够更好的检测任意形状的文字。

2.本发明的有益效果是：考虑到目前字符级别标注的文字数据集不足，本发明拟设计信息迁移机制，能基于现有大量的文字区域标注信息来获取字符级标注信息，以此弥补字符级别的标注数据集不足对字符检测器带来的影响。

3.本发明的有益效果是：本发明提出迭代求精模块，这个模块结合了人的视觉系统看长文字时的特性，基于得到的初步建议的特征块，迭代求精模块对坐标偏移量进行一次或多次回归，使文字标注提议更接近真实值。

附图说明

图1为本发明提出的一种复杂自然场景图像中的文字检测方法的一具体实施例的俯视图；

图2为本发明提出的一种复杂自然场景图像中的文字检测方法的一具体实施例的应用场景实施例；

图3为本发明提出的一种复杂自然场景图像中的文字检测方法的一具体实施例的应用场景实施例；

图4为本发明提出的一种复杂自然场景图像中的文字检测方法的一具体实施例的应用场景实施例，左为待检测的输入图片；右为可视化的检测结果；

图5为本发明提出的一种复杂自然场景图像中的文字检测方法的一具体实施例的文字裁剪流程图；

图6为本发明提出的一种复杂自然场景图像中的文字检测方法的一具体实施例的为方法结构图；

图7为本发明提出的一种复杂自然场景图像中的文字检测方法的一种复杂自然场景图像中的文字检测装置的模块图；

图8为本发明提出的一种复杂自然场景图像中的文字检测方法的电子设备图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例1：

一种复杂自然场景图像中的文字检测方法，包括以下步骤：

步骤一：图像数据的场景预处理，准备好数据集，使用的数据集包括：ICDAR2013、ICDAR2015、ICDAR2017、CTW-1500、MSRA-TD500、VGGSynthText-part；

步骤二：构建网络框架：本发明采用基于批量规格化的VGG-16的全卷积网络架构作为骨干网络(本发明亦可以用其他卷积网络如Resnet做为骨干网络)。我们的模型在译码部分有跳过连接，这与U-net类似，因为它聚合低级特性。对于VGG-16，使用4个上采样比的卷积特征图作为最终的卷积图。最终输出有两个分支:字符检测分支和文字行检测分支。图像首先送入一个全卷积神经网络进行特征提取，再由文字判别模块对输入文字框进行文字检测。该模块依赖于应用场景，本发明处理了两个典型场景。

步骤三：对模型进行预训练：由于没有可用的公共数据集，我们引入信息迁移机制对模型进行预训练。

步骤四：训练网络框架：我们训练一个深度神经网络来预测字符区域。信息迁移机制的训练需要两种类型的数据，用于裁剪单词图像的四边形标注和用于计算地单词长度。满足这些条件的数据集是ICDAR2013、ICDAR2015和ICDAR2017。其他数据集如MSRA-TD500、TotalText和CTW-1500不满足要求。MSRA-TD500不提供单词长度，而TotalText和CTW-1500只提供多边形注释。因此，本发明只在上面所述ICDAR数据集上进行了训练，且在其他数据集上进行了测试，我们用上面所述ICDAR数据集训练了两种不同的模型。第一个模型在ICDAR2015上进行训练，且只在ICDAR2015上进行了评估。第二个模型同时在ICDAR2013和ICDAR2017上进行训练，并在其他五个数据集上都进行了评估。

步骤五：训练策略：训练过程包括两个步骤:首先使用SynthText-part数据集对网络进行50k迭代训练，然后使用每个基准数据集对模型进行微调。在训练时，将sconf(w)设置为0，忽略ICDAR2015和ICDAR2017数据集中的非文字区域。我们在所有训练过程中使用ADAM优化器。在微调期间，还以1:5的比率使用SynthText-part数据集，以确保字符区域确实是分开的。为了在自然场景中过滤出类似纹理的文字，在线硬负挖掘按1：3的比例应用。此外，还应用了基本的数据增广技术，如采用但不限于采用裁剪、旋转和/或颜色变化等数据增广技术。

步骤六：文字真实标签生成：对于每一幅训练图像，我们使用字符级边界框生成字符区域得分，字符区域得分表示给定像素为字符中心的概率。与离散标记每个像素的二值分割映射不同，我们用高斯热力图编码字符中心的概率。由于图像上的字符边界框通过透视投影通常会发生畸变，故我们采用以下步骤来近似生成字符区域得分真实标签：

(1)准备二维各向同性高斯图；

(2)计算高斯映射区域与每个字符框之间的透视变换；

(3)扭曲高斯映射到边界区域。

我们提出的真实值定义方法使模型能够充分地检测大的或很长的文字实例。因为尽管使用了小的接受域，但我们的字符级检测使得卷积过滤器能够只关注字符内部和字符间，而不是整个文字实例。

步骤七：输入一张待检测的自然场景下的文字图像，见附图2，附图3以及附图4。

步骤八：图像首先送入一个全卷积神经网络进行特征提取，我们首先预测图像上的文字，文字可以是一个单词，可以是一条文字线，也可以是具有多方向或弯曲形状的文字。再由文字判别模块对输入文字框进行文字判别，这个文字判别模块十分关键，因为它由不同的语言种类共享。

步骤八：根据判定结果决定将图像送入哪一个分支，然后再得到最终检测结果见附图3与附图4右。

1、文字行检测分支主要是针对不易分割成字符的特殊语言。针对此类文字我们的检测步骤如下：

首先，通过将输入图像输入到主干网络中提取特征图。然后，我们采用文字定位模块对文字进行定位预测每个像素中的单词或文字行边界框。通常，由于接受域的限制，文字定位模块无法完整的检测到如图3中所示的长文字。因此，引入下一个分支即迭代求精模块来解决这个问题。迭代求精模块可以迭代地从文字定位模块或自身的输出中提炼输入建议，使它们更接近于真实值边界框。迭代求精模块可以根据不同场景的需要，执行一次或多次细化操作。在迭代求精模块的帮助下，初步建议能更完整的覆盖文字实例。

2、字符检测分支处理大多数能应对大多数文字，检测步骤如下：首先输入一张待检测的图像，则卷积神经网络会生成字符区域得分，字符区域评分用于定位图像中的单个字符。这一步骤在训练时需要相应的字符级标签，但字符的边界标注非常复杂以及耗时。与合成数据集不同，数据集中的真实图像通常有单词级别的标注。故我们设计了一个信息迁移机制，它可以在现有的附有单词标注的真实图像中，迁移学习文字图像的字符区域得分，生成字符级边界框。迁移学习步骤如下：

(1)从原始图像中裁剪出字符级图像，如附图5。

(2)最新训练的模型预测了字符区域得分。

(3)使用分水岭算法分割字符区域，使字符边界框覆盖图像上的文字区域。

(4)使用裁剪步骤的反变换将字符框的坐标转换回原始图像坐标。

(5)利用获得的四边形字符级边界盒，生成字符区域得分的伪真实值。

该过程迭代实现，逐步增强模型的字符检测能力，进而不断提高字符区域得分的伪真实值的质量。当使用信息迁移机制训练模型时，我们被迫使用不完全伪真实值进行训练。因为如果用不准确的区域分值训练模型，输出的结果可能会在字符区域内模糊。为了防止这种情况发生，我们测量模型生成的每个伪真实值的质量。幸运的是，在文字标注中有一个非常强的提示，即单词长度。在大多数数据集中，单词的转录是被提供的且和单词的长度可以用来评估伪真实值的置信度。我们将训练数据中的一个单词级标注样本记为w，设R(w)和l(w)分别为样本的边界框区域和单词长度，通过字符分割过程，我们可以得到估计的字符边界框及其对应的字符长度l^c(w)，对样本w的置信分数s_conf(w)计算为：

图像的像素级置信度映射S_c(P)计算为：

式中，p为区域R(w)内的像素，目标L定义为：

式中

和

在推断阶段，最终的输出可以是各种形状的，比如单词框或字符框，以及进一步的多边形，为了得到更紧凑的表示，特别是不规则的文字，因为四边形的提案形式很容易覆盖大量的背景区域。因此我们使用文字关系探索模块学习文字区域、文字中心线和边框偏移量(中心线和上下边框线之间的距离)等几何属性来重构文字实例，将得到的字符边界框重构成单词边界框或者完整的文字行边界框，附图4右中的红色多边形是其直观的视觉结果。寻找边界框的后处理总结如下：

(1)首先，将覆盖图像的二进制映射记为M并初始化为0。如果区域得分真实值大于区域阈值，则覆盖图像的像素二进制映射设置为1。

(2)其次，对M进行连接部件标记(ConnectedComponentLabeli ng，CCL)。

(3)最后，通过寻找一个旋转矩形并将每个标签对应的连通分量围成最小面积，得到边界框。

(4)此外，我们还可以在整个字符区域周围生成一个多边形，从而有效地处理弯曲文字。

除了上面采用的寻找边界框的后处理方法以后，本发明不再需要任何的后处理方法，比如非极大值抑制(Non-MaximumSuppression，NMS)。一方面由于我们有由CCL分隔的单词区域的图像块，单词的边界框仅由单个外接矩形定义。另一方面，我们的字符链接过程是在像素级进行的。这不同于其他基于链接的方法，它明确地依赖于搜索文字组件之间的关系。

步骤九：文字校正模块：由于本发明的独特性，它可以自然地添加到端到端的文字识别方法使用。为了方便后续的识别步骤，本发明引入了一个文字校正模块，可将任意形状的文字校正成水平形状的文字。

首先我们将文字表现形式拟合三种文字线模型，其复杂度不断增加。首先是零阶模型：文字行可以是水平的，也可以是垂直的。第二是一阶模型：文字行可以任意方向定位。第三是分段线性模型，文字行用一个有限多边形表示，任何形状的文字都可由一组中心线{l_i}ⁿi＝1和一个高度值h表示，其中l_i＝(a_i,b_i,c_i)表示一条a_ix+b_iy+c_i＝0的线；

通过最小参数来选择最佳的线模型D计算如下：

式中，h_d为模型D的高度估计值，h_d越小，表明模型拟合越好；C_d为模型复杂度惩罚，对零阶、一阶和分段线性模型分别将模型复杂度惩罚分别设为1.0，1.2和1.4，然后对文字进校正，文字校正步骤如下：

(1)在给定估计模型的基础上，首先将文字行分割为H×W的条形图像，再估计每个条形图像的中心点和高度值。然后连接每个中心点得到一条文字中心线。

(2)根据文字中心线和高度值就能确定文字行的控制点(边界点)，这里需要指出的是，控制点的在生成过程需确保其满足空间分布中的对称性约束。

(3)最后采用薄板样条法对控制点进行校正，从而得到能方便后续识别工作的水平文字行。

实施例2：

如图7所示，是本发明一种复杂自然场景图像中的文字检测装置100的功能模块图。

本发明所述一种复杂自然场景图像中的文字检测装置100可以安装于电子设备中。根据实现的功能，所述一种复杂自然场景图像中的文字检测装置100可以包括图像获取模块101、特征提取判别模块102、文字行检测模块103、字符检测模块104、文本校正模块105。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

图像获取模块101，用于获取待处理的文档图片；

特征提取判别模块102，用于对所述文档图片进行文字特征提取，并根据检测文字特征提取结果判别，根据判别结果进入文字行检测模块或字符检测模块；

文字行检测模块103，用于对所述不易分割成字符的特殊语言对其进行精确定位后进入迭代求精模块，并通过迭代求精模块得到更完整的文字边界框；

字符检测模块104，用于对所述多数文字进行字符的边界标注，之后通过信息迁移模块，得到文字边界框；

文本校正模块105，用于对所述任意形状的文字矫正成水平形状的文字，以方便后续的识别操作；

如图8所示，是本发明实现一种复杂自然场景图像中的文字检测方法的电子设备的结构示意图。

所述电子设备200可以包括处理器201、存储器202和总线，还可以包括存储在所述存储器202中并可在所述处理器201上运行的计算机程序，如复杂自然场景图像中的文字程序203。

其中，所述存储器202至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器202在一些实施例中可以是电子设备200的内部存储单元，例如该电子设备200的移动硬盘。所述存储器202在另一些实施例中也可以是电子设备200的外部存储设备，例如电子设备200上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述存储器202还可以既包括电子设备2001的内部存储单元也包括外部存储设备。所述存储器202不仅可以用于存储安装于电子设备201的应用软件及各类数据，例如复杂自然场景图像中的文字程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器201在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器201是所述电子设备的控制核心(Control Unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器202内的程序或者模块(例如印章文字检测识别程序等)，以及调用存储在所述存储器202内的数据，以执行电子设备200的各种功能和处理数据。

所述总线可以是外设部件互连标准(peripheral component interconnect，简称PCI)总线或扩展工业标准结构(extended industry standard architecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器202以及至少一个处理器201等之间的连接通信。

图8仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图7示出的结构并不构成对所述电子设备200的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备200还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器201逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备200还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备200还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该电子设备200与其他电子设备之间建立通信连接。

可选地，该电子设备200还可以包括用户接口，用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备200中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备200中的所述存储器202存储的复杂自然场景图像中的文字程序203是多个指令的组合，在所述处理器201中运行时，可以实现：

用于获取待处理的文档图片；

用于对所述文档图片进行文字特征提取，并根据检测文字特征提取结果判别，根据判别结果进入文字行检测模块或字符检测模块；

用于对所述不易分割成字符的特殊语言对其进行精确定位后进入迭代求精模块，并通过迭代求精模块得到更完整的文字边界框；

用于对所述多数文字进行字符的边界标注，之后通过信息迁移模块，得到文字边界框；

用于对所述任意形状的文字矫正成水平形状的文字，以方便后续的识别操作。

具体地，所述处理器201对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种复杂自然场景图像中的文字检测方法，其特征在于，包括以下步骤：

S2、构建网络框架采用基于批量规格化的VGG-16的全卷积网络架构作为骨干，模型在译码部分有跳过连接，与U-net类似，因为它聚合低级特性，对于VGG-16，使用4个上采样比的卷积特征图作为最终的卷积图，最终输出有两个分支：字符检测分支和文字行检测分支；图像首先送入一个全卷积神经网络进行特征提取，再由文字判别模块对输入文字框进行文字检测；

S4、训练网络框架：训练深度神经网络来预测字符区域；

S6、输入一张待检测的自然场景下的文字图像；

通过最小参数来选择最佳的线模型D计算如下：

2.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法，其特征在于：所述S1中的数据集包括：ICDAR2013、ICDAR2015、ICDAR2017、CTW-1500、MSRA-TD500、VGGSynthText-part。

3.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法，其特征在于：所述S4中由于S3中引入信息迁移机制对模型进行预训练，因此采用S1中准备好的ICDAR2013、ICDAR2015和ICDAR2017作为训练数据集。

4.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法，其特征在于：所述S4中训练网络框架包括以下步骤：首先使用SynthText-part数据集对网络进行50k迭代训练，然后使用每个基准数据集对模型进行微调；在训练时，将s_conf(w)设置为0，忽略ICDAR2015和ICDAR2017数据集中的非文字区域，我们在所有训练过程中使用ADAM优化器。在微调期间，还以1：5的比率使用SynthText-part数据集，以确保字符区域确实是分开的，为了在自然场景中过滤出类似纹理的文字，在线硬负挖掘按1：3的比例应用，此外，还应用了基本的数据增广技术，如采用但不限于采用裁剪、旋转和/或颜色变化等数据增广技术。

5.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法，其特征在于：所述S5中字符区域得分表示给定像素为字符中心的概率，与离散标记每个像素的二值分割映射不同，我们用高斯热力图编码字符中心的概率，由于图像上的字符边界框通过透视投影通常会发生畸变，故我们采用以下步骤来近似生成字符区域得分真实标签：

A1、准备二维各向同性高斯图；

A2、计算高斯映射区域与每个字符框之间的透视变换；

A3、扭曲高斯映射到边界区域。

6.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法，其特征在于：所述S8中的文字行检测分支主要是针对不易分割成字符的特殊语言，针对此类文字我们的检测步骤如下：首先，通过将输入图像输入到主干网络中提取特征图，然后，我们采用文字定位模块对文字进行定位预测每个像素中的单词或文字行边界框，通常，由于接受域的限制，文字定位模块无法完整的检测到长文字，因此，引入下一个分支即迭代求精模块来解决这个问题，迭代求精模块可以迭代地从文字定位模块或自身的输出中提炼输入建议，使它们更接近于真实值边界框，迭代求精模块可以根据不同场景的需要，执行一次或多次细化操作，在迭代求精模块的帮助下，初步建议能更完整的覆盖文字实例。

7.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法，其特征在于：所述S8中的字符检测分支检测步骤如下：首先输入一张待检测的图像，则卷积神经网络会生成字符区域得分，字符区域评分用于定位图像中的单个字符，这一步骤在训练时需要相应的字符级标签，但字符的边界标注非常复杂以及耗时，与合成数据集不同，数据集中的真实图像通常有单词级别的标注，故我们设计了一个信息迁移机制，它可以在现有的附有单词标注的真实图像中，迁移学习文字图像的字符区域得分，生成字符级边界框，迁移学习步骤如下：

B1、从原始图像中裁剪出字符级图像；

B2、最新训练的模型预测了字符区域得分；

图像的像素级置信度映射S_c(P)计算为：

式中，p为区域R(w)内的像素，目标L定义为：

式中

和

8.根据权利要求1所述的一种复杂自然场景图像中的文字检测方法，其特征在于：所述S8中的文字校正步骤如下：

9.应用于权利要求1所述的一种复杂自然场景图像中的文字检测方法的一种复杂自然场景图像中的文字检测装置，其特征在于：包括：

图像获取模块，用于获取待处理的文档图片；

10.应用于权利要求9所述的一种复杂自然场景图像中的文字检测方法的一种复杂自然场景图像中的文字检测装置的电子设备，其特征在于：包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至8中任一所述一种复杂自然场景图像中的文字检测方法，所述计算机程序被处理器执行时实现如权利要求1至8中任一所述一种复杂自然场景图像中的文字检测方法。