CN106446899A

CN106446899A - 文字检测方法和装置、及文字检测训练方法和装置

Info

Publication number: CN106446899A
Application number: CN201610842572.3A
Authority: CN
Inventors: 向东来; 郭强; 夏炎; 梁鼎
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2017-02-22
Also published as: WO2018054326A1

Abstract

公开了文字检测方法和装置及文字检测训练方法和装置。示例性的文字检测方法包括：使用卷积神经网络从包括文字区域的图像提取特征图；采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；将每个建议区域通过所述卷积神经网络进行分类和回归，其中，通过所述分类来确定每个建议区域是否对应于包括文字的区域，通过所述回归来确定每个建议区域对应所述图像中的位置；以及将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。根据上述方法，网络仅需看到与文字区域的横向一部分对应的锚矩形附近的区域即可，减小了网络设计的难度。

Description

文字检测方法和装置、及文字检测训练方法和装置

技术领域

本申请涉及文字检测，具体地，涉及基于卷积神经网络的文字检测方法和装置、及文字检测训练方法和装置，更具体地，涉及基于区域建议神经网络的文字检测方法和装置、及文字检测训练方法和装置。

背景技术

近年来，基于卷积神经网络的通用物体检测方法被尝试用于文字检测领域，并取得了较好的效果。区域建议神经网络(Region Proposal Network，RPN)是卷积神经网络中性能最好的算法之一，如何将区域建议神经网络应用到文字检测中，目前引起了业内人士的广泛关注和研究热情。

发明内容

本申请提供了用于文字检测的技术方案。

一方面，本申请提供了一种文字检测方法，包括：使用卷积神经网络从包括文字区域的图像提取特征图；采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；将每个建议区域通过所述卷积神经网络进行分类和回归，其中，通过所述分类来确定每个建议区域是否对应于包括文字的区域，通过所述回归来确定每个建议区域对应所述图像中的位置；以及将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

根据一个实施方式，区域横向拼接可包括：根据通过回归确定的各建议区域分别对应图像中的位置，将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到文字区域检测结果。

根据一个实施方式，文字检测方法还可包括预先对卷积神经网络进行训练，其中，对卷积神经网络的训练包括：使用卷积神经网络从包括文字区域的训练图像提取特征图；采用多个锚矩形对训练图像的特征图进行横向截取，得到多个建议区域；将每个锚矩形截取的建议区域通过卷积神经网络进行分类和回归，其中分类确定每个建议区域是否对应于包括文字的区域，回归确定每个建议区域的位置；以及根据已知的与训练图像对应的真实文字区域以及分类和回归得到的预测文字区域的差异，迭代训练卷积神经网络直至训练结果满足预定收敛条件。

根据一个实施方式，在卷积神经网络的每次迭代训练中，可根据预测文字区域与对应的真实文字区域在竖直方向上的交并比，确定真实文字区域和预测文字区域之间的差异。

根据一个实施方式，在卷积神经网络的每次迭代训练中，可根据smooth L1损失函数确定真实文字区域和预测文字区域之间的差异。

根据一个实施方式，当预测文字区域与对应的真实文字区域在竖直方向上的交并比大于预先设定的阈值时，该预测文字区域对应的建议区域可被确定为正样本；否则，该预测文字区域对应的建议区域可被确定为负样本。

根据一个实施方式，锚矩形的宽度可以是固定的。

根据一个实施方式，锚矩形的宽度可根据卷积神经网络的步长确定。

根据一个实施方式，锚矩形的宽度可等于或大于卷积神经网络的步长。

另一方面，本申请提供了一种文字检测训练方法，包括：使用卷积神经网络从包括文字区域的训练图像提取特征图；采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归，其中所述分类确定每个建议区域是否对应于包括文字的区域，所述回归确定每个建议区域的位置；以及根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。

根据一个实施方式，锚矩形的宽度可以是固定的。

又一方面，本申请提供了一种文字检测装置，包括：图像特征提取模块，使用卷积神经网络从包括文字区域的图像提取特征图；建议区域截取模块，采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；分类模块，将每个建议区域通过所述卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域；回归模块，将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应所述图像中的位置；以及检测结果拼接模块，将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

根据一个实施方式，文字检测装置还可包括预先对卷积神经网络进行训练的训练模块，其中，在对卷积神经网络的预先训练过程中：图像特征提取模块从包括文字区域的训练图像提取特征图；建议区域截取模块采用多个锚矩形对训练图像的特征图进行横向截取，得到多个建议区域；分类模块将每个建议区域通过卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域，回归模块将每个建议区域通过卷积神经网络进行回归，以确定每个建议区域对应图像中的位置；以及训练模块根据已知的与训练图像对应的真实文字区域以及分类和回归得到的预测文字区域的差异，迭代训练卷积神经网络直至训练结果满足预定收敛条件。

根据一个实施方式，锚矩形的宽度可以是固定的。

再一方面，本申请提供了一种文字检测训练装置，包括：图像特征提取模块，使用卷积神经网络从包括文字区域的训练图像提取特征图；建议区域截取模块，采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；分类模块，将每个建议区域通过所述卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域；回归模块，将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应所述训练图像中的位置；以及训练模块，根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。

根据一个实施方式，锚矩形的宽度可以是固定的。

再一方面，本申请提供了一种文字检测装置，存储器，存储有可执行指令；以及一个或多个处理器，与所述存储器通信以执行所述可执行指令从而执行以下操作：使用卷积神经网络从包括文字区域的图像提取特征图；采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；将每个建议区域通过所述卷积神经网络进行分类和回归，其中，通过所述分类来确定每个建议区域是否对应于包括文字的区域，通过所述回归来确定每个建议区域对应所述图像中的位置；以及将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

再一方面，本申请提供了一种文字检测训练装置，包括：存储器，存储有可执行指令；以及一个或多个处理器，与所述存储器通信以执行所述可执行指令从而执行以下操作：使用卷积神经网络从包括文字区域的训练图像提取特征图；采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归，其中所述分类确定每个建议区域是否对应于包括文字的区域，所述回归确定每个建议区域的位置；以及根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。

本申请还提供了一种计算机可读介质，其中存储有计算机可执行指令，当处理器执行存储于该计算机可读介质中的计算机可执行指令时，处理器执行本申请实施例提供的任一种文字检测方法和/或文字检测训练方法。

通过采用了多个横向拼接的锚矩形来执行特征提取以及之后的分类和回归，每个锚矩形仅截取与图像中的待检测区域的横向一部分对应的建议区域来进行处理，因此对于用来进行文字检测的卷积神经网络而言，在对具有较大宽度文字区域进行检测时，仅需看到与待检测区域的横向一部分对应的单个锚矩形附近的区域即可，而无需具有很大的感受野，由此，减小了网络设计的难度。

附图说明

通过阅读参照附图所作出的以下详细描述，本申请的其它特征、目的和有益效果将会变得更明显，在附图中：

图1是示出了根据本申请实施例的文字检测方法的流程图；

图2示出了根据示例性实施方式的文字检测装置的架构图；

图3示出了根据本申请示例性应用实例的示意图；

图4示出了根据示例性实施方式对卷积神经网络的训练方法的流程图；

图5示出了根据示例性实施方式的文字检测训练装置的架构图；以及

图6是示出了适合实施本申请实施例的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是，在本文中所描述的具体实施方式仅仅用于解释本申请，而非对本申请进行限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分。下面将参照附图并结合实施方式来详细说明本申请。

图1是示出了根据本申请实施例的文字检测方法的流程图1000。首先，在步骤S1010，使用卷积神经网络从包括文字区域的图像提取特征图(feature map)。通过卷积得到的特征图包含了图像的特征信息。在步骤S1030，采用多个锚矩形(anchor)对特征图分别进行横向截取，得到多个建议区域。由于采用多个锚矩形对特征图分别进行横向截取，因此得到的每个建议区域仅与待检测图像的横向一部分对应，而不是对应于待检测区域的整个横向长度。在步骤S1050，将每个建议区域通过卷积神经网络进行分类和回归，其中，通过分类来确定每个建议区域是否对应于包括文字的区域，通过回归来确定每个建议区域对应待检测图像中的位置。在步骤S1070，将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。具体地，例如，根据通过回归确定的所述各建议区域分别对应待检测图像中的位置，将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到文字区域检测结果。

由于分类和回归的处理对象是由锚矩形截取的对应于待检测图像的横向一部分对应的建议区域，因此对于用来进行文字检测的卷积神经网络而言，在对具有较大宽度文字区域进行检测时，仅需看到与文字区域的横向一部分对应的单个锚矩形附近的区域即可，而无需具有很大的感受野，由此，减小了网络设计的难度。

在上述文字检测方法中，多个锚矩形可以是在横向方向(即，宽度方向)上连续拼接的锚矩形，由此，各锚矩形截取的各建议区域正好对应于待检测图像的整个宽度。可选地，多个锚矩形之间在宽度方向可以略微重叠，由此，各锚矩形截取的各建议区域对应于待检测图像的整个宽度并具有少量重叠部分，以避免由于实际使用中的误差而在相邻锚矩形或相邻的建议区域之间产生间隙，从而遗漏待检测图像的某些中间宽度。

图2示出了根据示例性实施方式的文字检测装置2000的架构图。具体地，文字检测装置2000以RPN的形式实现。如图所示，文字检测装置2000包括图像特征提取模块2010、建议区域截取模块2030、分类模块2040、回归模块2050和检测结果拼接模块2070，其中，图像特征提取模块2010使用卷积神经网络从包括文字区域的图像提取特征图，建议区域截取模块2030采用多个锚矩形对所述特征图分别进行横向截取以得到多个建议区域，分类模块2040将每个建议区域通过所述卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域，回归模块2050将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应所述图像中的位置，检测结果拼接模块2070检测结果拼接模块，将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

具体地，结合上文所述，在对图像中的文字进行检测时，首先将包括文字的图像输入图像特征提取模块2010，在图像特征模块2010使用卷积神经网络从包括文字区域的图像提取特征图。通过卷积得到的特征图包含了图像的特征信息。然后，在图像特征模块2010提取到的特征图被输入建议区域截取模块2030，在建议区域截取模块2030中，采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域。获得的建议区域分别输入分类模块2040和回归模块2050，进行分类和回归，通过分类确定每个建议区域是否对应于包括文字的区域，通过回归确定每个建议区域对应所述图像中的位置。检测结果拼接模块2070将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。具体地，例如，根据通过回归确定的所述各建议区域分别对应所述图像中的位置，将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到所述文字区域检测结果。

下面结合上述文字检测方法和文字检测装置对示例性的应用实例进行描述。图3示出了根据本申请示例性应用实例的示意图。

如图3所示，包含文字区域的图像10是待检测的对象。在现有的RPN中，采用的锚矩形例如为图示的与待检测文字区域的整个横向宽度对应的单个锚矩形110。只有在采用的锚矩形的横向宽度对应于待检测文字区域的整个横向宽度时，才能实现对该文字区域的检测。这样，在文字宽度较大的情况下，RPN往往需要很大的感受野才能进行处理，由此给网络的设计带来很大的难度。因此，区域建议神经网络往往并不适于直接应用于文字检测。

如图3所示，根据本申请的示例性实施方式，采用多个横向拼接的锚矩形120代替单个锚矩形110，多个横向拼接的锚矩形120的宽度之和对应于待检测文字区域的整个横向宽度。例如，多个横向拼接的锚矩形120的宽度之和可以等于待检测文字区域的整个横向宽度，或者略大于待检测文字区域的整个横向宽度。在多个横向拼接的锚矩形120的宽度之和可以等于待检测文字区域的整个横向宽度的情况下，多个锚矩形120彼此邻接，从而与待检测文字区域的整个横向宽度相对应。在多个横向拼接的锚矩形120的宽度之和可以等于待检测文字区域的整个横向宽度的情况下，多个锚矩形120中的至少一部分相邻锚矩形之间具有部分重合，多个锚矩形120连接形成的区域的宽度与待检测文字区域的整个横向宽度相对应。在上述文字检测方法中，首先由卷积神经网络中的图像特征提取模块对待检测图像10进行特征图提取。图3示例性示出了得到的特征图的一部分20。在建议区域截取模块，采用多个横向拼接的锚矩形对所述特征图进行截取以获得多个建议区域，以便对每个锚矩形截取的建议区域分别进行处理。每个锚矩形截取的建议区域例如为图3所示的滑动窗的形式。可选地，对于锚矩形截取的建议区域，可以通过一个或多个卷积层40进一步处理。经卷积层40处理后的建议区域(或者未经卷积层处理的建议区域)输入到分类器50和回归器60。在分类器50处识别每个建议区域是否为文字区域。在回归器60处确定每个建议区域的位置。最后，在检测结果拼接模块将分类器确定的对应于文字区域的建议区域根据在回归器处确定的位置进行拼接，以形成检测的文字检测结果。如上文所述，拼接的具体方式例如是将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到所述文字区域检测结果。

根据示例性实施方式，在上述文字检测方法1000中，进一步包括预先对卷积神经网络进行训练的步骤。通过下文将描述的训练，获得经训练的文字检测装置，例如上述文字检测装置2000。

图4示出了根据示例性实施方式对卷积神经网络的训练方法4000。具体地，如图4所示，对卷积神经网络的训练方法4000可包括：在步骤S4010，从包括文字区域的训练图像提取特征图；在步骤S4030，采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；在步骤S4050，将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归，其中所述分类确定每个建议区域是否对应于包括文字的区域，所述回归确定每个建议区域的位置；以及在步骤S4070，根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。预定的收敛条件例如可以是：迭代训练最近一次的误差值落入容许范围、或者误差值小于预定值、或者误差值最小、或者迭代次数达到预定次数，等等。

根据本申请的实施方式，在所述卷积神经网络的每次迭代训练中，根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比，确定所述真实文字区域和所述预测文字区域之间的差异。例如，在所述卷积神经网络的每次迭代训练中，根据smoothL1损失函数确定所述真实文字区域和所述预测文字区域之间的差异。差异的一种表现形式可以是误差。

根据本申请的实施方式，当预测文字区域与对应的真实文字区域在竖直方向上的交并比大于预先设定的阈值时，该预测文字区域对应的建议区域被确定为正样本；否则，该预测文字区域对应的建议区域被确定为负样本。

具体地，分类器例如采用softmax损失函数，用来对是否为文字区域进行预测。根据示例性实施方式，在训练过程中，在计算卷积神经网络的误差值时，分类器根据建议区域与对应的真实文字区域的横向一部分在竖直方向上的交并比，确定各个建议区域是正样本还是负样本。回归器可采用RPN网络中的smooth L1损失函数作为训练目标函数来使真实文字区域和预测文字区域之间的差异最小化。经过迭代训练所述卷积神经网络直至训练结果满足预定收敛条件，卷积神经网络的参数被调整为适应于利用多个横向拼接的锚矩形来对图像中的文字区域进行识别。

具体地，当采用RPN网络中的smooth L1损失函数作为训练目标函数时，真实文字区域和预测文字区域之间的差异由以下公式确定：

其中，L是目标误差函数，i是锚矩形截取的建议区域的序号，c_i为第i个建议区域的类别标记，r_i为第i个建议区域的位置向量，上标为*的表示相应变量的目标真实值，L_cls为分类损失函数，L_reg为回归位置的损失函数，N_cls和N_reg分别代表被选择的分类和回归训练样本数目，λ是预先设定的经验值，j为x、y、w和h中的任一，其中x和y分别是对应建议区域的中心点的横坐标和纵坐标，w和h分别是对应建议区域的宽度和高度。

当第i个建议区域与对应的真实文字区域的横向一部分在竖直方向上的交并比大于预先设定的阈值时，c_i等于1，代表第i个建议区域为正样本；以及，当第i个建议区域与对应的真实文字区域的横向一部分在竖直方向上的交并比小于或等于预先设定的阈值时，c_i等于1，代表第i个建议区域为负样本。

由于上述训练过程中，分类器根据锚矩形截取的建议区域和真实区域的交并比来确定每个建议区域是对应于包括文字的区域(正样本)，还是对应于不包括文字的区域(负样本)，因此，当一个锚矩形在竖直方向和真实区域重合、但在水平方向只占了真实区域的一小部分时，这个锚矩形将被认为是对应于文字区域，从而被选为正样本。而在现有的RPN中，这种情况虽然的确是文字区域，但其将不会被选为正样本。

通过在迭代的训练过程对系统参数进行调整以减小由训练目标函数表示真实文字区域和预测文字区域的差异，得到训练好的卷积神经网络，即，上述文字检测装置2000。

经此训练后，在后续的检测过程中，可采用多个横向拼接的锚矩形来执行特征提取以及之后的分类和回归，每个锚矩形(或锚矩形截取的建议区域)仅对应于待检测区域的横向一部分，由于在对卷积神经网络的训练过程中只考虑了竖直方向上的特征，因此在检测过程中，卷积神经网络中的分类器也考虑建议区域竖直方向的特征来预测每个建议区域是否对应于文字区域。在将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接后，得到文字区域检测结果。基于这样的技术方案，避免了在锚矩形宽度小于真实区域宽度时，对实际对应于文字区域的部分真实区域不能正确识别的问题。

图5示出了根据示例性实施方式的文字检测训练装置5000的架构图。文字检测训练装置5000的各个模块执行上述文字检测训练方法4000的各个步骤。具体地，文字检测装置5000以RPN的形式实现。如图所示，文字检测装置5000包括图像特征提取模块5010、建议区域截取模块5030、分类模块5040、回归模块5050和训练模块5060，其中，图像特征提取模块5010使用卷积神经网络从包括文字区域的训练图像提取特征图，建议区域截取模块5030采用多个锚矩形对训练图像的特征图分别进行横向截取以得到多个建议区域，分类模块5040将每个建议区域通过所述卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域，回归模块5050将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应训练图像中的位置，训练模块5060根据已知的与训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练卷积神经网络直至训练结果满足预定收敛条件。

具体地，结合上文所述，在对图像中的文字进行检测时，首先将包括文字的图像输入图像特征提取模块5010，在图像特征模块5010使用卷积神经网络从包括文字区域的训练图像提取特征图。通过卷积得到的特征图包含了训练图像的特征信息。然后，在图像特征模块5010提取到的特征图被输入建议区域截取模块5030，在建议区域截取模块5030中，采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域。获得的建议区域分别输入分类模块5040和回归模块5050，进行分类和回归，通过分类确定每个建议区域是否对应于包括文字的区域，通过回归确定每个建议区域对应所述训练图像中的位置。训练模块5060根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。预定的收敛条件例如可以是：迭代训练最近一次的误差值落入容许范围、或者误差值小于预定值、或者误差值最小、或者迭代次数达到预定次数，等等。

此外，上文结合图4描述的文字检测训练方法4000的各个特征均适用于图5所示的文字检测训练装置5000。在不同的实施方式中，上文结合图4描述的文字检测训练方法4000的各个特征的任意数量的各种组合可结合于图5所示的文字检测训练装置5000中。

根据示例性实施方式，在以上所述的训练和文字检测中，采用的锚矩形的宽度可以是固定，由此减少了进行匹配所需的锚矩形的尺寸和数量，从而减少了计算量。

根据示例性实施方式，在以上所述的训练和文字检测中，采用的锚矩形的宽度可等于卷积神经网络的步长，由此，将检测结果横向拼接后形成检测结果正好对应于检测区域的整个宽度。可选地，采用的锚矩形的宽度可略大于卷积神经网络的步长，由此，将检测结果横向拼接后形成检测结果对应于检测区域的整个宽度并具有少量重叠部分，以避免由于实际使用中的误差等因素而在相邻锚矩形之间产生间隙，从而遗漏检测区域的某些中间宽度。

参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置可通过计算机系统来实施。该计算机系统可包括存储有可执行指令的存储器以及处理器。处理器与存储器通信以执行可执行指令从而实施参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置。可替代地或附加地，参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置可通过非暂时性计算机存储介质来实施。该介质存储计算机可读指令，当这些指令被执行时使处理器执行参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置。

现参照图6，图6是示出了适合实施本申请实施例的计算机系统6000的结构示意图。

如图6所示，计算机系统6000可包括处理单元(如中央处理单元(CPU)6001、图像处理单元(GPU)等)，其可根据存储在只读存储器(ROM)6002中的程序或从存储部分6008加载至随机存取存储器(RAM)6003中的程序而执行各种适当的动作和过程。在RAM 6003中，还可存储有系统6000操作所需要的各种程序和数据。CPU 6001、ROM 6002和RAM 6003通过总线6004彼此连接。输入/输出I/O接口6005也与总线6004连接。

以下为可与I/O接口6005连接的部件：包括键盘、鼠标等的输入部分6006；包括阴极射线管CRT、液晶显示设备LCD和扬声器等的输出部分6007；包括硬盘等的存储部分6008；以及包括网络接口卡(如LAN卡和调制解调器等)的通信部分6009。通信部分6009可通过诸如因特网等网络执行通信处理。根据需要，驱动器6010也可与I/O接口6005连接。如磁盘、光盘、磁光盘、半导体存储器等的可拆卸介质6011可安装在驱动器6010上，以便于从其上读出的计算机程序根据需要被安装入存储部分6008。

具体地，根据本公开的实施例，以上参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置可实施为计算机软件程序。例如，本公开的实施例可包括计算机程序产品，该产品包括有形地体现在机器可读介质中的计算机程序。该计算机程序包括用于执行参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置。在这种实施例中，计算机程序可通过通信部分6009从网络上下载并进行安装，和/或可从可拆卸介质6011安装。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本申请的实施例所涉及的单元或模块可通过软件或硬件实施。所描述的单元或模块也可设置在处理器中。这些单元或模块的名称不应被视为限制这些单元或模块。

以上描述仅为本申请的示例性实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不背离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文字检测方法，包括：

使用卷积神经网络从包括文字区域的图像提取特征图；

采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；

将每个建议区域通过所述卷积神经网络进行分类和回归，其中，通过所述分类来确定每个建议区域是否对应于包括文字的区域，通过所述回归来确定每个建议区域对应所述图像中的位置；以及

将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

2.根据权利要求1所述的文字检测方法，所述区域横向拼接包括：根据通过回归确定的所述各建议区域分别对应所述图像中的位置，将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到所述文字区域检测结果。

3.一种文字检测训练方法，包括：

使用卷积神经网络从包括文字区域的训练图像提取特征图；

采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；

将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归，其中所述分类确定每个建议区域是否对应于包括文字的区域，所述回归确定每个建议区域的位置；以及

根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。

4.根据权利要求3所述的文字检测训练方法，其中，在所述卷积神经网络的每次迭代训练中，根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比，确定所述真实文字区域和所述预测文字区域之间的差异。

5.一种文字检测装置，包括：

图像特征提取模块，使用卷积神经网络从包括文字区域的图像提取特征图；

建议区域截取模块，采用多个锚矩形对所述特征图分别进行横向截取，得到多个建议区域；

分类模块，将每个建议区域通过所述卷积神经网络进行分类，以确定每个建议区域是否对应于包括文字的区域；

回归模块，将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应所述图像中的位置；以及

检测结果拼接模块，将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接，以得到文字区域检测结果。

6.根据权利要求5所述的文字检测装置，所述区域横向拼接包括：根据通过回归确定的所述各建议区域分别对应所述图像中的位置，将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接，由此得到所述文字区域检测结果。

7.一种文字检测训练装置，包括：

图像特征提取模块，使用卷积神经网络从包括文字区域的训练图像提取特征图；

建议区域截取模块，采用多个锚矩形对所述训练图像的特征图进行横向截取，得到多个建议区域；

回归模块，将每个建议区域通过所述卷积神经网络进行回归，以确定每个建议区域对应所述训练图像中的位置；以及

训练模块，根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异，迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。

8.根据权利要求7所述的文字检测训练装置，其中，在所述卷积神经网络的每次迭代训练中，根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比，确定所述真实文字区域和所述预测文字区域之间的差异。

9.一种文字检测装置，包括：

存储器，存储有可执行指令；以及

一个或多个处理器，与所述存储器通信以执行所述可执行指令从而执行以下操作：

使用卷积神经网络从包括文字区域的图像提取特征图；

10.一种文字检测训练装置，包括：

存储器，存储有可执行指令；以及

使用卷积神经网络从包括文字区域的训练图像提取特征图；