CN108154145B

CN108154145B - 检测自然场景图像中的文本的位置的方法和装置

Info

Publication number: CN108154145B
Application number: CN201810070773.5A
Authority: CN
Inventors: 周子键
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2020-05-19
Anticipated expiration: 2038-01-24
Also published as: CN108154145A

Abstract

公开了一种检测自然场景图像中的文本的位置的方法和装置。该方法包括：将自然场景图像输入到卷积神经网络；根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样；基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图；获得每个检测特征图的与文本的位置有关的一个或多个区域建议框；以及使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均。通过该方法和装置能够以高召回率检测自然场景图像中的文本的位置。

Description

检测自然场景图像中的文本的位置的方法和装置

技术领域

本公开总体上涉及人工智能的技术领域，并且具体地涉及检测自然场景图像中的文本的位置的方法和装置。

背景技术

自然场景图像可能包含丰富的文本信息，这样的文本信息对于理解由自然场景图像所表现的内容往往非常重要。提取和识别这些文本信息首先需要准确地检测出文本在自然场景图像中的确切位置。期望能够以高召回率检测出文本在自然场景图像中的位置。

发明内容

一方面，提供了一种检测自然场景图像中的文本的位置的方法，该方法可以包括：将自然场景图像输入到卷积神经网络；根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样；基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图；获得每个检测特征图的与文本的位置有关的一个或多个区域建议框；以及使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，以确定文本在自然场景图像中的位置。

另一方面，还提供了一种检测自然场景图像中的文本的位置的装置，该装置可以包括被配置为执行上述方法的一个或多个处理器。

另一方面，还提供了一种非临时性存储介质，在其上存储有程序指令，该程序指令在被执行时执行上述方法。

另一方面，还提供了一种检测自然场景图像中的文本的位置的装置，该装置可以包括：特征提取器，被配置为基于卷积神经网络来提取自然场景图像中与文本的位置有关的特征；上采样器，被配置为根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样；检测特征图生成器，被配置为基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图；区域建议框获取器，被配置为获得每个检测特征图的与文本的位置有关的一个或多个区域建议框；以及定位器，被配置为使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，以确定文本在自然场景图像中的位置。

通过根据本公开的实施例的方法和装置，能够以高召回率检测自然场景图像中的文本的位置。

附图说明

图1示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的示例方法的流程图。

图2示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的网络系统的示例。

图3示出根据本公开的实施例的注意力控制网络中的结合块的示例。

图4示出根据本公开的实施例的注意力控制网络中的结合块的示例。

图5示出根据本公开的实施例的注意力控制网络中的结合块的示例。

图6示出根据本公开的实施例的衔接网络中的衔接块的示例。

图7示出根据本公开的实施例的衔接网络的示例。

图8示出根据本公开的实施例的衔接网络的示例。

图9示出根据本公开的实施例的衔接网络的示例。

图10示出根据本公开的实施例的衔接网络的示例。

图11示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的装置的示例。

图12示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的装置的示例。

具体实施方式

在一些情况下，例如，在文本信息在整个自然场景图像中所占的比例比较小的情况下，在将自然场景图像经过卷积神经网络的处理之后所获得的特征图的大小可能远小于原始图像。例如，在使用通常的VGGNet型、GoogLeNet型或ResNet型的卷积神经网络的情况下，所获得特征图的大小往往只有原始图像的1/16。这样的特征图可能无法充分地表现文本信息或者可能根本无法表现出文本信息，导致检测效果劣化，甚至可能根本无法检测到自然场景图像中的文本的存在。

可以放大自然场景图像，以便于检测所占的比例比较小的文本。这样的简单处理可能导致卷积神经网络中的计算量的急剧增加，相应地，处理速度或效率也将显著劣化。另外，原本所占比例比较大的文本将由于原始图像的感受野范围的变小而碎片化，在文本有一定程度的倾斜的情况下更是如此。另外，这样的处理方式无法对不同情景下的文本检测做出统一且适合的处理。

期望能够克服或者减轻由于图像中的文本的尺寸变化大、位置不同、稠密稀疏不确定、可能有遮挡等原因而造成的文本检测漏检率高的问题，并且能够以通用且高效的方式来检测自然场景图像中的文本的位置。

如图1所示，根据本公开的实施例的示例方法可以包括：

步骤S110，将包含文本信息的自然场景图像输入到卷积神经网络；

步骤S120，根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样；

步骤S130，基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图；

步骤S140，获得每个检测特征图的与文本的位置有关的一个或多个区域建议框；以及

步骤S150，使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，以确定文本在自然场景图像中的位置。

图2示出根据本公开的实施例的可以实现上述方法的网络系统的示例。下面结合图2来描述图1所示的示例方法的细节。

在图1的示例方法的步骤S110中，将自然场景图像IMG输入到卷积神经网络CNN中，以便提取特征，例如与图像IMG中的文本相关的诸如文本的边界、纹理等特征以及其他特征。

网络CNN要提取图像IMG的哪些特征可以由网络CNN的设计者来决定，本公开对此不做限制。

在不同的实施例中，可以根据需要选择不同类型的卷积神经网络作为网络CNN，也可以基于不同类型的卷积神经网络来构建网络CNN。例如，可以选择PVANet作为本公开的实施例中的网络CNN或者基于PVANet来构建本公开的实施例中的网络CNN。PVANet中使用大量的长条形卷积核。使用或基于PVANet的网络CNN能够有效地提取信息，同时对文本的边界特征比较敏感。在另外的示例中，也可以使用或基于例如VGGNet或ResNet(残差型卷积神经网络)。

在一个实施例中，输入到网络CNN的自然场景图像可以是经过预处理的图像。在不同的实施例中，预处理可以包括缩放、去中值和反转等处理中的一个或多个。

如图2所示，根据本公开的实施例的网络CNN可以包括输入层LI、输出层LO和多个隐藏层(例如，图2中的HL_i、HL_i+1、HL_j和HL_j+1)。可以在图1的示例方法的步骤S120中选择在网络CNN中的一个或多个选定层(例如，图2中的HL_i和HL_j)，并且将每个选定层的输出特征图(例如，图2中的F_i和F_j)短接引出到网络CNN的外部。

在一个实施例中，可以使每个选定层的输出特征图的大小与每个选定层在网络CNN中的相应的下一层的输出特征图的大小不同。例如，在图2的示例中，隐藏层HL_i的输出特征图F_i的大小与HL_i+1的输出特征图的大小不同，并且隐藏层HL_j的输出特征图F_j的大小与HL_j+1的输出特征图的大小不同。相应地，可以选择隐藏层HL_i和HL_j作为选定层，并且将隐藏层HL_i的输出特征图F_i和隐藏层HL_j的输出特征图F_j短接引出到网络CNN的外部。

在一个实施例中，可以从网络CNN的输入层LI开始在网络CNN的前馈方向上逐层地遍历的每个层，并且可以确定每个层的输出特征图的大小，将整个网络CNN划分成多个部分，使得每个部分中的所有层的输出特征图的大小均相同，前后相邻的两个部分的输出特征图的大小不同。然后，可以分别选择每个部分中的一个层(例如，该部分中的最先层、最后层或者任何一个中间层)作为一个选定层，并将被选择为选定层的层的输出特征图短接引出的网络CNN的外部。在另外的实施例中，可以分别选择每个部分中的一个或多个层，并将所选择的层的输出特征图短接引出的网络CNN的外部。在另外的实施例中，可以基于一个或多个部分(而非全部)来确定选定层。

在另外的实施例中，由于在设计网络CNN时就可以确定网络CNN中的哪个层或哪些层的输出特征图的大小与相应的前一层的输出特征图的大小不同，所以可以在设计网络CNN时就确定在步骤S120中的每个选定层，而不必在步骤S120中执行上述选择。

然后，可以将每个选定层的输出特征图短接引出网络CNN的外部并且提供给每个选定层的对应的注意力控制网络。例如，在图2的示例中，网络CNN中选定层HL_i的输出特征图F_i在提供给HL_i在网络CNN中的下一层HL_i+1的同时还被短接引出到网络CNN的外部并提供给对应的注意力控制网络ACN_i，网络CNN中选定层HL_j的输出特征图F_j在提供给HL_j在网络CNN中的下一层HL_j+1的同时还被短接引出到网络CNN的外部并提供给对应的注意力控制网络ACN_j。

每个注意力控制网络可以包括上采样层。在图2的示例中，与选定层HL_i相对应的注意力控制网络ACN_i可以包括上采样层USL_i，与选定层HL_j相对应的注意力控制网络ACN_j可以包括上采样层USL_j。

每个注意力控制网络中的上采样层可以接收网络CNN的输出层LO的输出特征图，并且根据对应的选定层的输出特征数据的大小执行相应的上采样。例如，在图2的示例中，注意力控制网络ACN_i中的上采样层USL_i接收网络CNN的输出层LO的输出特征数据FO，并且根据对应的选定层HL_i的输出特征数据F_i的大小执行上采样，并获得上采样结果UFO_i。同时，注意力控制网络ACN_j中的上采样层USL_j接收网络CNN的输出层LO的输出特征数据FO，并且根据对应的选定层HL_j的输出特征数据F_j的大小执行上采样，并获得上采样结果UFO_j。

在一个实施例中，每个注意力控制网络中的上采样层可以包括一个或多个解卷积层。在另外的实施例中，每个注意力控制网络中的上采样层也可以采用立方插值的方式对输出层的输出特征图执行相应的上采样。相比于解卷积运算，采用立方插值的方式执行上采样的效果更好并且速度更快。

然后，根据本公开的实施例的方法可以继续到步骤S130，以基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图。

为此，每个注意力控制网络还可以包括融合块。在图2的示例中，注意力控制网络ACN_i还可以包括融合块COMB_i，融合块COMB_i可以接收来自选定层HL_i的输出特征数据F_i和来自注意力控制网络ACN_i中的上采样层USL_i的上采样结果UFO_i，并且根据F_i和UFO_i来生成与选定层HL_i相对应的检测特征图DF_i。类似地，在图2的示例中，注意力控制网络ACN_j还可以包括融合块COMB_j，融合块COMB_j可以接收来自选定层HL_j的输出特征数据F_j和来自注意力控制网络ACN_j中的上采样层USL_j的上采样结果UFO_j，并且根据F_j和UFO_j来生成与选定层HL_j相对应的检测特征图DF_j。

图3示出根据本公开的实施例的注意力控制网络中的融合块的示例。在该示例中，注意力控制网络中的融合块COMB可以包括逐点相乘层PWM。逐点相乘层PWM对来自对应的选定层的输出特征图F和来自对应的上采样层的上采样结果UFO执行逐点相乘，并将所获得的检测特征图DF输出。

图4示出根据本公开的实施例的注意力控制网络中的融合块的另一个示例。在图4的示例中，来自对应的选定层的输出特征图F经由一个或多个卷积块提供给逐点相乘层PWM，并且来自对应的上采样层的上采样结果UFO经由一个或多个另外的卷积块提供给逐点相乘层PWM。每个卷积块可以包括一个卷积层、一个批量归一化层和一个激活层。例如，如图4所示，输出特征图F经由包括卷积层CONV1、批量归一化层BN1和激活层ReLU1的卷积块到达逐点相乘层PWM；上采样结果UFO经由包括卷积层CONV2、批量归一化层BN2和激活层ReLU2的卷积块和以及包括卷积层CONV3、批量归一化层BN3和激活层ReLU3的卷积块到达逐点相乘层PWM。

通过使输出特征图F和上采样结果UFO分别经由一个或多个卷积块到达逐点相乘层PWM，能够加速网络的训练并且能够避免或减少过拟合理现象的出现。

图5示出根据本公开的实施例的注意力控制网络中的融合块的另一个示例。在图5的示例中，与逐点相乘层PWM直接相邻的卷积块可以不包括激活层。例如，输出特征图F经由包括卷积层CONV1和批量归一化层BN1的卷积块到达逐点相乘层PWM，而上采样结果UFO经由包括卷积层CONV2、批量归一化层BN2和激活层ReLU2的卷积块和以及包括卷积层CONV3和批量归一化层BN3的卷积块到达逐点相乘层PWM。逐点相乘层PWM的输出提供给共用的激活层ReLU13而不是直接输出。在图5的示例中，经由共用的激活层ReLU13激活的特征图作为检测特征图DF输出。

图5的示例中的融合块和图4的示例中的融合块的最终输出结果相同。然而，由于使用共用的激活层ReLU13，图5的示例中的融合块中的网络层数更少，相应的运算量也更少。

图2的示例中的融合块COMB_i和融合块COMB_j可以采用图3至图5所示的任何一种结构，并且可以采用相同的结构，也可以采用不同的结果。另外，应当理解，在采用包括卷积块的融合块的情况下，每个融合块中的卷积块的数量(包括与输出特征图F相对应的卷积块的数量以及与上采样结果UFO相对应的另外的卷积块的数量)不局限于图4或图5所示的示例。

通过在注意力控制网络ACN_i和ACN_j中的相应的上采样和融合，能够在保留文本细节的同时过滤掉输出特征图F_i和F_j中的大量噪声。

另外，通过将网络CNN中具有多种尺度(或大小)的输出特征图F_j和F_j短接引出到网络CNN外部，并且分别通过相应的注意力控制网络ACN_i和ACN_j将F_i和F_j分别与网络CNN的输出层LO的输出特征图FO融合在一起，实现了多尺度注意力机制，由此能够仿照人类观测的直观感受，突出注意力所在的位置，有利于准确地检测文本在自然场景图像IMG中的位置。

在一个实施例，还可以在每个注意力控制网络和对应的后续网络之间设置相应的衔接网络，以便使每个注意力控制网络输出的检测特征图能够更平滑且不失真地传递给后面的处理。例如，如图2所示，可以将注意力控制网络ACN_i输出的检测特征图DF_i进一步地提供给对应的衔接网络LinkNet_i，并且将注意力控制网络ACN_j输出的检测特征图DF_j进一步地提供给对应的衔接网络LinkNet_j。

根据本公开的实施例的衔接网络可以包括一个或多个衔接块。图6示出根据本公开的实施例的衔接网络中的衔接块LinkB的示例，其中，衔接块LinkB可以包括使用WxH的卷积核的卷积层CONV、在卷积层CONV之后的批量归一化层BN和在批量归一化层BN之后的激活层ReLU。

图7示出根据本公开的实施例的衔接网络的一个示例。在该示例中，衔接网络LinkNet可以包括串联在一起的衔接块LinkB1、LinkB2和LinkB3，其中，LinkB1和LinkB3中的卷积层使用1x1的卷积核，LinkB2中的卷积层使用3x3的卷积核。衔接网络LinkNet还可以包括逐点相乘层PWM。在逐点相乘层PWM中，来自对应的注意力控制网络的检测特征图DF和检测特征图DF在依次通过衔接块LinkB1、LinkB2和LinkB3之后的结果通过逐点相乘而融合在一起，并生成检测特征图DF’。

图8示出根据本公开的实施例的衔接网络的另一个示例。在该示例中，衔接网络LinkNet可以包括衔接块LinkB1、LinkB2、LinkB3和LinkB4，其中，LinkB1、LinkB2和LinkB3串联在一起，LinkB1、LinkB3和LinkB4中的卷积层使用1x1的卷积核，LinkB2中的卷积层使用3x3的卷积核。衔接网络LinkNet还可以包括逐点相乘层PWM。在逐点相乘层PWM中，来自对应的注意力控制网络的检测特征图DF在依次通过衔接块LinkB1、LinkB2和LinkB3之后的结果和检测特征图DF在通过衔接块LinkB4的结果通过逐点相乘而融合在一起，并生成检测特征图DF’。

图9示出根据本公开的实施例的衔接网络的另一个示例。在该示例中，衔接网络LinkNet可以包括衔接块LinkB1、LinkB2、LinkB3、LinkB4、LinkB5、LinkB6、LinkB7和LinkB8，其中，LinkB1、LinkB2和LinkB3串联在一起，LinkB5、LinkB6和LinkB7串联在一起，LinkB1、LinkB3、LinkB4、LinkB5、LinkB7、LinkB8中的卷积层使用1x1的卷积核，LinkB2和LinkB6中的卷积层使用3x3的卷积核。

在图9的示例中，衔接网络LinkNet还可以包括逐点相乘层PWM1和PWM2。在逐点相乘层PWM1中，来自对应的注意力控制网络的检测特征图DF在依次通过衔接块LinkB1、LinkB2和LinkB3之后的结果和检测特征图DF在通过衔接块LinkB4的结果通过逐点相乘而融合在一起，融合的结果传递给衔接块LinkB5和LinkB8。在逐点相乘层PWM2中，来自PWM1的输出在进一步依次通过衔接块LinkB5、LinkB6和LinkB7之后的结果和来自PWM1的输出在进一步通过衔接块LinkB8的结果通过逐点相乘而融合在一起，并生成检测特征图DF’。

图10示出根据本公开的实施例的衔接网络的另一个示例。在该示例中，衔接网络LinkNet可以包括衔接块LinkB1、LinkB2、LinkB3、LinkB4、LinkB5、LinkB6、LinkB7和LinkB8，其中，LinkB2和LinkB3串联在一起，LinkB4和LinkB5串联在一起，LinkB6、LinkB7和LinkB8串联在一起，LinkB1、LinkB2、LinkB4、LinkB8中的卷积层可以使用1x1的卷积核，LinkB3中的卷积层可以使用3x3的卷积核，LinkB5中的卷积层可以使用5x5的卷积核，LinkB6中的卷积层可以使用1x3的卷积核，LinkB7中的卷积层可以使用3x1的卷积核。

在图10的示例中，衔接网络LinkNet还可以包括逐点相乘层PWM。来自对应的注意力控制网络的检测特征图DF分别通过由衔接块LinkB1形成的路径、由LinkB2和LinkB3形成的路径、由LinkB4和LinkB5形成的路径和由LinkB6至LinkB8形成路径到达逐点相乘层PWM。在逐点相乘层PWM中通过逐点相乘将来自不同路径的结果融合到一起并生成检测特征图DF’。

在不同的实施例中，可以根据对处理速度和精度的要求选择不同的衔接网络。例如，在有速度要求的情况下，可以采用图7所示的衔接网络；在需要改变检测特征图的大小的情况下，可以采用图8所示的衔接网络；在要检测的目标的尺寸比较大的情况下，可以采用图9所示的衔接网络；在要检测的目标的长宽比比较大的情况下，可以采用图10所示的衔接网络。每个衔接网络可以采样相同或不同的结构。

如前文所述，设置衔接网络能够提高信息交换的有效率。在另外的实施例中，也可以不设置这样的衔接网络，而是将每个注意力控制网络输出的检测特征图提供给后续网络。

例如，在图2的示例中，也可以不设置LinkNet_i和LinkNet_j，而是将ACN_i输出的DF_i直接提供给后续的RPN_i和DecNet_i，并且将ACN_j输出的DF_j直接提供给后续的RPN_j和DecNet_j。在这样的情况下，图2中的COMB_i的输出分别直接连接到RPN_i和DecNet_i，COMB_j的输出分别直接连接到RPN_j和DecNet_j，并且DF_i’和DF_j’分别是DF_i和DF_j。

另外，如图2所示，网络CNN的输出层LO的输出特征数据FO也可以作为一个检测特征图DF_O。

然后，图1的示例方法可以继续到步骤S140，以获得每个检测特征图(例如，图2中的DF_i、DF_j和DF_O)的与文本的位置有关的一个或多个区域建议框。

在一个实施例中，可以将每个检测特征图分别提供给对应的检测网络。每个检测网络可以是诸如SSD(Single Shot MultiBox Detector)这样的检测网络。一些实践数据表明，这样的检测网络处理速度快，但是对于一些较小的目标的检测效果不理想。

在另外的实施例中，可以采用两阶段式检测机制，即，首先获得每个检测特征图的相应的一个或多个候选区域建议框，然后将每个检测特征图和相应的一个或多个候选区域建议框提供给相应的检测网络以获得每个检测特征图的一个或多个区域建议框，从而确保在获得较高的处理速度的同时能够高效地实现对包括较小目标的各种目标的检测。在该实施例中，检测网络可以是诸如R-CNN(基于区域的卷积神经网络)、Fast R-CNN(快速的基于区域的卷积神经网络)、Faster R-CNN(更快速的基于区域的卷积神经网络)或SPPNet(空间金字塔池化网络)等不同的网络。

在采用两阶段式检测机制的情况下，在一个实施例中，可以采用对应的选择性搜索(Selective Search)网络来获得每个检测特征图的相应的一个或多个候选区域建议框。在另外的实施例中，可以将每个检测特征图分别提供给对应的区域建议网络(相比于选择性搜索网络，区域建议网络的处理效率更高)，以获得每个检测特征图的相应的一个或多个候选区域建议框。

例如，如图2所示，可以将检测特征图DF_i’提供到对应的区域建议网络RPN_i。区域建议网络RPN_i可以基于锚(Anchor)机制来为检测特征图DF_i’生成一个或多个候选区域建议框c_i1、c_i2、……、c_im(m≥1)。例如，在区域建议网络RPN_i中，可以从检测特征图DF_i’的左上角以预定的步长进行锚点滑动。然后，可以以锚点为中心，根据长宽比和面积(或尺寸)的不同组合来生成多个候选框，每个候选框所覆盖的区域不应当超出检测特征图DF_i’的范围。然后，可以根据每个候选框的置信度对所有的候选框进行排序，并且选择置信度最高的前m(例如，300)个候选框作为最终的候选区域建议框c_i1、c_i2、……、c_im输出。

类似地，在图2的示例中，检测特征图DF_j’被提供到对应的区域建议网络RPN_j并获得相应的一个或多个候选区域建议框c_j1、c_j2、……、c_jn(n≥1)，并且检测特征图DF_O被提供到对应的区域建议网络RPN_O并获得相应的一个或多个候选区域建议框c_O1、c_O2、……、c_Ok(k≥1)。

在两阶段式检测机制中，每个区域建议网络之后可以衔接对应的检测网络。例如，如图2所示，在区域建议网络RPN_i之后可以衔接对应的检测网络DecNet_i，在区域建议网络RPN_j之后可以衔接对应的检测网络DecNet_j，并且在区域建议网络RPN_O之后可以衔接对应的检测网络DecNet_O。

每个检测网络可以接收对应的检测特征图和来自对应的区域建议网络的一个或多个候选区域建议框作为相应的输入。例如，如图2所示，检测网络DecNet_i可以接收来自注意力控制网络ACN_i的检测特征图DF_i(在没有链接网络LinkNet_i的情况下)或者来自链接网络LinkNet_i的检测特征图DF_i，并且还接收来自对应的区域建议网络RPN_i的一个或多个候选区域建议框c_i1、c_i2、……、c_im；检测网络DecNet_j可以接收来自注意力控制网络ACN_j的检测特征图DF_j(在没有链接网络LinkNet_j的情况下)或者来自链接网络LinkNet_j的检测特征图DF_j，并且还接收来自对应的区域建议网络RPN_j的一个或多个候选区域建议框c_j1、c_j2、……、c_jn；并且检测网络DecNet_O可以接收作为网络CNN的输出层的输出特征图FO的检测特征图DF_O，并且还接收来自对应的区域建议网络RPN_O的一个或多个候选区域建议框c_O1、c_O2、……、c_Ok。

如前文所述，每个检测网络可以是诸如R-CNN、Fast R-CNN、Faster R-CNN或SPPNet等各种能够用于区域目标检测的网络。每个检测网络可以进一步检测所接收的每个候选区域建议框是否覆盖真正的文本内容，从而基于所接收的一个或多个候选区域建议框来确定出一个或多个区域建议框，并且计算出每个区域建议框的置信度。例如，如图2所示，检测网络DecNet_i可以输出一个或多个区域建议框r_i1、r_i2、……、r_im’，检测网络DecNet_j可以输出一个或多个区域建议框r_j1、r_j2、……、r_jn’，检测网络DecNet_O可以输出一个或多个区域建议框r_O1、r_O2、……、r_Ok’。

在一个实施例中，针对每个检测网络的输出，可以从每个检测网络输出的一个或多个区域建议框中进一步选择相应的置信度超过阈值(例如，0.3、0.4或者其他值)的区域建议框，并且对进一步选择出的区域建议框执行非极大值抑制(NMS)，以便去除重复部分。例如，对于检测网络DecNet_i输出的区域建议框r_i1、r_i2、……、r_im’，在该实施例中，可以检查每个区域建议框的置信度是否超过阈值，然后对区域建议框r_i1、r_i2、……、r_im’中置信度超过阈值的所有区域建议框执行非极大值抑制。类似地，对于检测网络DecNet_i输出的区域建议框r_j1、r_j2、……、r_jn，和/或检测网络DecNet_O输出的区域建议框r_O1、r_O2、……、r_Ok’，也可以执行类似的处理。在另外的实施例中，可以在每个检测网络中判断置信度和执行非极大值抑制的处理。

然后，图1的示例方法可以继续到步骤S150，使用所获得的每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，以确定文本在自然场景图像中的位置。

例如，在图2的示例中，分别来自不同分支上的检测网络DecNet_i、DecNet_j和DecNet_O的区域建议框r_i1、r_i2、……、r_im’、r_j1、r_j2、……、r_jn'和r_O1、r_O2、……、r_Ok’汇聚到融合层W。在融合层W中，针对来自不同尺度的分支的区域建议框，可以使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，并且确定文本在自然场景图像IMG中的位置POS。

例如，如果在融合层W接收到的区域建议框r_i1、r_i2、……、r_im’、r_j1、r_j2、……、r_jn’、r_O1、r_O2、……、r_Ok’的左上角的顶点的坐标分别为{x_ri1，y_ri1}、{x_ri2，y_ri2}、……、{x_rim’，y_rim’}、{x_rj1，y_rj1}、{x_rj2，Y_rj2}、……、{x_rjn’，y_rjn’}、{x_rO1，y_rO1}、{x_rO2，y_rO2}、……、{x_rOk’，y_rOk’}，并且相应的置信度分别为a_i1、a_i2、……、a_im’、a_i1、a_j2、……、a_jn’、a_O1、a_O2、……、a_Ok’，则文本在自然场景图像IMG中的位置的左上角的顶点的坐标{x_POs，y_POs}可以分别根据下面的等式1和2来确定：

在不同的实施例中，可以根据每个区域建议框的一个对角线上的两个顶点的坐标，或者每个区域建议框的四个顶点的坐标，或者每个区域建议框的一个顶点的坐标以及相应的宽度和高度，来确定文本在自然场景图像IMG中的位置POS。另外，也可以每个区域建议框的中心点的坐标以及相应的宽度和高度来确定文本在自然场景图像IMG中的位置POS。

如上所述，在根据本公开的实施例的方法中，从网络CNN中短接引出可以具有不同大小的特征图(例如，图2的示例中的F_i、F_j和FO)，并且使用对应的分支来分别进行处理。例如，针对图2的示例中的F_i，在对应的处理分支上可以包括对应的注意力控制网络ACN_i、可能的衔接网络LinkNet_i、区域建议网络RPN_i和检测网络DecNet_i。最后，可以将来自不同分支的处理结果融合到一起(例如，通过图2中的融合层W)。

可以使每个分支中的处理各有侧重。例如，可以使一个或多个分支侧重于对小目标的检测同时忽略对大目标的检测或过滤掉对大目标的检测结果，并且可以使另外的一个或多个分支侧重于对大目标的检测同时忽略对小目标的检测或过滤掉对小目标的检测结果，并且还可以使另外的一个或多个分支侧重于一般目标的检测并且保留所有的检测结果。例如，可以使一个或多个分支侧重于对一个尺寸范围的特征数据的检测，并且可以使另外的一个或多个分支侧重于对另外的尺寸范围的特征数据的检测。

通过采用多个分支分别各有侧重地进行处理并且最后融合来自多个分支的处理结果，能够以高召回率检测自然场景图像IMG中的文本的位置。例如，在ICDAR2013数据集上的对比实验表明，通常的本文检测方法或系统的文本检测的召回率最高可以达到92.74％，而根据本公开的实施例的方法或网络系统能够获得高达96.11％的召回率，同时F-measure值也可以达到90.06％。

在训练例如图2所示的网络系统的过程中，根据本公开的实施例的方法还可以包括：计算每个分支上的分类损失和回归损失；基于每个分支上的分类损失和回归损失来计算出每个分支上的分支损失；计算所有分支损失的平均值，作为整个网络系统的总损失；以及基于整个网络系统的总损失来调整网络CNN、每个分支上的注意力控制网络、每个分支上的可通的衔接网络、每个分支上的区域建议网络、每个分支上的检测网络中的一个或多个的网络参数。

在一个实施例中，在训练阶段，可以在每个检测网络中比较每个候选区域建议框和针对图像IMG中的文本预先标注的相应的真值框(ground truth bound)，以确定两者的偏差。然后，可以根据该偏差确定分类损失，并且可以使用该偏差作为监督项来调整每个候选区域建议框。然后，可以比较调整后的每个候选区域建议框和真值框以确定两者的偏差，并且可以根据该偏差来确定回归损失。

每个分支(例如，在图2的示例中，与F_i相对应的包括具有下标i的各个层或块或网络的分支，或者与F_j相对应的包括具有下标j的各个层或块或网络的分支，或者与FO相对应的包括具有下标O的各个层或块或网络的分支)上的分支损失可以根据下面的等式3来确定：

L(p，t，u，v)＝L_cls(p_u，t_u)+γL_loc(p_v，t_v) (等式3)

其中，p表示预测值，t表示真值，下标u和v分别表示分类和回归，L_cls(p_u，t_u)表示该分支上的分类损失，L_loc(p_v，t_u)表示该分支上的回归损失。另外，γ为平衡系数，可以是大于或等于0的任何值，用于定义分类损失和回归损失在分支损失中所占的比重。例如，当γ的值为1时，可以表示分类损失和回归损失在分支损失中所占的比重相同。

在一个实施例中，每个分支中的分类损失可以根据下面的等式4和5来确定：

其中，p_s表示与该分支上的一个候选区域建议框相关联的预测值，t_s表示与该分支上的该候选区域建议框相对应的真值框相关联的真值，c_num表示提供给该分支上的检测网络的候选区域建议框的总数量。

每个分支中的回归损失可以根据下面的等式6和7来确定：

L_loc(p，t)＝∑_{s∈{x，y，w，h}}smooth(p_s-t_s) (等式6)

其中，{x，y，w，h}表示根据前文所述的长宽比和面积(或尺寸)的不同组合所确定的候选区域建议框的集合，x和y定义候选区域建议框的中心(即锚点)的坐标，w和h定义候选区域建议框的宽度和高度。

在计算出每个分支的分支损失之后，可以根据下面的等式8进一步地计算出整个网络(例如，图2的示例中的整个网络)的总损失：

其中，branch_num为分支的数量。例如，在图2的示例中包括3个分支，分别是与F_i相对应的包括具有下标i的各个层或块或网络的分支、与F_j相对应的包括具有下标j的各个层或块或网络的分支以及与FO相对应的包括具有下标O的各个层或块或网络的分支。

另外，在训练过程中，针对每个分支上的区域建议网络和检测网络，可以选择自然场景图像IMG中与真值框的交并比大于0.7的实例作为正样本，并且可以选择自然场景图像IMG中与真值框的交并比小于0.3的实例作为负样本。

图11和图12示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的装置的示例。

图11所示的示例装置可以包括一个或多个处理器PU。处理器PU可以是具有数据处理能力和/或指令执行能力的任何形式的处理单元，例如通用CPU。在一个实施例中，处理器PU至少可以执行根据本公开的实施例的方法。

另外，如图11所示，根据本公开的实施例的装置还可以包括存储器MEM和I/O接口。

存储器MEM可以包括各种形式的计算机可读写存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪速存储器等。可读写存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。存储器MEM可以存储用于在被执行时执行根据本公开的实施例的方法的程序指令。

I/O接口可以用于向处理器PU提供参数或数据。例如，在训练阶段，可以经由I/O接口输出检测结果、分类损失、回归损失等数据，并且可以经由I/O接收自然场景图像以及例如来自设计者的网络调整参数等数据。例如，在测试或部署阶段，可以经由I/O接口接收自然场景图像，并且可以经由I/O接口输出检测结果。

图12所示的示例装置可以包括特征提取器FF、上采样器USMP、检测特征图生成器GEN、区域建议框获取器RP和定位器LOC。

特征提取器FF可以被配置为基于卷积神经网络来提取自然场景图像中与文本的位置有关的特征。在一个实施例中，特征提取器FF可以被配置为实现图1的示例方法的步骤S110。在一个实施例中，特征提取器FF可以采用卷积神经网络的硬件实现方式来实现。

上采样器USMP可以被配置为根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样。在一个实施例中，上采样器USMP可以被配置为实现图1的示例方法的步骤S120。

检测特征图生成器GEN可以被配置为基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图。在一个实施例中，检测特征图生成器GEN可以被配置为实现图1的示例方法的步骤S130。

在一个实施例中，检测特征图生成器GEN可以包括上采样器USMP，并且可以在检测特征图生成器GEN中实现每个分支上的注意力控制网络以及可能的衔接网络。由于注意力控制网络和可能的衔接网络也是基于卷积神经网络的网络，因此检测特征图生成器GEN也可以采用卷积神经网络的硬件实现方式来实现。

区域建议框获取器RP可以被配置为获得每个检测特征图的与文本的位置有关的一个或多个区域建议框。在一个实施例中，区域建议框获取器RP可以被配置为实现图1的示例方法的步骤S140。在一个实施例中，可以在区域建议框获取器RP中实现每个分支上的区域建议网络和检测网络。由于区域建议网络和检测网络也是基于卷积神经网络的网络，因此区域建议框获取器RP也可以采用卷积神经网络的硬件实现方式来实现。

定位器LOC可以被配置为使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，并且可以确定文本在自然场景图像中的位置。在一个实施例中，定位器LOC可以被配置为实现图1的示例方法的步骤S150。在一个实施例中，定位器LOC可以包括一个或多个加法器、一个或多个乘法器以及除法器。

应当理解，图11和图12所示的装置仅为示例。根据本公开的实施例的装置可以具有其他部件和/或结构。

另外，本公开的实施例还可以涉及一种计算机程序，该计算机程序包含在被执行时能够执行根据本公开的实施例的方法的指令。

另外，本公开的实施例还可以涉及一种基于卷积神经网络的网络结构或网络系统。该网络结构或网络系统的一个示例可以如图2所示。该网络结构或网络系统能够以高召回率检测自然场景图像中的文本的位置。

已经描述了本公开的一些实施例。应当理解，这些实施例仅作为示例而呈现，而不打算限制本申请的范围。可以在不脱离本申请的范围的情况下，在本文中所描述的方法和系统的形式上做出各种省略、替换和改变。例如，尽管处理或块以给定的次序呈现，但是替代的实施例可以以不同的次序执行具有这些步骤的处理或者以不同的次序采用具有这些块的系统，并且一些处理或块可以被删除、移动、添加、细分、组合和/或修改。这些处理或块中的每个可以以各种不同的方式来实现。另外，虽然处理或块有时被示为串行执行，但是替代地，这些处理或块也可以并行执行，或者可以在不同时间执行。

Claims

1.一种检测自然场景图像中的文本的位置的方法，包括：

将所述自然场景图像输入到卷积神经网络；

根据所述卷积神经网络中的隐藏层中的每个选定层的输出特征图的大小对所述卷积神经网络的输出层的输出特征图执行相应的上采样；

基于每个选定层的输出特征图和所述输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图；

获得每个检测特征图的与所述文本的位置有关的一个或多个区域建议框；以及

使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，以确定所述文本在所述自然场景图像中的位置。

2.根据权利要求1所述的方法，其中，对所述输出层的输出特征图执行相应的上采样包括：

对所述输出层的输出特征图执行立方插值。

3.根据权利要求1所述的方法，其中，每个选定层的输出特征图的大小与每个选定层在所述卷积神经网络中的相应的下一层的输出特征图的大小不同。

4.根据权利要求1所述的方法，还包括：

将所述输出层的输出特征图也作为一个检测特征图。

5.根据权利要求1所述的方法，其中，针对每个选定层的输出特征图，生成相应的检测特征图包括：

使选定层的输出特征图通过一个或多个第一卷积块以获得第一特征图，每个第一卷积块包括第一卷积层和在所述第一卷积层之后的第一批量归一化层；

使所述输出层的输出特征图的相应的上采样的结果通过一个或多个第二卷积块以获得第二特征图，每个第二卷积块包括第二卷积层和在所述第二卷积层之后的第二批量归一化层；以及

对所述第一特征图和所述第二特征图执行逐点相乘。

6.根据权利要求5所述的方法，其中，针对每个选定层的输出特征图，生成相应的检测特征图还包括：

将逐点相乘的结果输入到相应的衔接网络，每个相应的衔接网络包括多个衔接块，每个衔接块包括第三卷积层、在所述第三卷积层之后的第三批量归一化层和在所述第三批量归一化层之后的激活层；以及

将相应的衔接网络的输出作为相应的检测特征图。

7.根据权利要求6所述的方法，其中，所述多个衔接块包括第一衔接块、第二衔接块和第三衔接块，

所述第一衔接块和所述第三衔接块中的第三卷积层使用1x1的卷积核，所述第二衔接块中的第三卷积层使用3x3的卷积核，

所述第一衔接块、所述第二衔接块和所述第三衔接块串联在一起，

所述第一衔接块以提供给相应的衔接网络的输入作为相应的输入，并且

相应的衔接网络的输出是通过所述第三衔接块的输出和所述第一衔接块的输入执行逐点相乘所得到的结果。

8.根据权利要求6所述的方法，其中，所述多个衔接块包括第一衔接块、第二衔接块、第三衔接块和第四衔接块，

所述第一衔接块、所述第三衔接块和所述第四衔接块中的第三卷积层使用1x1的卷积核，所述第二衔接块中的第三卷积层使用3x3的卷积核，

所述第一衔接块和所述第四衔接块以提供给相应的衔接网络的输入作为相应的输入，并且

相应的衔接网络的输出是通过对所述第三衔接块和所述第四衔接块的输出执行逐点相乘所得到的结果。

9.根据权利要求6所述的方法，其中，所述多个衔接块包括第一衔接块、第二衔接块、第三衔接块、第四衔接块、第五衔接块、第六衔接块、第七衔接块和第八衔接块，

所述第一衔接块、所述第三衔接块、所述第四衔接块、所述第五衔接块、所述第七衔接块和所述第八衔接块中的第三卷积层使用1x1的卷积核，所述第二衔接块和所述第六衔接块中的第三卷积层使用3x3的卷积核，

所述第一衔接块、所述第二衔接块和所述第三衔接块串联在一起，所述第五衔接块、所述第六衔接块和所述第七衔接块串联在一起，

所述第一衔接块和所述第四衔接块以提供给相应的衔接网络的输入作为相应的输入，所述第五衔接块和所述第八衔接块使用对所述第三衔接块和第四衔接块的输出执行逐点相乘所得到的结果作为输入，并且

相应的衔接网络的输出是通过对所述第七衔接块和所述第八衔接块的输出执行逐点相乘所得到的结果。

10.根据权利要求6所述的方法，其中，所述多个衔接块包括第一衔接块、第二衔接块、第三衔接块、第四衔接块、第五衔接块、第六衔接块、第七衔接块和第八衔接块，

所述第一衔接块、所述第二衔接块、所述第四衔接块和所述第八衔接块中的第三卷积层使用1x1的卷积核，所述第三衔接块中的第三卷积层使用3x3的卷积核，所述第五衔接块中的第三卷积层使用5x5的卷积核，所述第六衔接块中的第三卷积层使用1x3的卷积核，所述第七衔接块中的第三卷积层使用3x1的卷积核，

所述第二衔接块和所述第三衔接块串联在一起，所述第四衔接块和所述第五衔接块串联在一起，所述第六衔接块、所述第七衔接块和所述第八衔接块串联在一起，

所述第一衔接块、所述第二衔接块、所述第四衔接块和所述第六衔接块以提供给相应的衔接网络的输入作为相应的输入，并且

相应的衔接网络的输出是通过对所述第一衔接块、所述第三衔接块、所述第五衔接块和所述第八衔接块的输出执行逐点相乘所得到的结果。

11.根据权利要求1所述的方法，其中，获得每个检测特征图的一个或多个区域建议框包括：

通过每个检测特征图的相应的区域建议网络来获得每个检测特征图的相应的一个或多个候选区域建议框；以及

将每个检测特征图和相应的一个或多个候选区域建议框提供给相应的检测网络以获得每个检测特征图的一个或多个区域建议框。

12.根据权利要求11所述的方法，其中，每个检测特征图的相应的检测网络包括基于区域的卷积神经网络、快速的基于区域的卷积神经网络、更快速的基于区域的卷积神经网络或空间金字塔池化网络。

13.根据权利要求11所述的方法，还包括：

对由每个检测特征图的相应的检测网络所输出的一个或多个区域建议框执行非极大值抑制，每个区域建议框的置信度均大于阈值。

14.根据权利要求11所述的方法，其中，针对每个检测特征图和相应的一个或多个候选区域建议框，所述方法还包括：

基于每个候选区域建议框与针对所述自然场景图像中的文本预先标注的真值框之间的第一偏差来确定分类损失；

基于每个候选区域建议框的第一偏差来调整每个候选区域建议框；

基于调整后的每个候选区域建议框与所述真值框之间的第二偏差来确定回归损失；以及

基于所述分类损失和所述回归损失来计算与每个检测特征图相关联的分支损失。

15.根据权利要求14所述的方法，其中，所述方法还包括：

计算所有分支损失的平均值；以及

基于所述平均值来调整所述卷积神经网络、所述区域建议网络和所述检测网络中的一个或多个的网络参数。

16.根据权利要求1所述的方法，其中，所述自然场景图像是通过对原始的自然场景图像执行预处理来生成的，所述预处理包括缩放、去中值和反转中的一个或多个。

17.根据权利要求1至16中的任一项所述的方法，其中，所述卷积神经网络包括基于PVANet的卷积神经网络、基于VGGNet的卷积神经网络或残差型卷积神经网络。

18.一种检测自然场景图像中的文本的位置的装置，包括：

一个或多个处理器，被配置为执行根据权利要求1至16中的任一项所述的方法。

19.一种非临时性存储介质，在其上存储有程序指令，所述程序指令在被执行时执行根据权利要求1至16中的任一项所述的方法。

20.一种检测自然场景图像中的文本的位置的装置，包括：

特征提取器，被配置为基于卷积神经网络来提取所述自然场景图像中与所述文本的位置有关的特征；

上采样器，被配置为根据所述卷积神经网络中的隐藏层中的每个选定层的输出特征图的大小对所述卷积神经网络的输出层的输出特征图执行相应的上采样；

检测特征图生成器，被配置为基于每个选定层的输出特征图和所述输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图；

区域建议框获取器，被配置为获得每个检测特征图的与所述文本的位置有关的一个或多个区域建议框；以及

定位器，被配置为使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均，以确定所述文本在所述自然场景图像中的位置。