CN108154145B - 检测自然场景图像中的文本的位置的方法和装置 - Google Patents

检测自然场景图像中的文本的位置的方法和装置 Download PDF

Info

Publication number
CN108154145B
CN108154145B CN201810070773.5A CN201810070773A CN108154145B CN 108154145 B CN108154145 B CN 108154145B CN 201810070773 A CN201810070773 A CN 201810070773A CN 108154145 B CN108154145 B CN 108154145B
Authority
CN
China
Prior art keywords
layer
output
network
feature map
convolutional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810070773.5A
Other languages
English (en)
Other versions
CN108154145A (zh
Inventor
周子键
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Robotics Technology Research and Development Co Ltd
Original Assignee
Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Robotics Technology Research and Development Co Ltd filed Critical Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority to CN201810070773.5A priority Critical patent/CN108154145B/zh
Publication of CN108154145A publication Critical patent/CN108154145A/zh
Application granted granted Critical
Publication of CN108154145B publication Critical patent/CN108154145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种检测自然场景图像中的文本的位置的方法和装置。该方法包括:将自然场景图像输入到卷积神经网络;根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样;基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图;获得每个检测特征图的与文本的位置有关的一个或多个区域建议框;以及使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均。通过该方法和装置能够以高召回率检测自然场景图像中的文本的位置。

Description

检测自然场景图像中的文本的位置的方法和装置
技术领域
本公开总体上涉及人工智能的技术领域,并且具体地涉及检测自然场景图像中的文本的位置的方法和装置。
背景技术
自然场景图像可能包含丰富的文本信息,这样的文本信息对于理解由自然场景图像所表现的内容往往非常重要。提取和识别这些文本信息首先需要准确地检测出文本在自然场景图像中的确切位置。期望能够以高召回率检测出文本在自然场景图像中的位置。
发明内容
一方面,提供了一种检测自然场景图像中的文本的位置的方法,该方法可以包括:将自然场景图像输入到卷积神经网络;根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样;基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图;获得每个检测特征图的与文本的位置有关的一个或多个区域建议框;以及使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,以确定文本在自然场景图像中的位置。
另一方面,还提供了一种检测自然场景图像中的文本的位置的装置,该装置可以包括被配置为执行上述方法的一个或多个处理器。
另一方面,还提供了一种非临时性存储介质,在其上存储有程序指令,该程序指令在被执行时执行上述方法。
另一方面,还提供了一种检测自然场景图像中的文本的位置的装置,该装置可以包括:特征提取器,被配置为基于卷积神经网络来提取自然场景图像中与文本的位置有关的特征;上采样器,被配置为根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样;检测特征图生成器,被配置为基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图;区域建议框获取器,被配置为获得每个检测特征图的与文本的位置有关的一个或多个区域建议框;以及定位器,被配置为使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,以确定文本在自然场景图像中的位置。
通过根据本公开的实施例的方法和装置,能够以高召回率检测自然场景图像中的文本的位置。
附图说明
图1示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的示例方法的流程图。
图2示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的网络系统的示例。
图3示出根据本公开的实施例的注意力控制网络中的结合块的示例。
图4示出根据本公开的实施例的注意力控制网络中的结合块的示例。
图5示出根据本公开的实施例的注意力控制网络中的结合块的示例。
图6示出根据本公开的实施例的衔接网络中的衔接块的示例。
图7示出根据本公开的实施例的衔接网络的示例。
图8示出根据本公开的实施例的衔接网络的示例。
图9示出根据本公开的实施例的衔接网络的示例。
图10示出根据本公开的实施例的衔接网络的示例。
图11示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的装置的示例。
图12示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的装置的示例。
具体实施方式
在一些情况下,例如,在文本信息在整个自然场景图像中所占的比例比较小的情况下,在将自然场景图像经过卷积神经网络的处理之后所获得的特征图的大小可能远小于原始图像。例如,在使用通常的VGGNet型、GoogLeNet型或ResNet型的卷积神经网络的情况下,所获得特征图的大小往往只有原始图像的1/16。这样的特征图可能无法充分地表现文本信息或者可能根本无法表现出文本信息,导致检测效果劣化,甚至可能根本无法检测到自然场景图像中的文本的存在。
可以放大自然场景图像,以便于检测所占的比例比较小的文本。这样的简单处理可能导致卷积神经网络中的计算量的急剧增加,相应地,处理速度或效率也将显著劣化。另外,原本所占比例比较大的文本将由于原始图像的感受野范围的变小而碎片化,在文本有一定程度的倾斜的情况下更是如此。另外,这样的处理方式无法对不同情景下的文本检测做出统一且适合的处理。
期望能够克服或者减轻由于图像中的文本的尺寸变化大、位置不同、稠密稀疏不确定、可能有遮挡等原因而造成的文本检测漏检率高的问题,并且能够以通用且高效的方式来检测自然场景图像中的文本的位置。
图1示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的示例方法的流程图。
如图1所示,根据本公开的实施例的示例方法可以包括:
步骤S110,将包含文本信息的自然场景图像输入到卷积神经网络;
步骤S120,根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样;
步骤S130,基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图;
步骤S140,获得每个检测特征图的与文本的位置有关的一个或多个区域建议框;以及
步骤S150,使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,以确定文本在自然场景图像中的位置。
图2示出根据本公开的实施例的可以实现上述方法的网络系统的示例。下面结合图2来描述图1所示的示例方法的细节。
在图1的示例方法的步骤S110中,将自然场景图像IMG输入到卷积神经网络CNN中,以便提取特征,例如与图像IMG中的文本相关的诸如文本的边界、纹理等特征以及其他特征。
网络CNN要提取图像IMG的哪些特征可以由网络CNN的设计者来决定,本公开对此不做限制。
在不同的实施例中,可以根据需要选择不同类型的卷积神经网络作为网络CNN,也可以基于不同类型的卷积神经网络来构建网络CNN。例如,可以选择PVANet作为本公开的实施例中的网络CNN或者基于PVANet来构建本公开的实施例中的网络CNN。PVANet中使用大量的长条形卷积核。使用或基于PVANet的网络CNN能够有效地提取信息,同时对文本的边界特征比较敏感。在另外的示例中,也可以使用或基于例如VGGNet或ResNet(残差型卷积神经网络)。
在一个实施例中,输入到网络CNN的自然场景图像可以是经过预处理的图像。在不同的实施例中,预处理可以包括缩放、去中值和反转等处理中的一个或多个。
如图2所示,根据本公开的实施例的网络CNN可以包括输入层LI、输出层LO和多个隐藏层(例如,图2中的HLi、HLi+1、HLj和HLj+1)。可以在图1的示例方法的步骤S120中选择在网络CNN中的一个或多个选定层(例如,图2中的HLi和HLj),并且将每个选定层的输出特征图(例如,图2中的Fi和Fj)短接引出到网络CNN的外部。
在一个实施例中,可以使每个选定层的输出特征图的大小与每个选定层在网络CNN中的相应的下一层的输出特征图的大小不同。例如,在图2的示例中,隐藏层HLi的输出特征图Fi的大小与HLi+1的输出特征图的大小不同,并且隐藏层HLj的输出特征图Fj的大小与HLj+1的输出特征图的大小不同。相应地,可以选择隐藏层HLi和HLj作为选定层,并且将隐藏层HLi的输出特征图Fi和隐藏层HLj的输出特征图Fj短接引出到网络CNN的外部。
在一个实施例中,可以从网络CNN的输入层LI开始在网络CNN的前馈方向上逐层地遍历的每个层,并且可以确定每个层的输出特征图的大小,将整个网络CNN划分成多个部分,使得每个部分中的所有层的输出特征图的大小均相同,前后相邻的两个部分的输出特征图的大小不同。然后,可以分别选择每个部分中的一个层(例如,该部分中的最先层、最后层或者任何一个中间层)作为一个选定层,并将被选择为选定层的层的输出特征图短接引出的网络CNN的外部。在另外的实施例中,可以分别选择每个部分中的一个或多个层,并将所选择的层的输出特征图短接引出的网络CNN的外部。在另外的实施例中,可以基于一个或多个部分(而非全部)来确定选定层。
在另外的实施例中,由于在设计网络CNN时就可以确定网络CNN中的哪个层或哪些层的输出特征图的大小与相应的前一层的输出特征图的大小不同,所以可以在设计网络CNN时就确定在步骤S120中的每个选定层,而不必在步骤S120中执行上述选择。
然后,可以将每个选定层的输出特征图短接引出网络CNN的外部并且提供给每个选定层的对应的注意力控制网络。例如,在图2的示例中,网络CNN中选定层HLi的输出特征图Fi在提供给HLi在网络CNN中的下一层HLi+1的同时还被短接引出到网络CNN的外部并提供给对应的注意力控制网络ACNi,网络CNN中选定层HLj的输出特征图Fj在提供给HLj在网络CNN中的下一层HLj+1的同时还被短接引出到网络CNN的外部并提供给对应的注意力控制网络ACNj
每个注意力控制网络可以包括上采样层。在图2的示例中,与选定层HLi相对应的注意力控制网络ACNi可以包括上采样层USLi,与选定层HLj相对应的注意力控制网络ACNj可以包括上采样层USLj
每个注意力控制网络中的上采样层可以接收网络CNN的输出层LO的输出特征图,并且根据对应的选定层的输出特征数据的大小执行相应的上采样。例如,在图2的示例中,注意力控制网络ACNi中的上采样层USLi接收网络CNN的输出层LO的输出特征数据FO,并且根据对应的选定层HLi的输出特征数据Fi的大小执行上采样,并获得上采样结果UFOi。同时,注意力控制网络ACNj中的上采样层USLj接收网络CNN的输出层LO的输出特征数据FO,并且根据对应的选定层HLj的输出特征数据Fj的大小执行上采样,并获得上采样结果UFOj
在一个实施例中,每个注意力控制网络中的上采样层可以包括一个或多个解卷积层。在另外的实施例中,每个注意力控制网络中的上采样层也可以采用立方插值的方式对输出层的输出特征图执行相应的上采样。相比于解卷积运算,采用立方插值的方式执行上采样的效果更好并且速度更快。
然后,根据本公开的实施例的方法可以继续到步骤S130,以基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图。
为此,每个注意力控制网络还可以包括融合块。在图2的示例中,注意力控制网络ACNi还可以包括融合块COMBi,融合块COMBi可以接收来自选定层HLi的输出特征数据Fi和来自注意力控制网络ACNi中的上采样层USLi的上采样结果UFOi,并且根据Fi和UFOi来生成与选定层HLi相对应的检测特征图DFi。类似地,在图2的示例中,注意力控制网络ACNj还可以包括融合块COMBj,融合块COMBj可以接收来自选定层HLj的输出特征数据Fj和来自注意力控制网络ACNj中的上采样层USLj的上采样结果UFOj,并且根据Fj和UFOj来生成与选定层HLj相对应的检测特征图DFj
图3示出根据本公开的实施例的注意力控制网络中的融合块的示例。在该示例中,注意力控制网络中的融合块COMB可以包括逐点相乘层PWM。逐点相乘层PWM对来自对应的选定层的输出特征图F和来自对应的上采样层的上采样结果UFO执行逐点相乘,并将所获得的检测特征图DF输出。
图4示出根据本公开的实施例的注意力控制网络中的融合块的另一个示例。在图4的示例中,来自对应的选定层的输出特征图F经由一个或多个卷积块提供给逐点相乘层PWM,并且来自对应的上采样层的上采样结果UFO经由一个或多个另外的卷积块提供给逐点相乘层PWM。每个卷积块可以包括一个卷积层、一个批量归一化层和一个激活层。例如,如图4所示,输出特征图F经由包括卷积层CONV1、批量归一化层BN1和激活层ReLU1的卷积块到达逐点相乘层PWM;上采样结果UFO经由包括卷积层CONV2、批量归一化层BN2和激活层ReLU2的卷积块和以及包括卷积层CONV3、批量归一化层BN3和激活层ReLU3的卷积块到达逐点相乘层PWM。
通过使输出特征图F和上采样结果UFO分别经由一个或多个卷积块到达逐点相乘层PWM,能够加速网络的训练并且能够避免或减少过拟合理现象的出现。
图5示出根据本公开的实施例的注意力控制网络中的融合块的另一个示例。在图5的示例中,与逐点相乘层PWM直接相邻的卷积块可以不包括激活层。例如,输出特征图F经由包括卷积层CONV1和批量归一化层BN1的卷积块到达逐点相乘层PWM,而上采样结果UFO经由包括卷积层CONV2、批量归一化层BN2和激活层ReLU2的卷积块和以及包括卷积层CONV3和批量归一化层BN3的卷积块到达逐点相乘层PWM。逐点相乘层PWM的输出提供给共用的激活层ReLU13而不是直接输出。在图5的示例中,经由共用的激活层ReLU13激活的特征图作为检测特征图DF输出。
图5的示例中的融合块和图4的示例中的融合块的最终输出结果相同。然而,由于使用共用的激活层ReLU13,图5的示例中的融合块中的网络层数更少,相应的运算量也更少。
图2的示例中的融合块COMBi和融合块COMBj可以采用图3至图5所示的任何一种结构,并且可以采用相同的结构,也可以采用不同的结果。另外,应当理解,在采用包括卷积块的融合块的情况下,每个融合块中的卷积块的数量(包括与输出特征图F相对应的卷积块的数量以及与上采样结果UFO相对应的另外的卷积块的数量)不局限于图4或图5所示的示例。
通过在注意力控制网络ACNi和ACNj中的相应的上采样和融合,能够在保留文本细节的同时过滤掉输出特征图Fi和Fj中的大量噪声。
另外,通过将网络CNN中具有多种尺度(或大小)的输出特征图Fj和Fj短接引出到网络CNN外部,并且分别通过相应的注意力控制网络ACNi和ACNj将Fi和Fj分别与网络CNN的输出层LO的输出特征图FO融合在一起,实现了多尺度注意力机制,由此能够仿照人类观测的直观感受,突出注意力所在的位置,有利于准确地检测文本在自然场景图像IMG中的位置。
在一个实施例,还可以在每个注意力控制网络和对应的后续网络之间设置相应的衔接网络,以便使每个注意力控制网络输出的检测特征图能够更平滑且不失真地传递给后面的处理。例如,如图2所示,可以将注意力控制网络ACNi输出的检测特征图DFi进一步地提供给对应的衔接网络LinkNeti,并且将注意力控制网络ACNj输出的检测特征图DFj进一步地提供给对应的衔接网络LinkNetj
根据本公开的实施例的衔接网络可以包括一个或多个衔接块。图6示出根据本公开的实施例的衔接网络中的衔接块LinkB的示例,其中,衔接块LinkB可以包括使用WxH的卷积核的卷积层CONV、在卷积层CONV之后的批量归一化层BN和在批量归一化层BN之后的激活层ReLU。
图7示出根据本公开的实施例的衔接网络的一个示例。在该示例中,衔接网络LinkNet可以包括串联在一起的衔接块LinkB1、LinkB2和LinkB3,其中,LinkB1和LinkB3中的卷积层使用1x1的卷积核,LinkB2中的卷积层使用3x3的卷积核。衔接网络LinkNet还可以包括逐点相乘层PWM。在逐点相乘层PWM中,来自对应的注意力控制网络的检测特征图DF和检测特征图DF在依次通过衔接块LinkB1、LinkB2和LinkB3之后的结果通过逐点相乘而融合在一起,并生成检测特征图DF’。
图8示出根据本公开的实施例的衔接网络的另一个示例。在该示例中,衔接网络LinkNet可以包括衔接块LinkB1、LinkB2、LinkB3和LinkB4,其中,LinkB1、LinkB2和LinkB3串联在一起,LinkB1、LinkB3和LinkB4中的卷积层使用1x1的卷积核,LinkB2中的卷积层使用3x3的卷积核。衔接网络LinkNet还可以包括逐点相乘层PWM。在逐点相乘层PWM中,来自对应的注意力控制网络的检测特征图DF在依次通过衔接块LinkB1、LinkB2和LinkB3之后的结果和检测特征图DF在通过衔接块LinkB4的结果通过逐点相乘而融合在一起,并生成检测特征图DF’。
图9示出根据本公开的实施例的衔接网络的另一个示例。在该示例中,衔接网络LinkNet可以包括衔接块LinkB1、LinkB2、LinkB3、LinkB4、LinkB5、LinkB6、LinkB7和LinkB8,其中,LinkB1、LinkB2和LinkB3串联在一起,LinkB5、LinkB6和LinkB7串联在一起,LinkB1、LinkB3、LinkB4、LinkB5、LinkB7、LinkB8中的卷积层使用1x1的卷积核,LinkB2和LinkB6中的卷积层使用3x3的卷积核。
在图9的示例中,衔接网络LinkNet还可以包括逐点相乘层PWM1和PWM2。在逐点相乘层PWM1中,来自对应的注意力控制网络的检测特征图DF在依次通过衔接块LinkB1、LinkB2和LinkB3之后的结果和检测特征图DF在通过衔接块LinkB4的结果通过逐点相乘而融合在一起,融合的结果传递给衔接块LinkB5和LinkB8。在逐点相乘层PWM2中,来自PWM1的输出在进一步依次通过衔接块LinkB5、LinkB6和LinkB7之后的结果和来自PWM1的输出在进一步通过衔接块LinkB8的结果通过逐点相乘而融合在一起,并生成检测特征图DF’。
图10示出根据本公开的实施例的衔接网络的另一个示例。在该示例中,衔接网络LinkNet可以包括衔接块LinkB1、LinkB2、LinkB3、LinkB4、LinkB5、LinkB6、LinkB7和LinkB8,其中,LinkB2和LinkB3串联在一起,LinkB4和LinkB5串联在一起,LinkB6、LinkB7和LinkB8串联在一起,LinkB1、LinkB2、LinkB4、LinkB8中的卷积层可以使用1x1的卷积核,LinkB3中的卷积层可以使用3x3的卷积核,LinkB5中的卷积层可以使用5x5的卷积核,LinkB6中的卷积层可以使用1x3的卷积核,LinkB7中的卷积层可以使用3x1的卷积核。
在图10的示例中,衔接网络LinkNet还可以包括逐点相乘层PWM。来自对应的注意力控制网络的检测特征图DF分别通过由衔接块LinkB1形成的路径、由LinkB2和LinkB3形成的路径、由LinkB4和LinkB5形成的路径和由LinkB6至LinkB8形成路径到达逐点相乘层PWM。在逐点相乘层PWM中通过逐点相乘将来自不同路径的结果融合到一起并生成检测特征图DF’。
在不同的实施例中,可以根据对处理速度和精度的要求选择不同的衔接网络。例如,在有速度要求的情况下,可以采用图7所示的衔接网络;在需要改变检测特征图的大小的情况下,可以采用图8所示的衔接网络;在要检测的目标的尺寸比较大的情况下,可以采用图9所示的衔接网络;在要检测的目标的长宽比比较大的情况下,可以采用图10所示的衔接网络。每个衔接网络可以采样相同或不同的结构。
如前文所述,设置衔接网络能够提高信息交换的有效率。在另外的实施例中,也可以不设置这样的衔接网络,而是将每个注意力控制网络输出的检测特征图提供给后续网络。
例如,在图2的示例中,也可以不设置LinkNeti和LinkNetj,而是将ACNi输出的DFi直接提供给后续的RPNi和DecNeti,并且将ACNj输出的DFj直接提供给后续的RPNj和DecNetj。在这样的情况下,图2中的COMBi的输出分别直接连接到RPNi和DecNeti,COMBj的输出分别直接连接到RPNj和DecNetj,并且DFi’和DFj’分别是DFi和DFj
另外,如图2所示,网络CNN的输出层LO的输出特征数据FO也可以作为一个检测特征图DFO
然后,图1的示例方法可以继续到步骤S140,以获得每个检测特征图(例如,图2中的DFi、DFj和DFO)的与文本的位置有关的一个或多个区域建议框。
在一个实施例中,可以将每个检测特征图分别提供给对应的检测网络。每个检测网络可以是诸如SSD(Single Shot MultiBox Detector)这样的检测网络。一些实践数据表明,这样的检测网络处理速度快,但是对于一些较小的目标的检测效果不理想。
在另外的实施例中,可以采用两阶段式检测机制,即,首先获得每个检测特征图的相应的一个或多个候选区域建议框,然后将每个检测特征图和相应的一个或多个候选区域建议框提供给相应的检测网络以获得每个检测特征图的一个或多个区域建议框,从而确保在获得较高的处理速度的同时能够高效地实现对包括较小目标的各种目标的检测。在该实施例中,检测网络可以是诸如R-CNN(基于区域的卷积神经网络)、Fast R-CNN(快速的基于区域的卷积神经网络)、Faster R-CNN(更快速的基于区域的卷积神经网络)或SPPNet(空间金字塔池化网络)等不同的网络。
在采用两阶段式检测机制的情况下,在一个实施例中,可以采用对应的选择性搜索(Selective Search)网络来获得每个检测特征图的相应的一个或多个候选区域建议框。在另外的实施例中,可以将每个检测特征图分别提供给对应的区域建议网络(相比于选择性搜索网络,区域建议网络的处理效率更高),以获得每个检测特征图的相应的一个或多个候选区域建议框。
例如,如图2所示,可以将检测特征图DFi’提供到对应的区域建议网络RPNi。区域建议网络RPNi可以基于锚(Anchor)机制来为检测特征图DFi’生成一个或多个候选区域建议框ci1、ci2、……、cim(m≥1)。例如,在区域建议网络RPNi中,可以从检测特征图DFi’的左上角以预定的步长进行锚点滑动。然后,可以以锚点为中心,根据长宽比和面积(或尺寸)的不同组合来生成多个候选框,每个候选框所覆盖的区域不应当超出检测特征图DFi’的范围。然后,可以根据每个候选框的置信度对所有的候选框进行排序,并且选择置信度最高的前m(例如,300)个候选框作为最终的候选区域建议框ci1、ci2、……、cim输出。
类似地,在图2的示例中,检测特征图DFj’被提供到对应的区域建议网络RPNj并获得相应的一个或多个候选区域建议框cj1、cj2、……、cjn(n≥1),并且检测特征图DFO被提供到对应的区域建议网络RPNO并获得相应的一个或多个候选区域建议框cO1、cO2、……、cOk(k≥1)。
在两阶段式检测机制中,每个区域建议网络之后可以衔接对应的检测网络。例如,如图2所示,在区域建议网络RPNi之后可以衔接对应的检测网络DecNeti,在区域建议网络RPNj之后可以衔接对应的检测网络DecNetj,并且在区域建议网络RPNO之后可以衔接对应的检测网络DecNetO
每个检测网络可以接收对应的检测特征图和来自对应的区域建议网络的一个或多个候选区域建议框作为相应的输入。例如,如图2所示,检测网络DecNeti可以接收来自注意力控制网络ACNi的检测特征图DFi(在没有链接网络LinkNeti的情况下)或者来自链接网络LinkNeti的检测特征图DFi,并且还接收来自对应的区域建议网络RPNi的一个或多个候选区域建议框ci1、ci2、……、cim;检测网络DecNetj可以接收来自注意力控制网络ACNj的检测特征图DFj(在没有链接网络LinkNetj的情况下)或者来自链接网络LinkNetj的检测特征图DFj,并且还接收来自对应的区域建议网络RPNj的一个或多个候选区域建议框cj1、cj2、……、cjn;并且检测网络DecNetO可以接收作为网络CNN的输出层的输出特征图FO的检测特征图DFO,并且还接收来自对应的区域建议网络RPNO的一个或多个候选区域建议框cO1、cO2、……、cOk
如前文所述,每个检测网络可以是诸如R-CNN、Fast R-CNN、Faster R-CNN或SPPNet等各种能够用于区域目标检测的网络。每个检测网络可以进一步检测所接收的每个候选区域建议框是否覆盖真正的文本内容,从而基于所接收的一个或多个候选区域建议框来确定出一个或多个区域建议框,并且计算出每个区域建议框的置信度。例如,如图2所示,检测网络DecNeti可以输出一个或多个区域建议框ri1、ri2、……、rim’,检测网络DecNetj可以输出一个或多个区域建议框rj1、rj2、……、rjn’,检测网络DecNetO可以输出一个或多个区域建议框rO1、rO2、……、rOk’
在一个实施例中,针对每个检测网络的输出,可以从每个检测网络输出的一个或多个区域建议框中进一步选择相应的置信度超过阈值(例如,0.3、0.4或者其他值)的区域建议框,并且对进一步选择出的区域建议框执行非极大值抑制(NMS),以便去除重复部分。例如,对于检测网络DecNeti输出的区域建议框ri1、ri2、……、rim’,在该实施例中,可以检查每个区域建议框的置信度是否超过阈值,然后对区域建议框ri1、ri2、……、rim’中置信度超过阈值的所有区域建议框执行非极大值抑制。类似地,对于检测网络DecNeti输出的区域建议框rj1、rj2、……、rjn,和/或检测网络DecNetO输出的区域建议框rO1、rO2、……、rOk’,也可以执行类似的处理。在另外的实施例中,可以在每个检测网络中判断置信度和执行非极大值抑制的处理。
然后,图1的示例方法可以继续到步骤S150,使用所获得的每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,以确定文本在自然场景图像中的位置。
例如,在图2的示例中,分别来自不同分支上的检测网络DecNeti、DecNetj和DecNetO的区域建议框ri1、ri2、……、rim’、rj1、rj2、……、rjn'和rO1、rO2、……、rOk’汇聚到融合层W。在融合层W中,针对来自不同尺度的分支的区域建议框,可以使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,并且确定文本在自然场景图像IMG中的位置POS。
例如,如果在融合层W接收到的区域建议框ri1、ri2、……、rim’、rj1、rj2、……、rjn’、rO1、rO2、……、rOk’的左上角的顶点的坐标分别为{xri1,yri1}、{xri2,yri2}、……、{xrim’,yrim’}、{xrj1,yrj1}、{xrj2,Yrj2}、……、{xrjn’,yrjn’}、{xrO1,yrO1}、{xrO2,yrO2}、……、{xrOk’,yrOk’},并且相应的置信度分别为ai1、ai2、……、aim’、ai1、aj2、……、ajn’、aO1、aO2、……、aOk’,则文本在自然场景图像IMG中的位置的左上角的顶点的坐标{xPOs,yPOs}可以分别根据下面的等式1和2来确定:
Figure BDA0001557299700000121
Figure BDA0001557299700000122
在不同的实施例中,可以根据每个区域建议框的一个对角线上的两个顶点的坐标,或者每个区域建议框的四个顶点的坐标,或者每个区域建议框的一个顶点的坐标以及相应的宽度和高度,来确定文本在自然场景图像IMG中的位置POS。另外,也可以每个区域建议框的中心点的坐标以及相应的宽度和高度来确定文本在自然场景图像IMG中的位置POS。
如上所述,在根据本公开的实施例的方法中,从网络CNN中短接引出可以具有不同大小的特征图(例如,图2的示例中的Fi、Fj和FO),并且使用对应的分支来分别进行处理。例如,针对图2的示例中的Fi,在对应的处理分支上可以包括对应的注意力控制网络ACNi、可能的衔接网络LinkNeti、区域建议网络RPNi和检测网络DecNeti。最后,可以将来自不同分支的处理结果融合到一起(例如,通过图2中的融合层W)。
可以使每个分支中的处理各有侧重。例如,可以使一个或多个分支侧重于对小目标的检测同时忽略对大目标的检测或过滤掉对大目标的检测结果,并且可以使另外的一个或多个分支侧重于对大目标的检测同时忽略对小目标的检测或过滤掉对小目标的检测结果,并且还可以使另外的一个或多个分支侧重于一般目标的检测并且保留所有的检测结果。例如,可以使一个或多个分支侧重于对一个尺寸范围的特征数据的检测,并且可以使另外的一个或多个分支侧重于对另外的尺寸范围的特征数据的检测。
通过采用多个分支分别各有侧重地进行处理并且最后融合来自多个分支的处理结果,能够以高召回率检测自然场景图像IMG中的文本的位置。例如,在ICDAR2013数据集上的对比实验表明,通常的本文检测方法或系统的文本检测的召回率最高可以达到92.74%,而根据本公开的实施例的方法或网络系统能够获得高达96.11%的召回率,同时F-measure值也可以达到90.06%。
在训练例如图2所示的网络系统的过程中,根据本公开的实施例的方法还可以包括:计算每个分支上的分类损失和回归损失;基于每个分支上的分类损失和回归损失来计算出每个分支上的分支损失;计算所有分支损失的平均值,作为整个网络系统的总损失;以及基于整个网络系统的总损失来调整网络CNN、每个分支上的注意力控制网络、每个分支上的可通的衔接网络、每个分支上的区域建议网络、每个分支上的检测网络中的一个或多个的网络参数。
在一个实施例中,在训练阶段,可以在每个检测网络中比较每个候选区域建议框和针对图像IMG中的文本预先标注的相应的真值框(ground truth bound),以确定两者的偏差。然后,可以根据该偏差确定分类损失,并且可以使用该偏差作为监督项来调整每个候选区域建议框。然后,可以比较调整后的每个候选区域建议框和真值框以确定两者的偏差,并且可以根据该偏差来确定回归损失。
每个分支(例如,在图2的示例中,与Fi相对应的包括具有下标i的各个层或块或网络的分支,或者与Fj相对应的包括具有下标j的各个层或块或网络的分支,或者与FO相对应的包括具有下标O的各个层或块或网络的分支)上的分支损失可以根据下面的等式3来确定:
L(p,t,u,v)=Lcls(pu,tu)+γLloc(pv,tv) (等式3)
其中,p表示预测值,t表示真值,下标u和v分别表示分类和回归,Lcls(pu,tu)表示该分支上的分类损失,Lloc(pv,tu)表示该分支上的回归损失。另外,γ为平衡系数,可以是大于或等于0的任何值,用于定义分类损失和回归损失在分支损失中所占的比重。例如,当γ的值为1时,可以表示分类损失和回归损失在分支损失中所占的比重相同。
在一个实施例中,每个分支中的分类损失可以根据下面的等式4和5来确定:
Figure BDA0001557299700000131
Figure BDA0001557299700000132
其中,ps表示与该分支上的一个候选区域建议框相关联的预测值,ts表示与该分支上的该候选区域建议框相对应的真值框相关联的真值,c_num表示提供给该分支上的检测网络的候选区域建议框的总数量。
每个分支中的回归损失可以根据下面的等式6和7来确定:
Lloc(p,t)=∑s∈{x,y,w,h}smooth(ps-ts) (等式6)
Figure BDA0001557299700000141
其中,{x,y,w,h}表示根据前文所述的长宽比和面积(或尺寸)的不同组合所确定的候选区域建议框的集合,x和y定义候选区域建议框的中心(即锚点)的坐标,w和h定义候选区域建议框的宽度和高度。
在计算出每个分支的分支损失之后,可以根据下面的等式8进一步地计算出整个网络(例如,图2的示例中的整个网络)的总损失:
Figure BDA0001557299700000142
其中,branch_num为分支的数量。例如,在图2的示例中包括3个分支,分别是与Fi相对应的包括具有下标i的各个层或块或网络的分支、与Fj相对应的包括具有下标j的各个层或块或网络的分支以及与FO相对应的包括具有下标O的各个层或块或网络的分支。
另外,在训练过程中,针对每个分支上的区域建议网络和检测网络,可以选择自然场景图像IMG中与真值框的交并比大于0.7的实例作为正样本,并且可以选择自然场景图像IMG中与真值框的交并比小于0.3的实例作为负样本。
图11和图12示出根据本公开的实施例的用于检测自然场景图像中的文本的位置的装置的示例。
图11所示的示例装置可以包括一个或多个处理器PU。处理器PU可以是具有数据处理能力和/或指令执行能力的任何形式的处理单元,例如通用CPU。在一个实施例中,处理器PU至少可以执行根据本公开的实施例的方法。
另外,如图11所示,根据本公开的实施例的装置还可以包括存储器MEM和I/O接口。
存储器MEM可以包括各种形式的计算机可读写存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪速存储器等。可读写存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。存储器MEM可以存储用于在被执行时执行根据本公开的实施例的方法的程序指令。
I/O接口可以用于向处理器PU提供参数或数据。例如,在训练阶段,可以经由I/O接口输出检测结果、分类损失、回归损失等数据,并且可以经由I/O接收自然场景图像以及例如来自设计者的网络调整参数等数据。例如,在测试或部署阶段,可以经由I/O接口接收自然场景图像,并且可以经由I/O接口输出检测结果。
图12所示的示例装置可以包括特征提取器FF、上采样器USMP、检测特征图生成器GEN、区域建议框获取器RP和定位器LOC。
特征提取器FF可以被配置为基于卷积神经网络来提取自然场景图像中与文本的位置有关的特征。在一个实施例中,特征提取器FF可以被配置为实现图1的示例方法的步骤S110。在一个实施例中,特征提取器FF可以采用卷积神经网络的硬件实现方式来实现。
上采样器USMP可以被配置为根据卷积神经网络中的每个选定层的输出特征图的大小对卷积神经网络的输出层的输出特征图执行相应的上采样。在一个实施例中,上采样器USMP可以被配置为实现图1的示例方法的步骤S120。
检测特征图生成器GEN可以被配置为基于每个选定层的输出特征图和输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图。在一个实施例中,检测特征图生成器GEN可以被配置为实现图1的示例方法的步骤S130。
在一个实施例中,检测特征图生成器GEN可以包括上采样器USMP,并且可以在检测特征图生成器GEN中实现每个分支上的注意力控制网络以及可能的衔接网络。由于注意力控制网络和可能的衔接网络也是基于卷积神经网络的网络,因此检测特征图生成器GEN也可以采用卷积神经网络的硬件实现方式来实现。
区域建议框获取器RP可以被配置为获得每个检测特征图的与文本的位置有关的一个或多个区域建议框。在一个实施例中,区域建议框获取器RP可以被配置为实现图1的示例方法的步骤S140。在一个实施例中,可以在区域建议框获取器RP中实现每个分支上的区域建议网络和检测网络。由于区域建议网络和检测网络也是基于卷积神经网络的网络,因此区域建议框获取器RP也可以采用卷积神经网络的硬件实现方式来实现。
定位器LOC可以被配置为使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,并且可以确定文本在自然场景图像中的位置。在一个实施例中,定位器LOC可以被配置为实现图1的示例方法的步骤S150。在一个实施例中,定位器LOC可以包括一个或多个加法器、一个或多个乘法器以及除法器。
应当理解,图11和图12所示的装置仅为示例。根据本公开的实施例的装置可以具有其他部件和/或结构。
另外,本公开的实施例还可以涉及一种计算机程序,该计算机程序包含在被执行时能够执行根据本公开的实施例的方法的指令。
另外,本公开的实施例还可以涉及一种基于卷积神经网络的网络结构或网络系统。该网络结构或网络系统的一个示例可以如图2所示。该网络结构或网络系统能够以高召回率检测自然场景图像中的文本的位置。
已经描述了本公开的一些实施例。应当理解,这些实施例仅作为示例而呈现,而不打算限制本申请的范围。可以在不脱离本申请的范围的情况下,在本文中所描述的方法和系统的形式上做出各种省略、替换和改变。例如,尽管处理或块以给定的次序呈现,但是替代的实施例可以以不同的次序执行具有这些步骤的处理或者以不同的次序采用具有这些块的系统,并且一些处理或块可以被删除、移动、添加、细分、组合和/或修改。这些处理或块中的每个可以以各种不同的方式来实现。另外,虽然处理或块有时被示为串行执行,但是替代地,这些处理或块也可以并行执行,或者可以在不同时间执行。

Claims (20)

1.一种检测自然场景图像中的文本的位置的方法,包括:
将所述自然场景图像输入到卷积神经网络;
根据所述卷积神经网络中的隐藏层中的每个选定层的输出特征图的大小对所述卷积神经网络的输出层的输出特征图执行相应的上采样;
基于每个选定层的输出特征图和所述输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图;
获得每个检测特征图的与所述文本的位置有关的一个或多个区域建议框;以及
使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,以确定所述文本在所述自然场景图像中的位置。
2.根据权利要求1所述的方法,其中,对所述输出层的输出特征图执行相应的上采样包括:
对所述输出层的输出特征图执行立方插值。
3.根据权利要求1所述的方法,其中,每个选定层的输出特征图的大小与每个选定层在所述卷积神经网络中的相应的下一层的输出特征图的大小不同。
4.根据权利要求1所述的方法,还包括:
将所述输出层的输出特征图也作为一个检测特征图。
5.根据权利要求1所述的方法,其中,针对每个选定层的输出特征图,生成相应的检测特征图包括:
使选定层的输出特征图通过一个或多个第一卷积块以获得第一特征图,每个第一卷积块包括第一卷积层和在所述第一卷积层之后的第一批量归一化层;
使所述输出层的输出特征图的相应的上采样的结果通过一个或多个第二卷积块以获得第二特征图,每个第二卷积块包括第二卷积层和在所述第二卷积层之后的第二批量归一化层;以及
对所述第一特征图和所述第二特征图执行逐点相乘。
6.根据权利要求5所述的方法,其中,针对每个选定层的输出特征图,生成相应的检测特征图还包括:
将逐点相乘的结果输入到相应的衔接网络,每个相应的衔接网络包括多个衔接块,每个衔接块包括第三卷积层、在所述第三卷积层之后的第三批量归一化层和在所述第三批量归一化层之后的激活层;以及
将相应的衔接网络的输出作为相应的检测特征图。
7.根据权利要求6所述的方法,其中,所述多个衔接块包括第一衔接块、第二衔接块和第三衔接块,
所述第一衔接块和所述第三衔接块中的第三卷积层使用1x1的卷积核,所述第二衔接块中的第三卷积层使用3x3的卷积核,
所述第一衔接块、所述第二衔接块和所述第三衔接块串联在一起,
所述第一衔接块以提供给相应的衔接网络的输入作为相应的输入,并且
相应的衔接网络的输出是通过所述第三衔接块的输出和所述第一衔接块的输入执行逐点相乘所得到的结果。
8.根据权利要求6所述的方法,其中,所述多个衔接块包括第一衔接块、第二衔接块、第三衔接块和第四衔接块,
所述第一衔接块、所述第三衔接块和所述第四衔接块中的第三卷积层使用1x1的卷积核,所述第二衔接块中的第三卷积层使用3x3的卷积核,
所述第一衔接块、所述第二衔接块和所述第三衔接块串联在一起,
所述第一衔接块和所述第四衔接块以提供给相应的衔接网络的输入作为相应的输入,并且
相应的衔接网络的输出是通过对所述第三衔接块和所述第四衔接块的输出执行逐点相乘所得到的结果。
9.根据权利要求6所述的方法,其中,所述多个衔接块包括第一衔接块、第二衔接块、第三衔接块、第四衔接块、第五衔接块、第六衔接块、第七衔接块和第八衔接块,
所述第一衔接块、所述第三衔接块、所述第四衔接块、所述第五衔接块、所述第七衔接块和所述第八衔接块中的第三卷积层使用1x1的卷积核,所述第二衔接块和所述第六衔接块中的第三卷积层使用3x3的卷积核,
所述第一衔接块、所述第二衔接块和所述第三衔接块串联在一起,所述第五衔接块、所述第六衔接块和所述第七衔接块串联在一起,
所述第一衔接块和所述第四衔接块以提供给相应的衔接网络的输入作为相应的输入,所述第五衔接块和所述第八衔接块使用对所述第三衔接块和第四衔接块的输出执行逐点相乘所得到的结果作为输入,并且
相应的衔接网络的输出是通过对所述第七衔接块和所述第八衔接块的输出执行逐点相乘所得到的结果。
10.根据权利要求6所述的方法,其中,所述多个衔接块包括第一衔接块、第二衔接块、第三衔接块、第四衔接块、第五衔接块、第六衔接块、第七衔接块和第八衔接块,
所述第一衔接块、所述第二衔接块、所述第四衔接块和所述第八衔接块中的第三卷积层使用1x1的卷积核,所述第三衔接块中的第三卷积层使用3x3的卷积核,所述第五衔接块中的第三卷积层使用5x5的卷积核,所述第六衔接块中的第三卷积层使用1x3的卷积核,所述第七衔接块中的第三卷积层使用3x1的卷积核,
所述第二衔接块和所述第三衔接块串联在一起,所述第四衔接块和所述第五衔接块串联在一起,所述第六衔接块、所述第七衔接块和所述第八衔接块串联在一起,
所述第一衔接块、所述第二衔接块、所述第四衔接块和所述第六衔接块以提供给相应的衔接网络的输入作为相应的输入,并且
相应的衔接网络的输出是通过对所述第一衔接块、所述第三衔接块、所述第五衔接块和所述第八衔接块的输出执行逐点相乘所得到的结果。
11.根据权利要求1所述的方法,其中,获得每个检测特征图的一个或多个区域建议框包括:
通过每个检测特征图的相应的区域建议网络来获得每个检测特征图的相应的一个或多个候选区域建议框;以及
将每个检测特征图和相应的一个或多个候选区域建议框提供给相应的检测网络以获得每个检测特征图的一个或多个区域建议框。
12.根据权利要求11所述的方法,其中,每个检测特征图的相应的检测网络包括基于区域的卷积神经网络、快速的基于区域的卷积神经网络、更快速的基于区域的卷积神经网络或空间金字塔池化网络。
13.根据权利要求11所述的方法,还包括:
对由每个检测特征图的相应的检测网络所输出的一个或多个区域建议框执行非极大值抑制,每个区域建议框的置信度均大于阈值。
14.根据权利要求11所述的方法,其中,针对每个检测特征图和相应的一个或多个候选区域建议框,所述方法还包括:
基于每个候选区域建议框与针对所述自然场景图像中的文本预先标注的真值框之间的第一偏差来确定分类损失;
基于每个候选区域建议框的第一偏差来调整每个候选区域建议框;
基于调整后的每个候选区域建议框与所述真值框之间的第二偏差来确定回归损失;以及
基于所述分类损失和所述回归损失来计算与每个检测特征图相关联的分支损失。
15.根据权利要求14所述的方法,其中,所述方法还包括:
计算所有分支损失的平均值;以及
基于所述平均值来调整所述卷积神经网络、所述区域建议网络和所述检测网络中的一个或多个的网络参数。
16.根据权利要求1所述的方法,其中,所述自然场景图像是通过对原始的自然场景图像执行预处理来生成的,所述预处理包括缩放、去中值和反转中的一个或多个。
17.根据权利要求1至16中的任一项所述的方法,其中,所述卷积神经网络包括基于PVANet的卷积神经网络、基于VGGNet的卷积神经网络或残差型卷积神经网络。
18.一种检测自然场景图像中的文本的位置的装置,包括:
一个或多个处理器,被配置为执行根据权利要求1至16中的任一项所述的方法。
19.一种非临时性存储介质,在其上存储有程序指令,所述程序指令在被执行时执行根据权利要求1至16中的任一项所述的方法。
20.一种检测自然场景图像中的文本的位置的装置,包括:
特征提取器,被配置为基于卷积神经网络来提取所述自然场景图像中与所述文本的位置有关的特征;
上采样器,被配置为根据所述卷积神经网络中的隐藏层中的每个选定层的输出特征图的大小对所述卷积神经网络的输出层的输出特征图执行相应的上采样;
检测特征图生成器,被配置为基于每个选定层的输出特征图和所述输出层的输出特征图的相应的上采样的结果来生成每个选定层的输出特征图的相应的检测特征图;
区域建议框获取器,被配置为获得每个检测特征图的与所述文本的位置有关的一个或多个区域建议框;以及
定位器,被配置为使用每个区域建议框的置信度作为权重来计算所有的区域建议框的坐标的加权平均,以确定所述文本在所述自然场景图像中的位置。
CN201810070773.5A 2018-01-24 2018-01-24 检测自然场景图像中的文本的位置的方法和装置 Active CN108154145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810070773.5A CN108154145B (zh) 2018-01-24 2018-01-24 检测自然场景图像中的文本的位置的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810070773.5A CN108154145B (zh) 2018-01-24 2018-01-24 检测自然场景图像中的文本的位置的方法和装置

Publications (2)

Publication Number Publication Date
CN108154145A CN108154145A (zh) 2018-06-12
CN108154145B true CN108154145B (zh) 2020-05-19

Family

ID=62459062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810070773.5A Active CN108154145B (zh) 2018-01-24 2018-01-24 检测自然场景图像中的文本的位置的方法和装置

Country Status (1)

Country Link
CN (1) CN108154145B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101897A (zh) * 2018-07-20 2018-12-28 中国科学院自动化研究所 水下机器人的目标检测方法、系统及相关设备
CN109284760B (zh) * 2018-08-10 2021-01-12 杭州群核信息技术有限公司 一种基于深度卷积神经网络的家具检测方法及装置
JP7000586B2 (ja) * 2018-08-31 2022-01-19 オリンパス株式会社 データ処理システムおよびデータ処理方法
CN109726712A (zh) * 2018-11-13 2019-05-07 平安科技(深圳)有限公司 文字识别方法、装置及存储介质、服务器
CN109559300A (zh) * 2018-11-19 2019-04-02 上海商汤智能科技有限公司 图像处理方法、电子设备及计算机可读存储介质
CN111259878A (zh) * 2018-11-30 2020-06-09 中移(杭州)信息技术有限公司 一种检测文本的方法和设备
CN109711401B (zh) * 2018-12-03 2023-05-26 广东工业大学 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN109753959B (zh) * 2018-12-21 2022-05-13 西北工业大学 基于自适应多尺度特征融合的路面交通标志检测方法
CN110032997B (zh) * 2019-01-07 2021-02-19 武汉大学 一种基于图像分割的自然场景文本定位方法
CN109886986B (zh) * 2019-01-23 2020-09-08 北京航空航天大学 一种基于多分支卷积神经网络的皮肤镜图像分割方法
CN111488977B (zh) * 2019-01-25 2023-11-07 北京地平线机器人技术研发有限公司 神经网络模型训练方法和装置
CN109871798B (zh) * 2019-02-01 2021-06-29 浙江大学 一种基于卷积神经网络的遥感影像建筑物提取方法
CN109902693A (zh) * 2019-02-16 2019-06-18 太原理工大学 一种基于多注意力空间金字塔特征图像识别方法
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110163208B (zh) * 2019-05-22 2021-06-29 长沙学院 一种基于深度学习的场景文字检测方法和系统
WO2020237188A1 (en) * 2019-05-23 2020-11-26 Google Llc Fully attentional computer vision
CN110298348B (zh) * 2019-06-12 2020-04-28 苏州中科天启遥感科技有限公司 遥感影像建筑物样本区域提取方法及系统、存储介质、设备
CN110580462B (zh) * 2019-08-29 2022-02-15 华中科技大学 一种基于非局部网络的自然场景文本检测方法和系统
CN110598698B (zh) * 2019-08-29 2022-02-15 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110807452A (zh) * 2019-10-11 2020-02-18 上海上湖信息技术有限公司 预测模型构建方法、装置、系统及银行卡卡号识别方法
CN111476226B (zh) * 2020-02-29 2022-08-30 新华三大数据技术有限公司 一种文本定位方法、装置及模型训练方法
CN112633287B (zh) * 2020-12-25 2024-04-26 中国矿业大学 一种面向矿井多源异构图文信息的文本识别方法及装置
CN113076814B (zh) * 2021-03-15 2022-02-25 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN113222064A (zh) * 2021-05-31 2021-08-06 苏州晗林信息技术发展有限公司 一种图像目标对象实时检测方法、系统、终端及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631426A (zh) * 2015-12-29 2016-06-01 中国科学院深圳先进技术研究院 对图片进行文本检测的方法及装置
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN106934397A (zh) * 2017-03-13 2017-07-07 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备
CN107203606A (zh) * 2017-05-17 2017-09-26 西北工业大学 基于卷积神经网络的自然场景下文本检测与识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631426A (zh) * 2015-12-29 2016-06-01 中国科学院深圳先进技术研究院 对图片进行文本检测的方法及装置
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN106650725A (zh) * 2016-11-29 2017-05-10 华南理工大学 基于全卷积神经网络的候选文本框生成和文本检测方法
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN106934397A (zh) * 2017-03-13 2017-07-07 北京市商汤科技开发有限公司 图像处理方法、装置及电子设备
CN107203606A (zh) * 2017-05-17 2017-09-26 西北工业大学 基于卷积神经网络的自然场景下文本检测与识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Cascaded Segmentation-Detection Networks for Word-Level Text Spotting;Siyang Qin 等;《arXiv》;20170403;1-7 *
Deep Direct Regression for Multi-Oriented Scene Text Detection;Wenhao He 等;《ICCV 2017》;20171029;745-753 *
PixelLink: Detecting Scene Text via Instance Segmentation;Dan Deng 等;《arXiv》;20180104;1-8 *
Single Shot Text Detector with Regional Attention;Pan He 等;《arXiv》;20170901;1-9 *
适用于文字检测的候选框提取算法;朱盈盈 等;《数据采集与处理》;20171115;第32卷(第6期);1097-1106 *

Also Published As

Publication number Publication date
CN108154145A (zh) 2018-06-12

Similar Documents

Publication Publication Date Title
CN108154145B (zh) 检测自然场景图像中的文本的位置的方法和装置
KR102326256B1 (ko) 고정밀도 이미지를 분석하는 딥러닝 네트워크의 학습에 이용하기 위한 트레이닝 이미지를 오토 라벨링하기 위한 방법 및 이를 이용한 오토 라벨링 장치
CN106295678B (zh) 神经网络训练与构建方法和装置以及目标检测方法和装置
WO2017096758A1 (zh) 图像分类方法、电子设备和存储介质
US9542621B2 (en) Spatial pyramid pooling networks for image processing
CN111144242B (zh) 一种三维目标检测方法、装置及终端
US9330442B2 (en) Method of reducing noise in image and image processing apparatus using the same
US11386637B2 (en) Method and apparatus for detecting object
US20180181796A1 (en) Image processing method and apparatus
WO2016054778A1 (en) Generic object detection in images
US10445910B2 (en) Generating apparatus, generating method, and non-transitory computer readable storage medium
KR102476022B1 (ko) 얼굴검출 방법 및 그 장치
CN106971178A (zh) 行人检测和再识别的方法及装置
US20200202542A1 (en) Systems and methods for determining depth information in two-dimensional images
US20220076119A1 (en) Device and method of training a generative neural network
CN112348116B (zh) 利用空间上下文的目标检测方法、装置和计算机设备
CN113591719B (zh) 一种自然场景任意形状文本检测方法、装置和训练方法
CN115631112B (zh) 一种基于深度学习的建筑轮廓矫正方法及装置
CN111814754A (zh) 面向夜间场景的单帧图像行人检测方法和装置
US11538139B2 (en) Method and apparatus with image processing
CN107967691B (zh) 一种视觉里程计算方法和装置
US10229345B2 (en) Apparatus and method for processing textured image
CN112528899B (zh) 基于隐含深度信息恢复的图像显著性物体检测方法及系统
CN112241967A (zh) 目标跟踪方法、装置、介质和设备
US11636698B2 (en) Image processing method and apparatus with neural network adjustment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant