CN110580462B - 一种基于非局部网络的自然场景文本检测方法和系统 - Google Patents

一种基于非局部网络的自然场景文本检测方法和系统 Download PDF

Info

Publication number
CN110580462B
CN110580462B CN201910811411.1A CN201910811411A CN110580462B CN 110580462 B CN110580462 B CN 110580462B CN 201910811411 A CN201910811411 A CN 201910811411A CN 110580462 B CN110580462 B CN 110580462B
Authority
CN
China
Prior art keywords
features
feature
text
size
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910811411.1A
Other languages
English (en)
Other versions
CN110580462A (zh
Inventor
姜军
解猛
周作禹
胡忠冰
曾雄梅
胡若澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910811411.1A priority Critical patent/CN110580462B/zh
Publication of CN110580462A publication Critical patent/CN110580462A/zh
Application granted granted Critical
Publication of CN110580462B publication Critical patent/CN110580462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于非局部网络的自然场景文本检测方法和系统,属于图像处理技术领域,方法包括:提取图片的多尺度特征,并使用非局部网络重构各个尺度特征,得到重构后的特征;利用重构后的特征产生文本的候选区域;根据候选区域提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标。本发明通过使用非局部网络重构各个尺度特征,能够有效地抑制文本检测结果中伪正样本的发生,由此解决现有技术存在将背景区域误判为文本目标的技术问题。

Description

一种基于非局部网络的自然场景文本检测方法和系统
技术领域
本发明属于图像处理技术领域,更具体地,涉及一种基于非局部网络的自然场景文本检测方法和系统。
背景技术
作为文字的一种表现形式,自然场景中的文本有着丰富且精确的高级语义信息,这些语义信息对于其周围场景的理解起到了十分重要的作用。正因为此,自然场景中文本信息的自动获取,在自动驾驶、即时翻译、机器人导航、工业自动化等领域具有广泛的应用前景。如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一,此任务包含文本检测和文本识别两个子任务,前者是实现后者的前提。
现有的基于两阶段的自然场景文本检测算法,在得到文本目标的候选区域后,需要进一步通过候选区域提取感兴趣区域,并对感兴趣区域进行文本和分文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标。由于感兴趣区域仅仅包含候选区域内部的局部信息,当一个背景区域和文本有着相近的特征时,分类器常常将其误判为文本目标。
由此可见,现有技术存在将背景区域误判为文本目标的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于非局部网络的自然场景文本检测方法和系统,由此解决现有技术存在将背景区域误判为文本目标的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于非局部网络的自然场景文本检测方法,包括如下步骤:
(1)提取图片的多尺度特征,并使用非局部网络重构各个尺度特征,得到重构后的特征;
(2)利用重构后的特征产生文本的候选区域;
(3)根据候选区域提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标。
进一步地,步骤(1)中重构前,提取图片的多尺度特征,构成多尺度特征图,通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。
进一步地,M≥2。
进一步地,步骤(1)中重构时,通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。
进一步地,重构包括如下步骤:
(11)多尺度特征分别通过3组1*1的卷积,分别形成Query特征、Key特征和Value特征,Query特征、Key特征、Value特征的尺寸大小分别为(C/N)*H*W、(C/N)*H*W、C*H*W;其中,C表示通道数,H表示高,W表示宽,N≥2;
(12)对Query特征、Key特征、Value特征进行变形或转置操作,变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/N)、(C/N)*HW、C*HW;
(13)对Query特征和Key特征进行矩阵相乘,并对相乘得到的结果按行进行softmax归一化操作,得到尺寸为HW*HW的权重矩阵;
(14)将步骤(13)中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W;
(15)对步骤(13)中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W,对Value特征按列计算均值后通过变形操作将尺寸调整至H*W,两个H*W的特征通过1*1的卷积,输出1*H*W的权重矩阵;
(16)将步骤(14)中的C*H*W的特征中的每一个通道,与步骤(15)中的1*H*W的权重矩阵按元素相乘,得到重构后的特征。
按照本发明的另一方面,提供了一种基于非局部网络的自然场景文本检测系统,包括:
特征重构模块,用于提取图片的多尺度特征,并使用非局部网络重构各个尺度特征,得到重构后的特征;
候选区域提取模块,用于利用重构后的特征产生文本的候选区域;
文本分类和回归模块,用于根据候选区域提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标。
进一步地,特征重构模块中重构前,提取图片的多尺度特征,构成多尺度特征图,通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。
进一步地,M≥2。
进一步地,特征重构模块中重构时,通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。
进一步地,重构包括:
第一模块,用于将多尺度特征分别通过3组1*1的卷积,分别形成Query特征、Key特征和Value特征,Query特征、Key特征、Value特征的尺寸大小分别为(C/N)*H*W、(C/N)*H*W、C*H*W;其中,C表示通道数,H表示高,W表示宽,N≥2;
第二模块,用于对Query特征、Key特征、Value特征进行变形或转置操作,变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/N)、(C/N)*HW、C*HW;
第三模块,用于对Query特征和Key特征进行矩阵相乘,并对相乘得到的结果按行进行softmax归一化操作,得到尺寸为HW*HW的权重矩阵;
第四模块,用于将第三模块中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W;
第五模块,用于对第三模块中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W,对Value特征按列计算均值后通过变形操作将尺寸调整至H*W,两个H*W的特征通过1*1的卷积,输出1*H*W的权重矩阵;
第六模块,用于将第四模块中的C*H*W的特征中的每一个通道,与第五模块中的1*H*W的权重矩阵按元素相乘,得到重构后的特征。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的基于非局部网络自然场景文本检测的方法,通过使用非局部网络重构各个尺度特征,能够有效地抑制文本检测结果中伪正样本的发生,由此解决现有技术存在将背景区域误判为文本目标的技术问题。
(2)本发明提供的基于非局部网络自然场景文本检测的方法,无需引入额外的可学习参数,由于在特征重构时加入了全局信息,使得后续提取的感兴趣区域具有全局上下文信息,加强了文本与文本目标之间的联系,提高了文本检测的精确率。
(3)本发明提供的基于非局部网络自然场景文本检测的方法,由于文本检测精确率的提高,使得自然场景文本检测系统的F1性能得到提升,同等实验条件下,本发明方法优于其他自然场景文本检测算法。
(4)本发明中Query特征、Key特征、Value特征均来自同一特征集合,能够在集合内部元素与元素之间建立联系,并且不受空间距离的影响。同时,本发明进一步利用了文本和背景的分布规律,使这种联系得到了加强。为了进一步降低显存的消耗和增加计算效率,本发明对Query特征、Key特征的通道数量和特征图分辨率进行缩减。
附图说明
图1是本发明实施例提供的基于自适应区域建议网络的自然场景文本检测方法的流程示意图;
图2是本发明实施例提供的详细流程示意图;
图3是本发明实施例提供的检测框架整体的网络结构图;
图4是本发明实施例提供的非局部网络的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供了一种基于非局部网络的自然场景文本检测方法,其目的在于通过构建非局部网络,在特征提取阶段向感兴趣区域中加入图片的全局信息,减少伪正样本的产生。
如图1所示,一种基于非局部网络的自然场景文本检测方法,包括如下步骤:
(1)提取图片的多尺度特征,并使用非局部网络重构各个尺度特征,得到重构后的特征;
(2)利用重构后的特征产生文本的候选区域;
(3)根据候选区域提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标。
进一步地,步骤(1)中重构前,提取图片的多尺度特征,构成多尺度特征图,通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。
进一步地,M≥2。
进一步地,步骤(1)中重构时,通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。
进一步地,重构包括如下步骤:
(11)多尺度特征分别通过3组1*1的卷积,分别形成Query特征、Key特征和Value特征,Query特征、Key特征、Value特征的尺寸大小分别为(C/N)*H*W、(C/N)*H*W、C*H*W;其中,C表示通道数,H表示高,W表示宽,N≥2;
(12)对Query特征、Key特征、Value特征进行变形或转置操作,变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/N)、(C/N)*HW、C*HW;
(13)对Query特征和Key特征进行矩阵相乘,并对相乘得到的结果按行进行softmax归一化操作,得到尺寸为HW*HW的权重矩阵;
(14)将步骤(13)中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W;
(15)对步骤(13)中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W,对Value特征按列计算均值后通过变形操作将尺寸调整至H*W,两个H*W的特征通过1*1的卷积,输出1*H*W的权重矩阵;
(16)将步骤(14)中的C*H*W的特征中的每一个通道,与步骤(15)中的1*H*W的权重矩阵按元素相乘,得到重构后的特征。
如图2所示,具体地:
一种基于非局部网络的自然场景文本检测方法,包括如下步骤:
(1)通过ResNet-50和FPN网络提取图片的多尺度特征,并使用非局部网络重构各个尺度特征,得到重构后的特征;
(2)将重构后的特征输入到RPN网络,产生文本的候选区域;
(3)对候选区域进行ROI Align,提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标。
如图3所示,从左至右,第一个虚线框内为特征提取的基础网络ResNet-50,第二个虚线框内为特征金字塔网络(FPN),从ResNet-50中获得多分辨率的特征并形成特征金字塔。第三个虚线框内为本发明所提出的基于自注意力机制的文本上下文捕获网络(TextContext Capture Network,TCCN)。TCCN从p2、p3、p4获取基础特征,并分别对p2进行4倍降采样(步长为2的3*3卷积+最大池化),p3进行2倍降采样(步长为2的3*3卷积),分别得到p2′、p3′,使得降采样后的特征图大小和p4尺寸相同。p4经过3*3卷积得到p4′。然后,将p2′,p3′,p4′分别送入非局部网络进行重构,将重构后的特征输入到RPN网络,产生文本的候选区域;对候选区域进行ROI Align,提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标的类别和位置。角点回归网络回归包围目标四边形的四个角点,共8坐标值。分类网络中2表示两种类别,分类和回归网络为2组1024*1*1的卷积。
如图4所示,非局部网络包括:尺寸大小为CxHxW的特征图送入到3组1*1,并分为3个支路。其中,第一个支路首先经过1*1的卷积,将通道数降为C/8,再经过变形和转置操作,形成尺寸为HW*(C/8)的Query特征;同样,第二个支路通过1*1的卷积降低通道数为C/8,再经过变形得到尺寸为(C/8)*HW的Key特征;第三个支路经过1*1的卷积,保持通道数量不变,经过变形操作得到C*HW的Value特征。然后将Query和Key进行矩阵相乘,并使用Softmax对结果进行归一化,得到尺寸大小为(HW)*(HW)的权重矩阵。权重矩阵记录了Query中的每一个位置和Key中所有位置的依赖关系,并以权重的方式表现出来。最后再将Value与权重矩阵进行矩阵相乘并将尺寸变形为C*H*W。
具体地,重构包括如下步骤:
(11)多尺度特征分别通过3组1*1的卷积,分别形成Query特征、Key特征和Value特征,Query特征、Key特征、Value特征的尺寸大小分别为(C/8)*H*W、(C/8)*H*W、C*H*W;其中,C表示通道数,H表示高,W表示宽;
(12)对Query特征、Key特征、Value特征进行变形或转置操作,变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/8)、(C/8)*HW、C*HW;
(13)对Query特征和Key特征进行矩阵相乘,并对相乘得到的结果按行进行softmax归一化操作,得到尺寸为HW*HW的权重矩阵;
(14)将步骤(13)中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W;
(15)对步骤(13)中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W,对Value特征按列计算均值后通过变形操作将尺寸调整至H*W,两个H*W的特征通过1*1的卷积,输出1*H*W的权重矩阵;
(16)将步骤(14)中的C*H*W的特征中的每一个通道,与步骤(15)中的1*H*W的权重矩阵按元素相乘,得到重构后的特征。
本发明提供的基于非局部网络自然场景文本检测的方法,通过使用非局部网络重构各个尺度特征,能够有效地抑制文本检测结果中伪正样本的发生,由此解决现有技术存在将背景区域误判为文本目标的技术问题。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于非局部网络的自然场景文本检测方法,其特征在于,包括如下步骤:
(1)提取图片的多尺度特征,并使用非局部网络重构各个尺度特征,得到重构后的特征;
(2)利用重构后的特征产生文本的候选区域;
(3)根据候选区域提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标;
所述重构包括如下步骤:
(11)多尺度特征分别通过3组1*1的卷积,分别形成Query特征、Key特征和Value特征,Query特征、Key特征、Value特征的尺寸大小分别为(C/N)*H*W、(C/N)*H*W、C*H*W;其中,C表示通道数,H表示高,W表示宽,N≥2;
(12)对Query特征、Key特征、Value特征进行变形或转置操作,变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/N)、(C/N)*HW、C*HW;
(13)对Query特征和Key特征进行矩阵相乘,并对相乘得到的结果按行进行softmax归一化操作,得到尺寸为HW*HW的权重矩阵;
(14)将步骤(13)中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W;
(15)对步骤(13)中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W,对Value特征按列计算均值后通过变形操作将尺寸调整至H*W,两个H*W的特征通过1*1的卷积,输出1*H*W的权重矩阵;
(16)将步骤(14)中的C*H*W的特征中的每一个通道,与步骤(15)中的1*H*W的权重矩阵按元素相乘,得到重构后的特征。
2.如权利要求1所述的一种基于非局部网络的自然场景文本检测方法,其特征在于,所述步骤(1)中重构前,提取图片的多尺度特征,构成多尺度特征图,通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。
3.如权利要求2所述的一种基于非局部网络的自然场景文本检测方法,其特征在于,所述M≥2。
4.如权利要求2所述的一种基于非局部网络的自然场景文本检测方法,其特征在于,所述步骤(1)中重构时,通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。
5.一种基于非局部网络的自然场景文本检测系统,其特征在于,包括:
特征重构模块,用于提取图片的多尺度特征,并使用非局部网络重构各个尺度特征,得到重构后的特征;
候选区域提取模块,用于利用重构后的特征产生文本的候选区域;
文本分类和回归模块,用于根据候选区域提取感兴趣区域,并通过分类和回归网络对感兴趣区域进行文本和非文本的分类以及位置和尺寸的调整,最终得到图像中的文本目标;
所述重构包括:
第一模块,用于将多尺度特征分别通过3组1*1的卷积,分别形成Query特征、Key特征和Value特征,Query特征、Key特征、Value特征的尺寸大小分别为(C/N)*H*W、(C/N)*H*W、C*H*W;其中,C表示通道数,H表示高,W表示宽,N≥2;
第二模块,用于对Query特征、Key特征、Value特征进行变形或转置操作,变形或转置后的Query特征、Key特征、Value特征的尺寸为HW*(C/N)、(C/N)*HW、C*HW;
第三模块,用于对Query特征和Key特征进行矩阵相乘,并对相乘得到的结果按行进行softmax归一化操作,得到尺寸为HW*HW的权重矩阵;
第四模块,用于将第三模块中的权重矩阵与Value特征进行矩阵相乘后通过变形操作将尺寸调整至C*H*W;
第五模块,用于对第三模块中的权重矩阵按列计算标准差后通过变形操作将尺寸调整至H*W,对Value特征按列计算均值后通过变形操作将尺寸调整至H*W,两个H*W的特征通过1*1的卷积,输出1*H*W的权重矩阵;
第六模块,用于将第四模块中的C*H*W的特征中的每一个通道,与第五模块中的1*H*W的权重矩阵按元素相乘,得到重构后的特征。
6.如权利要求5所述的一种基于非局部网络的自然场景文本检测系统,其特征在于,所述特征重构模块中重构前,提取图片的多尺度特征,构成多尺度特征图,通过卷积和池化操作将多尺度特征图的尺寸调整到图片大小的1/M。
7.如权利要求6所述的一种基于非局部网络的自然场景文本检测系统,其特征在于,所述M≥2。
8.如权利要求6所述的一种基于非局部网络的自然场景文本检测系统,其特征在于,所述特征重构模块中重构时,通过非局部网络对池化操作后的多尺度特征图中的每个像素加入全局信息。
CN201910811411.1A 2019-08-29 2019-08-29 一种基于非局部网络的自然场景文本检测方法和系统 Active CN110580462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910811411.1A CN110580462B (zh) 2019-08-29 2019-08-29 一种基于非局部网络的自然场景文本检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910811411.1A CN110580462B (zh) 2019-08-29 2019-08-29 一种基于非局部网络的自然场景文本检测方法和系统

Publications (2)

Publication Number Publication Date
CN110580462A CN110580462A (zh) 2019-12-17
CN110580462B true CN110580462B (zh) 2022-02-15

Family

ID=68812171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910811411.1A Active CN110580462B (zh) 2019-08-29 2019-08-29 一种基于非局部网络的自然场景文本检测方法和系统

Country Status (1)

Country Link
CN (1) CN110580462B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507353B (zh) * 2020-04-17 2023-10-03 新分享科技服务(深圳)有限公司 一种基于文字识别的中文字段检测方法及系统
CN117315702B (zh) * 2023-11-28 2024-02-23 山东正云信息科技有限公司 基于集合预测的文本检测方法、系统及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10679085B2 (en) * 2017-10-31 2020-06-09 University Of Florida Research Foundation, Incorporated Apparatus and method for detecting scene text in an image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Single-Shot Arbitrarily-Shaped Text Detector based on Context Attended Multi-Task Learning;Pengfei Wang et al.;《Computer Vision and Pattern Recognition》;20190815;1-9 *
基于深度学习的交通物体参与物实时识別研究;刘恩佑;《中国优秀硕士学位论文全文数据库信息科辑》;20190115;53-55 *
自然场景中的文本检测研究;帅靖文;《中国优秀硕士学位论文全文数据库信息科辑》;20180915;39-40 *

Also Published As

Publication number Publication date
CN110580462A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
WO2020238560A1 (zh) 视频目标跟踪方法、装置、计算机设备及存储介质
US10803554B2 (en) Image processing method and device
CN110717527B (zh) 结合空洞空间金字塔结构的目标检测模型确定方法
CN109344727B (zh) 身份证文本信息检测方法及装置、可读存储介质和终端
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN112750133A (zh) 计算机视觉训练系统和用于训练计算机视觉系统的方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN109614933B (zh) 一种基于确定性拟合的运动分割方法
CN111738344A (zh) 一种基于多尺度融合的快速目标检测方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN110866938B (zh) 一种全自动视频运动目标分割方法
JP2014164656A (ja) 画像処理方法およびプログラム
CN109657538B (zh) 基于上下文信息指导的场景分割方法和系统
CN111768415A (zh) 一种无量化池化的图像实例分割方法
CN110580462B (zh) 一种基于非局部网络的自然场景文本检测方法和系统
CN110598698A (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
Mo et al. PVDet: Towards pedestrian and vehicle detection on gigapixel-level images
US20230072445A1 (en) Self-supervised video representation learning by exploring spatiotemporal continuity
CN113657225B (zh) 一种目标检测方法
CN114219757A (zh) 一种基于改进Mask R-CNN的车辆智能定损方法
CN113469286A (zh) 一种基于区域卷积神经网络的航天器多局部构件检测方法
CN109492755B (zh) 图像处理方法、图像处理装置和计算机可读存储介质
CN113469287A (zh) 一种基于实例分割网络的航天器多局部构件检测方法
CN115393491A (zh) 一种基于实例分割和参考帧的水墨视频生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant