CN110598698A - 基于自适应区域建议网络的自然场景文本检测方法和系统 - Google Patents

基于自适应区域建议网络的自然场景文本检测方法和系统 Download PDF

Info

Publication number
CN110598698A
CN110598698A CN201910800835.8A CN201910800835A CN110598698A CN 110598698 A CN110598698 A CN 110598698A CN 201910800835 A CN201910800835 A CN 201910800835A CN 110598698 A CN110598698 A CN 110598698A
Authority
CN
China
Prior art keywords
target
text
network
training
width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910800835.8A
Other languages
English (en)
Other versions
CN110598698B (zh
Inventor
姜军
解猛
周作禹
胡忠冰
曾雄梅
胡若澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910800835.8A priority Critical patent/CN110598698B/zh
Publication of CN110598698A publication Critical patent/CN110598698A/zh
Application granted granted Critical
Publication of CN110598698B publication Critical patent/CN110598698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于自适应区域建议网络的自然场景文本检测方法和系统,属于图像处理技术领域,包括:对自然场景文本数据集进行标注,得到训练集;构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,进而得到训练好的网络模型。将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框。本发明克服锚点框机制缺陷、检测方法性能佳、文本的召回率高。

Description

基于自适应区域建议网络的自然场景文本检测方法和系统
技术领域
本发明属于图像处理技术领域,更具体地,涉及一种基于自适应区域建议网络的自然场景文本检测方法和系统。
背景技术
作为文字的一种表现形式,自然场景中的文本有着丰富且精确的高级语义信息,这些语义信息对于其周围场景的理解起到了十分重要的作用。正因为此,自然场景中文本信息的自动获取,在自动驾驶、即时翻译、机器人导航、工业自动化等领域具有广泛的应用前景。如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一,此任务包含文本检测和文本识别两个子任务,前者是实现后者的前提。
现有的基于两阶段的自然场景文本检测算法,需要根据数据的先验知识,人为设定一系列不同长宽比的锚点框。这种机制有以下几个缺点:(1)由于自然场景的文本目标的长宽比的动态范围较大,事先定义的尺寸难于覆盖这些范围,导致用于训练区域建议网络的高质量正样本数量少;(2)锚点框尺寸的设置作为网络训练时的一组超参数,其设定需要很强的先验知识且有着较强的主观因素,模型的性能和锚点框设置的好坏有很大关联,若锚点框设置的不合理往往导致整体性能的下降。
由此可见,现有技术存在锚点框机制有缺陷、基于该机制的文本检测方法性能不佳、文本的召回率偏低的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自适应区域建议网络的自然场景文本检测方法和系统,由此解决现有技术存在锚点框机制有缺陷、基于该机制的文本检测方法性能不佳、文本的召回率偏低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于自适应区域建议网络的自然场景文本检测方法,包括:
将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框;
所述网络模型的训练包括:
对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型。
进一步地,自适应区域建议网络包括文本中心预测分支和文本宽高预测分支。
进一步地,文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值,文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值。
进一步地,自适应区域建议网络的训练包括:
利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框(ground truth)内部的中心点,分别计算一个最优矩形框;
计算最优矩形框与真实目标框的交并比(Intersection over Union,IOU);
在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;
在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;
利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
进一步地,文本目标中心对应到训练集中原始图片的坐标为(cx,cy):
其中,(i,j)为目标中心预测图中的每一个像素的坐标,s表示各尺度特征相对于原始图片的缩放倍数。
进一步地,最优矩形框为:以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。
进一步地,利用最优矩形框对交并比大于0.7的位置设置训练标签的具体实现方式为:
其中,分别表示在目标宽高预测图中交并比大于0.7的位置的宽、高的训练标签,Bw、Bh分别表示最优矩形框的宽、高,s表示各尺度特征相对于原始图片的缩放倍数,δ为调节系数。
按照本发明的另一方面,提供了一种基于自适应区域建议网络的自然场景文本检测系统,包括:
训练集标注模块,用于对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
网络模型构建模块,用于构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
训练模块,用于利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型;
检测模块,用于将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框。
进一步地,自适应区域建议网络包括文本中心预测分支和文本宽高预测分支。
进一步地,自适应区域建议网络的训练包括:
坐标模块,用于利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
最优矩形框模块,用于将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
交并比模块,用于计算最优矩形框与真实目标框的交并比;
训练标签模块,用于在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的基于自适应区域建议网络自然场景文本检测的方法,无需人工总结数据的先验知识来设定锚点框的长宽比,在训练过程中,网络能够自动根据训练数据学习锚点框的尺寸,消除因人为设定锚点框而导致的检测性能的下降。
(2)本发明提供的基于自适应区域建议网络自然场景文本检测的方法,通过自适应区域建议网络的训练,能够有效的减少无效框和冗余框,提高了检测的效率。
(3)本发明提供的基于自适应区域建议网络自然场景文本检测的方法,通过自适应区域建议网络、目标分类与角点回归网络的结合,能够有效的提升最终文本检测的召回率,并提升文本检测的综合性能。
附图说明
图1是本发明实施例提供的一种基于自适应区域建议网络的自然场景文本检测方法的流程示意图;
图2是本发明实施例提供的自适应区域建议网络的结构图;
图3是本发明实施例提供的自适应区域建议网络工作原理示意图;
图4是本发明实施例提供的最优矩形宽高计算示意图;
图5是本发明实施例提供的自适应区域建议网络生成的候选区域;
图6是本发明实施例提供的基于自适应区域建议网络的自然场景文本检测方法的检测结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于自适应区域建议网络的自然场景文本检测方法,包括:
将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框;
所述网络模型的训练包括:
对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型。
如图2所示,自适应区域建议网络由一组3*3卷积和两组1*1的卷积构成,通过两组1*1的卷积分别得到文本中心预测分支和文本宽高预测分支。文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值,文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值。
如图3所示,自适应区域建议网络的训练包括如下步骤:
(1)利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
(2)将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
(3)计算最优矩形框与真实目标框的交并比;
(4)在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;
(5)在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;
(6)利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
(7)对在步骤(4)、(5)中产生的训练标签,使用Sigmoid交叉熵损失函数进行训练,对步骤(6)中产生的训练标签,使用SmoothL1损失进行训练。
进一步地,文本目标中心对应到训练集中原始图片的坐标为(cx,cy):
其中,(i,j)为目标中心预测图中的每一个像素的坐标,s表示各尺度特征相对于原始图片的缩放倍数。
进一步地,最优矩形框为:以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。
进一步地,利用最优矩形框对交并比大于0.7的位置设置训练标签的具体实现方式为:
其中,分别表示在目标宽高预测图中交并比大于0.7的位置的宽、高的训练标签,Bw、Bh分别表示最优矩形框的宽、高,s表示各尺度特征相对于原始图片的缩放倍数,δ为调节系数。
最优矩形框的宽高为通过如下方式进行确定:
R=Rect(P,wi,hj),其中i=1,2,3,4;j=1,2,3,4
Δ=(A-4*B)2+16A*CS*DS
其中,Bw,Bh分别表示最优矩形的宽和高;R表示待计算的最优矩形框,由Rect(P,wi,hj)确定,其中P为矩形R的中心点,wi,hj分别表示矩形的宽和高,wi,hj分别从集合w和集合h中进行取值;G表示真实目标框矩形框,交并比(R,G)表示计算矩形框R和G的交并比;集合w和集合h中,A表示矩形G的面积,B表示P点与G的四个顶点中,距离其最近的一个顶点所围成的矩形的面积,CS,CL分别表示P点到G的左右边界中,较近和较远的距离,DS,DL分别表示P点到G的上下边界中,较近和较远的距离;相关参数的标注如图4所示。
在测试过程中,自适应区域建议网络的目标与非目标的分数阈值设定为0.05,自适应区域建议网络输出的候选区域如图5所示,该方法最终的检测结果如图6所示。本发明提供了一种基于自适应区域建议网络的自然场景文本检测方法,其目的在于通过构建和训练自适应区域建议网络,实现区域建议网络中锚点框的自适应生成,由此解决了现有的基于两阶段的自然场景文本检测算法中锚点框机制上的缺陷,提高自然场景文本检测的召回率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,包括:
将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框;
所述网络模型的训练包括:
对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型。
2.如权利要求1所述的一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,所述自适应区域建议网络包括文本中心预测分支和文本宽高预测分支。
3.如权利要求2所述的一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,所述文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值,文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值。
4.如权利要求2或3所述的一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,所述自适应区域建议网络的训练包括:
利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
计算最优矩形框与真实目标框的交并比;
在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;
在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;
利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
5.如权利要求4所述的一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,所述文本目标中心对应到训练集中原始图片的坐标为(cx,cy):
其中,(i,j)为目标中心预测图中的每一个像素的坐标,s表示各尺度特征相对于原始图片的缩放倍数。
6.如权利要求4所述的一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,所述最优矩形框为:以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。
7.如权利要求4所述的一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,所述利用最优矩形框对交并比大于0.7的位置设置训练标签的具体实现方式为:
其中,分别表示在目标宽高预测图中交并比大于0.7的位置的宽、高的训练标签,Bw、Bh分别表示最优矩形框的宽、高,s表示各尺度特征相对于原始图片的缩放倍数,δ为调节系数。
8.一种基于自适应区域建议网络的自然场景文本检测系统,其特征在于,包括:
训练集标注模块,用于对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
网络模型构建模块,用于构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
训练模块,用于利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型;
检测模块,用于将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框。
9.如权利要求8所述的一种基于自适应区域建议网络的自然场景文本检测系统,其特征在于,所述自适应区域建议网络包括文本中心预测分支和文本宽高预测分支。
10.如权利要求9所述的一种基于自适应区域建议网络的自然场景文本检测系统,其特征在于,所述自适应区域建议网络的训练包括:
坐标模块,用于利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
最优矩形框模块,用于将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
交并比模块,用于计算最优矩形框与真实目标框的交并比;
训练标签模块,用于在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为O;利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
CN201910800835.8A 2019-08-29 2019-08-29 基于自适应区域建议网络的自然场景文本检测方法和系统 Active CN110598698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910800835.8A CN110598698B (zh) 2019-08-29 2019-08-29 基于自适应区域建议网络的自然场景文本检测方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910800835.8A CN110598698B (zh) 2019-08-29 2019-08-29 基于自适应区域建议网络的自然场景文本检测方法和系统

Publications (2)

Publication Number Publication Date
CN110598698A true CN110598698A (zh) 2019-12-20
CN110598698B CN110598698B (zh) 2022-02-15

Family

ID=68855921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910800835.8A Active CN110598698B (zh) 2019-08-29 2019-08-29 基于自适应区域建议网络的自然场景文本检测方法和系统

Country Status (1)

Country Link
CN (1) CN110598698B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242120A (zh) * 2020-01-03 2020-06-05 中国科学技术大学 文字检测方法及系统
CN111340092A (zh) * 2020-02-21 2020-06-26 浙江大华技术股份有限公司 一种目标关联处理方法及装置
CN112528997A (zh) * 2020-12-24 2021-03-19 西北民族大学 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN112926637A (zh) * 2021-02-08 2021-06-08 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种文本检测训练集的生成方法
CN112926582A (zh) * 2021-03-30 2021-06-08 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB989609A (en) * 1963-03-26 1965-04-22 Ibm Character recognition system
CA2883091A1 (en) * 2011-08-25 2013-02-28 Cornell University Retinal encoder for machine vision
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
CN107346420A (zh) * 2017-06-19 2017-11-14 中国科学院信息工程研究所 一种基于深度学习的自然场景下文字检测定位方法
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108875744A (zh) * 2018-03-05 2018-11-23 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB989609A (en) * 1963-03-26 1965-04-22 Ibm Character recognition system
CA2883091A1 (en) * 2011-08-25 2013-02-28 Cornell University Retinal encoder for machine vision
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN107346420A (zh) * 2017-06-19 2017-11-14 中国科学院信息工程研究所 一种基于深度学习的自然场景下文字检测定位方法
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108875744A (zh) * 2018-03-05 2018-11-23 南京理工大学 基于矩形框坐标变换的多方向文本行检测方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHI TIAN 等: "Detecting Text in Natural Image with Connectionist Text Proposal Network", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *
ZHIDA HUANG 等: "Mask R-CNN With Pyramid Attention Network for Scene Text Detection", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION (WACV)》 *
ZHUOYAO ZHONG 等: "An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches", 《ARXIV:1804.09003》 *
王志元: "自然场景下的文本检测算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111242120A (zh) * 2020-01-03 2020-06-05 中国科学技术大学 文字检测方法及系统
CN111242120B (zh) * 2020-01-03 2022-07-29 中国科学技术大学 文字检测方法及系统
CN111340092A (zh) * 2020-02-21 2020-06-26 浙江大华技术股份有限公司 一种目标关联处理方法及装置
CN111340092B (zh) * 2020-02-21 2023-09-22 浙江大华技术股份有限公司 一种目标关联处理方法及装置
CN112528997A (zh) * 2020-12-24 2021-03-19 西北民族大学 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN112528997B (zh) * 2020-12-24 2022-04-19 西北民族大学 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN112926637A (zh) * 2021-02-08 2021-06-08 天津职业技术师范大学(中国职业培训指导教师进修中心) 一种文本检测训练集的生成方法
CN112926582A (zh) * 2021-03-30 2021-06-08 江南大学 一种基于自适应特征选择和尺度损失函数的文本检测方法

Also Published As

Publication number Publication date
CN110598698B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN110598698B (zh) 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110175982B (zh) 一种基于目标检测的缺陷检测方法
CN110766008A (zh) 一种面向任意方向和形状的文本检测方法
CN111860348A (zh) 基于深度学习的弱监督电力图纸ocr识别方法
CN112508090A (zh) 一种外包装缺陷检测方法
CN112085024A (zh) 一种罐表面字符识别方法
CN110263794B (zh) 基于数据增强的目标识别模型的训练方法
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN112613579A (zh) 一种人脸或人头图像质量的模型训练方法、评估方法及高质量图像的选取方法
CN111696079A (zh) 一种基于多任务学习的表面缺陷检测方法
CN113971809A (zh) 一种基于深度学习的文本识别方法、设备及存储介质
CN112446376B (zh) 一种工业图像智能分割压缩方法
CN111414938A (zh) 一种板式换热器内气泡的目标检测方法
CN112884135B (zh) 一种基于边框回归的数据标注校正方法
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN111079742A (zh) 一种扫描试卷中作文区域图像文本块精准定位方法
CN111274863A (zh) 一种基于文本山峰概率密度的文本预测方法
CN116052149A (zh) 一种基于CS-ABCNet的电力塔牌检测识别方法
CN112199984B (zh) 一种大尺度遥感图像的目标快速检测方法
CN113469984B (zh) 一种基于yolo结构的显示面板外观检测方法
CN112926694A (zh) 基于改进的神经网络对图像中的猪只进行自动识别的方法
CN110826564A (zh) 一种复杂场景图像中的小目标语义分割方法及系统
CN114882298B (zh) 一种对抗互补学习模型的优化方法及装置
CN112766181B (zh) 一种提高线图识别准确率的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant