CN110598698B - 基于自适应区域建议网络的自然场景文本检测方法和系统 - Google Patents
基于自适应区域建议网络的自然场景文本检测方法和系统 Download PDFInfo
- Publication number
- CN110598698B CN110598698B CN201910800835.8A CN201910800835A CN110598698B CN 110598698 B CN110598698 B CN 110598698B CN 201910800835 A CN201910800835 A CN 201910800835A CN 110598698 B CN110598698 B CN 110598698B
- Authority
- CN
- China
- Prior art keywords
- target
- text
- network
- width
- height
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 31
- 230000003044 adaptive effect Effects 0.000 title claims description 31
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 abstract description 7
- 230000007547 defect Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自适应区域建议网络的自然场景文本检测方法和系统,属于图像处理技术领域,包括:对自然场景文本数据集进行标注,得到训练集;构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,进而得到训练好的网络模型。将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框。本发明克服锚点框机制缺陷、检测方法性能佳、文本的召回率高。
Description
技术领域
本发明属于图像处理技术领域,更具体地,涉及一种基于自适应区域建议网络的自然场景文本检测方法和系统。
背景技术
作为文字的一种表现形式,自然场景中的文本有着丰富且精确的高级语义信息,这些语义信息对于其周围场景的理解起到了十分重要的作用。正因为此,自然场景中文本信息的自动获取,在自动驾驶、即时翻译、机器人导航、工业自动化等领域具有广泛的应用前景。如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一,此任务包含文本检测和文本识别两个子任务,前者是实现后者的前提。
现有的基于两阶段的自然场景文本检测算法,需要根据数据的先验知识,人为设定一系列不同长宽比的锚点框。这种机制有以下几个缺点:(1)由于自然场景的文本目标的长宽比的动态范围较大,事先定义的尺寸难于覆盖这些范围,导致用于训练区域建议网络的高质量正样本数量少;(2)锚点框尺寸的设置作为网络训练时的一组超参数,其设定需要很强的先验知识且有着较强的主观因素,模型的性能和锚点框设置的好坏有很大关联,若锚点框设置的不合理往往导致整体性能的下降。
由此可见,现有技术存在锚点框机制有缺陷、基于该机制的文本检测方法性能不佳、文本的召回率偏低的技术问题。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于自适应区域建议网络的自然场景文本检测方法和系统,由此解决现有技术存在锚点框机制有缺陷、基于该机制的文本检测方法性能不佳、文本的召回率偏低的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于自适应区域建议网络的自然场景文本检测方法,包括:
将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框;
所述网络模型的训练包括:
对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型。
进一步地,自适应区域建议网络包括文本中心预测分支和文本宽高预测分支。
进一步地,文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值,文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值。
进一步地,自适应区域建议网络的训练包括:
利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框(ground truth)内部的中心点,分别计算一个最优矩形框;
计算最优矩形框与真实目标框的交并比(Intersection over Union,IOU);
在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;
在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;
利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
进一步地,文本目标中心对应到训练集中原始图片的坐标为(cx,cy):
其中,(i,j)为目标中心预测图中的每一个像素的坐标,s表示各尺度特征相对于原始图片的缩放倍数。
进一步地,最优矩形框为:以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。
进一步地,利用最优矩形框对交并比大于0.7的位置设置训练标签的具体实现方式为:
按照本发明的另一方面,提供了一种基于自适应区域建议网络的自然场景文本检测系统,包括:
训练集标注模块,用于对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
网络模型构建模块,用于构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
训练模块,用于利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型;
检测模块,用于将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框。
进一步地,自适应区域建议网络包括文本中心预测分支和文本宽高预测分支。
进一步地,自适应区域建议网络的训练包括:
坐标模块,用于利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
最优矩形框模块,用于将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
交并比模块,用于计算最优矩形框与真实目标框的交并比;
训练标签模块,用于在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的基于自适应区域建议网络自然场景文本检测的方法,无需人工总结数据的先验知识来设定锚点框的长宽比,在训练过程中,网络能够自动根据训练数据学习锚点框的尺寸,消除因人为设定锚点框而导致的检测性能的下降。
(2)本发明提供的基于自适应区域建议网络自然场景文本检测的方法,通过自适应区域建议网络的训练,能够有效的减少无效框和冗余框,提高了检测的效率。
(3)本发明提供的基于自适应区域建议网络自然场景文本检测的方法,通过自适应区域建议网络、目标分类与角点回归网络的结合,能够有效的提升最终文本检测的召回率,并提升文本检测的综合性能。
附图说明
图1是本发明实施例提供的一种基于自适应区域建议网络的自然场景文本检测方法的流程示意图;
图2是本发明实施例提供的自适应区域建议网络的结构图;
图3是本发明实施例提供的自适应区域建议网络工作原理示意图;
图4是本发明实施例提供的最优矩形宽高计算示意图;
图5是本发明实施例提供的自适应区域建议网络生成的候选区域;
图6是本发明实施例提供的基于自适应区域建议网络的自然场景文本检测方法的检测结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,一种基于自适应区域建议网络的自然场景文本检测方法,包括:
将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框;
所述网络模型的训练包括:
对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型。
如图2所示,自适应区域建议网络由一组3*3卷积和两组1*1的卷积构成,通过两组1*1的卷积分别得到文本中心预测分支和文本宽高预测分支。文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值,文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值。
如图3所示,自适应区域建议网络的训练包括如下步骤:
(1)利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
(2)将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
(3)计算最优矩形框与真实目标框的交并比;
(4)在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;
(5)在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;
(6)利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
(7)对在步骤(4)、(5)中产生的训练标签,使用Sigmoid交叉熵损失函数进行训练,对步骤(6)中产生的训练标签,使用SmoothL1损失进行训练。
进一步地,文本目标中心对应到训练集中原始图片的坐标为(cx,cy):
其中,(i,j)为目标中心预测图中的每一个像素的坐标,s表示各尺度特征相对于原始图片的缩放倍数。
进一步地,最优矩形框为:以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。
进一步地,利用最优矩形框对交并比大于0.7的位置设置训练标签的具体实现方式为:
最优矩形框的宽高为通过如下方式进行确定:
R=Rect(P,wi,hj),其中i=1,2,3,4;j=1,2,3,4
Δ=(A-4*B)2+16A*CS*DS
其中,Bw,Bh分别表示最优矩形的宽和高;R表示待计算的最优矩形框,由Rect(P,wi,hj)确定,其中P为矩形R的中心点,wi,hj分别表示矩形的宽和高,wi,hj分别从集合w和集合h中进行取值;G表示真实目标框矩形框,交并比(R,G)表示计算矩形框R和G的交并比;集合w和集合h中,A表示矩形G的面积,B表示P点与G的四个顶点中,距离其最近的一个顶点所围成的矩形的面积,CS,CL分别表示P点到G的左右边界中,较近和较远的距离,DS,DL分别表示P点到G的上下边界中,较近和较远的距离;相关参数的标注如图4所示。
在测试过程中,自适应区域建议网络的目标与非目标的分数阈值设定为0.05,自适应区域建议网络输出的候选区域如图5所示,该方法最终的检测结果如图6所示。本发明提供了一种基于自适应区域建议网络的自然场景文本检测方法,其目的在于通过构建和训练自适应区域建议网络,实现区域建议网络中锚点框的自适应生成,由此解决了现有的基于两阶段的自然场景文本检测算法中锚点框机制上的缺陷,提高自然场景文本检测的召回率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,包括:
将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框;
所述网络模型的训练包括:
对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型;
所述自适应区域建议网络包括文本中心预测分支和文本宽高预测分支;
所述文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值,文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值;
所述自适应区域建议网络的训练包括:
利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
计算最优矩形框与真实目标框的交并比;
在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;
在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;
利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
3.如权利要求1所述的一种基于自适应区域建议网络的自然场景文本检测方法,其特征在于,所述最优矩形框为:以文本目标中心对应到训练集中原始图片的坐标为中心且与包围该中心的真实目标框的交并比最大的矩形框。
5.一种基于自适应区域建议网络的自然场景文本检测系统,其特征在于,包括:
训练集标注模块,用于对自然场景文本数据集中的原始图片的目标类别和目标框的角点坐标进行标注,得到训练集;
网络模型构建模块,用于构建包含特征提取网络、自适应区域建议网络、目标分类与角点回归网络的网络模型;
训练模块,用于利用训练集训练网络模型时,利用特征提取网络提取训练集的多尺度特征,利用自适应区域建议网络预测各尺度特征下的文本目标中心和文本目标矩形框宽高,利用目标分类与角点回归网络预测文本目标类别和各尺度特征下的文本目标矩形框的角点坐标,当预测文本目标类别与标注的目标类别一致,且文本目标矩形框的角点坐标与标注的目标框的角点坐标之间的误差小于预设值时,利用文本目标中心和文本目标矩形框宽高计算损失函数后进行反向传播,进而得到训练好的网络模型;
检测模块,用于将待检测自然场景图像输入训练好的网络模型,得到自然场景文本目标框;
所述自适应区域建议网络包括文本中心预测分支和文本宽高预测分支;所述文本中心预测分支输出对应尺度特征下各个位置为文本目标中心的概率值,文本宽高预测分支输出对应尺度特征下以各个位置为中心的文本目标矩形框宽高的数值;
所述自适应区域建议网络的训练包括:
坐标模块,用于利用文本中心预测分支预测的文本目标中心组成目标中心预测图,对于目标中心预测图中的每一个像素,利用各尺度特征相对于原始图片的缩放倍数计算每一个像素对应到训练集中原始图片的坐标;
最优矩形框模块,用于将文本目标中心对应到训练集中原始图片的坐标作为中心点,对于每一个位于真实目标框内部的中心点,分别计算一个最优矩形框;
交并比模块,用于计算最优矩形框与真实目标框的交并比;
训练标签模块,用于在目标中心预测图中,将交并比大于0.7的位置的训练标签设置为1,并统计标签为1的数量K;在位于所有真实目标框的外部的中心点中,随机选取K个位置,设置其训练标签为0;利用文本宽高预测分支预测的文本目标矩形框宽高组成目标宽高预测图,在目标宽高预测图中,利用最优矩形框对交并比大于0.7的位置设置训练标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800835.8A CN110598698B (zh) | 2019-08-29 | 2019-08-29 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910800835.8A CN110598698B (zh) | 2019-08-29 | 2019-08-29 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598698A CN110598698A (zh) | 2019-12-20 |
CN110598698B true CN110598698B (zh) | 2022-02-15 |
Family
ID=68855921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910800835.8A Active CN110598698B (zh) | 2019-08-29 | 2019-08-29 | 基于自适应区域建议网络的自然场景文本检测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598698B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111242120B (zh) * | 2020-01-03 | 2022-07-29 | 中国科学技术大学 | 文字检测方法及系统 |
CN111340092B (zh) * | 2020-02-21 | 2023-09-22 | 浙江大华技术股份有限公司 | 一种目标关联处理方法及装置 |
CN112528997B (zh) * | 2020-12-24 | 2022-04-19 | 西北民族大学 | 一种基于文本中心区域扩增的藏汉双语场景文本检测方法 |
CN112926637B (zh) * | 2021-02-08 | 2023-06-09 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种文本检测训练集的生成方法 |
CN112926582B (zh) * | 2021-03-30 | 2021-12-07 | 江南大学 | 一种基于自适应特征选择和尺度损失函数的文本检测方法 |
CN114429562A (zh) * | 2021-12-08 | 2022-05-03 | 成都臻识科技发展有限公司 | 一种神经网络的训练样本标签分配方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB989609A (en) * | 1963-03-26 | 1965-04-22 | Ibm | Character recognition system |
CA2883091A1 (en) * | 2011-08-25 | 2013-02-28 | Cornell University | Retinal encoder for machine vision |
CN107346420A (zh) * | 2017-06-19 | 2017-11-14 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108154145A (zh) * | 2018-01-24 | 2018-06-12 | 北京地平线机器人技术研发有限公司 | 检测自然场景图像中的文本的位置的方法和装置 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN108875744A (zh) * | 2018-03-05 | 2018-11-23 | 南京理工大学 | 基于矩形框坐标变换的多方向文本行检测方法 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
-
2019
- 2019-08-29 CN CN201910800835.8A patent/CN110598698B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB989609A (en) * | 1963-03-26 | 1965-04-22 | Ibm | Character recognition system |
CA2883091A1 (en) * | 2011-08-25 | 2013-02-28 | Cornell University | Retinal encoder for machine vision |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
CN107346420A (zh) * | 2017-06-19 | 2017-11-14 | 中国科学院信息工程研究所 | 一种基于深度学习的自然场景下文字检测定位方法 |
CN107977620A (zh) * | 2017-11-29 | 2018-05-01 | 华中科技大学 | 一种基于全卷积网络的多方向场景文本单次检测方法 |
CN108154145A (zh) * | 2018-01-24 | 2018-06-12 | 北京地平线机器人技术研发有限公司 | 检测自然场景图像中的文本的位置的方法和装置 |
CN108875744A (zh) * | 2018-03-05 | 2018-11-23 | 南京理工大学 | 基于矩形框坐标变换的多方向文本行检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
Non-Patent Citations (4)
Title |
---|
An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches;Zhuoyao Zhong 等;《arXiv:1804.09003》;20180424;1-8 * |
Detecting Text in Natural Image with Connectionist Text Proposal Network;Zhi Tian 等;《European Conference on Computer Vision》;SpringerLink;20160917;56-72 * |
Mask R-CNN With Pyramid Attention Network for Scene Text Detection;Zhida Huang 等;《2019 IEEE Winter Conference on Applications of Computer Vision (WACV)》;20190111;764-772 * |
自然场景下的文本检测算法研究;王志元;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20181015;I138-756 * |
Also Published As
Publication number | Publication date |
---|---|
CN110598698A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598698B (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
CN110175982B (zh) | 一种基于目标检测的缺陷检测方法 | |
CN111223088B (zh) | 一种基于深层卷积神经网络的铸件表面缺陷识别方法 | |
CN112508090B (zh) | 一种外包装缺陷检测方法 | |
CN108961235A (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN109886947A (zh) | 基于区域的卷积神经网络的高压电线缺陷检测方法 | |
CN112085024A (zh) | 一种罐表面字符识别方法 | |
CN110263794B (zh) | 基于数据增强的目标识别模型的训练方法 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN112580507A (zh) | 一种基于图像矩矫正的深度学习文本字符检测方法 | |
CN112613579A (zh) | 一种人脸或人头图像质量的模型训练方法、评估方法及高质量图像的选取方法 | |
CN115423796A (zh) | 一种基于TensorRT加速推理的芯片缺陷检测方法及系统 | |
CN113971809A (zh) | 一种基于深度学习的文本识别方法、设备及存储介质 | |
CN112446376B (zh) | 一种工业图像智能分割压缩方法 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN111414938A (zh) | 一种板式换热器内气泡的目标检测方法 | |
CN112884135B (zh) | 一种基于边框回归的数据标注校正方法 | |
CN114743201A (zh) | 一种基于旋转目标检测的万用表读数识别方法及系统 | |
CN111274863A (zh) | 一种基于文本山峰概率密度的文本预测方法 | |
CN112926694A (zh) | 基于改进的神经网络对图像中的猪只进行自动识别的方法 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN116958980A (zh) | 一种实时场景文本检测方法 | |
CN110826564A (zh) | 一种复杂场景图像中的小目标语义分割方法及系统 | |
CN110889418A (zh) | 一种气体轮廓识别方法 | |
CN116052149A (zh) | 一种基于CS-ABCNet的电力塔牌检测识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |