CN112801092B - 一种自然场景图像中字符元素检测方法 - Google Patents

一种自然场景图像中字符元素检测方法 Download PDF

Info

Publication number
CN112801092B
CN112801092B CN202110123632.7A CN202110123632A CN112801092B CN 112801092 B CN112801092 B CN 112801092B CN 202110123632 A CN202110123632 A CN 202110123632A CN 112801092 B CN112801092 B CN 112801092B
Authority
CN
China
Prior art keywords
value
network
layer
feature
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110123632.7A
Other languages
English (en)
Other versions
CN112801092A (zh
Inventor
钱鹰
史旭鹏
刘歆
姜美兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110123632.7A priority Critical patent/CN112801092B/zh
Publication of CN112801092A publication Critical patent/CN112801092A/zh
Application granted granted Critical
Publication of CN112801092B publication Critical patent/CN112801092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明涉及一种自然场景图像中字符元素检测方法,属于计算机领域。该方法首先使用最大池化操作对目标进行非极大抑制,随后通过特征提取网络进行特征提取,最后通过特征融合整合顶层与底层的特征,提高特征的表示能力并结合预测网络对输出字符目标的准确位置。本发明方法通过设计新型的神经网络结构,能够整合自然场景图像中字符顶层与底层的特征,实现在复杂背景下,水平排列、倾斜排列、弯曲排列的字符位置的准确检测。

Description

一种自然场景图像中字符元素检测方法
技术领域
本发明属于计算机领域,涉及一种自然场景图像中字符元素检测方法。
背景技术
随着计算机视觉技术的进步,文本识别技术迅速兴起并蓬勃发展,其应用已遍及国民经济与社会生活的各个角落,正在对人类的生产方式、工作方式乃至生活方式带来巨大的变革。随着应用的不断深入,市场对场景更为复杂的自然场景下的文本检测方法要求越来越高。
文本检测是后续文本识别等操作的前奏,其检测效果直接影响后续识别等操作的效果。自然场景下文本通常含有大量的背景干扰,图像光照影响等问题,并且不同语言文字的长宽比变化较为剧烈。传统检测方法往往无法应对背景干扰等诸多问题,深度学习类方法能取得更好的检测结果,但是深度学习方法依赖大数据集训练,现有的自然场景下文本检测的单字符数据集由于标注成本较大,因此数据集较少,对算法开发以及效果检验等方面产生一定负面影响。此外现有文字检测任务中,数学公式检测,商标文字检测等等特殊场景下的文字检测要求算法能够实现单字符级别的检测,因此,成本小,准确性高的字符检测算法是后续文字识别等工作的重要前提。
发明内容
有鉴于此,本发明的目的在于提供一种自然场景图像中字符元素检测方法。
为达到上述目的,本发明提供如下技术方案:
一种自然场景图像中字符元素检测方法,所述方法包括以下步骤:
S1:首先图像通过最大池化操作进行目标的非极大抑制,随后通过特征提取网络对非极大抑制后的特征图进行进一步特征提取;
S2:特征整合网络,对特征提取网络中的顶层特征与底层特征进行整合输出;
S3:推测网络,以特征整合网络输出的特征图为基础进行推断,输出目标的目标位置框左上角坐标点推测值和类别判断、坐标点偏移推测值和目标长宽的推测值;通过整合推测值生成字符检测结果,并且根据每一类推测值的特点设计损失函数对网络进行训练。
可选的,所述S1具体为:
原始图像首先通过卷积层、BatchNormalization层、激活层和最大池化层组合成的非极大抑制模块以实现目标的非极大抑制;
根据原始图像的尺寸设计特征提取网络,特征提取网络基本结构由卷积层、BatchNormalization层和激活层组成的特征提取块,特征提取网络输入为经过非极大抑制的特征图,每经过一层特征提取块的处理,输出的特征图尺寸较输入时都会下降,特征提取网络中包含的特征提取块数量由原始图像尺寸决定。
可选的,所述S2具体为:
特征整合网络由特征组合单元组成,组合单元包括:上采样层,用于将特征图尺寸放大;卷积层,对上采样输出特征图进行维度调整;组合层,将输入的一组特征图与经卷积层处理的特征图进行组合并输出;BatchNormalization层加快训练速度并且使网络更加稳定;BatchNormalization层输出的特征图经过卷积层进行处理,进行信息提取与维度调整,卷积层输出的特征图输入到激活层进行激活,最后输出整合结果;
根据原图像的尺寸设置特征融合次数的阈值,确保特征整合网络的输出具有高分辨率;在对图像进行特征提取的过程中,每经过一组特征提取块的特征提取后,首先将处理结果输出至下一组特征提取块进行特征提取,其次保存该处理结果用于后续特征融合;
最后一层特征提取块输出结果后,将该结果与上一层特征提取块的特征图通过特征组合单元进行特征组合,记为整合一次;整合的结果再与上一层特征提取块的输出进行下一次整合,直至达到设定的阈值。
可选的,所述S3具体为:
将特征整合网络的最终输出结果经过两层卷积进行最终的特征提取和整合,输出网络预测结果;预测结果包括:1通道特征图用于字符目标位置框左上角坐标点预测与类别判定、2通道特征图用于字符的目标位置框左上角坐标点偏移值计算、2通道特征图用于字符目标的长与宽;
损失函数包含三个部分:字符目标位置框左上角坐标点预测与类别判定的损失函数;目标位置框左上角坐标点预测偏移值的预测损失函数;目标位置框宽高值预测损失函数;
第一部分,字符目标位置框左上角坐标点预测与类别判定损失计算过程中,以推测网络输出的字符目标位置框左上角坐标点预测与类别判定特征图为基础,特征图每一个像素对应原图的一个区域,如果预测结果显示文字目标位置框左上角坐标点在该区域中,特征图上的该点预测值为1,这个特征点附近的其它特征点中该种类对应的值按照高斯分布不断下降;损失计算以二分类交叉熵损失为基础,为保证正负样本不均衡时损失函数的有效性,当真实样本为正时,损失函数乘以
Figure BDA0002923118690000021
当真实样本为负样本时损失函数乘以
Figure BDA0002923118690000022
损失函数乘以其中N为目标总数
Figure BDA0002923118690000023
为预测值,Yxyc为训练集生成的真实值,aβ为经验值;
第二部分,目标位置框左上角坐标点偏移值预测损失计算过程中,以推测网络输出的目标位置框左上角坐标点偏移值预测结果特征图为基础,由于目标位置框左上角坐标点预测的特征图上判定的目标位置框左上角坐标点实际上对应原图的一块区域,具体的目标位置框左上角坐标点位置还需要有一个偏置值来进行计算,偏置值预测的损失计算公式为
Figure BDA0002923118690000031
其中N代表目标总数,R代表原图到特征图下采样倍数,而
Figure BDA0002923118690000032
代表实际的偏差值,
Figure BDA0002923118690000033
代表预测的偏差值;
第三部分,目标宽高值预测损失记为Lsize,以推测网络输出的目标长宽值预测特征图为基础,特征图中的值为当前特征点对应目标的宽高的预测值,损失值计算公式预测值与实际值差值的平方和除以检测目标总数得到的值;
最后总的损失表达式为Ldst=LksizeLsizeoffsetLoffset,与λsize,λoffset为权重。
本发明的有益效果在于:
1、本发明采用了一种U型骨干网络的深度学习检测框架作为基础模型,和传统的检测方法比较,检测效果更好,处理更方便,之前的检测方法,多数要在后面加一个支持向量机进行分类。之前对于训练检测框主要是采用滑动窗口的方式进行图像的裁剪,增加了大量的难度和成本,本网络不需要设置anchorbox,并且不需要复杂的NMS后处理,在处理中文文本的过程中,防止复杂的偏旁部首组成使得检测失效,极大地提高了检测精度;此外本发明设计的新型U型骨干网络能够更好地整合图片的顶层和底层特征,对小目标,横纵比变化剧烈的目标有较好的检测效果。
2、现有单字符标注数据集较少,不足以支持文本检测模型的训练,本发明采用半监督训练的方式,采用计算机合成的T数据集,并且通过网络和轻量级模型结果处理无标签的S数据集使其带上标签,从而获取完整的训练集,无需人工标注,训练成本更小。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本方法流程图;
图2为半监督训练方法流程图;
图3为本方法一种典型网络结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1~图3所示,一种自然场景图像中字符元素检测方法,包括:
1.对图像通过最大池化操作进行目标的非极大抑制,随后通过特征提取网络对非极大抑制后的特征图进行进一步特征提取,包括:
原始图像首先通过卷积层,BatchNormalization层,激活层以及最大池化层组合成的非极大抑制模块以实现目标的非极大抑制;
根据原始图像的尺寸设计特征提取网络,特征提取网络基本结构是由卷积层,BatchNormalization层以及激活层组成的特征提取块,特征提取网络输入为经过非极大抑制的特征图,每经过一层特征提取块的处理,输出的特征图尺寸较输入时都会下降,特征提取网络中包含的特征提取块数量根据原始图像尺寸决定。
2.一种自然场景图像中字符元素检测方法,其特征在于,通过特征整合网络,对特征提取网络中的高层特征与底层特征进行整合输出,包括:
特征整合网络由特征组合单元组成,组合单元包括:上采样层,用于将特征图尺寸放大;卷积层,对上采样输出特征图进行维度调整;组合层,将输入的一组特征图与经卷积层处理的特征图进行组合并输出;BatchNormalization层加快训练速度并且使网络更加稳定;BatchNormalization层输出的特征图经过卷积层进行处理,进行信息提取与维度调整,卷积层输出的特征图输入到激活层进行激活,最后输出整合结果。
根据原图像的尺寸设置特征融合次数的阈值,确保特征整合网络的输出具有高分辨率。在对图像进行特征提取的过程中,每经过一次特征提取块,在将特征图输出至下一层的同时,保存该特征图。最后一层特征提取块输出结果后,将该结果与上一层特征提取块的特征图通过特征组合单元进行特征组合,记为整合一次。整合的结果再与上一层特征提取块的输出进行下一次整合,直至达到设定的阈值。
3.一种自然场景图像中字符元素检测方法,其特征在于,通过推测网络,以特征整合网络输出的特征图为基础进行推断,输出目标的目标位置框左上角坐标点推测值以及类别判断,坐标点偏移推测值,目标长宽的推测值。通过整合推测值生成字符检测结果并且根据每一类推测值的特点设计损失函数对网络进行训练,包括:
将特征整合网络的最终输出结果经过两层卷积进行最终的特征提取和整合,输出网络预测结果。预测结果包括:1通道特征图用于字符目标位置框左上角坐标点预测与类别判定、2通道特征图用于字符的目标位置框左上角坐标点偏移值计算、2通道特征图用于字符目标的长与宽。
损失函数包含三个部分:字符目标位置框左上角坐标点预测与类别判定的损失,目标位置框左上角坐标点预测偏移值的预测损失与目标宽高值预测损失。
第一部分,字符目标位置框左上角坐标点预测与类别判定损失计算过程中,以推测网络输出的字符目标位置框左上角坐标点预测与类别判定特征图为基础,特征图每一个像素对应原图的一个区域,如果预测结果显示文字目标位置框左上角坐标点在该区域中,特征图上的该点预测值为1,这个特征点附近的其它特征点中该种类对应的值按照高斯分布不断下降。损失计算以二分类交叉熵损失为基础,为保证正负样本不均衡时损失函数的有效性,当真实样本为正时,损失函数乘以
Figure BDA0002923118690000051
当真实样本为负样本时损失函数乘以
Figure BDA0002923118690000052
损失函数乘以其中N为目标总数
Figure BDA0002923118690000053
为预测值,Yxyc为训练集生成的真实值,aβ取值为1。
第二部分,目标位置框左上角坐标点偏移值预测损失计算过程中,以推测网络输出的目标位置框左上角坐标点偏移值预测结果特征图为基础,由于目标位置框左上角坐标点预测的特征图上判定的目标位置框左上角坐标点实际上对应原图的一块区域,具体的目标位置框左上角坐标点位置还需要有一个偏置值来进行计算,偏置值预测的损失计算公式为
Figure BDA0002923118690000061
其中N代表目标总数,R代表原图到特征图下采样倍数,而
Figure BDA0002923118690000062
代表实际的偏差值,
Figure BDA0002923118690000063
代表预测的偏差值,。
第三部分,目标宽高值预测损失记为Lsize,以推测网络输出的目标长宽值预测特征图为基础,特征图中的值为当前特征点对应目标的宽高的预测值,损失值计算公式预测值与实际值差值的平方和除以检测目标总数得到的值。
最后总的损失表达式为Ldet=LksizeLsizeoffsetLoffset,与λsize,λoffset为权重取值分别为0.01与1。
4、构建用于网络训练的有准确标注的合成的T数据集、用于网络训练的无标注的针对文本检测任务实际采集的S数据集、用于测试算法效果的t数据集三类数据集,其中T数据集与S数据集的图片数量比值为10∶1;S2、数据增强与数据预处理使数据适配构建好的网络N,数据增强过程包括随机增加噪声,随机旋转与随机裁剪;S3、使用合成的T数据集训练N网络,训练后的网络为N1;S4、使用N1网络直接对无标注的实际图像数据集S进行测试,将检测的结果与无标注数据集结合成代标注的数据集S1;S5、将teacher数据集与新的S1数据集合并,用于重新训练N1网络,训练后的网络为N2;S6、重复S4,S5步骤,不断更新N1网络,直至达到训练次数阈值,最后一轮中的网络即为最终模型结果N_f;
5.固定训练好的网络模型,整个测试过程中不更新网络,不使用损失函数;把测试数据集合t数据集的每一张图像依次输入网络模型中,每一张图像都会得到相应的预测文本框,达到单字符文本检测的目的,再用生成的文本框和真实的文本框进行相应的计算,得到测试的评估结果。
下面使用自然场景下文本数据集ICDAR2017为例,划分5000张训练图像为S测试集,1000张测试图像为t数据集,通过计算机算法合成50000带标签数据集作为T数据集。
使用合成的T数据集训练N网络,训练后的网络为N1;使用N1网络直接对无标注的实际图像数据集S进行测试,将检测的结果与无标注数据集结合成代标注的数据集S1;将teacher数据集与新的S1数据集合并,用于重新训练N1网络,训练后的网络为N2;重复训练步骤,不断更新网络,直至达到训练次数阈值,最后一轮中的网络即为最终模型结果N_f;。检测结果表现出很好的效果,达到单字符文本检测目标,少量图像可以带来巨大的提升。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (2)

1.一种自然场景图像中字符元素检测方法,其特征在于:所述方法包括以下步骤:
S1:首先图像通过最大池化操作进行目标的非极大抑制,随后通过特征提取网络对非极大抑制后的特征图进行进一步特征提取;
S2:特征整合网络,对特征提取网络中的顶层特征与底层特征进行整合输出;
S3:推测网络,以特征整合网络输出的特征图为基础进行推断,输出目标的目标位置框左上角坐标点推测值和类别判断、坐标点偏移推测值和目标长宽的推测值;通过整合推测值生成字符检测结果,并且根据每一类推测值的特点设计损失函数对网络进行训练;
所述S2具体为:
特征整合网络由特征组合单元组成,组合单元包括:上采样层,用于将特征图尺寸放大;卷积层,对上采样输出特征图进行维度调整;组合层,将输入的一组特征图与经卷积层处理的特征图进行组合并输出;BatchNormalization层加快训练速度并且使网络更加稳定;BatchNormalization层输出的特征图经过卷积层进行处理,进行信息提取与维度调整,卷积层输出的特征图输入到激活层进行激活,最后输出整合结果;
根据原图像的尺寸设置特征融合次数的阈值,确保特征整合网络的输出具有高分辨率;在对图像进行特征提取的过程中,每经过一组特征提取块的特征提取后,首先将处理结果输出至下一组特征提取块进行特征提取,其次保存该处理结果用于后续特征融合;
最后一层特征提取块输出结果后,将该结果与上一层特征提取块的特征图通过特征组合单元进行特征组合,记为整合一次;整合的结果再与上一层特征提取块的输出进行下一次整合,直至达到设定的阈值;
所述S3具体为:
将特征整合网络的最终输出结果经过两层卷积进行最终的特征提取和整合,输出网络预测结果;预测结果包括:通道特征图用于字符目标位置框左上角坐标点预测与类别判定、通道特征图用于字符的目标位置框左上角坐标点偏移值计算、通道特征图用于字符目标的长与宽;
损失函数包含三个部分:字符目标位置框左上角坐标点预测与类别判定的损失函数;目标位置框左上角坐标点预测偏移值的预测损失函数;目标位置框长宽值预测损失函数;
第一部分,字符目标位置框左上角坐标点预测与类别判定损失计算过程中,以推测网络输出的字符目标位置框左上角坐标点预测与类别判定特征图为基础,特征图每一个像素对应原图的一个区域,如果预测结果显示文字目标位置框左上角坐标点在该区域中,特征图上的该点预测值为1,这个特征点附近的其它特征点中该种类对应的值按照高斯分布不断下降;损失计算以二分类交叉熵损失为基础,为保证正负样本不均衡时损失函数的有效性,当真实样本为正时,损失函数乘以
Figure FDA0003679291140000021
当真实样本为负样本时损失函数乘以
Figure FDA0003679291140000022
损失函数乘以其中
Figure FDA0003679291140000023
为预测值,Yxyc为训练集生成的真实值,αβ为经验值;
第二部分,目标位置框左上角坐标点偏移值预测损失计算过程中,以推测网络输出的目标位置框左上角坐标点偏移值预测结果特征图为基础,由于目标位置框左上角坐标点预测的特征图上判定的目标位置框左上角坐标点实际上对应原图的一块区域,具体的目标位置框左上角坐标点位置还需要有一个偏置值来进行计算,偏置值预测的损失计算公式为
Figure FDA0003679291140000024
其中N代表目标总数,R代表原图到特征图下采样倍数,而
Figure FDA0003679291140000025
Figure FDA0003679291140000026
代表实际的偏差值,
Figure FDA0003679291140000027
代表预测的偏差值;
第三部分,目标长宽值预测损失记为Lsize,以推测网络输出的目标长宽值预测特征图为基础,特征图中的值为当前特征点对应目标的长宽的预测值,损失值计算公式预测值与实际值差值的平方和除以检测目标总数得到的值;
最后总的损失表达式为Ldet=LksizeLsizesizeLoffset,与λsize,λoffset为权重。
2.根据权利要求1所述的一种自然场景图像中字符元素检测方法,其特征在于:所述S1具体为:
原始图像首先通过卷积层、BatchNormalization层、激活层和最大池化层组合成的非极大抑制模块以实现目标的非极大抑制;
根据原始图像的尺寸设计特征提取网络,特征提取网络基本结构由卷积层、BatchNormalization层和激活层组成的特征提取块,特征提取网络输入为经过非极大抑制的特征图,每经过一层特征提取块的处理,输出的特征图尺寸较输入时都会下降,特征提取网络中包含的特征提取块数量由原始图像尺寸决定。
CN202110123632.7A 2021-01-29 2021-01-29 一种自然场景图像中字符元素检测方法 Active CN112801092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110123632.7A CN112801092B (zh) 2021-01-29 2021-01-29 一种自然场景图像中字符元素检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110123632.7A CN112801092B (zh) 2021-01-29 2021-01-29 一种自然场景图像中字符元素检测方法

Publications (2)

Publication Number Publication Date
CN112801092A CN112801092A (zh) 2021-05-14
CN112801092B true CN112801092B (zh) 2022-07-15

Family

ID=75812698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110123632.7A Active CN112801092B (zh) 2021-01-29 2021-01-29 一种自然场景图像中字符元素检测方法

Country Status (1)

Country Link
CN (1) CN112801092B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN114511779B (zh) * 2022-01-20 2023-07-25 电子科技大学 场景图生成模型的训练方法、场景图生成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
CN110097044A (zh) * 2019-05-13 2019-08-06 苏州大学 基于深度学习的一阶段车牌检测识别方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN112733822A (zh) * 2021-03-31 2021-04-30 上海旻浦科技有限公司 一种端到端文本检测和识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120254333A1 (en) * 2010-01-07 2012-10-04 Rajarathnam Chandramouli Automated detection of deception in short and multilingual electronic messages
CN103077389B (zh) * 2013-01-07 2016-08-03 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
US11947890B2 (en) * 2019-05-10 2024-04-02 Sandisk Technologies Llc Implementation of deep neural networks for testing and quality control in the production of memory devices
CN110390326A (zh) * 2019-06-14 2019-10-29 华南理工大学 一种基于集聚交叉熵损失函数的序列识别方法
CN110751151A (zh) * 2019-10-12 2020-02-04 上海眼控科技股份有限公司 车身图像的文本字符检测方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109299274A (zh) * 2018-11-07 2019-02-01 南京大学 一种基于全卷积神经网络的自然场景文本检测方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN110097044A (zh) * 2019-05-13 2019-08-06 苏州大学 基于深度学习的一阶段车牌检测识别方法
CN110674807A (zh) * 2019-08-06 2020-01-10 中国科学院信息工程研究所 一种基于半监督与弱监督学习的曲形场景文字检测方法
CN111753828A (zh) * 2020-05-19 2020-10-09 重庆邮电大学 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN112733822A (zh) * 2021-03-31 2021-04-30 上海旻浦科技有限公司 一种端到端文本检测和识别方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Jeonghun Baek等.What if We Only Use Real Datasets for Scene Text Recognition? Toward Scene Text Recognition With Fewer Labels.《2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》.2021,第3113-3122页. *
何沂娟.基于集成学习的非平衡恶意文本检测.《中国优秀硕士学位论文全文数据库 信息科技辑》.2019,(第1期),第I138-2586页. *
史旭鹏等.商标图像中文字元素检测方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2022,(第3期),第I138-2568页. *
孙雷.自然场景图像中的文字检测.《中国博士学位论文全文数据库 信息科技辑》.2015,(第10期),第I138-9页. *
李政.基于自然场景的文字检测与定位研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2020,(第7期),第I138-736页. *
董杨博.场景图像文本定位与字符识别方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2017,(第11期),第I138-268页. *
金翅创客.【技术分享】NLP之自然场景文本检测识别技术综述.《http://mp.ofweek.com/it/a956714238087》.2021,第1页. *

Also Published As

Publication number Publication date
CN112801092A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN109583501B (zh) 图片分类、分类识别模型的生成方法、装置、设备及介质
CN111242841B (zh) 一种基于语义分割和深度学习的图片背景风格迁移方法
CN110033473B (zh) 基于模板匹配和深度分类网络的运动目标跟踪方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN107403130A (zh) 一种字符识别方法及字符识别装置
CN106845430A (zh) 基于加速区域卷积神经网络的行人检测与跟踪方法
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
CN112801092B (zh) 一种自然场景图像中字符元素检测方法
CN111709406B (zh) 文本行识别方法及装置、可读存储介质、电子设备
CN104866868A (zh) 基于深度神经网络的金属币识别方法和装置
CN111986180B (zh) 基于多相关帧注意力机制的人脸伪造视频检测方法
CN110135446B (zh) 文本检测方法及计算机存储介质
CN110619313B (zh) 遥感图像判别性描述生成方法
CN111680706A (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN109710804B (zh) 一种教学视频图像知识点降维分析方法
CN112365514A (zh) 基于改进PSPNet的语义分割方法
CN108345833A (zh) 数学公式的识别方法及系统和计算机设备
CN107220655A (zh) 一种基于深度学习的手写、印刷文本的分类方法
CN114266794B (zh) 基于全卷积神经网络的病理切片图像癌症区域分割系统
CN107967497A (zh) 基于卷积神经网络和极限学习机的手写体识别方法
CN111563563B (zh) 一种手写体识别的联合数据的增强方法
CN110674777A (zh) 一种专利文本场景下的光学字符识别方法
Diqi et al. Design and building Javanese script classification in the state museum of Sonobudoyo Yogyakarta

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant