CN107688808B - 一种快速的自然场景文本检测方法 - Google Patents
一种快速的自然场景文本检测方法 Download PDFInfo
- Publication number
- CN107688808B CN107688808B CN201710665997.6A CN201710665997A CN107688808B CN 107688808 B CN107688808 B CN 107688808B CN 201710665997 A CN201710665997 A CN 201710665997A CN 107688808 B CN107688808 B CN 107688808B
- Authority
- CN
- China
- Prior art keywords
- convolution
- module
- filling
- size
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/23—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
该发明公开了一种快速的自然场景文本检测方法,涉及图像处理领域,特别是用于文本检测的卷积神经网络的新型应用技术。提出一个快速的特征提取小网络,使用inception模块,采用小卷积核,减少参数,缩小网络,加快运行速度。添加一个反卷积层用于融合多尺度信息,提高检测精度。检测阶段采用基于SSD的检测框架,对预置框的宽高比例进行改进,采用了适应文本特征的比例。本发明提出的方法在公开数据集上进行测试,验证了方法的有效性和实时性。
Description
技术领域
本发明涉及图像处理领域,特别是用于文本检测的卷积神经网络的新型应用技术。
背景技术
一直以来,文本都在人们的生活中发挥着重要的作用。文本中包含的丰富而精确的信息对基于视觉的应用来说非常重要,比如:图像检索、目标定位、人机交互、机器人导航以及工业自动化等等。自动的文本检测提供了一种获取、利用图片与视频中文本信息的方法,因而成为计算机视觉和文档分析领域的热门研究课题。
在计算机视觉领域,有诸多方法可以用于文本检测。传统的文本检测方法通常是基于纹理和连通域信息的,最常用的方法有笔划宽度变换(SWT)、笔划特征变换(SFT)和最大稳定极值区域(MSER)法。这些方法都是通过人工选择特征,并不能很好地描述文本中的语义信息以适应文本的多样性。例如基于SWT的算法对于边缘信息较少的模糊图像效果很差,基于MSER的算法无法检测出不是MSER区域的文字。另外人工设计的特征会带来大量的参数,这些参数往往需要针对不同的图像做出具体的调整,不具有普适性,算法的鲁棒性较差。而且在一些场景复杂的自然图像上,可能无法区分与文本类似的背景区域,检测效果不理想。与这些人工选择的特征相比,深度学习方法提取到的特征具有很大的优势。
深度学习网络在特征提取方面巨大的优越性使得其在目标检测、图像分类和语义分割上有出色的表现。一些优秀的深度网络,如:AlexNet、VGG Net、GoogLeNet和ResNet都得到了广泛的应用。有效的特征提取网络为目标检测等任务提供了坚实的基础。
基于深度学习的通用目标检测方法可以分为两大类:基于区域的方法和基于回归的方法。前者比如:Fast-RCNN、Faster-RCNN和R-FCN,这些方法能够获得很高的准确率,但运行速度较慢。后者比如:SSD和YOLO,这些方法追求算法的实时性但也能获得尚可的检测结果。在这些方法中,SSD因其速度快、精度高而成为一种广泛应用的高效算法。
目前,有一些基于深度卷积网络的文本检测工作,如:将LSTM与Faster-RCNN相结合的算法,将RPN与Fast-RNN相结合的算法,这些算法检测效果好,但速度较慢。另外,也有基于SSD的文本检测算法,能够在提高速度的同时满足精度要求。
发明内容
本发明解决的技术问题包括:现有公开的训练文本数据库数量不充足的问题,现有技术中因网络参数过多而训练样本太少所产生的过拟合问题,从而准确检测出图像中文本信息。
本发明技术方案为一种快速的自然场景文本检测方法,该方法包括:
步骤1:获取充足的训练文本数据,对获取的训练文本进行人工标定文字的位置和类别,将每一幅训练样本进行图像处理,获得额外的训练样本,对所有的训练样本进行归一化处理;
步骤2:建立一个特征提取网络,根据该特征提取网络提取出各训练样本的高层次语义特征;
步骤3:根据步骤2提取的全局特征,输入检测器,识别出图像中文字的位置;
其特征在于,所述步骤2中包括1个输入模块、第一、二卷积模块、第一至第七共7个卷积网络、1个池化模块、1个反卷积模块、1个级联模块;其中输入模块作为第一卷积模块的输入,第一、二卷积模块、第一至第七卷积网络、池化模块依次级联;额外的第四卷积网络的输出作为反卷积模块的输入,反卷积模块的输出与第三卷积网络的输出共同作为级联模块的输入,所述级联模块是将反卷积模块与第三卷积网络的输出进行级联;所述级联模块、第五、七卷积网络、池化模块的输出作为整个特征提取网路的输出。
进一步的,所述第一至第七卷积网络包括输入谱端、特征谱级联端,所述输入谱端和特征谱级联端之间通过并联的多条卷积支路连接,每条卷积支路上包括1、2或3个卷积模块。所述卷积网络采用了多条支路并联的结构,不同支路上的卷积模块使用不同大小的卷积核,更好地利用了多尺度的特征信息,使得多尺度信息得以融合,有效提高了提取到的特征质量。
进一步的,所述第一卷积模块的卷积核的大小为3*3、步长为1、填充为1,第二卷积模块的卷积核大小为1*1,步长为1,填充为0。所述第一、二卷积模块位于整个特征提取网络的前端,用于提取底层的边缘特征,选用较小的卷积核能够在更好地提取图像中的细节特征的同时,显著减少网络的参数,加快运行速度。
进一步的,第一卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为5*5,步长为1,填充为2的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为3*3,步长为1,填充为1的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第二、三卷积网络与第一卷积网络的结构相同;
第四卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为3*3,步长为2,填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为1的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第五卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为1*7,步长为1,纵向填充为3的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为7*1,步长为1,横向填充为3的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第六卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第七卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第四条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块。
所述第一至第七卷积网络均采用多条卷积支路并联的结构,采用多种尺度和形状的卷积核,能够针对不同尺度和形状的的文本目标进行特征提取。
本文提出一个快速的特征提取小网络,使用inception模块,采用小卷积核,减少参数,缩小网络,加快运行速度。添加一个反卷积层用于融合多尺度信息,提高检测精度。检测阶段采用基于SSD的检测框架,对预置框的宽高比例进行改进,采用了适应文本特征的比例。本发明提出的方法在公开数据集上进行测试,验证了方法的有效性和实时性。
附图说明
图1为本发明网络结构图;
图2为inception结构示意图;
图3为本发明的检测结果图。
具体实施方式
首先,集合了几个公开数据库——ICDAR2013、HUST-TR400、SVT中的训练数据,得到约800张训练图片,拍摄以及从网络上搜集到不同背景、光照、字体的图像样本约2000张。之后对2916张训练样本进行人工标注。在权威的公开数据库ICDAR2013测试集上进行的。在训练时将样本的大小归一化到448*448。
本发明主要可以分为卷积神经网络的学习和测试两个部分,全部工作可以分为以下5个步骤:
步骤一、特征提取网络预训练:在ImageNet数据库上对设计的特征提取小网络进行预训练。由于网络参数较多而样本较少,为了避免过拟合,在训练时随机地将图像从300*300裁剪到224*224,用以网络训练,以增加样本数。设置初始学习率为0.1,每迭代2*105次学习率乘以0.1。按照0.3的丢失率随机丢弃30%的参数。
步骤二、构建文本检测数据库并进行标注:首先针对提出的问题,建立一个包含不同光照、背景、字体的自然场景文本的数据库,包含2916张训练样本和233张测试样本,这些图像样本部分取自公开的数据库,部分来自于拍摄以及网络上的收集。所有的图像大小都归一化到448*448。
步骤三、对数据库中的未标注图像进行人工标注文本的ground truth,通过画框同时标注出目标位置(左上角坐标和宽高)和类别标签,在这里,目标只有一类,即文本。
步骤四、训练文本检测网络:将文本检测网络在步骤二提出的数据库上进行微调训练。该步骤包括以下几个关键点:
1.设置6种不同宽高比的预置框,分别为:1,2,3,5,7,和10。修改检测类别数为2(文本标签为1,背景为0)。
2.检测层的卷积核大小设置为宽为5,高为1,以适应文本特征。
3.设置初始学习率为0.0001,每迭代2*104次学习率乘以0.1。在该过程中使用随机梯度下降法优化公式(1)中定义的能量损失函数,最终得到深度网络模型。
步骤五、对学习好的模型进行测试:该步骤中,将归一化的测试图像输入网络模型中,网络输出为文本目标的位置和文本的置信度打分,部分测试结果如图3所示;
在ICDAR数据集上进行测试,对比fast TextBoxes、SSD和本文方法的准确率、召回率和运行时间,得到如下表所示的结果:
对比结果表明,在准确率和召回率相当的情况下,本文提出的网络能够显著加快运行速度。
Claims (2)
1.一种快速的自然场景文本检测方法,该方法包括:
步骤1:获取充足的训练文本数据,对获取的训练文本进行人工标定文字的位置和类别,将每一幅训练样本进行图像处理,获得额外的训练样本,对所有的训练样本进行归一化处理;
步骤2:建立一个特征提取网络,根据该特征提取网络提取出各训练样本的高层次语义特征;
步骤3:根据步骤2提取的全局特征,输入检测器,识别出图像中文字的位置;
其特征在于,所述步骤2中包括1个输入模块、第一、二卷积模块、第一至第七共7个卷积网络、1个池化模块、1个反卷积模块、1个级联模块;其中输入模块作为第一卷积模块的输入,第一、二卷积模块、第一至第七卷积网络、池化模块依次级联;额外的第四卷积网络的输出作为反卷积模块的输入,反卷积模块的输出与第三卷积网络的输出共同作为级联模块的输入,所述级联模块是将反卷积模块与第三卷积网络的输出进行级联;所述级联模块、第五、七卷积网络、池化模块的输出作为整个特征提取网路的输出;
所述第一卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为5*5,步长为1,填充为2的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为3*3,步长为1,填充为1的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第二、三卷积网络与第一卷积网络的结构相同;
第四卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为3*3,步长为2,填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为1的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第五卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为1*7,步长为1,纵向填充为3的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,2个卷积核大小为7*1,步长为1,横向填充为3的卷积模块;第四条卷积支路上包括1个核的大小为3*3,步长为1,填充为1的池化模块,1个卷积核大小为1*1,步长为1,填充为0的卷积模块;
第六卷积网络包括并联的3条卷积支路,第一条卷积支路上包括1个核大小为3*3,步长为2,填充为0的池化模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为7*1,步长为1,横向填充为3的卷积模块,1个卷积核大小为3*3,步长为2,填充为0的卷积模块;
第七卷积网络包括并联的4条卷积支路,第一条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第二条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块;第三条支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为3*1,步长为1,横向填充为1的卷积模块;第四条卷积支路上包括1个卷积核大小为1*1,步长为1,填充为0的卷积模块,1个卷积核大小为3*3,步长为1,填充为1的卷积模块,1个卷积核大小为1*3,步长为1,纵向填充为1的卷积模块。
2.如权利要求1所述的一种快速的自然场景文本检测方法,其特征在于所述第一卷积模块的卷积核的大小为3*3、步长为1、填充为1,第二卷积模块的卷积核大小为1*1,步长为1,填充为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710665997.6A CN107688808B (zh) | 2017-08-07 | 2017-08-07 | 一种快速的自然场景文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710665997.6A CN107688808B (zh) | 2017-08-07 | 2017-08-07 | 一种快速的自然场景文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688808A CN107688808A (zh) | 2018-02-13 |
CN107688808B true CN107688808B (zh) | 2021-07-06 |
Family
ID=61153244
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710665997.6A Active CN107688808B (zh) | 2017-08-07 | 2017-08-07 | 一种快速的自然场景文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107688808B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108564035B (zh) | 2018-04-13 | 2020-09-25 | 杭州睿琪软件有限公司 | 识别单据上记载的信息的方法及系统 |
CN108764228A (zh) * | 2018-05-28 | 2018-11-06 | 嘉兴善索智能科技有限公司 | 一种图像中文字目标检测方法 |
CN109002863B (zh) * | 2018-06-27 | 2022-04-15 | 佛山市顺德区中山大学研究院 | 一种基于紧凑卷积神经网络的图像处理方法 |
CN108985231B (zh) * | 2018-07-12 | 2021-08-13 | 广州麦仑信息科技有限公司 | 一种基于多尺度卷积核的掌静脉特征提取方法 |
CN109214383A (zh) * | 2018-07-17 | 2019-01-15 | 北京陌上花科技有限公司 | 一种图像识别方法及装置 |
CN109214333A (zh) * | 2018-08-31 | 2019-01-15 | 厦门中控智慧信息技术有限公司 | 卷积神经网络结构、人脸属性识别方法、装置及终端设备 |
CN109447078B (zh) * | 2018-10-23 | 2020-11-06 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109508675B (zh) * | 2018-11-14 | 2020-07-28 | 广州广电银通金融电子科技有限公司 | 一种针对复杂场景的行人检测方法 |
CN111461105B (zh) * | 2019-01-18 | 2023-11-28 | 顺丰科技有限公司 | 一种文本识别方法和装置 |
CN109919025A (zh) * | 2019-01-30 | 2019-06-21 | 华南理工大学 | 基于深度学习的视频场景文本检测方法、系统、设备及介质 |
CN109934181A (zh) * | 2019-03-18 | 2019-06-25 | 北京海益同展信息科技有限公司 | 文本识别方法、装置、设备和计算机可读介质 |
CN111783756B (zh) * | 2019-04-03 | 2024-04-16 | 北京市商汤科技开发有限公司 | 文本识别方法及装置、电子设备和存储介质 |
CN110210400B (zh) * | 2019-06-03 | 2020-11-17 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110276445A (zh) * | 2019-06-19 | 2019-09-24 | 长安大学 | 基于Inception卷积模块的国内交通标志分类方法 |
CN110263877B (zh) * | 2019-06-27 | 2022-07-08 | 中国科学技术大学 | 场景文字检测方法 |
CN110533041B (zh) * | 2019-09-05 | 2022-07-01 | 重庆邮电大学 | 基于回归的多尺度场景文本检测方法 |
CN110751232A (zh) * | 2019-11-04 | 2020-02-04 | 哈尔滨理工大学 | 一种中文复杂场景文本检测与识别方法 |
CN111428718B (zh) * | 2020-03-30 | 2023-05-09 | 南京大学 | 一种基于图像增强的自然场景文本识别方法 |
CN112446372B (zh) * | 2020-12-08 | 2022-11-08 | 电子科技大学 | 基于通道分组注意力机制的文本检测方法 |
CN113095444B (zh) * | 2021-06-07 | 2021-09-17 | 北京智芯微电子科技有限公司 | 图像标注方法、装置及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455823A (zh) * | 2013-08-27 | 2013-12-18 | 电子科技大学 | 一种基于分类模糊及图像分割的英文字符识别方法 |
CN104794504A (zh) * | 2015-04-28 | 2015-07-22 | 浙江大学 | 基于深度学习的图形图案文字检测方法 |
CN106710589A (zh) * | 2016-12-28 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
-
2017
- 2017-08-07 CN CN201710665997.6A patent/CN107688808B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455823A (zh) * | 2013-08-27 | 2013-12-18 | 电子科技大学 | 一种基于分类模糊及图像分割的英文字符识别方法 |
CN104794504A (zh) * | 2015-04-28 | 2015-07-22 | 浙江大学 | 基于深度学习的图形图案文字检测方法 |
CN106710589A (zh) * | 2016-12-28 | 2017-05-24 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
Non-Patent Citations (3)
Title |
---|
Going Deeper with Convolutions;Christian Szegedy等;《2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)》;20150612;第4页左栏第2段、右栏第2段、图2(b) * |
High Performance Offline Handwritten Chinese Character Recognition Using GoogLeNet and Directional Feature Maps;Zhuoyao Zhong等;《2015 13th International Conference on Document Analysis and Recognition(ICDAR)》;20150826;第Ⅲ部分第2段、第Ⅴ部分A-B节、图2 * |
Zhuoyao Zhong等.High Performance Offline Handwritten Chinese Character Recognition Using GoogLeNet and Directional Feature Maps.《2015 13th International Conference on Document Analysis and Recognition(ICDAR)》.2015,第1-5页. * |
Also Published As
Publication number | Publication date |
---|---|
CN107688808A (zh) | 2018-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107688808B (zh) | 一种快速的自然场景文本检测方法 | |
CN110533084B (zh) | 一种基于自注意力机制的多尺度目标检测方法 | |
CN108562589B (zh) | 一种对磁路材料表面缺陷进行检测的方法 | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN109509187B (zh) | 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法 | |
CN107833213B (zh) | 一种基于伪真值自适应法的弱监督物体检测方法 | |
Zamberletti et al. | Text localization based on fast feature pyramids and multi-resolution maximally stable extremal regions | |
Yogesh et al. | Computer vision based analysis and detection of defects in fruits causes due to nutrients deficiency | |
CN106846362B (zh) | 一种目标检测跟踪方法和装置 | |
CN110751232A (zh) | 一种中文复杂场景文本检测与识别方法 | |
Termritthikun et al. | NU-InNet: Thai food image recognition using convolutional neural networks on smartphone | |
CN107730553B (zh) | 一种基于伪真值搜寻法的弱监督物体检测方法 | |
Nagaoka et al. | Text detection by faster R-CNN with multiple region proposal networks | |
Zhu et al. | Deep residual text detection network for scene text | |
CN111382766A (zh) | 一种基于Faster R-CNN的设备故障检测方法 | |
Zhang et al. | Automatic discrimination of text and non-text natural images | |
CN112862849A (zh) | 一种基于图像分割和全卷积神经网络的田间稻穗计数方法 | |
CN110309810A (zh) | 一种基于批次中心相似度的行人重识别方法 | |
CN115115825B (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 | |
Zhong et al. | Improved localization accuracy by locnet for faster r-cnn based text detection | |
CN110119739B (zh) | 一种冰晶图片的自动分类方法 | |
CN113327227B (zh) | 一种基于MobilenetV3的小麦头快速检测方法 | |
Zhu et al. | Scene text relocation with guidance | |
CN111797704A (zh) | 一种基于相关物体感知的动作识别方法 | |
CN106548118A (zh) | 影院放映内容的识别检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |