CN110059539A - 一种基于图像分割的自然场景文本位置检测方法 - Google Patents

一种基于图像分割的自然场景文本位置检测方法 Download PDF

Info

Publication number
CN110059539A
CN110059539A CN201910147441.7A CN201910147441A CN110059539A CN 110059539 A CN110059539 A CN 110059539A CN 201910147441 A CN201910147441 A CN 201910147441A CN 110059539 A CN110059539 A CN 110059539A
Authority
CN
China
Prior art keywords
text
random
image
text box
convolutional layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910147441.7A
Other languages
English (en)
Inventor
侯春萍
杨阳
徐金辰
夏晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910147441.7A priority Critical patent/CN110059539A/zh
Publication of CN110059539A publication Critical patent/CN110059539A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转;第二:随机剪裁;第三,随机颜色扰动;构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;设计损失函数;对训练结果进行后处理。

Description

一种基于图像分割的自然场景文本位置检测方法
技术领域
本发明属于目标检测技术领域,涉及一种基于深度学习技术的检测自然场景图像中文本位置的方法。
背景技术
文本检测算法是光学字符识别(Optical Character Recognition,OCR)领域的一个分支。最初的OCR技术是扫描本文,其特点是分辨率高且文字排列整齐有规律,背景简洁,文本区域占图像总体比重较大。扫描文本识别率达到97.38%[1]。随着数码相机的大面积普及,扫描文本算法逐渐不能满足社会需求。被检测的自然图像质量下降,背景复杂,文本方向不确定且占图像整体比重较小,例如识别拍摄街景的照片中包含的路标或者街道铭牌包含的字符。将扫描文本算法应用在这类图像上所取得的效果十分糟糕。
为了跟好的识别自然场景图像中的文本,我们通常将这个任务拆分成多个独立的子任务。第一个子任务一般是文本检测[2],也可以叫做文本定位(Text localization)。这个任务主要是找到图像中文本的位置,其输出是单个字符或者字符串的边界框,也可以称为文本框。第二个子任务是文本识别。将剪裁好的文本框作为输入,得到文本内容作为结果。第三个子任务是端到端识别,这个任务是将前两个任务结合在一起,达到更高的自动化效果。本发明主要涉及一种文本检测的算法。
文本检测与目标检测在方法上有很大的相似之处,但文本和一般物体相比有更大纵横比,因此对文本检测需要作一定的处理来完成识别。本发明主要考虑对文本的定位问题。
[1]Smith R.An Overview of the Tesseract OCR Engine[C]//InternationalConference on Document Analysis&Recognition.2007.
[2]Kai W,Belongie S.Word Spotting in the Wild[M]//Computer Vision–ECCV 2010.2010.
发明内容
本发明的目的是提供一种基于深度学习的方法对自然场景图像中的文本进行定位,将图像中的文本内容与其他背景分开。技术方案如下:
一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:
(1)选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;
(2)数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值;第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上;第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动;
(3)构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;
(4)设计损失函数;
(5)对训练结果进行后处理:预测结果首先连接成文本区域,然后通过调用opencv库中的minAreaRect函数直接提取文本框,接着根据先验知识,利用文本框的几何特征滤除冗余文本框。
附图说明
附图1 txt文档格式
附图2 检测效果图
具体实施方式
为使本发明的技术方案更加清楚,下面结合附图对本发明具体实施方式做进一步地描述。
步骤一:本发明将图片ICDAR2015中第四个挑战第一个任务(challenge4 Task1)的数据集作为训练集和测试集,共包含1500张图片。1000张用于训练,500张用于测试。图片以谷歌眼镜(Google Class)作为图像的采集设备。采取随机拍摄的方式,图像大小统一为1280*760。拍摄时的镜头没有聚焦于文本内容,拍摄完成后,从随机拍摄得到的图像中挑出含有文字的图片并标注,因此ICDAR2015的数据集文本位置较为随机,内容比较模糊,文本方向不确定。文本标注也是以单词为基本单位。所有的单词和文本区域都会被标注出来,但只有可辨识且长度大于3的英文单词或数字才会用于衡量算法性能。每个图片对应一个txt文档,每一行代表一个文本框,包含4个坐标,其格式如图2所示。
步骤二:为了增加训练数据的数量和多样性,本发明采取以下几个方法来实现数据增强。第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值。第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上。第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动。经过上述操作,原图的文本框只会保留一部分,剩余面积不足20%的文本框会被忽略。
步骤三:本发明的网络以VGG16作为基础,VGG16的网络结构如表1所示。为了能将VGG16网络用于分割任务,本发明将网络的全连接层都改为卷积层,具体做法是将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层。转化成全卷积网络的VGG16可以更好地处理分割任务。
表1.VGG16网络结构
改变后的网络需要对完成对每个像素点的预测任务,即判断每个像素点是否为文本或非文本。同时网络选用Softmax作为激活函数。本发明通过SGD(Stochastic gradientdescent,随机梯度下降法)优化训练模型,权值衰减系数设置1×10-4,动量设置为0.5,学习速度为10-3,本发明使用Python2.7和TensorFlow1.1.0来实现,训练使用的batch_size为4,总共进行4万次迭代。
步骤四,设计损失函数:图像中不同的文本框的大小相差很大,因此每个文本像素分配一样权重会影响模型性能。本发明采用实例间的平衡交叉熵损失函数。具体而言,一张图像上含有N个文本框。Si代表第i个文本框的面积,S表示所有文本框的面积之和,则第i个文本框损失权重为:
这样设计的损失函数可以让图像上每个文本框包含的损失函数相同。
步骤五,在通过网络训练之后,还需对训练结果进行后处理。一般的训练得到的深度神经网络模型所输出的位置和置信度回归结果需要通过非极大值抑制(NMS)的方法。但本发明采用得是分割的方法来实现位置回归。因此不能采用非极大值抑制的方法来滤除冗余的文本框。本发明首先将预测为正的像素点组成一个连同集合分量来作为文本框的分割结果,每个连通分量代表一个文本框。其次通过调用opencv中的minAreaRect函数来提取每个预测文本的连同集合。MinAreaRect函数的作用是可以求得包含点集的最小外接矩形,这个矩形可以有偏转角度,不需要和图像边界平行,这样可以实现任意方向的文本框预测,而不再是单一的水平方向文本,这样可以更好地自然场景图像中文本框的检测任务。最后根据拍摄图像中的文本框的几何特征,对多余的文本框进行滤除,提高检测准确率。根据先验知识,预测文框的短边长度和面积的阈值分别设置为10和300。图2显示了我们在电网数据集上的检测效果。
概括而言,本发明的步骤如下:
1.选取数据集。本发明采用ICDAR2015中第四个挑战第一个任务(challenge4Task1)的数据集作为训练集和测试集。
2.数据增强。数据增强是训练深度学习模型常用的方法,这种方法可以有效的缓解过拟合问题。本发明采用三种基本的数据增强方式来增加训练数据的数量和多样性,分别是随机剪裁、随机旋转和颜色随机扰动。
3.构建训练神经网络。本发明将VGG16作为基础网络,为了更好地完成文本检测过程,本发明依照分割的思想对文本进行逐像素预测。最后得到每个像素点的预测结果。
4.预测结果首先需要连接成文本区域,然后通过调用opencv库中的minAreaRect函数直接提取文本框,接着根据先验知识,利用文本框的几何特征滤除冗余文本框。最后对实验数据进行分析与处理,评价本系统的识别准确度。
测试集共有500张图片,Recall值达到82.0,Precision值达到85.5,F-Score值达到83.7%。可以有效地帮助计算机理解采集到的图像信息,为后续工作打下基础。

Claims (1)

1.一种基于图像分割的自然场景文本位置检测方法,包括下列步骤:
(1)选取数据集;挑选含有文字的图像并标注,制作训练集和测试集;
(2)数据增强:第一,随机旋转:以0.25的概率对图片进行随机旋转,旋转角度的数值分别是0、90、180、270四个数值;第二:随机剪裁,对旋转后的图像进行随机剪裁,剪裁区域与原图面积比在0.1到1之间,纵横比在0.5到2之间,保证每次剪裁出的区域至少包含一个文本框的10%以上;第三,随机颜色扰动:用随机数值对图像的亮度、饱和度于色彩值进行扰动;
(3)构建训练神经网络:VGG16作为基础网络,将网络的全连接层都改为卷积层,即将Pooling5的输出保持不变,将Fc6变成7*7*512的卷积层,Fc7和Fc8则使用1*1的卷积核变为卷积层,依照分割的思想对文本进行逐像素预测,最后得到每个像素点的预测结果;
(4)设计损失函数;
(5)对训练结果进行后处理:预测结果首先连接成文本区域,然后通过调用opencv库中的minAreaRect函数直接提取文本框,接着根据先验知识,利用文本框的几何特征滤除冗余文本框。
(6)根据权利要求1所述的方法,其特征在于,步骤(4)如下:设图像上含有N个文本框;Si代表第i个文本框的面积,S表示所有文本框的面积之和,则第i个文本框损失权重wi的计算公式可以为:
CN201910147441.7A 2019-02-27 2019-02-27 一种基于图像分割的自然场景文本位置检测方法 Pending CN110059539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910147441.7A CN110059539A (zh) 2019-02-27 2019-02-27 一种基于图像分割的自然场景文本位置检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910147441.7A CN110059539A (zh) 2019-02-27 2019-02-27 一种基于图像分割的自然场景文本位置检测方法

Publications (1)

Publication Number Publication Date
CN110059539A true CN110059539A (zh) 2019-07-26

Family

ID=67316504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910147441.7A Pending CN110059539A (zh) 2019-02-27 2019-02-27 一种基于图像分割的自然场景文本位置检测方法

Country Status (1)

Country Link
CN (1) CN110059539A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728307A (zh) * 2019-09-20 2020-01-24 天津大学 自生成数据集与标签实现x光影像图小样本字符识别方法
CN110751154A (zh) * 2019-09-27 2020-02-04 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111738255A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于深度学习的路牌文本检测与识别算法
CN112132137A (zh) * 2020-09-16 2020-12-25 山西大学 一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法
CN112633267A (zh) * 2020-12-11 2021-04-09 苏州浪潮智能科技有限公司 一种图片的文本定位方法、系统、设备以及介质
CN114493094A (zh) * 2021-12-15 2022-05-13 重庆师范大学 一种中小学劳动教育智慧评价系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
US10198671B1 (en) * 2016-11-10 2019-02-05 Snap Inc. Dense captioning with joint interference and visual context
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN108898131A (zh) * 2018-05-23 2018-11-27 郑州金惠计算机系统工程有限公司 一种复杂自然场景下的数字仪表识别方法
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JMT330: "PixelLink:通过实例分割进行场景文本检测", 《HTTPS://WWW.JIANSHU.COM/P/1EBA49915915?UTM_CAMPAIGN=MALESKINE&UTM_CONTENT=NOTE&UTM_MEDIUM=SEO_NOTES&UTM_SOURCE=RECOMMENDATION》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728307A (zh) * 2019-09-20 2020-01-24 天津大学 自生成数据集与标签实现x光影像图小样本字符识别方法
CN110751154A (zh) * 2019-09-27 2020-02-04 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN110751154B (zh) * 2019-09-27 2022-04-08 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111738255A (zh) * 2020-05-27 2020-10-02 复旦大学 一种基于深度学习的路牌文本检测与识别算法
CN112132137A (zh) * 2020-09-16 2020-12-25 山西大学 一种基于FCN-SPP-Focal Net的抽象画图像正确方向的识别方法
CN112633267A (zh) * 2020-12-11 2021-04-09 苏州浪潮智能科技有限公司 一种图片的文本定位方法、系统、设备以及介质
CN114493094A (zh) * 2021-12-15 2022-05-13 重庆师范大学 一种中小学劳动教育智慧评价系统
CN114493094B (zh) * 2021-12-15 2024-05-07 重庆师范大学 一种中小学劳动教育智慧评价系统

Similar Documents

Publication Publication Date Title
CN110059539A (zh) 一种基于图像分割的自然场景文本位置检测方法
CN110059694B (zh) 电力行业复杂场景下的文字数据的智能识别方法
CN110956185B (zh) 一种图像显著目标的检测方法
CN111784685B (zh) 一种基于云边协同检测的输电线路缺陷图像识别方法
CN109117836B (zh) 一种基于焦点损失函数的自然场景下文字检测定位方法和装置
CN111767927A (zh) 一种基于全卷积网络的轻量级车牌识别方法及系统
Tian et al. Multiscale building extraction with refined attention pyramid networks
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN110689021A (zh) 一种基于深度学习的低可见度环境下实时目标检测方法
Liu et al. Super-pixel cloud detection using hierarchical fusion CNN
CN106548169A (zh) 基于深度神经网络的模糊文字增强方法及装置
CN112819837B (zh) 一种基于多源异构遥感影像的语义分割方法
Yoshihashi et al. Bird detection and species classification with time‐lapse images around a wind farm: Dataset construction and evaluation
CN113435407B (zh) 一种输电系统的小目标识别方法及装置
CN110349167A (zh) 一种图像实例分割方法及装置
CN111767878A (zh) 嵌入式设备中基于深度学习的交通标志检测方法及系统
CN113160062A (zh) 一种红外图像目标检测方法、装置、设备及存储介质
CN110599453A (zh) 一种基于图像融合的面板缺陷检测方法、装置及设备终端
CN114140665A (zh) 一种基于改进YOLOv5的密集小目标检测方法
CN111639530A (zh) 一种输电线路的输电塔和绝缘子的检测和识别方法及系统
CN113887472A (zh) 基于级联颜色及纹理特征注意力的遥感图像云检测方法
CN109657082A (zh) 基于全卷积神经网络的遥感图像多标签检索方法及系统
Liu et al. Cloud detection using super pixel classification and semantic segmentation
CN109657728A (zh) 样例生产方法及模型训练方法
CN113221991A (zh) 一种利用深度学习重新标注数据集的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190726

WD01 Invention patent application deemed withdrawn after publication