CN107203606A - 基于卷积神经网络的自然场景下文本检测与识别方法 - Google Patents

基于卷积神经网络的自然场景下文本检测与识别方法 Download PDF

Info

Publication number
CN107203606A
CN107203606A CN201710345645.2A CN201710345645A CN107203606A CN 107203606 A CN107203606 A CN 107203606A CN 201710345645 A CN201710345645 A CN 201710345645A CN 107203606 A CN107203606 A CN 107203606A
Authority
CN
China
Prior art keywords
text
convolutional neural
neural networks
detection
natural scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710345645.2A
Other languages
English (en)
Inventor
王�琦
李学龙
李红丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201710345645.2A priority Critical patent/CN107203606A/zh
Publication of CN107203606A publication Critical patent/CN107203606A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Abstract

本发明提供了一种基于卷积神经网络的自然场景下文本检测与识别方法。该方法通过对快速区域卷积神经网络的训练得到适用于自然场景下文本检测的网络,以进行自然场景下文本的检测;通过进行词汇的收集,得到词典;通过学习文本词汇的特征,训练卷积神经网络分类器,通过对输入区域的分类实现文本的识别。利用本发明的方法,能够在不同复杂程度的背景和不同文本字体、颜色下均得到较好的文本检测与识别效果。

Description

基于卷积神经网络的自然场景下文本检测与识别方法
技术领域
本发明属计算机视觉、物体检测与识别技术领域,具体涉及一种基于快速区域卷积神经网络与卷积神经网络的自然场景下文本检测与识别方法。
背景技术
相较于传统低层次特征的视觉线索,富含清晰高层次语义特征的文本在很多视觉任务中提供了有用的信息,因此检测与识别出自然场景下的文本是计算机视觉中的一项重要技术。通常情况下由于复杂的自然场景,多变的文本分布、字体、颜色,不均匀的光照影响,以及相机的分辨率,使得自然场景下文本的检测与识别变得比较困难。目前,对于文本的检测与识别方法有两大类:
第一种是文本检测与识别区分明确的方法。该方法通常包含四个主要步骤:文本区域的定位、非文本区域的去除、区域中字符的分割、文本的识别。这类方法有明显的文本检测阶段与识别阶段的区分,优点为:整体是从粗到细的过程,许多背景区域在检测及非文本区域的去除阶段就被过滤掉了,很大程度上降低了计算代价;不足之处是当各阶段都使用不相关的方法时,这类方法整体的复杂度很高且各阶段参数的优化难度也会加大,容易导致误差传播。在这种方法类别中也存在很多只是完成文本检测或在已知文本区域的基础上只是完成文本识别的方法。如M.Jaderberg等人在文献“M.Jaderberg,K.Simonyan,A.Vedaldi,andA.Zisserman,Reading Text in the Wild with Convolutional NeuralNetworks,International Journal of Computer Vision.vol.116,no.1,pp.1-20,2016”中提出了一种在proposal(可能的候选区域)的基础上进行文本检测与识别的方法,该方法先进行proposal的提取,将这些proposal作为文本区域的候选区域,然后通过训练的随机森林分类器在这些候选区域的基础上进行非文本区域的去除,将分类留下的区域作为检测得到的文本区域,用卷积神经网络对文本区域的边框进行回归,以得到更为精确的检测框,最后在这些检测框的基础上通过卷积神经网络的分类过程实现文本的识别。
第二种是端对端的文本检测与识别方法。这类方法中没有明显的文本检测阶段与识别阶段的区分,将字符分类的结果作为文本检测与识别的公用线索。其优点在于可以避免进行难度较大的字符分割,不足之处是计算代价较大。如B.Shi等人在文献“B.Shi,X.Bai,and C.Yao,An End-to-End Trainable Neural Network for Image-BasedSequence Recognition and Its Application to Scene Text Recognition.IEEETrans.Pattern Analysis and Machine Intelligence,Dec.2016”中提出先通过卷积神经网络对定高的输入图片进行特征提取,再将得到的特征映射图以列为单位进行划分,按照各列的顺序得到特征序列,输入到由双向深度LSTM(Long-Short Term Memory)组成的循环神经网络中,完成从特征序列到字符序列的映射,再将这个字符序列作为翻译层的输入,得到最终的识别结果。
发明内容
为了应对复杂自然场景下的文本检测与识别问题,本发明提出一种基于卷积神经网络的自然场景下文本检测与识别方法。该方法的主要思想是:通过对快速区域卷积神经网络的训练得到适用于自然场景下文本检测的网络,以进行自然场景下文本的检测;进行词汇的收集,得到词典;通过学习文本词汇的特征,训练卷积神经网络分类器,通过对输入区域的分类实现文本的识别。利用本发明的方法,能够在不同复杂程度的背景和不同文本字体、颜色下均得到较好的检测与识别效果。
一种基于卷积神经网络的自然场景下文本检测与识别方法,其特征在于包括以下步骤:
步骤1:将事先带有文本标注的不同场景的图片集分为训练样本集和测试样本集,一般训练样本集中的图片数量占图片总量的80%以上;所述的文本标注是指含有文本的文本边框和文本内容;
步骤2:收集图片集所有标注数据中的词汇构成一个词典,以对分类结果进行匹配;
步骤3:以ImageNet数据集上训练的网络模型参数作为快速区域卷积神经网络参数的初始值,将训练样本集输入快速区域卷积神经网络,采用随机梯度下降算法进行训练,得到可以进行自然场景下文本检测的快速区域卷积神经网络;
步骤4:截取训练样本集所有图片中的文本标注区域构成新的训练集,将其输入卷积神经网络,以ImageNet数据集上训练的网络模型参数作为卷积神经网络参数的初始值,以softmax作为卷积神经网络的输出层,并令输出层神经元的个数与词典中词汇的个数相等,采用随机梯度下降算法对卷积神经网络进行训练,得到可以进行自然场景下文本识别的卷积神经网络;
步骤5:利用步骤3训练好的快速区域卷积神经网络对输入图像进行处理,得到检测结果,再利用步骤4训练好的卷积神经网络对检测结果进行处理,输出的类别向量中条件概率值最大的一项对应的词典中的词汇即为最终的识别结果。
本发明的有益效果是:通过使用快速区域卷积神经网络,可以有效地进行proposal的提取,在提取proposal的基础上再进行文本的检测,可以减少计算量同时提高检测准确度;利用卷积神经网络以词为单位进行文本识别,避免了难度较大的字符分割过程,同时也避免了因词汇中个别字符的识别错误导致的整个词汇的识别错误;卷积神经网络提取的特征,相较于手工设计的特征或者传统特征,能更本质的反应文本的特点,保证了较高的识别准确度。通过学习得到的检测和识别模型能够更好地扩展到不同的场景,同时能够更好地应对不同的背景变化等其它因素的影响。
附图说明
图1是本发明的一种基于卷积神经网络的自然场景下文本检测与识别方法的流程图
图2是利用本发明方法进行复杂自然场景下的文本检测结果图
图3是利用本发明方法进行复杂自然场景下的文本识别结果图
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明的一种基于卷积神经网络的自然场景下文本检测与识别方法步骤如下:
1、准备数据集
将事先带有文本标注的不同场景的图片集分为训练样本集和测试样本集,一般训练样本集中的图片数量占图片总量的80%以上。所谓的带有文本标注,主要指图片中含有文本并且带有相应的文本边框和文本内容标注。为了能更有效地对自然场景下的文本进行检测和识别,训练样本集的图片中的文本字体、颜色和布局越多样性越好。
2、生成词典
处理标注数据,将其中的词汇收集到一个数组中并保存,构成一个词典,以在识别过程进行匹配,实现从分类器的分类结果到识别结果的映射。
3、训练快速区域卷积神经网络
本发明方法利用在ImageNet数据集上训练的网络模型参数作为快速区域卷积神经网络参数的初始化值,采用随机梯度下降算法最小化目标函数进行网络参数的调整。
本实施例中,采用的目标函数L为:
其中,pi表示候选区域i是文本区域的概率;为ground truth标注,当候选区域i是文本区域时,为1,反之为0;ti是检测的文本区域矩形框左上角和右下角的坐标向量;表示候选区域i对应的ground truth矩形框左上角和右下角的坐标向量;Ncls和Nreg分别是目标函数中两项的规范化值,其中Ncls在本实施例中取值为256(min-batch size),Nreg的值为候选区域的位置数;本实施例中λ取值为10。Lcls为快速区域卷积神经网络预测的候选区域的分类损失,即对预测的每个候选区域进行是或不是文本区域分类的损失,其定义为:
Lreg为网络预测的候选区域的回归损失(回归是指网络预测的候选矩形区域的四个点向该位置处实际的文本标注矩形框对应的四个点靠近的过程),定义为:
其中,R为函数,形式为:
4、训练卷积神经网络
截取训练样本集所有图片中的文本标注区域构成新的训练集,将其输入卷积神经网络,以ImageNet数据集上训练的网络模型参数作为卷积神经网络参数的初始值,以softmax作为卷积神经网络的输出层,并令输出层神经元的个数与词典中词汇的个数相等,采用随机梯度下降算法最小化目标函数进行网络参数的调整。
本实施例中,训练过程中需要最小化的代价函数为:
w*=argmaxw∈WP(w|r)P(w|L) (5)
其中,W表示词典,w表示词典中的一个词汇,r表示输入待识别的文本区域,L表示语言类型,w*表示识别结果。概率P(w|x)由softmax层的输出得到,基于语言的先验P(w|L)通过词典的分析得到,当词汇w在词典中出现时,取值为1,反之为0。
5、文本的检测与识别
对于待测试的自然场景下的输入图片,先将其通过步骤3训练好的快速区域卷积神经网络进行文本检测,将检测结果送入步骤4训练好的卷积神经网络进行词汇的识别,输出的类别向量中条件概率值最大的一项对应的词典中的词汇即为最终的识别结果。
本实施例在中央处理器为i5-3470 3.2GHz GPU、内存16G、Centos操作系统上,运用MATLAB软件进行仿真实验。使用的数据是从公开的数据集ICDAR2013,ICDAR2015,SVT,COCO上下载得到。
首先从1402个预先标注好的文本图片中随机选出1300张作为训练数据集用来训练模型,然后按照具体实施方式中给出的步骤,对剩余的102张图片进行测试实验。以精确率和召回率作为衡量检测效果的指标,结果如表1和表2所示。表1是文本检测阶段精确率和召回率的结果,平均精确率约为88.64%,平均召回率约为72.61%。表明本方法整体检测性能较好。表2是文本识别阶段精确率和召回率的结果,平均精确率约为80.72%,平均召回率约为60.57%。表明本方法整体识别性能较好。
表1
测试图片数 准确率 召回率
102 0.8864 0.7261
表2
测试图片数 准确率 召回率
102 0.8072 0.6057
图2和图3分别为检测、识别结果示意图。图2中用白色矩形框框出来的区域是检测得到的文本区域,图3中左下角白色区域内为识别结果。可以看出,在复杂的自然场景下本发明方法均能准确检测文本并识别出内容,能够在一定程度上应对复杂背景、字体及其颜色变化的影响。

Claims (1)

1.一种基于卷积神经网络的自然场景下文本检测与识别方法,其特征在于包括以下步骤:
步骤1:将事先带有文本标注的不同场景的图片集分为训练样本集和测试样本集,一般训练样本集中的图片数量占图片总量的80%以上;所述的文本标注是指含有文本的文本边框和文本内容;
步骤2:收集图片集所有标注数据中的词汇构成一个词典,以对分类结果进行匹配;
步骤3:以ImageNet数据集上训练的网络模型参数作为快速区域卷积神经网络参数的初始值,将训练样本集输入快速区域卷积神经网络,采用随机梯度下降算法进行训练,得到可以进行自然场景下文本检测的快速区域卷积神经网络;
步骤4:截取训练样本集所有图片中的文本标注区域构成新的训练集,将其输入卷积神经网络,以ImageNet数据集上训练的网络模型参数作为卷积神经网络参数的初始值,以softmax作为卷积神经网络的输出层,并令输出层神经元的个数与词典中词汇的个数相等,采用随机梯度下降算法对卷积神经网络进行训练,得到可以进行自然场景下文本识别的卷积神经网络;
步骤5:利用步骤3训练好的快速区域卷积神经网络对输入图像进行处理,得到检测结果,再利用步骤4训练好的卷积神经网络对检测结果进行处理,输出的类别向量中条件概率值最大的一项对应的词典中的词汇即为最终的识别结果。
CN201710345645.2A 2017-05-17 2017-05-17 基于卷积神经网络的自然场景下文本检测与识别方法 Pending CN107203606A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710345645.2A CN107203606A (zh) 2017-05-17 2017-05-17 基于卷积神经网络的自然场景下文本检测与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710345645.2A CN107203606A (zh) 2017-05-17 2017-05-17 基于卷积神经网络的自然场景下文本检测与识别方法

Publications (1)

Publication Number Publication Date
CN107203606A true CN107203606A (zh) 2017-09-26

Family

ID=59905218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710345645.2A Pending CN107203606A (zh) 2017-05-17 2017-05-17 基于卷积神经网络的自然场景下文本检测与识别方法

Country Status (1)

Country Link
CN (1) CN107203606A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108376244A (zh) * 2018-02-02 2018-08-07 北京大学 一种自然场景图片中的文本字体的识别方法
CN109308475A (zh) * 2018-07-26 2019-02-05 北京百悟科技有限公司 一种字体识别方法及装置
CN109492627A (zh) * 2019-01-22 2019-03-19 华南理工大学 一种基于全卷积网络的深度模型的场景文本擦除方法
CN109711401A (zh) * 2018-12-03 2019-05-03 广东工业大学 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN109753962A (zh) * 2019-01-13 2019-05-14 南京邮电大学盐城大数据研究院有限公司 基于混合网络的自然场景图像中文本区域的处理方法
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110276279A (zh) * 2019-06-06 2019-09-24 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110363049A (zh) * 2018-04-10 2019-10-22 阿里巴巴集团控股有限公司 图形元素检测识别和类别确定的方法及装置
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111461105A (zh) * 2019-01-18 2020-07-28 顺丰科技有限公司 一种文本识别方法和装置
CN112861840A (zh) * 2021-03-10 2021-05-28 上海交通大学 基于多特征融合卷积网络的复杂场景字符识别方法及系统
US11055557B2 (en) 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140023267A1 (en) * 2011-03-10 2014-01-23 Omron Corporation Character string detection device, image processing device, character string detection method, control program and storage medium
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN106022363A (zh) * 2016-05-12 2016-10-12 南京大学 一种适用于自然场景下的中文文字识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140023267A1 (en) * 2011-03-10 2014-01-23 Omron Corporation Character string detection device, image processing device, character string detection method, control program and storage medium
CN104809481A (zh) * 2015-05-21 2015-07-29 中南大学 一种基于自适应色彩聚类的自然场景文本检测的方法
CN106022363A (zh) * 2016-05-12 2016-10-12 南京大学 一种适用于自然场景下的中文文字识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李涛: ""基于卷积神经网络的自然场景文本识别系统"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN107992764B (zh) * 2017-11-28 2021-07-23 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN108154145B (zh) * 2018-01-24 2020-05-19 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108376244A (zh) * 2018-02-02 2018-08-07 北京大学 一种自然场景图片中的文本字体的识别方法
US11055557B2 (en) 2018-04-05 2021-07-06 Walmart Apollo, Llc Automated extraction of product attributes from images
CN110363049A (zh) * 2018-04-10 2019-10-22 阿里巴巴集团控股有限公司 图形元素检测识别和类别确定的方法及装置
CN110363049B (zh) * 2018-04-10 2024-01-12 阿里巴巴集团控股有限公司 图形元素检测识别和类别确定的方法及装置
CN109308475A (zh) * 2018-07-26 2019-02-05 北京百悟科技有限公司 一种字体识别方法及装置
CN111222368A (zh) * 2018-11-26 2020-06-02 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN111222368B (zh) * 2018-11-26 2023-09-19 北京金山办公软件股份有限公司 一种识别文档段落的方法、装置及电子设备
CN109711401A (zh) * 2018-12-03 2019-05-03 广东工业大学 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN109711401B (zh) * 2018-12-03 2023-05-26 广东工业大学 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN109753962A (zh) * 2019-01-13 2019-05-14 南京邮电大学盐城大数据研究院有限公司 基于混合网络的自然场景图像中文本区域的处理方法
CN111461105A (zh) * 2019-01-18 2020-07-28 顺丰科技有限公司 一种文本识别方法和装置
CN111461105B (zh) * 2019-01-18 2023-11-28 顺丰科技有限公司 一种文本识别方法和装置
CN109492627A (zh) * 2019-01-22 2019-03-19 华南理工大学 一种基于全卷积网络的深度模型的场景文本擦除方法
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110276279A (zh) * 2019-06-06 2019-09-24 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN112861840A (zh) * 2021-03-10 2021-05-28 上海交通大学 基于多特征融合卷积网络的复杂场景字符识别方法及系统

Similar Documents

Publication Publication Date Title
CN107203606A (zh) 基于卷积神经网络的自然场景下文本检测与识别方法
WO2020253629A1 (zh) 检测模型训练方法、装置、计算机设备和存储介质
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN108182454A (zh) 安检识别系统及其控制方法
CN108830188A (zh) 基于深度学习的车辆检测方法
CN107016405A (zh) 一种基于分级预测卷积神经网络的害虫图像分类方法
Wahab et al. Multifaceted fused-CNN based scoring of breast cancer whole-slide histopathology images
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN113989662B (zh) 一种基于自监督机制的遥感图像细粒度目标识别方法
CN107133622A (zh) 一种单词的分割方法和装置
CN107909015A (zh) 基于卷积神经网络及空谱信息融合的高光谱图像分类方法
CN104992223A (zh) 基于深度学习的密集人数估计方法
CN108875624A (zh) 基于多尺度的级联稠密连接神经网络的人脸检测方法
CN106228166B (zh) 字符图像的识别方法
CN106408030A (zh) 基于中层语义属性和卷积神经网络的sar图像分类方法
Liu et al. SemiText: Scene text detection with semi-supervised learning
CN111062441A (zh) 基于自监督机制和区域建议网络的场景分类方法及装置
CN107247952B (zh) 基于深层监督的循环卷积神经网络的视觉显著性检测方法
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
CN109189965A (zh) 图像文字检索方法及系统
CN107818299A (zh) 基于融合hog特征和深度信念网络的人脸识别算法
US20230215154A1 (en) Apparatus and method for detecting elements of an assembly
CN108898092A (zh) 基于全卷积神经网络的多光谱遥感影像路网提取方法
CN114399686A (zh) 一种基于弱监督学习的遥感图像地物识别与分类方法和装置
CN114332889A (zh) 文本图像的文本框排序方法和文本图像的文本框排序装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170926