CN114049625B - 基于新型图像收缩方法的多方向文本检测方法 - Google Patents

基于新型图像收缩方法的多方向文本检测方法 Download PDF

Info

Publication number
CN114049625B
CN114049625B CN202111369003.9A CN202111369003A CN114049625B CN 114049625 B CN114049625 B CN 114049625B CN 202111369003 A CN202111369003 A CN 202111369003A CN 114049625 B CN114049625 B CN 114049625B
Authority
CN
China
Prior art keywords
text
feature map
network
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111369003.9A
Other languages
English (en)
Other versions
CN114049625A (zh
Inventor
王�琦
韩旭
袁媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202111369003.9A priority Critical patent/CN114049625B/zh
Publication of CN114049625A publication Critical patent/CN114049625A/zh
Application granted granted Critical
Publication of CN114049625B publication Critical patent/CN114049625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于新型图像收缩方法的多方向文本检测方法。首先,对数据集中的训练集图像进行增强和归一化预处理;然后,采用收缩处理得到图像的文本核心区域标签;接着,构建文本检测网络并进行网络训练,通过特征提取、特征融合、二值化和区域处理,预测得到文本区域和文本核心区域;最后,将测试集图像输入训练好的网络,得到文本检测结果。本发明通过采用新型的文本核收缩方式,在分离相邻文本实例的前提下,能够大大提高自然场景下多方向文本检测的能力。

Description

基于新型图像收缩方法的多方向文本检测方法
技术领域
本发明属计算机视觉、图形处理技术领域,具体涉及一种基于新型图像收缩方法的多方向文本检测方法。
背景技术
自然场景下的文本检测是自然场景下文本识别的重要步骤,虽然传统的OCR光学识别技术已经日渐成熟,但对于自然场景下的文本检测与识别任务来说,仍存在着很多难题。复杂多变的自然场景背景,对文本检测与识别带来了很大的困扰,例如建筑物的标志和花纹,与文本很类似,容易造成错误识别,而且很多拍摄的图片存在光照不同、物体遮挡等问题,为文本检测与识别增加了难度。
Zhou X等在文献“Zhou,X.,Yao,C.,Wen,H.,Wang,Y.,Zhou,S.,He,W.,&Liang,J.(2017).East:an efficient and accurate scene text detector.In Proceedings ofthe IEEE conference on Computer Vision and Pattern Recognition(pp.5551-5560).”中提出采用U-net的方法进行特征合,并根据不同文本形状输出水平矩形和多方向矩形以及其分数,利用Locality-Aware NMS对结果进行过滤,这种网络结构对多层次的特征融合效果并不好,在数据集上的表现也不好。Liao M等在文献“Liao M,Shi B,Bai X,etal.Textboxes:A fast text detector with a single deep neural network[C]//Proceedings of the AAAI conference on artificial intelligence.2017,31(1).”中提出了通过修改默认框以及卷积核来有效捕捉文本的Textboxes方法,具体基于全连接的神经网络,直接输出文本框的坐标,同时预测文本存在以及文本框偏移,最后是一个非最大化抑制处理。但是对于一些长宽比特别大的文本检测效果不好。Wang W等在文献“Wang W,Xie E,Li X,et al.Shape robust text detection with progressive scale expansionnetwork[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2019:9336-9345.”中提出了一种先收缩再扩张的分割方法,采用根据面积与周长比来进行文本收缩的方法,通过求得文本的七个层次的核心区域,层层扩张,称为PSE(progressive scale expansion)方法,用来解决传统分割相邻实例边缘粘连问题,但还是有同一文本实例因字符相距太远而被预测为多个文本实例的问题。
发明内容
为了克服现有技术的不足,本发明提供一种基于新型图像收缩方法的多方向文本检测方法。首先,对数据集中的训练集图像进行增强和归一化预处理;然后,采用收缩处理得到图像的文本核心区域标签;接着,构建文本检测网络并进行网络训练,通过特征提取、特征融合、二值化和区域处理,预测得到文本区域和文本核心区域;最后,将测试集图像输入训练好的网络,得到文本检测结果。本发明通过采用新型的文本核收缩方式,在分离相邻文本实例的前提下,能够大大提高自然场景下多方向文本检测的能力。
一种基于新型图像收缩方法的多方向文本检测方法,其特征在于步骤如下:
步骤1:对文本图像数据集ICDAR2015的训练集中的每一幅图像进行增强处理,再进行归一化处理,得到训练用数据;所述的增强处理包括随机旋转和随机裁剪;
步骤2:对于训练用数据中每一幅图像,按以下过程完成文本核心区域标签:
首先,按下式计算得到文本实例向内收缩像素值d:
d=min(x3-x0,x2-x1,y1-y0,y2-y3)*T (1)
其中,(x0,y0)、(x1,y1)、(x2,y2)、(x3,y3)是标记文本区域的四个端点的横纵坐标值;
然后,将原文本区域的四个端点均向内收缩d个像素,以收缩后的四个端点作为文本核心区域的四个端点,完成文本核心区域标记;
步骤3:将训练用数据中的图像输入到文本检测网络,对网络进行训练,迭代16K次,得到训练好的网络;
所述的文本检测网络的具体处理过程为:将图像输入到特征提取网络,提取得到不同尺度特征图,将不同尺度特征图输入特征融合网络,得到融合后的特征图像;将融合后的特征图像分别输入到文本区域检测头和文本核心区域检测头网络,检测得到文本区域预测图像和文本核心区域预测图像;对文本核心区域预测图像进行二值化处理,再采用cv2.connectedComponents函数进行处理,得到连通域,去除面积小于5像素的连通域,得到预测的文本核心区域;使用广搜BFS算法对预测的文本核心区域进行扩张,再进行填充,将面积小于800像素的实例去除,得到预测的文本区域;分别采用dice loss损失函计算预测的文本区域标签损失和文本核心区域标签损失;
步骤4:将测试集图像输入到步骤3训练好的文本检测网络,预测得到的文本区域即为最终的文本检测结果。
进一步地,所述的特征提取网络采用resnet-50网络,提取得到4个不同尺度依次减小的特征图,分别记为C2、C3、C4、C5;
所述的特征融合网络的具体处理过程为:将C4特征图、卷积网络上采样的C5特征图、卷积网络下采样的C2特征图、卷积网络下采样的C3特征图相加得到特征图S4,将C3特征图、卷积网络上采样的C5特征图、S4特征图、卷积网络下采样的C2特征图相加得到特征图S3,将C2特征图、卷积网络上采样的C5特征图、S4特征图、S3特征图相加得到特征图S2,将C5特征图、S4特征图、S3特征图分别进行卷积网络上采样,使其与特征图S2大小相同,最后将S2特征图、上采样的S3特征图、上采样的S4特征图、上采样的C5特征图相加得到特征图像。
所述的文本区域检测头网络和文本核心区域检测头网络均采用2层卷积神经网络,包括1个3*3卷积核和1个1*1卷积核。
本发明的有益效果是:由于采用了新型的文本收缩方法,能较为准确的表示文本核心区域,使得网络能够更好地学习到文本核心区域的特征;由于采用了新的特征融合网络,使特征图能够更好地表达文本区域,得到更好的检测结果。本发明相较于现有方法能够获得更高文本检测查准率和查全率。
附图说明
图1是本发明基于新型图像收缩方法的多方向文本检测方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于新型图像收缩方法的多方向文本检测方法,其具体实现过程如下:
步骤1:输入ICDAR2015数据集,它是仿文本检测领域比较著名的多方向公开数据集,共包含1000张训练图像以及500张测试图像。对ICDAR2015的所有训练集图像进行增强处理,再进行归一化处理,得到训练用数据,即增强归一化后图像以及其文本区域和文本区域标签。所述的增强处理包括随机旋转和随机裁剪。
步骤2:输入步骤一获得的文本图像数据集,根据图像的文本区域标签,按下式计算得到文本实例向内收缩像素值d:
d=min(x3-x0,x2-x1,y1-y0,y2-y3)*T (2)
其中,(x0,y0)、(x1,y1)、(x2,y2)、(x3,y3)是文本区域标签的四个端点的横纵坐标值;
然后,原来的文本区域通过向内收缩d个像素,得到文本核心区域标签的四个端点,这种收缩方式可以更好地表达文本核心区域。
步骤3:将训练用数据中的图像输入到文本检测网络,对网络进行训练,迭代16K次,得到训练好的网络。
文本检测网络的具体处理过程为:
(1)将图像输入到特征提取网络,提取得到C2、C3、C4、C5四种尺度的特征图(尺度依次减小),再经特征融合网络,得到融合后的特征图像。本发明中特征提取网络采用resnet-50网络,特征融合网络采用FF模块,具体是指:将C4特征图、卷积网络上采样的C5特征图、卷积网络下采样的C2特征图、卷积网络下采样的C3特征图相加得到特征图S4,将C3特征图、卷积网络上采样的C5特征图、S4特征图、卷积网络下采样的C2特征图相加得到特征图S3,将C2特征图、卷积网络上采样的C5特征图、S4特征图、S3特征图相加得到特征图S2,将C5特征图、S4特征图、S3特征图分别进行卷积网络上采样,使其与特征图S2大小相同,最后将S2特征图、上采样的S3特征图、上采样的S4特征图、上采样的C5特征图相加得到特征图像。
(2)将融合后的特征图像分别输入到文本区域检测头和文本核心区域检测头网络,分别检测得到文本区域预测图像和文本核心区域预测图像;所述的文本区域检测头网络采用3*3卷积核和1*1卷积核,文本核心区域检测头网络也采用3*3卷积核和1*1卷积核。
(3)对文本区域预测图和文本核心预测图处理分别进行二值化处理,得到粗略文本区域和文本核心区域,再通过OPENCV中的cv2.connectedComponents函数对文本核心区域进行处理,得到连通域,去除面积小于5像素的连通域,避免一些小区域像素被误检,得到预测的文本核心区域。
(4)使用广搜BFS算法对预测的文本核心区域进行扩张,再进行填充,借以区分相邻文本实例,然后,将面积小于800像素的实例去除,得到预测的文本区域。
(5)对文本区域与文本核心区域标签分别计算损失,损失函数均采用dice_loss。进行网络的训练。
步骤4:将测试集图像输入训练好的文本检测网络,预测得到的文本区域框为最终检测结果。
为验证本发明方法的有效性,在中央处理器为Intel(R)Core(TM)i7-6800K CPU@3.40GHz、内存为64G、操作系统为Linux、GPU为1080Ti*2、深度学习框架为Pytorch下进行仿真实验。
分别选择EAST方法、SSTD方法、PSE方法作为对比方法,其中,EAST方法记载在文献“Zhou,X.,Yao,C.,Wen,H.,Wang,Y.,Zhou,S.,He,W.,&Liang,J.(2017).East:anefficient and accurate scene text detector.In Proceedings of the IEEEconference on Computer Vision and Pattern Recognition(pp.5551-5560).”中;SSTD方法记载在文献“He,P.,Huang,W.,He,T.,Zhu,Q.,Qiao,Y.,&Li,X.(2017).Single shottext detector with regional attention.In Proceedings of the IEEEinternational conference on computer vision(pp.3047-3055).”中;PSE方法记载在文献“Wang W,Xie E,Li X,et al.Shape robust text detection with progressive scaleexpansion network[C]//Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition.2019:9336-9345.”中。分别计算不同方法在ICDAR2015数据集上进行文本检测后的查准率Precision、查全率Recall及二者的调和平均数F1-measure,计算结果如表1所示。可以看出,本发明的三个指标均高于其他方法,本发明考虑到四边形图像本身可收缩性的一个特点来进行文本核的收缩,再通过文本核扩张到文本区域能有效避免相邻文本实例之间的粘连问题,能够获得更好的文本检效果。
表1

Claims (3)

1.一种基于新型图像收缩方法的多方向文本检测方法,其特征在于步骤如下:
步骤1:对文本图像数据集ICDAR2015的训练集中的每一幅图像进行增强处理,再进行归一化处理,得到训练用数据;所述的增强处理包括随机旋转和随机裁剪;
步骤2:对于训练用数据中每一幅图像,按以下过程完成文本核心区域标签:
首先,按下式计算得到文本实例向内收缩像素值d:
d=min(x3-x0,x2-x1,y1-y0,y2-y3)*T (1)
其中,(x0,y0)、(x1,y1)、(x2,y2)、(x3,y3)是标记文本区域的四个端点的横纵坐标值;
然后,将原文本区域的四个端点均向内收缩d个像素,以收缩后的四个端点作为文本核心区域的四个端点,完成文本核心区域标记;
步骤3:将训练用数据中的图像输入到文本检测网络,对网络进行训练,迭代16K次,得到训练好的网络;
所述的文本检测网络的具体处理过程为:将图像输入到特征提取网络,提取得到不同尺度特征图,将不同尺度特征图输入特征融合网络,得到融合后的特征图像;将融合后的特征图像分别输入到文本区域检测头和文本核心区域检测头网络,检测得到文本区域预测图像和文本核心区域预测图像;对文本核心区域预测图像进行二值化处理,再采用cv2.connectedComponents函数进行处理,得到连通域,去除面积小于5像素的连通域,得到预测的文本核心区域;使用广搜BFS算法对预测的文本核心区域进行扩张,再进行填充,将面积小于800像素的实例去除,得到预测的文本区域;分别采用diceloss损失函计算预测的文本区域标签损失和文本核心区域标签损失;
步骤4:将测试集图像输入到步骤3训练好的文本检测网络,预测得到的文本区域即为最终的文本检测结果。
2.如权利要求1所述的一种基于新型图像收缩方法的多方向文本检测方法,其特征在于:所述的特征提取网络采用resnet-50网络,提取得到4个不同尺度依次减小的特征图,分别记为C2、C3、C4、C5;
所述的特征融合网络的具体处理过程为:将C4特征图、卷积网络上采样的C5特征图、卷积网络下采样的C2特征图、卷积网络下采样的C3特征图相加得到特征图S4,将C3特征图、卷积网络上采样的C5特征图、S4特征图、卷积网络下采样的C2特征图相加得到特征图S3,将C2特征图、卷积网络上采样的C5特征图、S4特征图、S3特征图相加得到特征图S2,将C5特征图、S4特征图、S3特征图分别进行卷积网络上采样,使其与特征图S2大小相同,最后将S2特征图、上采样的S3特征图、上采样的S4特征图、上采样的C5特征图相加得到特征图像。
3.如权利要求1或2所述的一种基于新型图像收缩方法的多方向文本检测方法,其特征在于:所述的文本区域检测头网络和文本核心区域检测头网络均采用2层卷积神经网络,包括1个3*3卷积核和1个1*1卷积核。
CN202111369003.9A 2021-11-11 2021-11-11 基于新型图像收缩方法的多方向文本检测方法 Active CN114049625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111369003.9A CN114049625B (zh) 2021-11-11 2021-11-11 基于新型图像收缩方法的多方向文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111369003.9A CN114049625B (zh) 2021-11-11 2021-11-11 基于新型图像收缩方法的多方向文本检测方法

Publications (2)

Publication Number Publication Date
CN114049625A CN114049625A (zh) 2022-02-15
CN114049625B true CN114049625B (zh) 2024-02-27

Family

ID=80210041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111369003.9A Active CN114049625B (zh) 2021-11-11 2021-11-11 基于新型图像收缩方法的多方向文本检测方法

Country Status (1)

Country Link
CN (1) CN114049625B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
WO2020015167A1 (zh) * 2018-07-17 2020-01-23 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法
CN110751154A (zh) * 2019-09-27 2020-02-04 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
WO2020015167A1 (zh) * 2018-07-17 2020-01-23 西安交通大学 一种基于融合网络的图像超分辨率及去非均匀模糊方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法
CN110751154A (zh) * 2019-09-27 2020-02-04 西北工业大学 一种基于像素级分割的复杂环境多形状文本检测方法
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于FCN的多方向自然场景文字检测方法;杨剑锋;王润民;何璇;李秀梅;钱盛友;;计算机工程与应用;20201231(第02期);全文 *
基于旋转变量的任意方向文本检测算法;张兴全;叶西宁;;计算机工程与设计;20200516(第05期);全文 *
基于语义分割技术的任意方向文字识别;王涛;江加和;;应用科技;20170704(第03期);全文 *
多特征融合的文档图像版面分析;应自炉;赵毅鸿;宣晨;邓文博;;中国图象图形学报;20200216(第02期);全文 *

Also Published As

Publication number Publication date
CN114049625A (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
CN111223088B (zh) 一种基于深层卷积神经网络的铸件表面缺陷识别方法
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN110334762B (zh) 一种基于四叉树结合orb和sift的特征匹配方法
CN109409384A (zh) 基于细粒度图像的图像识别方法、装置、介质及设备
CN107085726A (zh) 基于多方法去噪和连通区域分析的甲骨拓片单字定位方法
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN114549407A (zh) 基于x射线图像的耐张线夹压接缺陷程度判断方法
JP2021152886A (ja) 眼科用レンズにおけるエッジ欠陥検出および他の欠陥を強化するためのコンピュータ実装プロセス
Zhu et al. Towards automatic wild animal detection in low quality camera-trap images using two-channeled perceiving residual pyramid networks
CN115471682A (zh) 一种基于SIFT融合ResNet50的图像匹配方法
CN116311384A (zh) 基于中间模态和表征学习的跨模态行人重识别方法、装置
CN113610024B (zh) 一种多策略的深度学习遥感影像小目标检测方法
CN111104924A (zh) 一种有效的识别低分辨率商品图像的处理算法
CN111881803B (zh) 一种基于改进YOLOv3的畜脸识别方法
CN114049625B (zh) 基于新型图像收缩方法的多方向文本检测方法
CN108564020B (zh) 基于全景3d图像的微手势识别方法
CN112418210A (zh) 一种杆塔巡检信息智能分类方法
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN112070041B (zh) 一种基于cnn深度学习模型的活体人脸检测方法和装置
US20240104885A1 (en) Method and system for unsupervised deep representation learning based on image translation
CN111709434B (zh) 一种鲁棒的基于最近邻特征点匹配的多尺度模板匹配方法
CN114399681A (zh) 电力能源设备识别方法、装置和终端设备
Toaha et al. Automatic signboard detection from natural scene image in context of Bangladesh Google street view

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant