CN111666939A - 基于边距约束的任意形状的场景文本检测方法 - Google Patents

基于边距约束的任意形状的场景文本检测方法 Download PDF

Info

Publication number
CN111666939A
CN111666939A CN202010439354.1A CN202010439354A CN111666939A CN 111666939 A CN111666939 A CN 111666939A CN 202010439354 A CN202010439354 A CN 202010439354A CN 111666939 A CN111666939 A CN 111666939A
Authority
CN
China
Prior art keywords
text
graphs
instance
scene
edge distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010439354.1A
Other languages
English (en)
Other versions
CN111666939B (zh
Inventor
马天龙
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202010439354.1A priority Critical patent/CN111666939B/zh
Publication of CN111666939A publication Critical patent/CN111666939A/zh
Application granted granted Critical
Publication of CN111666939B publication Critical patent/CN111666939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于边距约束的任意形状的场景文本检测方法,该方法通过深度网络提取场景图片中的特征,利用特征信息进行处理生成文本实例图来完成文本检测。同时充分利用文本实例间存在的边距约束,利用生成边距作为整个网络的一个辅助手段来修正文本实例图,产生更精确的检测结果。本发明对给定的的自然场景图片进行文本检测,实现高精度的输出对应的文本区域的坐标位置。

Description

基于边距约束的任意形状的场景文本检测方法
技术领域
本发明属于人工智能领域中文本检测的方法,涉及计算机视觉和机器学习技术领域,尤其涉及一种基于边距约束的任意形状的场景文本检测方法。
背景技术
在互联网世界中,图片是传递信息的重要媒介。特别是电子商务,社交,搜索等领域,每天都有数以亿兆级别的图像在传播。自然场景图片中的文本是一个充满挑战的热门任务,与文档文字识别不同,自然场景中的文字识别存在图像背景复杂、分辨率低、字体多样、形状各异等问题,传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别,就需要对场景文本实现更加准确的检测。
通常OCR中,文本检测都是由目标检测继承而来,目标检测大多都是基于先验框的(anchor base),anchor-base模式在目标检测衍生到OCR领域就有很多缺陷,比如:倾斜(或扭曲)文本检测不准、过长文本检测不全、过短文本容易遗漏、距离较近的无法分开等缺点。渐进式扩展网络横空出世,以另一种思路解决了这些问题。整个渐进式扩大网络过程中,对于生成的不同将每个文本实例分配给多个预测的分割区域,这些分割区域表示为“核”,并且对于一个文本实例,有多个对应的文本实例的核。每个内核与原始的整个文本实例共享相似的形状,并且核都位于相同的中心点但在比例上不同。渐进式扩大网络对各个文本实例之间存在的约束信息没有得到很好地利用。
发明内容
本发明的目的是针对现有技术的不足,提出的一种更为有效的基于边距约束的任意形状的场景文本检测方法,该方法通过深度神经网络模型自动获取图片中的文本区域信息并结合通过文本实例区域信息生成文本边距图,得到更加准确的分隔开的文本区域。根据分隔开的文本区域通过扩张文本实例区域算法形成最终文本实例、调用OpenCV轮廓检测算法处理得到位置坐标,完成文本检测。使得给出一张待检测的自然场景图片,能自动的检测出自然场景图片中任意形状的文本。
实现本发明目的的具体技术方案是:
一种基于边距约束的任意形状的场景文本检测方法,该方法包括以下具体步骤:
步骤1:输入场景文本图像,通过深度卷积神经网络得到待检测文本图像的深度特征信息;
步骤2:对步骤1得到的深度特征信息通过全卷积网络进行处理得到数个大小不同分割结果,即数个大小不同的文本实例图;
步骤3:对步骤2所述的数个大小不同的文本实例图进行残差处理,得到文本实例之间的边距图,同时利用边距图来修正文本实例图;
步骤4:对步骤3修正后的文本实例图进行扩张文本实例区域算法处理后,调用OpenCV轮廓检测输出对应的文本区域的位置坐标,得到文本检测结果。
步骤4所述扩张文本实例区域算法是:基于广度优先搜索,从具有最小尺度的文本实例图开始;通过逐步在最小文本区域基础上加入后续的数个文本实例图中包含的像素来扩张;直至扩张到最大的文本实例。
本发明具有易行性,随着应用需求的提高,许多学术研究机构组织提出丰富的公开自然场景数据集,能够保证本发明提出的深度神经网络得到充分训练,得到高精度的结果。本发明提出基于边距生成信息来实现有效的对任意形状的场景文本进行更高精度的检测,在公开数据集的评测指标中取得优秀结果。本发明具有简单性,文本检测的结果主要通过深度神经网络得到,其余的处理步骤主要使用简单数字图像处理方法和OpenCV等图像处理工具来完成操作。
附图说明
图1为本发明流程图;
图2为本发明文本实例间边距生成的效果图;
图3为本发明扩张文本实例区域算法图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
实施例
首先是深度卷积神经网络得到待检测文本图像的深度特征信息,受到注意力机制的启发,使用注意力机制,将全局上下文信息作为先验知识引入到通道选择。融合了多尺度信息,通过全局池化提供的全局信息作为指引选择底层的特征,对低级特征做通道处理,然后使用全局池化后的信息做加权,得到加权后的底层特征,再上采样,然后再与高层语义特征信息相加获得深度特征信息。
其次生成文本实例,先对深度特征信息处理,使用全卷积神经网络生成多个不同大小的文本实例,同时通过设定阈值和二值化,即将大于等于阈值的像素点值设为1,小于阈值的像素点值设为0,形成多个大小不同的文本实例。在本实施例设置中使用7个文本实例来完成文本检测。
再通过生成的文本实例中进行相减处理生成边距图(如图2中Mi所示)。同时网络训练过程中利用生成文本边距图实现对文本实例之间的约束的监督学习,得到最终修正的文本实例(如图2中Si所示),使网络能够学到一个更加精确的文本实例。生成文本边距的方法采用其他文本实例与最小文本实例的边距生成约束,相关计算公式如下:
Mi=Si-Sn(i in{2,...,7},n=1)
其中Mi分别对应生成的多个文本边距图,Si表示多个文本实例。本实施例的方法在ICDAR2015和CTW1500等自然场景的公开数据集上进行测试验证,其中Baseline为基准方法,在此基础上分别引入生成文本边距进行验证。方法效果统计如下表所示:
Figure BDA0002503511380000041
最后通过扩张文本实例区域算法生成最终的文本实例图,如图3所示,得到了S1中的四个文本实例后同时可知S2中的文本实例是比S1中的文本实例大的,即S2中的文本实例是包含S1中的文本实例的。现将属于S2中的文本实例的但不属于S1中的文本实例的像素点(即扩张文本实例算法演化过程中左图中的点状区域部分,左图中横线区域和虚线网状部分分别表示中S1的两个文本实例)进行分配。在S2的点状区域内所找到的每个pixel以广度优先搜索的方式,逐个向上下左右扩展,实现对S1中预测的文本实例的区域逐渐变宽。后面的多个文本实例重复此过程,直到发现最大的文本实例,从而生成最终的文本实例结果。之后,调用OpenCV中的轮廓检测算法生成最终的文本实例区域的位置坐标。
本发明是一种基于边距约束的任意形状的场景文本检测方法。关于以前的通过多个文本实例实现文本检测技术方法未使用多个文本实例间的存在的边距约束信息,本发明提出基于边距约束的场景文本检测方法。效果在公共数据集(ICDAR2015、CTW1500)上得到了验证。

Claims (2)

1.一种基于边距约束的任意形状的场景文本检测方法,其特征在于,该方法包括以下具体步骤:
步骤1:输入场景文本图像,通过深度卷积神经网络得到待检测文本图像的深度特征信息;
步骤2:对步骤1得到的深度特征信息通过全卷积网络进行处理得到数个大小不同分割结果,即数个大小不同的文本实例图;
步骤3:对步骤2所述的数个大小不同的文本实例图进行残差处理,得到文本实例之间的边距图,同时利用边距图来修正文本实例图;
步骤4:对步骤3修正后的文本实例图进行扩张文本实例区域算法处理后,调用OpenCV轮廓检测输出对应的文本区域的位置坐标,得到文本检测结果。
2.根据权利要求1所述的场景文本检测方法,其特征在于,步骤4所述扩张文本实例区域算法是:基于广度优先搜索,从具有最小尺度的文本实例图开始;通过逐步在最小文本区域基础上加入后续的数个文本实例图中包含的像素来扩张;直至扩张到最大的文本实例。
CN202010439354.1A 2020-05-22 2020-05-22 基于边距约束的任意形状的场景文本检测方法 Active CN111666939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010439354.1A CN111666939B (zh) 2020-05-22 2020-05-22 基于边距约束的任意形状的场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010439354.1A CN111666939B (zh) 2020-05-22 2020-05-22 基于边距约束的任意形状的场景文本检测方法

Publications (2)

Publication Number Publication Date
CN111666939A true CN111666939A (zh) 2020-09-15
CN111666939B CN111666939B (zh) 2021-02-26

Family

ID=72384233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010439354.1A Active CN111666939B (zh) 2020-05-22 2020-05-22 基于边距约束的任意形状的场景文本检测方法

Country Status (1)

Country Link
CN (1) CN111666939B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724554A (zh) * 2012-07-02 2012-10-10 西南科技大学 一种基于场景分割的视频资源语义水印嵌入方法
CN103218460A (zh) * 2013-05-14 2013-07-24 清华大学 基于最优线性稀疏重构的图像标签补全方法
CN103971376A (zh) * 2014-05-23 2014-08-06 成都凯智科技有限公司 应用程序执行方法和装置
US9710703B1 (en) * 2016-07-15 2017-07-18 StradVision, Inc. Method and apparatus for detecting texts included in a specific image
CN108665414A (zh) * 2018-05-10 2018-10-16 上海交通大学 自然场景图片生成方法
CN109581356A (zh) * 2019-01-04 2019-04-05 北京理工大学 一种常值机动空间目标的约束滤波追踪方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110276279A (zh) * 2019-06-06 2019-09-24 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110457982A (zh) * 2018-12-28 2019-11-15 中国科学院合肥物质科学研究院 一种基于特征迁移学习的作物病害图像识别方法
CN110555111A (zh) * 2018-03-30 2019-12-10 九阳股份有限公司 一种食材/食谱知识图谱的本体映射方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724554A (zh) * 2012-07-02 2012-10-10 西南科技大学 一种基于场景分割的视频资源语义水印嵌入方法
CN103218460A (zh) * 2013-05-14 2013-07-24 清华大学 基于最优线性稀疏重构的图像标签补全方法
CN103971376A (zh) * 2014-05-23 2014-08-06 成都凯智科技有限公司 应用程序执行方法和装置
US9710703B1 (en) * 2016-07-15 2017-07-18 StradVision, Inc. Method and apparatus for detecting texts included in a specific image
CN110555111A (zh) * 2018-03-30 2019-12-10 九阳股份有限公司 一种食材/食谱知识图谱的本体映射方法及装置
CN108665414A (zh) * 2018-05-10 2018-10-16 上海交通大学 自然场景图片生成方法
CN110457982A (zh) * 2018-12-28 2019-11-15 中国科学院合肥物质科学研究院 一种基于特征迁移学习的作物病害图像识别方法
CN109581356A (zh) * 2019-01-04 2019-04-05 北京理工大学 一种常值机动空间目标的约束滤波追踪方法
CN110222140A (zh) * 2019-04-22 2019-09-10 中国科学院信息工程研究所 一种基于对抗学习和非对称哈希的跨模态检索方法
CN110276279A (zh) * 2019-06-06 2019-09-24 华东师范大学 一种基于图像分割的任意形状场景文本探测方法
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DAN ZHANG 等: "Maximum Margin Multiple Instance Clustering with Applications to Image and Text Clustering", 《IEEE TRANSACTIONS ON NEURAL NETWORKS》 *
XIANG LI 等: "Shape Robust Text Detection with Progressive Scale Expansion Network", 《ARXIV》 *
YULIANG LIU 等: "Curved scene text detection via transverse and longitudinal sequence connection", 《PATTERN RECOGNITION》 *
牛小明 等: "图文识别技术综述", 《中国体视学与图像分析》 *
谢锋明 等: "基于多尺度特征提取的场景文本检测新方法", 《化工自动化及仪表》 *

Also Published As

Publication number Publication date
CN111666939B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN111723585B (zh) 一种风格可控的图像文本实时翻译与转换方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN109977942B (zh) 一种基于场景分类和超分辨率的场景文字识别方法
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
WO2016054802A1 (en) Hierarchical interlinked multi-scale convolutional network for image parsing
CN111126412B (zh) 基于特征金字塔网络的图像关键点检测方法
CN110378837B (zh) 基于鱼眼摄像头的目标检测方法、装置和存储介质
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN112967341B (zh) 基于实景图像的室内视觉定位方法、系统、设备及存储介质
CN104952083B (zh) 一种基于显著性目标背景建模的视频显著性检测方法
CN114444558A (zh) 用于对象识别的神经网络的训练方法及训练装置
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN107169498B (zh) 一种融合局部和全局稀疏的图像显著性检测方法
CN110751271B (zh) 一种基于深度神经网络的图像溯源特征表征方法
CN113378812A (zh) 一种基于Mask R-CNN和CRNN的数字表盘识别方法
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN114612820A (zh) 一种基于类别感知特征聚合的视频目标检测方法
CN111666939B (zh) 基于边距约束的任意形状的场景文本检测方法
CN111160147A (zh) 一种书法作品图像的裁剪和识别方法
CN114743045B (zh) 一种基于双分支区域建议网络的小样本目标检测方法
CN113052311B (zh) 具有跳层结构的特征提取网络及特征和描述子生成的方法
CN111274893B (zh) 基于部件分割与特征融合的飞行器图像细粒度识别方法
CN113222867B (zh) 基于多模板图像的图像数据增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant