CN111401319B - PSENet网络渐进式扩展后处理出现文本粘连的解决方法 - Google Patents

PSENet网络渐进式扩展后处理出现文本粘连的解决方法 Download PDF

Info

Publication number
CN111401319B
CN111401319B CN202010294908.3A CN202010294908A CN111401319B CN 111401319 B CN111401319 B CN 111401319B CN 202010294908 A CN202010294908 A CN 202010294908A CN 111401319 B CN111401319 B CN 111401319B
Authority
CN
China
Prior art keywords
image
text
kernel
size
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010294908.3A
Other languages
English (en)
Other versions
CN111401319A (zh
Inventor
丛建亭
侯进
黄贤俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenzhi Hengji Technology Co ltd
Original Assignee
Beijing Shenzhi Hengji Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenzhi Hengji Technology Co ltd filed Critical Beijing Shenzhi Hengji Technology Co ltd
Priority to CN202010294908.3A priority Critical patent/CN111401319B/zh
Publication of CN111401319A publication Critical patent/CN111401319A/zh
Application granted granted Critical
Publication of CN111401319B publication Critical patent/CN111401319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种PSENet网络渐进式扩展后处理出现文本粘连的解决方法,包括如下步骤:a1.定义一个零图像A作为被融合的小尺寸文本目标图像;a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;a3.按照步骤a2的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;a4.将图像A与所有的kernel图像分别做下图像或操作,把所有的kernel图像进行修改。本发明实现了降低耗时要求,从而保证了工业应用的计算耗时要求,为人们节省更多时间,同时解决了文本粘连现象,达到了下一步识别模块的识别效果要求,并且本发明构思独特,想法新颖,具有可操作性。

Description

PSENet网络渐进式扩展后处理出现文本粘连的解决方法
技术领域
本发明涉及深度学习技术领域,具体来说,涉及PSENet网络渐进式扩展后处理出现文本粘连的解决方法。
背景技术
与其他物体检测技术手段大致相同,文字检测的深度学习技术多数也是anchor-base模式,该模式衍生到OCR领域就有很多缺陷,比如:倾斜(或扭曲)文字检测不准、过长文字串检测不全、过短文字串容易遗漏、距离较近的无法分开等缺点。
形状鲁棒性文本检测面临的问题主要有两个方面:1)现有的基于四边形边界盒的文本检测方法很难找到任意形状的文本,很难完全封闭在矩形中;2)大多数基于像素的分割检测器可能不会将彼此非常接近的文本实例分开。
PSENet是一种新的实例分割网络,它有两方面的优势。首先,PSENet作为一种基于分割的方法,能够对任意形状的文本进行定位。其次,该模型提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例。
该方法对任意形状具有鲁棒性,最新的结果是ICDAR2015和ICDAR2017,MLT基准进一步证实了PSENet的巨大有效性。但该方法的渐进式尺寸扩展后处理过程运算速度比较慢,为了提升模型的预测速度,通常采用方案是将模型预测后的输出图的尺寸做降采样,例如scale等于2或scale等于4,才可以达到工业耗时应用要求,但在降采样过程中,最邻近插值方法有一定概率会将宽度或高度不大于1或2的文本目标丢失掉,从而导致渐进式尺寸扩展后处理过程出现其它文本目标粘连了丢失目标文本的现象,急需一种既可以让模型预测速度提升,也不带来降采样出现的文本粘连现象的方法出现。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供了一种PSENet网络渐进式扩展后处理出现文本粘连的解决方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
PSENet网络渐进式扩展后处理出现文本粘连的解决方法,包括如下步骤:
a1.定义一个零图像A作为被融合的小尺寸文本目标图像;
a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;
a3.按照步骤a2的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;
a4:将图像A与所有的kernel图像分别做下图像或操作,把所有的kernel图像进行修改。
进一步地,所述步骤a1中的图像尺寸与PSENet网路的各个kernel图像尺寸相同。
进一步地,步骤a3中图像A位置处的像素和等于0时,将步骤a3中最小的kernel图像中的这类文本目标的像素赋值到图像A中。
进一步地,所述PSENet网络是基于分割的检测器,对每个文本实例进行多个预测的网络。
进一步地,所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
本发明工作原理:通过融合渐进式扩展过程中不同面积的kernel图的小尺寸文本目标,来达到最小面积的kernel初始文本目标种子数与降采样之前相同,这样在渐进式过程中则不会使得小尺寸文本目标的像素被周围其他文本目标合并掉,从而达到了解决文本粘连现象的目的。
与现有技术相比,本发明具有以下有益效果:1.相比于现有技术,本发明实现了降低耗时要求,从而保证了工业应用的计算耗时要求,为人们节省更多时间;2.相比于现有技术,本发明解决了文本粘连现象,达到了下一步识别模块的识别效果要求;3.相比于现有技术,本发明构思独特,想法新颖,具有可操作性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法的过程示意图;
图2是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法实施例的测试图片;
图3是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法实施例的测试图片概率掩码kernel图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一个,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明的保护范围。
下面,结合附图以及具体实施方式,对发明做出进一步的描述:
如图1所示,PSENet网络渐进式扩展后处理出现文本粘连的解决方法,包括如下步骤:
a1.定义一个零图像A作为被融合的小尺寸文本目标图像;
a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;
a3.按照步骤a2的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;
a4:将图像A与所有的kernel图像分别做下图像或操作,把所有的kernel图像进行修改。
步骤a4用于产生一个融合图像A,该步骤是把新制作的图像A,也就是上述步骤a4的值通过图像或运算叠加到所有kernel层的图像上,从而将“后处理”的kernel图像改变,增加了小尺寸文本目标信息,这样也就达到不丢失小尺寸目标,也消除了小尺寸目标粘连到其它目标上的情况,这样就可以采用降采样来加速,但也不丢失小尺寸目标信息,消除了粘连现象。
根据上述内容,所述步骤a1中的图像尺寸与PSENet网路的各个kernel图像尺寸相同。
根据上述内容,步骤a3中图像A位置处的像素和等于0时,将步骤a3中最小的kernel图像中的这类文本目标的像素赋值到图像A中。
图像A把所有kernel层图像的小尺寸目标都搜索出来,因为是从面积小到面积大过程迭代,保留了最多数目的小尺寸目标,在迭代过程中如果后面的小尺寸目标与图像A中已经赋值了的小尺寸目标存在交集,则丢弃该文本目标,因此最后图像A是数目最多,面积相对最小,这样文本小尺寸目标信息就不丢失。
PSENet深度学习网络预测输入图像后,基于输出概率图需要做个“渐进式尺寸扩展后处理”过程,如图2,该后处理过程与概率图中的文本目标像素数目正相关,文本目标像素数越多计算量越大,因此通常采用降采样scale等于2或4来降低参与计算的像素数目,从而达到工业应用的耗时要求。
由于降采样一定概率会带来文本粘连现象,从而导致网络预测精度下降,虽然满足了工业应用的耗时要求,但带来的粘连现象则导致OCR识别效果下降,尤其对密集文本检测,该问题影响更加突出。
从图3中可以看出测试图片的字符例如“/”产生的前景目标的尺寸比较小,有时候宽度或高度不超过4个像素,然后在该掩码图上做降采样,则有概率导致目标丢失,导致渐进式扩展过程中初始的目标数偏少,在扩展过程中这些丢失的目标像素被周围的其它目标合并到一起,从而产生了文本粘连现象。
通过融合渐进式扩展过程中不同面积的kernel图的小尺寸文本目标,来达到最小面积的kernel初始文本目标种子数与降采样之前相同,这样在渐进式过程中则不会使得小尺寸文本目标的像素被周围其他文本目标合并掉,从而达到了解决文本粘连现象的目的。
根据上述内容,所述PSENet网络是基于分割的检测器,对每个文本实例进行多个预测的网络。
根据上述内容,所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
PSENet是一种新的实例分割网络,它有两方面的优势,首先,PSENet作为一种基于分割的方法,能够对任意形状的文本进行定位;其次,PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.PSENet网络渐进式扩展后处理出现文本粘连的解决方法,其特征在于,包括如下步骤:
a1.定义一个零图像A作为被融合的小尺寸文本目标图像;
a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;
a3.按照步骤(a2)的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;
a4:将图像A与所有的kernel图像分别做下图像或操作,用于产生一个融合图像A,把新制作的图像A通过图像或运算叠加到所有kernel层的图像上,将“后处理”的kernel图像改变,增加小尺寸文本目标信息,把所有的kernel图像进行修改;
所述步骤(a1)中的图像尺寸与PSENet网路的各个kernel图像尺寸相同;
所述步骤(a3)中图像A位置处的像素和等于0时,将步骤(a3)中最小的kernel图像中的这类文本目标的像素赋值到图像A中;
所述PSENet网络是基于分割的检测器,对每个文本实例进行多个预测的网络;
所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
CN202010294908.3A 2020-04-15 2020-04-15 PSENet网络渐进式扩展后处理出现文本粘连的解决方法 Active CN111401319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010294908.3A CN111401319B (zh) 2020-04-15 2020-04-15 PSENet网络渐进式扩展后处理出现文本粘连的解决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010294908.3A CN111401319B (zh) 2020-04-15 2020-04-15 PSENet网络渐进式扩展后处理出现文本粘连的解决方法

Publications (2)

Publication Number Publication Date
CN111401319A CN111401319A (zh) 2020-07-10
CN111401319B true CN111401319B (zh) 2024-04-12

Family

ID=71433179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010294908.3A Active CN111401319B (zh) 2020-04-15 2020-04-15 PSENet网络渐进式扩展后处理出现文本粘连的解决方法

Country Status (1)

Country Link
CN (1) CN111401319B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095662A1 (fr) * 2001-05-23 2002-11-28 France Telecom (Sa) Procede de detection de zones de texte dans une image video
CN110610166A (zh) * 2019-09-18 2019-12-24 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110796082A (zh) * 2019-10-29 2020-02-14 上海眼控科技股份有限公司 铭牌文本检测方法、装置、计算机设备和存储介质
CN110880000A (zh) * 2019-11-27 2020-03-13 上海智臻智能网络科技股份有限公司 图片文字定位方法、装置、计算机设备和存储介质
CN110991303A (zh) * 2019-11-27 2020-04-10 上海智臻智能网络科技股份有限公司 一种图像中文本定位方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367766B2 (en) * 2014-07-22 2016-06-14 Adobe Systems Incorporated Text line detection in images
CN108335313A (zh) * 2018-02-26 2018-07-27 阿博茨德(北京)科技有限公司 图像分割方法及装置
CN109389038A (zh) * 2018-09-04 2019-02-26 阿里巴巴集团控股有限公司 一种信息的检测方法、装置及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002095662A1 (fr) * 2001-05-23 2002-11-28 France Telecom (Sa) Procede de detection de zones de texte dans une image video
CN110610166A (zh) * 2019-09-18 2019-12-24 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN110796082A (zh) * 2019-10-29 2020-02-14 上海眼控科技股份有限公司 铭牌文本检测方法、装置、计算机设备和存储介质
CN110880000A (zh) * 2019-11-27 2020-03-13 上海智臻智能网络科技股份有限公司 图片文字定位方法、装置、计算机设备和存储介质
CN110991303A (zh) * 2019-11-27 2020-04-10 上海智臻智能网络科技股份有限公司 一种图像中文本定位方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段佳琦.基于深度学习的任意角度和尺度文字检测算法研究.《优秀硕士学位论文全文库》.2020,第20-22页. *

Also Published As

Publication number Publication date
CN111401319A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US10803357B2 (en) Computer-readable recording medium, training method, and object detection device
CN109657545B (zh) 一种基于多任务学习的行人检测方法
CN111260684A (zh) 基于帧差法和背景差分法结合的前景像素提取方法及系统
US20150254529A1 (en) Image processing apparatus and image processing method
JP2008217706A (ja) ラベリング装置、ラベリング方法及びプログラム
Santoro et al. Crowd analysis by using optical flow and density based clustering
CN111311634A (zh) 一种人脸图像检测方法、装置及设备
Couprie et al. Causal graph-based video segmentation
CN112347967B (zh) 一种复杂场景下融合运动信息的行人检测方法
CN109325387B (zh) 图像处理方法、装置、电子设备
CN111401319B (zh) PSENet网络渐进式扩展后处理出现文本粘连的解决方法
CN114639159A (zh) 移动行人检测方法、电子设备及机器人
CN111160274B (zh) 一种基于二值化Faster RCNN网络的行人检测方法
Fang et al. Real-time multiple vehicles tracking with occlusion handling
Zhu et al. Crack detection using enhanced hierarchical convolutional neural networks
CN112991397B (zh) 交通牌跟踪方法、装置、设备和存储介质
Wang et al. Online adaptive multiple pedestrian tracking in monocular surveillance video
Gao et al. Region-based moving shadow detection using watershed algorithm
Cao et al. Robust crowd counting based on refined density map
CN114821441A (zh) 联合ads-b信息的基于深度学习的机场场面运动目标识别方法
CN114512052A (zh) 融合遥感影像和轨迹数据的分歧合流路口生成方法及装置
CN103514609A (zh) 一种基于反馈的运动物体分割的图像处理方法
Huang et al. The precise recognition of moving object in complex background
CN110929726A (zh) 一种铁路接触网支柱号牌识别方法及系统
CN111401253B (zh) 一种基于深度学习的目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Country or region after: China

Address after: Room 204, 2nd Floor, Building 4, No. 44 North Third Ring Middle Road, Haidian District, Beijing, 100088

Applicant after: Beijing Shenzhi Hengji Technology Co.,Ltd.

Address before: 100085 Room 203, 2 / F, building 6, Xisanqi East Road, Qinghe, Haidian District, Beijing

Applicant before: SHENYUAN HENGJI TECHNOLOGY CO.,LTD.

Country or region before: China

GR01 Patent grant
GR01 Patent grant