CN111401319B - PSENet网络渐进式扩展后处理出现文本粘连的解决方法 - Google Patents
PSENet网络渐进式扩展后处理出现文本粘连的解决方法 Download PDFInfo
- Publication number
- CN111401319B CN111401319B CN202010294908.3A CN202010294908A CN111401319B CN 111401319 B CN111401319 B CN 111401319B CN 202010294908 A CN202010294908 A CN 202010294908A CN 111401319 B CN111401319 B CN 111401319B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- kernel
- size
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000000750 progressive effect Effects 0.000 title claims abstract description 18
- 238000012805 post-processing Methods 0.000 title claims abstract description 15
- 230000000903 blocking effect Effects 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000009467 reduction Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 13
- 238000001514 detection method Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种PSENet网络渐进式扩展后处理出现文本粘连的解决方法,包括如下步骤:a1.定义一个零图像A作为被融合的小尺寸文本目标图像;a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;a3.按照步骤a2的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;a4.将图像A与所有的kernel图像分别做下图像或操作,把所有的kernel图像进行修改。本发明实现了降低耗时要求,从而保证了工业应用的计算耗时要求,为人们节省更多时间,同时解决了文本粘连现象,达到了下一步识别模块的识别效果要求,并且本发明构思独特,想法新颖,具有可操作性。
Description
技术领域
本发明涉及深度学习技术领域,具体来说,涉及PSENet网络渐进式扩展后处理出现文本粘连的解决方法。
背景技术
与其他物体检测技术手段大致相同,文字检测的深度学习技术多数也是anchor-base模式,该模式衍生到OCR领域就有很多缺陷,比如:倾斜(或扭曲)文字检测不准、过长文字串检测不全、过短文字串容易遗漏、距离较近的无法分开等缺点。
形状鲁棒性文本检测面临的问题主要有两个方面:1)现有的基于四边形边界盒的文本检测方法很难找到任意形状的文本,很难完全封闭在矩形中;2)大多数基于像素的分割检测器可能不会将彼此非常接近的文本实例分开。
PSENet是一种新的实例分割网络,它有两方面的优势。首先,PSENet作为一种基于分割的方法,能够对任意形状的文本进行定位。其次,该模型提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例。
该方法对任意形状具有鲁棒性,最新的结果是ICDAR2015和ICDAR2017,MLT基准进一步证实了PSENet的巨大有效性。但该方法的渐进式尺寸扩展后处理过程运算速度比较慢,为了提升模型的预测速度,通常采用方案是将模型预测后的输出图的尺寸做降采样,例如scale等于2或scale等于4,才可以达到工业耗时应用要求,但在降采样过程中,最邻近插值方法有一定概率会将宽度或高度不大于1或2的文本目标丢失掉,从而导致渐进式尺寸扩展后处理过程出现其它文本目标粘连了丢失目标文本的现象,急需一种既可以让模型预测速度提升,也不带来降采样出现的文本粘连现象的方法出现。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供了一种PSENet网络渐进式扩展后处理出现文本粘连的解决方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
PSENet网络渐进式扩展后处理出现文本粘连的解决方法,包括如下步骤:
a1.定义一个零图像A作为被融合的小尺寸文本目标图像;
a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;
a3.按照步骤a2的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;
a4:将图像A与所有的kernel图像分别做下图像或操作,把所有的kernel图像进行修改。
进一步地,所述步骤a1中的图像尺寸与PSENet网路的各个kernel图像尺寸相同。
进一步地,步骤a3中图像A位置处的像素和等于0时,将步骤a3中最小的kernel图像中的这类文本目标的像素赋值到图像A中。
进一步地,所述PSENet网络是基于分割的检测器,对每个文本实例进行多个预测的网络。
进一步地,所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
本发明工作原理:通过融合渐进式扩展过程中不同面积的kernel图的小尺寸文本目标,来达到最小面积的kernel初始文本目标种子数与降采样之前相同,这样在渐进式过程中则不会使得小尺寸文本目标的像素被周围其他文本目标合并掉,从而达到了解决文本粘连现象的目的。
与现有技术相比,本发明具有以下有益效果:1.相比于现有技术,本发明实现了降低耗时要求,从而保证了工业应用的计算耗时要求,为人们节省更多时间;2.相比于现有技术,本发明解决了文本粘连现象,达到了下一步识别模块的识别效果要求;3.相比于现有技术,本发明构思独特,想法新颖,具有可操作性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法的过程示意图;
图2是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法实施例的测试图片;
图3是本发明PSENet网络渐进式扩展后处理出现文本粘连的解决方法实施例的测试图片概率掩码kernel图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一个,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明的保护范围。
下面,结合附图以及具体实施方式,对发明做出进一步的描述:
如图1所示,PSENet网络渐进式扩展后处理出现文本粘连的解决方法,包括如下步骤:
a1.定义一个零图像A作为被融合的小尺寸文本目标图像;
a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;
a3.按照步骤a2的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;
a4:将图像A与所有的kernel图像分别做下图像或操作,把所有的kernel图像进行修改。
步骤a4用于产生一个融合图像A,该步骤是把新制作的图像A,也就是上述步骤a4的值通过图像或运算叠加到所有kernel层的图像上,从而将“后处理”的kernel图像改变,增加了小尺寸文本目标信息,这样也就达到不丢失小尺寸目标,也消除了小尺寸目标粘连到其它目标上的情况,这样就可以采用降采样来加速,但也不丢失小尺寸目标信息,消除了粘连现象。
根据上述内容,所述步骤a1中的图像尺寸与PSENet网路的各个kernel图像尺寸相同。
根据上述内容,步骤a3中图像A位置处的像素和等于0时,将步骤a3中最小的kernel图像中的这类文本目标的像素赋值到图像A中。
图像A把所有kernel层图像的小尺寸目标都搜索出来,因为是从面积小到面积大过程迭代,保留了最多数目的小尺寸目标,在迭代过程中如果后面的小尺寸目标与图像A中已经赋值了的小尺寸目标存在交集,则丢弃该文本目标,因此最后图像A是数目最多,面积相对最小,这样文本小尺寸目标信息就不丢失。
PSENet深度学习网络预测输入图像后,基于输出概率图需要做个“渐进式尺寸扩展后处理”过程,如图2,该后处理过程与概率图中的文本目标像素数目正相关,文本目标像素数越多计算量越大,因此通常采用降采样scale等于2或4来降低参与计算的像素数目,从而达到工业应用的耗时要求。
由于降采样一定概率会带来文本粘连现象,从而导致网络预测精度下降,虽然满足了工业应用的耗时要求,但带来的粘连现象则导致OCR识别效果下降,尤其对密集文本检测,该问题影响更加突出。
从图3中可以看出测试图片的字符例如“/”产生的前景目标的尺寸比较小,有时候宽度或高度不超过4个像素,然后在该掩码图上做降采样,则有概率导致目标丢失,导致渐进式扩展过程中初始的目标数偏少,在扩展过程中这些丢失的目标像素被周围的其它目标合并到一起,从而产生了文本粘连现象。
通过融合渐进式扩展过程中不同面积的kernel图的小尺寸文本目标,来达到最小面积的kernel初始文本目标种子数与降采样之前相同,这样在渐进式过程中则不会使得小尺寸文本目标的像素被周围其他文本目标合并掉,从而达到了解决文本粘连现象的目的。
根据上述内容,所述PSENet网络是基于分割的检测器,对每个文本实例进行多个预测的网络。
根据上述内容,所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
PSENet是一种新的实例分割网络,它有两方面的优势,首先,PSENet作为一种基于分割的方法,能够对任意形状的文本进行定位;其次,PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限定本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.PSENet网络渐进式扩展后处理出现文本粘连的解决方法,其特征在于,包括如下步骤:
a1.定义一个零图像A作为被融合的小尺寸文本目标图像;
a2.从文本目标面积相对最小的kernel图像开始搜索,找出尺寸宽度和高度中的最小值不大于4的文本目标;
a3.按照步骤(a2)的流程进行循环迭代,从最小的kernel图像迭代到文本目标面积相对最大的kernel图像,从而得到图像A的最终值;
a4:将图像A与所有的kernel图像分别做下图像或操作,用于产生一个融合图像A,把新制作的图像A通过图像或运算叠加到所有kernel层的图像上,将“后处理”的kernel图像改变,增加小尺寸文本目标信息,把所有的kernel图像进行修改;
所述步骤(a1)中的图像尺寸与PSENet网路的各个kernel图像尺寸相同;
所述步骤(a3)中图像A位置处的像素和等于0时,将步骤(a3)中最小的kernel图像中的这类文本目标的像素赋值到图像A中;
所述PSENet网络是基于分割的检测器,对每个文本实例进行多个预测的网络;
所述PSENet网络可识别相邻文本实例且对任意形状具有鲁棒性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010294908.3A CN111401319B (zh) | 2020-04-15 | 2020-04-15 | PSENet网络渐进式扩展后处理出现文本粘连的解决方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010294908.3A CN111401319B (zh) | 2020-04-15 | 2020-04-15 | PSENet网络渐进式扩展后处理出现文本粘连的解决方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401319A CN111401319A (zh) | 2020-07-10 |
CN111401319B true CN111401319B (zh) | 2024-04-12 |
Family
ID=71433179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010294908.3A Active CN111401319B (zh) | 2020-04-15 | 2020-04-15 | PSENet网络渐进式扩展后处理出现文本粘连的解决方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401319B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095662A1 (fr) * | 2001-05-23 | 2002-11-28 | France Telecom (Sa) | Procede de detection de zones de texte dans une image video |
CN110610166A (zh) * | 2019-09-18 | 2019-12-24 | 北京猎户星空科技有限公司 | 文本区域检测模型训练方法、装置、电子设备和存储介质 |
CN110796082A (zh) * | 2019-10-29 | 2020-02-14 | 上海眼控科技股份有限公司 | 铭牌文本检测方法、装置、计算机设备和存储介质 |
CN110880000A (zh) * | 2019-11-27 | 2020-03-13 | 上海智臻智能网络科技股份有限公司 | 图片文字定位方法、装置、计算机设备和存储介质 |
CN110991303A (zh) * | 2019-11-27 | 2020-04-10 | 上海智臻智能网络科技股份有限公司 | 一种图像中文本定位方法、装置及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9367766B2 (en) * | 2014-07-22 | 2016-06-14 | Adobe Systems Incorporated | Text line detection in images |
CN108335313A (zh) * | 2018-02-26 | 2018-07-27 | 阿博茨德(北京)科技有限公司 | 图像分割方法及装置 |
CN109389038A (zh) * | 2018-09-04 | 2019-02-26 | 阿里巴巴集团控股有限公司 | 一种信息的检测方法、装置及设备 |
-
2020
- 2020-04-15 CN CN202010294908.3A patent/CN111401319B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002095662A1 (fr) * | 2001-05-23 | 2002-11-28 | France Telecom (Sa) | Procede de detection de zones de texte dans une image video |
CN110610166A (zh) * | 2019-09-18 | 2019-12-24 | 北京猎户星空科技有限公司 | 文本区域检测模型训练方法、装置、电子设备和存储介质 |
CN110796082A (zh) * | 2019-10-29 | 2020-02-14 | 上海眼控科技股份有限公司 | 铭牌文本检测方法、装置、计算机设备和存储介质 |
CN110880000A (zh) * | 2019-11-27 | 2020-03-13 | 上海智臻智能网络科技股份有限公司 | 图片文字定位方法、装置、计算机设备和存储介质 |
CN110991303A (zh) * | 2019-11-27 | 2020-04-10 | 上海智臻智能网络科技股份有限公司 | 一种图像中文本定位方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
段佳琦.基于深度学习的任意角度和尺度文字检测算法研究.《优秀硕士学位论文全文库》.2020,第20-22页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111401319A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10803357B2 (en) | Computer-readable recording medium, training method, and object detection device | |
CN109657545B (zh) | 一种基于多任务学习的行人检测方法 | |
CN111260684A (zh) | 基于帧差法和背景差分法结合的前景像素提取方法及系统 | |
US20150254529A1 (en) | Image processing apparatus and image processing method | |
JP2008217706A (ja) | ラベリング装置、ラベリング方法及びプログラム | |
Santoro et al. | Crowd analysis by using optical flow and density based clustering | |
CN111311634A (zh) | 一种人脸图像检测方法、装置及设备 | |
Couprie et al. | Causal graph-based video segmentation | |
CN112347967B (zh) | 一种复杂场景下融合运动信息的行人检测方法 | |
CN109325387B (zh) | 图像处理方法、装置、电子设备 | |
CN111401319B (zh) | PSENet网络渐进式扩展后处理出现文本粘连的解决方法 | |
CN114639159A (zh) | 移动行人检测方法、电子设备及机器人 | |
CN111160274B (zh) | 一种基于二值化Faster RCNN网络的行人检测方法 | |
Fang et al. | Real-time multiple vehicles tracking with occlusion handling | |
Zhu et al. | Crack detection using enhanced hierarchical convolutional neural networks | |
CN112991397B (zh) | 交通牌跟踪方法、装置、设备和存储介质 | |
Wang et al. | Online adaptive multiple pedestrian tracking in monocular surveillance video | |
Gao et al. | Region-based moving shadow detection using watershed algorithm | |
Cao et al. | Robust crowd counting based on refined density map | |
CN114821441A (zh) | 联合ads-b信息的基于深度学习的机场场面运动目标识别方法 | |
CN114512052A (zh) | 融合遥感影像和轨迹数据的分歧合流路口生成方法及装置 | |
CN103514609A (zh) | 一种基于反馈的运动物体分割的图像处理方法 | |
Huang et al. | The precise recognition of moving object in complex background | |
CN110929726A (zh) | 一种铁路接触网支柱号牌识别方法及系统 | |
CN111401253B (zh) | 一种基于深度学习的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: China Address after: Room 204, 2nd Floor, Building 4, No. 44 North Third Ring Middle Road, Haidian District, Beijing, 100088 Applicant after: Beijing Shenzhi Hengji Technology Co.,Ltd. Address before: 100085 Room 203, 2 / F, building 6, Xisanqi East Road, Qinghe, Haidian District, Beijing Applicant before: SHENYUAN HENGJI TECHNOLOGY CO.,LTD. Country or region before: China |
|
GR01 | Patent grant | ||
GR01 | Patent grant |