CN110276279A - 一种基于图像分割的任意形状场景文本探测方法 - Google Patents
一种基于图像分割的任意形状场景文本探测方法 Download PDFInfo
- Publication number
- CN110276279A CN110276279A CN201910490243.0A CN201910490243A CN110276279A CN 110276279 A CN110276279 A CN 110276279A CN 201910490243 A CN201910490243 A CN 201910490243A CN 110276279 A CN110276279 A CN 110276279A
- Authority
- CN
- China
- Prior art keywords
- text
- filed
- candidate
- scene
- arbitrary shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像分割的任意形状场景文本探测方法,其特点是采用深度神经网络模型处理待测场景图片的方法,将得到的概率图和边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,在得到候选文本区域进行过滤,得到文本探测结果。本发明与现有技术相比具有简单、易行,能够有效的对任意形状的场景文本进行探测,且不会引入大量无关背景,本文的数据主要通过深度神经网络得到,其余的处理步骤主要使用简单的数字图像处理方法和数学工具,且容易通过OpenCV实现,得到高精度的结果。
Description
技术领域
本发明涉及图像目标探测技术领域,尤其是一种基于图像分割的任意形状场景文本探测方法。
背景技术
在互联网世界中,图片是传递信息的重要媒介,特别是电子商务、社交和搜索等领域,每天都有数以亿兆级别的图像在传播,图片文字识别(OCR)在商业领域有重要的应用价值,是数据信息化和线上线下打通的基础,也是学术界的研究热点。与文档文字识别不同,自然场景中的文字识别----图像背景复杂、分辨率低、字体多样、分布随意等,传统光学字符识别在此类情况下无法应用。为了更好的进行自然场景文本识别,就需要准确的对场景文本进行探测,
场景文本探测作为场景文本识别的前置任务,需要在复杂的自然场景下对文本区域进行精确的定位。
目前,场景文本探测常用的手段是将目标探测的方法迁移到文本探测,相对于目标探测,自然场景中的文本具有大小变化大,长宽比变化大,具有变化较大的方向和多样的形状。为了解决场景文本探测问题,通常要将目标探测方法中常用的anchor进行改造。常用的方法是改变预设的大小,长宽比以及加入方向信息。
现有技术探测出的文本框大多数都是四边形,对于具有曲折形状的文本效果不佳,且会引入无需的背景信息。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于图像分割的任意形状场景文本探测方法,采用深度神经网络模型处理文本图片的方法,将自动获取图片中的文本区域和文本边框信息,并结合得到分隔开的文本区域,根据分隔开的文本区域通过OpenCV得到实例级别的图像分割,然后通过算法扩张分割、提取轮廓,完成文本探测,使得给出一张待探测图片,模型能自动地探测图片中任意形状的文本,能够有效的对任意形状的场景文本进行探测,且不会引入大量无关背景,方法简单、易行,能够保证深度神经网络得到充分训练,得到高精度的结果。
本发明的目的是这样实现的:一种基于图像分割的任意形状场景文本探测方法,其特点是采用深度神经网络模型处理待测场景图片的方法,将得到的概率图与边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤:
a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图。
b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与边框图重合部分,得到收缩文本掩码图。
c步骤:对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割,并对分割区域采用广度优先搜索算法进行扩张,得到候选文本框集。
d步骤:将Sigmoid函数激活的文本区域得分图和候选文本框集经设定的评分参数,计算各个候选文本框的评分值,并根据评分值选出候选文本框,经评分过滤后的文本框即为文本探测结果。
本发明与现有技术相比具有简单、易行,能够有效的对任意形状的场景文本进行探测,且不会引入大量无关背景,本文的数据主要通过深度神经网络得到,其余的处理步骤主要使用简单的数字图像处理方法和数学工具,且容易通过OpenCV实现,随着应用需求的提高,许多机构和组织提出丰富的数据集,能够保证深度神经网络得到充分训练,得到高精度的结果。
附图说明
图1为本发明流程示意图。
具体实施方式
参阅附图1,本发明按下述步骤进行任意形状场景文本探测的:
a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图。
b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与边框图重合部分,得到收缩文本掩码图。
c步骤:对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割,并对分割区域采用广度优先搜索算法进行扩张,得到候选文本框集。
d步骤:将Sigmoid函数激活的文本区域得分图和候选文本框集经设定的评分参数,计算各个候选文本框的评分值,并根据评分值选出候选文本框,经评分过滤后的文本框即为文本探测结果。
下面以具体实施为例对本发明作进一步阐述:
实施例1
(一)通过深度神经网络模型获取初步信息
将图片送入深度神经网络模型中进行处理,得到文本区域概率图、文本边框图和文本得分图,通过设定阈值和二值化,即将大于等于阈值的像素点值设为1,小于阈值的像素点值设为0,其中文本区域概率图的阈值为0.6,文本边框图阈值为0.1,并且对文本得分图应用Sigmoid函数获取得分。
(二)通过图像处理方法得到实例级别分割结果
将文本区域概率图和文本区域边框图进行与运算,得到两者共有区域,再将文本区域概率图减去共有区域,得到收缩掩码图,收缩掩码图相对于文本区域概率图,图中较为紧密相连的文本区域将不容易粘连,可以减少分割结果的错误。之后,通过OpenCV实现的图像开运算,滤去收缩掩码图中较小的区域,然后再通过OpenCV获取收缩掩码图中的轮廓标签,得到实例级别的图像分割结果。
(三)文本探测结果获取
上一步骤中获取的实例级别的图像分割结果由于减去了文本边框部分,面积通常要小于真实的文本区域,因此通过基于广度优先搜索的算法将分割图进行膨胀,其具体操作是将所有分割图中标记的像素送入队列中,通过广度优先搜索算法标记文本区域概率图中所有未被标记的文本像素点,然后,采用OpenCV中的轮廓提取方法,在膨胀后的图像分割结果上获取文本区域的轮廓,作为探测结果。最后,通过结合文本区域得分图,滤去错误的文本探测结果,其具体操作是通过求出每个本文探测结果(即轮廓)内的所有像素点的得分均值,将均值小于预设阈值的文本框滤去,过滤后的文本框即为最终结果。
以上只是对本发明作进一步的说明,并非用以限制本专利,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。
Claims (1)
1.一种基于图像分割的任意形状场景文本探测方法,其特征在于采用深度神经网络模型处理待测场景图片的方法,将得到的概率图与边框图结合得到收缩掩码图,在收缩图上应用算法得到实例级别分割,得到候选文本区域,并对候选文本区域进行得分过滤,选取出最后的文本探测结果,其具体过程包括以下步骤:
a步骤:将待探测的场景图片利用深度卷积神经网络模型,分别得到文本边框图、文本区域概率图和文本区域得分图;
b步骤:上述文本边框图和文本区域概率图经阈值及二值化算法处理,将图中大于阈值的像素点作为文本区域,去除与边框图重合部分,得到收缩文本掩码图;
c步骤:对上述收缩文本掩码图和文本区域概率图采用数学形态学的销蚀滤噪处理算法进行实例级图像分割,并对分割区域采用广度优先搜索算法进行扩张,得到候选文本框集;
d步骤:将Sigmoid函数激活的文本区域得分图和候选文本框集经设定的评分参数,计算各个候选文本框的评分值,并根据评分值选出候选文本框,经评分过滤后的文本框即为文本探测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490243.0A CN110276279B (zh) | 2019-06-06 | 2019-06-06 | 一种基于图像分割的任意形状场景文本探测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490243.0A CN110276279B (zh) | 2019-06-06 | 2019-06-06 | 一种基于图像分割的任意形状场景文本探测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110276279A true CN110276279A (zh) | 2019-09-24 |
CN110276279B CN110276279B (zh) | 2020-06-16 |
Family
ID=67960622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910490243.0A Active CN110276279B (zh) | 2019-06-06 | 2019-06-06 | 一种基于图像分割的任意形状场景文本探测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276279B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728237A (zh) * | 2019-10-12 | 2020-01-24 | 创新奇智(成都)科技有限公司 | 不使用预先标定框的商品检测方法 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN111666939A (zh) * | 2020-05-22 | 2020-09-15 | 华东师范大学 | 基于边距约束的任意形状的场景文本检测方法 |
CN113139534A (zh) * | 2021-05-06 | 2021-07-20 | 上海交通大学 | 两阶段安全多方计算的图片文本定位识别方法 |
CN113222995A (zh) * | 2020-02-06 | 2021-08-06 | 阿里巴巴集团控股有限公司 | 视频处理方法、视频处理装置及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107203606A (zh) * | 2017-05-17 | 2017-09-26 | 西北工业大学 | 基于卷积神经网络的自然场景下文本检测与识别方法 |
KR101782914B1 (ko) * | 2016-02-29 | 2017-09-28 | 한국항공대학교산학협력단 | 항공 영상 분류 장치 및 그 방법 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108108731A (zh) * | 2016-11-25 | 2018-06-01 | 中移(杭州)信息技术有限公司 | 基于合成数据的文本检测方法及装置 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108345850A (zh) * | 2018-01-23 | 2018-07-31 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
US20180373947A1 (en) * | 2017-06-22 | 2018-12-27 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109492230A (zh) * | 2019-01-11 | 2019-03-19 | 浙江大学城市学院 | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 |
-
2019
- 2019-06-06 CN CN201910490243.0A patent/CN110276279B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101782914B1 (ko) * | 2016-02-29 | 2017-09-28 | 한국항공대학교산학협력단 | 항공 영상 분류 장치 및 그 방법 |
CN108108731A (zh) * | 2016-11-25 | 2018-06-01 | 中移(杭州)信息技术有限公司 | 基于合成数据的文本检测方法及装置 |
CN107203606A (zh) * | 2017-05-17 | 2017-09-26 | 西北工业大学 | 基于卷积神经网络的自然场景下文本检测与识别方法 |
US20180373947A1 (en) * | 2017-06-22 | 2018-12-27 | StradVision, Inc. | Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
CN108345850A (zh) * | 2018-01-23 | 2018-07-31 | 哈尔滨工业大学 | 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109299274A (zh) * | 2018-11-07 | 2019-02-01 | 南京大学 | 一种基于全卷积神经网络的自然场景文本检测方法 |
CN109492230A (zh) * | 2019-01-11 | 2019-03-19 | 浙江大学城市学院 | 一种基于感兴趣文本域卷积神经网络提取保险合同关键信息的方法 |
Non-Patent Citations (2)
Title |
---|
YAO C等: "strokelets:A learned multi-scale representation for scene text recognition", 《CVPR》 * |
黄攀: "基于深度学习的自然场景文字识别", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728237A (zh) * | 2019-10-12 | 2020-01-24 | 创新奇智(成都)科技有限公司 | 不使用预先标定框的商品检测方法 |
CN110728237B (zh) * | 2019-10-12 | 2022-06-07 | 创新奇智(成都)科技有限公司 | 不使用预先标定框的商品检测方法 |
CN111291759A (zh) * | 2020-01-17 | 2020-06-16 | 北京三快在线科技有限公司 | 文字检测方法、装置、电子设备及存储介质 |
CN113222995A (zh) * | 2020-02-06 | 2021-08-06 | 阿里巴巴集团控股有限公司 | 视频处理方法、视频处理装置及电子设备 |
CN111666939A (zh) * | 2020-05-22 | 2020-09-15 | 华东师范大学 | 基于边距约束的任意形状的场景文本检测方法 |
CN111666939B (zh) * | 2020-05-22 | 2021-02-26 | 华东师范大学 | 基于边距约束的任意形状的场景文本检测方法 |
CN113139534A (zh) * | 2021-05-06 | 2021-07-20 | 上海交通大学 | 两阶段安全多方计算的图片文本定位识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110276279B (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276279A (zh) | 一种基于图像分割的任意形状场景文本探测方法 | |
CN111223088B (zh) | 一种基于深层卷积神经网络的铸件表面缺陷识别方法 | |
CN111027547B (zh) | 一种针对二维图像中的多尺度多形态目标的自动检测方法 | |
CN111047554B (zh) | 一种基于实例分割的复合绝缘子过热缺陷检测方法 | |
CN112052853B (zh) | 一种基于深度学习的手写气象档案资料的文本定位方法 | |
CN110598690B (zh) | 一种端到端光学字符检测识别方法与系统 | |
CN102930277B (zh) | 一种基于识别反馈的字符图像验证码识别方法 | |
CN102044069B (zh) | 一种白细胞图像分割方法 | |
CN105046252B (zh) | 一种人民币冠字码识别方法 | |
CN108090911A (zh) | 一种光学遥感图像的近岸舰船分割方法 | |
CN106934455B (zh) | 基于cnn的遥感影像光学适配结构选取方法及系统 | |
CN107665351A (zh) | 基于难样本挖掘的机场检测方法 | |
CN107527343B (zh) | 一种基于图像处理的双孢蘑菇分级方法 | |
CN108537782A (zh) | 一种基于轮廓提取的建筑物图像匹配与融合的方法 | |
CN108509950B (zh) | 基于概率特征加权融合的铁路接触网支柱号牌检测识别法 | |
CN110059539A (zh) | 一种基于图像分割的自然场景文本位置检测方法 | |
CN109543595A (zh) | 基于深度可分离卷积神经网络的电线的训练方法和检测方法 | |
CN109086772A (zh) | 一种扭曲粘连字符图片验证码的识别方法及系统 | |
CN114140665A (zh) | 一种基于改进YOLOv5的密集小目标检测方法 | |
CN114005081A (zh) | 一种烟丝异物智能检测装置及方法 | |
Liu et al. | Development of a machine vision algorithm for recognition of peach fruit in a natural scene | |
Valy et al. | Line segmentation for grayscale text images of khmer palm leaf manuscripts | |
CN115731257A (zh) | 基于图像的叶片形态信息提取方法 | |
CN116664586A (zh) | 一种基于多模态特征融合的玻璃缺陷检测方法及系统 | |
CN102136074A (zh) | 一种基于mmi的木材图像纹理分析与识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |