CN109614938B - 一种基于深度网络的文本目标检测方法及系统 - Google Patents
一种基于深度网络的文本目标检测方法及系统 Download PDFInfo
- Publication number
- CN109614938B CN109614938B CN201811528118.6A CN201811528118A CN109614938B CN 109614938 B CN109614938 B CN 109614938B CN 201811528118 A CN201811528118 A CN 201811528118A CN 109614938 B CN109614938 B CN 109614938B
- Authority
- CN
- China
- Prior art keywords
- feature map
- frame
- extracting
- text
- proposed area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 10
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 241000282472 Canis lupus familiaris Species 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度网络的文本目标检测方法及系统,包括:选择原始图片,对所述原始图片提取特征图;判断所述特征图的锚点框为前景或背景,并利用边框回归器来修正锚点框,得到提议区域;收集输入的特征图和提议区域,提取提议区域的特征图;将所述提议区域的特征图分割成文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图;对每块特征图做对应角点坐标的回归,得到所述原始图片的边框。
Description
技术领域
本发明涉及文本检测技术领域,具体涉及一种基于深度网络的文本目标检测方法及系统。
背景技术
由于文档、票据等边缘特征不明显等因素,导致图像特征总结困难,传统的机器学习方法无法做到准确定位。这里基于深度学习的方法,通过数据收集、数据增广等方式获得大量贴合实际应用场景的数据,然后通过神经网络来自动学习有用特征,避免了人为定义特征的偏差,从而保证学习到的特征才是对最终文本目标检测最有用的特征。
Faster Rcnn是2016年提出的目标检测框架,直到现在依然是主流的目标检测框架之一。在结构上,Faster Rcnn已经将特征提取(feature extraction),提议区域提取(region proposal),边框回归(bounding box regression)和分类(classification)都整合在了一个网络中,使得综合性能有较大提高。但是原始的、不做任何改动的Faster Rcnn是只能检测到矩形边框,而不能检测到与实际目标位置相贴合的任意四边形的边框。Faster Rcnn在对目标做位置检测时是要对提议区域(region proposal)的特征回归左上角点横坐标(x),左上角点纵坐标(y),边框的宽(w)和高(h)做回归。但是这样的回归出来的边框无法满足实际需求,因为用户实际使用的图片大多都有角度的旋转和角度透视的,而回归出的矩形框的4个点与文档目标的4个角点偏差较大。
现有技术的缺陷为:
常规目标检测框架检测出的目标位置都是矩形,而如果目标旋转角度较大或者存在一定透变时,检测出来的边框与实际目标所处的位置就存在较大差异,这对于需要用到这些检测位置做后续处理的流程来说,无异于增加了很多不确定性;
在对目标每个角的位置做回归时,使用的是整张图片的特征,而实际上,使用与角点对应的小块特征足以回归出对应的角点坐标,而且可以做到更加精确。
发明内容
针对上述问题中存在的不足之处,本发明提供一种基于深度网络的文本目标检测方法及系统。
本发明公开了一种基于深度网络的文本目标检测方法,包括:
选择原始图片,对所述原始图片提取特征图;
判断所述特征图的锚点框为前景或背景,并利用边框回归器来修正锚点框,得到提议区域;
收集输入的特征图和提议区域,提取提议区域的特征图;
将所述提议区域的特征图分割成文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图;
对每块特征图做对应角点坐标的回归,得到所述原始图片的边框。
作为本发明的进一步改进,所述对所述原始图片提取特征图,包括:
通过VGG或ResNet基础特征提取框架提取始图片的特征图。
作为本发明的进一步改进所述判断所述特征图的锚点框为前景或背景,包括:
通过softmax判断特征图的锚点框为前景或背景。
本发明还提供一种基于深度网络的文本目标检测系统,包括:
特征提取模块,用于选择原始图片,对所述原始图片提取特征图;
提议区域提取模块,用于判断所述特征图的锚点框为前景或背景,并利用边框回归器来修正锚点框,得到提议区域;
池化模块,用于收集输入的特征图和提议区域,提取提议区域的特征图;
分割模块,用于将所述提议区域的特征图分割成文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图;
回归模块,用于对每块特征图做对应角点坐标的回归,得到所述原始图片的边框。
作为本发明的进一步改进,所述对所述原始图片提取特征图,包括:
通过VGG或ResNet基础特征提取框架提取始图片的特征图。
作为本发明的进一步改进,所述判断所述特征图的锚点框为前景或背景,包括:
通过softmax判断特征图的锚点框为前景或背景。
与现有技术相比,本发明的有益效果为:
本发明能够定位出更贴近于的目标位置形态的坐标位置,即将原来对矩形框4个偏移量(x,y,w,h)的回归改为对文本目标4个角点坐标的回归(每个坐标包含x、y两个值,总共回归8个点);这尤其对目标检测流程有依赖的后续流程来说具有重要影响,直接决定后续依赖流程检测、识别效果的好坏;
本发明使目标定位更加准确:由于文本目标的特征与实际生活中的物体(如猫狗等)的边缘特征不同,其边缘概念模糊是由它本身属性导致的,所以就使得对文本目标位置的定位偏差较大的问题;在传入到全连接层前通过将特征图切割的方式使得在较小范围上回归单个角点的准确性相比于在整个特征图上回归所有角点的准确性更高。
附图说明
图1为本发明一种实施例公开的基于深度网络的文本目标检测方法的流程图;
图2为本发明一种实施例公开的基于深度网络的文本目标检测系统的框架图;
图3为本发明一种实施例公开的分割成4小块特征图的示意图;
图4为本发明与现有技术对原始图片获取矩形框的对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在文本信息检测系统中,首先需要对文本在整张图片中的位置进行检测,其次对文本内部的各种信息做检测。由于文本图片的边缘特征很不明显,另外,包含文本的图片中,通常文本在整张图的占比比较大,所以就导致文本目标定位不准确的情况。而如果文本目标的定位都不准确,则会对后面的基于文本目标的文本内容检测带来巨大影响,直接影响后续检测和识别流程的准确率;因此,必须保证在文本目标定位阶段的准确率。在文本信息检测系统中,文本目标检测方法采用了Faster Rcnn这样的经典Two Stage的目标检测方法。Faster Rcnn在对目标做位置检测时是要对提议区域(region proposal)的特征回归左上角点横坐标(x),左上角点纵坐标(y),边框的宽(w)和高(h)做回归。但是这样的回归出来的边框无法满足实际需求,因为用户实际使用的图片大多都有角度的旋转和角度透视的,而回归出的矩形框的4个点与文档目标的4个角点偏差较大。
本发明受到回归矩形边框4个点的启发,通过回归出贴合实际文本目标的四边形边框来提高目标检测的准确率,具体过程可以分两步:
首先增加对目标文本4个角(8个值,分别是4个角的横坐标和纵坐标)做回归,从而给出目标的4个角的坐标位置,输出8个坐标值。
其次,对8个坐标值做进一步的优化。
经过大量实验后,发现每个角点得位置特征跟其局部特征的相关性更高。比如一个目标的左上角点,它在特征图(feature map)上对应的特征区域实质上是左上部分区域的;同理,右下角点的特征是位于特征图右下区域范围的。基于这样的考虑,本发明对Faster Rcnn目标检测框架做了优化,使得对每个角点的位置回归在更小的特征范围内进行,从而取得更好的准确率。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供一种基于深度网络的文本目标检测方法,包括:
S1、选择原始图片,对原始图片提取特征图;具体为:
选择原始图片,原始图片可为票据、营业执照等;通过VGG或ResNet等基础特征提取框架(卷积层+激活层+池化层)来提取图像的特征图(feature maps),该特征图被共享用于后续RPN层的全连接层;
S2、提议区域的提取(即RPN层),RPN层用于生成提议区域(region proposals):其中,RPN层通过softmax判断特征图的锚点框(anchors)为前景或背景,并利用边框回归器来修正锚点框,从而获得较为精确的提议区域;
S3、对提议区域特征的池化:池化层收集输入的特征图和提议区域,提取提议区域的特征图,送入后续的特征分割层;
S4、对提议区域特征进行分割:将提议区域的特征图均分成4小块特征,这4小块特征分别指的是文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图,即如图4所示的4块相同大小的特征;
S5、对每块特征图做对应角点坐标的回归,得到原始图片的边框;如图4所示,边框1的4个角点就是由本发明分割后的特征分别回归得到的,边框2是Faster Rcnn不做任何修改时回归得到的矩形框;由图4的结果可以看出,边框1的位置状态更贴合文档的当前状态,而且边框1的4个角点相比于边框2的4个角点来说,更能精确定位文档的位置。
进一步,本发明将对特征图的分割改为对提议区域的分割也可以实现对回归的4个角点做微调优化的效果;在对正负样例比例调整时,可以将于anchor的交并比(iou)阈值适当设置低一些,从而增加正样例占比。
如图2所示,本发明提供一种基于深度网络的文本目标检测系统,包括:
特征提取模块,用于选择原始图片,对原始图片提取特征图;具体为:
选择原始图片,原始图片可为票据、营业执照等;通过VGG或ResNet等基础特征提取框架(卷积层+激活层+池化层)来提取图像的特征图(feature maps),该特征图被共享用于后续RPN层的全连接层;
提议区域提取模块(RPN层),用于提议区域的提取(即RPN层),RPN层用于生成提议区域(region proposals):其中,RPN层通过softmax判断特征图的锚点框(anchors)为前景或背景,并利用边框回归器来修正锚点框,从而获得较为精确的提议区域;
池化模块(池化层),用于对提议区域特征的池化:池化层收集输入的特征图和提议区域,提取提议区域的特征图,送入后续的特征分割层;
分割模块(分割层),用于对提议区域特征进行分割:将提议区域的特征图均分成4小块特征,这4小块特征分别指的是文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图,即如图4所示的4块相同大小的特征;
回归模块,用于对每块特征图做对应角点坐标的回归,得到原始图片的边框;如图4所示,边框1的4个角点就是由本发明分割后的特征分别回归得到的,边框2是Faster Rcnn不做任何修改时回归得到的矩形框;由图4的结果可以看出,边框1的位置状态更贴合文档的当前状态,而且边框1的4个角点相比于边框2的4个角点来说,更能精确定位文档的位置。
进一步,本发明将对特征图的分割改为对提议区域的分割也可以实现对回归的4个角点做微调优化的效果;在对正负样例比例调整时,可以将于anchor的交并比(iou)阈值适当设置低一些,从而增加正样例占比。
本发明的优点为:
本发明能够定位出更贴近于的目标位置形态的坐标位置,即将原来对矩形框4个偏移量(x,y,w,h)的回归改为对文本目标4个角点坐标的回归(每个坐标包含x、y两个值,总共回归8个点);这尤其对目标检测流程有依赖的后续流程来说具有重要影响,直接决定后续依赖流程检测、识别效果的好坏;
本发明使目标定位更加准确:由于文本目标的特征与实际生活中的物体(如猫狗等)的边缘特征不同,其边缘概念模糊是由它本身属性导致的,所以就使得对文本目标位置的定位偏差较大的问题;在传入到全连接层前通过将特征图切割的方式使得在较小范围上回归单个角点的准确性相比于在整个特征图上回归所有角点的准确性更高。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于深度网络的文本目标检测方法,其特征在于,包括:
选择原始图片,对所述原始图片提取特征图;
判断所述特征图的锚点框为前景或背景,并利用边框回归器来修正锚点框,得到提议区域;
收集输入的特征图和提议区域,提取提议区域的特征图;
将所述提议区域的特征图均分成4块相同大小的文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图;
对每块特征图做对应角点坐标的回归,得到所述原始图片的边框。
2.如权利要求1所述的基于深度网络的文本目标检测方法,其特征在于,所述对所述原始图片提取特征图,包括:
通过VGG或ResNet基础特征提取框架提取始图片的特征图。
3.如权利要求1所述的基于深度网络的文本目标检测方法,其特征在于,所述判断所述特征图的锚点框为前景或背景,包括:
通过softmax判断特征图的锚点框为前景或背景。
4.一种基于深度网络的文本目标检测系统,其特征在于,包括:
特征提取模块,用于选择原始图片,对所述原始图片提取特征图;
提议区域提取模块,用于判断所述特征图的锚点框为前景或背景,并利用边框回归器来修正锚点框,得到提议区域;
池化模块,用于收集输入的特征图和提议区域,提取提议区域的特征图;
分割模块,用于将所述提议区域的特征图均分成4块相同大小的文本目标的左上角点特征图、右上角点特征图、右下角点特征图和左下角点特征图;
回归模块,用于对每块特征图做对应角点坐标的回归,得到所述原始图片的边框。
5.如权利要求4所述的基于深度网络的文本目标检测系统,其特征在于,所述对所述原始图片提取特征图,包括:
通过VGG或ResNet基础特征提取框架提取始图片的特征图。
6.如权利要求4所述的基于深度网络的文本目标检测系统,其特征在于,所述判断所述特征图的锚点框为前景或背景,包括:
通过softmax判断特征图的锚点框为前景或背景。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811528118.6A CN109614938B (zh) | 2018-12-13 | 2018-12-13 | 一种基于深度网络的文本目标检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811528118.6A CN109614938B (zh) | 2018-12-13 | 2018-12-13 | 一种基于深度网络的文本目标检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614938A CN109614938A (zh) | 2019-04-12 |
CN109614938B true CN109614938B (zh) | 2022-03-15 |
Family
ID=66009176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811528118.6A Active CN109614938B (zh) | 2018-12-13 | 2018-12-13 | 一种基于深度网络的文本目标检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614938B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110622B (zh) * | 2019-04-23 | 2023-08-22 | 武汉工程大学 | 一种基于图像处理的医疗文本检测方法、系统和存储介质 |
CN112241736B (zh) * | 2019-07-19 | 2024-01-26 | 上海高德威智能交通系统有限公司 | 一种文本检测的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799922A (zh) * | 2009-02-09 | 2010-08-11 | 北京新岸线网络技术有限公司 | 检测文字笔画的方法和装置、定位文字行的方法和装置、判断字幕重复的方法和装置 |
CN112215128A (zh) * | 2020-10-09 | 2021-01-12 | 武汉理工大学 | 融合fcos的r-cnn城市道路环境识别方法及装置 |
-
2018
- 2018-12-13 CN CN201811528118.6A patent/CN109614938B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101799922A (zh) * | 2009-02-09 | 2010-08-11 | 北京新岸线网络技术有限公司 | 检测文字笔画的方法和装置、定位文字行的方法和装置、判断字幕重复的方法和装置 |
CN112215128A (zh) * | 2020-10-09 | 2021-01-12 | 武汉理工大学 | 融合fcos的r-cnn城市道路环境识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
"Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation";Pengyuan Lyu等;《arXiv》;20180227;第1-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109614938A (zh) | 2019-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241947B (zh) | 目标检测模型的训练方法、装置、存储介质和计算机设备 | |
Yang et al. | Real-time face detection based on YOLO | |
CN110147774B (zh) | 表格式图片版面分析方法和计算机存储介质 | |
CN106778737B (zh) | 一种车牌矫正方法、装置和一种视频采集装置 | |
US8917935B2 (en) | Detecting text using stroke width based text detection | |
CN108986152B (zh) | 一种基于差分图像的异物检测方法及装置 | |
CN105809651B (zh) | 基于边缘非相似性对比的图像显著性检测方法 | |
CN105260749B (zh) | 基于方向梯度二值模式和软级联svm的实时目标检测方法 | |
JP2008171417A (ja) | 画像内の略矩形のオブジェクトを検出する方法、画像内のバックグラウンド色を推定する方法、コンピュータ可読媒体、画像内の略矩形のオブジェクトを検出する装置、および画像内のバックグラウンド色を推定する装置 | |
CN108446707B (zh) | 基于关键点筛选及dpm确认的遥感图像飞机检测方法 | |
WO2020097909A1 (zh) | 文本检测方法、装置及存储介质 | |
CN111259878A (zh) | 一种检测文本的方法和设备 | |
CN110737785B (zh) | 一种图片标注的方法及装置 | |
CN106991421A (zh) | 一种身份证信息提取系统 | |
CN112200117A (zh) | 表格识别方法及装置 | |
CN112036232B (zh) | 一种图像表格结构识别方法、系统、终端以及存储介质 | |
CN110909623B (zh) | 三维目标检测方法及三维目标检测器 | |
CN109583493A (zh) | 一种基于深度学习的信用卡检测和数字识别方法 | |
CN109614938B (zh) | 一种基于深度网络的文本目标检测方法及系统 | |
CN111027538A (zh) | 一种基于实例分割模型的集装箱检测方法 | |
CN108960221B (zh) | 基于图像的银行卡识别方法及装置 | |
CN103065163B (zh) | 一种基于静态图片的快速目标检测识别系统及方法 | |
CN110377670B (zh) | 一种确定道路要素信息的方法、装置、介质及设备 | |
WO2023185234A1 (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN103745197A (zh) | 一种车牌检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 203, Floor 2, Building 6, Qinghe Xisanqi East Road, Haidian District, Beijing 100,089 Patentee after: Beijing Shenzhi Hengji Technology Co.,Ltd. Address before: 0706-003, 113 Zhichun Road, Haidian District, Beijing 100086 Patentee before: SHENYUAN HENGJI TECHNOLOGY CO.,LTD. |