CN109635743A - 一种结合stn模块的文本检测深度学习方法及系统 - Google Patents
一种结合stn模块的文本检测深度学习方法及系统 Download PDFInfo
- Publication number
- CN109635743A CN109635743A CN201811528158.0A CN201811528158A CN109635743A CN 109635743 A CN109635743 A CN 109635743A CN 201811528158 A CN201811528158 A CN 201811528158A CN 109635743 A CN109635743 A CN 109635743A
- Authority
- CN
- China
- Prior art keywords
- module
- stn
- image
- detection
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种结合STN模块的文本检测深度学习方法及系统;其基于STN深度网络模块,对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。利用STN深度网络模块将文档图像定位和文本条目区域检测两个阶段统一到一个网络框架下,进而发明了一种端到端的平面文档文本条目定位技术,本发明相比于现有技术,整体性能有较大提高,训练成本更低,且实用场景下性能更加稳定可靠。
Description
技术领域
本发明涉及文本检测技术领域,尤其涉及一种结合STN模块的文本检测深度学习方法及系统。
背景技术
OCR(Optical Character Recognition,光学字符识别)的基本任务就是对图像文本上的文本内容进行提取,其一般分为两个过程:检测出文本区域,把文本块裁剪出来进入下一步对文本进行识别,为了达到正确识别的目的,往往需要第一步的文本区域检测做到定位出来,且文本区域中要尽量少的包含背景,这样才能有利于图像的识别。而对于证件、文档、票据等这类平面文档图像,目前比较稳定的主流文本检测技术有以下两种:
方案之一是分为两个阶段,第一阶段是进行文档定位,检出文档四边形的顶点,然后利用这四个顶点的坐标对图像进行透视变换,从而达到矫正整个图像的目的;第二阶段是在变换后的图像上,做文本条目区域进行水平外接矩形框定位检测;
该方案的第一阶段典型方法有如mask-rcnn,mtcnn等,其基本原理就是对整个文档进行4个顶点8个坐标值进行回归,得到4个顶点坐标后,利用四个顶点做图像变换处理;接着第二阶段利用,常用的目标检测方法faster-rcnn、yolo、ssd等高性能的目标检测方法,在矫正后的图像上,进行文本条目的最小外接水平矩形,简称bbox检测。
方案之二不需要做文档矫正,而是直接对文本条目区域进行四边形的四个顶点进行回归,也就是模型直接对文本条目区域的四个顶点进行回归学习,从而达到一步到位的检测定位目的,其主流方法有mask-rcnn,EAST等方法。
上述方案都有着各自的一些缺点,其中:
方案一由于分为两个独立的阶段,因而误差容易放大,而且整个文档图像的尺寸在整图中往往占比较大,整体文本的顶点定位误差稍微高点,都会导致图像矫正不够好,因而整体性能往往会受到较大影响。
方案二因为需要对每个条目的外接多边形的四个顶点进行标注,而不像方案一只需要标注整体文本的四个顶点,和文本条目的水平外接矩形标注,因而标注成本较大(注:实际样本数据标注过程中,水平外接矩形的标注成本大大低于最小外接四边形的成本),且对内容较多的,条目排列紧凑的文档,往往出现定位错乱的情况,因而其整体性能不够,在实际对精度要求较高的应用场景中,现阶段该方案成熟落地场景还较少。
发明内容
针对上述现有技术中存在的不足之处,本发明以背景技术中的方案一为基础,利用STN深度网络模块将方案一的两个阶段统一到一个网络框架下,进而发明了一种端到端的结合STN模块的文本检测深度学习方法及系统,相比于背景技术中的方案一,由于本发明的方案不存在两个过程,因此本发明方案的整体性能有较大提高,而相比于背景技术中的方案二,本发明训练成本降低了很多,且实用场景下性能更加稳定可靠。
具体地,该结合STN模块的文本检测深度学习方法,包括:
基于STN深度网络模块,对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;
通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。
可选地,上述方法中,所述空间变换网络的目标设计为旋转、防射、透视变换中的至少一种。
可选地,上述方法中,所述文本检测算法为Faster RCNN、EAST、CTPN、TextBoxes,以及RRCNN中的任意一种。
相应地,该结合STN模块的文本检测深度学习系统包括图像变换矫正模块和文本条目检测模块;其中,
所述图像变换矫正模块用于基于STN深度网络模块,对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;
所述文本条目检测模块用于通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。
可选地,上述系统中,STN深度网络模块的目标设计为旋转、防射、透视变换中的至少一种。
可选地,上述系统中,所述文本条目检测模块采用Faster RCNN、EAST、CTPN、TextBoxes,以及RRCNN中的任意一种算法。
本发明的方案以背景技术中的方案一为基础,加入STN深度网络模块,直接对输入图片进行图像变换的相关变换矩阵参数学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换,将方案一的两个阶段统一到一个完全的端到端的网络结构中,从而整个误差信号可以同时优化调节图像矫正和文本定位的参数,也就让两个阶段的参数可以得到统一优化。因此,相比于背景技术中的方案一,由于本发明的方案不存在两个过程,故整体性能有较大提高,而相比于背景技术中的方案二,本发明训练成本降低了很多,且实用场景下性能更加稳定可靠。
附图说明
图1为本发明实施例提供的结合STN模块的文本检测深度学习系统的系统框图;
图2为图像变换矫正模块的系统框图;
图3为文本条目检测模块的系统框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例以背景技术中的方案一为基础,加入STN深度网络模块,基于STN深度网络模块,直接对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;然后通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。从而将方案一的两个阶段统一到一个网络框架下,进而发明了一种端到端的平面文档文本条目定位技术,在整个训练过程中,训练误差信号从头到尾同时调整所有网络结构中的参数,具体来说,就是每一次迭代过程中图像变换也在逐步调整,得到优化,最终以使得文本条目的水平最小外接矩形检测达到最优为目的,其整体流程如图1至图3所示,下面结合图1至图3对本实施例的方案进行更进一步地阐述:
图像变换矫正模块:
该图像变换矫正模块基于STN深度网络模块对图像特征进行矫正变换,STN深度网络模块由本地网络(Localisation Network),网络生成器(Gridgenerator),采样器(Sampler)三个部分组成;其中,
a)Localisation Network:该网络就是一个简单的回归网络。将输入的图片进行几个卷积操作,然后全连接回归出6个参数值(假设是仿射变换),2*3的矩阵。
b)Grid generator:网格生成器负责将V中的坐标位置,利用a)算出的矩阵,通过矩阵运算,计算出目标图V中的每个位置对应原图U中的坐标位置。即生成T(G)。
这里的Grid采样过程,对于二维仿射变换(旋转,平移,缩放)来说,就是简单的矩阵运算。上式中,s代表原始图的坐标,t代表目标图的坐标。A为Localisation Network网络回归出的6个图像变换参数值。
整个Grid生成过程就是,将目标图V-FeatureMap中的比如(0,0)(0,1)......位置的坐标,与2*3变换矩阵运算。就会生成出在原始图中对应的坐标信息,比如(5,0)(5,1)......。这样所有的目标图的坐标都经过这样的运算就会将每个坐标都产生一个与之对应的原图的坐标,即T(G)。然后通过T(G)和原始图U-FeatureMap的像素,将原始图中的像素复制到V-FeatureMap中,从而生成目标图的像素。
c)Sampler:采样器根据T(G)中的坐标信息,在原始图U中进行采样,将U中的像素复制到目标图V中。
从而得到了变换后的图像或者特征map。
文本条目检测模块:
该文本条目检测模块将文本检测算法直接作用到变换后的图像或者feature上,此处检测算法以faster-rcnn为例:
a)特征提取模块:利用深度卷积神经网络(VGG,RestNet,Inception)结构提取图片整体抽象特征
b)候选区域产生器:利用区域候选网络推荐候选证件区域,对均匀多吃度的初始化在整个页面上候选框进行,初步的关键文本区域进行定位,得到:
A.候选目标区域分类:判断该区域是否疑似有文本
B.候选区域位置回归:对候选区域的位置进行初步调整,使其接近目标文本的位置
候选区域分类器:利用b)中的初步信息,将判断为疑似有文本的候选区域的特征,通过对应的被调整后的坐标信息裁剪抽取出来,然后利用这些特征进一步计算:
A.物体目标分类:给出精准的是否有文本信息的判断
B.物体目标位置精度调整:给出对位置进一步调整,并给出高精准的位置信息。
本实施例的方案是一种结合深度图像空间变换网络STN结构的文本目标检测算法框架,具体有以下几点优点:
1、本实施例的方案和背景技术中的方案一相比,由于本实施例的方案不用先做图像变换,固定下来进行第二步检测,分两步进行模型参数优化训练,而是端到端的整个过程一起优化,因而最终,在精度要求较高的实用场景下性能更加稳定可靠;
2、本实施例的方案和背景技术中的方案二相比,在成本方面,由于本实施例的方案不需要进行文本条目的四边形标注,因而成本降低了很多。
此外,需要说明的是,本发明实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域技术人员来说,本发明可有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种结合STN模块的文本检测深度学习方法,其特征在于,包括:
基于STN深度网络模块,对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;
通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。
2.如权利要求1所述的结合STN模块的文本检测深度学习方法,其特征在于,STN深度网络模块的目标设计为旋转、防射、透视变换中的至少一种。
3.如权利要求1所述的结合STN模块的文本检测深度学习方法,其特征在于,所述文本检测算法为Faster RCNN、EAST、CTPN、TextBoxes,以及RRCNN中的任意一种。
4.一种结合STN模块的文本检测深度学习系统,其特征在于,包括图像变换矫正模块和文本条目检测模块;其中,
所述图像变换矫正模块用于基于STN深度网络模块,对输入图片进行图像变换的相关变换矩阵参数进行学习与估计,利用相关变换矩阵参数对图像特征进行矫正变换;
所述文本条目检测模块用于通过文本检测算法对矫正变换后的图像上的文本条目区域进行定位检测。
5.如权利要求4所述的结合STN模块的文本检测深度学习系统,其特征在于,STN深度网络模块的目标设计为旋转、防射、透视变换中的至少一种。
6.如权利要求4所述的结合STN模块的文本检测深度学习系统,其特征在于,所述文本条目检测模块采用Faster RCNN、EAST、CTPN、TextBoxes,以及RRCNN中的任意一种算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811528158.0A CN109635743A (zh) | 2018-12-13 | 2018-12-13 | 一种结合stn模块的文本检测深度学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811528158.0A CN109635743A (zh) | 2018-12-13 | 2018-12-13 | 一种结合stn模块的文本检测深度学习方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635743A true CN109635743A (zh) | 2019-04-16 |
Family
ID=66073847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811528158.0A Withdrawn CN109635743A (zh) | 2018-12-13 | 2018-12-13 | 一种结合stn模块的文本检测深度学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635743A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097010A (zh) * | 2019-05-06 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 图文检测方法、装置、服务器及存储介质 |
CN110210469A (zh) * | 2019-05-31 | 2019-09-06 | 中科软科技股份有限公司 | 一种识别图片文字语种的方法及系统 |
CN110210479A (zh) * | 2019-06-04 | 2019-09-06 | 天津大学 | 一种垃圾物品上的文字信息提取方法 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN111223065A (zh) * | 2020-01-13 | 2020-06-02 | 中国科学院重庆绿色智能技术研究院 | 图像矫正方法、不规则文本识别方法、装置、存储介质和设备 |
CN114155546A (zh) * | 2022-02-07 | 2022-03-08 | 北京世纪好未来教育科技有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320290A (zh) * | 2017-12-29 | 2018-07-24 | 中国银联股份有限公司 | 目标图片提取矫正方法及装置、计算机设备和记录介质 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及系统 |
-
2018
- 2018-12-13 CN CN201811528158.0A patent/CN109635743A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108320290A (zh) * | 2017-12-29 | 2018-07-24 | 中国银联股份有限公司 | 目标图片提取矫正方法及装置、计算机设备和记录介质 |
CN108921166A (zh) * | 2018-06-22 | 2018-11-30 | 深源恒际科技有限公司 | 基于深度神经网络的医疗票据类文本检测识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
CHRISTIAN BARTZ等: ""STN-OCR: A single Neural Network for Text Detection and Text Recognition"", 《ARXIV》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097010A (zh) * | 2019-05-06 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 图文检测方法、装置、服务器及存储介质 |
CN110210469A (zh) * | 2019-05-31 | 2019-09-06 | 中科软科技股份有限公司 | 一种识别图片文字语种的方法及系统 |
CN110210479A (zh) * | 2019-06-04 | 2019-09-06 | 天津大学 | 一种垃圾物品上的文字信息提取方法 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN111223065A (zh) * | 2020-01-13 | 2020-06-02 | 中国科学院重庆绿色智能技术研究院 | 图像矫正方法、不规则文本识别方法、装置、存储介质和设备 |
CN111223065B (zh) * | 2020-01-13 | 2023-08-01 | 中国科学院重庆绿色智能技术研究院 | 图像矫正方法、不规则文本识别方法、装置、存储介质和设备 |
CN114155546A (zh) * | 2022-02-07 | 2022-03-08 | 北京世纪好未来教育科技有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635743A (zh) | 一种结合stn模块的文本检测深度学习方法及系统 | |
CN109492643B (zh) | 基于ocr的证件识别方法、装置、计算机设备及存储介质 | |
JP6484333B2 (ja) | 記述式問題のための知的採点方法およびシステム | |
US20230045519A1 (en) | Target Detection Method and Apparatus | |
WO2020098250A1 (zh) | 字符识别方法、服务器及计算机可读存储介质 | |
CN101980248B (zh) | 基于改进视觉注意力模型的自然场景目标检测方法 | |
CN110059694A (zh) | 电力行业复杂场景下的文字数据的智能识别方法 | |
CN105608454B (zh) | 基于文字结构部件检测神经网络的文字检测方法及系统 | |
US8587685B2 (en) | Method and apparatus for retrieving label | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN103154972A (zh) | 基于文本的3d扩增实境 | |
CN104598883A (zh) | 一种多摄像机监控网络中目标再识别的方法 | |
CN110728277B (zh) | 一种印章智能检测与识别的方法及系统 | |
CN110263768A (zh) | 一种基于深度残差网络的人脸识别方法 | |
CN108681735A (zh) | 基于卷积神经网络深度学习模型的光学字符识别方法 | |
CN109543681A (zh) | 一种基于注意力机制的自然场景下文字识别方法 | |
CN105354571B (zh) | 基于曲线投影的畸变文本图像基线估计方法 | |
CN103778436A (zh) | 一种基于图像处理的行人姿态检测方法 | |
CN107145879A (zh) | 一种植物种类自动识别方法及系统 | |
CN111414905B (zh) | 一种文本检测方法、文本检测装置、电子设备及存储介质 | |
CN111027456A (zh) | 基于图像识别的机械水表读数识别方法 | |
CN108805102A (zh) | 一种基于深度学习的视频字幕检测与识别方法及系统 | |
CN110223310A (zh) | 一种基于深度学习的线结构光中心线和箱体边缘检测方法 | |
Shah et al. | Efficient portable camera based text to speech converter for blind person | |
CN104484679B (zh) | 非制式枪射击弹头痕迹图像自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190416 |