CN112446372B - 基于通道分组注意力机制的文本检测方法 - Google Patents
基于通道分组注意力机制的文本检测方法 Download PDFInfo
- Publication number
- CN112446372B CN112446372B CN202011442288.XA CN202011442288A CN112446372B CN 112446372 B CN112446372 B CN 112446372B CN 202011442288 A CN202011442288 A CN 202011442288A CN 112446372 B CN112446372 B CN 112446372B
- Authority
- CN
- China
- Prior art keywords
- attention
- characteristic spectrum
- text
- spectrum
- attention mechanism
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于通道分组注意力机制的文本检测方法,针对不同尺度的目标在特征谱上采用不同尺度的预置框,而融合前的具有较多空间信息的较高分辨率预测特征谱不能很好表示文本特征,直接输入到检测头效果较差。申请人经过实验后发现在八分之一分辨率的预测特征谱上引入注意力模块,提升了八分之一尺度下TextBoxes_plusplus算法的文本偏移预测与候选框回归效果,从而适应文本多变的长宽比减少漏检误检,很好地增强特征鲁棒性,保留空间信息提高小目标文本检测精度。另外本发明注意力机制在编码与解码上分别使用卷积和分组卷积替代全连接,降低了参数量与计算复杂度,对比普通通道注意力,在性能近似情况下高效实现注意力机制。
Description
技术领域
本发明涉及文本检测技术,特别涉及文本检测中通道注意力。
背景技术
OCR(Optical Character Recignition)光学字符识别目,随着数字多媒体技术的发展现泛指图像文字识别,在各种可视化的数据分析和应用中需要提取文字信息。文本检测旨在寻找文本所在区域。文字识别则目的在于识别感兴趣区域文字类别。对计算机图片上文字读取和识别,将期刊文集表单等数据录入计算机处理保存,无不支撑着文本检测与识别方法的飞速发展。进一步的结合广告推荐,素材分类,视频审核等新兴方向OCR焕发着经久不衰的生机。而当前主流OCR技术主要分为文本检测与文本识别。
从对数字字母检测的探求,到汉字的检测与识别。从传统模板匹配到深度学习神经网络算法的提出。利用传统手工设计特征,使用关键文本点小波变换提取文本特征,使用文本颜色特征聚类等传统方法都缺乏较好的鲁棒性。然而计算力解放下的深度学习方法层出不穷,基于预置框的SSD类方法,如RRPN、CTPN、FTSN和TextBoxes等方法。这类方法将文本视为一个对象,具有较好的性能但文本本身长宽比变化剧烈,文本可能存在倾斜扭曲等问题上检测精度仍有待提高。
对于TextBoxes_plusplus算法,是基于SSD通用目标检测方法改进的单阶段端到端文本检测算法。其采用以VGG16为主干的全卷积网络结构,针对不同尺度的目标在特征谱上采用不同尺度的预置框,在每个尺度下都使用分布更密集、更大长宽比预置框,并使用1x5不规则形状卷积核输出维度为72的分类回归信息。其针对文本区别于通用目标检测的改进使得在水平长文本检测上具有很好的效果。
发明内容
本发明所要解决的技术问题是,针对文本图像区别于通用目标检测的特点,提供一种优化的基于TextBoxes_plusplus算法的文本检测方法。
本发明为解决上述问题所采用的技术方案是,基于通道分组注意力机制的文本检测方法,包含以下步骤:
1)将待检测文本图像输入TextBoxes_plusplus网络,经过基于VGG16的主干网络,得到不同尺度下的预测特征谱;
2)从主干网络的隐藏层中得到原输入图像八分之一尺度的预测特征谱;
3)原输入图像八分之一分辨率生成与预测特征谱等尺度的注意力热图;
4)将注意力热图与预测特征谱进行哈达马积得到优化后的预测特征谱;
5)将优化后的预测特征谱经由回归框偏移后输入PriorBox,将得到的预置框坐标作为检测出的文本位置。
注意力热图的生成方式为:将通道数M分辨率为输入图像八分之一的预测特征谱作为注意力机制输入,通过全局池化与卷积实现降N=8维操作将特征谱压缩编码为原通道数的1/N,再使用分组数为N的分组卷积完成解码,最后经过一次上采样得到与预测特征谱等大的注意力热图。
TextBoxes_plusplus算法针对不同尺度的目标在特征谱上采用不同尺度的预置框,而融合前的具有较多空间信息的较高分辨率预测特征谱不能很好表示文本特征,直接输入到检测头效果较差。申请人经过实验后发现在八分之一分辨率的预测特征谱上引入注意力模块能够很好增强特征鲁棒性保留空间信息提高小目标文本检测精度。
注意力机制是一个编码解码机制,对输入采用不同比重的权重以实现注意力机制。使用哈达马积方式与主干网络原始信息融合,优化后的预测特征谱凸显了文本所在区域。
本发明注意力机制在编码与解码上分别使用卷积和分组卷积替代全连接,降低了参数量与计算复杂度,对比普通通道注意力,在性能近似情况下高效实现注意力机制。并且在通道注意力机制中相比全连接,分组卷积可以使得在相同参数量下生成分组数N倍的特征谱,获取更多对原始特征谱增益权重,以得到更具鲁棒性的优化后预测特征谱。
本发明的有益效果是,优化了文本检测中预测特征谱的语义信息,提升了八分之一尺度下TextBoxes_plusplus算法的文本偏移预测与候选框回归效果,从而适应文本多变的长宽比减少漏检误检。相比现有TextBoxes_plusplus算法,高效实现了注意力机制,有效提高了文本检测精度。
附图说明
图1为注意力模块处理示意图。
图2为实施例流程图。
图3为对比实验结果图。
具体实施方式
注意力模块生成注意力热图的方法如图1所示,先将待检测图像八分之一分辨率的预测特征谱(选择来自卷积层conv4-3输出的特征谱)进行1x1全局池化Global pooling,使用卷积conv将通道数压缩为原通道数八分之一,使用relu激活函数激活,实现编解码模型中编码部分。再使用分组卷积group-conv将通道数恢复为原始通道数,使用sigmoid函数激活,并进行上采样恢复reshape到原始尺度scale大小获取与原预测特征谱一致的注意力激活热力图。
实施例在TITAN X服务器上进行实现,如图2所示主要包括几个步骤:主干网络提取输入图像初步特征、获取八分之一尺度下预测特征谱、注意力模块生成注意力热图并融合原始特征谱、基于优化后预测特征谱进行定位与分类。
第1步:对待检测文本图像预处理,并输入TextBoxes_plusplus主干网络,待检测文本图像尺度(分辨率)的八分之一的预测特征谱来自conv4-3;
第2步:将通道数512分辨率为输入图像八分之一的conv4-3预测特征谱作为注意力模块输入,通过全局池化为1x1x512,经过降维N=8,压缩编码为原通道数八分之一,使用分组卷积分组数仍为N,取代全连接解码,经过一次上采样得到与conv4-3等大的注意力热图;
第3步:注意力模块将注意力热图与原conv4-3预测特征谱通过哈达马积进行融合,融合后的预测特征谱即为优化的预测特征谱;
第4步:将优化的预测特征谱经过纵向坐标偏移输入到PriorBox得到回归特征谱、分类特征谱和分类置信度;
第5步:PriorBox输出八边形八点坐标x,y为:
其中,xmain和ymain是预测框中心坐标,box_width和box_height是预置框宽高,dy为纵向偏移量。
本发明在TITAN X CUDA10.0环境的caffe框架下进行了消融实验,分别为没有注意力机制的原生TextBoxes_plusplus、在conv4-3使用上通道注意力的TextBoxes_plusplus以及在conv4-3上使用本发明改进的分组通道分离的注意力算法。如图3所示,ICDAR15为文本方向的一个权威数据库,可以看出注意力机制对TextBoxes_plusplus算法性能有明显提升,且因卷积参数量计算与参数量与分组数成反比,本发明改进的注意力机制实现在本实验中参数量为未改进注意力模块的八分之一,在降低计算复杂度同时改进后算法精度F1-score与普通通道注意力近似。本发明可以较好实现注意力机制功能且对比普通通道注意力的实现方式,线性降低计算复杂度有利于TextBoxes_plusplus及其改进算法在边缘设备、可移动设备上的部署。
Claims (2)
1.基于通道分组注意力机制的文本检测方法,其特征在于,包含以下步骤:
1)将待检测文本图像输入TextBoxes_plusplus网络,经过基于VGG16的主干网络,得到不同尺度下的预测特征谱;
2)从主干网络的隐藏层中选择原输入图像八分之一尺度特征谱作为预测特征谱;
3)预测特征谱基于注意力机制生成注意力热图;
4)将注意力热图与预测特征谱进行哈达马积得到优化后的预测特征谱;
5)将优化后的预测特征谱经由回归框偏移后输入PriorBox,将得到的预置框坐标作为检测出的文本位置;
注意力热图的生成方式为:预测特征谱作为注意力机制输入,通过全局池化与卷积实现降八维操作将特征谱压缩编码为原通道数的八分之一,再使用分组数为八的分组卷积完成解码,最后经过一次上采样得到与预测特征谱等大的注意力热图。
2.如权利要求1所述方法,其特征在于,隐藏层中选择原输入图像八分之一尺度特征谱为卷积层conv4-3输出的特征谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442288.XA CN112446372B (zh) | 2020-12-08 | 2020-12-08 | 基于通道分组注意力机制的文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011442288.XA CN112446372B (zh) | 2020-12-08 | 2020-12-08 | 基于通道分组注意力机制的文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112446372A CN112446372A (zh) | 2021-03-05 |
CN112446372B true CN112446372B (zh) | 2022-11-08 |
Family
ID=74739093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011442288.XA Active CN112446372B (zh) | 2020-12-08 | 2020-12-08 | 基于通道分组注意力机制的文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112446372B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112926582B (zh) * | 2021-03-30 | 2021-12-07 | 江南大学 | 一种基于自适应特征选择和尺度损失函数的文本检测方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784347A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法 |
CN109993101A (zh) * | 2019-03-28 | 2019-07-09 | 华南理工大学 | 基于多分支循环自注意力网络与循环边框回归的车辆检测方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110458165A (zh) * | 2019-08-14 | 2019-11-15 | 贵州大学 | 一种引入注意力机制的自然场景文本检测方法 |
CN110533084A (zh) * | 2019-08-12 | 2019-12-03 | 长安大学 | 一种基于自注意力机制的多尺度目标检测方法 |
CN110619356A (zh) * | 2019-08-28 | 2019-12-27 | 电子科技大学 | 基于区域建议注意力的目标检测方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
CN111709304A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 一种基于时空注意力增强特征融合网络的行为识别方法 |
CN111723841A (zh) * | 2020-05-09 | 2020-09-29 | 北京捷通华声科技股份有限公司 | 文本检测方法、装置、电子设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017101144A4 (en) * | 2016-08-25 | 2017-09-21 | IndirectDebit Pty Ltd | An electronic transaction system using long-lived proxy details for business transaction with a merchant |
CN107688808B (zh) * | 2017-08-07 | 2021-07-06 | 电子科技大学 | 一种快速的自然场景文本检测方法 |
CN107527031B (zh) * | 2017-08-22 | 2021-02-05 | 电子科技大学 | 一种基于ssd的室内目标检测方法 |
CN109086663B (zh) * | 2018-06-27 | 2021-11-05 | 大连理工大学 | 基于卷积神经网络的尺度自适应的自然场景文本检测方法 |
US11443165B2 (en) * | 2018-10-18 | 2022-09-13 | Deepnorth Inc. | Foreground attentive feature learning for person re-identification |
CN110929746A (zh) * | 2019-05-24 | 2020-03-27 | 南京大学 | 一种基于深度神经网络的电子卷宗标题定位提取与分类方法 |
CN110674802B (zh) * | 2019-09-09 | 2022-10-14 | 电子科技大学 | 一种改进的平行四边形候选框的文本检测方法 |
CN110766008A (zh) * | 2019-10-29 | 2020-02-07 | 北京华宇信息技术有限公司 | 一种面向任意方向和形状的文本检测方法 |
CN110837835B (zh) * | 2019-10-29 | 2022-11-08 | 华中科技大学 | 一种基于边界点检测的场景文本端到端识别方法 |
CN111612751B (zh) * | 2020-05-13 | 2022-11-15 | 河北工业大学 | 基于嵌入分组注意力模块的Tiny-yolov3网络的锂电池缺陷检测方法 |
CN111753828B (zh) * | 2020-05-19 | 2022-12-27 | 重庆邮电大学 | 一种基于深度卷积神经网络的自然场景水平文字检测方法 |
-
2020
- 2020-12-08 CN CN202011442288.XA patent/CN112446372B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109784347A (zh) * | 2018-12-17 | 2019-05-21 | 西北工业大学 | 基于多尺度稠密卷积神经网络和谱注意力机制的图像分类方法 |
CN109993101A (zh) * | 2019-03-28 | 2019-07-09 | 华南理工大学 | 基于多分支循环自注意力网络与循环边框回归的车辆检测方法 |
CN110533084A (zh) * | 2019-08-12 | 2019-12-03 | 长安大学 | 一种基于自注意力机制的多尺度目标检测方法 |
CN110458165A (zh) * | 2019-08-14 | 2019-11-15 | 贵州大学 | 一种引入注意力机制的自然场景文本检测方法 |
CN110619356A (zh) * | 2019-08-28 | 2019-12-27 | 电子科技大学 | 基于区域建议注意力的目标检测方法 |
CN111539469A (zh) * | 2020-04-20 | 2020-08-14 | 东南大学 | 一种基于视觉自注意力机制的弱监督细粒度图像识别方法 |
CN111723841A (zh) * | 2020-05-09 | 2020-09-29 | 北京捷通华声科技股份有限公司 | 文本检测方法、装置、电子设备及存储介质 |
CN111709304A (zh) * | 2020-05-21 | 2020-09-25 | 江南大学 | 一种基于时空注意力增强特征融合网络的行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112446372A (zh) | 2021-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
JP4504702B2 (ja) | 文書処理装置、文書処理方法、および文書処理プログラム | |
Zagoris et al. | A document image retrieval system | |
KR20130029430A (ko) | 문자 인식 장치, 문자 인식 방법, 문자 인식 시스템, 및 문자 인식 프로그램 | |
Van Phan et al. | A nom historical document recognition system for digital archiving | |
Sahare et al. | Robust character segmentation and recognition schemes for multilingual Indian document images | |
Wu et al. | Joint spatial and radical analysis network for distorted Chinese character recognition | |
CN112446372B (zh) | 基于通道分组注意力机制的文本检测方法 | |
Lamghari et al. | Template matching for recognition of handwritten Arabic characters using structural characteristics and Freeman code | |
Khan et al. | A holistic approach to Urdu language word recognition using deep neural networks | |
Huang et al. | Attention after attention: Reading text in the wild with cross attention | |
Hemanth et al. | CNN-RNN BASED HANDWRITTEN TEXT RECOGNITION. | |
Nasir et al. | Writer characterization from handwriting on papyri using multi-step feature learning | |
Ouchtati et al. | Segmentation and recognition of handwritten numeric chains | |
Raveena et al. | Extended zone based handwritten Malayalam character recognition using structural features | |
Valy et al. | Text Recognition on Khmer Historical Documents using Glyph Class Map Generation with Encoder-Decoder Model. | |
Jayanthi et al. | A review on recognizing offline Tamil manuscript character | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及系统 | |
Dharsini et al. | Devanagri character image recognition and conversion into text using long short term memory | |
Shrestha et al. | Offline Handwritten Text Extraction and Recognition Using CNN-BLSTM-CTC Network | |
Awan et al. | A Complete Offline Sindhi Handwritten Text Recognition: A Survey | |
CN116701695A (zh) | 一种级联角点特征与孪生网络的图像检索方法及系统 | |
Salguero-Cruz et al. | Check for updates Proposal of a Comparative Framework for Face Super-Resolution Algorithms in Forensics | |
Zhi et al. | A Feature Refinement Patch Embedding-Based Recognition Method for Printed Tibetan Cursive Script | |
Mehri et al. | Historical Document Image Segmentation Combining Deep Learning and Gabor Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |