CN112446372B

CN112446372B - 基于通道分组注意力机制的文本检测方法

Info

Publication number: CN112446372B
Application number: CN202011442288.XA
Authority: CN
Inventors: 李宏亮; 李泊琦; 戚耀; 钟子涵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-11-08
Anticipated expiration: 2040-12-08
Also published as: CN112446372A

Abstract

本发明提供一种基于通道分组注意力机制的文本检测方法，针对不同尺度的目标在特征谱上采用不同尺度的预置框，而融合前的具有较多空间信息的较高分辨率预测特征谱不能很好表示文本特征，直接输入到检测头效果较差。申请人经过实验后发现在八分之一分辨率的预测特征谱上引入注意力模块，提升了八分之一尺度下TextBoxes_plusplus算法的文本偏移预测与候选框回归效果，从而适应文本多变的长宽比减少漏检误检，很好地增强特征鲁棒性，保留空间信息提高小目标文本检测精度。另外本发明注意力机制在编码与解码上分别使用卷积和分组卷积替代全连接，降低了参数量与计算复杂度，对比普通通道注意力，在性能近似情况下高效实现注意力机制。

Description

基于通道分组注意力机制的文本检测方法

技术领域

本发明涉及文本检测技术，特别涉及文本检测中通道注意力。

背景技术

OCR(Optical Character Recignition)光学字符识别目，随着数字多媒体技术的发展现泛指图像文字识别，在各种可视化的数据分析和应用中需要提取文字信息。文本检测旨在寻找文本所在区域。文字识别则目的在于识别感兴趣区域文字类别。对计算机图片上文字读取和识别，将期刊文集表单等数据录入计算机处理保存，无不支撑着文本检测与识别方法的飞速发展。进一步的结合广告推荐，素材分类，视频审核等新兴方向OCR焕发着经久不衰的生机。而当前主流OCR技术主要分为文本检测与文本识别。

从对数字字母检测的探求，到汉字的检测与识别。从传统模板匹配到深度学习神经网络算法的提出。利用传统手工设计特征，使用关键文本点小波变换提取文本特征，使用文本颜色特征聚类等传统方法都缺乏较好的鲁棒性。然而计算力解放下的深度学习方法层出不穷，基于预置框的SSD类方法，如RRPN、CTPN、FTSN和TextBoxes等方法。这类方法将文本视为一个对象，具有较好的性能但文本本身长宽比变化剧烈，文本可能存在倾斜扭曲等问题上检测精度仍有待提高。

对于TextBoxes_plusplus算法，是基于SSD通用目标检测方法改进的单阶段端到端文本检测算法。其采用以VGG16为主干的全卷积网络结构，针对不同尺度的目标在特征谱上采用不同尺度的预置框，在每个尺度下都使用分布更密集、更大长宽比预置框，并使用1x5不规则形状卷积核输出维度为72的分类回归信息。其针对文本区别于通用目标检测的改进使得在水平长文本检测上具有很好的效果。

发明内容

本发明所要解决的技术问题是，针对文本图像区别于通用目标检测的特点，提供一种优化的基于TextBoxes_plusplus算法的文本检测方法。

本发明为解决上述问题所采用的技术方案是，基于通道分组注意力机制的文本检测方法，包含以下步骤：

1)将待检测文本图像输入TextBoxes_plusplus网络，经过基于VGG16的主干网络，得到不同尺度下的预测特征谱；

2)从主干网络的隐藏层中得到原输入图像八分之一尺度的预测特征谱；

3)原输入图像八分之一分辨率生成与预测特征谱等尺度的注意力热图；

4)将注意力热图与预测特征谱进行哈达马积得到优化后的预测特征谱；

5)将优化后的预测特征谱经由回归框偏移后输入PriorBox，将得到的预置框坐标作为检测出的文本位置。

注意力热图的生成方式为：将通道数M分辨率为输入图像八分之一的预测特征谱作为注意力机制输入，通过全局池化与卷积实现降N＝8维操作将特征谱压缩编码为原通道数的1/N，再使用分组数为N的分组卷积完成解码，最后经过一次上采样得到与预测特征谱等大的注意力热图。

TextBoxes_plusplus算法针对不同尺度的目标在特征谱上采用不同尺度的预置框，而融合前的具有较多空间信息的较高分辨率预测特征谱不能很好表示文本特征，直接输入到检测头效果较差。申请人经过实验后发现在八分之一分辨率的预测特征谱上引入注意力模块能够很好增强特征鲁棒性保留空间信息提高小目标文本检测精度。

注意力机制是一个编码解码机制，对输入采用不同比重的权重以实现注意力机制。使用哈达马积方式与主干网络原始信息融合，优化后的预测特征谱凸显了文本所在区域。

本发明注意力机制在编码与解码上分别使用卷积和分组卷积替代全连接，降低了参数量与计算复杂度，对比普通通道注意力，在性能近似情况下高效实现注意力机制。并且在通道注意力机制中相比全连接，分组卷积可以使得在相同参数量下生成分组数N倍的特征谱，获取更多对原始特征谱增益权重，以得到更具鲁棒性的优化后预测特征谱。

本发明的有益效果是，优化了文本检测中预测特征谱的语义信息，提升了八分之一尺度下TextBoxes_plusplus算法的文本偏移预测与候选框回归效果，从而适应文本多变的长宽比减少漏检误检。相比现有TextBoxes_plusplus算法，高效实现了注意力机制，有效提高了文本检测精度。

附图说明

图1为注意力模块处理示意图。

图2为实施例流程图。

图3为对比实验结果图。

具体实施方式

注意力模块生成注意力热图的方法如图1所示，先将待检测图像八分之一分辨率的预测特征谱(选择来自卷积层conv4-3输出的特征谱)进行1x1全局池化Global pooling，使用卷积conv将通道数压缩为原通道数八分之一，使用relu激活函数激活，实现编解码模型中编码部分。再使用分组卷积group-conv将通道数恢复为原始通道数，使用sigmoid函数激活，并进行上采样恢复reshape到原始尺度scale大小获取与原预测特征谱一致的注意力激活热力图。

实施例在TITAN X服务器上进行实现，如图2所示主要包括几个步骤：主干网络提取输入图像初步特征、获取八分之一尺度下预测特征谱、注意力模块生成注意力热图并融合原始特征谱、基于优化后预测特征谱进行定位与分类。

第1步：对待检测文本图像预处理，并输入TextBoxes_plusplus主干网络，待检测文本图像尺度(分辨率)的八分之一的预测特征谱来自conv4-3；

第2步：将通道数512分辨率为输入图像八分之一的conv4-3预测特征谱作为注意力模块输入，通过全局池化为1x1x512，经过降维N＝8，压缩编码为原通道数八分之一，使用分组卷积分组数仍为N，取代全连接解码，经过一次上采样得到与conv4-3等大的注意力热图；

第3步：注意力模块将注意力热图与原conv4-3预测特征谱通过哈达马积进行融合，融合后的预测特征谱即为优化的预测特征谱；

第4步：将优化的预测特征谱经过纵向坐标偏移输入到PriorBox得到回归特征谱、分类特征谱和分类置信度；

第5步：PriorBox输出八边形八点坐标x，y为：

其中，x_main和y_main是预测框中心坐标，box_width和box_height是预置框宽高，dy为纵向偏移量。

本发明在TITAN X CUDA10.0环境的caffe框架下进行了消融实验，分别为没有注意力机制的原生TextBoxes_plusplus、在conv4-3使用上通道注意力的TextBoxes_plusplus以及在conv4-3上使用本发明改进的分组通道分离的注意力算法。如图3所示，ICDAR15为文本方向的一个权威数据库，可以看出注意力机制对TextBoxes_plusplus算法性能有明显提升，且因卷积参数量计算与参数量与分组数成反比，本发明改进的注意力机制实现在本实验中参数量为未改进注意力模块的八分之一，在降低计算复杂度同时改进后算法精度F1-score与普通通道注意力近似。本发明可以较好实现注意力机制功能且对比普通通道注意力的实现方式，线性降低计算复杂度有利于TextBoxes_plusplus及其改进算法在边缘设备、可移动设备上的部署。

Claims

1.基于通道分组注意力机制的文本检测方法，其特征在于，包含以下步骤：

2)从主干网络的隐藏层中选择原输入图像八分之一尺度特征谱作为预测特征谱；

3)预测特征谱基于注意力机制生成注意力热图；

5)将优化后的预测特征谱经由回归框偏移后输入PriorBox，将得到的预置框坐标作为检测出的文本位置；

注意力热图的生成方式为：预测特征谱作为注意力机制输入，通过全局池化与卷积实现降八维操作将特征谱压缩编码为原通道数的八分之一，再使用分组数为八的分组卷积完成解码，最后经过一次上采样得到与预测特征谱等大的注意力热图。

2.如权利要求1所述方法，其特征在于，隐藏层中选择原输入图像八分之一尺度特征谱为卷积层conv4-3输出的特征谱。