CN114821558A - 基于文本特征对齐的多方向文本检测方法 - Google Patents
基于文本特征对齐的多方向文本检测方法 Download PDFInfo
- Publication number
- CN114821558A CN114821558A CN202210229490.7A CN202210229490A CN114821558A CN 114821558 A CN114821558 A CN 114821558A CN 202210229490 A CN202210229490 A CN 202210229490A CN 114821558 A CN114821558 A CN 114821558A
- Authority
- CN
- China
- Prior art keywords
- text
- enhancement
- features
- feature
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 13
- 238000013434 data augmentation Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 230000008602 contraction Effects 0.000 claims description 2
- 230000001629 suppression Effects 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000003321 amplification Effects 0.000 abstract 1
- 238000003199 nucleic acid amplification method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于文本特征对齐的多方向文本检测方法,先对图像进行数据增广处理;再对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征金字塔形式的增强模块来获取多尺度特征中的低级和高级语义信息并输出,再使用特征融合模块对多个特征金字塔形式的增强模块的输出进行自下而上的融合得到融合特征,使用文本特征对齐模块对融合的特征进行加强得到增强特征;最后对增强特征分别进行文本分类与位置预测从而输出预测文本框。本发明能够高效、准确地提取文本特征,定位文本位置;具有快速的检测速度和较高的检测精度。
Description
技术领域
本发明涉及光学字符检测技术,特别涉及基于文本特征对齐的多方向文本检测技术。
背景技术
场景中的文本内容广泛用于文本检索,文字提取,辅助阅读等场景,已经成为计算机视觉领域最重要的研究方向之一。为了能更好地获取场景中的文本,已经有很多研究者正在尝试用不同的深度学习技术解决文本读取的关键问题。
文本读取主要分为两个关键步骤:文本检测和文本识别。文本检测是为了定位每个文本实例边界框的坐标位置;文本识别是为了将检测出来的文本转化成可读取的文本字符串序列。由于图像中的文本通常具有不同的长宽比和形状,这也为精确定位文本区域带来了巨大的挑战。
目前基于深度学习的文本检测算法主要分为两大类:基于区域建议的文本检测方法和基于图像分割的文本检测方法。这些文本检测方法先后经历了水平方向的文本检测、任意方向的文本检测以及现在比较热门的弯曲文本检测。通常情况下,基于区域建议的网络在水平方向和任意方向的文本检测性能较好,基于分割的文本检测算法能更好的处理弯曲文本检测问题。
基于区域建议的文本检测方法类似于一般的目标检测框架,通常采用回归文本框的方式来获得文本区域信息。该方法的主要问题在于,难以对任意基于图像分割的文本检测方法通常利用全卷积网络等分割网络结构进行像素级别的文本预测,预测每一个像素点是文本还是背景,根据分割结果来构建文本行。如果多个文本区域存在重叠,基于分割的方法难以精确分割不同的文本实例。
发明内容
本发明所要解决的技术问题是,针对现有技术无法精确检测具有极端纵横比和不同比例的文本实例,提出了一种基于文本特征对齐的多方向文本检测方法。
本发明为解决上述技术问题,所采用的技术方案是,基于文本特征对齐的多方向文本检测方法,包含以下步骤:
1)构建多种场景下不同比例的文本实例的数据集;
2)获取数据集中包含文本实例的文本图像,并对图像进行数据增广处理;
3)对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征金字塔形式的增强模块来获取多尺度特征中的低级和高级语义信息并输出,再使用特征融合模块对多个特征金字塔形式的增强模块的输出进行自下而上的融合得到融合特征,最后使用文本特征对齐模块对融合的特征进行加强得到增强特征;
4)对增强特征分别进行文本分类与位置预测从而输出预测文本框。
具体的,位置预测的具体方式为增强特征经边界框回归输出的多个预测文本框位置,再使用非极大值抑制处理多余的预测文本框从而输出最终的一个预测文本框位置。
特征金字塔形式的增强模块采用上采样增强和下采样增强两个阶段,上采样增强阶段采用设置的不同增强步长在输入的多尺度特征上通过双线性插值得到的特征图上进行迭代增强生成特征金字塔,下采样增强阶段采用设置的不同增强步长,以采样步长2对上采样增强生成的特征金字塔进行下采样生成增强模块的输出。
文本特征对齐模块生成增强特征的具体方式为:融合特征经过4个不同的卷积组合通道后输入对应的3x3可分离卷积DWConv,4个DWConv的输出直接拼接输入至自注意力机制,自注意力机制输出经1x 1的卷积后输出增强特征。
本发明提出了特征金字塔增强模块,可以弥补轻量级主干网络较小的感受野和较弱的特征表示能力。多个特征金字塔增强模块通过级联用于来补偿轻量级主干的深度,以更好地表达文本特征。提出了文本特征对齐模块,可以弥补卷积神经网络感受野有限的缺陷,由此来提高具有极端纵横比和不同尺度文本实例的文本检测的精度。
本发明有益效果是,能够高效、准确地提取文本特征,定位文本位置;具有快速的检测速度和较高的检测精度;适用于书籍上文本检测,电脑屏幕文字检测,手机屏幕文字检测,银行卡文字检测,招牌文字检测,身份证文字检测,自然场景文字检测等光学字符检测领域。
附图说明
图1为本发明实施流程图;
图2为本发明详细结构图;
图3为本发明中特征金字塔增强模块示意图;
图4为本发明中文本特征对齐模块示意图;
图5为本发明检测效果示意图。
具体实施方式
下面结合附图和实施例,对本发明做进一步详细说明
实施例
如图1所示,基于文本特征对齐的多方向文本检测方法,包括以下步骤:
步骤1,使用头戴式智能眼镜拍摄具有极端纵横比以及不同比例文本实例的文本图像,主要包含书本,报纸,手机,电脑屏幕等场景,图片大小640x480,图片数量7500张,训练集与验证集比例4:1;在进行数据集统计分析时,本发明构建的数据集文本长宽比集中在9-20,包含了极端纵横比的情况;常见自然场景中文本实例长宽比主要集中在3-9;
步骤2,获取数据集中包含文本实例的文本图像,并对图像进行旋转、透视变换、收缩、对比度变换等数据增广处理,进一步的,数据增广处理还包括文本实例扭曲、拉伸、模糊和添加噪声;
步骤3,实施例在TITAN X服务器上进行实现,输入图片大小为640x480,如图2所示,主干网络使用ResNet18对数据增广后的图像提取多尺度特征,将ResNet18网络中四个不同阶段特c2,c3,c4,c5,当输入图片的形状为(16,3,640,480),16为批处理大小,3为通道数,则c2的形状为(16,64,160,120),c3的形状为(16,128,80,60),c4的形状为(16,256,40,30),则c5的形状为(16,512,20,15),在主干网络的输出c2,c3,c4,c5后接1*1*128的conv,bn,relu操作得到Fr,Fr从左到右分别为F2,F3,F4,F5,形状依次为(16,128,160,120),(16,128,80,60),(16,128,40,30),(16,128,20,15);特征金字塔形式的增强模块FPEM(FeaturePyramid Enhancement Modules)如图3所示,FPEM是一个U型模组,分为上采样增强和下采样增强两个阶段,上采样增强作用于输入的特征金字塔,它以步长32,16,8,4像素在特征图上迭代增强。在下采样增强阶段,输入的是由上采样增强生成的特征金字塔,增强的步长从4到32,同时,下采样增强输出的特征金字塔就是最终FPEM的输出。上采样过程中使用双线性插值来进行上采样,下采样过程中通过设置采样步长stride=2来进行下采样。FPEM可以进行级联以补偿轻量级主干网络的深度。特征融合模块FFM(Feature fusion module)将多个FPEM输出的多尺度特征进行融合,相同尺度的特征进行相加求平均得到融合特征,然后使用1x1的卷积对特征图进行降维,连接成最终4*128通道的特征图。
步骤4,文本特征对齐模块TFAM(Text feature alignment module)对FFM融合的特征进行加强得到增强特征,以便于更好的检测极端长宽比和不同比例的文本实例。如图4所示,来自上一层的输入Previous Layer经过4个通道的卷积组合后输入对应的3x3可分离卷积DWConv,4个DWConv的输出直接拼接concate再经过自注意力机制后通过1*1的卷积降维后输出。使用1x3和3x1,1x5和5x1,1x7和7x1卷积组合是为了分别替代3x3,5x5,7x7的卷积,降低参数量,同时可以更好的学习不同比例文本的语义信息,使用可分离卷积DWConv包含空间可分离卷积和深度可分离卷积。添加自注意力机制,有利于更好的学习上下文信息,便于更加准确的定位极端纵横比的文本实例。最后基于经过1*1卷积输出的增强特征分别进行文本分类和文本边界框回归得到多个预测文本框,再使用非极大值抑制(NMS:Non-Maximum Suppression)处理多余的预测文本框输出一个最终的预测文本框。预测输出文本实例的边界框坐标T:
T=(x1,y1,x2,y2,x3,y3,x4,y4)
其中,(x1,y1),(x2,y2),(x3,y3),(x4,y4)从左到右按分别表示为左上角、右上角、右下角,左下角坐标。
实施例采用了和SSD(Single Shot MultiBox Detector)相同的损失函数,分类采用softmax交叉熵损失,回归采用smoothL1损失函数L。
其中,x是匹配矩阵,对于预测的第i个文本框和第j个基准gt(ground truth),xij=1,意味着重叠框之间匹配,xij=0表示不匹配。c表示置信度,l表示预测的位置,g表示gt位置。N是与gt匹配的数量,α是比例系数,用来平衡位置损失Lloc和分类损失Lconf,加速收敛,实验过程中α设置为0.3收敛较快,效果较好。
本发明在CUDA10.0环境下的pytorch框架下进行试验,训练周期设置为1000,每次迭代的批量大小设置为8,在TITAN X双卡服务器上采用gpu进行训练,采用Adam(AdaptiveMoment Estimation)优化器对参数进行学习,其中初始学习率为0.001,权重衰减设置为0.0001.训练使用warmup策略训练5个周期,然后学习率采用指数衰减方式。训练数据集为具有极端长宽比和不同比例的文本实例的文本图像,本实例提出的文本特征对齐模块很好提高了检测性能,文本检测效果如图5,本发明的算法精度F1-Score为0.732。
Claims (8)
1.基于文本特征对齐的多方向文本检测方法,其特征在于,包含以下步骤:
1)构建多种场景下不同比例的文本实例的数据集;
2)获取数据集中包含文本实例的文本图像,并对图像进行数据增广处理;
3)对数据增广后的图像通过主干网络提取多尺度特征之后使用级联的多个特征金字塔形式的增强模块来获取多尺度特征中的低级和高级语义信息并输出,再使用特征融合模块对多个特征金字塔形式的增强模块的输出进行自下而上的融合得到融合特征,最后使用文本特征对齐模块对融合的特征进行加强得到增强特征;
4)对增强特征分别进行文本分类与位置预测从而输出预测文本框。
2.如权利要求1所述方法,其特征在于,位置预测的具体方式为增强特征经边界框回归输出的多个预测文本框位置,再使用非极大值抑制处理多余的预测文本框从而输出最终的一个预测文本框位置。
3.如权利要求1所述方法,其特征在于,主干网络采用ResNet18。
4.如权利要求1所述方法,其特征在于,数据增广处理包括对图像进行旋转、透视变换、收缩和对比度变换。
5.如权利要求4所述方法,其特征在于,数据增广处理还包括文本实例扭曲、拉伸、模糊以及噪声添加。
6.如权利要求1所述方法,其特征在于,特征金字塔形式的增强模块采用上采样增强和下采样增强两个阶段,上采样增强阶段采用设置的不同增强步长在输入的多尺度特征上通过双线性插值得到的特征图上进行迭代增强生成特征金字塔,下采样增强阶段采用设置的不同增强步长,以采样步长2对上采样增强生成的特征金字塔进行下采样生成增强模块的输出。
7.如权利要求1所述方法,其特征在于,文本特征对齐模块生成增强特征的具体方式为:融合特征经过4个不同的卷积组合通道后输入对应的3x3可分离卷积DWConv,4个DWConv的输出直接拼接输入至自注意力机制,自注意力机制输出经1x 1的卷积后输出增强特征。
8.如权利要求7所述方法,其特征在于,4个不同的卷积组合通道分别对应的1x1,3x3,5x5,7x7的卷积,其中,3x3,5x5,7x7的卷积使用1x3和3x1,1x5和5x1,1x7和7x1卷积组合实现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229490.7A CN114821558A (zh) | 2022-03-10 | 2022-03-10 | 基于文本特征对齐的多方向文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229490.7A CN114821558A (zh) | 2022-03-10 | 2022-03-10 | 基于文本特征对齐的多方向文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114821558A true CN114821558A (zh) | 2022-07-29 |
Family
ID=82528172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210229490.7A Pending CN114821558A (zh) | 2022-03-10 | 2022-03-10 | 基于文本特征对齐的多方向文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114821558A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN113221879A (zh) * | 2021-04-30 | 2021-08-06 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、装置、设备及存储介质 |
CN113516124A (zh) * | 2021-05-29 | 2021-10-19 | 大连民族大学 | 基于计算机视觉技术的电能表用电信息识别算法 |
CN113673506A (zh) * | 2021-07-13 | 2021-11-19 | 山东师范大学 | 一种基于多尺度特征金字塔的场景文本检测方法及系统 |
-
2022
- 2022-03-10 CN CN202210229490.7A patent/CN114821558A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021134277A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 情感识别方法、智能装置和计算机可读存储介质 |
CN111461114A (zh) * | 2020-03-03 | 2020-07-28 | 华南理工大学 | 一种基于分割的多尺度特征金字塔文本检测方法 |
CN112133282A (zh) * | 2020-10-26 | 2020-12-25 | 厦门大学 | 轻量级多说话人语音合成系统及电子设备 |
CN113221879A (zh) * | 2021-04-30 | 2021-08-06 | 北京爱咔咔信息技术有限公司 | 文本识别及模型训练方法、装置、设备及存储介质 |
CN113516124A (zh) * | 2021-05-29 | 2021-10-19 | 大连民族大学 | 基于计算机视觉技术的电能表用电信息识别算法 |
CN113673506A (zh) * | 2021-07-13 | 2021-11-19 | 山东师范大学 | 一种基于多尺度特征金字塔的场景文本检测方法及系统 |
Non-Patent Citations (4)
Title |
---|
MINGHANG HE等: "MOST: A Multi-Oriented Scene Text Detector with Localization Refinement" * |
QIANGPENG YANG等: "IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection" * |
WENHAI WANG等: "Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network" * |
刘崇宇等: "自然场景文本检测与识别的深度学习方法" * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110175613B (zh) | 基于多尺度特征和编解码器模型的街景图像语义分割方法 | |
CN111461127B (zh) | 基于一阶段目标检测框架的实例分割方法 | |
CN113591968A (zh) | 一种基于非对称注意力特征融合的红外弱小目标检测方法 | |
CN110766020A (zh) | 一种面向多语种自然场景文本检测与识别的系统及方法 | |
CN111612017A (zh) | 一种基于信息增强的目标检测方法 | |
CN111310766A (zh) | 基于编解码和二维注意力机制的车牌识别方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
CN111860683B (zh) | 一种基于特征融合的目标检测方法 | |
CN113850324B (zh) | 一种基于Yolov4的多光谱目标检测方法 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN113903022B (zh) | 基于特征金字塔与注意力融合的文本检测方法及系统 | |
CN111985374A (zh) | 人脸定位方法、装置、电子设备及存储介质 | |
CN109977834B (zh) | 从深度图像中分割人手与交互物体的方法和装置 | |
CN114724155A (zh) | 基于深度卷积神经网络的场景文本检测方法、系统及设备 | |
CN112733942A (zh) | 一种基于多级特征自适应融合的变尺度目标检测方法 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN117557774A (zh) | 一种基于改进YOLOv8的无人机图像小目标检测方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN115471718A (zh) | 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 | |
CN115187456A (zh) | 基于图像强化处理的文本识别方法、装置、设备及介质 | |
CN111209886B (zh) | 一种基于深度神经网络的快速行人再识别方法 | |
CN111612803A (zh) | 一种基于图像清晰度的车辆图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220729 |
|
RJ01 | Rejection of invention patent application after publication |