CN112183545A - 一种任意形状的自然场景文本识别方法 - Google Patents
一种任意形状的自然场景文本识别方法 Download PDFInfo
- Publication number
- CN112183545A CN112183545A CN202011046937.4A CN202011046937A CN112183545A CN 112183545 A CN112183545 A CN 112183545A CN 202011046937 A CN202011046937 A CN 202011046937A CN 112183545 A CN112183545 A CN 112183545A
- Authority
- CN
- China
- Prior art keywords
- text
- segmentation
- map
- network model
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims description 93
- 238000005070 sampling Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000001788 irregular Effects 0.000 abstract description 2
- 230000035945 sensitivity Effects 0.000 abstract 1
- 230000007547 defect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/225—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种任意形状的自然场景文本识别方法,包括如下步骤:S1、自然场景文本图像采集,制作训练数据集和测试数据集;S2、构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型;S3、将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果,在文本识别中结合了空间注意力机制,为文本识别提高空间位置信息,提高了注意力机制模块对位置信息的敏感度,对文本的外观具有较强的鲁棒性,能够实现任意形状的文本识别。该方法在解决极端纵横比或不规则形状的文本实例检测与识别问题上取得很好效果,而且其识别精度不会受附近文本或背景噪声影响。
Description
技术领域
本发明涉及文本检测与识别技术领域,特别涉及一种任意形状的自然场景文本识别方法。
背景技术
近年来,视频和图像中的文本检测与识别问题受到了越来越多的关注,因为文本是理解整个图像的重要内容,蕴含着丰富的语义信息,这些信息是图像内容描述和场景理解的关键线索,因此提取图像中的文本信息有着广泛的应用背景和重大的研究意义。当前规则的文本识别已经取得了显著的成功,比如:车牌识别、产品识别、互联网的视频内容安全监控、视频图像检索等,很多研究方法将递归神经网络、注意力机制结合到识别模型中取得了很好的效果。但是大多数的识别模型仍然不稳定,无法处理自然场景图像中的环境噪声干扰、不规则形状或扭曲模式等的文本识别问题。因此设计一种能够识别自然场景图像中任意形状文本实例的方法是有必要的。
发明内容
针对现有技术的不足,本发明提供了一种任意形状的自然场景文本识别方法,以解决背景技术中出现的问题。
为实现上述目的,本发明采用如下技术方案:
一种任意形状的自然场景文本识别方法,包括如下步骤:
S1、自然场景文本图像采集,制作训练数据集和测试数据集;
S2、构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型;
S3、将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果。
更进一步地,所述步骤S1中,将采集到的场景文本图像按照4:1比例划分训练集和测试集,对划分为训练集中所有图像的多方向文本进行标注,标签为包围文本实例的多边形坐标和文本序列,得到带标注的训练数据集。
更进一步地,所述步骤S2中,构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型,具体包括如下步骤:
S21、构建分割候选网络,包括一个U-Net结构网络模块、一个特征融合模块和两个分割预测模块;
S22、使用Masked RoI模块,将仅含有0和1元素的二值多边形masking矩阵与RoI特征按元素相乘得到masked RoI特征,其中二值多边形masking矩阵表示在多边形区域中全为1且在多边形区域外全为0的轴对齐矩形的二进制映射,则masked RoI特征R计算为R=RO*M,其中:RO为RoI特征,M为二值多边形masking矩阵,*表示逐元素乘法;
S23、构建Fast RCNN网络分支,包括一个分类任务和一个回归任务,将步骤S22得到的masked RoI特征输入该网络,对文本区域提供更精确的定位;
S24、构建Mask掩膜分支,用来检测和识别任意形状的文本,所述Mask掩膜分支包括三个任务:文本实例分割任务、字符分割任务和文本序列识别任务;
S25、所述文本识别网络模型中采用多任务损失函数:L=Lsp+α1Lrcnn+α2Lmask,其中,
Lsp代表分割损失;
Lrcnn代表Fast RCNN网络分支损失,包括分类损失和回归损失;
Lmask代表Mask掩膜分支损失,包括文本实例分割损失、字符分割损失和文本序列识别损失;
α1,α2为超参数。
所述S21步骤中,具体包括如下步骤:
S211、具有并使用U-Net结构网络模块,采用U-Net结构,主干网络是ResNet50。编码器利用ResNet50进行下采样获取高级语义信息,得到不同层级的特征图,解码器对应的进行上采样进行分辨率恢复,将上采样得到的特征与对应下采样特征进行拼接,再将拼接后的特征进行卷积操作得到每层级的特征,记为(P2,P3,P4,P5);
S212、具有并使用特征融合模块,将P2,P3,P4,P5进行融合,融合后的特征图F定义如下:
F=C(P2,P3,P4,P5)
=neck(P2)||up×2neck(P3)||up×4neck(P4)||up×8neck(P5)
其中,||表示连接;neck()表示将特征图降维,维度变为256,降维方式采用卷积核为1*1,步长为1的卷积操作;up×n表示对特征图进行n倍上采样,采样方式使用双线性插值法,特征图F的大小为其中H和W分别是输入图像的高度和宽度;
S213、具有并使用分割预测模块,两个模块的结构相同但参数不同,结构为CBR(3*3,1)、De_CBR(2*2,2)、De_Conv(2*2,2)、Sigmoid,其中CBR(3*3,1)表示卷积核为3*3,步长为1的卷积层、BN批量归一化层和ReLU线性整流层;De_CBR(2*2,2)表示卷积核为2*2,步长为2的去卷积层、BN批量归一化层和ReLU线性整流层;De_Conv(2*2,2)表示卷积核为2*2,步长为2的去卷积层;将步骤S212中得到的融合特征图F输入两个分割预测模块,每个预测模块输出一个与输入图像大小相同的特征图,一个表示文本区域的预测,一个表示字符中心区域预测;
S214、根据训练图像中的文本实例对应的标签,对每张图像生成两个预测模块所需的文本分割图和文本区域轮廓图,具体方式如下:
S2141、生成文本分割图,每个文本实例对应标注的多边形被转换为一个二进制掩码,得到与待训练图片大小相同的文本分割图,其值范围在[0,1],采用Vatti clipping算法通过裁剪d个像素来缩减文本区域,偏移像素其中A、L分别表示代表文本区域的多边形的面积和周长,r表示收缩率,将其值设置为0.4;
S2142、生成文本区域轮廓图,给出一个上述步骤S2142中生成的文本分割图S,首先将其二值化为图B得到多个文本区域,再进行像素扩张得到与待训练图片大小相同的文本区域轮廓图,二值化具体方法为:i,j是分割图或二值图的索引,B、S的大小与输入图像大小相同,在二值图B中对连通区域进行分组,形成的连通区域被视为缩小的文本区域,通过Vatti clipping裁剪算法对d′个元素进行非裁剪来扩张它们,计算公式为其中A′,L′分别为预测的缩小文本区域的面积和周长,将r′值设置为3.0。
更进一步地,所述S24步骤中,包括文本实例分割模块和字符分割模块,通过4个卷积核为3*3的卷积层和一个2*2的去卷积层,将给定固定大小的masked RoI特征输入两个模块,预测出38个目标分割图层,包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层;
还包括文本序列识别模块,直接解码二维特征图以更好地表示各种形状,整体流程为:首先,通过双线性插值法将给定特征图调整为固定形状;然后,执行卷积层、最大池化层、卷积层;最后,用带有注意力机制的RNNs生成文本序列。
更进一步地,空间注意力机制模块包括位置编码,位置编码特征图形状为(Hp+Wp,Hp,Wp),计算方法如下:
其中onehot(i,k)表示长度为K的向量V,其中索引为i的元素的值设置为1,其余值设置为0。将位置编码特征图与原始输入特征图进行级联,得到级联特征图,记为F,其形状为(C+Hp+Wp,Hp,Wp),其中C是原始输入特征图的通道数,设为256;
还包括带注意力机制的RNNs,设迭代次数为T,预测字符类序列y=(y1,...,yT),在第t步有三个输入,t∈(2,T]且t为整数:其一:前述得到的级联特征图F;其二:上一次的隐藏状态st-1;其三:上一次的预测字符类别yt-1,具体过程如下:
首先通过复制将st-1从矢量扩展到形状为(V,Hp,Wp)的特征图St-1,其中V是RNN隐藏层的大小,设为256;然后计算权重αt;接下来,通过将注意力权重应用于原始特征图F来获取步骤t的上下文向量gt;RNN的输入rt通过gt和上一次预测的字符类别yt-1的字符编码进行级联;将RNN的输入rt和RNN的上一个隐藏状态st-1输入到RNN单元中,最后通过线性变换和softmax函数计算步骤t的条件概率。
更进一步地,在步骤S3中,将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果,具体识别过程为:输入测试图像,首先通过分割建议网络得到文本分割图和文本区域轮廓图;然后通过Masked RoI得到masked RoI特征;将特征输入到Fast RCNN网络分支得到进一步细化的文本区域;最后将细化的文本区域输入Mask掩膜分支,生成文本实例分割图、字符分割图和文本序列,通过计算文本实例分割图上的文本区域轮廓可以直接获得预测的多边形,通过解码字符分割图和空间注意力机制模块的输出来获得文本序列。
本发明的一种任意形状的自然场景文本识别方法具备如下有益效果:
1、利用U-Net结构的分割建议网络,无锚的分割建议网络克服了RPN在处理极端纵横比或不规则形状文本时的局限性;
2、提出了Masked RoI模块,有效地抑制了相邻文本实例和背景的噪声,降低了相邻文本区域的检测难度和错误率;
3、加入了空间注意力机制模块,克服了字符分割中的一些局限性;
4、在空间注意力机制解码前加入了位置编码,克服了空间注意力机制对位置信息不敏感的缺点;
5、可以识别任意形状的文本实例,包括水平文本、定向文本和曲线文本;
6、是一个完全端到端的文本识别框架,具有很强的鲁棒性,通用性好、识别准确度高,明显优于其他场景文本识别器。
附图说明
图1为本发明的整体流程图;
图2为本发明的场景文本图像的详细识别过程;图2中:实线表示训练过程,虚线表示测试过程
图3为本发明的分割候选网络结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本发明的保护范围。
本发明的一种任意形状的自然场景文本识别方法,整体流程图和场景文本图像详细识别过程分别如图1和图2所示,包括如下步骤:
S1、自然场景文本图像采集,制作训练数据集和测试数据集;
S2、构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型;
S3、将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果。
所述步骤S1中,将采集到的场景文本图像按照4∶1比例划分训练集和测试集,对划分为训练集中所有图像的多方向文本进行标注,标签为包围文本实例的多边形坐标和文本序列,得到带标注的训练数据集。
所述步骤S2中,构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型,具体包括如下步骤:
S21、构建分割候选网络,包括一个U-Net结构网络模块、一个特征融合模块和两个分割预测模块;
S22、使用Masked RoI模块,为降低相邻文本实例或背景区域的检测难度和错误率,提出Masked RoI,将仅含有0和1元素的二值多边形masking矩阵与RoI特征按元素相乘得到masked RoI特征,用来抑制背景噪声或相邻文本实例,其中二值多边形masking矩阵表示在多边形区域中全为1且在多边形区域外全为0的轴对齐矩形的二进制映射,则maskedRoI特征R计算为R=RO*M,其中:RO为RoI特征,M为二值多边形masking矩阵,*表示逐元素乘法;
S23、构建Fast RCNN网络分支,包括一个分类任务和一个回归任务,将步骤S22得到的masked RoI特征输入该网络,对文本区域提供更精确的定位;
S24、构建Mask掩膜分支,用来检测和识别任意形状的文本,所述Mask掩膜分支包括三个任务:文本实例分割任务、字符分割任务和文本序列识别任务;
S25、所述文本识别网络模型中采用多任务损失函数:L=Lsp+α1Lrcnn+α2Lmask,其中,
Lsp代表分割损失;
Lrcnn代表Fast RCNN网络分支损失,包括分类损失和回归损失;
Lmask代表Mask掩膜分支损失,包括文本实例分割损失、字符分割损失和文本序列识别损失;
α1,α2为超参数。
所述S21步骤中,具体包括如下步骤:
S211、具有并使用U-Net结构网络模块,采用U-Net结构,主干网络是ResNet50。编码器利用ResNet50进行下采样获取高级语义信息,得到不同层级的特征图,解码器对应的进行上采样进行分辨率恢复,将上采样得到的特征与对应下采样特征进行拼接,再将拼接后的特征进行卷积操作得到每层级的特征,记为(P2,P3,P4,P5);
S212、具有并使用特征融合模块,将P2,P3,P4,P5进行融合,融合后的特征图F定义如下:
F=C(P2,P3,P4,P5)
=neck(P2)||up×2neck(P3)||up×4neck(P4)||up×8neck(P5)
其中,||表示连接;neck()表示将特征图降维,维度变为256,降维方式采用卷积核为1*1,步长为1的卷积操作;up×n表示对特征图进行n倍上采样,采样方式使用双线性插值法,特征图F的大小为其中H和W分别是输入图像的高度和宽度;
S213、具有并使用分割预测模块,两个模块的结构相同但参数不同,结构为CBR(3*3,1)、De_CBR(2*2,2)、De_Conv(2*2,2)、Sigmoid,其中CBR(3*3,1)表示卷积核为3*3,步长为1的卷积层、BN批量归一化层和ReLU线性整流层;De_CBR(2*2,2)表示卷积核为2*2,步长为2的去卷积层、BN批量归一化层和ReLU线性整流层;De_Conv(2*2,2)表示卷积核为2*2,步长为2的去卷积层;将步骤S212中得到的融合特征图F输入两个分割预测模块,每个预测模块输出一个与输入图像大小相同的特征图,一个表示文本区域的预测,一个表示字符中心区域预测;
S214、根据训练图像中的文本实例对应的标签,对每张图像生成两个预测模块所需的文本分割图和文本区域轮廓图,具体方式如下:
S2141、生成文本分割图,每个文本实例对应标注的多边形被转换为一个二进制掩码,得到与待训练图片大小相同的文本分割图,其值范围在[0,1],为了分开相邻的文本实例,通常会缩减文本区域,采用Vatti clipping算法通过裁剪d个像素来缩减文本区域,偏移像素其中A、L分别表示代表文本区域的多边形的面积和周长,r表示收缩率,将其值设置为0.4;
S2142、生成文本区域轮廓图,给出一个上述步骤S2142中生成的文本分割图S,首先将其二值化为图B得到多个文本区域,再进行像素扩张得到与待训练图片大小相同的文本区域轮廓图,二值化具体方法为:i,j是分割图或二值图的索引,B、S的大小与输入图像大小相同,在二值图B中对连通区域进行分组,形成的连通区域被视为缩小的文本区域,通过Vatti clipping裁剪算法对d′个元素进行非裁剪来扩张它们,计算公式为其中A′,L′分别为预测的缩小文本区域的面积和周长,将r′值设置为3.0。
所述S24步骤中,包括文本实例分割模块和字符分割模块,通过4个卷积核为3*3的卷积层和一个2*2的去卷积层,将给定固定大小的masked RoI特征输入两个模块,预测出38个目标分割图层,包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层;
还包括文本序列识别模块,由于字符分割具有一定的局限性,比如需要字符级的注释来监督训练、无法从分割图中获得字符的顺序等,为了克服这些局限性引入了空间注意力机制模块,直接解码二维特征图以更好地表示各种形状,整体流程为:首先,通过双线性插值法将给定特征图调整为固定形状;然后,执行卷积层、最大池化层、卷积层;最后,用带有注意力机制的RNNs生成文本序列。
空间注意力机制模块包括位置编码,由于在编码部分没有使用循环卷积网络,因此空间注意力机制模块对位置信息不够敏感,所以在解码前(最后一层卷积之后)加入了位置编码,位置编码特征图形状为(Hp+Wp,Hp,Wp),计算方法如下:
其中onehot(i,k)表示长度为K的向量V,其中索引为i的元素的值设置为1,其余值设置为0。将位置编码特征图与原始输入特征图进行级联,得到级联特征图,记为F,其形状为(C+Hp+Wp,Hp,Wp),其中C是原始输入特征图的通道数,设为256;
还包括带注意力机制的RNNs,可以在二维空间中学习注意力权重。假设迭代次数为T,预测字符类序列y=(y1,...,yT),在第t步有三个输入,t∈(2,T]且t为整数:其一:前述得到的级联特征图F;其二:上一次的隐藏状态st-1;其三:上一次的预测字符类别yt-1,具体过程如下:
首先通过复制将st-1从矢量扩展到形状为(V,Hp,Wp)的特征图St-1,其中V是RNN隐藏层的大小,设为256;
St-1=expand_dim(st-1,Hp,Wp)
然后计算权重dt;
et=Wt×tanh(WsSt-1+WfF+b)
其中et,αt形状为(Hp,Wp),Wt,Ws,Wf,b是可训练的权重和偏差。
接下来,通过将注意力权重应用于原始特征图F来获取步骤t的上下文向量gt;
RNN的输入rt通过gt和上一次预测的字符类别yt-1的字符编码进行级联;
f(yt-1)=Wy×onehot(yt-1,Nc)+by
rt=concat(gt,f(yt-1))
其中Wy,by是可训练权重和线性变换的偏差,Nc为序列解码器中的类别数量,其值为37,包括36个用于字母数字字符的类和1个用于序列结束符号的类。
将RNN的输入rt和RNN的上一个隐藏状态st-1输入到RNN单元中,最后通过线性变换和softmax函数计算步骤t的条件概率。
(xt,st)=rnn(st-1,rt),p(yt)=softmax(Woxt+bo),yt~p(yt)
在S25步骤中,多任务损失函数:L=Ls+α1Lrcnn+α2Lmask,各项损失详细如下:
Fast RCNN网络分支损失Lrcnn包括分类损失和回归损失;
Mask掩膜分支损失Lmask包括文本实例分割损失、字符分割损失和文本序列识别损失:Lmask=Lins+β1Lseg+β2Lseq
Lins表示文本实例分割损失,是平均二进制交叉熵损失:
其中N是文本实例图中的像素个数,yn为像素标签值,值的范围为[0,1],xn为像素预测值,S(x)是softmax函数;
Lseg表示字符分割损失,是加权空间soft-max损失:
其中Nc是类别数量,N是每张图的像素数,Y是X对应的真实值,W用来平衡字符类与背景类的损失。设背景像素数为Nneg,背景类索引为0,权重计算如下:
α1,α2,β1,β2为超参数,根据经验将α1,α2,β1设为1.0,β2设为0.2。
在步骤S3中,将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果,具体识别过程为:输入测试图像,首先通过分割建议网络得到文本分割图和文本区域轮廓图;然后通过Masked RoI得到masked RoI特征;将特征输入到Fast RCNN网络分支得到进一步细化的文本区域;最后将细化的文本区域输入Mask掩膜分支,生成文本实例分割图、字符分割图和文本序列,通过计算文本实例分割图上的文本区域轮廓可以直接获得预测的多边形,通过解码字符分割图和空间注意力机制模块的输出来获得文本序列。
以上所述为本发明的较佳实施例而已,但本发明不应局限于该实施例和附图所公开的内容,所以凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (7)
1.一种任意形状的自然场景文本识别方法,其特征在于,包括如下步骤:
S1、自然场景文本图像采集,制作训练数据集和测试数据集;
S2、构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型;
S3、将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果。
2.根据权利要求1所述的一种任意形状的自然场景文本识别方法,其特征在于,所述步骤S1中,将采集到的场景文本图像按照4:1比例划分训练集和测试集,对划分为训练集中所有图像的多方向文本进行标注,标签为包围文本实例的多边形坐标和文本序列,得到带标注的训练数据集。
3.根据权利要求1所述的一种任意形状的自然场景文本识别方法,其特征在于,所述步骤S2中,构建文本识别网络模型,用标注好的训练样本数据优化网络模型参数,获得最优的文本识别网络模型,具体包括如下步骤:
S21、构建分割候选网络,包括一个U-Net结构网络模块、一个特征融合模块和两个分割预测模块;
S22、使用Masked RoI模块,将仅含有0和1元素的二值多边形masking矩阵与RoI特征按元素相乘得到masked RoI特征,其中二值多边形masking矩阵表示在多边形区域中全为1且在多边形区域外全为0的轴对齐矩形的二进制映射,则masked RoI特征R计算为R=R0*M,其中:R0为RoI特征,M为二值多边形masking矩阵,*表示逐元素乘法;
S23、构建Fast RCNN网络分支,包括一个分类任务和一个回归任务,将步骤S22得到的masked RoI特征输入该网络,对文本区域提供更精确的定位;
S24、构建Mask掩膜分支,用来检测和识别任意形状的文本,所述Mask掩膜分支包括三个任务:文本实例分割任务、字符分割任务和文本序列识别任务;
S25、所述文本识别网络模型中采用多任务损失函数:L=Lsp+α1Lrcnn+α2Lmask,其中,
Lsp代表分割损失;
Lrcnn代表Fast RCNN网络分支损失,包括分类损失和回归损失;
Lmask代表Mask掩膜分支损失,包括文本实例分割损失、字符分割损失和文本序列识别损失;
α1,α2为超参数。
4.根据权利要求3所述的一种任意形状的自然场景文本识别方法,其特征在于,所述S21步骤中,具体包括如下步骤:
S211、具有并使用U-Net结构网络模块,采用U-Net结构,主干网络是ResNet50。编码器利用ResNet50进行下采样获取高级语义信息,得到不同层级的特征图,解码器对应的进行上采样进行分辨率恢复,将上采样得到的特征与对应下采样特征进行拼接,再将拼接后的特征进行卷积操作得到每层级的特征,记为(P2,P3,P4,P5);
S212、具有并使用特征融合模块,将P2,P3,P4,P5进行融合,融合后的特征图F定义如下:
F=C(P2,P3,P4,P5)
=neck(P2)||up×2neck(P3)||up×4neck(P4)||up×8neck(P5)
其中,||表示连接;neck()表示将特征图降维,维度变为256,降维方式采用卷积核为1*1,步长为1的卷积操作;up×n表示对特征图进行n倍上采样,采样方式使用双线性插值法,特征图F的大小为其中H和W分别是输入图像的高度和宽度;
S213、具有并使用分割预测模块,两个模块的结构相同但参数不同,结构为CBR(3*3,1)、De_CBR(2*2,2)、De_Conv(2*2,2)、Sigmoid,其中CBR(3*3,1)表示卷积核为3*3,步长为1的卷积层、BN批量归一化层和ReLU线性整流层;De_CBR(2*2,2)表示卷积核为2*2,步长为2的去卷积层、BN批量归一化层和ReLU线性整流层;De_Conv(2*2,2)表示卷积核为2*2,步长为2的去卷积层;将步骤S212中得到的融合特征图F输入两个分割预测模块,每个预测模块输出一个与输入图像大小相同的特征图,一个表示文本区域的预测,一个表示字符中心区域预测;
S214、根据训练图像中的文本实例对应的标签,对每张图像生成两个预测模块所需的文本分割图和文本区域轮廓图,具体方式如下:
S2141、生成文本分割图,每个文本实例对应标注的多边形被转换为一个二进制掩码,得到与待训练图片大小相同的文本分割图,其值范围在[0,1],采用Vatticlipping算法通过裁剪d个像素来缩减文本区域,偏移像素其中A、L分别表示代表文本区域的多边形的面积和周长,r表示收缩率,将其值设置为0.4;
5.根据权利要求3所述的一种任意形状的自然场景文本识别方法,其特征在于,所述S24步骤中,包括文本实例分割模块和字符分割模块,通过4个卷积核为3*3的卷积层和一个2*2的去卷积层,将给定固定大小的masked RoI特征输入两个模块,预测出38个目标分割图层,包括1个全局文本实例分割图层用于预测文本区域的具体位置,36个字符分割图层和1个字符背景分割图层;
还包括文本序列识别模块,直接解码二维特征图以更好地表示各种形状,整体流程为:首先,通过双线性插值法将给定特征图调整为固定形状;然后,执行卷积层、最大池化层、卷积层;最后,用带有注意力机制的RNNs生成文本序列。
6.根据权利要求5所述的一种任意形状的自然场景文本识别方法,其特征在于,空间注意力机制模块包括位置编码,位置编码特征图形状为(Hp+Wp,Hp,Wp),计算方法如下:
其中onehot(i,k)表示长度为K的向量V,其中索引为i的元素的值设置为1,其余值设置为0。将位置编码特征图与原始输入特征图进行级联,得到级联特征图,记为F,其形状为(C+Hp+Wp,Hp,Wp),其中C是原始输入特征图的通道数,设为256;
还包括带注意力机制的RNNs,设迭代次数为T,预测字符类序列y=(y1,…,yT),在第t步有三个输入,t∈(2,T]且t为整数:其一:前述得到的级联特征图F;其二:上一次的隐藏状态st-1;其三:上一次的预测字符类别yt-1,具体过程如下:
首先通过复制将st-1从矢量扩展到形状为(V,Hp,Wp)的特征图St-1,其中V是RNN隐藏层的大小,设为256;然后计算权重αt;接下来,通过将注意力权重应用于原始特征图F来获取步骤t的上下文向量gt;RNN的输入rt通过gt和上一次预测的字符类别yt-1的字符编码进行级联;将RNN的输入rt和RNN的上一个隐藏状态st-1输入到RNN单元中,最后通过线性变换和softmax函数计算步骤t的条件概率。
7.根据权利要求1所述的一种任意形状的自然场景文本识别方法,其特征在于,在步骤S3中,将待识别的自然场景文本图像输入训练好的网络模型,得到文本识别结果,具体识别过程为:输入测试图像,首先通过分割建议网络得到文本分割图和文本区域轮廓图;然后通过Masked RoI得到masked RoI特征;将特征输入到Fast RCNN网络分支得到进一步细化的文本区域;最后将细化的文本区域输入Mask掩膜分支,生成文本实例分割图、字符分割图和文本序列,通过计算文本实例分割图上的文本区域轮廓可以直接获得预测的多边形,通过解码字符分割图和空间注意力机制模块的输出来获得文本序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011046937.4A CN112183545B (zh) | 2020-09-29 | 2020-09-29 | 一种任意形状的自然场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011046937.4A CN112183545B (zh) | 2020-09-29 | 2020-09-29 | 一种任意形状的自然场景文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183545A true CN112183545A (zh) | 2021-01-05 |
CN112183545B CN112183545B (zh) | 2024-05-17 |
Family
ID=73946594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011046937.4A Active CN112183545B (zh) | 2020-09-29 | 2020-09-29 | 一种任意形状的自然场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183545B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381183A (zh) * | 2021-01-12 | 2021-02-19 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112733768A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学技术大学 | 基于双向特征语言模型的自然场景文本识别方法及装置 |
CN112861739A (zh) * | 2021-02-10 | 2021-05-28 | 中国科学技术大学 | 端到端文本识别方法、模型训练方法及装置 |
CN112966690A (zh) * | 2021-03-03 | 2021-06-15 | 中国科学院自动化研究所 | 基于无锚框和提议框的场景文字检测方法 |
CN113255669A (zh) * | 2021-06-28 | 2021-08-13 | 山东大学 | 任意形状自然场景文本检测方法及系统 |
CN113255646A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种实时场景文本检测方法 |
CN113298167A (zh) * | 2021-06-01 | 2021-08-24 | 北京思特奇信息技术股份有限公司 | 一种基于轻量级神经网络模型的文字检测方法及系统 |
CN113642445A (zh) * | 2021-08-06 | 2021-11-12 | 中国人民解放军战略支援部队信息工程大学 | 一种基于全卷积神经网络的高光谱影像分类方法 |
CN113807357A (zh) * | 2021-09-08 | 2021-12-17 | 中山大学 | 一种基于室内地标文本与轮廓的室内定位方法 |
CN114049625A (zh) * | 2021-11-11 | 2022-02-15 | 西北工业大学 | 基于新型图像收缩方法的多方向文本检测方法 |
CN114332839A (zh) * | 2021-12-30 | 2022-04-12 | 福州大学 | 一种基于多空间联合感知的街景文本检测方法 |
CN114332839B (zh) * | 2021-12-30 | 2024-06-07 | 福州大学 | 一种基于多空间联合感知的街景文本检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120321153A1 (en) * | 2010-03-08 | 2012-12-20 | Koninklijke Philips Electronics N.V. | Region of interest definition in cardiac imaging |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110516670A (zh) * | 2019-08-26 | 2019-11-29 | 广西师范大学 | 基于场景级与区域建议自注意模块的目标检测方法 |
CN110598703A (zh) * | 2019-09-24 | 2019-12-20 | 深圳大学 | 一种基于深度神经网络的ocr识别方法及装置 |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
-
2020
- 2020-09-29 CN CN202011046937.4A patent/CN112183545B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120321153A1 (en) * | 2010-03-08 | 2012-12-20 | Koninklijke Philips Electronics N.V. | Region of interest definition in cardiac imaging |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110516670A (zh) * | 2019-08-26 | 2019-11-29 | 广西师范大学 | 基于场景级与区域建议自注意模块的目标检测方法 |
CN110598703A (zh) * | 2019-09-24 | 2019-12-20 | 深圳大学 | 一种基于深度神经网络的ocr识别方法及装置 |
CN111259899A (zh) * | 2020-01-13 | 2020-06-09 | 华中科技大学 | 一种喷码字符检测方法 |
Non-Patent Citations (2)
Title |
---|
TIEBIAO ZHAO等: "Comparing U-Net convolutional network with mask R-CNN in the performances of pomegranate tree canopy segmentation", 《PROCEEDINGS OF THE SPIE》, pages 107801 * |
徐峰 等: "基于U-Net的结节分割方法", 《软件导刊》, vol. 17, no. 8, pages 161 - 164 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112381183A (zh) * | 2021-01-12 | 2021-02-19 | 北京易真学思教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN112733768A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学技术大学 | 基于双向特征语言模型的自然场景文本识别方法及装置 |
CN112861739B (zh) * | 2021-02-10 | 2022-09-09 | 中国科学技术大学 | 端到端文本识别方法、模型训练方法及装置 |
CN112861739A (zh) * | 2021-02-10 | 2021-05-28 | 中国科学技术大学 | 端到端文本识别方法、模型训练方法及装置 |
CN112966690A (zh) * | 2021-03-03 | 2021-06-15 | 中国科学院自动化研究所 | 基于无锚框和提议框的场景文字检测方法 |
CN112966690B (zh) * | 2021-03-03 | 2023-01-13 | 中国科学院自动化研究所 | 基于无锚框和提议框的场景文字检测方法 |
CN113298167A (zh) * | 2021-06-01 | 2021-08-24 | 北京思特奇信息技术股份有限公司 | 一种基于轻量级神经网络模型的文字检测方法及系统 |
CN113255646A (zh) * | 2021-06-02 | 2021-08-13 | 北京理工大学 | 一种实时场景文本检测方法 |
CN113255646B (zh) * | 2021-06-02 | 2022-10-18 | 北京理工大学 | 一种实时场景文本检测方法 |
CN113255669A (zh) * | 2021-06-28 | 2021-08-13 | 山东大学 | 任意形状自然场景文本检测方法及系统 |
CN113255669B (zh) * | 2021-06-28 | 2021-10-01 | 山东大学 | 任意形状自然场景文本检测方法及系统 |
CN113642445A (zh) * | 2021-08-06 | 2021-11-12 | 中国人民解放军战略支援部队信息工程大学 | 一种基于全卷积神经网络的高光谱影像分类方法 |
CN113807357A (zh) * | 2021-09-08 | 2021-12-17 | 中山大学 | 一种基于室内地标文本与轮廓的室内定位方法 |
CN113807357B (zh) * | 2021-09-08 | 2023-05-30 | 中山大学 | 一种基于室内地标文本与轮廓的室内定位方法 |
CN114049625A (zh) * | 2021-11-11 | 2022-02-15 | 西北工业大学 | 基于新型图像收缩方法的多方向文本检测方法 |
CN114049625B (zh) * | 2021-11-11 | 2024-02-27 | 西北工业大学 | 基于新型图像收缩方法的多方向文本检测方法 |
CN114332839A (zh) * | 2021-12-30 | 2022-04-12 | 福州大学 | 一种基于多空间联合感知的街景文本检测方法 |
CN114332839B (zh) * | 2021-12-30 | 2024-06-07 | 福州大学 | 一种基于多空间联合感知的街景文本检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112183545B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112183545B (zh) | 一种任意形状的自然场景文本识别方法 | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN109977918B (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
Gao et al. | Reading scene text with fully convolutional sequence modeling | |
CN108399419B (zh) | 基于二维递归网络的自然场景图像中中文文本识别方法 | |
CN111428718B (zh) | 一种基于图像增强的自然场景文本识别方法 | |
CN110929665B (zh) | 一种自然场景曲线文本检测方法 | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
CN111325108A (zh) | 一种多任务网络模型及使用方法、装置、和存储介质 | |
CN111079683A (zh) | 基于卷积神经网络的遥感图像云雪检测方法 | |
CN112861739B (zh) | 端到端文本识别方法、模型训练方法及装置 | |
CN113221874A (zh) | 基于Gabor卷积和线性稀疏注意力的文字识别系统 | |
CN116229482A (zh) | 网络舆情分析中视觉多模态文字检测识别及纠错方法 | |
CN116596966A (zh) | 一种基于注意力和特征融合的分割与跟踪方法 | |
Jiang et al. | An efficient and unified recognition method for multiple license plates in unconstrained scenarios | |
CN114511785A (zh) | 基于瓶颈注意力模块的遥感图像云检测方法及系统 | |
Rabhi et al. | Multi-lingual handwriting recovery framework based on convolutional denoising autoencoder with attention model | |
Ding et al. | Rethinking click embedding for deep interactive image segmentation | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN116612283A (zh) | 一种基于大卷积核骨干网络的图像语义分割方法 | |
Zia et al. | Text-to-image generation with attention based recurrent neural networks | |
Rao et al. | Roads detection of aerial image with FCN-CRF model | |
CN115965975A (zh) | 基于多尺度特征聚合的场景图像文字检测方法 | |
CN113743315B (zh) | 一种基于结构增强的手写体初等数学公式识别方法 | |
Kralevska et al. | Real-time Macedonian Sign Language Recognition System by using Transfer Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |