CN110287960B - 自然场景图像中曲线文字的检测识别方法 - Google Patents

自然场景图像中曲线文字的检测识别方法 Download PDF

Info

Publication number
CN110287960B
CN110287960B CN201910592008.4A CN201910592008A CN110287960B CN 110287960 B CN110287960 B CN 110287960B CN 201910592008 A CN201910592008 A CN 201910592008A CN 110287960 B CN110287960 B CN 110287960B
Authority
CN
China
Prior art keywords
character
network
features
curve
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910592008.4A
Other languages
English (en)
Other versions
CN110287960A (zh
Inventor
操晓春
赵汉玥
代朋纹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201910592008.4A priority Critical patent/CN110287960B/zh
Publication of CN110287960A publication Critical patent/CN110287960A/zh
Application granted granted Critical
Publication of CN110287960B publication Critical patent/CN110287960B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种自然场景图像中曲线文字的检测识别方法,本方法用于解决曲线文字识别中边界模糊且与背景对比度低的问题,提高曲线文字检测精度。主要步骤包括1)对基于Mask RCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测出图像中的文字区域;2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。

Description

自然场景图像中曲线文字的检测识别方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种能够在自然场景下检测和识别曲线文字的方法。
背景技术
自然场景中文字信息无处不在,近年来随着摄影器材的普及,网络空间中图像和视频数据量急剧上升。与此同时,自动驾驶、机器人等人工智能产品的迅速发展,使得文字检测和识别技术的应用也越来越广泛。利用计算机视觉技术,自动分析解释图像中的信息,并且进一步理解图像中的语义内容就显得尤为重要。不同于传统的文字检测和识别方法主要面向于高质量的图片,自然场景下的文字检测和识别受到环境的影响,有图像背景复杂、分辨率低下、字体多样、分布随意等特点。因此,传统的文字检测识别方法在自然场景下不具备适用性。近年来,得益于机器学习算法的发展,图像文字检测识别技术取得较大进步,最近的文字检测识别算法较多依赖于深度学习。
文字检测即定位出图片中文字所在的具体区域,文字识别即识别出所检测区域的具体文字信息内容。目前基于深度学习的文字检测和识别方法从网络结构上可以分为两类,第一种是检测网络加识别网络的方法,先利用文字检测网络检测文字的位置,输出文字区域信息,再将文字区域输入到文字识别网络进行识别,最终输出文字图片坐标定位和文字内容识别结果。第二种是端到端的识别方法,同时进行文字检测和识别,输出文本位置信息和文本内容信息。从文字方向上可以分为三类:水平文字、倾斜文字、曲线文字。
关于水平文字检测和识别技术的研究,是目前文字识别应用中最成功的。水平文字检测即输出矩形文字框,四个自由度。其中,CTPN文字检测网络把文本行看做是由细条状区域组成的,通过Faster R-CNN中的RPN检测细条状区域,并把卷积神经网络(CNN)与循环神经网络(RNN)结合起来,实现了准确快速定位。而TextBoxes文字检测器在SSD框架基础上改进以适应文本行窄长等特征。水平文字识别应用广泛的有CRNN识别网络,该网络由CNN+BiLSTM+CTC构成,实现了端到端训练。与水平文字相比,倾斜文字检测识别与主要体现在文字检测方面,即输出平行四边形文字框,八个自由度。EAST是一个简单高效的文字检测网络,利用了Inception的思想采用PVANet模型提取特征,相比于CTPN减少了很多中间过程,支持多方向的文字定位。TextBoxes++是在TextBoxes上进行改进的多方向文本检测网络。当然,曲线文字检测识别是难度最高的,目前并没有取得很好的效果及相关应用。其难点主要在于文字分布和方向的无规则性,曲线文字检测即输出凸多边形文字框,多个自由度。曲线文字边界模糊和文字与背景对比度较低,导致直接应用目标示例分割方法进行曲线文字检测效果并不理想。曲线文字识别则是考虑先通过矫正网络将文字调整成水平文字,再进行识别。综合曲线文字检测识别技术中的难点问题,设计合理的特征提取方法,改进网络结构,对于提高检测和识别曲线文字的精度至关重要。
发明内容
本发明的目的是提出一种自然场景图像中曲线文字的检测识别方法,能够应对自然场景下文字信息分布的无规则性和无方向性,以及自然场景的环境多变性,对自然场景中曲线文字信息进行有效地检测识别。
为实现上述目的,本发明采用的技术方案如下:
一种自然场景图像中曲线文字的检测识别方法,包括以下步骤:
1)对基于Mask RCNN网络的曲线文字检测网络进行训练,利用训练好的曲线文字检测网络对自然场景图像进行检测,检测步骤包括:
提取图像的文字特征,并对文字特征进行增强;
根据增强的文字特征生成候选框,通过特征分配将生成的候选框与增强的文字特征进行对应,并投影候选框的特征到不同的尺寸固定的特征;
对不同的尺寸固定的特征进行候选框微调,检测出图像中的文字区域;
2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;
3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。
进一步地,对曲线文字检测网络进行训练的数据集包括自然场景曲线文字图片和对应的文字区域掩码图片;对曲线文字识别网络进行训练的数据集包括曲线文字图片和对应的文字信息。
进一步地,曲线文字检测网络以ResNet-50作为主干网络,通过ResNet-50提取文字特征。
进一步地,曲线文字检测网络还包括一用于增强文字特征的TFE模块,该TFE模块包括多个过滤器和单元,每个过滤器采用1*1卷积核,每个单元含有3*3卷积核、1*7卷积核和7*1卷积核;
每个单元根据公式Fm=ψ(Sm,Fm+1;θm)输出增强的文字特征,其中Sm表示第m级旁路通过滤波器后输出的特征图;Fm+1表示输出特征;ψ(·)表示增强文字特征的函数,θm表示在第m个单元中学习到的参数;
在文字特征增强子模块中,一个单元的输入被分配给旁路以输出深层特征,其余单元利用该深层特征融合浅层特征,得到融合后的特征。
进一步地,利用RPN网络产生候选框。
进一步地,候选框对应特征分配公式如下:
Figure BDA0002115452460000031
其中,Ι(·)表示指示函数,Fi是第i级候选框对应的特征,Ai表示第i级候选框的候选区域面积大小,
Figure BDA0002115452460000032
表示第m级的候选区域面积上界。
进一步地,利用金字塔ROI池化注意力子模块投影候选框的特征到不同的尺寸固定的特征,公式如下:
Figure BDA0002115452460000033
其中,Fi是第i级候选框对应的特征,ρn表示池化窗口的大小,N表示池化窗口的数量。
进一步地,微调的方法为:将不同的尺寸固定的特征输入到文本框微调子模块进行分类和回归,计算分类损失和回归损失;再输入到文本框切割子模块生成图像掩码,切割出任意形状的文字区域,计算分割损失。
进一步地,文本框切割子模块包括若干卷积层、ReLU激活层以及一个1*1卷积核的卷积层;特征输入到文本框切割子模块后,经过若干卷积层和ReLU激活层之后,输入到一个1*1卷积核的卷积层用于生产文字/非文字的图像掩码;
掩码生成公式为:
Figure BDA0002115452460000034
其中Ω(·)表示向量化操作,将一个张量转换成一个向量,Ω-1是Ω(·)的反向运算,Φ(·)是非线性函数由两个全连接层和非线性ReLU操作组成,Θ表示全连接层学习到的参数。
进一步地,利用后处理方法去除低置信分数的文字区域掩码,生成最终检测的文字区域。
进一步地,矫正网络基于空间变换网络,通过其定位网络预测一组定位需要的控制点,从控制点计算TPS变换并将其传递给网格生成器和采样器,生成矫正后图像;该定位网络存送卷积网络,包括6个卷积层、5个max-pooling层和2个全连接层。
进一步地,曲线文字识别网络利用卷积网络提取卷积特征,将特征输入到双向LSTM的编码器,再通过含注意力机制的LSTMs解码器进行解码,输出识别文字结果。
首次将Mask RCNN应用于曲线文字检测,能有效解决曲线文字边界模糊且与背景对比度低的问题。该方法设计实现曲线文字检测网络和曲线文字识别网络,曲线文字检测网络是在Mask RCNN网络基础上增加了文字特征增强子模块,通过多尺度特征融合技术增强网络的表征能力。在ROI操作中加入注意力(attention)机制,设计金字塔ROI池化注意力子模块,将候选框与特征相对应。设计基于内容的文本框分割子模块,将候选框的全局信息编码,利用全局信息检测文本边界。曲线文字识别网络ASTER先通过STN矫正网络将曲线文字区域矫正成水平文字,再通过识别网络,使用sequence-to-sequence+attention的方法进行识别。
附图说明:
图1是曲线文字检测网络结构图。
图2是曲线文字识别流程图。
图3是自然场景图像中曲线文字的检测识别方法的简要流程图。
图4-7是四组识别样例流程图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本发明采用的技术方案主要分为两部分:检测和识别,另外还包括位于中间的矫正,如图3所示。检测部分将目标实例分割的网络进行改进,设计了曲线文字检测网络CTD,该CTD网络为在Mask RCNN物体检测网络基础上进行的改进,能够端到端地检测曲线文字区域,并且对于倾斜文字和水平文字也有显著的效果。识别部分利用曲线文字识别网络ASTER,能够准确地识别曲线文字内容。
首先对CTD网络进行曲线文字检测训练,训练步骤如下:
数据集:使用的数据集为公开数据集CTW1500,共包含1500张场景文本图片,其中1000张用于训练,500张图片用于测试。一共含有10751个文本实例,且每张图片至少含有一个曲线文字,每个曲线文字区域都用14点进行标注。
训练过程:
1)输入图片,使用ResNet-50作为主干网络提取文字特征。
2)将提取到的文字特征输入的文字特征增强子模块(TFE),设计3*3conv产生正方形感受野、1*7conv产生更宽的感受、7*1conv产生更高的感受野,增强文字特征。
3)将增强的文字特征输入RPN网络,产生候选框。
4)将候选框输入到金字塔ROI池化注意力子模块(PRPA),首先根据候选框比例对应增强的特征,然后把该候选框相应特征投影到不同固定尺寸的特征,结合学习到的权重加权求和得到最终的特征图(feature map)。
5)固定尺寸的特征同时输入到文本框微调子模块(BRN)和基于内容的文本框分割子模块(BCTS)。BRN子模块分类和回归出矩形框,计算分类损失和回归损失;BCTS子模块分割每个候选框中的任意形状的文本框,计算分割损失。
6)使用标准的随机梯度下降(SGD)算法来优化网络,BRN与BCTS同时训练。
然后利用训练好的CTD网络进行曲线文字检测测试,步骤如下:
1)输入图片,使用ResNet-50作为主干网络提取特征表示。
2)将提取到的特征输入文字相关特征增强子模块(TFE),设计3*3conv产生正方形感受野、1*7conv产生更宽的感受、7*1conv产生更高的感受野,增强文字特征。
3)将增强的文字特征输入RPN网络,产生候选框。
4)将候选框输入金字塔ROI池化注意力子模块(PRPA),首先根据候选框比例对应增强的特征,然后把该候选框相应特征投影到不同固定尺寸的特征,结合学习到的权重加权求和得到特征图(feature map)。
5)固定尺寸的特征输入到文本框微调子模块(BRN)进行候选框微调,再将微调后的候选框输入到基于内容的文本框分割子模块(BCTS)。
6)输出任意形状的文字区域坐标。
进一步地,步骤2)TFE子模块使用不规则的卷积核,除了常规的3*3正方形卷积核以外,还增加了两种适合曲线文本特征的,更宽1*7的卷积核用于表示水平方向的长文本、更高的7*1的卷积核用于表示竖直方向的长文本。自上而下集合多尺度特征。低级特征和高级特征经过融合生成的特征,比单独的特征表示更具有代表性。
进一步地,步骤3)RPN网络产生的筛选在经过PRPA子模块之前,先通过特征分配门(FAG)将候选框的尺度和增强的特征对应起来,再输入PRPA投影到不同的固定尺寸的特征,结合训练部分最终学习到的权重,输出特征图(feature map)。
首先对ASTER网络进行曲线文字识别训练,步骤如下:
数据集:使用的数据集为Synth90k和SynthText。这里先做预处理,将图片的文字部分剪裁之后,再进行训练。Synth90k数据集含有9万张人工合成的图片,SynthText数据集含有8万张人工合成的图片,矫正网络部分一共使用了15万张图片进行训练。
训练过程:
1)把原始图像缩放到64×256再进入矫正网络,使用TPS插值算法将原始图片变换成的水平文字图片。
2)定位网络检测出定位需要的控制点,计算要生成的新图中每个点在原图中的点位置的映射关系,采样后输出为32×64,经过采样器输出32×100的矫正后图像。
3)以32×100的尺寸输入到识别网络,经过45层残差网络为文本识别网络提取卷积特征。
4)将提取后的特征输入到一个两层的Bidirectional LSTM(BiLSTM),经过含注意力机制的LSTMs解码器,输出识别文字结果对比标注结果计算识别网络损失。
5)除定位网络以外,随机初始化其他网络的参数,优化多任务损失函数。
然后利用训练好的ASTER网络进行曲线文字识别测试,步骤如下:
1)把原始图像缩放到64×256再进入矫正网络,使用TPS插值算法将原始图片变换成的水平文字图片。
2)定位网络检测出定位需要的控制点,计算要生成的新图中每个点在原图中的点位置的映射关系,采样后输出为32×64,经过采样器输出32×100的矫正后图像。
3)以32×100的尺寸输入到识别网络,经过45层残差网络为文本识别网络提取卷积特征。
4)将提取后的特征输入到一个两层的Bidirectional LSTM(BiLSTM)。
5)经过含注意力机制的LSTMs解码器,输出识别文字结果。
进一步地,步骤1)TPS全称Thin-Plate-Spline(薄板样条),TPS插值算法可以对形变图像(仿射、透视、曲线排列等)进行校正,通过对控制点进行定位和映射,来得到校正后的图像,方便后续进行识别。根据数据集的特点,控制点的个数设置为20个,即文字上方边缘10个点,文字下方边缘10个点。
进一步地,步骤2)定位网络的输入是待识别的未矫正前图像,输出是K个控制点的位置。网络结构采用普通的卷积网络(6层卷积+5个max-pooling+2个全连接)来预测控制点的位置。
进一步地,步骤3)至5)为识别网络识别网络采用当前识别的一般思路:序列到序列的编解码器框架(sequence-to-sequence encoder/decoder框架)+注意力机制(attention)。网络主要分为两部分,即步骤3)和4)中的卷积网络+双向LSTM的编码器模块,步骤5)中的LSTM+attention的解码器模块。
本发明方法对自然场景下曲线文字图像进行监测和识别的过程与上述CTD网络和ASTER网络的测试过程是一致的,在CTD网络输出文字区域后,利用矫正网络对文字区域进行水平矫正,再将矫正图像输入刀槽ASTER网络中进行文字识别。
对上述处理过程进一步说明如下:
CTD网络的结构如图1所示,其主干网络为Resnet-50,在主干网络提取特征后,增加文字相关特征增强子模块(TFE)。每个TFE单元(TFEU)设计了不规则的卷积核,除了常规的3*3的卷积核外,还包括1*7和7*1更宽和更高的适合曲线文字特点的卷积核。TFEU的结构见图2,其中Sm表示第m级旁路通过256个(采用1*1卷积核的)滤波器后输出的特征图。Fm和Fm+1是输入特征和输出特征,Sm的空间维数表示如下:
Figure BDA0002115452460000071
其中fm表示m级的floor操作,hSm和WSm表示输入图片的高和宽,wI和hI代表输入图片(I=input)的宽和高。TFEU的输出由如下公式计算:
Fm=ψ(Sm,Fm+1;θm)
其中,ψ(·)表示增强文字特征的函数,θm表示在第m个TEFU中学习到的参数。在TFE子模块中,一个TFEU的输入被分配给旁路输出深层特征,S5=F5,然后特征F2、F3和F4都是深层特征融合浅层特征的结果,相比于融合前的原始特征S2、S3和S5表示能力更强。
接着,使用候选区域提名网络(RPN)生成候选框,通过特征分配门(FAG)将生成的候选框与增强后的特征相对应。将对应后的特征输入到金字塔ROI池化注意力子模块(PRPA),投影候选框的特征到不同的尺寸固定的特征。
候选框对应特征分配公式如下:
Figure BDA0002115452460000072
其中Ι(·)表示指示函数,Fi是第i级候选框对应的特征,Ai表示第i级候选框的候选区域面积大小,
Figure BDA0002115452460000073
表示第m级的候选区域面积上界,在实验中依经验设定:
Figure BDA0002115452460000074
对于每一个候选框,用ROI池化操作生成池化特征的操作如下:
Figure BDA0002115452460000075
其中,Hn表示使用第n个池化窗口从Pi中提取到的特征矩阵,Pi表示第i级的候选框(region proposal),ρn表示池化窗口的大小,N表示池化窗口的数量,在实验中设定N=3,ρ1=14,ρ2=7和ρ3=3,然后将得出的特征做上采样,并结合学习到的权重,输出特征图。
然后引入基于内容的文本框分割子模块(BCTS),PRPA输出的特征经过若干卷积层和ReLU激活层之后,输入到一个1*1卷积核的卷积层用于生产文字/非文字的图像掩码,掩码生成公式如下:
Figure BDA0002115452460000081
其中Ω(·)表示向量化操作,将一个张量转换成一个向量,Ω-1是Ω(·)的反向运算,Φ(·)是非线性函数由两个全连接层和非线性ReLU操作组成,Θ表示全连接层学习到的参数。相比传统的全卷积网络(FCN),BCT子模块生成的是像素级的预测,能更好地利用候选框的全局信息区别与其他文字框重叠的文字区域,因为全连接层使用的是全局信息,而全卷积网络使用的是感受野的局部信息,实验表明使用全连接层的检测效果更好。
CTD网络使用随机梯度下降法做优化,联合训练BCTS和BRN子模块并参数共享,使用多任务学习机制,将多任务损失作为网络的损失,损失函数如下:
Figure BDA0002115452460000082
其中N1和N2是最小批次中正样本和负样本的数量,λ1是两个任务的平衡因子,λ2是分割损失函数控制因子,在实验中设置为λ2=1,li是第i个正样本或负样本的标签,Lcls表示分类损失函数,Lreg表示回归损失函数,Lseg表示分割损失函数。
在训练时,通过计算损失函数来调整模型参数,优化模型,获得更加准确的监测结果。
加入后处理过程,去除低置信分数的文字区域掩码,生成最终的检测结果。后处理过程的算法如下:
1)根据网络输出的RPN产生的候选框和BRN产生的位置偏移,获得场景文字的外接矩形框的绝对位置。
2)根据网络预测的每个外接矩形框的置信度以及阈值,过滤掉置信度低的预测框。
3)将每个网络预测得到的掩码缩放到与其外界矩形框同等大小的尺度,然后根据阈值将其二值化。
4)根据外界矩形框的绝对位置将上述二值化的掩码映射成与输入图像同等尺度的二值图。
5)利用如下公式替代标准NMS中计算IOU的方式,从而利用掩码级的NMS即(MNMS)过滤掉上述得到的密集重叠的二值掩码。
Figure BDA0002115452460000083
其中,Gi,j表示第i级和第j级的IOU,p是该点在二值掩码中的位置索引。
6)对于剩余的二值掩码,利用opencv自带的边缘获取算法得到文字区域的边缘坐标,以此作任意形状文字位置的表示。
曲线文字识别网络ASTER识别曲线文字图片的过程如图2所示,其使用的曲线文字识别方法属于结构化学习的范畴,基于注意力序列到序列的(sequence-to-sequence)学习模型,模型学习从输入序列预测输出序列。矫正网络利用预测的2D变换对输入图像进行矫正,使用Thin-Plate-Spline(TPS)作为转换操作。矫正网络基于空间变换网络(STN),STN的核心思想是将空间变换建模为可学习的网络层。矫正网络首先通过其定位网络预测一组控制点。然后,从控制点计算TPS变换并将其传递给网格生成器和采样器生成矫正后的图像Ir。由于控制点是从输入图像I预测的,因此矫正网络不需要输入图像以外的额外输入。文本校正的问题可以归结为预测输入图像上的控制点。定位网络直接从I的下采样Id中回归输入图像的控制点坐标C'。C'和C都是归一化的坐标,(0,0)表示左上角,(1,1)表示右下角。
定位网络由一些卷积层和最大池化层组成,输出层是全连接层,输出大小为2*K,K是每一边的控制点的个数。在矫正网络的输出端,采样器生成矫正后的图像使采样器可微分,即它可以将Ir上的梯度反向传播到P。然后,使用不同大小的图像用于定位网络和采样器,定位网络在较小的图像Id上操作,Id是I的下采样版本,以便减少预测所需的参数的数量。同时,采样器对原始图像进行操作。在最后一个全连接层中取消使用tanh激活函数来限制C'的值。
曲线文字识别网络直接从矫正后的图像预测字符序列。该网络是端到端训练的。它仅使用图像及其groundtruth文本注释进行训练。并使用由双向解码器扩展的序列-序列模型来解决识别问题。解码器使用卷积循环神经网络,输入图像经过卷积层提取成高为1的特征图,然后沿着行轴分割为特征序列,以向量W表示。解码器基于注意力序列到序列模型构建,将特征序列转换为字符序列。注意力列到序列模型是单向循环网络,在步骤t,解码器基于编码器得出H,H=[h1,...,hn],内部状态St-1和在最后步骤中预测的符号yt-1来预测字符或序列结束符号(EOS)。在这一步骤中,解码器首先通过其注意力机制计算注意力权重向量αt
Figure BDA0002115452460000092
Figure BDA0002115452460000091
其中,W、w和v是训练得到的权重,b是偏置常量,hi是编码器输出的特征向量,et,i是计算注意力权重的中间值。某一时刻的et,i的指数值在所有时刻的et,i的指数值和中占比即为意力权重向量αt,i
为了起到互补的作用,使用双向的解码器训练,一个解码器被从左到右训练,另一个被从右到左训练。为了合并结果,简单地选择具有最高识别分数的分数,其是所有预测符号的log-softmax分数的总和。
训练的损失函数为多任务损失函数,计算公式如下:
Figure BDA0002115452460000101
在训练过程中,通过计算损失函数调整模型参数,使得模型判断的结果更加准确。
本发明提出的自然场景曲线文字检测识别方法,其测试环境及实验结果为:
1)测试环境:
系统环境:ubuntu16.04;
硬件环境:内存:64GB,GPU:Titan Xp,硬盘:1.8TB;
(2)实验数据:
训练数据:CTW1500训练CTD检测网络,Synth90K和Synthtext合成数据集训练ASTER识别网络
测试数据:CTW1500和totalTEXT测试CTD网络,SVT和IC13测试ASTER网络。CTW1500测试检测和识别网络
评估方法:使用IOU@0.5和DetEval的方法评估检测网络将CTD网络,并与Y.Liu等人提出的检测曲线文本方法(DCT:Detecting curve text in the wild:New dataset andnew solution)相对比。使用准确率(P%)评估ASTER网络
(3)实验结果:
表1.CTD网络曲线文字检测实验结果
Figure BDA0002115452460000102
表1中:R(Recall)表示召回率,P(Precision)表示准确率,F表示F值。
由表1看出检测部分增加子模块TFE、PRPA和BCTS以后,检测效果在两个测试集上均有提升。
将本发明方法与传统技术进行比较,见下表。
表2.ASTER网络曲线文字识别实验结果对比
网络结构/测试数据 SVT IC13
CRNN 88.76 89.75
ASTER 91.16 90.74
由表2.可以得知本发明的ASTER网络相比于传统识别网络CRNN,准确率在SVT数据集上提升了2.4%,在IC13数据集上提升了0.99%。
将本发明方法应用于5组实际样例,进行自然场景下的曲线文字识别,检测和识别过程如图4-7所示,该5组样例分别对不同自然场景下的曲线文字进行识别,其中每组的第一图为原图,第二图为检测结果图,第三图是矫正结果图,第四图是识别结果图。由图可知,识别准确率均为100%。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (7)

1.一种自然场景图像中曲线文字的检测识别方法,包括以下步骤:
1)对基于Mask RCNN网络的曲线文字检测网络进行训练,该曲线文字检测网络包括一用于增强文字特征的TFE模块,该TFE模块包括多个过滤器和单元,每个过滤器采用1*1卷积核,每个单元含有3*3卷积核、1*7卷积核和7*1卷积核;每个单元根据公式Fm=ψ(Sm,Fm+1;θm)输出增强的文字特征,其中Sm表示第m级旁路通过滤波器后输出的特征图;Fm+1表示输出特征;ψ(·)表示增强文字特征的函数,θm表示在第m个单元中学习到的参数;在TFE模块中,一个单元的输入被分配给旁路以输出深层特征,其余单元利用该深层特征融合浅层特征,得到融合后的特征;
利用训练好的曲线文字检测网络对自然场景图像进行检测,检测步骤包括:
提取图像的文字特征,并对文字特征进行增强;
根据增强的文字特征生成候选框,通过特征分配将生成的候选框与增强的文字特征进行对应,并投影候选框的特征到不同的尺寸固定的特征;利用金字塔ROI池化注意力子模块投影候选框的特征到不同的尺寸固定的特征,公式如下:
Figure FDA0003021899040000011
其中,Fi是第i级候选框对应的特征,ρn表示池化窗口的大小,N表示池化窗口的数量;
对不同的尺寸固定的特征进行候选框微调,检测出图像中的文字区域;微调的方法为:将不同的尺寸固定的特征输入到文本框微调子模块进行分类和回归;再输入到文本框切割子模块生成图像掩码,切割出任意形状的文字区域;文本框切割子模块包括若干卷积层、ReLU激活层以及一个1*1卷积核的卷积层;特征输入到文本框切割子模块后,经过若干卷积层和ReLU激活层之后,输入到一个1*1卷积核的卷积层用于生产文字/非文字的图像掩码;掩码生成公式为:
Figure FDA0003021899040000012
其中Ω(·)表示向量化操作,将一个张量转换成一个向量,Ω-1是Ω(·)的反向运算,Φ(·)是非线性函数由两个全连接层和非线性ReLU操作组成,Θ表示全连接层学习到的参数;
2)利用矫正网络将文字区域的曲线文字矫正成水平文字,输出矫正后图像;
3)对曲线文字识别网络进行训练,利用训练好的曲线文字识别网络提取矫正后图像的卷积特征,对卷积特征进行解码,识别出文字。
2.如权利要求1所述的方法,其特征在于,对曲线文字检测网络进行训练的数据集包括自然场景曲线文字图片和对应的文字区域掩码图片;对曲线文字识别网络进行训练的数据集包括曲线文字图片和对应的文字信息。
3.如权利要求1所述的方法,其特征在于,曲线文字检测网络以ResNet-50作为主干网络,通过ResNet-50提取文字特征;利用RPN网络产生候选框。
4.如权利要求1所述的方法,其特征在于,候选框对应特征分配公式如下:
Figure FDA0003021899040000021
其中,Ι(·)表示指示函数,Fi是第i级候选框对应的特征,Ai表示第i级候选框的候选区域面积大小,
Figure FDA0003021899040000022
表示第m级的候选区域面积上界。
5.如权利要求1所述的方法,其特征在于,利用后处理方法去除低置信分数的文字区域掩码,生成最终检测的文字区域;该后处理方法步骤如下包括:
根据生成的候选框和文本框微调子模块产生的位置偏移,获得场景文字的外接矩形框的绝对位置;
根据预测到的每个外接矩形框的置信度,过滤掉置信度低于一阈值的预测框;
将预测到的掩码缩放到与其外界矩形框同等大小的尺度,根据阈值将其二值化;
根据外界矩形框的绝对位置,将上述二值化的掩码映射成与输入图像同等尺度的二值图;
利用掩码级的NMS过滤掉上述得到的密集重叠的二值掩码;
对于剩余的二值掩码,利用opencv自带的边缘获取算法得到文字区域的边缘坐标,标出任意形状文字位置。
6.如权利要求1所述的方法,其特征在于,矫正网络基于空间变换网络,通过其定位网络预测一组定位需要的控制点,从控制点计算TPS变换并将其传递给网格生成器和采样器,生成矫正后图像;该定位网络存送卷积网络,包括6个卷积层、5个max-pooling层和2个全连接层。
7.如权利要求1所述的方法,其特征在于,曲线文字识别网络利用卷积网络提取卷积特征,将特征输入到双向LSTM的编码器,再通过含注意力机制的LSTMs解码器进行解码,输出识别文字结果。
CN201910592008.4A 2019-07-02 2019-07-02 自然场景图像中曲线文字的检测识别方法 Active CN110287960B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910592008.4A CN110287960B (zh) 2019-07-02 2019-07-02 自然场景图像中曲线文字的检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910592008.4A CN110287960B (zh) 2019-07-02 2019-07-02 自然场景图像中曲线文字的检测识别方法

Publications (2)

Publication Number Publication Date
CN110287960A CN110287960A (zh) 2019-09-27
CN110287960B true CN110287960B (zh) 2021-12-10

Family

ID=68021758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910592008.4A Active CN110287960B (zh) 2019-07-02 2019-07-02 自然场景图像中曲线文字的检测识别方法

Country Status (1)

Country Link
CN (1) CN110287960B (zh)

Families Citing this family (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751151A (zh) * 2019-10-12 2020-02-04 上海眼控科技股份有限公司 车身图像的文本字符检测方法及设备
CN110796138A (zh) * 2019-10-15 2020-02-14 湖北工业大学 一种基于显性矫正机制的不规则场景文字识别方法
CN110751152B (zh) * 2019-10-18 2021-06-08 中国科学技术大学 检测任意形状文本的方法
CN112784586A (zh) * 2019-11-08 2021-05-11 北京市商汤科技开发有限公司 文本识别方法和相关产品
CN112825141B (zh) * 2019-11-21 2023-02-17 上海高德威智能交通系统有限公司 识别文本的方法、装置、识别设备和存储介质
CN111062386B (zh) * 2019-11-28 2023-12-29 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN111079749B (zh) * 2019-12-12 2023-12-22 创新奇智(重庆)科技有限公司 一种带姿态校正的端到端商品价签文字识别方法和系统
CN113012029B (zh) * 2019-12-20 2023-12-08 北京搜狗科技发展有限公司 一种曲面图像的矫正方法、装置及电子设备
CN113033531B (zh) * 2019-12-24 2023-10-27 上海智臻智能网络科技股份有限公司 一种图像中文本识别方法、装置及电子设备
CN111191649A (zh) * 2019-12-31 2020-05-22 上海眼控科技股份有限公司 一种识别弯曲多行文本图像的方法与设备
CN111260586B (zh) 2020-01-20 2023-07-04 北京百度网讯科技有限公司 扭曲文档图像的矫正方法和装置
CN111476234B (zh) * 2020-03-17 2024-05-24 平安科技(深圳)有限公司 一种遮挡车牌字符识别方法、装置、存储介质和智能设备
CN111340034B (zh) * 2020-03-23 2023-04-07 深圳智能思创科技有限公司 一种针对自然场景的文本检测与识别方法及系统
CN111563513B (zh) * 2020-05-15 2022-06-24 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111612009B (zh) * 2020-05-21 2021-10-22 腾讯科技(深圳)有限公司 文本识别方法、装置、设备和存储介质
CN111626284B (zh) * 2020-05-26 2023-10-03 广东小天才科技有限公司 一种手写字体去除的方法、装置、电子设备和存储介质
CN111639657A (zh) * 2020-06-03 2020-09-08 浪潮软件股份有限公司 一种不规则文字识别方法及装置
CN111931763B (zh) * 2020-06-09 2024-03-12 浙江大学 一种基于随机形态边缘几何建模的深度场景文本检测方法
WO2021115490A1 (zh) * 2020-06-22 2021-06-17 平安科技(深圳)有限公司 面向复杂环境的印章文字检测识别方法、装置及介质
CN111488876B (zh) * 2020-06-28 2020-10-23 平安国际智慧城市科技股份有限公司 基于人工智能的车牌识别方法、装置、设备及介质
CN111898608B (zh) * 2020-07-04 2022-04-26 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN111832497B (zh) * 2020-07-17 2022-06-28 西南大学 一种基于几何特征的文本检测后处理方法
CN111860348A (zh) * 2020-07-21 2020-10-30 国网山东省电力公司青岛供电公司 基于深度学习的弱监督电力图纸ocr识别方法
CN112052723A (zh) * 2020-07-23 2020-12-08 深圳市玩瞳科技有限公司 识字卡片、基于图像识别的桌面场景的str方法及装置
CN111914843B (zh) * 2020-08-20 2021-04-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质
CN112070082B (zh) * 2020-08-24 2023-04-07 西安理工大学 一种基于实例感知成分合并网络的曲线文字定位方法
CN111985475A (zh) * 2020-08-26 2020-11-24 苏州工图智能科技有限公司 船舶船牌识别方法、计算设备及存储介质
CN112036405B (zh) * 2020-08-31 2024-06-18 浪潮云信息技术股份公司 一种手写文档文本的检测识别方法
CN112183530A (zh) * 2020-09-24 2021-01-05 上海三高计算机中心股份有限公司 一种计量表读数识别系统
CN112364726B (zh) * 2020-10-27 2024-06-04 重庆大学 基于改进east的零件喷码字符定位的方法
CN112330786A (zh) * 2020-11-03 2021-02-05 阳光保险集团股份有限公司 一种生成三维变形文本图像的方法及设备
CN112508015A (zh) * 2020-12-15 2021-03-16 山东大学 一种铭牌识别方法、计算机设备、存储介质
CN114648771A (zh) * 2020-12-15 2022-06-21 中兴通讯股份有限公司 文字识别方法、电子设备和计算机可读存储介质
CN112633429A (zh) * 2020-12-21 2021-04-09 安徽七天教育科技有限公司 一种学生手写选择题识别方法
CN112733830A (zh) * 2020-12-31 2021-04-30 上海芯翌智能科技有限公司 店铺招牌识别方法及装置、存储介质和计算机设备
CN113283423B (zh) * 2021-01-29 2022-08-16 南京理工大学 基于生成网络的自然场景扭曲文本图像矫正方法及系统
CN112801911B (zh) * 2021-02-08 2024-03-26 苏州长嘴鱼软件有限公司 一种去除自然图像中文字类噪声的方法及装置、存储介质
CN112560857B (zh) * 2021-02-20 2021-06-08 鹏城实验室 文字区域边界检测方法、设备、存储介质及装置
CN112926665A (zh) * 2021-03-02 2021-06-08 安徽七天教育科技有限公司 一种基于领域自适应的文本行识别系统以及使用方法
CN112861860B (zh) * 2021-03-11 2024-04-19 南京大学 一种基于上下边界提取的自然场景下文字检测方法
CN112949635B (zh) * 2021-03-12 2022-09-16 北京理工大学 一种基于特征增强和IoU感知的目标检测方法
CN113139539B (zh) * 2021-03-16 2023-01-13 中国科学院信息工程研究所 渐近回归边界的任意形状场景文字检测方法及装置
CN113052176A (zh) * 2021-04-09 2021-06-29 平安国际智慧城市科技股份有限公司 一种字符识别模型训练方法、装置及系统
CN113435436A (zh) * 2021-06-03 2021-09-24 北京理工大学 一种基于线性约束矫正网络的场景文字识别方法
CN113554021B (zh) * 2021-06-07 2023-12-15 重庆傲雄在线信息技术有限公司 一种智能化印章识别方法
CN113569629B (zh) * 2021-06-11 2023-09-15 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN113538258B (zh) * 2021-06-15 2023-10-13 福州大学 基于掩码的图像去模糊模型及方法
CN113255669B (zh) * 2021-06-28 2021-10-01 山东大学 任意形状自然场景文本检测方法及系统
CN113657375B (zh) * 2021-07-07 2024-04-19 西安理工大学 一种基于3d点云的瓶装物体文字检测方法
CN113378796B (zh) * 2021-07-14 2022-08-19 合肥工业大学 一种基于上下文建模的宫颈细胞全切片分类方法
CN113743400B (zh) * 2021-07-16 2024-02-20 华中科技大学 一种基于深度学习的电子公文智能审查方法及系统
CN113538241B (zh) * 2021-07-19 2024-06-14 宜宾电子科技大学研究院 面向场景文本识别的超分辨率图像生成方法
CN113554026A (zh) * 2021-07-28 2021-10-26 广东电网有限责任公司 电力设备铭牌识别方法、识别装置及电子设备
CN113888758B (zh) * 2021-09-01 2022-05-24 北京数美时代科技有限公司 一种基于复杂场景中的弯曲文字识别方法和系统
CN113762476B (zh) * 2021-09-08 2023-12-19 中科院成都信息技术股份有限公司 一种用于文字检测的神经网络模型及其文字检测方法
CN114842487B (zh) * 2021-12-09 2023-11-03 上海鹑火信息技术有限公司 一种婆罗米系文字的识别方法及系统
CN114359889B (zh) * 2022-03-14 2022-06-21 北京智源人工智能研究院 一种长文本资料的文本识别方法
EP4350539A1 (de) * 2022-10-04 2024-04-10 Primetals Technologies Germany GmbH Verfahren und system zum automatischen bildbasierten erkennen einer identifikationsinformation an einem objekt
CN115482538B (zh) * 2022-11-15 2023-04-18 上海安维尔信息科技股份有限公司 一种基于Mask R-CNN的物料标号提取方法及系统
CN115661828B (zh) * 2022-12-08 2023-10-20 中化现代农业有限公司 一种基于动态分层嵌套残差网络的文字方向识别方法
CN116958981B (zh) * 2023-05-31 2024-04-30 广东南方网络信息科技有限公司 一种文字识别方法及装置
CN118015411A (zh) * 2024-02-27 2024-05-10 北京化工大学 一种面向自动驾驶的大视觉语言模型增量学习方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713884A (zh) * 2010-01-29 2012-10-03 惠普发展公司,有限责任合伙企业 远程打印
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
CN105389558A (zh) * 2015-11-10 2016-03-09 中国人民解放军信息工程大学 一种视频检测方法及装置
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109740406A (zh) * 2018-08-16 2019-05-10 大连民族大学 无分割印刷体满文单词识别方法及识别网络

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8244038B2 (en) * 2008-12-11 2012-08-14 Xerox Corporation Text vectorization using OCR and stroke structure modeling
CN104463209B (zh) * 2014-12-08 2017-05-24 福建坤华仪自动化仪器仪表有限公司 一种基于bp神经网络的pcb板上数字代码识别方法
CN104794470B (zh) * 2015-05-04 2017-11-17 北京信息科技大学 一种面向东巴象形文的数字化获取与图像处理方法
CN106022363B (zh) * 2016-05-12 2019-02-12 南京大学 一种适用于自然场景下的中文文字识别方法
US10282621B2 (en) * 2016-07-09 2019-05-07 Grabango Co. Remote state following device
CN108537868A (zh) * 2017-03-03 2018-09-14 索尼公司 信息处理设备和信息处理方法
CN107330376B (zh) * 2017-06-06 2020-01-21 广州汽车集团股份有限公司 一种车道线识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102713884A (zh) * 2010-01-29 2012-10-03 惠普发展公司,有限责任合伙企业 远程打印
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
CN105389558A (zh) * 2015-11-10 2016-03-09 中国人民解放军信息工程大学 一种视频检测方法及装置
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109740406A (zh) * 2018-08-16 2019-05-10 大连民族大学 无分割印刷体满文单词识别方法及识别网络

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"ASTER: An Attentional Scene Text Recognizer with Flexible Rectification";B. Shi 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20180625;第41卷(第9期);2035-2048 *
"Mask R-CNN with Pyramid Attention Network for Scene Text Detection";Zhida Huang等;《Computer Vision and Pattern Recognition》;20181122;1-9 *
"自然场景图像中的文本检测综述";王润民 等;《自动化学报》;20181010;第44卷(第12期);2113-2141 *

Also Published As

Publication number Publication date
CN110287960A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN110287960B (zh) 自然场景图像中曲线文字的检测识别方法
CN110363182B (zh) 基于深度学习的车道线检测方法
CN109977918B (zh) 一种基于无监督域适应的目标检测定位优化方法
CN111027493B (zh) 一种基于深度学习多网络软融合的行人检测方法
CN111914838B (zh) 一种基于文本行识别的车牌识别方法
CN111079739B (zh) 一种多尺度注意力特征检测方法
CN114241548A (zh) 一种基于改进YOLOv5的小目标检测算法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN111783819B (zh) 小规模数据集上基于感兴趣区域训练改进的目标检测方法
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
CN111753787A (zh) 一种分离式的交通标志检测与识别方法
CN116645592B (zh) 一种基于图像处理的裂缝检测方法和存储介质
CN109858327B (zh) 一种基于深度学习的字符分割方法
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN116092179A (zh) 一种改进的yolox跌倒检测系统
CN110991374B (zh) 一种基于rcnn的指纹奇异点检测方法
CN114283431B (zh) 一种基于可微分二值化的文本检测方法
CN114387592A (zh) 一种复杂背景下字符定位和识别方法
CN114067339A (zh) 图像识别方法及其装置、电子设备、计算机可读存储介质
Lee et al. Enhancement for automatic extraction of RoIs for bone age assessment based on deep neural networks
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN111582057B (zh) 一种基于局部感受野的人脸验证方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant