CN114140786A - 基于HRNet编码与双分支解码的场景文本识别方法 - Google Patents
基于HRNet编码与双分支解码的场景文本识别方法 Download PDFInfo
- Publication number
- CN114140786A CN114140786A CN202111466876.1A CN202111466876A CN114140786A CN 114140786 A CN114140786 A CN 114140786A CN 202111466876 A CN202111466876 A CN 202111466876A CN 114140786 A CN114140786 A CN 114140786A
- Authority
- CN
- China
- Prior art keywords
- branch
- resolution
- hrnet
- image
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 20
- 230000000007 visual effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 230000017105 transposition Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000002679 ablation Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 241000132092 Aster Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于HRNet编码与双分支解码的场景文本识别方法。传统的深度学习方法进行场景文本识别在遇到文本扭曲、图像模糊和低分辨率问题时,识别准确率有所下降。本发明将单张场景原始文本图像经过随机高斯模糊后,获得低分辨率图像;搭建基于HRNet编码与双分支解码的场景文本识别模型,所述基于HRNet编码与双分支解码的场景文本识别模型包括修正网络TPS、编码模块、超分分支和识别分支。本发明方法通过引入HRNet编码和双分支解码,提高了模型对于模糊和低分辨率的图像的识别准确率,且在测试时舍弃超分分支的方式降低了模型参数量及时间消耗。
Description
技术领域
本发明涉及计算机视觉及图像文本识别技术领域,具体涉及一种基于HRNet编码与双分支解码的场景文本识别方法。
背景技术
场景文本识别旨在自动识别自然场景图像中的文本内容,不同于规则的文档文本,自然场景图像中的文本具有形态多变、背景复杂、文字扭曲、图像模糊等特点。早期的场景文本识别模型通常基于时序特征分类,运用深度卷积网络VGG提取图像特征序列,利用循环神经网络RNN学习特征序列的双向依赖关系,并预测得到文本字符序列概率,最后通过连续时序分类转录层,根据提前定义的预测结果转换方式,将预测的字符概率序列转录为文本。然而,CRNN中转录层的设定要求图像特征序列和文本字符序列之间彼此对齐,这种不变性不利于预测具有空间依赖关系的文本序列。基于编解码框架的模型可以训练预测任意两个序列之间的对应关系,通常运用编码网络提取文本图像中的视觉特征,并借助循环神经网络,将视觉特征转换为固定长度的中间语义特征序列,进而通过解码网络,将特征序列解码为文本字符序列。然而场景文本图像通常会受到不同来源、不同程度的因素干扰,如背景复杂、文本扭曲等,这常常使得编码网络提取的视觉特征存在信息丢失的问题,进而导致解码器在嘈杂的解码时间戳中识别目标序列不够准确。虽然现有的方法对场景文本识别有着不错的效果,但是仍然不能满足场景文本识别的精度要求。
发明内容
本发明的目的在于提出一种基于HRNet编码与双分支解码的场景文本识别方法,针来文本扭曲、图像模糊和低分辨率等问题进行改进,以提高基于深度学习方法的场景文本识别效果。
一种基于HRNet编码与双分支解码的场景文本识别方法,具体如下:
步骤一、构建训练集
将单张场景原始文本图像经过随机高斯模糊后,获得低分辨率图像,并进行人工标注真实文本标签,所述真实文本标签为图像中的文本;同时将对应原始文本图像作为高分辨率图像,并作为真实图像标签;
步骤二、模型建立和训练
2-1搭建基于HRNet编码与双分支解码的场景文本识别模型
所述基于HRNet编码与双分支解码的场景文本识别模型包括修正网络TPS、编码模块、超分分支和识别分支;
所述修正网络TPS用于对输入的低分辨率图改善文本形变、扭曲等问题,以使编码网络提取的视觉信息更充分;
所述编码模块用于对低分辨图像进行特征提取获得视觉特征,输入为修正网络TPS的输出图像,输出为多种不同分辨率特征图;其包括HRNet网络、监督注意力模块SAM;
所述HRNet网络在整个过程中一直保持高分辨率表征,以高分辨率子网作为第一阶段,逐个添加从高到低的多分辨率子网,以形成更多阶段,并行连接高低分辨率子网,并在整个过程中反复交换并行多分辨率子网中的信息,以进行重复的多特征融合,最终获得多种不同分辨率特征图;
所述监督注意力模块通过一系列卷积操作将修正网络TPS的输出图像与HRNet网络输出的最高分辨率特征图进行相加操作,即在所有分辨率特征图上实现输入图像的监督,继而利用激活函数获得注意力图,并重新将注意力图与最高分辨率特征图加权求和,以此增强重要特征学习,抑制信息量较小的特征;
所述超分分支用于编码模块输出的最高分辨率特征图,通过转置卷积上采样,生成超分辨率图像;其包括转置卷积(TransConv2D)上采样模块;
所述转置卷积上采样模块包括依次级联的三次3×3反卷积、BatchNorm层和Relu层;
所述识别分支用于对编码模块输出的所有不同分辨率特征图,通过独立转置卷积层(Independent TransConv2D Layers),将较低分辨率特征图进行尺寸扩张,最终使得多尺度特征图在通道维度上进行拼接融合,并运用解码器对拼接融合后的特征图进行解码,获得文本识别结果;其包括独立转置卷积层、解码器;
为实现从视觉特征到文本特征的有效序列转换,对多尺度特征图采用HRNet网络中3×3基础卷积模块进行处理,实现通道数的调整而不改变特征图尺寸,然后进行特征图维度的重排列,即将通道维度与特征图宽度维度转换,进而将二维特征矩阵转化为一维特征向量,并通过Bi-LSTM网络加强一维特征向量的文本语义信息,最终采用基于注意力机制的循环神经网络GRU进行解码,识别出场景图像对应的字符文本。识别的文本与真实文本标签进行序列交叉熵损失计算,以监督解码器的解码效果和编码模块的特征提取效果,整体上提升场景文本识别准确率。
2-2.模型训练
利用步骤一训练集对上述基于HRNet编码与双分支解码的场景文本识别模型进行训练;
步骤三:使用任意真实场景文本图像数据集对模型进行测试,并在测试时舍弃超分分支以减少参数量和时间消耗,仅获得文本识别结果;
步骤2-2中超分分支训练过程损失函数采用平均绝对误差损失;
其中Lsr表示超分分支损失,W和H代表超分分支的输出超分辨率图像的宽和高,O代表超分分支的输出超分辨率图像,I代表真实图像标签;
识别分支训练过程损失函数采用序列交叉熵损失:
其中LSCE表示识别分支损失,M代表一个batch中的样本数量,N代表文本字符数,y表示真实文本标签,s表示模型识别结果;
最终基于HRNet编码与双分支解码的场景文本识别模型的损失函数:
L=λ1Lsr+λ2LSCE (3)
其中;λ1为超分分支损失对应权重参数,λ2为识别分支损失对应权重参数。
本发明的有益效果如下:
1、本发明方法针对文本扭曲、图像模糊和低分辨率等问题,提出一种基于HRNet编码和双分支解码框架的场景文本识别模型,该模型在编解码框架的基础上创新性地引入HRNet作为基础编码网络,并引入监督注意力模块加强重要特征学习,编码末端将最高分辨率特征图输入超分分支,进行恢复超分辨率图像任务,以监督编码模块的特征提取效果;通过独立转置卷积层,融合编码末端多尺度特征图,并将融合后的特征图输入识别分支进行解码,最终获得文本内容。该方法易于实现,模型参数量较低,具有更好的准确率和泛化能力。
2、本发明采用HRNet网络既能实现特征提取功能,并且无需引入额外的网络就能为超分分支提供高分辨率特征图,减少了网络复杂度,同时超分分支仅在训练时保留,在测试时舍弃的方式,进一步减少了模型参数量和时间消耗,同时超分分支损失反向传播能进一步改进编码模块特征提取的效果。结合监督注意力模块可以充分加强特征图中重要信息的学习,抑制信息量少的特征,增加最高分辨率特征图的有效信息量,为超分分支和识别分支提供有效输入。针对每种分辨率特征图进行独立转置卷积层相较于双线性插值方法会充分提取文本信息,减少特征丢失,提升上采样效果,进而提高识别准确率。
附图说明
图1是本发明中基于HRNet编码与双分支解码的场景文本识别模型结构图;
图2是本发明中编码模块网络结构图;
图3是本发明中监督注意力模块结构图;
图4是本发明中识别分支多尺度融合结构图;
图5是本发明中各消融模型识别效果比较图。
具体实施方式
下面结合具体实施例对本发明做进一步分析。
一种基于HRNet编码和双分支解码框架的场景文本识别方法,采用的模型包括修正网络TPS、编码模块、超分分支和识别分支。编码模块包括HRNet网络、监督注意力。超分分支包括转置卷积(TransConv2D)上采样。识别分支包括独立转置卷积层(IndependentTransConv2D Layers)进行多尺度融合、基于注意力解码获得文本字符。编码模块用于对单张场景文本图像进行特征提取获得视觉特征,得到四种分辨率特征图;超分分支用于编码模块输出的最高分辨率特征图,通过转置卷积上采样,生成超分辨率图像;识别分支用于对四种分辨率特征图,通过独立转置卷积层,将较低分辨率特征图进行尺寸扩张,使得最终多尺度特征图能在通道维度上进行拼接融合,并运用解码器对融合后的特征图进行解码,获得文本识别结果。
该基于HRNet编码和双分支解码框架的场景文本识别方法,具体步骤如下:
步骤一、数据集处理。
训练数据为公开合成数据集Synth90K、SynthText,测试数据为7种真实场景图像数据的测试集,而验证集为7种真实场景数据的训练集。7种真实场景图像数据集具体如下:IIIT5k-Words(IIIT5k)为Google图像搜索中相对规则的广告牌、海报等文本图像;StreetView Text(SVT)为Google Street View中具有变化性、分辨率较低的室外街景图像;ICDAR2003(IC03)为ICDAR会议基于竞赛公布的数据集,排除少于三个字符或者非字母数字的相对规则文本图像;ICDAR2013(IC13)大部分取自IC03,扩充了一些路标、书籍封面等清晰文本图像;ICDAR 2015Incidental Text(IC15)大部分为随机拍摄的模糊、被遮挡的街头或商场图像;SVT-Perspective(SVTP)为Google Street View中成像扭曲、透视干扰的文本图像;CUTE80以真实场景下扭曲的文本图像为主。
网络输入图像数据为三通道RGB图像,尺寸统一为64×256,经过TPS修正网络后图像尺寸统一为32×100。因超分分支的任务设定,需成对的低分辨率图像和高分辨率图像,故本文将输入图像经过随机高斯模糊后作为低分辨率图像,原始图像作为高分辨率图像,模拟超分辨率网络恢复过程。
步骤二、模型训练
2-1.模型搭建
如图1所示,搭建的场景文本识别模型包括修正网络TPS,编码模块,超分分支和识别分支。
修正网络TPS对输入图像进行采样拉伸,改善文本形变、扭曲等问题,以使编码网络提取的视觉信息更充分。
编码模块用于对输入的单张低分辨率场景文本图像进行特征编码,如图2所示,包括HRNet网络和监督注意力模块。HRNet网络用于对修正后的图像进行特征编码,在整个过程中一直保持高分辨率表征,以高分辨率子网作为第一阶段,逐个添加从高到低的多分辨率子网,以形成更多阶段,并行连接高低分辨率子网,并在整个过程中反复交换并行多分辨率子网中的信息,来进行重复的多特征融合。编码模块末端,针对HRNet输出的四种分辨率特征图中最高分辨率特征图,运用监督注意力模块,强化重要特征信息学习,且通过注意力掩码抑制信息量较小的特征,从而使编码模块传递给各分支模块自身学习到的最有效特征信息。如图3所示,监督注意力模块通过一系列卷积和sigmoid激活函数实现,特征图通过1×1卷积操作与输入图像进行相加操作,即在特征图上实现输入图像的监督,继而利用激活函数获得注意力图,并重新将注意力图与特征图加权求和,以此增强重要特征学习,抑制信息量较小的特征。
超分分支用于对监督注意力模块优化后的最高分辨率特征图进行转置卷积上采样,来恢复超分辨率图像。转置卷积由三次3×3反卷积、BatchNorm层和Relu层构成,恢复的超分辨图像与真实图像进行平均绝对误差损失Lsr计算,如式(1):
其中W和H代表图像的宽和高,O代表超分分支的输出超分辨率图像,I代表真实图像标签。
识别分支用于对所有特征图中较低分辨率特征图进行独立转置卷积层操作,改变以往借助双线性插值进行特征图尺寸扩张的方式,以此获得与最高分辨率特征图相同尺寸大小的特征图,进而在通道维度上通过拼接的方式进行多尺度融合,如图4所示,其中特征图分辨率由上到下依次降低,单个独立转置卷积层(Independent TransConv2D Layer)的输入通道数和输出通道数根据相应的特征图而定。融合的结果通过通道注意力机制,为不同尺度的特征通道分配权重,抑制低效通道特征,增强高效通道特征,以获得更有效的多尺度特征图。
为实现从视觉特征到文本特征的有效序列转换,对多尺度特征图采用HRNet网络中3×3基础卷积模块进行处理,实现通道数的调整而不改变特征图尺寸,然后进行特征图维度的重排列,即将通道维度与特征图宽度维度转换,进而将二维特征矩阵转化为一维特征向量,并通过Bi-LSTM网络加强一维特征向量的文本语义信息,最终采用基于注意力机制的循环神经网络GRU进行解码,识别出场景图像对应的字符文本。识别的文本与真实文本标签进行序列交叉熵损失计算,如式(2),以监督解码器的解码效果和编码模块的特征提取效果,整体上提升场景文本识别准确率。
最终本文模型的损失函数如式(3)所示,其中;λ1为超分分支损失对应权重参数,λ2为识别分支损失对应权重参数;
L=λ1Lsr+λ2LSCE (3)
2-2.模型训练
将单张场景文本图像输入到步骤2-1记载的模型中进行训练。训练后的模型能够对任意真实场景文本图像进行文本识别。所得97类字符概率值,字符类别数采用ALLCASES_SYMBOLS形式,包含大小写字母、0-9数字、标点符号和EOS末位、PADDING补充字符、UNKNOWN未知的三个特殊字符。
步骤三、将单张真实场景文本图像输入模型中,输出将为该场景文本图像所对应的文本字符,将该识别结果显示出来。
步骤四、模型实验效果对比。
如表1所示,步骤2-1记载的模型在多种真实场景数据集上达到更好效果,平均准确率为88.7%,高于其他模型识别效果。相比于ASTER经典模型平均准确率提升2.6%,相比于运用额外超分辨率网络进行预处理且计算量更大的TextSR平均准确率提升3.6%,相比于运用Transformer进行信息增强及解码的Bi-STET平均准确率提升1.3%,相比于引入GAN网络进行缓解背景干扰的SCGAN平均准确率提升0.5%,并且在文本扭曲、图像模糊、识别难度较大的IC15和SVTP数据集上,本模型能达到较好水平。
如表2所示,Baseline基线模型采用HRNet作为特征提取网络,并逐步添加改进方法进行消融实验,并且超参数设置始终保持一致。与表1中经典模型ASTER以ResNet作为特征提取网络相比,Baseline采用HRNet网络能提高平均准确率0.3%,在相对不规则、模糊数据集IC15、SVTP和CUTE80上有效提高了识别准确率,且便于超分分支对于高分辨率特征图的提取。与Baseline相比,本文添加超分分支在真实场景上平均准确率提升0.4%,监督注意力模块强化重要特性的学习,可进一步提升平均准确率1.2%,且在单项测试集识别结果上都有所提高。超分分支中利用转置卷积上采样恢复超分辨率图像,平均准确率提升了0.3%。
表1本发明与现有其他模型准确率比较
注:加粗字体为每列最优值,下划线字体为每列次优值。
表2本发明各消融模型准确率比较
如图5所示,实验数据选用表1中相对排列不规则、图像模糊率较高的IC15、SVTP和CUTE80三种测试集,每张图片下方文字内容均按小写字母输出,第一行依次为真实文本标签、Baseline和在Baseline上运用超分分支的识别结果,第二行依次为继续运用监督注意力模块、转置卷积和本发明最终模型的识别结果。从识别结果可以看出,Baseline模型存在对于个别字符识别错误或无法识别的问题,但逐步运用超分分支、监督注意力模块及独立转置卷积层的改进方法,能有效地识别出相对较难识别的字符,最终本发明模型能获得较好的识别结果。
Claims (5)
1.基于HRNet编码与双分支解码的场景文本识别方法,其特征在于该方法包括以下步骤:
步骤一、构建训练集
将单张场景原始文本图像经过随机高斯模糊后,获得低分辨率图像,并进行人工标注真实文本标签,所述真实文本标签为图像中的文本;同时将对应原始文本图像作为高分辨率图像,并作为真实图像标签;
步骤二、模型建立和训练
2-1搭建基于HRNet编码与双分支解码的场景文本识别模型
所述基于HRNet编码与双分支解码的场景文本识别模型包括修正网络TPS、编码模块、超分分支和识别分支;
所述编码模块用于对低分辨图像进行特征提取获得视觉特征,输入为修正网络TPS的输出图像,输出为多种不同分辨率特征图;其包括HRNet网络、监督注意力模块SAM;
所述HRNet网络以高分辨率子网作为第一阶段,逐个添加从高到低的多分辨率子网,以形成更多阶段,并行连接高低分辨率子网,并在整个过程中反复交换并行多分辨率子网中的信息,以进行重复的多特征融合,最终获得多种不同分辨率特征图;
所述监督注意力模块通过一系列卷积操作将修正网络TPS的输出图像与HRNet网络输出的最高分辨率特征图进行相加操作;
所述超分分支用于编码模块输出的最高分辨率特征图,通过转置卷积上采样,生成超分辨率图像;
所述识别分支用于对编码模块输出的所有不同分辨率特征图,通过独立转置卷积层将较低分辨率特征图进行尺寸扩张,使得多尺度特征图在通道维度上进行拼接融合,并运用解码器对拼接融合后的特征图进行解码,获得文本识别结果;
2-2模型训练
利用步骤一训练集对上述基于HRNet编码与双分支解码的场景文本识别模型进行训练;
步骤三:使用任意真实场景文本图像数据集对训练好的基于HRNet编码与双分支解码的场景文本识别模型进行测试,并在测试时舍弃超分分支,获得文本识别结果。
2.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法,其特征在于所述监督注意力模块中卷积操作采用1×1卷积;激活函数采用sigmoid激活函数。
3.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法,其特征在于步骤2-2中超分分支训练过程损失函数采用平均绝对误差损失;
其中Lsr表示超分分支损失,W和H代表超分分支的输出超分辨率图像的宽和高,O代表超分分支的输出超分辨率图像,I代表真实图像标签;
识别分支训练过程损失函数采用序列交叉熵损失:
其中LSCE表示识别分支损失,M代表一个batch中的样本数量,N代表文本字符数,y表示真实文本标签,s表示模型识别结果;
最终基于HRNet编码与双分支解码的场景文本识别模型的损失函数:
L=λ1Lsr+λ2LSCE (3)
其中;λ1为超分分支损失对应权重参数,λ2为识别分支损失对应权重参数。
4.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法,其特征在于所述超分分支包括转置卷积上采样模块;所述转置卷积上采样模块包括依次级联的三次3×3反卷积、BatchNorm层和Relu层。
5.如权利要求1所述的基于HRNet编码与双分支解码的场景文本识别方法,其特征在于所述识别分支包括独立转置卷积层、解码器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111466876.1A CN114140786B (zh) | 2021-12-03 | 2021-12-03 | 基于HRNet编码与双分支解码的场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111466876.1A CN114140786B (zh) | 2021-12-03 | 2021-12-03 | 基于HRNet编码与双分支解码的场景文本识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114140786A true CN114140786A (zh) | 2022-03-04 |
CN114140786B CN114140786B (zh) | 2024-05-17 |
Family
ID=80388041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111466876.1A Active CN114140786B (zh) | 2021-12-03 | 2021-12-03 | 基于HRNet编码与双分支解码的场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114140786B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114529825A (zh) * | 2022-04-24 | 2022-05-24 | 城云科技(中国)有限公司 | 用于消防通道占用目标检测的目标检测模型、方法及应用 |
CN115563284A (zh) * | 2022-10-24 | 2023-01-03 | 重庆理工大学 | 一种基于语义的深度多实例弱监督文本分类方法 |
CN116977651A (zh) * | 2023-08-28 | 2023-10-31 | 河北师范大学 | 一种基于双分支和多尺度特征提取的图像去噪方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111967471A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于多尺度特征的场景文本识别方法 |
CN113343977A (zh) * | 2021-05-17 | 2021-09-03 | 武汉理工大学 | 一种集装箱码头集卡车牌的多路自动识别方法 |
-
2021
- 2021-12-03 CN CN202111466876.1A patent/CN114140786B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN111967471A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于多尺度特征的场景文本识别方法 |
CN113343977A (zh) * | 2021-05-17 | 2021-09-03 | 武汉理工大学 | 一种集装箱码头集卡车牌的多路自动识别方法 |
Non-Patent Citations (2)
Title |
---|
XUE GAO;SIYI HAN;CONG LUO: "A Detection and Verification Model Based on SSD and Encoder-Decoder Network for Scene Text Detection", vol. 7, 31 December 2019 (2019-12-31) * |
王雪娇;张超敏;: "基于CNN和LSTM的自然场景文本检测应用", 仪表技术, no. 09, 15 September 2020 (2020-09-15) * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114529825A (zh) * | 2022-04-24 | 2022-05-24 | 城云科技(中国)有限公司 | 用于消防通道占用目标检测的目标检测模型、方法及应用 |
CN114529825B (zh) * | 2022-04-24 | 2022-07-22 | 城云科技(中国)有限公司 | 用于消防通道占用目标检测的目标检测模型、方法及应用 |
CN115563284A (zh) * | 2022-10-24 | 2023-01-03 | 重庆理工大学 | 一种基于语义的深度多实例弱监督文本分类方法 |
CN115563284B (zh) * | 2022-10-24 | 2023-06-23 | 重庆理工大学 | 一种基于语义的深度多实例弱监督文本分类方法 |
CN116977651A (zh) * | 2023-08-28 | 2023-10-31 | 河北师范大学 | 一种基于双分支和多尺度特征提取的图像去噪方法 |
CN116977651B (zh) * | 2023-08-28 | 2024-02-23 | 河北师范大学 | 一种基于双分支和多尺度特征提取的图像去噪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114140786B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287940B (zh) | 一种基于深度学习的注意力机制的语义分割的方法 | |
CN114140786B (zh) | 基于HRNet编码与双分支解码的场景文本识别方法 | |
CN109726657B (zh) | 一种深度学习场景文本序列识别方法 | |
CN108399419B (zh) | 基于二维递归网络的自然场景图像中中文文本识别方法 | |
CN112149619B (zh) | 一种基于Transformer模型自然场景文字识别方法 | |
CN109948714B (zh) | 基于残差卷积和递归神经网络的中文场景文本行识别方法 | |
CN108491836B (zh) | 一种自然场景图像中中文文本整体识别方法 | |
CN104794504A (zh) | 基于深度学习的图形图案文字检测方法 | |
CN110569839B (zh) | 一种基于ctpn和crnn的银行卡号识别方法 | |
CN114581905B (zh) | 一种基于语义增强机制的场景文本识别方法及系统 | |
CN113283336A (zh) | 一种文本识别方法与系统 | |
KR20220116800A (ko) | 영역 정보를 활용한 가장자리 탐지 장치 및 그 방법 | |
CN114581918A (zh) | 一种文本识别模型训练方法及装置 | |
CN115359370A (zh) | 一种遥感图像云检测方法、装置、计算机装置及存储介质 | |
CN113095992A (zh) | 一种新型的条码截图隐写溯源组合算法 | |
CN116703725A (zh) | 感知多重特征的双分支网络实现针对真实世界文本图像的超分辨率的方法 | |
CN112036290B (zh) | 一种基于类标编码表示的复杂场景文字识别方法及系统 | |
CN113065561A (zh) | 基于精细字符分割的场景文本识别方法 | |
CN111753714A (zh) | 基于字符分割的多方向自然场景文本检测方法 | |
CN113743315B (zh) | 一种基于结构增强的手写体初等数学公式识别方法 | |
CN111814508A (zh) | 一种文字识别方法、系统及设备 | |
CN114943204A (zh) | 一种基于生成对抗网络的中文字体合成的方法 | |
Xie et al. | Weakly supervised scene text generation for low-resource languages | |
CN112015932A (zh) | 一种基于神经网络的图片存储方法、介质及装置 | |
CN112926684A (zh) | 一种基于半监督学习的文字识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |