CN112733716A - 基于srocrn网络的低分辨率文本图像识别方法 - Google Patents

基于srocrn网络的低分辨率文本图像识别方法 Download PDF

Info

Publication number
CN112733716A
CN112733716A CN202110030021.8A CN202110030021A CN112733716A CN 112733716 A CN112733716 A CN 112733716A CN 202110030021 A CN202110030021 A CN 202110030021A CN 112733716 A CN112733716 A CN 112733716A
Authority
CN
China
Prior art keywords
layer
resolution
network
text
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110030021.8A
Other languages
English (en)
Inventor
雒鹏程
胡更生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202110030021.8A priority Critical patent/CN112733716A/zh
Publication of CN112733716A publication Critical patent/CN112733716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开基于SROCRN网络的低分辨率文本图像识别方法。本发明方法针对低分辨率文本图像进行OCR识别时准确率较低的问题,将现存的图像超分辨率重建网络(SRGAN)与文本图像OCR识别网络(CRNN)进行融合与改进,进一步提出超分辨率图像识别网络(SROCRN),从而解决了低分辨率文本图像OCR识别的问题。结合改进的超分辨率重建技术与图像识别技术使用基于SROCRN网络的低分辨率文本图像识别方法对低分辨率的文本图像进行识别,解决了某些文本图像在识别过程中因分辨率不够而造成的识别与获取文本序列困难的问题。该方法易于实现,具有较好的识别效果。

Description

基于SROCRN网络的低分辨率文本图像识别方法
技术领域
本发明涉及文本图像识别领域,具体涉及一种基于SROCRN网络的低分辨率文本图像识别方法。
背景技术
在当今社会,文本图像识别(OCR)在各个领域发挥着越来越重要的作用,而对于低分辨率文本图像的识别率较低这一问题目前尚没有较为合适的解决方案,文本图像由于在传播过程中受到不同的压缩编码方式与图像退化函数的影响,其自身的分辨率会随之降低,进而影响文本识别的准确性与完整性。对于部分含有重要信息的文本图像,由于分辨率与清晰程度的限制导致其无法准确的识别,是非常可惜的。因此,在使用低分辨率文本图像进行OCR识别时,通过技术手段对低分辨率文本图像进行分辨率的提高,在进行OCR识别是及其必要的。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于SROCRN网络的低分辨率文本图像识别方法,旨在解决低分辨率文本图像作为一种媒介在OCR识别过程中由于自身分辨率低导致识别准确率偏低的问题,而为了解决这一问题,本发明提出的方法将现存的图像超分辨率重建网络(SRGAN)与文本图像OCR识别网络(CRNN)进行融合与改进,进一步提出超分辨率图像识别网络(SROCRN),从而解决了低分辨率文本图像OCR识别的问题。
本发明方法的技术方案分为SROCRN网络模型构建与训练以及低分辨率文本图像的识别两个过程进行,具体内容如下:
步骤一、构建SROCRN网络模型的数据集
获取若干分辨率为W×H的原始高分辨率文本图像,并为其打好标签(文本图像实际的序列内容),将这些高分辨率文本图像按照3:1分为A组与B组,A组图像与B组图像分别进行两次图像缩放变换,得到尺寸为1/4*W×1*4*H的A-1组与B-1组低分辨率文本图像,A组与A-1组图像构成训练集,B-1组图构成测试集,训练集与测试集共同构成SROCRN网络模型的数据集。
步骤二、构建SROCRN网络:
2-1构建SROCRN网络的超分辨率模块:
超分辨率模块采用对抗网络,由生成器与判别器组成;
生成器由卷积层,上采样层,五层串联的残差模块,两层串联的上采样层依次串联组成,其中卷积层的输入为A-1组低分辨率文本图像;
判别器由卷积层,激活层,五层串联的残差模块,特征转换层,全连接层依次串联构成,其中卷积层的输入为激活层的输出和原始高分辨率文本图像。
残差模块包括卷积层、归一化层、激活层。
2-2构建SROCRN网络的图像识别模块:
图像识别模块采用卷积网络(CNN)与短时记忆网络(RNN)结合的方式,由文本检测(CTPN)模块与CRNN模块结合组成;CTPN模块由VGG特征提取层、卷积层、BLSTM时序信息融合层、全连接层构成,其中VGG特征提取层的输入为超分辨率模块的输出;CRNN模块由卷积层、池化层、RNN序列特征提取层、全连接层,其中卷积层的输入为CTPN模块的输出。
步骤三、利用数据集进行SROCRN模型的训练
步骤四、低分辨率文本图像的识别(利用数据集对网络进行测试)
4-1将数据集中的测试集使用DATALOADER函数封装并导入PYTHON环境中;
4-2加载已经训练好的对应的SROCRN模型,将上述测试集作为输入图像输入模型中,得到最终识别的文字序列。
本发明的另一个目的是提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的方法。
本发明的又一个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。
本发明的有益效果:
1)本发明中SROCRN网络的超分辨率模块在SRGAN的基础上将残差模块中的归一化层由批量归一化层改为实例归一化层(见公式(8)-(10)),使得归一化后的数据分布由原来的一个Batch更加聚焦于单一图像本身,从而获取更为精准的特征图,提高超分辨率模块的图像重建效果,进而提升OCR识别的准确率。
2)本发明中SROCRN网络的超分辨率模块在SRGAN的基础上将原始的16层残差结构更改为5层残差结构,基于文本图像的内容较为单一,通过反复比较最终确定使用5层残差结构进行训练,在保证重建效果的前提下降低训练难度,使得超分辨率模块模型体量大大缩小,保证整个低分辨率文本图像识别网络训练的高效性。
3)本发明中SROCRN网络的图像识别模块在原始CRNN模块的基础上融合了CTPN模块进行预先的文本检测,对文本区域进行检测与框选,从而提高CRNN获取文本特征的准确度与精确性,进而提高低分辨率文本图像OCR识别的准确率。
综上所述,本发明方法针对低分辨率文本图像进行OCR识别时准确率较低的问题,结合改进的超分辨率重建技术与图像识别技术使用基于SROCRN网络的低分辨率文本图像识别方法对低分辨率的文本图像进行识别,解决了某些文本图像在识别过程中因分辨率不够而造成的识别与获取文本序列困难的问题。该方法易于实现,具有较好的识别效果。
附图说明
图1为本发明的方法流程图;
图2为本发明的SROCRN网络的整体模型构建图;
图3为本发明的SROCRN网络的超分辨率模块构建图;
图4为本发明的SROCRN网络的残差模块构建图;
图5为本发明的SROCRN网络的图像识别模块构建图;
图6为本发明的实施例的实施效果示例图;其中(a)为低分辨率文本图像,(b)为CTPN网络识别的效果,(c)为CRNN网络识别的效果,(d)为本发明的SROCRN网络识别的效果。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的分析说明。
基于SROCRN网络的低分辨率文本图像识别模型构建训练以及低分辨率文本图像的识别两个过程进行,如图1具体内容如下:
步骤一、模型训练的数据集的构建:
1.1收集n(n>800)张高分辨率文本图像,高分辨率尺寸为W×H,图片均为纯色背景,为这些图像做好标签(文本图像实际的序列内容)并写入json文档,并按照3:1分为A组与B组;
1.2将1.1中收集的A组与B组图像分别进行两次图像缩放变换,得到分辨率为1/4*W×1/4H的低分辨率图像,并标记为A-1组与B-1组;其中图像缩放变换采用双三次插值方法,采用双三次内插基函数作为基函数,双三次插值计算按公式(1)进行:
f(i+u,j+v)=ABC (1)
其中,A、B、C均为矩阵,形式如下:
A=[s(v+1) s(v) s(1-v) s(2-v)] (2)
Figure BDA0002891733960000041
Figure BDA0002891733960000042
Figure BDA0002891733960000043
(i,j):原图像的像素坐标,其中i为横坐标值,j为纵坐标值,i、j均为非负整数;
f(i,j):原图像的像素灰度值;
(i+u,j+v):缩放变换后新图像的像素坐标;
f(i+u,j+v):缩放变换后新图像的像素灰度值;
u:沿横坐标方向,原图像像素坐标的横坐标i离新图像像素坐标(i+u,j+v)的距离;
v:沿纵坐标方向,原图像像素坐标的纵坐标j离新图像的像素坐标(i+u,j+v)的距离;
|x|:图像像素沿x方向离原点的距离;
s(x):sin(π·x)/x的逼近多项式,为插值核;
1.3将1.2中的A组与A-1组标记为训练集,B-1组标记为测试集。
步骤二.如图2构建SROCRN网络:
2.1如图3构建SROCRN网络的超分辨率模块:
2.1.1构建生成器的前两层,对训练集中图像进行卷积与激活操作提取特征图,该操作按公式(6)与公式(7)进行:
Y=F2(X)=MAX(0,w*F1(X)+b) (6)
公式(6)中,
X:1.3中的训练集图像;
F1:图像的RGB通道分离函数;
F2:卷积操作的处理函数;
w:大小为f1×f1×n的卷积核,其中f1是卷积核的空间大小,n是卷积核的数量;
b:n维向量;
Figure BDA0002891733960000051
公式(7)中,
P:激活处理后的特征图;
Yi,j:卷积操作后图像在(i,j)这一点的像素值;
ai.j:(1,+∞)区间内的固定参数;
2.1.2构建生成器的五层残差模块,如图4残差模块由卷积层、归一化层、激活层组成,进一步提取扩展特征图的通道数量,其中卷积层与激活层按照公式(6)与(7)进行,其输入分别为激活层或前一残差模块的输出;
归一化层按照公式(8)、(9)、(10)进行:
Figure BDA0002891733960000061
Figure BDA0002891733960000062
Figure BDA0002891733960000063
公式(8)、(9)、(10)中,
F3:归一化处理函数;
P:上一层卷积后图像的特征图;
u:上一层卷积后图像的特征图的均值;
σ2:上一层卷积后图像的特征图的方差;
ε:可变参数;
H:特征图的宽度;
W:特征图的长度;
2.1.2构建生成器的最后两层上采样层,对最后一个残差模块输出的特征图进行4倍放大生成高分辨率图像,上采样层主要采用子像素周期性筛选的方法,该方法按照公式(11)、(12)、(13)、(14)进行:
P1(m,n,p)=P(i,j,k) (11)
Figure BDA0002891733960000064
Figure BDA0002891733960000065
p=k×r+i%r (14)
公式(11)、(12)、(13)、(14)中,
P1:子像素筛选后的第m个特征图在(n,p)这一点的像素值;
P:上一层残差结构生成的第i个特征图在(j,k)这一点的像素值;
m、i:特征图的通道序号;
r:特征图上采样的倍数;
n、p、j、k:特征图的宽度与高度对应的角标;
2.1.3构建判别器网络;判别器网络依次由卷积层,激活层,五层残差模块,特征转换层和全连接层构成,其中卷积层、激活层、残差模块分别按照公式(6)、(7)、(8)、(9)、(10)进行,特征转换层和全连接层按照公式(15)、(16)进行:
E(x1,x2,x3,......xh×w)=F4(Ph×w) (15)
公式(15)中,
E(x1,x2,x3,......xh×w):由特征图转换得来的像素值向量;
h、w:特征图高度与宽度;
F4:矩阵周期取值转换函数;
Ph×w:经过卷积层、激活层、残差模块之后得到的特征图矩阵;
Figure BDA0002891733960000071
公式(16)中,
E:特征转换层由特征图转换得来的像素值向量;
F5:全连接层的sigmoid函数;
2.2如图5构建SROCRN网络的图像识别模块:
2.2.1构建文本检测(CTPN)模块,CTPN模块由VGG特征提取层、卷积层、BLSTM时序信息融合层、全连接层构成,其中VGG特征提取层采用VGG-16网络(16层特定卷积核的卷积网络),而卷积层与全连接层按照公式(6)与公式(16)进行,BLSTM时序信息融合层按照公式(17)进行:
St=Γ1(St-1)+Γ2(St-1)+St-1 (17)
公式(17)中,
St:第t个特征图序列框;
St-1:第t-1个特征图序列框;
Γ1:BLSTM的遗忘门处理函数,提取当前特征中的不关键特征;
Γ2:BLSTM的更新门处理函数,提取当前特征中的需要更新得信息;
2.2.2构建OCR识别模块(CRNN),CRNN模块由卷积层、池化层、RNN序列特征提取层、全连接层组成,其中卷积层、全连接层按照公式(6)与公式(16)进行,RNN序列特征提取层采用BLSTM结构,按照公式(17)进行,池化层按照公式(18)进行:
Q(P2)=w1*P2+b1 (18)
公式(18)中,
Q:池化层处理函数;
P2:卷积层提取的特征图;
w1:大小为f2×f2×m的卷积核,其中f2是卷积核的空间大小,m是卷积核的数量;
b1:n维向量;
2.3构建SROCRN网络的损失函数,总损失函数由超分辨率损失与图像识别损失构成,超分辨率损失由生成器损失与判别器损失构成,图像识别损失由文本检测损失与OCR识别损失构成,以上描述的损失函数分别按照公式(19)、(20)、(21)进行:
LSROCRN=LSR+LOCR (19)
Figure BDA0002891733960000081
Figure BDA0002891733960000091
公式(19)中,
LSROCRN:SROCRN网络的总损失函数;LSR:超分辨率损失;
LOCR:图像识别损失;
公式(20)中,
LGEN:生成器损失;LDEN:判别器损失;W1:生成器生成图像的宽度;
H1:生成器生成图像的高度;IHR:真实的高分辨率图像;ILR:低分辨率图像;Gθ:生成器网络处理函数;N:生成器生成图像的总个数;Dθ:判别器处理函数;
公式(21)中,
LCTPN:文本检测损失;LOCR:图像识别损失;N:输入CTPN模块图像的总个数;ZS:交叉熵损失函数;Zq:预设的文本检测框与实际卷积得到的文本框在竖直方向上的偏移量;Zm:预设的文本检测框与实际卷积得到的文本框在水平方向上的偏移量;Za:文本识别网络处理函数;si:网络检测分类预测输出的标签;
Figure BDA0002891733960000092
检测分类的真实标签;vj:网络检测文本框在竖直方向上的预测高度值;
Figure BDA0002891733960000093
预设的文本框在竖直方向上的真实高度值;ok:网络检测文本框在水平方向上的预测高度值;
Figure BDA0002891733960000094
预设的文本框在水平方向上的真实高度值;ef:文本识别网络预测出的文本序列;
Figure BDA0002891733960000095
真实的文本序列标签;λ1、λ2:可变参数;
步骤三、利用数据集进行SROCRN模型的训练
3.1使用基于PYTHON 3.6.5的PYTORCH框架进行模型的构建与训练,并配置pytorch相关环境;
3.2根据步骤二中SROCRN网络构建models函数与train函数;
3.3导入PYTHON与TORCH相关工具包,包括torch、torch.optim、torch.nn、torchvision、models等;
3.4定义参数变量并为其赋初值,主要有如下变量:
dataset=“文本图像数据集(步骤一中所得)”;Dataroot=“/.Data”;workers=0;batchsize=64;imageSize=100;upsampling=4;nepochs=1000;generatorLR=0.0001;discriminatorLR=0.0001;nGPU=1等;
3.5将数据集导入并用ImageFolder封装入dataset,同时进行相应得transform操作,按照3.4中的imageSize对数据集中的图像进行resize(尺寸重置操作);
3.6导入models函数与train函数,将3.5中的dataset中的训练集封装进dataloader(可随机按batchsize值提取图像的数据集容器)中并且按照3.4中初始化的参数开始训练,每训练100个epoch更新并保存一次模型参数,训练完的最终模型通过torch.save函数保存为SROCRN.pth;
步骤四、低分辨率文本图像的识别
4.1将3.5中的dataset中的测试集进行dataloader封装,并加载3.6中训练好的SROCRN模型;
4.2将上述测试集中的文本图像作为输入图像输入模型中,得到最终识别的文字序列,同时得到测试集文本图像文本序列识别的准确率。
单个低分辨率文本图像识别结果如图6所示,(a)为原图像,(b)为用CTPN网络进行单个低分辨率文本图像识别的结果(c)为用CRNN网络进行单个低分辨率文本图像识别的结果(d)为用本发明的SROCRN网络进行的单个低分辨率文本图像识别的结果;
不同网络的批量低分辨率文本图像的识别率比较如表1所示,表格中分别统计了不同迭代次数下CTPN网络、CRNN网络、SROCRN网络的批量低分辨率文本图像的识别准确率。
从表1中可以看到SROCRN网络相对于CTPN网络与CRNN网络在识别单个低分辨率文本图像序列的准确度上有明显的提高,从图6中可以看到本发明的SROCRN网络相较于CTPN网络、CRNN网络在批量低分辨率文本图像的识别准确率有明显提高,由此可得本发明中的SROCRN网络能够解决低分辨率文本图像识别率低的问题并且模型的适应性较强,具有较强的泛化能力。
表1针对低分辨率文本图像,不同识别网络的批量识别准确率比较
Figure BDA0002891733960000111

Claims (10)

1.基于SROCRN网络的低分辨率文本图像识别方法,其特征在于该方法包括以下步骤:
步骤一、构建SROCRN网络模型的数据集:
1.1获取若干分辨率为W×H的原始高分辨率文本图像,并为其打好标签,然后分为A组与B组;
1.2将1.1中收集的A组与B组图像分别进行两次图像缩放变换,得到分辨率为1/4*W×1/4H的低分辨率图像,并标记为A-1组与B-1组;
1.3将1.2中的A组与A-1组标记为训练集,B-1组标记为测试集;
步骤二.构建SROCRN网络,以识别低分辨率图像中文字序列:
SROCRN网络包括超分辨率模块和图像识别模块;
超分辨率模块采用对抗网络,由生成器与判别器组成;生成器由卷积层,上采样层,五层串联的残差模块,两层串联的上采样层组成,其中卷积层的输入为A-1组低分辨率文本图像;判别器由卷积层,激活层,五层串联的残差模块,特征转换层,全连接层构成,其中卷积层的输入为激活层的输出和原始高分辨率文本图像;
图像识别模块采用卷积网络(CNN)与短时记忆网络(RNN)结合的方式,由文本检测(CTPN)模块与CRNN模块组成;CTPN模块由VGG特征提取层、卷积层、BLSTM时序信息融合层、全连接层构成,其中VGG特征提取层的输入为超分辨率模块的输出;CRNN模块由卷积层、池化层、RNN序列特征提取层、全连接层构成,其中CRNN模块的卷积层的输入为CTPN模块的输出,CRNN模块的全连接层输出为
步骤三、利用步骤一数据集进行步骤二SROCRN模型的训练、测试。
2.根据权利要求1所述的基于SROCRN网络的低分辨率文本图像识别方法,其特征在于步骤二超分辨率模块生成器中卷积层、上采样层对训练集中图像进行卷积与激活操作提取特征图,该操作按公式(6)与公式(7)进行:
Y=F2(X)=MAX(0,w*F1(X)+b) (6)
公式(6)中,
X:1.3中的训练集图像;
F1:图像的RGB通道分离函数;
F2:卷积操作的处理函数;
w:大小为f1×f1×n的卷积核,其中f1是卷积核的空间大小,n是卷积核的数量;
b:n维向量;
Figure FDA0002891733950000021
公式(7)中,
P:激活处理后的特征图;
Yi,j:卷积操作后图像在(i,j)这一点的像素值;
ai.j:(1,+∞)区间内的固定参数。
3.根据权利要求2所述的基于SROCRN网络的低分辨率文本图像识别方法,其特征在于步骤二超分辨率模块生成器中五层残差模块每个均由卷积层、归一化层、激活层组成,进一步提取扩展特征图的通道数量,其中卷积层与激活层按照公式(6)与(7)进行;归一化层按照公式(8)、(9)、(10)进行:
Figure FDA0002891733950000022
Figure FDA0002891733950000023
Figure FDA0002891733950000024
公式(8)、(9)、(10)中,
F3:归一化处理函数;
P:上一层卷积后图像的特征图;
u:上一层卷积后图像的特征图的均值;
σ2:上一层卷积后图像的特征图的方差;
ε:可变参数;
H:特征图的宽度;
W:特征图的长度。
4.根据权利要求3所述的基于SROCRN网络的低分辨率文本图像识别方法,其特征在于步骤二超分辨率模块生成器中最后两层上采样层,对最后一个残差模块输出的特征图进行4倍放大生成高分辨率图像,上采样层主要采用子像素周期性筛选的方法,按照公式(11)、(12)、(13)、(14)进行:
P1(m,n,p)=P(i,j,k) (11)
Figure FDA0002891733950000031
Figure FDA0002891733950000032
p=k×r+i%r (14)
公式(11)、(12)、(13)、(14)中,
P1:子像素筛选后的第m个特征图在(n,p)这一点的像素值;
P:上一层残差结构生成的第i个特征图在(j,k)这一点的像素值;
m、i:特征图的通道序号;
r:特征图上采样的倍数;
n、p、j、k:特征图的宽度与高度对应的角标。
5.根据权利要求4所述的基于SROCRN网络的低分辨率文本图像识别方法,其特征在于步骤二超分辨率模块判别器中卷积层、激活层、残差模块分别按照公式(6)、(7)、(8)、(9)、(10)进行,特征转换层和全连接层按照公式(15)、(16)进行:
E(x1,x2,x3,......xh×w)=F4(Ph×w) (15)
公式(15)中,
E(x1,x2,x3,......xh×w):由特征图转换得来的像素值向量;
h、w:特征图高度与宽度;
F4:矩阵周期取值转换函数;
Ph×w:经过卷积层、激活层、残差模块之后得到的特征图矩阵;
Figure FDA0002891733950000041
公式(16)中,
E:特征转换层由特征图转换得来的像素值向量;
F5:全连接层的sigmoid函数。
6.根据权利要求5所述的基于SROCRN网络的低分辨率文本图像识别方法,其特征在于步骤二图像识别模块CTPN模块中VGG特征提取层采用VGG-16网络,而卷积层与全连接层按照公式(6)与公式(16)进行,BLSTM时序信息融合层按照公式(17)进行:
St=Γ1(St-1)+Γ2(St-1)+St-1 (17)
公式(17)中,
St:第t个特征图序列框;
St-1:第t-1个特征图序列框;
Γ1:BLSTM的遗忘门处理函数,提取当前特征中的不关键特征;
Γ2:BLSTM的更新门处理函数,提取当前特征中的需要更新得信息。
7.根据权利要求6所述的基于SROCRN网络的低分辨率文本图像识别方法,其特征在于步骤二图像识别模块CRNN模块中卷积层、全连接层按照公式(6)与公式(16)进行,RNN序列特征提取层采用BLSTM结构,按照公式(17)进行,池化层按照公式(18)进行:
Q(P2)=w1*P2+b1 (18)
公式(18)中,
Q:池化层处理函数;
P2:卷积层提取的特征图;
w1:大小为f2×f2×m的卷积核,其中f2是卷积核的空间大小,m是卷积核的数量;
b1:n维向量。
8.根据权利要求1或7所述的基于SROCRN网络的低分辨率文本图像识别方法,其特征在于步骤二SROCRN网络的总损失函数由超分辨率损失与图像识别损失构成,超分辨率损失由生成器损失与判别器损失构成,图像识别损失由文本检测损失与OCR识别损失构成,以上描述的损失函数分别按照公式(19)、(20)、(21)进行:
LSROCRN=LSR+LOCR (19)
Figure FDA0002891733950000051
Figure FDA0002891733950000052
公式(19)中,
LSROCRN:SROCRN网络的总损失函数;LSR:超分辨率损失;
LOCR:图像识别损失;
公式(20)中,
LGEN:生成器损失;LDEN:判别器损失;W1:生成器生成图像的宽度;
H1:生成器生成图像的高度;IHR:真实的高分辨率图像;ILR:低分辨率图像;
Gθ:生成器网络处理函数;N:生成器生成图像的总个数;Dθ:判别器处理函数;
公式(21)中,
LCTPN:文本检测损失;LOCR:图像识别损失;N:输入CTPN模块图像的总个数;ZS:交叉熵损失函数;Zq:预设的文本检测框与实际卷积得到的文本框在竖直方向上的偏移量;Zm:预设的文本检测框与实际卷积得到的文本框在水平方向上的偏移量;Za:文本识别网络处理函数;si:网络检测分类预测输出的标签;
Figure FDA0002891733950000053
检测分类的真实标签;vj:网络检测文本框在竖直方向上的预测高度值;
Figure FDA0002891733950000054
预设的文本框在竖直方向上的真实高度值;ok:网络检测文本框在水平方向上的预测高度值;
Figure FDA0002891733950000061
预设的文本框在水平方向上的真实高度值;ef:文本识别网络预测出的文本序列;
Figure FDA0002891733950000062
真实的文本序列标签;λ1、λ2:可变参数。
9.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项所述的方法。
10.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项所述的方法。
CN202110030021.8A 2021-01-11 2021-01-11 基于srocrn网络的低分辨率文本图像识别方法 Pending CN112733716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110030021.8A CN112733716A (zh) 2021-01-11 2021-01-11 基于srocrn网络的低分辨率文本图像识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110030021.8A CN112733716A (zh) 2021-01-11 2021-01-11 基于srocrn网络的低分辨率文本图像识别方法

Publications (1)

Publication Number Publication Date
CN112733716A true CN112733716A (zh) 2021-04-30

Family

ID=75590124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110030021.8A Pending CN112733716A (zh) 2021-01-11 2021-01-11 基于srocrn网络的低分辨率文本图像识别方法

Country Status (1)

Country Link
CN (1) CN112733716A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344110A (zh) * 2021-06-26 2021-09-03 浙江理工大学 一种基于超分辨率重建的模糊图像分类方法
CN113362249A (zh) * 2021-06-24 2021-09-07 平安普惠企业管理有限公司 文字图像合成方法、装置、计算机设备及存储介质
CN114049254A (zh) * 2021-10-29 2022-02-15 华南农业大学 低像素牛头图像重建识别方法、系统、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113362249A (zh) * 2021-06-24 2021-09-07 平安普惠企业管理有限公司 文字图像合成方法、装置、计算机设备及存储介质
CN113362249B (zh) * 2021-06-24 2023-11-24 广州云智达创科技有限公司 文字图像合成方法、装置、计算机设备及存储介质
CN113344110A (zh) * 2021-06-26 2021-09-03 浙江理工大学 一种基于超分辨率重建的模糊图像分类方法
CN113344110B (zh) * 2021-06-26 2024-04-05 浙江理工大学 一种基于超分辨率重建的模糊图像分类方法
CN114049254A (zh) * 2021-10-29 2022-02-15 华南农业大学 低像素牛头图像重建识别方法、系统、设备及存储介质
CN114049254B (zh) * 2021-10-29 2022-11-29 华南农业大学 低像素牛头图像重建识别方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112733716A (zh) 基于srocrn网络的低分辨率文本图像识别方法
Dong et al. Crowd counting by using top-k relations: A mixed ground-truth CNN framework
CN111259880B (zh) 一种基于卷积神经网络的电力操作票文字识别方法
CN112257647A (zh) 基于注意力机制的人脸表情识别方法
CN108648197A (zh) 一种基于图像背景掩膜的目标候选区域提取方法
CN110175248B (zh) 一种基于深度学习和哈希编码的人脸图像检索方法和装置
CN114187450A (zh) 一种基于深度学习的遥感图像语义分割方法
CN107516128A (zh) 一种基于ReLU激活函数的卷积神经网络的花卉识别方法
US20230334829A1 (en) Hyperspectral image classification method based on context-rich networks
CN109993702B (zh) 基于生成对抗网络的满文图像超分辨率重建方法
CN112037239B (zh) 基于多层次显式关系选择的文本指导图像分割方法
Hsu et al. Image super-resolution using capsule neural networks
Wu et al. Joint spatial and radical analysis network for distorted Chinese character recognition
CN114626476A (zh) 基于Transformer与部件特征融合的鸟类细粒度图像识别方法及装置
CN114943646A (zh) 基于纹理导向的梯度权重损失和注意力机制超分辨方法
CN111368637A (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN110851627A (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN112418033B (zh) 基于mask rcnn神经网络的滑坡坡面分割识别方法
CN113298235A (zh) 一种多分支深度自注意力变换网络的神经网络架构及实现方法
CN115797184B (zh) 一种地表水体超分辨率提取方法
CN116630700A (zh) 基于引入通道-空间注意力机制的遥感图像分类方法
CN116188836A (zh) 基于空间与通道特征提取的遥感图像分类方法和装置
CN113743315B (zh) 一种基于结构增强的手写体初等数学公式识别方法
Fu et al. Dynamic sampling network for semantic segmentation
CN115272766A (zh) 一种基于混合傅立叶算子Transformer网络的高光谱图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination