CN112733716A

CN112733716A - 基于srocrn网络的低分辨率文本图像识别方法

Info

Publication number: CN112733716A
Application number: CN202110030021.8A
Authority: CN
Inventors: 雒鹏程; 胡更生
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-01-11
Filing date: 2021-01-11
Publication date: 2021-04-30

Abstract

本发明公开基于SROCRN网络的低分辨率文本图像识别方法。本发明方法针对低分辨率文本图像进行OCR识别时准确率较低的问题，将现存的图像超分辨率重建网络(SRGAN)与文本图像OCR识别网络(CRNN)进行融合与改进，进一步提出超分辨率图像识别网络(SROCRN)，从而解决了低分辨率文本图像OCR识别的问题。结合改进的超分辨率重建技术与图像识别技术使用基于SROCRN网络的低分辨率文本图像识别方法对低分辨率的文本图像进行识别，解决了某些文本图像在识别过程中因分辨率不够而造成的识别与获取文本序列困难的问题。该方法易于实现，具有较好的识别效果。

Description

基于SROCRN网络的低分辨率文本图像识别方法

技术领域

本发明涉及文本图像识别领域，具体涉及一种基于SROCRN网络的低分辨率文本图像识别方法。

背景技术

在当今社会，文本图像识别(OCR)在各个领域发挥着越来越重要的作用，而对于低分辨率文本图像的识别率较低这一问题目前尚没有较为合适的解决方案，文本图像由于在传播过程中受到不同的压缩编码方式与图像退化函数的影响，其自身的分辨率会随之降低，进而影响文本识别的准确性与完整性。对于部分含有重要信息的文本图像，由于分辨率与清晰程度的限制导致其无法准确的识别，是非常可惜的。因此，在使用低分辨率文本图像进行OCR识别时，通过技术手段对低分辨率文本图像进行分辨率的提高，在进行OCR识别是及其必要的。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于SROCRN网络的低分辨率文本图像识别方法，旨在解决低分辨率文本图像作为一种媒介在OCR识别过程中由于自身分辨率低导致识别准确率偏低的问题，而为了解决这一问题，本发明提出的方法将现存的图像超分辨率重建网络(SRGAN)与文本图像OCR识别网络(CRNN)进行融合与改进，进一步提出超分辨率图像识别网络(SROCRN)，从而解决了低分辨率文本图像OCR识别的问题。

本发明方法的技术方案分为SROCRN网络模型构建与训练以及低分辨率文本图像的识别两个过程进行，具体内容如下：

步骤一、构建SROCRN网络模型的数据集

获取若干分辨率为W×H的原始高分辨率文本图像，并为其打好标签(文本图像实际的序列内容)，将这些高分辨率文本图像按照3:1分为A组与B组，A组图像与B组图像分别进行两次图像缩放变换，得到尺寸为1/4*W×1*4*H的A-1组与B-1组低分辨率文本图像，A组与A-1组图像构成训练集，B-1组图构成测试集，训练集与测试集共同构成SROCRN网络模型的数据集。

步骤二、构建SROCRN网络：

2-1构建SROCRN网络的超分辨率模块：

超分辨率模块采用对抗网络，由生成器与判别器组成；

生成器由卷积层，上采样层，五层串联的残差模块，两层串联的上采样层依次串联组成，其中卷积层的输入为A-1组低分辨率文本图像；

判别器由卷积层，激活层，五层串联的残差模块，特征转换层，全连接层依次串联构成，其中卷积层的输入为激活层的输出和原始高分辨率文本图像。

残差模块包括卷积层、归一化层、激活层。

2-2构建SROCRN网络的图像识别模块：

图像识别模块采用卷积网络(CNN)与短时记忆网络(RNN)结合的方式，由文本检测(CTPN)模块与CRNN模块结合组成；CTPN模块由VGG特征提取层、卷积层、BLSTM时序信息融合层、全连接层构成，其中VGG特征提取层的输入为超分辨率模块的输出；CRNN模块由卷积层、池化层、RNN序列特征提取层、全连接层，其中卷积层的输入为CTPN模块的输出。

步骤三、利用数据集进行SROCRN模型的训练

步骤四、低分辨率文本图像的识别(利用数据集对网络进行测试)

4-1将数据集中的测试集使用DATALOADER函数封装并导入PYTHON环境中；

4-2加载已经训练好的对应的SROCRN模型，将上述测试集作为输入图像输入模型中，得到最终识别的文字序列。

本发明的另一个目的是提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的方法。

本发明的又一个目的是提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述的方法。

本发明的有益效果：

1)本发明中SROCRN网络的超分辨率模块在SRGAN的基础上将残差模块中的归一化层由批量归一化层改为实例归一化层(见公式(8)-(10))，使得归一化后的数据分布由原来的一个Batch更加聚焦于单一图像本身，从而获取更为精准的特征图，提高超分辨率模块的图像重建效果，进而提升OCR识别的准确率。

2)本发明中SROCRN网络的超分辨率模块在SRGAN的基础上将原始的16层残差结构更改为5层残差结构，基于文本图像的内容较为单一，通过反复比较最终确定使用5层残差结构进行训练，在保证重建效果的前提下降低训练难度，使得超分辨率模块模型体量大大缩小，保证整个低分辨率文本图像识别网络训练的高效性。

3)本发明中SROCRN网络的图像识别模块在原始CRNN模块的基础上融合了CTPN模块进行预先的文本检测，对文本区域进行检测与框选，从而提高CRNN获取文本特征的准确度与精确性，进而提高低分辨率文本图像OCR识别的准确率。

综上所述，本发明方法针对低分辨率文本图像进行OCR识别时准确率较低的问题，结合改进的超分辨率重建技术与图像识别技术使用基于SROCRN网络的低分辨率文本图像识别方法对低分辨率的文本图像进行识别，解决了某些文本图像在识别过程中因分辨率不够而造成的识别与获取文本序列困难的问题。该方法易于实现，具有较好的识别效果。

附图说明

图1为本发明的方法流程图；

图2为本发明的SROCRN网络的整体模型构建图；

图3为本发明的SROCRN网络的超分辨率模块构建图；

图4为本发明的SROCRN网络的残差模块构建图；

图5为本发明的SROCRN网络的图像识别模块构建图；

图6为本发明的实施例的实施效果示例图；其中(a)为低分辨率文本图像，(b)为CTPN网络识别的效果，(c)为CRNN网络识别的效果，(d)为本发明的SROCRN网络识别的效果。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的分析说明。

基于SROCRN网络的低分辨率文本图像识别模型构建训练以及低分辨率文本图像的识别两个过程进行，如图1具体内容如下：

步骤一、模型训练的数据集的构建：

1.1收集n(n>800)张高分辨率文本图像，高分辨率尺寸为W×H，图片均为纯色背景，为这些图像做好标签(文本图像实际的序列内容)并写入json文档，并按照3:1分为A组与B组；

1.2将1.1中收集的A组与B组图像分别进行两次图像缩放变换，得到分辨率为1/4*W×1/4H的低分辨率图像,并标记为A-1组与B-1组；其中图像缩放变换采用双三次插值方法，采用双三次内插基函数作为基函数，双三次插值计算按公式(1)进行：

f(i+u,j+v)＝ABC (1)

其中，A、B、C均为矩阵，形式如下：

A＝[s(v+1) s(v) s(1-v) s(2-v)] (2)

(i,j):原图像的像素坐标，其中i为横坐标值，j为纵坐标值，i、j均为非负整数；

f(i,j):原图像的像素灰度值；

(i+u,j+v):缩放变换后新图像的像素坐标；

f(i+u,j+v):缩放变换后新图像的像素灰度值；

u：沿横坐标方向，原图像像素坐标的横坐标i离新图像像素坐标(i+u,j+v)的距离；

v：沿纵坐标方向，原图像像素坐标的纵坐标j离新图像的像素坐标(i+u,j+v)的距离；

|x|：图像像素沿x方向离原点的距离；

s(x)：sin(π·x)/x的逼近多项式，为插值核；

1.3将1.2中的A组与A-1组标记为训练集，B-1组标记为测试集。

步骤二.如图2构建SROCRN网络：

2.1如图3构建SROCRN网络的超分辨率模块：

2.1.1构建生成器的前两层，对训练集中图像进行卷积与激活操作提取特征图，该操作按公式(6)与公式(7)进行：

Y＝F₂(X)＝MAX(0,w*F₁(X)+b) (6)

公式(6)中，

X：1.3中的训练集图像；

F₁:图像的RGB通道分离函数；

F₂：卷积操作的处理函数；

w：大小为f₁×f₁×n的卷积核，其中f₁是卷积核的空间大小，n是卷积核的数量；

b：n维向量；

公式(7)中，

P：激活处理后的特征图；

Y_i,j：卷积操作后图像在(i，j)这一点的像素值；

a_i.j：(1，+∞)区间内的固定参数；

2.1.2构建生成器的五层残差模块，如图4残差模块由卷积层、归一化层、激活层组成，进一步提取扩展特征图的通道数量，其中卷积层与激活层按照公式(6)与(7)进行，其输入分别为激活层或前一残差模块的输出；

归一化层按照公式(8)、(9)、(10)进行：

公式(8)、(9)、(10)中，

F₃：归一化处理函数；

P:上一层卷积后图像的特征图；

u：上一层卷积后图像的特征图的均值；

σ²：上一层卷积后图像的特征图的方差；

ε：可变参数；

H：特征图的宽度；

W：特征图的长度；

2.1.2构建生成器的最后两层上采样层，对最后一个残差模块输出的特征图进行4倍放大生成高分辨率图像，上采样层主要采用子像素周期性筛选的方法，该方法按照公式(11)、(12)、(13)、(14)进行：

P₁(m,n,p)＝P(i,j,k) (11)

p＝k×r+i％r (14)

公式(11)、(12)、(13)、(14)中，

P₁：子像素筛选后的第m个特征图在(n,p)这一点的像素值；

P：上一层残差结构生成的第i个特征图在(j,k)这一点的像素值；

m、i：特征图的通道序号；

r：特征图上采样的倍数；

n、p、j、k：特征图的宽度与高度对应的角标；

2.1.3构建判别器网络；判别器网络依次由卷积层，激活层，五层残差模块，特征转换层和全连接层构成，其中卷积层、激活层、残差模块分别按照公式(6)、(7)、(8)、(9)、(10)进行，特征转换层和全连接层按照公式(15)、(16)进行：

E(x₁,x₂,x₃,......x_h×w)＝F₄(P_h×w) (15)

公式(15)中，

E(x₁,x₂,x₃,......x_h×w):由特征图转换得来的像素值向量；

h、w：特征图高度与宽度；

F₄：矩阵周期取值转换函数；

P_h×w：经过卷积层、激活层、残差模块之后得到的特征图矩阵；

公式(16)中，

E：特征转换层由特征图转换得来的像素值向量；

F₅：全连接层的sigmoid函数；

2.2如图5构建SROCRN网络的图像识别模块：

2.2.1构建文本检测(CTPN)模块，CTPN模块由VGG特征提取层、卷积层、BLSTM时序信息融合层、全连接层构成，其中VGG特征提取层采用VGG-16网络(16层特定卷积核的卷积网络)，而卷积层与全连接层按照公式(6)与公式(16)进行，BLSTM时序信息融合层按照公式(17)进行：

S_t＝Γ₁(S_t-1)+Γ₂(S_t-1)+S_t-1 (17)

公式(17)中，

S_t：第t个特征图序列框；

S_t-1：第t-1个特征图序列框；

Γ₁：BLSTM的遗忘门处理函数，提取当前特征中的不关键特征；

Γ₂：BLSTM的更新门处理函数，提取当前特征中的需要更新得信息；

2.2.2构建OCR识别模块(CRNN),CRNN模块由卷积层、池化层、RNN序列特征提取层、全连接层组成，其中卷积层、全连接层按照公式(6)与公式(16)进行，RNN序列特征提取层采用BLSTM结构，按照公式(17)进行，池化层按照公式(18)进行：

Q(P₂)＝w₁*P₂+b₁ (18)

公式(18)中，

Q：池化层处理函数；

P₂:卷积层提取的特征图；

w₁：大小为f₂×f₂×m的卷积核，其中f₂是卷积核的空间大小，m是卷积核的数量；

b₁：n维向量；

2.3构建SROCRN网络的损失函数，总损失函数由超分辨率损失与图像识别损失构成，超分辨率损失由生成器损失与判别器损失构成，图像识别损失由文本检测损失与OCR识别损失构成，以上描述的损失函数分别按照公式(19)、(20)、(21)进行：

L_SROCRN＝L_SR+L_OCR (19)

公式(19)中，

L_SROCRN：SROCRN网络的总损失函数；L_SR：超分辨率损失；

L_OCR：图像识别损失；

公式(20)中，

L_GEN：生成器损失；L_DEN：判别器损失；W₁：生成器生成图像的宽度；

H₁：生成器生成图像的高度；I^HR:真实的高分辨率图像；I^LR:低分辨率图像；G_θ：生成器网络处理函数；N：生成器生成图像的总个数；D_θ：判别器处理函数；

公式(21)中，

L_CTPN：文本检测损失；L_OCR:图像识别损失；N：输入CTPN模块图像的总个数；Z_S:交叉熵损失函数；Z_q：预设的文本检测框与实际卷积得到的文本框在竖直方向上的偏移量；Z_m：预设的文本检测框与实际卷积得到的文本框在水平方向上的偏移量；Z_a：文本识别网络处理函数；s_i：网络检测分类预测输出的标签；

检测分类的真实标签；v_j：网络检测文本框在竖直方向上的预测高度值；

预设的文本框在竖直方向上的真实高度值；o_k：网络检测文本框在水平方向上的预测高度值；

预设的文本框在水平方向上的真实高度值；e_f：文本识别网络预测出的文本序列；

真实的文本序列标签；λ₁、λ₂：可变参数；

步骤三、利用数据集进行SROCRN模型的训练

3.1使用基于PYTHON 3.6.5的PYTORCH框架进行模型的构建与训练，并配置pytorch相关环境；

3.2根据步骤二中SROCRN网络构建models函数与train函数；

3.3导入PYTHON与TORCH相关工具包，包括torch、torch.optim、torch.nn、torchvision、models等；

3.4定义参数变量并为其赋初值，主要有如下变量：

dataset＝“文本图像数据集(步骤一中所得)”；Dataroot＝“/.Data”；workers＝0；batchsize＝64；imageSize＝100；upsampling＝4；nepochs＝1000；generatorLR＝0.0001；discriminatorLR＝0.0001；nGPU＝1等；

3.5将数据集导入并用ImageFolder封装入dataset，同时进行相应得transform操作，按照3.4中的imageSize对数据集中的图像进行resize(尺寸重置操作)；

3.6导入models函数与train函数，将3.5中的dataset中的训练集封装进dataloader(可随机按batchsize值提取图像的数据集容器)中并且按照3.4中初始化的参数开始训练，每训练100个epoch更新并保存一次模型参数，训练完的最终模型通过torch.save函数保存为SROCRN.pth；

步骤四、低分辨率文本图像的识别

4.1将3.5中的dataset中的测试集进行dataloader封装，并加载3.6中训练好的SROCRN模型；

4.2将上述测试集中的文本图像作为输入图像输入模型中，得到最终识别的文字序列，同时得到测试集文本图像文本序列识别的准确率。

单个低分辨率文本图像识别结果如图6所示，(a)为原图像，(b)为用CTPN网络进行单个低分辨率文本图像识别的结果(c)为用CRNN网络进行单个低分辨率文本图像识别的结果(d)为用本发明的SROCRN网络进行的单个低分辨率文本图像识别的结果；

不同网络的批量低分辨率文本图像的识别率比较如表1所示，表格中分别统计了不同迭代次数下CTPN网络、CRNN网络、SROCRN网络的批量低分辨率文本图像的识别准确率。

从表1中可以看到SROCRN网络相对于CTPN网络与CRNN网络在识别单个低分辨率文本图像序列的准确度上有明显的提高，从图6中可以看到本发明的SROCRN网络相较于CTPN网络、CRNN网络在批量低分辨率文本图像的识别准确率有明显提高，由此可得本发明中的SROCRN网络能够解决低分辨率文本图像识别率低的问题并且模型的适应性较强，具有较强的泛化能力。

表1针对低分辨率文本图像，不同识别网络的批量识别准确率比较

Claims

1.基于SROCRN网络的低分辨率文本图像识别方法，其特征在于该方法包括以下步骤：

步骤一、构建SROCRN网络模型的数据集：

1.1获取若干分辨率为W×H的原始高分辨率文本图像，并为其打好标签，然后分为A组与B组；

1.2将1.1中收集的A组与B组图像分别进行两次图像缩放变换，得到分辨率为1/4*W×1/4H的低分辨率图像,并标记为A-1组与B-1组；

1.3将1.2中的A组与A-1组标记为训练集，B-1组标记为测试集；

步骤二.构建SROCRN网络，以识别低分辨率图像中文字序列：

SROCRN网络包括超分辨率模块和图像识别模块；

超分辨率模块采用对抗网络，由生成器与判别器组成；生成器由卷积层，上采样层，五层串联的残差模块，两层串联的上采样层组成，其中卷积层的输入为A-1组低分辨率文本图像；判别器由卷积层，激活层，五层串联的残差模块，特征转换层，全连接层构成，其中卷积层的输入为激活层的输出和原始高分辨率文本图像；

图像识别模块采用卷积网络(CNN)与短时记忆网络(RNN)结合的方式，由文本检测(CTPN)模块与CRNN模块组成；CTPN模块由VGG特征提取层、卷积层、BLSTM时序信息融合层、全连接层构成，其中VGG特征提取层的输入为超分辨率模块的输出；CRNN模块由卷积层、池化层、RNN序列特征提取层、全连接层构成，其中CRNN模块的卷积层的输入为CTPN模块的输出，CRNN模块的全连接层输出为

步骤三、利用步骤一数据集进行步骤二SROCRN模型的训练、测试。

2.根据权利要求1所述的基于SROCRN网络的低分辨率文本图像识别方法，其特征在于步骤二超分辨率模块生成器中卷积层、上采样层对训练集中图像进行卷积与激活操作提取特征图，该操作按公式(6)与公式(7)进行：

Y＝F₂(X)＝MAX(0,w*F₁(X)+b) (6)

公式(6)中，

X：1.3中的训练集图像；

F₁:图像的RGB通道分离函数；

F₂：卷积操作的处理函数；

b：n维向量；

公式(7)中，

P：激活处理后的特征图；

Y_i,j：卷积操作后图像在(i，j)这一点的像素值；

a_i.j：(1，+∞)区间内的固定参数。

3.根据权利要求2所述的基于SROCRN网络的低分辨率文本图像识别方法，其特征在于步骤二超分辨率模块生成器中五层残差模块每个均由卷积层、归一化层、激活层组成，进一步提取扩展特征图的通道数量，其中卷积层与激活层按照公式(6)与(7)进行；归一化层按照公式(8)、(9)、(10)进行：

公式(8)、(9)、(10)中，

F₃：归一化处理函数；

P:上一层卷积后图像的特征图；

u：上一层卷积后图像的特征图的均值；

σ²：上一层卷积后图像的特征图的方差；

ε：可变参数；

H：特征图的宽度；

W：特征图的长度。

4.根据权利要求3所述的基于SROCRN网络的低分辨率文本图像识别方法，其特征在于步骤二超分辨率模块生成器中最后两层上采样层，对最后一个残差模块输出的特征图进行4倍放大生成高分辨率图像，上采样层主要采用子像素周期性筛选的方法，按照公式(11)、(12)、(13)、(14)进行：

P₁(m,n,p)＝P(i,j,k) (11)

p＝k×r+i％r (14)

公式(11)、(12)、(13)、(14)中，

P₁：子像素筛选后的第m个特征图在(n,p)这一点的像素值；

m、i：特征图的通道序号；

r：特征图上采样的倍数；

n、p、j、k：特征图的宽度与高度对应的角标。

5.根据权利要求4所述的基于SROCRN网络的低分辨率文本图像识别方法，其特征在于步骤二超分辨率模块判别器中卷积层、激活层、残差模块分别按照公式(6)、(7)、(8)、(9)、(10)进行，特征转换层和全连接层按照公式(15)、(16)进行：

E(x₁,x₂,x₃,......x_h×w)＝F₄(P_h×w) (15)

公式(15)中，

E(x₁,x₂,x₃,......x_h×w):由特征图转换得来的像素值向量；

h、w：特征图高度与宽度；

F₄：矩阵周期取值转换函数；

公式(16)中，

E：特征转换层由特征图转换得来的像素值向量；

F₅：全连接层的sigmoid函数。

6.根据权利要求5所述的基于SROCRN网络的低分辨率文本图像识别方法，其特征在于步骤二图像识别模块CTPN模块中VGG特征提取层采用VGG-16网络，而卷积层与全连接层按照公式(6)与公式(16)进行，BLSTM时序信息融合层按照公式(17)进行：

S_t＝Γ₁(S_t-1)+Γ₂(S_t-1)+S_t-1 (17)

公式(17)中，

S_t：第t个特征图序列框；

S_t-1：第t-1个特征图序列框；

Γ₂：BLSTM的更新门处理函数，提取当前特征中的需要更新得信息。

7.根据权利要求6所述的基于SROCRN网络的低分辨率文本图像识别方法，其特征在于步骤二图像识别模块CRNN模块中卷积层、全连接层按照公式(6)与公式(16)进行，RNN序列特征提取层采用BLSTM结构，按照公式(17)进行，池化层按照公式(18)进行：

Q(P₂)＝w₁*P₂+b₁ (18)

公式(18)中，

Q：池化层处理函数；

P₂:卷积层提取的特征图；

b₁：n维向量。

8.根据权利要求1或7所述的基于SROCRN网络的低分辨率文本图像识别方法，其特征在于步骤二SROCRN网络的总损失函数由超分辨率损失与图像识别损失构成，超分辨率损失由生成器损失与判别器损失构成，图像识别损失由文本检测损失与OCR识别损失构成，以上描述的损失函数分别按照公式(19)、(20)、(21)进行：

L_SROCRN＝L_SR+L_OCR (19)

公式(19)中，

L_SROCRN：SROCRN网络的总损失函数；L_SR：超分辨率损失；

L_OCR：图像识别损失；

公式(20)中，

H₁：生成器生成图像的高度；I^HR:真实的高分辨率图像；I^LR:低分辨率图像；

G_θ：生成器网络处理函数；N：生成器生成图像的总个数；D_θ：判别器处理函数；

公式(21)中，

真实的文本序列标签；λ₁、λ₂：可变参数。

9.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-8中任一项所述的方法。

10.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-8中任一项所述的方法。