CN109977942B - 一种基于场景分类和超分辨率的场景文字识别方法 - Google Patents

一种基于场景分类和超分辨率的场景文字识别方法 Download PDF

Info

Publication number
CN109977942B
CN109977942B CN201910107750.1A CN201910107750A CN109977942B CN 109977942 B CN109977942 B CN 109977942B CN 201910107750 A CN201910107750 A CN 201910107750A CN 109977942 B CN109977942 B CN 109977942B
Authority
CN
China
Prior art keywords
scene
network
ssd
model
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910107750.1A
Other languages
English (en)
Other versions
CN109977942A (zh
Inventor
郑雅羽
梁圣浩
寇喜超
林斯霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201910107750.1A priority Critical patent/CN109977942B/zh
Publication of CN109977942A publication Critical patent/CN109977942A/zh
Application granted granted Critical
Publication of CN109977942B publication Critical patent/CN109977942B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于场景分类和超分辨率的场景文字识别方法,通过构建c‑ssdsr‑rcnn网络,对其对应的卷积层参数分别初始化,扩张数据集并对c‑ssd网络和sr‑crnn网络进行训练,得到相应的c‑ssd模型和sr‑crnn模型,用评估数据集对训练得到的模型进行评估,若达标则将带手势的图片输入训练好的c‑ssd模型中进行处理,返回手势的坐标位置与场景信息,结合文字特征设计检错器返回最终的场景信息,选择对应的文字识别模型进行文字识别,得到最后的识别结果。本发明以一个独立的网络实现分类和检测,实现了端到端的算法,无需采用多个网络分别完成不同的作业,可以提高对低分辨率文字的识别精度。

Description

一种基于场景分类和超分辨率的场景文字识别方法
技术领域
本发明属于一般的图像数据处理或产生的技术领域,特别涉及一种帮助弱视群体指示位置并了解前方位置场景中文字的基于场景分类和超分辨率的场景文字识别方法。
背景技术
场景文本是自然场景中最常见的视觉对象之一,经常出现在道路标志、车牌、产品包等上,阅读场景文本有助于许多有用的应用,例如基于图像的地理位置。
近来,社交网络中照片的使用不断增长,照片帖子通常比纯文字帖子产生更多的参与度,有趣的是,通过Web传播的大部分图像嵌入了文本。首先,嵌入在线照片的文本可以伴随有关作者、位置和时间等照片的重要信息,其次,如果图像是从新闻剪辑、电影或电视剧集中捕获的视频帧,则可以将文本用作标题,最后,文本通常可以使照片变得有趣、讽刺、鼓舞人心或热闹,放大照片的信息,进而引起其他用户更高的参与度,正如以上原因,这种嵌入在线照片的文本变得非常普遍。
对于场景文字的识别,在非密集文字的情况下往往需要两个步骤,一是检测,二是识别,而如果是密集文字,则可以直接对其进行识别。在实际应用中往往是密集文字和非密集文字两种场景同时存在,所以需要对其进行区分后再加以处理。
现有技术中,分类和检测的算法是分开的,这表示对于场景文字的识别需要两个算法,无法达到端到端实现;同时,现有的场景文字识别算法将检测和识别切割开来,在检测结束后将检测到的文字区域从原图中扣出送入识别算法进行识别,这导致了当原图分辨率较高时可以获得较好的识别效果,但如果原图存在一个较小的文字区域,那么在识别中往往会发生错误,导致识别失败或出错。
发明内容
本发明解决了现有技术中,分类和检测的算法分开,对于场景文字的识别需要两个算法,无法达到端到端实现,同时现有的识别算法依赖于原图的分辨率,当原图中文字区域的分辨率较低时,在识别中往往会发生错误,导致识别失败或出错的问题,提供了一种优化的基于场景分类和超分辨率的场景文字识别方法。
本发明所采用的技术方案是,一种基于场景分类和超分辨率的场景文字识别方法,所述方法包括以下步骤:
步骤1:结合分类网络和ssd的共同点,得到c-ssd;融合超分辨率和卷积循环神经网络,基于crnn网络增加上采样层,得到sr-crnn网络;
步骤2:以已知的ssd模型和crnn模型分别初始化c-ssd网络和sr-crnn网络的对应卷积层参数;
步骤3:以数据增强的方法扩张数据集;用扩张后的数据集对c-ssd网络和sr-crnn网络进行训练,得到相应的c-ssd模型和sr-crnn模型;
步骤4:用评估数据集对训练得到的模型进行评估,若效果未达标,则增加数据集,返回步骤3重新训练评估,否则进行下一步;
步骤5:将带手势的图片输入训练好的c-ssd模型中进行处理,返回手势的坐标位置与场景信息;
步骤6:以文字特征设计检错器,对步骤5返回的场景信息进行检查,结合c-ssd网络输出的置信度和检错器的检查结果,返回最终的场景信息;
步骤7:由步骤6的场景信息决定选择将图片直接输入ocr文字识别模型进行文字识别,或是将图片输入TextBoxes++模型进行文字位置检测并进行下一步;
步骤8:将TextBoxes++模型检测得到的文字位置结果同步骤5的手势的坐标位置比较,得到需要的文本区域,将所述文本区域输入sr-crnn模型,得到最后的识别结果。
优选地,所述步骤1包括以下步骤:
步骤1.1:在ssd的骨干网络末尾层设置全连接层得到c-ssd网络,以ssd实现对场景中的物体进行目标检测,以全连接层实现对场景的直接分类;
步骤1.2:将全连接层的输出和ssd的所有分支卷积层输出以concat层联结,整合得到一个输出,将所述输出输入到改进过的检测层中,得到最终的场景信息和手势位置;
步骤1.3:基于crnn网络,在crnn网络前端增加卷积层和上采样层,构建新的网络sr-crnn。
优选地,所述步骤3包括以下步骤:
步骤3.1:网络权重初始化;
步骤3.2:对数据集进行裁剪并翻转后以PCA jittering进行数据增强;
步骤3.3:将经数据增强的数据集输入到深度学习框架构建的网络,输出得到网络的结果;
步骤3.4:将网络的结果和标签作为损失函数模型的两个输入,计算得到损失;
步骤3.5:若损失值大于等于设定的阈值K,则根据损失反向调整网络权重,返回步骤3.3,否则,以当前模型为最终模型。
优选地,所述步骤3.4中,c-ssd网络以CTC Loss函数作为损失函数模型,
Figure GDA0003027371800000041
其中p(z|x)代表给定输入x、输出序列z的概率,S为训练集。
优选地,所述步骤3.4中,sr-crnn的损失函数模型为
Figure GDA0003027371800000042
其中x为网络输出,c为置信度,l为预设的框,g为真实的框,r为真实的场景类别,α、β和γ分别为权重比例,α>0,β+γ=1。
优选地,所述步骤4中,以网络预测值与实际值的比较对网络进行评估,得到评估值
Figure GDA0003027371800000043
其中,TP表示预测成功的数量,FP表示预测错误的数量,N表示图片的总数量,T表示所有类别,计算
Figure GDA0003027371800000044
当IOU>0.5时,预测成功,TP加1,否则预测失败,FP加1,其中,area1和area2分别为网络预测值与实际值。
优选地,所述步骤5包括以下步骤:
步骤5.1:带手势的图片输入c-ssd模型中,经过一次卷积,得到并复制特征图f1;将其中一份特征图f1继续进行卷积,另一份作为外接特征层的输入;
步骤5.2:以f1卷积得到的特征图复制两份,第一份输入全连接层进行场景分类,第二份继续进行卷积得到特征图f2,第三份f1保留作为外接特征层的输入;
步骤5.3:特征图f2复制一份,第一份f2保留,第二份f2继续卷积;重复操作,得到特征图f3、f4、f5、f6
步骤5.4:将特征图的维度分为分数维度和坐标维度,坐标维度储存的为手势的概率坐标,分数维度为对应该坐标的可信程度;以分数维度对坐标维度进行排序,得到手势的最可信坐标,作为手势的坐标位置。
优选地,所述步骤6中,检错器提取文字特征,通过文字特征计算场景中文字的密集程度
Figure GDA0003027371800000051
其中,n表示文字特征所占的像素点个数,N表示整张图像的像素点数量;结合c-ssd网络输出的场景类别的分数维度得到置信度,若c-ssd网络的场景类别返回的置信度C<0.8,检错器返回的结果可信,判断若Ptext>0.3,当前场景为密集文字场景,反之则为普通文字场景,若c-ssd网络的场景类别返回的置信度C≥0.8,则直接根据c-ssd网络的返回值判定当前场景是密集文字场景或是普通文字场景。
优选地,所述步骤7中,当步骤6返回的图片的当前场景为文字密集场景,则以ocr模型对图片进行直接文字识别,否则,将图片输入到已训练好的TextBoxes++模型中对图片中场景的文字位置进行检测。
优选地,所述步骤8中,以TextBoxes++返回的位置信息与c-ssd返回的手势的坐标位置计算IOU,
Figure GDA0003027371800000061
根据IOU的值进行排序,IOU最大的区域为所需的文本区域,将所述文本区域从原始图片上裁剪出来输入sr-crnn模型中进行文字识别。
本发明提供了一种优化的基于场景分类和超分辨率的场景文字识别方法,通过构建c-ssd和sr-crnn网络,对其对应的卷积层参数分别初始化,扩张数据集并对c-ssd网络和sr-crnn网络进行训练,得到相应的c-ssd模型和sr-crnn模型,用评估数据集对训练得到的模型进行评估,若达标则将带手势的图片输入训练好的c-ssd模型中进行处理,返回手势的坐标位置与场景信息,结合文字特征设计检错器返回最终的场景信息,选择对应的文字识别模型进行文字识别,得到最后的识别结果。
本发明以一个独立的网络实现分类和检测,实现了端到端的算法,无需采用多个网络分别完成不同的作业,可以提高对低分辨率文字的识别精度。
附图说明
图1为本发明的流程图;
图2为本发明中c-ssd网络的工作示意图,箭头标示图片输入网络后进行的操作;
图3为本发明中sr-crnn网络的工作示意图,箭头标示图片输入网络后进行的操作。
具体实施方式
下面结合实施案例对本发明做进一步的详细描述,但本发明的实施范围并不限于此。
本发明涉及一种基于场景分类和超分辨率的场景文字识别方法,场景中存在很多文字区域,主要以手势将场景图片中的文字区域选择出来,以无手势图片检测文字,然后与手势位置比较,选择出文字区域并进行后续的文字识别。
所述方法包括以下步骤。
步骤1:结合分类网络和ssd的共同点,得到c-ssd;融合超分辨率和卷积循环神经网络,基于crnn网络增加上采样层,得到sr-crnn网络。
所述步骤1包括以下步骤。
步骤1.1:在ssd的骨干网络末尾层设置全连接层得到c-ssd网络,以ssd实现对场景中的物体进行目标检测,以全连接层实现对场景的直接分类。
步骤1.2:将全连接层的输出和ssd的所有分支卷积层输出以concat层联结,整合得到一个输出,将所述输出输入到改进过的检测层中,得到最终的场景信息和手势位置。
步骤1.3:基于crnn网络,在crnn网络前端增加卷积层和上采样层,构建新的网络sr-crnn。
本发明中,ssd网络里本身存在卷积层和检测层,在ssd网络前增加全连接层,即最终以全连接层和卷积层的输出作为检测层的输入,以检测层的输出结果作为最终的输出;骨干网络是指常用的分类网络的架构,如VGG网络,检测网络基于哪个网络实现,哪个网络就是此检测网络的骨干网络。
本发明中,原始ssd网络只能对场景中物体进行目标检测,无法对整个场景进行划分,故修改原始ssd网络得到c-ssd网络,利用ssd网络基于普通分类网络VGG实现的情况对ssd网络进行改进,具体来说,是在ssd的VGG骨干网络末尾层再额外接一个全连接层来实现对场景的直接分类,使其可以在识别手势位置的同时得到当前场景的分类信息,直接包括检测和分类部分,检测部分基于坐标维度信息和预设的坐标框信息得到手势位置,分类部分区分场景类别。
本发明中,基于crnn增加卷积层和上采样层来达到超分辨率的效果以提升文字识别的最终效果,特别是低分辨率下的文字识别效果,以卷积层计算图像残差,以上采样层得到的特征图融合得到放大的特征图,以所述特征图输入到微调的crnn网络中进行文字识别。具体来说,上采样部分利用残差的思想来提高放大的精度,主要是在网络前端先加一组卷积层来计算图像残差来与直接上采样图像的特征图融合得到放大的特征图,相比原始直接resize输入,经过这样一组卷积层和上采样的特征图可以保留更多的文字信息,对最终结果的精度大有裨益,再将该特征图输入到微调的crnn网络骨架中进行文字识别,最终预期结果要优于直接进行识别。
步骤2:以已知的ssd模型和crnn模型分别初始化c-ssd网络和sr-crnn网络的对应卷积层参数。
本发明中,步骤2主要的目的是加快训练收敛。
本发明中,已知的ssd模型和crnn模型来自于官方提供的训练模型,由于本发明是基于ssd模型和crnn修改的模型,所以大部分网络结构是相似的,其中可以填充的参数类型也是相似的,所以可以直接将参数迁移过来作为初始化参数。
步骤3:以数据增强的方法扩张数据集;用扩张后的数据集对c-ssd网络和sr-crnn网络进行训练,得到相应的c-ssd模型和sr-crnn模型。
所述步骤3包括以下步骤。
步骤3.1:网络权重初始化。
步骤3.2:对数据集进行裁剪并翻转后以PCA jittering进行数据增强。
步骤3.3:将经数据增强的数据集输入到深度学习框架构建的网络,输出得到网络的结果。
步骤3.4:将网络的结果和标签作为损失函数模型的两个输入,计算得到损失。
所述步骤3.4中,c-ssd网络以CTC Loss函数作为损失函数模型,
Figure GDA0003027371800000101
其中p(z|x)代表给定输入x、输出序列z的概率,S为训练集。
所述步骤3.4中,sr-crnn的损失函数模型为
Figure GDA0003027371800000102
其中x为网络输出,c为置信度,l为预设的框,g为真实的框,r为真实的场景类别,α、β和γ分别为权重比例,α>0,β+γ=1。
步骤3.5:若损失值大于等于设定的阈值K,则根据损失反向调整网络权重,返回步骤3.3,否则,以当前模型为最终模型。
本发明中,步骤3.1的网络权重初始化有许多的方法,初始权重选择对于整个网络的训练结果也十分重要,步骤2中已经对原始网络层参数进行了初始化,故接下来选择Xavier方法来对本发明增加的网络层权重进行初始化。
本发明中,由于数据集数量要求较多,所以标注成本也较高,为了增加数据集大小、降低过拟合,需要对数据集进行不同方式的增强扩张,一般采用随机裁剪并翻转后以PCA jittering来进行数据扩张;裁剪并翻转就是指在原图像上随机裁剪指定大小的图片及其水平翻转用于训练,如假设原始图像为256×256,裁剪得到224×224的图片进行输入,这就可以使数据集扩张2048倍;PCA jittering是利用主成分来给RGB像素值加偏差的处理方式,PCA jittering操作就是在训练数据上执行PCA找到主成分,然后为每个训练图像添加多个找到的主成分,具体来说,对于每个RGB图像像素
Figure GDA0003027371800000111
添加变量[p1,p2,p3][α1λ12λ23λ3]T,其中,pi和λi分别是RGB像素值的3×3协方差矩阵的第i个特征向量和特征值,并且αi是随机变量,每个αi对于特定训练图像的所有像素仅被绘制一次,直到该图像被再次用于训练。此为数据增强的常规方法,本领域技术人员可以依据需求自行处理。
本发明中,将经数据增强的数据集输入到深度学习框架构建的网络,网络会不断前向计算至最后一层,最后输出得到网络的结果。
本发明中,步骤3.4的标签即是真值,以网络输出为预测值,标签为真实值,训练让预测值无限逼近真值。
本发明中,优化算法采用Adam优化算法,此为深度学习领域的常规方法。
本发明中,步骤3.5的调整是所有深度学习的核心,根据损失的值反向求偏导,然后网络权重根据偏导的值来调整,根据偏导的值和在训练开始前设置的学习率,可以得到一次迭代权重值需要调整多少。此为本领域技术人员容易理解的内容,本领域技术人员可以依据需求自行设置。
步骤4:用评估数据集对训练得到的模型进行评估,若效果未达标,则增加数据集,返回步骤3重新训练评估,否则进行下一步。
所述步骤4中,以网络预测值与实际值的比较对网络进行评估,得到评估值
Figure GDA0003027371800000112
其中,TP表示预测成功的数量,FP表示预测错误的数量,N表示图片的总数量,T表示所有类别,计算
Figure GDA0003027371800000121
当IOU>0.5时,预测成功,TP加1,否则预测失败,FP加1,其中,area1和area2分别为网络预测值与实际值。
本发明,步骤4使用的评估数据集来自网上开源的数据集,是带标签的数据集,将网络预测值同真值比较来对网络进行评估,用mAP来对其进行评估。
步骤5:将带手势的图片输入训练好的c-ssd模型中进行处理,返回手势的坐标位置与场景信息。
所述步骤5包括以下步骤。
步骤5.1:带手势的图片输入c-ssd模型中,经过一次卷积,得到并复制特征图f1;将其中一份特征图f1继续进行卷积,另一份作为外接特征层的输入。
步骤5.2:以f1卷积得到的特征图复制两份,第一份输入全连接层进行场景分类,第二份继续进行卷积得到特征图f2,第三份f1保留作为外接特征层的输入。
步骤5.3:特征图f2复制一份,第一份f2保留,第二份f2继续卷积;重复操作,得到特征图f3、f4、f5、f6
步骤5.4:将特征图的维度分为分数维度和坐标维度,坐标维度储存的为手势的概率坐标,分数维度为对应该坐标的可信程度;以分数维度对坐标维度进行排序,得到手势的最可信坐标,作为手势的坐标位置。
本发明中,如图2所示,箭头标示图片输入网络后进行的操作,输入一个768×768的图像Image,经过一组卷积运算提取高级特征至conv4_3层得到第一组特征图,复制一份该特征图记为f1并保留,然后对该特征图继续进行卷积至conv6层,此时复制两份当前特征图,一份输入fc7全连接层进行场景分类(得到2个类classes),另一份输入conv7进行卷积得到特征图f2,复制一份f2保留,然后继续进行卷积(每个conv表示一个卷积层),如图不断进行卷积操作可继续得到特征图f3、f4、f5、f6。由于训练中特征图每个维度代表的意义不同,大致可以分为分数维度和坐标维度,坐标维度储存的即为手势可能存在的坐标,而分数维度则对应该坐标的可信程度,所以根据分数维度可以对坐标维度进行排序,然后得到手势的最可信坐标。
本发明中,步骤5.4中,手势的坐标位置是指f1卷积得到的特征图输入全连接层后的大场景信息。
步骤6:以文字特征设计检错器,对步骤5返回的场景信息进行检查,结合c-ssd网络输出的置信度和检错器的检查结果,返回最终的场景信息。
所述步骤6中,检错器提取文字特征,通过文字特征计算场景中文字的密集程度
Figure GDA0003027371800000131
其中,n表示文字特征所占的像素点个数,N表示整张图像的像素点数量;结合c-ssd网络输出的场景类别的分数维度得到置信度,若c-ssd网络的场景类别返回的置信度C<0.8,检错器返回的结果可信,判断若Ptext>0.3,当前场景为密集文字场景,反之则为普通文字场景,若c-ssd网络的场景类别返回的置信度C≥0.8,则直接根据c-ssd网络的返回值判定当前场景是密集文字场景或是普通文字场景。
本发明中,分数维度作为原始输出,置信度是分数维度在网络中的softmax层经过处理后得到的。
本发明中,检错器采用的文字特征如MSER、SWT,为最大稳定极值区域和笔画宽度变换的特征,结合网络输出的置信度和检错器结果,以提高场景分类的精度,返回最终的场景信息。
本发明中,检错器设计结合ocr文字识别提取特征的方法,通过转灰度图、二值化图像、矫正图像、特征提取等步骤得到文字特征,通过特征可以了解场景中文字的密集程度
Figure GDA0003027371800000141
结合c-ssd网络输出的场景类别可以得到最终返回的场景信息。
步骤7:由步骤6的场景信息决定选择将图片直接输入ocr文字识别模型进行文字识别,或是将图片输入TextBoxes++模型进行文字位置检测并进行下一步。
所述步骤7中,当步骤6返回的图片的当前场景为文字密集场景,则以ocr模型对图片进行直接文字识别,否则,将图片输入到已训练好的TextBoxes++模型中对图片中场景的文字位置进行检测。
本发明中,针对不同分辨率大小的输入,选择不同的策略进行预测。
本发明中,由于TextBoxes++对较大图像中的相对小文字区域识别效果很差,所以如果输入图像分辨率较大,可以将其五分为中间区域和四个角落区域,随后分别送入TextBoxes++模型中进行预测,对其结果进行组合,得到可靠的文字检测位置。
步骤8:将TextBoxes++模型检测得到的文字位置结果同步骤5的手势的坐标位置比较,得到需要的文本区域,将所述文本区域输入sr-crnn模型,得到最后的识别结果。
所述步骤8中,以TextBoxes++返回的位置信息与c-ssd返回的手势的坐标位置计算IOU,
Figure GDA0003027371800000151
根据IOU的值进行排序,IOU最大的区域为所需的文本区域,将所述文本区域从原始图片上裁剪出来输入sr-crnn模型中进行文字识别。
本发明中,显而易见地,此处的area1和area2分别为TextBoxes++返回的位置信息和c-ssd返回的手势的坐标位置。
本发明中,如图3所示,箭头标图片输入网络后的前向操作,图片在输入(Input)时就被分为两份,一份先通过一组普通卷积(卷积组1)来计算残差,然后使用转置卷积1对残差特征图进行上采样,另一份则直接通过转置卷积2对其进行上采样,然后将两个特征图通过相加融合(Concat),这样就得到一个相较原图拥有更高分辨率的特征图,接着继续进行卷积操作(卷积组2),提取它的卷积特征(特征序列),并变换其维度大小,具体维度变换多少可以根据表1得到;在卷积组结束后,后续为一个深层双向LSTM,用来在卷积基础上继续提取文字序列特征,其时间长度具体视卷积层输出的特征图的宽度大小而定;最后对LSTM的输出做softmax运算,即可转化为字符。
本发明中,网络不规定输入大小,所以输入大小可以任意,如表1所示,为sr-cnn网络结构详细数据。
表1 sr-cnn网络结构详细数据
Figure GDA0003027371800000161
Figure GDA0003027371800000171
表中假设输入大小为w×h×1,表中的c表示输出维度大小,k表示核的大小(卷积时指卷积核,池化时指池化核),s表示核对特征图计算时的步长,默认高和宽方向步长一致,但如果具体指出则按照具体指出的步长计算,p表示有无加padding(填充),BN指代Batch Normalization(批归一化)。
本发明通过构建c-ssd和sr-crnn网络,对其对应的卷积层参数分别初始化,扩张数据集并对c-ssd网络和sr-crnn网络进行训练,得到相应的c-ssd模型和sr-crnn模型,用评估数据集对训练得到的模型进行评估,若达标则将带手势的图片输入训练好的c-ssd模型中进行处理,返回手势的坐标位置与场景信息,结合文字特征设计检错器返回最终的场景信息,选择对应的文字识别模型进行文字识别,得到最后的识别结果。
本发明以一个独立的网络实现分类和检测,实现了端到端的算法,无需采用多个网络分别完成不同的作业,可以提高对低分辨率文字的识别精度。

Claims (9)

1.一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述方法包括以下步骤:
步骤1:结合分类网络和ssd的共同点,得到c-ssd;融合超分辨率和卷积循环神经网络,基于crnn网络增加上采样层,得到sr-crnn网络;
所述步骤1包括以下步骤:
步骤1.1:在ssd的骨干网络末尾层设置全连接层得到c-ssd网络,以ssd实现对场景中的物体进行目标检测,以全连接层实现对场景的直接分类;
步骤1.2:将全连接层的输出和ssd的所有分支卷积层输出以concat层联结,整合得到一个输出,将所述输出输入到改进过的检测层中,得到最终的场景信息和手势位置;
步骤1.3:基于crnn网络,在crnn网络前端增加卷积层和上采样层,构建新的网络sr-crnn;
步骤2:以已知的ssd模型和crnn模型分别初始化c-ssd网络和sr-crnn网络的对应卷积层参数;
步骤3:以数据增强的方法扩张数据集;用扩张后的数据集对c-ssd网络和sr-crnn网络进行训练,得到相应的c-ssd模型和sr-crnn模型;
步骤4:用评估数据集对训练得到的模型进行评估,若效果未达标,则增加数据集,返回步骤3重新训练评估,否则进行下一步;
步骤5:将带手势的图片输入训练好的c-ssd模型中进行处理,返回手势的坐标位置与场景信息;
步骤6:以文字特征设计检错器,对步骤5返回的场景信息进行检查,结合c-ssd网络输出的置信度和检错器的检查结果,返回最终的场景信息;
步骤7:由步骤6的场景信息决定选择将图片直接输入ocr文字识别模型进行文字识别,或是将图片输入TextBoxes++模型进行文字位置检测并进行下一步;
步骤8:将TextBoxes++模型检测得到的文字位置结果同步骤5的手势的坐标位置比较,得到需要的文本区域,将所述文本区域输入sr-crnn模型,得到最后的识别结果。
2.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤3包括以下步骤:
步骤3.1:网络权重初始化;
步骤3.2:对数据集进行裁剪并翻转后以PCA jittering进行数据增强;
步骤3.3:将经数据增强的数据集输入到深度学习框架构建的网络,输出得到网络的结果;
步骤3.4:将网络的结果和标签作为损失函数模型的两个输入,计算得到损失;
步骤3.5:若损失值大于等于设定的阈值K,则根据损失反向调整网络权重,返回步骤3.3,否则,以当前模型为最终模型。
3.根据权利要求2所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤3.4中,c-ssd网络以CTC Loss函数作为损失函数模型,
Figure FDA0003045855730000031
其中p(z|x)代表给定输入x、输出序列z的概率,S为训练集。
4.根据权利要求2所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤3.4中,sr-crnn的损失函数模型为
Figure FDA0003045855730000032
其中x为网络输出,c为置信度,l为预设的框,g为真实的框,r为真实的场景类别,α、β和γ分别为权重比例,α>0,β+γ=1。
5.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤4中,以网络预测值与实际值的比较对网络进行评估,得到评估值
Figure FDA0003045855730000033
其中,TP表示预测成功的数量,FP表示预测错误的数量,N表示图片的总数量,T表示所有类别,计算
Figure FDA0003045855730000034
当IOU>0.5时,预测成功,TP加1,否则预测失败,FP加1,其中,area1和area2分别为网络预测值与实际值。
6.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤5包括以下步骤:
步骤5.1:带手势的图片输入c-ssd模型中,经过一次卷积,得到并复制特征图f1;将其中一份特征图f1继续进行卷积,另一份作为外接特征层的输入;
步骤5.2:以f1卷积得到的特征图复制两份,第一份输入全连接层进行场景分类,第二份继续进行卷积得到特征图f2,第三份f1保留作为外接特征层的输入;
步骤5.3:特征图f2复制一份,第一份f2保留,第二份f2继续卷积;
重复操作,得到特征图f3、f4、f5、f6
步骤5.4:将特征图的维度分为分数维度和坐标维度,坐标维度储存的为手势的概率坐标,分数维度为对应该坐标的可信程度;以分数维度对坐标维度进行排序,得到手势的最可信坐标,作为手势的坐标位置。
7.根据权利要求1所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤6中,检错器提取文字特征,通过文字特征计算场景中文字的密集程度
Figure FDA0003045855730000041
其中,n表示文字特征所占的像素点个数,N表示整张图像的像素点数量;结合c-ssd网络输出的场景类别的分数维度得到置信度,若c-ssd网络的场景类别返回的置信度C<0.8,检错器返回的结果可信,判断若Ptext>0.3,当前场景为密集文字场景,反之则为普通文字场景,若c-ssd网络的场景类别返回的置信度C≥0.8,则直接根据c-ssd网络的返回值判定当前场景是密集文字场景或是普通文字场景。
8.根据权利要求7所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤7中,当步骤6返回的图片的当前场景为文字密集场景,则以ocr模型对图片进行直接文字识别,否则,将图片输入到已训练好的TextBoxes++模型中对图片中场景的文字位置进行检测。
9.根据权利要求8所述的一种基于场景分类和超分辨率的场景文字识别方法,其特征在于:所述步骤8中,以TextBoxes++返回的位置信息与c-ssd返回的手势的坐标位置计算IOU,
Figure FDA0003045855730000051
其中,area1和area2分别为网络预测值与实际值,根据IOU的值进行排序,IOU最大的区域为所需的文本区域,将所述文本区域从原始图片上裁剪出来输入sr-crnn模型中进行文字识别。
CN201910107750.1A 2019-02-02 2019-02-02 一种基于场景分类和超分辨率的场景文字识别方法 Active CN109977942B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910107750.1A CN109977942B (zh) 2019-02-02 2019-02-02 一种基于场景分类和超分辨率的场景文字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910107750.1A CN109977942B (zh) 2019-02-02 2019-02-02 一种基于场景分类和超分辨率的场景文字识别方法

Publications (2)

Publication Number Publication Date
CN109977942A CN109977942A (zh) 2019-07-05
CN109977942B true CN109977942B (zh) 2021-07-23

Family

ID=67076901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910107750.1A Active CN109977942B (zh) 2019-02-02 2019-02-02 一种基于场景分类和超分辨率的场景文字识别方法

Country Status (1)

Country Link
CN (1) CN109977942B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321864A (zh) * 2019-07-09 2019-10-11 西北工业大学 基于多尺度裁剪机制的遥感图像文字说明生成方法
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN111080639A (zh) * 2019-12-30 2020-04-28 四川希氏异构医疗科技有限公司 基于人工智能的多场景消化道内镜图像识别方法及系统
CN111242925B (zh) * 2020-01-13 2023-08-29 北京妙医佳健康科技集团有限公司 针对ct影像数据的目标检测方法、装置及电子设备
CN111563439B (zh) * 2020-04-28 2023-08-08 京东科技信息技术有限公司 一种水产生物病害检测方法、装置及设备
CN111898608B (zh) * 2020-07-04 2022-04-26 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN112308053B (zh) * 2020-12-29 2021-04-09 北京易真学思教育科技有限公司 检测模型训练、判题方法、装置、电子设备及存储介质
CN112633739A (zh) * 2020-12-30 2021-04-09 安徽广志电气有限公司 一种配电控制柜能量损失评估方法
CN112991168B (zh) * 2021-02-08 2022-11-15 上海电力大学 一种基于目标检测和超分辨率的文本检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9274607B2 (en) * 2013-03-15 2016-03-01 Bruno Delean Authenticating a user using hand gesture
CN108416283A (zh) * 2018-02-28 2018-08-17 华南理工大学 一种基于ssd的路面交通标志识别方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020905B (zh) * 2012-10-09 2016-05-25 武汉大学 针对文字图像的稀疏约束自适应nlm超分辨率重建方法
US10163022B1 (en) * 2017-06-22 2018-12-25 StradVision, Inc. Method for learning text recognition, method for recognizing text using the same, and apparatus for learning text recognition, apparatus for recognizing text using the same
CN108734659B (zh) * 2018-05-17 2021-08-20 华中科技大学 一种基于多尺度标签的亚像素卷积图像超分辨率重建方法
CN108921788A (zh) * 2018-06-20 2018-11-30 华北电力大学 基于深层残差cnn的图像超分辨率方法、装置及存储介质
CN109102844B (zh) * 2018-08-24 2022-02-15 北京锐客科技有限公司 一种临床试验源数据自动校验方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9274607B2 (en) * 2013-03-15 2016-03-01 Bruno Delean Authenticating a user using hand gesture
CN108416283A (zh) * 2018-02-28 2018-08-17 华南理工大学 一种基于ssd的路面交通标志识别方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《TextBoxes++:A Single-Shot Oriented Scene Text Detection》;Liao MH et al;《IEEE Transaction on Image Processing》;20180409;全文 *

Also Published As

Publication number Publication date
CN109977942A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977942B (zh) 一种基于场景分类和超分辨率的场景文字识别方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
Chum et al. Total recall: Automatic query expansion with a generative feature model for object retrieval
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
CN111340814B (zh) 一种基于多模态自适应卷积的rgb-d图像语义分割方法
US20220138454A1 (en) Training method and training apparatus for a neural network for object recognition
US20230245266A1 (en) Generating digital images utilizing high-resolution sparse attention and semantic layout manipulation neural networks
CN108171649B (zh) 一种保持焦点信息的图像风格化方法
CN111915627A (zh) 语义分割方法、网络、设备及计算机存储介质
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
CN112100346A (zh) 基于细粒度图像特征和外部知识相融合的视觉问答方法
CN109885796B (zh) 一种基于深度学习的网络新闻配图匹配性检测方法
CN109299303B (zh) 基于可变形卷积与深度网络的手绘草图检索方法
CN111444367A (zh) 一种基于全局与局部注意力机制的图像标题生成方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN115019143A (zh) 一种基于CNN和Transformer混合模型的文本检测方法
CN112084952B (zh) 一种基于自监督训练的视频点位跟踪方法
CN111401368B (zh) 一种基于深度学习的新闻视频标题提取方法
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN114898372A (zh) 一种基于边缘注意力引导的越南场景文字检测方法
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN116189162A (zh) 一种船牌检测与识别方法、装置、电子设备和储存介质
He Research on text detection and recognition based on OCR recognition technology
CN115331024A (zh) 一种基于深度监督和逐步学习的肠道息肉检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant