CN115661828B - 一种基于动态分层嵌套残差网络的文字方向识别方法 - Google Patents

一种基于动态分层嵌套残差网络的文字方向识别方法 Download PDF

Info

Publication number
CN115661828B
CN115661828B CN202211569791.0A CN202211569791A CN115661828B CN 115661828 B CN115661828 B CN 115661828B CN 202211569791 A CN202211569791 A CN 202211569791A CN 115661828 B CN115661828 B CN 115661828B
Authority
CN
China
Prior art keywords
module
branch
output
convolution
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211569791.0A
Other languages
English (en)
Other versions
CN115661828A (zh
Inventor
牛太阳
张健
王佩雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sinochem Agriculture Holdings
Original Assignee
Sinochem Agriculture Holdings
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sinochem Agriculture Holdings filed Critical Sinochem Agriculture Holdings
Priority to CN202211569791.0A priority Critical patent/CN115661828B/zh
Publication of CN115661828A publication Critical patent/CN115661828A/zh
Application granted granted Critical
Publication of CN115661828B publication Critical patent/CN115661828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明提供了一种基于动态分层嵌套残差网络的文字方向识别方法,包括以下步骤:训练基于卷积神经网络的神经网络模型Res2Net‑I;获取文字图像,输入至神经网络模型Res2Net‑I中,进行文字方向识别;所述神经网络模型Res2Net‑I训练时,包括以下步骤:获取文字图像,对图像随机截取5份;对截取的部分按顺时针0,90,180,270四个方向随机旋转保存;对保存图像按文字的顺时针0,90,180,270四个方向进行分类;本发明以实际业务场景出发,通过深度学习的方式,训练收集的文字图像数据,得到文字方向,首先对所收集的图片随机截取5份,并将截取部分按顺时针0,90,180,270四个方向随机旋转,然后将其按文字方向进行分类,既能够提高正确率,又能够提高效率。

Description

一种基于动态分层嵌套残差网络的文字方向识别方法
技术领域
本发明涉及文字识别技术领域,特别涉及一种基于动态分层嵌套残差网络的文字方向识别方法。
背景技术
随着计算机技术的快速发展,文字识别技术发展迅速;基于人工提取特定特征的方法虽然设计繁杂需要大量的劳动力,却为后人的研究提供了方向。传统文本检测算法主基于连通域的本文检测方法、基于文字笔画特征的文本检测方法和基于纹理特征的文本检测方法。
基于连通域的文本检测方法:L.Neumann等人首次采用最大稳定极值区域算法(Maximally Stable Extremal Regions,MSER)检测文本区域,其能够同时处理多个文本行,并通过形态学操作确定文字连通域的形状。H.Chen等人提出采用基于边缘增强的MSER来检测文本候选区域,然后使用几何和笔划宽度信息过滤这些候选区域以排除非文本对象,该方法检测准确率有很大提升,但是会检测到很多非文本区域。桂哲群采用低对比度的方法提取极值区域,利用面积的增长率来衡量与其相邻背景的对比度,该方法对低对比度文字检测效果好,但是会检测到无关背景。匡娇娇提出一种基于边缘保持的MSER改进方法,能很好地利用图像的彩色信息,可得到更加丰富的文本候选区域,然后再利用朴素贝叶斯模型对文本候选区域做进一步筛选,该方法对水平文本检测较好,但是对倾斜文本检测效果不好。
近年来,卷积神经网络(Convolutional Neural Networks,CNN)技术逐渐成熟,其在目标检测方面获得了较好的效果。自然场景文本检测是目标检测的一方面,一直是目标检测领域的研究热点。Z.Tian等人在目标检测框架Faster RCNN上进行改进,增加了双向长短期记忆网络(Bi-directional Long-Short Term Memory,BLSTM)来提取不同文字之间的上下文特征关系,并改进了区域候选机制,能够准确检测水平文本区域,缺点是对倾斜文本检测效果不够好。X.Zhou等人提出了一种基于管道的多分支结构,能够实现不同功能,可预测图像中文本方向、文本区域和区域得分,然后通过非极大值抑制(Non-MaximumSuppression,NMS)生成最终的候选建议框,该算法检测速度快,但检测效果不够好。P.He等人提出将多个卷积模型级联以实现准确的预测,并开发了一个分层模块,能有效聚合多尺度的特征,可获得特定方向的文本,但对倾斜或弯曲文本检测效果不好。H.Han等人提出了一个弱监督分类框架,它利用单词注释,可检测紧密的文字四边形区域,提取文字边界框,对规则文本检测效果很好,但对复杂背景的非常规文本很难区分文字区域和背景区域,检测效果较差。Z.Zhong等人设计一个新的候选建议网络用于提取文本候选框,然后通过模糊文本类别((Ambiguous Text Category,ATC)和多级感兴趣区域池(Multilevel region-of-interest pooling,MLRP)对候选框筛选,保留最合适的候选框,该方法对水平文本检测己达到先进水平,但是对多方向倾斜文本检测效果较差。
在工程应用领域,会面对各种复杂场景,输入文字图像的方向可能出现旋转情况。针对文本检测过程中文本方向识别的重要性以及文本方向极大影响文本检测效果的原因,文字图像正确识别的前提是确定待识别文字图像的正方向,旋转图像识别难度成倍增加。确定识别文字图像的方向是文字识别领域的关键问题。
专利CN111353491A针对图片文档中预先提取多个单字进行文字方向识别,通过多个单字方向识别综合处文档图片的主要方向;
中国专利“CN111353491A一种文字方向确定方法、装置、设备及存储介质”所述的技术方案在实现对每个文字方向进行检测,通过对所有单个文字方向进行综合识别整体文字图像的方向;该方法首先需要对单个文字进行识别,然后对每个文字识别方向,针对正常文本图像来说需要进行文字识别和文字方向识别两个步骤,识别效率不高,消耗资源;
为此,提出一种基于动态分层嵌套残差网络的文字方向识别方法。
发明内容
有鉴于此,本发明实施例希望提供一种基于动态分层嵌套残差网络的文字方向识别方法,以解决或缓解现有技术中存在的技术问题,至少提供一种有益的选择。
本发明实施例的技术方案是这样实现的:一种基于动态分层嵌套残差网络的文字方向识别方法,包括以下步骤:
训练基于卷积神经网络的神经网络模型Res2Net-I;
获取文字图像,输入至神经网络模型Res2Net-I中,进行文字方向识别;
所述神经网络模型Res2Net-I训练时,包括以下步骤:
获取文字图像,对每一张图像按不同大小随机截取5份;
对截取的图像按顺时针0°,90°,180°,270°四个方向随机旋转保存;
对保存图像按文字的顺时针0°,90°,180°,270°四个方向进行分类。
进一步优选的:所述神经网络模型Res2Net-I包括一个Stem、3个I-Res2Net-A模块、1个Reduction-1模块、5个I-Res2Net-B模块、1个Reduction-2模块、1个I-Res2Net-C模块和Maxpooling层。
进一步优选的:所述Stem分为4部分,其中:
第一部分由3x3和5x5卷积层串联组成;
第二部分为两路操作,一路为3x3的平均池化操作,一路为3x3卷积操作,将两路结果结合;
第三部分将网络分为四路,一路为未处理直接输出,一路为经过3x3和1x1串联卷积层输出,一路为经过1x1、5x1、1x5和5x5串联的卷积层输出,一路为R2N-mod模块,然后将四路输出结合;
第四部分同第二部分的两路操作相同。
进一步优选的:所述I-Res2Net-A模块分为4个分支,其中:
(1)、未经处理直接输出;
(2)、经过一次1x1的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;
(4)、经过一次1x1的卷积处理和两次3x3的卷积处理;
I-Res2Net-A模块输出时:
先将2、3、4分支输出进行结合然后经过一个1x1卷积处理,最后与1分支输出进行结合,然后经过R2N-mod模块输出;
所述I-Res2Net-B模块分为4个分支,其中:
(1)、未经处理直接输出;
(2)、经过一次1x1的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;
(4)经过一次1x5和5x1的卷积处理;
I-Res2Net-B模块输出时:
先将2、3分支输出进行结合然后经过一个1x1卷积处理,最后与1、4分支输出进行结合然后经过R2N-mod模块输出;
所述I-ResNet-C模块分为3个分支,其中:
(1)、未经处理直接输出;
(2)、经过一次1x1的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;
I-ResNet-C模块输出时:
先将2、3分支输出进行结合然后经过一个1x1卷积处理,最后与1分支输出进行结合然后经过R2N-mod模块输出。
进一步优选的:所述Reduction-1模块分为3个分支,其中:
(1)、经过一个5x5最大池化层处理;
(2)、经过一次3x3的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;
R2N-mod模块输出时将3个分支输出结合输出;
所述Reduction-2模块分为4个分支,其中:
(1)、经过一个5x5最大池化层处理;
(2)、经过一次1x1和一次3x3的卷积处理;
(3)、经过一次1x1和一次3x3的卷积处理;
(4)、经过一次1x1的卷积处理和两次3x3卷积处理;
所述Reduction-2模块输出时将4个分支输出结合输出。
进一步优选的:所述R2N-mod模块:在第一个1x1卷积后特征图记为F,将F按通道平均划分为s个子特征,这里s=4,xi表示子特征,i∈{1,2,3,4};xi具有相同的尺度大小,但通道数为F的通道数的的1/s;其中x1不做任务计算直接输出y1,x2经过CBAM模块输出为y2,x3加上y2经过CBAM模块输出为y3,x4加上y3经过CBAM模块输出为y4;如图6;在第一个1x1卷积后,将输入划分到s个子集,定义为xI,i∈{1,2,…,s},每一个特征都有相同的尺度大小,通道是输入特征的1/s,除了xi其他的子特征都有相应的CBAM卷积核,定义为KI,其输出为yI,子特征xi都和Ki+1相加,然后输入到Ki。为了在增加s时还减小参数,省略了xI的3x3卷积;输出公式为:
进一步优选的:所述通道选择时,利用以下公式:
分别计算每张特征图的全局平均池化及全局最大池化信息,然后通过全连接层后相加来得到通道注意力参数,其中两者共用相同的全连接网络;
其中,F是特征;Mc(F)为激活函数得到权重系数;σ为Sigmoid激活函数;AvgPool为平均池化;MLP为两层神经网络操作;MaxPool为最大池化;W0为第一层神经元权重信息;W1为第二层神经元权重信息;为经过平均池化的特征;/>为经过最大池化的特征;C为第二层神经元个数。
进一步优选的:所述文字方向识别时,还包括对输入图像的物体空间信息自动的定位,定位时,采用以下公式:
还包括采用常用的分类网络的损失函数,交叉熵损失函数:
其中,m表示样本数;n表示样本所属的不同方向类别个数;yij表示样本i所属类别j;p(xij)表示预测的样本i属于类别j的概率;Ms(F)为缩放后的新特征;f7×7为7×7的卷积层;为经过平均池化的特征信息;/>为经过最大池化的特征信息;
优化函数采用动量梯度下降法:
其中,db为权重偏置b的一阶导数;dω为权重ω的一阶导数;为dω移动平均数;为db的移动平均数;β为超参数;α为学习率。
一种基于动态分层嵌套残差网络的文字方向识别系统,包括:
获取模块,所述获取模块用于获取文字图片信息;
识别模块,所述识别模块用于通过神经网络模型Res2Net-I识别文字图片信息;
空间注意模块,所述空间注意模块用于对输入图像的物体空间信息自动的定位,减少背景对于任务的干扰,提高模型的识别精度及鲁棒性;
损失补偿模块,所述损失补偿模块用于通过损失函数进行数值补偿,提高模型的识别精度;
存储模块,所述存储模块用于对截取的图像按顺时针0°,90°,180°,270°四个方向随机旋转保存;
分类模块,所述分类模块用于对保存图像按文字的顺时针0°,90°,180°,270°四个方向进行分类。
一种计算机设备,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如上述任一项权利要求所述的基于动态分层嵌套残差网络的文字方向识别方法的步骤。
本发明实施例由于采用以上技术方案,其具有以下优点:
一、本发明以实际业务场景出发,通过深度学习的方式,训练收集的文字图像数据,得到文字方向,首先对所收集的图片随机截取5份,并将截取部分按顺时针0°,90°,180°,270°四个方向随机旋转,然后将其按文字方向进行分类,既能够提高正确率,又能够提高效率;
二、本发明在Res2Net模块中加入CBAM注意力,增加模型对文字区域的关注,提高文字识别争取率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程图;
图2为本发明Res2Net-I网络主体结构图;
图3为本发明Stem结构图;
图4为本发明I-Res2Net-A模块、I-Res2Net-B模块和I-Res2Net-C模块的结构图;
图5为本发明Reduction-1模块和Reduction-2模块的结构图;
图6为本发明R2N-mod模块的结构图;
图7为本发明的系统模块示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
下面结合附图对本发明的实施例进行详细说明。
如图1-7所示,本发明实施例提供了一种基于动态分层嵌套残差网络的文字方向识别方法,包括以下步骤:
训练基于卷积神经网络的神经网络模型Res2Net-I;
获取文字图像,输入至神经网络模型Res2Net-I中,进行文字方向识别;
神经网络模型Res2Net-I训练时,包括以下步骤:
获取文字图像,对每一张图像按不同大小随机截取5份;
对截取的图像按顺时针0°,90°,180°,270°四个方向随机旋转保存;
对保存图像按文字的顺时针0°,90°,180°,270°四个方向进行分类。
神经网络模型Res2Net-I包括一个Stem、3个I-Res2Net-A模块、1个Reduction-1模块、5个I-Res2Net-B模块、1个Reduction-2模块、1个I-Res2Net-C模块和Maxpooling层。
Stem分为4部分,其中:
第一部分由3x3和5x5卷积层串联组成;
第二部分为两路操作,一路为3x3的平均池化操作,一路为3x3卷积操作,将两路结果结合;
第三部分将网络分为四路,一路为未处理直接输出,一路为经过3x3和1x1串联卷积层输出,一路为经过1x1、5x1、1x5和5x5串联的卷积层输出,一路为R2N-mod模块,然后将四路输出结合;
第四部分同第二部分的两路操作相同。
本实施例中,具体的:如图4左,I-Res2Net-A模块分为4个分支,其中:
(1)、未经处理直接输出;
(2)、经过一次1x1的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;
(4)、经过一次1x1的卷积处理和两次3x3的卷积处理;
I-Res2Net-A模块输出时:
先将2、3、4分支输出进行结合然后经过一个1x1卷积处理,最后与1分支输出进行结合,然后经过R2N-mod模块输出;
如图4中,I-Res2Net-B模块分为4个分支,其中:
(1)、未经处理直接输出;
(2)、经过一次1x1的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;
(4)经过一次1x5和5x1的卷积处理;
I-Res2Net-B模块输出时:
先将2、3分支输出进行结合然后经过一个1x1卷积处理,最后与1、4分支输出进行结合然后经过R2N-mod模块输出;
如图4右,I-ResNet-C模块分为3个分支,其中:
(1)、未经处理直接输出;
(2)、经过一次1x1的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;
I-ResNet-C模块输出时:
先将2、3分支输出进行结合然后经过一个1x1卷积处理,最后与1分支输出进行结合然后经过R2N-mod模块输出。
本实施例中,具体的:如图5左,Reduction-1模块分为3个分支,其中:
(1)、经过一个5x5最大池化层处理;
(2)、经过一次3x3的卷积处理;
(3)、经过一次1x1的卷积处理和一次3x3卷积处理;R2N-mod模块输出时将3个分支输出结合输出;
如图5右,Reduction-2模块分为4个分支,其中:
(1)、经过一个5x5最大池化层处理;
(2)、经过一次1x1和一次3x3的卷积处理;
(3)、经过一次1x1和一次3x3的卷积处理;
(4)、经过一次1x1的卷积处理和两次3x3卷积处理;
Reduction-2模块输出时将4个分支输出结合输出。
R2N-mod模块:在第一个11卷积后,将输入划分到个子集,定义为xI,i∈{1,2,…,s},每一个特征都有相同的尺度大小,通道是输入特征的1/s,除了xi其他的子特征都有相应的CBAM卷积核,定义为KI,其输出为yI,子特征xi都和Ki+1相加,然后输入到Ki,为了在增加s时还减小参数,省略了xI的3x3卷积;
即在第一个1x1卷积后特征图记为F,将F按通道平均划分为s个子特征,这里s=4,xi表示子特征,i∈{1,2,3,4};xi具有相同的尺度大小,但通道数为F的通道数的的1/s;其中x1不做任务计算直接输出y1,x2经过CBAM模块输出为y2,x3加上y2经过CBAM模块输出为y3,x4加上y3经过CBAM模块输出为y4,如图6;
输出公式为:
每一个CBAM的操作都可以潜在的接受所有其左边的特征信息,每一个输出都能增大感受野,所以每一个R2N-mod模块都能获取不同数量和不同感受野大小的特征组合,增强CBAM能力;
CBAM:Convolutional Block Attention Module,表示卷积模块的注意力机制模块,是一种结合了空间(spatial)和通道(channel)的注意力机制模块。
通道信息一般代表着图像不同的特征信息,因此通过对通道进行选择可以使网络更能注意到图像中对任务有用的信息。为实现对通道的选择,利用以下公式:
分别计算每张特征图的全局平均池化及全局最大池化信息,然后通过全连接层后相加来得到通道注意力参数,其中两者共用相同的全连接网络。
输入是一个H×W×C的特征F,先分别进行一个空间的全局最大池化和平均池化得到两个1×1×C的通道描述;再将它们分别送入一个两层的神经网络MLP,第一层神经元个数为C/r,激活函数为Relu,第二层神经元个数为C;这个两层的神经网络是共享的;然后,再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc;最后,Mc×输入的特征F即可得到缩放后的新特征。
其中,F是H×W×C的特征;Mc(F)为激活函数得到权重系数σ为Sigmoid激活函数;AvgPool为平均池化;MLP为两层神经网络操作;MaxPool为最大池化;W0为第一层神经元权重信息;W1为第二层神经元权重信息;为经过平均池化的特征;/>为经过最大池化的特征;C为第二层神经元个数。
文字方向识别中主要是针对文字,而一张图片中可能文字所占比例不是很大,因此对于那些所要识别的物体仅仅占图像的一小部分的任务而言,一般比较困难,因此如果能够对输入图像的物体空间信息自动的定位,就能减少背景对于任务的干扰,从而提高模型的识别精度及鲁棒性,文字方向识别时,还包括对输入图像的物体空间信息自动的定位,定位时,采用以下公式:
与通道注意力相似,给定一个H×W×C的特征F,先分别进行一个通道维度的最大池化和平均池化得到两个H×W×1的通道描述,并将这两个描述按照通道拼接在一起。然后,经过一个7×7的卷积层,激活函数为Sigmoid,得到权重系数Ms。最后,Ms×输入的特征F相乘即可得到缩放后的新特征。
还包括采用常用的分类网络的损失函数,交叉熵损失函数:
其中,m表示样本数;n表示样本所属的不同方向类别个数;yij表示样本i所属类别j;p(xij)表示预测的样本i属于类别j的概率;Ms(F)为缩放后的新特征;f7×7为7×7的卷积层;为经过平均池化的特征信息;/>为经过最大池化的特征信息;
优化函数采用动量梯度下降法:
其中,db为权重偏置b的一阶导数;dω为权重ω的一阶导数;为dω移动平均数;为db的移动平均数;β为超参数;α为学习率。
其中,db为权重偏置b的一阶导数;dω为权重ω的一阶导数;为dω移动平均数;为db的移动平均数;β为超参数;α为学习率。
一种基于动态分层嵌套残差网络的文字方向识别系统,包括:
获取模块,获取模块用于获取文字图片信息;
识别模块,识别模块用于通过神经网络模型Res2Net-I识别文字图片信息;
空间注意模块,空间注意模块用于对输入图像的物体空间信息自动的定位,减少背景对于任务的干扰,提高模型的识别精度及鲁棒性;
损失补偿模块,损失补偿模块用于通过损失函数进行数值补偿,提高模型的识别精度;
存储模块,存储模块用于对截取的图像按顺时针0°,90°,180°,270°四个方向随机旋转保存;
分类模块,分类模块用于对保存图像按文字的顺时针0°,90°,180°,270°四个方向进行分类。
一种计算机设备,计算机设备包括处理器、与处理器耦接的存储器,存储器中存储有程序指令,程序指令被处理器执行时,使得处理器执行如上述任一项所述的基于动态分层嵌套残差网络的文字方向识别方法的步骤;
处理器被称为CPU(Central Processing Unit,中央处理单元)。处理器是一种集成电路芯片,具有信号的处理能力。
处理器还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明对获取图像截取5份进行识别文字方向识别,然后对5份结果综合得到文字方向结果;
本发明结合InceptionNet和Res2Net网络结构,构造新的网络模型;
本发明在Res2Net模块中加入CBAM注意力,增加模型对文字区域的关注,提高文字识别争取率。
本发明以实际业务场景出发,通过深度学习的方式,训练收集的文字图像数据,得到文字方向,首先对所收集的图片随机截取5份,并将截取部分按顺时针0°,90°,180°,270°四个方向随机旋转,然后将人工将其按文字方向进行分类,带入模型训练,得到方向识别模型,即神经网络模型Res2Net-I,神经网络模型Res2Net-I为借鉴inceptionNet和Res2Net模型结构思路,结合两模型结构提出新的神经网络模型Res2Net-I网络来做文字图像方向识别,本模型融合了两个网络模型的低运算量和高准确率特点;
对文字图片方向识别时,首先获取图像,对每一张图像按不同大小随机截取5份,将其带入模型,得到5个方向,对方向取众数为文字图像的文字方向。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种基于动态分层嵌套残差网络的文字方向识别方法,其特征在于,包括以下步骤:
训练基于卷积神经网络的神经网络模型Res2Net-I;
获取文字图像,输入至神经网络模型Res2Net-I中,进行文字方向识别;
所述神经网络模型Res2Net-I训练时,包括以下步骤:
获取文字图像,对每一张图像按不同大小随机截取5份;
对截取的图像按顺时针0°,90°,180°,270°四个方向随机旋转保存;
对保存图像按文字的顺时针0°,90°,180°,270°四个方向进行分类;
所述神经网络模型Res2Net-I包括顺次连接的1个Stem模块、3个I-Res2Net-A模块、1个Reduction-1模块、5个I-Res2Net-B模块、1个Reduction-2模块、1个I-Res2Net-C模块和1个Maxpooling层;
所述Stem模块分为4部分,其中:
第一部分由3x3和5x5卷积层串联组成;
第二部分为两路操作,一路为3x3的平均池化操作,一路为3x3卷积操作,将两路结果结合;
第三部分将网络分为四路,一路为未处理直接输出,一路为经过3x3和1x1串联卷积层输出,一路为经过1x1、5x1、1x5和5x5串联卷积层输出,一路为R2N-mod模块,并将四路输出结合;
第四部分同第二部分的两路操作相同;
所述I-Res2Net-A模块分为4个分支,其中:
第1分支未经处理直接输出;
第2分支经过一次1x1的卷积处理;
第3分支经过一次1x1的卷积处理和一次3x3的卷积处理;
第4分支经过一次1x1的卷积处理和两次3x3的卷积处理;
I-Res2Net-A模块输出时:
先将第2、3和4分支输出进行结合,再经过一个1x1卷积处理,然后与第1分支输出进行结合,最后经过R2N-mod模块输出;
所述I-Res2Net-B模块分为4个分支,其中:
第1分支未经处理直接输出;
第2分支经过一次1x1的卷积处理;
第3分支经过一次1x1的卷积处理和一次3x3的卷积处理;
第4分支经过一次1x5和5x1的卷积处理;
I-Res2Net-B模块输出时:
先将第2分支和第3分支输出进行结合,然后经过一个1x1卷积处理,再与第1分支和第4分支输出进行结合,最后经过R2N-mod模块输出;
所述I-Res2Net-C模块分为3个分支,其中:
第1分支未经处理直接输出;
第2分支经过一次1x1的卷积处理;
第3分支经过一次1x1的卷积处理和一次3x3的卷积处理;
I-Res2Net-C模块输出时:
先将第2和3分支输出进行结合然后经过一个1x1卷积处理,再与第1分支输出进行结合,最后经过R2N-mod模块输出;
所述Reduction-1模块分为3个分支,其中:
第1分支经过一个5x5最大池化层处理;
第2分支经过一次3x3的卷积处理;
第3分支经过一次1x1的卷积处理和一次3x3的卷积处理;将3个分支输出结合输出;
所述Reduction-2模块分为4个分支,其中:
第1分支经过一个5x5最大池化层处理;
第2分支经过一次1x1和一次3x3的卷积处理;
第3分支经过一次1x1和一次3x3的卷积处理;
第4分支经过一次1x1的卷积处理和两次3x3卷积处理;
所述Reduction-2模块输出时将4个分支输出结合输出;
所述R2N-mod模块:经过第一个1x1卷积后生成特征F,将F按通道平均划分为s个子特征,定义为xi,i∈{1,2,…,s},xi具有相同的尺度大小,xi的通道数为特征F的通道数的1/s;其中x1不做任何计算直接输出y1,x2经过CBAM模块输出为y2,x3加上y2经过CBAM模块输出为y3,x4加上y3经过CBAM模块输出为y4,以此类推,xi加上yi-1经过CBAM模块输出为yi;将y1至yi在通道方向进行合并,再依次经过1x1卷积和CBAM模块然后输出。
2.根据权利要求1所述的一种基于动态分层嵌套残差网络的文字方向识别方法,其特征在于:选择所述通道时,利用以下公式:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
分别计算每张特征图的全局平均池化及全局最大池化信息,再分别将计算结果通过全连接层后相加来得到通道注意力参数,其中两者共用相同的全连接网络;
其中,F是特征图;Mc(F)为经过σ激活函数得到的权重系数;σ为Sigmoid激活函数;AvgPool()为平均池化函数;MLP()为两层神经网络操作;MaxPool()为最大池化函数;C为第二层神经元个数。
3.根据权利要求2所述的一种基于动态分层嵌套残差网络的文字方向识别方法,其特征在于:所述文字方向识别时,还包括对输入图像的物体空间位置信息自动的定位,定位时,采用以下公式:
还包括采用常用的分类网络的损失函数,交叉熵损失函数:
其中,m表示样本数;n表示样本所属的不同方向的类别个数;yij表示样本i所属类别j;p(xij)表示预测的样本i属于类别j的概率;Ms(F)为缩放后的新特征;f7×7为7×7的卷积层;为经过平均池化的特征;/>为经过最大池化的特征;F7×7([:])代表将平均池化和最大池化特征拼接在一起进行7×7的卷积层处理;
所述交叉熵损失函数的优化函数采用动量梯度下降法:
其中,db为权重偏置b的一阶导数;dω为权重ω的一阶导数;为dω移动平均数;/>为db的移动平均数;β为超参数;α为学习率。
4.一种用于实现权利要求1-3任一项所述基于动态分层嵌套残差网络的文字方向识别方法的系统,其特征在于,包括:
获取模块,所述获取模块用于获取文字图片信息;
识别模块,所述识别模块用于通过神经网络模型Res2Net-I识别文字图片信息;
空间注意模块,所述空间注意模块用于对输入图像的物体空间位置信息自动的定位;
损失补偿模块,所述损失补偿模块用于通过损失函数进行数值补偿;
存储模块,所述存储模块用于对截取的图像按顺时针0°,90°,180°,270°四个方向随机旋转保存;
分类模块,所述分类模块用于对保存图像按文字的顺时针
0°,90°,180°,270°四个方向进行分类。
5.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-3中任一项所述基于动态分层嵌套残差网络的文字方向识别方法的步骤。
CN202211569791.0A 2022-12-08 2022-12-08 一种基于动态分层嵌套残差网络的文字方向识别方法 Active CN115661828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211569791.0A CN115661828B (zh) 2022-12-08 2022-12-08 一种基于动态分层嵌套残差网络的文字方向识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211569791.0A CN115661828B (zh) 2022-12-08 2022-12-08 一种基于动态分层嵌套残差网络的文字方向识别方法

Publications (2)

Publication Number Publication Date
CN115661828A CN115661828A (zh) 2023-01-31
CN115661828B true CN115661828B (zh) 2023-10-20

Family

ID=85020189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211569791.0A Active CN115661828B (zh) 2022-12-08 2022-12-08 一种基于动态分层嵌套残差网络的文字方向识别方法

Country Status (1)

Country Link
CN (1) CN115661828B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809314A (zh) * 2023-11-21 2024-04-02 中化现代农业有限公司 文字识别方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN110147788A (zh) * 2019-05-27 2019-08-20 东北大学 一种基于特征增强crnn的金属板带产品标签文字识别方法
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112508015A (zh) * 2020-12-15 2021-03-16 山东大学 一种铭牌识别方法、计算机设备、存储介质
CN112883964A (zh) * 2021-02-07 2021-06-01 河海大学 一种自然场景文字检测的方法
CN114202502A (zh) * 2021-08-30 2022-03-18 浙大宁波理工学院 一种基于卷积神经网络的螺纹旋向分类方法
JP2022174707A (ja) * 2021-05-11 2022-11-24 広西科学院 スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532855B (zh) * 2019-07-12 2022-03-18 西安电子科技大学 基于深度学习的自然场景证件图像文字识别方法
CN113486890A (zh) * 2021-06-16 2021-10-08 湖北工业大学 基于注意力特征融合和空洞残差特征增强的文本检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165697A (zh) * 2018-10-12 2019-01-08 福州大学 一种基于注意力机制卷积神经网络的自然场景文字检测方法
CN110147788A (zh) * 2019-05-27 2019-08-20 东北大学 一种基于特征增强crnn的金属板带产品标签文字识别方法
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
CN112508015A (zh) * 2020-12-15 2021-03-16 山东大学 一种铭牌识别方法、计算机设备、存储介质
CN112883964A (zh) * 2021-02-07 2021-06-01 河海大学 一种自然场景文字检测的方法
JP2022174707A (ja) * 2021-05-11 2022-11-24 広西科学院 スペース・シーケンス・フィーチャー学習に基づく歩行者の再識別システムおよび方法
CN114202502A (zh) * 2021-08-30 2022-03-18 浙大宁波理工学院 一种基于卷积神经网络的螺纹旋向分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向图像分类的残差网络进展研究;赵丽萍;袁霄;祝承;赵晓琦;杨仕虎;梁平;鲁小丫;谭颖;;计算机工程与应用(第20期);全文 *

Also Published As

Publication number Publication date
CN115661828A (zh) 2023-01-31

Similar Documents

Publication Publication Date Title
CN110569738B (zh) 基于密集连接网络的自然场景文本检测方法、设备和介质
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN111753682B (zh) 一种基于目标检测算法的吊装区域动态监控方法
CN112017192B (zh) 基于改进U-Net网络的腺体细胞图像分割方法及系统
WO2023116632A1 (zh) 基于时空记忆信息的视频实例分割方法和分割装置
CN111899203B (zh) 基于标注图在无监督训练下的真实图像生成方法及存储介质
CN115953666B (zh) 一种基于改进Mask-RCNN的变电站现场进度识别方法
CN111639697B (zh) 基于非重复采样与原型网络的高光谱图像分类方法
CN115661828B (zh) 一种基于动态分层嵌套残差网络的文字方向识别方法
Liu et al. A shadow detection algorithm based on multiscale spatial attention mechanism for aerial remote sensing images
CN115187530A (zh) 超声自动乳腺全容积图像的识别方法、装置、终端及介质
Fan et al. A novel sonar target detection and classification algorithm
CN114897764A (zh) 基于标准化通道注意力的肺结节假阳性排除方法及装置
CN116168240A (zh) 基于注意力增强的任意方向密集舰船目标检测方法
CN111798490A (zh) 一种视频sar车辆目标检测方法
Mu et al. Salient object detection in low contrast images via global convolution and boundary refinement
Gong et al. FRCNN-AA-CIF: An automatic detection model of colon polyps based on attention awareness and context information fusion
CN117474918A (zh) 异常检测方法和装置、电子设备以及存储介质
Cui et al. Double-branch local context feature extraction network for hyperspectral image classification
CN113657196B (zh) Sar图像目标检测方法、装置、电子设备和存储介质
CN113269734B (zh) 一种基于元学习特征融合策略的肿瘤图像检测方法及装置
CN114821356A (zh) 一种精确定位的光学遥感目标检测方法
CN114283336A (zh) 一种基于混合注意力的无锚框遥感图像小目标检测方法
Fan et al. Attention-modulated triplet network for face sketch recognition
Lou et al. Multi-Scale Vision Transformer for Defect Object Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant