CN113313127A - 文本图像识别方法、装置、计算机设备和存储介质 - Google Patents
文本图像识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113313127A CN113313127A CN202110537652.9A CN202110537652A CN113313127A CN 113313127 A CN113313127 A CN 113313127A CN 202110537652 A CN202110537652 A CN 202110537652A CN 113313127 A CN113313127 A CN 113313127A
- Authority
- CN
- China
- Prior art keywords
- context
- image
- ith
- module
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文本图像识别方法、装置、计算机设备和存储介质,所述方法包括:获取原始文本图像并进行预处理,得到处理后图像;利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分和通道级尺度注意力部分,对图像特征进行处理,得到上下文调制特征序列;对上下文调制序列进行解码,预测得到对应的符号序列。本发明利用上下文感知模块对不同尺度的文本进行上下文调制,同时利用残差模块和上下文感知模块交错连接,实现不同语义层次的上下文信息融合,为后续解码提供更多有效信息,提高了文本识别的准确率。
Description
技术领域
本发明属于文本识别技术领域,特别是涉及一种文本图像识别方法、装置、计算机设备和存储介质。
背景技术
场景文本识别技术在许多领域,例如无人驾驶、机器人导航、盲人引导技术等,都有着广泛的应用并发挥着重要作用。然而,由于实际应用中存在的问题,如文本样式、成像条件、环境背景等存在复杂差异,现有场景文本识别方法在实际情景下并不能实现准确的识别。
当前主流场景文本识别方法可以分为三类,基于字符分割的识别、基于单词分类的识别以及基于序列模型的识别方法。基于字符分割的识别方法首先通过滑窗或图像切片等方式检测、分割得到单个字符,再进一步对字符进行分类识别。这种方法存在如下问题:首先,字符的分割仍然是当前的一个难点问题;其次,这种方法忽略了字符之间的上下文信息。为避免字符分割问题,基于单词分类的识别方法直接对整个单词进行分类识别。但是该方法存在一定局限性:首先,该类方法只能识别存在于词典中的单词;其次,同样忽略了字符间潜在的上下文信息。第三类基于序列模型的识别方法采用编解码结构,先通过卷积神经网络和循环神经网络对文本图像进行特征编码以及序列编码,最后通过连接时序分类方法(ConnectionistTemporalClassification,CTC)或注意力机制将序列解码为文本。不同于前两类方法,尽管已有的这类方法考虑了字符间上下文信息,但是依然存在如下缺点:第一,没有考虑到从局部到全局的不同尺度上下文信息;第二,无法灵活地对上下文尺度进行选择和调整。
发明内容
为了解决上述现有技术的不足,本发明提供了一种文本图像识别方法、装置、计算机设备和存储介质,利用上下文感知网络中的上下文感知模块对不同尺度的文本进行上下文调制,同时,利用残差网络中的残差模块和上下文感知模块相互交错连接,实现不同语义层次的上下文信息融合,为后续序列解码提供了更多有效信息,提高了文本识别的准确率。
本发明的第一个目的在于提供一种文本图像识别方法。
本发明的第二个目的在于提供一种文本图像识别装置。
本发明的第三个目的在于提供一种计算机设备。
本发明的第四个目的在于提供一种存储介质。
本发明的第一个目的可以通过采取如下技术方案达到:
一种文本图像识别方法,所述方法包括:
获取原始文本图像;
对原始文本图像进行预处理,得到处理后图像;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
对所述上下文调制序列进行解码,预测得到对应的符号序列。
进一步的,所述残差卷积模块为n个,所述上下文感知模块为n个;其中,n为大于1的整数,且每个残差卷积模块与每个上下文感知模块交替连接;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征,具体包括:
当i为1时,通过第i个残差卷积模块对所述处理后文本图像进行特征提取,得到第i语义层次的图像特征;其中,i为大于或等于1,且小于或等于n的正整数;
当i大于1且小于或等于n时,通过第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取,得到第i语义层次的图像特征;
所述利用所述特征编码网络中上下文感知模块中的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息,具体包括:
通过第i个上下文感知模块中的类递归扩张卷积部分对第i语义层次的图像特征进行特征运算,得到第i语义层次的上下文调制信息;
所述利用上下文感知模块中的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制序列,具体包括:
通过第i个上下文感知模块中的通道级尺度注意力部分对第i语义层次的上下文调制信息的相关度分配注意力,得到第i语义层次的上下文调制序列;
所述对所述上下文调制序列进行解码之前,所述方法还包括:
当所述第i语义层次的上下文调制序列中的i小于n时,则将i递增之后进行下一个阶段的特征提取以及特征运算,直至获得第n语义层次的上下文调制序列。
进一步的,所述第i个上下文感知模块中包括类递归扩张卷积部分,所述递归扩张卷积单元包括至少两个扩张卷积单元,递归扩张卷积单元的多个层之间共享卷积核参数,不同卷积层的扩张率不同。
进一步的,所述不同卷积层的扩张率,根据输入图像特征大小和层索引的变化而变化。
进一步的,所述通过第i个上下文感知模块中的通道级尺度注意力部分对第i语义层次的上下文调制信息的相关度分配注意力,得到第i语义层次的上下文调制序列;具体包括:
根据第i语义层次的上下文调制信息,通过第i个上下文感知模块中的通道级尺度注意力部分计算第i语义层次的上下文调制信息相关度;
根据第i语义层次的上下文调制信息相关度,计算第i语义层次的不同通道的权重;
根据第i语义层次的上下文调制信息和第i语义层次的不同通道的权重,进行加权求和,得到第i语义层次的上下文调制序列。
进一步的,所述对原始文本图像进行预处理,得到处理后图像,具体包括:
对输入图像进行灰度变换,得到灰度图像;
对灰度图像进行归一化处理,并按比例缩放图像宽度/高度。
进一步的,所述对上下文调制序列进行解码,预测得到对应的符号序列,具体包括:
将上下文调制序列转变为上下文向量;
将上下文向量输入解码网络中的2D注意力解码器,预测得到对应的符号序列。
本发明的第二个目的可以通过采取如下技术方案达到:
一种文本图像识别装置,所述装置包括:
获取单元,用于获取原始文本图像;
预处理单元,用于对原始文本图像进行预处理,得到处理后图像;
特征提取单元,用于利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
特征运算单元,用于利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
注意力分配单元,用于利用所述上下文感知模块中的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
解码单元,用于对所述上下文调制序列进行解码,预测得到对应的符号序列。
本发明的第三个目的可以通过采取如下技术方案达到:
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的文本图像识别方法。
本发明的第四个目的可以通过采取如下技术方案达到:
一种存储介质,存储有程序,所述程序被处理器执行时,实现上述的文本图像识别方法。
本发明相对于现有技术具有如下的有益效果:
1、本发明提出的上下文感知模块能够有效捕获二维的多尺度上下文信息,并且根据不同上下文尺度的相关性对上下文进行调制。这是神经上下文调制机制在文本图像识别任务中的首次使用;
2、本发明构建的特征编码网络,是由残差模块和上下文感知模块交错堆叠的编码器。上下文感知模块能够有效捕获二维的多尺度上下文信息,并且根据不同上下文尺度的相关性对上下文进行调制,编码器通过将语义-上下文交替编码调制,使得解码器接受序列特征包含更多语义层次的上下文信息,从而提高文本识别的准确率;
3、本发明提出的包括特征编码网络和解码网络的上下文调制网络,在减少内存消耗和计算量的情况下,能够在现有基准数据集上实现最先进的识别性能。尤其对于不规则数据集的识别,本发明的文本识别方法明显优于现有方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例1的文本图像识别方法的应用环境图。
图2为本发明实施例1的文本图像识别方法的流程图。
图3为本发明实施例1的特征编码网络的结构图。
图4为本发明实施例1的上下文感知模块内部的结构图。
图5为本发明实施例1的各个解码时刻2D注意力权重的示意图。
图6为本发明实施例2的文本图像识别装置的结构框图。
图7为本发明实施例3的计算机设备的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本图像识别方法,可以应用于如图1所示的应用环境中。将原始文本图像输入计算机设备101,计算机设备101首先对原始文本图像进行图像预处理。然后计算机设备101通过特征编码网络中的残差卷积网络对处理后文本图像进行特征提取,得到图像特征;再通过上下文感知网络对图像特征进行上下文调制,得到特征序列。最后计算机设备101对特征序列进行解码得到目标文本。其中,计算机设备101可以是终端,也可以是服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本图像识别方法,以该方法应用于图1中的计算机设备为例进行说明,包括以下步骤:
S201、获取原始文本图像。
在一个实施例中,原始文本图像是照相机拍摄的图像,或者原始文本图像是从摄像机拍摄的一段视频中抽取的一帧图像,或者原始文本图像是RGB格式的彩色图像,图像中的每个像素用R、G、B三个分量来表示,也可以是通过其他方式获得的文本图像。
S202、对原始文本图像进行预处理,得到处理后图像。
(1)对输入图像进行灰度变换,得到灰度图像;
(2)对灰度图像进行归一化处理,并按比例缩放图像宽度/高度。
在一个实施例中,对输入文本图像做灰度变化;对灰度图像大小归一化处理,按比例缩放为高度H=32,宽度与高度按成比例,但至少宽度W=100的图像。
S203、利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征。
S2031、构建特征编码网络。
如图3所示,构建特征编码网络,特征编码网络包括残差卷积网络和上下文感知网络。残差卷积网络包括多个残差卷积模块,残差卷积模块是基于成熟ResNet-34网络不同语义层构建的。上下文感知网络包括多个上下文感知模块,残差卷积模块和上下文感知模块的个数相同,且每个残差模块和每个上下文感知模块(SACM)相互交替接连。
首先通过残差模块提取不同语义层次图像特征x,然后再将其输入至上下文感知模块,学习获得上下文调制特征图O。两个模块多次迭代,最终输出尺度自适应上下文调制序列V。
S2032、利用残差模块对所述处理后图像进行特征提取,得到图像特征。
基于ResNet-34预定义的语义层构建残差卷积块,对输入文本图像灰度通道进行语义编码,得到语义特征图x。其中使用卷积核大小3×3,步长为1;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征,具体包括:
当i为1时,通过第i个残差卷积模块对所述处理后文本图像进行特征提取,得到第i语义层次的图像特征;其中,i为大于或等于1,且小于或等于n的正整数;
当i大于1且小于或等于n时,通过第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取,得到第i语义层次的图像特征xi。
S204、利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息。
如图4所示,构建上下文感知模块(SACM),上下文感知模块包括类递归扩张卷积(RDC)部分和通道级尺度注意力(CSA)部分;上下文感知模块在于学习不同尺度的上下文调制信息,再根据通道上的不同尺度上下文调制信息的相关度,计算并分配权重,实现自适应上下文信息调制过程。
首先将语义特征图x作为类递归扩张卷积部分的输入,利用扩张卷积,在不降低特征图分辨率前提下,学习从局部到全局尺度的无孔上下文信息。
选择上下文感知模块总层数N=4,对于输入大小为H×W,层索引为i=1,2,…,N的特征图,为覆盖尽可能广的上下文区域,本实施例设计了一种渐进式扩张因子对。在计算扩张因子对前,首先考虑中心附近和边缘附近特征点的感受野大小:
其中,MaxFieldi,EdgeFieldi分别代表第i层输入特征图的最大中心感受野和最大边缘感受野。
基于理想感受野公式(1)、(2),可计算所有层的扩张因子,具体计算公式如下:
为了使模块能够利用尽可能少的层数而达到最大感受野,本实施例进一步设计公式(3)(4)作为约束项,以优化扩张因子对的求解。
将由具有不同扩张因子组成的扩张卷积单元以类递归结构连接,其中类递归扩张卷积部分内部多个层之间共享卷积核参数,但是不同卷积层的扩张率会根据输入特征图大小和层索引的变化而变化。对于时间步长为t的输出ot,具体计算公式如下:
其中,x表示特征图的矢量化前馈和输入补丁;k(·)代表卷积核运算;d是扩张率,其下标表示序列中的时间步长t;p、s和i表示像素的位置。
S205、利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列。
进一步的,步骤S205具体包括:
S2051、利用通道级尺度注意力部分对上下文调制信息进行计算,得到上下文调制特征图。
对类递归扩张卷积部分输出的Oi计算对应相关度,并分配权重,实现多尺度自适应上下文信息调制过程。具体包括如下步骤:
其中,x代表初始模块输入特征图/图像,oi是类递归扩张卷积部分输出的第i张特征图;
(2)利用平均池化层沿通道方向在空间上聚合图像特征,以获得维度为C特征矢量。具体操作如下:
其中,Fgp(·)表示平均池化操作,将信息压缩成一个标量值。所得的向量g∈R^C是中间特征图,其维数与通道数相同,每个维表示一个多尺度上下文信息。
(4)利用softmax函数,基于通道对N个不同尺度进行权重计算,则通道Ci上的尺度注意力计算公式如下:
其中,bn,c∈R1是第n个输入特征图的第c个通道的归一化关注权重;sn,c∈R1是第n个输入的第c个通道的元素。
(5)将步骤S204中类递归扩张卷积部分输出的oi和步骤(4)中计算的权重进行加权求和,获得与输入特征图具有相同维度的上下文调制特征图O∈R^(W×H×C),具体操作如下:
S2052、利用上下文感知模块对图像特征进行处理,得到上下文调制特征序列。
本实施例中,该步骤具体包括:
当i为1时,通过第i个残差卷积模块对所述处理后文本图像进行特征提取,得到第i语义层次的图像特征xi;
当i大于1且小于n+1时,通过第i个残差卷积模块对第i-1个上下文感知模块的输出结果O进行特征提取,得到第i语义层次的图像特征xi;
当i小于n时,通过第i个上下文感知模块对第i语义层次的图像特征xi进行处理,得到第i语义层次的上下文调制特征图oi;
当i等于n时,通过第n个上下文感知模块对第n语义层次的图像特征xn进行处理,得到第n语义层次的上下文调制特征序列v。
本实施例中,将残差卷积模块和上下文感知模块交错堆叠进行,构建语义-上下文交替编码过程。除高层语义信息外,在此过程中引入图像底层语义信息,实现不同语义层次上的上下文调制效果。CMN编码网络结构如表1所示。在成熟ResNet-34不同语义层的残差块后插入上下文感知模块,其中上下文感知模块通道数与残差块输出通道数保持一致。对于第一个语义层的上下文感知模块,使用卷积核大小为3×3,通道数量为64,扩张因子对计算得到d=[[1,1],[1,3],[2,8],[4,14],[7,23]]。而对于第二至第四个语义层的上下文感知模块,使用卷积核大小不变,通道数量在64基础上以2倍倍数不断增加。第二个语义层相应扩张因子对采用d=[[1,1],[1,3],[2,8],[3,12]],第三、四个语义层相应扩张因子对采用d=[[1,1],[1,3],[1,8],[1,12]]。最后输出特征图大小为4×25。
表1输出特征图大小
S206、对所述上下文调制特征序列进行解码,预测得到对应的符号序列。
构建解码网络,利用2D注意力解码器对输入上下文调制序列V进行解码,预测得到长度为T,以截止符EOS结尾的对应符号序列{y1,y2,…,yT,EOS},具体实施步骤如下:
(1)解码器基于编码器输出V∈RH×W×D,隐藏状态ht-1∈R1×1×d,和上一时刻预测结果yt-1进行当前时刻预测。
首先计算未归一化的空间相关性得分St和归一化的关注得分αt∈RH×W,计算公式如下:
St=wT(tanh(WV+tile(Uht-1))) (13)
其中,wT,W,U是模型参数矩阵,操作tile(·)将输入的1×1×d向量复制H×W倍,因此当输入为1×1×d时,输出为H×W×d,St,(i,j)∈Rd是St∈RH×W×d中位置(i,j)的局部得分向量。
(2)将V的行和列线性组合为上下文向量ct∈R1×1×d,具体操作如下:
其中,αt,i,j∈R1是αt的位置(i,j)上的元素,vi,j∈Rd是V中位置(i,j)上的向量。
(3)将上下文向量ct用作解码器循环单元的输入,该循环单元随后预测输出向量xt和新的状态向量ht,具体操作如下:
(xt,ht)=GRU(ht-1,[ct,f(yt-1)]) (16)
其中,GRU(·)表示具有空间注意力机制的门控循环单元,[ct,f(yt-1)]表示ct的串联和前一时间步长预测yt-1的一个热嵌入向量。
(4)预测当前时间步长的符号yt,具体操作如下:
yt=softmax(Woxt+bo) (17)
其中,Wo,bo是线性变换,将特征以对应于10位数字,26个字母和EOS截止符的方式嵌入到37个类输出空间中。
本领域技术人员可以理解,实现上述实施例的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,相应的程序可以存储于计算机可读存储介质中。
应当注意,尽管在附图中以特定顺序描述了上述实施例的方法操作,但是这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
实施例2:
如图6所示,本实施例提供了一种文本图像识别装置,该装置包括获取单元601、预处理单元602、特征提取单元603、特征运算单元604、注意力分配单元605和解码单元606,各个单元的具体功能如下:
获取单元601,用于获取原始文本图像;
预处理单元602,用于对原始文本图像进行预处理,得到处理后图像;
特征提取单元603,用于利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
特征运算单元604,用于利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
注意力分配单元605,用于利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
解码单元606,用于对所述上下文调制序列进行解码,预测得到对应的符号序列。
本实施例中各个单元的具体实现可以参见上述实施例1,在此不再一一赘述;需要说明的是,本实施例提供的装置仅以上述各功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能单元完成,即将内部结构划分成不同的功能单元,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种计算机设备,该计算机设备可以为计算机,如图7所示,其通过系统总线701连接的处理器702、存储器、输入装置703、显示器704和网络接口705,该处理器用于提供计算和控制能力,该存储器包括非易失性存储介质706和内存储器707,该非易失性存储介质706存储有操作系统、计算机程序和数据库,该内存储器707为非易失性存储介质中的操作系统和计算机程序的运行提供环境,处理器702执行存储器存储的计算机程序时,实现上述实施例1的文本图像识别方法,如下:
获取原始文本图像;
对原始文本图像进行预处理,得到处理后图像;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
对所述上下文调制序列进行解码,预测得到对应的符号序列。
实施例4:
本实施例提供了一种存储介质,该存储介质为计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时,实现上述实施例1的文本图像识别方法,如下:
获取原始文本图像;
对原始文本图像进行预处理,得到处理后图像;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
对所述上下文调制序列进行解码,预测得到对应的符号序列。
本实施例中所述的存储介质可以是磁盘、光盘、计算机存储器、随机存取存储器(RAM,Random Access Memory)、U盘、移动硬盘等介质。
综上所述,本发明构建的特征编码网络包括上下文感知网络和残差卷积网络,上下文感知网络包括上下文感知模块,在上下文感知模块中,首先使用类递归扩张卷积部分,获取多尺度的文本上下文调制信息,再利用通道级尺度注意力部分,根据通道上不同尺度上下文信息的相关度分配注意力,获取上下文调制特征序列;同时,残差卷积网络包括残差卷积模块,由于差卷积模块和上下文感知模块相互交错连接,实现不同语义层次的上下文信息融合,为后续序列解码提供更多有效信息,提高了文本识别的准确率。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (10)
1.一种文本图像识别方法,其特征在于,所述方法包括:
获取原始文本图像;
对原始文本图像进行预处理,得到处理后图像;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
对所述上下文调制序列进行解码,预测得到对应的符号序列。
2.根据权利要求1所述的文本图像识别方法,其特征在于,所述残差卷积模块为n个,所述上下文感知模块为n个;其中,n为大于1的整数,且每个残差卷积模块与每个上下文感知模块交替连接;
利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征,具体包括:
当i为1时,通过第i个残差卷积模块对所述处理后文本图像进行特征提取,得到第i语义层次的图像特征;其中,i为大于或等于1,且小于或等于n的正整数;
当i大于1且小于或等于n时,通过第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取,得到第i语义层次的图像特征;
所述利用所述特征编码网络中上下文感知模块中的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息,具体包括:
通过第i个上下文感知模块中的类递归扩张卷积部分对第i语义层次的图像特征进行特征运算,得到第i语义层次的上下文调制信息;
所述利用上下文感知模块中的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制序列,具体包括:
通过第i个上下文感知模块中的通道级尺度注意力部分对第i语义层次的上下文调制信息的相关度分配注意力,得到第i语义层次的上下文调制序列;
所述对所述上下文调制序列进行解码之前,所述方法还包括:
当所述第i语义层次的上下文调制序列中的i小于n时,则将i递增之后进行下一个阶段的特征提取以及特征运算,直至获得第n语义层次的上下文调制序列。
3.根据权利要求2所述的文本图像识别方法,其特征在于,所述第i个上下文感知模块中包括类递归扩张卷积部分,所述递归扩张卷积单元包括至少两个扩张卷积单元,递归扩张卷积单元的多个层之间共享卷积核参数,不同卷积层的扩张率不同。
4.根据权利要求3所述的文本图像识别方法,其特征在于,所述不同卷积层的扩张率,根据输入图像特征大小和层索引的变化而变化。
5.根据权利要求2所述的文本图像识别方法,其特征在于,所述通过第i个上下文感知模块中的通道级尺度注意力部分对第i语义层次的上下文调制信息的相关度分配注意力,得到第i语义层次的上下文调制序列;具体包括:
根据第i语义层次的上下文调制信息,通过第i个上下文感知模块中的通道级尺度注意力部分计算第i语义层次的上下文调制信息相关度;
根据第i语义层次的上下文调制信息相关度,计算第i语义层次的不同通道的权重;
根据第i语义层次的上下文调制信息和第i语义层次的不同通道的权重,进行加权求和,得到第i语义层次的上下文调制序列。
6.根据权利要求1所述的文本图像识别方法,其特征在于,所述对原始文本图像进行预处理,得到处理后图像,具体包括:
对输入图像进行灰度变换,得到灰度图像;
对灰度图像进行归一化处理,并按比例缩放图像宽度/高度。
7.根据权利要求1所述的文本图像识别方法,其特征在于,所述对上下文调制序列进行解码,预测得到对应的符号序列,具体包括:
将上下文调制序列转变为上下文向量;
将上下文向量输入解码网络中的2D注意力解码器,预测得到对应的符号序列。
8.一种文本图像识别装置,其特征在于,所述装置包括:
获取单元,用于获取原始文本图像;
预处理单元,用于对原始文本图像进行预处理,得到处理后图像;
特征提取单元,用于利用特征编码网络中的残差卷积模块对所述处理后图像进行特征提取,得到图像特征;
特征运算单元,用于利用所述特征编码网络中上下文感知模块的类递归扩张卷积部分对图像特征进行特征运算,得到上下文调制信息;
注意力分配单元,用于利用所述上下文感知模块的通道级尺度注意力部分对上下文调制信息的相关度分配注意力,得到上下文调制特征序列;
解码单元,用于对所述上下文调制序列进行解码,预测得到对应的符号序列。
9.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-7任一项所述的文本图像识别方法。
10.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的文本图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110537652.9A CN113313127B (zh) | 2021-05-18 | 2021-05-18 | 文本图像识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110537652.9A CN113313127B (zh) | 2021-05-18 | 2021-05-18 | 文本图像识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113313127A true CN113313127A (zh) | 2021-08-27 |
CN113313127B CN113313127B (zh) | 2023-02-14 |
Family
ID=77373555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110537652.9A Active CN113313127B (zh) | 2021-05-18 | 2021-05-18 | 文本图像识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113313127B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037826A (zh) * | 2021-11-16 | 2022-02-11 | 平安普惠企业管理有限公司 | 基于多尺度增强特征的文本识别方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844752A (zh) * | 2017-10-20 | 2018-03-27 | 常州大学 | 一种基于块稀疏表示的行人重识别方法 |
US20200026951A1 (en) * | 2018-07-19 | 2020-01-23 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
CN111797834A (zh) * | 2020-05-28 | 2020-10-20 | 华南理工大学 | 文本识别方法、装置、计算机设备和存储介质 |
CN112287978A (zh) * | 2020-10-07 | 2021-01-29 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN112508931A (zh) * | 2020-12-18 | 2021-03-16 | 闽江学院 | 基于U-Net和ResNet的白细胞分割方法 |
US20210232847A1 (en) * | 2019-09-27 | 2021-07-29 | Shenzhen Sensetime Technology Co., Ltd. | Method and apparatus for recognizing text sequence, and storage medium |
-
2021
- 2021-05-18 CN CN202110537652.9A patent/CN113313127B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844752A (zh) * | 2017-10-20 | 2018-03-27 | 常州大学 | 一种基于块稀疏表示的行人重识别方法 |
US20200026951A1 (en) * | 2018-07-19 | 2020-01-23 | Tata Consultancy Services Limited | Systems and methods for end-to-end handwritten text recognition using neural networks |
US20210232847A1 (en) * | 2019-09-27 | 2021-07-29 | Shenzhen Sensetime Technology Co., Ltd. | Method and apparatus for recognizing text sequence, and storage medium |
CN111797834A (zh) * | 2020-05-28 | 2020-10-20 | 华南理工大学 | 文本识别方法、装置、计算机设备和存储介质 |
CN112287978A (zh) * | 2020-10-07 | 2021-01-29 | 武汉大学 | 一种基于自注意力上下文网络的高光谱遥感图像分类方法 |
CN112508931A (zh) * | 2020-12-18 | 2021-03-16 | 闽江学院 | 基于U-Net和ResNet的白细胞分割方法 |
Non-Patent Citations (1)
Title |
---|
程晓悦等: "基于密集层和注意力机制的快速语义分割", 《计算机工程》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114037826A (zh) * | 2021-11-16 | 2022-02-11 | 平安普惠企业管理有限公司 | 基于多尺度增强特征的文本识别方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113313127B (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738090B (zh) | 使用神经网络进行端到端手写文本识别的系统和方法 | |
US11354906B2 (en) | Temporally distributed neural networks for video semantic segmentation | |
CN110378383B (zh) | 一种基于Keras框架和深度神经网络的图片分类方法 | |
CN110796111B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN110084281A (zh) | 图像生成方法、神经网络的压缩方法及相关装置、设备 | |
CN112699937B (zh) | 基于特征引导网络的图像分类与分割的装置、方法、设备及介质 | |
US20210216874A1 (en) | Radioactive data generation | |
CN114549913B (zh) | 一种语义分割方法、装置、计算机设备和存储介质 | |
CN113111842A (zh) | 一种动作识别方法、装置、设备及计算机可读存储介质 | |
CN111797834B (zh) | 文本识别方法、装置、计算机设备和存储介质 | |
CN114266897A (zh) | 痘痘类别的预测方法、装置、电子设备及存储介质 | |
WO2022179588A1 (zh) | 一种数据编码方法以及相关设备 | |
CN111428727A (zh) | 基于序列变换纠正及注意力机制的自然场景文本识别方法 | |
CN117576783A (zh) | 基于手部关键点与双层双向lstm网络的动态手势识别方法 | |
CN114638408A (zh) | 一种基于时空信息的行人轨迹预测方法 | |
CN113313127B (zh) | 文本图像识别方法、装置、计算机设备和存储介质 | |
CN110659641B (zh) | 一种文字识别的方法、装置及电子设备 | |
CN113762261A (zh) | 一种对图像的字符识别方法、装置、设备及介质 | |
CN116095183A (zh) | 一种数据压缩方法以及相关设备 | |
CN115187660A (zh) | 一种基于知识蒸馏的多人人体姿态估计方法及系统 | |
CN112001479B (zh) | 基于深度学习模型的处理方法、系统及电子设备 | |
CN114913339A (zh) | 特征图提取模型的训练方法和装置 | |
CN113780140A (zh) | 基于深度学习的手势图像分割与识别方法以及装置 | |
CN113344110A (zh) | 一种基于超分辨率重建的模糊图像分类方法 | |
CN114677611A (zh) | 数据识别方法、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |