CN113591546A - 语义增强型场景文本识别方法及装置 - Google Patents
语义增强型场景文本识别方法及装置 Download PDFInfo
- Publication number
- CN113591546A CN113591546A CN202110653956.1A CN202110653956A CN113591546A CN 113591546 A CN113591546 A CN 113591546A CN 202110653956 A CN202110653956 A CN 202110653956A CN 113591546 A CN113591546 A CN 113591546A
- Authority
- CN
- China
- Prior art keywords
- scene text
- feature
- vector
- enhanced
- text recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 239000013598 vector Substances 0.000 claims abstract description 297
- 230000000007 visual effect Effects 0.000 claims abstract description 117
- 238000013528 artificial neural network Methods 0.000 claims abstract description 47
- 230000000306 recurrent effect Effects 0.000 claims abstract description 22
- 239000010410 layer Substances 0.000 claims description 139
- 238000000605 extraction Methods 0.000 claims description 46
- 230000008569 process Effects 0.000 claims description 29
- 125000004122 cyclic group Chemical group 0.000 claims description 28
- 238000010606 normalization Methods 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 19
- 230000009466 transformation Effects 0.000 claims description 17
- 230000001537 neural effect Effects 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 14
- 238000012937 correction Methods 0.000 claims description 10
- 230000002457 bidirectional effect Effects 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 239000002356 single layer Substances 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 abstract description 16
- 238000013461 design Methods 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 10
- 230000001788 irregular Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000000654 additive Substances 0.000 description 3
- 230000000996 additive effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007557 optical granulometry Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,获取场景文本图像全局的视觉信息和语义信息,解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,使得场景文本识别结果准确率较高。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语义增强型场景文本识别方法及装置。
背景技术
与高质量文档图像的传统光学字符识别(OCR)相比,自然场景文本识别能在更宽泛的领域中应用,例如照片分析、车牌识别,图片广告过滤,场景理解,商品识别,街景定位,票据识别等。由于场景文本的文字形式及背景较复杂,从而导致识别难度较高,主要难点包括:图片背景极为丰富,经常面临低亮度、低对比度、光照不均、透视变形和残缺遮挡等问题;文本的布局可能存在扭曲、褶皱、换向等问题;其中的文字也可能字体多样、字号字重颜色不一的问题。
传统的场景文本识别主要利用卷积神经网络提取的视觉信息或循环神经网络提取的上下文信息进行文本识别,然而该方法中的编码器提取的是单一化特征,会造成信息损失。对于文本形态多样、背景复杂的字符图像数据,常规算法解码器所采用的加性注意力机制或点乘注意力机制无法有效将编码特征与文字视觉信息进行有效对齐,限制了准确率的提升,而为了提升准确率而采用的多层解码器则会极大增加模型参数量以及计算复杂度。
发明内容
本发明提供一种语义增强型场景文本识别方法及装置,用以解决现有技术中场景文本识别精度较低且复杂度较高的缺陷。
本发明提供一种语义增强型场景文本识别方法,包括:
确定待识别的场景文本图像;
将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;
其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
根据本发明提供的一种语义增强型场景文本识别方法,所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量,所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。
根据本发明提供的一种语义增强型场景文本识别方法,所述将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果,包括:
将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达;
将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器,得到所述解码器输出的所述场景文本识别结果。
根据本发明提供的一种语义增强型场景文本识别方法,所述将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达,包括:
将所述场景文本图像输入至所述编码器的视觉特征提取层,得到所述视觉特征提取层输出的所述场景文本图的视觉特征图;
将所述视觉特征图输入至所述编码器的上下文提取层,得到所述上下文提取层输出的所述视觉特征图对应的上下文特征序列;
将所述上下文特征序列和所述视觉特征图输入至所述编码器的叠加层,由所述叠加层对所述上下文特征序列和所述视觉特征图进行相加处理,得到所述叠加层输出的所述增强型特征表达;
其中,所述上下文提取层为长-短记忆单元构成的双向单层循环神经网络,所述上下文特征序列是基于如下过程确定的:对所述长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率进行特征丢弃,将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接,得到所述上下文特征序列。
根据本发明提供的一种语义增强型场景文本识别方法,所述对所述上下文特征序列和所述视觉特征图进行相加处理,得到所述叠加层输出的所述增强型特征表达,包括:
对所述上下文特征序列沿垂直维度扩展,直至所述上下文特征序列的尺寸与所述视觉特征图的尺寸相同;
将维度扩展后的上下文特征序列与所述视觉特征图相加,并添加所述视觉特征图中各像素的位置编码,得到所述叠加层输出的所述增强型特征表达。
根据本发明提供的一种语义增强型场景文本识别方法,所述将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器,得到所述解码器输出的所述场景文本识别结果,包括:
将所述全局上下文特征向量和所述增强型特征表达输入至所述解码器的注意力层,由所述注意力层对所述全局上下文特征向量和所述增强型特征表达进行多头注意力运算,得到所述注意力层输出的全局表观特征向量;
将所述全局表观特征向量、所述全局上下文特征向量和初始值设置为全零的词嵌入向量输入至所述解码器的隐含状态提取层,得到所述隐含状态提取层输出的初始时刻隐含状态向量;
将所述增强型特征表达和所述隐含状态向量输入至所述注意力层,得到所述注意力层输出的局部表观特征向量;
将所述隐含状态向量和所述局部表观特征向量输入至所述解码器的全连接层,得到所述全连接层输出的初始时刻场景文本识别结果;
所述解码器的解码过程为参数共享的多时间步循环迭代结构,在初始时刻之后的循环过程中,将上一时刻输出的局部表观特征向量、隐含状态向量以及预测值对应的词嵌入向量输入至解码器,得到每一时间步的识别结果,直至输出终止符,识别过程结束,得到所述场景文本的识别结果。
根据本发明提供的一种语义增强型场景文本识别方法,所述隐含状态提取层由长-短记忆神经单元组成,所述隐含状态向量是基于如下过程获取的:对所述长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率做特征丢弃。
根据本发明提供的一种语义增强型场景文本识别方法,所述全连接层用于将所述隐含状态向量和所述局部表观特征向量沿特征维度进行拼接,并经由线性变换操作与归一化操作,得到该时刻各个类别的概率分布,并取概率最大的类别为当前场景文本的识别结果。
根据本发明提供的一种语义增强型场景文本识别方法,所述确定待识别的场景文本图像,包括:
确定待识别的原始场景文本图像,并对所述原始场景文本图像进行图像预处理;所述预处理包括归一化处理和标准化处理;
对预处理后的原始场景文本图像输入矫正网络进行字符形态和分布矫正,得到所述场景文本图像;所述场景文本图像的格式与预设格式相同。
本发明还提供一种场景文本识别装置,包括:
文本确定单元,用于确定待识别的场景文本图像;
文本识别单元,用于将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;
其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述语义增强型场景文本识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语义增强型场景文本识别方法的步骤。
本发明提供的语义增强型场景文本识别方法及装置,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,从而能够获取场景文本图像全局的视觉信息和语义信息,编码器同时输出全局上下文特征向量以及全局表观特征向量用于指导解码器的初始化。解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将循环神经网络单元得到的隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,进而使得得到的场景文本识别结果准确率较高。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的语义增强型场景文本识别方法的流程示意图之一;
图2是本发明提供的语义增强型场景文本识别方法的流程示意图之二;
图3是本发明提供的编码器结构示意图;
图4是本发明提供的解码器结构示意图;
图5是本发明提供的语义增强型场景文本识别装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
传统的场景文本识别主要利用卷积神经网络提取的视觉信息或循环神经网络提取的上下文信息进行文本识别,然而该方法中的编码器提取的是单一化特征,会造成信息损失。对于文本形态多样、背景复杂的字符图像数据,常规算法解码器所采用的加性注意力机制或点乘注意力机制无法有效将编码特征与文字视觉信息进行有效对齐,限制了准确率的提升,而为了提升准确率而采用的多层解码器则会极大增加模型参数量以及计算复杂度。
对此,本发明提供一种语义增强型场景文本识别方法。图1是本发明提供的场景文本识别的流程示意图,如图1所示,该方法包括如下步骤:
步骤110、确定待识别的场景文本图像;
步骤120、将场景文本图像输入至场景文本识别模型,得到场景文本识别模型输出的场景文本识别结果;
其中,场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;场景文本识别模型包括编码器和解码器;编码器用于提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图以及上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为解码器的循环神经网络的初始时刻输入,将循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到场景文本对应字符的识别结果。同时,将局部表观特征向量、隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到场景文本的识别结果。
具体地,待识别的场景文本图像可以采用手机、专用硬件等摄像设备进行采集,由于不同拍摄设备所采集的场景文本图像可能尺寸不同,因此在获取场景文本图像之后,可以对场景文本图像进行尺寸调整,将场景文本图像调整到统一尺寸,便于场景文本识别模型并行化处理。
在确定场景文本图像之后,将场景文本图像输入至场景文本识别模型,从而可以得到场景文本识别模型输出的场景文本识别结果;其中,场景文本识别模型用于提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图以及上下文特征序列确定增强型特征表达,从而能够获取场景文本图像全局的视觉信息和语义信息,即全面获取场景文本图像中的信息。
在获取全局上下文特征向量和增强型特征表达后,基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,并对隐含状态向量和展开后的增强型特征表达进行多头注意力运算,能够捕捉特征的显著性信息和辅助信息,减少信息解码过程中的信息损失,进而使得得到的场景文本识别结果准确率较高。相较于传统方法中,采用的加性注意力机制或点乘注意力机制无法有效将编码特征与文字视觉信息进行有效对齐,本发明实施例准确率较高,而且本发明实施例不需要像传统方法中采用多层解码器进行运算,能够更加简便快捷获取场景文本识别结果。
基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为解码器的循环神经网络的初始时刻输入,将循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到场景文本对应字符的识别结果。同时,将局部表观特征向量、隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到场景文本的识别结果。
由此可见,编码器同时输出全局上下文特征向量以及全局表观特征向量用于指导解码器的初始化。解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将循环神经网络单元得到的隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,进而使得得到的场景文本识别结果准确率较高。
在将场景文本图像输入至场景文本识别模型之前,还可以预先训练得到场景文本识别模型,具体可以通过执行如下步骤实现:首先,收集大量样本场景文本图像,通过人工标注确定其对应的样本场景文本识别结果。随即,基于样本场景文本图像以及样本场景文本识别结果对初始模型进行训练,从而得到场景文本识别模型。
本发明实施例提供的语义增强型场景文本识别方法,通过场景文本识别模型的编码器提取场景文本图像的视觉特征图以及上下文特征序列,并基于视觉特征图、上下文特征序列以及特征图的位置编码确定增强型特征表达,从而能够获取场景文本图像全局的视觉信息和语义信息,编码器同时输出全局上下文特征向量以及全局表观特征向量用于指导解码器的初始化。解码器采用特殊设计的循环神经网络单元进行解码,该单元能够均衡上下文信息的独立性和相关性。将循环神经网络单元得到的隐含状态向量和展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量。局部表观特征向量与循环神经网络单元的隐层输出共同参与当前时刻的字符预测,增强了语义信息和视觉信息的相关性。多头注意力机制设计能够捕捉特征的显著性信息和辅助信息,进而使得得到的场景文本识别结果准确率较高。
基于上述实施例,全局上下文特征向量指最后一个时刻上下文特征序列对应的向量,全局表观特征向量是对全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。
具体地,将视觉特征图以垂直方向为轴做平均池化,得到与视觉特征图水平分布相对应的特征序列,并将特征序列输入至单隐含层双向递归神经网络进行特征提取,得到上下文特征序列,并将最后一个时刻输出的上下文特征序列对应的向量作为全局上下文特征向量。
将增强型特征表达进行水平和垂直维度的展开,以全局上下文特征向量做查询向量,进行多头注意力计算,得到全局表观特征向量。
基于上述任一实施例,将场景文本图像输入至场景文本识别模型,得到场景文本识别模型输出的场景文本识别结果,包括:
将场景文本图像输入至场景文本识别模型的编码器,得到编码器输出的全局上下文特征向量和增强型特征表达;
将全局上下文特征向量和增强型特征表达输入至场景文本识别模型的解码器,得到解码器输出的场景文本识别结果。
具体地,编码器用于提取场景文本图像的全局上下文特征向量以及增强型特征表达,从而能够获取场景文本图像全局的视觉信息和语义信息,即全面获取场景文本图像中的信息。
在获取全局上下文特征向量和增强型特征表达后,解码器基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,并对隐含状态向量和展开后的增强型特征表达进行多头注意力运算,能够捕捉特征的显著性信息和辅助信息,减少信息解码过程中的信息损失,进而使得得到的场景文本识别结果准确率较高。
基于上述任一实施例,将场景文本图像输入至场景文本识别模型的编码器,得到编码器输出的全局上下文特征向量和增强型特征表达,包括:
将场景文本图像输入至编码器的视觉特征提取层,得到视觉特征提取层输出的场景文本图的视觉特征图;
将视觉特征图输入至编码器的上下文提取层,得到上下文提取层输出的视觉特征图对应的上下文特征序列;
将上下文特征序列和视觉特征图输入至编码器的叠加层,由叠加层对上下文特征序列和视觉特征图进行相加处理,得到叠加层输出的增强型特征表达;
其中,上下文提取层为长-短记忆单元构成的双向单层循环神经网络,上下文特征序列是基于如下过程确定的:对长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率进行特征丢弃,将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接,得到上下文特征序列。
具体地,如图2所示,在确定场景文本图像之后,将场景文本图像输入至编码器(Encoder)的视觉特征提取层,得到视觉特征提取层输出的场景文本图的视觉特征图。如图3所示,该视觉特征提取层可以是改进后的轻量级残差连接的卷积神经网络(CNN),该网络由卷积层,池化层,残差连接模块构成。池化层的最后一层可以采用2×1的步长,以提升垂直维度感受野、保持水平方向精细化的视觉特征图,从而提取后的视觉特征图垂直方向尺寸为3,对应图像中上、中、下文字位置分布。
在获取视觉特征图后,将其输入上下文提取层,先以垂直方向为轴对视觉特征图做平均池化,得到与视觉特征图水平分布相对应的上下文特征序列,然后对上下文特征序列进行特征提取,得到上下文特征序列,并将最后时刻的上下文特征序列对应的向量作为全局上下文特征向量hf。其中,如图2所示,上下文提取层可以是由单隐含层双向递归神经网络(LD-LSTM长-短记忆神经单元)构成,采用Layernorm层归一化方法平滑网络单元的输入,并在每个时间步单元输出的隐含状态向量ht和细胞状态向量ct,按概率p做Dropout特征丢弃,以均衡上下文特征之间的独立性和相关性。
其中,层归一化方法具体计算流程为:
其中,α和β为增益参数和偏置参数,μt和σt对应单元输入向量Xt的均值和方差。因此,加入Layernorm和Dropout函数的长短记忆单元(LD-LSTM)可以表示为:
ct=Dropout(sidm(ft)ct-1+sigm(it)tanh(gt),p);
ht=Dropout(sigm(ot)tanh(ct),p);
其中,Wx和Wh为参数矩阵,p为丢弃概率。
在获取上下文特征序列后,将上下文特征序列和视觉特征图输入至编码器的叠加层,由叠加层对上下文特征序列和视觉特征图进行相加处理,得到叠加层输出的增强型特征表达。如图2所示,将上下文特征序列沿垂直维度扩展至与视觉特征图相同尺寸并进行相加操作,并加入每个像素的位置编码,得到增强型特征表达v。
基于上述任一实施例,对上下文特征序列和视觉特征图进行相加处理,得到叠加层输出的增强型特征表达,包括:
对上下文特征序列沿垂直维度扩展,直至上下文特征序列的尺寸与视觉特征图的尺寸相同。
将维度扩展后的上下文特征序列与视觉特征图相加,并添加视觉特征图中各像素的位置编码,得到叠加层输出的增强型特征表达。
具体地,将上下文特征序列沿垂直维度扩展至与视觉特征图相同尺寸并进行相加操作,并加入每个像素的位置编码,从而可以得到增强型特征表达。其中,位置编码是基于如下过程确定的:
展开后的视觉特征图尺寸为:[H×W,C],H和W分别表示视觉特征图垂直和水平方向的尺寸,C表示视觉特征图的维度,则位置编码的计算过程为:
其中,i代表展开后的视觉特征图行信息,j代表展开后的视觉特征图列信息(维度信息)。在偶数位置上采用正弦编码,在奇数位置采用余弦编码,以此方法为视觉特征图加入绝对位置信息以及相对位置信息。
基于上述任一实施例,将全局上下文特征向量和增强型特征表达输入至场景文本识别模型的解码器,得到解码器输出的场景文本识别结果,包括:
将全局上下文特征向量和增强型特征表达输入至解码器的注意力层,由注意力层对全局上下文特征向量和增强型特征表达进行多头注意力运算,得到注意力层输出的全局表观特征向量;
将全局表观特征向量、全局上下文特征向量和初始值设置为全零的词嵌入向量输入至解码器的隐含状态提取层,得到隐含状态提取层输出的初始时刻隐含状态向量;
将增强型特征表达和隐含状态向量输入至注意力层,得到注意力层输出的局部表观特征向量;
将隐含状态向量和局部表观特征向量输入至解码器的全连接层,得到全连接层输出的初始时刻场景文本识别结果;
解码器的解码过程为参数共享的多时间步循环迭代结构,在初始时刻之后的循环过程中,将上一时刻输出的局部表观特征向量、隐含状态向量以及预测值对应的词嵌入向量输入至解码器,得到每一时间步的识别结果,直至输出终止符,识别过程结束,得到场景文本的识别结果。
具体地,如图2和图4所示,在得到全局上下文特征向量hf和增强型特征表达v后,可以先对增强型特征表达v进行水平和垂直维度的展开,以全局上下文特征向量hf做查询向量,由解码器(Decoder)的注意力层进行多头注意力运算,得到全局表观特征向量gf。
建立词嵌入参数矩阵,根据上一时刻预测结果选择对应的词嵌入向量et-1,若在初始时刻,则词嵌入向量为全零向量。将词嵌入向量e0与全局上下文特征向量hf、全局表观特征向量gf,一并输入隐含状态提取层,得到当前时刻的隐含状态向量ht和细胞状态向量ct;其中,隐含状态提取层单隐含层长短记忆网络(LD-LSTM)构成。
然后,将增强型特征表达v进行水平和垂直维度的展开,与隐含状态向量ht做查询向量进行多头注意力运算,得到当前时刻的局部表观特征向量gt。
将隐含状态向量ht与局部表观特征向量gt沿特征维度做拼接,并经过全连接层,并将其输出累加后经一个Softmax层进行归一化,得到当前时刻输出的类属概率,并根据Softmax层输出的类属概率最大值来判定当前时刻输出所属类别。
接着,将上述得到的隐含状态向量ht、局部表观特征gt、以及预测结果对应的词嵌入向量et,输入到下个时间的单隐含层长短记忆单元,进行下一步的循环迭代,循环执行上述隐含状态提取层、注意力层以及全连接层中的步骤,直至输出终止符如“EOS”,得到最终的场景文本识别结果。其中,终止符可以设置在场景文本图像中最后一个字符之后,则输出终止符表明该场景文本图像识别流程结束,即已识别图像中的所有字符。可以理解的是,对于场景文本图像,可以对其中的每个数据设置相应的字符,字符类别可以包括52个英文字符(包括大小写),10个阿拉伯数字符号以及1个EOS终止符。
其中,所述单隐含层长短记忆单元的迭代过程为:
其中,单隐含层长短记忆单元(LD-LSTM)的计算过程为:
ct=Dropout(sidm(ft)ct-1+sigm(it)tanh(gt),p);
ht=Dropout(sigm(ot)tanh(ct),p);
其中,gt-1为上一时刻的局部表观特征向量,ht-1和ct-1为上一时刻单元的输出,et-1为上一时刻预测结果对应的词嵌入向量。
此外,上述多头注意力运算是基于多头注意力机制(Multi-Head GeneralAttention,MHGAT)进行运算的,其具体运算过程为:
将展开后长度为N的增强型特征表达v沿通道方向均分为m个子向量v′=[v’1,v’2,…,v’N],H为注意力头的个数,对于给定的查询向量(隐含状态向量ht),v′的注意力概率分布为:
at=softmax(score(h′t,v′))∈N;
其中,Wa′为参数矩阵,v′为的维度,则v′的注意力运算可以表示为:
因此,局部表观特征向量gt可以表示为多头注意力沿通道维度的拼接:
gt=MultiHead(ht,v)=Concat(head1,…,headm);
headj=GeneralAttention(htWh,j,vj),vj∈Split(v,m);
由此可见,该算法采用General attention的方法减少了计算注意力分布概率过程的参数量,多头注意力机制的采用,使得在不增加参数量以及计算复杂度的同时,有效提高了注意力的适应能力,主注意力头和辅助注意力头可以关注到目标字符的显著区域和相关区域,弥补编码信息与视觉信息不对齐造成的信息丢失,提高对不同形态、不同位置字符的识别能力。
最后,当前时刻输出的类属概率,其具体运算过程为:
ut=Wo[ht;gt];
其中,Wo为输出类别相关的参数矩阵,然后经过Softmax计算得到类属概率。
其中,C为字符的类别,包括所要识别的字符以及EOS终止符。
需要说明的是,场景文本识别模型的优化目标是输出第一个EOS终止符以及终止符之前的字符对应的交叉熵损失函数的均值与l2正则化损失函数之和,具体计算流程为:
其中,s为标记字符序列y=[y1,y2,..ys]的长度,w为模型的参数,λ为l2正则化损失函数系数,模型训练采用反向传输算法BPTT(Back-Propagation Through Time)来进行。
基于上述任一实施例,隐含状态提取层由长-短记忆神经单元组成,隐含状态向量是基于如下过程获取的:对长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率做特征丢弃。
具体地,隐含状态提取层可以由单隐含层双向递归神经网络(LD-LSTM长-短记忆神经单元)构成,采用Layernorm层归一化方法平滑网络单元的输入,并在每个时间步单元输出的隐含状态向量ht和细胞状态向量ct,按概率p做Dropout特征丢弃,以均衡上下文特征之间的独立性和相关性。
基于上述任一实施例,全连接层用于将隐含状态向量和局部表观特征向量沿特征维度进行拼接,并经由线性变换操作与归一化操作,得到该时刻各个类别的概率分布,并取概率最大的类别为当前场景文本的识别结果。
具体地,以编码器输出的全局上下文特征向量以及对应的全局表观特征向量对解码器进行编码信息指导型初始化,并采用加入与上一时刻预测类别相关的词嵌入向量做LD-LSTM运算,得到当前时刻的隐层输出隐含状态向量,并结合多头注意力机制得到当前时刻的局部表观特征向量,两者进行维度拼接后经由全连接层将隐含状态向量和局部表观特征向量沿特征维度进行拼接,并经由线性变换操作与归一化操作,得到该时刻各个类别的概率分布,并取概率最大的类别为当前场景文本的识别结果。
基于上述任一实施例,确定待识别的场景文本图像,包括:
确定待识别的原始场景文本图像,并对原始场景文本图像进行图像预处理;所述预处理包括归一化处理和标准化处理;
对图像预处理后的原始场景文本图像输入矫正网络进行字符形态和分布矫正,得到场景文本图像;场景文本图像的格式与预设格式相同。
具体地,为了能够使的场景文本识别模型能够更好的与场景文本图像进行并行化处理,本发明实施例在获取原始场景文本图像后,对原始场景文本图像进行预处理,以使得原始场景文本图像转换为固定尺寸大小。对原始场景文本图像进行归一化处理,可以减少图像变换对识别结果的影响;对归一化后的图像做尺寸标准化处理,通过补零、尺度变换等方式将输入图片变换成固定大小,从而可以使得场景文本识别模型能够更好地进行并行化处理,准确获取场景文本识别结果。
在对原始场景文本图像进行预处理后,可以将得到的图像输入矫正网络,以对预处理后的原始场景文本图像进行矫正,得到场景文本图像。其中,矫正网络可以是由6个卷积层和最大池化层堆叠而成轻量级的卷积神经网络,通过提取到上下对应的30个原图控制点,与预先定义的标准控制点相对应,通过薄板样条变换方法(Thin-Plat Spline)对图像进行不规则文本形态矫正,并自适应调整字符大小和间距,最终使得得到的场景文本图像的格式与预设格式相同。
此外,为了验证本发明实施例的有效性,本发明实施例基于多个标准公开数据集进行测试,数据集包括:
(1)IIIT5K数据集:由谷歌搜索的自然场景文本图片组成,包括2000张训练图片以及3000张测试图片。
(2)SVT数据集:由谷歌街景图裁剪的257张训练集图片和647张测试集图片组成,主要特点是数据模糊和噪声较多。
(3)ICDAR2013数据集:包括848张训练集图片和1095张测试集图片,属于规则自然场景数据集;
(4)ICDAR2015数据集:由谷歌眼镜从任意角度采集而成,大部分图像为不规则文本并且具有不同的视角。包括4468张训练集图片和2077张测试集图片,为不规则文本对应的最主要测试数据集。
(5)SVT-Perspective数据集:由谷歌街景图像裁剪而成,包括645张测试集图像,与SVT相比,具有更多的不规则文本图像数据。
(6)CUTE80数据集:包括288张不规则测试集图像,主要特征是扭曲字符占比较高。
模型的训练主要基于两个公开的合成数据集,包括:
(1)Synth90k(MJ)数据集:数据集包括900万张英文单词的合成图像数据,对应着单词级别的标注,本实验从中采用480万张合成图像用于训练。
(2)SynthText(ST)数据集:为另一个被广泛采用的合成数据集,经剪裁共有700万张单词图像块。本实验从中采用480万张合成图像用于训练。
本发明实施例提供的语义增强型场景文本识别方法,在编码阶段,将CNN提取得到的视觉特征图与双向单隐层长-短记忆网络提取的上下文特征序列进行以时间顺序为轴进行按列叠加,并加入位置编码信息,最终得到与文字在图像块中位置分布相对应的小尺寸视觉-语义信息增强型表达特征图。
在解码阶段,采用编码器产生的全局上下文特征向量和全局表观特征向量,对解码器的长-短记忆神经单元进行初始化,使用视觉信息指导语义信息的解码;同时,局部表观特征向量同时参与当前时间步的字符预测,以及下一时间步的循环神经网络的迭代,增强了经编码的视觉信息和解码的语义信息的相关性。
此外,本发明实施例设计了Multi-Head General Attention机制,有效对目标字符的显著性信息和辅助信息进行捕捉和利用,同时简化了参数量和计算量。长-短记忆神经单元(LD-LSTM)的设计,保证了相邻字符之间的独立性和相关性的均衡。
表1为测试结果列表,如表1所示,本发明实施例(Ours)在规则数据集SVT和最具挑战性的不规则数据集ICDAR2015达到了最高精度,在规则数据集ICDAR2013与不规则数据集CUTE上达到了第二高的精度。本发明实施例编码特征图较小(为比对算法SAR以及RobustScanner的1/4,并且具有较低的参数量与计算量)。
表1
由此可见,本发明实施例提供的语义增强型场景文本识别方法,对字符图像进行归一化及尺寸标准化之后,输入由30个控制点构成的矫正网络进行不规则文本形态矫正,并自适应调整字符大小和间距。编码器由卷积神经网络,循环神经网络以及位置编码模块组成:矫正后的图像输入改进后的轻量级残差连接的卷积神经网络提取视觉特征图,视觉特征图垂直方向取平均池化操作后,输入到以特殊设计的长-短记忆单元组成的单隐层双向循环神经网络得到上下文特征序列,将最后一个时刻的输出的向量作为全局上下文特征向量。将视觉特征图和上下文语义特征按列相加后,加入位置编码,得到增强型特征表达。
解码器由加入多头注意力机制(Multi-Head General Attention,MHGAT)的LD-LSTM的单向循环网络组成。以编码器输出的全局上下文特征向量以及对应的全局表观特征向量对解码器进行编码信息指导型初始化,并采用加入与上一时刻预测类别相关的词嵌入向量做LD-LSTM运算,得到当前时刻的隐层输出隐含状态向量,并结合多头注意力机制得到当前时刻的局部表观特征向量,两者进行维度拼接后经由全连接层线性变换得到当前时刻的类属概率。
通过在编码阶段的特征融合以及解码阶段的迭代与预测过程中对表观特征向量的使用,增强了视觉-语义特征的相关性和表征能力。特殊设计的LD-LSTM单元均衡了上下文信息的独立性和相关性。多头注意力机制(MHGAT)则能够捕捉特征表达的显著性信息和辅助信息。在提升场景文本识别,尤其是不规则场景文本识别准确率方面有着重要应用价值。
下面对本发明提供的语义增强型场景文本识别装置进行描述,下文描述的语义增强型场景文本识别装置与上文描述的语义增强型场景文本识别方法可相互对应参照。
基于上述任一实施例,本发明提供一种语义增强型场景文本识别装置,如图5所示,该装置包括:
文本确定单元510,用于确定待识别的场景文本图像;
文本识别单元520,用于将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;
其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
基于上述任一实施例,所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量,所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。
基于上述任一实施例,所述文本识别单元520,包括:
编码单元,用于将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达;
解码单元,用于将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器,得到所述解码器输出的所述场景文本识别结果。
基于上述任一实施例,所述编码单元,包括:
视觉特征提取单元,用于将所述场景文本图像输入至所述编码器的视觉特征提取层,得到所述视觉特征提取层输出的所述场景文本图的视觉特征图;
上下文提取单元,用于将所述视觉特征图输入至所述编码器的上下文提取层,得到所述上下文提取层输出的所述视觉特征图对应的上下文特征序列;
相加单元,用于将所述上下文特征序列和所述视觉特征图输入至所述编码器的叠加层,由所述叠加层对所述上下文特征序列和所述视觉特征图进行相加处理,得到所述叠加层输出的所述增强型特征表达;
其中,所述上下文提取层为长-短记忆单元构成的双向单层循环神经网络,所述上下文特征序列是基于如下过程确定的:对所述长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率进行特征丢弃,将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接,得到所述上下文特征序列。
基于上述任一实施例,所述相加单元,用于:
对所述上下文特征序列沿垂直维度扩展,直至所述上下文特征序列的尺寸与所述视觉特征图的尺寸相同。
将维度扩展后的上下文特征序列与所述视觉特征图相加,并添加所述视觉特征图中各像素的位置编码,得到所述叠加层输出的所述增强型特征表达。
基于上述任一实施例,所述解码单元,包括:
第一注意力单元,用于将所述全局上下文特征向量和所述增强型特征表达输入至所述解码器的注意力层,由所述注意力层对所述全局上下文特征向量和所述增强型特征表达进行多头注意力运算,得到所述注意力层输出的全局表观特征向量;
隐含状态提取单元,用于将所述全局表观特征向量、所述全局上下文特征向量和初始值设置为全零的词嵌入向量输入至所述解码器的隐含状态提取层,得到所述隐含状态提取层输出的初始时刻隐含状态向量;
第二注意力单元,用于将所述增强型特征表达和所述隐含状态向量输入至所述注意力层,得到所述注意力层输出的局部表观特征向量;
全连接单元,用于将所述隐含状态向量和所述局部表观特征向量输入至所述解码器的全连接层,得到所述全连接层输出的初始时刻场景文本识别结果;
所述解码器的解码过程为参数共享的多时间步循环迭代结构,在初始时刻之后的循环过程中,将上一时刻输出的局部表观特征向量、隐含状态向量以及预测值对应的词嵌入向量输入至解码器,得到每一时间步的识别结果,直至输出终止符,识别过程结束,得到所述场景文本的识别结果。
基于上述任一实施例,所述隐含状态提取层由长-短记忆神经单元组成,所述隐含状态向量是基于如下过程获取的:对所述长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率做特征丢弃。
基于上述任一实施例,所述全连接层用于将所述隐含状态向量和所述局部表观特征向量沿特征维度进行拼接,并经由线性变换操作与归一化操作,得到该时刻各个类别的概率分布,并取概率最大的类别为当前场景文本的识别结果。
基于上述任一实施例,所述文本确定单元510,包括:
预处理单元,用于确定待识别的原始场景文本图像,并对所述原始场景文本图像进行图像预处理;所述预处理包括归一化处理和标准化处理;
矫正单元,用于对预处理后的原始场景文本图像输入矫正网络进行字符形态和分布矫正;所述场景文本图像的格式与预设格式相同。
图6是本发明提供的电子设备的结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、存储器(memory)620、通信接口(Communications Interface)630和通信总线640,其中,处理器610,存储器620,通信接口630通过通信总线640完成相互间的通信。处理器610可以调用存储器620中的逻辑指令,以执行语义增强型场景文本识别方法,该方法包括:确定待识别的场景文本图像;将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
此外,上述的存储器620中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的语义增强型场景文本识别方法,该方法包括:确定待识别的场景文本图像;将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的语义增强型场景文本识别方法,该方法包括:确定待识别的场景文本图像;将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种语义增强型场景文本识别方法,其特征在于,包括:
确定待识别的场景文本图像;
将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;
其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
2.根据权利要求1所述的语义增强型场景文本识别方法,其特征在于,所述全局上下文特征向量指最后一个时刻上下文特征序列对应的向量,所述全局表观特征向量是对所述全局上下文向量和展开后的增强型特征表达进行多头注意力运算后得到的。
3.根据权利要求1所述的语义增强型场景文本识别方法,其特征在于,所述将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果,包括:
将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达;
将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器,得到所述解码器出的所述场景文本识别结果。
4.根据权利要求3所述的语义增强型场景文本识别方法,其特征在于,所述将所述场景文本图像输入至所述场景文本识别模型的编码器,得到所述编码器输出的所述全局上下文特征向量和所述增强型特征表达,包括:
将所述场景文本图像输入至所述编码器的视觉特征提取层,得到所述视觉特征提取层输出的所述场景文本图的视觉特征图;
将所述视觉特征图输入至所述编码器的上下文提取层,得到所述上下文提取层输出的所述视觉特征图对应的上下文特征序列;
将所述上下文特征序列和所述视觉特征图输入至所述编码器的叠加层,由所述叠加层对所述上下文特征序列和所述视觉特征图进行相加处理,得到所述叠加层输出的所述增强型特征表达;
其中,所述上下文提取层为长-短记忆单元构成的双向单层循环神经网络,所述上下文特征序列是基于如下过程确定的:对所述长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率进行特征丢弃,将该循环神经网络每一时间步两个方向的隐含状态向量沿特征维度进行拼接,得到所述上下文特征序列。
5.根据权利要求4所述的语义增强型场景文本识别方法,其特征在于,所述对所述上下文特征序列和所述视觉特征图进行相加处理,得到所述叠加层输出的所述增强型特征表达,包括:
对所述上下文特征序列沿垂直维度扩展,直至所述上下文特征序列的尺寸与所述视觉特征图的尺寸相同;
将维度扩展后的上下文特征序列与所述视觉特征图相加,并添加所述视觉特征图中各像素的位置编码,得到所述叠加层输出的所述增强型特征表达。
6.根据权利要求3所述的语义增强型场景文本识别方法,其特征在于,所述将所述全局上下文特征向量和所述增强型特征表达输入至所述场景文本识别模型的解码器,得到所述解码器输出的所述场景文本识别结果,包括:
将所述全局上下文特征向量和所述增强型特征表达输入至所述解码器的注意力层,由所述注意力层对所述全局上下文特征向量和所述增强型特征表达进行多头注意力运算,得到所述注意力层输出的全局表观特征向量;
将所述全局表观特征向量、所述全局上下文特征向量和初始值设置为全零的词嵌入向量输入至所述解码器的隐含状态提取层,得到初始时刻隐含状态提取层输出的隐含状态向量;
将所述增强型特征表达和所述隐含状态向量输入至所述注意力层,得到所述注意力层输出的局部表观特征向量;
将所述隐含状态向量和所述局部表观特征向量输入至所述解码器的全连接层,得到所述全连接层输出的初始时刻场景文本识别结果;
所述解码器的解码过程为参数共享的多时间步循环迭代结构,在初始时刻之后的循环过程中,将上一时刻输出的局部表观特征向量、隐含状态向量以及预测值对应的词嵌入向量输入至解码器,得到每一时间步的识别结果,直至输出终止符,识别过程结束,得到所述场景文本的识别结果。
7.根据权利要求6所述的语义增强型场景文本识别方法,其特征在于,所述隐含状态提取层由长-短记忆神经单元组成,所述隐含状态向量是基于如下过程获取的:对所述长-短记忆神经单元的输入进行层归一化操作,并对输出的隐含状态向量以预设概率做特征丢弃。
8.根据权利要求6中所述的语义增强型场景文本识别方法,其特征在于,所述全连接层用于将所述隐含状态向量和所述局部表观特征向量沿特征维度进行拼接,并经由线性变换操作与归一化操作,得到该时刻各个类别的概率分布,并取概率最大的类别为当前场景文本的识别结果。
9.根据权利要求1至8任一项所述的语义增强型场景文本识别方法,其特征在于,所述确定待识别的场景文本图像,包括:
确定待识别的原始场景文本图像,并对所述原始场景文本图像进行图像预处理;所述预处理包括归一化处理和标准化处理;
对预处理后的原始场景文本图像输入矫正网络进行字符形态和分布矫正,得到所述场景文本图像;所述场景文本图像的格式与预设格式相同。
10.一种语义增强型场景文本识别装置,其特征在于,包括:
文本确定单元,用于确定待识别的场景文本图像;
文本识别单元,用于将所述场景文本图像输入至场景文本识别模型,得到所述场景文本识别模型输出的场景文本识别结果;
其中,所述场景文本识别模型是基于样本场景文本图像以及样本场景文本识别结果训练得到的;所述场景文本识别模型包括编码器和解码器;所述编码器用于提取所述场景文本图像的视觉特征图以及上下文特征序列,并基于所述视觉特征图以及所述上下文特征序列以及位置编码运算确定增强型特征表达,以及基于全局上下文特征向量和全局表观特征向量确定隐含状态向量,以作为所述解码器的循环神经网络的初始时刻输入,将所述循环神经网络每一时间步输出的隐含状态向量与展开后的增强型特征表达进行多头注意力运算,得到局部表观特征向量,将所述局部表观特征向量与对应时刻的隐含状态向量沿特征维度拼接,并经过线性变换得到所述场景文本对应字符的识别结果。同时,将所述局部表观特征向量、所述隐含状态向量以及文本对应的词嵌入向量作为下一时间步解码器的输入,以循环迭代的方式进行解码,直至输出终止字符,得到所述场景文本的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653956.1A CN113591546B (zh) | 2021-06-11 | 2021-06-11 | 语义增强型场景文本识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110653956.1A CN113591546B (zh) | 2021-06-11 | 2021-06-11 | 语义增强型场景文本识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113591546A true CN113591546A (zh) | 2021-11-02 |
CN113591546B CN113591546B (zh) | 2023-11-03 |
Family
ID=78243693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110653956.1A Active CN113591546B (zh) | 2021-06-11 | 2021-06-11 | 语义增强型场景文本识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591546B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092930A (zh) * | 2022-01-07 | 2022-02-25 | 中科视语(北京)科技有限公司 | 一种文字识别方法及系统 |
CN114359903A (zh) * | 2022-01-06 | 2022-04-15 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、设备及存储介质 |
CN114399646A (zh) * | 2021-12-21 | 2022-04-26 | 北京中科明彦科技有限公司 | 一种基于Transformer结构的图像描述方法和装置 |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
CN114445832A (zh) * | 2022-01-25 | 2022-05-06 | 平安科技(深圳)有限公司 | 基于全局语义的文字图像识别方法、装置及计算机设备 |
CN114581905A (zh) * | 2022-04-11 | 2022-06-03 | 华南理工大学 | 一种基于语义增强机制的场景文本识别方法及系统 |
CN114973224A (zh) * | 2022-04-12 | 2022-08-30 | 北京百度网讯科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN115293747A (zh) * | 2022-08-24 | 2022-11-04 | 陕西省君凯电子科技有限公司 | 用于车辆租赁的基于图像和文本信息的智能审核系统及其方法 |
CN116189800A (zh) * | 2023-02-23 | 2023-05-30 | 深圳大学 | 基于气体检测的模式识别方法、装置、设备及存储介质 |
CN117037136A (zh) * | 2023-10-10 | 2023-11-10 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
CN117173475A (zh) * | 2023-09-05 | 2023-12-05 | 河北水利电力学院 | 基于机器视觉的场景预测性拟合方法和系统 |
CN117912005A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN109919174A (zh) * | 2019-01-16 | 2019-06-21 | 北京大学 | 一种基于门控级联注意力机制的文字识别方法 |
CN110020615A (zh) * | 2019-03-20 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 对图片进行文字提取及内容识别的方法和系统 |
CN111753827A (zh) * | 2020-05-15 | 2020-10-09 | 中国科学院信息工程研究所 | 基于语义强化编码器解码器框架的场景文字识别方法及系统 |
CN112070114A (zh) * | 2020-08-03 | 2020-12-11 | 中国科学院信息工程研究所 | 基于高斯约束注意力机制网络的场景文字识别方法及系统 |
US20210004629A1 (en) * | 2019-07-05 | 2021-01-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | End-to-end text recognition method and apparatus, computer device and readable medium |
-
2021
- 2021-06-11 CN CN202110653956.1A patent/CN113591546B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543667A (zh) * | 2018-11-14 | 2019-03-29 | 北京工业大学 | 一种基于注意力机制的文本识别方法 |
CN109919174A (zh) * | 2019-01-16 | 2019-06-21 | 北京大学 | 一种基于门控级联注意力机制的文字识别方法 |
CN110020615A (zh) * | 2019-03-20 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 对图片进行文字提取及内容识别的方法和系统 |
US20210004629A1 (en) * | 2019-07-05 | 2021-01-07 | Beijing Baidu Netcom Science And Technology Co., Ltd. | End-to-end text recognition method and apparatus, computer device and readable medium |
CN111753827A (zh) * | 2020-05-15 | 2020-10-09 | 中国科学院信息工程研究所 | 基于语义强化编码器解码器框架的场景文字识别方法及系统 |
CN112070114A (zh) * | 2020-08-03 | 2020-12-11 | 中国科学院信息工程研究所 | 基于高斯约束注意力机制网络的场景文字识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
MENGMENG CUI等: "representation and correlation enhanced encoder-decoder framework for scene text recognition", INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION, pages 156 - 170 * |
徐富勇;: "基于注意力增强网络的场景文字识别", 现代计算机, no. 09, pages 73 - 77 * |
高永兵;李越超;: "微博中的社交意图识别与分类技术研究", 内蒙古科技大学学报, vol. 39, no. 02, pages 85 - 89 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114399646A (zh) * | 2021-12-21 | 2022-04-26 | 北京中科明彦科技有限公司 | 一种基于Transformer结构的图像描述方法和装置 |
CN114359903A (zh) * | 2022-01-06 | 2022-04-15 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、设备及存储介质 |
CN114092930B (zh) * | 2022-01-07 | 2022-05-03 | 中科视语(北京)科技有限公司 | 一种文字识别方法及系统 |
CN114092930A (zh) * | 2022-01-07 | 2022-02-25 | 中科视语(北京)科技有限公司 | 一种文字识别方法及系统 |
CN114445832A (zh) * | 2022-01-25 | 2022-05-06 | 平安科技(深圳)有限公司 | 基于全局语义的文字图像识别方法、装置及计算机设备 |
CN114429633B (zh) * | 2022-01-28 | 2023-10-27 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
CN114429633A (zh) * | 2022-01-28 | 2022-05-03 | 北京百度网讯科技有限公司 | 文本识别方法、模型的训练方法、装置、电子设备及介质 |
CN114581905A (zh) * | 2022-04-11 | 2022-06-03 | 华南理工大学 | 一种基于语义增强机制的场景文本识别方法及系统 |
CN114973224A (zh) * | 2022-04-12 | 2022-08-30 | 北京百度网讯科技有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN115293747A (zh) * | 2022-08-24 | 2022-11-04 | 陕西省君凯电子科技有限公司 | 用于车辆租赁的基于图像和文本信息的智能审核系统及其方法 |
CN116189800B (zh) * | 2023-02-23 | 2023-08-18 | 深圳大学 | 基于气体检测的模式识别方法、装置、设备及存储介质 |
CN116189800A (zh) * | 2023-02-23 | 2023-05-30 | 深圳大学 | 基于气体检测的模式识别方法、装置、设备及存储介质 |
CN117173475A (zh) * | 2023-09-05 | 2023-12-05 | 河北水利电力学院 | 基于机器视觉的场景预测性拟合方法和系统 |
CN117037136A (zh) * | 2023-10-10 | 2023-11-10 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
CN117037136B (zh) * | 2023-10-10 | 2024-02-23 | 中国科学技术大学 | 场景文本识别方法、系统、设备及存储介质 |
CN117912005A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113591546B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113591546B (zh) | 语义增强型场景文本识别方法及装置 | |
KR20220050758A (ko) | 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템 | |
CN113343707B (zh) | 一种基于鲁棒性表征学习的场景文本识别方法 | |
CN111222513B (zh) | 车牌号码识别方法、装置、电子设备及存储介质 | |
Chandio et al. | Cursive text recognition in natural scene images using deep convolutional recurrent neural network | |
CN111160343A (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
Mathew et al. | Benchmarking scene text recognition in Devanagari, Telugu and Malayalam | |
CN114973222B (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
Halima et al. | Nf-savo: Neuro-fuzzy system for arabic video ocr | |
US11568140B2 (en) | Optical character recognition using a combination of neural network models | |
Huang et al. | EPAN: Effective parts attention network for scene text recognition | |
CN114140803B (zh) | 基于深度学习的文档单字坐标检测和修正方法及系统 | |
Lu et al. | Improved image classification with 4D light-field and interleaved convolutional neural network | |
Selvam et al. | A transformer-based framework for scene text recognition | |
Zhang et al. | OCR with the Deep CNN Model for Ligature Script‐Based Languages like Manchu | |
CN113065561A (zh) | 基于精细字符分割的场景文本识别方法 | |
CN114581906B (zh) | 自然场景图像的文本识别方法及系统 | |
CN114359906A (zh) | 基于多尺度特征融合的网络图像文本识别方法及系统 | |
CN115937862A (zh) | 一种端到端的集装箱号码识别方法及系统 | |
CN114495076A (zh) | 一种多阅读方向的文字图像识别方法 | |
CN115512340A (zh) | 基于图片的意图检测方法及装置 | |
CN114913530A (zh) | 一种审计凭证数字化方法及系统 | |
Fanjie et al. | Sust and rust: two datasets for uyghur scene text recognition | |
Li et al. | Channel attention convolutional recurrent neural network on street view symbol recognition | |
US11804072B2 (en) | Method for training convolutional neural network, and method for face recognition and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |