CN114581905A - 一种基于语义增强机制的场景文本识别方法及系统 - Google Patents
一种基于语义增强机制的场景文本识别方法及系统 Download PDFInfo
- Publication number
- CN114581905A CN114581905A CN202210375908.5A CN202210375908A CN114581905A CN 114581905 A CN114581905 A CN 114581905A CN 202210375908 A CN202210375908 A CN 202210375908A CN 114581905 A CN114581905 A CN 114581905A
- Authority
- CN
- China
- Prior art keywords
- scene text
- text image
- scene
- semantic
- visual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims description 69
- 230000009466 transformation Effects 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 16
- 239000003623 enhancer Substances 0.000 claims description 14
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于语义增强机制的场景文本识别方法及系统,包括获取场景文本图像,对场景文本图像进行校正,对校正后的场景文本图像进行特征提取,获取视觉特征,基于视觉特征提取全局语义信息,基于全局语义信息,对视觉特征进行解码转录,得到场景文本识别字符串结果。通过上述技术方案,本发明使场景文本图像的识别能够更加准确。
Description
技术领域
本发明涉及文本图像识别技术领域,特别涉及一种基于语义增强机制的场景文本识别方法及系统。
背景技术
文字是沟通的重要工具,在我们的生活中扮演着重要的角色。文字作为传递信息的媒介,存在于诸多场景中。目前,文本识别技术是大部分计算机视觉应用的基础,例如机器人技术、工业自动化、图像搜索、实时翻译、自动驾驶和体育视频分析等。
一般而言,根据文本类型,文本识别领域可分为两大类:扫描文档的文本和场景文本。扫描文档的文本往往具有背景简单、字符整齐、图像清晰的特点,目前的光学字符识别(Optical Character Recognition,OCR)技术已经能够对扫描文档取得卓越的识别性能。
相比之下,场景文本的识别更具难度。由于场景文本一般存在于各类生活场景中,例如店铺招牌、道路标记等,所以场景文本的识别存在诸多挑战。一是场景文本的字符存在多样性。场景文本的字符大多为艺术字,其具有各式各样的字号、字形和字体颜色,甚至字符的排列也是不规则的,可能存在扭曲的情况。二是场景文本的场景存在多样性。有可能文本处于复杂的背景中,甚至是类似文本的背景纹理;有可能文本会有异物遮挡,使得部分字符存在缺漏。三是场景文本的拍摄条件存在多样性。由于拍摄的运动或者拍摄的角度导致文本有不同程度的模糊或者变形;由于天气、光线的变化导致文本处于极端明暗的条件下等。
以上这三点都给场景文本的识别带来了不同程度的识别难度,这也吸引了越来越多研究者的兴趣,其是对于图像模糊、文本有遮挡或者存在复杂背景的低质量文本图像。
发明内容
为解决上述现有技术中所存在的问题,本发明提供一种基于语义增强机制的场景文本识别方法及系统,使场景文本图像的识别能够更加准确。
为了实现上述技术目的,本发明提供了如下技术方案:
一种基于语义增强机制的场景文本识别方法,包括:
获取场景文本图像,对场景文本图像进行校正,对校正后的场景文本图像进行特征提取,获取视觉特征,基于视觉特征提取全局语义信息,基于全局语义信息,对视觉特征进行解码转录,得到场景文本识别字符串结果。
可选的,对所述场景文本图像进行校正的过程包括:
对所述场景文本图像进行预测,获取场景文本图像对应的仿射变换矩阵;
基于所述仿射变换矩阵,对场景文本图像进行空间变换,得到采样网格,基于采样网格,对场景文本图像进行采样,得到校正后的场景文本图像,其中空间变换包括旋转、缩放和平移。
可选的,对校正后的场景文本图像进行特征提取的过程包括:
将所述校正后的场景文本图像进行二维视觉特征提取,并对二维视觉特征提取结果进行上下文建模,获取视觉特征。
可选的,所述全局语义信息的提取过程包括:
将所述视觉特征从视觉空间映射到语言空间,对语音空间中的视觉特征进行预测,得到全局语义信息。
可选的,对视觉特征进行解码转录的过程包括:
将所述全局语义信息作为初始向量,基于初始向量,对所述视觉特征进行逐步解码获取字符向量,将所述字符向量进行转录,得到场景文本识别字符串结果。
为了更好的实现上述技术目的,本发明还提供了一种基于语义增强机制的场景文本识别系统,包括:文本校正器、特征编码器、语义增强器、序列解码器;
所述文本矫正器用于获取场景文本图像,对场景文本图像进行校正,
所述特征编码器用于对校正后的场景文本图像进行特征提取,获取视觉特征,
所述语义增强器基于视觉特征提取全局语义信息,
所述序列解码器基于全局语义信息,对视觉特征进行解码转录,得到场景文本识别字符串结果。
可选的,所述文本矫正器包括定位网络、网格生成器及采样器;
所述定位网络用于对所述场景文本图像进行预测,获取场景文本图像对应的仿射变换矩阵;
所述网格生成器基于所述仿射变换矩阵,对场景文本图像进行空间变换,生成采样网格;
所述采样器基于采样网络,对场景文本图像进行采样,得到校正后的场景文本图像。
可选的,特征编码器采用卷积神经网络结构及基于自注意力的网络结构;
所述卷积神经网络结构用于将所述校正后的场景文本图像进行二维视觉特征提取;
基于自注意力的网络结构用于对二维视觉特征提取结果进行上下文建模,获取视觉特征。
可选的,所述语义增强器采用卷积和循环神经网络结构;
所述卷积和循环神经网络结构用于将所述视觉特征从视觉空间映射到语言空间,对语音空间中的视觉特征进行预测,得到全局语义信息。
可选的,所述序列解码器采用Transformer结构的解码器;
采用Transformer结构的解码器用于将所述全局语义信息作为初始向量,基于初始向量,对所述视觉特征进行逐步解码获取字符向量,将所述字符向量进行转录,得到场景文本识别字符串结果。
本发明具有如下技术效果:
本发明解决了包含低质量图像的场景文本识别问题,采用了一种语义增强机制来加强解码器的性能,以增强识别器对低质量场景文本图像的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的方法流程示意图;
图2为本发明实施例提供的系统结构示意图;
图3为本发明实施例提供的系统网络模型流程示意图;
图4为本发明实施例提供的识别结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所述,本发明提供了一种基于语义增强机制的场景文本识别方法,包括:
获取场景文本图像,对场景文本图像进行校正,对校正后的场景文本图像进行特征提取,获取视觉特征,基于视觉特征提取全局语义信息,基于全局语义信息,对视觉特征进行解码转录,得到场景文本识别字符串结果。
可选的,对所述场景文本图像进行校正的过程包括:
对所述场景文本图像进行预测,获取场景文本图像对应的仿射变换矩阵;
基于所述仿射变换矩阵,对场景文本图像进行空间变换,得到采样网格,基于采样网格,对场景文本图像进行采样,得到校正后的场景文本图像,其中空间变换包括旋转、缩放和平移。
可选的,对校正后的场景文本图像进行特征提取的过程包括:
将所述校正后的场景文本图像进行二维视觉特征提取,并对二维视觉特征提取结果进行上下文建模,获取视觉特征。
可选的,所述全局语义信息的提取过程包括:
将所述视觉特征从视觉空间映射到语言空间,对语音空间中的视觉特征进行预测,得到全局语义信息。
可选的,对视觉特征进行解码转录的过程包括:
将所述全局语义信息作为初始向量,基于初始向量,对所述视觉特征进行逐步解码获取字符向量,将所述字符向量进行转录,得到场景文本识别字符串结果。
如图2-3所示,本发明提供一种基于语义增强机制的场景文本识别系统,具体内容如下:
采用文本矫正器对输入的场景文本图像进行矫正。利用卷积神经网络结构搭建文本矫正器,这能消除文本的变形,将不规则的场景文本矫正为规则的场景文本,以便后续识别。具体来说,文本矫正器对输入的文本图像预测一个仿射变换矩阵,基于这个仿射变换矩阵,对输入图像进行空间变换。这里的空间变换矩阵包含6个参数,能够对输入图像进行旋转、放缩和平移,从而消除文本的变形。文本矫正器包括定位网络、网格生成器和采样器。其中定位网络是由由六个卷积层和两个全连接层组成,其定位网络结构如表1所示,表1为文本矫正器的定位网络结构表。其中,k表示卷积核大小;maps表示通道数;s表示步长;ci表示输入神经元的个数;co表示输出神经元的个数。所有卷积层后面是一个BN层和一个ReLU层。通过该网络结构可以预测得到一个2×3的仿射变换矩阵。基于该仿射变换矩阵,网格生成器对原图进行空间变换,生成采样网格。采样网格是一个两通道的特征图,分别表示原图的x、y坐标。基于采样网格,采样器从原图进行采样,从而得到最终变换之后的图片,也就是经过矫正之后的结果。该矫正器的输入是原图,高度、宽度分别统一为64、200。为了降低计算量,将原图下采样,使其高度、宽度分别为16、50。最终矫正之后的图像高度、宽度分别为32、100。
表1
采用特征编码器对矫正之后的场景文本图像提取视觉特征并对其进行上下文关系建模。先后采用卷积神经网络和基于自注意力的网络结构来构建特征编码器。其中,采用卷积神经网络对矫正之后的场景文本图像提取视觉特征,这主要是对图像的局部特征关系进行建模;采用基于自注意力的网络结构并行地构建视觉特征的上下文依赖关系,这主要是对视觉特征的全局特征关系进行建模。首先,采用卷积神经网络从图像中提取二维视觉特征。由于场景文本的字符大小不一,所以为了获得多尺度的特征,卷积神经网络采用结合了特征金字塔结构的ResNet-50。ResNet-50包括一个卷积层和四个卷积块,所有卷积层后面是一个BN层和一个ReLU层,其中具体结构如表2所示,表2为特征编码器的ResNet-50网络结构表。ResNet-50自下而上从图像中提取五层特征。其中,越低层的特征具有越小的感受野,越适合识别小尺度的字符,越高层的特征具有越大的感受野,越适合识别大尺度的字符。为了融合多尺度的特征,采用特征金字塔对最后三层的特征进行自顶向下的融合,也就是将高层的特征进行上采样与低层特征相加,得到高度、宽度、通道数分别为8、25、512的二维视觉特征。然后,采用两个基于自注意力的编码单元对二维视觉特征进行上下文建模,捕获二维视觉特征的全局依赖关系,增强特征的表达能力。每个编码单元包括多头自注意力网络层和前馈网络层。多头自注意力网络层的头数为8,每个头的查询矩阵、键矩阵和值矩阵的维度为64,输出的特征维度为512。而前馈神经网络层采用两层一维卷积,卷积核的大小为1×1,步长为1×1,第一层卷积的输出通道数为1024,第二层卷积的输出通道数为512。
表2
采用语义增强器从整体的视觉特征中提取全局语义信息。利用卷积和循环神经网络结构搭建语义增强器来从整个图像的视觉特征中获取全局语义信息,这是从视觉信息到语言信息的跨模态变换。输入是特征编码器提取的二维视觉特征。语义增强器包括两层双向长短时记忆(Bidirectional Long ShortTerm Memory,BiLSTM)网络层、一层一维卷积和一层全连接层。语义增强器是将特征编码器中得到的二维视觉特征从视觉空间映射到语言空间,对二维视觉特征图预测一个全局语义信息,即一个向量,用于指导后续解码器的解码。语义增强器的网络结构如表3所示,表3为特征矫正器的注意力网络结构表。
表3
采用语义信息初始化之后的序列解码器进行解码。利用Transformer结构的解码器来进行解码,输出识别结果。特别地,采用全局语义信息来初始化Transformer解码器,这是给解码器提供显式的语义信息来指导其能够解码出更准确的字符串结果。由于序列解码器是依据之前的识别结果逐个解码当前时刻的字符,而在解码第一个字符时的没有上个时刻的结果。采用全局语义信息来给第一个保活后面时刻的解码结果提供解码方向。该解码器的结构采用三层Transformer解码单元。其中每个解码单元包括了两个多头注意力层和一个前馈网络层。多头自注意力网络层的头数为8,每个头的查询矩阵、键矩阵和值矩阵的维度为64,输出的特征维度为512。而前馈神经网络层采用两层一维卷积,卷积核的大小为1×1,步长为1×1,第一层卷积的输出通道数为1024,第二层卷积的输出通道数为512。
最后通过输入场景文本图片,经过语义增强器得到全局语义信息,并用该语义信息初始化解码器,得到的最后的结果如图4所示。最终该方法在多个公开数据集上获得了前沿的效果,对低质量的场景文本尤其鲁棒。而且,通过对比实验发现,在识别器中增加该语义增强器能够大幅提升识别器的性能。
本发明通过分析传统方法以及深度学习方法的不足之处,提出了一些针对低质量场景文本识别的新思路,主要包括利用BiLSTM和卷积神经网络搭建语义增强器来初始化解码器,从而提升识别的效果。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (10)
1.一种基于语义增强机制的场景文本识别方法,其特征在于,包括:
获取场景文本图像,对场景文本图像进行校正,对校正后的场景文本图像进行特征提取,获取视觉特征,基于视觉特征提取全局语义信息,基于全局语义信息,对视觉特征进行解码转录,得到场景文本识别字符串结果。
2.根据权利要求1所述基于语义增强机制的场景文本识别方法,其特征在于:
对所述场景文本图像进行校正的过程包括:
对所述场景文本图像进行预测,获取场景文本图像对应的仿射变换矩阵;
基于所述仿射变换矩阵,对场景文本图像进行空间变换,得到采样网格,基于采样网格,对场景文本图像进行采样,得到校正后的场景文本图像,其中空间变换包括旋转、缩放和平移。
3.根据权利要求1所述基于语义增强机制的场景文本识别方法,其特征在于:
对校正后的场景文本图像进行特征提取的过程包括:
将所述校正后的场景文本图像进行二维视觉特征提取,并对二维视觉特征提取结果进行上下文建模,获取视觉特征。
4.根据权利要求1所述基于语义增强机制的场景文本识别方法,其特征在于:
所述全局语义信息的提取过程包括:
将所述视觉特征从视觉空间映射到语言空间,对语音空间中的视觉特征进行预测,得到全局语义信息。
5.根据权利要求1所述基于语义增强机制的场景文本识别方法,其特征在于:
对视觉特征进行解码转录的过程包括:
将所述全局语义信息作为初始向量,基于初始向量,对所述视觉特征进行逐步解码获取字符向量,将所述字符向量进行转录,得到场景文本识别字符串结果。
6.根据权利要求1-5任一项所述基于语义增强机制的场景文本识别方法的识别系统,其特征在于,包括:文本校正器、特征编码器、语义增强器、序列解码器;
所述文本矫正器用于获取场景文本图像,对场景文本图像进行校正,
所述特征编码器用于对校正后的场景文本图像进行特征提取,获取视觉特征,
所述语义增强器基于视觉特征提取全局语义信息,
所述序列解码器基于全局语义信息,对视觉特征进行解码转录,得到场景文本识别字符串结果。
7.根据权利要求6所述基于语义增强机制的场景文本识别系统,其特征在于:
所述文本矫正器包括定位网络、网格生成器及采样器;
所述定位网络用于对所述场景文本图像进行预测,获取场景文本图像对应的仿射变换矩阵;
所述网格生成器基于所述仿射变换矩阵,对场景文本图像进行空间变换,生成采样网格;
所述采样器基于采样网络,对场景文本图像进行采样,得到校正后的场景文本图像。
8.根据权利要求6所述基于语义增强机制的场景文本识别系统,其特征在于:
所述特征编码器采用卷积神经网络结构及基于自注意力的网络结构;
所述卷积神经网络结构用于将所述校正后的场景文本图像进行二维视觉特征提取;
基于自注意力的网络结构用于对二维视觉特征提取结果进行上下文建模,获取视觉特征。
9.根据权利要求6所述基于语义增强机制的场景文本识别系统,其特征在于:
所述语义增强器采用卷积和循环神经网络结构;
所述卷积和循环神经网络结构用于将所述视觉特征从视觉空间映射到语言空间,对语音空间中的视觉特征进行预测,得到全局语义信息。
10.根据权利要求6所述基于语义增强机制的场景文本识别系统,其特征在于:
所述序列解码器采用Transformer结构的解码器;
采用Transformer结构的解码器用于将所述全局语义信息作为初始向量,基于初始向量,对所述视觉特征进行逐步解码获取字符向量,将所述字符向量进行转录,得到场景文本识别字符串结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375908.5A CN114581905A (zh) | 2022-04-11 | 2022-04-11 | 一种基于语义增强机制的场景文本识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210375908.5A CN114581905A (zh) | 2022-04-11 | 2022-04-11 | 一种基于语义增强机制的场景文本识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114581905A true CN114581905A (zh) | 2022-06-03 |
Family
ID=81779421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210375908.5A Pending CN114581905A (zh) | 2022-04-11 | 2022-04-11 | 一种基于语义增强机制的场景文本识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114581905A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994264A (zh) * | 2023-08-03 | 2023-11-03 | 深圳市博锐高科科技有限公司 | 一种文本识别方法、芯片及终端 |
CN117351475A (zh) * | 2023-09-21 | 2024-01-05 | 山东睿芯半导体科技有限公司 | 一种场景文本识别方法、装置、芯片及终端 |
CN117912005A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753827A (zh) * | 2020-05-15 | 2020-10-09 | 中国科学院信息工程研究所 | 基于语义强化编码器解码器框架的场景文字识别方法及系统 |
CN113591546A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN113723423A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于渐进矫正机制的场景文本识别方法 |
-
2022
- 2022-04-11 CN CN202210375908.5A patent/CN114581905A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753827A (zh) * | 2020-05-15 | 2020-10-09 | 中国科学院信息工程研究所 | 基于语义强化编码器解码器框架的场景文字识别方法及系统 |
CN113591546A (zh) * | 2021-06-11 | 2021-11-02 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN113723423A (zh) * | 2021-09-06 | 2021-11-30 | 华南理工大学 | 一种基于渐进矫正机制的场景文本识别方法 |
Non-Patent Citations (1)
Title |
---|
QIANYING LIAO ET AL.: "A Multi-level Progressive Rectification Mechanism for Irregular Scene Text Recognition", 《DOCUMENT ANALYSIS AND RECOGNITION–ICDAR 2021》,, 10 September 2021 (2021-09-10), pages 140 - 155, XP047683809, DOI: 10.1007/978-3-030-86337-1_10 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994264A (zh) * | 2023-08-03 | 2023-11-03 | 深圳市博锐高科科技有限公司 | 一种文本识别方法、芯片及终端 |
CN117351475A (zh) * | 2023-09-21 | 2024-01-05 | 山东睿芯半导体科技有限公司 | 一种场景文本识别方法、装置、芯片及终端 |
CN117912005A (zh) * | 2024-03-19 | 2024-04-19 | 中国科学技术大学 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Baek et al. | What if we only use real datasets for scene text recognition? toward scene text recognition with fewer labels | |
Shi et al. | Aster: An attentional scene text recognizer with flexible rectification | |
Gao et al. | Reading scene text with fully convolutional sequence modeling | |
CN109524006B (zh) | 一种基于深度学习的汉语普通话唇语识别方法 | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN112860888B (zh) | 一种基于注意力机制的双模态情感分析方法 | |
Chandio et al. | Cursive text recognition in natural scene images using deep convolutional recurrent neural network | |
CN114581905A (zh) | 一种基于语义增强机制的场景文本识别方法及系统 | |
Lei et al. | Scene text recognition using residual convolutional recurrent neural network | |
Jain et al. | Unconstrained OCR for Urdu using deep CNN-RNN hybrid networks | |
Qiao et al. | Gaussian constrained attention network for scene text recognition | |
Dai et al. | SLOAN: Scale-adaptive orientation attention network for scene text recognition | |
CN115116066A (zh) | 一种基于字符距离感知的场景文本识别方法 | |
CN115116074A (zh) | 一种手写体文字识别、及模型训练方法和装置 | |
CN112836702A (zh) | 一种基于多尺度特征提取的文本识别方法 | |
Bagi et al. | Cluttered textspotter: An end-to-end trainable light-weight scene text spotter for cluttered environment | |
Ma et al. | PIEED: Position information enhanced encoder-decoder framework for scene text recognition | |
CN111144469B (zh) | 基于多维关联时序分类神经网络的端到端多序列文本识别方法 | |
Yan et al. | MEAN: multi-element attention network for scene text recognition | |
Da et al. | Multi-granularity prediction with learnable fusion for scene text recognition | |
CN113723421B (zh) | 基于匹配类别嵌入的零样本的汉字识别方法 | |
CN112926684B (zh) | 一种基于半监督学习的文字识别方法 | |
Raisi et al. | Occluded text detection and recognition in the wild | |
Wang et al. | ReELFA: A scene text recognizer with encoded location and focused attention | |
Ahmed et al. | Sub-sampling approach for unconstrained Arabic scene text analysis by implicit segmentation based deep learning classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |