CN112541501B - 一种基于视觉语言建模网络的场景文字识别方法 - Google Patents
一种基于视觉语言建模网络的场景文字识别方法 Download PDFInfo
- Publication number
- CN112541501B CN112541501B CN202011502420.1A CN202011502420A CN112541501B CN 112541501 B CN112541501 B CN 112541501B CN 202011502420 A CN202011502420 A CN 202011502420A CN 112541501 B CN112541501 B CN 112541501B
- Authority
- CN
- China
- Prior art keywords
- visual
- character
- information
- shielded
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于视觉语言建模网络的场景文字识别方法,训练过程中,通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果,引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容,从而赋予视觉模型语言能力;因此,在不需要引入额外语言模型结构的情况下,视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征,从而提升识别能力。并且,整个字符级掩码的生成过程只需要原有的词级标注,不需要引入额外的标注信息;测试过程中只使用了主干网络和视觉语义推理模块进行识别,因此位置感知的掩码生成模块只在训练过程中使用,不引入额外的计算开销。
Description
技术领域
本发明涉及自然场景文字识别技术领域,尤其涉及一种基于视觉语言建模网络的场景文字识别方法。
背景技术
自然场景文字识别是一种通用的文字识别技术,已成为近年来计算机视觉与文档分析领域的热点研究方向,并且被广泛应用于自动驾驶,车牌识别,帮助视障人士等领域。该任务的目标是将图像中的文字内容转换成可编辑的文字。
由于自然场景中的文字具有分辨率低下、背景复杂、易受噪声干扰等特点,导致传统的文字识别技术无法应用到自然场景中。因此,自然场景中的文字识别技术具有重大的研究意义。
随着近年来深度学习技术在计算机视觉领域的发展,近期的场景文字识别方法达到了比较好的效果。这些方法都使用了额外的语言模型捕捉语言信息,通过将独立的视觉和语言信息融合的方式来提升文字图像的识别精度(例如分辨率低、背景复杂、受噪声干扰的图像)。但是这些方法存在两个问题:1)因为另外地引入了语言模型结构,导致大量的额外计算开销。2)由于在两个分开的模块中分别建模视觉信息和语言信息,导致网络很难充分考虑和有效融合两个独立的信息实现准确的文字识别。因此目前场景文字识别的速度和精度还有待提升。
发明内容
本发明的目的是提供一种基于视觉语言建模网络的场景文字识别方法,可以提升场景文字识别的速度和精度。
本发明的目的是通过以下技术方案实现的:
一种基于视觉语言建模网络的场景文字识别方法,包括:
构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型,通过训练引导视觉模型根据视觉上下文信息推理出被遮挡的字符信息,从而赋予视觉模型语言能力;
训练过程包括:主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入,字符索引对应的字符信息作为被遮挡的字符信息,采用弱监督互补学习的方式,学习被遮挡的字符信息、以及被遮挡后的字符信息,从而来指导被遮挡的字符信息的字符级掩码图的生成;基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入,视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息,最终输出词级预测结果;根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数,从而训练所述视觉模型;
训练完毕后,主干网络对输入的包含场景文字的测试图像进行视觉特征提取,再通过视觉语义推理模块,获得词级识别结果。
由上述本发明提供的技术方案可以看出,训练过程中,通过使视觉模型直接在被遮挡的文字图像特征中识别完整的词级结果,引导视觉模型根据视觉上下文信息推理出被遮挡的文字内容,从而赋予视觉模型语言能力;因此,在不需要引入额外语言模型结构的情况下,视觉模型自适应地在视觉上下文中捕捉语言信息来增强视觉特征,从而提升识别能力。并且,用于遮挡视觉特征的字符级掩码的生成过程只需要原有的词级标注,不需要引入额外的标注信息;测试过程中只使用了主干网络和视觉语义推理模块进行识别,因此位置感知的掩码生成模块只在训练过程中使用,在测试过程中不引入额外的计算开销。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于视觉语言建模网络的场景文字识别方法的框架图;
图2为本发明实施例提供的位置感知掩码生成模块的原理图;
图3为本发明实施例提供的视觉语义推理模块的原理图;
图4为本发明实施例提供的视觉语义推理层通过从视觉上下文中提取语言信息来增强视觉特征的示意图;
图5为本发明实施例提供的视觉语义推理模块通过学习语言信息提升识别性能的示意图;
图6为本发明实施例提供的传统方案与本发明的区别示意图;
图7为本发明实施例提供的OST数据集生成示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于视觉语言建模网络的场景文字识别方法,如图1所示,主要包括:
构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型,通过使用位置感知掩码生成模块在训练中引导视觉语义推理模块根据视觉上下文信息推理出被遮挡的字符信息,从而赋予视觉模型语言能力;
训练过程包括:主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入,字符索引对应的字符信息作为被遮挡的字符信息,采用弱监督互补学习的方式,学习被遮挡的字符信息、以及被遮挡后的字符信息,从而来指导被遮挡的字符信息字符级掩码图的生成;基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入,视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息,最终输出词级预测结果;根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数,从而训练所述视觉模型;
训练完毕后,主干网络对输入的包含场景文字的测试图像进行视觉特征提取,再通过视觉语义推理模块,获得词级识别结果。
图1所示的框架中,下半部分是训练阶段所涉及的操作,即位置感知的掩码生成模块只在训练过程中使用,测试过程中只使用了主干网络和视觉语义推理模块进行识别。
下面结合视觉模型的组成对整个识别过程做详细的介绍。
一、主干网络。
本发明实施例中,主干网络可以采用ResNet45结构;示例性的,可以在第2,3,4stage设置步长为2,输入图片尺寸为256×64,输出大小为32×8的特征图V。
二、位置感知的掩码生成模块。
如图2所示,位置感知的掩码生成模块以主干网络提取的特征V和随机生成的字符索引P作为输入,输出对应位置的字符级掩码图。同时,提出了一种弱监督互补学习策略,通过两个平行的分支(即第二个分支与第三个分支)分别去学习被遮挡的字符信息和被遮挡后的字符信息来指导遮挡字符掩码的生成。
如图2所示,所述位置感知掩码生成模块包含三个分支。
第一个分支将视觉特征V与编码后的字符索引(即字符索引通过embedding映射层后的输出)级联,再通过Transformer模型后,经Sigmoid层生成[0,1]的掩码图Maskc,也即,被遮挡的字符信息的字符级掩码图(例如,字符“b”的掩码图)。
第二个分支通过掩码图Maskc点乘视觉特征V得到被遮挡字符的语义信息;第三个分支通过1-Maskc点乘视觉特征V得到被遮挡后的字符串的语义信息,两类语义信息各自通过Transformer模型后,再各自通过预测层控制第二和第三个分支的语义信息来指导掩码图Maskc的学习过程。
预测层的计算公式为:
Attt,ij=(Softmax(G(vij)))
其中,Pt′为每个字符的概率,t为对应的时间步,一个时间步对应一个字符;Attt,ij为对应时间步的注意力图,vij为视觉特征,Attt,ijvij表示对应时间步的注意力图与视觉特征做点乘操作,i和j表示二维空间中对应的位置,G为线性变换层。
如图1左侧输入的图像为例,字符信息为“concubines”,随机生成的字符索引P=6,第二个分支与第三个分支中,都使用了掩码图Maskc,因此,第二个分支的监督为字符索引对应的字符(也即,被遮挡的字符“b”),所述第三个分支的监督为除去字符索引对应字符之外的剩余字符(也即,被遮挡后的字符串“concuines”),因此,使得第二和第三个分支能够指导Maskc只覆盖对应索引的字符而不包含剩余的字符。
三、视觉语义推理模块。
如图1所示,通过使用1-Maskc对视觉特征V进行点乘操作后,得到被遮挡字符信息后的特征图Vm(例如,“concuines”的特征图)并输入至视觉语义推理模块。
如图3所示,所述视觉语义推理模块包括:视觉语义推理层和并行预测层;视觉语义推理层对视觉特征Vm进行增强,最终通过并行预测层输出词级预测结果。
所述视觉语义推理层使用多层Transformer模型对被遮挡字符信息视觉特征Vm在二维空间进行视觉上下文的关系建模;所述被遮挡字符信息后的特征图Vm缺少相应位置的字符信息,所述视觉语义推理层在训练过程中会学习使用视觉空间中的上下文语言信息对特征图Vm进行增强,因而在测试过程会自适应地融合视觉和语言信息增强特征的表达能力,例如:根据语言信息补全遮挡字符的视觉特征,或者根据语言信息增强具有区分力位置的视觉特征,从而提升识别结果。如图4所示,直观的体现视觉语义推理层性能与效果,第一行为输入图像,第二行为在训练过程中没有引入遮挡特征时,视觉语义推理层输出特征图。第三行为按照本发明方法中训练过程中引入遮挡特征后,视觉语义推理层输出的特征图;可见,按照本发明的方法,视觉语义推理层可以通过从视觉上下文中提取语言信息来增强视觉特征。
如图3所示,输入特征经过线性变换和注意力层得到并行注意力图(所有时间步的注意力图同时得到),通过注意力图和输入特征的点乘操作之后,输入全链接层分类得到最终的预测结果。本发明实施例中,第二、第三支路中的预测层与并行预测层结构是相同的,但是监督信息不同,并行预测层的监督是完整的词级字符串。并行预测层采用与前述预测层相同的计算公式,得到词级预测结果:
Attt,ij=(Softmax(G(vij)))
上式中,Pt为预测出的字符。
以上为视觉模型各部分的原理介绍,训练阶段采用了随机梯度下降法(SGD)对网络进行端到端的训练。网络训练的整体损失函数为:
L=LV+LP=LV+β1Lmas+β2Lrem
其中,log(pt|gt)表示交叉熵损失函数,gt为字符标签,pt为预测出的字符,即视觉语义推理模块输出的词级预测结果,N为训练中的字符数,LV为词级预测结果与实际结果的损失,也即视觉语义推理模块的损失;LP为位置感知的掩码生成模块的损失,Lmas、Lrem分别为被遮挡的字符信息、被遮挡后的字符信息与相应的实际信息的损失(也即第二个分支、第三个分支的损失);β1和β2为平衡参数。
在实验中β1=β2=0.5。网络开始训练时,选择学习率为0.001,经过6个epoch后学习率下降为0.0001,总共训练8个epoch后结束。
训练与测试阶段与训练阶段的主要区别在于,测试阶段无需位置感知的掩码生成模块参与。
图5展示了本发明上述方案的识别性能,主要体现在视觉语义推理模块通过学习语言信息提升识别性能,通过主动学习语言信息,本发明提出的方法有效的提高了对遮挡,分辨率低,模糊等图像的识别精度。图5所示的12幅图像中,每一幅图像右侧为识别结果,第一行为没有在训练过程中引入遮挡特征的识别结果,第二行为本发明提出方法的识别结果。
本发明实施例上述方案,主要获得如下两个方面的有益效果:
一、降低计算损耗,提升识别效率。
如图6所示,直观的展示了传统方案与本发明的区别,本发明在网络中只使用了视觉模型的结构,通过直接赋予视觉模型语言能力,消除了网络中语言建模的计算损耗。
二、提升了识别精度。
实验中,使用了如下数据集:
SynthText(ST):该数据集包含80k幅合成图像。使用文字框标注从图像中裁剪出文字图像块来训练视觉模型。
SynthText90K(90K):该数据集是另一个合成数据集,它包含900万张图片。本发明将该数据集和SynthText融合后训练视觉模型。
ICDAR2013(IC13):该数据集包含1095幅测试图像。将包含少于3个字符或包含非字母数字字符的图像丢弃。
ICDAR2015(IC15):该识别任务提供500幅场景图像。通过过滤一些极其扭曲的图像,1811幅裁剪的文字图像块最终得到保留。
IIIT5K-Words(IIIT5K):该数据集包含3000幅从网站上收集的图像,所有图像都用于测试。
StreetViewText(SVT):该数据集通过从250张谷歌街景的图像中根据词级标注裁剪得到647幅文字图像块。
StreetViewText-Perspective(SVTP):该数据集包含639幅图像,也是从谷歌街景图像中裁剪得到的。其中许多图像都严重失真。
CUTE80(CT):该数据集用于评估模型识别弯曲文字的性能。它包含288张裁剪的文字图像块。
OcclusionSceneText(OST):该数据集是本发明提出的一个新的数据集。OST数据集总共包含4832幅图像,通过人工从6个公开数据集(IC13,IC15,IIIT5K,SVT,SVTPandCT)中筛选得到。本发明手动地对图像中字符进行了两种不同程度的遮挡:轻微程度和严重程度。轻微程度和严重程度表示分别使用一条或者两条线对文字图像的字符视觉内容进行遮挡,从而模拟视觉信息缺失的情况来验证模型使用语言信息提升识别精度的能力。对每张图像仅使用一种程度来遮挡一个字符,如图7所示,左侧上下两幅图都是原始图像;右侧为遮挡图像,其中,上方为轻微程度遮挡、下方为严重程度遮挡。
实验阶段,使用ST和90K数据集结合前文介绍的方案来训练视觉模型,训练之后进行测试。
实验结果表明,本发明提出的方法在场景文字识别任务中达到了最先进的性能,在IIIT5K,IC13,SVT,IC15,SVTP,CT和OST数据集中精度分别为95.8%,95.7%,91.7%,83.7%,86.0%,88.5%和60.3%。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (4)
1.一种基于视觉语言建模网络的场景文字识别方法,其特征在于,包括:
构建包含主干网络、位置感知掩码生成模块及视觉语义推理模块的视觉模型,通过训练引导视觉模型根据视觉上下文信息推理出被遮挡的字符信息,从而赋予视觉模型语言能力;
训练过程包括:主干网络输出的视觉特征、以及随机生成的场景文字中的字符索引作为位置感知掩码生成模块的输入,字符索引对应的字符信息作为被遮挡的字符信息,采用弱监督互补学习的方式,学习被遮挡的字符信息、以及被遮挡后的字符信息,从而来指导被遮挡的字符信息的字符级掩码图的生成;基于被遮挡的字符信息字符级掩码图与视觉特征生成被遮挡字符信息后的特征图作为视觉语义推理模块的输入,视觉语义推理模块通过视觉上下文信息推理出被遮挡的字符信息,最终输出词级预测结果;根据词级预测结果与实际结果的损失、以及学习被遮挡的字符信息和被遮挡后的字符信息与相应的实际信息的损失构建损失函数,从而训练所述视觉模型;
训练完毕后,主干网络对输入的包含场景文字的测试图像进行视觉特征提取,再通过视觉语义推理模块,获得词级识别结果;
所述位置感知掩码生成模块包含三个分支;
第一个分支将视觉特征V与编码后的字符索引级联,再通过Transformer模型后,经Sigmoid层生成[0,1]的被遮挡的字符信息的字符级掩码图Maskc;
第二个分支通过掩码图Maskc点乘视觉特征V得到被遮挡字符的语义信息;第三个分支通过1-Maskc点乘视觉特征V得到被遮挡后的字符串的语义信息,两类语义信息各自通过Transformer模型后,再各自通过预测层控制第二和第三个分支的语义信息来指导掩码图Maskc的学习过程;所述第二个分支的监督为被遮挡的字符信息,所述第三个分支的监督为被遮挡后的字符串。
2.根据权利要求1所述的一种基于视觉语言建模网络的场景文字识别方法,其特征在于,所述被遮挡的字符信息的字符级掩码图记为Maskc,通过使用1-Maskc对视觉特征V进行点乘操作后,得到被遮挡字符信息后的的特征图Vm并输入至视觉语义推理模块;
所述视觉语义推理模块包括:视觉语义推理层和并行预测层;所述视觉语义推理层使用多层Transformer模型对被遮挡字符信息后的特征图Vm在二维空间进行视觉上下文的关系建模;所述被遮挡字符信息后的特征图Vm缺少相应位置的字符信息,所述视觉语义推理层在训练过程中会学习使用视觉空间中的上下文语言信息对视觉特征Vm进行增强,最终通过并行预测层输出词级预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502420.1A CN112541501B (zh) | 2020-12-18 | 2020-12-18 | 一种基于视觉语言建模网络的场景文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502420.1A CN112541501B (zh) | 2020-12-18 | 2020-12-18 | 一种基于视觉语言建模网络的场景文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112541501A CN112541501A (zh) | 2021-03-23 |
CN112541501B true CN112541501B (zh) | 2021-09-07 |
Family
ID=75019111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011502420.1A Active CN112541501B (zh) | 2020-12-18 | 2020-12-18 | 一种基于视觉语言建模网络的场景文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541501B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553918B (zh) * | 2021-06-30 | 2023-09-26 | 电子科技大学 | 一种基于脉冲主动学习的机打发票字符识别方法 |
CN113626553B (zh) * | 2021-07-15 | 2024-02-20 | 人民网股份有限公司 | 一种基于预训练模型的级联二进制中文实体关系提取方法 |
CN113762269B (zh) * | 2021-09-08 | 2024-03-22 | 深圳市网联安瑞网络科技有限公司 | 基于神经网络的中文字符ocr识别方法、系统及介质 |
CN114092930B (zh) * | 2022-01-07 | 2022-05-03 | 中科视语(北京)科技有限公司 | 一种文字识别方法及系统 |
CN114092931B (zh) * | 2022-01-20 | 2022-04-29 | 中科视语(北京)科技有限公司 | 场景文字识别方法、装置、电子设备及存储介质 |
CN114612912A (zh) * | 2022-03-09 | 2022-06-10 | 中译语通科技股份有限公司 | 基于智能语料库的图像文字识别方法、系统及设备 |
CN115035538B (zh) * | 2022-03-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN116189198B (zh) * | 2023-01-06 | 2024-06-28 | 北京百度网讯科技有限公司 | 文本识别模型训练方法、文本识别方法、装置及存储介质 |
CN116343190B (zh) * | 2023-05-30 | 2023-08-29 | 中国科学技术大学 | 自然场景文字识别方法、系统、设备及存储介质 |
CN116912856A (zh) * | 2023-09-14 | 2023-10-20 | 深圳市贝铂智能科技有限公司 | 一种智能扫描笔的图像识别方法、装置以及智能扫描笔 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951784A (zh) * | 2015-06-03 | 2015-09-30 | 杨英仓 | 一种车辆无牌及车牌遮挡实时检测方法 |
CN109582972A (zh) * | 2018-12-27 | 2019-04-05 | 信雅达系统工程股份有限公司 | 一种基于自然语言识别的光学字符识别纠错方法 |
CN109886174A (zh) * | 2019-02-13 | 2019-06-14 | 东北大学 | 一种仓库货架标识牌文字识别的自然场景文字识别方法 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、系统、装置和存储介质 |
CN110503090A (zh) * | 2019-07-09 | 2019-11-26 | 中国科学院信息工程研究所 | 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及系统 |
US10580213B2 (en) * | 2016-09-13 | 2020-03-03 | Magic Leap, Inc. | Systems and methods for sign language recognition |
CN111325106A (zh) * | 2020-01-22 | 2020-06-23 | 京东数字科技控股有限公司 | 生成训练数据的方法及装置 |
CN112070114A (zh) * | 2020-08-03 | 2020-12-11 | 中国科学院信息工程研究所 | 基于高斯约束注意力机制网络的场景文字识别方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718878B (zh) * | 2016-01-19 | 2019-08-09 | 华南理工大学 | 基于级联卷积神经网络的第一视角空中手写和空中交互方法 |
CN111753827B (zh) * | 2020-05-15 | 2024-02-13 | 中国科学院信息工程研究所 | 基于语义强化编码器解码器框架的场景文字识别方法及系统 |
CN111950453B (zh) * | 2020-08-12 | 2024-02-13 | 北京易道博识科技有限公司 | 一种基于选择性注意力机制的任意形状文本识别方法 |
-
2020
- 2020-12-18 CN CN202011502420.1A patent/CN112541501B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951784A (zh) * | 2015-06-03 | 2015-09-30 | 杨英仓 | 一种车辆无牌及车牌遮挡实时检测方法 |
US10580213B2 (en) * | 2016-09-13 | 2020-03-03 | Magic Leap, Inc. | Systems and methods for sign language recognition |
CN109582972A (zh) * | 2018-12-27 | 2019-04-05 | 信雅达系统工程股份有限公司 | 一种基于自然语言识别的光学字符识别纠错方法 |
CN109886174A (zh) * | 2019-02-13 | 2019-06-14 | 东北大学 | 一种仓库货架标识牌文字识别的自然场景文字识别方法 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、系统、装置和存储介质 |
CN110503090A (zh) * | 2019-07-09 | 2019-11-26 | 中国科学院信息工程研究所 | 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 |
CN110689012A (zh) * | 2019-10-08 | 2020-01-14 | 山东浪潮人工智能研究院有限公司 | 一种端到端的自然场景文本识别方法及系统 |
CN111325106A (zh) * | 2020-01-22 | 2020-06-23 | 京东数字科技控股有限公司 | 生成训练数据的方法及装置 |
CN112070114A (zh) * | 2020-08-03 | 2020-12-11 | 中国科学院信息工程研究所 | 基于高斯约束注意力机制网络的场景文字识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks;Deli Yu 等;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200805;第12110-12119页 * |
基于深度学习的自然场景文字识别;高威威;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190731(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112541501A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541501B (zh) | 一种基于视觉语言建模网络的场景文字识别方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN109145712B (zh) | 一种融合文本信息的gif短视频情感识别方法及系统 | |
CN110298037A (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN105678292A (zh) | 基于卷积及递归神经网络的复杂光学文字序列识别系统 | |
CN110647632B (zh) | 基于机器学习的图像与文本映射技术 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN116343190B (zh) | 自然场景文字识别方法、系统、设备及存储介质 | |
CN109766918A (zh) | 基于多层次上下文信息融合的显著性物体检测方法 | |
CN110490189A (zh) | 一种基于双向消息链路卷积网络的显著性物体的检测方法 | |
CN113255678A (zh) | 一种基于语义分割的道路裂缝自动识别方法 | |
CN113837290A (zh) | 一种基于注意力生成器网络的无监督非成对图像翻译方法 | |
CN114677536B (zh) | 一种基于Transformer结构的预训练方法及装置 | |
CN114463805B (zh) | 深度伪造检测方法、装置、存储介质及计算机设备 | |
CN114661951A (zh) | 一种视频处理方法、装置、计算机设备以及存储介质 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN113505640A (zh) | 一种基于多尺度特征融合的小尺度行人检测方法 | |
CN109886251A (zh) | 一种基于姿势引导对抗学习的端到端的行人再识别方法 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
WO2023078264A1 (zh) | 一种名片信息抽取系统训练方法及装置、计算机可读存储介质 | |
CN116956920A (zh) | 一种多任务协同表征的多模态命名实体识别方法 | |
CN115953832A (zh) | 一种基于语义解耦的自注意力模型的组合动作识别方法 | |
CN113743497A (zh) | 基于注意力机制与多尺度特征的细粒度识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |