CN114092931A - 场景文字识别方法、装置、电子设备及存储介质 - Google Patents

场景文字识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114092931A
CN114092931A CN202210063467.5A CN202210063467A CN114092931A CN 114092931 A CN114092931 A CN 114092931A CN 202210063467 A CN202210063467 A CN 202210063467A CN 114092931 A CN114092931 A CN 114092931A
Authority
CN
China
Prior art keywords
scene
character
image
model
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210063467.5A
Other languages
English (en)
Other versions
CN114092931B (zh
Inventor
王金桥
陈盈盈
谭颖韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202210063467.5A priority Critical patent/CN114092931B/zh
Publication of CN114092931A publication Critical patent/CN114092931A/zh
Application granted granted Critical
Publication of CN114092931B publication Critical patent/CN114092931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供一种场景文字识别方法、装置、电子设备及存储介质,其中方法包括:获取待识别的场景图像;将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是额外采用文字掩码增强训练和插值查询增强训练得到的。本发明提供的方法和装置,通过文字掩码增强训练提高了模型对于文字区域的感知能力,通过插值查询增强训练提高了模型对于文字序列的感知能力,当模型对文字识别结果进行语言纠正时具有更高的准确率,通过将模型中视觉识别层和语言纠正层进行联合训练的方法,提高了模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。

Description

场景文字识别方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种场景文字识别方法、装置、电子设备及存储介质。
背景技术
场景文字识别(Scene Text Recognition)是计算机视觉中的基本研究方向之一,通过提取图像中的文字转化为计算机可辨识和可操作的符号,在生活中也具有广泛的应用,例如路牌识别、自动驾驶、场景翻译、信息检索等等。由于自然场景中的文字往往受到字体丰富、形态不规则、遮挡干扰等因素的影响,图像的文字区域定位以及特征的判别性表达仍是具有挑战性的任务。
现有技术中,通过采用卷积神经网络或者递归神经网络等深度学习方法对复杂场景中的文字进行识别,当文字序列较长或者场景图像质量较低时,场景文字识别的准确率差。
发明内容
本发明提供一种场景文字识别方法、装置、电子设备及存储介质,用于解决现有技术中当文字序列较长或者场景图像质量较低时,场景文字识别的准确率差的技术问题。
本发明提供一种场景文字识别方法,包括:
获取待识别的场景图像;
将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
根据本发明提供的场景文字识别方法,所述场景文字识别模型是基于如下步骤训练得到的:
基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到所述场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在所述任一样本场景图像中的识别次序和所述任一样本场景图像的图像编码特征的特征深度确定的。
根据本发明提供的场景文字识别方法,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行文字掩码增强训练,得到所述场景文字识别模型,包括:
在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
根据本发明提供的场景文字识别方法,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行插值查询增强训练,得到所述场景文字识别模型,包括:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定所述任一对相邻文字的插值查询向量,并基于第一文字的识别标签和所述第一插值权重,以及第二文字的识别标签和所述第二插值权重,确定所述任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
根据本发明提供的场景文字识别方法,所述将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果,包括:
将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果;
将所述初始识别结果输入至所述场景文字识别模型的语言纠正层,得到所述语言纠正层输出的语言纠正特征;
将所述图像编码特征和所述语言纠正特征输入至所述场景文字识别模型的融合识别层,得到所述融合识别层输出的文字识别结果。
根据本发明提供的场景文字识别方法,所述将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果,包括:
将所述场景图像输入至所述视觉识别层的特征编码层,得到所述特征编码层输出的图像编码特征;
将所述图像编码特征输入至所述视觉识别层的特征解码层,由所述特征解码层确定所述场景图像中各文字的查询向量,并基于各文字的查询向量和所述图像编码特征,确定所述场景图像的初始识别结果。
根据本发明提供的场景文字识别方法,所述特征编码层是基于ResNet50和Transformer确定的。
本发明提供一种场景文字识别装置,包括:
获取单元,用于获取待识别的场景图像;
识别单元,用于将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述场景文字识别方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述场景文字识别方法的步骤。
本发明提供的场景文字识别方法、装置、电子设备及存储介质,通过场景文字识别模型对场景图像进行识别得到文字识别结果,场景文字识别模型是通过基础训练、文字掩码增强训练和插值查询增强训练得到的,其中,文字掩码增强训练可以提高场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野,插值查询增强训练将离散化的查询向量进行连续化,更贴合图像的连续空间,可以提高场景文字识别模型对于文字之间的序列关系的感知能力,两种增强训练方法使得模型能够准确预测文字识别结果中的文字长度,当模型对文字识别结果进行语言纠正时具有更高的准确率,提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的场景文字识别方法的流程示意图;
图2是本发明提供的场景文字识别模型的训练示意图;
图3是本发明提供的场景文字识别模型的结构示意图;
图4是本发明提供的场景文字识别装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的场景文字识别方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待识别的场景图像。
具体地,场景图像为包含待识别文字的图像。对场景图像进行识别,就是对场景图像中的文字进行识别。例如,场景图像可以为对道路两边的路牌进行拍照后得到的图像。对这些图像中的文字进行识别,并根据文字的识别结果获取道路信息。
需要说明的是,本发明中的文字可以为一个有语义的字符,也可以为无语义的字符,例如标点符号等。
步骤120,将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;
文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;
插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
具体地,文字识别结果为对场景图像中的文字进行识别后得到的结果。例如,对于某路牌的图像进行识别后可以得到图像中的文字识别结果“高速入口”。
可以通过深度学习的方法得到场景文字识别模型,场景文字识别模型用于对输入的场景图像进行识别,得到该场景图像对应的文字识别结果。具体可以通过基础训练得到场景文字识别模型:
首先,收集大量的样本场景图像;其次,对每一样本场景图像进行标注,确定每一样本场景图像对应的文字识别标签,也就是每一样本场景图像中的文字;再次,根据大量的样本场景图像,以及每一样本场景图像对应的文字识别标签对初始模型进行训练,使得初始模型能够学习到样本场景图像中文字所在的图像区域与文字识别标签之间的关联特性,提高初始模型对于场景图像中文字的识别能力,得到场景文字识别模型。
初始模型可以选择卷积神经网络模型、循环神经网络模型或者递归神经网络模型等,本发明实施例对于初始模型的选择不作具体限定。
对于场景文字识别模型,可以在模型内部设置一个语言纠正层,用来利用文字之间存在的语言逻辑或者语法标准,对场景文字识别模型通过图像识别得到的结果进行纠正。例如,对于场景图像中的词语“world”,若识别结果为“worid”或者“warld”,则可以通过语言纠正层进行纠正。但是,如果场景文字识别模型出现漏识别或者额外识别等问题时,识别结果会出现文字错位,无法对齐的问题,使得无法通过语言纠正层进行识别。例如,上述词语中“l”漏识别时,得到的词语“word”也具有语言特性而无法纠正。因此,提高场景文字识别模型对于场景图像中单个文字的位置,以及多个文字之间的序列关系的识别能力非常重要。
在基础训练之后,可以额外采用文字掩码增强训练和插值查询增强训练的方法,对场景文字识别模型进行增强训练。
文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,相应地,在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,根据擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练。
插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,相应地,在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,根据插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
通过文字掩码增强训练,让场景文字识别模型可以感知到文字被擦除前后识别范围的变化,可以增强场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力;通过插值查询增强训练,将文字之间离散的位置关系转换为连续的位置关系,可以增强场景文字识别模型对于文字之间的序列关系的感知能力。
两种训练方法可以单独采用,也可以交替采用。例如,可以先采用文字掩码增强训练,先对样本场景图像的图像编码特征进行文字擦除,然后进行查询向量插值,采用插值查询增强训练。
本发明实施例提供的场景文字识别方法,通过场景文字识别模型对场景图像进行识别得到文字识别结果,场景文字识别模型是通过基础训练、文字掩码增强训练和插值查询增强训练得到的,其中,文字掩码增强训练可以提高场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野,插值查询增强训练将离散化的查询向量进行连续化,更贴合图像的连续空间,可以提高场景文字识别模型对于文字之间的序列关系的感知能力,两种增强训练方法使得模型能够准确预测文字识别结果中的文字长度,当模型对文字识别结果进行语言纠正时具有更高的准确率,提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
基于上述实施例,场景文字识别模型是基于如下步骤训练得到的:
基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在任一样本场景图像中的识别次序和任一样本场景图像的图像编码特征的特征深度确定的。
具体地,场景文字识别模型可以采用并行注意力机制对场景图像进行识别。场景 文字识别模型先对输入的场景图像进行特征提取,得到图像编码特征,其大小为
Figure 377031DEST_PATH_IMAGE001
,其中
Figure 120734DEST_PATH_IMAGE002
分别为图像编码特征(特征图)的高度,宽度以及深度(维度)。
可以将场景图像的图像编码特征作为注意力机制中的键特征图
Figure 89958DEST_PATH_IMAGE003
(key)和值特征 图
Figure 949330DEST_PATH_IMAGE004
(value)。
可以根据各文字在场景图像中的识别次序和该场景图像的图像编码特征的特征 深度,按照三角函数位置编码确定各文字的查询向量
Figure 292586DEST_PATH_IMAGE005
,用公式表示为:
Figure 777663DEST_PATH_IMAGE006
Figure 850661DEST_PATH_IMAGE007
Figure 631667DEST_PATH_IMAGE008
式中,
Figure 790116DEST_PATH_IMAGE009
为场景图像中的识别次序,
Figure 547725DEST_PATH_IMAGE010
为查询向量
Figure 740809DEST_PATH_IMAGE005
的特征深度(维度),
Figure 692716DEST_PATH_IMAGE011
为特征 深度(维度)的序号。
根据三角函数的性质,距离较近的文字的查询向量
Figure 338461DEST_PATH_IMAGE005
具有更高的相似度,距离较 远的文字的查询向量
Figure 634181DEST_PATH_IMAGE005
具有较低的相似度,这满足空间的连续性性质。相比于具有离散性 性质的查询向量,具有相似性关系的查询向量具有序列关系明确的特点,更适用于解决较 长序列文字识别问题。
根据注意力机制,可以确定各文字的注意力响应区域,用公式表示为:
Figure 681772DEST_PATH_IMAGE012
式中,
Figure 804580DEST_PATH_IMAGE013
为图像编码特征的维度,
Figure 937621DEST_PATH_IMAGE014
为第
Figure 326050DEST_PATH_IMAGE009
个文字的查询向量,
Figure 228146DEST_PATH_IMAGE015
为第
Figure 521856DEST_PATH_IMAGE009
个文字的注意力响应区域,此公式中
Figure 876614DEST_PATH_IMAGE016
为转置运算符号。
在此基础上,可以得到各文字的注意力输出特征,用公式表示为:
Figure 45296DEST_PATH_IMAGE017
式中,
Figure 801899DEST_PATH_IMAGE018
为第
Figure 266510DEST_PATH_IMAGE009
个文字的注意力输出特征,
Figure 170881DEST_PATH_IMAGE004
为值特征图。
不同于相关技术中采用
Figure 877674DEST_PATH_IMAGE019
函数用于计算注意力,本发明实施例中采用
Figure 488784DEST_PATH_IMAGE020
函数用于计算注意力。一方面,
Figure 389875DEST_PATH_IMAGE019
函数往往将响应区域归于一点,这个性 质不利于之后的文字掩码增强训练;另一方面,
Figure 719225DEST_PATH_IMAGE020
无需和其他文字的像素进行比 较,增强了查询向量
Figure 698552DEST_PATH_IMAGE005
的鲁棒性。
场景文字识别模型的训练过程与识别过程相似,不同的是采用样本场景图像和样本场景图像对应的文字识别标签对初始模型进行训练。
训练方式包括基础训练、文字掩码增强训练和插值查询增强训练。
基于上述任一实施例,基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行文字掩码增强训练,得到场景文字识别模型,包括:
在任一样本场景图像中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在任一样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
具体地,在基础训练中,该样本场景图像的键特征图
Figure 429747DEST_PATH_IMAGE003
与该样本场景图像的图像 编码特征相同。
进行文字掩码增强训练时,以任一样本场景图像为例,在任一样本场景图像的图 像编码特征中随机选择若干个文字{
Figure 501740DEST_PATH_IMAGE021
}进行擦除,
Figure 52807DEST_PATH_IMAGE022
为被擦除的文字的数量。 可以将擦除后的图像编码特征作为新的键特征图
Figure 366982DEST_PATH_IMAGE023
,进行增强训练。
根据擦除前该样本场景图像的键特征图
Figure 952684DEST_PATH_IMAGE003
,可以得到擦除后的键特征图
Figure 929999DEST_PATH_IMAGE023
,用公 式表示为:
Figure 233941DEST_PATH_IMAGE024
式中,
Figure 509065DEST_PATH_IMAGE025
为被擦除的文字
Figure 198541DEST_PATH_IMAGE026
的注意力响应区域,
Figure 861603DEST_PATH_IMAGE027
根据注意力机制,可以得到:
Figure 137995DEST_PATH_IMAGE028
Figure 279126DEST_PATH_IMAGE029
式中,
Figure 354268DEST_PATH_IMAGE030
为擦除后的图像编码特征中第
Figure 657073DEST_PATH_IMAGE009
个文字的注意力响应区域,
Figure 686340DEST_PATH_IMAGE031
为擦除后的图像编码特征中第
Figure 631162DEST_PATH_IMAGE009
个文字的注意力输出特征。
相应地,擦除前的文字识别标签为{
Figure 295231DEST_PATH_IMAGE032
},
Figure 34516DEST_PATH_IMAGE033
为文字识别标签中文字的数 量,擦除后的文字识别标签为{
Figure 285500DEST_PATH_IMAGE032
}-{
Figure 34014DEST_PATH_IMAGE034
},各文字的识别标签按 照相应的识别序列排列。
根据每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
擦除操作后的训练为增强训练。经过擦除操作后,一方面,同一个
Figure 552588DEST_PATH_IMAGE014
在两次擦除 前后中分别解码不同字符,增强了
Figure 525092DEST_PATH_IMAGE014
的动态响应范围。另一方面,经过擦除后完全抹去 文字次序{
Figure 263372DEST_PATH_IMAGE035
}的特征使其在第二次解码中不被识别,从彻底擦除的角度,增强 了模型的识别注意力响应区域覆盖的完整性,提升了网络的识别性能。
基于上述任一实施例,基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行插值查询增强训练,得到场景文字识别模型,包括:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定任一对相邻文字的插值查询向量,并基于第一文字的识别标签和第一插值权重,以及第二文字的识别标签和第二插值权重,确定任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
具体地,采用三角函数位置编码设计,使相邻文字的查询向量
Figure 753260DEST_PATH_IMAGE005
具有更高相似度, 其本质仍为离散的查询向量。为了使查询向量
Figure 188658DEST_PATH_IMAGE005
具有与特征图同样的序列连续性,可以对 查询向量
Figure 535326DEST_PATH_IMAGE005
进行插值。
以任一样本场景图像为例,选择若干对相邻文字的查询向量。为了方便表述,每一对相邻文字包括第一文字和第二文字。
对于选取的
Figure 698585DEST_PATH_IMAGE036
对相邻文字中的第
Figure 585638DEST_PATH_IMAGE037
对相邻文字,
Figure 78805DEST_PATH_IMAGE038
,第一文字的查询向量为
Figure 596374DEST_PATH_IMAGE014
,第二文字的查询向量为
Figure 309247DEST_PATH_IMAGE039
Figure 937674DEST_PATH_IMAGE040
,H为样本场景图像中文字序列的 长度。采用动态随机概率
Figure 285348DEST_PATH_IMAGE041
作为第一插值权重,相应地,
Figure 708239DEST_PATH_IMAGE042
作为第二插值权重。采用线性 插值的方法,加权求和后确定该对相邻文字的插值查询向量
Figure 642828DEST_PATH_IMAGE043
,用公式表示为:
Figure 74946DEST_PATH_IMAGE044
通过增强训练中的随机概率加权,查询向量从离散特征点连续化,以更充分地表示文字序列。
对于插值查询向量
Figure 965542DEST_PATH_IMAGE043
,其识别过程可以用公式表示为:
Figure 74181DEST_PATH_IMAGE045
Figure 745334DEST_PATH_IMAGE046
式中,
Figure 466296DEST_PATH_IMAGE047
为查询向量插值后的图像编码特征中第
Figure 539294DEST_PATH_IMAGE037
个文字的注意力响应区域,
Figure 694201DEST_PATH_IMAGE048
为查询向量插值后第
Figure 852650DEST_PATH_IMAGE037
个文字的注意力输出特征。
其中,键特征图
Figure 875839DEST_PATH_IMAGE003
可以为基础训练过程中的图像编码特征。当采用文字掩码增强 训练时,键特征图
Figure 68922DEST_PATH_IMAGE003
还可以为文字掩码增强训练中的擦除后的图像编码特征(对应上述实 施例中的键特征图
Figure 20829DEST_PATH_IMAGE023
)。
由于查询向量的插值,其对应标签也同样进行插值,相应地,可以根据第一文字的 识别结果
Figure 400995DEST_PATH_IMAGE049
和第一插值权重
Figure 227874DEST_PATH_IMAGE050
,以及第二文字的识别结果
Figure 275465DEST_PATH_IMAGE051
和第二插值权重
Figure 132693DEST_PATH_IMAGE052
,确定插值查询向量
Figure 155DEST_PATH_IMAGE043
的插值识别标签
Figure 201084DEST_PATH_IMAGE053
,用公式表示为:
Figure 103181DEST_PATH_IMAGE054
以同样的概率加权,可以增强查询向量空间的连续性,一致性。
相应地,插值前的文字识别标签为{
Figure 396890DEST_PATH_IMAGE032
},
Figure 17227DEST_PATH_IMAGE033
为文字识别标签中文字的数 量,插值后的文字识别标签为{
Figure 920330DEST_PATH_IMAGE055
},各文字的识别标签按照相应的识别序 列排列。
基于上述任一实施例,图2是本发明提供的场景文字识别模型的训练示意图,如图2所示,场景文字识别模型的训练流程包括:
步骤一、对于输入的样本场景图像,提取图像编码特征;
步骤二、基础训练
根据图像编码特征,生成各文字的查询向量,利用注意力机制对初始模型进行基础训练。
步骤三、插值查询增强训练
以图像编码特征为键特征图
Figure 942513DEST_PATH_IMAGE003
,插值后得到插值后的查询向量
Figure 203861DEST_PATH_IMAGE056
,对初始模型进 行插值查询增强训练。
步骤四、文字掩码增强训练
随机挑选键特征图
Figure 45915DEST_PATH_IMAGE003
的响应区域进行擦除,得到擦除后的图像编码特征作为键特 征图
Figure 955971DEST_PATH_IMAGE023
,对初始模型进行文字掩码增强训练。
步骤五、插值查询增强训练
以键特征图
Figure 629398DEST_PATH_IMAGE023
作为图像编码特征,插值后得到查询向量
Figure 264910DEST_PATH_IMAGE057
,对初始模型进行插值 查询增强训练。
其中,步骤三、四和五为增强训练步骤,仅在模型的训练阶段执行。增强训练增强了模型对于文字序列特征的识别能力。
基于上述任一实施例,步骤120包括:
将场景图像输入至场景文字识别模型的视觉识别层,得到视觉识别层输出的图像编码特征和初始识别结果;
将初始识别结果输入至场景文字识别模型的语言纠正层,得到语言纠正层输出的语言纠正特征;
将图像编码特征和语言纠正特征输入至场景文字识别模型的融合识别层,得到融合识别层输出的文字识别结果。
具体地,图3是本发明提供的场景文字识别模型的结构示意图,如图3所示,场景文字识别模型包括视觉识别层、语言纠正层和融合识别层。
将场景图像
Figure 594260DEST_PATH_IMAGE058
输入至场景文字识别模型的视觉识别层,得到视觉识别层输出的图 像编码特征
Figure 104744DEST_PATH_IMAGE059
和初始识别结果
Figure 570361DEST_PATH_IMAGE060
将初始识别结果
Figure 376774DEST_PATH_IMAGE060
输入至场景文字识别模型的语言纠正层,得到语言纠正层输出 的语言纠正特征G,用公式表示为:
Figure 193420DEST_PATH_IMAGE061
式中,
Figure 507596DEST_PATH_IMAGE062
为语言纠正层,
Figure 93298DEST_PATH_IMAGE063
为嵌入操作。
将图像编码特征
Figure 991984DEST_PATH_IMAGE059
和语言纠正特征G输入至场景文字识别模型的融合识别层,得到 融合识别层输出的融合识别特征
Figure 46659DEST_PATH_IMAGE064
,用公式表示为:
Figure 649678DEST_PATH_IMAGE065
式中,
Figure 339154DEST_PATH_IMAGE066
为融合识别层。
融合识别特征
Figure 2217DEST_PATH_IMAGE064
经过融合识别层中的线性分类层后得到最终经过语言纠正后的 文字识别结果。
融合识别层可以采用双层的Transformer模型,先对图像编码特征
Figure 278609DEST_PATH_IMAGE059
和语言纠正特 征G进行拼接得到concat
Figure 419740DEST_PATH_IMAGE067
,利用自注意力模块的计算能力深度挖掘各个文字特征之 间的关系,自适应地调控图像编码特征和语言纠正特征的比重,获得鲁棒的识别精度。
在对场景文字识别模型的各层进行联合训练前,可以对语言纠正层进行预训练。例如,采用在大规模无监督的文本数据上预训练语言纠正层。然后再对视觉识别层、语言纠正层和融合识别层进行联合训练。
由于采用了语言纠正层先单独训练,再联合训练场景文字识别模型的方法,可以利用语言纠正层对视觉识别层的结果纠错,获得具有语义关联信息的鲁棒结果。由于视觉识别层的序列长度预测的准确性提升,极大地提升了语言纠正层的纠正能力。
基于上述任一实施例,将场景图像输入至场景文字识别模型的视觉识别层,得到视觉识别层输出的图像编码特征和初始识别结果,包括:
将场景图像输入至视觉识别层的特征编码层,得到特征编码层输出的图像编码特征;
将图像编码特征输入至视觉识别层的特征解码层,由特征解码层确定场景图像中各文字的查询向量,并基于各文字的查询向量和图像编码特征,确定场景图像的初始识别结果。
具体地,视觉识别层可以包括特征编码层和特征解码层。特征编码层用于对场景图像进行特征提取,得到图像编码特征。特征解码层用于根据注意力机制,对图像编码特征进行解码,得到初始识别结果。
基于上述任一实施例,特征编码层是基于ResNet50和Transformer确定的。
具体地,特征编码层需要从中学习到丰富的图像信息和具有判别力的特征表达。可以根据ResNet50和Transformer,确定特征编码层。
对现有的ResNet50进行修改,在ResNet50的网络结构中,在stage-1和stage-2中保持原始的下采样策略,其余stage去除下采样策略,保持特征图的大小不变。
在修改后的ResNet50后,串联3层Transformer模型,得到特征编码层。利用自注意力机制建模场景图像的长距离关系。由于文字区域通常跨度较大,像素级别的自注意力机制可以有效增强特征编码层的感受野。
基于上述任一实施例,图4是本发明提供的场景文字识别装置的结构示意图,如图4所示,该装置包括:
获取单元410,用于获取待识别的场景图像;
识别单元420,用于将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;
其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;
文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别结果,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;
插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别结果进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
本发明实施例提供的场景文字识别装置,通过场景文字识别模型对场景图像进行识别得到文字识别结果,场景文字识别模型是通过基础训练、文字掩码增强训练和插值查询增强训练得到的,其中,文字掩码增强训练可以提高场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野,插值查询增强训练将离散化的查询向量进行连续化,更贴合图像的连续空间,可以提高场景文字识别模型对于文字之间的序列关系的感知能力,两种增强训练方法使得模型能够准确预测文字识别结果中的文字长度,当模型对文字识别结果进行语言纠正时具有更高的准确率,提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
基于上述任一实施例,还包括:
增强训练单元,用于基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在任一样本场景图像中的识别次序和任一样本场景图像的图像编码特征的特征深度确定的。
基于上述任一实施例,增强训练单元用于:
在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在任一样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
基于上述任一实施例,增强训练单元还用于:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定任一对相邻文字的插值查询向量,并基于第一文字的识别标签和第一插值权重,以及第二文字的识别标签和第二插值权重,确定任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
基于上述任一实施例,识别单元包括:
视觉识别单元,用于将场景图像输入至场景文字识别模型的视觉识别层,得到视觉识别层输出的图像编码特征和初始识别结果;
将初始识别结果输入至场景文字识别模型的语言纠正层,得到语言纠正层输出的语言纠正特征;
将图像编码特征和语言纠正特征输入至场景文字识别模型的融合识别层,得到融合识别层输出的文字识别结果。
基于上述任一实施例,视觉识别单元用于:
将场景图像输入至视觉识别层的特征编码层,得到特征编码层输出的图像编码特征;
将图像编码特征输入至视觉识别层的特征解码层,由特征解码层确定场景图像中各文字的查询向量,并基于各文字的查询向量和图像编码特征,确定场景图像的初始识别结果。
基于上述任一实施例,特征编码层是基于ResNet50和Transformer确定的。
基于上述任一实施例,图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:
获取待识别的场景图像;将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取待识别的场景图像;将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种场景文字识别方法,其特征在于,包括:
获取待识别的场景图像;
将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
2.根据权利要求1所述的场景文字识别方法,其特征在于,所述场景文字识别模型是基于如下步骤训练得到的:
基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到所述场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在所述任一样本场景图像中的识别次序和所述任一样本场景图像的图像编码特征的特征深度确定的。
3.根据权利要求2所述的场景文字识别方法,其特征在于,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行文字掩码增强训练,得到所述场景文字识别模型,包括:
在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
4.根据权利要求2所述的场景文字识别方法,其特征在于,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行插值查询增强训练,得到所述场景文字识别模型,包括:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定所述任一对相邻文字的插值查询向量,并基于第一文字的识别标签和所述第一插值权重,以及第二文字的识别标签和所述第二插值权重,确定所述任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
5.根据权利要求1至4任一项所述的场景文字识别方法,其特征在于,所述将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果,包括:
将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果;
将所述初始识别结果输入至所述场景文字识别模型的语言纠正层,得到所述语言纠正层输出的语言纠正特征;
将所述图像编码特征和所述语言纠正特征输入至所述场景文字识别模型的融合识别层,得到所述融合识别层输出的文字识别结果。
6.根据权利要求5所述的场景文字识别方法,其特征在于,所述将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果,包括:
将所述场景图像输入至所述视觉识别层的特征编码层,得到所述特征编码层输出的图像编码特征;
将所述图像编码特征输入至所述视觉识别层的特征解码层,由所述特征解码层确定所述场景图像中各文字的查询向量,并基于各文字的查询向量和所述图像编码特征,确定所述场景图像的初始识别结果。
7.根据权利要求6所述的场景文字识别方法,其特征在于,所述特征编码层是基于ResNet50和Transformer确定的。
8.一种场景文字识别装置,其特征在于,包括:
获取单元,用于获取待识别的场景图像;
识别单元,用于将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述场景文字识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述场景文字识别方法的步骤。
CN202210063467.5A 2022-01-20 2022-01-20 场景文字识别方法、装置、电子设备及存储介质 Active CN114092931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210063467.5A CN114092931B (zh) 2022-01-20 2022-01-20 场景文字识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210063467.5A CN114092931B (zh) 2022-01-20 2022-01-20 场景文字识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114092931A true CN114092931A (zh) 2022-02-25
CN114092931B CN114092931B (zh) 2022-04-29

Family

ID=80308885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210063467.5A Active CN114092931B (zh) 2022-01-20 2022-01-20 场景文字识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114092931B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984865A (zh) * 2022-12-23 2023-04-18 成方金融科技有限公司 文本识别方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
AU2021100480A4 (en) * 2021-01-25 2021-04-15 Shenzheng YunShi Technology Co.,Ltd Natural Scene Text Recognition Method Based on Two-Dimensional Feature Attention Mechanism
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
CN113762241A (zh) * 2021-09-02 2021-12-07 清华大学 场景文字识别模型的训练方法与识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628971A (zh) * 2018-04-24 2018-10-09 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112733768A (zh) * 2021-01-15 2021-04-30 中国科学技术大学 基于双向特征语言模型的自然场景文本识别方法及装置
AU2021100480A4 (en) * 2021-01-25 2021-04-15 Shenzheng YunShi Technology Co.,Ltd Natural Scene Text Recognition Method Based on Two-Dimensional Feature Attention Mechanism
CN113762241A (zh) * 2021-09-02 2021-12-07 清华大学 场景文字识别模型的训练方法与识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115984865A (zh) * 2022-12-23 2023-04-18 成方金融科技有限公司 文本识别方法、装置、电子设备和存储介质
CN115984865B (zh) * 2022-12-23 2024-02-27 成方金融科技有限公司 文本识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN114092931B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN112232149A (zh) 一种文档多模信息和关系提取方法及系统
CN111984772B (zh) 一种基于深度学习的医疗影像问答方法及系统
WO2021212601A1 (zh) 一种基于图像的辅助写作方法、装置、介质及设备
CN111553350A (zh) 一种基于深度学习的注意力机制文本识别方法
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN114897060B (zh) 样本分类模型的训练方法和装置、样本分类方法和装置
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
CN113723105A (zh) 语义特征提取模型的训练方法、装置、设备及存储介质
CN114416995A (zh) 信息推荐方法、装置及设备
CN114596566A (zh) 文本识别方法及相关装置
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN114092931B (zh) 场景文字识别方法、装置、电子设备及存储介质
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN114218940A (zh) 文本信息处理、模型训练方法、装置、设备及存储介质
CN112257716A (zh) 一种基于尺度自适应及方向注意力网络的场景文字识别方法
CN112307749A (zh) 文本检错方法、装置、计算机设备和存储介质
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN114861601B (zh) 基于旋转式编码的事件联合抽取方法及存储介质
CN114444488B (zh) 一种少样本机器阅读理解方法、系统、设备及存储介质
JP2023017759A (ja) セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113283241B (zh) 文本识别方法、装置、电子设备及计算机可读存储介质
CN115203415A (zh) 一种简历文档信息提取方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant