CN114092931A - 场景文字识别方法、装置、电子设备及存储介质 - Google Patents
场景文字识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114092931A CN114092931A CN202210063467.5A CN202210063467A CN114092931A CN 114092931 A CN114092931 A CN 114092931A CN 202210063467 A CN202210063467 A CN 202210063467A CN 114092931 A CN114092931 A CN 114092931A
- Authority
- CN
- China
- Prior art keywords
- scene
- character
- image
- model
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种场景文字识别方法、装置、电子设备及存储介质,其中方法包括:获取待识别的场景图像;将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是额外采用文字掩码增强训练和插值查询增强训练得到的。本发明提供的方法和装置,通过文字掩码增强训练提高了模型对于文字区域的感知能力,通过插值查询增强训练提高了模型对于文字序列的感知能力,当模型对文字识别结果进行语言纠正时具有更高的准确率,通过将模型中视觉识别层和语言纠正层进行联合训练的方法,提高了模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种场景文字识别方法、装置、电子设备及存储介质。
背景技术
场景文字识别(Scene Text Recognition)是计算机视觉中的基本研究方向之一,通过提取图像中的文字转化为计算机可辨识和可操作的符号,在生活中也具有广泛的应用,例如路牌识别、自动驾驶、场景翻译、信息检索等等。由于自然场景中的文字往往受到字体丰富、形态不规则、遮挡干扰等因素的影响,图像的文字区域定位以及特征的判别性表达仍是具有挑战性的任务。
现有技术中,通过采用卷积神经网络或者递归神经网络等深度学习方法对复杂场景中的文字进行识别,当文字序列较长或者场景图像质量较低时,场景文字识别的准确率差。
发明内容
本发明提供一种场景文字识别方法、装置、电子设备及存储介质,用于解决现有技术中当文字序列较长或者场景图像质量较低时,场景文字识别的准确率差的技术问题。
本发明提供一种场景文字识别方法,包括:
获取待识别的场景图像;
将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
根据本发明提供的场景文字识别方法,所述场景文字识别模型是基于如下步骤训练得到的:
基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到所述场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在所述任一样本场景图像中的识别次序和所述任一样本场景图像的图像编码特征的特征深度确定的。
根据本发明提供的场景文字识别方法,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行文字掩码增强训练,得到所述场景文字识别模型,包括:
在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
根据本发明提供的场景文字识别方法,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行插值查询增强训练,得到所述场景文字识别模型,包括:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定所述任一对相邻文字的插值查询向量,并基于第一文字的识别标签和所述第一插值权重,以及第二文字的识别标签和所述第二插值权重,确定所述任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
根据本发明提供的场景文字识别方法,所述将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果,包括:
将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果;
将所述初始识别结果输入至所述场景文字识别模型的语言纠正层,得到所述语言纠正层输出的语言纠正特征;
将所述图像编码特征和所述语言纠正特征输入至所述场景文字识别模型的融合识别层,得到所述融合识别层输出的文字识别结果。
根据本发明提供的场景文字识别方法,所述将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果,包括:
将所述场景图像输入至所述视觉识别层的特征编码层,得到所述特征编码层输出的图像编码特征;
将所述图像编码特征输入至所述视觉识别层的特征解码层,由所述特征解码层确定所述场景图像中各文字的查询向量,并基于各文字的查询向量和所述图像编码特征,确定所述场景图像的初始识别结果。
根据本发明提供的场景文字识别方法,所述特征编码层是基于ResNet50和Transformer确定的。
本发明提供一种场景文字识别装置,包括:
获取单元,用于获取待识别的场景图像;
识别单元,用于将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
本发明提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现所述场景文字识别方法的步骤。
本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述场景文字识别方法的步骤。
本发明提供的场景文字识别方法、装置、电子设备及存储介质,通过场景文字识别模型对场景图像进行识别得到文字识别结果,场景文字识别模型是通过基础训练、文字掩码增强训练和插值查询增强训练得到的,其中,文字掩码增强训练可以提高场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野,插值查询增强训练将离散化的查询向量进行连续化,更贴合图像的连续空间,可以提高场景文字识别模型对于文字之间的序列关系的感知能力,两种增强训练方法使得模型能够准确预测文字识别结果中的文字长度,当模型对文字识别结果进行语言纠正时具有更高的准确率,提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的场景文字识别方法的流程示意图;
图2是本发明提供的场景文字识别模型的训练示意图;
图3是本发明提供的场景文字识别模型的结构示意图;
图4是本发明提供的场景文字识别装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明提供的场景文字识别方法的流程示意图,如图1所示,该方法包括:
步骤110,获取待识别的场景图像。
具体地,场景图像为包含待识别文字的图像。对场景图像进行识别,就是对场景图像中的文字进行识别。例如,场景图像可以为对道路两边的路牌进行拍照后得到的图像。对这些图像中的文字进行识别,并根据文字的识别结果获取道路信息。
需要说明的是,本发明中的文字可以为一个有语义的字符,也可以为无语义的字符,例如标点符号等。
步骤120,将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;
文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;
插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
具体地,文字识别结果为对场景图像中的文字进行识别后得到的结果。例如,对于某路牌的图像进行识别后可以得到图像中的文字识别结果“高速入口”。
可以通过深度学习的方法得到场景文字识别模型,场景文字识别模型用于对输入的场景图像进行识别,得到该场景图像对应的文字识别结果。具体可以通过基础训练得到场景文字识别模型:
首先,收集大量的样本场景图像;其次,对每一样本场景图像进行标注,确定每一样本场景图像对应的文字识别标签,也就是每一样本场景图像中的文字;再次,根据大量的样本场景图像,以及每一样本场景图像对应的文字识别标签对初始模型进行训练,使得初始模型能够学习到样本场景图像中文字所在的图像区域与文字识别标签之间的关联特性,提高初始模型对于场景图像中文字的识别能力,得到场景文字识别模型。
初始模型可以选择卷积神经网络模型、循环神经网络模型或者递归神经网络模型等,本发明实施例对于初始模型的选择不作具体限定。
对于场景文字识别模型,可以在模型内部设置一个语言纠正层,用来利用文字之间存在的语言逻辑或者语法标准,对场景文字识别模型通过图像识别得到的结果进行纠正。例如,对于场景图像中的词语“world”,若识别结果为“worid”或者“warld”,则可以通过语言纠正层进行纠正。但是,如果场景文字识别模型出现漏识别或者额外识别等问题时,识别结果会出现文字错位,无法对齐的问题,使得无法通过语言纠正层进行识别。例如,上述词语中“l”漏识别时,得到的词语“word”也具有语言特性而无法纠正。因此,提高场景文字识别模型对于场景图像中单个文字的位置,以及多个文字之间的序列关系的识别能力非常重要。
在基础训练之后,可以额外采用文字掩码增强训练和插值查询增强训练的方法,对场景文字识别模型进行增强训练。
文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,相应地,在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,根据擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练。
插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,相应地,在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,根据插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
通过文字掩码增强训练,让场景文字识别模型可以感知到文字被擦除前后识别范围的变化,可以增强场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力;通过插值查询增强训练,将文字之间离散的位置关系转换为连续的位置关系,可以增强场景文字识别模型对于文字之间的序列关系的感知能力。
两种训练方法可以单独采用,也可以交替采用。例如,可以先采用文字掩码增强训练,先对样本场景图像的图像编码特征进行文字擦除,然后进行查询向量插值,采用插值查询增强训练。
本发明实施例提供的场景文字识别方法,通过场景文字识别模型对场景图像进行识别得到文字识别结果,场景文字识别模型是通过基础训练、文字掩码增强训练和插值查询增强训练得到的,其中,文字掩码增强训练可以提高场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野,插值查询增强训练将离散化的查询向量进行连续化,更贴合图像的连续空间,可以提高场景文字识别模型对于文字之间的序列关系的感知能力,两种增强训练方法使得模型能够准确预测文字识别结果中的文字长度,当模型对文字识别结果进行语言纠正时具有更高的准确率,提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
基于上述实施例,场景文字识别模型是基于如下步骤训练得到的:
基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在任一样本场景图像中的识别次序和任一样本场景图像的图像编码特征的特征深度确定的。
具体地,场景文字识别模型可以采用并行注意力机制对场景图像进行识别。场景
文字识别模型先对输入的场景图像进行特征提取,得到图像编码特征,其大小为,其中分别为图像编码特征(特征图)的高度,宽度以及深度(维度)。
根据三角函数的性质,距离较近的文字的查询向量具有更高的相似度,距离较
远的文字的查询向量具有较低的相似度,这满足空间的连续性性质。相比于具有离散性
性质的查询向量,具有相似性关系的查询向量具有序列关系明确的特点,更适用于解决较
长序列文字识别问题。
根据注意力机制,可以确定各文字的注意力响应区域,用公式表示为:
在此基础上,可以得到各文字的注意力输出特征,用公式表示为:
不同于相关技术中采用函数用于计算注意力,本发明实施例中采用函数用于计算注意力。一方面,函数往往将响应区域归于一点,这个性
质不利于之后的文字掩码增强训练;另一方面,无需和其他文字的像素进行比
较,增强了查询向量的鲁棒性。
场景文字识别模型的训练过程与识别过程相似,不同的是采用样本场景图像和样本场景图像对应的文字识别标签对初始模型进行训练。
训练方式包括基础训练、文字掩码增强训练和插值查询增强训练。
基于上述任一实施例,基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行文字掩码增强训练,得到场景文字识别模型,包括:
在任一样本场景图像中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在任一样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
根据注意力机制,可以得到:
根据每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
擦除操作后的训练为增强训练。经过擦除操作后,一方面,同一个在两次擦除
前后中分别解码不同字符,增强了的动态响应范围。另一方面,经过擦除后完全抹去
文字次序{}的特征使其在第二次解码中不被识别,从彻底擦除的角度,增强
了模型的识别注意力响应区域覆盖的完整性,提升了网络的识别性能。
基于上述任一实施例,基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行插值查询增强训练,得到场景文字识别模型,包括:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定任一对相邻文字的插值查询向量,并基于第一文字的识别标签和第一插值权重,以及第二文字的识别标签和第二插值权重,确定任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
以任一样本场景图像为例,选择若干对相邻文字的查询向量。为了方便表述,每一对相邻文字包括第一文字和第二文字。
对于选取的对相邻文字中的第对相邻文字,,第一文字的查询向量为,第二文字的查询向量为,,H为样本场景图像中文字序列的
长度。采用动态随机概率作为第一插值权重,相应地,作为第二插值权重。采用线性
插值的方法,加权求和后确定该对相邻文字的插值查询向量,用公式表示为:
通过增强训练中的随机概率加权,查询向量从离散特征点连续化,以更充分地表示文字序列。
以同样的概率加权,可以增强查询向量空间的连续性,一致性。
基于上述任一实施例,图2是本发明提供的场景文字识别模型的训练示意图,如图2所示,场景文字识别模型的训练流程包括:
步骤一、对于输入的样本场景图像,提取图像编码特征;
步骤二、基础训练
根据图像编码特征,生成各文字的查询向量,利用注意力机制对初始模型进行基础训练。
步骤三、插值查询增强训练
步骤四、文字掩码增强训练
步骤五、插值查询增强训练
其中,步骤三、四和五为增强训练步骤,仅在模型的训练阶段执行。增强训练增强了模型对于文字序列特征的识别能力。
基于上述任一实施例,步骤120包括:
将场景图像输入至场景文字识别模型的视觉识别层,得到视觉识别层输出的图像编码特征和初始识别结果;
将初始识别结果输入至场景文字识别模型的语言纠正层,得到语言纠正层输出的语言纠正特征;
将图像编码特征和语言纠正特征输入至场景文字识别模型的融合识别层,得到融合识别层输出的文字识别结果。
具体地,图3是本发明提供的场景文字识别模型的结构示意图,如图3所示,场景文字识别模型包括视觉识别层、语言纠正层和融合识别层。
融合识别层可以采用双层的Transformer模型,先对图像编码特征和语言纠正特
征G进行拼接得到concat,利用自注意力模块的计算能力深度挖掘各个文字特征之
间的关系,自适应地调控图像编码特征和语言纠正特征的比重,获得鲁棒的识别精度。
在对场景文字识别模型的各层进行联合训练前,可以对语言纠正层进行预训练。例如,采用在大规模无监督的文本数据上预训练语言纠正层。然后再对视觉识别层、语言纠正层和融合识别层进行联合训练。
由于采用了语言纠正层先单独训练,再联合训练场景文字识别模型的方法,可以利用语言纠正层对视觉识别层的结果纠错,获得具有语义关联信息的鲁棒结果。由于视觉识别层的序列长度预测的准确性提升,极大地提升了语言纠正层的纠正能力。
基于上述任一实施例,将场景图像输入至场景文字识别模型的视觉识别层,得到视觉识别层输出的图像编码特征和初始识别结果,包括:
将场景图像输入至视觉识别层的特征编码层,得到特征编码层输出的图像编码特征;
将图像编码特征输入至视觉识别层的特征解码层,由特征解码层确定场景图像中各文字的查询向量,并基于各文字的查询向量和图像编码特征,确定场景图像的初始识别结果。
具体地,视觉识别层可以包括特征编码层和特征解码层。特征编码层用于对场景图像进行特征提取,得到图像编码特征。特征解码层用于根据注意力机制,对图像编码特征进行解码,得到初始识别结果。
基于上述任一实施例,特征编码层是基于ResNet50和Transformer确定的。
具体地,特征编码层需要从中学习到丰富的图像信息和具有判别力的特征表达。可以根据ResNet50和Transformer,确定特征编码层。
对现有的ResNet50进行修改,在ResNet50的网络结构中,在stage-1和stage-2中保持原始的下采样策略,其余stage去除下采样策略,保持特征图的大小不变。
在修改后的ResNet50后,串联3层Transformer模型,得到特征编码层。利用自注意力机制建模场景图像的长距离关系。由于文字区域通常跨度较大,像素级别的自注意力机制可以有效增强特征编码层的感受野。
基于上述任一实施例,图4是本发明提供的场景文字识别装置的结构示意图,如图4所示,该装置包括:
获取单元410,用于获取待识别的场景图像;
识别单元420,用于将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;
其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;
文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别结果,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;
插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别结果进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
本发明实施例提供的场景文字识别装置,通过场景文字识别模型对场景图像进行识别得到文字识别结果,场景文字识别模型是通过基础训练、文字掩码增强训练和插值查询增强训练得到的,其中,文字掩码增强训练可以提高场景文字识别模型对于每一查询向量在场景图像中的文字区域的感知能力以及动态提升了查询向量的全局感知视野,插值查询增强训练将离散化的查询向量进行连续化,更贴合图像的连续空间,可以提高场景文字识别模型对于文字之间的序列关系的感知能力,两种增强训练方法使得模型能够准确预测文字识别结果中的文字长度,当模型对文字识别结果进行语言纠正时具有更高的准确率,提高了场景文字识别模型在文字序列较长或者场景图像质量较低时对场景文字识别的准确率,提高了场景文字识别模型的鲁棒性和识别性能。
基于上述任一实施例,还包括:
增强训练单元,用于基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在任一样本场景图像中的识别次序和任一样本场景图像的图像编码特征的特征深度确定的。
基于上述任一实施例,增强训练单元用于:
在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在任一样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
基于上述任一实施例,增强训练单元还用于:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定任一对相邻文字的插值查询向量,并基于第一文字的识别标签和第一插值权重,以及第二文字的识别标签和第二插值权重,确定任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对初始模型进行增强训练,得到场景文字识别模型。
基于上述任一实施例,识别单元包括:
视觉识别单元,用于将场景图像输入至场景文字识别模型的视觉识别层,得到视觉识别层输出的图像编码特征和初始识别结果;
将初始识别结果输入至场景文字识别模型的语言纠正层,得到语言纠正层输出的语言纠正特征;
将图像编码特征和语言纠正特征输入至场景文字识别模型的融合识别层,得到融合识别层输出的文字识别结果。
基于上述任一实施例,视觉识别单元用于:
将场景图像输入至视觉识别层的特征编码层,得到特征编码层输出的图像编码特征;
将图像编码特征输入至视觉识别层的特征解码层,由特征解码层确定场景图像中各文字的查询向量,并基于各文字的查询向量和图像编码特征,确定场景图像的初始识别结果。
基于上述任一实施例,特征编码层是基于ResNet50和Transformer确定的。
基于上述任一实施例,图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)510、通信接口(Communications Interface)520、存储器(Memory)530和通信总线(Communications Bus)540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑命令,以执行如下方法:
获取待识别的场景图像;将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
此外,上述的存储器530中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供的电子设备中的处理器可以调用存储器中的逻辑指令,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取待识别的场景图像;将场景图像输入至场景文字识别模型,得到场景文字识别模型输出的文字识别结果;其中,场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;基础训练为基于样本场景图像,以及样本场景图像对应的文字识别标签对场景文字识别模型进行训练;文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在样本场景图像对应的文字识别标签中擦除若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对场景文字识别模型进行训练;插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在样本场景图像对应的文字识别标签中对若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对场景文字识别模型进行训练。
本发明实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述方法,其具体的实施方式与前述方法实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干命令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种场景文字识别方法,其特征在于,包括:
获取待识别的场景图像;
将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
2.根据权利要求1所述的场景文字识别方法,其特征在于,所述场景文字识别模型是基于如下步骤训练得到的:
基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行基础训练、文字掩码增强训练和插值查询增强训练,得到所述场景文字识别模型;
其中,任一样本场景图像中各文字的查询向量是基于各文字在所述任一样本场景图像中的识别次序和所述任一样本场景图像的图像编码特征的特征深度确定的。
3.根据权利要求2所述的场景文字识别方法,其特征在于,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行文字掩码增强训练,得到所述场景文字识别模型,包括:
在任一样本场景图像的图像编码特征中随机选择若干个文字进行擦除,得到擦除后的图像编码特征;
在所述任一样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,得到擦除后的文字识别标签;
基于每一样本场景图像对应的擦除后的图像编码特征和擦除后的文字识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
4.根据权利要求2所述的场景文字识别方法,其特征在于,所述基于每一样本场景图像的图像编码特征和各文字的查询向量,以及每一样本场景图像对应的文字识别标签,采用注意力机制对初始模型进行插值查询增强训练,得到所述场景文字识别模型,包括:
确定任一样本场景图像中若干对相邻文字的查询向量;任一对相邻文字包括第一文字和第二文字;
对于任一对相邻文字,基于第一文字的查询向量和第一插值权重,以及第二文字的查询向量和第二插值权重,确定所述任一对相邻文字的插值查询向量,并基于第一文字的识别标签和所述第一插值权重,以及第二文字的识别标签和所述第二插值权重,确定所述任一对相邻文字的插值识别标签;
基于每一样本场景图像中若干对相邻文字的插值查询向量和插值识别标签,采用注意力机制对所述初始模型进行增强训练,得到所述场景文字识别模型。
5.根据权利要求1至4任一项所述的场景文字识别方法,其特征在于,所述将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果,包括:
将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果;
将所述初始识别结果输入至所述场景文字识别模型的语言纠正层,得到所述语言纠正层输出的语言纠正特征;
将所述图像编码特征和所述语言纠正特征输入至所述场景文字识别模型的融合识别层,得到所述融合识别层输出的文字识别结果。
6.根据权利要求5所述的场景文字识别方法,其特征在于,所述将所述场景图像输入至所述场景文字识别模型的视觉识别层,得到所述视觉识别层输出的图像编码特征和初始识别结果,包括:
将所述场景图像输入至所述视觉识别层的特征编码层,得到所述特征编码层输出的图像编码特征;
将所述图像编码特征输入至所述视觉识别层的特征解码层,由所述特征解码层确定所述场景图像中各文字的查询向量,并基于各文字的查询向量和所述图像编码特征,确定所述场景图像的初始识别结果。
7.根据权利要求6所述的场景文字识别方法,其特征在于,所述特征编码层是基于ResNet50和Transformer确定的。
8.一种场景文字识别装置,其特征在于,包括:
获取单元,用于获取待识别的场景图像;
识别单元,用于将所述场景图像输入至场景文字识别模型,得到所述场景文字识别模型输出的文字识别结果;
其中,所述场景文字识别模型是基于基础训练、文字掩码增强训练和插值查询增强训练得到的;
所述基础训练为基于样本场景图像,以及所述样本场景图像对应的文字识别标签对所述场景文字识别模型进行训练;
所述文字掩码增强训练为在样本场景图像的图像编码特征中擦除若干个文字,以及在所述样本场景图像对应的文字识别标签中擦除所述若干个文字的识别标签,基于擦除后的图像编码特征和擦除后的文字识别标签对所述场景文字识别模型进行训练;
所述插值查询增强训练为在样本场景图像中对若干对相邻文字的查询向量进行插值,以及在所述样本场景图像对应的文字识别标签中对所述若干对相邻文字的识别标签进行插值,基于插值后的查询向量和插值后的文字识别标签对所述场景文字识别模型进行训练。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述场景文字识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述场景文字识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210063467.5A CN114092931B (zh) | 2022-01-20 | 2022-01-20 | 场景文字识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210063467.5A CN114092931B (zh) | 2022-01-20 | 2022-01-20 | 场景文字识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114092931A true CN114092931A (zh) | 2022-02-25 |
CN114092931B CN114092931B (zh) | 2022-04-29 |
Family
ID=80308885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210063467.5A Active CN114092931B (zh) | 2022-01-20 | 2022-01-20 | 场景文字识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114092931B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984865A (zh) * | 2022-12-23 | 2023-04-18 | 成方金融科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN112541501A (zh) * | 2020-12-18 | 2021-03-23 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
AU2021100480A4 (en) * | 2021-01-25 | 2021-04-15 | Shenzheng YunShi Technology Co.,Ltd | Natural Scene Text Recognition Method Based on Two-Dimensional Feature Attention Mechanism |
CN112733768A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学技术大学 | 基于双向特征语言模型的自然场景文本识别方法及装置 |
CN113762241A (zh) * | 2021-09-02 | 2021-12-07 | 清华大学 | 场景文字识别模型的训练方法与识别方法及装置 |
-
2022
- 2022-01-20 CN CN202210063467.5A patent/CN114092931B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108628971A (zh) * | 2018-04-24 | 2018-10-09 | 深圳前海微众银行股份有限公司 | 不均衡数据集的文本分类方法、文本分类器及存储介质 |
CN112541501A (zh) * | 2020-12-18 | 2021-03-23 | 北京中科研究院 | 一种基于视觉语言建模网络的场景文字识别方法 |
CN112733768A (zh) * | 2021-01-15 | 2021-04-30 | 中国科学技术大学 | 基于双向特征语言模型的自然场景文本识别方法及装置 |
AU2021100480A4 (en) * | 2021-01-25 | 2021-04-15 | Shenzheng YunShi Technology Co.,Ltd | Natural Scene Text Recognition Method Based on Two-Dimensional Feature Attention Mechanism |
CN113762241A (zh) * | 2021-09-02 | 2021-12-07 | 清华大学 | 场景文字识别模型的训练方法与识别方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115984865A (zh) * | 2022-12-23 | 2023-04-18 | 成方金融科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
CN115984865B (zh) * | 2022-12-23 | 2024-02-27 | 成方金融科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114092931B (zh) | 2022-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN112232149A (zh) | 一种文档多模信息和关系提取方法及系统 | |
CN111984772B (zh) | 一种基于深度学习的医疗影像问答方法及系统 | |
WO2021212601A1 (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
CN111553350A (zh) | 一种基于深度学习的注意力机制文本识别方法 | |
CN114021582B (zh) | 结合语音信息的口语理解方法、装置、设备及存储介质 | |
CN114580424B (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN114897060B (zh) | 样本分类模型的训练方法和装置、样本分类方法和装置 | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN113723105A (zh) | 语义特征提取模型的训练方法、装置、设备及存储介质 | |
CN114416995A (zh) | 信息推荐方法、装置及设备 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN114492661A (zh) | 文本数据分类方法和装置、计算机设备、存储介质 | |
CN114218940A (zh) | 文本信息处理、模型训练方法、装置、设备及存储介质 | |
CN112257716A (zh) | 一种基于尺度自适应及方向注意力网络的场景文字识别方法 | |
CN112307749A (zh) | 文本检错方法、装置、计算机设备和存储介质 | |
CN116595023A (zh) | 地址信息的更新方法和装置、电子设备及存储介质 | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN114444488B (zh) | 一种少样本机器阅读理解方法、系统、设备及存储介质 | |
JP2023017759A (ja) | セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置 | |
CN113704466B (zh) | 基于迭代网络的文本多标签分类方法、装置及电子设备 | |
CN113283241B (zh) | 文本识别方法、装置、电子设备及计算机可读存储介质 | |
CN115203415A (zh) | 一种简历文档信息提取方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |