CN117912005B - 利用单个标记解码的文本识别方法、系统、设备及介质 - Google Patents
利用单个标记解码的文本识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117912005B CN117912005B CN202410313466.0A CN202410313466A CN117912005B CN 117912005 B CN117912005 B CN 117912005B CN 202410313466 A CN202410313466 A CN 202410313466A CN 117912005 B CN117912005 B CN 117912005B
- Authority
- CN
- China
- Prior art keywords
- features
- channel
- attention
- text
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007246 mechanism Effects 0.000 claims description 34
- 238000012545 processing Methods 0.000 claims description 22
- 230000000007 visual effect Effects 0.000 claims description 19
- 230000004927 fusion Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 8
- 230000004931 aggregating effect Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000012512 characterization method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007792 addition Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000007796 conventional method Methods 0.000 abstract description 2
- 230000000873 masking effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005452 bending Methods 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/186—Extraction of features or characteristics of the image by deriving mathematical or geometrical properties from the whole image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Pure & Applied Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种利用单个标记解码的文本识别方法、系统、设备及介质,它们是一一对应的方案,方案中:在语义特征提取阶段,可以从图像中提取和压缩关键语义特征的有效性,同时过滤掉噪声或不相关的细节;并且设计了一种新颖的向量到序列范式,从全局语义特征中解码出字符预测(即文本识别结果),与传统方法在二维空间框架内分析特征不同,本发明使用全局语义特征,并在通道维度上解码字符信息,此外,将引入了序列语言建模。得益于上述改进,本发明显著提升了模型的场景文本识别性能,在多个数据集上达到了先进水平,特别是在弯曲文本、多方向文本和艺术字上提升尤为显著。
Description
技术领域
本发明涉及文本识别技术领域,尤其涉及一种利用单个标记解码的文本识别方法、系统、设备及介质。
背景技术
文本识别是计算机视觉和自然语言处理领域的交叉任务,旨在识别图像中的文字内容,并将其转化为计算机可读取文本。该任务广泛应用在文档数字化,信息提取,自动驾驶等场景。
在当前的深度学习方法中,场景文本识别通常被视为一个序列标记问题。这些基于序列方法的处理流程一般采用图像到序列的编码器来提取视觉特征序列,随后通过序列到序列的解码器将其解码成文本序列。这些解码器通常有两种实现形式:基于注意力的方法和基于CTC(Connectionist Temporal Classification,联结主义时间分类)的方法。具体来说,基于注意力的解码器利用交叉注意力机制,在预测不同字符时关注视觉特征序列的不同部分。例如,在识别单词“Kevin”时,解码器会通过主动查询特定的视觉特征,依次识别每个字符——K、e、v、i、n。然而,这类方法的效果严重依赖于注意力图的准确性,复杂场景下的注意力偏移或者注意漂移可能会严重影响性能,导致准确率大幅下降。相比之下,基于CTC的方法通常为每个预期字符分配一个唯一的输出标记,并引入特殊的空白标签来缓解对齐问题。但是,这种方法经常需要大量的后处理来处理空白和重复字符,在复杂场景中处理起来颇具挑战。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种利用单个标记解码的文本识别方法、系统、设备及介质,可以显著提升场景文本识别性能,特别是在弯曲文本、多方向文本和艺术字上提升尤为显著。
本发明的目的是通过以下技术方案实现的:
一种利用单个标记解码的文本识别方法,包括:
步骤1、对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征;
步骤2、基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果。
一种利用单个标记解码的文本识别系统,系统包括:文本识别器,通过所述文本识别器实现文本识别;
所述文本识别器包括:
图像到向量编码器,用于对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征;
向量到序列解码器,用于基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,在语义特征提取阶段,可以从图像中提取和压缩关键语义特征的有效性,同时过滤掉噪声或不相关的细节;并且设计了一种新颖的向量到序列范式,从全局语义特征中解码出字符预测(即文本识别结果),与传统方法在二维空间框架内分析特征不同,本发明使用全局语义特征,并在通道维度上解码字符信息,此外,将引入了序列语言建模。得益于上述改进,本发明显著提升了模型的场景文本识别性能,在多个数据集上达到了先进水平。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种利用单个标记解码的文本识别方法流程图;
图2为本发明实施例提供的一种利用单个标记解码的文本识别方法示意图;
图3为本发明实施例提供的一种利用单个标记解码的文本识别方法的可视化文本识别结果;
图4为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
术语“由……组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
其次,由于现在有文本识别方案大多使用图像到序列的视觉编码器来提取视觉特征序列,随后通过序列到序列的特征解码器将视觉特征解码成文本序列。这类方案面临在视觉特征到文本特征的对齐问题。一方面,基于注意力机制的方法使用交叉注意力机制在预测不同字符时关注视觉特征序列的不同部分。这需要解码不同过程中,精确对齐不同视觉特征。然而,在模糊、弯曲和光照等复杂场景下,常常伴随着注意力漂移和注意力缺失的情况,进而导致难以正确预测文本;另一方面基于CTC的方法使用空白标签来缓解对齐问题,但这类方法需要复杂的后处理来消除空白标签和重复预测,也难以面对复杂的场景文本图像。因此,本发明提供一种利用单个标记解码的文本识别方法、系统、设备及介质以解决现有技术存在的问题。
下面对本发明所提供的一种利用单个标记解码的文本识别方法、系统、设备及介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种利用单个标记解码的文本识别方法,如图1所示,其主要包括如下步骤:
步骤1、对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征。
本发明实施例中,通过基于自注意力机制的视觉特征提取器对输入图像进行多粒度语义特征的提取;利用基于自注意力机制的视觉特征提取器的长距离感知能力和详细的表示能力,生成丰富的语义特征,这种方式提高了从图像中提取和压缩关键语义特征的有效性,同时过滤掉噪声或不相关的细节。之后,将多粒度语义特征聚合为单个全局语义Token(单个全局语义标记),形成全局语义特征。
本领域技术人员可以理解,Token人工智能中的专有名词,中文名称可以理解为标记,全局语义Token旨在说明本发明方法使用Token具有整个图像(全局)中的文本信息。
步骤2、基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果。
本发明实施例中,基于全局语义特征,并在通道维度上解码字符信息,并且解码过程中还引入序列语言建模,通过掩码多头自注意力机制实现自回归和非自回归的解码策略。具体来说:(1)如果使用非自回归解码方式,则结合全局语义特征与给定的位置编码获得增强特征,再利用通道级并行注意力机制结合增强特征生成通道注意力图,并与增强特征融合,获得经过通道级并行注意力层增强后特征,将经过通道级并行注意力层增强后特征作为解码特征建模语言规则,预测出文本识别结果;(2)如果使用自回归解码方式,则在获得经过通道级并行注意力层增强后特征后,还利用已预测的文本序列,获得融合特征,将融合特征作为解码特征建模语言规则,预测出文本识别结果。
本发明实施例中,所述步骤1可通过图像到向量的编码器实现,步骤2可通过向量到序列的解码器实现,图像到向量的编码器与向量到序列的解码器形成文本识别器;所述文本识别器预先进行训练;将文本序列的预测任务转化为序列中字符的多分类任务,采用交叉熵损失作为文本识别器训练过程的优化目标,所涉及的训练过程可参照常规技术实现,故不做赘述。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
一、文本识别原理概述。
如图2所示,为本发明提供的一种利用单个标记解码的文本识别方法的整体框架,该整体框架即为前文所述的文本识别器,其主要包括:图像到向量的编码器和向量到序列的解码器。通过图像到向量的编码器提取文本图像的全局语义特征,相较于现有方法所提取的特征序列,本发明提供的图像到向量的编码器能够从场景文本图像提取和压缩关键语义特征,同时过滤掉噪声或不相关的细节。向量到序列解码器中,使用通道级并行注意力,将整个语义信息传播到特定位置可以实现序列解码,并且,引入了语言规则建模,使用掩码注意力机制实现自回归和非自回归解码,相较于现有方案而言,本发明显著提升了模型的场景文本识别性能,在多个数据集上达到了先进水平。此外,本发明所提图像到向量编码器提取的单个全局语义Token引入了字符级的细粒度信息,也提升了场景文本检索任务的性能。
二、文本识别方案的详细描述。
1、图像到向量编码器。
图像到向量的编码器的目的是将细粒度的全局语义汇聚到单个全局语义Token中,图像到向量的编码器包括:基于自注意力机制的视觉特征提取器(简称为视觉特征提取器)和多粒度聚合模块(MAM)。首先,基于自注意力机制的视觉特征提取器通过计算局部和长距离依赖性来获取多粒度语义,适应于不同规模和不同架构的视觉变换器。然后,使用多粒度聚合模块进行多粒度标记生成。在本发明实施例中,采用了一个简单的全局平均池化或者额外的[CLS]标记作为多粒度聚合模块来提取强大的多粒度的全局语义特征。
本领域技术人员可以理解,[CLS]标记为计算机视觉中的技术术语,它表示用于下游识别任务的类别标记。
本发明实施例中,视觉特征提取器可采用现有结构实现,故不做赘述。
2、向量到序列的解码器。
本发明实施例中,向量到序列解码器包括:通道级并行注意力层,分类预测头,语言解码器层,以及特定于自回归解码的上下文融合模块。
本发明实施例中,利用利用全局语义特征生成所有字符预测结果。解码时可以采用非自回归解码与自回归解码。(1)自回归解码需要逐个字符的预测,因此需要使用上下文融合模块,将上下文融合到解码特征中,此处的上下文是指已预测的字符序列,通过将已预测的字符序列内容融合到解码特征中,进而辅助后续字符的预测;例如:在解码“you”的第三个字母“u”时,如果已经确定之前的字符为 “yo”,则更容易预测下一个字符为“u”。(2)非自回归解码是一次性预测所有的字符,无需使用上下文融合模块。图2提供了采用自回归解码的示例。
(1)通道级并行注意力层。
通道级并行注意力层旨在将整个语义信息传播到特定位置可以实现序列解码,具
体来说:通道级并行注意力层,首先将全局语义特征z与位置编码P结合,再通过第一线性层映射,得到增强特征,表示为:
;
其中,为增强特征,F为复制操作,表示逐元素相加。
本领域技术人员可以理解,位置编码P为Transformer(变换神经网络)中的基本组件,用于标记序列的位置。上述处理过程中,通过对全局语义特征z进行复制操作,再通过位置编码进行区分。
接着,利用通道级并行注意力机制生成通道注意力图,再将注意力图与所述增强特征融合,获得经过通道级并行注意力层增强后特征,表示为:
;
其中,表示利用增强处理获得的增强特征生成的通道注意力
图,表示第二线性层,为激活层,为归一化指数函数;表示逐元素相乘
(上式中用来融合注意力图与增强特征),表示第三线性层,为经过通道级并行注意力
层增强后特征。
(2)上下文融合模块。
特别的,对于自回归解码,本发明增加上下文融合模块以将已预测的文本序列内容编码融入到通道级并行注意力层的输出中,获得融合特征,表示为:
;
其中,为融合特征,为已预测字符对应的索引序列,为嵌入矩阵。
如果使用自回归解码方式,则通过上述(1)~(2)中的两部分处理,获得融合特征
用于后续解码;如果使用非自回归解码方式,则只需通过上述(1)中的处理,获得经过通道
级并行注意力层增强后特征用于后续解码。
(3)语言解码器层。
解码特征或送入到语言解码器层来建模语言规则,解码器层由两部分组成:
掩码多头自注意力模块和前馈网络。具体而言,通过掩码多头注意力机制捕获解码特征中
字符之间的语义依赖性,再通过前馈网络得到建模语言规则后的特征嵌入。
本发明实施例中,掩码多头自注意力模块中通过掩码多头注意力机制捕获解码特征中字符之间的语义依赖性表示为:
;
;
其中,为解码特征,当采用自回归解码时,解码特征为融合特征,
当采用非自回归解码时,解码特征为经过通道级并行注意力层增强后特征,为映射
矩阵(可学习的矩阵),d为解码特征的维度,为掩码多头注意力机制中的查询矩阵、
键矩阵与值矩阵;为掩码多头注意力机制捕获解码特征中字符之间的语义依赖性得到
的注意力特征; T为转置符号,为归一化指数函数;为注意力掩码,可以控制特
定位置的信息流,从而促进语言建模。具体来说,对于自回归解码,使用因果自注意力掩码,
确保未来的预测基于过去的预测。对于非自回归解码,注意力掩码为0。
前馈网络的输入为,前馈网络的输出与输入连接后作为建模语言规则后
的特征嵌入。前馈网络的具体的结构可参照常规技术,本发明不做赘述。
(4)分类预测头。
分类预测头主要包括一个线性层与softmax层,输出字符预测结果(文本识别结果)。
3、模型训练。
本发明实施例中,将文本序列的预测任务转化为序列中字符的多分类任务,采用交叉熵损失作为训练过程的优化目标,具体如下:
;
其中,为优化目标,为时间步t的预测字符,为时间步t的真实标签,N为单
个文本最大长度,表示文本字符数,比如“hello”文本长度为5,作为举例,可设置N=25;单个
文本最大长度对应于时间步长度,例如,时间步t预测的字符也就是预测即为第t个文本字
符。
三、性能验证。
为了说明本发明上述方案的文本识别性能,分别在合成数据集与真实数据集上训练,并在多个公开基准平台上测试以验证发明的先进性。在合成数据集上,本发明使用两个合成数据集(MJ和ST)进行训练,并在六个标准数据集(IIIT、SVT、IC13、IC15、SVTP、CUTE)上测试性能。针对真实数据集,本发明选择Union14M-L数据集进行训练,该数据集包含来自各种现实生活场景的四百万多个标记图像,并在弯曲文本、多方向文本、艺术文本、无上下文文本、显著文本和多字文本六个挑战数据集上测试性能。训练时的输入图像为裁剪后场景文本图像,输入尺寸均为32 x 128,单位为像素,选取随机增广策略对输入图像进行数据增广,包括锐化、反转、高斯模糊和泊松噪声等。使用AdamW(Adam with weight decay,权重衰减的自适应矩估计)算法作为优化器,并将初始学习率设置为3e-4。使用余弦学习率衰减来降低学习率。选择将识别字符集的大小设置为36,包括a-z和0-9。使用词准确率作为文本识别基准测试的评估指标。只有当所有位置的字符完全匹配时,预测才被视为正确。
本发明所有模型均使用以上超参数(即学习率和字符集大小)在相应数据集上训练20轮次,并在多种测试基准上取得良好的性能,具体的:相比于使用多粒度预测的方法MGP,同样在MJ和ST上训练,本发明在六个标准数据集上平均取得1.4%的预测精度提升,同时本发明的参数量仅为MGP的一半(25.2M vs 52.6M)。相比多模态特征融合文本识别方法,在真实数据集Union14M-L上训练,本方法在六个挑战数据集上平均取得3.3%的预测精度提升,特别是在弯曲文本、多方向文本和艺术字上提升尤为显著。
如图3所示,为本发明上述方案提供的可视化的文本识别结果,可以看到本发明的方案能够准确的实现场景文本识别;此外,测试时输入图像均需要缩放至指定尺寸(例如,前文提及的32 x 128)。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种利用单个标记解码的文本识别系统,系统包括:文本识别器,该文本识别器其主要用于实现前述实施例提供的方法,以实现文本识别;所述文本识别器主要包括:
图像到向量编码器,用于对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记;
向量到序列解码器,用于基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果。
考虑到上述图像到向量编码器与向量到序列解码器的具体处理细节已经在之前的实施例一中做了详细的介绍,故不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图4所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种利用单个标记解码的文本识别方法,其特征在于,包括:
步骤1、对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征;
步骤2、基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果,包括:如果使用非自回归解码方式,则结合全局语义特征与给定的位置编码获得增强特征,再利用通道级并行注意力机制结合增强特征生成通道注意力图,并与增强特征融合,获得经过通道级并行注意力层增强后特征,将经过通道级并行注意力层增强后特征作为解码特征建模语言规则,预测出文本识别结果;如果使用自回归解码方式,则在获得经过通道级并行注意力层增强后特征后,还利用已预测的文本序列,获得融合特征,将融合特征作为解码特征建模语言规则,预测出文本识别结果;
其中,所述结合全局语义特征与给定的位置编码获得增强特征,再利用通道级并行注意力机制结合增强特征生成通道注意力图,并与增强特征融合,获得经过通道级并行注意力层增强后特征包括:
将全局语义特征与给定的位置编码结合,再通过第一线性层映射,得到增强特征,表示为:
;
其中,为增强特征,F为复制操作,表示逐元素相加,z为全局语义特征,P为给定的位置编码;
利用通道级并行注意力机制生成通道注意力图,再将注意力图与所述增强特征融合,获得经过通道级并行注意力层增强后特征,表示为:
;
其中,表示利用增强处理获得的增强特征生成的通道注意力图,表示第二线性层,为激活层,为归一化指数函数;表示逐元素相乘,表示第三线性层,为经过通道级并行注意力层增强后特征;
所述通过建模语言规则,预测出文本识别结果包括:通过掩码多头注意力机制捕获解码特征中字符之间的语义依赖性,再通过前馈网络得到建模语言规则后的特征嵌入;将特征嵌入输入至分类预测头,预测出文本识别结果。
2.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于,所述对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征包括:
通过基于自注意力机制的视觉特征提取器对输入图像进行多粒度语义特征的提取;
将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征。
3.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于, 利用已预测的文本序列,获得融合特征表示为:
;
其中,为融合特征,为已预测字符对应的索引序列,为嵌入矩阵,为经过通道级并行注意力层增强后特征。
4.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于,通过掩码多头注意力机制捕获解码特征中字符之间的语义依赖性表示为:
;
;
其中,为解码特征,当采用自回归解码时,解码特征为融合特征,当采用非自回归解码时,解码特征为经过通道级并行注意力层增强后特征,为映射矩阵,d为解码特征的维度,表示逐元素相乘,为掩码多头注意力机制中的查询矩阵、键矩阵与值矩阵;为掩码多头注意力机制捕获解码特征中字符之间的语义依赖性得到的注意力特征;为注意力掩码,T为转置符号,为归一化指数函数。
5.根据权利要求1所述的一种利用单个标记解码的文本识别方法,其特征在于,所述步骤1通过图像到向量的编码器实现,步骤2通过向量到序列的解码器实现,图像到向量的编码器与向量到序列的解码器形成文本识别器;所述文本识别器预先进行训练;
将文本序列的预测任务转化为序列中字符的多分类任务,采用交叉熵损失作为文本识别器训练过程的优化目标,表示为:
;
其中,为优化目标,为时间步t的预测字符,为时间步t的真实标签,N为单个文本最大长度,其对应于时间步长度。
6.一种利用单个标记解码的文本识别系统,其特征在于,系统包括:文本识别器,通过所述文本识别器实现文本识别;
所述文本识别器包括:
图像到向量编码器,用于对输入图像进行多粒度语义特征的提取,并将多粒度语义特征聚合为单个全局语义标记,形成全局语义特征;
向量到序列解码器,用于基于通道级并行注意力机制对全局语义特征进行增强处理,并通过建模语言规则,预测出文本识别结果,包括:如果使用非自回归解码方式,则结合全局语义特征与给定的位置编码获得增强特征,再利用通道级并行注意力机制结合增强特征生成通道注意力图,并与增强特征融合,获得经过通道级并行注意力层增强后特征,将经过通道级并行注意力层增强后特征作为解码特征建模语言规则,预测出文本识别结果;如果使用自回归解码方式,则在获得经过通道级并行注意力层增强后特征后,还利用已预测的文本序列,获得融合特征,将融合特征作为解码特征建模语言规则,预测出文本识别结果;
其中,所述结合全局语义特征与给定的位置编码获得增强特征,再利用通道级并行注意力机制结合增强特征生成通道注意力图,并与增强特征融合,获得经过通道级并行注意力层增强后特征包括:
将全局语义特征与给定的位置编码结合,再通过第一线性层映射,得到增强特征,表示为:
;
其中,为增强特征,F为复制操作,表示逐元素相加,z为全局语义特征,P为给定的位置编码;
利用通道级并行注意力机制生成通道注意力图,再将注意力图与所述增强特征融合,获得经过通道级并行注意力层增强后特征,表示为:
;
其中,表示利用增强处理获得的增强特征生成的通道注意力图,表示第二线性层,为激活层,为归一化指数函数;表示逐元素相乘,表示第三线性层,为经过通道级并行注意力层增强后特征;
所述通过建模语言规则,预测出文本识别结果包括:通过掩码多头注意力机制捕获解码特征中字符之间的语义依赖性,再通过前馈网络得到建模语言规则后的特征嵌入;将特征嵌入输入至分类预测头,预测出文本识别结果。
7.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~5任一项所述的方法。
8.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410313466.0A CN117912005B (zh) | 2024-03-19 | 2024-03-19 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410313466.0A CN117912005B (zh) | 2024-03-19 | 2024-03-19 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117912005A CN117912005A (zh) | 2024-04-19 |
CN117912005B true CN117912005B (zh) | 2024-07-05 |
Family
ID=90697240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410313466.0A Active CN117912005B (zh) | 2024-03-19 | 2024-03-19 | 利用单个标记解码的文本识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117912005B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168379A (zh) * | 2023-01-29 | 2023-05-26 | 深圳前海环融联易信息科技服务有限公司 | 自监督注意力的文本识别方法、装置、设备及介质 |
CN116311256A (zh) * | 2022-12-08 | 2023-06-23 | 新东方教育科技集团有限公司 | 图像处理方法及装置、识别网络的训练方法及装置 |
CN116343190A (zh) * | 2023-05-30 | 2023-06-27 | 中国科学技术大学 | 自然场景文字识别方法、系统、设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111626293A (zh) * | 2020-05-21 | 2020-09-04 | 咪咕文化科技有限公司 | 图像文本识别方法、装置、电子设备及存储介质 |
CN112633290A (zh) * | 2021-03-04 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 文本识别方法、电子设备及计算机可读介质 |
CN113343707B (zh) * | 2021-06-04 | 2022-04-08 | 北京邮电大学 | 一种基于鲁棒性表征学习的场景文本识别方法 |
CN113591546B (zh) * | 2021-06-11 | 2023-11-03 | 中国科学院自动化研究所 | 语义增强型场景文本识别方法及装置 |
CN113936643B (zh) * | 2021-12-16 | 2022-05-17 | 阿里巴巴达摩院(杭州)科技有限公司 | 语音识别方法、语音识别模型、电子设备和存储介质 |
CN114581905B (zh) * | 2022-04-11 | 2024-08-16 | 华南理工大学 | 一种基于语义增强机制的场景文本识别方法及系统 |
CN114581906B (zh) * | 2022-05-06 | 2022-08-05 | 山东大学 | 自然场景图像的文本识别方法及系统 |
CN115471851B (zh) * | 2022-10-11 | 2023-07-28 | 小语智能信息科技(云南)有限公司 | 融合双重注意力机制的缅甸语图像文本识别方法及装置 |
CN115761764A (zh) * | 2022-11-21 | 2023-03-07 | 中国科学院合肥物质科学研究院 | 一种基于视觉语言联合推理的中文手写文本行识别方法 |
CN117037183A (zh) * | 2023-09-18 | 2023-11-10 | 北京中关村科金技术有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
-
2024
- 2024-03-19 CN CN202410313466.0A patent/CN117912005B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116311256A (zh) * | 2022-12-08 | 2023-06-23 | 新东方教育科技集团有限公司 | 图像处理方法及装置、识别网络的训练方法及装置 |
CN116168379A (zh) * | 2023-01-29 | 2023-05-26 | 深圳前海环融联易信息科技服务有限公司 | 自监督注意力的文本识别方法、装置、设备及介质 |
CN116343190A (zh) * | 2023-05-30 | 2023-06-27 | 中国科学技术大学 | 自然场景文字识别方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117912005A (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kristan et al. | The ninth visual object tracking vot2021 challenge results | |
CN106960206B (zh) | 字符识别方法和字符识别系统 | |
CN111602141B (zh) | 影像视觉关系检测方法和系统 | |
RU2691214C1 (ru) | Распознавание текста с использованием искусственного интеллекта | |
He et al. | Single shot text detector with regional attention | |
CN108537119B (zh) | 一种小样本视频识别方法 | |
CN111160343A (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN111783712A (zh) | 一种视频处理方法、装置、设备及介质 | |
CN116343190B (zh) | 自然场景文字识别方法、系统、设备及存储介质 | |
CN110968689A (zh) | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 | |
CN114283352A (zh) | 一种视频语义分割装置、训练方法以及视频语义分割方法 | |
CN111639594B (zh) | 图像描述模型的训练方法及装置 | |
CN114429635A (zh) | 书本管理方法 | |
CN115620304A (zh) | 文本识别模型的训练方法、文本识别方法及相关装置 | |
CN116311214A (zh) | 车牌识别方法和装置 | |
Li et al. | Image operation chain detection with machine translation framework | |
CN117437426B (zh) | 一种高密度代表性原型指引的半监督语义分割方法 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN117912005B (zh) | 利用单个标记解码的文本识别方法、系统、设备及介质 | |
CN111325068B (zh) | 基于卷积神经网络的视频描述方法及装置 | |
CN115661710A (zh) | 一种视频描述生成方法、装置及存储介质 | |
Susladkar et al. | TPFNet: A Novel T ext In-p ainting Trans f ormer for Text Removal | |
CN113496228A (zh) | 一种基于Res2Net、TransUNet和协同注意力的人体语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |