CN116168379A - 自监督注意力的文本识别方法、装置、设备及介质 - Google Patents

自监督注意力的文本识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN116168379A
CN116168379A CN202310108025.2A CN202310108025A CN116168379A CN 116168379 A CN116168379 A CN 116168379A CN 202310108025 A CN202310108025 A CN 202310108025A CN 116168379 A CN116168379 A CN 116168379A
Authority
CN
China
Prior art keywords
text
image
feature
attention
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310108025.2A
Other languages
English (en)
Inventor
刘源超
王洁瑶
王国鹏
柏英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202310108025.2A priority Critical patent/CN116168379A/zh
Publication of CN116168379A publication Critical patent/CN116168379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及文本识别技术领域,提出了一种自监督注意力的文本识别方法、装置、设备及介质,其中,方法包括:对待识别的文本图像进行特征提取和编码,以得到特征编码序列;对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;将所述特征编码序列和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。通过该技术方案,提高注意力正确性,提高场景文本识别的准确度。

Description

自监督注意力的文本识别方法、装置、设备及介质
【技术领域】
本申请涉及文本识别技术领域,尤其涉及一种自监督注意力的文本识别方法、装置、设备及介质。
【背景技术】
场景文本识别成为当今计算机视觉领域急需解决的难题之一。虽然在过去的几十年里,场景文本识别已经出现过,但是从始至终都没有被认真对待或真正解决。
在场景文本识别早期,采用过传统的字符分类器、分割和几何模型,它们在不同的数据集下有一定的优劣性。采用分割方法会面临数据稀疏性问题,这必将阻碍了模型去寻找最优路径的选择。而且,对于分割方法而言,对于某些字符进行重叠或密集接触,分割的方法很难进行精确切割。相比之下,在额外的字符级边界框注释的监督下,采用全卷积网络来预测字符级分割结果,然后执行分类任务。而后虽随着分割网络的方法优化,精度得到了大幅度的提升,但是基于分割的方法始终会面临大量的字符标注,这个无疑是对分割方法的打击。
文本识别多为字符级分类任务,其主要是采用视觉信息来识别文本。如在一维空间上执行序列注意建模。具体来说,输入文本图像首先被编码为一维序列特征。然后,他们使用双向解码器通过输出相应的注意力权重来提取编码序列的注意力特征进行预测。此外,通过关注图像每个字符的空间视觉特征来开发各种2D注意机制。具体来说,是通过结合解码器的特征图和隐藏状态,在每个解码步骤中关注空间字符特征。然而,在序列级文本注释的监督下,这些隐式注意方法很容易提取不完全特征甚至未对齐的空间区域作为字符注意力。
虽然在过去几年,采用基于隐式的方式对文本特征进行解码也成为了一种主流方式。即首先通过CNN对特征进行提取,而后采用RNN是对序列进行预测。采用RNN的方法非常灵活,它可以避免进行分割,这也是它常用于识别领域的主要原因。所以,在以后的识别问题上,常对CNN和RNN进行一定的改进,尽管所有这些方法都利用递归架构来正确隐藏和学习串行上下文信息,但它们在训练阶段缺乏并行能力,而且需要大量的计算资源。这导致了文本识别算法陷入一定的瓶颈。且后续的更多实验表明,采取隐式的形式去进行解码,这种形式对于长文本或者较为弯曲文本无法实现同短文本相同精度的解调。
在最近几年,受到自然语言处理方法的启发,通过开发Transformer可以将视觉输出可输入到相应的语言模型,即对语言上下文的进行识别校正。堆叠多层transformer结构用于语义推理任务。受BERT中的掩码语言模型(MLM)的启发,对提议的语言模块进行预训练,以根据语言上下文预测文本中的掩码字符,并将视觉输出微调为提高性能。尽管他们利用语言模型来优化与视觉模型的联合字符预测概率,从而减少语言上下文的预测错误,但它们不能很好地推广到任意文本(例如,具有特定工件编码方案的无上下文文本)。因此提取字符视觉特征仍然是文本识别的关键。NLP最近的一项引人注目的工作是BERT,它通过引入屏蔽文本标记学习的深度双向表示,将BERT直接应用于场景文本识别需要屏蔽文本实例中的所有字符,因为每次只能屏蔽一个字符,导致代价十分昂贵。因此基于Transformer模块,也提出了基于Attention机制的编码-解码结构,该网络结构相比传统的框架更具有好的识别结果;同时也表明了编码-解码这种框架是可以应用到场景文本识别中。
因此,基于上述的各种方法,场景文本识别进步空间较大,需要综合各项技术,进而提升文本识别正确率。目前,所提出的方法的缺点是,基于传统的方法泛化性较差,精度也不高。而采用隐式的方法进行语言建模,对于长文本解调精度并不理想,且在训练,推理无法实现并行,导致需要大量的计算资源;同时采用分割的思想,对于每个字符都需要进行打标说明,这必然导致无法进行真正的工业落地,对于实际场景,复杂多变的图片也是很难正确识别。
【发明内容】
本申请实施例提供了一种自监督注意力的文本识别方法、装置、设备及介质,旨在解决相关技术中采用分割方法浪费大量的标注资源,以及文本识别不准确的技术问题。
第一方面,本申请实施例提供了一种自监督注意力的文本识别方法,包括:
对待识别的文本图像进行特征提取和编码,以得到特征编码序列;
对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;
将所述特征编码序列和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;
根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。
在一个实施例中,优选地,对所述文本图像进行图像分割处理和特征编码序列对齐处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理;
通过显式注意力模块对所述文本图像的特征编码序列进行对齐处理,以确定所述文本图像中每个字符对应的位置信息。
在一个实施例中,优选地,通过自监督文本分割模块对所述文本图像进行图像分割处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果;
从所述图像分割结果中提取出文本前景图像。
在一个实施例中,优选地,对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息,包括:
通过显式注意力模块对所述特征编码序列进行正交约束处理,以得到序列对齐的注意向量;
使用序列对齐的注意向量对所述文本前景图像进行调制学习,以确定所述文本图像中每个字符对应的位置信息。
在一个实施例中,优选地,对待识别的文本图像进行特征提取和编码,以得到特征编码序列,包括:
通过特征编码器采用自上而下的金字塔架构对所述待识别的文本图像进行特征提取,并对特征图进行维度压缩,压缩至一维向量,以得到特征编码序列。
在一个实施例中,优选地,通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果,包括:
对所述特征图进行上采样,并还原特征图维度,通过二元分类卷积层生成文本分割掩码;
将所述文本分割掩码输入所述自监督文本分割模块得到图像分割结果。
在一个实施例中,优选地,根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果,包括:
将所述融合后的特征向量输入至显式注意力模块,并输出文本识别结果,其中,显式注意力模块包括多头注意力和前馈神经网络。
第二方面,本申请实施例提供了一种自监督注意力的文本识别装装置,包括:
提取模块,用于对待识别的文本图像进行特征提取,以得到特征编码;
处理模块,用于对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;
融合模块,用于将所述特征编码和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;
识别模块,用于根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述自监督注意力的文本识别方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述自监督注意力的文本识别方法的步骤。
以上自监督注意力的文本识别方法、装置、设备及介质所实现的方案中,对待识别的文本图像进行特征提取和编码,以得到特征编码序列;对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;将所述特征编码序列和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。在本发明中,通过联合自监督文本分割和显式注意力对齐来描绘文本图像的字形结构,作为在训练过程中学习注意力图的监督,以提高注意力正确性,更加关注单字文本的输出和文本语言的逻辑性,进一步提高场景文本识别的准确度。
【附图说明】
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了根据本申请的一个实施例的自监督注意力的文本识别方法的示意流程图。
图2示出了根据本申请的另一个实施例的自监督注意力的文本识别方法的示意流程图。
图3示出了根据本申请的一个实施例的特征提取过程的示意流程图。
图4示出了根据本申请的一个实施例是解码过程的示意流程图。
图5示出了根据本申请的一个实施例的自监督注意力的文本识别装置的框图。
图6示出了根据本申请的一个实施例的计算机设备的框图。
【具体实施方式】
为了更好的理解本申请的技术方案,下面结合附图对本申请实施例进行详细描述。
应当明确,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了实现简化模型训练过程,避免过拟合的问题发生,提升泛化效果,本申请提出了一种预训练分类模型的训练方法、装置、设备及介质。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
图1示出了根据本申请的一个实施例的自监督注意力的文本识别方法的示意流程图。
如图1所示,本申请实施例提供了一种自监督注意力的文本识别方法,包括:
步骤S101,对待识别的文本图像进行特征提取和编码,以得到特征编码序列;
在一个实施例中,优选地,对待识别的文本图像进行特征提取和编码,以得到特征编码序列,包括:
通过特征编码器采用自上而下的金字塔架构对所述待识别的文本图像进行特征提取,并对特征图进行维度压缩,压缩至一维向量,以得到特征编码序列。
步骤S102,对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;
在一个实施例中,优选地,对所述文本图像进行图像分割处理和特征编码序列对齐处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理;
通过显式注意力模块对所述文本图像的特征编码序列进行对齐处理,以确定所述文本图像中每个字符对应的位置信息。
在一个实施例中,优选地,通过自监督文本分割模块对所述文本图像进行图像分割处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果;
从所述图像分割结果中提取出文本前景图像。
在一个实施例中,优选地,对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息,包括:
通过显式注意力模块对所述特征编码序列进行正交约束处理,以得到序列对齐的注意向量;
使用序列对齐的注意向量对所述文本前景图像进行调制学习,以确定所述文本图像中每个字符对应的位置信息。
在该实施例中,字形结构是通过使用序列对齐的注意向量调制学习的文本前景表示来生成的,而文本前景表示是根据图像的内部结构从自监督的分割结果中提炼出来的。通过对一维注意向量应用正交约束来获得序列对齐的注意向量。然后它们作为文本图像中每个字符的位置信息来调制文本前景表示以在线生成字形伪标签。与有监督的注意方法不同,固定长度通道的字形注意图具有字符和顺序的一致性,因为顺序得到保证,字符对齐良好,在处理较大的语言字符类别时不会带来额外的成本。学习到的字形注意力鼓励文本识别网络关注字形的结构区域,以提高注意力的正确性。
通过联合自监督文本分割和显式注意力对齐在线构建字形伪标签,然后序列对齐的注意力作为文本图像中每个字符的位置信息来调制学习的文本前景表示以生成它们。字形形态结构的文本前景可以通过语义分割网络进行表征学习,该网络在未标记的文本图像上为每个像素分配一个前景或背景标签。同时字形的基本形态也不会受到轻微结构变化(如更厚或更薄)的影响,这极大的减少了对具有昂贵计算和注释成本的像素级高精度分割的依赖。因此,从基于文本图像内部结构的聚类任务开始,以获得关于文本掩码的伪标签。字形的形态结构在大多数文本图像中都能很好地聚集在一起,因此,文本分割网络产生的自监督分割结果中提取文本前景表示。整体网络如图2所示。
在一个实施例中,优选地,通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果,包括:
对所述特征图进行上采样,并还原特征图维度,通过二元分类卷积层生成文本分割掩码;
将所述文本分割掩码输入所述自监督文本分割模块得到图像分割结果。
具体来说,网络提取特征是采用的ResNet结构,如图3所示,网络经过特征提取即经过相应的卷积层,池化等操作,并采用自上而下的金字塔架构,特征维度也进行改变,最后再进行特征图的上采样,还原特征图维度。整个网络提取过程是为了文本解码和文本分割做的相应准备,如图可知,最终还原成同维度的特征图,会通过二元分类卷积层生成文本分割掩码,即进入文本分割模组。在文本分割模组中,由文本掩码得到的伪标签和文本掩码的结果可使用二进制交叉熵损失来提高文本分割性能。优化的分割网络在具有挑战性的文本图像中感知具有字形形态结构的文本前景表示,这可能难以通过无监督的聚类方法进行分类。
步骤S103,将所述特征编码序列和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;
步骤S104,根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。
在一个实施例中,优选地,根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果,包括:
将所述融合后的特征向量输入至显式注意力模块,并输出文本识别结果,其中,显式注意力模块包括多头注意力和前馈神经网络。
同时,在特征图压缩至一维时,也会送至文本编码-解码模块,在解码单元中,解码模块更加关注编码序列的重要项以捕获字符依赖关系。
常见的文本识别模块,即编码-解码模块主要基于RNN和Transformer。基于RNN的方法通常采用自回归方式执行,它将前一个字符的预测作为下一时刻的输入,同时还受到隐藏状态的影响。而相关的GRU则是通过将上一个时间步的预测嵌入和当前时间步的字符特征作为输入来预测每个字符。而基于Transformer的方法在并行执行方面具有优势,其中每个时间步的输入要么是视觉特征,要么是来自视觉特征预测的字符嵌入。本发明属于并行执行。在一些早期的方法中,文本识别由基于注意力的方法变得流行,它使用更强大的RNN或Transformer对语言进行隐式建模。基于注意力的方法遵循编码器-解码器架构,其中编码器处理图像,解码器通过关注来自一维图像特征或二维图像特征。与上述方法不同,本发明通过显式语言建模来构建更强大的语言模块,进而能够进行高精度的解码。
为了利用双向信息,像这样的方法使用两个单向模型的集成模型。具体来说,为了捕获全局语义上下文,并结合了从左到右和从右到左Transformer的特征以进行进一步预测。本发明强调集成双向模型本质上是一种单向特征表示。总的来说,编码-解码模块是L层transformer的变体。解码模块的每一层都是一系列多头注意力和前馈网络,然后是残差连接和层归一化,如图4所示。与普通Transformer不同的是,输入字符向量进入多头注意力块而不是网络的第一层。此外,多头注意力中的注意力面具旨在防止“看到自己”。在此模块中,并没有添加Mask-Multi-Head Attention,以避免跨时间步的信息泄露。多头注意力操作可以由下公式进行表征:
Figure BDA0004077567610000101
Ki=Vi=P(yi)Wl
Figure BDA0004077567610000102
其中Q∈RT×C是第一层中字符顺序的位置编码,否则是最后一层的输出。K,V∈RT×C由字符概率P(yi)∈Rc得到,Wl∈Rc×C是线性映射矩阵。M∈RT×T是防止关注当前字符的注意掩码矩阵。在将BCN层堆叠成深层架构之后,确定了文本y的双向表示Fl
图5示出了根据本申请的一个实施例的自监督注意力的文本识别装置的框图。
如图5所示,本申请实施例提供了一种自监督注意力的文本识别装置,包括:
提取模块51,用于对待识别的文本图像进行特征提取,以得到特征编码;
处理模块52,用于对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;
融合模块53,用于将所述特征编码和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;
识别模块54,用于根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。
第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述自监督注意力的文本识别方法的步骤。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述自监督注意力的文本识别方法的步骤。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的模型训练装置和各模块的具体工作过程,可以参考前述自监督注意力的文本识别方法实施例中的对应过程,在此不再赘述。
上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
图6示出了根据本申请的一个实施例的计算机设备的框图。
参阅图6,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括存储介质和内存储器。
存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行本申请实施例提供的任意一种自监督注意力的文本识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种自监督注意力的文本识别方法。所述存储介质可以是非易失性的,也可以是易失性的。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例的计算机设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
另外,本申请实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行以下步骤:
对待识别的文本图像进行特征提取和编码,以得到特征编码序列;
对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;
将所述特征编码序列和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;
根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。
在一个实施例中,优选地,对所述文本图像进行图像分割处理和特征编码序列对齐处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理;
通过显式注意力模块对所述文本图像的特征编码序列进行对齐处理,以确定所述文本图像中每个字符对应的位置信息。
在一个实施例中,优选地,通过自监督文本分割模块对所述文本图像进行图像分割处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果;
从所述图像分割结果中提取出文本前景图像。
在一个实施例中,优选地,对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息,包括:
通过显式注意力模块对所述特征编码序列进行正交约束处理,以得到序列对齐的注意向量;
使用序列对齐的注意向量对所述文本前景图像进行调制学习,以确定所述文本图像中每个字符对应的位置信息。
在一个实施例中,优选地,对待识别的文本图像进行特征提取和编码,以得到特征编码序列,包括:
通过特征编码器采用自上而下的金字塔架构对所述待识别的文本图像进行特征提取,并对特征图进行维度压缩,压缩至一维向量,以得到特征编码序列。
在一个实施例中,优选地,通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果,包括:
对所述特征图进行上采样,并还原特征图维度,通过二元分类卷积层生成文本分割掩码;
将所述文本分割掩码输入所述自监督文本分割模块得到图像分割结果。
在一个实施例中,优选地,根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果,包括:
将所述融合后的特征向量输入至显式注意力模块,并输出文本识别结果,其中,显式注意力模块包括多头注意力和前馈神经网络。
需要说明的是,上述关于计算机可读存储介质或电子设备所能实现的功能或步骤,可对应参阅前述方法实施例中的相关描述,为避免重复,这里不再一一描述。
以上结合附图详细说明了本申请的技术方案,通过本申请的技术方案,可将灰度发布的相关操作集成于发布系统中,开发人员仅需要在发布系统中进行集成设置即可使发布系统调用部署系统为灰度发布进行相应部署,降低了灰度发布部署工作的复杂度,提升了灰度发布的效率和可靠性。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本申请实施例中可能采用术语第一、第二等来描述设置单元,但这些设置单元不应限于这些术语。这些术语仅用来将设置单元彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一设置单元也可以被称为第二设置单元,类似地,第二设置单元也可以被称为第一设置单元。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种自监督注意力的文本识别方法,其特征在于,包括:
对待识别的文本图像进行特征提取和编码,以得到特征编码序列;
对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;
将所述特征编码序列和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;
根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。
2.根据权利要求1所述的自监督注意力的文本识别方法,其特征在于,对所述文本图像进行图像分割处理和特征编码序列对齐处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理;
通过显式注意力模块对所述文本图像的特征编码序列进行对齐处理,以确定所述文本图像中每个字符对应的位置信息。
3.根据权利要求2所述的自监督注意力的文本识别方法,其特征在于,通过自监督文本分割模块对所述文本图像进行图像分割处理,包括:
通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果;
从所述图像分割结果中提取出文本前景图像。
4.根据权利要求3所述的自监督注意力的文本识别方法,其特征在于,对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息,包括:
通过显式注意力模块对所述特征编码序列进行正交约束处理,以得到序列对齐的注意向量;
使用序列对齐的注意向量对所述文本前景图像进行调制学习,以确定所述文本图像中每个字符对应的位置信息。
5.根据权利要求3所述的自监督注意力的文本识别方法,其特征在于,对待识别的文本图像进行特征提取和编码,以得到特征编码序列,包括:
通过特征编码器采用自上而下的金字塔架构对所述待识别的文本图像进行特征提取,并对特征图进行维度压缩,压缩至一维向量,以得到特征编码序列。
6.根据权利要求5所述的自监督注意力的文本识别方法,其特征在于,
通过自监督文本分割模块对所述文本图像进行图像分割处理,以得到图像分割结果,包括:
对所述特征图进行上采样,并还原特征图维度,通过二元分类卷积层生成文本分割掩码;
将所述文本分割掩码输入所述自监督文本分割模块得到图像分割结果。
7.根据权利要求6所述的自监督注意力的文本识别方法,其特征在于,根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果,包括:
将所述融合后的特征向量输入至显式注意力模块,并输出文本识别结果,其中,显式注意力模块包括多头注意力和前馈神经网络。
8.一种自监督注意力的文本识别装置,其特征在于,包括:
提取模块,用于对待识别的文本图像进行特征提取,以得到特征编码;
处理模块,用于对所述文本图像进行图像分割处理和特征编码序列对齐处理,以确定所述文本图像中每个字符对应的位置信息;
融合模块,用于将所述特征编码和每个字符对应的位置信息进行特征融合,得到融合后的特征向量;
识别模块,用于根据所述融合后的特征向量和所述显式注意力模块进行文本识别,以得到文本识别结果。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机可执行指令,所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法流程。
CN202310108025.2A 2023-01-29 2023-01-29 自监督注意力的文本识别方法、装置、设备及介质 Pending CN116168379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310108025.2A CN116168379A (zh) 2023-01-29 2023-01-29 自监督注意力的文本识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310108025.2A CN116168379A (zh) 2023-01-29 2023-01-29 自监督注意力的文本识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116168379A true CN116168379A (zh) 2023-05-26

Family

ID=86410945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310108025.2A Pending CN116168379A (zh) 2023-01-29 2023-01-29 自监督注意力的文本识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116168379A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117912005A (zh) * 2024-03-19 2024-04-19 中国科学技术大学 利用单个标记解码的文本识别方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117912005A (zh) * 2024-03-19 2024-04-19 中国科学技术大学 利用单个标记解码的文本识别方法、系统、设备及介质
CN117912005B (zh) * 2024-03-19 2024-07-05 中国科学技术大学 利用单个标记解码的文本识别方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110738090B (zh) 使用神经网络进行端到端手写文本识别的系统和方法
CN108615036B (zh) 一种基于卷积注意力网络的自然场景文本识别方法
CN107979764B (zh) 基于语义分割和多层注意力框架的视频字幕生成方法
CN114283430A (zh) 跨模态图文匹配训练方法及装置、存储介质、电子设备
US11645361B2 (en) Apparatus and method of image clustering
US20230153943A1 (en) Multi-scale distillation for low-resolution detection
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN112101042B (zh) 文本情绪识别方法、装置、终端设备和存储介质
US20220327816A1 (en) System for training machine learning model which recognizes characters of text images
CN114298121A (zh) 基于多模态的文本生成方法、模型训练方法和装置
Qin Dual learning
CN114358203A (zh) 图像描述语句生成模块的训练方法及装置、电子设备
Peng et al. Red-net: A recurrent encoder–decoder network for video-based face alignment
CN113435210B (zh) 社交图片文本识别方法、装置、计算机设备及存储介质
CN113836992A (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
US11568140B2 (en) Optical character recognition using a combination of neural network models
Yi et al. Elanet: effective lightweight attention-guided network for real-time semantic segmentation
Tang et al. A survey on transformer compression
CN117893859A (zh) 多模态文本图像分类方法、装置、电子设备及存储介质
CN116168379A (zh) 自监督注意力的文本识别方法、装置、设备及介质
Belharbi et al. Deep neural networks regularization for structured output prediction
CN116883737A (zh) 分类方法、计算机设备和存储介质
CN114692624A (zh) 一种基于多任务迁移的信息抽取方法、装置及电子设备
Lee et al. AFI-GAN: Improving feature interpolation of feature pyramid networks via adversarial training for object detection
CN113220874B (zh) 一种多标签文本分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination