CN112733768A - 基于双向特征语言模型的自然场景文本识别方法及装置 - Google Patents

基于双向特征语言模型的自然场景文本识别方法及装置 Download PDF

Info

Publication number
CN112733768A
CN112733768A CN202110059600.5A CN202110059600A CN112733768A CN 112733768 A CN112733768 A CN 112733768A CN 202110059600 A CN202110059600 A CN 202110059600A CN 112733768 A CN112733768 A CN 112733768A
Authority
CN
China
Prior art keywords
model
visual
language
prediction result
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110059600.5A
Other languages
English (en)
Other versions
CN112733768B (zh
Inventor
张勇东
方山城
谢洪涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110059600.5A priority Critical patent/CN112733768B/zh
Publication of CN112733768A publication Critical patent/CN112733768A/zh
Application granted granted Critical
Publication of CN112733768B publication Critical patent/CN112733768B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于双向特征语言模型的自然场景文本识别方法及装置,方法包括将文本图像输入至视觉模型中,得到视觉特征及视觉预测结果;将视觉预测结果输入至语言模型中,进行双向特征提取,得到语言特征;迭代地执行以下操作:将语言特征和视觉特征输入至融合模型中,得到融合预测结果;确定迭代次数是否满足迭代预设阈值;在迭代次数未满足迭代预设阈值的条件下,将融合预测结果输入至语言模型中,进行双向特征提取,得到语言特征;以及在迭代次数满足迭代预设阈值的条件下,将融合预测结果作为最终结果。本发明提出的文本识别方法识别精度高且效率高。

Description

基于双向特征语言模型的自然场景文本识别方法及装置
技术领域
本发明涉及文本识别技术领域,更具体地,涉及一种基于双向特征语言模型的自然场景文本识别方法及装置。
背景技术
拥有从自然场景图像中阅读文本的能力对实现人工智能来说至关重要。为此,早期的方法将文本识别中的字符当作没有意义的符号,并通过计算机视觉模型进行分类。然而,这样的方法在复杂的场景,如包含模糊、噪声、遮挡等的环境中效果较差。因而,不少方法尝试引入语言先验知识进行识别,并取得了较好的效果。
当前基于语言模型的文本识别方法:1)其语言模型从结构上来看均为单向语言模型。尽管有些方法使用一个前向及一个反向语言模型进行集成得到双向的语言模型,但该模型从特征提取角度来说依然是单向的特征表达。然而,单向语言模型的特征表达能力较差,并且计算量较大。2)当前的文本识别方法在语言模型的建模方面均以隐性语言建模为主,导致语言模型的建模能力及可解释性较差。而传统的n-gram语言模型虽然为显性建模,但却做不到端到端训练。3)当前的语言模型难以实现迭代修正的方法。
发明内容
有鉴于此,本发明的主要目的是提供一种基于双向特征语言模型的自然场景文本识别方法及装置,以期至少部分地解决上述提及的技术问题中的至少之一。
为实现上述目的,本发明所采用的技术方案包括:
作为本发明的一个方面,提供一种基于双向特征语言模型的自然场景文本识别方法,包括:
将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,所述视觉预测结果表征所述文本图像中的文本信息对应的预测结果;
将所述视觉预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
迭代地执行以下操作:
将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中,得到融合预测结果;
确定迭代次数是否满足迭代预设阈值;
在所述迭代次数未满足所述迭代预设阈值的条件下,将所述融合预测结果输入至所述语言模型中,进行双向特征提取,得到所述语言特征;以及
在所述迭代次数满足所述迭代预设阈值的条件下,将所述融合预测结果作为最终结果。
作为本发明的另一个方面,还提供一种基于双向特征语言模型的自然场景文本识别装置,包括:
视觉处理模块,用于将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,所述视觉预测结果表征所述文本图像中的每个字符对应的预测结果;
语言处理模块,用于将所述视觉预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
融合处理模块,用于迭代地执行以下操作:
将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中,得到融合预测结果;
确定迭代次数是否满足迭代预设阈值;
在所述迭代次数未满足所述迭代预设阈值的条件下,将所述融合预测结果输入至所述语言模型中,进行双向特征提取,得到所述语言特征;以及
确定模块,在所述迭代次数满足所述迭代预设阈值的条件下,将所述融合预测结果作为最终结果。
基于上述技术方案,本发明的基于双向特征语言模型的自然场景文本识别方法及装置具有以下积极效果:
1、通过注意力掩码实现双向的特征提取,从而达到增强特征表达能力、减少计算量的技术效果;
2、通过将概率向量作为语言模型及融合模型的输入,以及在训练过程中阻塞视觉模型与语言模型之间的梯度传播,实现显性的建模方式,增强文本识别网络的语言建模能力及可解释性;
3、通过语言模型的迭代修正方法,提高文本识别网络的识别精度;
4、通过使用半监督的算法,能够将未标注的图像文本用于训练文本识别网络。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了本发明的基于双向特征语言模型的自然场景文本识别方法流程图;
图2示意性示出了本发明的基于双向特征语言模型的自然场景文本识别装置示意图;
图3示意性示出了本发明的文本识别网络结构示意图;
图4示意性示出了本发明的视觉模型结构示意图;
图5示意性示出了本发明的语言模型结构示意图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
作为本发明的一个方面,提供一种基于双向特征语言模型的自然场景文本识别方法,参照图1,包括操作S101~操作S104。
S101、将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,视觉预测结果表征文本图像中的文本信息对应的预测结果;
S102、将视觉预测结果输入至文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
迭代地执行以下操作:
S103、将语言特征和视觉特征输入至文本识别网络的融合模型中,得到融合预测结果;
S104、确定迭代次数是否满足迭代预设阈值;
S105、在迭代次数未满足迭代预设阈值的条件下,将融合预测结果输入至语言模型中,进行双向特征提取,得到语言特征;
S106、在迭代次数满足迭代预设阈值的条件下,将融合预测结果作为最终结果。
根据本发明的实施例,通过将融合预测结果输入至语言模型中进行多次迭代,提高了文本识别网络的识别精度。
根据本发明的可选实施例,迭代次数可以为多次,例如3次、4次或者更多。
根据本发明的实施例,通常迭代次数越多,文本识别的精度越高,但是,迭代次数越多,耗费时间也相对而言更长,并且,迭代超过一定次数后,识别精度提升将不再明显提升。
根据本发明的实施例,视觉预测结果、语言预测结果及融合预测结果可以为概率向量。
根据本发明的实施例,视觉特征、语言特征及融合特征可以为512维的特征向量。
根据本发明的实施例,可以采用贪心解码的方式,根据融合预测结果得出最终结果。作为示例,融合模型输出的概率向量可以如下:{X∶P|0∶0.02;1∶0.03;2∶0.01;3∶0.01;4∶0.01;5∶0.02;6∶0.03;7∶0.5;8∶0.1;9∶0.27;}。根据本发明的实施例,X与P可以表示融合模型预测的数字及数字对应的概率值,通过贪心解码,即选择最大概率值对应的结果作为输出值,根据融合模型输出的概率向量,可以得到最终结果为7。需要说明的是,上述示例仅用于帮助理解本发明,而不对本发明做任何限定。
根据本发明的实施例,语言模型包括多头注意力模块,多头注意力模块包括注意力掩码矩阵;其中,多头注意力模块利用注意力掩码矩阵控制视觉预测结果或者融合预测结果的双向特征访问。
根据本发明的实施例,注意力掩码矩阵通过mask的方法避免看到当前字符,且同时访问该字符左边及右边的信息,并综合左边及右边的信息同时做出预测。
根据本发明的实施例,语言模型和视觉模型之间通过梯度阻塞的方式实现视觉模型和语言模型的分离;视觉模型输出的视觉预测结果为概率向量;语言模型输出的语言预测结果为概率向量;融合模型输出的融合预测结果为概率向量。
根据本发明的实施例,视觉模型的输出概率向量到语言模型的输入概率向量,通过梯度阻塞的方式使得视觉模型与语言模型进行分离,进而实现视觉模型与语言模型作为独立的个体进行训练,即实现显性的语言建模。
根据本发明的实施例,将视觉预测结果或者融合预测结果输入至文本识别网络的语言模型中,进行双向特征提取,得到语言特征包括操作S201~S204。
S201、利用概率映射将视觉预测结果或者融合预测结果进行处理,得到字符特征向量;
S202、获取文本图像的字符位置特征向量;
S203、利用注意力掩码矩阵对视觉预测结果或者融合预测结果进行掩码处理,得到双向表达特征向量;
S204、将字符特征向量、字符位置特征向量和双向表达特征向量输入至语言特征模型的多层堆叠的多头注意力模块中,得到语言预测结果。
根据本发明的实施例,多层堆叠的多头注意力模块的层数可以为4层。
根据本发明的实施例,通过使用注意力掩码矩阵通过完形填空的方式建模语言模型,由此可仅使用单一模型而非集成模型获取文本数据的双向特征表达,实现减少语言模型的计算量以及增强特征表达能力的技术效果。
根据本发明的实施例,文本识别网络通过以下操作S301~S303训练。
S301、获取训练样本数据集;其中,训练样本数据集包括有标注文本图像数据集和无标注文本图像数据集;
S302、搭建初始文本识别网络和损失函数;其中,视觉模型与语言模型梯度阻塞;
S303、利用训练样本数据集和损失函数训练初始文本识别网络,得到文本识别网络。
根据本发明的实施例,通过在训练过程中,构建的视觉模型的输出为概率向量,语言模型的输入为概率向量,并在视觉模型的输出及语言模型的输入部分阻塞梯度的传播,进而实现有效地可端到端训练的显性语言模型,增强文本识别网络的语言建模能力及可解释性的技术效果。
根据本发明的实施例,利用训练样本数据集和损失函数训练初始文本识别网络,得到文本识别网络包括操作S401~S404。
S401、利用有标注文本图像数据集中的训练样本和损失函数训练初始文本识别网络,得到预训练文本识别网络;
S402、将无标注文本图像数据集中的无标注文本图像输入至预训练文本识别网络中,得到无标注文本图像的伪标签;
S403、对无标注文本图像的伪标签进行筛选处理,确定满足预设筛选条件的伪标签,并将满足预设筛选条件的伪标签的无标注文本图像和伪标签作为优化训练样本;
S404、利用优化训练样本训练预训练文本识别网络,得到文本识别网络。
根据本发明的实施例,通过使用半监督的算法,能够将未标注的图像文本用于训练文本识别网络。
根据本发明的实施例,预设筛选条件包括:
无标注文本图像的伪标签最小置信度C大于等于置信度阈值;
其中,伪标签最小置信度C的表达式如下:
Figure BDA0002899667710000081
Figure BDA0002899667710000082
其中,Pm(yt)为第k个字符在迭代修正语言模型中第m轮的概率分布。
根据本发明的实施例,损失函数包括:
Figure BDA0002899667710000083
其中,
Figure BDA0002899667710000084
为分别为视觉模型,语言模型及融合模型的交叉熵损失;其中
Figure BDA0002899667710000085
分别为第i轮的损失,λv及λl为视觉模型和语言模型的平衡因子。
根据本发明的实施例,语言融合模型包括融合函数,其中,融合函数表达式如下:
G=σ([Fv,Fl]Wf); (4)
Ff=G⊙Fv+(1-G)⊙Fl; (5)
其中,Fv为视觉模型输出的视觉特征;Fl为语言模型输出的语言特征;Ff为语言融合模型输出的融合特征;Wf∈R2C×C、G∈RT×C以及σ(·)为sigmoid函数。
如图2所示,作为本发明的另一个方面,还提供一种基于双向特征语言模型的自然场景文本识别装置200,包括视觉处理模块210、语言处理模块220、融合处理模块230及确定模块240。
视觉处理模块210,用于将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,视觉预测结果表征文本图像中的每个字符对应的预测结果;
语言处理模块220,用于将视觉预测结果输入至文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
融合处理模块230,用于迭代地执行以下操作:
将语言特征和视觉特征输入至文本识别网络的融合模型中,得到融合预测结果;
确定迭代次数是否满足迭代预设阈值;
在迭代次数未满足迭代预设阈值的条件下,将融合预测结果输入至语言模型中,进行双向特征提取,得到语言特征;以及
确定模块240,在迭代次数满足迭代预设阈值的条件下,将融合预测结果作为最终结果。
需要说明的是,本发明的实施例中基于双向特征语言模型的自然场景文本识别装置部分与本发明的实施例中基于双向特征语言模型的自然场景文本识别方法部分是相对应的,基于双向特征语言模型的自然场景文本识别装置部分的描述具体参考基于双向特征语言模型的自然场景文本识别方法部分,在此不再赘述。
下面结合具体实施例对本发明的技术方案作进一步说明,但需要注意的是,下述的实施例仅用于说明本发明的技术方案,但本发明并不限于此。
本发明的主要目的为解决自然场景文本识别在图像质量较低时效果不够好的问题。
本发明提出一种基于双向特征语言模型的自然场景文本识别方法,通过将语言模型设计为利用独立且显性的方式建模、双向的特征提取方法以及迭代的修正方法,实现相比于其他语言建模方法效果更佳的方法。此外,本方法的文本识别网络结构具有并行计算的特点,因而相比传统RNN(Recurrent Neural Network,循环神经网络)的方法,其速度上更具有优势。
图3示意性示出了本发明的文本识别网络结构示意图。如图3所示,对于给定的一张文本图像,首先视觉模型从文本图像中提取视觉特征,并根据视觉特征进行预测,得到视觉预测结果。其次,将视觉预测结果输入至语言模型,语言模型提取语言特征并进行预测,得到语言预测结果。此处视觉模型到语言模型之间,在训练阶段进行梯度阻塞,因而语言模型的训练梯度不会影响视觉模型的训练。最后,融合模型中,将从视觉模型中提取的视觉特征及从语言模型中提取的语言特征进行融合,并得到融合预测结果。最后,融合模型的融合预测结果进一步输入至语言模型,得到下一轮的融合预测结果。将反复多轮之后的融合预测结果作为最终的输出结果。
1.视觉模型
图4示意性示出了本发明的视觉模型的结构示意图。如图4所示,视觉模型由主干网络Backbone与注意力模块Position Attention组成。其中,主干网络Backbone为
Figure BDA0002899667710000106
Figure BDA0002899667710000107
的组合,负责图像特征的提取。因此,对于输入文本图像x,有如下表达:
Figure BDA0002899667710000101
其中,H,W为图像x的高和宽,C′为视觉模型中的特征维度,默认设置为512。ResNet的下采样倍数为4倍。
注意力模块以并行的方式提取每个字符的特征,通过基于查询的方式实现:
Figure BDA0002899667710000102
其中,Q′∈RT×C为查询向量,是字符位置序号的编码;T为字符序列的长度;
Figure BDA0002899667710000103
为键向量,其中
Figure BDA0002899667710000108
由一个4层小型U-Net网络实现,其通道数为64;
Figure BDA0002899667710000104
为值向量,其中
Figure BDA0002899667710000105
为恒等映射。
视觉模型中,ResNet网络的层数为45层(3*3的卷积层数),包含5个残差块。每个残差块可以分别包含3,4,6,6,3个残差层。其中,在第1个和第3个残差块后边执行下采样。视觉模型中的U-Net网络为编码器、解码器,其中,编码器、解码器可以分别为4层的小型网络,该网络通道数可以为64,使用元素级相加进行融合,使用插值的方法进行上采样。视觉模型中Transformer的层数可以为3层。
2.语言模型
图5示意性示出了本发明的语言模型的结构示意图。总体上,语言模型是一个L层的Transformer decoder的变种。该语言模型的每一层由一系列的多头注意力模块(Multi-Head Attention)及feed-forward网络构成,并配有残差连接及层归一化layernormalization方法。该语言模型不同于传统的Transformer网络,具体区别说明如下。
(1)该语言模型以字符位置序号编码作为输入,为非字符特征向量。而字符特征向量直接传入多头注意力模块。该语言模型通过多头注意力模块中的注意力掩码矩阵控制字符信息的访问。
(2)对于第t个时间步的字符来说,注意力掩码矩阵通过mask的方法避免看到当前字符,且实现同时访问该字符左边及右边的信息,并综合左边及右边的信息同时做出预测。
(3)为了避免信息泄露,传统Transformer中的自注意模块self-attention并没有在该网络中使用,这样避免了跨时间步上的信息访问。
综上,以上计算过程可由下公式形式化描述:
Figure BDA0002899667710000111
Ki=Vi=P(yi)Wl; (9)
Figure BDA0002899667710000112
其中,Q∈RT×C在第一层为字符位置序号编码向量,在其他层为上一层的输出向量;K,V∈RT×C由字符概率P(yi)∈Rc及线性映射矩阵Wl∈Rc×C计算而得;M∈RT×T为注意力掩码矩阵,其控制字符信息的访问。
以上网络层通过深层叠加之后得到语言模型,该语言模型可获取输入文本序列的双向特征表达。该双向特征表达的核心为,使用注意力掩码矩阵模拟完型填空的方式建模语言模型,由此可仅使用单一模型而非集成模型获取文本数据的双向特征表达。此外,该语言模型的每个时间步的计算均为独立且并行的,因此具有高效的特点。
语言模型中网络层数可以为4层,且多头注意力模块中注意力头的个数可以为8个。
如图3所示,视觉模型与语言模型的交互方式为视觉模型的预测概率分布直接作为语言模型的输入。语言模型的输入为概率向量,使用线性函数实现概率映射ProbabilityMapping。其中,一个核心的点为视觉模型的输出概率向量到语言模型的输入概率向量,通过梯度阻塞的方式使得视觉模型跟语言模型进行分离,进而实现两个模型作为独立的功能个体进行学习,即实现显性地语言建模型。
语言模型采用迭代修正的方式执行,其直观描述如图1所示。算法具体描述如表1所示:
表1迭代语言模型方法
Figure BDA0002899667710000121
3.融合模型
视觉模型提取的视觉特征Fv,以及语言模型提取的语言特征Fl通过如下公式进行融合,最后得到融合特征Ff,并基于此得到融合预测结果。
G=σ([Fv,Fl]Wf); (4)
Ff=G⊙Fv+(1-G)⊙F; (5)
其中,Wf∈R2C×C,G∈RT×C以及σ(·)为sigmoid函数。
4.训练损失函数
文本识别网络中的视觉模型、语言模型及融合模型通过端到端的方式进行训练。在获取视觉特征Fv、语言特征Fl及融合特征Ff后,如图3所示分别使用线性层Linear及Softmax函数获得对应部分的预测概率。最终,训练目标损失函数如下:
Figure BDA0002899667710000131
其中,
Figure BDA0002899667710000132
分别为来自视觉模型、语言模型及融合模型的交叉熵损失;其中
Figure BDA0002899667710000133
为第i轮训练的损失,λv及λl为损失函数间平衡因子,平衡因子λv及λl均设置为1。
5.半监督训练方法
根据迭代的预测结果,本方法额外使用如表2描述的半监督学习方法。该方法基于自学习思想,即首先通过有监督数据训练好模型,再通过训练好的模型在无标注数据上产生该数据的伪标签,最后通过一定方法过滤伪标签得到无标注数据的标签,用于模型的训练。详细算法描述如表1所示。标签过滤方法如下公式所示:
Figure BDA0002899667710000134
Figure BDA0002899667710000135
其中,c为一文本实例的最小置信度,其考虑一个文本串内最小置信的的字符作为整个字符串的代表;Pm(yt)为第k个字符在迭代修正语言模型中第m轮的概率分布;其中阈值Q的取值为0.9。Bl,Bu的batch size大小分别为256及128;Nmax为最大的训练迭代数,Nupl为产生伪标签的更新轮数。
表2示意性示出了半监督集成自学习方法的执行步骤:
表2半监督集成自学习方法
Figure BDA0002899667710000142
本方法在常用数据集上的精度如表3所示,其中SVT为Street View Text数据集,IIIT5K为IIIT 5K-word数据集,IC13为ICDAR 2013数据集,IC15为ICDAR 2015数据集,SVTP为Street View Text-Perspective数据集,CUTE为CUTE80数据集。以上有监督训练的结果为在MJSynth90k及SynthText数据集上的结果,半监督训练额外使用不含标注的Uber-Text数据集。
表3常用数据集上的精度
Figure BDA0002899667710000143
通过使用有标注的文本图像预训练文本识别网络,再使用半监督算法,从而可以使用不含标注的文本图像用于训练与训练好的文本识别网络,大大节省了人工对图像进行标注的成本。
在文本识别网络的训练过程中,输入图像直接缩放至32×128的大小,并使用几何形变(旋转、仿射变换、射影变换)、图像质量退化及颜色转换等方法进行数据增广。训练的batch size大小为384。文本识别网络使用ADAM优化算法进行优化,其初始学习率为1e-3,并在训练的第6个epoch之后缩减至1e-4直至收敛。
综上所述,本发明的关键点有:
1.提出了一种基于双向特征建模的语言模型结构。该结构给定一串文本字符串,可以预测该文本字符串矫正的概率,并结合视觉模型进行端到端文本识别。
2.提出了一种解耦视觉模型及语言模型的方法。该方法通过设计视觉模型的输出为概率向量,语言模型的输入为概率向量,并在视觉模型的输出及语言模型的输入部分阻塞梯度的传播,进行实现有效的可端到端训练的显性语言模型。
3.提出了一种可迭代修正融合模型预测结果的方法。该方法通过将融合模型的输出结果,多次输入至语言模型进行矫正,得到最后的识别结果。
4.提出了一种基于ResNet、Transformer以及Position Attention的双向特征语言模型的自然场景文本识别网络。
5.通过显性建模语言规则及迭代修正,实现高精度且高效的自然场景文本识别方法。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。

Claims (10)

1.一种基于双向特征语言模型的自然场景文本识别方法,其特征在于,包括:
将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,所述视觉预测结果表征所述文本图像中的文本信息对应的预测结果;
将所述视觉预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
迭代地执行以下操作:
将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中,得到融合预测结果;
确定迭代次数是否满足迭代预设阈值;
在所述迭代次数未满足所述迭代预设阈值的条件下,将所述融合预测结果输入至所述语言模型中,进行双向特征提取,得到所述语言特征;以及
在所述迭代次数满足所述迭代预设阈值的条件下,将所述融合预测结果作为最终结果。
2.根据权利要求1所述的方法,其特征在于,
所述语言模型包括多头注意力模块,所述多头注意力模块包括注意力掩码矩阵;
其中,所述多头注意力模块利用注意力掩码矩阵控制所述视觉预测结果或者融合预测结果的双向特征访问。
3.根据权利要求1或2所述的方法,其特征在于,
所述语言模型和所述视觉模型之间通过梯度阻塞的方式实现所述视觉模型和所述语言模型的分离;
所述视觉模型输出的所述视觉预测结果为概率向量;
所述语言模型输出的所述语言预测结果为概率向量;
所述融合模型输出的所述融合预测结果为概率向量。
4.根据权利要求2所述的方法,其特征在于,
将所述视觉预测结果或者所述融合预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征包括:
利用概率映射将所述视觉预测结果或者所述融合预测结果进行处理,得到字符特征向量;
获取所述文本图像的字符位置特征向量;
利用所述注意力掩码矩阵对所述视觉预测结果或者融合预测结果进行掩码处理,得到双向表达特征向量;
将所述字符特征向量、字符位置特征向量和所述双向表达特征向量输入至所述语言特征模型的多层堆叠的多头注意力模块中,得到语言预测结果。
5.根据权利要求1所述的方法,其特征在于,
所述文本识别网络通过以下操作训练:
获取训练样本数据集;其中,所述训练样本数据集包括有标注文本图像数据集和无标注文本图像数据集;
搭建初始文本识别网络和损失函数;其中,所述视觉模型与所述语言模型梯度阻塞;以及
利用所述训练样本数据集和所述损失函数训练所述初始文本识别网络,得到所述文本识别网络。
6.根据权利要求5所述的方法,所述利用所述训练样本数据集和所述损失函数训练所述初始文本识别网络,得到所述文本识别网络包括:
利用所述有标注文本图像数据集中的训练样本和所述损失函数训练所述初始文本识别网络,得到预训练文本识别网络;
将所述无标注文本图像数据集中的无标注文本图像输入至所述预训练文本识别网络中,得到所述无标注文本图像的伪标签;
对所述无标注文本图像的伪标签进行筛选处理,确定满足预设筛选条件的伪标签,并将所述满足预设筛选条件的伪标签的无标注文本图像和所述伪标签作为优化训练样本;
利用所述优化训练样本训练所述预训练文本识别网络,得到文本识别网络。
7.根据权利要求6所述的方法,其中,所述预设筛选条件包括:
所述无标注文本图像的伪标签最小置信度C大于等于置信度阈值;
其中,所述伪标签最小置信度C的表达式如下:
Figure FDA0002899667700000031
Figure FDA0002899667700000032
其中,Pm(yt)为第k个字符在迭代修正语言模型中第m轮的概率分布。
8.根据权利要求4所述的方法,其中,所述损失函数包括:
Figure FDA0002899667700000033
其中,
Figure FDA0002899667700000034
为分别为视觉模型,语言模型及融合模型的交叉熵损失;其中
Figure FDA0002899667700000035
分别为第i轮的损失,λv及λl为视觉模型和语言模型的平衡因子。
9.根据权利要求1所述的方法,其特征在于,
所述语言融合模型包括融合函数,其中,所述融合函数表达式如下:
G=σ([Fv,Fl]Wf);
Ff=G⊙Fv+(1-G)⊙Fl
其中,Fv为视觉模型输出的视觉特征;Fl为语言模型输出的语言特征;Ff为语言融合模型输出的融合特征;Wf∈R2C×C、G∈RT×C以及σ(·)为sigmoid函数。
10.一种基于双向特征语言模型的自然场景文本识别装置,其特征在于,包括:
视觉处理模块,用于将文本图像输入至文本识别网络的视觉模型中,得到视觉特征及视觉预测结果;其中,所述视觉预测结果表征所述文本图像中的每个字符对应的预测结果;
语言处理模块,用于将所述视觉预测结果输入至所述文本识别网络的语言模型中,进行双向特征提取,得到语言特征;
融合处理模块,用于迭代地执行以下操作:
将所述语言特征和所述视觉特征输入至所述文本识别网络的融合模型中,得到融合预测结果;
确定迭代次数是否满足迭代预设阈值;
在所述迭代次数未满足所述迭代预设阈值的条件下,将所述融合预测结果输入至所述语言模型中,进行双向特征提取,得到所述语言特征;以及
确定模块,在所述迭代次数满足所述迭代预设阈值的条件下,将所述融合预测结果作为最终结果。
CN202110059600.5A 2021-01-15 2021-01-15 基于双向特征语言模型的自然场景文本识别方法及装置 Active CN112733768B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110059600.5A CN112733768B (zh) 2021-01-15 2021-01-15 基于双向特征语言模型的自然场景文本识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110059600.5A CN112733768B (zh) 2021-01-15 2021-01-15 基于双向特征语言模型的自然场景文本识别方法及装置

Publications (2)

Publication Number Publication Date
CN112733768A true CN112733768A (zh) 2021-04-30
CN112733768B CN112733768B (zh) 2022-09-09

Family

ID=75591834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110059600.5A Active CN112733768B (zh) 2021-01-15 2021-01-15 基于双向特征语言模型的自然场景文本识别方法及装置

Country Status (1)

Country Link
CN (1) CN112733768B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN113723312A (zh) * 2021-09-01 2021-11-30 东北农业大学 基于视觉transformer的水稻病害识别方法
CN114092931A (zh) * 2022-01-20 2022-02-25 中科视语(北京)科技有限公司 场景文字识别方法、装置、电子设备及存储介质
CN114581906A (zh) * 2022-05-06 2022-06-03 山东大学 自然场景图像的文本识别方法及系统
CN115099240A (zh) * 2022-06-17 2022-09-23 北京百度网讯科技有限公司 文本生成模型训练方法和装置、文本生成方法和装置
CN116052154A (zh) * 2023-04-03 2023-05-02 中科南京软件技术研究院 一种基于语义增强与图推理的场景文本识别方法
CN116912856A (zh) * 2023-09-14 2023-10-20 深圳市贝铂智能科技有限公司 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
WO2019166006A1 (zh) * 2018-03-02 2019-09-06 华为技术有限公司 图像识别方法、图像呈现时间的调整方法及设备
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN111738251A (zh) * 2020-08-26 2020-10-02 北京智源人工智能研究院 一种融合语言模型的光学字符识别方法、装置和电子设备
CN111753827A (zh) * 2020-05-15 2020-10-09 中国科学院信息工程研究所 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN111950453A (zh) * 2020-08-12 2020-11-17 北京易道博识科技有限公司 一种基于选择性注意力机制的任意形状文本识别方法
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019166006A1 (zh) * 2018-03-02 2019-09-06 华为技术有限公司 图像识别方法、图像呈现时间的调整方法及设备
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108615036A (zh) * 2018-05-09 2018-10-02 中国科学技术大学 一种基于卷积注意力网络的自然场景文本识别方法
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN111753827A (zh) * 2020-05-15 2020-10-09 中国科学院信息工程研究所 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN111950453A (zh) * 2020-08-12 2020-11-17 北京易道博识科技有限公司 一种基于选择性注意力机制的任意形状文本识别方法
CN111738251A (zh) * 2020-08-26 2020-10-02 北京智源人工智能研究院 一种融合语言模型的光学字符识别方法、装置和电子设备
CN112183545A (zh) * 2020-09-29 2021-01-05 佛山市南海区广工大数控装备协同创新研究院 一种任意形状的自然场景文本识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DONG L 等: "Unified language model pre-training for natural language understanding and generation", 《NEURAL INFORMATION PROCESSING SYSTEMS》 *
WAN Z等: "BiLSTM-CRF Chinese Named Entity Recognition Model with Attention Mechanism", 《JOURNAL OF PHYSICS: CONFERENCE SERIES》 *
YU D 等: "Towards Accurate Scene Text Recognition With Semantic Reasoning Networks", 《ARXIV》 *
ZHOU Y等: "MLTS: A Multi-Language Scene Text Spotter", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
徐彤彤 等: "基于双向长效注意力特征表达的少样本文本分类模型研究", 《数据分析与知识发现》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN113723312A (zh) * 2021-09-01 2021-11-30 东北农业大学 基于视觉transformer的水稻病害识别方法
CN113723312B (zh) * 2021-09-01 2024-01-23 东北农业大学 基于视觉transformer的水稻病害识别方法
CN114092931A (zh) * 2022-01-20 2022-02-25 中科视语(北京)科技有限公司 场景文字识别方法、装置、电子设备及存储介质
CN114581906A (zh) * 2022-05-06 2022-06-03 山东大学 自然场景图像的文本识别方法及系统
CN115099240A (zh) * 2022-06-17 2022-09-23 北京百度网讯科技有限公司 文本生成模型训练方法和装置、文本生成方法和装置
CN115099240B (zh) * 2022-06-17 2023-12-26 北京百度网讯科技有限公司 文本生成模型训练方法和装置、文本生成方法和装置
CN116052154A (zh) * 2023-04-03 2023-05-02 中科南京软件技术研究院 一种基于语义增强与图推理的场景文本识别方法
CN116912856A (zh) * 2023-09-14 2023-10-20 深圳市贝铂智能科技有限公司 一种智能扫描笔的图像识别方法、装置以及智能扫描笔

Also Published As

Publication number Publication date
CN112733768B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN112733768B (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN110738090B (zh) 使用神经网络进行端到端手写文本识别的系统和方法
CN111079532B (zh) 一种基于文本自编码器的视频内容描述方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN113792113A (zh) 视觉语言模型获得及任务处理方法、装置、设备及介质
WO2021238333A1 (zh) 一种文本处理网络、神经网络训练的方法以及相关设备
CN111652202B (zh) 利用自适应的时空图模型通过提升视频-语言表征学习来解决视频问答问题的方法及其系统
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN113010656A (zh) 一种基于多模态融合和结构性控制的视觉问答方法
CN114863407B (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN112464816A (zh) 基于二次迁移学习的地方手语识别方法、装置
CN113971837A (zh) 一种基于知识的多模态特征融合的动态图神经手语翻译方法
CN115223020A (zh) 图像处理方法、装置、电子设备以及可读存储介质
CN116304984A (zh) 基于对比学习的多模态意图识别方法及系统
CN115331075A (zh) 一种多模态场景图知识增强的对抗式多模态预训练方法
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114169408A (zh) 一种基于多模态注意力机制的情感分类方法
CN115797952B (zh) 基于深度学习的手写英文行识别方法及系统
CN116975347A (zh) 图像生成模型训练方法及相关装置
CN113672727B (zh) 一种金融文本实体关系抽取方法及系统
CN115862015A (zh) 文字识别系统的训练方法及装置、文字识别方法及装置
CN115496991A (zh) 基于多尺度跨模态特征融合的指代表达理解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant