CN114359886A - 一种基于多层次特征选择的自然场景文本识别方法 - Google Patents

一种基于多层次特征选择的自然场景文本识别方法 Download PDF

Info

Publication number
CN114359886A
CN114359886A CN202111639884.1A CN202111639884A CN114359886A CN 114359886 A CN114359886 A CN 114359886A CN 202111639884 A CN202111639884 A CN 202111639884A CN 114359886 A CN114359886 A CN 114359886A
Authority
CN
China
Prior art keywords
text
image
training set
scene
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111639884.1A
Other languages
English (en)
Inventor
李利荣
张开
陈鹏
张云良
周蕾
乐玲
熊炜
丁江
梅冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202111639884.1A priority Critical patent/CN114359886A/zh
Publication of CN114359886A publication Critical patent/CN114359886A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于多层次特征选择的自然场景文本识别方法.首先将原始图像使用空间变换网络进行文本矫正处理,将矫正后的图像构建场景文本图像训练集;其次将构建的场景文本图像训练集对多层次特征提取残差网络进行优化训练,得到优化后的多层次特征提取残差网络;接下来通过优化后的多层次特征提取残差网络来预测场景文本图像训练集中的多个数据信息及其类别信息,再使用序列转换的方式分别获得视觉特征序列、上下文特征序列和语义特征序列,并将三者结合成一个多层次特征序列集。最后构建多层次注意力解码器并对其进行优化训练,将多层次特征序列集输入到多层次注意力解码器中进行解码操作,得到最终预测的识别结果。

Description

一种基于多层次特征选择的自然场景文本识别方法
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多层次特征选择的自然场景文本识别方法,。
背景技术
场景文本识别作为计算机视觉领域中一个研究方向,随着深度学习的发展,在无人驾驶、智能生活等商业领域广泛应用,但是由于自然场景环境的复杂性,会存在很多模糊、弯曲、倾斜的文本内容。传统的场景文本识别算法通常是按顺序依次每个文本字符的识别,但是这个方法有很大的局限性,自然场景中的文本字符难以分割,且传统方法不依赖于上下文之间的依赖关系和字符之间的顺序建模,导致识别效果不理想。现代的场景文本识别是基于整个单词的识别,将文本图片切分成序列进行预测,避免了每个字符需要单独注释的必要,相比于传统方法能达到更高的准确率。
发明内容
本发明的目的是:当前场景文本识别方法大多数使用编码器-解码器方法,并且只将视觉特征和上下文特征关联起来,而忽略了全局的语义特征,且极少挖掘多种特征之间的隐藏联系来辅助文本识别。为了实现上述目的,本发明所采用的技术方案是:一种基于多层次特征选择的自然场景文本识别方法,其特征在于,包括以下步骤:
步骤1:将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像,通过人工标记得到每幅图像中多个文本外接矩形边框,通过每幅图像构建场景文本图像训练集,人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签;
步骤2:引入多层次特征提取残差网络,将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像,且在每幅网格化处理后的图像中引入锚框,每个锚框以网格为中心用来辅助预测文本框的坐标,将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测,通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标,将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框,从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框,且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息。将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来,得到每个预测的文本外接矩形框中的文本内容所属的文字类别,将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别,及每幅图像生成的Q个网格及对应的B个锚框,将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框,构建多级特征提取残差网络的损失函数,进一步通过Adam算法优化训练得到优化后多层特征提取残差网络;
步骤3:将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中,得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别,将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集,场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集。最后将这三个特征序列集结合起来构建一个多层次特征序列集;
步骤4:将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作,场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集,多层次特征序列集中的每一个序列都对应所属的文本类别,再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果,构建多层次注意力解码器的损失函数,进一步通过Adam算法优化训练得到优化后多层次注意力解码器;
作为优选,步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框,具体为:
Figure BDA0003443614340000031
Figure BDA0003443614340000032
Figure BDA0003443614340000033
其中,
Figure BDA0003443614340000034
表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标,
Figure BDA0003443614340000035
表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标,
Figure BDA0003443614340000036
表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标;
Figure BDA0003443614340000037
表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标,
Figure BDA0003443614340000038
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标,
Figure BDA0003443614340000039
表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标;Ij表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量;J表示图像的数量;
步骤1所场景文本图像训练集中类别为:
classifyj,i
其中,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别;
步骤1所述的场景文本图像训练集为:
Figure BDA0003443614340000041
其中,dataj(x,y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。
作为优选,步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成;
每个卷积块由BN层、Relu激活函数层级联构成;
步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定,利用网格和锚框进行预测文本的框定和分类。
Figure BDA0003443614340000042
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA0003443614340000043
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000044
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000045
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
Figure BDA0003443614340000046
表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成;
所述目标边界框损失的定义为:
Figure BDA0003443614340000051
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,m表示Q中的的其中第m个网格,n表示在第m个网格中第n个锚框;
Figure BDA0003443614340000052
表示第m个网格中第n个锚框是否负责预测物体,取值为1或0;
Figure BDA0003443614340000053
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA0003443614340000054
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000055
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000056
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
所述分类损失函数的定义为:
Figure BDA0003443614340000057
Figure BDA0003443614340000061
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,classifyj,i表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框中真实标签内容所属类别,
Figure BDA0003443614340000062
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;
Figure BDA0003443614340000063
表示第m个网格的第n个锚框是否不存在目标,λnon表示没有物体时置信度惩罚权重系数。
作为优选,步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集,可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集,而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中。具体操作如下:
Figure BDA0003443614340000064
其中,F(·)函数表示map-sequence操作过程,将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别。
Figure BDA0003443614340000065
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA0003443614340000066
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000067
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000068
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
Figure BDA0003443614340000069
表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
Figure BDA00034436143400000610
表示场景文本图像数据集中第j幅图像中预测的第i个文本外接矩形边框所对应的视觉特征序列集,vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的视觉特征序列集中的第k个视觉特征序列,
Figure BDA0003443614340000071
表示视觉特征序列集中第k个视觉序列的所属类别。
步骤3所述的将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序,具体而言是针对视觉序列来建模上下文信息,更好的捕捉双向的语义依赖。具体操作如下:
Figure BDA0003443614340000072
其中,G(·)函数表示BiLSTM模块的操作过程,
Figure BDA0003443614340000073
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA0003443614340000074
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000075
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000076
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的上下文特征序列集中的第k个上下文特征序列,
Figure BDA0003443614340000077
表示上下文特征序列集中第k个上下文序列的所属类别。
步骤3所述将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列。语义模块是可以根据上下文之间的信息来捕获全局的语义特征信息。具体操作如下:
Figure BDA0003443614340000078
U(·)函数表示语义模块的操作过程,
Figure BDA0003443614340000079
表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框所对应的语义特征序列集,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的语义特征序列集中的第k个语义特征序列,
Figure BDA0003443614340000081
表示语义特征序列集中第k个语义特征序列的所属类别。
步骤3所述将视觉特征信息、上下文特征信息和语义特征信息三者结合起来生成一个新的多层次的特征序列集D。具体表示如下:
Figure BDA0003443614340000082
vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个视觉特征序列,
Figure BDA0003443614340000083
表示第k个视觉序列的所属类别,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的第k个上下文特征序列,
Figure BDA0003443614340000084
表示第k个上下文序列的所属类别,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个语义特征序列,
Figure BDA0003443614340000085
表示第k个语义序列的所属类别。
具体而言多层次的特征信息D可以表示如下:
Figure BDA0003443614340000086
Figure BDA0003443614340000087
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框所对应的多层次特征序列集,dj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个多层次特征序列,
Figure BDA0003443614340000088
表示第k个多层次特征序列的所属类别。
作为优选,将步骤4所述多层次注意力解码器的损失函数为:
Figure BDA0003443614340000089
Figure BDA0003443614340000091
其中,
Figure BDA0003443614340000092
表示第m个网格的第n个锚框是否不存在目标,
Figure BDA0003443614340000093
表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的多层次特征序列中第k个序列所属类别的置信度,
Figure BDA0003443614340000094
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
本发明能从场景图片中识别出任意的文本字符,具体而言,本发明具有以下特点:
提出一个新的多层次特征选择模块,在视觉特征中获取上下文特征和全局语义特征,并建立起三者特征之间的联系;
提出一种新型的多层次注意力选择解码器(MASD),对特征空间进行解码预测操作,选择有价值的特征信息的同时抑制其余无关信息;
提出一种基于多层次特征选择的自然场景文本识别方法。
与现有技术相比,本发明的有益效果是:
本方法在识别过程中不仅关注局部序列字符分类,同时也关注整个单词全局信息;
本方法可以在视觉特征中分别捕获上下文特征和语义特征,还能更好的挖掘特征之间的隐藏联系来辅助文本识别;
本方法可以关注特征序列之间的内部联系,选择重要的信息特征参与预测解码。
附图说明
图1:是本发明的整体结构流程图。
图2:是本发明网络模型结构图。
图3:是BiLSTM编码器结构图。
图4:是多层次注意力选择解码器结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
下面首先对本发明所提到一些概念进行介绍:
深度学习(deep learning)作为机器学习的一个部分,最早源自于对人工神经网络的研究,是传统机器学习技术的一种特殊的表现形式。早期的人工神经网络容易受到网络结构复杂、大规模计算能力差等方面的限制,能够学习获得到的参数较少,拟合效果不佳。而深度学习通过增加复杂的网络结构实现自主的参数学习,不断对参数矩阵及偏置量进行更新,将简单的特征通过特征提取网络转换为深度的高级的特征,此过程仅涉及较为简单的非线性函数,通过对多个非线性函数的组合,即可对复杂的结果进行准确拟合,得到理想的结果。
注意力机制(Attention mechanism)是在复杂信息中快速、准确选择出重要信息的方法,极快的提升了处理信息的效率和提取关键的信息,目前注意力机制在深度学习领域广泛应用。注意力机制本质上是在视觉观察上分配资源的方式,根据对象的重要程度进行分配,权重就是注意力机制所需要分配的资源。
本发明直接对自然场景下的文本图片进行处理,实现了一种基于多层次特征选择的自然场景文本识别方法。
以下结合附图1-4对本发明做进一步的说明。
步骤1:将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像,通过人工标记得到每幅图像中多个文本外接矩形边框,通过每幅图像构建场景文本图像训练集,人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签;
步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框,具体为:
Figure BDA0003443614340000101
Figure BDA0003443614340000102
Figure BDA0003443614340000103
其中,
Figure BDA0003443614340000104
表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标,
Figure BDA0003443614340000105
表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标,
Figure BDA0003443614340000106
表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标;
Figure BDA0003443614340000111
表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标,
Figure BDA0003443614340000112
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标,
Figure BDA0003443614340000113
表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标;Ij表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量;J=1000表示图像的数量。
步骤1所场景文本图像训练集中类别为:
classifyj,i
其中,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别;
步骤1所述的场景文本图像训练集为:
Figure BDA0003443614340000114
其中,dataj(x,y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。
步骤2:引入多层次特征提取残差网络,将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像,且在每幅网格化处理后的图像中引入锚框,每个锚框以网格为中心用来辅助预测文本框的坐标,将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测,通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标,将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框,从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框,且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息。将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来,得到每个预测的文本外接矩形框中的文本内容所属的文字类别,将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别,及每幅图像生成的Q个网格及对应的B个锚框,将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框,构建多级特征提取残差网络的损失函数,进一步通过Adam算法优化训练得到优化后多层特征提取残差网络;
步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成;
每个卷积块由BN层、Relu激活函数层级联构成;
步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定,利用网格和锚框进行预测文本的框定和分类。
Figure BDA0003443614340000121
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA0003443614340000122
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000123
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000124
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
Figure BDA0003443614340000125
表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成;
所述目标边界框损失的定义为:
Figure BDA0003443614340000131
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,m表示Q中的的其中第m个网格,n表示在第m个网格中第n个锚框;
Figure BDA0003443614340000132
表示第m个网格中第n个锚框是否负责预测物体,取值为1或0;
Figure BDA0003443614340000133
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA0003443614340000134
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000135
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000136
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
所述分类损失函数的定义为:
Figure BDA0003443614340000137
Figure BDA0003443614340000141
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,classifyj,i表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框中真实标签内容所属类别,
Figure BDA0003443614340000142
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;
Figure BDA0003443614340000143
表示第m个网格的第n个锚框是否不存在目标,λnon表示没有物体时置信度惩罚权重系数。Q=49表示网格的数量,B=2表示每个网格中锚框的数量。
步骤3:将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中,得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别,将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集,场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集。最后将这三个特征序列集结合起来构建一个多层次特征序列集。
步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集,可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集,而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中。具体操作如下:
Figure BDA0003443614340000151
F(·)函数表示map-sequence操作过程,将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别。
Figure BDA0003443614340000152
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA0003443614340000153
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000154
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000155
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
Figure BDA0003443614340000156
表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
Figure BDA0003443614340000157
表示场景文本图像数据集中第j幅图像中预测的第i个文本外接矩形边框所对应的视觉特征序列集,vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的视觉特征序列集中的第k个视觉特征序列,
Figure BDA0003443614340000158
表示视觉特征序列集中第k个视觉序列的所属类别。
步骤3所述的将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序,具体而言是针对视觉序列来建模上下文信息,更好的捕捉双向的语义依赖。具体操作如下:
Figure BDA0003443614340000159
G(·)函数表示BiLSTM模块的操作过程,
Figure BDA00034436143400001510
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure BDA00034436143400001511
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure BDA0003443614340000161
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure BDA0003443614340000162
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的上下文特征序列集中的第k个上下文特征序列,
Figure BDA0003443614340000163
表示上下文特征序列集中第k个上下文序列的所属类别。
步骤3所述将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列。语义模块是可以根据上下文之间的信息来捕获全局的语义特征信息。具体操作如下:
Figure BDA0003443614340000164
U(·)函数表示语义模块的操作过程,
Figure BDA0003443614340000165
表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框所对应的语义特征序列集,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的语义特征序列集中的第k个语义特征序列,
Figure BDA0003443614340000166
表示语义特征序列集中第k个语义特征序列的所属类别。
步骤3所述将视觉特征信息、上下文特征信息和语义特征信息三者结合起来生成一个新的多层次的特征序列集D。具体表示如下:
Figure BDA0003443614340000167
vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个视觉特征序列,
Figure BDA0003443614340000168
表示第k个视觉序列的所属类别,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的第k个上下文特征序列,
Figure BDA0003443614340000171
表示第k个上下文序列的所属类别,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个语义特征序列,
Figure BDA0003443614340000172
表示第k个语义序列的所属类别。
具体而言多层次的特征信息D可以表示如下:
Figure BDA0003443614340000173
Figure BDA0003443614340000174
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框所对应的多层次特征序列集,dj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个多层次特征序列,
Figure BDA0003443614340000175
表示第k个多层次特征序列的所属类别。
步骤4:将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作,场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集,多层次特征序列集中的每一个序列都对应所属的文本类别,再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果,构建多层次注意力解码器的损失函数,进一步通过Adam算法优化训练得到优化后多层次注意力解码器;
将步骤4所述多层次注意力解码器的损失函数为:
Figure BDA0003443614340000176
其中,
Figure BDA0003443614340000177
表示第m个网格的第n个锚框是否不存在目标,
Figure BDA0003443614340000178
表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的多层次特征序列中第k个序列所属类别的置信度,
Figure BDA0003443614340000179
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种基于多层次特征选择的自然场景文本识别方法,其特征在于,包括以下步骤:
步骤1:将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像,通过人工标记得到每幅图像中多个文本外接矩形边框,通过每幅图像构建场景文本图像训练集,人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签;
步骤2:引入多层次特征提取残差网络,将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像,且在每幅网格化处理后的图像中引入锚框,每个锚框以网格为中心用来辅助预测文本框的坐标,将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测,通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标,将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框,从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框,且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息;将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来,得到每个预测的文本外接矩形框中的文本内容所属的文字类别,将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别,及每幅图像生成的Q个网格及对应的B个锚框,将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框,构建多级特征提取残差网络的损失函数,进一步通过Adam算法优化训练得到优化后多层特征提取残差网络;
步骤3:将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中,得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别,将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集,场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集;最后将这三个特征序列集结合起来构建一个多层次特征序列集;
步骤4:将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作,场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集,多层次特征序列集中的每一个序列都对应所属的文本类别,再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果,构建多层次注意力解码器的损失函数,进一步通过Adam算法优化训练得到优化后多层次注意力解码器。
2.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框,具体为:
Figure FDA0003443614330000021
Figure FDA0003443614330000022
Figure FDA0003443614330000023
其中,
Figure FDA0003443614330000024
表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标,
Figure FDA0003443614330000025
表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标,
Figure FDA0003443614330000026
表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标;
Figure FDA0003443614330000027
表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标,
Figure FDA0003443614330000028
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标,
Figure FDA0003443614330000031
表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标;Ij表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量;J表示图像的数量;
步骤1所场景文本图像训练集中类别为:
classifyj,i
其中,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别;
步骤1所述的场景文本图像训练集为:
Figure FDA0003443614330000032
其中,dataj(x,y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。
3.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成;
每个卷积块由BN层、Relu激活函数层级联构成;
步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定,利用网格和锚框进行预测文本的框定和分类;
Figure FDA0003443614330000033
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure FDA0003443614330000034
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure FDA0003443614330000035
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure FDA0003443614330000036
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
Figure FDA0003443614330000037
表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;
步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成;
所述目标边界框损失的定义为:
Figure FDA0003443614330000041
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,m表示Q中的的其中第m个网格,n表示在第m个网格中第n个锚框;
Figure FDA0003443614330000042
表示第m个网格中第n个锚框是否负责预测物体,取值为1或0;
Figure FDA0003443614330000043
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure FDA0003443614330000044
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure FDA0003443614330000045
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure FDA0003443614330000046
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
所述分类损失函数的定义为:
Figure FDA0003443614330000051
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,classifyj,i表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框中真实标签内容所属类别,
Figure FDA0003443614330000052
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;
Figure FDA0003443614330000053
表示第m个网格的第n个锚框是否不存在目标,λn定n表示没有物体时置信度惩罚权重系数。
4.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集,可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集,而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中;具体操作如下:
Figure FDA0003443614330000054
其中,F(·)函数表示map-sequence操作过程,将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别;
Figure FDA0003443614330000055
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure FDA0003443614330000056
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure FDA0003443614330000061
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure FDA0003443614330000062
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
Figure FDA0003443614330000063
表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;
Figure FDA0003443614330000064
表示场景文本图像数据集中第j幅图像中预测的第i个文本外接矩形边框所对应的视觉特征序列集,vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的视觉特征序列集中的第k个视觉特征序列,
Figure FDA0003443614330000065
表示视觉特征序列集中第k个视觉序列的所属类别;
步骤3所述的将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序,具体而言是针对视觉序列来建模上下文信息,更好的捕捉双向的语义依赖;具体操作如下:
Figure FDA0003443614330000066
其中,G(·)函数表示BiLSTM模块的操作过程,
Figure FDA0003443614330000067
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,
Figure FDA0003443614330000068
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,
Figure FDA0003443614330000069
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,
Figure FDA00034436143300000610
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的上下文特征序列集中的第k个上下文特征序列,
Figure FDA00034436143300000611
表示上下文特征序列集中第k个上下文序列的所属类别;
步骤3所述将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列;语义模块是可以根据上下文之间的信息来捕获全局的语义特征信息;具体操作如下:
Figure FDA0003443614330000071
U(·)函数表示语义模块的操作过程,
Figure FDA0003443614330000072
表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框所对应的语义特征序列集,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的语义特征序列集中的第k个语义特征序列,
Figure FDA0003443614330000073
表示语义特征序列集中第k个语义特征序列的所属类别;
步骤3所述将视觉特征信息、上下文特征信息和语义特征信息三者结合起来生成一个新的多层次的特征序列集D;具体表示如下:
Figure FDA0003443614330000074
vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个视觉特征序列,
Figure FDA0003443614330000075
表示第k个视觉序列的所属类别,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的第k个上下文特征序列,
Figure FDA0003443614330000076
表示第k个上下文序列的所属类别,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个语义特征序列,
Figure FDA0003443614330000077
表示第k个语义序列的所属类别;
具体而言多层次的特征信息D可以表示如下:
Figure FDA0003443614330000078
Figure FDA0003443614330000079
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框所对应的多层次特征序列集,dj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个多层次特征序列,
Figure FDA0003443614330000081
表示第k个多层次特征序列的所属类别。
5.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,将步骤4所述多层次注意力解码器的损失函数为:
Figure FDA0003443614330000082
其中,
Figure FDA0003443614330000083
表示第m个网格的第n个锚框是否不存在目标,
Figure FDA0003443614330000084
表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的多层次特征序列中第k个序列所属类别的置信度,
Figure FDA0003443614330000085
表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
CN202111639884.1A 2021-12-29 2021-12-29 一种基于多层次特征选择的自然场景文本识别方法 Withdrawn CN114359886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111639884.1A CN114359886A (zh) 2021-12-29 2021-12-29 一种基于多层次特征选择的自然场景文本识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111639884.1A CN114359886A (zh) 2021-12-29 2021-12-29 一种基于多层次特征选择的自然场景文本识别方法

Publications (1)

Publication Number Publication Date
CN114359886A true CN114359886A (zh) 2022-04-15

Family

ID=81103453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111639884.1A Withdrawn CN114359886A (zh) 2021-12-29 2021-12-29 一种基于多层次特征选择的自然场景文本识别方法

Country Status (1)

Country Link
CN (1) CN114359886A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937277A (zh) * 2022-05-18 2022-08-23 北京百度网讯科技有限公司 基于图像的文本获取方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937277A (zh) * 2022-05-18 2022-08-23 北京百度网讯科技有限公司 基于图像的文本获取方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111476219B (zh) 智能家居环境中图像目标检测方法
CN109344288B (zh) 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN111144448B (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
WO2019136591A1 (zh) 基于弱监督时空级联神经网络的显著目标检测方法及系统
CN109684912A (zh) 一种基于信息损失函数的视频描述方法和系统
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN112541508A (zh) 果实分割识别方法及系统、果实采摘机器人
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN111368637B (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN110796018A (zh) 一种基于深度图像和彩色图像的手部运动识别方法
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN113111716A (zh) 一种基于深度学习的遥感影像半自动标注方法和装置
CN112507800A (zh) 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法
CN114360067A (zh) 一种基于深度学习的动态手势识别方法
CN114548256A (zh) 一种基于对比学习的小样本珍稀鸟类识别方法
CN114820655A (zh) 可靠区域作为注意力机制监督的弱监督建筑物分割方法
CN113807340A (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN114863112A (zh) 改进U-net语义分割模型构建方法及用于茶嫩芽识别与采摘点定位方法、系统
CN111612802A (zh) 一种基于现有图像语义分割模型的再优化训练方法及应用
CN114359886A (zh) 一种基于多层次特征选择的自然场景文本识别方法
CN117710841A (zh) 一种无人机航拍图像的小目标检测方法、装置
CN116935438A (zh) 一种基于模型结构自主进化的行人图像重识别方法
CN113192108B (zh) 一种针对视觉跟踪模型的人在回路训练方法及相关装置
CN114111647A (zh) 一种基于人工智能的绝缘子伞裙破损面积测量方法及测量系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220415