CN114359886A - 一种基于多层次特征选择的自然场景文本识别方法 - Google Patents
一种基于多层次特征选择的自然场景文本识别方法 Download PDFInfo
- Publication number
- CN114359886A CN114359886A CN202111639884.1A CN202111639884A CN114359886A CN 114359886 A CN114359886 A CN 114359886A CN 202111639884 A CN202111639884 A CN 202111639884A CN 114359886 A CN114359886 A CN 114359886A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- training set
- scene
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 222
- 230000000007 visual effect Effects 0.000 claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000012937 correction Methods 0.000 claims abstract description 4
- 230000009466 transformation Effects 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 16
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 24
- 238000013135 deep learning Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种基于多层次特征选择的自然场景文本识别方法.首先将原始图像使用空间变换网络进行文本矫正处理,将矫正后的图像构建场景文本图像训练集;其次将构建的场景文本图像训练集对多层次特征提取残差网络进行优化训练,得到优化后的多层次特征提取残差网络;接下来通过优化后的多层次特征提取残差网络来预测场景文本图像训练集中的多个数据信息及其类别信息,再使用序列转换的方式分别获得视觉特征序列、上下文特征序列和语义特征序列,并将三者结合成一个多层次特征序列集。最后构建多层次注意力解码器并对其进行优化训练,将多层次特征序列集输入到多层次注意力解码器中进行解码操作,得到最终预测的识别结果。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多层次特征选择的自然场景文本识别方法,。
背景技术
场景文本识别作为计算机视觉领域中一个研究方向,随着深度学习的发展,在无人驾驶、智能生活等商业领域广泛应用,但是由于自然场景环境的复杂性,会存在很多模糊、弯曲、倾斜的文本内容。传统的场景文本识别算法通常是按顺序依次每个文本字符的识别,但是这个方法有很大的局限性,自然场景中的文本字符难以分割,且传统方法不依赖于上下文之间的依赖关系和字符之间的顺序建模,导致识别效果不理想。现代的场景文本识别是基于整个单词的识别,将文本图片切分成序列进行预测,避免了每个字符需要单独注释的必要,相比于传统方法能达到更高的准确率。
发明内容
本发明的目的是:当前场景文本识别方法大多数使用编码器-解码器方法,并且只将视觉特征和上下文特征关联起来,而忽略了全局的语义特征,且极少挖掘多种特征之间的隐藏联系来辅助文本识别。为了实现上述目的,本发明所采用的技术方案是:一种基于多层次特征选择的自然场景文本识别方法,其特征在于,包括以下步骤:
步骤1:将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像,通过人工标记得到每幅图像中多个文本外接矩形边框,通过每幅图像构建场景文本图像训练集,人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签;
步骤2:引入多层次特征提取残差网络,将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像,且在每幅网格化处理后的图像中引入锚框,每个锚框以网格为中心用来辅助预测文本框的坐标,将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测,通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标,将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框,从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框,且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息。将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来,得到每个预测的文本外接矩形框中的文本内容所属的文字类别,将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别,及每幅图像生成的Q个网格及对应的B个锚框,将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框,构建多级特征提取残差网络的损失函数,进一步通过Adam算法优化训练得到优化后多层特征提取残差网络;
步骤3:将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中,得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别,将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集,场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集。最后将这三个特征序列集结合起来构建一个多层次特征序列集;
步骤4:将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作,场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集,多层次特征序列集中的每一个序列都对应所属的文本类别,再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果,构建多层次注意力解码器的损失函数,进一步通过Adam算法优化训练得到优化后多层次注意力解码器;
作为优选,步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框,具体为:
其中,表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标;表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标;Ij表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量;J表示图像的数量;
步骤1所场景文本图像训练集中类别为:
classifyj,i
其中,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别;
步骤1所述的场景文本图像训练集为:
其中,dataj(x,y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。
作为优选,步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成;
每个卷积块由BN层、Relu激活函数层级联构成;
步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定,利用网格和锚框进行预测文本的框定和分类。表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成;
所述目标边界框损失的定义为:
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,m表示Q中的的其中第m个网格,n表示在第m个网格中第n个锚框;表示第m个网格中第n个锚框是否负责预测物体,取值为1或0;表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
所述分类损失函数的定义为:
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,classifyj,i表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框中真实标签内容所属类别,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;表示第m个网格的第n个锚框是否不存在目标,λnon表示没有物体时置信度惩罚权重系数。
作为优选,步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集,可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集,而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中。具体操作如下:
其中,F(·)函数表示map-sequence操作过程,将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别。表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。表示场景文本图像数据集中第j幅图像中预测的第i个文本外接矩形边框所对应的视觉特征序列集,vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的视觉特征序列集中的第k个视觉特征序列,表示视觉特征序列集中第k个视觉序列的所属类别。
步骤3所述的将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序,具体而言是针对视觉序列来建模上下文信息,更好的捕捉双向的语义依赖。具体操作如下:
其中,G(·)函数表示BiLSTM模块的操作过程,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的上下文特征序列集中的第k个上下文特征序列,表示上下文特征序列集中第k个上下文序列的所属类别。
步骤3所述将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列。语义模块是可以根据上下文之间的信息来捕获全局的语义特征信息。具体操作如下:
U(·)函数表示语义模块的操作过程,表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框所对应的语义特征序列集,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的语义特征序列集中的第k个语义特征序列,表示语义特征序列集中第k个语义特征序列的所属类别。
步骤3所述将视觉特征信息、上下文特征信息和语义特征信息三者结合起来生成一个新的多层次的特征序列集D。具体表示如下:
vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个视觉特征序列,表示第k个视觉序列的所属类别,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的第k个上下文特征序列,表示第k个上下文序列的所属类别,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个语义特征序列,表示第k个语义序列的所属类别。
具体而言多层次的特征信息D可以表示如下:
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框所对应的多层次特征序列集,dj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个多层次特征序列,表示第k个多层次特征序列的所属类别。
作为优选,将步骤4所述多层次注意力解码器的损失函数为:
其中,表示第m个网格的第n个锚框是否不存在目标,表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的多层次特征序列中第k个序列所属类别的置信度,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
本发明能从场景图片中识别出任意的文本字符,具体而言,本发明具有以下特点:
提出一个新的多层次特征选择模块,在视觉特征中获取上下文特征和全局语义特征,并建立起三者特征之间的联系;
提出一种新型的多层次注意力选择解码器(MASD),对特征空间进行解码预测操作,选择有价值的特征信息的同时抑制其余无关信息;
提出一种基于多层次特征选择的自然场景文本识别方法。
与现有技术相比,本发明的有益效果是:
本方法在识别过程中不仅关注局部序列字符分类,同时也关注整个单词全局信息;
本方法可以在视觉特征中分别捕获上下文特征和语义特征,还能更好的挖掘特征之间的隐藏联系来辅助文本识别;
本方法可以关注特征序列之间的内部联系,选择重要的信息特征参与预测解码。
附图说明
图1:是本发明的整体结构流程图。
图2:是本发明网络模型结构图。
图3:是BiLSTM编码器结构图。
图4:是多层次注意力选择解码器结构图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
下面首先对本发明所提到一些概念进行介绍:
深度学习(deep learning)作为机器学习的一个部分,最早源自于对人工神经网络的研究,是传统机器学习技术的一种特殊的表现形式。早期的人工神经网络容易受到网络结构复杂、大规模计算能力差等方面的限制,能够学习获得到的参数较少,拟合效果不佳。而深度学习通过增加复杂的网络结构实现自主的参数学习,不断对参数矩阵及偏置量进行更新,将简单的特征通过特征提取网络转换为深度的高级的特征,此过程仅涉及较为简单的非线性函数,通过对多个非线性函数的组合,即可对复杂的结果进行准确拟合,得到理想的结果。
注意力机制(Attention mechanism)是在复杂信息中快速、准确选择出重要信息的方法,极快的提升了处理信息的效率和提取关键的信息,目前注意力机制在深度学习领域广泛应用。注意力机制本质上是在视觉观察上分配资源的方式,根据对象的重要程度进行分配,权重就是注意力机制所需要分配的资源。
本发明直接对自然场景下的文本图片进行处理,实现了一种基于多层次特征选择的自然场景文本识别方法。
以下结合附图1-4对本发明做进一步的说明。
步骤1:将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像,通过人工标记得到每幅图像中多个文本外接矩形边框,通过每幅图像构建场景文本图像训练集,人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签;
步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框,具体为:
其中,表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标;表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标;Ij表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量;J=1000表示图像的数量。
步骤1所场景文本图像训练集中类别为:
classifyj,i
其中,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别;
步骤1所述的场景文本图像训练集为:
其中,dataj(x,y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。
步骤2:引入多层次特征提取残差网络,将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像,且在每幅网格化处理后的图像中引入锚框,每个锚框以网格为中心用来辅助预测文本框的坐标,将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测,通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标,将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框,从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框,且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息。将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来,得到每个预测的文本外接矩形框中的文本内容所属的文字类别,将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别,及每幅图像生成的Q个网格及对应的B个锚框,将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框,构建多级特征提取残差网络的损失函数,进一步通过Adam算法优化训练得到优化后多层特征提取残差网络;
步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成;
每个卷积块由BN层、Relu激活函数层级联构成;
步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定,利用网格和锚框进行预测文本的框定和分类。表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成;
所述目标边界框损失的定义为:
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,m表示Q中的的其中第m个网格,n表示在第m个网格中第n个锚框;表示第m个网格中第n个锚框是否负责预测物体,取值为1或0;表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
所述分类损失函数的定义为:
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,classifyj,i表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框中真实标签内容所属类别,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;表示第m个网格的第n个锚框是否不存在目标,λnon表示没有物体时置信度惩罚权重系数。Q=49表示网格的数量,B=2表示每个网格中锚框的数量。
步骤3:将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中,得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别,将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集,场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集。最后将这三个特征序列集结合起来构建一个多层次特征序列集。
步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集,可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集,而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中。具体操作如下:
F(·)函数表示map-sequence操作过程,将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别。表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。表示场景文本图像数据集中第j幅图像中预测的第i个文本外接矩形边框所对应的视觉特征序列集,vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的视觉特征序列集中的第k个视觉特征序列,表示视觉特征序列集中第k个视觉序列的所属类别。
步骤3所述的将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序,具体而言是针对视觉序列来建模上下文信息,更好的捕捉双向的语义依赖。具体操作如下:
G(·)函数表示BiLSTM模块的操作过程,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的上下文特征序列集中的第k个上下文特征序列,表示上下文特征序列集中第k个上下文序列的所属类别。
步骤3所述将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列。语义模块是可以根据上下文之间的信息来捕获全局的语义特征信息。具体操作如下:
U(·)函数表示语义模块的操作过程,表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框所对应的语义特征序列集,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的语义特征序列集中的第k个语义特征序列,表示语义特征序列集中第k个语义特征序列的所属类别。
步骤3所述将视觉特征信息、上下文特征信息和语义特征信息三者结合起来生成一个新的多层次的特征序列集D。具体表示如下:
vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个视觉特征序列,表示第k个视觉序列的所属类别,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的第k个上下文特征序列,表示第k个上下文序列的所属类别,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个语义特征序列,表示第k个语义序列的所属类别。
具体而言多层次的特征信息D可以表示如下:
表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框所对应的多层次特征序列集,dj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个多层次特征序列,表示第k个多层次特征序列的所属类别。
步骤4:将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作,场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集,多层次特征序列集中的每一个序列都对应所属的文本类别,再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果,构建多层次注意力解码器的损失函数,进一步通过Adam算法优化训练得到优化后多层次注意力解码器;
将步骤4所述多层次注意力解码器的损失函数为:
其中,表示第m个网格的第n个锚框是否不存在目标,表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的多层次特征序列中第k个序列所属类别的置信度,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于多层次特征选择的自然场景文本识别方法,其特征在于,包括以下步骤:
步骤1:将多幅原始图像分别使用空间变换网络进行文本矫正处理得到多幅图像,通过人工标记得到每幅图像中多个文本外接矩形边框,通过每幅图像构建场景文本图像训练集,人工标记每幅图像中每个文本外接矩形边框中文本内容所属的文字类别作为场景文本图像训练集中每幅图像的标签;
步骤2:引入多层次特征提取残差网络,将步骤1所述的场景文本图像训练集中每幅图像依次进行网格化处理得到每幅网格化处理后的图像,且在每幅网格化处理后的图像中引入锚框,每个锚框以网格为中心用来辅助预测文本框的坐标,将每幅网格化处理后的图像输入至所述多层特征提取残差网络进行预测,通过每幅网格化处理后的图像中的多个网格来预测多个文本外接矩形框的坐标,将网格化处理后的图像中的不同文本区域来依次连接对应的网格坐标构成预测的文本外接矩形框,从而得到场景文本图像训练集中每幅网格化处理后的图像多个预测文本外接矩形边框,且每幅网格化处理后的图像中每个网格包含相应预测的文本类别信息;将场景文本图像训练集中每幅图像的多个预测文本外接框中的网格对应的文本类别信息结合起来,得到每个预测的文本外接矩形框中的文本内容所属的文字类别,将得到的场景文本图像训练集中多个预测文本外接矩形边框、场景文本图像训练集中每幅图像中每个外接矩形框中预测的文本内容所属的文字类别,及每幅图像生成的Q个网格及对应的B个锚框,将根据场景文本图像训练集中每幅图像中多个文本外接矩形边框、每个文本外接矩形框所属的文字类别和训练过程中得到的每幅图像的多个预测文本外接矩形边框和每个外接矩形框中预测的文本内容所属的文字类别、还有同时在预测过程中产生的每幅图像所对应的网格坐标信息和每个网格所对应的锚框,构建多级特征提取残差网络的损失函数,进一步通过Adam算法优化训练得到优化后多层特征提取残差网络;
步骤3:将场景文本图像训练集中每幅图像送入到优化后的多层次特征提取残差网络中,得到场景文本图像训练集中每幅图像的多个预测文本外接矩形边框和场景文本图像训练集中每幅图像中每个预测文本外接矩形边框中预测的文本内容所属的文字类别,将场景文本图像训练集中每幅图像中的每个外接矩形框、每幅图像中每个外接矩形框中预测的文本内容所属的文字类别通过map-sequence转换成场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集,场景文本图像训练集中每幅图像中每个预测文本外接矩形边框对应的文字类别对应场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列集的所属类别;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集;将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序列集输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列集;最后将这三个特征序列集结合起来构建一个多层次特征序列集;
步骤4:将步骤3得到的多层次特征序列集D输入到多层次注意力解码器中进行解码操作,场景文本图像训练集中每幅图像中预测的每个文本外接框都对应一个多层次特征序列集,多层次特征序列集中的每一个序列都对应所属的文本类别,再根据每个文本外接矩形边框中每个网格预测内容所属类别进行联合计算得到最终预测的识别结果,构建多层次注意力解码器的损失函数,进一步通过Adam算法优化训练得到优化后多层次注意力解码器。
2.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤1所述场景文本图像训练集中每幅图像中多个文本外接矩形边框,具体为:
其中,表示图像训练集中第j幅图像中第i个文本外接矩形边框左上角坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的左上角纵坐标;表示图像训练集中j幅图像中第i个文本外接矩形边框右下角坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框的右下角横坐标,表示图像训练集中第j幅图像中第i个文本外接矩形边框的右下角纵坐标;Ij表示图像训练集中第j幅图像中文本目标的数量即文本外接矩形边框的数量;J表示图像的数量;
步骤1所场景文本图像训练集中类别为:
classifyj,i
其中,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别;
步骤1所述的场景文本图像训练集为:
其中,dataj(x,y)表示场景文本图像训练集中第j幅图像第x行第y列像素信息,classifyj,i表示场景文本图像训练集中第j幅图像第i个文本外接矩形边框中文本内容所属的文字类别。
3.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤2中所述的多层次特征提取残差网络由多个卷积块依次级联构成;
每个卷积块由BN层、Relu激活函数层级联构成;
步骤2中所述的Q个网格和B个锚框为场景文本图像训练集在多层次特征提取残差网络训练过程中对每幅图像的参数设定,利用网格和锚框进行预测文本的框定和分类;表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;
步骤2所述多层特征提取残差网络损失函数模型由目标边界框损失函数和分类损失函数构成;
所述目标边界框损失的定义为:
其中,Q为场景文本图像划分的网格数量,B为每个网格中预测的锚框数量,m表示Q中的的其中第m个网格,n表示在第m个网格中第n个锚框;表示第m个网格中第n个锚框是否负责预测物体,取值为1或0;表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;
所述分类损失函数的定义为:
4.根据权利要求1所述的基于多层次特征选择的自然场景文本识别方法,其特征在于,步骤3所述的将每个预测文本外接矩形边框和其对应预测的文字类别通过map-sequence操作生成视觉特征序列集,可以理解为场景文本图像训练集中每幅图像中预测的每个文本外接矩形框分别对应每个视觉特征序列集,而每个视觉特征序列集中每个序列的所属类别依照场景文本图像训练集中每幅图像中预测的每个文本外接矩形框中的文本内容所属的文字类别进行序列分割的方式对应到所属文本类别中;具体操作如下:
其中,F(·)函数表示map-sequence操作过程,将场景文本图像训练集中每个预测文本外接矩形边框和其对应预测的文字类别通过该操作转换得到视觉特征序列集和每个序列的所属类别;表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;表示图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测内容所属类别;表示场景文本图像数据集中第j幅图像中预测的第i个文本外接矩形边框所对应的视觉特征序列集,vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的视觉特征序列集中的第k个视觉特征序列,表示视觉特征序列集中第k个视觉序列的所属类别;
步骤3所述的将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的视觉特征序列输入至BiLSTM模块中转换得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序,具体而言是针对视觉序列来建模上下文信息,更好的捕捉双向的语义依赖;具体操作如下:
其中,G(·)函数表示BiLSTM模块的操作过程,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角横坐标,表示场景文本图像训练集第j幅图像中第i个文本外接矩形边框中第m个网格预测的左上角纵坐标,表示场景文本图像训练集中第j幅图像中第i个文本外接矩形边框中第m个网格预测的右下角纵坐标;,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的上下文特征序列集中的第k个上下文特征序列,表示上下文特征序列集中第k个上下文序列的所属类别;
步骤3所述将场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的上下文特征序输入到语义模块中得到场景文本图像训练集中每幅图像中每个预测文本外接矩形边框的语义特征序列;语义模块是可以根据上下文之间的信息来捕获全局的语义特征信息;具体操作如下:
U(·)函数表示语义模块的操作过程,表示场景文本图像数据集中第j幅图像中第i个文本外接矩形边框所对应的语义特征序列集,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中的语义特征序列集中的第k个语义特征序列,表示语义特征序列集中第k个语义特征序列的所属类别;
步骤3所述将视觉特征信息、上下文特征信息和语义特征信息三者结合起来生成一个新的多层次的特征序列集D;具体表示如下:
vj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个视觉特征序列,表示第k个视觉序列的所属类别,cj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框对应的第k个上下文特征序列,表示第k个上下文序列的所属类别,sj,i,k表示场景文本图像训练集中第j幅图像中预测的第i个文本外接矩形边框中对应的第k个语义特征序列,表示第k个语义序列的所属类别;
具体而言多层次的特征信息D可以表示如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111639884.1A CN114359886A (zh) | 2021-12-29 | 2021-12-29 | 一种基于多层次特征选择的自然场景文本识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111639884.1A CN114359886A (zh) | 2021-12-29 | 2021-12-29 | 一种基于多层次特征选择的自然场景文本识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114359886A true CN114359886A (zh) | 2022-04-15 |
Family
ID=81103453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111639884.1A Withdrawn CN114359886A (zh) | 2021-12-29 | 2021-12-29 | 一种基于多层次特征选择的自然场景文本识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114359886A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
-
2021
- 2021-12-29 CN CN202111639884.1A patent/CN114359886A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476219B (zh) | 智能家居环境中图像目标检测方法 | |
CN109344288B (zh) | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 | |
CN111144448B (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
WO2019136591A1 (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
CN109684912A (zh) | 一种基于信息损失函数的视频描述方法和系统 | |
CN111259786A (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN112541508A (zh) | 果实分割识别方法及系统、果实采摘机器人 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN110796018A (zh) | 一种基于深度图像和彩色图像的手部运动识别方法 | |
CN110852199A (zh) | 一种基于双帧编码解码模型的前景提取方法 | |
CN113111716A (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
CN112507800A (zh) | 一种基于通道注意力机制和轻型卷积神经网络的行人多属性协同识别方法 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN114548256A (zh) | 一种基于对比学习的小样本珍稀鸟类识别方法 | |
CN114820655A (zh) | 可靠区域作为注意力机制监督的弱监督建筑物分割方法 | |
CN113807340A (zh) | 一种基于注意力机制的不规则自然场景文本识别方法 | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN114863112A (zh) | 改进U-net语义分割模型构建方法及用于茶嫩芽识别与采摘点定位方法、系统 | |
CN111612802A (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 | |
CN114359886A (zh) | 一种基于多层次特征选择的自然场景文本识别方法 | |
CN117710841A (zh) | 一种无人机航拍图像的小目标检测方法、装置 | |
CN116935438A (zh) | 一种基于模型结构自主进化的行人图像重识别方法 | |
CN113192108B (zh) | 一种针对视觉跟踪模型的人在回路训练方法及相关装置 | |
CN114111647A (zh) | 一种基于人工智能的绝缘子伞裙破损面积测量方法及测量系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220415 |