CN114418001B - 一种基于参数重构网络的字符识别方法及系统 - Google Patents

一种基于参数重构网络的字符识别方法及系统 Download PDF

Info

Publication number
CN114418001B
CN114418001B CN202210065743.1A CN202210065743A CN114418001B CN 114418001 B CN114418001 B CN 114418001B CN 202210065743 A CN202210065743 A CN 202210065743A CN 114418001 B CN114418001 B CN 114418001B
Authority
CN
China
Prior art keywords
network
feature map
stage
layer
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210065743.1A
Other languages
English (en)
Other versions
CN114418001A (zh
Inventor
庞枫骞
康营营
赵鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Technology
Original Assignee
North China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Technology filed Critical North China University of Technology
Priority to CN202210065743.1A priority Critical patent/CN114418001B/zh
Publication of CN114418001A publication Critical patent/CN114418001A/zh
Application granted granted Critical
Publication of CN114418001B publication Critical patent/CN114418001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于参数重构网络的字符识别方法及系统,包括:获取待检测图像;利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图;对所述水平特征图进行识别,得到预测文本标签;根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。本发明能够提高字符识别的准确性。

Description

一种基于参数重构网络的字符识别方法及系统
技术领域
本发明涉及字符识别领域,特别是涉及一种基于参数重构网络的字符识别方法及系统。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。
由于在文档分析、场景理解、机器人导航和图像检索中的大量实际应用,在自然场景中的光学字符识别已经引起了计算机视觉界越来越多的关注。自然场景中的光学字符识别提供了一种自动快速获取自然场景中体现的文本信息的方式,通常分为两个子问题:场景文本检测和场景文本识别。
得益于深度神经网络提供的强大表示能力,场景文本检测和识别取得了重大进展。自然场景文本定位旨在从自然图像中同时定位和识别文本,已经被广泛研究。遵循传统的方法分别处理文本检测和识别过程,其中文本检测首先被训练的文本检测器命中,然后被送到文本识别模型中。这个架构看起来简单明了,但是可能会导致检测和识别的次优性能,以为这两个任务是相关的,并且是相互补充的。最近,一些研究人员开始将文本检测和识别与端到端可训练网络相结合,该网络由两个子模型组成:用于提取文本实例的检测网络和用于预测每个文本实例的序列标签的序列-序列网络。通过这些方法实现了文本识别的显著性能改进,证明了检测模型和识别模型是互补的,特别是当它们以端到端学习方式训练时。
然而在某些特定的场景下,例如在制造,供应仓储等场景下,对于元器件、电路板的字符图片,由于元器件供应商多,器件种类多,字符的样式多种多样,且针对一家供应商无法大量搜集电路板、元器件上的字符图片样例,同样对于跨境运输的货车,车牌样式,字体均不一致,且数据难以搜集,不太可能获得大量数据,即使存在大量数据,在对数据进行有效标注时将耗费大量人力物力,无法获取足够的带标签的训练样本,使得深度学习容易产生过拟合。
发明内容
本发明的目的是提供一种基于参数重构网络的字符识别方法及系统,以提高字符识别的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于参数重构网络的字符识别方法,包括:
获取待检测图像;
利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;
利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;
对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图;
对所述水平特征图进行识别,得到预测文本标签;
根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。
可选地,所述利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图,具体包括:
将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图;
对所述重构特征图进行上采样,得到共享特征图。
可选地,所述利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像,具体包括:
对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图;
对所述池化特征图进行上采样得到上采样结果;
所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果;
根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
可选地,所述对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图,具体包括:
根据所述带预测文件框的图像确定仿射变换参数;
根据所述共享特征图和所述仿射变换参数确定水平特征图。
可选地,所述对所述水平特征图进行识别,得到预测文本标签,具体包括:
将所述水平特征图进行卷积处理和池化处理,得到高级特征图;
将所述高级特征图进行置换,得到时间序列;
根据双向LSTM和所述时间序列确定隐藏状态;
将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。
一种基于参数重构网络的字符识别系统,包括:
获取模块,用于获取待检测图像;
拼接和提取模块,用于利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;
检测模块,用于利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;
仿射变换模块,用于对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图;
识别模块,用于对所述水平特征图进行识别,得到预测文本标签;
字符识别结果确定模块,用于根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。
可选地,所述拼接和提取模块,具体包括:
重构特征图确定单元,用于将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图;
上采样单元,用于对所述重构特征图进行上采样,得到共享特征图。
可选地,所述检测模块,具体包括:
池化特征图确定单元,用于对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图;
上采样结果确定单元,用于对所述池化特征图进行上采样得到上采样结果;
叠加单元,用于所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果;
带预测文本框的图像确定单元,用于根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
可选地,所述仿射变换模块,具体包括:
仿射变换参数确定单元,用于根据所述带预测文件框的图像确定仿射变换参数;
水平特征图确定单元,用于根据所述共享特征图和所述仿射变换参数确定水平特征图。
可选地,所述识别模块,具体包括:
高级特征图确定单元,用于将所述水平特征图进行卷积处理和池化处理,得到高级特征图;
置换单元,用于将所述高级特征图进行置换,得到时间序列;
隐藏状态确定单元,用于根据双向LSTM和所述时间序列确定隐藏状态;
预测文本标签确定单元,用于将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明利用特征金字塔网络对待检测图像进行拼接和提取,得到共享特征图;利用全卷积神经网络对共享特征图进行检测,得到带预测文本框的图像;对共享特征图和带预测文件框的图像进行仿射变换,得到水平特征图;对水平特征图进行识别,得到预测文本标签;根据带预测文本框的图像和预测文本标签得到字符识别结果。通过特征金字塔网络和全卷积神经网络将图像的底层特征和高层特征进行融合,从而提高了字符识别的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于参数重构网络的字符识别方法的流程图;
图2为本发明提供的基于参数重构网络的字符识别方法的结构示意图;
图3为本发明提供的特征金字塔网络结构示意图;
图4为本发明提供的模型重构层结构示意图;
图5为本发明提供的全卷积神经网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的基于参数重构网络的字符识别方法,包括:
步骤101:获取待检测图像。
步骤102:利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图。步骤102,具体包括:
将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图。
对所述重构特征图进行上采样,得到共享特征图。
步骤103:利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像。步骤103,具体包括:
对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图。
对所述池化特征图进行上采样得到上采样结果。
所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果。
根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
步骤104:对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图。步骤104,具体包括:
根据所述带预测文件框的图像确定仿射变换参数。
根据所述共享特征图和所述仿射变换参数确定水平特征图。
步骤105:对所述水平特征图进行识别,得到预测文本标签。步骤105,具体包括:
将所述水平特征图进行卷积处理和池化处理,得到高级特征图。
将所述高级特征图进行置换,得到时间序列。
根据双向LSTM和所述时间序列确定隐藏状态。
将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。
步骤106:根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。
如图2所示,本发明主要针对的是字符识别,整体由四部分组成,分别是特征金字塔网络、检测模块、仿射变换分支和识别模块。
第一步,提取共享特征图的s1阶段:将图像输入如图3所示的特征金字塔网络。将低级特征图和高级语义特征图连接起来,得到带有共享特征图的图像。提取得到的共享特征图进入两个阶段s2阶段和s3阶段。
第二步,进行文本检测的s2阶段,提取得到的共享特征图进入检测模块,检测模块可以预测图像中文本的位置,经过检测模块之后,输出到两个分支中,其中一个直接输出为带有预测文本框的图像,另一个分支进入s3阶段仿射变换分支。
第三步,进行仿射变换的s3阶段,仿射变换分支有两个输入,分别为经过特征金字塔网络的输出,经过检测模块之后的输出。仿射变换分支可以将原本多方向的边界框进行仿射变换到x,y标准坐标系中,获得文本区域标准的水平特征图,然后进入s4阶段。
第四步,进行文本识别的s4阶段,识别图像标记文本框中的文本,最后输出一个带有标记文本框和预测文本的图像。
图3为s1阶段的特征金字塔网络(feature pyramid networks for objectdetection,FPN)的结构示意图。特征金字塔网络拼接和提取过程如下:
第一步,输入图片经过s11阶段,经过卷积层,池化层以及模型重构网络,其中模型重构网络即为模型重构层,其中部分输出特征图由图中平行四边形表示。接着按顺序将输出的特征图送入模型重构层中,将特征图不断减小,减小到原始输入图像的1/32,然后进入s12阶段。
第二步,将s11的输出送进s12阶段,首先经过上采样层,再将特征图大小不断增大,从原始输入图像的1/32放大到1/4,最后输出图片,得到共享特征图。
特征金字塔网络将底层和高层的特征进行了融合,也就是将底层特征图和高层特征图进行相加,以便对图像中的文本进行检测。图中长方形表示为网络层,立方体表示网络层输出的特征图。
其特征金字塔网络的主干网络是模型重构网络,其结构如图4所示。图片进入模型重构网络的步骤如下:
第一步,进行卷积的模型重构s1阶段,输入经过卷积的模型重构s1阶段,对输入的特征矩阵进行三个操作,分别是3x3卷积、1x1卷积和跨线结构,得到三个输出。三个输出进入模型重构s2阶段。
第二步,进行求和的模型重构s2阶段,模型重构s1阶段的输出进入模型重构s2阶段,将模型重构s1阶段的三个输出进行相加,然后进入激活函数,使其变为非线性,能够进行反向传播。
模型重构网络有一个特点,在模型推理阶段,通过对网络层中的权重进行计算将所有的网络层都转换为3x3卷积层,然后将并列的两个分支都加到原本的3x3卷积中,便于网络的部署和加速。因为当前很多的模型推理框架中都对3x3卷积做了一些特定的加速操作,所以将所有卷积层转换成3x3卷积,整个网络在推理阶段能获得较大的速度提升。
在s2阶段中,采用全卷积网络作为文本检测器即检测模块,如图5所示。利用全卷积神经网络对共享特征图进行检测的步骤如下:
第一步,输入经过5x5卷积层和池化层,进入s21阶段,首先经过两个3x3卷积层以及池化层,然后进入s22阶段。
第二步,s22阶段经过两个卷积层以及池化层,其输出进入s23阶段和s27阶段。
第三步,s23阶段经过两个卷积层以及池化层,其输出进入s24阶段和s28阶段。
第四步,s24阶段经过两个卷积层以及池化层,其输出进入s25阶段和s29阶段。
第五步,s25阶段经过两个卷积层以及池化层,其输出进入s26阶段。
第六步,s27阶段经过1x1卷积之后,其输出进入s26阶段。
第七步,s28阶段经过1x1卷积之后,其输出进入s26阶段。
第八步,s29阶段经过1x1卷积之后,其输出进入s26阶段。
第九步,s26阶段经过1x1卷积和三个上采样过程,第一个上采样层与s27阶段的输出相加;第二个上采样过程与s28阶段的输出相加;第三个上采样过程与s29阶段的输出相加。最后通过损失函数输出分类loss值和定位loss值以便反向传播。
对不同深度的特征图进行跨层连接,以提高模型对不同大小物体的检测效果。在模型尾端的卷积层后通过两个分支:分类和定位,得到两类任务的loss,二者加权作为模型总loss。分类分支输出每像素的单词预测。定位分支输出文本框到边界框的顶部,底部,左侧,右侧的距离和方向。
在s3阶段,检测和识别分支中间连接有仿射变换,仿射变换是对每个预测文本框分别使用仿射变换到共享特征图上,获得文本区域标准的水平特征图。仿射变换分支主要是修正输出高度并保持纵横比不变以处理文本长度的变化。
这个过程分为两个步骤:
第一步,通过文本提议的预测或真实值(ground truth)坐标计算仿射变换参数,表达式为:
tx=l*cosθ-t*sinθ-x
ty=t*cosθ-l*sinθ-y
Figure BDA0003480231650000091
wt=s*(l+r)
Figure BDA0003480231650000092
其中,M为仿射变换矩阵,包含旋转,缩放,平移,ht为仿射变换后的特征图的高度,实验中为8,wt为仿射变换后的特征图的宽度,(x,y)为特征图中的点的位置,(t,b,l,r)为特征图中的点距离旋转的框的上、下、左、右的距离,tx为在x轴的平移距离,ty为在y轴的平移距离,s为放缩系数,θ为检测框的角度。
第二步,将仿射变换分别应用于每个区域的共享特征映射,并获得文本区域的正常情况下水平的特征映射,表达式如下:
Figure BDA0003480231650000101
Figure BDA0003480231650000102
其中,
Figure BDA0003480231650000103
为仿射变换后的特征点i的x坐标,
Figure BDA0003480231650000104
为仿射变换后的特征点i的y坐标,
Figure BDA0003480231650000105
为输入的特征点i的x坐标,
Figure BDA0003480231650000106
为输入的特征点i的y坐标,
Figure BDA0003480231650000107
为在位置(i,j),通道c处的输出值,
Figure BDA0003480231650000108
为在位置(n,m),通道c处的输入值,hs为输入的高度,ws为输入的宽度,k为双线性插值核函数,Φx,Φy分别为k的参数,
Figure BDA0003480231650000109
为在位置(i,j)下的x坐标,
Figure BDA00034802316500001010
为在位置(i,j)下的y坐标。
在s4阶段,文本识别分支旨在使用由特征金字塔网络提取并由仿射变换的区域特征来预测文本标签。文本识别分支包括类似VGG的顺序卷积,仅沿高度轴缩减的池化,一个双向LSTM,一个全连接和最终的CTC解码器。
第一步,将s3分支中的空间特征沿高度轴馈入几个顺序的卷积和池化中,并缩小尺寸以提取更高级别的特征。
第二步,将提取的高级特征图L∈RC×H×W置换为timemajor,作为时间序列l1,...,lw∈RC×H,并馈入RNN进行编码。R为特征图的分布,C为输入的通道数,H为输入的高度,W为输入的宽度,lw为w时刻的时间序列,双向LSTM(Long Short Term Memory)是一种神经元更加复杂的RNN,LSTM可以利用时间序列对输入进行分析,每个方向D=256个输出通道,以捕获输入序列特征的范围依赖性。
第三步,将在LSTM的两个方向上的每个时间步长计算的隐藏层状态h1,...,hw∈RD求和并输入到全连接层,hw为w时刻隐藏层的状态,这个全连接层就给出了每个状态xt∈R|S|在字符类别S上的分布。为避免过度拟合像ICDAR2015这样的小型训练数据集,在全连接层之前添加了Dropout层。
第四步,CTC用于将逐帧分类分数转换为标签序列。对于每个ht给定每个xt在S上的概率分布和真实标签序列y*=y1,...,yT,T<<W,标签y*的条件概率是所有路径π的概率之和:
Figure BDA0003480231650000111
其中,p(y*|x)为标签y*的条件概率,p(π|x)为路径π的条件概率,B-1(y*)为具有空白和重复标签到y*的可能标记集合。
其中B定义了从具有空白和重复标签到y*的可能标记集合中的多对一映射。训练过程试图在整个训练集上最大化上述公式求和的对数似然性。识别损失可以表述为:
Figure BDA0003480231650000112
完整的多任务损失函数为:
Figure BDA0003480231650000113
其中,N为每批次的数量(batch size)。
在训练时,首先在ImageNet数据集上训练模型作为预训练权重,训练过程中包含两步,第一步使用Synth800k数据集训练,迭代10次。然后使用ICDAR2015和ICDAR 2017数据集进行微调。由于特征图上的边界框是多方向的,与传统的文本识别不用,所以本发明使用了仿射变换将原本多方向的边界框进行仿射变换到x,y标准坐标系中,实现了端到端的训练。本发明通过NVIDIA JETSON AGX XAVIER开发板进行演示,使用模型重构层模型作为主干网络,训练完成后,其预测模型在经过参数简化后被送进开发板,可以有效降低对硬件的要求。
本发明将面向参数重构网络与共享卷积相结合。与其他的字符识别算法相比,模型重构网络与共享卷积相结合将底层和高层的特征进行了融合,以便对文本进行更好的检测,在一定程度上提高了字符识别算法的准确度。本发明相较于其他优秀的光学字符识别算法,模型重构网络在测试过程中压缩网络,将训练过程中增加的1x1卷积和跨线结构压缩到3x3卷积中,通过重新参数化实现测试模型的轻量化,同时保持该网络在训练过程中的准确度。
本发明还提供一种基于参数重构网络的字符识别系统,包括:
获取模块,用于获取待检测图像。
拼接和提取模块,用于利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图。
检测模块,用于利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像。
仿射变换模块,用于对所述共享特征图和所述带预测文件框的图像进行仿射变换,得到水平特征图。
识别模块,用于对所述水平特征图进行识别,得到预测文本标签。
字符识别结果确定模块,用于根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果。
作为一种可选的实施方式,所述拼接和提取模块,具体包括:
重构特征图确定单元,用于将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图。
上采样单元,用于对所述重构特征图进行上采样,得到共享特征图。
作为一种可选的实施方式,所述检测模块,具体包括:
池化特征图确定单元,用于对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图。
上采样结果确定单元,用于对所述池化特征图进行上采样得到上采样结果。
叠加单元,用于所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果。
带预测文本框的图像确定单元,用于根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
作为一种可选的实施方式,所述仿射变换模块,具体包括:
仿射变换参数确定单元,用于根据所述带预测文件框的图像确定仿射变换参数。
水平特征图确定单元,用于根据所述共享特征图和所述仿射变换参数确定水平特征图。
作为一种可选的实施方式,所述识别模块,具体包括:
高级特征图确定单元,用于将所述水平特征图进行卷积处理和池化处理,得到高级特征图。
置换单元,用于将所述高级特征图进行置换,得到时间序列。
隐藏状态确定单元,用于根据双向LSTM和所述时间序列确定隐藏状态。
预测文本标签确定单元,用于将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。
本发明针对目标硬件和时延要求反向设计参数重构网络。首先,选取现有的轻量型网络作为目标网络,使其可以在目标边缘计算平台上可以运行并满足时延要求。然后为该轻量型网络设计可压缩的并行1x1卷积和跨线结构。网络扩展后可以保证其训练后的模型精度,通过测试过程中的压缩即可还原为目标网络。相对于直接训练目标网络本方法可以获得更优的性能。将反向设计参数重构网络方法用于字符识别框架中的主干网络的学习,由于主干网络各层被加宽,增加了网络对于字符识别任务更具有适应性,从而提高了字符识别框架的性能。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于参数重构网络的字符识别方法,其特征在于,包括:
获取待检测图像;
利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;
特征金字塔网络拼接和提取过程如下:
第一步,输入图片经过s11阶段,经过卷积层,池化层以及模型重构网络,其中模型重构网络即为模型重构层;接着按顺序将输出的特征图送入模型重构层中,将特征图不断减小,减小到原始输入图像的1/32,然后进入s12阶段;
第二步,将s11的输出送进s12阶段,首先经过上采样层,再将特征图大小不断增大,从原始输入图像的1/32放大到1/4,最后输出图片,得到共享特征图;
特征金字塔网络将底层和高层的特征进行了融合,也就是将底层特征图和高层特征图进行相加,以便对图像中的文本进行检测;其特征金字塔网络的主干网络是模型重构网络;图片进入模型重构网络的步骤如下:
第一步,进行卷积的模型重构s1阶段,输入经过卷积的模型重构s1阶段,对输入的特征矩阵进行三个操作,分别是3x3卷积、1x1卷积和跨线结构,得到三个输出;三个输出进入模型重构s2阶段;
第二步,进行求和的模型重构s2阶段,模型重构s1阶段的输出进入模型重构s2阶段,将模型重构s1阶段的三个输出进行相加,然后进入激活函数,使其变为非线性,能够进行反向传播;
在模型推理阶段,通过对网络层中的权重进行计算将所有的网络层都转换为3x3卷积层,然后将并列的两个分支都加到原本的3x3卷积中,便于网络的部署和加速;
在训练时,首先在ImageNet数据集上训练模型作为预训练权重,训练过程中包含两步,第一步使用Synth800k数据集训练,迭代10次;然后使用ICDAR2015和ICDAR2017数据集进行微调;通过NVIDIAJETSONAGXXAVIER开发板进行演示,使用模型重构层作为主干网络,训练完成后,其预测模型在经过参数简化后被送进开发板;
利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;
利用全卷积神经网络对共享特征图进行检测的步骤如下:
第一步,输入经过5x5卷积层和池化层,进入s21阶段,首先经过两个3x3卷积层以及池化层,然后进入s22阶段;
第二步,s22阶段经过两个卷积层以及池化层,其输出进入s23阶段和s27阶段;
第三步,s23阶段经过两个卷积层以及池化层,其输出进入s24阶段和s28阶段;
第四步,s24阶段经过两个卷积层以及池化层,其输出进入s25阶段和s29阶段;
第五步,s25阶段经过两个卷积层以及池化层,其输出进入s26阶段;
第六步,s27阶段经过1x1卷积之后,其输出进入s26阶段;
第七步,s28阶段经过1x1卷积之后,其输出进入s26阶段;
第八步,s29阶段经过1x1卷积之后,其输出进入s26阶段;
第九步,s26阶段经过1x1卷积和三个上采样过程,第一个上采样层与s27阶段的输出相加;第二个上采样过程与s28阶段的输出相加;第三个上采样过程与s29阶段的输出相加;最后通过损失函数输出分类loss值和定位loss值以便反向传播;
对不同深度的特征图进行跨层连接,以提高模型对不同大小物体的检测效果;在模型尾端的卷积层后通过两个分支:分类和定位,得到两类任务的loss,二者加权作为模型总loss;分类分支输出每像素的单词预测;定位分支输出文本框到边界框的顶部、底部、左侧、右侧的距离和方向;
对所述共享特征图和所述带预测文本框的图像进行仿射变换,得到水平特征图;
对所述水平特征图进行识别,得到预测文本标签;
根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果;
基于参数重构网络的字符识别方法对目标硬件和时延要求反向设计参数重构网络;首先,选取现有的轻量型网络作为目标网络,使其可以在目标边缘计算平台上可以运行并满足时延要求;然后为轻量型网络设计可压缩的并行1x1卷积和跨线结构;网络扩展后可以保证其训练后的模型精度,通过测试过程中的压缩即可还原为目标网络;相对于直接训练目标网络本方法可以获得更优的性能;将反向设计参数重构网络方法用于字符识别框架中的主干网络的学习,由于主干网络各层被加宽,增加了网络对于字符识别任务更具有适应性,从而提高了字符识别框架的性能。
2.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图,具体包括:
将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图;
对所述重构特征图进行上采样,得到共享特征图。
3.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像,具体包括:
对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图;
对所述池化特征图进行上采样得到上采样结果;
所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果;
根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
4.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述对所述共享特征图和所述带预测文本框的图像进行仿射变换,得到水平特征图,具体包括:
根据所述带预测文本框的图像确定仿射变换参数;
根据所述共享特征图和所述仿射变换参数确定水平特征图。
5.根据权利要求1所述的基于参数重构网络的字符识别方法,其特征在于,所述对所述水平特征图进行识别,得到预测文本标签,具体包括:
将所述水平特征图进行卷积处理和池化处理,得到高级特征图;
将所述高级特征图进行置换,得到时间序列;
根据双向LSTM和所述时间序列确定隐藏状态;
将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。
6.一种基于参数重构网络的字符识别系统,其特征在于,包括:
获取模块,用于获取待检测图像;
拼接和提取模块,用于利用特征金字塔网络对所述待检测图像进行拼接和提取,得到共享特征图;特征金字塔网络拼接和提取过程如下:
第一步,输入图片经过s11阶段,经过卷积层,池化层以及模型重构网络,其中模型重构网络即为模型重构层;接着按顺序将输出的特征图送入模型重构层中,将特征图不断减小,减小到原始输入图像的1/32,然后进入s12阶段;
第二步,将s11的输出送进s12阶段,首先经过上采样层,再将特征图大小不断增大,从原始输入图像的1/32放大到1/4,最后输出图片,得到共享特征图;
特征金字塔网络将底层和高层的特征进行了融合,也就是将底层特征图和高层特征图进行相加,以便对图像中的文本进行检测;其特征金字塔网络的主干网络是模型重构网络;图片进入模型重构网络的步骤如下:
第一步,进行卷积的模型重构s1阶段,输入经过卷积的模型重构s1阶段,对输入的特征矩阵进行三个操作,分别是3x3卷积、1x1卷积和跨线结构,得到三个输出;三个输出进入模型重构s2阶段;
第二步,进行求和的模型重构s2阶段,模型重构s1阶段的输出进入模型重构s2阶段,将模型重构s1阶段的三个输出进行相加,然后进入激活函数,使其变为非线性,能够进行反向传播;
在模型推理阶段,通过对网络层中的权重进行计算将所有的网络层都转换为3x3卷积层,然后将并列的两个分支都加到原本的3x3卷积中,便于网络的部署和加速;
在训练时,首先在ImageNet数据集上训练模型作为预训练权重,训练过程中包含两步,第一步使用Synth800k数据集训练,迭代10次;然后使用ICDAR2015和ICDAR2017数据集进行微调;通过NVIDIAJETSONAGXXAVIER开发板进行演示,使用模型重构层作为主干网络,训练完成后,其预测模型在经过参数简化后被送进开发板;
检测模块,用于利用全卷积神经网络对所述共享特征图进行检测,得到带预测文本框的图像;
利用全卷积神经网络对共享特征图进行检测的步骤如下:
第一步,输入经过5x5卷积层和池化层,进入s21阶段,首先经过两个3x3卷积层以及池化层,然后进入s22阶段;
第二步,s22阶段经过两个卷积层以及池化层,其输出进入s23阶段和s27阶段;
第三步,s23阶段经过两个卷积层以及池化层,其输出进入s24阶段和s28阶段;
第四步,s24阶段经过两个卷积层以及池化层,其输出进入s25阶段和s29阶段;
第五步,s25阶段经过两个卷积层以及池化层,其输出进入s26阶段;
第六步,s27阶段经过1x1卷积之后,其输出进入s26阶段;
第七步,s28阶段经过1x1卷积之后,其输出进入s26阶段;
第八步,s29阶段经过1x1卷积之后,其输出进入s26阶段;
第九步,s26阶段经过1x1卷积和三个上采样过程,第一个上采样层与s27阶段的输出相加;第二个上采样过程与s28阶段的输出相加;第三个上采样过程与s29阶段的输出相加;最后通过损失函数输出分类loss值和定位loss值以便反向传播;
对不同深度的特征图进行跨层连接,以提高模型对不同大小物体的检测效果;在模型尾端的卷积层后通过两个分支:分类和定位,得到两类任务的loss,二者加权作为模型总loss;分类分支输出每像素的单词预测;定位分支输出文本框到边界框的顶部、底部、左侧、右侧的距离和方向;
仿射变换模块,用于对所述共享特征图和所述带预测文本框的图像进行仿射变换,得到水平特征图;
识别模块,用于对所述水平特征图进行识别,得到预测文本标签;
字符识别结果确定模块,用于根据所述带预测文本框的图像和所述预测文本标签得到字符识别结果;
基于参数重构网络的字符识别系统对目标硬件和时延要求反向设计参数重构网络;首先,选取现有的轻量型网络作为目标网络,使其可以在目标边缘计算平台上可以运行并满足时延要求;然后为轻量型网络设计可压缩的并行1x1卷积和跨线结构;网络扩展后可以保证其训练后的模型精度,通过测试过程中的压缩即可还原为目标网络;相对于直接训练目标网络本方法可以获得更优的性能;将反向设计参数重构网络方法用于字符识别框架中的主干网络的学习,由于主干网络各层被加宽,增加了网络对于字符识别任务更具有适应性,从而提高了字符识别框架的性能。
7.根据权利要求6所述的基于参数重构网络的字符识别系统,其特征在于,所述拼接和提取模块,具体包括:
重构特征图确定单元,用于将所述待检测图像依次输入所述特征金字塔网络的卷积层、池化层和模型重构层,得到重构特征图;
上采样单元,用于对所述重构特征图进行上采样,得到共享特征图。
8.根据权利要求6所述的基于参数重构网络的字符识别系统,其特征在于,所述检测模块,具体包括:
池化特征图确定单元,用于对所述共享特征图分别进行卷积处理和池化处理,得到池化特征图;
上采样结果确定单元,用于对所述池化特征图进行上采样得到上采样结果;
叠加单元,用于所述上采样结果和所述池化特征图进行叠加,得到分类输出结果和定位输出结果;
带预测文本框的图像确定单元,用于根据所述分类输出结果和所述定位输出结果确定带预测文本框的图像。
9.根据权利要求6所述的基于参数重构网络的字符识别系统,其特征在于,所述仿射变换模块,具体包括:
仿射变换参数确定单元,用于根据所述带预测文本框的图像确定仿射变换参数;
水平特征图确定单元,用于根据所述共享特征图和所述仿射变换参数确定水平特征图。
10.根据权利要求6所述的基于参数重构网络的字符识别系统,其特征在于,所述识别模块,具体包括:
高级特征图确定单元,用于将所述水平特征图进行卷积处理和池化处理,得到高级特征图;
置换单元,用于将所述高级特征图进行置换,得到时间序列;
隐藏状态确定单元,用于根据双向LSTM和所述时间序列确定隐藏状态;
预测文本标签确定单元,用于将所述隐藏状态进行求和并将求和结果输入到全连接层,得到预测文本标签。
CN202210065743.1A 2022-01-20 2022-01-20 一种基于参数重构网络的字符识别方法及系统 Active CN114418001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210065743.1A CN114418001B (zh) 2022-01-20 2022-01-20 一种基于参数重构网络的字符识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210065743.1A CN114418001B (zh) 2022-01-20 2022-01-20 一种基于参数重构网络的字符识别方法及系统

Publications (2)

Publication Number Publication Date
CN114418001A CN114418001A (zh) 2022-04-29
CN114418001B true CN114418001B (zh) 2023-05-12

Family

ID=81275687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210065743.1A Active CN114418001B (zh) 2022-01-20 2022-01-20 一种基于参数重构网络的字符识别方法及系统

Country Status (1)

Country Link
CN (1) CN114418001B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111860171A (zh) * 2020-06-19 2020-10-30 中国科学院空天信息创新研究院 一种大规模遥感图像中不规则形状目标的检测方法及系统
CN112541494A (zh) * 2020-12-21 2021-03-23 京东方科技集团股份有限公司 文本识别方法、装置、电子设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10846523B2 (en) * 2016-11-14 2020-11-24 Kodak Alaris Inc. System and method of character recognition using fully convolutional neural networks with attention
CN108304835B (zh) * 2018-01-30 2019-12-06 百度在线网络技术(北京)有限公司 文字检测方法和装置
CN110210479A (zh) * 2019-06-04 2019-09-06 天津大学 一种垃圾物品上的文字信息提取方法
CN110427852B (zh) * 2019-07-24 2022-04-15 北京旷视科技有限公司 文字识别方法、装置、计算机设备和存储介质
US11710302B2 (en) * 2019-11-08 2023-07-25 Tricentis Gmbh Method and system for single pass optical character recognition
CN112364873A (zh) * 2020-11-20 2021-02-12 深圳壹账通智能科技有限公司 弯曲文本图像的文字识别方法、装置及计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
US10671878B1 (en) * 2019-01-11 2020-06-02 Capital One Services, Llc Systems and methods for text localization and recognition in an image of a document
CN111860171A (zh) * 2020-06-19 2020-10-30 中国科学院空天信息创新研究院 一种大规模遥感图像中不规则形状目标的检测方法及系统
CN112541494A (zh) * 2020-12-21 2021-03-23 京东方科技集团股份有限公司 文本识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
场景文字识别技术研究综述;王德青等;计算机工程与应用;第56卷(第18期);第1-15页 *
基于语义分割技术的任意方向文字识别;王涛等;应用科技;第45卷(第03期);第55-60页 *

Also Published As

Publication number Publication date
CN114418001A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110008956B (zh) 发票关键信息定位方法、装置、计算机设备及存储介质
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN112966684A (zh) 一种注意力机制下的协同学习文字识别方法
CN111353544B (zh) 一种基于改进的Mixed Pooling-YOLOV3目标检测方法
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN114332473A (zh) 目标检测方法、装置、计算机设备、存储介质及程序产品
CN114882494B (zh) 一种基于多模态注意力驱动的三维点云特征提取方法
CN116740516A (zh) 基于多尺度融合特征提取的目标检测方法及系统
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN111814696A (zh) 一种基于改进YOLOv3的视频船舶目标检测方法
Yu et al. SignHRNet: Street-level traffic signs recognition with an attentive semi-anchoring guided high-resolution network
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
Wang et al. CDFF: a fast and highly accurate method for recognizing traffic signs
Zhang et al. Key point localization and recurrent neural network based water meter reading recognition
CN114418001B (zh) 一种基于参数重构网络的字符识别方法及系统
CN115578364A (zh) 基于混合注意力与调和因子的微弱目标检测方法及系统
CN115331254A (zh) 一种免锚框的实例人像语义解析方法
CN112633089B (zh) 一种视频行人重识别方法、智能终端及存储介质
CN114998866A (zh) 一种基于改进YOLOv4的交通标志识别方法
Huang et al. Efficient Small-Object Detection in Airport Surface Based on Maintain Feature High Resolution
Gupta et al. Detecting Oriented Text in Scene Images by Deep Learning
Ma et al. Recognition and prediction of SMT solder joint defects based on YOLOV5
Han et al. MeterSSD: Scale and rotate invariance lightweight detector
Yao et al. RDC-YOLOv5: Improved Safety Helmet Detection in Adverse Weather

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant