CN107133616A - 一种基于深度学习的无分割字符定位与识别方法 - Google Patents

一种基于深度学习的无分割字符定位与识别方法 Download PDF

Info

Publication number
CN107133616A
CN107133616A CN201710215116.0A CN201710215116A CN107133616A CN 107133616 A CN107133616 A CN 107133616A CN 201710215116 A CN201710215116 A CN 201710215116A CN 107133616 A CN107133616 A CN 107133616A
Authority
CN
China
Prior art keywords
network
mrow
classification
msub
candidate region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710215116.0A
Other languages
English (en)
Other versions
CN107133616B (zh
Inventor
俞芳芳
董蓉
朱泽民
李勃
查俊
梁振华
史德飞
陈和国
黄璜
周子卿
史春阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huichuan Image Visual Technology Co Ltd
Original Assignee
Nanjing Huichuan Image Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huichuan Image Visual Technology Co Ltd filed Critical Nanjing Huichuan Image Visual Technology Co Ltd
Priority to CN201710215116.0A priority Critical patent/CN107133616B/zh
Publication of CN107133616A publication Critical patent/CN107133616A/zh
Application granted granted Critical
Publication of CN107133616B publication Critical patent/CN107133616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

一种基于深度学习的无分割字符定位与识别方法,首先构建深度卷积神经网络,包括通用卷积层网络、候选区域定位网络、分类识别网络三大部分;其次构建整个网络整体的目标函数,以实现整个网络全局端对端的训练;继而采用人工标定的训练集以及“递进‑联合”的训练方式对网络进行训练;当应用至测试时,利用训练所得的网络可提取测试图像中若干字符的可能区域及分类识别的结果;最后,对网络所得结果进行非极大值抑制及得分阈值判断的后处理,得到最终的检测结果。本发明方法使用简单,无需进行字符分割预处理,可兼容多种字符形态,且具有较强的抗背景干扰能力,可作为一种通用的字符检测方法。

Description

一种基于深度学习的无分割字符定位与识别方法
技术领域
本发明涉及机器视觉、图像处理技术领域,具体为一种基于深度学习的无分割字符定位与识别方法。
背景技术
目前的光学字符识别(Optical Character Recognition,OCR)主要采取“字符分割+字符识别”的模式,如:王伟等人的《SVM多类分类器在车牌字符识别中的应用》【1】首先对字符进行简单分割提取后分别利用字符稳定的欧拉数特征和基于Fisher判别准则设计SVM二叉分类树对字符进行粗细分类;宋春静等人(“基于深度信念网络的集装箱字符识别方法”)首先对预处理图像进行水平投影和连通域分析,实现字符分割提取后,利用深度信念网络模型对字符进行深度学习。巩玉滨等人《一种数显仪表数字字符识别方法研究》【2】运用行分割、单字分割与规范化进行数字字符的准确分割模糊图像,以网格法与交线特征提取法提取数显仪表数字字符的特征,采用三层BP神经网络进行数字字符识别。
采用这种识别的模式是由于其输入图像往往是使用规范的印刷体、拥有几乎无干扰的背景、具有较高的分辨率,因而可以通过传统的字符分割算法即可提取每个字符区域。然而当应用到自然场景中时,由于自然场景中的字符具有背景复杂、质量低下、形态多变等特点,从而使得字符与背景见难以用简单的人为选择的特征进行区分,继而难以正确分割乃至识别。
现有的字符识别算法虽然在识别上通过引入深度学习网络的方式提取特征,获得较好的分类效果,但是在分割上依旧依赖于传统的人工选取特征分割算法,从而无法兼容较为复杂的自然场景下的字符分割与识别。因此,需要一种能够自动提取字符具有代表性的特征,让机器可以像人眼一样对整幅图像实现字符定位和分类的字符识别算法。
参考文献
【1】王伟,马永强,彭强.SVM多类分类器在车牌字符识别中的应用[J].计算机工程与设计,2011,32(9):3166-3169.
【2】巩玉滨,杨红娟,张运楚,等.一种数显仪表数字字符识别方法研究[J].山东建筑大学学报,2011,26(2):134-137.
发明内容
本发明要解决的技术问题是:现有的光学字符识别算法主要采取“字符分割+字符识别”的模式,无法应对自然场景的背景复杂、质量低下、形态多变等特点,字符与背景间难以用简单的人为选择的特征进行区分,继而难以正确分割乃至识别。因此现有的光学字符识别算法对于复杂自然场景下的字符不能达到较好的识别效果。
本发明的技术方案为:一种基于深度学习的无分割字符定位与识别方法,包括如下步骤:
步骤S1:构建深度卷积神经网络,所述多层卷积神经网络包括通用卷积层网络、候选区域定位网络和分类识别网络,设定多层卷积神经网络的输入为图像,输出为图像上各字符的类别和在图像上的位置坐标;
步骤S2:定义候选区域定位网络的损失函数,及分类识别网络的分类损失函数,构建整个网络整体的目标函数,以实现整个网络的训练;
步骤S3:采用标定好的字符类别及位置信息的训练集对网络进行训练,训练方式采用“递进-联合”的训练方式,从而得到用于进行字符定位和识别的网络模型:
3.1)训练通用卷积层部分,采用从PASCAL VOC 2012的ZF模型进行迁移初始化;
3.2)在已训练好的通用卷积层的基础上增加候选区域定位网络进行训练,固定通用卷积层网络参数,采用随机初始化的方式初始化候选区域定位网络参数,根据步骤S2中定义的候选区域定位网络的损失函数对候选区域定位网络参数进行调整;
3.3)增加分类识别网络,固定通用卷积层网络以及候选区域定位网络参数,采用随机初始化的方式初始化分类识别网络的参数,根据步骤S2中定义的分类识别网络损失函数,对分类识别网络的参数进行学习和调整;
3.4)根据步骤S2中定义的全局网络损失函数,对整个网络进行端对端的微调,获得最终的训练结果;
步骤S4:输入测试图像,利用步骤S3中得到的网络提取图像中若干字符的可能区域及分类识别的结果;
步骤S5:对步骤S4中所得到的候选字符识别结果进行非极大值抑制得分阈值判断,得到最终的检测结果。
步骤S1中,各网络具体为:
通用卷积层网络:输入图像为任意尺寸大小,通用卷积层采用5层卷积层结构,层与层之间使用Relu激活函数,且前两层卷积层后加入最大值池化层,通用卷积层网络用于提取图像特征图;
候选区域定位网络:采用在特征图上进行多尺度采样的方式提取不同尺度物体的特征,对通用卷积层后得到的每一维特征图使用滑动窗口法,对于每个滑动窗口中心点,提取K种可能的候选窗口,K种可能性包括了a种面积尺度以及b种长宽比,即:K=a*b,继而将提取的特征分别输入给窗口回归层和窗口得分层,分别得到对于该滑动窗口中心点提取的K个候选窗口的位置修正,以及是否属于前景目标的得分,最终对提取到的所有候选窗口进行非极大值抑制处理,去除重复度较高的区域,并最终提取得分最高的N个候选窗口作为候选区域建议进入最终的目标分类;
分类识别网络:对候选区域定位网络所得的候选区域进行分类判断,以及进一步的定位位置精修,通过计算候选区域在特征图中的位置提取候选区域的特征图,将特征图经过两个全连接层后分别输入给分类得分层和位置精修层,分别获得该候选区域的类别得分以及位置修正。
步骤S2中,候选区域定位网络的损失函数为:
在候选区域定位网络中,损失函数包含窗口得分和窗口回归两部分,
窗口得分网络为一个是否是目标的二值分类器,定义其分类损失函数为:
其中,pi表示在一次批梯度下降法中第i个候选窗口预测为目标的得分,也即其属于目标的概率,代表训练标签,当该候选窗口为正样本时负样本时
窗口回归网络为判断窗口回归位置是否接近实际标签,定义其回归损失函数为:
其中,ti表示在一次批梯度下降法中第i个候选窗口回归的位置信息,包括中心点坐标、窗口宽度和窗口高度的相对修正值,表示正样本窗口的位置信息,R函数采用如下函数:
根据分类损失函数和回归损失函数后,候选区域定位网络的损失函数为:
其中p={pi},t={ti},参数λ为两个子损失函数的权衡参数。
步骤S2中,分类识别网络的分类损失函数为:
分类识别网络输出包含候选区域得分与区域回归两部分,设络需要构造区分M类的分类器,则对于每个候选区域,通过分类识别网络后均可获得其对于M+1个类别的概率得分c={c0,c1,...cM+1},以及其位置回归u,根据训练标签可获得每个字符实际所属类别以及区域位置,分别记为c*和u*,从而分类部分的损失函数为:
cc*表示求概率;
区域回归部分的损失函数为:
得到分类识别网络的分类损失函数:
参数μ为两个子损失函数的权衡参数。
当进行整个网路的端对端训练时,整个网络整体的目标函数为:
其中,Lprop为候选区域定位网络的损失函数,Lrgn为分类识别网络的分类损失函数,参数为两个子损失函数的权衡参数。
步骤S5中,对网络识别结构进行后处理判断的方式为:
5.1)对每个候选区域均有M+1个类别得分,选取得分最高者作为该候选区域的类别;
5.2)对相同类别的候选区域去重叠:两两进行重复度IoU值计算,大于0.7时保留得分高者的候选区域;
5.3)对剩下的候选区域进行全类别的如步骤5.2)的去重复处理,得到网络最终的定位与识别结果;
5.4)根据字符定位结果,按照字符从左至右、从上至下的位置对字符进行排序,以文字形式输出最终结果至用户。
本发明方法与已有的现有技术相比,具有如下显著效果:
(1)相比于一般方法中分割与识别独立的模式,本发明提出针对整幅图像直接进行字符定位和识别的方式,通过深度学习的有监督学习,在网络中提取图像特征,完成字符区域的定位与字符类别的识别,从而达到无需专门进行字符分割预处理的整图字符识别方法。
(2)本发明引入候选区域的概念,并且相比于目前通用的滑动窗口法、selectivesearch等方法,采用深度学习网络进行字符候选区域的提取,使用人为标注训练集的方式进行候选区域的有监督学习,自动提取最具代表性的特征,高效、灵活得提取若干更符合人眼判断可能的候选区域,并通过对候选区域分类的得分提取最终的字符定位与识别结果。
(3)本发明的候选区域提取与分类识别共享底层特征提取网络,减少了网络的额外开销,从而达到网络结构的简化、训练集需求的减少、网络训练时间降低等优势。
附图说明
图1是本发明一种基于深度学习网络的无分割字符识别方法的流程图。
图2是本发明方法中使用的整个深度学习神经网络构成图。
图3是本发明方法网络中通用卷积层网络的详细结构。
图4是本发明方法网络中通用候选区域定位网络的详细结构。
图5是本发明方法网络中通用分类识别网络的详细结构。
图6是本发明方法的实施例示意图,(a)为卷积特征图(conv1/conv5),(b)为区域建议图(得分前300),(c)为网络最终的识别结果。
具体实施方式
为了解决目前字符识别应用至自然场景时难以正确分割和识别的问题,本发明设计了一种基于深度学习的无分割字符定位与识别方法,基于深度学习的方法,提出利用深度学习网络提取图像的特征,并据此进行字符候选区域的提取及分类,从而实现在网络中既能实现字符定位,又可完成字符分类。本发明有效的解决了由于复杂自然场景下字符形态多变、背景干扰大而难以用传统分割算法进行字符区域分割的问题,具有较强的泛化性及抗背景干扰能力。
为进一步了解本发明的内容,下面结合附图和实施例对本发明作详细描述。
本发明流程参见图1,说明如下:
S1、首先构建深度卷积神经网络,本发明的多层卷积神经网络包括通用卷积层网络、候选区域定位网络和分类识别网络,其在整个深度神经网络中的组成方式参见图2,其中conv、proposal、classifier分别代表通用卷积层网络、候选区域定位网络、分类识别网络。具体解析如下:
通用卷积层网络:输入图像为任意尺寸大小,通用卷积层采用5层卷积层结构,层与层之间使用Relu激活函数,且前两层卷积层后加入最大值池化层。其网络结构图如图3所示,为了便于显示,以下所有网络结构图均假设输入图像大小为(800,600),经过通用卷积层网络可提取一系列图像特征图,此时由于图像大小不统一,因而特征图大小也有差异,将紧跟图像最后一层的池化层改为如下方式,以使得最终得到特征图为统一大小:若最终特征图尺寸要求为{W0,H0},当前特征图大小为{w,h},则定义对当前特征图做大小为{W0/w,H0/h}的窗口进行最大值池化处理,本发明实施例中{W0,H0}={49,36}。
候选区域定位网络:网络结构图如图4所示,对于上述得到的每一维特征图采用滑动窗口法,窗口大小选取为3*3,步长为1,继而采用Relu激活函数,则对每个窗口可提取一个256维的低维特征。该方式利用在高维特征空间滑动窗口法,替代了传统网络在网络输入前端对原始图像进行滑动窗口提取图像块提取特征的方法,由于高维特征空间特征图相比于原始图像大大减小,从而滑动窗口法的运算量也得到减少,加速了网络的传输时间,满足实际应用中实时性的需求。
在深度学习网络中,为了解决网络对于多尺度目标的兼容问题,往往会采用以下两种方法:一种是使用图像金字塔,对伸缩到不同尺度的输入图像进行特征提取;另一种是采取滤波器金字塔,即对输入图像采用不同尺寸的滤波器分别进行卷积操作。这两种方法由于需要枚举图像或者滤波器的尺寸,且对于每种尺寸均需要进行一次整个网络的完全计算,因此相当费时。为了适应实际应用中对于实时性的需求,本发明采用在特征图上进行多尺度采样的方式提取不同尺度物体的特征,从而只需要单一尺寸的输入图像和卷积核计算即可,大大减少了计算量。具体实现方式为:对于每个滑动窗口中心点,提取K种可能的候选窗口,因此对于W*H大小的特征图,最多可以提取W*H*K个候选窗口。由于候选窗口为无方向矩形,K种可能性包括了a种面积尺度以及b种长宽比,即:K=a*b。在本发明中K的选取如下:
面积尺度a∈{642,1282}
长宽比b∈{1:1,1:2,2:1}
候选区域数量K=2*3=6
选取如上数值是考虑到通用卷积层网络输入图像的大小,以及实际应用中待检测字符本身的形状比例和相对于图像的大小比例,合理的根据应用场景的先验知识选取K的种类,有助于减小K值,从而减少不必要的候选窗口的计算量,进一步加快网络的传输时间。并且,由于在整体网络分类结果输出时会再次对目标进行精确的位置修正,因而候选区域定位网络的主要功能在于对于目标检测区域的大致定位,其目标在于包含待检测物体,但不要求精确定位其位置,因此此处K的数量选择较为简单,而这也减少了候选区域定位网络的时间消耗。
继而对于提取的256维特征,分别输入给窗口回归层和窗口得分层,分别得到对于该滑动窗口中心点提取的K个候选窗口的位置修正以及是否属于前景目标的得分,该方法可用两个并行的1*1全连接卷积层实现。窗口回归层的功能为对于每个候选窗口进行进一步的位置精修,其本质是进行回归,输出的是修正后的候选窗口的左上角以及长宽修正值,且对于K个不同的候选窗口构建不同的回归器,也即K个回归量不共享权重,从而使得对于每个3*3的窗口也能够预测不同尺寸的候选区域。窗口得分层的功能在于对于每个候选窗口进行其是否属于目标检测区域的判断,其本质是进行分类,输出的是该候选窗口分别属于前景和背景的得分。最终对滑动窗口提取到的所有候选窗口进行非极大值抑制处理,去除重复度较高的区域,并最终提取得分最高的N个候选窗口作为候选区域建议进入最终的目标分类。
分类识别网络:分类识别网络主要完成的工作是对候选区域定位网络所得的候选区域进行分类判断以及进一步得定位位置精修,其网络结构图参见图5,因此首先需要提取候选区域的特征。传统网络通常采用将候选区域图像提取出来后重新输入给网络进行特征提取和分类,这将导致网络对于每个候选区域需要重新计算,因而重复计算量很大。由于已知了候选区域的位置,并且整幅图像的特征图已在通用卷积层网络中得到,本发明通过计算候选区域在特征图中的位置即可提取候选区域的特征图,从而使得网络只需计算一次整幅图像的特征图即可,且候选区域定位网络和分类识别网络可以共享通用卷积层网络提取的特征图,使得整个网络相比于传统的图像分类识别网络只增加了少量开销,就可完成定位与分类两项功能。
将特征图经过两个全连接层后分别输入给分类得分层和位置精修层,分别获得该候选区域的类别得分以及位置修正。
S2、构造好整个网络框架后,需要定义候选区域定位网络的回归损失函数,及分类识别网络的分类损失函数,从而获得整个网络整体的目标函数,以实现整个网络全局端对端的训练;
在候选区域定位网络中,由于网络的输出包含窗口得分和窗口回归,因此损失函数也包含这两部分。首先定义正负样本的概念:在进行有监督训练时,训练集需要进行人工标注,标注内容包括物体的类别以及物体的位置。对于每个3*3窗口提取的K个候选窗口,定义其与实际人工标注的窗口重叠度大于0.8为正样本,重叠度小于0.3为负样本,其余舍弃。重叠度的定义为:
其中,GT为人工标注,CW为候选窗口。IoU即为两者重叠部分的面积与两者总占用面积的比值,当候选窗口与人工标注完全重叠时,IoU为1,当两者无重叠时,IoU为0。
窗口得分网络本质是一个是否是目标的二值分类器,因而定义其分类损失函数为:
其中,pi表示在一次批梯度下降法中第i个候选窗口预测为目标的得分,也即其属于目标的概率,代表训练标签,当该候选窗口为正样本时当该候选窗口为负样本时
窗口回归网络本质是判断窗口回归位置是否接近实际标签。通常描述一个矩形框需要四个参数:左上角点或中心点x、y轴坐标、窗口宽度、窗口高度。为了兼容各种不同尺寸的候选窗口,以实现归一化,对于每个3*3窗口,在回归网络中采用相对修正值来描述窗口:
其中,{x,xa,x*}分别为预测窗口、候选窗口和人工标签窗口的中心点横坐标,同理,{y,ya,y*}分别为这三者的纵坐标、{w,wa,w*}为窗口的宽度、{h,ha,h*}为窗口的高度。
由此可定义窗口回归网络的回归损失函数为:
其中,ti={tx,ty,tw,th}表示在一次批梯度下降法中第i个候选窗口回归的位置信息,相应的,表示正样本窗口的位置信息。
需要注意的是,在训练时,只有正样本窗口才有学习回归调整的必要和意义,因此在损失函数中引入项以保证只有当该窗口是正样本时才进行回归损失函数的计算。
(4)式中的R函数采用如下函数:
已知了分类损失函数和回归损失函数后,候选区域定位网络的损失函数可定义为:
其中p={pi},t={ti},参数λ为两个子损失函数的权衡参数。
在分类识别网络中,与候选区域定位网络类似的,其输出也包含候选区域得分与区域回归两部分。若网络需要构造区分M类的分类器,则每个候选区域通过分类识别网络后,可得到其是否属于M类每类类别的得分,以及是否属于背景的得分,故在softmax分类器共得到M+1个得分数值,且它们的和为1,因而每个得分值也代表了其是否属于该类别的概率。由于该部分网络的输入是来自于候选区域定位网络的候选区域建议,因而正样本的定义为与人工实际标注的窗口重叠度大于0.8为正样本,其所属类别以及区域位置分别记为c*和u*,而重叠度小于0.3为负样本,其类别属于背景,重叠度不满足以上要求的样本不参与损失函数的计算。
设络需要构造区分M类的分类器,则对于每个候选区域,通过分类识别网络后均可获得其对于M+1个类别的概率得分c={c0,c1,...cM+1},以及其位置回归u,根据训练标签可获得每个字符实际所属类别以及区域位置,分别记为c*和u*,从而分类部分的损失函数为:
cc*表示求概率;
回归部分的损失函数为:
Lr_reg(u,u*)=[u*>1]R(u-u*) (8)
同候选区域定位网络一样,[u*>1]作用在于保证只有正样本才计入回归损失函数的计算。
最后分类识别网络的损失函数可定义为:
Lrgn(c,u)=∑Lr_cls(c,c*)+μ∑Lr_reg(u,u*)
(9)
当进行整个网路的端对端训练时,定义整个网络的误差函数为:
其中,参数为两个子损失函数的权衡参数。
S3、采用人工标定的字符类别及位置信息的训练集对网络进行训练,从而得到用于进行字符定位和识别的网络模型。
网络训练采取标准误差反向传播和随机梯度下降法,其权值衰减量和冲量分别设置为0.0005和0.9。训练学习速率α初始设置为0.001,每迭代10k次,引入衰减量β以更新学习速率,使得:
α=βα (11)
在训练中,如果候选窗口来自于同一幅图像,则它们可以共享前面卷积层的计算结果,减少网络训练的计算量,因此在本发明中,网络训练时一次批梯度下降法中,选取来自I幅图像的R个候选窗口,也即每幅图像选取R/I个候选窗口。如R选择为256,I选择为2,则每幅图像采样256/2=128个候选窗口,相比于对从256幅图像各选择一个窗口计算可加速128倍。同时,为了防止每幅图像采集的128个候选窗口中正负样本比例失调,导致网络发生偏差,设置每次采集的128个候选窗口中正负样本的比例为1:1,且舍弃超出图像边界的候选窗口。
由于网络主要由三部分网络组成,因而采用一种逐层递进的训练方式,具体为:
1)首先训练通用卷积层部分。由于图像的底层特征是相似的,因而对于通用卷积层部分采用从PASCAL VOC 2012的ZF模型(Zeiler与Fergus模型)进行迁移初始化。
2)其次在已训练好的通用卷积层的基础上增加候选区域定位网络进行训练,固定通用卷积层网络参数,采用随机初始化的方式初始化候选区域定位网络参数,根据步骤2中定义的候选区域定位网络的损失函数对候选区域定位网络参数进行调整。
3)继而再增加分类识别网络,固定通用卷积层网络以及候选区域定位网络参数,采用随机初始化的方式初始化分类识别网络的参数,根据步骤2中定义的分类识别网络损失函数,对分类识别网络的参数进行学习和调整。
4)最后根据步骤2)中定义的全局网络损失函数,对整个网络进行端对端的微调,获得最终的训练结果。
S4、经过人工标定的字符类别及位置信息的训练集对网络进行学习和训练后,可获得一个网络模型的结果,模型里包含了深度学习网络中每一层权值的数值。当运用到实际应用时,只需将采集到的字符图像输入给网络进行前向传输,则网络的输出即为位置精修后的N个候选区域及其类别得分。
S5、由于网络的输出结果有N个候选区域,通常N的数值设置为在满足网络传输时间的要求下,尽可能大于图像中实际字符的数量,以保证可以包含所有的目标字符,因此这N个候选区域通常具有极大的重复性,需要进行一定的后处理,以获得最终精确的识别结果。后处理逻辑主要包含以下几个步骤:
1)对每个候选区域均有M+1个类别得分,选取得分最高者作为该候选区域的类别;
2)对相同类别的候选区域去重叠:两两进行重复度IoU值计算,大于0.7时保留得分高者的候选区域。
3)由于字符识别中各字符不会发生重叠,否则无法进行识别,因而对剩下的候选区域进行全类别的如步骤2)的去重复处理,得到网络最终的定位与识别结果。
4)根据字符定位结果,按照字符从左至右、从上至下的位置对字符进行排序,可以文字形式输出最终结果至用户。
本发明中使用的字符图像采用130万像素彩色照相机采集,电脑配置为酷睿i5,英伟达GTX 1080 6G,训练时间为4小时,测试时间为100ms/张,检测正确率达99.98%。如图6为识别实施示意图。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (6)

1.一种基于深度学习的无分割字符定位与识别方法,其特征是包括如下步骤:
步骤S1:构建深度卷积神经网络,所述多层卷积神经网络包括通用卷积层网络、候选区域定位网络和分类识别网络,设定多层卷积神经网络的输入为图像,输出为图像上各字符的类别和在图像上的位置坐标;
步骤S2:定义候选区域定位网络的损失函数,及分类识别网络的分类损失函数,构建整个网络整体的目标函数,以实现整个网络的训练;
步骤S3:采用标定好的字符类别及位置信息的训练集对网络进行训练,训练方式采用“递进-联合”的训练方式,从而得到用于进行字符定位和识别的网络模型:
3.1)训练通用卷积层部分,采用从PASCAL VOC 2012的ZF模型进行迁移初始化;
3.2)在已训练好的通用卷积层的基础上增加候选区域定位网络进行训练,固定通用卷积层网络参数,采用随机初始化的方式初始化候选区域定位网络参数,根据步骤S2中定义的候选区域定位网络的损失函数对候选区域定位网络参数进行调整;
3.3)增加分类识别网络,固定通用卷积层网络以及候选区域定位网络参数,采用随机初始化的方式初始化分类识别网络的参数,根据步骤S2中定义的分类识别网络损失函数,对分类识别网络的参数进行学习和调整;
3.4)根据步骤S2中定义的整个网络整体的目标函数对整个网络进行端对端的微调,获得最终的训练结果;
步骤S4:输入测试图像,利用步骤S3中得到的网络提取图像中若干字符的可能区域及分类识别的结果;
步骤S5:对步骤S4中所得到的候选字符识别结果进行非极大值抑制得分阈值判断,得到最终的检测结果。
2.根据权利要求1所述的基于深度学习的无分割字符定位与识别方法,其特征是步骤S1中,各网络具体为:
通用卷积层网络:输入图像为任意尺寸大小,通用卷积层采用5层卷积层结构,层与层之间使用Relu激活函数,且前两层卷积层后加入最大值池化层,通用卷积层网络用于提取图像特征图;
候选区域定位网络:采用在特征图上进行多尺度采样的方式提取不同尺度物体的特征,对通用卷积层后得到的每一维特征图使用滑动窗口法,对于每个滑动窗口中心点,提取K种可能的候选窗口,K种可能性包括了a种面积尺度以及b种长宽比,即:K=a*b,继而将提取的特征分别输入给窗口回归层和窗口得分层,分别得到对于该滑动窗口中心点提取的K个候选窗口的位置修正,以及是否属于前景目标的得分,最终对提取到的所有候选窗口进行非极大值抑制处理,去除重复度较高的区域,并最终提取得分最高的N个候选窗口作为候选区域建议进入最终的目标分类;
分类识别网络:对候选区域定位网络所得的候选区域进行分类判断,以及进一步的定位位置精修,通过计算候选区域在特征图中的位置提取候选区域的特征图,将特征图经过两个全连接层后分别输入给分类得分层和位置精修层,分别获得该候选区域的类别得分以及位置修正。
3.根据权利要求1所述的基于深度学习的无分割字符定位与识别方法,其特征是步骤S2中,候选区域定位网络的损失函数为:
在候选区域定位网络中,损失函数包含窗口得分和窗口回归两部分,
窗口得分网络为一个是否是目标的二值分类器,定义其分类损失函数为:
<mrow> <msub> <mi>L</mi> <mrow> <mi>p</mi> <mo>_</mo> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mo>&amp;lsqb;</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mo>*</mo> </msubsup> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&amp;rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中,pi表示在一次批梯度下降法中第i个候选窗口预测为目标的得分,也即其属于目标的概率,代表训练标签,当该候选窗口为正样本时负样本时
窗口回归网络为判断窗口回归位置是否接近实际标签,定义其回归损失函数为:
<mrow> <msub> <mi>L</mi> <mrow> <mi>p</mi> <mo>_</mo> <mi>r</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>=</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中,ti表示在一次批梯度下降法中第i个候选窗口回归的位置信息,包括中心点坐标、窗口宽度和窗口高度的相对修正值,表示正样本窗口的位置信息,R函数采用如下函数:
根据分类损失函数和回归损失函数后,候选区域定位网络的损失函数为:
<mrow> <msub> <mi>L</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>o</mi> <mi>p</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>p</mi> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>L</mi> <mrow> <mi>p</mi> <mo>_</mo> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>p</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;lambda;</mi> <munder> <mo>&amp;Sigma;</mo> <mi>i</mi> </munder> <msub> <mi>L</mi> <mrow> <mi>p</mi> <mo>_</mo> <mi>r</mi> <mi>e</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msubsup> <mi>t</mi> <mi>i</mi> <mo>*</mo> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中p={pi},t={ti},参数λ为两个子损失函数的权衡参数。
4.权利要求1所述的基于深度学习的无分割字符定位与识别方法,其特征是步骤S2中,分类识别网络的分类损失函数为:
分类识别网络输出包含候选区域得分与区域回归两部分,设络需要构造区分M类的分类器,则对于每个候选区域,通过分类识别网络后均可获得其对于M+1个类别的概率得分c={c0,c1,...cM+1},以及其位置回归u,根据训练标签可获得每个字符实际所属类别以及区域位置,分别记为c*和u*,从而分类部分的损失函数为:
<mrow> <msub> <mi>L</mi> <mrow> <mi>r</mi> <mo>_</mo> <mi>cls</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <msup> <mi>c</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mi>log</mi> <mrow> <mo>(</mo> <msub> <mi>c</mi> <msup> <mi>c</mi> <mo>*</mo> </msup> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>
cc*表示求概率;
区域回归部分的损失函数为:
Lr_reg(u,u*)=[u*>1]R(u-u*) (6)
得到分类识别网络的分类损失函数:
Lrgn(c,u)=∑Lr_cls(c,c*)+μ∑Lr_reg(u,u*) (7)
参数μ为两个子损失函数的权衡参数。
5.根据权利要求1所述的基于深度学习的无分割字符定位与识别方法,其特征是步骤S2中,当进行整个网路的端对端训练时,整个网络整体的目标函数为:
其中,Lprop为候选区域定位网络的损失函数,Lrgn为分类识别网络的分类损失函数,参数为两个子损失函数的权衡参数。
6.根据权利要求1所述的基于深度学习的无分割字符定位与识别方法,其特征是步骤S5中,对网络识别结构进行后处理判断的方式为:
5.1)对每个候选区域均有M+1个类别得分,选取得分最高者作为该候选区域的类别;
5.2)对相同类别的候选区域去重叠:两两进行重复度IoU值计算,大于0.7时保留得分高者的候选区域;
5.3)对剩下的候选区域进行全类别的如步骤5.2)的去重复处理,得到网络最终的定位与识别结果;
5.4)根据字符定位结果,按照字符从左至右、从上至下的位置对字符进行排序,以文字形式输出最终结果至用户。
CN201710215116.0A 2017-04-02 2017-04-02 一种基于深度学习的无分割字符定位与识别方法 Active CN107133616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710215116.0A CN107133616B (zh) 2017-04-02 2017-04-02 一种基于深度学习的无分割字符定位与识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710215116.0A CN107133616B (zh) 2017-04-02 2017-04-02 一种基于深度学习的无分割字符定位与识别方法

Publications (2)

Publication Number Publication Date
CN107133616A true CN107133616A (zh) 2017-09-05
CN107133616B CN107133616B (zh) 2020-08-28

Family

ID=59715518

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710215116.0A Active CN107133616B (zh) 2017-04-02 2017-04-02 一种基于深度学习的无分割字符定位与识别方法

Country Status (1)

Country Link
CN (1) CN107133616B (zh)

Cited By (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886065A (zh) * 2017-11-06 2018-04-06 哈尔滨工程大学 一种混合字体的数字序列识别方法
CN107977605A (zh) * 2017-11-08 2018-05-01 清华大学 基于深度学习的眼部区域边界特征提取方法及装置
CN108021914A (zh) * 2017-12-27 2018-05-11 清华大学 基于卷积神经网络的印刷品字符区域提取方法
CN108154122A (zh) * 2017-12-26 2018-06-12 天津天地伟业投资管理有限公司 一种基于图像的车标识别方法
CN108154149A (zh) * 2017-12-08 2018-06-12 济南中维世纪科技有限公司 基于深度学习网络共享的车牌识别方法
CN108334881A (zh) * 2018-03-12 2018-07-27 南京云创大数据科技股份有限公司 一种基于深度学习的车牌识别方法
CN108388894A (zh) * 2017-12-26 2018-08-10 新智数字科技有限公司 一种数字表读数的识别方法、装置及设备
CN108509934A (zh) * 2018-04-12 2018-09-07 南京烽火天地通信科技有限公司 一种基于深度学习的维文图片识别方法
CN108764235A (zh) * 2018-05-23 2018-11-06 中国民用航空总局第二研究所 神经网络模型、目标检测方法、设备及介质
CN108805160A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 迁移学习方法、装置、计算机设备和存储介质
CN108830130A (zh) * 2018-03-30 2018-11-16 徐国明 一种偏振高光谱低空侦察图像典型目标检测方法
CN108830271A (zh) * 2018-06-13 2018-11-16 深圳市云识科技有限公司 一种基于卷积神经网络的数显仪表读数识别方法
CN108846379A (zh) * 2018-07-03 2018-11-20 南京览笛信息科技有限公司 面单识别方法、系统、终端设备及存储介质
CN108875722A (zh) * 2017-12-27 2018-11-23 北京旷视科技有限公司 字符识别与识别模型训练方法、装置和系统及存储介质
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
CN109325438A (zh) * 2018-09-18 2019-02-12 桂林电子科技大学 实况全景交通标志的实时识别方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN109635835A (zh) * 2018-11-08 2019-04-16 深圳蓝韵医学影像有限公司 一种基于深度学习与迁移学习的乳腺病变区域检测方法
CN109829453A (zh) * 2018-12-29 2019-05-31 天津车之家数据信息技术有限公司 一种卡证中文字的识别方法、装置以及计算设备
CN109948469A (zh) * 2019-03-01 2019-06-28 吉林大学 基于深度学习的巡检机器人仪表自动检测识别方法
CN109948696A (zh) * 2019-03-19 2019-06-28 上海七牛信息技术有限公司 一种多语言场景字符识别方法及系统
CN110070124A (zh) * 2019-04-15 2019-07-30 广州小鹏汽车科技有限公司 一种基于生成式对抗网络的图像扩增方法及系统
CN110097018A (zh) * 2019-05-08 2019-08-06 深圳供电局有限公司 变电站仪表检测方法、装置、计算机设备和存储介质
CN110119736A (zh) * 2018-02-07 2019-08-13 浙江宇视科技有限公司 车牌位置识别方法、装置及电子设备
CN110163211A (zh) * 2018-09-06 2019-08-23 腾讯科技(深圳)有限公司 一种图像识别方法、装置和存储介质
CN110443241A (zh) * 2019-07-29 2019-11-12 北京迈格威科技有限公司 车牌识别模型训练方法、车牌识别方法及装置
CN110717366A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本信息的识别方法、装置、设备及存储介质
CN110766152A (zh) * 2018-07-27 2020-02-07 富士通株式会社 用于训练深度神经网络的方法和装置
CN110766002A (zh) * 2019-10-08 2020-02-07 浙江大学 一种基于深度学习的船名字符区域检测方法
CN110807456A (zh) * 2019-10-11 2020-02-18 上海上湖信息技术有限公司 一种银行卡卡号的定位方法及装置
CN110942057A (zh) * 2018-09-25 2020-03-31 杭州海康威视数字技术股份有限公司 一种集装箱箱号识别方法、装置和计算机设备
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111027443A (zh) * 2019-12-04 2020-04-17 华南理工大学 一种基于多任务深度学习的票据文本检测方法
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN111191611A (zh) * 2019-12-31 2020-05-22 同济大学 基于深度学习的交通标志标号识别方法
CN111199194A (zh) * 2019-12-25 2020-05-26 吉林大学 基于机器视觉和深度学习的汽车智能座舱仪表测试方法
CN111259908A (zh) * 2020-03-24 2020-06-09 中冶赛迪重庆信息技术有限公司 基于机器视觉的钢卷号识别方法、系统、设备及存储介质
CN111310831A (zh) * 2020-02-19 2020-06-19 中国科学院光电技术研究所 一种基于深度学习的小目标检测网络逐层训练方法
CN111353511A (zh) * 2018-12-20 2020-06-30 富士通株式会社 号码识别装置及方法
CN111368632A (zh) * 2019-12-27 2020-07-03 上海眼控科技股份有限公司 一种签名识别方法及设备
CN111797880A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN112364726A (zh) * 2020-10-27 2021-02-12 重庆大学 基于改进east的零件喷码字符定位的方法
CN112613348A (zh) * 2020-12-01 2021-04-06 浙江华睿科技有限公司 一种字符识别方法及电子设备
CN113392814A (zh) * 2021-08-16 2021-09-14 冠传网络科技(南京)有限公司 一种字符识别模型的更新方法、装置及存储介质
CN113887428A (zh) * 2021-09-30 2022-01-04 西安工业大学 一种基于上下文信息的深度学习成对模型人耳检测方法
CN114331786A (zh) * 2021-12-29 2022-04-12 福建工程学院 基于物联网的社区管理方法及系统
CN112651353B (zh) * 2020-12-30 2024-04-16 南京红松信息技术有限公司 一种基于自定义标签的目标口算的定位识别方法
CN117912037A (zh) * 2024-03-20 2024-04-19 杭州汇萃智能科技有限公司 一种ocr模型后处理方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106326858A (zh) * 2016-08-23 2017-01-11 北京航空航天大学 一种基于深度学习的公路交通标志自动识别与管理系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN106250812A (zh) * 2016-07-15 2016-12-21 汤平 一种基于快速r‑cnn深度神经网络的车型识别方法
CN106326858A (zh) * 2016-08-23 2017-01-11 北京航空航天大学 一种基于深度学习的公路交通标志自动识别与管理系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHAOQING REN等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886065A (zh) * 2017-11-06 2018-04-06 哈尔滨工程大学 一种混合字体的数字序列识别方法
CN107977605A (zh) * 2017-11-08 2018-05-01 清华大学 基于深度学习的眼部区域边界特征提取方法及装置
CN108154149A (zh) * 2017-12-08 2018-06-12 济南中维世纪科技有限公司 基于深度学习网络共享的车牌识别方法
CN108154149B (zh) * 2017-12-08 2021-12-10 济南中维世纪科技有限公司 基于深度学习网络共享的车牌识别方法
CN108388894A (zh) * 2017-12-26 2018-08-10 新智数字科技有限公司 一种数字表读数的识别方法、装置及设备
CN108154122A (zh) * 2017-12-26 2018-06-12 天津天地伟业投资管理有限公司 一种基于图像的车标识别方法
CN108875722A (zh) * 2017-12-27 2018-11-23 北京旷视科技有限公司 字符识别与识别模型训练方法、装置和系统及存储介质
CN108021914B (zh) * 2017-12-27 2020-07-28 清华大学 基于卷积神经网络的印刷品字符区域提取方法
CN108021914A (zh) * 2017-12-27 2018-05-11 清华大学 基于卷积神经网络的印刷品字符区域提取方法
CN110119736A (zh) * 2018-02-07 2019-08-13 浙江宇视科技有限公司 车牌位置识别方法、装置及电子设备
CN110119736B (zh) * 2018-02-07 2021-12-28 浙江宇视科技有限公司 车牌位置识别方法、装置及电子设备
CN108334881A (zh) * 2018-03-12 2018-07-27 南京云创大数据科技股份有限公司 一种基于深度学习的车牌识别方法
CN108334881B (zh) * 2018-03-12 2022-04-29 南京云创大数据科技股份有限公司 一种基于深度学习的车牌识别方法
CN108830130A (zh) * 2018-03-30 2018-11-16 徐国明 一种偏振高光谱低空侦察图像典型目标检测方法
CN108509934B (zh) * 2018-04-12 2021-12-21 南京烽火天地通信科技有限公司 一种基于深度学习的维文图片识别方法
CN108509934A (zh) * 2018-04-12 2018-09-07 南京烽火天地通信科技有限公司 一种基于深度学习的维文图片识别方法
CN108805160A (zh) * 2018-04-17 2018-11-13 平安科技(深圳)有限公司 迁移学习方法、装置、计算机设备和存储介质
CN108764235B (zh) * 2018-05-23 2021-06-29 中国民用航空总局第二研究所 目标检测方法、设备及介质
CN108764235A (zh) * 2018-05-23 2018-11-06 中国民用航空总局第二研究所 神经网络模型、目标检测方法、设备及介质
CN108830271A (zh) * 2018-06-13 2018-11-16 深圳市云识科技有限公司 一种基于卷积神经网络的数显仪表读数识别方法
CN108846379A (zh) * 2018-07-03 2018-11-20 南京览笛信息科技有限公司 面单识别方法、系统、终端设备及存储介质
CN110717366A (zh) * 2018-07-13 2020-01-21 杭州海康威视数字技术股份有限公司 文本信息的识别方法、装置、设备及存储介质
CN110766152A (zh) * 2018-07-27 2020-02-07 富士通株式会社 用于训练深度神经网络的方法和装置
CN110766152B (zh) * 2018-07-27 2023-08-04 富士通株式会社 用于训练深度神经网络的方法和装置
CN109325494A (zh) * 2018-08-27 2019-02-12 腾讯科技(深圳)有限公司 图片处理方法、任务数据处理方法和装置
US12079662B2 (en) 2018-08-27 2024-09-03 Tencent Technology (Shenzhen) Company Limited Picture processing method, and task data processing method and apparatus
CN110163211B (zh) * 2018-09-06 2023-02-28 腾讯科技(深圳)有限公司 一种图像识别方法、装置和存储介质
CN110163211A (zh) * 2018-09-06 2019-08-23 腾讯科技(深圳)有限公司 一种图像识别方法、装置和存储介质
CN109325438A (zh) * 2018-09-18 2019-02-12 桂林电子科技大学 实况全景交通标志的实时识别方法
CN109325438B (zh) * 2018-09-18 2021-06-15 桂林电子科技大学 实况全景交通标志的实时识别方法
CN110942057A (zh) * 2018-09-25 2020-03-31 杭州海康威视数字技术股份有限公司 一种集装箱箱号识别方法、装置和计算机设备
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109447078B (zh) * 2018-10-23 2020-11-06 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109447169B (zh) * 2018-11-02 2020-10-27 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN109447169A (zh) * 2018-11-02 2019-03-08 北京旷视科技有限公司 图像处理方法及其模型的训练方法、装置和电子系统
CN109635835A (zh) * 2018-11-08 2019-04-16 深圳蓝韵医学影像有限公司 一种基于深度学习与迁移学习的乳腺病变区域检测方法
CN111353511B (zh) * 2018-12-20 2024-03-08 富士通株式会社 号码识别装置及方法
CN111353511A (zh) * 2018-12-20 2020-06-30 富士通株式会社 号码识别装置及方法
CN109829453A (zh) * 2018-12-29 2019-05-31 天津车之家数据信息技术有限公司 一种卡证中文字的识别方法、装置以及计算设备
CN109948469A (zh) * 2019-03-01 2019-06-28 吉林大学 基于深度学习的巡检机器人仪表自动检测识别方法
CN109948696A (zh) * 2019-03-19 2019-06-28 上海七牛信息技术有限公司 一种多语言场景字符识别方法及系统
CN111797880A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 数据处理方法、装置、存储介质及电子设备
CN110070124A (zh) * 2019-04-15 2019-07-30 广州小鹏汽车科技有限公司 一种基于生成式对抗网络的图像扩增方法及系统
CN110097018A (zh) * 2019-05-08 2019-08-06 深圳供电局有限公司 变电站仪表检测方法、装置、计算机设备和存储介质
CN110443241A (zh) * 2019-07-29 2019-11-12 北京迈格威科技有限公司 车牌识别模型训练方法、车牌识别方法及装置
CN110766002B (zh) * 2019-10-08 2022-03-22 浙江大学 一种基于深度学习的船名字符区域检测方法
CN110766002A (zh) * 2019-10-08 2020-02-07 浙江大学 一种基于深度学习的船名字符区域检测方法
CN110807456A (zh) * 2019-10-11 2020-02-18 上海上湖信息技术有限公司 一种银行卡卡号的定位方法及装置
CN110941995A (zh) * 2019-11-01 2020-03-31 中山大学 基于轻量级网络的实时目标检测与语义分割的多任务学习方法
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN111027443A (zh) * 2019-12-04 2020-04-17 华南理工大学 一种基于多任务深度学习的票据文本检测方法
CN111027443B (zh) * 2019-12-04 2023-04-07 华南理工大学 一种基于多任务深度学习的票据文本检测方法
CN111199194A (zh) * 2019-12-25 2020-05-26 吉林大学 基于机器视觉和深度学习的汽车智能座舱仪表测试方法
CN111368632A (zh) * 2019-12-27 2020-07-03 上海眼控科技股份有限公司 一种签名识别方法及设备
CN111191611A (zh) * 2019-12-31 2020-05-22 同济大学 基于深度学习的交通标志标号识别方法
CN111191611B (zh) * 2019-12-31 2023-10-13 同济大学 基于深度学习的交通标志标号识别方法
CN111310831A (zh) * 2020-02-19 2020-06-19 中国科学院光电技术研究所 一种基于深度学习的小目标检测网络逐层训练方法
CN111259908A (zh) * 2020-03-24 2020-06-09 中冶赛迪重庆信息技术有限公司 基于机器视觉的钢卷号识别方法、系统、设备及存储介质
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN112364726B (zh) * 2020-10-27 2024-06-04 重庆大学 基于改进east的零件喷码字符定位的方法
CN112364726A (zh) * 2020-10-27 2021-02-12 重庆大学 基于改进east的零件喷码字符定位的方法
CN112613348A (zh) * 2020-12-01 2021-04-06 浙江华睿科技有限公司 一种字符识别方法及电子设备
CN112651353B (zh) * 2020-12-30 2024-04-16 南京红松信息技术有限公司 一种基于自定义标签的目标口算的定位识别方法
CN113392814A (zh) * 2021-08-16 2021-09-14 冠传网络科技(南京)有限公司 一种字符识别模型的更新方法、装置及存储介质
CN113392814B (zh) * 2021-08-16 2021-11-02 冠传网络科技(南京)有限公司 一种字符识别模型的更新方法、装置及存储介质
CN113887428A (zh) * 2021-09-30 2022-01-04 西安工业大学 一种基于上下文信息的深度学习成对模型人耳检测方法
CN114331786B (zh) * 2021-12-29 2024-08-09 福建工程学院 基于物联网的社区管理方法及系统
CN114331786A (zh) * 2021-12-29 2022-04-12 福建工程学院 基于物联网的社区管理方法及系统
CN117912037A (zh) * 2024-03-20 2024-04-19 杭州汇萃智能科技有限公司 一种ocr模型后处理方法、系统及存储介质
CN117912037B (zh) * 2024-03-20 2024-07-05 杭州汇萃智能科技有限公司 一种ocr模型后处理方法、系统及存储介质

Also Published As

Publication number Publication date
CN107133616B (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN107133616A (zh) 一种基于深度学习的无分割字符定位与识别方法
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN108038474A (zh) 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN103942577B (zh) 视频监控中基于自建立样本库及混合特征的身份识别方法
CN105956532B (zh) 一种基于多尺度卷积神经网络的交通场景分类方法
CN104143079B (zh) 人脸属性识别的方法和系统
CN106778835A (zh) 融合场景信息和深度特征的遥感图像机场目标识别方法
CN106709568A (zh) 基于深层卷积网络的rgb‑d图像的物体检测和语义分割方法
CN107169974A (zh) 一种基于多监督全卷积神经网络的图像分割方法
CN107679531A (zh) 基于深度学习的车牌识别方法、装置、设备及存储介质
CN109344825A (zh) 一种基于卷积神经网络的车牌识别方法
CN106682569A (zh) 一种基于卷积神经网络的快速交通标识牌识别方法
CN108647625A (zh) 一种表情识别方法及装置
CN107016409A (zh) 一种基于图像显著区域的图像分类方法和系统
CN107657233A (zh) 基于改进型单次多目标检测器的静态手语实时识别方法
CN111160249A (zh) 基于跨尺度特征融合的光学遥感图像多类目标检测方法
WO2019080203A1 (zh) 一种机器人的手势识别方法、系统及机器人
CN105825502B (zh) 一种基于显著性指导的词典学习的弱监督图像解析方法
CN107945153A (zh) 一种基于深度学习的路面裂缝检测方法
CN106780466A (zh) 一种基于卷积神经网络的宫颈细胞图像识别方法
CN107168527A (zh) 基于区域卷积神经网络的第一视角手势识别与交互方法
CN108109160A (zh) 一种基于深度学习的免交互式GrabCut舌体分割方法
CN105574550A (zh) 一种车辆识别方法及装置
CN108830199A (zh) 识别交通灯信号的方法、装置、可读介质及电子设备
CN106611423B (zh) 基于脊波滤波器和反卷积结构模型的sar图像分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant