CN111582275A - 一种序列号识别方法及装置 - Google Patents

一种序列号识别方法及装置 Download PDF

Info

Publication number
CN111582275A
CN111582275A CN202010397664.1A CN202010397664A CN111582275A CN 111582275 A CN111582275 A CN 111582275A CN 202010397664 A CN202010397664 A CN 202010397664A CN 111582275 A CN111582275 A CN 111582275A
Authority
CN
China
Prior art keywords
preset
neural network
serial number
training
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010397664.1A
Other languages
English (en)
Other versions
CN111582275B (zh
Inventor
蔡念
李飞洋
邓学良
李嘉豪
王晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202010397664.1A priority Critical patent/CN111582275B/zh
Publication of CN111582275A publication Critical patent/CN111582275A/zh
Application granted granted Critical
Publication of CN111582275B publication Critical patent/CN111582275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种序列号识别方法及装置,方法包括:采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像;将重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图;获取概率图向量化、降序排列后的前k个概率值和对应的k个候选文本框;通过非极大值抑制法在k个候选文本框中选择最大概率值对应的最佳文本框,以最佳文本框提取出的文本区域作为待识别文本图;将待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果。本申请解决了现有技术未能融合三维形状信息,且在分布式处理方案中会雷击误差,导致序列号识别性能低下的技术问题。

Description

一种序列号识别方法及装置
技术领域
本申请涉及图像识别技术领域,尤其涉及一种序列号识别方法及装置。
背景技术
传统的用于工业印刷字符识别的方法不能直接应用于识别陶瓷膜序列号,因为这些序列号是被雕刻在陶瓷膜的圆柱表面上的,字符和背景表面之间没有色差,但是会出现高度差异,这导致序列号表现出三维形状。因此,与印刷字符不同,陶瓷膜序列号图像仅能通过利用字符与背景表面之间的反射率差异来获取;受照明条件和反射特性的限制,所获取的二维图像对比度低、信噪比低且光照不均匀。因此,并非任何识别技术都能够适用于陶瓷膜序列号的识别。
现有的工业字符识别方案都是基于分步处理的。例如,传统的基于图像处理的方法涉及图像预处理,字符定位,字符分割和字符识别等步骤。基于深度学习的方法主要包括用于文本检测的检测网络和用于文本识别的识别网络,两者是分别独立训练的。现有的识别技术不仅不能融合陶瓷膜序列号图像的三维形状信息,还会在分步处理的方案中逐步累积误差,从而导致陶瓷膜序列号识别性能低下。
发明内容
本申请提供了一种序列号识别方法及装置,用于解决现有陶瓷膜序列号识别技术未能融合三维形状信息,且在分布式处理方案中会雷击误差,导致序列号识别性能低下的技术问题。
有鉴于此,本申请第一方面提供了一种序列号识别方法,包括:
采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,所述第一预置神经网络包括第一预置损失函数;
将所述重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,所述第二预置神经网络包括第二预置损失函数,所述候选文本框图包括多个候选文本框,所述概率图包括像素位于文本区域的概率值,一个所述概率值对应一个所述候选文本框;
获取所述概率图向量化、降序排列后的前k个所述概率值和对应的k个所述候选文本框;
通过非极大值抑制法在k个所述候选文本框中选择最大概率值对应的最佳文本框,以所述最佳文本框提取出的文本区域作为待识别文本图;
将所述待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,所述第三预置神经网络包括第三预置损失函数,总损失函数包括所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数。
优选地,所述采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,包括:
采用预置光度立体重建公式根据所述预置多个序列号图像进行三维形状信息重建,得到真实重建图像,所述预置光度立体重建公式为:
Figure BDA0002488264470000021
其中yrs为所述真实重构图像,N为图像中物体表面单位法向量,divN为计算所述图像中物体表面单位法向量的散度;
将所述真实重建图像通过所述第一预置神经网络进行训练处理,得到初始重建图像;
利用预置加权公式根据所述初始重建图像和所述预置多个序列号图像进行加权计算,得到所述重建图像,所述预置加权公式为:
Xdt=(1-α)X+αYrs
其中,α为融合因子,且满足0≤α≤1,Xdt为所述重建图像,X为所述多个序列号图像拼接的第一三维矩阵,所述Yrs为重复拼接所述初始重建图像得到的第二三维矩阵,所述第一三维矩阵与所述第二三维矩阵拼接的图像数量一致。
优选地,所述将所述重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,之前还包括:
获取预置训练图像集,所述预置训练图像数据集包括训练概率图和训练候选文本框图;
用所述预置训练图像集训练预置提取神经网络,得到所述第二预置神经网络。
优选地,所述候选文本框图包括四个通道,每个通道对应所述候选文本框的一个顶点。
优选地,所述总损失函数为:
Ltotal=λ1Lrs2Ldt3Lrg
其中,Lrs、Ldt、Lrg分别为所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数,λ1、λ2、λ3为权衡因子。
本申请第二方面提供了一种序列号识别装置,包括:
重建模块,用于采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,所述第一预置神经网络包括第一预置损失函数;
边框提取模块,用于将所述重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,所述第二预置神经网络包括第二预置损失函数,所述候选文本框图包括多个候选文本框,所述概率图包括像素位于文本区域的概率值,一个所述概率值对应一个所述候选文本框;
获取模块,用于获取所述概率图向量化、降序排列后的前k个所述概率值和对应的k个所述候选文本框;
选择模块,用于通过非极大值抑制法在k个所述候选文本框中选择最大概率值对应的最佳文本框,以所述最佳文本框提取出的文本区域作为待识别文本图;
识别模块,用于将所述待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,所述第三预置神经网络包括第三预置损失函数,总损失函数包括所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数。
优选地,所述重建模块,包括:
光度立体法子模块,用于采用预置光度立体重建公式根据所述预置多个序列号图像进行三维形状信息重建,得到真实重建图像,所述预置光度立体重建公式为:
Figure BDA0002488264470000041
其中yrs为所述真实重构图像,N为图像中物体表面单位法向量,divN为计算所述图像中物体表面单位法向量的散度;
网络训练子模块,用于将所述真实重建图像通过所述第一预置神经网络进行训练处理,得到初始重建图像;
加权计算模子模块,用于利用预置加权公式根据所述初始重建图像和所述预置多个序列号图像进行加权计算,得到所述重建图像,所述预置加权公式为:
Xdt=(1-α)X+αYrs
其中,α为融合因子,且满足0≤α≤1,Xdt为所述重建图像,X为所述多个序列号图像拼接的第一三维矩阵,所述Yrs为重复拼接所述初始重建图像得到的第二三维矩阵,所述第一三维矩阵与所述第二三维矩阵拼接的图像数量一致。
优选地,还包括:
预训练模块,用于获取预置训练图像集,所述预置训练图像数据集包括训练概率图和训练候选文本框图;
用所述预置训练图像集训练预置提取神经网络,得到所述第二预置神经网络。
优选地,所述候选文本框图包括四个通道,每个通道对应所述候选文本框的一个顶点。
优选地,所述总损失函数为:
Ltotal=λ1Lrs2Ldt3Lrg
其中,Lrs、Ldt、Lrg分别为所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数,λ1、λ2、λ3为权衡因子。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种序列号识别方法,包括:采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,第一预置神经网络包括第一预置损失函数;将重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,第二预置神经网络包括第二预置损失函数,候选文本框图包括多个候选文本框,概率图包括像素位于文本区域的概率值,一个概率值对应一个候选文本框;获取概率图向量化、降序排列后的前k个概率值和对应的k个候选文本框;通过非极大值抑制法在k个候选文本框中选择最大概率值对应的最佳文本框,以最佳文本框提取出的文本区域作为待识别文本图;将待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,第三预置神经网络包括第三预置损失函数,总损失函数包括第一预置损失函数、第二预置损失函数和第三预置损失函数。
本申请提供的序列号识别方法,鉴于陶瓷膜序列号图像是利用字符与背景表面之间的反射率差异的原理获取的,说明其三维信息在识别过程中发挥重要作用,按照普通的图像识别方法,势必会忽略三维形状信息,而神经网络模型的图像处理能力较强,本申请则采用光度立体重建法结合神经网络中的卷积对多个序列号图像进行重建处理,得到包含三维形状信息的重建图像,有助于提升序列号的识别精度;对于序列号的定位,采用神经网络获取重建图像的候选文本框图和概率图,以概率的形式评估较优的文本框,然后通过非极大值抑制法从较优的文本框中再次选择,得到最佳文本框,层层选择就是为了提高序列号定位的准确性,增强算法的鲁棒性;最后将定位的图像输入识别神经网络中进行识别,得到精确的识别结果;需要注意的是,本申请中虽然用了三次神经网络,但是各自并非独立,最终是需要通过总损失函数进行训练,也就是说,是将序列号识别的三个不同的阶段联合训练,同时优化,使得三个部分的误差得到权衡,不将某阶段误差累积至下一个处理阶段。因此,本申请能够解决现有陶瓷膜序列号识别技术未能融合三维形状信息,且在分布式处理方案中会雷击误差,导致序列号识别性能低下的技术问题。
附图说明
图1为本申请实施例提供的一种序列号识别方法的一个流程示意图;
图2为本申请实施例提供的一种序列号识别方法的另一个流程示意图;
图3为本申请实施例提供的一种序列号识别装置的一个结构示意图;
图4为本申请实施例提供的一种序列号识别方法的框架示意图;
图5为本申请实施例提供的真实重建图像与序列号图像对比示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种序列号识别方法的实施例一,包括:
步骤101、采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,第一预置神经网络包括第一预置损失函数。
需要说明的是,预置多个序列号图像均为二维图像,并且这些二维图像是在不同的照明条件下的同一个陶瓷膜序列号的图像,根据实际的操作而言,这样的二维图像越多,得到的重建图像效果越好,但是同时,数据量的增加也会伴随着计算量的增加,所以需要根据实际情况选择序列号图像的数据量;之所以在使用光度立体重建法得到初始的重建图像后,还需要神经网络进行训练,是因为得到的重建图像需要通过神经网络逼近重建效果,且并非直接将得到的结果作为重建图,而是需要进行加权计算,具体的权衡点可以根据实际的情况设定,例如,直接将神经网络处理得到的图像作为重建图像,会缺失一部分原始细节信息,那么可以在神经网络后的图像和原始图像之间权衡,诸如此类的,总之进行加权计算主要是为了加强重建图像的表达性,增加图像中的有用信息。重建图像是一个三维图像,包含了三维立体形状信息,能够准确反映陶瓷膜序列号的特征。
步骤102、将重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,第二预置神经网络包括第二预置损失函数,候选文本框图包括多个候选文本框,概率图包括像素位于文本区域的概率值,一个概率值对应一个候选文本框。
需要说明的是,第二预置神经网络是其实就是一个边界框提取器,但是本实施例中的第二预置神经网络与普通的特征提取器有所不同,现有的特征提取器的输出通常为单一的特征图,本实施例的输出却是候选文本框图和概率图,候选文本框图是边界框,但是概率图确实表征概率大小的图,同时输出提取序列号重建图像的序列号区域边界,这里的概率图表达是高维空间图中的像素位于文本区域的概率大小,且一个概率值对应一个候选文本框;也就是候选文本框图中包括的候选文本框的数量根据实际的输入图像的像素量决定,高维空间图像的每一个像素点对应一个候选文本框,对应一个概率值。
步骤103、获取概率图向量化、降序排列后的前k个概率值和对应的k个候选文本框。
需要说明的是,概率图为二维图像,其中的单个值为像素在文本区域的概率值,将二维的概率图拉伸为向量,将所有的概率值作降序排列,取前面k个较大的概率值,也就是像素点位于文本区域可能性较大的区域,将这些概率值对应的k个候选文本框保留,与k个概率值一起作为后续获取最佳文本框的基础。
步骤104、通过非极大值抑制法在k个候选文本框中选择最大概率值对应的最佳文本框,以最佳文本框提取出的文本区域作为待识别文本图。
需要说明的是,非极大值抑制法就是抑制不是极大值的元素,可以理解为局部最大搜索;这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。本实施例中根据选择出来的k个候选文本框计算其对应的最大概率值,将此值对应的文本框挑选出来,用于提取文本区域,形成待识别文本图。
步骤105、将待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,第三预置神经网络包括第三预置损失函数,总损失函数包括第一预置损失函数、第二预置损失函数和第三预置损失函数。
需要说明的是,第三预置神经网络是识别网络,与以上的第一预置神经网路和第二预置神经网络共同构成本实施例中的序列号识别系统,序列号识别系统也主要包括三个部分:重建、定位和识别;最后得到的识别结果是序列号图像,本实施例的网络训练是联合训练过程,通过总损失函数进行网络模型的训练,同步进行优化,使得三个割裂分离的操作部分在损失函数上存在牵制、权衡,从而达到同步优化的目的;这样就不会因为割裂的操作积累误差,使得识别结果不够精确,识别性能欠佳。
本实施例提供的序列号识别方法,鉴于陶瓷膜序列号图像是利用字符与背景表面之间的反射率差异的原理获取的,说明其三维信息在识别过程中发挥重要作用,按照普通的图像识别方法,势必会忽略三维形状信息,而神经网络模型的图像处理能力较强,本实施例则采用光度立体重建法结合神经网络中的卷积对多个序列号图像进行重建处理,得到包含三维形状信息的重建图像,有助于提升序列号的识别精度;对于序列号的定位,采用神经网络获取重建图像的候选文本框图和概率图,以概率的形式评估较优的文本框,然后通过非极大值抑制法从较优的文本框中再次选择,得到最佳文本框,层层选择就是为了提高序列号定位的准确性,增强算法的鲁棒性;最后将定位的图像输入识别神经网络中进行识别,得到精确的识别结果;需要注意的是,本实施例中虽然用了三次神经网络,但是各自并非独立,最终是需要通过总损失函数进行训练,也就是说,是将序列号识别的三个不同的阶段联合训练,同时优化,使得三个部分的误差得到权衡,不将某阶段误差累积至下一个处理阶段。因此,本实施例能够解决现有陶瓷膜序列号识别技术未能融合三维形状信息,且在分布式处理方案中会雷击误差,导致序列号识别性能低下的技术问题。
为了便于理解,请参阅图2和图4,本申请实施例中提供了一种序列号识别方法的实施例二,包括:
步骤201、采用预置光度立体重建公式根据预置多个序列号图像进行三维形状信息重建,得到真实重建图像。
需要说明的是,设定预置多个序列号图像数量为4,即在4个不同光源方向下得到的图像,联立4个二维图像可以用X=(X1,X2,X3,X4)表示,令四个图像的光源方向表示为L=(L1,L2,L3,L4)
Figure BDA0002488264470000081
图像中物体表面单位法向量表示为N=(Nx,Ny,Nz)T,根据Lambertian反射模型,图像和光源之间的关系可以表示为:
Figure BDA0002488264470000091
其中
Figure BDA0002488264470000092
ρ取决于图像中物体表面特性的表面反射率,由于L不是平方矩阵,因此利用伪逆求解
Figure BDA0002488264470000093
得:
Figure BDA0002488264470000094
然后,可以通过对上式进行归一化,获取图像中物体表面单位法向量:
Figure BDA0002488264470000095
图像中物体表面单位法向量可以反映图像中像素的梯度信息,根据解析几何数学模型,物体表面单位法向量表示为:
Figure BDA0002488264470000096
其中,
Figure BDA0002488264470000097
最后可以通过求解图像中物体表面单位法向量的散度,并将散度缩放至灰度空间[0,255]获取真实重建图像即可:
Figure BDA0002488264470000098
Figure BDA0002488264470000099
其中yrs为真实重构图像,N为图像中物体表面单位法向量,divN为计算图像中物体表面单位法向量的散度,最后得到的真实重建图像如图5所示,其中,(a)、(b)、(c)、(d)即为获取的四个二维序列号图像,(e)为真实重建图像。
步骤202、将真实重建图像通过第一预置神经网络进行训练处理,得到初始重建图像。
需要说明的是,第一预置神经网络的结构包括编码器中的四个3×3卷积层和四个2×2最大池化层,每个卷积层后连接最大池化层;解码器中的四个2×2上采样层、四个1×1卷积层和四个3×3卷积层,编码器和解码器中相同大小特征图通过concat对应连接,进行多尺度特征融合使得真实重建图像更加逼近重建效果。
步骤203、利用预置加权公式根据初始重建图像和预置多个序列号图像进行加权计算,得到重建图像。
需要说明的是,由于重建阶段可能会导致图像中的细节信息的丢失,所以需要对网络训练后的重建图像进行一定补偿,即采用加权求和的方式处理初始重建图像,通过原始的二维序列号图像补偿初始重建图像中丢失的细节信息,具体的预置加权公式为:
Xdt=(1-α)X+αYrs
其中,α为融合因子,且满足0≤α≤1,Xdt为重建图像,X为多个序列号图像拼接的第一三维矩阵,在本实施例中序列号图像数量为4,即X=(X1,X2,X3,X4),Yrs为重复拼接初始重建图像得到的第二三维矩阵,第一三维矩阵与第二三维矩阵拼接的图像数量一致,即
Figure BDA0002488264470000101
其中的
Figure BDA0002488264470000102
为二维的初始重建图像。通常情况下α=0.8。
步骤204、获取预置训练图像集,预置训练图像数据集包括训练概率图和训练候选文本框图。
需要说明的是,预置训练图像集是根据定位图像的需求获取的,同样包括训练候选文本框图和与之对应的训练概率图,预置训练图像集的数据量尽可能大一点比较好,更有利于第二预置神经网络的训练。候选文本框图中包括多个候选文本框,通过手动标注文本框区域(xmin,ymin,xmax,ymax),其中(xmin,ymin)和(xmax,ymax)分别是矩形的候选文本框边界的左上点和右下点,因此,可以获取训练概率图为:
Figure BDA0002488264470000103
其中概率图中值为1时表示像素位于文本区域,否则位于文本区域外;为了将真实标注信息编码到候选文本框图的每个像素中,候选文本框图定义为:
Figure BDA0002488264470000104
其中,hps和wps分别表示候选文本框的高度和宽度,c表示本实施例中神经网络给定的四个候选文本框图的通道,概率图另外占用一个通道。候选文本框图对应的四个通道分别表示文本区域中像素(i,j)到真实文本标记框的左边界、上边界、右边界和下边界对应的归一化距离。
步骤205、用预置训练图像集训练预置提取神经网络,得到第二预置神经网络。
需要说明的是,根据上述的预置训练图像集训练预置提取神经网络,在数据量满足一定条件的情况下,可以得到性能较好的第二预置神经网络,以ResNet-50为基底网络的编码器,一个解码器以及一个top-k候选层(top k proposal)和一个最佳候选层(optimalproposal)。
步骤206、将重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,第二预置神经网络包括第二预置损失函数,候选文本框图包括多个候选文本框,概率图包括像素位于文本区域的概率值,一个概率值对应一个候选文本框。
需要说明的是,候选文本框图包括四个通道,每个通道对应候选文本框的一个顶点。重建图像输入第二预置神经网络中,训练后可以得到五个通道的候选文本框图,即上述的top-k候选层,四个通道分别对应矩形文本框的四个顶点;每个像素对应一个候选文本框,因此,有多少像素,就对应得到多少个预测的候选文本框,并分布于四个通道组成的候选文本框中。
步骤207、获取概率图向量化、降序排列后的前k个概率值和对应的k个候选文本框。
需要说明的是,将概率图向量化后可以得到一个列向量或者行向量,将向量中的元素进行由大到小的排序,可以获取前面k个概率值,即像素位于文本区域的可能性最大的值,这些概率值均有对应的候选文本框,这些文本框才是序列号图像中可能存在序列号的位置。实际案例中的k值一般设置为50,具体的可以根据不同的情况设定。
步骤208、通过非极大值抑制法在k个候选文本框中选择最大概率值对应的最佳文本框,以最佳文本框提取出的文本区域作为待识别文本图。
需要说明的是,非极大值抑制法就是抑制不是极大值的元素,可以理解为局部最大搜索;这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。本实施例中就是根据选择出来的k个候选文本框,计算局部最大概率值,将此值对应的文本框挑选出来,用于提取文本区域,形成待识别文本图。
步骤209、将待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,第三预置神经网络包括第三预置损失函数,总损失函数包括第一预置损失函数、第二预置损失函数和第三预置损失函数。
需要说明的是,主要包括改进的VGG16网络和BLSTM网络层,待识别文本图在输入至第三预置神经网络前会自动调整大小为32×512,由于陶瓷膜序列号超过20个字符,因此,VGG16输出的特征图的宽度必须不小于序列号的长度,否则无法预测或者识别出足够的字符,因此,VGG16的改进之处在于将最后两个池化层中采用了2×2最大池化层。
需要说明的是,本实施例中虽然存在第一预置神经网络、第二预置神经网络和第三预置神经网络,看似也是独立进行图像重建、文本定位和文本识别,但是其实本实施例中的所有的神经网络均是统一训练的,通过总损失函数将三个预置神经网络的损失函数统一起来,进行联立,从而实现三个部分的同时训练,使得每个部分的误差值均对最终的训练结果产生影响,通过不同的权衡因子权衡各个损失函数对总损失函数的影响,请参阅图4。总损失函数为:
Ltotal=λ1Lrs2Ldt3Lrg
其中,Lrs、Ldt、Lrg分别为第一预置损失函数、第二预置损失函数和第三预置损失函数,λ1、λ2、λ3为权衡因子。具体的各个部分的损失函数如下:
首先,重建阶段的第一预置损失函数为:
Figure BDA0002488264470000121
其中,win和hin分别是输入真实重建图像的宽度和高度,yrs
Figure BDA0002488264470000122
分别是真实重建图像和初级重建图像。
其次,定位阶段通过估计的候选文本框图和概率图预测文本边界,因此,第二预置损失函数包括概率图对应的损失函数和候选文本框图对应的损失函数,概率图对应的损失函数为:
Figure BDA0002488264470000131
其中,ypb(vec)
Figure BDA0002488264470000132
分别是列向量化的ypb
Figure BDA0002488264470000133
ypb
Figure BDA0002488264470000134
分别表示真实概率图和估计概率图;
候选文本框图对应的损失函数为:
Figure BDA0002488264470000135
这部分采用的是IoU损失函数,其中,
Figure BDA0002488264470000136
Figure BDA0002488264470000137
分别是估计边界框和真实标记框之间的交集区域和并集区域,那么通过以上可以得到定位阶段的第二预置损失函数为:
Figure BDA0002488264470000138
其中,ydt
Figure BDA0002488264470000139
分别是真实输出图和估计的输出图,这里的输出图就是有概率图和文本候选框图沿着通道拼接而成。
最后,识别部分的第三预置损失函数,采用的是CTC损失函数,它可以将识别阶段输出的估计序列转换为标记序列上的条件概率分布,令y={y1,y2,…,yn}表示估计序列,其中n是序列长度,令l表示真实标记序列,计算条件概率p(l|y),由于估计的序列和真实序列的长度可能不相等,因此,CTC损失函数通过在真实序列中插入一些重复字符和空白符号来形成一系列可能的序列解决此问题,这些序列构成集合Φ,每个序列π的概率定义为:
Figure BDA00024882644700001310
其中,
Figure BDA00024882644700001311
是第i个特征向量的字符标签πi的概率,而πi属于所有字符(包括空白字符)构成集合C。由于多个序列是从相同的真实序列派生的,因此定义了多对一的映射:M:Φ→Ψ,将序列解码为原始真实序列,其中,Ψ是地面实况序列的集合,因此,在给定估计序列y的情况下,真实序列l的条件概率可以表示为:
Figure BDA00024882644700001312
条件概率的负对数似然率即为CTC损失函数,即:
Figure BDA00024882644700001313
根据得到的CTC损失函数表示第三预置损失函数,最终将三个预置损失函数进行联立,得到总损失函数,通过总损失函数进行统一训练,得到结果。
为了便于理解,请参阅图3,本申请中还提供了一种序列号识别装置的实施例,包括:
重建模块301,用于采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,第一预置神经网络包括第一预置损失函数;
边框提取模块302,用于将重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,第二预置神经网络包括第二预置损失函数,候选文本框图包括多个候选文本框,概率图包括像素位于文本区域的概率值,一个概率值对应一个候选文本框;
获取模块303,用于获取概率图向量化、降序排列后的前k个概率值和对应的k个候选文本框;
选择模块304,用于通过非极大值抑制法在k个候选文本框中选择最大概率值对应的最佳文本框,以最佳文本框提取出的文本区域作为待识别文本图;
识别模块305,用于将待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,第三预置神经网络包括第三预置损失函数,总损失函数包括第一预置损失函数、第二预置损失函数和第三预置损失函数。
进一步地,重建模块301,包括:
光度立体法子模块3011,用于采用预置光度立体重建公式根据预置多个序列号图像进行三维形状信息重建,得到真实重建图像,预置光度立体重建公式为:
Figure BDA0002488264470000141
其中yrs为真实重构图像,N为图像中物体表面单位法向量,divN为计算图像中物体表面单位法向量的散度;
网络训练子模块3012,用于将真实重建图像通过第一预置神经网络进行训练处理,得到初始重建图像;
加权计算模子模块3013,用于利用预置加权公式根据初始重建图像和预置多个序列号图像进行加权计算,得到重建图像,预置加权公式为:
Xdt=(1-α)X+αYrs
其中,α为融合因子,且满足0≤α≤1,Xdt为重建图像,X为多个序列号图像拼接的第一三维矩阵,Yrs为重复拼接初始重建图像得到的第二三维矩阵,第一三维矩阵与第二三维矩阵拼接的图像数量一致。
进一步地,还包括:
预训练模块306,用于获取预置训练图像集,预置训练图像数据集包括训练概率图和训练候选文本框图;
用预置训练图像集训练预置提取神经网络,得到第二预置神经网络。
进一步地,候选文本框图包括四个通道,每个通道对应候选文本框的一个顶点。
进一步地,总损失函数为:
Ltotal=λ1Lrs2Ldt3Lrg
其中,Lrs、Ldt、Lrg分别为第一预置损失函数、第二预置损失函数和第三预置损失函数,λ1、λ2、λ3为权衡因子。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种序列号识别方法,其特征在于,包括:
采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,所述第一预置神经网络包括第一预置损失函数;
将所述重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,所述第二预置神经网络包括第二预置损失函数,所述候选文本框图包括多个候选文本框,所述概率图包括像素位于文本区域的概率值,一个所述概率值对应一个所述候选文本框;
获取所述概率图向量化、降序排列后的前k个所述概率值和对应的k个所述候选文本框;
通过非极大值抑制法在k个所述候选文本框中选择最大概率值对应的最佳文本框,以所述最佳文本框提取出的文本区域作为待识别文本图;
将所述待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,所述第三预置神经网络包括第三预置损失函数,总损失函数包括所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数。
2.根据权利要求1所述的序列号识别方法,其特征在于,所述采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,包括:
采用预置光度立体重建公式根据所述预置多个序列号图像进行三维形状信息重建,得到真实重建图像,所述预置光度立体重建公式为:
Figure FDA0002488264460000011
其中yrs为所述真实重构图像,N为图像中物体表面单位法向量,divN为计算所述图像中物体表面单位法向量的散度;
将所述真实重建图像通过所述第一预置神经网络进行训练处理,得到初始重建图像;
利用预置加权公式根据所述初始重建图像和所述预置多个序列号图像进行加权计算,得到所述重建图像,所述预置加权公式为:
Xdt=(1-α)X+αYrs
其中,α为融合因子,且满足0≤α≤1,Xdt为所述重建图像,X为所述多个序列号图像拼接的第一三维矩阵,所述Yrs为重复拼接所述初始重建图像得到的第二三维矩阵,所述第一三维矩阵与所述第二三维矩阵拼接的图像数量一致。
3.根据权利要求1所述的序列号识别方法,其特征在于,所述将所述重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,之前还包括:
获取预置训练图像集,所述预置训练图像数据集包括训练概率图和训练候选文本框图;
用所述预置训练图像集训练预置提取神经网络,得到所述第二预置神经网络。
4.根据权利要求1所述的序列号识别方法,其特征在于,所述候选文本框图包括四个通道,每个通道对应所述候选文本框的一个顶点。
5.根据权利要求1所述的序列号识别方法,其特征在于,所述总损失函数为:
Ltotal=λ1Lrs2Ldt3Lrg
其中,Lrs、Ldt、Lrg分别为所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数,λ1、λ2、λ3为权衡因子。
6.一种序列号识别装置,其特征在于,包括:
重建模块,用于采用光度立体重建法根据预置多个序列号图像进行三维形状信息重建,并通过第一预置神经网络进行训练处理,得到加权计算后的重建图像,所述第一预置神经网络包括第一预置损失函数;
边框提取模块,用于将所述重建图像通过第二预置神经网络进行边界框提取,得到候选文本框图和概率图,所述第二预置神经网络包括第二预置损失函数,所述候选文本框图包括多个候选文本框,所述概率图包括像素位于文本区域的概率值,一个所述概率值对应一个所述候选文本框;
获取模块,用于获取所述概率图向量化、降序排列后的前k个所述概率值和对应的k个所述候选文本框;
选择模块,用于通过非极大值抑制法在k个所述候选文本框中选择最大概率值对应的最佳文本框,以所述最佳文本框提取出的文本区域作为待识别文本图;
识别模块,用于将所述待识别文本图输入第三预置神经网络进行序列号识别操作,得到识别结果,所述第三预置神经网络包括第三预置损失函数,总损失函数包括所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数。
7.根据权利要求6所述的序列号识别装置,其特征在于,所述重建模块,包括:
光度立体法子模块,用于采用预置光度立体重建公式根据所述预置多个序列号图像进行三维形状信息重建,得到真实重建图像,所述预置光度立体重建公式为:
Figure FDA0002488264460000031
其中yrs为所述真实重构图像,N为图像中物体表面单位法向量,divN为计算所述图像中物体表面单位法向量的散度;
网络训练子模块,用于将所述真实重建图像通过所述第一预置神经网络进行训练处理,得到初始重建图像;
加权计算模子模块,用于利用预置加权公式根据所述初始重建图像和所述预置多个序列号图像进行加权计算,得到所述重建图像,所述预置加权公式为:
Xdt=(1-α)X+αYrs
其中,α为融合因子,且满足0≤α≤1,Xdt为所述重建图像,X为所述多个序列号图像拼接的第一三维矩阵,所述Yrs为重复拼接所述初始重建图像得到的第二三维矩阵,所述第一三维矩阵与所述第二三维矩阵拼接的图像数量一致。
8.根据权利要求6所述的序列号识别装置,其特征在于,还包括:
预训练模块,用于获取预置训练图像集,所述预置训练图像数据集包括训练概率图和训练候选文本框图;
用所述预置训练图像集训练预置提取神经网络,得到所述第二预置神经网络。
9.根据权利要求6所述的序列号识别装置,其特征在于,所述候选文本框图包括四个通道,每个通道对应所述候选文本框的一个顶点。
10.根据权利要求6所述的序列号识别装置,其特征在于,所述总损失函数为:
Ltotal=λ1Lrs2Ldt3Lrg
其中,Lrs、Ldt、Lrg分别为所述第一预置损失函数、所述第二预置损失函数和所述第三预置损失函数,λ1、λ2、λ3为权衡因子。
CN202010397664.1A 2020-05-12 2020-05-12 一种序列号识别方法及装置 Active CN111582275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010397664.1A CN111582275B (zh) 2020-05-12 2020-05-12 一种序列号识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010397664.1A CN111582275B (zh) 2020-05-12 2020-05-12 一种序列号识别方法及装置

Publications (2)

Publication Number Publication Date
CN111582275A true CN111582275A (zh) 2020-08-25
CN111582275B CN111582275B (zh) 2023-04-07

Family

ID=72124838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010397664.1A Active CN111582275B (zh) 2020-05-12 2020-05-12 一种序列号识别方法及装置

Country Status (1)

Country Link
CN (1) CN111582275B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975434A (zh) * 2024-04-01 2024-05-03 泉州装备制造研究所 一种基于光度立体的包装盒压印信息识别方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002044954A1 (fr) * 2000-12-01 2002-06-06 Mitsubishi Chemical Corporation Methode de construction de la structure tridimensionnelle d'une proteine
US20150324546A1 (en) * 2012-06-21 2015-11-12 Georgetown University Method for predicting drug-target interactions and uses for drug repositioning

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002044954A1 (fr) * 2000-12-01 2002-06-06 Mitsubishi Chemical Corporation Methode de construction de la structure tridimensionnelle d'une proteine
US20150324546A1 (en) * 2012-06-21 2015-11-12 Georgetown University Method for predicting drug-target interactions and uses for drug repositioning

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975434A (zh) * 2024-04-01 2024-05-03 泉州装备制造研究所 一种基于光度立体的包装盒压印信息识别方法及装置

Also Published As

Publication number Publication date
CN111582275B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110443842B (zh) 基于视角融合的深度图预测方法
Ji et al. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set
CN105981051B (zh) 用于图像解析的分层互连多尺度卷积网络
CN109753885B (zh) 一种目标检测方法、装置以及行人检测方法、系统
CN109840556B (zh) 一种基于孪生网络的图像分类识别方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN112052839A (zh) 图像数据处理方法、装置、设备以及介质
CN111444919A (zh) 一种自然场景中的任意形状文本检测方法
CN111915627A (zh) 语义分割方法、网络、设备及计算机存储介质
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN111652273B (zh) 一种基于深度学习的rgb-d图像分类方法
CN110517270B (zh) 一种基于超像素深度网络的室内场景语义分割方法
CN110598788A (zh) 目标检测方法、装置、电子设备及存储介质
CN115082966B (zh) 行人重识别模型训练方法、行人重识别方法、装置和设备
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
Cai et al. IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild
CN111582275B (zh) 一种序列号识别方法及装置
CN114638866A (zh) 一种基于局部特征学习的点云配准方法及系统
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统
CN110378167B (zh) 一种基于深度学习的条码图像补正方法
CN116798041A (zh) 图像识别方法、装置和电子设备
CN113554655B (zh) 基于多特征增强的光学遥感图像分割方法及装置
CN115861922A (zh) 一种稀疏烟火检测方法、装置、计算机设备及存储介质
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
CN114022458A (zh) 骨架检测方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant