CN111832561A - 基于计算机视觉的字符序列识别方法、装置、设备和介质 - Google Patents

基于计算机视觉的字符序列识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN111832561A
CN111832561A CN202010630553.0A CN202010630553A CN111832561A CN 111832561 A CN111832561 A CN 111832561A CN 202010630553 A CN202010630553 A CN 202010630553A CN 111832561 A CN111832561 A CN 111832561A
Authority
CN
China
Prior art keywords
character sequence
image
target area
area image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010630553.0A
Other languages
English (en)
Other versions
CN111832561B (zh
Inventor
杨志成
李睿宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Smartmore Technology Co Ltd
Original Assignee
Shenzhen Smartmore Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Smartmore Technology Co Ltd filed Critical Shenzhen Smartmore Technology Co Ltd
Priority to CN202010630553.0A priority Critical patent/CN111832561B/zh
Publication of CN111832561A publication Critical patent/CN111832561A/zh
Application granted granted Critical
Publication of CN111832561B publication Critical patent/CN111832561B/zh
Priority to JP2022564797A priority patent/JP7429307B2/ja
Priority to PCT/CN2021/104308 priority patent/WO2022002262A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/242Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种基于计算机视觉的字符序列识别方法、装置、计算机设备和存储介质。所述方法包括:获取携带有待识别字符序列的图像;基于预先构建的位置检测模型,获取图像中待识别字符序列所在的目标区域图像;将目标区域图像进行水平校正,得到水平的目标区域图像;基于预先构建的角度判断模型,获取水平的目标区域图像的字符序列摆立状态;若字符序列摆立状态为正立状态,则将水平的目标区域图像输入预先构建的内容识别模型,获取待识别字符序列对应的字符序列内容。采用本方法能够将目标区域图像进行水平校正,实现了对工业场景中图像拍摄角度变化的自适应处理,从而提高对字符序列进行识别的准确率。

Description

基于计算机视觉的字符序列识别方法、装置、设备和介质
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种基于计算机视觉的字符序列识别方法、装置、计算机设备和存储介质。
背景技术
随着计算机视觉技术的发展,对字符序列进行识别已经成为生活实际应用的一部分,例如在工业场景中对产品序列号,生产日期,钢印铭文等字符序列进行识别。一般而言,对字符序列进行识别的过程是先对字符序列的位置进行检测,并对检测到位置的字符序列进行裁剪,最后通过对裁剪出来的字符序列图像进行角度判断和识别,得到对应的文本内容;或者是通过将字符序列作为一种特殊的目标检测,通过分类器检测并基于图像结构的模型聚集成一个词语;又可以是通过神经网络类算法,建立图像特征和字符序列位置和对应内容的映射关系,从而识别字符序列。
然而,目前的字符序列识别方法都是基于低维手工特征,对工业场景中图像拍摄角度变化缺乏自适应处理的能力,因此目前的字符序列识别方法对字符序列进行识别准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种基于计算机视觉的字符序列识别方法、装置、计算机设备和存储介质。
一种基于计算机视觉的字符序列识别方法,所述方法包括:
获取携带有待识别字符序列的图像;
基于预先构建的位置检测模型,获取所述图像中所述待识别字符序列所在的目标区域图像;
将所述目标区域图像进行水平校正,得到水平的目标区域图像;
基于预先构建的角度判断模型,获取所述水平的目标区域图像的字符序列摆立状态;
若所述字符序列摆立状态为正立状态,则将所述水平的目标区域图像输入预先构建的内容识别模型,获取所述待识别字符序列对应的字符序列内容。
在其中一个实施例中,所述基于预先构建的角度判断模型,获取所述水平的目标区域图像的字符序列摆立状态,包括:基于所述角度判断模型,获取所述水平的目标区域图像的摆立角度;根据所述摆立角度所处的摆立角度区间,确定所述字符序列摆立状态。
在其中一个实施例中,所述摆立角度区间包括第一角度区间以及第二角度区间;所述字符序列摆立状态包括正立状态以及倒置状态;所述根据所述摆立角度所处的摆立角度区间,确定所述字符序列摆立状态,包括:若所述摆立角度区间为所述第一角度区间,则确定所述字符序列摆立状态为所述正立状态;和/或若所述摆立角度区间为所述第二角度区间,则确定所述字符序列摆立状态为所述倒置状态。
在其中一个实施例中,所述方法还包括:若所述字符序列摆立状态为所述倒置状态,则将所述水平的目标区域图像旋转为所述正立状态后输入至所述内容识别模型,获取所述字符序列内容。
在其中一个实施例中,所述基于预先构建的位置检测模型,获取所述图像中所述待识别字符序列所在的目标区域图像,包括:利用所述位置检测模型,从所述图像中提取字符区域图像特征;根据所述字符区域图像特征,获取所述目标区域图像的预测掩模;对所述预测掩模进行求取连通域和最小外接矩形处理,得到所述目标区域图像。
在其中一个实施例中,所述从所述图像中提取字符区域图像特征,包括:对所述图像进行预处理,从预处理后的所述图像中提取高维图像特征;利用图像特征金字塔,对所述高维图像特征进行第一特征增强处理,作为所述字符区域图像特征。
在其中一个实施例中,所述将所述水平的目标区域图像输入预先构建的内容识别模型,获取所述待识别字符序列对应的字符序列内容,包括:利用所述内容识别模型,对所述水平的目标区域图像进行全局图像特征提取,得到所述水平的目标区域图像对应的字符序列图像特征;采用行向量卷积核沿着所述水平的方向对所述字符序列图像特征进行第二特征增强处理;基于所述进行第二特征增强处理得到的字符序列图像特征,对所述待识别字符序列进行并行预测,得到所述字符序列内容。
一种基于计算机视觉的字符序列识别装置,所述装置包括:
图像获取模块,用于获取携带有待识别字符序列的图像;
位置检测模块,用于基于预先构建的位置检测模型,获取所述图像中所述待识别字符序列所在的目标区域图像;
水平校正模块,用于将所述目标区域图像进行水平校正,得到水平的目标区域图像;
角度判断模块,用于基于预先构建的角度判断模型,获取所述水平的目标区域图像的字符序列摆立状态;
内容识别模块,用于若所述字符序列摆立状态为正立状态,则将所述水平的目标区域图像输入预先构建的内容识别模型,获取所述待识别字符序列对应的字符序列内容。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
上述基于计算机视觉的字符序列识别方法、装置、计算机设备和存储介质,获取携带有待识别字符序列的图像;基于预先构建的位置检测模型,获取图像中待识别字符序列所在的目标区域图像;将目标区域图像进行水平校正,得到水平的目标区域图像;基于预先构建的角度判断模型,获取水平的目标区域图像的字符序列摆立状态;若字符序列摆立状态为正立状态,则将水平的目标区域图像输入预先构建的内容识别模型,获取待识别字符序列对应的字符序列内容。本申请通过将目标区域图像进行水平校正,实现了对工业场景中图像拍摄角度变化的自适应处理,从而提高对字符序列进行识别的准确率。
附图说明
图1为一个实施例中基于计算机视觉的字符序列识别方法的流程示意图;
图2为一个实施例中基于预先构建的角度判断模型,获取水平的目标区域图像的字符序列摆立状态的流程示意图;
图3为一个实施例中基于预先构建的位置检测模型,获取图像中待识别字符序列所在的目标区域图像的流程示意图;
图4为一个实施例中将水平的目标区域图像输入预先构建的内容识别模型,获取待识别字符序列对应的字符序列内容的流程示意图;
图5为另一个实施例中基于计算机视觉的字符序列识别方法的流程示意图;
图6为一个应用实例中算法训练与预测处理的流程示意图;
图7为一个应用实例中图像特征金字塔的结构示意图;
图8为一个应用实例中字符序列角度判断算法的流程示意图;
图9为一个应用实例中字符序列内容识别算法的流程示意图;
图10为一个实施例中基于计算机视觉的字符序列识别装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于计算机视觉的字符序列识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S101,终端获取携带有待识别字符序列的图像。
其中,待识别字符序列指的是用户需要从图像中得到的字符序列,该图像可以是工业场景中拍摄得到的图像。具体来说,用户可以通过手机摄像头或者视频采集设备等从不同的场景中将携带有待识别字符序列的图像记录下来,并将该图像存储于终端中,使得终端可以得到携带有待识别字符序列的图像。
步骤S102,终端基于预先构建的位置检测模型,获取图像中待识别字符序列所在的目标区域图像。
其中,位置检测模型主要是用于检测图像中待识别字符的位置区域,目标区域图像指的是待识别字符序列在该图像中的位置区域的图像。具体来说,终端可以利用预先构建完成的位置检测模型,对携带有待识别字符序列的图像进行字符序列位置检测,从而确定待识别字符序列所在的目标区域图像。
步骤S103,终端将目标区域图像进行水平校正,得到水平的目标区域图像。
由于用户对待识别字符序列的图像进行拍摄往往是以不同的拍摄角度进行拍摄,因此终端得到的携带有待识别字符序列的图像中,待识别字符序列经常不是水平排列,而是与水平存在某个角度的情况下呈现。因此,为了使得字符序列识别的准确性可以提高,终端在步骤S102中得到目标区域图像后,首先需要对目标区域图像进行水平校正,得到水平的目标区域图像。在水平的目标区域图像中,待识别字符序列以水平方向进行排列。具体地,终端可以对目标区域图像进行仿射变换,以完成水平校正,从而得到水平的目标区域图像。
步骤S104,基于预先构建的角度判断模型,终端获取水平的目标区域图像的字符序列摆立状态。
步骤S103中终端完成对目标区域图像水平校正后,由于用户原始的拍摄图像的角度问题,得到的水平的目标区域图像的字符序列的摆立状态可以是正立状态,也可以是倒置状态,而如果倒置状态,不同的字符序列摆立状态会影响到最终的字符序列识别结果。因此,终端在得到水平的目标区域图像后,需要先确定得到的水平的目标区域图像的字符序列摆立状态。具体来说,终端可以将水平的目标区域图像输入预先构建的角度判断模型,从而确定水平的目标区域图像的字符序列摆立状态。
步骤S105,若字符序列摆立状态为正立状态,则终端将水平的目标区域图像输入预先构建的内容识别模型,获取待识别字符序列对应的字符序列内容。
而如果终端确定此时字符序列的摆立状态为正立状态,那么终端即可将水平的目标区域图像直接输入至预先构建的内容识别模型,内容识别模型主要用于识别目标区域图像内字符序列的内容,因此终端可以利用该内容识别模型,从而得到待识别字符序列对应的字符序列内容。
上述基于计算机视觉的字符序列识别方法中,终端获取携带有待识别字符序列的图像;基于预先构建的位置检测模型,获取图像中待识别字符序列所在的目标区域图像;将目标区域图像进行水平校正,得到水平的目标区域图像;基于预先构建的角度判断模型,获取水平的目标区域图像的字符序列摆立状态;若字符序列摆立状态为正立状态,则将水平的目标区域图像输入预先构建的内容识别模型,获取待识别字符序列对应的字符序列内容。本申请通过终端将目标区域图像进行水平校正,实现了对工业场景中图像拍摄角度变化的自适应处理,从而提高对字符序列进行识别的准确率。
在一个实施例中,如图2所示,步骤S104包括:
步骤S201,基于角度判断模型,终端获取水平的目标区域图像的摆立角度。
其中,角度判断模型主要是用于确定水平的目标区域图像的角度,由于字符序列摆立状态主要是由于用户原始的拍摄图像的角度问题而导致,因此,终端可以通过该角度判断模型,确定水平的目标区域图像的摆立角度,并利用摆立角度确定字符序列的摆立状态。
步骤S202,终端根据摆立角度所处的摆立角度区间,确定字符序列摆立状态。
而为了避免终端得到的水平的目标区域图像的摆立角度与标准水平角度存在少量偏差,步骤S201中终端通过角度判断模型确定摆立角度后,还可以从预设的摆立角度区间表中,选取出与该摆立角度相适应的摆立角度区间,作为该摆立角度所处的摆立角度区间,并利用摆立角度区间确定字符序列摆立状态。
进一步地,摆立角度区间可以包括第一角度区间以及第二角度区间;字符序列摆立状态则可以包括正立状态以及倒置状态;步骤S202进一步可以包括:若摆立角度区间为第一角度区间,则终端确定字符序列摆立状态为正立状态;若摆立角度区间为第二角度区间,则确定字符序列摆立状态为倒置状态。
其中,第一角度区间与第二角度区间分别是两种不同的角度区间,分别用于表征字符序列的两种摆立状态。具体地,如果终端得到的水平的目标区域图像的摆立角度所处的摆立角度区间是第一角度区间,那么终端可以确定此时的水平的目标区域图像为正立状态,而如果终端得到的水平的目标区域图像的摆立角度所处的摆立角度区间是第二角度区间,那么终端可以确定此时的水平的目标区域图像为倒置状态。
另外,若字符序列摆立状态为倒置状态,则将水平的目标区域图像旋转为正立状态后输入至内容识别模型,获取字符序列内容。
如果终端直接将倒置状态的水平的目标区域图像输入至内容识别模型,有可能会导致内容识别模型得出的字符序列内容与实际字符内容存在偏差,因此在将水平的目标区域图像输入内容识别模型之前,首先需要对水平的目标区域图像进行旋转,使其变为正立状态,例如可通过绕水平的目标区域图像的中心旋转180°的方式,将水平的目标区域图像旋转为正立状态,并将旋转后的水平的目标区域图像输入内容识别模型,从而得到待识别字符序列的字符序列内容。
上述实施例中,终端可通过角度判断模型得到水平的目标区域图像的摆立角度进而确定字符序列摆立状态,而如果字符序列摆立状态为倒置状态,终端则可通过旋转的方式将水平的目标区域图像转换为正立状态,并将正立状态下的水平的目标区域图像输入内容识别模型,得到字符序列内容,从而有利于进一步提高得到的字符序列内容的准确性。
在一个实施例中,如图3所示,步骤S102包括:
步骤S301,利用位置检测模型,终端从图像中提取字符区域图像特征。
其中,字符区域图像特征指的是用于确定字符序列位置的图像特征。具体地,终端可以利用位置检测模型从得到的待识别字符序列的图像中提取出上述字符区域图像特征。
步骤S302,根据字符区域图像特征,终端获取目标区域图像的预测掩模。
其中,掩模指的是用选定的图像、图形或物体,对处理的图像(全部或局部)进行遮挡,来控制图像处理的区域或处理过程。具体地,终端可以利用字符区域图像特征,得到字符区域图像特征对应的预测掩模。
步骤S303,终端对预测掩模进行求取连通域和最小外接矩形处理,得到目标区域图像。
步骤S302中终端得到目标区域图像的预测掩模后,可以对该掩模进行求取连通域处理以及最小外接矩形处理,从而得到目标图像。
进一步地,为了防止终端得到的携带有待识别字符序列的图像可能存在的清晰程度不足、或者光照强度过低导致的字符序列识别准确率过低的问题,在一个实施例中,步骤S301进一步可以包括:终端对图像进行预处理,从预处理后的图像中提取高维图像特征;利用图像特征金字塔,对高维图像特征进行第一特征增强处理,作为字符区域图像特征。
其中,预处理的过程可以是终端对携带有待识别字符序列的图像中较小或者难以辨认的字符序列区域图像进行过滤,从而终端可以提取出携带有待识别字符序列的图像中的高维图像特征,同时,终端还可以利用图像特征金字塔对提取出的高维图像特征进行第一特征增强处理,有利于提高字符区域图像特征的特征表达能力,从而可以在特征不清晰的环境中也可以生成准确的目标区域图像的预测掩模。
上述实施例中,终端可以从图像中提取字符区域图像特征并生成对应的预测掩模,还通过对预测掩模进行求取连通域和最小外接矩形处理可以得到准确的目标区域图像,另外,为了防止特征不清晰导致的可能对字符序列漏识别或误识别等问题,终端可通过图像特征金字塔对提取的图像特征进行第一特征增强处理,使得字符区域图像特征的特征表达能力有所增加,因此可以进一步提高字符序列识别的准确性。
在一个实施例中,如图4所示,步骤S105包括:
步骤S401,终端利用内容识别模型,对水平的目标区域图像进行全局图像特征提取,得到水平的目标区域图像对应的字符序列图像特征。
其中,内容识别模型主要是用于识别对水平的目标区域图像中包括的待识别字符序列的字符内容。具体地,终端可以利用内容识别模型,对得到的水平的目标区域图像进行全局图像特征提取,从而得到水平的目标区域图像对应的字符序列图像特征。
步骤S402,终端采用行向量卷积核沿着水平的方向对字符序列图像特征进行第二特征增强处理。
其中,第二特征增强处理指的是对字符序列图像特征进行的特征增强处理。具体地,步骤S401中得到字符序列图像特征后,可以采用行向量卷积核,沿着水平方向,即沿着字符序列的方向对字符序列图像特征进行第二特征增强处理。
步骤S403,基于进行第二特征增强处理得到的字符序列图像特征,终端对待识别字符序列进行并行预测,得到所述字符序列内容。
另外,为了进一步提高字符序列识别的效率,终端可以对第二特征增强处理得到的字符序列图像特征,进行字符序列内容识别,同时,识别的过程是并行预测,能同时对多个字符序列进行预测,从而可以实现对字符序列内容的高效预测。
本实施例中,终端可以通过内容识别模型准确识别字符序列的内容,并且通过对字符序列图像特征进行第二特征增强处理,可以提高特征的表达能力,因此可以提高字符序列内容识别的准确性,另外,还通过并行预测的方法对所有字符序列进行预测,进一步提高了字符序列内容识别的效率。
在一个实施例中,如图5所示,提供了一种基于计算机视觉的字符序列识别方法,本实施例以该方法应用于终端进行举例说明,本实施例中,该方法包括以下步骤:
步骤S501,终端获取携带有待识别字符序列的图像;
步骤S502,终端对图像进行预处理,从预处理后的图像中提取高维图像特征;利用图像特征金字塔,对高维图像特征进行第一特征增强处理,作为字符区域图像特征;
步骤S503,终端根据字符区域图像特征,获取目标区域图像的预测掩模;对预测掩模进行求取连通域和最小外接矩形处理,得到目标区域图像;
步骤S504,终端将目标区域图像进行水平校正,得到水平的目标区域图像;
步骤S505,终端基于角度判断模型,获取水平的目标区域图像的摆立角度;
步骤S506,若摆立角度区间为所述第一角度区间,则终端确定字符序列摆立状态为正立状态;若摆立角度区间为第二角度区间,则终端确定字符序列摆立状态为倒置状态;
步骤S507,若字符序列摆立状态为正立状态,则终端将水平的目标区域图像输入预先构建的内容识别模型;若字符序列摆立状态为倒置状态,则终端将水平的目标区域图像旋转为正立状态后输入至内容识别模型;
步骤S508,终端利用内容识别模型,对水平的目标区域图像进行全局图像特征提取,得到水平的目标区域图像对应的字符序列图像特征;
步骤S509,终端采用行向量卷积核沿着水平的方向对字符序列图像特征进行第二特征增强处理;
步骤S510,基于进行第二特征增强处理得到的字符序列图像特征,终端对待识别字符序列进行并行预测,得到字符序列内容。
上述实施例中,通过终端将目标区域图像进行水平校正,实现了对工业场景中图像拍摄角度变化的自适应处理,从而提高对字符序列进行识别的准确率。另外,终端可通过角度判断模型得到水平的目标区域图像的摆立角度进而确定字符序列摆立状态,而如果字符序列摆立状态为倒置状态,终端则可通过旋转的方式将水平的目标区域图像转换为正立状态,从而有利于进一步提高得到的字符序列内容的准确性,以及终端还可以利用图像特征金字塔对提取出的高维图像特征进行第一特征增强处理,与对字符序列图像特征进行第二特征增强处理,可以提高特征的表达能力,可以进一步提高字符序列内容识别的准确性。并且,还通过并行预测的方法对所有字符序列进行预测,进一步提高了字符序列内容识别的效率。
在一个应用实例中,还提供了一种工业场景中任意角度字符序列识别算法,旨在高效解决目前工业场景中字符识别算法在模糊、光照和角度变化等情况中漏识别、误识别等问题,使得识别准确率更高。本申请可以部署在相机成像环境较差的工业环境,同时保证识别算法高效准确,支持多角度甚至倒置字符的识别,其中算法的训练以及预测处理的流程如图6所示,主要流程分为算法训练和预测两个过程。在训练过程中,需要训练三个不同模型,分别为检测字符序列位置、判断字符序列角度和识别字符序列内容。预测过程,将训练好的模型将输入测试图像依次按照位置检测、角度判断和识别内容的顺序进行处理,最终得到字符序列和位置和对应内容。
具体各个模块的处理流程如下:
(一)训练过程
1.1字符序列位置检测算法
训练样本是含有字符序列的整张样例图像,对应标注是图像中字符序列的位置框,里面含有字符序列位置坐标信息,如字符序列起点左上角和终点右下角信息。由于不同训练样本之前存在尺度、颜色分布差异,需要对样本进行归一化处理,同时过滤掉较小或者难以辨认的字符序列位置框。经过图像预处理后的数据,作为字符序列位置检测算法部分的输入,该部分是通过深度神经网络,并结合图像特征金字塔结构进行特征增强。如图7所示,其中,conv代表不同卷积层,stride则代表不同的步长,对提取到不同尺度的特征进行上采样,并与之前网络得到的特征进行相加,得到最终的图像特征,此时该特征既保留了空间信息,同时也保留了语义信息。通过位置检测算法得到的图像特征用于预测最终图像字符序列区域对应的掩模。通过对该掩模求取连通域和最小外接矩形,就可以得到字符序列位置框。
1.2字符序列角度判断算法
如图8所示,对于字符序列角度大于0度小于180度的情况,可以通过仿射变换得到校正成水平的字符序列图像。校正成水平后,会因为拍摄原始角度问题,导致校正后的字符序列并不能保证是正立还是倒置,因此加入角度判断算法,来判断校正后的字符序列是否倒置,如果倒置则绕中心旋转180度,如果正立则不处理直接输出,以此保证最终得到字符序列图像保持正立,作为下一阶段字符序列内容输出。
1.3字符序列内容识别算法
如图9所示,对于字符序列图像内容识别采用深度神经网络对字符序列特征进行学习,为了获取序列整体特征,最后对提取到的图像特征,再采用行向量作为卷积核,沿着字符序列方向进行特征增强,实现对字符序列内容的并行高效预测。
(二)预测过程
输入测试图像,首先将用字符序列位置检测算法对该测试图像的字符序列位置进行检测,然后对检测到的图像区域进行裁剪和仿射变换,再将变换后裁剪区域送入字符序列角度判断算法,如果是判断裁剪区域图像是倒置的,则中心旋转180度,如果是正立的,则不处理。将经过字符序列位置检测算法和字符序列角度判断算法处理后的图像区域,作为字符序列内容识别网络的输入,通过内容识别网络,最终得到图像中字符序列的位置和相应的文本内容。
上述应用实例通过级联字符序列位置检测算法、字符序列角度判断算法和字符序列内容识别算法,共三个阶段算法,最终得到了对成像清晰度变化、角度变化、光照变化等常见工业场景具备稳定高效字符序列识别的算法,为工业场景下的字符序列识别应用奠定了良好的基础。
应该理解的是,虽然本申请的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种基于计算机视觉的字符序列识别装置,包括:图像获取模块1001、位置检测模块1002、水平校正模块1003角度判断模块1004和内容识别模块1005,其中:
图像获取模块1001,用于获取携带有待识别字符序列的图像;
位置检测模块1002,用于基于预先构建的位置检测模型,获取图像中待识别字符序列所在的目标区域图像;
水平校正模块1003,用于将目标区域图像进行水平校正,得到水平的目标区域图像;
角度判断模块1004,用于基于预先构建的角度判断模型,获取水平的目标区域图像的字符序列摆立状态;
内容识别模块1005,用于若字符序列摆立状态为正立状态,则将水平的目标区域图像输入预先构建的内容识别模型,获取待识别字符序列对应的字符序列内容。
在一个实施例中,角度判断模块1004,进一步用于基于角度判断模型,获取水平的目标区域图像的摆立角度;根据摆立角度所处的摆立角度区间,确定字符序列摆立状态。
在一个实施例中,摆立角度区间包括第一角度区间以及第二角度区间;字符序列摆立状态包括正立状态以及倒置状态;角度判断模块1004,进一步用于若摆立角度区间为所述第一角度区间,则确定字符序列摆立状态为正立状态;以及用于若摆立角度区间为所述第二角度区间,则确定字符序列摆立状态为倒置状态。
在一个实施例中,内容识别模块1005,还用于若字符序列摆立状态为倒置状态,则将水平的目标区域图像旋转为正立状态后输入至内容识别模型,获取字符序列内容。
在一个实施例中,位置检测模块1002,进一步用于利用位置检测模型,从图像中提取字符区域图像特征;根据字符区域图像特征,获取目标区域图像的预测掩模;对预测掩模进行求取连通域和最小外接矩形处理,得到目标区域图像。
在一个实施例中,位置检测模块1002,进一步用于对图像进行预处理,从预处理后的图像中提取高维图像特征;利用图像特征金字塔,对高维图像特征进行第一特征增强处理,作为字符区域图像特征。
在一个实施例中,内容识别模块1005,进一步用于利用内容识别模型,对水平的目标区域图像进行全局图像特征提取,得到水平的目标区域图像对应的字符序列图像特征;采用行向量卷积核沿着水平的方向对字符序列图像特征进行第二特征增强处理;基于进行第二特征增强处理得到的字符序列图像特征,对待识别字符序列进行并行预测,得到字符序列内容。
关于基于计算机视觉的字符序列识别装置的具体限定可以参见上文中对于基于计算机视觉的字符序列识别方法的限定,在此不再赘述。上述基于计算机视觉的字符序列识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于计算机视觉的字符序列识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于计算机视觉的字符序列识别方法,其特征在于,所述方法包括:
获取携带有待识别字符序列的图像;
基于预先构建的位置检测模型,获取所述图像中所述待识别字符序列所在的目标区域图像;
将所述目标区域图像进行水平校正,得到水平的目标区域图像;
基于预先构建的角度判断模型,获取所述水平的目标区域图像的字符序列摆立状态;
若所述字符序列摆立状态为正立状态,则将所述水平的目标区域图像输入预先构建的内容识别模型,获取所述待识别字符序列对应的字符序列内容。
2.根据权利要求1所述的方法,其特征在于,所述基于预先构建的角度判断模型,获取所述水平的目标区域图像的字符序列摆立状态,包括:
基于所述角度判断模型,获取所述水平的目标区域图像的摆立角度;
根据所述摆立角度所处的摆立角度区间,确定所述字符序列摆立状态。
3.根据权利要求2所述的方法,其特征在于,所述摆立角度区间包括第一角度区间以及第二角度区间;所述字符序列摆立状态包括正立状态以及倒置状态;
所述根据所述摆立角度所处的摆立角度区间,确定所述字符序列摆立状态,包括:
若所述摆立角度区间为所述第一角度区间,则确定所述字符序列摆立状态为所述正立状态;
和/或
若所述摆立角度区间为所述第二角度区间,则确定所述字符序列摆立状态为所述倒置状态。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述字符序列摆立状态为所述倒置状态,则将所述水平的目标区域图像旋转为所述正立状态后输入至所述内容识别模型,获取所述字符序列内容。
5.根据权利要求1所述的方法,其特征在于,所述基于预先构建的位置检测模型,获取所述图像中所述待识别字符序列所在的目标区域图像,包括:
利用所述位置检测模型,从所述图像中提取字符区域图像特征;
根据所述字符区域图像特征,获取所述目标区域图像的预测掩模;
对所述预测掩模进行求取连通域和最小外接矩形处理,得到所述目标区域图像。
6.根据权利要求5所述的方法,其特征在于,所述从所述图像中提取字符区域图像特征,包括:
对所述图像进行预处理,从预处理后的所述图像中提取高维图像特征;
利用图像特征金字塔,对所述高维图像特征进行第一特征增强处理,作为所述字符区域图像特征。
7.根据权利要求1所述的方法,其特征在于,所述将所述水平的目标区域图像输入预先构建的内容识别模型,获取所述待识别字符序列对应的字符序列内容,包括:
利用所述内容识别模型,对所述水平的目标区域图像进行全局图像特征提取,得到所述水平的目标区域图像对应的字符序列图像特征;
采用行向量卷积核沿着所述水平的方向对所述字符序列图像特征进行第二特征增强处理;
基于所述进行第二特征增强处理得到的字符序列图像特征,对所述待识别字符序列进行并行预测,得到所述字符序列内容。
8.一种基于计算机视觉的字符序列识别装置,其特征在于,所述装置包括:
图像获取模块,用于获取携带有待识别字符序列的图像;
位置检测模块,用于基于预先构建的位置检测模型,获取所述图像中所述待识别字符序列所在的目标区域图像;
水平校正模块,用于将所述目标区域图像进行水平校正,得到水平的目标区域图像;
角度判断模块,用于基于预先构建的角度判断模型,获取所述水平的目标区域图像的字符序列摆立状态;
内容识别模块,用于若所述字符序列摆立状态为正立状态,则将所述水平的目标区域图像输入预先构建的内容识别模型,获取所述待识别字符序列对应的字符序列内容。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010630553.0A 2020-07-03 2020-07-03 基于计算机视觉的字符序列识别方法、装置、设备和介质 Active CN111832561B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010630553.0A CN111832561B (zh) 2020-07-03 2020-07-03 基于计算机视觉的字符序列识别方法、装置、设备和介质
JP2022564797A JP7429307B2 (ja) 2020-07-03 2021-07-02 コンピュータビジョンに基づく文字列認識方法、装置、機器及び媒体
PCT/CN2021/104308 WO2022002262A1 (zh) 2020-07-03 2021-07-02 基于计算机视觉的字符序列识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010630553.0A CN111832561B (zh) 2020-07-03 2020-07-03 基于计算机视觉的字符序列识别方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111832561A true CN111832561A (zh) 2020-10-27
CN111832561B CN111832561B (zh) 2021-06-08

Family

ID=72900995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010630553.0A Active CN111832561B (zh) 2020-07-03 2020-07-03 基于计算机视觉的字符序列识别方法、装置、设备和介质

Country Status (3)

Country Link
JP (1) JP7429307B2 (zh)
CN (1) CN111832561B (zh)
WO (1) WO2022002262A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468905A (zh) * 2021-07-12 2021-10-01 深圳思谋信息科技有限公司 图形码识别方法、装置、计算机设备和存储介质
WO2022002262A1 (zh) * 2020-07-03 2022-01-06 深圳思谋信息科技有限公司 基于计算机视觉的字符序列识别方法、装置、设备和介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114495083A (zh) * 2022-01-13 2022-05-13 深圳市瑞意博科技股份有限公司 钢印字符识别方法、装置、设备和介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154270A (zh) * 2006-09-30 2008-04-02 电子科技大学中山学院 基于补偿原理和中心区域扫描的车牌二值化方法
CN101814142A (zh) * 2009-02-24 2010-08-25 阿尔派株式会社 手写字符输入装置及字符处理方法
CN102890783A (zh) * 2011-07-20 2013-01-23 富士通株式会社 识别图像块中文字的方向的方法和装置
US20140161365A1 (en) * 2012-12-12 2014-06-12 Qualcomm Incorporated Method of Perspective Correction For Devanagari Text
CN103927534A (zh) * 2014-04-26 2014-07-16 无锡信捷电气股份有限公司 一种基于卷积神经网络的喷码字符在线视觉检测方法
CN105279512A (zh) * 2015-10-22 2016-01-27 东方网力科技股份有限公司 一种倾斜车牌识别方法和装置
CN106407979A (zh) * 2016-10-25 2017-02-15 深圳怡化电脑股份有限公司 一种票据字符校正的方法及装置
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN110163205A (zh) * 2019-05-06 2019-08-23 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110516672A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 卡证信息识别方法、装置及终端
CN111242126A (zh) * 2020-01-15 2020-06-05 上海眼控科技股份有限公司 不规则文本校正方法、装置、计算机设备和存储介质
CN111260569A (zh) * 2020-01-10 2020-06-09 百度在线网络技术(北京)有限公司 图像倾斜校正的方法、装置、电子设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6744126B2 (ja) 2016-05-18 2020-08-19 東芝インフラシステムズ株式会社 文字認識装置、文字認識プログラム、文字認識方法
CN108681729B (zh) 2018-05-08 2023-06-23 腾讯科技(深圳)有限公司 文本图像矫正方法、装置、存储介质及设备
CN111832561B (zh) * 2020-07-03 2021-06-08 深圳思谋信息科技有限公司 基于计算机视觉的字符序列识别方法、装置、设备和介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154270A (zh) * 2006-09-30 2008-04-02 电子科技大学中山学院 基于补偿原理和中心区域扫描的车牌二值化方法
CN101814142A (zh) * 2009-02-24 2010-08-25 阿尔派株式会社 手写字符输入装置及字符处理方法
CN102890783A (zh) * 2011-07-20 2013-01-23 富士通株式会社 识别图像块中文字的方向的方法和装置
US20140161365A1 (en) * 2012-12-12 2014-06-12 Qualcomm Incorporated Method of Perspective Correction For Devanagari Text
CN103927534A (zh) * 2014-04-26 2014-07-16 无锡信捷电气股份有限公司 一种基于卷积神经网络的喷码字符在线视觉检测方法
CN105279512A (zh) * 2015-10-22 2016-01-27 东方网力科技股份有限公司 一种倾斜车牌识别方法和装置
CN106407979A (zh) * 2016-10-25 2017-02-15 深圳怡化电脑股份有限公司 一种票据字符校正的方法及装置
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN110163205A (zh) * 2019-05-06 2019-08-23 网易有道信息技术(北京)有限公司 图像处理方法、装置、介质和计算设备
CN110516672A (zh) * 2019-08-29 2019-11-29 腾讯科技(深圳)有限公司 卡证信息识别方法、装置及终端
CN111260569A (zh) * 2020-01-10 2020-06-09 百度在线网络技术(北京)有限公司 图像倾斜校正的方法、装置、电子设备和存储介质
CN111242126A (zh) * 2020-01-15 2020-06-05 上海眼控科技股份有限公司 不规则文本校正方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAIN M,AND ETC: "Unconstrained OCR for Urdu Using Deep CNN-RNN Hybrid Networks", 《2017 4TH IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION (ACPR)》 *
王有伟等: "手写体数字识别中一种新的倾斜校正的方法", 《计算机工程》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022002262A1 (zh) * 2020-07-03 2022-01-06 深圳思谋信息科技有限公司 基于计算机视觉的字符序列识别方法、装置、设备和介质
CN113468905A (zh) * 2021-07-12 2021-10-01 深圳思谋信息科技有限公司 图形码识别方法、装置、计算机设备和存储介质
CN113468905B (zh) * 2021-07-12 2024-03-26 深圳思谋信息科技有限公司 图形码识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP2023523745A (ja) 2023-06-07
CN111832561B (zh) 2021-06-08
JP7429307B2 (ja) 2024-02-07
WO2022002262A1 (zh) 2022-01-06

Similar Documents

Publication Publication Date Title
KR102635987B1 (ko) 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체
US10943126B2 (en) Method and apparatus for processing video stream
CN109241904B (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN111832561B (zh) 基于计算机视觉的字符序列识别方法、装置、设备和介质
US9349076B1 (en) Template-based target object detection in an image
CN108256479B (zh) 人脸跟踪方法和装置
CN110619330A (zh) 识别模型的训练方法、装置、计算机设备及识别方法
CN109960742B (zh) 局部信息的搜索方法及装置
CN109492638A (zh) 文本检测方法、装置及电子设备
CN109117760B (zh) 图像处理方法、装置、电子设备和计算机可读介质
EP3839807A1 (en) Facial landmark detection method and apparatus, computer device and storage medium
CN111027504A (zh) 人脸关键点检测方法、装置、设备及存储介质
KR20200118076A (ko) 생체 검출 방법 및 장치, 전자 기기 및 저장 매체
CN108447061B (zh) 商品信息处理方法、装置、计算机设备和存储介质
CN108762505B (zh) 基于手势的虚拟对象控制方法、装置、存储介质和设备
CN111597884A (zh) 面部动作单元识别方法、装置、电子设备及存储介质
CN111667001B (zh) 目标重识别方法、装置、计算机设备和存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN109886223B (zh) 人脸识别方法、底库录入方法、装置及电子设备
CN111612822B (zh) 对象跟踪方法、装置、计算机设备和存储介质
CN110516559B (zh) 适用于精准监控的目标跟踪方法及装置、计算机设备
CN111144372A (zh) 车辆检测方法、装置、计算机设备和存储介质
CN110175974A (zh) 图像显著性检测方法、装置、计算机设备和存储介质
CN110910445A (zh) 一种物件尺寸检测方法、装置、检测设备及存储介质
CN114022558A (zh) 图像定位方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant