CN107516095A - 一种图像识别方法及装置 - Google Patents

一种图像识别方法及装置 Download PDF

Info

Publication number
CN107516095A
CN107516095A CN201610430736.1A CN201610430736A CN107516095A CN 107516095 A CN107516095 A CN 107516095A CN 201610430736 A CN201610430736 A CN 201610430736A CN 107516095 A CN107516095 A CN 107516095A
Authority
CN
China
Prior art keywords
image
polygon object
polygon
identification region
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610430736.1A
Other languages
English (en)
Inventor
熊诗尧
江文斐
储开颜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610430736.1A priority Critical patent/CN107516095A/zh
Priority to PCT/US2017/037631 priority patent/WO2017218745A1/en
Priority to US15/623,746 priority patent/US20170365061A1/en
Publication of CN107516095A publication Critical patent/CN107516095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像识别方法及装置,所述方法包括:获取待识别图像,所述待识别图像中具有多边形对象;检测出所述多边形对象的图像信息和位置;根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像;利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息。可见,本申请实施例将多边形对象的图像信息投影到识别区域后才进行识别,相当于对多边形对象在识别区域中的形状和位置进行了校正,使得校正后的图像,即所述投影图像能够被识别。从而解决了因多边形对象在识别区域中的位置、形状等不符合识别要求所造成的识别失败。

Description

一种图像识别方法及装置
技术领域
本申请涉及图像处理领域,尤其是涉及一种图像识别方法及装置。
背景技术
随着图像识别技术的不断发展,对多边形对象的图像识别以获得多边形对象中显示的文本内容等信息得到了越来越广泛的应用。例如,通过对银行卡等矩形卡片进行识别,能够识别出矩形卡片的卡号等文本内容。
目前,对多边形对象进行图像识别时主要采用光学字符识别(Optical CharacterRecognition,OCR)等图像识别技术。然而,在利用OCR等技术识别多边形对象中显示的信息时,通常对多边形对象在识别区域中的形状、位置等具有一定的要求,否则会导致识别失败。例如对于一张矩形卡片,如果该卡片在识别区域中的位置如图1所示时则能够识别成功;如果该卡片在识别区域的位置如图2所示,也就是当矩形卡片的形状由于拍摄角度而造成透视失真时,则无法利用OCR等技术识别出文本内容。
因此,目前需要解决因多边形对象在识别区域中的位置、形状等不符合识别要求所造成的识别失败。
发明内容
本申请解决的技术问题在于提供一种图像识别方法及装置,通过将多边形对象投影到识别区域,从而解决了因多边形对象在识别区域中的位置、形状等不符合识别要求所造成的识别失败。
为此,本申请解决技术问题的技术方案是:
本申请实施例提供了一种图像识别方法,所述方法包括:
获取待识别图像,所述待识别图像中具有多边形对象;
检测出所述多边形对象的图像信息和位置;
根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像;
利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息。
可选的,检测出所述多边形对象的位置包括:检测出所述多边形对象中各个顶点的位置;
根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像,包括:
根据所述多边形对象中各个顶点的位置和所述识别区域中各个顶点的位置,生成从所述多边形对象到所述识别区域的投影矩阵;
根据所述投影矩阵,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
可选的,检测出所述多边形对象中各个顶点的位置,包括:
对所述待识别图像进行边缘检测,检测出所述多边形对象的边缘;
从多边形对象的边缘中检测出直线边;
根据所述直线边,确定出所述多边形对象中各个顶点的位置。
可选的,将所述多边形对象的图像信息投影到所述识别区域上之前,所述方法还包括:
检测所述多边形对象是否为N边形,如果是,则执行所述将所述多边形对象的图像信息投影到所述识别区域上;其中,N为所述识别区域的直线边的数量和。
可选的,所述多边形对象是原始对象发生形变后的对象;所述投影图像为所述待识别图像的纠正图像,所述纠正图像中具有校正后的所述原始对象;
利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息包括:
利用图像识别技术识别所述纠正图像,获得所述原始对象中具有的信息。
可选的,获取待识别图像包括:
向用户显示图像,获取用户从显示的图像中选取的图像,作为所述待识别图像;或者,
获取图像采集设备采集的图像,作为所述待识别图像。
可选的,获取待识别图像之前,所述方法还包括:
确定出利用图像识别技术对所述待识别图像识别失败。
本申请实施例提供了一种图像识别装置,所述装置包括:
获取单元,用于获取待识别图像,所述待识别图像中具有多边形对象;
检测单元,用于检测出所述多边形对象的图像信息和位置;
投影单元,用于根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像;
识别单元,用于利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息。
可选的,所述检测单元用于检测出所述多边形对象的位置时,所述检测单元具体用于检测出所述多边形对象中各个顶点的位置;
所述投影单元具体用于根据所述多边形对象中各个顶点的位置和所述识别区域中各个顶点的位置,生成从所述多边形对象到所述识别区域的投影矩阵;根据所述投影矩阵,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
可选的,所述检测单元用于检测出所述多边形对象中各个顶点的位置时,所述检测单元具体用于对所述待识别图像进行边缘检测,检测出所述多边形对象的边缘;从多边形对象的边缘中检测出直线边;根据所述直线边,确定出所述多边形对象中各个顶点的位置。
可选的,所述检测单元还用于,检测所述多边形对象是否为N边形,如果是,则通知所述投影单元将所述多边形对象的图像信息投影到所述识别区域上;其中,N为所述识别区域的直线边的数量和。
可选的,所述多边形对象是原始对象发生形变后的对象;所述投影图像为所述待识别图像的纠正图像,所述纠正图像中具有校正后的所述原始对象;
所述识别单元具体用于,利用图像识别技术识别所述纠正图像,获得所述原始对象中具有的信息。
可选的,所述获取单元用于获取待识别图像时,所述获取单元具体用于:
通过显示单元向用户显示图像,获取用户从显示的图像中选取的图像,作为所述待识别图像;或者,
获取图像采集设备采集的图像,作为所述待识别图像。
可选的,还包括:
确定单元,用于在所述获取单元获取待识别图像之前,确定出利用图像识别技术对所述待识别图像识别失败。
通过上述技术方案可知,本申请实施例中,待识别图像中具有多边形对象,检测出所述多边形对象的图像信息和位置,利用所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像,从而利用图像识别技术对投影图像进行识别以获得多边形对象中显示的信息。可见,本申请实施例中不再是直接对所述待识别图像进行识别,而是将多边形对象的图像信息投影到识别区域后才进行识别,相当于对多边形对象在识别区域中的形状和位置进行了校正,使得校正后的图像,即所述投影图像能够被识别。从而解决了因多边形对象在识别区域中的位置、形状等不符合识别要求所造成的识别失败。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1为矩形卡片在识别区域的一种位置的示意图;
图2为矩形卡片在识别区域的另一种位置的示意图;
图3为本申请提供的一种方法实施例的流程示意图;
图4为本申请提供的另一种方法实施例的流程示意图;
图5为对待识别图像进行边缘检测后的示意图;
图6为检测出待识别图像中的一个顶点的示意图;
图7为对投影图像识别后得到的文本内容的示意图;
图8为本申请提供的一种装置实施例的结构示意图。
具体实施方式
利用OCR等技术识别多边形对象包含的文本内容等信息时,通常是按照识别区域中的特定位置来识别相应信息,因此通常对多边形对象在识别区域中的形状、位置等具有一定的要求,例如包括:多边形对象位于识别区域的中心,或者多边形对象的形状没有发生失真,否则会导致识别失败。例如对于一张矩形卡片,如果该卡片在识别区域中的位置如图1所示时则能够识别成功;如果该卡片在识别区域的位置如图2所示,也就是当矩形卡片的形状由于拍摄角度而造成透视失真时,则无法利用OCR等技术识别出矩形卡片上显示的文本内容。因此,目前需要解决因多边形对象在识别区域中的位置、形状等不符合识别要求所造成的识别失败。
本申请实施例提供一种图像识别方法及装置,通过将多边形对象投影到识别区域,实现对多边形对象的形状、位置进行校正,使得校正后的图像能够被识别,从而解决了因多边形对象在识别区域中的位置、形状等不符合识别要求所造成的识别失败。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
请参阅图3,本申请提供了图像识别方法的一种方法实施例。本实施例的所述方法包括:
S301:获取待识别图像,所述待识别图像中具有多边形对象(即显示有多边形对象)。
在本申请实施例中,并不是直接对所述待识别图像进行识别,因此所述多边形对象在识别区域的形状和位置,可以不符合OCR等图像识别技术的相应要求。其中,所述待识别图像可以为识别区域中的图像,例如图2所示,待识别图像为矩形区域中的图像,多边形对象为矩形卡片,直接通过OCR等图像识别技术,不能识别出矩形卡片中的文本内容。
其中,识别区域指的是用于识别文本内容等信息的特定区域,也就是说,在识别过程中具体识别的是识别区域中的信息。例如在图1和图2中,矩形框中的区域即为识别区域,具体识别该矩形框中的文本内容。在本申请实施例中,所述多边形对象指的是具有至少三条边的对象,例如包括三角形、矩形、或者梯形等形状的物体。
S302:检测出所述多边形对象的图像信息和位置。
在本申请实施例中,多边形对象的图像信息指的是能够反映出多边形对象的图像特征的信息,例如可以为多边形对象的图像矩阵(例如灰度值矩阵)等。其中,可以通过对所述待识别图像进行边缘检测,从而提取出其中的多边形对象。
在本申请实施例中,所述多边形对象的位置,可以包括多边形对象在多个特定点的位置,例如多边形对象各个顶点的位置。
S303:根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
若所述多边形对象在识别区域的位置不符合要求,则利用OCR等图像识别技术不能直接识别出多边形对象,因此,本申请实施例中利用了多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。相当于对多边形对象的形状、位置等进行了校正,使得校正后的图像,即所述投影图像能够被识别。举例说明,本申请实施例可以利用图2中识别区域的位置和矩形卡片的位置,将矩形卡片的图像矩阵投影到识别区域上,得到如图1所示的投影图像。
其中,识别区域的位置可以包括所述识别区域在多个特定点的位置,例如识别区域各个顶点的位置。其中,识别区域的边缘可以是可见的,如图2所示,也可以是隐藏不可见的,由装置内部进行设置。
在本申请实施例中,多边形对象的真实形状与识别区域的形状通常是一致的,例如图2所示均为矩形,只是在图2中,矩形卡片由于拍摄角度而造成透视失真。因此,本申请实施例中至少满足:多边形对象的直线边的数量与识别区域的直线边的数量相同。
S304:利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息。
其中,所述信息包括文本内容、图像内容等数字化信息。
由于本申请实施例中已经将多边形对象的图像信息投影到所述识别区域上,因此投影后得到的投影图像,能够符合OCR等图像识别技术对多边形对象在识别区域中的形状和位置等方面的要求,因此,利用OCR等图像识别技术能够对所述投影图像进行识别。举例说明,利用OCR对图1所示的投影图像进行识别,能够识别出矩形卡片中的卡号等文本内容。
其中,本申请实施例中可以用于笔记本、平板电脑、手机等电子设备中。
通过上述技术方案可知,本申请实施例中,待识别图像中具有多边形对象,检测出所述多边形对象的图像信息和位置,利用所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像,从而利用图像识别技术对投影图像进行识别。可见,本申请实施例中不再是直接对所述待识别图像进行识别,而是将多边形对象的图像信息投影到识别区域后才进行识别,相当于对多边形对象在识别区域中的形状和位置进行了校正,使得校正后的图像,即所述投影图像能够被识别。从而解决了因多边形对象在识别区域中的位置、形状等不符合识别要求所造成的识别失败。
可选的,所述多边形对象是原始对象发生形变后的对象,例如原始对象为图1所示的矩形卡片,所述多边形对象为图2所示的发生形变后的矩形卡片。因此步骤S303获得的投影图像实际为所述待识别图像的纠正图像,其中,所述纠正图像中具有校正后的所述原始对象;步骤S04具体包括利用图像识别技术识别所述纠正图像,获得所述原始对象中具有的信息。
在执行S301之后,即获取所述待识别图像之后,可以判断是否能够利用OCR等图像识别技术成功识别所述待识别图像,如果否,即确定出利用图像识别技术对所述待识别图像识别失败,则继续执行S302;如果是,则说明不需要对所述待识别图像进行投影,可以直接对所述待识别图像进行识别,获得所述多边形对象中具有的信息。
在本申请实施例中,所述待识别图像可以是图像采集设备采集到的图像。例如,利用用户终端的摄像头扫描图像,将扫描到的图像作为所述待识别图像。
此外,发明人发现,在向用户显示照片或者视频的过程中,也存在对其中的多边形对象进行识别的需求。然而,照片或者视频中的多边形对象往往不符合识别要求,目前并不存在一种对照片或者视频中的多边形图像进行识别的技术。因此,本申请实施例尤其适用于对照片或者视频中的多边形图像进行识别。具体地,本申请实施例的所述方法还可以包括:向用户显示图像,获取用户从显示的图像中选取的图像,作为所述待识别图像。例如,向用户播放视频的过程中,用户按下暂停键,从当前显示的图像中选取一部分,作为所述待识别图像。其中,选取的图像具体可以是选取框中的图像,并将所述选取框可以作为所述识别区域。
在本申请实施例,当多边形对象的真实形状与识别区域的形状一致时,才能够投影到识别区域上,因此,在执行S303之前,还可以检测所述多边形对象是否为N边形,如果是,则执行S303;其中,N为所述识别区域的直线边的数量和。举例说明,识别区域为矩形时,N为4,因此在执行S303之前,检测所述多边形对象是否为四边形,如果是,则执行S303;如果否,则说明无法将多边形对象投影到识别区域上,因此可以直接结束流程。
在本申请实施例的S303中对所述多边形对象进行投影。下面本申请实施例将提供一种具体的投影方式:根据多边形对象各个顶点的位置以及识别区域各个顶点的位置,生成从多边形对象到识别区域的投影矩阵,从而根据该投影矩阵,将多边形对象的图像信息投影到识别区域上。其中,该投影方式仅作为示例性的说明,不会对本申请实施例起到任何限制作用。下面具体说明。
S302可以具体包括检测出所述多边形对象的图像信息和各个顶点的位置,其中图像信息可以为图像矩阵,例如灰度值矩阵。各个顶点的位置,可以通过对待识别区域进行边缘检测,检测出所述多边形对象的边缘,从该边缘中确定出直线边,根据确定出的直线边,确定出各个直线边的交点的位置,作为多边形对象中各个顶点的位置。
S303可以具体包括根据所述多边形对象中各个顶点的位置和所述识别区域中各个顶点的位置,生成从所述多边形对象到所述识别区域的投影矩阵。根据所述投影矩阵,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
下面通过一个具体实施例,说明本申请实施例的识别方式。
请参阅图4,本申请提供了图像识别方法的另一种方法实施例。本实施例以图2所示的待识别图像为例加以说明。
本实施例的所述方法包括:
S401:获取识别区域中的彩色图像,该彩色图像中具有矩形卡片。将该彩色图像转换成如图2所示的灰度图像。本实施例中,识别区域为图2所示的矩形方框内的区域。
S402:对所述灰度图像进行高斯滤波,去除噪声。高斯滤波公式可以为:
S=G*I;
其中,I为滤波前的灰度图像的图像矩阵,G为滤波系数矩阵,S为滤波后的灰度图像的图像矩阵,*表示卷积运算。
S403:对滤波后的灰度图像进行边缘检测,得到如图5所示的边缘图像,该边缘图像包括矩形卡片的边缘。
其中,边缘检测可以具体包括以下过程:
S4031:利用一阶偏导的有限差分算法计算出滤波后的灰度图像在相互垂直的两个方向上的偏导矩阵P和Q。
例如,偏导矩阵P在坐标值(i,j)对应的值P[i,j],和偏导矩阵Q在坐标值(i,j)对应的值Q[i,j]可以分别为:
P[i,j]=(S[i,j+1]-S[i,j]+S[i+1,j+1]-S[i+1,j])/2
Q[i,j]=(S[i,j]-S[i+1,j]+S[i,j+1]-S[i+1,j+1])/2
Q[i,j]=(S[i,j]-S[i+1,j]+S[i,j+1]-S[i+1,j+1])/2
其中,S[x,y]为灰度图像的图像矩阵S在坐标值(x,y)对应的值,x可以为i、i+1等,y可以为j、j+1等。
S4032:根据偏导矩阵计算幅值矩阵M和方向角矩阵θ。
θ[i,j]=arctan(Q[i,j]/P[i,j])
其中,M[i,j]为幅值矩阵M在坐标值(i,j)对应的值,θ[i,j]为方向角矩阵θ[i,j]在坐标值(i,j)对应的值。
S4033:对幅值矩阵M进行非进行极大化值(英文:Non-maximum suppression,简称:NMS),即通过抑制梯度线上所有非屋脊峰值的幅值以细化幅值矩阵M的屋脊带,从而只保留幅值局部变化最大的点。将方向角矩阵θ的变化范围减少到圆周的四个扇区之一,每个扇区的圆心角为90°。
非极大化抑制后的幅值矩阵N,和变化后的方向角矩阵ζ为:
ζ[i,j]=Sector(θ[i,j])
N[i,j]=NMS(M[i,j],ζ[i,j])
其中,ζ[i,j]为方向角矩阵ζ在坐标值(i,j)对应的值,N[i,j]为幅值矩阵N在坐标值(i,j)对应的值,Sector函数用于将方向角矩阵的变化范围减少到圆周的四个扇区之一,NMS函数用于进行非极大化抑制。
S4034:利用双阈值算法检测、幅值矩阵N和方向角矩阵ζ进行边缘检测,得到如图5所示的边缘图像。
S404:检测所述矩形卡片是否为四边形,如果是,则执行S406,如果否,则执行S405。
其中,检测是否为四边形可以具体包括以下过程:
S4041:利用概率霍夫变换(Probabilistic Hough Transform)检测直线边。
标准霍夫变换本质上是把图像映射到参数空间上,需要计算所有的边缘点,导致运算量和所需内存空间都会很大。如果只是处理若干个边缘点,则这若干个边缘点的选取是具有一定概率性的,因此该方法被称为概率霍夫变换。该方法还有一个重要的特点就是能够检测出线端,即能够检测出图像中直线的两个端点,确切地定位图像中的直线。具体可以使用视觉库OpenCV中的HoughLinesP函数实现。
检测过程具体可以包括:
步骤A,在如图5所示的边缘图像中随机选取一个特征点,如果该点已经被标定为一条直线上的点,则继续在边缘图像中剩下的点中选取一个特征点,直到边缘图像中的所有点被全部选取。
步骤B,对步骤A中选取的特征点进行霍夫变换,累积霍夫空间中相交于同一点的直线数量。
步骤C,选取在霍夫空间内值(表示相交于同一点的直线数量)最大的点,如果该点大于第一阈值,则执行步骤D,否则返回步骤A。
步骤D,确定霍夫变换得到的最大值对应的点,从该点出发,沿着直线的方向位移,从而找到直线的两个端点;
步骤E,计算步骤D找到的直线的长度,如果大于第二阈值,则输出该直线的相关信息,返回步骤A。
S405:结束流程。
S406:检测出矩形卡片的四个顶点的位置。
例如图6所示,在S404中检测出任意两条边的端点坐标分别为(x1,y1),(x2,y2),(x3,y3)和(x4,y4),则可以根据这四个坐标,计算出这两条边相交的顶点坐标(Px,Py)。
S407:根据矩形卡片的四个顶点的位置和识别区域的四个顶点的位置,生成从矩形卡片到识别区域的投影矩阵。
其中,投影矩阵A的获取过程可以包括:
投影矩阵A为:
投影后的坐标(u',v')与投影前的坐标(u,v)的换算关系为:
因此,将矩阵卡片的四个顶点的位置代入(u,v),将投影区域的四个顶点的位置代入(u',v'),能够计算出投影矩阵A。
S408:根据图5所示的边缘图像,获取矩形卡片的图像矩阵,根据所述投影矩阵,将所述矩形卡片的图像矩阵投影到所述识别区域上,获得如图1所示的投影图像。
例如,得到投影矩阵A之后,可以利用投影后的坐标(u',v')与投影前的坐标(u,v)的换算关系,并且将矩形卡片的图像矩阵代入(u,v),得到投影后的图像矩阵。
S409:将投影图像输出到OCR引擎,OCR引擎对投影图像进行识别,识别出如图7所示的文本内容。
对应上述方法实施例,本申请还提供了对应的图像识别装置的装置实施例。
请参阅图8,本申请提供了图像识别装置的一种装置实施例,本实施例的所述装置包括:获取单元801、检测单元802、投影单元803和识别单元804。
获取单元801,用于获取待识别图像,所述待识别图像中具有多边形对象。
在本申请实施例中,并不是直接对所述待识别图像进行识别,因此所述多边形对象在识别区域的形状和位置,可以不符合OCR等图像识别技术的相应要求。其中,所述待识别图像可以为识别区域中的图像,例如图2所示,待识别图像为矩形区域中的图像,多边形对象为矩形卡片,直接通过OCR等图像识别技术,不能识别出矩形卡片中的文本内容。
其中,识别区域指的是用于识别文本内容等信息的特定区域,也就是说,在识别过程中具体识别的是识别区域中的信息。例如在图1和图2中,矩形框中的区域即为识别区域,具体识别该矩形框中的文本内容。在本申请实施例中,所述多边形对象指的是具有至少三条边的对象,例如包括三角形、矩形、或者梯形等形状的物体。
检测单元802,用于检测出所述多边形对象的图像信息和位置。
在本申请实施例中,多边形对象的图像信息指的是能够反映出多边形对象的图像特征的信息,例如可以为多边形对象的图像矩阵(例如灰度值矩阵)等。其中,可以通过对所述待识别图像进行边缘检测,从而提取出其中的多边形对象。
在本申请实施例中,所述多边形对象的位置,可以包括多边形对象在多个特定点的位置,例如多边形对象各个顶点的位置。
投影单元803,用于根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
若所述多边形对象在识别区域的位置不符合要求,则利用OCR等图像识别技术不能直接识别出多边形对象,因此,本申请实施例中利用了多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。相当于对多边形对象的形状、位置等进行了校正,使得校正后的图像,即所述投影图像能够被识别。举例说明,本申请实施例可以利用图2中识别区域的位置和矩形卡片的位置,将矩形卡片的图像矩阵投影到识别区域上,得到如图1所示的投影图像。
其中,识别区域的位置可以包括所述识别区域在多个特定点的位置,例如识别区域各个顶点的位置。其中,识别区域的边缘可以是可见的,如图2所示,也可以是隐藏不可见的,由装置内部进行设置。
在本申请实施例中,多边形对象的真实形状与识别区域的形状通常是一致的,例如图2所示均为矩形,只是在图2中,矩形卡片由于拍摄角度而造成透视失真。因此,本申请实施例中至少满足:多边形对象的直线边的数量与识别区域的直线边的数量相同。
识别单元804,用于利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息。
其中,所述信息包括文本内容、图像内容等数字化信息。
由于本申请实施例中已经将多边形对象的图像信息投影到所述识别区域上,因此投影后得到的投影图像,能够符合OCR等图像识别技术对多边形对象在识别区域中的形状和位置等方面的要求,因此,利用OCR等图像识别技术能够对所述投影图像进行识别。举例说明,利用OCR对图1所示的投影图像进行识别,能够识别出矩形卡片中的卡号等文本内容。
其中,本申请实施例的所述装置可以用于笔记本、平板电脑、手机等电子设备中。
可选的,检测出所述多边形对象的位置时,所述检测单元具体用于检测出所述多边形对象中各个顶点的位置;
所述投影单元具体用于根据所述多边形对象中各个顶点的位置和所述识别区域中各个顶点的位置,生成从所述多边形对象到所述识别区域的投影矩阵;根据所述投影矩阵,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
可选的,检测出所述多边形对象中各个顶点的位置时,所述检测单元具体用于对所述待识别图像进行边缘检测,检测出所述多边形对象的边缘;从多边形对象的边缘中检测出直线边;根据所述直线边,确定出所述多边形对象中各个顶点的位置。
可选的,所述检测单元还用于,所述投影单元将所述多边形对象的图像信息投影到所述识别区域上之前,检测所述多边形对象是否为N边形,如果是,则通知所述投影单元将所述多边形对象的图像信息投影到所述识别区域上;其中,N为所述识别区域的直线边的数量和。
可选的,所述多边形对象是原始对象发生形变后的对象;所述投影图像为所述待识别图像的纠正图像,所述纠正图像中具有校正后的所述原始对象;
所述识别单元具体用于,利用图像识别技术识别所述纠正图像,获得所述原始对象中具有的信息。
可选的,获取待识别图像时,所述获取单元具体用于:
通过显示单元向用户显示图像,获取用户从显示的图像中选取的图像,作为所述待识别图像;或者,
获取图像采集设备采集的图像,作为所述待识别图像。
可选的,还包括:
确定单元,用于在所述获取单元获取待识别图像之前,确定出利用图像识别技术对所述待识别图像识别失败。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像,所述待识别图像中具有多边形对象;
检测出所述多边形对象的图像信息和位置;
根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像;
利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息。
2.根据权利要求1所述的识别方法,其特征在于,检测出所述多边形对象的位置包括:检测出所述多边形对象中各个顶点的位置;
根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像,包括:
根据所述多边形对象中各个顶点的位置和所述识别区域中各个顶点的位置,生成从所述多边形对象到所述识别区域的投影矩阵;
根据所述投影矩阵,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
3.根据权利要求2所述的识别方法,其特征在于,检测出所述多边形对象中各个顶点的位置,包括:
对所述待识别图像进行边缘检测,检测出所述多边形对象的边缘;
从多边形对象的边缘中检测出直线边;
根据所述直线边,确定出所述多边形对象中各个顶点的位置。
4.根据权利要求1所述的识别方法,其特征在于,将所述多边形对象的图像信息投影到所述识别区域上之前,所述方法还包括:
检测所述多边形对象是否为N边形,如果是,则执行所述将所述多边形对象的图像信息投影到所述识别区域上;其中,N为所述识别区域的直线边的数量和。
5.根据权利要求1至4任一项所述的识别方法,其特征在于,所述多边形对象是原始对象发生形变后的对象;所述投影图像为所述待识别图像的纠正图像,所述纠正图像中具有校正后的所述原始对象;
利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息包括:
利用图像识别技术识别所述纠正图像,获得所述原始对象中具有的信息。
6.根据权利要求1至4任一项所述的识别方法,其特征在于,获取待识别图像包括:
向用户显示图像,获取用户从显示的图像中选取的图像,作为所述待识别图像;或者,
获取图像采集设备采集的图像,作为所述待识别图像。
7.根据权利要求1至4任一项所述的识别方法,其特征在于,获取待识别图像之前,所述方法还包括:
确定出利用图像识别技术对所述待识别图像识别失败。
8.一种图像识别装置,其特征在于,所述装置包括:
获取单元,用于获取待识别图像,所述待识别图像中具有多边形对象;
检测单元,用于检测出所述多边形对象的图像信息和位置;
投影单元,用于根据所述多边形对象的位置和识别区域的位置,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像;
识别单元,用于利用图像识别技术识别所述投影图像,获得所述多边形对象中具有的信息。
9.根据权利要求8所述的识别装置,其特征在于,所述检测单元用于检测出所述多边形对象的位置时,所述检测单元具体用于检测出所述多边形对象中各个顶点的位置;
所述投影单元具体用于根据所述多边形对象中各个顶点的位置和所述识别区域中各个顶点的位置,生成从所述多边形对象到所述识别区域的投影矩阵;根据所述投影矩阵,将所述多边形对象的图像信息投影到所述识别区域上,获得投影图像。
10.根据权利要求9所述的识别装置,其特征在于,所述检测单元用于检测出所述多边形对象中各个顶点的位置时,所述检测单元具体用于对所述待识别图像进行边缘检测,检测出所述多边形对象的边缘;从多边形对象的边缘中检测出直线边;根据所述直线边,确定出所述多边形对象中各个顶点的位置。
11.根据权利要求8所述的识别装置,其特征在于,所述检测单元还用于,检测所述多边形对象是否为N边形,如果是,则通知所述投影单元将所述多边形对象的图像信息投影到所述识别区域上;其中,N为所述识别区域的直线边的数量和。
12.根据权利要求8至11任一项所述的识别装置,其特征在于,所述多边形对象是原始对象发生形变后的对象;所述投影图像为所述待识别图像的纠正图像,所述纠正图像中具有校正后的所述原始对象;
所述识别单元具体用于,利用图像识别技术识别所述纠正图像,获得所述原始对象中具有的信息。
13.根据权利要求8至11任一项所述的识别装置,其特征在于,所述获取单元用于获取待识别图像时,所述获取单元具体用于:
通过显示单元向用户显示图像,获取用户从显示的图像中选取的图像,作为所述待识别图像;或者,
获取图像采集设备采集的图像,作为所述待识别图像。
14.根据权利要求8至11任一项所述的识别装置,其特征在于,还包括:
确定单元,用于在所述获取单元获取待识别图像之前,确定出利用图像识别技术对所述待识别图像识别失败。
CN201610430736.1A 2016-06-16 2016-06-16 一种图像识别方法及装置 Pending CN107516095A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610430736.1A CN107516095A (zh) 2016-06-16 2016-06-16 一种图像识别方法及装置
PCT/US2017/037631 WO2017218745A1 (en) 2016-06-16 2017-06-15 Image recognition method and apparatus
US15/623,746 US20170365061A1 (en) 2016-06-16 2017-06-15 Image recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610430736.1A CN107516095A (zh) 2016-06-16 2016-06-16 一种图像识别方法及装置

Publications (1)

Publication Number Publication Date
CN107516095A true CN107516095A (zh) 2017-12-26

Family

ID=60660849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610430736.1A Pending CN107516095A (zh) 2016-06-16 2016-06-16 一种图像识别方法及装置

Country Status (3)

Country Link
US (1) US20170365061A1 (zh)
CN (1) CN107516095A (zh)
WO (1) WO2017218745A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407902A (zh) * 2016-08-31 2017-02-15 西北工业大学 一种基于几何差异的飞机目标识别方法
CN108364311A (zh) * 2018-01-29 2018-08-03 深圳市亿图视觉自动化技术有限公司 一种金属部件自动定位方法及终端设备
CN109271982A (zh) * 2018-09-20 2019-01-25 西安艾润物联网技术服务有限责任公司 多个识别区域识别方法、识别终端及可读存储介质
CN110060270A (zh) * 2019-04-25 2019-07-26 宁锐慧创信息科技南京有限公司 一种适用于低成像质量多边形管状物体的边缘检测方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509948A (zh) * 2018-02-13 2018-09-07 浙江天地人科技有限公司 一种印章印文真伪鉴别系统和方法
CN109492672A (zh) * 2018-10-17 2019-03-19 福州大学 一种自然场景下快速、鲁棒的银行卡定位与分类方法
CN111028313B (zh) * 2019-12-26 2020-10-09 浙江口碑网络技术有限公司 桌台分布图像生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217444A (zh) * 2013-06-03 2014-12-17 支付宝(中国)网络技术有限公司 定位卡片区域的方法和设备
CN105096299A (zh) * 2014-05-08 2015-11-25 北京大学 多边形检测方法和多边形检测装置
CN105095900A (zh) * 2014-05-04 2015-11-25 阿里巴巴集团控股有限公司 一种提取标准卡片中特定信息的方法和装置
CN105512658A (zh) * 2015-12-03 2016-04-20 小米科技有限责任公司 矩形物体的图像识别方法及装置
CN105590298A (zh) * 2014-11-07 2016-05-18 三星电子株式会社 从图像提取并校正对象的图像数据

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5761328A (en) * 1995-05-22 1998-06-02 Solberg Creations, Inc. Computer automated system and method for converting source-documents bearing alphanumeric text relating to survey measurements
US20140369567A1 (en) * 2006-04-04 2014-12-18 Cyclops Technologies, Inc. Authorized Access Using Image Capture and Recognition System
US8098936B2 (en) * 2007-01-12 2012-01-17 Seiko Epson Corporation Method and apparatus for detecting objects in an image
US20130085935A1 (en) * 2008-01-18 2013-04-04 Mitek Systems Systems and methods for mobile image capture and remittance processing
US9672510B2 (en) * 2008-01-18 2017-06-06 Mitek Systems, Inc. Systems and methods for automatic image capture and processing of documents on a mobile device
US20130002848A1 (en) * 2010-01-15 2013-01-03 Innovascreen Inc Stage adaptor for imaging biological specimens
US8731244B2 (en) * 2011-07-28 2014-05-20 Xerox Corporation Systems and methods for improving image recognition
US9691163B2 (en) * 2013-01-07 2017-06-27 Wexenergy Innovations Llc System and method of measuring distances related to an object utilizing ancillary objects
US10789554B2 (en) * 2014-01-08 2020-09-29 Stubhub, Inc. Validity determination of an event ticket and automatic population of admission information
CN103996170B (zh) * 2014-04-28 2017-01-18 深圳市华星光电技术有限公司 一种具有超高解析度的图像边缘锯齿消除方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217444A (zh) * 2013-06-03 2014-12-17 支付宝(中国)网络技术有限公司 定位卡片区域的方法和设备
CN105095900A (zh) * 2014-05-04 2015-11-25 阿里巴巴集团控股有限公司 一种提取标准卡片中特定信息的方法和装置
CN105096299A (zh) * 2014-05-08 2015-11-25 北京大学 多边形检测方法和多边形检测装置
CN105590298A (zh) * 2014-11-07 2016-05-18 三星电子株式会社 从图像提取并校正对象的图像数据
CN105512658A (zh) * 2015-12-03 2016-04-20 小米科技有限责任公司 矩形物体的图像识别方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407902A (zh) * 2016-08-31 2017-02-15 西北工业大学 一种基于几何差异的飞机目标识别方法
CN108364311A (zh) * 2018-01-29 2018-08-03 深圳市亿图视觉自动化技术有限公司 一种金属部件自动定位方法及终端设备
CN108364311B (zh) * 2018-01-29 2020-08-25 深圳市亿图视觉自动化技术有限公司 一种金属部件自动定位方法及终端设备
CN109271982A (zh) * 2018-09-20 2019-01-25 西安艾润物联网技术服务有限责任公司 多个识别区域识别方法、识别终端及可读存储介质
CN110060270A (zh) * 2019-04-25 2019-07-26 宁锐慧创信息科技南京有限公司 一种适用于低成像质量多边形管状物体的边缘检测方法
CN110060270B (zh) * 2019-04-25 2021-05-04 宁锐慧创信息科技南京有限公司 一种适用于低成像质量多边形管状物体的边缘检测方法

Also Published As

Publication number Publication date
US20170365061A1 (en) 2017-12-21
WO2017218745A1 (en) 2017-12-21

Similar Documents

Publication Publication Date Title
CN107516095A (zh) 一种图像识别方法及装置
CN110473242B (zh) 一种纹理特征提取方法、纹理特征提取装置及终端设备
CN109427066A (zh) 任意角度的边缘检测方法
AU2011250829B2 (en) Image processing apparatus, image processing method, and program
CN108351961A (zh) 图像及特征质量、用于眼部血管及面部识别的图像增强及特征提取及针对生物识别系统融合眼部血管与面部及/或子面部信息
US20110123114A1 (en) Character recognition device and method and computer-readable medium controlling the same
CN105631449B (zh) 一种图片分割方法、装置及设备
Christlein et al. A study on features for the detection of copy-move forgeries
CN102663379A (zh) 一种基于图像识别的阅卷方法及系统
US20210319250A1 (en) Matching method and apparatus, electronic device, computer-readable storage medium, and computer program
CN109308465A (zh) 表格线检测方法、装置、设备及计算机可读介质
CN109190617B (zh) 一种图像的矩形检测方法、装置及存储介质
CN104008542A (zh) 一种针对特定平面图形的快速角点匹配方法
CN109308716A (zh) 一种图像匹配方法、装置、电子设备及存储介质
CN108764249A (zh) 一种旋转不变多源影像局部特征描述方法、系统和装置
WO2021205219A1 (en) Matching method and apparatus, electronic device, computer-readable storage medium, and computer program
CN110378351A (zh) 印章鉴别方法及装置
US20120069195A1 (en) Pattern of Color Codes
CN104268550B (zh) 特征提取方法及装置
CN105989377A (zh) 一种字符识别方法及装置
CN111079626A (zh) 一种活体指纹识别方法、电子设备及计算机可读存储介质
WO2022199395A1 (zh) 人脸活体检测方法、终端设备及计算机可读存储介质
JP2010128616A (ja) 円検出装置
JP3372419B2 (ja) 物体認識方法
CN108647640A (zh) 人脸识别的方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171226