CN105117723B - 一种图像识别方法及装置 - Google Patents

一种图像识别方法及装置 Download PDF

Info

Publication number
CN105117723B
CN105117723B CN201510504371.8A CN201510504371A CN105117723B CN 105117723 B CN105117723 B CN 105117723B CN 201510504371 A CN201510504371 A CN 201510504371A CN 105117723 B CN105117723 B CN 105117723B
Authority
CN
China
Prior art keywords
axis
color
pixel
recognized
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510504371.8A
Other languages
English (en)
Other versions
CN105117723A (zh
Inventor
张家重
董毅
李光瑞
王玉奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Financial Information Technology Co Ltd
Original Assignee
Inspur Financial Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Financial Information Technology Co Ltd filed Critical Inspur Financial Information Technology Co Ltd
Priority to CN201510504371.8A priority Critical patent/CN105117723B/zh
Publication of CN105117723A publication Critical patent/CN105117723A/zh
Application granted granted Critical
Publication of CN105117723B publication Critical patent/CN105117723B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts

Abstract

本发明提供了一种图像识别方法及装置,该方法包括:预先建立数据空间,该数据空间中的一个坐标轴为色彩轴;获取待识别图像中的每个像素点的色彩信息;根据所述待识别图像的每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,以形成在所述色彩轴上的至少一个图层;对每个图层进行识别。本发明提供了一种图像识别方法及装置,能够提高图像的识别率。

Description

一种图像识别方法及装置
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像识别方法及装置。
背景技术
图像识别,是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。OCR(Optical Character Recognition,光学字符识别)技术,是图像识别技术中的一种,在图像内容识别中应用比较广泛。
现有技术中主要通过OCR技术对图像进行识别。获取票据的图像,通过光学手段将票据的图像中的字符轮廓描画出来,然后与标准字库中字库模板进行对比,找到相匹配的字库模板。
通过上述描述可见,现有技术中的识别方法中,总是试图通过高对比度的图像内容去分析和识别字符的几何结构,当图像中色彩较复杂或几何结构之间的色彩较接近时,字符的识别率较低。以银行现金支票为例,不但票据自身的背景图案复杂,色彩多变,而且机打编号也多以彩色为主,再加上原始图标、字体、印章,以及手写文本的颜色也多有不同,如果使用传统的OCR识别技术很难得到正确识别结果的。总之,图像内容的识别率是与图像本身的内容复杂度相关的,背景与文字的色彩对比度越高,包含的色彩数越少,识别率就会越高,反之则识别率越低。
发明内容
有鉴于此,本发明提供了一种图像识别方法及装置,能够提高图像的识别率。
一方面,本发明提供了一种图像识别方法,包括:预先建立数据空间,该数据空间中的一个坐标轴为色彩轴,还包括:
S1:获取待识别图像中的每个像素点的色彩信息;
S2:根据所述待识别图像的每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,以形成在所述色彩轴上的至少一个图层;
S3:对每个图层进行识别。
进一步地,该方法包括:所述色彩信息为色彩值;
所述S2中,所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,包括:将当前像素点加载到所述色彩轴上与当前像素点的色彩值大小相同的坐标位置处。
进一步地,该方法包括:所述色彩信息为色彩值;
所述S2中,所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,包括:设置待识别图像中色彩值与色彩级别的一一对应关系,将当前像素点加载到所述色彩轴上与当前像素点的色彩值对应的色彩级别大小相同的坐标位置处。
进一步地,还包括:所述数据空间中的Y轴为所述色彩轴;
所述数据空间中还包括X轴和Z轴,X轴和Z轴均为位置轴;
所述S2进一步包括:获取所述待识别图像中每个像素点的位置信息,根据每一个像素点的位置信息,将所述待识别图像中的每个像素点加载到所述数据空间中X轴和Z轴的对应位置。
进一步地,所述获取所述待识别图像中每个像素点的位置信息,包括:将所述待识别图像中的一个指定像素点的坐标设置为在X轴和Z轴的值分别为0;根据所述待识别图像中其他每一个像素点相对于所述指定像素点的位置,确定所述待识别图像中其他每一个像素点在X轴和Z轴的坐标值。
进一步地,所述S3,包括:
对每个图层进行分割,分割出每个图层对应的几何结构和文本内容;
还包括:根据预设的校验信息,对分割出的几何结构和文本内容进行校验。
另一方面,本发明提供了一种图像识别装置,包括:
建立单元,用于建立数据空间,该数据空间中的一个坐标轴为色彩轴;
色彩信息获取单元,用于获取待识别图像中的每个像素点的色彩信息;
加载单元,用于根据所述待识别图像的每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,以形成在所述色彩轴上的至少一个图层;
识别单元,用于对每个图层进行识别。
进一步地,该装置包括:所述色彩信息为色彩值;
所述加载单元,在执行所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置时,具体执行:将当前像素点加载到所述色彩轴上与当前像素点的色彩值大小相同的坐标位置处。
进一步地,该装置包括:所述色彩信息为色彩值;
所述加载单元,在执行所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置时,具体执行:设置待识别图像中色彩值与色彩级别的一一对应关系,将当前像素点加载到所述色彩轴上与当前像素点的色彩值对应的色彩级别大小相同的坐标位置处。
进一步地,还包括:所述数据空间中的Y轴为所述色彩轴;
所述数据空间中还包括X轴和Z轴,X轴和Z轴均为位置轴;
所述加载单元,进一步用于获取所述待识别图像中每个像素点的位置信息,根据每一个像素点的位置信息,将所述待识别图像中的每个像素点加载到所述数据空间中X轴和Z轴的对应位置。
进一步地,所述加载单元,在执行所述获取所述待识别图像中每个像素点的位置信息时,具体执行:将所述待识别图像中的一个指定像素点的坐标设置为在X轴和Z轴的值分别为0;根据所述待识别图像中其他每一个像素点相对于所述指定像素点的位置,确定所述待识别图像中其他每一个像素点在X轴和Z轴的坐标值。
进一步地,所述识别单元,用于对每个图层进行分割,分割出每个图层对应的几何结构和文本内容;
还包括:验证单元,用于根据预设的校验信息,对分割出的几何结构和文本内容进行校验。
本发明提供的一种图像识别方法及装置,建立数据空间,在该数据空间中设置有色彩轴,将待识别图像在数据空间中的色彩轴上根据色彩信息分层,减少了每层中的色彩数,减小了每个图层的色彩的复杂度,然后对每层进行识别,提高了图像的识别率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种图像识别方法的流程图;
图2是本发明一实施例提供的另一种图像识别方法的流程图;
图3是本发明一实施例提供的一种数据空间的结构示意图;
图4是本发明一实施例提供的一种图像识别装置的示意图;
图5是本发明一实施例提供的另一种图像识别装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种图像识别方法,该方法可以包括以下步骤:
S0:预先建立数据空间,该数据空间中的一个坐标轴为色彩轴;
S1:获取待识别图像中的每个像素点的色彩信息;
S2:根据所述待识别图像的每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,以形成在所述色彩轴上的至少一个图层;
S3:对每个图层进行识别。
通过本发明实施例提供的一种图像识别方法,建立数据空间,在该数据空间中设置有色彩轴,将待识别图像在数据空间中的色彩轴上根据色彩信息分层,减少了每层中的色彩数,减小了每个图层的色彩的复杂度,然后对每层进行识别,提高了图像的识别率。
色彩值表征了像素点的颜色,色彩值相同则颜色相同,将相同色彩值的像素点分到同一个图层中,则可以按照颜色来提取待识别图像中的不同部分,在识别每个图层时,由于该图层中的像素点的色彩值相同,所有该图层中只有一个颜色,识别结果更加准确。在一种可能的实现方式中,所述色彩信息为色彩值;
所述S2中,所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,可以通过以下实现方式来实现:将当前像素点加载到所述色彩轴上与当前像素点的色彩值大小相同的坐标位置处。
另外,由于色彩值的大小范围比较广,在待识别图像中,可能会有比较大的色彩值,在处理色彩值时会增加计算量。而这里通过色彩值主要是为了将不同的色彩值进行区分,并不需要具体大小,因此,可以对待识别图像中的色彩值进行分级,采用级别来代替具体的色彩值。在一种可能的实现方式中,所述S2中,所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,可以通过以下实现方式来实现:设置待识别图像中色彩值与色彩级别的一一对应关系,将当前像素点加载到所述色彩轴上与当前像素点的色彩值对应的色彩级别大小相同的坐标位置处。举例来说,待识别图像中有5种色彩值,则可以将这5种色彩值分成5个色彩级别,在划分级别时,可以按照色彩值的大小来划分。
为了能够在数据空间中准确的描述待识别图像,除了要知道待识别图像的色彩信息外,要知道待识别图像中各像素点的位置信息,将各像素点的位置信息通过两个维度在数据空间中描述出来。该方法还包括:所述数据空间中的Y轴为所述色彩轴;所述数据空间中还包括X轴和Z轴,X轴和Z轴均为位置轴;
所述S2进一步包括:获取所述待识别图像中每个像素点的位置信息,根据每一个像素点的位置信息,将所述待识别图像中的每个像素点加载到所述数据空间中X轴和Z轴的对应位置。
具体地,所述S2,包括:根据当前像素点的位置信息,确定当前像素点的X轴坐标和Z轴坐标;根据当前像素点的色彩值,确定当前像素点的Y轴坐标;根据当前像素点的X轴坐标、Z轴坐标和Y轴坐标,确定当前像素点在所述数据空间中的坐标,将当前像素点加载到所述数据空间中。
在该实现方式中,通过X轴与Z轴确定待识别图像中各个像素点之间的位置关系,实现了将待识别图像在数据空间中的完整呈现。
在一种可能的实现方式中,所述获取所述待识别图像中每个像素点的位置信息,包括:将所述待识别图像中的一个指定像素点的坐标设置为在X轴和Z轴的值分别为0;根据所述待识别图像中其他每一个像素点相对于所述指定像素点的位置,确定所述待识别图像中其他每一个像素点在X轴和Z轴的坐标值。
在识别图像后,可以对图像中的内容进行校验。在一种实现方式中,所述S4,包括:对每个图层进行分割,分割出每个图层对应的几何结构和文本内容;
还包括:根据预设的校验信息,对分割出的几何结构和文本内容进行校验。
对于分割出的文本内容,可以通过以下方式进行识别:将每个文本内容分别与标准字库中的字库模板进行匹配,将相匹配的字库模板作为当前文本内容的识别结果。
为使本发明的目的、技术方案和优点更加清楚,下面结合附图及具体实施例对本发明作进一步地详细描述。
将票据作为识别对象,在现有的票据信息识别技术中,对OCR技术的使用都是较为广泛的,然而传统的OCR文字识别过程存在几种制约因素始终无法克服,这些因素不但严重降低了该技术的文字识别能力,对技术应用的范围也产生了诸多影响,从而使得票据识别技术的发展始终难以获得重大的突破,这些制约主要表现为以下几个方面:
在OCR中,不同语言文字、字符、数字之间的识别都是以字库模板为基准,而这些内容之间又难免存在冲突的可能性,造成OCR识别字库的重叠/干扰现象,因此,对于混合内容的识别问题在该领域中始终存在。在票据中的多同语言混合使得识别难度较大,字符、数字与文字的混合编码更进一步提升了该难度。
传统模式的文字识别过分依赖于字库模板的对比结果,而对字形结构与几何形体的识别算法涉猎较少,很多连体字虽然会破坏单一文字的字形结构,但是却仍然会包含用于识别基本字形的几何特征,然而,传统的OCR识别方法对于如何将这些几何特征从图像中识别出来的能力较弱,总之,字体潦草的图像文字识别率较低,一般而言手写体识别率要远低于印刷体识别率,而对某些艺术字、连笔字的识别就更加难以保证。
在票据中,由于复杂的色彩或图像结构会对传统的OCR技术的识别过程造成干扰。传统的OCR识别技术总是试图通过高对比度的图像内容去分析与识别文字的几何结构,当这些结构之间的色彩差值小于某一阙值的时候,识别的结果就会不可测。多种颜色混合的图像文字识别率较低,在OCR文字识别领域中,图像内容的识别率是与图像本身的内容复杂度相关的,背景与文字的色彩对比度越高,包含的色彩数越少,识别率就会越高,反之则识别率越低。
总之,传统的OCR文字识别技术已经无法满足现有的票据识别需求,这主要体现在以下几个方面:
传统的票据一般都包含阿拉伯数字、中文大写数字、字符以及汉字等内容,如果以传统的OCR技术进行全票据识别则结果难以接受。现有的解决办法多以票据的分区识别为主,系统的实现要针对每一种票据进行几何化分割,对不同区域中的内容进行逐一识别,如此一来不但识别过程慢、兼容性低、工作量大,而且对系统的后期维护成本要求也较高,因此并不能满足票据式样复杂性的需求。
票据识别与传统的印刷体文件识别不同,票据中的有效内容多以手写填入为主,而人为填入的内容具有不可控、不可测性,即便是填写规范的票据,文字字体、字形的识别也是较为困难的过程,特别是在文字内容与票据栏边缘相重合时,如何正确的将书写文字从票据中识别而出是当前票据识别技术所要面对的主要困难之一。
票据色彩具有多样性,以银行现金支票为例,不但票据自身的背景图案复杂,色彩多变,而且机打编号也多以彩色为主,再加上原始图标、字体、印章,以及手写文本的颜色也多有不同,如果使用传统的OCR识别技术是无法得到正确校验结果的。
针对票据色彩多样复杂的问题,本发明实施例提供了一种图像识别方法,如图2所示,该方法可以包括以下步骤:
步骤201:建立数据空间,该数据空间包括:X轴、Z轴和Y轴,Y轴为色彩轴,X轴和Z轴均为位置轴。
数据空间的结构如图3所示。在建立数据空间时,可以通过待识别票据的分辨率来确定数据空间的大小,以便能够在数据空间中填充待识别票据的所有像素点。
步骤202:获取待识别票据中每个像素点的色彩值和位置信息。
另外,还可以获取待识别票据的像素点的数量、分辨率等信息。
具体地,关于位置信息的获取,包括:将所述待识别图像中的一个指定像素点的坐标设置为在X轴和Z轴的值分别为0;根据所述待识别图像中其他每一个像素点相对于所述指定像素点的位置,确定所述待识别图像中其他每一个像素点在X轴和Z轴的坐标值。
步骤203:根据待识别票据的每个像素点的色彩值,将待识别票据中的每个像素点加载到数据空间中Y轴的对应位置,以形成在所述Y轴上的至少一个图层,并根据每一个像素点的位置信息,将待识别票据中的每个像素点加载到数据空间中X轴和Z轴的对应位置。
如图3所示,待识别票据中存在一表格ABCD,其中内嵌一表格EFGH,且两者色彩值不同。图中包括像素点A、B、C、D、E、F、G、H。以像素点A和像素点F为例,在待识别票据上像素点A和像素点F在X轴方向上相差1个单位,则可以将像素点A与像素点F在X轴上的坐标设置为相差1,在待识别票据上像素点A和像素点F在Z轴方向上相差1个单位,则可以将像素点A与像素点F在Z轴上的坐标设置为相差1,如图3中,像素点A的X轴坐标为3,像素点F的X轴坐标为4,像素点A的Z轴坐标为0,像素点F的Z轴坐标为1。其他像素点以此类推。
在待识别票据上,像素点A的色彩值与像素点E的色彩值不同,在数据空间中,像素点A与像素点E位于不同的图层中,Y轴坐标不同。可以将像素点A的Y轴坐标设置为2,将像素点E的Y轴坐标设置为6。其他像素点依次类推。
如图3所示,得到以下坐标:像素点A(3,2,0)、B(3,2,1)、C(8,2,1)、D(8,2,0)、E(4,6,0)、F(4,6,1)、G(7,6,1)、H(7,6,0)。这些坐标表征了像素点在数据空间中的位置,得到待识别票据中的每个像素点的坐标即可将待设备票据加载到数据空间中。
将待识别票据加载到数据空间中后,Y轴坐标相同的像素点位于同一个图层中,实现了按照色彩值对待识别票据分层,得到颜色单一的图层。
步骤204:对每个图层进行识别。
由于每个图层中颜色单一,识别时结果更加准确。在每个图层进行识别时,可以通过OCR技术进行识别。
如上所述,通过本发明实施例提供的方法,可以将票据中的不同组成元素按照色彩值进行分割,并在最大程度上保证了票据内容的完整性,这就解决了票据色彩多样性所带来的问题,同时也为票据内容的正确分割提供了客观依据。在数据空间之中,相邻像素点之间所构成的几何结构存在连续性关系,图3中,ABCD或EFGH所组成的几何结构的封闭性与持续性不但可以用于验证票据基础结构的完整性,同样也可以用来改进字体、符号与手写输入的识别效率。这是因为通过数据空间所获取的文本几何结构可以轻易排除传统OCR模式下切割文字时所可能造成重叠/干扰,不但文字的长、宽、高可以通过数据空间中的坐标值轻易算出,文字的比划间隔、连接方式等识别元素也可以通过平面几何算法进行获取,从而降低识别错误率。以数字0与字母o的识别为例,传统的OCR识别模式是以0与o的特征码为基本依据,然而在数据空间中,0与o的识别还可以包含更多的识别因素,如字形大小、笔划曲率、几何特征等。
在对待识别票据进行识别之后,可以通过识别出的信息对待识别票据进行验证。在每个图层中,分割出相应的几何结构、文本内容等信息。通过这些信息和预设的校验信息,可以对票据进行校验,校验信息可以是通过完整票据得到的信息,例如:票据中包含的表格内容、票据中必须填写的部分等。
根据上述识别出的内容可以校验票据的完整性,如:当前票据是否缺少相应的几何结构,例如印章等,是否包含必要的几何特征,例如:如印章的形状是否完整等。
根据上述识别出的内容可以校验票据的结构完整性,可以校验票据的表格是否有中断、票据是否被损坏、缺失等。
根据上述识别出的内容可以校验票据的结构完整性,可以校验票据的文本内容。某些票据中的某些内容是必须要填写的,如姓名、联系方式等,可以校验必填模块中是否存在相应内容,如存在则将分割后的填写信息进行识别。
上述实施例可以通过以下步骤实现:
步骤1:调用函数MDS_InitBillIdentify(),初始化多维化票据信息识别模块
步骤2:调用函数MDS_ReadPicture(),读取待识别票据的图像文件,将文件内容还原为原始像素信息,并与分辨率、色彩信息、位置信息等相关内容一同存储到mds_pic_info结构之中。原始像素信息为待识别票据的每个像素点的信息。
步骤3:调用函数MDS_CreateIdentifySpace(),根据结构体mds_pic_info中的相关参数创建数据空间,主要是每个像素点的位置信息、色彩信息等。
步骤4:调用函数MDS_SetSpacePoint(),将结构体中的像素点依次填充到数据空间之中。主要是确定每个像素点的在数据空间中的坐标。
步骤5:调用函数MDS_AnalyzePointLayer(),分析数据空间中的分层信息,去除多余的噪点。
步骤6:调用函数MDS_AnalyzeLayer(),分析不同分层中的几何结构信息,分拆相应的几何结构与文本内容,并将分析结果存储到结构体mds_layer_info中,用于之后的识别与校验。
步骤7:调用函数MDS_BillIntegrityCheck(),根据预设的预设的校验信息来校验票据的完整性,如:是否包含指定的几何结构特征等。
步骤8:调用函数MDS_StructIntegrityCheck(),依次校验每个分层中的几何结构完整性,如:是否存在缺失、毁损等现象。
步骤9:调用函数MDS_MessageCheck(),校验必填模块中是否存在相应内容,如存在则将分割后的填写信息进行识别。
步骤10:输出识别结果。
如图4、图5所示,本发明实施例提供了一种图像识别装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图4所示,为本发明实施例提供的一种图像识别装置所在设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图5所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的一种图像识别装置,包括:
建立单元501,用于建立数据空间,该数据空间中的一个坐标轴为色彩轴;
色彩信息获取单元502,用于获取待识别图像中的每个像素点的色彩信息;
加载单元503,用于根据所述待识别图像的每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,以形成在所述色彩轴上的至少一个图层;
识别单元504,用于对每个图层进行识别。
在一种可能的实现方式中,所述色彩信息为色彩值;
所述加载单元503,在执行所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置时,可以通过以下两种方式实现:将当前像素点加载到所述色彩轴上与当前像素点的色彩值大小相同的坐标位置处;或,设置待识别图像中色彩值与色彩级别的一一对应关系,将当前像素点加载到所述色彩轴上与当前像素点的色彩值对应的色彩级别大小相同的坐标位置处。
在一种可能的实现方式中,该装置还包括:所述数据空间中的Y轴为所述色彩轴;所述数据空间中还包括X轴和Z轴,X轴和Z轴均为位置轴;
所述加载单元503,进一步用于获取所述待识别图像中每个像素点的位置信息,根据每一个像素点的位置信息,将所述待识别图像中的每个像素点加载到所述数据空间中X轴和Z轴的对应位置。
在一种可能的实现方式中,所述加载单元503,在执行所述获取所述待识别图像中每个像素点的位置信息时,具体执行:将所述待识别图像中的一个指定像素点的坐标设置为在X轴和Z轴的值分别为0;根据所述待识别图像中其他每一个像素点相对于所述指定像素点的位置,确定所述待识别图像中其他每一个像素点在X轴和Z轴的坐标值。
在一种可能的实现方式中,所述识别单元504,用于对每个图层进行分割,分割出每个图层对应的几何结构和文本内容;
还包括:校验单元,用于根据预设的校验信息,对分割出的几何结构和文本内容进行校验。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供的一种图像识别方法及装置,具有如下有益效果:
1、通过本发明实施例提供的一种图像识别方法及装置,建立数据空间,在该数据空间中设置有色彩轴,将待识别图像在数据空间中的色彩轴上根据色彩信息分层,减少了每层中的色彩数,减小了每个图层的色彩的复杂度,然后对每层进行识别,提高了图像的识别率。
2、通过本发明实施例提供的一种图像识别方法及装置,将待识别图像中的不同组成元素按照色彩值进行分层,在最大程度上保证了待识别图像内容的完整性,降低了色彩多样性对图像识别的影响,为待识别图像内容的正确分割提供了客观依据,提高了图像识别的准确度。
3、通过本发明实施例提供的一种图像识别方法及装置,将待识别图像加载到数据空间中,每个像素点对应一个坐标值,通过坐标值可以精确的确定像素点之间的位置关系、色彩值,进而可以对待识别图像进行精确的分割,识别过程更加方便,识别结果更加准确。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃〃〃〃〃〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种图像识别方法,其特征在于,预先建立数据空间,该数据空间中的一个坐标轴为色彩轴,还包括:
S1:获取待识别图像中的每个像素点的色彩信息;
S2:根据所述待识别图像的每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,以形成在所述色彩轴上的至少一个图层;
S3:对每个图层进行识别;
所述色彩信息为色彩值;
所述S2中,所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,包括:将当前像素点加载到所述色彩轴上与当前像素点的色彩值大小相同的坐标位置处;
和/或,
所述色彩信息为色彩值;
所述S2中,所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,包括:设置待识别图像中色彩值与色彩级别的一一对应关系,将当前像素点加载到所述色彩轴上与当前像素点的色彩值对应的色彩级别大小相同的坐标位置处。
2.根据权利要求1所述的方法,其特征在于,还包括:
所述数据空间中的Y轴为所述色彩轴;
所述数据空间中还包括X轴和Z轴,X轴和Z轴均为位置轴;
所述S2进一步包括:获取所述待识别图像中每个像素点的位置信息,根据每一个像素点的位置信息,将所述待识别图像中的每个像素点加载到所述数据空间中X轴和Z轴的对应位置。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待识别图像中每个像素点的位置信息,包括:将所述待识别图像中的一个指定像素点的坐标设置为在X轴和Z轴的值分别为0;根据所述待识别图像中其他每一个像素点相对于所述指定像素点的位置,确定所述待识别图像中其他每一个像素点在X轴和Z轴的坐标值。
4.根据权利要求1所述的方法,其特征在于,所述S3,包括:
对每个图层进行分割,分割出每个图层对应的几何结构和文本内容;
还包括:根据预设的校验信息,对分割出的几何结构和文本内容进行校验。
5.一种图像识别装置,其特征在于,
建立单元,用于建立数据空间,该数据空间中的一个坐标轴为色彩轴;
色彩信息获取单元,用于获取待识别图像中的每个像素点的色彩信息;
加载单元,用于根据所述待识别图像的每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置,以形成在所述色彩轴上的至少一个图层;
识别单元,用于对每个图层进行识别;
所述色彩信息为色彩值;
所述加载单元,在执行所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置时,具体执行:将当前像素点加载到所述色彩轴上与当前像素点的色彩值大小相同的坐标位置处;
和/或,
所述色彩信息为色彩值;
所述加载单元,在执行所述根据每个像素点的色彩信息,将所述待识别图像中的每个像素点加载到所述数据空间中色彩轴的对应位置时,具体执行:设置待识别图像中色彩值与色彩级别的一一对应关系,将当前像素点加载到所述色彩轴上与当前像素点的色彩值对应的色彩级别大小相同的坐标位置处。
6.根据权利要求5所述的装置,其特征在于,还包括:
所述数据空间中的Y轴为所述色彩轴;
所述数据空间中还包括X轴和Z轴,X轴和Z轴均为位置轴;
所述加载单元,进一步用于获取所述待识别图像中每个像素点的位置信息,根据每一个像素点的位置信息,将所述待识别图像中的每个像素点加载到所述数据空间中X轴和Z轴的对应位置。
7.根据权利要求6所述的装置,其特征在于,所述加载单元,在执行所述获取所述待识别图像中每个像素点的位置信息时,具体执行:将所述待识别图像中的一个指定像素点的坐标设置为在X轴和Z轴的值分别为0;根据所述待识别图像中其他每一个像素点相对于所述指定像素点的位置,确定所述待识别图像中其他每一个像素点在X轴和Z轴的坐标值。
8.根据权利要求5所述的装置,其特征在于,所述识别单元,用于对每个图层进行分割,分割出每个图层对应的几何结构和文本内容;
还包括:验证单元,用于根据预设的校验信息,对分割出的几何结构和文本内容进行校验。
CN201510504371.8A 2015-08-17 2015-08-17 一种图像识别方法及装置 Active CN105117723B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510504371.8A CN105117723B (zh) 2015-08-17 2015-08-17 一种图像识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510504371.8A CN105117723B (zh) 2015-08-17 2015-08-17 一种图像识别方法及装置

Publications (2)

Publication Number Publication Date
CN105117723A CN105117723A (zh) 2015-12-02
CN105117723B true CN105117723B (zh) 2018-07-06

Family

ID=54665706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510504371.8A Active CN105117723B (zh) 2015-08-17 2015-08-17 一种图像识别方法及装置

Country Status (1)

Country Link
CN (1) CN105117723B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832692A (zh) * 2017-10-31 2018-03-23 浪潮金融信息技术有限公司 一种人脸图像处理方法和装置
CN108038475A (zh) * 2017-12-29 2018-05-15 浪潮金融信息技术有限公司 人脸图像识别方法及装置、计算机存储介质、终端
CN108229378A (zh) * 2017-12-29 2018-06-29 浪潮金融信息技术有限公司 人脸图像数据生成方法及装置、计算机存储介质、终端
CN111259728A (zh) * 2019-12-20 2020-06-09 中译语通文娱科技(青岛)有限公司 一种视频图像信息标注方法
CN111582290B (zh) * 2020-05-13 2023-04-07 郑州轻工业大学 一种计算机图像识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0932115A2 (en) * 1998-01-23 1999-07-28 Seiko Epson Corporation Apparatus and method for pattern recognition
CN1760860B (zh) * 2004-10-15 2010-09-08 富士通株式会社 设备零件装配图图像检索装置及检索方法
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102385707A (zh) * 2010-08-30 2012-03-21 阿里巴巴集团控股有限公司 一种数字图像识别的方法、装置及爬虫服务器
CN104333747A (zh) * 2014-11-28 2015-02-04 广东欧珀移动通信有限公司 一种立体拍照方法和立体拍照设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0932115A2 (en) * 1998-01-23 1999-07-28 Seiko Epson Corporation Apparatus and method for pattern recognition
CN1760860B (zh) * 2004-10-15 2010-09-08 富士通株式会社 设备零件装配图图像检索装置及检索方法
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN102385707A (zh) * 2010-08-30 2012-03-21 阿里巴巴集团控股有限公司 一种数字图像识别的方法、装置及爬虫服务器
CN104333747A (zh) * 2014-11-28 2015-02-04 广东欧珀移动通信有限公司 一种立体拍照方法和立体拍照设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"轮式餐厅服务机器人移动定位技术研究";于清晓;《中国博士学位论文全文数据库 信息科技辑》;20130815 *

Also Published As

Publication number Publication date
CN105117723A (zh) 2015-12-02

Similar Documents

Publication Publication Date Title
CN105117723B (zh) 一种图像识别方法及装置
CN105450411B (zh) 利用卡片特征进行身份验证的方法、装置及系统
CN109684803B (zh) 基于手势滑动的人机验证方法
CN107784301A (zh) 用于识别图像中文字区域的方法和装置
CN110232311A (zh) 手部图像的分割方法、装置及计算机设备
CN108399386A (zh) 饼图中的信息提取方法及装置
US8571264B2 (en) Method of using structural models for optical recognition
CN109446873A (zh) 手写字体识别方法、系统以及终端设备
CN109299663A (zh) 手写字体识别方法、系统以及终端设备
CN108875734A (zh) 肝脏癌变定位方法、装置及存储介质
CN110490232A (zh) 训练文字行方向预测模型的方法、装置、设备、介质
US9575935B2 (en) Document file generating device and document file generation method
CN104573747A (zh) 文字评价方法及装置
CN110287125A (zh) 基于图像识别的软件例行化测试方法及装置
CN109858542A (zh) 一种字符识别方法和装置
CN110490190A (zh) 一种结构化图像文字识别方法及系统
CN106155540A (zh) 电子毛笔笔形处理方法和装置
CN105590112B (zh) 一种图像识别中倾斜文字判断方法
CN106650720A (zh) 基于文字识别技术的网上评卷方法、装置及系统
CN109147002A (zh) 一种图像处理方法和装置
KR100308856B1 (ko) 문자인식방법및장치
CN105957237A (zh) 一种纸币的版本识别方法和装置
CN111339919B (zh) 一种基于多任务协作的镜子检测方法
CN110909568A (zh) 用于面部识别的图像检测方法、装置、电子设备及介质
CN109145916B (zh) 一种图像文字识别切割方法及一种存储设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20180529

Address after: 215100 818 Wusong Road, Wusong River Industrial Park, Wuzhong development area, Suzhou, Jiangsu

Applicant after: Tide Financial Information Technology Co Ltd

Address before: 250100 Ji'nan hi tech Zone No. 2877, Shandong Province

Applicant before: Inspur Group Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant