CN105069457A - 图像识别方法和装置 - Google Patents

图像识别方法和装置 Download PDF

Info

Publication number
CN105069457A
CN105069457A CN201510413335.0A CN201510413335A CN105069457A CN 105069457 A CN105069457 A CN 105069457A CN 201510413335 A CN201510413335 A CN 201510413335A CN 105069457 A CN105069457 A CN 105069457A
Authority
CN
China
Prior art keywords
image
sample image
proper vector
classification
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510413335.0A
Other languages
English (en)
Other versions
CN105069457B (zh
Inventor
陈海波
胡光龙
吴伟
李晓燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yixian Advanced Technology Co., Ltd.
Original Assignee
Hangzhou Langhe Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Langhe Technology Co Ltd filed Critical Hangzhou Langhe Technology Co Ltd
Priority to CN201510413335.0A priority Critical patent/CN105069457B/zh
Publication of CN105069457A publication Critical patent/CN105069457A/zh
Application granted granted Critical
Publication of CN105069457B publication Critical patent/CN105069457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明的实施方式提供了一种图像识别方法。该方法包括:对待识别图像进行特征提取,得到多个特征向量;确定每个特征向量对应的类别;针对每个特征向量,分别计算其所对应的类别下各样本图像的分数;将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值;将分值最高的样本图像对应的图像标识作为待识别图像的识别结果。通过上述图像识别方法,有效提取多个特征来表征待识别图像,提取的特征不受图像中物体的特性所影响,能够实现对图像的有效识别,适用范围广;且通过计算样本图像分数的方式得到识别结果,综合考虑了特征的重要性,能够获得较好的识别精度。此外,本发明的实施方式提供了一种图像识别装置。

Description

图像识别方法和装置
技术领域
本发明的实施方式涉及图像识别技术领域,更具体地,本发明的实施方式涉及一种图像识别方法和装置。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着智能技术的发展,图像识别的使用和需求也在迅速发展。所谓的图像识别主要有:从图像中识别出目标物体,或者是识别出图像中的某个物体所属的类别等等。可以将其理解为近似于人面对一副图像或者一个场景时,通过肉眼和大脑实现对图像或者场景中所出现的物品进行区分和辨别。
目前,常用的图像识别(这里主要指识别图像中的某个物体所属的类别)方法主要有以下几种:1)基于神经网络;2)基于Hu不变距特征搜索;3)基于SIFT特征点匹配搜索;4)基于Gabor图像特征搜索。
然而,上述几种方式也存在不同程度的问题,具体的:
1)基于神经网络,一般采用人工设计的图像特征算子作为输入,然而,目前人工设计的特征算子对某些图像的识别并不适用,例如硬币识别,而且神经网络多为浅层结构,难以学习到有效的高层抽象的特征。
2)基于Hu不变距特征搜索,一般利用物体的形状特征,但是有些不同类别的物体之间形状差异很小,因此Hu不变距特征搜索的方式难以有效地捕获上述物体的形状特征,难以实现有效识别。
3)基于SIFT特征点匹配搜索,对于纹理特征较多为刚性纹理特征(例如硬币上字的边角)的图像,提取出的有效SIFT特征点较少,且错误匹配现象严重。
4)基于Gabor图像特征搜索,表面凸起的物体,光线打上去不是整体变化,Gabor特征难以有效地捕捉物体图像的边缘信息。
发明内容
如前所述,现有的图像识别技术对于某些图像难以有效捕获特征信息,进而难以实现对图像的有效识别,识别精度低。
有鉴于此,非常需要一种改进的图像识别方法,以有效提取图像特征,提高识别精度。
在本发明实施方式的第一方面中,提供了一种图像识别方法,包括:对待识别图像进行特征提取,得到多个特征向量;确定每个特征向量对应的类别;针对所述每个特征向量,分别计算其所对应的类别下各样本图像的分数;将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值;将分值最高的样本图像对应的图像标识作为所述待识别图像的识别结果。
在本发明实施方式的第二方面中,提供了一种图像识别装置,包括:特征提取单元,用于对待识别图像进行特征提取,得到多个特征向量;第一确定单元,用于确定每个特征向量对应的类别;计算单元,用于针对所述每个特征向量,分别计算其所对应的类别下各样本图像的分数;累加单元,用于将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值;第二确定单元,用于将分值最高的样本图像对应的图像标识作为所述待识别图像的识别结果。
通过本发明实施方式的图像识别方法和装置,有效提取多个特征来表征待识别图像,提取的特征不受图像中物体的特性所影响,能够实现对图像的有效识别,适用范围广;且通过计算样本图像分数的方式得到识别结果,综合考虑了特征的重要性,能够获得较好的识别精度。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的应用场景示意图;
图2示意性地示出了根据本发明实施例的图像识别方法的流程图;
图3示意性地示出了根据本发明实施例的样本图像信息的示意图;
图4示意性地示出了根据本发明实施例的哈希索引结构的示意图;
图5示意性地示出了根据本发明一实施例的图像识别装置的结构框图;
图6示意性地示出了根据本发明另一实施例的图像识别装置的结构框图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种图像识别方法和装置。
需要说明的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
现有的图像识别技术对于某些图像难以有效捕获特征信息,进而难以实现对图像的有效识别,识别精度低。
为此,本发明提供了一种图像识别方法,通过该方法进行图像识别的过程可以包括:对待识别图像进行特征提取,得到多个特征向量;确定每个特征向量对应的类别;针对每个特征向量,分别计算其所对应的类别下各样本图像的分数;将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值;将分值最高的样本图像对应的图像标识作为待识别图像的识别结果。这样有效提取多个特征来表征待识别图像,提取的特征不受图像中物体的特性所影响,能够实现对图像的有效识别,适用范围广;且通过计算样本图像分数的方式得到识别结果,综合考虑了特征的重要性,能够获得较好的识别精度。
在本例中,图像标识可以是图像的名称、编号或者其他能够唯一标识该图像的信息。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。处理设备100可以是一台计算机、一组计算机集群、或者是一台单一的处理器等,只要是能够实现对数据进行分析和处理的设备都是可以的,存储设备200可以是一个常规的存储器、云存储器,甚至也可以是互联网,只要是能够实现图像、数据、信息的获取和存储的设备都是可以的。处理设备100与存储设备200之间可以通过例如移动互联网、物理排线等方式进行通信连接。
利用本发明实施例提供的图像识别方法,处理设备100对待识别图像进行特征提取,得到多个特征向量,根据存储设备200中存储的信息,确定每个特征向量对应的类别,并针对每个特征向量,分别计算其所对应的类别下各样本图像的分数;将同一样本图像的分数累加,得到该同一样本图像的分值;将分值最高的样本图像对应的图像标识作为待识别图像的识别结果。样本图像的分值越高,表示待识别图像与该样本图像越相似。
此外,处理设备100可以从存储设备200中获取大量样本图像,基于获取的样本图像建立样本图像信息,并将该样本图像信息存储到存储设备200中,以备后续在具体的图像识别过程中使用。其中,样本图像信息可以包括:类别、图像标识、计算分数所需的参数等。可以根据图像的种类分别建立对应的样本图像信息,并存储该样本图像信息,例如,针对金属币图像,建立对应的样本图像信息,金属币可以是一种具有流通价值、纪念价值或收藏价值的币种;又如,针对服装图像,建立对应的样本图像信息。
示例性方法
下面结合图1的应用场景,参考图2至图4对本发明的图像识别方法进行介绍。
需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图2所示,该图像识别方法可以包括:
步骤S201,对待识别图像进行特征提取,得到多个特征向量。
步骤S202,确定每个特征向量对应的类别。
步骤S203,针对每个特征向量,分别计算其所对应的类别下各样本图像的分数。
步骤S204,将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值。
步骤S205,将分值最高的样本图像对应的图像标识作为待识别图像的识别结果。其中,图像标识可以是图像的名称、编号或者其他能够唯一标识该图像的信息。
在一个实施例中,可以利用滑动窗口遍历待识别图像,针对滑动窗口所处的每个区域,计算该区域的特征向量,由此得到表征该待识别图像的多个特征向量。本发明对滑动窗口的像素尺寸不做限定。较优的,待识别图像的像素数能被滑动窗口的像素数整除,这样能够更有效地提取特征向量。
利用滑动窗口遍历待识别图像时,在待识别图像上,滑动窗口可以按照预设方向每隔固定个数的像素进行滑动,直到遍历整个待识别图像。例如,按行遍历或者按列遍历。
具体地,可以通过以下步骤计算滑动窗口所处的区域的特征向量:
(1)将该区域划分为多个大小相同的细胞单元,其中,每个细胞单元之间不重叠。
(2)针对每个细胞单元,计算其中各像素的梯度方向值,将梯度方向值在预设的投影区间内进行投影生成梯度方向投影向量;将各像素的梯度方向投影向量求和,得到该细胞单元的梯度方向直方图。
需要说明的是,梯度方向值包括:梯度方向和梯度幅值。梯度方向直方图是个向量。
(3)将该区域内所有细胞单元的梯度方向直方图进行串联作为该区域的特征向量。串联指的是将多个向量首尾相接。
下面结合一个具体实施例说明提取特征向量的过程。在实际应用中,各像素尺寸、细胞单元的个数等数值可以根据具体情况进行设置。
待识别图像的像素尺寸为96×96,滑动窗口的像素尺寸为32×32。以按行遍历为例,在待识别图像上,滑动窗口从左往右每隔8个像素进行滑动,当滑动窗口滑动到最右端时,将滑动窗口移动到最左端,并向下移动8个像素,再次完成从左往右的滑动操作,重复以上滑动操作,直到遍历整个待识别图像,共滑动81次。
针对滑动窗口所处的每个区域,计算该区域的特征向量,共得到81个特征向量。其中,每个区域的像素尺寸均为32×32。
具体地,计算区域的特征向量包括:
1)将当前区域划分为16个不重叠的细胞单元,每个细胞单元的像素尺寸均为8×8。
2)针对每个细胞单元,计算其中各像素的梯度方向值(包括梯度方向和梯度幅值),将梯度方向值在预设的投影区间内进行投影生成梯度方向投影向量。具体地,可以对灰度图像的像素进行计算。例如,计算得到的某一像素的梯度方向值如下:梯度方向为125度,梯度幅值为20;预设的投影区间为0~120度、120~240度、240~360度三区间;该梯度方向值投影到上述三区间时,形成三维的梯度方向投影向量(0,20,0);由此可看出,梯度方向决定三维向量中哪个元素不为0,梯度幅值决定该不为0的元素的具体数值)。对当前细胞单元中的每个像素依次做上述操作,得到各个像素的梯度方向投影向量,进行求和,得到该细胞单元的梯度方向直方图(仍然是三维向量)。例如,求和得到的梯度方向直方图为(100,50,50),为方便后续数据的处理,可以对该梯度方向直方图进行归一化处理,例如,把该三维向量中三个元素的和作为除数,得到(0.5,0.25,0.25)。
3)将当前区域内所有细胞单元的梯度方向直方图进行串联作为该区域的特征向量。一共16个细胞单元,每个细胞单元的梯度方向直方图均为三维向量,串联得到该区域的48维特征向量。
由此,对于待识别图像,得到了81个48维的特征向量。
步骤S202中确定每个特征向量对应的类别,可以通过以下步骤实现:分别计算特征向量与预先存储的多个聚类中心向量的距离,其中,聚类中心向量与类别一一对应;确定与该特征向量距离最近的聚类中心向量对应的类别为该特征向量对应的类别。结合上述应用场景,可以从存储设备200中读取存储的样本图像信息中的类别和聚类中心向量。
在一个实施例中,可以按照以下公式计算样本图像的分数:
S = 1 + A A + B + C × D ,
其中,S表示当前样本图像的分数,A表示平均每个类别下的样本图像特征向量个数,B表示当前样本图像所属的类别下的所有图像标识出现次数之和,C表示当前样本图像所属的类别下,当前样本图像对应的图像标识出现次数,D表示放缩因子,可以为预设常数,例如0.5。
下面结合一个具体实施例说明计算样本图像分数以及确定识别结果的过程。
先对已存储的样本图像信息进行说明。
假设有3个样本图像I、J、K,每个样本图像提取2个样本图像特征向量,样本图像的特征向量共3个类别X、Y、Z,此时,平均每个类别下的样本图像特征向量个数为2,即A=2。
类别X下,样本图像I出现次数为0,样本图像J出现次数为1,样本图像K出现次数为1;类别Y下,样本图像I出现次数为2,样本图像J出现次数为1,样本图像K出现次数为0;类别Z下,样本图像I出现次数为0,样本图像J出现次数为0,样本图像K出现次数为1。样本图像信息的示意图如图3所示,同一样本图像在不同类别下的出现次数之和即为提取的该样本图像的特征向量个数。为方便理解,此处样本图像信息以表格的形式为例,本发明并不限于此,还可以其他能够表明各因素对应关系的方式进行存储。
需要识别某一待识别图像时,对待识别图像进行特征提取,得到2个特征向量。
假设其中一个特征向量对应类别X,则分别计算类别X下的样本图像I、J、K的分数:
S I = 1 + 2 2 + 2 + 0 × 0.5 = 1.25 ,
S J = 1 + 2 2 + 2 + 1 × 0.5 = 1.2 ,
S K = 1 + 2 2 + 2 + 1 × 0.5 = 1.2.
另一个特征向量对应类别Z,则分别计算类别Z下的样本图像I、J、K的分数:
S I = 1 + 2 2 + 1 + 0 × 0.5 = 1.33 ,
S J = 1 + 2 2 + 1 + 0 × 0.5 = 1.33 ,
S K = 1 + 2 2 + 1 + 1 × 0.5 = 1.25.
累加样本图像I的分数,得到样本图像I的分值1.58;累加样本图像J的分数,得到样本图像J的分值1.53;累加样本图像K的分数,得到样本图像K的分值1.45。由此,将分值最高的样本图像I的图像标识作为待识别图像的识别结果,即待识别图像为样本图像I。
图像识别主要是根据待识别图像不同于其他图像的特性进行识别,采用计算样本图像分数的方式得到识别结果,综合考虑了特征的重要性,例如,中,B表示当前样本图像所属的类别下的所有图像标识出现次数之和,即该类别下所有样本图像的特征向量的个数,B越大,表明这个类别中的特征越不重要;C表示当前样本图像所属的类别下,当前样本图像对应的图像标识出现次数,C越大,表明该样本图像中的相似特征越多,这些特征不是图像独有的特性,则这些特征越不重要。
为了更加有效地提取表征待识别图像的特征向量,可以在待识别图像上裁剪出识别区域,并将识别区域的像素尺寸调整到预定像素尺寸(例如500×500),对识别区域进行特征提取。例如,待识别图像为一圆形的金属币,图像一般为矩形,该金属币的图像中在圆形金属币区域之外,会包含噪声(例如,拍摄该图像时的背景),沿着该圆形金属币的边缘裁剪出识别区域,可以去除背景噪声的影响;并且,调整识别区域的像素尺寸,使得图像更加清晰,从而得到的特征向量可以较好地表征待识别图像。调整像素尺寸的方法为现有技术,此处不做详细介绍。
下面对样本图像信息进行详细说明。
在对图像进行识别之前,可以预先建立样本图像信息,并存储该样本图像信息,以根据该样本图像信息进行图像识别过程中的类别确定和分数计算,提高图像识别的效率。较优的,样本图像信息可以哈希(Hash)索引的形式存储,便于按照键值查找其中的信息,能够高效地进行查找操作,且查找速度不会随样本图像的增加而呈线性增加,即使在图像特征维度较高的情况下,也可以高效查找。
以下称样本图像信息为索引信息,即预先建立索引信息,并存储该索引信息。
索引信息可以包括:类别、图像标识和图像标识出现次数,还可以包括与类别一一对应的聚类中心向量。具体地,可以收集多张样本图像,对这些样本图像进行特征向量提取、聚类等处理,然后对处理得到的参数进行整理,得到索引信息。
具体地,可以通过以下步骤建立索引信息:
S1:记录多张样本图像的图像标识,分别对每张样本图像均提取多个样本图像特征向量,并记录图像标识与多个样本图像特征向量的对应关系。
例如,N张样本图像,图像标识为数字编号1~N,对每张样本图像均提取81个样本图像特征向量,那么,会记录编号1对应81个样本图像特征向量,编号2对应81个样本图像特征向量。
为了更加有效地提取表征样本图像的特征向量,可以在样本图像上裁剪出识别区域,并将识别区域的像素尺寸调整到预定像素尺寸,对识别区域进行特征提取。例如,样本图像为一圆形的金属币,图像一般为矩形,该金属币的图像中在圆形金属币区域之外,会包含噪声(例如,拍摄该图像时的背景),沿着该圆形金属币的边缘裁剪出识别区域,可以去除背景噪声的影响;并且,调整识别区域的像素尺寸,使得图像更加清晰,从而得到的特征向量可以较好地表征样本图像。
需要说明的是,提取样本图像特征向量的方法,与上述实施例中提取待识别图像的特征向量的方法相同,此处不再赘述。提取的待识别图像的特征向量个数与样本图像特征向量的个数相同,例如,对每张样本图像提取64个特征向量,则对待识别图像也提取64个特征向量。如果需要调整像素尺寸,则调整后的待识别图像的像素尺寸与调整后的样本图像的像素尺寸相同。
S2:对多张样本图像对应的全部样本图像特征向量进行聚类,得到预定个数的类别及与类别一一对应的聚类中心向量。
聚类可以简单理解为分类,同一类别中的特征相似度较高。聚类方法有多种,例如,K-MEANS算法、K-MEDOIDS算法、CLARANS算法等。下面以K-MEANS算法为例进行说明。
对N×81个样本图像特征向量进行K-MEANS聚类,聚类过程如下:
(1)从N×81个样本图像特征向量中随机选择M个样本图像特征向量,作为初始聚类中心向量,并将选择的每个样本图像特征向量标记为一个类别,类别号可以是数字,例如,0、1、2……M-1。
(2)在N×81个样本图像特征向量中,针对每个样本图像特征向量,分别计算其与每个初始聚类中心向量的距离,并将与该样本图像特征向量距离最近的初始聚类中心向量的类别作为该样本图像特征向量的类别。即将N×81个样本图像特征向量进行分类,分成M个类别。
(3)分别计算每个类别中所有样本图像特征向量的均值,并将该均值作为该类别的新的聚类中心向量。
(4)重复步骤(2)、(3)直到M个聚类中心向量均收敛(即对于同一类别,新的聚类中心向量与上一次的聚类中心向量的差值小于一预定经验值,变化差异较小),保存收敛的M个聚类中心向量。
S3:建立长度为预定个数的哈希索引结构,哈希索引结构包括:类别、图像标识及图像标识出现次数。
预定个数是步骤S2中对所有样本图像特征向量进行聚类得到的类别个数M。哈希索引结构的查找键值可以是步骤S2中生成的类别号,即0、1、2……M-1。图4示出了哈希索引结构的示意图,节点包括:图像标识与图像标识出现次数两个变量。
S4:将全部样本图像特征向量插入哈希索引结构,得到索引信息。
具体地,可以对每个样本图像特征向量均执行如下操作以插入哈希索引结构:
(1)确定与待插入样本图像特征向量距离最近的聚类中心向量所对应的类别,并将该类别标记为待插入样本图像特征向量的类别。
在步骤S2的聚类过程中,通过计算距离,最终得到M个聚类中心向量,且在此过程中,已经对全部样本图像特征向量进行了分类,可以在聚类结束后,将分类的信息进行存储。因此,可以直接通过读取数据确定与待插入样本图像特征向量距离最近的聚类中心向量对应的类别,无需重新计算,提高效率。
(2)在哈希索引结构中查找待插入样本图像特征向量的类别的位置,并遍历待插入样本图像特征向量的类别下的所有图像标识。
如果待插入样本图像特征向量对应的图像标识未存在于待插入样本图像特征向量的类别下,则添加新节点,其中,新节点的图像标识设置为待插入样本图像特征向量对应的图像标识,新节点的图像标识出现次数设置为1。
如果待插入样本图像特征向量对应的图像标识存在于待插入样本图像特征向量的类别下,则将该图像标识对应的图像标识出现次数加1。
通过上述步骤S1至步骤S4,可以得到索引信息。
通过本发明上述实施方式的图像识别方法,有效提取多个特征来表征待识别图像,提取的特征不受图像中物体的特性所影响,能够实现对图像的有效识别,适用范围广;且通过计算样本图像分数的方式得到识别结果,综合考虑了特征的重要性,能够获得较好的识别精度。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的图像识别装置进行介绍。该图像识别装置解决问题的原理与上述图像识别方法相似,因此该装置的实施可以参见上述图像识别方法的实施,重复之处不再赘述。
如图5所示,该图像识别装置包括:特征提取单元51、第一确定单元52、计算单元53、累加单元54和第二确定单元55。下面对该装置中的各个单元进行具体描述。
特征提取单元51,用于对待识别图像进行特征提取,得到多个特征向量。
第一确定单元52,用于确定每个特征向量对应的类别。
计算单元53,用于针对每个特征向量,分别计算其所对应的类别下各样本图像的分数。
累加单元54,用于将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值。
第二确定单元55,用于将分值最高的样本图像对应的图像标识作为待识别图像的识别结果。
具体地,上述第一确定单元52可以包括:第一计算模块和确定模块。其中,第一计算模块可以用于分别计算特征向量与预先存储的多个聚类中心向量的距离,其中,聚类中心向量与类别一一对应;确定模块可以用于确定与该特征向量距离最近的聚类中心向量对应的类别为该特征向量对应的类别。
上述计算单元53可以被设置为按照以下公式计算样本图像的分数:
S = 1 + A A + B + C × D ,
其中,S表示当前样本图像的分数,A表示平均每个类别下的样本图像特征向量个数,B表示当前样本图像所属的类别下的所有图像标识出现次数之和,C表示当前样本图像所属的类别下,当前样本图像对应的图像标识出现次数,D表示放缩因子,可以为预设常数,例如0.5。
具体地,上述特征提取单元51可以包括:遍历模块和第二计算模块。其中,遍历模块,用于利用滑动窗口遍历待识别图像;第二计算模块,用于针对滑动窗口所处的每个区域,计算该区域的特征向量。
遍历模块可以被设置为:在待识别图像上,利用滑动窗口按照预设方向每隔固定个数的像素进行滑动,直到遍历整个待识别图像。例如,按行遍历或者按列遍历。
第二计算模块可以按照以下方式计算滑动窗口所处的区域的特征向量:将该区域划分为多个大小相同的细胞单元,其中,每个细胞单元之间不重叠;针对每个细胞单元,计算其中各像素的梯度方向值,将梯度方向值在预设的投影区间内进行投影生成梯度方向投影向量;将各像素的梯度方向投影向量求和,得到该细胞单元的梯度方向直方图;将该区域内所有细胞单元的梯度方向直方图进行串联作为该区域的特征向量。
上述特征提取单元51可以被设置为:在待识别图像上裁剪出识别区域,并将识别区域的像素尺寸调整到预定像素尺寸,对识别区域进行特征提取。
如图6所示,上述图像识别装置还可以包括:建立单元56和存储单元57。其中,建立单元56用于在对待识别图像进行特征提取之前,建立索引信息;存储单元57用于存储该索引信息。
上述建立单元56可以包括:特征提取模块、记录模块、聚类模块、建立模块和插入模块。
特征提取模块可以用于分别对每张样本图像均提取多个样本图像特征向量;记录模块可以用于记录多张样本图像的图像标识,并记录图像标识与多个样本图像特征向量的对应关系;聚类模块可以用于对多张样本图像对应的全部样本图像特征向量进行聚类,得到预定个数的类别及与类别一一对应的聚类中心向量;建立模块可以用于建立长度为预定个数的哈希索引结构,哈希索引结构可以包括:类别、图像标识及图像标识出现次数;插入模块可以用于将全部样本图像特征向量插入哈希索引结构,得到索引信息。
具体地,插入模块可以被设置为对每个样本图像特征向量均执行如下操作以插入哈希索引结构:
确定与待插入样本图像特征向量距离最近的聚类中心向量所对应的类别,并将该类别标记为待插入样本图像特征向量的类别;
在哈希索引结构中查找待插入样本图像特征向量的类别的位置,并遍历待插入样本图像特征向量的类别下的所有图像标识;
如果待插入样本图像特征向量对应的图像标识未存在于待插入样本图像特征向量的类别下,则添加新节点,其中,新节点的图像标识设置为待插入样本图像特征向量对应的图像标识,新节点的图像标识出现次数设置为1;
如果待插入样本图像特征向量对应的图像标识存在于待插入样本图像特征向量的类别下,则将该图像标识对应的图像标识出现次数加1。
应当注意,尽管在上文详细描述中提及了装置、单元或模块,但是这种划分仅仅为了更好的说明而并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (11)

1.一种图像识别方法,包括:
对待识别图像进行特征提取,得到多个特征向量;
确定每个特征向量对应的类别;
针对所述每个特征向量,分别计算其所对应的类别下各样本图像的分数;
将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值;
将分值最高的样本图像对应的图像标识作为所述待识别图像的识别结果。
2.根据权利要求1所述的图像识别方法,其中,确定每个特征向量对应的类别,包括:
分别计算所述特征向量与预先存储的多个聚类中心向量的距离,其中,所述聚类中心向量与所述类别一一对应;
确定与所述特征向量距离最近的聚类中心向量对应的类别为所述特征向量对应的类别。
3.根据权利要求1所述的图像识别方法,其中,按照以下公式计算样本图像的分数:
S = 1 + A A + B + C × D ,
其中,S表示当前样本图像的分数,A表示平均每个类别下的样本图像特征向量个数,B表示所述当前样本图像所属的类别下的所有图像标识出现次数之和,C表示所述当前样本图像所属的类别下,所述当前样本图像对应的图像标识出现次数,D表示放缩因子。
4.根据权利要求1所述的图像识别方法,其中,对待识别图像进行特征提取,得到多个特征向量,包括:
利用滑动窗口遍历所述待识别图像;
针对所述滑动窗口所处的每个区域,计算该区域的特征向量。
5.根据权利要求4所述的图像识别方法,其中,计算该区域的特征向量,包括:
将该区域划分为多个大小相同的细胞单元,其中,每个细胞单元之间不重叠;
针对所述每个细胞单元,计算其中各像素的梯度方向值,将所述梯度方向值在预设的投影区间内进行投影生成梯度方向投影向量;将各像素的梯度方向投影向量求和,得到该细胞单元的梯度方向直方图;
将该区域内所有细胞单元的梯度方向直方图进行串联作为该区域的特征向量。
6.根据权利要求4所述的图像识别方法,其中,利用滑动窗口遍历所述待识别图像,包括:
在所述待识别图像上,利用所述滑动窗口按照预设方向每隔固定个数的像素进行滑动,直到遍历整个待识别图像。
7.根据权利要求1所述的图像识别方法,其中,对待识别图像进行特征提取,包括:
在所述待识别图像上裁剪出识别区域,并将所述识别区域的像素尺寸调整到预定像素尺寸,对所述识别区域进行特征提取。
8.根据权利要求1至7中任一项所述的图像识别方法,其中,在对待识别图像进行特征提取之前,所述方法还包括:
建立索引信息,并存储所述索引信息。
9.根据权利要求8所述的图像识别方法,其中,建立索引信息包括:
记录多张样本图像的图像标识,分别对每张样本图像均提取多个样本图像特征向量,并记录所述图像标识与所述多个样本图像特征向量的对应关系;
对所述多张样本图像对应的全部样本图像特征向量进行聚类,得到预定个数的类别及与所述类别一一对应的聚类中心向量;
建立长度为所述预定个数的哈希索引结构,所述哈希索引结构包括:类别、图像标识及图像标识出现次数;
将所述全部样本图像特征向量插入所述哈希索引结构,得到所述索引信息。
10.根据权利要求9所述的图像识别方法,其中,将所述全部样本图像特征向量插入所述哈希索引结构,包括:
对每个样本图像特征向量均执行如下操作以插入所述哈希索引结构:
确定与待插入样本图像特征向量距离最近的聚类中心向量所对应的类别,并将该类别标记为所述待插入样本图像特征向量的类别;
在所述哈希索引结构中查找所述待插入样本图像特征向量的类别的位置,并遍历所述待插入样本图像特征向量的类别下的所有图像标识;
如果所述待插入样本图像特征向量对应的图像标识未存在于所述待插入样本图像特征向量的类别下,则添加新节点,其中,所述新节点的图像标识设置为所述待插入样本图像特征向量对应的图像标识,所述新节点的图像标识出现次数设置为1;
如果所述待插入样本图像特征向量对应的图像标识存在于所述待插入样本图像特征向量的类别下,则将该图像标识对应的图像标识出现次数加1。
11.一种图像识别装置,包括:
特征提取单元,用于对待识别图像进行特征提取,得到多个特征向量;
第一确定单元,用于确定每个特征向量对应的类别;
计算单元,用于针对所述每个特征向量,分别计算其所对应的类别下各样本图像的分数;
累加单元,用于将计算得到的同一样本图像的分数累加,得到该同一样本图像的分值;
第二确定单元,用于将分值最高的样本图像对应的图像标识作为所述待识别图像的识别结果。
CN201510413335.0A 2015-07-15 2015-07-15 图像识别方法和装置 Active CN105069457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510413335.0A CN105069457B (zh) 2015-07-15 2015-07-15 图像识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510413335.0A CN105069457B (zh) 2015-07-15 2015-07-15 图像识别方法和装置

Publications (2)

Publication Number Publication Date
CN105069457A true CN105069457A (zh) 2015-11-18
CN105069457B CN105069457B (zh) 2020-02-11

Family

ID=54498818

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510413335.0A Active CN105069457B (zh) 2015-07-15 2015-07-15 图像识别方法和装置

Country Status (1)

Country Link
CN (1) CN105069457B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485567A (zh) * 2016-09-14 2017-03-08 北京小米移动软件有限公司 物品推荐方法及装置
CN108268881A (zh) * 2016-12-30 2018-07-10 中兴通讯股份有限公司 电子设备、目标图像识别方法及装置
CN108287862A (zh) * 2017-01-09 2018-07-17 谷歌有限责任公司 搜索引擎
CN108304848A (zh) * 2018-01-10 2018-07-20 链家网(北京)科技有限公司 户型特征的自动提取方法、系统、电子设备和存储介质
CN109344275A (zh) * 2018-08-21 2019-02-15 深圳市致远优学教育科技有限公司 基于图片识别的资源获取装置及方法
CN110070107A (zh) * 2019-03-26 2019-07-30 华为技术有限公司 物体识别方法及装置
CN110399897A (zh) * 2019-04-10 2019-11-01 北京百卓网络技术有限公司 图像识别方法和装置
CN111612159A (zh) * 2020-05-22 2020-09-01 深圳前海微众银行股份有限公司 特征重要性测量方法、设备及可读存储介质
CN113362543A (zh) * 2021-05-21 2021-09-07 北京百度网讯科技有限公司 结算方法、装置、电子设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102341824A (zh) * 2009-03-04 2012-02-01 公立大学法人大阪府立大学 图像数据库编辑方法、图像数据库编辑程序和图像检索方法
US20130236081A1 (en) * 2011-02-17 2013-09-12 Sanyo Electric Co., Ltd. Image classification apparatus and recording medium having program recorded therein
CN103544495A (zh) * 2012-07-12 2014-01-29 浙江大华技术股份有限公司 一种识别图像类别的方法及系统
CN103927387A (zh) * 2014-04-30 2014-07-16 成都理想境界科技有限公司 图像检索系统及其相关方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102341824A (zh) * 2009-03-04 2012-02-01 公立大学法人大阪府立大学 图像数据库编辑方法、图像数据库编辑程序和图像检索方法
US20130236081A1 (en) * 2011-02-17 2013-09-12 Sanyo Electric Co., Ltd. Image classification apparatus and recording medium having program recorded therein
CN103544495A (zh) * 2012-07-12 2014-01-29 浙江大华技术股份有限公司 一种识别图像类别的方法及系统
CN103927387A (zh) * 2014-04-30 2014-07-16 成都理想境界科技有限公司 图像检索系统及其相关方法和装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106485567A (zh) * 2016-09-14 2017-03-08 北京小米移动软件有限公司 物品推荐方法及装置
CN108268881A (zh) * 2016-12-30 2018-07-10 中兴通讯股份有限公司 电子设备、目标图像识别方法及装置
CN108287862A (zh) * 2017-01-09 2018-07-17 谷歌有限责任公司 搜索引擎
US11354367B2 (en) 2017-01-09 2022-06-07 Google Llc Search engine
CN108304848A (zh) * 2018-01-10 2018-07-20 链家网(北京)科技有限公司 户型特征的自动提取方法、系统、电子设备和存储介质
CN108304848B (zh) * 2018-01-10 2020-04-28 贝壳找房(北京)科技有限公司 户型特征的自动提取方法、系统、电子设备和存储介质
CN109344275B (zh) * 2018-08-21 2021-10-26 深圳市致远优学教育科技有限公司 基于图片识别的资源获取装置及方法
CN109344275A (zh) * 2018-08-21 2019-02-15 深圳市致远优学教育科技有限公司 基于图片识别的资源获取装置及方法
CN110070107A (zh) * 2019-03-26 2019-07-30 华为技术有限公司 物体识别方法及装置
CN110399897A (zh) * 2019-04-10 2019-11-01 北京百卓网络技术有限公司 图像识别方法和装置
CN110399897B (zh) * 2019-04-10 2021-11-02 北京百卓网络技术有限公司 图像识别方法和装置
CN111612159A (zh) * 2020-05-22 2020-09-01 深圳前海微众银行股份有限公司 特征重要性测量方法、设备及可读存储介质
CN113362543A (zh) * 2021-05-21 2021-09-07 北京百度网讯科技有限公司 结算方法、装置、电子设备以及存储介质
CN113362543B (zh) * 2021-05-21 2023-10-31 北京百度网讯科技有限公司 结算方法、装置、电子设备以及存储介质

Also Published As

Publication number Publication date
CN105069457B (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN105069457A (zh) 图像识别方法和装置
US11294624B2 (en) System and method for clustering data
Zamir et al. Accurate image localization based on google maps street view
Grana et al. A fast approach for integrating ORB descriptors in the bag of words model
Cohen et al. Rapid building detection using machine learning
CN106055573B (zh) 一种多示例学习框架下的鞋印图像检索方法及系统
Schlegel et al. HBST: A hamming distance embedding binary search tree for feature-based visual place recognition
CN105844669A (zh) 一种基于局部哈希特征的视频目标实时跟踪方法
CN104765768A (zh) 海量人脸库的快速准确检索方法
CN106650580B (zh) 基于图像处理的货架快速清点方法
CN105809672A (zh) 一种基于超像素和结构化约束的图像多目标协同分割方法
CN111814990B (zh) 阈值确定方法、系统、存储介质及终端
CN111178533B (zh) 实现自动半监督机器学习的方法及装置
Kobyshev et al. Matching features correctly through semantic understanding
WO2015146113A1 (ja) 識別辞書学習システム、識別辞書学習方法および記録媒体
Desai et al. An efficient feature descriptor based on synthetic basis functions and uniqueness matching strategy
CN117495891B (zh) 点云边缘检测方法、装置和电子设备
Yang et al. Learning to separate: Detecting heavily-occluded objects in urban scenes
CN113987243A (zh) 一种图像聚档方法、图像聚档装置和计算机可读存储介质
Yoon et al. An accurate and real-time multi-view face detector using orfs and doubly domain-partitioning classifier
Schlegel et al. Visual localization and loop closing using decision trees and binary features
CN112699842A (zh) 宠物识别方法、装置、设备及计算机可读存储介质
CN110287970B (zh) 一种基于cam与掩盖的弱监督物体定位方法
US9208402B2 (en) Face matching for mobile devices
CN111008294B (zh) 交通图像处理、图像检索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190626

Address after: 311215 Room 102, 6 Blocks, C District, Qianjiang Century Park, Xiaoshan District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Yixian Advanced Technology Co., Ltd.

Address before: 310052 Room 301, Building No. 599, Changhe Street Network Business Road, Binjiang District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Langhe Technology Limited

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant