CN101536035B - 图像识别方法、以及图像识别装置 - Google Patents
图像识别方法、以及图像识别装置 Download PDFInfo
- Publication number
- CN101536035B CN101536035B CN200780040849XA CN200780040849A CN101536035B CN 101536035 B CN101536035 B CN 101536035B CN 200780040849X A CN200780040849X A CN 200780040849XA CN 200780040849 A CN200780040849 A CN 200780040849A CN 101536035 B CN101536035 B CN 101536035B
- Authority
- CN
- China
- Prior art keywords
- image
- partial descriptions
- search
- mentioned
- input picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 203
- 239000013598 vector Substances 0.000 claims abstract description 233
- 238000004364 calculation method Methods 0.000 claims abstract description 93
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims description 103
- 230000008859 change Effects 0.000 claims description 41
- 238000003909 pattern recognition Methods 0.000 claims description 26
- 238000012797 qualification Methods 0.000 claims description 12
- 230000002040 relaxant effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 12
- 238000002474 experimental method Methods 0.000 description 24
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 21
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000000605 extraction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000010365 information processing Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 241000282320 Panthera leo Species 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 239000012467 final product Substances 0.000 description 3
- 230000005039 memory span Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000005465 channeling Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000762 glandular Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2115—Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
提供一种在从拍摄物体得到的图像中提取特征向量并且以多个特征向量来表现物体、并从图像数据库中检索特征一致的物体的物体识别处理中更高速的识别物体的处理方法。另外,提供一种节约图像数据库所需的存储器容量的方法。提出一种用于通过近似最近邻搜索来识别以多个特征向量描述的物体的任务的高速化方法。高速化方法之一是在近邻处具有多个特征向量而不能避免很多距离计算的情况下,通过舍弃这种特征向量来实现高速化。另一个高速化方法是完全不进行距离计算,仅查找哈希表来进行投票。另外,通过多阶纵列连接基于近似最近邻搜索的辨别器来根据图像变更用于识别的近似程度,从而大幅提高效率。
Description
技术领域
本发明涉及一种使用描述图像局部特征的局部描述符来进行图像识别的图像识别方法、使用局部描述符来进行图像识别的图像识别装置以及图像识别程序。
背景技术
伴随着数码照相机、带照相机的手机的普及,不仅是简单地拍摄快照(snapshot),还想利用照相机作为信息输入设备的需求增强。作为可能性之一,考虑识别由照相机捕捉到的物体并进行与其相应的信息处理。
不得不说不设任何限制地识别物体还很困难,但是随着近年来的技术发展,如果能够对对象加以限制,则物体识别现实可行。例如如果能够假定对象不是三维物体而是平面上的图案(平面物体)、不是识别物体的类(class)(例如照片上的物体是否属于车类(category))而是识别实例(instance)(是否为从某个角度拍摄某一车型得到的照片)等,则已经处于能够服务的水平。例如,已知有利用株式会社Clementec技术(US.Patent No.20040208372)的大日本印刷株式会社的服务、奥林巴斯株式会社的服务、利用Evolution Robotics,Inc.技术的日本电气株式会社的服务等。如果能够进行这种平面物体的识别,则不仅通过拍摄海报、商品照片来进行引导,还打开附带已有图像、视频的自动索引的道路。
然而,为了进行物体识别需要从图像中提取特征。在本发明中着眼于以平面物体为对象的使用局部描述符(local descriptor)的识别。局部描述符是指捕捉图像的局部特征并提取其作为多维特征向量来描述图像的局部特征的描述符。局部地决定值,因此具有对隐藏、图像变动较强(鲁棒)的性质。在此,“局部”意味着图像的一部分,“局部描述符”是指表现图像的部分特征的描述符。本说明书中局部描述符还称作特征向量。
在使用局部描述符的物体识别法中,测量从两个图像中得到的特征向量之间的距离、对应到最近邻的特征向量为基本运算。并且,在由照相机得到的图像与数据库中的多个图像之间对应特征向量,并对数据库中的图像进行投票。最后,输出得票数最多的图像标签作为“识别结果”。但是,当考虑特征向量的维数是从数十到数百、数量是每张图像数百到数千的级别时,可知无限制地计算所有组合的距离并不实用。
但是,随着近年来的最近邻搜索技术的发展,能够在短时间内搜索庞大数量的特征向量(例如参照非专利文献1、2)。特别是ANN(Approximate Nearest Neighbor)(例如参照非专利文献3)、LSH(Locality Sensitive Hashing)(例如参照非专利文献4),分别通过使用树结构、哈希(Hash)表进行近似最近邻搜索来实现高速搜索。在日本国内,例如除了针对精确最近邻搜索的SR-Tree(例如参照非专利文献5)之外,作为近似最近邻搜索方法存在小林等人的分布式编码(例如参照非专利文献6)。
并且,从物体识别的观点出发,和田等人提出了最近邻辨别器(例如参照非专利文献7)的概念和将其具体化的KDDT(例如参照非专利文献8)的方法。在考虑各物体与一个特征向量对应来识别该物体类别的问题时,只要知道从识别对象的物体得到的特征向量接近哪个类别的特征向量即可,不需要求出“最近邻”的特征向量。由此与使用精确最近邻搜索的情况相比,表现出能够实现数倍至数百倍的高速化。
另外,已知有适于附带文档图像索引的特征量的提取方法 和适于该特征量的检索算法(例如参照专利文献1)。
专利文献1:国际公开第2006/092957号小册子
非专利文献1:P.Indyk,Nearest neighbors in high-dimensionalspaces,Handbook of discrete and computational geometry(Eds.by J.E.Goodman and J.O’Rourke),Chapman&Hall/CRC,pp.877-892,2004.
非专利文献2:G.Shakhnarovich,T.Darrell and P.Indyk Eds.,Nearest-neighbor methods in learning and vision,The MIT Press,2005.
非专利文献3:S.Arya,D.M.Mount,R.Silverman and A.Y.Wu,“An optimal algorithm for approximate nearest neighborsearching,”Journal of the ACM,vol.45,no.6,pp.891-923,1998.
非专利文献4:M.Datar,N.Immorlica,P.Indyk and V.S.Mirrokni,Locality-sensitive hashing scheme based on p-stabledistributions,Proc.of the 20th annual symposium onComputational Geometry,pp.253-262,2004.
非专利文献5:片山紀生、佐藤真一、“類似検索のための索引技術”、情報処理(IPSJ)、vol.42,no.10,pp.958-964,Oct.,2001.
非专利文献6:小林卓夫、中川正樹、“分散コ一デイングによる高次元の最近傍探索”、信学技報PRMU2006-41,June,2006.
非专利文献7:和田俊和、“空間分割を用いた識別と非腺形写像の学習(1)空間分割による最近傍識別の高速化”、情報処理(IPSJ)、vol.46,no.8,pp.912-918,Aug.,2005.
非专利文献8:柴田智行、加藤丈和、和田俊和、“K-d decisiontreeとその応用-最近傍識別器の高速化と省メモリ化”、信学論(D-II),vol.J88-D-II,no.8,pp.1367-1377,Aug.,2005.
发明内容
发明要解决的问题
如上所述的局部描述符那样以多个特征向量表现各物体的方法是对物体识别有效的方法(approach)。但是,需要对多个特征向量执行计算,希望进一步缩短计算时间。即要求更高速的物体识别的处理方法。
如专利文献1所述,研究特征量的提取方法是实现高速的物体识别方法的有效方法之一,但是研究使用通过现有方法提取出的特征量的最近邻搜索方法也是从其它方面出发的有效方法,这种方法被期待。
用于解决问题的方案
在通过统计处理来决定识别结果的情况下,与最近邻辨别器相同,无需对各特征向量求出最近邻的特征向量,只要知道所对应的图像是哪个即可。并且,即使错误地对照到与其它物体的特征向量,只要最终正确答案和非正确答案的得票数不逆转即可。因而,通过牺牲特征向量的搜索正确度来实施大幅的近似最近邻搜索能够赢得处理时间。
发明人等根据上述构思重复研究而作出本发明。
(1)本发明提供一种图像识别方法,在提供表示对象物体的图像作为输入图像时,通过搜索局部描述符来从图像数据库中辨别包括上述对象物体的图像,该图像识别方法的特征在于,具备如下工序:从输入图像中导出表示其局部特征的多个局部描述符的工序;限定工序,在从上述图像数据库中的图像得到的各局部描述符中,对输入图像的各局部描述符分别限定进行搜索的对象;搜索工序,从上述搜索对象中搜索与输入图像的各局部描述符接近的各局部描述符,确定针对输入图像的各局部描述符的近邻的各局部描述符;以及辨别工序,使用统计处 理来辨别得到近邻的各局部描述符的图像中应为识别结果的图像,其中,上述限定工序将上述搜索对象的数量限定在能够辨别应为识别结果的图像的程度,由计算机执行各工序。
(2)另外,从不同观点出发,本发明提供一种图像识别装置,在提供表示对象物体的图像作为输入图像时,通过搜索局部描述符来从图像数据库中辨别包括上述对象物体的图像,该图像识别装置的特征在于,具备:特征导出部,其从输入图像中导出表示其局部特征的多个局部描述符;限定部,其在从上述图像数据库中的图像得到的各局部描述符中,对输入图像的各局部描述符分别限定进行搜索的对象;搜索部,其从上述搜索对象中搜索与输入图像的各局部描述符接近的各局部描述符,确定针对输入图像的各局部描述符的近邻的各局部描述符;以及辨别部,其使用统计处理来辨别得到近邻的各局部描述符的图像中应为识别结果的图像,其中,上述限定部将上述搜索对象的数量限定在能够辨别应为识别结果的图像的程度。
(3)并且,从不同观点出发,本发明提供一种图像识别程序,使用计算机实现如下功能:在提供表示对象物体的图像作为输入图像时,通过搜索局部描述符来从图像数据库中辨别包括上述对象物体的图像,该图像识别程序的特征在于,使计算机作为如下各部发挥功能:特征导出部,其从输入图像中导出表示其局部特征的多个局部描述符;限定部,其在从上述图像数据库中的图像得到的各局部描述符中,对输入图像的各局部描述符分别限定进行搜索的对象;搜索部,其从上述搜索对象中搜索与输入图像的各局部描述符接近的各局部描述符,确定针对输入图像的各局部描述符的近邻的各局部描述符;以及辨别部,其使用统计处理来辨别得到近邻的各局部描述符的图像中应为识别结果的图像,其中,上述限定部将上述搜索对象的数量限 定在能够辨别应为识别结果的图像的程度。
(4)另外,本发明的一个侧面提供一种图像识别方法,根据输入图像中包括的对象物体的图案,从使用哈希表而具有体系的图像数据库中识别包括上述对象物体的图像,该图像识别方法的特征在于,具备如下工序:提取表示上述图案的局部特征量的一个以上特征向量的工序;索引算出工序,根据提取出的特征向量算出哈希表的索引;投票工序,用算出的索引参照上述哈希表来决定图像数据库中的候补图像,对所决定的候补图像进行投票;以及根据对各特征向量的投票结果得到识别结果的图像的工序,其中,上述哈希表的制作工序包括如下各工序:对从登记在数据库内的各图像中提取出的各特征向量算出哈希表的索引,除去各特征向量中辨别能力较低的特征向量,登记与留下的各特征向量对应的图像参照用数据。
(5)另外,从不同观点出发,本发明提供一种图像识别装置,根据输入图像中包括的对象物体的图案,从使用哈希表而具有体系的图像数据库中识别包括上述对象物体的图像,该图像识别装置的特征在于,具备:特征点提取部,其提取表示上述图案的局部特征的一个以上特征向量;索引算出部,其根据提取出的特征向量算出哈希表的索引;投票部,其用算出的索引参照上述哈希表来决定图像数据库中的候补图像,对所决定的候补图像进行投票;以及图像选择部,其根据对各特征向量的投票结果得到识别结果的图像,其中,上述哈希表的制作工序包括如下各工序:对从登记在数据库内的各图像中提取出的各特征向量考虑特征量的变动地算出哈希表的索引,除去各特征向量中辨别能力较低的特征向量,登记与留下的各特征向量对应的图像参照用数据。
发明的效果
在本发明的上述(1)的图像识别方法中,上述限定工序将上述搜索对象的数量限定在能够辨别应为识别结果的图像的程度,因此能够缩短识别所需的处理时间。即能够高速地识别物体。
另外,在本发明的上述(2)的图像识别装置中,上述限定部将上述搜索对象的数量限定在能够辨别应为识别结果的图像的程度,因此能够缩短识别所需的处理时间。
并且,在本发明的上述(3)的图像识别程序中,上述限定部将上述搜索对象的数量限定在能够辨别应为识别结果的图像的程度,因此能够缩短识别所需的处理时间。
根据本发明的上述(4)的图像识别方法,除去辨别能力较低的特征向量,在哈希表中仅登记与辨别能力较高的特征向量对应的图像参照用数据,因此能够仅将辨别能力较高的特征向量作为处理对象在短时间内进行图像识别。另外,在哈希表中仅登记与辨别能力较高的特征向量对应的图像参照用数据,因此与登记与所有特征向量对应的图像参照用数据的情况相比,能够节约图像数据库所需的存储器容量。
另外,根据本发明的上述(5)的图像识别装置,在哈希表中仅登记与辨别能力较高的特征向量对应的图像参照用数据,因此能够将它们作为处理对象在短时间内进行图像识别。另外,在哈希表中仅登记与辨别能力较高的特征向量对应的图像参照用数据,因此能够节约图像数据库的存储器容量。
在此,容易理解地说明除去特征向量其立意。本发明的图像识别方法是使用特征向量来识别图像的方法。识别的基本在于登记在数据库中的特征向量与输入图像的特征向量的对照。特征向量表示图像的局部特征,因此通常从一个图像中得到多个特征向量。但是,登记在数据库中的物体(图像)的特征向量中存在很好地表示该物体的特征(辨别能力较高)的特征向量和不是很好地表示该物体特征(辨别能力较低)的特征向量。很好地表示物体的特征的特征向量是指如果存在该特征向量则可以说输入图像是该物体的、成为充足证据的特征向量。另一方面,不是很好地表示该物体的特征的特征向量是指如下的特征向量:由于出现在各种物体的图像中,因此虽说具有该特征向量但是不能使用于判断是哪个物体。特征向量的除去是指将后者即不能作为证据的特征向量从词典中删除的处理。更具体地说,以
i)计算近似的特征向量多到何种程度
ii)舍弃超过固定阈值的特征向量的流程进行处理,删除辨别能力较低的特征向量。
下面说明本发明的优选方式。
在上述(1)的图像识别方法中,也可以是上述限定工序能够根据输入图像使限定搜索对象的程度不同来辨别应为识别结果的图像。即,也可以根据输入图像使近似程度不同。由此,通过根据图像来变更识别所使用的近似程度能够缩短处理时间,即,能够提高效率。
在使用近似最近邻搜索的物体识别中,近似程度成为用于平衡识别率和效率的重要参数。越是加强近似越能够削减处理时间,但是当过分加强近似时,对很多特征向量求不出最近邻,作为结果导致引起误识别。在此问题之一是引起误识别的近似程度根据图像而不同。存在即使进行大幅近似也能够识别的“简单,,图像,相反地存在进行大幅近似会误识别的“难”图像。为了通过固定的近似来确保一定的识别率,需要使近似程度配合识别困难的图像,从而成为提高效率的障碍。
因此,作为本发明的一个优选方式,从“识别所需的最近邻搜索的精确度根据图像而不同”的观点出发提供削减处理的方法。即针对图像适应性地调节近似程度的方法。根据上述方法,通过准备近似程度不同的多个辨别器、并从近似程度强到弱多阶纵列连接它们,能够实现。由此,能够在前阶部分利用大幅近似的辨别器来高速地识别可简单识别的图像,能够在后阶部分利用近似较弱的辨别器来仅对大幅近似无法识别的图像费时地精密地进行识别。
另外,在无法辨别应为识别结果的图像时,还可以上述限定工序放宽限定搜索对象的程度、并且进行除去先前视为搜索对象的局部描述符之外地决定新搜索对象的处理,对所决定的搜索对象执行搜索工序以及辨别工序。由此,即使在改变近似程度来多阶地执行限定工序、搜索工序以及辨别工序的情况下,也能够以与搜索在各阶中成为搜索对象的局部描述符一遍的情况相比毫不逊色的处理时间进行识别。
该方法的特征在于进行多阶化的辨别器的构成方法。在后阶的辨别器中,仅将近似不同引起的差分、即在比其前阶的辨别器中没有成为对象的特征向量设为距离计算的对象,由此能够得到如下优点:即使处理进行到最后阶也仅需要与单独使用最后阶的辨别器的情况大致相等的计算量。
并且,在阶段性地放宽限定搜索对象的程度来重复进行上述限定工序、搜索工序以及辨别工序也无法辨别应为识别结果的图像时,也可以拒绝关于该局部描述符的搜索结果。由此,与不进行拒绝的情况相比能够抑制误识别率。
另外,上述图像数据库包括哈希表,该哈希表用按规定过程对从各图像中导出的各局部描述符算出的索引值来对其进行分类,上述限定工序考虑特征量变动地按上述过程根据输入图像的各局部描述符来算出索引值,用算出的索引值参照上述哈希表并将属于该类的局部描述符设为搜索对象,上述辨别工序对通过搜索工序而确定的近邻的各局部描述符使用统计处理,该统计处理为对得到该各局部描述符的图像进行投票,上述哈希表是如下这样制作而成的:对各类,在属于该类的局部描述符的数量超过阈值的情况下,从搜索对象中除去该类的局部描述符。由此,由于在属于各类的局部描述符的数量超过阈值的情况下从搜索对象中除去它们来制作哈希表,因此在限定工序中视为搜索对象的局部描述符被限定在辨别能力较高的局部描述符,从而实现高效的识别。
在属于哈希表的一个类(索引)的局部描述符(特征向量)的数量较多的情况下,可以说这些局部描述符辨别能力较低。即意思是在根据输入图像的局部描述符来算出索引并参照哈希表的情况下,登记有多个属于该类的候补。这种局部描述符对缩窄图像识别的候选项没有多大贡献。如果从搜索对象中除去辨别能力较低的局部描述符,则仅参照辨别能力较高的局部描述符,从而进行高效的识别。
并且,各局部描述符表现为向量,考虑特征量的变动地算出哈希表的索引值的处理是如下处理:在将各局部描述符的要素离散化而得到的离散值中包括误差范围地算出索引值,上述误差范围也可以根据上述变动来决定。即在算出索引时,在根据要素值和变动的估计值而算出的值的范围跨越离散化所使用的多个区间的情况下,也可以使用与各区间对应的离散值来算出多个索引。
例如,在图像数据库中的对象物体的图案是从与输入图像不同的角度看对象物体的图案的情况下、即存在变动的情况下,要进行识别的图像与输入图像之间存在对应关系的局部描述符(特征向量)的要素值将变化。
哈希函数按照规定过程以规定的计算过程根据局部描述符的 要素值(维数)算出作为离散值的索引值,但是当特征向量的要素值发生变动时,可以说算出不同的离散值的可能性较高。特征向量的各要素是以规定阈值进行了离散化的离散值。因此,在以特征向量的各要素值为中心的变动的估计区间跨越超过离散化的阈值的多个区间的情况下,以与各区间对应的离散值来算出多个索引。由此,能够抑制针对上述变动的识别率下降。换言之,在特征向量的某要素接近离散化的阈值的情况下,也考虑跨越阈值的可能性地算出索引,由此能够确保识别率。
另外,上述搜索工序也可以是如下工序:计算输入图像的各局部描述符与属于与其对应的类的哈希表中的各局部描述符之间的距离,确定处于规定距离内或者最短距离的局部描述符。
或者,上述搜索工序也可以是如下工序:将属于与输入图像的各局部描述符对应的类的哈希表中的各局部描述符都设为近邻的局部描述符。由此,不进行特征向量的距离计算就能够进行搜索,因此与进行距离计算的情况相比能够缩短搜索所需的处理时间。
在上述(2)的图像识别装置中可以是上述限定部能够根据输入图像使限定搜索对象的程度不同来辨别应为识别结果的图像。即也可以根据输入图像使近似程度不同。由此,通过根据图像来变更识别所使用的近似程度能够缩短处理时间。
另外,在无法辨别应为识别结果的图像时,上述限定部放宽限定搜索对象的程度、并且进一步进行除去先前视为搜索对象的局部描述符地决定新的搜索对象的处理,搜索部对所决定的搜索对象进一步确定近邻的各局部描述符,辨别部根据所确定的各局部描述符进一步辨别应为识别结果的图像。由此,即使在改变近似程度而限定部、搜索部以及辨别部执行多阶处理的情况下,也能够以与搜索在各阶段中成为搜索对象的局部描 述符一次的情况相比毫不逊色的处理时间进行识别。
另外,在上述(1)和(4)的发明的图像识别方法、上述(2)和(5)的图像识别装置、上述(3)的图像识别程序中,图像数据库中的图像所包括的上述对象物体的图案也可以是从与输入图像不同的角度看对象物体时的图案。
另外,在上述(1)和(4)的发明的图像识别方法、上述(2)和(5)的图像识别装置、上述(3)的图像识别程序中,图像数据库中的图像所包括的上述对象物体的图案也可以其一部分与输入图像的图案对应。
还能够组合多个在此示出的各种优选方式。
进一步说明本发明的优选方式。
在上述(4)的发明的图像识别方法中,除去辨别能力较低的特征向量也可以是如下处理:在索引互相相等的特征向量超过规定数量的情况下,将算出该索引的各特征向量从对哈希表的登记对象中除去。针对哈希表的一个索引而成为登记对象的特征向量的数量多的情况可以说这些特征向量辨别能力较低。即意思是在根据从输入图像中提取出的特征向量算出索引、并以算出的索引参照哈希表的情况下,对该索引登记有多个能够成为候补的图像。这种索引对识别对象的图像圈定没有多大贡献。因而,对各索引,从对哈希表的登记对象中除去这些特征向量,由此能够仅将辨别能力较高的局部描述符登记在哈希表中。
另外,上述索引算出工序也可以通过在将各特征向量的要素离散化而得到的离散值中包括满足误差估计范围的离散值来算出索引。即,在算出索引时,在根据要素的值和变动的估计值而算出的值的范围跨越离散化使用的多个区间的情况下,也可以使用与各区间对应的离散值来算出多个索引。
例如,在图像数据库中的对象物体的图案是从与输入图像不同的角度看对象物体的图案(有变动)的情况下,在要进行识别的图像和输入图像之间存在对应关系的特征向量的要素值变化。
在索引算出工序中,以阈值为基准将特征向量的要素值离散化,但是在特征向量的要素值在阈值附近的情况下,可以说当值变动时离散化的结果为被离散化成不同的离散值的可能性较高。因此,以特征向量的要素值为中心的变动估计区间跨越离散化使用的多个区间的情况下,通过使用与各区间对应的离散值来计算多个索引,能够抑制针对上述变动的识别率下降。换言之,在特征向量的某要素接近计算索引时的离散化阈值的情况下,也考虑跨越阈值的可能性地计算索引,从而能够确保识别率。
另外,登记在上述哈希表中的图像参照用数据由图像ID和该特征向量的要素构成,上述图像ID辨别包括各特征向量的数据库中的图像,投票工序也可以是如下处理:进行输入图像的各特征向量与登记在根据该特征向量算出的哈希表的索引中的各特征向量之间的距离计算,对以最短距离的特征向量的图像ID所辨别的图像进行投票。另外,此时也可以是仅在最短距离在一定阈值以下时进行投票的处理。
由此,能够将特征向量的距离计算次数圈定在登记在索引中的特征向量来减少距离计算的次数。
或者,登记在上述哈希表中的图像参照用数据由辨别包括各特征向量的数据库中的图像的图像ID构成,投票工序也可以是如下处理:对登记在根据输入图像的各特征向量算出的哈希表的索引中的图像ID所辨别的图像进行投票。由此,哈希表中仅登记图像ID而不需要登记各特征向量的要素,因此能够进一步节约图像数据库的存储器。另外,用对输入图像的各特征向量算出的索引来参照哈希表,以使用登记在该索引中的图像ID进行投票处理的简单处理来进行识别处理,因此与进行距离计算的情况相比,能够进一步缩短计算时间。
另外,在上述(5)的发明的图像识别装置中,除去辨别能力较低的特征向量也可以是如下处理:在索引互相相等的特征向量超过规定数量的情况下,将算出该索引的各特征向量从对哈希表的登记对象中除去。
并且,索引算出部也可以通过在将各特征向量的要素离散化而得到的离散值中包括满足误差估计范围的离散值来算出索引值。即,在根据各特征向量的要素值和变动的估计值算出的值的范围跨越多个区间的情况下,也可以使用与各区间对应的离散值来算出多个索引。
登记在上述哈希表中的图像参照用数据由辨别包括各特征向量的数据库中的图像的图像ID和该特征向量的要素构成,投票部也可以进行输入图像的各特征向量与登记在根据该特征向量算出的哈希表的索引中的各特征向量之间的距离计算,对最短距离的特征向量的图像ID所辨别的图像投票。另外,此时也可以是仅在最短距离在一定阈值以下时进行投票。
或者,登记在上述哈希表中的图像参照用数据由辨别包括各特征向量的数据库中的图像的图像ID构成,投票部也可以对登记在根据输入图像的各特征向量算出的哈希表的索引中的图像ID所辨别的图像进行投票。
还能够组合多个在此示出的各种优选方式。
附图说明
图1是表示通过现有技术的PCA-SIFT得到的特征向量的值 分布的曲线图。
图2是表示利用现有技术的ANN的近似最近邻搜索的概念的说明图。
图3是表示在本发明所涉及的数据登记中、向哈希登记时产生冲突的情况下的处理的说明图。
图4是表示在本发明所涉及的实验中使用的登记图像的一例的说明图。
图5是表示在本发明所涉及的实验中使用的检索问题图像的一例的说明图。
图6是表示使用现有技术的ANN、使允许误差ε从2到100之间变化时的识别率以及处理时间的实验结果的曲线图。
图7是表示使用现有技术的LSH、改变变换后的向量的维数k和哈希函数的数L时的识别率以及处理时间的实验结果的曲线图。
图8是表示使用有距离计算的本发明的方法、改变冲突的阈值c时的识别率以及处理时间的实验结果的曲线图。
图9是表示使用有距离计算的本发明的方法、改变成为处理对象的维数b时的识别率以及处理时间的实验结果的曲线图。
图10是表示使用没有距离计算的本发明的方法、改变冲突的阈值c时的识别率以及处理时间的实验结果的曲线图。
图11是表示使用没有距离计算的本发明的方法、改变成为处理对象的维数b时的识别率以及处理时间的实验结果的曲线图。
图12是为了比较本发明的各方法与现有技术的各方法的特征而将参数改变为多种情况并在横轴上描绘识别率、在纵轴上描绘处理时间的曲线图。
图13是表示本发明的各方法以及现有方法中的拍摄角度与 识别率之间的关系的曲线图。
图14是表示使用没有距离计算的本发明的方法、登记图像数量与识别率以及处理时间之间的关系的曲线图。
图15是表示本发明的图像识别装置中与没有距离计算的方法对应的结构例的框图。
图16是表示本发明的图像识别装置中与有距离计算的方法对应的结构例的框图。
图17是表示在本发明中应对了特征向量的各维的值的变动的离散化方法的图。
图18是表示作为本发明的一个方式、多阶纵列连接辨别器的结构的框图。
图19是表示关于现有方法、近似最近邻搜索的精确度和图像识别率之间的关系的曲线图。
图20是表示在本发明的有距离计算的方法中b与识别率、处理时间的关系的曲线图。
图21是表示在本发明的没有距离计算的方法中b与识别率、处理时间的关系的曲线图。
图22是在不拒绝的情况下、为了比较本发明的方法与现有方法的特性而对各方法表示识别率和处理时间之间的关系的曲线图。
图23是表示多阶纵列连接有距离计算的辨别器而构成的、本发明的图像识别装置的框图。
图24是表示多阶纵列连接没有距离计算的辨别器而构成的、本发明的图像识别装置的框图。
附图标记说明
10:辨别器;11:特征点提取部;13:索引算出部;15、35:图像数据库;16:暂定最近邻数据库;17、37:哈希表; 19:投票部;21:投票表;23:图像选择部;24:可靠性判断部;38:特征点对照部。
具体实施方式
下面使用附图更详细地说明本发明。此外,下面说明的所有点是示例,不应解释为是限定本发明的内容。
在本实施方式中,首先说明根据输入图像而阶段性地调节近似程度的方法(多阶化方法)。在各阶段中,设为利用辨别器来进行识别与输入图像相应的图像的处理。上述辨别器进行相当于方法权利要求项中所说的限定工序、搜索工序以及辨别工序的处理。另外,上述辨别器是相当于产品权利要求项和程序权利要求项中所说的限定部、搜索部以及识别部的部分。
接着,说明上述辨别器的更详细的结构。
《多阶化方法》
1.结构和要件
在由多个特征向量表现一个图像、并通过特征向量的近似最近邻搜索和投票来进行识别的情况下,性能的界限是不进行近似时的识别率。如果进行近似就能够相应地实现高速化,但是通常识别率降低。如先前所述,这种近似程度与识别率的关系根据识别对象的图像而不同,因此为了既保持识别率又缩短处理时间需要适当地调整近似程度。
问题点在于在识别之前估计识别所需的近似程度并不容易。应对该问题的一个方法是准备近似程度不同的多个辨别器,一边观察这些辨别器的输出一边选择适当的近似程度。
作为既保持处理效率又利用多个辨别器的具体方法,考虑多阶纵列连接基于近似最近邻搜索的辨别器的结构。图18是表示多阶纵列连接辨别器得到的结构的框图。
在此,标记数字1至N的矩形表示辨别器,设为数字越小近似越强。首先利用第一阶辨别器识别从搜索问题的输入图像中得到的特征向量的集合。如果在该阶能够得到充分的证据,则可靠性判断部中止识别处理并回答结果。另一方面,如果不能得到充分的证据,则使下一阶近似程度更弱的辨别器发生作用,再次识别特征向量的集合。在反复进行处理直到到达最后的N阶也不能得到充分的证据的情况下,采用回答最大得票数的图像和拒绝该图像中的任一个。通过以上的处理,对于在较早的阶段中止处理的图像能够期待大幅的效率化,并且根据需要能够进行费时的识别。
在采用这种结构时成为要件的事项是如下两点:
<1>中止识别处理的判断方法
<2>对于“难”的图像也保持处理效率的方法。
关于<1>,希望以较少的计算量尽可能精确地判断。<2>是用于即使对反复进行识别处理直到后阶为止的图像也不降低处理效率的策略。理想情况是,只要利用多阶化的辨别器进行处理直到s阶为止的情况下的计算量与单独使用具有与第s阶相同近似程度的辨别器的情况相等即可。下面说明各要件。
2.中止识别处理的判断方法
引起识别错误的图像说起来具有如下性质:得票数少,在即使得到某种程度得票数的情况下,在得票数上与第二位的候补之间也基本没有差距。当着眼于这些点时,作为可靠性判断部的处理考虑使用得票数的如下的简便判断方法。当设一位的得票数为V1、二位的得票数为V2时,如果同时满足V1>t、rV1>V2则中止处理,将一位得票的图像设为回答。在此,t是得票数的阈值,r是一位与二位的得票数之比的阈值。此外,关于最终阶存在如下两种情况:与上式无关地将得票数最大的图像设为识 别结果的情况,以及在不满足上式的情况下进行拒绝的情况。
3.对于“难”的图像也保持处理效率的方法
考虑近似程度不同的N个近似最近邻搜索器1,L,N(以后简单称为搜索器)。设为搜索器(s-1)的近似程度比搜索器s更强。将使用搜索器s对特征向量qi进行近似最近邻搜索得到的结果、作为距离计算对象而得到的特征向量的集合设为Pi (S)。在近似最近邻搜索中,通常具有近似程度越强成为距离计算对象的特征向量数量越少的性质。即,针对所有i和s,|Pi (S)|≥|Pi (S-1)|成立。
现在,针对这些搜索器考虑下面这两个性质。
定义1.单调性当对所有i和s
都成立时,称为近似最近邻搜索器具有单调性。
定义2.差分检索性当近似最近邻搜索器高效地求出
Pi (S)-Pi (S-1) (2)
差分集合时,称为具有差分检索性。
在使用具有单调性的搜索器来构成图18的多阶辨别器的情况下,考虑在第s阶中不是将Pi (S)而是将与前一阶的差分Pi (S)-Pi (S-1)设为距离计算或者投票的对象。当这样构成时,从第1阶到第s阶为止成为距离计算或者投票的对象的特征向量的并集与单独使用搜索器s时的集合Pi (S)相等,因此距离计算或者投票的次数相同。并且,在搜索器具有差分搜索性的情况下,即使进行多阶化也能够将计算量的增加抑制得较低。
按照图23具体说明使用距离计算的情况下的识别过程。在图23中标记了附图标记10的框内的模块表示构成多阶辨别器的各阶辨别器的详细结构。当处理进行到第(s-1)阶时,发现针对各特征向量qi的暂定最近邻pi *并将其记录在暂定最近邻数据库16中。因而,在第s阶中,通过差分哈希键(hash key)计算得到 pi∈(Pi (S)-Pi (S-1))的差分特征向量,仅对它们进行与qi之间的距离计算,如果发现比pi *距离更近的向量,只要将其作为暂定最近邻pi *重新登记在暂定最近邻数据库16中并且重新进行投票即可。
按照图24具体说明不使用距离计算的情况下的识别过程。当处理进行到第(s-1)阶时,针对各特征向量qi,利用到该阶为止所得到的哈希键来结束投票。因而,在第s阶中,通过差分哈希键计算得到pi∈(Pi (S)-Pi (S-1))的差分特征向量,仅对它们追加进行投票即可。
此外,在图24中标记了附图标记10的框内的模块表示构成多阶辨别器的各阶辨别器的详细结构。另外,图23、图24的可靠性判断部24包括图15、图16的图像选择部23的功能。在利用到第s阶为止的投票结果能够得到充分的可靠性的情况下,可靠性判断部24决定应为识别结果的图像(与图像选择部23的功能对应)。但是,在没能得到充分的可靠性的情况下,判断为应该进一步进行下一阶第(s+1)阶。即使进行到最终阶(第N阶)也没能得到充分的可靠性的情况下,判断为拒绝该结果。
《辨别器的结构》
作为辨别器,提供基于以下概念的方法。在本实施方式中,使用PCA-SIFT作为局部描述符。作为使用PCA-SIFT的情况下的最近邻搜索方法,发明人提出比现有的ANN、LSH更高速的方法作为本发明的一个侧面。发明人的最近邻搜索方法如后述那样具有单调性和差分检索性,因此非常适合多阶化。因此,在多阶化的实施方式中说明应用发明人的方法作为辨别器的结构。
但是认为上述的多阶化方法不一定限定于与发明人的方法组合,只要满足单调性和差分检索性,即使是应用以往的最 近邻搜索方法的辨别器也能够得到某种程度的效果。例如,ANN、LSH也满足单调性。在ANN中,在阶段性地变更后述的允许误差ε的值的情况下满足单调性,在LSH中,在阶段性地增加所检索的哈希表的数量L的情况下满足单调性。即,即使是利用现有方法的辨别器,只要将其多阶化,与一阶的情况相比也能够缩短物体识别的处理时间。另外,相反地,要应用于辨别器的发明人的方法没有必要一定进行多阶化。即使是一阶的辨别器,与利用现有方法的辨别器相比也能够缩短处理时间。但是,如果将应用了发明人的方法的辨别器进行多阶化,则能够实现更高速的物体识别。因而,最好将两者进行组合。
在应用于辨别器的发明人的方法中,除了在近似最近邻搜索的最终阶中进行距离计算的方法(有距离计算的方法)之外,还存在完全不进行距离计算就完成的方法(没有距离计算的方法)。下面,首先说明有距离计算的方法、没有距离计算的方法中共用的数据登记,然后说明各方法、多阶化方法。
发明人公开使用了哈希表的两种高速化方法。
高速化方法之一是减少特征向量的距离计算次数的方法。具体地说,在近邻具有多个特征向量而无法避免多个距离计算的情况下,通过舍弃这种特征向量来实现高速化。下面将该方法称为“有距离计算”的方法。另一个是完全不进行距离计算的方法。作为处理仅查找哈希表来进行投票。下面将该方法称为“没有距离计算”的方法。
根据本实施方式,在从由照相机捕捉到的图像中识别物体的处理、详细地说在使用局部描述符的物体识别法中,与现有技术相比能够缩短识别处理所需的计算时间。或者,能够以比现有技术更少的存储器容量进行处理。
另外,根据本实施方式,与使用ANN、LSH的以往的近似 最近邻搜索法的情况相比,为达成相同识别率所需的计算时间变短。在后述的实验例中,计算时间缩短到现有技术的1/2至1/3。另外,没有距离计算的方法的存储器使用量少,因此在可伸缩性(scalability)这点上也优良。
《结构概要》
图15和图16是表示本发明的图像识别装置的结构例的框图。图15是与没有距离计算的方法对应的框图,图16是与有距离计算的方法对应的框图。例如在上述图像识别装置上执行本发明的图像识别方法。图像识别装置的硬件例如由CPU、硬盘装置等存储装置、RAM、以及输入输出电路等构成,其中,上述存储装置保存表示CPU所执行的处理过程的程序,上述RAM对CPU提供工作区,上述输入输出电路输入输出数据。更具体地说,例如也可以是具有上述结构的个人计算机。或者,作为不同方式,也可以设为设备嵌入型的装置,由大规模集成电路(LSI)、硬盘装置以及控制它们的处理的微型计算机构成。
在图15中,特征点提取部11是从输入图像所包括的对象物体的图案中提取特征向量的模块。
索引算出部13是根据特征向量以规定的算出方法来算出哈希表的索引的模块。在图像数据库15中登记了附加有图像ID的多个图像。另外,图像数据库15具有用于参照图像的哈希表17。
哈希表17对多个索引登记与该索引对应的图像的图像ID。如下这样进行对各索引的图像ID的对应。首先,通过与特征点提取部11相同的处理来提取登记对象的图像的特征向量。用与索引算出部13相同的算出方法对提取出的各特征向量算出哈希表的索引。对这样算出的索引预先登记包括算出了索引的特征向量的图像的图像ID。
投票部19是如下模块:参照上述哈希表17所确定的索引, 针对所参照的索引,如果存在被登记在哈希表17中的图像ID,则对该图像进行投票。为了进行投票,设置有对各图像存储得票数的得票表21。
图像选择部23是参照得票表21来选择得到最大得票数的图像的模块。
在图15的图像识别装置中应用多阶化方法的情况下,上述各模块中的索引算出部13、投票部19以及投票表21成为多阶化的对象。
在图16中,特征点提取部11、索引算出部13、投票部19、投票表21、图像选择部23具有与图15相同的功能。图像数据库35的哈希表37的结构与图15不同。即、在哈希表37的索引中,对所登记的图像的各特征向量,以组的形式登记向量要素和包括该特征向量的图像的图像ID。向量要素使用于距离计算。另外,图16的图像识别装置具备特征点对照部38。特征点对照部38是如下模块:在针对一个索引多个特征向量成为登记对象的情况下,进行这些特征向量与从输入图像中提取出的特征向量之间的距离计算来决定最短距离的特征向量,并且将与最短距离的特征向量一起登记的图像ID决定为候补图像。
在图16的图像识别装置中应用多阶化方法的情况下,上述各模块中索引算出部13、投票部19、投票表21以及特征点对照部38成为多阶化对象。
此外,在图15的图像识别装置中,针对所参照的索引而对被登记的全部图像ID进行投票,因此不存在与特征点对照部38对应的模块。
《特征向量》
下面说明本实施方式中利用的特征向量。
1.SIFT
SIFT(Scale-Invariant Feature Transform:尺度不变特征变换)是指由Lowe提出的特征点和伴随该特征点的特征向量的提取法(例如参照D.G.Lowe,″Distinctive image features fromscale-invariant keypoints,″International Journal of ComputerVision,vol.60,no.2,pp.91-110,2004.)。如该名所示,对图像放大缩小、旋转、视点偏差具有鲁棒(robust)特征。以往处理时间被视为问题,但是通过利用GPU(Graphical Processing Unit:图形处理单元)能够进行高速处理。
在本实施方式中,使用由Lowe提供的软件(参照URL:http://www.cs.ubc.ca/~lowe/keypoints/)来提取特征点。特征向量是128维的整数值(0-255)向量。
2.PCA-SIFT
Ke等人对SIFT的特征向量应用主成分分析(PCA),由此提出提高SIFT的稳定性、辨别性地PCA-SIFT(例如参照Y.Ke andR.Sukthankar,Pca-sift:A more distinctive representation forlocal image descriptors,CVPR2004,Vol.2,pp.506-513,2004.)。在本实施方式中利用该PCA-SIFT作为图像的局部描述符。通过PCA-SIFT得到的特征向量是36维的实数值向量。即对根据SIFT得到的特征向量使用URL:http://www.cs.cmu.edu/~yke/pcasift/提供的软件,由此变换为36维的向量。
当使用后述实验例中使用的图像来计算PCA-SIFT时,可知各维具有如图1所示的值分布。图1是表示特征向量的值分布的曲线图。横轴是各维的值,纵轴是频度。
第1维是双峰性的分布,第2维之后示出单峰性的分布。另外,随着维数变大分散变小。平均值都是0的附近。
《物体识别和近似最近邻搜索》
1.根据投票的物体识别
图像数据库中收藏有多个图像,设各图像表示一个物体。当提供识别对象的图像(以下称作检索问题)时,将物体识别任务定义为从数据库中检索与检索问题最匹配的图像。
为了该目的,在本实施方式中使用投票方式。现在将检索问题的图像表示为Q,将数据库中的图像表示为P。另外,将从Q、P中得到的d维特征向量表示为q、p。当设近似最近邻搜索的结果为得到p作为与q对应的特征向量时,对图像P投一票。对从Q中得到的全部特征向量执行这种投票,将最终得票数最大的图像作为识别结果进行提示。
这样,针对从检索问题中得到的各特征向量,与从数据库中的全部图像中得到的特征向量之间进行近似最近邻搜索,因此如何使近似最近邻搜索高速化成为关键点。在说明本实施方式之前,首先简单说明作为现有技术的代表方法的ANN和LSH。
2.ANN
非专利文献3中举出的ANN(Approximate Nearst Neighbor)是使用树结构来高速地进行近似最近邻搜索的方法。树的节点与分割特征空间得到的hyperrectangle(以后称作单元)对应,叶节点中还对应有特征向量。
图2示出利用ANN的近似最近邻搜索的概念。其中,为了简单,不描绘与说明无关的单元。现在,设q为检索问题的特征向量,设p1、p2、p3为数据库中的图像的特征向量,设当前发现p1为近邻的向量。在执行最近邻搜索的情况下,与实线表示的超球体重合的单元中可能存在比p1更近邻的特征向量,因此成为搜索对象。另一方面,在进行近似最近邻搜索的情况下,针对到p1为止的距离r考虑使用允许误差ε来定义的半径r/(1+ε)的超球体,仅将与其相交的单元设为搜索对象。由此,可能无法发现最近邻特征向量(图2的情况下是p3),但是成为对象的单 元数量减少,因此能够削减搜索时间。
3.LSH
非专利文献4中举出的LSH(Locality Sensitive Hashing)是使用哈希表的近似最近邻搜索的方法。在此,说明实验中使用的E2LSH(Exact Euclidean L SH;以后简单称作LSH)。
考虑d维向量p=(x1,…,xd)。在LSH中,将一个特征向量变换为L种k维向量,登记在分别.0对应的L个哈希表中。检索时,使用检索问题的特征向量q来检索全部的哈希表,从所得到的特征向量p1,…,ps中选择与q的欧几里得(Euclid)距离最小的特征向量为结果。通过这样使用多个哈希来稳定地求出较好的近似最近邻的特征向量。
再稍微具体地进行说明。对检索问题的特征向量、数据库中的特征向量共用处理,因此通常以v表示特征向量。v使用以如下过程生成的L个函数g1(v),…,gL(v),保存在对应的L个哈希表中。各gj(v)是如gj(v)=(h1(v),…,hk(v))那样地将v变换为k维向量的函数。hi(v)是将v变换为整数的函数,具有如下形式。
[数1]
在此,ai是各维独立地按照正态随机数生成的d维向量,ti是通过[0,w]的均匀随机数(uniform random number)决定的标量。通过使用这种值,能够实现v1与v2的欧几里得距离越小、相应地hi(v1)=hi(v2)的可能性高的效果。
在LSH中,通过使用i=1,…,k的k个不同的ai、ti来设k维向量,使欧几里得距离远离的v不是相同向量。另一方面,通过使用L个gj,防止从对象中漏掉欧几里得距离接近的v。
以上是代表现有技术的ANN以及LSH的说明。接着说明本发明的方法。
《利用冲突削减的高速近似近邻搜索》
1.观点
在使用捕捉物体的局部特征而得到的特征向量、通过投票处理来识别物体的情况下,针对检索问题的特征向量不需要必须从数据库中发现最近邻的特征向量,只要付与给特征向量的图像标签是正确答案即可。并且,通过投票来决定识别结果,因此只要正确答案的得票数不逆转,即使错误的票计入其它图像也不会发生问题。在本发明中活用这种特性实施大幅的近似,由此与使用ANN、LSH的情况相比实现更高速的处理。
在使用ANN、LSH的情况下,最需要计算时间的部分是q与pj之间的距离计算。因而,如何削减该部分成为关键点。但是,如果检索精确度(识别率)明显下降、或者所需存储量大幅增大,则成为问题。
在本发明中,通过使用活用了数据特性的哈希函数来解决高速化问题。作为方法考虑如下两种。方法之一是进行距离计算、是削减成为距离计算对象的特征向量的数量的方法。具体地说,在产生多个冲突的情况下、即登记有很多具有相同哈希值的特征向量时,预先从哈希表中消去它们。由此,能够将每个检索问题的特征向量的距离计算次数削减到一定值以下。另一个方法是完全不进行距离计算的方法。当按照冲突次数进行消去时,哈希表中留下在辨别图像上有效果的特征向量。因此,如果使用这些特征向量,则能够期待仅进行投票也能够得到正确的结果。
2.数据登记
首先,说明本发明的两种方法共用的数据登记。在与本发 明的方法同样地使用哈希表的LSH中,当哈希表数量变多时将消耗大量的存储器。
因此,在本实施方式中,为削减存储量而设为仅使用一个哈希表。
将特征向量登记在哈希表中的方法如下。取通过PCA-SIFT得到的36维实数值向量p的第1维到第d维,设为
[数2]
接着利用[数3]
uj=0 if xj<T0
uj=i+1 if Ti≤xj<Ti+1
将各维离散化,制作以自然数为要素的向量u=(u1,…,ud)。
并且,利用[数4]
求出哈希的索引,登记在哈希表中。在此,U是离散值的种类(以U进制数表现),Hsize是哈希表的大小。登记在哈希表中的数据根据是否使用距离而不同。在使用距离的情况下,除了登记针对特征向量p的图像ID之外,还登记p本身,用于检索时的距离计算。另一方面,在不使用距离的情况下,不需要登记p。
特别是在以二值进行离散化的情况(以2进制数表现的情况)下,使用阈值T0=0,
利用[数5]
将各维二值化,制作位向量u=(u1,…,ud)。
并且,利用[数6]
求出哈希的索引,登记在哈希表中。在此,Hsize是哈希表的大小。登记在哈希表中的数据根据是否使用距离而不同。在使用距离的情况下,除了登记针对特征向量p的图像ID之外,还登记p本身,用于检索时的距离计算。另一方面,在不使用距离的情况下,不需要登记p。
在登记时产生冲突的情况下,如图3那样,通过链条(chain)法将多个特征向量登记为列表。此时,当列表过长时,产生距离计算的成本过大的问题。因此,在本实施方式中,对目录长度n设置阈值c,当满足n>c时从哈希表中删除列表整体。此外,作为预备实验还尝试了在信息检索中使用的各种加权,但是在识别率上没有很大的差别。这种删除不仅对识别率有利还对速度有利,因此在本实施方式中不采用加权而采用删除。具有相同哈希值的特征向量多意味着该特征向量对图像识别没有多大贡献。因而,认为即使删除其影响也较少。
通过对登记在数据库中的所有特征向量实施以上处理来完成数据登记。
3.使用距离计算的方法
接着说明使用距离计算的检索。在本实施方式中,针对从检索问题Q中得到的各特征向量q,从上述哈希表中检索特征向量。当设所得到的特征向量集合为P时,接着从P中求出成为q的最近邻的特征向量p*。
并且,在两个特征向量的距离dist(q,p*)满足
[数7]
dist(q,p*)≤dmax
的情况下,投票给与p*对应的图像ID。在此dmax是距离的阈值。但是,当设为dmax=∞时,与距离无关地投票给p*。
在该处理中最重要的步骤是如何检索针对q的特征向量。最简单的方法是与登记时相同地对q也求出位向量,利用哈希函数求出具有相同哈希值的特征向量。但是,在这种处理中虽然能够充分削减距离的计算次数,但是由于如下理由而无法得到足够的识别率。存在特征向量各维的值随拍摄条件而变动的情形。如果存在超过阈值那样的变动,则位向量变成不同的向量,变得无法得到对应的特征向量。
在LSH中,为了应对相同的问题,在式(1)中将均匀随机数t加到值中来使阈值附近的值随机地移动。另外,在上述非专利文献6中举出的小林等人的方法中,通过对特征向量乘旋转矩阵来改变阈值的相对位置。
在本实施方式中,将值的变动幅度e设为参数来应对变动。具体地说,当设为q=(x1,…,xd)、用于离散化的阈值为Tj(i=0,1,…,z),
区间[数8]
[qj-e,qj+e) (3)
和区间[数9]
(-∞,T0) (4)
[Ti,Ti+1)(0≤i<z) (5)
[Tz,∞) (6)
有重叠时,分配与各区间对应的离散值(式(4)的情况下是0,式(5)的情况下是i+1,d的情况下是z+1)。在此,z是i的最大值。另外,注意到根据e的值不同所分配的离散值为多个。
考虑图17示出的例子。这种情况下,具有重叠的区间是 [T0,T1)、[T1,T2)、[T2,T3)三个,因此作为分配给qj的离散值是分别对应的1、2、3三种。
但是,当无限制地导入这种“尝试各种可能性”的处理时,将需要庞大的计算时间。因此在本实施方式中,将成为处理对象的维数b维持在不太大的值。此外,在离散化为3值以上的情况下,不需要必须将处理对象的可能维数的所有离散值都用于索引的计算。例如,也可以是在图17中随机地选择用于索引计算的离散值、仅使用1和2的处理。
特别是将特征向量的各维值离散化为2值的情况下,针对各维qj值满足
[数10]
|qj|≤e
的维j,不仅使用uj,还使用
[数11]
u′j=(uj+1)mod2(若是0则是1,若是1则是0)
来检索特征向量。但是,当无限制地导入这种“尝试两者”的处理时,将需要庞大的计算时间。在该处理中,当将成为处理对象的维数设为b时,使用2b种位向量来访问哈希表。因此在本实施方式中,使b维持在不太大的值。
当满足[数12]
|qj|≤e
的维数超过b时,从维数的索引较小的当中采用b个。此外,还考虑概率性地决定成为对象的维。但是,实际尝试发现在识别率上几乎没有差别,需要额外的计算时间。
此外,也能够不是在检索时而是在登记时进行这种变动的应对。具体地说,在登记时同样地制作2b个位向量并登记在哈 希表中。由此,在检索时不需要使用多个位向量来访问哈希表,因此能够期待缩短处理时间。然而,由于登记多个特征向量,因此对存储器的负担变大。预备实验的结果是在处理时间上没有很大的差别、对存储器的负担显著,因此在本实施方式中设为在检索时对变动进行应对。
4.不使用距离计算的方法
在不使用距离计算的方法中,不是对检索问题的特征向量q实施如上所述的距离计算来求出近似最近邻,而是对属于从哈希表中得到的特征向量的集合P的所有特征向量
[数13]
p∈P
实施投票处理。处理的参数与不使用距离的方法相同,是特征量的变动幅度e、应对变动的维数b这两个。
《利用b的多阶化》
发明人等的方法的参数是b、c、d、e四个。在本实施方式中,通过变更其中的b来调整近似程度。具体地说,在第s阶中使用设为b=s-1的辨别器。发明人等的方法是伴随b的增加仅增加用于访问哈希表的索引。因此,不仅满足单调性还满足差分搜索性。
但是,多阶化的参数并不限于b。还能够利用其它参数进行多阶化。例如,可知参数d不仅满足单调性也满足差分搜索性。关于c、e也存在该可能性。
此外,在没有距离计算的方法中,在各段处理中不是更新暂定最近邻pi *并进行投票,而是对属于得到的差集合Pi (S)-Pi (S-1)的所有特征向量进行投票。
(实验例)
为了验证本发明方法的有效性进行了实验。首先,说明应 用了发明人等的方法的辨别器和利用现有方法的辨别器的比较实验。
《实验1》
1.实验条件
1.1.图像数据库
首先说明实验所使用的图像。首先,准备了收集方法不同的A、B、C三种数据集。图4是表示实验中使用的登记图像的一例的说明图。A是使用Google的图像检索而收集的3,100张图像。作为检索关键字使用了海报、杂志、封面等。图4的(a)示出例子。
B是PCA-SIFT的站点(URL:http://www.cs.cmu.edu/~yke/pcasift)所公开的图像,图像数量是18,500张。该数据主要由自然照片、人物照片等构成。图4的(b)示出例子。C由在照片共享站点的flickr中利用animal、birthday、food、japan等签条(tag)收集的78,400张的图像构成。主要包括如图4的(c)所示的物体、自然照片、人物照片等。此外,在收集时除了600×600像素(pixel)以下大小的图像之外,进行缩小使图像长边为640pixel以下。另外,特征向量为100个以下的图像也排除在外。A、B、C的图像一边长度的平均分别是498、612、554pixel。
接着,使用A、B、C的图像来制作由表1所示的图像数量构成的数据库DB1,…,DB5,用于实验。
[表1]
表1包括在数据库中的图像数
在此,大的数据库包括小的数据库作为其一部分。此外,从DB3起对每个图像提取平均2,069个特征向量。
1.2.检索问题图像
作为检索问题,使用以如下过程制作的2,000张图像。首先,在DB1所包括的图像中,从A、B、C中分别随机地选择100、200、200张图像并打印在A4纸面上。接着,使用照相机拍摄打印出的纸面。图5示出拍摄得到的图像(检索问题图像)的例子。如图所示,在拍摄纸面整体的配置上,使照相机光轴相对于纸面的角度θ改变为90°、75°、60°。另外,使角度为90°拍摄了纸面的一部分。其结果是对一张纸面合计得到四种图像。并且,将拍摄得到的图像缩小到512×341pixel,通过PCA-SIFT求出特征向量。其结果是每张图像平均得到605个特征向量。此外,打印时使用OKI(注册商标)C5200n(彩色激光打印机)、拍摄时使用CANON(注册商标)EOS Kiss(注册商标)Digital(630万像素)和附属镜头EF-S 18-55mm USM。
1.3.评价
在实验中,使用ANN和LSH作为近似最近邻搜索的比较方法,与本发明的方法进行比较。此外,作为ANN,使用了URL:http://www.cs.umd.edu/~mount/ANN/提供的程序,作为LSH,使用URL:http://www.mit.edu/~andoni/提供的程序。作为评价基准,使用识别率和处理时间。识别率表示能够正确地识别检索问题图像的比例。另外,处理时间表示检索出检索问题的一张图像所需的时间。但是,不包括提取特征向量所需的时间。此外,实验中使用的计算机的CPU为AMD Opteron(注册商标)2.8GHz、存储器为16GB。
此外,通过实验,在本发明的方法中将离散化全部设为二值(U=2),T0=0。另外,有距离计算的方法中的距离最大值的 阈值dmax固定为3,000。
2.使用了DB3的比较实验
首先,使用DB3来说明各方法的参数与识别率、处理速度的关系。
2.1.ANN
图6示出使用ANN、使允许误差在2到100之间变化时的识别率以及处理时间的实验结果。可知识别率、处理时间伴随着ε的增加而减少。
ε从2到10左右为止,与处理时间的减少相比,识别率的减少缓慢。
2.2.LSH
图7示出使用LSH、改变变换后的向量维数k和哈希函数的数量L时的识别率以及处理时间的实验结果。首先,可知识别率、处理时间伴随着L的增加而增加。当进一步增加L时能够提高识别率,但是由于存储器不足而无法执行。另外,除图示以外还尝试了各种k,可知当减少k时识别率得到改善但是处理时间增加。认为其理由是当k较小时成为距离计算对象的特征向量的数量增加。
2.3.本发明的方法(有距离计算)
使用有距离计算的本发明的方法调查了冲突的阈值c与识别率、处理时间的关系。此时,作为哈希表的大小而设为Hsize=2d。设为e=200、b=7、d=24、26、28,在图8中示出改变c时的识别率以及处理时间的实验结果。可知处理时间随着c减少而减少。但是,当c过小时识别率下降。认为这是因为对识别有用的特征向量也被删除的缘故。另一方面,在增加c的情况下,计算时间增加,但是识别率基本不减少。认为这是因为即使搜索到不能成为最近邻的特征向量也能够通过距离计算来排除的 缘故。
另外,调查b与识别率、处理时间的关系。在将用于求出哈希的索引的维设为d=26之后,设为e=200、500、1000、c=∞,在图9中示出改变b的结果。可知当增加b时虽然处理时间增加但是识别率提高。在b较小的情况下,e=200时识别率高。
2.4.本发明的方法(没有距离计算)
接着,使用没有距离计算的本发明的方法调查了c与识别率、处理时间的关系。设为d=24、26、28、e=200、b=5,在图10中示出改变c的结果。对于d=24、26、28的值,当分别是c=2、3、4的小值时识别率为最大。认为这是因为在不使用距离计算的方法中随着c变大而很多不是最近邻的特征向量参与投票的缘故。可知与图8所示的使用距离计算的情况是很好的对比。
另外,还调查了b与识别率、处理时间的关系。设为d=28、e=200、c=2,在图11中示出改变b的结果。到b=5为止,识别率伴随着b的增加而上升,但是当b增加超过5时,识别率下降。认为这是因为由于b的增加而通过不能成为最近邻的不恰当特征向量的投票增大。当考虑在图9的计算距离的图中增加b时识别率没有减少这点时,也同样可以说是很好的对比。
2.5.各方法的比较
为了比较各方法的特征,将参数改变为多种情况,图12示出在横轴上描绘识别率、在纵轴上描绘处理时间的曲线图。用线来描绘在ANN中改变参数所得到的结果,设为评价基准。描绘得越靠右识别率越高,描绘得越靠下处理时间越短。因此,可以说描绘得越靠右下越优良。LSH几乎没有超过ANN的线。在本发明的方法中,进行距离计算的方法在识别率为98%以下的情况下优于ANN。在本发明的方法中,不进行距离计算的方法大部分情况下都优于ANN。
接着,调查各方法中的拍摄角度与识别率的关系。图13示出处理时间约为10ms识别率最佳的情况。参数是ANN e=40,LSH k=20、L=15,有距离计算的方法e=200、b=4、c=8、d=24,没有距离计算的方法e=200、b=5、c=2、d28。但是,示出利用没有距离计算的方法的处理时间为3.4ms的曲线。可知在相同处理时间内,与ANN、L SH相比,有距离计算的方法能够得到更高的识别率。可知在没有距离计算的方法中,除了θ=60°的情况外,能够以1/3的处理时间得到与ANN相同程度的识别率。
表2示出使用了各种参数的代表值的识别率与处理时间。
[表2]
表2各方法的识别率[%]和处理时间[ms]
可知与ANN相比,有距离计算的方法能够以1/3左右的处理时间实现相同程度的识别率。另外一面,在没有距离计算的方法中,平均识别率不及ANN。但是,其原因在于θ=60°的情况下识别率低。在能够限定在θ≥75°的状况下,可知能够在4ms以下的短处理时间内实现96%左右的识别率。
3.使用DB1-DB5的实验
在除了没有距离计算的方法的全部方法中,为了检索必须保持原特征向量的数据,因此对于DB4、DB5的数据因存储器不足而无法执行检索。另一方面,在不使用距离计算的方法中,仅向哈希表登记图像ID即可,因此对存储器的负担少,能够进行直到10万图像为止的实验。因此,设为e=200、d=28,改变b和c来调查登记图像数量与识别率、处理时间的关系。图14示出识别率最好的情况。此时的b从DB1起依次为5、6、5、6、5,c为1、1、2、4、5。即使在将登记图像数量增加到10万张的情况下,也得到识别率87.3%、处理时间20.6ms。除了θ=60°的情况外识别率为91.4%。
由此,不使用距离计算的方法在识别率这点上不及其它,但是在以某程度的识别率能够满足的情况下,在伸缩性这点上可以说是优良的方法。另外,处理是向哈希表的访问和投票这种简单处理,因此认为也存在这方面的优点。
接着,除了作为近似最近邻搜索的以往方法的ANN、LSH之外,还使用有距离计算的方法来构成一阶辨别器,与使用了应用本发明人的方法的多阶辨别器的情况进行比较。
《实验2》
1.实验条件
作为局部描述符使用由PCA-SIFT站点提供的描述符。设哈希表的大小为Hsize=2d。以下所示的处理时间表示识别一张检索问题图像所需的时间。但是,不包括提取特征向量所需的时间。所使用的计算机结构与实验1相同。另外在该实验中,使用图23所示的多阶辨别器。
1.1.图像数据库
从与实验1相同的出处收集图像数据库的图像,但是其数量 为使用Google的图像检索收集的图像为3,100张、由PCA-SIFT站点公开的图像为3,450张、在照片共享站点的flickr中利用animal、birthday、food等签条收集的图像为3,450张、合计10,000张图像。
1.2.检索问题图像
作为检索问题,制作了存在与数据库对应的图像和没有与数据库对应的图像两种。关于前者,从数据库所包含的图像中对各收集方法随地选择100、200、200张合计500张。关于后者,准备了199张不包含在数据库中的图像。接着,将它们打印在A4纸张上,用照相机进行拍摄。与实验1相同,在拍摄纸面整体的配置上,使照相机光轴相对于纸面的角度θ改变为90°、75°、60°。另外,使角度为90地拍摄了纸面的一部分。其结果是对一张纸面得到合计四种图像。并且,将所拍摄的图像缩小到512×341pixel,通过PCA-SIFT求出特征向量。其结果是一张图像平均得到612个特征向量。
2.不进行拒绝的情况
首先,仅使用在数据库中存在对应的图像的检索问题进行实验。
2.1.近似最近邻搜索的精确度与图像的识别率的关系
首先,作为预备实验,调查为识别图像所需的最近邻搜索的精确度。具体地说,对于没有多阶化的方法(ANN、LSH、有距离计算的方法),将参数改变为多种情况来测量近似最近邻搜索的精确度与图像的识别率的关系。近似最近邻搜索的精确度是由近似最近邻搜索求出真正的最近邻的比例。
图19示出结果。从该结果可知:近似最近邻搜索的精确度从100%到20%附近为止,即使近似最近邻搜索的精确度减少,识别率也基本不减少。认为这是因为即使错误地投票给其它图 像也还不至于使正确答案的图像与其它图像的得票数逆转。另外,还了解到近似最近邻搜索的精确度与识别率之间存在不依赖于方法的关系。
2.2利用多阶化削减处理
[表3]
表3进行废弃的情况的结果
接着验证多阶化的效果。首先,使用有距离计算的方法调查b与识别率和处理时间的关系。设为e=200、c=5、d=28、t=2、r=0.5,图20示出改变b的结果。可知进行多阶化的情况与不进行多阶化的情况相比,能够基本上不降低识别率地削减处理时间。另外,可知随着多阶化的阶数(N=b+1)变多而削减处理时间的效果变大。
同样地,使用没有距离计算的方法来调查b与识别率和处理时间的关系。设为e=200、c=3、d=28、t=2、r=0.5,图21示出改变b的结果。可知在没有距离计算的方法中也能够削减处理时间。
2.3.各方法的比较
为了比较各方法的特征,将参数改变为多种情况,在图22中示出描绘了识别率与处理时间的关系的曲线图。用线描绘在ANN中改变允许误差ε得到的结果,设为评价基准。描绘得越靠右识别率越高,描绘得越靠下处理时间越短。因此,可以说描绘得越靠右下越优良。LSH几乎不超过ANN的线。在有距离计算的方法中,最大识别率不及ANN,但是在识别率为98%以下的情况下,与ANN相比能够以1/10至1/40左右的处理时间来实现相同的识别率。在提出方法中,通过进行多阶化将处理时间削减到有距离计算方法的1/5左右。
3.进行拒绝的情况
接着说明进行拒绝的情况下的实验结果。如下这样定义评价尺度。针对存在对应的图像的检索问题,设为识别率C1、误识别率E1、拒绝率R1(C1+E1+R1=1)。针对没有对应的图像的检索问题,设为误识别率E2、拒绝率R2(E2+R2=1)。
首先,使用有距离计算的提出方法,通过10-fold crossvalidation(10倍交叉验证)进行实验。对学习样本,在E1=0、E2=0的条件下求出R1为最小的参数,将其应用到测试样本(基准A)。另外,与其不同,也对学习样本求出E1+E2+R1为最小的参数,将其应用到测试样本(基准B)。作为参数尝试了b=5,10、d=24,28、e=200,400、c=5、t=4,8,12、r=0.2,0.4,0.6的所有组合。没有距离计算的提出方法中,对参数追加c=2来同样地进行实验。
表3示出结果。在以基准A来设定参数的情况下,在有距离计算的提出方法中,在拒绝率R1为12.15%时能够使误识别率E2为0%。此时,误识别率E2不到0%,但是能够得到0.25%的低值。另外,在以基准B来设定参数的情况下,相对于误识别率的微 小增加,能够将拒绝率R1抑制到1/3。另一方面,在没有距离计算的提出方法中,得到不如有距离计算的提出方法的结果。
对于处理时间,没有对应的图像的检索问题一方长4至9倍左右。这是因为:通过多阶化,没有对应的图像的检索问题几乎处理到最末阶而被拒绝,与此相对,存在对应的图像的检索问题不到达最末阶就输出回答。
此外,关于本发明,可知除了上述的实施方式之外,本发明还能够有各种变形例。例如考虑将本发明也应用于平面物体以外。
本发明的范围意图包括与权利要求范围同等的意思以及范围内的所有变更。
产业上的可利用性
使用了本发明的物体识别处理能够应用于从由照相机捕捉的图像中识别物体、进行与识别结果相应的信息处理的服务。作为上述信息处理的具体例,考虑对现存图像、视频图像等附加索引的处理等。
Claims (12)
1.一种图像识别方法,在提供表示对象物体的图像作为输入图像时,通过搜索局部描述符来从图像数据库中辨别包括上述对象物体的图像,该图像识别方法的特征在于,具备如下工序:
从输入图像中导出表示其局部特征的多个局部描述符的工序;
限定工序,在从上述图像数据库中的图像得到的各局部描述符中,对输入图像的各局部描述符分别限定进行搜索的对象;
搜索工序,从上述搜索对象中搜索与输入图像的各局部描述符接近的各局部描述符,确定针对输入图像的各局部描述符的近邻的各局部描述符;以及
辨别工序,使用统计处理来辨别得到近邻的各局部描述符的图像中应为识别结果的图像,
其中,上述限定工序将上述搜索对象的数量限定在能够辨别应为识别结果的图像的程度,
由计算机执行各工序,
上述图像数据库包括哈希表,该哈希表以按规定过程根据从各图像中导出的各局部描述符而算出的索引值来对其进行分类,
上述限定工序考虑特征量的变动地按上述过程根据输入图像的各局部描述符算出索引值,用算出的索引值来参照上述哈希表并将属于该类的局部描述符设为搜索对象,
上述辨别工序对通过搜索工序确定的近邻的各局部描述符使用统计处理,该统计处理为对得到该近邻的各局部描述符的图像进行投票,
对各类如下这样制作上述哈希表:在属于该类的局部描述符的数量超过阈值的情况下,从搜索对象中除去该类的局部描述符。
2.根据权利要求1所述的图像识别方法,其特征在于,
上述限定工序能够根据输入图像使限定搜索对象的程度不同来辨别应为识别结果的图像。
3.根据权利要求2所述的图像识别方法,其特征在于,
在无法辨别应为识别结果的图像时,上述限定工序放宽限定搜索对象的程度,并且还进行如下处理:除去先前视为搜索对象的局部描述符之外地决定新的搜索对象,
对所决定的搜索对象执行搜索工序以及辨别工序。
4.根据权利要求3所述的图像识别方法,其特征在于,
在阶段性地放宽限定搜索对象的程度来重复上述限定工序、搜索工序以及辨别工序也无法辨别应为识别结果的图像时,拒绝该输入图像。
5.根据权利要求1所述的图像识别方法,其特征在于,
各局部描述符表现为向量,
考虑特征量的变动来算出哈希表的索引值的处理是如下处理:在使各局部描述符的要素离散化而得到的离散值中包括误差范围地算出索引值,
根据上述变动来决定上述误差范围。
6.根据权利要求5所述的图像识别方法,其特征在于,
上述搜索工序是如下工序:进行输入图像的各局部描述符与属于与其对应的类的哈希表中的各局部描述符之间的距离计算,确定处于规定距离内或者最短距离的局部描述符。
7.根据权利要求5所述的图像识别方法,其特征在于,
上述搜索工序是将属于与输入图像的各局部描述符对应的类的哈希表中的各局部描述符都设为近邻的局部描述符的工序。
8.根据权利要求1至7中的任一项所述的图像识别方法,其特征在于,
图像数据库中的图像所包括的上述对象物体的图案是从与输入图像不同的角度看对象物体时的图案。
9.根据权利要求1至7中的任一项所述的图像识别方法,其特征在于,
图像数据库中的图像所包括的上述对象物体的图案是其一部分与输入图像的图案对应的图案。
10.一种图像识别装置,在提供表示对象物体的图像作为输入图像时,通过搜索局部描述符来从图像数据库中辨别包括上述对象物体的图像,该图像识别装置的特征在于,具备:
特征导出部,其从输入图像中导出表示其局部特征的多个局部描述符;
限定部,其在从上述图像数据库中的图像得到的各局部描述符中,对输入图像的各局部描述符分别限定进行搜索的对象;
搜索部,其从上述搜索对象中搜索与输入图像的各局部描述符接近的各局部描述符,确定针对输入图像的各局部描述符的近邻的各局部描述符;以及
辨别部,其使用统计处理来辨别得到近邻的各局部描述符的图像中应为识别结果的图像,
其中,上述限定部将上述搜索对象的数量限定在能够辨别应为识别结果的图像的程度,
上述图像数据库包括哈希表,该哈希表以按规定过程根据从各图像中导出的各局部描述符而算出的索引值来对其进行分类,
上述限定部考虑特征量的变动地按上述过程根据输入图像的各局部描述符算出索引值,用算出的索引值来参照上述哈希表并将属于该类的局部描述符设为搜索对象,
上述辨别部对通过搜索部确定的近邻的各局部描述符使用统计处理,该统计处理为对得到该近邻的各局部描述符的图像进行投票,
对各类如下这样制作上述哈希表:在属于该类的局部描述符的数量超过阈值的情况下,从搜索对象中除去该类的局部描述符。
11.根据权利要求10所述的图像识别装置,其特征在于,
上述限定部能够根据输入图像使限定搜索对象的程度不同来辨别应为识别结果的图像。
12.根据权利要求11所述的图像识别装置,其特征在于,
在无法辨别应为识别结果的图像时,上述限定部放宽限定搜索对象的程度、并且还进行如下处理:除去先前视为搜索对象的局部描述符之外地决定新的搜索对象,
搜索部对所决定的搜索对象进一步确定近邻的各局部描述符,辨别部根据所确定的各局部描述符进一步辨别应为识别结果的图像。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP236113/2006 | 2006-08-31 | ||
JP2006236113 | 2006-08-31 | ||
JP2007129737 | 2007-05-15 | ||
JP129737/2007 | 2007-05-15 | ||
PCT/JP2007/065086 WO2008026414A1 (fr) | 2006-08-31 | 2007-08-01 | Procédé de reconnaissance d'image, dispositif de reconnaissance d'image et programme de reconnaissance d'image |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101536035A CN101536035A (zh) | 2009-09-16 |
CN101536035B true CN101536035B (zh) | 2012-09-26 |
Family
ID=39135700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200780040849XA Expired - Fee Related CN101536035B (zh) | 2006-08-31 | 2007-08-01 | 图像识别方法、以及图像识别装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8199973B2 (zh) |
EP (1) | EP2063394A4 (zh) |
JP (1) | JP4883649B2 (zh) |
CN (1) | CN101536035B (zh) |
HK (1) | HK1134364A1 (zh) |
WO (1) | WO2008026414A1 (zh) |
Families Citing this family (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009129337A (ja) * | 2007-11-27 | 2009-06-11 | Hitachi Ltd | 三次元類似形状検索装置 |
EP2284796A4 (en) | 2008-04-28 | 2012-10-31 | Univ Osaka Prefect Public Corp | METHOD FOR CREATING AN IMAGE DATABASE FOR OBJECT RECOGNITION, PROCESSING DEVICE AND PROCESSING PROGRAM |
KR101257999B1 (ko) * | 2008-04-30 | 2013-04-24 | 고리츠다이가쿠호징 오사카후리츠다이가쿠 | 3차원 물체 인식용 화상 데이터베이스의 작성 방법, 처리 장치 및 처리용 프로그램 |
US8140448B2 (en) * | 2008-05-09 | 2012-03-20 | International Business Machines Corporation | System and method for classifying data streams with very large cardinality |
US8429216B2 (en) * | 2008-09-23 | 2013-04-23 | Hewlett-Packard Development Company, L.P. | Generating a hash value from a vector representing a data object |
JP5527554B2 (ja) * | 2009-03-04 | 2014-06-18 | 公立大学法人大阪府立大学 | 画像検索方法、画像検索プログラム及び画像登録方法 |
WO2010143573A1 (ja) | 2009-06-10 | 2010-12-16 | 公立大学法人大阪府立大学 | 物体認識用画像データベースの作成方法、作成装置および作成処理プログラム |
DE112009005002T5 (de) * | 2009-06-26 | 2012-10-25 | Intel Corp. | Techniken zum Erkennen von Videokopien |
CN102782708A (zh) * | 2009-12-02 | 2012-11-14 | 高通股份有限公司 | 用于图像辨识的描述符小块的快速子空间投影 |
US8352494B1 (en) | 2009-12-07 | 2013-01-08 | Google Inc. | Distributed image search |
JP4806101B2 (ja) * | 2010-02-01 | 2011-11-02 | 株式会社モルフォ | 物体検出装置及び物体検出方法 |
CN101790064A (zh) * | 2010-02-23 | 2010-07-28 | 公安部第三研究所 | 具有视频结构化描述功能的硬盘录像设备及其方法 |
US9058561B2 (en) | 2010-03-22 | 2015-06-16 | Aptima, Inc. | Systems and methods of cognitive patterns knowledge generation |
US9530073B2 (en) | 2010-04-20 | 2016-12-27 | Qualcomm Incorporated | Efficient descriptor extraction over multiple levels of an image scale space |
JP5818327B2 (ja) * | 2010-04-28 | 2015-11-18 | オリンパス株式会社 | 三次元物体認識用画像データベースの作成方法および作成装置 |
CN102375990B (zh) * | 2010-08-17 | 2015-03-04 | 富士通株式会社 | 图像处理方法和设备 |
WO2012032788A1 (ja) * | 2010-09-10 | 2012-03-15 | パナソニック株式会社 | 排他的分類器による一般物体の画像認識装置及び方法 |
US8548237B2 (en) | 2010-10-18 | 2013-10-01 | Hewlett-Packard Development Company, L.P. | Ordinal and spatial local feature vector based image representation |
KR101675785B1 (ko) | 2010-11-15 | 2016-11-14 | 삼성전자주식회사 | 특징점을 이용한 영상 검색 방법 및 상기 방법을 수행하는 장치 |
JP5563494B2 (ja) * | 2011-02-01 | 2014-07-30 | 株式会社デンソーアイティーラボラトリ | 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム |
US8612441B2 (en) * | 2011-02-04 | 2013-12-17 | Kodak Alaris Inc. | Identifying particular images from a collection |
US9122705B1 (en) * | 2011-03-15 | 2015-09-01 | Google Inc. | Scoring hash functions |
JP5601277B2 (ja) | 2011-05-06 | 2014-10-08 | 富士通株式会社 | 情報処理装置、情報処理システムおよび検索方法 |
JP5692725B2 (ja) * | 2011-05-27 | 2015-04-01 | 公立大学法人大阪府立大学 | 近似最近傍探索に係るデータベースの登録方法および登録装置 |
CN102855498B (zh) * | 2011-07-01 | 2016-08-31 | 富士通株式会社 | 字符识别方法和装置 |
JP5485954B2 (ja) * | 2011-09-06 | 2014-05-07 | 東芝テック株式会社 | 店舗システム及びプログラム |
US9400945B2 (en) * | 2011-09-23 | 2016-07-26 | GM Global Technology Operations LLC | System and method of fast object detection using parts to whole fragment detection |
US10152674B2 (en) * | 2012-01-16 | 2018-12-11 | Texas Instruments Incorporated | Accelerated decision tree execution |
CN103377373A (zh) * | 2012-04-25 | 2013-10-30 | 佳能株式会社 | 图像特征产生方法及设备、分类器、系统和捕获设备 |
CN102722554B (zh) * | 2012-05-28 | 2014-07-02 | 中国人民解放军信息工程大学 | 位置敏感哈希随机性减弱方法 |
US9165068B2 (en) * | 2012-08-03 | 2015-10-20 | Adobe Systems Incorporated | Techniques for cloud-based similarity searches |
CN102930529B (zh) * | 2012-09-24 | 2014-04-16 | 南京工业大学 | 一种基于非对称模板搜索的快速伪造区域盲检测方法 |
JP6164899B2 (ja) * | 2013-04-05 | 2017-07-19 | キヤノン株式会社 | ハッシュ値生成装置、システム、判定方法、プログラム、記憶媒体 |
IL226219A (en) * | 2013-05-07 | 2016-10-31 | Picscout (Israel) Ltd | Efficient comparison of images for large groups of images |
US9286549B1 (en) | 2013-07-15 | 2016-03-15 | Google Inc. | Sublinear time classification via feature padding and hashing |
JP5808371B2 (ja) * | 2013-08-28 | 2015-11-10 | ヤフー株式会社 | 画像認識装置、画像認識方法及び画像認識プログラム |
JP6151141B2 (ja) * | 2013-09-18 | 2017-06-21 | 株式会社東芝 | 仕分装置および仕分方法 |
CN103678660B (zh) * | 2013-12-24 | 2017-01-11 | 北京邮电大学 | 一种图像检索方法 |
US9569692B2 (en) * | 2014-10-31 | 2017-02-14 | The Nielsen Company (Us), Llc | Context-based image recognition for consumer market research |
US9600524B2 (en) * | 2014-12-22 | 2017-03-21 | Blackberry Limited | Method and system for efficient feature matching |
CN104732221A (zh) * | 2015-03-30 | 2015-06-24 | 郑州师范学院 | 一种基于OpenCL并行加速的SIFT特征匹配方法 |
CN104933407A (zh) * | 2015-05-28 | 2015-09-23 | 成都佳发安泰科技股份有限公司 | 基于sift变换的指纹识别方法 |
JP6493102B2 (ja) * | 2015-09-02 | 2019-04-03 | トヨタ自動車株式会社 | 物体認識方法、物体認識装置及びプログラム |
US10885098B2 (en) | 2015-09-15 | 2021-01-05 | Canon Kabushiki Kaisha | Method, system and apparatus for generating hash codes |
WO2017072890A1 (ja) | 2015-10-28 | 2017-05-04 | 株式会社東芝 | データ管理システム、データ管理方法およびプログラム |
US10424072B2 (en) * | 2016-03-01 | 2019-09-24 | Samsung Electronics Co., Ltd. | Leveraging multi cues for fine-grained object classification |
US10579860B2 (en) | 2016-06-06 | 2020-03-03 | Samsung Electronics Co., Ltd. | Learning model for salient facial region detection |
US10762431B2 (en) | 2017-10-30 | 2020-09-01 | The Aerospace Corporation | Low probability transitions and boundary crossing into disallowed states for a more optimal solution |
US10832180B2 (en) | 2017-10-30 | 2020-11-10 | The Aerospace Corporation | Artificial intelligence system that employs windowed cellular automata to create plausible alternatives |
US10740646B2 (en) * | 2017-10-30 | 2020-08-11 | The Aerospace Corporation | Programmable cellular automata for memory search, recall, simulation, and improvisation |
CN108805157B (zh) * | 2018-04-11 | 2022-02-18 | 南京理工大学 | 基于部分随机监督离散式哈希的遥感图像分类方法 |
JP7207862B2 (ja) * | 2018-04-26 | 2023-01-18 | 株式会社日立製作所 | 物体認識装置および方法 |
CN110471942B (zh) * | 2018-05-08 | 2022-04-15 | 北京大学 | 一种基于均衡哈希编码的飞行器查询方法及系统 |
US11120070B2 (en) * | 2018-05-21 | 2021-09-14 | Microsoft Technology Licensing, Llc | System and method for attribute-based visual search over a computer communication network |
CN109389148B (zh) * | 2018-08-28 | 2021-11-23 | 昆明理工大学 | 一种基于改进DHash算法的图像相似判定方法 |
AU2019402308A1 (en) * | 2018-12-20 | 2021-08-05 | Edi BAHOUS | System and method for classifier training and retrieval from classifier database for large scale product identification |
CN110134804B (zh) * | 2019-05-20 | 2021-09-17 | 北京达佳互联信息技术有限公司 | 图像检索方法、装置及存储介质 |
JP2022133491A (ja) * | 2019-08-06 | 2022-09-14 | 学校法人明星学苑 | 圧縮データ検索エンジンを用いた情報処理装置およびその情報処理方法 |
CN112529921A (zh) * | 2019-09-24 | 2021-03-19 | 上海壹品仓软件科技有限公司 | 一种线上线下多渠道商品库存共享系统和方法 |
CN110751188B (zh) * | 2019-09-26 | 2020-10-09 | 华南师范大学 | 基于多标记学习的用户标签预测方法、系统及存储介质 |
CN111008210B (zh) * | 2019-11-18 | 2023-08-11 | 浙江大华技术股份有限公司 | 商品识别方法、装置、编解码器及存储装置 |
US11645733B2 (en) | 2020-06-16 | 2023-05-09 | Bank Of America Corporation | System and method for providing artificial intelligence architectures to people with disabilities |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1783956A (zh) * | 2004-10-29 | 2006-06-07 | 安捷伦科技有限公司 | 用于识别所检测光环境的方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60142788A (ja) * | 1983-12-29 | 1985-07-27 | Hitachi Ltd | パターン認識における特微量評価方法および装置 |
US4658429A (en) * | 1983-12-29 | 1987-04-14 | Hitachi, Ltd. | System and method for preparing a recognition dictionary |
JPS63132381A (ja) * | 1986-11-25 | 1988-06-04 | Hitachi Ltd | 画像デ−タ検索・表示システム |
JP2551212B2 (ja) * | 1990-07-26 | 1996-11-06 | 日本電気株式会社 | 特徴量選択方法及び装置と高速識別方法及び装置 |
JPH05233881A (ja) * | 1992-02-21 | 1993-09-10 | Fujitsu Ltd | 文字認識装置における認識文字テーブル作成方法 |
JP3143532B2 (ja) * | 1992-11-30 | 2001-03-07 | キヤノン株式会社 | 画像検索装置及び方法 |
JP3851742B2 (ja) | 1999-03-31 | 2006-11-29 | 株式会社東芝 | 帳票処理方法及び装置 |
US7016532B2 (en) | 2000-11-06 | 2006-03-21 | Evryx Technologies | Image capture and identification system and process |
JP3914864B2 (ja) | 2001-12-13 | 2007-05-16 | 株式会社東芝 | パターン認識装置及びその方法 |
US7200270B2 (en) * | 2001-12-13 | 2007-04-03 | Kabushiki Kaisha Toshiba | Pattern recognition apparatus and method using distributed model representation of partial images |
JP4067379B2 (ja) * | 2002-10-09 | 2008-03-26 | 株式会社リコー | 特定マーク検出用辞書作成装置、特定マーク検出装置、特定マーク認識装置並びにプログラムおよび記録媒体 |
CN101133429B (zh) | 2005-03-01 | 2010-10-06 | 公立大学法人大阪府立大学 | 文档和/或图像检索方法、文档和/或图像存储设备和检索设备 |
-
2007
- 2007-08-01 JP JP2008532003A patent/JP4883649B2/ja not_active Expired - Fee Related
- 2007-08-01 CN CN200780040849XA patent/CN101536035B/zh not_active Expired - Fee Related
- 2007-08-01 EP EP07791766A patent/EP2063394A4/en not_active Withdrawn
- 2007-08-01 WO PCT/JP2007/065086 patent/WO2008026414A1/ja active Application Filing
- 2007-08-01 US US12/439,493 patent/US8199973B2/en not_active Expired - Fee Related
-
2010
- 2010-03-05 HK HK10102372.2A patent/HK1134364A1/xx not_active IP Right Cessation
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1783956A (zh) * | 2004-10-29 | 2006-06-07 | 安捷伦科技有限公司 | 用于识别所检测光环境的方法和装置 |
Non-Patent Citations (7)
Title |
---|
JP平4-84277A 1992.03.17 |
JP昭60-142788A 1985.07.27 |
JP昭63-132381A 1988.06.04 |
JP特开2003-242509A 2003.08.29 |
JP特开2004-133629A 2004.04.30 |
JP特开平5-233881A 1993.09.10 |
JP特开平6-168277A 1994.06.14 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2008026414A1 (ja) | 2010-01-14 |
US20100027895A1 (en) | 2010-02-04 |
JP4883649B2 (ja) | 2012-02-22 |
CN101536035A (zh) | 2009-09-16 |
HK1134364A1 (en) | 2010-04-23 |
EP2063394A4 (en) | 2011-08-03 |
WO2008026414A1 (fr) | 2008-03-06 |
US8199973B2 (en) | 2012-06-12 |
EP2063394A1 (en) | 2009-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101536035B (zh) | 图像识别方法、以及图像识别装置 | |
CN102016918B (zh) | 物体识别用图像数据库的制作方法以及处理装置 | |
US8892542B2 (en) | Contextual weighting and efficient re-ranking for vocabulary tree based image retrieval | |
CN102422319B (zh) | 图像检索方法和图像存储方法 | |
CN102016910B (zh) | 三维物体识别用图像数据库的制作方法、处理装置以及处理方法 | |
Song et al. | Aggregating minutia-centred deep convolutional features for fingerprint indexing | |
CN102521366A (zh) | 融合分类与全局索引的图像检索方法和图像检索系统 | |
Jégou et al. | Exploiting descriptor distances for precise image search | |
CN111695453B (zh) | 绘本识别方法、装置及机器人 | |
Schonberger et al. | Paige: pairwise image geometry encoding for improved efficiency in structure-from-motion | |
WO2012156774A1 (en) | Method and apparatus for detecting visual words which are representative of a specific image category | |
CN111046910A (zh) | 图像分类、关系网络模型训练、图像标注方法及装置 | |
CN105512657A (zh) | 字符识别方法和设备 | |
Tax et al. | Bag dissimilarities for multiple instance learning | |
CN107291949A (zh) | 信息搜索方法及装置 | |
CN104268552A (zh) | 一种基于部件多边形的精细类别分类方法 | |
WO2015146113A1 (ja) | 識別辞書学習システム、識別辞書学習方法および記録媒体 | |
CN101515286A (zh) | 基于图像特征多级过滤的图像匹配方法 | |
CN110334751B (zh) | 用于捆扎节点的图像处理方法及装置、终端 | |
CN116612307A (zh) | 一种基于迁移学习的茄科病害等级识别方法 | |
Le et al. | Document retrieval based on logo spotting using key-point matching | |
CN105205487B (zh) | 一种图片处理方法及装置 | |
CN113688263B (zh) | 用于搜索图像的方法、计算设备和存储介质 | |
CN103093239A (zh) | 一种融合了点对和邻域信息的建图方法 | |
CN116821087A (zh) | 输电线路故障数据库构建方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1134364 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1134364 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120926 Termination date: 20150801 |
|
EXPY | Termination of patent right or utility model |