CN105518668B

CN105518668B - 基于内容的图像检索

Info

Publication number: CN105518668B
Application number: CN201480048753.8A
Authority: CN
Inventors: S·佩雷兹德拉科巴
Original assignee: Shazura Inc
Current assignee: Shazura Inc
Priority date: 2013-09-04
Filing date: 2014-08-08
Publication date: 2020-03-27
Anticipated expiration: 2034-08-08
Also published as: IL244381B; CA2921127A1; CN105518668A; JP6188954B2; RU2016112126A; ES2530687B1; ES2530687A1; IL244381A0; US10353948B2; EP2948877B1; US20160078057A1; MX362373B; WO2015032585A1; AU2014317351A1; EP2948877A1; MX2016002854A; AU2014317351A2; JP2016530641A

Abstract

一种用于基于内容的图像检索的方法和非暂态计算机可读介质。该方法包括选择查询图像；通过应用分割技术将所选择的查询图像进行分割；通过确定至少两个特征描述符来从所分割的查询图像提取特征，至少两个特征描述符包括颜色特征描述符和纹理特征描述符；以及使用所分割的查询图像的所确定的至少两个特征描述符来确定查询图像与被包括在数据库中的多个图像的相似性，通过确定至少两个特征描述符从被包括在数据库中的多个图像中的每个图像来提取特征，颜色特征描述符和纹理特征描述符包括不同的颜色空间的同时组合，并且对不同的颜色空间的同时组合执行全局和局部统计测量。

Description

基于内容的图像检索

技术领域

本发明总体上涉及计算机视觉、对象和图像识别技术。特别地，本发明涉及一种用于使用唯一高层图像特征通用描述符的基于内容的图像检索的方法和非暂态计算机可读介质。本发明还涉及使用基于客观和可选地主观加权相似性的实施方式，以及查询图像与潜在地类似图像之间的距离的优化的计算。

背景技术

我们的社会中的图像识别的重要性随着计算机和虚拟球体深入人心而逐日增长。

视觉搜索引擎和计算机视觉、对象和模式识别技术的应用领域是很宽的，并且已经蔓延到各种各样不同的使用和部门，诸如：工业和机器视觉、导航、过程控制、国土安全、电子商务、医学诊断、生物研究、人员识别和生物统计学、市场、社交网络等等。

特别地，针对标识和相似性的视觉搜索的使用是具有多个兴趣的领域，其中，由于数字图像和视频的增加以及具有智能电话、平板电脑等(包括越来越高级的内置照相机)中的最新技术的因特网的使用，其商业应用已经在过去几十年中得以发展。

解决视觉搜索问题的第一种方法是“基于文本的检索”，其中，使用关键字、标签和分类代码或者主标题来索引图像。与相关领域技术的限制是双重的：第一，图像需要被索引和被标记，这需要大量的时间和资源，以及第二，其不是标准方法，因为每个用户可以以不同的方式主观地解释、定义和描述图像。

基于文本的检索的备选方案是基于内容的图像检索(CBIR)技术，其基于自动得出的图像特征来从图像数据库检索语义相关图像。

图像处理是相当复杂的：除其占用的体积外，在将高层感知高效地转换为低层图像特征方面和解决众所周知的语义鸿沟方面存在真实的挑战。这些技术可以试图解决以下各项：

·减少响应时间

·增加准确度

·简化针对图像检索的查询

·增加对不同环境、图像捕获条件和视点改变的鲁棒性和不变性

·体积、时间和图像性质的可扩展性；实时改变和增加的大型数据库，以及其他类型的对象、图像和/或模式的灵活性和可扩充性。

CBIR系统适当工作的关键点之一是图像特征的定义和提取，即最佳和适当向量的选择，还被称为特征描述符(feature descriptor)，其利用最小数量的必要数据来尽可能完整并且准确地描述感兴趣的视觉信息的图像或者区域。此目的是为了通过对大型图像数据库应用的高效搜索和比较方法，利用与其相同和类似的那些来识别、标识、排序和分类感兴趣的查询图像或者对象。

迄今为止，所发展的领域的技术通常基于直接应用到整个图像/对象或者部分图像窗口/感兴趣区域(ROI)的1:1比较、模式匹配或者相关方法。这样的方法是准确的，并且适于识别先前已知的特定对象的全局结构，并且针对有限且经训练的数据库，但是不能良好地处理部分遮挡、视点的显著改变或者可变形变换(从Morgan&Claypool(2011年)的K.Grauman和B.Leibe的Synthesis Lectures on Artificial Intelligence and MachineLearning的第3章Local Features:Detection and Description,Visual ObjectRecognition)。此外，其对于来自相邻元件的照明改变或者噪声存在通常不是鲁棒的，这使这些系统的可扩展性和灵活性非常昂贵并且因此使其CBIR适用性相当可疑。

用于定义正确CBIR描述符的另一关键因素在于，其应当是不变的，这意指其不应当受对不同的图像或者对象捕获条件和环境灵敏的参数影响，诸如照明、旋转、缩放、反转、平移、仿射变换和其他影响。

备选地，存在形成开发基于不变的低层特征的描述符的CBIR系统的努力，以一方面鲁棒地描述不同捕获上下文和条件中的图像或者对象，并且另一方面，避免高层特征的使用和分析，其在实现和必要的能耗和处理二者方面是更复杂并且昂贵的。

这些低层特征向量的使用包括索引视觉属性、使用数值描述这些特征、将图像或者对象表示为N维空间中的点。该过程包括提取查询图像或者对象向量特征，并且应用度量和分类方法以分析数据库方面的相似性。

目前，存在用于从图像提取该类型的不变特征的算法方法，诸如尺度不变特征变换(或者SIFT)、G-RIF：广义鲁棒不变特征、SURF：加速鲁棒特征、PCA-SIFT、GLOH等等。然而，这些方法描述对象或者图像特定区域的具体局部外观，选择通常利用对先前已知的有限数据库应用的机器学习和训练方法获得的一组感兴趣点，这意指其在没有对应的先验训练的情况下不可扩展到其他对象和分类。

在该上下文中，挑战包括指定通过灵活和可扩展的方法加速图像检索的索引结构。

因此，低层特征的另一备选方案是使用诸如颜色、形状、纹理等的特征的描述符，以用于形成可适用于各种图像和对象的通用向量。在用于所提到的向量/描述符的优化方法之间，目的是获得最大信息，同时包括其内的最小数目的参数或者变量。为此，选择方法被用于确定最重要的特征和其组合，以便描述和查询大型数据库中的项，这减少了搜索和检索的复杂性(在时间和计算机处理二者方面)，同时试图维持高性能准确度。而且，这通过自动地将正确特征与给定数据库的测量结果相关联来帮助终端用户(I.Guyon和A.Elisseff的2003年的An Introduction to Variable and Feature Selection，Journalof Machine Learning Research3(第1157-1182页))。这些方法可以分为两组：

·特征变换方法，诸如主成分分析(PCA)统计过程和独立成分分析(ICA)计算方法，其将原始特征空间映射到最低维空间并且构建新特征向量。关于特征变换算法的问题是其对噪声的灵敏度，并且所得特征对用户无意义。

·特征选择方案，对噪声鲁棒，并且具有所得的高度可解释的特征。特征选择的目标是选择特征的子集以减少特征向量长度，同时损失最少数量的信息。根据其子集评价方法，特征选择方案进而分类为两组：

ο过滤方法，其中基于其内在影响和自然分离为类或簇来评价特征。

ο包装方法，其利用学习方法准确度来评价特征子集。

迄今为止，已经利用基于机器学习和训练方法的不同的方法来实现了CBIR系统的特征选择，包括优化准确度和定制训练特定情况和数据库样本的结果，其因此一般不可扩展到其他或者新情况和初始未考虑和未训练的数据库样本或者不同种类的图像和对象类别。

在所有这些通用特征向量之中，颜色和纹理是最通常使用在图像和视频检索中的两个最相关的描述符。因此，公司和研究人员已经花大力气改进其和使其CBIR系统基于其。

颜色描述符或者颜色特征是描述其图像、区域或者对象方面的场景的表面的表面属性的全局特征。在Lulu Fan、Zhonghu Yuan,Xiaowei Han、Wenwu Hua“Overview ofContent-Based Image Feature Extraction Methods”(International Conference onComputer,Networks and Communication Engineering(2013年))中解释提取颜色特征的不同的方式。

不同的颜色空间在其CBIR中的应用和其标识感知颜色中的优点是广泛已知的。没有颜色空间可以被认为是通用的，这是因为可以以不同的方式解释和塑造颜色。利用各种各样的可用颜色空间(例如RGB、CMY、Y IQ、YUV、XY Z、rg、CIE Lab、Luv、HSV等等)和用于定义图像和对象的颜色的各种各样的描述符，非显而易见的是，应当测量哪个颜色空间和哪些特征以便描述图像并且能够标识与其相同并且最类似的那些图像。在该上下文中，出现的问题是如何选择针对特定计算机视觉任务提供最佳结果的颜色模型。在(H.Stokman和T.Gevers的“Selection and Fusion of Color Models for Image Feature Detection”(IEEE transactions on pattern analysis and machine intelligence，第29卷，第3期，2007年三月))中详细解释这些困难，其中其提出(一个或多个)通用选择模型(不变的)。

迄今为止，大部分该种类的描述符具有多个限制，如Lulu Fan、Zhonghu Yuan、Xiaowei Han、Wenwu Hua的“Overview of Content-Based Image Feature ExtractionMethods，”(International Conference on Computer,Networks and CommunicationEngineering(2013年))的近期出版物中所反映的。现有颜色描述符通常不能够描述图像中的局部分布、空间定位和区域改变，并且总之，不足以明确地解释、识别、分类和标识特定复杂对象或者图像、特定高层模式、图像区域和细节，也找不到接近或者语义类似的其他。形状和纹理描述符需要复杂的计算过程或者具有先验训练的特定模型。

总之，存在涉及针对CBIR系统的描述符选择和提取中所追求的目标时的关键困境。当寻求鲁棒性、不变性、灵活性和可扩展性时，失去准确度。当实现准确度时，失去的是其他类型的图像、产品或者类别的鲁棒性、灵活性和可扩充性。

作为这些特征描述符的方案和演变，所谓的高层语义描述符已经出现，其试图以与我们的主观人类感知最接近的方式解释视觉信息以便实现在准确度、不变性、鲁棒性、灵活性和可扩展性方面同时最佳的描述符，这是因为我们的大脑当解释我们周围的视觉世界时这样做。然而，旨在变得更接近人类智能的这些描述符面对归因于其算法、计算和存储复杂性的障碍。

相似性分析

所检索的图像与数据库之间的相似性分析阶段特别地在可扩展性和处理速度方面是针对CBIR的另一临界点。

该相似性分析主要取决于分析下的描述符/向量类型。主要并且最广泛使用的技术是查询图像与剩余的数据库图像之间的距离的分析，这测量用于确定哪些与那些相同和类似哪些不相同和不类似的距离。

相似性分析量化两个图像之间的内容相似性。取决于特征的类型，相似性分析公式和其测量结果显著地变化。

相似性分析中的基于距离的相似性度量的使用的主要限制是：

·可扩展性，由于描述符的数目越大，将必须运行的相似性度量系统越多，并且图像检索越大，分析越慢。

·语义鸿沟，当使用未足够地表示全部图像或者目标对象的低层特征时，并且相似性度量可能错过图像的真实意义。

为了克服相似性度量的以上限制，基于与相似性分析组合的学习方法，已经提出备选学习方法，以便改进相似性搜索并且实现可扩展的CBIR系统。如在(G.Rafiee、S.S.Dlay和W.L.Woo的“A Review of Content-Based Image Retrieval”CSNDSP 2010 SIP8(775-779)de)中所解释的，存在用于建立图像特征与概念之间的链路的三个共同框架：监督式学习、非监督式学习和交互模型。与相似监督式和非监督式类似的方法的这些方法的问题在于，其要求某种学习或者其他，这意指其不能确保针对在常数变化和增长的无限和实时改变的数据库中可能出现的所有可能性的准确的行为。

总之，尽管本技术领域中已经做出许多进步，但是现今CBIR技术中的挑战仍然是基于利用的描述符来准确地搜索和识别相同和类似图像/对象的能力，所述描述符用于区别并且测量不仅简单低层形状、颜色和纹理，而且具有各种各样的形状、几何形状、多种颜色和纹理、模式、多区域、设计和如我们的大脑做出的特定细节的图像中的复杂高层视觉信息。而且，存在对可扩展、适用、可扩充到一般地、不变地并且鲁棒地分析的任何类别、对象或者图像性质的CBIR技术的需要，因此避免对特定预先定义和有限的数据库集的训练。通过这种方式，方法可以可拓展和可扩展到任何类型的图像、对象或者类别，以及实时数据库中产生的变化，其常常是无限的并且在恒定增长和改变中。更加如此，考虑到缺乏全面，对象信息将总是一个因素，这是因为通常其三维体积完全数据未利用单个而不是立体照相的照相机捕获，因此生成具有不完整或者部分对象信息的二维数字图像，连同噪声和其他变化，并且而且仅实现来自所捕获的视点和视角的图像数据。最后，还应当记住的是，真实世界对象通常易于改变，而新的或者不同的对象在共同预先存在的类别以及新的类和模型二者内出现。如此，所述方法应当以将不涉及所使用的方法的继续重新训练、定制和重新调节的方式随时间对这样的包含和演变是灵活并且就绪的。

如此，期望找到直到现在所使用的训练和机器学习技术的备选方法，这是因为其有效性严格地限于先前已知、有界、并且经训练的数据库，然而目前，越来越需要可扩展性和鲁棒性，以便解决搜索所有类型的图像或者对象的问题。总之，需要包括不仅所有存在搜索可能性和条件而且准备用于将出现在未来的构建实时100％可扩展的CBIR方案时的那些的方法。

发明内容

本公开总体上涉及基于计算机视觉系统和统计方法的组合的新CBIR机制或者系统。实施例可以解决相关领域中所标识的限制中的一些或全部限制，并且可以提供经改进的准确度、可扩展性和/或速度。不要求实施例解决上文所描述的相关领域的限制的任何或全部限制。

特别地，根据实施例，提供了CBIR，其迅速并且准确地找到与搜索同样和类似的图像/对象，并且其适于与任何捕获条件一致并且不变地不同种类的图像或者对象的所有类别和类型。如此，实施例对所有类型的连续增长和改变的类别、种类或者数据库可以是可扩充的、可拓展的并且高度可扩展的，即，可以提供100％实时可扩展性，这使能其通过所有类型的捕获设备的使用和应用对照明、视点和其他捕获条件鲁棒。

为此，在第一方面中，实施例提供一种用于基于内容的图像检索的方法，包括：

-选择查询图像；

-通过应用可以包括任何必要的先前的增强和归一化图像过滤技术的分割技术来将所选择的查询图像进行分割；

-通过确定包括颜色特征描述符和纹理特征描述符的至少两个高层特征描述符，从所分割的查询图像提取图像；以及

-使用所分割的查询图像的所确定的至少两个特定描述符，确定查询图像与被包括在数据库中的多个图像的相似性，其还包括通过所述至少两个特征描述符计算的所提取的特征。

根据实施例，所计算的颜色和纹理(多颜色、多纹理)特征描述符包括不同的颜色空间的共同和同时组合，连同也同时使用的其三个相应的通道，以及相同内容的局部和全局测量结果，其全部可以同时地包括一阶统计矩、平均值和方差中的至少一个共同计算，测量其高斯模型分布的+90％代表性信息，因此使地能够不仅简单低层区域单色或者单纹理特征中的准确度，而且能够描述高级特征。实施例可以包括具有若干颜色、纹理、局部分布、空间定位、结构、组织、图案、图片、设计和/或几何形状以及甚至特定复杂对象和精确的细节的不同的区域。因此，实施例可以提供具有以下低层的优点的高层语义描述符：简单计算、很小的大小、低实现复杂性、灵活性、鲁棒性、2D旋转和在大部分情况中维持3D体积的不变性和深度旋转、仿射变换(视点、变形等)、遮挡、反转、缩放和照明、优选地使用具有至少36个数值的向量对其进行表示。

所述颜色和纹理描述符可以与至少形状/几何形状和取向描述符组合，因此提供对2D旋转、缩放、反转、平移和照明也不变的高级形状/几何形状和取向描述符。

根据另一示例性实施例，可以优选地使用欧几里德和/或马氏距离的组合和加权来利用n维度量执行客观相似性功能分析。

根据另一示例性实施例，各种变换技术和过滤方法可以被用于选择最佳特征并且移除冗余度。优选地，使用熵统计分析，避免任何学习方法或者定制包装的使用。

最后，根据另一示例性实施例，基于目标空间度量连同主观加权，可以执行语义相似性函数的分析和定义，以便在不需要基于分析下的对象/图像的预先定义的模型(“簇”)的任何学习、训练或者分类方法的情况下，渐进地变得更接近视觉相似性的人类主观感知。作为非限制性示例，实时超立方体可以被集中在查询图像/对象上，这允许其保存其准确度连同可扩展性。

根据另一方面，实施例可以提供计算机程序产品，其具有适于当其执行在计算设备中、在数字信号处理器中、在集成在微控制器中的专用电路中或者任何其他类型的数据处理系统中时执行CBIR的代码。

附图说明

可以通过参考以下详细描述连同以下附图更好地理解前述优点、特性和其他，其中：

图1是描述根据示例性实施例的所提出的CBIR方法的流程图。

图2a图示了从针对形状和取向的特征描述符向量、可变密度函数获得的示例。

图2b图示了从针对颜色和纹理的特征可变密度函数所获得的示例。

图3a图示了定制超立方体簇。

图3b图示了根据示例性实施例定义的针对通过01.M、1M和10M项数据库大小的查询搜索的、以秒为单位的所得定时的示例。

图3c图示了根据示例性实施例定义的针对通过01.M、1M和10M项数据库大小的查询搜索、所搜索的所有查询图像的第一位置(前1)、第20位置(前20)的外观的百分比％的所得的准确结果的示例。

图4图示了根据使用在所述特征描述符中的不同颜色通道的颜色和纹理特征描述符向量的局部ROI的所提供的所得的不同颜色信息和位置的示例。

图5、6是利用一起使用颜色、纹理、形状和几何形状纹理描述符的各种示例性实施例获得的视觉示例。

图7a、7b和7c是利用仅使用颜色和纹理特征描述符(即在这些情况中未测量形状和几何形状)的各种示例性实施例所获得的视觉示例，示出其高层模式和组织的相似性识别能力。

图7d是利用一起使用颜色、纹理、形状和几何形状特征描述符的各种示例性实施例获得的视觉示例，示出对视点3D旋转的灵活性和对关于纸、玻璃等中的图的照明改变和不同图像条件的鲁棒性。

图8a和8b是利用仅使用颜色和纹理特征描述符(在这些情况中未测量形状和几何形状)的各种示例性获得的视觉示例，示出不同的图像性质的其灵活性，同时示出高级复杂细节相似性识别能力，甚至找到不同上下文中的动物面部。

具体实施方式

在图1中，根据实施例，示出CBIR机制的整个过程，并且其包括分析、设计和实现。所述机制可以分为三个主要阶段：

第一：在不使用包装或者学习方法的情况下，针对自定义特征提取的图像处理和计算机视觉算法。

第二：针对包括在计划的语义描述符中的特征的经优化的评价、选择、提取和压缩的高级统计分析和定性熵选择和分组。

第三：基于欧几里德和/或马氏距离的客观相似性函数的实现和可选地针对人类感知的主观加权。

图像处理和计算机视觉算法

根据实施例提供了一种通用和可扩展方法，其旨在使用检测、分割和识别来使其适用并且可扩展到所有类型的图像、对象或者感兴趣区域(ROI)，因此总是保持系统的灵活性、互操作性和可扩展性。

首先，参考图1，在框100中，输入查询图像，然后使用本领域技术的已知状态来在框105中执行分割(还优选地先前的增强和归一化)。然后，针对框110中的特征提取，计算针对初始局部/全局特征的描述符(优选地形状、取向、颜色和纹理)，并且然后被存储为框115中的查询对象特征。描述符基于图像变换方法以及最好地表示和描述视觉信息目标特征的那些方法，标识所分割的查询图像的最不变的并且非相关的变量。第一种方法是优化缩放、照明、旋转、平移和反转的不变性。第二种方法是使用针对每个描述符的最少数据来提供最大信息。针对形状，提取数学几何形状，以描述局部形状和全局形状二者，包括：不变统计矩、离心率、凸面、面积、周长和其关系比等等，直到总计近似20-30变量和测量初始地被包括在描述符中。针对取向，包括PCA计算连同基于对象外壳形状的其他比率。针对颜色和纹理，还定义若干统计矩，全局测量和局部测量二者，包括至少针对各种照明不变颜色空间的平均值和方差(标准偏差)，其全部同时发生，再次高达接近20-30个变量。

形状特征描述符提取涉及测量可以对形状描述、对低层和高级描述二者高效地有贡献的所有几何不变的变换特征。

返回参考图1，针对被包括在框120中所提供的数据库中的多个图像中的每个图像，，如上文关于框105中的对象分割所讨论的在框125对图像进行分割。

接下来，在框130中执行特征提取，并且然后如上文关于框110和115所讨论的，描述符被存储为框135中的数据库项特征。

为了测量真实世界的最重要并且忠实的可能的复制品，并且记住物理/3D对象被投影到2D数字图像表示，并且因此关于对象的核心信息的大部分被丢失，寻找旨在尽可能地保存3D-旋转以及反转和翻转的不变性的参数。因此，基于凸壳、离心率、其他得出的计算形状和与对象有关的其比例，在全局开始处使用低层不变Hu矩，连同与对象的体积有关的其他线性和无量纲参数。

针对在轮廓和其他高层特征内，使用基于等效周长的比例和详细的局部内部形状和几何形状测量结果。针对在边界、凸面、离心率等内或外，计算凸面缺陷和进入区域和相关线性比例。

针对取向描述符提取，本发明除了依赖于几何形状和角度和比率，还依赖于第一PCA成分角度值和/或其他相关角度比率计算，诸如封闭矩形长度的长度对高度比率。

同时，形状和取向初始特征提取优选地组成总计35个变量。

为了提取颜色和纹理特征描述符，计算经变换的特征，其可以高效地描述多个颜色、多个纹理、局部和全局区域、对象内的高级模式和组织特征，保存对照明和颜色改变的高鲁棒性和不变性，其可以不仅由于不同的图像捕获条件而且由于3D至2D投影而存在，包括阴影和发光效果、体积视角改变等等。实施例利用数个不同的颜色空间工作：至少HSV、CieLAB和CieXYZ，这是由于其针对感知的适合的属性，基于颜色和照明不变性，和当使用单个颜色空间时补偿颜色特征限制(HSV例如对于测量白色和黑色值不是良好的)。

此外，为了测量不仅全局颜色和纹理特征而且高级局部特征以及因此将空间-局部测量包括在相同描述符中，还可以针对整个对象区域以及针对较小的局部ROI，测量主统计矩。为了这样测量颜色和纹理表示，计算全局统计矩，其包括至少针对三个不变颜色空间的平均值和方差，其中，测量主导颜色/模式(利用平均值)和主导纹理/组织(利用方差)是更容易的。同样为了能够对单个对象中的不同颜色/纹理区域进行区分，利用至少接近和/或远离借助于欧几里德距离所测量的全局值的平均值和方差值，小局部特定ROI还可以被包括在全部对象图像中。

该示例性实施例中的所选择的ROI由总对象区域的1％组成，并且是从满足从其局部统计值到全局值的最近距离的整个对象/图像所选择的一个，即距离(ROI，对象)是：

同时，颜色和纹理初始特征提取组成总计至少18个变量。

针对经优化的特征压缩和选择的统计多变量分析和方法

一旦已经获得包括在向量描述符的变量提取的初始特征，其在统计和熵项中彻底地分析，以便为了决定哪些变量构成适当的特征描述并且消除不提供视觉信息而不是噪声或者冗余数据的那些变量，获得要被选择的最不相关的、有用的且经优化的理论数据。此外，目的是避免训练针对所定义的簇或者模型的图像或者项的具体集合，这是因为这些通用描述符的基本前提总是其必须描述来自任何类型的类别和性质内的任何类型的对象。

根据第一特征描述符统计高级多变量分析和结果，得出以下结论：

·针对取向和形状特征描述符，使用所定义的变量实现熵非相关视觉信息数据的99.61％。这意指基于因此定义的该描述符，在其外部形状和取向特征方面彻底地测量和描述对象是可能的。

·针对颜色和纹理特征描述符，达到98.92％熵百分比，由此其还可以被认为针对所描述的所有类型的对象或者感兴趣区域，提供至少两个存在的不同区域的模式/颜色和组织/纹理的彻底描述。

一旦已经熵且推测地分析所述向量，就针对另一压缩和特征语义描述，执行定性分析。

针对形状和取向描述符，基于所得统计独立因素和其定性解释的独立定性特征是：体积、取向、入站和凸面。然而体积和取向是全局特征，入站和凸面是局部特征，其通过将全局描述和局部描述组合在相同描述符向量内，来丰富准确度和灵活性二者方面的总体描述符。因此，在人类感知和统计视觉信息二者方面，原始描述符可以被视为两个独立描述符：取向和总体几何形状(全局和局部)。

针对颜色和纹理描述符，独立定性提取的特征是：颜色、纹理、模式和组织/细节。在这种情况下，应当注意，然而颜色和纹理是全局特征，模式、组织、几何设计和特定细节是局部特征。此外，考虑到其全局/局部平衡和多个颜色空间同时存在，在相同图像或者对象中识别多区域(即超过的一个颜色、纹理或者模式)是可能的。针对人类语义感知，原始描述符可以分为数个：颜色/模式和组织/细节(包括纹理和复杂视觉信息)。

出于该原因，从该阶段可以推断原始描述符可以分解为其他独立特征描述符，并且如此可以分离地进行处理，以便改进基于主观人类感知和描述或者被用于针对其他用户目的和应用的独立选择的视觉语义准确度。错误，基于所实现的其他统计分析和使用数个方法的冗余信息的减少，获得以下结果：

-用于描述形状、几何形状和取向的高级高层语义描述符优选地由22个变量(非限制性的，当用于描述高级高层语义描述符的值不依赖于该确切数目的变量而是依赖于这些数目的变量在概念上全部测量什么)，其是鲁棒的、不变的并且准确的，因此改进从原始35个特征所获得的解释和初始描述。

-用于描述颜色、纹理、模式、组织、几何设计和细节的高级高层语义描述符由优选地36个变量(再次非限制性的)组成，其是鲁棒的、不变的并且准确的，因此在不需要任何特定主观语义聚类的情况下，改进期望的解释和初始描述。

可以改进针对这些高层描述符的该压缩和准确度描述，使得可以在其更多压缩的情况下，优选的22和36个变量值减少，或者可以在包括新变量以提供进一步的信息的情况下，优选的22和36个变量值增加。

参考图2，示出了示例。图2a图示了从特征描述符向量、针对形状和取向的变量密度函数所获得的示例，并且图2b图示了从针对颜色和纹理的特征变量密度函数所获得的示例。

定义可扩展相似性函数

如先前所指示的，准确度是影响相关领域相似性诱导的语义CBIR系统的主要问题之一。这是由于由人类大脑所感知的高级概念与在相关领域系统中频繁使用的低层描述符之间的差异。此外，由于空间度量和距离的使用和可变并且一维(距离)的那个的n维信息空间的数学减少，出于将大部分类似结果排序到查询图像的目的，频繁发生的是，以语义术语部分或者全部非类似的许多结果以与客观和数学距离视点最类似的那些的方式变得生成人类感知的最类似的结果之间的“噪声”。这是因为尽管根据低层数学计算，其全部客观地相互最接近，但是根据高层人类主观感知，其未被视为最类似的。

另外，当计算查询图像与数据库图像集中的每个图像之间的1:1距离时，可扩展性由于待执行的1:1组合的增加而未恒定而是线性增长。因此，从大型数据库检索图像成为速度限制和计算处理方面的问题。这通常借助于机器学习训练包装方法解决，分类并且塑造为预定义簇，并且仅关于每个类或者簇相应的形心对查询图像执行1:1距离计算。然而，在分类为簇可以以固定的定制方式定义所述特定集、使用训练包装方法优化并且因此再一次的这样的情况中，其可以仅针对特定先前已知的数据库或者有限集是有效的。此外，在这样的情况中，负面地影响准确度，这是因为分类误差是更可能的，这是由于情况的整个全集必须分组为簇。这意指中心模型单独被用于表示宽并且一般不同的各种情况和n维全集的点，其中的一些点常常未正确地被分类为最代表性的簇。出于该原因，针对实时无限并且连续地增长的数据库集，这些分类方法可以不是有效的，这是因为其必须连续地更新并且重新训练以维持期望的准确度水平，其然而将同样地减少，因此生成附加的成本和任务，并且防止总体常量速度、准确度和可扩展性。

为了解决上文所提到的限制中的一些或者全部的限制，根据实施例提供了新相似性函数，其既不基于预定义分类方法也不基于通过机器学习所优化的空间度量系统，而是基于四个主要支柱：

·基于与经组合的全局特征和局部特征组合的至少4个高层语义描述符的相似性分析

·基于定制的超立方体计算和超平面层次空间分割的“个性化子集簇”的实时创建。集中在n维空间中的查询图像的位置并且仅计算针对该集内的项的1:1距离，以便增加搜索速度(其仅应用在所述空间内)并且使能针对大型和/或实时连续改变且增长的数据库的可扩展性。

返回参考图1，在存储框115中的查询对象特征和框135中的数据库项特征，在框140中确定集中在n维空间中的查询向量上的超立方体簇，并且在框145中执行簇内相似性计算。

图3a图示了定制超立方体簇300。在这种情况下，超立方体簇300由具有m维半径的向量定义，其中，m是所有描述符的变量/尺寸的总体n维的子集连同利用超平面计算的每个维度的独立且不同的半径值，并且基于查询图像位置的值的接受的距离百分比，也由许可的最大速度的计算限制，以便计算关于n维空间中的局部查询位置的样本的超立方体簇和空间密度内的线性必要的1：1距离。

·基于经组合的马氏距离和/或欧几里德距离的定制超立方体子集内的相似性分类独立地应用于在主观视觉相似性、具有以下至少2阶函数的非线性方面分离并且随后加权的每个语义特征描述符：

Similarity＝＝α²·〖[d]_mab(orientation+shape)]²+α·〖[d〗_mab(orientation+shape)]++(1-α)²·〖[d〗_mab(patterns+weaves)]²+(1-α)·〖[d]_mab(patterns+weaves)]+K

其中

α＝W_形状

1-α＝W_组织

这些矩阵针对任何对象和类别描述是标准的，这是因为其表示每个描述符内的变量之间的互相关，其中，其独立于其描述的对象和类别类型。由于此，就涉及算法而言，可扩展性是可能的。

为了计算α，应用初始监督式学习方法(注意，仅学习方法可以应用在该点处仅以定制主观人类感知加权，并且未在之前，而是当定义对象、通用和非训练的特征描述符时)，其由多变量逻辑回归支持以适合人类视觉感知，基于两个准则：

·α|最大化针对与查询图像相同的结果的相似性函数的排序位置

·α|最小化所得的主观语义相似性函数排序中的所感知的不变性

为了改进目前的颜色和纹理描述符，实施例考虑包括新附加颜色空间(例如RGB、CMYK、其他CIE等等)、附加高阶统计矩(例如协方差、相关性、偏斜性、峰态等等)的计算、空间同时和多个大小ROI(例如ROI 50％、ROI 25％、10％)、多种形状ROI(例如，三角形、六边形等等)和其他关联性和接近度依赖性(例如，关于全局值最近、最远、中间)的附加计算。

此外，为了示出所估计的可扩展性要求方面的实施例的益处，在其他中已经执行详细统计测试以证明所要求的不变性、速度、鲁棒性和准确度属性。

所执行的测试和示例：

根据关于具有1千万个图像的所测试的最大数据库的速度和定时，达到每查询的3.25秒的平均时间。利用1千万个图像，达到每查询的大约2.11秒的平均时间，并且仅针对100000个图像，达到每查询的1.37秒的平均时间。利用仅三个样本点和所估计的初始外推法，如3b中所示，如由线310所图示的缩放是非常好的并且靠近针对N个产品中的最佳索引搜索的对数增长log N的理论极限，因此在数据库大小的对数中线性出现。(注意，图3c中的x轴示出数据库中的图像数，并且y轴示出每查询的秒数。)

可以观察到，结果的完整1:N排序可以期望增长为N logN，其可以利用机器数的对应的增长进行补偿，并且当包括对总体数据库的实时超立方体簇子集的搜索时优化时，所述总体数据库可以包含甚至高达50000个图像并且仍然提供要求小于0.5秒/搜索的其内的查询搜索。

在准确度方面，测量由每个描述符所到达的最大熵数据：

取向和形状特征向量(所选择的15个变量)

＝＝＝概述＝＝＝

颜色、纹理、颜色和纹理特征向量(所选择的36个变量)

＝＝＝概述＝＝＝

针对相似性函数计算最佳α以便优化：

-第一结果中的查询对象的呈现的较高％

-查询对象的结果的主观人类感知相似性的最大一致性

在命中率％方面，执行不同的测试以测量缩放、旋转、反转、可扩展性、变形、遮挡和照明效应的鲁棒性：

针对具有类似函数(所有描述符包括：模式、组织、形状和取向)的、对以减少的缩放(原始图像的50％)的样本的超过112个子集测试的1033个元件的随机子集

前1:94.64％

前2:97.32％

前3:97.32％

前4:97.32％

前5:97.32％

前6:97.32％

前7:97.32％

前8:97.32％

前9:97.32％

前10:97.32％

针对具有类似函数(所有描述符包括：模式、组织、形状和取向)的、对以减少的缩放(原始图像的25％)的样本的超过112个子集测试的1033个元件的随机子集

前1:93.75％

前2:94.64％

前3:94.64％

前4:95.54％

前5:95.54％

前6:95.54％

前7:95.54％

前8:96.43％

前9:96.43％

前10:96.43％

尽管数字降采样损耗效应，根据实施例的CBIR对于缩放减少差异是鲁棒的。此外，向更大的数据库应用相同测试(25％缩放降采样)：

可以观察到，不存在噪声和假阳性方面的增加；进入前20和前100的正确图像的百分比相当独立于数据库体积增加可扩展性，并且仅观察针对顶尖结果的一些竞争。

针对具有类似函数(所有描述符包括：模式、组织、形状和取向)的、对以不同的视图(图像反转和2D旋转等等)的样本的超过112个子集测试的1033个元件的随机子集

前1:90.18％

前2:91.07％

前3:92.86％

前4:94.64％

前5:94.64％

前6:95.54％

前7:95.54％

前8:95.54％

前9:95.54％

前10:95.54％

针对仅具有颜色和纹理描述符的、对不同的视图(反转/翻转、2D旋转等的图像)中的样本的超过112个子集测试的1033个元件的随机子集

前1:76.22％

前2:81.10％

前3:82.93％

前4:85.98％

前5:86.59％

前6:89.63％

前7:92.07％

前8:92.68％

前9:93.29％

前10:93.29％

针对仅具有形状和取向描述符的、对取向的不同角度(反转/翻转、2D旋转的图像)中的样本的超过112个子集测试的1033元件的随机子集

前1:75.89％

前2:82.14％

前3:83.93％

前4:85.71％

前5:86.61％

前6:87.50％

前7:88.39％

前8:88.39％

前9:88.39％

前10:88.39％

可以得出结论，所有特征对全局相似性准确度有贡献，并且具有用于找到第一结果中的相同对象的类似初始准确度，但是颜色特征和纹理特征是清楚地更强的，这是因为命中率百分比从前到前10增加22％，然而针对形状和取向，增加是16％。

针对其他查询图像条件，还计算命中率百分比，以便验证用于缩放3D深度旋转的准确度鲁棒性和灵活性，并且仅计算将描述符考虑到具有不同的视点(因此不同的视觉信息)的单个2D图像。

针对具有相似性函数(所有描述符包括：模式、组织、形状和取向)的、对3D深度旋转视图的样本的超过112个子集测试的1033个元件的随机子集

前1:25.00％

前2:33.93％

前3:39.29％

前4:44.64％

前5:46.43％

前6:48.21％

前7:49.11％

前8:51.79％

前9:54.46％

前10:54.46％

如所期望并且仅计算2D描述符，由于仿射畸变，根据实施例的CBIR可以不被初始地如期望与3D深度旋转方差那样强。然而，如果在前10个结果中，从该视图适合地标识近似情况的一半，则其是良好的第一步。为了改进3D深度中的该方差，根据另一实施例，执行新的动作，包括包含来自全3D对象的附加2D视图上的描述符和其演变。

总之，根据实施例，提供了归因于以下原因的更快速、更准确且更可扩展的新的CBIR方法：

在其计算简单性和小向量维度大小方面，首先出现的自选择是低层描述符，但是由于其通过变换方法的实现而是不的变、鲁棒的、灵活的和可扩展的，并且其在不应用诱因或者强制的训练方法的情况下，保存其原始内在效应，因此保存可扩充性和可扩展性以及进而具有任何类型的检索的对象、类别或者图像的高性能。

用于通过熵统计分析来选择最佳特征和消除冗余度的变换技术和过滤方法的应用，因此避免学习或者包装方法的使用。

在其对详细视觉信息的准确度和全局和局部特征的同时组合和描述的复杂性方面，高层获得的特征描述符能够精确地并且高效地识别比其将初始地表现为描述更复杂和详细的东西的，实现使直接和简单地解释接近人类语义概念。

使用组合的欧几里德和/或马氏距离以及可选地针对人类感知定制的随后的主观加权的、具有n维度量的分析和相似性函数。归因于通过集中在查询图像上的实时超立方体的经优化的实施方式带来的改进的增加的效率和速度。

图4、5、6、7a、7b、7c、7d、8a和8b示出了通过针对不同类型的所选择的图像的各种实施例所获得的各种视觉示例。应当注意，尽管这些示例的原始颜色是彩色的，但是已经以灰度图示了本申请中的示例，其中，解释和观察不同的结果和其准确度是更容易的。

图4图示了通过颜色空间的同时性和全局测量和局部测量(应用到平方ROI的局部测量)的存在的特征描述符所测量的信息的示例410、420、430、440、450、460、470和480。

图5和6图示了利用完整CBIR方案和不同的查询图像条件(目录图像、真实快照和手工制作绘图)获得的结果的500、505、510、515、520、525、530、535、540、545、550、600、605、610、615、620、625、630、635、640和645，证明了准确度、可扩展性和灵活性连同对噪声、照明改变的鲁棒性和对旋转、反转、平移、遮挡和缩放的不变性。

图7a、7b、7c图示了仅使用颜色特征描述符和纹理特征描述符所获得的示例700、705、710、715、720、725、730、732、734、736、738、740、742、744、750、755、760、765、770和775，示出了其高级模式和组织的相似性识别能力，即分析了模式、像花、短柱、点、带扣、几何设计、具有不同颜色和纹理的多区域的特定细节，同时维持比例、条纹、检查、星。

图7d图示了一起使用颜色、纹理、形状和几何形状特征描述符所获得的示例780、782、784、786、788和790，示出了视点3D旋转的灵活性和对照明改变和关于纸、玻璃等的绘图的不同图像条件的鲁棒性。

最后，图8a和8b图示了根据仅使用颜色特征描述符和纹理特征描述符的实施例的系统的可扩展性的示例800、810、820、830、840、850和860，其中，相同特征描述符被用于解释不仅来自相同类别的对象，而且来自其他类别的对象，详细并且语义地识别和描述搜索中的视觉信息以甚至识别动物面部。

前述详细描述已经通过框图、示意图和示例的使用阐述各种实施例。在如这样的框图、示意图和示例包含一个或多个功能和/或操作的情况下，可以由各种各样的硬件、软件或者其任何组合(包括运行在通用计算机上的软件或者以专用硬件的形式)单独地和/或共同地实现这样的框图、流程图或者示例内的每个功能和/或操作。

如本文所使用的术语“计算机可读存储介质”是指诸如磁盘或者半导体存储器的任何有形介质，其参与将指令提供给处理器以用于执行。通用计算机可以连接到存储设备，诸如硬驱动、光学介质(CD或者DVD)、磁盘介质或者通用计算机可以从其读取可执行代码的任何其他有形介质。

虽然已经描述了某些实施例，但是这些实施例已经仅以示例的方式呈现并且不旨在限制保护范围。实际上，可以以各种其他形式实现本文所描述的新颖的方法和装置。此外，在不脱离保护精神的情况下，可以做出以本文所描述的方法和系统的形式的各种省略、替换和改变。所附的权利要求和其等价方案旨在涵盖如将落在保护范围和精神的这样的形式或者修改。

Claims

1.一种用于基于内容的图像检索的方法，所述方法包括：

选择查询图像；

通过应用分割技术将所选择的图像进行分割；

通过确定包括颜色特征描述符和纹理特征描述符的至少两个特征描述符来从所分割的图像提取特征；以及

使用所分割的查询图像的所确定的至少两个特征描述符，确定所述查询图像与被包括在数据库中的多个图像的相似性，所述多个图像也包括由所述至少两个描述符提取并且计算的特征，

所述方法特征在于，所确定的颜色特征描述符和纹理特征描述符包括针对至少三个不同的颜色空间中的每个的三个颜色通道中的每个颜色通道的数值的至少平均值和方差的全局统计测量和局部统计测量。

2.根据权利要求1所述的方法，其中所述颜色特征描述符和所述纹理特征描述符还与至少形状特征描述符和取向特征描述符组合。

3.根据权利要求1所述的方法，还包括计算所述查询图像内的某个像素大小的局部感兴趣区域ROI，以便对所述查询图像中的不同的颜色和/或纹理区域进行区分，其中所述ROI通过测量平均值和方差而被计算，其中所述ROI满足离所述全局统计测量最近或最远的距离。

4.根据权利要求3所述的方法，其中所述像素大小是所述查询图像的总面积的至少1％。

5.根据权利要求1所述的方法，其中同时组合的所述不同的颜色空间包括至少HSV、CieLAB和CieXYZ。

6.根据权利要求2所述的方法，其中所述形状特征描述符包括基于包括凸壳、离心率、其他导数计算形状和/或与对象有关的其比例的区域，使用低层不变的Hu矩和与所述对象的体积有关的其他非线性和无量纲参数。

7.根据权利要求6所述的方法，还包括计算：

基于等效周长的比例和用于轮廓内的详细局部形状和其他高级变量；和/或

用于边界、凸面和/或离心率内和外的凸面缺陷面积和相关线性比例。

8.根据权利要求2所述的方法，其中使用主成分分析或者PCA的第一成分的至少一个角度值来确定所述取向特征描述符。

9.根据权利要求1所述的方法，其中使用在实时定制的超立方体簇内应用的空间度量来确定所述查询图像与被包括在所述数据库中的所述多个图像的所述相似性，所述超立方体簇：

由具有所述至少两个特征描述符的总n维的子集m的m维半径的向量连同针对每个维度的独立和不同的半径值定义；

基于查询图像位置的值的接受的距离百分比；以及

由所许可的最大速度的计算限制，以便计算所述超立方体簇内的全部1:1距离，其中所述超立方体簇被集中在所述查询图像的所述空间位置上。

10.根据权利要求9所述的方法，其中使用至少从多维空间数学地和几何地改变到一维空间的所述查询图像位置，针对每个维度计算所述m维半径向量。

11.根据权利要求1所述的方法，其中通过应用基于被应用到多变量逻辑回归分析的统计分类方法的变换技术和过滤方法，对所述至少两个特征描述符进行优化。

12.一种存储程序的非暂态计算机可读介质，所述程序使得计算机执行用于基于内容的图像检索的方法，所述方法包括：

选择查询图像；

通过应用分割技术将所选择的查询图像进行分割；

通过确定包括颜色特征描述符和纹理特征描述符的至少两个特征描述符来从所分割的查询图像提取特征；以及

其中所确定的颜色特征描述符和纹理特征描述符包括针对至少三个不同的颜色空间中的每个的三个颜色通道中的每个颜色通道的数值的至少平均值和方差的全局统计测量和局部统计测量。

13.根据权利要求12所述的非暂态计算机可读介质，其中所述颜色特征描述符和所述纹理特征描述符还与至少形状特征描述符和取向特征描述符组合。

14.根据权利要求12所述的非暂态计算机可读介质，还包括计算所述查询图像内的某个像素大小的局部感兴趣区域ROI，以便对所述查询图像中的不同的颜色和/或纹理区域进行区分，其中所述ROI通过测量平均值和方差而被计算，其中所述ROI满足离所述全局统计测量最近或最远的距离。

15.根据权利要求14所述的非暂态计算机可读介质，其中所述像素大小是所述查询图像的总面积的至少1％。

16.根据权利要求12所述的非暂态计算机可读介质，其中同时组合的所述不同的颜色空间包括至少HSV、CieLAB和CieXYZ。

17.根据权利要求13所述的非暂态计算机可读介质，其中所述形状特征描述符包括基于包括凸壳、离心率、其他导数计算形状和/或与对象有关的其比例的区域，使用低层不变的Hu矩和与所述对象的体积有关的其他非线性和无量纲参数。

18.根据权利要求17所述的非暂态计算机可读介质，还包括计算：

19.根据权利要求13所述的非暂态计算机可读介质，其中使用主成分分析或者PCA的第一成分的至少一个角度值来确定所述取向特征描述符。

20.根据权利要求12所述的非暂态计算机可读介质，其中使用在实时定制超立方体簇内应用的空间度量来确定所述查询图像与被包括在所述数据库中的所述多个图像的所述相似性，所述超立方体簇：

基于查询图像位置的值的接受的距离百分比；以及

由所许可的最大速度的计算限制，以便计算所述超立方体簇内的全部1:1距离，其中所述超立方体簇被集中在所述查询图像位置上。

21.根据权利要求20所述的非暂态计算机可读介质，其中使用至少从多维空间数学地和几何地改变到一维空间的所述查询图像位置，针对每个维度计算所述m维半径向量。

22.根据权利要求12所述的非暂态计算机可读介质，其中通过应用基于被应用到多变量逻辑回归分析的统计分类方法的变换技术和过滤方法，对所述至少两个特征描述符进行优化。