CN102855268A

CN102855268A - 基于属性关系进行图像排序的方法和系统

Info

Publication number: CN102855268A
Application number: CN2012101795242A
Authority: CN
Inventors: A.达塔; R.S.费里斯; S.U.潘坎蒂; B.赛迪奎伊
Original assignee: International Business Machines Corp
Current assignee: Qindarui company
Priority date: 2011-06-03
Filing date: 2012-06-01
Publication date: 2013-01-02
Anticipated expiration: 2032-06-01
Also published as: US9633045B2; US20120308121A1; CN102855268B; US9262445B2; US8903198B2; US20160124996A1; US20150039542A1

Abstract

通过为在训练数据集中注释的不同属性训练图像属性检测器，根据与多属性查询的属性的相关性而检索和排序图像。学习来自图像的训练数据集的所注释的属性对之间的成对关系。接着可以通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像，其中从该搜索检索图像，所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据在查询子集的属性中的属性的相应总数而对所检索到的图像进行排序。

Description

基于属性关系进行图像排序的方法和系统

技术领域

本发明涉及使用计算机视觉应用，用以依据视觉外观（appearance）特征在人类图像数据中自动搜索人。

背景技术

可以搜索摄像机、照相机和其它图像数据馈送（feed），以找到目标物体和个人。例如，为了搜索人，可以向视频档案的管理者提供指示某些个人面部视觉特点的描述信息（例如，戴眼镜、棒球帽等），其中可以手动地扫描档案，以寻找具有类似特征的一个或多个人。这种手动搜索既费时间资源又费人力资源。此外，人的视觉注意力可能是无效的，尤其对于大量图像数据。由于许多因素（示例性地包括很少出现感兴趣的活动、与任务关联的基本枯燥性、以及具有视觉混乱和其它分心事物的环境中对象追踪的较差可靠性），输入信息的人工分析可能既昂贵又无效。

已知如下自动输入系统和方法：计算机或其它可编程设备直接分析视频数据并尝试通过计算机视觉应用来识别关心的物体、人、事件或活动。一些现有方法针对多个图像属性中的每个学习独立的外观模型，例如，针对秃头、髭（mustache）、络腮胡子（beard）、帽子、太阳镜、浅肤色等。当给定多属性查询时，这样的系统可以将每个单独查询属性的置信度得分（confidencescore）相加。因此，针对(i)男性(ii)戴眼镜和(iii)络腮胡子的搜索可以检索多个结果，每个结果具有满足所有三个属性的置信度得分，或者每个结果满足一个或多个属性。然而，前一技术可能错过结果，例如，在给定图像中一个属性不清楚，从而导致了该图像被排除。后一技术可能返回太多结果，包括不可能或不太可能满足所有三个属性的结果，诸如，作为年轻女孩的戴着太阳镜的人的图像。因此，所返回的结果可能错过目标，或者返回太多要被高效地分析的命中（hit）。

发明内容

在本发明的一个实施例中，一种用于根据与多属性查询的属性的相关性（relevance）而检索和排序（rank）多属性查询结果的方法包括：为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器；以及学习（通过处理器等）来自图像的训练数据集的每对注释属性之间的成对关系（pair-wise correlation）。通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像，其中从该搜索检索图像，所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据所检索到的图像的属性也在多个属性的查询子集中的相应总数，对所检索到的图像进行排序。

在另一实施例中，一种系统具有处理单元、计算机可读存储器、和具有程序指令的计算机可读存储介质设备，所述程序指令用以：为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器，以及学习来自图像的训练数据集的每对注释属性之间的成对关系。因此，可以通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像，其中从该搜索检索图像，所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据所检索到的图像的属性也在多个属性的查询子集中的相应总数，对所检索到的图像进行排序。

在另一实施例中，一种制品具有计算机可读存储介质设备，所述计算机可读存储介质设备中包含计算机可读程序代码，所述计算机可读程序代码包括指令，当计算机处理器执行所述指令时，所述指令使得计算机处理器为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器，以及学习来自图像的训练数据集的每对注释属性之间的成对关系。因此，可以通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像，其中从该搜索检索图像，所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。依据所检索到的图像的属性也在多个属性的查询子集中的相应总数，对所检索到的图像进行排序。

在另一实施例中，一种用于根据与多属性查询的属性的相关性而检索多属性查询结果并提供对所述多属性查询结果进行排序的服务的方法包括提供一个或多个物品，所述物品包括图像属性检测器训练器和属性映射器设备，其为每个在人的图像的训练数据集中注释的不同属性训练图像属性检测器，以及学习来自图像的训练数据集的每对注释属性之间的成对关系。还提供多属性检索和排序模型，其通过经训练的属性检测器在图像数据集中搜索包括多属性查询中的属性的图像；从该搜索检索图像，所述图像各自包括一个或多个查询属性并且还响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息；以及依据所检索到的图像的属性也在多个属性的查询子集中的相应总数，对所检索到的图像进行排序。

附图说明

从下面结合附图对本发明的各个方面的详细描述中，将更容易理解本发明的这些和其它特征，其中：

图1是根据本发明的用于根据与多属性查询的相关性而对多属性查询结果进行排序的方法或系统的实施例的流程图。

图2A至图2E是根据本发明的实施例的用于提取特征矢量的图像场构造的概略图。

图3是根据本发明的实施例的、依据多属性查询的示例图像检索和排序的概略图。

图4是本发明的实施例的计算机实施方式的框图。

图5是本发明的装置或设备实施例的框图。

这些图不一定成比例。这些图仅是示意表示，而不意在刻画本发明的具体参数。这些图仅意在描述本发明的典型实施例，因此不应被认为是对本发明的范围的限制。在这些图中，同样的附图标记表示同样的要素。

具体实施方式

本领域的技术人员知道，本发明的多个方面可以体现为系统、方法或计算机程序产品。因此，本发明的多个方面可以采取以下形式：完全的硬件实施例、完全的软件实施例（包括固件、驻留软件、微代码等）、或者组合本文一般统称为“电路”、“模块”或“系统”的软件和硬件方面的实施例。此外，本发明的方面可以采取体现在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置或器件、或任何以上的合适组合。计算机可读存储介质的更具体的示例（非穷举的列表）将包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任何合适的组合。在本文件的语境中，计算机可读存储介质可以是任何可包含或存储程序的有形的介质，该程序被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读信号介质可包括例如在基带中或者作为载波的一部分传播的、其中体现计算机可读程序代码的数据信号。这种传播的信号可以采取多种形式，包括——但不限于——电磁的、光的或其任何合适组合。计算机可读信号介质可以是并非为计算机可读存储介质、但是可以传送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序的任何计算机可读介质。

计算机可读介质上包含的程序代码可以用任何适当的介质传送，包括——但不限于——无线、电线、光缆、RF等等、或者任何上述合适的组合。

用于执行本发明的方面的操作的计算机程序码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言（诸如Java、Smalltalk、C++之类）、以及常规的过程式程序设计语言（诸如“C”程序设计语言或类似的程序设计语言）。程序代码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络（包括局域网(LAN)或广域网(WAN)）连接到用户的计算机，或者，可以（例如，利用因特网服务提供商来通过因特网）连接到外部计算机。

以下参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图来描述本发明的方面。要明白的是，流程图和/或框图的每个方框、以及流程图和/或框图中方框的组合可以由计算机程序指令实施。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生实施流程图和/或框图的方框中规定的功能/动作的部件。

也可以把这些计算机程序指令存储在可以指示计算机、其它可编程数据处理装置或其它器件以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实施流程图和/或框图的方框中规定的功能/动作的指令的制品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它器件上，使得在计算机、其它可编程装置或其它器件上执行一系列操作步骤，以产生计算机实施的过程，从而在计算机或其它可编程装置上执行的指令提供实施流程图和/或框图的方框中规定的功能/动作的过程。

现在参照图1，例示了根据与多属性查询的相关性而对多属性查询结果进行排序的方法、系统或处理。以各种不同的属性（例如，金发、长发、眼镜、棒球帽、耳环、络腮胡子等）注释的人的图像的训练数据集102被用于在104中训练或学习图像检测器，并由此产生用于各个经注释的属性的单独检测器的集合106。在108中，例如，经由处理器、编程器件等，从图像的训练数据集学习来自属性集合的每对属性之间的多个成对关系。

在114中，经由经训练的属性检测器在输入图像数据集112中搜索包括至少一个或满足该多属性查询110的属性的图像。输入图像数据集112的示例包括存储在存储部件中的存档视频数据、通过计算机视觉处理实时处理的现场视频图像、静止照片或图像档案或实时馈送，并且还可以实践其它图像数据集112。在116中，从图像数据集112的搜索检索多个图像，每个所述图像包括至少一个查询属性，同时还考虑（因此，响应于）来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息。因此，在118中，依据所检索到的结果的属性中也是查询属性的总数而对所检索到的结果进行排序。例如，排序功能将包含查询中的最多数目的属性的图像排序在顶部（top），接下来是具有次多数目的匹配属性的图像，并依次类推。

更具体地，单独图像检测器106响应于存在于训练数据集102中的多属性样本的特征矢量输出被用于通过在108中学习所有属性对的成对关系而学习多属性检索和排序模型。因此，本发明的实施例提供多属性检索和排序模型，其从搜索图像数据检索多个结果图像，（i）每个结果图像包括至少一个查询110的属性，并且（ii）其中所学习的成对关系指示所返回的图像的其它属性还与查询属性和/或所考虑的属性的完整集合内不是查询的一部分但与查询属性相关的其余属性共存。该模型还依据所返回的结果的属性也是查询属性的总数而对所返回的结果进行排序或排列优先顺序（prioritize），其中具有较多数目的查询属性的图像排在具有较低数目的图像之前。

因此，该模型依据相关属性的总数以及查询属性与其余属性的成对关系，检索和排序所搜寻的满足查询110的目标图像。在一些实施例中，可以对属性加权，因此排序依据加权的属性的总值。例如，如果两个结果具有相同数目的匹配属性、但具有不同的权重，则具有更重加权的属性的结果将被排在前面。

可以提取各种各样的特征用于表示每个训练数据集102或图像数据集112的图像。基于颜色的特征包括颜色直方图、颜色相关图、颜色小波和色矩。可以使用小波纹理和局部二值模式（LBP）直方图来对纹理进行编码，同时使用边缘直方图、形状矩以及基于尺度不变特征变换（SIFT）的视觉字等表示形状信息。现在参考图2A至图2E，在一个实施例中，关于5个不同的构造而从每个面部图像203的图像场201中提取特征矢量并将它们串接；图2A的布局构造从3乘3阵列网格202的每个中提取特征；图2B的中心构造仅从中心网格203提取特征（因此，其关注于下面的（underlying）面部图像203的面部特征205）；图2C的全局构造从整个图像场201提取特征而与网格202无关；图2D的垂直构造从由网格202形成的三个垂直列204提取特征；以及图2E的水平构造从由网格202形成的三个水平行206提取特征。这使得能够局部化单独属性检测器：例如，在一个实施例中，用于“帽子”或“秃头”属性的属性检测器可以对从图2E的水平构造中的网格202的最上面的行206t、以及在图2A的布局构造中的最上面的三个网格202t1、202t2和202t3中提取的特征给予更高的权重。

可以通过最小化排序损失来完成对多属性检索和排序模型的训练。在一些实施例中，在104中的训练包括提取图像特征和采用Adaboost——自适应提升机学习算法，来为每个检测器属性学习区别特征。此外，多种提取的属性可以被用在训练数据集102中，以在104中学习或训练检测器，从而基于语义（semantic）属性在所学习的模型106中排序和检索图像。示例包括描述人的物理特点的属性，包括面部属性（例如，头发颜色，络腮胡子或髭的存在、眼镜或太阳镜的存在，等等）、身体属性（例如，衬衣和裤子的颜色、条纹衬衣、长/短袖等）、人口统计学属性（例如，年龄、种族、性别）、以及甚至非视觉属性（例如，声音类型、温度和气味），其可以潜在地从其它传感器获得。此外，虽然搜索人的图像可能仅包括单个对象类（人脸），但实施例可被用于对包含多个对象类（例如，衣服、关联的有形物品，诸如背包或自行车等）的图像的基于属性的检索。对于本领域技术人员而言，其它类和属性将也是显而易见的。

现有技术方法通常为每个属性学习独立的外观模型，并且，当给定多属性查询时，简单地将每个单独属性的置信度得分相加以返回结果。然而，这样的方法仅考虑作为查询的一部分的属性，用于检索相关图像，并且一般不能考虑这些属性之间的共存关系、以及查询之外的其它不同属性之间的共存关系。相反，本发明的实施例还考虑与所考虑的属性的完整集合内的不是查询的一部分但对排序结果有用的其余属性的成对关系。例如，亚洲人很不可能具有金发，但很可能具有黑发，并且女人极不可能具有络腮胡子或髭；在现有技术方法中仅将独立检测器的置信度相加将不反映这些共存关系，因此将不能考虑不是查询的一部分的属性。

本发明的实施例提供多属性图像检索和排序的框架，其不仅基于作为查询110的一部分的词，而且还考虑词汇中可能潜在提供关于查询的信息的其余属性，来检索图像。例如，图3示出了针对“戴太阳镜的年轻亚洲女人”的查询110的一个应用。关于与作为查询的一部分的属性302的相关性而检索和排序图像，并且还考虑不是查询的一部分的属性304，通过成对属性关系推断：如果图像还具有髭306、络腮胡子308、秃头310或者金发/浅红头发312的属性，则它们不太可能相关（因此，排序为较低或者在某些情况下被剔除），但是，如果图像具有黑发属性314，则它们更可能相关（因此，排序更高），从而产生经排列优先顺序和排序的图像结果320。

成对关系的共同出现可能在排序效果上变化。例如，对于包含属性“年轻”的查询，可以丢弃包含具有灰头发的人的照片，因为灰头发通常仅发生在年长的人中，并且具有灰头发的人不太可能是“年轻”的；因此，这种图像结果可能被从依据所述特定成对共存而在116（图1）中检索以及/或者在118（图1）中排序的结果中滤除或者去除。类似地，当查询的构成属性之一是“女人”时，包含秃头的人或者具有络腮胡子和髭（它们是男人的特定属性）的人的图像可以在检索116和/或在118中的排序期间被丢弃或者很大程度上不考虑（并因此被排序得更低）。虽然用于属性“女人”的单独检测器可以隐性地学习这样的特征，但实验已经发现：当基于包含精细粒度部分和属性的查询搜索图像时，显性地建模属性之间的关系和联系可以产生好得多的结果。

基于单个属性的排序有时可能似乎不必要：例如，对于单个属性“络腮胡子”的查询，可以简单地将图像分类为具有络腮胡子的人和不具有络腮胡子的人。然而，根据应用，多属性查询可能对检索和排序具有多个层级（level）的相关性。例如，关于“穿红衬衣并戴太阳镜的男人”的查询，因为可以容易地摘除太阳镜，所以可以合理地假设包含穿红衬衣但不戴太阳镜的男人的图像也与查询相关，因此本发明的实施例可以不去除这样的图像，而仅将它们排序为更低，因为不如既穿红衬衣又戴太阳镜的男人的图像相关。在另一示例中，对于各自具有查询属性中的两个的两个图像，依据所学习的成对关系，具有红衬衫和太阳镜的女人的图像可以被排序得比穿红衬衫但不戴太阳镜的男人的图像更低，一方面，因为太阳镜可以被容易地摘除，而人的性别却不容易改变。传统上，排序被认为是信息检索内的独特问题。然而，本发明的实施例在相同结构化的学习框架中将排序整合到检索处理中，其中学习排序和检索是同一模型根据不同性能度量的简单优化。

支持基于多标签查询的图像检索和排序是重要的，因为对于大小为L的词汇量的可能的多标签查询的数目是2L。大多数现有技术图像排序/检索方法通过为每个单独的标签学习独立的分类器并通过启发式地（heuristically）组合单独标签的输出来检索多标签查询，来处理此问题。相反，本发明的实施例引入用于多标签查询的训练和检索的原理框架106，其中单个对象类别内以及甚至跨多个对象类别的属性是互相依赖的，从而对它们之间的关系建模在检索和排序上产生显著的性能提高。

本发明的某些实施例使用结构化的支持矢量机（SVM）来解决涉及复杂（complex）输出的预测问题。结构化的SVM为结构化的输出问题提供高效的解决方案，同时也对经常出现在这种问题的输出空间中的互相依赖性进行建模。它们可以被有效地用于对象局部化和对属性之间的共存联系进行建模，在108中施加单个经学习的框架用于排序和检索，同时还对属性之间的关系进行建模。

本发明的实施例基于反向学习的概念提供图像检索和排序。因此，给定标签集合{X}和训练图像的集合{Y}，学习对应于标签集合内的每个标签{x_i}的映射，以预测包含所述标签的图像{y^*}的集合。因为反向学习具有结构化的输出（图像的集合），所以其很好地适合结构化的预测框架，并且允许基于对应于多种性能度量的损失函数的最小化而学习：示例包括汉明损失（hamming loss）、查准率（precision）和查全率（recall），也可以在本发明的实施例中实践其它性能度量。本方法以三个不同方式改进了反向学习方法。首先，提供单个框架用于检索和排序两者。这通过采用输出是由相关性排次（order）的图像集合的排序方法来实现，从而使得能够在同一框架内整合排序和反向学习。第二，基于由多标签构成的查询，促进训练以及检索和排序。最后，针对检索和排序，建模、学习和充分利用不同标签（属性）之间的成对关系。

检索.给定多属性查询中的标签的集合{Q}，其是所有可能属性标签的集合{X}的子集，本发明的实施例从图像的输入源（例如，源视频、数据库等）检索图像作为与多属性查询标签集合{Q}相关的训练图像的集合{Y}。在反向学习公式化下，针对输入，可以根据等式（1），通过最大化权重矢量{w}上的得分的预测函数，来为包含所有构成属性{Q}的图像{y^*}的集合确定输出：

y^{*} = \arg \max_{y &Subset; y} ω^{T} ψ (Q, y) - - - (1)

其中权重矢量{w}由两个分量构成：{w^a}，用于建模单独属性的外观；以及{w^p}，用于建模它们之间的依赖性。等式（1）的分量可以如下定义：

ω^{T} ψ (Q, y) = \underset{x_{i} &Element; Q}{Σ} ω_{i}^{a} Φ_{a} (x_{i}, y) + \underset{x_{i} &Element; Q}{Σ} \underset{x_{j} &Element; x}{Σ} ω_{ij}^{p} Φ_{p} (x_{j}, y) - - - (2)

其中

Φ_{a} (x_{i}, y) = Σ_{y_{k} &Element; y} φ_{a} (x_{i}, y_{k}) - - - (3)

Φ_{p} (x_{j}, y) = Σ_{y_{k} &Element; y} φ_{p} (x_{j}, y_{k}) - - - (4)

更具体地，等式（3）定义表示针对属性x_i的图像y_k的特征矢量

等式（4）定义指示图像y_k中的属性x_j的存在的矢量其在测试阶段是未知的，因此

可以被认为是隐含（latent）变量，或者被设置为独立训练的属性检测器的输出。在等式（2）中，

是标准线性模型，用于基于特征表示识别特征x_i，是对属性对x_i和x_j之间的关系进行编码的势函数（potential function）。通过将（3）代入（2）的第一部分中，可以直觉地看到这表示查询Q中的所有单独属性x_i的置信度得分在图像y_k的所有子集上的总和。类似地，（2）中的第二（成对）项表示在集合y中的图像上、查询属性x_i与属性的整个集合X之间的关系。因此，成对项确保来自不出现在查询属性集合Q中的属性的信息也被用于检索相关图像。

因此，给定多标签训练图像以及它们各自的标签的集合，本发明的实施例训练针对权重矢量{w}的模型，在给定多标签子集查询{Q}时，该模型可以正确地预测测试集合{Y_t}中包含所有标签x_i的图像{y^*}的子集。一般地，训练包括发生在训练集合中的所有查询（包含单个属性以及多个属性）。在训练阶段，本发明的实施例学习权重矢量{w}，使得：对于每个查询{Q}，检索的图像{y^*}的期望输出集合具有比任何其它集合{y}更高的得分（等式（1））。这可以通过使用标准最大边际训练公式化而执行：

\begin{matrix} \arg \min_{ω, ξ} & ω^{T} ω + C Σ_{l} ξ_{l} \end{matrix} - - - (5)

\begin{matrix} &ForAll; t & ω^{T} ψ (Q_{t}, y_{t}^{*}) - ω^{T} ψ (Q_{t}, y_{t}) &GreaterEqual; Δ (y_{t}^{*}, y_{t}) - ξ_{t} \end{matrix}

其中，C是控制训练错误与规则化（regularization）之间的平衡的参数，{Q_t}是训练查询的集合，{ξ_t}是对应于{Q_t}的松弛变量，以及

是损失函数。与使用简单的0/1损失的标准SVM不同，本发明的实施例可以因此使用复杂损失函数，其使得能够重（或轻）折损（penalize）从基于优化性能量度所度量的正确输出{y^* _t}显著（或稍微）偏离的输出{y_t}。例如，可以定义

用于基于不同性能量度来优化训练错误，如下：

类似地，可以针对其它性能度量进行优化，诸如F/Beta——具有非负实“beta”权重的F-得分（F-sore）（或F-度量(F-measure)）性能量度。在一个方面，根据本发明的实施例的反向学习方法允许训练针对多种性能度量而进行优化的模型。

等式（5）中的二次方优化问题包含{O(|Q|2^|Y|)}限制，其是训练实例的数目|y|的指数关系。因此，本发明的实施例可以采用包括涉及求解等式（5）的迭代过程的限制产生策略，初始没有任何限制，接着在每次迭代中将当前解的被违反最多的限制添加到限制的集合中。在限制产生过程的每次迭代中，被违反最多的限制由下给出：

ξ_{t} &GreaterEqual; \max_{y_{t} &Subset; y} [Δ (y_{t}^{*}, y_{t}) - (ω^{T} ψ (Q_{t}, y_{t}^{*}) - ω^{T} ψ (Q_{t}, y_{t}))] - - - (7)

可以在O(|y|²)时间中求解等式（7）。在预测期间，实施例对（1）求解，其可以在O(|y|log(|y|))中高效地执行。

排序.通过小的修改，用于图像检索的框架也用于排序多标签查询。在图像排序的情况中，给定多属性查询{Q}，可以根据图像集合{Y}中的图像与{Q}属性的相关性对所述图像进行排序。与图像检索不同（在图像检索中，给定输入{Q}，输出是测试图像的子集），在排序的情况中，预测函数的输出是由等式（8）定义的图像集合的数列（permutation）{z^*}：

z^{*} = \arg \max_{z &Element; π (y)} ω^{T} ψ (Q, z) - - - (8)

其中，π(y)是图像集合y的所有可能数列的集合。因此，权重矢量{w}可以被用于通过等式（9）排序：

ω^{T} ψ (Q, z) = \underset{x_{i} &Element; Q}{Σ} ω_{i}^{a} {\hat{Φ}}_{a} (x_{i}, z) + \underset{x_{i} &Element; Q}{Σ} \underset{x_{j} &Element; x}{Σ} ω_{ij}^{p} {\hat{Φ}}_{p} (x_{j}, z) - - - (9)

其中

{\hat{Φ}}_{a} (x_{i}, z) = Σ_{z_{k} &Element; z} A (r (z_{k})) φ_{a} (x_{i}, z_{k}) - - - (10)

{\hat{Φ}}_{p} (x_{j}, z) = Σ_{z_{k} &Element; z} A (r (z_{k})) φ_{p} (x_{j}, z_{k}) - - - (11)

A(r)是任何非递增函数，而{r(z_k)}是图像z_k的次序（rank）。此外，经排序的检索结果可以通过将A(r)定义为如下而被限制到顶部集合{K}：

A(r)＝max(K+l-r，0) (12)

在一个方面，这可以确保较低（顶部）排序的图像被分配较高的权重，并且，因为对于大于K的结果，该等式等于0，所以仅考虑排序的顶部K个图像。

与现有技术排序方法对比，本发明的实施例使用多个层级的相关性，现有技术排序方法简单地将训练图像的集合分为对应于每个查询的两个集合（相关和不相关）并且仅学习二值排序。例如，给定查询{Q}，可以基于训练图像的相关性将训练图像分为{│Q│+1}个集合。因此，可以对包括包含查询中的所有属性│Q│的图像的最相关集合分配相关性{rel(j)=│Q│}，下一集合包括被分配了相关性{rel(j)=│Q│-1}的包含所述属性的任何{│Q│-1}的图像，依次类推，对包括不具有查询中出现的属性的图像的最后一个集合分配相关性rel(j)=0。这确保：在不存在包含所有查询属性的图像的情况下，包含最多数目的属性的图像被排序为最高。此外，虽然可以对所有属性分配相等的权重，但在某些实施例中，可以对属性加权。例如，在一个实施例中，对涉及较难更改的种族或性别的属性分配较高的权重，从而导致它们相对于易于改变的较低加权的装饰属性（例如，戴太阳镜、穿红衬衣等）具有更高的排序。

因此，本发明的实施例可以使用关于等式（13）的最大边际框架来训练排序模型：

\begin{matrix} \arg \min_{ω, ξ} & ω^{T} ω + C Σ_{l} ξ_{l} \end{matrix} - - - (13)

\begin{matrix} &ForAll; t & ω^{T} ψ (Q_{t}, z_{t}^{*}) - ω^{T} ψ (Q_{t}, z_{t}) &GreaterEqual; Δ (z_{t}^{*}, z_{t}) - ξ_{t} \end{matrix}

其中，{Δ(z，^*z)}是表示在预测数列{z}而非正确数列{z^*}时导致的损失的函数，并且可以被定义为{Δ(z，^*z)=1-NDCG100(z，^*z)}，其中(NDCG)是归一化折扣累积增益（normalized discount cumulative gain）得分——用于评估排序算法的标准度量，其可以由等式（14）定义：

NDCG k = \frac{1}{Z} Σ_{j = 1}^{k} \frac{2^{rel (j)} - 1}{\log (1 + j)} - - - (14)

其中，rel(j)是排序为第j个的图像的相关性，而Z是用以确保正确排序产生NDCG得分为1的归一化常数。因为NDCG100仅考虑顶部100个排序图像，所以可以在等式（12）中设置K=100。

在排序的情况下，最大边际问题（等式13）仍然包含指数个限制，并且，采用限制产生过程，其中被违反最多的限制被迭代地添加到该优化问题。被违反最多的限制由下式给出：

ξ_{t} &GreaterEqual; \max_{z_{t} &Element; π (y)} [Δ (z_{t}^{*}, z_{t}) - (ω^{T} ψ (Q_{t}, z_{t}^{*}) - ω^{T} ψ (Q_{t}, z_{t}))] - - - (15)

其在省略了与z_t无关的项并代入等式(9),(10),(14)之后可被写为：

\arg \max_{z_{t} &Element; π (y)} Σ_{k = 1}^{100} A (z_{k}) W (z_{k}) - Σ_{k = 1}^{100} \frac{2^{rel (z_{k})} - 1}{\log (1 + k)} - - - (16)

其中:

W (z_{k}) = \underset{x_{i} &Element; Q_{t}}{Σ} ω_{i}^{a} φ_{a} (x_{i}, z_{k}) + \underset{x_{j} &Element; Q_{t}}{Σ} \underset{x_{j} &Element; x}{Σ} ω_{ij}^{p} φ_{p} (x_{j}, z_{k}) - - - (17)

等式（16）是z_k中的线性分配问题，并且可以使用Kuhn-Munkres算法高效地求解。在预测期间，需要求解等式（8），其可被写作：

\arg \max_{z &Element; π (y)} \underset{k}{Σ} A (r (z_{k})) W (z_{k}) - - - (18)

因为A(z_j)是非递增函数，所以可以通过简单地根据W(z_k)的值分类样本而执行排序。

现在参照图4，本发明实施例的示例计算机实施方式包括与其它设备506（例如，视频或静止图像相机或服务器、或包括图像的数据库的存储设备，等等）通信的计算机或其它可编程设备522，其根据与多属性查询的相关性检索和排序多属性查询结果，如以上关于图1至图3所述的。例如，响应于实施计算机可读代码指令542（其驻留于计算机存储器516或存储系统532中或通过计算机网络架构526访问的另一设备506中），处理器（CPU）538可以根据与多属性查询的相关性提供对多属性查询结果的检索和排序，如以上关于图1至图3所描述的。

图5示出了本发明的装置或设备实施例402，其根据与多属性查询的相关性排序多属性查询结果。更具体地，图像属性检测器训练器和属性映射器404为每个在训练数据集102（图1）中注释的属性训练或学习图像检测器，并由此产生单独检测器的集合106（图1），并且还学习来自训练数据集的属性之间的成对关系。因此，多属性检索和排序模型408通过经训练的属性检测器106在图像数据集112中搜索包括多属性查询110子集的多个注释的属性中的至少一个的图像；检索这样的图像，其各自包括查询子集的多个属性中的至少一个并且响应于来自经训练的属性检测器的对应于不是查询的一部分但依据所学习的多个成对关系而与查询属性相关的属性的信息；以及依据所检索到的多个图像的属性也在查询子集的多个属性中的相应总数，对所检索到的多个图像进行排序。

实施例也可以基于订阅、广告和/或收费而执行处理，或提供本发明的实施例。即，服务提供商可以邀约提供根据与多属性查询的相关性而自动检索和排序多属性查询结果，如以上关于图1至图5所描述的。因此，服务提供商可以创建、保持和支持（等等）计算机架构，诸如，网络计算机系统522和/或网络环境526，其为一个或多个客户执行本发明的处理步骤。继而，服务提供商可以基于订阅和/或收费协议从客户接收付款，以及/或者服务提供商可以从向一个或多个第三方广告内容的销售接收付款。

在另一实施例中，本发明提供一种计算机实施的方法，用于执行处理、系统和制品中的一个或多个，其用于提供关于查询属性的图像自动搜索和排序，如以上关于图1-4所描述的。在此情况中，可以提供计算机架构（诸如计算机522或网络架构526）、或者装置或设备实施例402，并且可以获得（例如，创建、购买、使用、修改等）用于执行本发明的处理步骤的一个或多个系统，例如，将所述系统部署到计算机522架构或者装置或设备实施例402。到此程度，系统或设备的部署可以包括以下中的一个或多个：（1）在计算设备（诸如计算机/设备522）上安装来自计算机可读介质设备516、520或506、图像属性检测器训练器404、或多属性检索和排序模型训练器408的程序代码；（2）向计算机架构522或者装置或设备实施例402添加一个或多个计算设备；以及（3）合并和/或修改计算机架构或设备的一个或多个现有系统，以使得计算机架构或设备能够执行本发明的处理步骤。

这里所使用的术语仅为了描述特定实施例的目的，而不意在作为本发明的限制。如这里所使用的，单数形式“一”、“一个”和“该”也意在包括复数形式，除非上下文清楚地指出不是如此。还将理解，术语“包括”和/或“包含”当被用于本说明书中时，表明存在所述特征、整数、步骤、操作、要素和/或组件，但不排除一个或多个其它特征、整数、步骤、操作、要素和/或其群组的存在或添加。在本说明书中（包括在权利要求中和如图中所图示的）描述的特定示例和要素可以通过唯一的形容词彼此区分或辨别（例如，在多个要素中，“第一”要素与另一“第二”或“第三”要素区分，“主”项与“第二”项或“另一”项区分，等等）。这种辨别形容词通常被用于减少混淆和不确定性，而不被解释为将权利要求限制到任何特定描述的要素或实施例，也不被解释为隐含对任何权利要求要素、限制或处理步骤的任何优先、排次或排序。

所附权利要求书中的所有部件或步骤以及功能单元的对应结构、材料、动作和等同体意在包括用于与特别要求权利的其它要素组合地执行功能的任何结构、材料或动作。已经为了示例性和说明性的目的呈现了本发明的说明，但该说明不意在是穷举的或将本发明限制到所公开的形式。对于本领域的普通技术人员而言将很明显，在不偏离本发明的范围和精神的情况下可以进行许多修改和改变。为了更好地说明本发明的原理和实际应用，以及为了使得本领域的其它普通技术人员能够针对具有适于所构思的特定用途的各种修改的各种实施例而理解本发明，选择和说明了实施例。

Claims

1.一种用于根据与多属性查询的属性的相关性而检索和排序多属性查询结果的方法，所述方法包括：

为在人的图像的训练数据集中注释的多个不同属性中的每个，训练多个图像属性检测器中的每个；

通过处理器学习来自图像的所述训练数据集的多个注释的属性中的每对之间的多个成对关系；

通过经训练的属性检测器在输入图像数据集中搜索包括多个所注释的属性的多属性查询子集中的至少一个属性的图像；

从对所述输入图像数据集的搜索检索多个图像，所述多个图像各自包括所述查询子集的多个属性中的至少一个属性并且响应于来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息；以及

依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数，对所检索到的多个图像进行排序。

2.如权利要求1所述的方法，其中对所注释的属性中的第一属性比所注释的属性中的第二属性给予更重的加权；并且

其中依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数而对所检索到的多个图像进行排序还包括：将结果中的具有更重加权的第一属性的一个结果排序得比所述结果中的具有所述第二属性的另一个结果更高，并且所述一个结果和所述另一个结果具有相同总数的也在所述查询子集的多个属性中的属性。

3.如权利要求2所述的方法，其中学习所述多属性查询的多个属性中的每个与图像的所述训练数据集内所注释的属性的集合中的其它属性之间的多个成对共存性还包括：

反向学习所注释的属性的标签的集合到图像的所述训练数据集中的图像的映射，以预测各自包含所注释的属性标签之一的所述训练数据集的图像的相应集合。

4.如权利要求3所述的方法，其中从对所述输入图像数据集的搜索检索多个图像，所述多个图像各自包括所述查询子集的多个属性中的至少一个属性，并且同时还考虑来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息，还包括：

通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量来预测所检索的多个图像，其中所述加权的特征矢量作为建模所训练的图像属性检测器中的每个的属性的外观的分量、以及建模所训练的图像属性检测器中的每个的属性与图像的所述训练数据集中所注释的属性中的另一属性之间的依赖性的分量的函数。

5.如权利要求4所述的方法，其中所述学习所述成对关系是最大边际训练。

6.如权利要求5所述的方法，其中通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量来预测所检索的图像的集合还包括：

使用复杂损失函数，以将加权的特征矢量输出中与基于优化的性能量度而度量的正确输出偏离较多的一个输出、比所述加权的特征矢量输出中与基于所述优化的性能量度而度量的正确输出偏离较少的另一个输出折损得更重。

7.如权利要求6所述的方法，其中所述最大边际训练还包括：

产生多个限制；以及

向所述优化的性能量度迭代地添加所述产生多个限制的被违反最多的限制。

8.一种用于根据与多属性查询的属性的相关性而检索和排序多属性查询结果的系统，包括：

配置用于为在人的图像的训练数据集中注释的多个不同属性中的每个训练多个图像属性检测器中的每个的部件；

配置用于学习来自图像的所述训练数据集的多个注释的属性中的每对之间的多个成对关系的部件；

配置用于通过经训练的属性检测器在输入图像数据集中搜索包括多个所注释的属性的多属性查询子集中的至少一个属性的图像的部件；

配置用于从对所述输入图像数据集的搜索检索多个图像的部件，所述多个图像各自包括所述查询子集的多个属性中的至少一个属性并且响应于来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息；以及

配置用于依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数而对所检索到的多个图像进行排序的部件。

9.如权利要求8所述的系统，其中对所注释的属性中的第一属性比所注释的属性中的第二属性给予更重的加权；并且

其中配置用于排序的部件还被配置用于通过将结果中的具有更重加权的第一属性的一个结果排序得比所述结果中的具有所述第二属性的另一个结果更高而依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数来对所检索到的多个图像进行排序，并且所述一个结果和所述另一个结果具有相同总数的也在所述查询子集的多个属性中的属性。

10.如权利要求9所述的系统，其中配置用于学习的部件还被配置用于通过反向学习所注释的属性的标签集合到图像的所述训练数据集中的图像的映射以预测各自包含所注释的属性标签之一的所述训练数据集的图像的相应集合，而学习所述多属性查询的多个属性中的每个与图像的所述训练数据集内所注释的属性的集合中的其它属性之间的多个成对共存性。

11.如权利要求10所述的系统，其中配置用于检索的部件还被配置用于：

通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量来预测所检索的多个图像，其中所述加权的特征矢量作为建模所训练的图像属性检测器中的每个的属性的外观的分量、以及建模所训练的图像属性检测器中的每个的属性与图像的所述训练数据集中所注释的属性中的另一属性之间的依赖性的分量的函数，

来从对所述输入图像数据集的搜索检索多个图像，所述多个图像各自包括所述查询子集的多个属性中的至少一个属性，并且同时考虑来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息。

12.如权利要求11所述的系统，其中配置用于检索的部件还被配置用于通过使用复杂损失函数以将所加权的特征矢量输出中与基于优化的性能量度而度量的正确输出偏离较多的一个输出、比所加权的特征矢量输出中与基于所述优化的性能量度而度量的正确输出偏离较少的另一个输出折损得更重，来通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量而预测所检索的图像的集合；并且

其中配置用于学习的部件还被配置用于通过最大边际训练来学习所述成对关系，所述最大边际训练包括：

产生多个限制；以及

13.一种提供用于根据与多属性查询的属性的相关性而检索和排序多属性查询结果的服务的方法，所述方法包括提供：

图像属性检测器训练器和属性映射器装置，其为在人的图像的训练数据集中注释的多个不同属性中的每个训练多个图像属性检测器中的每个，并且学习来自图像的所述训练数据集的多个注释的属性中的每对之间的多个成对关系；以及

多属性检索和排序模型装置，其与所述图像属性检测器训练器和属性映射器装置通信，所述多属性检索和排序模型装置通过经训练的属性检测器在输入图像数据集中搜索包括多个所注释的属性的多属性查询子集中的至少一个属性的图像；从对所述输入图像数据集的搜索检索多个图像，所述多个图像各自包括所述查询子集的多个属性中的至少一个属性并且响应于来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息；以及依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数，对所检索到的多个图像进行排序。

14.如权利要求13所述的方法，其中对所注释的属性中的第一属性比所注释的属性中的第二属性给予更重的加权；并且

其中所述多属性检索和排序模型装置通过将结果中的具有更重加权的第一属性的一个结果排序得比所述结果中的具有所述第二属性的另一个结果更高，依据所检索到的多个图像的属性也在所述查询子集的多个属性中的相应总数而对所检索到的多个图像进行排序，其中所述一个结果和所述另一个结果具有相同总数的也在所述查询子集的多个属性中的属性。

15.如权利要求14所述的方法，其中所述图像属性检测器训练器和属性映射器装置通过反向学习所述注释的属性的标签集合到图像的所述训练数据集中的图像的映射以预测各自包含所注释的属性标签之一的所述训练数据集的图像的相应集合，来学习所述多属性查询的多个属性中的每个与图像的所述训练数据集内所注释的属性的集合中的其它属性之间的多个成对共存性。

16.如权利要求15所述的方法，其中所述多属性检索和排序模型装置通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量而预测所检索的多个图像，其中所述加权的特征矢量作为建模所训练的图像属性检测器中的每个的属性的外观的分量、以及建模所训练的图像属性检测器中的每个的属性与图像的所述训练数据集中所注释的属性中的另一属性之间的依赖性的分量的函数，

来从对所述输入图像数据集的搜索检索多个图像，所述多个图像各自包括所述查询子集的多个属性中的至少一个属性，并同时考虑来自所述经训练的属性检测器的对应于不是所述查询的一部分但依据所学习的多个成对关系而与所述查询的属性相关的属性的信息。

17.如权利要求16所述的方法，其中所述多属性检索和排序模型装置还通过使用复杂损失函数以将所述加权的特征矢量输出中与基于优化的性能量度而度量的正确输出偏离较多的一个输出、比所述加权的特征矢量输出中与基于所述优化的性能量度而度量的正确输出偏离较少的另一个输出折损得更重，来通过最大化由所训练的图像属性检测器中的每个提取的加权的特征矢量而预测所检索的图像的集合；并且

其中所述图像属性检测器训练器和属性映射器装置通过最大边际训练来学习所述成对关系，所述最大边际训练包括：产生多个限制，以及向所述优化的性能量度迭代地添加所述产生多个限制的被违反最多的限制。