CN111052144A

CN111052144A - 借由联合稀疏表示的属性感知零样本机器视觉系统

Info

Publication number: CN111052144A
Application number: CN201880052204.6A
Authority: CN
Inventors: S·科洛瑞; M·罗斯塔米; 金劲男; Y·奥维考
Original assignee: HRL Laboratories LLC
Current assignee: HRL Laboratories LLC
Priority date: 2017-09-12
Filing date: 2018-07-12
Publication date: 2020-04-21
Also published as: WO2019055114A1; EP3682370A4; EP3682370A1

Abstract

描述了一种用于对象识别的系统。该系统生成来自多个图像类的对象图像的训练图像集合。使用训练图像集合和注释的语义属性，对使用关于视觉特征和语义属性的字典的联合稀疏表示将视觉特征从已知图像映射到所述注释的语义属性的模型进行训练。使用所训练的模型将未见过的输入图像的视觉特征映射到该图像的语义属性。将所述未见过的输入图像分类为属于图像类，以及基于所述未见过的输入图像的分类来控制装置。

Description

借由联合稀疏表示的属性感知零样本机器视觉系统

相关申请的交叉引用

这是2018年4月10日在美国提交的题为“Zero Shot Machine Vision System viaJoint Sparse Representations”的美国申请No.15/949,896的部分继续申请，该申请是2017年5月5日在美国提交的题为“Zero Shot Machine Vision System via Joint SparseRepresentations”的美国临时申请No.62/502,461的非临时专利申请，该临时申请的全部内容通过引用并入于此。

这也是2017年9月12日在美国提交的题为“Attribute Aware Zero Shot MachineVision System Via Joint Sparse Representations”的美国临时申请No.62/557,721的非临时申请，该临时申请的全部内容通过引用并入于此。

发明的背景

(1)技术领域

本发明涉及用于对象识别的系统，并且更具体地涉及用于借由联合稀疏表示进行对象识别的系统。

(2)相关技术的描述

零样本学习能够在尽管尚未接收到一项任务的任何训练示例的情况下执行该任务。零样本机器视觉方法由Akata等人(参见并入参考文献的列表的参考文献No.1)和Romera等人(参见参考文献No.2)描述。在参考文献No.1中，作者提出了一种将图像特征和语义属性嵌入共同空间中(即，潜在嵌入)的模型，其中它们之间的兼容性是借由双线性函数来衡量的。

Romera等人(参见参考文献No.2)提出了一种通用的线性架构，该架构将图像特征、属性和类相关联。Romera等人描述的方法利用正则化项的原则性选择，使作者能够驱动针对该问题的简单的闭式解。Yang等人(参见参考文献No.8)借由联合稀疏字典学习、利用他们在图像超分辨方面的工作推广了联合字典学习的想法。最后，Isele等人(参见文献No.4)采用了联合字典学习的想法，并将其应用到了强化学习环境中的传递学习问题。

现有技术中公开的方法的主要缺点包括：1)通过假设数据特征与语义属性之间的线性关系使问题过于简单化，以及2)对需要针对每个应用进行调整的ad hoc正则化项的敏感性。

因此，持续需要一种改进的零样本机器视觉系统，该系统即使在训练阶段中从未见过新颖对象的任何实例，也可以识别该对象。

发明内容

本发明涉及用于对象识别的系统，尤其涉及用于借由联合稀疏表示进行对象识别的系统。该系统包括具有指令的存储器以及一个或更多个处理器，使得当执行所述指令时，所述一个或更多个处理器执行多种操作。使用训练图像集合和注释的语义属性，对模型进行训练，所述模型使用关于视觉特征和语义属性的字典的联合稀疏表示将来自已知图像的视觉特征映射到所述注释的语义属性。使用所训练的模型将未见过的输入图像的视觉特征映射到该图像的语义属性。将所述未见过的输入图像分类为属于图像类，并且基于所述未见过的输入图像的分类来对装置进行控制，其中，所述装置是车辆部件，并且控制所述装置导致车辆操纵。

在另一方面，所述系统生成包括来自多个图像类的对象图像的训练图像集合，其中，所述训练图像集合中的各个对象图像已经用类标签和描述该对象图像的语义属性进行了注释。

在另一方面，为了训练所述模型，视觉特征空间和语义属性空间被建模为非线性空间，所述非线性空间为视觉特征及其对应的语义属性提供完全相同的稀疏表示。

在另一方面，所述系统找到针对从所述未见过的输入图像中提取的视觉特征的稀疏表示，并且生成在所述模型的所述语义属性空间中解析的语义属性预测，其中，软分配概率向量标识所述语义属性预测属于未见过的图像的类的概率。

在另一方面，使用正则化参数来调节所述软分配概率向量的熵。

在另一方面，在给定所述语义属性预测的情况下，所述未见过的输入图像是使用所述模型的所述语义属性空间中的最接近的语义属性的类标签来标记的。

在另一方面，所述车辆操纵是碰撞避免操纵。

在另一方面，其中，所述未见过的输入图像是躲避对象的图像，并且其中，当所述躲避对象被分类时，生成警报。

最后，本发明还包括计算机程序产品和计算机实现的方法。所述计算机程序产品包括存储在非暂时性计算机可读介质上的计算机可读指令，所述计算机可读指令能够由具有一个或更多个处理器的计算机执行，使得在执行所述指令时，所述一个或更多个处理器执行本文列出的操作。另选地，所述计算机实现的方法包括使计算机执行这种指令并且执行所得操作的动作。

附图说明

根据下面结合参照附图对本发明各个方面的详细描述，本发明的目的、特征以及优点将显而易见，附图中：

图1是描绘根据本公开的一些实施方式的用于对象识别的系统的组件的框图；

图2是根据本公开的一些实施方式的计算机程序产品的例示图；

图3是根据本公开的一些实施方式的零样本机器视觉系统的训练阶段的例示图；

图4是根据本公开的一些实施方式的找到图像的稀疏表示的例示图；

图5是根据本公开的一些实施方式的标识属性属于未见过的图像类的预测的概率的例示图；

图6是描绘根据本公开的一些实施方式的针对数据集的测试分类准确度的图表的例示图；以及

图7是根据本公开的一些实施方式的使用处理器基于未见过的图像的分类来控制装置的例示图。

具体实施方式

本发明涉及用于对象识别的系统，尤其涉及用于借由联合稀疏表示进行对象识别的系统。呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的背景中。对于本领域技术人员来说显然可以有各种改动以及不同应用方面的多种用途，并且本文限定的一般原理可以被应用于广泛的方面。因此，本发明不旨在限于所呈现的方面，而是涵盖与本文所公开原理和新颖特征相一致的最广范围。

在下面的详细描述中，阐述了许多具体细节，以便提供对本发明的更透彻理解。然而，本领域技术人员应当明白，本发明可以在不必受限于这些具体细节的情况下来实践。在其它情况下，公知结构和装置按框图形式而不是按细节示出，以免妨碍对本发明的理解。

也请读者留意与本说明书同时提交的所有文件和文档，这些文件和文档与本说明书一起开放以供公众查阅，所有这些文件和文档的内容通过引用并入于此。本说明书中公开的所有特征(包括任何所附权利要求、摘要以及附图)可以由用于相同、等同或相似目的的另选特征来代替，除非另有明确说明。因此，除非另有明确说明，所公开的每个特征仅仅是一系列的等同或相似特征中的一个例子。

而且，权利要求中没有明确陈述“用于执行指定功能的装置”或“用于执行特定功能的步骤”的任何要素不应被解释为如在35U.S.C.112节第6款中指定的“装置”或“步骤”条款。特别地，在本文的权利要求中使用“……的步骤”或“……的动作”不应触发35U.S.C.112节第6款的规定。

在详细描述本发明先前，首先提供了引用参考文献的列表。接下来，提供了对本发明各个主要方面的描述。最后，提供本发明各个实施方式的具体细节，以使得能够理解具体方面。

(1)并入参考文献的列表

贯穿本申请引用和并入以下参考文献。为了清楚和方便起见，这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此，就像在此完全陈述的一样。这些参考文献通过参照如下对应文献参考号而在本申请中加以引用：

1.Akata,Zeynep,Florent Perronnin,Zaid Harchaoui,and Cordelia Schmid."Label-embedding for attribute-based classification."In Proceedings of theIEEE Conference on Computer Vision and Pattern Recognition,pp.819-826,2013.

2.Romera-Paredes,Bernardino,and P.H.S.Torr."An embarrassingly simpleapproach to zero-shot learning."In Proceedings of The 32nd InternationalConference on Machine Learning,pp.2152-2161,2015.

3.Simonyan,Karen,and Andrew Zisserman."Very deep convolutionalnetworks for large-scale image recognition."arXiv preprint arXiv:1409.1556,2014.

4.Isele D,Rostami M,Eaton E.“Using task features for zero-shotknowledge transfer in lifelong learning”.In Proc.of IJCAI 2016,pp.1620-1626.

5.Mikolov,T.,Sutskever,I.,Chen,K.,Corrado,G.S.and Dean,J.,Distributedrepresentations of words and phrases and their compositionality.In Advancesin Neural Information Processing Systems,pp.3111-3119,2013.

6.Tibshirani,Ryan J."The lasso problem and uniqueness."ElectronicJournal of Statistics,pp.1456-1490,2013.

7.Huang,Yongwei,and Daniel P.Palomar."Randomized algorithms foroptimal solutions of double-sided QCQP with applications in signalprocessing."IEEE Transactions on Signal Processing 62,no.5,pp.1093-1108,2014.

8.Yang,J.,Wright,J.,Huang,T.S.and Ma,Y.,Image super-resolution viasparse representation.IEEE transactions on image processing,19(11),pp.2861-2873,2010.

9.Grandvalet Y,Bengio Y.“Semi-supervised Learning by EntropyMinimization”.In NIPS,Dec 1,Vol.17,pp.529-536,2004.

10.Huang S,Tran DN,Tran TD.“Sparse signal recovery based on nonconvexentropy minimization”.In Image Processing(ICIP),2016IEEE InternationalConference on 2016Sep 25,pp.3867-3871,2016.

11.Beck A,Teboulle M.“A fast iterative shrinkage-thresholdingalgorithm for linear inverse problems”.SIAM journal on imaging sciences.Mar4；2(1),pp.183-202,2009.

12.Welinder P,Branson S.,Mita T,Wah C,Schroff F,Belongie S,Perona,P.“Caltech-UCSD Birds 200”.California Institute of Technology.CNS-TR-2010-001.2010.

(2)主要方面

本发明的各种实施方式包括三个“主要”方面。第一个主要方面是用于对象识别的系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。该系统可以并入提供不同功能的各种各样的装置中。第二个主要方面是利用数据处理系统(计算机)进行操作的通常采用软件形式的方法。第三个主要方面是计算机程序产品。计算机程序产品通常表示存储在诸如光存储装置(例如，光盘(CD)或数字通用盘(DVD))或磁存储装置(例如，软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制示例包括：硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下面进行更详细描述。

图1中提供了示出本发明的系统(即，计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面，本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如，软件程序)。在执行时，所述指令使计算机系统100执行特定动作并展现特定行为，如本文所描述的。

计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外，一个或更多个数据处理单元(如处理器104(或多个处理器))与地址/数据总线102联接。处理器104被配置成处理信息和指令。在一方面，处理器104是微处理器。另选地，处理器104可以是不同类型的处理器，例如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。

计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102联接的易失性存储器单元106(例如，随机存取存储器(“RAM”)、静态RAM、动态RAM等)，其中，易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102联接的非易失性存储器单元108(例如，只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等)，其中，非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地，计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取回的指令。在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口，如接口110。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线(例如，串行电缆、调制解调器、网络适配器等)和/或无线(例如，无线调制解调器、无线网络适配器等)通信技术。

在一个方面，计算机系统100可以包括与地址/数据总线102联接的输入装置112，其中，输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面，输入装置112是字母数字输入装置(如键盘)，其可以包括字母数字键和/或功能键。另选地，输入装置112可以是除字母数字输入装置之外的其它输入装置。在一方面，计算机系统100可以包括与地址/数据总线102联接的光标控制装置114，其中，光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一方面，光标控制装置114是利用诸如鼠标、轨迹球、轨迹板、光学跟踪装置或触摸屏的装置来实现的。尽管如此，但在一方面，例如响应于使用与输入装置112相关联的特殊键和键序列命令，光标控制装置114经由来自输入装置112的输入而被引导和/或启用。在另一方面中，光标控制装置114被配置成通过语音命令指引或引导。

在一方面，计算机系统100还可以包括与地址/数据总线102联接的一个或更多个可选的计算机可用数据存储装置，如存储装置116。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面，存储装置116是诸如磁或光盘驱动器(例如，硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储装置。依据一个方面，显示装置118与地址/数据总线102联接，其中，显示装置118被配置成显示视频和/或图形。在一方面，显示装置118可以包括：阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器，或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。

本文所呈现的计算机系统100是根据一个方面的示例计算环境。然而，计算机系统100的非限制示例并不严格限于作为计算机系统。例如，一个方面规定了计算机系统100代表可以根据本文所述各个方面使用的一类数据处理分析。此外，还可以实现其它计算系统。实际上，本技术的精神和范围不限于任何单一数据处理环境。因此，在一方面中，使用通过计算机执行的计算机可执行指令(例如，程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现方式中，这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和/或数据结构。另外，一个方面提供了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面，例如，在该计算环境中，任务由通过通信网络链接的远程处理装置执行，或者例如，在该计算环境中，各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。

图2中示出了具体实施本发明的计算机程序产品(即，存储装置)的例示图。该计算机程序产品被示出为软盘200或诸如CD或DVD的光盘202。然而，如先前提到的，该计算机程序产品通常代表存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作，并且可以表示整个程序的片段或单个、可分离的软件模块。“指令”的非限制示例包括计算机程序代码(源或目标代码)和“硬编码”电子装置(即，编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上，例如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论如何，这些指令被编码在非暂时性计算机可读介质上。

(3)各个实施方式的具体细节

描述了改善零样本机器视觉系统的系统和方法，零样本机器视觉系统即使在训练阶段从未见过新颖对象的任何实例，也可以识别该对象。该系统包括属性感知联合字典学习机制，该机制具有针对零样本学习(ZSL)问题的独特的属性感知公式，与现有技术相比，其显著改善了系统的零样本性能。

该系统包含训练阶段和测试阶段。在训练阶段中，系统将包含来自许多感兴趣的类的对象的训练图像的集合作为输入，其中，每个对象图像已经用类标签(例如“熊”、“汽车”、“房屋”)和若干语义属性(例如“能飞”，“有轮子”，“绿色”)注释。类标签通常是用于定义或描述对象的名词或单词。语义属性是对对象的文字定义(通常是形容词、短语或句子)，其促成对象的含义。

本文所述的系统使用训练图像集合和注释的属性来训练将低级图像特征(例如边缘、拐角和渐变)映射到语义属性的模型。通过以最佳方式捕获图像特征与属性之间的共享信息的方式来学习映射。

然后，在测试阶段中，系统将将不在训练集合中的对象的图像作为输入(即，在训练阶段中不包括该对象的实例)，并使用已学习的模型将测试图像特征映射到语义属性，以便在给定测试对象的语义描述的情况下可以正确地对测试图像进行分类，尽管训练图像集合中未存在该测试对象。根据本公开的实施方式的系统包括：1)使用关于视觉特征和语义属性的字典的联合稀疏表示来对视觉特征与语义属性之间的关系进行建模；以及2)联合字典的熵正则化，其显著提高所学的表示的保真度，并改善现有技术在公共可用数据集上的性能(即，对现有技术的改进)。从操作的角度来看，本文描述的系统通过找到从视觉数据到语义属性空间的映射，借由知识传递将监督学习中的标记数据的需求最小化。

零样本学习(ZSL)范例旨在对先前未见过的数据类进行分类。对ZSL的需求主要源于缺乏注释的数据以及新的视觉类别(例如，新产品、新车型等)不断出现。如上所述，本文所述的系统提供了一种ZSL机器视觉系统，该系统并入了属性感知联合稀疏字典学习，以对对象的视觉特征与其语义属性之间的关系进行建模。ZSL方法背后的假设是训练(即，见过的)类和测试(即，先前未见过的)类共享共同的语义属性。语义属性通常被提供为可取得的辅助信息(例如，类的文字说明)，其唯一地描述数据类。在训练阶段中，学习见过的数据与其对应属性之间的关系。因此，在测试阶段中，将来自未见过的类的输入数据解析为其属性，并根据这些提取的属性来预测标签。与现有技术相比，本文所述的发明通过利用对对象与其语义属性之间的关系进行编码的数学上严格的模型，改善了机器视觉系统的零样本能力。属性感知联合稀疏字典模型显著改善了机器视觉系统对不属于训练集合的新颖类的识别率，并提高了此类系统的现有性能。

本发明的目的是识别摄像头图像中的新颖对象或场景。尽管不限于此，摄像头可以是光电的、红外(IR)的、短波IR的或类似的，使得输出是具有一个或更多个彩色通道的强度图像。在ZSL问题中，人们想识别图像特征与属性之间的关系。为此目的，根据本公开的实施方式的属性感知联合字典学习方法是自然合适的。简而言之，特征空间和属性空间被建模为非线性空间，其表征为低维(即，维数明显小于特征空间的维数)线性空间的并集。这两个非线性空间被约束为具有同源成分(homologous components)，因此命名为联合字典，并且对它们进行建模以提供图像特征及其对应属性的相同表示。

(3.1)训练阶段

在图3中描绘了根据本公开的实施方式的零样本机器视觉系统的训练阶段。图像特征(要素300)是从深度卷积神经网络中提取的，而word2vec(参见参考文献No.4)被用于从类的文字描述中提取属性(要素302)。联合字典学习方法(要素304)迫使特征的稀疏表示(要素306)及其对应属性的稀疏表示(要素308)是相同的稀疏表示。

在训练阶段中，存在见过的/已知的图像的集合(即，图像空间310)和其对应的语义属性的集合(即，标签空间312)，以及先前未见过的图像的语义属性。首先，利用预训练的卷积神经网络(CNN)(有关CNN的描述，请参阅参考文献No.3)从图像(要素310)中提取特征(要素300)。在现有技术中，CNN在从摄像头图像中提取特征方面非常有效。令X＝[x₁,...,x_N]∈R^P×N表示从数据集中的图像中提取的特征的集合(要素300)。在此，N是图像的数量，并且每个图像具有关联的P维特征向量。令Z＝[z₁,...,z_N]∈R^Q×N表示图像的对应属性的集合(要素302)，并且每个元素Z是Q维属性向量。单词“属性”以其最广泛的含义使用，它包含单词嵌入或图像的任何其他语义信息。此外，令Z′＝[z′₁,...,z′_M]∈R^Q×M为先前未见过的图像类的属性，其中M是这种类的数量。

第i个图像的标签表示为y_i∈R^K，其中摄像头图像可能具有K个类的多个成员关系(membership)。从属性空间到标签空间的映射通常被认为是线性的，y_i＝Wz_i，并且是已知的。为了进一步阐明问题，考虑ZSL中的常见场景，其中X中包括马和老虎的图像，但是X不包含斑马的图像。另一方面，语义属性包含所有见过的(Z)和未见过的(Z′)图像(包括斑马)的信息。在这种情况下，语义属性可以是动物的文字定义(例如，“斑马是白色的类似马的动物，其具有黑色的类似老虎的条纹的”)。可以看出，通过从所见过的图像中学习图像特征与属性“类似马”和“具有条纹”之间的关系，应该能够将先前未见过的斑马图像分配给其对应的属性。

本文描述的系统学习具有X和[Z,Z′]的对应基元(atom)的两个字典，它们针对x_i和z_i提供完全相同的稀疏表示a_i。想法是，对于第j个未见过的图像，图像的稀疏表示b_j应该接近z′_j的稀疏表示。更确切地说，从图像特征的经典字典学习问题开始：

其中，D_x∈R^P×L是图像特征字典，A∈R^L×N是X和Z的联合稀疏表示，L是字典基元的数量，

是D_x的第i个基元。给定X的稀疏表示A^*，希望找到用于Z的字典D_z，该字典使用相同的稀疏表示A并重建属性Z≈D_zA^*。另外，希望学到的字典提供未见过的图像类的属性Z′的稀疏表示。为了实现这些目标，下面的优化问题用于找到D_z：

其中，D_z∈R^Q×L是属性字典，并且B∈R^L×M是Z′的稀疏表示。图3例示了上述问题的公式背后的想法。式(1)和式(2)分别在(D_x,A)和(D_z,B)中是非凸的；然而，在给定其余参数的情况下，它们在每个单独的参数中是凸的。因此，构思了一种迭代方案来一次求解字典(即,D_x和D_z)中的一个并固定另一个，直到实现收敛为止。保证收敛到局部最优。通过求解Lasso问题(有关Lasso问题的说明，请参见参考文献No.6)以找到稀疏表示，然后通过二次约束二次规划(QCQP)(参见参考文献No.7)来更新字典，从而使每个优化最小化。然后重复这些步骤。

(3.2)测试阶段

在测试阶段中，首先通过稀疏线性混合系数α将来自先前未见过的图像的提取特征x∈R^P表示为字典D_x的基元的线性组合，x≈D_xα。图4示出了输入图像(要素400)的测试阶段的示意图，首先提取图像特征(要素402)，并且求解Lasso问题以找到图像的稀疏表示(要素404)。假定在特征和属性之间共享稀疏表示，则估计图像属性(要素406)，并且找到属性空间(要素408)中的最接近的属性。

为了找到稀疏表示，利用了两个不同的公式，即，属性不可知公式和属性感知公式，如下所述。

(3.2.1)属性不可知公式

在属性不可知公式中，针对从先前未见过的图像提取的特征x∈R^P，通过求解以下Lasso问题来找到其稀疏表示：

此公式被称为属性不可知的原因是稀疏系数是在没有来自属性空间的任何信息/约束的情况下找到的。

(3.2.2)属性感知公式

在属性感知公式中，希望找到稀疏表示α，从而不仅逼近输入测试特征x≈D_xα，而且提供在属性空间中很好地解析的属性预测

理想地，针对测试类(即，先前未见过的)的属性中的某些i，

为了实现这一点，使用学生t分布作为测量

与z′_i之间的相似性的核，定义了

到z′_i的软分配(由p_i表示)，

其中，p是核参数。理想地，针对一些j∈{1,...,M}，p_j＝1；针对i≠j，p_i＝0。换句话说，理想的软分配p(α)＝[p₁(α),p₂(α),...,p_M(α)]将是一类稀疏(one-sparse)并且具有最小的熵。图5描绘了软分配的想法，其中，软分配p_i标识预测

属于未见过的图像的类i的概率。预测的属性

(要素500)与z′_i(例如，z′₁(要素502)或z′₂(要素504))越接近，它属于第i类的概率p_i(z′)就越高。这激发了属性感知公式，该公式利用p(α)的熵惩罚了式(3)中的属性不可知优化。以下是根据本公开的实施方式的问题的属性感知公式：

其中，γ是软分配概率向量p的熵的正则化参数。注意，以上公式是非凸的。熵最小化已成功用于包括参考文献No.9和No.10在内的数篇著作中，无论是作为稀疏正则化还是增强分类器的置信度。在参考文献No.10中，作者使用了类似于FISTA的广义梯度下降方法(参见文献参考No.11)来优化非凸问题。在本文描述的方法中，类似的方案用于优化式(5)中的目标函数。由于目标函数的非凸性，需要进行良好的初始化才能实现合理的解。因此，根据属性不可知公式的解初始化α。

(3.2.3)标签预测

找到稀疏系数α后，输入图像的预测属性为

最后，通过使用属性空间中的最接近的测试属性的标签来标记图像。如果向系统提供了表明对象来自未见过的类的附加信息(例如，由外部模块提供)，则系统使用下式来标记图像：

如果未提供附加信息，则使用下式替代上式：

最终，通过将找到的属性映射到标签空间y^*＝Wz^*(要素412)，来找到未见过的图像的标签(要素400)。

(3.3)实验研究

根据本公开的实施方式的系统在CUB200数据集上进行了测试(参见参考文献No.12)，该数据集是公共可用的零样本数据集。数据集包含200种不同鸟类的6,033张图像。利用预训练的CNN处理这些图像(参见参考文献No.3)，并为数据集提供人工注释的属性(参见参考文献No.12)。在实验研究中，使用了75％的类(150个类)进行训练，而其余25％(50个类)是未见过的，并且应用本文所述的属性感知联合字典学习算法来预测这50个类的标签。图6示出了当前现有技术相比的、根据本公开的方法在该数据集上的结果。如图所示，本文所述的系统能够以36％的准确度识别50个未见过的图像。注意，此实验中的随机预测准确度将为2％。

本文描述的发明对现有技术进行了改进。最接近的类似方法由Yang等人提出(参见参考文献No.8)，他使用联合稀疏字典学习的方法作为执行低分辨率图像的超分辨的方式。然而，在他们的方法中，学习了将低分辨率图像块映射到高分辨率图像块的模型。这两个域都是图像域，因此具有相似的数学和统计特性，从而使联合字典学习更加直接。对于本领域普通技术人员而言，如何将Yang等人的方法应用于本发明解决的ZSL对象识别问题并不是显而易见的。Isele等人(参见参考文献No.4)在小规模强化学习问题中使用联合字典进行了零样本知识传递，这比视觉中的零样本问题要简单得多。Isele等人提出的方法(参见参考文献No.4)未能解决从见过的类到未见过的类的域转移问题，而本文描述的问题的属性感知公式解决了该问题。另外，Isele等人的方法(参见参考文献No.4)缺乏对高维特征空间(例如，10³阶特征空间)的可概括性，该可概括性是视觉中的零样本问题的必要要求，而根据本公开的实施方式的技术是可概括的。

此外，根据本公开的实施方式的系统解决了对自主平台(例如，无人机、无人驾驶飞行器(UAV))和自主车辆上的鲁棒机器视觉系统的需求。本文描述的发明提供了有效地适应新颖场景(例如，新颖对象、天气状况等)的能力，并且使得将来的传递学习技术成为可能。例如，当检测到躲避对象时，系统可以生成警报，从而使自主平台执行自动操作，例如制动或转弯操作，以避免撞到该对象。警报可以是听觉警报(例如，哔哔声、音调)和/或视觉警报(例如，仪表板上的灯或消息)。例如，如果对象是停车标志，则系统可以使自主车辆施加功能响应，例如制动操作，以使车辆停止。其他适当的响应可以包括以下中的一项或更多项：转向操作、油门操作以增加速度或降低速度、或保持航向和速度不变的决定。响应可以适用于避免碰撞、提高行驶速度或提高效率。

图7是例示使用处理器700、利用未见过的图像的分类来控制装置702的流程图。可以借由处理器700和未见过的图像的分类控制的装置702的非限制性示例包括车辆或车辆部件，例如制动器、转向机构、悬架或安全装置(例如安全气囊、安全带拉紧器等)。此外，车辆可以是无人驾驶车辆(UAV)、自主地面车辆或人操作的车辆(由驾驶员或远程操作员控制)。如本领域技术人员可以理解的，其他装置类型的控制也是可能的。

当前现有的机器视觉系统需要大量的训练数据，这些数据涵盖所有可能场景下的各种类。实际上，不可能获得所有视觉类的注释的数据，因此，迫切需要一种学习系统，该系统可以传递其学到的知识并使其学到的知识适应新颖类。本公开的属性感知联合稀疏视觉特征和语义属性建模系统使得能够以比现有系统少得多的训练示例来执行零样本机器视觉。

最后，虽然已经根据几个实施方式对本发明进行了描述，但本领域普通技术人员应当容易地认识到本发明在其它环境中可以具有其它应用。应注意到，可以有许多实施方式和实现。而且，所附的权利要求绝不是旨在将本发明的范围限制成上述具体实施方式。另外，任何“用于……的装置(means)”的用语旨在引发要素和权利要求的装置加功能的解读，而任何未特别使用“用于……的装置(means)”用语的要素不应被解读为装置加功能要素，即使权利要求以其它方式包括了“装置(means)”一词。而且，虽然已经按特定次序陈述了特定的方法步骤，但这些方法步骤可以按任何期望的次序发生并且落入本发明的范围内。

Claims

1.一种用于对象识别的系统，该系统包括：

编码有可执行指令的非暂时性计算机可读介质以及一个或更多个处理器，使得当执行所述可执行指令时，所述一个或更多个处理器执行以下操作：

使用训练图像集合和注释的语义属性，对模型进行训练，所述模型使用关于视觉特征和语义属性的字典的联合稀疏表示将来自已知图像的视觉特征映射到所述注释的语义属性；

使用所训练的模型将未见过的输入图像的视觉特征映射到该未见过的输入图像的语义属性；

将所述未见过的输入图像分类为属于图像类；以及

基于所述未见过的输入图像的分类来对装置进行控制，其中，所述装置是车辆部件，并且控制所述装置导致车辆操纵。

2.根据权利要求1所述的系统，其中，所述一个或更多个处理器进一步执行以下操作：生成包括来自多个图像类的对象图像的训练图像集合，其中，所述训练图像集合中的各个对象图像已经用类标签和描述该对象图像的语义属性进行了注释。

3.根据权利要求1所述的系统，其中，为了训练所述模型，将视觉特征空间和语义属性空间建模为非线性空间，所述非线性空间为视觉特征及其对应的语义属性提供完全相同的稀疏表示。

4.根据权利要求1所述的系统，其中，所述一个或更多个处理器进一步执行以下操作：

找到针对从所述未见过的输入图像中提取的视觉特征的稀疏表示；以及

生成在所述模型的所述语义属性空间中解析的语义属性预测，其中，软分配概率向量标识所述语义属性预测属于未见过的图像的类的概率。

5.根据权利要求4所述的系统，其中，使用正则化参数来调节所述软分配概率向量的熵。

6.根据权利要求4所述的系统，其中，在给定所述语义属性预测的情况下，使用所述模型的所述语义属性空间中的最接近的语义属性的类标签来标记所述未见过的输入图像。

7.一种用于对象识别的计算机实现的方法，该方法包括以下动作：

使一个或更多个处理器执行编码在非暂时性计算机可读介质上的指令，使得在执行所述指令时，所述一个或更多个处理器执行以下操作：

将所述未见过的输入图像分类为属于图像类；以及

8.根据权利要求7所述的方法，其中，所述一个或更多个处理器进一步执行以下操作：生成包括来自多个图像类的对象图像的训练图像集合，其中，所述训练图像集合中的各个对象图像已经用类标签和描述该对象图像的语义属性进行了注释。

9.根据权利要求7所述的方法，其中，为了训练所述模型，将视觉特征空间和语义属性空间建模为非线性空间，所述非线性空间为视觉特征及其对应的语义属性提供完全相同的稀疏表示。

10.根据权利要求7所述的方法，其中，所述一个或更多个处理器进一步执行以下操作：

11.根据权利要求10所述的方法，其中，使用正则化参数来调节所述软分配概率向量的熵。

12.根据权利要求10所述的方法，其中，在给定所述语义属性预测的情况下，所述未见过的输入图像是使用所述模型的所述语义属性空间中的最接近的语义属性的类标签来标记的。

13.一种用于对象识别的计算机程序产品，该计算机程序产品包括：

编码有可执行指令的非暂时性计算机可读介质，使得当由一个或更多个处理器执行所述指令时，所述一个或更多个处理器执行以下操作：

使用所训练的模型将未见过的输入图像的视觉特征映射到所述未见过的输入图像的语义属性；

将所述未见过的输入图像分类为属于图像类；以及

14.根据权利要求13所述的计算机程序产品，所述计算机程序产品还包括用于使所述一个或更多个处理器进一步执行以下操作的指令：生成包括来自多个图像类的对象图像的训练图像集合，其中，所述训练图像集合中的各个对象图像已经用类标签和描述该对象图像的语义属性进行了注释。

15.根据权利要求13所述的计算机程序产品，其中，为了训练所述模型，将视觉特征空间和语义属性空间建模为非线性空间，所述非线性空间为视觉特征及其对应的语义属性提供完全相同的稀疏表示。

16.根据权利要求13所述的计算机程序产品，所述计算机程序产品还包括用于使所述一个或更多个处理器进一步执行以下操作的指令：

17.根据权利要求16所述的计算机程序产品，其中，使用正则化参数来调节所述软分配概率向量的熵。

18.根据权利要求16所述的计算机程序产品，其中，在给定所述语义属性预测的情况下，所述未见过的输入图像是使用所述模型的所述语义属性空间中的最接近的语义属性的类标签来标记的。

19.根据权利要求1所述的系统，其中，所述车辆操纵是碰撞避免操纵。

20.根据权利要求1所述的系统，其中，所述未见过的输入图像是躲避对象的图像，并且其中，当所述躲避对象被分类时，生成警报。