CN110073367A - 用于零样本学习的利用基于soft-max的兼容性函数的多视图嵌入 - Google Patents

用于零样本学习的利用基于soft-max的兼容性函数的多视图嵌入 Download PDF

Info

Publication number
CN110073367A
CN110073367A CN201880005068.5A CN201880005068A CN110073367A CN 110073367 A CN110073367 A CN 110073367A CN 201880005068 A CN201880005068 A CN 201880005068A CN 110073367 A CN110073367 A CN 110073367A
Authority
CN
China
Prior art keywords
label
vector
level
unknown object
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880005068.5A
Other languages
English (en)
Other versions
CN110073367B (zh
Inventor
曹熙航
金劲男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HRL Laboratories LLC
Original Assignee
HRL Laboratories LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HRL Laboratories LLC filed Critical HRL Laboratories LLC
Publication of CN110073367A publication Critical patent/CN110073367A/zh
Application granted granted Critical
Publication of CN110073367B publication Critical patent/CN110073367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Electromagnetism (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

描述了一种用于对象识别的多视图嵌入的系统。在操作期间,所述系统接收输入图像,并且将所述图像中的具有对应标签的对象的原始数据变换成低级特征和所述标签的高级语义表示。通过嵌入所述低级特征与多个高级语义表示来生成经训练的对象识别模型。然后,所述系统接收未知对象的数据并使用所述经训练的对象识别模型向所述未知对象分配标签。最后,可以基于所述标签来控制装置。

Description

用于零样本学习的利用基于SOFT-MAX的兼容性函数的多视图 嵌入
相关申请的交叉引用
本申请要求保护2017年1月19日提交的U.S.62/448,382的权益并且作为其非临时专利申请,其全部内容通过引用并入于此。
发明背景
(1)技术领域
本发明涉及图案识别系统,更具体地,涉及执行零样本(zero-shot)学习以对在已知数据中发现的输入新颖图案进行识别的图案识别系统。
(2)相关技术的说明
图案识别系统通常通过接收输入(以图像、视频、信号的时间序列等形式)并尝试识别输入中的已知图案来进行操作。系统通常利用某种形式的优化函数进行操作,该优化函数尝试将函数最大化以便找到相关解。
这种优化方法的示例被称为非常简单的零样本学习(ESZSL)(EmbarrassinglySimple Zero-Shot Learning)(参见并入参考文献的列表,参考文献No.1)。ESZSL方法提出了双线性模型来桥接低级特征和目标类标签的一个高级语义表示,以表示基于最佳拟合的优化问题。ESZSL的一个缺点是:它没有明确地提出如何使用来自标签的语义表示的多个视图的信息。ESZSL的另一缺点是:最佳拟合优化问题的表示是缺乏信服力的(naive)。ESZSL中的目标标签矢量是具有+1和-1的矢量,并且双线性模型输出需要拟合+1和-1,但是双线性模型的输出可以处于(-∞,+∞)的范围中。
现有的零样本学习模型专注于寻找用于将特征矢量与其对应类的高级表示的兼容性函数值最大化的解。现有模型还独立地处理同一特征矢量与不同类的高级表示的兼容性函数值。此外,针对使用基于最佳拟合的优化表示的现有零样本学习算法,目标值通常为常数;然而,这可能是不正确的。
因此,仍然存在对改进的图案识别系统的需求。
发明内容
本公开提供了一种用于多视图嵌入的系统。在各种实施方式中,所述系统包括一个或更多个处理器以及存储器。所述存储器是编码有可执行指令的非暂时性计算机可读介质,使得在执行所述指令时,所述一个或更多个处理器执行若干操作。例如,所述系统接收具有对象的输入图像。将所述图像中的具有对应标签的对象的原始数据变换成低级特征和所述标签的高级语义表示。通过嵌入所述低级特征与多个高级语义表示来生成经训练的对象识别模型。然后接收未知对象的数据,并且可以使用所述经训练的对象识别模型将标签分配给所述未知对象(例如,对其进行分类)。最后,可以基于所述标签来对多个对应装置进行控制。
在另一方面中,所述未知对象是导航对象,并且对装置进行控制的操作包括:使车辆基于所述导航对象来导航。
在又一方面中,向所述低级特征嵌入多个高级表示的操作包括:将来自不同空间的矢量映射到公共空间中。
在又一方面中,将来自不同空间的矢量映射到公共空间中的操作包括:将来自m0维空间的特征矢量映射至m维空间,并且将来自mv维空间的第v视图语义矢量映射至公共m维空间。
另外,如果所述未知对象与未知对象类中的标签匹配,则将该标签分配给所述未知对象,从而实现对象识别。
在另一方面中,soft-max表示提供了每个可能分类结果的置信度,并且将所述标签分配给所述未知对象的操作基于所述soft-max表示。
另外,使用soft-max函数来提供图案的低级特征与对应高级语义表示的兼容程度,并且将所述标签分配给所述未知对象的操作基于所述soft-max表示。
此外,向所述低级特征嵌入多个高级语义表示的操作利用来自标签的语义表示的多个视图的信息。
在另一方面中,其中,在生成所述经训练的对象识别模型的操作中,所述系统执行以下操作:将特征矢量与其匹配的类的高级表示的兼容性函数值最大化,同时抑制所述特征矢量与不匹配的类的高级表示的兼容性。
在另一方面中,生成所述经训练的对象识别模型的操作包括:通过将兼容对与不兼容对之间的裕度最大化来提高推理准确度。
最后,本发明还包括一种计算机程序产品和计算机实现方法。所述计算机程序产品包括在非暂时性计算机可读介质上存储的计算机可读指令,所述计算机可读指令可通过具有一个或更多个处理器的计算机执行,使得在执行所述指令时,所述一个或更多个处理器执行本文列出的操作。另选地,所述计算机实现方法包括使计算机执行这种指令并且执行所得操作的行为。
附图说明
根据下面结合参照附图对本发明各个方面进行的详细说明,本发明的目的、特征以及优点将是显而易见的,其中:
图1是描绘根据本发明各个实施方式的系统的部件的框图;
图2是具体实施本发明的一个方面的计算机程序产品的例示图;
图3是根据本公开一些实施方式的具有零样本能力的对象识别的系统框图;
图4是描绘根据本公开一些实施方式的多视图嵌入的例示图;
图5是描绘在根据本公开一些实施方式的数学推导中使用的符号的表;
图6是例示使用根据本公开一些实施方式的系统的准确度比较的条形图;以及
图7是对所有基线方法针对所有数据集在目标域中的分类准确度进行描绘的表。
具体实施方式
本发明涉及图案识别系统,更具体地,涉及执行零样本学习以对在已知数据中找到的输入新颖图案进行识别的图案识别系统。以下的说明旨在使本领域普通技术人员能够制造和使用本发明并将其导入到特定应用的背景中。对于本领域技术人员来说显然可以有各种改动以及不同应用场合中的多种用途,并且这里限定的总体构思可以应用于很宽的范围。因此,本发明不应限于所呈现的方面,而是涵盖与本文所公开的构思和新颖特征相一致的最广范围。
在下面的详细说明中,阐述了许多具体细节,以使得能够更加深刻地理解本发明。然而,本领域技术人员应当明白,本发明可以在不必受限于这些具体细节的情况下来实施。在其它情况下,公知结构和装置按框图形式而不是按细节示出,以免妨碍对本发明的理解。
也请读者留意与本说明书同时提交的所有文件和文档,这些文件和文档与本说明书一起公开,以供公众查阅,所有这些文件和文档的内容通过引用并入于此。本说明书(包括任何所附权利要求书、摘要以及附图)中公开的所有特征可以由用于相同、等同或相似目的的替代特征来代替,除非另有明确说明。因此,除非另有明确说明,否则所公开的每个特征仅仅是同类系列等同或相似特征中的一个示例。
此外,权利要求书中没有明确陈述用于执行指定功能的“装置”或用于执行特定功能的“步骤”的任何元素不被解释为在35 U.S.C.第112节第6款中指定的“装置”或“步骤”条款。具体地,在本文的权利要求书中使用“...的步骤”或“...的动作”不旨在援引35 U.S.C.第112节第6款的规定。
在详细说明本发明之前,首先提供了引用参考文献的列表。接下来,提供了对本发明各个主要方面的说明。随后,向读者进行介绍,使得能够对本发明有总体上的理解。最后,提供本发明各个实施方式的具体细节,以使得能够理解具体的方面。
(1)并入参考文献的列表
在本申请中引用以下参考文献。为了清楚和方便起见,这些参考文献在此被列为读者的中心资源。下列参考文献通过引用并入于此,就像在此完全陈述一样。这些参考文献通过参照如下对应文献参考序号而在本申请中加以引用:
1.J.Deng,N.Ding,Y.Jia,A.Frome,K.Murphy,S.Bengio,Y.Li,H.Neven和H.Adam.Large-scale object classification using label relation graphs.In ECCV2014,48-64页.Springer,2014。
2.Christoph H.Lampert,Hannes Nickisch和Stefan Harmeling.″Attribute-based classification for zero-shot visual object categorization.″IEEETransactions on Pattern Analysis and Machine Intelligence 36.3(2014):453-465。
3.Akata,Zeynep等.″Evaluation of output embeddings for fine-grainedimage classification.″Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition.2015。
4.Fu,Zhenyong等.″Zero-shot object recognition by semantic manifolddistance.″Proceedings of the IEEE Conference on Computer Vision and PatternRecognition.2015。
5.Bernardino Romera-Paredes和P.H.S.Torr.″An embarrassingly simpleapproach to zero-shot learning.″Proceedings of the 32nd InternationalConference on Machine Learning.2015。
6.Ziming Zhang和Venkatesh Saligrama.″Zero-shot learning via semanticsimilarity embedding.″Proceedings of the IEEE International Conference onComputer Vision.2015。
7.Soravit Changpinyo,Wei-Lun Chao,Boqing Gong和Fei Sha.SynthesizedClassifiers for Zero-Shot Learning.In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016。
8.Chuang Gan,Tianbao Yang和Boqing Gong.″Learning Attributes EqualsMulti-Source Domain Generalization.″In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition(CVPR),2016。
9.K.Simonyan,A.Zisserman,“Very Deep Convolutional Networks for Large-Scale Image Recognition,”arXiv technical report,2014。
10.Mikolov,Tomas等″Efficient Estimation of Word Representations inVector Space″.arXiv:1301.3781(2013)。
(2)主要方面
本发明的各种实施方式包括三个“主要”方面。第一个方面是图案识别系统。该系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。所述系统通常采用计算机系统操作软件的形式或采用“硬编码”指令集的形式。所述系统可以并入提供不同功能的各种各样的装置中。第二个主要方面是利用数据处理系统(计算机)进行操作的、通常采用软件形式的方法。第三个主要方面是计算机程序产品。所述计算机程序产品通常表示存储在诸如光学存储装置(例如,光盘(CD)或数字通用盘(DVD))或磁存储装置(例如,软盘或磁带)的非暂时性计算机可读介质上的计算机可读指令。计算机可读介质的其它非限制示例包括硬盘、只读存储器(ROM)以及闪存型存储器。这些方面将在下文进行更详细的说明。
图1提供了描绘本发明的系统(即,计算机系统100)的示例的框图。计算机系统100被配置成执行与程序或算法相关联的计算、处理、操作和/或功能。在一个方面中,本文讨论的某些处理和步骤被实现为存在于计算机可读存储器单元内并由计算机系统100的一个或更多个处理器执行的一系列指令(例如,软件程序)。在执行时,这些指令使计算机系统100执行特定动作并展现特定行为,诸如本文所描述的。
计算机系统100可以包括被配置成传送信息的地址/数据总线102。另外,一个或更多个数据处理单元(诸如处理器104(或多个处理器)与地址/数据总线102连接。处理器104被配置成处理信息和指令。在一个方面中,处理器104是微处理器。另选地,处理器104可以是不同类型的处理器,例如并行处理器、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、复杂可编程逻辑器件(CPLD)或现场可编程门阵列(FPGA)。
计算机系统100被配置成利用一个或更多个数据存储单元。计算机系统100可以包括与地址/数据总线102连接的易失性存储器单元106(例如,随机存取存储器(“RAM”)、静态RAM、动态RAM等),其中,易失性存储器单元106被配置成存储用于处理器104的信息和指令。计算机系统100还可以包括与地址/数据总线102连接的非易失性存储器单元108(例如,只读存储器(“ROM”)、可编程ROM(“PROM”)、可擦除可编程ROM(“EPROM”)、电可擦除可编程ROM(“EEPROM”)、闪存等),其中,非易失性存储器单元108被配置成存储用于处理器104的静态信息和指令。另选地,计算机系统100可以执行从诸如“云”计算中的在线数据存储单元取得的指令。在一个方面中,计算机系统100还可以包括与地址/数据总线102联接的一个或更多个接口(诸如接口110)。所述一个或更多个接口被配置成使得计算机系统100能够与其它电子装置和计算机系统连接。由所述一个或更多个接口实现的通信接口可以包括有线通信技术(例如,串行电缆、调制解调器、网络适配器等)和/或无线通信技术(例如,无线调制解调器、无线网络适配器等)。
在一个方面中,计算机系统100可以包括与地址/数据总线102联接的输入装置112,其中,输入装置112被配置成将信息和命令选择传送至处理器100。根据一个方面,输入装置112是可以包括字母数字和/或功能键的字母数字输入装置(诸如键盘)。另选地,输入装置112可以是除字母数字输入装置之外的输入装置。在一个方面中,计算机系统100可以包括与地址/数据总线102联接的光标控制装置114,其中,光标控制装置114被配置成将用户输入信息和/或命令选择传送至处理器100。在一个方面中,光标控制装置114利用诸如鼠标、轨迹球、轨迹板、光学跟踪装置或触摸屏的装置来实现。尽管如此,但在一个方面中,例如响应于使用与输入装置112相关联的特殊键和键序列命令,光标控制装置114通过来自输入装置112的输入而被引导和/或激活。在另选方面中,光标控制装置114被配置成由语音命令来引导或指导。
在一个方面中,计算机系统100还可以包括与地址/数据总线102连接的一个或更多个可选的计算机可用数据存储装置(诸如存储装置116)。存储装置116被配置成存储信息和/或计算机可执行指令。在一个方面中,存储装置116是诸如磁或光盘驱动器(例如,硬盘驱动器(“HDD”)、软盘、光盘只读存储器(“CD-ROM”)、数字通用盘(“DVD”))的存储装置。依据一个方面,显示装置118与地址/数据总线102联接,其中,显示装置118被配置成显示视频和/或图形。在一个方面中,显示装置118可以包括阴极射线管(“CRT”)、液晶显示器(“LCD”)、场发射显示器(“FED”)、等离子体显示器或适于显示视频和/或图形图像以及用户可识别的字母数字字符的任何其它显示装置。
本文所提出的计算机系统100是根据一个方面的示例计算环境。然而,计算机系统100的非限制性示例并不严格限于是计算机系统。例如,一个方面规定了计算机系统100表示可以根据本文所述各个方面使用的一种数据处理分析。此外,还可以实现其它计算系统。实际上,本技术的精神和范围不限于任何单个数据处理环境。因此,在一个方面中,使用通过计算机执行的计算机可执行指令(例如,程序模块)来控制或实现本技术的各个方面的一个或更多个操作。在一个实现方式中,这样的程序模块包括被配置成执行特定任务或实现特定抽象数据类型的例程、程序、对象、部件和/或数据结构。另外,一个方面规定了通过利用一个或更多个分布式计算环境来实现本技术的一个或更多个方面,例如,在分布式计算环境中,由通过通信网络链接的远程处理装置执行任务,或者例如,在分布式计算环境中,各种程序模块位于包括存储器-存储装置的本地和远程计算机存储介质中。
图2中描绘了实施本发明的计算机程序产品(即,存储装置)的例示图。计算机程序产品被描绘为软盘200或诸如CD或DVD的光盘202。然而,如先前提到的,计算机程序产品通常表示存储在任何兼容的非暂时性计算机可读介质上的计算机可读指令。如关于本发明所使用的术语“指令”通常指示要在计算机上执行的一组操作,并且可以表示整个程序的片段或者单个可分离的软件模块。“指令”的非限制性示例包括计算机程序代码(源或目标代码)和“硬编码”电子器件(即,编码到计算机芯片中的计算机操作)。“指令”被存储在任何非暂时性计算机可读介质上,例如存储在计算机的存储器中或软盘、CD-ROM以及闪存驱动器上。无论在哪一种情况下,这些指令被编码在非暂时性计算机可读介质上。
(3)介绍
本公开提供了用于零样本学习(ZSL)的系统和方法,该系统和方法被用于多种模态(modalities)的新颖图案识别。例如,输入图案可以是图像、视频、信号的时间系列或文本和多媒体数据的混合(如在社交媒体中)。在各种实施方式中,输入可以是视觉、音频、化学(chemical)、文本或多模式。系统从现有数据中学习如何将图案中的可观察特征“在结构上”映射至语义属性集。假设知道如何根据新颖数据的语义属性来规定该新颖数据,则这种学习映射(或数学投影)被用于对共享在已知数据中找到的特征的输入新颖图案进行识别。系统输出是针对给定输入图案的识别的类(例如,针对图4中的输入图像的类名称“校车接送”)。
这种系统中使用的方法/算法的一些独特方面包括:1)它表示基于soft-max的兼容性函数,以有效地捕获图案的低级特征与其标签的高级语义表示的兼容性程度;2)该算法本质上使来自标签的语义表示的多个视图的信息成为一体;3)该算法间接地学习从低级特征到嵌入空间的矢量映射,并学习到同一嵌入空间的多视图语义矢量映射。这与在邻域中嵌入相关图案(矢量)的典型嵌入技术不同。相反,在根据本公开一些实施方式的嵌入方法中,放宽这个假设,使得系统可以灵活地利用相关图案的任何有效结构。
虽然多空间嵌入技术已被证明在ZSL中是有效的,但许多以前的方法仅考虑将实例的低级特征与该低级特征的对应高级表示的兼容性函数最大化。根据本公开的系统不仅能够将特征矢量与该特征矢量的匹配类的高级表示的兼容性函数值最大化,而且同时抑制该特征矢量与不匹配类的高级表示的兼容性。换句话说,本文所述系统将兼容对与不兼容对之间的裕度最大化,从而导致较高的推理准确度。另外,soft-max表示本质上是一种概率解释,该概率解释提供了每种可能分类结果的置信度。这种置信度可以大大增强决策处理,并且提高分类准确度。因此,描述了使用soft-max方法的改进的图案识别系统,其中,兼容性函数值由概率量度表示,因此,兼容性函数值的范围处于区间[0,1]中。此外,需要这样的系统:该系统使用最佳拟合的优化表示,同时不仅试图将匹配类的值最大化,而且试图将不匹配类的值最小化。通过最大化这种兼容性裕度,在推理阶段可以减少由这种系统提供的分类错误。
如本领域技术人员可以理解的,改进的图案识别系统存在许多实际应用,在该应用中,可以基于图案识别来控制装置。作为非限制性示例,系统提供了用于将自主驾驶车辆操作扩展至新情况和道路状况的关键功能。系统还可以提供用于对影响转向、制动、操纵的驾驶员辅助系统进行扩展的功能。可以利用自主驾驶或部分自动化的车辆来实现所述系统,以允许这些车辆在精心绘制和控制的区域和状况之外(新的交通标志、没有清楚的车道标记的新区域或新天气)运行并生成未知对象的标签。在这样的示例中,车辆将接收流视频作为输入,并且例如识别新的导航对象(例如街道、交通标志、车辆、人或者可能对如何控制车辆产生影响的其它对象)。基于对导航对象的这种识别,系统可以生成命令并通过使车辆基于街道路径和交通标志(例如,停在停车标志处或转向最新识别的道路)而移动通过街道来使该车辆相应地进行导航。
系统还可以用于改进无人驾驶飞行器(UAV)地面站的自动化软件,其可以使用人类生成的口头描述来识别对象和行为。它可以实现在新区域中进行自主驾驶UAV飞行和探索、在多个UAV之间传递学习、缩短训练时间以及减少UAV操作所需的人力。系统也适用于移动威胁检测、多模态生物特征识别以及高级主题应答(noble topic answering)。
(4)各个实施方式的具体细节
如上所述,本公开提供了一种执行零样本学习(ZSL)的图案识别系统。在常规对象识别系统中,训练数据和测试数据共享相同的对象标签;与此相反,在具有零样本能力的对象识别系统中,在模型训练期间可能没有见过未知对象的标签。根据本公开一些实施方式的系统规定了这种具有零样本能力的系统中的关键角色;即,零样本学习(ZSL)模型,该ZSL模型包括训练模型的算法和对象识别和推理的规则。图3示出了具有零样本能力的图案识别系统的系统级图。系统包括四个主要模块,包括表示提取模块300、模型训练模块302、模型测试模块304以及对象识别模块306。
表示提取模块300包括三个子模块:传感器子模块308、提取子模块310以及数据库子模块312。
传感器子模块308负责从传感器、网络或任何其它合适的位置采集对象的原始数据,以获得相关原始数据。根据应用,对象可以是多媒体文件(即,图像、视频)、文本文件(即,网络日志)、时间系列(即,身体传感器读数)等。
提取子模块310负责将原始数据和标签变换成信息式表示。应注意,在一些实施方式中,已经在训练数据集中对标签进行了注释(通常是用户规定的或在数据采集时自动确定的)。具体地,存在两个任务。第一,提取子模块310将对象变换成低级特征;这可以通过采用现有技术的表示模型(例如深度卷积神经网络(参见参考文献No.9))来实现。第二,表示子模块310将高级标签变换成语义表示的多个视图。这通过使用word2vec表示和用户规定的二元语义属性矢量来完成(例如,参见参考文献No.10)。
标签(例如,动物数据集中的“老虎”)可以用语义属性集(例如,{“有四条腿”、“黑条纹”、“跑得快”、“长尾巴”})来表示。取决于如何描述这些属性集,可以按多种方式对其进行规定。例如,word2vec模型将大的文本语料库作为输入,并生成通常有几百维的矢量空间,其中,语料库中的每个唯一单词都被分配了该空间中的对应矢量。另一方面,二元属性矢量被简单地规定成它们的矢量元素具有0或1,其中,1意指标签具有该组元所指定的语义属性(例如,对于标签“老虎”来说,属性“有四条腿”等于1)。
数据库子模块312负责存储、建索引以及查询要分层成训练集、验证集以及测试集的对象。
模型训练模块302是系统的关键部分,因为在该模块中训练零样本图案(例如,对象)识别模型。具体地,多视图soft-max零样本学习模型314处于该模块302中,该模型314被用于生成经训练的对象识别模型316。下面,对该模块302进行更详细的描述。
模型测试模块304利用测试过程来评估识别模型316的效率,以查看经训练的模型在利用测试数据识别对象方面是否工作良好。经学习的识别模型316的性能将以两种模式评估:一般对象识别模式318和零样本对象识别模式320。在一般对象识别模式318中,模型316将在具有见过的标签322或未见过的标签324的对象上进行测试;而在零样本对象识别模式320中,模型316将仅在具有未见过的标签324的对象上进行测试。
经训练的对象识别模型316将部署在对象识别模块306中,以识别未知对象326。对象识别方面有两种模式,包括一般推理模式327和零样本推理模式328。根据应用,用户可以选择模式中的一种或两种。例如,当不知道测试对象是已知的还是未知的时,可以选择使用一般推理模式327。另选地,当知道测试对象来自未知对象集时,可以选择使用零样本推理模式328。
尽管零样本学习通常专注于计算机视觉应用,但本文所述的具有零样本能力的图案识别系统非常适用于其它应用,例如行为识别、网络安全、社交数据分析等。下面提供了关于该系统的进一步细节。
(4.1)数学表示
针对测试中的新颖图案识别,训练数据集包括低级特征以及标签的高级语义表示。然而,一个语义表示可能仅提供标签的有限信息(说明);因此,包括来自外部源和知识库的多个视图允许模型具有更完整的标签信息并提高准确度。本公开提供了一种用于ZSL任务的基于soft-max的算法,其中利用了语义表示的多个视图。
多视图soft-max零样本学习模型314使用多视图学习来学习嵌入的语义表示,该嵌入的语义表示将低级特征空间和多个高级语义表示空间封装在一起。例如,假设训练集中有n个对象(或实例)。每个对象与用表示的低级特征矢量相关联,该低级特征矢量可以从提取子模块310获得。每个对象设置有独特标签zi∈{c1,c2,...cC}。每个标签与采用矢量形式的高级语义表示相关联,该高级语义表示也可以从提取子模块310获得。这些关联在视图v中被称为该类的类特定原型矢量。因此,如果两个对象具有相同的标签,那么它们将与同一类原型相关联;即,这两个对象的高级表示是相同的。这里,假设存在针对高级语义表示的V个视图。模型的输出是条件性概率,如下:
其在给定对象的低级特征、所有可能标签的语义表示以及模型参数{Wv|v=1,2,3,...V}的情况下,是具有标签j的第i个对象的置信度。因此,学习算法的目标是从训练数据中学习参数集。数学推导中使用的符号在图5所示的表中列出。
(4.2)多视图嵌入
嵌入技术的目标是将来自不同空间的矢量映射至公共空间,以使矢量存在统一表示(例如,相同维数),从而允许方便地比较矢量。特征空间的嵌入函数被表示为gf(.),并且语义空间的第v视图的嵌入函数被表示为gv(.),然后,特征xi(注意,是yv(cj)的简写符号)的矢量表示分别为gf(xi)和使用最广泛并且高效的映射中的一种是线性映射,即,gf(xi)=Wfxi,并且其中,是矩阵,其将特征矢量从m0维空间映射至m维空间,并将第v视图语义矢量从mv维空间映射至同一m维空间,如图4中的要素402所示。
在大多数嵌入方法中,人们通常假设来自不同空间的相关矢量将被映射至嵌入空间中的邻域;然而,在本公开的处理中,将这个假设放宽到更普遍的假设——在将来自不同空间的两个相关矢量嵌入至嵌入空间之后,这两个嵌入矢量不必在同一邻域中。然而,嵌入后的相关矢量应当创建某种结构。例如,在传统嵌入假设中,在嵌入后,具有相同形状的对象应当映射到同一邻域中;然而如图4所示,本系统是在这样的假设下操作的:在嵌入后,具有相同标签的相关矢量形成结构(例如,具有相同形状的各种对象将在嵌入空间402中形成三角形400)。当识别出具有相同标签的多个对象时,具有相同标签的多个对象中的每个对象可以形成相同的形状。所形成的形状可以取决于嵌入在嵌入空间中的相关矢量的数量。在使用非可视方法时,相同空间中的相关矢量可以具有设定关系(例如,距离、参数比例),如果可视化则该设定关系将转换成结构。可以针对嵌入空间中具有相同标签的多个对象重复所述设定关系。
具体地,图4例示了如何可以将从图像404中提取的低级特征406以及多个高级语义表示408同时映射到嵌入空间402中以使它们尽可能兼容(类似)。如图4所示并且使用“已知”对象或场景类的训练数据在训练阶段执行的这种映射处理将捕获低级图像特征(例如,在输入图像的不同边界框内提取的特征)如何与场景标签(例如,“接送儿童的校车”)的高级语义描述(例如,行走的儿童、头灯、轮胎、停车标志、黄色公共汽车)关联起来。通过使用该系统,嵌入空间中的相同特征到语义映射(这是现有技术无法实现的独特方法)教导如何对“未经训练的”或“未知的”场景类的新图像进行分类。例如,包含表示儿童远离敞着门的汽车(其他儿童正在该汽车的四周走动)这一图像特征的图像可以被分类到“学校下车”的场景标签。即使这种新颖的场景类/类型的数据未被用于识别系统训练。
(4.3)兼容性函数(CF)
兼容性函数(CF)是用F(.,.)表示的函数,该函数将特征矢量和语义矢量作为输入,并且返回标量值。应注意到,为简单起见,与该案例中的兼容性函数的表示有关的更多细节以单个视图提供;可以基于该单个视图案例容易地表示多视图案例。兼容性函数的输出是特征矢量与语义矢量的兼容程度的量度。一般而言,兼容性函数的设计是基于零样本学习的图案识别算法中的最关键部分之一。在本公开的处理中,代替使用直接来自原始空间的特征矢量和语义矢量,使用这两个矢量的嵌入版本(version)。因为嵌入映射被设计成,使得相关对象将形成一些结构,该结构的优点可用于兼容性函数。此外,在嵌入后,映射的特征矢量和语义矢量将具有相同的维数;这使得能够设计出更简单且更高效的兼容性函数。在该系统的处理中,兼容性函数(其采取两个矢量a和b,具有和f(a,b)=aTb相同的维数)提供下式,其中i是输入实例索引,j是类索引,并且v是视图索引:
这种兼容性函数本质上是嵌入式空间中的两个矢量的内积。直观上,如果特征矢量和语义矢量彼此兼容,则它们的嵌入版本的内积将很大。兼容性函数(被称为双线性函数)的这种表示因其简单性和高效性,已被用于许多现有零样本学习方法中。矩阵Wv被称为双线性矩阵。将两个映射函数Wf和Wv替换成双线性矩阵Wv的最重要优点是系统不需要确定嵌入空间的维数;嵌入空间的维数可以非常小,这可以降低计算成本;然而,该维数也可能非常大,达到无限。最佳Wv总是等于最佳Wf和Wv的矩阵积。
(4.4)概率兼容性矢量函数
本公开引入了概率兼容性矢量函数(PCVF)或soft-max函数。PCVF被规定为:
其中,
矢量Pi被称为概率兼容性矢量函数,因为其被用作兼容性函数,并且同时,pi的每个组元都表示一个概率,如下:
这是在给出特征矢量、所有类原型矢量以及双线性矩阵Wv的情况下,“cj是第i个实例的标签”这一事件的条件概率。式3也被称为soft-max函数。
矢量化提供:
如果被替换为αi(j)并且vec(Wv)被替换为w,则可以被改写如下:
(4.5)目标函数的表示
为了找到最佳双线性矩阵或其矢量化版本,需要表示优化问题,使得所得模型可以拟合训练数据。这里,第i个实例的标签矢量被规定如下:
优化问题表示如下:
目标函数的第一项表示总分类错误,并且第二项是针对参数的正则化。可以参照以下参数导出目标函数的一阶微分:
其中,
并且
学习模型参数的过程在下面的算法1中示出。注意,这个优化问题是一个无约束的凸问题,从而提供了全局最优解。利用一阶微分信息,可以利用一阶拟牛顿方法来解决该问题。一旦找到最优解wopt,系统就可以通过下式寻找标签索引j来预测新颖实例xk的标签:
如在上面章节4.2例示的新颖场景识别示例中所描述的,标签索引j是发明的对象识别系统的输出(指示输入图像被识别为学校接送事件的场景),该对象识别系统将(12)中的argmax函数的右侧中规定的预测得分式最大化。
(4.6)实验和结果
系统可以按两种模式运行:一般对象识别模式和零样本对象识别模式。在两种模式下进行实验,并将它们的性能与其它现有技术的模型进行比较。下文提供结果。
(4.6.1)零样本对象识别实验
为了评估零样本对象识别模式中的处理效率,在4个基准数据集上进行了实验:具有属性的动物(AwA)、aPascal和aYahoo(aPY)、Calthech-UCSD Birds-200-2011(CUB-200-2011)以及SUN属性。在该实验中,图像的低级特征是从VGG(视觉几何组)非常深的卷积神经网络获得的。在所有方法中,训练和测试(看见过/未见过的类)的拆分是相同的,以确保公平比较。准确度被用作评估效率的度量。模型的准确度通过下式计算:
基线方法的目标域分类准确度是从它们最初发表的论文或使用它们作为基线的先前论文中获得的。如果在相同设定和使用相同数据的情况下发现方法的准确度不同,那么最高的准确度被包含在本公开中。对于根据本公开的模型中的每个高级类标签,使用中级语义表示的两个视图(即,属性和单词矢量)。出于在学习模型的同时减少实验中的计算时间的目的,通过利用主分量分析,将低级特征的维数首先从4096减少至50,然后应用本公开的学习方法。所有基线方法针对所有数据集在目标域中的分类准确度被示出在如图7所示的表中。本公开的方法700针对两个数据集(AwA和SUN,表示为组元702)表现地最佳,而针对另外两个数据集(aPY和CUB,表示为组元704)表现地次佳。
(4.6.2)一般对象识别实验
为了评估本系统在一般对象识别模式下的效率,在驾驶场景识别数据集上进行实验;具体地,驾驶场景数据集是SUN属性数据集的子集;它只包含与驾驶有关的图像。
图像的低级特征是从VGG(视觉几何组)非常深的卷积神经网络获得的。属性仅用作标签的语义表示,并且它们只包含驾驶相关属性。由于一般对象识别比零样本学习对象识别更具挑战性,因此使用了称为topn准确度的评估度量。topn准确度被限定如下:
为了比较,将top1、top3以及top5的准确度与ESZSL进行比较,并且准确度在如图6所描绘的条形图中示出。如图所示,本公开的方法600在一般对象识别任务和零样本对象识别任务中优于其它现有技术的模型602,从而提供了对现有技术的系统的显著改进。
最后,虽然已经根据几个实施方式对本发明进行了说明,但本领域普通技术人员应当容易地认识到本发明可以在其它环境中具有其它应用。应注意,可以有许多实施方式和实现。此外,所附权利要求书绝不旨在将本发明的范围限制于上述具体实施方式。另外,任何“用于...的装置”的用语旨在引发要素和权利要求的装置加功能的解读,而任何未特别使用“用于...的装置”用语的要素不应被解读为装置加功能要素,即使权利要求以其它方式包括了“装置(means)”一词。此外,虽然已经按特定顺序陈述了特定的方法步骤,但这些方法步骤可以按任何期望的顺序进行,并且落入本发明的范围内。

Claims (24)

1.一种多视图嵌入的系统,所述系统包括:
一个或更多个处理器以及存储器,所述存储器是编码有可执行指令的非暂时性计算机可读介质,使得在执行所述指令时,所述一个或更多个处理器执行以下操作:
将具有对应标签的对象的原始数据变换成低级特征和所述标签的高级语义表示;并且
通过嵌入所述低级特征与多个高级语义表示来生成经训练的对象识别模型;
接收未知对象的数据,并使用所述经训练的对象识别模型向所述未知对象分配标签;以及
基于所述标签对装置进行控制。
2.根据权利要求1所述的系统,其中,嵌入所述低级特征与多个高级语义表示的操作包括以下操作:将来自不同空间的矢量映射到公共空间中。
3.根据权利要求2所述的系统,其中,将来自不同空间的矢量映射到公共空间中的操作包括以下操作:将来自m0维空间的特征矢量映射至m维空间,并且将来自mv维空间的第v视图语义矢量映射至公共m维空间。
4.根据权利要求1所述的系统,其中,所述未知对象是导航对象,并且对装置进行控制的操作包括以下操作:使车辆基于所述导航对象来导航。
5.根据权利要求1所述的系统,其中,如果所述未知对象与未知对象类中的标签相匹配,则将该标签分配给所述未知对象,从而实现对象识别。
6.根据权利要求1所述的系统,其中,soft-max表示提供了每个可能分类结果的置信度,并且将所述标签分配给所述未知对象的操作基于所述soft-max表示。
7.根据权利要求1所述的系统,其中,使用soft-max函数来提供图案的低级特征与对应高级语义表示的兼容程度,并且将所述标签分配给所述未知对象的操作基于所述soft-max表示。
8.根据权利要求1所述的系统,其中,嵌入所述低级特征与多个高级语义表示的操作利用来自标签语义表示的多个视图的信息。
9.根据权利要求1所述的系统,其中,生成所述经训练的对象识别模型的操作还包括以下操作:将特征矢量与其匹配的类的高级表示的兼容性函数值最大化,同时抑制所述特征矢量与不匹配的类的高级表示的兼容性。
10.根据权利要求9所述的系统,其中,生成所述经训练的对象识别模型的操作包括以下操作:通过将兼容对与不兼容对之间的裕度最大化来提高推理准确度。
11.一种多视图嵌入的计算机程序产品,所述计算机程序产品包括:
编码有可执行指令的非暂时性计算机可读介质,使得当通过一个或更多个处理器执行所述指令时,所述一个或更多个处理器执行以下操作:
将具有对应标签的对象的原始数据变换成低级特征和所述标签的高级语义表示;并且
通过嵌入所述低级特征与多个高级语义表示来生成经训练的对象识别模型;
接收未知对象的数据并使用所述经训练的对象识别模型向所述未知对象分配标签;以及
基于所述标签对装置进行控制。
12.根据权利要求11所述的计算机程序产品,其中,嵌入所述低级特征与多个高级语义表示的操作包括以下操作:将来自不同空间的矢量映射到公共空间中。
13.根据权利要求12所述的计算机程序产品,其中,将来自不同空间的矢量映射到公共空间中的操作包括以下操作:将来自m0维空间的特征矢量映射至m维空间,并且将来自mv维空间的第v视图语义矢量映射至公共m维空间。
14.根据权利要求11所述的计算机程序产品,其中,所述未知对象是导航对象,并且对装置进行控制的操作包括以下操作:使车辆基于所述导航对象来导航。
15.根据权利要求11所述的计算机程序产品,其中,如果所述未知对象与未知对象类中的标签相匹配,则将该标签分配给所述未知对象,从而实现对象识别。
16.根据权利要求11所述的计算机程序产品,其中,soft-max表示提供了每个可能分类结果的置信度,并且将所述标签分配给所述未知对象的操作基于所述soft-max表示。
17.根据权利要求11所述的计算机程序产品,其中,使用soft-max函数来提供图案的低级特征与对应高级语义表示的兼容程度,并且将所述标签分配给所述未知对象的操作基于所述soft-max表示。
18.根据权利要求11所述的计算机程序产品,其中,嵌入所述低级特征与多个高级语义表示的操作利用来自标签语义表示的多个视图的信息。
19.根据权利要求11所述的计算机程序产品,其中,生成所述经训练的对象识别模型的操作还包括以下操作:将特征矢量与其匹配的类的高级表示的兼容性函数值最大化,同时抑制所述特征矢量与不匹配的类的高级表示的兼容性。
20.一种多视图嵌入的计算机实现方法,所述方法包括以下动作:
使一个或更多个处理器执行在非暂时性计算机可读介质上编码的指令,使得在执行所述指令时,所述一个或更多个处理器执行以下操作:
将具有对应标签的对象的原始数据变换成低级特征和所述标签的高级语义表示;并且
嵌入所述低级特征与多个高级语义表示,以生成经训练的对象识别模型;
接收未知对象的数据并向所述未知对象分配标签;以及
基于所述标签对装置进行控制。
21.根据权利要求20所述的方法,其中,嵌入所述低级特征与多个高级语义表示的操作包括:将来自不同空间的矢量映射到公共空间中。
22.根据权利要求21所述的方法,其中,将来自不同空间的矢量映射到公共空间中的操作包括:将来自m0维空间的特征矢量映射至m维空间,并且将来自mv维空间的第v视图语义矢量映射至公共m维空间。
23.根据权利要求20所述的方法,其中,所述未知对象是导航对象,并且对装置进行控制的操作包括:使车辆基于所述导航对象来导航。
24.根据权利要求20所述的方法,其中,如果所述未知对象与未知对象类中的标签相匹配,则将该标签分配给所述未知对象,从而实现对象识别。
CN201880005068.5A 2017-01-19 2018-01-19 用于零样本学习的利用基于soft-max的兼容性函数的多视图嵌入 Active CN110073367B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762448382P 2017-01-19 2017-01-19
US62/448,382 2017-01-19
US15/874,856 2018-01-18
US15/874,856 US10706324B2 (en) 2017-01-19 2018-01-18 Multi-view embedding with soft-max based compatibility function for zero-shot learning
PCT/US2018/014302 WO2018136676A1 (en) 2017-01-19 2018-01-19 Multi-view embedding with soft-max based compatibility function for zero-shot learning

Publications (2)

Publication Number Publication Date
CN110073367A true CN110073367A (zh) 2019-07-30
CN110073367B CN110073367B (zh) 2023-05-23

Family

ID=62908346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880005068.5A Active CN110073367B (zh) 2017-01-19 2018-01-19 用于零样本学习的利用基于soft-max的兼容性函数的多视图嵌入

Country Status (4)

Country Link
US (1) US10706324B2 (zh)
EP (1) EP3571628A4 (zh)
CN (1) CN110073367B (zh)
WO (1) WO2018136676A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382782A (zh) * 2020-02-23 2020-07-07 华为技术有限公司 训练分类器的方法和装置
CN111914903A (zh) * 2020-07-08 2020-11-10 西安交通大学 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10706324B2 (en) * 2017-01-19 2020-07-07 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
US11386295B2 (en) 2018-08-03 2022-07-12 Cerebri AI Inc. Privacy and proprietary-information preserving collaborative multi-party machine learning
US11556846B2 (en) 2018-10-03 2023-01-17 Cerebri AI Inc. Collaborative multi-parties/multi-sources machine learning for affinity assessment, performance scoring, and recommendation making
CN109816032B (zh) * 2019-01-30 2020-09-11 中科人工智能创新技术研究院(青岛)有限公司 基于生成式对抗网络的无偏映射零样本分类方法和装置
CN109919192A (zh) * 2019-01-30 2019-06-21 中国地质大学(武汉) 一种基于卷积神经网络和词向量的图像分类方法及系统
CN112528680B (zh) * 2019-08-29 2024-04-05 上海卓繁信息技术股份有限公司 语料扩充方法及系统
CN110826638B (zh) * 2019-11-12 2023-04-18 福州大学 基于重复注意力网络的零样本图像分类模型及其方法
CN111914949B (zh) * 2020-08-20 2021-06-11 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 基于强化学习的零样本学习模型的训练方法及装置
CN111814472B (zh) * 2020-09-03 2021-04-06 平安国际智慧城市科技股份有限公司 文本识别方法、装置、设备及存储介质
CN114005005B (zh) * 2021-12-30 2022-03-22 深圳佑驾创新科技有限公司 双重批标准化的零实例图像分类方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
CN1559051A (zh) * 2001-09-28 2004-12-29 �ʼҷ����ֵ��ӹɷ����޹�˾ 使用部分学习模型的面部识别的系统和方法
US20080175446A1 (en) * 2006-08-28 2008-07-24 Colorado State University Research Foundation Set to set pattern recognition
US20100189354A1 (en) * 2009-01-28 2010-07-29 Xerox Corporation Modeling images as sets of weighted features
JP2012163357A (ja) * 2011-02-03 2012-08-30 Fujitsu Ltd 故障解析プログラム,故障解析装置および故障解析方法
US20140376804A1 (en) * 2013-06-21 2014-12-25 Xerox Corporation Label-embedding view of attribute-based recognition
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
US20160239711A1 (en) * 2013-10-18 2016-08-18 Vision Semanatics Limited Visual Data Mining
US20160292538A1 (en) * 2015-03-31 2016-10-06 Disney Enterprises, Inc. Object Classification Through Semantic Mapping
US20160307072A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained Image Classification by Exploring Bipartite-Graph Labels
CN106133756A (zh) * 2014-03-27 2016-11-16 赫尔实验室有限公司 用于过滤、分割并且识别无约束环境中的对象的系统
CN106203472A (zh) * 2016-06-27 2016-12-07 中国矿业大学 一种基于混合属性直接预测模型的零样本图像分类方法
GB201617798D0 (en) * 2016-10-21 2016-12-07 Nokia Technologies Oy A method for analysing media content
CN110543916A (zh) * 2019-09-06 2019-12-06 天津大学 一种缺失多视图数据的分类方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9190026B2 (en) * 2013-03-14 2015-11-17 Canon Kabushiki Kaisha Systems and methods for feature fusion
US9818032B2 (en) * 2015-10-28 2017-11-14 Intel Corporation Automatic video summarization
WO2017139764A1 (en) * 2016-02-12 2017-08-17 Sri International Zero-shot event detection using semantic embedding
US10706324B2 (en) * 2017-01-19 2020-07-07 Hrl Laboratories, Llc Multi-view embedding with soft-max based compatibility function for zero-shot learning
US10452927B2 (en) * 2017-08-09 2019-10-22 Ydrive, Inc. Object localization within a semantic domain
US10497257B2 (en) * 2017-08-31 2019-12-03 Nec Corporation Parking lot surveillance with viewpoint invariant object recognition by synthesization and domain adaptation

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1559051A (zh) * 2001-09-28 2004-12-29 �ʼҷ����ֵ��ӹɷ����޹�˾ 使用部分学习模型的面部识别的系统和方法
US20030202683A1 (en) * 2002-04-30 2003-10-30 Yue Ma Vehicle navigation system that automatically translates roadside signs and objects
US20080175446A1 (en) * 2006-08-28 2008-07-24 Colorado State University Research Foundation Set to set pattern recognition
US20100189354A1 (en) * 2009-01-28 2010-07-29 Xerox Corporation Modeling images as sets of weighted features
JP2012163357A (ja) * 2011-02-03 2012-08-30 Fujitsu Ltd 故障解析プログラム,故障解析装置および故障解析方法
US20140376804A1 (en) * 2013-06-21 2014-12-25 Xerox Corporation Label-embedding view of attribute-based recognition
US20160239711A1 (en) * 2013-10-18 2016-08-18 Vision Semanatics Limited Visual Data Mining
CN106133756A (zh) * 2014-03-27 2016-11-16 赫尔实验室有限公司 用于过滤、分割并且识别无约束环境中的对象的系统
US20160292538A1 (en) * 2015-03-31 2016-10-06 Disney Enterprises, Inc. Object Classification Through Semantic Mapping
US20160307072A1 (en) * 2015-04-17 2016-10-20 Nec Laboratories America, Inc. Fine-grained Image Classification by Exploring Bipartite-Graph Labels
CN105512679A (zh) * 2015-12-02 2016-04-20 天津大学 一种基于极限学习机的零样本分类方法
CN106203472A (zh) * 2016-06-27 2016-12-07 中国矿业大学 一种基于混合属性直接预测模型的零样本图像分类方法
GB201617798D0 (en) * 2016-10-21 2016-12-07 Nokia Technologies Oy A method for analysing media content
CN110543916A (zh) * 2019-09-06 2019-12-06 天津大学 一种缺失多视图数据的分类方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382782A (zh) * 2020-02-23 2020-07-07 华为技术有限公司 训练分类器的方法和装置
CN111382782B (zh) * 2020-02-23 2024-04-26 华为技术有限公司 训练分类器的方法和装置
CN111914903A (zh) * 2020-07-08 2020-11-10 西安交通大学 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备
CN111914903B (zh) * 2020-07-08 2022-10-25 西安交通大学 一种基于外分布样本检测的广义零样本目标分类方法、装置及相关设备

Also Published As

Publication number Publication date
CN110073367B (zh) 2023-05-23
US10706324B2 (en) 2020-07-07
US20180225548A1 (en) 2018-08-09
EP3571628A4 (en) 2020-10-28
WO2018136676A1 (en) 2018-07-26
EP3571628A1 (en) 2019-11-27

Similar Documents

Publication Publication Date Title
CN110073367A (zh) 用于零样本学习的利用基于soft-max的兼容性函数的多视图嵌入
Bansal et al. Zero-shot object detection
Zhang et al. Object class detection: A survey
Garcia-Fidalgo et al. Vision-based topological mapping and localization methods: A survey
Farrell et al. Birdlets: Subordinate categorization using volumetric primitives and pose-normalized appearance
Gao et al. A segmentation-aware object detection model with occlusion handling
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
EP3166020A1 (en) Method and apparatus for image classification based on dictionary learning
Jetley et al. Prototypical priors: From improving classification to zero-shot learning
Rani et al. Three dimensional objects recognition & pattern recognition technique; related challenges: A review
Waheed et al. Deep learning algorithms-based object detection and localization revisited
US11270425B2 (en) Coordinate estimation on n-spheres with spherical regression
Schwalbe Concept embedding analysis: A review
Gao et al. A structure constraint matrix factorization framework for human behavior segmentation
Zhang et al. Mining interpretable AOG representations from convolutional networks via active question answering
Saha et al. Transfer Learning–A Comparative Analysis
Balgi et al. Contradistinguisher: a vapnik’s imperative to unsupervised domain adaptation
Wei et al. Learning and representing object shape through an array of orientation columns
Kumar et al. Image classification in python using Keras
Narvaez Adaptation of a Deep Learning Algorithm for Traffic Sign Detection
Sharma et al. Optical Character Recognition Using Hybrid CRNN Based Lexicon-Free Approach with Grey Wolf Hyperparameter Optimization
Murphy The Application of Computer Vision, Machine and Deep Learning Algorithms Utilizing MATLAB®
Nida et al. Bag of deep features for instructor activity recognition in lecture room
Wei et al. Correlated topic vector for scene classification
Wei et al. Aggregating rich deep semantic features for fine-grained place classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant