CN110046640B - 用于关联来自多个车辆的观察的分布式表示学习 - Google Patents

用于关联来自多个车辆的观察的分布式表示学习 Download PDF

Info

Publication number
CN110046640B
CN110046640B CN201910026470.8A CN201910026470A CN110046640B CN 110046640 B CN110046640 B CN 110046640B CN 201910026470 A CN201910026470 A CN 201910026470A CN 110046640 B CN110046640 B CN 110046640B
Authority
CN
China
Prior art keywords
machine learning
learning logic
parameters
image
compact representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910026470.8A
Other languages
English (en)
Other versions
CN110046640A (zh
Inventor
郭睿
尾口健太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of CN110046640A publication Critical patent/CN110046640A/zh
Application granted granted Critical
Publication of CN110046640B publication Critical patent/CN110046640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

用于关联来自多个车辆的观察的分布式表示学习。在示例性实施例中,一种计算机实现的方法:使用第一机器学习逻辑产生从第一角度捕获的第一图像中的第一对象的第一紧凑表示;使用第二机器学习逻辑产生从第二角度捕获的第二图像中的第二对象的第二紧凑表示;计算反映第一对象的第一紧凑表示和第二对象的第二紧凑表示之间的相似度的水平的相似度得分;以及基于相似度得分与预定目标输出的比较,将第一对象和第二对象的特征的子集识别为比第一对象和第二对象的其它特征更加具有确定性。

Description

用于关联来自多个车辆的观察的分布式表示学习
背景技术
本公开涉及学习被检测对象的表示。在更具体的示例中,本公开涉及用于被检测对象的紧凑表示的分布式学习以便关联来自多个车辆的多个观察的技术。
对象跟踪和交通状况定位经常依赖于捕获相同对象的道路场景的多个观察。然而,识别这些多个观察中所包括的相同对象是具有挑战性的。用于关联多个观察中的对象的已有解决方案是提取对象的特征并且使用特征比较来匹配不同视角的对象。然而,这种已有方法通常仅考虑有限数量的预定特征。作为结果,对象的特征表示经常是不完整的,并且导致不准确的对象关联。另一方面,使用完整的特征集描述对象也是不切实际的,因为由于延时和带宽限制而无法通过车辆网络高效地传输完整的特征集。另外,已有解决方案通常被实现在集中式系统中,并且因此,通常不适用于包括车辆网络中的多个协作车辆的分布式系统。
发明内容
通过提供用于学习被检测对象的紧凑表示并且关联来自多个车辆的多个观察的新技术,本公开中描述的主题克服了已有解决方案的缺点和限制。
根据本公开中描述的主题的一个创新方面,一种计算机实现的方法包括:使用第一机器学习逻辑产生从第一角度捕获的第一图像中的第一对象的第一紧凑表示;使用第二机器学习逻辑产生从第二角度捕获的第二图像中的第二对象的第二紧凑表示;计算反映第一对象的第一紧凑表示和第二对象的第二紧凑表示之间的相似度的水平的相似度得分;以及基于相似度得分与预定目标输出的比较,将第一对象和第二对象的特征的子集识别为比第一对象和第二对象的其它特征更加具有确定性。
通常,在本公开中描述的主题的另一创新方面可以以计算机实现的方法来实现,所述计算机实现的方法包括:使用第一机器学习逻辑产生从第一角度捕获的第一图像中的第一对象的第一紧凑表示;使用第二机器学习逻辑产生从第二角度捕获的第二图像中的第二对象的第二紧凑表示;计算反映第一对象的第一紧凑表示和第二对象的第二紧凑表示之间的相似度的水平的相似度得分;计算相似度得分和预定目标输出之间的反馈差;以及将反馈差反向传播给第一机器学习逻辑和第二机器学习逻辑中的一个或多个,以基于反馈差调整一个或多个对应参数。
通常,在本公开中描述的主题的另一创新方面可以以系统来实现,所述系统包括:一个或多个处理器;存储指令的一个或多个存储器,当所述指令被所述一个或多个处理器执行时,所述指令使得系统:使用第一机器学习逻辑产生从第一角度捕获的第一图像中的第一对象的第一紧凑表示;使用第二机器学习逻辑产生从第二角度捕获的第二图像中的第二对象的第二紧凑表示;计算反映第一对象的第一紧凑表示和第二对象的第二紧凑表示之间的相似度的水平的相似度得分;以及基于相似度得分与预定目标输出的比较,将第一对象和第二对象的特征的子集识别为比第一对象和第二对象的其它特征更加具有确定性。
这些和其它实现方式可各自可选地包括下面特征中的一个或多个特征:产生第一图像中的第一对象的第一紧凑表示包括:产生第一图像中的第一对象的第一初始表示,使用第一机器学习逻辑将第一对象的第一初始表示映射到第一对象的第一紧凑表示,以及产生第二图像中的第二对象的第二紧凑表示包括:产生第二图像中的第二对象的第二初始表示,以及使用第二机器学习逻辑将第二对象的第二初始表示映射到第二对象的第二紧凑表示;第一对象的第一初始表示是第一初始特征向量IFV,第一对象的第一紧凑表示是第一紧凑特征向量CFV,第二对象的第二初始表示是第二IFV,第二对象的第二紧凑表示是第二CFV;第一IFV和第二IFV各自包括一个或多个纹理特征、一个或多个颜色特征、一个或多个上下文特征和一个或多个视点特征;将第一对象和第二对象的特征的子集识别为比第一对象和第二对象的其它特征更加具有确定性包括:计算相似度得分和预定目标输出之间的反馈差,以及基于反馈差将来自第一对象的第一初始表示和第二对象的第二初始表示的特征的子集识别为比来自第一对象的第一初始表示和第二对象的第二初始表示的其它特征更加具有确定性;产生第一对象的第一紧凑表示包括:减少包括第一对象的第一初始表示的第一数量的特征,以获得第一对象的第一紧凑表示,以及产生第二对象的第二紧凑表示包括:减少包括第二对象的第二初始表示的第二数量的特征,以获得第二对象的第二紧凑表示;预定目标输出指示第一图像中的第一对象和第二图像中的第二对象是否代表相同对象;基于识别的特征的子集,调整第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数;第一机器学习逻辑的一个或多个第一参数与第二机器学习逻辑的一个或多个第二参数相同;确定第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数被充分地调整,以及响应于确定第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数被充分地调整,在第一车辆中实现第一机器学习逻辑以及在第二车辆中实现第二机器学习逻辑;从第一车辆接收第三图像中的第三对象的第三紧凑表示,第三对象的第三紧凑表示是由第一车辆中实现的第一机器学习逻辑产生的,从第二车辆接收第四图像中的第四对象的第四紧凑表示,第四对象的第四紧凑表示是由第二车辆中实现的第二机器学习逻辑产生的,使用第三对象的第三紧凑表示和第四对象的第四紧凑表示计算第三图像中的第三对象和第四图像中的第四对象之间的第一相似度得分,以及基于第一相似度得分确定第三图像中的第三对象是否是与第四图像中的第四对象相同的对象;通过下述操作来确定第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数被充分地调整:计算相似度得分和预定目标输出之间的反馈差,以及确定相似度得分和预定目标输出之间的反馈差满足预定差阈值;通过下述操作来确定第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数被充分地调整:确定第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数被调整的次数,以及确定第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数被调整的次数满足预定数量阈值;计算相似度得分由第三机器学习逻辑执行,计算相似度得分和预定目标输出之间的反馈差,以及基于反馈差调整第三机器学习逻辑的一个或多个第三参数;确定第三机器学习逻辑的一个或多个第三参数被充分地调整,以及响应于确定第三机器学习逻辑的一个或多个第三参数被充分地调整,在计算服务器中实现第三机器学习逻辑;第一机器学习逻辑是神经网络的第一子网络,以及第二机器学习逻辑是神经网络的第二子网络,第一子网络与第二子网络相同。
这些和其它方面中的一个或多个方面的其它实现方式包括对应的系统、设备和计算机程序,所述系统、设备和计算机程序被配置为执行在非暂态计算机存储装置上编码的方法的动作。
在本公开中提供的用于被检测对象的紧凑表示的分布式学习以及关联来自多个车辆的多个观察的新技术在许多方面是尤其有益的。例如,本文中描述的技术能够产生被检测对象的紧凑表示,在所述紧凑表示中,用于代表所述对象的数据量显著减少。因此,能够通过车辆网络高效地传输对象的紧凑表示,而不管其固有的延时和带宽限制如何。作为另一示例,本技术可以以分布式方式部署,并且因此适合于实现在车辆网络的个体协作车辆中。另外,根据在各种方面(例如,外形、纹理、颜色、视点等)描述被检测对象的一组全面特征来选择性地产生被检测对象的紧凑表示,由此显著提高相似度处理和观察关联的准确性。本文中描述的技术可以被用在各种应用中,例如对象监测、道路场景的三维(3D)建模、交通状况定位等。
应该理解,通过示例的方式提供前面的优点,以及该技术可具有许多其它优点和益处。
在附图的示图中通过示例的方式而不是通过限制的方式示出本公开,其中使用相同参考标记来表示相似元件。
附图说明
图1是用于被检测对象的紧凑表示的分布式学习以及关联来自多个车辆的多个观察的示例性系统的方框图。
图2是示例性多视角观察应用的方框图。
图3是用于在地理地图上动态地定位对象的示例性方法的流程图。
图4A是用于学习被检测对象的紧凑表示以及关联来自多个车辆的多个观察的示例性方法的流程图。
图4B是用于被检测对象的紧凑表示的分布式学习以及关联来自多个车辆的多个观察的示例性方法的流程图。
图5是用于处理被检测对象之间的相似度的示例性方法的流程图。
图6是用于处理被检测对象之间的相似度的另一示例性方法的流程图。
图7是特征向量处理单元的结构示图。
图8是用于提取描述被检测对象的形态特征的示例性方法的流程图。
图9A表示具有交通状况的示例性路段。
图9B是用于关联来自位于该路段中的多个车辆的观察的示例性方法的流程图。
具体实施方式
本文中描述的技术可以产生用于关联来自多个车辆的观察的被检测对象的紧凑表示。在这个本公开中,观察关联可表示基于由各种车辆捕获的多个图像中所包括的被检测对象的相似度来关联由各种车辆捕获的多个图像。如以下更详细所述,所述技术包括可以学习以产生确定性地描述被检测对象的紧凑表示的方法和对应系统。一旦训练处理完成,系统的部件(诸如但不限于经训练的模型、代码等)可以分布在多个车辆和/或计算实体上,以处理多个图像中的被检测对象之间的相似度并且相应地关联这些图像。
图1是用于被检测对象的紧凑表示的分布式学习以及关联来自多个车辆的多个观察的示例性系统100的方框图。如所示的,系统100包括经由网络105耦合以用于电子通信的服务器101和一个或多个车辆平台103a…103n。在图1和其余附图中,在参考标记之后的字母(例如,“103a”)代表对具有该特定参考标记的元件的引用。没有后面的字母的文本中的参考标记(例如,“103”)代表对带有该参考标记的元件的实例的一般引用。应该理解,通过示例的方式提供图1中描述的系统100,并且由这个本公开设想的系统100和/或其他系统可包括另外的部件和/或更少的部件,可组合部件和/或将一个或多个部件划分成另外的部件等。例如,系统100可包括任何数量的车辆平台103、网络105或服务器101。
网络105可以是传统类型(有线和/或无线),以及可具有许多不同配置,包括星形配置、令牌环配置或其它配置。例如,网络105可包括一个或多个局域网(LAN)、广域网(WAN)(例如,因特网)、个人局域网(PAN)、公共网络、私有网络、虚拟网络、虚拟私有网络、对等网络、近场网络(例如,NFC等)、车辆网络和/或多个装置可通信的其它互连数据路径。
网络105也可耦合到或包括电信网络的一部分,以按照各种不同通信协议发送数据。示例性协议包括但不限于传输控制协议/因特网协议(TCP/IP)、用户数据报协议(UDP)、传输控制协议(TCP)、超文本传输协议(HTTP)、安全超文本传输协议(HTTPS)、基于HTTP的动态自适应流传输(DASH)、实时流传输协议(RTSP)、实时传输协议(RTP)和实时传输控制协议(RTCP)、因特网协议语音(VOIP)、文件传输协议(FTP)、WebSocket(WS)、无线接入协议(WAP)、各种消息发送协议(SMS、MMS、XMS、IMAP、SMTP、POP、WebDAV等)或其它合适的协议。在一些实施例中,网络105可以是使用连接的无线网络,诸如DSRC(专用短程通信)、WAVE、802.11p、3G、4G、5G+网络、WiFiTM、卫星网络、车辆对车辆(V2V)网络、车辆对基础设施/基础设施对车辆(V2I/I2V)网络、车辆对基础设施/车辆对任何事物(V2I/V2X)网络或任何其它无线网络。在一些实施例中,网络105可以是具有有限资源(例如,可导致显著传输延时的有限通信带宽等)的车辆无线网络。虽然图1表示用于耦合到服务器101和车辆平台103的网络105的单个块,但应该理解,网络105可在实践中包括如上所述的网络的任何数量的组合。
车辆平台103包括计算装置152,计算装置152具有传感器113、处理器115、存储器117、通信单元119、车辆数据仓库121、多视角观察应用120和跟踪应用122。计算装置152的示例可包括虚拟或物理计算机处理器、控制单元、微控制器等,所述虚拟或物理计算机处理器、控制单元、微控制器等耦合到车辆平台103的其它部件,诸如一个或多个传感器113、致动器、操纵机构等。车辆平台103可经由信号线141耦合到网络105,以及可向其它车辆平台103和/或服务器101发送数据并且从其它车辆平台103和/或服务器101接收数据。在一些实施例中,车辆平台103能够从一个点运输到另一个点。车辆平台103的非限制性示例包括车辆、汽车、公交车、船、飞机、仿生植入物、机器人或具有非暂态计算机电子设备(例如,处理器、存储器或非暂态计算机电子设备的任何组合)的任何其它平台。车辆平台103可在本文中被称为车辆。
通过执行各种输入/输出、逻辑和/或数学运算,处理器115可执行软件指令(例如,任务)。处理器115可具有各种计算架构以处理数据信号。处理器115可以是物理的和/或虚拟的,并且可包括单个核或多个处理单元和/或多个核。在车辆平台103的情况下,处理器可以是实现在车辆平台103(诸如,汽车)中的电子控制单元(ECU),但也可采用和设想其它类型的平台。ECU可接收传感器数据作为车辆操作数据,并且将传感器数据存储在车辆数据仓库121中以用于由多视角观察应用120访问和/或检索。在一些实施例中,ECU可实现模型、机器学习逻辑(例如,软件、代码等),所述模型、机器学习逻辑被训练以产生被检测对象的紧凑表示。例如,ECU可部署经训练的神经网络的子网络以执行紧凑特征向量产生。在一些实现方式中,处理器115可以能够产生电子显示信号并且向输入/输出装置提供电子显示信号,从而支持图像的显示,捕获和传输图像,执行复杂任务(包括各种类型的对象识别和特征提取等)。在一些实现方式中,处理器115可经由总线154耦合到存储器117,以从存储器117访问数据和指令以及将数据存储在存储器117中。总线154可将处理器115耦合到响应平台103的其它部件(包括例如传感器113、存储器117、通信单元119和/或车辆数据仓库121)。
多视角观察应用120是这样的计算机逻辑,该计算机逻辑可执行以产生多个图像中的被检测对象的紧凑表示,使用紧凑表示确定被检测对象之间的相似度,并且基于确定的相似度关联多个图像。如图1中所示,服务器101和车辆平台103a…103n可包括多视角观察应用120的实例120a和120b…120n。在一些实施例中,每个实例120a和120b…120n可包括图2中描述的多视角观察应用120的一个或多个部件,并且可被配置为根据实例所在的位置完全地或部分地执行本文中描述的功能。在一些实施例中,可使用可由一个或多个计算机装置的一个或多个处理器执行的软件、使用硬件(诸如但不限于现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)和/或硬件和软件的组合等实现多视角观察应用120。多视角观察应用120可接收和处理传感器数据和/或车辆数据,并且经由总线154与车辆平台103的其它元件(诸如,存储器117、通信单元119、车辆数据仓库121等)通信。以下参照至少图2至图9B详细地描述多视角观察应用120。
跟踪应用122是这样的计算机逻辑,该计算机逻辑可执行以随着时间过去而执行对象跟踪。如图1中所示,服务器101和/或车辆平台103a…103n可包括跟踪应用122的实例122a和122b…122n。在一些实施例中,可使用可由一个或多个计算机装置的一个或多个处理器执行的软件、使用硬件(诸如但不限于现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)和/或硬件和软件的组合等实现跟踪应用122。在一些实施例中,跟踪应用122可基于由多视角观察应用120确定的对象相似度执行对象跟踪,以监测在多个图像中捕获的各种对象。在一些实施例中,多视角观察应用120和跟踪应用122可被包括在其它应用(例如,定位应用、导航应用、3D建模应用等)中以提供准确道路场景分析,由此方便这些其它应用的功能。
存储器117包括非暂态计算机可用(例如,可读、可写等)介质,所述非暂态计算机可用介质可以是任何有形非暂态设备或装置,所述任何有形非暂态设备或装置可以包含、存储、传送、传播或传输指令、数据、计算机程序、软件、代码、例程等,以便由处理器115处理或结合处理器115处理。例如,存储器117可存储多视角观察应用120和/或跟踪应用122。在一些实现方式中,存储器117可包括易失性存储器和非易失性存储器中的一个或多个。例如,存储器117可包括但不限于动态随机存取存储器(DRAM)装置、静态随机存取存储器(SRAM)装置、分立存储装置(例如,PROM、FPROM、ROM)、硬盘驱动器、光盘驱动器(CD、DVD、蓝光TM等)中的一个或多个。应该理解,存储器117可以是单个装置,或者可包括多个类型的装置和配置。
通信单元119将数据传输给使用无线和/或有线连接以可通信方式耦合(例如,经由网络105)到通信单元119的其它计算装置以及从所述其它计算装置接收数据。通信单元119可包括一个或多个有线接口和/或无线收发器以用于发送和接收数据。通信单元119可耦合到网络105,并且与其它计算节点(诸如,其它车辆平台103和/或服务器101等)通信。通信单元119可使用标准通信方法(诸如,以上讨论的那些标准通信方法)与其它计算节点交换数据。
传感器113包括适合于车辆平台103的任何类型的传感器。传感器113可被配置为收集适合于确定车辆平台103的特性和/或车辆平台103的内部和外部环境的任何类型的信号数据。传感器113的非限制性示例包括各种光学传感器(CCD、CMOS、2D、3D、光检测和测距(LIDAR)、相机等)、音频传感器、运动检测传感器、气压计、高度计、热电偶、水分传感器、红外(IR)传感器、雷达传感器、其它光电传感器、陀螺仪、加速度计、速度计、转向传感器、制动传感器、开关、车辆指示器传感器、雨刷传感器、地理定位传感器、方位传感器、无线收发器(例如,蜂窝、WiFiTM、近场等)、声纳传感器、超声传感器、触摸传感器、接近传感器、距离传感器等。在一些实施例中,一个或多个传感器113可包括布置在车辆平台103的前侧、后侧、右侧和/或左侧的朝向外部的传感器,以便捕获车辆平台103周围的场景上下文。
在一些实施例中,传感器113可包括被配置为记录图像(包括视频图像和静止图像)的一个或多个图像传感器(例如,光学传感器),可使用任何适用的帧率记录视频流的帧,并且可对使用任何适用的方法捕获的视频图像和静止图像进行编码和/或处理。在一些实施例中,图像传感器113可以捕获在图像传感器113的传感器范围内的周围环境的图像。例如,在车辆平台的情况下,图像传感器113可以捕获车辆平台103周围的环境,包括道路、建筑物、路边结构、静态道路对象(例如,交通锥标、路障、交通标志、车道、路标等)和/或动态道路对象(例如,车辆平台103、行人、自行车、动物等)等。在一些实施例中,图像传感器113可被安装在车顶上和/或安装在车辆平台103内部,以相对于车辆平台103的移动方向沿任何方向(朝前、朝后、朝侧面、朝上、朝下等)进行感测。在一些实施例中,图像传感器113可以是多方向的(例如,LIDAR)。在一些实施例中,安装在不同车辆平台103上的图像传感器113可具有不同视点,并且可被配置为具有不同设置、安装和/或配置。
车辆数据仓库121包括存储各种类型的数据的非暂态存储介质。例如,车辆数据仓库121可存储使用总线(诸如,控制器区域网络(CAN)总线)在给定车辆平台103的不同部件之间传送的车辆数据。在一些实施例中,车辆数据可包括从耦合到车辆平台103的不同部件的多个传感器113收集的用于监测这些部件的工作状态的车辆操作数据,例如传输、速度、加速度、减速度、轮速(每分钟转数-RPM)、转向角、制动力等。在一些实施例中,车辆数据可包括移动方向、指示车辆平台103的地理位置的车辆地理定位(例如,GPS(全球定位系统)坐标)等。
在一些实施例中,车辆数据还可包括由车辆平台103的一个或多个图像传感器113捕获的道路场景图像和与这些图像关联的图像数据。在一些实施例中,图像数据可包括指示捕获图像的日期和时间的图像时间戳、图像传感器113的传感器位置和传感器方位和/或当捕获图像时的其它相机、相机位置、车辆平台传感器、CAN等数据。在一些实施例中,图像数据还可描述在图像中检测到的一个或多个对象。例如,图像数据可包括图像中的每个被检测对象的形态特征、初始表示和/或紧凑表示。初始表示可在本文中被称为被检测对象的初始特征表示,以及紧凑表示可在本文中被称为被检测对象的紧凑特征表示。
在一些实施例中,形态特征可包括可有助于确定不同图像中的被检测对象是否实际上相同的描述被检测对象的一个或多个特征。形态特征(也在本文中被简单地称为特征)的示例可包括但不限于多尺度纹理特征、颜色特征、上下文特征、视点特征等。也可采用和设想其它形态特征。在一些实施例中,被检测对象的初始表示可以是利用一组丰富的形态特征在各种方面全面地描述被检测对象的初始特征向量。在一些实施例中,被检测对象的紧凑表示可以是与对应初始特征向量相比利用较少数量的形态特征描述被检测对象的紧凑特征向量。因此,与对应初始特征向量相比,紧凑特征向量可具有较低的特征维度(并且因此,在数据大小方面较小)。
在一些实施例中,车辆数据仓库121可存储表示学习模型(也被简单地称为模型)的模型数据。在一些实施例中,该模型可以是机器学习模型,所述机器学习模型被训练以产生高效地代表被检测对象的紧凑表示(例如,紧凑特征向量)和/或使用紧凑表示确定被检测对象的相似度。在一些实施例中,该模型可被实现为卷积神经网络、支持向量机等形式。也可采用和设想用于利用各种类型的监督学习算法和/或无监督学习算法实现机器学习模型的其它系统架构。在一些实施例中,模型数据可包括模型的一个或多个参数。例如,模型数据可包括根据训练处理而学习的机器学习逻辑的映射参数以用于将初始特征向量映射到紧凑特征向量。
服务器101包括硬件和/或虚拟服务器,所述硬件和/或虚拟服务器包括处理器、存储器和网络通信能力(例如,通信单元)。在一些实施例中,与系统100的其它实体(例如,车辆平台103)相比,服务器101可具有更大的计算能力和计算资源。如信号线145所反映,服务器101可按照可通信方式耦合到网络105。在一些实施例中,服务器可向系统100的其它实体(例如,一个或多个车辆平台103)发送数据以及从系统100的其它实体(例如,一个或多个车辆平台103)接收数据。如所图示的,服务器101可包括多视角观察应用120a和/或跟踪应用122a的实例。
服务器101还可包括数据仓库104,数据仓库104存储用于由这些应用访问和/或检索的各种类型的数据。例如,数据仓库104可存储从车辆平台103接收的被检测对象的紧凑表示(例如,紧凑特征向量)、训练数据、表示学习模型的模型数据等。在一些实施例中,训练数据可包括多组训练图像和与每组训练图像关联的预定目标输出。在一些实施例中,预定目标输出可指示这一组训练图像中所包括的对象是否代表相同对象。例如,训练数据可包括具有预定目标输出=“1”(指示正训练图像中所包括的对象是相同的)的正训练图像和具有预定目标输出=“0”(指示负训练图像中所包括的对象不是相同的)的负训练图像。在一些实施例中,模型数据可包括在训练处理中的各种点处的模型的参数。例如,模型数据可包括被训练以产生被检测对象的紧凑特征向量的一个或多个机器学习逻辑的映射参数、被训练以产生相似度得分的一个或多个机器学习逻辑的评分参数等。在一些实施例中,模型数据还可包括模型的模型配置。例如,模型配置可定义指示模型的训练处理何时完成的会聚点(例如,满足预定数量的训练周期和/或预定反馈差等)。
也可采用和设想其它变型和/或组合。应该理解,图1中示出的系统100代表示例性系统,以及各种不同系统环境和配置可被设想并且落在本公开的范围内。例如,各种动作和/或功能可被从服务器移动到客户机,反之亦然,数据可被合并到单个数据仓库中,或者数据可被进一步分割到另外的数据仓库中,并且一些实现方式可包括另外的或更少的计算装置、服务和/或网络,并且可实现各种功能于客户机或服务器侧。另外,所述系统的各种实体可被集成在单个计算装置或系统中,或者被划分为另外的计算装置或系统等。
图2是示例性多视角观察应用120的方框图。如所图示的,多视角观察应用120可包括检测器202、关联器204、定位器206和映射器208。关联器204可包括特征提取器250、形态处理器252、多个紧凑表示产生器254、相似度评分器256、辨别器258和关联处理器260。应该理解,多视角观察应用120和/或关联器204可包括另外的部件,诸如但不限于配置引擎、加密/解密引擎等,和/或这些各种部件可被组合成单个引擎或被划分为另外的引擎。
检测器202、关联器204、定位器206和映射器208可被实现为软件、硬件或前述各项的组合。在一些实施例中,检测器202、关联器204、定位器206和映射器208可通过总线154和/或处理器115而按照可通信方式彼此耦合和/或耦合到计算装置152的其它部件。类似地,关联器204中所包括的特征提取器250、形态处理器252、所述多个紧凑表示产生器254、相似度评分器256、辨别器258和关联处理器260也可被实现为软件、硬件或前述各项的组合。在一些实施例中,特征提取器250、形态处理器252、多个紧凑表示产生器254、相似度评分器256、辨别器258和关联处理器260可通过总线154和/或处理器115而按照可通信方式彼此耦合,耦合到多视角观察应用120的其它部件和/或计算装置152的其它部件。在一些实施例中,部件103、202、204、206、208和/或250、252、254、256、258、260中的一个或多个部件是可由处理器115执行以提供它们的功能的指令集。在其他实施例中,部件103、202、204、206、208和/或250、252、254、256、258、260中的一个或多个部件可被存储在存储器117中,并且可由处理器115访问和执行以提供它们的功能。在任何前面的实施例中,这些部件103、202、204、206、208和/或250、252、254、256、258、260可适应于与计算装置152的处理器115和其它部件协作并且通信。
以下参照至少图3至图9B更详细地描述多视角观察应用120、多视角观察应用120的部件202、204、206、208以及关联器204的部件250、252、254、256、258和260。
如本文中别处所讨论的,多视角观察应用120是这样的计算机逻辑,该计算机逻辑可执行以关联由多个车辆平台103捕获的多个图像。在典型情形中,位于相同道路区域中的多个车辆平台103可从不同角度捕获存在于该道路区域中的相同对象的多个图像。因此,在一些实施例中,可通过下述操作来关联这些多个图像:检测图像中的对象,确定被检测对象之间的相似度,并且基于确定的对象相似度关联这多个图像。在一些实施例中,可使用被检测对象的紧凑特征表示执行这种图像关联。这些紧凑特征表示可有差别地描述被检测对象,同时仍然能够通过车辆网络被高效地传输,而不管延时和带宽限制如何。
在一些实施例中,由多视角观察应用120执行的功能可被用于在地理地图上动态地定位对象。图3是用于在地理地图上动态地定位对象的示例性方法300的流程图。在块302中,车辆平台103的图像传感器113可捕获道路场景的图像。在块304中,检测器202可在捕获图像中检测一个或多个对象。如图3中所述,可在多个个体车辆平台103中执行图像捕获和对象检测。
在块306中,关联器204可关联由多个车辆平台103从不同角度捕获的图像。例如,关联器204可确定在捕获图像中检测的对象之间的相似度,并且基于对象相似度来关联捕获图像。在一些实施例中,彼此关联的图像可包括相同的被检测对象。在块308中,定位器206可定位被检测对象。例如,定位器206可对包括相同的被检测对象的关联图像应用视觉处理,以计算被检测对象的地理定位(例如,GPS坐标)。在块310中,映射器208可基于确定的被检测对象的位置在地理地图上投射被检测对象。例如,可以使用被检测对象的地理定位坐标,将被检测对象放置在地图上。当被检测对象的位置随着时间过去而改变时,映射器208还可更新地理地图。
图4A是用于学习多个图像中所包括的被检测对象的紧凑表示以及关联从多个车辆接收的多个图像的示例性方法400的流程图。在块402中,当车辆平台103沿着道路行进时,车辆平台103的图像传感器113可捕获道路场景的图像。在一些实施例中,可按照预定义速度/间隔(例如,每5秒、10秒、30秒等)捕获这些道路场景图像。在块404中,检测器202可在捕获图像中检测一个或多个对象。例如,检测器202可对捕获图像执行对象识别(例如,使用视觉算法),以检测存在于道路场景中的一个或多个对象。在块406中,特征提取器250可提取被检测对象的特征。例如,特征提取器250可处理捕获图像,以确定描述图像中的每个被检测对象的一个或多个形态特征。
图8是用于提取描述被检测对象的形态特征的示例性方法800的流程图。在块802中,特征提取器250可处理图像数据,以确定被检测对象的一个或多个纹理特征。在一些实施例中,纹理特征可描述被检测对象(例如,引擎罩、车轮、保险杆等)的各种部分的纹理(例如,几何形状、结构、纹理图案等)。不同部分的纹理可具有不同尺度。在块804中,特征提取器250可确定被检测对象的一个或多个颜色特征。例如,特征提取器250可确定:停在路边的汽车是黑色的,穿过道路的行人穿着蓝色连衣裙并且带着粉红色伞等。
在块806中,特征提取器250可确定被检测对象的一个或多个上下文特征。在一些实施例中,上下文特征可描述被检测对象周围的背景环境。在一些实施例中,对于指示图像中的被检测对象的每个第一边界框,特征提取器250可处理包围第一边界框的第二边界框内的图像区域,以确定与被检测对象关联的背景上下文。在一些实施例中,第二边界框可具有预定形状和尺寸。例如,如图8中所述,对于由图像中的边界框810指示的被检测车辆,特征提取器250可处理边界框812中的图像区域。在这个示例中,边界框812可具有与边界框810相同的矩形形状,并且覆盖边界框810周围20%的另外的图像区域。特征提取器250可处理边界框812中的图像数据,并且确定被检测车辆正平行于斑马线而行驶,并且因此确定被检测车辆正行驶通过十字路口。
尤其是当捕获图像包括具有相同外观的对象时,上下文特征有助于相似度处理。作为示例,第一图像可包括第一汽车,第一汽车具有与第二图像中的第二汽车相同的外形。与第一汽车关联的上下文特征可指示第一汽车正在道路上行驶,而与第二汽车关联的上下文特征可指示第二汽车停在建筑物前面。因此,虽然第一汽车和第二汽车可能看起来完全相同,但第一汽车和第二汽车可被确定为不代表相同对象,因为如上下文特征所指示的它们的周围环境是不同的。
在块808中,特征提取器250可确定被检测对象的一个或多个视点特征。视点特征可指示捕获包括被检测对象的图像的角度。在一些实施例中,视点特征可包括当捕获包括被检测对象的图像时的车辆平台103的移动方向以及图像传感器113的传感器位置和传感器方位。在一些实施例中,特征提取器250可使用图像时间戳从车辆数据获取车辆平台103的移动方向。特征提取器250可从车辆数据仓库121中的与图像关联的图像数据获取图像传感器113的传感器位置和传感器方位。作为示例,当捕获包括被检测对象的图像时,特征提取器250可确定车辆平台103正在沿北向移动,并且图像传感器113被设置在车辆平台103的前侧,具有的传感器方位。
使用视点特征尤其有益于相似度处理。作为示例,第一图像可包括第一损坏卡车,第一损坏卡车类似于第二图像中的第二损坏卡车。特征提取器250可确定:第一图像由设置在沿北向移动的第一车辆平台103的左侧的图像传感器捕获,并且第二图像由设置在沿南向移动的第二车辆平台103的左侧的图像传感器捕获。因此,第一损坏卡车和第二损坏卡车可被确定为代表相同对象,因为如视点特征所指示的捕获它们的角度是兼容的。
返回参照图4,在块408中,形态处理器252可处理描述图像中的被检测对象的形态特征。在一些实施例中,形态处理器252可将形态特征标准化并且连结形态特征以产生被检测对象的初始表示420。特别地,描述被检测对象的形态特征可被转换和/或重新组织以符合预定义标准。形态处理器252可随后将标准化的形态特征聚合成全面地描述被检测对象的初始特征向量。在一些实施例中,被检测对象的初始特征向量可包括与被检测对象关联的完整的一组形态特征,具有纹理特征、颜色特征、上下文特征、视点特征等。作为结果,被检测对象的初始特征向量可具有与其中包括的大量的形态特征对应的大特征维度(并且因此,大数据大小)。
在块410中,紧凑表示产生器254可产生被检测对象的紧凑表示。特别地,紧凑表示产生器254可将被检测对象的初始表示420映射到被检测对象的紧凑表示422。例如,紧凑表示产生器254可将代表被检测对象的初始特征向量映射到代表被检测对象的紧凑特征向量。在一些实施例中,与对应的初始特征向量相比,紧凑特征向量可包括较少数量的形态特征(并且因此,具有较低特征维度和较小数据大小)。
如图4A中所述,可在多个个体车辆平台103中执行图像捕获、对象检测、特征提取、形态处理和紧凑表示产生,以产生从不同角度捕获的多个图像中的被检测对象的紧凑表示422。如本文中别处所讨论的,这些捕获图像中的被检测对象的紧凑表示422可符合预定义标准,并且因此可具有相同格式和特征维度。在一些实施例中,捕获图像中的被检测对象的紧凑表示422可被输入到相似度评分器256中。在块412中,相似度评分器256可计算反映不同捕获图像中的被检测对象的紧凑表示422之间的相似度的水平的相似度得分。作为示例,相似度评分器256可计算相似度得分,该相似度得分指示从第一角度捕获的第一图像中的第一对象的第一紧凑表示422a(例如,第一紧凑特征向量)和从第二角度捕获的第二图像中的第二对象的第n紧凑表示422n(例如,第n紧凑特征向量)之间的相似度的水平。
在一些实施例中,由紧凑表示产生器254执行的紧凑表示产生和由相似度评分器256执行的相似度得分计算可被用于处理对象相似度,并且可被实现为表示学习模型。如本文中别处所讨论的,该模型可被训练以从被检测对象的初始表示产生高效地代表被检测对象的紧凑表示,并且使用产生的紧凑表示确定被检测对象的相似度。
在一些实施例中,经训练的模型可在移动平台103中被实现为软件、硬件、前述各项的组合等,并且在实时驾驶期间用于检测对象并且对对象进行分类,与附近车辆平台103处理场景、共享对象和/或场景信息,经由车辆平台103的输出装置提供驾驶员和乘客反馈,将数据传输给服务器101以存储于在形成交通生态系统的许多车辆上共享的动态地图中等,所述动态地图被用于经由包括在车辆平台中并且由车辆平台执行的导航应用(例如,GPS或其它地理定位系统)来进行路线计算和导航指令提供。在一些实施例中,由多个紧凑表示产生器254a…254n和相似度评分器256实现的机器学习逻辑可被执行以执行本文中讨论的操作。
图5是用于处理被检测对象之间的相似度的示例性方法500的流程图。在块502中,紧凑表示产生器254可接收成对输入。在一些实施例中,成对输入可包括多个图像中的被检测对象的多个初始表示。被检测对象的每个初始表示可被输入到一个紧凑表示产生器254中。例如,成对输入可包括第一图像中的第一对象的第一初始表示420a(例如,第一初始特征向量)和第二图像中的第二对象的第n初始表示420n(例如,第n初始特征向量)。第一初始表示420a可被输入到紧凑表示产生器254a中,并且第n初始表示420n可被输入到紧凑表示产生器254n中。如本文中别处所讨论的,利用对应的完整的各组形态特征,第一初始表示420a可全面地描述第一对象,并且第n初始表示420n可全面地描述第二对象。然而,并非所有这些形态特征都有助于确定第一图像中的第一对象和第二图像中的第二对象是否实际上相同。因此,由紧凑表示产生器254和相似度评分器256实现的模型可被训练,以识别哪些形态特征在特定情形中对于处理对象相似度而言是关键的、哪些形态特征是不重要的并且因此可以被忽略而不影响对象相似度处理的准确性。因此,当将初始特征向量420映射到紧凑特征向量422时,紧凑表示产生器254可滤除那些不重要的形态特征,由此显著减少高效地并且有差别地代表被检测对象所需的数据量。
在块504a中,紧凑表示产生器254a可从第一图像中的第一对象的第一初始表示420a产生第一对象的第一紧凑表示422a。在块504n中,紧凑表示产生器254n可从第二图像中的第二对象的第n初始表示420n产生第二对象的第n紧凑表示422n。在块506中,相似度评分器256可计算第一图像中的第一对象和第二图像中的第二对象之间的相似度的水平。特别地,相似度评分器256可计算第一图像中的第一对象的第一紧凑表示422a和第二图像中的第二对象的第n紧凑表示422n之间的相似度得分。在一些实施例中,在模型的训练处理期间,相似度评分器256还可计算相似度得分和预定目标输出之间的反馈差。在块508中,相似度评分器256可将反馈差提供给紧凑表示产生器254a…254n以训练模型。
在一些实施例中,在模型的部署处理期间(例如,一旦完成了表示学习模型的训练处理),在块510中,多视角观察应用120的其它部件可基于第一图像中的第一对象和第二图像中的第二对象之间的相似度的水平来执行逻辑。例如,相似度的水平可被用于确定第一图像中的第一对象和第二图像中的第二对象是否代表相同对象。如果第一图像中的第一对象和第二图像中的第二对象实际上是相同对象,则第一图像和第二图像可彼此关联并且可被组合使用以分析相关的道路场景。
在一些实施例中,模型可随着时间过去而被连续地训练。在这些实施例中,即使在模型的部署处理期间,相似度评分器256仍可计算反馈差并且将反馈差反向传播到紧凑表示产生器254a…254n以继续训练模型。这个实现方式是特别有益的,因为它在车辆平台103沿着道路行驶时利用由车辆平台103遇到的道路场景的另外的图像连续地改进模型。作为结果,模型的参数(例如,用于产生被检测对象的紧凑表示的映射参数、用于处理对象相似度的评分参数等)可以被进一步完善以用于更好的性能。
图6是用于处理被检测对象之间的相似度的另一示例性方法600的流程图。如所图示的,从第一角度捕获的第一图像中的第一对象的第一初始表示420a被输入到紧凑表示产生器254a中。从第二角度捕获的第二图像中的第二对象的第n初始表示420n被输入到紧凑表示产生器254n中。在一些实施例中,第一初始表示420a可以是第一初始特征向量420a,第一初始特征向量420a描述第一图像中的第一对象并且包括第一数量的形态特征。第n初始表示420n可以是第n初始特征向量420n,第n初始特征向量420n描述第二图像中的第二对象并且包括第二数量的形态特征。
在块504a中,紧凑表示产生器254a可将第一图像中的第一对象的第一初始表示420a映射到第一图像中的第一对象的第一紧凑表示422a。特别地,紧凑表示产生器254a可将第一对象的第一初始特征向量420a映射到第一对象的第一紧凑特征向量422a。在一些实施例中,紧凑表示产生器254a可从第一对象的第一初始特征向量420a中所包括的第一数量的形态特征滤除一个或多个形态特征,由此将具有特征维度=第一数量的形态特征的来自输入向量空间的第一初始特征向量420a投射到具有较低特征维度的潜在向量空间。类似地,紧凑表示产生器254n可将第二对象的第n初始表示420n映射到第二对象的第n紧凑表示422n。特别地,紧凑表示产生器254n可从第二对象的第二初始特征向量420n中所包括的第二数量的形态特征滤除一个或多个形态特征,由此将具有特征维度=第二数量的形态特征的来自输入向量空间的第n初始特征向量420n投射到具有较低特征维度的潜在向量空间。如本文中别处所讨论的,在一些实施例中,第一对象的第一初始特征向量420a和第二对象的第n初始特征向量420n可具有相同格式和特征维度。因此,第一对象的第一初始特征向量420a中所包括的形态特征的第一数量可等于第二对象的第n初始特征向量420n中所包括的形态特征的第二数量。
在一些实施例中,紧凑表示产生器254a的参数可与紧凑表示产生器254n的参数相同。在这些实施例中,每个紧凑表示产生器254a…254n可利用相同的映射参数操作,并且因此,可按照相同方式将每个输入初始特征向量420变换成对应的紧凑特征向量422。作为结果,按照与第n初始特征向量420n被变换成第二对象的第n紧凑特征向量422n完全相同的方式,第一初始特征向量420a可被变换成第一对象的第一紧凑特征向量422a。在一些实施例中,紧凑表示产生器254a…254n和相似度评分器256可按照包括n个子网络的神经网络的形式来实现模型。紧凑表示产生器254a可实现神经网络的第一子网络。紧凑表示产生器254n可实现神经网络的第n子网络。神经网络的n个子网络可彼此相同。
在一些实施例中,每个紧凑表示产生器254可包括一个或多个特征向量处理单元602。在一些实施例中,每个特征向量处理单元602可从输入特征向量滤除与一个或多个形态特征对应的一个或多个向量元素以产生输出特征向量。例如,通过滤除与一个或多个形态特征对应的250个向量元素,特征向量处理单元602可将具有向量长度1000的输入特征向量映射到具有向量长度750的输出特征向量。当多个特征向量处理单元602被应用于第一初始特征向量420a时,包括第一初始特征向量420a的第一数量的形态特征可被连续地减少以获得第一对象的第一紧凑特征向量422a。类似地,当多个特征向量处理单元602被应用于第n初始特征向量420n时,包括第n初始特征向量420n的第二数量的形态特征可被连续地减少以获得第二对象的第n紧凑特征向量422n。
图7表示特征向量处理单元602的结构示图700。如图所示,特征向量处理单元602可包括维度减少层706和非线性映射层708以将输入特征向量702映射到输出特征向量704。返回参照图6,在块604中,维度减少层706可减少输入特征向量702中的特征的数量。特别地,维度减少层706可聚合输入特征向量702的所有向量元素,并且将来自输入向量空间的输入特征向量702映射到具有较低维度的向量空间。如本文中别处所讨论的,在一些实施例中,包括特征向量处理单元602的紧凑表示产生器254可实现神经网络的子网络。在这些实施例中,维度减少层706和非线性映射层708可包括多个神经元。维度减少层706中所包括的神经元的数量可显著低于输入特征向量702的向量长度(例如,800个神经元与1200个向量元素)以执行维度减少映射。
在一些实施例中,维度减少层706可对输入特征向量702中所包括的线性向量元素执行维度减少映射。维度减少层706的输出可随后被输入到非线性映射层708中。在块606中,非线性映射层708可对输入特征向量702中所包括的非线性向量元素执行维度减少映射。因此,维度减少层706和非线性映射层708的组合可将输入特征向量702映射到输出特征向量704,该输出特征向量704具有比输入特征向量702低的特征维度(例如,比输入特征向量702小的向量长度)。在一些实施例中,维度减少层706和非线性映射层708可被包括在一个层中,这一个层能够映射输入特征向量702中所包括的线性向量元素和非线性向量元素两者。
在一些实施例中,维度减少层706和非线性映射层708可使用映射参数执行维度减少映射。在一些实施例中,映射参数可指示有差别地代表被检测对象的各种形态特征的确定性权重。在一些实施例中,维度减少层706和非线性映射层708可确定具有满足预定确定性阈值(例如,小于20%)的确定性权重的形态特征,并且从输入特征向量702滤除与这些形态特征对应的向量元素以产生输出特征向量704。在一些实施例中,维度减少层706和非线性映射层708可确定具有最低确定性权重的预定数量的形态特征(例如,200个形态特征),并且从输入特征向量702滤除与这些形态特征对应的向量元素以产生输出特征向量704。
如本文中别处所讨论的,当第一初始特征向量420a经受紧凑表示产生器254a的多个特征向量处理单元602时,第一初始特征向量420a可被映射到第一对象的第一紧凑特征向量422a。当第n初始特征向量420n经受紧凑表示产生器254n的多个特征向量处理单元602时,第n初始特征向量420n可被映射到第二对象的第n紧凑特征向量422n。在块608中,相似度评分器256可执行回归以计算第一图像中的第一对象的第一紧凑表示422a和第二图像中的第二对象的第n紧凑表示422n之间的相似度得分。特别地,相似度评分器256可计算第一对象的第一紧凑特征向量422a和第二对象的第n紧凑特征向量422n之间的相似度得分。例如,相似度评分器256可计算这样的相似度得分,该相似度得分指示第一对象的第一紧凑特征向量422a和第二对象的第n紧凑特征向量422n之间的相似度的水平是70%。
在块610中,辨别器258可基于相似度得分确定第一图像中的第一对象和第二图像中的第二对象是否描述相同对象。例如,辨别器258可确定第一对象的第一紧凑特征向量422a和第二对象的第n紧凑特征向量422n之间的相似度得分(例如,70%)满足预定得分阈值(例如,大于50%)。因此,辨别器258可确定第一图像中的第一对象和第二图像中的第二对象代表相同对象。
在一些实施例中,相似度评分器256还可计算相似度得分和预定目标输出之间的反馈差。在以上示例中,假设预定目标输出=“1”,指示第一图像中的第一对象和第二图像中的第二对象实际上是相同的(实际相似度的水平=100%)。在这个示例中,使用第一对象的第一紧凑特征向量422a和第二对象的第n紧凑特征向量422n计算的相似度得分=70%。相似度评分器256可将相似度得分与预定目标输出进行比较,并且因此确定相似度得分和预定目标输出之间的反馈差是30%。在一些实施例中,相似度评分器256可将相似度得分和预定目标输出之间的反馈差提供给紧凑表示产生器254a…254n以用于训练模型。
在一些实施例中,紧凑表示产生器254可基于相似度得分与预定目标输出的比较,将第一对象和第二对象的形态特征的子集识别为比第一对象和第二对象的其它形态特征更加具有确定性。特别地,紧凑表示产生器254a…254n可从相似度评分器256接收相似度得分和预定目标输出之间的反馈差。紧凑表示产生器254a…254n可基于反馈差将来自第一对象的第一初始表示420a、…、第二对象的第n初始特征向量420n的形态特征的子集识别为比来自第一对象的第一初始表示420a、…、第二对象的第n初始特征向量420n的其它形态特征更加具有确定性。在一些实施例中,反馈差可被反向传播到一个或多个紧凑表示产生器254。在一些实施例中,使用由紧凑表示产生器254a产生的第一紧凑特征向量422a和由紧凑表示产生器254n产生的第n紧凑特征向量422n计算的反馈差可被用于训练其它紧凑表示产生器254。
在以上示例中,假设第一图像中的第一对象和第二图像中的第二对象代表停在阴影中的路边的相同汽车。在这个示例中,因为阴影,车辆部分的纹理和汽车的颜色未在第一图像和第二图像中被清楚地描述。如以上所讨论的,第一对象的第一紧凑特征向量422a和第二对象的第n紧凑特征向量422n之间的相似度得分是70%,而不是如预定目标输出所指示的100%。因为相似度得分和预定目标输出之间的30%的反馈差,紧凑表示产生器254可确定:如果被检测对象的初始特征表示在特征值的这些特定范围内包括纹理特征和颜色特征,则其它形态特征(例如,上下文特征、视点特征等)可能比纹理特征和颜色特征更加具有确定性(并且因此,在代表被检测对象方面更加高效并且可区分)。
在一些实施例中,紧凑表示产生器254a…254n可基于识别的形态特征的子集调整它们的参数(例如,映射参数)以训练模型。在一些实施例中,不同紧凑表示产生器254a…254n的映射参数可被按照相同方式调整,并且因此具有相同参数值。在以上示例中,紧凑表示产生器254a…254n可调整映射参数以减小纹理特征和颜色特征的确定性权重,并且增加被检测对象的初始特征向量中的其它形态特征(例如,上下文特征、视点特征等)的确定性权重。作为结果,当紧凑表示产生器254处理类似初始特征向量420(例如,具有近似相同特征值的纹理特征和/或颜色特征的初始特征向量420)时,纹理特征和/或颜色特征可能被从初始特征向量420滤除以产生被检测对象的对应紧凑特征向量422。
尤其是在车辆的情况下,上述实现方式有益于处理对象相似度。当由紧凑表示产生器254实现的模型利用多个图像经受多个训练周期时,紧凑表示产生器254可学习在每个特定场景中仅在紧凑特征向量422中包括有差别地代表被检测对象的形态特征,并且因此最有助于确定对象相似度的目的。这个实现方式也是有益的,因为从初始特征向量420中所包括的一组完整形态特征选择性地确定紧凑特征向量422中所包括的形态特征。因此,所有潜在形态特征被考虑,但仅确定性形态特征被保留以形成紧凑特征向量422。因此,代表被检测对象所需的数据量可从初始特征向量420的数据大小(例如,大约30kB)显著减少到紧凑特征向量422的数据大小(例如,小于100个字节),而不影响对象相似度确定的准确性。在大于99%的数据量被减少的情况下,可以经由车辆网络高效地传输紧凑特征向量422。
在一些实施例中,模型的训练处理还可包括相似度评分器256学习产生准确的相似度得分。在一些实施例中,相似度评分器256可基于相似度得分和预定目标输出之间的反馈差调整它的参数(例如,评分参数)。在一些实施例中,评分参数可指示在计算第一对象的第一紧凑特征向量422a和第二对象的第n紧凑特征向量422n之间的相似度得分时的各种形态特征的评分权重。例如,相似度评分器256可稍微增加上下文特征的评分权重,同时使视点特征的评分权重保持不变,以确定使反馈差最小化的每个形态特征的最佳评分权重。
在一些实施例中,紧凑表示产生器254和/或相似度评分器256可确定它们实现的表示学习模型的参数(例如,映射参数、评分参数等)是否被充分地调整。在一些实施例中,相似度评分器256可确定相似度得分和预定目标输出之间的反馈差是否满足预定差阈值。响应于确定相似度得分和预定目标输出之间的反馈差满足预定差阈值,相似度评分器256可确定模型的参数被充分地调整。在一些实施例中,紧凑表示产生器254可确定紧凑表示产生器254的映射参数被调整的次数(例如,执行的训练周期的数量)。紧凑表示产生器254可随后确定紧凑表示产生器254的映射参数被调整的次数是否满足预定数量阈值(例如,是否达到需要的训练周期的最大数量)。响应于确定紧凑表示产生器254的映射参数被调整的次数满足所述预定数量阈值,紧凑表示产生器254可确定模型的参数被充分地调整。
在一些实施例中,当模型的参数被充分地调整时,模型的训练处理完成。利用一组调整的参数(例如,映射参数、评分参数等),模型被视为收敛并且准备好用于部署处理。在一些实施例中,由紧凑表示产生器254a…254n和相似度评分器256实现的模型可被按照分布式方式部署。特别地,如本文中别处所讨论的,每个紧凑表示产生器254a…254n可利用相同映射参数而操作,并且可彼此相同。因此,响应于确定模型的参数被充分地调整,每个紧凑表示产生器254可被分配给一个车辆平台103以便实现。例如,紧凑表示产生器254a可被实现在第一车辆平台103a中,…,紧凑表示产生器254n可被实现在第n车辆平台103n中。在一些实施例中,相似度评分器256可被实现在计算服务器(例如,服务器101)中,或被实现在系统100的任何其它计算实体中。也可采用和设想模型的其它分布式实现方式和集中式实现方式。
返回参照图4A,在块414中,辨别器258可基于相似度得分确定第一图像中的第一对象和第二图像中的第二对象是否描述相同对象。在一些实施例中,辨别器258可确定第一对象的第一紧凑表示422a和第二对象的第n紧凑表示422n之间的相似度得分是否满足预定得分阈值(例如,大于50%)。响应于确定第一对象的第一紧凑表示422a和第二对象的第n紧凑表示422n之间的相似度得分满足预定得分阈值,辨别器258可确定第一图像中的第一对象和第二图像中的第二对象代表相同对象。在块416中,关联处理器260可基于辨别结果关联第一图像和第二图像。特别地,如果辨别器258确定第一图像中的第一对象和第二图像中的第二对象代表相同对象,则关联处理器260可将第一图像与第二图像关联。因此,第一图像和第二图像可以被组合使用以分析在第一图像和第二图像中捕获的相关道路场景。如果辨别器258确定第一图像中的第一对象和第二图像中的第二对象不代表相同对象,则关联处理器260可不将第一图像与第二图像关联。
图4B是用于捕获图像中的被检测对象的紧凑表示的分布式学习以及关联来自多个车辆的多个捕获图像的示例性方法500的流程图。如图4A和图4B中所示,在一些实施例中,在部署处理期间,用于产生捕获图像中的被检测对象的紧凑表示422的多视角观察应用120的部件可被实现在车辆平台103中,而用于处理对象相似度以及关联捕获图像的多视角观察应用120的部件可被实现在服务器101中。
特别地,如果多视角观察应用120被包括在车辆平台103中,则检测器202、特征提取器250、形态处理器252和紧凑表示产生器254可被启用,而相似度评分器256、辨别器258和关联处理器260可被禁用。在一些实施例中,检测器202、特征提取器250、形态处理器252和紧凑表示产生器254可被配置为检测捕获图像中的对象,提取被检测对象的形态特征,处理形态特征以产生被检测对象的初始表示420,并且从被检测对象的对应初始表示420产生被检测对象的紧凑表示422。如果多视角观察应用120被包括在服务器101中,则相似度评分器256、辨别器258和关联处理器260可被启用,而检测器202、特征提取器250、形态处理器252和紧凑表示产生器254可被禁用。在一些实施例中,相似度评分器256、辨别器258和关联处理器260可被配置为使用被检测对象的紧凑表示422计算相似度得分,确定被检测对象是否代表相同对象,并且相应地关联包括被检测对象的捕获图像。
如图4A和图4B中所示,在一些实施例中,第一车辆平台103a可捕获包括第一对象的第一图像。如以上所讨论的,第一车辆平台103a可包括多视角观察应用120,该多视角观察应用120具有紧凑表示产生器254a,该紧凑表示产生器254a被训练以产生被检测对象的紧凑表示。在块410a中,紧凑表示产生器254a可产生第一图像中的第一对象的第一紧凑表示422a。在一些实施例中,第一对象的第一紧凑表示422a可经由车辆网络(例如,网络105)被传输给服务器101。类似地,第n车辆平台103n可捕获包括第二对象的第二图像。如以上所讨论的,第n车辆平台103n可包括多视角观察应用120,该多视角观察应用120具有紧凑表示产生器254n,该紧凑表示产生器254n被训练以产生被检测对象的紧凑表示。实现在第n车辆平台103n中的紧凑表示产生器254n可与实现在第一车辆平台103a中的紧凑表示产生器254a相同,并且因此可按照相同方式产生被检测对象的紧凑表示。在块410n中,紧凑表示产生器254n可产生第二图像中的第二对象的第n紧凑表示422n。在一些实施例中,第二对象的第n紧凑表示422n可经由车辆网络(例如,网络105)被传输给服务器101。
在一些实施例中,当包括第一对象的第一图像和包括第二对象的第二图像被捕获时,第一对象的第一紧凑表示422a和第二对象的第n紧凑表示422n可被实时地产生并且传输。在一些实施例中,服务器101可经由车辆网络(例如,网络105)从第一车辆平台103a接收第一对象的第一紧凑表示422a并且从第n车辆平台103n接收第二对象的第n紧凑表示422n。服务器101中所包括的多视角观察应用120可使用从第一车辆平台103a接收的第一对象的第一紧凑表示422a和从第n车辆平台103n接收的第二对象的第n紧凑表示422n执行对象相似度处理和图像关联。特别地,在块412中,相似度评分器256可计算第一对象的第一紧凑表示422a和第二对象的第n紧凑表示422n之间的相似度得分。在块414中,辨别器258可基于相似度得分确定第一图像中的第一对象和第二图像中的第二对象是否是相同对象。在块416中,关联处理器260可基于辨别结果将第一图像与第二图像关联。例如,如果辨别器258确定第一图像中的第一对象和第二图像中的第二对象是相同对象,则关联处理器260可将第一图像与第二图像关联。在一些实施例中,这种图像关联可被实时地执行。
在一些实施例中,由第一车辆平台103a捕获的第一图像可包括多个第一对象,并且由第n车辆平台103n捕获的第二图像可包括多个第二对象。在这些实施例中,可将第一图像中的一个或多个第一对象与第二图像中的一个或多个第二对象匹配,从而这些匹配对的总相似度得分被最大化。特别地,相似度评分器256可计算第一图像中的每个第一对象和第二图像中的每个第二对象之间的相似度得分。具有不满足预定得分阈值(例如,大于50%)的相似度得分的(第一对象,第二对象)的对可被滤除。辨别器258可随后将第一图像中的每个第一对象与同第一对象具有最高相似度得分的第二图像中的第二对象进行匹配。如果第一图像中的任何两个第一对象与第二图像中的相同第二对象匹配,则这两个第一对象之一可与第二图像中的另一第二对象匹配,以使得对应匹配对的总相似度得分被最大化。
作为示例,由第一车辆平台103a从第一角度捕获的第一图像可包括3个第一对象(例如,汽车A1、汽车A2和工程车辆A3)。由第n车辆平台103n从第二角度捕获的第二图像可包括4个第二对象(例如,汽车B1、汽车B2、工程车辆B3和行人B4)。在这个示例中,第一图像中的汽车A1可与第二图像中的汽车B1具有最高相似度得分(例如,(汽车A1,汽车B1)的相似度得分=70%),并且与第二图像中的汽车B2具有第二高相似度得分(例如,(汽车A1,汽车B2)的相似度得分=63%)。第一图像中的汽车A2可与第二图像中的汽车B1具有最高相似度得分(例如,(汽车A2,汽车B1)的相似度得分=85%),并且与第二图像中的汽车B2具有第二高相似度得分(例如,(汽车A2,汽车B2)的相似度得分=65%)。在这个示例中,辨别器258可确定:2个匹配对(汽车A1,汽车B2)和(汽车A2,汽车B1)的总相似度得分=148%,而2个匹配对(汽车A1,汽车B1)和(汽车A2,汽车B2)的总相似度得分=135%。因此,辨别器258可将第一图像中的汽车A1与第二图像中的汽车B2进行匹配,并且将第一图像中的汽车A2与第二图像中的汽车B1进行匹配,因为这个组合产生最大总相似度得分。
图9A表示路段900上的事故场景的交通状况。如图所示,位于路段900中的车辆平台103可使用它们的图像传感器113捕获道路场景的图像。图像传感器113可被设置在车辆平台103上的不同位置处(例如,设置在前侧、后侧、右侧和/或左侧),并且可在它们的对应传感器范围902内捕获道路场景的图像。当车辆平台103位于相同路段900中时,由它们的图像传感器捕获的图像可能包括存在于道路场景中但从不同角度捕获的相同对象。例如,如图所示,由车辆平台103a…103n捕获的图像可全部包括如从不同角度所观察的碰撞车辆910。
图9B是用于关联来自位于该路段中的多个车辆平台的观察的示例性方法950的流程图。在一些实施例中,多视角观察应用120可从多个车辆平台103接收捕获图像。例如,多视角观察应用120可从车辆平台103a…103n接收路段900的图像904。如图9A中所示,图像904可被从不同角度捕获。在块952中,多视角观察应用120可处理捕获图像的相似度。在块954中,多视角观察应用120可确定捕获图像中的被检测对象是否相同。如本文中别处所讨论的,多视角观察应用120可产生捕获图像中的被检测对象的紧凑特征表示,并且使用这些紧凑特征表示来确定不同捕获图像中的被检测对象是否代表相同对象。在以上示例中,多视角观察应用120可产生由车辆平台103a…103n捕获的图像904中所包括的碰撞车辆的紧凑特征表示。多视角观察应用120可计算图像904中所示的碰撞车辆的紧凑特征表示之间的相似度得分。因此,多视角观察应用120可确定:图像904中所示的碰撞车辆实际上描述相同碰撞车辆910。
在块956中,多视角观察应用120可基于被检测对象的相同而执行一个或多个动作。在以上示例中,当由车辆平台103a…103n捕获的图像904包括相同碰撞车辆910时,图像904可彼此关联,并且可被组合处理以获得对交通状况的全面理解。例如,图像904可经受视觉处理以确定碰撞车辆910的准确位置(例如,GPS坐标),产生事故场景的3D模型,随着时间过去而监测事故场景的覆盖区域等。可采用和设想其它动作。
在以上描述中,为了解释的目的,阐述许多具体细节以便提供对本公开的彻底的理解。然而,应该理解,可以在没有这些具体细节的情况下实施本文中描述的技术。另外,各种系统、装置和结构被以方框图形式示出以便避免模糊描述。例如,各种实现方式被描述为具有特定硬件、软件和用户接口。然而,本公开适用于可以接收数据和命令的任何类型的计算装置,并且适用于提供服务的任何周边装置。
在一些实例中,可在本文中按照对计算机存储器内的数据比特的操作的算法和符号表示来提供各种实现方式。算法在这里通常被设想为导致预期结果的前后一致的一组操作。所述操作是需要物理量的物理操纵的操作。通常,但并不一定,这些量采取能够被存储、传送、组合、比较和以其它方式操纵的电信号或磁信号的形式。有时,主要由于常用的原因,已证明将这些信号称为比特、值、元素、码元、字符、项、数字等是比较方便的。
然而,应该记住的是,所有的这些和类似术语应该与合适的物理量关联并且仅是应用于这些量的方便的标签。除非另外具体地指出,否则从下面的讨论清楚地可知,应该理解,在整个本公开中,使用包括“处理”、“计算”、“核算”、“确定”、“显示”等的术语的讨论表示计算机系统或类似电子计算装置的动作和处理,所述动作和处理操纵被表示为计算机系统的寄存器和存储器内的物理(电子)量的数据并且将所述数据变换成被类似地表示为计算机系统存储器或寄存器或其它这种信息存储、传输或显示装置内的物理(电子)量的其它数据。
本文中描述的各种实现方式可涉及一种用于执行本文中的操作的设备。可以为了需要的目的而专门构造这种设备,或者该设备可包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这种计算机程序可被存储在计算机可读存储介质中,所述计算机可读存储介质包括但不限于各自耦合到计算机系统总线的任何类型的盘(包括软盘、光盘、CD ROM和磁盘)、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光学卡、包括具有非易失性存储器的USB钥匙的闪存或适合存储电子指令的任何类型的介质。
本文中描述的技术可以采用完全硬件实现方式、完全软件实现方式或者既包含硬件元件又包含软件元件的实现方式的形式。例如,该技术可以以软件来实现,所述软件包括但不限于固件、常驻软件、微码等。另外,该技术可以采用可从计算机可用或计算机可读介质访问的计算机程序产品的形式,所述计算机可用或计算机可读介质提供由计算机或任何指令执行系统使用或结合计算机或任何指令执行系统使用的程序代码。为了本说明书的目的,计算机可用或计算机可读介质可以是任何非暂态存储设备,所述任何非暂态存储设备可以包含、存储、传送、传播或传输由指令执行系统、设备或装置使用或结合指令执行系统、设备或装置使用的程序。
适合存储和/或执行程序代码的数据处理系统可包括直接或通过系统总线间接耦合到存储元件的至少一个处理器。存储元件可以包括:本地存储器,该本地存储器在程序代码的实际执行期间采用;大容量存储装置;和高速缓存,该高速缓存提供至少某一程序代码的临时存储以便减少在执行期间必须从大容量存储装置检索代码的次数。输入/输出或I/O装置(包括,但不限于,键盘、显示器、指点装置等)可以直接地或通过中间I/O控制器耦合到该系统。
网络适配器也可耦合到该系统,以使数据处理系统能够变得通过中间私有和/或公共网络耦合到其它数据处理系统、存储装置、远程打印机等。无线(例如,Wi-FiTM)收发器、以太网适配器和调制解调器仅是网络适配器的一些示例。私有和公共网络可具有任何数量的配置和/或拓扑。数据可使用各种不同通信协议(包括例如各种因特网层、传输层或应用层协议)经由网络在这些装置之间传输。例如,可使用传输控制协议/因特网协议(TCP/IP)、用户数据报协议(UDP)、传输控制协议(TCP)、超文本传输协议(HTTP)、安全超文本传输协议(HTTPS)、基于HTTP的动态自适应流传输(DASH)、实时流传输协议(RTSP)、实时传输协议(RTP)和实时传输控制协议(RTCP)、因特网协议语音(VOIP)、文件传输协议(FTP)、WebSocket(WS)、无线接入协议(WAP)、各种消息发送协议(SMS、MMS、XMS、IMAP、SMTP、POP、WebDAV等)或其它已知协议经由网络传输数据。
最后,本文中提供的结构、算法和/或接口并不固有地与任何特定计算机或其它设备相关。各种通用系统可与根据本文中的教导的程序一起使用,或者构造用于执行需要的方法块的更专用的设备可能证明是比较方便的。根据以上描述,将会出现各种这些系统所需要的结构。另外,不参照任何特定编程语言描述说明书。将会理解,各种编程语言可被用于实现如本文中所述的说明书的教导。
已为了说明和描述的目的提供了前面的描述。它不应该是穷尽的或将说明书限于所公开的精确形式。考虑到以上教导,许多变型和变化是可能的。本公开的范围不应由这种详细描述限制,而是由本申请的权利要求限制。熟悉本领域的技术人员将会理解,在不偏离说明书的精神或基本特征的情况下,可按照其它具体形式实现说明书。同样地,模块、例程、特征、属性、方法和其它方面的特定命名和划分不是强制的或重要的,并且实现说明书或它的特征的机构可具有不同名称、划分和/或格式。
另外,本公开的模块、例程、特征、属性、方法和其它方面可被实现为软件、硬件、固件或前述各项的任何组合。此外,在说明书的部件(其示例是模块)被实现为软件的情况下,该部件可被实现为独立程序,可被实现为更大程序的一部分,可被实现为多个分开的程序,可被实现为静态地或动态地链接的库,可被实现为核心可加载模块,可被实现为装置驱动器,和/或以现在或未来已知的每种方式和任何其它方式实现。另外,本公开绝不限于按照任何具体编程语言或任何具体操作系统或环境的实现方式。

Claims (21)

1.一种用于训练机器学习模型以产生被检测对象的确定性紧凑表示的方法,所述方法包括:
第一产生步骤,使用第一机器学习逻辑,通过减少包括第一初始特征向量IFV的第一对象的第一初始表示的第一数量的特征,产生由第一位置处的第一移动对象的图像传感器捕获的第一图像中的第一对象的第一紧凑表示,第一IFV包含包括纹理、颜色、上下文和视点的形态的特征,第一紧凑表示包含包括形态的第一子集的特征的第一紧凑特征向量CFV;
第二产生步骤,使用第二机器学习逻辑,通过减少包括第二IFV的第二对象的第二初始表示的第二数量的特征,产生由与第一位置不同的第二位置处的第二移动对象的图像传感器捕获的第二图像中的第二对象的第二紧凑表示,第二IFV包含包括纹理、颜色、上下文和视点的形态的特征,第二紧凑表示包含包括形态的第一子集的特征的第二CFV,
其中,第一机器学习逻辑是神经网络的第一子网络,以及第二机器学习逻辑是所述神经网络的第二子网络,其中第一子网络与第二子网络相同;
计算步骤,计算反映第一对象的第一紧凑表示和第二对象的第二紧凑表示之间的相似度的水平的相似度得分;
确定步骤,确定相似度得分和预定目标输出之间的差;
反向传播步骤,反向传播相似度得分和预定目标输出之间的差;
调整步骤,调整机器学习模型的参数;以及
识别步骤,将与第一初始表示的形态的其他子集相对应的第一对象和第二对象的特征识别为在产生第一CFV和第二CFV时比第一子集的特征更加具有确定性,第一初始表示的形态的其他子集包含与第一子集不同的形态,直到相似度得分和预定目标输出之间的差满足预定差阈值为止。
2.如权利要求1所述的方法,其中所述预定目标输出指示第一图像中的第一对象和第二图像中的第二对象是否代表相同对象。
3.如权利要求1所述的方法,还包括:
基于识别的特征的子集,调整第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数。
4.如权利要求3所述的方法,其中第一机器学习逻辑的所述一个或多个第一参数与第二机器学习逻辑的所述一个或多个第二参数相同。
5.如权利要求3所述的方法,还包括:
确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被充分地调整;以及
响应于确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被充分地调整,在第一车辆中实现第一机器学习逻辑以及在第二车辆中实现第二机器学习逻辑。
6.如权利要求5所述的方法,还包括:
从第一车辆接收第三图像中的第三对象的第三紧凑表示,第三对象的第三紧凑表示是由第一车辆中实现的第一机器学习逻辑产生的;
从第二车辆接收第四图像中的第四对象的第四紧凑表示,第四对象的第四紧凑表示是由第二车辆中实现的第二机器学习逻辑产生的;
使用第三对象的第三紧凑表示和第四对象的第四紧凑表示来计算第三图像中的第三对象和第四图像中的第四对象之间的第一相似度得分;以及
基于第一相似度得分,确定第三图像中的第三对象是否是与第四图像中的第四对象相同的对象。
7.如权利要求3所述的方法,还包括:
通过下述操作来确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被充分地调整:
计算所述相似度得分和所述预定目标输出之间的反馈差;以及
确定所述相似度得分和所述预定目标输出之间的所述反馈差满足预定差阈值。
8.如权利要求1所述的方法,还包括:
通过下述操作来确定第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数被充分地调整:
确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被调整的次数;以及
确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被调整的所述次数满足预定数量阈值。
9.如权利要求1所述的方法,其中计算所述相似度得分由第三机器学习逻辑执行,所述方法包括:
计算所述相似度得分和所述预定目标输出之间的反馈差;以及
基于所述反馈差调整第三机器学习逻辑的一个或多个第三参数。
10.如权利要求9所述的方法,还包括:
确定第三机器学习逻辑的所述一个或多个第三参数被充分地调整;以及
响应于确定第三机器学习逻辑的所述一个或多个第三参数被充分地调整,在计算服务器中实现第三机器学习逻辑。
11.一种用于训练机器学习模型以产生被检测对象的确定性紧凑表示的系统,所述系统包括:
一个或多个处理器;
存储指令的一个或多个存储器,当所述指令被所述一个或多个处理器执行时,所述指令使得所述系统:
在第一产生步骤中,使用第一机器学习逻辑,通过减少包括第一初始特征向量IFV的第一对象的第一初始表示的第一数量的特征,产生由第一位置处的第一移动对象的图像传感器捕获的第一图像中的第一对象的第一紧凑表示,第一IFV包含包括纹理、颜色、上下文和视点的形态的特征,第一紧凑表示包含包括形态的第一子集的特征的第一紧凑特征向量CFV;
在第二产生步骤中,使用第二机器学习逻辑,通过减少包括第二IFV的第二对象的第二初始表示的第二数量的特征,产生由与第一位置不同的第二位置处的第二移动对象的图像传感器捕获的第二图像中的第二对象的第二紧凑表示,第二IFV包含包括纹理、颜色、上下文和视点的形态的特征,第二紧凑表示包含包括形态的第一子集的特征的第二CFV,
其中,第一机器学习逻辑是神经网络的第一子网络,以及第二机器学习逻辑是所述神经网络的第二子网络,其中第一子网络与第二子网络相同;
在计算步骤中,计算反映第一对象的第一紧凑表示和第二对象的第二紧凑表示之间的相似度的水平的相似度得分;
在确定步骤中,确定相似度得分和预定目标输出之间的差;
在反向传播步骤中,反向传播相似度得分和预定目标输出之间的差;
在调整步骤中,调整机器学习模型的参数;以及
在识别步骤中,将与第一初始表示的形态的其他子集相对应的第一对象和第二对象的特征识别为在产生第一CFV和第二CFV时比第一子集的特征更加具有确定性,第一初始表示的形态的其他子集包含与第一子集不同的形态,直到相似度得分和预定目标输出之间的差满足预定差阈值为止。
12.如权利要求11所述的系统,其中所述预定目标输出指示第一图像中的第一对象和第二图像中的第二对象是否代表相同对象。
13.如权利要求11所述的系统,其中当所述指令被所述一个或多个处理器执行时,所述指令还使得所述系统:
基于识别的特征的子集,调整第一机器学习逻辑的一个或多个第一参数和第二机器学习逻辑的一个或多个第二参数。
14.如权利要求13所述的系统,其中第一机器学习逻辑的所述一个或多个第一参数与第二机器学习逻辑的所述一个或多个第二参数相同。
15.如权利要求13所述的系统,其中当所述指令被所述一个或多个处理器执行时,所述指令还使得所述系统:
确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被充分地调整;以及
响应于确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被充分地调整,在第一车辆中实现第一机器学习逻辑以及在第二车辆中实现第二机器学习逻辑。
16.如权利要求15所述的系统,其中当所述指令被所述一个或多个处理器执行时,所述指令还使得所述系统:
从第一车辆接收第三图像中的第三对象的第三紧凑表示,第三对象的第三紧凑表示是由第一车辆中实现的第一机器学习逻辑产生的;
从第二车辆接收第四图像中的第四对象的第四紧凑表示,第四对象的第四紧凑表示是由第二车辆中实现的第二机器学习逻辑产生的;
使用第三对象的第三紧凑表示和第四对象的第四紧凑表示来计算第三图像中的第三对象和第四图像中的第四对象之间的第一相似度得分;以及
基于第一相似度得分,确定第三图像中的第三对象是否是与第四图像中的第四对象相同的对象。
17.如权利要求13所述的系统,其中当所述指令被所述一个或多个处理器执行时,所述指令还使得所述系统:
通过下述操作来确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被充分地调整:
计算所述相似度得分和所述预定目标输出之间的反馈差;以及
确定所述相似度得分和所述预定目标输出之间的所述反馈差满足预定差阈值。
18.如权利要求13所述的系统,其中当所述指令被所述一个或多个处理器执行时,所述指令还使得所述系统:
通过下述操作来确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被充分地调整:
确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被调整的次数;以及
确定第一机器学习逻辑的所述一个或多个第一参数和第二机器学习逻辑的所述一个或多个第二参数被调整的所述次数满足预定数量阈值。
19.如权利要求11所述的系统,其中计算所述相似度得分由第三机器学习逻辑执行,并且其中当所述指令被所述一个或多个处理器执行时,所述指令还使得所述系统:
计算所述相似度得分和所述预定目标输出之间的反馈差;以及
基于所述反馈差调整第三机器学习逻辑的一个或多个第三参数。
20.如权利要求19所述的系统,其中当所述指令被所述一个或多个处理器执行时,所述指令还使得所述系统:
确定第三机器学习逻辑的所述一个或多个第三参数被充分地调整;以及
响应于确定第三机器学习逻辑的所述一个或多个第三参数被充分地调整,在计算服务器中实现第三机器学习逻辑。
21.一种用于训练机器学习模型以产生被检测对象的确定性紧凑表示的方法,所述方法包括:
使用第一机器学习逻辑,通过减少包括第一初始特征向量IFV的第一对象的第一初始表示的第一数量的特征,产生由第一位置处的第一移动对象的图像传感器捕获的第一图像中的第一对象的第一紧凑表示,第一IFV包含包括纹理、颜色、上下文和视点的形态的特征,第一紧凑表示包含包括形态的第一子集的特征的第一紧凑特征向量CFV;
使用第二机器学习逻辑,通过减少包括第二IFV的第二对象的第二初始表示的第二数量的特征,产生由与第一位置不同的第二位置处的第二移动对象的图像传感器捕获的第二图像中的第二对象的第二紧凑表示,第二IFV包含包括纹理、颜色、上下文和视点的形态的特征,第二紧凑表示包含包括形态的第一子集的特征的第二CFV,
其中,第一机器学习逻辑是神经网络的第一子网络,以及第二机器学习逻辑是所述神经网络的第二子网络,其中第一子网络与第二子网络相同;
计算反映第一对象的第一紧凑表示和第二对象的第二紧凑表示之间的相似度的水平的相似度得分;
确定相似度得分和预定目标输出之间的差;
反向传播相似度得分和预定目标输出之间的差;
调整机器学习模型的参数;
将与第一初始表示的形态的其他子集相对应的第一对象和第二对象的特征识别为在产生第一CFV和第二CFV时比第一子集的特征更加具有确定性,第一初始表示的形态的其他子集包含与第一子集不同的形态,直到相似度得分和预定目标输出之间的差满足预定差阈值为止;
计算多对图像中的每对图像的相似度得分和预定目标输出之间的差;以及
将该差反向传播到第一机器学习逻辑和第二机器学习逻辑中的一个或多个,以基于该差调整一个或多个对应参数。
CN201910026470.8A 2018-01-13 2019-01-11 用于关联来自多个车辆的观察的分布式表示学习 Active CN110046640B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/870,875 2018-01-13
US15/870,875 US10963706B2 (en) 2018-01-13 2018-01-13 Distributable representation learning for associating observations from multiple vehicles

Publications (2)

Publication Number Publication Date
CN110046640A CN110046640A (zh) 2019-07-23
CN110046640B true CN110046640B (zh) 2023-08-01

Family

ID=65019359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910026470.8A Active CN110046640B (zh) 2018-01-13 2019-01-11 用于关联来自多个车辆的观察的分布式表示学习

Country Status (4)

Country Link
US (1) US10963706B2 (zh)
EP (1) EP3511863B1 (zh)
JP (1) JP6642745B2 (zh)
CN (1) CN110046640B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10574974B2 (en) * 2014-06-27 2020-02-25 A9.Com, Inc. 3-D model generation using multiple cameras
US10984503B1 (en) * 2018-03-02 2021-04-20 Autodata Solutions, Inc. Method and system for vehicle image repositioning using machine learning
JP6986685B2 (ja) * 2018-03-12 2021-12-22 パナソニックIpマネジメント株式会社 情報処理装置
KR102091580B1 (ko) * 2019-07-09 2020-03-20 주식회사 모빌테크 이동식 도면화 시스템을 이용한 도로 표지 정보 수집 방법
EP3783525A1 (en) * 2019-08-22 2021-02-24 Argo AI GmbH Method for detecting an object in surroundings of a vehicle, corresponding system and vehicle
US20210271997A1 (en) * 2020-03-02 2021-09-02 Here Global B.V. Method and system to generate placement data of road signs
JP7396159B2 (ja) 2020-03-26 2023-12-12 富士通株式会社 画像処理装置、画像認識システム及び画像処理プログラム
JP7079511B2 (ja) 2020-04-02 2022-06-02 株式会社クリエイティブコーティングス 電子部品の製造方法
US11532096B2 (en) * 2020-05-21 2022-12-20 Verizon Connect Development Limited Systems and methods for utilizing a deep learning model to determine vehicle viewpoint estimations
US20230055477A1 (en) * 2021-08-23 2023-02-23 Soundhound, Inc. Speech-enabled augmented reality
JP7074244B1 (ja) 2021-09-14 2022-05-24 トヨタ自動車株式会社 データ収集装置、データ収集方法及びデータ収集プログラム
US11976940B2 (en) 2021-09-30 2024-05-07 Woven By Toyota, Inc. Vehicle data collection system and method of using
CN114073224B (zh) * 2021-09-30 2022-09-23 中国热带农业科学院海口实验站 一种油梨水培方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141916B1 (en) * 2012-06-29 2015-09-22 Google Inc. Using embedding functions with a deep network
US9436895B1 (en) * 2015-04-03 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Method for determining similarity of objects represented in images
CN107315988A (zh) * 2016-04-26 2017-11-03 百度(美国)有限责任公司 用于在无人驾驶车辆中呈现媒体内容的系统和方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4882289B2 (ja) 2005-06-21 2012-02-22 日産自動車株式会社 地図情報生成システム
EP1754621B1 (en) 2005-08-18 2009-10-14 Honda Research Institute Europe GmbH Driver assistance system
JP2007122247A (ja) 2005-10-26 2007-05-17 Fujifilm Corp 自動ランドマーク情報作成方法及びシステム
JP2007206099A (ja) 2006-01-30 2007-08-16 Mobile Mapping Kk 地図作成支援システム
US8212812B2 (en) 2007-05-21 2012-07-03 Siemens Corporation Active shape model for vehicle modeling and re-identification
US8213706B2 (en) 2008-04-22 2012-07-03 Honeywell International Inc. Method and system for real-time visual odometry
US8401241B2 (en) 2008-10-17 2013-03-19 Honda Motor Co., Ltd. Structure and motion with stereo using lines
US8249361B1 (en) 2010-04-22 2012-08-21 Google Inc. Interdependent learning of template map and similarity metric for object identification
JP5258859B2 (ja) 2010-09-24 2013-08-07 株式会社豊田中央研究所 走路推定装置及びプログラム
US9300947B2 (en) 2011-03-24 2016-03-29 Kodak Alaris Inc. Producing 3D images from captured 2D video
JP5617999B2 (ja) 2011-04-13 2014-11-05 トヨタ自動車株式会社 車載周辺物認識装置及びこれを用いる運転支援装置
US8442307B1 (en) 2011-05-04 2013-05-14 Google Inc. Appearance augmented 3-D point clouds for trajectory and camera localization
WO2013170882A1 (en) 2012-05-15 2013-11-21 Telefonaktiebolaget L M Ericsson (Publ) Collaborative vehicle detection of objects with a predictive distribution
EP2669845A3 (en) 2012-06-01 2014-11-19 Ricoh Company, Ltd. Target recognition system, target recognition method executed by the target recognition system, target recognition program executed on the target recognition system, and recording medium storing the target recognition program
US8805091B1 (en) 2012-08-17 2014-08-12 Google Inc. Incremental image processing pipeline for matching multiple photos based on image overlap
US20140139635A1 (en) 2012-09-17 2014-05-22 Nec Laboratories America, Inc. Real-time monocular structure from motion
US9141107B2 (en) 2013-04-10 2015-09-22 Google Inc. Mapping active and inactive construction zones for autonomous driving
CN105313782B (zh) 2014-07-28 2018-01-23 现代摩比斯株式会社 车辆行驶辅助系统及其方法
KR102623680B1 (ko) 2015-02-10 2024-01-12 모빌아이 비젼 테크놀로지스 엘티디. 자율 주행을 위한 약도
US9916508B2 (en) 2015-03-12 2018-03-13 Toyota Jidosha Kabushiki Kaisha Detecting roadway objects in real-time images
US9818239B2 (en) 2015-08-20 2017-11-14 Zendrive, Inc. Method for smartphone-based accident detection
US11307042B2 (en) 2015-09-24 2022-04-19 Allstate Insurance Company Three-dimensional risk maps
US9754490B2 (en) 2015-11-04 2017-09-05 Zoox, Inc. Software application to request and control an autonomous vehicle service
US9911198B2 (en) 2015-12-17 2018-03-06 Canon Kabushiki Kaisha Method, system and apparatus for matching moving targets between camera views
US9805276B2 (en) 2016-03-31 2017-10-31 Toyota Jidosha Kabushiki Kaisha Generating real-time driver familiarity index for fine-grained dynamic road scenes
US20180018757A1 (en) * 2016-07-13 2018-01-18 Kenji Suzuki Transforming projection data in tomography by means of machine learning
ES2941259T3 (es) * 2016-08-12 2023-05-19 Packsize Llc Sistemas y métodos para generar automáticamente metadatos para documentos de medios
US20180069937A1 (en) * 2016-09-02 2018-03-08 VeriHelp, Inc. Event correlation and association using a graph database
US10445576B2 (en) * 2016-09-23 2019-10-15 Cox Automotive, Inc. Automated vehicle recognition systems
US9979813B2 (en) 2016-10-04 2018-05-22 Allstate Solutions Private Limited Mobile device communication access and hands-free device activation
US11010615B2 (en) 2016-11-14 2021-05-18 Lyft, Inc. Rendering a situational-awareness view in an autonomous-vehicle environment
US10254758B2 (en) 2017-01-18 2019-04-09 Ford Global Technologies, Llc Object tracking by unsupervised learning
KR102404791B1 (ko) 2017-03-30 2022-06-02 삼성전자주식회사 입력 영상에 포함된 객체를 인식하는 디바이스 및 방법
US11941516B2 (en) * 2017-08-31 2024-03-26 Micron Technology, Inc. Cooperative learning neural networks and systems
US10725475B2 (en) 2018-04-09 2020-07-28 Toyota Jidosha Kabushiki Kaisha Machine learning enhanced vehicle merging
US10175340B1 (en) 2018-04-27 2019-01-08 Lyft, Inc. Switching between object detection and data transfer with a vehicle radar

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9141916B1 (en) * 2012-06-29 2015-09-22 Google Inc. Using embedding functions with a deep network
US9436895B1 (en) * 2015-04-03 2016-09-06 Mitsubishi Electric Research Laboratories, Inc. Method for determining similarity of objects represented in images
CN107315988A (zh) * 2016-04-26 2017-11-03 百度(美国)有限责任公司 用于在无人驾驶车辆中呈现媒体内容的系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Dimensionality Reduction by Learning an Invariant Mapping;Raia Hadsell等;《2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition(CVPR’06)》;20061009;第1-8页 *
Tracking People by Detection Using CNN Features;Dina Chahyati等;《Procedia Computer Science》;20171231;第167-172页 *
基于二次相似度函数学习的行人再识别;杜宇宁等;《计算机学报》;20141128;第39卷(第08期);第1639-1651页 *

Also Published As

Publication number Publication date
US20190220675A1 (en) 2019-07-18
CN110046640A (zh) 2019-07-23
EP3511863B1 (en) 2023-08-02
JP2019125369A (ja) 2019-07-25
US10963706B2 (en) 2021-03-30
JP6642745B2 (ja) 2020-02-12
EP3511863A1 (en) 2019-07-17

Similar Documents

Publication Publication Date Title
CN110046640B (zh) 用于关联来自多个车辆的观察的分布式表示学习
US10916135B2 (en) Similarity learning and association between observations of multiple connected vehicles
JP6741107B2 (ja) 交通状況のリアルタイム検出
US10867404B2 (en) Distance estimation using machine learning
CN110349405B (zh) 利用联网汽车的实时交通监视
US11593950B2 (en) System and method for movement detection
CN110364006B (zh) 机器学习增强的车辆合流
US10417816B2 (en) System and method for digital environment reconstruction
CN108372857B (zh) 自主驾驶系统的通过事件发生和情节记忆回顾进行有效情景感知
US9672446B1 (en) Object detection for an autonomous vehicle
CN114723955B (zh) 图像处理方法、装置、设备和计算机可读存储介质
Jebamikyous et al. Autonomous vehicles perception (avp) using deep learning: Modeling, assessment, and challenges
CN110796692A (zh) 用于同时定位与建图的端到端深度生成模型
CN114502979A (zh) 感知系统
CN111771207A (zh) 增强的车辆跟踪
US20210389133A1 (en) Systems and methods for deriving path-prior data using collected trajectories
US20210325901A1 (en) Methods and systems for automated driving system monitoring and management
Wei et al. Survey of connected automated vehicle perception mode: from autonomy to interaction
JP2024019629A (ja) 予測装置、予測方法、プログラムおよび車両制御システム
WO2023053718A1 (ja) 情報処理装置及び情報処理方法、学習装置及び学習方法、並びにコンピュータプログラム
WO2021230314A1 (ja) 計測システム、車両、計測装置、計測プログラム及び計測方法
US20240161398A1 (en) Late-to-early temporal fusion for point clouds
CN118053062A (zh) 使用多个神经网络执行电子设备或车辆的感知任务的方法
CN116630921A (zh) 数据筛选方法、装置、系统、电子设备及存储介质
Mahna Improving Steering Ability of an Autopilot in a Fully Autonomous Car

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant