CN115830486A - 使用迁移学习训练对象检测模型 - Google Patents

使用迁移学习训练对象检测模型 Download PDF

Info

Publication number
CN115830486A
CN115830486A CN202210854819.9A CN202210854819A CN115830486A CN 115830486 A CN115830486 A CN 115830486A CN 202210854819 A CN202210854819 A CN 202210854819A CN 115830486 A CN115830486 A CN 115830486A
Authority
CN
China
Prior art keywords
data
training
image
machine learning
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210854819.9A
Other languages
English (en)
Inventor
Y·王
F·阿格达西
P·史利南
S·拉达克里希南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of CN115830486A publication Critical patent/CN115830486A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

公开了使用迁移学习训练对象检测模型,具体公开了使用迁移学习训练对象检测模型的装置、系统和技术。

Description

使用迁移学习训练对象检测模型
技术领域
至少一个实施例涉及用于执行和促进使用迁移学习训练对象检测模型的操作的处理资源。例如,至少一个实施例涉及处理器或计算系统,处理器或计算系统用于提供并使一个或更多个计算系统能够根据本文所述的各种新技术使用迁移学习训练对象检测模型,以检测在一个或更多个图像中描绘的目标类别的对象。
背景技术
机器学习经常应用于图像处理,例如识别图像中描绘的对象。对象识别可用于医学成像、科学研究、自动驾驶系统、机器人自动化、安全应用、执法实践和许多其他环境。机器学习包括使用训练图像和其他训练数据训练计算系统,以识别图像中可能有助于对象检测的模式。训练可以是被监督的或不被监督的。机器学习模型可以使用各种计算算法,例如决策树算法(或其他基于规则的算法)、人工神经网络等。在推理阶段,将新图像输入到经过训练的机器学习模型中,并且可以使用训练期间识别的模式和特征来识别各种感兴趣的目标对象(例如,道路图像中的车辆)。
附图说明
将参照附图描述根据本公开的各种实施例,其中:
图1是根据至少一个实施例的示例系统架构的框图;
图2是根据至少一个实施例的示例训练数据生成器和示例训练引擎的框图;
图3是根据至少一个实施例的示例对象检测引擎的框图;
图4A描绘了根据至少一个实施例的示例经训练的对象检测模型;
图4B描绘了根据至少一个实施例的经更新以移除掩模头(mask head)的示例训练对象检测模型;
图5A示出了根据至少一个实施例的训练机器学习模型以检测目标类别的对象的示例方法的流程图;
图5B示出了根据至少一个实施例的使用经训练以检测目标类别的对象的机器学习模型的示例方法的流程图;
图6示出了根据至少一个实施例的训练机器学习模型以及更新经训练的机器学习模型以移除掩模头的示例方法的流程图;
图7A示出了根据至少一个实施例的推理和/或训练逻辑;
图7B示出了根据至少一个实施例的推理和/或训练逻辑;
图8示出了根据至少一个实施例的示例数据中心系统;
图9示出了根据至少一个实施例的计算机系统;
图10示出了根据至少一个实施例的计算机系统;
图11示出了根据一个或更多个实施例的图形处理器的至少部分;
图12示出了根据一个或更多个实施例的图形处理器的至少部分;
图13是根据至少一个实施例的高级计算管线的示例数据流程图;
图14是根据至少一个实施例的用于在高级计算管线中训练、适配、实例化和部署机器学习模型的示例系统的系统图;以及
图15A和图15B示出了根据至少一个实施例的用于训练机器学习模型的过程的数据流程图,以及用于利用预先训练的注释模型来增强注释工具的客户端-服务器架构;
图16A示出了根据至少一个实施例的自动驾驶车辆的示例;
图16B示出了根据至少一个实施例的用于图16A的自动驾驶车辆的相机位置和视野的示例;
图16C示出了根据至少一个实施例的图16A的自动驾驶车辆的示例系统架构;以及
图16D示出了根据至少一个实施例的用于在基于云的服务器与图16A的自动驾驶车辆之间通信的系统。
具体实施方式
对描绘各种环境的图像中包含的对象进行准确检测和分类是一项具有挑战性的任务。在经过训练以检测给定输入图像中包含的对象的机器学习模型方面已经取得了进展。但是,机器学习模型提供的对象检测和分类的准确度取决于用于训练模型的数据。在一个示例中,智能监控系统可以使用机器学习模型在由摄像机(例如,监控摄像机、自动驾驶车辆等)捕获的图片中检测目标类别(例如,“人类”或“个人”类别)中的对象。除了对在给定输入图像中描绘的对象进行检测和分类之外,机器学习模型还可以经训练以确定与检测到的对象相关联的一个或更多个特征。根据前面的示例,被智能监控系统用于检测目标类别的对象的机器学习模型也可以经训练以预测在给定输入图像中的检测到的对象的位置(例如,相对于给定输入图像中描述的其他对象)。
为了训练模型以高准确度(例如,95%或更高)检测目标类别的对象,可以基于大量(例如,数千,或在某些情况下为数百万)图像(在此称为训练图像)生成训练数据。在一些系统中,用于训练模型的数据(本文称为训练数据)可以包括每个训练图像中的包括对象(例如,包围盒)的区域的指示、该区域内的对象是否对应于目标类别的指示、以及指示位置(例如,姿势、布局或方向等)或形状的附加数据(例如,掩模数据)。适合被用于训练模型以对目标类别的对象进行检测和分类的大量图像的采集可能需要大量时间(例如,数月或在某些情况下为数年)。此外,准确地确定每一个图像的标记数据(例如,每个图像中的包括对象的区域、与对象相关联的类别以及与对象相关联的掩模数据)可能需要更多的时间量。在某些系统中,仅仅依靠高度可信的实体以准确确定并提供训练图像的标记数据。例如,在某些系统中,依靠人类来提供区域、类别和每一个训练图像中描绘的对象的附加数据的指示。然而,在这样的系统中,获取每一个训练图像的标记数据可能过于昂贵并且可能需要大量时间,因为提供标记数据的高度可信实体必须审查数千甚至数百万的图像,并确定和指定每一个图像的标记数据。
在一些情况下,可以基于较少数量的训练图像(例如,数十或数百)和/或基于非高度可信实体做出的判定来生成标记数据。在这样的系统中,机器学习模型最初可以被训练以低准确度(例如,小于95%)对包含在给定输入图像中的对象进行检测和分类。在部署期间,可以基于反馈来重新训练模型,该反馈是基于模型的一个或更多个输出确定的数据(例如,给定输入图像中的包括检测到的对象的区域和/或在给定输入图像中为检测到的对象的确定的类别等)提供的。最终,该模型可以在被部署以高精度对对象进行检测和分类时被重新训练。但是,重新训练模型以高精度对对象进行检测和分类可能需要更多的时间和计算资源,在某些情况下,因为训练模型会消耗时间和计算资源,并且在推理阶段重新训练模型会消耗额外的时间和资源。
本公开的实施例通过提供迁移学习技术来训练对象检测模型以在给定的输入图像中检测与目标类别相关联的对象,来解决上述的和其他的缺陷。第一机器学习模型(也称为教师模型)可以经训练(例如,通过训练数据生成器和/或训练引擎)以检测再给定输入图像中描绘的一个或更多个对象。在一些实施例中,给定输入图像中描绘的对象可以与多个(例如,数十、数百等)不同类别中的至少一者对应。可以使用第一训练数据来训练教师模型,该第一训练数据可以包括训练输入和目标输出,所述训练输入包括一个或更多个图像,所述目标输出包括诸如与在图像集合中的每一者中描绘的每一个对象相关联的数据的标记数据。在一些实施例中,与每一个对象相关联的数据可以包括一个或更多个图像中的包括对象的区域的指示、与对象相关联的类别的(即,多个不同类别的)指示,和/或与对象相关联的掩模数据。掩模数据是指指示图像的一个或更多个像素(或像素组)是否与某个对象对应的数据(例如,二维(2D)位阵列)。在一些实施例中,图像和与在图像中描绘的对象相关联的数据可以从公共可用的存储库或数据库中获取,存储库或数据库包括可用于训练对象检测机器学习模型的大量不同图像和对象数据。可以使用第一训练数据来训练教师模型以检测在给定的输入图像集合中描绘的一个或更多个对象,并且对于每一个检测到的对象,预测与相应的检测到的对象关联的至少掩模数据。在一些附加实施例中,教师模型可以被训练以进一步预测给定输入图像集合的图像中的区域,该区域包括所描绘的对象(例如,包围盒)和/或与检测到的对象相对应的类别(即,多个不同的类别中的)。
一旦使用第一训练数据训练了教师模型,经训练的教师模型可以被用于生成第二训练数据,用于训练第二机器学习模型(称为学生模型)以检测在给定输入图像中描绘的目标类别的对象。图像集合可以被提供作为对教师模型的输入。在一些实施例中,可以(例如,从特定领域或特定组织的储存库或数据库)选择图像集合中的每一个以用于生成用于训练学生模型的第二训练数据。可以基于教师模型的一个或更多个获取的输出来确定与在被提供作为对教师模型的输入的图像集合中的每一者中检测到的对象相关联的对象数据。在一些实施例中,对象数据可以包括与每一个检测到的对象相关联的掩模数据。在一些另外的实施例中,对于每一个检测到的对象,对象数据还可以包括指示包括检测到的对象的图像区域的数据和/或与检测到的对象相关联的类别的指示。
包括教师模型的一个或更多个输出的第二训练数据可用于训练与目标对象类别相关联的学生模型。特别地,在一些实施例中,第二训练数据可以包括训练输入和目标输出,训练输入包括图像集合,目标输出包括与在图像集合中检测到的每一个对象相关联的掩模数据。在一些实施例中,训练数据生成器可以使用所获取的教师模型的输出来获取与每一个对象相关联的掩模数据。第二训练数据的目标输出还可以包括在图像集合中检测到的每一个对象相关联的类别是否对应于目标类别的指示。例如,如上所述,教师模型的一个或更多个输出可以包括与包含在第二训练数据中的给定输入图像中检测到的对象相关联的类别的指示。在一些实施例中,训练数据生成器可以基于获取的教师模型的输出来确定与每一个检测到的对象相关联的类别是否与目标类别对应。第二训练数据的目标输出还可包括与在图像集合中检测到的每一个对象相关联的真值数据。真值数据可以指示包括相应的检测到的对象的图像的区域(例如,包围盒)。在一些实施例中,训练数据生成器可以从数据库获取真值数据,该数据库包括与图像集合中的图像相关联的一个或更多个包围盒的指示(例如,用于代替教师模型提供的包围盒数据以获得更高的准确度)。在一些实施例中,数据库可以是包括图像集合的特定领域或特定组织的数据库。与图像相关联的包围盒中的每一者可以由被认可的包围盒权威实体或计算平台的用户提供。
第二训练数据可用于训练学生模型以针对给定输入图像预测与在给定输入图像中检测到的对象相关联的包围盒和与在给定输入图像中检测到的对象相关联的掩模数据。学生模型还可以经训练以预测与在给定输入图像中检测到的对象相关联的类别是否与目标类别对应。如上所述,教师模型可以经训练以预测在给定输入图像中检测到的对象的多个类别。由于学生模型被训练来预测特定类别的对象(即目标类别)而不是多个对象类别,因此学生模型可以提供比教师模型更准确的预测。
在某些情况下,经过训练的学生模型可以是多头(multi-head)机器学习模型。例如,经过训练的学生模型可以包括用于预测与在给定图像中检测到的对象相关联的包围盒的第一头、用于预测与检测到的对象相关联的类别的第二头、以及用于预测与在给定图像中检测到的对象相关联的掩模数据的第三头。在某些情况下,对象检测引擎(例如,计算设备的、云计算平台的等)可以识别学生模型中的对应于预测与检测到的对象相关联的掩模数据(称为掩模头),并可以更新学生模型以移除识别的头。在从学生模型中移除掩模头后,更新的学生模型可用于预测与在给定输入图像中检测到的对象相关联的包围盒和类别。通过在开始时将掩模头包括在学生模型中,更新的学生模型的对象检测和分类预测可以比使用不包括与在提供的训练图像中描绘的对象相关联的掩模数据的训练数据进行训练的对象检测模型更准确。此外,在从学生模型中移除掩模头之后,可以显著提高(例如,10%-20%)与学生模型相关联的推理速度,并且可以显著减小与学生模式相关联的模型尺寸。因此,在一些情况下,更新的学生模型可以通过网络传输到边缘设备和/或一个或更多个端点设备(例如,智能监控摄像机、自动驾驶车辆)以用于对象检测。
本公开的各方面和实施例提供了一种使用迁移学习来训练对象检测模型的技术。使用描绘各种类别的对象的大量图像(即,来自公开可用的存储库或数据库),训练数据可用于训练教师模型以进行具有足够准确度的预测。图像数据可以从特定领域或特定组织的存储库或数据库中获取,并用作教师模型的输入以获取预测,该预测可用于训练学生模型以提高特定、针对性的或具体的图像类别的预测准确性。因此,学生模型可以被训练以做出高(更高)准确度(例如,95%或更高)的预测,而无需从专家或其他被认可的权威机构处获取用于训练的标记数据。此外,本公开的实施例提供了能够提供要在边缘设备和/或端点设备(例如,智能监控摄像机、自动驾驶车辆等)处使用的对象检测模型的能力,其中对象检测模型经过训练,以高准确度检测目标类别的对象,并且还满足与边缘设备和/或端点设备相关的尺寸限制和推理速度条件。
系统架构
图1是根据至少一个实施例的示例系统架构100的框图。系统架构100(在本文中也称为“系统”)包括计算设备102、数据存储(data store)112A-112N(统称为数据存储112)和服务器机器130、服务器机器140和/或服务器机器150。在各种实现中,网络110可以包括公共网络(例如,因特网)、专用网络(例如,局域网(LAN)或广域网(WAN))、有线网络(例如,以太网)、无线网络(例如,802.11网络或Wi-Fi网络)、蜂窝网络(例如,长期演进(LTE)网络)、路由器、集线器、交换机、服务器计算机和/或它们的组合。
计算设备102可以是台式计算机、膝上型计算机、智能手机、平板计算机、服务器或能够执行本文描述的技术的任何合适的计算设备。在一些实施例中,计算设备102可以是云计算平台的计算设备。例如,计算设备102可以是云计算平台的服务器机器或者可以是云计算平台的服务器机器的组件。在这样的实施例中,计算设备102可以经由网络110耦合到一个或更多个边缘设备(未示出)。边缘设备指的是能够在两个网络的边界处的计算设备之间进行通信的计算设备。例如,边缘设备可以通过网络110连接到计算设备102、数据存储112A-112N、服务器机器130、服务器机器140和/或服务器机器150,并且可以经由另一网络连接到一个或多个端点设备(未示出)。在这样的示例中,边缘设备可以实现计算设备102、数据存储112A-112N、服务器机器130、服务器机器140和/或服务器机器150与一个或更多个客户端设备之间的通信。在其他或类似实施例中,计算设备102可以是边缘设备或可以是边缘设备的组件。例如,计算设备102可以促进经由网络连接到计算设备102的数据存储112A-112N、服务器机器130、服务器机器140和/或服务器机器150与经由另一个网络连接到计算设备102的一个或多个客户端设备之间的通信。
在其他或类似的实施例中,计算设备102可以是端点设备,或可以是端点设备的组件。例如,计算设备102可以是设备,或可以是设备的组件,例如但不限于:电视、智能电话、蜂窝电话、个人数字助理(PDA)、便携式媒体播放器、上网本、膝上型计算机、电子书阅读器、平板电脑、台式电脑、机顶盒、游戏机、自动驾驶车辆、监控设备等。在这样的实施例中,计算设备102可以经由网络110连接到数据存储112A-112N、服务器机器130、服务器机器140和/或服务器机器150。在其他或类似的实施例中,计算设备102可以经由网络连接到系统100的边缘设备(未示出),并且系统100的边缘设备可以经由网络110连接到数据存储112A-N、服务器机器130、服务器机器140和/或服务器机器150。
计算设备102可以包括存储器104。存储器104可以包括被配置为存储数据的一个或更多个易失性和/或非易失性存储设备。在一些实施例中,计算设备102可以包括对象检测引擎151。对象检测引擎151可以被配置为检测在图像(例如,图像106)中描绘的一个或更多个对象,并且在一些实施例中,获取与一个或更多个检测到的对象(例如,对象数据108)相关的数据。例如,对象检测引擎151可以被配置为提供图像106作为对经过训练的对象检测模型(例如,模型160)的输入,并且基于经过训练的对象检测模型的一个或更多个输出来确定与图像106相关联的对象数据108。应当注意,尽管根据对象检测模型讨论了本公开的实施方式,但实施方式也可以广泛地应用于任何类型的机器学习模型。本文提供了关于对象检测引擎151和对象检测模型的进一步细节。
如上所述,在一些实施例中,计算设备102可以是端点设备或可以是端点设备的组件。在这样的实施例中,计算设备102可以包括能生成音频和/或视觉数据的视听组件。在一些实施例中,视听组件可以包括图像捕获设备(例如,摄像机)以捕获和生成图像106,并生成与生成的图像106相关联的图像和/或视频数据。在其他或类似实施例中,计算设备102可以是边缘设备或者可以是边缘设备的组件,如上所述。在这样的实施例中,计算设备102可以从包括视听组件的端点设备接收图像106(即,经由网络110或另外的网络)。同样如上所述,在一些实施例中,计算设备102可以是服务器机器(例如,用于云计算平台)或者可以是服务器机器的组件。在这样的实施例中,计算设备102可以从包括视听组件的端点设备和/或连接到端点设备(即,经由网络110或另外的网络)的边缘设备接收图像106。
在一些实施方式中,数据存储112A-112N是是一种持久存储器,其能够存储内容项(例如,图像)和与存储的内容项相关联的数据(例如,对象数据)以及用于标记、组织和索引内容项和/或对象数据的数据结构。数据存储112可以由一个或更多个存储设备(例如主存储器、基于磁或光存储的磁盘、磁带或硬盘驱动器、NAS、SAN等)托管。在一些实现方式中,数据存储112可以是网络连接的文件服务器,而在其他实施例中,数据存储112可以是一些其他类型的持久性存储,例如面向对象的数据库、关系数据库等,其可以是由计算设备102或通过网络110耦合到计算设备102的一个或更多个不同机器托管。
如图1所示,在一些实施例中,系统100可以包括多个数据存储112。在一些实施例中,第一数据存储(例如,数据存储112A)可以被配置为存储仅可由计算设备102、服务器机器130、服务器机器140和/或服务器机器150访问的数据。例如,数据存储112A可以是或包括特定领域的或特定组织的储存库或数据库。在一些实施例中,计算设备102、服务器机器130、服务器机器140和/或服务器机器150可能仅能够经由网络110访问数据存储112A,网络110可以使专用网络。在其他或类似的实施例中,存储在数据存储112A处的数据可以被加密,并且可以被计算设备102、服务器机器130、服务器机器140和/或服务器机器150通过加密机制(例如,私有加密密钥等)访问。在附加或替代实施例中,第二数据存储(例如,数据存储112B)可以被配置为存储可由数据存储112B经由任何网络访问的任何设备访问的数据。例如,数据存储112B可以是或包括可公开访问的储存库或数据库。在一些实施例中,数据存储112B可以是任何设备可通过公共网络访问的可公开访问的数据存储。在附加或替代实施例中,系统100可以包括数据存储112,该数据存储112被配置为存储仅可由计算设备102、服务器机器130、服务器机器140和/或服务器机器150访问的第一数据(例如,通过专用网络110,通过加密机制等)以及可被经由另外的网络(例如,公共网络)连接到数据存储的设备访问的第二数据。在又一附加或替代实施例中,系统100可仅包括单个数据存储112,其被配置为存储仅可由计算设备102、服务器机器130、服务器机器140和/或服务器机器150访问的数据(例如,通过专用网络110,通过加密机制等)。在这样的实施例中,数据存储112可以存储从可公开访问的数据存储中检索(例如,由计算设备102、训练数据生成器131、训练引擎141等)的数据。
服务器机器130可以包括能够生成训练数据(例如,训练输入集合和目标输出集合)以训练ML模型160A-160N的训练数据生成器131。训练数据可以是基于存储在是或包括特定领域或特定组织的存储库或数据库(例如,数据存储112A等)或者数据存储112的专用部分的数据存储处的图像,和/或存储在是或包括可公开访问的存储库或数据库(例如,数据存储112B等)的数据存储或数据存储112的可公开访问的部分的数据存储处的图像。例如,训练数据生成器131可以基于存储在数据存储112B、数据存储112的可公开访问部分或从可公开访问的数据存储(未示出)检索的图像来生成用于教师机器学习模型(例如,教师对象检测模型)的训练数据。在另一个示例中,训练数据生成器131可以基于存储在数据存储112A、数据存储112的专用部分或来自单个专用数据存储112的图像,并基于教师对象检测模型的一个或多个输出生成用于学生机器学习模型(例如,学生对象检测模型)的训练数据。关于生成用于教师对象检测模型和学生对象检测模型的训练数据的进一步细节将针对图2提供。
服务器机器140可以包括训练引擎141。训练引擎141可以使用来自训练数据生成器131的训练数据来训练机器学习模型160A-160N。机器学习模型160A-160N可以指由训练引擎141使用包括训练输入和对应目标输出(相应训练输入的正确应答)的训练数据创建的模型工件。训练引擎141可以在训练数据中找到将训练输入映射到目标输出(待被预测的应答)的模式,并提供捕捉这些模式的机器学习模型160A-160N。机器学习模型160A-160N可以由例如单级线性或非线性操作(例如,支持向量机(SVM)或可以是深度网络,即由多个非线性操作组成的机器学习模型)组成。深度网络的一个例子是具有一个或更多个隐藏层的神经网络,并且可以通过例如根据反向传播学习算法等调整神经网络的权重来训练这种机器学习模型。为方便起见,本公开的其余部分将把该实现方式称为神经网络,尽管一些实现方式可能使用SVM或其他类型的学习机来代替神经网络,或作为神经网络的补充。在一些实施例中,训练数据可以由服务器机器130托管的训练数据生成器131获取。例如,训练引擎141可以从训练集生成器131获得用于训练教师对象检测模型的第一训练数据和用于训练学生对象检测模型的第二训练数据。关于训练对象检测模型(例如,模型160A-N)的进一步细节针对图2提供。
服务器150可以包括对象检测引擎151,对象检测引擎151提供一个或多个图像作为经训练的机器学习模型160A-160N的输入,以获得一个或多个输出。在一些实施例中,一个或更多个图像存储在数据存储112或数据存储112的专有部分,如上所述。例如,经过训练的机器学习模型160A可以是经过训练的教师对象检测模型。在这样的示例中,对象检测引擎151可以提供一个或更多个图像作为经过训练的机器学习模型160A的输入以获取一个或更多个第一输出。根据本文提供的实施例,训练数据生成器131可以使用机器学习模型160A的一个或更多个第一输出来生成训练数据以训练学生对象检测模型。在另一示例中,训练的机器学习模型160B可以是训练的学生对象检测模型。在这样的示例中,对象检测引擎151可以将由计算设备102获取的一个或更多个图像106提供作为经过训练的机器学习模型160B的输入以获取一个或更多个第二输出。对象检测引擎151可以使用一个或更多个第二输出来检测一个或更多个图像106中描绘的对象并确定与一个或更多个检测到的对象相关联的对象数据108。关于对象检测引擎151的进一步细节针对图3提供。
在一些实施方式中,计算设备102、数据存储112和/或服务器机器130-150可以是一个或更多个计算设备(例如机架式服务器、路由器计算机、服务器计算机、个人计算机、大型计算机、膝上型计算机、平板计算机、台式计算机等)、数据存储(例如,硬盘、存储器、数据库)、网络、软件组件和/或可用于基于图像(例如,图像106)的对象检测的硬件组件。应当注意,在一些其他实现中,计算设备102、服务器机器130、140和/或150的功能可以更少数量的机器提供。例如,在一些实现中,服务器机器130和140可以被集成到单个机器中,而在其他实现中,服务器机器130、140和150可以被集成到多个机器中。此外,在一些实施方式中,服务器机器130、140和150中的一个或更多个可以集成到计算设备102中。大体上,在实施方式中描述为由计算设备102和/或服务器机器130、140、150执行的功能,如果合适,还可以在一个或更多个边缘设备(未示出)和/或客户端设备(未示出)上执行。此外,归属于特定组件的功能可以由一起操作的不同或更多个组件执行。计算设备102和/或服务器机器130、140、150也可以作为通过适当的应用程序编程接口提供给其他系统或设备的服务来被访问。
图2是根据至少一个实施例的示例训练数据生成器131和示例训练引擎141的框图。训练数据生成器131可以包括教师模型训练数据生成器210和学生模型训练数据生成器220。训练引擎141可以包括教师模型训练模块230和学生模型训练模块232。如前所述,训练数据生成器131可以驻留在服务器机器上,例如图1的服务器机器130,该服务器机器是计算设备102的一部分或与计算设备102分离。训练引擎141可以驻留在服务器机器130或作为计算设备102的一部分或独立于计算设备102的另外的服务器机器,例如服务器机器140。
在一些实施例中,教师模型训练数据生成器210可以被配置为生成用于训练教师对象检测模型(例如,模型160A)的训练数据,并且学生模型训练数据生成器220可以被配置为生成用于训练学生对象检测模型(例如,模型160B)的训练数据。如图2所示,训练数据生成器131可以连接到数据存储250。数据存储250可以被配置为存储由教师模型训练数据生成器210用来生成用于训练教师对象检测模型的训练数据的数据。例如,数据存储250可以被配置为存储一个或更多个训练图像252,以及针对每一个训练图像252的训练图像感兴趣区域(ROI)数据254、训练图像掩模数据256和/或与训练图像252相关联的训练图像对象数据258。在一些实施例中,每一个训练图像252可以描绘与多个不同对象类别集合中的具体类别相关联的对象。在说明性示例中,训练图像252可以描绘与人类类别对应的第一对象和与动物类别(例如,狗类别)对应的第二对象。
训练图像ROI数据254可以指示描绘相应对象的相应训练图像252的每一个区域。在一些实施例中,训练图像ROI数据254可以与指示描绘相应对象的训练图像252的区域的包围盒或另一边界形状(例如,球形、椭圆形、圆柱形等)对应。根据前面的示例,与示例训练图像252相关联的训练图像ROI数据254可以包括指示训练图像252的描绘第一对象的第一区域的第一包围盒以及指示训练图像252的描绘第二对象的第二区域的第二包围盒。
训练图像掩模数据256可以指指示用于相应训练图像252的一个或更多个像素(或像素组)是否具体对象对应的数据(例如,二维(2D)位阵列)。根据前面的示例,与示例训练图像252相关联的训练图像掩模数据256可以包括与第一对象对应的第一像素组的指示和与第二对象对应的第二像素组的指示。
训练图像对象数据258可以指指示与在相应训练图像252中描绘的每一个对象相关联的一个或更多个特征的数据。在一些实施例中,训练图像对象数据258可以包括指示与描绘的对象相关联的一个类别(即,多个类别中的)的数据。例如,与示例训练图像252相关联的训练图像对象数据258可以包括指示训练图像252中描绘的第一对象与第一类别(例如,人类类别)相关联以及训练图像252中描绘的第二对象与第二类别(例如,动物类别)相关联的数据。在附加或替代实施例中,训练图像对象数据258可以包括指示与每一个描绘的对象相关联的其他特征的数据,例如对象的位置(例如,方向等)或形状。
在一些实施例中,训练图像252可包括在可用于训练对象检测模型的图像集中。例如,训练图像252可以包括在可从可公开访问的数据存储(例如,数据存储112B)或数据存储的可公开访问的部分(例如,数据存储112)检索的可公开访问的图像集中,并用于训练对象检测模型。在一些实施例中,图像集中的每一者都可以与图像数据相关联,图像数据也可以被包括在可公开访问的数据存储或数据存储的可公开访问的部分中。在一些实施例中,图像集中的每一者以及与图像集中的每一者相关联的图像数据可以由对象检测平台的一个或更多个用户提供。例如,对象检测平台的用户可以提供(即,通过与用户相关联的相应客户端设备)描绘一个或更多个对象的图像。用户还可以提供(即,通过相应客户端设备的图形用户界面)与在所提供的图像中描绘的每一个对象相关联的ROI数据、掩模数据和对象数据的指示。在另一个示例中,对象检测平台的第一用户可以提供(即,通过与第一用户相关联的第一客户端设备)描绘一个或更多个对象的图像,并且第二用户可以提供(即,通过与第二用户关联的第二客户端设备的图形用户界面)与第一用户提供的图像中描绘的每一个对象相关联的ROI数据、掩模数据和对象数据的指示。在一些实施例中,根据本文提供的实施例,教师模型训练数据生成器210的数据检索模块212可以从可公开访问的数据存储或数据存储的可公开访问的部分中检索训练图像252,以用于训练教师对象检测模型。
在一些实施例中,数据存储250可以对应于针对图1所描述的可公开访问的数据存储,例如数据存储112B。在其他或类似的实施例中,数据存储250可以对应于数据存储112A的可公开访问的部分。数据检索模块212可以从数据存储250(即,从数据存储112A或数据存储112B)中检索训练图像252、训练图像ROI数据254、训练图像掩模数据256和/或训练图像对象数据258。在其他或类似实施例中,数据存储250可以与只能通过专用网络和/或通过加密机制(例如,数据存储112A)访问的数据存储112对应。在这样的实施例中,数据检索模块212可以从公共可访问的数据存储(未示出)以及在这样的实施例中的存储库中检索训练图像252、训练图像ROI数据254、训练图像掩模数据256和/或训练图像对象数据258,数据检索模块212可以在数据存储250处检索训练图像252、训练图像ROI数据254、训练图像掩模数据256和/或训练图像对象数据258。
训练数据生成器模块214可以响应数据检索模块212检索训练图像252、训练图像ROI数据254、训练图像掩模数据256和/或训练图像对象数据258,而生成用于训练教师对象检测模型的训练数据,在一些实施例中,训练数据可以包括训练输入集合和目标输出集合。如上所述,该训练输入集合可以包括由数据检索模块212检索的一个或更多个训练图像252。在一些实施例中,训练数据生成器模块214可以将一个或更多个图像变换应用到由数据检索模块212检索到的一个或更多个训练图像252。例如,由数据检索模块212检索到的训练图像252可以与具体量的图像噪声相关联。训练数据生成器模块214可以将一个或更多个图像变换应用到检索到的训练图像252以生成修改的训练图像。修改的训练图像可以包括相比于检索到的训练图像252的不同量的图像噪声(例如,更少量的图像噪声)。根据上述实施例,训练数据生成器模块214可以包括在训练图像集合252中的修改的训练图像。该目标输出集合可以包括训练图像ROI数据254、训练图像掩模数据256和/或训练图像对象数据258。响应于生成所述训练输入集合和所述目标输出集合,训练数据生成器模块214可以生成训练输入集合与目标输出集合之间的映射以生成教师模型训练数据272。
在一些实施例中,教师模型训练数据生成器210可以将教师模型训练数据272存储在数据存储270处。数据存储270可以是或包括特定领域或特定组织的存储库或数据库(例如,数据存储112A)或数据存库112的可被计算设备经由专用网络和/或通过加密机制访问的专用部分的数据存储。根据关于图1描述的实施例,训练数据生成器131和/或训练引擎141可以访问数据存储270。在附加或替代的实施例中,教师模型训练数据生成器210可以将生成的映射提供给训练引擎141的教师模型训练模块230以训练教师对象检测模型。
响应于获取训练数据272(即,从教师模型训练数据生成器210或从数据存储270),教师模型训练引擎230可以使用训练数据272来训练教师对象检测模型。在一些实施例中,教师对象检测模型可以经训练以针对给定输入图像检测给定输入图像中描绘的多个类别的一个或更多个对象,并针对每个检测到的对象预测与检测到的对象相关联的掩模数据和/或ROI数据。在一些实施例中,还可以训练教师对象检测模型以针对在给定输入图像中检测到的每一个对象预测对象数据(例如,对象类别、与对象相关联的其他特征数据等)。在其他或类似实施例中,可以训练教师对象检测模型以针对给定输入图像检测给定输入图像中描绘的单一类别的一个或更多个对象,并针对每一个检测到的对象预测掩模数据、ROI数据、对象类别数据和/或与检测到的对象相关联的其他对象特征数据。在一些实施例中,响应于训练教师对象检测模型,训练引擎141可以将经训练的教师对象检测模型存储在数据存储270中以作为教师模型274。根据本文提供的实施例,学生模型训练数据生成器220可以使用经训练的教师模型274来生成训练数据以训练学生对象检测模型。
数据存储270可以存储一个或更多个训练图像276,训练图像276将用于训练学生对象检测模型以检测与目标类别相关联的对象。例如,目标类别可以对应于人类类别。在这样的示例中,数据存储270处的一个或更多个训练图像276可以描绘与人类类别相关联的一个或更多个对象。在一些实施例中,在相应的训练图像276中描绘的每一个对象可以与不同的特征(例如,不同环境中的人、处于不同位置的人等)相关联。因此,一个或更多个训练图像276可用于训练学生对象检测模型以检测与人类类别相关联并且还与不同特征相关联的对象。在另一示例中,在数据存储270中的一个或更多个训练图像276可以描绘不与人类类别相关联但对应于与人类类别相关联的对象相似的一个或更多个特征的一个或更多个对象(例如,在训练图像276中描绘对象与与人类类别的对象相关联的相似位置或环境相关联)。因此,一个或更多个训练图像276可用于训练学生对象检测模型以检测与人类类别相关联的一个或更多个特征对应但不与人类类别相关联的对象。
教师推理模块222可以从数据存储270中检索一个或更多个训练图像276,并提供一个或更多个训练图像276作为经过训练的教师模型274的输入。教师输出模块224可以获取经训练的教师模型274的一个或更多个输出,并且可以从一个或更多个获取的输出中确定与每一个输入训练图像276相关联的对象数据。在一些实施例中,针对相应的训练图像274的确定的对象数据可以包括输出图像ROI数据278、输出图像掩模数据280和/或输出图像特征数据282。与相应训练图像276相关联的输出图像ROI数据278可以是相应训练图像276的描绘具体对象的区域。输出图像掩模数据280可以指示与具体对象相关联的掩模数据。输出图像特征数据282可以指示与具体对象相关联的一个或更多个特征,例如对象的类别、对象的位置、对象的形状等。在一些实施例中,教师输出模块224可以将输出图像ROI数据278、输出图像掩模数据280和/或输出图像特征数据282存储在数据存储270中。
训练数据生成器模块226可以生成用于训练学生对象检测模型以针对给定输入图像检测与目标类别相关联的一个或更多个对象的训练数据。在一些实施例中,训练数据可以包括训练输入集合和目标输出集合。如上所述,该训练输入集合可以包括被提供作为经训练的教师模型274的输入的一个或更多个训练图像276。该目标输出集合可以至少包括从经训练的教师模型274的一个或更多个输出确定的输出图像掩模数据280。在一些实施例中,该目标输出集合可以包括输出图像掩模数据280和输出图像特征数据282。
在一些实施例中,训练数据生成器模块226可以基于从经训练的教师模型274的一个或更多个输出确定的输出图像特征数据282生成更新的图像特征数据。例如,被提供作为训练教师模型274的输入的训练图像276可以描绘与第一类别(例如,人类类别等)相关联的第一对象和与第二类别(例如,动物类别等)相关联的第二对象。教师输出模块224可以从经训练的教师模型274获取指示在给定输入图像中检测到的第一和第二对象的一个或更多个输出以及指示第一对象与第一类别相关联且第二对象与第二类别相关联的输出图像特征数据282。训练数据生成器模块226可以确定第一类别和/或第二类别是否与目标类别对应,并且可以基于该确定生成更新的图像对象数据。例如,如果目标类别是人类类别,则训练数据生成器模块226可以确定第一类别与目标类别对应并生成更新的图像特征数据以指示第一对象与目标类别对应。训练数据生成器模块226还可以确定第二类别不与目标类别对应并且可以生成更新的图像特征数据以指示第二对象不与目标类别对应。在一些实施例中,训练数据生成器模块226可以在目标输出集合中包括更新的对象数据以代替输出图像特征数据282。
在一些实施例中,目标输出集合可以另外包括图像真值数据284。图像真值数据284可以指示相应训练图像276的区域,该区域包括由经训练的教师模型274检测到的对象。例如,真值数据284可以包括与训练图像276相关联的一个或更多个包围盒的指示,训练图像276是从被认可的包围盒权威实体或计算设备或对象检测平台的用户获取的。在一些实施例中,在提供一个或更多个训练图像276作为经过训练的教师模型274的输入之前或之后,从被认可的包围盒权威实体或用户获取基本实况数据284。在说明性示例中,图像基本实况数据284可以与输出图像ROI数据278对应,除非图像真值数据284的包围盒可以比输出图像ROI数据278的包围盒更准确地识别描绘特定对象的图像276的区域。在附加或替代实施例中,图像真值数据284可以指示由经训练的教师模型274检测到的对象的类别。在一些实施例中,如上所述,目标输出集合可以包括由图像真值数据284指示的对象的类别以代替由输出图像特征数据282指示的对象的类别。在一些实施例中,根据先前描述的实施例,训练数据生成模块226可以基于由图像真值数据284指示的对象类别生成更新的图像特征数据。
响应于为相应的训练图像276生成训练输入集合和目标输出集合,训练数据生成器模块226可以生成训练输入集合和目标输出集合之间的映射以生成学生模型训练数据286。在一些实施例中,学生模型训练数据生成器220可以将学生模型训练数据286存储在数据存储270中。在其他或类似的实施例中,学生模型训练数据生成器220可以将学生模型训练数据286发送到训练引擎141。响应于获取训练数据286(即,从学生模型训练数据生成器220或从数据存储270),学生模型训练模块232可以使用训练数据286来训练学生对象检测模型。学生对象检测模型可以经训练以针对给定输入检测给定输入图像中描绘的目标类别的一个或更多个对象,并针对每一个检测到的对象预测与检测到的对象相关联的掩模数据、ROI数据和/或特征数据。在一些实施例中,训练引擎141可以将经训练的学生对象检测模型提供给对象检测引擎,例如图1中的对象检测引擎151。
图3是根据至少一个实施例的示例对象检测引擎310的框图。在一些实施例中,对象检测引擎310可以与参照图1描述的对象检测引擎151对应。如图3所示,对象检测引擎310可以包括输入图像组件312、对象数据组件314、模型头组件316和/或模型更新组件318。在一些实施例中,对象检测引擎310可以耦合到存储器320。在一些实施例中,对象检测引擎310可以驻留在计算设备102处。在这样的实施例中,存储器320可以与针对图1描述的存储器104对应。在其他或类似实施例中,对象检测引擎310可以驻留在服务器150处。在这样的实施例中,存储器320可以对应于数据存储(例如,数据存储112)的存储器、存储器104或与系统100相关联的另外的存储器设备中的存储器。
输入图像组件312可以被配置为获取图像(例如图像106)并将获取的图像作为输入提供给存储在存储器320中的经训练的对象检测模型322。在一些实施例中,经训练的对象检测模型322可以与学生对象检测模型对应,所述学生对象检测模型是由训练引擎141使用由训练数据生成器131生成的训练数据训练的,如关于图1和图2所描述的。在其他或类似的实施例中,经训练的对象检测模型322可以与另外的经训练的对象检测模型对应,所述另外的经训练的对象检测模型不是由训练引擎141使用训练数据生成器131生成的训练数据训练的。
如关于图1所描述的,在一些实施例中,计算设备102可以是云计算平台的计算设备。在这样的实施例中,计算设备102可以耦合到一个或更多个边缘设备(例如,边缘设备330),每一个边缘设备都耦合到一个或更多个端点设备(例如,端点设备332A-332N(本文统称点设备332)),如图3所示。在一些实施例中,端点设备332的视听和/或传感器组件可以生成图像106,如上所述,并且将图像106传输到边缘设备330(例如,经由网络)。边缘设备330可以将接收到的图像106传输到计算设备102(例如,通过网络110)。在这样的实施例中,计算设备102可以将图像106发送到输入图像组件312(例如,通过网络110或计算设备102的总线)。在其他或类似实施例中,同样如上所述,计算设备102可以是边缘设备330或者可以是边缘设备330的组件。在这样的实施例中,边缘设备330可以从端点设备332接收图像106(例如,通过网络)并且可以将图像106传输到输入图像组件312(例如,通过网络110或计算设备102的总线)。在另外的其他或类似的实施例中,如前所述,计算设备102可以是一个或更多个终端设备332A-332N,或者可以是一个或更多个终端设备332A-332N的组件。在这样的实施例中,一个或更多个端点设备332A-332N可以生成图像106并将图像106发送到输入图像组件312(例如,经由网络、网络110或计算设备102的总线)。
在一些实施例中,响应于接收到图像106,输入图像组件312提供图像106作为经过训练的对象检测模型322的输入。在其他或类似的实施例中,如上所述,输入图像组件312可以应用一个或更多个图像变换(例如,以减少包括在图像106中的噪声量),以生成修改后的图像并将提供修改后的图像作为经训练的对象检测模型322的输入。对象数据组件314可以获取经过训练的对象检测模型322的一个或更多个输出并且可以基于所获取的一个或更多个输出来确定对象数据108。在一些实施例中,基于所获取的一个或更多个输出确定的对象数据108可以与在给定输入图像106(或修改的输入图像)中检测到的一个或更多个对象对应。例如,对象数据108可以包括图像106的区域的指示,该区域包括检测到的对象(例如,包围盒)。在一些附加或替代实施例中,对象数据108还可以包括与检测到的对象相关联的掩模数据。在一些附加或替代实施例中,对象数据108还可包括指示与检测到的对象相关联的类别和/或一个或更多个特征的数据。
在一些实施例中,训练对象检测模型322的一个或更多个输出可以包括图像106的多个区域的指示和每一个区域包括检测到的对象的置信度水平的指示。对象数据组件314可以通过确定与图像106的具体区域相关联的置信度水平满足置信度水平标准(例如,置信度水平超过阈值等),以确定图像106中的包括检测到的对象的具体区域。响应于确定图像106的特定区域满足置信度水平标准,对象数据组件314可以在存储器320中包括图像106中的具有对象数据的特定区域的指示。在附加或替代实施例中,经训练的对象检测模型322的一个或更多个输出可以包括多个掩模数据集合以及每一个掩模数据集合与检测到的对象相关联的置信度水平的指示。响应于确定特定掩模数据集合满足置信度水平标准,对象数据组件314可以在存储器320中包括具有对象数据108的特定掩模数据的指示。在又一附加或替代实施例中,经训练的对象检测模型322的一个或更多个输出特征可以包括多个类别和/或特征以及每一个类别和/或特征与检测到的对象对应的置信度水平的指示。响应于确定特定类别和/或特性满足置信度水平标准,对象数据组件314可以在存储器320中包括具有对象数据108的特定类别和/或特性的指示。
在一些实施例中,对象数据组件314可以基于对象数据108确定在给定输入图像106中检测到的对象是否与目标类别对应。例如,在一些实施例中,对象数据108可以指示与检测到的对象相关联的类别,如上所述。对象数据组件312可以将所指示的类别与目标类别进行比较以确定检测到的对象是否与目标类别对应。在另一个示例中,根据先前描述的实施例,对象数据108可以包括指示检测到的对象是否与目标类别对应的数据。在这样的示例中,对象数据组件312可以基于包括的数据来确定检测到的对象是否与目标类别对应。在一些实施例中,对象数据组件314可以更新对象数据108以包括检测到的对象是否与目标类别对应的指示。对象数据组件314可以将对象数据108传输到计算设备102。在一些实施例中,对象数据组件312可以附加地或替代地向计算设备102传输指示检测到的对象是否与目标类别对应的通知。
如上所述,在一些实施例中,经训练的对象检测模型322(例如,图2中的经训练的学生对象检测模型)可以被训练以预测与给定输入图像相关联的ROI数据、图像掩模数据和/或图像特征数据。在这样的实施例中,经过训练的对象检测模型322可以是多头模型,其中多头模型的每一个头用于预测与在给定输入图像中检测到的对象相关联的具体类型的数据。例如,经过训练的对象检测模型322可以包括对应于预测与检测到的对象相关联的ROI数据的第一头、对应于预测与检测到的对象相关联的掩模数据的第二头和/或对应于预测与检测到的对象相关联的特征数据(例如检测到的对象的类别)的第三头。如上所述,在一些实施例中,可以使用大量训练图像(例如,训练图像276)来训练对象检测模型。例如,在某些系统中,可以使用数百、数千或在某些情况下数百万张图像来训练对象检测模型。鉴于上述情况,在一些实施例中,在大量图像上训练的多头对象检测模型322可能会消耗大量系统资源(例如,存储空间、处理资源等)。在一些实施例中,对象检测引擎310可以移除经过训练的多头对象检测模型322的一个或更多个头(例如,掩模头)以减少对象检测模型322在推理之前和/或在推理期间消耗的系统资源量。
图4A描绘了根据至少一个实施例的示例经训练的多头对象检测模型322。如图4A所示,模型322可以包括至少ROI头412和掩模头414。应当注意,尽管如图4A所示的模型322可以类似于神经网络,但本公开的实施例可以应用于任何类型的机器学习模型。根据先前描述的实施例,输入图像组件312可以提供图像106作为模型322的输入。输入图像106可以提供给模型322的ROI头412和掩模头414。如上所述,模型322可以基于给定输入图像106提供一个或更多个输出。在一些实施例中,所提供的输出可以包括ROI头输出416和掩模头输出418。可以基于根据ROI头412执行的推理来提供ROI头输出416。可以基于根据掩模头414执行的推理来提供掩模头输出418。
返回参考图3,在一些实施例中,对象检测引擎310的模型头组件316和模型更新组件318可以移除对象检测模型322的掩模头。例如,模型头组件316可以识别模型322的与提供与给定的输入图像相关联的特定输出(例如,预测掩模数据)对应的一个或更多个头(例如,掩模头414)。响应于模型头组件316识别模型322的对应头,模型更新组件318可以更新模型322以移除一个或更多个识别的头。图4B描绘了根据至少一个实施例的更新的训练对象检测模型324,该模型被更新以移除掩模头414。如图4B所示,模型更新组件318可以移除模型322的掩模头414以生成更新的模型324。因此,在一些实施例中,模型324可以提供ROI头输出416并且可以不提供掩模头输出418。应该注意的是,虽然图3和图4A-图4B包括涉及从模型322移除掩模头414的实施例,本公开的实施例可应用于移除模型322的任何头。
返回参考图3,在一些实施例中,对象检测引擎310可以将更新的对象检测模型324传输到计算设备102(例如,通过网络110或计算设备102的总线)。如上所述,在一些实施例中,计算设备102可以是云计算平台或者可以是云计算平台的组件。在这样的实施例中,计算设备102可以将更新的对象检测模型324传输到边缘设备330(例如,通过网络110)。在一些实施例中,边缘设备330可以使用更新的对象检测模型324来基于由端点设备332A-332N生成的图像106来执行对象检测。在其他或类似实施例中,边缘设备330可以将更新的对象检测模型324传输到端点设备332A-332N。同样如上所述,计算设备102可以是边缘设备330或可以是边缘设备330的组件。在这样的实施例中,边缘设备330可以使用更新的对象检测模型324来执行对象检测和/或可以传输更新的对象检测模型324到端点设备332A。同样如上所述,计算设备102可以是一个或更多个端点设备332A-332N或可以是一个或更多个端点设备332A-332N的组件。在这样的实施例中,根据上述实施例,端点设备332A-332N中的一个或更多个可以使用更新的对象检测模型324来执行对象检测。
图5A-图5B和图6分别是根据至少一些实施例的与训练对象检测模型有关的示例方法500、550和600的流程图。在至少一个实施例中,方法500、550和/或600可以由计算设备102、服务器机器130、服务器机器140、服务器机器150、一个或更多个边缘设备、一个或更多个端点设备、或一些其他计算设备,或更多个计算设备的组合来执行。方法500、550和/或600可以由一个或更多个处理单元(例如,CPU和/或GPU)执行,其可以包括一个或更多个存储器设备(或与一个或更多个存储器设备通信)。在至少一个实施例中,方法500、550和/或600可以由多个处理线程(例如,CPU线程和/或GPU线程)执行,每一个线程执行一个或更多个单独的功能、例程、子例程或方法的操作。在至少一个实施例中,实现方法500、550和/或600的处理线程可以被同步(例如,使用信号量、临界区和/或其他线程同步机制)。或者,实现方法500、550和/或600的处理线程可以相对于彼此异步地被执行。方法500、550和/或600的各种操作可以以与图5A-图5B和图6所示的顺序不同的顺序来执行。这些方法的一些操作可以与其他操作同时执行。在至少一个实施例中,图5A-图5B和图6中所示的一个或更多个操作可以并不总是被执行。
图5A示出了根据至少一个实施例的训练机器学习模型以检测目标类别的对象的示例方法500的流程图。在一些实施例中,方法500的一个或更多个操作可以由训练数据生成器131的一个或更多个组件或模块执行,如本文所述。在框510处,执行方法500的处理单元可以识别包含多个类别的多个对象的第一图像集合。在一些实施例中,处理单元可以从数据存储270获取第一图像集合,如前所述。
在框512处,执行方法500的处理单元可以提供第一图像集合作为对第一机器学习模型的输入。第一机器学习模型可以是经过训练的教师对象检测模型,该经过训练的教师对象检测模型经过训练以针对给定输入图像检测给定图像中描绘的多个类别的一个或更多个对象。经训练的教师对象检测模型也可以经训练以针对一个或更多个检测对象中的每一者预测掩模数据,以及在一些实施例中的与相应检测对象相关联的ROI数据。在附加或替代实施例中,经训练的教师对象检测模型可以经训练以针对每一个检测到的对象预测多个类别中的与相应的检测到的对象相关联的具体类别。在框514处,执行方法500的处理单元可以从第一机器学习模型的一个或更多个输出确定与第一图像集合相关联的对象数据。第一图像集合的每一个相应图像的对象数据可以包括与在相应图像中检测到的每一个对象相关联的掩模数据。
在框516处,执行方法500的处理单元可以训练第二机器学习模型,以使用第一图像集合和从第一机器学习模型的一个或更多个输出确定的对象数据的一部分来检测第二图像集合中的目标类别的对象。第二机器学习模型可以是学生对象检测模型。处理单元可以使用训练输入和目标输出来训练学生对象检测模型。训练输入可以包括第一图像集合(即,被提供作为经训练的教师对象检测模型的输入)。目标输出可以包括与第一图像集合中的每一个检测到的对象相关联的掩模数据,在教师对象检测模型的一个或更多个输出中包含所述检测到的对象。目标输出还可以包括与在第一图像集合中检测到的每一个对象相关联的类别是否与目标类别对应的指示。在一些实施例中,处理单元可以确定与在第一图像集合中检测到的每一个对象相关联的特定类别是否与目标类别对应。目标输出可以包括该具体类别是否与目标类别对应的指示。在另一个实施例中,目标输出可以包括与在第一图像集合中检测到的每一个对象相关联的具体类别的指示。
在一些实施例中,目标输出还可以包括与在第一图像集合中检测到的每一个对象相关联的真值数据。如上所述,与每一个检测到的对象相关联的真值数据可以指示图像中的包括相应的检测到的对象的区域。根据先前描述的实施例,处理单元可以使用包括与图像相关联的一个或更多个ROI(例如,包围盒)的指示的数据库(例如,在数据存储270中)来识别真值数据。包括在数据库中的每一个ROI可以由被认可的ROI权威机构或平台的用户提供。在一些实施例中,处理单元还可以使用数据库识别与在第一图像集合中检测到的每一个对象相关联的类别。
在一些实施例中,经训练的第二机器学习模型可以是多头机器学习模型,如上所述。在一些实施例中,处理单元可以识别第二机器学习模型中的与预测给定输入图像的掩模数据相对应的一个或更多个头,并且可以更新第二机器学习模型以移除一个或更多个已识别的头。在一些实施例中,处理单元可以提供第二图像集合作为第二机器学习模型的输入并且获取第二机器学习模型的一个或更多个输出。处理单元可以从一个或更多个获取的输出中确定与第二图像集合中的每一者相关联的附加对象数据。在一些实施例中,附加对象数据可以包括相应图像中的包括在相应图像中检测到的对象的区域(例如,包围盒)的指示以及与检测到的对象相关联的类别。
图5B示出了根据至少一个实施例的使用经训练以检测目标类别的对象的机器学习模型的示例方法550的流程图。在一些实施例中,方法550的一个或更多个操作可以由对象检测引擎151的一个或更多个组件或模块执行,如本文所述。在框552处,执行方法550的处理单元可以提供当前图像集合作为对第一机器学习模型的输入。在一些实施例中,当前图像的集合可以由位于或耦合到端点设备、边缘设备或服务器的视听组件(例如,相机)生成,如上所述。
可以训练第一机器学习模型以检测给定图像集合中的目标类别的对象。在一些实施例中,第一机器学习模型可以与学生对象检测模型对应,如上所述。在一些实施例中,可以根据先前描述的实施例来训练第一机器学习模型。例如,可以使用包括训练图像集合的训练输入和针对训练输入的目标输出来训练第一机器学习模型。对于训练图像集合中的每一个相应训练图像,目标输出可以包括与相应训练图像中描绘的每一个对象相关联的真值数据。真值数据可以指示相应训练图像的包括相应对象的区域。在一些实施例中,可以使用包括与该训练图像集合相关联的一个或更多个包围盒的指示的数据库来获取真值数据。一个或更多个包围盒中的每一个可以由被认可的包围盒权威实体和/或平台的用户提供。
目标输出还可以包括与在相应训练图像中描绘的每一个对象相关联的掩模数据。可以基于第二机器学习模型的一个或更多个输出来获取掩模数据。在一些实施例中,第二机器学习模型可以与本文描述的教师模型对应。例如,该训练图像集合可以被提供作为第二机器学习模型的输入。第二机器学习模型可以经训练以针对给定输入图像检测在给定输入图像中描绘的多个类别中的至少一个的一个或更多个对象,并且对于一个或更多个检测到的对象中的每一者预测与相应的检测到的对象相关联的至少掩模数据。如上所述,可以从第二机器学习模型的一个或更多个输出确定对象数据。每一个相应的训练图像的对象数据可以包括与在相应图像中检测到的每一个对象相关联的掩模数据。根据先前描述的实施例,目标输出还可以包括与在相应的训练图像中描绘的每一个对象相关联的类别是否与目标类别对应的指示。
在框554处,执行方法550的处理单元可以获取第一机器学习模型的一个或更多个输出。在框556处,执行方法550的处理单元可以基于所获取的一个或更多个输出来确定与当前图像集合中的每一者相关联的对象数据。在一些实施例中,针对当前图像集合的每个相应图像的确定的对象数据可以包括相应图像中的包括在相应图像中检测到的对象的区域的指示以及检测到的对象是否对应于目标类别的指示。在一些实施例中,对象数据还可以包括与在相应图像中检测到的对象相关联的掩模数据。在一些实施例中,可以通过从第一机器学习模型的一个或更多个输出中提取一个或更多个对象数据集合来确定与该图像集合中的每一者相关联的对象数据。一个或更多个对象数据集合中的每一者可以与置信度水平相关联,所述对象数据与在所述相应图像中检测到的对象对应。处理单元可以确定与对象数据的相应集合相关联的置信度水平是否满足置信度水平标准(例如,超过置信度水平阈值)。响应于确定与相应的对象数据集合相关联的置信度水平满足置信度水平标准,处理单元可以确定与检测到的对象相对应的对象数据集合。
图6示出了根据至少一个实施例的训练机器学习模型和更新训练的机器学习模型以移除掩模头的示例方法的流程图。在一些实施例中,方法600的一个或更多个操作可以由训练数据生成器131和/或训练引擎141的一个或更多个组件或模块执行,如本文所述。在框610处,执行方法600的处理单元可以识别为机器学习模型生成训练数据。
在框612处,执行方法600的处理单元可以生成包括描绘对象的图像的训练输入。在框614处,执行方法600的处理单元可以生成用于训练输入的目标输出。目标输出可以包括与所描绘的对象相关联的包围盒、与所描绘的对象相关联的掩模数据以及与所描绘的对象相关联的类别的指示。在一些实施例中,处理单元可以通过提供描绘对象的图像作为附加的机器学习模型的输入来生成目标输出,该附加机器学习模型经训练以针对给定的输入图像检测给定输入图像中描绘的一个或更多个对象,并为一个或更多个检测到的对象中的每一个预测与响应的检测到的对象相关联的至少掩模数据。在一些实施例中,进一步训练附加机器学习模型以预测与相应的检测到的对象相关联的类别。处理单元可以使用附加的机器学习模型获取与训练输入的图像中描绘的对象相关联的掩模数据(以及在一些实施例中的类别的指示)。
在附加或替代实施例中,处理单元可以通过获取与图像相关联的真值数据来生成目标输出。如上所述,真值数据可以包括与所描绘的对象相关联的包围盒,任一包围盒可以从存储与图像集合中所描绘的对象相关联的包围盒的指示的数据库中获取。包围盒的指示可以由被认可的包围盒权威机构或平台的用户提供。
在框616处,执行方法600的处理单元可以提供训练数据以在(i)包括生成的训练输入的训练输入集合和(ii)包括生成的目标输出的目标输出集合上训练机器学习模型。在框618处,执行方法600的处理单元可以识别与预测针对给定输入图像的掩模数据相对应的经训练的机器学习模型的一个或更多个头。在框620处,执行方法600的处理单元可以更新经训练的机器学习模型以移除一个或更多个已识别的头。
在一些实施例中,执行方法600的处理单元或其他处理单元可以提供图像集合作为更新的训练机器学习模型的输入,并且获取更新的训练机器学习模型的一个或更多个输出。处理单元可以从一个或更多个输出中确定与该图像集合中的每一者相关联的对象数据。对象数据可以包括相应图像中的包括在相应图像中检测到的对象的区域以及与检测到的对象相关联的类别的指示。在一些实施例中,执行方法600的处理单元或其他处理单元可以经由网络将更新的训练机器学习模型传输到边缘设备或端点设备中的至少一个。
推理和训练逻辑
图7A示出了用于执行与一个或更多个实施例相关联的推理和/或训练操作的推理和/或训练逻辑715。下面结合图7A和/或图7B提供关于推理和/或训练逻辑715的细节。
在至少一个实施例中,推理和/或训练逻辑715可以包括但不限于代码和/或数据存储器701,用于存储前向和/或输出权重和/或输入/输出数据,和/或在一个或更多个实施例的方面中配置被训练为和/或用于推理的神经网络的神经元或层的其他参数。在至少一个实施例中,训练逻辑715可以包括或耦合到用于存储图形代码或其他软件以控制时序和/或顺序的代码和/或数据存储器701,其中权重和/或其他参数信息被加载以配置逻辑,包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中,代码(诸如图代码)基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储器701存储在使用一个或更多个实施例的方面训练和/或推理期间的输入/输出数据和/或权重参数的前向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,代码和/或数据存储器701的任何部分都可以包括在其他片上或片外数据存储器内,包括处理器的L1、L2或L3高速缓存或系统存储器。
在至少一个实施例中,代码和/或数据存储器701的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中,代码和/或数据存储器701可以是高速缓存存储器、动态随机可寻址存储器(“DRAM”)、静态随机可寻址存储器(“SRAM”)、非易失性存储器(例如闪存)或其他存储器。在至少一个实施例中,对代码和/或数据存储器701是在处理器的内部还是外部的选择,例如,或者由DRAM、SRAM、闪存或某种其他存储器类型组成,可以取决于存储片上或片外的可用存储空间,正在执行训练和/或推理功能的延迟要求,在神经网络的推理和/或训练中使用的数据的批大小或这些因素的某种组合。
在至少一个实施例中,推理和/或训练逻辑715可以包括但不限于代码和/或数据存储器705,以存储与在一个或更多个实施例的方面中被训练为和/或用于推理的神经网络的神经元或层相对应的反向和/或输出权重和/或输入/输出数据神经网络。在至少一个实施例中,在使用一个或更多个实施例的方面训练和/或推理期间,代码和/或数据存储器705存储在输入/输出数据和/或权重参数的反向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,训练逻辑715可以包括或耦合到用于存储图代码或其他软件以控制时序和/或顺序的代码和/或数据存储器705,其中权重和/或其他参数信息被加载以配置逻辑,该逻辑包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中,代码(诸如图代码)基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储器705的任何部分可以与其他片上或片外数据存储一起包括,包括处理器的L1、L2或L3高速缓存或系统存储器。在至少一个实施例中,代码和/或数据存储器705的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路上的内部或外部。在至少一个实施例中,代码和/或数据存储器705可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如闪存)或其他存储器。在至少一个实施例中,代码和/或数据存储705是在处理器的内部还是外部的选择,例如,是由DRAM、SRAM、闪存还是其他某种存储类型组成,取决于可用存储是片上还是片外,正在执行的训练和/或推理功能的延迟要求,在神经网络的推理和/或训练中使用的数据批量大小或这些因素的某种组合。
在至少一个实施例中,代码和/或数据存储器701以及代码和/或数据存储器705可以是分开的存储器结构。在至少一个实施例中,代码和/或数据存储器701以及代码和/或数据存储器705可以是相同的存储结构。在至少一个实施例中,代码和/或数据存储器701以及代码和/或数据存储器705可以部分地相同的存储结构和部分地分离的存储结构。在至少一个实施例中,代码和/或数据存储器701以及代码和/或数据存储器705的任何部分可以与其他片上或片外数据存储器包括在一起,包括处理器的L1、L2或L3高速缓存或系统存储器。
在至少一个实施例中,推理和/或训练逻辑715可以包括但不限于一个或更多个算术逻辑单元(“ALU”)710(包括整数和/或浮点单元),用于至少部分地基于训练和/或推理代码(例如,图代码)或由其指示来执行逻辑和/或数学运算,其结果可能会产生存储在激活存储器720中的激活(例如,来自神经网络内部的层或神经元的输出值),其是存储在代码和/或数据存储器701和/或代码和/或数据存储器705中的输入/输出和/或权重参数数据的函数。在至少一个实施例中,激活响应于执行指令或其他代码,由ALU 710执行的线性代数和/或基于矩阵的数学生成在激活存储720中存储的激活,其中存储在代码和/或数据存储器705中和/或代码和/或数据存储701中的权重值用作具有其他值的操作数,例如偏置值、梯度信息、动量值或其他参数或超参数,可以将任何或所有这些存储在代码和/或数据存储器705或代码和/或数据存储器701或其他片上或片外存储器中。
在至少一个实施例中,一个或更多个处理器或其他硬件逻辑设备或电路中包括一个或更多个ALU 710,而在另一实施例中,一个或更多个ALU710可以在处理器或其他硬件逻辑设备或使用它们(例如协处理器)的电路外。在至少一个实施例中,可以将一个或更多个ALU 710包括在处理器的执行单元之内,或者以其他方式包括在由处理器的执行单元可访问的ALU组中,该处理器的执行单元可以在同一处理器内或者分布在不同类型的不同处理器之间(例如,中央处理单元、图形处理单元、固定功能单元等)。在至少一个实施例中,代码和/或数据存储器701、代码和/或数据存储器705以及激活存储720可以是相同处理器或其他硬件逻辑设备或电路,而在另一实施例中,它们可以在不同的处理器或其他硬件逻辑设备或电路或相同和不同处理器或其他硬件逻辑设备或电路的某种组合中。在至少一个实施例中,激活存储器720的任何部分可以与其他片上或片外数据存储包括在一起,包括处理器的L1、L2或L3高速缓存或系统存储器。此外,推理和/或训练代码可以与处理器或其他硬件逻辑或电路可访问的其他代码一起存储,并可以使用处理器的提取、解码、调度、执行、退出和/或其他逻辑电路来提取和/或处理。
在至少一个实施例中,激活存储器720可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如,闪存)或其他存储器。在至少一个实施例中,激活存储720可以完全地或部分地在一个或更多个处理器或其他逻辑电路内部或外部。在至少一个实施例中,可以取决于片上或片外可用的存储器,进行训练和/或推理功能的延迟要求,在推理和/或训练神经网络中使用的数据的批量大小或这些因素的某种组合,选择激活存储器720是处理器的内部还是外部,例如,或者包含DRAM、SRAM、闪存或其他存储器类型。在至少一个实施例中,图7A中所示的推理和/或训练逻辑715可以与专用集成电路(“ASIC”)结合使用,例如来自Google的
Figure BDA0003751242560000281
处理单元、来自GraphcoreTM的推理处理单元(IPU)或来自IntelCorp的
Figure BDA0003751242560000282
(例如“Lake Crest”)处理器。在至少一个实施例中,图7A所示的推理和/或训练逻辑715可与中央处理单元(“CPU”)硬件,图形处理单元(“GPU”)硬件或其他硬件(例如现场可编程门阵列(“FPGA”))结合使用。
图7B示出了根据至少一个或更多个实施例的推理和/或训练逻辑715。在至少一个实施例中,推理和/或训练逻辑715可以包括但不限于硬件逻辑,其中计算资源被专用或以其他方式唯一地连同对应于神经网络内的一层或更多层神经元的权重值或其他信息一起使用。在至少一个实施例中,图7B中所示的推理和/或训练逻辑715可以与专用集成电路(ASIC)结合使用,例如来自Google的
Figure BDA0003751242560000291
处理单元,来自GraphcoreTM的推理处理单元(IPU)或来自Intel Corp的
Figure BDA0003751242560000292
(例如“Lake Crest”)处理器。在至少一个实施例中,图7B中所示的推理和/或训练逻辑715可以与中央处理单元(CPU)硬件、图形处理单元(GPU)硬件或其他硬件(例如现场可编程门阵列(FPGA))结合使用。在至少一个实施例中,推理和/或训练逻辑715包括但不限于代码和/或数据存储器701以及代码和/或数据存储器705,其可以用于存储代码(例如,图代码)、权重值和/或其他信息,包括偏置值、梯度信息、动量值和/或其他参数或超参数信息。在图7B中所示的至少一个实施例中,代码和/或数据存储器701以及代码和/或数据存储器705中的每一个都分别与专用计算资源(例如计算硬件702和计算硬件706)相关联。在至少一个实施例中,计算硬件702和计算硬件706中的每一个包括一个或更多个ALU,这些ALU仅分别对存储在代码和/或数据存储器701和代码和/或数据存储器705中的信息执行数学函数(例如线性代数函数),执行函数的结果被存储在激活存储器720中。
在至少一个实施例中,代码和/或数据存储器701和705以及相应的计算硬件702和706中的每一个分别对应于神经网络的不同层,使得从代码和/或数据存储器701和计算硬件702的一个“存储/计算对701/702”得到的激活提供作为代码和/或数据存储器705和计算硬件706的下一个“存储/计算对705/706”的输入,以便反映神经网络的概念组织。在至少一个实施例中,每个存储/计算对701/702和705/706可以对应于一个以上的神经网络层。在至少一个实施例中,在推理和/或训练逻辑715中可以包括在存储计算对701/702和705/706之后或与之并行的附加存储/计算对(未示出)。
数据中心
图8示出了可以使用至少一个实施例的示例数据中心800。在至少一个实施例中,数据中心800包括数据中心基础设施层810、框架层820、软件层830和应用层840。
在至少一个实施例中,如图8所示,数据中心基础设施层810可以包括资源协调器812、分组计算资源814和节点计算资源(“节点C.R.”)816(1)-816(N),其中“N”代表任何正整数。在至少一个实施例中,节点C.R.816(1)-816(N)可以包括但不限于任何数量的中央处理单元(“CPU”)或其他处理器(包括加速器、现场可编程门阵列(FPGA)、图形处理器等),存储器设备(例如动态只读存储器)、存储设备(例如固态硬盘或磁盘驱动器),网络输入/输出(“NW I/O”)设备,网络交换机,虚拟机(“VM”),电源模块和冷却模块等。在至少一个实施例中,节点C.R.816(1)-816(N)中的一个或更多个节点C.R.可以是具有一个或更多个上述计算资源的服务器。
在至少一个实施例中,分组计算资源814可以包括容纳在一个或更多个机架内的节点C.R.的单独分组(未示出),或者容纳在各个地理位置的数据中心内的许多机架(也未示出)。分组的计算资源814内的节点C.R.的单独分组可以包括可以被配置或分配为支持一个或更多个工作负载的分组的计算、网络、存储器或存储资源。在至少一个实施例中,可以将包括CPU或处理器的几个节点C.R.分组在一个或更多个机架内,以提供计算资源来支持一个或更多个工作负载。在至少一个实施例中,一个或更多个机架还可以包括任何数量的电源模块、冷却模块和网络交换机,以任意组合。
在至少一个实施例中,资源协调器812可以配置或以其他方式控制一个或更多个节点C.R.816(1)-816(N)和/或分组的计算资源814。在至少一个实施例中,资源协调器812可以包括用于数据中心800的软件设计基础结构(“SDI”)管理实体。在至少一个实施例中,资源协调器可以包括硬件、软件或其某种组合。
在至少一个实施例中,如图8所示,框架层820包括作业调度器822、配置管理器824、资源管理器826和分布式文件系统828。在至少一个实施例中,框架层820可以包括支持软件层830的软件832和/或应用层840的一个或更多个应用842的框架。在至少一个实施例中,软件832或应用842可以分别包括基于Web的服务软件或应用,例如由Amazon WebServices,Google Cloud和Microsoft Azure提供的服务或应用。在至少一个实施例中,框架层820可以是但不限于一种免费和开放源软件网络应用框架,例如可以利用分布式文件系统828来进行大范围数据处理(例如“大数据”)的Apache SparkTM(以下称为“Spark”)。在至少一个实施例中,作业调度器822可以包括Spark驱动器,以促进对数据中心800的各个层所支持的工作负载进行调度。在至少一个实施例中,配置管理器824可以能够配置不同的层,例如软件层830和包括Spark和用于支持大规模数据处理的分布式文件系统828的框架层820。在至少一个实施例中,资源管理器826能够管理映射到或分配用于支持分布式文件系统828和作业调度器822的集群或分组计算资源。在至少一个实施例中,集群或分组计算资源可以包括数据中心基础设施层810上的分组计算资源814。在至少一个实施例中,资源管理器826可以与资源协调器812协调以管理这些映射的或分配的计算资源。
在至少一个实施例中,包括在软件层830中的软件832可以包括由节点C.R.816(1)-816(N)的至少一部分,分组的计算资源814和/或框架层820的分布式文件系统828使用的软件。一种或更多种类型的软件可以包括但不限于Internet网页搜索软件、电子邮件病毒扫描软件、数据库软件和流视频内容软件。
在至少一个实施例中,应用层840中包括的一个或更多个应用842可以包括由节点C.R.816(1)-816(N)的至少一部分、分组计算资源814和/或框架层820的分布式文件系统828使用的一种或更多种类型的应用。一种或更多种类型的应用可以包括但不限于任何数量的基因组学应用、认知计算和机器学习应用,包括训练或推理软件,机器学习框架软件(例如PyTorch、TensorFlow、Caffe等)或其他与一个或更多个实施例结合使用的机器学习应用。
在至少一个实施例中,配置管理器824、资源管理器826和资源协调器812中的任何一个可以基于以任何技术上可行的方式获取的任何数量和类型的数据来实现任何数量和类型的自我修改动作。在至少一个实施例中,自我修改动作可以减轻数据中心800的数据中心操作员做出可能不好的配置决定并且可以避免数据中心的未充分利用和/或执行差的部分。
在至少一个实施例中,数据中心800可以包括工具、服务、软件或其他资源,以根据本文所述的一个或更多个实施例来训练一个或更多个机器学习模型或者使用一个或更多个机器学习模型来预测或推理信息。例如,在至少一个实施例中,可以通过使用上文关于数据中心800描述的软件和计算资源,根据神经网络架构通过计算权重参数来训练机器学习模型。在至少一个实施例中,通过使用通过本文所述的一种或更多种训练技术计算出的权重参数,可以使用上面与关于数据中心800所描述的资源,使用对应于一个或更多个神经网络的经训练的机器学习模型来推理或预测信息。
在至少一个实施例中,数据中心可以使用CPU、专用集成电路(ASIC)、GPU、FPGA或其他硬件来使用上述资源来执行训练和/或推理。此外,上述的一个或更多个软件和/或硬件资源可以配置成一种服务,以允许用户训练或执行信息推理,例如图像识别、语音识别或其他人工智能服务。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关联的推理和/或训练操作。下文结合图7A和/或图7B提供关于推理和/或训练逻辑715的细节。在至少一个实施例中,推理和/或训练逻辑715可以在系统图8中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或体系架构,或者本文所述的神经网络用例计算的权重参数推理或预测操作。
这些组件可以用于生成模拟网络训练过程中的失败情况的合成数据,这可以帮助改进网络的性能,同时限制合成数据的量以避免过度拟合。
计算机系统
图9是示出根据至少一个实施例示例性计算机系统的框图,该示例性计算机系统可以是具有互连的设备和组件的系统,片上系统(SOC)或它们的某种形成有处理器的组合,该处理器可以包括执行单元以执行指令。在至少一个实施例中,根据本公开,例如本文所述的实施例,计算机系统900可以包括但不限于组件,例如处理器902,其执行单元包括逻辑以执行用于过程数据的算法。在至少一个实施例中,计算机系统900可以包括处理器,例如可从加利福尼亚圣塔克拉拉的英特尔公司(Intel Corporation of Santa Clara,California)获得的
Figure BDA0003751242560000321
处理器家族、XeonTM、
Figure BDA0003751242560000322
XScaleTM和/或StrongARMTM,
Figure BDA0003751242560000323
CoreTM
Figure BDA0003751242560000324
NervanaTM微处理器,尽管也可以使用其他系统(包括具有其他微处理器的PC、工程工作站、机顶盒等)。在至少一个实施例中,计算机系统900可以执行可从华盛顿州雷蒙德市的微软公司(Microsoft Corporation of Redmond,Wash.)获得的WINDOWS操作系统版本,尽管其他操作系统(例如UNIX和Linux)、嵌入式软件和/或图形用户界面也可以使用。
实施例可以用在其他设备中,例如手持设备和嵌入式应用程序。手持设备的一些示例包括蜂窝电话、互联网协议(Internet Protocol)设备、数码相机、个人数字助理(“PDA”)和手持PC。在至少一个实施例中,嵌入式应用程序可以包括微控制器、数字信号处理器(“DSP”)、片上系统、网络计算机(“NetPC”)、机顶盒、网络集线器、广域网(“WAN”)交换机,或根据至少一个实施例可以执行一个或更多个指令的任何其他系统。
在至少一个实施例中,计算机系统900可包括但不限于处理器902,该处理器902可包括但不限于一个或更多个执行单元908,以根据本文描述的技术执行机器学习模型训练和/或推理。在至少一个实施例中,计算机系统900是单处理器台式机或服务器系统,但是在另一实施例中,计算机系统900可以是多处理器系统。在至少一个实施例中,处理器902可以包括但不限于复杂指令集计算机(“CISC”)微处理器、精简指令集计算(“RISC”)微处理器、超长指令字(“VLIW”)微处理器、实现指令集组合的处理器,或任何其他处理器设备,例如数字信号处理器。在至少一个实施例中,处理器902可以耦合到处理器总线910,该处理器总线910可以在处理器902与计算机系统900中的其他组件之间传输数据信号。
在至少一个实施例中,处理器902可以包括但不限于1级(“L1”)内部高速缓存存储器(“cache”)904。在至少一个实施例中,处理器902可以具有单个内部高速缓存或多级内部缓存。在至少一个实施例中,高速缓存存储器可以驻留在处理器902的外部。根据特定的实现和需求,其他实施例也可以包括内部和外部高速缓存的组合。在至少一个实施例中,寄存器文件906可以在各种寄存器中存储不同类型的数据,包括但不限于整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。
在至少一个实施例中,包括但不限于执行整数和浮点运算的逻辑的执行单元908,其也位于处理器902中。在至少一个实施例中,处理器902还可以包括微码(“ucode”)只读存储器(“ROM”),用于存储某些宏指令的微代码。在至少一个实施例中,执行单元908可以包括用于处理封装指令集909的逻辑。在至少一个实施例中,通过将封装指令集909包括在通用处理器的指令集中,以及要执行指令的相关电路,可以使用通用处理器902中的封装数据来执行许多多媒体应用程序使用的操作。在一个或更多个实施例中,可以通过使用处理器的数据总线的全宽度来在封装的数据上执行操作来加速和更有效地执行许多多媒体应用程序,这可能不需要在该处理器的数据总线上传输较小的数据单元来一次执行一个数据元素的一个或更多个操作。
在至少一个实施例中,执行单元908也可以用在微控制器、嵌入式处理器、图形设备、DSP和其他类型的逻辑电路中。在至少一个实施例中,计算机系统900可以包括但不限于存储器920。在至少一个实施例中,存储器920可以被实现为动态随机存取存储器(“DRAM”)设备、静态随机存取存储器(“SRAM”)设备、闪存设备或其他存储设备。在至少一个实施例中,存储器920可以存储由处理器902可以执行的由数据信号表示的指令919和/或数据921。
在至少一个实施例中,系统逻辑芯片可以耦合到处理器总线910和存储器920。在至少一个实施例中,系统逻辑芯片可以包括但不限于存储器控制器集线器(“MCH”)916,并且处理器902可以经由处理器总线910与MCH 916通信。在至少一个实施例中,MCH 916可以提供到存储器920的高带宽存储器路径918以用于指令和数据存储以及用于图形命令、数据和纹理的存储。在至少一个实施例中,MCH 916可以在处理器902、存储器920和计算机系统900中的其他组件之间启动数据信号,并且在处理器总线910、存储器920和系统I/O 922之间桥接数据信号。在至少一个实施例中,系统逻辑芯片可以提供用于耦合到图形控制器的图形端口。在至少一个实施例中,MCH 916可以通过高带宽存储器路径918耦合到存储器920,并且图形/视频卡912可以通过加速图形端口(Accelerated Graphics Port)(“AGP”)互连914耦合到MCH 916。
在至少一个实施例中,计算机系统900可以使用系统I/O 922,其是专有集线器接口总线,用于将MCH 916耦合到I/O控制器集线器(“ICH”)930。在至少一个实施例中,ICH930可以通过本地I/O总线提供与某些I/O设备的直接连接。在至少一个实施例中,本地I/O总线可以包括但不限于用于将外围设备连接到存储器920、芯片组和处理器902的高速I/O总线。示例可以包括但不限于音频控制器929、固件集线器(“Flash BIOS”)928、无线收发器926、数据存储器924、包含用户输入和键盘接口的传统I/O控制器923、串行扩展端口927(例如通用串行总线(USB)端口)和网络控制器934。数据存储器924可以包括硬盘驱动器、软盘驱动器、CD-ROM设备、闪存设备或其他大容量存储设备。
在至少一个实施例中,图9示出了包括互连的硬件设备或“芯片”的系统,而在其他实施例中,图9可以示出示例性片上系统(“SoC”)。在至少一个实施例中,设备可以与专有互连、标准化互连(例如,PCIe)或其某种组合互连。在至少一个实施例中,计算机系统900的一个或更多个组件使用计算快速链路(CXL)互连来互连。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关的推理和/或训练操作。本文结合图7A和/或图7B提供关于推理和/或训练逻辑1015的细节。在至少一个实施例中,推理和/或训练逻辑715可以在图9的系统中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。
这样的组件可以用于生成模拟网络训练过程中的失败情况的合成数据,这可以帮助改进网络的性能,同时限制合成数据的量以避免过度拟合。
图10是示出根据至少一个实施例的用于利用处理器1010的电子设备1000的框图。在至少一个实施例中,电子设备1000可以是,例如但不限于,笔记本电脑、塔式服务器、机架服务器、刀片服务器、膝上型计算机、台式机、平板电脑、移动设备、电话、嵌入式计算机或任何其他合适的电子设备。
在至少一个实施例中,系统1000可以包括但不限于通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备的处理器1010。在至少一个实施例中,处理器1010使用总线或接口耦合,诸如I2C总线、系统管理总线(“SMBus”)、低引脚数(LPC)总线、串行外围接口(“SPI”)、高清音频(“HDA”)总线、串行高级技术附件(“SATA”)总线、通用串行总线(“USB”)(1、2、3版)或通用异步接收器/发送器(“UART”)总线。在至少一个实施例中,图10示出了系统,该系统包括互连的硬件设备或“芯片”,而在其他实施例中,图10可以示出示例性片上系统(“SoC”)。在至少一个实施例中,图10中所示的设备可以与专有互连线、标准化互连(例如,PCIe)或其某种组合互连。在至少一个实施例中,图10的一个或更多个组件使用计算快速链路(CXL)互连线来互连。
在至少一个实施例中,图10可以包括显示器1024、触摸屏1025、触摸板1030、近场通信单元(“NFC”)1045、传感器集线器1040、热传感器1046、快速芯片组(“EC”)1035、可信平台模块(“TPM”)1038、BIOS/固件/闪存(“BIOS,FW Flash”)1022、DSP 1060、驱动器1020(例如固态磁盘(“SSD”)或硬盘驱动器(“HDD”))、无线局域网单元(“WLAN”)1050、蓝牙单元1052、无线广域网单元(“WWAN”)1056、全球定位系统(GPS)单元1055、相机(“USB 3.0相机”)1054(例如USB 3.0相机)和/或以例如LPDDR3标准实现的低功耗双倍数据速率(“LPDDR”)存储器单元(“LPDDR3”)1015。这些组件可以各自以任何合适的方式实现。
在至少一个实施例中,其他组件可以通过本文所讨论的组件通信地耦合到处理器1010。在至少一个实施例中,加速度计1041、环境光传感器(“ALS”)1042、罗盘1043和陀螺仪1044可以可通信地耦合到传感器集线器1040。在至少一个实施例中,热传感器1039、风扇1037、键盘1036和触摸板1030可以通信地耦合到EC 1035。在至少一个实施例中,扬声器1063、耳机1064和麦克风(“mic”)1065可以通信地耦合到音频单元(“音频编解码器和D类放大器”)1062,其又可以通信地耦合到DSP 1060。在至少一个实施例中,音频单元1062可以包括例如但不限于音频编码器/解码器(“编解码器”)和D类放大器。在至少一个实施例中,SIM卡(“SIM”)1057可以通信地耦合到WWAN单元1056。在至少一个实施例中,组件(诸如WLAN单元1050和蓝牙单元1052以及WWAN单元1056)可以被实现为下一代形式因素(NGFF)。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图7A和/或图7B提供关于推理和/或训练逻辑1015的细节。在至少一个实施例中,推理和/或训练逻辑715可以在系统图10中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。
这样的组件可以用于生成模拟网络训练过程中的失败情况的合成数据,这可以帮助改进网络的性能,同时限制合成数据的量以避免过度拟合。
图11是根据至少一个实施例的处理系统的框图。在至少一个实施例中,系统1100包括一个或更多个处理器1102和一个或更多个图形处理器1108,并且可以是单处理器台式机系统、多处理器工作站系统或具有大量处理器1102或处理器核心1107的服务器系统。在至少一个实施例中,系统1100是结合在片上系统(SoC)集成电路内的处理平台,以在移动、手持或嵌入式设备使用。
在至少一个实施例中,系统1100可以包括或结合在基于服务器的游戏平台中,包括游戏和媒体控制台的游戏控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在至少一个实施例中,系统1100是移动电话、智能电话、平板计算设备或移动互联网设备。在至少一个实施例中,处理系统1100还可包括与可穿戴设备耦合或集成在可穿戴设备中,例如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在至少一个实施例中,处理系统1100是电视或机顶盒设备,其具有一个或更多个处理器1102以及由一个或更多个图形处理器1108生成的图形界面。
在至少一个实施例中,一个或更多个处理器1102每个包括一个或更多个处理器核心1107,以处理指令,该指令在被执行时执行针对系统和用户软件的操作。在至少一个实施例中,一个或更多个处理器核心1107中的每一个被配置为处理特定指令集1109。在至少一个实施例中,指令集1109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC),或通过超长指令字(VLIW)进行计算。在至少一个实施例中,处理器核心1107可以各自处理不同的指令集1109,该指令序列可以包括有助于仿真其他指令集的指令。在至少一个实施例中,处理器核心1107还可以包括其他处理设备,例如数字信号处理器(DSP)。
在至少一个实施例中,处理器1102包括高速缓存存储器1104。在至少一个实施例中,处理器1102可以具有单个内部高速缓存或多个级别的内部高速缓存。在至少一个实施例中,高速缓存存储器在处理器1102的各个组件之间共享。在至少一个实施例中,处理器1102还使用外部高速缓存(例如,三级(L3)高速缓存或最后一级高速缓存(LLC))(未示出),可以使用已知的高速缓存一致性技术在处理器核心1107之间共享该外部高速缓存。在至少一个实施例中,处理器1102中另外包括寄存器文件1106,处理器可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。在至少一个实施例中,寄存器文件1106可以包括通用寄存器或其他寄存器。
在至少一个实施例中,一个或更多个处理器1102与一个或更多个接口总线1110耦合,以在处理器1102与系统1100中的其他组件之间传输通信信号,例如地址、数据或控制信号。在至少一个实施例中,接口总线1110在一个实施例中可以是处理器总线,例如直接媒体接口(DMI)总线的版本。在至少一个实施例中,接口总线1110不限于DMI总线,并且可以包括一个或更多个外围组件互连总线(例如,PCI,PCI Express)、存储器总线或其他类型的接口总线。在至少一个实施例中,处理器1102包括集成存储器控制器1116和平台控制器集线器1130。在至少一个实施例中,存储器控制器1116促进存储器设备与处理系统1100的其他组件之间的通信,而平台控制器集线器(PCH)1130通过本地I/O总线提供到输入/输出(I/O)设备的连接。
在至少一个实施例中,存储器设备1120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储设备或具有适当的性能以用作处理器存储器。在至少一个实施例中,存储设备1120可以用作处理系统1100的系统存储器,以存储数据1122和指令1121,以在一个或更多个处理器1102执行应用程序或过程时使用。在至少一个实施例中,存储器控制器1116还与可选的外部图形处理器1112耦合,其可以与处理器1102中的一个或更多个图形处理器1108通信以执行图形和媒体操作。在至少一个实施例中,显示设备1111可以连接至处理器1102。在至少一个实施例中,显示设备1111可以包括内部显示设备中的一个或更多个,例如在移动电子设备或膝上型设备或通过显示器接口(例如显示端口(DisplayPort)等)连接的外部显示设备中。在至少一个实施例中,显示设备1111可以包括头戴式显示器(HMD),诸如用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。
在至少一个实施例中,平台控制器集线器1130使外围设备能够通过高速I/O总线连接到存储设备1120和处理器1102。在至少一个实施例中,I/O外围设备包括但不限于音频控制器1146、网络控制器1134、固件接口1128、无线收发器1126、触摸传感器1125、数据存储设备1124(例如,硬盘驱动器、闪存等)。在至少一个实施例中,数据存储设备1124可以经由存储器接口(例如,SATA)或经由外围总线来连接,诸如外围组件互连总线(例如,PCI、PCIe)。在至少一个实施例中,触摸传感器1125可以包括触摸屏传感器、压力传感器或指纹传感器。在至少一个实施例中,无线收发器1126可以是Wi-Fi收发器、蓝牙收发器或移动网络收发器,诸如3G、4G或长期演进(LTE)收发器。在至少一个实施例中,固件接口1128使能与系统固件的通信,并且可以是例如统一可扩展固件接口(UEFI)。在至少一个实施例中,网络控制器1134可以启用到有线网络的网络连接。在至少一个实施例中,高性能网络控制器(未示出)与接口总线1110耦合。在至少一个实施例中,音频控制器1146是多通道高清晰度音频控制器。在至少一个实施例中,处理系统1100包括可选的传统(legacy)I/O控制器1140,用于将传统(例如,个人系统2(PS/2))设备耦合到系统1100。在至少一个实施例中,平台控制器集线器1130还可以连接到一个或更多个通用串行总线(USB)控制器1142,该控制器连接输入设备,诸如键盘和鼠标1143组合、相机1144或其他USB输入设备。
在至少一个实施例中,存储器控制器1116和平台控制器集线器1130的实例可以集成到离散的外部图形处理器中,例如外部图形处理器1112。在至少一个实施例中,平台控制器集线器1130和/或存储器控制器1116可以在一个或更多个处理器1102的外部。例如,在至少一个实施例中,系统1100可以包括外部存储器控制器1116和平台控制器集线器1130,其可以配置成在与处理器1102通信的系统芯片组中的存储器控制器集线器和外围控制器集线器。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图7A和/或图7B提供关于推理和/或训练逻辑715的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑715可以结合到图形处理器1500中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个ALU,所述ALU体现在图形处理器中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图7A或图7B所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器的ALU,以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。
这样的组件可用于生成模拟网络训练过程中的失败情况的合成数据,这可有助于改善网络的性能,同时限制合成数据的量以避免过度拟合。
图12是根据至少一个实施例的处理器1200的框图,该处理器具有一个或更多个处理器核心1202A-1202N、集成存储器控制器1214、以及集成图形处理器1208。在至少一个实施例中,处理器1200可以包含附加核心,多达并包括以虚线框表示的附加核心1202N。在至少一个实施例中,每个处理器核心1202A-1202N包括一个或更多个内部高速缓存单元1204A-1204N。在至少一个实施例中,每个处理器核心还可以访问一个或更多个共享高速缓存单元1206。
在至少一个实施例中,内部高速缓存单元1204A-1204N和共享高速缓存单元1206表示处理器1200内的高速缓存存储器层次结构。在至少一个实施例中,高速缓存存储器单元1204A-1204N可以包括每个处理器核心内的至少一级指令和数据高速缓存以及共享中级高速缓存中的一级或更多级缓存,例如2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存,其中将外部存储器之前的最高级别的高速缓存归类为LLC。在至少一个实施例中,高速缓存一致性逻辑维持各种高速缓存单元1206和1204A-1204N之间的一致性。
在至少一个实施例中,处理器1200还可包括一组一个或更多个总线控制器单元1216和系统代理核心1210。在至少一个实施例中,一个或更多个总线控制器单元1216管理一组外围总线,例如一个或更多个PCI或PCIe总线。在至少一个实施例中,系统代理核心1210为各种处理器组件提供管理功能。在至少一个实施例中,系统代理核心1210包括一个或更多个集成存储器控制器1214,以管理对各种外部存储器设备(未示出)的访问。
在至少一个实施例中,一个或更多个处理器核心1202A-1202N包括对多线程同时进行的支持。在至少一个实施例中,系统代理核心1210包括用于在多线程处理期间协调和操作核心1202A-1202N的组件。在至少一个实施例中,系统代理核心1210可以另外包括电源控制单元(PCU),该电源控制单元包括用于调节处理器核心1202A-1202N和图形处理器1208的一个或更多个电源状态的逻辑和组件。
在至少一个实施例中,处理器1200还包括用于执行图处理操作的图形处理器1208。在至少一个实施例中,图形处理器1208与共享高速缓存单元1206和包括一个或更多个集成存储器控制器1214的系统代理核心1210耦合。在至少一个实施例中,系统代理核心1210还包括用于驱动图形处理器输出到一个或更多个耦合的显示器的显示器控制器1211。在至少一个实施例中,显示器控制器1211也可以是经由至少一个互连与图形处理器1208耦合的独立模块,或者可以集成在图形处理器1208内。
在至少一个实施例中,基于环的互连单元1212用于耦合处理器1200的内部组件。在至少一个实施例中,可以使用替代性互连单元,例如点对点互连、交换互连或其他技术。在至少一个实施例中,图形处理器1208经由I/O链路1213与环形互连1212耦合。
在至少一个实施例中,I/O链路1213代表多种I/O互连中的至少一种,包括促进各种处理器组件与高性能嵌入式存储器模块1218(例如eDRAM模块)之间的通信的封装I/O互连。在至少一个实施例中,处理器核心1202A-1202N和图形处理器1208中的每一个使用嵌入式存储器模块1218作为共享的最后一级高速缓存。
在至少一个实施例中,处理器核心1202A-1202N是执行公共指令集架构的同质核心。在至少一个实施例中,处理器核心1202A-1202N在指令集架构(ISA)方面是异构的,其中一个或更多个处理器核心1202A-1202N执行公共指令集,而一个或更多个其他处理器核心1202A-1202N执行公共指令集的子集或不同指令集。在至少一个实施例中,就微架构而言,处理器核心1202A-1202N是异构的,其中具有相对较高功耗的一个或更多个核心与具有较低功耗的一个或更多个功率核心耦合。在至少一个实施例中,处理器1200可以在一个或更多个芯片上实现或被实现为SoC集成电路。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图7A和/或图7B提供关于推理和/或训练逻辑715的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑715可以结合到处理器1200中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个ALU,所述ALU体现在图形处理器1512、图形核心1202A-1202N、或图12中的其他组件中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图7A或图7B所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器1200的ALU以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。
这样的组件可以用于生成模拟网络训练过程中的失败情况的合成数据,这可以帮助改进网络的性能,同时限制合成数据的量以避免过度拟合。
虚拟化计算平台
图13是根据至少一个实施例的生成和部署图像处理和推理管线的过程1300的示例数据流程图。在至少一个实施例中,可以部署过程1300以用于与一个或更多个设施1302处的成像设备、处理设备和/或其他设备类型一起使用。过程1300可以在训练系统1304和/或部署系统1306内执行。在至少一个实施例中,训练系统1304可以用于执行机器学习模型(例如,神经网络、对象检测算法、计算机视觉算法等)的训练、部署和实现,以供在部署系统1306中使用。在至少一个实施例中,部署系统1306可被配置为在分布式计算环境之间卸载处理和计算资源,以减少设施1302处的基础设施要求。在至少一个实施例中,管线中的一个或更多个应用可在应用的执行期间使用或调用部署系统1306的服务(例如,推理、可视化、计算、AI等)。
在至少一个实施例中,用于高级处理和推理管线中的一些应用可使用机器学习模型或其他AI来执行一个或更多个处理步骤。在至少一个实施例中,机器学习模型可以在设施1302处使用在设施1302处生成(并且存储在设施1302处的一个或更多个图片归档和通信系统(PACS)服务器上)的数据1308(诸如成像数据)来训练,可以使用来自另一个(一个或更多个)设施的成像或测序数据1308或其组合来训练。在至少一个实施例中,训练系统1304可以用于提供用于为部署系统1306生成工作、可部署机器学习模型的应用、服务和/或其他资源。
在至少一个实施例中,模型注册表1324可由可支持版本化和对象元数据的对象存储支持。在至少一个实施例中,对象存储可以通过例如云存储(例如,图14的云1426)兼容的应用编程接口(API)从云平台内访问。在至少一个实施例中,模型注册表1324内的机器学习模型可由与API接合的系统的开发者或合作伙伴上传、列出、修改或删除。在至少一个实施例中,API可以提供对如下方法的访问,该方法允许用户采用适当的凭证来将模型与应用相关联,使得可以作为应用的容器化实例化的执行的一部分来执行模型。
在至少一个实施例中,训练管线1404(图14)可以包括设施1302正在训练其自己的机器学习模型、或具有需要被优化或更新的现有机器学习模型的场景。在至少一个实施例中,可以接收由一个或更多个成像设备、测序设备和/或其他设备类型生成的成像数据1308。在至少一个实施例中,一旦接收到成像数据1308,AI辅助注释1310可以用于帮助生成与成像数据1308相对应的注释,以用作机器学习模型的地面实况数据。在至少一个实施例中,AI辅助注释1310可以包括一个或更多个机器学习模型(例如,卷积神经网络(CNN)),所述一个或更多个机器学习模型可以被训练为生成对应于(例如,来自某些设备的)某些类型的成像数据1308的注释。在至少一个实施例中,AI辅助注释1310然后可以被直接使用,或者可以使用注释工具来调整或微调以生成地面实况数据。在至少一个实施例中,AI辅助注释1310、标记的临床数据1312或其组合可以用作用于训练机器学习模型的地面实况数据。在至少一个实施例中,经训练的机器学习模型可被称为输出模型1316,并且可由部署系统1306使用,如本文所描述的。
在至少一个实施例中,训练管线1404(图14)可以包括设施1302需要机器学习模型以用于执行部署系统1306中的一个或更多个应用的一个或更多个处理任务的场景,但是设施1302当前可能不具有这样的机器学习模型(或者可能不具有用于这样的目的的优化的、高效的或有效的模型)。在至少一个实施例中,可以从模型注册表1324中选择现有的机器学习模型。在至少一个实施例中,模型注册表1324可以包括被训练为对成像数据执行各种不同推理任务的机器学习模型。在至少一个实施例中,模型注册表1324中的机器学习模型可能已经在来自不同于设施1302的设施(例如,位于远程的设施)的成像数据上被训练。在至少一个实施例中,机器学习模型可能已经在来自一个位置、两个位置或任意数量的位置的成像数据上训练。在至少一个实施例中,当对来自特定位置的成像数据进行训练时,训练可以发生在该位置处,或者至少以保护成像数据的保密性或者限制成像数据不在现场传输的方式发生。在至少一个实施例中,一旦在一个位置处对模型进行了训练或部分训练,就可以将机器学习模型添加到模型注册表1324中。在至少一个实施例中,然后可以在任何数量的其他设施处重新训练或更新机器学习模型,并且可以使重新训练或更新的模型在模型注册表1324中可用。在至少一个实施例中,机器学习模型然后可以从模型注册表1324中被选择——并且被称为输出模型1316——并且可以在部署系统1306中被用于执行针对部署系统的一个或更多个应用的一个或更多个处理任务。
在至少一个实施例中,训练管线1404(图14),场景可以包括设施1302,该设施要求机器学习模型用于执行针对部署系统1306中的一个或更多个应用的一个或更多个处理任务,但是设施1302当前可能不具有这样的机器学习模型(或者可能不具有用于这样的目的的优化的、高效的或有效的模型)。在至少一个实施例中,由于群体的差异、用于训练机器学习模型的训练数据的鲁棒性、训练数据的异常的多样性和/或训练数据的其他问题,从模型注册表1324选择的机器学习模型可以不针对在设施1302处生成的成像数据1308进行微调或优化。在至少一个实施例中,AI辅助注释1310可以用于帮助生成对应于成像数据1308的注释,该成像数据1308被用作用于重新训练或更新机器学习模型的地面实况数据。在至少一个实施例中,标记数据1312可以用作用于训练机器学习模型的地面实况数据。在至少一个实施例中,重新训练或更新机器学习模型可以被称为模型训练1314。在至少一个实施例中,模型训练1314(例如,AI辅助注释1310、标记的临床数据1312或其组合)可以用作用于重新训练或更新机器学习模型的地面实况数据。在至少一个实施例中,经训练的机器学习模型可被称为输出模型1316,并且可由部署系统1306使用,如本文所描述的。
在至少一个实施例中,部署系统1306可以包括软件1318、服务1320、硬件1322和/或其他组件、特征和功能。在至少一个实施例中,部署系统1306可以包括软件“栈”,以使软件1318可以构建在服务1320的顶部上,并且可以使用服务1320来执行一些或全部处理任务,并且服务1320和软件1318可以构建在硬件1322的顶部上,并使用硬件1322来执行部署系统1306的处理、存储和/或其他计算任务。在至少一个实施例中,软件1318可以包括任意数量的不同容器,其中每个容器可以执行应用程序的实例化。在至少一个实施例中,每个应用程序可以在高级处理和推理管线中执行一个或更多个处理任务(例如,推理、对象检测、特征检测、分割、图像增强、校准等)。在至少一个实施例中,除了接收和配置成像数据以供每个容器使用和/或在通过管线处理后由设施1302使用的容器以外,还可以基于对处理成像数据1308想要的或所需的不同容器的选择来定义高级处理和推理管线(例如,以将输出转换回可用的数据类型。在至少一个实施例中,软件1318内的容器组合(例如,其构成管线)可以被称为虚拟仪器(如本文中更详细地描述的),并且虚拟仪器可以利用服务1320和硬件1322来执行容器中实例化的应用程序的部分或全部处理任务。
在至少一个实施例中,数据处理管线可以响应于推理请求(例如,来自部署系统1306的用户的请求)接收特定格式的输入数据(例如,成像数据1308)。在至少一个实施例中,输入数据可以代表由一个或更多个成像设备生成的一个或更多个图像、视频和/或其他数据表示。在至少一个实施例中,数据可以作为数据处理管线的一部分进行预处理,以准备数据用于由一个或更多个应用程序处理。在至少一个实施例中,可以在管线的一个或更多个推理任务或其他处理任务的输出上执行后处理,以准备下一个应用程序的输出数据和/或准备输出数据,以供用户传输和/或使用(例如作为对推理请求的响应)。在至少一个实施例中,推理任务可以由一个或更多个机器学习模型执行,例如经训练或部署的神经网络,所述模型可以包括训练系统1304的输出模型1316。
在至少一个实施例中,数据处理管线的任务可以封装在容器中,每个容器表示能够引用机器学习模型的应用程序和虚拟化计算环境的离散、全功能实例化。在至少一个实施例中,容器或应用程序可被发布到容器注册表(本文更详细地描述)的私有(例如,有限访问)区域中,并且经训练或部署的模型可存储在模型注册表1324中,并与一个或更多个应用程序相关联。在至少一个实施例中,应用程序的图像(例如,容器图像)可在容器注册表中使用,并且一旦用户从容器注册表中选择图像以用于在管线中部署,则该图像可用于生成用于应用程序的实例化的容器,以供用户的系统使用。
在至少一个实施例中,开发者(例如,软件开发者、临床医生、医生等)可以开发、发布和存储应用程序(例如,作为容器),用于对所提供的数据执行图像处理和/或推理。在至少一个实施例中,可以使用与系统相关联的软件开发工具包(SDK)来执行开发、发布和/或存储(例如,以确保开发的应用程序和/或容器符合系统或与系统兼容)。在至少一个实施例中,所开发的应用程序可以使用SDK在本地测试(例如,在第一设施处,对来自第一设施的数据进行测试),所述SDK作为系统(例如图14中的系统1400)可以支持至少某些服务1320。在至少一个实施例中,由于DICOM对象可能包含一到数百个图像或其他数据类型,并且由于数据的变化,因此开发者可负责管理(例如,设置构造,用于将预处理构建到应用程序中等)传入的数据的提取和准备。在至少一个实施例中,一旦通过系统1400的验证(例如,为了准确性),应用程序便会在容器注册表中可用,以供用户选择和/或实现,以对用户的设施(例如第二设施)处的数据执行一个或更多个处理任务。
在至少一个实施例中,开发者随后可以通过网络共享应用程序或容器,以供系统(例如,图14的系统1400)的用户访问和使用。在至少一个实施例中,可以将完成并经过验证的应用程序或容器存储在容器注册表中,并且可以将相关的机器学习模型存储在模型注册表1324中。在至少一个实施例中,请求实体(其提供推理或图像处理请求)可以浏览容器注册表和/或模型注册表1324,以获得应用程序、容器、数据集、机器学习模型等,选择所需的元素组合以包含在数据处理管线中,并提交图像处理请求。在至少一个实施例中,请求可以包括执行请求所必需的输入数据(以及在一些示例中与患者相关的数据),和/或可以包括对在处理请求时要执行的应用程序和/或机器学习模型的选择。在至少一个实施例中,然后可以将请求传递到部署系统1306的一个或更多个组件(例如,云),以执行数据处理管线的处理。在至少一个实施例中,由部署系统1306进行的处理可以包括引用从容器注册表和/或模型注册表1324中选择的元素(例如,应用程序、容器、模型等)。在至少一个实施例中,一旦通过管线生成结果,结果可返回给用户以供参考(例如,用于在本地、本地工作站或终端上执行的查看应用程序套件中进行查看)。
在至少一个实施例中,为了帮助处理或执行管线中的应用程序或容器,可以利用服务1320。在至少一个实施例中,服务1320可以包括计算服务、人工智能(AI)服务、可视化服务和/或其他服务类型。在至少一个实施例中,服务1320可以提供软件1318中的一个或更多个应用程序所共有的功能,因此可以将功能抽象为可以被应用程序调用或利用的服务。在至少一个实施例中,由服务1320提供的功能可以动态且更有效地运行,同时还可以通过允许应用程序并行地处理数据(例如,使用图14中的并行计算平台1430)来很好地缩放。在至少一个实施例中,不是要求共享服务1320提供的相同功能的每个应用程序都必须具有服务1320的相应实例,而是可以在各种应用程序之间和之中共享服务1320。在至少一个实施例中,作为非限制性示例,服务可包括可用于执行检测或分割任务的推理服务器或引擎。在至少一个实施例中,可以包括模型训练服务,其可以提供机器学习模型训练和/或重新训练能力。在至少一个实施例中,可以进一步包括数据增强服务,其可以提供GPU加速的数据(例如,DICOM、RIS、CIS、符合REST、RPC、原始等)提取、调整大小、缩放和/或其他增强。在至少一个实施例中,可以使用可视化服务,其可以添加图像渲染效果(例如光线跟踪、光栅化、去噪、锐化等),以向二维(2D)和/或三维(3D)模型添加真实感。在至少一个实施例中,可以包括虚拟仪器服务,其为虚拟仪器的管线内的其他应用程序提供波束赋形、分割、推理、成像和/或支持。
在至少一个实施例中,在服务1320包括AI服务(例如,推理服务)的情况下,作为应用程序执行的一部分,可以通过调用(例如,作为API调用)推理服务(例如,推理服务器),以执行一个或更多个机器学习模型或其处理,来执行一个或更多个机器学习模型。在至少一个实施例中,在另一应用程序包括用于分割任务的一个或更多个机器学习模型的情况下,应用程序可以调用推理服务来执行机器学习模型,以用于执行与分割任务相关联的一个或更多个处理操作。在至少一个实施例中,实现高级处理和推理管线的软件1318,其包括分割应用程序和异常检测应用程序,可以被流水线化,因为每个应用程序可以调用相同的推理服务来执行一个或更多个推理任务。
在至少一个实施例中,硬件1322可包括GPU、CPU、图形卡、AI/深度学习系统(例如,AI超级计算机,诸如NVIDIA的DGX)、云平台或其组合。在至少一个实施例中,可以使用不同类型的硬件1322,以为部署系统1306中的软件1318和服务1320提供高效的、专门构建的支持。在至少一个实施例中,可以实现使用GPU处理来在AI/深度学习系统内、云系统中、和/或部署系统1306的其他处理组件中进行本地处理(例如,在设施1302处),以提高图像处理和生成的效率、准确性和效能。在至少一个实施例中,作为非限制性示例,关于深度学习、机器学习和/或高性能计算,可以针对GPU处理优化软件1318和/或服务1320。在至少一个实施例中,部署系统1306和/或训练系统1304的计算环境中的至少一些可以在具有GPU优化的软件(例如,NVIDIA DGX系统的硬件和软件组合)的数据中心、一个或更多个超级计算机或高性能计算机系统中执行。在至少一个实施例中,如本文所述,硬件1322可包括任意数量的GPU,所述GPU可被调用以并行执行数据处理。在至少一个实施例中,云平台还可包括用于深度学习任务的GPU优化执行、机器学习任务或其他计算任务的GPU处理。在至少一个实施例中,可以使用AI/深度学习超级计算机和/或GPU优化的软件(例如,如在NVIDIA的DGX系统上提供的)作为硬件抽象和缩放平台,来执行云平台(例如,NVIDIA的NGC)。在至少一个实施例中,云平台可以在多个GPU上集成应用程序容器集群系统或协调系统(例如,KUBERNETES),以实现无缝缩放和负载均衡。
图14是根据至少一个实施例的用于生成和部署成像部署管线的示例系统1400的系统图。在至少一个实施例中,系统1400可以用于实现图13的过程1300和/或其他过程,包括高级处理和推理管线。在至少一个实施例中,系统1400可以包括训练系统1304和部署系统1306。在至少一个实施例中,可以使用软件1318、服务1320和/或硬件1322,来实现训练系统1304和部署系统1306,如本文所述。
在至少一个实施例中,系统1400(例如,训练系统1304和/或部署系统1306)可以在云计算环境中(例如,使用云1426)实现。在至少一个实施例中,系统1400可以在本地实现(关于医疗服务设施),或者作为云计算资源和本地计算资源的组合来实现。在至少一个实施例中,可以通过制定安全措施或协议,将对云1426中的API的访问权限限制为授权用户。在至少一个实施例中,安全协议可以包括网络令牌,其可以由认证(例如,AuthN、AuthZ、Gluecon等)服务签名,并且可以携带适当的授权。在至少一个实施例中,虚拟仪器的API(本文中描述)或系统1400的其他实例可以被限制为已被审核或授权用于交互的一组公共IP。
在至少一个实施例中,系统1400的各个组件可以使用多种不同网络类型中的任何一种在彼此之间进行通信,所述不同网络类型包括但不限于经由有线和/或无线通信协议的局域网(LAN)和/或广域网(WAN)。在至少一个实施例中,系统1400的设施和组件之间的通信(例如,用于发送推理请求、用于接收推理请求的结果等)可以通过一个或更多个数据总线、无线数据协议(Wi-Fi)、有线数据协议(例如以太网)等进行传送。
在至少一个实施例中,类似于本文关于图13所描述的,训练系统1304可以执行训练管线1404。在至少一个实施例中,其中部署系统1306将在部署管线1410中使用一个或更多个机器学习模型,训练管线1404可用于训练或重新训练一个或更多个(例如,预训练的)模型,和/或实现一个或更多个预训练模型1406(例如,无需重新训练或更新)。在至少一个实施例中,作为训练管线1404的结果,可以生成输出模型1316。在至少一个实施例中,训练管线1404可以包括任意数量的处理步骤,诸如但不限于成像数据(或其他输入数据)的转换或适配。在至少一个实施例中,对于由部署系统1306使用的不同的机器学习模型,可以使用不同的训练管线1404。在至少一个实施例中,类似于关于图13描述的第一示例的训练管线1404可用于第一机器学习模型,类似于关于图13描述的第二示例的训练管线1404可用于第二机器学习模型,类似于关于图13描述的第三示例的训练管线1404可用于第三机器学习模型。在至少一个实施例中,可以根据每个相应机器学习模型的要求来使用训练系统1304内任务的任何组合。在至少一个实施例中,一个或更多个机器学习模型可能已经被训练并准备好用于部署,因此训练系统1304可能不会对机器学习模型进行任何处理,并且一个或更多个机器学习模型可以由部署系统1306来实现。
在至少一个实施例中,根据实现或实施例,输出模型1316和/或预训练模型1406可包括任何类型的机器学习模型。在至少一个实施例中并且不限于此,系统1400使用的机器学习模型可以包括使用线性回归、逻辑回归、决策树、支持向量机(SVM)、朴素贝叶斯、k-最近邻(Knn)、k均值聚类、随机森林、降维算法、梯度提升算法、神经网络(例如,自动编码器、卷积、递归、感知器、长/短期记忆(LSTM)、Hopfield、Boltzmann、深层信念、反卷积、生成对抗、液体状态机等),和/或其他类型的机器学习模型。
在至少一个实施例中,训练管线1404可以包括AI辅助注释,如本文关于至少图15B更详细描述的。在至少一个实施例中,可以通过任何数量的技术来生成标记的数据1312(例如,传统注释)。在至少一个实施例中,在一些示例中可以在绘图程序(例如,注释程序)、计算机辅助设计(CAD)程序、标记程序、适用于生成地面实况的注释或标签的另一类型的应用程序中、和/或可以手绘,生成标签或其他注释。在至少一个实施例中,地面实况数据可以被合成产生(例如,从计算机模型或渲染生成)、真实产生(例如,从真实世界数据设计和生成)、机器自动产生(例如,使用特征分析和学习从数据中提取特征,然后生成标签)、人工注释(例如,标记器或注释专家,定义标签的位置)和/或其组合。在至少一个实施例中,对于成像数据1308(或机器学习模型使用的其他数据类型)的每个实例,可以存在由训练系统1304生成的相应的地面实况数据。在至少一个实施例中,可以作为部署管线1410的一部分执行AI辅助注释;补充或代替训练管线1404中包括的AI辅助注释。在至少一个实施例中,系统1400可以包括多层平台,所述多层平台可以包括诊断应用程序(或其他应用程序类型)的软件层(例如软件1318),其可以执行一个或更多个医学成像和诊断功能。在至少一个实施例中,系统1400可以通信地耦合到(例如,经由加密链路)一个或更多个设施的PACS服务器网络。在至少一个实施例中,系统1400可被配置为从PACS服务器访问和引用数据,以执行操作,例如训练机器学习模型、部署机器学习模型、图像处理、推理和/或其他操作。
在至少一个实施例中,软件层可以被实现为安全的、加密的和/或经认证的API,通过所述API可以从外部环境(例如,设施1302)援引(invoke)(例如,调用(call))应用程序或容器。在至少一个实施例中,应用程序随后可以调用或执行一个或更多个服务1320,以执行与各自的应用程序相关联的计算、AI或可视化任务,并且软件1318和/或服务1320可以利用硬件1322以有效和高效的方式执行处理任务。
在至少一个实施例中,部署系统1306可以执行部署管线1410。在至少一个实施例中,部署管线1410可以包括任意数量的应用程序,所述应用程序可以是顺序的、非顺序的,或者以其他方式应用于成像数据(和/或其他数据类型)-包括AI辅助注释,所述成像数据由成像设备、测序设备、基因组学设备等生成,如上所述。在至少一个实施例中,如本文所述,用于个体设备的部署管线1410可以被称为用于设备的虚拟仪器(例如,虚拟超声仪器、虚拟CT扫描仪器、虚拟测序仪器等)。在至少一个实施例中,对于单个设备,可以存在不止一个部署管线1410,这取决于从设备生成的数据所期望的信息。在至少一个实施例中,在期望从MRI机器检测到异常的情况下,可以存在第一部署管线1410,并且在期望从MRI机器的输出进行图像增强的情况下,可以存在第二部署管线1410。
在至少一个实施例中,图像生成应用程序可包括处理任务,该处理任务包括使用机器学习模型。在至少一个实施例中,用户可能希望使用他们自己的机器学习模型,或者从模型注册表1324中选择机器学习模型。在至少一个实施例中,用户可以实现他们自己的机器学习模型或选择机器学习模型,以包含在执行处理任务的应用程序中。在至少一个实施例中,应用程序可以是可选择的和可定制的,并且通过定义应用程序的构造,针对特定用户的应用程序的部署和实现被呈现为更加无缝的用户体验。在至少一个实施例中,通过利用系统1400的其他特征(例如服务1320和硬件1322),部署管线1410可以更加用户友好,提供更容易的集成,并且产生更准确、高效和及时的结果。
在至少一个实施例中,部署系统1306可以包括用户接口1414(例如,图形用户接口、Web接口等),所述用户接口可以被用于选择要包括在部署管线1410中的应用程序、布置应用程序、修改或改变应用程序或其参数或构造、在设置和/或部署期间使用部署管线1410以及与其交互,和/或以其他方式与部署系统1306交互。在至少一个实施例中,尽管没有关于训练系统1304示出,但是用户接口1414(或不同的用户接口)可用于选择在部署系统1306中使用的模型、用于选择用于在训练系统1304中训练或重新训练的模型,和/或用于以其他方式与训练系统1304交互。
在至少一个实施例中,除了应用程序协调系统1428之外,还可以使用管线管理器1412来管理部署管线1410的应用程序或容器与服务1320和/或硬件1322之间的交互。在至少一个实施例中,管线管理器1412可以被配置为促进从应用程序到应用程序、从应用程序到服务1320,和/或从应用程序或服务到硬件1322的交互。在至少一个实施例中,尽管示出为包括在软件1318中,这并不旨在进行限制,并且在一些示例中(例如,如图14所示),管线管理器1412可以被包括在服务1320中。在至少一个实施例中,应用程序协调系统1428(例如,Kubernetes、DOCKER等)可以包括容器协调系统,其可以将应用程序分组到容器中,作为用于协调、管理、缩放和部署的逻辑单元。在至少一个实施例中,通过将来自部署管线1410的应用程序(例如,重建应用程序、分割应用程序等)与各个容器相关联,每个应用程序可以在自包含的环境(例如,在内核级)中执行,以提高速度和效率。
在至少一个实施例中,每个应用程序和/或容器(或其映像)可以被单独开发、修改和部署(例如,第一用户或开发者可以开发、修改和部署第一应用程序,第二用户或开发者可以开发、修改和部署与第一用户或开发者分开的第二应用程序),这可以允许专注并关注单个应用程序和/或容器的任务,而不受另一个应用程序或容器的任务的阻碍。在至少一个实施例中,管线管理器1412和应用程序协调系统1428可以辅助不同容器或应用程序之间的通信和协作。在至少一个实施例中,只要每个容器或应用程序的预期输入和/或输出是系统已知的(例如,基于应用程序或容器的构造),则应用程序协调系统1428和/或管线管理器1412可以促进每个应用程序或容器之间和之中的通信以及资源的共享。在至少一个实施例中,由于部署管线1410中的一个或更多个应用程序或容器可以共享相同的服务和资源,因此应用程序协调系统1428可以在各个应用程序或容器之间和之中进行协调、负载均衡,并确定服务或资源的共享。在至少一个实施例中,调度器可用于跟踪应用程序或容器的资源需求、这些资源的当前使用或计划使用,以及资源可用性。因此,在至少一个实施例中,考虑到系统的需求和可用性,调度器可以将资源分配给不同的应用程序,并在应用程序之间和之中分配资源。在一些示例中,调度器(和/或应用程序协调系统1428的其他组件)可以基于施加在系统上的约束(例如,用户约束)来确定资源可用性和分布,例如服务质量(QoS)、对数据输出的迫切需求(例如,以确定是执行实时处理还是延迟处理)等。
在至少一个实施例中,由部署系统1306中的应用程序或容器利用并由其共享的服务1320,可以包括计算服务1416、AI服务1418、可视化服务1420和/或其他服务类型。在至少一个实施例中,应用程序可以调用(例如,执行)一个或更多个服务1320,以执行针对应用程序的处理操作。在至少一个实施例中,应用程序可以利用计算服务1416来执行超级计算或其他高性能计算(HPC)任务。在至少一个实施例中,可以利用一个或更多个计算服务1416来执行并行处理(例如,使用并行计算平台1430),以通过一个或更多个应用程序和/或单个应用程序的一个或更多个任务基本上同时地处理数据。在至少一个实施例中,并行计算平台1430(例如,NVIDIA的CUDA)可以在GPU(GPGPU)(例如,GPU 1422)上实现通用计算。在至少一个实施例中,并行计算平台1430的软件层可以提供对GPU的虚拟指令集和并行计算元素的访问,以执行计算内核。在至少一个实施例中,并行计算平台1430可以包括存储器,并且在一些实施例中,可以在多个容器之间和之中,和/或在单个容器内的不同处理任务之间和之中共享存储器。在至少一个实施例中,可以为多个容器和/或容器内的多个进程生成进程间通信(IPC)调用,以使用来自并行计算平台1430的共享存储器段的相同数据(例如,其中一应用程序或多个应用程序的多个不同阶段正在处理相同的信息)。在至少一个实施例中,不是复制数据并将数据移动到存储器中的不同位置(例如,读/写操作),而是可以将存储器相同位置中的相同数据用于任何数量的处理任务(例如,在同一时间、不同时间等)。在至少一个实施例中,由于作为处理的结果数据被用于生成新数据,因此数据的新位置的该信息可以在各个应用程序之间存储和共享。在至少一个实施例中,数据的位置以及经更新或修改的数据的位置可以是如何理解容器中的有效负载的定义的一部分。
在至少一个实施例中,可以利用AI服务1418来执行推理服务,该推理服务用于执行与应用程序相关联的机器学习模型(例如,任务为执行应用程序的一个或更多个处理任务)。在至少一个实施例中,AI服务1418可以利用AI系统1424来执行机器学习模型(例如,诸如CNN之类的神经网络)以用于分割、重建、对象检测、特征检测、分类和/或其他推理任务。在至少一个实施例中,部署管线1410的应用程序可以使用来自训练系统1304的一个或更多个输出模型1316和/或应用程序的其他模型,来对成像数据执行推理。在至少一个实施例中,使用应用程序协调系统1428(例如,调度器)进行推理的两个或更多个示例可以是可用的。在至少一个实施例中,第一类别可以包括高优先级/低延时路径,其可以实现更高服务水平协议,例如用于在紧急情况下对紧急请求执行推理,或者在诊断过程中用于放射科医生。在至少一个实施例中,第二类别可以包括标准优先级路径,其可用于可能不紧急的请求或者可以在稍后的时间执行分析的情况。在至少一个实施例中,应用程序协调系统1428可以基于优先级路径来分配资源(例如,服务1320和/或硬件1322),以用于AI服务1418的不同推理任务。
在至少一个实施例中,共享存储器可以被安装到系统1400中的AI服务1418。在至少一个实施例中,共享存储器可以操作为高速缓存(或其他存储设备类型),并且可以用于处理来自应用程序的推理请求。在至少一个实施例中,当提交推理请求时,部署系统1306的一组API实例可以接收请求,并且可以选择一个或更多个实例(例如,为了最佳拟合、为了负载均衡等)来处理请求。在至少一个实施例中,为了处理请求,可以将请求输入到数据库中,如果尚未在高速缓存中,则可以从模型注册表1324定位机器学习模型,验证步骤可以确保将适当的机器学习模型加载到高速缓存中(例如,共享存储),和/或可以将模型的副本保存到高速缓存中。在至少一个实施例中,如果应用程序尚未运行或没有足够的应用程序的实例,则可使用调度器(例如,管线管理器1412的调度器)来启动在请求中引用的应用程序。在至少一个实施例中,如果尚未启动推理服务器来执行模型,则可以启动推理服务器。每个模型可以启动任意数量的推理服务器。在至少一个实施例中,在将推理服务器聚类的拉(pull)模型中,每当负载均衡有利时,就可以将模型高速缓存。在至少一个实施例中,推理服务器可以静态加载到相应的分布式服务器中。
在至少一个实施例中,可以使用在容器中运行的推理服务器来执行推理。在至少一个实施例中,推理服务器的实例可以与模型(并且可选地与模型的多个版本)相关联。在至少一个实施例中,如果在接收到对模型执行推理的请求时推理服务器的实例不存在,则可以加载新实例。在至少一个实施例中,当启动推理服务器时,可以将模型传递到推理服务器,使得可以使用相同的容器来服务不同的模型,只要推理服务器作为不同的实例运行即可。
在至少一个实施例中,在应用程序执行期间,可以接收对给定应用程序的推理请求,并且可以加载(如果尚未加载的话)容器(例如,托管推理服务器的实例),以及可以调用启动程序。在至少一个实施例中,容器中的预处理逻辑可以(例如,使用CPU和/或GPU)对传入的数据进行加载、解码和/或执行任何附加的预处理。在至少一个实施例中,一旦数据准备好进行推理,容器就可以根据需要对数据进行推理。在至少一个实施例中,这可以包括对一个图像(例如,手部X射线)的单个推理调用,或可要求对数百个图像(例如,胸部CT)进行推理。在至少一个实施例中,应用程序可在完成之前总结结果,其可以包括但不限于单个置信度得分、像素级分割、体素级分割、生成可视化或生成文本以总结结果。在至少一个实施例中,可以为不同的模型或应用程序分配不同的优先级。例如,一些模型可具有实时(TAT小于1分钟)优先级,而其他模型可具有较低的优先级(例如,TAT小于10分钟)。在至少一个实施例中,模型执行时间可以从请求机构或实体进行测量,并且可以包括合作网络遍历时间以及推理服务的执行时间。
在至少一个实施例中,请求在服务1320和推理应用程序之间的传送可以隐藏在软件开发工具包(SDK)后面,并且可以通过队列提供鲁棒的传输。在至少一个实施例中,将通过API将请求放置在队列中,以用于个体应用程序/租户ID组合,并且SDK将从队列中拉取请求并将请求提供给应用程序。在至少一个实施例中,在SDK将从中拾取队列的环境中,可以提供队列的名称。在至少一个实施例中,通过队列的异步通信可能有用,因为它可以允许应用程序的任何实例在其可用时拾取工作。可以通过队列将结果传送回去,以确保没有数据丢失。在至少一个实施例中,队列还可以提供对工作进行分割的能力,因为最高优先级的工作可以进入与应用程序的大多数实例连接的队列,而最低优先级的工作可以进入与单个实例连接的队列,所述实例按照接收到的顺序处理任务。在至少一个实施例中,应用程序可以在GPU加速的实例上运行,所述实例在云1426中生成,并且推理服务可以在GPU上执行推理。
在至少一个实施例中,可以利用可视化服务1420来生成用于查看应用程序和/或部署管线1410输出的可视化。在至少一个实施例中,可视化服务1420可以利用GPU 1422来生成可视化。在至少一个实施例中,可视化服务1420可以实现诸如光线追踪之类的渲染效果,以生成更高质量的可视化。在至少一个实施例中,可视化可以包括但不限于2D图像渲染、3D体渲染、3D体重建、2D层析切片、虚拟现实显示、增强现实显示等。在至少一个实施例中,可以使用虚拟化环境来生成虚拟交互显示或环境(例如,虚拟环境),以供系统用户(例如,医生、护士、放射科医生等)进行交互。在至少一个实施例中,可视化服务1420可以包括内部可视化器、电影和/或其他渲染或图像处理能力或功能(例如,光线追踪、光栅化、内部光学器件等)。
在至少一个实施例中,硬件1322可以包括GPU 1422、AI系统1424、云1426和/或用于执行训练系统1304和/或部署系统1306的任何其他硬件。在至少一个实施例中,GPU 1422(例如,NVIDIA的TESLA和/或QUADRO GPU)可包括可用于执行计算服务1416、AI服务1418、可视化服务1420、其他服务和/或软件1318的任何特征或功能的处理任务的任意数量的GPU。例如,对于AI服务1418,GPU 1422可用于对成像数据(或机器学习模型使用的其他数据类型)执行预处理,对机器学习模型的输出执行后处理和/或执行推理(例如以执行机器学习模型)。在至少一个实施例中,云1426、AI系统1424和/或系统1400的其他组件可以使用GPU1422。在至少一个实施例中,云1426可以包括用于深度学习任务的GPU优化的平台。在至少一个实施例中,AI系统1424可以使用GPU,并且可以使用一个或更多个AI系统1424来执行云1426(或者任务为深度学习或推理的至少部分)。同样,尽管硬件1322被示出为离散组件,但这并不意图是限制,并且硬件1322的任何组件可以与硬件1322的任何其他组件组合,或由硬件1322的任何其他组件利用。
在至少一个实施例中,AI系统1424可包括专门构建的计算系统(例如,超级计算机或HPC),该计算系统配置用于推理、深度学习、机器学习和/或其他人工智能任务。在至少一个实施例中,除了CPU、RAM、存储器和/或其他组件、特征或功能之外,AI系统1424(例如,NVIDIA的DGX)还可以包括可以使用多个GPU 1422来执行分GPU优化的软件(例如,软件栈)。在至少一个实施例中,可以在云1426中(例如,在数据中心中)实现一个或更多个AI系统1424,以执行系统1400的一些或全部基于AI的处理任务。
在至少一个实施例中,云1426可以包括GPU加速的基础设施(例如,NVIDIA的NGC),其可以提供用于执行系统1400的处理任务的GPU优化的平台。在至少一个实施例中,云1426可以包括AI系统1424,其用于执行系统1400的一个或更多个基于AI的任务(例如,作为硬件抽象和缩放平台)。在至少一个实施例中,云1426可以与利用多个GPU的应用程序协调系统1428集成,以实现应用程序和服务1320之间和之中的无缝缩放和负载均衡。在至少一个实施例中,如本文所述,云1426可以负责执行系统1400的至少一些服务1320,包括计算服务1416、AI服务1418和/或可视化服务1420。在至少一个实施例中,云1426可以执行大小批的推理(例如,执行NVIDIA的TENSOR RT),提供加速的并行计算API和平台1430(例如,NVIDIA的CUDA),执行应用程序协调系统1428(例如,KUBERNETES),提供图形渲染API和平台(例如,用于光线跟踪,2D图形、3D图形和/或其他渲染技术以产生更高质量的电影效果),和/或可以为系统1400提供其他功能。
图15A示出了根据至少一个实施例的用于训练、重新训练或更新机器学习模型的过程1500的数据流程图。在至少一个实施例中,可以使用作为非限制性示例的图14的系统1400来执行过程1500。在至少一个实施例中,过程1500可以利用系统1400的服务1320和/或硬件1322,如本文所述。在至少一个实施例中,由过程1500生成的精炼模型1512可以由部署系统1306针对部署管线1410中的一个或更多个容器化的应用程序执行。
在至少一个实施例中,模型训练1314可包括使用新的训练数据(例如,新的输入数据(诸如客户数据集1506),和/或与输入数据相关联的新的地面实况数据)重新训练或更新初始模型1504(例如,预训练模型)。在至少一个实施例中,为了重新训练或更新初始模型1504,可以重置或删除初始模型1504的输出或损失层,和/或用更新的或新的输出或损失层代替。在至少一个实施例中,初始模型1504可以具有从先前的训练中保留下来的先前精细调整的参数(例如,权重和/或偏差),因此训练或重新训练1314可能不需要花费与从头开始训练模型一样长的时间或不需要那么多的处理。在至少一个实施例中,在模型训练1314期间,通过重置或替换初始模型1504的输出或损失层,在新的客户数据集1506(例如图13的图像数据1308)上生成预测时,可以基于与输出或损失层的精度相关联的损失计算,更新和重新调整新数据集的参数。
在至少一个实施例中,可以将经预训练的模型1406存储在数据存储或注册表中(例如,图13的模型注册表1324)。在至少一个实施例中,经预训练的模型1406可能已经至少部分地在除了执行过程1500的设施之外的一个或更多个设施处被训练。在至少一个实施例中,为了保护患者、受试者或不同设施的客户的隐私和权利,经预训练的模型1406可能已经使用本地生成的客户或患者数据在本地进行了训练。在至少一个实施例中,可以使用云1426和/或其他硬件1322来训练经预训练的模型1406,但是机密的、受隐私保护的患者数据可以不被传送到云1426的任何组件(或其他非本地硬件)、由其使用或由其访问。在至少一个实施例中,如果使用来自不止一个设施的患者数据来训练经预训练的模型1406,则在来自另一设施的患者或客户数据上进行训练之前,经预训练的模型1406可能已经针对每个设施进行了单独训练。在至少一个实施例中,例如在客户或患者数据已发布隐私问题(例如,通过放弃,用于实验用途等),或者其中客户或患者数据包括在公共数据集中的情况下,来自任意数量的设施的客户或患者数据可以用于在本地和/或外部训练经预训练的模型1406,例如在数据中心中或其他云计算基础设施中。
在至少一个实施例中,在选择应用程序以在部署管线1410中使用时,用户还可以选择用于特定应用程序的机器学习模型。在至少一个实施例中,用户可能没有模型以使用,因此用户可以选择要与应用程序一起使用的经预训练的模型1406。在至少一个实施例中,经预训练的模型1406可能没有被优化用于在用户设施的客户数据集1506上生成准确的结果(例如,基于患者多样性、人口统计、所使用的医学成像设备的类型等)。在至少一个实施例中,在将经预训练的模型1406部署到部署管线1410中以与一个或更多个应用程序一起使用之前,经预训练的模型1406可以被更新、重新训练和/或微调,以用于在各个设施处使用。
在至少一个实施例中,用户可以选择要更新、重新训练和/或微调的经预训练的模型1406,并且经预训练的模型1406可以称为过程1500中训练系统1304的初始模型1504。在至少一个实施例中,客户数据集1506(例如,成像数据、基因组数据、测序数据或由设施处的设备生成的其他数据类型)可用于对初始模型1504执行模型训练1314(其可包括但不限于传递学习),以生成精炼模型1512。在至少一个实施例中,可以由训练系统1304生成与客户数据集1506相对应的地面实况数据。在至少一个实施例中,可以至少部分地由临床医生、科学家、医生、从业者在设施处生成地面实况数据(例如,如图13中的标记的临床数据1312)。
在至少一个实施例中,在一些示例中可以使用AI辅助注释1310来生成地面实况数据。在至少一个实施例中,AI辅助注释1310(例如,使用AI辅助注释SDK实现)可以利用机器学习模型(例如,神经网络)来生成用于客户数据集的建议或预测的地面实况数据。在至少一个实施例中,用户1510可以在计算设备1508上的用户界面(图形用户界面(GUI))内使用注释工具。
在至少一个实施例中,用户1510可以经由计算设备1508与GUI交互,以编辑或微调(自动)注释。在至少一个实施例中,多边形编辑特征可以用于将多边形的顶点移动到更精确或微调的位置。
在至少一个实施例中,一旦客户数据集1506具有相关联的地面实况数据,则地面实况数据(例如,来自AI辅助注释、手动标记等)可以在模型训练1314期间用于生成精炼模型1512。在至少一个实施例中,客户数据集1506可以被应用到初始模型1504任意次数,并且地面实况数据可以用于更新初始模型1504的参数,直到对于精炼模型1512达到可接受的精度水平为止。在至少一个实施例中,一旦生成精炼模型1512,就可以在设施处的一个或更多个部署管线1410内部署精炼模型1512,以用于执行关于医学成像数据的一个或更多个处理任务。
在至少一个实施例中,可以将精炼模型1512上传到模型注册表1324中的经预训练的模型1406,以由另一个设施选择。在至少一个实施例中,他的过程可以在任意数量的设施处完成,使得可以在新数据集上对精炼模型1512进一步精炼任意次数,以生成更通用的模型。
图15B是根据至少一个实施例的用于利用经预训练的注释模型来增强注释工具的客户端-服务器架构1532的示例图示。在至少一个实施例中,可以基于客户端-服务器架构1532来实例化AI辅助注释工具1536。在至少一个实施例中,成像应用程序中的注释工具1536可以帮助放射线医生,例如识别器官和异常。在至少一个实施例中,成像应用程序可以包括软件工具,作为非限制性示例,所述软件工具帮助用户1510识别原始图像1534中(例如,在3D MRI或CT扫描中)的特定感兴趣器官上的几个极值点,并接收特定器官的所有2D切片的自动注释结果。在至少一个实施例中,结果可以作为训练数据1538存储在数据存储中,并且用作(例如但不限于)用于训练的地面实况数据。在至少一个实施例中,当计算设备1508发送用于AI辅助注释1310的极值点时,例如,深度学习模型可以接收该数据作为输入并返回分割器官或异常的推理结果。在至少一个实施例中,预实例化的注释工具(例如图15B中的AI辅助注释工具1536B)可以通过对服务器(诸如注释助手服务器1540)进行API调用(例如API调用1544)来增强,注释助手服务器1540可包括存储在例如注释模型注册表中的一组经预训练的模型1542。在至少一个实施例中,注释模型注册表可以存储经预训练的模型1542(例如,机器学习模型,诸如深度学习模型),其被预训练以对特定器官或异常执行AI辅助注释。可以通过使用训练管线1404来进一步更新这些模型。在至少一个实施例中,随着添加新的标记的临床数据1312,可以随时间改进预安装的注释工具。
这样的组件可用于生成模拟网络训练过程中的失败情况的合成数据,这可有助于改善网络的性能,同时限制合成数据的量以避免过度拟合。
自动驾驶车辆
图16A示出了根据至少一个实施例的自动驾驶车辆1600的示例。在至少一个实施例中,自动驾驶车辆1600(在本文中可替代地称为“车辆1600”)可以是但不限于客运车辆,例如汽车、卡车、公共汽车和/或可容纳一个或更多个乘客的另一种类型的车辆。在至少一个实施例中,车辆1600可以是用于拖运货物的半牵引车-拖车。在至少一个实施例中,车辆1600可以是飞机、机器人车辆或其他类型的车辆。
可以根据由美国运输部下属的国家公路交通安全管理局(“NHTSA”)和汽车工程师学会(“SAE”)“与用于道路机动车辆的驾驶自动化系统有关的术语(Taxonomy andDefinitions for Terms Related to Driving Automation Systems for On-Road MotorVehicles)”(例如,于2018年6月15日发布的标准号J3016-201806,于2016年9月30日发布的标准号J3016-201609,以及该版本的以前和将来的版本此标准)定义的自动化级别来描述自动驾驶车辆。在一个或更多个实施例中,车辆1600可能能够根据自动驾驶级别的级别1-级别5中的一个或更多个来进行功能。例如,在至少一个实施例中,根据实施例,车辆1600可能能够进行条件自动化(级别3)、高度自动化(级别4)和/或全自动(级别5)。
在至少一个实施例中,车辆1600可以包括但不限于组件,诸如底盘、车身、车轮(例如2、4、6、8、18等)、轮胎、车轴和车辆的其他组件。在至少一个实施例中,车辆1600可以包括但不限于推进系统1650,例如内燃机、混合动力装置、全电动发动机和/或另一种推进系统类型。在至少一个实施例中,推进系统1650可以连接至车辆1600的传动系,其可以包括但不限于变速器,以使得能够对车辆1600进行推进。在至少一个实施例中,可以响应于从油门/加速器1652接收信号以控制推进系统1650。
在至少一个实施例中,当推进系统1650正在运行时(例如,当车辆1600行驶时),转向系统1654(其可以包括但不限于方向盘)用于使车辆1600转向(例如,沿着期望的路径或路线)。在至少一个实施例中,转向系统1654可以从转向致动器1656接收信号。方向盘对于全自动化(级别5)功能可以是可选的。在至少一个实施例中,制动传感器系统1646可以用于响应于从制动致动器1648和/或制动传感器接收到的信号来操作车辆制动器。
在至少一个实施例中,控制器1636可以包括但不限于一个或更多个片上系统(“SoC”)(图16A中未示出)和/或图形处理单元(“GPU”)向车辆1600的一个或更多个组件和/或系统提供信号(例如,代表命令)。例如,在至少一个实施例中,控制器1636可以发送信号以通过制动致动器1648操作车辆制动,通过一个或更多个转向致动器1656操作转向系统1654,和/或通过一个或更多个油门(throttle)/加速器1652操作推进系统1650。在至少一个实施例中,一个或更多个控制器1636可以包括一个或更多个机载(例如,集成)计算设备(例如超级计算机),其处理传感器信号并输出操作命令(例如,表示命令的信号)以实现自动驾驶和/或协助驾驶员驾驶车辆1600。在至少一个实施例中,一个或更多个控制器1636可以包括用于自动驾驶功能的第一控制器,用于功能安全功能的第二控制器,用于人工智能功能(例如计算机视觉)的第三控制器,用于信息娱乐功能的第四控制器,用于紧急情况下的冗余的第五控制器和/或其他控制器。在至少一个实施例中,单个控制器可以处理上述功能中的两个或更多个,两个或更多控制器可以处理单个功能和/或其任何组合。
在至少一个实施例中,一个或更多个控制器1636响应于从一个或更多个传感器(例如,传感器输入)接收到的传感器数据,提供用于控制车辆1600的一个或更多个组件和/或系统的信号。在至少一个实施例中,传感器数据可以从传感器接收,传感器类型例如但不限于一个或更多个全球导航卫星系统(“GNSS”)传感器1658(例如,一个或更多个全球定位系统传感器)、一个或更多个RADAR传感器1660、一个或更多个超声波传感器1662、一个或更多个LIDAR传感器1664、一个或更多个惯性测量单元(IMU)传感器1666(例如,一个或更多个加速度计、一个或更多个陀螺仪、一个或更多个磁罗盘、一个或更多个磁力计等)、一个或更多个麦克风1696、一个或更多个立体声相机1668、一个或更多个广角相机1670(例如鱼眼相机)、一个或更多个红外相机1672、一个或更多个环绕相机1674(例如,360度相机)、远程相机(图16A中未示出)、中程相机(图16A中未示出)、一个或更多个速度传感器1644(例如,用于测量车辆1600的速度)、一个或更多个振动传感器1642、一个或更多个转向传感器1640、一个或更多个制动传感器(例如,作为制动传感器系统1646的一部分)和/或其他传感器类型接收。
在至少一个实施例中,一个或更多个控制器1636可以从车辆1600的仪表板1632接收输入(例如,由输入数据表示)并通过人机接口(“HMI”)显示器1634、声音信号器、扬声器和/或车辆1600的其他组件提供输出(例如,由输出数据、显示数据等表示)。在至少一个实施例中,输出可包括信息,诸如车速、速度、时间、地图数据(例如,高清晰度地图(图16A中未显示)、位置数据(例如,车辆1600的位置,例如在地图上)、方向、其他车辆的位置(例如,占用光栅)、关于对象的信息以及由一个或更多个控制器1636感知到的对象的状态等。例如,在至少一个实施例中,HMI显示器1634可以显示关于一个或更多个对象的存在的信息(例如,路牌、警告标志、交通信号灯变更等)和/或有关驾驶操作车辆已经、正在或将要制造的信息(例如,现在改变车道、在两英里内驶出34B出口等)。
在至少一个实施例中,车辆1600还包括网络接口1624,其可以使用一个或更多个无线天线1626和/或一个或更多个调制解调器通过一个或更多个网络进行通信。例如,在至少一个实施例中,网络接口1624可能能够通过长期演进(“LTE”)、宽带码分多址(“WCDMA”)、通用移动电信系统(“UMTS”)、全球移动通信系统(“GSM”)、IMT-CDMA多载波(“CDMA2000”)等进行通信。在至少一个实施例中,一个或更多个无线天线1626还可以使用一个或更多个局域网(例如Bluetooth、Bluetooth Low Energy(LE)、Z-Wave、ZigBee等)和/或一个或更多个低功耗广域网(以下简称“LPWAN”)(例如LoRaWAN、SigFox等),使环境中的对象(例如,车辆、移动设备)之间进行通信。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关联的推理和/或训练操作。在至少一个实施例中,推理和/或训练逻辑715可以在系统图16A中用于至少部分地基于使用神经网络训练操作\神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来推理或预测操作。
此类组件可用以产生模拟网络训练过程中的失效情况的合成数据,这可帮助改进网络的性能,同时限制合成数据的量以避免过度拟合。
图16B示出了根据至少一个实施例的图16A的自动驾驶车辆1600的相机位置和视野的示例。在至少一个实施例中,相机和各自的视野是一个示例实施例,并且不旨在进行限制。例如,在至少一个实施例中,可以包括附加的和/或替代的相机和/或相机可以位于车辆1600上的不同位置。
在至少一个实施例中,用于相机的相机类型可以包括但不限于可以适于与车辆1600的组件和/或系统一起使用的数字相机。在至少一个实施例中,一个或更多个相机可以以汽车安全完整性等级(“ASIL”)B和/或其他ASIL进行操作。在至少一个实施例中,根据实施例,相机类型可以具有任何图像捕获速率,例如60帧每秒(fps)、120fps、240fps等。在至少一个实施例中,相机可以能够使用滚动快门、全局快门、另一种类型的快门或其组合。在至少一个实施例中,滤色器阵列可以包括红色透明透明(“RCCC”)滤色器阵列、红色透明透明蓝色(“RCCB”)滤色器阵列、红色蓝色绿色透明(“RBGC”)滤色器阵列、Foveon X3滤色器阵列、拜耳(Bayer)传感器(“RGGB”)滤色器阵列、单色传感器滤色器阵列和/或其他类型的滤色器阵列。在至少一个实施例中,可以使用透明像素相机,例如具有RCCC、RCCB和/或RBGC滤色器阵列的相机,以努力提高光敏性。
在至少一个实施例中,一个或更多个相机可以用于执行先进驾驶员辅助系统(“ADAS”)功能(例如,作为冗余或故障安全设计的一部分)。例如,在至少一个实施例中,可以安装多功能单声道相机以提供包括车道偏离警告、交通标志辅助和智能大灯控制的功能。在至少一个实施例中,一个或更多个相机(例如,所有的相机)可以同时记录并提供图像数据(例如,视频)。
在至少一个实施例中,可以将一个或更多个相机安装在安装组件中,例如定制设计的(三维(“3D”)打印的)组件,以便切出杂散光和来自在汽车内的反光(例如,仪表板的反射在挡风玻璃镜中反光),其可能会干扰相机的图像数据捕获能力。关于后视镜安装组件,在至少一个实施例中,后视镜组件可以是3D打印定制的,使得相机安装板匹配后视镜的形状。
在至少一个实施例中,一个或更多个相机可以被集成到后视镜中。对于侧视相机,一个或更多个相机也可以集成在舱室的每个角落的四个支柱内。
在至少一个实施例中,具有包括车辆1600前面的环境的部分的视野的相机(例如,前向相机)可以用于环视,以及在一个或更多个控制器1636和/或控制SoC的帮助下帮助识别向前的路径和障碍物,从而提供对于生成占用网格和/或确定优选的车辆路径至关重要的信息。在至少一个实施例中,前向相机可以用于执行许多与LIDAR相同的ADAS功能,包括但不限于紧急制动、行人检测和避免碰撞。在至少一个实施例中,前向相机也可以用于ADAS功能和系统,包括但不限于车道偏离警告(“LDW”)、自动巡航控制(“ACC”)和/或其他功能(例如交通标志识别)。
在至少一个实施例中,各种相机可以用于前向配置,包括例如包括CMOS(“互补金属氧化物半导体”)彩色成像器的单目相机平台。在至少一个实施例中,广角相机1670可以用于感知从外围进入的对象(例如,行人、过马路或自行车)。尽管在图16B中仅示出了一个广角相机1670,但是,在其他实施例中,车辆1600上可以有任何数量(包括零)的广角相机。在至少一个实施例中,任何数量的远程相机1698(例如,远程立体相机对)可用于基于深度的对象检测,尤其是对于尚未训练神经网络的对象。在至少一个实施例中,远程相机1698也可以用于对象检测和分类以及基本对象跟踪。
在至少一个实施例中,任何数量的立体声相机1668也可以包括在前向配置中。在至少一个实施例中,一个或更多个立体声相机1668可以包括集成控制单元,该集成控制单元包括可缩放处理单元,该可缩放处理单元可以提供可编程逻辑(“FPGA”)和具有单个芯片上集成的控制器局域网(“CAN”)或以太网接口的多核心微处理器。在至少一个实施例中,这样的单元可以用于生成车辆1600的环境的3D地图,包括对图像中所有点的距离估计。在至少一个实施例中,一个或更多个立体相机1668可以包括但不限于紧凑型立体视觉传感器,其可以包括但不限于两个相机镜头(左右分别一个)和一个图像处理芯片,其可以测量从车辆1600到目标对象的距离并使用所生成的信息(例如,元数据)来激活自主紧急制动和车道偏离警告功能。在至少一个实施例中,除了本文所述的那些之外,还可以使用其他类型的立体相机1668。
在至少一个实施例中,具有包括车辆1600侧面的环境的一部分的视野的相机(例如,侧视相机)可以用于环绕查看,从而提供用于创建和更新占据网格的信息,以及产生侧面碰撞警告。例如,在至少一个实施例中,环绕相机1674(例如,如图16B所示的四个环绕相机)可以定位在车辆1600上。在至少一个实施例中,一个或更多个环绕相机1674可以包括但不限于,任意数量和组合的广角相机、一个或更多个鱼眼相机、一个或更多个360度相机和/或类似相机。例如,在至少一个实施例中,四个鱼眼相机可以位于车辆1600的前、后和侧面。在至少一个实施例中,车辆1600可以使用三个环绕相机1674(例如,左、右和后面),并且可以利用一个或更多个其他相机(例如,前向相机)作为第四个环视相机。
在至少一个实施例中,具有包括车辆1600后方的环境的一部分的视野的相机(例如,后视相机)可以用于停车辅助、环视、后方碰撞警告、以及创建和更新占用光栅。在至少一个实施例中,可以使用各种各样的相机,包括但不限于还适合作为一个或更多个前向相机的相机(例如,远程相机1698和/或一个或更多个中程相机1676、一个或更多个立体相机1668、一个或更多个红外相机1672等),如本文所述。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面提供了关于推理和/或训练逻辑715的细节。在至少一个实施例中,推理和/或训练逻辑715可以在图16B的系统中使用,用于至少部分地基于使用神经网络训练操作计算出的权重参数、神经网络函数和/或架构、或本文所述的神经网络用例来推理或预测操作。
此类组件可用以产生模拟网络训练过程中的失效情况的合成数据,这可帮助改进网络的性能,同时限制合成数据的量以避免过度拟合。
图16C示出了根据至少一个实施例的图16A的自动驾驶车辆1600的示例系统架构的框图。在至少一个实施例中,图16C中的车辆1600的一个或更多个组件、一个或更多个特征和一个或更多个系统中的每一个都示出为经由总线1602连接。在至少一个实施例中,总线1602可包括但不限于CAN数据接口(在本文中可替代地称为“CAN总线”)。在至少一个实施例中,CAN总线可以是车辆1600内部的网络,用于帮助控制车辆1600的各种特征和功能,例如制动器的致动、加速、制动、转向、雨刷等。在一个实施例中,总线1602可以配置成具有数十个甚至数百个节点,每个节点具有其自己的唯一识别符(例如,CAN ID)。在至少一个实施例中,可以读取总线1602以找到方向盘角度、地面速度、发动机每分钟转动次数(“RPM”)、按钮位置和/或其他车辆状态指示器。在至少一个实施例中,总线1602可以是符合ASIL B的CAN总线。
在至少一个实施例中,除了CAN之外或来自CAN,可使用FlexRay和/或以太网(Ethernet)。在至少一个实施例中,可以有任意数量的总线1602,其可以包括但不限于零或更多的CAN总线,零或更多的FlexRay总线,零或更多的以太网总线,和/或零或更多的使用其他协议的其他类型的总线。在至少一个实施例中,两个或更多个总线可以用于执行不同的功能,和/或可以用于冗余。例如,第一总线可以用于碰撞避免功能,并且第二总线可以用于致动控制。在至少一个实施例中,每个总线1602可以与车辆1600的任何组件通信,并且两个或更多个总线1602可以与相同的组件通信。在至少一个实施例中,任何数量的片上系统(“SoC”)1604中的每一个,一个或更多个控制器1636中的每一个和/或车辆内的每个计算机都可以访问相同的输入数据(例如,来自车辆1600的传感器的输入),并且可以连接到公共总线,例如CAN总线。
在至少一个实施例中,车辆1600可以包括一个或更多个控制器1636,诸如本文关于图16A所描述的那些。控制器1636可以用于多种功能。在至少一个实施例中,控制器1636可以耦合到车辆1600的各种其他组件和系统中的任何一个,并且可以用于控制车辆1600、车辆1600的人工智能、车辆1600的信息娱乐和/或其他功能。
在至少一个实施例中,车辆1600可以包括任何数量的SoC 1604。SoC 1604中的每一个可以包括但不限于中央处理单元(“一个或更多个CPU”)1606、图形处理单元(“一个或更多个GPU”)1608、一个或更多个处理器1610、一个或更多个高速缓存1612、一个或更多个加速器1614、一个或更多个数据存储1616和/或其他未显示的组件和特征。在至少一个实施例中,一个或更多个SoC 1604可以用于在各种平台和系统中控制车辆1600。例如,在至少一个实施例中,一个或更多个SoC 1604可以与高清晰度(“HD”)地图1622在系统(例如,车辆1600的系统)中组合,该高清晰度地图1622可以经由网络接口1624从一个或更多个服务器(图16C中未示出)获得地图刷新和/或更新。
在至少一个实施例中,一个或更多个CPU 1606可以包括CPU集群或CPU复合体(在本文中可替代地称为“CCPLEX”)。在至少一个实施例中,一个或更多个CPU 1606可以包括多个核心和/或二级(“L2”)高速缓存。例如,在至少一个实施例中,一个或更多个CPU 1606可以在相互耦合的多处理器配置中包括八个核心。在至少一个实施例中,一个或更多CPU1606可以包括四个双核心集群,其中每个集群具有专用的L2高速缓存(例如,2MB L2高速缓存)。在至少一个实施例中,一个或更多CPU 1606(例如,CCPLEX)可以配置成支持同时的集群操作,使得一个或更多CPU 1606的集群的任何组合在任何给定的时间都可以是活跃的。
在至少一个实施例中,一个或更多个CPU 1606可以实现电源管理功能,这些功能包括但不限于以下特征中的一个或更多个:空闲时可以自动对各个硬件模块进行时钟门控以节省动态功率;当该核心由于执行等待中断(“WFI”)/事件等待(“WFE”)指令而未主动执行指令时,可以对每个核心时钟进行门控;每个核心都可以独立供电;当所有核心都被时钟门控或功率门控时,每个核心集群可以被独立地时钟门控;以及/或当所有核心都被功率门控时,每个核心集群可以被独立地功率门控。在至少一个实施例中,一个或更多CPU 1606可以进一步实现用于管理功率状态的增强算法,其中指定了允许的功率状态和预期的唤醒时间,并且硬件/微码确定了针对核心、集群和CCPLEX输入的最佳功率状态。在至少一个实施例中,处理核心可以在软件中支持简化的功率状态输入序列,其中工作被分担给微码。
在至少一个实施例中,一个或更多个GPU 1608可以包括集成的GPU(在本文中或者称为“iGPU”)。在至少一个实施例中,一个或更多个GPU 1608可以是可编程的,并且对于并行工作负载可以是有效的。在至少一个实施例中,一个或更多个GPU 1608可以使用增强的张量指令集。在至少一个实施例中,一个或更多个GPU 1608可以包括一个或更多个流式微处理器,其中每个流式微处理器可以包括一级(“L1”)高速缓存(例如,具有至少96KB的存储容量的L1高速缓存),以及两个或更多个流式微处理器可以共享L2高速缓存(例如,具有512KB存储容量的L2高速缓存)。在至少一个实施例中,一个或更多个GPU 1608可以包括至少八个流式微处理器。在至少一个实施例中,一个或更多个GPU 1608可以使用计算应用编程接口(API)。在至少一个实施例中,一个或更多GPU 1608可以使用一个或更多个并行计算平台和/或编程模型(例如,NVIDIA的CUDA)。
在至少一个实施例中,一个或更多个GPU 1608可以经功耗优化以在汽车和嵌入式用例中获得最佳性能。例如,在一个实施例中,可以在鳍式场效应晶体管(“FinFET”)上制造一个或更多个GPU 1608。在至少一个实施例中,每个流式微处理器可以包含多个划分为多个块的混合精度处理核心,。例如但不限于,可以将64个PF32核心和32个PF64核心划分为四个处理块。在至少一个实施例中,可以为每个处理块分配16个FP32核心、8个FP64核心、16个INT32核心、两个用于深度学习矩阵算术的混合精度NVIDIA张量核心、零级(“L0”)指令缓存、线程束调度器、分派单元和/或64KB寄存器文件。在至少一个实施例中,流式微处理器可以包括独立的并行整数和浮点数据路径来提供混合了计算和寻址运算的工作量的有效执行。在至少一个实施例中,流式微处理器可以包括独立的线程调度能力,以实现更细粒度的同步和并行线程之间的协作。在至少一个实施例中,流式微处理器可以包括组合的L1数据高速缓存和共享存储器单元,以便在简化编程的同时提高性能。
在至少一个实施例中,一个或更多个GPU 1608可以包括高带宽存储器(“HBM”)和/或16GB HBM2存储器子系统,以在一些示例中提供约900GB/秒的峰值存储带宽。在至少一个实施例中,除了或替代于HBM存储器,可以使用同步图形随机存取存储器(“SGRAM”),例如图形双倍数据速率类型的五同步随机存取存储器(“GDDR5”)。
在至少一个实施例中,一个或更多个GPU 1608可以包括统一存储器技术。在至少一个实施例中,地址转换服务(“ATS”)支持可以用于允许一个或更多个GPU 1608直接访问一个或更多个CPU 1606页表。在至少一个实施例中,当一个或更多个GPU 1608存储器管理单元(“MMU”)经历未命中时,可以将地址转换请求发送到一个或更多个CPU 1606。作为响应,在至少一个实施例中,一个或更多个CPU 1606中的2CPU可以在其页面表中查找地址的虚拟-物理的映射并将转换传送回一个或更多个GPU 1608。在至少一个实施例中,统一存储器技术可以允许单个统一虚拟地址空间用于一个或更多个CPU 1606和一个或更多个GPU1608两者的存储器,从而简化了一个或更多个GPU 1608的编程以及将应用移植到一个或更多个GPU 1608。
在至少一个实施例中,一个或更多个GPU 1608可以包括任意数量的访问计数器,其可以跟踪一个或更多个GPU 1608对其他处理器的存储器的访问频率。在至少一个实施例中,一个或更多个访问计数器可以帮助确保将存储器页移动到最频繁访问页面的处理器的物理存储器中,从而提高处理器之间共享的存储器范围的效率。
在至少一个实施例中,一个或更多个SoC 1604可以包括任何数量的高速缓存1612,包括本文所述的那些。例如,在至少一个实施例中,一个或更多个高速缓存1612可以包括可用于一个或更多个CPU 1606和一个或更多个GPU 1608(例如,连接到CPU 1606和GPU1608)的三级(“L3”)高速缓存。在至少一个实施例中,一个或更多个高速缓存1612可以包括回写式高速缓存,该回写式高速缓存可以例如通过使用高速缓存相干协议(例如,MEI、MESI、MSI等)来跟踪线的状态。在至少一个实施例中,尽管可以使用较小的高速缓存大小,根据实施例,L3高速缓存可以包括4MB或更多。
在至少一个实施例中,一个或更多个SoC 1604可以包括一个或更多个加速器1614(例如,硬件加速器、软件加速器或其组合)。在至少一个实施例中,一个或更多个SoC 1604可以包括硬件加速集群,其可以包括优化的硬件加速器和/或大的片上存储器。在至少一个实施例中,大的片上存储器(例如4MB的SRAM)可以使硬件加速集群能够加速神经网络和其他计算。在至少一个实施例中,硬件加速集群可以用于补充一个或更多个GPU 1608并且卸载一个或更多个GPU 1608的一些任务(例如,释放一个或更多个GPU 1608的更多周期以执行其他任务)。在至少一个实施例中,一个或更多个加速器1614可以用于足够稳定以经得起加速检验的目标工作负载(例如,感知、卷积神经网络(“CNN”)、递归神经网络(“RNN”)等)。在至少一个实施例中,CNN可以包括基于区域或区域卷积神经网络(“RCNN”)和快速RCNN(例如,如用于对象检测)或其他类型的CNN。
在至少一个实施例中,一个或更多个加速器1614(例如,硬件加速集群)可以包括一个或更多个深度学习加速器(“DLA”)。一个或更多个DLA可以包括但不限于一个或更多个Tensor处理单元(“TPU”),其可以配置成每秒提供附加的10万亿次操作用于深度学习应用和推理。在至少一个实施例中,TPU可以是配置成并被优化用于执行图像处理功能(例如,用于CNN、RCNN等)的加速器。可以针对神经网络类型和浮点运算以及推理的特定集合进一步优化一个或更多个DLA。在至少一个实施例中,一个或更多个DLA的设计可以提供比典型的通用GPU更高的每毫米性能,并且通常大大超过CPU的性能。在至少一个实施例中,一个或更多个TPU可执行若干功能,包括支持例如INT8、INT16和FP16数据类型以用于特征和权重的单实例卷积功能以及后处理器功能的。在至少一个实施例中,一个或更多个DLA可以针对各种功能中的任何功能,在处理或未处理的数据上快速且有效地执行神经网络,尤其是CNN,包括例如但不限于:用于使用来自相机传感器的数据进行对象识别和检测的CNN;用于使用来自相机传感器的数据进行距离估算的CNN;用于使用来自麦克风1696的数据进行紧急车辆检测以及识别和检测的CNN;用于使用来自相机传感器的数据进行人脸识别和车主识别的CNN;以及/或用于安全和/或安全相关事件的CNN。
在至少一个实施例中,DLA可以执行一个或更多个GPU 1608的任何功能,并且通过使用推理加速器,例如,设计者可以将一个或更多个DLA或一个或更多个GPU 1608作为目标用于任何功能。例如,在至少一个实施例中,设计者可以将CNN的处理和浮点运算集中在一个或更多个DLA上,并将其他功能留给一个或更多个GPU 1608和/或一个或更多个加速器1614。
在至少一个实施例中,一个或更多个加速器1614(例如硬件加速集群)可以包括(一个或更多个)可编程视觉加速器(“PVA”),其在本文中可以可替代地称为计算机视觉加速器。在至少一个实施例中,一个或更多个PVA可以设计和配置为加速用于高级驾驶员辅助系统(“ADAS”)1638、自动驾驶、增强现实(“AR”)应用和/或虚拟现实(“VR”)应用的计算机视觉算法。一个或更多个PVA可以在性能和灵活性之间取得平衡。例如,在至少一个实施例中,一个或更多个PVA中的每一个可以包括例如但不限于任何数量的精简指令集计算机(“RISC”)核心、直接存储器访问(“DMA”)和/或任意数量的向量处理器。
在至少一个实施例中,RISC核心可以与图像传感器(例如,本文描述的任意相机的图像传感器)、图像信号处理器和/或其他处理器交互。在至少一个实施例中,每个RISC核心可以包括任意数量的存储器。在至少一个实施例中,根据实施例,RISC核心可以使用多种协议中的任意一种。在至少一个实施例中,RISC核心可以执行实时操作系统(“RTOS”)。在至少一个实施例中,可以使用一个或更多个集成电路设备、专用集成电路(“ASIC”)和/或存储设备来实现RISC核心。例如,在至少一个实施例中,RISC核心可以包括指令高速缓存和/或紧密耦合的RAM。
在至少一个实施例中,DMA可以使(一个或更多个)PVA的组件能够独立于一个或更多个CPU 1606访问系统存储器。在至少一个实施例中,DMA可以支持用于向PVA提供优化的任何数量的特征,包括但不限于,支持多维寻址和/或循环寻址。在至少一个实施例中,DMA可以支持多达六个或更多个寻址的维度,其可以包括但不限于块宽度、块高度、块深度、水平块步进、垂直块步进和/或深度步进。
在至少一个实施例中,向量处理器可以是可编程处理器,其可以设计为有效且灵活地执行用于计算机视觉算法并提供信号处理能力的编程。在至少一个实施例中,PVA可以包括PVA核心和两个向量处理子系统分区。在至少一个实施例中,PVA核心可以包括处理器子系统、DMA引擎(例如,两个DMA引擎)和/或其他外围设备。在至少一个实施例中,向量处理子系统可以用作PVA的主要处理引擎,并且可以包括向量处理单元(“VPU”)、指令高速缓存和/或向量存储器(例如“VMEM”)。在至少一个实施例中,VPU核心可以包括数字信号处理器,例如,单指令多数据(“SIMD”)、超长指令字(“VLIW”)数字信号处理器。在至少一个实施例中,SIMD和VLIW的组合可以提高吞吐量和速度。
在至少一个实施例中,每个向量处理器可以包括指令高速缓存并且可以耦合到专用存储器。结果,在至少一个实施例中,每个向量处理器可以配置为独立于其他向量处理器执行。在至少一个实施例中,特定PVA中包括的向量处理器可以配置为采用数据并行性。例如,在至少一个实施例中,单个PVA中包括的多个向量处理器可以执行相同计算机视觉算法,除了在图像的不同区域上之外。在至少一个实施例中,包括在特定PVA中的向量处理器可以在相同图像上同时执行不同的计算机视觉算法,或者甚至在序列图像或部分图像上执行不同的算法。在至少一个实施例中,除其他外,在硬件加速集群中可以包括任何数量的PVA,并且在每个PVA中可以包括任何数量的向量处理器。在至少一个实施例中,(一个或更多个)PVA可以包括附加的纠错码(“ECC”)存储器,以增强整体系统安全性。
在至少一个实施例中,一个或更多个加速器1614(例如硬件加速集群)可以包括片上计算机视觉网络和静态随机存取存储器(“SRAM”),用于为一个或更多个加速器1614提供高带宽,低延迟SRAM。在至少一个实施例中,片上存储器可以包括至少4MB SRAM,其包括例如但不限于八个现场可配置的内存块,PVA和DLA均可以对其进行访问。在至少一个实施例中,每对存储块可以包括高级外围总线(“APB”)接口、配置电路、控制器和多路复用器。在至少一个实施例中,可以使用任何类型的存储器。在至少一个实施例中,PVA和DLA可以经由为PVA和DLA提供对存储器的高速访问的主干网来访问存储器。在至少一个实施例中,主干网可以包括片上计算机视觉网络,其将PVA和DLA互连到存储器(例如,使用APB)。
在至少一个实施例中,片上计算机视觉网络可以包括接口,该接口在传输任何控制信号/地址/数据之前确定PVA和DLA均提供就绪和有效信号。在至少一个实施例中,接口可以提供用于发送控制信号/地址/数据的单独的相位和单独的信道,以及用于连续数据传输的突发型通信。在至少一个实施例中,尽管可以使用其他标准和协议,但是接口可以符合国际标准化组织(“ISO”)26262或国际电工委员会(“IEC”)61508标准。
在至少一个实施例中,一个或更多个SoC 1604可以包括实时视线追踪硬件加速器。在至少一个实施例中,实时视线追踪硬件加速器可以用于快速且有效地确定对象的位置和范围(例如,在世界模型内),以生成实时可视化模拟,以用于RADAR信号解释,用于声音传播合成和/或分析,用于SONAR系统的模拟,用于一般的波传播模拟,与用于定位和/或其他功能的LIDAR数据进行比较,和/或用于其他用途。
在至少一个实施例中,一个或更多个加速器1614(例如硬件加速集群)具有用于自动驾驶的广泛用途。在至少一个实施例中,PVA可以是可编程视觉加速器,其可以用于ADAS和自动驾驶汽车中的关键处理阶段。在至少一个实施例中,在低功耗和低延迟下PVA的能力与需要可预测的处理的算法域良好匹配。换句话说,PVA在半密集或密集的常规计算中表现出色,即使在小型数据集上也是如此,这些数据集可能需要具有低延迟和低功耗的可预测的运行时间。在至少一个实施例中,自动驾驶车辆,诸如车辆1600,PVA被设计为运行经典的计算机视觉算法,因为它们可以在对象检测和整数数学运算方面是有效的。
例如,根据技术的至少一个实施例,PVA被用于执行计算机立体视觉。在至少一个实施例中,可以在一些示例中使用基于半全局匹配的算法,尽管这并不意味着限制性。在至少一个实施例中,用于3-5级自动驾驶的应用在运行中使用动态的估计/立体匹配(例如,从运动中恢复结构、行人识别、车道检测等)。在至少一个实施例中,PVA可以对来自两个单目相机的输入执行计算机立体视觉功能。
在至少一个实施例中,PVA可以用于执行密集的光流。例如,在至少一个实施例中,PVA可以处理原始RADAR数据(例如,使用4D快速傅立叶变换)以提供处理后的RADAR数据。在至少一个实施例中,例如,通过处理原始飞行时间数据以提供处理后的飞行时间数据,将PVA用于飞行时间深度处理。
在至少一个实施例中,DLA可用于运行任何类型的网络以增强控制和驾驶安全性,包括例如但不限于神经网络,其输出用于每个对象检测的置信度。在至少一个实施例中,可以将置信度表示或解释为概率,或者表示为提供每个检测相对于其他检测的相对“权重”。在至少一个实施例中,置信度使系统能够做出进一步的决定,即关于哪些检测应当被认为是真正的阳性检测而不是假阳性检测。例如,在至少一个实施例中,系统可以为置信度设置阈值,并且仅将超过阈值的检测视为真阳性检测。在使用自动紧急制动(“AEB”)系统的实施例中,假阳性检测将导致车辆自动执行紧急制动,这显然是不希望的。在至少一个实施例中,高度自信的检测可以被认为是AEB的触发。在至少一个实施例中,DLA可以运行用于回归置信度值的神经网络。在至少一个实施例中,神经网络可以将参数的至少一些子集作为其输入,例如包围盒尺寸,获得的地平面估计(例如,从另一子系统),与从神经网络和/或其他传感器(例如,一个或更多个LIDAR传感器1664或一个或更多个RADAR传感器1660)等获得的对象的车辆1600方向、距离、3D位置估计相关的一个或更多个IMU传感器1666的输出。
在至少一个实施例中,一个或更多个SoC 1604可以包括一个或更多个数据存储1616(例如,存储器)。在至少一个实施例中,一个或更多个数据存储1616可以是一个或更多个SoC 1604的片上存储器,其可以存储要在一个或更多个GPU 1608和/或DLA上执行的神经网络。在至少一个实施例中,一个或更多个数据存储1616可以具有足够大的容量以存储神经网络的多个实例以用于冗余和安全。在至少一个实施例中,一个或更多个数据存储1616可以包括L2或L3高速缓存。
在至少一个实施例中,一个或更多个SoC 1604可以包括任何数量的处理器1610(例如,嵌入式处理器)。在至少一个实施例中,一个或更多个处理器1610可以包括启动和电源管理处理器,该启动和电源管理处理器可以是专用处理器和子系统,以处理启动电源和管理功能以及相关的安全实施。在至少一个实施例中,启动和电源管理处理器可以是一个或更多个SoC 1604启动序列的一部分,并且可以提供运行时电源管理服务。在至少一个实施例中,启动功率和管理处理器可以提供时钟和电压编程,辅助系统低功率状态转换,一个或更多个SoC 1604热和温度传感器管理和/或一个或更多个SoC 1604功率状态管理。在至少一个实施例中,每个温度传感器可以实现为其输出频率与温度成比例的环形振荡器,并且一个或更多个SoC 1604可以使用环形振荡器来检测一个或更多个CPU 1606,一个或更多个GPU1608和/或一个或更多个加速器1614的温度。在至少一个实施例中,如果确定温度超过阈值,则启动和电源管理处理器可以进入温度故障例程,并将一个或更多个SoC 1604置于较低功耗状态和/或将车辆1600置于司机的安全停车图案(例如,使车辆1600安全停车)。
在至少一个实施例中,一个或更多个处理器1610可以还包括一组嵌入式处理器,其可以用作音频处理引擎。在至少一个实施例中,音频处理引擎可以是音频子系统,其能够通过多个接口以及广泛且灵活范围的音频I/O接口为硬件提供对多通道音频的完全硬件支持。在至少一个实施例中,音频处理引擎是专用处理器核心,其具有带专用RAM的数字信号处理器。
在至少一个实施例中,一个或更多个处理器1610可以还包括始终在线的处理器引擎,该引擎可以提供必要的硬件特征以支持低功率传感器管理和唤醒用例。在至少一个实施例中,始终在线的处理器引擎上的处理器可以包括但不限于处理器核心、紧密耦合的RAM、支持外围设备(例如,定时器和中断控制器)、各种I/O控制器外围设备以及路由逻辑。
在至少一个实施例中,一个或更多个处理器1610可以还包括安全集群引擎,该安全集群引擎包括但不限于用于处理汽车应用的安全管理的专用处理器子系统。在至少一个实施例中,安全集群引擎可以包括但不限于两个或更多个处理器核心、紧密耦合的RAM、支持外围设备(例如,定时器、中断控制器等)和/或路由逻辑。在安全模式下,在至少一个实施例中,两个或更多个核心可以以锁步模式操作,并且可以用作具有用以检测其操作之间的任何差异的比较逻辑的单个核心。在至少一个实施例中,一个或更多个处理器1610可以还包括实时相机引擎,该实时相机引擎可以包括但不限于用于处理实时相机管理的专用处理器子系统。在至少一个实施例中,一个或更多个处理器1610可以还包括高动态范围信号处理器,该高动态范围信号处理器可以包括但不限于图像信号处理器,该图像信号处理器是作为相机处理管线的一部分的硬件引擎。
在至少一个实施例中,一个或更多个处理器1610可以包括视频图像合成器,该视频图像合成器可以是处理块(例如,在微处理器上实现),该处理块实现视频回放应用产生最终的视频所需要的视频后处理功能,以产生用于播放器窗口的最终图像。在至少一个实施例中,视频图像合成器可以在一个或更多个广角相机1670、一个或更多个环绕相机1674和/或一个或更多个舱内监控相机传感器上执行透镜畸变校正。在至少一个实施例中,优选地,由在SoC 1604的另一实例上运行的神经网络来监控舱室内监控相机传感器,该神经网络被配置为识别舱室事件并相应地做出响应。在至少一个实施例中,舱室内系统可以执行但不限于唇读以激活蜂窝服务和拨打电话、指示电子邮件、改变车辆的目的地、激活或改变车辆的信息娱乐系统和设置、或者提供语音激活的网上冲浪。在至少一个实施例中,当车辆以自主模式运行时,某些功能对于驾驶员是可用的,否则将其禁用。
在至少一个实施例中,视频图像合成器可以包括用于同时空间和时间降噪的增强的时间降噪。例如,在至少一个实施例中,在运动发生在视频中的情况下,降噪适当地对空间信息加权,从而减小由相邻帧提供的信息的权重。在至少一个实施例中,在图像或图像的一部分不包括运动的情况下,由视频图像合成器执行的时间降噪可以使用来自先前图像的信息来降低当前图像中的噪声。
在至少一个实施例中,视频图像合成器还可以配置为对输入的立体透镜帧执行立体校正。在至少一个实施例中,当使用操作系统桌面时,视频图像合成器还可以用于用户接口合成,并且不需要一个或更多个GPU 1608来连续渲染新表面。在至少一个实施例中,当对一个或更多个GPU 1608供电并使其活跃地进行3D渲染时,视频图像合成器可以被用于卸载一个或更多个GPU 1608以改善性能和响应性。
在至少一个实施例中,SoC 1604中的一个或更多个SoC可以还包括用于从相机接收视频和输入的移动工业处理器接口(“MIPI”)相机串行接口、高速接口和/或可用于相机和相关像素输入功能的视频输入块。在至少一个实施例中,一个或更多个SoC 1604可以还包括输入/输出控制器,该输入/输出控制器可以由软件控制并且可以被用于接收未提交给特定角色的I/O信号。
在至少一个实施例中,SoC 1604中的一个或更多个SoC可以还包括广泛的外围接口,以使得能够与外围设备、音频编码器/解码器(“编解码器”),电源管理和/或其他设备通信。一个或更多个SoC 1604可用于处理来自(例如,通过千兆位多媒体串行链路和以太网通道连接)相机、传感器(例如,一个或更多个LIDAR传感器1664,一个或更多个RADAR传感器1660等,其可以通过以太网连接)的数据,来自总线1602的数据(例如,车辆1600的速度、方向盘位置等),来自一个或更多个GNSS传感器1658的数据(例如,通过以太网总线或CAN总线连接)等。在至少一个实施例中,SoC 1604中的一个或更多个SoC可以还包括专用高性能海量存储控制器,其可以包括它们自己的DMA引擎,并且可以用于使一个或更多个CPU 1606摆脱常规数据管理任务。
在至少一个实施例中,一个或更多个SoC 1604可以是具有灵活架构的端到端平台,其跨越自动化级别3-5级,从而提供利用并有效使用计算机视觉和ADAS技术来实现多样性和冗余的综合的功能安全架构,其提供了可提供灵活、可靠的驾驶软件堆栈以及深度学习工具的平台。在至少一个实施例中,一个或更多个SoC 1604可以比常规系统更快、更可靠,并且甚至在能量效率和空间效率上也更高。例如,在至少一个实施例中,一个或更多个加速器1614当与一个或更多个CPU 1606、一个或更多个GPU 1608以及一个或更多个数据存储1616结合时,可以提供用于3-5级自动驾驶车辆的快速、有效的平台。
在至少一个实施例中,计算机视觉算法可以在CPU上执行,CPU可以使用高级编程语言(例如C编程语言)配置为在多种视觉数据上执行多种处理算法。然而,在至少一个实施例中,CPU通常不能满足许多计算机视觉应用的性能要求,例如与执行时间和功耗有关的性能要求。在至少一个实施例中,许多CPU不能实时执行复杂的对象检测算法,该算法被用于车载ADAS应用和实际3-5级自动驾驶车辆中。
本文所述的实施例允许同时和/或序列地执行多个神经网络,并且允许将结果结合在一起以实现3-5级自动驾驶功能。例如,在至少一个实施例中,在DLA或离散GPU(例如,一个或更多个GPU 1620)上执行的CNN可包括文本和单词识别,从而允许超级计算机读取和理解交通标志,包括神经网络尚未被专门训练的标志。在至少一个实施例中,DLA还可包括神经网络,该神经网络能够识别、解释并提供符号的语义理解,并将该语义理解传递给在CPU Complex上运行的路径规划模块。
在至少一个实施例中,对于3、4或5级的驱动,可以同时运行多个神经网络。例如,在至少一个实施例中,由“警告标志声明:闪烁的灯指示结冰状况(Caution:flashinglights indicate icy conditions)”连通电灯一起组成的警告标志可以由多个神经网络独立地或共同地解释。在至少一个实施例中,可以通过第一部署的神经网络(例如,已经训练的神经网络)将该警告标志本身识别为交通标志,可以通过第二部署的神经网络来解释文本“闪烁的灯指示结冰状况(flashing lights indicate icy conditions)”,其通知车辆的路径规划软件(最好在CPU Complex上执行):当检测到闪烁的灯光时,就会存在结冰状况。在至少一个实施例中,可以通过在多个帧上操作第三部署的神经网络来识别闪烁的灯,向车辆的路径规划软件通知存在(或不存在)闪烁的灯。在至少一个实施例中,所有三个神经网络可以同时运行,例如在DLA内和/或在一个或更多个GPU 1608上。
在至少一个实施例中,用于面部识别和车辆所有者识别的CNN可以使用来自相机传感器的数据来识别授权驾驶员和/或车辆1600的所有者的存在。在至少一个实施例中,当所有者接近驾驶员门并打开灯时,常开传感器处理器引擎可用于解锁车辆,并且,在安全模式下,当所有者离开该车辆时,可用于禁用该车辆。以此方式,一个或更多个SoC 1604提供防止盗窃和/或劫车的保障。
在至少一个实施例中,用于紧急车辆检测和识别的CNN可以使用来自麦克风1696的数据来检测和识别紧急车辆警报器。在至少一个实施例中,一个或更多个SoC 1604使用CNN来对环境和城市声音进行分类,以及对视觉数据进行分类。在至少一个实施例中,训练在DLA上运行的CNN以识别紧急车辆的相对接近速度(例如,通过使用多普勒效应)。在至少一个实施例中,还可以训练CNN来识别针对车辆正在运行的区域的紧急车辆,如一个或更多个GNSS传感器1658所识别。在至少一个实施例中,当在欧洲运行时,CNN将寻求检测欧洲警报器,而在美国CNN将寻求仅识别北美警报器。在至少一个实施例中,一旦检测到紧急车辆,就可以在一个或更多个超声波传感器1662的辅助下使用控制程序来执行紧急车辆安全例程、减速车辆、将车辆驶至路边、停车、和/或使车辆闲置,直到(一个或更多个)紧急车辆通过。
在至少一个实施例中,车辆1600可以包括一个或更多个CPU 1618(例如,一个或更多个离散CPU或一个或更多个dCPU),其可以经由高速互连(例如PCIe)耦合到一个或更多个SoC 1604。在至少一个实施例中,一个或更多个CPU 1618可以包括X86处理器,例如一个或更多个CPU 1618可用于执行各种功能中的任何功能,例如包括在ADAS传感器和一个或更多个SoC 1604之间潜在的仲裁不一致的结果,和/或一个或更多个监控控制器1636的状态和健康和/或片上信息系统(“信息SoC”)1630。
在至少一个实施例中,车辆1600可以包括一个或更多个GPU 1620(例如,一个或更多个离散GPU或一个或更多个dGPU),其可以经由高速互连(例如NVIDIA的NVLINK)耦合到一个或更多个SoC 1604。在至少一个实施例中,一个或更多个GPU 1620可以提供附加的人工智能功能,例如通过执行冗余和/或不同的神经网络,并且可以至少部分地基于来自车辆1600的传感器的输入(例如,传感器数据)来用于训练和/或更新神经网络。
在至少一个实施例中,车辆1600可以还包括网络接口1624,其可以包括但不限于一个或更多个无线天线1626(例如,用于不同通信协议的一个或更多个无线天线,诸如蜂窝天线、蓝牙天线等)。在至少一个实施例中,网络接口1624可以用于使能通过互联网云(例如,采用服务器和/或其他网络设备)与其他车辆和/或计算设备(例如乘客的客户端设备)的无线连接。在至少一个实施例中,为了与其他车辆通信,可以在车辆160和其他车辆之间建立直接链路和/或可以建立间接链路(例如,通过网络和互联网)。在至少一个实施例中,可以使用车辆到车辆的通信链路来提供直接链路。车辆到车辆的通信链路可以向车辆1600提供关于车辆1600附近的车辆的信息(例如,车辆1600前面、侧面和/或后面的车辆)。在至少一个实施例中,该前述功能可以是车辆1600的协作自适应巡航控制功能的一部分。
在至少一个实施例中,网络接口1624可以包括SoC,其提供调制和解调功能并使一个或更多个控制器1636能够通过无线网络进行通信。在至少一个实施例中,网络接口1624可以包括射频前端,用于从基带到射频的上转换以及从射频到基带的下转换。在至少一个实施例中,可以以任何技术上可行的方式执行频率转换。例如,可以通过公知的过程和/或使用超外差过程来执行频率转换。在至少一个实施例中,射频前端功能可以由单独的芯片提供。在至少一个实施例中,网络接口可以包括用于通过LTE、WCDMA、UMTS、GSM、CDMA2000、蓝牙、蓝牙LE、Wi-Fi、Z-Wave、ZigBee、LoRaWAN和/或其他无线协议进行通信的无线功能。
在至少一个实施例中,车辆1600可以还包括一个或更多个数据存储1628,其可以包括但不限于片外(例如,一个或更多个SoC 1604)存储器。在至少一个实施例中,一个或更多个数据存储1628可以包括但不限于一个或更多个存储元件,包括RAM、SRAM、动态随机存取存储器(“DRAM”)、视频随机存取存储器(“VRAM”)、闪存、硬盘和/或其他组件和/或可以存储至少一位数据的设备。
在至少一个实施例中,车辆1600可以还包括一个或更多个GNSS传感器1658(例如,GPS和/或辅助GPS传感器),以辅助地图绘制、感知、占用光栅生成和/或路径规划功能。在至少一个实施例中,可以使用任何数量的GNSS传感器1658,包括例如但不限于使用具有以太网的USB连接器连接到串行接口(例如RS-232)桥的GPS。
在至少一个实施例中,车辆1600可以还包括一个或更多个RADAR传感器1660。一个或更多个RADAR传感器1660可以由车辆1600用于远程车辆检测,即使在黑暗和/或恶劣天气条件下。在至少一个实施例中,RADAR功能安全等级可以是ASIL B。一个或更多个RADAR传感器1660可以使用CAN总线和/或总线1602(例如,以传输由一个或更多个RADAR传感器1660生成的数据)来进行控制和访问对象跟踪数据,在某些示例中可以访问以太网以访问原始数据。在至少一个实施例中,可以使用各种各样的RADAR传感器类型。例如但不限于,一个或更多个RADAR传感器1660可适合于前、后和侧面RADAR使用。在至少一个实施例中,一个或更多个RADAR传感器1660是脉冲多普勒RADAR传感器。
在至少一个实施例中,一个或更多个RADAR传感器1660可以包括不同的配置,例如具有窄视野的远程、具有宽事业的近程、近程侧面覆盖等。在至少一个实施例中,远程RADAR可以用于自适应巡航控制功能。在至少一个实施例中,远程RADAR系统可以提供通过两次或更多次独立扫描(例如在250m范围内)实现的宽广的视野。在至少一个实施例中,一个或更多个RADAR传感器1660可以帮助在静态对象和运动对象之间区分,并且可以被ADAS系统1638用于紧急制动辅助和向前碰撞警告。包括在远程RADAR系统中的一个或更多个传感器1660可以包括但不限于具有多个(例如六个或更多个)固定RADAR天线以及高速CAN和FlexRay接口的单基地多模式RADAR。在至少一个实施例中,具有六个天线、中央四个天线可以创建聚焦的波束图,该波束图设计为以较高的速度记录车辆1600的周围环境,而相邻车道的交通干扰最小。在至少一个实施例中,其他两个天线可以扩大视野,从而可以快速检测进入或离开车辆1600的车道。
在至少一个实施例中,作为示例,中程RADAR系统可包括例如高达160m(前)或80m(后)的范围,以及高达42度(前)或150度(后)的视野。在至少一个实施例中,短程RADAR系统可以包括但不限于设计成安装在后保险杠的两端的任意数量的RADAR传感器1660。当安装在后保险杠的两端时,在至少一个实施例中,RADAR传感器系统可以产生两个光束,该两个光束不断地监测车辆后部和附近的盲点。在至少一个实施例中,短程RADAR系统可以在ADAS系统1638中用于盲点检测和/或车道改变辅助。
在至少一个实施例中,车辆1600可以还包括一个或更多个超声传感器1662。可以定位在车辆1600的前、后和/或侧面位置的一个或更多个超声传感器1662可以用于停车辅助和/或创建和更新占用光栅。在至少一个实施例中,可以使用各种各样的超声传感器1662,并且可以将不同的超声传感器1662用于不同的检测范围(例如2.5m、4m)。在至少一个实施例中,超声传感器1662可以在ASIL B的功能安全等级下操作。
在至少一个实施例中,车辆1600可以包括一个或更多个LIDAR传感器1664。一个或更多个LIDAR传感器1664可以用于对象和行人检测、紧急制动、避免碰撞和/或其他功能。在至少一个实施例中,一个或更多个LIDAR传感器1664可以是功能安全等级ASIL B。在至少一个实施例中,车辆1600可以包括可以使用以太网的多个(例如,两个、四个、六个等)LIDAR传感器1664(例如,将数据提供给千兆以太网交换机)。
在至少一个实施例中,一个或更多个LIDAR传感器1664可能能够提供针对360度视野的对象及其距离的列表。在至少一个实施例中,市售的一个或更多个LIDAR传感器1664例如可以具有大约100m的广告范围,具有2cm-3cm的精度,并且支持100Mbps的以太网连接。在至少一个实施例中,可以使用一个或更多个非突出的LIDAR传感器。在这样的实施例中,一个或更多个LIDAR传感器1664可以作为嵌入到车辆1600的前、后、侧面和/或拐角中的小型设备被实施。在至少一个实施例中,一个或更多个LIDAR传感器1664,在这样的实施例中,即使对于低反射率的对象,也可以提供高达120度的水平视野和35度的垂直视野,并且具有200m的范围。
在至少一个实施例中,可将前向一个或更多个LIDAR传感器1664配置为用于45度至135度之间的水平视野。
在至少一个实施例中,也可以使用LIDAR技术(诸如3D闪光LIDAR)。3D闪光LIDAR使用激光闪光作为传输源,以照亮车辆1600周围大约200m。在至少一个实施例中,闪光LIDAR单元包括但不限于接收器,该接收器记录激光脉冲传播时间和每个像素上的反射光,该像素又对应于从车辆1600到对象的范围。在至少一个实施例中,闪光LIDAR可以允许利用每个激光闪光来生成周围环境的高度准确且无失真的图像。在至少一个实施例中,可以部署四个闪光LIDAR传感器,在车辆1600的每一侧部署一个传感器。在至少一个实施例中,3D闪光LIDAR系统包括但不限于除了风扇(例如非扫描LIDAR设备)以外没有移动部件的固态3D视线阵列LIDAR相机。在至少一个实施例中,闪光LIDAR设备可以每帧使用5纳秒的I类(人眼安全)激光脉冲,并且可以捕获反射激光,以3D测距点云的形式和共同登记的强度数据。
在至少一个实施例中,车辆1600还可包括一个或更多个IMU传感器1666。在至少一个实施例中,一个或更多个IMU传感器1666可位于车辆1600的后轴中心。在至少一个实施例中,一个或更多个IMU传感器1666可以包括,例如但不限于,一个或更多个加速度计、一个或更多个磁力计、一个或更多个陀螺仪、一个磁罗盘、多个磁罗盘和/或其他传感器类型。在至少一个实施例中,例如在六轴应用中,一个或更多个IMU传感器1666可以包括但不限于加速度计和陀螺仪。在至少一个实施例中,例如在九轴应用中,一个或更多个IMU传感器1666可以包括但不限于加速度计、陀螺仪和磁力计。
在至少一个实施例中,一个或更多个IMU传感器1666可以实现为结合了微机电系统(“MEMS”)惯性传感器,高灵敏度GPS接收器和先进的卡尔曼滤波算法的微型高性能GPS辅助惯性导航系统(“GPS/INS”),以提供位置、速度和姿态的估算;在至少一个实施例中,一个或更多个IMU传感器1666可使车辆1600估算航向而无需来自磁传感器通过直接观测和关联从GPS到一个或更多个IMU传感器1666的速度变化来实现的输入。在至少一个实施例中,一个或更多个IMU传感器1666和一个或更多个GNSS传感器1658可以组合在单个集成单元中。
在至少一个实施例中,车辆1600可以包括放置在车辆1600内和/或周围的一个或更多个麦克风1696。在至少一个实施例中,此外,一个或更多个麦克风1696可以用于紧急车辆检测和识别。
在至少一个实施例中,车辆1600可以还包括任何数量的相机类型,包括一个或更多个立体相机1668、一个或更多个广角相机1670、一个或更多个红外相机1672、一个或更多个环绕相机1674、一个或更多个远程相机1698、一个或更多个中程相机1676和/或其他相机类型。在至少一个实施例中,相机可用于捕获车辆1600的整个外围周围的图像数据。在至少一个实施例中,所使用的相机的类型取决于车辆1600。在至少一个实施例中,相机类型的任何组合可以是用于在车辆1600周围提供必要覆盖范围。在至少一个实施例中,部署的相机的数量可以根据实施例而不同。例如,在至少一个实施例中,车辆1600可以包括六个相机、七个相机、十个相机、十二个相机或其他数量的相机。相机可以作为示例但不限于支持千兆位多媒体串行链路(“GMSL”)和/或千兆位以太网。在至少一个实施例中,本文先前参照图16A和图16B可以更详细地描述了每个相机。
在至少一个实施例中,车辆1600可以还包括一个或更多个振动传感器1642。在至少一个实施例中,一个或更多个振动传感器1642可以测量车辆1600的部件(例如,轴)的振动。例如,在至少一个实施例中,振动的变化可以指示路面的变化。在至少一个实施例中,当使用两个或更多个振动传感器1642时,振动之间的差异可以用于确定路面的摩擦或打滑(例如,当在动力驱动轴和自由旋转轴之间存在振动差异时)。
在至少一个实施例中,车辆1600可以包括ADAS系统1638。ADAS系统1638可以包括但不限于SoC。在至少一个实施例中,ADAS系统1638可以包括但不限于任何数量的自主/自适应/自动巡航控制(“ACC”)系统、协作自适应巡航控制(“CACC”)系统、前撞警告(“FCW”)系统、自动紧急制动(“AEB”)系统、车道偏离警告(“LDW”)系统、车道保持辅助(“LKA”)系统、盲区警告(“BSW”)系统、后方交叉交通警告(“RCTW”)系统、碰撞警告(“CW”)系统、车道对中(“LC”)系统和/或其他系统、特征和/或功能及其组合。
在至少一个实施例中,ACC系统可以使用一个或更多个RADAR传感器1660、一个或更多个LIDAR传感器1664和/或任何数量的相机。在至少一个实施例中,ACC系统可以包括纵向ACC系统和/或横向ACC系统。在至少一个实施例中,纵向ACC系统监控并控制到紧邻车辆1600的车辆的距离,并自动调节车辆1600的速度以保持与前方车辆的安全距离。在至少一个实施例中,横向ACC系统执行距离保持,并在需要时建议车辆1600改变车道。在至少一个实施例中,横向ACC与其他ADAS应用有关,例如LC和CW。
在至少一个实施例中,CACC系统使用来自其他车辆的信息,该信息可以经由网络接口1624和/或一个或更多个无线天线1626从其他车辆接收经由无线链路或者间接经由网络连接(例如,经由互联网)接收。在至少一个实施例中,直接链路可以由车辆到车辆(“V2V”)的通信链路提供,而间接链路可以由基础设施到车辆(“I2V”)的通信链路提供。通常,V2V通信概念提供关于紧接在前的车辆(例如,紧接在车辆1600之前并与之在同一车道上的车辆)的信息,而I2V通信概念提供关于更前方交通的信息。在至少一个实施例中,CACC系统可以包括I2V和V2V信息源之一或两者。在至少一个实施例中,在给定车辆1600之前的车辆的信息的情况下,CACC系统可以更可靠,并且具有改善交通流的平滑度并减少道路拥堵的潜力。
在至少一个实施例中,FCW系统被设计成警告驾驶员危险,以便该驾驶员可以采取纠正措施。在至少一个实施例中,FCW系统使用前向相机和/或一个或更多个RADAR传感器1660,其耦合至专用处理器、DSP、FPGA和/或ASIC,其电耦合至驾驶员反馈,例如显示器、扬声器和/或振动组件。在至少一个实施例中,FCW系统可以提供警告,例如以声音、视觉警告,振动和/或快速制动脉冲的形式。
在至少一个实施例中,AEB系统检测到与另一车辆或其他对象的即将发生的向前碰撞,并且如果驾驶员在指定的时间或距离参数内未采取纠正措施,则可以自动施加制动。在至少一个实施例中,AEB系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的一个或更多个前向相机和/或一个或更多个RADAR传感器1660。在至少一个实施例中,当AEB系统检测到危险时,AEB系统通常首先警告驾驶员采取纠正措施以避免碰撞,并且,如果该驾驶员没有采取纠正措施,则该AEB系统可以自动施加制动器以试图防止或至少减轻预测碰撞的影响。在至少一个实施例中,AEB系统可以包括诸如动态制动器支持和/或即将发生碰撞的制动的技术。
在至少一个实施例中,当车辆1600越过车道标记时,LDW系统提供视觉、听觉和/或触觉警告,例如方向盘或座椅振动,以警告驾驶员。在至少一个实施例中,当驾驶员诸如通过激活转向信号灯指示有意的车道偏离时,LDW系统不活跃。在至少一个实施例中,LDW系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的面向正面的相机,其被电耦合以提供诸如显示器、扬声器和/或振动组件之类的驾驶员反馈。LKA系统是LDW系统的一种变型。在至少一个实施例中,如果车辆1600开始离开车道,则LKA系统提供转向输入或制动以校正车辆1600。
在至少一个实施例中,BSW系统检测并警告汽车盲区中的车辆驾驶员。在至少一个实施例中,BSW系统可以提供视觉、听觉和/或触觉警报,以指示合并或改变车道是不安全的。在至少一个实施例中,当驾驶员使用转向灯时,BSW系统可以提供附加警告。在至少一个实施例中,BSW系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的一个或更多个朝后侧的相机和/或一个或更多个RADAR传感器1660,其电耦合到驾驶员反馈,例如显示器、扬声器和/或振动组件。
在至少一个实施例中,当在车辆1600倒车时在后相机范围之外检测到对象时,RCTW系统可以提供视觉、听觉和/或触觉通知。在至少一个实施例中,RCTW系统包括AEB系统,以确保应用车辆制动器以避免碰撞。在至少一个实施例中,RCTW系统可以使用一个或更多个面向后方的RADAR传感器1660,其耦合到专用处理器、DSP、FPGA和/或ASIC,其被电耦合至诸如显示器、扬声器和/或振动组件之类的驾驶员反馈。
在至少一个实施例中,常规的ADAS系统可能易于产生误报结果,这可能使驾驶员烦恼和分散注意力,但通常不是灾难性的,因为常规的ADAS系统会警告驾驶员并允许该驾驶员决定安全状况是否真正存在并采取相应动作。在至少一个实施例中,在结果冲突的情况下,车辆1600本身决定是否听从主计算机或副计算机(例如,第一控制器1636或第二控制器1636)的结果。例如,在至少一个实施例中,ADAS系统1638可以是用于将感知信息提供给备份计算机合理性模块的备用和/或辅助计算机。在至少一个实施例中,备用计算机合理性监控器可以在硬件组件上运行冗余的各种软件,以检测感知和动态驾驶任务中的故障。在至少一个实施例中,可以将来自ADAS系统1638的输出提供给监控MCU。在至少一个实施例中,如果来自主计算机和辅助计算机的输出冲突,则监督MCU决定如何协调冲突以确保安全操作。
在至少一个实施例中,主计算机可以配置为向监督MCU提供置信度分数,以指示该主计算机对所选结果的置信度。在至少一个实施例中,如果该置信度得分超过阈值,则该监督MCU可以遵循该主计算机的指示,而不管该辅助计算机是否提供冲突或不一致的结果。在至少一个实施例中,在置信度得分不满足阈值的情况下,并且在主计算机和辅助计算机指示不同的结果(例如,冲突)的情况下,监督MCU可以在计算机之间仲裁以确定适当的结果。
在至少一个实施例中,监督MCU可以配置为运行神经网络,该神经网络被训练和配置为至少部分地基于来自主计算机和辅助计算机的输出来确定该辅助计算机提供错误警报的条件。在至少一个实施例中,监督MCU中的神经网络可以学习何时可以信任辅助计算机的输出,以及何时不能信任。例如,在至少一个实施例中,当该辅助计算机是基于RADAR的FCW系统时,该监督MCU中的神经网络可以学习FCW系统何时识别实际上不是危险的金属对象,例如会触发警报的排水格栅或井盖。在至少一个实施例中,当辅助计算机是基于相机的LDW系统时,当存在骑自行车的人或行人并且实际上车道偏离是最安全的操作时,监督MCU中的神经网络可以学会覆盖LDW。在至少一个实施例中,监督MCU可以包括适合于运行具有相关联的存储器的神经网络的DLA或GPU中的至少一个。在至少一个实施例中,监督MCU可以包括和/或被包括为一个或更多个SoC 1604的组件。
在至少一个实施例中,ADAS系统1638可以包括使用传统的计算机视觉规则执行ADAS功能的辅助计算机。在至少一个实施例中,该辅助计算机可以使用经典计算机视觉规则(如果-则),并且监督MCU中的神经网络的存在可以提高可靠性、安全性和性能。例如,在至少一个实施例中,多样化的实现方式和有意的非同一性使得整个系统更加容错,尤其是对于由软件(或软件-硬件接口)功能引起的故障。例如,在至少一个实施例中,如果在主计算机上运行的软件中存在软件漏洞或错误,并且在辅助计算机上运行的不相同的软件代码提供了相同的总体结果,则监督MCU可以更有把握地认为总体结果是正确,并且该主计算机上的软件或硬件中的漏洞不会导致重大错误。
在至少一个实施例中,可以将ADAS系统1638的输出输入到主计算机的感知模块和/或主计算机的动态驾驶任务模块中。例如,在至少一个实施例中,如果ADAS系统1638由于正前方的对象而指示向前碰撞警告,则感知块可以在识别对象时使用该信息。在至少一个实施例中,如本文所述,辅助计算机可以具有其自己的神经网络,该神经网络经过训练从而降低了误报的风险。
在至少一个实施例中,车辆1600可以还包括信息娱乐SoC 1630(例如,车载信息娱乐系统(IVI))。尽管被示出和描述为SoC,但是在至少一个实施例中,信息娱乐系统SoC1630可以不是SoC,并且可以包括但不限于两个或更多个分立组件。在至少一个实施例中,信息娱乐SoC 1630可以包括但不限于硬件和软件的组合,其可以用于提供音频(例如,音乐、个人数字助理、导航指令、新闻、广播等)、视频(例如,电视、电影、流媒体等)、电话(例如,免提通话)、网络连接(例如,LTE、WiFi等)和/或信息服务(例如,导航系统、后停车辅助、无线电数据系统、与车辆相关的信息,例如燃油水平、总覆盖距离、制动燃油水平、油位、车门打开/关闭、空气滤清器信息等)到车辆1600。例如,信息娱乐SoC 1630可以包括收音机、磁盘播放器、导航系统、视频播放器、USB和蓝牙连接、汽车、车载娱乐系统、WiFi、方向盘音频控制、免提语音控制、抬头显示器(“HUD”)、HMI显示器1634、远程信息处理设备、控制面板(例如,用于控制各种组件、特征和/或系统和/或与之交互)和/或其他组件。在至少一个实施例中,信息娱乐SoC 1630可以进一步用于向车辆1600的用户提供信息(例如,视觉和/或听觉的),诸如来自ADAS系统1638的信息、自动驾驶信息(诸如计划的车辆操纵)、轨迹、周围环境信息(例如,交叉路口信息、车辆信息、道路信息等)和/或其他信息。
在至少一个实施例中,信息娱乐SoC 1630可以包括任何数量和类型的GPU功能。在至少一个实施例中,信息娱乐SoC 1630可以通过总线1602(例如CAN总线、以太网等)与车辆1600的其他设备、系统和/或组件通信。在至少一个实施例中,信息娱乐SoC 1630可以是耦合到监控MCU,使得信息娱乐系统的GPU可以在主控制器1636(例如,车辆1600的主计算机和/或备用计算机)发生故障的情况下执行一些自动驾驶功能。在至少一个实施例中,信息娱乐SoC 1630可以使车辆1600进入司机到安全停止模式,如本文所述。
在至少一个实施例中,车辆1600可以还包括仪表板1632(例如,数字仪表板、电子仪表板、数字仪表操纵板等)。在至少一个实施例中,仪表板1632可以包括但不限于控制器和/或超级计算机(例如,离散控制器或超级计算机)。在至少一个实施例中,仪表板1632可以包括但不限于一组仪表的任何数量和组合,例如车速表、燃料水平、油压、转速表、里程表、转弯指示器、换档位置指示器、一个或更多个安全带警告灯、一个或更多个驻车制动警告灯、一个或更多个发动机故障灯、辅助约束系统(例如安全气囊)信息、照明控件、安全系统控件、导航信息等。在某些示例中,信息可能是在信息娱乐SoC 1630和仪表板1632之间显示和/或共享。在至少一个实施例中,仪表板1632可以被包括作为信息娱乐SoC 1630的一部分,反之亦然。
推理和/或训练逻辑715用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面提供关于推理和/或训练逻辑715的细节。在至少一个实施例中,推理和/或训练逻辑715可以在系统图16C中用于至少部分地基于使用神经网络训练操作\神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来推理或预测操作。
此类组件可用以产生模拟网络训练过程中的失效情况的合成数据,这可帮助改进网络的性能,同时限制合成数据的量以避免过度拟合。
图16D是根据至少一个实施例的在基于云的服务器与图16A的自动驾驶车辆1600之间进行通信的系统1676的图。在至少一个实施例中,系统1676可以包括但不限于一个或更多个服务器1678、一个或更多个网络1690以及任何数量和类型的车辆,包括车辆1600。在至少一个实施例中,一个或更多个服务器1678可以包括但不限于,多个GPU 1684(A)-1684(H)(在本文中统称为GPU 1684)、PCIe交换机1682(A)-1682(D)(在本文中统称为PCIe交换机1682),和/或CPU 1680(A)-1680(B)(在本文中统称为CPU 1680)、GPU 1684、CPU 1680和PCIe交换机1682可以与高速连接线互连,例如但不限于,由NVIDIA开发的NVLink接口1688和/或PCIe连接1686。GPU 1684通过NVLink和/或NVSwitchSoC连接,GPU 1684和PCIe交换机1682通过PCIe互连连接。在至少一个实施例中,尽管示出了八个GPU 1684、两个CPU 1680和四个PCIe交换机1682,但这并不旨在进行限制。在至少一个实施例中,一个或更多个服务器1678中的每一个可以包括但不限于任意数量的GPU 1684、CPU 1680和/或PCIe交换机1682的任何组合。例如,在至少一个实施例中,一个或更多个服务器1678可各自包括八个、十六个、三十二个和/或更多个GPU 1684。
在至少一个实施例中,一个或更多个服务器1678可以通过一个或更多个网络1690并从车辆接收表示图像的图像数据,该图像示出了意外的或改变的道路状况,例如最近开始的道路工程。在至少一个实施例中,一个或更多个服务器1678可以通过一个或更多个网络1690并且向车辆传输经更新的神经网络1692,和/或地图信息1694,包括但不限于关于交通和道路状况的信息。在至少一个实施例中,对地图信息1694的更新可以包括但不限于对HD地图1622的更新,例如关于建筑工地、坑洼、便道、洪水和/或其他障碍物的信息。在至少一个实施例中,神经网络1692、经更新的神经网络1692和/或地图信息1694可能是由从环境中的任何数量的车辆接收的数据中表示的新训练和/或经验产生的,和/或至少基于在数据中心执行的训练(例如,使用一个或更多个服务器1678和/或其他服务器)。
在至少一个实施例中,一个或更多个服务器1678可以用于至少部分地基于训练数据来训练机器学习模型(例如,神经网络)。在至少一个实施例中,训练数据可以由车辆产生,和/或可以在模拟中产生(例如,使用游戏引擎)。在至少一个实施例中,标记任何数量的训练数据(例如,在相关的神经网络受益于监督学习的情况下)和/或经历其他预处理。在至少一个实施例中,没有对任何数量的训练数据进行标记和/或预处理(例如,在相关联的神经网络不需要监督学习的情况下)。在至少一个实施例中,一旦机器学习模型被训练,机器学习模型就可以被车辆使用(例如,通过一个或更多个网络1690传输到车辆,和/或机器学习模型可以被一个或更多个服务器1678使用以远程监控车辆。
在至少一个实施例中,一个或更多个服务器1678可以从车辆接收数据并且将数据应用于最新的实时神经网络以用于实时智能推理。在至少一个实施例中,一个或更多个服务器1678可以包括由一个或更多个GPU 1684供电的深度学习超级计算机和/或专用AI计算机,例如由NVIDIA开发的DGX和DGX Station机器。然而,在至少一个实施例中,一个或更多个服务器1678可以包括使用CPU供电的数据中心的深度学习基础设施。
在至少一个实施例中,一个或更多个服务器1678的深度学习基础结构可能能够进行快速、实时的推理,并且可以使用该能力来评估和验证车辆1600中处理器、软件和/或相关硬件的健康。例如,在至少一个实施例中,深度学习基础设施可以从车辆1600接收周期性更新,例如车辆1600在该图像序列中所定位的图像序列和/或对象(例如,通过计算机视觉和/或其他机器学习对象分类技术)。在至少一个实施例中,深度学习基础设施可以运行其自己的神经网络以识别对象并将它们与车辆1600所识别的对象进行比较,并且,如果结果不匹配和深度学习基础设施断定车辆1600中的AI正在发生故障,则一个或更多个服务器1678可以将信号发送到车辆1600,以指示车辆1600的故障安全计算机采取控制、通知乘客并完成安全停车操作。
在至少一个实施例中,一个或更多个服务器1678可以包括一个或更多个GPU 1684和一个或更多个可编程推理加速器(例如NVIDIA的TensorRT 3设备)。在至少一个实施例中,GPU驱动的服务器和推理加速的组合可以使实时响应成为可能。在至少一个实施例中,例如在性能不太关键的情况下,可以将由CPU、FPGA和其他处理器驱动的服务器用于推理。在至少一个实施例中,推理和/或训练逻辑715用于执行一个或更多个实施例。关于推理和/或训练逻辑715的细节在本文的其他地方提供。
其他变型在本公开的精神内。因此,尽管公开的技术易于进行各种修改和替代构造,但是某些示出的其实施例在附图中示出并且已经在上面进行了详细描述。然而,应理解,无意将公开内容限制为所公开的一种或更多种特定形式,而是相反,其意图是涵盖落入如所附权利要求书所定义的本公开内容的精神和范围内的所有修改、替代构造和等同物。
除非另有说明或显然与上下文矛盾,否则在描述所公开的实施例的上下文中(特别是在所附权利要求的上下文中),术语“一”和“一个”和“该”以及类似指代的使用应被解释为涵盖单数和复数,而不是作为术语的定义。除非另有说明,否则术语“包括”、“具有”、“包含”和“含有”应被解释为开放式术语(意味着“包括但不限于”)。术语“连接”(在未经修改时指的是物理连接)应解释为部分或全部包含在内、附接到或连接在一起,即使有某些介入。除非本文另外指出,否则本文中对数值范围的引用仅旨在用作分别指代落入该范围内的每个单独值的简写方法,并且每个单独值都被并入说明书中,就如同其在本文中被单独叙述一样。除非另外指出或与上下文矛盾,否则术语“集”(例如“项目集”)或“子集”的使用应解释为包括一个或更多个成员的非空集合。此外,除非另外指出或与上下文矛盾,否则术语相应集的“子集”不一定表示对应集的适当子集,而是子集和对应集可以相等。
除非以其他方式明确指出或与上下文明显矛盾,否则诸如“A,B和C中的至少一个”或“A,B与C中的至少一个”形式的短语之类的连接语在上下文中理解为通常用来表示项目、条款等,其可以是A或B或C,也可以是A和B和C集的任何非空子集。例如,在具有三个成员的集的说明性示例中,连接短语“A,B和C中的至少一个”和“A,B与C中的至少一个”是指以下任意集:{A},{B},{C},{A,B},{A,C},{B,C},{A,B,C}。因此,这种连接语言通常不旨在暗示某些实施例要求存在A中的至少一个,B中的至少一个和C中的至少一个。另外,除非另有说明或与上下文矛盾,否则术语“多个”表示复数的状态(例如,“多个项目”表示多个项目)。多个至少为两个项目,但如果明确指示或通过上下文指示,则可以更多。此外,除非另有说明或从上下文中可以清楚得知,否则短语“基于”是指“至少部分基于”而不是“仅基于”。
除非本文另外指出或与上下文明显矛盾,否则本文描述的过程的操作可以任何合适的顺序执行。在至少一个实施例中,诸如本文所述的那些过程(或其变形和/或其组合)之类的过程在配置有可执行指令的一个或更多个计算机系统的控制下执行,并且被实现为代码(例如,可执行指令,一个或更多个计算机程序或一个或更多个应用),该代码通过硬件或其组合在一个或更多个处理器上共同执行。在至少一个实施例中,代码以例如计算机程序的形式存储在计算机可读存储介质上,该计算机程序包括可由一个或更多个处理器执行的多个指令。在至少一个实施例中,计算机可读存储介质是非暂时性计算机可读存储介质,其排除了暂时性信号(例如,传播的瞬态电或电磁传输),但包括非暂时性数据存储电路(例如,缓冲区、高速缓存和队列)。在至少一个实施例中,代码(例如,可执行代码或源代码)被存储在其上存储有可执行指令的一组一个或更多个非暂时性计算机可读存储介质(或用于存储可执行指令的其他存储器)上,该可执行指令在由计算机系统的一个或更多个处理器执行时(即,作为被执行的结果),使得计算机系统执行本文所述的操作。在至少一个实施例中,一组非暂时性计算机可读存储介质包括多个非暂时性计算机可读存储介质,并且多个非暂时性计算机可读存储介质中的个体非暂时性存储介质中的一个或更多个缺少全部代码,而是多个非暂时性计算机可读存储介质共同存储全部代码。在至少一个实施例中,可执行指令被执行,以使得不同的指令由不同的处理器执行,例如,非暂时性计算机可读存储介质存储指令,并且主中央处理单元(“CPU”)执行一些指令,而图形处理单元(“GPU”)执行其他指令。在至少一个实施例中,计算机系统的不同组件具有单独的处理器,并且不同的处理器执行指令的不同子集。
因此,在至少一个实施例中,计算机系统被配置为实现单独地或共同地执行本文所述的过程的操作的一个或更多个服务,并且这样的计算机系统被配置有使能实施操作的适用的硬件和/或软件。此外,实现本公开的至少一个实施例的计算机系统是单个设备,并且在另一实施例中是分布式计算机系统,其包括以不同方式操作的多个设备,使得分布式计算机系统执行本文所述的操作,并且使得单个设备不执行所有操作。
本文提供的任何和所有示例或示例性语言(例如,“诸如”)的使用仅旨在更好地阐明本公开的实施例,并且不对公开的范围构成限制,除非另有要求。说明书中的任何语言都不应被解释为表示任何未要求保护的要素对于实践公开内容是必不可少的。
本文引用的所有参考文献,包括出版物、专利申请和专利,均通过引用并入本文,其程度就如同每个参考文献被单独且具体地指示为以引用的方式并入本文并且其全部内容在本文中阐述一样。
在说明书和权利要求中,可以使用术语“耦合”和“连接”以及它们的派生词。应当理解,这些术语可能不旨在作为彼此的同义词。相反,在特定示例中,“连接”或“耦合”可用于指示两个或更多个元件彼此直接或间接物理或电接触。“耦合”也可能意味着两个或更多个元素彼此不直接接触,但仍彼此协作或交互。
除非另有明确说明,否则可以理解,在整个说明书中,诸如“处理”、“计算”、“计算”、“确定”等之类的术语,是指计算机或计算系统或类似的电子计算设备的动作和/或过程,其将计算系统的寄存器和/或存储器中表示为物理量(例如电子)的数据处理和/或转换为类似表示为计算系统的存储器、寄存器或其他此类信息存储、传输或显示设备中的物理量的其他数据。
以类似的方式,术语“处理器”可以指处理来自寄存器和/或存储器的电子数据并将该电子数据转换成可以存储在寄存器和/或存储器中的其他电子数据的任何设备或存储器的一部分。作为非限制性示例,“处理器”可以是CPU或GPU。“计算平台”可以包括一个或更多个处理器。如本文所使用的,“软件”进程可以包括例如随时间执行工作的软件和/或硬件实体,诸如任务、线程和智能代理。同样,每个过程可以指代多个过程,以连续地或间歇地顺序地或并行地执行指令。术语“系统”和“方法”在本文中可以互换使用,只要系统可以体现一种或更多种方法,并且方法可以被认为是系统。
在本文件中,可以参考获得、获取、接收或将模拟或数字数据输入子系统、计算机系统或计算机实现的机器中。可以通过多种方式来完成获得、获取、接收或输入模拟和数字数据,例如通过接收作为函数调用或对应用编程接口的调用的参数的数据。在一些实现方式中,可以通过经由串行或并行接口传输数据来完成获得、获取、接收或输入模拟或数字数据的过程。在另一实现方式中,可以通过经由计算机网络将数据从提供实体传输到获取实体来完成获得、获取、接收或输入模拟或数字数据的过程。也可以参考提供、输出、传送、发送或呈现模拟或数字数据。在各种示例中,提供、输出、传送、发送或呈现模拟或数字数据的过程可以通过将数据作为函数调用的输入或输出参数、应用编程接口或进程间通信机制的参数进行传输来实现。
尽管上面的讨论阐述了所描述的技术的示例实现,但是其他架构可以用于实现所描述的功能,并且旨在落入本公开的范围内。此外,尽管出于讨论的目的在上面定义了具体的职责分配,但是根据情况,可以以不同的方式分配和划分各种功能和职责。
此外,尽管已经用特定于结构特征和/或方法动作的语言描述了主题,但是应当理解,所附权利要求书所要求保护的主题不必限于所描述的特定特征或动作。而是,公开了特定的特征和动作作为实现权利要求的示例性形式。

Claims (20)

1.一种方法,包括:
识别包括多个类别的多个对象的第一图像集合;
提供所述第一图像集合作为对第一机器学习模型的输入,所述第一机器学习模型被训练以针对给定的输入图像检测在所述给定的输入图像中描绘的所述多个类别中的至少一者的一个或更多个对象的存在,并且预测与检测到的对象中的一个或更多个相关联的至少掩模数据;
从所述第一机器学习模型的一个或更多个第一输出确定与所述第一图像集合中的每一者相关联的对象数据,其中针对所述第一图像集合中的每个相应图像的所述对象数据包括与在所述相应图像中检测到的每个对象相关联的掩模数据;以及
训练第二机器学习模型以检测第二图像集合中的目标类别的对象,其中使用所述第一图像集合的至少子集以及针对所述第一图像集合的所述至少子集的目标输出来训练所述第二机器学习模型,其中所述目标输出包括与在所述第一图像集合的所述至少子集中检测到的每个对象相关联的所述掩模数据,以及与在所述第一图像集合的所述至少子集中检测到的每个对象相关联的类别是否对应于所述目标类别的指示。
2.根据权利要求1所述的方法,其中所述第一机器学习模型进一步被训练以针对一个或更多个检测到的对象中的每一者来预测所述多个类别中的与相应的检测到的对象相关联的具体类别。
3.根据权利要求2所述的方法,还包括:
生成所述目标输出,其中生成所述目标输出包括:
确定与所述相应的检测到的对象相关联的所述具体类别是否对应于所述目标类别。
4.根据权利要求1所述的方法,还包括:
使用与所述图像相关联的一个或更多个包围盒的指示来识别与在所述图像中描绘的所述相应对象相关联的真值数据。
5.根据权利要求4所述的方法,所述一个或更多个包围盒中的至少一个包围盒由被认可的包围盒权威实体或者平台的用户中的至少一者提供。
6.根据权利要求1所述的方法,其中所述第二机器学习模型是多头机器学习模型,并且其中所述方法还包括:
在使用所述第一图像集合的所述至少子集和所述目标输出训练所述第二机器学习模型时,识别与预测给定的输入图像的掩模数据相对应的所述第二机器学习模型的一个或更多个头;以及
更新所述第二机器学习模型以移除一个或更多个识别的头。
7.根据权利要求6所述的方法,还包括:
提供第三图像集合作为对所述第二机器学习模型的输入;
获取所述第二机器学习模型的一个或更多个第二输出;以及
基于所述一个或更多个第二输出,确定与所述第三图像集合中的每一者相关联的附加对象数据,其中针对所述第二图像集合中的每个相应图像的所述附加对象数据包括所述相应图像中的包括在所述相应图像中检测到的对象的区域以及与检测到的对象相关联的类别的指示。
8.根据权利要求6所述的方法,还包括:
将更新后的第二机器学习模型经由网络发送到边缘设备或端点设备中的至少一者。
9.一种系统,包括:
存储器设备;以及
耦合到所述存储器设备的处理设备,其中所述处理设备用于执行包括以下的操作:
生成用于机器学习模型的训练数据,其中生成所述训练数据包括:
生成包括描绘对象的图像的训练输入;以及
生成针对所述训练输入的目标输出,其中所述目标输出包括与描绘的对象相关联的包围盒、与所述描绘的对象相关联的掩模数据以及与所述描绘的对象相关联的类别的指示;
提供所述训练数据,以在(i)包括生成的训练输入的训练输入集合和(ii)包括生成的目标输出的目标输出集合上训练所述机器学习模型;
识别与预测给定的输入图像的掩模数据相对应的经训练的机器学习模型的一个或更多个头;以及
更新所述经训练的机器学习模型以移除一个或更多个识别的头。
10.根据权利要求9所述的系统,其中所述操作还包括:
提供图像集合作为对更新的经训练的机器学习模型的输入;
获取所述更新的经训练的机器学习模型的一个或更多个输出;以及
从所述一个或更多个输出确定与所述图像集合中的每一者相关联的对象数据,其中所述第二图像集合中的每一个相应图像的所述对象数据包括所述相应图像中的包括在所述相应图像中检测到的对象的区域以及与所述检测到的对象相关联的类别的指示。
11.根据权利要求9所述的系统,其中所述操作还包括:
使用边缘设备或端点设备中的至少一者部署所述更新的经训练的机器学习模型。
12.根据权利要求9所述的系统,其中生成针对所述训练输入的所述目标输出包括:
提供描绘所述对象的所述图像作为对附加机器学习模型的输入,其中所述附加机器学习模型被训练以针对给定的输入图像检测在所述给定的输入图像中描绘的一个或更多个对象的存在,并且预测与检测到的对象中的一个或更多个相关联的至少掩模数据;以及
从所述附加机器学习模型的一个或更多个输出确定与所述图像相关联的对象数据,其中所述图像的所述对象数据包括与所述描绘的对象相关联的掩模数据。
13.根据权利要求12所述的系统,其中所述附加机器学习模型进一步被训练以针对一个或更多个检测到的对象中的每一者预测与相应的检测到的对象相关联的类别,并且其中所述图像的对象数据还包括与所述描绘的对象相关联的所述类别的所述指示。
14.根据权利要求9所述的系统,其中生成针对所述训练输入的所述目标输出包括:
获取与所述图像相关联的真值数据,其中所述真值数据包括与所述描绘的对象相关联的所述包围盒。
15.根据权利要求14所述的系统,其中所述真值数据从数据库中获取,所述数据库包括与在图像集合中描绘的对象相关联的一个或更多个包围盒的指示,其中所述图像包括在所述图像集合中,并且其中所述一个或更多个包围盒由被认可的包围盒权威实体或平台的用户提供。
16.一种非暂时性计算机可读存储介质,包括指令,所述指令在由处理设备执行时,使所述处理设备执行包括以下的操作:
提供当前图像集合作为对第一机器学习模型的输入,其中所述第一机器学习模型被训练以使用(i)包括训练图像集合的训练输入和(ii)针对所述训练输入的目标输出来检测在给定的图像集合中的目标类别的对象,针对所述训练图像集合中的每一个相应训练图像,所述目标输出包括与在所述相应训练图像中描绘的每个对象相关联的真值数据,其中所述真值数据指示所述相应训练图像中的包括相应对象的区域,所述目标输出包括与在所述相应训练图像中描绘的每个对象相关联的掩模数据,其中所述掩模数据是基于第二机器学习模型的一个或更多个输出获取的,以及所述目标输出包括与在所述相应训练图像中描绘的每个对象相关联的类别是否与所述目标类别相对应的指示;
获取所述第一机器学习模型的一个或更多个输出;以及
基于所述第一机器学习模型的所述一个或更多个输出,确定与当前图像集合中的每一者相关联的对象数据,其中所述当前图像集合中的每个相应当前图像的所述对象数据包括所述相应当前图像中的包括在所述相应当前图像中检测到的对象的区域的指示,以及所述检测到的对象是否与所述目标类别相对应的指示。
17.根据权利要求16所述的非暂时性计算机可读存储介质,其中所述对象数据还包括与在所述相应当前图像中检测到的所述对象相关联的掩模数据。
18.根据权利要求16所述的非暂时性计算机可读存储介质,其中确定与所述当前图像集合中的每一者相关联的对象数据包括:
从所述第一机器学习模型的所述一个或更多个输出提取一个或更多个对象数据集合,其中所述一个或更多个对象数据集合中的每一者与所述对象数据与在所述相应当前图像中检测到的对象相对应的置信度水平相关联;以及
确定与相应的对象数据集合相关联的所述置信度水平是否满足置信度水平标准。
19.根据权利要求16所述的非暂时性计算机可读存储介质,还包括通过以下操作训练所述第一机器学习模型:
提供所述训练图像集合作为对所述第二机器学习模型的输入,其中所述第二机器学习模型被训练以针对给定的输入图像检测在所述给定的输入图像中描绘的多个类别中的至少一者的一个或更多个对象,并且针对一个或更多个检测到的对象中的每一者,预测与相应的检测到的对象相关联的至少掩模数据;
从所述第二机器学习模型的一个或更多个输出,确定与所述训练图像集合中的每一者相关联的对象数据,其中所述训练图像集合中的每个相应训练图像的所述对象数据包括与在相应图像中检测到的每个对象相关联的掩模数据。
20.根据权利要求16所述的非暂时性计算机可读存储介质,其中所述真值数据是使用数据库获取的,所述数据库包括与所述训练图像集合相关联的一个或更多个包围盒的指示,其中所述一个或更多个包围盒中的每一者由被认可的包围盒权威实体或者平台的用户中的至少一者提供。
CN202210854819.9A 2021-09-16 2022-07-18 使用迁移学习训练对象检测模型 Pending CN115830486A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/477,370 2021-09-16
US17/477,370 US20230078218A1 (en) 2021-09-16 2021-09-16 Training object detection models using transfer learning

Publications (1)

Publication Number Publication Date
CN115830486A true CN115830486A (zh) 2023-03-21

Family

ID=85284768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210854819.9A Pending CN115830486A (zh) 2021-09-16 2022-07-18 使用迁移学习训练对象检测模型

Country Status (4)

Country Link
US (1) US20230078218A1 (zh)
JP (1) JP2023043825A (zh)
CN (1) CN115830486A (zh)
DE (1) DE102022123130A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11810225B2 (en) * 2021-03-30 2023-11-07 Zoox, Inc. Top-down scene generation
US11858514B2 (en) 2021-03-30 2024-01-02 Zoox, Inc. Top-down scene discrimination
US11971955B1 (en) * 2021-07-21 2024-04-30 Amazon Technologies, Inc. Example-based image annotation
KR102511315B1 (ko) * 2022-09-07 2023-03-17 주식회사 스마트인사이드에이아이 환경 변수 데이터 학습에 기초한 영상 기반 객체 인식 방법 및 시스템

Also Published As

Publication number Publication date
JP2023043825A (ja) 2023-03-29
DE102022123130A1 (de) 2023-03-16
US20230078218A1 (en) 2023-03-16

Similar Documents

Publication Publication Date Title
US11688181B2 (en) Sensor fusion for autonomous machine applications using machine learning
US11995895B2 (en) Multi-object tracking using correlation filters in video analytics applications
US20220122001A1 (en) Imitation training using synthetic data
US11676284B2 (en) Shape fusion for image analysis
US11688074B2 (en) Data augmentation including background modification for robust prediction using neural networks
US20220391766A1 (en) Training perception models using synthetic data for autonomous systems and applications
US20230078218A1 (en) Training object detection models using transfer learning
US20230139682A1 (en) Continuous training of an object detection and classification model for varying environmental conditions
US20230341235A1 (en) Automatic graphical content recognition for vehicle applications
CN115719486A (zh) 基于上下文的状态估计
CN115719487A (zh) 鲁棒的状态估计
CN115705618A (zh) 环视系统的拼接质量评估
US20230213945A1 (en) Obstacle to path assignment for autonomous systems and applications
US20230169721A1 (en) Consistent sampling for spatial hashing
US20220144304A1 (en) Safety decomposition for path determination in autonomous systems
US20230271330A1 (en) Interactive cost corrections with natural language feedback
US20230112004A1 (en) Method to estimate processing rate requirement for safe av driving to prioritize resource usage
US20240071064A1 (en) Object detection using deep learning for real-time streaming applications
US20230260136A1 (en) Dynamic object detection using lidar data for autonomous machine systems and applications
CN115731118A (zh) 通过射线追踪进行逆变换采样
US20230130478A1 (en) Hybrid solution for stereo imaging
US11989948B1 (en) Accelerated non-maximum suppression in machine learning applications
US20240087333A1 (en) Techniques for identifying occluded objects using a neural network
US20240176017A1 (en) Sensor fusion using ultrasonic sensors for autonomous systems and applications
US20240022601A1 (en) Detecting identity spoofing attacks in multi-sensor systems and applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination