CN117690422A - 将场景感知的上下文用于对话式人工智能系统和应用 - Google Patents
将场景感知的上下文用于对话式人工智能系统和应用 Download PDFInfo
- Publication number
- CN117690422A CN117690422A CN202310551543.1A CN202310551543A CN117690422A CN 117690422 A CN117690422 A CN 117690422A CN 202310551543 A CN202310551543 A CN 202310551543A CN 117690422 A CN117690422 A CN 117690422A
- Authority
- CN
- China
- Prior art keywords
- user
- vehicle
- poi
- data
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 139
- 238000012545 processing Methods 0.000 claims abstract description 84
- 238000010801 machine learning Methods 0.000 claims description 28
- 238000013135 deep learning Methods 0.000 claims description 14
- 238000004088 simulation Methods 0.000 claims description 12
- 230000008447 perception Effects 0.000 claims description 7
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 72
- 230000006870 function Effects 0.000 description 60
- 238000013528 artificial neural network Methods 0.000 description 48
- 230000033001 locomotion Effects 0.000 description 37
- 238000004422 calculation algorithm Methods 0.000 description 33
- 238000001514 detection method Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 26
- 230000004438 eyesight Effects 0.000 description 26
- 238000013527 convolutional neural network Methods 0.000 description 21
- 230000009471 action Effects 0.000 description 20
- 238000003860 storage Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 18
- 230000000007 visual effect Effects 0.000 description 18
- 238000007726 management method Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 15
- 230000002093 peripheral effect Effects 0.000 description 11
- 230000007613 environmental effect Effects 0.000 description 10
- 230000004044 response Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 239000011521 glass Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012800 visualization Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 235000019800 disodium phosphate Nutrition 0.000 description 5
- 230000004424 eye movement Effects 0.000 description 5
- 238000007667 floating Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000000446 fuel Substances 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 125000000914 phenoxymethylpenicillanyl group Chemical group CC1(S[C@H]2N([C@H]1C(=O)*)C([C@H]2NC(COC2=CC=CC=C2)=O)=O)C 0.000 description 2
- 229920002451 polyvinyl alcohol Polymers 0.000 description 2
- 235000019422 polyvinyl alcohol Nutrition 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 101100248200 Arabidopsis thaliana RGGB gene Proteins 0.000 description 1
- 102100035964 Gastrokine-2 Human genes 0.000 description 1
- 101001075215 Homo sapiens Gastrokine-2 Proteins 0.000 description 1
- 102100030148 Integrator complex subunit 8 Human genes 0.000 description 1
- 101710092891 Integrator complex subunit 8 Proteins 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 206010034960 Photophobia Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009435 building construction Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000002485 combustion reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000005669 field effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 208000013469 light sensitivity Diseases 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000001693 membrane extraction with a sorbent interface Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000002310 reflectometry Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000010396 two-hybrid screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60K—ARRANGEMENT OR MOUNTING OF PROPULSION UNITS OR OF TRANSMISSIONS IN VEHICLES; ARRANGEMENT OR MOUNTING OF PLURAL DIVERSE PRIME-MOVERS IN VEHICLES; AUXILIARY DRIVES FOR VEHICLES; INSTRUMENTATION OR DASHBOARDS FOR VEHICLES; ARRANGEMENTS IN CONNECTION WITH COOLING, AIR INTAKE, GAS EXHAUST OR FUEL SUPPLY OF PROPULSION UNITS IN VEHICLES
- B60K35/00—Instruments specially adapted for vehicles; Arrangement of instruments in or on vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Combustion & Propulsion (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
本公开涉及将场景感知的上下文用于对话式人工智能系统和应用。在各种示例中,本文描述了用于将场景感知的上下文用于对话系统和应用的技术。例如,公开了处理表示语音的音频数据以便确定与所述语音相关联的意图的系统和方法。还公开了处理表示至少一个用户的传感器数据以便确定与所述用户相关联的兴趣点的系统和方法。在一些示例中,兴趣点可以包括环境内的地标、人和/或任何其他对象。然后,所述系统和方法可以生成与所述兴趣点相关联的上下文。另外,所述系统和方法可以使用一个或更多个语言模型来处理所述意图和所述上下文。基于所述处理,所述语言模型可以输出与所述语音相关联的数据。
Description
背景技术
车辆可以配备有对话系统,该对话系统允许乘客执行各种任务,例如控制车辆的一个或更多个操作(例如,锁定/解锁车门、锁定/解锁车窗、打开/关闭收音机等)、提供关于地标的信息(例如,提供关于建筑物、桥梁、水道等的信息)、计划活动(例如,进行预订等)、安排旅行计划(例如,交通和住宿的预订安排等)、购买物品(例如,从在线市场购买物品等)等。一些对话系统通过接收作为口头语言(例如,用户话语)的抄本生成的文本(例如,包括一个或更多个字母、单词、数字和/或符号的文本)来操作。在一些情况下,文本可以指示执行任务的请求,例如确定与地标相关联的信息。对话系统然后使用被配置为输出与请求相关联的数据的大型语言模型来处理文本。
然而,在一些情况下,对话系统可能难以确定与口头语言相关联的上下文。例如,如果用户正在请求关于位于环境内的地标的信息,则用户需要将地标识别为口头语言的一部分,以便对话系统向用户提供足够的反馈。例如,如果用户正在请求关于“农民餐馆”(例如,地标)的信息,口头语言可以包括“请提供关于农民餐馆的信息。”如果用户不提供该上下文,则对话系统可以继续向用户询问一个或更多个问题以确定上下文。例如,如果口头语言包括“请提供关于该餐馆的信息”,那么对话系统可以用一个问题来响应,例如“什么餐馆”。然后,用户可能需要提供额外的上下文,例如包括“农民的餐馆”的额外口头语言。这对于用户来说可能变得麻烦,因为用户可能需要在对话系统提供所请求的信息之前提供多个话语。
发明内容
本公开的实施例涉及将场景感知的上下文用于对话系统和应用。公开了可以从用户接收表示语音的音频数据的系统和方法。所述系统和方法还可以使用由一个或更多个传感器生成的传感器数据和/或地图数据来识别与语音相关联的上下文。在一些示例中,系统和方法通过使用一个或更多个凝视识别和/或手势识别技术分析传感器数据和/或地图数据来确定上下文。例如,系统和方法可以使用凝视识别技术和/或手势识别技术来确定用户的兴趣点(POI),其中上下文与POI相关联。然后,系统和方法可以将与音频数据相关联的文本数据和表示上下文的上下文数据输入到一个或更多个语言模型中,该一个或更多个语言模型被配置为输出与音频数据相关的数据。例如,如果音频数据表示对关于地标的信息的请求并且上下文包括与使用POI识别的地标相关联的标识符,则语言模型可以输出表示该信息的数据。
与诸如上述那些的常规系统相比,当前系统输入语言模型在生成与语音相关联的输出时能够使用的额外上下文数据。例如,常规系统可以从用户接收音频数据,该音频数据表示对关于诸如桥之类的地标的信息的请求。然而,如果音频数据也不表示与地标相关联的信息,例如地标的标识符(例如,名称),则常规系统无法在不从用户接收额外信息的情况下确定所请求的信息。相反,当前系统能够使用多模态信息来确定与语音相关联的上下文。更具体地,当前系统可以使用一个或更多个传感器来识别环境内的地标,例如基于用户的凝视和/或手势(例如,用户的POI)。然后,当前系统能够使用该额外的上下文以及音频数据来确定所请求的信息。
附图说明
下面参照附图详细描述用于将场景感知的上下文用于对话系统和应用的本系统和方法,其中:
图1示出了根据本公开的一些实施例的将场景感知的上下文用于对话系统的示例;
图2示出了根据本公开的一些实施例的处理音频数据以确定与槽位相关联的意图和信息的语音模型的示例;
图3是根据本公开的一些实施例的用于使用凝视估计来确定兴趣点(POI)的示例过程;
图4A描绘了根据本公开的一些实施例的使用眼运动信息生成的示例绘图;
图4B-4C描绘了根据本公开的一些实施例的用于确定眼运动信息的时间步长或帧处的眼位置的示例性图示;
图5A描绘了根据本公开的一些实施例的延伸到车辆外部以确定POI的凝视方向表示的示例性可视化;
图5B描绘了根据本公开的一些实施例的定位在地图上的车辆的俯视图;
图6是根据本公开的一些实施例的用于使用手势估计来确定POI的示例过程;
图7描绘了根据本公开的一些实施例的延伸到车辆外部以确定POI的手势方向表示的示例可视化;
图8描绘了根据本公开的一些实施例的向用户提供内容的示例;
图9描绘了根据本公开的一些实施例的识别与音频数据相关联的用户的示例;
图10是示出根据本公开的一些实施例的用于将场景感知的上下文用于对话系统的方法的流程图;
图11是示出根据本公开的一些实施例的用于识别与音频数据相关联的用户的方法的流程图;
图12A是根据本公开的一些实施例的示例自主车辆的图示;
图12B是根据本公开的一些实施例的图12A的示例自主车辆的相机位置和视野的示例;
图12C是根据本公开的一些实施例的图12A的示例自主车辆的示例系统架构的框图;
图12D是根据本公开的一些实施例的用于在基于云的服务器与图12A的示例自主车辆之间通信的系统图;
图13是适合用于实现本公开的一些实施例的示例计算设备的框图;以及
图14是适合用于实现本公开的一些实施例的示例数据中心的框图。
具体实施方式
公开了关于将场景感知的上下文用于对话系统和应用的系统和方法。尽管本公开可以相对于示例性自主车辆1200(或者在本文中称为“车辆1200”或“本车辆1200”,其示例针对图12A-12D进行描述)进行描述,但这并不旨在进行限制。例如,本文描述的系统和方法可以由但不限于非自主车辆、半自主车辆(例如,在一个或更多个自适应驾驶员辅助系统(ADAS)中)、有人驾驶和无人驾驶的机器人或机器人平台、仓库车辆、越野车、耦合到一个或更多个拖车的车辆、飞行船只、小船、穿梭机、应急响应车辆、摩托车、电动或机动自行车、飞机、建筑车辆、水下飞行器、无人机和/或其他车辆类型来使用。此外,尽管本公开可以关于车辆内的对话系统来描述,但这并不意在进行限制,并且这里描述的系统和方法可以用于增强现实、虚拟现实、混合现实、机器人、安全和监视、自主或半自主机器应用、和/或可以使用对话系统的任何其他技术空间中。
例如,系统可以接收由车辆内的一个或更多个麦克风生成的音频数据,其中音频数据表示来自车辆的用户的语音(例如,话语)。在一些示例中,语音可以与用户请求的任务相关联,例如提供与位于环境内且靠近车辆的地标相关联的信息的请求。系统然后可以使用一个或更多个第一模型来处理音频数据,例如一个或更多个语音模型(例如,自动语音识别(ASR)模型、语音到文本(STT)模型、自然语言处理(NLP)模型等),该一个或更多个第一模型被配置为确定与语音相关联的意图。如本文所述,意图可以包括但不限于请求信息(例如,关于地标的信息、关于位置的信息、关于人的信息等)、预订(例如,预订酒店、预订晚餐、预订活动门票等)、安排事件(例如,安排生日聚会、安排体育比赛等)、开始通信(打电话、开始视频会议等)、创建列表(例如,创建购物列表、创建待办事项列表等)、获取物品和/或服务,和/或任何其他意图。
在一些示例中,第一模型还可以被配置为确定与意图相关联的一个或更多个槽位(slot)的信息。如这里所描述的,槽位可以提供用于执行意图的额外信息(例如,参数)。例如,如果语音与包括“你能提供关于那个玻璃建筑物的信息吗”的话语相关联,那么意图可以包括“请求信息”,并且槽位可以包括“玻璃”和“建筑物”。
系统还可以使用车辆的一个或更多个传感器来确定与语音相关联的上下文。例如,车辆的传感器可以用于生成用于跟踪用户运动的传感器数据,例如眼运动、头部运动、手势和/或类似物。该信息可被系统用来确定用户的注意力、用户的凝视方向和/或用户的有意义的手势(例如,用户指向地标)。在一些示例中,系统可以使用该信息将用户的虚拟表示(例如,用户的凝视方向、用户的手势方向等)投影到车辆外部的点或区域。对于第一示例,一个或更多个凝视组件可以使用来自传感器的传感器数据来确定用户相对于车辆的凝视方向。对于第二示例,一个或更多个手势组件可以使用来自传感器的传感器数据来确定用户相对于车辆的手势方向。
使用车辆在环境的地图内的位置,系统可以(例如,实时或接近实时地)将用户的凝视方向和/或用户的手势方向映射到地图,以便确定用户正在关注(例如,用户正在看、用户正在指向等)的兴趣点(POI)。如本文所述,POI可以包括但不限于位于环境内的地标(例如,建筑物、水道、桥梁、雕像等)、位置、标志、人和/或类似物。在一些示例中,系统可以将用户的凝视方向和/或用户的手势方向映射到两个或更多个(例如,每个)地图的相应POI。例如,系统可以使用第一地图将用户的凝视方向和/或用户的手势方向映射到第一POI,并且使用第二地图将用户的凝视方向和/或用户的手势方向映射到第二POI。在这样的示例中,系统可以执行一个或更多个过程来选择POI之一。
对于第一示例,系统可以确定与第一POI相关联的第一置信度和与第二POI相关联的第二置信度。然后,系统可以选择与最高置信度相关联的POI(例如,如果第一置信度高于第二置信度,则选择第一POI)。对于第二示例,系统可以接收由车辆的一个或更多个外部传感器生成的额外传感器数据,其中额外传感器数据表示环境。然后,系统可以使用该传感器数据来选择POI之一。例如,如果传感器数据表示描绘第一ROI的图像,则系统可以使用传感器数据来选择第一ROI。
系统然后可以基于POI确定与意图相关联的上下文,其中上下文可以表示与意图相关联的ew信息。对于第一示例,如果POI是地标,则上下文可以包括与地标相关联的标识符(例如,名称、昵称等)、地标的属性(例如,颜色、大小、形状等)和/或与地标相关联的任何其他信息。对于第二示例,如果POI是人,则上下文可以包括与该人相关联的标识符(例如,姓名、昵称等)。虽然这些只是与意图相关联的上下文的几个示例类型,但是在其他示例中,上下文可以包括与意图相关联的额外和/或替代信息。
系统然后可以将表示意图的数据(例如,第一向量)、表示槽位的信息的数据(例如,第二向量)、以及表示上下文的数据(例如,第三向量)输入到一个或更多个语言模型中。如这里所描述的,语言模型可以包括任何类型的语言模型,例如生成性语言模型(例如,生成性预训练变换器(GPT)等)、表示性语言模型(例如,基于变换器的双向编码器表示(Bidirectional Encoder Representations from Transformer,BERT)等),和/或任何其他类型的语言模型。可以训练语言模型来处理意图、与槽位相关联的信息和/或上下文。基于处理,语言模型可以输出与意图相关联的数据。例如,如果意图包括“请求信息”,槽位包括“结构”,并且上下文包括结构的标识符(例如,名称),则语言模型可以输出表示与结构相关联的信息的数据。
在一些示例中,输出可以包括表示描述信息的一个或更多个词的音频数据。例如,并且使用上面的例子,音频数据可以表示描述结构的名称、结构的建造日期和/或任何其他信息的词。在一些示例中,车辆的一个或更多个部件可以使用来自语言模型的输出来为用户生成不同类型的输出。例如,车辆的部件可以使用来自语言模型的输出来生成表示包括与结构相关联的信息的一个或更多个图像的图像数据。在任一示例中,车辆然后可以向用户提供输出。例如,车辆可以使用一个或更多个扬声器输出由音频数据表示的声音,使用一个或更多个显示器显示由图像数据表示的图像,和/或诸如此类。
在一些示例中,用户可以继续与语言模型交互。例如,车辆可以生成表示来自用户的额外语音(例如额外话语)的额外音频数据。然后,车辆可以执行这里描述的过程来处理额外音频数据,并确定与额外槽位相关联的额外意图和/或额外信息。在一些示例中,车辆可以执行这里描述的过程来确定与额外语音相关联的额外上下文。然后,车辆可以使用语言模型处理额外意图、与额外槽位相关联的额外信息和/或额外上下文。基于处理,语言模型可以继续输出与额外语音相关联的数据。
本文描述的系统和方法可由但不限于非自主车辆、半自主车辆(例如,在一个或更多个自适应驾驶员辅助系统(ADAS)中)、有人驾驶和无人驾驶的机器人或机器人平台、仓库车辆、越野车辆、耦合到一个或更多个拖车的车辆、飞行船只、小船、穿梭机、应急响应车辆、摩托车、电动或机动自行车、飞机、建筑车辆、水下飞行器、无人机和/或其他车辆类型使用。此外,这里描述的系统和方法可以用于各种目的,例如但不限于,用于机器控制、机器运动、机器驱动、合成数据生成、模型训练、感知、增强现实、虚拟现实、混合现实、机器人、安全和监视、语音识别、自主或半自主机器应用、深度学习、环境模拟、数据中心处理、对话式AI、光传输模拟(例如,光线跟踪、路径跟踪等)、用于3D资产的协作内容创建、云计算和/或任何其他合适的应用。
所公开的实施例可以被包括在各种不同的系统中,例如汽车系统(例如,用于自主或半自主机器的控制系统、用于自主或半自主机器的感知系统)、使用机器人实现的系统、空中系统、医疗系统、划船系统、智能区域监控系统、用于执行深度学习操作的系统、用于执行模拟操作的系统、语音识别、使用边缘设备实现的系统、结合一个或更多个虚拟机(VM)的系统、用于执行合成数据生成操作的系统、至少部分在数据中心中实现的系统、用于执行对话式AI操作的系统、用于执行光传输模拟的系统、用于执行3D资产的协作内容创建的系统、至少部分使用云计算资源实现的系统和/或其他类型的系统。
参考图1,图1是根据本公开的一些实施例的将场景感知的上下文用于对话系统的示例。应当理解,本文所述的这种和其他布置仅作为示例被阐述。除了所示的那些布置和元件之外或代替所示的那些布置和元件,可以使用其他布置和元件(例如,机器、接口、功能、顺序、功能分组等),并且一些元件可以一起省略。进一步,本文描述的许多元件是可被实现为分立或分布式组件,或结合其他组件,且在任何合适的组合和位置中实现的功能实体。本文中描述为由实体执行的不同功能可由硬件、固件和/或软件执行。例如,不同功能可由处理器执行存储在存储器中的指令来执行。在一些实施例中,这里描述的系统、方法和过程可以使用与图12A-12D的示例性自主车辆1200、图13的示例性计算设备1300和/或图14的示例性数据中心1400的组件、特征和/或功能相似的组件、特征和/或功能来执行。
过程100可以包括一个或更多个语音模型102处理音频数据104。例如,车辆可以使用一个或更多个麦克风生成音频数据104,其中音频数据104表示来自车辆用户的语音(例如,话语)。在一些示例中,语音可以表示用户正在请求的任务,例如提供与位于环境内且靠近车辆的POI相关联的信息的请求。然后,车辆可以使用语音模型102来处理音频数据104。如本文所述,语音模型102可以包括但不限于一个或更多个ASR模型、一个或更多个STT模型、一个或更多个NLP模型和/或任何其他类型的语音模型。基于对音频数据104的处理,语音模型102可以被配置成确定与语音相关联的意图。意图可以包括但不限于请求信息(例如,关于地标的信息、关于位置的信息、关于人的信息等)、预订(例如,预订酒店、预订晚餐、预订活动门票等)、安排事件(例如,安排生日聚会、安排体育比赛等)、开始通信(打电话、开始视频会议等)、创建列表(例如,创建购物列表、创建待办事项列表等)、获取物品和/或服务,和/或任何其他意图。
在一些示例中,语音模型102还可以被配置为确定与意图相关联的一个或更多个槽位的信息。如这里所描述的,槽位可以提供用于执行意图的额外信息(例如,参数)。对于第一示例,如果语音与包括“你能提供关于那个玻璃建筑物的信息吗”的话语相关联,那么意图可以包括“请求信息”,并且槽位可以包括“玻璃”和“建筑物”。对于第二示例,如果语音与包括“你今天能在那个餐馆预约吗”的话语相关联,那么意图可以包括“预订”,并且槽位可以包括“餐馆”和“今天”。
在一些示例中,车辆可以基于一个或更多个事件的发生使用语音模型102来生成音频数据104和/或处理音频数据104。对于第一示例,车辆可以基于用户提供输入(例如,按下)位于车辆内的诸如按钮的设备来使用语音模型102生成音频数据104和/或处理音频数据104。对于第二示例,车辆可以基于确定先前的音频数据表示特定的词(例如触发词),使用语音模型102来生成音频数据104和/或处理音频数据104。对于第三示例,车辆可以基于确定用户正在关注车辆的一个或更多个部件(例如,使用本文描述的一个或更多个过程),例如仪表板和/或显示器,使用语音模型102生成音频数据104和/或处理音频数据104。虽然这些只是可导致车辆生成和/或处理音频数据104的几个示例性事件,但在其它示例中,车辆可基于检测到的一个或更多个额外和/或替代事件生成和/或处理音频数据104。
如图1的示例所示,语音模型102可以输出与音频数据104相关联的文本数据106。在一些示例中,文本数据106可以表示与音频数据104相关联的意图。例如,如果意图包括“请求信息”,那么文本数据106可以包括表示词“请求”和“信息”的一个或更多个向量。在一些示例中,文本数据106可以表示与意图相关联的一个或更多个槽位的信息。例如,如果与意图相关联的槽位包括“建筑物”和“玻璃”,则文本数据106可以包括表示词“建筑物”和“玻璃”的一个或更多个向量。
例如,图2示出了根据本公开的一些实施例的语音模型102处理音频数据202(其可以表示和/或包括音频数据104)以确定意图204和与槽位206(1)-(2)(也单独称为“槽位206”或复数称为“槽位206”)相关联的信息的示例。如图所示,音频数据202可以表示包括“你能提供关于那个玻璃建筑物的信息吗”的语音(例如,话语)。因此,语音模型102可以处理音频数据202并生成输出数据208(其可以表示和/或包括文本数据106)。如图所示,语音模型102可以确定意图204包括“请求信息”。语音模型102可以进一步确定第一槽位206(1)的信息包括“建筑物”,而第二槽位206(2)的信息包括“玻璃”。虽然图2的示例示出了语音模型102确定与意图204相关联的两个槽位206,但在其他示例中,语音模型102可以确定与意图204相关联的任意数量的槽位206(例如,零个槽位、一个槽位、五个槽位、十个槽位等)。
返回参考图1的示例,过程100可包括车辆使用一个或更多个传感器生成传感器数据108。在一些示例中,传感器数据108可以包括由车辆的一个或更多个内部相机生成的图像数据,其中图像数据表示描绘至少提供语音的用户的一个或更多个图像。例如,图像可以至少描绘用户的头部、眼睛、手和/或类似物。在一些示例中,传感器数据108可以包括由车辆的一个或更多个外部相机生成的图像数据,其中图像数据表示描绘车辆正在导航的环境的一个或更多个图像。在任一示例中,过程100然后可以包括使用凝视组件110和/或手势组件112来确定与用户相关联的POI。
例如,图3是根据本公开的一些实施例的用于使用凝视估计来确定POI的示例过程300。如图所示,图3可以包括外部传感器数据302(其可以表示和/或包括传感器数据108)、内部传感器数据304(其还可以表示和/或包括传感器数据108)、地图306、航路点目录308、凝视组件110、车辆定位器310、运动跟踪器312、凝视映射器314、POI确定器316和POI日志318。
在操作中,凝视组件110可以访问地图306。地图306可以是全球导航卫星系统(GNSS)地图、高清(HD)地图、由实体(例如,公司、企业、社团、组织等)生成的地图、能够提供真实世界环境的接近1:1比例的地图类型和/或另一地图类型。(一个或更多个)地图306可以包括(一个或更多个)航路点目录308和/或可以访问(一个或更多个)航路点目录308。航路点目录308可以包括任意数量的航路点,其中一个或更多个航路点(例如,航路点)对应于真实世界环境中的POI。另外,与一个或更多个POI(例如,每个POI)相关联的数据可以与一个或更多个对应的航路点(例如,每个航路点)相关联地存储在航路点目录308中。例如,航路点条目可以包括地标的位置信息、地标的标识符信息等。
凝视组件110的车辆定位器310可以接收外部传感器数据302。如本文所述,外部传感器数据302可以包括由车辆的一个或更多个外部传感器(例如,相机)生成的图像数据。车辆定位器310可以使用外部传感器数据302来在地图306内定位车辆。例如,外部传感器数据302可以包括指示语义环境地标的数据。然后,语义环境地标可以与地图306的特征相匹配,以实时和/或接近实时地确定车辆在地图306内的精确位置。
另外地,或者替代地,在一些示例中,车辆定位器310可以使用其他类型的传感器数据108来确定车辆在地图306内的位置。例如,车辆定位器310可以接收位置数据,例如全球定位系统(GPS)数据、三角测量数据和/或类似数据。车辆定位器310然后可以使用位置数据来确定车辆在地图306内的位置。
凝视组件110的运动跟踪器312可以接收内部传感器数据304。内部传感器数据304可以对应于使用一个或更多个舱内传感器生成的传感器数据,例如一个或更多个舱内相机、舱内近红外(NIR)传感器、舱内麦克风和/或类似物。因此,内部传感器数据304可对应于具有车辆内部的感测场或视场的传感器(例如,具有诸如驾驶员的乘员的(在其视场中具有一个或更多个乘员(诸如驾驶员)的相机)。然而,在一些示例中,内部传感器数据304可以包括来自具有车辆外部感测场的任何传感器的传感器数据。
运动跟踪器312可以使用内部传感器数据304——例如,来自一个或更多个舱内相机、NIR相机或传感器,和/或其他眼跟踪传感器类型的传感器数据——来确定凝视方向和运动、注视、道路扫描行为(例如,道路扫描模式、分布和范围)、扫视信息(例如,速度、方向等)、眨眼率、平滑追踪信息(例如,速度、方向等)和/或其他信息。运动跟踪器312可以确定对应于某些状态的时间段,例如注视持续多长时间,和/或可以跟踪确定某些状态的次数——例如,多少次注视、多少次扫视、多少次平滑追踪等。运动跟踪器312可以单独地监视或分析每只眼睛,和/或可以一起监视或分析两只眼睛。例如,可以监视双眼以便使用三角测量来测量乘员凝视的深度。在一些实施例中,运动跟踪器312可以执行一个或更多个机器学习算法、深度神经网络、计算机视觉算法、图像处理算法、数学算法和/或类似算法来确定眼跟踪信息。
运动跟踪器312还可以使用内部传感器数据304——例如,来自一个或更多个舱内相机、麦克风、压力传感器、温度传感器等的传感器数据——来确定触发动作,例如手势、语音命令、按钮致动等。在一些示例中,运动跟踪器312可以执行一个或更多个机器学习算法、深度神经网络、计算机视觉算法、图像处理算法、数学算法、自然语言处理算法和/或类似算法来确定触发动作数据。
凝视映射器314可以从车辆定位器310接收车辆定位信息,并从运动跟踪器312接收眼跟踪信息。使用车辆定位信息和眼跟踪信息,凝视映射器314可以访问地图306以将用户的视野和凝视方向映射到地图306。用户的视野和凝视方向的虚拟表示可以进一步被生成并覆盖在地图306上。在一些示例中,凝视映射器314可以将用户的凝视映射到车辆的感知信息——例如,将用户的凝视方向的表示映射到车辆的对象检测(例如,POI检测包围形状输出)输出。
POI确定器316可以从凝视映射器314接收映射信息。使用映射信息,POI确定器316可以确定当车辆沿着道路行驶时乘员正在观看的航路点和对应的POI。POI确定器316可以将用户视野的虚拟表示与来自航路点目录308的地图306上的航路点位置进行比较,以确定用户正在观看或潜在地观看的POI。用户视野内的一个或更多个可视航路点(例如,每个可视航路点)可被认为是用户注视他们的视线的候选航路点。在一些示例中,用户视野内的一个或更多个可视航路点(例如,每个可视航路点)可以存储在POI日志318中。
在一些示例中,POI确定器316可以基于用户查看POI达阈值时间量来识别要存储在POI日志318中的航路点。例如,在用户的映射凝视方向与地图306中的航路点位置重叠的情况下,POI确定器316可以确定用户正在查看与该航路点位置的航路点相关联的POI。在一些示例中,重叠确定可以包括重叠的阈值量,例如50%重叠(例如,包围形状的50%被凝视方向投影的某些部分重叠)、70%重叠、90%重叠等。在其他示例中,任何重叠量都可以满足重叠确定,或者完全重叠可以满足重叠确定。POI确定器316可以进一步跟踪映射的用户凝视方向与地图306中的航路点位置重叠的时间量。当时间量超过阈值时,POI确定器316可以确定用户对POI感兴趣,并将航路点存储在POI日志318中以供以后查看。
在一些示例中,POI确定器316可以基于触发动作数据和/或用户的凝视方向来识别要存储在POI日志318中的航路点。例如,当用户执行触发动作(例如,输出语音,例如话语)时,POI确定器316可以从运动跟踪器312接收对应的触发动作数据。触发动作数据可包括时间戳,该时间戳可用于确定在用户执行触发动作时的用户的凝视方向。例如,POI确定器316可以确定在用户说话的时刻,用户的凝视与用户视野中的特定地标(或其他POI类型)重叠。
在一些示例中,例如在POI确定器316无法确定用户正在观看的POI的情况下——在地图306中沿着用户投影凝视的路径不存在航路点的情况下,或者系统不使用地图来确定POI或航路点相关性的情况下——POI确定器316可以将用户的凝视方向映射到可以由车辆的外部传感器捕获的视野,以确定用户正在观看的POI。例如,POI确定器316可以从运动跟踪器312接收眼跟踪信息和外部传感器数据302,外部传感器数据302可以包括由车辆外部的一个或更多个相机捕获的图像数据。然后,POI确定器316可以将用户的凝视方向映射到使用外部传感器数据302生成的感知输出(例如,对象检测等),以确定用户正在观看的位置的真实世界视图。POI确定器316可以采用计算机视觉算法、机器学习、神经网络和/或其他过程来检测和/或处理(例如,使用光学字符识别(OCR)、图像分析等)用户正在观看的POI。在一些示例中,一旦检测到POI,就可以将POI存储在航路点目录308和/或POI日志318中。
参考图4A,图4A描绘了根据本公开的一些实施例的使用眼运动信息生成的示例绘图。图4A包括对应于当前(例如,对应于当前时间或一段时间-例如一秒、三秒、五秒等)凝视方向和凝视信息的图402。例如,凝视方向可以由点404表示,其中图402中的(x,y)位置可以具有相对于车辆的对应位置。在一些示例中,图402可以用于确定用户已经将他们的凝视方向注视在POI上达阈值时间量和/或用于确定在系统接收到触发动作时的用户的凝视方向。
参考图4B-4C,图4B-4C描绘了根据本公开的一些实施例的用于确定眼运动信息的时间步长或帧处的眼位置的示例性图示。图表406和408包括用户的可视化——例如,在图表406中更多地关注用户的眼睛,而在图表408中更广泛地关注用户——其可用于生成图4A的图表402。乘员的头部和/或眼的方位可以被确定并用于确定当前帧的凝视方向和/或位置。此外,任意数量帧的结果(例如,以每秒30帧或60帧捕获的两秒钟的帧)可用于跟踪运动类型——诸如扫视、眨眼率、平滑追踪、注视、道路扫描行为和/或类似物——这些运动类型可用于及时确定凝视方向。另外,可以处理结果以确定用户通过或接近的POI中的兴趣级别。
参考图5A,图5A描绘了根据本公开的一些实施例的用于确定POI的延伸到车辆外部的凝视方向表示的示例性可视化500。示例性可视化500包括挡风玻璃502、地标504、地标506、投影508、触发致动器510和用户。
在操作中,用户可以透过挡风玻璃502进行观察,并且表示用户凝视的方向(例如,基于内部传感器数据304)的投影508可以由凝视组件110生成并延伸到车辆外部的环境中。在一些示例中,使用车辆外部的传感器,凝视组件110可以确定地标504和地标506在用户的视野内。在其他示例中,使用(一个或更多个)地图306和(一个或更多个)航路点目录308,凝视组件110可以确定(一个或更多个)航路点目录308中存在与地标504相对应的航路点,并且(一个或更多个)航路点目录308中不存在与地标506相对应的航路点。凝视组件110然后可以确定投影508与地标504和/或对应于地标504的航路点重叠。在一些示例中,当投影508与地标504重叠时,用户可以致动触发致动器510,并且与地标504相关联的数据可以存储在POI日志318中。另外地,或者替代地,根据这里讨论的示例,基于投影508与地标504重叠达阈值时间量、基于手势、基于语音命令,和/或另一触发动作,与地标504相关联的数据可以存储在POI日志318中。
转向图5B,图5B描绘了根据本公开的一些实施例的定位在地图上的车辆的俯视图。图5B包括车辆512、地图514、视野516、航路点518和投影凝视方向520。
在操作中,投影凝视方向520可以被映射到地图514(其可以包括和/或表示图3的地图306),地图514包括航路点518。凝视组件110然后可以确定凝视方向520与航路点518重叠。在一些示例中,当凝视方向520与航路点518重叠时,车辆512的用户可以执行触发动作(例如,手势、语音命令、按钮致动和/或另一触发动作),以在POI日志318中存储与航路点518相关联的数据和相关联的信息。另外地,或者替代地,根据这里讨论的示例,可以基于凝视方向520与地标504重叠达阈值时间量将航路点518存储在POI日志318中。
在一些示例中,手势组件112可以执行一个或更多个类似的过程以确定POI。例如,图6是根据本公开的一些实施例的用于使用手势估计来确定POI的示例过程600。如图所示,图6可以包括外部传感器数据302、内部传感器数据304、地图306、航路点目录308、手势组件112、车辆定位器602(其可以表示和/或包括车辆定位器310)、运动跟踪器604、手势映射器606、POI确定器608(其可以表示和/或包括POI确定器316)和POI日志610(其可以表示和/或包括POI日志318)。
在操作中,手势组件112可以访问地图306。手势组件112的车辆定位器602还可以接收外部传感器数据302。如本文所述,外部传感器数据302可以包括由车辆的一个或更多个外部传感器(例如,相机)生成的图像数据。车辆定位器602可以使用外部传感器数据302来在地图306内定位车辆。例如,外部传感器数据302可以包括指示语义环境地标的数据。然后,语义环境地标可与地图306的特征匹配,以实时确定车辆在地图306内的精确位置。
凝视组件110的车辆定位器602可以接收外部传感器数据302。如本文所述,外部传感器数据302可以包括由车辆的一个或更多个外部传感器(例如,相机)生成的图像数据。车辆定位器602可以使用外部传感器数据302来在地图306内定位车辆。例如,外部传感器数据302可以包括指示语义环境地标的数据。然后,语义环境地标可以与地图306的特征相匹配,以实时和/或接近实时地确定车辆在地图306内的精确位置。
另外地,或者替代地,在一些示例中,车辆定位器602可以使用其他类型的传感器数据108来确定车辆在地图306内的位置。例如,车辆定位器602可以接收位置数据,例如全球定位系统(GPS)数据、三角测量数据和/或类似数据。车辆定位器602然后可以使用位置数据来确定车辆在地图306内的位置。
手势组件112的运动跟踪器604可以接收内部传感器数据304。如本文所述,内部传感器数据304可以对应于使用一个或更多个舱内传感器生成的传感器数据,例如一个或更多个舱内相机、舱内近红外(NIR)传感器、舱内麦克风和/或类似物。因此,内部传感器数据304可对应于具有车辆内部的感测场或视场的传感器(例如,在其视场中具有诸如驾驶员的乘员的(相机)。然而,在一些实施例中,内部传感器数据304可以包括来自具有车辆外部感测场的任何传感器的传感器数据。
运动跟踪器604可以使用内部传感器数据304——例如,来自一个或更多个舱内摄像机、NIR摄像机或传感器的传感器数据,和/或其他眼跟踪传感器类型——来确定手势方向和运动、注视、道路扫描行为(例如,道路扫描模式、分布和范围)、扫视信息(例如,速度、方向等)、眨眼率、平滑追踪信息(例如,速度、方向等)和/或其他信息。运动跟踪器604可以确定对应于某些状态的时间段,例如注视持续多长时间,和/或可以跟踪确定某些状态的次数——例如,多少注视、多少扫视、多少平滑追踪等。运动跟踪器604可以监视或分析用户的一个或更多个部分,例如用户的手。在一些实施例中,运动跟踪器604可以执行一个或更多个机器学习算法、深度神经网络、计算机视觉算法、图像处理算法、数学算法和/或类似算法来确定眼跟踪信息。
运动跟踪器604还可以使用内部传感器数据304——例如,来自一个或更多个舱内相机、麦克风、压力传感器、温度传感器等的传感器数据——来确定触发动作,例如手势、语音命令、按钮致动等。在一些实施例中,运动跟踪器604可以执行一个或更多个机器学习算法、深度神经网络、计算机视觉算法、图像处理算法、数学算法、自然语言处理算法和/或类似算法来确定触发动作数据。
手势映射器606可以从车辆定位器602接收车辆定位信息,并从运动跟踪器604接收手势跟踪信息。使用车辆定位信息和手势跟踪信息,手势映射器606可以访问地图306以将用户的手势方向映射到地图306。用户手势方向的虚拟表示还可以被生成并覆盖在地图306上。在一些实施例中,手势映射器606可以将用户的手势映射到车辆的感知信息,例如,将用户的手势方向的表示映射到车辆的对象检测(例如,POI检测包围形状)输出。
POI确定器608可以从手势映射器606接收映射信息。使用映射信息,POI确定器608可以确定当车辆沿着道路正行驶时乘员正在观看的航路点和对应的POI。POI确定器608可以将用户手势方向的虚拟表示与来自航路点目录308的地图306上的航路点位置进行比较,以确定用户正在观看或潜在观看的POI。用户视野内的一个或更多个可视航路点(例如,每个可视航路点)可被认为是用户注视其手势的候选航路点。在一些示例中,用户视野内的一个或更多个可视航路点(例如,每个可视航路点)可以存储在POI日志318中。
在一些实施例中,POI确定器608可以基于用户对POI的手势达阈值时间量来识别要存储在POI日志318中的航路点。例如,在用户的映射手势方向与地图306中的航路点位置重叠的情况下,POI确定器608可以确定用户正在朝着与在航路点位置处的航路点相关联的POI做手势。POI确定器608还可以跟踪映射的用户手势方向与地图306中的航路点位置重叠的时间量。当时间量超过阈值时,POI确定器608可以确定用户对POI感兴趣,并将航路点存储在POI日志610中以供以后查看。
在一些实施例中,POI确定器608可以基于触发动作数据和/或用户的手势方向来识别要存储在POI日志610中的航路点。例如,当用户执行触发动作时,POI确定器608可以从运动跟踪器604接收对应的触发动作数据。触发动作数据可包括时间戳,该时间戳可用于确定在用户执行触发动作时的用户的手势方向。例如,POI确定器608可以确定在用户致动车辆的按钮(例如,在方向盘上、在触摸显示器上、在控制台上等)或以其他方式指示(例如,物理地、口头地、通过手势等)对POI感兴趣的时刻,用户的手势方向与用户视野中的特定地标(或其他POI类型)重叠。
在一些实施例中,例如在POI确定器608无法确定用户正在观看的POI的情况下——在地图306中沿着用户的投影手势方向的路径不存在航路点的情况下,或者在系统不使用地图来确定POI或航路点相关性的情况下——POI确定器608可以将用户的手势方向映射到可由车辆的外部传感器捕获的视野,以确定用户正在观看的POI。例如,POI确定器608可以从运动跟踪器604接收手势跟踪信息和外部传感器数据302,外部传感器数据302可以包括由车辆外部的一个或更多个相机捕获的图像数据。然后,POI确定器608可以将用户的手势方向映射到使用外部传感器数据302生成的感知输出(例如,对象检测等),以确定用户正在手势的位置的真实世界视图。POI确定器608可以采用计算机视觉算法、机器学习、神经网络和/或其他过程来检测和/或处理(例如,使用光学字符识别(OCR)、图像分析等)用户正在打手势的POI。在一些示例中,一旦检测到POI,就可以将POI存储在航路点目录308和/或POI日志610中。
参考图7,图7描绘了根据本公开的一些实施例的延伸到车辆外部以确定POI的手势方向表示的示例可视化700。示例性可视化700包括挡风玻璃502、地标504、地标506、投影702、触发致动器510和用户。
在操作中,用户可以通过挡风玻璃502指向,并且表示用户手势的方向(例如,基于内部传感器数据304)的投影702可以由手势组件112生成并延伸到车辆外部的环境中。在一些示例中,使用车辆外部的传感器,手势组件112可以确定地标504和地标506在用户的视野内。在其他示例中,使用(一个或更多个)地图306和(一个或更多个)航路点目录308,手势组件112可以确定(一个或更多个)航路点目录308中存在与地标504相对应的航路点,并且(一个或更多个)航路点目录308中不存在与地标506相对应的航路点。手势组件112然后可以确定投影702与地标504和/或对应于地标504的航路点重叠。在一些示例中,当投影702与地标504重叠时,用户可以致动触发致动器510,并且与地标504相关联的数据可以存储在POI日志610中。另外地,或者替代地,根据这里讨论的示例,基于投影702与地标504重叠达阈值时间量、基于手势、基于语音命令,和/或另一触发动作,与地标504相关联的数据可以存储在POI日志610中。
返回参考图1的示例,过程100可以包括凝视组件110和/或手势组件112输出上下文数据114。例如,如本文所述,基于凝视组件110和/或手势组件112确定POI,凝视组件110和/或手势组件112可以使用POI(例如,来自POI日志318和/或POI日志610)来确定与由音频数据104表示的语音相关联的上下文。在一些示例中,上下文可以表示与POI相关联的信息。对于第一示例,如果POI是地标,则上下文可以包括与地标相关联的标识符(例如,姓名、昵称等)、与地标相关联的属性(例如,颜色、尺寸、形状等)和/或与地标相关联的任何其他信息。对于第二示例,如果POI是人,则上下文可以包括与该人相关联的标识符(例如,姓名、昵称等)。虽然这些仅仅是与POI相关联的上下文的两个示例,但是在其他示例中,上下文可以包括与POI相关联的任何其他类型的信息。
在一些示例中,过程100可以包括车辆生成与音频数据104相关联的额外上下文数据116。如本文所述,额外上下文数据116可以包括但不限于与车辆(和/或用户)相关联的位置数据、时间数据、路线数据和/或类似数据。位置数据可以表示地理区域,例如街道、社区、县、城市、州、国家和/或用户所在的任何其他地理区域。另外,时间数据可以表示由用户输出语音和/或生成音频数据104的时间。时间可以包括秒、分钟、小时、日、周、月、年等。此外,路线数据可以指示与车辆相关联的当前路线,例如始发位置和/或目的地位置。
过程100然后可以包括将文本数据106、上下文数据114和/或额外上下文数据116输入到语言模型118中。在一些示例中,为了输入数据,意图可以附加有槽位、由上下文数据114表示的上下文和/或由额外上下文数据116表示的上下文。然而,在其他示例中,文本数据106、上下文数据114和/或额外上下文数据116可以被单独输入到语言模型118中。如本文所述,语言模型118可以包括任何类型的语言模型,例如但不限于生成性语言模型(例如,GPT等)、表示性语言模型(例如,BERT等)和/或任何其他类型的语言模型。可以训练语言模型118来处理意图、与槽位相关联的信息和/或上下文。基于处理,语言模型118可以输出与意图相关联的数据120。例如,并且使用图2的示例,如果意图包括“请求信息”,则槽位包括信息“建筑物”和“玻璃”,并且上下文包括建筑物的标识符(例如,名称),则语言模型118可以输出表示与建筑物相关联的信息的数据120。
在一些示例中,输出数据120可以包括表示描述信息的一个或更多个词的音频数据。例如,使用上面的例子,音频数据可以表示描述或对应于建筑物名称、建筑物建造日期和/或任何其他信息的词。在一些示例中,车辆的一个或更多个组件可以使用输出数据120来为用户生成不同类型的输出。例如,车辆的组件可以使用输出数据120来生成表示包括与建筑物相关联的信息的一个或更多个图像的图像数据。在任一示例中,车辆然后可以向用户提供输出。
例如,图8示出了根据本公开的一些示例的导致向用户提供内容的语言模型118的示例。如图所示,用户可以最初提供表示话语802的语音,该话语802包括“该餐馆提供什么类型的食物?”因此,语音模型102可以执行这里描述的一个或更多个过程来处理表示话语802的音频数据104,并且基于该处理,输出与话语802相关联的文本数据106。在图8的示例中,文本数据106可以表示包括“请求信息”的意图和包括“食物”和“餐馆”的槽位信息。此外,凝视组件110和/或手势组件112可以执行这里描述的一个或更多个过程来处理表示用户的传感器数据108。基于该处理,凝视组件110和/或手势组件112可以输出与音频数据104相关联的上下文数据114。在图8的示例中,上下文数据114可以表示用户在输出话语802时关注的地标504(例如,餐馆)的标识符(例如,名称,诸如图8的示例中的“农民的餐馆”)。
语言模型118然后可以处理文本数据106和上下文数据114。基于该处理,语言模型118可以输出表示与地标504相关联的信息的数据120。例如,在图8的示例中,输出数据120可以表示一个或更多个词,例如“农民的餐馆提供烧烤食物”。然后,车辆可以向用户输出与输出数据120相关联的内容。对于第一示例,如果输出数据120是表示一个或更多个词的音频数据,则车辆可以使用扬声器806输出由音频数据表示的声音804。另外地或可替换地,车辆可以使用输出数据120来生成表示与信息相关联的内容808的图像数据。然后,车辆可以使显示器810向用户呈现内容808。
虽然图8的示例将音频数据和图像数据示出为包括来自输出数据120的相同信息,但是在其它示例中,音频数据可以表示与图像数据不同的信息。例如,由显示器810呈现的内容808可以提供与地标504相关联的额外信息,例如餐馆的食物菜单。在一些示例中,语言模型118(和/或一个或更多个其他模型)可以通过处理文本数据106和/或上下文数据114来确定额外信息。
虽然图1至图8的示例描述了当车辆包括用户时执行过程,但在其它示例中,当多于一个用户位于车辆内时可以执行类似的过程。在这样的示例中,车辆可以执行一个或更多个额外过程来最初识别车辆内的哪个用户输出语音。在一些示例中,车辆可以基于使用一种或更多种图像处理技术处理传感器数据108来识别用户,以确定在生成表示语音的音频数据104的时间段哪个用户正在说话。例如,图像处理技术可以确定特定用户的嘴在正生成音频数据104的时间段期间正在动,而其他用户的嘴在正生成音频数据104的时间段期间没有动。因此,车辆可以确定特定用户是输出语音的用户。然后,车辆可以执行这里描述的过程,以确定在特定用户输出语音的时间期间特定用户关注的POI。这样,车辆可以验证为音频数据104生成了正确的上下文数据114。
例如,图9示出了根据本公开的一些示例的识别输出语音的用户的示例性可视化900。在图9的示例中,位于车辆内的传感器可以生成表示描绘位于车辆内的第一用户902和第二用户904的图像的传感器数据108(例如,图像数据)。然后,车辆可以使用图像处理技术来处理传感器数据108,以便确定语音906与第一用户902相关联。例如,当输出语音906和/或生成表示语音906的音频数据104时,图像处理技术可以确定第一用户902的嘴908是张开的和/或动的。另外地或可替代地,图像处理技术可以确定当输出语音906和/或生成表示语音906的音频数据104时,第二用户904的嘴910关闭和/或不动。
虽然图9的示例描述了使用(一个或更多个)图像处理技术来确定语音906与第一用户902相关联,但是在其它示例中,车辆可以使用一个或更多个附加和/或替代技术。对于第一示例,车辆可以使用一个或更多个语音识别技术来分析表示语音906的音频数据104。基于该处理,语音识别技术可以确定语音906与第一用户902相关联。对于第二示例,车辆可以确定当输出语音906和/或当生成表示语音906的音频数据104时,第一用户902正在例如向触发致动器510提供输入。虽然这些仅仅是车辆如何将语音906与第一用户902相关联的几个附加示例技术,但在其他示例中,车辆可以使用附加的和/或替代的技术。
现在参考图10至图11,本文描述的方法1000和1100的每个框包括可以使用硬件、固件和/或软件的任意组合来执行的计算过程。例如,各种功能可以通过处理器执行存储在存储器中的指令来执行。方法1000和1100也可以体现为存储在计算机存储介质上的计算机可用指令。方法1000和1100可以由独立应用、服务或托管服务(独立的或与另一托管服务组合)或另一产品的插件来提供,仅举几个例子。另外,通过示例的方式,关于图1的系统重新描述了方法1000和1100。然而,这些方法1000和1100可以附加地或替代地由任何一个系统或系统的任何组合来执行,包括但不限于这里描述的那些系统。
图10是根据本公开的一些实施例示出用于将场景感知的上下文用于对话系统的方法1000的流程图。在框1002处,方法1000可以包括使用一个或更多个第一机器学习(例如,语言)模型并至少部分地基于表示语音的音频数据来确定与语音相关联的意图。例如,音频数据104可以被输入到语音模型102中。如本文所述,音频数据104可以表示语音,诸如请求要执行的任务的用户话语(例如,“请提供关于该结构的信息”)。语音模型102然后可以处理音频数据104,并且基于该处理,输出表示与语音相关联的意图(例如,“请求信息”)的文本数据106。在一些示例中,由语言模型118输出的文本数据106可以进一步表示与意图相关联的一个或更多个槽位(例如,“结构”)的信息。
在框B1004,过程1000可以包括至少部分地基于表示用户的传感器数据来确定用户的兴趣点。例如,表示用户的传感器数据108可以由凝视组件110和/或手势组件112处理。基于对传感器数据108的处理,凝视组件110和/或手势组件112可以确定与用户相关联的POI。例如,凝视组件110和/或手势组件112可以确定用户关注于位于用户所处环境内的地标、人和/或任何其他对象。然后,凝视组件110、手势组件112和/或另一组件可以至少部分地基于POI来生成上下文数据。如本文所描述的,上下文数据114可以表示与POI相关联的信息,例如POI的标识符。
在框B1006,过程1000可以包括使用一个或更多个第二模型并至少部分地基于意图和兴趣点来确定与语音相关联的输出。例如,文本数据106和上下文数据114可以被输入到语言模型118中。在一些示例中,附加上下文数据116也可以被输入到语言模型118中。然后,语言模型118可以处理数据,并且基于该处理,输出与语音相关联的数据120。对于第一示例,并且使用上面的示例,如果意图包括针对该结构的“请求信息”,并且上下文数据114表示该结构的标识符,则语言模型118可以输出表示与用户在输出语音时关注的特定结构相关联的信息的数据120。对于第二示例,如果意图包括“预订”并且上下文数据114表示餐馆的标识符,则语言模型118可以输出可以用于在餐馆预订的数据120。
图11是示出根据本公开的一些实施例的用于在多个用户位于车辆内时确定与语音相关联的上下文的方法1100的流程图。在框B1102,过程1100可以包括接收表示语音的音频数据。例如,车辆可以使用一个或更多个传感器来生成表示语音的音频数据104。如本文所描述的,语音可以表示请求要执行的任务的用户话语(例如,“请提供关于该结构的信息”)。然后,车辆可以使用语音模型102来处理音频数据104,并且基于该处理,输出表示与语音相关联的意图(例如,“请求信息”)的文本数据106。在一些示例中,由语言模型118输出的文本数据106可以进一步表示与意图相关联的一个或更多个槽位(例如,“结构”)的信息。
在框B1104处,过程1100可包括接收表示至少第一用户和第二用户的传感器数据。例如,车辆可以使用一个或更多个传感器来生成表示第一用户和第二用户的传感器数据108。在一些示例中,传感器数据108可以包括来自单个相机的图像数据,其中图像数据表示描绘第一用户和第二用户的图像。在一些示例中,传感器数据108可以包括由第一相机生成的第一图像数据和由第二相机生成的第二图像数据,其中第一图像数据表示描绘第一用户的第一图像,而第二图像数据表示描绘第二用户的第二图像。在一些示例中,第一用户可以是驾驶员,而第二用户可以是乘客。在其他示例中,第一和第二用户都可以是乘客。
在框B1106,过程1100可以包括确定语音与第一用户相关联。例如,车辆可以处理音频数据104和/或传感器数据108,并且基于该处理,确定语音与第一用户相关联。在一些示例中,为了做出确定,车辆可以使用一种或更多种图像处理技术来处理传感器数据108。基于该处理,车辆可以确定在音频数据104被生成的时间期间第一用户正在说话(例如,第一用户的嘴正在动)。在一些示例中,为了做出确定,车辆可以使用一种或更多种语音识别技术来处理音频数据104。基于该处理,车辆可以确定语音与第一用户相关联。虽然这些仅仅是车辆可以如何确定语音与第一用户相关联的几个示例性技术,但是在其他示例中,车辆可以使用附加的和/或替代的技术。
在框B1108处,过程1100可以包括至少部分地基于传感器数据来确定与第一用户相关联的兴趣点。例如,传感器数据108可以由凝视组件110和/或手势组件112处理。基于对传感器数据108的处理,凝视组件110和/或手势组件112可以确定与第一用户相关联的POI。例如,凝视组件110和/或手势组件112可以确定第一用户关注位于第一用户所在的环境内的地标、人和/或任何其他对象。
在框B1110,过程1100可以包括至少部分地基于兴趣点来确定与语音相关联的上下文。例如,凝视组件110、手势组件112和/或另一组件然后可以至少部分地基于POI来生成上下文数据114。如本文所描述的,上下文数据114可以表示与POI相关联的信息,例如POI的标识符。在一些示例中,车辆可以基于第一用户与语音相关联的确定将上下文数据114与语音相关联。
示例性自主车辆
图12A是根据本公开的一些实施例的示例性自主车辆1200的图示。自主车辆1200(可替代地,在本文称为“车辆1200”)可以包括但不限于客运车辆,如小汽车、卡车、公共汽车、第一响应车辆、摆渡车、电动或机动自行车、摩托车、消防车、警用车辆,救护车、船、施工车辆、水下船只、机器人车辆、无人机、飞机、耦接到拖车的车辆(例如,用于拖运货物的半牵引车-拖车卡车)和/或另一类型的车辆(例如,无人驾驶的和/或容纳一个或更多个乘客的车辆)。自主车辆通常按照美国运输部的一个部门——国家公路交通安全管理局(NHTSA)以及汽车工程师协会(SAE)“Taxonomy and Definitions for Terms Related to DrivingAutomation Systems for On-Road Motor Vehicles”(2018年6月15日发布的标准No.J3016-201806,2016年9月30日发布的标准No.J3016-201609,以及该标准的先前和未来的版本)定义的自动化级别进行描述。车辆1200可能够实现符合自主驾驶级别的3级-5级中的一个或更多个的功能。例如,取决于实施例,车辆1200可以能够进行驾驶员辅助(1级)、部分自动化(2级)、条件自动化(3级)、高度自动化(4级)和/或全自动化(5级)。此处使用的术语“自主”可以包括车辆1200或其他机器的任何和/或所有类型的自主,例如全自主、高度自主、有条件自主、部分自主、提供辅助自主、半自主、主要自主或其他指定。
车辆1200可以包括诸如底盘、车身、车轮(例如2个、4个、6个、8个、18个等)、轮胎、车轴之类的部件以及车辆的其他部件。车辆1200可以包括推进系统1250,例如内燃机、混合动力发电厂、全电动发动机和/或另一种推进系统类型。推进系统1250可以连接到可以包括变速器的车辆1200的传动系以便实现车辆1200的推进。可以响应于接收到来自油门/加速器1252的信号而控制推进系统1250。
可以包括方向盘的转向系统1254可以用来在推进系统1250操作时(例如在车辆运动时)使车辆1200转向(例如沿着希望的路径或路线)。转向系统1254可以接收来自转向致动器1256的信号。对于全自动(5级)功能而言,方向盘可以是可选的。
制动传感器系统1246可以用来响应于接收到来自制动致动器1248和/或制动传感器的信号而操作车辆制动器。
可以包括一个或更多个片上系统(SoC)1204(图12C)和/或一个或更多个GPU的一个或更多个控制器1236可以向车辆1200的一个或更多个部件和/或系统提供(例如表示命令的)信号。例如,一个或更多个控制器可以发送经由一个或更多个制动致动器1248操作车辆制动器、经由一个或更多个转向致动器1156操作转向系统1254、经由一个或更多个油门/加速器1252操作推进系统1250的信号。一个或更多个控制器1236可以包括一个或更多个板载(例如集成)计算设备(例如超级计算机),所述计算设备处理传感器信号并且输出操作命令(例如表示命令的信号),以实现自主驾驶和/或辅助人类驾驶员驾驶车辆1200。一个或更多个控制器1236可以包括用于自主驾驶功能的第一控制器1236、用于功能性安全功能的第二控制器1236、用于人工智能功能(例如计算机视觉)的第三控制器1236、用于信息娱乐功能的第四控制器1236、用于紧急情况下的冗余的第五控制器1236和/或其他控制器。在一些示例中,单个控制器1236可以处理上述功能中的两个或更多,两个或更多控制器1236可以处理单个功能,和/或其任意组合。
一个或更多个控制器1236可以响应于接收自一个或更多个传感器的传感器数据(例如传感器输入),提供用于控制车辆1200的一个或更多个部件和/或系统的信号。传感器数据可以接收自例如且不限于全球导航卫星系统(“GNSS”)传感器1258(例如全球定位系统传感器)、RADAR传感器1260、超声传感器1262、LIDAR传感器1264、惯性测量单元(IMU)传感器1266(例如加速度计、陀螺仪、磁罗盘、磁力计等)、麦克风1296、立体相机1268、广角相机1270(例如鱼眼相机)、红外相机1272、环绕相机1274(例如360度相机)、远程和/或中程相机1298、速度传感器1244(例如用于测量车辆1200的速率)、振动传感器1242、转向传感器1240、制动传感器(例如作为制动传感器系统1246的部分)和/或其他传感器类型。
控制器1236中的一个或更多个可以接收来自车辆1200的仪表组1232的输入(例如由输入数据表示),并且经由人机接口(HMI)显示器1234、听觉信号器、扬声器和/或经由车辆1200的其他部件提供输出(例如输出数据、显示数据等表示的)。这些输出可以包括诸如车辆速度、速率、时间、地图数据(例如图12C的高清(“HD”)地图1222)、位置数据(例如,车辆1200例如在地图上的位置)、方向、其他车辆的位置(例如占用网格)之类的信息,如控制器1236所感知的关于对象和对象状态的信息等等。例如,HMI显示器1234可以显示关于一个或更多个对象(例如街道指示牌、警示牌、交通灯变化等)的存在性的信息和/或关于车辆已经做出、正在做出或者将会做出的驾驶机动的信息(例如现在变道、两英里后离开34B,等等)。
车辆1200还包括网络接口1224,其可以使用一个或更多个无线天线1226和/或调制解调器通过一个或更多个网络通信。例如,网络接口1224可以能够通过长期演进(“LTE”)、宽带码分多址(“WCDMA”)、通用移动电信系统(“UMTS”)、全球移动通信系统(“GSM”)、IMT-CDMA多载波(“CDMA2000”)等进行通信。一个或更多个无线天线1226也可以使用诸如蓝牙、蓝牙低能量(“LE”)、Z波、ZigBee等等之类的一个或更多个局域网和/或诸如LoRaWAN、SigFox等等之类的一个或更多个低功率广域网(“LPWAN”)实现环境中的对象(例如车辆、移动设备等等)之间的通信。
图12B为根据本公开一些实施例的用于图12A的示例自主车辆1200的相机位置和视场的示例。相机和各自的视场是一个示例实施例,并不意图是限制性的。例如,可以包括附加的和/或可替换的相机,和/或这些相机可以位于车辆1200上的不同位置。
用于相机的相机类型可以包括但不限于可以适于与车辆1200的部件和/或系统一起使用的数字相机。所述相机可以在汽车安全完整性级别(ASIL)B下和/或在另一个ASIL下操作。相机类型可以具有任何图像捕获率,例如60帧每秒(fps)、120fps、240fps等等,这取决于实施例。相机可能够使用滚动快门、全局快门、另一种类型的快门或者其组合。在一些示例中,滤色器阵列可以包括红白白白(RCCC)滤色器阵列、红白白蓝(RCCB)滤色器阵列、红蓝绿白(RBGC)滤色器阵列、Foveon X3滤色器阵列、拜耳传感器(RGGB)滤色器阵列、单色传感器滤色器阵列和/或另一种类型的滤色器阵列。在一些实施例中,诸如具有RCCC、RCCB和/或RBGC滤色器阵列的相机之类的清晰像素相机可以用在提高光敏感度的努力中。
在一些示例中,所述相机中的一个或更多个可以用来执行高级驾驶员辅助系统(ADAS)功能(例如作为冗余或故障安全设计的部分)。例如,可以安装多功能单目相机以提供包括车道偏离警告、交通指示牌辅助和智能前照灯控制在内的功能。所述相机中的一个或更多个(例如全部相机)可以同时记录和提供图像数据(例如视频)。
所述相机中的一个或更多个可以安装在诸如定制设计的(三维(“3D”)打印的)组件之类的安装组件中,以便切断可能干扰相机的图像数据捕获能力的杂散光和来自汽车内的反射(例如挡风玻璃镜中反射的来自仪表板的反射)。关于翼镜安装组件,翼镜组件可以是定制3D打印的,使得相机安装板匹配翼镜的形状。在一些示例中,一个或更多个相机可以集成到翼镜中。对于侧视相机而言,一个或更多个相机也可以集成到驾驶室每个拐角的四根柱子内。
具有包括车辆1200前面的环境部分的视场的相机(例如前置相机)可以用于环视,以帮助识别前向路径和障碍,以及在一个或更多个控制器1236和/或控制SoC的帮助下辅助提供对于生成占用网格和/或确定优选车辆路径至关重要的信息。前置相机可以用来执行许多与LIDAR相同的ADAS功能,包括紧急制动、行人检测和碰撞避免。前置相机也可以用于ADAS功能和系统,包括车道偏离警告(“LDW”)、自主巡航控制(“ACC”),和/或诸如交通指示牌识别之类的其他功能。
各种各样的相机可以用于前置配置中,包括例如包括互补金属氧化物半导体(“CMOS”)彩色成像仪在内的单目相机平台。另一个示例可以是广角相机1270,其可以用来感知从周边进入视场的对象(例如行人、十字路口交通或者自行车)。尽管图12B中图示出仅仅一个广角相机,但是在车辆1200上可以存在任意数量(包括零)的广角相机1270。此外,远程相机1298(例如长视立体相机对)可以用于基于深度的对象检测,尤其是用于尚未针对其训练神经网络的对象。远程相机1298也可以用于对象检测和分类以及基本的对象追踪。
任意数量的立体相机1268也可以包括在前置配置中。在至少一个实施例中,一个或更多个立体相机1268可以包括集成控制单元,该单元包括可扩展处理单元,其可以提供在单个芯片上具有集成的控制器局域网(“CAN”)或以太网接口的多核微处理器和可编程逻辑(“FPGA”)。这样的单元可以用来生成车辆环境的3D地图,包括针对图像中的所有点的距离估计。可替代的立体相机1268可以包括紧凑型立体视觉传感器,其可以包括两个相机镜头(左右各一个)以及可以测量从车辆到目标对象的距离并且使用生成的信息(例如元数据)激活自主紧急制动和车道偏离警告功能的图像处理芯片。除了本文所描述的那些之外或者可替代地,可以使用其他类型的立体相机1268。
具有包括车辆1200的侧面的环境部分的视场的相机(例如侧视相机)可以用于环视,提供用来创建和更新占用网格以及生成侧撞击碰撞警告的信息。例如,环绕相机1274(例如如图12B中所示的四个环绕相机1274)可以置于车辆1200上。环绕相机1274可以包括广角相机1270、鱼眼相机、360度相机和/或类似物。四个示例,四个鱼眼相机可以置于车辆的前面、后面和侧面。在一种可替代的布置中,车辆可以使用三个环绕相机1274(例如左边、右边和后面),并且可以利用一个或更多个其他相机(例如前向相机)作为第四环视相机。
具有包括车辆1200的后面的环境部分的视场的相机(例如后视相机)可以用于辅助停车、环视、后面碰撞警告以及创建和更新占用网格。可以使用各种各样的相机,包括但不限于也适合作为如本文所描述的前置相机(例如远程和/或中程相机1298、立体相机1268、红外相机1272等等)的相机。
图12C为根据本公开一些实施例的用于图12A的示例自主车辆1200的示例系统架构的框图。应当理解,这种布置和本文描述的其他布置仅仅作为示例而被阐述。除了所示的那些之外或者代替它们的是,可以使用其他的布置和元素(例如机器、接口、功能、顺序、功能分组等等),并且一些元素可以完全省略。进一步,许多本文描述的元素是功能实体,其可以实现为分立的或分布式部件或者结合其他部件实现,以及以任何适当的组合和位置实现。本文描述为由实体执行的各个功能可以通过硬件、固件和/或软件实现。例如,各个功能可以通过处理器执行存储在内存中的指令而实现。
图12C中车辆1200的部件、特征和系统中的每一个被图示为经由总线1202连接。总线1202可以包括控制器区域网络(CAN)数据接口(可替代地,本文称为“CAN总线”)。CAN可以是车辆1200内部的网络,用来辅助控制车辆1200的各种特征和功能,例如制动器、加速、制动、转向、挡风玻璃雨刷等等的驱动。CAN总线可以被配置为具有数十或者甚至数百个节点,每个节点具有其自己的唯一标识符(例如CAN ID)。可以读取CAN总线以找到方向盘角度、地速、每分钟发动机转速(RPM)、按钮位置和/或其他车辆状态指示符。CAN总线可以是ASIL B兼容的。
尽管这里将总线1202描述为CAN总线,但是这并不意图是限制性的。例如,除了CAN总线之外或者可替代地,可以使用FlexRay和/或以太网。此外,尽管用单条线来表示总线1202,但是这并不意图是限制性的。例如,可以存在任意数量的总线1202,其可以包括一条或更多条CAN总线、一条或更多条FlexRay总线、一条或更多条以太网总线和/或一条或更多条使用不同协议的其他类型的总线。在一些示例中,两条或更多总线1202可以用来执行不同的功能,和/或可以用于冗余。例如,第一总线1202可以用于碰撞避免功能,并且第二总线1202可以用于驱动控制。在任何示例中,每条总线1202可以与车辆1200的任何部件通信,并且两条或更多总线1202可以与相同的部件通信。在一些示例中,车辆内的每个SoC 1204、每个控制器1236和/或每个计算机可以有权访问相同的输入数据(例如来自车辆1200的传感器的输入),并且可以连接到诸如CAN总线之类的公共总线。
车辆1200可以包括一个或更多个控制器1236,例如本文关于图12A所描述的那些控制器。控制器1236可以用于各种各样的功能。控制器1236可以耦合到车辆1200的任何其他不同的部件和系统,并且可以用于车辆1200的控制、车辆1200的人工智能、用于车辆1200的信息娱乐和/或类似物。
车辆1200可以包括一个或更多个片上系统(SoC)1204。SoC 1204可以包括CPU1206、GPU 1208、处理器1210、高速缓存1212、加速器1214、数据存储1216和/或未图示出的其他部件和特征。在各种各样的平台和系统中,SoC 1204可以用来控制车辆1200。例如,一个或更多个SoC 1204可以在系统(例如车辆1200的系统)中与HD地图1222结合,所述HD地图可以经由网络接口1224从一个或更多个服务器(例如图12D的一个或更多个服务器1278)获得地图刷新和/或更新。
CPU 1206可以包括CPU簇或者CPU复合体(可替代地,本文称为“CCPLEX”)。CPU1206可以包括多个核和/或L2高速缓存。例如,在一些实施例中,CPU 1206在一致性多处理器配置中可以包括八个核。在一些实施例中,CPU 1206可以包括四个双核簇,其中每个簇具有专用的L2高速缓存(例如2MB L2高速缓存)。CPU 1206(例如CCPLEX)可以被配置为支持同时簇操作,使得CPU 1206的簇的任意组合能够在任何给定时间是活动的。
CPU 1206可以实现包括以下特征中的一个或更多个的功率管理能力:各硬件块在空闲时可以自动进行时钟门控以节省动态功率;由于WFI/WFE指令的执行,每个核时钟可以在该核不主动地执行指令时进行门控;每个核可以独立地进行功率门控;当所有核都进行时钟门控或者功率门控时,可以独立地对每个核簇进行时钟门控;和/或当所有核都进行功率门控时,可以独立地对每个核簇进行功率门控。CPU 1206可以进一步实现用于管理功率状态的增强算法,其中指定允许的功率状态和期望的唤醒时间,并且硬件/微代码为所述核、簇和CCPLEX确定要进入的最佳的功率状态。处理核可以在软件中支持简化的功率状态进入序列,该工作被卸载到微代码。
GPU 1208可以包括集成的GPU(可替代地,本文称为“iGPU”)。GPU 1208可以是可编程的,并且对于并行工作负载而言是高效的。在一些示例中,GPU 1208可以使用增强张量指令集。GPU 1208可以包括一个或更多个流式微处理器,其中每个流式微处理器可以包括L1高速缓存(例如具有至少96KB存储能力的L1高速缓存),并且这些流式微处理器中的两个或更多可以共享L2高速缓存(例如具有512KB存储能力的L2高速缓存)。在一些实施例中,GPU1208可以包括至少八个流式微处理器。GPU 1208可以使用计算应用编程接口(API)。此外,GPU 1208可以使用一个或更多个并行计算平台和/或编程模型(例如NVIDIA的CUDA)。
在汽车和嵌入式使用的情况下,可以对GPU 1208进行功率优化以实现最佳性能。例如,可以在鳍式场效应晶体管(FinFET)上制造GPU 1208。然而,这并不意图是限制性的,并且GPU 1208可以使用其他半导体制造工艺来制造。每个流式微处理器可以合并划分成多个块的若干混合精度处理核。例如且非限制性地,可以将64个PF32核和32个PF64核划分成四个处理块。在这样的示例中,每个处理块可以分配16个FP32核、8个FP64核、16个INT32核、用于深层学习矩阵算术的两个混合精度NVIDIA张量核、L0指令高速缓存、线程束(warp)调度器、分派单元和/或64KB寄存器文件。此外,流式微处理器可以包括独立的并行整数和浮点数据路径,以利用计算和寻址计算的混合提供工作负载的高效执行。流式微处理器可以包括独立线程调度能力,以允许实现并行线程之间的更细粒度的同步和协作。流式微处理器可以包括组合的L1数据高速缓存和共享内存单元,以便在简化编程的同时提高性能。
GPU 1208可以包括在一些示例中提供大约900GB/s的峰值内存带宽的高带宽内存(HBM)和/或16GB HBM2内存子系统。在一些示例中,除了HBM内存之外或者可替代地,可以使用同步图形随机存取存储器(SGRAM),例如第五代图形双倍数据速率同步随机存取存储器(GDDR5)。
GPU 1208可以包括统一内存技术,其包括访问计数器以允许内存页面更精确地迁移到最频繁地访问它们的处理器,从而提高处理器之间共享的内存范围的效率。在一些示例中,地址转换服务(ATS)支持可以用来允许GPU 1208直接访问CPU 1206页表。在这样的示例中,当GPU 1208内存管理单元(MMU)经历遗漏时,可以将地址转换请求传输至CPU 1206。作为响应,CPU 1206可以在其页表中寻找用于地址的虚拟-物理映射,并且将转换传输回GPU 1208。这样,统一内存技术可以允许单个统一虚拟地址空间用于CPU 1206和GPU 1208二者的内存,从而简化了GPU 1208编程和将应用程序移(port)到GPU 1208。
此外,GPU 1208可以包括访问计数器,其可以追踪GPU 1208访问其他处理器的内存的频率。访问计数器可以帮助确保内存页面移至最频繁地访问这些页面的处理器的物理内存。
SoC 1204可以包括任意数量的高速缓存1212,包括本文描述的那些高速缓存。例如,高速缓存1212可以包括CPU 1206和GPU 1208二者可用的L3高速缓存(例如,其连接到CPU 1206和GPU 1208二者)。高速缓存1212可以包括回写高速缓存,其可以例如通过使用高速缓存一致性协议(例如MEI、MESI、MSI等)追踪行的状态。取决于实施例,L3高速缓存可以包括4MB或者更多,但是也可以使用更小的高速缓存大小。
SoC 1204可以包括算术逻辑单元(ALU),所述算术逻辑单元可以在执行关于车辆1200的各种任务或操作中的任何任务或操作(如处理DNN)的处理中被利用。此外,SoC 1204可以包括用于在系统内执行数学运算的浮点单元(FPU)(或其他数学协处理器或数字协处理器类型)。例如,SoC 104可以包括集成为CPU 1206和/或GPU 1208内的执行单元的一个或更多个FPU。
SoC 1204可以包括一个或更多个加速器1214(例如硬件加速器、软件加速器或者其组合)。例如,SoC 1204可以包括硬件加速器簇,其可以包括优化的硬件加速器和/或大型片上内存。该大型片上内存(例如4MB SRAM)可以使得硬件加速器簇能够加速神经网络和其他计算。硬件加速器簇可以用来补充GPU 1208,并且卸载GPU 1208的一些任务(例如释放GPU 1208的更多周期以用于执行其他任务)。作为一个示例,加速器1214可以用于足够稳定以易于控制加速的有针对性的工作负载(例如感知、卷积神经网络(CNN)等等)。当在本文中使用时,术语“CNN”可以包括所有类型的CNN,包括基于区域的或者区域卷积神经网络(RCNN)和快速RCNN(例如用于对象检测)。
加速器1214(例如硬件加速器簇)可以包括深度学习加速器(DLA)。DLA可以包括可以被配置成为深度学习应用和推理提供额外的每秒10万亿次操作的一个或更多个张量处理单元(TPU)。TPU可以是被配置为执行图像处理功能(例如用于CNN、RCNN等)且针对执行图像处理功能而优化的加速器。DLA可以进一步针对特定的一组神经网络类型和浮点运算以及推理进行优化。DLA的设计可以比通用GPU提供每毫米更高的性能,并且远远超过CPU的性能。TPU可以执行若干功能,包括单实例卷积函数,支持例如用于特征和权重二者的INT8、INT16和FP16数据类型,以及后处理器功能。
DLA可以在处理的或者未处理的数据上针对各种各样的功能中的任何功能快速且高效地执行神经网络,尤其是CNN,例如且不限于:用于使用来自相机传感器的数据进行对象识别和检测的CNN;用于使用来自相机传感器的数据进行距离估计的CNN;用于使用来自麦克风的数据进行应急车辆检测和识别与检测的CNN;用于使用来自相机传感器的数据进行面部识别和车主识别的CNN;和/或用于安全和/或安全相关事件的CNN。
DLA可以执行GPU 1208的任何功能,并且通过使用推理加速器,例如,设计者可以使DLA或GPU 1208针对任何功能。例如,设计者可以将CNN的处理和浮点运算聚焦在DLA上,并且将其他功能留给GPU 1208和/或其他加速器1214。
加速器1214(例如硬件加速器簇)可以包括可编程视觉加速器(PVA),其在本文中可以可替代地称为计算机视觉加速器。PVA可以被设计和配置为加速用于高级驾驶员辅助系统(ADAS)、自主驾驶和/或增强现实(AR)和/或虚拟现实(VR)应用的计算机视觉算法。PVA可以提供性能与灵活性之间的平衡。例如,每个PVA可以包括例如且不限于任意数量的精简指令集计算机(RISC)核、直接内存访问(DMA)和/或任意数量的向量处理器。
RISC核可以与图像传感器(例如本文描述的任何相机的图像传感器)、图像信号处理器和/或类似物交互。这些RISC核中的每一个可以包括任意数量的内存。取决于实施例,RISC核可以使用若干协议中的任何协议。在一些示例中,RISC核可以执行实时操作系统(RTOS)。RISC核可以使用一个或更多个集成电路设备、专用集成电路(ASIC)和/或存储设备实现。例如,RISC核可以包括指令高速缓存和/或紧密耦合的RAM。
DMA可以使得PVA的部件能够独立于CPU 1206访问系统内存。DMA可以支持用来向PVA提供优化的任意数量的特征,包括但不限于支持多维寻址和/或循环寻址。在一些示例中,DMA可以支持高达六个或更多维度的寻址,其可以包括块宽度、块高度、块深度、水平块步进、竖直块步进和/或深度步进。
向量处理器可以是可编程处理器,其可以被设计为高效且灵活地执行用于计算机视觉算法的编程并且提供信号处理能力。在一些示例中,PVA可以包括PVA核和两个向量处理子系统分区。PVA核可以包括处理器子系统、一个或更多个DMA引擎(例如两个DMA引擎)和/或其他外围设备。向量处理子系统可以作为PVA的主处理引擎而操作,并且可以包括向量处理单元(VPU)、指令高速缓存和/或向量内存(例如VMEM)。VPU核可以包括数字信号处理器,诸如例如单指令多数据(SIMD)、超长指令字(VLIW)数字信号处理器。SIMD和VLIW的组合可以增强吞吐量和速率。
向量处理器中的每一个可以包括指令高速缓存并且可以耦合到专用内存。结果,在一些示例中,向量处理器中的每一个可以被配置为独立于其他向量处理器执行。在其他示例中,包括在特定PVA中的向量处理器可以被配置为采用数据并行化。例如,在一些实施例中,包括在单个PVA中的多个向量处理器可以执行相同的计算机视觉算法,但是在图像的不同区域上执行。在其他示例中,包括在特定PVA中的向量处理器可以在相同的图像上同时执行不同的计算机视觉算法,或者甚至在序列图像或者图像的部分上执行不同的算法。除其他的以外,任意数量的PVA可以包括在硬件加速器簇中,并且任意数量的向量处理器可以包括在这些PVA中的每一个中。此外,PVA可以包括附加的纠错码(ECC)内存,以增强总体系统安全性。
加速器1214(例如硬件加速器簇)可以包括片上计算机视觉网络和SRAM,以提供用于加速器1214的高带宽、低延迟SRAM。在一些示例中,片上内存可以包括由例如且不限于八个现场可配置的内存块组成的至少4MB SRAM,其可以由PVA和DLA二者访问。每对内存块可以包括高级外围总线(APB)接口、配置电路系统、控制器和复用器。可以使用任何类型的内存。PVA和DLA可以经由向PVA和DLA提供高速内存访问的主干(backbone)访问内存。主干可以包括(例如使用APB)将PVA和DLA互连到内存的片上计算机视觉网络。
片上计算机视觉网络可以包括在传输任何控制信号/地址/数据之前确定PVA和DLA二者都提供就绪且有效的信号的接口。这样的接口可以提供用于传输控制信号/地址/数据的单独相位和单独信道,以及用于连续数据传输的突发式通信。这种类型的接口可以符合ISO 26262或者IEC 61508标准,但是也可以使用其他标准和协议。
在一些示例中,SoC 1204可以包括例如在2018年8月10日提交的美国专利申请No.16/101,232中描述的实时光线追踪硬件加速器。该实时光线追踪硬件加速器可以用来快速且高效地确定(例如世界模型内的)对象的位置和范围,以便生成实时可视化仿真,以用于RADAR信号解释、用于声音传播合成和/或分析、用于SONAR系统仿真、用于一般波传播仿真、用于为了定位和/或其他功能的目的与LIDAR数据相比较和/或用于其他用途。在一些实施例中,一个或更多个树遍历单元(TTU)可以用于执行一个或更多个光线跟踪相关操作。
加速器1214(例如硬件加速器簇)具有广泛的自主驾驶用途。PVA可以是可编程视觉加速器,其可以用于ADAS和自主车辆中的关键处理阶段。PVA的能力是需要可预测处理、低功率和低延迟的算法域的良好匹配。换言之,PVA在半密集或者密集规则计算上,甚至在需要具有低延迟和低功率的可预测运行时间的小数据集上都表现良好。因此,在用于自主车辆的平台的背景下,PVA被设计为运行经典计算机视觉算法,因为它们在对象检测和整数数学运算方面很有效。
例如,根据该技术的一个实施例,PVA用来执行计算机立体视觉。在一些示例中,可以使用基于半全局匹配的算法,但是这并不意图是限制性的。许多用于3-5级自主驾驶的应用都需要即时运动估计/立体匹配(例如来自运动的结构、行人识别、车道检测等等)。PVA可以在来自两个单目相机的输入上执行计算机立体视觉功能。
在一些示例中,PVA可以用来执行密集的光流。根据过程原始RADAR数据(例如使用4D快速傅立叶变换)以提供经处理的RADAR。在其他示例中,PVA用于飞行时间深度处理,其例如通过处理原始飞行时间数据以提供经处理的飞行时间数据。
DLA可以用来运行任何类型的网络以增强控制和驾驶安全性,包括例如输出用于每个对象检测的置信度度量的神经网络。这样的置信度值可以解释为概率,或者解释为提供每个检测与其他检测相比的相对“权重”。该置信度值使得系统能够做出关于哪些检测应当被认为是真阳性检测而不是假阳性检测的进一步决定。例如,系统可以为置信度设置阈值,并且仅仅将超过阈值的检测看作真阳性检测。在自动紧急制动(AEB)系统中,假阳性检测会使得车辆自动地执行紧急制动,这显然是不希望的。因此,只有最确信的检测才应当被认为是AEB的触发因素。DLA可以运行用于回归置信度值的神经网络。该神经网络可以将至少一些参数子集作为其输入,例如边界框维度,(例如从另一个子系统)获得的地平面估计,与车辆1200取向、距离相关的惯性测量单元(IMU)传感器1266输出,从神经网络和/或其他传感器(例如LIDAR传感器1264或RADAR传感器1260)获得的对象的3D位置估计等。
SoC 1204可以包括一个或更多个数据存储1216(例如内存)。数据存储1216可以是SoC 1204的片上内存,其可以存储要在GPU和/或DLA上执行的神经网络。在一些示例中,为了冗余和安全,数据存储1216可以容量足够大以存储神经网络的多个实例。数据存储1212可以包括L2或L3高速缓存1212。对数据存储1216的引用可以包括对与如本文所描述的PVA、DLA和/或其他加速器1214关联的内存的引用。
SoC 1204可以包括一个或更多个处理器1210(例如嵌入式处理器)。处理器1210可以包括启动和功率管理处理器,其可以是用于处理启动功率和管理功能以及有关安全实施的专用处理器和子系统。启动和功率管理处理器可以是SoC 1204启动序列的一部分,并且可以提供运行时间功率管理服务。启动功率和管理处理器可以提供时钟和电压编程、辅助系统低功率状态转换、SoC 1204热和温度传感器管理和/或SoC 1204功率状态管理。每个温度传感器可以实现为环形振荡器,其输出频率与温度成比例,并且SoC 1204可以使用环形振荡器检测CPU 1206、GPU 1208和/或加速器1214的温度。如果确定温度超过阈值,那么启动和功率管理处理器可以进入温度故障例程并且将SoC 1204置于较低功率状态和/或将车辆1200置于司机安全停车模式(例如使车辆1200安全停车)。
处理器1210可以还包括可以用作音频处理引擎的一组嵌入式处理器。音频处理引擎可以是一种音频子系统,其允许实现对于通过多个接口的多声道音频的完全硬件支持以及一系列广泛而灵活的音频I/O接口。在一些示例中,音频处理引擎是具有带有专用RAM的数字信号处理器的专用处理器核。
处理器1210可以还包括始终在处理器上的引擎,其可以提供必要的硬件特征以支持低功率传感器管理和唤醒用例。该始终在处理器上的引擎可以包括处理器核、紧密耦合的RAM、支持外围设备(例如定时器和中断控制器)、各种I/O控制器外围设备和路由逻辑。
处理器1210可以还包括安全簇引擎,其包括处理汽车应用的安全管理的专用处理器子系统。安全簇引擎可以包括两个或更多处理器核、紧密耦合的RAM、支持外围设备(例如定时器、中断控制器等等)和/或路由逻辑。在安全模式下,所述两个或更多核可以操作于锁步模式下,并且用作具有检测它们的操作之间的任何差异的比较逻辑的单核。
处理器1210可以还包括实时相机引擎,其可以包括用于处理实时相机管理的专用处理器子系统。
处理器1210可以还包括高动态范围信号处理器,其可以包括图像信号处理器,该图像信号处理器是一种硬件引擎,该硬件引擎是相机处理管线的部分。
处理器1210可以包括可以是(例如微处理器上实现的)处理块的视频图像复合器,其实现视频回放应用程序产生用于播放器窗口的最终图像所需的视频后处理功能。视频图像复合器可以对广角相机1270、环绕相机1274和/或对驾驶室内监控相机传感器执行镜头畸变校正。驾驶室内监控相机传感器优选地由运行在高级SoC的另一个实例上的神经网络监控,被配置为识别驾驶室内事件并且相对应地做出响应。驾驶室内系统可以执行唇读,以激活移动电话服务并拨打电话、口述电子邮件、改变车辆目的地、激活或改变车辆的信息娱乐系统和设置或者提供语音激活的网上冲浪。某些功能仅在车辆操作于自主模式下时对于驾驶员可用,并且在其他情况下被禁用。
视频图像复合器可以包括用于空间和时间降噪的增强时间降噪。例如,在视频中出现运动的情况下,降噪适当地对空间信息加权,降低邻近帧提供的信息的权重。在图像或者图像的部分不包括运动的情况下,视频图像复合器执行的时间降噪可以使用来自先前的图像的信息以降低当前图像中的噪声。
视频图像复合器也可以被配置为对输入立体镜头帧执行立体校正。当操作系统桌面正在使用并且GPU 1208无需连续地渲染(render)新的表面时,视频图像复合器可以进一步用于用户接口组成。甚至在GPU 1208上电并且激活,进行3D渲染时,视频图像复合器可以用来减轻GPU 1208的负担以提高性能和响应能力。
SoC 1204可以还包括用于从相机接收视频和输入的移动行业处理器接口(MIPI)相机串行接口、高速接口和/或可以用于相机和有关像素输入功能的视频输入块。SoC 1204可以还包括可以由软件控制并且可以用于接收未提交到特定角色的I/O信号的输入/输出控制器。
SoC 1204可以还包括大范围的外围设备接口,以使能与外围设备、音频编解码器、功率管理和/或其他设备通信。SoC 1204可以用来处理来自(通过千兆多媒体串行链路和以太网连接的)相机、传感器(例如可以通过以太网连接的LIDAR传感器1264、RADAR传感器1260等等)的数据,来自总线1202的数据(例如车辆1200的速率、方向盘位置等等),来自(通过以太网或CAN总线连接的)GNSS传感器1258的数据。SoC 1204可以还包括专用高性能大容量存储控制器,其可以包括它们自己的DMA引擎,并且其可以用来从日常数据管理任务中释放CPU 1206。
SoC 1204可以是具有灵活架构的端到端平台,该架构跨越自动化3-5级,从而提供利用和高效使用计算机视觉和ADAS技术以实现多样性和冗余、连同深度学习工具一起提供用于灵活可靠驾驶软件堆栈的平台的综合功能安全架构。SoC 1204可以比常规的系统更快、更可靠,甚至更加能量高效和空间高效。例如,当与CPU 1206、GPU 1208和数据存储1216结合时,加速器1214可以提供用于3-5级自主车辆的快速高效平台。
因此该技术提供了不能通过常规系统实现的能力和功能。例如,计算机视觉算法可以在CPU上执行,这些CPU可以使用诸如C编程语言之类的高级编程语言配置为跨各种各样的视觉数据执行各种各样的处理算法。然而,CPU常常不能满足许多计算机视觉应用的性能要求,诸如与例如执行时间和功耗有关的那些要求。特别地,许多CPU不能实时地执行复杂的对象检测算法,这是车载ADAS应用的要求和实用3-5级自主车辆的要求。
与常规系统形成对比的是,通过提供CPU复合体、GPU复合体和硬件加速器簇,本文描述的技术允许同时和/或顺序地执行多个神经网络,并且将结果组合在一起以实现3-5级自主驾驶功能。例如,在DLA或dGPU(例如GPU 1220)上执行的CNN可以包括文本和单词识别,允许超级计算机读取和理解交通指示牌,包括尚未针对其特别地训练神经网络的指示牌。DLA可以还包括能够识别、解释和提供对指示牌的语义理解,并且将该语义理解传递给运行在CPU复合体上的路径规划模块的神经网络。
作为另一个示例,如3、4或5级驾驶所需的,多个神经网络可以同时运行。例如,由“注意:闪烁的灯指示结冰条件”组成的警告指示牌连同电灯可以由若干神经网络独立地或者共同地进行解释。指示牌本身可以由部署的第一神经网络(例如经过训练的神经网络)识别为交通指示牌,文本“闪烁的灯指示结冰条件”可以由部署的第二神经网络解释,该部署的第二神经网络告知车辆的路径规划软件(优选地在CPU复合体上执行)当检测到闪烁的灯时,存在结冰条件。闪烁的灯可以通过在多个帧上操作部署的第三神经网络而识别,该神经网络告知车辆的路径规划软件闪烁的灯的存在(或不存在)。所有三个神经网络可以例如在DLA内和/或在GPU 1208上同时运行。
在一些示例中,用于面部识别和车主识别的CNN可以使用来自相机传感器的数据识别车辆1200的授权的驾驶员和/或车主的存在。始终在传感器上的处理引擎可以用来在车主接近驾驶员车门时解锁车辆并且打开灯,并且在安全模式下,在车主离开车辆时禁用车辆。按照这种方式,SoC 1204提供了防范盗窃和/或劫车的安全性。
在另一个示例中,用于应急车辆检测和识别的CNN可以使用来自麦克风1296的数据来检测并且识别应急车辆警报(siren)。与使用通用分类器检测警报并且手动地提取特征的常规系统形成对比的是,SoC 1204使用CNN以对环境和城市声音分类以及对视觉数据分类。在优选的实施例中,运行在DLA上的CNN被训练为识别应急车辆的相对关闭速率(例如通过使用多普勒效应)。CNN也可以被训练为识别如GNSS传感器1258所识别的特定于车辆在其中操作的局部区域的应急车辆。因此,例如,当在欧洲操作时,CNN将寻求检测欧洲警报,并且当在美国时,CNN将寻求识别仅仅北美的警报。一旦检测到应急车辆,在超声传感器1262的辅助下,控制程序可以用来执行应急车辆安全例程,使车辆放慢速度,开到路边,停下车辆,和/或使车辆空转,直到应急车辆通过。
车辆可以包括可以经由高速互连(例如PCIe)耦合到SoC 1204的CPU 1218(例如分立的CPU或dCPU)。CPU 1218可以包括例如X86处理器。CPU 1218可以用来执行各种各样的功能中的任何功能,包括例如仲裁ADAS传感器与SoC 1204之间潜在地不一致的结果,和/或监控控制器1236和/或信息娱乐SoC 1230的状态和健康状况。
车辆1200可以包括可以经由高速互连(例如NVIDIA的NVLINK)耦合到SoC 1204的GPU 1220(例如分立的GPU或dGPU)。GPU 1220可以例如通过执行冗余的和/或不同的神经网络而提供附加的人工智能功能,并且可以用来至少部分地基于来自车辆1200的传感器的输入(例如传感器数据)来训练和/或更新神经网络。
车辆1200可以还包括网络接口1224,该网络接口可以包括一个或更多个无线天线1226(例如用于不同通信协议的一个或更多个无线天线,例如蜂窝天线、蓝牙天线等等)。网络接口1224可以用来使能通过因特网与云(例如与服务器1278和/或其他网络设备)、与其他车辆和/或与计算设备(例如乘客的客户端设备)的无线连接。为了与其他车辆通信,可以在这两辆车之间建立直接链接,和/或可以建立间接链接(例如跨网络以及通过因特网)。直接链接可以使用车对车通信链路提供。车对车通信链路可以向车辆1200提供关于接近车辆1200的车辆(例如车辆1200前面、侧面和/或后面的车辆)的信息。该功能可以是车辆1200的协作自适应巡航控制功能的部分。
网络接口1224可以包括提供调制和解调功能并且使得控制器1236能够通过无线网络通信的SoC。网络接口1224可以包括用于从基带到射频的上转换以及从射频到基带的下转换的射频前端。频率转换可以通过公知的过程执行,和/或可以使用超外差(super-heterodyne)过程执行。在一些示例中,射频前端功能可以由单独的芯片提供。网络接口可以包括用于通过LTE、WCDMA、UMTS、GSM、CDMA2000、蓝牙、蓝牙LE、Wi-Fi、Z波、ZigBee、LoRaWAN和/或其他无线协议通信的无线功能。
车辆1200可以还包括可包括片外(例如SoC 1204外)存储装置的数据存储1228。数据存储1228可以包括一个或更多个存储元件,包括RAM、SRAM、DRAM、VRAM、闪存、硬盘和/或可以存储至少一个比特的数据的其他部件和/或设备。
车辆1200可以还包括GNSS传感器1258。GNSS传感器1258(例如GPS、辅助GPS传感器、差分GPS(DGPS)传感器等)用于辅助映射、感知、占用网格生成和/或路径规划功能。可以使用任意数量的GNSS传感器1258,包括例如且不限于使用带有以太网到串行(RS-232)网桥的USB连接器的GPS。
车辆1200可以还包括RADAR传感器1260。RADAR传感器1260可以甚至在黑暗和/或恶劣天气条件下也由车辆1200用于远程车辆检测。RADAR功能安全级别可以是ASIL B。RADAR传感器1260可以使用CAN和/或总线1202(例如以传输RADAR传感器1260生成的数据)以用于控制以及访问对象追踪数据,在一些示例中接入以太网以访问原始数据。可以使用各种各样的RADAR传感器类型。例如且非限制性地,RADAR传感器1260可以适合前面、后面和侧面RADAR使用。在一些示例中,使用脉冲多普勒RADAR传感器。
RADAR传感器1260可以包括不同的配置,例如具有窄视场的远程、具有宽视场的短程、短程侧覆盖等等。在一些示例中,远程RADAR可以用于自适应巡航控制功能。远程RADAR系统可以提供通过两个或更多独立扫描实现的广阔视场(例如250m范围内)。RADAR传感器1260可以帮助区分静态对象和运动对象,并且可以由ADAS系统用于紧急制动辅助和前方碰撞警告。远程RADAR传感器可以包括具有多根(例如六根或更多)固定RADAR天线以及高速CAN和FlexRay接口的单站多模RADAR。在具有六根天线的示例中,中央四根天线可以创建聚焦的波束图案,其被设计为在更高速率下以来自邻近车道的最小交通干扰记录车辆1200的周围环境。其他两根天线可以扩展视场,使得快速地检测进入或离开车辆1200的车道的车辆成为可能。
作为一个示例,中程RADAR系统可以包括高达1260m(前面)或80m(后面)的范围以及高达42度(前面)或1250度(后面)的视场。短程RADAR系统可以包括但不限于被设计为安装在后保险杠两端的RADAR传感器。当安装在后保险杠两端时,这样的RADAR传感器系统可以创建持续地监控后方和车辆旁边的视盲点的两个波束。
短程RADAR系统可以在ADAS系统中用于视盲点检测和/或变道辅助。
车辆1200可以还包括超声传感器1262。可以置于车辆1200的前面、后面和/或侧面的超声传感器1262可以用于停车辅助和/或创建和更新占用网格。可以使用各种各样的超声传感器1262,并且不同的超声传感器1262可以用于不同的检测范围(例如2.5m、4m)。超声传感器1262可以操作于功能安全级别的ASIL B。
车辆1200可以包括LIDAR传感器1264。LIDAR传感器1264可以用于对象和行人检测、紧急制动、碰撞避免和/或其他功能。LIDAR传感器1264可以为功能安全级别的ASIL B。在一些示例中,车辆1200可以包括可以使用以太网(例如以将数据提供给千兆以太网交换机)的多个LIDAR传感器1264(例如两个、四个、六个等等)。
在一些示例中,LIDAR传感器1264可能够对360度视场提供对象列表及其距离。商业上可用的LIDAR传感器1264可以具有例如近似1200m的广告范围,精度为2cm-3cm,支持1200Mbps以太网连接。在一些示例中,可以使用一个或更多个非突出的LIDAR传感器1264。在这样的示例中,LIDAR传感器1264可以实现为可以嵌入到车辆1200的前面、后面、侧面和/或拐角的小设备。在这样的示例中,LIDAR传感器1264可以甚至对于低反射率对象提供高达120度水平的和35度竖直的视场,具有200m的范围。前面安装的LIDAR传感器1264可以被配置用于45度与135度之间的水平视场。
在一些示例中,也可以使用诸如3D闪光LIDAR之类的LIDAR技术。3D闪光LIDAR使用激光的闪光作为发射源,以照亮高达约200m的车辆周围环境。闪光LIDAR单元包括接受器,该接受器将激光脉冲传输时间和反射光记录在每个像素上,其进而与从车辆到对象的范围相对应。闪光LIDAR可以允许利用每个激光闪光生成周围环境的高度精确且无失真的图像。在一些示例中,可以部署四个闪光LIDAR传感器,车辆1200的每一侧一个。可用的3D闪光LIDAR系统包括没有风扇以外的运动部件(moving part)的固态3D凝视阵列LIDAR相机(例如非扫描LIDAR设备)。闪光LIDAR设备可以使用每帧5纳秒I类(眼睛安全)激光脉冲,并且可以以3D范围点云和共同寄存的强度数据的形式捕获反射的激光。通过使用闪光LIDAR,并且因为闪光LIDAR是没有运动部件的固态设备,LIDAR传感器1264可以不太容易受到运动模糊、振动和/或震动的影响。
该车辆可以还包括IMU传感器1266。在一些示例中,IMU传感器1266可以位于车辆1200的后轴的中心。IMU传感器1266可以包括例如且不限于加速度计、磁力计、陀螺仪、磁罗盘和/或其他传感器类型。在一些示例中,例如在六轴应用中,IMU传感器1266可以包括加速度计和陀螺仪,而在九轴应用中,IMU传感器1266可以包括加速度计、陀螺仪和磁力计。
在一些实施例中,IMU传感器1266可以实现为微型高性能GPS辅助惯性导航系统(GPS/INS),其结合微机电系统(MEMS)惯性传感器、高灵敏度GPS接收器和高级卡尔曼滤波算法以提供位置、速度和姿态的估计。这样,在一些示例中,IMU传感器1266可以使得车辆1200能够在无需来自磁传感器的输入的情况下通过直接观察从GPS到IMU传感器1266的速度变化并且将其相关来估计方向(heading)。在一些示例中,IMU传感器1266和GNSS传感器1258可以结合到单个集成单元中。
该车辆可以包括置于车辆1200中和/或车辆1200周围的麦克风1296。除别的以外,麦克风1296可以用于应急车辆检测和识别。
该车辆可以还包括任意数量的相机类型,包括立体相机1268、广角相机1270、红外相机1272、环绕相机1274、远程和/或中程相机1298和/或其他相机类型。这些相机可以用来捕获车辆1200整个外围周围的图像数据。使用的相机类型取决于实施例和车辆1200的要求,并且相机类型的任意组合可以用来提供车辆1200周围的必要覆盖。此外,相机的数量可以根据实施例而不同。例如,该车辆可以包括六个相机、七个相机、十个相机、十二个相机和/或另一数量的相机。作为一个示例且非限制性地,这些相机可以支持千兆多媒体串行链路(GMSL)和/或千兆以太网。所述相机中的每一个在本文关于图12A和图12B更详细地进行了描述。
车辆1200可以还包括振动传感器1242。振动传感器1242可以测量车辆的诸如车轴之类的部件的振动。例如,振动的变化可以指示道路表面的变化。在另一个示例中,当使用两个或更多振动传感器1242时,振动之间的差异可以用来确定道路表面的摩擦或滑移(例如当动力驱动轴与自由旋转轴之间存在振动差异时)。
车辆1200可以包括ADAS系统1238。在一些示例中,ADAS系统1238可以包括SoC。ADAS系统1238可以包括自主/自适应/自动巡航控制(ACC)、协作自适应巡航控制(CACC)、前方撞车警告(FCW)、自动紧急制动(AEB)、车道偏离警告(LDW)、车道保持辅助(LKA)、视盲点警告(BSW)、后方穿越交通警告(RCTW)、碰撞警告系统(CWS)、车道居中(LC)和/或其他特征和功能。
ACC系统可以使用RADAR传感器1260、LIDAR传感器1264和/或相机。ACC系统可以包括纵向ACC和/或横向ACC。纵向ACC监控并控制到紧接在车辆1200前方的车辆的距离,并且自动地调节车速以维持离前方车辆的安全距离。横向ACC执行距离保持,并且在必要时建议车辆1200改变车道。横向ACC与诸如LCA和CWS之类的其他ADAS应用程序有关。
CACC使用来自其他车辆的信息,该信息可以经由网络接口1224和/或无线天线1226经由无线链路或者通过网络连接(例如通过因特网)间接地从其他车辆接收。直接链接可以由车对车(V2V)通信链路提供,而间接链接可以是基础设施到车辆(I2V)的通信链路。通常,V2V通信概念提供关于紧接在前的车辆(例如紧接在车辆1200前方且与其处于相同车道的车辆)的信息,而I2V通信概念提供关于前方更远处的交通的信息。CACC系统可以包括I2V和V2V信息源中的任一个或者二者。给定车辆1200前方车辆的信息,CACC可以更加可靠,并且它有可能提高交通流的畅通性且降低道路拥堵。
FCW系统被设计为提醒驾驶员注意危险,使得驾驶员可以采取纠正措施。FCW系统使用耦合到专用处理器、DSP、FPGA和/或ASIC的前置相机和/或RADAR传感器1260,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。FCW系统可以提供例如声音、视觉警告、振动和/或快速制动脉冲形式的警告。
AEB系统检测即将发生的与另一车辆或其他对象的前方碰撞,并且可以在驾驶员在指定的时间或距离参数内没有采取纠正措施的情况下自动地应用制动器。AEB系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的前置相机和/或RADAR传感器1260。当AEB系统检测到危险时,它典型地首先提醒(alert)驾驶员采取纠正措施以避免碰撞,并且如果驾驶员没有采取纠正措施,那么AEB系统可以自动地应用制动器以努力防止或者至少减轻预测的碰撞的影响。AEB系统可以包括诸如动态制动支持和/或碰撞迫近制动之类的技术。
LDW系统提供了诸如方向盘或座位振动之类的视觉、听觉和/或触觉警告,以在车辆1200穿过车道标记时提醒驾驶员。当驾驶员指示有意偏离车道时,通过激活转弯信号,不激活LDW系统。LDW系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的前侧朝向相机,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
LKA系统是LDW系统的变型。如果车辆1200开始离开车道,那么LKA系统提供纠正车辆1200的转向输入或制动。
BSW系统检测并向驾驶员警告汽车视盲点中的车辆。BSW系统可以提供视觉、听觉和/或触觉警报以指示合并或改变车道是不安全的。系统可以在驾驶员使用转弯信号时提供附加的警告。BSW系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的后侧朝向相机和/或RADAR传感器1260,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
RCTW系统可以在车辆1200倒车时在后置相机范围之外检测到对象时提供视觉、听觉和/或触觉通知。一些RCTW系统包括AEB以确保应用车辆制动器以避免撞车。RCTW系统可以使用耦合到专用处理器、DSP、FPGA和/或ASIC的一个或更多个后置RADAR传感器1260,该专用处理器、DSP、FPGA和/或ASIC电耦合至诸如显示器、扬声器和/或振动部件之类的驾驶员反馈。
常规的ADAS系统可能易于出现假阳性结果,这可能会让驾驶员烦恼并分散注意力,但是典型地不是灾难性的,因为ADAS系统提醒驾驶员并且允许驾驶员决定安全条件是否真正存在并且相对应地采取行动。然而,在自主车辆1200中,在冲突结果的情况下,车辆1200本身必须决定是否注意(heed)来自主计算机或者辅助计算机(例如第一控制器1236或第二控制器1236)的结果。例如,在一些实施例中,ADAS系统1238可以是用于向备用计算机合理性模块提供感知信息的备用和/或辅助计算机。备用计算机合理性监视器可以在硬件部件上运行冗余多样的软件,以检测感知和动态驾驶任务中的故障。来自ADAS系统1238的输出可以提供给监督MCU。如果来自主计算机和辅助计算机的输出冲突,那么监督MCU必须确定如何协调该冲突以确保安全操作。
在一些示例中,主计算机可以被配置为向监督MCU提供置信度评分,指示主计算机对所选结果的置信度。如果置信度评分超过阈值,那么监督MCU可以遵循主计算机的方向,而不管辅助计算机是否提供冲突或不一致的结果。在置信度评分不满足阈值的情况下并且在主计算机和辅助计算机指示不同的结果(例如冲突)的情况下,监督MCU可以在这些计算机之间进行仲裁以确定适当的结果。
监督MCU可以被配置为运行神经网络,所述神经网络被训练并且被配置为至少部分地基于来自主计算机和辅助计算机的输出,确定辅助计算机提供假警报的条件。因此,监督MCU中的神经网络可以了解何时可以信任辅助计算机的输出以及何时不能。例如,当辅助计算机为基于RADAR的FCW系统时,监督MCU中的神经网络可以了解FCW系统何时正在识别事实上不是危险的金属对象,例如触发警报的排水栅格或井盖。类似地,当辅助计算机是基于相机的LDW系统时,监督MCU中的神经网络可以学习在骑车者或行人在场并且车道偏离实际上是最安全的策略时无视该LDW。在包括运行在监督MCU上的神经网络的实施例中,监督MCU可以包括适合于利用关联的内存运行神经网络的DLA或GPU中的至少一个。在优选的实施例中,监督MCU可以包括SoC 1204的部件和/或作为SoC1204的部件而被包括。
在其他示例中,ADAS系统1238可以包括使用传统计算机视觉规则执行ADAS功能的辅助计算机。这样,辅助计算机可以使用经典的计算机视觉规则(如果-那么),并且在监督MCU中存在神经网络可以提高可靠性、安全性和性能。例如,多样化的实现方式和有意的非完全相同(non-identity)使得整个系统更加容错,对于软件(或者软件-硬件接口)功能造成的故障而言尤其如此。例如,如果在主计算机上运行的软件中存在软件漏洞或错误并且运行在辅助计算机上的非完全相同的软件代码提供相同的总体结果,那么监督MCU可以更加确信总体结果是正确的,并且主计算机上的软件或硬件中的漏洞不造成实质性的错误。
在一些示例中,ADAS系统1238的输出可以馈送至主计算机的感知块和/或主计算机的动态驾驶任务块。例如,如果ADAS系统1238由于对象紧接在前的原因而指示前方碰撞警告,那么感知块可以在识别对象时使用该信息。在其他示例中,辅助计算机可以具有它自己的神经网络,其被训练并且因此如本文所描述的降低假阳性的风险。
车辆1200可以还包括信息娱乐SoC 1230(例如车载信息娱乐系统(IVI))。尽管被图示和描述为SoC,但是信息娱乐系统可以不是SoC,并且可以包括两个或更多分立的部件。信息娱乐SoC 1230可以包括可以用来向车辆1200提供音频(例如音乐、个人数字助理、导航指令、新闻、广播等等)、视频(例如TV、电影、流媒体等等)、电话(例如免提呼叫)、网络连接(例如LTE、WiFi等等)和/或信息服务(例如导航系统,后停车援助,无线电数据系统,诸如燃油水平、覆盖的总距离、制动燃油水平、油位、车门开/关、空气过滤器信息之类的车辆有关信息,等等)的硬件和软件的组合。例如,信息娱乐SoC 1230可以包括收音机、盘播放器、导航系统、视频播放器、USB和蓝牙连接、车载电脑、车载娱乐、WiFi、方向盘音频控件、免提语音控件、平视显示器(HUD)、HMI显示器1234、远程信息处理设备、控制面板(例如用于控制各种部件、特征和/或系统,和/或与其交互)和/或其他部件。信息娱乐SoC 1230可以进一步用来向车辆的用户提供信息(例如视觉的和/或听觉的),例如来自ADAS系统1238的信息,诸如规划的车辆机动、轨迹、周围环境信息(例如交叉路口信息、车辆信息、道路信息等等)之类的自主驾驶信息,和/或其他信息。
信息娱乐SoC 1230可以包括GPU功能。信息娱乐SoC 1230可以通过总线1202(例如CAN总线、以太网等)与车辆1200的其他设备、系统和/或部件通信。在一些示例中,信息娱乐SoC 1230可以耦合至监督MCU,使得在主控制器1236(例如车辆1200的主和/或备用计算机)出现故障的情况下,信息娱乐系统的GPU可以执行一些自驾驶功能。在这样的示例中,信息娱乐SoC 1230可以如本文所描述的将车辆1200置于司机安全停车模式。
车辆1200可以还包括仪表组1232(例如数字仪表板、电子仪表组、数字仪表面板等等)。仪表组1232可以包括控制器和/或超级计算机(例如分立的控制器或超级计算机)。仪表组1232可以包括一套仪器,例如车速表、燃油水平、油压、转速表、里程表、转弯指示器、换档位置指示器、安全带警告灯、停车制动警告灯、发动机故障灯、安全气囊(SRS)系统信息、照明控件、安全系统控件、导航信息等等。在一些示例中,信息可以被显示和/或在信息娱乐SoC 1230和仪表组1232之间共享。换言之,仪表组1232可以作为信息娱乐SoC 1230的部分而被包括,或者反之亦然。
图12D为根据本公开一些实施例的基于云的服务器与图12A的示例自主车辆1200之间的通信的系统示意图。系统1276可以包括服务器1278、网络1290以及包括车辆1200在内的车辆。服务器1278可以包括多个GPU 1284(A)-1284(H)(这里统称为GPU 1284)、PCIe交换机1282(A)-1282(H)(这里统称为PCIe交换机1282)和/或CPU 1280(A)-1280(B)(这里统称为CPU 1280)。GPU 1284、CPU 1280和PCIe交换机可以与诸如例如且不限于NVIDIA开发的NVLink接口1288之类的高速互连和/或PCIe连接1286互连。在一些示例中,GPU 1284经由NVLink和/或NVSwitch SoC连接,并且GPU 1284和PCIe交换机1282经由PCIe互连连接。尽管图示出八个GPU 1284、两个CPU 1280和两个PCIe交换机,但是这并不意图是限制性的。取决于实施例,服务器1278中的每一个可以包括任意数量的GPU 1284、CPU 1280和/或PCIe交换机。例如,服务器1278中的每一个可以包括八个、十六个、三十二个和/或更多GPU 1284。
服务器1278可以通过网络1290并且从车辆接收图像数据,该图像数据表示示出诸如最近开始的道路工程之类的意外或改变的道路状况的图像。服务器1278可以通过网络1290并且向车辆传输神经网络1292、更新的神经网络1292和/或地图信息1294,包括关于交通和道路状况的信息。对地图信息1294的更新可以包括对于HD地图1222的更新,例如关于建筑工地、坑洼、弯道、洪水或其他障碍物的信息。在一些示例中,神经网络1292、更新的神经网络1292和/或地图信息1294可以已从新的训练和/或从环境中的任意数量的车辆接收的数据中表示和/或基于数据中心处执行的训练(例如使用服务器1278和/或其他服务器)的经验产生。
服务器1278可以用来基于训练数据训练机器学习模型(例如神经网络)。训练数据可以由车辆生成,和/或可以在仿真中生成(例如使用游戏引擎)。在一些示例中,训练数据被标记(例如在神经网络受益于有监督学习的情况下)和/或经历其他预处理,而在其他示例中,训练数据不被标记和/或预处理(例如在神经网络无需有监督学习的情况下)。可以根据任何一类或更多类别的机器学习技术来执行训练,包括但不限于诸如以下类别:监督训练、半监督训练、非监督训练、自学习、强化学习、联合学习、转移学习、特征学习(包括主要组成和聚类分析)、多线性子空间学习、流形学习、表示学习(包括备用字典学习)、基于规则的机器学习、异常检测及其任何变体或组合。一旦机器学习模型被训练,机器学习模型可以由车辆使用(例如通过网络1290传输至车辆),和/或机器学习模型可以由服务器1278用来远程地监控车辆。
在一些示例中,服务器1278可以接收来自车辆的数据,并且将该数据应用到最新的实时神经网络以用于实时智能推理。服务器1278可以包括由GPU 1284供电的深度学习超级计算机和/或专用AI计算机,例如NVIDIA开发的DGX和DGX站机器。然而,在一些示例中,服务器1278可以包括仅使用CPU供电的数据中心的深度学习基础设施。
服务器1278的深度学习基础设施可能够快速实时推理,并且可以使用该能力来评估并验证车辆1200中的处理器、软件和/或关联硬件的健康状况。例如,深度学习基础设施可以接收来自车辆1200的定期更新,例如图像序列和/或车辆1200已经定位的位于该图像序列中的对象(例如经由计算机视觉和/或其他机器学习对象分类技术)。深度学习基础设施可以运行它自己的神经网络以识别对象并且将它们与车辆1200识别的对象相比较,如果结果不匹配并且该基础设施得出车辆1200中的AI发生故障的结论,那么服务器1278可以向车辆1200传输信号,指示车辆1200的故障保护计算机进行控制,通知乘客,并且完成安全停车操作。
为了推理,服务器1278可以包括GPU 1284和一个或更多个可编程推理加速器(例如NVIDIA的TensorRT)。GPU供电的服务器和推理加速的组合可以使得实时响应成为可能。在其他示例中,例如在性能不那么重要的情况下,CPU、FPGA和其他处理器供电的服务器可以用于推理。
示例计算设备
图13是适合用于实现本公开的一些实施例的示例计算设备1300的框图。计算设备1300可以包括直接或间接耦合以下设备的互连系统1302:存储器1304、一个或更多个中央处理单元(CPU)1306、一个或更多个图形处理单元(GPU)1308、通信接口1310、输入/输出(I/O)端口1312、输入/输出组件1314、电源1316,一个或更多个呈现组件1318(例如,(一个或更多个)显示器)和一个或更多个逻辑单元1320。在至少一个实施例中,(一个或更多个)计算设备1300可以包括一个或更多个虚拟机(VM),和/或其任何组件可以包括虚拟组件(例如,虚拟硬件组件)。对于非限制性示例,GPU 1308中的一个或更多个可以包括一个或更多个vGPU,CPU 1306中的一个或更多个可以包括一个或更多个vCPU,和/或逻辑单元1320中的一个或更多个可以包括一个或更多个虚拟逻辑单元。这样,(一个或更多个)计算设备1300可以包括分立组件(例如,专用于计算设备1300的全GPU)、虚拟组件(例如,专用于计算设备1300的GPU的一部分)、或其组合。
尽管图13的各个方框被示出为利用线路经由互连系统1302连接,但这并不旨在是限制性的并且仅是为了清楚起见。例如,在一些实施例中,呈现组件1318(诸如显示设备)可被认为是I/O组件1314(例如,如果显示器是触摸屏)。作为另一个示例,CPU 1306和/或GPU1308可以包括存储器(例如,存储器1304可以表示除了GPU 1308的存储器、CPU 1306和/或其他组件之外的存储设备)。换言之,图13的计算设备仅是说明性的。在如“工作站”、“服务器”、“膝上型计算机”、“桌面型计算机”、“平板计算机”、“客户端设备”、“移动设备”、“手持式设备”、“游戏控制台”、“电子控制单元(ECU)”、“虚拟现实系统”和/或其他设备或系统类型的此类类别之间不做区分,因为所有都被考虑在图13的计算设备的范围内。
互连系统1302可表示一个或更多个链路或总线,诸如地址总线、数据总线、控制总线或其组合。互连系统1302可以包括一个或更多个总线或链路类型,诸如工业标准架构(ISA)总线、扩展工业标准架构(EISA)总线、视频电子标准协会(VESA)总线、外围组件互连(PCI)总线、快速外围组件互连(PCIe)总线和/或另一类型的总线或链路。在一些实施例中,组件之间存在直接连接。作为示例,CPU 1306可直接连接到存储器1304。进一步,CPU 1306可直接连接到GPU 1308。在组件之间存在直接或点对点连接的情况下,互连系统1302可包括PCIe链路以执行连接。在这些示例中,PCI总线不需要被包括在计算设备1300中。
存储器1304可以包括各种计算机可读介质中的任何计算机可读介质。计算机可读介质可以是可由计算设备1300访问的任何可用介质。计算机可读介质可以包括易失性和非易失性介质,以及可移除和不可移除介质。作为示例而非限制,计算机可读介质可包括计算机存储介质和通信介质。
计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块和/或其他数据类型的信息的任何方法或技术实现的易失性和非易失性介质和/或可移动和不可移动介质。例如,存储器1304可以存储计算机可读指令(例如,表示(一个或更多个)程序和/或(一个或更多个)程序元件,诸如操作系统)。计算机存储介质可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)或其他光盘存储、磁带盒、磁带、磁盘存储装置或其他磁性存储装置,或可用于存储所要信息且可由计算设备1300存取的任何其他介质。如本文所使用的,计算机存储介质不包括信号本身。
计算机存储介质可将计算机可读指令、数据结构、程序模块和/或其他数据类型体现在诸如载波或其他传输机制之类的已调制数据信号中,并且包括任何信息传递介质。术语“调制数据信号”可以指代以编码信号中的信息的方式设置或改变其一个或更多个特性的信号。作为示例而非限制,计算机存储介质可包括有线介质(诸如有线网络或直接有线连接)和无线介质(诸如声学、RF、红外和其他无线介质)。以上任何内容的组合也应包含在计算机可读介质的范围内。
CPU 1306可经配置以执行计算机可读指令中的至少一些以控制计算设备1300的一个或更多个组件执行本文中所描述的方法和/或过程中的一个或更多个。CPU 1306可各自包含能够同时处置众多软件线程的一个或更多个核心(例如,一个、两个、四个、八个、二十八个、七十二个等)。CPU 1306可包含任何类型的处理器,且可取决于所实施的计算设备1300的类型而包含不同类型的处理器(例如,针对移动装置具有较少核心的处理器和针对服务器具有较多核心的处理器)。例如,取决于计算设备1300的类型,处理器可以是使用精简指令集计算(RISC)实现的高级RISC机器(ARM)处理器或使用复杂指令集计算(CISC)实现的x86处理器。除了一个或更多个微处理器或补充协处理器(诸如数学协处理器)之外,计算设备1300还可包括一个或更多个CPU 1306。
除(一个或更多个)CPU 1306以外或替代(一个或更多个)CPU 1306,(一个或更多个)GPU 1308可被配置成执行计算机可读指令中的至少一些以控制计算设备1300的一个或更多个组件执行本文所描述的方法和/或过程中的一个或更多个。GPU 1308中的一个或更多个可为集成GPU(例如,有CPU 1306中的一个或更多个)和/或GPU 1308中的一个或更多个可为离散GPU。在实施例中,GPU 1308中的一个或更多个可以是CPU 1306中的一个或更多个的协处理器。GPU 1308可由计算设备1300使用以渲染图形(例如,3D图形)或执行通用计算。例如,GPU 1308可用于GPU上的通用计算(GPGPU)。GPU 1308可包含能够同时处置数百或数千软件线程的数百或数千核心。GPU 1308可响应于渲染命令(例如,经由主机接口从CPU1306接收的渲染命令)而产生输出图像的像素数据。GPU 1308可包含用于存储像素数据或任何其他合适数据(例如,GPGPU数据)的图形存储器(例如,显示存储器)。显示存储器可作为存储器1304的一部分被包括。GPU 1308可包含并行操作(例如,经由链路)的两个或两个以上GPU。链路可以直接连接GPU(例如,使用NVLINK)或可以通过交换机(例如,使用NVSwitch)连接GPU。当组合在一起时,每一GPU 1308可产生用于输出的不同部分或用于不同输出的像素数据或GPGPU数据(例如,用于第一图像的第一GPU和用于第二图像的第二GPU)。每一GPU可包含其自己的存储器,或可与其他GPU共享存储器。
除CPU 1306和/或GPU 1308之外或替代CPU 1306和/或GPU 1308,逻辑单元1320可经配置以执行计算机可读指令中的至少一些以控制计算设备1300的一个或更多个组件执行本文中所描述的方法和/或过程中的一个或更多个。在实施例中,(一个或更多个)CPU1306、(一个或更多个)GPU 1308、和/或(一个或更多个)逻辑单元1320可以离散地或联合地执行方法、过程和/或其部分的任何组合。逻辑单元1320中的一个或更多个可为CPU 1306和/或GPU 1308中的一个或更多个中的一部分和/或集成于CPU 1306和/或GPU 1308中的一个或更多个和/或逻辑单元1320中的一个或更多个可为离散组件或以其他方式在CPU 1306和/或GPU 1308外部。在实施例中,逻辑单元1320中的一个或更多个可以是CPU 1306中的一个或更多个和/或GPU 1308中的一个或更多个的协处理器。
逻辑单元1320的示例包括一个或更多个处理核心和/或其组件,诸如数据处理单元(DPU)、张量核心(TC)、张量处理单元(TPU)、像素视觉核心(PVC)、视觉处理单元(VPU)、图形处理群集(GPC)、纹理处理群集(TPC)、流多处理器(SM)、树横向单元(TTU)、人工智能加速器(AIA)、深度学习加速器(DLA)、算术逻辑单元(ALU)、专用集成电路(ASIC)、浮点单元(FPU)、输入/输出(I/O)元件、外围组件互连(PCI)或快速外围组件互连(PCIe)元件等。
通信接口1310可以包括使计算设备1300能够经由电子通信网络(包括有线和/或无线通信)与其他计算设备通信的一个或更多个接收机、发射机和/或收发机。通信接口1310可包括实现通过多个不同网络中的任一个进行通信的组件和功能,诸如无线网络(例如,Wi-Fi、Z-Wave、蓝牙、蓝牙LE、ZigBee等)、有线网络(例如,通过以太网或无限带通信)、低功率广域网(例如,LoRaWAN、SigFox等)和/或互联网。在一个或更多个实施例中,逻辑单元1320和/或通信接口1310可以包括一个或更多个数据处理单元(DPU),用于将通过网络和/或通过互连系统1302接收的数据直接传输到一个或更多个GPU 1308(的例如存储器)。
I/O端口1312可以使得计算设备1300能够逻辑地耦合到包括I/O组件1314、(一个或更多个)呈现组件1318和/或其他组件的其他设备,其中一些可以被内置到(例如,集成在)计算设备1300中。说明性I/O组件1314包括麦克风、鼠标、键盘、操纵杆、游戏垫、游戏控制器、碟形卫星天线、扫描仪、打印机、无线设备等。I/O组件1314可以提供处理空中姿势、语音或由用户生成的其他生理输入的自然用户界面(NUI)。在一些情况下,可将输入发射到适当的网络元件以供进一步处理。NUI可实现与计算设备1300的显示器相关联的语音识别、指示笔识别、面部识别、生物特征识别、屏幕上和屏幕附近的姿势识别、空中姿势、头部和眼跟踪、以及触摸识别(如以下更详细地描述的)的任何组合。计算设备1300可以包括用于手势检测和识别的深度相机,诸如立体相机系统、红外相机系统、RGB相机系统、触摸屏技术和这些的组合。另外,计算设备1300可包含使得能够检测运动的加速度计或陀螺仪(例如,作为惯性测量单元(IMU)的部分)。在一些示例中,计算设备1300可以使用加速度计或陀螺仪的输出来渲染沉浸式增强现实或虚拟现实。
电源1316可包括硬连线电源、电池电源或其组合。电源1316可向计算设备1300提供电力以使得计算设备1300的组件能够操作。
呈现组件1318可包括显示器(例如,监视器、触摸屏、电视屏幕、平视显示器(HUD)、其他显示器类型或其组合)、扬声器和/或其他呈现组件。呈现组件1318可从其他组件(例如,GPU 1308、CPU 1306、DPU等)接收数据,且输出所述数据(例如,作为图像、视频、声音等)。
示例数据中心
图14示出了可在本公开的至少一个实施例中使用的示例数据中心1400。数据中心1400可包括数据中心基础设施层1410、框架层1420、软件层1430和/或应用层1440。
如图14所示,数据中心基础设施层1410可以包括资源协调器1412、分组的计算资源1414和节点计算资源(“节点C.R.s”)1416(1)-1416(N),其中“N”表示任何完整的正整数。在至少一个实施例中,节点C.R.s 1416(1)-1416(N)可包括,但不限于任何数量的中央处理单元(CPU)或其他处理器(包括DPU、加速器、现场可编程门阵列(FPGA)、图形处理器或图形处理单元(GPU)等),存储器设备(例如,动态只读存储器),存储设备(例如,固态或磁盘驱动器),网络输入/输出(NW I/O)装置、网络交换机、虚拟机(VM)、功率模块和/或冷却模块,等等。在一些实施例中,来自节点C.R.s 1416(1)-1416(N)中的一个或更多个节点C.R.s可对应于具有上述计算资源中的一个或更多个的服务器。此外,在一些实施例中,节点C.R.s1416(1)-14161(N)可包括一个或更多个虚拟组件,诸如vGPU、vCPU等,和/或节点C.R.s1416(1)-1416(N)中的一个或更多个可对应于虚拟机(VM)。
在至少一个实施例中,分组的计算资源1414可包括容纳在一个或更多个机架(未示出)内的节点C.R.s 1416的单独分组,或容纳在不同地理位置(也未示出)处的数据中心内的许多机架。分组的计算资源1414内的节点C.R.s 1416的单独分组可包括可被配置或分配来支持一个或更多个工作负荷的分组计算、网络、存储器或存储资源。在至少一个实施例中,包括CPU、GPU、DPU和/或其他处理器的若干节点C.R.s 1416可以分组在一个或更多个机架内以提供计算资源来支持一个或更多个工作负荷。一个或更多个机架还可包括任意组合的任意数量的功率模块、冷却模块和/或网络交换机。
资源协调器1412可配置或以其他方式控制一个或更多个节点C.R.s1416(1)-1416(N)和/或分组的计算资源1414。在至少一个实施例中,资源协调器1412可以包括用于数据中心1400的软件设计基础设施(SDI)管理实体。资源协调器1412可以包括硬件、软件或其某种组合。
在至少一个实施例中,如图14所示,框架层1420可以包括作业调度器1433、配置管理器1434、资源管理器1436和/或分布式文件系统1438。框架层1420可以包括支持软件层1430的软件1432和/或应用层1440的一个或更多个应用1442的框架。软件1432或应用1442可分别包含基于网络的服务软件或应用,例如由Amazon(亚马逊)网络服务、Google Cloud(谷歌云)和Microsoft Azure提供的那些。框架层1420可以是但不限于可以利用分布式文件系统1438进行大规模数据处理(例如,“大数据”)的免费和开源的软件网络应用框架(如Apache SparkTM(下文称为“Spark”))的类型。在至少一个实施例中,作业调度器1433可以包括Spark驱动器以促进调度由数据中心1400的不同层支持的工作负荷。配置管理器1434可以能够配置不同层,诸如软件层1430和框架层1420(其包括用于支持大规模数据处理的Spark和分布式文件系统1438)。资源管理器1436可以能够管理被映射到分布式文件系统1438和作业调度器1433或被分配用于支持分布式文件系统1438和作业调度器1433的集群的或分组的计算资源。在至少一个实施例中,集群的或分组的计算资源可包括在数据中心基础设施层1410的分组的计算资源1414。资源管理器1436可与资源协调器1412协调以管理这些被映射或分配的计算资源。
在至少一个实施例中,在软件层1430中包括的软件1432可包括由节点C.R.s 1416(1)-1416(N)、分组的计算资源1414和/或框架层1420的分布式文件系统1438中的至少部分使用的软件。一种或更多种类型的软件可以包括但不限于互联网网页搜索软件、电子邮件病毒扫描软件、数据库软件和流式视频内容软件。
在至少一个实施例中,在应用层1440中包括的应用1442可包括由节点C.R.s 1416(1)-1416(N)、分组的计算资源1414和/或框架层1420的分布式文件系统1438中的至少部分使用的一个或更多个类型的应用。一种或更多种类型的应用可以包括但不限于任何数量的基因组应用、认知计算和机器学习应用,包括训练或推断软件、机器学习框架软件(例如,PyTorch、TensorFlow、Caffe等)和/或结合一个或更多个实施例使用的其他机器学习应用。
在至少一个实施例中,配置管理器1434、资源管理器1436和资源协调器1412中的任一个可基于在任何技术上可行的方式中获取的任何量和类型的数据来实现任何数量和类型的自修改动作。自修改动作可使数据中心1400的数据中心操作者免于做出可能较差的配置决策和可能避免数据中心的未充分利用和/或较差执行部分。
根据本文描述的一个或更多个实施例,数据中心1400可包括工具、服务、软件或其他资源来训练一个或更多个机器学习模型或使用一个或更多个机器学习模型来预测或推断信息。例如,可以通过使用以上相对于数据中心1400描述的软件和/或计算资源根据神经网络架构来计算权重参数来训练(一个或更多个)机器学习模型。在至少一个实施例中,对应于一个或更多个神经网络的经训练或部署的机器学习模型可用于通过使用通过一种或多种训练技术(诸如但不限于本文中描述的那些训练技术)计算的权重参数,使用上文相对于数据中心1400描述的资源来推断或预测信息。
在至少一个实施例中,数据中心1400可使用CPU、专用集成电路(ASIC)、GPU、FPGA和/或其他硬件(或与其对应的虚拟计算资源)来使用上述资源执行训练和/或推断。此外,上文所描述的一或更多个软件和/或硬件资源可被配置为允许用户训练或执行对信息的推断的服务,例如图像识别、语音识别或其他人工智能服务。
示例网络环境
适合用于实现本公开的实施例的网络环境可以包括一个或更多个客户端设备、服务器、网络附加存储(NAS)、其他后端设备和/或其他设备类型。客户端设备、服务器和/或其他设备类型(例如,每个设备)可以在图13的(一个或更多个)计算设备1300的一个或更多个实例上实现——例如,每个设备可以包括(一个或更多个)计算设备1300的类似部件、特征和/或功能。此外,在实现后端设备(例如,服务器、NAS等)的情况下,后端设备可被包括作为数据中心1400的一部分,数据中心1400的示例在本文中关于图14更详细地描述。
网络环境的组件可经由网络彼此通信,所述网络可为有线的、无线的或为两者。网络可以包括多个网络或多个网络中的一个网络。例如,网络可包括一个或更多个广域网(WAN)、一个或更多个局域网(LAN)、一个或更多个公共网络(诸如互联网和/或公共交换电话网(PSTN))和/或一个或更多个私有网络。在网络包括无线电信网络的情况下,诸如基站、通信塔或者甚至接入点(以及其他组件)的组件可以提供无线连接。
兼容的网络环境可以包括一个或更多个对等网络环境(在这种情况下,服务器可以不被包括在网络环境中)和一个或更多个客户端-服务器网络环境(在这种情况下,一个或更多个服务器可以被包括在网络环境中)。在对等网络环境中,本文针对服务器所描述的功能可在任何数量的客户端设备上实现。
在至少一个实施例中,网络环境可包括一个或更多个基于云的网络环境、分布式计算环境、其组合等。基于云的网络环境可包括框架层、作业调度器、资源管理器和在一个或更多个服务器上实现的分布式文件系统,所述服务器可包括一个或更多个核心网服务器和/或边缘服务器。框架层可包括支持软件层的软件和/或应用层的一个或更多个应用的框架。软件或应用可分别包含基于网络的服务软件或应用。在实施例中,一个或更多个客户端设备可以使用基于网络的服务软件或应用(例如,通过经由一个或更多个应用编程接口(API)访问服务软件和/或应用)。框架层可以是但不限于如可以使用分布式文件系统进行大规模数据处理(例如,“大数据”)的一种免费和开源软件网络应用框架。
基于云的网络环境可提供执行本文描述的计算和/或数据存储功能(或其一个或更多个部分)的任何组合的云计算和/或云存储。这些不同功能中的任何功能可以分布在来自(例如,可以分布在州、地区、国家、全球等的一个或更多个数据中心的)中央或核心服务器的多个位置上。如果与用户(例如,客户端设备)的连接相对靠近边缘服务器,则核心服务器可以将功能的至少一部分指定给边缘服务器。基于云的网络环境可以是私有的(例如,限于单个组织),可以是公共的(例如,对许多组织可用),和/或其组合(例如,混合云环境)。
(一个或更多个)客户端设备可以包括本文关于图13所描述的(一个或更多个)示例计算设备1300的组件、特征和功能中的至少一些。作为示例而非限制,客户端设备可被实现为个人计算机(PC),膝上型计算机、移动设备、智能电话、平板计算机、智能手表、可穿戴计算机、个人数字助理(PDA)、MP3播放器、虚拟现实耳机、全球定位系统(GPS)或设备、视频播放器、摄像机、监视设备或系统、车辆、船、飞船、虚拟机、无人机、机器人、手持式通信设备、医院设备、游戏设备或系统、娱乐系统、车辆计算机系统、嵌入式系统控制器、遥控器、电器、消费电子设备、工作站、边缘设备、这些描绘的设备的任何组合或任何其他合适的设备。
本公开可以在由计算机或者诸如个人数字助理或其他手持式设备之类的其他机器执行的、包括诸如程序模块之类的计算机可执行指令的机器可使用指令或者计算机代码的一般背景下进行描述。通常,包括例程、程序、对象、组件、数据结构等等的程序模块指的是执行特定任务或者实现特定抽象数据类型的代码。本公开可以在各种各样的系统配置中实践,这些配置包括手持式设备、消费电子器件、通用计算机、更专业的计算设备等等。本公开也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实践。
如在本文中使用的,“和/或”关于两个或更多元件的叙述应当解释为仅指一个元件或者元件组合。例如,“元件A、元件B和/或元件C”可以包括仅仅元件A,仅仅元件B,仅仅元件C,元件A和元件B,元件A和元件C,元件B和元件C,或者元件A、B和C。此外,“元件A或元件B中的至少一个”可以包括元件A中的至少一个,元件B中的至少一个,或者元件A中的至少一个和元件B中的至少一个。进一步,“元件A和元件B中的至少一个”可以包括元件A中的至少一个,元件B中的至少一个,或者元件A中的至少一个和元件B中的至少一个。
这里详细地描述了本公开的主题以满足法定要求。然而,描述本身并非意在限制本公开的范围。相反地,本公开人已经设想到,要求保护的主题也可以以其他的方式具体化,以包括与本文中结合其他当前或未来技术描述的步骤不同的步骤或者相似的步骤的组合。而且,尽管术语“步骤”和/或“块”在本文中可以用来隐含采用的方法的不同元件,但是这些术语不应当被解释为暗示本文公开的各个步骤之中或之间的任何特定顺序,除非明确描述了各步骤的顺序。
Claims (20)
1.一种方法,包括:
使用一个或更多个第一机器学习模型并至少基于表示语音的音频数据,确定与所述语音相关联的意图;
至少基于表示描绘用户的图像的图像数据,确定与所述用户相关联的兴趣点POI;以及
使用一个或更多个第二机器学习模型并至少基于所述意图和所述POI,确定与所述语音相关联的输出。
2.根据权利要求1所述的方法,进一步包括:
至少基于所述POI确定与所述意图相关联的上下文,
其中与所述语音相关联的所述输出的确定是至少基于所述意图和所述上下文的。
3.根据权利要求2所述的方法,其中确定与所述意图相关联的所述上下文包括:至少基于所述POI确定与地标相关联的标识符,所述上下文至少包括与所述地标相关联的所述标识符。
4.根据权利要求1所述的方法,进一步包括:
确定与时间段或所述用户相关联的地理区域中的至少一个,
其中与所述语音相关联的所述输出的确定还至少基于所述地理区域或所述时间段中的所述至少一个。
5.根据权利要求1所述的方法,进一步包括:
接收表示描绘环境的图像的第二图像数据,
其中与所述用户相关联的所述POI的确定进一步至少基于所述第二图像数据。
6.根据权利要求1所述的方法,进一步包括:
使用所述一个或更多个第一机器学习模型并至少基于所述音频数据,确定与所述意图相关联的一个或更多个槽位的一个或更多个参数,
其中与所述语音相关联的所述输出的确定还至少基于所述一个或更多个参数。
7.根据权利要求1所述的方法,其中确定与所述用户相关联的所述POI包括:
至少基于所述图像数据确定与所述用户相关联的凝视方向;以及
至少基于所述凝视方向和表示环境的地图数据来确定与所述用户相关联的所述POI。
8.根据权利要求1所述的方法,其中确定与所述用户相关联的所述POI包括:
至少基于所述图像数据确定与所述用户相关联的手势方向;以及
至少基于所述手势方向和表示环境的地图数据来确定与所述用户相关联的所述POI。
9.根据权利要求1所述的方法,其中确定与所述用户相关联的所述POI包括:
至少基于所述图像数据和表示环境的第一数据,确定与所述用户相关联的第一POI;
至少基于所述图像数据和表示所述环境的第二数据,确定与所述用户相关联的第二POI;以及
至少基于所述第一POI和所述第二POI确定与所述用户相关联的所述POI。
10.根据权利要求1所述的方法,其中与所述语音相关联的所述输出包括以下中的至少一项:
表示提供与所述意图相关联的信息的一个或更多个词的音频数据;或者
表示描绘与所述意图相关联的内容的一个或更多个图像的内容数据。
11.一种系统,包括:
一个或更多个处理单元,用于:
接收表示语音的音频数据;
至少基于表示描绘用户的图像的图像数据和表示所述用户所处环境的地图数据,确定与所述用户相关联的兴趣点POI;以及
使用一个或更多个机器学习模型并至少基于所述音频数据和所述POI,确定与所述语音相关联的输出。
12.根据权利要求11所述的系统,其中所述一个或更多个处理单元还用于:
至少基于所述POI,确定与所述音频数据相关联的上下文,
其中与所述语音相关联的所述输出的确定是至少基于所述音频数据和所述上下文的。
13.根据权利要求12所述的系统,其中所述一个或更多个处理单元还用于:
使用一个或更多个第二机器学习模型并至少基于所述音频数据确定与所述语音相关联的意图;
将所述上下文附加到所述意图;以及
将附加到所述意图的所述上下文应用为对所述一个或更多个机器学习模型的输入。
14.根据权利要求11所述的系统,其中所述一个或更多个处理单元还用于:
使用一个或更多个第二机器学习模型并至少基于所述音频数据,确定以下中的至少一个:与所述语音相关联的意图、或与所述意图相关联的一个或更多个槽位的一个或更多个参数;
其中与所述语音相关联的所述输出的确定是至少基于所述意图或所述一个或更多个参数中的所述至少一个的。
15.根据权利要求11所述的系统,其中所述一个或更多个处理单元用于通过以下方式确定关联的所述POI:
至少基于所述图像数据确定与所述用户相关联的凝视方向或手势方向中的至少一个;以及
至少基于凝视方向或所述手势方向和所述地图数据中的至少一个,确定与所述用户相关联的所述POI。
16.根据权利要求11所述的系统,其中所述一个或更多个处理单元还用于:
确定时间段或与所述环境相关联的地理区域中的至少一个,
其中与所述语音相关联的所述输出的确定还至少基于所述地理区域或所述时间段中的所述至少一个。
17.根据权利要求11所述的系统,其中所述系统被包括在以下的至少一个中:
用于自主或半自主机器的控制系统;
用于自主或半自主机器的感知系统;
用于执行模拟操作的系统;
用于呈现虚拟现实VR内容的系统;
用于呈现增强现实AR内容的系统;
用于呈现混合现实MR内容的系统;
用于执行数字孪生操作的系统;
用于执行光传输模拟的系统;
用于执行3D资产的协作内容创建的系统;
用于执行深度学习操作的系统;
使用边缘设备实现的系统;
使用机器人实现的系统;
用于执行对话式AI操作的系统;
用于生成合成数据的系统;
包含一个或更多个虚拟机VM的系统;
至少部分地在数据中心中实现的系统;或者
至少部分地使用云计算资源实现的系统。
18.一种处理器,包括:
一个或更多个处理单元,用于使用一个或更多个机器学习模型,至少基于与语音相关联的意图和与所述意图相关联的上下文来确定与所述语音相关联的输出,所述上下文使用与用户相关联的兴趣点POI来确定。
19.根据权利要求18所述的处理器,其中确定所述POI包括:
至少基于表示描绘所述用户的图像的图像数据,确定与所述用户相关联的凝视方向或手势方向中的至少一个;以及
至少基于凝视方向或手势方向中的至少一个,确定与所述用户相关联的所述POI。
20.根据权利要求18所述的处理器,其中所述处理器被包括在以下的至少一个中:
用于自主或半自主机器的控制系统;
用于自主或半自主机器的感知系统;
用于执行模拟操作的系统;
用于呈现虚拟现实VR内容的系统;
用于呈现增强现实AR内容的系统;
用于呈现混合现实MR内容的系统;
用于执行数字孪生操作的系统;
用于执行光传输模拟的系统;
用于执行3D资产的协作内容创建的系统;用于执行深度学习操作的系统;
使用边缘设备实现的系统;
使用机器人实现的系统;
用于执行对话式AI操作的系统;
用于生成合成数据的系统;
包含一个或更多个虚拟机VM的系统;
至少部分地在数据中心中实现的系统;或者至少部分地使用云计算资源实现的系统。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/942,950 | 2022-09-12 | ||
US17/942,950 US20240087561A1 (en) | 2022-09-12 | 2022-09-12 | Using scene-aware context for conversational ai systems and applications |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117690422A true CN117690422A (zh) | 2024-03-12 |
Family
ID=90054530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310551543.1A Pending CN117690422A (zh) | 2022-09-12 | 2023-05-16 | 将场景感知的上下文用于对话式人工智能系统和应用 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240087561A1 (zh) |
CN (1) | CN117690422A (zh) |
DE (1) | DE102023124120A1 (zh) |
-
2022
- 2022-09-12 US US17/942,950 patent/US20240087561A1/en active Pending
-
2023
- 2023-05-16 CN CN202310551543.1A patent/CN117690422A/zh active Pending
- 2023-09-07 DE DE102023124120.6A patent/DE102023124120A1/de active Pending
Also Published As
Publication number | Publication date |
---|---|
DE102023124120A1 (de) | 2024-03-14 |
US20240087561A1 (en) | 2024-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7399164B2 (ja) | 駐車スペース検出に適したスキューされたポリゴンを使用した物体検出 | |
US11657263B2 (en) | Neural network based determination of gaze direction using spatial models | |
US20230017261A1 (en) | Domain restriction of neural networks through synthetic data pre-training | |
US11978266B2 (en) | Occupant attentiveness and cognitive load monitoring for autonomous and semi-autonomous driving applications | |
US11682272B2 (en) | Systems and methods for pedestrian crossing risk assessment and directional warning | |
JP2023531330A (ja) | マシン学習を使用した自律マシン・アプリケーションのためのセンサ融合 | |
JP2023548721A (ja) | 自律システム及びアプリケーションにおけるビヘイビア予測のためのモデルベースの強化学習 | |
CN112989914A (zh) | 具有自适应加权输入的注视确定机器学习系统 | |
US11590929B2 (en) | Systems and methods for performing commands in a vehicle using speech and image recognition | |
US20230341235A1 (en) | Automatic graphical content recognition for vehicle applications | |
CN116767245A (zh) | 使用自主系统和应用的神经网络的地图信息对象数据管理 | |
US20220340149A1 (en) | End-to-end evaluation of perception systems for autonomous systems and applications | |
CN117581117A (zh) | 自主机器系统和应用中使用LiDAR数据的动态对象检测 | |
CN116767182A (zh) | 用于自主机器系统和应用的基于感知的停车辅助 | |
CN116795091A (zh) | 自主系统和应用程序的环境重建和路径规划 | |
CN117058730A (zh) | 用于机器学习模型的数据集生成和增强 | |
CN115344117A (zh) | 适配的眼睛追踪机器学习模型引擎 | |
US20240087561A1 (en) | Using scene-aware context for conversational ai systems and applications | |
US20230298361A1 (en) | Image to world space transformation for ground-truth generation in autonomous systems and applications | |
US20240095460A1 (en) | Dialogue systems using knowledge bases and language models for automotive systems and applications | |
US20230391365A1 (en) | Techniques for generating simulations for autonomous machines and applications | |
US20230324194A1 (en) | Translating route information between data structures for autonomous systems and applications | |
WO2022226238A1 (en) | End-to-end evaluation of perception systems for autonomous systems and applications | |
CN117516565A (zh) | 用于在自主系统和应用中导航的车道偏置 | |
CN116772874A (zh) | 用于自主系统和应用的使用占用网格进行危险检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |