CN110023962B - 人类体验到机器人和其他自主机器的高效传递 - Google Patents
人类体验到机器人和其他自主机器的高效传递 Download PDFInfo
- Publication number
- CN110023962B CN110023962B CN201680090974.0A CN201680090974A CN110023962B CN 110023962 B CN110023962 B CN 110023962B CN 201680090974 A CN201680090974 A CN 201680090974A CN 110023962 B CN110023962 B CN 110023962B
- Authority
- CN
- China
- Prior art keywords
- user
- behavioral
- inputs
- logic
- graphics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012546 transfer Methods 0.000 title claims description 19
- 238000000034 method Methods 0.000 claims abstract description 116
- 230000003542 behavioural effect Effects 0.000 claims abstract description 64
- 238000003062 neural network model Methods 0.000 claims abstract description 57
- 230000007246 mechanism Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000012384 transportation and delivery Methods 0.000 claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims description 72
- 238000004891 communication Methods 0.000 claims description 49
- 230000006399 behavior Effects 0.000 claims description 47
- 230000010354 integration Effects 0.000 claims description 15
- 238000007667 floating Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 description 88
- 230000015654 memory Effects 0.000 description 86
- 230000009471 action Effects 0.000 description 56
- 230000008569 process Effects 0.000 description 35
- 230000006870 function Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 26
- 239000000872 buffer Substances 0.000 description 23
- 238000013461 design Methods 0.000 description 22
- 238000013528 artificial neural network Methods 0.000 description 16
- 239000003795 chemical substances by application Substances 0.000 description 16
- 238000013439 planning Methods 0.000 description 16
- 239000012634 fragment Substances 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 13
- 230000003993 interaction Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000009877 rendering Methods 0.000 description 8
- 239000008186 active pharmaceutical agent Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 210000003128 head Anatomy 0.000 description 7
- 230000002093 peripheral effect Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 241000282412 Homo Species 0.000 description 6
- 238000003491 array Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000001537 neural effect Effects 0.000 description 6
- 208000019300 CLIPPERS Diseases 0.000 description 5
- 208000021930 chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids Diseases 0.000 description 5
- 230000001276 controlling effect Effects 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013529 biological neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 101000912503 Homo sapiens Tyrosine-protein kinase Fgr Proteins 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 102100026150 Tyrosine-protein kinase Fgr Human genes 0.000 description 1
- 230000010391 action planning Effects 0.000 description 1
- 210000000617 arm Anatomy 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000003169 central nervous system Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000001513 elbow Anatomy 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 210000001508 eye Anatomy 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 210000003811 finger Anatomy 0.000 description 1
- 210000001061 forehead Anatomy 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 210000004247 hand Anatomy 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000010399 physical interaction Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 210000000697 sensory organ Anatomy 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Robotics (AREA)
- Medical Informatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Generation (AREA)
- Image Processing (AREA)
Abstract
描述了一种用于促进将人类体验传递到自主机器的机制。如本文所描述的,实施例的方法包括:促进由一个或多个传感器感测与用户相关的一个或多个输入;以及评估所述一个或多个输入以捕获所述用户的一个或多个行为特性。所述方法可以进一步包括:基于所述一个或多个行为特性来训练神经网络模型;以及将经训练的神经网络模型应用于计算装置,以便促进所述计算装置采用所述一个或多个行为特性来像所述用户一样表现。
Description
技术领域
本文所描述的实施例总体上涉及计算机。更具体地,描述了用于促进人类体验到机器人和其他自主机器的高效传递的实施例。
背景技术
众所周知,诸如机器人等自主机器用于执行复杂的任务,并且由于这些自主机器的复杂环境而难以使用计算机编程语言对其进行编程。常规工业机器人编程技术仅限于特定任务,并且依赖于专家来详细说明每个角落的情况。例如,这种常规技术不适用于所有机器人;特别是,当机器人在开放环境中与人类进行交互时。
此外,今天的机器人设计允许机器人上有的数千个传感器;然而,在通过这些传感器进行的传感器输入的实时流中,传感器输入中只有一小部分被认为是对决定机器人反应而言关键的,这意味着如何以实时的方式识别这一小部分成为对于此类机器人和其他自主机器的一个“大数据”挑战。
附图说明
以示例性而非限制性方式在附图中展示实施方式,在附图中,类似号码指示类似元件。
图1是根据实施例的处理系统的框图。
图2是处理器的实施例的框图,所述处理器具有一个或多个处理器核、集成存储器控制器、以及集成图形处理器。
图3是图形处理器的框图,所述图形处理器可以是分立式图形处理单元,或者可以是集成有多个处理核的图形处理器。
图4是根据一些实施例的图形处理器的图形处理引擎的框图。
图5是图形处理器的另一实施例的框图。
图6展示了线程执行逻辑,所述线程执行逻辑包括在图形处理引擎的一些实施例中采用的处理元件阵列。
图7是展示了根据一些实施例的图形处理器指令格式的框图。
图8是图形处理器的另一实施例的框图。
图9A是框图,展示了根据实施例的图形处理器命令格式。
图9B是框图,展示了根据实施例的图形处理器命令序列。
图10展示了根据一些实施例的数据处理系统的示例性图形软件架构。
图11是框图,展示了根据实施例的可以用于制造用于执行操作的集成电路的IP核开发系统。
图12是框图,展示了根据实施例的可以使用一个或多个IP核来制造的示例性片上系统集成电路。
图13是框图,展示了根据实施例的可以使用一个或多个IP核来制造的片上系统集成电路的示例性图形处理器。
图14是框图,展示了根据实施例的可以使用一个或多个IP核来制造的附加系统集成电路的示例性图形处理器。
图15展示了根据一个实施例的采用体验传递机制的计算装置。
图16A展示了根据一个实施例的图15的体验传递机制。
图16B展示了根据一个实施例的采用图15的体验传递机制的架构布置。
图17展示了根据一个实施例的具有用于控制机器人的直接编程方法的常规事务序列。
图18展示了根据一个实施例的采用具有人机回圈(human-in-the-loop)的机器人控制系统的事务序列。
图19展示了根据一个实施例的用于将人类交互技能传递到自主机器的人类行为交互的自主机器学习平台。
图20展示了根据一个实施例的神经网络模型。
图21A展示了根据一个实施例的用于将体验从人类传递到自主机器的方法。
图21B展示了根据一个实施例的用于将体验从人类传递到自主机器的方法。
具体实施方式
在以下描述中,阐述了众多具体细节。然而,如本文中所描述的,可以在不具有这些具体的细节的情况下实践实施例。在其他情况下,未详细示出公知的电路、结构和技术,以避免模糊对本说明书的理解。
实施例提供了一种新颖技术,用于识别关键数据或知识并且然后捕获此数据并将其传递到诸如机器人等自主机器,而无需显性地对这些自主机器进行编程。例如,在一个实施例中,传感器输入可以是利用人机回圈收集和计划的,同时保留具有所收集信息的神经网络模型并将这些神经模型应用于机器人控制中。
实施例提供了一种新颖技术,用于将可穿戴外骨骼感测子系统与表达捕获子系统集成以对任何相关信息进行采样,其中,此所集成的系统可以包括通过外骨骼和传感器信号筛选和存储系统连接的多个传感器。任何相关传感器信息都可以被分类为双重的:用于动作计划的输入信息以及由动作生成的结果。以良好的格式来记录这些传感器数据,以揭示计划策略。
贯穿本文档,机器人可以用作自主机器的示例,其中,在若干情况下,为了简洁和清楚起见,如“机器人”、“自主机器”、“计算装置”等术语可以互换使用。神经网络是指诸如CNN等人工神经网络(ANN),所述人工神经网络由诸如人类和动物中的中央神经系统等生物神经网络(BNN)启发并且通常基于所述生物神经网络。
设想的是,贯穿本文档,可以可互换地引用像“请求”、“查询”、“作业”、“工作”、“工作项”和“工作负荷”等术语。类似地,“应用”和“代理”可以指代或包括通过如自由渲染的应用编程接口(API)(如开放式图形库11、/>12等)等API提供的计算机程序、软件应用、游戏、工作站应用等,其中,“分派”可以可互换地被称为“工作单元”或“绘制”,并且类似地,“应用”可以可互换地被称为“工作流”或简称“代理”。例如,如三维(3D)游戏的工作负荷等工作负荷可以包括并发布任何数量和类型的“帧”,其中,每个帧可以表示图像(例如,帆船、人脸)。此外,每个帧可以包括并提供任何数量和类型的工作单元,其中,每个工作单元可以表示由其相应帧表示的图像(例如,帆船、人脸)的一部分(例如,帆船的桅杆、人脸的前额)。然而,为了一致性,贯穿本文档,每一项可以被单个术语(例如,“分派”、“代理”等)引用。
在一些实施例中,像“显示屏”和“显示表面”等术语可以可互换地用于指代显示装置的可视部分,而显示装置的剩余部分可以嵌入到如智能电话、可穿戴装置等计算装置中。可以设想并且应当注意,实施例不限于任何特定的计算装置、软件应用、硬件组件、显示装置、显示屏或表面、协议、标准等。例如,实施例可以应用于并且可以与在任何数量和类型的计算机上的任何数量和类型的实时应用一起使用,所述计算机诸如台式机、膝上型计算机、平板计算机、智能电话、头戴式显示器、以及其他可穿戴装置等。此外,例如,使用此新颖技术渲染高效性能的场景的范围可以从如桌面合成等简单场景到如3D游戏、增强现实应用等复杂的场景。
系统概述
图1是根据实施例的处理系统100的框图。在各实施例中,系统100包括一个或多个处理器102以及一个或多个图形处理器108,并且可以是单处理器台式系统、多处理器工作站系统或具有大量处理器102或处理器核107的服务器系统。在一个实施例中,系统100是被纳入到用于在移动设备、手持式设备或嵌入式设备中使用的芯片上系统(SoC)集成电路内的处理平台。
系统100的实施例可以包括或并入基于服务器的游戏平台、游戏控制台,包括游戏与媒体控制台、移动游戏控制台、手持式游戏控制台、或在线游戏控制台。在一些实施例中,系统100是移动电话、智能电话、平板计算设备或移动互联网设备。数据处理系统100还可包括可穿戴设备(诸如智能手表可穿戴设备、智能眼镜设备、增强现实设备、或虚拟现实设备)、与所述可穿戴设备耦合、或者集成在所述可穿戴设备中。在一些实施例中,数据处理系统100是电视或机顶盒设备,所述电视或机顶盒设备具有一个或多个处理器102以及由一个或多个图形处理器108生成的图形界面。
在一些实施例中,一个或多个处理器102每个包括用于处理指令的一个或多个处理器核107,所述指令在被执行时执行系统和用户软件的操作。在一些实施例中,一个或多个处理器核107中的每个处理器核被配置成用于处理特定的指令集109。在一些实施例中,指令集109可以促进复杂指令集计算(CISC)、精简指令集计算(RISC)、或经由超长指令字(VLIW)的计算。多个处理器核107可以各自处理不同的指令集109,所述指令集可以包括用于促进对其他指令集进行仿真的指令。处理器核107还可以包括其他处理设备,如数字信号处理器(DSP)。
在一些实施例中,处理器102包括高速缓存存储器104。取决于架构,处理器102可以具有单个内部高速缓存或内部高速缓存的多个级。在一些实施例中,在处理器102的各部件当中共享高速缓存存储器。在一些实施例中,处理器102还使用外部高速缓存(例如,3级(L3)高速缓存或末级高速缓存(LLC))(未示出),可以使用已知的高速缓存一致性技术来在处理器核107当中共享外部高速缓存。另外地,寄存器堆106包括在处理器102中,所述处理器可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器、和指令指针寄存器)。一些寄存器可以是通用寄存器,而其他寄存器可以特定于处理器102的设计。
在一些实施例中,处理器102耦合至处理器总线110,所述处理器总线用于在处理器102与系统100内的其他部件之间传输通信信号,例如地址、数据、或控制信号。在一个实施例中,系统100使用示例性‘中枢’系统架构,包括存储器控制器中枢116和输入输出(I/O)控制器中枢130。存储器控制器中枢116促进存储器设备与系统100的其他部件之间的通信,而I/O控制器中枢(ICH)130经由本地I/O总线提供与I/O设备的连接。在一个实施例中,存储器控制器中枢116的逻辑集成在处理器内。
存储器设备120可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储器设备、或具有合适的性能用作处理存储器的某个其他存储器设备。在一个实施例中,存储器设备120可作为系统100的系统存储器进行操作,以存储数据122和指令121,以供在一个或多个处理器102执行应用或进程时使用。存储器控制器中枢116还与可选的外部图形处理器112耦合,所述可选的外部图形处理器可以与处理器102中的一个或多个图形处理器108通信,从而执行图形和媒体操作。
在一些实施例中,ICH 130使得外围部件经由高速I/O总线连接至存储器设备120和处理器102。I/O外围装置包括但不限于:音频控制器146、固件接口128、无线收发机126(例如,Wi-Fi、蓝牙)、数据存储设备124(例如,硬盘驱动器、闪存等)、以及用于将传统(例如,个人系统2(PS/2))设备耦合至所述系统的传统I/O控制器140。一个或多个通用串行总线(USB)控制器142连接多个输入设备,例如键盘和鼠标144组合。网络控制器134还可以耦合至ICH 130。在一些实施例中,高性能网络控制器(未示出)耦合至处理器总线110。应当理解,所示出的系统100是示例性的而非限制性的,因为还可以使用以不同方式配置的其他类型的数据处理系统。例如,I/O控制器中枢130可以集成在一个或多个处理器102内,或者存储器控制器中枢116和I/O控制器中枢130可以集成在分立式外部图形处理器(诸如外部图形处理器112)内。
图2是处理器200的实施例的框图,所述处理器具有一个或多个处理器核202A至202N、集成存储器控制器214、以及集成图形处理器208。图2的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。处理器200可包括多达且包括由虚线框表示的附加核202N的附加核。处理器核202A至202N各自包括一个或多个内部高速缓存单元204A至204N。在一些实施例中,每个处理器核还可以访问一个或多个共享的高速缓存单元206。
内部高速缓存单元204A至204N和共享高速缓存单元206表示处理器200内部的高速缓存存储器层级结构。高速缓存存储器层级结构可以包括每个处理器核内的至少一级指令和数据高速缓存以及一级或多级共享中级高速缓存,诸如2级(L2)、3级(L3)、4级(L4)、或其他级的高速缓存,其中,最高级的高速缓存在外部存储器之前被分类为LLC。在一些实施例中,高速缓存一致性逻辑维持各高速缓存单元206与204A至204N之间的一致性。
在一些实施例中,处理器200还可以包括一组一个或多个总线控制器单元216和系统代理核210。一个或多个总线控制器单元216管理一组外围总线,诸如一个或多个外围部件互连总线(例如,PCI、PCI Express)。系统代理核210提供对各处理器部件的管理功能。在一些实施例中,系统代理核210包括一个或多个集成存储器控制器214用于管理对各外部存储器设备(未示出)的访问。
在一些实施例中,处理器核202A至202N中的一个或多个包括对同步多线程的支持。在这种实施例中,系统代理核210包括用于在多线程处理过程中协调和操作核202A至202N的部件。另外,系统代理核210还可以包括功率控制单元(PCU),所述功率控制单元包括用于调节处理器核202A至202N的功率状态的逻辑和部件以及图形处理器208。
在一些实施例中,另外,处理器200还包括用于执行图形处理操作的图形处理器208。在一些实施例中,图形处理器208耦合至共享高速缓存单元206集以及系统代理核210,所述系统代理核包括一个或多个集成存储器控制器214。在一些实施例中,显示控制器211与图形处理器208耦合以便将图形处理器输出驱动到一个或多个耦合的显示器。在一些实施例中,显示控制器211可以是经由至少一个互连与图形处理器耦合的单独模块,或者可以集成在图形处理器208或系统代理核210内。
在一些实施例中,基于环的互连单元212用于耦合处理器200的内部部件。然而,可以使用替代性互连单元,比如点到点互连、切换式互连、或其他技术,包括本领域众所周知的技术。在一些实施例中,图形处理器208经由I/O链路213与环形互连212耦合。
示例性I/O链路213表示多个I/O互连中的多个品种中的至少一种,包括促进各处理器部件与高性能嵌入式存储器模块218(比如eDRAM模块)之间的通信的封装体I/O互连。在一些实施例中,处理器核202A至202N中的每个处理器核以及图形处理器208将嵌入式存储器模块218用作共享末级高速缓存。
在一些实施例中,处理器核202A至202N是执行相同指令集架构的均质核。在另一实施例中,处理器核202A至202N在指令集架构(ISA)方面是异构的,其中,处理器核202A至202N中的一者或多者执行第一指令集,而其他核中的至少一者执行所述第一指令集的子集或不同的指令集。在一个实施例中,处理器核202A至202N就微架构而言是同质的,其中,具有相对较高功耗的一个或多个核与具有较低功耗的一个或多个功率核耦合。另外,处理器200可以实现在一个或多个芯片上或者被实现为具有除其他部件之外的所展示的部件的SoC集成电路。
图3是图形处理器300的框图,所述图形处理器可以是分立式图形处理单元、或者可以是与多个处理核集成的图形处理器。在一些实施例中,图形处理器经由到图形处理器上的寄存器的映射I/O接口并且利用被放置在处理器存储器中的命令与存储器进行通信。在一些实施例中,图形处理器300包括用于访问存储器的存储器接口314。存储器接口314可以是到本地存储器、一个或多个内部高速缓存、一个或多个共享外部高速缓存、和/或到系统存储器的接口。
在一些实施例中,图形处理器300还包括显示控制器302,所述显示控制器用于将显示输出数据驱动到显示设备320。显示控制器302包括用于显示器的一个或多个重叠平面的硬件以及多层视频或用户接口元件的组成。在一些实施例中,图形处理器300包括用于编码、解码、或者向、从或在一个或多个媒体编码格式之间进行媒体代码转换的视频编解码器引擎306,包括但不限于:运动图像专家组(MPEG)(诸如MPEG-2)、高级视频编码(AVC)格式(诸如H.264/MPEG-4 AVC)、以及电影&电视工程师协会(SMPTE)421M/VC-1、和联合图像专家组(JPEG)格式(诸如JPEG、以及运动JPEG(MJPEG)格式)。
在一些实施例中,图形处理器300包括用于执行二维(2D)光栅化器操作包括例如位边界块传递的块图像传递(BLIT)引擎304。然而,在一个实施例中,使用图形处理引擎(GPE)310的一个或多个部件执行2D图形操作。在一些实施例中,GPE 310是用于执行图形操作的计算引擎,所述图形操作包括三维(3D)图形操作和媒体操作。
在一些实施例中,GPE 310包括用于执行3D操作的3D流水线312,比如使用作用于3D图元形状(例如,矩形、三角形等)的处理功能来渲染三维图像和场景。3D流水线312包括可编程且固定的功能元件,所述可编程且固定的功能元件在到3D/媒体子系统315的元件和/或生成的执行线程内执行各种任务。虽然3D流水线312可以用于执行媒体操作,但是GPE310的实施例还包括媒体流水线316,所述媒体流水线具体地用于执行媒体操作,诸如视频后处理和图像增强。
在一些实施例中,媒体流水线316包括固定功能或可编程逻辑单元以便代替、或代表视频编解码器引擎306来执行一种或多种专门的媒体操作,比如视频解码加速、视频解交织、以及视频编码加速。在一些实施例中,另外,媒体流水线316还包括线程生成单元以便生成用于在3D/媒体子系统315上执行的线程。所生成的线程对3D/媒体子系统315中所包括的一个或多个图形执行单元执行对媒体操作的计算。
在一些实施例中,3D/媒体子系统315包括用于执行3D流水线312和媒体流水线316生成的线程的逻辑。在一个实施例中,流水线向3D/媒体子系统315发送线程执行请求,所述3D/媒体子系统包括用于仲裁并将各请求分派到可用的线程执行资源的线程分派逻辑。执行资源包括用于处理3D和媒体线程的图形执行单元阵列。在一些实施例中,3D/媒体子系统315包括用于线程指令和数据的一个或多个内部高速缓存。在一些实施例中,所述子系统还包括共享存储器(包括寄存器和可寻址存储器)以便在线程之间共享数据并用于存储输出数据。
图形处理引擎
图4是根据一些实施例的图形处理器的图形处理引擎410的框图。在一个实施例中,图形处理引擎(GPE)410是图3所示的GPE 310的一个版本。图4的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。例如,展示了图3的3D流水线312和媒体流水线316。媒体流水线316在GPE 410的一些实施例中是可选的,并且可以不显式地地包括在GPE 410内。例如以及在至少一个实施例中,单独的媒体和/或图像处理器被耦合至GPE410。
在一些实施例中,GPE 410与命令流转化器403耦合或包括所述命令流转化器,所述命令流转化器向3D流水线312和/或媒体流水线316提供命令流。在一些实施例中,命令流转化器403与存储器耦合,所述存储器可以是系统存储器、或内部高速缓存存储器和共享高速缓存存储器中的一个或多个高速缓存存储器。在一些实施例中,命令流转化器403从存储器接收命令并将这些命令发送至3D流水线312和/或媒体流水线316。所述命令是从存储用于3D流水线312和媒体流水线316的环形缓冲器获取的指示。在一个实施例中,另外,环形缓冲器还可以包括存储多批多命令的批命令缓冲器。用于3D流水线312的命令还可以包括对在存储器中存储的数据的引用,诸如但不限于用于3D流水线312的顶点和几何数据和/或用于媒体流水线316的图像数据和存储器对象。3D流水线312和媒体流水线316通过经由各自流水线内的逻辑执行操作或者通过将一个或多个执行线程分派至执行单元阵列414来处理所述命令。
在各种实施例中,3D流水线312可以通过处理指令并将执行线程分派给图形核阵列414来执行一个或多个着色器程序,诸如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序。图形核阵列414提供统一的执行资源块。图形核阵列414内的多用途执行逻辑(例如,执行单元)包括对各种3D API着色器语言的支持,并且可以执行与多个着色器相关联的多个同时执行线程。
在一些实施例中,图形核阵列414还包括用于执行诸如视频和/或图像处理的媒体功能的执行逻辑。在一个实施例中,除了图形处理操作之外,执行单元还包括可编程以执行并行通用计算操作的通用逻辑。通用逻辑可以与图1的(多个)处理器核107或图2中的核202A至202N内的通用逻辑并行地或结合地执行处理操作。
由在图形核阵列414上执行的线程生成的输出数据可以将数据输出到统一返回缓冲器(URB)418中的存储器。URB 418可以存储多个线程的数据。在一些实施例中,URB 418可以用于在图形核阵列414上执行的不同线程之间发送数据。在一些实施例中,URB 418可以另外用于图形核阵列上的线程与共享功能逻辑420内的固定功能逻辑之间的同步。
在一些实施例中,图形核阵列414是可缩放的,使得所述阵列包括可变数量的图形核,这些图形核各自具有基于GPE 410的目标功率和性能等级的可变数量的执行单元。在一个实施例中,执行资源是动态可缩放的,从而可以根据需要启用或禁用执行资源。
图形核阵列414与共享功能逻辑420耦合,所述共享功能逻辑包括在图形核阵列中的图形核之间共享的多个资源。共享功能逻辑420内的共享功能是向图形核阵列414提供专用补充功能的硬件逻辑单元。在各种实施例中,共享功能逻辑420包括但不限于采样器421、数学422和线程间通信(ITC)423逻辑。另外,一些实施例实现共享功能逻辑420内的一个或多个高速缓存425。在给定的专用功能的需求不足以包含在图形核阵列414中的情况下实现共享功能。相反,所述专用功能的单个实例被实现为共享功能逻辑420中的独立实体并且在图形核阵列414内的执行资源之间共享。在图形核阵列414之间共享并包括在图形核阵列414内的精确的一组功能在各实施例之间变化。
图5是图形处理器500的另一个实施例的框图。图5的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。
在一些实施例中,图形处理器500包括环形互连502、流水线前端504、媒体引擎537、以及图形核580A至580N。在一些实施例中,环形互连502将图形处理器耦合至其他处理单元,包括其他图形处理器或者一个或多个通用处理器核。在一些实施例中,图形处理器是集成在多核处理系统内的多个处理器之一。
在一些实施例中,图形处理器500经由环形互连502接收多批命令。传入命令由流水线前端504中的命令流转化器503来解译。在一些实施例中,图形处理器500包括用于经由(多个)图形核580A至580N执行3D几何处理和媒体处理的可缩放执行逻辑。对于3D几何处理命令,命令流转化器503将命令供应至几何流水线536。针对至少一些媒体处理命令,命令流转化器503将命令供应至视频前端534,所述视频前端与媒体引擎537耦合。在一些实施例中,媒体引擎537包括用于视频和图像后处理的视频质量引擎(VQE)530以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)533引擎。在一些实施例中,几何流水线536和媒体引擎537各自生成执行线程,所述执行线程用于由至少一个图形核580A提供的线程执行资源。
在一些实施例中,图形处理器500包括可扩展线程执行资源表征模块核580A至580N(有时被称为核分片),各个可扩展线程执行资源表征模块核具有多个子核550A至550N、560A至560N(有时被称为核子分片)。在一些实施例中,图形处理器500可以具有任意数量的图形核580A至580N。在一些实施例中,图形处理器500包括图形核580A,所述图形核至少具有第一子核550A和第二子核560A。在其他实施例中,图形处理器是具有单个子核(例如,550A)的低功率处理器。在一些实施例中,图形处理器500包括多个图形核580A至580N,所述图形核各自包括一组第一子核550A至550N和一组第二子核560A至560N。所述一组第一子核550A至550N中的每个子核至少包括第一组执行单元552A至552N和媒体/纹理采样器554A至554N。所述一组第二子核560A至560N中的每个子核至少包括第二组执行单元562A至562N和采样器564A至564N。在一些实施例中,每个子核550A至550N、560A至560N共享一组共享资源570A至570N。在一些实施例中,所述共享资源包括共享高速缓存存储器和像素操作逻辑。其他共享资源也可以包括在图形处理器的各实施例中。
执行单元
图6展示了线程执行逻辑600,所述线程执行逻辑包括在GPE的一些实施例中采用的处理元件阵列。图6的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。
在一些实施例中,线程执行逻辑600包括着色器处理器602、线程分派器604、指令高速缓存606、包括多个执行单元608A至608N的可扩展执行单元阵列、采样器610、数据高速缓存612、以及数据端口614。在一个实施例中,可缩放执行单元阵列可以通过基于工作负荷的计算需求来启用或禁用一个或多个执行单元(例如,执行单元608A,608B,608C,608D,一直到608N-1和608N中的任一个)来动态地缩放。在一个实施例中,所包括的部件经由互连结构而互连,所述互连结构链接到部件中的每个部件。在一些实施例中,线程执行逻辑600包括通过指令高速缓存606、数据端口614、采样器610、以及执行单元阵列608A至608N中的一者或多者到存储器(如系统存储器或高速缓存存储器)的一个或多个连接件。在一些实施例中,每个执行单元(例如,608A)是能够执行多个同步硬件线程同时针对每个线程并行地处理多个数据元素的独立可编程通用计算单元。在各种实施例中,执行单元608A至608N的阵列是可缩放的以包括任意数量的单独执行单元。
在一些实施例中,执行单元608A至608N主要用于执行着色器程序。着色器处理器602可以处理各种着色器程序并且经由线程分派器604分派与着色器程序相关联的执行线程。在一个实施例中,线程分派器包括用于对来自图形和媒体流水线的线程发起请求进行仲裁并且在一个或多个执行单元608A至608N上实例化所请求的线程的逻辑。例如,几何流水线(例如,图5的536)可以将顶点处理、曲面细分或几何处理线程分派至线程执行逻辑600(图6)进行处理。在一些实施例中,线程分派器604还可处理来自执行着色器程序的运行时间线程生成请求。
在一些实施例中,执行单元608A至608N支持指令集(所述指令集包括对许多标准3D图形着色器指令的原生支持),从而使得以最小的转换执行来自图形库(例如,Direct 3D和OpenGL)的着色器程序。这些执行单元支持顶点和几何处理(例如,顶点程序、几何程序、顶点着色器)、像素处理(例如,像素着色器、片段着色器)以及通用处理(例如,计算和媒体着色器)。执行单元608A至608N中的每一个都能够执行多发布单指令多数据(SIMD),并且多线程操作能够在面对较高等待时间的存储器访问时实现高效的执行环境。每个执行单元内的每个硬件线程都具有专用的高带宽寄存器堆和相关的独立线程状态。对于具有整数、单精度浮点运算和双精度浮点运算、SIMD分支功能、逻辑运算、超越运算和其他混杂的运算的流水线,执行是每个时钟的多发布。在等待来自存储器或共享功能之一的数据时,执行单元608A至608N内的依赖性逻辑使等待线程休眠,直到所请求的数据已返回。当等待线程正在休眠时,硬件资源可能会专门用于处理其他线程。例如,在与顶点着色器操作相关联的延迟期间,执行单元可以执行像素着色器、片段着色器或包括不同顶点着色器的另一种类型的着色器程序的操作。
执行单元608A至608N中的每个执行单元在数据元素阵列上进行操作。数据元素的数量是“执行尺寸”、或指令的信道数。执行通道是执行数据元素访问、掩蔽、和指令内的流控制的逻辑单元。通道的数量可以与针对特定图形处理器的物理算术逻辑单元(ALU)或浮点单元(FPU)的数量无关。在一些实施例中,执行单元608A至608N支持整数和浮点数据类型。
执行单元指令集包括SIMD指令。各种数据元素可作为压缩数据类型存储在寄存器中,并且执行单元将基于元素的数据尺寸来处理各种元素。例如,当在256位宽的向量上进行操作时,所述256位的向量存储在寄存器中,并且所述执行单元作为四个单独64位压缩数据元素(四倍字长(QW)尺寸的数据元素)、八个单独32位压缩数据元素(双倍字长(DW)尺寸的数据元素)、十六个单独16位压缩数据元素(字长(W)尺寸的数据元素)、或三十二个单独8位数据元素(字节(B)尺寸的数据元素)在所述向量上进行操作。然而,不同的向量宽度和寄存器尺寸是可能的。
一个或多个内部指令高速缓存(例如,606)包括在所述线程执行逻辑600中以便高速缓存所述执行单元的线程指令。在一些实施例中,一个或多个数据高速缓存(例如,612)被包括用于高速缓存在线程执行过程中的线程数据。在一些实施例中,采样器610被包括用于为3D操作提供纹理采样并且为媒体操作提供媒体采样。在一些实施例中,采样器610包括专门的纹理或媒体采样功能,以便在向执行单元提供采样数据之前在采样过程中处理纹理或媒体数据。
在执行过程中,图形和媒体流水线经由线程生成和分派逻辑向线程执行逻辑600发送线程发起请求。一旦一组几何对象已经被处理并被光栅化成像素数据,则着色器处理器602内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)被调用以便进一步计算输出信息并且使得结果被写入到输出表面(例如,色彩缓冲器、深度缓冲器、模板印刷缓冲器等)。在一些实施例中,像素着色器或片段着色器计算各顶点属性的值,所述各顶点属性跨光栅化对象被内插。在一些实施例中,着色器处理器602内的像素处理器逻辑然后执行应用编程接口(API)供应的像素或片段着色器程序。为了执行着色器程序,着色器处理器602经由线程分派器604将线程分派至执行单元(例如,608A)。在一些实施例中,像素着色器602使用采样器610中的纹理采样逻辑来访问存储器中所存储的纹理图中的纹理数据。对纹理数据和输入几何数据的算术运算计算每个几何片段的像素颜色数据,或丢弃一个或多个像素而不进行进一步处理。
在一些实施例中,数据端口614提供存储器访问机制,供线程执行逻辑600将经处理的数据输出至存储器以便在图形处理器输出流水线上进行处理。在一些实施例中,数据端口614包括或耦合至一个或多个高速缓存存储器(例如,数据高速缓存612)从而经由数据端口高速缓存数据以供存储器访问。
图7是展示了根据一些实施例的图形处理器指令格式700的框图。在一个或多个实施例中,图形处理器执行单元支持具有多种格式的指令的指令集。实线框展示了通常包括在执行单元指令中的部件,而虚线包括可选的部件或仅包括在指令子集中的部件。在一些实施例中,所描述和展示的指令格式700是宏指令,因为它们是供应至执行单元的指令,这与从指令解码产生的微操作相反(一旦所述指令被处理)。
在一些实施例中,图形处理器执行单元原生地支持采用128位指令格式710的指令。64位紧凑指令格式730可用于基于所选指令、多个指令选项和操作数数量的一些指令。原生128位指令格式710提供对所有指令选项的访问,而一些选项和操作限制在64位格式730中。64位格式730中可用的原生指令根据实施例而不同。在一些实施例中,使用索引字段713中的一组索引值将指令部分地压缩。执行单元硬件基于索引值来参考一组压缩表,并使用压缩表输出来重构采用128位指令格式710的原生指令。
针对每种格式,指令操作码712限定执行单元要执行的操作。执行单元跨每个操作数的多个数据元素来并行地执行每条指令。例如,响应于添加指令,执行单元跨每个颜色通道执行同步添加操作,所述颜色通道表示纹理元素或图片元素。默认地,执行单元跨操作数的所有数据通道执行每条指令。在一些实施例中,指令控制字段714使能控制某些执行选项,诸如通道选择(例如,预测)以及数据通道排序(例如,混合)。针对采用128位指令格式710的指令,执行尺寸字段716限制了将并行执行的数据通道的数量。在一些实施例中,执行尺寸字段716不可用于64位紧凑指令格式730。
一些执行单元指令具有多达三个操作数,包括两个源操作数(src0 720、src1722)和一个目的地718。在一些实施例中,执行单元支持双目的地指令,其中这些目的地之一是隐式的。数据操作指令可以具有第三源操作数(例如,SRC2 724),其中,指令操作码712确定源操作数的数量。指令的最后的源操作数可以是利用所述指令传递的即时(例如,硬编码)值。
在一些实施例中,128位指令格式710包括访问/地址模式字段726,所述访问/地址模式信息例如限定了是使用直接寄存器寻址模式还是间接寄存器寻址模式。当使用直接寄存器寻址模式时,直接由指令中的位来提供一个或多个操作数的寄存器地址。
在一些实施例中,128位指令格式710包括访问/地址模式字段726,所述访问/地址模式字段指定指令的地址模式和/或访问模式。在一个实施例中,访问模式用于限定针对指令的数据访问对齐。一些实施例支持访问模式,包括16字节对齐访问模式和1字节对齐访问模式,其中,访问模式的字节对齐确定了指令操作数的访问对齐。例如,当在第一模式中时,指令可以使用字节对齐寻址以用于源操作数和目的地操作数,并且当在第二模式中时,指令可以使用16字节对齐寻址以用于所有的源操作数和目的地操作数。
在一个实施例中,访问/地址模式字段726的地址模式部分确定指令是使用直接寻址还是间接寻址。当使用直接寄存器寻址模式时,指令中的位直接提供一个或多个操作数的寄存器地址。当使用间接寄存器寻址模式时,可以基于指令中的地址寄存器值和地址立即数字段来计算一个或多个操作数的寄存器地址。
在一些实施例中,基于操作码712位字段对指令进行分组从而简化操作码解码740。针对8位的操作码,第4、5、和6位允许执行单元确定操作码的类型。所示出的精确操作码分组仅是示例性的。在一些实施例中,移动和逻辑操作码组742包括数据移动和逻辑指令(例如,移动(mov)、比较(cmp))。在一些实施例中,移动和逻辑组742共享五个最高有效位(MSB),其中移动(mov)指令采用0000xxxxb的形式,而逻辑指令采用0001xxxxb的形式。流控制指令组744(例如,调用(call)、跳(jmp))包括采用0010xxxxb形式(例如,0x20)的指令。混杂的指令组746包括指令的混合,包括采用0011xxxxb形式(例如,0x30)的同步指令(例如,等待(wait)、发送(send))。并行数学指令组748包括采用0100xxxxb形式(例如,0x40)的按分量的算术指令(例如,加(add)、乘(mul))。并行数学组748跨数据通道并行地执行算术运算。向量数学组750包括采用0101xxxxb形式(例如,0x50)的算术指令(例如,dp4)。向量数学组对向量操作数执行算术运算,诸如点积运算。
图形流水线
图8是图形处理器800的另一个实施例的框图。图8的具有与此处任何其他附图中的元件相同的参考号(或名称)的那些元件可采用与在本文中其他地方描述的方式相类似的任何方式进行操作或起作用,但不限于这些。
在一些实施例中,图形处理器800包括图形流水线820、媒体流水线830、显示引擎840、线程执行逻辑850、以及渲染输出流水线870。在一些实施例中,图形处理器800是包括一个或多个通用处理核的多核处理系统内的图形处理器。图形处理器受到至一个或多个控制寄存器(未示出)的寄存器写入的控制或者经由环形互连802经由发布至图形处理器800的命令被控制。在一些实施例中,环形互连802将图形处理器800耦合至其他处理部件,比如其他图形处理器或通用处理器。来自环形互连802的命令通过命令流转化器803被解译,所述命令流转化器将指令供应至图形流水线820或媒体流水线830的单独部件。
在一些实施例中,命令流转化器803引导顶点获取器805的操作,所述顶点获取器从存储器读取顶点数据并执行由命令流转化器803所提供的顶点处理命令。在一些实施例中,顶点获取器805将顶点数据提供给顶点着色器807,所述顶点着色器对每个顶点执行坐标空间变换和照明操作。在一些实施例中,顶点获取器805和顶点着色器807通过经由线程分派器831向执行单元852A至852B分派执行线程来执行顶点处理指令。
在一些实施例中,执行单元852A至852B是具有用于执行图形和媒体操作的指令集的向量处理器阵列。在一些实施例中,执行单元852A至852B具有附接的L1高速缓存851,所述高速缓存专用于每个阵列或在阵列之间共享。高速缓存可以被配置为数据高速缓存、指令高速缓存、或单个高速缓存,所述单个高速缓存被分区为包含不同分区中的数据和指令。
在一些实施例中,图形流水线820包括用于执行3D对象的硬件加速曲面细分的曲面细分部件。在一些实施例中,可编程的外壳着色器811配置曲面细分操作。可编程域着色器817提供对曲面细分输出的后端评估,其中曲面细分器813在外壳着色器811的方向上进行操作并且包含专用逻辑,所述专用逻辑用于基于粗糙几何模型来生成详细的几何对象集合,所述粗糙几何模型作为输入被提供至图形流水线820。在一些实施例中,如果未使用曲面细分,则可以对曲面细分部件(例如,外壳着色器811、曲面细分器813、域着色器817)进行旁路。
在一些实施例中,完整的几何对象可以由几何着色器819经由被分派至所述执行单元852A至852B的一个或多个线程来处理、或者可以直接行进至剪辑器829。在一些实施例中,几何着色器在整个几何对象(而非顶点或者如图形流水线的先前级中的顶点补片)上进行操作。如果禁用曲面细分,则几何着色器819从顶点着色器807接收输入。在一些实施例中,几何着色器819可由几何着色器程序编程以便在曲面细分单元被禁用时执行几何曲面细分。
在光栅化之前,剪辑器829处理顶点数据。剪辑器829可以是固定功能的剪辑器或者具有剪辑和几何着色器功能的可编程剪辑器。在一些实施例中,渲染输出流水线870中的光栅和深度测试部件873分派像素着色器以将几何对象转换成其每像素表示。在一些实施例中,像素着色器逻辑包括在线程执行逻辑850中。在一些实施例中,应用可对光栅和深度测试部件873进行旁路并且经由流出单元823访问未光栅化的顶点数据。
图形处理器800具有互连总线、互连结构、或某个其他的互连机制,所述互连机制允许数据和消息在所述图形处理器的主要部件之中传递。在一些实施例中,执行单元852A至852B和(多个)相关联的高速缓存851、纹理和媒体采样器854、以及纹理/采样器高速缓存858经由数据端口856进行互连,以便执行存储器访问并且与处理器的渲染输出流水线部件进行通信。在一些实施例中,采样器854、高速缓存851、858以及执行单元852A至852B各自具有单独的存储器访问路径。
在一些实施例中,渲染输出流水线870包含光栅和深度测试部件873,所述光栅和深度测试部件将基于顶点的对象转换为相关联的基于像素的表示。在一些实施例中,光栅化器逻辑包括用于执行固定功能三角形和线光栅化的窗口器/掩蔽器单元。相关联的渲染高速缓存878和深度高速缓存879在一些实施例中也是可用的。像素操作部件877对数据进行基于像素的操作,然而在一些实例中,与2D操作(例如,利用混合的位块图像传递)相关联的像素操作由2D引擎841执行、或者在显示时间由显示控制器843使用重叠显示平面来代替。在一些实施例中,共享的L3高速缓存875可用于所有的图形部件,从而允许在无需使用主系统存储器的情况下共享数据。
在一些实施例中,图形处理器媒体流水线830包括媒体引擎837和视频前端834。在一些实施例中,视频前端834从命令流转化器803接收流水线命令。在一些实施例中,媒体流水线830包括单独的命令流转化器。在一些实施例中,视频前端834在将所述命令发送至媒体引擎837之前处理媒体命令。在一些实施例中,媒体引擎837包括用于生成线程以用于经由线程分派器831分派至线程执行逻辑850的线程生成功能。
在一些实施例中,图形处理器800包括显示引擎840。在一些实施例中,显示引擎840在处理器800外部并且经由环形互连802、或某个其他互连总线或机构与图形处理器耦合。在一些实施例中,显示引擎840包括2D引擎841和显示控制器843。在一些实施例中,显示引擎840包含能够独立于3D流水线而操作的专用逻辑。在一些实施例中,显示控制器843与显示设备(未示出)耦合,所述显示设备可以是系统集成显示设备(如在膝上型计算机中)、或者经由显示设备连接器附接的外部显示设备。
在一些实施例中,图形流水线820和媒体流水线830可被配置成用于基于多个图形和媒体编程接口执行操作并且并非专用于任何一种应用编程接口(API)。在一些实施例中,图形处理器的驱动器软件将专用于特定图形或媒体库的API调度转换成可由图形处理器处理的命令。在一些实施例中,为全部来自Khronos Group的开放图形库(OpenGL)、开放计算语言(OpenCL)和/或Vulkan图形和计算API提供了支持。在一些实施例中,也可以为微软公司的Direct3D库提供支持。在一些实施例中,可以支持这些库的组合。还可以为开源计算机视觉库(OpenCV)提供支持。如果可做出从未来API的流水线到图形处理器的流水线的映射,则具有兼容3D流水线的未来API也将受到支持。
图形流水线编程
图9A是展示了根据一些实施例的图形处理器命令格式900的框图。图9B是展示了根据实施例的图形处理器命令序列910的框图。图9A中的实线框展示了通常包括在图形命令中的部件,而虚线包括是可选的或者仅包括在所述图形命令的子集中的部件。图9A的示例性图形处理器命令格式900包括用于标识命令的目标客户端902、命令操作代码(操作码)904、以及用于命令的相关数据906的数据字段。一些命令中还包括子操作码905和命令尺寸908。
在一些实施例中,客户端902限定了处理命令数据的图形设备的客户端单元。在一些实施例中,图形处理器命令解析器检查每个命令的客户端字段以便调整对命令的进一步处理并将命令数据路由至合适的客户端单元。在一些实施例中,图形处理器客户端单元包括存储器接口单元、渲染单元、2D单元、3D单元、和媒体单元。每个客户端单元具有对命令进行处理的相应处理流水线。一旦命令被客户端单元接收到,客户端单元就读取操作码904以及子操作码905(如果存在的话)从而确定要执行的操作。客户端单元使用数据字段906内的信息来执行命令。针对一些命令,期望显式地的命令尺寸908来限定命令的尺寸。在一些实施例中,命令解析器基于命令操作码自动地确定命令中的至少一些命令的尺寸。在一些实施例中,经由双倍字长的倍数对命令进行对齐。
图9B中的流程图示出了示例性图形处理器命令序列910。在一些实施例中,以图形处理器的实施例为特征的数据处理系统的软件或固件使用所示出的命令序列的版本来启动、执行并终止图形操作集合。仅出于示例性目的示出并描述了样本命令序列,如实施例并不限于这些特定命令或者此命令序列。而且,所述命令可以作为一批命令以命令序列被发布,从而使得图形处理器将以至少部分同时的方式处理命令序列。
在一些实施例中,图形处理器命令序列910可以以流水线转储清除命令912开始以便使得任一活跃图形流水线完成针对所述流水线的当前未决命令。在一些实施例中,3D流水线922和媒体流水线924不同时进行操作。执行流水线转储清除以使得活动图形流水线完成任何未决命令。响应于流水线转储清除,用于图形处理器的命令解析器将停止命令处理直到活跃绘画引擎完成未决操作并且使得相关的读高速缓存失效。可选地,渲染高速缓存中被标记为‘脏’的任何数据可以被转储清除到存储器中。在一些实施例中,流水线转储清除命令912可以用于流水线同步或者用在将图形处理器置于低功率状态之前。
在一些实施例中,当命令序列需要图形处理器在流水线之间显式地地切换时,使用流水线选择命令913。在一些实施例中,在发布流水线命令之前在执行情境中仅需要一次流水线选择命令913,除非所述情境要发布针对两条流水线的命令。在一些实施例中,在经由流水线选择命令913的流水线切换之前正好需要流水线转储清除命令912。
在一些实施例中,流水线控制命令914配置用于操作的图形流水线并且用于对3D流水线922和媒体流水线924进行编程。在一些实施例中,流水线控制命令914配置活跃流水线的流水线状态。在一个实施例中,流水线控制命令914用于流水线同步并且用于在处理一批命令之前清除来自活跃流水线内的一个或多个高速缓存存储器中的数据。
在一些实施例中,返回缓冲器状态命令916用于配置返回缓冲器的集合以供相应的流水线写入数据。一些流水线操作需要分配、选择、或配置一个或多个返回缓冲器,在处理过程中所述操作将中间数据写入所述一个或多个返回缓冲器中。在一些实施例中,图形处理器还使用一个或多个返回缓冲器以便存储输出数据并且执行跨线程通信。在一些实施例中,返回缓冲器状态916包括选择返回缓冲器的尺寸和数量以用于流水线操作集合。
命令序列中的剩余命令基于用于操作的活跃流水线而不同。基于流水线判定920,所述命令序列被定制用于以3D流水线状态930开始的3D流水线922、或者在媒体流水线状态940处开始的媒体流水线924。
用于3D流水线状态930的命令包括用于顶点缓冲器状态、顶点元素状态、常量颜色状态、深度缓冲器状态、以及有待在处理3D图元命令之前配置的其他状态变量的3D状态设置命令。这些命令的值至少部分地基于使用中的特定3D API来确定。在一些实施例中,3D流水线状态930命令还能够选择性地禁用或旁路掉特定流水线元件(如果将不使用那些元件的话)。
在一些实施例中,3D图元932命令用于提交待由3D流水线处理的3D图元。经由3D图元932命令传递给图形处理器的命令和相关联参数将被转发到所述图形流水线中的顶点获取功能。顶点获取功能使用3D图元932命令数据来生成多个顶点数据结构。所述顶点数据结构被存储在一个或多个返回缓冲器中。在一些实施例中,3D图元932命令用于经由顶点着色器对3D图元执行顶点操作。为了处理顶点着色器,3D流水线922将着色器执行线程分派至图形处理器执行单元。
在一些实施例中,经由执行934命令或事件触发3D流水线922。在一些实施例中,寄存器写入触发命令执行。在一些实施例中,经由命令序列中的‘前进’(‘go’)或‘拣选’(‘kick’)命令来触发执行。在一个实施例中,使用流水线同步命令来触发命令执行以便通过图形流水线转储清除命令序列。3D流水线将针对3D图元来执行几何处理。一旦完成操作,则对所产生的几何对象进行光栅化,并且像素引擎对所产生的像素进行着色。对于这些操作,还可以包括用于控制像素着色和像素后端操作的附加命令。
在一些实施例中,当执行媒体操作时,图形处理器命令序列910跟随在媒体流水线924路径之后。一般地,针对媒体流水线924进行编程的具体用途和方式取决于待执行的媒体或计算操作。在媒体解码过程中,特定的媒体解码操作可以被卸载到所述媒体流水线。在一些实施例中,还可对媒体流水线进行旁路,并且可使用由一个或多个通用处理核提供的资源来整体地或部分地执行媒体解码。在一个实施例中,媒体流水线还包括用于通用图形处理器单元(GPGPU)操作的元件,其中,所述图形处理器用于使用计算着色器程序来执行SIMD向量运算,所述计算着色器程序与渲染图形图元不是显式地相关的。
在一些实施例中,以与3D流水线922相似的方式对媒体流水线924进行配置。将用于配置媒体流水线状态940的一组命令分派或放置到命令队列中,在媒体对象命令942之前。在一些实施例中,媒体流水线状态命令940包括用于配置媒体流水线元件的数据,所述媒体流水线元件将用于处理媒体对象。这包括用于在媒体流水线内配置视频解码和视频编码逻辑的数据,诸如编码或解码格式。在一些实施例中,媒体流水线状态命令940还支持将一个或多个指针用于包含一批状态设置的“间接”状态元件。
在一些实施例中,媒体对象命令942将指针供应至媒体对象以用于由媒体流水线进行处理。媒体对象包括存储器缓冲器,所述存储器缓冲器包含待处理的视频数据。在一些实施例中,在发布媒体对象命令942之前,所有的媒体流水线状态必须是有效的。一旦流水线状态被配置并且媒体对象命令942被排队,则经由执行944命令或等效的执行事件(例如,寄存器写入)来触发媒体流水线924。然后可以通过由3D流水线922或媒体流水线924提供的操作对来自媒体流水线924的输出进行后处理。在一些实施例中,以与媒体操作类似的方式来配置和执行GPGPU操作。
图形软件架构
图10展示了根据一些实施例的数据处理系统1000的示例性图形软件架构。在一些实施例中,软件架构包括3D图形应用1010、操作系统1020、以及至少一个处理器1030。在一些实施例中,处理器1030包括图形处理器1032以及一个或多个通用处理器核1034。图形应用1010和操作系统1020各自在数据处理系统的系统存储器1050中执行。
在一些实施例中,3D图形应用1010包含一个或多个着色器程序,所述一个或多个着色器程序包括着色器指令1012。着色器语言指令可以采用高级着色器语言,诸如高级着色器语言(HLSL)或OpenGL着色器语言(GLSL)。所述应用还包括可执行指令1014,所述可执行指令采用适合用于由通用处理器核1034执行的机器语言。所述应用还包括由顶点数据限定的图形对象1016。
在一些实施例中,操作系统1020是来自微软公司的 操作系统、专用UNIX式操作系统、或使用Linux内核变体的开源UNIX式操作系统。操作系统1020可以支持图形API 1022,诸如Direct3D API、OpenGL API或Vulkan API。当Direct3D API正在使用时,操作系统1020使用前端着色器编译器1024以将HLSL中的任何着色器指令1012编译成较低级的着色器语言。所述编译可以是即时(JIT)编译,或者所述应用可执行着色器预编译。在一些实施例中,在对3D图形应用1010进行编译的过程中,将高级着色器编译成低级着色器。在一些实施例中,着色器指令1012以中间形式提供,诸如由Vulkan API使用的标准便携式中间表示(SPIR)的版本。
在一些实施例中,用户模式图形驱动器1026包含后端着色器编译器1027,所述后端着色器编译器用于将着色器指令1012转换成硬件专用的表示。当在使用OpenGL API时,将采用GLSL高级语言的着色器指令1012传递至用户模式图形驱动器1026以用于编译。在一些实施例中,用户模式图形驱动器1026使用操作系统内核模式功能1028来与内核模式图形驱动器1029进行通信。在一些实施例中,内核模式图形驱动器1029与图形处理器1032进行通信以便分派命令和指令。
IP核实现
至少一个实施例的一个或多个方面可以由存储在机器可读介质上的代表性代码实现,所述机器可读介质表示和/或限定集成电路诸如处理器内的逻辑。例如,机器可读介质可以包括表示处理器内的各个逻辑的指令。当由机器读取时,所述指令可以使机器制造用于执行本文所述的技术的逻辑。这类表示(称为“IP核”)是集成电路的逻辑的可重复使用单元,所述可重复使用单元可以作为对集成电路的结构进行描述的硬件模型而存储在有形、机器可读介质上。可以将硬件模型供应至在制造集成电路的制造机器上加载硬件模型的各消费者或制造设施。可以制造集成电路,从而使得电路执行与本文所述的实施例中的任一实施例相关联地描述的操作。
图11是展示了根据实施例的可以用于制造集成电路以执行操作的IP核开发系统1100的框图。IP核开发系统1100可以用于生成可并入到更大的设计中或用于构建整个集成电路(例如,SOC集成电路)的模块化、可重复使用设计。设计设施1130可采用高级编程语言(例如,C/C++)生成对IP核设计的软件仿真1110。软件仿真1110可用于使用仿真模型1112来设计、测试并验证IP核的行为。仿真模型1112可以包括功能、行为和/或时序仿真。然后可由仿真模型1112来创建或合成寄存器传输级(RTL)设计1115。RTL设计1115是对硬件寄存器之间的数字信号的流动进行建模的集成电路(包括使用建模的数字信号执行的相关联逻辑)的行为的抽象。除了RTL设计1115之外,还可以创建、设计或合成逻辑电平或晶体管电平处的较低层次设计。由此,初始设计和仿真的具体细节可以发生变化。
可以由设计设施将RTL设计1115或等效方案进一步合成为硬件模型1120,所述硬件模型可以采用硬件描述语言(HDL)或物理设计数据的某种其他表示。可以进一步仿真或测试HDL以验证IP核设计。可使用非易失性存储器1140(例如,硬盘、闪存、或任何非易失性存储介质)来存储IP核设计以用于递送至第3方制造设施1165。可替代地,可以通过有线连接1150或无线连接1160来传输(例如,经由互联网)IP核设计。制造设施1165然后可以制造至少部分地基于IP核设计的集成电路。所制造的集成电路可被配置用于执行根据本文所述的至少一个实施例的操作。
示例性芯片上系统集成电路
图12至图14展示了根据本文所述的各种实施例的可以使用一个或多个IP核来制造的示例性集成电路和相关图形处理器。除了所展示的之外,还可以包括其他逻辑和电路,包括附加的图形处理器/核、外围接口控制器或通用处理器核。
图12是展示了根据实施例的可以使用一个或多个IP核来制造的示例性芯片上系统集成电路1200的框图。示例性集成电路1200包括一个或多个应用处理器1205(例如,CPU)、至少一个图形处理器1210,并且另外还可以包括图像处理器1215和/或视频处理器1220,其中的任一项都可以是来自相同或多个不同设计设施的模块化IP核。集成电路1200包括外围或总线逻辑,包括USB控制器1225、UART控制器1230、SPI/SDIO控制器1235和I2S/I2C控制器1240。另外,集成电路还可以包括显示设备1245,所述显示设备耦合至高清晰度多媒体接口(HDMI)控制器1250和移动行业处理器接口(MIPI)显示界面1255中的一项或多项。可以由闪存子系统1260(包括闪存和闪存控制器)来提供存储。可以经由存储器控制器1265来提供存储器接口以访问SDRAM或SRAM存储器设备。另外,一些集成电路还包括嵌入式安全引擎1270。
图13是展示了根据实施例的可以使用一个或多个IP核来制造的芯片上系统集成电路的示例性图形处理器1310的框图。图形处理器1310可以是图12的图形处理器1210的变体。图形处理器1310包括顶点处理器1305和一个或多个片段处理器1315A至1315N(例如,1315A,1315B,1315C,1315D,一直到1315N-1和1315N)。图形处理器1310可以经由单独的逻辑执行不同的着色器程序,使得顶点处理器1305被优化以执行顶点着色器程序的操作,而一个或多个片段处理器1315A至1315N执行片段(例如,像素)着色操作以用于片段或像素着色器程序。顶点处理器1305执行3D图形流水线的顶点处理阶段并生成图元和顶点数据。(多个)片段处理器1315A至1315N使用由顶点处理器1305生成的图元和顶点数据来产生显示在显示设备上的帧缓冲器。在一个实施例中,(多个)片段处理器1315A至1315N被优化以执行OpenGL API中提供的片段着色器程序,这些片段着色器程序可以用于执行与Direct 3DAPI中提供的像素着色器程序相似的操作。
另外,图形处理器1310还包括一个或多个存储器管理单元(MMU)1320A至1320B、一个或多个高速缓存1325A至1325B和(多个)电路互连1330A至1330B。一个或多个MMU 1320A至1320B为集成电路1310包括为顶点处理器1305和/或一个或多个片段处理器1315A至1315N提供虚拟到物理地址映射,除了存储在一个或多个高速缓存1325A至1325B中的顶点或图像/纹理数据之外,所述虚拟到物理地址映射还可以引用存储在存储器中的顶点或图像/纹理数据。在一个实施例中,一个或多个MMU 1325A至1325B可以与系统内的其他MMU包括与图12的一个或多个应用处理器1205、图像处理器1215和/或视频处理器1220相关联的一个或多个MMU同步,使得每个处理器1205至1220可以参与共享或统一的虚拟存储器系统。根据实施例,一个或多个电路互连1330A至1330B使得图形处理器1310能够经由SoC的内部总线或经由直接连接来与SoC内的其他IP核交互。
图14是展示了根据实施例的可以使用一个或多个IP核来制造的芯片上系统集成电路的附加示例性图形处理器1410的框图。图形处理器1410可以是图12的图形处理器1210的变体。图形处理器1410包括图13的集成电路1300的一个或多个MMU 1320A至1320B、高速缓存1325A至1325B和电路互连1330A至1330B。
图形处理器1410包括一个或多个着色器核1415A至1415N(例如,1415A、1415B、1415C、1415D、1415E、1415F、一直到1415N-1和1415N),所述一个或多个着色器核提供统一的着色器核架构,其中单个核或类型或核可以执行所有类型的可编程着色器代码包括着色器程序代码以实现顶点着色器、片段着色器和/或计算着色器。存在的着色器核的确切数量可以在实施例和实现中变化。另外,图形处理器1410还包括核间任务管理器1405,所述核间任务管理器充当用于将执行线程分派给一个或多个着色器核1415A至1415N的线程分派器和用于加快分块操作以进行基于图块的渲染的分块单元1418,其中场景的渲染操作在图像空间中被细分,例如以利用场景内的本地空间一致性或优化内部高速缓存的使用。
图15展示了根据一个实施例的采用体验传递机制1510的计算装置1500。计算装置1500可以包括自主机器或人工智能代理,诸如,机械代理或机器、电子代理或机器、虚拟代理或机器、机电代理或机器等。自主机器或人工智能代理的示例可以包括(但不限于)机器人、自主运载工具(例如,自驾驶汽车、自驾驶飞机、自航船等)、自主设备(自操作的施工运载工具、自我操作的医疗设备等)等等。贯穿本文档,“计算装置”可以被互换地称为“自主机器”或“人工智能代理”或简称“机器人”。
计算装置1500可以进一步包括智能可穿戴装置、虚拟现实(VR)装置、头戴式显示器(HMD)、移动计算机、物联网(IoT)装置、膝上型计算机、台式计算机、服务器计算机等,并且与图1的数据处理系统100类似或相同;因此,为了简明、清晰和易于理解起见,此后不再进一步讨论或重复以上参照图1至图14所述的许多细节。如所展示的,在一个实施例中,计算装置1500被示出为托管体验传递机制1510。
如所展示的,在一个实施例中,体验传递机制1510可以由操作系统1506托管或是所述操作系统的一部分。在另一实施例中,体验传递机制1510可以由图形驱动器1516托管或是所述图形驱动器的一部分。在又一实施例中,体验传递机制1510可以由图形处理单元(“GPU”或“图形处理器”)1514的固件托管或者是所述固件的一部分。在又一实施例中,体验传递机制1510可以由中央处理单元(“CPU”或“应用处理器”)1512的固件托管或者是所述固件的一部分。在又一实施例中,体验传递机制1510可以由以上讨论的部件的任何组合托管或是所述任何组合的一部分,诸如,体验传递机制1500的一部分可以作为软件逻辑由图形驱动器1516托管,而体验传递机制1500的另一部分可以作为硬件部件由图形处理器1514托管。
为了简明、清晰和易于理解,贯穿本文档的其余部分,体验传递机制1510被示出和讨论为由操作系统1506托管;然而,实施例不限于此。构想了并将注意的是,体验传递机制1510或其部件中的一个或多个可以被实施为硬件、软件和/或固件。
贯穿本文档,术语“用户”可以被互换地称为“观看者”、“观察者”、“人”、“个人”、“终端用户”等。应当指出,贯穿本文档,如“图形域”等术语可以与“图形处理单元”、“图形处理器”或简称“GPU”互换地引用,并且类似地,“CPU域”或“主机域”可以与“计算机处理单元”、“应用处理器”或简称“CPU”互换地引用。
计算装置1500可以包括任何数量和类型的通信装置,诸如大型计算系统,诸如服务器计算机、台式计算机等,并且可以进一步包括机顶盒(例如,基于互联网的有线电视机顶盒等)、基于全球定位系统(GPS)的装置等。计算装置1500可以包括用作通信装置的移动计算装置,诸如包括智能手机的蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机、电子阅读器、智能电视、电视平台、可佩戴装置(例如,眼镜、手表、手环、智能卡、珠宝、衣物等)、媒体播放器等。例如,在一个实施例中,计算装置1500可以包括采用托管诸如片上系统(“SoC”或“SOC”)的集成电路(“IC”)的计算机平台的移动计算装置,其将计算装置1500的各种硬件和/或软件组件集成在单个芯片上。
如所展示的,在一个实施例中,计算装置1500可以包括任何数量和类型的硬件和/或软件部件,诸如(但不限于)GPU 1514、图形驱动器(也被称为“GPU驱动器”、“图形驱动器逻辑”、“驱动器逻辑”、用户模式驱动器(UMD)、UMD、用户模式驱动器框架(UMDF)、UMDF或简称为“驱动器”)1516、CPU 1512、存储器1508、网络装置、驱动器等等,以及输入/输出(I/O)源1504,诸如,触摸屏、触摸面板、触摸板、虚拟或常规键盘、虚拟或常规鼠标、端口、连接器等。计算装置1500可以包括充当计算装置1500的硬件和/或物理资源与用户之间的接口的操作系统(OS)1506。设想的是,CPU 1512可以包括一个或多个处理器,例如图1的(多个)处理器102,而GPU 1514可以包括一个或多个图形处理器,例如图1的(多个)图形处理器108。
应当指出,贯穿本文档,可以互换地使用如“节点”、“计算节点”、“服务器”、“服务器装置”、“云计算机”、“云服务器”、“云服务器计算机”、“机器”、“主机”“装置”、“计算装置”、“计算机”、“计算系统”等术语。应当进一步指出,贯穿本文档,可以互换地使用如“应用”、“软件应用”、“程序”、“软件程序”、“包”、“软件包”等术语。此外,贯穿本文档,可以互换地使用如“作业”、“输入”、“请求”、“消息”等术语。
可以设想,并且如参照图1至图14进一步描述的,如上所述的图形流水线的一些进程以软件实施,而其余的进程以硬件实施。图形流水线可以采用图形协处理器设计来实施,其中,CPU 1512被设计为用于与GPU 1514一起工作,所述GPU可以被包括在CPU 1512中或与其共同定位。在一个实施例中,GPU 1514可以使用用于执行与图形渲染相关的常规功能的任何数量和类型的常规软件和硬件逻辑、以及用于执行任何数量和类型的指令(比如图1的指令121)以执行如本文中所公开的体验传递机制1510的各种新颖功能的新颖软件和硬件逻辑。
如上所述,存储器1508可以包括随机存取存储器(RAM),所述RAM包括具有对象信息的应用数据库。诸如图1的存储器控制器中枢116等存储器控制器中枢可以访问RAM中的数据并且将其转发到GPU 1514以便进行图形流水线处理。RAM可以包括双数据速率RAM(DDRRAM)、扩展数据输出RAM(EDO RAM)等。如参照图3所展示的,CPU 1512与硬件图形流水线交互以共享图形流水线功能。经处理的数据被存储在硬件图形流水线的缓冲器中,并且状态信息被存储在存储器1508中。然后将所产生的图像传送到诸如显示部件(比如图3的显示装置320)等I/O源1504,以便显示图像。设想的是,显示设备可以是用于向用户显示信息的各种类型的显示设备,诸如阴极射线管(CRT)、薄膜晶体管(TFT)、液晶显示器(LCD)、有机发光二极管(OLED)阵列等。
存储器1508可以包括缓冲器(例如,帧缓冲器)的预分配区域;然而,本领域普通技术人员应当理解,实施例不限于此,并且可以使用低级图形流水线可访问的任何存储器。计算装置1500可以进一步包括如图1所引用的输入/输出(I/O)控制中枢(ICH)150、一个或多个I/O源1504等。
CPU 1512可以包括用于执行指令的一个或多个处理器,以便执行计算系统实施的任何软件例程。指令频繁地涉及对数据执行的某种操作。数据和指令两者都可以存储在系统存储器1508和任何相关联的高速缓存中。高速缓存通常被设计为具有比系统存储器1508更短的等待时间;例如,高速缓存可以被集成到与(多个)处理器相同的(多个)硅芯片上和/或用较快的静态RAM(SRAM)单元构造,而系统存储器1508可以用较慢的动态RAM(DRAM)单元构造。与系统存储器1508相反,通过倾向于将更频繁使用的指令和数据存储在高速缓存中,改善了计算设备1500的整体性能效率。设想的是,在一些实施例中,GPU 1514可以作为CPU1512的一部分(诸如物理CPU包的一部分)存在,在这种情况下,存储器1508可以由CPU 1512和GPU 1514共享或保持分开。
可以使系统存储器1508对计算设备1500内的其他部件可用。例如,从至计算设备1500的各种接口(例如键盘和鼠标、打印机端口、局域网(LAN)端口、调制解调器端口等)接收到的或从计算机设备1500的内部存储元件(例如,硬盘驱动器)检索到的任何数据(例如,输入图形数据)通常在它们由软件程序的实施方式中的一个或多个处理器操作之前临时排队进入系统存储器1508。类似地,软件程序确定应通过计算系统接口之一从计算设备1500发送到外部实体或存储到内部存储元件中的数据在其被传输或存储之前经常在系统存储器1508中临时排队。
此外,例如,诸如图1的ICH 130等ICH可以用于确保这样的数据在系统存储器1508与其适当对应的计算系统接口(和内部存储装置,如果计算系统是如此设计的话)之间被适当地传递,并且可以在其自身与所观察到的I/O源/装置1504之间具有双向点对点链路。类似地,诸如图1的MCH 116等MCH可以用于管理在CPU 1512和GPU 1514、接口以及可能相对于彼此在时间上接近出现的内部存储元件之中对于系统存储器1508访问的各种竞争请求。
I/O源1504可以包括一个或多个I/O设备,所述一个或多个I/O设备被实施为用于向或从计算设备1500(例如,网络适配器)传送数据;或者用于计算设备1500(例如,硬盘驱动器)内的大规模非易失性存储。包括字母数字及其他键的用户输入设备可以用于将信息和命令选择通信至GPU 1514。另一类型的用户输入设备是用于将方向信息和命令选择传达至GPU 1514并控制显示设备上的光标移动的光标控制设备,如鼠标、轨迹球、触摸屏、触摸板或光标方向键。可以采用计算机设备1500的相机和麦克风阵列来观察姿势、记录音频和视频并接收和发射视觉命令和音频命令。
计算装置1500可以进一步包括(多个)网络接口以提供对网络的访问,诸如,LAN、广域网(WAN)、城域网(MAN)、个人局域网(PAN)、蓝牙、云网络、移动网络(例如,第3代(3G)、第4代(4G)等)、内联网、互联网等。(多个)网络接口可以包括例如具有天线的无线网络接口,所述无线网络接口可以表示一个或多个天线。(多个)网络接口还可以包括例如通过网络电缆与远程装置通信的有线网络接口,所述网络电缆可以是例如以太网电缆、同轴电缆、光缆、串行电缆或并行电缆。
(多个)网络接口可例如通过遵循IEEE 802.11b和/或IEEE 802.11g标准来提供对LAN的访问,并且/或者无线网络接口可以例如通过遵循蓝牙标准来提供对个域网的访问。还可以支持其他无线网络接口和/或协议,包括所述标准的先前版本以及后续版本。除了或代替经由无线LAN标准的通信,(多个)网络接口可以使用例如以下协议来提供无线通信:时分多址(TDMA)协议、全球移动通信系统(GSM)协议、码分多址(CDMA)协议和/或任何其他类型的无线通信协议。
(多个)网络接口可以包括一个或多个通信接口,如调制解调器、网络接口卡或其他众所周知的接口设备,如用于为了提供通信链路以支持例如LAN或WAN而耦合至以太网、令牌环或其他类型的物理有线或无线附连的那些通信接口。以此方式,计算机系统还可以经由常规的网络基础设施(例如,包括内联网或互联网)耦合至一定数量的外围设备、客户端、控制面、控制台或服务器。
应当理解,对于某些实施方式,比在上文中所描述的示例更少或更多地配备的系统可以是优选的。因此,取决于众多因素(诸如,价格约束、性能要求、技术改进或其他情况)计算装置1500的配置可以因实现方式不同而改变。电子设备或计算机系统1500的示例可以包括(但不限于):人工智能代理(例如,机器人)、移动设备、个人数字助理、移动计算设备、智能电话、蜂窝电话、手持设备、单向寻呼机、双向寻呼机、消息收发设备、计算机、个人计算机(PC)、台式计算机、膝上型计算机、笔记本计算机、手持式计算机、平板计算机、服务器、服务器阵列或服务器场、web服务器、网络服务器、互联网服务器、工作站、小型计算机、大型计算机、超级计算机、网络设备、web设备、分布式计算系统、多处理器系统、基于处理器的系统、消费电子设备、可编程消费电子设备、电视、数字电视、机顶盒、无线接入点、基站、订户站、移动订户中心、无线电网络控制器、路由器、集线器、网关、桥接器、交换机、机器或上述各项的组合。
实施例可以被实施为以下各项中的任何一项或其组合:使用母板互连的一个或多个微芯片或集成电路、硬连线逻辑、由存储器设备存储且由微处理器执行的软件、固件、专用集成电路(ASIC)和/或现场可编程门阵列(FPGA)。以示例的方式,术语“逻辑”可以包括软件或硬件和/或软件和硬件的组合。
实施例可以被提供为例如计算机程序产品,所述计算机程序产品可以包括其上存储有机器可执行指令的一种或多种机器可读介质,所述机器可执行指令在由一个或多个机器(比如计算机、计算机网络或其他电子装置)执行时可以导致所述一个或多个机器执行根据在本文中所描述的实施例的操作。机器可读介质可以包括但不限于:软盘、光盘、CD-ROM(CD盘-只读存储器)以及磁光盘、ROM、RAM、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或者适合于存储机器可执行指令的其他类型的介质/机器可读介质。
此外,实施例可以作为计算机程序产品被下载,其中,可以经由通信链路(例如,调制解调器和/或网络连接),借助于在载波或其他传播介质中具体化和/或由载波或其他传播介质调制的一个或多个数据信号来将程序从远程计算机(例如,服务器)传递至请求计算机(例如,客户机)。
图16A展示了根据一个实施例的图15的体验传递机制1510。为了简明起见,此后不再重复或讨论已经参照图1至图15讨论的细节中的许多细节。在一个实施例中,体验传递机制1510可以包括任何数量和类型的组件,如(但不限于):检测/收集逻辑1601;行为捕获/评估逻辑(“行为逻辑”)1603;学习/训练逻辑1605;传递/执行逻辑1607;通信/兼容性逻辑1609;以及集成逻辑1611。
计算装置1500(例如,自主机器,诸如机器人、运载工具等)进一步被示出为与一个或多个储存库、数据集和/或比如(多个)数据库1630等数据库(例如,云存储装置、非云存储装置等)进行通信,其中,(多个)数据库1630可以通过比如一个或多个网络(例如,云网络、接近度网络、移动网络、内联网、互联网等)等(多个)通信介质1625驻留在本地存储装置或远程存储装置处。
设想的是,在计算装置1500处运行的软件应用可以负责使用计算装置1500的一个或多个组件(例如,GPU 1514、图形驱动器1516、CPU 1512等)来执行或促进执行任何数量和类型的任务。当执行这类任务时,如由软件应用所限定的,比如GPU 1514、图形驱动器1516、CPU 1512等一个或多个组件可以与彼此通信以确保准确且及时的处理和完成那些任务。
通常,人类计划、决策以及行为取决于信息输入,诸如人类通过一种或多种感觉(例如,视觉,触觉,品味等)所接受的和/或通过一段时间的体验所了解的信息。例如,关于特定任务,如果可以记录关于人类以及个人所采取的所有动作的所有信息输入,则将预期可以确定关于此人的整个计划策略。
实施例提供了一种新颖技术,如通过体验传递机制1510所促进的,用于允许在自主机器1500处神经网络模型的训练包含人类知识和策略搜索过程以在人类位置中进行此任务。例如,在一个实施例中,这种新颖技术提供了以下正确定义:相关信息如何在检测/收集逻辑1601的促进之下收集并由行为捕获/评估逻辑1603评估;神经模型如何在学习/训练逻辑1605的促进之下训练;以及这些模型如何在训练/执行逻辑1607的促进之下应用于机器人控制中。
在一个实施例中,体验传递机制1510提供了对正确类型和量的信息的收集,然后准确地确定相应的动作。如所展示的,在一些实施例中,提供集成系统1650以允许多个子系统的集成,诸如可穿戴外骨骼感测子系统(“外骨骼子系统”)1640和表达捕获子系统(“表达子系统”)1645,用于对相关信息进行采样,其中,由集成逻辑1611促进此集成,并且子系统1640和1645之间的以及与体验传递机制1510的任何通信都是由通信/兼容性逻辑1609促进的。
如关于图16B进一步展示的,集成系统1650可以包括诸如连接到外骨骼子系统1640或由其托管的传感器等多个传感器、以及诸如传感器信号筛选和存储系统等其他组件,以用作输入/输出组件1641来感测和捕获与用户1660相关的如所需或可能多的信息。设想的是,外骨骼子系统1640可以是可穿戴的,并且因此能够被直接布置在用户1660的一个或多个身体部位上,诸如头部、手部、手臂、整个身体等。传感器数据可以是双重的,诸如用于动作计划的输入信息以及这些动作的结果,其中,此传感器数据可以与时间戳对齐地记录以揭示背景计划策略等。
常规地,很难直接地在输入数据与输出动作之间建立神经模型,因为某些数据是无法直接从身体的生物信号中重新编码的,除了比如来自相同来源的传感器数据以及这些动作的结果等某些其他数据。
在一个实施例中,体验传递机制1510包括学习/训练逻辑1605,用于在搜索框架中训练神经网络模型,以便根据当前传感器输入和先前动作结果来搜索最佳动作。实施例不仅提供了描述一般系统设计框架,而且还将其具体化在人类-机器人情感和物理交互任务中。
与信息产业的其他部分一样,机器人也依赖于基于预期输入对机器人任务进行编程,例如用于基于通过一个或多个I/O源1504接收的输入针对计算装置或自主机器1500(例如,机器人)的编程任务。这种编程专业知识需要大量的编程以及复杂的机器指令序列来利用人类体验对机器进行编程。此外,诸如伺服系统、机器人臂等常规技术严格限于特定任务、回放模式、需要标记数据等,并且不能提供超出现有传感器的智能任务计划等。
例如,在示教式编程(lead through programming)中,用户必须操作机器人身体来执行任务。此外,在示教式编程中,当用户操作机器人身体并重复动作序列或根据位置序列等计算动作序列时等,任何动作序列(例如,机器人控制命令输出(RCo[])或位置序列(例如,RCo[]的结果)都被记录下来,这导致了复杂性和不准确性。此外,示教式为了重复而记录一些数据点。
实施例提供了允许机器人1500使用神经网络技术来通过示例学习,如由集成系统1650和体验传递机制1510的工作促进的,而不必编程或需要任何计算机语言或编程专家。此外,在一个实施例中,用户不需要直接操作机器人,诸如自主机器1500;相反,当他们的行为被外骨骼子系统1640的I/O组件1641的相机和/或环境中的其他相机捕获时,他们自己执行任务。
在一个实施例中,人类行为(诸如用户1660的行为)由外骨骼子系统1640和I/O组件1641的相机记录以累积大型数据库并训练复杂的神经网络模型,同时任何机器人动作序列都是利用机器人传感器输入(RSi)和用于机器人动作结果(RSa)的机器人传感器输入作为输入信息在线生成的。此外,在一个实施例中,基于当前传感器输入生成动作以与环境交互而不是仅重复已记录的序列。例如,当RSi和/或RSa从一个交互任务改变到另一个时,诸如自主机器1500等机器人可以改变其动作以进行更好的交互。在一个实施例中,大量数据通过一个或多个I/O源1504(例如,相机等)并且如由检测/收集逻辑1601所促进的那样被收集,此数据然后用于如由学习/训练逻辑1605所促进的那样训练神经网络模型,随后,如由传递/执行逻辑1607所促进的那样在强化学习框架中应用经训练的模型,以便在线生成动作。
通信/兼容性逻辑1609可以用于促进计算装置/自主机器1500与任何数量和类型的以下各项之间的动态通信和兼容性,同时确保与不断变化的技术、参数、协议、标准等的兼容性:其他计算装置(比如,移动计算装置、台式计算机、服务器计算装置等);处理装置或组件(比如CPU、GPU等);采集/感测/检测装置(如包括相机、深度感测相机、相机传感器、红绿蓝(“RGB”或“rgb”)传感器、麦克风等的采集/感测组件);显示装置(比如输出组件,包括显示屏、显示区域、显示投影仪等);用户/情境感知组件和/或标识/验证传感器/装置(比如生物特征传感器/检测器、扫描仪等);(多个)数据库1630,比如存储器或存储装置、数据库和/或数据源(比如数据存储装置、硬盘驱动器、固态驱动器、硬盘、存储器卡或装置、存储器电路等);(多个)通信介质1625,比如一个或多个通信信道或网络(例如,云网络、互联网、内联网、蜂窝网络、接近度网络,比如蓝牙、低功耗蓝牙(BLE)、智能蓝牙、Wi-Fi接近度、射频识别(RFID)、近场通信(NFC)、体域网(BAN)等);无线或有线通信和相关协议(例如,WiMAX、以太网等);连接性和位置管理技术;软件应用/网站(例如,社交和/或商业网络网站等、商业应用、游戏和其他娱乐应用等);以及编程语言等。
贯穿本文档,如“逻辑”、“组件”、“模块”、“框架”、“引擎”、“机制”等术语可以互换地引用,并且例如包括软件、硬件、和/或软件与硬件的任何组合(比如固件)。在一个示例中,“逻辑”可以指代或包括能够与诸如计算装置1500等计算装置等操作系统(例如,操作系统1506)、图形驱动器(例如,图形驱动器1516)等中的一个或多个一起工作的软件组件。在另一示例中,“逻辑”可以指代或包括能够与如计算装置1500等计算装置的一个或多个系统硬件元件——如应用处理器(例如,CPU 1512)、图形处理器(例如,GPU 1514)等——一起或作为其一部分物理地安装的硬件组件。在又另一实施例中,“逻辑”可以指代或包括能够作为如计算装置1500等计算装置的系统固件——如应用处理器(例如,CPU 1512)或图形处理器(例如,GPU 1514)等的固件——的一部分的固件组件。
进一步地,对特定商标、词语、术语、短语、名称和/或首字母缩略词——诸如如“GPU”、“GPU域”、“GPGPU”、“CPU”、“CPU域”、“图形驱动器”、“工作负荷”、“应用”“图形流水线”、“流水线过程”、“机器人”、“欧拉”、“角度”、“训练”、“回归”、“相机”、“人类体验”“体验传递”、“外骨骼传感器子系统”、“表达捕获子系统”、“集成系统”、“神经网络”、“卷积神经网络”、“CNN”、“执行单元”、“EU”、“指令”“自主机器”、“人工智能代理”、“机器人”、“自主运载工具”、“自主设备”、“API”、“3D API”、 “硬件”、“软件”、“代理”、“图形驱动器”、“内核模式图形驱动器”、“用户模式驱动器”、“用户模式驱动器架构”、“缓冲器”、“图形缓冲器”、“任务”、“进程”、“操作”、“软件应用”、“游戏”等——的任何使用都不应被解读为将实施例限制于在产品中或在本文档之外的文献中携带所述标记的软件或装置。
设想的是,任何数量和类型的组件可以被添加到体验传递机制1510和/或从存储器布局机制中去除,以便促进各个实施例,包括添加、去除、和/或增强某些特征。为了体验传递机制1510的简洁、清楚和易于理解起见,此处未示出或讨论许多标准和/或已知组件,如计算装置的组件。设想的是,如本文所述的实施例不限于任何特定技术、拓扑、系统、架构、和/或标准,并且动态到足以采用和适应任何未来变化。
图16B展示了根据一个实施例的采用图15的体验传递机制1510的架构布置1670。为了简明起见,此后可以不讨论或重复之前参照图1至图16A所讨论的细节中的许多细节。此外,实施例不限于任何特定数量、类型的组件、组件的设置或(诸如架构布置1670的)布置。
如所展示的,机器人1500可以通过网络(诸如图16A的通信介质1625)通信地耦合到具有外骨骼子系统(诸如图16A的外骨骼子系统1640)的集成系统1650,所述外骨骼子系统与表达捕获子系统集成(诸如图16A的表达子系统1645),其中,所述集成系统1650用于机器人(诸如机器人1500)的数据收集。例如,集成系统1650的外骨骼子系统被示出为具有与机器人1500的任何数量和类型的传感器1671A、1671B、1671C和关节以及相机传感器相对应或映射到其的任何数量和类型的传感器1681A、1861B、1681C和关节以及相机系统1675的相机传感器1673。此外,例如,架构布置1670可以包括任何数量和类型的组件,诸如具有一个或多个相机传感器的相机系统1675,其是集成系统1650的一部分或由所述集成系统托管,用于捕获人类动作和表达。类似地,架构布置1670可以进一步可以包括显示设备/屏幕1680,用于显示在集成系统1650与机器人1500之间传达的相关信息。
如进一步所展示的,机器人1500可以包含图15的I/O源1504的任何数量和类型的传感器(例如,相机传感器1673、用于动作的传感器组1671A、1671B、1671C等)以执行涉及感测、检测和收集与对象、动作、移动相关联的数据的多个任务。
类似地,如所展示的,集成系统1650可以托管其自身的一定数量和类型的传感器(诸如用于动作的传感器组1681A、1681B、1681C),以感测用户动作,并且如参照图15的体验传递机制1510进一步描述的,其中,如分别由图16A的行为逻辑1603、学习/训练逻辑1605和传递/执行逻辑1607促进的,可以针对用户行为评估这些动作,然后将这些动作用于训练神经模型,并且随后应用于机器人1500,使得机器人1500可以使用所传递的体验来像人类一样表现和动作。
此外,在一个实施例中,集成系统1650可用于记录用于任务计划的外骨骼传感器输入(ESi)和用于动作结果的动作外骨骼传感器输入(ESa)以及用于人类表达的视觉传感器输入,并且成功地以适当的格式将它们存储起来,在那里,此集成系统1650用于收集用来控制机器人1500的数据。例如,安装在机器人1500上或由所述机器人托管的传感器1671A-C、1673与由集成系统1650托管的这些传感器1681A-C可能并不完全相同。如果完全相同,则ESi=RSi;如果它们不完全相同或并未以精确的对应关系安装,则它们ESi=f(RSi),其中f是简单的仿射映射函数,并且RSi=f-1(ESi)。例如,机器人1500和集成系统1650的外骨骼子系统可以在它们的胸部上安装有声音传感器,由于声音源的不同位置,这些声音传感器所感测到的声音可能不完全相同,具有一点变换ESi=f(RSi),假设由于同一声音源ESi=RSi。
在一些实施例中,诸如当涉及某些任务时,不可以忽略ESi与RSi之间的任何变换,其中,RSi可以在图15的I/O源1504的显示屏1680处被远程呈现或显示给用户,诸如图16A的用户1660,并且强制人类感测输入(HSi)=ESi=RSi。一个很好的示例可以是机器人1500的视觉视图,诸如当机器人1500不是人形的并且安装有多个相机时,其中,使用显示屏1680(例如,视觉现实系统),机器人视图可以作为视觉现实远程呈现或者显示给用户以用于人类计划。
此外,机器人1500和集成系统1650的外骨骼子系统可以具有不同的自由度(DOF),其中,DOF可以对应为1对1或n对1/1对n。例如,外骨骼子系统中的每个关节(例如,膝盖、肘部、手腕等)可以具有传感器1681A-C以检测各种动作,诸如当对应为1对1时,ESa=RSa,而当对应为n到1/1到n时,ESa=g(RSa)或RSa=g-1(ESa),其中g指仿射映射函数。对于未直接映射到人类关节的其他可移动组件,可以安装类似的动作结果传感器以检测动作结果;例如,如果机器人是轮式机器人,它可以在人类外骨骼子系统可能无法模仿的轮子上移动。在这种情况下,身体IMU可以安装在用户身体上以供机器人1500以及集成系统1650的外骨骼子系统检测移动结果。
设想的是,人类表达是复杂的并且可能不容易像关节移动那样被感测,并且机器人表达可以使用与人类不同的方案。因此,在一个实施例中,相机系统1675可以安装在接近环境中或安装在集成系统1650的外骨骼子系统上,以帮助捕获用户的人脸表情,同时使用编码方案将这些人类表达编码为代码,随后,使用这些代码来驱动机器人1500以解码类似的表达。此外,通过采用此表达编码和解码系统,可以假设用于动作结果的当前人类感测输入(HSa)=ESa=RSa=RCo等于表达代码,如下:
时间戳 | ESi | ESa |
T0 | ESi[0] | ESa[0] |
T1 | ESi[1] | ESa[1] |
T2 | ESi[2] | ESa[2] |
图17展示了根据一个实施例的具有用于控制机器人的直接编程方法的常规事务序列1700。如所展示的,机器人控制流程包括多个事务序列,其中人工智能(AI)算法1705被示出为使用机器人的传感器来对环境以及任务的任何相关机器人信息(例如,RSi)进行采样,使得此信息RSi由用于决策的传感器1703馈入控制算法1705,以计算控制命令序列(例如,RCo),这些控制命令序列然后在框1707处被提供给由AI控制的机器人。机器人在框1709处将这些控制命令执行为动作,并且然后在框1711处生成对环境及其自身的结果,其中,这些动作结果由机器人传感器感测到并发送给控制算法1705以生成进一步的控制命令。设想的是,框1709的任务相关结果信息对应于框1701的用于计划的任务相关信息。对于设计良好的机器人,当给出机器人的机械参数和驾驶模型时,可以根据RCo来计算RSa,并且在大多数情况下,RSa=RCo;例如,动作命令向东移动,并且动作序列也向东移动。应当注意的是如何使用RSi和RSa来计算下一个RCo。
图18展示了根据一个实施例的采用具有人机回圈的机器人控制系统的事务序列1800。为了简洁起见,此后可以不讨论或重复之前参照图1至图17讨论的细节中的许多细节。事务序列1800可以由处理逻辑执行,所述处理逻辑可以包括如由图15的体验传递机制1510促进的硬件(例如,电路系统、专用逻辑、可编程逻辑等)、软件(诸如,在处理装置上运行的指令)或其组合。为了简洁和清晰的呈现,事务序列1800的过程以线性顺序来展示;然而,设想的是,可以并行地、异步地、或以不同顺序执行任何数量的过程。
常规机器人直接编程方法(如关于图17所展示的)与如由图15的体验传递机制1510所促进的、如从人类行为中获得的自主机器(例如,机器人)学习能力的新颖技术之间的区别之一是:在常规机器人直接编程方法中,领域专家和软件程序员必须基于如关于图17所展示的人类背景知识来根据RSi和RSa计算RCo。此外,在常规技术中,要求这些专家将他们的知识以及他们对应用的理解转换为指令序列以控制机器人,这是低效的、消耗资源的并且容易出错的。
相反,图18提供了一种新颖技术,用于使得自主机器能够从人类行为中并基于人类行为来学习指令序列。普通人类——不是编程专家等——通过演示他们自己的行为来执行他们的意图,并且然后自主机器训练它们的神经网络模型,并在预先定义的应用框架中应用这些模型来利用与人类意图相同的意图来模仿人类行为。
如所展示的,图18提供了事务序列1800,其基于以下各项中的一项或多项(但不限于)来提供具有人机回圈的自主机器控制系统:为任务而提供的人类感测输入(HSi);与人类移动相关的人类控制命令(HCo)用于由视觉系统结合诸如图16A的集成系统1650等集成系统所捕获的外骨骼和人类表达;用于动作结果的人类感测输入(Has);用于任务计划的ESi;用于动作结果的ESa和用于人类表达的视觉传感器输入;RSi;RCo;以及用于机器人动作结果的RSa。
在所展示的实施例中,事务序列1800示出了具有人机回圈的机器人控制系统,其中,外骨骼子系统1640捕获用户(人类)的人类动作,其中,外骨骼子系统1640与视觉表达捕获系统集成或耦合,所述视觉表达捕获系统安装在用户身体上的外骨骼上或安装在接近环境中或佩戴在用户头部上以用于捕获情感表达。例如,对于目标任务,人类1660可以通过他们的一个或多个感觉或感觉器官(诸如眼睛、耳朵、舌头、手指、鼻子等)来感测环境信息(例如,HSi),并且然后,基于此环境信息,人类1660采取生成期望结果并表达情感的动作。人类感觉器官也能够感测帮助人类1660的动作的结果(例如,HSa),以基于感测到的结果来调整他们的移动和表达。
在一个实施例中,具有工业传感器的外骨骼子系统1640以及视觉捕获系统用于记录任何任务相关输入(例如,ESi)、以及人类表达和动作(例如,ESa)。如所展示的,ESi和ESa分别通过用于计划的传感器1807和用于动作副作用的传感器1809而被存储在数据库1630中,其中,ESi是从由人类1660感测的(作为HSi)的用于计划的任务相关信息1801中获得的或与之相关,而ESa是从由人类1660感测的(作为HSa的)任务相关结果信息1803中获得的或与之相关。此外,来自外骨骼传感器和表达捕获的数据被存储在数据库1630中,其中每个采样区间上的时间戳都是根据任务选择或确定的。
ESi与ESa之间的关系包含用于目标任务的人类知识,并且在一个实施例中,如由图16A的学习/训练逻辑1605促进的,神经网络训练器1815用于训练神经网络以提取ESi和ESa背后的任何知识,然后使用所提取的知识来帮助根据RSi和RSa计算RCo,其中,RSi是通过用于决策的传感器1811获得的并且接着被传达到AI算法1817,而RSa是通过用于动作副作用的传感器1813获得的并且接着被传达到AI算法1817,其中,RSi和RSa用于计算RCo。在一个实施例中,然后可以通过AI算法1817将RCo传达到自主机器1500(诸如由AI控制的机器人),从而导致与任务相关结果信息1805相关联的动作。
由于人类表达是复杂的并且不像关节移动那样容易被感测,因此在一个实施例中,可以将诸如图16B的相机系统1675等相机系统安装在环境中或者安装到外骨骼子系统上,以便例如捕获人类1660的面部表情,同时使用编码方案将任何人类表达编码为代码,使得这些代码然后可用于驱动自主机器/机器人1500来解码类似表达。
例如,返回参考事务序列1800的各过程和组件,用于决策的传感器1811可以用作与用于计划的传感器1807类似的目的;然而,用于决策的传感器1811可包括安装在机器人1500的身体上的一组传感器。例如,用于决策的传感器1811可以指安装在机器人1500的头部的RealSenseTM相机的传感器。如所展示的,机器人1500是自主机器,其例如由AI算法1817生成的RCo所控制。此外,用于动作副作用的传感器1813可以包括一组传感器以捕获机器人1500的身体移动以及环境中的任何工具和对象移动序列,其中,例如,用于动作副作用的传感器1813可以包括机器人部件和关节中的运动传感器。
在一个实施例中,任务相关结果信息1805可以类似于任务相关结果信息1803,其中,两者都表示机器人1500采取动作所处的整体环境。在所展示的实施例中,AI算法1817可以应用于强化学习框架中的神经网络模型,以便根据RSi和RSa来生成机器人控制信号RCo。如所展示的,神经网络训练器1815可用于训练神经网络模型,如贯穿本文档所描述的。如进一步所展示的,神经网络训练器1815从具有按时间顺序存储的ESi和ESa数据的数据库1630接收数据。
在所展示的实施例中,用于计划的任务相关信息1801包括用于任务计划的任务相关环境输入信息,其中,例如,行为目标(诸如人类表达)、以及人类1660的身体姿势可以是用于交互(诸如教导者与他人的互动)的任务相关输入信息。类似地,任务相关结果信息1803可以包括任务相关环境输出信息,其中,人类表达(诸如,教导者的表达)、身体姿势和环境改变(诸如沙发、桌子、杯子、门、移动等)是来自人类1660的人类交互(诸如教导者的交互)的任务相关输出信息。
在一个实施例中,人类1660可以包括任何数量和类型的人、用户等。例如,人类1660可以是具有所限定的职业、性别等的人,诸如,女性教导者,以便准确地观察和计算各种行为,从而使得然后这些行为可以用于通过神经网络训练器1815来训练神经模型,并且随后,任何相关体验被传递到机器人1500上。例如,身为女性教导者的人类1660可以观察对象的表达和姿势,并且然后采取合理的动作(HCo)来与对象进行交互,同时观察她自己的动作以及这些动作的结果(HSa),然后能够如期望的或必要的调整她的动作。
由于常规技术并不提供准确记录人类1660的所有输入和输出,因此可以使用用于计划的传感器1807、外骨骼子系统1640以及用于动作副作用的传感器1809中的一个或多个来捕获如在用于计划的任务相关信息1801和任务相关结果信息1803中所提供的必要信息。如上所述,用于计划的传感器1807可以包括RealSenseTM相机或安装在外骨骼子系统1640上或由其托管的以及在环境中的其他相机以捕获对象的表达和姿势,而用于计划的传感器1807生成ESi。例如,外骨骼子系统1640可用于捕获女性教导者的移动和姿势,而用于动作副作用的传感器1809可包括安装在外骨骼子系统1640上或由其托管的传感器和/或环境中的相机以捕获教导者的移动和表情以及她周围的工具移动,其中用于动作副作用的传感器1809可用于生成ESa。
图19展示了根据一个实施例的用于将人类交互技能传递到自主机器的人类行为交互的自主机器学习平台1900。为了简洁起见,此后可以不讨论或重复先前参照图1至图18讨论的细节中的许多细节。实施例不限于任何特定数量和类型的组件或过程以及它们的设置、布置或平台(诸如平台1900)。与平台1900相关联的任何处理都可以由处理逻辑执行,所述处理逻辑可以包括如由图15的体验传递机制1510促进的硬件(如电路系统、专用逻辑、可编程逻辑等)、软件(如在处理装置上运行的指令)或其组合。为了简洁和清晰的呈现,与平台1900相关联的过程以线性顺序来展示;然而,设想的是,可以并行地、异步地、或以不同顺序执行任何数量的过程。
在所展示的实施例中,平台1900提供了用于交互的三个子平台,诸如人类演示1901、学习平台1903和机器人习得行为1905。如本文所展示并且参照图18和本文档中的其他地方所讨论的,人类演示1901可以包括两个人类,诸如行为教导者1911和行为目标1913A。在一个实施例中,行为教导者1911被示出为通过一个或多个传感器或相机(诸如RealSenseTM相机等)来接收或感测输入。响应于并且关于行为目标1913A,通过外骨骼子系统、表达捕获子系统、运动传感器、运动标记等中的一个或多个来捕获任何数量和类型的行为模式。
在一个实施例中,平台1900继续到另一子平台上,诸如学习平台1903,其中,此学习平台1903基于来自用于人类演示的较早的子平台1901的输入和行为,提供用于收集输入,诸如人类感知到什么以及人类如何行为等。在一个实施例中,学习平台1903处的发现可用于基于习得信息来训练与自主机器(例如,机器人)相关的一个或多个神经模型,并且进而,人类体验被传递到自主机器上。
继续该过程,平台1900前进到另一子平台,如机器人习得行为1905,其中,自主机器的行为被使得模仿或反映人类1911和1913A的习得行为。例如,当与行为模型1913B(其与行为模型1913A相同或类似)进行应对或通信时,自主机器的行为模型1915可以与行为教导者1911的行为模型相同或类似。换言之,在一个实施例中,在类似的情况下,可以训练诸如机器人等自主机器来以与其行为特性过去被用于训练自主机器的人类相同或类似的方式采取行为。在所展示的实施例中,提供相同的输入来生成行为模型1915,以提供与行为目标1913B相关的期望输出。
图20展示了根据一个实施例的神经网络模型2000。为了简洁起见,此后可以不讨论或重复先前参照图1至图19讨论的细节中的许多细节。与神经网络模型2000相关的任何过程都可以由处理逻辑执行,所述处理逻辑可以包括如由图15的体验传递机制1510促进的硬件(如电路系统、专用逻辑、可编程逻辑等)、软件(如在处理装置上运行的指令)或其组合。为了简洁和清晰的呈现,与神经网络模型2000相关联的过程以线性顺序来展示;然而,设想的是,可以并行地、异步地、或以不同顺序执行任何数量的过程。
设想的是,此神经网络模型2000是为了简洁和清晰而提供的典型神经网络模型的简化版本,并且实际模型可具有任何数量和类型的层等。在所展示的实施例中,神经网络模型2000提供ESi和ESa的窗口2001之间的关系的输入和训练。所展示的神经网络模型2000是利用ESi和ESa的窗口2001来输入的,并且最终输出2015仅仅是单个位信息,表示此序列是否有意义(例如,从人类角度出发观察到为正确序列)或无意义(例如,随机生成和排序)。
如所展示的,在一个实施例中,神经网络模型2000可以遵循或具有某种模式,范围从窗口2001到卷积层2003到完全连接层2005到sigmoid层2007到损失层2009,同时预测标记2011使用标记基本真实(label ground truth)2013来提供最终输出2015。
例如,可能存在两种数据和相关标记。一种是从人类角度出发观察到的正确序列,其中,对于定时窗口,ESi和ESa序列是从原始序列中的训练数据库中取出的,并且ESi和ESa的此窗口2001被标记为1,指示如在标记基础真实2013中所示出的有效数据样本。另一种指的是为无意义行为的随机生成的序列,诸如随机生成的有效ESi和ESa值或从一个或多个数据库中取得的随机置乱的序列,其中,此随机生成的序列被标记为0,表示如在标记基础真实2013中所示出的无意义数据样本。
概括地说,此过程生成神经网络(NN)模型2000,其能够断言ESi和ESa的序列的有效人类行为,NN(ESi[0-T+1:0],Esa[0-T+1:0])∈[0,1],其中1表示有效,0表示无效,并且0到1之间的其他值表示有效的可能性。
在一个实施例中,自主机器控制(或简称为“机器人控制”)可以基于根据RSi和RSa计算RCo并且是参照图20描述的,如何在经训练的神经网络2000的帮助下搜索向右移动RCo。例如,可以通过NN(ESi,Esa)=NN(f(Rsi),g(Rsa))=NN(f(Rsi),g(h-1(Rco)))来测试可能的运动有效性,其中f、g、h是根据机器人模型在运动命令和传感器数据之间的映射函数并且基于此预测,如关于图21进一步展示的,可以使用算法框架来基于可以设计和生成哪几种动作搜索算法来搜索最优动作。如参照图21A至图21B进一步展示的,例如:
1.在当前时间区间内,给定ESi[0-T:0-1]和ESa[0-T:0-1],给定当前RSi[0]
2.计算ESi[0]=f(RSi[0]),得到ESi[0-T+1:0]
3.对于每个RCo[0],基于某些规则A生成n个RCo[0]样本:
计算RSa[0]=h-1(RCo[0]),
计算ESa[0]=g(RSa[0])
得到ESa[0-T+1:0]
评估p=NN(ESi[0-T+1:0],ESa[0-T+1:0])
5.如果pi,i∈[0,1,…,n-1]不满足条件B,
则根据pi,i∈[0,1,…,n-1]更新规则A,到步骤3。否则
则选择具有最大p的RCo[0]作为最佳动作。
图21A展示了根据一个实施例的用于将体验从人类传递到自主机器的方法2100。为了简洁起见,此后可以不讨论或重复先前参照图1至图20讨论的细节中的许多细节。方法2100可以由处理逻辑执行,所述处理逻辑可以包括如由图15的体验传递机制1510促进的硬件(例如,电路系统、专用逻辑、可编程逻辑等)、软件(比如,在处理装置上运行的指令)或其组合。为了简洁和清晰的呈现,方法2100的过程以线性顺序来展示;然而,设想的是,可以并行地、异步地、或以不同顺序执行任何数量的过程。
方法2100可以在框2101处开始并且在框2103处以输入当前机器人(自主机器)传感器输入继续。在框2105处,计算ESit;接着是框2107,在此框中判定是否t>T。如果是,则方法2100以针对ESat生成统计属性作为规则A来在框2109处继续。在框2111处,基于规则A生成第i个可能的ESati,而在框2113处,限定ESi和ESa两者。在框2115处,将经训练的神经网络模型应用为Pi;接着是框2117,在此框中进行关于是否i>n的另一判定。如果否,则方法2100继续框2111;然而,如果是,则在框2119处基于P的值检查当前组ESati。
在一个实施例中,在框2121处,进行关于P是否满足标准的又一判定,并且如果不满足,则依照P的值调整作为规则A的ESat的统计特性,并且然后方法2100可以继续框2111。然而,如果在框2121处P满足标准,则方法2100在框2123处继续选择最佳ESat,并且随后,在框2129处计算RCot;机器人控制命令RCo然后在框2131处被输出;当前机器人动作传感器RSat在框2133处输入;并且在框2135处计算ESat。
在框2137处,进行关于机器人任务是否结束的又一判定。如果是,则方法2100在框2139处终止;然而如果否,则方法2100在框2103处继续。返回参照框2107,如果答案为否,则方法2100在框2127处继续,其中ESat设置为0,并且随后,方法2100继续框2129。
图21B展示了根据一个实施例的用于将体验从人类传递到自主机器的方法2150。为了简明起见,此后可以不讨论或重复之前参照图1至图21A所讨论的细节中的许多细节。方法2100可以由处理逻辑执行,所述处理逻辑可以包括如由图15的体验传递机制1510促进的硬件(例如,电路系统、专用逻辑、可编程逻辑等)、软件(比如,在处理装置上运行的指令)或其组合。为了简洁和清晰的呈现,方法2150的过程以线性顺序来展示;然而,设想的是,可以并行地、异步地、或以不同顺序执行任何数量的过程。
应当指出,图21B的方法2150示出了图21A的方法2100的差异在于:可以生成RCo而不仅仅是ESa。例如,关于图21A的规则A,以下各项是可行的:为RCo生成统计特性作为规则A并且基于规则A生成随机RCo,并且进一步根据RCo计算ESa,并且然后利用NN模型评估可能性。
方法2150可以在框2151处开始并且在框2153处以输入当前机器人(自主机器)传感器输入继续。在框2155处,计算ESit;接着是框2157,在此框中判定是否t>T。如果是,则方法2150在框2159处继续,在此框中为RCot生成统计属性作为规则A。在框2161处,基于规则A生成第i个可能的RCot,而在框2163处,限定ESi和ESa两者。在框2165处,将经训练的神经网络模型应用为Pi;接着是框2167,在此框中进行关于是否i>n的另一判定。如果否,则方法2150继续框2161;然而,如果是,则在框2169处基于P的值检查当前组ESati。
在一个实施例中,在框2171处,进行关于P是否满足标准的又一判定,并且如果不满足,则依照P的值调整作为规则A的ESat的统计特性,并且然后方法2150可以继续框2161。然而,如果P在框2171处满足标准,则方法2100在框2173处继续选择最佳RCot,并且随后在框2181处输出,而当前机器人动作传感器RSa在框2183处输入,并且且ESat在框2185处计算。
在框2187处,进行关于机器人任务是否结束的又一判定。如果是,则方法2150在框2189处终止;然而如果否,则方法2150在框2153处继续。返回参照框2157,如果答案为否,则方法2150在框2177处继续,其中ESat设置为0,并且随后,方法2150在框2179处继续RCot的计算。
对“一个实施例”、“实施例”、“示例实施例”、“各种实施例”等的引用指示:如此描述的(多个)实施例可以包括特定特征、结构或特性,但并非每一个实施例必定包括这些特定的特征、结构或特点。此外,一些实施例可具有针对其他实施例而描述的特征中的一些特征、全部特征或不具有任何所述特征。
在以上说明书中,已经参照具体示例性实施例描述了实施例。然而,在不偏离所附权利要求中阐述的实施例的更广精神和范围的情况下,将显然的是可对其进行各种修改和改变。因此,说明书和附图要以说明性而非限制性的含义来看待。
在以下说明书和权利要求书中,可以使用术语“耦合”及其衍生词。“耦合”用于指示两个或更多个元件彼此协作或相互作用,但是它们之间可以具有或不具有中间物理或电气组件。
如在权利要求书中所使用的,除非另有说明,否则用序数形容词“第一”、“第二”、“第三”等来描述公共元件仅指示:类似元件的不同实例被提及并且不旨在暗示如此描述的元件必须采用给定顺序(无论是时间、空间、等级或以任何其他方式)。
下列条款和/或示例涉及进一步的实施例或示例。可在一个或多个实施例中的任何地方使用示例中的细节。可以以各种方式将不同的实施例或示例的各种特征与所包括的一些特征以及被排除的其他特征组合以适应各种不同的应用。示例可以包括主题,如方法;用于执行所述方法的动作的装置;至少一种包括指令的机器可读介质,所述指令当由机器执行时使所述机器执行所述方法的动作;或用于促进根据本文中所描述的实施例和示例的混合通信的设备或系统。
一些实施例涉及示例1,本示例包括一种用于促进将人类体验传递到自主机器的设备,所述设备包括:一个或多个传感器,用于感测与用户相关的一个或多个输入;行为捕获/评估逻辑,用于评估所述一个或多个输入以捕获所述用户的一个或多个行为特性;学习/训练逻辑,用于基于所述一个或多个行为特性来训练神经网络模型;以及传递/执行逻辑,所述传递/执行逻辑用于将经训练的神经网络模型应用于所述设备,以便促进所述设备采用所述一个或多个行为特性来像所述用户一样表现。
示例2包括如示例1所述的主题,进一步包括;检测/收集逻辑,用于收集包括用户感知输入和用户行为输入中的至少一个的所述一个或多个输入,其中,所述用户感知输入包括身体位置、感知表达、移动、声音或语音、身份、性别和类别中的一项或多项,其中,所述学习/训练逻辑用于基于所述用户感知输入在表达、运动和序列中的一个或多个中训练所述神经网络模型。
示例3包括如示例2所述的主题,其中,所述用户行为输入包括行为表达、头部和身体姿势、身体运动和话音中的一个或多个,其中,所述学习/训练逻辑用于基于所述用户行为输入在所述表达、所述运动和所述序列中的一个或多个中训练所述神经网络模型。
示例4包括如示例1所述的主题,其中,所述一个或多个传感器耦合到由所述设备以及通过通信介质耦合到所述设备的集成系统中的至少一者所托管的相机中的一个或多个,其中,所述集成系统包括外骨骼感测子系统和表达捕获子系统,其中,所述设备包括自主机器,所述自主机器包括机器人、自驾驶运载工具、自飞行运载工具、自浮式运载工具和自操作装置中的一者或多者,其中,所述通信介质包括云网络、接近度网络和互联网中的一者或多者。
示例5包括如示例1所述的主题,进一步包括:集成逻辑,用于通过将所述外骨骼感测子系统与所述表达捕获子系统集成来促进所述集成系统;以及通信/兼容性逻辑,用于促进所述设备、所述外骨骼感测子系统和所述表达捕获子系统中的至少两个或更多个之间的兼容性和通信。
示例6包括如示例1所述的主题,其中,将所述经训练的神经网络模型应用于所述设备包括:将基于所述用户感知输入和所述用户行为输入中的至少一个所确定的用户体验传递到所述设备,以使得所述设备像所述用户一样表现。
示例7包括如示例1所述的主题,其中,评估所述一个或多个输入包括:基于一个或多个环境来确定所述用户的所述一个或多个行为特性,其中,在第一环境中与所述用户相关的输入被解释为第一行为特性,其中,在第二环境中与所述用户相关的所述输入被解释为与所述第一行为特性不同的第二行为特性,其中,所述学习/训练逻辑基于所述一个或多个环境的相关性来训练所述神经网络模型。
一些实施例涉及示例8,本示例包括一种用于促进将人类体验传递到自主机器的方法,所述方法包括:通过一个或多个传感器来感测与用户相关的一个或多个输入;评估所述一个或多个输入以捕获所述用户的一个或多个行为特性;基于所述一个或多个行为特性来训练神经网络模型;以及将经训练的神经网络模型应用于计算装置以促进所述计算装置采用所述一个或多个行为特性来像所述用户一样表现。
示例9包括如示例8所述的主题,进一步包括:收集包括用户感知输入和用户行为输入中的至少一个的所述一个或多个输入,其中,所述用户感知输入包括身体位置、感知表达、移动、声音或语音、身份、性别和类别中的一项或多项,其中,所述神经网络模型的训练是基于所述用户感知输入在表达、运动和序列中的一个或多个中进行的。
示例10包括如示例9所述的主题,其中,所述用户行为输入包括行为表达、头部和身体姿势、身体运动和话音中的一个或多个,其中,所述神经网络模型的训练是基于所述用户行为输入在所述表达、所述运动和所述序列中的一个或多个中进行的。
示例11包括如示例8所述的主题,其中,所述一个或多个传感器耦合到由所述计算装置以及通过通信介质耦合到所述计算装置的集成系统中的至少一者所托管的相机中的一个或多个,其中,所述集成系统包括外骨骼感测子系统和表达捕获子系统,其中,所述计算装置包括自主机器,所述自主机器包括机器人、自驾驶运载工具、自飞行运载工具、自浮式运载工具和自操作装置中的一者或多者,其中,所述通信介质包括云网络、接近度网络和互联网中的一者或多者。
示例12包括如示例8所述的主题,进一步包括:通过将所述外骨骼感测子系统与所述表达捕获子系统集成来促进所述集成系统;以及促进所述计算装置、所述外骨骼感测子系统和所述表达捕获子系统中的至少两个或更多个之间的兼容性和通信。
示例13包括如示例8所述的主题,其中,将所述经训练的神经网络模型应用于所述计算装置包括:将基于所述用户感知输入和所述用户行为输入中的至少一个所确定的用户体验传递到所述计算装置,以使得所述计算装置像所述用户一样表现。
示例14包括如示例8所述的主题,其中,评估所述一个或多个输入包括:基于一个或多个环境来确定所述用户的所述一个或多个行为特性,其中,在第一环境中与所述用户相关的输入被解释为第一行为特性,其中,在第二环境中与所述用户相关的所述输入被解释为与所述第一行为特性不同的第二行为特性,其中,所述神经网络模型的训练基于所述一个或多个环境的相关性。
一些示例涉及示例15,本示例包括一种包括计算装置的系统,所述计算装置包括存储装置以及与所述存储装置耦合的处理装置,所述处理装置用于:通过一个或多个传感器来感测与用户相关的一个或多个输入;评估所述一个或多个输入以捕获所述用户的一个或多个行为特性;基于所述一个或多个行为特性来训练神经网络模型;以及将经训练的神经网络模型应用于所述计算装置以促进所述计算装置采用所述一个或多个行为特性来像所述用户一样表现。
示例16包括如示例15所述的主题,其中,所述处理装置用于收集包括用户感知输入和用户行为输入中的至少一个的所述一个或多个输入,其中,所述用户感知输入包括身体位置、感知表达、移动、声音或语音、身份、性别和类别中的一项或多项,其中,所述神经网络模型的训练是基于所述用户感知输入在表达、运动和序列中的一个或多个中进行的。
示例17包括如示例16所述的主题,其中,所述用户行为输入包括行为表达、头部和身体姿势、身体运动和话音中的一个或多个,其中,所述神经网络模型的训练是基于所述用户行为输入在所述表达、所述运动和所述序列中的一个或多个中进行的。
示例18包括如示例15所述的主题,其中,所述一个或多个传感器耦合到由所述计算装置以及通过通信介质耦合到所述计算装置的集成系统中的至少一者所托管的相机中的一个或多个,其中,所述集成系统包括外骨骼感测子系统和表达捕获子系统,其中,所述计算装置包括自主机器,所述自主机器包括机器人、自驾驶运载工具、自飞行运载工具、自浮式运载工具和自操作装置中的一者或多者,其中,所述通信介质包括云网络、接近度网络和互联网中的一者或多者。
示例19包括如示例15所述的主题,其中,所述处理装置用于:通过将所述外骨骼感测子系统与所述表达捕获子系统集成来促进所述集成系统;以及促进所述计算装置、所述外骨骼感测子系统和所述表达捕获子系统中的至少两个或更多个之间的兼容性和通信。
示例20包括如示例15所述的主题,其中,将所述经训练的神经网络模型应用于所述计算装置包括:将基于所述用户感知输入和所述用户行为输入中的至少一个所确定的用户体验传递到所述计算装置,以使得所述计算装置像所述用户一样表现。
示例21包括如示例15所述的主题,其中,评估所述一个或多个输入包括:基于一个或多个环境来确定所述用户的所述一个或多个行为特性,其中,在第一环境中与所述用户相关的输入被解释为第一行为特性,其中,在第二环境中与所述用户相关的所述输入被解释为与所述第一行为特性不同的第二行为特性,其中,所述神经网络模型的训练基于所述一个或多个环境的相关性。
一些实施例涉及示例22,本示例包括一种设备,所述设备包括:用于通过一个或多个传感器来感测与用户相关的一个或多个输入的装置;用于评估所述一个或多个输入以捕获所述用户的一个或多个行为特性的装置;用于基于所述一个或多个行为特性来训练神经网络模型的装置;以及用于将经训练的神经网络模型应用于所述设备以促进所述设备采用所述一个或多个行为特性来像所述用户一样表现的装置。
示例23包括如示例22所述的主题,进一步包括:用于收集包括用户感知输入和用户行为输入中的至少一个的所述一个或多个输入的装置,其中,所述用户感知输入包括身体位置、感知表达、移动、声音或语音、身份、性别和类别中的一项或多项,其中,所述神经网络模型的训练是基于所述用户感知输入在表达、运动和序列中的一个或多个中进行的。
示例24包括如示例23所述的主题,其中,所述用户行为输入包括行为表达、头部和身体姿势、身体运动和话音中的一个或多个,其中,所述神经网络模型的训练是基于所述用户行为输入在所述表达、所述运动和所述序列中的一个或多个中进行的。
示例25包括如示例22所述的主题,其中,所述一个或多个传感器耦合到由所述设备以及通过通信介质耦合到所述设备的集成系统中的至少一者所托管的相机中的一个或多个,其中,所述集成系统包括外骨骼感测子系统和表达捕获子系统,其中,所述设备包括自主机器,所述自主机器包括机器人、自驾驶运载工具、自飞行运载工具、自浮式运载工具和自操作装置中的一者或多者,其中,所述通信介质包括云网络、接近度网络和互联网中的一者或多者。
示例26包括如示例22所述的主题,进一步包括:用于通过将所述外骨骼感测子系统与所述表达捕获子系统集成来促进所述集成系统的装置;以及用于促进所述设备、所述外骨骼感测子系统和所述表达捕获子系统中的至少两个或更多个之间的兼容性和通信的装置。
示例27包括如示例22所述的主题,其中,用于将所述经训练的神经网络模型应用于所述设备的装置包括:用于将基于所述用户感知输入和所述用户行为输入中的至少一个所确定的用户体验传递到所述设备以使得所述设备像所述用户一样表现的装置。
示例28包括如示例22所述的主题,其中,用于评估所述一个或多个输入的装置包括:用于基于一个或多个环境来确定所述用户的所述一个或多个行为特性的装置,其中,在第一环境中与所述用户相关的输入被解释为第一行为特性,其中,在第二环境中与所述用户相关的所述输入被解释为与所述第一行为特性不同的第二行为特性,其中,所述神经网络模型的训练基于所述一个或多个环境的相关性。
示例29包括至少一种非暂态或有形机器可读介质,其包括多条指令,所述指令当在计算装置上执行时用于实施或执行如权利要求或示例8至14中任一项所述的方法。
示例30包括至少一种机器可读介质,其包括多条指令,所述指令当在计算装置上执行时用于实施或执行如权利要求或示例8至14中任一项所述的方法。
示例31包括一种系统,所述系统包括用于实施或执行如权利要求或示例8至14中任一项所述的方法的机制。
示例32包括一种设备,所述设备包括用于执行如权利要求或示例8至14中任一项所述的方法的装置。
示例33包括一种计算装置,所述计算装置被安排成实施或执行如权利要求或示例8至14中任一项所述的方法。
示例34包括一种通信装置,所述通信装置被安排成实施或执行如权利要求或示例8至14中任一项所述的方法。
示例35包括至少一种机器可读介质,其包括多条指令,所述指令当在计算装置上执行时用于实施或执行如任一前述权利要求所述的方法或实现如任一前述权利要求所述的设备。
示例36包括至少一种非暂态或有形机器可读介质,其包括多条指令,所述指令当在计算装置上执行时用于实施或执行如任一前述权利要求所述的方法或实现如任一前述权利要求所述的设备。
示例37包括一种系统,所述系统包括用于实施或执行如任一前述权利要求所述的方法或实现如任一前述权利要求所述的设备的机制。
示例38包括一种设备,所述设备包括用于执行如任一前述权利要求所述的方法的装置。
示例39包括一种计算装置,所述计算装置被安排成实施或执行如任一前述权利要求所述的方法或实现如任一前述权利要求所述的设备。
示例40包括一种通信装置,所述通信装置被安排成实施或执行如任一前述权利要求所述的方法或实现如任一前述权利要求所述的设备。
附图以及前述描述给出了实施例的示例。本领域技术人员将理解,所描述的元件中的一个或多个元件可以被良好地组合成单个功能元件。可替代地,某些元件可以分成多个功能元件。来自一个实施例的元件可以被添加到另一实施例中。例如,本文中所描述的过程的顺序可以改变并且不限于本文中所描述的方式。而且,任何流程图的动作无需以所示出的顺序实施;也不一定必须执行所有所述动作。并且,不依赖于其他动作的那些动作可以与其他动作并行地执行。实施例的范围决不限于这些具体示例。无论是否在说明书中显式地给出,如材料的结构、尺寸和用途上的差异等许多变化都是可能的。实施例的范围至少与以下权利要求书给出的范围一样宽。
Claims (19)
1.一种用于促进将人类体验传递到自主机器的设备,所述设备包括:
一个或多个传感器,用于感测与用户相关的一个或多个输入;
行为捕获/评估逻辑,用于评估所述一个或多个输入以捕获所述用户的一个或多个行为特性;
学习/训练逻辑,用于基于所述一个或多个行为特性来训练神经网络模型;以及
传递/执行逻辑,用于将经训练的神经网络模型应用于所述设备,以便促进所述自主机器实时地采用所述一个或多个行为特性来像所述用户一样表现。
2.如权利要求1所述的设备,进一步包括:检测/收集逻辑,用于收集包括用户感知输入和用户行为输入中的至少一个的所述一个或多个输入,其中,所述用户感知输入包括身体位置、感知表达、移动、声音或语音、身份、性别和类别中的一项或多项,其中,所述学习/训练逻辑用于基于所述用户感知输入在表达、运动和序列中的一个或多个中训练所述神经网络模型。
3.如权利要求2所述的设备,其中,所述用户行为输入包括行为表达、头部和身体姿势、身体运动和话音中的一个或多个,其中,所述学习/训练逻辑用于基于所述用户行为输入在所述表达、所述运动和所述序列中的一个或多个中训练所述神经网络模型。
4.如权利要求1所述的设备,其中,所述一个或多个传感器耦合到由所述设备以及通过通信介质耦合到所述设备的集成系统中的至少一者所托管的相机中的一个或多个,其中,所述集成系统包括外骨骼感测子系统和表达捕获子系统,其中,所述设备包括自主机器,所述自主机器包括机器人、自驾驶运载工具、自飞行运载工具、自浮式运载工具和自操作装置中的一者或多者,其中,所述通信介质包括云网络、接近度网络和互联网中的一者或多者。
5.如权利要求1所述的设备,进一步包括:
集成逻辑,用于通过将外骨骼感测子系统与表达捕获子系统集成来促进所述集成系统;以及
通信/兼容性逻辑,用于促进所述设备、外骨骼感测子系统和表达捕获子系统中的至少两个或更多个之间的兼容性和通信。
6.如权利要求1所述的设备,其中,将所述经训练的神经网络模型应用于所述设备包括:将基于所述用户感知输入和所述用户行为输入中的至少一个所确定的用户体验传递到所述设备,以使得所述设备像所述用户一样表现。
7.如权利要求1所述的设备,其中,评估所述一个或多个输入包括:基于一个或多个环境来确定所述用户的所述一个或多个行为特性,其中,在第一环境中与所述用户相关的输入被解释为第一行为特性,其中,在第二环境中与所述用户相关的所述输入被解释为与所述第一行为特性不同的第二行为特性,其中,所述学习/训练逻辑基于所述一个或多个环境的相关性来训练所述神经网络模型。
8.一种用于促进将人类体验传递到自主机器的方法,所述方法包括:
通过一个或多个传感器来感测与用户相关的一个或多个输入;
评估所述一个或多个输入以捕获所述用户的一个或多个行为特性;
基于所述一个或多个行为特性来训练神经网络模型;以及
将经训练的神经网络模型应用于计算装置以促进所述自主机器实时地采用所述一个或多个行为特性来像所述用户一样表现。
9.如权利要求8所述的方法,进一步包括:收集包括用户感知输入和用户行为输入中的至少一个的所述一个或多个输入,其中,所述用户感知输入包括身体位置、感知表达、移动、声音或语音、身份、性别和类别中的一项或多项,其中,所述神经网络模型的训练是基于所述用户感知输入在表达、运动和序列中的一个或多个中进行的。
10.如权利要求9所述的方法,其中,所述用户行为输入包括行为表达、头部和身体姿势、身体运动和话音中的一个或多个,其中,所述神经网络模型的训练是基于所述用户行为输入在所述表达、所述运动和所述序列中的一个或多个中进行的。
11.如权利要求8所述的方法,其中,所述一个或多个传感器耦合到由所述计算装置以及通过通信介质耦合到所述计算装置的集成系统中的至少一者所托管的相机中的一个或多个,其中,所述集成系统包括外骨骼感测子系统和表达捕获子系统,其中,所述计算装置包括自主机器,所述自主机器包括机器人、自驾驶运载工具、自飞行运载工具、自浮式运载工具和自操作装置中的一者或多者,其中,所述通信介质包括云网络、接近度网络和互联网中的一者或多者。
12.如权利要求8所述的方法,进一步包括:
通过将外骨骼感测子系统与表达捕获子系统集成来促进所述集成系统;以及
促进所述计算装置、外骨骼感测子系统和表达捕获子系统中的至少两个或更多个之间的兼容性和通信。
13.如权利要求8所述的方法,其中,将所述经训练的神经网络模型应用于所述计算装置包括:将基于所述用户感知输入和所述用户行为输入中的至少一个所确定的用户体验传递到所述计算装置,以使得所述计算装置像所述用户一样表现。
14.如权利要求8所述的方法,其中,评估所述一个或多个输入包括:基于一个或多个环境来确定所述用户的所述一个或多个行为特性,其中,在第一环境中与所述用户相关的输入被解释为第一行为特性,其中,在第二环境中与所述用户相关的所述输入被解释为与所述第一行为特性不同的第二行为特性,其中,所述神经网络模型的训练基于所述一个或多个环境的相关性。
15.至少一种机器可读介质,包括多条指令,所述指令当在计算装置上执行时用于实施或执行如权利要求8至14中任一项所述的方法。
16.一种系统,包括用于实施或执行如权利要求8至14中任一项所述的方法的机制。
17.一种设备,包括用于执行如权利要求8至14中任一项所述的方法的装置。
18.一种计算装置,被安排成实施或执行如权利要求8至14中任一项所述的方法。
19.一种通信装置,被安排成实施或执行如权利要求8至14中任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2016/111500 WO2018112833A1 (en) | 2016-12-22 | 2016-12-22 | Efficient transferring of human experiences to robots and other autonomous machines |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110023962A CN110023962A (zh) | 2019-07-16 |
CN110023962B true CN110023962B (zh) | 2024-03-12 |
Family
ID=62624609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680090974.0A Active CN110023962B (zh) | 2016-12-22 | 2016-12-22 | 人类体验到机器人和其他自主机器的高效传递 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11615284B2 (zh) |
CN (1) | CN110023962B (zh) |
WO (1) | WO2018112833A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
UA132430U (uk) * | 2018-09-27 | 2019-02-25 | Олександр Васильович Негодюк | Спосіб роботи системи прийняття складних рішень засобами штучного інтелекту |
US11836577B2 (en) | 2018-11-27 | 2023-12-05 | Amazon Technologies, Inc. | Reinforcement learning model training through simulation |
US11429762B2 (en) | 2018-11-27 | 2022-08-30 | Amazon Technologies, Inc. | Simulation orchestration for training reinforcement learning models |
US11455234B2 (en) * | 2018-11-21 | 2022-09-27 | Amazon Technologies, Inc. | Robotics application development architecture |
US11218769B2 (en) | 2019-02-22 | 2022-01-04 | Aerial Technologies Inc. | Smart media display |
US11913970B2 (en) | 2019-02-22 | 2024-02-27 | Aerial Technologies Inc. | Wireless motion detection using multiband filters |
US11593837B2 (en) | 2019-02-22 | 2023-02-28 | Aerial Technologies Inc. | Advertisement engagement measurement |
US11586952B2 (en) * | 2019-02-22 | 2023-02-21 | Aerial Technologies Inc. | Robotic H matrix creation |
WO2020170221A1 (en) | 2019-02-22 | 2020-08-27 | Aerial Technologies Inc. | Handling concept drift in wi-fi-based localization |
US11082109B2 (en) | 2019-02-22 | 2021-08-03 | Aerial Technologies Inc. | Self-learning based on Wi-Fi-based monitoring and augmentation |
US11351682B2 (en) * | 2019-06-19 | 2022-06-07 | International Business Machines Corporation | Environment monitoring and associated monitoring device |
CN110533752B (zh) * | 2019-07-23 | 2023-04-07 | 深圳大学 | 一种人体动作编辑模型的生成方法、存储介质及电子设备 |
US11448726B2 (en) | 2019-08-28 | 2022-09-20 | Aerial Technologies Inc. | System and method for presence and pulse detection from wireless signals |
CN110599823B (zh) * | 2019-09-05 | 2021-08-13 | 北京科技大学 | 一种基于示教视频和解说语音融合的服务机器人示教方法 |
US11523253B2 (en) | 2019-09-06 | 2022-12-06 | Aerial Technologies Inc. | Monitoring activity using Wi-Fi motion detection |
US11900244B1 (en) * | 2019-09-30 | 2024-02-13 | Amazon Technologies, Inc. | Attention-based deep reinforcement learning for autonomous agents |
US20210252698A1 (en) * | 2020-02-14 | 2021-08-19 | Nvidia Corporation | Robotic control using deep learning |
CN111983922A (zh) * | 2020-07-13 | 2020-11-24 | 广州中国科学院先进技术研究所 | 一种基于元模仿学习的机器人演示示教方法 |
CN112013203B (zh) * | 2020-07-18 | 2021-09-24 | 淮阴工学院 | 一种基于drnn神经网络管网检测系统 |
US11741225B2 (en) * | 2020-11-27 | 2023-08-29 | At&T Intellectual Property I, L.P. | Zero day attack detection |
CN113344086B (zh) * | 2021-06-16 | 2022-07-01 | 深圳市商汤科技有限公司 | 人机回圈方法、装置、系统、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1637744A (zh) * | 2004-01-09 | 2005-07-13 | 微软公司 | 为在大量电子文档中搜索而确定文档相关性的机器学习方法 |
US8069076B2 (en) * | 2003-03-25 | 2011-11-29 | Cox Communications, Inc. | Generating audience analytics |
KR20120052610A (ko) * | 2010-11-16 | 2012-05-24 | 삼성전자주식회사 | 신경망 학습을 통한 동작 인식 방법 및 장치 |
CN104246744A (zh) * | 2012-04-21 | 2014-12-24 | 国际商业机器公司 | 用于提供测试网络作为ip可访问的云服务的方法和装置 |
US9491490B1 (en) * | 2015-06-12 | 2016-11-08 | Intel Corporation | Facilitating environment-based lossy compression of data for efficient rendering of contents at computing devices |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10289006A (ja) * | 1997-04-11 | 1998-10-27 | Yamaha Motor Co Ltd | 疑似感情を用いた制御対象の制御方法 |
JP2004209599A (ja) * | 2002-12-27 | 2004-07-29 | Sony Corp | ロボット装置、ロボット装置の行動学習方法、ロボット装置の行動生成方法 |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
TW200814708A (en) | 2006-09-14 | 2008-03-16 | Benq Corp | Power save method and system for a mobile device |
US9519857B2 (en) * | 2008-06-30 | 2016-12-13 | Nokia Technologies Oy | Apparatus and method for sensing characterizing features of a deformable structure |
US8487938B2 (en) * | 2009-01-30 | 2013-07-16 | Microsoft Corporation | Standard Gestures |
WO2012008553A1 (ja) * | 2010-07-15 | 2012-01-19 | 日本電気株式会社 | ロボットシステム |
US9524426B2 (en) * | 2014-03-19 | 2016-12-20 | GM Global Technology Operations LLC | Multi-view human detection using semi-exhaustive search |
US10166680B2 (en) * | 2015-07-31 | 2019-01-01 | Heinz Hemken | Autonomous robot using data captured from a living subject |
US9676098B2 (en) * | 2015-07-31 | 2017-06-13 | Heinz Hemken | Data collection from living subjects and controlling an autonomous robot using the data |
-
2016
- 2016-12-22 WO PCT/CN2016/111500 patent/WO2018112833A1/en active Application Filing
- 2016-12-22 US US16/468,281 patent/US11615284B2/en active Active
- 2016-12-22 CN CN201680090974.0A patent/CN110023962B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8069076B2 (en) * | 2003-03-25 | 2011-11-29 | Cox Communications, Inc. | Generating audience analytics |
CN1637744A (zh) * | 2004-01-09 | 2005-07-13 | 微软公司 | 为在大量电子文档中搜索而确定文档相关性的机器学习方法 |
KR20120052610A (ko) * | 2010-11-16 | 2012-05-24 | 삼성전자주식회사 | 신경망 학습을 통한 동작 인식 방법 및 장치 |
CN104246744A (zh) * | 2012-04-21 | 2014-12-24 | 国际商业机器公司 | 用于提供测试网络作为ip可访问的云服务的方法和装置 |
US9491490B1 (en) * | 2015-06-12 | 2016-11-08 | Intel Corporation | Facilitating environment-based lossy compression of data for efficient rendering of contents at computing devices |
Non-Patent Citations (1)
Title |
---|
自然语言训练的机器人基本行为控制器;聂仙丽, 蒋平, 陈辉堂;机器人(03);全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20200090022A1 (en) | 2020-03-19 |
CN110023962A (zh) | 2019-07-16 |
WO2018112833A1 (en) | 2018-06-28 |
US11615284B2 (en) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110023962B (zh) | 人类体验到机器人和其他自主机器的高效传递 | |
US11393211B2 (en) | Hybrid graphics processor-field programmable gate array system | |
US20230117143A1 (en) | Efficient learning and using of topologies of neural networks in machine learning | |
US10600147B2 (en) | Efficient memory layout for enabling smart data compression in machine learning environments | |
US11537892B2 (en) | Slimming of neural networks in machine learning environments | |
CN109690578B (zh) | 自主机器的通用输入/输出数据捕获和神经高速缓存系统 | |
US11301686B2 (en) | Visual anomaly detection without reference in graphics computing environments | |
CN109983507B (zh) | 经由二维地图进行基于大规模cnn回归的定位 | |
US20200137380A1 (en) | Multi-plane display image synthesis mechanism | |
US20200234137A1 (en) | Efficient neural networks with elaborate matrix structures in machine learning environments | |
US20190325763A1 (en) | Real and virtual collision-free movement of autonomous vehicles in mixed-reality environments | |
CN108694080A (zh) | 高效线程组调度 | |
US20200175396A1 (en) | Deterministic neural networking interoperability | |
EP3617883A1 (en) | Inference engine acceleration for video analytics in computing environments | |
US20240062414A1 (en) | Training and deploying pose regressions in neural networks in autonomous machines | |
US20190362461A1 (en) | Multi-object, three-dimensional modeling and model selection | |
CN110326021A (zh) | 用于图形处理器上的加速计算的执行单元共享混合技术 | |
CN109643395B (zh) | 自适应窗口机制 | |
CN110050243B (zh) | 通过使用自主机器中的中间层特征的增强神经回归进行相机重新定位 | |
CN115439589A (zh) | 神经帧外推渲染机制 | |
US20190068974A1 (en) | Smart multiplexed image compression in computing environments | |
CN116341661A (zh) | 图形处理单元中的低功率推断引擎管线 | |
US20220383580A1 (en) | Real-time temporally consistent object segmented style transfer in media and gaming |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |