CN117750073A - 用于指示帧大小信息的应用程序编程接口 - Google Patents
用于指示帧大小信息的应用程序编程接口 Download PDFInfo
- Publication number
- CN117750073A CN117750073A CN202311222505.8A CN202311222505A CN117750073A CN 117750073 A CN117750073 A CN 117750073A CN 202311222505 A CN202311222505 A CN 202311222505A CN 117750073 A CN117750073 A CN 117750073A
- Authority
- CN
- China
- Prior art keywords
- frame
- api
- processor
- frames
- motion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 856
- 238000000034 method Methods 0.000 claims abstract description 594
- 238000012545 processing Methods 0.000 claims abstract description 413
- 230000015654 memory Effects 0.000 claims description 478
- 238000009877 rendering Methods 0.000 claims description 148
- 230000033001 locomotion Effects 0.000 description 410
- 238000012549 training Methods 0.000 description 317
- 230000008569 process Effects 0.000 description 281
- 239000013598 vector Substances 0.000 description 227
- 230000006870 function Effects 0.000 description 225
- 230000004927 fusion Effects 0.000 description 173
- 238000010801 machine learning Methods 0.000 description 123
- 238000010586 diagram Methods 0.000 description 86
- 210000002569 neuron Anatomy 0.000 description 72
- 238000013473 artificial intelligence Methods 0.000 description 70
- 238000007667 floating Methods 0.000 description 69
- 238000004891 communication Methods 0.000 description 67
- 238000003860 storage Methods 0.000 description 66
- 238000003384 imaging method Methods 0.000 description 64
- 239000000872 buffer Substances 0.000 description 59
- 230000001133 acceleration Effects 0.000 description 52
- 238000005192 partition Methods 0.000 description 51
- 238000013135 deep learning Methods 0.000 description 47
- 238000005227 gel permeation chromatography Methods 0.000 description 42
- 238000007726 management method Methods 0.000 description 42
- 230000004044 response Effects 0.000 description 41
- 230000003287 optical effect Effects 0.000 description 39
- 230000000694 effects Effects 0.000 description 36
- 238000012805 post-processing Methods 0.000 description 35
- 238000001514 detection method Methods 0.000 description 31
- 238000012800 visualization Methods 0.000 description 31
- 238000004422 calculation algorithm Methods 0.000 description 26
- 239000011159 matrix material Substances 0.000 description 25
- 230000002093 peripheral effect Effects 0.000 description 25
- 239000012634 fragment Substances 0.000 description 21
- 230000011218 segmentation Effects 0.000 description 21
- 238000012546 transfer Methods 0.000 description 18
- 230000003068 static effect Effects 0.000 description 17
- 210000000225 synapse Anatomy 0.000 description 17
- 238000012163 sequencing technique Methods 0.000 description 15
- 238000013519 translation Methods 0.000 description 15
- 230000014616 translation Effects 0.000 description 15
- 230000007246 mechanism Effects 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 13
- 210000000056 organ Anatomy 0.000 description 13
- 230000002123 temporal effect Effects 0.000 description 13
- 230000000670 limiting effect Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 11
- 238000001994 activation Methods 0.000 description 11
- 238000002156 mixing Methods 0.000 description 11
- 230000008093 supporting effect Effects 0.000 description 11
- 238000002604 ultrasonography Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 10
- 238000009826 distribution Methods 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 239000003795 chemical substances by application Substances 0.000 description 9
- 230000003993 interaction Effects 0.000 description 9
- 238000002595 magnetic resonance imaging Methods 0.000 description 9
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 239000012528 membrane Substances 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 230000010076 replication Effects 0.000 description 8
- 230000002441 reversible effect Effects 0.000 description 8
- 238000003491 array Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 7
- 238000005206 flow analysis Methods 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 7
- 230000003190 augmentative effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 238000005286 illumination Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 239000004065 semiconductor Substances 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 238000001370 static light scattering Methods 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000002591 computed tomography Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000002059 diagnostic imaging Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000001976 improved effect Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 238000011068 loading method Methods 0.000 description 3
- 238000007620 mathematical function Methods 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 239000000047 product Substances 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 101000740523 Homo sapiens Syntenin-1 Proteins 0.000 description 2
- 102100037219 Syntenin-1 Human genes 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012884 algebraic function Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000011960 computer-aided design Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000011331 genomic analysis Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 229920001690 polydopamine Polymers 0.000 description 2
- 230000001242 postsynaptic effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 210000005215 presynaptic neuron Anatomy 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000023320 Luma <angiosperm> Species 0.000 description 1
- 101100202275 Mus musculus Slc22a8 gene Proteins 0.000 description 1
- 238000004497 NIR spectroscopy Methods 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000492493 Oxymeris Species 0.000 description 1
- 101100285899 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SSE2 gene Proteins 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 239000003518 caustics Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000004980 dosimetry Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000007876 drug discovery Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002091 elastography Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000011010 flushing procedure Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000006249 magnetic particle Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- OSWPMRLSEDHDFF-UHFFFAOYSA-N methyl salicylate Chemical compound COC(=O)C1=CC=CC=C1O OSWPMRLSEDHDFF-UHFFFAOYSA-N 0.000 description 1
- 238000000329 molecular dynamics simulation Methods 0.000 description 1
- 238000012900 molecular simulation Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000002610 neuroimaging Methods 0.000 description 1
- 238000009206 nuclear medicine Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000000059 patterning Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000002601 radiography Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 230000037390 scarring Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 238000003325 tomography Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Landscapes
- Television Systems (AREA)
Abstract
公开了用于处理图像帧的装置、系统和技术,具体公开了用于指示帧大小信息的应用程序编程接口。在至少一个实施例中,执行应用程序编程接口(API)以使用一个或更多个神经网络来指示帧大小信息。
Description
相关申请的交叉引用
本申请要求于于2022年9月20日提交的标题为“用于视频帧融合的应用程序编程接口(APPLICATION PROGRAMMING INTERFACE FOR VIDEO FRAME BLENDING)”的美国临时申请No.63/408,469的权益,其公开内容通过引用全部并入本文中。本申请还出于所有目的,通过引用并入以下申请的全部公开内容:于2022年9月20日提交的标题为“视频帧共识混合(VIDEO FRAME CONSENSUSBLENDING)”的共同待决的美国专利申请No.17/949,104、于2022年9月20日提交的标题为“视频帧运动估计(VIDEO FRAME MOTION ESTIMATION)”的共同待决的美国专利申请No.17/949,099、于2022年9月20日提交的标题为“边缘增强的视频帧融合(EDGE-ENHANCEDVIDEO FRAME BLENDING)”的共同待决的美国专利申请No.17/949,124、于2022年9月20日提交的标题为“自适应视频帧融合(ADAPTIVE VIDEO FRAME BLENDING)”的共同待决的美国专利申请No.17/949,156、于2022年9月20日提交的标题为“检测视频帧融合中的重复(DETECTING DUPLICATION IN VIDEO FRAME BLENDING)”的共同待决的美国专利申请No.17/949,138、于2022年9月20日提交的标题为“融合视频帧的技术(TECHNIQUESTO BLEND VIDEO FRAMES)”的共同待决的美国专利申请No.17/949,125、于2022年9月20日提交的标题为“视频帧混合(VIDEO FRAME BLENDING)”的共同待决的美国专利申请No.17/949,153、于2022年9月20日提交的标题为“深度和像素信息的并行写入(PARALLEL WRITINGOF DEPTH AND PIXEL INFORMATION)”的共同待决的美国专利申请No.17/949,115、于2022年9月20日提交的标题为“生成视频帧的运动信息(GENERATING MOTION INFORMATION OFVIDEO FRAMES)”的共同待决的美国专利申请No.17/949,166、于2022年9月20日提交的标题为“视频帧中的非线性运动融合(NON-LINEAR MOTION BLENDING IN VIDEO FRAMES)”的共同待决的美国专利申请No.17/949,135、于2023年2月7日提交的标题为“指示帧插值支持的应用程序编程接口(APPLICATION PROGRAMMING INTERFACE TO INDICATE FRAMEINTERPOLATION SUPPORT)”的共同待决的美国专利申请No.18/106,963、于2023年2月7日提交的标题为“启用帧插值的应用程序编程接口(APPLICATION PROGRAMMING INTERFACE TOENABLE FRAME INTERPOLATION)”的共同待决的美国专利申请No.18/106,964、于2023年2月7日提交的标题为“指示帧大小信息的应用程序编程接口(APPLICATION PROGRAMMINGINTERFACE TO INDICATE FRAME SIZE INFORMATION)”的共同待决的美国专利申请No.18/106,971、以及于2023年2月7日提交的标题为“使得执行帧插值的应用程序编程接口(APPLICATION PROGRAMMING INTERFACE TO CAUSE PERFORMANCE OF FRAMEINTERPOLATION)”的共同待决的美国专利申请No.18/106,974。
技术领域
至少一个实施例涉及用于执行一个或更多个神经网络的处理资源。例如,至少一个实施例涉及用于使用一个或更多个神经网络对视频帧进行插值的处理资源。
背景技术
实现高质量的视频会使用大量的内存、时间和资源。内存、时间或资源(例如,计算资源)的量可以被改进。例如,高分辨率视频包含大量的信息,这些信息的处理和存储会使用大量的计算、带宽、内存和其他资源。此外,视频的内容可能很复杂,其中视频的多个主题做不同的事情,这可能导致视频的像素以不直接的方式改变。在某些情况下,为了使视频的处理对特定目的有用,应该快速地完成视频的增强或其他处理,但是视频的复杂性,加上视频中包含的信息量和计算资源的限制,使得对视频的有效处理变得困难。
附图说明
图1示出了根据至少一个实施例的使用神经网络生成用于帧运动的融合因子的示例示意图;
图2示出了根据至少一个实施例的神经网络生成插值视频帧的示例示意图;
图3示出了根据至少一个实施例的生成插值视频帧的示例过程;
图4示出了根据至少一个实施例的其中运动向量用于生成插值帧的示例示意图;
图5示出了根据至少一个实施例的其中计算前向运动向量的示例示意图;
图6示出了根据至少一个实施例的其中光流分析用于生成中间帧的示例示意图;
图7示出了根据至少一个实施例的其中融合前向运动候选的示例示意图;
图8示出了根据至少一个实施例的其中融合反向运动候选的示例示意图;
图9示出了根据至少一个实施例的其中生成插值帧的示例示意图;
图10示出了根据至少一个实施例的用于使用神经网络生成插值帧的示例过程;
图11示出了根据至少一个实施例的其中融合运动候选以生成插值帧的示例示意图;
图12示出了根据至少一个实施例的生成多个插值帧的示例示意图;
图13示出了根据至少一个实施例的生成多个插值帧的示例示意图;
图14示出了根据至少一个实施例的使用应用程序编程接口(API)以使得生成用于帧运动的融合因子的示例示意图;
图15是示出根据至少一个实施例的将由一个或更多个处理器执行的软件程序的框图;
图16是示出根据至少一个实施例的确定对视频帧插值的支持的应用程序编程接口(API)的框图;
图17是示出根据至少一个实施例的启用视频帧插值的应用程序编程接口(API)的框图;
图18是示出根据至少一个实施例的禁用视频帧插值的应用程序编程接口(API)的框图;
图19是示出根据至少一个实施例的获得视频帧插值的参数的应用程序编程接口(API)的框图;
图20是示出根据至少一个实施例的指定视频帧插值的参数的应用程序编程接口(API)的框图;
图21示出了根据至少一个实施例的执行一个或更多个应用程序编程接口(API)的过程;
图22是示出根据至少一个实施例的处理应用程序编程接口(API)的示例软件栈的框图;
图23A示出了根据至少一个实施例的推理和/或训练逻辑;
图23B示出了根据至少一个实施例的推理和/或训练逻辑;
图24示出了根据至少一个实施例的神经网络的训练和部署;
图25示出了根据至少一个实施例的示例数据中心系统;
图26A示出了根据至少一个实施例的芯片级的超级计算机;
图26B示出了根据至少一个实施例的机架模块级的超级计算机;
图26C示出了根据至少一个实施例的机架级的超级计算机;
图26D示出了根据至少一个实施例的整个系统级的超级计算机;
图27是根据至少一个实施例的示出计算机系统的框图;
图28是根据至少一个实施例的示出计算机系统的框图;
图29示出了根据至少一个实施例的计算机系统;
图30示出了根据至少一个实施例的计算机系统;
图31A示出了根据至少一个实施例的计算机系统;
图31B示出了根据至少一个实施例的计算机系统;
图31C示出了根据至少一个实施例的计算机系统;
图31D示出了根据至少一个实施例的计算机系统;
图31E和图31F示出了根据至少一个实施例的共享编程模型;
图32示出了根据至少一个实施例的示例性集成电路和相关的图形处理器。
图33A和图33B示出了根据至少一个实施例的示例性集成电路和相关联的图形处理器。
图34A和图34B示出了根据至少一个实施例的附加的示例性图形处理器逻辑;
图35示出了根据至少一个实施例的计算机系统;
图36A示出了根据至少一个实施例的并行处理器;
图36B示出了根据至少一个实施例的分区单元;
图36C示出了根据至少一个实施例的处理集群;
图36D示出了根据至少一个实施例的图形多处理器;
图37示出了根据至少一个实施例的多图形处理单元(GPU)系统;
图38示出了根据至少一个实施例的图形处理器;
图39是根据至少一个实施例的示出用于处理器的处理器微架构的框图;
图40示出了根据至少一个实施例的深度学习应用程序处理器;
图41是根据至少一个实施例的示出了示例神经形态处理器的框图;
图42示出了根据一个或更多个实施例的图形处理器的至少部分;
图43示出了根据一个或更多个实施例的图形处理器的至少部分;
图44示出了根据一个或更多个实施例的图形处理器的至少部分;
图45是根据至少一个实施例的示出了图形处理器的图形处理引擎的框图;
图46是根据至少一个实施例的图形处理器核心的至少部分的框图;
图47A和图47B示出了根据至少一个实施例的线程执行逻辑,其包括图形处理器核心的处理元件的阵列。
图48示出了根据至少一个实施例的并行处理单元(“PPU”);
图49示出了根据至少一个实施例的通用处理集群(“GPC”);
图50示出了根据至少一个实施例的并行处理单元(“PPU”)的存储器分区单元;
图51示出了根据至少一个实施例的流式多处理器;
图52是根据至少一个实施例的高级计算管线的示例数据流图;
图53是根据至少一个实施例的用于在高级计算管线中训练、适应、实例化和部署机器学习模型的示例系统的系统图;
图54包括根据至少一个实施例的用于处理成像数据的高级计算管线5310A的示例图示;
图55A包括根据至少一个实施例的支持超声设备的虚拟仪器的示例数据流图;
图55B包括根据至少一个实施例的支持CT扫描仪的虚拟仪器的示例数据流图;
图56A示出了根据至少一个实施例的用于训练机器学习模型的过程的数据流图;
图56B是根据至少一个实施例的利用预训练的注释模型来增强注释工具的客户端-服务器架构的示例图示;
图57示出了根据至少一个实施例的编程平台的软件栈;
图58示出了根据至少一个实施例的图57的软件栈的CUDA实现方式;
图59示出了根据至少一个实施例的图57的软件栈的ROCm实现方式;
图60示出了根据至少一个实施例的图57的软件栈的OpenCL实现方式;
图61示出了根据至少一个实施例的由编程平台支持的软件;
图62示出了根据至少一个实施例的用于在图57-60的编程平台上执行的编译代码;
图63示出了根据至少一个实施例的多媒体系统;
图64示出了根据至少一个实施例的分布式系统;
图65示出了根据至少一个实施例的超采样神经网络;
图66示出了根据至少一个实施例的超采样神经网络的架构;
图67示出了根据至少一个实施例的使用超采样神经网络进行流式传输的示例;
图68示出了根据至少一个实施例的使用超采样神经网络的模拟的示例;以及
图69示出了根据至少一个实施例的使用超采样神经网络的设备的示例。
具体实施方式
本文所描述和所建议的技术涉及使用一个或更多个神经网络来执行视频处理操作,包括增加视频的帧率的操作。在至少一个实施例中,系统(例如,执行游戏引擎的处理器)生成对应于视频中的相应时间的视频帧,并且视频的帧率由处理器通过使用一个或更多个神经网络在视频生成的帧的时间之间的时间处生成一个或更多个视频帧来增加,诸如通过在由所述游戏引擎生成的每对帧之间生成帧。下面诸如结合图3描述了使用一个或更多个神经网络来生成帧的示例过程。
在至少一个实施例中,游戏引擎(诸如上述和本文其他地方所述的)或其他视频提供者生成或以其他方式提供视频帧,该视频帧包括两个连续帧(分别称为先前帧和当前帧,尽管单词“先前”和“当前”指的是将在其之间生成一个或更多个帧的帧,其中这些单词在某些上下文中可能不是准确的形容词)。在至少一个实施例中,所述处理器或另一处理器(诸如下面在图1中所描述的处理器102)对先前帧和当前帧执行空间上采样(例如,使用如下所述的神经网络技术或不使用神经网络),以增加先前帧和当前帧的分辨率(例如,从1080p到4K、或从4K到8K、或其他),但是在一些实施例中不应用上采样。上采样也可称为超级采样,经上采样的帧可称为经超级采样的帧。
在至少一个实施例中,所述处理器或另一处理器从经上采样的当前帧和经上采样的先前帧生成第一多个帧和第二多个帧,其具有与所述经上采样的先前帧和经上采样的当前帧以及经上采样的先前帧相同的分辨率(例如,4K或8K)。在至少一个实施例中,第一多个帧和第二多个帧中的这些帧可以称为运动扭曲的彩色帧(或高分辨率(HR)运动扭曲的彩色帧或其他),并且这些帧可以具有RGB或其他颜色空间中的像素值。应该注意的是,尽管该名称为“运动扭曲的”,但这些运动扭曲的彩色帧中的一个或更多个帧可能缺乏任何运动扭曲,如下一段所述。
在至少一个实施例中,(运动扭曲的彩色帧中的)该第一多个帧包括:与当前帧相同或以其他方式基于当前帧(其缺乏应用于当前帧的任何运动)的第一帧(其中该第一帧,如果被显示,将类似于先前帧,因为对应的显示图像中的对象将位于相同或类似的位置);基于从所述游戏引擎输出或以其他方式获得的一个或更多个运动向量而生成的用于表示从当前帧的一个或更多个像素的运动的第二帧;以及基于以与所述第二帧不同的方式获得的一个或更多个运动向量(诸如使用光流分析生成的光流运动向量,该光流分析可以利用所述处理器或另一处理器的光流电路或其他光流硬件)而生成的用于表示从当前帧的一个或更多个像素的运动的第三帧。在至少一个实施例中,类似地,该第一多个帧包括:与先前帧相同或以其他方式基于先前帧(其缺乏应用于先前帧的任何运动)的第一帧(其中该第一帧,如果被显示,将类似于先前帧,因为对应的显示图像中的对象将位于相同或类似的位置);基于从所述游戏引擎输出或以其他方式获得的一个或更多个运动向量而生成的用于表示从先前帧的一个或更多个像素的运动的第二帧;以及基于以与所述第二帧不同的方式获得的一个或更多个运动向量(诸如使用光流分析生成的光流运动向量,该光流分析可以利用所述处理器或另一处理器的光流电路)而生成的用于表示从先前帧的一个或更多个像素的运动的第三帧。在至少一个实施例中,所述运动向量(来自游戏引擎或光流分析或其他)对从当前帧或先前帧之一到正在生成的帧(例如,当前帧与先前帧之间的帧)的运动进行近似。下面将诸如结合图1和图2进一步讨论示例性的多个帧(被称为中间帧)。在至少一个实施例中,在不丧失一般性和为了方便的情况下,“中间帧”(或诸如“多个中间帧”之类的变体)的使用是指以下任何一种:运动扭曲的彩色帧、LR亮度运动扭曲的帧、经融合的中间帧、插值帧以及这些短语的变体和“中间帧”的使用适用的特定类型的帧(其从上下文来看将是清楚的)。
在至少一个实施例中,所述处理器或其他处理器对该运动扭曲的彩色帧进行下采样以及将经下采样的运动扭曲的帧转换到YUV颜色空间,或者在至少一个其他实施例中,所述处理器或其他处理器转换运动扭曲的彩色帧以及对这些经转换的运动扭曲的彩色帧的结果进行下采样。在至少一个实施例中,所述处理器或其他处理器执行转换和下采样,并仅使用YUV颜色空间的亮度(luma)通道来生成低分辨率(LR)亮度运动扭曲的帧,其中LR亮度运动扭曲的帧(例如,仅具有来自YUV颜色空间的亮度值的LR帧)。在至少一个实施例中,该处理器或其他处理器执行所述下采样以匹配由所述游戏引擎或其他视频提供者输出的帧的分辨率。在至少一个实施例中,当前帧和先前帧的下采样版本仅利用所述YUV颜色空间的亮度通道。在至少一个实施例中,这些LR亮度运动扭曲的帧包括第一多个帧和第二多个帧,该第一多个帧包括从当前帧生成或以其他方式从当前帧获得的帧,该第二多个帧包括从先前帧生成或以其他方式从先前帧获得的帧,其中这些第一多个帧和第二多个帧中的每一帧对应于其相应的当前帧或先前帧的不同类型的运动扭曲(例如,无运动扭曲;由于游戏引擎或其他提供的运动向量而产生的运动扭曲,和/或由于光流分析的运动向量而产生的运动扭曲,诸如上述所讨论的和本文以其他方式所讨论的)。
在至少一个实施例中,所述处理器或其他处理器将该多个LR亮度运动扭曲的帧(上述的所述第一多个帧和第二多个帧)输入神经网络(诸如利用具有SoftMax层的U-net架构的神经网络,其中该神经网络被训练以生成融合因子),以生成指示如何融合中间帧的多个融合因子(例如,上面讨论的所述多个帧从当前帧和先前帧生成)。在至少一个实施例中,从所述神经网络输出的融合因子(下面更详细地讨论的融合因子)的分辨率等于LR亮度运动扭曲的帧的分辨率和/或游戏引擎或其他视频提供者的输出的分辨率。在至少一个实施例中,例如,融合因子具有1080p的分辨率,并且对于1080p图像中的每个像素存在单独的融合因子,但是在一些实施例中,压缩或其他技术可能导致缺少像素与融合因子的一对一的对应关系。
在至少一个实施例中,所述处理器或其他处理器对所述神经网络生成的融合因子进行上采样,以使其具有与所述运动扭曲的彩色帧的分辨率相匹配的分辨率(其可以是与空间上采样算法的输出相同的分辨率,如下面所述,诸如4K或8K)。在至少一个实施例中,所述处理器或其他处理器通过根据所述经上采样的分辨率和融合因子在像素位置之间建立对应关系,来对一个或更多个融合因子数组执行上采样,其中该对应关系可以将单个融合因子应用于多个像素,诸如4x4或9x9像素网格,或者可以使用更复杂的上采样技术,诸如最近邻插值、具有非最大抑制的上采样、双线性插值、使用高斯重构的插值、使用高斯滤波器或其他滤波器的上采样、双三次插值、以及使用被训练为对融合因子进行上采样的一个或更多个神经网络的上采样。在至少一个实施例中,虽然融合因子数组与融合因子将被应用到的图像可以具有相同的分辨率,但其他实施例中融合因子数组与融合因子将被应用到的图像可以具有不同分辨率,诸如当像素和融合因子之间的对应关系以其他方式建立时。
在至少一个实施例中,这些融合因子包括信息,对于正在生成的帧中的每个像素位置,该信息指示如何组合所述运动扭曲的彩色帧中的每个帧中的相同位置处的像素值(例如,通过像素值的加权和)。在至少一个实施例中,融合因子被组织成两个数组,其中第一数组包括指示如何融合从当前帧生成的或以其他方式从当前帧获得的运动扭曲的彩色帧的对应像素的融合因子,第二数组包括指示如何融合从先前帧生成的或以其他方式从先前帧获得的运动扭曲的彩色帧的对应像素的融合因子。
在至少一个实施例中,第一数组包括多个三维向量或其他维度的向量,其中每个元素指示将被应用于从当前帧生成或以其他方式从当前帧获得的对应运动扭曲的彩色帧中的对应像素值的权重。在至少一个实施例中,例如,与正在生成的帧中的像素位置相对应的向量(0.25、0.75、0.0)指示像素位置的像素值(例如亮度)将被计算为0.25*p1+0.75*p2+0.0*p3,其中p1指示在同一像素位置处的第一运动扭曲的彩色帧的像素值,p2指示在所述同一像素位置处的第二运动扭曲的彩色帧的像素值,p3指示在所述像素位置处的第三运动扭曲的彩色帧的像素值。
在至少一个实施例中,第二数组包括多个三维向量或其他维度的向量,其中每个元素指示将被应用于从先前帧生成的或以其他方式从先前帧获得的对应运动扭曲的彩色帧中的对应像素值的权重。在至少一个实施例中,例如,与正在生成的帧中的像素位置相对应的向量(0.31、0.41、0.28)指示该像素位置的像素值(例如亮度)被计算为0.31*p1+0.41*p2+0.28*p3,其中p1指示在同一像素位置处的第一运动扭曲的彩色帧的像素值,p2指示在所述同一像素位置处的第二运动扭曲的彩色帧的像素值,p3指示在所述像素位置处的第三运动扭曲的彩色帧的像素值。在至少一个实施例中,本示例的像素值是RGB向量,其包括指示红色的值、绿色的值和蓝色的值的元素,并且相加是逐元素相加(例如,其中相应的红色的值被加在一起,相应的绿色的值被加在一起,相应的蓝色的值被加在一起)。虽然示例示出了相加为1.0(例如,由于所述神经网络中的所述SoftMax层)的每个向量的元素,但元素不一定是归一化的,并且在某些实施例中可能相加为不同于1的值(例如,大于或小于1)。
在至少一个实施例中,代替两个向量数组,其中每个数组对应于运动扭曲的彩色帧的相应子集,而是单个数组可以包括更大的向量,诸如其中每个元素对应于相应的运动扭曲的彩色帧的向量,并且总的来说,所有所述运动扭曲的彩色帧在每个向量中具有对应的元素。在至少一个实施例中,例如在生成六个运动扭曲的彩色帧的实施例中,数组可以包括6维向量,并且继续在上一段落中的示例,向量可以是(0.31,0.41,0.28,0.25,0.75,0.0),其中对应关系如上述所讨论的,或可以是(0.155,0.205,0.14,0.125,0.375,0.0),其具有和为1的元素。在这样的实施例中,本文讨论的操作可以相应地被调整。下面还讨论了融合因子,诸如结合图1。
在至少一个实施例中,所述处理器或其他处理器使用所述神经网络提供的融合因子,来根据融合因子生成运动扭曲的彩色帧的经融合的逐元素和。在至少一个实施例中,所述处理器或其他处理器将如上所述的对应运动扭曲的彩色帧的同一位置的像素进行组合。作为示例,对于一像素位置的每个像素,所述处理器或其他处理器使用与该像素位置相对应的融合因子来组合(例如,像素值相加)所述像素位置处的对应的运动扭曲的彩色帧的像素值,如上述所述。在至少一个实施例中,诸如在利用如上所述的两个向量数组或利用单个向量数组的实施例中,所述处理器或其他处理器生成两个经融合中间帧,一个来自从当前帧生成的或以其他方式从当前帧获得的运动扭曲的彩色帧,另一个来自从先前帧生成的或以其他方式从先前帧获得的运动扭曲的彩色帧。在至少一个实施例中,所述处理器或其他处理器生成单个经融合的运动扭曲的彩色帧,其可以是最终输出帧,其可被称为插值帧。
在至少一个实施例中,如上所述,所述处理器或其他处理器可以生成两个或更多个经融合的中间帧,并且在这样的实施例中,所述处理器和其他处理器融合所述两个或更多个经融合的中间帧以生成插值帧。在至少一个实施例中,所述处理器或其他处理器不使用神经网络来执行经融合的中间帧的融合,但在一些实施例中,可以使用被训练为融合中间帧的神经网络。在至少一个实施例中,所述处理器或其他处理器通过对来自每个经融合的中间帧的对应(例如,同一)像素位置的对应像素值求平均来执行融合。在至少一个实施例中,融合经融合的中间帧的结果被用作最终输出帧(例如,以被添加到显示缓冲区或以其他方式提供),但是在一些实施例中,在将所述结果用作最终输出之前可以执行附加的图像处理。
在至少一个实施例中,随着当前帧变成先前帧,并且从游戏引擎或其他视频提供者获得新的当前帧,重复如上所述的操作。
在至少一个实施例中,本文所描述的关于使用神经网络的帧插值的系统、方法、技术和操作将在没有神经网络的情况下执行。在至少一个实施例中,例如,可以通过首先执行一个或更多个矩阵或张量运算(例如,乘法、加法、卷积等)以生成中间帧,然后使用这些中间帧执行帧插值,来执行诸如本文所述的那些之类的帧插值操作。在至少一个实施例中,在中间帧的帧插值之后或期间执行附加操作,包括但不限于附加矩阵或张量运算。
图1示出了根据至少一个实施例的使用神经网络生成用于帧运动的融合因子的示例示意图100。在至少一个实施例中,处理器102实施或以其他方式执行一个或更多个指令,以利用神经网络110使用诸如本文所述的那些系统和方法生成帧运动的混合因子。在至少一个实施例中,处理器102使用神经网络110生成在帧插值中使用的帧运动的混合因子,如本文至少结合图2和图3所述的。在至少一个实施例中,处理器102使用神经网络110生成用于帧运动的融合因子,以用于执行基于深度学习的帧插值(例如,深度学习帧生成(DLFG)),如本文至少结合图4至图10所述的。在至少一个实施例中,神经网络110的输入包括一个或更多个帧(例如,先前帧104和/或当前帧106)和附加的帧信息,包括但不限于,先前帧104和/或当前帧106的像素的深度信息、先前帧104和/或当前帧106的像素的运动信息、摄像机位置和/或方向,和/或诸如本文至少结合图1和图2所述的其他此类信息。在至少一个实施例中,神经网络110的输出包括一个或更多个中间帧的融合因子。
在至少一个实施例中,处理器102是诸如下面所述的那些之类的处理器。在至少一个实施例中,例如,处理器102是中央处理单元(CPU)、图形处理单元(GPU)、并行处理单元(PPU)、通用图形处理单元(GPGPU)、计算集群和/或这些和/或其他此类处理器的组合。在至少一个实施例中,处理器102是诸如本文所述的那些(例如,诸如本文至少结合图27-30所述的那些)之类的计算机系统的一部分。在至少一个实施例中,图1中未示出,一个或更多个附加处理器用于实施或以其他方式执行一个或更多个指令,以利用神经网络110使用诸如本文所述的那些系统和方法生成用于帧运动的融合因子。在至少一个实施例中,图1中未示出,处理器102是诸如本文所述的那些之类的多个处理器中的一个。
在至少一个实施例中,神经网络110是诸如本文至少结合图24所述的那些之类的神经网络。在至少一个实施例中,神经网络110被称为神经模型。在至少一个实施例中,神经网络110被称为学习模型。在至少一个实施例中,神经网络110被称为推理模型。在至少一个实施例中,神经网络110是诸如本文所述的那些之类的多个神经网络中的一个。在至少一个实施例中,神经网络是本文至少结合图2所述的诸如神经网络212之类的神经网络。
至少在一个实施例中,图1中未示出,训练数据用于使用诸如本文所述的系统和方法来训练未训练的神经网络以生成经训练的神经网络(例如,如本文至少结合神经网络212(本文至少结合图2所述的)所述的)。在至少在一个实施例中,未训练的神经网络是已经部分训练并且针对其要发生附加训练的神经网络。在至少一个实施例中,训练数据是诸如本文至少结合图24所述的训练数据集2402之类的训练数据集。在至少一个实施例中,未训练的神经网络是诸如未训练的神经网络2406(也如本文至少结合图24所述)之类的未训练的神经网络。在至少一个实施例中,经训练的神经网络是诸如经训练的神经网络2408(也如本文至少结合图24所述)之类的经训练的神经网络。在至少一个实施例中,通过生成输入数据的随机改变的变化,使用监督学习、使用强监督学习、使用弱监督学习来训练诸如本文所述的那些之类的神经网络。
在至少一个实施例中,图1中未示出,使用一个或更多个神经网络参数生成诸如本文所述的那些之类的神经网络。在至少一个实施例中,神经网络参数是用于确定神经网络的结构和性能特性的参数。在至少一个实施例中,神经网络参数包括权重和/或其他参数,诸如神经网络的学习率、神经网络的局部迭代、神经网络的聚合权重、神经网络的神经元的数量等。
在至少一个实施例中,处理器102接收先前帧104(其也可被称为历史帧或历史的帧、或以其他方式)、当前帧106和附加帧信息108。虽然使用了“帧”一词,但可以使用其他术语,诸如视频帧、游戏帧、图像帧、图像、图片、帧数据、图像数据等。在至少一个实施例中,先前帧104是视频帧和/或图像数据的集合中的先前帧。在至少一个实施例中,例如,先前帧104是由图形处理单元(GPU)、多媒体设备、游戏机、视频捕获设备、自主驾驶车辆的摄像机、广播电视设备和/或其他此类设备渲染的最近的先前帧。在至少一个实施例中,先前帧104是使用图形引擎、游戏引擎、多媒体引擎和/或其他此类渲染引擎渲染的最近的先前帧(例如,在当前帧之前)。在至少一个实施例中,先前帧104是由神经网络和/或其他一些此类人工智能和/或基于深度学习的系统模拟的最近的先前帧。在至少一个实施例中,先前帧104不是最近的先前帧,而是更早的帧。在至少一个实施例中,图1中未示出,先前帧104包括多个先前帧。在至少一个实施例中,先前帧104已显示或渲染到诸如本文所述的那些之类的显示设备(例如,计算设备的屏幕或监控器)上。在至少一个实施例中,先前帧104尚未显示或渲染到诸如本文所述的那些之类的显示设备上。在至少一个实施例中,图1中未示出,先前帧104包括一种或更多种类型的数据的组合,包括但不限于视觉数据(例如,像素)、非视觉数据(例如,声音)、物理数据(例如,当前帧104的对象的运动和/或力)、触觉数据(例如,来自物理帧104的对象的力反馈)和/或其他此类数据。在至少一个实施例中,图1中未示出,先前帧104是由不同于神经网络110的一个或更多个神经网络生成的。
在至少一个实施例中,当前帧106是视频帧和/或图像数据的集合中的当前帧。在至少一个实施例中,例如,当前帧106是由图形处理单元(GPU)、多媒体设备、游戏机、视频捕获设备、自主驾驶车辆的摄像机、广播电视设备和/或其他此类设备渲染的最近的当前帧。在至少一个实施例中,先前帧104和当前帧106是由如下所述的系统(例如,游戏引擎)连续渲染的帧。在至少一个实施例中,当前帧106是使用图形引擎、游戏引擎、多媒体引擎和/或其他此类渲染引擎渲染的最近的当前帧。在至少一个实施例中,当前帧106是由神经网络和/或其他一些此类人工智能和/或基于深度学习的系统生成或模拟的最近的当前帧。在至少一个实施例中,当前帧106不是最近的当前帧,而是更早的帧。在至少一个实施例中,图1中未示出,当前帧106包括多个当前帧。在至少一个实施例中,当前帧106已显示或渲染到诸如本文所述的那些之类的显示设备(例如,计算设备的屏幕或监控器)上。在至少一个实施例中,当前帧106尚未显示或渲染到诸如本文所述的那些之类的显示设备上。在至少一个实施例中,图1中未示出,当前帧106包括一种或更多种类型的数据的组合,包括但不限于视觉数据(例如,像素)、非视觉数据(例如,声音)、物理数据(例如,当前帧106的对象的运动和/或力)、触觉数据(例如,来自当前帧106的对象的力反馈)和/或其他此类数据。在至少一个实施例中,图1中未示出,当前帧106由不同于神经网络110的一个或更多个神经网络生成。
在至少一个实施例中,先前帧104来自于当前帧106之前的(例如,视频流中的)时间(例如,来自更早的时间)。在至少一个实施例中,先前帧104来自于当前帧106之后的(例如,视频流中的)时间(例如,来自更晚的时间)。在至少一个实施例中,先前帧104来自与当前帧106相同的(例如,视频流中的)时间。在至少一个实施例中,先前帧104和当前帧来自诸如本文所述的那些之类的单个共享设备。在至少一个实施例中,先前帧104来自诸如本文所述的那些之类的第一设备,而当前帧106来自诸如本文所述的那些之类的第二设备。在至少一个实施例中,先前帧104和当前帧106包括相同类型的内容(例如,两者都来自游戏引擎)。在至少一个实施例中,先前帧104和当前帧106包括一种或更多种不同类型的内容(例如,先前帧104来自游戏引擎,当前帧106来自自主驾驶车辆)。如本文所用,先前帧104也被称为第一帧,当前帧106也被称为第二帧。
在至少一个实施例中,附加帧信息108是与先前帧104和/或当前帧106相关联的附加数据。在至少一个实施例中,附加帧信息108包括颜色数据(例如,帧的对象和/或像素的颜色)、深度数据(例如,帧的对象和/或像素的深度)、运动数据(例如,帧的对象和/或像素的运动)、阴影运动数据(例如,帧的对象和/或像素的阴影的运动)、摄像机数据(例如,用于生成帧的一个或更多个摄像机的位置和/或方向)、法线数据(例如,帧的对象和/或像素的表面法线的位置和/或方向)、光照数据(例如,帧的一个或更多个光源的位置、方向和/或颜色)、反射数据(例如,来自帧的对象的表面的光照反射)、焦散数据(例如,来自帧的对象的漫射表面的光照反射)、反照率数据(例如,帧的对象和/或像素的底层颜色)、和/或其他此类信息。在至少一个实施例中,附加帧信息108的一个或更多个元素作为先前帧104和/或先前帧106的一部分被包括。
在至少一个实施例中,处理器102接收先前帧104、当前帧106和/或附加帧信息108。在至少一个实施例中,先前帧104和/或当前帧106是通过空间上采样(例如,通过空间超级采样,诸如,例如来自的DLSS、XeSS(或XeSS)、来自的FidelityFXTMsuperResolution等)生成的。在至少一个实施例中,图1中未示出,处理器存储来自诸如本文所述的那些之类的系统和方法的一个或更多个先前迭代的先前帧104和/或部分或全部附加帧信息108,以使用诸如神经网络110之类的神经网络来生成在帧插值中使用的帧运动的融合因子,如本文至少结合图所述图2和图3所述。在至少一个实施例中,图1中未示出,处理器存储来自诸如本文所述的那些系统和方法的一个或更多个先前迭代的先前帧104和/或部分或全部附加帧信息108,以使用诸如神经网络110之类的神经网络来生成在DLFG中使用的帧运动的融合因子,如本文至少结合图4到图10所述。在至少一个实施例中,从诸如本文至少结合图65至图69所述的那些之类的深度学习超级采样神经网络接收先前帧104和/或当前帧106。在至少一个实施例中,空间上采样发生在DLFG之前(例如,DLFG使用经上采样的帧)。在至少一个实施例中,空间上采样发生在DLFG之后(例如,上采样使用来自DLFG的插值帧)。在至少一个实施例中,空间上采样和DLFG部分地和/或完全同时地发生。在至少一个实施例中,对空间上采样发生在DLFG之前还是空间上采样发生在DLFG之后的确定至少部分地基于先前帧104和/或当前帧106的内容。
在至少一个实施例中,处理器102预处理帧126以生成如上所述的一个或更多个经预处理的帧(例如,执行转换和下采样,并仅使用YUV颜色空间的亮度通道来生成较低分辨率(LR)亮度运动扭曲的帧)。在至少一个实施例中,经预处理的帧128(例如,经转换和下采样的帧)作为输入被提供给神经网络110,并且神经网络使用经预处理的帧来生成融合因子112,以融合如本文所述的中间帧116。在至少一个实施例中,神经网络110采用诸如本文所述的那些之类的技术、系统和方法使用经预处理的帧128来生成一个或更多个融合因子112。
在至少一个实施例中,神经网络110至少部分地基于如本文所述的一个或更多个融合模型输出融合因子114。在至少一个实施例中,神经网络110基于融合模型输出融合因子114。在至少一个实施例中,神经网络110为先前帧104和/或当前帧106的每个对应像素输出一个或更多个融合因子114。在至少一个实施例中,神经网络110为一个或更多个经预处理的帧128(例如,神经网络110的输入帧)的每个对应像素输出一个或更多个融合因子114。例如,在至少一个实施例中,神经网络110为经预处理的帧128的每个对应像素输出六个融合因子114。在至少一个实施例中,例如,神经网络110为如本文所述的经预处理的帧128的每个对应像素输出两组的三个融合因子114。
在至少一个实施例中,神经网络110使用诸如本文所述的那些之类的系统和方法生成一个或更多个融合因子112,以至少部分地基于先前帧104和当前帧106来融合中间帧116。在至少一个实施例中,例如,如果先前帧104位于10.0秒标记处,当前帧106位于10.1秒标记处,则神经网络110生成一个或更多个融合因子112以融合中间帧116,该中间帧116用于在10.05秒标记处(例如,在先前帧104和当前帧106之间的中间(halfway)处)生成一个或更多个中间帧。在至少一个实施例中,并且如本文所述,神经网络110生成一个或更多个融合因子112以融合中间帧116,该中间帧116用于在先前帧104和当前帧106之间的多个时间处(例如,在10.01秒、10.02秒等处)生成一个或更多个中间帧。在至少一个实施例中,神经网络110使得通过将当前帧106的元素投射到一个或更多个中间帧(例如,运动、深度、颜色和或诸如本文所述的那些之类的其他元素),通过将先前帧104的元素投射到一个或更多个中间帧(例如,运动、深度、颜色和或诸如本文所述的那些之类的其他元素),以及使用诸如本文所述的那些之类的系统和方法融合所述元素,来生成一个或更多个中间帧和/或生成一个或更多个融合因子112。
在至少一个实施例中,神经网络110至少部分地基于诸如本文所述的那些之类的一种或更多种运动类型(例如,由于运动向量、由于光流、由于摄像机运动、静态运动等)生成一个或更多个融合因子112。在至少一个实施例中,神经网络110至少部分地基于先前帧104和/或当前帧106的像素和/或对象的运动信息生成一个或更多个融合因子112。在至少一个实施例中,例如,神经网络110至少部分地基于与先前帧104、当前帧106、和/或先前帧104和当前帧106的组合的像素相对应的一组运动向量,生成一个或更多个融合因子112。在至少一个实施例中,神经网络110使用诸如本文至少结合图2和图3所述的那些之类的系统和方法生成一个或更多个融合因子112。在至少一个实施例中,神经网络110使用诸如本文至少结合图4至图22所述的那些之类的系统和方法生成一个或更多个融合因子112。在至少一个实施例中,图1中未示出,用于生成一个或更多个融合因子112的神经网络可以不同于神经网络110,以便例如神经网络110接收由的一个或更多个其他神经网络(图1中未示出)生成的一个或更多个融合因子。
在至少一个实施例中,图1中未示出,附加帧信息108包括先前帧104、当前帧106和/或附加帧信息108中数据的置信度信息。在至少一个实施例中,例如,附加帧信息108包括当前帧106中的对象的运动的一个或更多个置信度度量,以便例如为当前帧106接收的运动向量被认为是完全可靠的(例如,具有最高的置信度),被认为是非常可靠的(例如,具有高的置信度),被认为是不太可靠的(例如,具有较低置信度),或被认为是不可用的(例如,无置信度)。
在至少一个实施例中,图1中未示出,当神经网络110生成一个或更多个融合因子112时,神经网络110使得置信度信息被生成。在至少一个实施例中,由神经网络110生成的置信度信息是至少部分地基于包括在附加帧信息108中的置信度信息的,如本文所述。在至少一个实施例中,神经网络110至少部分地基于生成一个或更多个融合因子112来改变包括在附加帧信息108中的置信度信息。在至少一个实施例中,神经网络110使得使用诸如本文至少结合图2和图3所述的那些之类的系统和方法生成置信度信息。在至少一个实施例中,神经网络110使得使用诸如本文所述的那些之类的系统和方法生成置信度信息。
在至少一个实施例中,图1中未示出,神经网络110使得使用诸如本文所述的那些之类的系统和方法生成一个或更多个附加帧。在至少一个实施例中,至少部分地基于诸如本文所述的附加帧信息108生成一个或更多个附加帧。在至少一个实施例中,例如,一个或更多个附加帧包括颜色数据、深度数据、运动数据、阴影运动数据、法线数据、光照数据、反射数据、焦散数据、反照率数据和/或其他此类数据。在至少一个实施例中,除了使用附加帧信息108之外,还使用一个或更多个附加帧。在至少一个实施例中,代替使用附加帧信息108,而是使用一个或更多个附加帧。在至少一个实施例中,一个或更多个附加帧可以增强附加帧信息108(例如,通过提供过滤器、融合因子、标量和/或附加帧信息)。
在至少一个实施例中,神经网络110生成一个或更多个附加帧以增强一个或更多个中间帧。在至少一个实施例中,用于增强一个或更多个中间帧的一个或更多个附加帧是残差帧。在至少一个实施例中,例如,附加帧包括增强融合(例如,运动融合、视觉融合、或诸如本文所述的这些和/或其他融合类型的组合)的结果的一个或更多个像素。在这样的示例中,附加帧的像素可以是白色的(例如,使视觉融合结果变亮),可以是黑色的(例如,使视觉融合结果变暗),可以是灰色的(例如,使融合结果归一化),可以包括过滤器(例如,边缘增强过滤器和/或其他此类过滤器),或者可以包括其他此类信息。在这样的示例中,附加帧的像素还包括标量值,用于增强、去增强、归一化和/或过滤一个或更多个运动结果,如本文所述。在至少一个实施例中,一个或更多个附加帧包括用于替换一个或更多个中间帧的部分或全部数据的帧数据。在至少一个实施例中,例如,一个或更多个中间帧的部分或全部包括损坏的数据,在这样的示例中,一个或更多个附加帧之一可以包括作为检测此类损坏数据的结果而由神经网络110生成的全部和/或部分替换数据。在至少一个实施例中,图1中未示出,用于生成一个或更多个附加帧的神经网络不同于神经网络110,以便例如神经网络110接收由一个或更多个其他神经网络生成的一个或更多个附加帧。
在至少一个实施例中,神经网络110使得使用诸如本文所述的那些之类的系统和方法来确定用于融合帧的一个或更多个融合因子112。在至少一个实施例中,融合因子用于生成两个或更多个中间帧(例如,来自先前帧104的一帧和来自当前帧106的一帧)。在至少一个实施例中,处理器融合中间帧116,如上所述。在至少一个实施例中,神经网络110使用融合因子来融合中间帧116。在至少一个实施例中,处理器102采用诸如本文所述的那些之类的技术、系统和方法使用融合因子来融合中间帧116。
在至少一个实施例中,中间帧包括针对帧(例如,所述当前帧或所述先前帧)中的每个像素的指示从该帧到待生成的插值帧的运动的数据,其中该运动以与所述中间帧相对应的方式确定,以及其中多个中间帧中的每一个根据确定运动的不同方式具有针对每个像素的此信息。在至少一个实施例中,中间帧缺乏足够的信息以被渲染为图像,但是在一些实施例中,中间帧可以是图像。在至少一个实施例中,中间帧包括用于指示针对所述中间帧的每个像素的从先前帧到所述先前帧与当前帧之间的时间中间的位置的运动的信息。在至少一个实施例中,确定运动的不同方式包括:使用来自游戏引擎或其他源的运动向量(其可以指示某些像素的运动,但不指示其他像素的运动);使用采用标准几何技术基于摄像机位置从先前帧到当前帧的变化而计算的运动(其也可以使用从所述游戏引擎或其他源提供的像素深度来计算);基于光流分析计算的运动,和/或以其他方式计算的运动。在至少一个实施例中,融合因子指示像素的运动的加权和,其中要对来自多个相应的中间帧的多种类型的运动中的每一种的运动求和。
在至少一个实施例中,中间帧包括基于从先前帧到当前帧的运动(前向运动)而生成的第一组一个或更多个帧,以及基于从当前帧到先前帧的运动(反向运动)而生成的第二组一个或更多个帧。在至少一个实施例中,插值帧与先前帧或当前帧之间的时间距离用于计算每个中间帧的运动。在至少一个实施例中并作为示例,如果在先前帧与当前帧之间将有一个插值帧,则中间帧的运动将是在所述当前帧和所述先前帧之间计算的运动的一半(无论是前向还是反向,这取决于正在生成的中间帧)。在至少一个实施例中并且作为示例,如果在先前帧与当前帧之间将有两个插值帧,则可以基于从所述先前帧到所述当前帧的三分之一时间距离生成一种类型的运动的第一插值帧,并且可以基于从所述先前帧到所述当前帧的三分之二时间距离生成另一插值帧。通常,如果在先前帧与当前帧之间将有N个(正整数)插值帧,则可以针对先前帧与当前帧之间的时间距离的1/(N+1),所述时间距离的2/(N+1),所述时间距离的3/(N+1),…,所述时间距离的N/(N+1)处的时间位置生成中间帧。
在至少一个实施例中,例如,第一中间帧包括从先前帧104到中间帧的对象的运动(例如,沿着从先前帧104运动到当前帧106的动态对象的运动向量的中间),其中这种运动可以来自从游戏引擎或其他源提供的运动向量。在至少一个实施例中,第二中间帧包括静态对象(例如,由于运动向量并不运动但在例如摄像机运动下从先前帧104运动到当前帧106的对象)的运动,其中可以使用深度和摄像机位置计算这种运动(其可被称为光学运动)。在至少一个实施例中,第三中间帧包括静态对象(例如,根本不运动的对象,例如一些用户界面元素)的运动。在至少一个实施例中,第四中间帧包括来自诸如本文所述的那些之类的一个或更多个附加帧的数据。在至少一个实施例中以及在这样的示例中,神经网络110使用一个或更多个融合因子112,以通过融合例如来自第一中间帧的25%的运动、来自第二中间帧的25%的运动、来自第三中间帧的25%的运动和来自第四中间帧的25%的运动,来对多个帧进行融合。在至少一个实施例中,像素的融合因子更支持一种类型的运动,诸如来自由游戏引擎产生的运动向量的运动。在至少一个实施例中,不同的像素具有不同的融合因子,这可能是由于像素从一帧到另一帧的运动可以取决于许多不同的因素,诸如视频场景内对象的横向运动、视频场景内对象的旋转运动、虚拟摄像机的摄像机运动等。
在至少一个实施例中并且在这样的示例中,神经网络110还可以使用一个或更多个融合因子112,以通过融合例如来自第一中间帧的100%的运动、来自第二中间帧的0%的运动、来自第三中间帧的0%的运动和来自第四中间帧的0%的运动,来对多个帧进行融合。在至少一个实施例中,神经网络110使用一个或更多个融合因子112,通过例如使用一个或更多个负融合因子112去强调来自一个或更多个中间帧的融合,来对多个帧进行融合。在至少一个实施例中,神经网络110使用一个或更多个融合因子112来对多个帧进行融合,这些帧包括诸如待生成114的一个或更多个附加帧之类的一个或更多个附加帧。
在至少一个实施例中,例如,神经网络110使用一个或更多个融合因子112,通过首先生成表示来自当前帧106的对象的运动的一个或更多个中间帧(例如,反向时间),然后通过使用一个或更多个融合因子112融合表示来自当前帧106的对象的运动的一个或更多个中间帧,来对多个帧进行融合。在至少一个实施例中,例如,第一中间帧包括从当前帧106到中间帧的对象的运动(例如,沿着从当前帧106运动到先前帧104的动态对象的运动向量的中间),第二中间帧包括静态对象(例如,由于运动向量并不运动,而在例如摄像机运动下从当前帧106运动到先前帧104的对象)的光学运动,第三中间帧包括静态对象(例如,根本不运动的对象,诸如用户界面元素),以及第四附加帧包括诸如本文中所描述的这些附加帧。在至少一个实施例中并且在这样的示例中,神经网络110使用一个或更多个融合因子112来融合如上结合从先前帧104到中间帧的运动的帧。
在至少一个实施例中,用于融合多个帧的一个或更多个融合因子112是如上所述的线性组合(例如,来自第一中间帧的25%的运动,来自第二中间帧的25%的运动,来自第三中间帧的25%的运动,以及来自第四中间帧的25%的运动)。在至少一个实施例中,用于融合多个帧的一个或更多个融合因子112是非线性组合(例如,来自第一中间帧的运动和来自第二中间帧的运动的组合(或乘法)的50%,加上来自第三中间帧的运动的50%)。
在至少一个实施例中,图1中未示出,除了一个或更多个融合因子外,神经网络还使得生成一个或更多个质量掩模。在至少一个实施例中,质量掩模是至少部分地基于诸如本文所述的那些之类的置信度度量。在至少一个实施例中,质量掩模包括在融合因子112的计算中,以便例如可以减少基于低置信度数据的融合因子,并且可以增加基于高置信度数据的融合因子。
在至少一个实施例中,处理器102使得使用诸如本文所述的那些之类的系统和方法生成一个或更多个插值帧120。在至少一个实施例中,处理器102接收来自神经网络110的一个或更多个经融合帧(例如,通过使用融合因子112融合来自一个或更多个中间帧和/或一个或更多个附加帧114的数据而生成的帧)。在至少一个实施例中,处理器102使得通过将由从先前帧104到一个或更多个中间帧的运动而生成的第一经融合帧与由从当前帧106到一个或更多个中间帧的运动而生成的第二经融合帧进行融合,来生成一个或更多个插值帧120,如本文所述。在至少一个实施例中,图1中未示出,处理器102使得通过组合来自神经网络的经融合帧与从诸如本文所述的一个或更多个其他源(例如,GPU、多媒体设备、游戏控制台、视频捕获设备、自主车辆的摄像机、广播电视设备、和/或其他此类设备、和/或从图形引擎、游戏引擎、多媒体引擎和/或其他这样的渲染引擎,和/或从神经网络等)接收的一个或更多个其他帧,来生成一个或更多个插值帧120。
在至少一个实施例中,处理器102使用神经网络110以使得生成一个或更多个插值帧120。在至少一个实施例中,处理器102使用一个或更多个其他神经网络,图1中未示出,以使得生成一个或更多个插值帧120。在至少一个实施例中,插值帧120被提供122给诸如本文至少结合图36A至图36D所述的那些之类的帧缓冲区124,以使用诸本文所述的那些之类的系统和方法来显示。
在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于生成一个或更多个运动候选的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于作为中间帧而生成一个或更多个运动候选的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于从一个或更多个运动类型(例如,对象运动、阴影运动、摄像机运动、光流、静态对象等)生成一个或更多个运动候选的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于从多个对象运动类型(例如,对象运动、阴影运动、摄像机运动、光流、静态对象等)生成一个或更多个运动候选的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于从多个摄像机运动类型生成一个或更多个运动候选的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于从多个光流类型(例如,摄像机运动、粒子运动、光照运动、阴影运动、动态表面类型、改变UI元素等)生成一个或更多个运动候选的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于从多个静态运动类型(例如,改变UI元素,移动UI元素,将对象从动态改变到静态,将对象从静态改变到动态等)生成一个或更多个运动候选的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于生成运动的一个或更多个融合因子的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于生成与诸如先前帧104、当前帧106和/或附加帧信息108之类的输入数据相关联的置信度信息的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于生成一个或更多个融合因子的置信度信息(例如,置信度度量或质量掩模)的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于预处理先前帧104、当前帧106和/或附加帧信息108中的一个或更多个的一个或更多个电路。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,处理器102包括用于后处理中间帧、附加帧、融合因子、经融合帧和/或插值帧中的一个或更多个的一个或更多个电路。
在至少一个实施例中,一个或更多个处理器(例如,处理器102和/或其他处理器和/或加速器,诸如本文所述的那些)包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以指示支持使用一个或更多个神经网络来执行帧插值的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以指示支持执行帧插值的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于指示一个或更多个处理器的使用神经网络来执行帧插值的一个或更多个能力的一个或更多个电路。在至少一个实施例中,图1中未示出,机器可读介质在其上存储有一组指令,该组指令如果由一个或更多个处理器执行,则将执行本文至少结合图1-22所述的操作,诸如用于执行应用程序编程接口(API)以指示支持使用一个或更多个神经网络来执行帧插值的操作。
在至少一个实施例中,一个或更多个处理器(例如,处理器102和/或其他处理器和/或加速器,例如本文所述的那些)包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以启用使用一个或更多个神经网络的帧插值的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,例如用于执行应用程序编程接口(API)以启用帧插值的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以使得一个或更多个处理器使用一个或更多个神经网络来执行帧插值的一个或更多个电路。在至少一个实施例中,图1中未示出,机器可读介质在其上存储有一组指令,该组指令如果由一个或更多个处理器执行,则将执行本文至少结合图1-22所述的操作,诸如用于执行应用程序编程接口(API)以启用使用一个或更多个神经网络的帧插值的操作。
在至少一个实施例中,一个或更多个处理器(例如,处理器102和/或其他处理器和/或加速器,例如本文所述的那些)包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以禁用使用一个或更多个神经网络的帧插值的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以禁用帧插值的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以使得一个或更多个处理器生成一个或更多个视频帧、而无需使用一个或更多个神经网络来执行帧插值的一个或更多个电路。在至少一个实施例中,图1中未示出,机器可读介质在其上存储有一组指令,该组指令如果由一个或更多个处理器执行,则将执行本文至少结合图1-22所述的操作,诸如用于执行应用程序编程接口(API)以禁用使用一个或更多个神经网络的帧插值的操作。
在至少一个实施例中,一个或更多个处理器(例如,处理器102和/或其他处理器和/或加速器,诸如本文所述的那些)包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以使用一个或更多个神经网络指示帧大小信息的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以指示帧大小信息的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以指示用于使用一个或更多个神经网络执行帧插值的一个或更多个设置的一个或更多个电路。在至少一个实施例中,图1中未示出,机器可读介质在其上存储有一组指令,该组指令如果由一个或更多个处理器执行,则将执行本文至少结合图1-22所述的操作,诸如用于执行应用程序编程接口(API)以使用一个或更多个神经网络来指示帧大小信息的操作。
在至少一个实施例中,一个或更多个处理器(例如,处理器102和/或其他处理器和/或加速器,诸如本文所述的那些)包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以使得使用一个或更多个神经网络执行帧插值的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以使得帧插值被执行的一个或更多个电路。在至少一个实施例中,一个或更多个处理器包括用于执行本文所述的操作或指令的一个或更多个电路,诸如用于执行应用程序编程接口(API)以使得一个或更多个处理器利用一个或更多个设置的一个或更多个电路,该一个或更多个设置为使用一个或更多个神经网络执行帧插值。在至少一个实施例中,图1中未示出,机器可读介质在其上存储有一组指令,该组指令如果由一个或更多个处理器执行,则将执行本文至少结合图1-22所述的操作,诸如用于执行应用程序编程接口(API)以使得使用一个或更多个神经网络来执行帧插值的操作。
图2示出了根据至少一个实施例的神经网络生成插值视频帧的示例示意图200。在至少一个实施例中,处理器202生成帧数据204,包括但不限于先前帧206和当前帧208。在至少一个实施例中,先前帧206和/或当前帧208是通过空间上采样(例如,通过空间超级采样,例如来自的DLSS、XeSS(或XeSS)、来自的FidelityFXTMSuper Resolution等)生成的。在至少一个实施例中,处理器202是诸如本文至少结合图1所述的处理器102之类的处理器。在至少一个实施例中,处理器202是附加处理器(例如,未在图1中示出),如本文至少结合图1所述的。在至少一个实施例中,先前帧206是诸如先前帧104之类的先前帧,如本文至少结合图1所述的。在至少一个实施例中,当前帧208是诸如当前帧106之类的当前帧,如本文至少结合图1所述的。在至少一个实施例中,图2中未示出,处理器202生成附加帧信息,其是诸如附加帧信息108之类的附加帧信息,如本文至少结合图1所述的。
在至少一个实施例中,处理器210接收先前帧206和/或当前帧208,并使用先前帧206和/或当前帧208预处理帧232以生成一个或更多个中间帧,如上所述。在至少一个实施例中,处理器210使用神经网络212,以采用诸如本文所述的那些之类的系统和方法来生成一个或更多个融合因子214和/或过程帧216。在至少一个实施例中,处理器210是诸如处理器102之类的处理器,如本文至少结合图1所述。在至少一个实施例中,处理器210和处理器202是分开的处理器。在至少一个实施例中,处理器210和处理器202是一个处理器。在至少一个实施例中,神经网络212是诸如神经网络110之类的神经网络,如本文至少结合图1所述。在至少一个实施例中,神经网络212使用诸如本文至少结合图1所述的那些之类的系统和方法生成一个或更多个融合因子214。在至少一个实施例中,图2中未示出,神经网络212使用诸如本文至少结合图1所述的那些之类的系统和方法生成一个或更多个附加帧。
在至少一个实施例中,神经网络212是具有训练和推理架构的神经网络,如本文所述。在至少一个实施例中,训练框架使用训练数据来训练未训练的神经网络,以从输入数据合成、分类、识别或以其他方式推理输出数据。在至少一个实施例中,神经网络212的输入数据包括帧数据、运动数据、深度数据、摄像机数据、置信度度量、质量掩膜和其他此类数据。在至少一个实施例中,来自神经网络212的输出数据包括中间帧、附加帧、残差帧(例如,具有附加数据的帧,用于例如强调或去强调输出帧的像素)、融合因子、置信度度量、质量掩膜和/或其他此类数据。
在至少一个实施例中,训练数据被输入到训练框架中以训练未训练的神经网络,以从诸如本文所述的输入数据合成或以其他方式生成诸如本文所述的输出数据。在至少一个实施例中,训练数据是包括可用于使用训练框架训练未训练的神经网络的信息的数据。在至少一个实施例中,训练数据包括用于促进由训练框架进行的训练的监督或其他信息。在至少一个实施例中,用于促进训练的监督或其他信息包括识别训练数据的特征以改进由训练框架对未训练的神经网络的训练的数据。
在至少一个实施例中,任务标识符被输入到训练框架中,以促进训练未训练的神经网络,以使用诸如神经网络212之类的神经网络的一组神经元的子集从输入数据合成或以其他方式生成输出数据。在至少一个实施例中,任务标识符是向量。在至少一个实施例中,任务标识符是一组数据值,其可用于使用训练框架确定待训练的未训练的神经网络的一组神经元的子集。在至少一个实施例中,任务标识符是标识或指示任务的独热向量和/或可用于指示任务的标识符。在至少一个实施例中,任务标识符是训练框架用来确定待训练的未训练的神经网络的一个或更多个部分的任何数据。在至少一个实施例中,任务标识符可用于识别或指示一组或更多组训练数据。
在至少一个实施例中,训练框架是数据和软件指令,其在被执行时,更新未训练的神经网络中的权重和其他值以执行推理。在至少一个实施例中,训练框架使用生成式对抗网络(GAN)来训练未训练的神经网络。在至少一个实施例中,训练框架使用任何其他训练架构或技术来促进训练未训练的神经网络。在至少一个实施例中,训练框架确定在未训练的神经网络中反向传播的损失值,以便训练所述未训练的神经网络。
在至少一个实施例中,未训练的神经网络是数据值和/或软件指令,其在被执行时,执行计算可用于执行神经网络操作的一个或更多个数据值,诸如推理,包括分类、对象识别和/或本文所述的其他神经网络操作。在至少一个实施例中,训练框架训练未训练的神经网络以执行函数hθ(·),其获取M个输入X,并推理或以其他方式计算N个输出Y,在至少一个实施例中,训练框架训练未训练的神经网络以对训练中使用的每一项输入数据作出决策或推理。在至少一个实施例中,决策或推理包括诸如确定输入数据项具有特性或特征的一组概率之类的推理。
在至少一个实施例中,未训练的神经网络包括一个或更多个层,用于促进使用训练数据和/或输入数据进行训练或推理。在至少一个实施例中,未训练的神经网络包括一个或更多个上采样层,用于在训练期间生成具有比训练数据更大维度的输出数据。在至少一个实施例中,训练框架训练未训练的神经网络中的一个或更多个层以执行函数hθ(·)。
在至少一个实施例中,未训练的神经网络是包括如本文所述的各种未训练的层(诸如卷积层)的神经编码网络。在至少一个实施例中,未训练的神经网络包括用于执行不同操作的一个或更多个个体神经网络,诸如本文进一步所述的各种神经网络操作。在至少一个实施例中,未训练的神经网络是由训练框架训练以基于输入数据集确定输出数据集的任何类型的神经网络。
在至少一个实施例中,神经网络212是经训练的神经网络,其包括数据值和/或软件指令,这些软件指令在被执行时,使用神经网络训练期间计算的一个或更多个数据值从输入数据推理出一组输出数据,如本文所述。在至少一个实施例中,经训练的神经网络执行如上所述的函数hθ(·),以从输入数据生成输出数据。在至少一个实施例中,经训练的神经网络包括一个或更多个神经网络层,用于执行上采样以增加输出数据相比于输入数据的数据大小,例如维数。在至少一个实施例中,经训练的神经网络是神经编码网络。在至少一个实施例中,经训练的神经网络是包括卷积层的神经编码网络。在至少一个实施例中,经训练的神经网络是卷积神经网络。在至少一个实施例中,经训练的神经网络是诸如本文进一步描述的那些之类的任何类型的神经网络。
在至少一个实施例中,输入数据是包括一个或更多个维度的数据的数据。在至少一个实施例中,输入数据包括一个或更多个二维图像,其包括宽度和高度(例如,诸如先前帧206和/或当前帧208之类的帧)。在至少一个实施例中,输入数据是包括宽度、高度和深度的三维图像(例如,3D帧)。在至少一个实施例中,输入数据是包括宽度、高度、深度和一个或更多个附加层的四维(或,更高维)图像。在至少一个实施例中,输入数据包括由经训练的神经网络在推理中使用的附加类型的输入数据(诸如本文所述类型)。在至少一个实施例中,输入数据包括像素数据值。在至少一个实施例中,输入数据包括像素深度值。在至少一个实施例中,输入数据包括像素运动值。在至少一个实施例中,输入数据包括对象运动值。在至少一个实施例中,像素是图像数据内的位置,并且每个像素的图像数据包括与该像素相关联的颜色信息。在至少一个实施例中,输入数据是包括一个或更多个层的图像数据,其中每一层包括至少二维图像数据。
在至少一个实施例中,诸如本文所述的输出数据是包括单个维度或至少两个维度的数据值的数据。在至少一个实施例中,输出数据是包括宽度和高度的一个或更多个二维图像。在至少一个实施例中,输出数据是包括宽度、高度和深度的三维图像。在至少一个实施例中,输出数据是具有宽度(N*Z)和高度(M*Z)的图像数据,其中Z是整数缩放因子或数值,其指示作为与原始宽度维度N和原始高度维度M的乘积的大小增加或减少。在至少一个实施例中,输出数据是由经训练的神经网络使用本文进一步描述的技术至少部分地基于输入数据生成的。在至少一个实施例中,输出数据具有比输入数据更大的维度。在至少一个实施例中,输出数据包括一个或更多个二维层,其包括图像数据。
在至少一个实施例中,输出数据包括单个维度。在至少一个实施例中,输出数据包括单个数据值。在至少一个实施例中,输出数据包括关于输入数据的一种或更多种类型的信息。在至少一个实施例中,输出数据包括一个或更多个中间帧。在至少一个实施例中,输出数据包括一个或更多个融合因子。在至少一个实施例中,关于输入数据的一种或更多种类型的信息是指示输入数据的一个或更多个特征的数据值。在至少一个实施例中,关于输入数据的一种或更多种类型的信息是指示输入数据的一种或更多种分类(例如,运动分类)的数据值。在至少一个实施例中,关于输入数据的一种或更多种类型的信息包括诸如输入数据的分类和/或特征之类的图像信息。在至少一个实施例中,由经训练的神经网络作为输出数据生成的图像信息和/或其他信息是具有如本文所述的多个维度的数据。在至少一个实施例中,由经训练的神经网络作为输出数据生成的图像信息和/或其他信息是单维数据。
在至少一个实施例中,经训练的神经网络基于所述经训练的神经网络的一组神经元的子集生成输出数据。在至少一个实施例中,经训练的神经网络的一组神经元的子集由所述经训练的神经网络基于输入数据的特征来计算,如本文所述。在至少一个实施例中,经训练的神经网络由训练框架训练以在训练期间基于一个或更多个标识符推理或以其他方式生成输出数据时使用一组神经元的子集。
在至少一个实施例中,神经网络212使得使用诸如本文所述的那些之类的系统和方法处理216一个或更多个帧。在至少一个实施例中,神经网络212使得通过生成在如本文至少结合图1所述的帧插值中使用的帧运动的融合因子214,来处理216一个或更多个帧。在至少一个实施例中,神经网络212使得使用本文至少结合图4-22所述的系统和方法来处理216一个或更多个帧。在至少一个实施例中,作为神经网络212使得处理216一个或更多个帧的结果,使用诸如本文所述的那些之类的系统和方法生成一个或更多个中间帧。在至少一个实施例中,作为神经网络212使得处理216一个或更多个帧的结果,使用诸如本文所述的那些之类的系统和方法生成一个或更多个融合因子214。
在至少一个实施例中,处理器210使用诸如本文所述的那些之类的系统和方法实施或以其他方式执行一个或更多个指令,以对帧进行后处理218(例如,将附加信息融合到帧中、对帧进行上采样、对帧进行下采样、过滤帧元素、向帧添加残差数据等)。
在至少一个实施例中,处理器210实施或以其他方式执行一个或更多个指令以生成如本文所述的一个或更多个插值帧220。在至少一个实施例中,处理器210实施或以其他方式执行一个或更多个指令,以使用诸如结合使得生成一个或更多个插值帧120而描述的那些系统和方法生成一个或更多个插值帧220,如本文至少结合图1所述。在至少一个实施例中,处理器210向帧缓冲区224提供222一个或更多个插值帧,该帧缓冲区224是诸如帧缓冲区124之类的帧缓冲区,如本文至少结合图1所述。
在至少一个实施例中,帧缓冲区224先前已经渲染了先前帧226(例如,先前帧206)。在至少一个实施例中,图2中未示出,先前使用诸如本文所述的那些之类的系统和方法处理了先前帧226,以便例如先前帧226是在推理帧插值中使用的帧运动的融合因子的较早迭代中的当前帧。在至少一个实施例中,帧缓冲区224在处理器210向帧缓冲区224提供222一个或更多个插值帧228之前,并不渲染先前帧226。在至少一个实施例中,帧缓冲区接收一个或更多个插值帧228并使用诸如本文所述的那些之类的系统和方法渲染它们。在至少一个实施例中,然后帧缓冲区224在渲染了一个或更多个插值帧228之后渲染当前帧230(例如,当前帧208)。在至少一个实施例中,帧缓冲区224在接收到下一组一个或更多个插值帧228(例如,来自推理帧插值中使用的帧运动的融合因子的后续迭代的插值帧)之前,并不渲染当前帧230。
图3示出了根据至少一个实施例的生成插值视频帧的示例过程300。在至少一个实施例中,诸如本文至少结合图2所述的处理器202之类的处理器使得一个或更多个指令被执行以实施示例过程300。在至少一个实施例中,诸如本文至少结合图2所述的处理器210之类的处理器使用至少结合图2所述的神经网络212之类的神经网络来使得执行示例过程300。
在至少一个实施例中,在示例过程300的步骤302处,接收先前帧。在至少一个实施例中,在步骤302处,所接收的先前帧是诸如本文至少结合图2所述的先前帧206之类的先前帧。在至少一个实施例中,在步骤302处,从诸如本文至少结合图2所述的处理器202之类的处理器接收先前帧。在至少一个实施例中,所接收的先前帧是通过空间上采样(例如,通过空间超采样,诸如来自的DLSS、XeSS(或XeSS)、来自的FidelityFXTMSuperResolution等)生成的先前帧。在至少一个实施例中,在步骤302处接收的先前帧是来自示例过程300的先前迭代的当前帧。在至少一个实施例中,例如,在示例过程300的第一次迭代时,在步骤302处没有接收到先前帧。在至少一个实施例中,在步骤302之后,示例过程300在步骤304处继续。
在至少一个实施例中,在示例过程300的步骤304处,接收当前帧。在至少一个实施例中,在步骤304处,所接收的当前帧是诸如本文至少结合图2所述的当前帧208之类的当前帧。在至少一个实施例中,所接收的当前帧是通过空间上采样(例如,通过空间超级采样,例如来自的DLSS、XeSS(或XeSS)、来自的FidelityFXTMSuper Resolution等)生成的当前帧。在至少一个实施例中,在步骤304处,从诸如处理器202之类的处理器接收当前帧,如本文至少结合图2所述。在至少一个实施例中,在步骤304之后,示例过程300在步骤306处继续。在至少一个实施例中,当前帧(例如,在步骤304接收的)和先前帧(例如,在步骤306处接收的)是由游戏引擎或其他系统生成的帧,如上所述。在至少一个实施例中,当前帧和先前帧按顺序(例如,先前帧,然后是当前帧)、以相反的顺序(例如,当前帧,然后是先前帧)、部分并发地(例如,在部分重叠时间)或完全并发地接收。
在至少一个实施例中,在示例过程300的步骤306处,经预处理的帧被提供给诸如至少结合图2所述的神经网络212之类的神经网络。在至少一个实施例中,在步骤306处,提供给神经网络的经预处理的帧包括从先前帧(例如,在步骤302处接收的)和当前帧(例如,在步骤304处接收的)生成的(例如,经预处理的)经预处理的帧,如本文所述。在至少一个实施例中,在步骤306处,提供给神经网络的经预处理的帧包括至少部分地基于诸如本文所述的那些之类的一个或更多个附加帧的帧(例如,在所述先前帧之前的一个或更多个帧,包括紧接在所述先前帧之前的帧)。在至少一个实施例中,提供给诸如神经网络212之类的神经网络的经预处理的帧包括N个顺序帧的序列(其中N为正整数),并且在至少一个实施例中,所述顺序帧的序列包括一个或更多个插值帧和一个或更多个非插值帧。在至少一个实施例中,图3中未示出,在步骤306将诸如本文所述的附加帧信息(例如,运动数据、深度数据、摄像机数据、置信度度量和/或质量掩模,或其他此类信息)提供给神经网络。在至少一个实施例中,在步骤306之后,示例过程300在步骤308处继续。
在至少一个实施例中,在示例过程300的步骤308处,一个或更多个融合因子(或融合权重)由神经网络使用诸如本文所述的那些之类的系统和方法生成。在至少一个实施例中,在步骤308处,还生成一个或更多个中间帧。在至少一个实施例中,在步骤308处,使用诸如本文所述的那些之类的系统和方法,至少部分地基于所述一个或更多个融合因子生成一个或更多个中间帧。在至少一个实施例中,在步骤308处,使用诸如本文至少结合图2所述的神经网络212之类的神经网络生成一个或更多个融合因子。在至少一个实施例中,在步骤308之后,示例过程300在步骤310处继续。
在至少一个实施例中,在示例过程300的步骤310处,一个或更多个中间帧(例如,在步骤308处生成的一个或更多个中间帧)由神经网络使用诸如本文所述的那些之类的系统和方法进行处理。在至少一个实施例中,在步骤310处,使用修复(例如,识别并估计缺失数据)、下采样(例如,生成一个或更多个中间帧中的数据的多分辨率表示)、过滤(例如,以增强中间帧的一个或更多个元素)或诸如本文所述的其他此类操作来处理一个或更多个中间帧。在至少一个实施例中,在步骤310处,使用诸如本文至少结合图2所述的神经网络212之类的神经网络处理一个或更多个中间帧。在至少一个实施例中,在步骤310之后,示例过程300在步骤312处继续。
在至少一个实施例中,在示例过程300的步骤312处,使用诸如本文所述的那些之类的系统和方法对一个或更多个中间帧(例如,在步骤308处生成的一个或更多个中间帧和/或在步骤310处处理的一个或更多个中间帧)进行后处理。在至少一个实施例中,在步骤310处,使用修复(例如,识别并估计缺失数据)、下采样(例如,生成一个或更多个中间帧中的数据的多分辨率表示)、过滤(例如,以增强中间帧的一个或更多个元素)或诸如所述的其他此类操作来处理一个或更多个中间帧。在至少一个实施例中,在步骤312处,使用诸如本文至少结合图2所述的神经网络212之类的神经网络对一个或更多个中间帧进行后处理。在至少一个实施例中,在步骤312处,使用诸如本文至少结合图2所述的处理器210之类的处理器对一个或更多个中间帧进行后处理。在至少一个实施例中,在步骤312处,一个或更多个中间帧作为被融合的帧而被提供(例如,在步骤314处,如下所述)。在至少一个实施例中,在步骤312之后,示例过程300在步骤314处继续。
在至少一个实施例中,在示例过程300的步骤314处,使用诸如本文至少结合图2所述的那些之类的系统和方法融合一个或更多个中间帧以生成一个或更多个插值帧。在至少一个实施例中,在步骤314处,通过例如融合一个或更多个经后处理的帧(例如,在步骤312处被后处理的帧)的内容来生成一个或更多个插值帧。在至少一个实施例中,例如,如果具有在步骤312处生成的两个帧,则在步骤314处,通过组合来自在步骤312处生成的第一帧的像素与在步骤312处生成的第二帧的像素来生成插值帧(例如,将通过融合来自在步骤312处生成的帧的颜色和/或其他信息来生成插值帧的像素)。在至少一个实施例中,图3中未示出,至少部分地基于诸如本文所述的那些之类的一个或更多个融合权重来生成插值帧。在至少一个实施例中,在步骤314之后,示例过程300在步骤316处继续。
在至少一个实施例中,在示例过程300的步骤316处,使用诸如本文至少结合图2所述的那些之类的系统和方法渲染一个或更多个插值帧。在至少一个实施例中,在步骤316处,一个或更多个插值帧被提供给诸如本文至少结合图2所述的帧缓冲区224之类的帧缓冲区。在至少一个实施例中,在步骤316之前,在渲染一个或更多个插值帧之前,渲染先前帧(例如,在步骤302处接收的先前帧)。在至少一个实施例中,在生成一个或更多个插值帧(例如,在步骤314中)之后且在步骤316中渲染一个或更多个插值帧之前,渲染先前帧(例如,在步骤302中接收的先前帧)。在至少一个实施例中,在步骤316之后,示例过程300在步骤318处继续。
在至少一个实施例中,在示例过程300的步骤318处,使用诸如本文所述的那些之类的系统和方法渲染当前帧(例如,在步骤304处接收的当前帧)。在至少一个实施例中,在步骤318处,直到在示例过程300的后续迭代中生成一个或更多个插值帧(例如,在步骤308处),才渲染当前帧。在至少一个实施例中,在步骤318之后,示例过程300在步骤320处继续。
在至少一个实施例中,在示例过程300的步骤320处,当前帧(例如,在步骤304处接收的当前帧)在准备示例过程300的后续迭代中变为先前帧。在至少一个实施例中,在步骤320之后,示例过程300在步骤302处继续,以接收附加的帧数据并执行示例过程300的下一个迭代。在至少一个实施例中,在步骤320之后,示例过程300在例如没有更多帧要处理时终止。
在至少一个实施例中,按照不同于图3所示的顺序执行示例过程300的操作。在至少一个实施例中,同时或并行地执行示例过程300的操作,以便例如步骤302和步骤304同时执行,或者在步骤312处同时生成多个中间帧。在至少一个实施例中,示例过程300的操作由在诸如本文所述的那些之类的一个或更多个处理器上执行的多个线程使用诸如本文所述的那些之类的系统和方法来执行。
图4示出了根据至少一个实施例的其中运动向量用于生成插值帧的示例示意图400。在至少一个实施例中,当前帧402包括动态对象404和动态对象404的阴影416。在至少一个实施例中,诸如动态对象404之类的对象是使用诸如本文所述的那些之类的系统和方法渲染的三维(3D)对象。在至少一个实施例中,诸如动态对象404之类的对象是使用诸如本文所述的那些之类的系统和方法渲染的二维(2D)对象。在至少一个实施例中,诸如动态对象404之类的对象包括3D对象的像素(例如,2D表示)。在至少一个实施例中,图4中未示出,诸如动态对象404之类的对象是四维(或更高)对象。在至少一个实施例中,诸如动态对象404之类的对象是一维(1D)对象或更低维度的对象。在至少一个实施例中,诸如动态对象404之类的对象被渲染为3D对象(例如,使用诸如虚拟现实或增强现实之类的沉浸式技术)或更高维度的对象。在至少一个实施例中,诸如动态对象404之类的对象被渲染为1D(或更低)对象。在至少一个实施例中,动态对象404的阴影416由一个或更多个光源(图4中未示出)生成,并投射到当前帧402的一个或更多个其他对象(例如,背景、其他对象等)上。在至少一个实施例中,从诸如本文至少结合图65至图69所述的那些之类的深度学习超级采样神经网络接收当前帧402。
在至少一个实施例中,诸如动态对象404之类的对象被渲染为四维(4D)或更高的对象(例如,随时间显示的3D视频)。在至少一个实施例中,诸如本文至少结合图4至图10所述的那些之类的系统、方法和技术用于生成3D视频的插值帧(例如,由诸如虚拟现实(VR)游戏或模拟之类的3D沉浸式环境生成的帧,并且使用VR头显或其他一些此类显示设备显示)。
在至少一个实施例中,一个或更多个当前帧运动向量406描述诸如动态对象404之类的对象的运动。在至少一个实施例中,如本文所述,当前帧运动向量406描述诸如本文所述的动态对象404之类的动态对象的前向运动(例如,从先前帧的运动)。在至少一个实施例中,例如,当前帧运动向量406描述了来自诸如本文至少结合图5所述的先前帧502(例如,动态对象504)的诸如动态对象404之类的对象的运动。在至少一个实施例中,当前帧运动向量406描述诸如动态对象404之类的动态对象的反向运动(例如,向先前帧的运动),如本文所述。在至少一个实施例中,当前帧运动向量406由诸如本文所述的那些之类的游戏引擎、图形引擎或多媒体引擎提供。在至少一个实施例中,从一些其他源提供(例如,由诸如本文所述的那些之类的神经网络生成)当前帧运动向量406。在至少一个实施例中,动态对象404在当前帧402中的位置(例如,在应用当前帧运动向量406之前)是与动态对象404相关联的运动的端点。
在至少一个实施例中,图4中未示出,使用诸如本文所述的那些之类的系统和方法提供当前帧运动向量406的一个或更多个置信度度量或质量掩模。在至少一个实施例中,例如,质量掩模可以提供当前帧运动向量406是可靠的或不可靠的,或具有其他此类质量的指示。在至少一个实施例中,为当前帧运动向量406的每个运动向量提供一个或更多个置信度度量或质量掩模。在至少一个实施例中,为当前帧运动向量406的运动向量子集提供一个或更多个置信度度量或质量掩模。在至少一个实施例中,为与当前帧402的一个或更多个像素相关联的运动提供一个或更多个置信度度量或质量掩模。在至少一个实施例中,为当前帧运动向量406提供单个置信度度量或质量掩模。
在至少一个实施例中,当前帧运动向量406被分散(scatter)到中间的中间帧408。在至少一个实施例中,例如,如果当前帧运动向量406描述来自先前帧的对象的运动(例如,从先前帧到当前帧402),则当前帧运动向量406从对象(例如,下面描述的动态对象404)的位置回指向诸如本文所述的那些之类的先前帧中的动态对象404的位置。在至少一个实施例中,例如,具有值(200.0f、0.0f、0.0f)的运动(例如,从左到右的运动)由具有值(-200.0f、0.0f、0.0f)的当前帧运动向量表示(例如,回指向先前帧中动态对象所在的位置)。在至少一个实施例中,具有值(-200.0f、0.0f、0.0f)的当前帧运动向量被分散到具有值为(-100.0f、0.0f、0.0f)的经分散运动向量的中间的中间帧408。在至少一个实施例中,当前帧运动向量406是3D运动向量。在至少一个实施例中,当前帧运动向量406是2D(或其他维度)运动向量。在至少一个实施例中,通过将一个或更多个向量元素设置为零,可以将3D(或更高)运动向量转换为2D或1D运动向量。在至少一个实施例中,例如,通过将元素设置为零,可以将3D运动向量(200.0f、100.0f、-200.0f)转换为2D运动向量,从而产生(200.0f、100.0f、0.00f)或(200.0f、100.0f)。在至少一个实施例中,例如,通过将两个元素设置为零,可以将3D运动向量(200.0f、100.0f、-200.0f)转换为1D运动向量,从而产生(200.0f、0.0f、0.0f)、(200.0f、0.0f)或(200.0f)。
在至少一个实施例中,经分散的运动向量用于将动态对象404运动向量扭曲410到基于运动的当前到先前中间帧412。在至少一个实施例中,将动态对象运动向量扭曲410到中间帧(诸如,基于运动的当前到先前中间帧412),通过将一个或更多个运动向量应用于动态对象404来将动态对象404变换到基于运动的当前到先前中间帧412中的位置。在至少一个实施例中,将动态对象运动向量扭曲410到中间帧(诸如,基于运动的当前到先前中间帧412),通过应用经缩放的运动向量来将动态对象404变换到基于运动的当前到先前中间帧412中的位置。在至少一个实施例中,例如,如果当前帧运动向量406中的运动向量是运动向量(-200.0f,0.0f,0.0f),则对动态对象404的运动向量扭曲410将动态对象404的一半运动向量(-200.0f,0.0f,0.0f)(例如,向量(-100.0f,0.0f,0.0f))变换到当前到先前中间帧412中的由对象414所表示的位置(例如,先前帧502中的位置与当前帧402中的位置之间的中间位置)。在至少一个实施例中,阴影416并不由当前帧运动向量406进行变换,因为阴影416不是动态对象,因此,阴影416在当前到先前中间帧412中(例如,位于阴影418处)是不移动的。在至少一个实施例中,图4中未示出,阴影运动向量由例如游戏引擎提供,使得阴影416可以被视为动态对象,并与动态对象404一起移动。在至少一个实施例中,由示例示意图400所示的过程在本文至少结合图5所述的示例示意图500处继续进行。
图5示出了根据至少一个实施例的其中计算前向运动向量的示例示意图500。在至少一个实施例中,先前帧502包括动态对象504和动态对象504的阴影518。在至少一个实施例中,诸如动态对象504之类的对象是诸如本文中至少结合图4所述的对象。在至少一个实施例中,动态对象504的阴影518是由一个或更多个光源(图5中未示出)生成的,并投射到先前帧502的一个或更多个其他对象(例如,背景、其他对象等)上,如本文所述。在至少一个实施例中,先前帧502是从诸如本文至少结合图65至图69所述的那些之类的深度学习超级采样神经网络接收的。
在至少一个实施例中,接收当前帧运动向量506(例如,本文至少结合图4所述的当前帧运动向量406)。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法计算前向运动向量508。在至少一个实施例中,前向运动向量508是基于一个或更多个当前帧运动向量506计算的。在至少一个实施例中,例如,如本文所述,运动向量描述运动(例如,从诸如当前帧402之类的当前帧返回到先前帧502)。在至少一个实施例中,这样的向量被倒置以,例如,运动向量(-200.0f、0.00f、0.00f)可以被倒置,以计算如本文所述的前向运动向量508(200.0f、0.00f、0.00f)的。在至少一个实施例中,具有值(200.0f、0.0f、0.0f)的前向运动向量508被分散到具有值为(100.0f、0.0f、0.0f)的经分散运动向量的中间的中间帧510。在至少一个实施例中,前向运动向量508是3D运动向量。在至少一个实施例中,前向运动向量508是2D(或其他维度)运动向量。在至少一个实施例中,通过将一个或更多个向量元素设置为零,可以将3D(或更高)运动向量转换为2D或1D运动向量。在至少一个实施例中,例如,通过将元素设置为零,可以将运动向量(200.0f、100.0f、-200.0f)转换为2D运动向量,从而产生(200.0f、100.0f、0.00f)或(200.0f、100.0f)。在至少一个实施例中,例如,通过将两个元素设置为零,可以将3D运动向量(200.0f、100.0f、-200.0f)转换为1D运动向量,从而产生(200.0f、0.0f、0.0f)、(200.0f、0.0f)或(200.0f)。
在至少一个实施例中,经分散的前向运动向量用于将动态对象504运动向量扭曲512到基于运动的先前到当前中间帧514。在至少一个实施例中,将动态对象运动向量扭曲512到中间帧(诸如,基于运动的先前到当前中间帧514),通过将一个或更多个运动向量应用于动态对象504来将动态对象504变换到基于运动的先前到当前中间帧514中的位置。在至少一个实施例中,将动态对象运动向量扭曲512到中间帧(诸如,基于运动的先前到当前中间帧514),通过应用经缩放的运动向量来将动态对象504变换到基于运动的先前到当前中间帧514中的位置。在至少一个实施例中,例如,如果运动向量是前向运动向量(200.0f、0.0f、0.0f),则对动态对象504的运动向量扭曲512将动态对象504的前向运动向量(200.0f、0.0f、0.0f)的一半(例如,向量(100.0f、0.0f、0.0f))转换到先前到当前中间帧514中的由对象516表示的位置(例如,先前帧502中的位置与当前帧402中的位置之间的中间位置)。在至少一个实施例中,阴影518并不由前向运动向量变换,因为阴影518不是动态对象,因此,阴影518在先前到当前中间帧514中(例如,位于阴影520处)是不移动的。在至少一个实施例中,图5中未示出,阴影运动向量由例如游戏引擎提供,使得阴影518可以被视为动态对象,并与动态对象504一起移动。在至少一个实施例中,由示例示意图500所示的过程在本文至少结合图6所述的示例示意图600处继续进行。
图6示出了根据至少一个实施例的其中光流分析用于生成中间帧的示例示意图600。在至少一个实施例中,当前帧602(其是诸如本文至少结合图4所述的当前帧402之类的当前帧)和先前帧606(其是诸如本文至少结合图5所述的先前帧502之类的先前帧)用作光流610的输入。在至少一个实施例中,当前帧602包括本文至少结合图4所述的动态对象604(及阴影),先前帧606包括本文至少结合图5所述的动态对象608(及阴影)。在至少一个实施例中,光流610基于流将先前帧606的内容移动到先前到当前中间帧616。在至少一个实施例中,光流610基于流将当前帧602的内容移动到当前到先前中间帧624。
在至少一个实施例中,光流610至少部分地基于视点(例如,摄像机)和场景中的对象之间的相对运动来生成表示场景中的对象(例如,动态和静态对象)的表观运动的运动向量。在至少一个实施例中,例如,如果摄像机从左向右运动,则场景中的静态对象将看起来从右向左运动,而动态对象将在其动态运动中添加摄像机运动。在至少一个实施例中,诸如光流610之类的光流是基于例如,当前帧和先前帧中的对象之间的一个或更多个对应关系来估计的。在至少一个实施例中,诸如光流610之类的光流包括如本文所述的光流运动向量的一个或更多个置信度度量或质量掩模。
在至少一个实施例中,如示例示意图600所示,光流610基于流将先前帧606的内容移动到先前到当前中间帧616,以便动态对象608移动到由对象618所指示的位置,并且动态对象608的阴影移动到由阴影对象630所指示的位置。在至少一个实施例中,如图6所示,由于在光流610中的不确定性,光流610已将动态对象608的阴影移动到多个位置(例如,由阴影对象630中的多个对象所指示的位置)。在至少一个实施例中,诸如本文所述的那些之类的一个或更多个流向量用于分散612先前帧606的元素,以及流向量扭曲614用于使用诸如本文所述的技术、系统和方法基于流来生成先前到当前中间帧616。
在至少一个实施例中,如示例示意图600所示,光流610基于流将当前帧602的内容移动到当前到先前中间帧624,以便动态对象604移动到由对象626所指示的位置,以及动态对象604的阴影移动到由阴影对象628所指示的位置。在至少一个实施例中,如图6所示,由于在光流610中的不确定性,光流610已将动态对象604的阴影移动到多个位置(例如,由阴影对象628中的多个对象所指示的位置)。在至少一个实施例中,诸如本文所述的那些之类的一个或更多个流向量用于分散620当前帧602的元素,以及流向量扭曲622用于使用诸如本文所述的技术、系统和方法基于流来生成先前到当前中间帧624。在至少一个实施例中,由示例示意图600所示的过程在本文至少结合图7所述的示例示意图700处继续进行。
图7示出了根据至少一个实施例的其中融合前向运动候选的示例示意图700。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,使用融合权重708来融合先前帧702(例如,先前帧502)、基于运动的先前到当前中间帧704(例如,先前到当前中间帧514)、和基于流的先前到当前中间帧706(例如,先前到当前中间帧616)。在至少一个实施例中,融合权重708由神经网络714(例如,如本文至少结合图1和图2所述的神经网络110和/或神经网络212)生成。
在至少一个实施例中,作为使用融合权重708融合先前帧702、基于运动的先前到当前中间帧704和基于流的先前到当前中间帧704的结果,生成经融合的先前到当前中间帧710。在至少一个实施例中,当使用融合权重708融合先前帧702、基于运动的先前到当前中间帧704和基于流的先前到当前中间帧704时,也使用融合权重708融合当前帧数据716(例如,当前帧402、基于运动的当前到先前中间帧412和基于流的当前到先前中间帧624)以生成经融合的先前到当前中间帧710。在至少一个实施例中,当使用融合权重708融合先前帧702、基于运动的先前到当前中间帧704和基于流的先前到当前中间帧706时,也使用融合权重708融合辅助信息718,以生成经融合的先前到当前中间帧710。在至少一个实施例中,辅助信息包括,例如质量掩模、关于运动向量和/或流向量是否生成重复对象和/或在生成经融合的先前到当前中间帧710时是否发生任何附加去遮挡的指示、深度、运动、遮挡掩膜等。在至少一个实施例中,由示例示意图700所示的过程在本文至少结合图8所述的示例示意图800处继续进行。
图8示出了根据至少一个实施例的其中融合反向运动候选的示例示意图800。在至少一个实施例中,使用诸如本文所述的那些之类的系统和方法,使用融合权重808融合当前帧802(例如,当前帧402)、基于运动的基于流的当前到先前中间帧804(例如,当前到先前中间帧412)和基于流806的当前到先前中间帧(例如,当前到先前中间帧624)。在至少一个实施例中,融合权重808由神经网络814(例如,如本文至少结合图1和图2所述的神经网络110和/或神经网络212)生成。
在至少一个实施例中,作为使用融合权重808融合当前帧802、基于运动的当前到先前中间帧804和基于流的当前到先前中间帧806的结果,生成经融合的当前到先前中间帧810。在至少一个实施例中,当使用融合权重808融合当前帧802、基于运动的当前到先前中间帧804和基于流的当前到先前中间帧806时,也使用融合权重808融合当前帧数据816(例如,先前帧502、基于运动的先前到当前中间帧514和基于流的先前到当前中间帧616)来生成经融合的当前到先前中间帧810。在至少一个实施例中,当使用融合权重808融合当前帧802、基于运动的当前到先前中间帧804和基于流的当前到先前中间帧806时,也使用融合权重808融合诸如上述的辅助信息818,以生成经融合的当前到先前中间帧810。在至少一个实施例中,由示例示意图800所示的过程在本文至少结合图9所述的示例示意图900处继续进行。
图9示出了根据至少一个实施例的其中生成插值帧的示例示意图900。在至少一个实施例中,使用诸如本文至少结合图2和图3所述的那些之类的系统和方法经由融合906来融合经融合的先前到当前中间帧902(例如,经融合的先前到当前中间帧710)和经融合的当前到先前中间帧904(例如,经融合的当前到先前中间帧810),以生成一个或更多个插值帧908(例如,生成本文至少结合图2描述的一个或更多个插值帧220)。在至少一个实施例中,使用融合906生成一个或更多个插值帧908正在生成本文至少结合图1所述的插值帧120。在至少一个实施例中,使用融合906生成一个或更多个插值帧908包括:对帧218进行后处理和/或生成本文至少结合图2所述的一个或更多个插值帧220。
图10示出了根据至少一个实施例的使用神经网络生成插值帧的示例过程1000。在至少一个实施例中,诸如本文至少结合图2所述的处理器202之类的处理器使得一个或更多个指令被执行,以实施示例过程1000。在至少一个实施例中,诸如本文至少结合图2所述的处理器210之类的处理器使用诸如本文至少结合图2所述的神经网络212之类的神经网络来使得示例过程1000被执行。在至少一个实施例中,示例过程1000示出了本文至少结合图4-9所述的过程、系统和方法。
在至少一个实施例中,在示例过程1000的步骤1002处,接收当前帧(例如,本文至少结合图2所述的当前帧208)。在至少一个实施例中,图10中未示出,在步骤1002处,还接收先前帧(例如,本文至少结合图2所述的先前帧206)。在至少一个实施例中,在步骤1002之后,示例过程1000在步骤1004处继续进行。
在至少一个实施例中,在示例过程1000的步骤1004处,接收当前帧运动。在至少一个实施例中,在步骤1004处,当前帧运动包括动态对象的运动向量和/或静态对象的光流向量,如本文所述。在至少一个实施例中,图10中未示出,还接收所接收的当前帧运动的一个或更多个置信度度量和/或质量掩模。在至少一个实施例中,在步骤1004之后,示例过程1000在步骤1006处继续进行。
在至少一个实施例中,在示例过程1000的步骤1006处,从当前帧运动计算其他运动向量,如本文所述。在至少一个实施例中,例如,在步骤1006处,前向运动向量可以从反向运动向量计算,反向运动向量可以从前向运动向量计算,或者可以使用深度、摄像机位置和/或其他此类数据计算光流向量。在至少一个实施例中,在步骤1006之后,示例过程1000在步骤1008处继续进行。
在至少一个实施例中,在示例过程1000的步骤1008处,使用诸如本文所述的那些之类的系统和方法生成一个或更多个运动扭曲的中间图像。在至少一个实施例中,在步骤1008处,基于例如前向运动向量、反向运动向量或其他此类运动向量生成一个或更多个运动扭曲的中间图像。在至少一个实施例中,在步骤1008之后,示例过程1000在步骤1010处继续进行。
在至少一个实施例中,在示例过程1000的步骤1010处,使用诸如本文所述的那些之类的系统和方法生成一个或更多个流扭曲的中间图像。在至少一个实施例中,在步骤1010处,基于例如前向光流向量、反向光流向量或其他这样的流向量生成一个或更多个流扭曲的中间图像。在至少一个实施例中,在步骤1010之后,示例过程1000在步骤1012处继续进行。
在至少一个实施例中,在示例过程1000的步骤1012处,使用诸如本文所述的那些之类的系统和方法生成一个或更多个融合因子以融合中间图像。在至少一个实施例中,在步骤1012处,使用由诸如本文至少结合图2描述的神经网络212之类的神经网络生成的融合因子(或融合权重)来生成一个或更多个经融合的中间图像。在至少一个实施例中,在步骤1012之后,示例过程1000在步骤1014处继续进行。
在至少一个实施例中,在示例过程1000的步骤1014处,将一个或更多个中间图像(例如,在步骤1012处使用融合因子生成的)融合在一起以生成中间结果,例如,经融合的先前到当前中间帧902或经融合的当前到先前中间帧904,如本文至少结合图9所述。在至少一个实施例中,在步骤1014之后,示例过程1000在步骤1016处继续进行。
在至少一个实施例中,在示例过程1000的步骤1016处,使用诸如本文所描述的那些之类的系统和方法融合一个或更多个经融合的中间图像(例如,在步骤1014处生成的),以生成一个或更多个插值帧(例如,如本文至少结合图2所述)。在至少一个实施例中,在步骤1016之后,示例过程1000在步骤1002处继续,以接收另一个当前帧(例如,在示例过程1000的下一个迭代中)。在至少一个实施例中,在步骤1016之后,示例过程1000终止(例如,当没有更多的帧要处理时)。
在至少一个实施例中,以不同于图10所示的顺序执行示例过程1000的操作。在至少一个实施例中,同时或并行地执行示例过程1000的操作,以便例如步骤1002和步骤1004同时执行,或者在步骤1008处同时生成多个运动扭曲的中间图像。在至少一个实施例中,示例过程1000的操作由在诸如本文所述的那些之类的一个或更多个处理器上执行的多个线程使用诸如本文所述的那些之类的系统和方法执行。
图11示出了根据至少一个实施例的其中运动候选被融合以生成插值帧的示例示意图1100。在至少一个实施例中,使用诸如本文所描述的系统和方法来融合当前帧1102(例如,本文至少结合图1所述的当前帧106)和先前帧1104(例如,本文至少结合图1所述的先前帧104),以生成一个或更多个插值帧(例如,如本文至少结合图1所述的生成的插值帧)。在至少一个实施例中,当前帧1102和先前帧1104由处理器1106融合,处理器1106是诸如本文至少结合图1所述的处理器102之类的处理器。在至少一个实施例中,处理器1106使用神经网络1108融合当前帧1102和先前帧1104,该神经网络1108是诸如本文至少结合图1所述的神经网络110之类的神经网络。在至少一个实施例中,神经网络1108生成一个或更多个融合因子(例如,如本文结合图4-10所述的融合因子),以生成插值帧1110,如本文所述。
在至少一个实施例中,如图11所示,由处理器1106融合当前帧1102和先前帧1104以生成插值帧1110,插值帧1110是位于当前帧1102和先前帧1104二者中间的插值帧。在至少一个实施例中,例如,如果先前帧1104位于(例如,具有时间戳)10.0秒处,并且当前帧1102位于(例如,具有时间戳)10.1秒,那么位于当前帧1102和先前帧1104二者中间的插值帧1110位于(例如,具有时间戳)10.05秒处。在至少一个实施例中,插值帧1110被插值为当前帧1102的一半和先前帧1104的一半,如本文所述。在至少一个实施例中,神经网络1108至少部分地基于当前帧1102的时间戳、先前帧1104的时间戳以及在当前帧1102和先前帧1104之间生成的多个帧(例如,图11中的一帧)来确定融合因子。在至少一个实施例中,神经网络1108至少部分地基于当前帧1102的时间戳、先前帧1104的时间戳以及在当前帧1102和先前帧1104之间生成的多个帧来确定插值帧1110的时间戳。
图12示出了根据至少一个实施例的生成多个插值帧的示例示意图1200。在至少一个实施例中,使用诸如本文所描述的那些之类的系统和方法融合当前帧1202(例如,本文至少结合图1所述的当前帧106)和先前帧1204(例如,本文至少结合图1所述的先前帧104),以生成一个或更多个插值帧(例如,如本文至少结合图1所述的生成的插值帧)。在至少一个实施例中,当前帧1202和先前帧1204由处理器1206进行融合,处理器1206是诸如本文至少结合图1所述的处理器102之类的处理器。在至少一个实施例中,当前帧1202和先前帧1204由处理器1206使用神经网络1208进行融合,神经网络1208是诸如本文至少结合图1所述的神经网络110之类的神经网络。在至少一个实施例中,神经网络1208生成一个或更多个融合因子(例如,如本文至少结合图1-10所述)以生成插值帧,如本文所述。
在至少一个实施例中,由处理器1206融合当前帧1202和先前帧1204以生成插值帧1210,插值帧1210是先前帧1204和当前帧1202之间时间跨度的25%(例如,从当前帧1202返回到先前帧1204的时间跨度的75%)的插值帧。在至少一个实施例中,例如,如果先前帧1204位于(例如,具有时间戳)10.0秒处,并且当前帧1202位于(例如,具有时间戳)10.1秒处,那么插值帧1210位于(例如,具有时间戳)10.025秒处。在至少一个实施例中,插值帧1210被插值为先前帧1204的75%和当前帧1202的25%,如本文所述。在至少一个实施例中,神经网络1208至少部分地基于当前帧1202的时间戳、先前帧1204的时间戳以及在当前帧1202和先前帧1204之间生成的多个帧(例如,图12中的三个帧)来确定融合因子。在至少一个实施例中,神经网络1208至少部分地基于当前帧1202的时间戳、先前帧1204的时间戳以及在当前帧1202和先前帧1204之间生成的多个帧来确定插值帧1210的时间戳。
在至少一个实施例中,由处理器1206融合当前帧1202和先前帧1204以生成插值帧1212,插值帧1212是在先前帧1204和当前帧1202之间50%的插值帧(例如,位于上述插值帧1110的时间戳处)。在至少一个实施例中,例如,如果先前帧1204位于(例如,具有时间戳)10.0秒处,并且当前帧1202位于(例如,具有时间戳)10.1秒处,那么插值帧1212位于(例如,具有时间戳)10.05秒。在至少一个实施例中,插值帧1212被插值为先前帧1204的50%和当前帧1202的50%,如本文所述。在至少一个实施例中,神经网络1208至少部分地基于当前帧1202的时间戳、先前帧1204的时间戳以及在当前帧1202和先前帧1204之间生成的多个帧来确定插值帧1212的时间戳。
在至少一个实施例中,由处理器1206融合当前帧1202和先前帧1204以生成插值帧1214,插值帧1214是先前帧1204和当前帧1202之间时间跨度的75%(例如,从当前帧1202返回到先前帧1204的时间跨度的25%)的插值帧。在至少一个实施例中,例如,如果先前帧1204位于(例如,具有时间戳)10.0秒处,并且当前帧1202位于(例如,具有时间戳)10.1秒处,那么插值帧1214位于(例如,具有时间戳)10.075秒处。在至少一个实施例中,插值帧1214被插值为先前帧1204的25%和当前帧1202的75%,如本文所述。在至少一个实施例中,神经网络1208至少部分地基于当前帧1202的时间戳、先前帧1204的时间戳以及在当前帧1202和先前帧1204之间生成的多个帧来确定插值帧1214的时间戳。
在至少一个实施例中,迭代地执行图12所示的技术,以便例如生成插值帧1210,然后生成插值帧1212,然后生成插值帧1214。在至少一个实施例中,同时执行图13所示的技术,以便例如至少部分地在重叠时间生成插值帧1210、插值帧1212和插值帧1214。
图13示出了根据至少一个实施例的生成多个插值帧的示例示意图1300。在至少一个实施例中,使用诸如本文所描述的系统和方法融合当前帧1302(例如,本文至少结合图1所述的当前帧106)和先前帧1304(例如,本文至少结合图1所述的先前帧104),以生成一个或更多个插值帧。在至少一个实施例中,如本文所述,生成插值帧1306。在至少一个实施例中,如果先前帧1304位于(例如,具有时间戳)10.0秒处,而当前帧1302位于(例如,具有时间戳)10.1秒处,那么插值帧1306位于(例如,具有时间戳)10.05秒处,如本文所述。在至少一个实施例中,处理器1308使用神经网络1310融合当前帧1302和先前帧1304,神经网络1310是诸如本文至少结合图1所述的神经网络110之类的神经网络。在至少一个实施例中,神经网络1310生成一个或更多个融合因子(例如,如本文至少结合图4-10所述),以生成插值帧1306,如本文所述。在至少一个实施例中,神经网络1310至少部分地基于当前帧1302的时间戳、先前帧1304的时间戳以及在当前帧1302和先前帧1304之间生成的多个帧来确定插值帧1306的时间戳。
在至少一个实施例中,先前帧1304和插值帧1306由处理器1308进一步融合,以生成插值帧1312。在至少一个实施例中,先前帧1304和插值帧1306由处理器1308使用由神经网络1310确定的融合因子进行融合。在至少一个实施例中,插值帧1312是先前帧1304与插值帧1306之间时间跨度的50%,或从先前帧1304到当前帧1302的时间跨度的25%,或从当前帧1302返回到先前帧1304的时间跨度的75%的插值帧。在至少一个实施例中,例如,如果先前帧1304位于(例如,具有时间戳)10.0秒处,并且插值帧1306位于(例如,具有时间戳)10.05秒处,则插值帧1312位于(例如,具有时间戳)10.025秒处。在至少一个实施例中,插值帧1312被插值为先前帧1304的50%和插值帧1306的50%,其为先前帧1304的75%和当前帧1302的25%,如本文所述。在至少一个实施例中,神经网络1310至少部分地基于当前帧1302的时间戳、先前帧1304的时间戳以及在当前帧1302和先前帧1304之间生成的多个帧来确定插值帧1312的时间戳。
在至少一个实施例中,如图13所示,插值帧1306和当前帧1302由处理器1308进一步融合以生成插值帧1314。在至少一个实施例中,插值帧1306和当前帧1302由处理器1308使用神经网络1310进行融合。在至少一个实施例中,神经网络1310生成一个或更多个融合因子(例如,如本文至少结合图4-10所述),以生成插值帧1314,如本文所述。在至少一个实施例中,插值帧1314是插值帧1306与当前帧1302之间的时间跨度的50%的插值帧(例如,先前帧1304与当前帧1302之间的时间跨度的75%)。在至少一个实施例中,例如,如果插值帧1306位于(例如,具有时间戳)10.05秒处,而当前帧1302位于(例如,具有时间戳)10.1秒处,则插值帧1314位于(例如,具有时间戳)10.075秒处。在至少一个实施例中,插值帧1314被插值为插值帧1306的50%和当前帧1302的50%,其为先前帧1304的25%和当前帧1302的75%,如本文所述。在至少一个实施例中,神经网络1310至少部分地基于当前帧1302的时间戳、先前帧1304的时间戳以及在当前帧1302和先前帧1304之间生成的多个帧来确定插值帧1314的时间戳。
在至少一个实施例中,迭代地执行图13所示的技术,以便例如生成插值帧1306,然后生成插值帧1312,然后生成插值帧1314。在至少一个实施例中,图13所示的技术至少部分地同时执行,以便例如首先生成插值帧1306,然后生成插值帧1312,然后生成插值帧1314。
图14示出了根据至少一个实施例的应用程序编程接口(API)用于使得生成用于帧插值的融合因子的示例示意图1400。在至少一个实施例中,应用程序编程接口1402用于使处理器1404使得生成用于帧插值1408的融合因子。在至少一个实施例中,应用程序编程接口1402用于使处理器1404使得使用本文至少结合图1-13所述并且如示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例过程1000、示例示意图1100、示例示意图1200和/或示例示意图1300所示的技术生成用于帧插值1408的融合因子。在至少一个实施例中,应用程序编程接口1402是诸如本文至少结合图15-22所述的那些并且如示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100和/或示例示意图2200所示的应用程序编程接口。
在至少一个实施例中,处理器1404是诸如本文至少结合图1所述的处理器102之类的处理器。在至少一个实施例中,应用程序编程接口1402用于使处理器1404使用神经网络1406来使得生成用于帧插值1408的融合因子。在至少一个实施例中,神经网络1406是诸如本文至少结合图1所述的神经网络110之类的神经网络。
在至少一个实施例中,应用程序编程接口1402是使处理器1404能够使得生成用于帧插值1408的融合因子的应用程序编程接口。在至少一个实施例中,例如,使处理器1404能够使得生成用于帧插值1408的融合因子的应用程序编程接口,是将使处理器1404能够使得生成用于帧插值1408的融合因子的参数或标志设置为true值的应用程序编程接口(API)。
在至少一个实施例中,应用程序编程接口1402是使处理器1404能够使用神经网络1406来使得生成用于帧插值1408的融合因子的应用程序编程接口。在至少一个实施例中,例如,使处理器1404能够使用神经网络1406来使得生成用于帧插值1408的融合因子的应用程序编程接口,是将使处理器1404能够使用神经网络1406来生成用于帧插值1408的融合因子的参数或标志设置为true值的应用程序编程接口(API)。
在至少一个实施例中,应用程序编程接口1402是用于禁止处理器1404使得生成用于帧插值1408的融合因子的应用程序编程接口。在至少一个实施例中,例如,用于禁止处理器1404使得生成用于帧插值1408的融合因子的应用程序编程接口,是将使处理器1404能够使得生成用于帧插值1408的融合因子的参数或标志设置为false值的应用程序编程接口(API)。
在至少一个实施例中,应用程序编程接口1402是用于禁止处理器1404使用神经网络1406来使得生成用于帧插值1408的融合因子的应用程序编程接口。在至少一个实施例中,例如,用于禁止处理器1404使用神经网络1406使得生成用于帧插值1408的融合因子的应用程序编程接口,是将使处理器1404能够使用神经网络1406来使得生成用于帧插值1408的融合因子的参数或标志设置为false值的应用程序编程接口(API)。
在至少一个实施例中,应用程序编程接口1402是用于确定处理器1404是否支持使处理器1404能够使得生成用于帧插值1408的融合因子的一个或更多个特征的应用程序编程接口。在至少一个实施例中,例如,用于确定处理器1404是否支持使处理器1404能够使得生成用于帧插值1408的融合因子的一个或更多个特征的应用程序编程接口,是确定使处理器1404能够使得生成用于帧插值1408的融合因子的参数或标志是被设置为真值还是被设置为假值的应用程序编程接口(API)。
在至少一个实施例中,应用程序编程接口1402是用于确定处理器1404是否支持使处理器1404能够使用神经网络1406来使得生成用于帧插值1408的融合因子的一个或更多个特征的应用程序编程接口。在至少一个实施例中,例如,用于确定处理器1404是否支持使处理器1404能够使用神经网络1406来使得生成用于帧插值1408的融合因子的一个或更多个特征的应用程序编程接口,是确定使处理器1404能够使用神经网络1406来使得生成用于帧插值1408的融合因子的参数或标志是被设置为true值还是被设置为false值的应用程序编程接口(API)。
在至少一个实施例中,应用程序编程接口1402是用于设置与使处理器1404使得生成用于帧插值1408的融合因子相关联的一个或更多个标志或参数的应用程序编程接口,例如,与诸如本文所述的那些之类的插值帧的图像大小、在先前帧与当前帧之间生成的插值帧的数量、在渲染插值帧时是否使用动态分辨率、动态分辨率的参数、和/或其他类似参数相关联的标志或参数。
在至少一个实施例中,例如,应用程序编程接口1402包括以下中的一个或更多个:
slSetFeatureEnabled(sl::Feature::eFeatureDLSS_G,false);
slSetFeatureEnabled(sl::Feature::eFeatureDLSS_G,true);
IDXGISwapChain1*swapChain{};
factory->CreateSwapChainForHwnd(device,hWnd,desc,nullptr,nullptr,&swapChain);
IDXGISwapChain1*mainSwapChain{};
factory->CreateSwapChainForHwnd(device,hWnd,desc,nullptr,nullptr,&mainSwapChain);
sl::Resource depth={sl::ResourceType::eResourceTypeTex2d,myDepthBuffer,nullptr,nullptr,nullptr};
sl::Resource mvec={sl::ResourceType::eResourceTypeTex2d,myMotionVectorsBuffer,nullptr,nullptr,nullptr};
setTag(&depth,sl::BufferType::eBufferTypeDepth);
setTag(&mvec,sl::BufferType::eBufferTypeMVec);
sl::DLSSGConstants dlss_gConsts{};
dlss_gConsts.mode=myUI->getDLSSGMode();//e.g.sl::eDLSSGModeOn;
dlss_gConsts.numFramesToGenerate=1;
slSetFeatureConstants(sl::eFeatureDLSS_G,&dlss_gConsts))
sl::Constants consts={};
consts.mvecScale={1,1};//Values in eBufferTypeMVec are in[-1,1]rangeconsts.mvecScale={1.0f/renderWidth,1.0f/renderHeight};//Values ineBufferTypeMVec are in pixel space
consts.mvecScale=myCustomScaling;
sl::Constants consts={};
dlss_gConsts.mode=myUI->getDLSSGMode();//e.g.sl::eDLSSGModeOn;
dlss_gConsts.numFramesToGenerate=1;
dlss_gConsts.flags=sl::DLSSGFlags::eDynamicResolutionEnabled;
dlss_gConsts.dynamicResWidth=appSelectedInternalWidth;
dlss_gConsts.dynamicResHeight=appSelectedInternalHeight;
在至少一个实施例中,应用程序编程接口1402包括用于设置输入缓冲格式的一个或更多个API,例如,主帧格式(任何支持的格式)、运动向量格式、深度缓冲格式和/或输出缓冲格式。
在至少一个实施例中,应用程序编程接口1402包括用于设置输入缓冲区和/或输出缓冲区的资源状态的一个或更多个API,诸如:
Input buffers(e.g.Hudless color,motion vectors and depth)be in pixelshader read state(also known as a Shader Resource View,HLSL“Texture”or inVulkan as a“Sample Image”)such that,in the case of Vulkan these have to becreated with the“VK_IMAGE_USAGE_SAMPLED_BIT”usage flag.
Output buffers in UAV state(also known as an HLSL RWTexture or inVulkan as a“Storage Image”)such that,in case of D3D 12it has to be createdwith the″D3D12_RESOURCE_FLAG_ALLOW_UNORDERED_ACCESS″flag and in case ofVulkan with the″VK_IMAGE_USAGE_STORAGE_BIT″usage flag.
在至少一个实施例中,应用程序编程接口1402包括用于设置诸如本文所述的那些之类的运动向量的分辨率或缩放的一个或更多个API。
在至少一个实施例中,应用程序编程接口1402包括用于在使处理器1404使得生成用于帧插值1408的融合因子时启用或禁用错误记录的一个或更多个API。
在至少一个实施例中,应用程序编程接口1402包括用于在使处理器1404能够使用神经网络1406使得生成用于帧插值1408的融合因子时启用或禁用错误记录的一个或更多个API。
在至少一个实施例中,应用程序编程接口1402包括用于启用或禁用阴影交换链的使用的一个或更多个API。在至少一个实施例中,阴影交换链是附加的渲染管线(例如,诸如本文所述的那些),其防止用于渲染视频帧的一个或更多个内部缓冲区被重用,直到处理器1404完成生成和渲染插值帧,如本文所述。
图15是示出根据至少一个实施例的将由一个或更多个处理器执行的软件程序的框图1500。在至少一个实施例中,框图1500示出了将由处理器执行的软件程序1504,所述处理器诸如中央处理单元(CPU)1502以及图形处理单元(GPU)1510和异构处理器内的加速器1514。在至少一个实施例中,CPU 1502是诸如本文至少结合图1所述的处理器102之类的处理器。在至少一个实施例中,CPU 1502是诸如本文所述的那些之类的图形处理器。在至少一个实施例中,CPU 1502是具有本文进一步所述的任何架构的任何处理器。在至少一个实施例中,CPU 1502是具有本文进一步所述的任何架构的任何通用处理器。在至少一个实施例中,处理器,诸如CPU 1502,包括用于执行一个或更多个计算操作的电路。在至少一个实施例中,处理器,诸如CPU 1502,包括用于执行本文进一步所述的一个或更多个计算操作的任何配置的电路。
在至少一个实施例中,处理器,诸如中央处理单元(CPU)1502,执行并行计算环境1508。在至少一个实施例中,处理器,诸如CPU 1502,是执行并行计算环境1508的处理器(诸如CPU),所述并行计算环境诸如计算统一设备架构(CUDA)、RadeonTM开放计算平台(ROCm)、OpenCL、SYCL、IntelTMOne API等。在至少一个实施例中,并行计算环境1508包括指令,该指令如果由诸如CPU 1502之类的一个或更多个处理器执行,则促进由一个或更多个CPU1502、一个或更多个并行处理单元(PPU)(诸如GPU 1510)、和/或异构处理器内的一个或更多个加速器1514执行一个或更多个软件程序。
在至少一个实施例中,一个或更多个PPU是包括用于执行并行计算操作的一个或更多个电路的处理器,诸如GPU 1510和本文进一步所述的任何其他并行处理器。在至少一个实施例中,GPU 1510是包括用于执行一个或更多个计算操作的电路的硬件,如下面结合各个实施例进一步所述。在至少一个实施例中,GPU 1510包括一个或更多个处理核心,每个处理核心执行一个或更多个计算操作。在至少一个实施例中,GPU 1510包括用于执行一个或更多个并行计算操作的一个或更多个处理核心。在至少一个实施例中,GPU 1510与CPU1502或其他处理器一起封装为片上系统(SoC)。在至少一个实施例中,GPU 1510与CPU 1502或其他处理器一起封装在共享管芯或其他基板上,作为片上系统(SoC)。在至少一个实施例中,异构处理器内的一个或更多个加速器1514是包括用于执行特定计算操作的一个或更多个电路的硬件,诸如深度学习加速器(DLA)、可编程视觉加速器(PVA)、现场可编程门阵列(FPGA)或本文进一步所述的任何其他加速器。在至少一个实施例中,异构处理器内的加速器1514与CPU 1502或其他处理器一起封装为片上系统(SoC)。在至少一个实施例中,异构处理器内的加速器1514与CPU 1502或其他处理器一起封装在共享管芯或其他基板上,作为片上系统(SoC)。在至少一个实施例中,一个或更多个CPU 1502、一个或更多个GPU 1510或其他PPU、和/或异构处理器内的加速器1514被封装为片上系统(SoC)。在至少一个实施例中,一个或更多个CPU 1502、一个或更多个GPU 1510或其他PPU、和/或异构处理器内的加速器1514被封装在共享管芯或其他基板上,作为片上系统(SoC)。
在至少一个实施例中,并行计算环境1508,诸如CUDA,包括用于使用一个或更多个PPU(诸如,GPU 1510)和/或异构处理器内的一个或更多个加速器1514来执行一个或更多个计算操作的库和其他软件程序。在至少一个实施例中,并行计算环境1508包括库和其他软件程序,其如果由一个或更多个处理器(诸如一个或更多个CPU 1502)执行,则使得一个或更多个PPU(诸如,GPU 1510)和/或异构处理器内的一个或更多个加速器1514执行一个或更多个计算操作。在至少一个实施例中,并行计算环境1508包括库,其如果被执行,则使得一个或更多个PPU(诸如,GPU 1510)和/或异构处理器内的一个或更多个加速器1514执行数学运算。在至少一个实施例中,并行计算环境1508包括库,其如果被执行,则使得一个或更多个PPU(诸如,GPU 1510)和/或异构处理器内的一个或更多个加速器1514执行本文进一步描述的任何其他操作。
在至少一个实施例中,一个或更多个PPU(诸如GPU 1510)和/或异构处理器内的一个或更多个加速器1514响应于一个或更多个应用程序编程接口(API)执行一个或更多个计算操作。在至少一个实施例中,API是一组软件指令,其如果由一个或更多个处理器(诸如CPU 1502)执行,则使得一个或更多个PPU(诸如GPU 1510)和/或异构处理器内的一个或更多个加速器1514执行一个或更多个计算操作。在至少一个实施例中,并行计算环境1508包括一个或更多个API 1506,其如果由一个或更多个处理器(诸如,CPU 1502)执行,则使得一个或更多个PPU(诸如GPU 1510)和/或异构处理器内的一个或更多个加速器1514执行一个或更多个计算操作。在至少一个实施例中,一个或更多个API 1506包括一个或更多个函数,其如果被执行,则使得一个或更多个处理器(诸如CPU 1502)执行一个或更多个操作,诸如计算操作、错误报告、对将由GPU 1510和/或异构处理器内的加速器1514执行的其他操作的调度、或本文进一步所述的任何其他操作。在至少一个实施例中,一个或更多个API 1506包括一个或更多个函数,其如果被执行,则使得一个或更多个PPU(诸如GPU 1510)执行一个或更多个操作,诸如计算操作、错误报告或本文进一步描述的任何其他操作。在至少一个实施例中,一个或更多个API 1506包括诸如下面结合图16-20所述的那些之类的一个或更多个函数,其如果被执行,则使得异构处理器内的一个或更多个加速器1514执行一个或更多个操作,诸如计算操作、错误报告或本文进一步所述的任何其他操作。在至少一个实施例中,一个或更多个API 1506包括一个或更多个函数,用于使得CPU 1502响应于由一个或更多个PPU(诸如,GPU 1510)和/或异构处理器内的一个或更多个加速器1514生成的信息或事件而执行一个或更多个计算操作。在至少一个实施例中,一个或更多个API 1506包括一个或更多个函数,其如果被调用,则使得CPU 1502响应于由一个或更多个PPU(诸如GPU 1510)和/或异构处理器内的一个或更多个加速器1514生成的信息或事件而执行一个或更多个计算操作。
在至少一个实施例中,处理器,诸如CPU 1502,执行一个或更多个软件程序1504。在至少一个实施例中,一个或更多个软件程序是指令集,其如果被执行,则使得一个或更多个处理器(诸如,CPU 1502、PPU(诸如GPU 1510)、和/或异构处理器内的加速器1514)执行计算操作。在至少一个实施例中,软件程序1504包括将由一个或更多个PPU(诸如GPU 1510)执行的指令和/或操作。在至少一个实施例中,一个或更多个软件程序1504包括特定于GPU的代码1512和/或特定于加速器的代码1516。在至少一个实施例中,由一个或更多个PPU(诸如GPU 1510)执行的指令和/或操作是特定于PPU或特定于GPU的代码1512。在至少一个实施例中,特定于GPU的代码1512是将由一个或更多个GPU 1510执行的一组软件指令和/或其他操作,如本文进一步所述。在至少一个实施例中,软件程序1504包括将由异构处理器中的一个或更多个加速器1514执行的指令和/或操作。在至少一个实施例中,将由异构处理器中的一个或更多个加速器1514执行的指令和/或操作是特定于加速器的代码1516。在至少一个实施例中,特定于加速器的代码1516是将由一个或更多个加速器1514执行的一组软件指令和/或其他操作,如本文进一步所述。在至少一个实施例中,响应于一个或更多个API 1506,执行特定于PPU或特定于GPU的代码1512和/或特定于加速器的代码1516,如本文下面结合图16-20所述。
图16是示出根据至少一个实施例的确定支持视频帧插值的应用程序编程接口(API)的框图1600。在至少一个实施例中,处理器的一个或更多个电路用于执行确定帧插值支持API 1602,以确定诸如本文所述的那些之类的处理器是否使用一个或更多个神经网络采用诸如本文所述的那些操作、技术、系统和/或方法支持视频帧插值。在至少一个实施例中,确定帧插值支持API 1602通过查询一个或更多个处理器(例如,一个或更多个GPU)的驱动器以确定一个或更多个硬件版本、软件版本、硬件状态和/或其他信息,来确定诸如本文所述的那些处理器是否使用一个或更多个神经网络支持视频帧插值,以及使用所述查询的结果,生成关于诸如本文所述的那些处理器是否使用一个或更多个神经网络支持视频帧插值的确定。在至少一个实施例中,例如,如果一个或更多个GPU或处理器的硬件版本等于或大于阈值,并且所述GPU或处理器的驱动器版本等于或大于阈值,则确定帧插值支持API1602返回所述GPU或处理器使用一个或更多个神经网络支持视频帧插值的指示,如本文所述。
在至少一个实施例中,图16中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行确定帧插值支持API 1602,以执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,图16中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行确定帧插值支持API 1602,以执行应用程序编程接口(API),以指示对响应于接收到诸如本文所述的那些之类的第二API而使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,确定帧插值支持API 1602是诸如上面结合图14所述的那些之类的一个或更多个API。
在至少一个实施例中,确定帧插值支持API 1602在被调用时接收用于指示关于将使用诸如本文所述的那些技术执行的操作的信息的一个或更多个参数。在至少一个实施例中,确定帧插值支持API 1602在被调用时接收用于指示关于将使用诸如本文所述的那些技术执行的指令的信息的一个或更多个参数。
在至少一个实施例中,确定帧插值支持API 1602接收包括特征ID 1604的一个或更多个参数作为输入。在至少一个实施例中,特征ID 1604是包括可用于标识、指示或以其他方式指定帧插值特征的信息的数据值,该帧插值特征可由确定帧插值支持API 1602使用,以使用诸如本文所述的那些操作、技术、系统和/或方法来确定诸如本文所述的那些之类的处理器是否支持帧插值。在至少一个实施例中,用于确定诸如本文所述的那些之类的处理器是否支持由特征ID 1604标识、指示或以其他方式指定的帧插值的特征是可由确定帧插值支持API 1602使用以确定对视频帧插值的支持的多个参数之一。在至少一个实施例中,特征ID 1604是用于标识、指示或以其他方式向API(诸如确定帧插值支持API 1602)指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,确定帧插值支持API 1602接收包括GPU ID 1606的一个或更多个参数作为输入。在至少一个实施例中,GPU ID 1606是包括可用于标识、指示或以其他方式指定处理器(例如,CPU、GPU、PPU、GPGPU等)的信息的数据值,使用确定帧插值支持API 1602向该处理器进行对帧插值支持的询问。在至少一个实施例中,由GPU ID 1606标识、指示或以其他方式指定的处理器是可由确定帧插值支持API 1602使用以确定对视频帧插值的支持的多个参数之一。在至少一个实施例中,GPU ID 1606是用于标识、指示或以其他方式向API(诸如确定帧插值支持API 1602)指定将由一个或更多个PPU(例如,GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,确定帧插值支持API 1602接收包括结果位置1608的一个或更多个参数作为输入。在至少一个实施例中,结果位置1608是包括信息的数据值,该信息可用于标识、指示或以其他方式指定用于存储使用确定帧插值支持API 1602确定的结果的位置。在至少一个实施例中,图16中未示出,结果位置1608通过确定帧插值支持API返回1620作为值而返回,如下所述。在至少一个实施例中,由结果位置1608标识、指示或以其他方式指定的结果位置是可由确定帧插值支持API 1602使用以确定对视频帧插值的支持的多个参数之一。在至少一个实施例中,结果位置1608是用于标识、指示或以其他方式向API(诸如确定帧插值支持API 1602)指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,确定帧插值支持API 1602接收包括一个或更多个其他参数1610的一个或更多个参数作为输入。在至少一个实施例中,其他参数1610是包括信息的数据,该信息指示在执行确定帧插值支持API 1602以确定对视频帧插值的支持时可用的任何其他信息。
在至少一个实施例中,图16中未示出,处理器执行一个或更多个指令以执行一个或更多个API(诸如,确定帧插值支持API 1602),以执行应用程序编程接口(API),以指示对利用一个或更多个神经网络来使用一个或更多个参数执行帧插值的支持,该一个或更多个参数包括但不限于特征ID 1604、GPU ID 1606、结果位置1608和/或其他参数1610。
在至少一个实施例中,确定帧插值支持API 1602如果被调用,则使得一个或更多个API(诸如,本文至少结合图15所述的一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中,确定帧插值支持API 1602如果被调用,则使得并行计算环境(诸如本文至少结合图15所述的并行计算环境1508)中的一个或更多个API(诸如,一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。
在至少一个实施例中,响应于确定帧插值支持API 1602,一个或更多个API 1506如果被执行,则使得一个或更多个处理器执行确定帧插值支持API返回1620。在至少一个实施例中,确定帧插值支持API返回1620是一组指令,其如果被执行,则响应于确定帧插值支持API 1602而生成和/或指示一个或更多个数据值。在至少一个实施例中,确定帧插值支持API返回1620指示成功指示器1622。在至少一个实施例中,成功指示器1622是包括用于指示确定帧插值支持API 1602的成功的任何值的数据。在至少一个实施例中,成功指示器1622包括指示作为执行确定帧插值支持API 1602的结果而生成的一种或更多种特定类型的成功的信息。在至少一个实施例中,成功指示器1622包括指示作为确定帧插值支持API 1602的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,确定帧插值支持API返回1620指示错误指示器1624。在至少一个实施例中,错误指示器1624是包括用于指示确定帧插值支持API 1602的失败的任何值的数据。在至少一个实施例中,错误指示器1624包括指示作为执行确定帧插值支持API1602的结果而生成的一种或更多种特定类型的错误的信息。在至少一个实施例中,错误指示器1624包括指示作为确定帧插值支持API 1602的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于确定帧插值支持API 1602)的并行计算环境1508将各种类型的各种操作添加到将由异构处理器内的一个或更多个加速器执行的流中。在至少一个实施例中,流操作包括获取信号量操作。在至少一个实施例中,流操作包括释放信号量操作。在至少一个实施例中,流操作包括用于刷新高速缓存存储器和/或使高速缓存存储器(诸如,PPU(诸如GPU)的L2高速缓存存储器和/或异构处理器内的一个或更多个加速器的高速缓存存储器)无效的一个或更多个操作。在至少一个实施例中,流操作包括用于指示将操作提交到外部设备(诸如,异构处理器内的一个或更多个加速器)的一个或更多个操作。在至少一个实施例中,指示流操作类型的示例软件代码如下:
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于确定帧插值支持API 1602)的并行计算环境1508包括一个或更多个函数签名,其可用于指示用于将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中,一个或更多个操作使得一个或更多个回调函数被执行。在至少一个实施例中,指示回调函数的函数签名的示例软件代码如下:
在至少一个实施例中,为了向一个或更多个API 1506指定异构处理器内的一个或更多个加速器执行由确定帧插值支持API 1602指示的一个或更多个操作,一个或更多个API 1506的一个或更多个数据结构可用于指定一个或更多个外部设备,所述一个或更多个API 1506用于为其提交所述一个或更多个操作。在至少一个实施例中,指示表示用于异构处理器内的一个或更多个加速器的设备节点的数据结构的示例软件代码如下:
在至少一个实施例中,为了指定将由异构处理器内的一个或更多个加速器执行的由一个或更多个操作所指示的一个或更多个操作的类型和数据,将使用一个或更多个API1506的一个或更多个数据结构。在至少一个实施例中,指示用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作的类型和数据的数据结构的示例软件代码如下:
在至少一个实施例中,一个或更多个API 1506包括指令,其如果被执行,则使得一个或更多个操作或指令被添加到流或其他指令集中,以由异构处理器内的一个或更多个加速器执行。在至少一个实施例中,如上所述,使得一个或更多个操作或指令被添加到流或其他指令集中的指令,响应于确定帧插值支持API 1602而被执行。在至少一个实施例中,指示并行计算环境1508(例如CUDA)中的流操作API调用的示例软件代码如下:
在至少一个实施例中,一个或更多个API 1506包括指令,其如果被执行,则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中,类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于确定帧插值支持API 1602而被添加到一个或更多个流或指令集中。在至少一个实施例中,指示由并行计算环境1508中的一个或更多个API 1506将一个或更多个操作或指令添加到一个或更多个可执行图的示例软件代码如下:
图17是示出根据至少一个实施例的启用视频帧插值的应用程序编程接口(API)的框图1700。在至少一个实施例中,处理器的一个或更多个电路用于执行启用帧插值API1702,以向诸如本文所述的处理器指示所述处理器用于使用一个或更多个神经网络采用诸如本文所述的操作、技术、系统和/或方法来执行视频帧融合。在至少一个实施例中,图17中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令,以执行启用帧插值API 1702,以执行应用程序编程接口(API),以启用帧插值来使用一个或更多个神经网络。在至少一个实施例中,启用帧插值API 1702在处理器(例如,GPU)的驱动器中设置值或标志,以使用一个或更多个神经网络启用视频帧融合,如本文所述。在至少一个实施例中,例如,启用帧插值API 1702将处理器的驱动器中的标志设置为true(真),以使用一个或更多个神经网络启用视频帧融合。在至少一个实施例中,启用帧插值API 1702将处理器状态中的值设置为true,以使用一个或更多个神经网络启用视频帧融合。在至少一个实施例中,启用帧插值API 1702使用一个或更多个神经网络采用信号、事件、信号量或一些其他这样的方法来开启或以其他方式启用视频帧融合。
在至少一个实施例中,图17中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行启用帧插值API 1702,以执行应用程序编程接口(API),以响应于接收到诸如本文所述的那些之类的第二API而启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,启用帧插值API 1702是诸如本文上面结合图14所述的那些之类的一个或更多个API。
在至少一个实施例中,启用帧插值API 1702在被调用时接收用于指示关于要使用诸如本文所述的那些技术执行的操作的信息的一个或更多个参数。在至少一个实施例中,启用帧插值API 1702在被调用时接收用于指示关于要使用诸如本文所述的那些技术执行的指令的信息的一个或更多个参数。
在至少一个实施例中,启用帧插值API 1702接收包括特征ID 1704的一个或更多个参数作为输入。在至少一个实施例中,特征ID 1704是包括可用于标识、指示或以其他方式指定帧插值特征的信息的数据值,该帧插值特征可由启用帧插值API 1702使用以启用帧插值,如本文所述。在至少一个实施例中,特征ID 1704是诸如本文至少结合图16所述的特征ID1604之类的特征ID。在至少一个实施例中,由特征ID 1704标识、指示或以其他方式指定的特征是可由启用帧插值API 1702使用以启用视频帧插值的多个参数之一。在至少一个实施例中,特征ID 1704是用于标识、指示或以其他方式向API(诸如启用帧插值API 1702)指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,启用帧插值API 1702接收包括GPU ID 1706的一个或更多个参数作为输入。在至少一个实施例中,GPU ID 1706是包括可用于标识、指示或以其他方式指定处理器(例如,CPU、GPU、PPU、GPGPU等)的信息的数据值,使用启用帧插值API 1702向该处理器提供启用帧插值的指示。在至少一个实施例中,GPU ID 1706是诸如本文至少结合图16所述的GPU ID 1606之类的GPU ID。在至少一个实施例中,由GPU ID 1706标识、指示或以其他方式指定的处理器是可由启用帧插值API 1702使用以启用视频帧插值的多个参数之一。在至少一个实施例中,GPU ID 1706是用于标识、指示或以其他方式向API(诸如启用帧插值API 1702)指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,启用帧插值API 1702接收包括一个或更多个其他参数1708的一个或更多个参数作为输入。在至少一个实施例中,其他参数1708是包括信息的数据,该信息用于指示在执行启用帧插值API 1702以启用视频帧插值时可用的任何其他信息。
在至少一个实施例中,图17中未示出,处理器执行一个或更多个指令以执行一个或更多个API(诸如启用帧插值API 1702),以执行应用程序编程接口(API),以采用一个或更多个参数启用使用一个或更多个神经网络的帧插值,该一个或更多个参数包括但不限于特征ID 1704、GPU ID 1706和/或其他参数1708。
在至少一个实施例中,启用帧插值API 1702如果被调用,则使得一个或更多个API(诸如本文至少结合图15所述的一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中,启用帧插值API 1702如果被调用,则使得并行计算环境(诸如本文至少结合图15所述的并行计算环境1508)中的一个或更多个API(诸如一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。
在至少一个实施例中,响应于启用帧插值API 1702,一个或更多个API 1506如果被执行,则使得一个或更多个处理器执行启用帧插值API返回1720。在至少一个实施例中,启用帧插值API返回1720是一组指令,其如果被执行,则响应于启用帧插值API 1702生成和/或指示一个或更多个数据值。在至少一个实施例中,启用帧插值API返回1720指示成功指示器1722。在至少一个实施例中,成功指示器1722是包括用于指示启用帧插值API 1702的成功的任何值的数据。在至少一个实施例中,成功指示器1722包括指示作为执行启用帧插值API 1702的结果而生成的一种或更多种特定类型的成功的信息。在至少一个实施例中,成功指示器1722包括指示作为启用帧插值API 1702的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,启用帧插值API返回1720指示错误指示器1724。在至少一个实施例中,错误指示器1724是包括用于指示启用帧插值API 1702的失败的任何值的数据。在至少一个实施例中,错误指示器1724包括指示作为执行启用帧插值API 1702的结果而生成的一种或更多种特定类型的错误的信息。在至少一个实施例中,错误指示器1724包括指示作为启用帧插值API 1702的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于启用帧插值API1702)的并行计算环境1508将各种类型的各种操作添加到将由异构处理器内的一个或更多个加速器执行的流中。在至少一个实施例中,流操作包括获取信号量操作。在至少一个实施例中,流操作包括释放信号量操作。在至少一个实施例中,流操作包括用于刷新高速缓存存储器和/或使高速缓存存储器(诸如,PPU(诸如GPU)的L2高速缓存存储器和/或异构处理器内的一个或更多个加速器的高速缓存存储器)无效的一个或更多个操作。在至少一个实施例中,流操作包括用于指示将操作提交给外部设备(诸如异构处理器内的一个或更多个加速器)的一个或更多个操作。在至少一个实施例中,用于指示将操作提交给外部设备的一个或更多个操作使用软件代码,诸如,如本文至少结合图16所述的指示流操作的示例软件代码。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于启用帧插值API1702)的并行计算环境1508包括一个或更多个函数签名,其可用于指示用于将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中,一个或更多个操作使得一个或更多个回调函数被执行。在至少一个实施例中,使得一个或更多个回调函数被执行的一个或更多个操作使用软件代码,诸如,如本文至少结合图16所述的指示回调函数的函数签名的示例软件代码。
在至少一个实施例中,为了向一个或更多个API 1506指定异构处理器内的一个或更多个加速器执行由启用帧插值API 1702指示的一个或更多个操作,一个或更多个API1506的一个或更多个数据结构可用于指定所述一个或更多个API 1506为其提交所述一个或更多个操作的一个或更多个外部设备。在至少一个实施例中,可用于指定一个或更多个API 1506为其提交所述一个或更多个操作的一个或更多个外部设备的所述一个或更多个API 1506的一个或更多个数据结构使用软件代码,诸如,如本文至少结合图16所述的指示表示用于异构处理器内的一个或更多个加速器的设备节点的数据结构的示例软件代码。
在至少一个实施例中,为了指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据,将使用一个或更多个API1506的一个或更多个数据结构。在至少一个实施例中,用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据的一个或更多个API 1506的一个或更多个数据结构使用软件代码,诸如,如本文至少结合图16所述的指示用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作的类型和数据的数据结构的示例软件代码。
在至少一个实施例中,一个或更多个API 1506包括指令,其如果被执行,则使得一个或更多个操作或指令被添加到将由异构处理器内的一个或更多个加速器执行的流或其他指令集中。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中的指令将响应于启用帧插值API 1702而被执行,如上所述。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中以响应于启用帧插值API1702而被执行的指令使用软件代码,诸如,指示如本文至少结合图16所述的并行计算环境1508中的流操作API调用的示例软件代码。
在至少一个实施例中,一个或更多个API 1506包括指令,其如果被执行,则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中。在至少一个实施例中,如果被执行则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令,类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于启用帧插值API 1702而被添加到一个或更多个流或指令集,如本文所述。在至少一个实施例中,如果被执行则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令使用软件代码,诸如,指示由如本文至少结合图16所述的并行计算环境1508中的一个或更多个API 1506将一个或更多个操作或指令添加到一个或更多个可执行图中的示例软件代码。
图18是示出根据至少一个实施例的禁用视频帧插值的应用程序编程接口(API)的框图1800。在至少一个实施例中,处理器的一个或更多个电路用于执行禁用帧插值API1802,以向诸如本文所述的处理器指示所述处理器不使用一个或更多个神经网络利用诸如本文所述的操作、技术、系统和/或方法执行视频帧融合。在至少一个实施例中,图18中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行禁用帧插值API 1802,以执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,禁用帧插值API 1802在处理器(例如,GPU)的驱动程序中设置值或标志,以使用一个或更多个神经网络禁用视频帧融合,如本文所述。在至少一个实施例中,例如,禁用帧插值API 1802将处理器的驱动程序中的标志设置为false,以使用一个或更多个神经网络禁用视频帧融合。在至少一个实施例中,禁用帧插值API 1802将处理器的状态中的值设置为false,以使用一个或更多个神经网络禁用视频帧融合。在至少一个实施例中,禁用帧插值API 1802使用一个或更多个神经网络利用信号、事件、信号量或其他一些此类方法关闭或以其他方式禁用视频帧融合。
在至少一个实施例中,图18中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行禁用帧插值API 1802,以执行应用程序编程接口(API),以响应于接收到诸如本文所述的那些之类的第二API禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,禁用帧插值API 1802是诸如上面结合图14所述的一个或更多个API。
在至少一个实施例中,禁用帧插值API 1802在被调用时接收用于指示关于要使用诸如本文所述的那些技术执行的操作的信息的一个或更多个参数。在至少一个实施例中,禁用帧插值API 1802在被调用时接收用于指示关于要使用诸如本文所述的那些技术执行的指令的信息的一个或更多个参数。
在至少一个实施例中,禁用帧插值API 1802接收包括特征ID 1804的一个或更多个参数作为输入。在至少一个实施例中,特征ID 1804是包括可用于标识、指示或以其他方式指定使用禁用帧插值API 1802来禁用帧插值的帧插值特征的信息的数据值,如本文所述。在至少一个实施例中,特征ID 1804是诸如本文至少结合图16所述的特征ID 1604之类的特征ID。在至少一个实施例中,由特征ID 1804标识、指示或以其他方式指定的特征是可由禁用帧插值API 1802使用以禁用视频帧插值的多个参数之一。在至少一个实施例中,特征ID 1804是用于标识、指示或以其他方式向API(诸如禁用帧插值API 1802)指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,禁用帧插值API 1802接收包括GPU ID 1806的一个或更多个参数作为输入。在至少一个实施例中,GPU ID 1806是包括可用于标识、指示或以其他方式指定处理器(例如,CPU、GPU、PPU、GPGPU等)的信息的数据值,使用禁用帧插值API 1802向该处理器提供禁用帧插值的指示。在至少一个实施例中,GPU ID 1806是诸如本文至少结合图16所述的GPU ID 1606之类的GPU ID。在至少一个实施例中,由GPU ID 1806标识、指示或以其他方式指定的处理器是可由禁用帧插值API 1802使用以禁用视频帧插值的多个参数之一。在至少一个实施例中,GPU ID 1806是用于标识、指示或以其他方式向API(诸如禁用帧插值API 1802)指定将由一个或更多个PPU(例如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,禁用帧插值API 1802接收包括一个或更多个其他参数1808的一个或更多个参数作为输入。在至少一个实施例中,其他参数1808是包括信息的数据,该信息用于指示在执行禁用帧插值API 1802以禁用视频帧插值时可用的任何其他信息。
在至少一个实施例中,图18中未示出,处理器执行一个或更多个指令以执行一个或更多个API(诸如禁用帧插值API 1802),以执行应用程序编程接口(API),以禁用使用一个或更多个神经网络采用一个或更多个参数的帧插值,该一个或更多个参数包括但不限于特征ID 1804、GPU ID 1806和/或其他参数1808。
在至少一个实施例中,禁用帧插值API 1802如果被调用,则使得一个或更多个API(诸如本文至少结合图15所述的一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中,禁用帧插值API 1802如果被调用,则使得诸如本文至少结合图15所述的并行计算环境1508之类的并行计算环境中的一个或更多个API(诸如一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。
在至少一个实施例中,响应于禁用帧插值API 1802,一个或更多个API 1506如果被执行,则使得一个或更多个处理器执行禁用帧插值API返回1820。在至少一个实施例中,禁用帧插值API返回1820是一组指令,该组指令如果被执行,则响应于禁用帧插值API 1802生成和/或指示一个或更多个数据值。在至少一个实施例中,禁用帧插值API返回1820指示成功指示器1822。在至少一个实施例中,成功指示器1822是包括用于指示禁用帧插值API1802的成功的任何值的数据。在至少一个实施例中,成功指示器1822包括指示作为执行禁用帧插值API 1802的结果而生成的一种或更多种特定类型的成功的信息。在至少一个实施例中,成功指示器1822包括指示作为禁用帧插值API 1802的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,禁用帧插值API返回1820指示错误指示器1824。在至少一个实施例中,错误指示器1824是包括用于指示禁用帧插值API 1802的失败的任何值的数据。在至少一个实施例中,错误指示器1824包括指示作为执行禁用帧插值API 1802的结果而生成的一种或更多种特定类型的错误的信息。在至少一个实施例中,错误指示器1824包括指示作为禁用帧插值API 1802的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于禁用帧插值API1802)的并行计算环境1508将各种类型的各种操作添加到要由异构处理器内的一个或更多个加速器执行的流中。在至少一个实施例中,流操作包括获取信号量操作。在至少一个实施例中,流操作包括释放信号量操作。在至少一个实施例中,流操作包括用于刷新高速缓存存储器和/或使高速缓存存储器无效的一个或更多个操作,该高速缓存存储器诸如PPU(诸如GPU)的L2高速缓存存储器和/或异构处理器内的一个或更多个加速器的高速缓存存储器。在至少一个实施例中,流操作包括用于指示将操作提交给外部设备(诸如异构处理器内的一个或更多个加速器)的一个或更多个操作。在至少一个实施例中,用于指示将操作提交给外部设备的一个或更多个操作使用软件代码,诸如指示如本文至少结合图16所述的流操作的示例软件代码。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于禁用帧插值API1802)的并行计算环境1508包括一个或更多个函数签名,其可用于指示用于将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中,一个或更多个操作使得一个或更多个回调函数被执行。在至少一个实施例中,使得一个或更多个回调函数被执行的一个或更多个操作使用软件代码,诸如指示本文至少结合图16所述的回调函数的函数签名的示例软件代码。
在至少一个实施例中,为了向一个或更多个API 1506指定异构处理器内的一个或更多个加速器来执行由禁用帧插值API 1802指示的一个或更多个操作,一个或更多个API1506的一个或更多个数据结构可用于指定一个或更多个外部设备,所述一个或更多个API1506将为该一个或更多个外部设备提交所述一个或更多个操作。在至少一个实施例中,可用于指定一个或更多个外部设备(所述一个或更多个API 1506将为其提交所述一个或更多个操作)的一个或更多个API 1506的一个或更多个数据结构使用软件代码,诸如指示数据结构的示例软件代码,该数据结构表示用于如本文至少结合图16所述的异构处理器内的一个或更多个加速器的设备节点。
在至少一个实施例中,为了指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据,将使用一个或更多个API1506的一个或更多个数据结构。在至少一个实施例中,用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据的一个或更多个API 1506的一个或更多个数据结构使用软件代码,诸如指示用于指定将由如本文至少结合图16所述的异构处理器内的一个或更多个加速器执行的一个或更多个操作的类型和数据的数据结构的示例软件代码。
在至少一个实施例中,一个或更多个API 1506包括指令,其如果被执行,则使得一个或更多个操作或指令被添加到将由异构处理器内的一个或更多个加速器执行的流或其他指令集中。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中的指令是响应于禁用帧插值API 1802而被执行的,如上文所述。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中以响应于禁用帧插值API 1802而被执行的指令使用软件代码,诸如指示如本文至少结合图16所述的并行计算环境1508中的流操作API调用的示例软件代码。
在至少一个实施例中,一个或更多个API 1506包括指令,其如果被执行,则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中。在至少一个实施例中,如果被执行则使得由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令,类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于禁用帧插值API 1802而被添加到一个或更多个流或指令集中。在至少一个实施例中,如果被执行则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令使用软件代码,诸如指示由如本文至少结合图16所述的并行计算环境1508的一个或更多个API 1506向一个或更多个可执行图添加一个或更多个操作或指令的示例软件代码。
图19是示出根据至少一个实施例的获得视频帧插值的参数的应用程序编程接口(API)的框图1900。在至少一个实施例中,处理器的一个或更多个电路用于执行获取帧插值参数API 1902,以获得可由诸如本文所述那些之类的处理器使用的一个或更多个参数,以使用一个或更多个神经网络采用诸如本文所述的那些操作、技术、系统和/或方法执行视频帧插值。在至少一个实施例中,图19中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行获取帧插值参数API 1902,以执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,图19中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行获取帧插值参数API 1902,以执行应用程序编程接口(API),以响应于接收到诸如本文所述的那些之类的第二API而使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,获取帧插值参数API 1902是诸如上面至少结合图14所述的那些之类的一个或更多个API。
在至少一个实施例中,获取帧插值参数API 1902在被调用时接收用于指示关于将使用诸如本文所述的那些技术执行的操作的信息的一个或更多个参数。在至少一个实施例中,获取帧插值参数API 1902在被调用时接收用于指示关于将使用诸如本文所述的那些技术执行的指令的信息的一个或更多个参数。
在至少一个实施例中,获取帧插值参数API 1902接收包括GPU ID 1904的一个或更多个参数作为输入。在至少一个实施例中,GPU ID 1904是包括可用于标识、指示或以其他方式指定处理器(例如,CPU、GPU、PPU、GPGPU等)的信息的数据值,使用获取帧插值参数API 1902向该处理器提供对帧插值的请求。在至少一个实施例中,GPU ID 1904是诸如本文至少结合图16所述的GPU ID 1606之类的GPU ID。在至少一个实施例中,由GPU ID 1904标识、指示或以其他方式指定的处理器是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,GPU ID 1904是用于向API(例如获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器中的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括GPU参数1906的一个或更多个参数作为输入。在至少一个实施例中,GPU参数1906是包括可用于标识、指示或以其他方式指定可用于使用获取帧插值参数API 1902确定帧插值参数的一个或更多个渲染参数的信息的数据值。在至少一个实施例中,GPU参数1906在渲染参数数据结构中指定多个参数。在至少一个实施例中,由GPU参数1906标识、指示或以其他方式指定的一个或更多个渲染参数是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,GPU参数1906是用于向API(例如,获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括目标渲染大小1908的一个或更多个参数作为输入。在至少一个实施例中,目标渲染大小1908是包括可用于标识、指示或以其他方式指定目标渲染大小(例如,最终渲染大小)的信息的数据值,该目标渲染大小可由获取帧插值参数API 1902使用以获得渲染参数(例如,最佳渲染大小、最大渲染大小、最小渲染大小、清晰度等),如本文所述。在至少一个实施例中,向获取帧插值参数API1902提供目标渲染大小1908,作为指示目标帧的宽度和高度的一对值。在至少一个实施例中,向获取帧插值参数API 1902提供目标渲染大小1908,作为指示目标帧的宽度、高度和深度的三个值。在至少一个实施例中,向获取帧插值参数API 1902提供目标渲染大小1908,作为指示目标帧的宽度、高度和/或深度的数据结构。在至少一个实施例中,由目标渲染大小1908标识、指示或以其他方式指定的目标渲染大小是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,目标渲染大小1908是用于向API(例如获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器中的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括渲染质量1910的一个或更多个参数作为输入。在至少一个实施例中,渲染质量1910是包括可用于标识、指示或以其他方式指定目标渲染质量的信息的数据值,该目标渲染质量被提供给获取帧插值参数API1902以获得渲染参数(例如,最佳渲染大小、最大渲染大小、最小渲染大小、清晰度等),如本文所述。在至少一个实施例中,渲染质量1910是枚举值,其指定例如有利于最大性能、有利于最大质量、平衡性能和质量等。在至少一个实施例中,由渲染质量1910标识、指示或以其他方式指定的目标渲染质量是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,渲染质量1910是用于向API(例如,获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括最佳渲染大小1912的一个或更多个参数作为输入。在至少一个实施例中,最佳渲染大小1912是包括可用于标识、指示或以其他方式指定存储位置的信息的数据值,要使用获取帧插值参数API 1902向该存储位置指示一个或更多个参数。在至少一个实施例中,最佳渲染大小1912是至少部分地基于GPU ID 1904、GPU参数1906、目标渲染大小1908、渲染质量1910和/或其他参数1926(如下所述)确定的。在至少一个实施例中,最佳渲染大小1912由获取帧插值参数API 1902指示为指示插值帧的最佳宽度和高度的一对值。在至少一个实施例中,最佳渲染大小1912由获取帧插值参数API 1902指示为指示插值帧的最佳宽度、高度和深度的三个值。在至少一个实施例中,最佳渲染大小1912由获取帧插值参数API 1902指示为指示插值帧的最佳宽度、高度和/或深度的数据结构。在至少一个实施例中,由最佳渲染大小1912标识、指示或以其他方式指定的目标帧大小是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,最佳渲染大小1912是用于向API(例如,获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括最大渲染大小1914的一个或更多个参数作为输入。在至少一个实施例中,最大渲染大小1914是包括可用于标识、指示或以其他方式指定存储位置的信息的数据值,要使用获取帧插值参数API 1902向该存储位置指示一个或更多个参数。在至少一个实施例中,最大渲染大小1914是至少部分地基于GPU ID 1904、GPU参数1906、目标渲染大小1908、渲染质量1910和/或其他参数1926(如下所述)确定的。在至少一个实施例中,最大渲染大小1914由获取帧插值参数API 1902指示为指示插值帧的最大宽度和高度的一对值。在至少一个实施例中,最大渲染大小1914由获取帧插值参数API 1902指示为指示插值帧的最大宽度、高度和深度的三个值。在至少一个实施例中,最大渲染大小1914由获取帧插值参数API 1902指示为指示插值帧的最大宽度、高度和/或深度的数据结构。在至少一个实施例中,由最大渲染大小1914标识、指示或以其他方式指定的最大帧大小是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,最大渲染大小1914是用于向API(例如,获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括最小渲染大小1916的一个或更多个参数作为输入。在至少一个实施例中,最小渲染大小1916是包括可用于标识、指示或以其他方式指定存储位置的信息的数据值,要使用获取帧插值参数API 1902向该存储位置指示一个或更多个参数。在至少一个实施例中,最小渲染大小1916是至少部分地基于GPU ID 1904、GPU参数1906、目标渲染大小1908、渲染质量1910和/或其他参数1926(如下所述)确定的。在至少一个实施例中,最小渲染大小1916由获取帧插值参数API 1902指示为指示插值帧的最小宽度和高度的一对值。在至少一个实施例中,最小渲染大小1916由获取帧插值参数API 1902指示为指示插值帧的最小宽度、高度和深度的三个值。在至少一个实施例中,最小渲染大小1916由获取帧插值参数API 1902指示为指示插值帧的最小宽度、高度和/或深度的数据结构。在至少一个实施例中,由最小渲染大小1916标识、指示或以其他方式指定的最小帧大小是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,最小渲染大小1916是用于向API(例如,获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器中的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括清晰度1918的一个或更多个参数作为输入。在至少一个实施例中,清晰度1918是包括可用于标识、指示或以其他方式指定在帧插值期间可使用获取帧插值参数API 1902应用的清晰度的量的存储位置的信息的数据值。在至少一个实施例中,清晰度1918作为介于0和1之间的值被返回。在至少一个实施例中,由清晰度1918标识、指示或以其他方式指定的清晰度的量是可由获取帧插值参数API 1902使用以获得用于视频帧插值的参数的多个参数之一。在至少一个实施例中,清晰度1918是用于向API(诸如,获取帧插值参数API 1902)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器中的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,获取帧插值参数API 1902接收包括一个或更多个其他参数1926的一个或更多个参数作为输入。在至少一个实施例中,其他参数1926是包括用于指示在执行获取帧插值参数API 1902以获得用于视频帧插值的参数时可用的任何其他信息的信息的数据。
在至少一个实施例中,图19中未示出,处理器执行一个或更多个指令以执行一个或更多个API(诸如,获取帧插值参数API 1902),以执行应用程序编程接口(API),以使用一个或更多个神经网络采用一个或更多个参数指示帧大小信息,该一个或更多个参数包括但不限于GPU ID 1904、GPU参数1906、目标渲染大小1908、渲染质量1910、最佳渲染大小1912、最大渲染大小1914、最小渲染大小1916、清晰度1918和/或其他参数1926。
在至少一个实施例中,获取帧插值参数API 1902如果被调用,则使得一个或更多个API(诸如,本文至少结合图15所述的一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中,获取帧插值参数API 1902如果被调用,则使得并行计算环境(诸如,本文至少结合图15所述的并行计算环境1508)中的一个或更多个API(诸如,一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。
在至少一个实施例中,响应于获取帧插值参数API 1902,一个或更多个API 1506如果被执行,则使得一个或更多个处理器执行获取帧插值参数API返回1920。在至少一个实施例中,获取帧插值参数API返回1920是一组指令,其如果被执行,则响应于获取帧插值参数API 1902生成和/或指示一个或更多个数据值。在至少一个实施例中,获取帧插值参数API返回1920指示成功指示器1922。在至少一个实施例中,成功指示器1922是包括用于指示获取帧插值参数API 1902的成功的任何值的数据。在至少一个实施例中,成功指示器1922包括指示作为执行获取帧插值参数API 1902的结果而生成的一种或更多种特定类型的成功的信息。在至少一个实施例中,成功指示器1922包括指示作为获取帧插值参数API 1902的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,获取帧插值参数API返回1920指示错误指示器1924。在至少一个实施例中,错误指示器1924是包括用于指示获取帧插值参数API 1902的失败的任何值的数据。在至少一个实施例中,错误指示器1924包括指示作为执行获取帧插值参数API1902的结果而生成的一种或更多种特定类型的错误的信息。在至少一个实施例中,错误指示器1924包括指示作为获取帧插值参数API 1902的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于,获取帧插值参数API 1902)的并行计算环境1508将各种类型的各种操作添加到要由异构处理器内的一个或更多个加速器执行的流中。在至少一个实施例中,流操作包括获取信号量操作。在至少一个实施例中,流操作包括释放信号量操作。在至少一个实施例中,流操作包括用于刷新高速缓存存储器和/或使高速缓存存储器无效的一个或更多个操作,诸如PPU(诸如GPU)的L2高速缓存存储器、和/或异构处理器内的一个或更多个加速器的高速缓存存储器。在至少一个实施例中,流操作包括用于指示将操作提交给外部设备(诸如,异构处理器内的一个或更多个加速器)的一个或更多个操作。在至少一个实施例中,用于指示将操作提交给外部设备的一个或更多个操作使用软件代码,诸如指示如本文至少结合图16所述的流操作的示例软件代码。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于,获取帧插值参数API 1902)的并行计算环境1508包括一个或更多个函数签名,其可用于指示用于将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中,一个或更多个操作使得一个或更多个回调函数被执行。在至少一个实施例中,使得执行一个或更多个回调函数的一个或更多个操作使用软件代码,诸如指示如本文至少结合图16所述的回调函数的函数签名的示例软件代码。
在至少一个实施例中,为了指定异构处理器内的一个或更多个加速器来执行由获取帧插值参数API 1902指示给一个或更多个API 1506的一个或更多个操作,一个或更多个API 1506的一个或更多个数据结构可用于指定一个或更多个外部设备,所述一个或更多个API 1506将为该一个或更多个外部设备提交所述一个或更多个操作。在至少一个实施例中,可用于指定一个或更多个外部设备(所述一个或更多个API 1506将为其提交所述一个或更多个操作)的一个或更多个API 1506的一个或更多个数据结构使用软件代码,诸如指示数据结构的示例软件代码,该数据结构表示用于本文至少结合图16所述的异构处理器内的一个或更多个加速器的设备节点。
在至少一个实施例中,为了指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据,一个或更多个API 1506的一个或更多个数据结构将被使用。在至少一个实施例中,用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据的一个或更多个API 1506的一个或更多个数据结构使用软件代码,诸如指示数据结构以指定将由本文至少结合图16所述的异构处理器内的一个或更多个加速器所执行的一个或更多个操作的类型和数据的示例软件代码。
在至少一个实施例中,一个或更多个API 1506包括指令,这些指令如果被执行,则使得一个或更多个操作或指令被添加到流或其他指令集中,以由异构处理器内的一个或更多个加速器执行。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中的指令是响应于获取帧插值参数API 1902而被执行的,如上所述。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中以响应于获取帧插值参数API 1902而被执行的指令使用软件代码,诸如指示本文至少结合图16所述的并行计算环境1508中的流操作API调用的示例软件代码。
在至少一个实施例中,一个或更多个API 1506包括指令,这些指令如果被执行,则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中。在至少一个实施例中,如果被执行则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令,类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于获取帧插值参数API 1902而被添加到一个或更多个流或指令集中,如本文所述。在至少一个实施例中,如果被执行则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令使用软件代码,诸如指示由本文至少结合图16所述的并行计算环境1508的一个或更多个API 1506将一个或更多个操作或指令添加到一个或更多个可执行图中的示例软件代码。
图20是示出根据至少一个实施例的指定用于视频帧插值的参数的应用程序编程接口(API)的框图2000。在至少一个实施例中,处理器的一个或更多个电路用于执行一组帧插值参数API 2002,以向诸如本文所述的那些之类的处理器指定一个或更多个参数,这些参数可由所述处理器使用,以使用一个或更多个神经网络采用诸如本文所述的那些之类的操作、技术、系统和/或方法来执行视频帧插值。在至少一个实施例中,图20中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行设置帧插值参数API 2002,以执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,图20中未示出,诸如本文所述的那些之类的处理器的一个或更多个电路执行一个或更多个指令以执行设置帧插值参数API 2002,以执行应用程序编程接口(API),以使得响应于接收到诸如本文所述的那些之类的第二API使用一个或更多个神经网络来执行帧插值。在至少一个实施例中,设置帧插值参数API 2002是诸如上面结合图14所述的那些之类的一个或更多个API。
在至少一个实施例中,设置帧插值参数API 2002在被调用时接收用于指示关于将使用诸如本文所述的那些之类的技术执行的操作的信息的一个或更多个参数。在至少一个实施例中,设置帧插值参数API 2002在被调用时接收用于指示关于将使用诸如本文所述的那些之类的技术执行的指令的信息的一个或更多个参数。
在至少一个实施例中,设置帧插值参数API 2002接收包括GPU ID 2004的一个或更多个参数作为输入。在至少一个实施例中,GPU ID 2004是包括可用于使用设置帧插值参数API 2002标识、指示或以其他方式指定向其提供帧插值参数的处理器(例如,CPU、GPU、PPU、GPGPU等)的信息的数据值。在至少一个实施例中,GPU ID 2004是诸如本文至少结合图16所述的GPU ID 1606之类的GPU ID。在至少一个实施例中,由GPU ID 2004标识、指示或以其他方式指定的处理器是可由设置帧插值参数API 2002使用以指定用于视频帧插值的参数的多个参数之一。在至少一个实施例中,GPU ID 2004是用于向API(诸如,设置帧插值参数API 2002)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,设置帧插值参数API 2002接收包括最佳渲染大小2006的一个或更多个参数作为输入。在至少一个实施例中,最佳渲染大小2006是包括可用于使用设置帧插值参数API 2002标识、指示或以其他方式指定插值帧的最佳大小的信息的数据值。在至少一个实施例中,最佳渲染大小2006是使用如本文至少结合图19所述的获取帧插值参数API 1902而确定的最佳渲染大小1912(例如,宽度、高度和/或深度)。在至少一个实施例中,由最佳渲染大小2006标识、指示或以其他方式指定的最佳渲染大小是可由设置帧插值参数API 2002使用以指定用于视频帧插值的参数的多个参数之一。在至少一个实施例中,最佳渲染大小2006是用于向API(诸如,设置帧插值参数API 2002)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,设置帧插值参数API 2002接收包括目标渲染大小2008的一个或更多个参数作为输入。在至少一个实施例中,目标渲染大小2008是包括可用于标识、指示或以其他方式指定可由设置帧插值参数API 2002使用的目标渲染大小(例如,最终渲染大小)的信息的数据值。在至少一个实施例中,目标渲染大小2008是如本文至少结合图19所述的目标渲染大小1908。在至少一个实施例中,由目标渲染大小2008标识、指示或以其他方式指定的目标渲染大小是可由设置帧插值参数API 2002使用以指定用于视频帧插值的参数的多个参数之一。在至少一个实施例中,目标渲染大小2008是用于向API(诸如,设置帧插值参数API 2002)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,设置帧插值参数API 2002接收包括渲染质量2010的一个或更多个参数作为输入。在至少一个实施例中,渲染质量2010是包括可用于标识、指示或以其他方式指定要提供给设置帧插值参数API 2002的目标渲染质量的信息的数据值。在至少一个实施例中,渲染质量2010是如本文至少结合图19所述的渲染质量1910。在至少一个实施例中,由渲染质量2010标识、指示或以其他方式指定的渲染质量是可由设置帧插值参数API2002使用以指定用于视频帧插值的参数的多个参数之一。在至少一个实施例中,渲染质量2010是用于向API(诸如,设置帧插值参数API 2002)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,设置帧插值参数API 2002接收包括特征标志(featureflag)2012的一个或更多个参数作为输入。在至少一个实施例中,特征标志2012是包括可用于标识、指示或以其他方式指定可由设置帧插值参数API 2002使用的一个或更多个附加特征参数的信息的数据值。在至少一个实施例中,特征标志2012包括但不限于用于指示帧是否具有高动态范围(HDR)、是低分辨率、是抖动的、具有反转深度、是否应执行锐化、是否应自动校正曝光值等的标志。在至少一个实施例中,特征标志2012包括要插值的帧的数量的指示(例如,要在先前帧和当前帧之间生成的帧的数量),如本文所述。在至少一个实施例中,例如,如果先前帧在时间0.1秒处,当前帧在时间0.2秒处,则设置特征标志2012以插值一个中间帧可以在0.15秒处生成插值帧,设置特征标志2012以插值两个中间帧可以在0.133秒处生成第一插值帧以及在0.166秒处生成第二插值帧,等等。在至少一个实施例中,由特征标志2012标识、指示或以其他方式指定的特征标志是可由设置帧插值参数API 2002使用以指定用于视频帧插值的参数的多个参数之一。在至少一个实施例中,特征标志2012是用于向API(诸如,设置帧插值参数API 2002)标识、指示或以其他方式指定将由一个或更多个PPU(诸如GPU)和/或异构处理器内的一个或更多个加速器执行的一组操作或指令的数据值,如本文所述。
在至少一个实施例中,设置帧插值参数API 2002接收包括一个或更多个其他参数2014的一个或更多个参数作为输入。在至少一个实施例中,其他参数2014是包括用于指示在执行设置帧插值参数API 2002以指定用于视频帧插值的参数时可用的任何其他信息的信息的数据。
在至少一个实施例中,图20中未示出,处理器执行一个或更多个指令以执行一个或更多个API(诸如,设置帧插值参数API 2002),以执行应用程序编程接口(API),以使得使用一个或更多个神经网络采用一个或更多个参数来执行帧插值,该一个或更多个参数包括但不限于GPU ID 2004、最佳渲染大小2006、目标渲染大小2008、渲染质量2010、特征标志2012、和/或其他参数2014。
在至少一个实施例中,设置帧插值参数API 2002如果被调用,则使得一个或更多个API(诸如,本文至少结合图15所述的一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。在至少一个实施例中,设置帧插值参数API 2002如果被调用,则使得并行计算环境(诸如,本文至少结合图15所述的并行计算环境1508)中的一个或更多个API(诸如,一个或更多个API 1506)添加一个或更多个操作或指令,以被添加、插入或以其他方式包括在将由异构处理器内的一个或更多个加速器执行的流或指令集中。
在至少一个实施例中,响应于设置帧插值参数API 2002,一个或更多个API 1506如果被执行,则使得一个或更多个处理器执行设置帧插值参数API返回2020。在至少一个实施例中,设置帧插值参数API返回2020是一组指令,该组指令如果被执行,则响应于设置帧插值参数API 2002生成和/或指示一个或更多个数据值。在至少一个实施例中,设置帧插值参数API返回2020指示成功指标器2022。在至少一个实施例中,成功指示器2022是包括用于指示设置帧插值参数API 2002的成功的任何值的数据。在至少一个实施例中,成功指示器2022包括指示作为执行设置帧插值参数API 2002的结果而生成的一种或更多种特定类型的成功的信息。在至少一个实施例中,成功指示器2022包括指示作为设置帧插值参数API2002的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,设置帧插值参数API返回2020指示错误指示器2024。在至少一个实施例中,错误指示器2024是包括用于指示设置帧插值参数API 2002的失败的任何值的数据。在至少一个实施例中,错误指示器2024包括指示作为执行设置帧插值参数API2002的结果而生成的一种或更多种特定类型的错误的信息。在至少一个实施例中,错误指示器2024包括指示作为设置帧插值参数API 2002的结果而生成的一个或更多个其他数据值的信息。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于设置帧插值参数API 2002)的并行计算环境1508将各种类型的各种操作添加到要由异构处理器内的一个或更多个加速器执行的流中。在至少一个实施例中,流操作包括获取信号量操作。在至少一个实施例中,流操作包括释放信号量操作。在至少一个实施例中,流操作包括用于刷新高速缓存存储器和/或使高速缓存存储器无效的一个或更多个操作,所述高速缓存存储器诸如PPU(诸如GPU)的L2高速缓存存储器和/或异构处理器内的一个或更多个加速器的高速缓存存储器。在至少一个实施例中,流操作包括用于指示将操作提交给外部设备(诸如,异构处理器内的一个或更多个加速器)的一个或更多个操作。在至少一个实施例中,用于指示将操作提交给外部设备的一个或更多个操作使用软件代码,诸如指示如本文至少结合图16所述的流操作的示例软件代码。
在至少一个实施例中,包括一个或更多个API 1506(包括但不限于设置帧插值参数API 2002)的并行计算环境1508包括一个或更多个函数签名,其可用于指示用于将由异构处理器内的一个或更多个加速器执行的操作的一个或更多个回调函数。在至少一个实施例中,一个或更多个操作使得一个或更多个回调函数被执行。在至少一个实施例中,用于使得一个或更多个回调函数被执行的一个或更多个操作使用软件代码,诸如指示如本文至少结合图16所述的回调函数的函数签名的示例软件代码。
在至少一个实施例中,为了指定异构处理器内的一个或更多个加速器来执行由设置帧插值参数API 2002向一个或更多个API 1506指示的一个或更多个操作,一个或更多个API 1506的一个或更多个数据结构可用于指定一个或更多个外部设备,所述一个或更多个API 1506用于为该一个或更多个外部设备提交所述一个或更多个操作。在至少一个实施例中,可用于指定一个或更多个外部设备(所述一个或更多个API 1506将为其提交所述一个或更多个操作)的一个或更多个API 1506的一个或更多个数据结构使用软件代码,诸如指示数据结构的示例软件代码,该数据结构表示用于如本文至少结合图16所述的异构处理器内的一个或更多个加速器的设备节点。
在至少一个实施例中,为了指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据,一个或更多个API 1506的一个或更多个数据结构将被使用。在至少一个实施例中,一个或更多个API 1506的一个或更多个数据结构(其用于指定将由异构处理器内的一个或更多个加速器执行的一个或更多个操作所指示的一个或更多个操作的类型和数据)使用软件代码,诸如指示数据结构的示例软件代码,该数据结构用于指定将由如本文至少结合图16所述的异构处理器内的一个或更多个加速器执行的一个或更多个操作的类型和数据。
在至少一个实施例中,一个或更多个API 1506包括指令,这些指令如果被执行,则使得将一个或更多个操作或指令被添加到将由异构处理器内的一个或更多个加速器执行的流或其他指令集中。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中的指令将响应于设置帧插值参数API 2002而被执行,如上所述。在至少一个实施例中,用于使得一个或更多个操作或指令被添加到流或其他指令集中以响应于设置帧插值参数API 2002而被执行的指令使用软件代码,诸如指示如本文至少结合图16所述的并行计算环境1508中的流操作API调用的示例软件代码。
在至少一个实施例中,一个或更多个API 1506包括指令,这些指令如果被执行,则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中。在至少一个实施例中,如果被执行则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令类似于将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令如何响应于设置帧插值参数API 2002而被添加到一个或更多个流或指令集中,如本文所述。在至少一个实施例中,如果被执行则使得将由异构处理器内的一个或更多个加速器执行的一个或更多个操作或指令被添加到一个或更多个可执行图中的指令使用软件代码,诸如指示由如本文至少结合图16所述的并行计算环境1508的一个或更多个API 1506将一个或更多个操作或指令添加到一个或更多个可执行图中的示例软件代码。
图21示出了根据至少一个实施例的用于执行一个或更多个应用程序编程接口(API)的过程2100。在至少一个实施例中,过程2100是用于执行一个或更多个API以由并行计算环境(诸如本文至少结合图15所述的并行计算环境1508)异构处理器内的一个或更多个加速器的过程。在至少一个实施例中,过程2100从步骤2104处开始2102,其中一个或更多个处理器用于执行包括一个或更多个指令的软件程序,这些指令如果被执行,则使得所述一个或更多个处理器和/或一个或更多个其他处理器(诸如,图形处理单元(GPU)和/或一个或更多个异构处理器内的一个或更多个加速器)执行一个或更多个计算操作。在至少一个实施例中,在步骤2104处,将由一个或更多个处理器执行的软件程序包括一个或更多个指令,这些指令如果被执行,则使得并行计算环境1508的一个或更多个API 1506被执行,如上所述。在至少一个实施例中,在步骤2104之后,过程2100在步骤2106处继续进行。
在至少一个实施例中,在步骤2106处,执行过程2100的处理器确定诸如本文至少结合图16-20所述的那些之类的API的执行(例如,确定帧插值支持API 1602、启用帧插值API 1702、禁用帧插值API 1802、获取帧插值参数API 1902、和/或设置帧插值参数API2002)是否将被执行。在至少一个实施例中,在步骤2106处,如果确定不执行API(“否”分支),则过程2100在步骤2116继续进行。在至少一个实施例中,在步骤2106处,如果确定要执行API(“是”分支),则过程2100在步骤2108处继续进行。
在至少一个实施例中,在步骤2108处,执行过程2100的处理器执行诸如本文至少结合图16-20所述的那些之类的API。在至少一个实施例中,在步骤2108处,一个或更多个处理器用于执行一个或更多个指令以使得诸如本文至少结合图16-20所述的那些之类的一个或更多个API调用(例如,确定帧插值支持API 1602、启用帧插值API 1702、禁用帧插值API1802、获取帧插值参数API 1902、和/或设置帧插值参数API 2002)由所述一个或更多个处理器和/或一个或更多个其他处理器(诸如,如上所述的GPU和/或异构处理器中的加速器)执行。在至少一个实施例中,在步骤2108之后,过程2100在步骤2110处继续进行。
在至少一个实施例中,在步骤2110处,执行过程2100的处理器确定返回值是否作为执行一个或更多个指令以使得诸如本文至少结合图16-20所述的那些之类的一个或更多个API调用(例如,确定帧插值支持API 1602、启用帧插值API 1702、禁用帧插值API 1802、获取帧插值参数API 1902、和/或设置帧插值参数API 2002)由所述一个或更多个处理器和/或一个或更多个其他处理器(诸如,如上所述的GPU和/或异构处理器中的加速器)执行的结果而被返回。在至少一个实施例中,在步骤2110处,执行过程2100的处理器确定是否使用诸如本文至少结合图16-20所述的那些之类的API返回(例如,确定帧插值支持API返回1620、启用帧插值API返回1720、禁用帧插值API返回1820、获取帧插值参数API返回1920、和/或设置帧插值参数API返回2020)来返回返回值。在至少一个实施例中,在步骤2110处,如果确定返回值将被返回(“是”分支),则过程2100在步骤2112处继续进行。在至少一个实施例中,在步骤2110处,如果确定返回值将不被返回(“否”分支),则过程2100在步骤2114处继续进行。
在至少一个实施例中,在步骤2112处,设置返回值。在至少一个实施例中,在步骤2112处,通过将返回值存储在由诸如本文至少结合图16-20所述的那些(例如,确定帧插值支持API 1602、启用帧插值API 1702、禁用帧插值API 1802、获取帧插值参数API 1902、和/或设置帧插值参数API 2002)之类的API指定的存储器位置中,来设置所述返回值。在至少一个实施例中,在步骤2112处,通过将返回值存储在诸如本文至少结合图16-20所述的那些(例如,确定帧插值支持API返回1620、启用帧插值API返回1720、禁用帧插值API返回1820、获取帧插值参数API返回1920、和/或设置帧插值参数API返回2020)之类的API返回中包括的存储器位置中,来设置所述返回值。在至少一个实施例中,在步骤2112之后,过程2100在步骤2114处继续进行。
在至少一个实施例中,在步骤2114处,使用诸如本文至少结合图16-20所述的那些(例如,确定帧插值支持API返回1620、启用帧插值API返回1720、禁用帧插值API返回1820、获取帧插值参数API返回1920、和/或设置帧插值参数API返回2020)之类的API返回来返回成功或失败(例如,错误)。在至少一个实施例中,在步骤2114之后,过程2100在步骤2116处继续进行。
在至少一个实施例中,在步骤2116处,执行过程2100的处理器确定软件程序2104的执行是否完成。在至少一个实施例中,在步骤2116处,执行过程2100的处理器至少部分地基于一个或更多个处理器是否正在执行软件程序2104的指令来确定软件程序2104的执行的完成。在至少一个实施例中,在步骤2116处,如果确定软件程序2104的执行已经完成,则过程2100结束2118。在至少一个实施例中,在步骤2116处,如果确定软件程序2104的执行尚未完成,则过程2100在步骤2104处继续进行,以继续执行软件程序2104的一个或更多个指令。
在至少一个实施例中,过程2100的操作以不同于图21中所示的顺序执行。在至少一个实施例中,过程2100的操作同时地或并行地被执行。在至少一个实施例中,例如,不相互依赖(例如,顺序独立)的操作同时或并行地被执行。在至少一个实施例中,过程2100的操作由在诸如本文所述的那些处理器上执行的多个线程来执行。
图22是示出根据至少一个实施例的处理应用程序编程接口(API)的示例软件栈的框图2200。在至少一个实施例中,使用软件栈2200处理API(诸如,本文至少结合图16所述的确定帧插值支持API 1602),以执行应用程序编程接口(API),以指示对使用一个或更多个神经网络执行帧插值的支持。在至少一个实施例中,使用软件栈2200处理API(诸如,本文至少结合图17所述的启用帧插值API 1702),以执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,使用软件栈2200处理API(诸如,本文至少结合图18所述的禁用帧插值API 1802),以执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,使用软件栈2200处理API(诸如,本文至少结合图19所述的获取帧插值参数API 1902),以执行应用程序编程接口(API),以使用一个或更多个神经网络来指示帧大小信息。在至少一个实施例中,使用软件栈2200处理API(诸如,本文至少结合图20所述的设置帧插值参数API 2002),以执行应用程序编程接口(API),以使得使用一个或更多个神经网络来执行帧插值。在至少一个实施例中,示例软件栈2200至少是诸如本文至少结合图42-45所述的那些之类的软件栈的一部分。在至少一个实施例中,应用程序2202执行命令以确定是否支持特征2204。在至少一个实施例中,应用程序2202执行命令以确定是否支持用于执行诸如本文所述的那些之类的API的特征2204。
在至少一个实施例中,应用程序2202使用2206一个或更多个运行时API 2208来确定是否支持特征2204。在至少一个实施例中,运行时API 2208使用2210一个或更多个驱动程序API 2212来确定是否支持特征2204。在至少一个实施例中,图22中未示出,应用程序2202使用一个或更多个驱动程序API 2212来确定是否支持特征2204。在至少一个实施例中,驱动程序API 2212查询2214计算机系统硬件2216以确定是否支持特征2204。
在至少一个实施例中,计算机系统硬件2216通过查询与处理器2234相关联的一组能力来确定处理器2234是否支持特征2204。在至少一个实施例中,处理器2234是诸如本文至少结合图1所述的处理器102之类的处理器。在至少一个实施例中,计算机系统硬件2216使用处理器2234的操作系统确定处理器2234是否支持特征2204。在至少一个实施例中,计算机系统硬件2216通过查询与图形处理器2236相关联的一组能力来确定图形处理器2236是否支持特征。在至少一个实施例中,图形处理器2236是诸如本文所描述的那些之类的图形处理器。在至少一个实施例中,计算机系统硬件2216使用处理器2234的操作系统确定图形处理器2236是否支持特征2204。在至少一个实施例中,计算机系统硬件2216使用图形处理器2236的操作系统确定图形处理器2236是否支持特征2204。
在至少一个实施例中,在计算机系统硬件2216确定是否支持特征2204之后,计算机系统硬件2216使用驱动程序API 2212返回2218确定结果,该驱动程序API 2212可以使用运行时API 2208返回2220确定结果,该运行时API 2208可以将确定结果返回2222给应用程序2202。在至少一个实施例中,如果应用程序2202接收到指示支持2224特征2204的确定结果,则应用程序2202使用诸如本文所述的那些之类的一个或更多个API执行特征2226。在至少一个实施例中,应用程序2202使用诸如本文所述的那些之类的系统和方法执行特征2226。在至少一个实施例中,应用程序2202使用2228运行时API 2208执行特征2226,该运行时API 2208包括但不限于诸如本文至少结合图6-10所述的那些之类的API的运行时版本。
在至少一个实施例中,运行时API 2208使用2230驱动程序API 2212执行特征2226,该驱动程序API 2212包括但不限于诸如本文所述的那些之类的API的驱动程序版本。在至少一个实施例中,图22中未示出,应用程序2202使用2230驱动程序API 2212执行特征2226。在至少一个实施例中,驱动程序API 2212使用2232计算机系统硬件2216执行特征2226。
在下面的描述中,阐述了许多具体细节以提供对至少一个实施例的更彻底的理解。然而,对于本领域技术人员来说显而易见的是,可以在没有这些具体细节中的一个或更多个的情况下实践本发明构思。
推理和训练逻辑
图23A示出了用于执行与一个或更多个实施例相关联的推理和/或训练操作的推理和/或训练逻辑2315。下面结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。
在至少一个实施例中,推理和/或训练逻辑2315可以包括但不限于代码和/或数据存储2301,用于存储前向和/或输出权重和/或输入/输出数据,和/或在一个或更多个实施例的方面中配置被训练为和/或用于推理的神经网络的神经元或层的其他参数。在至少一个实施例中,训练逻辑2315可以包括或耦合到用于存储图形代码或其他软件以控制时序和/或顺序的代码和/或数据存储2301,其中权重和/或其他参数信息被加载以配置逻辑,包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。在至少一个实施例中,代码(诸如图代码)基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储2301存储在使用一个或更多个实施例的方面训练和/或推理期间的输入/输出数据和/或权重参数的前向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,代码和/或数据存储2301的任何部分都可以包括在其他片上或片外数据存储内,包括处理器的L1、L2或L3高速缓存或系统存储器。
在至少一个实施例中,代码和/或数据存储2301的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路的内部或外部。在至少一个实施例中,代码和/或数据存储2301可以是高速缓存存储器、动态随机可寻址存储器(“DRAM”)、静态随机可寻址存储器(“SRAM”)、非易失性存储器(例如闪存)或其他存储。在至少一个实施例中,对代码和/或数据存储2301是在处理器的内部还是外部的选择,例如,或者由DRAM、SRAM、闪存或某种其他存储类型组成,可以取决于存储片上或片外的可用存储空间,正在执行训练和/或推理功能的延迟要求,在神经网络的推理和/或训练中使用的数据的批大小或这些因素的某种组合。
在至少一个实施例中,推理和/或训练逻辑2315可以包括但不限于代码和/或数据存储2305,以存储与在一个或更多个实施例的方面中被训练为和/或用于推理的神经网络的神经元或层相对应的反向和/或输出权重和/或输入/输出数据神经网络。在至少一个实施例中,在使用一个或更多个实施例的方面训练和/或推理期间,代码和/或数据存储2305存储在输入/输出数据和/或权重参数的反向传播期间结合一个或更多个实施例训练或使用的神经网络的每个层的权重参数和/或输入/输出数据。在至少一个实施例中,训练逻辑2315可以包括或耦合到用于存储图代码或其他软件以控制时序和/或顺序的代码和/或数据存储2305,其中权重和/或其他参数信息被加载以配置逻辑,该逻辑包括整数和/或浮点单元(统称为算术逻辑单元(ALU))。
在至少一个实施例中,代码(诸如图代码)使得基于该代码所对应的神经网络的架构将权重或其他参数信息加载到处理器ALU中。在至少一个实施例中,代码和/或数据存储2305的任何部分可以与其他片上或片外数据存储一起包括,包括处理器的L1、L2或L3高速缓存或系统存储器。在至少一个实施例中,代码和/或数据存储2305的任何部分可以在一个或更多个处理器或其他硬件逻辑设备或电路上的内部或外部。在至少一个实施例中,代码和/或数据存储2305可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如闪存)或其他存储。在至少一个实施例中,代码和/或数据存储2305是在处理器的内部还是外部的选择,例如,是由DRAM、SRAM、闪存还是其他某种存储类型组成,取决于可用存储是片上还是片外,正在执行的训练和/或推理功能的延迟要求,在神经网络的推理和/或训练中使用的数据批量大小或这些因素的某种组合。
在至少一个实施例中,代码和/或数据存储2301以及代码和/或数据存储2305可以是分开的存储结构。在至少一个实施例中,代码和/或数据存储2301以及代码和/或数据存储2305可以是相同的存储结构。在至少一个实施例中,代码和/或数据存储2301以及代码和/或数据存储2305可以部分地被组合和部分分离。在至少一个实施例中,代码和/或数据存储2301以及代码和/或数据存储2305的任何部分可以与其他片上或片外数据存储包括在一起,包括处理器的L1、L2或L3高速缓存或系统存储器。
在至少一个实施例中,推理和/或训练逻辑2315可以包括但不限于一个或更多个算术逻辑单元(“ALU”)2310(包括整数和/或浮点单元),用于至少部分地基于训练和/或推理代码(例如,图代码)或由其指示来执行逻辑和/或数学运算,其结果可能会产生存储在激活存储2320中的激活(例如,来自神经网络内部的层或神经元的输出值),其是存储在代码和/或数据存储2301和/或代码和/或数据存储2305中的输入/输出和/或权重参数数据的函数。在至少一个实施例中,激活响应于执行指令或其他代码,由ALU 2310执行的线性代数和/或基于矩阵的数学生成在激活存储2320中存储的激活,其中存储在代码和/或数据存储2305中和/或代码和/或数据存储2301中的权重值用作具有其他值的操作数,例如偏置值、梯度信息、动量值或其他参数或超参数,可以将任何或所有这些存储在代码和/或数据存储2305或代码和/或数据存储2301或其他片上或片外存储中。
在至少一个实施例中,一个或更多个处理器或其他硬件逻辑设备或电路中包括一个或更多个ALU 2310,而在另一个实施例中,一个或更多个ALU 2310可以在处理器或其他硬件逻辑设备或使用它们(例如协处理器)的电路外。在至少一个实施例中,可以将一个或更多个ALU 2310包括在处理器的执行单元之内,或者以其他方式包括在由处理器的执行单元可访问的ALU组中,该处理器的执行单元可以在同一处理器内或者分布在不同类型的不同处理器之间(例如,中央处理单元、图形处理单元、固定功能单元等)。在至少一个实施例中,代码和/或数据存储2301、代码和/或数据存储2305以及激活存储2320可以共享处理器或其他硬件逻辑设备或电路,而在另一个实施例中,它们可以在不同的处理器或其他硬件逻辑设备或电路或相同和不同处理器或其他硬件逻辑设备或电路的某种组合中。在至少一个实施例中,激活存储2320的任何部分可以与其他片上或片外数据存储包括在一起,包括处理器的L1、L2或L3高速缓存或系统存储器。此外,推理和/或训练代码可以与处理器或其他硬件逻辑或电路可访问的其他代码一起存储,并可以使用处理器的提取、解码、调度、执行、退出和/或其他逻辑电路来提取和/或处理。
在至少一个实施例中,激活存储2320可以是高速缓存存储器、DRAM、SRAM、非易失性存储器(例如,闪存)或其他存储。在至少一个实施例中,激活存储2320可以完全地或部分地在一个或更多个处理器或其他逻辑电路内部或外部。在至少一个实施例中,可以取决于片上或片外可用的存储,进行训练和/或推理功能的延迟要求,在推理和/或训练神经网络中使用的数据的批量大小或这些因素的某种组合,选择激活存储2320是处理器的内部还是外部,例如,或者包括DRAM、SRAM、闪存或其他存储类型。
在至少一个实施例中,图23A中所示的推理和/或训练逻辑2315可以与专用集成电路(“ASIC”)结合使用,例如来自Google的处理单元、来自GraphcoreTM的推理处理单元(IPU)或来自Intel Corp的(例如“Lake Crest”)处理器。在至少一个实施例中,图23A所示的推理和/或训练逻辑2315可与中央处理单元(“CPU”)硬件,图形处理单元(“GPU”)硬件或其他硬件(例如现场可编程门阵列(“FPGA”))结合使用。
在至少一个实施例中,关于图23A所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图23A所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图23A所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图23A所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图23A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图23A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图23A所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。在至少一个实施例中,推理和/或训练逻辑2315用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图23B示出了根据至少一个实施例的推理和/或训练逻辑2315。在至少一个实施例中,推理和/或训练逻辑2315可以包括但不限于硬件逻辑,其中计算资源被专用或以其他方式唯一地连同对应于神经网络内的一层或更多层神经元的权重值或其他信息一起使用。在至少一个实施例中,图23B中所示的推理和/或训练逻辑2315可以与专用集成电路(ASIC)结合使用,例如来自Google的处理单元,来自GraphcoreTM的推理处理单元(IPU)或来自Intel Corp的(例如“Lake Crest”)处理器。在至少一个实施例中,图23B中所示的推理和/或训练逻辑2315可以与中央处理单元(CPU)硬件、图形处理单元(GPU)硬件或其他硬件(例如现场可编程门阵列(FPGA))结合使用。在至少一个实施例中,推理和/或训练逻辑2315包括但不限于代码和/或数据存储2301以及代码和/或数据存储2305,其可以用于存储代码(例如,图代码)、权重值和/或其他信息,包括偏置值、梯度信息、动量值和/或其他参数或超参数信息。在图23B中所示的至少一个实施例中,代码和/或数据存储2301以及代码和/或数据存储2305中的每一个都分别与专用计算资源(例如计算硬件2302和计算硬件2306)相关联。在至少一个实施例中,计算硬件2302和计算硬件2306中的每一个包括一个或更多个ALU,这些ALU仅分别对存储在代码和/或数据存储2301和代码和/或数据存储2305中的信息执行数学函数(例如线性代数函数),执行函数的结果被存储在激活存储2320中。
在至少一个实施例中,代码和/或数据存储2301和2305以及相应的计算硬件2302和2306中的每一个分别对应于神经网络的不同层,使得从代码和/或数据存储2301和计算硬件2302的一个存储/计算对2301/2302得到的激活提供作为代码和/或数据存储2305和计算硬件2306的下一个存储/计算对2305/2306的输入,以便反映神经网络的概念组织。在至少一个实施例中,每个存储/计算对2301/2302和2305/2306可以对应于一个以上的神经网络层。在至少一个实施例中,在推理和/或训练逻辑2315中可以包括在存储计算对2301/2302和2305/2306之后或与之并行的附加存储/计算对(未示出)。
在至少一个实施例中,关于图23B所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图23B所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图23B所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图23B所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图23B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图23B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图23B所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
神经网络训练和部署
图24示出了根据至少一个实施例的深度神经网络的训练和部署。在至少一个实施例中,使用训练数据集2402来训练未训练的神经网络2406。在至少一个实施例中,训练框架2404是PyTorch框架,而在其他实施例中,训练框架2404是TensorFlow,Boost,Caffe,Microsoft Cognitive Toolkit/CNTK,MXNet,Chainer,Keras,Deeplearning4j或其他训练框架。在至少一个实施例中,训练框架2404训练未训练的神经网络2406,并使它能够使用本文所述的处理资源来训练,以生成经训练的神经网络2408。在至少一个实施例中,权重可以被随机选择或通过使用深度信念网络预训练。在至少一个实施例中,可以以有监督、部分有监督或无监督的方式执行训练。
在至少一个实施例中,使用有监督学习来训练未训练的神经网络2406,其中训练数据集2402包括与用于输入的期望输出配对的输入,或者其中训练数据集2402包括具有已知输出的输入和神经网络2406是手动分级的输出。在至少一个实施例中,以有监督的方式来训练未训练的神经网络2406,并且处理来自训练数据集2402的输入,并将结果输出与一组期望或想要的输出进行比较。在至少一个实施例中,然后通过未训练的神经网络2406将误差传播回去。在至少一个实施例中,训练框架2404调整控制未训练的神经网络2406的权重。在至少一个实施例中,训练框架2404包括用于监视未训练的神经网络2406向模型(例如,经训练的神经网络2408)收敛的程度的工具,适于基于输入数据(例如新数据集2412)生成正确答案(例如结果2414)的模型。在至少一个实施例中,训练框架2404反复训练未训练的神经网络2406,同时调整权重以使用损失函数和调整算法(例如随机梯度下降)来改善未训练的神经网络2406的输出。在至少一个实施例中,训练框架2404训练未训练的神经网络2406,直到未训练的神经网络2406达到期望的精度为止。在至少一个实施例中,然后可以部署经训练的神经网络2408以实现任何数量的机器学习操作。
在至少一个实施例中,使用无监督学习来训练未训练的神经网络2406,其中未训练的神经网络2406尝试使用未标记的数据来训练自己。在至少一个实施例中,无监督学习训练数据集2402将包括输入数据,而没有任何关联的输出数据或“地面实况”数据。在至少一个实施例中,未训练的神经网络2406可以学习训练数据集2402内的分组,并且可以确定各个输入如何与未训练的数据集2402相关。在至少一个实施例中,可以使用无监督训练来在经训练的神经网络2408中生成自组织图,其能够执行对减少新数据集2412的维度有用的操作。在至少一个实施例中,无监督训练也可以用于执行异常检测,这允许识别新数据集2412中偏离新数据集2412的正常模式的数据点。
在至少一个实施例中,可以使用半监督学习,这是一种技术,其中在训练数据集2402中包括标记数据和未标记数据的混合。在至少一个实施例中,训练框架2404可以用于例如通过转移的学习技术来执行递增学习。在至少一个实施例中,递增学习使得经训练的神经网络2408能够适应新数据集2412,而不会忘记在初始训练期间注入到经训练的神经网络2408内的知识。
在至少一个实施例中,关于图24所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图24所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图24所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图24所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图24所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图24所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图24所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
数据中心
图25示出了可以使用至少一个实施例的示例数据中心2500。在至少一个实施例中,数据中心2500包括数据中心基础设施层2510、框架层2520、软件层2530和应用程序层2540。
在至少一个实施例中,如图25所示,数据中心基础设施层2510可以包括资源协调器2512、分组计算资源2514和节点计算资源(“节点C.R.”)2516(1)-2516(N),其中“N”代表正整数(其可以是与其他图中使用的整数不同的整数“N”)。在至少一个实施例中,节点C.R.2516(1)-2516(N)可以包括但不限于任何数量的中央处理单元(“CPU”)或其他处理器(包括加速器、现场可编程门阵列(FPGA)、图形处理器等),存储器存储设备2518(1)-2518(N)(例如动态只读存储器、固态硬盘或磁盘驱动器),网络输入/输出(“NW I/O”)设备,网络交换机,虚拟机(“VM”),电源模块和冷却模块等。在至少一个实施例中,节点C.R.2516(1)-2516(N)中的一个或更多个节点C.R.可以是具有一个或更多个上述计算资源的服务器。
在至少一个实施例中,分组的计算资源2514可以包括容纳在一个或更多个机架内的节点C.R.的单独分组(未示出),或者容纳在各个地理位置的数据中心内的许多机架(也未示出)。在至少一个实施例中,分组的计算资源2514内的节点C.R.的单独分组可以包括可以被配置或分配为支持一个或更多个工作负载的分组的计算、网络、存储器或存储资源。在至少一个实施例中,可以将包括CPU或处理器的几个节点C.R.分组在一个或更多个机架内,以提供计算资源来支持一个或更多个工作负载。在至少一个实施例中,一个或更多个机架还可以包括任何数量的电源模块、冷却模块和网络交换机,以任意组合。
在至少一个实施例中,资源协调器2512可以配置或以其他方式控制一个或更多个节点C.R.2516(1)-2516(N)和/或分组的计算资源2514。在至少一个实施例中,资源协调器2512可以包括用于数据中心2500的软件设计基础结构(“SDI”)管理实体。在至少一个实施例中,资源协调器2312可以包括硬件、软件或其某种组合。
在至少一个实施例中,如图25所示,框架层2520包括作业调度器2522、配置管理器2524、资源管理器2526和分布式文件系统2528。在至少一个实施例中,框架层2520可以包括支持软件层2530的软件2532和/或应用程序层2540的一个或更多个应用程序2542的框架。在至少一个实施例中,软件2532或应用程序2542可以分别包括基于Web的服务软件或应用程序,例如由Amazon Web Services,Google Cloud和Microsoft Azure提供的服务或应用程序。在至少一个实施例中,框架层2520可以是但不限于一种免费和开放源软件网络应用程序框架,例如可以利用分布式文件系统2528来进行大范围数据处理(例如“大数据”)的Apache SparkTM(以下称为“Spark”)。在至少一个实施例中,作业调度器2522可以包括Spark驱动器,以促进对数据中心2500的各个层所支持的工作负载进行调度。在至少一个实施例中,配置管理器2524可以能够配置不同的层,例如软件层2530和包括Spark和用于支持大规模数据处理的分布式文件系统2528的框架层2520。在至少一个实施例中,资源管理器2526能够管理映射到或分配用于支持分布式文件系统2528和作业调度器2522的集群或分组计算资源。在至少一个实施例中,集群或分组计算资源可以包括数据中心基础设施层2510上的分组计算资源2514。在至少一个实施例中,资源管理器2526可以与资源协调器2512协调以管理这些映射的或分配的计算资源。
在至少一个实施例中,包括在软件层2530中的软件2532可以包括由节点C.R.2516(1)-2516(N)的至少一部分,分组的计算资源2514和/或框架层2520的分布式文件系统2528使用的软件。在至少一个实施例中,一种或更多种类型的软件可以包括但不限于Internet网页搜索软件、电子邮件病毒扫描软件、数据库软件和流视频内容软件。
在至少一个实施例中,应用程序层2540中包括的一个或更多个应用程序2542可以包括由节点C.R.2516(1)-2516(N)的至少一部分、分组计算资源2514和/或框架层2520的分布式文件系统2528使用的一种或更多种类型的应用程序。在至少一个实施例中,一种或更多种类型的应用程序可以包括但不限于任何数量的基因组学应用程序、认知计算、应用程序和机器学习应用程序,包括训练或推理软件,机器学习框架软件(例如PyTorch、TensorFlow、Caffe等)或其他与一个或更多个实施例结合使用的机器学习应用程序。
在至少一个实施例中,配置管理器2524、资源管理器2526和资源协调器2512中的任何一个可以基于以任何技术上可行的方式获取的任何数量和类型的数据来实现任何数量和类型的自我修改动作。在至少一个实施例中,自我修改动作可以减轻数据中心2500的数据中心操作员做出可能不好的配置决定并且可以避免数据中心的未充分利用和/或执行差的部分。
在至少一个实施例中,数据中心2500可以包括工具、服务、软件或其他资源,以根据本文所述的一个或更多个实施例来训练一个或更多个机器学习模型或者使用一个或更多个机器学习模型来预测或推理信息。例如,在至少一个实施例中,可以通过使用上文关于数据中心2500描述的软件和计算资源,根据神经网络架构通过计算权重参数来训练机器学习模型。在至少一个实施例中,通过使用通过本文所述的一种或更多种训练技术计算出的权重参数,可以使用上面与关于数据中心2500所描述的资源,使用对应于一个或更多个神经网络的经训练的机器学习模型来推理或预测信息。
在至少一个实施例中,数据中心可以使用CPU、专用集成电路(ASIC)、GPU、FPGA或其他硬件来使用上述资源来执行训练和/或推理。此外,上述的一个或更多个软件和/或硬件资源可以配置成一种服务,以允许用户训练或执行信息推理,例如图像识别、语音识别或其他人工智能服务。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在系统图25中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或体系架构,或者本文所述的神经网络用例计算的权重参数推理或预测操作。
在至少一个实施例中,关于图25所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图25所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图25所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图25所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图25所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图25所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图25所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
超级计算
以下附图提出但不限于可以用于实现至少一个实施例的示例性基于超级计算机的系统。
在至少一个实施例中,超级计算机可以指代展现出实质性并行性并且包括至少一个芯片的硬件系统,其中系统中的芯片通过网络互连并且被放置在层级组织的外壳中。在至少一个实施例中,填充具有若干机架的机器室的大型硬件系统是超级计算机的一个特定示例,每个机架包括若干板/机架模块,每个板/机架模块包括全部通过可缩放网络互连的若干芯片。在至少一个实施例中,这种大型硬件系统的单个机架是超级计算机的另一示例。在至少一个实施例中,展现出实质性并行性并且包括若干硬件组件的单个芯片可以同样地被认为是超级计算机,因为随着特征大小可以减小,可以合并在单个芯片中的硬件的量也可以增加。
图26A示出了根据至少一个实施例的芯片级的超级计算机。在至少一个实施例中,在FPGA或ASIC芯片内,主计算在称为线程单元的有限状态机(2604)内执行。在至少一个实施例中,任务和同步网络(2602)连接有限状态机,并且用于以正确的顺序调度线程和执行操作。在至少一个实施例中,使用存储器网络(2606、2610)访问在芯片上分区的多级高速缓存层次结构(2608、2612)。在至少一个实施例中,使用存储器控制器(2616)和片外存储器网络(2614)访问片外存储器。在至少一个实施例中,当设计不适合单个逻辑芯片时,I/O控制器(2618)用于跨芯片通信。
图26B示出了根据至少一个实施例的在机架模块级处的超级计算机。在至少一个实施例中,在机架模块内,存在多个FPGA或ASIC芯片(2620),其连接到构成主加速器存储器的一个或更多个DRAM单元(2622)。在至少一个实施例中,每个FPGA/ASIC芯片使用板上的宽总线与它的相邻FPGA/ASIC芯片连接,具有差分高速信令(2624)。在至少一个实施例中,每个FPGA/ASIC芯片也连接到至少一个高速串行通信电缆。
图26C示出了根据至少一个实施例的在机架级的超级计算机。图26D示出了根据至少一个实施例的在整个系统级的超级计算机。在至少一个实施例中,参照图26C和图26D,在机架中的机架模块之间以及整个系统中跨机架,高速串行光或铜电缆(2626,2628)用于实现可扩展的、可能不完全的超立方体网络。在至少一个实施例中,加速器的FPGA/ASIC芯片中的一个通过PCI-Express连接(2630)连接到主机系统。在至少一个实施例中,主机系统包括运行应用的软件部分的主机微处理器(2634)和由与加速器上的存储器保持一致的一个或更多个主机存储器DRAM单元(2632)组成的存储器。在至少一个实施例中,主机系统可以是机架之一上的独立模块,或可以与超级计算机的模块之一集成。在至少一个实施例中,立方连接的循环拓扑提供通信链路以为大型超级计算机创建超立方网络。在至少一个实施例中,机架模块上的小组FPGA/ASIC芯片可充当单个超立方体节点,使得与单个芯片相比,每组的外部链路的总数增加。在至少一个实施例中,一个群组包括机架模块上的芯片A、B、C和D,该机架模块具有在环面组织中连接A、B、C和D的内部宽差分总线。在至少一个实施例中,存在12条将机架模块连接到外部世界的串行通信电缆。在至少一个实施例中,机架模块上的芯片A连接至串行通信电缆0、1、2。在至少一个实施例中,芯片B连接至电缆3、4、5。在至少一个实施例中,芯片C连接至6、7、8。在至少一个实施例中,芯片D连接至9、10、11。在至少一个实施例中,构成机架模块的整个组{A,B,C,D}可以形成超级计算机系统内的超立方体节点,其中高达212=4096个机架模块(16384个FPGA/ASIC芯片)。在至少一个实施例中,对于芯片A在组{A,B,C,D}的链路4上发送消息,消息必须首先路由至具有板载差分宽总线连接的芯片B。在至少一个实施例中,在链路4上到达目的地为芯片A的组{A,B,C,D}(即,到达B)的消息也必须首先被路由到组{A,B,C,D}内内部的正确的目的地芯片(A)。在至少一个实施例中,还可以实现其他大小的并行超级计算机系统。
在至少一个实施例中,关于图26A-26D所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图26A-26D所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图26A-26D所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图26A-26D所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图26A-26D所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图26A-26D所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图26A-26D所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
计算机系统
图27是示出根据至少一个实施例示例性计算机系统的框图,该示例性计算机系统可以是具有互连的设备和组件的系统,片上系统(SOC)或它们的某种形成有处理器的组合,该处理器可以包括执行单元以执行指令。在至少一个实施例中,根据本公开,例如本文所述的实施例,计算机系统2700可以包括但不限于组件,例如处理器2702,其执行单元包括逻辑以执行用于过程数据的算法。在至少一个实施例中,计算机系统2700可以包括处理器,例如可从加利福尼亚圣塔克拉拉的英特尔公司(Intel Corporation of Santa Clara,California)获得的处理器家族、XeonTM、XScaleTM和/或StrongARMTM,CoreTM或NervanaTM微处理器,尽管也可以使用其他系统(包括具有其他微处理器的PC、工程工作站、机顶盒等)。在至少一个实施例中,计算机系统2700可以执行可从华盛顿州雷蒙德市的微软公司(Microsoft Corporation of Redmond,Wash.)获得的WINDOWS操作系统版本,尽管其他操作系统(例如UNIX和Linux)、嵌入式软件和/或图形用户界面也可以使用。
实施例可以用在其他设备中,例如手持设备和嵌入式应用程序。手持设备的一些示例包括蜂窝电话、互联网协议(Internet Protocol)设备、数码摄像机、个人数字助理(“PDA”)和手持PC。在至少一个实施例中,嵌入式应用程序可以包括微控制器、数字信号处理器(“DSP”)、片上系统、网络计算机(“NetPC”)、机顶盒、网络集线器、广域网(“WAN”)交换机,或根据至少一个实施例可以执行一个或更多个指令的任何其他系统。
在至少一个实施例中,计算机系统2700可包括但不限于处理器2702,该处理器2702可包括但不限于一个或更多个执行单元2708,以根据本文描述的技术执行机器学习模型训练和/或推理。在至少一个实施例中,计算机系统2700是单处理器台式机或服务器系统,但是在另一个实施例中,计算机系统2700可以是多处理器系统。在至少一个实施例中,处理器2702可以包括但不限于复杂指令集计算机(“CISC”)微处理器、精简指令集计算(“RISC”)微处理器、超长指令字(“VLIW”)微处理器、实现指令集组合的处理器,或任何其他处理器设备,例如数字信号处理器。在至少一个实施例中,处理器2702可以耦合到处理器总线2710,该处理器总线2710可以在处理器2702与计算机系统2700中的其他组件之间传输数据信号。
在至少一个实施例中,处理器2702可以包括但不限于1级(“L1”)内部高速缓存存储器(“cache”)2704。在至少一个实施例中,处理器2702可以具有单个内部高速缓存或多级内部缓存。在至少一个实施例中,高速缓存存储器可以驻留在处理器2702的外部。根据特定的实现和需求,其他实施例也可以包括内部和外部高速缓存的组合。在至少一个实施例中,寄存器文件2706可以在各种寄存器中存储不同类型的数据,包括但不限于整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器。
在至少一个实施例中,包括但不限于执行整数和浮点运算的逻辑的执行单元2708,其也位于处理器2702中。在至少一个实施例中,处理器2702还可以包括微码(“ucode”)只读存储器(“ROM”),用于存储某些宏指令的微代码。在至少一个实施例中,执行单元2708可以包括用于处理封装指令集2709的逻辑。在至少一个实施例中,通过将封装指令集2709包括在通用处理器的指令集中,以及要执行指令的相关电路,可以使用处理器2702中的封装数据来执行许多多媒体应用程序使用的操作。在至少一个实施例中,可以通过使用处理器的数据总线的全宽度来在封装的数据上执行操作来加速和更有效地执行许多多媒体应用程序,这可能不需要在该处理器的数据总线上传输较小的数据单元来一次执行一个数据元素的一个或更多个操作。
在至少一个实施例中,执行单元2708也可以用在微控制器、嵌入式处理器、图形设备、DSP和其他类型的逻辑电路中。在至少一个实施例中,计算机系统2700可以包括但不限于存储器2720。在至少一个实施例中,存储器2720可以为动态随机存取存储器(“DRAM”)设备、静态随机存取存储器(“SRAM”)设备、闪存设备或另一个存储设备。在至少一个实施例中,存储器2720可以存储由处理器2702可以执行的由数据信号表示的指令2719和/或数据2721。
在至少一个实施例中,系统逻辑芯片可以耦合到处理器总线2710和存储器2720。在至少一个实施例中,系统逻辑芯片可以包括但不限于存储器控制器集线器(“MCH”)2716,并且处理器2702可以经由处理器总线2710与MCH 2716通信。在至少一个实施例中,MCH2716可以提供到存储器2720的高带宽存储器路径2718以用于指令和数据存储以及用于图形命令、数据和纹理的存储。在至少一个实施例中,MCH 2716可以在处理器2702、存储器2720和计算机系统2700中的其他组件之间启动数据信号,并且在处理器总线2710、存储器2720和系统I/O接口2722之间桥接数据信号。在至少一个实施例中,系统逻辑芯片可以提供用于耦合到图形控制器的图形端口。在至少一个实施例中,MCH 2716可以通过高带宽存储器路径2718耦合到存储器2720,并且图形/视频卡2712可以通过加速图形端口(Accelerated Graphics Port)(“AGP”)互连2714耦合到MCH 2716。
在至少一个实施例中,计算机系统2700可以使用系统I/O接口2722作为专有集线器接口总线来将MCH 2716耦合到I/O控制器集线器(“ICH”)2730。在至少一个实施例中,ICH2730可以通过本地I/O总线提供与某些I/O设备的直接连接。在至少一个实施例中,本地I/O总线可以包括但不限于用于将外围设备连接到存储器2720、芯片组和处理器2702的高速I/O总线。示例可以包括但不限于音频控制器2729、固件集线器(“Flash BIOS”)2728、无线收发器2726、数据存储2724、包括用户输入和键盘接口2725的传统I/O控制器2723、串行扩展端口2727(例如通用串行总线(USB)端口)和网络控制器2734。在至少一个实施例中,数据存储2724可以包括硬盘驱动器、软盘驱动器、CD-ROM设备、闪存设备或其他大容量存储设备。
在至少一个实施例中,图27示出了包括互连的硬件设备或“芯片”的系统,而在其他实施例中,图27可以示出SoC。在至少一个实施例中,图27中示出的设备可以与专有互连、标准化互连(例如,PCIe)或其某种组合互连。在至少一个实施例中,计算机系统2700的一个或更多个组件使用计算快速链路(CXL)互连来互连。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在图27的系统中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。
在至少一个实施例中,关于图27所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图27所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图27所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图27所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图27所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图27所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图27所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图28是示出根据至少一个实施例的用于利用处理器2810的电子设备2800的框图。在至少一个实施例中,电子设备2800可以是,例如但不限于,笔记本电脑、塔式服务器、机架服务器、刀片服务器、膝上型计算机、台式机、平板电脑、移动设备、电话、嵌入式计算机或任何其他合适的电子设备。
在至少一个实施例中,电子设备2800可以包括但不限于通信地耦合到任何合适数量或种类的组件、外围设备、模块或设备的处理器2810。在至少一个实施例中,处理器2810使用总线或接口耦合,诸如I2C总线、系统管理总线(“SMBus”)、低引脚数(LPC)总线、串行外围接口(“SPI”)、高清音频(“HDA”)总线、串行高级技术附件(“SATA”)总线、通用串行总线(“USB”)(1、2、3版等)或通用异步接收器/发送器(“UART”)总线。在至少一个实施例中,图28示出了系统,该系统包括互连的硬件设备或“芯片”,而在其他实施例中,图28可以示出示例性SoC。在至少一个实施例中,图28中所示的设备可以与专有互连线、标准化互连(例如,PCIe)或其某种组合互连。在至少一个实施例中,图28的一个或更多个组件使用计算快速链路(CXL)互连线来互连。
在至少一个实施例中,图28可以包括显示器2824、触摸屏2825、触摸板2830、近场通信单元(“NFC”)2845、传感器集线器2840、热传感器2846、快速芯片组(“EC”)2835、可信平台模块(“TPM”)2838、BIOS/固件/闪存(“BIOS,FW Flash”)2822、DSP 2860、驱动器2820(例如固态磁盘(“SSD”)或硬盘驱动器(“HDD”))、无线局域网单元(“WLAN”)2850、蓝牙单元2852、无线广域网单元(“WWAN”)2856、全球定位系统(GPS)单元2855、摄像机(“USB 3.0摄像机”)2854(例如USB 3.0摄像机)和/或以例如LPDDR3标准实现的低功耗双倍数据速率(“LPDDR”)存储器单元(“LPDDR3”)2815。这些组件可以各自以任何合适的方式实现。
在至少一个实施例中,其他组件可以通过本文所述的组件通信地耦合到处理器2810。在至少一个实施例中,加速度计2841、环境光传感器(“ALS”)2842、罗盘2843和陀螺仪2844可以可通信地耦合到传感器集线器2840。在至少一个实施例中,热传感器2839、风扇2837、键盘2836和触摸板2830可以通信地耦合到EC 2835。在至少一个实施例中,扬声器2863、耳机2864和麦克风(“mic”)2865可以通信地耦合到音频单元(“音频编解码器和D类放大器”)2862,其又可以通信地耦合到DSP 2860。在至少一个实施例中,音频单元2862可以包括例如但不限于音频编码器/解码器(“编解码器”)和D类放大器。在至少一个实施例中,SIM卡(“SIM”)2857可以通信地耦合到WWAN单元2856。在至少一个实施例中,组件(诸如WLAN单元2850和蓝牙单元2852以及WWAN单元2856)可以被实现为下一代形式因素(NGFF)。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在系统图28中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。
在至少一个实施例中,关于图28所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图28所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图28所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图28所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图28所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图28所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图28所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图29示出了根据至少一个实施例的计算机系统2900。在至少一个实施例中,计算机系统2900配置为实现贯穿本公开描述的各种过程和方法。
在至少一个实施例中,计算机系统2900包括但不限于至少一个中央处理单元(“CPU”)2902,该中央处理单元(“CPU”)2902连接到使用任何合适协议实现的通信总线2910,诸如PCI(“外围设备互联”)、外围组件互连Express(“PCI-Express”)、AGP(“加速图形端口”)、超传输或任何其他总线或点对点通信协议。在至少一个实施例中,计算机系统2900包括但不限于主存储器2904和控制逻辑(例如,实现为硬件、软件或其组合),并且数据可以采取随机存取存储器(“RAM”)的形式存储在主存储器2904中。在至少一个实施例中,网络接口子系统(“网络接口”)2922提供到其他计算设备和网络的接口,用于使用计算机系统2900接收数据并将数据传输到其他系统。
在至少一个实施例中,计算机系统2900在至少一个实施例中包括但不限于输入设备2908、并行处理系统2912和显示设备2906,它们可以使用常规的阴极视线管(“CRT”)、液晶显示器(“LCD”)、发光二极管(“LED”)显示器、等离子显示器或其他合适的显示技术实现。在至少一个实施例中,从输入设备2908(诸如键盘、鼠标、触摸板、麦克风等)接收用户输入。在至少一个实施例中,本文所述模块中的每一个可以位于单个半导体平台上以形成处理系统。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在系统图29中使用,以至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文所述的神经网络用例计算出的权重参数来进行推理或预测操作。
在至少一个实施例中,关于图29所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图29所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图29所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图29所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图29所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图29所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图29所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图30示出了根据至少一个实施例的计算机系统3000。在至少一个实施例中,计算机系统3000包括但不限于计算机3010和USB棒3020。在至少一个实施例中,计算机3010可以包括但不限于任何数量和类型的处理器(未示出)和存储器(未示出)。在至少一个实施例中,计算机3010包括但不限于服务器、云实例、膝上型计算机和台式计算机。
在至少一个实施例中,USB棒3020包括但不限于处理单元3030、USB接口3040和USB接口逻辑3050。在至少一个实施例中,处理单元3030可以是能够执行指令的任何指令执行系统、装置或设备。在至少一个实施例中,处理单元3030可以包括但不限于任何数量和类型的处理核心(未示出)。在至少一个实施例中,处理单元3030包括专用集成电路(“ASIC”),其被优化以执行与机器学习相关联的任何量和类型的操作。例如,在至少一个实施例中,处理单元3030是被优化以执行机器学习推理操作的张量处理单元(“TPC”)。在至少一个实施例中,处理单元3030是视觉处理单元(“VPU”),其被优化以执行机器视觉和机器学习推理操作。
在至少一个实施例中,USB接口3040可以是任何类型的USB连接器或USB插座。例如,在至少一个实施例中,USB接口3040是用于数据和电力的USB 3.0类型C插座。在至少一个实施例中,USB接口3040是USB 3.0类型A连接器。在至少一个实施例中,USB接口逻辑3050可包括使处理单元3030能够经由USB连接器3040与设备(例如,计算机3010)对接的任何量和类型的逻辑。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。关于推理和/或训练逻辑2315的细节在本文中结合图23A和/或图23B提供。在至少一个实施例中,推理和/或训练逻辑2315可以在系统图30中用于至少部分地基于使用在此描述的神经网络训练操作、神经网络功能和/或架构、或神经网络用例计算的权重参数来推理或预测操作。
在至少一个实施例中,关于图30所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图30所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图30所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图30所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图30所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图30所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图30所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图31A示出了示例性架构,其中多个GPU 3110(1)-3110(N)通过高速链路3140(1)-3140(N)(例如,总线/点对点互连等)通信地耦合到多个多核心处理器3105(1)-3105(M)。在至少一个实施例中,高速链路3140(1)-3140(N)支持4GB/s、30GB/s、80GB/s或更高的通信吞吐量。在至少一个实施例中,可以使用各种互连协议,包括但不限于PCIe 4.0或5.0以及NVLink 2.0。在各个图中,“N”和“M”表示正整数,其值可因图而异。
此外,在至少一个实施例中,两个或更多个GPU 3110通过高速链路3129(1)-3129(2)互连,该高速链路可以使用与用于高速链路3140(1)-3140(N)的协议/链路类似或不同的协议/链路来实现。类似地,两个或更多个多核心处理器3105可以通过高速链路3128连接,该高速链路可以是以20GB/s、30GB/s、120GB/s或更高的速度运行的对称多处理器(SMP)总线。可替代地,可以使用类似的协议/链路(例如,通过公共互连结构)来完成图31A中所示的各种系统组件之间的所有通信。
在至少一个实施例中,每个多核心处理器3105分别经由存储器互连3126(1)-3126(M)通信地耦合到处理器存储器3101(1)-3101(M),并且每个GPU 3110(1)-3110(N)分别通过GPU存储器互连3150(1)-3150(N)通信地耦合到GPU存储器3120(1)-3120(N)。在至少一个实施例中,存储器互连3126和3150可以利用相似或不同的存储器访问技术。作为示例而非限制,处理器存储器3101(1)-3101(M)和GPU存储器3120可以是易失性存储器,诸如动态随机存取存储器(DRAM)(包括堆叠的DRAM)、图形DDR SDRAM(GDDR)(例如GDDR5、GDDR6),或高带宽存储器(HBM),和/或可以是非易失性存储器,例如3D XPoint或Nano-Ram。在至少一个实施例中,处理器存储器3101的某些部分可以是易失性存储器,而另一部分可以是非易失性存储器(例如,使用两级存储器(2LM)层次结构)。
如本文所述,尽管各种多核心处理器3105和GPU 3110可以分别物理地耦合到特定存储器3101、3120,和/或可以实现统一存储器架构,其中虚拟系统地址空间(也称为“有效地址”空间)分布在各个物理存储器之间。例如,处理器存储器3101(1)-3101(M)可以各自包括64GB的系统存储器地址空间,并且GPU存储器3120(1)-3120(N)可以各自包括32GB的系统存储器地址空间,从而当M=2和N=4时,导致总计256GB的可寻址存储器大小。N和M也可能是其他值。
图31B示出了根据一个示例性实施例的用于多核心处理器3107和图形加速模块3146之间互连的附加细节。在至少一个实施例中,图形加速模块3146可以包括集成在线路卡上的一个或更多个GPU芯片,该线路卡经由高速链路3140(例如,PCIe总线、NVLink等)耦合到处理器3107。在至少一个实施例中,图形加速模块3146可以选择性地集成在具有处理器3107的封装或芯片上。
在至少一个实施例中,处理器3107包括多个核心3160A-3160D,每个核心都具有转换后备缓冲区(“TLB”)3161A-3161D和一个或更多个高速缓存3162A-3162D。在至少一个实施例中,核心3160A-3160D可以包括未示出的各种其他组件,用于执行指令和处理数据。在至少一个实施例中,高速缓存3162A-3162D可以包括级别1(L1)和级别2(L2)高速缓存。此外,一个或更多个共享高速缓存3156可以被包括在高速缓存3162A-3162D中,并且由各组核心3160A-3160D共享。例如,处理器3107的一个实施例包括24个核心,每个核心具有其自己的L1高速缓存,十二个共享的L2高速缓存,和十二个共享的L3高速缓存。在该实施例中,两个相邻核心共享一个或更多个L2和L3高速缓存。在至少一个实施例中,处理器3107和图形加速模块3146与系统存储器3114连接,该系统存储器3114可以包括图31A中的处理器存储器3101(1)-3101(M)。
在至少一个实施例中,通过一致性总线3164经由核心间通信为存储在各个高速缓存3162A-3162D、3156和系统存储器3114中的数据和指令维护一致性。在至少一个实施例中,例如,每个高速缓存可以具有与其相关联的高速缓存一致性逻辑/电路,以响应于检测到对特定高速缓存行的读取或写入通过一致性总线3164进行通信。在至少一个实施例中,通过一致性总线3164实现高速缓存监听协议,以监听(snoop)高速缓存访问。
在至少一个实施例中,代理电路3125将图形加速模块3146通信地耦合到一致性总线3164,从而允许图形加速模块3146作为核心3160A-3160D的对等方参与高速缓存一致性协议。特别地,在至少一个实施例中,接口3135通过高速链路3140提供到代理电路3125的连接,并且接口3137将图形加速模块3146连接到高速链路3140。
在至少一个实施例中,加速器集成电路3136代表图形加速模块3146的多个图形处理引擎3131(1)-3131(N)提供高速缓存管理、存储器访问、上下文管理和中断管理服务。在至少一个实施例中,图形处理引擎3131(1)-3131(N)可各自包括单独的图形处理单元(GPU)。在至少一个实施例中,图形处理引擎3131(1)-3131(N)选择性地可以包括GPU内的不同类型的图形处理引擎,诸如图形执行单元、媒体处理引擎(例如,视频编码器/解码器)、采样器和blit引擎。在至少一个实施例中,图形加速模块3146可以是具有多个图形处理引擎3131(1)-3131(N)的GPU,或者图形处理引擎3131(1)-3131(N)可以是集成在通用封装、线路卡或芯片上的各个GPU。
在至少一个实施例中,加速器集成电路3136包括存储器管理单元(MMU)3139,用于执行各种存储器管理功能,例如虚拟到物理存储器转换(也称为有效到真实存储器转换),还包括用于访问系统存储器3114的存储器访问协议。在至少一个实施例中,MMU 3139还可包括转换后备缓冲区(“TLB”)(未示出),用于高速缓存虚拟/有效到物理/真实地址转换。在至少一个实施例中,高速缓存3138可以存储命令和数据,用于图形处理引擎3131(1)-3131(N)有效地访问。在至少一个实施例中,可能使用获取单元3144,将存储在高速缓存3138和图形存储器3133(1)-3133(M)中的数据与核心高速缓存3162A-3162D、3156和系统存储器3114保持一致。如前所述,可以经由代表高速缓存3138和图形存储器3133(1)-3133(M)的代理电路3125来完成该任务(例如,将与处理器高速缓存3162A-3162D、3156上的高速缓存行的修改/访问有关的更新发送到高速缓存3138,并从高速缓存3138接收更新)。
在至少一个实施例中,一组寄存器3145存储由图形处理引擎3131(1)-3131(N)执行的线程的上下文数据,并且上下文管理电路3148管理线程上下文。例如,上下文管理电路3148可以执行保存和恢复操作,以在上下文切换期间保存和恢复各个线程的上下文(例如,其中保存第一线程并且存储第二线程,以便可以由图形处理引擎执行第二线程)。例如,上下文管理电路3148在上下文切换时,可以将当前寄存器值存储到存储器中的(例如,由上下文指针标识的)指定区域。然后,当返回上下文时可以恢复寄存器值。在至少一个实施例中,中断管理电路3147接收并处理从系统设备接收的中断。
在至少一个实施例中,通过MMU 3139将来自图形处理引擎3131的虚拟/有效地址转换为系统存储器3114中的真实/物理地址。在至少一个实施例中,加速器集成电路3136支持多个(例如,4、8、16)图形加速器模块3146和/或其他加速器设备。在至少一个实施例中,图形加速器模块3146可以专用于在处理器3107上执行的单个应用程序,或者可以在多个应用程序之间共享。在至少一个实施例中,呈现了虚拟化的图形执行环境,其中图形处理引擎3131(1)-3131(N)的资源与多个应用程序或虚拟机(VM)共享。在至少一个实施例中,可以基于处理要求和与VM和/或应用程序相关联的优先级,将资源细分为“切片”,其被分配给不同的VM和/或应用程序。
在至少一个实施例中,加速器集成电路3136作为图形加速模块3146的系统的桥来执行,并提供地址转换和系统存储器高速缓存服务。另外,在至少一个实施例中,加速器集成电路3136可以为主机处理器提供虚拟化设施,以管理图形处理引擎3131(1)-3131(N)的虚拟化、中断和存储器管理。
在至少一个实施例中,由于图形处理引擎3131(1)-3131(N)的硬件资源被明确地映射到主机处理器3107看到的真实地址空间,因此任何主机处理器都可以使用有效地址值直接寻址这些资源。在至少一个实施例中,加速器集成电路3136的一个功能是物理分离图形处理引擎3131(1)-3131(N),使得它们在系统看来为独立的单元。
在至少一个实施例中,一个或更多个图形存储器3133(1)-3133(M)分别耦合到每个图形处理引擎3131(1)-3131(N),并且N=M。在至少一个实施例中,图形存储器3133(1)-3133(M)存储指令和数据,所述指令和数据由每个图形处理引擎3131(1)-3131(N)处理。在至少一个实施例中,图形存储器3133(1)-3133(M)可以是易失性存储器,例如DRAM(包括堆叠的DRAM)、GDDR存储器(例如,GDDR5,GDDR6)或HBM,和/或可以是非易失性存储器,例如3DXPoint或Nano-Ram。
在至少一个实施例中,为了减少高速链路3140上的数据流量,可以使用偏置技术以确保存储在图形存储器3133(1)-3133(M)中的数据是图形处理引擎3131(1)-3131(N)最常使用的并且最好核心3160A-3160D不使用(至少不经常使用)的数据。类似地,在至少一个实施例中,偏置机制试图将核心(并且优选地不是图形处理引擎3131(-1)-3131(N))需要的数据保持在高速缓存3162A-3162D、3156和系统存储器3114中。
图31C示出了另一个示例性实施例,其中加速器集成电路3136被集成在处理器3107内。在该实施例中,图形处理引擎3131(1)-3131(N)经由接口3137和接口3135(同样可以是任何形式的总线或接口协议)通过高速链路3140直接与加速器集成电路3136通信。在至少一个实施例中,加速器集成电路3136可以执行与关于图31B描述的操作类似的操作。但是由于它紧密靠近一致性总线3164和高速缓存3162A-3162D、3156,可能具有更高的吞吐量。在至少一个实施例中,加速器集成电路支持不同的编程模型,包括专用进程编程模型(无图形加速模块虚拟化)和共享编程模型(具有虚拟化),所述编程模型可以包括由加速器集成电路3136控制的编程模型和由图形加速模块3146控制的编程模型。
在至少一个实施例中,图形处理引擎3131(1)-3131(N)专用于单个操作系统下的单个应用程序或进程。在至少一个实施例中,单个应用程序可以将其他应用程序请求收敛(funnel)到图形处理引擎3131(1)-3131(N),从而在VM/分区内提供虚拟化。
在至少一个实施例中,图形处理引擎3131(1)-3131(N)可以被多个VM/应用程序分区共享。在至少一个实施例中,共享模型可以使用系统管理程序来虚拟化图形处理引擎3131(1)-3131(N),以允许每个操作系统进行访问。在至少一个实施例中,对于没有管理程序的单分区系统,操作系统拥有图形处理引擎3131(1)-3131(N)。在至少一个实施例中,操作系统可以虚拟化图形处理引擎3131(1)-3131(N),以提供对每个进程或应用程序的访问。
在至少一个实施例中,图形加速模块3146或个体图形处理引擎3131(1)-3131(N)使用进程句柄来选择进程元素。在至少一个实施例中,进程元素被存储在系统存储器3114中,并且可使用本文所述的有效地址到真实地址转换技术来寻址。在至少一个实施例中,进程句柄可以是特定于实现方式的值,其在向图形处理引擎3131(1)-3131(N)注册其上下文时提供给主机进程(即,调用系统软件以将进程元素添加到进程元素链接列表)。在至少一个实施例中,进程句柄的较低16位可以是进程元素在进程元素链接列表中的偏移量。
图31D示出了示例性加速器集成切片3190。在至少一个实施例中,“切片”包括加速器集成电路3136的处理资源的指定部分。在至少一个实施例中,应用程序是系统存储器3114中的有效地址空间3182,其存储进程元素3183。在至少一个实施例中,响应于来自在处理器3107上执行的应用程序3180的GPU调用3181,存储进程元素3183。在至少一个实施例中,进程元素3183包括相应的应用程序3180的进程状态。在至少一个实施例中,包括在进程元素3183中的工作描述符(WD)3184可以是由应用程序请求的单个作业,或者可以包括指向作业队列的指针。在至少一个实施例中,WD 3184是指向应用程序的有效地址空间3182中的作业请求队列的指针。在至少一个实施例中,加速器集成切片3190也被称为“渲染切片”,其中所述渲染切片包括一个或更多个核心或“处理核心”,用于执行上采样或放大操作(例如,将低分辨率或较低分辨率图像或帧上采样为高分辨率或较高分辨率图像或帧)。在至少一个实施例中,加速器集成切片3190包括一个或更多个光线追踪单元、L1高速缓存、L2高速缓存。在至少一个实施例中,加速器集成切片3190包括一个或更多个核心,其中所述一个或更多个核心中的每个核心包括一个或更多个向量引擎,该一个或更多个向量引擎用于作为执行操作的一部分而计算向量值。
在至少一个实施例中,图形加速模块3146和/或各个图形处理引擎3131(1)-3131(N)可以由系统中所有进程或进程子集共享。在至少一个实施例中,可以包括用于设置进程状态并将WD 3184发送到图形加速模块3146以在虚拟化环境中开始作业的基础设施。
在至少一个实施例中,专用进程编程模型是特定于实现方式的。在至少一个实施例中,在该模型中,单个进程拥有图形加速模块3146或个体图形处理引擎3131。在至少一个实施例中,当图形加速模块3146由单个进程拥有时,管理程序初始化用于所拥有的分区的加速器集成电路3136,当指派了图形加速模块3146时,操作系统初始化用于所拥有的进程的加速器集成电路3136。
在至少一个实施例中,在操作中,加速器集成切片3190中的WD获取单元3191获取下一个WD 3184,其包括要由图形加速模块3146的一个或更多个图形处理引擎完成的工作的指示。在至少一个实施例中,来自WD 3184的数据可以存储在寄存器3145中,并由MMU3139、中断管理电路3147和/或上下文管理电路3148使用,如图所示。例如,MMU 3139的一个实施例包括用于访问OS虚拟地址空间3185内的段/页表3186的段/页漫游电路。在至少一个实施例中,中断管理电路3147可以处理从图形加速模块3146接收的中断事件3192。在至少一个实施例中,当执行图形操作时,由图形处理引擎3131(1)-3131(N)生成的有效地址3193被MMU 3139转换为真实地址。
在一个实施例中,为每个图形处理引擎3131(1)-3131(N)和/或图形加速模块3146复制寄存器3145,并且所述寄存器3145可以由管理程序或操作系统初始化。在至少一个实施例中,这些复制的寄存器中的每一个可以被包括在加速器集成切片3190中。可以由管理程序初始化的示例性寄存器在表1中示出。
表1-管理程序初始化的寄存器
表2中示出了可由操作系统初始化的示例性寄存器
表2-操作系统初始化的寄存器
在至少一个实施例中,每个WD 3184特定于特定的图形加速模块3146和/或图形处理引擎3131(1)-3131(N)。在至少一个实施例中,它包括图形处理引擎3131(1)-3131(N)完成工作所需的所有信息,或者它可以是指向存储器位置的指针,在该存储器位置应用程序已经设置了要完成的工作的命令队列。
图31E示出了共享模型的一个示例性实施例的附加细节。该实施例包括管理程序真实地址空间3198,其中存储了进程元素列表3199。在至少一个实施例中,可经由管理程序3196来访问管理程序实地址空间3198,所述管理程序3196虚拟化用于操作系统3195的图形加速模块引擎。
在至少一个实施例中,共享编程模型允许来自系统中全部分区或分区子集的全部进程或进程子集使用图形加速模块3146。在至少一个实施例中,存在两种编程模型,其中图形加速模块3146由多个进程和分区共享,即,时间切片共享和图形定向共享。
在至少一个实施例中,在该模型中,系统管理程序3196拥有图形加速模块3146,并使其功能可用于所有操作系统3195。在至少一个实施例中,对于图形加速模块3146通过系统管理程序3196支持虚拟化,图形加速模块3146可以遵守某些要求,例如(1)应用程序的作业请求必须是自主的(即,不需要在作业之间保持状态),或者图形加速模块3146必须提供上下文保存和恢复机制,(2)图形加速模块3146保证应用程序的作业请求在指定的时间量内完成,包括任何转换错误,或者图形加速模块3146提供了抢占作业处理的能力,并且(3)在有向共享编程模型中进行操作时,必须确保图形加速模块3146进程之间的公平性。
在至少一个实施例中,需要应用程序3180使用图形加速模块类型、工作描述符(WD)、权限屏蔽寄存器(AMR)值和上下文保存/恢复区域指针(CSRP)进行操作系统3195系统调用。在至少一个实施例中,图形加速模块类型描述了用于系统调用的目标加速函数。在至少一个实施例中,图形加速模块类型可以是系统特定的值。在至少一个实施例中,WD是专门为图形加速模块3146格式化的,并且可以采用图形加速模块3146命令、指向用户定义的结构的有效地址指针、指向命令队列的有效地址指针的形式,或描述要由图形加速模块3146完成的工作的任何其他数据结构。
在至少一个实施例中,AMR值是用于当前进程的AMR状态。在至少一个实施例中,传递给操作系统的值与设置AMR的应用程序类似。在至少一个实施例中,如果加速器集成电路3136(未示出)和图形加速模块3146的实现不支持用户权限屏蔽覆写寄存器(UAMOR),则在管理程序调用中传递AMR之前,操作系统可以将当前UAMOR值应用于AMR值。在至少一个实施例中,管理程序3196可以在将AMR放入进程元素3183中之前选择性地应用当前权限屏蔽覆写寄存器(AMOR)值。在至少一个实施例中,CSRP是寄存器3145中的一个,所述寄存器包括应用程序的有效地址空间3182中的区域的有效地址,供图形加速模块3146保存和恢复上下文状态。在至少一个实施例中,如果不需要在作业之间保存状态或者当作业被抢占时,则该指针是可选的。在至少一个实施例中,上下文保存/恢复区域可以是固定的系统存储器。
在接收到系统调用时,操作系统3195可以验证应用程序3180已经注册并且被授予使用图形加速模块3146的权限。然后,在至少一个实施例中,操作系统3195使用表3中所示的信息来调用管理程序3196。
表3-操作系统到管理程序的调用参数
在至少一个实施例中,在接收到管理程序调用时,管理程序3196验证操作系统3195已注册并被授予使用图形加速模块3146的权限。然后,在至少一个实施例中,管理程序3196将进程元素3183放入相应的图形加速模块3146类型的进程元素链接列表中。在至少一个实施例中,进程元素可以包括表4中所示的信息。
表4-进程元素信息
在至少一个实施例中,管理程序初始化多个加速器集成切片3190寄存器3145。
如图31F所示,在至少一个实施例中,使用统一存储器,所述统一存储器可经由用于访问物理处理器存储器3101(1)-3101(N)和GPU存储器3120(1)-3120(N)的公共虚拟存储器地址空间来寻址。在该实现方式中,在GPU 3110(1)-3110(N)上执行的操作利用相同的虚拟/有效存储器地址空间来访问处理器存储器3101(1)-3101(M),反之亦然,从而简化了可编程性。在至少一个实施例中,虚拟/有效地址空间的第一部分被分配给处理器存储器3101(1),第二部分被分配给第二处理器存储器3101(N),第三部分被分配给GPU存储器3120(1),以此类推。在至少一个实施例中,整个虚拟/有效存储器空间(有时称为有效地址空间)由此分布在处理器存储器3101和GPU存储器3120的每一个中,从而允许任何处理器或GPU采用映射到任何物理存储器的虚拟地址访问该存储器。
在至少一个实施例中,一个或更多个MMU 3139A-3139E内的偏置/一致性管理电路3194A-3194E确保一个或更多个主机处理器(例如,3105)与GPU 3110的高速缓存之间的高速缓存一致性,并实现指示应在其中存储某些类型的数据的物理存储器的偏置技术。在至少一个实施例中,虽然在图31F中示出了偏置/一致性管理电路3194A-3194E的多个实例,但可以在一个或更多个主机处理器3105的MMU内和/或在加速器集成电路3136内实现偏置/一致性电路。
一个实施例允许将GPU存储器3120映射为系统存储器的一部分,并使用共享虚拟存储器(SVM)技术进行访问,但不会遭受与完整系统高速缓存一致性相关的性能缺陷。在至少一个实施例中,将GPU存储器3120作为系统存储器来访问而无需繁重的高速缓存一致性开销的能力为GPU卸载提供了有利的操作环境。在至少一个实施例中,该布置允许主机处理器3105的软件设置操作数并访问计算结果,而没有传统的I/O DMA数据拷贝的开销。在至少一个实施例中,这样的传统拷贝包括驱动程序调用、中断和存储器映射I/O(MMIO)访问,相对于简单的存储器访问而言,这些访问效率均较低。在至少一个实施例中,在没有高速缓存一致性开销的情况下访问GPU存储器3120的能力对于卸载的计算的执行时间可能是关键的。在至少一个实施例中,例如,在具有大量流式写入存储器流量的情况下,高速缓存一致性开销可以显著降低GPU 3110所看到的有效写入带宽。在至少一个实施例中,操作数设置的效率、结果访问的效率和GPU计算的效率可能会在确定GPU卸载的有效性方面发挥作用。
在至少一个实施例中,GPU偏置和主机处理器偏置的选择由偏置追踪器数据结构驱动。在至少一个实施例中,例如,可以使用偏置表,所述偏置表可以是页面粒度结构(例如,以存储器页面的粒度来控制),该页面粒度结构包括每个GPU附加的存储器页面1或2位。在至少一个实施例中,在GPU 3110中具有或不具有偏置高速缓存(例如,用于高速缓存偏置表的频繁/最近使用的条目)的情况下,可以在一个或更多个GPU存储器3120的被盗存储器范围中实现偏置表。替代地,在至少一个实施例中,可以在GPU内维护整个偏置表。
在至少一个实施例中,在实际访问GPU存储器之前,访问与对GPU附加存储器3120的每次访问相关联的偏置表条目,从而引起以下操作。在至少一个实施例中,来自GPU 3110的在GPU偏置中找到其页面的本地请求被直接转发到对应的GPU存储器3120。在至少一个实施例中,来自GPU的在主机偏置中找到其页面的本地请求被转发至处理器3105(例如,通过本文所述的高速链路)。在至少一个实施例中,来自处理器3105的在主机处理器偏置中找到所请求页面的请求完成了与正常存储器读取类似的请求。替代地,可以将指向GPU偏置页面的请求转发到GPU 3110。在至少一个实施例中,如果GPU当前不使用页面,则GPU可随后将页面迁移到主机处理器偏置。在至少一个实施例中,页面的偏置状态可以通过基于软件的机制、基于硬件辅助的软件的机制、或者在有限的情况下通过纯粹基于硬件的机制来改变。
在至少一个实施例中,一种用于改变偏置状态的机制采用API调用(例如OpenCL),所述API调用随后调用GPU的设备驱动程序,所述设备驱动程序随后发送消息(或使命令描述符入队)到GPU,引导GPU改变偏置状态,并在某些迁移中在主机中执行高速缓存刷新操作。在至少一个实施例中,高速缓存刷新操作用于从主机处理器3105偏置到GPU偏置的迁移,但是不用于相反的迁移。
在至少一个实施例中,高速缓存一致性是通过暂时渲染主机处理器3105无法高速缓存的GPU偏置页面来维护的。在至少一个实施例中,为了访问这些页面,处理器3105可以请求来自GPU 3110的访问,GPU 3110可以或可以不立即授予访问权限。因此,在至少一个实施例中,为了减少处理器3105和GPU 3110之间的通信,确保GPU偏置页面是GPU所需的页面而不是主机处理器3105所需的页面是有益的,反之亦然。
在至少一个实施例中,关于图31A-31F所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图31A-31F所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图31A-31F所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图31A-31F所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图31A-31F所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图31A-31F所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图31A-31F所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图32示出了根据本文所述的各个实施例的示例性集成电路和相关联的图形处理器,其可以使用一个或更多个IP核心来制造。除了图示之外,在至少一个实施例中可以包括其他逻辑和电路,包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。
图32是示出根据至少一个实施例的可使用一个或更多个IP核心制造的芯片集成电路3200上的示例性系统的框图。在至少一个实施例中,集成电路3200包括一个或更多个应用程序处理器3205(例如,CPU)、至少一个图形处理器3210,并且可以另外包括图像处理器3215和/或视频处理器3220,其中任意一个可能是模块化IP核心。在至少一个实施例中,集成电路3200包括外围或总线逻辑,其包括USB控制器3225、UART控制器3230、SPI/SDIO控制器3235和I22S/I22C控制器3240。在至少一个实施例中,集成电路3200可以包括显示设备3245耦合到高清多媒体接口(HDMI)控制器3250和移动工业处理器接口(MIPI)显示接口3255中的一个或更多个。在至少一个实施例中,存储可以由闪存子系统3260提供,包括闪存和闪存控制器。在至少一个实施例中,可以经由存储器控制器3265提供存储器接口以用于访问SDRAM或SRAM存储器设备。在至少一个实施例中,一些集成电路还包括嵌入式安全引擎3270。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在集成电路3200中用于至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文描述的神经网络用例计算的权重参数来推理或预测操作。
在至少一个实施例中,关于图32所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图32所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图32所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图32所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图32所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图32所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图32所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图33A-33B示出了根据本文所述的各个实施例的示例性集成电路和相关联的图形处理器,其可以使用一个或更多个IP核心来制造。除了图示之外,在至少一个实施例中可以包括其他逻辑和电路,包括附加的图形处理器/核心、外围接口控制器或通用处理器核心。
图33A-33B是示出根据本文描述的实施例的在SoC内使用的示例性图形处理器的框图。图33A示出了根据至少一个实施例的芯片集成电路上系统的示例性图形处理器3310,其可以使用一个或更多个IP核心来制造。图33B示出了根据至少一个实施例的芯片集成电路上系统的另外示例性图形处理器3340,其可以使用一个或更多个IP核心来制造。在至少一个实施例中,图33A的图形处理器3310是低功耗图形处理器核心。在至少一个实施例中,图33B的图形处理器3340是更高性能的图形处理器核心。在至少一个实施例中,每个图形处理器3310、3340可以是图32的图形处理器3210的变体。
在至少一个实施例中,图形处理器3310包括顶点处理器3305和一个或更多个片段处理器3315A-3315N(例如3315A、3315B、3315C、3315D至3315N-1和3315N)。在至少一个实施例中,图形处理器3310可以经由单独的逻辑来执行不同的着色器程序,使得顶点处理器3305被优化以执行针对顶点着色器程序的操作,而一个或更多个片段处理器3315A-3315N执行片段(例如,像素)着色操作用于片段或像素或着色器程序。在至少一个实施例中,顶点处理器3305执行3D图形管线的顶点处理阶段并生成图元和顶点数据。在至少一个实施例中,一个或更多个片段处理器3315A-3315N使用由顶点处理器3305生成的图元和顶点数据来生成在显示设备上显示的帧缓冲区。在至少一个实施例中,一个或更多个片段处理器3315A-3315N被优化以执行如在OpenGL API中所提供的片段着色器程序,其可以用于执行与在Direct 3D API中所提供的像素着色器程序类似的操作。
在至少一个实施例中,图形处理器3310附加地包括一个或更多个存储器管理单元(MMU)3320A-3320B、一个或更多个高速缓存3325A-3325B和一个或更多个电路互连3330A-3330B。在至少一个实施例中,一个或更多个MMU 3320A-3320B提供用于图形处理器3310的虚拟到物理地址的映射,包括用于顶点处理器3305和/或片段处理器3315A-3315N,其可以引用存储在存储器中的顶点或图像/纹理数据,除了存储在一个或更多个高速缓存3325A-3325B中的顶点或图像/纹理数据之外。在至少一个实施例中,一个或更多个MMU 3320A-3320B可以与系统内的其他MMU同步,包括与图32的一个或更多个应用程序处理器3205、图像处理器3215和/或视频处理器3220相关联的一个或更多个MMU,使得每个处理器3205-3220可以参与共享或统一的虚拟存储器系统。在至少一个实施例中,一个或更多个电路互连3330A-3330B使图形处理器3310能够经由SoC的内部总线或经由直接连接与SoC内的其他IP核心相连接。
在至少一个实施例中,图形处理器3340包括一个或更多个着色器核心3355A-3355N(例如,3355A、3355B、3355C、3355D、3355E、3355F到3355N-1和3355N),如图33B所示,其提供了统一的着色器核心架构,其中单个核心或类型或核心可以执行所有类型的可编程着色器代码,包括用于实现顶点着色器、片段着色器和/或计算着色器的着色器程序代码。在至少一个实施例中,多个着色器核心可以变化。在至少一个实施例中,图形处理器3340包括核心间任务管理器3345,其充当线程分派器以将执行线程分派给一个或更多个着色器核心3355A-3355N和分块单元3358,以加速基于图块渲染的分块操作,其中在图像空间中细分了场景的渲染操作,例如,以利用场景内的局部空间一致性或优化内部缓存的使用。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在集成电路图33A和/或图33B中用于至少部分地基于使用神经网络训练操作、神经网络函数或架构,或本文所述的神经网络用例计算的权重参数来进行推理或预测操作。
在至少一个实施例中,关于图33A-33B所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图33A-33B所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图33A-33B所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图33A-33B所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图33A-33B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图33A-33B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图33A-33B所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图34A-34B示出了根据本文描述的实施例的附加示例性图形处理器逻辑。在至少一个实施例中,图34A示出了可以包括在图32的图形处理器3210内的图形核心3400,并且在至少一个实施例中,其可以是如图33B所示的统一着色器核心3355A-3355N。图34B示出了在至少一个实施例中的适用于在多芯片模块上部署的高度并行的通用图形处理单元(“GPGPU”)3430。
在至少一个实施例中,图形核心3400包括共享指令高速缓存3402、纹理单元3418和高速缓存/共享存储器3420,它们对于图形核心3400内的执行资源是通用的。在至少一个实施例中,图形核心3400可包括多个切片3401A-3401N或每个核心的分区,并且图形处理器可包括图形核心3400的多个实例。在至少一个实施例中,切片3401A-3401N可包括支持逻辑,所述逻辑包括本地指令高速缓存3404A-3404N、线程调度器3406A-3406N、线程分派器3408A-3408N和一组寄存器3410A-3410N。在至少一个实施例中,切片3401A-3401N可以包括一组附加功能单元(AFU 3412A-3412N)、浮点单元(FPU 3414A-3414N)、整数算术逻辑单元(ALU 3416A-3416N)、地址计算单元(ACU 3413A-3413N)、双精度浮点单元(DPFPU 3415A-3415N)和矩阵处理单元(MPU 3417A-3417N)。
在至少一个实施例中,FPU 3414A-3414N可以执行单精度(32位)和半精度(16位)浮点运算,而DPFPU 3415A-3415N则执行双精度(64位)浮点运算点操作。在至少一个实施例中,ALU 3416A-3416N可以以8位、16位和32位精度执行可变精度整数运算,并且可以配置为混合精度运算。在至少一个实施例中,MPU 3417A-3417N还可被配置用于混合精度矩阵运算,包括半精度浮点运算和8位整数运算。在至少一个实施例中,MPU 3417-3417N可以执行各种矩阵运算以加速机器学习应用程序帧,包括使得能够支持加速的通用矩阵到矩阵乘法(GEMM)。在至少一个实施例中,AFU 3412A-3412N可以执行浮点数或整数单元不支持的附加逻辑运算,包括三角运算(例如,正弦,余弦等)。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。这里结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在图形核心3400中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。
图34B示出了在至少一个实施例中的通用处理单元(GPGPU)3430,其可以被配置为使得高度并行的计算操作能够由一组图形处理单元来执行。在至少一个实施例中,GPGPU3430可以直接链接到GPGPU 3430的其他实例,以创建多GPU集群以提高用于深度神经网络的训练速度。在至少一个实施例中,GPGPU 3430包括主机接口3432,以实现与主机处理器的连接。在至少一个实施例中,主机接口3432是PCI Express接口。在至少一个实施例中,主机接口3432可以是厂商专用的通信接口或通信结构。在至少一个实施例中,GPGPU 3430接收主机处理器的命令,并使用全局调度器3434,以将与那些命令相关联的执行线程分配给一组计算集群3436A-3436H。在至少一个实施例中,计算群集3436A-3436H共享高速缓存存储器3438。在至少一个实施例中,高速缓存存储器3438可以用作计算群集3436A-3436H内的高速缓存存储器的更高级别的高速缓存。
在至少一个实施例中,GPGPU 3430包括存储器3444A-3444B,所述存储器3444A-3444B经由一组存储器控制器3442A-3442B与计算集群3436A-3436H耦合。在至少一个实施例中,存储器3444A-3444B可以包括各种类型的存储器设备,包括动态随机存取存储器(DRAM)或图形随机存取存储器,例如同步图形随机存取存储器(SGRAM),其包括图形双倍数据速率(GDDR)存储器。
在至少一个实施例中,计算集群3436A-3436H每个都包括一组图形核心,例如图34A的图形核心3400,所述图形核心可以包括多种类型的整数和浮点逻辑单元,所述逻辑单元可以在计算机各种精度范围上执行计算操作,包括适用于机器学习计算的精度。例如,在至少一个实施例中,每个计算集群3436A-3436H中的浮点单元的至少一个子集可以被配置为执行16位或32位浮点运算,而浮点单元的不同子集可以配置为执行64位浮点运算。
在至少一个实施例中,GPGPU 3430的多个实例可以被配置为用作计算集群。在至少一个实施例中,计算集群3436A-3436H用于同步和数据交换的通信在实施例之间变化。在至少一个实施例中,GPGPU 3430的多个实例通过主机接口3432进行通信。在至少一个实施例中,GPGPU 3430包括I/O集线器3439,所述I/O集线器3439将GPGPU 3430与GPU链路3440耦合,使得能够直接连接到GPGPU 3430的其他实例。在至少一个实施例中,GPU链路3440耦合到专用GPU到GPU桥,所述桥使得GPGP 3430的多个实例之间能够通信和同步。在至少一个实施例中,GPU链路3440与高速互连耦合,以向其他GPGPU或并行处理器发送和接收数据。在至少一个实施例中,GPGPU 3430的多个实例位于单独的数据处理系统中,并通过可通过主机接口3432访问的网络设备进行通信。在至少一个实施例中,GPU链路3440可被配置为使得能够连接到主机除主机接口3432之外或作为其替代的处理器。
在至少一个实施例中,GPGPU 3430可以被配置为训练神经网络。在至少一个实施例中,可以在推理平台内使用GPGPU 3430。在至少一个实施例中,在其中使用GPGPU 3430进行推理的情况下,相对于使用GPGPU 3430训练神经网络时,GPGPU 3430可以包括更少的计算集群3436A-3436H。在至少一个实施例中,与存储器3444A-3444B相关联的存储器技术可以在推理和训练配置之间有所不同,其中更高带宽的存储器技术专用于训练配置。在至少一个实施例中,GPGPU 3430的推理配置可以支持推理特定指令。例如,在至少一个实施例中,推理配置可以提供对一个或更多个8位整数点积指令的支持,该指令可以在部署的神经网络的推理操作期间使用。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在GPGPU 3430中使用,用于至少部分地基于使用神经网络训练操作、神经网络功能和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。
在至少一个实施例中,关于图34A-34B所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图34A-34B所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图34A-34B所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图34A-34B所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图34A-34B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图34A-34B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图34A-34B所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图35示出了根据至少一个实施例的计算机系统3500的框图。在至少一个实施例中,计算机系统3500包括具有一个或更多个处理器3502的处理子系统3501和系统存储器3504,所述系统存储器3504经由可包括存储器集线器3505的互连路径通信。在至少一个实施例中,存储器集线器3505可以是芯片组部件内的单独部件,或者可以集成在一个或更多个处理器3502内。在至少一个实施例中,存储器集线器3505通过通信链路3506与I/O子系统3511耦合。在一个实施例中,I/O子系统3511包括I/O集线器3507,所述I/O集线器可以使计算机系统3500能够接收来自一个或更多个输入设备3508的输入。在至少一个实施例中,I/O集线器3507可以使显示控制器向一个或更多个显示设备3510A提供输出,所述显示控制器可以包括在一个或更多个处理器3502中。在至少一个实施例中,与I/O集线器3507耦合的一个或更多个显示设备3510A可以包括本地,内部或嵌入式显示设备。
在至少一个实施例中,处理子系统3501包括经由总线或其他通信链路3513耦合到存储器集线器3505的一个或更多个并行处理器3512中。在至少一个实施例中,通信链路3513可以使用任何一种许多基于标准的通信链路技术或协议,例如但不限于PCI Express,或者可以是特定于供应商的通信接口或通信结构。在至少一个实施例中,一个或更多个并行处理器3512形成计算集中的并行或向量处理系统,所述系统可以包括大量处理核心和/或处理集群,例如多集成核心(MIC)处理器。在至少一个实施例中,向量处理系统被称为“向量引擎”,并且向量引擎可以执行一个或更多个操作,包括光栅化、光照、上采样、放大、去混叠或后处理操作。在至少一个实施例中,一个或更多个并行处理器3512形成图形处理子系统,所述图形处理子系统可以将像素输出到经由I/O集线器3507耦合的一个或更多个显示设备3510A之一。在至少一个实施例中,并行处理器3512还可以包括显示控制器和显示接口(未示出),以使得能够直接连接到一个或更多个显示设备3510B。
在至少一个实施例中,系统存储单元3514可以连接到I/O集线器3507,以提供用于计算机系统3500的存储机制。在至少一个实施例中,I/O交换机3516可以用于提供一个接口机制,以实现I/O集线器3507与其他组件之间的连接,例如可以集成到平台中的网络适配器3518和/或无线网络适配器3519,以及可以通过一个或更多个附加设备3520添加的各种其他设备。在至少一个实施例中,网络适配器3518可以是以太网适配器或另一有线网络适配器。在至少一个实施例中,无线网络适配器3519可以包括Wi-Fi、蓝牙、近场通信(NFC)中的一个或更多个,或包括一个或更多个无线电设备的其他网络设备。
在至少一个实施例中,计算机系统3500可以包括未明确示出的其他组件,所述其他组件包括USB或其他端口连接、光学存储驱动器、视频捕获设备等,所述其他组件也可以连接到I/O集线器3507。在至少一个实施例中,可以使用任何合适的协议(例如基于PCI(外围组件互连)的协议(例如PCI-Express)或其他总线或点对点通信接口和/或协议)来实现互连图35中各个组件的通信路径,例如NV-Link高速互连或互连协议。
在至少一个实施例中,一个或更多个并行处理器3512包括为图形和视频处理而优化的电路,所述电路包括例如视频输出电路,并构成图形处理单元(GPU)。在至少一个实施例中,并行处理器3512包括为通用处理而优化的电路。在至少一个实施例中,计算机系统3500的组件可以与单个集成电路上的一个或更多个其他系统元件集成。例如,在至少一个实施例中,并行处理器3512、存储器集线器3505、处理器3502和I/O集线器3507,可以被集成到片上系统(SoC)集成电路中。在至少一个实施例中,计算机系统3500的组件可以被集成到单个封装中,以形成系统级封装(SIP)配置。在至少一个实施例中,计算机系统3500的组件的至少一部分可以被集成到多芯片模块(MCM)中,所述多芯片模块可以与其他多芯片模块互连到模块化计算机系统中。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在图35的系统3500中使用,用于至少部分地基于使用神经网络训练操作、神经网络函数和/或架构或本文所述的神经网络用例计算的权重参数来推理或预测操作。
在至少一个实施例中,关于图35所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图35所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图35所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图35所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图35所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图35所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图35所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
处理器
图36A示出了根据至少一个实施例的并行处理器3600。在至少一个实施例中,并行处理器3600的各种组件可以使用一个或更多个集成电路设备来实现,例如可编程处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA)。在至少一个实施例中,所示的并行处理器3600是根据示例性实施例的图35所示的一个或更多个并行处理器3512的变体。
在至少一个实施例中,并行处理器3600包括并行处理单元3602。在至少一个实施例中,并行处理单元3602包括I/O单元3604,其使得能够与其他设备进行通信,包括并行处理单元3602的其他实例。在至少一个实施例中,I/O单元3604可以直接连接到其他设备。在至少一个实施例中,I/O单元3604通过使用集线器或交换机接口(例如,存储器集线器3605)与其他设备连接。在至少一个实施例中,存储器集线器3605与I/O单元3604之间的连接形成通信链路3613。在至少一个实施例中,I/O单元3604与主机接口3606和存储器交叉开关3616连接,其中主机接口3606接收用于执行处理操作的命令,而存储器交叉开关3616接收用于执行存储器操作的命令。
在至少一个实施例中,当主机接口3606经由I/O单元3604接收命令缓冲区时,主机接口3606可以引导工作操作以执行那些命令到前端3608。在至少一个实施例中,前端3608与调度器3610耦合,调度器3610配置成将命令或其他工作项分配给处理集群阵列3612。在至少一个实施例中,调度器3610确保在将任务分配给处理集群阵列3612之前,处理集群阵列3612被正确地配置并且处于有效状态。在至少一个实施例中,调度器3610通过在微控制器上执行的固件逻辑来实现。在至少一个实施例中,微控制器实现的调度器3610可配置成以粗粒度和细粒度执行复杂的调度和工作分配操作,从而实现对在处理阵列3612上执行的线程的快速抢占和上下文切换。在至少一个实施例中,主机软件可以证明用于通过多个图形处理路径之一在处理阵列3612上进行调度的工作负载。在至少一个实施例中,工作负载然后可以由包括调度器3610的微控制器内的调度器3610逻辑在处理阵列3612上自动分配。
在至少一个实施例中,处理集群阵列3612可以包括多达“N”个处理集群(例如,集群3614A、集群3614B到集群3614N),其中“N”代表一个正整数(可以是与其他图中使用的整数“N”不同的整数)。在至少一个实施例中,处理集群阵列3612的每个集群3614A-3614N可以执行大量并发线程。在至少一个实施例中,调度器3610可以使用各种调度和/或工作分配算法将工作分配给处理集群阵列3612的集群3614A-3614N,其可以根据每种程序或计算类型产生的工作负载而变化。在至少一个实施例中,调度可以由调度器3610动态地处理,或者可以在配置为由处理集群阵列3612执行的程序逻辑的编译期间部分地由编译器逻辑来辅助。在至少一个实施例中,可将处理集群阵列3612的不同的集群3614A-3614N分配用于处理不同类型的程序或用于执行不同类型的计算。
在至少一个实施例中,处理集群阵列3612可以配置成执行各种类型的并行处理操作。在至少一个实施例中,处理集群阵列3612配置成执行通用并行计算操作。例如,在至少一个实施例中,处理集群阵列3612可以包括执行处理任务的逻辑,该处理任务包括对视频和/或音频数据的过滤,执行建模操作,包括物理操作以及执行数据转换。
在至少一个实施例中,处理集群阵列3612配置成执行并行图形处理操作。在至少一个实施例中,处理集群阵列3612可以包括附加逻辑以支持这种图形处理操作的执行,包括但不限于执行纹理操作的纹理采样逻辑,以及镶嵌逻辑和其他顶点处理逻辑。在至少一个实施例中,处理集群阵列3612可以配置成执行与图形处理有关的着色器程序,例如但不限于顶点着色器、曲面细分着色器、几何着色器和像素着色器。在至少一个实施例中,并行处理单元3602可以经由I/O单元3604从系统存储器传送数据以进行处理。在至少一个实施例中,在处理期间,可以在处理期间将传送的数据存储到片上存储器(例如,并行处理器存储器3622),然后将其写回到系统存储器。
在至少一个实施例中,当并行处理单元3602用于执行图形处理时,调度器3610可以配置成将处理工作负载划分为近似相等大小的任务,以更好地将图形处理操作分配给处理集群阵列3612的多个集群3614A-3614N。在至少一个实施例中,处理集群阵列3612的部分可以配置成执行不同类型的处理。例如,在至少一个实施例中,第一部分可以配置成执行顶点着色和拓扑生成,第二部分可以配置成执行镶嵌和几何着色,并且第三部分可以配置成执行像素着色或其他屏幕空间操作,以生成用于显示的渲染图像。在至少一个实施例中,可以将由集群3614A-3614N中的一个或更多个产生的中间数据存储在缓冲区中,以允许在集群3614A-3614N之间传输中间数据以进行进一步处理。
在至少一个实施例中,处理集群阵列3612可以经由调度器3610接收要执行的处理任务,该调度器3610从前端3608接收定义处理任务的命令。在至少一个实施例中,处理任务可以包括要被处理的数据的索引,例如,表面(补丁)数据、原始数据、顶点数据和/或像素数据,以及状态参数和定义如何处理数据的命令(例如,要执行什么程序)。在至少一个实施例中,调度器3610可以配置成获取与任务相对应的索引,或者可以从前端3608接收索引。在至少一个实施例中,前端3608可以配置成确保在启动由传入命令缓冲区(例如,批缓冲区(batch-buffer)、推送缓冲区等)指定的工作负载之前,处理集群阵列3612配置成有效状态。
在至少一个实施例中,并行处理单元3602的一个或更多个实例中的每一个可以与并行处理器存储器3622耦合。在至少一个实施例中,可以经由存储器交叉开关3616访问并行处理器存储器3622,所述存储器交叉开关3616可以接收来自处理集群阵列3612以及I/O单元3604的存储器请求。在至少一个实施例中,存储器交叉开关3616可以经由存储器接口3618访问并行处理器存储器3622。在至少一个实施例中,存储器接口3618可以包括多个分区单元(例如,分区单元3620A、分区单元3620B到分区单元3620N),其可各自耦合至并行处理器存储器3622的一部分(例如,存储器单元)。在至少一个实施例中,多个分区单元3620A-3620N为配置为等于存储器单元的数量,使得第一分区单元3620A具有对应的第一存储器单元3624A,第二分区单元3620B具有对应的存储器单元3624B,第N分区单元3620N具有对应的第N存储器单元3624N。在至少一个实施例中,分区单元3620A-3620N的数量可以不等于存储器单元的数量。
在至少一个实施例中,存储器单元3624A-3624N可以包括各种类型的存储器设备,包括动态随机存取存储器(DRAM)或图形随机存取存储器,例如同步图形随机存取存储器(SGRAM),包括图形双倍数据速率(GDDR)存储器。在至少一个实施例中,存储器单元3624A-3624N还可包括3D堆叠存储器,包括但不限于高带宽存储器(HBM)。在至少一个实施例中,可以跨存储器单元3624A-3624N来存储诸如帧缓冲区或纹理映射的渲染目标,从而允许分区单元3620A-2420N并行地写入每个渲染目标的部分,以有效地使用并行处理器存储器3622的可用带宽。在至少一个实施例中,可以排除并行处理器存储器3622的本地实例,以有利于利用系统存储器与本地高速缓存存储器结合的统一存储器设计。
在至少一个实施例中,处理集群阵列3612的集群3614A-3614N中的任何一个都可以处理将被写入并行处理器存储器3622内的任何存储器单元3624A-3624N中的数据。在至少一个实施例中,存储器交叉开关3616可以配置为将每个集群3614A-3614N的输出传输到任何分区单元3620A-3620N或另一个集群3614A-3614N,集群3614A-3614N可以对输出执行其他处理操作。在至少一个实施例中,每个集群3614A-3614N可以通过存储器交叉开关3616与存储器接口3618通信,以从各种外部存储设备读取或写入各种外部存储设备。在至少一个实施例中,存储器交叉开关3616具有到存储器接口3618的连接以与I/O单元3604通信,以及到并行处理器存储器3622的本地实例的连接,从而使不同处理集群3614A-3614N内的处理单元与系统存储器或不是并行处理单元3602本地的其他存储器进行通信。在至少一个实施例中,存储器交叉开关3616可以使用虚拟通道来分离集群3614A-3614N和分区单元3620A-3620N之间的业务流。
在至少一个实施例中,可以在单个插入卡上提供并行处理单元3602的多个实例,或者可以将多个插入卡互连。在至少一个实施例中,并行处理单元3602的不同实例可以配置成相互操作,即使不同实例具有不同数量的处理核心,不同数量的本地并行处理器存储器和/或其他配置差异。例如,在至少一个实施例中,并行处理单元3602的一些实例可以包括相对于其他实例而言更高精度的浮点单元。在至少一个实施例中,结合并行处理单元3602或并行处理器3600的一个或更多个实例的系统可以以各种配置和形式因素来实现,包括但不限于台式机、膝上型计算机或手持式个人计算机、服务器、工作站、游戏机和/或嵌入式系统。
在至少一个实施例中,关于图36A所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图36A所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图36A所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36A所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图36A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图36A所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图36B是根据至少一个实施例的分区单元3620的框图。在至少一个实施例中,分区单元3620是图36A的分区单元3620A-3620N之一的实例。在至少一个实施例中,分区单元3620包括L2高速缓存3621、帧缓冲区接口3625和ROP 3626(光栅操作单元)。在至少一个实施例中,L2高速缓存3621是读/写高速缓存,其配置成执行从存储器交叉开关3616和ROP3626接收的加载和存储操作。在至少一个实施例中,L2高速缓存3621将读取未命中和紧急回写请求输出到帧缓冲区接口3625以进行处理。在至少一个实施例中,还可以经由帧缓冲区接口3625将更新发送到帧缓冲区以进行处理。在至少一个实施例中,帧缓冲区接口3625与并行处理器存储器中的存储器单元(诸如图36A的存储器单元3624A-3624N(例如,在并行处理器存储器3622内))之一相互作用。
在至少一个实施例中,ROP 3626是一种处理单元,其执行光栅操作,诸如模版、z测试、混合等。在至少一个实施例中,ROP 3626然后输出存储在图形存储器中的处理后的图形数据。在至少一个实施例中,ROP 3626包括压缩逻辑以压缩被写入存储器的深度或颜色数据并解压缩从存储器读取的深度或颜色数据。在至少一个实施例中,压缩逻辑可以是利用多种压缩算法中的一种或更多种的无损压缩逻辑。在至少一个实施例中,ROP 3626执行的压缩的类型可以基于要压缩的数据的统计特性而变化。例如,在至少一个实施例中,基于每图块基础上的深度和颜色数据执行增量颜色压缩。
在至少一个实施例中,ROP 3626包括在每个处理集群内(例如,图36A的集群3614A-3614N),而不是在分区单元3620内。在至少一个实施例中,通过存储器交叉开关3616而不是像素片段数据传输对像素数据的读取和写入请求。在至少一个实施例中,经处理的图形数据可以在显示设备上(诸如图35的一个或更多个显示设备3510之一)显示,由处理器3502路由以供进一步处理,或者由图36A的并行处理器3600内的处理实体之一路由以供进一步处理。
在至少一个实施例中,关于图36B所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图36B所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图36B所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36B所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图36B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图36B所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图36C是根据至少一个实施例的并行处理单元内的处理集群3614的框图。在至少一个实施例中,处理集群是图36A的处理集群3614A-3614N之一的实例。在至少一个实施例中,处理集群3614可以配置成并行执行许多线程,其中“线程”是指在特定的一组输入数据上执行的特定程序的实例。在至少一个实施例中,单指令多数据(SIMD)指令发布技术用于支持大量线程的并行执行而无需提供多个独立的指令单元。在至少一个实施例中,使用单指令多线程(SIMT)技术来支持并行执行大量一般同步的线程,这使用了公共指令单元,该公共指令单元配置成向每个处理集群内的一组处理引擎发出指令。
在至少一个实施例中,可以通过将处理任务分配给SIMT并行处理器的管线管理器3632来控制处理集群3614的操作。在至少一个实施例中,管线管理器3632从图36A的调度器3610接收指令,通过图形多处理器3634和/或纹理单元3636管理这些指令的执行。在至少一个实施例中,图形多处理器3634是SIMT并行处理器的示例性实例。然而,在至少一个实施例中,处理集群3614内可以包括不同架构的各种类型的SIMT并行处理器。在至少一个实施例中,在处理集群3614内可以包括图形多处理器3634的一个或更多个实例。在至少一个实施例中,图形多处理器3634可以处理数据,并且数据交叉开关3640可以用于将处理后的数据分发到多个可能的目的(包括其他着色器单元)地之一。在至少一个实施例中,管线管理器3632可以通过指定要经由数据交叉开关3640分配的处理后的数据的目的地来促进处理后的数据的分配。
在至少一个实施例中,处理集群3614内的每个图形多处理器3634可以包括相同的一组功能执行逻辑(例如,算术逻辑单元、加载存储单元等)。在至少一个实施例中,可以以管线方式配置功能执行逻辑,其中可以在先前的指令完成之前发出新的指令。在至少一个实施例中,功能执行逻辑支持多种操作,包括整数和浮点算术、比较操作、布尔运算、移位和各种代数函数的计算。在至少一个实施例中,可以利用相同的功能单元硬件来执行不同的操作,并且可以存在功能单元的任何组合。
在至少一个实施例中,传送到处理集群3614的指令构成线程。在至少一个实施例中,跨一组并行处理引擎执行的一组线程是线程组。在至少一个实施例中,线程组在不同的输入数据上执行通用程序。在至少一个实施例中,线程组内的每个线程可被分配给图形多处理器3634内的不同处理引擎。在至少一个实施例中,线程组可包括比图形多处理器3634内的多个处理引擎更少的线程。在至少一个实施例中,当线程组包括的线程数少于处理引擎的数量时,一个或更多个处理引擎在正在处理该线程组的循环期间可能是空闲的。在至少一个实施例中,线程组还可以包括比图形多处理器3634内的多个处理引擎更多的线程。在至少一个实施例中,当线程组包括比图形多处理器3634内的处理引擎的数量更多的线程时,可以在连续的时钟周期内执行处理。在至少一个实施例中,可以在图形多处理器3634上同时执行多个线程组。
在至少一个实施例中,图形多处理器3634包括内部高速缓存存储器,以执行加载和存储操作。在至少一个实施例中,图形多处理器3634可以放弃内部高速缓存并使用处理集群3614内的高速缓存存储器(例如,L1高速缓存3648)。在至少一个实施例中,每个图形多处理器3634还可以访问分区单元(例如,图36A的分区单元3620A-3620N)内的L2高速缓存,这些分区单元在所有处理集群3614之间共享并且可以用于在线程之间传输数据。在至少一个实施例中,图形多处理器3634还可以访问片外全局存储器,其可以包括本地并行处理器存储器和/或系统存储器中的一个或更多个。在至少一个实施例中,并行处理单元3602外部的任何存储器都可以用作全局存储器。在至少一个实施例中,处理集群3614包括图形多处理器3634的多个实例,它们可以共享可以存储在L1高速缓存3648中的公共指令和数据。
在至少一个实施例中,每个处理集群3614可以包括配置成将虚拟地址映射为物理地址的存储器管理单元(“MMU”)3645。在至少一个实施例中,MMU 3645的一个或更多个实例可以驻留在图36A的存储器接口3618内。在至少一个实施例中,MMU 3645包括一组页表条目(PTE),其用于将虚拟地址映射到图块的物理地址以及可选地映射到高速缓存行索引。在至少一个实施例中,MMU 3645可以包括地址转换后备缓冲区(TLB)或可以驻留在图形多处理器3634或L1高速缓存3648或处理集群3614内的高速缓存。在至少一个实施例中,处理物理地址以分配表面数据访问局部性,以便在分区单元之间进行有效的请求交织。在至少一个实施例中,高速缓存行索引可以用于确定对高速缓存线的请求是命中还是未命中。
在至少一个实施例中,可以配置处理集群3614,使得每个图形多处理器3634耦合到纹理单元3636,以执行纹理映射操作,所述操作确定纹理样本位置、读取纹理数据以及过滤纹理数据。在至少一个实施例中,根据需要从内部纹理L1高速缓存(未示出)或从图形多处理器3634内的L1高速缓存中读取纹理数据,并从L2高速缓存、本地并行处理器存储器或系统存储器中获取纹理数据。在至少一个实施例中,每个图形多处理器3634将处理后的任务输出到数据交叉开关3640,以将处理后的任务提供给另一处理集群3614以进行进一步处理或将处理后的任务存储在L2高速缓存、本地并行处理器存储器、或经由存储器交叉开关3616的系统存储器中。在至少一个实施例中,preROP 3642(光栅前操作单元)配置成从图形多处理器3634接收数据,将数据引导至ROP单元,该ROP单元可以与本文所述的分区单元(例如,图36A的分区单元3620A-3620N)一起定位。在至少一个实施例中,PreROP 3642单元可以执行用于颜色混合的优化、组织像素颜色数据以及执行地址转换。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在图形处理集群3614中用于至少部分地基于使用本文描述的神经网络训练操作、神经网络函数和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。
在至少一个实施例中,关于图36C所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图36C所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图36C所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36C所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36C所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图36C所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图36C所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图36D示出了根据至少一个实施例的图形多处理器3634。在至少一个实施例中,图形多处理器3634与处理集群3614的管线管理器3632耦合。在至少一个实施例中,图形多处理器3634具有执行管线,该执行管线包括但不限于指令高速缓存3652、指令单元3654、地址映射单元3656、寄存器文件3658、一个或更多个通用图形处理单元(GPGPU)核心3662和一个或更多个加载/存储单元3666。在至少一个实施例中,GPGPU核心3662和加载/存储单元3666与高速缓存存储器3672和共享存储器3670通过存储器和高速缓存互连3668耦合。
在至少一个实施例中,指令高速缓存3652从管线管理器3632接收要执行的指令流。在至少一个实施例中,将指令高速缓存在指令高速缓存3652中并将其分派以供指令单元3654执行。在一个实施例中,指令单元3654可以分派指令作为线程组(例如,线程束),将线程组的每个线程分配给GPGPU核心3662内的不同执行单元。在至少一个实施例中,指令可以通过在统一地址空间内指定地址来访问任何本地、共享或全局地址空间。在至少一个实施例中,地址映射单元3656可以用于将统一地址空间中的地址转换成可以由加载/存储单元3666访问的不同的存储器地址。
在至少一个实施例中,寄存器文件3658为图形多处理器3634的功能单元提供了一组寄存器。在至少一个实施例中,寄存器文件3658为连接到图形多处理器3634的功能单元(例如,GPGPU核心3662、加载/存储单元3666)的数据路径的操作数提供了临时存储。在至少一个实施例中,在每个功能单元之间划分寄存器文件3658,使得为每个功能单元分配寄存器文件3658的专用部分。在至少一个实施例中,寄存器文件3658在图形多处理器3634正在执行的不同线程束之间划分。
在至少一个实施例中,GPGPU核心3662可以各自包括用于执行图形多处理器3634的指令的浮点单元(FPU)和/或整数算术逻辑单元(ALU)。在至少一个实施例中,GPGPU核心3662在架构上可以相似或架构可能有所不同。在至少一个实施例中,GPGPU核心3662的第一部分包括单精度FPU和整数ALU,而GPGPU核心的第二部分包括双精度FPU。在至少一个实施例中,FPU可以实现用于浮点算法的IEEE 754-2008标准或启用可变精度浮点算法。在至少一个实施例中,图形多处理器3634可以另外包括一个或更多个固定功能或特殊功能单元,以执行特定功能,诸如复制矩形或像素混合操作。在至少一个实施例中,GPGPU核心3662中的一个或更多个也可以包括固定或特殊功能逻辑。
在至少一个实施例中,GPGPU核心3662包括能够对多组数据执行单个指令的SIMD逻辑。在一个实施例中,GPGPU核心3662可以物理地执行SIMD4、SIMD8和SIMD16指令,并且在逻辑上执行SIMD1、SIMD2和SIMD32指令。在至少一个实施例中,用于GPGPU核心的SIMD指令可以在编译时由着色器编译器生成,或者在执行针对单程序多数据(SPMD)或SIMT架构编写和编译的程序时自动生成。在至少一个实施例中,可以通过单个SIMD指令来执行为SIMT执行模型配置的程序的多个线程。例如,在至少一个实施例中,可以通过单个SIMD8逻辑单元并行执行执行相同或相似操作的八个SIMT线程。
在至少一个实施例中,存储器和高速缓存互连3668是将图形多处理器3634的每个功能单元连接到寄存器文件3658和共享存储器3670的互连网络。在至少一个实施例中,存储器和高速缓存互连3668是交叉开关互连,其允许加载/存储单元3666在共享存储器3670和寄存器文件3658之间实现加载和存储操作。在至少一个实施例中,寄存器文件3658可以以与GPGPU核心3662相同的频率操作,从而在GPGPU核心3662和寄存器文件3658之间进行数据传输的延迟非常低。在至少一个实施例中,共享存储器3670可以用于启用在图形多处理器3634内的功能单元上执行的线程之间的通信。在至少一个实施例中,高速缓存存储器3672可以用作例如数据高速缓存,以高速缓存在功能单元和纹理单元3636之间通信的纹理数据。在至少一个实施例中,共享存储器3670也可以用作程序管理的高速缓存。在至少一个实施例中,除了存储在高速缓存存储器3672中的自动高速缓存的数据之外,在GPGPU核心3662上执行的线程还可以以编程方式将数据存储在共享存储器中。
在至少一个实施例中,如本文所述的并行处理器或GPGPU通信地耦合到主机/处理器核心,以加速图形操作、机器学习操作、模式分析操作以及各种通用GPU(GPGPU)功能。在至少一个实施例中,GPU可以通过总线或其他互连(例如,诸如PCIe或NVLink的高速互连)通信地耦合到主机处理器/核心。在至少一个实施例中,GPU可以与核心集成在封装或芯片上,并通过内部处理器总线/互连(即,封装或芯片的内部)通信地耦合到核心。在至少一个实施例中,不管GPU连接的方式如何,处理器核心可以以工作描述符中包括的命令/指令序列的形式向该GPU分配工作。在至少一个实施例中,该GPU然后使用专用电路/逻辑来有效地处理这些命令/指令。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在图形多处理器3634中用于至少部分地基于使用本文描述的神经网络训练操作、神经网络功能和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。
在至少一个实施例中,关于图36D所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图36D所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图36D所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36D所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图36D所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图36D所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图36D所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图37示出了根据至少一个实施例的多GPU计算系统3700。在至少一个实施例中,多GPU计算系统3700可以包括经由主机接口交换机3704耦合到多个通用图形处理单元(GPGPU)3706A-D的处理器3702。在至少一个实施例中,主机接口交换机3704是将处理器3702耦合到PCI Express总线的PCI Express交换机设备,处理器3702可以通过PCIExpress总线与GPGPU 3706A-D通信。在至少一个实施例中,GPGPU 3706A-D可以经由一组高速P2P GPU到GPU链路3716互连。在至少一个实施例中,GPU到GPU链路3716经由专用GPU链路连接到GPGPU 3706A-D中的每一个。在至少一个实施例中,P2P GPU链路3716使得能够在每个GPGPU 3706A-D之间进行直接通信,而无需通过处理器3702所连接的主机接口交换机3704进行通信。在至少一个实施例中,在GPU到GPU业务定向到P2P GPU链路3716的情况下,主机接口交换机3704保持可用于系统存储器访问或例如经由一个或更多个网络设备与多GPU计算系统3700的其他实例进行通信。虽然在至少一个实施例中,GPGPU 3706A-D经由主机接口交换机3704连接到处理器3702,但是在至少一个实施例中,处理器3702包括对P2PGPU链路3716的直接支持,并且可以直接连接到GPGPU 3706A-D。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在多GPU计算系统3700中使用,用于至少部分地基于使用本文描述的神经网络训练操作、神经网络函数和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。
在至少一个实施例中,关于图37所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图37所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图37所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图37所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图37所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图37所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图37所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图38是根据至少一个实施例的图形处理器3800的框图。在至少一个实施例中,图形处理器3800包括环形互连3802、管线前端3804、媒体引擎3837和图形核心3880A-3880N。在至少一个实施例中,环形互连3802将图形处理器3800耦合到其他处理单元,所述处理单元包括其他图形处理器或一个或更多个通用处理器核心。在至少一个实施例中,图形处理器3800是集成在多核心处理系统内的许多处理器之一。
在至少一个实施例中,图形处理器3800经由环形互连3802接收多批命令。在至少一个实施例中,输入的命令由管线前端3804中的命令流转化器(streamer)3803解释。在至少一个实施例中,图形处理器3800包括可扩展执行逻辑,用于经由图形核心3880A-3880N执行3D几何处理和媒体处理。在至少一个实施例中,对于3D几何处理命令,命令流转化器3803将命令提供给几何管线3836。在至少一个实施例中,对于至少一些媒体处理命令,命令流转化器3803将命令提供给视频前端3834,该视频前端与媒体引擎3837耦合。在至少一个实施例中,媒体引擎3837包括用于视频和图像后处理的视频质量引擎(VQE)3830,以及用于提供硬件加速的媒体数据编码和解码的多格式编码/解码(MFX)3833引擎。在至少一个实施例中,几何管线3836和媒体引擎3837各自生成用于由至少一个图形核心3880提供的线程执行资源的执行线程。
在至少一个实施例中,图形处理器3800包括具有(featuring)图形核心3880A-3880N(其可以是模块化的并且有时被称为核心切片)的可扩展线程执行资源,每个图形核心具有多个子核心3850A-3850N,3860A-3860N(有时称为核心子切片)。在至少一个实施例中,图形处理器3800可以具有任意数量的图形核心3880A。在至少一个实施例中,图形处理器3800包括具有至少第一子核心3850A和第二子核心3860A的图形核心3880A。在至少一个实施例中,图形处理器3800是具有单个子核心(例如3850A)的低功率处理器。在至少一个实施例中,图形处理器3800包括多个图形核心3880A-3880N,每个图形核心包括一组第一子核心3850A-3850N和一组第二子核心3860A-3860N。在至少一个实施例中,第一子核心3850A-3850N中的每个子核心至少包括第一组执行单元3852A-3852N和媒体/纹理采样器3854A-3854N。在至少一个实施例中,第二子核心3860A-3860N中的每个子核心至少包括第二组执行单元3862A-3862N和采样器3864A-3864N。在至少一个实施例中,每个子核心3850A-3850N,3860A-3860N共享一组共享资源3870A-3870N。在至少一个实施例中,共享资源包括共享高速缓存存储器和像素操作逻辑。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315可以在图形处理器3800中用于至少部分地基于使用本文描述的神经网络训练操作、神经网络功能和/或架构或神经网络用例计算的权重参数来进行推理或预测操作。
在至少一个实施例中,关于图38所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图38所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图38所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图38所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图38所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图38所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图38所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图39是根据至少一个实施例的说明用于处理器3900的微架构的框图,该处理器3900可以包括用于执行指令的逻辑电路。在至少一个实施例中,处理器3900可以执行指令,包括x86指令、ARM指令、用于专用集成电路(ASIC)的专用指令等。在至少一个实施例中,处理器3900可以包括用于存储封装数据的寄存器,例如作为加利福尼亚州圣克拉拉市英特尔公司采用MMX技术启用的微处理器中的64位宽MMXTM寄存器。在至少一个实施例中,整数和浮点数形式可用的MMX寄存器可以与封装的数据元素一起运行,所述封装的数据元素伴随单指令多数据(“SIMD”)和流式SIMD扩展(“SSE”)指令。在至少一个实施例中,与SSE2、SSE3、SSE4、AVX或更高版本(一般称为“SSEx”)技术有关的128位宽XMM寄存器可以保存此类封装数据操作数。在至少一个实施例中,处理器3900可以执行指令以加速机器学习或深度学习算法、训练或推理。
在至少一个实施例中,处理器3900包括有序前端(“前端”)3901,以提取要执行的指令并准备稍后在处理器管线中使用的指令。在至少一个实施例中,前端3901可以包括几个单元。在至少一个实施例中,指令预取器3926从存储器中获取指令并将指令提供给指令解码器3928,指令解码器3928又对指令进行解码或解释。例如,在至少一个实施例中,指令解码器3928将接收到的指令解码为机器可执行的所谓的“微指令”或“微操作”(也称为“微操作”或“微指令”)的一个或更多个操作。在至少一个实施例中,指令解码器3928将指令解析为操作码以及相应的数据和控制字段,其可以由微架构用来使用以根据至少一个实施例来执行操作。在至少一个实施例中,追踪高速缓存3930可以将解码的微指令组装成微指令队列3934中的程序排序的序列或追踪以供执行。在至少一个实施例中,当追踪高速缓存3930遇到复杂指令时,微码ROM 3932提供完成操作所需的微指令。
在至少一个实施例中,可以将一些指令转换成单个微操作,而另一些指令则需要几个微操作来完成全部操作。在至少一个实施例中,如果需要多于四个的微指令来完成一条指令,则指令解码器3928可以访问微码ROM 3932以执行该指令。在至少一个实施例中,可以将指令解码为少量的微指令以在指令解码器3928处进行处理。在至少一个实施例中,如果需要多个微指令完成该操作,则可以将指令存储在微码ROM 3932中。在至少一个实施例中,追踪高速缓存器3930参考入口点可编程逻辑阵列(“PLA”)以确定正确的微指令指针,用于根据至少一个实施例从微码ROM 3932读取微码序列以完成一个或更多个指令。在至少一个实施例中,在微码ROM 3932完成对指令的微操作排序之后,机器的前端3901可以恢复从追踪高速缓存3930获取微操作。
在至少一个实施例中,乱序执行引擎(“乱序引擎”)3903可以准备用于执行的指令。在至少一个实施例中,乱序执行逻辑具有多个缓冲区,以使指令流平滑并重新排序,以在指令沿管线下降并被调度执行时优化性能。在至少一个实施例中,乱序执行引擎3903包括但不限于分配器/寄存器重命名器3940、存储器微指令队列3942、整数/浮点微指令队列3944、存储器调度器3946、快速调度器3902、慢速/通用浮点调度器(“慢速/通用FP调度器”)3904和简单浮点调度器(“简单FP调度器”)3906。在至少一个实施例中,快速调度器3902、慢速/通用浮点调度器3904和简单浮点调度器3906也统称为“微指令调度器3902、3904、3906”。在至少一个实施例中,分配器/寄存器重命名器3940分配每个微指令按序列执行所需要的机器缓冲区和资源。在至少一个实施例中,分配器/寄存器重命名器3940将逻辑寄存器重命名为寄存器文件中的条目。在至少一个实施例中,分配器/寄存器重命名器3940还为两个微指令队列之一中的每个微指令分配条目,存储器微指令队列3942用于存储器操作和整数/浮点微指令队列3944用于非存储器操作,在存储器调度器3946和微指令调度器3902、3904、3906的前面。在至少一个实施例中,微指令调度器3902、3904、3906基于它们的从属输入寄存器操作数源的就绪性和需要完成的执行资源微指令的可用性来确定何时准备好执行微指令。至少一个实施例的快速调度器3902可以在主时钟周期的每个一半上调度,而慢速/通用浮点调度器3904和简单浮点调度器3906可以在每个主处理器时钟周期调度一次。在至少一个实施例中,微指令调度器3902、3904、3906对调度端口进行仲裁,以调度用于执行的微指令。
在至少一个实施例中,执行块3911包括但不限于整数寄存器文件/支路网络3908、浮点寄存器文件/支路网络(“FP寄存器文件/支路网络”)3910、地址生成单元(“AGU”)3912和3914、快速算术逻辑单元(“快速ALU”)3916和3918、慢速算术逻辑单元(“慢速ALU”)3920、浮点ALU(“FP”)3922和浮点移动单元(“FP移动”)3924。在至少一个实施例中,整数寄存器文件/支路网络3908和浮点寄存器文件/旁路网络3910在本文中也称为“寄存器文件3908、3910”。在至少一个实施例中,AGU 3912和3914、快速ALU 3916和3918、慢速ALU 3920、浮点ALU 3922和浮点移动单元3924在本文中也称为“执行单元3912、3914、3916、3918、3920、3922和3924”。在至少一个实施例中,执行块3911可以包括但不限于任意数量(包括零)和类型的寄存器文件、支路网络、地址生成单元和执行单元(以任何组合)。
在至少一个实施例中,寄存器网络3908、3910可以布置在微指令调度器3902、3904、3906与执行单元3912、3914、3916、3918、3920、3922和3924之间。在至少一个实施例中,整数寄存器文件/支路网络3908执行整数运算。在至少一个实施例中,浮点寄存器文件/支路网络3910执行浮点操作。在至少一个实施例中,寄存器网络3908、3910中的每一个可以包括但不限于支路网络,该支路网络可以绕过或转发尚未写入寄存器文件中的刚刚完成的结果到新的从属对象。在至少一个实施例中,寄存器网络3908、3910可以彼此通信数据。在至少一个实施例中,整数寄存器文件/支路网络3908可以包括但不限于两个单独的寄存器文件、一个寄存器文件用于低阶32位数据,第二寄存器文件用于高阶32位数据。在至少一个实施例中,浮点寄存器文件/支路网络3910可以包括但不限于128位宽的条目,因为浮点指令通常具有宽度为64至128位的操作数。
在至少一个实施例中,执行单元3912、3914、3916、3918、3920、3922、3924可以执行指令。在至少一个实施例中,寄存器网络3908、3910存储微指令需要执行的整数和浮点数据操作数值。在至少一个实施例中,处理器3900可以包括但不限于任何数量的执行单元3912、3914、3916、3918、3920、3922、3924及其组合。在至少一个实施例中,浮点ALU 3922和浮点移动单元3924,可以执行浮点、MMX、SIMD、AVX和SSE或其他操作,包括专门的机器学习指令。在至少一个实施例中,浮点ALU 3922可以包括但不限于64位乘64位浮点除法器,以执行除法、平方根和余数微操作。在至少一个实施例中,可以用浮点硬件来处理涉及浮点值的指令。在至少一个实施例中,可以将ALU操作传递给快速ALU 3916、3918。在至少一个实施例中,快速ALU 3916、3918可以以半个时钟周期的有效延迟执行快速操作。在至少一个实施例中,大多数复杂的整数运算进入慢速ALU 3920,因为慢速ALU 3920可以包括但不限于用于长延迟类型操作的整数执行硬件,例如乘法器、移位、标志逻辑和分支处理。在至少一个实施例中,存储器加载/存储操作可以由AGU 3912、3914执行。在至少一个实施例中,快速ALU 3916、快速ALU 3918和慢速ALU 3920可以对64位数据操作数执行整数运算。在至少一个实施例中,可以实现快速ALU 3916、快速ALU 3918和慢速ALU 3920以支持包括十六、三十二、128、256等的各种数据位大小。在至少一个实施例中,浮点ALU 3922和浮点移动单元3924可以实现为支持具有各种宽度的位的一定范围的操作数,例如可以结合SIMD和多媒体指令对128位宽封装数据操作数进行操作。在至少一个实施例中,处理器3900包括一个或更多个算术逻辑单元(ALU),用于使用神经网络执行训练和/或推理,以将低分辨率或较低分辨率图像上采样或放大为高分辨率图像,其可称为超分辨率图像。
在至少一个实施例中,微指令调度器3902、3904、3906在父加载完成执行之前调度从属操作。在至少一个实施例中,由于可以在处理器3900中推测性地调度和执行微指令,处理器3900还可以包括用于处理存储器未命中的逻辑。在至少一个实施例中,如果数据高速缓存中的数据加载未命中,则可能存在在管线中正在运行的从属操作,其使调度器暂时没有正确的数据。在至少一个实施例中,一种重放机制追踪踪并重新执行使用不正确数据的指令。在至少一个实施例中,可能需要重放从属操作并且可以允许完成独立操作。在至少一个实施例中,处理器的至少一个实施例的调度器和重放机制也可以设计为捕获用于文本串比较操作的指令序列。
在至少一个实施例中,“寄存器”可以指代可以用作识别操作数的指令的一部分的机载处理器存储位置。在至少一个实施例中,寄存器可以是那些可以从处理器外部使用的寄存器(从程序员的角度来看)。在至少一个实施例中,寄存器可能不限于特定类型的电路。相反,在至少一个实施例中,寄存器可以存储数据、提供数据并执行本文描述的功能。在至少一个实施例中,本文描述的寄存器可以通过处理器内的电路使用多种不同技术来实现,例如专用物理寄存器、使用寄存器重命名动态分配的物理寄存器、专用和动态分配的物理寄存器的组合等。在至少一个实施例中,整数寄存器存储32位整数数据。至少一个实施例的寄存器文件还包括八个用于封装数据的多媒体SIMD寄存器。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,可以将推理和/或训练逻辑2315的部分或全部并入执行块3911以及示出或未示出的其他存储器或寄存器。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用执行块3911中示出的一个或更多个ALU。此外,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,该寄存器和/或寄存器配置执行块3911的ALU以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。
在至少一个实施例中,关于图39所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图39所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图39所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图39所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图39所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图39所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图39所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图40示出了根据至少一个实施例的深度学习应用程序处理器4000。在至少一个实施例中,深度学习应用程序处理器4000使用指令,如果由深度学习应用程序处理器4000执行,则指令使深度学习应用程序处理器4000执行贯穿本公开描述的一些或全部过程和技术。在至少一个实施例中,深度学习应用程序处理器4000是专用集成电路(ASIC)。在至少一个实施例中,应用程序处理器4000执行矩阵乘法运算或者“硬连线”到硬件中,作为执行一个或更多个指令或两者的结果。在至少一个实施例中,深度学习应用程序处理器4000包括但不限于处理集群4010(1)-4010(12)、芯片间链路(“ICL”)4020(1)-4020(12)、芯片间控制器(“ICC”)4030(1)-4030(2)、第二代高带宽存储器(“HBM2”)4040(1)-4040(4)、存储器控制器(“Mem Ctrlr”)4042(1)-4042(4)、高带宽存储器物理层(“HBM PHY”)4044(1)-4044(4)、管理控制器中央处理单元(“管理控制器CPU”)4050、串行外围设备接口、内部集成电路和通用输入/输出块(“SPI、I2C、GPIO”)4060,外围组件互连快速控制器和直接存储器访问块(“PCIe控制器和DMA”)4070、以及十六通道外围组件互连快速端口(“PCI Express x 16”)4080。
在至少一个实施例中,处理集群4010可以执行深度学习操作,包括基于一种或更多种训练技术计算的权重参数的推理或预测操作,包括本文所述的那些技术。在至少一个实施例中,每个处理集群4010可以包括但不限于任何数量和类型的处理器。在至少一个实施例中,深度学习应用程序处理器4000可以包括任何数量和类型的处理集群4010。在至少一个实施例中,芯片间链路4020是双向的。在至少一个实施例中,芯片间链路4020和芯片间控制器4030使多个深度学习应用程序处理器4000能够交换信息,包括从执行一个或更多个神经网络中体现的一种或更多种机器学习算法而产生的激活信息。在至少一个实施例中,深度学习应用程序处理器4000可以包括任意数量(包括零)和类型的ICL 4020和ICC 4030。
在至少一个实施例中,HBM2 4040提供总共32GB的存储器。在至少一个实施例中,HBM2 4040(i)与存储器控制器4042(i)和HBM PHY 4044(i)都相关联,其中“i”是任意整数。在至少一个实施例中,任何数量的HBM2 4040可以提供任何类型和总量的高带宽存储器,并且可以与任何数量(包括零)和类型的存储器控制器4042和HBM PHY 4044相关联。在至少一个实施例中,可以用任何数量和类型的块替换SPI、I2C、GPIO 4060、PCIe控制器和DMA 4070和/或PCIe 4080,以任何技术上可行的方式实现任何数量和类型的通信标准。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(例如神经网络),以预测或推理提供给深度学习应用程序处理器4000的信息。在至少一个实施例中,深度学习应用程序处理器4000用于基于已经由另一处理器或系统或由深度学习应用程序处理器4000训练的经训练的机器学习模型(例如,神经网络)来推理或预测信息。
在至少一个实施例中,处理器4000可以用于执行本文所述的一个或更多个神经网络用例。
在至少一个实施例中,关于图40所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图40所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图40所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图40所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图40所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图40所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图40所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图41是根据至少一个实施例的神经形态处理器4100的框图。在至少一个实施例中,神经形态处理器4100可以从神经形态处理器4100外部的源接收一个或更多个输入。在至少一个实施例中,这些输入可以被传输到神经形态处理器4100内的一个或更多个神经元4102。在至少一个实施例中,可以使用包括一个或更多个算术逻辑单元(ALU)的电路或逻辑来实现神经元4102及其组件。在至少一个实施例中,神经形态处理器4100可以包括但不限于成千上万个神经元4102的实例,但是可以使用任何合适数量的神经元4102。在至少一个实施例中,神经元4102的每个实例可以包括神经元输入4104和神经元输出4106。在至少一个实施例中,神经元4102可以生成可以传输到神经元4102的其他实例的输入的输出。在至少一个实施例中,神经元输入4104和神经元输出4106可以经由突触4108互连。
在至少一个实施例中,神经元4102和突触4108可以互连,使得神经形态处理器4100操作以处理或分析由神经形态处理器4100接收的信息。在至少一个实施例中,当通过神经元输入4104接收到的输入超过阈值时,神经元4102可以发送输出脉冲(或“触发”或“峰值”)。在至少一个实施例中,神经元4102可以对在神经元输入4104处接收到的信号进行求和或积分。例如,在至少一个实施例中,神经元4102可以实现为有泄漏的积分-触发神经元,其中如果求和(称为“膜电位”)超过阈值,则神经元4102可以使用诸如sigmoid或阈值函数的传递函数来产生输出(或“触发”)。在至少一个实施例中,泄漏的积分-触发神经元可以将在神经元输入4104处接收到的信号求和成膜电位,并且可以应用程序衰减因子(或泄漏)以减小膜电位。在至少一个实施例中,如果在神经元输入4104处接收到足够快以超过阈值的多个输入信号(即,在膜电势衰减得太低而不能触发之前),则泄漏的积分-触发神经元可能会触发。在至少一个实施例中,神经元4102可以使用接收输入、将输入积分到膜电位、并衰减膜电位的电路或逻辑来实现。在至少一个实施例中,可以对输入求平均,或者可以使用任何其他合适的传递函数。此外,在至少一个实施例中,神经元4102可以包括但不限于当将传递函数应用程序于神经元输入4104的结果超过阈值时在神经元输出4106处产生输出尖峰的比较器电路或逻辑。在至少一个实施例中,一旦神经元4102触发,它可以通过例如将膜电位复位为0或另一合适的默认值来忽略先前接收的输入信息。在至少一个实施例中,一旦膜电位被重置为0,则神经元4102可以在合适的时间段(或修复期)之后恢复正常操作。
在至少一个实施例中,神经元4102可以通过突触4108互连。在至少一个实施例中,突触4108可以操作以将从第一神经元4102的输出的信号传输到第二神经元4102的输入。在至少一个实施例中,神经元4102可以在一个以上的突触4108实例上传输信息。在至少一个实施例中,神经元输出4106的一个或更多个实例可以通过突触4108的实例连接到同一神经元4102中神经元输入4104的实例。在至少一个实施例中,相对于突触4108的那个实例,神经元4102的实例产生要在突触4108的实例上传输的输出可以被称为“突触前神经元”。在至少一个实施例中,相对于突触4108的实例,神经元4102的实例接收通过突触4108的实例传输的输入可以被称为“突触后神经元”。在至少一个实施例中,关于突触4108的各种实例,因为神经元4102的实例可以接收来自一个或更多个突触4108实例的输入,并且还可以通过一个或更多个突触4108实例传输输出,因此神经元4102的单个实例可以既是“突触前神经元”又是“突触后神经元”。
在至少一个实施例中,神经元4102可以被组织成一层或更多层。在至少一个实施例中,神经元4102的每个实例可以具有一个神经元输出4106,该神经元输出4106可以通过一个或更多个突触4108扇出到一个或更多个神经元输入4104。在至少一个实施例中,第一层4110中的神经元4102的神经元输出4106可以连接到第二层4112中的神经元4102的神经元输入4104。在至少一个实施例中,层4110可以被称为“前馈层”。在至少一个实施例中,在第一层4110的实例中神经元4102的每个实例可以扇出到第二层4112中的神经元4102的每个实例。在至少一个实施例中,第一层4110可以被称为“完全连接的前馈层”。在至少一个实施例中,在第二层4112的每个实例中的神经元4102的每个实例扇出到少于在第三层4114中的神经元4102的所有实例。在至少一个实施例中,第二层4112可以被称为“稀疏连接的前馈层”。在至少一个实施例中,第二层4112中的神经元4102可以扇出到多个其他层中的神经元4102,也包括扇出到第二层4112中的神经元4102。在至少一个实施例中,第二层4112可以被称为“循环层”。在至少一个实施例中,神经形态处理器4100可以包括但不限于循环层和前馈层的任何合适的组合,包括但不限于稀疏连接的前馈层和完全连接的前馈层。
在至少一个实施例中,神经形态处理器4100可以包括但不限于可重新配置的互连架构或专用硬连线互连,以将突触4108连接到神经元4102。
在至少一个实施例中,神经形态处理器4100可以包括但不限于电路或逻辑,其根据神经网络拓扑结构和神经元扇入/扇出,允许根据需要将突触分配给不同神经元4102。例如,在至少一个实施例中,可以使用互连结构(诸如片上网络)或通过专用连接将突触4108连接到神经元4102。在至少一个实施例中,可以使用电路或逻辑来实现突触互连及其组件。
在至少一个实施例中,关于图41所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图41所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图41所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图41所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图41所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图41所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图41所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图42示出了根据至少一个实施例的处理系统。在至少一个实施例中,系统4200包括一个或更多个处理器4202和一个或更多个图形处理器4208,并且可以是单处理器台式机系统、多处理器工作站系统或具有大量处理器4202或处理器核心4207的服务器系统。在至少一个实施例中,系统4200是结合在片上系统(SoC)集成电路内的处理平台,以在移动、手持或嵌入式设备使用。
在至少一个实施例中,系统4200可以包括或结合在基于服务器的游戏平台中,包括游戏和媒体控制台的游戏控制台、移动游戏控制台、手持游戏控制台或在线游戏控制台。在至少一个实施例中,系统4200是移动电话、智能电话、平板计算设备或移动互联网设备。在至少一个实施例中,处理系统4200还可包括与可穿戴设备耦合或集成在可穿戴设备中,例如智能手表可穿戴设备、智能眼镜设备、增强现实设备或虚拟现实设备。在至少一个实施例中,处理系统4200是电视或机顶盒设备,其具有一个或更多个处理器4202以及由一个或更多个图形处理器4208生成的图形界面。
在至少一个实施例中,一个或更多个处理器4202每个包括一个或更多个处理器核心4207,以处理指令,该指令在被执行时执行针对系统和用户软件的操作。在至少一个实施例中,一个或更多个处理器核心4207中的每一个被配置为处理特定指令序列4209。在至少一个实施例中,指令序列4209可以促进复杂指令集计算(CISC)、精简指令集计算(RISC),或通过超长指令字(VLIW)进行计算。在至少一个实施例中,处理器核心4207可以各自处理不同的指令序列4209,该指令序列可以包括有助于仿真其他指令序列的指令。在至少一个实施例中,处理器核心4207还可以包括其他处理设备,例如数字信号处理器(DSP)。
在至少一个实施例中,处理器4202包括高速缓存存储器4204。在至少一个实施例中,处理器4202可以具有单个内部高速缓存或更多个级别的内部高速缓存。在至少一个实施例中,高速缓存存储器在处理器4202的各个组件之间共享。在至少一个实施例中,处理器4202还使用外部高速缓存(例如,三级(L3)高速缓存或最后一级高速缓存(LLC))(未示出),可以使用已知的高速缓存一致性技术在处理器核心4207之间共享该外部高速缓存。在至少一个实施例中,处理器4202中另外包括寄存器文件4206,处理器可以包括用于存储不同类型的数据的不同类型的寄存器(例如,整数寄存器、浮点寄存器、状态寄存器和指令指针寄存器)。在至少一个实施例中,寄存器文件4206可以包括通用寄存器或其他寄存器。
在至少一个实施例中,一个或更多个处理器4202与一个或更多个接口总线4210耦合,以在处理器4202与系统4200中的其他组件之间传输通信信号,例如地址、数据或控制信号。在至少一个实施例中,接口总线4210可以是处理器总线,例如直接媒体接口(DMI)总线的版本。在至少一个实施例中,接口总线4210不限于DMI总线,并且可以包括一个或更多个外围组件互连总线(例如,PCI,PCI Express)、存储器总线或其他类型的接口总线。在至少一个实施例中,处理器4202包括集成存储器控制器4216和平台控制器集线器4230。在至少一个实施例中,存储器控制器4216促进存储器设备与处理系统4200的其他组件之间的通信,而平台控制器集线器(PCH)4230通过本地I/O总线提供到输入/输出(I/O)设备的连接。
在至少一个实施例中,存储器设备4220可以是动态随机存取存储器(DRAM)设备、静态随机存取存储器(SRAM)设备、闪存设备、相变存储设备或具有适当的性能以用作处理器存储器。在至少一个实施例中,存储设备4220可以用作处理系统4200的系统存储器,以存储数据4222和指令4221,以在一个或更多个处理器4202执行应用程序或过程时使用。在至少一个实施例中,存储器控制器4216还与可选的外部图形处理器4212耦合,其可以与处理器4202中的一个或更多个图形处理器4208通信以执行图形和媒体操作。在至少一个实施例中,显示设备4211可以连接至处理器4202。在至少一个实施例中,显示设备4211可以包括内部显示设备中的一个或更多个,例如在移动电子设备或膝上型设备或通过显示器接口(例如显示端口(DisplayPort)等)连接的外部显示设备中。在至少一个实施例中,显示设备4211可以包括头戴式显示器(HMD),诸如用于虚拟现实(VR)应用或增强现实(AR)应用中的立体显示设备。
在至少一个实施例中,平台控制器集线器4230使外围设备能够通过高速I/O总线连接到存储设备4220和处理器4202。在至少一个实施例中,I/O外围设备包括但不限于音频控制器4246、网络控制器4234、固件接口4228、无线收发器4226、触摸传感器4225、数据存储设备4224(例如,硬盘驱动器、闪存等)。在至少一个实施例中,数据存储设备4224可以经由存储接口(例如,SATA)或经由外围总线来连接,诸如外围组件互连总线(例如,PCI、PCIe)。在至少一个实施例中,触摸传感器4225可以包括触摸屏传感器、压力传感器或指纹传感器。在至少一个实施例中,无线收发器4226可以是Wi-Fi收发器、蓝牙收发器或移动网络收发器,诸如3G、4G或长期演进(LTE)收发器。在至少一个实施例中,固件接口4228使能与系统固件的通信,并且可以是例如统一可扩展固件接口(UEFI)。在至少一个实施例中,网络控制器4234可以启用到有线网络的网络连接。在至少一个实施例中,高性能网络控制器(未示出)与接口总线4210耦合。在至少一个实施例中,音频控制器4246是多通道高清晰度音频控制器。在至少一个实施例中,处理系统4200包括可选的传统(legacy)I/O控制器4240,用于将传统(例如,个人系统2(PS/2))设备耦合到系统4200。在至少一个实施例中,平台控制器集线器4230还可以连接到一个或更多个通用串行总线(USB)控制器4242,该控制器连接输入设备,诸如键盘和鼠标4243组合、摄像机4244或其他USB输入设备。
在至少一个实施例中,存储器控制器4216和平台控制器集线器4230的实例可以集成到离散的外部图形处理器中,例如外部图形处理器4212。在至少一个实施例中,平台控制器集线器4230和/或存储器控制器4216可以在一个或更多个处理器4202的外部。例如,在至少一个实施例中,系统4200可以包括外部存储器控制器4216和平台控制器集线器4230,其可以配置成在与处理器4202通信的系统芯片组中的存储器控制器集线器和外围控制器集线器。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑2315可以结合到图形处理器4208中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个ALU,所述ALU体现在3D管线中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图23A或图23B所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器4208的ALU,以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。
在至少一个实施例中,关于图42所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图42所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图42所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图42所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图42所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图42所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图42所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图43是根据至少一个实施例的具有一个或更多个处理器核心4302A-4302N、集成存储器控制器4314和集成图形处理器4308的处理器4300的框图。在至少一个实施例中,处理器4300可以包括附加核心,多达并包括以虚线框表示的附加核心4302N。在至少一个实施例中,每个处理器核心4302A-4302N包括一个或更多个内部高速缓存单元4304A-4304N。在至少一个实施例中,每个处理器核心还可以访问一个或更多个共享高速缓存单元4306。
在至少一个实施例中,内部高速缓存单元4304A-4304N和共享高速缓存单元4306表示处理器4300内的高速缓存存储器层次结构。在至少一个实施例中,高速缓存存储器单元4304A-4304N可以包括每个处理器核心内的至少一级指令和数据高速缓存以及共享中级高速缓存中的一级或更多级缓存,例如2级(L2)、3级(L3)、4级(L4)或其他级别的高速缓存,其中将外部存储器之前的最高级别的高速缓存归类为LLC。在至少一个实施例中,高速缓存一致性逻辑维持各种高速缓存单元4306和4304A-4304N之间的一致性。
在至少一个实施例中,处理器4300还可包括一组一个或更多个总线控制器单元4316和系统代理核心4310。在至少一个实施例中,一个或更多个总线控制器单元4316管理一组外围总线,例如一个或更多个PCI或PCIe总线。在至少一个实施例中,系统代理核心4310为各种处理器组件提供管理功能。在至少一个实施例中,系统代理核心4310包括一个或更多个集成存储器控制器4314,以管理对各种外部存储器设备(未示出)的访问。
在至少一个实施例中,一个或更多个处理器核心4302A-4302N包括对多线程同时进行的支持。在至少一个实施例中,系统代理核心4310包括用于在多线程处理期间协调和操作核心4302A-4302N的组件。在至少一个实施例中,系统代理核心4310可以另外包括电源控制单元(PCU),该电源控制单元包括用于调节处理器核心4302A-4302N和图形处理器4308的一个或更多个电源状态的逻辑和组件。
在至少一个实施例中,处理器4300还包括用于执行图处理操作的图形处理器4308。在至少一个实施例中,图形处理器4308与共享高速缓存单元4306和包括一个或更多个集成存储器控制器4314的系统代理核心4310耦合。在至少一个实施例中,系统代理核心4310还包括用于驱动图形处理器输出到一个或更多个耦合的显示器的显示器控制器4311。在至少一个实施例中,显示器控制器4311也可以是经由至少一个互连与图形处理器4308耦合的独立模块,或者可以集成在图形处理器4308内。
在至少一个实施例中,基于环的互连单元4312用于耦合处理器4300的内部组件。在至少一个实施例中,可以使用替代性互连单元,例如点对点互连、交换互连或其他技术。在至少一个实施例中,图形处理器4308经由I/O链路4313与环形互连4312耦合。
在至少一个实施例中,I/O链路4313代表多种I/O互连中的至少一种,包括促进各种处理器组件与高性能嵌入式存储器模块4318(例如eDRAM模块)之间的通信的封装I/O互连。在至少一个实施例中,处理器核心4302A-4302N和图形处理器4308中的每一个使用嵌入式存储器模块4318作为共享的最后一级高速缓存。
在至少一个实施例中,处理器核心4302A-4302N是执行公共指令集架构的同质核心。在至少一个实施例中,处理器核心4302A-4302N在指令集架构(ISA)方面是异构的,其中一个或更多个处理器核心4302A-4302N执行公共指令集,而一个或更多个其他处理器核心4302A-4302N执行公共指令集的子集或不同指令集。在至少一个实施例中,就微架构而言,处理器核心4302A-4302N是异构的,其中具有相对较高功耗的一个或更多个核心与具有较低功耗的一个或更多个功率核心耦合。在至少一个实施例中,处理器4300可以在一个或更多个芯片上实现或被实现为SoC集成电路(例如,处理器4300被电耦合到加速器或一个或更多个GPU以形成SoC)。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑2315可以结合到处理器4300中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个ALU,所述ALU体现在图43中的3D管线、图形核心4302、共享功能逻辑,或其他逻辑中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图23A或图23B所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置处理器4300的ALU以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。
在至少一个实施例中,关于图43所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图43所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图43所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图43所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图43所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图43所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图43所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图44是图形处理器4400的框图,该图形处理器可以是分立的图形处理单元,或者可以是与多个处理核心集成的图形处理器。在至少一个实施例中,图形处理器4400经由存储器映射的I/O接口与图形处理器4400上的寄存器以及放置在存储器中的命令进行通信。在至少一个实施例中,图形处理器4400包括用于访问存储器的存储器接口4414。在至少一个实施例中,存储器接口4414是到本地存储器、一个或更多个内部高速缓存、一个或更多个共享的外部高速缓存和/或到系统存储器的接口。
在至少一个实施例中,图形处理器4400还包括用于将显示输出数据驱动到显示设备4420的显示控制器4402。在至少一个实施例中,显示控制器4402包括用于显示设备4420的一个或更多个覆盖平面的硬件以及多层视频或用户接口元素的组合。在至少一个实施例中,显示设备4420可以是内部或外部显示设备。在至少一个实施例中,显示设备4420是头戴式显示设备,例如虚拟现实(VR)显示设备或增强现实(AR)显示设备。在至少一个实施例中,图形处理器4400包括视频编解码器引擎4406,以将媒体编码、解码或转码为一种或更多种媒体编码格式,从一种或更多种媒体编码格式编码、解码或转码,或在一种或更多种媒体编码格式之间进行编码、解码或转码,所述媒体编码格式包括但不限于移动图像专家组(MPEG)格式(例如MPEG-2),高级视频编码(AVC)格式(例如H.264/MPEG-4AVC,以及美国电影电视工程师协会(SMPTE)421M/VC-1)和联合图像专家组(JPEG)格式(例如JPEG)和MotionJPEG(MJPEG)格式。
在至少一个实施例中,图形处理器4400包括块图像传送(BLIT)引擎4404,以执行二维(2D)光栅化器操作,包括例如位边界块传送。但是,在至少一个实施例中,使用图形处理引擎(GPE)4410的一个或更多个组件来执行2D图形操作。在至少一个实施例中,GPE 4410是用于执行图形操作(包括三维(3D)图形操作和媒体操作)的计算引擎。
在至少一个实施例中,GPE 4410包括用于执行3D操作的3D管线4412,例如使用对3D图元形状(例如,矩形、三角形等)进行操作的处理功能来渲染三维图像和场景。在至少一个实施例中,3D管线4412包括执行各种任务和/或产生到3D/媒体子系统4415的执行线程的可编程和固定功能元素。虽然3D管线4412可用于执行媒体操作,但是在至少一个实施例中,GPE 4410还包括媒体管线4416,其用于执行媒体操作,诸如视频后处理和图像增强。
在至少一个实施例中,媒体管线4416包括固定功能或可编程逻辑单元,用于执行一种或更多种专门的媒体操作,例如视频解码加速,视频去隔行和视频编码加速,代替或代表视频编解码器引擎4406。在至少一个实施例中,媒体管线4416还包括线程产生单元,用于产生线程以在3D/媒体子系统4415上执行。在至少一个实施例中,产生的线程在3D/媒体子系统4415中包括的一个或更多个图形执行单元上执行媒体操作的计算。
在至少一个实施例中,3D/媒体子系统4415包括用于执行3D管线4412和媒体管线4416产生的线程的逻辑。在至少一个实施例中,3D管线4412和媒体管线4416将线程执行请求发送到3D/媒体子系统4415,其包括用于仲裁各种请求并将其分派给可用线程执行资源的线程分派逻辑。在至少一个实施例中,执行资源包括用于处理3D和媒体线程的图形执行单元的阵列。在至少一个实施例中,3D/媒体子系统4415包括用于线程指令和数据的一个或更多个内部高速缓存。在至少一个实施例中,子系统4415还包括共享存储器,其包括寄存器和可寻址存储器,以在线程之间共享数据并存储输出数据。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,可以将推理和/或训练逻辑2315的部分或全部合并到处理器4400中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用3D管线4412中包括的一个或更多个ALU。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图23A或图23B所示的逻辑以外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器4400的ALU以执行一种或更多种机器学习算法、神经网络架构、用例或本文介绍的训练技术。
在至少一个实施例中,关于图44所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图44所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图44所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图44所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图44所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图44所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图44所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图45是根据至少一个实施例的图形处理器的图形处理引擎4510的框图。在至少一个实施例中,图形处理引擎(GPE)4510是图44中所示的GPE 4410的版本。在至少一个实施例中,媒体管线4516是可选的,并且可以不显式地包括在GPE 4510中。在至少一个实施例中,单独的媒体和/或图像处理器耦合到GPE 4510。
在至少一个实施例中,GPE 4510耦合到或包括命令流转化器4503,其向3D管线4512和/或媒体管线4516提供命令流。在至少一个实施例中,命令流转化器4503耦合到存储器,所述存储器可以是系统存储器,也可以是内部高速缓存存储器和共享高速缓存存储器中的一个或更多个。在至少一个实施例中,命令流转化器4503从存储器接收命令,并且将命令发送到3D管线4512和/或媒体管线4516。在至少一个实施例中,命令是从环形缓冲区中获取的指令、基元或微操作,该环形缓冲区存储用于3D管线4512和媒体管线4516的命令。在至少一个实施例中,环形缓冲区还可以包括存储各批多个命令的批命令缓冲区。在至少一个实施例中,用于3D管线4512的命令还可以包括对存储在存储器中的数据的引用,例如但不限于用于3D管线4512的顶点和几何数据和/或用于媒体管线4516的图像数据和存储器对象。在至少一个实施例中,3D管线4512和媒体管线4516通过执行操作或通过将一个或更多个执行线程分派到图形核心阵列4514,来处理命令和数据。在至少一个实施例中,图形核心阵列4514包括一个或更多个图形核心块(例如,一个或更多个图形核心4515A、一个或更多个图形核心4515B),每个块包括一个或更多个图形核心。在至少一个实施例中,每个图形核心包括一组图形执行资源,所述图形执行资源包括通用和图形特定的执行逻辑,用于执行图形和计算操作,以及固定功能纹理处理和/或机器学习和人工智能加速逻辑,包括图23A和图23B中的推理和/或训练逻辑2315。
在至少一个实施例中,3D管线4512包括固定功能和可编程逻辑,用于通过处理指令并将执行线程分派到图形核心阵列4514,来处理一个或更多个着色器程序,例如顶点着色器、几何着色器、像素着色器、片段着色器、计算着色器或其他着色器程序。在至少一个实施例中,图形核心阵列4514提供统一的执行资源块,所述执行资源块用于处理着色器程序。在至少一个实施例中,在图形核心阵列4514的图形核心4515A-4515B内的多用途执行逻辑(例如,执行单元)包括对各种3D API着色器语言的支持,并且可以执行与多个着色器关联的多个同时执行线程。
在至少一个实施例中,图形核心阵列4514还包括执行逻辑,用于执行媒体功能,诸如视频和/或图像处理。在至少一个实施例中,除了图形处理操作之外,执行单元还包括可编程以执行并行通用计算操作的通用逻辑。
在至少一个实施例中,输出数据可以将数据输出到统一返回缓冲区(URB)4518中的存储器,所述输出数据由在图形核心阵列4514上执行的线程生成。在至少一个实施例中,URB 4518可以存储多个线程的数据。在至少一个实施例中,URB 4518可以用于在图形核心阵列4514上执行的不同线程之间发送数据。在至少一个实施例中,URB 4518还可用于图形核心阵列4514上的线程与共享功能逻辑4520内的固定功能逻辑之间的同步。
在至少一个实施例中,图形核心阵列4514是可缩放的,使得图形核心阵列4514包括可变数量的图形核心,每个图形核心具有基于GPE 4510的目标功率和性能水平的可变数量的执行单元。在至少一个实施例中,执行资源是动态可伸缩的,使得执行资源可以根据需要被启用或禁用。
在至少一个实施例中,图形核心阵列4514耦合到共享功能逻辑4520,该共享功能逻辑包括在图形核心阵列4514中的图形核心之间共享的多个资源。在至少一个实施例中,由共享功能逻辑4520执行的共享功能体现在向图形核心阵列4514提供专门的补充功能的硬件逻辑单元中。在至少一个实施例中,共享功能逻辑4520包括但不限于采样器单元4521、数学单元4522和线程间通信(ITC)逻辑4523。在至少一个实施例中,一个或更多个高速缓存4525被包括在或耦合到共享功能逻辑4520中。
在至少一个实施例中,如果对专用功能的需求不足以包括在图形核心阵列4514中,则使用共享功能。在至少一个实施例中,专用功能的单个实例在共享功能逻辑4520中使用,并且在图形核心阵列4514内的其他执行资源之间共享。在至少一个实施例中,特定共享功能可以包括在图形核心阵列4514内的共享功能逻辑4526内,所述特定共享功能在图形核心阵列4514广泛使用的共享功能逻辑4520内。在至少一个实施例中,图形核心阵列4514内的共享功能逻辑4526可包括共享功能逻辑4520内的一些或全部逻辑。在至少一个实施例中,共享功能逻辑4520内的所有逻辑元件可在图形核心阵列4514的共享功能逻辑4526内复制。在至少一个实施例中,排除共享功能逻辑4520,以支持图形核心阵列4514内的共享功能逻辑4526。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,部分或全部推理和/或训练逻辑2315可以结合到图形处理器4510中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用一个或更多个ALU,所述ALU体现在3D管线4512、图形核心4515、共享功能逻辑4526、共享功能逻辑4520或图45中的其他逻辑中。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图23A或图23B所示的逻辑之外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器4510的ALU,以执行一种或更多种本文所述的机器学习算法、神经网络架构、用例或训练技术。
在至少一个实施例中,关于图45所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图45所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图45所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图45所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图45所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图45所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图45所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图46是根据本文所述的至少一个实施例的图形处理器核心4600的硬件逻辑的框图。在至少一个实施例中,图形处理器核心4600被包括在图形核心阵列内。在至少一个实施例中,图形处理器核心4600(有时称为核心切片)可以是模块化图形处理器内的一个或更多个图形核心。在至少一个实施例中,图形处理器核心4600是一个图形核心切片的示例,并且本文所述的图形处理器可以基于目标功率和性能包络线包括多个图形核心切片。在至少一个实施例中,每个图形核心4600可以包括与多个子核心4601A-4601F耦合的固定功能块4630,也称为子切片,其包括通用和固定功能逻辑的模块。
在至少一个实施例中,固定功能块4630包括几何和固定功能管线4636,例如,在较低性能和/或较低功率的图形处理器实施方式中,该几何和固定功能管线4636可以由图形处理器4600中的所有子核心共享。在至少一个实施例中,几何和固定功能管线4636包括3D固定功能管线、视频前端单元,线程产生器和线程分派器以及管理统一返回缓冲区的统一返回缓冲区管理器。
在固定的至少一个实施例中,固定功能块4630还包括图形SoC接口4637、图形微控制器4638和媒体管线4639。在至少一个实施例中,图形SoC接口4637提供了图形核心4600以及片上集成电路系统中的其他处理器核心之间的接口。在至少一个实施例中,图形微控制器4638是可编程子处理器,其可配置为管理图形处理器4600的各种功能,包括线程分派、调度和抢占。在至少一个实施例中,媒体管线4639包括有助于对包括图像和视频数据的多媒体数据进行解码、编码、预处理和/或后处理的逻辑。在至少一个实施例中,媒体管线4639经由对子核心4601-4601F内的计算或采样逻辑的请求来实现媒体操作。
在至少一个实施例中,SoC接口4637使图形核心4600能够与通用应用程序处理器核心(例如,CPU)和/或SoC内的其他组件通信,包括存储器层次结构元素,诸如共享的最后一级高速缓存、系统RAM和/或嵌入式片上或封装DRAM。在至少一个实施例中,SoC接口4637还可以使得能够与SoC内的固定功能设备(例如,摄像机成像管线)进行通信,并且使得能够使用和/或实现可以在图形核心4600和SoC内部的CPU之间共享的全局存储器原子。在至少一个实施例中,图形SoC接口4637还可以实现用于图形处理器核心4600的电源管理控制,并且启用图形处理器核心4600的时钟域与SoC内的其他时钟域之间的接口。在至少一个实施例中,SoC接口4637使得能够从命令流转化器和全局线程分派器接收命令缓冲区,其配置为向图形处理器内的一个或更多个图形核心中的每一个提供命令和指令。在至少一个实施例中,当要执行媒体操作时,可以将命令和指令分派给媒体管线4639,或者当要执行图形处理操作时,可以将其分配给几何形状和固定功能管线(例如,几何形状和固定功能管线4636,和/或几何形状和固定功能管线4614)。
在至少一个实施例中,图形微控制器4638可以配置为对图形核心4600执行各种调度和管理任务。在至少一个实施例中,图形微控制器4638可以在子核心4601A-4601F中的执行单元(EU)阵列4602A-4602F、4604A-4604F内的各种图形并行引擎上执行图形和/或计算工作负载调度。在至少一个实施例中,在包括图形核心4600的SoC的CPU核心上执行的主机软件可以提交多个图形处理器路径之一的工作负载,其调用适当的图形引擎上的调度操作。在至少一个实施例中,调度操作包括确定接下来要运行哪个工作负载、将工作负载提交给命令流转化器、抢先在引擎上运行的现有工作负载、监控工作负载的进度以及在工作负载完成时通知主机软件。在至少一个实施例中,图形微控制器4638还可以促进图形核心4600的低功率或空闲状态,从而为图形核心4600提供在图形核心4600内独立于操作系统和/或系统上的图形驱动程序软件的跨低功率状态转换的保存和恢复寄存器的能力。
在至少一个实施例中,图形核心4600可以具有比所示的子核心4601A-4601F多或少达N个模块化子核心。对于每组N个子核心,在至少一个实施例中,图形核心4600还可以包括共享功能逻辑4610、共享和/或高速缓存存储器4612、几何/固定功能管线4614以及附加的固定功能逻辑4616以加速各种图形和计算处理操作。在至少一个实施例中,共享功能逻辑4610可以包括可由图形核心4600内的每个N个子核心共享的逻辑单元(例如,采样器、数学和/或线程间通信逻辑)。在至少一个实施例中,共享和/或高速缓存存储器4612可以是图形核心4600内的N个子核心4601A-4601F的最后一级高速缓存,并且还可以用作可由多个子核心访问的共享存储器。在至少一个实施例中,可以包括几何/固定功能管线4614来代替固定功能块4630内的几何/固定功能管线4636,并且可以包括相似的逻辑单元。
在至少一个实施例中,图形核心4600包括附加的固定功能逻辑4616,其可以包括供图形核心4600使用的各种固定功能加速逻辑。在至少一个实施例中,附加的固定功能逻辑4616包括用于仅位置着色中使用的附加的几何管线。在仅位置着色中,存在至少两个几何管线,而在几何和固定功能管线4614、4636内的完整几何管线和剔除管线中,其是可以包括在附加的固定功能逻辑4616中的附加几何管线。在至少一个实施例中,剔除管线是完整几何管线的修整版。在至少一个实施例中,完整管线和剔除管线可以执行应用程序的不同实例,每个实例具有单独的环境。在至少一个实施例中,仅位置着色可以隐藏被丢弃的三角形的长剔除运行,从而在某些情况下可以更早地完成着色。例如,在至少一个实施例中,附加固定功能逻辑4616中的剔除管线逻辑可以与主应用程序并行执行位置着色器,并且通常比完整管线更快地生成关键结果,因为剔除管线获取并遮蔽顶点的位置属性,无需执行光栅化和将像素渲染到帧缓冲区。在至少一个实施例中,剔除管线可以使用生成的临界结果来计算所有三角形的可见性信息,而与这些三角形是否被剔除无关。在至少一个实施例中,完整管线(在这种情况下可以称为重播管线)可以消耗可见性信息来跳过剔除的三角形以仅遮盖最终传递到光栅化阶段的可见三角形。
在至少一个实施例中,附加的固定功能逻辑4616还可包括机器学习加速逻辑,例如固定功能矩阵乘法逻辑,用于实现包括用于机器学习训练或推理的优化。
在至少一个实施例中,在每个图形子核心4601A-4601F内包括一组执行资源,其可用于响应于图形管线、媒体管线或着色器程序的请求来执行图形、媒体和计算操作。在至少一个实施例中,图形子核心4601A-4601F包括多个EU阵列4602A-4602F、4604A-4604F,线程分派和线程间通信(TD/IC)逻辑4603A-4603F,3D(例如,纹理)采样器4605A-4605F,媒体采样器4606A-4606F,着色器处理器4607A-4607F和共享本地存储器(SLM)4608A-4608F。在至少一个实施例中,EU阵列4602A-4602F、4604A-4604F每个都包括多个执行单元,这些执行单元是通用图形处理单元,能够为图形、媒体或计算操作提供服务,执行浮点和整数/定点逻辑运算,包括图形、媒体或计算着色器程序。在至少一个实施例中,TD/IC逻辑4603A-4603F为子核心内的执行单元执行本地线程分派和线程控制操作,并促进在子核心的执行单元上执行的线程之间的通信。在至少一个实施例中,3D采样器4605A-4605F可以将与纹理或其他3D图形相关的数据读取到存储器中。在至少一个实施例中,3D采样器可以基于与给定纹理相关联的配置的采样状态和纹理格式来不同地读取纹理数据。在至少一个实施例中,媒体采样器4606A-4606F可以基于与媒体数据相关联的类型和格式来执行类似的读取操作。在至少一个实施例中,每个图形子核心4601A-4601F可以可替代地包括统一的3D和媒体采样器。在至少一个实施例中,在每个子核心4601A-4601F内的执行单元上执行的线程可以利用每个子核心内的共享本地存储器4608A-4608F,以使在线程组内执行的线程能够使用片上存储器的公共池来执行。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315的部分或全部可以被合并到图形处理器4600中。例如,在至少一个实施例中,本文描述的训练和/或推理技术可以使用在3D管线、图形微控制器4638、几何和固定功能管线4614和4636或图46中的其他逻辑中体现的一个或更多个ALU。此外,在至少一个实施例中,本文描述的推理和/或训练操作可以使用除图23A或图23B所示的逻辑以外的逻辑来完成。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置图形处理器4600的ALU以执行一种或更多种本文介绍的机器学习算法、神经网络架构、用例或训练技术。
在至少一个实施例中,关于图46所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图46所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图46所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图46所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图46所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图46所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图46所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图47A和图47B示出了根据至少一个实施例的包括图形处理器核心的处理元件的阵列的线程执行逻辑4700。图47A示出了至少一个实施例,其中使用了线程执行逻辑4700。图47B示出了根据至少一个实施例的图形执行单元4708的示例性内部细节。
如图47A中所示,在至少一个实施例中,线程执行逻辑4700包括着色器处理器4702、线程分派器4704、指令高速缓存4706、包括多个执行单元4707A-4707N和4708A-4708N的可缩放执行单元阵列、采样器4710、数据高速缓存4712和数据端口4714。在至少一个实施例中,可缩放执行单元阵列可以例如基于工作负载的计算要求,通过启用或禁用一个或更多个执行单元(例如,执行单元4708A-N或4707A-N中的任意一个)来动态缩放。在至少一个实施例中,可缩放执行单元通过链路到每个执行单元的互连结构互连。在至少一个实施例中,线程执行逻辑4700包括通过指令高速缓存4706、数据端口4714、采样器4710和执行单元4707或4708中的一个或更多个到存储器(诸如系统存储器或高速缓存存储器)的一个或更多个连接。在至少一个实施例中,每个执行单元(例如4707A)是独立的可编程通用计算单元,其能够执行多个同时的硬件线程,同时针对每个线程并行处理多个数据元素。在至少一个实施例中,执行单元4707和/或4708的阵列可缩放以包括任意数量的单独执行单元。
在至少一个实施例中,执行单元4707和/或4708主要用于执行着色器程序。在至少一个实施例中,着色器处理器4702可以处理各种着色器程序并经由线程分派器4704来分派与着色器程序相关联的执行线程。在至少一个实施例中,线程分派器4704包括用于仲裁来自图形和媒体管线的线程初始化庆祝以及在执行单元4707和/或4708中的一个或更多个执行单元上实例化请求的线程的逻辑。例如,在至少一个实施例中,几何管线可以将顶点、镶嵌或几何着色器分派到线程执行逻辑以进行处理。在至少一个实施例中,线程分派器4704还可以处理来自执行着色器程序的运行时线程产生请求。
在至少一个实施例中,执行单元4707和/或4708支持一种指令集,该指令集包括对许多标准3D图形着色器指令的本机支持,从而使图形库(例如Direct 3D和OpenGL)中的着色器程序只需最少的转换即可执行。在至少一个实施例中,执行单元支持顶点和几何处理(例如,顶点程序、几何程序、和/或顶点着色器)、像素处理(例如,像素着色器、片段着色器)和通用处理(例如,计算和媒体着色器)。在至少一个实施例中,每个执行单元4707和/或4708包括一个或更多个算术逻辑单元(ALU),能够执行多发出单指令多数据(SIMD),并且多线程操作实现了高效的执行环境尽管有更高的延迟存储器访问。在至少一个实施例中,每个执行单元内的每个硬件线程具有专用的高带宽寄存器文件和相关的独立线程状态。在至少一个实施例中,执行是每个时钟到管线的多次发出,管线能够进行整数、单精度和双精度浮点运算、SIMD分支功能、逻辑运算、先验运算和其他其他运算。在至少一个实施例中,在等待来自存储器或共享功能之一的数据时,执行单元4707和/或4708内的依赖性逻辑使等待线程休眠直到返回了所请求的数据。在至少一个实施例中,当等待线程正在休眠时,硬件资源可以专用于处理其他线程。例如,在至少一个实施例中,在与顶点着色器操作相关联的延迟期间,执行单元可以对像素着色器、片段着色器或另一类型的着色器程序(包括不同的顶点着色器)执行操作。
在至少一个实施例中,执行单元4707和/或4708中的每一个执行单元在数据元素的阵列上进行操作。在至少一个实施例中,多个数据元素是“执行大小”或指令的通道数。在至少一个实施例中,执行通道是用于指令内的数据元素访问、屏蔽和流控制的执行的逻辑单元。在至少一个实施例中,多个通道可以独立于用于特定图形处理器的多个物理算术逻辑单元(ALU)或浮点单元(FPU)。在至少一个实施例中,执行单元4707和/或4708支持整数和浮点数据类型。
在至少一个实施例中,执行单元指令集包括SIMD指令。在至少一个实施例中,各种数据元素可以作为封装数据类型存储在寄存器中,并且执行单元将基于那些元素的数据大小来处理各种元素。例如,在至少一个实施例中,当对256位宽的向量进行操作时,将向量的256位存储在寄存器中,并且执行单元对向量进行操作,作为四个单独的64位封装数据元素(四字(QW)大小数据元素)、八个单独的32位封装数据元素(双字(DW)大小数据元素)、十六个单独的16位封装数据元素(单词(W)大小数据元素)或三十二个单独的8位数据元素(字节(B)大小的数据元素)。然而,在至少一个实施例中,不同的向量宽度和寄存器大小是可能的。
在至少一个实施例中,一个或更多个执行单元可以被组合成具有执行对于融合EU的线程控制逻辑(4711A-4711N)的融合执行单元4709A-4709N,例如将执行单元4707A与执行单元4708A融合为融合执行单元4709A中。在至少一个实施例中,可以将多个EU合并成一个EU组。在至少一个实施例中,融合EU组中的EU的数量可以配置为执行单独的SIMD硬件线程,融合的EU组中的EU的数量可能根据各个实施例而变化。在至少一个实施例中,每个EU可以执行各种SIMD宽度,包括但不限于SIMD8、SIMD16和SIMD32。在至少一个实施例中,每个融合图形执行单元4709A-4709N包括至少两个执行单元。例如,在至少一个实施例中,融合执行单元4709A包括第一EU 4707A、第二EU 4708A以及第一EU 4707A和第二EU 4708A共有的线程控制逻辑4711A。在至少一个实施例中,线程控制逻辑4711A控制在融合图形执行单元4709A上执行的线程,从而允许融合执行单元4709A-4709N内的每个EU使用公共指令指针寄存器来执行。
在至少一个实施例中,一个或更多个内部指令高速缓存(例如4706)被包括在线程执行逻辑4700中以高速缓存用于执行单元的线程指令。在至少一个实施例中,包括一个或更多个数据高速缓存(例如4712)以在线程执行期间高速缓存线程数据。在至少一个实施例中,包括采样器4710以提供用于3D操作的纹理采样和用于媒体操作的媒体采样。在至少一个实施例中,采样器4710包括专门的纹理或媒体采样功能,以在将采样数据提供给执行单元之前在采样过程中处理纹理或媒体数据。
在执行期间,在至少一个实施例中,图形和媒体管线通过线程产生和分派逻辑将线程发起请求发送到线程执行逻辑4700。在至少一个实施例中,一旦一组几何对象已经被处理并光栅化成像素数据,则在着色器处理器4702内的像素处理器逻辑(例如,像素着色器逻辑、片段着色器逻辑等)被调用以进一步计算输出信息并且导致将结果写入输出表面(例如,颜色缓冲区、深度缓冲区、模板缓冲区等)。在至少一个实施例中,像素着色器或片段着色器计算要在光栅化对象上插值的各种顶点属性的值。在至少一个实施例中,着色器处理器4702内的像素处理器逻辑然后执行应用程序接口(API)提供的像素或片段着色器程序。在至少一个实施例中,为了执行着色器程序,着色器处理器4702经由线程分派器4704将线程分派到执行单元(例如4708A)。在至少一个实施例中,着色器处理器4702使用采样器4710中的纹理采样逻辑来访问存储在存储器中的纹理贴图中的纹理数据。在至少一个实施例中,对纹理数据和输入几何数据的算术运算为每个几何片段计算像素颜色数据,或者丢弃一个或更多个像素以进行进一步处理。
在至少一个实施例中,数据端口4714提供了一种用于线程执行逻辑4700的存储器访问机制,以将处理后的数据输出到存储器以在图形处理器输出管线上进行进一步处理。在至少一个实施例中,数据端口4714包括或耦合到一个或更多个高速缓存存储器(例如,数据高速缓存4712)以高速缓存数据以便经由数据端口进行存储器访问。
如图47B所示,在至少一个实施例中,图形执行单元4708可以包括指令获取单元4737、通用寄存器文件阵列(GRF)4724、架构寄存器文件阵列(ARF)4726、线程仲裁器4722、发送单元4730、分支单元4732、一组SIMD浮点单元(FPU)4734,以及一组专用整数SIMD ALU4735。在至少一个实施例中,GRF 4724和ARF 4726包括一组与可以在图形执行单元4708中活跃的每个同时硬件线程相关联的通用寄存器文件和架构寄存器文件。在至少一个实施例中,在ARF 4726中维护每个线程架构状态,而在线程执行期间使用的数据存储在GRF 4724中。在至少一个实施例中,每个线程的执行状态,包括每个线程的指令指针,可以被保存在ARF 4726中的线程专用寄存器中。
在至少一个实施例中,图形执行单元4708具有一种架构,该架构是同时多线程(SMT)和细粒度交错多线程(IMT)的组合。在至少一个实施例中,架构具有模块化配置,该模块化配置可以在设计时基于同时线程的目标数量和每个执行单元的寄存器数量来进行微调,其中执行单元资源在用于执行多个同时线程的逻辑上分配。
在至少一个实施例中,图形执行单元4708可以共同发布多个指令,每个指令可以是不同的指令。在至少一个实施例中,图形执行单元线程4708的线程仲裁器4722可以将指令分派到发送单元4730、分支单元4732或SIMD FPU 4734之一以供执行。在至少一个实施例中,每个执行线程可以访问GRF 4724中的128个通用寄存器,其中每个寄存器可以存储32个字节,可以作为32位数据元素的SIMD 8元素向量进行访问。在至少一个实施例中,每个执行单元线程可以访问GRF 4724中的4KB,尽管实施例不限于此,并且在其他实施例中可以提供更多或更少的寄存器资源。在至少一个实施例中,尽管每个执行单元的线程数量也可以根据实施例而变化,但是最多可以同时执行七个线程。在其中七个线程可以访问4KB的至少一个实施例中,GRF 4724可以存储总共28KB。在至少一个实施例中,灵活的寻址模式可以允许将寄存器一起寻址以有效地建立更宽的寄存器或表示跨步的矩形块数据结构。
在至少一个实施例中,经由由消息传递发送单元4730执行的“发送”指令来调度存储器操作、采样器操作和其他更长延迟的系统通信。在至少一个实施例中,将分支指令分派到分支单元4732促进SIMD发散和最终收敛。
在至少一个实施例中,图形执行单元4708包括一个或更多个SIMD浮点单元(FPU)4734,以执行浮点操作。在至少一个实施例中,一个或更多个FPU 4734还支持整数计算。在至少一个实施例中,一个或更多个FPU 4734可以SIMD执行多达M个32位浮点(或整数)运算,或者SIMD执行多达2M个16位整数或16位浮点运算。在至少一个实施例中,至少一个FPU提供扩展的数学能力以支持高吞吐量的先验数学函数和双精度64位浮点。在至少一个实施例中,还存在一组8位整数SIMD ALU 4735,并且可以被专门优化以执行与机器学习计算相关的操作。
在至少一个实施例中,可以在图形子核心分组(例如,子切片)中实例化图形执行单元4708的多个实例的阵列。在至少一个实施例中,执行单元4708可以跨多个执行通道执行指令。在至少一个实施例中,在图形执行单元4708上执行的每个线程在不同的通道上执行。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。下面结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,推理和/或训练逻辑2315的部分或全部可以被结合到线程执行逻辑4700中。此外,在至少一个实施例中,可以使用除了图23A或图23B中所示的逻辑之外的逻辑来完成在此描述的推理和/或训练操作。在至少一个实施例中,权重参数可以存储在片上或片外存储器和/或寄存器(示出或未示出)中,其配置线程执行逻辑4700的ALU以执行一种或更多种机器学习算法、神经网络架构、用例或本文介绍的训练技术。
在至少一个实施例中,关于图47A-47B所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图47A-47B所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图47A-47B所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图47A-47B所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图47A-47B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图47A-47B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图47A-47B所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图48示出了根据至少一个实施例的并行处理单元(“PPU”)4800。在至少一个实施例中,PPU 4800配置有机器可读代码,该机器可读代码如果由PPU 4800执行,则使得PPU4800执行贯穿本公开描述的一些或全部过程和技术。在至少一个实施例中,PPU 4800是在一个或更多个集成电路设备上实现的多线程处理器,并且利用多线程作为被设计为处理在多个线程上并行执行的计算机可读指令(也称为机器可读指令或简单的指令)的延迟隐藏技术。在至少一个实施例中,线程是指执行线程,并且是被配置为由PPU 4800执行的一组指令的实例。在至少一个实施例中,PPU 4800是图形处理单元(“GPU”),图形处理单元配置为实现用于处理三维(“3D”)图形数据的图形渲染管线,以便生成用于在显示设备(诸如液晶显示器(“LCD”)设备)上显示的二维(“2D”)图像数据。在至少一个实施例中,PPU 4800用于执行计算,诸如线性代数运算和机器学习运算。在至少一个实施例中,图48仅出于说明性目的示出了示例并行处理器,并且应被解释为在本公开的范围内设想的处理器架构的非限制性示例,并且可以采用任何适当的处理器来对其进行补充和/或替代。
在至少一个实施例中,一个或更多个PPU 4800配置成加速高性能计算(“HPC”)、数据中心和机器学习应用程序。在至少一个实施例中,PPU 4800配置成加速深度学习系统和应用程序,包括以下非限制性示例:自动驾驶汽车平台、深度学习、高精度语音、图像、文本识别系统、智能视频分析、分子模拟、药物发现、疾病诊断、天气预报、大数据分析、天文学、分子动力学模拟、财务建模、机器人技术、工厂自动化、实时语言翻译、在线搜索优化以及个性化用户推荐等。
在至少一个实施例中,PPU 4800包括但不限于输入/输出(“I/O”)单元4806、前端单元4810、调度器单元4812、工作分配单元4814、集线器4816、交叉开关(“Xbar”)4820、一个或更多个通用处理集群(“GPC”)4818和一个或更多个分区单元(“存储器分区单元”)4822。在至少一个实施例中,PPU 4800通过一个或更多个高速GPU互连(“GPU互连”)4808连接到主机处理器或其他PPU 4800。在至少一个实施例中,PPU 4800通过系统总线4802连接到主机处理器或其他外围设备。在一个实施例中,PPU 4800连接到包括一个或更多个存储器设备(“存储器”)4804的本地存储器。在至少一个实施例中,存储器设备4804包括但不限于一个或更多个动态随机存取存储器(“DRAM”)设备。在至少一个实施例中,一个或更多个DRAM设备配置和/或可配置为高带宽存储器(“HBM”)子系统,并且在每个设备内堆叠有多个DRAM管芯。
在至少一个实施例中,高速GPU互连4808可以指代系统使用其来进行缩放的基于线的多通道通信链路,并包括与一个或更多个中央处理单元结合的一个或更多个PPU 4800(“CPU”),支持PPU 4800和CPU之间的缓存相干以及CPU主控。在至少一个实施例中,高速GPU互连4808通过集线器4816将数据和/或命令传输到PPU 4800的其他单元,例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元和/或在图48中可能未明确示出的其他组件。
在至少一个实施例中,I/O单元4806配置为通过系统总线4802从主机处理器(图48中未示出)发送和接收通信(例如,命令、数据)。在至少一个实施例中,I/O单元4806直接通过系统总线4802或通过一个或更多个中间设备(例如存储器桥)与主机处理器通信。在至少一个实施例中,I/O单元4806可以经由系统总线4802与一个或更多个其他处理器(例如一个或更多个PPU 4800)通信。在至少一个实施例中,I/O单元4806实现外围组件互连Express(“PCIe”)接口,用于通过PCIe总线进行通信。在至少一个实施例中,I/O单元4806实现用于与外部设备通信的接口。
在至少一个实施例中,I/O单元4806对经由系统总线4802接收的分组进行解码。在至少一个实施例中,至少一些分组表示被配置为使PPU 4800执行各种操作的命令。在至少一个实施例中,I/O单元4806如命令所指定的那样将解码的命令发送到PPU 4800的各种其他单元。在至少一个实施例中,命令被发送到前端单元4810和/或被发送到集线器4816或PPU 4800的其他单元,例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(图48中未明确示出)。在至少一个实施例中,I/O单元4806配置为在PPU 4800的各种逻辑单元之间路由通信。
在至少一个实施例中,由主机处理器执行的程序在缓冲区中对命令流进行编码,该缓冲区将工作负载提供给PPU 4800以进行处理。在至少一个实施例中,工作负载包括指令和要由那些指令处理的数据。在至少一个实施例中,缓冲区是可由主机处理器和PPU4800两者访问(例如,读/写)的存储器中的区域—主机接口单元可以配置为访问经由I/O单元4806通过系统总线4802传输的存储器请求连接到系统总线4802的系统存储器中的缓冲区。在至少一个实施例中,主机处理器将命令流写入缓冲区,然后将指示命令流开始的指针发送给PPU 4800,使得前端单元4810接收指向一个或更多个命令流指针并管理一个或更多个命令流,从命令流中读取命令并将命令转发到PPU 4800的各个单元。
在至少一个实施例中,前端单元4810耦合到调度器单元4812,该调度器单元4812配置各种GPC 4818以处理由一个或更多个命令流定义的任务。在至少一个实施例中,调度器单元4812配置为追踪与调度器单元4812管理的各种任务有关的状态信息,其中状态信息可以指示任务被分配给哪个GPC 4818,任务是活跃的还是非活跃的,与任务相关联的优先级等等。在至少一个实施例中,调度器单元4812管理在一个或更多个GPC 4818上执行的多个任务。
在至少一个实施例中,调度器单元4812耦合到工作分配单元4814,该工作分配单元4814配置为分派任务以在GPC 4818上执行。在至少一个实施例中,工作分配单元4814追踪从调度器单元4812接收到的多个调度任务并且工作分配单元4814管理每个GPC 4818的待处理任务池和活跃任务池。在至少一个实施例中,待处理任务池包括多个时隙(例如32个时隙),这些时隙包括分配给要由特定的GPC 4818处理的任务;活跃任务池可包括用于由GPC 4818主动处理的任务的多个时隙(例如4个时隙),以使随着GPC 4818中的一个完成任务的执行,该任务将从GPC 4818的活动任务池中逐出,并且从待处理任务池中选择另一个任务,并布置其在GPC 4818上执行。在至少一个实施例中,如果活跃任务在GPC 4818上处于空闲状态,例如在等待数据依赖性解决时,则活跃任务从GPC 4818中驱逐并返回到待处理任务池,同时选择了待处理任务池中的另一个任务并调度在GPC 4818上执行。
在至少一个实施例中,工作分配单元4814经由XBar 4820与一个或更多个GPC4818通信。在至少一个实施例中,XBar 4820是互连网络,其将PPU 4800的许多单元耦合到PPU 4800的其他单元,并且可以配置为将工作分配单元4814耦合到特定的GPC 4818。在至少一个实施例中,一个或更多个PPU 4800的其他单元也可以通过集线器4816连接到XBar4820。
在至少一个实施例中,任务由调度器单元4812管理,并由工作分配单元4814分配给GPC 4818之一。在至少一个实施例中,GPC 4818配置为处理任务并产生结果。在至少一个实施例中,结果可以由GPC 4818中的其他任务消耗,通过XBar 4820路由到不同的GPC 4818或存储在存储器4804中。在至少一个实施例中,结果可以通过分区单元4822写到存储器4804中,其实现了用于向存储器4804写入数据或从存储器4804读取数据的存储器接口。在至少一个实施例中,结果可以经由高速GPU互连4808传输到另一PPU 4800或CPU。在至少一个实施例中,PPU 4800包括但不限于U个分区单元4822,其等于耦合到PPU 4800的分离且不同的存储器设备4804的数量,本文结合图50更详细地描述。
在至少一个实施例中,主机处理器执行驱动器核心,该驱动程序核心实现应用程序编程接口(API),该应用程序编程接口使在主机处理器上执行的一个或更多个应用程序能够调度操作以在PPU 4800上执行。在一个实施例中,多个计算应用程序由PPU 4800同时执行,并且PPU 4800为多个计算应用程序提供隔离、服务质量(“QoS”)和独立的地址空间。在至少一个实施例中,应用程序生成指令(例如,以API调用的形式),该指令使驱动器核心生成一个或更多个任务以供PPU 4800执行,并且驱动器核心将任务输出至由PPU 4800处理的一个或更多个流。在至少一个实施例中,每个任务包括一个或更多个相关线程组,其可以被称为线程束(warp)。在至少一个实施例中,线程束包括可以并行执行的多个相关线程(例如32个线程)。在至少一个实施例中,协作线程可以指代多个线程,包括用于执行任务并且通过共享存储器交换数据的指令,结合图50根据至少一个实施例更详细地描述了线程和协作线程。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(诸如神经网络),以预测或推理提供给PPU 4800的信息。在至少一个实施例中,PPU 4800用于基于已由另一处理器或系统或PPU 4800训练过的训练过的机器学习模型(例如,神经网络)推理或预测信息。在至少一个实施例中,PPU 4800可用于执行本文所述的一个或更多个神经网络用例。
在至少一个实施例中,关于图48所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图48所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图48所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图48所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图48所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图48所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图48所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图49示出了根据至少一个实施例的通用处理集群(“GPC”)4900。在至少一个实施例中,GPC 4900是图48的GPC 4818。在至少一个实施例中,每个GPC 4900包括但不限于用于处理任务的多个硬件单元,并且每个GPC 4900包括但不限于管线管理器4902、预光栅操作单元(“preROP”)4904、光栅引擎4908、工作分配交叉开关(“WDX”)4916、存储器管理单元(“MMU”)4918、一个或更多个数据处理集群(“DPC”)4906,以及部件的任何合适组合。
在至少一个实施例中,GPC 4900的操作由管线管理器4902控制。在至少一个实施例中,管线管理器4902管理一个或更多个DPC 4906的配置,以处理分配给GPC 4900的任务。在至少一个实施例中,管线管理器4902配置一个或更多个DPC 4906中的至少一个以实现图形渲染管线的至少一部分。在至少一个实施例中,DPC 4906配置为在可编程流式多处理器(“SM”)4914上执行顶点着色器程序。在至少一个实施例中,管线管理器4902配置为将从工作分配单元接收的数据包路由到GPC 4900内的适当逻辑单元,以及在至少一个实施例中,可以将一些数据包路由到preROP 4904和/或光栅引擎4908中的固定功能硬件单元,而可以将其他数据包路由到DPC 4906以由原始引擎4912或SM 4914进行处理。在至少一个实施例中,管线管理器4902配置DPC 4906中的至少一个以实现神经网络模型和/或计算管线。
在至少一个实施例中,preROP单元4904配置为在至少一个实施例中将由光栅引擎4908和DPC 4906生成的数据路由到分区单元4822中的光栅操作(“ROP”)单元,上面结合图48更详细地描述。在至少一个实施例中,preROP单元4904配置为执行用于颜色混合的优化、组织像素数据、执行地址转换等等。在至少一个实施例中,光栅引擎4908包括但不限于配置为执行各种光栅操作的多个固定功能硬件单元,并且在至少一个实施例中,光栅引擎4908包括但不限于设置引擎、粗光栅引擎、剔除引擎、裁剪引擎、精细光栅引擎、图块聚合引擎及其任意合适的组合。在至少一个实施例中,设置引擎接收变换后的顶点并生成与由顶点定义的几何图元相关联的平面方程;平面方程式被传送到粗光栅引擎以生成基本图元的覆盖信息(例如,图块的x、y覆盖范围掩模);粗光栅引擎的输出将传输到剔除引擎,在剔除引擎中与z测试失败的图元相关联的片段将被剔除,并传输到剪切引擎,在剪切引擎中剪切位于视锥范围之外的片段。在至少一个实施例中,将经过裁剪和剔除的片段传递给精细光栅引擎,以基于设置引擎生成的平面方程式生成像素片段的属性。在至少一个实施例中,光栅引擎4908的输出包括将由任何适当的实体(例如,由在DPC 4906内实现的片段着色器)处理的片段。
在至少一个实施例中,包括在GPC 4900中的每个DPC 4906包括但不限于M管线控制器(“MPC”)4910;图元引擎4912;一个或更多个SM 4914;及其任何合适的组合。在至少一个实施例中,MPC 4910控制DPC 4906的操作,将从管线管理器4902接收的分组路由到DPC4906中的适当单元。在至少一个实施例中,将与顶点相关联的分组路由到图元引擎4912,图元引擎4912配置为从存储器中获取与顶点关联的顶点属性;相反,可以将与着色器程序相关联的数据包发送到SM 4914。
在至少一个实施例中,SM 4914包括但不限于可编程流式处理器,其配置为处理由多个线程表示的任务。在至少一个实施例中,SM 4914是多线程的并且配置为同时执行来自特定线程组的多个线程(例如32个线程),并且实现单指令、多数据(“SIMD”)架构,其中将一组线程(例如,线程束)中的每个线程配置为基于相同的指令集来处理不同的数据集。在至少一个实施例中,线程组中的所有线程执行通用指令集。在至少一个实施例中,SM 4914实施单指令、多线程(“SIMT”)架构,其中一组线程中的每个线程配置为基于通用指令集来处理不同的数据集,但是其中线程组中的各个线程允许在执行期间发散。在至少一个实施例中,为每个线程束维护程序计数器、调用栈和执行状态,从而当线程束中的线程发散时,实现线程束和线程束内的串行执行之间的并发性。在另一个实施例中,为每个单独的线程维护程序计数器、调用栈和执行状态,从而使得在线程束内和线程束之间的所有线程之间具有相等的并发性。在至少一个实施例中,为每个单独的线程维持执行状态,并且可以收敛并并行地执行执行通用指令的线程以提高效率。本文更详细地描述SM 4914的至少一个实施例。
在至少一个实施例中,MMU 4918在GPC 4900和存储器分区单元(例如,图48的分区单元4822)之间提供接口,并且MMU 4918提供虚拟地址到物理地址的转换、存储器保护以及存储器请求的仲裁。在至少一个实施例中,MMU 4918提供一个或更多个转换后备缓冲区(“TLB”),用于执行虚拟地址到存储器中的物理地址的转换。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(诸如神经网络),以预测或推理提供给GPC 4900的信息。在至少一个实施例中,GPC 4900用于基于已由另一处理器或系统或GPC 4900训练过的机器学习模型(例如,神经网络)推理或预测信息。在至少一个实施例中,GPC 4900可用于执行本文所述的一个或更多个神经网络用例。
在至少一个实施例中,关于图49所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图49所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图49所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图49所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图49所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图49所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图49所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图50示出了根据至少一个实施例的并行处理单元(“PPU”)的存储器分区单元5000。在至少一个实施例中,存储器分区单元5000包括但不限于光栅操作(“ROP”)单元5002;二级(“L2”)高速缓存5004;存储器接口5006;及其任何合适的组合。在至少一个实施例中,存储器接口5006耦合到存储器。在至少一个实施例中,存储器接口5006可以实现32、64、128、1024位数据总线,或者类似的实现方式用于高速数据传输。在至少一个实施例中,PPU包括U个存储器接口5006,其中U是正整数,每对分区单元5000一个存储器接口5006,其中每对分区单元5000连接到对应的存储器设备。例如,在至少一个实施例中,PPU可以连接至多达Y个存储器设备,例如高带宽存储器堆栈或图形双数据速率版本5同步动态随机存取存储器(“GDDR5 SDRAM”)。
在至少一个实施例中,存储器接口5006实现高带宽存储器第二代(“HBM2”)存储器接口,并且Y等于U的一半。在至少一个实施例中,HBM2存储器堆栈与PPU一起位于物理封装上,与传统的GDDR5 SDRAM系统相比,可提供大量功率并节省面积。在至少一个实施例中,每个HBM2堆栈包括但不限于四个存储器管芯,且Y=4,每个HBM2堆栈包括每个管芯两个128位通道,用于总共8个通道和1024位的数据总线宽度。在至少一个实施例中,存储器支持单纠错双检错(“SECDED”)纠错码(“ECC”)以保护数据。在至少一个实施例中,ECC可以为对数据损坏敏感的计算应用程序提供更高的可靠性。
在至少一个实施例中,PPU实现了多级存储器层次结构。在至少一个实施例中,存储器分区单元5000支持统一存储器以为中央处理单元(“CPU”)和PPU存储器提供单个统一虚拟地址空间,从而实现虚拟存储器系统之间的数据共享。在至少一个实施例中,追踪PPU对位于其他处理器上的存储器的访问频率,以确保将存储器页面移动到更频繁地访问页面的PPU的物理存储器。在至少一个实施例中,高速GPU互连4808支持地址转换服务,其允许PPU直接访问CPU的页表,并通过PPU提供对CPU存储器的完全访问。
在至少一个实施例中,复制引擎在多个PPU之间或PPU与CPU之间传输数据。在至少一个实施例中,复制引擎可以为未被映射到页表中的地址生成页面错误,并且存储器分区单元5000然后为页面错误提供服务,将地址映射到页表中,之后复制引擎执行传输。在至少一个实施例中,为多个处理器之间的多个复制引擎操作固定(即不可分页)存储器,从而实质上减少了可用存储器。在至少一个实施例中,在硬件页面故障的情况下,可以将地址传递给复制引擎,而无需考虑是否驻留存储器页,并且复制过程是透明的。
根据至少一个实施例,来自图48的存储器4804或其他系统存储器的数据由存储器分区单元5000获取,并将其存储在L2高速缓存5004中,L2高速缓存5004位于芯片上并且在各种GPC之间共享。在至少一个实施例中,每个存储器分区单元5000包括但不限于与对应的存储器设备相关联的L2高速缓存的至少一部分。在至少一个实施例中,在GPC内的各个单元中实现较低级别的高速缓存。在至少一个实施例中,图49的每个SM 4914可以实现一级(“L1”)高速缓存,其中L1高速缓存是专用于特定SM 4914的私有存储器,并且从L2高速缓存5004中获取数据并将其存储在每个L1高速缓存中,用于在SM 4914的功能单元中进行处理。在至少一个实施例中,L2高速缓存5004耦合到存储器接口5006和图48所示的XBar4820。
在至少一个实施例中,ROP单元5002执行与像素颜色有关的图形光栅操作,诸如颜色压缩、像素混合等。在至少一个实施例中,ROP单元5002结合光栅引擎4908实施深度测试,从光栅引擎4908的剔除引擎接收与像素片段相关联的样本位置的深度。在至少一个实施例中,针对在与片段关联的样本位置的深度缓冲区中的相应深度测试深度。在至少一个实施例中,如果该片段通过了针对该样本位置的该深度测试,则ROP单元5002更新深度缓冲区,并将该深度测试的结果发送给光栅引擎4908。将意识到,分区单元5000的数量可以不同于GPC的数量,因此,可以在至少一个实施例中将每个ROP单元5002耦合到每个GPC。在至少一个实施例中,ROP单元5002追踪从不同GPC接收到的分组,并且确定ROP单元5002生成的结果是否要通过XBar 4820路由到。
在至少一个实施例中,关于图50所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图50所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图50所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图50所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图50所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图50所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图50所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图51示出了根据至少一个实施例的流式多处理器(“SM”)5100。在至少一个实施例中,SM 5100是图49的SM。在至少一个实施例中,SM 5100包括但不限于指令高速缓存5102;一个或更多个调度器单元5104;寄存器文件5108;一个或更多个处理核心(“核心”)5110;一个或更多个特殊功能单元(“SFU”)5112;一个或更多个加载/存储单元(“LSU”)5114;互连网络5116;共享存储器/一级(“L1”)高速缓存5118;和/或其任何合适的组合。
在至少一个实施例中,工作分配单元调度任务以在并行处理单元(“PPU”)的通用处理集群(“GPC”)上执行,并且每个任务被分配给GPC内部的特定数据处理集群(“DPC”),并且如果任务与着色器程序相关联,则将该任务分配给SM 5100之一。在至少一个实施例中,调度器单元5104从工作分配单元接收任务并管理分配给SM 5100的一个或更多个线程块的指令调度。在至少一个实施例中,调度器单元5104调度线程块以作为并行线程的线程束来执行,其中,每个线程块被分配至少一个线程束。在至少一个实施例中,每个线程束执行线程。在至少一个实施例中,调度器单元5104管理多个不同的线程块,将线程束分配给不同的线程块,然后在每个时钟周期内将来自多个不同的协作组的指令分派给各种功能单元(例如,处理核心5110、SFU 5112和LSU 5114)。
在至少一个实施例中,协作组可以指用于组织通信线程组的编程模型,其允许开发者表达线程正在通信的粒度,从而能够表达更丰富、更有效的并行分解。在至少一个实施例中,协作启动API支持线程块之间的同步以执行并行算法。在至少一个实施例中,常规编程模型的应用程序提供了用于同步协作线程的单一、简单的构造:跨线程块的所有线程的屏障(例如,syncthreads()函数)。但是,在至少一个实施例中,程序员可以在小于线程块粒度的情形下来定义线程组,并在所定义的组内进行同步,以实现更高的性能、设计灵活性以及以集合组范围功能接口的形式实现软件重用。在至少一个实施例中,协作组使程序员能够以子块(即,小到单个线程)和多块粒度明确定义线程组,并执行集合操作,例如对协作组中的线程进行同步。在至少一个实施例中,该编程模型支持跨软件边界的干净组合,从而库和实用程序功能可以在其本地环境中安全地同步,而不必进行关于收敛的假设。在至少一个实施例中,协作组图元使协作并行的新模式成为可能,包括但不限于生产者-消费者并行,机会主义并行以及整个线程块网格上的全局同步。
在至少一个实施例中,调度单元5106配置为将指令发送到功能单元中的一个或更多个,并且调度器单元5104并包括但不限于两个调度单元5106,该两个调度单元5106使得来自共同线程束的两个不同指令能够在每个时钟周期被调度。在至少一个实施例中,每个调度器单元5104包括单个调度单元5106或附加调度单元5106。
在至少一个实施例中,每个SM 5100在至少一个实施例中包括但不限于寄存器文件5108,该寄存器文件5108为SM 5100的功能单元提供了一组寄存器。在至少一个实施例中,寄存器文件5108在每个功能单元之间划分,从而为每个功能单元分配寄存器文件5108的专用部分。在至少一个实施例中,寄存器文件5108在由SM 5100执行的不同线程束之间划分,并且寄存器文件5108为连接到功能单元的数据路径的操作数提供临时存储。在至少一个实施例中,每个SM 5100包括但不限于多个L个处理核心5110,其中L是正整数。在至少一个实施例中,SM 5100包括但不限于大量(例如128个或更多)不同的处理核心5110。在至少一个实施例中,每个处理核心5110包括但不限于全管线、单精度、双精度和/或混合精度处理单元,其包括但不限于浮点算术逻辑单元和整数算术逻辑单元。在至少一个实施例中,浮点算术逻辑单元实现用于浮点算术的IEEE 754-2008标准。在至少一个实施例中,处理核心5110包括但不限于64个单精度(32位)浮点核心、64个整数核心、32个双精度(64位)浮点核心和8个张量核心。
根据至少一个实施例,张量核心配置为执行矩阵运算。在至少一个实施例中,一个或更多个张量核心包括在处理核心5110中。在至少一个实施例中,张量核心配置为执行深度学习矩阵算术,例如用于神经网络训练和推理的卷积运算。在至少一个实施例中,每个张量核心在4×4矩阵上操作并且执行矩阵乘法和累加运算D=A×B+C,其中A、B、C和D是4×4矩阵。
在至少一个实施例中,矩阵乘法输入A和B是16位浮点矩阵,并且累加矩阵C和D是16位浮点或32位浮点矩阵。在至少一个实施例中,张量核心对16位浮点输入数据进行32位浮点累加运算。在至少一个实施例中,16位浮点乘法使用64个运算,并得到全精度乘积,然后使用32位浮点加法与其他中间乘积累加起来,以进行4x4x4矩阵乘法。在至少一个实施例中,张量核心用于执行由这些较小元件构成的更大的二维或更高维度的矩阵运算。在至少一个实施例中,API(诸如CUDA 9C++API)公开专门的矩阵加载、矩阵乘法和累加以及矩阵存储操作,以有效地使用来自CUDA-C++程序的张量核心。在至少一个实施例中,在CUDA级别,线程束级别接口假定跨越所有32个线程束线程的16×16大小的矩阵。
在至少一个实施例中,每个SM 5100包括但不限于执行特殊功能(例如,属性评估、倒数平方根等)的M个SFU 5112。在至少一个实施例中,SFU 5112包括但不限于配置为遍历分层树数据结构的树遍历单元。在至少一个实施例中,SFU 5112包括但不限于配置为执行纹理映射过滤操作的纹理单元。在至少一个实施例中,纹理单元配置为从存储器中加载纹理映射(例如,纹理像素的2D阵列)和采样纹理映射,以产生采样的纹理值以供由SM 5100执行的着色器程序使用。在至少一个实施例中,将纹理映射存储在共享存储器/L1高速缓存5118中。在至少一个实施例中,根据至少一个实施例,纹理单元使用mip映射(mip-maps)(例如,细节级别不同的纹理映射)来实现纹理操作(诸如过滤操作)。在至少一个实施例中,每个SM 5100包括但不限于两个纹理单元。
在至少一个实施例中,每个SM 5100包括但不限于实现共享存储器/L1高速缓存5118与寄存器文件5108之间的加载和存储操作的N个LSU 5114。在至少一个实施例中,互连网络5116将每个功能单元连接到寄存器文件5108,并且LSU 5114连接到寄存器文件5108和共享存储器/L1高速缓存5118。在至少一个实施例中,互连网络5116是交叉开关,其可以配置为将任何功能单元连接到寄存器文件5108中的任何寄存器,并且将LSU 5114连接到寄存器文件5108和共享存储器/L1高速缓存5118中的存储器位置。
在至少一个实施例中,共享存储器/L1高速缓存5118是片上存储器的阵列,其在至少一个实施例中允许SM 5100与图元引擎之间以及SM 5100中的线程之间的数据存储和通信。在至少一个实施例中,共享存储器/L1高速缓存5118包括但不限于128KB的存储容量,并且位于从SM 5100到分区单元的路径中。在至少一个实施例中,共享存储器/L1高速缓存5118在至少一个实施例中用于高速缓存读取和写入。在至少一个实施例中,共享存储器/L1高速缓存5118、L2高速缓存和存储器中的一个或更多个是后备存储。
在至少一个实施例中,将数据高速缓存和共享存储器功能组合到单个存储器块中,为两种类型的存储器访问提供了改进的性能。在至少一个实施例中,容量由不使用共享存储器的程序使用或将其用作高速缓存,例如如果共享存储器配置为使用一半容量,并且纹理和加载/存储操作可以使用剩余容量。根据至少一个实施例,在共享存储器/L1高速缓存5118内的集成使共享存储器/L1高速缓存5118能够用作用于流传输数据的高吞吐量管线,同时提供对频繁重用的数据的高带宽和低延迟访问。在至少一个实施例中,当配置用于通用并行计算时,与图形处理相比,可以使用更简单的配置。在至少一个实施例中,绕过固定功能图形处理单元,从而创建了更加简单的编程模型。在至少一个实施例中,在通用并行计算配置中,工作分配单元直接将线程的块分配和分布给DPC。在至少一个实施例中,块中的线程执行通用程序,在计算中使用唯一的线程ID以确保每个线程生成唯一的结果,使用SM 5100执行程序并执行计算,使用共享存储器/L1高速缓存5118在线程之间进行通信,以及使用LSU 5114通过共享存储器/L1高速缓存5118和存储器分区单元来读写全局存储器。在至少一个实施例中,当被配置用于通用并行计算时,SM 5100向调度器单元5104写入可以用来在DPC上启动新工作的命令。
在至少一个实施例中,PPU被包括在台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如,无线、手持设备)、个人数字助理(“PDA”)、数码摄像机、车辆、头戴式显示器、手持式电子设备等中或与之耦合。在至少一个实施例中,PPU被实现在单个半导体衬底上。在至少一个实施例中,PPU与一个或更多个其他设备(例如附加的PPU、存储器、精简指令集计算机(“RISC”)CPU,一个或更多个存储器管理单元(“MMU”)、数模转换器(“DAC”)等)一起被包括在片上系统(“SoC”)中。
在至少一个实施例中,PPU可以被包括在包括一个或更多个存储设备的图形卡上。在至少一个实施例中,该图形卡可以配置为与台式计算机主板上的PCIe插槽相连接。在至少一个实施例中,该PPU可以是包括在主板的芯片组中的集成图形处理单元(“iGPU”)。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。在至少一个实施例中,深度学习应用程序处理器用于训练机器学习模型(诸如神经网络),以预测或推理提供给SM 5100的信息。在至少一个实施例中,SM 5100用于基于已由另一处理器或系统或由SM 5100训练过的机器学习模型(例如,神经网络)推理或预测信息。在至少一个实施例中,SM 5100可用于执行一个或更多个本文所述的神经网络用例。
在至少一个实施例中,关于图51所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图51所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图51所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图51所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图51所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图51所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图51所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
计算平台
公开了实施例,其涉及用于高级计算的虚拟化计算平台,诸如医疗应用程序中的图像推理和图像处理。实施例可可以包括但不限于射线照相、磁共振成像(MRI)、核医学、超声、超声检查、弹性成像、光声成像、断层扫描、超声心动图、功能近红外光谱和磁粒子成像,或其组合。在至少一个实施例中,本文所述的虚拟化计算平台和相关过程可以附加地或替代地用于但不限于法医科学分析、地下探测和成像(例如,石油勘探、考古学、古生物学等)、地形学、海洋学、地质学、骨学、气象学、智能区域或目标追踪和监测、传感器数据处理(如雷达、声呐、激光雷达等)和/或基因组学和基因测序。
参考图52,图52是根据至少一个实施例的用于生成和部署图像处理和推理管线的过程5200的示例数据流图。在至少一个实施例中,过程5200可以被部署用于成像设备、处理设备、基因组学设备、基因测序设备、放射设备和/或一个或更多个设施5202处的其他设备类型,该设施例如医疗设施、医院、医疗机构、诊所、研究或诊断实验室等。在至少一个实施例中,过程5200可以被部署为对测序数据进行基因组分析和推理。可以使用本文所述的系统和过程来执行基因组分析的示例,所述基因组分析的实例包括但不限于识别变体、突变检测和基因表达量化。
在至少一个实施例中,过程5200可以在训练系统5204和/或部署系统5206内执行。在至少一个实施例中,训练系统5204可以用于执行机器学习模型(例如,神经网络、对象检测算法、计算机视觉算法等)的训练、部署和实现,以用于部署系统5206。在至少一个实施例中,部署系统5206可以被配置为在分布式计算环境中卸载处理和计算资源,以减少设施5202的基础设施需求。在至少一个实施例中,部署系统5206可以提供管线平台用于选择、定制和实现虚拟仪器,以在设施5202处与成像设备(如MRI、CT扫描、X射线、超声波等)或测序设备一起使用。在至少一个实施例中,虚拟仪器可以包括用于针对由成像设备、测序设备、放射线设备和/或其他设备类型生成的成像数据执行一个或更多个处理操作的软件定义的应用程序。在至少一个实施例中,管线中的一个或更多个应用程序在应用程序执行期间,可以使用或调用部署系统5206的服务(例如,推理、可视化、计算、AI等)。
在至少一个实施例中,在高级处理和推理管线中使用的一些应用程序可以使用机器学习模型或其他AI来执行一个或更多个处理步骤。在至少一个实施例中,可以使用在设施5202处生成(并存储在设施5202处的一个或更多个图片存档和通信系统(PACS)服务器上)的数据5208(例如成像数据)在设施5202处训练机器学习模型,可以使用来自另一个或更多个设施(例如,不同的医院、实验室、诊所等)的成像或测序数据5208来训练机器学习模型,或其组合。在至少一个实施例中,训练系统5204可以用于提供应用程序、服务和/或其他资源,以生成用于部署系统5206的工作的、可部署的机器学习模型。
在至少一个实施例中,模型注册表5224可以由对象存储支持,该对象存储可以支持版本控制和对象元数据。在至少一个实施例中,可以从云平台内通过例如云存储(例如,图53的云5326)兼容的应用程序编程接口(API)来访问对象存储。在至少一个实施例中,模型注册表5224内的机器学习模型可以由与API交互的系统的开发者或合作伙伴上传、列出、修改或删除。在至少一个实施例中,API可以提供对方法的访问,所述方法允许具有适当凭证的用户将模型与应用程序相关联,使得模型可以作为应用程序的容器化实例化的执行的一部分来执行。
在至少一个实施例中,训练管线5304(图53)可以包括以下情形:其中设施5202正在训练他们自己的机器学习模型,或者具有需要优化或更新的现有机器学习模型。在至少一个实施例中,可以接收由成像设备、测序设备和/或其他类型设备生成的成像数据5208。在至少一个实施例中,一旦接收到成像数据5208,AI辅助注释5210就可以用于帮助生成与成像数据5208相对应的注释,以用作机器学习模型的地面实况数据。在至少一个实施例中,AI辅助注释5210可以包括一个或更多个机器学习模型(例如,卷积神经网络(CNN)),可以对该机器学习模型进行训练,以生成对应于某些类型的成像数据5208(例如,来自某些设备)的注释,和/或成像数据5208中某些类型的异常。在至少一个实施例中,然后AI辅助注释5210可以被直接使用,或者可以使用注释工具(例如,由研究人员、临床医生、医生、科学家等)进行调整或微调,以生成地面实况数据。在至少一个实施例中,在一些示例中,标记的临床数据5212(例如,由临床医生、医生、科学家、技术人员等提供的注释)可以用作训练机器学习模型的地面实况数据。在至少一个实施例中,AI辅助注释5210、标记的临床数据5212或其组合可以用作训练机器学习模型的地面实况数据。在至少一个实施例中,经训练的机器学习模型可以被称为输出模型5216,并且可以由部署系统5206使用,如本文所述。
在至少一个实施例中,训练管线5304(图53)可以包括以下情形:其中设施5202需要机器学习模型,以用于执行用于部署系统5206中的一个或更多个应用程序的一个或更多个处理任务,但是设施5202当前可能没有这种机器学习模型(或者可能没有为此目的而优化的、高效的或有效的模型)。在至少一个实施例中,可以从模型注册表5224中选择现有的机器学习模型。在至少一个实施例中,模型注册表5224可以包括机器学习模型,其被训练为对成像数据执行各种不同的推理任务。在至少一个实施例中,可以在来自不同的设施(例如,位于远处的设施)而不是设施5202的成像数据上训练模型注册表5224中的机器学习模型。在至少一个实施例中,机器学习模型可能已经在来自一个位置、两个位置或任意数量的位置的成像数据上进行训练。在至少一个实施例中,当在来自特定位置的成像数据上进行训练时,可以在该位置处进行训练,或者至少以保护成像数据的机密性或限制成像数据从场外转移的方式进行训练(例如,遵守HIPAA法规、隐私法规等)。在至少一个实施例中,一旦在一个位置处训练了模型或部分地训练了模型,则可以将机器学习模型添加到模型注册表5224。在至少一个实施例中,然后可以在任意数量的其他设施处对机器学习模型进行重新训练或更新,经重新训练或更新的模型可以在模型注册表5224中使用。在至少一个实施例中,然后可以从模型注册表5224中选择机器学习模型(并称为输出模型5216),并且可以在部署系统5206中,以执行用于部署系统的一个或更多个应用程序的一个或更多个处理任务。
在至少一个实施例中,训练管线5304(图53)可用于包括设施5202的场景中,所述设施需要机器学习模型,以用于执行用于部署系统5206中的一个或更多个应用程序的一个或更多个处理任务,但是设施5202当前可能没有这样的机器学习模型(或者可能没有优化的、高效的或有效的模型)。在至少一个实施例中,由于用于训练机器学习模型的训练数据的种群差异、遗传变异、稳健性,训练数据异常的多样性,和/或训练数据的其他问题,从模型注册表5224中选择的机器学习模型可能不会针对在设施5202处生成的成像数据5208进行微调或优化。在至少一个实施例中,AI辅助注释5210可以用于帮助生成与成像数据5208相对应的注释,以用作训练或更新机器学习模型的地面实况数据。在至少一个实施例中,标记的临床数据5212(例如,由临床医生、医生、科学家等提供的注释)可以用作训练机器学习模型的地面实况数据。在至少一个实施例中,重新训练或更新机器学习模型可以称为模型训练5214。在至少一个实施例中,模型训练5214(例如AI辅助注释5210,标记的临床数据5212或其组合)可以用作重新训练或更新机器学习模型的地面实况数据。
在至少一个实施例中,部署系统5206可以包括软件5218、服务5220、硬件5222和/或其他组件、特征和功能。在至少一个实施例中,部署系统5206可以包括软件“栈”,以使软件5218可以构建在服务5220的顶部上,并且可以使用服务5220来执行一些或全部处理任务,并且服务5220和软件5218可以构建在硬件5222的顶部上,并使用硬件5222来执行部署系统5206的处理、存储和/或其他计算任务。
在至少一个实施例中,软件5218可以包括任意数量的不同容器,其中每个容器可以执行应用程序的实例化。在至少一个实施例中,每个应用程序可以在高级处理和推理管线中执行一个或更多个处理任务(例如,推理、对象检测、特征检测、分割、图像增强、校准等)。在至少一个实施例中,对于每种类型的成像设备(例如CT、MRI、X射线、超声、超声检查、超声心动图等)、测序设备、放射学设备、基因组学设备等,可能有任意数量的容器,其可以对由设备生成的成像数据5208(或其他数据类型,例如本文所述的数据类型)执行数据处理任务。在至少一个实施例中,除了接收和配置成像数据以供每个容器使用和/或在通过管线处理后由设施5202使用的容器以外,还可以基于对处理成像数据5208想要的或所需的不同容器的选择来定义高级处理和推理管线(例如,以将输出转换回可用的数据类型,诸如医学数字成像和通信(DICOM)数据、放射信息系统(RIS)数据、临床信息系统(CIS)数据、远程过程调用(RPC)数据、基本上符合表示状态传输(REST)接口的数据、基本上符合基于文件接口的数据、和/或原始数据,以便在设施5202进行存储和显示)。在至少一个实施例中,软件5218内的容器组合(例如,其构成管线)可以被称为虚拟仪器(如本文中更详细地描述的),并且虚拟仪器可以利用服务5220和硬件5222来执行容器中实例化的应用程序的部分或全部处理任务。
在至少一个实施例中,数据处理管线可以响应于推理请求(例如,来自部署系统5206的用户的请求,例如临床医生,医生,放射科医生等)接收DICOM、RIS、CIS、符合REST、RPC、原始、和/或其他格式的输入数据(例如,成像数据5208)。在至少一个实施例中,输入数据可以代表由一个或更多个成像设备、测序设备、放射设备、基因组设备和/或其他设备类型生成的一个或更多个图像、视频和/或其他数据表示。在至少一个实施例中,数据可以作为数据处理管线的一部分进行预处理,以准备数据用于由一个或更多个应用程序处理。在至少一个实施例中,可以在管线的一个或更多个推理任务或其他处理任务的输出上执行后处理,以准备下一个应用程序的输出数据和/或准备输出数据,以供用户传输和/或使用(例如作为对推理请求的响应)。在至少一个实施例中,推理任务可以由一个或更多个机器学习模型执行,例如经训练或部署的神经网络,所述模型可以包括训练系统5204的输出模型5216。
在至少一个实施例中,数据处理管线的任务可以封装在容器中,每个容器表示能够引用机器学习模型的应用程序和虚拟化计算环境的离散、全功能实例化。在至少一个实施例中,容器或应用程序可被发布到容器注册表(本文更详细地描述)的私有(例如,有限访问)区域中,并且经训练或部署的模型可存储在模型注册表5224中,并与一个或更多个应用程序相关联。在至少一个实施例中,应用程序的图像(例如,容器图像)可在容器注册表中使用,并且一旦用户从容器注册表中选择图像以用于在管线中部署,则该图像可用于生成用于应用程序的实例化的容器,以供用户的系统使用。
在至少一个实施例中,开发者(例如,软件开发者、临床医生、医生等)可以开发、发布和存储应用程序(例如,作为容器),用于对所提供的数据执行图像处理和/或推理。在至少一个实施例中,可以使用与系统相关联的软件开发工具包(SDK)来执行开发、发布和/或存储(例如,以确保开发的应用程序和/或容器符合系统或与系统兼容)。在至少一个实施例中,所开发的应用程序可以使用SDK在本地测试(例如,在第一设施处,对来自第一设施的数据进行测试),所述SDK作为系统(例如图53中的系统5300)可以支持至少某些服务5220。在至少一个实施例中,由于DICOM对象可能包括一到数百个图像或其他数据类型,并且由于数据的变化,因此开发者可负责管理(例如,设置构造,用于将预处理构建到应用程序中等)传入的DICOM数据的提取和准备。在至少一个实施例中,一旦通过系统5300的验证(例如,为了准确性、安全性、患者隐私等),应用程序便会在容器注册表中可用,以供用户(例如,医院、诊所、实验室、医疗保健提供者等)选择和/或实现,以对用户的设施(例如第二设施)处的数据执行一个或更多个处理任务。
在至少一个实施例中,开发者随后可以通过网络共享应用程序或容器,以供系统(例如,图53的系统5300)的用户访问和使用。在至少一个实施例中,可以将完成并经过验证的应用程序或容器存储在容器注册表中,并且可以将相关的机器学习模型存储在模型注册表5224中。在至少一个实施例中,请求实体(例如,医疗机构的用户)(其提供推理或图像处理请求)可以浏览容器注册表和/或模型注册表5224,以获得应用程序、容器、数据集、机器学习模型等,选择所需的元素组合以包括在数据处理管线中,并提交图像处理请求。在至少一个实施例中,请求可以包括执行请求所必需的输入数据(以及在一些示例中与患者相关的数据),和/或可以包括对在处理请求时要执行的应用程序和/或机器学习模型的选择。在至少一个实施例中,然后可以将请求传递到部署系统5206的一个或更多个组件(例如,云),以执行数据处理管线的处理。在至少一个实施例中,由部署系统5206进行的处理可以包括引用从容器注册表和/或模型注册表5224中选择的元素(例如,应用程序、容器、模型等)。在至少一个实施例中,一旦通过管线生成结果,结果可返回给用户以供参考(例如,用于在本地、本地工作站或终端上执行的查看应用程序套件中进行查看)。在至少一个实施例中,放射科医生可以从数据处理管线接收结果,所述数据处理管线包括任意数量的应用程序和/或容器,其中结果可以包括X射线、CT扫描、MRI等中的异常检测。
在至少一个实施例中,为了帮助处理或执行管线中的应用程序或容器,可以利用服务5220。在至少一个实施例中,服务5220可以包括计算服务、人工智能(AI)服务、可视化服务和/或其他服务类型。在至少一个实施例中,服务5220可以提供软件5218中的一个或更多个应用程序所共有的功能,因此可以将功能抽象为可以被应用程序调用或利用的服务。在至少一个实施例中,由服务5220提供的功能可以动态且更有效地运行,同时还可以通过允许应用程序并行地处理数据(例如,使用图53中的并行计算平台5330)来很好地缩放。在至少一个实施例中,不是要求共享服务5220提供的相同功能的每个应用程序都必须具有服务5220的相应实例,而是可以在各种应用程序之间和之中共享服务5220。在至少一个实施例中,作为非限制性示例,服务可包括可用于执行检测或分割任务的推理服务器或引擎。在至少一个实施例中,可以包括模型训练服务,其可以提供机器学习模型训练和/或重新训练能力。在至少一个实施例中,可以还包括数据增强服务,其可以提供GPU加速的数据(例如,DICOM、RIS、CIS、符合REST、RPC、原始等)提取、调整大小、缩放和/或其他增强。在至少一个实施例中,可以使用可视化服务,其可以添加图像渲染效果(例如射线追踪、光栅化、降噪、锐化等),以向二维(2D)和/或三维(3D)模型添加真实感。在至少一个实施例中,可以包括虚拟仪器服务,其为虚拟仪器的管线内的其他应用程序提供波束赋形、分割、推理、成像和/或支持。
在至少一个实施例中,在服务5220包括AI服务(例如,推理服务)的情况下,作为应用程序执行的一部分,可以通过调用(例如,作为API调用)推理服务(例如,推理服务器),以执行一个或更多个机器学习模型或其处理,来执行与用于异常检测(例如,肿瘤、生长异常、瘢痕形成等)的应用程序相关联的一个或更多个机器学习模型。在至少一个实施例中,在另一应用程序包括用于分割任务的一个或更多个机器学习模型的情况下,应用程序可以调用推理服务来执行机器学习模型,以用于执行与分割任务相关联的一个或更多个处理操作。在至少一个实施例中,实现高级处理和推理管线的软件5218,其包括分割应用程序和异常检测应用程序,可以被管线化,因为每个应用程序可以调用相同的推理服务来执行一个或更多个推理任务。
在至少一个实施例中,硬件5222可包括GPU、CPU、图形卡、AI/深度学习系统(例如,AI超级计算机,诸如NVIDIA的DGX超级计算机系统)、云平台或其组合。在至少一个实施例中,可以使用不同类型的硬件5222,以为部署系统5206中的软件5218和服务5220提供高效的、专门构建的支持。在至少一个实施例中,可以实现使用GPU处理来在AI/深度学习系统内、云系统中、和/或部署系统5206的其他处理组件中进行本地处理(例如,在设施5202处),以提高图像处理、图像重建、分割、MRI检查、中风或心脏病发作检测(例如实时地)、渲染的图像质量等的效率、准确性和效能。在至少一个实施例中,设施可包括成像设备、基因组设备、测序设备,和/或本地的其他设备类型,其可以利用GPU生成代表受试者解剖结构的成像数据。
在至少一个实施例中,作为非限制性示例,关于深度学习、机器学习和/或高性能计算,可以针对GPU处理优化软件5218和/或服务5220。在至少一个实施例中,部署系统5206和/或训练系统5204的计算环境中的至少一些可以在具有GPU优化的软件(例如,NVIDIADGX系统的硬件和软件组合)的数据中心、一个或更多个超级计算机或高性能计算机系统中执行。在至少一个实施例中,数据中心可以符合HIPAA的规定,使得关于患者数据的隐私性安全地处理成像数据和/或其他患者数据的接收、处理和传输。在至少一个实施例中,如本文所述,硬件5222可包括任意数量的GPU,所述GPU可被调用以并行执行数据处理。在至少一个实施例中,云平台还可包括用于深度学习任务的GPU优化执行、机器学习任务或其他计算任务的GPU处理。在至少一个实施例中,可以使用AI/深度学习超级计算机和/或GPU优化的软件(例如,如在NVIDIA的DGX系统上提供的)作为硬件抽象和缩放平台,来执行云平台(例如,NVIDIA的NGC)。在至少一个实施例中,云平台可以在多个GPU上集成应用程序容器集群系统或协调系统(例如,KUBERNETES),以实现无缝缩放和负载均衡。
在至少一个实施例中,关于图52所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图52所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图52所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图52所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图52所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图52所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图52所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图53是根据至少一个实施例的用于生成和部署成像部署管线的示例系统5300的系统图。在至少一个实施例中,系统5300可以用于实现图52的过程5200和/或其他过程,包括高级处理和推理管线。在至少一个实施例中,系统5300可以包括训练系统5204和部署系统5206。在至少一个实施例中,可以使用软件5218、服务5220和/或硬件5222,来实现训练系统5204和部署系统5206,如本文所述。
在至少一个实施例中,系统5300(例如,训练系统5204和/或部署系统5206)可以在云计算环境中(例如,使用云5326)实现。在至少一个实施例中,系统5300可以在本地实现(关于医疗服务设施),或者作为云计算资源和本地计算资源的组合来实现。在至少一个实施例中,在实现云计算的实施例中,患者数据可以与系统5300的一个或更多个组件分离,或者未由系统5300的一个或更多个组件处理,这将导致处理不符合HIPAA和/或其他数据处理和隐私法规或法律。在至少一个实施例中,可以通过制定安全措施或协议,将对云5326中的API的访问权限限制为授权用户。
在至少一个实施例中,安全协议可以包括网络令牌,其可以由认证(例如,AuthN、AuthZ、Gluecon等)服务签名,并且可以携带适当的授权。在至少一个实施例中,虚拟仪器的API(本文中描述)或系统5300的其他实例可以被限制为已被审核或授权用于交互的一组公共IP。
在至少一个实施例中,系统5300的各个组件可以使用多种不同网络类型中的任何一种在彼此之间进行通信,所述不同网络类型包括但不限于经由有线和/或无线通信协议的局域网(LAN)和/或广域网(WAN)。在至少一个实施例中,系统5300的设施和组件之间的通信(例如,用于发送推理请求、用于接收推理请求的结果等)可以通过一个或更多个数据总线、无线数据协议(Wi-Fi)、有线数据协议(例如以太网)等进行传送。
在至少一个实施例中,类似于本文关于图52所描述的,训练系统5204可以执行训练管线5304。在至少一个实施例中,其中部署系统5206将在部署管线5310中使用一个或更多个机器学习模型,训练管线5304可用于训练或重新训练一个或更多个(例如,预训练的)模型,和/或实现一个或更多个预训练模型5306(例如,无需重新训练或更新)。在至少一个实施例中,作为训练管线5304的结果,可以生成输出模型5216。在至少一个实施例中,训练管线5304可以包括任意数量的处理步骤,诸如但不限于成像数据(或其他输入数据)的转换或适配(例如,使用DICOM适配器5302A将DICOM图像转换为适合于由各自的机器学习模型处理的另一种格式,例如Neuroimaging信息技术倡议(NIfTI)格式)、AI辅助注释5210、成像数据5208的标记或注释(用于生成标记的临床数据5212)、从模型注册表中选择模型、模型训练5214、训练、重新训练或更新模型,和/或其他处理步骤。在至少一个实施例中,对于由部署系统5206使用的不同的机器学习模型,可以使用不同的训练管线5304。在至少一个实施例中,类似于关于图52描述的第一示例的训练管线5304可用于第一机器学习模型,类似于关于图52描述的第二示例的训练管线5304可用于第二机器学习模型,类似于关于图52描述的第三示例的训练管线5304可用于第三机器学习模型。在至少一个实施例中,可以根据每个相应机器学习模型的要求来使用训练系统5204内任务的任何组合。在至少一个实施例中,一个或更多个机器学习模型可能已经被训练并准备好用于部署,因此训练系统5204可能不会对机器学习模型进行任何处理,并且一个或更多个机器学习模型可以由部署系统5206来实现。
在至少一个实施例中,根据实现或实施例,输出模型5216和/或预训练模型5306可包括任何类型的机器学习模型。在至少一个实施例中并且不限于此,系统5300使用的机器学习模型可以包括使用线性回归、逻辑回归、决策树、支持向量机(SVM)、朴素贝叶斯、k-最近邻(Knn)、k均值聚类、随机森林、降维算法、梯度提升算法、神经网络(例如,自动编码器、卷积、递归、感知器、长/短期记忆(LSTM)、Hopfield、Boltzmann、深层信念、反卷积、生成对抗、液体状态机等),和/或其他类型的机器学习模型。
在至少一个实施例中,训练管线5304可以包括AI辅助注释,如本文关于至少图56B更详细描述的。在至少一个实施例中,可以通过任何数量的技术来生成标记的临床数据5212(例如,传统注释)。在至少一个实施例中,在一些示例中可以在绘图程序(例如,注释程序)、计算机辅助设计(CAD)程序、标记程序、适用于生成地面实况的注释或标签的另一类型的应用程序中、和/或可以手绘,生成标签或其他注释。在至少一个实施例中,地面实况数据可以被合成产生(例如,从计算机模型或渲染生成)、真实产生(例如,从真实世界数据设计和生成)、机器自动产生(例如,使用特征分析和学习从数据中提取特征,然后生成标签)、人工注释(例如,标记器或注释专家,定义标签的位置)和/或其组合。在至少一个实施例中,对于成像数据5208(或机器学习模型使用的其他数据类型)的每个实例,可以存在由训练系统5204生成的相应的地面实况数据。在至少一个实施例中,可以作为部署管线5310的一部分执行AI辅助注释;补充或代替训练管线5304中包括的AI辅助注释。在至少一个实施例中,系统5300可以包括多层平台,所述多层平台可以包括诊断应用程序(或其他应用程序类型)的软件层(例如软件5218),其可以执行一个或更多个医学成像和诊断功能。在至少一个实施例中,系统5300可以通信地耦合到(例如,经由加密链路)一个或更多个设施的PACS服务器网络。在至少一个实施例中,系统5300可被配置为从PACS服务器(例如,经由DICOM适配器5302或诸如RIS、CIS、符合REST、RPC、原始等的另一数据类型适配器)访问和引用数据(例如,DICOM数据、RIS数据、原始数据、CIS数据、符合REST的数据、RPC、原始数据等),以执行操作,例如训练机器学习模型、部署机器学习模型、图像处理、推理和/或其他操作。
在至少一个实施例中,软件层可以被实现为安全的、加密的和/或经认证的API,通过所述API可以从外部环境(例如,设施5202)援引(invoke)(例如,调用(call))应用程序或容器。在至少一个实施例中,应用程序随后可以调用或执行一个或更多个服务5220,以执行与各自的应用程序相关联的计算、AI或可视化任务,并且软件5218和/或服务5220可以利用硬件5222以有效和高效的方式执行处理任务。
在至少一个实施例中,部署系统5206可以执行部署管线5310。在至少一个实施例中,部署管线5310可以包括任意数量的应用程序,所述应用程序可以是顺序的、非顺序的,或者以其他方式应用于成像数据(和/或其他数据类型)-包括AI辅助注释,所述成像数据由成像设备、测序设备、基因组学设备等生成,如上所述。在至少一个实施例中,如本文所述,用于个体设备的部署管线5310可以被称为用于设备的虚拟仪器(例如,虚拟超声仪器、虚拟CT扫描仪器、虚拟测序仪器等)。在至少一个实施例中,对于单个设备,可以存在不止一个部署管线5310,这取决于从设备生成的数据所期望的信息。在至少一个实施例中,在期望从MRI机器检测到异常的情况下,可以存在第一部署管线5310,并且在期望从MRI机器的输出进行图像增强的情况下,可以存在第二部署管线5310。
在至少一个实施例中,可用于部署管线5310的应用程序可包括可用于对成像数据或来自设备的其他数据执行处理任务的任何应用程序。在至少一个实施例中,不同的应用程序可负责图像增强、分割、重建、异常检测、对象检测、特征检测、治疗规划、剂量测定、波束规划(或其他辐射治疗程序)和/或其他分析、图像处理或推理任务。在至少一个实施例中,部署系统5206可以为每个应用程序定义构造,使得部署系统5206(例如,医疗设施、实验室、诊所等)的用户可以理解构造并将应用程序适配为在其各自的设施内实现。在至少一个实施例中,可以选择用于图像重建的应用程序,以包括在部署管线5310中,但是由成像设备生成的数据类型可以与在应用程序内使用的数据类型不同。在至少一个实施例中,可以在部署管线5310内使用DICOM适配器5302B(和/或DICOM读取器)或另一数据类型的适配器或读取器(例如,RIS、CIS、符合REST、RPC、原始等),以将数据转换为可由部署系统5206内的应用程序使用。在至少一个实施例中,对DICOM、RIS、CIS、符合REST、RPC、原始和/或其他数据类型库的访问可以被累积和预处理,包括解码、提取和/或对数据执行任何卷积、颜色校正、锐化、gamma和/或其他增强。在至少一个实施例中,DICOM、RIS、CIS、符合REST、RPC和/或原始数据可以是无序的,并且可以执行预传递以组织数据或对收集的数据排序。在至少一个实施例中,由于各种应用程序可以共享公共图像操作,因此在一些实施例中,可以使用数据增强库(例如,作为服务5220之一)来加速这些操作。在至少一个实施例中,为了避免依赖于CPU处理的传统处理方法的瓶颈,并行计算平台5330可用于这些处理任务的GPU加速。
在至少一个实施例中,图像重建应用程序可包括处理任务,该处理任务包括使用机器学习模型。在至少一个实施例中,用户可能希望使用他们自己的机器学习模型,或者从模型注册表5224中选择机器学习模型。在至少一个实施例中,用户可以实现他们自己的机器学习模型或选择机器学习模型,以包括在执行处理任务的应用程序中。在至少一个实施例中,应用程序可以是可选择的和可定制的,并且通过定义应用程序的构造,针对特定用户的应用程序的部署和实现被呈现为更加无缝的用户体验。在至少一个实施例中,通过利用系统5300的其他特征(例如服务5220和硬件5222),部署管线5310可以更加用户友好,提供更容易的集成,并且产生更准确、高效和及时的结果。
在至少一个实施例中,部署系统5206可以包括用户接口5314(例如,图形用户接口、Web接口等),所述用户接口可以被用于选择要包括在部署管线5310中的应用程序、布置应用程序、修改或改变应用程序或其参数或构造、在设置和/或部署期间使用部署管线5310以及与其交互,和/或以其他方式与部署系统5206交互。在至少一个实施例中,尽管没有关于训练系统5204示出,但是用户接口5314(或不同的用户接口)可用于选择在部署系统5206中使用的模型、用于选择用于在训练系统5204中训练或重新训练的模型,和/或用于以其他方式与训练系统5204交互。
在至少一个实施例中,除了应用程序协调系统5328之外,还可以使用管线管理器5312来管理部署管线5310的应用程序或容器与服务5220和/或硬件5222之间的交互。在至少一个实施例中,管线管理器5312可以被配置为促进从应用程序到应用程序、从应用程序到服务5220,和/或从应用程序或服务到硬件5222的交互。在至少一个实施例中,尽管示出为包括在软件5218中,这并不旨在进行限制,并且在一些示例中(例如,如图54所示),管线管理器5312可以被包括在服务5220中。在至少一个实施例中,应用程序协调系统5328(例如,Kubernetes、DOCKER等)可以包括容器协调系统,其可以将应用程序分组到容器中,作为用于协调、管理、缩放和部署的逻辑单元。在至少一个实施例中,通过将来自部署管线5310的应用程序(例如,重建应用程序、分割应用程序等)与各个容器相关联,每个应用程序可以在自包括的环境(例如,在内核级)中执行,以提高速度和效率。
在至少一个实施例中,每个应用程序和/或容器(或其映像)可以被单独开发、修改和部署(例如,第一用户或开发者可以开发、修改和部署第一应用程序,第二用户或开发者可以开发、修改和部署与第一用户或开发者分开的第二应用程序),这可以允许专注并关注单个应用程序和/或容器的任务,而不受另一个应用程序或容器的任务的阻碍。在至少一个实施例中,管线管理器5312和应用程序协调系统5328可以辅助不同容器或应用程序之间的通信和协作。在至少一个实施例中,只要每个容器或应用程序的预期输入和/或输出是系统已知的(例如,基于应用程序或容器的构造),则应用程序协调系统5328和/或管线管理器5312可以促进每个应用程序或容器之间和之中的通信以及资源的共享。在至少一个实施例中,由于部署管线5310中的一个或更多个应用程序或容器可以共享相同的服务和资源,因此应用程序协调系统5328可以在各个应用程序或容器之间和之中进行协调、负载均衡,并确定服务或资源的共享。在至少一个实施例中,调度器可用于追踪应用程序或容器的资源需求、这些资源的当前使用或计划使用,以及资源可用性。因此,在至少一个实施例中,考虑到系统的需求和可用性,调度器可以将资源分配给不同的应用程序,并在应用程序之间和之中分配资源。在一些示例中,调度器(和/或应用程序协调系统5328的其他组件)可以基于施加在系统上的约束(例如,用户约束)来确定资源可用性和分布,例如服务质量(QoS)、对数据输出的迫切需求(例如,以确定是执行实时处理还是延迟处理)等。
在至少一个实施例中,由部署系统5206中的应用程序或容器利用并由其共享的服务5220,可以包括计算服务5316、AI服务5318、可视化服务5320和/或其他服务类型。在至少一个实施例中,应用程序可以调用(例如,执行)一个或更多个服务5220,以执行针对应用程序的处理操作。在至少一个实施例中,应用程序可以利用计算服务5316来执行超级计算或其他高性能计算(HPC)任务。在至少一个实施例中,可以利用一个或更多个计算服务5316来执行并行处理(例如,使用并行计算平台5330),以通过一个或更多个应用程序和/或单个应用程序的一个或更多个任务基本上同时地处理数据。在至少一个实施例中,并行计算平台5330(例如,NVIDIA的CUDA)可以在GPU(GPGPU)(例如,GPU 5322)上实现通用计算。在至少一个实施例中,并行计算平台5330的软件层可以提供对GPU的虚拟指令集和并行计算元素的访问,以执行计算内核。在至少一个实施例中,并行计算平台5330可以包括存储器,并且在一些实施例中,可以在多个容器之间和之中,和/或在单个容器内的不同处理任务之间和之中共享存储器。在至少一个实施例中,可以为多个容器和/或容器内的多个进程生成进程间通信(IPC)调用,以使用来自并行计算平台5330的共享存储器段的相同数据(例如,其中一应用程序或更多个应用程序的多个不同阶段正在处理相同的信息)。在至少一个实施例中,不是复制数据并将数据移动到存储器中的不同位置(例如,读/写操作),而是可以将存储器相同位置中的相同数据用于任何数量的处理任务(例如,在同一时间、不同时间等)。在至少一个实施例中,由于作为处理的结果数据被用于生成新数据,因此数据的新位置的该信息可以在各个应用程序之间存储和共享。在至少一个实施例中,数据的位置以及经更新或修改的数据的位置可以是如何理解容器中的有效负载的定义的一部分。
在至少一个实施例中,可以利用AI服务5318来执行推理服务,该推理服务用于执行与应用程序相关联的机器学习模型(例如,任务为执行应用程序的一个或更多个处理任务)。在至少一个实施例中,AI服务5318可以利用AI系统5324来执行机器学习模型(例如,诸如CNN之类的神经网络)以用于分割、重建、对象检测、特征检测、分类和/或其他推理任务。在至少一个实施例中,部署管线5310的应用程序可以使用来自训练系统5204的一个或更多个输出模型5216和/或应用程序的其他模型,来对成像数据(例如,DICOM数据、RIS数据、CIS数据、符合REST的数据、RPC数据、原始数据等)执行推理。在至少一个实施例中,使用应用程序协调系统5328(例如,调度器)进行推理的两个或更多个示例可以是可用的。在至少一个实施例中,第一类别可以包括高优先级/低延时路径,其可以实现更高服务水平协议,例如用于在紧急情况下对紧急请求执行推理,或者在诊断过程中用于放射科医生。在至少一个实施例中,第二类别可以包括标准优先级路径,其可用于可能不紧急的请求或者可以在稍后的时间执行分析的情况。在至少一个实施例中,应用程序协调系统5328可以基于优先级路径来分配资源(例如,服务5220和/或硬件5222),以用于AI服务5318的不同推理任务。
在至少一个实施例中,共享存储器可以被安装到系统5300中的AI服务5318。在至少一个实施例中,共享存储器可以操作为高速缓存(或其他存储设备类型),并且可以用于处理来自应用程序的推理请求。在至少一个实施例中,当提交推理请求时,部署系统5206的一组API实例可以接收请求,并且可以选择一个或更多个实例(例如,为了最佳拟合、为了负载均衡等)来处理请求。在至少一个实施例中,为了处理请求,可以将请求输入到数据库中,如果尚未在高速缓存中,则可以从模型注册表5224定位机器学习模型,验证步骤可以确保将适当的机器学习模型加载到高速缓存中(例如,共享存储),和/或可以将模型的副本保存到高速缓存中。在至少一个实施例中,如果应用程序尚未运行或没有足够的应用程序的实例,则可使用调度器(例如,管线管理器5312的调度器)来启动在请求中引用的应用程序。在至少一个实施例中,如果尚未启动推理服务器来执行模型,则可以启动推理服务器。在至少一个实施例中,每个模型可以启动任意数量的推理服务器。在至少一个实施例中,在将推理服务器聚类的拉(pull)模型中,每当负载均衡有利时,就可以将模型高速缓存。在至少一个实施例中,推理服务器可以静态加载到相应的分布式服务器中。
在至少一个实施例中,可以使用在容器中运行的推理服务器来执行推理。在至少一个实施例中,推理服务器的实例可以与模型(并且可选地与模型的多个版本)相关联。在至少一个实施例中,如果在接收到对模型执行推理的请求时推理服务器的实例不存在,则可以加载新实例。在至少一个实施例中,当启动推理服务器时,可以将模型传递到推理服务器,使得可以使用相同的容器来服务不同的模型,只要推理服务器作为不同的实例运行即可。
在至少一个实施例中,在应用程序执行期间,可以接收对给定应用程序的推理请求,并且可以加载(如果尚未加载的话)容器(例如,托管推理服务器的实例),以及可以调用启动程序。在至少一个实施例中,容器中的预处理逻辑可以(例如,使用CPU和/或GPU)对传入的数据进行加载、解码和/或执行任何附加的预处理。在至少一个实施例中,一旦数据准备好进行推理,容器就可以根据需要对数据进行推理。在至少一个实施例中,这可以包括对一个图像(例如,手部X射线)的单个推理调用,或可要求对数百个图像(例如,胸部CT)进行推理。在至少一个实施例中,应用程序可在完成之前总结结果,其可以包括但不限于单个置信度得分、像素级分割、体素级分割、生成可视化或生成文本以总结结果。在至少一个实施例中,可以为不同的模型或应用程序分配不同的优先级。例如,一些模型可具有实时(TAT小于1分钟)优先级,而其他模型可具有较低的优先级(例如,TAT小于10分钟)。在至少一个实施例中,模型执行时间可以从请求机构或实体进行测量,并且可以包括合作网络遍历时间以及推理服务的执行时间。
在至少一个实施例中,请求在服务5220和推理应用程序之间的传送可以隐藏在软件开发工具包(SDK)后面,并且可以通过队列提供鲁棒的传输。在至少一个实施例中,将通过API将请求放置在队列中,以用于个体应用程序/租户ID组合,并且SDK将从队列中拉取请求并将请求提供给应用程序。在至少一个实施例中,在SDK将从中拾取队列的环境中,可以提供队列的名称。在至少一个实施例中,通过队列的异步通信可能有用,因为它可以允许应用程序的任何实例在其可用时拾取工作。在至少一个实施例中,可以通过队列将结果传送回去,以确保没有数据丢失。在至少一个实施例中,队列还可以提供对工作进行分割的能力,因为最高优先级的工作可以进入与应用程序的大多数实例连接的队列,而最低优先级的工作可以进入与单个实例连接的队列,所述实例按照接收到的顺序处理任务。在至少一个实施例中,应用程序可以在GPU加速的实例上运行,所述实例在云5326中生成,并且推理服务可以在GPU上执行推理。
在至少一个实施例中,可以利用可视化服务5320来生成用于查看应用程序和/或部署管线5310输出的可视化。在至少一个实施例中,可视化服务5320可以利用GPU 5322来生成可视化。在至少一个实施例中,可视化服务5320可以实现诸如射线追踪之类的渲染效果,以生成更高质量的可视化。在至少一个实施例中,可视化可以包括但不限于2D图像渲染、3D体渲染、3D体重建、2D层析切片、虚拟现实显示、增强现实显示等。在至少一个实施例中,可以使用虚拟化环境来生成虚拟交互显示或环境(例如,虚拟环境),以供系统用户(例如,医生、护士、放射科医生等)进行交互。在至少一个实施例中,可视化服务5320可以包括内部可视化器、电影和/或其他渲染或图像处理能力或功能(例如,射线追踪、光栅化、内部光学器件等)。
在至少一个实施例中,硬件5222可以包括GPU 5322、AI系统5324、云5326和/或用于执行训练系统5204和/或部署系统5206的任何其他硬件。在至少一个实施例中,GPU 5322(例如,NVIDIA的TESLA和/或QUADRO GPU)可包括可用于执行计算服务5316、AI服务5318、可视化服务5320、其他服务和/或软件5218的任何特征或功能的处理任务的任意数量的GPU。例如,对于AI服务5318,GPU 5322可用于对成像数据(或机器学习模型使用的其他数据类型)执行预处理,对机器学习模型的输出执行后处理和/或执行推理(例如以执行机器学习模型)。在至少一个实施例中,云5326、AI系统5324和/或系统5300的其他组件可以使用GPU5322。在至少一个实施例中,云5326可以包括用于深度学习任务的GPU优化的平台。在至少一个实施例中,AI系统5324可以使用GPU,并且可以使用一个或更多个AI系统5324来执行云5326(或者任务为深度学习或推理的至少部分)。同样,尽管硬件5222被示出为离散组件,但这并不意图是限制,并且硬件5222的任何组件可以与硬件5222的任何其他组件组合,或由硬件5222的任何其他组件利用。
在至少一个实施例中,AI系统5324可包括专门构建的计算系统(例如,超级计算机或HPC),该计算系统配置用于推理、深度学习、机器学习和/或其他人工智能任务。在至少一个实施例中,除了CPU、RAM、存储器和/或其他组件、特征或功能之外,AI系统5324(例如,NVIDIA的DGX)还可以包括可以使用多个GPU 5322来执行分GPU优化的软件(例如,软件栈)。在至少一个实施例中,可以在云5326中(例如,在数据中心中)实现一个或更多个AI系统5324,以执行系统5300的一些或全部基于AI的处理任务。
在至少一个实施例中,云5326可以包括GPU加速的基础设施(例如,NVIDIA的NGC),其可以提供用于执行系统5300的处理任务的GPU优化的平台。在至少一个实施例中,云5326可以包括AI系统5324,其用于执行系统5300的一个或更多个基于AI的任务(例如,作为硬件抽象和缩放平台)。在至少一个实施例中,云5326可以与利用多个GPU的应用程序协调系统5328集成,以实现应用程序和服务5220之间和之中的无缝缩放和负载均衡。在至少一个实施例中,如本文所述,云5326可以负责执行系统5300的至少一些服务5220,包括计算服务5316、AI服务5318和/或可视化服务5320。在至少一个实施例中,云5326可以执行大小批的推理(例如,执行NVIDIA的TENSOR RT),提供加速的并行计算API和平台5330(例如,NVIDIA的CUDA),执行应用程序协调系统5328(例如,KUBERNETES),提供图形渲染API和平台(例如,用于射线追踪,2D图形、3D图形和/或其他渲染技术以产生更高质量的电影效果),和/或可以为系统5300提供其他功能。
在至少一个实施例中,为了保护患者的机密性(例如,在非现场使用患者数据或记录的情况下),云5326可以包括注册表-例如深度学习容器注册表。在至少一个实施例中,注册表可以存储用于实例化应用程序的容器,所述应用程序可以对患者数据执行预处理、后处理或其他处理任务。
在至少一个实施例中,云5326可接收数据,所述数据包括患者数据以及容器中传感器数据,仅对那些容器中的传感器数据执行所请求的处理,然后将结果输出和/或可视化转发给适当的各方和/或设备(例如用于可视化或诊断的本地医疗设备),而无需提取、存储或以其他方式访问患者数据。在至少一个实施例中,根据HIPAA和/或其他数据规定来保留患者数据的机密性。
在至少一个实施例中,关于图53所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图53所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图53所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图53所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图53所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图53所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图53所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图54包括根据至少一个实施例的用于处理成像数据的部署管线5310A的示例说明。在至少一个实施例中,系统5300——特别是部署系统5206——,可以用于将部署管线5310A定制、更新和/或集成到一个或更多个生产环境中。在至少一个实施例中,图53的部署管线5310A包括部署管线5310A的非限制性示例,其可以由设施(例如,在医院、诊所、实验室、研究环境等)处的特定用户(或用户团队)自定义。在至少一个实施例中,为了定义用于CT扫描仪5402的部署管线5310A,用户可以例如从容器注册表中选择一个或更多个应用程序,所述应用程序执行关于由CT扫描仪5402生成的成像数据的特定功能或任务。在至少一个实施例中,应用程序可以作为容器而应用到部署管线5310A,所述容器可以利用系统5300的服务5220和/或硬件5222。此外,部署管线5310A可以包括附加处理任务或应用程序,所述附加处理任务或应用程序可以被实现以准备供应用程序使用的数据(例如DICOM适配器5302B和DICOM读取器5406可在部署管线5310A中使用,以准备供CT重建5408、器官分割5410等使用的数据)。在至少一个实施例中,可以定制或选择部署管线5310A,以用于一致的部署、一次使用,或另一频率或间隔使用。在至少一个实施例中,用户可能希望在特定间隔内具有针对几个受试者的CT重建5408和器官分割5410,并且因此可以在该时间段内部署管线5310A。在至少一个实施例中,用户可以针对来自系统5300的每个请求选择用户想要针对该请求对该数据执行处理的应用程序。在至少一个实施例中,可以以任何间隔来调整部署管线5310A,并且由于系统5300内的容器结构的适应性和可缩放性,这可以是无缝的过程。
在至少一个实施例中,图53的部署管线5310A可以包括生成患者或受试者的成像数据的CT扫描仪5402。在至少一个实施例中,来自CT扫描仪5402的成像数据可以存储在与容纳CT扫描仪5402的设施相关联的PACS服务器5404上。在至少一个实施例中,PACS服务器5404可以包括软件和/或硬件组件,所述软件和/或硬件组件可以与设施处的成像模态(例如,CT扫描仪5402)直接接口。在至少一个实施例中,DICOM适配器5302B可以允许使用DICOM协议发送和接收DICOM对象。在至少一个实施例中,DICOM适配器5302B可以帮助准备或配置来自PACS服务器5404的DICOM数据,以供部署管线5310A使用。在至少一个实施例中,一旦通过DICOM适配器5302B处理了DICOM数据,管线管理器5312就可以将数据路由到部署管线5310A。在至少一个实施例中,DICOM读取器5406可以从DICOM数据(例如,原始正弦图数据,如可视化5416A中所示)提取图像文件和任何相关联的元数据。在至少一个实施例中,所提取的工作文件可以被存储在高速缓存中,以被部署管线5310A中的其他应用程序更快地处理。在至少一个实施例中,一旦DICOM读取器5406完成了提取和/或存储数据,就可以将完成信号传送到管线管理器5312。在至少一个实施例中,管线管理器5312随后可以发起或调用部署管线5310A中的一个或更多个其他应用程序或容器。
在至少一个实施例中,一旦数据(例如,原始正弦图数据)可用于由CT重建5408应用程序处理,就可以执行CT重建5408应用程序和/或容器。在至少一个实施例中,CT重建5408可以从高速缓存中读取原始正弦图数据,从原始正弦图数据中重建图像文件(例如,如可视化5416B所示),并且将所得图像文件存储在高速缓存中。在至少一个实施例中,在重建完成时,可以向管线管理器5312发送重建任务完成的信号。在至少一个实施例中,一旦重建完成,并且重建的图像文件可以被存储在高速缓存(或其他存储设备)中,则器官分割5410应用程序和/或容器可以由管线管理器5312触发。在至少一个实施例中,器官分割5410应用程序和/或容器可以从高速缓存中读取图像文件,将图像文件归一化或转换为适合推理的格式(例如,将图像文件转换为机器学习模型的输入分辨率),并对归一化的图像运行推理。在至少一个实施例中,为了对归一化的图像运行推理,器官分割5410应用程序和/或容器可以依赖服务5220,管线管理器5312和/或应用程序协调系统5328可以通过器官分割5410应用程序和/或容器来促进服务5220的使用。在至少一个实施例中,例如,器官分割5410应用程序和/或容器可以利用AI服务5318对归一化的图像执行推理,并且AI服务5318可以利用硬件5222(例如AI系统5324)来执行AI服务5318。在至少一个实施例中,推理结果可以是掩模文件(例如,如可视化5416C所示),所述掩模文件可以存储在高速缓存(或其他存储设备)中。
在至少一个实施例中,一旦处理DICOM数据和/或从DICOM数据提取的数据的应用程序已经完成处理,就可以为管线管理器5312生成信号。在至少一个实施例中,管线管理器5312随后可执行DICOM写入器5412,以从高速缓存(或其他存储设备)读取结果,将结果打包成DICOM格式(例如,作为DICOM输出5414),以供设施处生成请求的用户使用。在至少一个实施例中,DICOM输出5414随后可以被发送到DICOM适配器5302B,以准备DICOM输出5414,以存储在PACS服务器5404上(例如,以供设施处的DICOM查看器查看)。在至少一个实施例中,响应于对重建和分割的请求,可视化5416B和5416C可被生成并可供用户用于诊断、研究和/或其他目的。
尽管在部署管线5310A中图示为连续应用程序,但在至少一个实施例中,可以并行处理CT重建5408和器官分割5410应用程序。在至少一个实施例中,其中应用程序彼此不具有依赖性,并且数据可用于每个应用程序(例如,在DICOM读取器5406提取数据之后),应用程序可在同一时间、基本上在同一时间或有一些重叠地执行。在至少一个实施例中,在两个或更多个应用程序需要类似服务5220的情况下,系统5300的调度器可用于负载均衡以及在各个应用程序之间和之中分配计算或处理资源。在至少一个实施例中,在一些实施例中,并行计算平台5330可用于对应用程序执行并行处理,以减少部署管线5310A的运行时间以提供实时结果。
在至少一个实施例中并参考图55A-55B,部署系统5206可以实现为一个或更多个虚拟仪器,以使用成像设备(例如,CT扫描仪、X射线机、MRI机等)、测序设备、基因组学设备和/或其他设备类型来执行不同的功能,例如图像处理、分割、增强、AI、可视化和推理。在至少一个实施例中,系统5300可以允许创建和提供虚拟仪器,所述虚拟仪器可以包括软件定义的部署管线5310,该软件定义的部署管线5310可以接收由设备生成的原始/未经处理的输入数据并输出经处理/重建的数据。在至少一个实施例中,表示虚拟仪器的部署管线5310(例如5310A和5310B)可以在管线中实现智能(诸如通过利用机器学习模型),以向系统提供容器化的推理支持。在至少一个实施例中,虚拟仪器可以执行任何数量的容器,每个容器包括应用程序的实例。在至少一个实施例中,例如在想要实时处理的情况下,表示虚拟仪器的部署管线5310可以是静态的(例如,可以设置容器和/或应用程序),而在其他示例中,可以从应用程序或资源池中(例如,在容器注册表中)选择用于虚拟仪器的容器和/或应用程序(例如,基于每个请求)。
在至少一个实施例中,系统5300可以作为一个或更多个虚拟仪器在设施处的例如计算系统中被本地实例化或执行,该计算机系统部署在放射机器、成像设备和/或设施处的另一设备类型旁边或与之通信。然而,在至少一个实施例中,可以在设备本身的计算系统(例如,与成像设备集成在一起的计算系统)中,在本地数据中心(例如,本地部署的数据中心)中和/或云环境中(例如,在云5326中)实例化或执行本地安装。在至少一个实施例中,在一些示例中,可以由超级计算机或其他HPC系统实例化作为虚拟仪器操作的部署系统5206。在至少一个实施例中,本地安装可以允许用于实时处理的高带宽用途(例如,通过更高吞吐量的本地通信接口,例如以太网上的RF)。在至少一个实施例中,在虚拟仪器支持超声设备或其他成像模态的情况下,实时或近实时处理可能特别有用,在该超声设备或其他成像模态中,期望或需要即时可视化以进行准确的诊断和分析。在至少一个实施例中,当本地需求超过本地容量或能力时,云计算架构可能够动态地突发到云计算服务提供商或其他计算集群。在至少一个实施例中,如在本文中关于训练系统5204所描述的,云架构在被实现时可被调整用于训练神经网络或其他机器学习模型。在至少一个实施例中,在训练管线就位的情况下,机器学习模型可以在处理来自其支持的设备的附加数据时被不断地学习和改进。在至少一个实施例中,可以使用附加数据、新数据、现有机器学习模型和/或新的或更新的机器学习模型来持续改进虚拟仪器。
在至少一个实施例中,计算系统可以包括本文所述的硬件5222中的部分或全部,并且硬件5222可以以多种方式中的任一种来分布,包括:在设备内,作为耦合到设备并位于其附近的计算设备的一部分,在设施处的本地数据中心中和/或在云5326中。在至少一个实施例中,由于部署系统5206和相关联的应用程序或容器是在软件中创建的(例如,作为应用程序的离散容器化实例化),因此可以根据需要修改或定制虚拟仪器的行为、操作和配置以及由虚拟仪器生成的输出,无需更改或改变虚拟仪器支持的设备的原始输出。
在至少一个实施例中,关于图54所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图54所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图54所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图54所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图54所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图54所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图54所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图55A包括根据至少一个实施例的支持超声设备的虚拟仪器的示例数据流图。在至少一个实施例中,部署管线5310B可以利用系统5300的一个或更多个服务5220。在至少一个实施例中,部署管线5310B和服务5220可以利用本地或云5326中的系统的硬件5222。在一个实施例中,尽管未示出,但是可以通过管线管理器5312、应用程序协调系统5328和/或并行计算平台5330来促进过程5500。
在至少一个实施例中,过程5500可以包括从超声设备5502接收成像数据。在至少一个实施例中,成像数据可以DICOM格式(或其他格式,例如RIS、CIS、符合REST、RPC、原始等)存储在PACS服务器上,也可以由系统5300接收以通过部署管线5310进行处理,所述部署管线5310被选择或定制为超声设备5502的虚拟仪器(例如,虚拟超声)。在至少一个实施例中,可以直接从成像设备(例如,超声设备5502)接收成像数据,并由虚拟仪器对其进行处理。在至少一个实施例中,通信地耦合在成像设备和虚拟仪器之间的换能器或其他信号转换器可以将由成像设备生成的信号数据转换成可以由虚拟仪器处理的图像数据。在至少一个实施例中,原始数据和/或图像数据可应用于DICOM读取器5406,以提取数据,以供部署管线5310B的应用程序或容器使用。在至少一个实施例中,DICOM读取器5406可以利用数据扩充库5514(例如,NVIDIA的DALI)作为服务5220(例如,作为计算服务5316之一),用于提取、调整大小、重新缩放和/或以其他方式准备数据,以供应用程序或容器使用。
在至少一个实施例中,一旦准备好数据,就可以执行重建5506应用程序和/或容器,以将来自超声设备5502的数据重建为图像文件。在至少一个实施例中,在重建5506之后或与重建5506同时,可以执行检测5508应用程序和/或容器,以用于异常检测、对象检测、特征检测和/或与数据有关的其他检测任务。在至少一个实施例中,可以在检测5508期间使用在重建5506期间生成的图像文件以识别异常、对象、特征等。在至少一个实施例中,检测5508应用程序可以利用推理引擎5516(例如,作为AI服务5318之一),来对数据执行推理以生成检测。在至少一个实施例中,检测5508应用程序可以执行或调用一个或更多个机器学习模型(例如,来自训练系统5204)。
在至少一个实施例中,一旦重建5506和/或检测5508完成,则从这些应用程序和/或容器输出的数据可用于生成在工作站或显示终端上显示的可视化5510,例如可视化5512(例如,灰度输出)。在至少一个实施例中,可视化可以允许技术人员或其他用户将关于超声设备5502的部署管线5310B的结果可视化。在至少一个实施例中,可以通过利用系统5300的渲染组件5518(例如,可视化服务5320之一)来执行可视化5510。在至少一个实施例中,渲染组件5518可以执行2D、OpenGL或射线追踪服务以生成可视化5512。
在至少一个实施例中,关于图55A所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图55A所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图55A所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图55A所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图55A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图55A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图55A所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图55B包括根据至少一个实施例的支持CT扫描仪的虚拟仪器的示例数据流图。在至少一个实施例中,部署管线5310C可以利用系统5300的一个或更多个服务5220。在至少一个实施例中,部署管线5310C和服务5220可在本地或在云5326中利用系统的硬件5222。在至少一个实施例中,尽管未示出,但是管线管理器5312、应用程序协调系统5328和/或并行计算平台5330可以促进过程5520。
在至少一个实施例中,过程5520可以包括CT扫描仪5522生成可以由DICOM读取器5406接收的原始数据(例如,在处理等之后,直接经由PACS服务器5404接收)。在至少一个实施例中,虚拟CT(由部署管线5310C实例化)可以包括第一实时管线,用于监视患者(例如,患者移动检测AI 5526)和/或用于调整或优化CT扫描仪5522的曝光(例如,使用曝光控制AI5524)。在至少一个实施例中,一个或更多个应用程序(例如,5524和5526)可以利用服务5220,例如AI服务5318。在至少一个实施例中,曝光控制AI 5524应用程序(或容器)和/或患者移动检测AI 5526应用程序(或容器)的输出,可以用作对CT扫描仪5522和/或技术人员的反馈,以调整曝光(或CT扫描仪5522的其他设置)和/或通知患者减少移动。
在至少一个实施例中,部署管线5310C可以包括用于分析由CT扫描仪5522生成的数据的非实时管线。在至少一个实施例中,第二管线可以包括CT重建5408应用程序和/或容器、粗略检测AI 5528应用程序和/或容器、精细检测AI 5532应用程序和/或容器(例如,其中通过粗略检测AI 5528检测某些结果)、可视化5530应用程序和/或容器、以及DICOM写入器5412(和/或其他数据类型编写器,例如RIS、CIS、符合REST、RPC、原始文件等)应用程序和/或容器。在至少一个实施例中,由CT扫描仪5522生成的原始数据可以传递通过部署管线5310C的管线(被实例化为虚拟CT仪器)以生成结果。在至少一个实施例中,来自DICOM写入器5412的结果可被发送以供显示,和/或可被存储在PACS服务器5404上以供技术人员、从业者或其他用户稍后检索、分析或显示。
在至少一个实施例中,关于图55B所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图55B所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图55B所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图55B所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图55B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图55B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图55B所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图56A示出了根据至少一个实施例的用于训练、重新训练或更新机器学习模型的过程5600的数据流图。在至少一个实施例中,可以使用作为非限制性示例的图53的系统5300来执行过程5600。在至少一个实施例中,过程5600可以利用系统5300的服务5220和/或硬件5222,如本文所述。在至少一个实施例中,由过程5600生成的精炼模型5612可以由部署系统5206针对部署管线5310中的一个或更多个容器化的应用程序执行。
在至少一个实施例中,模型训练5214可包括使用新的训练数据(例如,新的输入数据(诸如客户数据集5606),和/或与输入数据相关联的新的地面实况数据)重新训练或更新初始模型5604(例如,预训练模型)。在至少一个实施例中,为了重新训练或更新初始模型5604,可以重置或删除初始模型5604的输出或损失层,和/或用更新的或新的输出或损失层代替。在至少一个实施例中,初始模型5604可以具有从先前的训练中保留下来的先前精细调整的参数(例如,权重和/或偏差),因此训练或重新训练5214可能不需要花费与从头开始训练模型一样长的时间或不需要那么多的处理。在至少一个实施例中,在模型训练5214期间,通过重置或替换初始模型5604的输出或损失层,在新的客户数据集5606(例如图52的图像数据5208)上生成预测时,可以基于与输出或损失层的精度相关联的损失计算,更新和重新调整新数据集的参数。
在至少一个实施例中,可以将经预训练的模型5306存储在数据存储或注册表中(例如,图52的模型注册表5224)。在至少一个实施例中,经预训练的模型5306可能已经至少部分地在除了执行过程5600的设施之外的一个或更多个设施处被训练。在至少一个实施例中,为了保护患者、受试者或不同设施的客户的隐私和权利,经预训练的模型5306可能已经使用本地生成的客户或患者数据在本地进行了训练。在至少一个实施例中,可以使用云5326和/或其他硬件5222来训练经预训练的模型5306,但是机密的、受隐私保护的患者数据可以不被传送到云5326的任何组件(或其他非本地硬件)、由其使用或由其访问。在至少一个实施例中,如果使用来自不止一个设施的患者数据来训练经预训练的模型5306,则在来自另一设施的患者或客户数据上进行训练之前,经预训练的模型5306可能已经针对每个设施进行了单独训练。在至少一个实施例中,例如在客户或患者数据已发布隐私问题(例如,通过放弃,用于实验用途等),或者其中客户或患者数据包括在公共数据集中的情况下,来自任意数量的设施的客户或患者数据可以用于在本地和/或外部训练经预训练的模型5306,例如在数据中心中或其他云计算基础设施中。
在至少一个实施例中,在选择应用程序以在部署管线5310中使用时,用户还可以选择用于特定应用程序的机器学习模型。在至少一个实施例中,用户可能没有模型以使用,因此用户可以选择要与应用程序一起使用的经预训练的模型5306。在至少一个实施例中,经预训练的模型5306可能没有被优化用于在用户设施的客户数据集5606上生成准确的结果(例如,基于患者多样性、人口统计、所使用的医学成像设备的类型等)。在至少一个实施例中,在将经预训练的模型5306部署到部署管线5310中以与一个或更多个应用程序一起使用之前,经预训练的模型5306可以被更新、重新训练和/或微调,以用于在各个设施处使用。
在至少一个实施例中,用户可以选择要更新、重新训练和/或微调的经预训练的模型5306,并且经预训练的模型5306可以称为过程5600中训练系统5204的初始模型5604。在至少一个实施例中,客户数据集5606(例如,成像数据、基因组数据、测序数据或由设施处的设备生成的其他数据类型)可用于对初始模型5604执行模型训练5214(其可包括但不限于传递学习),以生成精炼模型5612。在至少一个实施例中,可以由训练系统5204生成与客户数据集5606相对应的地面实况数据。在至少一个实施例中,可以至少部分地由临床医生、科学家、医生、从业者在设施处生成地面实况数据(例如,如图52中的标记的临床数据5212)。
在至少一个实施例中,在一些示例中可以使用AI辅助注释5210来生成地面实况数据。在至少一个实施例中,AI辅助注释5210(例如,使用AI辅助注释SDK实现)可以利用机器学习模型(例如,神经网络)来生成用于客户数据集的建议或预测的地面实况数据。在至少一个实施例中,用户5610可以在计算设备5608上的用户界面(图形用户界面(GUI))内使用注释工具。
在至少一个实施例中,用户5610可以经由计算设备5608与GUI交互,以编辑或微调注释或自动注释。在至少一个实施例中,多边形编辑特征可以用于将多边形的顶点移动到更精确或微调的位置。
在至少一个实施例中,一旦客户数据集5606具有相关联的地面实况数据,则地面实况数据(例如,来自AI辅助注释、手动标记等)可以在模型训练5214期间用于生成精炼模型5612。在至少一个实施例中,客户数据集5606可以被应用到初始模型5604任意次数,并且地面实况数据可以用于更新初始模型5604的参数,直到对于精炼模型5612达到可接受的精度水平为止。在至少一个实施例中,一旦生成精炼模型5612,就可以在设施处的一个或更多个部署管线5310内部署精炼模型5612,以用于执行关于医学成像数据的一个或更多个处理任务。
在至少一个实施例中,可以将精炼模型5612上传到模型注册表5224中的经预训练的模型5306,以由另一个设施选择。在至少一个实施例中,他的过程可以在任意数量的设施处完成,使得可以在新数据集上对精炼模型5612进一步精炼任意次数,以生成更通用的模型。
在至少一个实施例中,关于图56A所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图56A所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图56A所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图56A所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图56A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图56A所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图56A所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图56B是根据至少一个实施例的用于利用经预训练的注释模型来增强注释工具的客户端-服务器架构5632的示例图示。在至少一个实施例中,可以基于客户端-服务器架构5632来实例化AI辅助注释工具5636。在至少一个实施例中,成像应用程序中的注释工具5636可以帮助放射线医生,例如识别器官和异常。在至少一个实施例中,成像应用程序可以包括软件工具,作为非限制性示例,所述软件工具帮助用户5610识别原始图像5634中(例如,在3D MRI或CT扫描中)的特定感兴趣器官上的几个极值点,并接收特定器官的所有2D切片的自动注释结果。在至少一个实施例中,结果可以作为训练数据5638存储在数据存储中,并且用作(例如但不限于)用于训练的地面实况数据。在至少一个实施例中,当计算设备5608发送用于AI辅助注释5210的极值点时,例如,深度学习模型可以接收该数据作为输入并返回分割器官或异常的推理结果。在至少一个实施例中,预实例化的注释工具(例如图56B中的AI辅助注释工具5636B)可以通过对服务器(诸如注释助手服务器5640)进行API调用(例如API调用5644)来增强,注释助手服务器5640可包括存储在例如注释模型注册表中的一组经预训练的模型5642。在至少一个实施例中,注释模型注册表可以存储经预训练的模型5642(例如,机器学习模型,诸如深度学习模型),其被预训练以对特定器官或异常执行AI辅助注释。在至少一个实施例中,可以通过使用训练管线5304来进一步更新这些模型。在至少一个实施例中,随着添加新的标记的临床数据5212,可以随时间改进预安装的注释工具。
推理和/或训练逻辑2315用于执行与一个或更多个实施例相关联的推理和/或训练操作。本文结合图23A和/或图23B提供关于推理和/或训练逻辑2315的细节。
在至少一个实施例中,关于图56B所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图56B所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图56B所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图56B所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图56B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图56B所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图56B所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
软件系统
图57示出了根据至少一个实施例的编程平台的软件栈。在至少一个实施例中,编程平台是用于利用计算系统上的硬件来加速计算任务的平台。在至少一个实施例中,软件开发人员可以通过库、编译器指令和/或对编程语言的扩展来访问编程平台。在至少一个实施例中,编程平台可以是但不限于CUDA,Radeon开放计算平台(“ROCm”),OpenCL(由Khronosgroup开发的OpenCLTM),SYCL或Intel One API。
在至少一个实施例中,编程平台的软件栈5700为应用程序5701提供执行环境。在至少一个实施例中,应用程序5701可以包括能够在软件栈5700上启动的任何计算机软件。在至少一个实施例中,应用程序5701可以包括但不限于人工智能(“AI”)/机器学习(“ML”)应用程序,高性能计算(“HPC”)应用程序,虚拟桌面基础架构(“VDI”)或数据中心工作负载。
在至少一个实施例中,应用程序5701和软件栈5700在硬件5707上运行。在至少一个实施例中,硬件5707可以包括一个或更多个GPU,CPU,FPGA,AI引擎和/或支持编程平台的其他类型的计算设备。在至少一个实施例中,例如采用CUDA,软件栈5700可以是厂商专用的,并且仅与来自特定厂商的设备兼容。在至少一个实施例中,例如在采用OpenCL中,软件栈5700可以与来自不同供应商的设备一起使用。在至少一个实施例中,硬件5707包括连接到一个或更多个设备的主机,该设备可经由应用程序编程接口(“API”)调用被访问以执行计算任务。在至少一个实施例中,与硬件5707内的主机相比,其可以包括但不限于CPU(但还可以包括计算设备)及其存储器,硬件5707内的设备可以包括但不限于GPU,FPGA,AI引擎或其他计算设备(但还可以包括CPU)及其存储器。
在至少一个实施例中,编程平台的软件栈5700包括但不限于多个库5703,运行时(runtime)5705和设备内核驱动器5706。在至少一个实施例中,库5703中的每个库可以包括可以由计算机程序使用并在软件开发期间利用的数据和编程代码。在至少一个实施例中,库5703可以包括但不限于预写的代码和子例程,类,值,类型规范,配置数据,文档,帮助数据和/或消息模板。在至少一个实施例中,库5703包括被优化用于在一种或更多种类型的设备上执行的函数。在至少一个实施例中,库5703可以包括但不限于用于在设备上执行数学、深度学习和/或其他类型的运算的函数。在至少一个实施例中,库5703与对应的API 5702相关联,API 5702可包括一个或更多个API,其暴露在库5703中实现的函数。
在至少一个实施例中,将应用程序5701编写为源代码,该源代码被编译成可执行代码,如下面结合图62更详细讨论的。在至少一个实施例中,应用程序5701的可执行代码可以至少部分地在由软件栈5700提供的执行环境上运行。在至少一个实施例中,在应用程序5701的执行期间,可以得到需要在设备(与主机相比)上运行的代码。在这种情况下,在至少一个实施例中,可以调用运行时5705以在设备上加载和启动必需的代码。在至少一个实施例中,运行时5705可以包括能够支持应用程序5701的执行的任何技术上可行的运行时系统。
在至少一个实施例中,运行时5705被实现为与对应的API(其被示为API 5704)相关联的一个或更多个运行时库。在至少一个实施例中,一个或更多个这样的运行时库可以包括但不限于用于存储器管理,执行控制,设备管理,错误处理和/或同步等等的函数。在至少一个实施例中,存储器管理函数可以包括但不限于用于分配、解除分配和复制设备存储器以及在主机存储器和设备存储器之间传输数据的函数。在至少一个实施例中,执行控制函数可以包括但不限于在设备上启动函数(当函数是可从主机调用的全局函数时,有时称为“内核”)的函数,和用于在运行时库为要在设备上执行的给定函数维护的缓冲区中设置属性值的函数。
在至少一个实施例中,可以任何技术上可行的方式来实现运行时库和相应的API5704。在至少一个实施例中,一个(或任意数量的)API可以公开用于设备的细粒度控制的低级函数集,而另一(或任意数量的)API可以公开这样的较高级的函数集。在至少一个实施例中,可以在低级API之上构建高级运行时API。在至少一个实施例中,一个或更多个运行时API可以是在与语言无关的运行时API之上分层的特定于语言的API。
在至少一个实施例中,设备内核驱动器5706被配置为促进与底层设备的通信。在至少一个实施例中,设备内核驱动器5706可以提供诸如API 5704之类的API和/或其他软件所依赖的低级函数。在至少一个实施例中,设备内核驱动器5706可以被配置为在运行时将中间表示(“IR”)代码编译成二进制代码。在至少一个实施例中,对于CUDA,设备内核驱动器5706可以在运行时将非硬件专用的并行线程执行(“PTX”)IR代码编译为用于特定目标设备的二进制代码(高速缓存已编译的二进制代码),其有时也称为“最终”代码。在至少一个实施例中,这样做可以允许最终代码在目标设备上运行,而当源代码最初被编译为PTX代码时,该目标设备可能不存在。备选地,在至少一个实施例中,设备源代码可以离线地编译成二进制代码,而不需要设备内核驱动器5706在运行时编译IR代码。
在至少一个实施例中,关于图57所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图57所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图57所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图57所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图57所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图57所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图57所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图58示出了根据至少一个实施例的图57的软件栈5700的CUDA实现。在至少一个实施例中,可在其上启动应用程序5801的CUDA软件栈5800包括CUDA库5803,CUDA运行时5805,CUDA驱动器5807和设备内核驱动器5808。在至少一个实施例中,CUDA软件栈5800在硬件5809上执行,该硬件5809可以包括支持CUDA的GPU,其由加利福尼亚州圣克拉拉市的NVIDIA公司开发。
在至少一个实施例中,应用程序5801、CUDA运行时5805和设备内核驱动器5808可以分别执行与应用程序5701、运行时5705和设备内核驱动器5706类似的功能,以上结合图57对其进行了描述。在至少一个实施例中,CUDA驱动器5807包括实现CUDA驱动器API 5806的库(libcuda.so)。在至少一个实施例中,类似于由CUDA运行时库(cudart)实现的CUDA运行时API 5804,CUDA驱动器API 5806可以公开但不限于用于存储器管理、执行控制、设备管理、错误处理、同步和/或图形互操作性等的函数。在至少一个实施例中,CUDA驱动器API5806与CUDA运行时API 5804的不同之处在于,CUDA运行时API 5804通过提供隐式初始化、上下文(类似于进程)管理和模块(类似于动态加载的库)管理来简化设备代码管理。与高级CUDA运行时API 5804相反,在至少一个实施例中,CUDA驱动器API 5806是提供对设备的更细粒度控制的低级API,特别是关于上下文和模块加载。在至少一个实施例中,CUDA驱动器API 5806可以公开没有由CUDA运行时API 5804公开的用于上下文管理的函数。在至少一个实施例中,CUDA驱动器API 5806也与语言无关,并且除了支持CUDA运行时API 5804之外,还支持例如OpenCL。此外,在至少一个实施例中,包括CUDA运行时5805在内的开发库可被视为与驱动器组件分离,包括用户模式的CUDA驱动器5807和内核模式的设备驱动器5808(有时也称为“显示”驱动器)。
在至少一个实施例中,CUDA库5803可以包括但不限于数学库,深度学习库,并行算法库和/或信号/图像/视频处理库,并行计算应用程序(例如应用程序5801)可以利用这些库。在至少一个实施例中,CUDA库5803可包括数学库,例如cuBLAS库,其是用于执行线性代数运算的基本线性代数子程序(“BLAS”)的实现;用于计算快速傅立叶变换(“FFT”)的cuFFT库,以及用于生成随机数的cuRAND库等。在至少一个实施例中,CUDA库5803可以包括深度学习库,诸如用于深度神经网络的基元的cuDNN库和用于高性能深度学习推理的TensorRT平台等等。
在至少一个实施例中,关于图58所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图58所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图58所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图58所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图58所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图58所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图58所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图59示出了根据至少一个实施例的图57的软件栈5700的ROCm实现。在至少一个实施例中,可在其上启动应用程序5901的ROCm软件栈5900包括语言运行时5903,系统运行时5905,thunk 5907,ROCm内核驱动器5908和设备内核驱动器5909。在至少一个实施例中,ROCm软件栈5900在硬件5910上执行,硬件5910可以包括支持ROCm的GPU,其由加利福尼亚州圣克拉拉市的AMD公司开发。
在至少一个实施例中,应用程序5901可以执行与以上结合图57讨论的应用程序5701类似的功能。另外,在至少一个实施例中,语言运行时5903和系统运行时5905可以执行与以上结合图57讨论的运行时5705类似的功能。在至少一个实施例中,语言运行时5903和系统运行时5905的不同之处在于,系统运行时5905是实现ROCr系统运行时API 5904并利用异构系统架构(“HAS”)运行时API的语言无关运行时。在至少一个实施例中,HAS运行时API是一种瘦用户模式API,它公开接口以供访问和与AMD GPU交互,包括用于存储器管理、通过架构分派内核的执行控制、错误处理、系统和代理信息以及运行时初始化和关闭等的函数。在至少一个实施例中,与系统运行时5905相比,语言运行时5903是ROCr系统运行时API5904之上分层的特定于语言的运行时API 5902的实现。在至少一个实施例中,语言运行时API可以包括但不限于可移植异构计算接口(“HIP”)语言运行时API,异构计算编译器(“HCC”)语言运行时API或OpenCL API等等。特别是,HIP语言是C++编程语言的扩展,具有CUDA机制的功能相似版本,并且在至少一个实施例中,HIP语言运行时API包括与以上结合图58讨论的CUDA运行时API 5804相似的函数,例如用于存储器管理、执行控制、设备管理、错误处理和同步等的函数。
在至少一个实施例中,thunk(ROCt)5907是可用于与底层ROCm驱动器5908交互的接口。在至少一个实施例中,ROCm驱动器5908是ROCk驱动器,其是AMDGPU驱动器和HAS内核驱动器(amdkfd)的组合。在至少一个实施例中,AMDGPU驱动器是由AMD开发的用于GPU的设备内核驱动器,其执行与以上结合图57讨论的设备内核驱动器5706类似的功能。在至少一个实施例中,HAS内核驱动器是允许不同类型的处理器经由硬件特征更有效地共享系统资源的驱动器。
在至少一个实施例中,各种库(未示出)可以被包括在语言运行时5903上方的ROCm软件栈5900中,并且提供与以上结合图58讨论的CUDA库5803相似的功能。在至少一个实施例中,各种库可以包括但不限于数学、深度学习和/或其他库,例如实现与CUDA cuBLAS类似的函数的hipBLAS库,类似于CUDA cuFFT用于计算FFT的rocFFT库等。
在至少一个实施例中,关于图59所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图59所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图59所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图59所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图59所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图59所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图59所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图60示出了根据至少一个实施例的图57的软件栈5700的OpenCL实现。在至少一个实施例中,可以在其上启动应用程序6001的OpenCL软件栈6000包括OpenCL帧6005,OpenCL运行时6006和驱动器6007。在至少一个实施例中,OpenCL软件栈6000在不是特定于供应商的硬件5809上执行。在至少一个实施例中,由于由不同厂商开发的设备支持OpenCL,因此可能需要特定的OpenCL驱动器才能与来自此类厂商的硬件进行互操作。
在至少一个实施例中,应用程序6001,OpenCL运行时6006,设备内核驱动器6007和硬件6008可以分别执行与上面结合图57讨论的应用程序5701、运行时5705、设备内核驱动器5706和硬件5707类似的功能。在至少一个实施例中,应用程序6001还包括具有将在设备上执行的代码的OpenCL内核6002。
在至少一个实施例中,OpenCL定义了一种“平台”,其允许主机控制连接到该主机的设备。在至少一个实施例中,OpenCL帧提供平台层API和运行时API,示出为平台API 6003和运行时API 6009。在至少一个实施例中,运行时API 6009使用上下文来管理设备上内核的执行。在至少一个实施例中,每个标识的设备可以与各自的上下文相关联,运行时API6009可以使用该上下文来管理该设备的命令队列、程序对象和内核对象、共享存储器对象等。在至少一个实施例中,平台API 6003公开了允许设备上下文用于选择和初始化设备,经由命令队列将工作提交给设备,以及使得能够进行来自和去往设备的数据传输等的函数。另外,在至少一个实施例中,OpenCL帧提供各种内置函数(未示出),包括数学函数、关系函数和图像处理函数等。
在至少一个实施例中,编译器6004也被包括在OpenCL帧6005中。在至少一个实施例中,源代码可以在执行应用程序之前被离线编译或者在执行应用程序期间被在线编译。与CUDA和ROCm相反,至少一个实施例中的OpenCL应用程序可以由编译器6004在线编译,编译器6004被包括以代表可以用于将源代码和/或IR代码(例如标准可移植中间表示(“SPIR-V”)代码)编译为二进制代码的任意数量的编译器。可替代地,在至少一个实施例中,可以在执行这样的应用程序之前离线编译OpenCL应用程序。
在至少一个实施例中,关于图60所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图60所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图60所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图60所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图60所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图60所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图60所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图61示出了根据至少一个实施例的由编程平台支持的软件。在至少一个实施例中,编程平台6104被配置为支持应用程序6100可以依赖的各种编程模型6103、中间件和/或库6102以及框架6101。在至少一个实施例中,应用程序6100可以是使用例如深度学习框架(诸如,MXNet,PyTorch或TensorFlow)实现的AI/ML应用,其可以依赖于诸如cuDNN,NVIDIACollective Communications Library(“NCCL”)”和/或NVIDIA开发人员数据加载库(“DALI”)CUDA库之类的库,以在底层硬件上提供加速的计算。
在至少一个实施例中,编程平台6104可以是以上分别结合图58、图59和图60描述的CUDA、ROCm或OpenCL平台之一。在至少一个实施例中,编程平台6104支持多个编程模型6103,其是底层计算系统的抽象,其允许算法和数据结构的表达。在至少一个实施例中,编程模型6103可以暴露底层硬件的特征以便改善性能。在至少一个实施例中,编程模型6103可以包括但不限于CUDA,HIP,OpenCL,C++加速大规模并行性(“C++AMP”),开放多处理(“OpenMP”),开放加速器(“OpenACC”)和/或Vulcan计算(Vulcan Compute)。
在至少一个实施例中,库和/或中间件6102提供编程模型6104的抽象的实现。在至少一个实施例中,这样的库包括可由计算机程序使用并在软件开发期间利用的数据和编程代码。在至少一个实施例中,除了可以从编程平台6104获得的那些之外,这样的中间件还包括向应用程序提供服务的软件。在至少一个实施例中,库和/或中间件6102可以包括但不限于cuBLAS、cuFFT、cuRAND和其他CUDA库,或rocBLAS、rocFFT、rocRAND和其他ROCm库。另外,在至少一个实施例中,库和/或中间件6102可以包括NCCL和ROCm通信集合库(“RCCL”)库,其提供用于GPU的通信例程,用于深度学习加速的MIOpen库和/或用于线性代数、矩阵和向量运算、几何变换、数值求解器以及相关算法的本征库。
在至少一个实施例中,应用程序框架6101依赖于库和/或中间件6102。在至少一个实施例中,每个应用程序框架6101是用于实现应用软件的标准结构的软件框架。在至少一个实施例中,可以使用框架(诸如Caffe,Caffe2,TensorFlow,Keras,PyTorch或MxNet深度学习框架)来实现AI/ML应用。
在至少一个实施例中,关于图61所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图61所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图61所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图61所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图61所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图61所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图61所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图62示出了根据至少一个实施例的编译代码以在图57-60的编程平台之一上执行。在至少一个实施例中,编译器6201接收源代码6200,其包括主机代码以及设备代码两者。在至少一个实施例中,编译器6201被配置为将源代码6200转换为用于在主机上执行的主机可执行代码6202以及用于在设备上执行的设备可执行代码6203。在至少一个实施例中,源代码6200可以在执行应用程序之前离线编译,或者在执行应用程序期间在线编译。
在至少一个实施例中,源代码6200可以包括编译器6201支持的任何编程语言的代码,例如C++、C、Fortran等。在至少一个实施例中,源代码6200可以包括在单源(single-source)文件中,其具有主机代码和设备代码的混合,并在其中指示了设备代码的位置。在至少一个实施例中,单源文件可以是包括CUDA代码的.cu文件或包括HIP代码的.hip.cpp文件。备选地,在至少一个实施例中,源代码6200可以包括多个源代码文件,而不是单源文件,在该单源文件中主机代码和设备代码是分开的。
在至少一个实施例中,编译器6201被配置为将源代码6200编译成用于在主机上执行的主机可执行代码6202和用于在设备上执行的设备可执行代码6203。在至少一个实施例中,编译器6201执行操作,包括将源代码6200解析为抽象系统树(AST),执行优化以及生成可执行代码。在源代码6200包括单源文件的至少一个实施例中,编译器6201可以将设备代码与主机代码在这种单源文件中分开,将设备代码和主机代码分别编译成设备可执行代码6203和主机可执行代码6202,以及将设备可执行代码6203和主机可执行代码6202在单个文件中链接到一起。
在至少一个实施例中,主机可执行代码6202和设备可执行代码6203可以是任何合适的格式,例如二进制代码和/或IR代码。在CUDA的情况下,在至少一个实施例中,主机可执行代码6202可以包括本地对象代码,而设备可执行代码6203可以包括PTX中间表示的代码。在至少一个实施例中,在ROCm的情况下,主机可执行代码6202和设备可执行代码6203都可以包括目标二进制代码。
在至少一个实施例中,关于图62所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图62所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图62所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图62所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图62所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图62所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图62所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
计算设备
图63示出了根据至少一个实施例的多媒体系统。在至少一个实施例中,多媒体系统被称为游戏系统、多媒体控制台、游戏控制台和/或其变型。在至少一个实施例中,图63示出了计算机游戏处理设备的总体系统架构。
在至少一个实施例中,多媒体系统6300包括图形处理单元(GPU)6302。在至少一个实施例中,GPU 6302(可选地与CPU 6304结合)生成视频图像和音频,用于经由音频/视频(A/V)输出6308输出。在至少一个实施例中,结合音频处理器或替代地由音频处理器生成音频。在至少一个实施例中,GPU 6302利用视频编码器/视频编解码器(例如,编码器/解码器)形成用于图形处理的视频处理管线。在至少一个实施例中,将数据从GPU 6302提供到视频编码器/视频编解码器,并输出到A/V输出6308以便传输到显示器。在至少一个实施例中,GPU 6302连接到一个或更多个存储器控制器以便于访问不同类型的存储器,诸如随机存取存储器(RAM)6306。
在至少一个实施例中,GPU 6302是包括中央处理单元(CPU)6304的处理单元的一部分。在至少一个实施例中,GPU 6302和CPU 6304是加速处理单元(APU)的一部分。在至少一个实施例中,一个或更多个CPU 6304至少包括1级高速缓存、2级高速缓存和存储器。在至少一个实施例中,1级高速缓存和2级高速缓存临时存储数据并且减少存储器访问周期的数量。在至少一个实施例中,CPU 6304包括至少一个或更多个核心和一个或更多个级高速缓存。在至少一个实施例中,CPU 6304的存储器存储引导过程期间加载的可执行代码,例如当多媒体系统6300通电时。
在至少一个实施例中,GPU 6302和CPU 6304任选地经由输入/输出(I/O)桥接器6310与总线6312通信,该输入/输出(I/O)桥接器6310可以是GPU 6302和CPU 6304的分立组件或部分。在至少一个实施例中,数据存储部件(如系统存储器6326)和输入数据6328被连接到总线6312上。在至少一个实施例中,RAM 6306还与总线6312通信。在至少一个实施例中,一个或更多个辅助处理器6324连接到总线6312。在至少一个实施例中,提供辅助处理器6324来运行或支持结合多媒体系统6300执行的一个或更多个软件、软件应用、操作系统和/或其变型。
在至少一个实施例中,系统存储器6326存储在引导过程期间加载的应用数据。在至少一个实施例中,输入数据6328包括DVD/CD驱动器、蓝光驱动器、硬盘驱动器或其他可移动介质驱动器。在至少一个实施例中,输入数据6328在多媒体系统6300的外部或内部。在至少一个实施例中,经由输入数据6328访问应用数据以用于执行、回放和/或其变化。在至少一个实施例中,输入数据6328经由总线6312连接到I/O桥接器6310。
在至少一个实施例中,多媒体系统6300的一个或更多个组件经由一条或更多条总线连接,这些总线包括串行和并行总线、存储器总线、外围总线、以及使用各种总线架构(如外围组件互连(PCI)总线、PCI Express总线、和/或其变体)的处理器或局部总线。在至少一个实施例中,多媒体系统6300适当地经由音频/视频(A/V)输入端口6314、以太网端口6316、蓝牙无线链路6318、WiFi无线链路6320或一个或更多个通用串行总线(USB)端口6322与外围设备进行通信。在至少一个实施例中,经由A/V输出6308(如HDMI端口)输出音频和视频。
在至少一个实施例中,多媒体系统6300的视频和任选地音频通过A/V输出6308输出至一个或更多个显示设备。在至少一个实施例中,显示设备包括诸如电视、电子显示器、计算机监视器和/或其变形的设备。在至少一个实施例中,以不同形式(诸如立体)呈现视频。在至少一个实施例中,音频是通过一个或更多个音频设备以多种格式(诸如立体声、5.1环绕声或7.1环绕声)中的一种来呈现的。在至少一个实施例中,视频和音频被呈现给由用户佩戴的头戴式显示单元,诸如虚拟现实设备。
在至少一个实施例中,在多媒体系统6300启动时,将应用数据从系统存储器6326加载到CPU 6304的一个或更多个存储器和/或高速缓存中并且在CPU 6304上执行。在至少一个实施例中,应用程序呈现在导航至多媒体系统6300上可用的不同服务时提供用户体验的图形用户界面。在至少一个实施例中,从输入数据6328启动或播放输入数据6328的应用、媒体和/或其变形以向多媒体系统6300提供附加功能、应用、媒体和/或其变形。
在至少一个实施例中,多媒体系统6300被配置为根据来自系统存储器6326的应用数据和输入数据6328来执行与计算机游戏相关联的可执行程序。
在至少一个实施例中,关于图63所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图63所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图63所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图63所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图63所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图63所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图63所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图64示出了根据至少一个实施例的分布式系统6400。在至少一个实施例中,分布式系统6400包括一个或更多个客户端计算设备6402、6404、6406和6408,该一个或更多个客户端计算设备6402、6404、6406和6408被配置为在一个或更多个网络6410上执行和操作诸如web浏览器、专有客户端和/或其变型的客户端应用。在至少一个实施例中,服务器6412可以经由网络6410与远程客户端计算设备6402、6404、6406和6408通信地耦合。
在至少一个实施例中,服务器6412可以被适配成用于运行一个或更多个服务或软件应用,如可以管理跨多个数据中心的单点登录(SSO)访问的会话活动的服务和应用。在至少一个实施例中,服务器6412还可以提供可以包括非虚拟和虚拟环境的其他服务或软件应用。在至少一个实施例中,这些服务可作为基于web的服务或云服务或者在软件即服务(SaaS)模型下提供给客户端计算设备6402、6404、6406和/或6408的用户。在至少一个实施例中,操作客户端计算设备6402、6404、6406和/或6408的用户可进而利用一个或更多个客户端应用与服务器6412交互以利用由这些组件提供的服务。
在至少一个实施例中,系统6400的软件组件6418、6420和6422在服务器6412上实现。在至少一个实施例中,系统6400的一个或更多个组件和/或由这些组件提供的服务还可由客户端计算设备6402、6404、6406和/或6408中的一个或更多个实现。在至少一个实施例中,操作客户端计算设备的用户然后可以利用一个或更多个客户端应用来使用由这些组件提供的服务。在至少一个实施例中,这些组件可以在硬件、固件、软件或其组合中实现。应了解,各种不同系统配置是可能的,其可不同于分布式系统6400。因此,图64中所示的实施例是用于实现实施例系统的分布式系统的一个示例,并不旨在进行限制。
在至少一个实施例中,客户端计算设备6402、6404、6406和/或6408可以包括各种类型的计算系统。在至少一个实施例中,客户端计算设备可以包括便携式手持设备(例如,蜂窝电话、计算平板、个人数字助理(PDA))或可穿戴设备(例如,Google头戴式显示器),运行诸如Microsoft Windows的软件和/或诸如iOS、Windows Phone、Android、黑莓10、Palm OS的各种移动操作系统和/或其变型。在至少一个实施例中,设备可以支持各种应用,诸如各种互联网相关的应用、电子邮件、短消息服务(SMS)应用,并且可以使用各种其他通信协议。在至少一个实施例中,客户端计算设备还可以包括通用个人计算机,例如包括运行各种版本的MicrosoftApple和/或Linux操作系统的个人计算机和/或膝上型计算机。在至少一个实施例中,客户端计算设备可以是运行各种可商购的或类似UNIX的操作系统中的任何一种的工作站计算机,包括但不限于各种GNU/Linux操作系统,例如Google Chrome OS。在至少一个实施例中,客户端计算设备还可以包括能够通过网络6410进行通信的电子设备,如瘦客户端计算机、启用互联网的游戏系统(例如,具有或不具有手势输入设备的微软Xbox游戏控制台)、和/或个人消息传送设备。尽管图64中的分布式系统6400被示出为具有四个客户端计算设备,但可支持任何数量的客户端计算设备。其他设备(诸如具有传感器的设备等)可与服务器6412交互。
在至少一个实施例中,分布式系统6400中的一个或更多个网络6410可以是能够使用多种可用协议中的任一种支持数据通信的任何类型的网络,包括但不限于TCP/IP(传输控制协议/互联网协议)、SNA(系统网络架构)、IPX(互联网分组交换)、AppleTalk、和/或其变型。在至少一个实施例中,一个或更多个网络6410可以是局域网(LAN)、基于以太网的网络、令牌环、广域网、互联网、虚拟网络、虚拟专用网(VPN)、内联网、外联网、公共交换电话网(PSTN)、红外网络、无线网络(例如,在电气和电子协会(IEEE)802.11协议族、和/或任何其他无线协议中的任一个下操作的网络)、和/或这些和/或其他网络的任何组合。
在至少一个实施例中,服务器6412可以由一个或更多个通用计算机、专用服务器计算机(举例来讲,包括PC(个人计算机)服务器、服务器、中程服务器、大型计算机、机架安装服务器等)、服务器群、服务器集群、或任何其他适当的布置和/或组合组成。在至少一个实施例中,服务器6412可以包括运行虚拟操作系统的一个或更多个虚拟机、或涉及虚拟化的其他计算架构。在至少一个实施例中,可以虚拟化逻辑存储设备的一个或更多个灵活池以为服务器维护虚拟存储设备。在至少一个实施例中,可以由服务器6412使用软件定义的联网来控制虚拟网络。在至少一个实施例中,服务器6412可以被适配成用于运行一个或更多个服务或软件应用。在至少一个实施例中,服务器6412包括实施神经网络的一个或更多个硬件和/或软件组件,如结合图65至图69所描述的那些。在至少一个实施例中,服务器6412包括被称为深度学习超采样网络的一个或更多个神经网络,该一个或更多个神经网络生成高质量版本的输入帧(例如,计算机图形程序(如视频游戏程序)的渲染帧)。
在至少一个实施例中,服务器6412可以运行任何操作系统、以及任何可商购的服务器操作系统。在至少一个实施例中,服务器6412还可以运行多种附加服务器应用和/或中层应用中的任何一种,包括HTTP(超文本传输协议)服务器、FTP(文件传输协议)服务器、CGI(通用网关接口)服务器、服务器、数据库服务器、和/或其变体。在至少一个实施例中,示例性数据库服务器包括但不限于从Oracle、Microsoft、Sybase、IBM(国际商业机器)和/或其变型可商购的那些。
在至少一个实施例中,服务器6412可包括用于分析和合并从客户端计算设备6402、6404、6406和6408的用户接收的数据馈送和/或事件更新的一个或更多个应用。在至少一个实施例中,数据馈送和/或事件更新可以包括但不限于:从一个或更多个第三方信息源和连续数据流接收的馈送、更新或实时更新,其可以包括与传感器数据应用、金融票据、网络性能测量工具(例如,网络监测和流量管理应用)、点击流分析工具、汽车流量监测和/或其变型相关的实时事件。在至少一个实施例中,服务器6412还可包括用于经由客户端计算设备6402、6404、6406和6408的一个或更多个显示设备显示数据馈送和/或实时事件的一个或更多个应用。
在至少一个实施例中,分布式系统6400还可以包括一个或更多个数据库6414和6416。在至少一个实施例中,数据库可提供用于存储诸如用户交互信息、使用模式信息、适配规则信息和其他信息的信息的机制。在至少一个实施例中,数据库6414和6416可以驻留在多个位置。在至少一个实施例中,一个或更多个数据库6414和6416可以驻留在服务器6412本地的(和/或驻留在其中)非瞬态存储介质上。在至少一个实施例中,数据库6414和6416可远离服务器6412并且经由基于网络的或专用连接与服务器6412通信。在至少一个实施例中,数据库6414和6416可以驻留在存储区域网络(SAN)中。在至少一个实施例中,用于执行归属于服务器6412的功能的任何必要文件可以本地存储在服务器6412上和/或在适当时远程存储。在至少一个实施例中,数据库6414和6416可包括关系数据库,诸如适于响应于SQL格式化的命令来存储、更新和检索数据的数据库。
在至少一个实施例中,关于图64所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图64所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图64所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图64所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图64所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图64所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图64所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
超级采样神经网络
图65示出了根据至少一个实施例的超采样神经网络。在至少一个实施例中,神经网络6506被称为超采样神经网络、深度学习超采样(DLSS)网络、超采样网络和/或其变型。在至少一个实施例中,输入帧6502和运动向量6504由神经网络6506处理以生成输出帧6508。在至少一个实施例中,诸如结合图65-69描述的那些神经网络是DLSS网络。
在至少一个实施例中,输入帧6502是图像。在至少一个实施例中,输入帧6502是由一个或更多个计算机图形程序或软件生成的计算机生成的图像。在至少一个实施例中,输入帧6502是从一个或更多个图像捕获设备(如摄像机)捕获的图像。在至少一个实施例中,输入帧6502是视频的帧集合中的帧。在至少一个实施例中,输入帧6502是从一个或更多个视频捕获设备(诸如摄像机)捕获的视频的帧。在至少一个实施例中,输入帧6502是由一个或更多个计算机图形程序或软件生成的计算机生成的视频的帧。
在至少一个实施例中,输入帧6502是二维(2D)模型的渲染。在至少一个实施例中,输入帧6502是三维(3D)模型的渲染。在至少一个实施例中,输入帧6502由渲染计算机程序生成,该渲染计算机程序是包括可执行指令的计算机程序,当被执行时,这些指令至少部分地基于场景来生成图像。在至少一个实施例中,场景是指2D或3D模型。在至少一个实施例中,场景由各种特性来定义,诸如几何形状、视点、纹理、照明、阴影和/或其变化。在至少一个实施例中,计算机程序获得场景并且通过使用一个或更多个渲染算法来生成场景的图像。在至少一个实施例中,输入帧6502是通过使用一个或更多个光传输建模技术生成的图像。在至少一个实施例中,通过一个或更多个光栅化技术生成输入帧6502。在至少一个实施例中,通过一个或更多个光线投射技术来生成输入帧6502。在至少一个实施例中,通过一个或更多个光线追踪技术生成输入帧6502。
在至少一个实施例中,输入帧6502是由视频游戏程序生成的帧。在至少一个实施例中,视频游戏程序由包括生成实时计算机图形的图形硬件的一个或更多个计算设备执行。在至少一个实施例中,输入帧6502是实时生成的帧。在至少一个实施例中,输入帧6502是被预先渲染的帧。在至少一个实施例中,输入帧6502是在一个或更多个计算机图形显示硬件(诸如视频显示设备、移动设备、虚拟现实头戴式耳机和/或其变型)上显示的视频游戏的帧。在至少一个实施例中,视频游戏程序正在执行并生成3D场景,其中输入帧6502是3D场景的渲染。在至少一个实施例中,输入帧6502是由渲染设备以各种硬件和软件约束(诸如图形硬件限制、存储器限制和/或其变型)渲染的帧。
在至少一个实施例中,神经网络6506是获得输入帧并且生成输出帧的神经网络。在至少一个实施例中,神经网络6506是卷积自动编码器网络。在至少一个实施例中,神经网络6506是生成输入帧的更高质量版本的神经网络。在至少一个实施例中,帧的质量包括分辨率和混叠,其中高质量帧具有高分辨率和最小混叠。在至少一个实施例中,神经网络6506获得输入帧,并且生成具有比输入帧更高的分辨率和更低的混叠的输出帧。在至少一个实施例中,神经网络6506近实时地处理帧。在至少一个实施例中,近实时处理是指其中在从中生成输入的时间间隔内处理输入的处理。在至少一个实施例中,神经网络6506近实时地处理输入帧,使得在生成和/或呈现输入帧的时间间隔内处理所述输入帧。在至少一个实施例中,神经网络6506在一时间间隔内将输入帧处理成输出帧,使得输出帧可从具有最小等待时间的输入帧中获得。在至少一个实施例中,最小等待时间是指处于或低于定义的等待时间时间间隔阈值的等待时间。在至少一个实施例中,在具有最小等待时间的输入帧中可用的输出帧在定义的时间间隔内是可用的,所述定义的时间间隔可以是任何合适的值,诸如秒、一秒的分数和/或其变化。在至少一个实施例中,神经网络6506获得视频游戏的帧并且生成高分辨率、最低限度地混叠的输出帧。在至少一个实施例中,使用各种神经网络训练技术(诸如结合图66描述的那些技术)来训练神经网络6506。在至少一个实施例中,以可被感知为人类的连续移动的速率来生成输出帧,该速率可以指超过一定阈值的帧速率。在至少一个实施例中,以每秒20帧或超过20帧(fps)的目标速率生成输出帧,包括但不限于23.976fps、24fps、25fps、29.97fps、30fps、48fps、50fps、59.94fps、60fps、90fps、120fps、240fps和任何其他合适的目标帧速率。在至少一个实施例中,计算机系统可能缺乏计算资源来以目标帧速率(例如,以60fps的4K分辨率)连续地渲染高质量帧并且替代地渲染使用神经网络6506超采样以实现所述目标帧的较低分辨率帧(例如,以60fps渲染1080p分辨率并且超采样至4K分辨率)。
在至少一个实施例中,神经网络6506获得输入帧6502。在至少一个实施例中,神经网络6506从在一个或更多个计算设备(诸如视频游戏控制台、计算机、移动设备、和/或其变型)上执行的视频游戏程序获得输入帧6502。在至少一个实施例中,计算机程序(诸如视频游戏程序、计算机图形程序、渲染程序、和/或其变型)通过一个或更多个接口(诸如通过一个或更多个计算机网络发送、通过一个或更多个数据传送接口传送、和/或其变型)将输入帧6502提供给神经网络6506。在至少一个实施例中,神经网络6506获得输入帧6502,该输入帧是由视频游戏程序生成的图像。在至少一个实施例中,神经网络6506获得输入帧6502和相关联的运动向量6504,这些运动向量指示场景(例如,在输入帧6502中描绘的场景)中的对象正在移动的方向。在至少一个实施例中,运动向量是基于实体在先前帧中的位置来表示帧中的实体的向量。在至少一个实施例中,运动向量指示场景的帧的实体的移动或移动方向。在至少一个实施例中,运动向量6504包括指示输入帧6502的实体和/或对象的移动或移动方向的一个或更多个运动向量的集合。在至少一个实施例中,诸如视频游戏程序之类的程序生成输入帧6502和运动向量6504两者。
在至少一个实施例中,神经网络6506获得输入帧6502和运动向量6504,并且生成输出帧6508。在至少一个实施例中,神经网络6506从输入帧6502和/或相关联的运动向量6504生成输出帧6508。在至少一个实施例中,使用输入帧6502的高质量版本来训练神经网络6506,其中,经训练的神经网络6506生成输出帧6508以匹配输入帧6502的高质量版本。在至少一个实施例中,输出帧6508是输入帧6502的放大/较高分辨率版本。在至少一个实施例中,输出帧6508是输入帧6502的较高分辨率版本。在至少一个实施例中,输出帧6508具有比输入帧6502更低的混叠程度。在至少一个实施例中,输出帧6508是输入帧6502的更高质量的表示。在至少一个实施例中,神经网络6506获得输入帧6502(其是视频游戏的场景的实时渲染)和相关联的运动向量6504,并且生成输出帧6508(其是输入帧6502的高质量版本)。
在至少一个实施例中,关于图65所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图65所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图65所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图65所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图65所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图65所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图65所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图66示出了根据至少一个实施例的超采样神经网络的架构。在至少一个实施例中,神经网络6606被称为超采样神经网络、DLSS网络、超采样网络和/或其变型。在至少一个实施例中,神经网络6606被训练成从输入帧6602和运动向量6604生成输出帧6608。在至少一个实施例中,作为训练神经网络6606的一部分,将由神经网络6606生成的输出帧6608与参考帧6610进行比较以更新神经网络6606。
在至少一个实施例中,输入帧6602是根据结合图65描述的那些输入帧的输入帧。在至少一个实施例中,输入帧6602包括一个或更多个图像,称为帧。在至少一个实施例中,输入帧6602包括从一个或更多个图像和/或视频捕获设备捕获的一个或更多个图像。在至少一个实施例中,输入帧6602包括场景的一个或更多个渲染。在至少一个实施例中,输入帧6602包括由视频游戏程序生成的帧。在至少一个实施例中,视频游戏程序由包括生成实时计算机图形的图形硬件的一个或更多个计算设备执行。在至少一个实施例中,输入帧6602是被预先渲染的帧。在至少一个实施例中,视频游戏程序正在执行并生成3D场景,其中输入帧6602包括3D场景的渲染。在至少一个实施例中,输入帧6602是由渲染设备以不同硬件和软件约束(诸如图形硬件限制、存储器限制和/或其变型)渲染的帧。在至少一个实施例中,输入帧6602是用最小后处理技术(诸如抗混叠)渲染的帧(例如,输入帧6602包括用很小程度到没有程度的抗混叠渲染的帧)。
在至少一个实施例中,用于渲染的帧的后处理技术包括诸如但不限于以下各项的技术和效果:环境遮挡(例如,基于地平线的环境遮挡(HBAO)、屏幕空间环境遮挡(SSAO)),抗混叠(例如,快速近似抗混叠(FXAA)、超样本抗混叠(SSAA)、多采样抗混叠(MSAA)、时间抗混叠(TXAA))、布隆(bloom)、模糊(例如,景深、移动模糊),单元着色、色差、颜色校正、伽马校正、高动态范围渲染、粒子效应、着色、阴影映射、锐化、非锐化、放大、纹理滤波(例如,点、线性、双线性、三线性、各向异性),和/或其变型。在至少一个实施例中,输入帧6602是用很少或不用后处理技术和/或效果来渲染的帧。
在至少一个实施例中,运动向量6604是指示输入帧6602的帧的对象的移动方向的一个或更多个向量的集合。在至少一个实施例中,运动向量是基于实体在先前帧中的位置来表示帧中的实体的向量。在至少一个实施例中,运动向量指示场景的帧的实体的移动或移动方向。在至少一个实施例中,运动向量6604由渲染输入帧6602的程序生成并与输入帧6602对应,其中,运动向量6604的第一组运动向量与输入帧6602的第一帧对应并指示在输入帧6602的第一帧中描述的对象和/或实体的移动。在至少一个实施例中,运动向量6604的第一组运动向量与输入帧6602的第一帧相对应,并且指示输入帧6602的第一帧的对象的移动(例如,输入帧6602的第一帧的对象在输入帧6602的后续帧中将潜在地处于或者移动到的方向和/或位置)。在至少一个实施例中,运动向量6604包括视频游戏程序生成的运动向量。在至少一个实施例中,视频游戏程序正在执行并生成3D场景,其中运动向量6604包括指示3D场景的对象和/或实体的移动的向量。
在至少一个实施例中,参考帧6610包括一个或更多个图像,称为帧。在至少一个实施例中,参考帧6610对应于输入帧6602(例如,参考帧6610的每个帧对应于输入帧6602的帧)。在至少一个实施例中,参考帧6610包括场景的一个或更多个渲染。在至少一个实施例中,参考帧6610包括由视频游戏程序生成的帧。在至少一个实施例中,参考帧6610是用各种后处理技术和/或效果渲染的帧。在至少一个实施例中,参考帧6610是输入帧6602的较高质量版本。在至少一个实施例中,使用最小后处理技术和/或效果从场景渲染输入帧6602的第一帧,并且使用后处理技术和/或效果从相同场景渲染参考帧6610的第一帧。在至少一个实施例中,参考帧6610是使用64x超采样(64xSS)渲染的帧。
在至少一个实施例中,参考帧6610是由一个或更多个超级计算设备渲染的帧,如结合图26描述的那些。在至少一个实施例中,输入帧6602和参考帧6610是从同一计算机图形应用或程序(例如,同一视频游戏程序)渲染的帧。在至少一个实施例中,参考帧6610和运动向量由一个或更多个渲染设备生成,其中,输入帧6602和运动向量6604是通过一个或更多个过程(例如,对所生成的参考帧6610和/或运动向量进行缩减以获得输入帧6602和运动向量6604、从所生成的参考帧6610和/或运动向量去除一个或更多个后处理技术和/或效果以获得输入帧6602和运动向量6604、以及其变体)从所生成的参考帧6610和运动向量获得的。在至少一个实施例中,一个或更多个渲染设备从特定计算机图形应用或程序(例如,视频游戏程序)生成输入帧6602、运动向量6604和/或参考帧6610。
在至少一个实施例中,神经网络6606被训练成用于处理输入帧6602和运动向量6604并且生成非常接近或匹配相应的参考帧6610的输出帧6608。在至少一个实施例中,一个或更多个渲染设备通过一个或更多个计算机图形应用或程序来生成并存储输入帧6602、运动向量6604和参考帧6610,其中一个或更多个系统检索所存储的输入帧6602、运动向量6604和参考帧6610以训练神经网络6606。在至少一个实施方式中,神经网络6606是卷积自动编码器网络。在至少一个实施例中,神经网络6606是使用来自特定计算机图形应用或程序(例如,视频游戏程序)的帧和/或运动向量来训练的,并且可用于生成用于特定计算机图形应用或程序的帧。在至少一个实施例中,神经网络6606被训练成生成输入帧6602的高质量版本(例如,放大/较高分辨率帧、抗混叠帧)作为输出帧6608。在至少一个实施例中,神经网络6606被训练成放大输入帧6602的帧并将输入帧6602的帧抗混叠为输出帧6608。在至少一个实施例中,神经网络6606利用运动向量6604来生成输出帧6608。在至少一个实施例中,神经网络6606从输入帧6602和运动向量6604生成输出帧6608的第一输出帧,从输出帧6608的第一输出帧、输入帧6602、和运动向量6604生成输出帧6608的第二输出帧,等等,以用于输出帧6608的后续输出帧。在至少一个实施例中,神经网络6606将来自运动向量6604的运动向量集合应用于输出帧6608的帧,以生成输出帧6608的后续帧。在至少一个实施例中,神经网络6606利用运动向量6604作为将运动向量应用于输出帧以生成后续输出帧的一个或更多个时间反馈过程的一部分。
在至少一个实施例中,输出帧6608是输入帧6602的更高质量版本,其可以指各种质量,如更高的分辨率、更高程度的各种后处理技术和/或效果、和/或其变化。在至少一个实施例中,视频游戏程序结合一个或更多个计算机图形硬件执行,其中帧被渲染并被输入到神经网络6606,其中神经网络6606生成对应的更高质量的帧(例如,经放大和/或抗混叠帧)。在至少一个实施例中,神经网络6606被训练成利用来自帧(例如,输入帧6602)的各种后处理技术和/或效果以最小的后处理技术和/或效果输出帧(例如,输出帧6608)。在至少一个实施例中,神经网络6606分别获得帧和相应的运动向量,诸如输入帧6602和运动向量6604的帧和运动向量,并且生成相应的高质量输出帧,诸如输出帧6608的帧(例如,具有各种后处理技术和/或效果的帧,诸如经放大的帧、抗混叠的帧、经放大的和抗混叠的帧、和/或其变型)。在至少一个实施例中,神经网络6606获得输入帧(例如,输入帧6602的帧)、先前输出帧(例如,输出帧6608的先前生成的输出帧)、和运动向量(例如,运动向量6604的运动向量),并且生成输出帧(例如,输出帧6608的后续输出帧)。
在至少一个实施例中,通过将所生成的输出帧6608与参考帧6610进行比较来训练和/或更新神经网络6606。在至少一个实施例中,如本文至少结合图65所述的,训练和使用神经网络6606。在至少一个实施例中,神经网络6606由一个或更多个系统使用训练帧来训练或以其他方式更新,所述训练框架诸如PyTorch、TensorFlow、Boost、Caffe、MicrosoftCognitive Toolkit/CNTK、MXNet、Chainer、Keras、Deechiming4j或任何合适的训练帧。在至少一个实施例中,通过将输出帧6608与参考帧6610进行比较、确定输出帧6608与参考帧6610之间的差、以及利用所确定的差来更新神经网络6606的权重和其他组件从而使得输出帧6608与参考帧6610之间的差最小化,来训练神经网络6606。
在至少一个实施例中,训练至少以受监督的、部分受监督的和/或无监督的方式来执行。在至少一个实施例中,神经网络6606被训练成将输入帧6602与参考帧6610匹配。在至少一个实施例中,神经网络6606由一个或更多个系统来训练,该系统使得神经网络6606从输入帧6602的帧产生输出帧6608的输出帧,并测量输出帧6608的输出帧与参考帧6610的对应帧之间的差。在至少一个实施例中,神经网络6606由一个或更多个系统来训练,该系统使得神经网络6606获得输入帧6602的帧并执行一个或更多个神经网络图像处理/生成/渲染操作(例如,生成新像素,修改现有像素)以生成输出帧6608的输出帧,将输出帧6608的输出帧与参考帧6610的对应帧进行比较,并且至少部分地基于输出帧6608的输出帧与参考帧6610的对应帧的比较来调整神经网络6606的权重。在至少一个实施例中,通过将两个帧的像素彼此进行比较来将输出帧6608的帧与参考帧6610的帧进行比较。在至少一个实施例中,通过比较帧的像素特性(例如,像素强度、像素亮度、像素颜色、像素对比度)并测量像素特性的差异(例如,帧的像素之间的像素强度、像素亮度、像素颜色、像素对比度的差异)来比较帧。在至少一个实施例中,使用一个或更多个反向传播过程结合一个或更多个损失函数来训练神经网络6606。在至少一个实施例中,使用在此描述的各种技术(诸如结合图24描述的那些技术)来训练神经网络6606。
在至少一个实施例中,关于图66所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图66所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图66所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图66所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图66所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图66所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图66所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图67示出了根据至少一个实施例的使用超采样神经网络进行流式传输的示例。在至少一个实施例中,神经网络6708处理由渲染一个或更多个设备6704生成的一个或更多个帧6706以生成一个或更多个输出帧6710,该输出帧经由一个或更多个网络6712被流式传输到具有流式传输能力的设备6714。在至少一个实施例中,神经网络6708被称为DLSS网络、超采样神经网络、超采样网络和/或其变型。在至少一个实施例中,使用诸如结合图66所描述的那些技术来训练神经网络6708。
在至少一个实施例中,服务器6702是一个或更多个计算机硬件和/或软件组件的集合。在至少一个实施例中,服务器6702向被称为客户端的其他程序或设备提供不同功能。在至少一个实施例中,服务器6702提供流服务。在至少一个实施例中,流服务是指向用户提供流媒体的服务。在至少一个实施例中,流媒体是指多媒体(例如,视频、音频),其在由提供者递送的同时被不断地接收和呈现给用户。在至少一个实施例中,服务器6702提供视频游戏流式传输服务。在至少一个实施例中,服务器6702提供服务,其中视频游戏的帧在被服务器6702递送/生成的同时被不断地接收和呈现给用户。在至少一个实施例中,服务器6702包括渲染设备6704。
在至少一个实施例中,服务器6702包括实现神经网络6708的一个或更多个硬件和/或软件组件。在至少一个实施例中,服务器6702包括一个或更多个数据存储组件(例如,硬盘驱动器),其提供帧6706和输出帧6710的存储和处理。
在至少一个实施例中,一个或更多个渲染设备6704包括一个或更多个计算机图形渲染硬件和/或软件组件。在至少一个实施例中,一个或更多个渲染设备6704包括一个或更多个图形处理单元。在至少一个实施例中,一个或更多个渲染设备6704包括生成和/或渲染图形的一个或更多个计算设备。在至少一个实施例中,一个或更多个渲染设备6704包括从视频游戏生成渲染的一个或更多个计算设备。在至少一个实施例中,一个或更多个渲染设备6704渲染视频游戏或其他计算机图形程序的帧。在至少一个实施例中,渲染设备6704使用来自计算机图形程序(例如,视频游戏程序)的输入数据来渲染帧6706。
在至少一个实施例中,一个或更多个帧6706是由一个或更多个渲染设备6704渲染的帧。在至少一个实施例中,一个或更多个帧6706与指示一个或更多个帧6706的对象的移动方向的运动向量相关联。在至少一个实施例中,一个或更多个帧6706和相关联的运动向量由一个或更多个渲染设备6704生成。在至少一个实施例中,帧6706包括由特定视频游戏程序生成的帧。在至少一个实施例中,视频游戏程序由包括生成实时计算机图形的图形硬件(例如,一个或更多个渲染设备6704)的一个或更多个计算设备执行。在至少一个实施例中,视频游戏程序正在执行并生成3D场景,其中帧6706包括3D场景的渲染。在至少一个实施例中,一个或更多个帧6706是由渲染设备以不同硬件和软件约束(诸如图形硬件限制、存储器限制和/或其变型)渲染的帧。在至少一个实施例中,一个或更多个帧6706是用最小后处理技术(诸如抗混叠)渲染的帧(例如,一个或更多个帧6706包括用很小程度到没有程度的抗混叠渲染的帧)。
在至少一个实施例中,神经网络6708包括从输入帧生成高质量帧的一个或更多个神经网络。在至少一个实施例中,神经网络6708使用来自特定计算机图形应用或程序(例如,视频游戏程序)的帧来训练,并且可用于生成针对特定计算机图形应用或程序的帧。在至少一个实施例中,神经网络6708被训练成生成一个或更多个帧6706的高质量版本(例如,经放大/较高分辨率帧、抗混叠帧)。在至少一个实施例中,神经网络6708被训练成放大和抗混叠帧6706中的帧。在至少一个实施例中,视频游戏程序结合一个或更多个计算机图形硬件来执行,其中帧被渲染并被输入到神经网络6708(例如,帧6706被渲染设备6704渲染并被输入到神经网络6708),其中神经网络6708生成对应的更高质量的帧(例如,经放大和/或抗混叠的帧)。在至少一个实施例中,神经网络6708被训练成从具有最小后处理技术和/或效果的帧输出具有各种后处理技术和/或效果的帧。在至少一个实施例中,神经网络6708获得帧和相应的运动向量,并且生成相应的高质量输出帧(例如,具有各种后处理技术和/或效果的帧,诸如经放大的帧、抗混叠的帧、经放大的和抗混叠的帧、和/或其变型)。在至少一个实施例中,神经网络6708获得一个或更多个帧6706和运动向量并且生成一个或更多个输出帧6710。在至少一个实施例中,神经网络6708利用一个或更多个时间反馈过程,该一个或更多个时间反馈过程结合帧6706和相关联的运动向量来处理输出帧6710中的输出帧,以生成输出帧6710的后续帧。
在至少一个实施例中,输出帧6710对应于帧6706(例如,输出帧6710中的每个帧对应于帧6706中的一个帧)。在至少一个实施例中,一个或更多个输出帧6710是利用各种后处理技术和/或效果生成的帧。在至少一个实施例中,一个或更多个输出帧6710是一个或更多个帧6706的更高质量版本。在至少一个实施例中,一个或更多个输出帧6710包括一个或更多个帧6706的经放大(例如,较高分辨率)和/或抗混叠版本。
在至少一个实施例中,一个或更多个网络6712包括任何适合的计算机通信网络,如互联网。在至少一个实施例中,一个或更多个网络6712被密码保护、加密或以其他方式被保护。在至少一个实施例中,一个或更多个网络6712包括在其中发送和接收数据的一个或更多个计算机网络通信信道。在至少一个实施例中,一个或更多个网络6712提供服务器6702与有流式传输能力的设备6714之间的通信方法。在至少一个实施例中,经由网络6712将输出帧6710从服务器6702发送至具有流式传输能力的设备6714。
在至少一个实施例中,具有流式传输能力的设备6714是能够通过一个或更多个网络接收多媒体的计算设备。在至少一个实施例中,具有流式传输能力的设备6714是具有有限的图形渲染能力的设备,该设备不能渲染帧(如一个或更多个输出帧6710),但是能够经由一个或更多个网络6712访问服务器6702以获得一个或更多个输出帧6710。在至少一个实施例中,具有流式传输能力的设备6714是具有流式传输能力的计算设备,这样使得具有流式传输能力的设备6714包括从一个或更多个网络不断接收和/或获得多媒体的各种硬件和/或软件组件。在至少一个实施例中,具有流式传输能力的设备6714是计算设备,例如移动电话、膝上型计算机、计算机、游戏控制台、平板计算机、和/或其变体。在至少一个实施例中,具有流式传输能力的设备6714包括一个或更多个计算机网络组件,例如各种接收器、发射器、和/或收发器,这些组件获得和处理通过一个或更多个网络传输的多媒体。在至少一个实施例中,具有流式传输能力的设备6714可以由一个或更多个用户操作。在至少一个实施例中,具有流式传输能力的设备6714通过网络6712接收输出帧6710。在至少一个实施例中,具有流式传输能力的设备6714与在具有流式传输能力的设备6714上执行的显示和/或处理输出帧6710的一个或更多个程序相结合来接收输出帧6710。
在至少一个实施例中,具有流式传输能力的设备6714包括一个或更多个软件程序和/或应用程序,这些软件程序和/或应用程序处理所获得的一个或更多个输出帧6710并且提供一个或更多个输出帧6710以被一个或更多个用户观看(例如,经由具有流式传输能力的设备6714的电子视觉显示器)和/或与其交互(例如,经由具有流式传输能力的设备6714的各种用户输入硬件)。在至少一个实施例中,具有流式传输能力的设备6714包括一个或更多个电子视觉显示硬件,如液晶显示器(LCD)、发光二极管(LED)显示器、和/或其变体,以及一个或更多个用户输入硬件,如计算机鼠标、键盘、游戏控制器、和/或其变体,其中用户利用以与在具有流式传输能力的设备6714上执行的一个或更多个软件程序和/或应用进行交互。在至少一个实施例中,具有流式传输能力的设备6714经由网络6712向服务器6702提供用户输入的指示,其中,帧6706是由一个或更多个渲染设备6704至少部分地基于用户输入来生成的。
在至少一个实施例中,视频游戏程序在服务器6702上执行,其中帧6706是视频游戏程序的帧,其中帧6706由渲染设备6704来渲染,并且作为输出帧6710被处理和发送到具有流式传输能力的设备6714,其中用户结合输出帧6710与具有流式传输能力的设备6714交互(例如,输出帧6710是需要交互的视频游戏程序的帧,其中用户向具有流式传输能力的设备6714输入交互),其中用户交互被发送到服务器6702到视频游戏程序,以确定视频游戏程序的后续帧将如何由渲染设备6704渲染。在至少一个实施例中,帧6706至少部分地基于来自用户的输入结合具有流式传输能力的设备6714来渲染,并且由神经网络6708处理以生成输出帧6710,其中,一个或更多个输出帧6710被发送至具有流式传输能力的设备6714,其中,进一步的用户输入由具有流式传输能力的设备6714接收并且被发送至服务器6702以生成后续帧,然后后续帧由神经网络6708处理并发送到具有流式传输能力的设备6714,以此类推,用于后续帧和后续用户输入。
在至少一个实施例中,关于图67所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图67所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图67所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图67所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图67所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图67所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图67所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图68示出了根据至少一个实施例的使用超采样神经网络的模拟的示例。在至少一个实施例中,神经网络6808处理由一个或更多个渲染设备6804生成的一个或更多个帧6806以生成一个或更多个输出帧6810,输出帧6810被输出到一个或更多个模拟器显示器6812。在至少一个实施例中,神经网络6808被称为DLSS网络、超采样神经网络、超采样网络和/或其变型。在至少一个实施例中,使用诸如结合图66所描述的那些技术训练神经网络6808。
在至少一个实施例中,启用超采样神经网络的模拟器6802是一个或更多个计算机硬件和/或软件组件的集合。在至少一个实施例中,启用超采样神经网络的模拟器6802包括一个或更多个渲染设备6804。在至少一个实施例中,启用超采样神经网络的模拟器6802包括实现神经网络6808的一个或更多个硬件和/或软件组件。在至少一个实施例中,启用超采样神经网络的模拟器6802包括提供对帧6806和输出帧6810的存储和处理的一个或更多个数据存储组件(例如,硬盘驱动器)。
在至少一个实施例中,启用超采样神经网络的模拟器6802是执行不同模拟器程序(如飞行模拟器程序、驾驶模拟器程序、和/或其变体)的模拟器设备,如飞行模拟器、驾驶模拟器、和/或其变体。在至少一个实施例中,飞行模拟器是人工地重新创建飞机飞行和它飞行的环境的设备。在至少一个实施例中,飞行模拟器通过执行飞行模拟器程序来模拟飞行的各个方面,诸如飞机如何飞行的物理现象、飞机如何对各种飞行控制的应用作出反应、其他飞机系统的影响、以及诸如湍流、空气密度、风切变、云、降水、天气和/或其变化等因素对飞机的影响。在至少一个实施例中,飞行模拟器(例如,启用超采样神经网络的模拟器6802)包括模拟飞机的一个或更多个硬件组件,诸如飞机的驾驶舱的硬件,其允许用户与飞行模拟器进行交互(例如,硬件组件包括各种用户输入设备,诸如方向盘、控制器、操纵杆、按钮、开关、杠杆和/或其变型)。在至少一个实施例中,飞行模拟器包括用户结合飞行模拟器的硬件进行交互以模拟飞行的各个方面的一个或更多个显示器(例如,一个或更多个模拟器显示器6812)。在至少一个实施例中,驾驶模拟器是人工地重新创建机动车辆移动和机动车辆移动所在的环境的设备。在至少一个实施例中,驾驶模拟器通过执行驾驶模拟器程序来模拟机动车辆的操作的各个方面,诸如机动车辆的物理学、机动车辆如何对各种机动车辆控制的应用作出反应、其他机动车辆系统的影响、以及诸如环境变化、风、天气、和/或其变化等因素对机动车辆的影响。在至少一个实施例中,驾驶模拟器(例如,启用超采样神经网络的模拟器6802)包括模拟机动车辆的一个或更多个硬件组件,诸如机动车辆的驾驶员座椅的硬件,其允许用户与驾驶模拟器交互(例如,硬件组件包括各种用户输入设备,诸如方向盘、踏板、控制器、操纵杆、按钮、开关、杠杆和/或其变型)。在至少一个实施例中,驾驶模拟器包括用户结合驾驶模拟器的硬件进行交互以模拟驾驶或其他机动车辆操作的各个方面的一个或更多个显示器(例如,一个或更多个模拟器显示器6812)。在至少一个实施例中,一个或更多个模拟器显示器6812是启用超采样神经网络的模拟器6802的显示器。
在至少一个实施例中,一个或更多个渲染设备6804包括一个或更多个计算机图形渲染硬件和/或软件组件。在至少一个实施例中,一个或更多个渲染设备6804包括一个或更多个图形处理单元。在至少一个实施例中,一个或更多个渲染设备6804包括生成和/或渲染图形的一个或更多个计算设备。在至少一个实施例中,一个或更多个渲染设备6804包括从计算机图形程序(诸如视频游戏、模拟程序、模拟视频游戏和/或其变型)生成渲染的一个或更多个计算设备。在至少一个实施例中,一个或更多个渲染设备6804使用来自计算机图形程序(例如,模拟程序)的输入数据来渲染一个或更多个帧6806。
在至少一个实施例中,一个或更多个帧6806是由一个或更多个渲染设备6804渲染的帧。在至少一个实施例中,一个或更多个帧6806与指示一个或更多个帧6806的对象的移动方向的运动向量相关联。在至少一个实施例中,一个或更多个帧6806和相关联的运动向量由一个或更多个渲染设备6804生成。在至少一个实施例中,一个或更多个帧6806包括由特定模拟程序(诸如飞行模拟器程序、驾驶模拟器程序和/或其变型)生成的帧。在至少一个实施例中,模拟程序由包括生成实时计算机图形的图形硬件(例如,一个或更多个渲染设备6804)的一个或更多个计算设备执行。在至少一个实施例中,模拟程序正在执行并生成3D场景,其中帧6806包括3D场景的渲染。在至少一个实施例中,一个或更多个帧6806是用最小后处理技术(诸如抗混叠)来渲染的帧(例如,一个或更多个帧6806包括用很小程度到没有程度的抗混叠来渲染的帧)。
在至少一个实施例中,神经网络6808包括从输入帧生成高质量帧的一个或更多个神经网络。在至少一个实施例中,使用来自特定计算机图形应用或程序(例如,模拟程序)的帧来训练神经网络6808,并且该神经网络6808可用于生成针对特定计算机图形应用或程序的帧。在至少一个实施例中,神经网络6808被训练成生成一个或更多个帧6806的高质量版本(例如,放大/较高分辨率帧、抗混叠帧)。在至少一个实施例中,模拟程序结合一个或更多个计算机图形硬件执行,其中帧被渲染并被输入到神经网络6808(例如,帧6806被渲染设备6804渲染并被输入到神经网络6808),其中神经网络6808生成对应的更高质量的帧(例如,经放大和/或抗混叠的帧)。在至少一个实施例中,神经网络6808被训练成从具有最小后处理技术和/或效果的帧输出具有各种后处理技术和/或效果的帧。在至少一个实施例中,神经网络6808获得帧和相应的运动向量,并且生成相应的高质量输出帧(例如,具有各种后处理技术和/或效果的帧,诸如经放大/较高分辨率帧、抗混叠的帧、经放大和抗混叠的帧、和/或其变型)。在至少一个实施例中,神经网络6808获得一个或更多个帧6806和/或运动向量并且生成一个或更多个输出帧6810。在至少一个实施例中,神经网络6808利用一个或更多个时间反馈过程,一个或更多个时间反馈过程结合帧6806和相关联的运动向量来处理一个或更多个输出帧6810的输出帧以生成一个或更多个输出帧6810的后续帧。
在至少一个实施例中,一个或更多个输出帧6810对应于一个或更多个帧6806(例如,一个或更多个输出帧6810中的每个帧对应于一个或更多个帧6806中的帧)。在至少一个实施例中,一个或更多个输出帧6810是用各种后处理技术和/或效果生成的帧。在至少一个实施例中,一个或更多个输出帧6810是一个或更多个帧6806的更高质量版本。在至少一个实施例中,一个或更多个输出帧6810包括一个或更多个帧6806的放大的和/或抗混叠的版本。在至少一个实施例中,一个或更多个输出帧6810被显示在一个或更多个模拟器显示器6812上作为一个或更多个模拟器(例如,启用超采样神经网络的模拟器6802)的操作的一部分,诸如执行飞行模拟器程序的飞行模拟器、执行驾驶模拟器程序的驾驶模拟器和/或其变型。在至少一个实施例中,用户正在操作启用超采样神经网络的模拟器6802,并且至少部分地基于在模拟器显示器6812上显示的输出帧6810,通过一个或更多个用户输入设备执行一个或更多个动作。
在至少一个实施例中,关于图68所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图68所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图68所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图68所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图68所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图68所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图68所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
图69示出了根据至少一个实施例的使用超采样神经网络的设备的示例。在至少一个实施例中,神经网络6906处理由多媒体系统6902生成的一个或更多个帧6904以生成一个或更多个输出帧6908,其被输出到一个或更多个多媒体系统显示器6910。在至少一个实施例中,神经网络6906被称为DLSS网络、超采样神经网络、超采样网络和/或其变体。在至少一个实施例中,使用诸如结合图66所描述的那些技术来训练神经网络6906。
在至少一个实施例中,多媒体系统6902是一个或更多个计算机硬件和/或软件组件的集合。在至少一个实施例中,多媒体系统6902包括一个或更多个渲染设备。在至少一个实施例中,多媒体系统6902包括实现神经网络6906的一个或更多个硬件和/或软件组件。在至少一个实施例中,多媒体系统6902包括一个或更多个数据存储组件(例如,硬盘驱动器),其提供帧6904和输出帧6908的存储和处理。在至少一个实施例中,多媒体系统6902是游戏控制台,诸如根据图63描述的那些。在至少一个实施例中,多媒体系统6902是处理多媒体的任何合适的计算设备,诸如计算机、平板、游戏设备、游戏控制台、移动设备和/或其变型。在至少一个实施例中,一个或更多个多媒体系统显示器6910是显示来自多媒体系统6902的数据(例如,多媒体、视频游戏)的一个或更多个电子视觉显示硬件。在至少一个实施例中,一个或更多个多媒体系统显示器6910是多媒体系统6902的显示器。
在至少一个实施例中,多媒体系统6902包括一个或更多个计算机图形渲染硬件和/或软件组件。在至少一个实施例中,多媒体系统6902包括一个或更多个图形处理单元。在至少一个实施例中,多媒体系统6902包括生成和/或渲染图形的一个或更多个计算设备。在至少一个实施例中,多媒体系统6902包括执行各种程序(诸如视频游戏程序、软件应用、软件程序和/或其变型)的一个或更多个处理器。在至少一个实施例中,多媒体系统6902包括从诸如视频游戏之类的计算机图形程序生成渲染的一个或更多个计算设备。在至少一个实施例中,多媒体系统6902使用来自在多媒体系统6902上执行的计算机图形程序(例如,视频游戏程序)的输入数据来渲染帧6904。在至少一个实施例中,多媒体系统6902包括允许用户与多媒体系统6902进行交互的一个或更多个硬件组件(例如,硬件组件包括各种用户输入设备,如控制器、操纵杆、按钮、开关、杠杆和/或其变体)。在至少一个实施例中,多媒体系统6902连接到允许用户与在多媒体系统6902上执行的各种程序(例如,视频游戏程序)交互的一个或更多个用户输入设备。
在至少一个实施例中,一个或更多个帧6904是由多媒体系统6902渲染的帧。在至少一个实施例中,帧6904与指示帧6904的对象的移动方向的运动向量相关联。在至少一个实施例中,帧6904和相关联的运动向量由多媒体系统6902生成。在至少一个实施例中,帧6904包括由特定视频游戏程序生成的帧。在至少一个实施例中,视频游戏程序由包括生成实时计算机图形的图形硬件(例如,多媒体系统6902)的一个或更多个计算设备执行。在至少一个实施例中,视频游戏程序正在执行并生成3D场景,其中帧6904包括3D场景的渲染。在至少一个实施例中,一个或更多个帧6904是用最小后处理技术(诸如抗混叠)渲染的帧(例如,一个或更多个帧6904包括用很小程度到没有程度的抗混叠渲染的帧)。
在至少一个实施例中,神经网络6906包括从输入帧生成高质量帧的一个或更多个神经网络。在至少一个实施例中,神经网络6906使用来自特定计算机图形应用或程序(例如,视频游戏程序)的帧来训练,并且可用于生成特定计算机图形应用或程序的帧。在至少一个实施例中,神经网络6906被训练成生成一个或更多个帧6904的高质量版本(例如,经放大/较高分辨率帧、抗混叠帧)。在至少一个实施例中,视频游戏程序结合一个或更多个计算机图形硬件执行,其中帧被渲染并输入到神经网络6906(例如,帧6904由多媒体系统6902渲染并输入到神经网络6906),其中神经网络6906生成相应的较高质量帧(例如,经放大/较高分辨率和/或抗混叠帧)。在至少一个实施例中,神经网络6906被训练成从具有最小后处理技术和/或效果的帧输出具有各种后处理技术和/或效果的帧。在至少一个实施例中,神经网络6906获得帧和相应的运动向量,并且生成相应的高质量输出帧(例如,具有各种后处理技术和/或效果的帧,如经放大/较高分辨率帧、抗混叠的帧、经放大和抗混叠的帧、和/或其变型)。在至少一个实施例中,神经网络6906获得帧6904和/或运动向量并生成输出帧6908。在至少一个实施例中,神经网络6906利用一个或更多个时间反馈过程,该一个或更多个时间反馈过程结合帧6904和相关联的运动向量处理输出帧6908的输出帧以生成输出帧6908的后续帧。
在至少一个实施例中,一个或更多个输出帧6908对应于帧6904(例如,输出帧6908中的每个帧对应于帧6904中的一个帧)。在至少一个实施例中,一个或更多个输出帧6908是用各种后处理技术和/或效果生成的帧。在至少一个实施例中,一个或更多个输出帧6908是帧6904的更高质量版本。在至少一个实施例中,一个或更多个输出帧6908包括帧6904的放大的和/或抗混叠的版本。在至少一个实施例中,神经网络6906在一个或更多个帧6904的帧由多媒体系统6902渲染时不断生成一个或更多个输出帧6908的输出帧。在至少一个实施例中,一个或更多个输出帧6908被显示在多媒体显示器6910上作为一个或更多个视频游戏程序的操作的一部分。在至少一个实施例中,用户正在操作多媒体系统6902并且通过一个或更多个用户输入设备至少部分地基于显示在一个或更多个多媒体显示器6910上的一个或更多个输出帧6908来执行一个或更多个动作。
在至少一个实施例中,上面公开的任何实施例中的系统和/或处理器的一个或更多个组件可以包括将由处理器执行的软件模块,所述处理器诸如用于对图像或帧进行放大的放大器或上采样器、用于将图像融合、混合或相加在一起的一个或更多个图像融合器、用于对图像进行采样的采样器(例如,作为DSP的一部分)。在至少一个实施例中,上面公开的系统和/或处理器的一个或更多个组件包括一个或更多个神经网络电路或电路系统,用于执行放大器以放大图像(例如,从低分辨率图像到高分辨率图像,诸如1080p到4K)。
在至少一个实施例中,上面在任何实施例中公开的系统和/或处理器的一个或更多个组件可以与一个或更多个CPU、核心、处理器核、ASIC、GPU、FPGA或其他硬件、电路系统或集成电路组件进行通信,以使用神经网络、执行神经网络的操作、或执行神经网络以将较低分辨率(LR)图像(例如,1080p)放大到高分辨率(HR)图像(例如4K),它可以被称为“超分辨率(SR)”图像,因为它比所述LR图像具有更高的分辨率。在至少一个实施例中,上面的任何实施例可用于将图像或帧从低分辨率或较低分辨率放大到高于所述低分辨率或较低分辨率图像或帧的目标(例如,期望的)分辨率。例如,包括CPU和加速器(例如,GPU)的SoC可以执行对较低分辨率或低分辨率帧或图像的放大,以生成高分辨率图像,其中所述CPU可以将用于放大所述图像或帧的一些神经网络操作卸载到加速器(例如,GPU)。在至少一个实施例中,上面的任何实施例中公开的系统和/或处理器的一个或更多个组件可以与一个或更多个CPU、ASIC、GPU、FPGA或其他硬件、电路系统或集成电路组件进行通信,以使用神经网络或执行神经网络的操作,以渲染HR中的帧序列视频。
在至少一个实施例中,上面的任何实施例中公开的系统和/或处理器的一个或更多个组件可以与一个或更多个CPU、ASIC、GPU、FPGA或其他硬件、电路系统或集成电路组件进行通信,以在上采样或放大图像或帧之时或之前执行时间抗混叠,例如,将执行抗混叠操作的CPU和/或GPU集成到图像渲染管线中。在至少一个实施例中,上面的任何实施例中公开的系统和/或处理器的一个或更多个组件执行由VULKAN提供并用于图像渲染过程的API。在至少一个实施例中,上面的任何实施例中公开的系统和/或处理器的一个或更多个组件在使用神经网络放大所述图像或帧之前对较低分辨率图像或帧执行色调映射。
在至少一个实施例中,上面的任何实施例中公开的系统和/或处理器的一个或更多个组件包括一个或更多个矩阵引擎(例如,由处理器或核心执行的软件),用于作为对图像进行放大或上采样的神经网络操作的一部分而计算或执行矩阵运算,诸如矩阵乘法。在至少一个实施例中,上面的任何实施例中公开的系统和/或处理器的一个或更多个组件包括一个或更多个向量引擎(例如,由处理器或核心执行的软件),用于计算或执行诸如向量乘法或向量加法之类的向量运算。在至少一个实施例中,矩阵引擎和向量引擎可以是处理器或渲染切片的核心的一部分,并且其中每个核心被电耦合到指令高速缓存、L1高速缓存以及加载和存储单元(也被称为“加载/存储”)。
在至少一个实施例中,上面的任何实施例中公开的系统和/或处理器的一个或更多个组件执行用于向经上采样的或经放大的图像添加效果的操作。在至少一个实施例中,效果可以包括引入噪声、降低噪声、应用色彩效果、应用色差效果、应用阴影效果和/或应用其他效果以改变经上采样的帧或图像。
在至少一个实施例中,关于图69所示或所述的至少一个组件用于执行结合图1-22所述的技术和/或功能。在至少一个实施例中,关于图69所示或所述的至少一个组件用于执行应用程序编程接口(API),以指示对使用一个或更多个神经网络来执行帧插值的支持。在至少一个实施例中,关于图69所示或所述的至少一个组件用于执行应用程序编程接口(API),以启用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图69所示或所述的至少一个组件用于执行应用程序编程接口(API),以禁用使用一个或更多个神经网络的帧插值。在至少一个实施例中,关于图69所示或所述的至少一个组件用于执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。在至少一个实施例中,关于图69所示或所述的至少一个组件用于执行应用程序编程接口(API),以使得使用一个或更多个神经网络执行帧插值。在至少一个实施例中,关于图69所示或所述的至少一个组件用于执行关于示例示意图100、示例示意图200、示例示意图300、示例示意图400、示例示意图500、示例示意图600、示例示意图700、示例示意图800、示例示意图900、示例示意图1000、示例示意图1100、示例示意图1200、示例示意图1300、示例示意图1400、示例示意图1500、示例示意图1600、示例示意图1700、示例示意图1800、示例示意图1900、示例示意图2000、示例过程2100、示例示意图2200和/或本文所述的其他系统、方法或操作描述的至少一个方面。
本公开的至少一个实施例可以考虑以下条款来描述:
1.一种处理器,包括:
一个或更多个电路,所述一个或更多个电路用于执行应用程序编程接口API,以使用一个或更多个神经网络来指示帧大小信息。
2.如条款1所述的处理器,其中所述API用于指示能够由所述一个或更多个神经网络使用以执行帧插值的视频帧的帧大小信息。
3.如条款1或2所述的处理器,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示能够用于返回至少部分地基于所述帧大小信息而确定的最佳渲染大小的最佳渲染器大小位置。
4.如条款1-3中任一项所述的处理器,其中所述API用于接收一个或更多个输入参数,所述一个或更多个输入参数指示能够用于返回至少部分地基于所述帧大小信息而确定的最小渲染大小的最小渲染器大小位置。
5.如条款1-4中任一项所述的处理器,其中所述API用于接收一个或更多个输入参数,所述一个或更多个输入参数指示能够用于返回至少部分地基于所述帧大小信息而确定的最大渲染大小的最大渲染器大小位置。
6.如条款1-5中任一项所述的处理器,其中所述API用于接收一个或更多个输入参数,所述一个或更多个输入参数指示能够用于返回至少部分地基于所述帧大小信息而确定的清晰度的清晰度位置。
7.如条款1-6中任一项所述的处理器,其中所述API用于获取一组渲染参数,所述一组渲染参数能够由第二API使用以使得使用所述一个或更多个神经网络来执行帧插值。
8.一种计算机实现的方法,包括:
执行应用程序编程接口(API),以使用一个或更多个神经网络指示帧大小信息。
9.如条款8所述的计算机实现的方法,其中所述API用于指示能够用于使用所述一个或更多个神经网络执行帧插值的视频帧的帧大小信息。
10.如条款8或9所述的计算机实现的方法,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示一个或更多个处理器的所述帧大小信息将被指示的所述一个或更多个处理器。
11.如条款8-10中任一项所述的计算机实现的方法,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示能够用于使用所述一个或更多个神经网络执行帧插值的视频帧的渲染器质量。
12.如条款8-11中任一项所述的计算机实现的方法,其中所述API用于返回至少部分地基于所述帧大小信息而确定的最佳渲染大小。
13.如条款8-12中任一项所述的计算机实现的方法,其中所述API用于返回至少部分地基于所述帧大小信息而确定的最小渲染大小。
14.如条款8-13中任一项所述的计算机实现的方法,其中所述API用于返回至少部分地基于所述帧大小信息而确定的最大渲染大小。
15.一种计算机系统,包括:
一个或更多个处理器和存储器,所述存储器存储可执行指令,所述可执行指令如果由所述一个或更多个处理器执行,则执行应用程序编程接口API,以使用一个或更多个神经网络指示帧大小信息。
16.如条款15所述的计算机系统,其中所述API用于指示能够用于使用所述一个或更多个神经网络执行所述帧插值的视频帧的帧大小信息。
17.如条款15或16所述的计算机系统,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示一个或更多个图形处理单元GPU的所述帧大小信息将被指示的所述一个或更多个GPU。
18.如条款15-17中任一项所述的计算机系统,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示能够用于使用所述一个或更多个神经网络执行帧插值的视频帧的渲染器质量。
19.如条款15-18中任一项所述的计算机系统,其中所述API用于至少部分地基于所述帧大小信息获取一组渲染参数。
20.如条款15-19中任一项所述的计算机系统,其中所述API用于获取一组渲染参数,所述一组渲染参数能够由第二API使用以使得使用所述一个或更多个神经网络执行帧插值。
在至少一个实施例中,单个半导体平台可以指基于唯一单一半导体的集成电路或芯片。在至少一个实施例中,可以使用具有增加的连接性的多芯片模块,该多芯片模块模拟芯片上操作,并且相对于利用常规中央处理单元(“CPU”)和总线实现方式做出实质性改进。在至少一个实施例中,各种模块也可以根据用户的期望单独地位于半导体平台的各种组合中。
在至少一个实施例中,返回参考图29,呈机器可读可执行代码或计算机控制逻辑算法形式的计算机程序被存储在主存储器2904和/或辅助存储器中。计算机程序在由一个或更多个处理器执行时使得系统2900能够根据至少一个实施例执行各种功能。在至少一个实施例中,存储器2904、存储装置和/或任何其他存储装置是计算机可读介质的可能示例。在至少一个实施例中,辅助存储器可以指代任何合适的存储设备或系统,如硬盘驱动器和/或可移动存储驱动器,表示软盘驱动器、磁带驱动器、致密盘驱动器、数字通用盘(“DVD”)驱动器、记录设备、通用串行总线(“USB”)闪存等。在至少一个实施例中,在CPU 2902、并行处理系统2912、能够进行CPU 2902、并行处理系统2912两者的至少一部分能力的集成电路、芯片组(例如,被设计为作为用于执行相关功能的单元而工作和销售的一组集成电路等)、和/或集成电路的任何合适组合的上下文中实现不同先前附图的架构和/或功能。
在至少一个实施例中,在通用计算机系统、电路板系统、专用于娱乐目的的游戏控制台系统、专用系统等等的背景下实施不同先前附图的架构和/或功能性。在至少一个实施例中,计算机系统2900可以采取以下形式:台式计算机、膝上型计算机、平板计算机、服务器、超级计算机、智能电话(例如,无线手持式设备)、个人数字助理(“PDA”)、数码摄像机、车辆、头戴式显示器、手持式电子设备、移动电话设备、电视机、工作站、游戏控制台、嵌入式系统、和/或任何其他类型的逻辑。
在至少一个实施例中,并行处理系统2912包括但不限于多个并行处理单元(“PPU”)2914和相关联的存储器2916。在至少一个实施例中,PPU 2914经由互连2918和交换机2920或多路复用器连接到主机处理器或其他外围设备。在至少一个实施例中,并行处理系统2912跨PPU 2914分配计算任务,这些PPU可以是可并行的——例如,作为跨多个图形处理单元(“GPU”)线程块分配计算任务的一部分。在至少一个实施例中,跨PPU 2914中的一些或全部来共享和访问(例如,用于读和/或写访问)存储器,但是这种共享存储器可能会引起相对于使用本地存储器和驻留在PPU 2914中的寄存器的性能损失。在至少一个实施例中,PPU 2914的操作通过使用命令(诸如___syncothreads())来同步,其中,块中的所有线程(例如,跨多个PPU 2914执行)在继续之前达到代码的执行的某个点。
其他变型是在本披露的精神内。因此,虽然所公开的技术易受不同修改和替代构造的影响,但是其某些所示实施例在附图中示出并且在上文已经详细描述。然而,应当理解,并不旨在将本公开限制于所公开的一种或多种具体形式,而是相反,旨在覆盖落入如所附权利要求所限定的本公开的精神和范围内的所有修改、替代构造和等同物。
在描述所披露的实施例的上下文中(尤其是在以下权利要求的上下文中),术语“一个”和“一种”以及“所述”以及类似指示物的使用应被解释为涵盖单数和复数两者,除非在此另外指示或与上下文明显矛盾,并且不是作为术语的定义。除非另外指出,否则术语“包括”、“具有”、“包括”和“含有”应被解释为开放式术语(意味着“包括但不限于”)。当未修改并且指代物理连接时,“连接”应被解释为部分地或完全地包括在、附接至或连接在一起,即使存在介入物。除非本文中另外指明,否则本文中的值的范围的列举仅旨在用作单独地提及落入范围内的每个单独值的速记方法,并且每个单独值如同其在本文中单独地列举一样被结合到说明书中。在至少一个实施例中,除非另外指明或上下文矛盾,否则术语“集合”(例如,“项目集合”)或“子集”的使用将被解释为包括一个或更多个成员的非空集合。此外,除非另有说明或与上下文矛盾,否则术语对应集的“子集”不一定表示对应集的合适子集,而是子集和对应集可以相等。
除非另外确切地陈述或另外与上下文明显矛盾,否则连接语言(如“A、B和C中的至少一个”或“A、B和C中的至少一个”形式的短语)另外与通常使用的上下文一起被理解为呈现项目、术语等可以是A或B或C、或A和B和C的集合的任何非空子集。例如,在具有三个成员的组的示例性实例中,连接短语“A、B以及C中的至少一个”以及“A、B以及C中的至少一个”指以下组中的任一个:{A}、{B}、{C}、{A、B}、{A、C}、{B、C}、{A、B、C}。因此,这种连接语言一般不旨在暗示某些实施例要求各自存在A中的至少一个、B中的至少一个以及C中的至少一个。此外,除非上下文另有说明或矛盾,否则术语“多个”表示多个状态(例如,“多个项”表示多个项)。在至少一个实施例中,多个中的项的数目是至少两个,但是当显式地或通过上下文这样指示时可以更多。此外,除非另外陈述或从上下文另外清楚,否则短语“基于”是指“至少部分地基于”而不是“单独地基于”。
在此描述的过程的操作可以按任何适合的顺序执行,除非在此另外指示或另外与上下文明显矛盾。在至少一个实施例中,诸如本文中描述的那些过程(或其变型和/或组合)的过程在配置有可执行指令的一个或更多个计算机系统的控制下执行,并且通过硬件或其组合实施为在一个或更多个处理器上共同执行的代码(例如,可执行指令、一个或更多个计算机程序或一个或更多个应用)。在至少一个实施例中,代码例如以包括可由一个或更多个处理器执行的多个指令的计算机程序的形式存储在计算机可读存储介质上。在至少一个实施例中,计算机可读存储介质是非瞬态计算机可读存储介质,该非瞬态计算机可读存储介质不包括瞬态信号(例如,传播瞬态电或电磁传输)但包括在瞬态信号的收发器内的非瞬态数据存储电路(例如,缓冲区、高速缓存、和队列)。在至少一个实施例中,代码(例如,可执行代码或源代码)存储在具有存储在其上的可执行指令(或用于存储可执行指令的其他存储器)的一个或更多个非暂态计算机可读存储介质的集合上,所述可执行指令当由计算机系统的一个或更多个处理器执行(即,由于被执行)时使计算机系统执行本文中所描述的操作。在至少一个实施例中,一组非暂态计算机可读存储介质包括多个非暂态计算机可读存储介质,并且多个非暂态计算机可读存储介质中的单独的非暂态存储介质中的一个或更多个缺少所有代码,而多个非暂态计算机可读存储介质共同地存储所有代码。在至少一个实施例中,可执行指令被执行,使得不同的指令被不同的处理器执行一例如,非瞬态计算机可读存储介质存储指令,并且主中央处理单元(“CPU”)执行一些指令,而图形处理单元(“GPU”)执行其他指令。在至少一个实施例中,计算机系统的不同组件具有单独的处理器并且不同的处理器执行不同的指令子集。
因此,在至少一个实施例中,计算机系统被配置成实施一个或更多个服务,该一个或更多个服务单独地或共同地执行在此所描述的过程的操作,并且这样的计算机系统被配置有能够执行操作的适用硬件和/或软件。进一步,实现本公开的至少一个实施例的计算机系统是单个设备,并且在另一个实施例中,是分布式计算机系统,其包括不同地操作的多个设备,使得分布式计算机系统执行本文描述的操作,并且使得单个设备不执行所有操作。
使用在此提供的任何和所有实例或示例性语言(例如,“如”)仅旨在更好地阐明本披露的实施例并且不对本披露的范围造成限制,除非另外要求。说明书中的语言不应被解释为指示任何未要求保护的元件对本公开的实践是必不可少的。
在此引用的所有参考文献(包括出版物、专利申请、以及专利)通过引用结合在此,其程度如同每个参考文献被单独地并且特别地指明通过引用结合在此,并且以其全文在此列出。
在说明书和权利要求书中,可以使用术语“耦接”和“连接”以及它们的派生词。应当理解,这些术语并不旨在作为彼此的同义词。相反,在具体示例中,“连接”或“耦接”可以用于指示两个或更多个元件彼此直接或间接物理或电接触。“耦接”还可以意味着两个或更多个元件彼此不直接接触,但仍彼此合作或交互。
除非另外确切地陈述,否则应当理解的是,贯穿说明书术语如“处理”、“计算”、“计算”、“确定”或类似术语是指计算机或计算系统或类似电子计算设备的动作和/或过程,该动作和/或过程将表示为计算系统的寄存器和/或存储器内的物理(如电子)量的数据操纵和/或转换为类似地表示为计算系统的存储器、寄存器或其他此类信息存储、传输或显示设备内的物理量的其他数据。
以类似的方式,术语“处理器”可以指处理来自寄存器和/或存储器的电子数据并且将该电子数据转换成可以存储在寄存器和/或存储器中的其他电子数据的任何装置或装置的一部分。作为非限制性实例,“处理器”可以是CPU或GPU。“计算平台”可以包括一个或更多个处理器。如本文所使用的,“软件”过程可包括例如随时间执行工作的软件和/或硬件实体,诸如任务、线程和智能代理。而且,每个过程可以指用于顺序地或并行地、连续地或间歇地执行指令的多个过程。在至少一个实施例中,术语“系统”和“方法”在此可互换地使用,只要系统可以体现一个或更多个方法并且方法可以被认为是系统。
在本文件中,可以参考获得、获取、接收或输入模拟或数字数据到子系统、计算机系统或计算机实现的机器中。在至少一个实施例中,获得、获取、接收或输入模拟和数字数据的过程可以以各种方式完成,诸如通过接收数据作为函数调用或对应用程序编程接口的调用的参数。在至少一个实施例中,获得、获取、接收或输入模拟或数字数据的过程可以通过经由串行或并行接口传送数据来完成。在至少一个实施例中,获得、获取、接收或输入模拟或数字数据的过程可通过经由计算机网络从提供实体向获取实体传送数据来完成。在至少一个实施例中,还可参考提供、输出、传送、发送或呈现模拟或数字数据。在不同示例中,提供、输出、传送、发送或呈现模拟或数字数据的过程可以通过传送数据作为函数调用的输入或输出参数、应用程序编程接口或进程间通信机制的参数来实现。
尽管本文中的描述阐述了所描述的技术的示例实现方式,但其他架构可以用于实现所描述的功能,并且旨在处于本披露的范围内。此外,尽管出于描述的目的可在上文定义职责的特定分布,但可根据环境以不同方式分布和划分不同功能和职责。
此外,尽管已经用结构特征和/或方法动作专用的语言描述了主题,但可以理解,所附权利要求书中所要求保护的主题不必限于所述具体特征或动作。相反,特定特征和动作被公开为实现权利要求的示例性形式。
Claims (20)
1.一种处理器,包括:
一个或更多个电路,所述一个或更多个电路用于执行应用程序编程接口API,以使用一个或更多个神经网络来指示帧大小信息。
2.如权利要求1所述的处理器,其中所述API用于指示能够由所述一个或更多个神经网络使用以执行帧插值的视频帧的帧大小信息。
3.如权利要求1所述的处理器,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示能够用于返回至少部分地基于所述帧大小信息而确定的最佳渲染大小的最佳渲染大小位置。
4.如权利要求1所述的处理器,其中所述API用于接收一个或更多个输入参数,所述一个或更多个输入参数指示能够用于返回至少部分地基于所述帧大小信息而确定的最小渲染大小的最小渲染大小位置。
5.如权利要求1所述的处理器,其中所述API用于接收一个或更多个输入参数,所述一个或更多个输入参数指示能够用于返回至少部分地基于所述帧大小信息而确定的最大渲染大小的最大渲染大小位置。
6.如权利要求1所述的处理器,其中所述API用于接收一个或更多个输入参数,所述一个或更多个输入参数指示能够用于返回至少部分地基于所述帧大小信息而确定的清晰度的清晰度位置。
7.如权利要求1所述的处理器,其中所述API用于获取一组渲染参数,所述一组渲染参数能够由第二API使用以使得使用所述一个或更多个神经网络来执行帧插值。
8.一种计算机实现的方法,包括:
执行应用程序编程接口API,以使用一个或更多个神经网络指示帧大小信息。
9.如权利要求8所述的计算机实现的方法,其中所述API用于指示能够用于使用所述一个或更多个神经网络执行帧插值的视频帧的帧大小信息。
10.如权利要求8所述的计算机实现的方法,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示一个或更多个处理器的所述帧大小信息将被指示的所述一个或更多个处理器。
11.如权利要求8所述的计算机实现的方法,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示能够用于使用所述一个或更多个神经网络执行帧插值的视频帧的渲染质量。
12.如权利要求8所述的计算机实现的方法,其中所述API用于返回至少部分地基于所述帧大小信息而确定的最佳渲染大小。
13.如权利要求8所述的计算机实现的方法,其中所述API用于返回至少部分地基于所述帧大小信息而确定的最小渲染大小。
14.如权利要求8所述的计算机实现的方法,其中所述API用于返回至少部分地基于所述帧大小信息而确定的最大渲染大小。
15.一种计算机系统,包括:
一个或更多个处理器和存储器,所述存储器存储可执行指令,所述可执行指令如果由所述一个或更多个处理器执行,则执行应用程序编程接口API,以使用一个或更多个神经网络指示帧大小信息。
16.如权利要求15所述的计算机系统,其中所述API用于指示能够用于使用所述一个或更多个神经网络执行所述帧插值的视频帧的帧大小信息。
17.如权利要求15所述的计算机系统,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示一个或更多个图形处理单元GPU的所述帧大小信息将被指示的所述一个或更多个GPU。
18.如权利要求15所述的计算机系统,其中所述API用于接收一个或更多个输入值,所述一个或更多个输入值指示能够用于使用所述一个或更多个神经网络执行帧插值的视频帧的渲染质量。
19.如权利要求15所述的计算机系统,其中所述API用于至少部分地基于所述帧大小信息获取一组渲染参数。
20.如权利要求15所述的计算机系统,其中所述API用于获取一组渲染参数,所述一组渲染参数能够由第二API使用以使得使用所述一个或更多个神经网络执行帧插值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/408,469 | 2022-09-20 | ||
US18/106,971 US20240104690A1 (en) | 2022-09-20 | 2023-02-07 | Application programming interface to indicate frame size information |
US18/106,971 | 2023-02-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117750073A true CN117750073A (zh) | 2024-03-22 |
Family
ID=90278161
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311222505.8A Pending CN117750073A (zh) | 2022-09-20 | 2023-09-20 | 用于指示帧大小信息的应用程序编程接口 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117750073A (zh) |
-
2023
- 2023-09-20 CN CN202311222505.8A patent/CN117750073A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113766343B (zh) | 使用一个或更多个神经网络进行视频合成 | |
EP3843029A1 (en) | Panorama generation using one or more neural networks | |
US20220114702A1 (en) | Upsampling an image using one or more neural networks | |
CN115777109A (zh) | 使用一个或更多个神经网络的视图生成 | |
US20210346806A1 (en) | Reaction prediction using one or more neural networks | |
US20220148256A1 (en) | Image blending using one or more neural networks | |
CN115917584A (zh) | 使用合成数据训练一个或更多个神经网络 | |
CN114549298A (zh) | 使用一个或更多个神经网络对图像进行上采样 | |
WO2022020179A1 (en) | Image generation using one or more neural networks | |
CN115439341A (zh) | 用于图像处理和光传输模拟系统和应用的使用向量的时空噪声掩模和采样 | |
CN116362967A (zh) | 生成图像混合权重 | |
KR20240101535A (ko) | 하나 이상의 신경망을 사용하는 이미지 혼합 | |
CN115689908A (zh) | 用于基于神经网络的图像生成的像素混合 | |
CN115552453A (zh) | 使用一个或更多个神经网络的图像生成 | |
CN117750070A (zh) | 视频帧混合 | |
US20240095097A1 (en) | Application programming interface to cause performance of frame interpolation | |
US20230267624A1 (en) | Computing optical flow using semi-global matching | |
CN116245707A (zh) | 使用一个或更多个神经网络的时间图像混合 | |
CN115439340A (zh) | 用于图像处理的时空噪声掩模 | |
US20240104690A1 (en) | Application programming interface to indicate frame size information | |
US20240095881A1 (en) | Application programming interface to disable frame interpolation | |
US20240104692A1 (en) | Application programming interface to indicate frame interpolation support | |
US20240104689A1 (en) | Application programming interface to enable frame interpolation | |
US20240095880A1 (en) | Using a neural network to generate an upsampled image | |
CN117750073A (zh) | 用于指示帧大小信息的应用程序编程接口 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |